CN114428814A

CN114428814A - 一种大数据集不同尺度聚合自助分析建模方法

Info

Publication number: CN114428814A
Application number: CN202111647388.0A
Authority: CN
Inventors: 汤奇峰; 葛虎跃
Original assignee: Shanghai Jingzan Rongxuan Technology Co ltd
Current assignee: Shanghai Jingzan Rongxuan Technology Co ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-05-03

Abstract

本发明涉及大数据领域，且公开了一种大数据集不同尺度聚合自助分析建模方法，包括以下步骤：S1：先进行独立场景建模，根据业务分析场景，将复杂分析任务分解成独立核心场景分析任务，依据维度建模理论构建出围绕维度+度量的核心事实表的星型模型，通过ETL过程将模型传递到麒麟作预计算加速；S2：然后构建桥接表，先分析复杂下钻指标，提取出公共下钻维度和独立下钻维度，将公共下钻维度独立出来构建出桥接表，并将该桥接表与独立事实表通过公共维度关联，并放入麒麟中作预计算加速，S3：对接BI工具，基于不同BI工具使用不同的对接方式，通过实现多个模型不同聚合尺度联合计算的统一建模分析的方法达到即时可交互式分析要求。

Description

一种大数据集不同尺度聚合自助分析建模方法

技术领域

本发明涉及大数据领域，具体为一种大数据集不同尺度聚合自助分析建模方法。

背景技术

随着大数据的深入发展应用，传统BI(商业分析)也逐渐转向大数据平台上。然而现有的大数据分析平台基于HIVESQL需要经过漫长离线计算才能得到分析结果，无法达到即时可交互式分析要求。另外一种通过以麒麟为代表的预计算系统通过预先建模构建索引形成CUBE可以实现BI人员的快速分析需求，然而，现有基于事实款表的预构建模型在实际分析时很难处理复杂计算，例如，餐饮零售行业中用户需要分析不同渠道销售业绩时，当用户需要进一步分析不同会员群体在不同渠道的业务价值时，需要固定分母值(渠道)，而只需要下钻分子会员维度(例如会员等级，消费频率等)，此种场景下就会涉及到多事实表不同聚合粒度计算问题，现有方法无法统一建模只能分别构建模型计算结果，再手工把两个模型的结果汇总计算出最终结果。

本文提出一种适用于大数据场景下使用excel，tableau等现有BI分析工具即可实现多个模型不同聚合尺度联合计算的统一建模分析的方法。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种大数据集不同尺度聚合自助分析建模方法，解决了上述的问题。

(二)技术方案

为实现上述所述目的，本发明提供如下技术方案：一种大数据集不同尺度聚合自助分析建模方法，包括以下步骤：

S1：先进行独立场景建模，根据业务分析场景需要，将复杂分析任务分解成独立核心场景分析任务，依据维度建模理论构建出围绕维度+度量的核心事实表的星型模型，通过ETL过程将模型传递到麒麟作预计算加速；

S2：然后构建桥接表，先分析复杂下钻指标，提取出公共下钻维度和独立下钻维度，将公共下钻维度独立出来构建出桥接表，并将该桥接表与独立事实表通过公共维度关联，并放入麒麟中作预计算加速；

S3：最后对接BI工具，基于不同BI工具使用不同的对接方式，在EXCEL中是通过连接麒麟MDX服务创建数据透视表的方式为用户提供拖拉拽的交互式分析需求，而在tableau上则通过麒麟导出的TDS模型文件来满足用户在tableau里的拖拉拽交互式分析需求。

优选的，所述S1中的星型模型是一种多维的数据关系，它由一个事实表(FactTable)和一组维表(Dimension Table)组成，每个维表都有一个维作为主键，所有这些维的主键组合成事实表的主键，事实表的非主键属性称为事实(Fact)，它们一般都是数值或其他可以进行计算的数据，而维大都是文字、时间等类型的数据，按这种方式组织好数据我们就可以按照不同的维(事实表主键的部分或全部)来对这些事实数据进行求和(summary)、求平均(average)、计数(count)、百分比(percent)的聚集计算，甚至可以做20～80分析，这样就可以从不同的角度数字来分析业务主题的情况。

优选的，所述S1中的ETL过程是将数据在登台服务器上转换，然后传输到DatawarehouseDB，且是先提取然后再转换最后加载。

优选的，所述ETL是一种数据集成方法，数据集成过程的第一步是数据提取，这是数据管道从多个数据源和数据库中提取数据并将其整合到暂存区域中的阶段，数据集成的第二步是转换数据，在转换阶段，数据也会进行结构化和重新格式化，以使其适合其特定的业务目的，数据集成的最后一步是在数据仓库中加载转换后且格式正确的数据，可以一次加载(完全加载)或按计划的时间间隔(增量加载)加载所有数据。

优选的，所述S2中桥接表(BridgeTable)是维度建模中的一种表，桥接表是建立在维度表和事实表中间的一个具有较多冗余信息的表，其中的记录包含层级结构中节点到其下面每个节点的路径，在桥接表中，节点与其下面的任意一个节点都建立一个关联记录保存在表中，即父子关系不再局限在相邻层，在不是相邻的层里具有相同父子关系，通过父层数可以区分相隔了几层，这样，可以通过父层数和父子关系来进行层级结构的查询。

优选的，所述S3中Tableau中的元数据管理可以分为三层，包括数据连接层、数据模型层和数据可视化层，所述数据连接层包括传统关系数据源、多维数据源、Hadoop数据源、Tableau数据提取、Web数据源、Excel以及文本文件。

(三)有益效果

与现有技术相比，本发明提供了一种大数据集不同尺度聚合自助分析建模方法，具备以下有益效果：

1、该一种大数据集不同尺度聚合自助分析建模方法，通过先进行独立场景建模，根据业务分析场景需要，将复杂分析任务分解成独立核心场景分析任务，依据维度建模理论构建出围绕维度+度量的核心事实表的星型模型，通过ETL过程将模型传递到麒麟作预计算加速，然后构建桥接表，先分析复杂下钻指标，提取出公共下钻维度和独立下钻维度，将公共下钻维度独立出来构建出桥接表，并将该桥接表与独立事实表通过公共维度关联，并放入麒麟中作预计算加速，最后对接BI工具，基于不同BI工具使用不同的对接方式，即可实现多个模型不同聚合尺度联合计算的统一建模分析的方法。

2、该一种大数据集不同尺度聚合自助分析建模方法，通过依据维度建模理论构建出围绕维度+度量的核心事实表的星型模型，因为星型模型数据的冗余所以很多统计查询不需要做外部的连接，因此一般情况下效率很高，而且星型模型不用考虑很多正规化的因素，设计与实现都比较简单。

3、该一种大数据集不同尺度聚合自助分析建模方法，通过ETL过程将模型传递到麒麟作预计算加速，ETL是BI项目的关键部分，也是一个长期的过程，在这个过程中不断的发现问题并解决问题，才能使ETL运行效率更高，为BI项目后期开发提供准确与高效的数据。

附图说明

图1为本发明大数据集不同尺度聚合自助分析建模方法流程图；

图2为本发明独立场景建模流程图；

图3为本发明构建桥接表流程图；

图4为本发明对接BI工具流程图；

图5为本发明完成建模后到excel效果图。

具体实施方式

请参阅图1-3，一种大数据集不同尺度聚合自助分析建模方法，包括以下步骤：

S2：然后构建桥接表，先分析复杂下钻指标，提取出公共下钻维度和独立下钻维度，将公共下钻维度独立出来构建出桥接表，并将该桥接表与独立事实表通过公共维度关联，并放入麒麟中作预计算加速，下钻维度针对特定场景，当维度之间存在层级关系，那么下钻类维度会针对每层的查询加速；

该多个模型不同聚合尺度联合计算的统一建模分析的方法可达到即时可交互式分析要求。

S1中的星型模型是一种多维的数据关系，它由一个事实表(FactTable)和一组维表(Dimension Table)组成，每个维表都有一个维作为主键，所有这些维的主键组合成事实表的主键，事实表的非主键属性称为事实(Fact)，它们一般都是数值或其他可以进行计算的数据，而维大都是文字、时间等类型的数据，按这种方式组织好数据我们就可以按照不同的维(事实表主键的部分或全部)来对这些事实数据进行求和(summary)、求平均(average)、计数(count)、百分比(percent)的聚集计算，甚至可以做20～80分析，这样就可以从不同的角度数字来分析业务主题的情况，因为星型模型数据的冗余所以很多统计查询不需要做外部的连接，因此一般情况下效率很高，而且星型模型不用考虑很多正规化的因素，设计与实现都比较简单。

S1中的ETL过程是将数据在登台服务器上转换，然后传输到DatawarehouseDB，且是先提取然后再转换最后加载。

ETL是一种数据集成方法，数据集成过程的第一步是数据提取，这是数据管道从多个数据源和数据库中提取数据并将其整合到暂存区域中的阶段，数据集成的第二步是转换数据，在转换阶段，数据也会进行结构化和重新格式化，以使其适合其特定的业务目的，数据集成的最后一步是在数据仓库中加载转换后且格式正确的数据，可以一次加载(完全加载)或按计划的时间间隔(增量加载)加载所有数据。

ETL是BI项目的关键部分，也是一个长期的过程，在这个过程中不断的发现问题并解决问题，才能使ETL运行效率更高，为BI项目后期开发提供准确与高效的数据。

S2中桥接表(BridgeTable)是维度建模中的一种表，桥接表是建立在维度表和事实表中间的一个具有较多冗余信息的表，其中的记录包含层级结构中节点到其下面每个节点的路径，在桥接表中，节点与其下面的任意一个节点都建立一个关联记录保存在表中，即父子关系不再局限在相邻层，在不是相邻的层里具有相同父子关系，通过父层数可以区分相隔了几层，这样，可以通过父层数和父子关系来进行层级结构的查询。

S3中Tableau中的元数据管理可以分为三层，包括数据连接层、数据模型层和数据可视化层，所述数据连接层包括传统关系数据源、多维数据源、Hadoop数据源、Tableau数据提取、Web数据源、Excel以及文本文件。

最后图5是完成建模后到excel效果图。

Claims

1.一种大数据集不同尺度聚合自助分析建模方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种大数据集不同尺度聚合自助分析建模方法，其特征在于：所述S1中的星型模型是一种多维的数据关系，它由一个事实表(FactTable)和一组维表(Dimension Table)组成，每个维表都有一个维作为主键，所有这些维的主键组合成事实表的主键，事实表的非主键属性称为事实(Fact)，它们都是数值或其他可以进行计算的数据，而维都是文字、时间等类型的数据。

3.根据权利要求1所述的一种大数据集不同尺度聚合自助分析建模方法，其特征在于：所述S1中的ETL过程是将数据在登台服务器上转换，然后传输到DatawarehouseDB，且是先提取然后再转换最后加载。

4.根据权利要求3所述的一种大数据集不同尺度聚合自助分析建模方法，其特征在于：所述ETL是一种数据集成方法，数据集成过程的第一步是数据提取，这是数据管道从多个数据源和数据库中提取数据并将其整合到暂存区域中的阶段，数据集成的第二步是转换数据，在转换阶段，数据也会进行结构化和重新格式化，以使其适合业务目的，数据集成的最后一步是在数据仓库中加载转换后且格式正确的数据，可以一次加载(完全加载)或按计划的时间间隔(增量加载)加载所有数据。

5.根据权利要求1所述的一种大数据集不同尺度聚合自助分析建模方法，其特征在于：所述S2中桥接表(BridgeTable)是维度建模中的一种表，桥接表是建立在维度表和事实表中间的一个具有冗余信息的表，其中的记录包含层级结构中节点到其下面每个节点的路径，在桥接表中，节点与其下面的任意一个节点都建立一个关联记录保存在表中，即父子关系不再局限在相邻层，在不是相邻的层里具有相同父子关系，通过父层数可以区分相隔了几层，可以通过父层数和父子关系来进行层级结构的查询。

6.根据权利要求1所述的一种大数据集不同尺度聚合自助分析建模方法，其特征在于：所述S3中Tableau中的元数据管理可以分为三层，包括数据连接层、数据模型层和数据可视化层，所述数据连接层包括传统关系数据源、多维数据源、Hadoop数据源、Tableau数据提取、Web数据源、Excel以及文本文件。