CN117033460B

CN117033460B - 一种基于总线矩阵的数据模型自动构建系统及方法

Info

Publication number: CN117033460B
Application number: CN202310984137.4A
Authority: CN
Inventors: 王彦惠; 顾欢欢; 卢云川
Original assignee: NANJING SINOVATIO TECHNOLOGY CO LTD
Current assignee: NANJING SINOVATIO TECHNOLOGY CO LTD
Priority date: 2023-08-07
Filing date: 2023-08-07
Publication date: 2024-04-30
Anticipated expiration: 2043-08-07
Also published as: CN117033460A

Abstract

本发明公开一种基于总线矩阵的数据模型自动构建系统及方法，该系统包括：用户端、服务端和数仓端，所述服务端用于提炼原始指标需求并构建总线矩阵，并将总线矩阵传输到服务端，所述服务端对所述总线矩阵进行完整性校验和数据校验，并同时将总线矩阵保存到分布式文件系统中，若校验失败，则结束，并重新构建总线矩阵，若校验成功，则对总线矩阵中生成的模型进行解析，并将模型保存到关系型数据库中，模型被解析完成后，进而生成各个模型对应的物理数据。该方法构建的数据模型只需要根据业务需要，制定业务所需的模型字段，快速构建最小单元的维度/事实表模型结构，生成的模型字段少，标准化、通用化程度高，快速构建数仓以支撑上层应用。

Description

一种基于总线矩阵的数据模型自动构建系统及方法

技术领域

本发明涉及数据建模技术领域，具体涉及一种基于总线矩阵的数据模型自动构建系统及方法。

背景技术

目前业内对于数据建模采用的最常见的实现方案是数据建模工具。ERwin和PowerDesigner都是常用的数据建模工具，它们都提供了图形化用户界面、元数据和可自动生成数据库DDL脚本等功能。虽然两种软件具有类似的功能，但在技术实现方案上还是存在一定差异的。

对于ERwin而言，它采用了一种称为“模型主导”的方法来进行数据建模，即将实体、关系和属性等元素直接转换为模型。用户可以通过点、拖拽、拉伸等方式创建这些元素，并自动生成相关代码。此外，ERwin还支持多种目标平台，例如Oracle、Microsoft SQLServer和IBM DB2等。这样，用户可以根据需求选择最适合的平台，从而提高了数据模型的重用性和灵活性。

PowerDesigner则采取了一种更加细致精确的方法，即“模型驱动(MDA)”数据建模思想。这种模型使用UML语言描述对象及其关系，并将其映射成客户端应用程序、中间件组件和服务器上的物理存储系统架构等。具体来说，PowerDesigner以业务架构、信息架构、应用架构和技术架构四个级别来分析和描述数据。与ERwin不同的是，PowerDesigner还包含了元数据管理、版本控制、安全性管理等附加功能，以提供更全面的数据模型生命周期管理服务。

虽然ERwin和PowerDesigner都是业内常用的数据建模工具，但在数据仓库维度建模领域使用过程中仍存在一些缺点：

1)学习曲线较陡：维度建模作为一种特定的数据建模方法，需要相应的培训和学习才能掌握。这两种工具在使用上缺少一定的技术指引，新手除了要学习专门的维度建模技术，使用这些工具可能还需要花费较多的时间来熟悉它们的功能和界面。

2)可扩展性有限：在设计大规模数据仓库时，需要考虑到复杂性和可扩展性。ERwin和PowerDesigner对于数据量过大、多用户并行访问等问题支持不如专门的大数据平台那样强大。

3)建模难度高：这两种工具更加偏向于通用的数据建模，对于数据仓库特定领域的维度建模，没有面向需求自上而下定制化的适配方案，一般人员在建模时很难直接开展，脱离实际的业务需求很难设计出标准、最简单最小化的数据模型。

4)业务关联度差：这两种工具的重点是以图形化界面设计数据模型，但是没有在流程上连接数据模型上游的业务分析需求节点，也没有在本工具中直接嵌入下游的数据库/大数据平台的数据存储工具，更无法在本工具中进行实际的数据开发工作，导致数据模型的上游需求和下游结果均无法一同呈现，在实际项目过程中从需求传递-->模型设计--->数据开发，最终输出成果会与原始需求产生一定差异，影响最终数据资产的易用性和可信度。

5)后期维护性差，模型变更难以保持上下游一致，仅能用于前期实际的模型设计阶段，后期无法保证与实际数据库中的实际模型结构保持一致，造成模型设计阶段的元数据和实际模型的元数据有差异，降低模型元数据可信度。

6)只能设计表模型，无法定义指标模型。

7)无法进行自动数据开发，这两种工具只能用于单纯的表模型设计，无法在此类工具中对模型的实际数据开发起到一定的自动化开发作用，仅仅只能作为整个项目中的中间件使用。

发明内容

发明目的：为了克服现有技术的不足，本发明提供基于总线矩阵的数据模型自动构建系统，该系统可以解决上述的技术问题，本发明还提供基于总线矩阵的数据模型自动构建方法。

技术方案：一方面，本发明提供基于总线矩阵的数据模型自动构建系统，该系统包括：用户端、服务端和数仓端，所述服务端用于提炼原始指标需求并构建总线矩阵，并将总线矩阵传输到服务端，所述服务端对所述总线矩阵进行完整性校验和数据校验，并同时将总线矩阵保存到分布式文件系统中，若校验失败，则结束，并重新构建总线矩阵，若校验成功，则对总线矩阵中生成的模型进行解析，传输到数仓端，并将模型保存到关系型数据库中，模型被解析完成后，进而生成各个模型对应的物理数据。

进一步的，包括：

所述总线矩阵的构建过程包括：

首先，提炼原始指标需求：所述原始指标需求为不包含统计维度的指标，包括派生指标、衍生指标，其中，派生指标包括原子指标、统计周期和业务限定，衍生指标由多个派生指标之间进行数学四则运算或其他快速计算方式组成；

其次，填写总线矩阵：根据所述原始指标需求以及待统计分析的维度、指标来源的业务过程、指标聚合方式及筛选条件，确定指标的业务逻辑，并填写总线矩阵；

所述待统计分析的维度为指标聚合计算时需要分组计算的字段；所述指标来源的业务过程为实际业务系统中的业务流程；所述筛选条件包括统计周期和业务限定，统计周期为指标聚合计算时的时间过滤条件，业务限定为除时间过滤条件以外的其他过滤条件。

进一步的，包括：

确定指标的业务逻辑，并填写总线矩阵，具体包括：

根据提炼出的原始指标需求，一个原始指标需求作为总线矩阵中的一行；

根据拆解出的待统计分析的维度，进行归纳整合，将属性相似的属性归纳到一个主维度表中；

根据原始业务需求需要计算的指标计算结果，在总线矩阵中对原始指标需求进行维度列打勾，对一个维度属性列下的单元格打勾，即代表该行的原始指标需要按照该维度属性进行分组统计计算；

根据提炼出的原始指标需求进行拆解，将派生指标拆解为原子指标、统计周期、业务限定；将衍生指标拆解为多个来源的派生指标，并二次拆解为原子指标、统计周期、业务限定；

根据拆解出的原子指标，确定其来源的业务过程、来源的字段、聚合方式；根据拆解出的统计周期、业务限定，确定其筛选条件来源的字段及过滤值；

根据原子指标来源的业务过程，进行归类整合，按照通用性、健壮性、唯一性的原则，为其划分数据域，作为后续维度表、事实表、指标的通用分类方式。

进一步的，包括：

所述总线矩阵中生成的模型构建方法包括：

根据填写好的总线矩阵，服务端解析后生成数据域、业务过程、维度表模型、事实表模型、原子指标模型、统计周期模型、业务限定模型、派生指标模型、汇总表模型；

所述数据域为根据指标来源的业务过程划分出的通用归类；

所述业务过程与事实表一一对应，一个业务过程即产生一张事实表；

所述维度表模型为按照待统计分析的维度属性归类划分出的多张维度表表结构；

所述事实表模型为将关联维度字段、虚拟或退化维度字段、原子指标来源字段、业务限定来源字段、组合而成的最小单元的事实表表结构；

所述原子指标模型来源于事实表，基于事实表的某个字段进行聚合计算；

所述统计周期为时间过滤条件；

所述业务限定为除时间过滤条件以外的其他过滤条件。统计周期与业务限定共同组成指标统计计算时sql代码中的where条件；

所述汇总表模型由多个派生指标组合后按照其待统计分析的维度，提炼其公共维度，进行聚合计算，汇总表模型字段包括指标字段、维度字段。

进一步的，包括：

所述完整性校验采用文件校验和算法，即SHA-256、SHA-1和MD5中的一个来校验文件的完整性，所述数据校验包括：

使用Apache POI依次读取总线矩阵文件中工作表、行、列和单元数据，校验数据是否满足工作表约束、行约束、列约束、单元格约束；

使用Apache POI逐行解析总线矩阵文件，在内存中生成模型元数据定义信息；当解析行数达到预设阈值后，批量提交至数仓端，数仓端采用基于模型的定义生成相应的模型。

进一步的，包括：

对总线矩阵中生成的模型进行解析，并传输到数仓端，包括：

首先，数据域、业务过程、事实表模型、维度表模型和汇总表模型均采用基于已构建模型配置，增量式地融合本次新增的内容；无需落地的指标类模型，即原子指标模型、派生指标和统计周期，根据预先配置的覆盖或忽略策略对已存在的模型进行更新，重复上述步骤，直到总线矩阵被解析完成；

其次，配置事实表、维度表的来源逻辑，至此，总线矩阵中填写的模型已全部导入数仓端，且配置完成。

进一步的，包括：

所述事实表模型的生成方法为：数仓端解析后将关联维度字段、虚拟或退化维度字段、原子指标来源字段、业务限定来源字段自动组合，成为最小单元的事实表表结构。

其中：关联维度字段为当前事实表上的派生指标需要统计分析的维度字段来源的主维度表的主键字段；虚拟或退化维度字段为无需归类整合为独立维度表的统计分析字段，若该事实表上的派生指标需要按照此种类型字段进行统计分析，则需要在事实表表结构上追加扩展此种类型字段，作为虚拟或退化维度属性存在；业务限定来源字段既可以来自于事实表，也可以来自于维度表，或是两者的组合；作为筛选条件的来源，若待筛选字段无法追加扩展在维度表属性中，则需要将其追加扩展在事实表字段中，作为退化维度字段。

另一方面，本发明还提供一种基于总线矩阵的数据模型自动构建方法，该方法包括以下步骤：

服务端提炼原始指标需求并构建总线矩阵，并将总线矩阵传输到服务端；

服务端对所述总线矩阵进行完整性校验和数据校验，并同时将总线矩阵保存到分布式文件系统中；

若校验失败，则结束，并重新构建总线矩阵，若校验成功，则对总线矩阵中生成的模型进行解析，并传输到数仓端；

将模型保存到关系型数据库中，模型被解析完成后，进而生成各个模型对应的物理数据。

进一步的，包括：

所述总线矩阵的构建过程包括：

进一步的，包括：

确定指标的业务逻辑，并填写总线矩阵，具体包括：

有益效果：本发明的基于总线矩阵自动构建数据模型的方法，旨在嵌入大数据平台，设计出一种新型的维度模型设计、开发、落地、优化迭代全流程管理，实现低门槛、简单、最小化的建模设计流程，以及自动化的数据开发流程。从指标业务需求调研到指标计算结果呈现均可以线上化管理、自动化生成和开发，实现了一致性指标的生命周期管理，增强了业务调研和实际开发的联系。

使用总线矩阵构建数据模型，在业务开发的初期，就规划了一致性维度、一致性事实，确保了公共维度建设的有序性，极大地减少了冗余数据的产生。同时提供了清晰的维度构建视图，让后续的业务开发能够了解数仓已有的模型，避免了烟囱式建设的可能性。

基于总线矩阵自动构建数据模型的方法，只需要数据开发人员将指标业务调研的结果填入总线矩阵，操作简单，且指标口径可以线上化管理，方便后期维护其一致性。

基于总线矩阵进行数据模型设计时，数据开发人员无需考虑源头来源系统数据的复杂性，无需考虑数据字段在源头系统的分布情况，只需要按需求选择指标计算所需要的业务过程，屏蔽了源头数据复杂性，降低了前期调研难度和后期数据开发写入模型数据的难度。

根据填入的总线矩阵，基于设定好的规则，自动生成数仓所需的维度表、事实表、汇总表的模型结构，操作门槛低，降低了维度建模的难度，使得普通员工也可以进行数据模型设计。

基于总线矩阵自动生成的数据模型，仅包含指标业务需求中需要用于计算的字段，模型简单、字段极少、能完全满足指标业务需求、且为极其规范的维度模型，事实表为窄表，维度表为宽表。

基于总线矩阵自动生成的数据模型，更加通用健壮，后期如有新需求只需按需扩展，在维度/事实模型中增加所需字段，无需破坏原有模型粒度及结构，更加易用、稳定，且可以作为行业通用数据模型的基础v1.0版本。

基于总线矩阵自动生成的数据模型，从维度表到事实表到指标到汇总表均具备直接的业务与数据联系，数据开发人员在随后进行数据开发时，只需要通过编写SQL代码将源头业务系统的数据写入字段极少的维度表、事实表模型中，只需要梳理极少字段的来源数据逻辑，这里的工作量及难度也大幅降低，汇总表的模型会根据指标的定义自动落地物理数据，降低了整体数据开发的工作量和难度，加快项目进度。

基于总线矩阵自动生成的数据模型，可以让上层数据应用如BI工具等在模型物理数据未落地的情况下，BI开发人员无需等待模型数据落地，可以直接基于模型进行数据应用开发，实现BI与数仓数据开发并行化，加快项目开发效率。

附图说明

图1为本发明实施例所述的总线矩阵建模流程示意图；

图2为本发明实施例所述的提炼原始指标需求示例图；

图3为本发明实施例所述的矩阵填写内容示例图；

图4为本发明实施例所述的维度表模型示例图；

图5为本发明实施例所述的事实表模型示例图；

图6为本发明实施例所述的原子指标详细信息示例图；

图7为本发明实施例所述的业务限定详细信息示例图；

图8为本发明实施例所述的派生指标详细信息示例图；

图9为本发明实施例所述的汇总表模型示例图；

图10为本发明实施例所述的数据域构成示例图；

图11为本发明实例所述的总线矩阵生成的各类模型在数据仓库中的应用流程示例图；

图12为本发明实例所述的总线矩阵解析结果示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供基于总线矩阵的数据模型自动构建系统，该系统包括：用户端、服务端和数仓端，所述服务端用于提炼原始指标需求并构建总线矩阵，并将总线矩阵传输到服务端，所述服务端对所述总线矩阵进行完整性校验和数据校验，并同时将总线矩阵保存到分布式文件系统中，若校验失败，则结束，并重新构建总线矩阵，若校验成功，则对总线矩阵中生成的模型进行解析，传输到数仓端，并将模型保存到关系型数据库中，模型被解析完成后，进而生成各个模型对应的物理数据。

其中，完整性校验采用文件校验和算法，即SHA-256、SHA-1和MD5中的一个来校验文件的完整性，所述数据校验包括：

具体的，首先进行原始业务需求调研，从中提炼原始指标需求；

所述原始指标需求为不包含统计维度的指标，包括派生指标、衍生指标。派生指标由原子指标加统计周期加业务限定(可选)组成，衍生指标由多个派生指标之间进行数学四则运算或其他快速计算方式组成。

本实施例中，如图2所示，以人事管理模块的需求为例，提炼出围绕人员招聘、面试、入职等相关的原始指标需求，其中除一个衍生指标【大数据产品线面试通过率】外，其他均为派生指标。

其次，根据原始指标需求以及待统计分析的维度、指标来源的业务过程、聚合方式及筛选条件，确定指标的业务逻辑，填写总线矩阵；

待统计分析的维度为指标聚合计算时需要分组计算的字段；所述指标来源的业务过程为实际业务系统中的业务流程；所述筛选条件包括统计周期和业务限定，统计周期为指标聚合计算时的时间过滤条件，业务限定为除时间过滤条件以外的其他过滤条件。

本实施例中，如图3所示，详细的填写项内容及说明如下：

所属业务域：即汇总表应该存放的实际物理存储路径，汇总表会横跨多个数据域，故须指定业务域存放路径。所属业务域也是当前总线矩阵调研切入的主题。

原始指标需求：即从业务需求中提炼出的不含维度的指标项，可能为派生指标，也可能为复杂的衍生指标。

定义：即原始指标需求的定义，需求方提供的业务口径。

是否衍生指标：用于区分当前指标是否需要做复杂的衍生计算。

来源派生指标名称：若原始指标需求为衍生指标，则需要拆解到基础的派生指标来源。

来源原子指标名称：针对派生指标，拆解出不可再拆分的原子指标。

原子指标聚合方式：聚合函数，如count()、count distinct、sum()、max()、min()。

原子指标来源字段：即聚合函数括号内的字段。

原子指标来源数据域：原子指标只会来源于一张事实表，事实表归属于某个数据域。

原子指标来源业务过程：原子指标来源的事实表所属的业务过程，业务过程与事实表为一一对应的关系。

统计周期：用于设定派生指标的时间统计范围，即时间过滤条件。

业务限定名称：除时间过滤条件外的其他过滤条件，为其定义业务口径名称。

业务限定来源字段：业务限定的过滤条件来源的字段名，可以同时取事实表和维度表中的字段一起定义业务限定，但需要标识出字段的来源表是事实表还是维度表。

业务限定过滤条件：业务限定实际的where条件。

维度：即业务需要进行统计分析的当前指标的角度，主要为全表选择、普通维度和虚拟维度。

全表选择：即当前指标不需要统计分组，只需要计算出一个累计总值。

普通维度：归纳待统计分析的维度字段，对应生成一张实际的维度表。

虚拟维度：勾选了该虚拟维度字段的指标会在来源业务过程生成的事实表中存储该字段，类型为虚拟维度。

然后，根据填写好的总线矩阵，服务端解析结果如图12所示。同时在数仓中自动生成数据域、业务过程、维度表模型、事实表模型、原子指标、统计周期、业务限定、派生指标、汇总表模型；

总线矩阵在服务端中同时保存了草稿态(编辑状态)和发布态(已发布的状态)的内容，同时保存历史变更记录，可以随时回溯历史版本。

解析总线矩阵后确认导入生成模型时：

a.解析query中可选参数为：historyDraftId(草稿id)、historyId(历史id)，必选参数为：businessDomainId(业务域id)；

b.若没有historyDraftId、historyId参数则只允许导入一次，第二次给出报错提示；

c.当前总线矩阵版本号：基于最新版本号+1；

d.将temp目录下的对应文件移动到父目录。

如图10所示，数据域为根据指标来源的业务过程划分出的通用归类；

所述维度表模型为按照待统计分析的维度归类划分出的多张维度表表结构；

所述事实表模型为将关联维度字段、虚拟/退化维度字段、原子指标来源字段、业务限定来源字段、组合而成的最小单元的事实表表结构；

所述原子指标来源于事实表，基于事实表的某个字段进行聚合计算；所述统计周期为时间过滤条件；

所述业务限定为除时间以外的其他过滤条件。统计周期与业务限定共同组成指标统计计算时sql代码中的where条件；

所述派生指标由原子指标加统计周期加业务限定(可选)组合而成；

所述汇总表模型由多个派生指标组合后按照其待统计分析的维度，提炼其公共维度，进行聚合计算。汇总表模型字段包括指标字段、维度字段。

本实施例中，根据填写的总线矩阵可以在数仓平台上自动生成的模型包括：

(1)数据域：人事域

后台创建逻辑为：

根据解析到的总线矩阵中的原子指标来源数据域，在数仓平台上创建对应的数据域。

矩阵中填写的名称识别为数据域中文名，填写的名称识别为全拼为数据域英文名，首拼识别为数据域缩写，将这三个参数调用数据域创建接口，创建数据域模型。

(2)业务过程：岗位需求、面试、offer发放、入职、报销。

后台创建逻辑为：

根据解析到的总线矩阵中的原子指标来源业务过程，在数仓平台上创建对应的业务过程。

矩阵中填写的名称识别为业务过程中文名，首拼识别为业务过程英文名。将这两个参数调用业务过程创建接口，创建业务过程模型。

(3)维度：组织维度，人员维度，日期维度，招聘岗位、简历投递方式来源、投递渠道三个虚拟维度。生成的维度表模型如图4所示。

后台创建逻辑为：

根据解析到的总线矩阵中的维度部分、以及业务限定来源字段，将这几个参数调用维度表创建接口，创建维度表模型，生成维度表表结构(维度表英文名后台默认识别为首拼)，后台为维度表添加id主键，主键字段的生成逻辑为{维度名称首拼}+id。维度表物理存储位置默认存放在公共域下，表名的生成逻辑为dim_{pub}_{维度名称首拼}。

矩阵填写内容	后台创建逻辑
		/	维度表所属数据域：默认公共域(public、pub)
维度名称	维度表中文名
		维度名称(解析中文首拼)	维度表英文名：dim_{pub}_{维度名称首拼}
/	维度表主键：{维度名称首拼}+id
		维度属性字段	维度属性字段
业务限定来源字段	维度属性字段

(4)事实表：岗位需求、面试、offer发放、入职、报销。生成的事实表模型如图5所示。

后台创建逻辑为：

解析总线矩阵，并在后台迭代遍历每个业务过程在维度部分的√、解析原子指标来源字段、业务限定来源字段，新增或更新事实表模型。

事实表中只存储关联维度表的主键(作为事实表的外键)、虚拟/退化维度、原子指标来源字段、业务限定来源字段。事实表英文名称生成逻辑为fact_{来源数据域首拼}_{来源业务过程首拼}。

(1)原子指标：岗位需求人数、面试人数、offer发放人数、入职人数、报销金额。生成原子指标详细信息如图6所示。

后台创建逻辑为：

根据解析到的总线矩阵中的来源原子指标名称、原子指标数据类型、原子指标聚合方式、原子指标来源字段、原子指标来源数据域、原子指标来源业务过程等信息，将这几个参数调用原子指标创建接口，创建原子指标模型。每个原子指标在后台元数据库中都拥有一个唯一的uuid。解析时会触发逻辑一致性校验，在后台判断当前原子指标的多个来源参数是否保持一致，若一致则默认为同一个原子指标，若不一致则触发强制校验，需要修改后方可再次解析。

矩阵填写内容	后台创建逻辑
		来源原子指标名称	原子指标中文名
来源原子指标名称(解析中文首拼)	原子指标英文名
		原子指标数据类型	原子指标的生成数据类型
原子指标聚合方式	原子指标的聚合函数
		原子指标来源字段	原子指标来源的事实表中的字段
原子指标来源数据域	原子指标来源数据域
		原子指标来源业务过程	原子指标来源的事实表

(2)业务限定：通过面试、大数据产品线通过面试、大数据产品线、招聘费用。生成的业务限定详细信息如图7所示。

后台创建逻辑为：

根据解析到的总线矩阵的业务限定名称、业务限定来源字段、业务限定过滤条件来自动生成业务限定，将这几个参数调用业务过程创建接口，生成业务过程模型。每个业务限定在后台元数据库中都拥有一个唯一的uuid。解析时会触发逻辑一致性校验，在后台判断当前业务限定的多个来源参数是否保持一致，若一致则默认为同一个业务限定，若不一致则触发强制校验，需要修改后方可再次解析。

矩阵填写内容	后台创建逻辑
		业务限定名称	业务限定中文名
业务限定名称(解析中文首拼)	业务限定英文名
		业务限定过滤条件	业务限定的描述
业务限定过滤条件(解析sql)	业务限定的可视化配置项

(3)派生指标：需求人数、面试人数、面试通过人数、offer发放人数、入职人数、大数据产品线面试通过人数、大数据产品线面试人数、招聘费用。生成的派生指标详细信息如图8所示。

后台创建逻辑为：

根据解析到的总线矩阵中的原始指标需求、定义、是否衍生指标、来源派生指标名称、来源原子指标名称、统计周期、业务限定名称，将这几个参数调用派生指标创建接口，创建派生指标模型。每个派生指标在后台元数据库中都拥有一个唯一的uuid。解析时会触发逻辑一致性校验，在后台判断当前派生指标的多个来源参数是否保持一致，若一致则默认为同一个派生指标，若不一致则触发强制校验，需要修改后方可再次解析。

矩阵填写内容	后台创建逻辑
		原始指标需求	派生指标别名_中文名
原始指标需求(解析中文首拼)	派生指标别名_英文名
		来源派生指标名称	派生指标别名_中文名
来源派生指标名称(解析中文首拼)	派生指标别名_英文名
		来源原子指标名称	来源原子指标
统计周期	统计周期
		业务限定名称	来源业务限定

(4)汇总表：生成的汇总表模型如图9所示。

后台创建逻辑为：

根据解析到的总线矩阵中的原始指标需求名称、是否衍生指标、来源派生指标名称、在维度部分的√，将这几个参数调用汇总表创建接口，创建汇总表模型。

后台会根据解析到的业务域，将多个指标在同一个所属业务域下进行归类，将统计维度相同的指标汇总整合在同一张汇总表中，执行create table命令。

最后，调研指标的数据逻辑，将原始数据按照数据逻辑写入到维度表、事实表模型中，维度表、事实表数据落地后，根据总线矩阵生成的派生指标定义，一键运行后落地汇总表数据，以供上层业务使用。

所述指标的数据逻辑为从原始数据来计算指标时的数据勾稽关系，根据其将原始数据清洗写入到维度表、事实表中，汇总表中的指标字段来源于事实表，维度字段来源于维度表，根据事先定义好的派生指标定义，即可一键落地汇总表数据。

根据总线矩阵生成的派生指标在后台处理逻辑为：

select{聚合函数},{统计维度}from{事实表}left join{维度表}on{事实表外键}＝{维度表主键}where{业务限定}and{统计周期}group by{统计维度}；

多个派生指标一键运行后落地汇总表数据，以供上层业务使用。汇总表数据模型自动落地技术实现方式为：

待落地的汇总表中有多个派生指标，多个派生指标的统计维度以full join的方式进行全连接，落地最终的汇总表模型。

select{聚合函数1},{统计维度}from{事实表1}left join{维度表}on{事实表1外键}＝{维度表主键}where{业务限定1}and{统计周期1}group by{统计维度}t1

full join

select{聚合函数2},{统计维度}from{事实表2}left join{维度表}on{事实表1外键}＝{维度表主键}where{业务限定2}and{统计周期2}group by{统计维度}t2

on t1.{统计维度}＝t2.{统计维度}

full join派生指标3、派生指标4、......

本实施例中，由步骤3生成的数据模型为逻辑数据模型，在进行步骤4的数据逻辑调研以及数据清洗写入后，最终落地数仓的物理表模型。步骤1中拆解出的原始指标需求中的衍生指标，即可从该步骤落地产出的汇总表中基于基础的派生指标进行四则运算定义后生成，除此之外还可二次定义生成更多新的个性化业务指标，应对多样化的分析场景。

本发明公开的基于总线矩阵自动构建数据模型的方法，在业务调研结果清晰的情况下，按照既定的标准规范的总线矩阵模板，可以快速高效的进行总线矩阵的填写，根据填写好的内容，经过Apache POI文件读取与解析后，将填写内容写入到数据库中，随后根据读取的数据在数据仓库中调用生成模型的接口，并将来源业务系统的数据填入，即可自动生成最终所需的数据模型。该方法构建的数据模型无需考虑源头数据的影响，不需要关注数据层面的逻辑关系，只需要根据业务需要，制定业务所需的模型字段，快速构建最小单元的维度/事实表模型结构。生成的模型字段少，标准化、通用化程度高，可以快速构建数仓以支撑上层应用。

另一方面，本发明还提供本发明基于总线矩阵自动构建数据模型的方法，包括：

(1)进行原始业务需求调研，从中提炼原始指标需求；

(2)根据原始指标需求以及待统计分析的维度、指标来源的业务过程、聚合方式及筛选条件，确定指标的业务逻辑，填写总线矩阵；

所述统计分析的维度为指标聚合计算时需要分组计算的字段；所述指标来源的业务过程为实际业务系统中的业务流程；所述筛选条件包括统计周期和业务限定，统计周期为指标聚合计算时的时间过滤条件，业务限定为除时间过滤条件以外的其他过滤条件。

(3)根据填写好的总线矩阵，数仓平台解析后自动生成数据域、业务过程、维度表模型、事实表模型、原子指标、统计周期、业务限定、派生指标、汇总表模型。

所述数据域为根据指标来源的业务过程划分出的通用归类；所述业务过程与事实表一一对应，一个业务过程即产生一张事实表；所述维度表模型为按照待统计分析的维度归类划分出的多张维度表表结构；所述事实表模型为将关联维度字段、虚拟/退化维度字段、原子指标来源字段、业务限定来源字段、组合而成的最小单元的事实表表结构；所述原子指标来源于事实表，基于事实表的某个字段进行聚合计算；所述统计周期为时间过滤条件；所述业务限定为除时间以外的其他过滤条件；所述派生指标由原子指标加统计周期加业务限定(可选)组合而成；所述汇总表模型由多个派生指标组合后按照其待统计分析的维度，提炼其公共维度，进行聚合计算。汇总表模型字段包括指标字段、维度字段。

解析后确认导入生成模型时：

e.解析query中可选参数为：historyDraftId(草稿id)、historyId(历史id)，必选参数为：businessDomainId(业务域id)；

f.若没有historyDraftId、historyId参数则只允许导入一次，第二次给出报错提示；

g.当前总线矩阵版本号：基于最新版本号+1；

h.将temp目录下的对应文件移动到父目录。

(4)调研指标的数据逻辑，将原始数据按照数据逻辑写入到维度表、事实表模型中，维度表、事实表数据落地后，根据总线矩阵生成的派生指标定义，一键运行后落地汇总表模型数据，以供上层业务使用。

根据总线矩阵生成的派生指标在后台处理逻辑为：

full join

on t1.{统计维度}＝t2.{统计维度}

full join派生指标3、派生指标4、......。

本发明需要降低学习成本，让数据仓库数据建模的门槛不再是数据架构师，让普通数据开发人员，IT人员、业务人员甚至普通员工都可以加入到数据建模工作中。

该方法需要直接对接或嵌入数仓大数据平台，提升扩展性并降低上下游操作流程复杂性。

该方法需要降低建模难度，屏蔽底层数据流程复杂性的影响，在建模阶段专注于模型设计而无需考虑来源数据的问题。

该方法需要能够支持产出简单、标准规范的维度数据模型，避免无关字段的干扰，使模型通用、健壮，加快后期数据开发进度。

该方法需要在工具/平台层面融合上游指标业务需求调研阶段的工作及成果、下游根据数据逻辑进行实际数据开发落地的工作，以应对最终的指标计算结果展示，管控指标的整个开发生命周期。

该方法生成的数据模型需要便于后期维护和变更，变更时不破坏现有模型的粒度和结构，并在表更后及时将变更操作同步至实际的数据模型，并针对变更后结果进行数据开发。

该方法除了能够设计表模型，还需要支持定义指标模型，指标模型也是数仓数据模型的一部分，但现在常用的建模工具均无该功能。

该方法嵌入到数仓数据平台后需要能后进行自动化的数据开发工作，根据设计的模型自动落地物理数据，降低人操编写SQL代码的工作量，提升计算的准确性。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于总线矩阵的数据模型自动构建系统，其特征在于，该系统包括：用户端、服务端和数仓端，所述服务端用于提炼原始指标需求并构建总线矩阵，并将总线矩阵传输到服务端，所述服务端对所述总线矩阵进行完整性校验和数据校验，并同时将总线矩阵保存到分布式文件系统中，若校验失败，则结束，并重新构建总线矩阵，若校验成功，则对总线矩阵中生成的模型进行解析，传输到数仓端，并将模型保存到关系型数据库中，模型被解析完成后，进而生成各个模型对应的物理数据；

所述构建总线矩阵的过程包括：

首先，提炼原始指标需求：所述原始指标需求为不包含统计维度的指标，包括派生指标、衍生指标，其中，派生指标包括原子指标、统计周期和业务限定，衍生指标由多个派生指标之间进行数学四则运算或快速计算方式组成；

所述待统计分析的维度为指标聚合计算时需要分组计算的字段；所述指标来源的业务过程为实际业务系统中的业务流程；所述筛选条件包括统计周期和业务限定，统计周期为指标聚合计算时的时间过滤条件，业务限定为除时间过滤条件以外的过滤条件。

2.根据权利要求1所述的基于总线矩阵的数据模型自动构建系统，其特征在于，确定指标的业务逻辑，并填写总线矩阵，具体包括：

3.根据权利要求2所述的基于总线矩阵的数据模型自动构建系统，其特征在于，所述总线矩阵中生成的模型构建方法包括：

所述数据域为根据指标来源的业务过程划分出的通用归类；

所述原子指标模型来源于事实表，基于事实表的度量字段进行聚合计算；

所述统计周期为时间过滤条件；

所述业务限定为除时间过滤条件以外的过滤条件，统计周期与业务限定共同组成指标统计计算时sql代码中的where条件；

4.根据权利要求3所述的基于总线矩阵的数据模型自动构建系统，其特征在于，所述完整性校验采用文件校验和算法，即SHA-256、SHA-1和MD5中的一个来校验文件的完整性，所述数据校验包括：

5.根据权利要求4所述的基于总线矩阵的数据模型自动构建系统，其特征在于，对总线矩阵中生成的模型进行解析，并传输到数仓端，包括：

首先，数据域、业务过程、事实表模型、维度表模型和汇总表模型均采用已构建模型配置，增量式地融合本次新增的内容；无需落地的指标类模型，即原子指标模型、派生指标和统计周期，根据预先配置的覆盖或忽略策略对已存在的模型进行更新，重复上述步骤，直到总线矩阵被解析完成；

6.根据权利要求3所述的基于总线矩阵的数据模型自动构建系统，其特征在于，所述事实表模型的生成方法为：数仓端解析后将关联维度字段、虚拟或退化维度字段、原子指标来源字段、业务限定来源字段自动组合，成为最小单元的事实表表结构；

7.一种基于总线矩阵的数据模型自动构建方法，其特征在于，该方法包括以下步骤：

将模型保存到关系型数据库中，模型被解析完成后，进而生成各个模型对应的物理数据；

所述构建总线矩阵的过程包括：

8.根据权利要求7所述的基于总线矩阵的数据模型自动构建方法，其特征在于，确定指标的业务逻辑，并填写总线矩阵，具体包括：