CN116010380A

CN116010380A - 一种基于可视化建模的数据仓库自动化管理方法

Info

Publication number: CN116010380A
Application number: CN202310054496.XA
Authority: CN
Inventors: 陈碧勇; 方敏; 胡金波
Original assignee: Xiamen Nanxun Co ltd
Current assignee: Xiamen Nanxun Co ltd
Priority date: 2023-02-03
Filing date: 2023-02-03
Publication date: 2023-04-25

Abstract

本发明公开了一种基于可视化建模的数据仓库模型自动化管理方法，包括如下步骤：S1、将业务系统中的业务数据同步到原始数据库；S2、逆向读取业务数据内的元数据信息并存储到元数据库中；S3、通过可视化编辑器进行数据建模以搭建出数据仓库模型；S4、从业务数据和元数据信息中选择需要统计的数据字段，设定派生指标、确定统计粒度并归属到数据仓库模型中；S5、通过SQL构建引擎自动生成用于数据加工的SQL脚本；S6、执行SQL脚本进行聚合计算以更新生成汇总表。本发明方法能帮助用户快速建立数据仓库模型，并实现数据仓库的自动化管理。

Description

一种基于可视化建模的数据仓库自动化管理方法

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于可视化建模的数据仓库自动化管理方法。

背景技术

在大数据时代，面对爆发式增长的数据，通常使用数据仓库来帮助企业管理海量的数据。但由于目前的数据仓库缺乏统一规范的建模体系，随着业务的发展，在数据仓库的构建和维护方面也出现了许多问题：其一，开发成本高，由于数据仓库需要不断的更新和扩展，开发人员需要手动对每一张数据表进行维护和管理，涉及的数据表和字段很多，手写SQL(Structured Query Language，结构化查询语言)错误性高；其二，沟通成本高，在进行数据建模的时候，业务人员和技术人员对于业务理解容易存在歧义，需要进行反复沟通；其三，维护成本高和复用性差，由于缺乏统一的标准定义，造成了数据的冗余和重复建设，且上下游的依赖不清晰，无法保证数据的规范性，以上问题都导致现有的数据仓库难以管理。

发明内容

为解决上述问题，本发明提供了一种基于可视化建模的数据仓库自动化管理方法。

本发明采用以下技术方案：

一种基于可视化建模的数据仓库模型自动化管理方法，包括如下步骤：

S1、将业务系统中的原始数据转换成业务数据并同步到原始数据库；

S2、通过元数据管理器逆向读取所述业务数据内的元数据信息并存储到元数据库中；

S3、通过可视化编辑器进行数据建模以搭建出数据仓库模型，所述数据仓库模型包括主题数据域和业务过程，所述业务过程下设置维度表和事实表；

S4、根据业务性质从所述业务数据和元数据信息中选择需要统计的数据字段，设定派生指标、确定统计粒度，并将所述派生指标和统计粒度分别归属到对应的主题数据域和业务过程中；

S5、通过SQL构建引擎自动生成用于数据加工的SQL脚本；

S6、通过任务执行调度器执行所述SQL脚本对所述维度表和事实表进行聚合计算以更新生成汇总表。

进一步地，还包括S7、利用更新后的汇总表生成图表或报告。

进一步地，所述步骤S1具体为：

S11、根据业务需要，使用数据采集工具将业务数据从业务系统中提取出来；

S12、将提取的业务数据转换成符合原始数据库的数据格式；

S13、对所述业务数据进行清洗和合并，然后同步到原始数据库进行存储。

进一步地，所述元数据信息包括数据的来源、格式、类型、范围以及数据之间的依赖关系。

进一步地，所述派生指标包括时间限定、业务限定和原子指标，所述统计粒度和业务限定归属到所述维度表中，所述业务限定和原子指标归属到所述事实表中，所述时间限定归属到所述主题数据域中。

进一步地，所述汇总表中包含所述派生指标和统计粒度的聚合计算结果。

进一步地，所述步骤S5具体为：

S51、解析搭建好的数据仓库模型，得到需要的数据表和字段，包括：a、解析所述派生指标生成agg聚合函数；b、解析所述统计粒度生成group by字段；c、根据所述时间限定的范围计算时间最小值与最大值并添加至where条件；

S52、根据解析结果自动地生成数据加工逻辑，从而构建出SQL脚本。

进一步地，所述步骤S6具体为：

S61、所述任务执行调度器获取所述SQL脚本，自动生成ETL任务，并将其添加执行队列中；

S62、根据ETL任务的前后依赖关系和资源使用情况进行调度，依次执行，完成汇总表的更新，其中，对于执行失败的任务进行3次重试并记录错误堆栈。

进一步地，所述汇总表用于业务的查询和分析。

采用上述技术方案后，本发明与背景技术相比，具有如下优点：

1、本发明通过简单易用的可视化配置来帮助用户进行建模，开发人员只需要关注模型的设计，数据仓库的建设则交给工具自动完成，大大减少了工作量，降低了开发成本；

2、本发明通过规范建模体系，统一了计算逻辑，有效消除了理解业务数据时的歧义，减少了沟通成本，且基于元数据信息驱动的建模方法，降低了系统的耦合度，方便后期适配不同的数据库平台，提高数据仓库模型的可维护性和可扩展性；

3、本发明通过引擎自动生成SQL，省略繁琐手工写SQL的过程，解决表和字段很多时，工作量成倍增加的问题，实现快速交付，同时避免“烟囱式”开发导致的维护性和扩展性差等问题，帮助用户在建模过程中更快地进行数据分析，实现数据仓库自动化管理。

附图说明

图1为本发明的方法流程图；

图2为本发明数据仓库模型的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例

如图1、2所示，一种基于可视化建模的数据仓库模型自动化管理方法，包括如下步骤：

S1、将业务系统中的业务数据同步到原始数据库；

所述步骤S1具体为：

S12、将提取的业务数据转换成符合原始数据库的数据格式；

S2、通过元数据管理器逆向读取所述业务数据内的元数据信息并存储到元数据库中；所述元数据信息包括数据的来源、格式、类型、范围以及数据之间的依赖关系。这里沉淀的元数据信息，将驱动和约束最终的物理模型设计，为后续的数据加工确定最终的DDL(Data Definition Language，数据定义语言)，以此来约束后续的数据开发。

S3、得到元数据信息后，以维度建模理论为基础，通过可视化编辑器进行数据建模以搭建出数据仓库模型，所述数据仓库模型包括主题数据域和业务过程，所述业务过程下设置维度表和事实表；

其中，所述派生指标包括时间限定、业务限定和原子指标，所述统计粒度和业务限定标归属到所述维度表中，所述业务限定和原子指标归属到所述事实表中，所述时间限定归属到所述主题数据域中。所述汇总表中包含所述派生指标和统计粒度的聚合计算结果，所述汇总表查询和分析。

S5、通过SQL构建引擎自动生成用于数据加工的SQL脚本；

所述步骤S5具体为：

S52、根据解析结果自动地生成数据加工逻辑，从而构建出SQL脚本，以确保最终的业务定义和物理实现的统一。

所述步骤S6具体为：

S62、根据ETL任务的前后依赖关系和资源使用情况进行调度，依次执行，完成汇总表的更新，其中，对于执行失败的任务进行3次重试并记录错误堆栈。更新后的汇总表包含了以上数据仓库模型设计时的各种统计粒度和派生指标聚合计算的结果。

S7、利用更新后的汇总表生成图表或报告，汇总表可以方便用户查看和分析结果，也可用于生成图表、报告等，为企业提供数据支持，帮助企业做出更好的决策。

通过本实施例的方法能帮助用户快速搭建数据仓库模型，降低数据仓库的开发成本，且当同一个主题数据域的原始数据更新时，该数据仓库模型能够通过SQL脚本自动更新汇总表，从而实现数据仓库的自动化管理，大大降低了数据仓库的维护成本。

此外，本实施例采用基于元数据信息驱动的建模方法，降低了系统的耦合度，方便后期适配不同的数据库平台，提高数据仓库模型的可维护性和可扩展性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于可视化建模的数据仓库模型自动化管理方法，其特征在于：包括如下步骤：

S1、将业务系统中的业务数据同步到原始数据库；

S5、通过SQL构建引擎自动生成用于数据加工的SQL脚本；

2.如权利要求1所述的一种基于可视化建模的数据仓库自动化管理方法，其特征在于：还包括S7、利用更新后的汇总表生成图表或报告。

3.如权利要求2所述的一种基于可视化建模的数据仓库自动化管理方法，其特征在于：所述步骤S1具体为：

S12、将提取的业务数据转换成符合原始数据库的数据格式；

4.如权利要求3所述的一种基于可视化建模的数据仓库自动化管理方法，其特征在于：所述元数据信息包括数据的来源、格式、类型、范围以及数据之间的依赖关系。

5.如权利要求4所述的一种基于可视化建模的数据仓库自动化管理方法，其特征在于：所述派生指标包括时间限定、业务限定和原子指标，所述统计粒度和业务限定归属到所述维度表中，所述业务限定和原子指标归属到所述事实表中，所述时间限定归属到所述主题数据域中。

6.如权利要求5所述的一种基于可视化建模的数据仓库自动化管理方法，其特征在于：所述汇总表中包含所述派生指标和统计粒度的聚合计算结果。

7.如权利要求6所述的一种基于可视化建模的数据仓库自动化管理方法，其特征在于：所述步骤S5具体为：

8.如权利要求7所述的一种基于可视化建模的数据仓库自动化管理方法，其特征在于：所述步骤S6具体为：

9.如权利要求1-8任一项所述的一种基于可视化建模的数据仓库自动化管理方法，其特征在于：所述汇总表用于业务的查询和分析。