CN116010380A - 一种基于可视化建模的数据仓库自动化管理方法 - Google Patents

一种基于可视化建模的数据仓库自动化管理方法 Download PDF

Info

Publication number
CN116010380A
CN116010380A CN202310054496.XA CN202310054496A CN116010380A CN 116010380 A CN116010380 A CN 116010380A CN 202310054496 A CN202310054496 A CN 202310054496A CN 116010380 A CN116010380 A CN 116010380A
Authority
CN
China
Prior art keywords
data
data warehouse
service
method based
visual modeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310054496.XA
Other languages
English (en)
Inventor
陈碧勇
方敏
胡金波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Nanxun Co ltd
Original Assignee
Xiamen Nanxun Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Nanxun Co ltd filed Critical Xiamen Nanxun Co ltd
Priority to CN202310054496.XA priority Critical patent/CN116010380A/zh
Publication of CN116010380A publication Critical patent/CN116010380A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于可视化建模的数据仓库模型自动化管理方法,包括如下步骤:S1、将业务系统中的业务数据同步到原始数据库;S2、逆向读取业务数据内的元数据信息并存储到元数据库中;S3、通过可视化编辑器进行数据建模以搭建出数据仓库模型;S4、从业务数据和元数据信息中选择需要统计的数据字段,设定派生指标、确定统计粒度并归属到数据仓库模型中;S5、通过SQL构建引擎自动生成用于数据加工的SQL脚本;S6、执行SQL脚本进行聚合计算以更新生成汇总表。本发明方法能帮助用户快速建立数据仓库模型,并实现数据仓库的自动化管理。

Description

一种基于可视化建模的数据仓库自动化管理方法
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于可视化建模的数据仓库自动化管理方法。
背景技术
在大数据时代,面对爆发式增长的数据,通常使用数据仓库来帮助企业管理海量的数据。但由于目前的数据仓库缺乏统一规范的建模体系,随着业务的发展,在数据仓库的构建和维护方面也出现了许多问题:其一,开发成本高,由于数据仓库需要不断的更新和扩展,开发人员需要手动对每一张数据表进行维护和管理,涉及的数据表和字段很多,手写SQL(Structured Query Language,结构化查询语言)错误性高;其二,沟通成本高,在进行数据建模的时候,业务人员和技术人员对于业务理解容易存在歧义,需要进行反复沟通;其三,维护成本高和复用性差,由于缺乏统一的标准定义,造成了数据的冗余和重复建设,且上下游的依赖不清晰,无法保证数据的规范性,以上问题都导致现有的数据仓库难以管理。
发明内容
为解决上述问题,本发明提供了一种基于可视化建模的数据仓库自动化管理方法。
本发明采用以下技术方案:
一种基于可视化建模的数据仓库模型自动化管理方法,包括如下步骤:
S1、将业务系统中的原始数据转换成业务数据并同步到原始数据库;
S2、通过元数据管理器逆向读取所述业务数据内的元数据信息并存储到元数据库中;
S3、通过可视化编辑器进行数据建模以搭建出数据仓库模型,所述数据仓库模型包括主题数据域和业务过程,所述业务过程下设置维度表和事实表;
S4、根据业务性质从所述业务数据和元数据信息中选择需要统计的数据字段,设定派生指标、确定统计粒度,并将所述派生指标和统计粒度分别归属到对应的主题数据域和业务过程中;
S5、通过SQL构建引擎自动生成用于数据加工的SQL脚本;
S6、通过任务执行调度器执行所述SQL脚本对所述维度表和事实表进行聚合计算以更新生成汇总表。
进一步地,还包括S7、利用更新后的汇总表生成图表或报告。
进一步地,所述步骤S1具体为:
S11、根据业务需要,使用数据采集工具将业务数据从业务系统中提取出来;
S12、将提取的业务数据转换成符合原始数据库的数据格式;
S13、对所述业务数据进行清洗和合并,然后同步到原始数据库进行存储。
进一步地,所述元数据信息包括数据的来源、格式、类型、范围以及数据之间的依赖关系。
进一步地,所述派生指标包括时间限定、业务限定和原子指标,所述统计粒度和业务限定归属到所述维度表中,所述业务限定和原子指标归属到所述事实表中,所述时间限定归属到所述主题数据域中。
进一步地,所述汇总表中包含所述派生指标和统计粒度的聚合计算结果。
进一步地,所述步骤S5具体为:
S51、解析搭建好的数据仓库模型,得到需要的数据表和字段,包括:a、解析所述派生指标生成agg聚合函数;b、解析所述统计粒度生成group by字段;c、根据所述时间限定的范围计算时间最小值与最大值并添加至where条件;
S52、根据解析结果自动地生成数据加工逻辑,从而构建出SQL脚本。
进一步地,所述步骤S6具体为:
S61、所述任务执行调度器获取所述SQL脚本,自动生成ETL任务,并将其添加执行队列中;
S62、根据ETL任务的前后依赖关系和资源使用情况进行调度,依次执行,完成汇总表的更新,其中,对于执行失败的任务进行3次重试并记录错误堆栈。
进一步地,所述汇总表用于业务的查询和分析。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
1、本发明通过简单易用的可视化配置来帮助用户进行建模,开发人员只需要关注模型的设计,数据仓库的建设则交给工具自动完成,大大减少了工作量,降低了开发成本;
2、本发明通过规范建模体系,统一了计算逻辑,有效消除了理解业务数据时的歧义,减少了沟通成本,且基于元数据信息驱动的建模方法,降低了系统的耦合度,方便后期适配不同的数据库平台,提高数据仓库模型的可维护性和可扩展性;
3、本发明通过引擎自动生成SQL,省略繁琐手工写SQL的过程,解决表和字段很多时,工作量成倍增加的问题,实现快速交付,同时避免“烟囱式”开发导致的维护性和扩展性差等问题,帮助用户在建模过程中更快地进行数据分析,实现数据仓库自动化管理。
附图说明
图1为本发明的方法流程图;
图2为本发明数据仓库模型的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例
如图1、2所示,一种基于可视化建模的数据仓库模型自动化管理方法,包括如下步骤:
S1、将业务系统中的业务数据同步到原始数据库;
所述步骤S1具体为:
S11、根据业务需要,使用数据采集工具将业务数据从业务系统中提取出来;
S12、将提取的业务数据转换成符合原始数据库的数据格式;
S13、对所述业务数据进行清洗和合并,然后同步到原始数据库进行存储。
S2、通过元数据管理器逆向读取所述业务数据内的元数据信息并存储到元数据库中;所述元数据信息包括数据的来源、格式、类型、范围以及数据之间的依赖关系。这里沉淀的元数据信息,将驱动和约束最终的物理模型设计,为后续的数据加工确定最终的DDL(Data Definition Language,数据定义语言),以此来约束后续的数据开发。
S3、得到元数据信息后,以维度建模理论为基础,通过可视化编辑器进行数据建模以搭建出数据仓库模型,所述数据仓库模型包括主题数据域和业务过程,所述业务过程下设置维度表和事实表;
S4、根据业务性质从所述业务数据和元数据信息中选择需要统计的数据字段,设定派生指标、确定统计粒度,并将所述派生指标和统计粒度分别归属到对应的主题数据域和业务过程中;
其中,所述派生指标包括时间限定、业务限定和原子指标,所述统计粒度和业务限定标归属到所述维度表中,所述业务限定和原子指标归属到所述事实表中,所述时间限定归属到所述主题数据域中。所述汇总表中包含所述派生指标和统计粒度的聚合计算结果,所述汇总表查询和分析。
S5、通过SQL构建引擎自动生成用于数据加工的SQL脚本;
所述步骤S5具体为:
S51、解析搭建好的数据仓库模型,得到需要的数据表和字段,包括:a、解析所述派生指标生成agg聚合函数;b、解析所述统计粒度生成group by字段;c、根据所述时间限定的范围计算时间最小值与最大值并添加至where条件;
S52、根据解析结果自动地生成数据加工逻辑,从而构建出SQL脚本,以确保最终的业务定义和物理实现的统一。
S6、通过任务执行调度器执行所述SQL脚本对所述维度表和事实表进行聚合计算以更新生成汇总表。
所述步骤S6具体为:
S61、所述任务执行调度器获取所述SQL脚本,自动生成ETL任务,并将其添加执行队列中;
S62、根据ETL任务的前后依赖关系和资源使用情况进行调度,依次执行,完成汇总表的更新,其中,对于执行失败的任务进行3次重试并记录错误堆栈。更新后的汇总表包含了以上数据仓库模型设计时的各种统计粒度和派生指标聚合计算的结果。
S7、利用更新后的汇总表生成图表或报告,汇总表可以方便用户查看和分析结果,也可用于生成图表、报告等,为企业提供数据支持,帮助企业做出更好的决策。
通过本实施例的方法能帮助用户快速搭建数据仓库模型,降低数据仓库的开发成本,且当同一个主题数据域的原始数据更新时,该数据仓库模型能够通过SQL脚本自动更新汇总表,从而实现数据仓库的自动化管理,大大降低了数据仓库的维护成本。
此外,本实施例采用基于元数据信息驱动的建模方法,降低了系统的耦合度,方便后期适配不同的数据库平台,提高数据仓库模型的可维护性和可扩展性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (9)

1.一种基于可视化建模的数据仓库模型自动化管理方法,其特征在于:包括如下步骤:
S1、将业务系统中的业务数据同步到原始数据库;
S2、通过元数据管理器逆向读取所述业务数据内的元数据信息并存储到元数据库中;
S3、通过可视化编辑器进行数据建模以搭建出数据仓库模型,所述数据仓库模型包括主题数据域和业务过程,所述业务过程下设置维度表和事实表;
S4、根据业务性质从所述业务数据和元数据信息中选择需要统计的数据字段,设定派生指标、确定统计粒度,并将所述派生指标和统计粒度分别归属到对应的主题数据域和业务过程中;
S5、通过SQL构建引擎自动生成用于数据加工的SQL脚本;
S6、通过任务执行调度器执行所述SQL脚本对所述维度表和事实表进行聚合计算以更新生成汇总表。
2.如权利要求1所述的一种基于可视化建模的数据仓库自动化管理方法,其特征在于:还包括S7、利用更新后的汇总表生成图表或报告。
3.如权利要求2所述的一种基于可视化建模的数据仓库自动化管理方法,其特征在于:所述步骤S1具体为:
S11、根据业务需要,使用数据采集工具将业务数据从业务系统中提取出来;
S12、将提取的业务数据转换成符合原始数据库的数据格式;
S13、对所述业务数据进行清洗和合并,然后同步到原始数据库进行存储。
4.如权利要求3所述的一种基于可视化建模的数据仓库自动化管理方法,其特征在于:所述元数据信息包括数据的来源、格式、类型、范围以及数据之间的依赖关系。
5.如权利要求4所述的一种基于可视化建模的数据仓库自动化管理方法,其特征在于:所述派生指标包括时间限定、业务限定和原子指标,所述统计粒度和业务限定归属到所述维度表中,所述业务限定和原子指标归属到所述事实表中,所述时间限定归属到所述主题数据域中。
6.如权利要求5所述的一种基于可视化建模的数据仓库自动化管理方法,其特征在于:所述汇总表中包含所述派生指标和统计粒度的聚合计算结果。
7.如权利要求6所述的一种基于可视化建模的数据仓库自动化管理方法,其特征在于:所述步骤S5具体为:
S51、解析搭建好的数据仓库模型,得到需要的数据表和字段,包括:a、解析所述派生指标生成agg聚合函数;b、解析所述统计粒度生成group by字段;c、根据所述时间限定的范围计算时间最小值与最大值并添加至where条件;
S52、根据解析结果自动地生成数据加工逻辑,从而构建出SQL脚本。
8.如权利要求7所述的一种基于可视化建模的数据仓库自动化管理方法,其特征在于:所述步骤S6具体为:
S61、所述任务执行调度器获取所述SQL脚本,自动生成ETL任务,并将其添加执行队列中;
S62、根据ETL任务的前后依赖关系和资源使用情况进行调度,依次执行,完成汇总表的更新,其中,对于执行失败的任务进行3次重试并记录错误堆栈。
9.如权利要求1-8任一项所述的一种基于可视化建模的数据仓库自动化管理方法,其特征在于:所述汇总表用于业务的查询和分析。
CN202310054496.XA 2023-02-03 2023-02-03 一种基于可视化建模的数据仓库自动化管理方法 Pending CN116010380A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310054496.XA CN116010380A (zh) 2023-02-03 2023-02-03 一种基于可视化建模的数据仓库自动化管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310054496.XA CN116010380A (zh) 2023-02-03 2023-02-03 一种基于可视化建模的数据仓库自动化管理方法

Publications (1)

Publication Number Publication Date
CN116010380A true CN116010380A (zh) 2023-04-25

Family

ID=86035519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310054496.XA Pending CN116010380A (zh) 2023-02-03 2023-02-03 一种基于可视化建模的数据仓库自动化管理方法

Country Status (1)

Country Link
CN (1) CN116010380A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117033460A (zh) * 2023-08-07 2023-11-10 南京中新赛克科技有限责任公司 一种基于总线矩阵的数据模型自动构建系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117033460A (zh) * 2023-08-07 2023-11-10 南京中新赛克科技有限责任公司 一种基于总线矩阵的数据模型自动构建系统及方法
CN117033460B (zh) * 2023-08-07 2024-04-30 南京中新赛克科技有限责任公司 一种基于总线矩阵的数据模型自动构建系统及方法

Similar Documents

Publication Publication Date Title
CN107908672B (zh) 基于Hadoop平台的应用报表实现方法、设备及存储介质
US9489325B2 (en) Method and a system for polling and processing data
Yang et al. A system architecture for manufacturing process analysis based on big data and process mining techniques
EP3475887A1 (en) System and method for dynamic lineage tracking, reconstruction, and lifecycle management
US11314808B2 (en) Hybrid flows containing a continous flow
CN109902117B (zh) 业务系统分析方法和装置
CN110750650A (zh) 企业知识图谱的构建方法及装置
US11037096B2 (en) Delivery prediction with degree of delivery reliability
CN107870949B (zh) 数据分析作业依赖关系生成方法和系统
CN109299074B (zh) 一种基于模板化数据库视图的数据校验方法及系统
US10303690B1 (en) Automated identification and classification of critical data elements
CN109871470B (zh) 一种电网设备数据标签化管理系统及实现方法
CN112651218A (zh) 一种标书自动生成方法、管理方法、介质以及计算机
CN114218218A (zh) 基于数据仓库的数据处理方法、装置、设备及存储介质
CN110837496A (zh) 一种基于动态sql实现的数据质量管理方法及系统
CN114416703A (zh) 数据完整性自动监控方法、装置、设备及介质
CN116010380A (zh) 一种基于可视化建模的数据仓库自动化管理方法
CN115422003A (zh) 数据质量监控方法、装置、电子设备、存储介质
US11016736B2 (en) Constraint programming using block-based workflows
CN109800069B (zh) 一种实现数据治理的方法及装置
CN104834730A (zh) 数据分析系统和方法
CN110297820B (zh) 一种数据处理方法、装置、设备和存储介质
CN115905371A (zh) 数据趋势分析方法、装置、设备及计算机可读存储介质
CN115221337A (zh) 数据编织处理方法、装置、电子设备及可读存储介质
CN113407161B (zh) 一种面向复杂装备进行协同研发管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination