CN113051263A - 基于元数据的大数据平台构建方法、系统、设备及介质 - Google Patents

基于元数据的大数据平台构建方法、系统、设备及介质 Download PDF

Info

Publication number
CN113051263A
CN113051263A CN201911367471.5A CN201911367471A CN113051263A CN 113051263 A CN113051263 A CN 113051263A CN 201911367471 A CN201911367471 A CN 201911367471A CN 113051263 A CN113051263 A CN 113051263A
Authority
CN
China
Prior art keywords
metadata
target
etl
data
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911367471.5A
Other languages
English (en)
Inventor
刘晋元
张嘉锐
王茜
朱悦
赵燕
徐旻昕
周喆
崔丽春
吴洁
李敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Science And Technology Development Co ltd
Original Assignee
Shanghai Science And Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Science And Technology Development Co ltd filed Critical Shanghai Science And Technology Development Co ltd
Priority to CN201911367471.5A priority Critical patent/CN113051263A/zh
Publication of CN113051263A publication Critical patent/CN113051263A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供基于元数据的大数据平台构建方法、系统、设备及介质,所述基于元数据的大数据平台构建方法包括:包括:获取数据源的基本信息,根据所述数据源的基本信息将对应的数据字典读取到元数据库;根据数据源的设置和目标平台的规则构建目标库表结构,并于所述目标库表结构写入目标元数据;根据目标元数据配置ETL作业并调度监控所述ETL作业运行。本发明可以自动将数据源的数据字典读取到元数据库中,自动构建目标库表结构,可以配置ETL作业并调度监控所述ETL作业运行,所以本发明可以加速大数据平台建设进度,减少人力支出,保证项目元数据的一致性。

Description

基于元数据的大数据平台构建方法、系统、设备及介质
技术领域
本申请涉及大数据处理技术领域,特别是涉及一种基于元数据的大数据平台构建方法、系统、设备及介质。
背景技术
现有数据仓库或大数据平台建设都是一个很浩大的工程,需要大量的人力投入,从前期的需求调研开始,由于涉及的数据源种类很多,需要大量的人员参与需求调研,走访很多需求部门、分析很多数据源系统,很多数据源系统由于建设年代久远,找不到原来的开发运维人员、系统资料不全、系统处于无人管理状态等;在耗费了大量精力做了需求调研之后,还要整理需求出调研报告,做系统设计、数据库设计、ETL设计、调度设计、运维监控设计等等,都需要投入大量的人员,可以说整个大数据平台的建设都是人力密集工作,尤其里面还有很多枯燥无味的ETL配置开发;最严重的问题还是需求、设计、文档以及实际的大数据平台之间的不一致,在实际的项目中,经常发生这种不一致信息。
申请内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供基于元数据的大数据平台构建方法、系统、设备及介质,用于解决现有技术中大数据平台构建中依靠人力劳动带来的耗时又繁琐的技术问题。
为实现上述目的及其他相关目的,本申请的第一方面提供一种基于元数据的大数据平台构建方法,包括:获取数据源的基本信息,根据所述数据源的基本信息将对应的数据字典读取到元数据库;根据数据源的设置和目标平台的规则构建目标库表结构,并于所述目标库表结构写入目标元数据;根据目标元数据配置ETL作业并调度监控所述ETL作业运行。
于本申请的第一方面的一些实施例中,基于元数据的大数据平台构建方法还包括:对读取到所述元数据库中的源数据进行数据质量分析和/或定期扫描数据字典,将所述数据字典结构与元数据库结构进行对比分析。
于本申请的第一方面的一些实施例中,基于元数据的大数据平台构建方法还包括:生成对源数据进行数据质量分析的数据质量分析报告、将所述数据字典结构与元数据库结构进行对比分析的对比文件报告以及根据数据源的基本信息生成现有数据源调研报告以及根据元数据库生成数据源系统字典中的一个或多个。
于本申请的第一方面的一些实施例中,所述根据数据源的设置和目标平台的规则构建目标库表结构包括:根据数据源的设置和目标平台的规则生成目标表元数据,目标字段元数据;根据所述目标表元数据,目标字段元数据以及输入的补充配置数据构建目标库表结构。
于本申请的第一方面的一些实施例中,所述配置ETL作业包括:配置ETL作业基本信息、ETL作业关联信息、ETL字段映射信息以及ETL作业补全信息。
于本申请的第一方面的一些实施例中,所述调度管理所述ETL作业运行包括:配置作业执行的批次号及执行顺序;根据ETL元数据表内的配置信息和ETL工具的Job模板文件,自动生成目标ETL工具能执行的Job文件;根据ETL调度配置元数据,生成执行调度的调度脚本;将调度脚本添加到调度工具,以通过所述调度工具进行执行和监控ETL作业。
于本申请的第一方面的一些实施例中,基于元数据的大数据平台构建方法还包括:根据目标库表结构和/或数据库模板生成数据库设计文档、根据ETL元数据表内的配置和/或ETL设计文档模板生成ETL设计文档。
为实现上述目的及其他相关目的,本申请的第二方面提供一种基于元数据的大数据平台构建系统,所述基于元数据的大数据平台构建系统包括:源元数据管理模块,用于获取数据源的基本信息,根据所述数据源的基本信息将对应的数据字典读取到元数据库;目标元数据管理模块,用于根据数据源的设置和目标平台的规则构建目标库表结构,并于所述目标库表结构写入目标元数据;ETL元数据管理模块,用于根据目标元数据配置ETL作业;调度监控模块,用于调度监控所述ETL作业运行。
为实现上述目的及其他相关目的,本申请的第三方面提供一种电子设备,包括:处理器及存储器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行如上所述的基于元数据的大数据平台构建方法。
为实现上述目的及其他相关目的,本申请的第四方面一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于元数据的大数据平台构建方法。
如上所述,本申请的基于元数据的大数据平台构建方法、系统、设备及介质,具有以下有益效果:
本发明可以自动将数据源的数据字典读取到元数据库中,自动构建目标库表结构,可以配置ETL作业并调度监控所述ETL作业运行,所以本发明可以加速大数据平台建设进度,减少人力支出,保证项目元数据的一致性。
附图说明
图1显示为本申请一实施例中的基于元数据的大数据平台构建方法的整体流程示意图。
图2显示为本申请一实施例中的基于元数据的大数据平台构建方法中构建目标库表结构的流程示意图。
图3显示为本申请一实施例中的基于元数据的大数据平台构建方法中调度管理所述ETL作业运行的流程示意图。
图4显示为本申请一实施例中的基于元数据的大数据平台构建方法的具体执行实例流程示意图。
图5显示为本申请一实施例中的基于元数据的大数据平台构建方法中目标库表和目标库表元数据示意图。
图6显示为本申请一实施例中的基于元数据的大数据平台构建系统的原理框图。
图7显示为本申请一实施例中的电子设备的结构示意图。
元件标号说明
100 基于元数据的大数据平台构建系统
110 源元数据管理模块
120 目标元数据管理模块
130 ETL元数据管理模块
140 调度监控模块
1101 处理器
1102 存储器
S100~S300 步骤
S121~S122 步骤
S131~S134 步骤
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
本实施例提供基于元数据的大数据平台构建方法、系统、设备及介质,用于解决现有技术中大数据平台构建中依靠人力劳动带来的耗时又繁琐的技术问题。
本实施例涉及的基于元数据的大数据平台自动构建方法,是以元数据为中心,通过对元数据的管理和维护,自动实现整个大数据平台建设的全过程,包括:自动进行数据源信息收集、数据字典分析、自动生成数据源调研报告、自动生成目标大数据平台的创建库表脚本、自动生成目标大数据平台的数据库设计文档、自动生成ETL配置脚本、自动生成ETL跑批调度脚本、自动监控ETL日志、自动发现源表结构变化、自动检测目标数据库与目标元数据的不一致、自动共享数据发布等的全生命周期的自动化,可以大大提升建设速度,减少人员的投入。
以下将详细阐述本实施例的一种基于元数据的大数据平台构建方法、系统、设备及介质的原理及实施方式,使本领域技术人员不需要创造性劳动即可理解本实施例的一种基于元数据的大数据平台构建方法、系统、设备及介质。
如图1所示展示本发明一实施例中的基于元数据的大数据平台构建方法的流程示意图。
需说明的是,所述基于元数据的大数据平台构建方法可应用于多种类型的硬件设备。所述硬件设备例如是控制器,具体如ARM(Advanced RISC Machines)控制器、FPGA(Field Programmable Gate Array)控制器、SoC(System on Chip)控制器、DSP(DigitalSignal Processing)控制器、或者MCU(Micorcontroller Unit)控制器等等。所述硬件设备例如也可以是包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子系统、显示屏、其他输出或控制设备,以及外部端口等组件的计算机;所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(Personal Digital Assistant,简称PDA)等个人电脑。在另一些实施方式中,所述硬件设备还可以是服务器,所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上,也可以由分布的或集中的服务器集群构成,本实施例不作限定。
如图1所示,在本实施例中,所述基于元数据的大数据平台构建方法包括步骤S110至步骤S130。
步骤S110,获取数据源的基本信息,根据所述数据源的基本信息将对应的数据字典读取到元数据库;
步骤S120,根据数据源的设置和目标平台的规则构建目标库表结构,并于所述目标库表结构写入目标元数据;
步骤S130,根据目标元数据配置ETL作业并调度监控所述ETL作业运行。
以下对本实施例中所述基于元数据的大数据平台构建方法的步骤S110至步骤S130进行详细说明。
步骤S110,获取数据源的基本信息,根据所述数据源的基本信息将对应的数据字典读取到元数据库。
本实施例中,通过步骤S110实现对源元数据(源数据到元数据)管理,源元数据管理主要是对待入库的各种数据源的基本信息进行管理,包括数据源基本信息的登记、自动获取各种异构数据源字典、梳理加工补全源字典信息、自动分析源数据质量、自动生成源文档、源表结构一致性检查等子功能。
具体地,于本实施例中,所述获取数据源的基本信息具体包括数据源登记:将需要入大数据平台的各种数据源的基本信息登记入库,如数据源所在服务器ip、数据库类型或者文件存放位置、数据库名称、拥有者名称、采集用户、所属业务主题、保密要求等。
于本实施例中,所述根据所述数据源的基本信息将对应的数据字典读取到元数据库包括:
1)自动获取异各种数据源字典:根据登记的数据源基本信息,从对应的数据源读取数据库系统字典,将需要采集的数据库系统字典读取到元数据库,包括数据库、表、字段的信息,如表的名称、备注,字段的字段名称、字段备注、字段类型、字段长度、精度、是否主键、是否为空、是否为外键、被引用的表、被引用的字段、引用条件等;如果源是文件系统则读取文件的表头。
2)理加工补全源字典信息:对读取到元数据库的源数据字典进行梳理,确定哪些表和字段是需要采集的,对这些表和字段进行标记、补全备注,分析表间引用关系,如果源系统没有设置表间引用关系,则需要通过业务关系手动补上。
此外,于本实施例中,基于元数据的大数据平台构建方法还包括:对读取到所述元数据库中的源数据进行数据质量分析和/或定期扫描数据字典,将所述数据字典结构与元数据库结构进行对比分析。
于本实施例中,基于元数据的大数据平台构建方法还包括:生成对源数据进行数据质量分析的数据质量分析报告、将所述数据字典结构与元数据库结构进行对比分析的对比文件报告以及根据数据源的基本信息生成现有数据源调研报告以及根据元数据库生成数据源系统字典中的一个或多个。
所以于本实施例中,所述基于元数据的大数据平台构建方法可以实现以下功能:
1)自动分析源数据质量:首先调用数据源质量分析模块自动全部的源数据质量进行一次全量分析,然后对重点的分析字段做特定的数据质量分析,并出具数据质量分析报告;
2)自动生成源文档:根据梳理好的源数据表字典,自动生成源数据字典文档和现有数据源现状调研报告等文档;
3)源表结构一致性检查:定期扫描数据源系统字典,与元数据中的表和字段信息进行对比,及时发现生产系统的结构变化,并生成结构差异报告。
步骤S120,根据数据源的设置和目标平台的规则构建目标库表结构,并于所述目标库表结构写入目标元数据。
通过步骤S120实现对目标元数据管理,目标元数据管理主要用于对目标仓库或大数据平台的库表结构进行设计,包括数据仓库或大数据平台的分层信息、数据库表信息、数据表字段信息等,并可以根据这些设计配置信息自动生成目标仓库的创建脚本、以及数据库详细设计文档等。
如图2所示,于本实施例中,所述根据数据源的设置和目标平台的规则构建目标库表结构包括:
步骤S121,根据数据源的设置和目标平台的规则生成目标表元数据,目标字段元数据;
具体地,通过步骤S121试下:
1)自动生成目标表元数据:根据源设置为要采集的表和目标平台的命名规则自动生成目标表名和备注。
2)自动生成目标字段元数据:根据源字段设置为要采集的表和字段及目标平台的命名规则自动生成目标表字段基本信息。
步骤S122,根据所述目标表元数据,目标字段元数据以及输入的补充配置数据构建目标库表结构。
具体地,构建目标库表结构包括:
1)设置目标表的分区/分桶信息;
2)设置目标表的增量采集信息;
3)补全设置目标字段的引用关系、引用条件;
4)增加技术元数据字段:根据设置需要采集的数据库表及字段自动生成目标表结构,然后在自动生成的基础上增加其他字段及管理需要的技术元数据字段,如数据来源、采集时间、入库时间、安全等级等,构成目标库表结构。
于本实施例中,基于元数据的大数据平台构建方法还包括:根据目标库表结构和/或数据库模板生成数据库设计文档。
本实施例的基于元数据的大数据平台构建方法对目标元数据管理还包括:
1)自动生成目标库表创建脚本:根据设置好的目标数据库表结构,调用自动生成目标脚本模块,自动生成目标库能执行的sql脚本,目前可支持的sql脚本包括oracle、hive。可以一次性生成整个大数据平台所有层级(STG、ODS、EDW、DDW、DIM)的sql脚本,也可以通过参数指定只生成某个层级、或某个层级下某个表的sql脚本。
2)自动生成目标库数据库设计文档:根据配置好的目标数据库表结构,可以根据数据库设计文档模板,自动生成目标数据库设计文档。
3)目标元数据一致性检查:定期扫描目标元数据设置与目标数据平台之间的结构是否一致,防止有人不经过元数据直接修改目标数据库的库表结构,扫描结果生成在线分析报告。
步骤S130,根据目标元数据配置ETL作业并调度监控所述ETL作业运行。
于本实施例中,所述配置ETL作业包括但不限于:配置ETL作业基本信息、ETL作业关联信息、ETL字段映射信息以及ETL作业补全信息。
具体地,通过步骤S130实现:
1)自动生成ETL作业基本信息:根据目标元数据中的目标表基本信息及ETL命名规则自动生成ETL基本作业信息,包括作业名、作业备注、目标表名、目标表备注、目标表主键、作业类型(全量、增量)等;
2)自动生成ETL作业关联信息:根据目标元数据中的目标字段之间的外键引用关系,自动生成ETL作业涉及的多表关联关系,并将关联表及关联条件自动写入ETL作业的关联表中,并根据主表、引用表顺序从字母a开始设置关联表别名;
3)自动生成ETL字段映射信息:根据目标元数据中的目标字段与源字段的对照关系自动生成ETL作业的字段对照及映射规则信息。
4)人工检查并补全ETL信息:
4-1)对ETL作业补全采集周期、采集策略、筛选条件、增全量条件等信息;
4-2)检查ETL作业关联表及关联条件,如果有问题的修正;
4-3)检查ETL字段映射及规则是否正确。
于本实施例中,如图3所示,所述调度管理所述ETL作业运行包括:
步骤S131,配置作业执行的批次号及执行顺序;
步骤S132,根据ETL元数据表内的配置信息和ETL工具的Job模板文件,自动生成目标ETL工具能执行的Job文件;
步骤S133,根据ETL调度配置元数据,生成执行调度的调度脚本;
步骤S134,将调度脚本添加到调度工具,以通过所述调度工具进行执行和监控ETL作业。
于本实施例中,还包括:根据ETL元数据表内的配置和/或ETL设计文档模板生成ETL设计文档。
所以本实施例中调度管理所述ETL作业运行包括:
1)作业流程设置:对于复杂作业可能由多个子作业依据一定的顺序和条件组成,可将执行顺序和条件设置在元数据里;并更新ETL作业基本信息中所有子作业的是否主作业标记为否;
2)ETL执行批次设置:将ETL作业基本信息中标记为主作业的所有作业导入到ETL批次表,设置作业执行的批次号及执行顺序;生成批次基本信息,开始执行时间,执行频率等;
3)自动生成ETL脚本:根据ETL元数据表内的配置信息和ETL工具的Job模板文件,可以自动生成目标ETL工具能执行的Job文件,目前可支持的ETL工具为Kettle、Streamsets,以后可以根据项目具体使用什么ETL工具进行扩展;
4)自动生成ETL设计文档:根据ETL元数据表内的配置,结合ETL设计文档模板,可自动输出ETL设计文档;
5)自动生成调度shell脚本:根据ETL调度配置元数据,自动生成执行调度的shell脚本;
6)自动生成好的调度脚本添加到调度工具,通过调度工具进行执行和监控,如EasySchedule。
由上可见,本实施例的基于元数据的大数据平台构建方法可以达到以下效果:
1)加速项目进度,减少人力支出:很多流程都是自动完成,可以缩短需求调研时间和ETL脚本配置时间,传统ETL脚本都是用ETL工具一步步开发配置,非常耗人力;自动生成项目文档也可以大大减少项目人力支出;
2)保证项目元数据的一致性:项目的调研数据、配置数据、文档数据都集中在元数据里,而且工具提供了元数据与配置文件的检查功能,可以最大程度保证数据的一致性,而且可以调用文档生成功能更随时生成新的文档及版本信息,避免了传统项目改了配置未改文档、或者改了文档忘记改配置等问题。
3)灾难恢复:假如目标数据仓库或大数据平台出现什么故障,可以用元数据进行重建。
4)统一管理,功能齐全:集成需求调研、元数据管理、文档生成、脚本生成;传统的元数据管理比较分散,往往都只有单独的一两种功能,且没有自动生成ETL脚本的功能。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合图4和图5对本实施例的基于元数据的大数据平台构建方法具体执行过程进行清楚、完整地描述。
(一)需求阶段
1、登记数据源基本信息
向用户获取需要入大数据平台的数据源清单,信息包括数据源名称、IP地址、数据存储类型(Oracle、Mssqlserver、mysql、excel文件、csv文件、txt文件等)、数据库实例、数据库所有者、数据采集用户及密码、所属业务主题、保密等级、共享条件、采集频率等。
2、获取数据源字典
根据登记的数据源基本信息,执行源数据字典获取模块,如果是关系型数据库,则连接对应数据源,访问其系统数据字典,读取需要采集到大数据平台的数据库所包含的表、字段描述信息;如果是文件则用参数指定数据源结构的说明出现在文件的位置,如第1行。
3、人工梳理并补全数据源字典
检查导入的数据源字典,如果发现有缺失的信息,如表和字段的备注说明等,则需要人工补全;另外原系统没有设置字段的外键引用关系,则需要人工补上;设置哪些表和字段是需要采集入大数据平台。
4、分析源数据质量
对设置需要采集的数据源进行核心字段数据质量分析,并输出数据质量分析报告,供后期ETL设置数据清洗规则用。
(二)系统设计阶段
5、生成目标元数据
调用自动生成目标表元数据模块存储过程,程序取出源设置为要采集的表结合表命名规则生成目标表基本信息;将需要采集的字段结合目标表生成目标字段基本信息。
6、人工补全目标表信息
人工补全补全目标元数据:
1)设置目标表的分区/分桶信息;
2)设置目标表的增量采集信息;
3)补全设置目标字段的引用关系、引用条件;
4)增加技术元数据字段:根据设置需要采集的数据库表及字段自动生成目标表结构,然后在自动生成的基础上增加其他字段及管理需要的技术元数据字段,如数据来源、采集时间、入库时间、安全等级等,构成目标库表结构。
7、生成目标库表创建脚本
根据设置好的目标数据库表结构,调用自动生成目标脚本模块,自动生成目标库能执行的sql脚本,目前可支持的sql脚本包括oracle、hive。可以一次性生成整个大数据平台所有层级(STG、ODS、EDW、DDW、DIM)的sql脚本,也可以通过参数指定只生成某个层级、或某个层级下某个表的sql脚本。
8、创建目标数据库表结构
将生成的sql脚本放到目标大数据平台执行,生成目标数据库表结构。
(三)ETL设计开发
9、ETL作业初始化
执行ETL作业初始化存储过程,程序首先根据目标元数据中的目标表基本信息及ETL命名规则自动生成ETL基本作业信息,包括作业名、作业备注、目标表名、目标表备注、目标表主键、作业类型(全量、增量)等;其次,根据目标元数据中的目标字段之间的外键引用关系,自动生成ETL作业涉及的多表关联关系,并将关联表及关联条件自动写入ETL作业的关联表中,并根据主表、引用表顺序从字母a开始设置关联表别名;第三,根据目标元数据中的目标字段与源字段的对照关系自动生成ETL作业的字段对照及映射规则信息。
10、人工检查并补全ETL信息
1)对ETL作业补全采集周期、采集策略、筛选条件、增全量条件等信息;
2)检查ETL作业关联表及关联条件,如果有问题的修正;
3)检查ETL字段映射及规则是否正确。
11、设置作业流程
对于复杂作业可能由多个子作业依据一定的顺序和条件组成,可将执行顺序和条件设置在元数据里;并更新ETL作业基本信息中所有子作业的是否主作业标记为否。
12、生成ETL脚本
执行生成ETL脚本模块并传入ETL工具类型参数,在服务器输出文件夹查看输出脚本文件,复制到ETL工具的脚本目录,用ETL工具执行测试看是否有问题。
(四)ETL调度跑批
13、设置ETL批次及执行顺序
将ETL作业基本信息中标记为主作业的所有作业导入到ETL批次表,设置作业执行的批次号及执行顺序;生成批次基本信息,开始执行时间,执行频率等。
14、生成调度shell脚本
执行生成调度shell脚本,自动生成执行调度的shell脚本,到服务器输出目录找到输出的shell脚本文件,放到跑批脚本目录,可以手工调度执行看看结果,如果没有问题则将脚本加入调度工具进行调度。
15、用调度工具调度跑批
将生成的Shell脚本加入到调度工具,如:EasySchedule等,启动跑批操作,监控执行状态。
(五)生成文档
可以在需要文档的任何时候执行文档生成模块。所有文档都支持在线直接查询。
16、生成现有数据源现状调研报告
执行生成现有数据源现状调研报告,报告文件直接输出到服务器输出目录。
17、生成源数据字典文档
执行生成源数据字典文档,可传入参数包括数据源名称、Schema、tablename,在服务器输出目录找到生成的文件,也支持在线直接查看源数据字典。
18、生成ETL设计文档
执行生成ETL设计文档,输出ETL设计文档到服务器输出目录。
19、生成数据库设计文档
执行生成目标数据库设计文档,输入目标数据库类型、层级、表名等参数,结果输出到服务器输出目录。
(六)日常运维监控
20、检查源表结构一致性
定期扫描数据源系统字典,与元数据中的表和字段信息进行对比,及时发现生产系统的结构变化,并生成结构差异报告。
21、检查目标元数据一致性
定期扫描目标元数据设置与目标数据平台之间的结构是否一致,防止有人不经过元数据直接修改目标数据库的库表结构,扫描结果生成在线分析报告。
22、调度界面监控
通过调度跑批可视化界面查看调度执行状态。
23、邮件监控
通过调度工具的邮件发送功能设置事件通知,当调度出现问题时自动给设置的相关人发送邮件通知。
24、错误重跑
根据设定的错误重跑机制,对错误的批次,重新跑失败的脚本。
如图6所示,本实施例还提供一种基于元数据的大数据平台构建系统100,所述基于元数据的大数据平台构建系统100包括:源元数据管理模块110,目标元数据管理模块120,ETL元数据管理模块130以及调度监控模块140。
于本实施例中,所述源元数据管理模块110用于获取数据源的基本信息,根据所述数据源的基本信息将对应的数据字典读取到元数据库。
于本实施例中,所述目标元数据管理模块120用于根据数据源的设置和目标平台的规则构建目标库表结构,并于所述目标库表结构写入目标元数据。
于本实施例中,所述ETL元数据管理模块130用于根据目标元数据配置ETL作业;调度监控模块140,用于调度监控所述ETL作业运行。
本实施例的基于元数据的大数据平台构建系统100具体实现的技术特征与前述实施例中的基于元数据的大数据平台构建方法基本相同,实施例间可以通用的技术内容不作重复赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如源元数据管理模块110可以为单独设立的处理元件,也可以集成在电子设备的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述终端的存储器中,由上述终端的某一个处理元件调用并执行以上追踪计算模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
如图7所示,展示本申请一实施例中的电子设备的结构示意图,所述电子设备包括处理器1101和存储器1102;存储器1102通过系统总线与处理器1101连接并完成相互间的通信,存储器1102用于存储计算机程序,处理器1101用于运行计算机程序,以使所述电子设备执行所述的基于元数据的大数据平台构建方法。上述已经对所述基于元数据的大数据平台构建方法进行了详细说明,在此不再赘述。
另需说明的是,上述提到的系统总线可以是外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问系统与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器1101可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
此外,本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于元数据的大数据平台构建方法。上述已经对所述基于元数据的大数据平台构建方法进行了详细说明,在此不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本发明可以自动将数据源的数据字典读取到元数据库中,自动构建目标库表结构,可以配置ETL作业并调度监控所述ETL作业运行,所以本发明可以加速大数据平台建设进度,减少人力支出,保证项目元数据的一致性。所以,本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

Claims (10)

1.一种基于元数据的大数据平台构建方法,其特征在于:包括:
获取数据源的基本信息,根据所述数据源的基本信息将对应的数据字典读取到元数据库;
根据数据源的设置和目标平台的规则构建目标库表结构,并于所述目标库表结构写入目标元数据;
根据目标元数据配置ETL作业并调度监控所述ETL作业运行。
2.根据权利要求1所述的基于元数据的大数据平台构建方法,其特征在于:基于元数据的大数据平台构建方法还包括:
对读取到所述元数据库中的源数据进行数据质量分析和/或定期扫描数据字典,将所述数据字典结构与元数据库结构进行对比分析。
3.根据权利要求2所述的基于元数据的大数据平台构建方法,其特征在于:基于元数据的大数据平台构建方法还包括:
生成对源数据进行数据质量分析的数据质量分析报告、将所述数据字典结构与元数据库结构进行对比分析的对比文件报告以及根据数据源的基本信息生成现有数据源调研报告以及根据元数据库生成数据源系统字典中的一个或多个。
4.根据权利要求1所述的基于元数据的大数据平台构建方法,其特征在于:所述根据数据源的设置和目标平台的规则构建目标库表结构包括:
根据数据源的设置和目标平台的规则生成目标表元数据,目标字段元数据;
根据所述目标表元数据,目标字段元数据以及输入的补充配置数据构建目标库表结构。
5.根据权利要求1所述的基于元数据的大数据平台构建方法,其特征在于:所述配置ETL作业包括:
配置ETL作业基本信息、ETL作业关联信息、ETL字段映射信息以及ETL作业补全信息。
6.根据权利要求1所述的基于元数据的大数据平台构建方法,其特征在于:所述调度管理所述ETL作业运行包括:
配置作业执行的批次号及执行顺序;
根据ETL元数据表内的配置信息和ETL工具的Job模板文件,自动生成目标ETL工具能执行的Job文件;
根据ETL调度配置元数据,生成执行调度的调度脚本;
将调度脚本添加到调度工具,以通过所述调度工具进行执行和监控ETL作业。
7.根据权利要求1至6任一权利要求所述的基于元数据的大数据平台构建方法,其特征在于:基于元数据的大数据平台构建方法还包括:
根据目标库表结构和/或数据库模板生成数据库设计文档、根据ETL元数据表内的配置和/或ETL设计文档模板生成ETL设计文档。
8.一种基于元数据的大数据平台构建系统,其特征在于:所述基于元数据的大数据平台构建系统包括:
源元数据管理模块,用于获取数据源的基本信息,根据所述数据源的基本信息将对应的数据字典读取到元数据库;
目标元数据管理模块,用于根据数据源的设置和目标平台的规则构建目标库表结构,并于所述目标库表结构写入目标元数据;
ETL元数据管理模块,用于根据目标元数据配置ETL作业;
调度监控模块,用于调度监控所述ETL作业运行。
9.一种电子设备,其特征在于:包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行如权利要求1至7中任一项所述的基于元数据的大数据平台构建方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于元数据的大数据平台构建方法。
CN201911367471.5A 2019-12-26 2019-12-26 基于元数据的大数据平台构建方法、系统、设备及介质 Pending CN113051263A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911367471.5A CN113051263A (zh) 2019-12-26 2019-12-26 基于元数据的大数据平台构建方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911367471.5A CN113051263A (zh) 2019-12-26 2019-12-26 基于元数据的大数据平台构建方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
CN113051263A true CN113051263A (zh) 2021-06-29

Family

ID=76505621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911367471.5A Pending CN113051263A (zh) 2019-12-26 2019-12-26 基于元数据的大数据平台构建方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN113051263A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590593A (zh) * 2021-08-04 2021-11-02 浙江大华技术股份有限公司 数据表信息的生成方法和装置、存储介质及电子装置
CN113761005A (zh) * 2021-07-31 2021-12-07 浪潮电子信息产业股份有限公司 一种元数据配置方法、装置及电子设备和存储介质
CN113934786A (zh) * 2021-09-29 2022-01-14 浪潮卓数大数据产业发展有限公司 一种构建统一etl的实施方法
CN114547173A (zh) * 2022-02-23 2022-05-27 平安国际智慧城市科技股份有限公司 一种数据仓库构建方法、装置、设备及计算机存储介质
CN114969115A (zh) * 2022-05-10 2022-08-30 兴业银行股份有限公司 基于标准化元数据体系的数据管理方法和系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761005A (zh) * 2021-07-31 2021-12-07 浪潮电子信息产业股份有限公司 一种元数据配置方法、装置及电子设备和存储介质
CN113590593A (zh) * 2021-08-04 2021-11-02 浙江大华技术股份有限公司 数据表信息的生成方法和装置、存储介质及电子装置
CN113590593B (zh) * 2021-08-04 2024-09-24 浙江大华技术股份有限公司 数据表信息的生成方法和装置、存储介质及电子装置
CN113934786A (zh) * 2021-09-29 2022-01-14 浪潮卓数大数据产业发展有限公司 一种构建统一etl的实施方法
CN113934786B (zh) * 2021-09-29 2023-09-08 浪潮卓数大数据产业发展有限公司 一种构建统一etl的实施方法
CN114547173A (zh) * 2022-02-23 2022-05-27 平安国际智慧城市科技股份有限公司 一种数据仓库构建方法、装置、设备及计算机存储介质
CN114969115A (zh) * 2022-05-10 2022-08-30 兴业银行股份有限公司 基于标准化元数据体系的数据管理方法和系统

Similar Documents

Publication Publication Date Title
CN113051263A (zh) 基于元数据的大数据平台构建方法、系统、设备及介质
CN107908672B (zh) 基于Hadoop平台的应用报表实现方法、设备及存储介质
CN111177134B (zh) 适用于海量数据的数据质量分析方法、装置、终端及介质
WO2018051096A1 (en) System for importing data into a data repository
Rao et al. Data quality issues in big data
US20130173541A1 (en) Database version management system
US8458215B2 (en) Dynamic functional module availability
WO2015008026A1 (en) Optimising data integration
US20110153562A1 (en) Error prevention for data replication
CN114880405A (zh) 一种基于数据湖的数据处理方法及系统
CN111221698A (zh) 任务数据采集方法与装置
US20220245125A1 (en) Dataset multiplexer for data processing system
CN118193488A (zh) 专病数据库的构建方法、装置、计算机设备及存储介质
CN115329011A (zh) 数据模型的构建方法、数据查询的方法、装置及存储介质
EP3657351A1 (en) Smart data transition to cloud
CN116089417A (zh) 信息获取方法、装置、存储介质及计算机设备
US11971909B2 (en) Data processing system with manipulation of logical dataset groups
CN115543428A (zh) 一种基于策略模板的模拟数据生成方法和装置
Reniers et al. Schema design support for semi-structured data: Finding the sweet spot between NF and De-NF
CN108595552A (zh) 数据立方体发布方法、装置、电子设备和存储介质
CN114546415A (zh) 一种用于云平台大数据储存优化分析系统
CN116595081A (zh) 一种基于政府大数据的智慧健康社区平台建设的方法
US20140344120A1 (en) Pay code configuration
CN117762938A (zh) 应用于数据汇聚的数据表切分方法及装置
CN115756575A (zh) 一种提交记录获取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination