CN116595081A - 一种基于政府大数据的智慧健康社区平台建设的方法 - Google Patents

一种基于政府大数据的智慧健康社区平台建设的方法 Download PDF

Info

Publication number
CN116595081A
CN116595081A CN202310571601.7A CN202310571601A CN116595081A CN 116595081 A CN116595081 A CN 116595081A CN 202310571601 A CN202310571601 A CN 202310571601A CN 116595081 A CN116595081 A CN 116595081A
Authority
CN
China
Prior art keywords
data
target
etl
source
scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310571601.7A
Other languages
English (en)
Inventor
廖雨田
何国田
李本旺
雷建勇
熊敏
王苏然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Chongqing Institute of Green and Intelligent Technology of CAS
Original Assignee
Chongqing University
Chongqing Institute of Green and Intelligent Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University, Chongqing Institute of Green and Intelligent Technology of CAS filed Critical Chongqing University
Priority to CN202310571601.7A priority Critical patent/CN116595081A/zh
Publication of CN116595081A publication Critical patent/CN116595081A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及大数据处理技术领域,具体公开了一种基于政府大数据的智慧健康社区平台建设的方法,用于解决现有技术中大数据平台构建中依靠人力劳动带来的耗时又繁琐的技术问题。其技术要点为:包括:获取数据源的基本信息,根据所述数据源的基本信息将对应的数据字典读取到数据库;根据数据源的设置和目标平台的规则构建目标库表结构,并于所述目标库表结构写入目标数据;根据目标数据配置ETL作业并调度监控所述ETL作业运行。本发明可以自动将数据源的数据字典读取到数据库中,自动构建目标库表结构,可以配置ETL作业并调度监控所述ETL作业运行,所以本发明可以加速大数据平台建设进度,减少人力支出,保证项目数据的一致性。

Description

一种基于政府大数据的智慧健康社区平台建设的方法
技术领域
本申请涉及大数据处理技术领域,特别是涉及一种基于政府大数据的智慧健康社区平台建设的方法。
背景技术
现有数据仓库或大数据平台建设都是一个很浩大的工程,需要大量的人力投入,从前期的需求调研开始,由于涉及的数据源种类很多,需要大量的人员参与需求调研,走访很多需求部门、分析很多数据源系统,很多数据源系统由于建设年代久远,找不到原来的开发运维人员、系统资料不全、系统处于无人管理状态等;在耗费了大量精力做了需求调研之后,还要整理需求出调研报告,做系统设计、数据库设计、ETL设计、调度设计、运维监控设计等等,都需要投入大量的人员,可以说整个大数据平台的建设都是人力密集工作,尤其里面还有很多枯燥无味的ETL配置开发;最严重的问题还是需求、设计、文档以及实际的大数据平台之间的不一致,在实际的项目中,经常发生这种不一致信息。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供基于政府大数据的智慧健康社区平台建设的方法、系统、设备及介质,用于解决现有技术中大数据平台构建中依靠人力劳动带来的耗时又繁琐的技术问题。
为实现上述目的及其他相关目的,本申请的第一方面提供一种基于政府大数据的智慧健康社区平台建设的方法,包括:获取数据源的基本信息,根据所述数据源的基本信息将对应的数据字典读取到数据库;根据数据源的设置和目标平台的规则构建目标库表结构,并于所述目标库表结构写入目标数据;根据目标数据配置ETL作业并调度监控所述ETL作业运行。
于本申请的第一方面的一些实施例中,基于政府大数据的智慧健康社区平台建设的方法还包括:对读取到所述数据库中的源数据进行数据质量分析和/或定期扫描数据字典,将所述数据字典结构与数据库结构进行对比分析。
于本申请的第一方面的一些实施例中,基于政府大数据的智慧健康社区平台建设的方法还包括:生成对源数据进行数据质量分析的数据质量分析报告、将所述数据字典结构与数据库结构进行对比分析的对比文件报告以及根据数据源的基本信息生成现有数据源调研报告以及根据数据库生成数据源系统字典中的一个或多个。
于本申请的第一方面的一些实施例中,所述根据数据源的设置和目标平台的规则构建目标库表结构包括:根据数据源的设置和目标平台的规则生成目标表数据,目标字段数据;根据所述目标表数据,目标字段数据以及输入的补充配置数据构建目标库表结构。
于本申请的第一方面的一些实施例中,所述配置ETL作业包括:配置ETL作业基本信息、ETL作业关联信息、ETL字段映射信息以及ETL作业补全信息。
于本申请的第一方面的一些实施例中,所述调度管理所述ETL作业运行包括:配置作业执行的批次号及执行顺序;根据ETL数据表内的配置信息和ETL工具的Job模板文件,自动生成目标ETL工具能执行的Job文件;根据ETL调度配置数据,生成执行调度的调度脚本;将调度脚本添加到调度工具,以通过所述调度工具进行执行和监控ETL作业。
于本申请的第一方面的一些实施例中,基于政府大数据的智慧健康社区平台建设的方法还包括:根据目标库表结构和/或数据库模板生成数据库设计文档、根据ETL数据表内的配置和/或ETL设计文档模板生成ETL设计文档。
为实现上述目的及其他相关目的,本申请的第二方面提供一种基于数据的大数据平台构建系统,所述基于数据的大数据平台构建系统包括:源数据管理模块,用于获取数据源的基本信息,根据所述数据源的基本信息将对应的数据字典读取到数据库;目标数据管理模块,用于根据数据源的设置和目标平台的规则构建目标库表结构,并于所述目标库表结构写入目标数据;ETL数据管理模块,用于根据目标数据配置ETL作业;调度监控模块,用于调度监控所述ETL作业运行。
为实现上述目的及其他相关目的,本申请的第三方面提供一种电子设备,包括:处理器及存储器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行如上所述的基于政府大数据的智慧健康社区平台建设的方法。
为实现上述目的及其他相关目的,本申请的第四方面一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于政府大数据的智慧健康社区平台建设的方法。
如上所述,本申请的基于政府大数据的智慧健康社区平台建设的方法、系统、设备及介质,具有以下有益效果:
本发明可以自动将数据源的数据字典读取到数据库中,自动构建目标库表结构,可以配置ETL作业并调度监控所述ETL作业运行,所以本发明可以加速大数据平台建设进度,减少人力支出,保证项目数据的一致性。
附图说明
图1显示为本申请一实施例中的基于政府大数据的智慧健康社区平台建设的方法的整体流程示意图。
图2显示为本申请一实施例中的基于政府大数据的智慧健康社区平台建设的方法中构建目标库表结构的流程示意图。
图3显示为本申请一实施例中的基于政府大数据的智慧健康社区平台建设的方法中调度管理所述ETL作业运行的流程示意图。
图4显示为本申请一实施例中的基于政府大数据的智慧健康社区平台建设的方法的具体执行实例流程示意图。
图5显示为本申请一实施例中的基于政府大数据的智慧健康社区平台建设的方法中目标库表和目标库表数据示意图。
图6显示为本申请一实施例中的基于数据的大数据平台构建系统的原理框图。
元件标号说明:
100基于数据的大数据平台构建系统、
110源数据管理模块、
120目标数据管理模块、
130ETL数据管理模块、
140调度监控模块、
S100~S300步骤、
S121~S122步骤、
S131~S134步骤。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
本实施例提供基于政府大数据的智慧健康社区平台建设的方法、系统、设备及介质,用于解决现有技术中大数据平台构建中依靠人力劳动带来的耗时又繁琐的技术问题。
本实施例涉及的基于数据的大数据平台自动构建方法,是以数据为中心,通过对数据的管理和维护,自动实现整个大数据平台建设的全过程,包括:自动进行数据源信息收集、数据字典分析、自动生成数据源调研报告、自动生成目标大数据平台的创建库表脚本、自动生成目标大数据平台的数据库设计文档、自动生成ETL配置脚本、自动生成ETL跑批调度脚本、自动监控ETL日志、自动发现源表结构变化、自动检测目标数据库与目标数据的不一致、自动共享数据发布等的全生命周期的自动化,可以大大提升建设速度,减少人员的投入。
以下将详细阐述本实施例的一种基于政府大数据的智慧健康社区平台建设的方法、系统、设备及介质的原理及实施方式,使本领域技术人员不需要创造性劳动即可理解本实施例的一种基于政府大数据的智慧健康社区平台建设的方法、系统、设备及介质。
如图1所示展示本发明一实施例中的基于政府大数据的智慧健康社区平台建设的方法的流程示意图。
需说明的是,所述基于政府大数据的智慧健康社区平台建设的方法可应用于多种类型的硬件设备。所述硬件设备例如是控制器,具体如ARM(Advanced RISC Machines)控制器、FPGA(Field Programmable Gate Array)控制器、SoC(System on Chip)控制器、DSP(DigitalSignal Processing)控制器、或者MCU(Micorcontroller Unit)控制器等等。所述硬件设备例如也可以是包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子系统、显示屏、其他输出或控制设备,以及外部端口等组件的计算机;所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(Personal Digital Assistant,简称PDA)等个人电脑。在另一些实施方式中,所述硬件设备还可以是服务器,所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上,也可以由分布的或集中的服务器集群构成,本实施例不作限定。
如图1所示,在本实施例中,所述基于政府大数据的智慧健康社区平台建设的方法包括步骤S110至步骤S130。
步骤S110,获取数据源的基本信息,根据所述数据源的基本信息将对应的数据字典读取到数据库;
步骤S120,根据数据源的设置和目标平台的规则构建目标库表结构,并于所述目标库表结构写入目标数据;
步骤S130,根据目标数据配置ETL作业并调度监控所述ETL作业运行。
以下对本实施例中所述基于政府大数据的智慧健康社区平台建设的方法的步骤S110至步骤S130进行详细说明。
步骤S110,获取数据源的基本信息,根据所述数据源的基本信息将对应的数据字典读取到数据库。
本实施例中,通过步骤S110实现对源数据(源数据到数据)管理,源数据管理主要是对待入库的各种数据源的基本信息进行管理,包括数据源基本信息的登记、自动获取各种异构数据源字典、梳理加工补全源字典信息、自动分析源数据质量、自动生成源文档、源表结构一致性检查等子功能。
具体地,于本实施例中,所述获取数据源的基本信息具体包括数据源登记:将需要入大数据平台的各种数据源的基本信息登记入库,如数据源所在服务器ip、数据库类型或者文件存放位置、数据库名称、拥有者名称、采集用户、所属业务主题、保密要求等。
于本实施例中,所述根据所述数据源的基本信息将对应的数据字典读取到数据库包括:
1)自动获取异各种数据源字典:根据登记的数据源基本信息,从对应的数据源读取数据库系统字典,将需要采集的数据库系统字典读取到数据库,包括数据库、表、字段的信息,如表的名称、备注,字段的字段名称、字段备注、字段类型、字段长度、精度、是否主键、是否为空、是否为外键、被引用的表、被引用的字段、引用条件等;如果源是文件系统则读取文件的表头。
2)理加工补全源字典信息:对读取到数据库的源数据字典进行梳理,确定哪些表和字段是需要采集的,对这些表和字段进行标记、补全备注,分析表间引用关系,如果源系统没有设置表间引用关系,则需要通过业务关系手动补上。
此外,于本实施例中,基于政府大数据的智慧健康社区平台建设的方法还包括:对读取到所述数据库中的源数据进行数据质量分析和/或定期扫描数据字典,将所述数据字典结构与数据库结构进行对比分析。
于本实施例中,基于政府大数据的智慧健康社区平台建设的方法还包括:生成对源数据进行数据质量分析的数据质量分析报告、将所述数据字典结构与数据库结构进行对比分析的对比文件报告以及根据数据源的基本信息生成现有数据源调研报告以及根据数据库生成数据源系统字典中的一个或多个。
所以于本实施例中,所述基于政府大数据的智慧健康社区平台建设的方法可以实现以下功能:
1)自动分析源数据质量:首先调用数据源质量分析模块自动全部的源数据质量进行一次全量分析,然后对重点的分析字段做特定的数据质量分析,并出具数据质量分析报告;
2)自动生成源文档:根据梳理好的源数据表字典,自动生成源数据字典文档和现有数据源现状调研报告等文档;
3)源表结构一致性检查:定期扫描数据源系统字典,与数据中的表和字段信息进行对比,及时发现生产系统的结构变化,并生成结构差异报告。
步骤S120,根据数据源的设置和目标平台的规则构建目标库表结构,并于所述目标库表结构写入目标数据。
通过步骤S120实现对目标数据管理,目标数据管理主要用于对目标仓库或大数据平台的库表结构进行设计,包括数据仓库或大数据平台的分层信息、数据库表信息、数据表字段信息等,并可以根据这些设计配置信息自动生成目标仓库的创建脚本、以及数据库详细设计文档等。
如图2所示,于本实施例中,所述根据数据源的设置和目标平台的规则构建目标库表结构包括:
步骤S121,根据数据源的设置和目标平台的规则生成目标表数据,目标字段数据;
具体地,通过步骤S121试下:
1)自动生成目标表数据:根据源设置为要采集的表和目标平台的命名规则自动生成目标表名和备注。
2)自动生成目标字段数据:根据源字段设置为要采集的表和字段及目标平台的命名规则自动生成目标表字段基本信息。
步骤S122,根据所述目标表数据,目标字段数据以及输入的补充配置数据构建目标库表结构。
具体地,构建目标库表结构包括:
1)设置目标表的分区/分桶信息;
2)设置目标表的增量采集信息;
3)补全设置目标字段的引用关系、引用条件;
4)增加技术数据字段:根据设置需要采集的数据库表及字段自动生成目标表结构,然后在自动生成的基础上增加其他字段及管理需要的技术数据字段,如数据来源、采集时间、入库时间、安全等级等,构成目标库表结构。
于本实施例中,基于政府大数据的智慧健康社区平台建设的方法还包括:根据目标库表结构和/或数据库模板生成数据库设计文档。
本实施例的基于政府大数据的智慧健康社区平台建设的方法对目标数据管理还包括:
1)自动生成目标库表创建脚本:根据设置好的目标数据库表结构,调用自动生成目标脚本模块,自动生成目标库能执行的sql脚本,目前可支持的sql脚本包括oracle、hive。可以一次性生成整个大数据平台所有层级(STG、ODS、EDW、DDW、DIM)的sql脚本,也可以通过参数指定只生成某个层级、或某个层级下某个表的sql脚本。
2)自动生成目标库数据库设计文档:根据配置好的目标数据库表结构,可以根据数据库设计文档模板,自动生成目标数据库设计文档。
3)目标数据一致性检查:定期扫描目标数据设置与目标数据平台之间的结构是否一致,防止有人不经过数据直接修改目标数据库的库表结构,扫描结果生成在线分析报告。
步骤S130,根据目标数据配置ETL作业并调度监控所述ETL作业运行。
于本实施例中,所述配置ETL作业包括但不限于:配置ETL作业基本信息、ETL作业关联信息、ETL字段映射信息以及ETL作业补全信息。
具体地,通过步骤S130实现:
1)自动生成ETL作业基本信息:根据目标数据中的目标表基本信息及ETL命名规则自动生成ETL基本作业信息,包括作业名、作业备注、目标表名、目标表备注、目标表主键、作业类型(全量、增量)等;
2)自动生成ETL作业关联信息:根据目标数据中的目标字段之间的外键引用关系,自动生成ETL作业涉及的多表关联关系,并将关联表及关联条件自动写入ETL作业的关联表中,并根据主表、引用表顺序从字母a开始设置关联表别名;
3)自动生成ETL字段映射信息:根据目标数据中的目标字段与源字段的对照关系自动生成ETL作业的字段对照及映射规则信息。
4)人工检查并补全ETL信息:
4-1)对ETL作业补全采集周期、采集策略、筛选条件、增全量条件等信息;
4-2)检查ETL作业关联表及关联条件,如果有问题的修正;
4-3)检查ETL字段映射及规则是否正确。
于本实施例中,如图3所示,所述调度管理所述ETL作业运行包括:
步骤S131,配置作业执行的批次号及执行顺序;
步骤S132,根据ETL数据表内的配置信息和ETL工具的Job模板文件,自动生成目标ETL工具能执行的Job文件;
步骤S133,根据ETL调度配置数据,生成执行调度的调度脚本;
步骤S134,将调度脚本添加到调度工具,以通过所述调度工具进行执行和监控ETL作业。
于本实施例中,还包括:根据ETL数据表内的配置和/或ETL设计文档模板生成ETL设计文档。
所以本实施例中调度管理所述ETL作业运行包括:
1)作业流程设置:对于复杂作业可能由多个子作业依据一定的顺序和条件组成,可将执行顺序和条件设置在数据里;并更新ETL作业基本信息中所有子作业的是否主作业标记为否;
2)ETL执行批次设置:将ETL作业基本信息中标记为主作业的所有作业导入到ETL批次表,设置作业执行的批次号及执行顺序;生成批次基本信息,开始执行时间,执行频率等;
3)自动生成ETL脚本:根据ETL数据表内的配置信息和ETL工具的Job模板文件,可以自动生成目标ETL工具能执行的Job文件,目前可支持的ETL工具为Kettle、Streamsets,以后可以根据项目具体使用什么ETL工具进行扩展;
4)自动生成ETL设计文档:根据ETL数据表内的配置,结合ETL设计文档模板,可自动输出ETL设计文档;
5)自动生成调度shell脚本:根据ETL调度配置数据,自动生成执行调度的shell脚本;
6)自动生成好的调度脚本添加到调度工具,通过调度工具进行执行和监控,如EasySchedule。
由上可见,本实施例的基于政府大数据的智慧健康社区平台建设的方法可以达到以下效果:
1)加速项目进度,减少人力支出:很多流程都是自动完成,可以缩短需求调研时间和ETL脚本配置时间,传统ETL脚本都是用ETL工具一步步开发配置,非常耗人力;自动生成项目文档也可以大大减少项目人力支出;
2)保证项目数据的一致性:项目的调研数据、配置数据、文档数据都集中在数据里,而且工具提供了数据与配置文件的检查功能,可以最大程度保证数据的一致性,而且可以调用文档生成功能更随时生成新的文档及版本信息,避免了传统项目改了配置未改文档、或者改了文档忘记改配置等问题。
3)灾难恢复:假如目标数据仓库或大数据平台出现什么故障,可以用数据进行重建。
4)统一管理,功能齐全:集成需求调研、数据管理、文档生成、脚本生成;传统的数据管理比较分散,往往都只有单独的一两种功能,且没有自动生成ETL脚本的功能。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合图4和图5对本实施例的基于政府大数据的智慧健康社区平台建设的方法具体执行过程进行清楚、完整地描述。
(一)需求阶段
1、登记数据源基本信息
向用户获取需要入大数据平台的数据源清单,信息包括数据源名称、IP地址、数据存储类型(Oracle、Mssqlserver、mysql、excel文件、csv文件、txt文件等)、数据库实例、数据库所有者、数据采集用户及密码、所属业务主题、保密等级、共享条件、采集频率等。
2、获取数据源字典
根据登记的数据源基本信息,执行源数据字典获取模块,如果是关系型数据库,则连接对应数据源,访问其系统数据字典,读取需要采集到大数据平台的数据库所包含的表、字段描述信息;如果是文件则用参数指定数据源结构的说明出现在文件的位置,如第1行。
3、人工梳理并补全数据源字典
检查导入的数据源字典,如果发现有缺失的信息,如表和字段的备注说明等,则需要人工补全;另外原系统没有设置字段的外键引用关系,则需要人工补上;设置哪些表和字段是需要采集入大数据平台。
4、分析源数据质量
对设置需要采集的数据源进行核心字段数据质量分析,并输出数据质量分析报告,供后期ETL设置数据清洗规则用。
(二)系统设计阶段
5、生成目标数据
调用自动生成目标表数据模块存储过程,程序取出源设置为要采集的表结合表命名规则生成目标表基本信息;将需要采集的字段结合目标表生成目标字段基本信息。
6、人工补全目标表信息
人工补全补全目标数据:
1)设置目标表的分区/分桶信息;
2)设置目标表的增量采集信息;
3)补全设置目标字段的引用关系、引用条件;
4)增加技术数据字段:根据设置需要采集的数据库表及字段自动生成目标表结构,然后在自动生成的基础上增加其他字段及管理需要的技术数据字段,如数据来源、采集时间、入库时间、安全等级等,构成目标库表结构。
7、生成目标库表创建脚本
根据设置好的目标数据库表结构,调用自动生成目标脚本模块,自动生成目标库能执行的sql脚本,目前可支持的sql脚本包括oracle、hive。可以一次性生成整个大数据平台所有层级(STG、ODS、EDW、DDW、DIM)的sql脚本,也可以通过参数指定只生成某个层级、或某个层级下某个表的sql脚本。
8、创建目标数据库表结构
将生成的sql脚本放到目标大数据平台执行,生成目标数据库表结构。
(三)ETL设计开发
9、ETL作业初始化
执行ETL作业初始化存储过程,程序首先根据目标数据中的目标表基本信息及ETL命名规则自动生成ETL基本作业信息,包括作业名、作业备注、目标表名、目标表备注、目标表主键、作业类型(全量、增量)等;其次,根据目标数据中的目标字段之间的外键引用关系,自动生成ETL作业涉及的多表关联关系,并将关联表及关联条件自动写入ETL作业的关联表中,并根据主表、引用表顺序从字母a开始设置关联表别名;第三,根据目标数据中的目标字段与源字段的对照关系自动生成ETL作业的字段对照及映射规则信息。
10、人工检查并补全ETL信息
1)对ETL作业补全采集周期、采集策略、筛选条件、增全量条件等信息;
2)检查ETL作业关联表及关联条件,如果有问题的修正;
3)检查ETL字段映射及规则是否正确。
11、设置作业流程
对于复杂作业可能由多个子作业依据一定的顺序和条件组成,可将执行顺序和条件设置在数据里;并更新ETL作业基本信息中所有子作业的是否主作业标记为否。
12、生成ETL脚本
执行生成ETL脚本模块并传入ETL工具类型参数,在服务器输出文件夹查看输出脚本文件,复制到ETL工具的脚本目录,用ETL工具执行测试看是否有问题。
(四)ETL调度跑批
13、设置ETL批次及执行顺序
将ETL作业基本信息中标记为主作业的所有作业导入到ETL批次表,设置作业执行的批次号及执行顺序;生成批次基本信息,开始执行时间,执行频率等。
14、生成调度shell脚本
执行生成调度shell脚本,自动生成执行调度的shell脚本,到服务器输出目录找到输出的shell脚本文件,放到跑批脚本目录,可以手工调度执行看看结果,如果没有问题则将脚本加入调度工具进行调度。
15、用调度工具调度跑批
将生成的Shell脚本加入到调度工具,如:EasySchedule等,启动跑批操作,监控执行状态。
(五)生成文档
可以在需要文档的任何时候执行文档生成模块。所有文档都支持在线直接查询。
16、生成现有数据源现状调研报告
执行生成现有数据源现状调研报告,报告文件直接输出到服务器输出目录。
17、生成源数据字典文档
执行生成源数据字典文档,可传入参数包括数据源名称、Schema、tablename,在服务器输出目录找到生成的文件,也支持在线直接查看源数据字典。
18、生成ETL设计文档
执行生成ETL设计文档,输出ETL设计文档到服务器输出目录。
19、生成数据库设计文档
执行生成目标数据库设计文档,输入目标数据库类型、层级、表名等参数,结果输出到服务器输出目录。
(六)日常运维监控
20、检查源表结构一致性
定期扫描数据源系统字典,与数据中的表和字段信息进行对比,及时发现生产系统的结构变化,并生成结构差异报告。
21、检查目标数据一致性
定期扫描目标数据设置与目标数据平台之间的结构是否一致,防止有人不经过数据直接修改目标数据库的库表结构,扫描结果生成在线分析报告。
22、调度界面监控
通过调度跑批可视化界面查看调度执行状态。
23、邮件监控
通过调度工具的邮件发送功能设置事件通知,当调度出现问题时自动给设置的相关人发送邮件通知。
24、错误重跑
根据设定的错误重跑机制,对错误的批次,重新跑失败的脚本。
如图6所示,本实施例还提供一种基于数据的大数据平台构建系统100,所述基于数据的大数据平台构建系统100包括:源数据管理模块110,目标数据管理模块120,ETL数据管理模块130以及调度监控模块140。
于本实施例中,所述源数据管理模块110用于获取数据源的基本信息,根据所述数据源的基本信息将对应的数据字典读取到数据库。
于本实施例中,所述目标数据管理模块120用于根据数据源的设置和目标平台的规则构建目标库表结构,并于所述目标库表结构写入目标数据。
于本实施例中,所述ETL数据管理模块130用于根据目标数据配置ETL作业;调度监控模块140,用于调度监控所述ETL作业运行。
本实施例的基于数据的大数据平台构建系统100具体实现的技术特征与前述实施例中的基于政府大数据的智慧健康社区平台建设的方法基本相同,实施例间可以通用的技术内容不作重复赘述。

Claims (8)

1.一种基于政府大数据的智慧健康社区平台建设的方法,其特征在于:包括:
获取数据源的基本信息,根据所述数据源的基本信息将对应的数据字典读取到数据库;
根据数据源的设置和目标平台的规则构建目标库表结构,并于所述目标库表结构写入目标数据;
根据目标数据配置ETL作业并调度监控所述ETL作业运行。
2.根据权利要求1所述的基于政府大数据的智慧健康社区平台建设的方法,其特征在于:基于政府大数据的智慧健康社区平台建设的方法还包括:
对读取到所述数据库中的源数据进行数据质量分析和/或定期扫描数据字典,将所述数据字典结构与数据库结构进行对比分析。
3.根据权利要求2所述的基于政府大数据的智慧健康社区平台建设的方法,其特征在于:基于政府大数据的智慧健康社区平台建设的方法还包括:
生成对源数据进行数据质量分析的数据质量分析报告、将所述数据字典结构与数据库结构进行对比分析的对比文件报告以及根据数据源的基本信息生成现有数据源调研报告以及根据数据库生成数据源系统字典中的一个或多个。
4.根据权利要求1所述的基于政府大数据的智慧健康社区平台建设的方法,其特征在于:所述根据数据源的设置和目标平台的规则构建目标库表结构包括:
根据数据源的设置和目标平台的规则生成目标表数据,目标字段数据;
根据所述目标表数据,目标字段数据以及输入的补充配置数据构建目标库表结构。
5.根据权利要求1所述的基于政府大数据的智慧健康社区平台建设的方法,其特征在于:所述配置ETL作业包括:
配置ETL作业基本信息、ETL作业关联信息、ETL字段映射信息以及ETL作业补全信息。
6.根据权利要求1所述的基于政府大数据的智慧健康社区平台建设的方法,其特征在于:所述调度管理所述ETL作业运行包括:
配置作业执行的批次号及执行顺序;
根据ETL数据表内的配置信息和ETL工具的Job模板文件,自动生成目标ETL工具能执行的Job文件;
根据ETL调度配置数据,生成执行调度的调度脚本;
将调度脚本添加到调度工具,以通过所述调度工具进行执行和监控ETL作业。
7.根据权利要求1至6任一权利要求所述的基于政府大数据的智慧健康社区平台建设的方法,其特征在于:基于政府大数据的智慧健康社区平台建设的方法还包括:
根据目标库表结构和/或数据库模板生成数据库设计文档、根据ETL数据表内的配置和/或ETL设计文档模板生成ETL设计文档。
8.一种基于数据的大数据平台构建系统,其特征在于:所述基于数据的大数据平台构建系统包括:
源数据管理模块,用于获取数据源的基本信息,根据所述数据源的基本信息将对应的数据字典读取到数据库;
目标数据管理模块,用于根据数据源的设置和目标平台的规则构建目标库表结构,并于所述目标库表结构写入目标数据;
ETL数据管理模块,用于根据目标数据配置ETL作业;
调度监控模块,用于调度监控所述ETL作业运行。
CN202310571601.7A 2023-05-21 2023-05-21 一种基于政府大数据的智慧健康社区平台建设的方法 Pending CN116595081A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310571601.7A CN116595081A (zh) 2023-05-21 2023-05-21 一种基于政府大数据的智慧健康社区平台建设的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310571601.7A CN116595081A (zh) 2023-05-21 2023-05-21 一种基于政府大数据的智慧健康社区平台建设的方法

Publications (1)

Publication Number Publication Date
CN116595081A true CN116595081A (zh) 2023-08-15

Family

ID=87598770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310571601.7A Pending CN116595081A (zh) 2023-05-21 2023-05-21 一种基于政府大数据的智慧健康社区平台建设的方法

Country Status (1)

Country Link
CN (1) CN116595081A (zh)

Similar Documents

Publication Publication Date Title
EP3513314B1 (en) System for analysing data relationships to support query execution
US10678810B2 (en) System for data management in a large scale data repository
US8700671B2 (en) System and methods for dynamic generation of point / tag configurations
EP3513313A1 (en) System for importing data into a data repository
US7720873B2 (en) Dynamic data discovery of a source data schema and mapping to a target data schema
JP3887564B2 (ja) 統合型データベース結合システム
US8176083B2 (en) Generic data object mapping agent
CN100565510C (zh) 数据访问层类生成器
US8190555B2 (en) Method and system for collecting and distributing user-created content within a data-warehouse-based computational system
CN113051263A (zh) 基于元数据的大数据平台构建方法、系统、设备及介质
CN114357088B (zh) 核电工业数据仓库系统
CN101183361A (zh) 一种关系数据库应用自动升级的方法
WO2006026702A2 (en) Methods and systems for semantic identification in data systems
US20110153562A1 (en) Error prevention for data replication
CN104392123A (zh) 一种cda引擎系统及实现方法
CN112735571B (zh) 一种医疗健康数据上传管理平台
CN116595081A (zh) 一种基于政府大数据的智慧健康社区平台建设的方法
CN115730022A (zh) 采用事件触发和流程编排的数据处理构建方法及平台系统
CN114546415B (zh) 一种用于云平台大数据储存优化分析系统
CN116089417A (zh) 信息获取方法、装置、存储介质及计算机设备
Lee et al. A metadata oriented architecture for building datawarehouse
CN114356945A (zh) 数据处理方法、装置、计算机设备和存储介质
RU2795902C1 (ru) Способ и система автоматизированной генерации и заполнения витрин данных с использованием декларативного описания
Tang et al. Online application of science and technology program oriented distributed heterogeneous data integration
CN112559494A (zh) 一种可视化的数仓建模方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination