CN108959564B - 数据仓库元数据管理方法、可读存储介质和计算机设备 - Google Patents

数据仓库元数据管理方法、可读存储介质和计算机设备 Download PDF

Info

Publication number
CN108959564B
CN108959564B CN201810722676.XA CN201810722676A CN108959564B CN 108959564 B CN108959564 B CN 108959564B CN 201810722676 A CN201810722676 A CN 201810722676A CN 108959564 B CN108959564 B CN 108959564B
Authority
CN
China
Prior art keywords
data
target
service source
data warehouse
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810722676.XA
Other languages
English (en)
Other versions
CN108959564A (zh
Inventor
袁义军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiufu Jinke Holding Group Co ltd
Original Assignee
Jiufu Jinke Holding Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiufu Jinke Holding Group Co ltd filed Critical Jiufu Jinke Holding Group Co ltd
Priority to CN201810722676.XA priority Critical patent/CN108959564B/zh
Publication of CN108959564A publication Critical patent/CN108959564A/zh
Application granted granted Critical
Publication of CN108959564B publication Critical patent/CN108959564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据仓库元数据管理方法、计算机可读存储介质和计算机设备,所述数据仓库元数据管理方法包括:在数据抽取过程中检测数据仓库的源库的各个业务源表的数据结构是否发生变化,若变化则生成预警信息并分别处理发生变化的业务源表以完成数据处理;根据所述发生变化的业务源表所对应的目标表在所述数据仓库中进行血缘分析,输出血缘关系图谱;根据血缘关系图谱评估并修改所述数据仓库中涉及的各个数据表。本发明提供的数据仓库元数据管理方法便于查找业务源表的变化,并方便供后续数据开发人员进行调整,并通过血缘分析验证调整的准确度,从而减少数据结构不一致带来的问题,同时降低了数据仓库日常调度流程报错的几率。

Description

数据仓库元数据管理方法、可读存储介质和计算机设备
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据仓库元数据管理方法、计算机可读存储介质和计算机设备。
背景技术
元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data aboutdata),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找和文件记录等功能。通过元数据描述业务数据,并对描述业务数据的元数据进行管理,可以实现对业务数据的有效管理。
目前,在数据处理技术领域,在中国专利文件中,一名为《一种元数据管理系统》申请号为CN201711049884.X,介绍了一种元数据管理系统,包括:关系型数据库模块,用于配置连接业务数据库;日志-文本文件模块,用于传递流失数据及订阅相关业务数据目录;与关系型数据库模块通信连接的结构化数据源接入模块,用于获取各业务数据的元数据信息;与所述日志-文本文件模块通信连接的非结构化数据源接入模块,用于订阅并记录Kafka和日志收集系统Flume的流数据信息;分别连接所述结构化数据源接入模块和非结构化数据源接入模块的信息存储模块,用于存储上述各模块的信息记录。进一步的,所述系统还包括据血缘分析模块、数据管理模块和WEB可视化模块。该发明能够实现大数据爆炸的数据信息的有效管理,并能提升业务数据信息的有效展示,方便数据共享。但是该发明没有涉及数据源发生变化时的对变化的数据进行的数据管理,而在实际应用中,源数据表格有时会因为数据扩展或缩减而发生变化。如此对于《一种元数据管理系统》而言,一旦数据源发生变化则有可能会造成数据错误,严重时会影响整个数据质量和环境稳定性。
在中国专利文件中,一名为《一种数据加载清洗引擎、调度与存储系统》申请号为CN201610524292.8,介绍了一种数据加载清洗引擎、调度与存储系统,包括数据源、数据仓库和用户展现模块,数据仓库连接有ETL管理模块,ETL管理模块包括ETL调度模块、ETL监控模块、数据质量模块和ETL任务模块,数据仓库包括接口文件区、细节数据暂存区SSA、细节数据SOR、数据集市、数据总结模块、反馈模块和元数据存储MDR。该发明在一定程度上能够应对大吞吐量的数据处理,但是该发明虽然包括了故障处理,但实质上未对错误数据或故障数据进行处理,而是通过重新分配任务放弃了所述错误数据或故障数据。若该数据是由于数据源的数据格式改变引起的,则《一种数据加载清洗引擎、调度与存储系统》发明不能有效解决此问题。
在中国专利文件中,一名为《一种清洗对比入库方法》申请号为CN201611097362.2,介绍了一种清洗对比入库方法,该方法应用于大数据互联网环境中,该系统包括多数据来源,多个数据采集单元,缓存服务器,统一数据处理平台,数据仓库,上位机;该清洗对比入库方法对数据作并行采集和处理,去除明显不合理和明显矛盾的数据,进行自动数据值补全,重复数据删除等清洗处理。该发明利用已有数据资源进行自动化清洗,能够实现对因数据格式错误、数据字段错位、明显不合理字段值等错误数据的清洗。但是也仅仅停留在对数据的清洗,而对于数据仓库中有依赖关系的数据字段则无法实现整体的调整和更新。
发明内容
为了解决上述问题至少之一,本发明第一方面提供一种数据仓库元数据管理方法,包括:
S11:在数据抽取过程中检测数据仓库的源库的各个业务源表的数据结构是否发生变化,若未变化则直接完成数据抽取并加载到所述数据仓库的目标库的目标表中,否则生成预警信息并分别处理发生变化的业务源表以完成数据处理;
S13:根据所述发生变化的业务源表所对应的目标表在所述数据仓库中进行血缘分析,输出血缘关系图谱;
S15:根据所述血缘关系图谱评估所述发生变化的数据结构对所述数据仓库中各个数据表的影响,并根据所述血缘关系图谱修改所述数据仓库中涉及的各个数据表。
进一步地,所述管理方法还包括:
S17:根据所述发生变化的业务源表所对应的目标表在所述数据仓库中进行血缘分析,输出血缘关系图谱以验证所述数据仓库的修改是否准确。
进一步地,所述S11包括:
S111:根据采集配置表和逻辑配置表分别获取所述业务源表和目标表的信息;
S113:遍历所述源库和目标库,获取并比对所述业务源表和目标表的数据结构,判断是否匹配,若是则跳转至S115,若否则跳转至S117;
S115:根据所述采集配置表的数据采集要求采集所述业务源表的数据并存储在所述目标表中;
S117:生成预警信息并输出所述业务源表的数据结构,判断是否更新所述数据结构并完成数据处理。
进一步地,所述S111包括:
S1111:根据所述采集配置表获得所述业务源表的源库名称、源表名称和目标表的目标库名称、目标表名称;
S1113:从所述逻辑配置表获取源库链接信息;
S1115:从所述逻辑配置表获取目标库链接信息。
进一步地,所述S113包括:
S1131:根据所述源库链接信息遍历所述源库,取出所述业务源表的数据结构;
S1133:根据所述目标库链接信息遍历所述目标库,取出所述目标表的数据结构;
S1135:比对所述业务源表和目标表的数据结构,若匹配则跳转至S115,否则跳转至S117。
进一步地,所述S117包括:
S1171:生成预警信息并输出所述业务源表的数据结构,提示所述业务源表的数据结构发生变化;
S1173:响应于管理员的确认判断所述数据结构变化是否更新,若是则跳转至S1175,否则舍弃所述业务源表的数据;
S1175:更新所述目标表的数据结构和所述采集配置表中对应的信息;
S1177:根据所述采集配置表的采集优先级、采集并行度和切分字段将所述业务源表的数据存储在所述目标表中。
进一步地,所述预警信息包括邮件、日志或短信信息。
进一步地,所述S13包括:
S131:将所述发生数据结构变化的业务源表所对应的目标表作为所述血缘分析的基础分析表,提取所述基础分析表的正则解析脚本;
S133:遍历所述数据仓库,根据所述基础分析表的正则解析脚本获取所述数据仓库中与所述基础分析表有依赖关系的依赖关系表;
S135:根据前置依赖将所述基础分析表与依赖关系表进行排序并输出所述基础分析表的血缘关系图谱。
本发明第二方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的管理方法。
本发明第三方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
本发明的有益效果如下:
本发明针对目前现有的数据仓库存在因数据源的数据结构改变而造成的调度报错或数据错误,建立了一种数据仓库元数据管理方法,针对数据源表的变化进行预警,并响应于管理员的确认判断是否更新变化的数据结构,从而解决了因数据源表发生变化引起的系统报错,同时针对数据源表数据结构的正常调整进行更新,并以数据结构发生变化的数据表作为基础分析表进行血缘分析并输出血缘关系图谱,通过血缘关系图谱检测因数据结构发生变化需要调整的相关数据表并评估调整所述相关数据表引起的影响,根据血缘关系图谱和评估结果更新所述数据仓库,更新后再次进行血缘分析以验证所述更新是否准确,从而有效提高数据仓库的源数据管理方法。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明。
图1示出本发明的一个实施例所述数据仓库元数据管理方法的流程图;
图2示出本发明的一个实施例所述数据抽取过程中业务源表变化检测的流程图;
图3示出本发明的一个实施例所述的采集配置作业表的截图;
图4示出本发明的一个实施例所述的采集配置逻辑表的截图;
图5示出本发明的一个实施例所述获取业务源表和目标表信息的流程图;
图6示出本发明的一个实施例所述检测业务源表和目标表数据信息的流程图;
图7示出本发明的一个实施例所述更新业务源表的流程图;
图8示出本发明的另一个实施例所述的采集作业管理的截图;
图9示出本发明的另一个实施例所述的新建采集作业的截图;
图10示出本发明的另一个实施例所述血缘分析的流程图;
图11示出本发明的另一个实施例的所述血缘关系图谱;
图12示出本发明的另一个实施例所述数据仓库元数据管理方法的流程图;
图13示出本发明的另一个实施例所述的一种计算机设备的结构示意图。
具体实施方式
为了更清楚地说明本发明,下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
目前,数据仓库在实际应用中通常需要将分散在各个业务系统中的数据按一定频率,例如以T+1的频率同步至离线数据存储环境中,现有数据采集系统中通常基于固定的来源库、来源表、来源列采集数据,这种采集方案在源表格发生变化时可能会造成调度报错或者数据错误,影响数据质量和环境稳定性。如图1所示,本发明的一个实施例提供了一种数据仓库元数据管理方法,包括:S11:在数据抽取过程中检测数据仓库的源库的各个业务源表的数据结构是否发生变化,若未变化则直接完成数据抽取并加载到所述数据仓库的目标库的目标表中,否则生成预警信息并分别处理发生变化的业务源表以完成数据处理;S13:根据所述发生变化的业务源表所对应的目标表在所述数据仓库中进行血缘分析,输出血缘关系图谱;S15:根据所述血缘关系图谱评估所述发生变化的数据结构对所述数据仓库中各个数据表的影响,并根据所述血缘关系图谱修改所述数据仓库中涉及的各个数据表。
在一个具体的示例中,针对数据仓库在数据更新过程中对源库的业务源表的数据结构发生变化存在的问题,以及由此带来的数据血缘整理中存在遗漏、关系整理不及时等问题进行调整。首先在数据抽取过程中进行业务源表的数据结构信息变化检测,经数据处理后进行数据仓库的血缘关系解析并输出血缘关系图谱,通过所述血缘关系图谱进一步评估并修改所述数据仓库涉及的数据表。
S11:在数据抽取过程中检测数据仓库的源库的各个业务源表的数据结构是否发生变化,若未变化则直接完成数据抽取并加载到所述数据仓库的目标库的目标表中,否则生成预警信息并分别处理发生变化的业务源表以完成数据处理。如图2所示,包括:
S111:根据采集配置表和逻辑配置表分别获取所述业务源表和目标表的信息。如图3和图4所示,在本实施例中,所述业务源表信息变化检测配置表对应"源表信息映射-配置作业信息"和"源表逻辑映射-服务器信息",由于配置作业与服务器是一对多的关系所以分两个表存储。即图3为采集配置作业表,包括每个业务源表对应的服务器ID、源库名称、源库信息、源表名称、目标库名称、目标表名称、采集优先级等采集配置信息。相对应的,图4为采集配置逻辑表,主要包括访问所述服务器所对应的服务器IP、数据库类型、数据库名称、描述、端口、用户、用户密码和服务器维护人员等采集配置逻辑信息。值得说明的是,本领域技术人员可以将采集配置作业表和采集配置逻辑表合成一个配置表,具体以实际需求为设计准则。如图5所示,包括:
S1111:根据所述采集配置表获得所述业务源表的源库名称、源表名称和目标表的目标库名称、目标表名称。例如所述业务源表的服务器名称、源库名称、源表名称和目标表的目标库名称、目标表名称。每日抽取数据时,使用检测脚本通过python读取配置表信息,返回需要更新的采集配置作业表信息,如图3所示,每一行对应一个业务源表。例如检测“订单表”,从采集配置作业表读取下述信息:例如:该表对应的服务器ID为“yl_lcht”、源库名称为“lchtdb”、源表名称为“t_lc_order”,目标库名称为“bd_yanlian”、目标表名称为“lc_t_lc_order”。
S1113:从所述逻辑配置表获取源库链接信息。遍历所述逻辑配置表,获取所述源库的具体信息,即根据服务器ID“yl_lcht”从所述采集配置作业表读取的源表信息获取服务器信息和具体地址,服务器ID为“yl_lcht”的服务器IP为“rm-2ze862zsvm071.mysql.rds.aliyu”,数据库类型为“mysql”、数据库名称为“lchtdb”、端口为“3306”,用户名为“lchtdb_ro”、用户密码为“C#R%CpY7u1*3”。
S1115:从所述逻辑配置表获取目标库链接信息,与上述获取源库链接信息相类似,遍历所述逻辑配置表,获取对应的目标表“lc_t_lc_order”的具体信息。
S113:遍历所述源库和目标库,获取并比对所述业务源表和目标表的数据结构,判断是否匹配,若是则跳转至S115,若否则跳转至S117;根据上述读取的业务源表信息和目标表信息遍历所述源库和目标库,如图6所示,包括:
S1131:根据所述源库链接信息遍历所述源库,取出所述业务源表的数据结构。根据源服务器名称、地址、端口、用户名称和用户密码遍历所述源库,取出所述业务源表的数据结构。通过Python读取数据仓库的元数据,返回业务源表的字段名称、字段类型、字段备注和字段位置。
S1133:根据所述目标库链接信息遍历所述目标库,取出所述目标表的数据结构。相类似的,根据目标库ip、账号、密码,通过Python读取数据仓库的元数据获取目标表的字段名称、字段类型、字段备注和字段位置,或这根据预先设置的目标库信息获取目标表的字段名称、字段类型、字段备注和字段位置。
S1135:比对所述业务源表和目标表的数据结构,若匹配则跳转至S115,否则跳转至S117。
将上述读取出的业务源表和目标表的数据结构进行比对,若匹配表明所述业务源表的数据结构没有发生变化,可以直接进行数据更新。
S115:根据所述采集配置表的数据采集要求采集所述业务源表的数据并存储在所述目标表中。具体的,根据所述采集配置作业表的采集优先级、采集并行度和切分字段采集所述业务源表的数据,然后将所述业务源表的采集数据存储在所述目标表中。
否则表明业务源表的数据结构发生了变化,例如数据结构进行了扩展或缩减,不能直接进行数据更新,需要进行进一步地数据处理。
S117:生成预警信息并输出所述业务源表的数据结构,判断是否更新所述数据结构并完成数据处理。如图7所示,包括:
S1171:生成预警信息并输出所述业务源表的数据结构,提示所述业务源表的数据结构发生变化。针对数据结构发生变化的业务源表,所述数据仓库生成预警信息,包括但不限于邮件、日志或短信信息等预警方式,以提醒管理员注意,一般在进行每日数据更新时,当检测到业务源表的数据结构发生变化时生成预警信息,提醒管理员注意并处理,然后跳过当前业务源表,继续更新下一个业务源表。
S1173:响应于管理员的确认判断所述数据结构变化是否更新,若是则跳转至S1175,否则舍弃所述业务源表的数据。对于变化的业务源表,当管理员接收到数据仓库生成的预警信息后,人工检查所述业务源表的变化的数据结构,并确认所述变化是否为实际存在的需要更新的数据结构。例如所述“订单表”的数据结构在原表基础上增加了“订单持续还款信息”,并且该信息为实际存在的、需要更新到数据仓库中的字段数据,如此管理员根据上述依据判断执行更新。若当管理员接收到数据仓库生成的预警信息后,人工检查所述变化的数据结构发现该变化非实际存在的需要更新的数据结构,则将该业务源表的数据视为无效数据,删除并舍弃所述业务源表的数据。
S1175:更新所述目标表的数据结构和所述采集配置表中对应的信息。管理员根据所述业务源表的数据结构更新目标表的数据结构,同时更新采集配置作业表中对应的信息。
S1177:根据所述采集配置表的采集优先级、采集并行度和切分字段将所述业务源表的数据存储在所述目标表中。与正常的数据更新一致,根据所述采集配置作业表的采集优先级、采集并行度和切分字段采集所述业务源表的数据,然后将将所述业务源表的采集数据存储在所述目标表中。
在一个优选的实施例中,如图8和图9所示,所述数据仓库还包括WEB可视化显示模块,所述数据仓库元数据管理方法能够通过所述WEB可视化显示模块对所述数据仓库的采集作业进行设置和管理,图8为采集作业管理,图9为新建一个采集作业。
为实现所述数据仓库中关于上述修改的数据结构的整体调整,还需要尽快进行整体评估,评估关于修改的数据结构对所述数据仓库的影响。
S13:根据所述发生变化的业务源表所对应的目标表在所述数据仓库中进行血缘分析,输出血缘关系图谱。在本实施例中,以数据结构变化的目标表作为基础进行分析,如图10所示,包括:
S131:将所述发生数据结构变化的业务源表所对应的目标表作为所述血缘分析的基础分析表,提取所述基础分析表的正则解析脚本。即对目标表提取正则解析脚本进行血缘分析。
S133:遍历所述数据仓库,根据所述基础分析表的正则解析脚本获取所述数据仓库中与所述基础分析表有依赖关系的依赖关系表。从所述数据仓库的最上游或者最下游开始逐层解析,遍历整个数据仓库中各个数据表的ETL脚本,获取与所述基础分析表有依赖关系的依赖关系表。
S135:根据前置依赖将所述基础分析表与依赖关系表进行排序并输出所述基础分析表的血缘关系图谱。即按照前置依赖顺序将所述基础分析表和涉及的依赖关系表进行排序,输出血缘关系图谱。如图11所示,所述表1为基础分析表,通过血缘解析,得到和表1相关的血缘关系图谱,在本实施例中,所述表1的计算结果影响表9,所述表9的计算结果影响表10。值得说明的是,所述血缘关系图谱既可以以表1为基础分析表,也可以以表10为基础分析表,例如以表10为基础分析表,则表10的计算结果依赖于表9、表7和表8,其中,表9的计算结果依赖于表1和表2,表7的计算结果依赖于表3,表8的计算结果依赖于表4、表5和表6。如此,通过血缘关系图谱可以非常清晰的看到所述变化的数据结构所涉及的数据表。
S15:根据所述血缘关系图谱评估所述发生变化的数据结构对所述数据仓库中各个数据表的影响,并根据所述血缘关系图谱修改所述数据仓库中涉及的各个数据表。即通过所述血缘关系图谱,能够迅速评估所述发生变化的数据结构对整个数据仓库的影响和影响范围,并对涉及的各个数据表的数据结构进行修改,以实现所述数据仓库的更新。
在一个优选的实施例中,如图12所示,当所述数据仓库更新后,所述管理方法还包括:
S17:根据所述发生变化的业务源表所对应的目标表在所述数据仓库中进行血缘分析,输出血缘关系图谱以验证所述数据仓库的修改是否准确。再次以目标表在所述数据仓库中进行血缘分析,根据输出的血缘关系图谱来验证所述数据仓库的更新是否准确,从而完整地实现了对所述数据仓库的更新,确保对数据仓库的修改的准确性,避免因数据仓库更新错误引起的数据错误,从而维护了所述数据仓库的数据质量和环境的稳定性。
本发明的另一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现:S11:在数据抽取过程中检测数据仓库的源库的各个业务源表的数据结构是否发生变化,若未变化则直接完成数据抽取并加载到所述数据仓库的目标库的目标表中,否则生成预警信息并分别处理发生变化的业务源表以完成数据处理;S13:根据所述发生变化的业务源表所对应的目标表在所述数据仓库中进行血缘分析,输出血缘关系图谱;S15:根据所述血缘关系图谱评估所述发生变化的数据结构对所述数据仓库中各个数据表的影响,并根据所述血缘关系图谱修改所述数据仓库中涉及的各个数据表。
在实际应用中,所述计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实时例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
如图13所示,本发明的另一个实施例提供的一种计算机设备的结构示意图。图13显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图13所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图13未显示,通常称为“硬盘驱动器”)。尽管图13中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图13所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图13中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种数据仓库元数据管理方法。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (10)

1.一种数据仓库元数据管理方法,其特征在于,包括:
S11:在数据抽取过程中检测数据仓库的源库的各个业务源表的数据结构是否发生变化,若未变化则直接完成数据抽取并加载到所述数据仓库的目标库的目标表中,否则生成预警信息并分别处理发生变化的业务源表以完成数据处理;
S13:根据所述发生变化的业务源表所对应的目标表在所述数据仓库中进行血缘分析,输出血缘关系图谱;
S15:根据所述血缘关系图谱评估所述发生变化的数据结构对所述数据仓库中各个数据表的影响,并根据所述血缘关系图谱修改所述数据仓库中涉及的各个数据表。
2.根据权利要求1所述的管理方法,其特征在于,所述管理方法还包括:
S17:根据所述发生变化的业务源表所对应的目标表在所述数据仓库中进行血缘分析,输出血缘关系图谱以验证所述数据仓库的修改是否准确。
3.根据权利要求2所述的管理方法,其特征在于,所述S11包括:
S111:根据采集配置表和逻辑配置表分别获取所述业务源表和目标表的信息;
S113:遍历所述源库和目标库,获取并比对所述业务源表和目标表的数据结构,判断是否匹配,若是则跳转至S115,若否则跳转至S117;
S115:根据所述采集配置表的数据采集要求采集所述业务源表的数据并存储在所述目标表中;
S117:生成预警信息并输出所述业务源表的数据结构,判断是否更新所述数据结构并完成数据处理。
4.根据权利要求3所述的管理方法,其特征在于,所述S111包括:
S1111:根据所述采集配置表获得所述业务源表的源库名称、源表名称和目标表的目标库名称、目标表名称;
S1113:从所述逻辑配置表获取源库链接信息;
S1115:从所述逻辑配置表获取目标库链接信息。
5.根据权利要求4所述的管理方法,其特征在于,所述S113包括:
S1131:根据所述源库链接信息遍历所述源库,取出所述业务源表的数据结构;
S1133:根据所述目标库链接信息遍历所述目标库,取出所述目标表的数据结构;
S1135:比对所述业务源表和目标表的数据结构,若匹配则跳转至S115,否则跳转至S117。
6.根据权利要求5所述的管理方法,其特征在于,所述S117包括:
S1171:生成预警信息并输出所述业务源表的数据结构,提示所述业务源表的数据结构发生变化;
S1173:响应于管理员的确认判断所述数据结构变化是否更新,若是则跳转至S1175,否则舍弃所述业务源表的数据;
S1175:更新所述目标表的数据结构和所述采集配置表中对应的信息;
S1177:根据所述采集配置表的采集优先级、采集并行度和切分字段将所述业务源表的数据存储在所述目标表中。
7.根据权利要求6所述的管理方法,其特征在于,所述预警信息包括邮件、日志或短信信息。
8.根据权利要求1所述的管理方法,其特征在于,所述S13包括:
S131:将所述发生变化的业务源表所对应的目标表作为所述血缘分析的基础分析表,提取所述基础分析表的正则解析脚本;
S133:遍历所述数据仓库,根据所述基础分析表的正则解析脚本获取所述数据仓库中与所述基础分析表有依赖关系的依赖关系表;
S135:根据前置依赖将所述基础分析表与依赖关系表进行排序并输出所述基础分析表的血缘关系图谱。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8任一项所述的管理方法。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一项所述的方法。
CN201810722676.XA 2018-07-04 2018-07-04 数据仓库元数据管理方法、可读存储介质和计算机设备 Active CN108959564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810722676.XA CN108959564B (zh) 2018-07-04 2018-07-04 数据仓库元数据管理方法、可读存储介质和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810722676.XA CN108959564B (zh) 2018-07-04 2018-07-04 数据仓库元数据管理方法、可读存储介质和计算机设备

Publications (2)

Publication Number Publication Date
CN108959564A CN108959564A (zh) 2018-12-07
CN108959564B true CN108959564B (zh) 2020-11-27

Family

ID=64485513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810722676.XA Active CN108959564B (zh) 2018-07-04 2018-07-04 数据仓库元数据管理方法、可读存储介质和计算机设备

Country Status (1)

Country Link
CN (1) CN108959564B (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783472A (zh) * 2018-12-14 2019-05-21 深圳壹账通智能科技有限公司 表数据的迁移方法、装置、计算机设备和存储介质
CN109670091B (zh) * 2018-12-24 2020-11-10 成都四方伟业软件股份有限公司 一种基于数据标准的元数据智能维护方法和装置
CN109739893B (zh) * 2018-12-28 2022-04-22 上海尚往网络科技有限公司 一种元数据管理方法、设备及计算机可读介质
CN109840160A (zh) * 2019-01-03 2019-06-04 深圳壹账通智能科技有限公司 一种基于数据迁移的异常供数检测方法、装置及终端设备
CN111488269B (zh) * 2019-01-29 2023-11-14 阿里巴巴集团控股有限公司 数据仓库的指标检测方法、装置和系统
CN109828889A (zh) * 2019-01-31 2019-05-31 平安科技(深圳)有限公司 监控数据库的方法、装置、计算机设备和存储介质
CN110196888B (zh) * 2019-05-27 2024-05-10 深圳前海微众银行股份有限公司 基于Hadoop的数据更新方法、装置、系统及介质
CN112241443B (zh) * 2019-07-16 2023-11-21 中国移动通信集团浙江有限公司 数据质量监测方法、装置、计算设备及计算机存储介质
CN110795478A (zh) * 2019-09-29 2020-02-14 北京淇瑀信息科技有限公司 一种应用于金融业务的数据仓库更新方法、装置和电子设备
CN110807016A (zh) * 2019-09-29 2020-02-18 北京淇瑀信息科技有限公司 一种应用于金融业务的数据仓库构建方法、装置和电子设备
CN110751204A (zh) * 2019-10-16 2020-02-04 北京明略软件系统有限公司 数据融合的方法及装置、存储介质和电子装置
CN111159191B (zh) * 2019-12-30 2023-05-09 深圳博沃智慧科技有限公司 一种数据处理方法、装置和界面
CN111159161A (zh) * 2019-12-31 2020-05-15 青梧桐有限责任公司 基于etl规则的数据质量监控及预警系统和方法
CN111367924B (zh) * 2020-02-26 2024-01-02 杭州数梦工场科技有限公司 数据同步方法、装置、电子设备、存储介质
CN111767350A (zh) * 2020-06-30 2020-10-13 平安国际智慧城市科技股份有限公司 数据仓库测试方法、装置、终端设备及存储介质
CN111897827B (zh) * 2020-07-06 2023-03-14 苏宁金融科技(南京)有限公司 用于数据仓库的数据更新方法、系统及电子设备
CN111967781B (zh) * 2020-08-18 2024-04-16 中国银行股份有限公司 系统改造的影响评估方法及装置
CN112433888B (zh) * 2020-12-02 2023-06-30 网易(杭州)网络有限公司 数据处理方法及装置、存储介质和电子设备
CN112445600A (zh) * 2020-12-15 2021-03-05 北京首汽智行科技有限公司 一种离线数据处理任务发布方法及系统
CN112860811B (zh) * 2021-02-05 2023-07-18 北京百度网讯科技有限公司 数据血缘关系的确定方法、装置、电子设备和存储介质
CN113076314B (zh) * 2021-03-30 2024-04-19 深圳市酷开网络科技股份有限公司 数据表的存储方法、装置及计算机可读存储介质
CN113138973B (zh) * 2021-04-20 2022-12-16 建信金融科技有限责任公司 数据管理系统及工作方法
CN113326261B (zh) * 2021-04-29 2024-03-08 奇富数科(上海)科技有限公司 数据血缘关系提取方法、装置及电子设备
CN113127450A (zh) * 2021-04-30 2021-07-16 平安普惠企业管理有限公司 数据的维护方法、装置、计算机设备及存储介质
CN113468257A (zh) * 2021-07-05 2021-10-01 乐融致新电子科技(天津)有限公司 基于数据仓库的数据质量监控方法及装置
CN113722325A (zh) * 2021-08-31 2021-11-30 北京锐安科技有限公司 数据库中表信息检测方法、装置、计算机设备及存储介质
CN113722326A (zh) * 2021-09-01 2021-11-30 北京火山引擎科技有限公司 一种数据处理方法、装置、电子设备和介质
CN113934786B (zh) * 2021-09-29 2023-09-08 浪潮卓数大数据产业发展有限公司 一种构建统一etl的实施方法
CN116069775B (zh) * 2023-04-06 2023-08-22 上海二三四五网络科技有限公司 一种数据仓库的数据质量校验系统及校验方法
CN116541887B (zh) * 2023-07-07 2023-09-15 云启智慧科技有限公司 一种大数据平台数据安全保护方法
CN116955504B (zh) * 2023-09-21 2023-12-19 太平金融科技服务(上海)有限公司 一种数据处理方法、装置、电子设备和存储介质
CN117055977B (zh) * 2023-10-13 2024-01-26 深圳易伙科技有限责任公司 无代码应用间的数据联动方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881462A (zh) * 2015-05-22 2015-09-02 广州时韵信息科技有限公司 元数据管理系统
CN105095056A (zh) * 2015-08-14 2015-11-25 焦点科技股份有限公司 一种数据仓库数据监控的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030204487A1 (en) * 2002-04-26 2003-10-30 Sssv Muni Kumar A System of reusable components for implementing data warehousing and business intelligence solutions

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881462A (zh) * 2015-05-22 2015-09-02 广州时韵信息科技有限公司 元数据管理系统
CN105095056A (zh) * 2015-08-14 2015-11-25 焦点科技股份有限公司 一种数据仓库数据监控的方法

Also Published As

Publication number Publication date
CN108959564A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN108959564B (zh) 数据仓库元数据管理方法、可读存储介质和计算机设备
CN107506451B (zh) 用于数据交互的异常信息监控方法及装置
US10353756B2 (en) Cluster-based processing of unstructured log messages
US20180349257A1 (en) Systems and methods for test prediction in continuous integration environments
EP3734520A1 (en) Fault analysis and prediction using empirical architecture analytics
US8055945B2 (en) Systems, methods and computer program products for remote error resolution reporting
WO2020237877A1 (zh) 日志监控方法、装置、终端与存储介质
US10379992B2 (en) Adaptive dynamic code analysis
CN112445775A (zh) 一种光刻机的故障分析方法、装置、设备和存储介质
CN113326247A (zh) 云端数据的迁移方法、装置及电子设备
CN114880405A (zh) 一种基于数据湖的数据处理方法及系统
CN110874364B (zh) 一种查询语句处理方法、装置、设备及存储介质
US11036701B2 (en) Data sampling in a storage system
CN108959454B (zh) 一种提示子句指定方法、装置、设备及存储介质
CN113010208B (zh) 一种版本信息的生成方法、装置、设备及存储介质
CN107004036B (zh) 用以搜索包含大量条目的日志的方法和系统
CN113127460B (zh) 数据清洗框架的评估方法及其装置、设备及存储介质
CN113138974B (zh) 数据库合规检测的方法和装置
CN114564354A (zh) 数据库性能监控方法、装置、电子设备及存储介质
CN114312930A (zh) 基于日志数据的列车运行异常诊断方法和装置
CN113781068A (zh) 线上问题解决方法、装置、电子设备和存储介质
CN112416727A (zh) 批处理作业的检核方法、装置、设备及介质
RU2809254C9 (ru) Способ и система мониторинга автоматизированных систем
RU2809254C1 (ru) Способ и система мониторинга автоматизированных систем
EP3951600A1 (en) Method and system for managing performance for use cases in software applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant