CN115757655A - 一种基于元数据管理的数据血缘分析系统和方法 - Google Patents

一种基于元数据管理的数据血缘分析系统和方法 Download PDF

Info

Publication number
CN115757655A
CN115757655A CN202211424823.8A CN202211424823A CN115757655A CN 115757655 A CN115757655 A CN 115757655A CN 202211424823 A CN202211424823 A CN 202211424823A CN 115757655 A CN115757655 A CN 115757655A
Authority
CN
China
Prior art keywords
data
metadata
constructing
rule
cleaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211424823.8A
Other languages
English (en)
Other versions
CN115757655B (zh
Inventor
杨亮
杜宏博
葛天恒
薛行
葛晋鹏
王嘉岩
徐天敕
王强
印泰桦
李皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China North Computer Application Technology Research Institute
Original Assignee
China North Computer Application Technology Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China North Computer Application Technology Research Institute filed Critical China North Computer Application Technology Research Institute
Priority to CN202211424823.8A priority Critical patent/CN115757655B/zh
Publication of CN115757655A publication Critical patent/CN115757655A/zh
Application granted granted Critical
Publication of CN115757655B publication Critical patent/CN115757655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于元数据管理的数据血缘分析系统和方法,属于大数据技术领域。本发明通过获取多个数据源的原始数据,基于清洗规则进行清洗处理,得到清洗后数据;基于数据规范规则对清洗后数据进行规范化处理,得到规范数据;所述数据规范规则包括标准代码映射库和规范化规则;使用数据集成算法集成所述规范数据得到集成后数据;构建元数据管理体系;基于元数据管理体系进行数据的血缘分析并存储到图数据库。本发明提供的血缘分析系统和方法,对异地、异构数据做到表字段级别的血缘分析,支持快速准确的对数据质量回溯和定位问题,实现了对数据、数据源、API、清洗规则、数据标准、应用和管理全要素血缘关系展示。

Description

一种基于元数据管理的数据血缘分析系统和方法
技术领域
本发明属于大数据技术领域,尤其涉及一种基于元数据管理的数据血缘分析系统和方法。
背景技术
血缘分析是指从某一实体出发,往回追溯其处理过程,直到数据输入的源头,也就是源系统接口数据。对于不同类型的实体,其涉及的转换过程可能有不同类型,如:对于底层仓库实体,涉及的可能是ETL(数据仓库技术)处理过程;而对于仓库汇总表,可能既涉及ETL处理过程,又涉及仓库汇总处理过程。
现有血缘分析技术解决途径主要有以下几个方向:在数据治理领域,采用可视化的方式完成数据链路跟踪分析,记录数据在清洗、转换的过程中产生的问题;在数据体系建设领域,初步采用了元数据处理单元结合ETL数据加工的方式,解决数据全量管理的需求;在数据分析领域,通过将各种服务运行环境中的服务信息存储并根据服务信息获得待查询的服务的血缘关系信息。
现有血缘分析技术在可视化、关系存储查询上做了很多分析研究,但是在数据质量回溯,细粒度的表字段级别的关联分析有所欠缺,随着系统的运行,实际应用过程中相关业务系统的不断调整,数据量越来越大,数据节点越来越多,数据关联越来越强,某一数据流转节点出现问题,如果缺乏问题定位的能力,将会给生产决策带来重大损失。
发明内容
鉴于上述的分析,本发明旨在提供一种基于元数据管理的数据血缘分析系统和方法,实现了细粒度的表字段级别的数据血缘分析,可以快速进行数据质量回溯和定位问题。
一方面,本发明提供了一种基于元数据管理的数据血缘分析系统,包括:
数据上传模块,用于监听和收集本地或第三方的包括数据库、应用、API以及日志系统的数据,得到待处理数据;
数据清洗模块,用于基于清洗规则知识库,对待处理数据进行清洗,得到清洗后数据;
规范化处理模块,用于基于数据标准知识库,对清洗后数据进行规范化处理,得到规范后数据;
数据集成模块,用于使用数据集成算法,对规范后数据进行数据集成,得到集成后数据;
数据存储模块,用于存储集成后数据;
元数据管理模块,用于构建元数据体系并基于所述元数据体系进行血缘分析确定元数据的血缘关系;
图数据模块,用于使用图数据库存储元数据及元数据间的血缘关系;
血缘关系展示模块,用于基于元数据的血缘关系,展示数据的血缘关系。
进一步的,所述元数据管理模块构建元数据体系包括:
构建业务元数据,包括基于清洗规则知识库构建清洗规则元数据;基于数据标准知识库构建数据标准元数据;基于数据集成算法构建数据集成元数据;
构建技术元数据,包括基于数据源构建数据源元数据;基于数据的表结构构建数据表元数据;基于与数据对应的应用构建应用元数据;基于与数据对应的API构建API元数据;
构建管理元数据,包括基于数据相关的操作人员和权限构建权限管理元数据;基于数据相关的系统配置构建系统配置元数据。
进一步的,所述进行血缘分析确定元数据间的血缘分析包括:
将元数据以数据的形式存入数据库表;
基于元数据构建有向无环图即DAG图,用于描述元数据间的关联关系;
将构建好的DAG图映射为表示血缘关系的数据库表;
基于表示血缘关系的数据库表,确定元数据间的血缘关系。
进一步的,所述使用图数据库存储元数据及元数据间的血缘关系包括:
创建与所述元数据对应的节点,基于血缘关系建立各节点间的连线;
将所述节点和所述连线存储到图数据库中。
进一步的,所述基于清洗规则知识库,对待处理数据进行清洗,得到清洗后数据包括:
在清洗规则知识库中寻找是否有对应待处理数据类型的清洗规则:如果有,则基于所述清洗规则对待处理数据进行数据清洗得到清洗后数据;如果否,则新建清洗规则并存储于清洗规则知识库,基于新建清洗规则对待处理数据进行数据清洗得到清洗后数据。
进一步的,所述基于数据标准知识库,对清洗后数据进行规范化处理,得到规范后数据包括:
所述数据标准知识库包括标准代码映射库和规范化规则;
基于标准代码映射库对清洗后数据进行标准代码映射得到映射后数据;
在数据标准知识库寻找是否有对应映射后数据的规范化规则:如果有,则基于所述规范化规则对映射后数据进行规范化处理,得到规范后数据;如果否,则新建规范化规则并存储于数据标准知识库,基于新建规范化规则对待处理数据进行数据清洗得到规范后数据。
进一步的,所述使用数据集成算法,对规范后数据进行数据集成,得到集成后数据包括:
定义全局本体,包括每一种规范数据的数据结构;
将每个数据源作为一个本体,取每个本体内的某一条或某几条数据的规范后数据作为该本体的局部本体;
计算各局部本体之间的相似度,得到各本体间的相似度;
基于全局本体和各本体间的相似度进行数据集成得到集成后数据。
进一步的,基于元数据的血缘关系,展示数据的血缘关系包括:
展示数据的血缘流向关系,包括数据的上游数据表层层级、下游数据表层级、数据经过的清洗、规范化和集成的血缘流向;
展示多库血缘关系,包括各异构数据源之间的血缘关系;
展示全要素血缘关系,包括数据、数据源、API、清洗规则、数据标准、应用和管理全要素血缘关系。
另一方面,本发明还提供了一种基于元数据管理的数据血缘分析方法,具体包括如下步骤:
获取多个数据源的原始数据,基于清洗规则进行清洗处理,得到清洗后数据;
基于数据规范规则对清洗后数据进行规范化处理,得到规范数据;所述数据规范规则包括标准代码映射库和规范化规则;
使用数据集成算法集成所述规范数据得到集成后数据;
构建元数据管理体系;
基于元数据管理体系进行数据的血缘分析并存储到图数据库。
进一步的,所述构建元数据管理体系包括:
构建业务元数据,包括基于清洗规则知识库构建清洗规则元数据;基于数据标准知识库构建数据标准元数据;基于数据集成算法构建数据集成元数据;
构建技术元数据,包括基于数据源构建数据源元数据;基于数据的表结构构建数据表元数据;基于与数据对应的应用构建应用元数据;基于与数据对应的API构建API元数据;
构建管理元数据,包括基于数据相关的操作人员和权限构建权限管理元数据;基于数据相关的系统配置构建系统配置元数据。
本发明至少可以实现下述之一的有益效果:
通过对多源异构数据的采集、数据清洗、数据规范化处理以及数据集成并基于元数据体系对数据进行血缘分析,实现细致到表字段级别的数据血缘关系展示,可以快速进行数据质量回溯和定位问题。
通过使用图存储结构存储元数据和元数据的血缘关系,使得血缘关系展示可以实现对数据的血缘流向、多库血缘关系、全要素血缘关系的展示,为数据质量维护和业务逻辑可视化打下坚实基础。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书、权利要求书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明系统实施例系统架构图;
图2为本发明系统实施例数据表血缘流向分析展示图;
图3为本发明系统实施例多库血缘分析展示图;
图4为本发明系统实施例全要素血缘分析展示图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
系统实施例
本发明的一个具体实施例,公开了一种基于元数据管理的数据血缘分析系统,包括数据上传模块、数据上传模块、数据清洗模块、规范化处理模块、规范化处理模块、数据集成模块、数据存储模块、元数据管理模块、图数据模块和血缘关系展示模块。
数据上传模块
数据上传模块用于监听和收集本地或第三方的包括数据库、应用、API以及日志系统的数据,得到待处理数据。
具体的,数据类型包括结构化数据、非结构化数据、流式数据。
具体的,第三方数据库、应用、API以及日志系统的数据可以为异地数据。
可选的,使用手动输入目标ip以及相应的账户/密码信息收集目标数据。
可选的,对某设定ip段内的ip地址持续监听收集数据。
可选的,通过远程部署jar包方式监听和收集数据。
数据清洗模块
数据清洗模块用于基于清洗规则知识库,对待处理数据进行清洗,得到清洗后数据;
具体的,在清洗规则知识库中寻找是否有对应待处理数据类型的清洗规则:如果有,则基于所述清洗规则对待处理数据进行数据清洗得到清洗后数据;如果否,则新建清洗规则并存储于清洗规则知识库,基于新建清洗规则对待处理数据进行数据清洗得到清洗后数据。
所述清洗规则知识库的规则与数据源、数据类型存在对应关系。
具体的,基于待处理数据的数据源和数据类型的置信度,寻找清洗规则知识库中与之匹配的清洗规则;其中,所述置信度指待处理数据的数据源和数据类型对应于清洗知识库中清洗规则对应的数据源和数据类型的匹配程度。当无法匹配到清洗规则时,在清洗规则知识库中新建对应于待处理数据的的清洗规则并记录数据源和数据类型。
可选的,清洗规则包括数据校验、属性错误清洗、不完整数据清洗和相似重复记录清洗。
示例性的,数据校验包括使用正则校验规则验证手机号、电子邮箱地址;使用经纬度校验规则校验经纬度;使用中外人名校验规则校验人名。
具体的,属性错误清洗包括对不一致数据、冲突数据和噪声数据进行删除操作。
具体的,冲突数据清洗包括对不完整数据的缺失值进行置空操作。
具体的,相似重复记录清洗包括通过近邻排序算法对重复数据进行删除操作。
规范化处理模块
规范化处理模块用于基于数据标准知识库,对清洗后数据进行规范化处理,得到规范后数据。
具体的,所述数据标准知识库包括标准代码映射库和规范化规则;
基于标准代码映射库对清洗后数据进行标准代码映射得到映射后数据;
在数据标准知识库寻找是否有对应映射后数据的规范化规则:如果有,则基于所述规范化规则对映射后数据进行规范化处理,得到规范后数据;如果否,则新建规范化规则并存储于数据标准知识库,基于新建规范化规则对待处理数据进行数据清洗得到规范后数据。
具体的,所述标准代码映射库为基于国标以及公安部通用的规范建立的key-value字典库,字典库遵循国标值域、公安装备资产分类与代码标准构建的标准代码映射库。具体的,当数据项的命名为XXXDM(XXX代码)时,根据标准代码映射库的国标或部标代码,通过字典规则关联出与代码数据项对应的代码名称数据项XXXDMMC(XXX代码名称)。
具体的,规范化规则包括为每个数据项类型制定数据标准、为每个数据项类型定义处理规则以及创建处理规则的组合。
可选的,处理规则包括数据转换、数据校验和数据拼接赋值。
可选的,处理规则的组合可以为多条规则形成的规则链。
示例性的,对数据类型为身份证号的数据,先使用全角转半角的规则,对输出的半角值使用身份证校验转换规则,统一成18位的身份证号;再对18位身份证号使用数据脱敏规则,将身份证号转成脱敏后的字符串。
数据集成模块
数据集成模块用于使用数据集成算法,对规范后数据进行数据集成,得到集成后数据。
具体的,定义全局本体,包括每一种规范数据的数据结构;将每个数据源作为一个本体,取每个本体内的某一条或某几条数据的规范后数据作为该本体的局部本体;计算各局部本体之间的相似度,得到各本体间的相似度;基于全局本体和各本体间的相似度进行数据集成得到集成后数据。
可选的,定义全局本体可以采用知识库,存储每一种数据源的数据结构和数据清洗规则、数据规范化规则。
具体的,将每个数据源作为一个本体,取每个本体内的某一条或某几条数据的规范后数据作为该本体的局部本体;由于每个本体内数据格式基本一致,因此定义局部本体,可以在进行数据集成计算时,减少计算量,提高计算效率。
具体的,计算各局部之间的相似度包括:计算概念、属性和实例三个方面的相似度后,再汇总得到各局部本体的相似度即各本体间的相似度。其中,所述概念指数据本体对应的数据库表结构,示例性的,如局部本体A对应的表结构a(姓名、手机号、住址、年龄),局部本体B对应的表结构b(姓名、手机号、住址、年龄);所述属性指数据库表的属性,示例性的,如“手机”和“手机号”;所述实例指表的一行数据。
具体的,基于全局本体和各本体间的相似度进行数据集成得到集成后数据包括,对相似度高的数据进行整合得到集成后数据。
数据存储模块
数据存储模块用于存储集成后数据。
具体的,使用本领域常用数据存储方式如数据库存储集成后数据。
元数据管理模块
元数据管理模块用于构建元数据体系并基于所述元数据体系进行血缘分析确定元数据的血缘关系。
具体的,构建元数据体系包括:
构建业务元数据,包括基于清洗规则知识库构建清洗规则元数据;基于数据标准知识库构建数据标准元数据;基于数据集成算法构建数据集成元数据;构建技术元数据,包括基于数据源构建数据源元数据;基于数据的表结构构建数据表元数据;基于与数据对应的应用构建应用元数据;基于与数据对应的API构建API元数据;构建管理元数据,包括基于数据相关的操作人员和权限构建权限管理元数据;基于数据相关的系统配置构建系统配置元数据。
具体的,基于元数据体系进行血缘分析确定元数据的血缘关系包括如下步骤:
S21、将元数据以数据的形式存入数据库表。
可选的,将每一种类型的元数据定义为数据库表,元数据类型为数据库表的名称,元数据的属性为数据库表的属性,将元数据作为表的具体数据存入相应的数据库表。
S22、基于元数据构建有向无环图即DAG图,用于描述元数据间的关联关系。
具体的,基于元数据通过拓扑排序算法构造多维度的DAG图,标明数据表元数据间、数据表元数据与数据源元数据间的横向关联关系,数据表元数据、数据源元数据与应用元数据以及API元数据之间的纵向管理关系,数据表元数据、数据源元数据与系统配置元数据以及权限管理元数据间的纵向关联关系,数据表元数据、数据源元数据与清洗规则元数据、数据标准元数据以及数据集成元数据之间的生命周期关联关系。
S23、将构建好的DAG图映射为表示血缘关系的数据库表。
可选的,将S22构建好的DAG图映射为描述关联关系的数据库表,数据库表的属性包括元数据以及元数据之间的关系描述。
可选的,将S22构建好的DAG图映射为使用元数据对应数据库表的外键构建元数据的关联关系。
S24、基于表示血缘关系的数据库表,确定元数据间的血缘关系。
具体的,由S23得到的数据库表的关联关系,和表示关联关系的数据库表,确定元数据间的血缘关系。
图数据模块
图数据模块用于使用图数据库存储元数据及元数据间的血缘关系。
具体的,创建与所述元数据对应的节点,基于血缘关系建立各节点间的连线;
将所述节点和所述连线存储到图数据库中。
可选的,使用Neo4j图数据库存储元数据及元数据间的血缘关系。
血缘关系展示模块
血缘关系展示模块用于基于元数据的血缘关系,展示数据的血缘关系。
具体的,展示数据的血缘流向关系,包括数据的上游数据表层层级、下游数据表层级、数据经过的清洗、规范化和集成的血缘流向。如图2所示。
展示多库血缘关系,包括各异构数据源之间的血缘关系。如图3所示。
展示全要素血缘关系,包括数据、数据源、API、清洗规则、数据标准、应用和管理全要素血缘关系。如图4所示。
本实施例,提供了一种基于特征形态和数据关系的数据特征构建系统,该系统通过对多源异构数据的采集、数据清洗、数据规范化处理以及数据集成并基于元数据体系对数据进行血缘分析,实现细致到表字段级别的数据血缘关系展示,可以快速进行数据质量回溯和定位问题。通过使用图存储结构存储元数据和元数据的血缘关系,使得血缘关系展示可以实现对数据的血缘流向、多库血缘关系、全要素血缘关系的展示,为数据质量维护和业务逻辑可视化打下坚实基础。
方法实施例
本发明的一个具体实施例,公开了一种基于特征形态和数据关系的数据特征构建方法,其特征在于,包括如下步骤:
获取多个数据源的原始数据,基于清洗规则进行清洗处理,得到清洗后数据。
基于数据规范规则对清洗后数据进行规范化处理,得到规范数据。所述数据规范规则包括标准代码映射库和规范化规则。
使用数据集成算法集成所述规范数据得到集成后数据。
构建元数据管理体系,包括:构建业务元数据,包括基于清洗规则知识库构建清洗规则元数据;基于数据标准知识库构建数据标准元数据;基于数据集成算法构建数据集成元数据;构建技术元数据,包括基于数据源构建数据源元数据;基于数据的表结构构建数据表元数据;基于与数据对应的应用构建应用元数据;基于与数据对应的API构建API元数据;构建管理元数据,包括基于数据相关的操作人员和权限构建权限管理元数据;基于数据相关的系统配置构建系统配置元数据。
基于元数据管理体系进行数据的血缘分析并存储到图数据库。
相比于现有技术,本实施例提供的一种基于特征形态和数据关系的数据特征构建方法,有益效果与实施例一种基于特征形态和数据关系的数据特征构建系统提供的有益效果基本相同,在此不一一赘述。
需要说明的是,上述实施例基于相同的发明构思,未重复描述之处,可相互借鉴。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于元数据管理的数据血缘分析系统,其特征在于,包括:
数据上传模块,用于监听和收集本地或第三方的包括数据库、应用、API以及日志系统的数据,得到待处理数据;
数据清洗模块,用于基于清洗规则知识库,对待处理数据进行清洗,得到清洗后数据;
规范化处理模块,用于基于数据标准知识库,对清洗后数据进行规范化处理,得到规范后数据;
数据集成模块,用于使用数据集成算法,对规范后数据进行数据集成,得到集成后数据;
数据存储模块,用于存储集成后数据;
元数据管理模块,用于构建元数据体系并基于所述元数据体系进行血缘分析确定元数据的血缘关系;
图数据模块,用于使用图数据库存储元数据及元数据间的血缘关系;
血缘关系展示模块,用于基于元数据的血缘关系,展示数据的血缘关系。
2.根据权利要求1所述的数据血缘分析系统,其特征在于,所述元数据管理模块构建元数据体系包括:
构建业务元数据,包括基于清洗规则知识库构建清洗规则元数据;基于数据标准知识库构建数据标准元数据;基于数据集成算法构建数据集成元数据;
构建技术元数据,包括基于数据源构建数据源元数据;基于数据的表结构构建数据表元数据;基于与数据对应的应用构建应用元数据;基于与数据对应的API构建API元数据;
构建管理元数据,包括基于数据相关的操作人员和权限构建权限管理元数据;基于数据相关的系统配置构建系统配置元数据。
3.根据权利要求2所述的数据血缘分析系统,其特征在于,所述进行血缘分析确定元数据间的血缘分析包括:
将元数据以数据的形式存入数据库表;
基于元数据构建有向无环图即DAG图,用于描述元数据间的关联关系;
将构建好的DAG图映射为表示血缘关系的数据库表;
基于表示血缘关系的数据库表,确定元数据间的血缘关系。
4.根据权利3述的数据血缘分析系统,其特征在于,所述使用图数据库存储元数据及元数据间的血缘关系包括:
创建与所述元数据对应的节点,基于血缘关系建立各节点间的连线;
将所述节点和所述连线存储到图数据库中。
5.根据权利要求1-4任一项所述的的数据血缘分析系统,其特征在于,所述基于清洗规则知识库,对待处理数据进行清洗,得到清洗后数据包括:
在清洗规则知识库中寻找是否有对应待处理数据类型的清洗规则:如果有,则基于所述清洗规则对待处理数据进行数据清洗得到清洗后数据;如果否,则新建清洗规则并存储于清洗规则知识库,基于新建清洗规则对待处理数据进行数据清洗得到清洗后数据。
6.根据权利要求5所述的的数据血缘分析系统,其特征在于,所述基于数据标准知识库,对清洗后数据进行规范化处理,得到规范后数据包括:
所述数据标准知识库包括标准代码映射库和规范化规则;
基于标准代码映射库对清洗后数据进行标准代码映射得到映射后数据;
在数据标准知识库寻找是否有对应映射后数据的规范化规则:如果有,则基于所述规范化规则对映射后数据进行规范化处理,得到规范后数据;如果否,则新建规范化规则并存储于数据标准知识库,基于新建规范化规则对待处理数据进行数据清洗得到规范后数据。
7.根据权利要求6所述的的数据血缘分析系统,其特征在于,所述使用数据集成算法,对规范后数据进行数据集成,得到集成后数据包括:
定义全局本体,包括每一种规范数据的数据结构;
将每个数据源作为一个本体,取每个本体内的某一条或某几条数据的规范后数据作为该本体的局部本体;
计算各局部本体之间的相似度,得到各本体间的相似度;
基于全局本体和各本体间的相似度进行数据集成得到集成后数据。
8.根据权利要求7所述的的数据血缘分析系统,其特征在于,基于元数据的血缘关系,展示数据的血缘关系包括:
展示数据的血缘流向关系,包括数据的上游数据表层层级、下游数据表层级、数据经过的清洗、规范化和集成的血缘流向;
展示多库血缘关系,包括各异构数据源之间的血缘关系;
展示全要素血缘关系,包括数据、数据源、API、清洗规则、数据标准、应用和管理全要素血缘关系。
9.一种基于元数据管理的数据血缘分析方法,其特征在于,包括如下步骤:
获取多个数据源的原始数据,基于清洗规则进行清洗处理,得到清洗后数据;
基于数据规范规则对清洗后数据进行规范化处理,得到规范数据;所述数据规范规则包括标准代码映射库和规范化规则;
使用数据集成算法集成所述规范数据得到集成后数据;
构建元数据管理体系;
基于元数据管理体系进行数据的血缘分析并存储到图数据库。
10.根据权利要求9所述的数据血缘分析方法,其特征在于,所述构建元数据管理体系包括:
构建业务元数据,包括基于清洗规则知识库构建清洗规则元数据;基于数据标准知识库构建数据标准元数据;基于数据集成算法构建数据集成元数据;
构建技术元数据,包括基于数据源构建数据源元数据;基于数据的表结构构建数据表元数据;基于与数据对应的应用构建应用元数据;基于与数据对应的API构建API元数据;
构建管理元数据,包括基于数据相关的操作人员和权限构建权限管理元数据;基于数据相关的系统配置构建系统配置元数据。
CN202211424823.8A 2022-11-14 2022-11-14 一种基于元数据管理的数据血缘分析系统和方法 Active CN115757655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211424823.8A CN115757655B (zh) 2022-11-14 2022-11-14 一种基于元数据管理的数据血缘分析系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211424823.8A CN115757655B (zh) 2022-11-14 2022-11-14 一种基于元数据管理的数据血缘分析系统和方法

Publications (2)

Publication Number Publication Date
CN115757655A true CN115757655A (zh) 2023-03-07
CN115757655B CN115757655B (zh) 2023-07-07

Family

ID=85370803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211424823.8A Active CN115757655B (zh) 2022-11-14 2022-11-14 一种基于元数据管理的数据血缘分析系统和方法

Country Status (1)

Country Link
CN (1) CN115757655B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116955463A (zh) * 2023-06-12 2023-10-27 自然资源陕西省卫星应用技术中心 多源异构数据整合系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844482A (zh) * 2016-09-17 2018-03-27 复旦大学 基于全局本体的多数据源模式匹配方法
CN111858649A (zh) * 2020-08-05 2020-10-30 哈尔滨工业大学(威海) 一种基于本体映射的异构数据融合方法
CN113010696A (zh) * 2021-04-21 2021-06-22 上海勘察设计研究院(集团)有限公司 基于元数据模型的工程领域知识图谱构建方法
US20210192389A1 (en) * 2019-12-23 2021-06-24 Beijing Zhongchuang Telecom Test Co., Ltd. Method for ai optimization data governance
CN113961584A (zh) * 2021-10-20 2022-01-21 平安银行股份有限公司 字段血缘分析方法、装置、电子设备及存储介质
WO2022143045A1 (zh) * 2020-12-30 2022-07-07 中兴通讯股份有限公司 数据血缘关系的确定方法及装置、存储介质、电子装置
CN115098600A (zh) * 2022-06-21 2022-09-23 平安普惠企业管理有限公司 用于数据仓库的有向无环图构建方法、装置和计算机设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844482A (zh) * 2016-09-17 2018-03-27 复旦大学 基于全局本体的多数据源模式匹配方法
US20210192389A1 (en) * 2019-12-23 2021-06-24 Beijing Zhongchuang Telecom Test Co., Ltd. Method for ai optimization data governance
CN111858649A (zh) * 2020-08-05 2020-10-30 哈尔滨工业大学(威海) 一种基于本体映射的异构数据融合方法
WO2022143045A1 (zh) * 2020-12-30 2022-07-07 中兴通讯股份有限公司 数据血缘关系的确定方法及装置、存储介质、电子装置
CN113010696A (zh) * 2021-04-21 2021-06-22 上海勘察设计研究院(集团)有限公司 基于元数据模型的工程领域知识图谱构建方法
CN113961584A (zh) * 2021-10-20 2022-01-21 平安银行股份有限公司 字段血缘分析方法、装置、电子设备及存储介质
CN115098600A (zh) * 2022-06-21 2022-09-23 平安普惠企业管理有限公司 用于数据仓库的有向无环图构建方法、装置和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
唐雪飞等: "基于元数据映射关系的结构化数据血缘分析方法", 《现代电子技术》, vol. 45, no. 16, pages 1 - 4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116955463A (zh) * 2023-06-12 2023-10-27 自然资源陕西省卫星应用技术中心 多源异构数据整合系统
CN116955463B (zh) * 2023-06-12 2024-04-02 自然资源陕西省卫星应用技术中心 多源异构数据整合系统

Also Published As

Publication number Publication date
CN115757655B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
WO2021103492A1 (zh) 一种企业经营风险预测方法和系统
US8768914B2 (en) System and method for searching and matching databases
CN111967761B (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN111598461B (zh) 一种基于企业知识图谱实时的风险泛化与传导分析方法
US20120054135A1 (en) Automated parsing of e-mail messages
WO2021159834A1 (zh) 异常信息处理节点分析方法、装置、介质及电子设备
CN110674840A (zh) 一种基于贝叶斯网络的多方证据关联模型构建方法和证据链提取方法及装置
US20220114603A1 (en) Systems and methods for tracking data shared with third parties using artificial intelligence-machine learning
CN113254630B (zh) 一种面向全球综合观测成果的领域知识图谱推荐方法
CN117473571B (zh) 一种数据信息安全处理方法及系统
CN115983250A (zh) 基于知识图谱的电力异常数据根源定位方法及系统
CN111078512A (zh) 告警记录生成方法、装置、告警设备及存储介质
CN115757655A (zh) 一种基于元数据管理的数据血缘分析系统和方法
CN116881430A (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN115544519A (zh) 对计量自动化系统威胁情报进行安全性关联分析的方法
CN117221087A (zh) 告警根因定位方法、装置及介质
CN117708746A (zh) 一种基于多模态数据融合的风险预测方法
CN112363996B (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
CN117251414A (zh) 一种基于异构技术的数据存储及处理方法
van Erp et al. Georeferencing animal specimen datasets
Talha et al. Towards a powerful solution for data accuracy assessment in the big data context
Elouataoui et al. Metadata Quality Dimensions for Big Data Use Cases
CN116260866A (zh) 基于机器学习的政务信息推送方法、装置和计算机设备
CN116303379A (zh) 一种数据处理方法、系统及计算机储存介质
CN113535883A (zh) 商业场所实体链接方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant