CN115757655B

CN115757655B - 一种基于元数据管理的数据血缘分析系统和方法

Info

Publication number: CN115757655B
Application number: CN202211424823.8A
Authority: CN
Inventors: 杨亮; 杜宏博; 葛天恒; 薛行; 葛晋鹏; 王嘉岩; 徐天敕; 王强; 印泰桦; 李皓
Original assignee: China North Computer Application Technology Research Institute
Current assignee: China North Computer Application Technology Research Institute
Priority date: 2022-11-14
Filing date: 2022-11-14
Publication date: 2023-07-07
Anticipated expiration: 2042-11-14
Also published as: CN115757655A

Abstract

本发明涉及一种基于元数据管理的数据血缘分析系统和方法，属于大数据技术领域。本发明通过获取多个数据源的原始数据，基于清洗规则进行清洗处理，得到清洗后数据；基于数据规范规则对清洗后数据进行规范化处理，得到规范数据；所述数据规范规则包括标准代码映射库和规范化规则；使用数据集成算法集成所述规范数据得到集成后数据；构建元数据管理体系；基于元数据管理体系进行数据的血缘分析并存储到图数据库。本发明提供的血缘分析系统和方法，对异地、异构数据做到表字段级别的血缘分析，支持快速准确的对数据质量回溯和定位问题，实现了对数据、数据源、API、清洗规则、数据标准、应用和管理全要素血缘关系展示。

Description

一种基于元数据管理的数据血缘分析系统和方法

技术领域

本发明属于大数据技术领域，尤其涉及一种基于元数据管理的数据血缘分析系统和方法。

背景技术

血缘分析是指从某一实体出发，往回追溯其处理过程，直到数据输入的源头，也就是源系统接口数据。对于不同类型的实体，其涉及的转换过程可能有不同类型，如：对于底层仓库实体，涉及的可能是ETL(数据仓库技术)处理过程；而对于仓库汇总表，可能既涉及ETL处理过程，又涉及仓库汇总处理过程。

现有血缘分析技术解决途径主要有以下几个方向：在数据治理领域，采用可视化的方式完成数据链路跟踪分析，记录数据在清洗、转换的过程中产生的问题；在数据体系建设领域，初步采用了元数据处理单元结合ETL数据加工的方式，解决数据全量管理的需求；在数据分析领域，通过将各种服务运行环境中的服务信息存储并根据服务信息获得待查询的服务的血缘关系信息。

现有血缘分析技术在可视化、关系存储查询上做了很多分析研究，但是在数据质量回溯，细粒度的表字段级别的关联分析有所欠缺，随着系统的运行，实际应用过程中相关业务系统的不断调整，数据量越来越大，数据节点越来越多，数据关联越来越强，某一数据流转节点出现问题，如果缺乏问题定位的能力，将会给生产决策带来重大损失。

发明内容

鉴于上述的分析，本发明旨在提供一种基于元数据管理的数据血缘分析系统和方法，实现了细粒度的表字段级别的数据血缘分析，可以快速进行数据质量回溯和定位问题。

一方面，本发明提供了一种基于元数据管理的数据血缘分析系统，包括：

数据上传模块，用于监听和收集本地或第三方的包括数据库、应用、API以及日志系统的数据，得到待处理数据；

数据清洗模块，用于基于清洗规则知识库，对待处理数据进行清洗，得到清洗后数据；

规范化处理模块，用于基于数据标准知识库，对清洗后数据进行规范化处理，得到规范后数据；

数据集成模块，用于使用数据集成算法，对规范后数据进行数据集成，得到集成后数据；

数据存储模块，用于存储集成后数据；

元数据管理模块，用于构建元数据体系并基于所述元数据体系进行血缘分析确定元数据的血缘关系；

图数据模块，用于使用图数据库存储元数据及元数据间的血缘关系；

血缘关系展示模块，用于基于元数据的血缘关系，展示数据的血缘关系。

进一步的，所述元数据管理模块构建元数据体系包括：

构建业务元数据，包括基于清洗规则知识库构建清洗规则元数据；基于数据标准知识库构建数据标准元数据；基于数据集成算法构建数据集成元数据；

构建技术元数据，包括基于数据源构建数据源元数据；基于数据的表结构构建数据表元数据；基于与数据对应的应用构建应用元数据；基于与数据对应的API构建API元数据；

构建管理元数据，包括基于数据相关的操作人员和权限构建权限管理元数据；基于数据相关的系统配置构建系统配置元数据。

进一步的，所述进行血缘分析确定元数据间的血缘分析包括：

将元数据以数据的形式存入数据库表；

基于元数据构建有向无环图即DAG图，用于描述元数据间的关联关系；

将构建好的DAG图映射为表示血缘关系的数据库表；

基于表示血缘关系的数据库表，确定元数据间的血缘关系。

进一步的，所述使用图数据库存储元数据及元数据间的血缘关系包括：

创建与所述元数据对应的节点，基于血缘关系建立各节点间的连线；

将所述节点和所述连线存储到图数据库中。

进一步的，所述基于清洗规则知识库，对待处理数据进行清洗，得到清洗后数据包括：

在清洗规则知识库中寻找是否有对应待处理数据类型的清洗规则：如果有，则基于所述清洗规则对待处理数据进行数据清洗得到清洗后数据；如果否，则新建清洗规则并存储于清洗规则知识库，基于新建清洗规则对待处理数据进行数据清洗得到清洗后数据。

进一步的，所述基于数据标准知识库，对清洗后数据进行规范化处理，得到规范后数据包括：

所述数据标准知识库包括标准代码映射库和规范化规则；

基于标准代码映射库对清洗后数据进行标准代码映射得到映射后数据；

在数据标准知识库寻找是否有对应映射后数据的规范化规则：如果有，则基于所述规范化规则对映射后数据进行规范化处理，得到规范后数据；如果否，则新建规范化规则并存储于数据标准知识库，基于新建规范化规则对待处理数据进行数据清洗得到规范后数据。

进一步的，所述使用数据集成算法，对规范后数据进行数据集成，得到集成后数据包括：

定义全局本体，包括每一种规范数据的数据结构；

将每个数据源作为一个本体，取每个本体内的某一条或某几条数据的规范后数据作为该本体的局部本体；

计算各局部本体之间的相似度，得到各本体间的相似度；

基于全局本体和各本体间的相似度进行数据集成得到集成后数据。

进一步的，基于元数据的血缘关系，展示数据的血缘关系包括：

展示数据的血缘流向关系，包括数据的上游数据表层层级、下游数据表层级、数据经过的清洗、规范化和集成的血缘流向；

展示多库血缘关系，包括各异构数据源之间的血缘关系；

展示全要素血缘关系，包括数据、数据源、API、清洗规则、数据标准、应用和管理全要素血缘关系。

另一方面，本发明还提供了一种基于元数据管理的数据血缘分析方法，具体包括如下步骤：

获取多个数据源的原始数据，基于清洗规则进行清洗处理，得到清洗后数据；

基于数据规范规则对清洗后数据进行规范化处理，得到规范数据；所述数据规范规则包括标准代码映射库和规范化规则；

使用数据集成算法集成所述规范数据得到集成后数据；

构建元数据管理体系；

基于元数据管理体系进行数据的血缘分析并存储到图数据库。

进一步的，所述构建元数据管理体系包括：

本发明至少可以实现下述之一的有益效果：

通过对多源异构数据的采集、数据清洗、数据规范化处理以及数据集成并基于元数据体系对数据进行血缘分析，实现细致到表字段级别的数据血缘关系展示，可以快速进行数据质量回溯和定位问题。

通过使用图存储结构存储元数据和元数据的血缘关系，使得血缘关系展示可以实现对数据的血缘流向、多库血缘关系、全要素血缘关系的展示，为数据质量维护和业务逻辑可视化打下坚实基础。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书、权利要求书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明系统实施例系统架构图；

图2为本发明系统实施例数据表血缘流向分析展示图；

图3为本发明系统实施例多库血缘分析展示图；

图4为本发明系统实施例全要素血缘分析展示图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

系统实施例

本发明的一个具体实施例，公开了一种基于元数据管理的数据血缘分析系统，包括数据上传模块、数据上传模块、数据清洗模块、规范化处理模块、规范化处理模块、数据集成模块、数据存储模块、元数据管理模块、图数据模块和血缘关系展示模块。

数据上传模块

数据上传模块用于监听和收集本地或第三方的包括数据库、应用、API以及日志系统的数据，得到待处理数据。

具体的，数据类型包括结构化数据、非结构化数据、流式数据。

具体的，第三方数据库、应用、API以及日志系统的数据可以为异地数据。

可选的，使用手动输入目标ip以及相应的账户/密码信息收集目标数据。

可选的，对某设定ip段内的ip地址持续监听收集数据。

可选的，通过远程部署jar包方式监听和收集数据。

数据清洗模块

数据清洗模块用于基于清洗规则知识库，对待处理数据进行清洗，得到清洗后数据；

具体的，在清洗规则知识库中寻找是否有对应待处理数据类型的清洗规则：如果有，则基于所述清洗规则对待处理数据进行数据清洗得到清洗后数据；如果否，则新建清洗规则并存储于清洗规则知识库，基于新建清洗规则对待处理数据进行数据清洗得到清洗后数据。

所述清洗规则知识库的规则与数据源、数据类型存在对应关系。

具体的，基于待处理数据的数据源和数据类型的置信度，寻找清洗规则知识库中与之匹配的清洗规则；其中，所述置信度指待处理数据的数据源和数据类型对应于清洗知识库中清洗规则对应的数据源和数据类型的匹配程度。当无法匹配到清洗规则时，在清洗规则知识库中新建对应于待处理数据的的清洗规则并记录数据源和数据类型。

可选的，清洗规则包括数据校验、属性错误清洗、不完整数据清洗和相似重复记录清洗。

示例性的，数据校验包括使用正则校验规则验证手机号、电子邮箱地址；使用经纬度校验规则校验经纬度；使用中外人名校验规则校验人名。

具体的，属性错误清洗包括对不一致数据、冲突数据和噪声数据进行删除操作。

具体的，冲突数据清洗包括对不完整数据的缺失值进行置空操作。

具体的，相似重复记录清洗包括通过近邻排序算法对重复数据进行删除操作。

规范化处理模块

规范化处理模块用于基于数据标准知识库，对清洗后数据进行规范化处理，得到规范后数据。

具体的，所述数据标准知识库包括标准代码映射库和规范化规则；

具体的，所述标准代码映射库为基于国标以及公安部通用的规范建立的key-value字典库,字典库遵循国标值域、公安装备资产分类与代码标准构建的标准代码映射库。具体的，当数据项的命名为XXXDM(XXX代码)时,根据标准代码映射库的国标或部标代码,通过字典规则关联出与代码数据项对应的代码名称数据项XXXDMMC(XXX代码名称)。

具体的，规范化规则包括为每个数据项类型制定数据标准、为每个数据项类型定义处理规则以及创建处理规则的组合。

可选的，处理规则包括数据转换、数据校验和数据拼接赋值。

可选的，处理规则的组合可以为多条规则形成的规则链。

示例性的，对数据类型为身份证号的数据，先使用全角转半角的规则,对输出的半角值使用身份证校验转换规则，统一成18位的身份证号；再对18位身份证号使用数据脱敏规则,将身份证号转成脱敏后的字符串。

数据集成模块

数据集成模块用于使用数据集成算法，对规范后数据进行数据集成，得到集成后数据。

具体的，定义全局本体，包括每一种规范数据的数据结构；将每个数据源作为一个本体，取每个本体内的某一条或某几条数据的规范后数据作为该本体的局部本体；计算各局部本体之间的相似度，得到各本体间的相似度；基于全局本体和各本体间的相似度进行数据集成得到集成后数据。

可选的，定义全局本体可以采用知识库，存储每一种数据源的数据结构和数据清洗规则、数据规范化规则。

具体的，将每个数据源作为一个本体，取每个本体内的某一条或某几条数据的规范后数据作为该本体的局部本体；由于每个本体内数据格式基本一致，因此定义局部本体，可以在进行数据集成计算时，减少计算量，提高计算效率。

具体的，计算各局部之间的相似度包括：计算概念、属性和实例三个方面的相似度后，再汇总得到各局部本体的相似度即各本体间的相似度。其中，所述概念指数据本体对应的数据库表结构，示例性的，如局部本体A对应的表结构a(姓名、手机号、住址、年龄)，局部本体B对应的表结构b(姓名、手机号、住址、年龄)；所述属性指数据库表的属性，示例性的，如“手机”和“手机号”；所述实例指表的一行数据。

具体的，基于全局本体和各本体间的相似度进行数据集成得到集成后数据包括，对相似度高的数据进行整合得到集成后数据。

数据存储模块

数据存储模块用于存储集成后数据。

具体的，使用本领域常用数据存储方式如数据库存储集成后数据。

元数据管理模块

元数据管理模块用于构建元数据体系并基于所述元数据体系进行血缘分析确定元数据的血缘关系。

具体的，构建元数据体系包括：

构建业务元数据，包括基于清洗规则知识库构建清洗规则元数据；基于数据标准知识库构建数据标准元数据；基于数据集成算法构建数据集成元数据；构建技术元数据，包括基于数据源构建数据源元数据；基于数据的表结构构建数据表元数据；基于与数据对应的应用构建应用元数据；基于与数据对应的API构建API元数据；构建管理元数据，包括基于数据相关的操作人员和权限构建权限管理元数据；基于数据相关的系统配置构建系统配置元数据。

具体的，基于元数据体系进行血缘分析确定元数据的血缘关系包括如下步骤：

S21、将元数据以数据的形式存入数据库表。

可选的，将每一种类型的元数据定义为数据库表，元数据类型为数据库表的名称，元数据的属性为数据库表的属性，将元数据作为表的具体数据存入相应的数据库表。

S22、基于元数据构建有向无环图即DAG图，用于描述元数据间的关联关系。

具体的，基于元数据通过拓扑排序算法构造多维度的DAG图，标明数据表元数据间、数据表元数据与数据源元数据间的横向关联关系，数据表元数据、数据源元数据与应用元数据以及API元数据之间的纵向管理关系，数据表元数据、数据源元数据与系统配置元数据以及权限管理元数据间的纵向关联关系，数据表元数据、数据源元数据与清洗规则元数据、数据标准元数据以及数据集成元数据之间的生命周期关联关系。

S23、将构建好的DAG图映射为表示血缘关系的数据库表。

可选的，将S22构建好的DAG图映射为描述关联关系的数据库表，数据库表的属性包括元数据以及元数据之间的关系描述。

可选的，将S22构建好的DAG图映射为使用元数据对应数据库表的外键构建元数据的关联关系。

S24、基于表示血缘关系的数据库表，确定元数据间的血缘关系。

具体的，由S23得到的数据库表的关联关系，和表示关联关系的数据库表，确定元数据间的血缘关系。

图数据模块

图数据模块用于使用图数据库存储元数据及元数据间的血缘关系。

具体的，创建与所述元数据对应的节点，基于血缘关系建立各节点间的连线；

将所述节点和所述连线存储到图数据库中。

可选的，使用Neo4j图数据库存储元数据及元数据间的血缘关系。

血缘关系展示模块

血缘关系展示模块用于基于元数据的血缘关系，展示数据的血缘关系。

具体的，展示数据的血缘流向关系，包括数据的上游数据表层层级、下游数据表层级、数据经过的清洗、规范化和集成的血缘流向。如图2所示。

展示多库血缘关系，包括各异构数据源之间的血缘关系。如图3所示。

展示全要素血缘关系，包括数据、数据源、API、清洗规则、数据标准、应用和管理全要素血缘关系。如图4所示。

本实施例，提供了一种基于特征形态和数据关系的数据特征构建系统，该系统通过对多源异构数据的采集、数据清洗、数据规范化处理以及数据集成并基于元数据体系对数据进行血缘分析，实现细致到表字段级别的数据血缘关系展示，可以快速进行数据质量回溯和定位问题。通过使用图存储结构存储元数据和元数据的血缘关系，使得血缘关系展示可以实现对数据的血缘流向、多库血缘关系、全要素血缘关系的展示，为数据质量维护和业务逻辑可视化打下坚实基础。

方法实施例

本发明的一个具体实施例，公开了一种基于特征形态和数据关系的数据特征构建方法，其特征在于，包括如下步骤：

获取多个数据源的原始数据，基于清洗规则进行清洗处理，得到清洗后数据。

基于数据规范规则对清洗后数据进行规范化处理，得到规范数据。所述数据规范规则包括标准代码映射库和规范化规则。

使用数据集成算法集成所述规范数据得到集成后数据。

构建元数据管理体系，包括：构建业务元数据，包括基于清洗规则知识库构建清洗规则元数据；基于数据标准知识库构建数据标准元数据；基于数据集成算法构建数据集成元数据；构建技术元数据，包括基于数据源构建数据源元数据；基于数据的表结构构建数据表元数据；基于与数据对应的应用构建应用元数据；基于与数据对应的API构建API元数据；构建管理元数据，包括基于数据相关的操作人员和权限构建权限管理元数据；基于数据相关的系统配置构建系统配置元数据。

相比于现有技术，本实施例提供的一种基于特征形态和数据关系的数据特征构建方法，有益效果与实施例一种基于特征形态和数据关系的数据特征构建系统提供的有益效果基本相同，在此不一一赘述。

需要说明的是，上述实施例基于相同的发明构思，未重复描述之处，可相互借鉴。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于元数据管理的数据血缘分析系统，其特征在于，包括：

数据上传模块，用于监听和收集本地或第三方的包括数据库、应用、API以及日志系统的数据，得到待处理数据；所述数据的类型包括结构化数据、非结构化数据、流式数据；

数据清洗模块，用于基于清洗规则知识库，对待处理数据进行清洗，得到清洗后数据，包括：在清洗规则知识库中寻找是否有对应待处理数据类型的清洗规则：如果有，则基于所述清洗规则对待处理数据进行数据清洗得到清洗后数据；如果否，则新建清洗规则并存储于清洗规则知识库，基于新建清洗规则对待处理数据进行数据清洗得到清洗后数据；

规范化处理模块，用于基于数据标准知识库，对清洗后数据进行规范化处理，得到规范后数据，包括：所述数据标准知识库包括标准代码映射库和规范化规则；基于标准代码映射库对清洗后数据进行标准代码映射得到映射后数据；在数据标准知识库寻找是否有对应映射后数据的规范化规则：如果有，则基于所述规范化规则对映射后数据进行规范化处理，得到规范后数据；如果否，则新建规范化规则并存储于数据标准知识库，基于新建规范化规则对待处理数据进行数据清洗得到规范后数据；

数据集成模块，用于使用数据集成算法，对规范后数据进行数据集成，得到集成后数据，包括：定义全局本体，包括每一种规范数据的数据结构；将每个数据源作为一个本体，取每个本体内的某一条或某几条数据的规范后数据作为该本体的局部本体；计算各局部本体之间的相似度，得到各本体间的相似度；基于全局本体和各本体间的相似度进行数据集成得到集成后数据；

数据存储模块，用于存储集成后数据；

元数据管理模块，用于构建元数据体系并基于所述元数据体系进行血缘分析确定元数据的血缘关系；所述构建元数据体系包括：构建业务元数据，包括基于清洗规则知识库构建清洗规则元数据；基于数据标准知识库构建数据标准元数据；基于数据集成算法构建数据集成元数据；构建技术元数据，包括基于数据源构建数据源元数据；基于数据的表结构构建数据表元数据；基于与数据对应的应用构建应用元数据；基于与数据对应的API构建API元数据；构建管理元数据，包括基于数据相关的操作人员和权限构建权限管理元数据；基于数据相关的系统配置构建系统配置元数据；所述基于所述元数据体系进行血缘分析包括：将元数据以数据的形式存入数据库表；基于元数据构建有向无环图即DAG图，用于描述元数据间的关联关系；将构建好的DAG图映射为表示血缘关系的数据库表；基于表示血缘关系的数据库表，确定元数据间的血缘关系；其中，基于元数据构建有向无环图即DAG图包括：基于元数据通过拓扑排序算法构造多维度的DAG图，标明数据表元数据间、数据表元数据与数据源元数据间的横向关联关系，数据表元数据、数据源元数据与应用元数据以及API元数据之间的纵向管理关系，数据表元数据、数据源元数据与系统配置元数据以及权限管理元数据间的纵向关联关系，数据表元数据、数据源元数据与清洗规则元数据、数据标准元数据以及数据集成元数据之间的生命周期关联关系；

2.根据权利要求1所述的数据血缘分析系统，其特征在于，所述使用图数据库存储元数据及元数据间的血缘关系包括：

将所述节点和所述连线存储到图数据库中。

3.根据权利要求1所述的数据血缘分析系统，其特征在于，基于元数据的血缘关系，展示数据的血缘关系包括：

展示数据的血缘流向关系，包括数据的上游数据表层级、下游数据表层级、数据经过的清洗、规范化和集成的血缘流向；

展示多库血缘关系，包括各异构数据源之间的血缘关系；

4.一种基于元数据管理的数据血缘分析方法，其特征在于，包括如下步骤：

获取多个数据源的原始数据，包括本地或第三方的包括数据库、应用、API以及日志系统的数据；所述原始数据的类型包括结构化数据、非结构化数据、流式数据；

基于清洗规则对所述原始数据进行清洗处理，得到清洗后数据；包括：在清洗规则知识库中寻找是否有对应待处理数据类型的清洗规则：如果有，则基于所述清洗规则对待处理数据进行数据清洗得到清洗后数据；如果否，则新建清洗规则并存储于清洗规则知识库，基于新建清洗规则对待处理数据进行数据清洗得到清洗后数据；

基于数据规范规则对清洗后数据进行规范化处理，得到规范数据；所述数据规范规则包括标准代码映射库和规范化规则；包括，基于标准代码映射库对清洗后数据进行标准代码映射得到映射后数据；在数据标准知识库寻找是否有对应映射后数据的规范化规则：如果有，则基于所述规范化规则对映射后数据进行规范化处理，得到规范后数据；如果否，则新建规范化规则并存储于数据标准知识库，基于新建规范化规则对待处理数据进行数据清洗得到规范数据；

使用数据集成算法集成所述规范数据得到集成后数据；包括：定义全局本体，包括每一种规范数据的数据结构；将每个数据源作为一个本体，取每个本体内的某一条或某几条数据的规范数据作为该本体的局部本体；计算各局部本体之间的相似度，得到各本体间的相似度；基于全局本体和各本体间的相似度进行数据集成得到集成后数据；

构建元数据管理体系，包括：构建业务元数据，包括基于清洗规则知识库构建清洗规则元数据；基于数据标准知识库构建数据标准元数据；基于数据集成算法构建数据集成元数据；构建技术元数据，包括基于数据源构建数据源元数据；基于数据的表结构构建数据表元数据；基于与数据对应的应用构建应用元数据；基于与数据对应的API构建API元数据；构建管理元数据，包括基于数据相关的操作人员和权限构建权限管理元数据；基于数据相关的系统配置构建系统配置元数据；

基于元数据管理体系进行数据的血缘分析并存储到图数据库；所述基于所述元数据管理体系进行血缘分析包括：将元数据以数据的形式存入数据库表；基于元数据构建有向无环图即DAG图，用于描述元数据间的关联关系；将构建好的DAG图映射为表示血缘关系的数据库表；基于表示血缘关系的数据库表，确定元数据间的血缘关系；其中，基于元数据构建有向无环图即DAG图包括：基于元数据通过拓扑排序算法构造多维度的DAG图，标明数据表元数据间、数据表元数据与数据源元数据间的横向关联关系，数据表元数据、数据源元数据与应用元数据以及API元数据之间的纵向管理关系，数据表元数据、数据源元数据与系统配置元数据以及权限管理元数据间的纵向关联关系，数据表元数据、数据源元数据与清洗规则元数据、数据标准元数据以及数据集成元数据之间的生命周期关联关系。