CN117555950B

CN117555950B - 基于数据中台的数据血缘关系构建方法

Info

Publication number: CN117555950B
Application number: CN202410044688.7A
Authority: CN
Inventors: 田山; 张志龙; 孙小龙
Original assignee: Shandong Zaiqi Data Technology Co ltd
Current assignee: Shandong Zaiqi Data Technology Co ltd
Priority date: 2024-01-12
Filing date: 2024-01-12
Publication date: 2024-04-02
Anticipated expiration: 2044-01-12
Also published as: CN117555950A

Abstract

本发明涉及计算机技术领域，具体涉及基于数据中台的数据血缘关系构建方法。该方法包括：响应于数据血缘关系构建的请求，对数据集进行解析得到数据字段之间的依赖关系；依据数据字段之间的依赖关系确定数据集之间的依赖关系；当数据集之间的依赖关系为基于数据流的关系，获取数据集的数据生命周期的时序，根据时序构建层级别的数据血缘关系；当数据集之间的依赖关系为基于数据内容的关系，计算数据集之间的数据相似度，根据数据相似度构建层级别的数据血缘关系。本发明能够建立层级别的数据血缘关系，能够更好地理解数据来源和数据之间的关系，从而更好地管理和控制数据质量、数据一致性和数据完整性。

Description

基于数据中台的数据血缘关系构建方法

技术领域

本发明涉及计算机技术领域，具体涉及基于数据中台的数据血缘关系构建方法。

背景技术

数据中台是一个数据变成数据资产，持续使用数据、产生智能、为业务服务的系统和机制。数据中台通过提供方法和运行机制，形成汇聚整合、提纯加工、建模处理、算法学习，并以共享服务的方式将数据提供给业务使用，从而与业务联动。

当今大数据时代，各种类型数据爆发性、海量地增长，这些庞大复杂的数据信息，通过转换、变换、流转，又生成新的数据，数据从产生、加工融合、流转，到最终输出，数据之间形成一种关联关系，这种关系形象化为数据血缘。

现有技术当中，对数据的血缘关系的构建停留在表级别数据血缘关系，表级别数据血缘关系关注的是单个数据表中的数据来源和流向，而层级数据血缘关系则更关注不同层次结构中的数据流动和融合。

因此，亟需一种能够构建层级别的数据血缘关系的方法。

发明内容

本发明的目的在于提供一种基于数据中台的数据血缘关系构建方法：解决现有方案中只存在表级别数据血缘关系，无法应对不同层次结构中的数据流动和融合的技术问题。

本发明的目的可以通过以下技术方案实现：

基于数据中台的数据血缘关系构建方法，方法包括：

响应于数据血缘关系构建的请求，对数据集进行解析得到数据字段之间的依赖关系；

依据数据字段之间的依赖关系确定数据集之间的依赖关系；

当数据集之间的依赖关系为基于数据流的关系，获取数据集的数据生命周期的时序，根据时序构建层级别的数据血缘关系；

当数据集之间的依赖关系为基于数据内容的关系，计算数据集之间的数据相似度，根据数据相似度构建层级别的数据血缘关系。

进一步地，对数据集进行解析得到数据字段之间的依赖关系包括：

对数据集进行预处理；

对预处理后的数据集进行提取字段名和字段类型；

根据关联规则挖掘对字段名和字段类型进行字段之间的关联性确定；

将相关联的字段进行PCA分析，得到数据字段之间的依赖关系。

进一步地，依据数据字段之间的依赖关系确定数据集之间的依赖关系包括：

依据数据字段之间的依赖关系判断字段名和字段类型是否有共同的上游数据或者数据源，若是，数据集之间的依赖关系为基于数据流的关系；

依据数据字段之间的依赖关系判断字段名和字段类型在语义上是否为相似，若是，数据集之间的依赖关系为基于数据内容的关系。

进一步地，当数据集之间的依赖关系为基于数据流的关系，获取数据集的数据生命周期的时序，根据时序构建层级别的数据血缘关系包括：

基于数据集的数据生命周期的时序的先后顺序将数据集进行层级排序，将时序在前对应的数据集排在时序在后对应的数据集的上层，构建层级别的数据血缘关系。

进一步地，数据集的数据生命周期的时序包括数据集的生成、处理、传输、存储、发布、使用、归档、废弃对应的时间节点。

进一步地，当数据集之间的依赖关系为基于数据内容的关系，计算数据集之间的数据相似度，根据数据相似度构建层级别的数据血缘关系，包括：

获取数据集的特征；

根据数据集的特征计算每个特征之间的相似度；

总和每个特征之间的相似度得到数据相似度，按照数据相似度的大小排序构建层级别的数据血缘关系。

进一步地，其特征在于，按照数据相似度的大小排序构建层级别的数据血缘关系包括：以待建数据集为基础层，按照数据相似度的从大到小排序依次在基础层上进行构建层级别的数据血缘关系。

进一步地，方法还包括：

基于NLP判断字段名和字段类型在语义上是否为相似。

相比于现有方案，本发明实现的有益效果：

本发明对数据集进行解析得到数据字段之间的依赖关系；依据数据字段之间的依赖关系确定数据集之间的依赖关系；当数据集之间的依赖关系为基于数据流的关系，获取数据集的数据生命周期的时序，根据时序构建层级别的数据血缘关系；当数据集之间的依赖关系为基于数据内容的关系，计算数据集之间的数据相似度，根据数据相似度构建层级别的数据血缘关系。通过建立层级别的数据血缘关系，能够更好地理解数据来源和数据之间的关系，从而更好地管理和控制数据质量、数据一致性和数据完整性。这有助于提高数据治理水平，确保数据的准确性和可靠性。

本发明基于数据中台来进行构建层级别的数据血缘关系，一方面，数据中台提供了数据整合的能力，将不同来源和类型的数据进行统一管理和服务化。另一方面，通过构建层级别的数据血缘关系，可以更好地整合和组织数据，实现数据的共享和流通，提高数据的利用率和价值。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种基于数据中台的数据血缘关系构建方法的流程图；

图2是本发明实施例的另一种基于数据中台的数据血缘关系构建方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的示例实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、步骤等。在其它情况下，不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。

本实施例提供了一种基于数据中台的数据血缘关系构建方法，图1是本发明实施例的一种基于数据中台的数据血缘关系构建方法的流程图，如图1所示，该方法包括：

步骤S101：响应于数据血缘关系构建的请求，对数据集进行解析得到数据字段之间的依赖关系。

步骤S102：依据数据字段之间的依赖关系确定数据集之间的依赖关系。

步骤S103：当数据集之间的依赖关系为基于数据流的关系，获取数据集的数据生命周期的时序，根据时序构建层级别的数据血缘关系。

步骤S104：当数据集之间的依赖关系为基于数据内容的关系，计算数据集之间的数据相似度，根据数据相似度构建层级别的数据血缘关系。

综上，本发明对数据集进行解析得到数据字段之间的依赖关系；依据数据字段之间的依赖关系确定数据集之间的依赖关系；当数据集之间的依赖关系为基于数据流的关系，获取数据集的数据生命周期的时序，根据时序构建层级别的数据血缘关系；当数据集之间的依赖关系为基于数据内容的关系，计算数据集之间的数据相似度，根据数据相似度构建层级别的数据血缘关系。通过建立层级别的数据血缘关系，能够更好地理解数据来源和数据之间的关系，从而更好地管理和控制数据质量、数据一致性和数据完整性。这有助于提高数据治理水平，确保数据的准确性和可靠性。

在一些实施例中，在步骤S101中，数据中台响应于数据血缘关系构建的请求，其中，该请求可以是执行设备产生的，也可以是与执行设备建立了通信连接的外接设备产生的。进一步地，该请求可以是定时产生的，也可以基于人为操作产生的，即该请求可以随时产生，数据中台可以接收请求并响应。

在一些实施中，在步骤S101中，图2是本发明实施例的另一种基于数据中台的数据血缘关系构建方法的流程图，如图2所示，对数据集进行解析得到数据字段之间的依赖关系包括：

步骤S201：对数据集进行预处理。具体地，对原始数据集进行预处理，包括数据清洗、格式转换、异常值处理等，以确保数据的质量和可靠性。

步骤S202：对预处理后的数据集进行提取字段名和字段类型。具体地，基于NLP（Natural Language Processing）自然语言处理识别出所有相关的数据字段：字段名、字段中文名、字段类型。数据字段是数据库中用于存储数据的列或属性。根据存储的数据类型和用途，可以将数据字段分为不同的类型，包括主键、外键、文本字段和数值字段等。主键：主键是用于唯一标识表中的每一行数据的字段。它能够快速定位特定的记录，并确保数据的唯一性。主键必须是唯一的，并且不能为空。外键：外键是一个表中的字段，其值来自另一个表的主键。外键用于建立两个表之间的关系，并确保引用完整性。文本字段：文本字段用于存储字符数据，如字符串、文本注释等。它们通常用于存储可变长度的非数值数据。数值字段：数值字段用于存储数值数据，如整数、浮点数等。

步骤S203：根据关联规则挖掘对字段名和字段类型进行字段之间的关联性确定。具体地，确定关联性包括：

数据准备：选择要分析的数据集，并确保数据质量；确定要分析的字段，这些字段可以是数值型、分类型或文本型。对数据进行必要的预处理，如数据清洗、转换和离散化（对于连续型数据）。

定义支持度和置信度：

支持度：一个项集在所有事务中出现的频率。在字段关联性分析中，可以理解为两个或多个字段值同时出现的频率。

置信度：在包含X的事务中也包含Y的条件概率，表示为Support(X, Y) / Support(X)。在字段关联性分析中，可以理解为当字段X取某个值时，字段Y取某个值的概率。

应用关联规则挖掘算法：

使用Apriori、FP-Growth等关联规则挖掘算法来识别频繁项集并生成关联规则，依据关联规则挖掘对字段名和字段类型进行字段之间的关联性确定。

步骤S204：将相关联的字段进行PCA（principal components analysis：主成分分析技术分析），得到数据字段之间的依赖关系。

(1) 将相关联的字段形成矩阵X，计算矩阵X的样本的协方差矩阵 S（此为不标准PCA，标准PCA计算相关系数矩阵C）；

(2) 计算协方差矩阵S的特征向量 ,/>,…,/>和特征值,t = 1,2,…,n；

(3)投影数据到特征向量的空间之中，利用公式：

；

其中，BV值是原样本中对应维度的值。

PCA 的目标是寻找 r（r＜n）个新变量，使它们反映事物的主要特征，压缩原有数据矩阵的规模，将特征向量的维数降低，挑选出最少的维数来概括最重要特征。每个新变量是原有变量的线性组合，体现原有变量的综合效果，具有一定的实际含义。这 r 个新变量称为“主成分”，它们可以在很大程度上反映原来n个变量的影响，并且这些新变量是互不相关的，也是正交的。通过主成分分析，压缩数据空间，将多元数据的特征在低维空间里直观地表示出来，进一步，直观地展示数据字段之间的依赖关系。

综上，数据集进行解析得到数据字段之间的依赖关系。

在一些实施例中，依据数据字段之间的依赖关系判断字段名和字段类型是否有共同的上游数据或者数据源，若是，数据集之间的依赖关系为基于数据流的关系。若否，具体地，数据集之间的依赖关系不为基于数据流的关系。例如，如果字段A依赖于字段B，那么当字段B的值发生变化时，字段A的值也可能随之变化。

确定每个字段的上游数据或数据源。这通常涉及查看数据的来源、处理过程和转换逻辑。例如，如果字段A直接从数据库表C中获取数据，那么表C就是字段A的上游数据源。

比较字段名和字段类型之间的依赖关系和上游数据源。如果发现某个字段名和字段类型的上游数据源有交集，那么它们可能有共同的上游数据或数据源。例如，如果字段名“姓名”和字段类型“字符串”都直接从数据库表“用户信息”中获取数据，那么它们就有共同的上游数据源。

最后，综合分析所有相关字段的依赖关系和上游数据源。如果多个字段名和字段类型共享同一个上游数据源，那么它们就有共同的上游数据或数据源。

基于数据集的数据生命周期的时序先后将数据集进行层级排序，将时序在前对应的数据集排在时序在后对应的数据集的上层，构建层级别的数据血缘关系。其中，数据集的数据生命周期的时序包括数据集的生成、处理、传输、存储、发布、使用、归档、废弃对应的时间节点。

在一些实施例中，依据数据字段之间的依赖关系判断字段名和字段类型在语义上是否为相似，若是，数据集之间的依赖关系为基于数据内容的关系，若否，数据集之间的依赖关系不为基于数据内容的关系。具体地，基于NLP判断字段名和字段类型在语义上是否为相似：

词向量表示：将字段名和字段类型转换为词向量，可以使用预训练的词向量模型（如Word2Vec、GloVe等）或基于transformer的模型。这些模型可以将文本转换为高维向量，以便进行相似度计算。

语义相似度计算：计算字段名和字段类型之间的语义相似度。可以使用余弦相似度、编辑距离或其他相似度度量方法。如果相似度很高，则可以认为它们在语义上是相似的。

领域知识：领域知识可以帮助判断字段名和字段类型是否相似。例如，如果知道“姓名”是一个字符串类型的字段，而“年龄”是一个整数类型的字段，那么可以根据领域知识判断它们在语义上是不相似的。

上下文信息：考虑字段在数据集中的上下文信息。例如，“姓名”通常与人的身份信息相关，而“年龄”则表示人的年龄。如果上下文中“姓名”和“年龄”都与人的信息相关，则它们可能在语义上相似。

使用预训练的语言模型：利用大规模预训练的语言模型（如BERT）对字段名和字段类型进行编码，并比较它们的相似性。这些模型在大量文本数据上进行训练，能够理解文本的语义信息。

考虑数据集的元数据：如果数据集中包含有关字段的元数据描述，可以参考这些描述来判断字段名和字段类型是否相似。元数据可以提供有关字段用途、含义和其他属性的信息。

进一步地，计算数据集之间的数据相似度，根据数据相似度构建层级别的数据血缘关系，包括：

获取数据集的特征。该数据集的特征为关键字段，具体包括：字段名、字段中文名、字段类型，为定义好的关键字段。

根据数据集的特征计算每个特征之间的相似度。计算一个数据集中的特征与其他数据集的每个特征之间的相似度。具体可选的相似度计算方法有欧几里得距离（EuclideanDistance），余弦相似度（Cosine Similarity），皮尔逊相关系数（Pearson CorrelationCoefficient）等。

总和每个特征之间的相似度得到数据相似度，按照数据相似度的大小排序构建层级别的数据血缘关系。具体地，以待建数据集为基础层，按照数据相似度的从大到小排序依次在基础层上进行构建层级别的数据血缘关系。

在一些实施例中，可以数据集之间的依赖关系分配不同的权重，并综合这些权重的方法来计算最终的数据的相似度：

权重确定：首先，确定每对数据集之间的权重。权重的确定可以基于多种因素，如数据集的大小、数据质量、数据集之间的相关性等。这些权重可以由人工设定、通过机器学习模型训练得到，或者根据数据集的某些特征自动计算。

相似度计算：对于每对数据集，使用适合的相似度计算方法（如余弦相似度、编辑距离等）来衡量它们之间的相似程度。这些方法将根据数据集的属性和特征来计算相似度。

加权综合：将每对数据集的相似度与相应的权重相乘，得到加权相似度。这一步骤将考虑数据集之间的不同重要性或相关性。

归一化处理：为了使最终的相似度值在合理的范围内，可以对加权相似度进行归一化处理。归一化方法可以根据具体需求选择，例如将相似度值缩放到0-1之间。

最终相似度计算：将所有加权相似度值进行汇总，得到最终的数据的相似度。汇总的方法可以是简单的平均值、加权平均值或者其他综合方法，具体取决于所使用的相似度计算方法和权重分配策略。

综上，以待建数据集为基础层，按照数据相似度的从大到小排序依次在基础层上进行构建层级别的数据血缘关系。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如，DVD）、或者半导体介质。半导体介质可以是固态硬盘。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一些逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-onlymemory，ROM)、随机存取存储器(randomaccessmemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.基于数据中台的数据血缘关系构建方法，其特征在于，方法包括：

响应于数据血缘关系构建的请求，对数据集进行解析得到数据字段之间的依赖关系：

对数据集进行预处理；

对预处理后的数据集进行提取字段名和字段类型；

将相关联的字段进行PCA分析，得到数据字段之间的依赖关系：

(1)将相关联的字段形成矩阵X，计算矩阵X的样本的协方差矩阵 S；

(2)计算协方差矩阵S的特征向量 ,/>,…,/>和特征值,t = 1,2,…,n；

(3) 投影数据到特征向量的空间之中，利用公式：

；

其中，BV值是原样本中对应维度的值，基于值通过主成分分析和压缩数据空间处理将多元数据的特征在低维空间里直观地展示数据字段之间的依赖关系；

依据数据字段之间的依赖关系确定数据集之间的依赖关系：

依据数据字段之间的依赖关系判断字段名和字段类型在语义上是否为相似，若是，数据集之间的依赖关系为基于数据内容的关系；

2.根据权利要求1所述的方法，其特征在于，当数据集之间的依赖关系为基于数据流的关系，获取数据集的数据生命周期的时序，根据时序构建层级别的数据血缘关系包括：

3.根据权利要求2所述的方法，其特征在于，数据集的数据生命周期的时序包括数据集的生成、处理、传输、存储、发布、使用、归档、废弃对应的时间节点。

4.根据权利要求1所述的方法，其特征在于，当数据集之间的依赖关系为基于数据内容的关系，计算数据集之间的数据相似度，根据数据相似度构建层级别的数据血缘关系，包括：

获取数据集的特征；

根据数据集的特征计算每个特征之间的相似度；

5.根据权利要求4所述的方法，其特征在于，按照数据相似度的大小排序构建层级别的数据血缘关系包括：以待建数据集为基础层，按照数据相似度的从大到小排序依次在基础层上进行构建层级别的数据血缘关系。

6.根据权利要求1所述的方法，其特征在于，方法还包括：

基于NLP判断字段名和字段类型在语义上是否为相似。