CN114297236A

CN114297236A - 一种数据血缘分析方法、终端设备及存储介质

Info

Publication number: CN114297236A
Application number: CN202111449843.6A
Authority: CN
Inventors: 蔡晓梅; 黄荣昌; 吴文; 吴鸿伟; 鄢小征
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-04-08

Abstract

本发明涉及一种数据血缘分析方法、终端设备及存储介质，该方法中包括：S1：提取数据的流转流程中经过的所有数据表，并基于数据表级别、数据项级别和数据行级别三个分析维度分别设定在各数据表中的唯一标识；S2：根据数据的流转流程中各数据的上下游唯一标识，构建表征数据流转流程的映射表；S3：根据待分析数据对应的分析维度，从映射表中查找待分析数据在该分析维度下对应的上下游唯一标识，基于提取的上下游唯一标识构建表征待分析数据在该分析维度下的数据流转流程的有向图。本发明实现了数据表、数据项、数据行三种维度的数据溯源，细化了数据溯源的颗粒度，能够追踪数据处理流程，为快速定位问题节点、查询变更数据点提供便利。

Description

一种数据血缘分析方法、终端设备及存储介质

技术领域

本发明涉及大数据分析领域，尤其涉及一种数据血缘分析方法、终端设备及存储介质。

背景技术

随着大数据的发展，汇聚的数据资源总量日益增大。不同来源的数据，数据质量参差不齐，对分析处理的结果的影响也不尽相同。当数据发生异常时，需要追踪到异常发生的原因，把风险控制在适当的水平。而数据的血缘关系，体现了数据的来龙去脉，能够帮助我们追踪数据的来源，追踪数据处理过程。因此，如何快速有效地实现数据血缘分析，显得尤为重要。

传统的数据血缘分析都是独立考虑表级别、数据项级别、数据行级别三种维度进行分析，并没有将三个维度结合起来实现，无法满足跨级别数据血缘分析的要求，对数据溯源具有一定的局限性。

发明内容

为了解决上述问题，本发明提出了一种数据血缘分析方法、终端设备及存储介质。

具体方案如下：

一种数据血缘分析方法，包括以下步骤：

S1：提取数据的流转流程中经过的所有数据表，并基于数据表级别、数据项级别和数据行级别三个分析维度分别设定在各数据表中的唯一标识；

S2：根据数据的流转流程中各数据的上下游唯一标识，构建表征数据流转流程的映射表；

S3：根据待分析数据对应的分析维度，从映射表中查找待分析数据在该分析维度下对应的上下游唯一标识，基于提取的上下游唯一标识构建表征待分析数据在该分析维度下的数据流转流程的有向图。

进一步的，数据的流转流程中经过的数据表依次为：来源表、A资源表、B资源表和C资源表；通过对来源表进行数据探查后，根据得到的探查日志生成A资源表；对A资源表进行数据清洗后生成B资源表；将B资源表中的数据按照不同应用场景分类后，生成C资源表。

进一步的，探查日志根据数据探查得到的数据的属性、格式和存储位置生成。

进一步的，数据清洗包括对数据表中的内容进行格式统一。

进一步的，数据表级别的唯一标识为数据项集编号，数据项级别的唯一标识为数据项编号，数据行级别的唯一标识为溯源标识。

进一步的，溯源标识的内容包括该数据行对应数据项的数据项编号和上游数据表中对应数据行中全部内容的加密编码。

进一步的，加密编码采用MD5加密编码。

进一步的，当分析维度为数据表级别时，根据待分析数据对应的数据表级别的唯一标识，从映射表中查找其上游数据和下游数据对应的数据表级别的唯一标识，基于查找到的唯一标识构建有向图；数据表级别对应的有向图的节点内容中包括该节点对应数据的数据表级别的唯一标识。

进一步的，当分析维度为数据项级别时，根据待分析数据对应的数据项级别的唯一标识，从映射表中查找其上游数据和下游数据对应的数据表级别和数据项级别的唯一标识，基于查找到的唯一标识构建有向图；数据项级别对应的有向图的节点内容中包括该节点对应数据的数据表级别和数据项级别的唯一标识。

进一步的，当分析维度为数据行级别时，根据待分析数据对应的数据行级别的唯一标识，从映射表中查找其上游数据和下游数据对应的数据表级别和数据行级别的唯一标识，基于查找到的唯一标识构建有向图；数据行级别对应的有向图的节点内容中包括该节点对应数据的数据表级别和数据行级别的唯一标识。

进一步的，通过在有向图的各节点之间有向线段上添加标识来表征数据的处理方式。

一种数据血缘分析终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。

本发明采用如上技术方案，实现了数据表、数据项、数据行三种维度的数据溯源，细化了数据溯源的颗粒度，能够追踪数据处理流程，为快速定位问题节点、查询变更数据点提供便利。基于不同数据，可在各类数据系统中为数据分析体系提供有效支撑。

附图说明

图1所示为本发明实施例一的流程图。

图2所示为该实施例中数据表级别血缘示例图。

图3所示为该实施例中数据项级别血缘示例图。

图4所示为该实施例中数据行级别血缘示例图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例一：

本发明实施例提供了一种数据血缘分析方法，如图1所示，所述方法包括以下步骤：

S1：提取数据的流转流程中经过的所有数据表，并基于数据表级别、数据项级别和数据行级别三个分析维度分别设定在各数据表中的唯一标识。

该实施例中数据的流转流程中根据数据的处理方式依次经过4个数据表，分别为来源表、A资源表、B资源表和C资源表。其中：

来源表为需要接入的来源数据，通过对来源表进行数据探查后，根据得到的探查日志生成A资源表。该实施例中数据探查包括对数据的属性、格式和存储位置的探查，通过探查得到的内容生成对应的探查日志后汇聚为A资源表。此阶段可以最大程度地保留数据的原始性。

对A资源表进行数据清洗后生成B资源表。该实施例中数据清洗包括对数据表中的内容进行格式统一，如将不同标准的业务数据清洗转换为统一标准的数据，提升数据的一致性，清洗后的数据存储至B资源表。

将B资源表中的数据按照不同应用场景分类后，生成C资源表。由于应用场景可能为多个，因此B资源表可能对应生成多个C资源表。

该实施例中设定三个分析维度下的唯一标识分别为：数据表级别的唯一标识为数据项集编号，数据项级别的唯一标识为数据项编号，数据行级别的唯一标识为溯源标识，其中溯源标识的内容包括该数据行对应数据项的数据项编号和上游数据表中对应数据行中全部内容的加密编码。该实施例中加密编码采用MD5加密编码，在其他实施例中也可以采用其他加密编码，在此不做限定。

S2：根据数据的流转流程中各数据的上下游唯一标识，构建表征数据流转流程的映射表。

上下游唯一标识即上游数据的唯一标识和下游数据的唯一标识。映射表用于查找每个数据的所有上游和下游数据的唯一标识，为后续有向图的绘制做准备。

分析维度根据待分析数据确定，如待分析数据为某数据表时，其对应的分析维度为数据表级别；待分析数据为某数据表中的某数据项时，其对应的分析维度为数据项级别；待分析数据为某数据表中的某数据项中的某数据行时，其对应的分析维度为数据行级别。

有向图中待分析数据对应的节点作为唯一的主节点。

根据三种分析维度的不同，该实施例中提供了三种有向图构建方式，分别为：

(1)当分析维度为数据表级别时，根据待分析数据对应的数据表级别的唯一标识，从映射表中查找其上游数据和下游数据对应的数据表级别的唯一标识，基于查找到的唯一标识构建有向图。数据表级别对应的有向图的节点内容中包括该节点对应数据的数据表级别的唯一标识，如数据项集编号，如图2所示，其为待分析数据为资源表“某银行某分行营业净收入信息表”对应的数据表级别分析维度下的数据流转流程的有向图。

(2)当分析维度为数据项级别时，根据待分析数据对应的数据项级别的唯一标识，从映射表中查找其上游数据和下游数据对应的数据表级别和数据项级别的唯一标识，基于查找到的唯一标识构建有向图。数据项级别对应的有向图的节点内容中包括该节点对应数据的数据表级别和数据项级别的唯一标识，如数据项集编号和数据项编号，如图3所示，其为待分析数据为“某银行营业净收入信息表”中的数据项“营业净收入”对应的数据项级别分析维度下的数据流转流程的有向图。

(3)当分析维度为数据行级别时，根据待分析数据对应的数据行级别的唯一标识，从映射表中查找其上游数据和下游数据对应的数据表级别和数据行级别的唯一标识，基于查找到的唯一标识构建有向图。数据行级别对应的有向图的节点内容中包括该节点对应数据的数据表级别和数据行级别的唯一标识，如数据项集编号、数据项编号和上游数据表中对应数据行中全部内容的加密编码，如图4所示，其为待分析数据为“某银行营业净收入信息表”的一条行记录对应的数据行级别分析维度下的数据流转流程的有向图。

进一步的，为了更好地帮助用户查看数据的流转方式，该实施例中还包括通过在有向图的各节点之间有向线段上添加标识来表征数据的处理方式。所述标识为表征上下游节点之间数据的处理方式的标识，如数据探查、数据清洗、数据提取。

本发明实施例中提出了一种结合三个数据维度的血缘分析方法，通过资源标识符将资源链路关系、物理存储链路关系、物理表字段链路关系进行连接，通过有向图的方式，成功在大数据系统上实现数据血缘分析的可视化展现。

本实施例可结合查询检索功能，输入、检索需要分析的资源。根据资源信息，读取、关联资源映射表信息，结合上述方法画出数据血缘。大数据平台的数据血缘，实现了血缘建立、血缘关系管理、血缘关系分析、血缘关系查询四大功能，覆盖数据的全生命周期。

另外，当数据不再具备使用价值，他的生命就结束了，或者归档或者直接销毁。判断数据是否具备使用价值，需依具体情况分析。例如，从数据的血缘关系图(本实施例的有向图)上看，最下面没有了数据节点，可评估主节点所代表的数据是否需要归档或销毁。

实施例二：

本发明还提供一种数据血缘分析终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，所述数据血缘分析终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述数据血缘分析终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述数据血缘分析终端设备的组成结构仅仅是数据血缘分析终端设备的示例，并不构成对数据血缘分析终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述数据血缘分析终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述数据血缘分析终端设备的控制中心，利用各种接口和线路连接整个数据血缘分析终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述数据血缘分析终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

所述数据血缘分析终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)以及软件分发介质等。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种数据血缘分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的数据血缘分析方法，其特征在于：数据的流转流程中经过的数据表依次为：来源表、A资源表、B资源表和C资源表；通过对来源表进行数据探查后，根据得到的探查日志生成A资源表；对A资源表进行数据清洗后生成B资源表；将B资源表中的数据按照不同应用场景分类后，生成C资源表。

3.根据权利要求2所述的数据血缘分析方法，其特征在于：探查日志根据数据探查得到的数据的属性、格式和存储位置生成。

4.根据权利要求2所述的数据血缘分析方法，其特征在于：数据清洗包括对数据表中的内容进行格式统一。

5.根据权利要求1所述的数据血缘分析方法，其特征在于：数据表级别的唯一标识为数据项集编号，数据项级别的唯一标识为数据项编号，数据行级别的唯一标识为溯源标识。

6.根据权利要求5所述的数据血缘分析方法，其特征在于：溯源标识的内容包括该数据行对应数据项的数据项编号和上游数据表中对应数据行中全部内容的加密编码。

7.根据权利要求6所述的数据血缘分析方法，其特征在于：加密编码采用MD5加密编码。

8.根据权利要求1所述的数据血缘分析方法，其特征在于：当分析维度为数据表级别时，根据待分析数据对应的数据表级别的唯一标识，从映射表中查找其上游数据和下游数据对应的数据表级别的唯一标识，基于查找到的唯一标识构建有向图；数据表级别对应的有向图的节点内容中包括该节点对应数据的数据表级别的唯一标识。

9.根据权利要求1所述的数据血缘分析方法，其特征在于：当分析维度为数据项级别时，根据待分析数据对应的数据项级别的唯一标识，从映射表中查找其上游数据和下游数据对应的数据表级别和数据项级别的唯一标识，基于查找到的唯一标识构建有向图；数据项级别对应的有向图的节点内容中包括该节点对应数据的数据表级别和数据项级别的唯一标识。

10.根据权利要求1所述的数据血缘分析方法，其特征在于：当分析维度为数据行级别时，根据待分析数据对应的数据行级别的唯一标识，从映射表中查找其上游数据和下游数据对应的数据表级别和数据行级别的唯一标识，基于查找到的唯一标识构建有向图；数据行级别对应的有向图的节点内容中包括该节点对应数据的数据表级别和数据行级别的唯一标识。

11.根据权利要求1所述的数据血缘分析方法，其特征在于：通过在有向图的各节点之间有向线段上添加标识来表征数据的处理方式。

12.一种数据血缘分析终端设备，其特征在于：包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～11中任一所述方法的步骤。

13.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1～11中任一所述方法的步骤。