CN117370620B

CN117370620B - 一种数据血缘的构建方法、装置、终端设备及存储介质

Info

Publication number: CN117370620B
Application number: CN202311674786.0A
Authority: CN
Inventors: 张南锋; 林文俊; 王兵; 林昂; 张毅; 黄丹; 周铎鸿; 李哲弘; 谢铭敏; 陈斌彬; 陈佳; 蒋新彦
Original assignee: GUANGDONG HANGYU SATELLITE TECHNOLOGY CO LTD
Current assignee: GUANGDONG HANGYU SATELLITE TECHNOLOGY CO LTD
Priority date: 2023-12-08
Filing date: 2023-12-08
Publication date: 2024-04-05
Anticipated expiration: 2043-12-08
Also published as: CN117370620A

Abstract

本发明公开了一种数据血缘的构建方法、装置、终端设备及存储介质，所述方法，在获取SQL脚本后，对SQL脚本中的SQL语句进行解析，生成SQL语句对应的抽象语法树，然后根据抽象语法树中各节点之间的关系，构建用于表征各个节点之间的血缘关系的血缘二叉树，接着对血缘二叉树中的各表类型节点进行解析，获取各表类型节点所对应的字段，在遍历过程中将解析的字段逐层上浮至对应的连接符类型节点，以构建出多层字段级血缘。通过实施本发明，可以免去传统由人工手动配置数据血缘的方式，面对庞大的数据量和复杂调度依赖关系，可以更快速的对数据进行追根溯源，降低数据血缘关系的构建难度，提高数据血缘构建的工作效率。

Description

一种数据血缘的构建方法、装置、终端设备及存储介质

技术领域

本发明涉及数据库技术领域，尤其涉及一种数据血缘的构建方法、装置、终端设备及存储介质。

背景技术

在大数据时代中的数据产生、处理、加工、融合、流转、消亡等过程中，数据之间的关系非常复杂，急需一种数据血缘技术，对数据在全生命周期过程中自动记录数据血缘，可以随时当前数据（表、字段、标签）从哪里来、到哪里去，帮助数据生产者以及消费者更好对数据进行追根溯源，提升数据运维、数据治理的效率。随着业务扩张、数仓不断完善，数据中台的各种业务数据的数据量和元数据数量持续增长，面对日益复杂的调度依赖关系，当出现问题时需要快速追溯数据链路，所以需要一种方法高效输出血缘关系，保证血缘的时效性，帮助用户更好进行数据治理。

然而，目前常用的获取血缘关系方法是通过用户手动配置各个表和字段之间的依赖关系，用户手动配置血缘关系工作量大，面对庞大的数据量和复杂调度依赖关系，工作难度大，用户需要投入大量的时间和精力，工作效率低下。

发明内容

本发明提供了一种数据血缘的构建方法、装置、终端设备及存储介质，可以免去传统由人工手动配置数据血缘关系的方式，面对庞大的数据量和复杂调度依赖关系，可以更快速的对数据进行追根溯源，降低数据血缘关系的构建难度，提高工作效率。

本发明提供了一种数据血缘的构建方法，包括：获取SQL脚本，对所述SQL脚本中的SQL语句进行解析，生成所述SQL语句所对应的抽象语法树；

根据所述抽象语法树中各个节点之间的关系，构建用于表征各个节点之间的血缘关系的血缘二叉树；其中，所述血缘二叉树的节点类型包括：表类型节点和连接符类型节点；

遍历所述血缘二叉树中的各个节点，对遍历到的表类型节点进行解析，获取每一表类型节点的字段，并将获取的各个表类型节点的字段逐层上浮至对应的连接符类型节点，以根据所述上浮的各个表类型节点的字段，构建字段级血缘关系；

根据所述字段级血缘关系，生成多层字段级血缘。

进一步地，所述对所述SQL脚本中的SQL语句进行解析，生成所述SQL语句所对应的抽象语法树，包括：

对所述SQL脚本中的SQL语句进行词法解析，获取所述SQL语句所对应的各个单个词语或符号，对所述各个单个词语或符号进行语法解析，生成所述SQL语句所对应的抽象语法树。

进一步地，所述遍历所述血缘二叉树中的各个节点，对遍历到的表类型节点进行解析，获取每一表类型节点的字段，包括：

通过后续遍历的方式，对所述血缘二叉树中的各个节点进行遍历，确定各表类型节点的字段类型，根据所述字段类型对各表类型节点进行解析，以获取每一表类型节点的字段。

进一步地，所述表类型节点的字段类型包括：case when类型、cast类型、group_concat类型、concat类型、自定义函数类型以及括号类型；

所述根据所述字段类型对各表类型节点进行解析，包括：

在确定所述字段类型为case when类型时，解析所述字段中的then或者else表达式；

在确定所述字段类型为cast类型或者group_concat类型时，解析所述字段中的第一个参数表达式；

在确定所述字段类型为concat类型或者自定义函数类型时，遍历所述字段中所有参数的表达式；

在确定所述字段类型为括号类型时，获取所述字段中括号内的表达式。

进一步地，所述将获取的各个表类型节点的字段逐层上浮至对应的连接符类型节点，包括：

在遍历到每一连接符类型节点时，确定与所述连接符类型节点相关联的表类型节点，将所述相关联的表类型节点的字段上浮至所述连接符类型节点。

进一步地，所述根据所述字段级血缘关系，生成多层字段级血缘，包括：

根据所述字段级血缘关系，遍历所述字段级血缘关系所对应的各个字段，对于每一字段，递归追溯所述每一字段所对应的来源字段，以根据所述来源字段，构建所述字段的上层血缘；根据构建各个字段的上层血缘，生成多层字段级血缘。

在上述方法项实施例的基础上，本发明对应提供了装置项实施例；

本发明提供了一种数据血缘的构建装置，包括：脚本获取模块、血缘二叉树模块、血缘关系模块以及字段级血缘模块；

所述脚本获取模块，用于获取SQL脚本，对所述SQL脚本中的SQL语句进行解析，生成所述SQL语句所对应的抽象语法树；

所述血缘二叉树模块，用于根据所述抽象语法树中各个节点之间的关系，构建用于表征各个节点之间的血缘关系的血缘二叉树；其中，所述血缘二叉树的节点类型包括：表类型节点和连接符类型节点；

所述血缘关系模块，用于遍历所述血缘二叉树中的各个节点，对遍历到的表类型节点进行解析，获取每一表类型节点的字段，并将获取的各个表类型节点的字段逐层上浮至对应的连接符类型节点，以根据所述上浮的各个表类型节点的字段，构建字段级血缘关系；

所述字段级血缘模块，用于根据所述字段级血缘关系，生成多层字段级血缘。

在上述方法项实施例的基础上，本发明对应提供了一终端设备项实施例；

本发明提供了一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现本发明任意一项所述的数据血缘的构建方法。

在上述方法项实施例的基础上，本发明对应提供了一存储介质项实施例；

本发明提供了一种存储介质，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行本发明任意一项所述的数据血缘的构建方法。

本发明的实施例，具有如下有益效果：

本发明提供了一种数据血缘的构建方法、装置、终端设备及存储介质；所述方法，在获取SQL脚本后，对SQL脚本中的SQL语句进行解析，生成SQL语句对应的抽象语法树，然后根据抽象语法树中各节点之间的关系，构建用于表征各个节点之间的血缘关系的血缘二叉树，然后对血缘二叉树中的各表类型节点进行解析，获取各表类型节点所对应的字段，在遍历过程中将解析的字段逐层上浮至对应的连接符类型节点，以构建出字段级血缘关系；最后再根据所构建的字段级血缘关系，生成对应的多层字段级血缘。通过实施本发明，可以免去传统由人工手动配置数据血缘关系的方式，面对庞大的数据量和复杂调度依赖关系，可以更快速的对数据进行追根溯源，降低数据血缘关系的构建难度，提高工作效率。

附图说明

图1是本发明一实施例提供的一种数据血缘的构建方法流程示意图；

图2是本发明一实施例提供的解析得到语法树执行示意图；

图3是本发明一实施例提供的 SQL解析得到的语法树示意图；

图4是本发明一实施例提供的解析语法树得到血缘二叉树示意图；

图5是本发明一实施例提供的遍历血缘二叉树示意图；

图6是本发明一实施例提供的构造多层字段级数据血缘关系执行示意图；

图7是本发明一实施例提供的一种数据血缘的构建装置的结构示意图。

具体实施方式

下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一实施例提供的一种数据血缘的构建方法，包括：

步骤S101:获取SQL脚本，对所述SQL脚本中的SQL语句进行解析，生成所述SQL语句所对应的抽象语法树；

步骤S102:根据所述抽象语法树中各个节点之间的关系，构建用于表征各个节点之间的血缘关系的血缘二叉树；其中，所述血缘二叉树的节点类型包括：表类型节点和连接符类型节点;

步骤S103:遍历所述血缘二叉树中的各个节点，对遍历到的表类型节点进行解析，获取每一表类型节点的字段，并将获取的各个表类型节点的字段逐层上浮至对应的连接符类型节点，以根据所述上浮的各个表类型节点的字段，构建字段级血缘关系；

步骤S104:根据所述字段级血缘关系，生成多层字段级血缘。

对于步骤S101，在一个优选的实施例中,对所述SQL脚本中的SQL语句进行词法解析，获取所述SQL语句所对应的各个单个词语或符号，对所述各个单个词语或符号进行语法解析，生成所述SQL语句所对应的抽象语法树，具体包括：

如图2所示，词法分析器先将SQL语句分解为单个词语或符号，存储在token对象中（token在编译原理中指高级程序语言最小的单元）。接着遍历token，根据SQL语言标准，对SQL中的关键字、标识符、操作符、常量、终结符进行了定义和识别。

语法分析器是基于开源的SQL语法解析组件将token对象转化为语法树，例如SQL：

insert into T (t1, t2, t3)

select a1 as t1, b1 as t2, c1 as t3

from A

inner join B on a2=b2

left join C on a3=c3

语法解析器将其解析为insert into T (t1, t2, t3)和select子句。

示意性的，如图3所示，从顶层完整SQL语句一层层往下解析拆分直至token级别，最后构造出一棵语法树，具体执行过程包括：

先对insert into T (t1, t2, t3)逐个解析，拆分成“insert”“into”“T”“(t1,t2,t3)”；因为前3个已经到了token级别，无法拆分，所以只需要对最后的“(t1,t2,t3)”进行逐个解析拆分。

对于select子句，解析拆分成“select”“字段列表”“from子句”；对于“select”已经到了token级别，无法拆分；对于“字段列表”进行逐个解析拆分为“字段信息”（如“a1 ast1”）和“逗号”，然后对“字段信息”拆分为“字段名”“as”“字段别名”（如“a1”“as”“t1”）；对于from子句需要解析拆分出“from A”“inner子句”“left join子句”，接着对这3个子句进行解析；“from A”拆分出“from”“A”；“inner子句”拆分成“inner”“join”“B”“on a2=b2”，因为前3个已经到了token级别，无法拆分，所以只需要对最后的“on a2=b2”进行拆分为“on”“a2”“=”“b2”；“left join子句”拆分出“left”“join”“C”“on a3=c3”，因为前3个已经到了token级别，无法拆分，所以只需要对最后的“on a3=c3”进行拆分为“on”“a3”“=”“c3”。

对于步骤S102,在一个优选的实施例中,构建用于表征各个节点之间的血缘关系的血缘二叉树,具体包括：

解析上述得到的抽象语法树，根据抽象语法树中各个表和表之间的关系构造一棵血缘二叉树，树的每个节点都是表级的节点，节点类型包括但不限于：表类型节点和连接符类型节点；树的每个有向边都说明了血缘的来源节点和目标节点。

示意性的，如图4所示，二叉树为根节点为目标表T，T的左子节点为连接符leftjoin;T的左子节点有两个子节点，左边的为连接符inner join，右边为表C；T的左子节点的左子节点有两个子节点，左边的为表A，右边的为表B。

对于步骤S103,在一个优选的实施例中,遍历所述血缘二叉树中的各个节点，对遍历到的表类型节点进行解析，获取每一表类型节点的字段，具体包括：

通过后续遍历的方式，对所述血缘二叉树中的各个节点进行遍历，确定各表类型节点的字段类型，根据所述字段类型对各表类型节点进行解析，以获取每一表类型节点的字段，并将字段的字段名和字段别名的映射关系存储在内存中。

血缘二叉树中每个表类型节点都有自己的字段，而上级表类型节点的字段来源于左右子节点中表类型子节点的字段，所以本发明采用二叉树后序遍历算法，遍历血缘树的每个节点，解析每个节点的表中字段。

所述将获取的各个表类型节点的字段逐层上浮至对应的连接符类型节点，具体包括：

示意性的，如图5所示，遍历到节点“表A”解析得到字段a1，遍历到节点“表B”解析得到字段b1；遍历到表A和表B的上级节点“inner join”时，将表A和表B的字段上浮；遍历到节点“表C”解析得到字段c1；遍历到表C的上级节点“left join”时，将“inner join”字段a1,b1和“表C”的字段c1上浮；遍历到节点“表T”得到字段，将“left join”字段a1, b1, c1上浮。然后根据之前内存中存储的字段名、字段别名的映射关系，通过字段名a1,b1,c1获取到对应的别名t1, t2, t3，构造出字段级血缘关系：表T的字段t1来源于表A的字段a1，表T的字段t2来源于表B的字段b1，表T的字段t3来源于表C的字段c1。

在一个优选的实施例中，所述表类型节点的字段类型包括但不限于：case when类型、cast类型、group_concat类型、concat类型、自定义函数类型以及括号类型；

所述根据所述字段类型对各表类型节点进行解析，具体包括：

在确定所述字段类型为括号类型时，获取所述字段中括号内的表达式；

在确定所述字段类型为普通字段类型时，将字段重新存储到表类型节点中。

示意性的，如图6所示，在遍历的过程中需要针对字段的表达式进行解析，首先判断的表达式类型：

（1）case when类型，解析then或者else子句的表达式，如果表达式不是普通字段类型，则继续递归解析处理，直至得到普通字段类型，按照普通字段类型继续处理；

（2）cast类型或group_concat类型，这些是数据库自带函数，解析函数的第一个参数，如果不是普通字段类型，则继续递归解析处理，直至得到普通字段类型，按照普通字段类型继续处理；

（3）concat类型或自定义函数类型，需要循环解析函数的所有参数，如果不是普通字段类型，则继续递归解析处理，直至得到普通字段类型，按照普通字段类型继续处理。

（4）括号类型，需要解析括号内的表达式，直至得到普通字段类型，按照普通字段类型继续处理。

（5）普通字段类型，需要将字段重新存储到表类型节点中。

最后将获取到的各个表类型节点中的普通字段类型字段按照上述逐层上浮至对应的连接符类型节点，构造出字段级血缘关系。

在一个优选的实施例中，所述根据所述字段级血缘关系，生成多层字段级血缘，具体包括：

可选的，SQL解析得到的血缘关系，存储血缘关系的来源字段、来源表、目标字段、目标表在数据库中。后续其他SQL解析得到的血缘关系，遍历每段血缘关系，判断其来源字段是否已经作为其他血缘关系的目标字段存储在数据库中，如果是则递归追溯上一层来源字段，直至无法继续追溯，构造多层字段级血缘。

综上，本发明构造多层字段级数据血缘关系执行示意图如图6所示。

通过实施本发明上述实施例具有如下效果：

1.本发明通过数据全生命周期过程的SQL脚本进行词法解析和语法解析自动提取字段血缘关系，构造多层字段级数据血缘关系，形成数据生命周期过程中自动记录数据血缘，实现数据中台数据资产可以快速追根溯源。

2.本发明可以免去传统由人工手动配置数据血缘关系的方式，面对庞大的数据量和复杂调度依赖关系，可以更快速的对数据进行追根溯源，降低数据血缘关系的构建难度，提高工作效率。

在上述方法项实施例的基础上，本发明对应提供了装置项实施例。

如图7所示，本发明一实施例提供了一种数据血缘的构建装置，包括：脚本获取模块、血缘二叉树模块、血缘关系模块以及字段级血缘模块；

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

所述领域的技术人员可以清楚地了解到，为的方便和简洁，上述描述的装置的具体工作过程，可参考前述方法实施例中对应的过程，在此不再赘述。

在上述方法项实施例的基础上，本发明对应提供了终端设备项实施例。

本发明另一实施例提供了一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序；所述处理器执行所述计算机程序时，实现本发明任意一实施例的数据血缘的构建方法。

示例性的，在这一实施例中所述计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述设备中的执行过程；

所述设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述设备可包括，但不仅限于，处理器、存储器；

所称处理器可以是中央处理模块(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述设备的控制中心，利用各种接口和线路连接整个设备的各个部分；

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart MediaCard, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在上述方法项实施例的基础上，本发明对应提供了存储介质项实施例。

本发明另一实施例提供了一种存储介质，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在的设备执行本发明任意一实施例的数据血缘的构建方法。

在这一实施例中，上述存储介质为计算机可读存储介质，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。

通过实施本发明上述各个实施例，可以进行词法解析和语法解析自动提取字段血缘关系，构造多层字段级数据血缘关系，形成数据生命周期过程中自动记录数据血缘，免去传统由人工手动配置数据血缘关系的方式，提高工作效率。

上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种数据血缘的构建方法，其特征在于，包括：

获取SQL脚本，对所述SQL脚本中的SQL语句进行解析，生成所述SQL语句所对应的抽象语法树；

通过后续遍历的方式，对所述血缘二叉树中的各个节点进行遍历，确定各表类型节点的字段类型，根据所述字段类型对各表类型节点进行解析，以获取每一表类型节点的字段；在遍历到每一连接符类型节点时，确定与所述连接符类型节点相关联的表类型节点，将所述相关联的表类型节点的字段上浮至所述连接符类型节点，以根据上浮的各个表类型节点的字段，构建字段级血缘关系；其中，所述表类型节点的字段类型包括：case when类型、cast类型、group_concat类型、concat类型、自定义函数类型以及括号类型；在确定所述字段类型为case when类型时，解析所述字段中的then或者else表达式；在确定所述字段类型为cast类型或者group_concat类型时，解析所述字段中的第一个参数表达式；在确定所述字段类型为concat类型或者自定义函数类型时，解析所述字段中所有参数的表达式；在确定所述字段类型为括号类型时，解析所述字段中括号内的表达式；针对各所述表类型节点的字段类型，在解析表达式的过程中，若表达式为非普通字段类型，则继续递归解析处理，直至得到普通字段类型，并将对应的字段存储到表类型节点中；

根据所述字段级血缘关系，遍历所述字段级血缘关系所对应的各个字段；对于每一字段，递归追溯所述每一字段所对应的来源字段，以根据所述来源字段，构建所述字段的上层血缘；根据构建各个字段的上层血缘，生成多层字段级血缘。

2.如权利要求1所述的数据血缘的构建方法，其特征在于，所述对所述SQL脚本中的SQL语句进行解析，生成所述SQL语句所对应的抽象语法树，包括：

3.一种数据血缘的构建装置，其特征在于，包括：脚本获取模块、血缘二叉树模块、血缘关系模块以及字段级血缘模块；

所述血缘关系模块，用于通过后续遍历的方式，对所述血缘二叉树中的各个节点进行遍历，确定各表类型节点的字段类型，根据所述字段类型对各表类型节点进行解析，以获取每一表类型节点的字段；在遍历到每一连接符类型节点时，确定与所述连接符类型节点相关联的表类型节点，将所述相关联的表类型节点的字段上浮至所述连接符类型节点，以根据上浮的各个表类型节点的字段，构建字段级血缘关系；其中，所述表类型节点的字段类型包括：case when类型、cast类型、group_concat类型、concat类型、自定义函数类型以及括号类型；在确定所述字段类型为case when类型时，解析所述字段中的then或者else表达式；在确定所述字段类型为cast类型或者group_concat类型时，解析所述字段中的第一个参数表达式；在确定所述字段类型为concat类型或者自定义函数类型时，解析所述字段中所有参数的表达式；在确定所述字段类型为括号类型时，解析所述字段中括号内的表达式；针对各所述表类型节点的字段类型，在解析表达式的过程中，若表达式为非普通字段类型，则继续递归解析处理，直至得到普通字段类型，并将对应的字段存储到表类型节点中；

所述字段级血缘模块，用于根据所述字段级血缘关系，遍历所述字段级血缘关系所对应的各个字段；对于每一字段，递归追溯所述每一字段所对应的来源字段，以根据所述来源字段，构建所述字段的上层血缘；根据构建各个字段的上层血缘，生成多层字段级血缘。

4.一种终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1和2中任意一项所述的数据血缘的构建方法。

5.一种存储介质，其特征在于，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行如权利要求1和2中任意一项所述的数据血缘的构建方法。