CN115934757A

CN115934757A - 基于sql进行字段血缘分析的方法、装置和电子设备

Info

Publication number: CN115934757A
Application number: CN202211535906.4A
Authority: CN
Inventors: 王志飞
Original assignee: Digital Zhejiang Technology Operation Co ltd
Current assignee: Digital Zhejiang Technology Operation Co ltd
Priority date: 2022-12-01
Filing date: 2022-12-01
Publication date: 2023-04-07

Abstract

本发明提供了一种基于SQL进行字段血缘分析的方法、装置和电子设备，涉及数据处理的技术领域，包括：将预先获取的原始SQL文本进行标准化预处理，生成标准化SQL文本；标准化预处理包括：基础格式处理、星号处理和目标字段替换；对标准化SQL文本进行解析，并根据解析结果输出字段血缘数据；字段血缘数据包括：字段中文名称、字段英文名称和字段类型。通过该方法可以缓解现有利用SQL进行数据血缘解析的技术中存在的解析结果准确率低的问题，实现提高准确率的技术效果。

Description

基于SQL进行字段血缘分析的方法、装置和电子设备

技术领域

本发明涉及数据处理技术领域，尤其是涉及一种基于SQL进行字段血缘分析的方法、装置和电子设备。

背景技术

数据血缘，又称数据血统、数据起源、数据谱系，是指数据的全生命周期中，数据从产生、处理、加工、融合、流转到最终消亡，数据之间自然形成的一种关系。它作为数据仓库元数据管理重要的组成部分，数据开发人员可参考数据血缘关系进行数据溯源、数据价值评估、数据归档参考、数据质量评估等工作。而结构化查询语言(Structured QueryLanguage，SQL)是数据仓库领域使用最为广泛的语言，通过对SQL进行解析，完成数据血缘关系梳理是一门亟需解决的技术。

SQLLineage是基于Python的静态SQL代码血缘分析工具，其技术原理是通过sqlparse(基于Python的一个无验证解析器)将绝大多数常见的SQL解析成抽象语法树(Abstract Syntax Tree，AST)，基于AST的解析结果再进行程序逻辑判断及测试，完成表及字段的血缘数据输出。SQLLineage作为一个静态的SQL分析工具，意味着它不会尝试与服务器进行交互，因此会导致最终的结果不准。也就是说，现有利用SQL进行数据血缘解析的技术中存在解析结果准确率低的问题。

发明内容

本发明的目的在于提供一种基于SQL进行字段血缘分析的方法、装置和电子设备，以缓解现有技术中存在的解析结果准确率低的技术问题。

第一方面，本发明实施例提供了一种基于SQL进行字段血缘分析的方法，包括：

将预先获取的原始SQL文本进行标准化预处理，生成标准化SQL文本；上述标准化预处理包括：基础格式处理、星号处理和目标字段替换；

对上述标准化SQL文本进行解析，并根据解析结果输出字段血缘数据；上述字段血缘数据包括：字段中文名称、字段英文名称和字段类型。

在一些可能的实施方式中，上述基础格式处理包括：删除预先获取的原始SQL文本的基础格式参数；上述基础格式参数包括：注释、换行符、多余空格和非业务代码部分。

在一些可能的实施方式中，上述星号处理包括：处理预先获取的原始SQL文本中包含的星号。

在一些可能的实施方式中，处理预先获取的原始SQL文本中包含的星号，包括：根据临时结果集中SL带有的星号以及Insert SQL部分带有的星号，生成临时结果集和其字段的映射关系；基于上述映射关系替换预先获取的原始SQL文本中包含的星号。

在一些可能的实施方式中，上述目标字段替换包括：将目标字段替换成目标表实际的字段名称。

在一些可能的实施方式中，对上述标准化SQL文本进行解析，并根据解析结果输出字段血缘数据，包括：基于抽象语法树对上述标准化SQL文本进行解析，生成SQL解析结果；对上述SQL解析结果进行程序逻辑判断及测试，输出字段血缘数据。

在一些可能的实施方式中，对上述SQL解析结果进行程序逻辑判断及测试，输出字段血缘数据，包括：对上述SQL解析结果进行单元测试、SIT测试及UAT测试后，输出字段血缘数据。

第二方面，本发明实施例提供了一种基于SQL进行字段血缘分析的装置，包括：

生成模块，用于将预先获取的原始SQL文本进行标准化预处理，生成标准化SQL文本；上述标准化预处理包括：基础格式处理、星号处理和目标字段替换；

解析模块，用于对上述标准化SQL文本进行解析，并根据解析结果输出字段血缘数据；上述字段血缘数据包括：字段中文名称、字段英文名称和字段类型。

第三方面，本发明实施例提供了一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行上述第一方面任一项所述的方法。

本发明提供了一种基于SQL进行字段血缘分析的方法、装置和电子设备，包括：将预先获取的原始SQL文本进行标准化预处理，生成标准化SQL文本；标准化预处理包括：基础格式处理、星号处理和目标字段替换；对标准化SQL文本进行解析，并根据解析结果输出字段血缘数据；字段血缘数据包括：字段中文名称、字段英文名称和字段类型。通过该方法可以缓解现有利用SQL进行数据血缘解析的技术中存在的解析结果准确率低的问题，实现提高准确率的技术效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于SQL进行字段血缘分析的方法的流程示意图；

图2为本发明实施例提供的一种基于SQL进行字段血缘分析的方法的原理示意图；

图3为本发明实施例提供的一种基于SQL进行字段血缘分析的方法的处理的流程示意图；

图4为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

数据血缘，又称数据血统、数据起源、数据谱系，是指数据的全生命周期中，数据从产生、处理、加工、融合、流转到最终消亡，数据之间自然形成的一种关系。它作为数据仓库元数据管理重要的组成部分，数据开发人员可参考数据血缘关系进行数据溯源、数据价值评估、数据归档参考、数据质量评估等工作。而结构化查询语言(Structured QueryLanguage，SQL)是数据仓库领域使用最为广泛的语言，通过对SQL进行解析，完成数据血缘关系梳理是一门亟需解决的技术。SQLLineage是基于Python的静态SQL代码血缘分析工具，其技术原理是通过sqlparse(基于Python的一个无验证解析器)将绝大多数常见的SQL解析成抽象语法树(Abstract Syntax Tree，AST)，基于AST的解析结果再进行程序逻辑判断及测试，完成表及字段的血缘数据输出。

SQLLineage作为一个静态的SQL分析工具，意味着它不会尝试与服务器进行交互，因此会导致最终的结果不准。也就是说，现有利用SQL进行数据血缘解析的技术中存在解析结果准确率低的问题。具体应用过程中主要存在如下两个问题：遇到带星号的代码(如：select*)会导致血缘关系缺失；解析的结果可能与实际不符，表及字段可能不存在实际的元数据当中。

基于此，本发明实施例提供了一种基于SQL进行字段血缘分析的方法、装置和电子设备，以缓解上述问题。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种基于SQL进行字段血缘分析的方法进行详细介绍，参见图1所示的一种基于SQL进行字段血缘分析的方法的流程示意图，该方法可以由电子设备执行，主要包括以下步骤S110至步骤S120：

S110：将预先获取的原始SQL文本进行标准化预处理，生成标准化SQL文本；标准化预处理包括：基础格式处理、星号处理和目标字段替换；

S120：对标准化SQL文本进行解析，并根据解析结果输出字段血缘数据；字段血缘数据包括：字段中文名称、字段英文名称和字段类型。

传统的数据血缘主要是任务血缘和表血缘，利用上述方法输出的字段血缘则包括实现难度更高、血缘粒度更细的数据结构，例如，在本实施例中，字段血缘数据的具体结构如下表所示：

在一种实施例中，基础格式处理包括：删除预先获取的原始SQL文本的基础格式参数；基础格式参数包括：注释、换行符、多余空格和非业务代码部分。

作为一个具体的示例，注释一般指包含"--"与"/*...*/"的内容；换行符、多余空格可以通过正则替换实现；非业务代码部分可以通过SQL关键字判定，具体包括：(1)设置参数部分，特征是：单行以set关键字开头部分；(2)DDL语句部分，特征是：create table、droptable开头的整个代码段部分；(3)查询部分：特征是：select关键字开头的整个代码段部分。

在一种实施例中，星号处理包括：处理预先获取的原始SQL文本中包含的星号；具体包括：根据临时结果集中SL带有的星号以及Insert SQL部分带有的星号，生成临时结果集和其字段的映射关系；基于映射关系替换预先获取的原始SQL文本中包含的星号。

在一种实施例中，目标字段替换包括：将目标字段替换成目标表实际的字段名称。

在一种实施例中，结合图2所示，上述步骤S120中对标准化SQL文本进行解析，并根据解析结果输出字段血缘数据，包括：基于抽象语法树对标准化SQL文本进行解析，生成SQL解析结果；对SQL解析结果进行程序逻辑判断及测试，输出字段血缘数据。

在一种实施例中，对SQL解析结果进行程序逻辑判断及测试，输出字段血缘数据，包括：对SQL解析结果进行单元测试、SIT测试及UAT测试后，输出字段血缘数据。其中，主要包括单元测试、SIT测试及UAT测试；单元测试是指对软件中的最小可测试单元进行检查和验证，主要是对处理程序的单个方法进行测试调试；SIT测试即系统集成测试，也叫做集成测试，作为软件测试的一个环节，在其中单独的软件模块被合并和作为一个组测试。UAT测试可以是指用户验收测试(User Acceptance Test)，也就是用户可接受测试，最终需要经过用户测试。

本申请提供的一种基于SQL进行字段血缘分析的方法，在基于目前SQLLineage工具现有功能的基础上，增加SQL文本标准化预处理模块，保证SQL在被解析之前规范化，确保最后解析结果的准确率。

结合图3对上述流程进行详细阐述：开始后首先执行S31：SQL预处理，(包括：去除SQL中包含的注释；去除换行并转小写；去除多余空格；去除非业务代码部分，包括查询、DDL和参数设置)。然后执行S32：获取业务SQL列表并遍历；S33：判断SQL是否以with关键字开头，如果是，则执行S34：拆分SQL为“with SQL部分”和“inser SQL部分”；如果否，则执行S301：判断SQL是否以insert关键字开头，如果是，则针对拆分后的“inser SQL部分”执行S51；如果否，则直接结束。

其中，对于“with SQL部分”，执行S35：解析SQL获取临时结果集别名以及对应SQL(字典：tempResultSetDict)；S36：遍历字典(tempResultSetDict)；S37：判断临时结果集SQL是否包含星号(*)；如果否，则执行S42；如果是，则S38：获取星号位置及查询表名，并进行表名合规性处理(字典singleSqlDict)；S39：遍历singleSqlDict；S40：判断星号查询的表名是否在tableParamDict中；

如果不是，则执行S44：从元数据中获取表名对应的字段信息，并更新tableParamDict(S56)；如果是，则执行S41：替换临时结果集SQL中的星号，形成新的临时结果SQL；S42：根据新的临时结果集SQL，获取临时结果集和对应字段信息，并更新tableParamDict(S56)；S43：用新的SQL替换带星号的旧SQL部分，更新整体“with SQL部分”。

对于“inser SQL部分”，执行S51：判断insert SQL是否包含星号(*)；如果否，则执行S59；如果是，则执行S52：获取星号位置及查询表名，并进行表名合规性处理(字典：asteriskDict)；S53：遍历asteriskDict；S54：判断星号查询的表名是否在tableParamDict中；

如果是，则执行S58：替换insertSQL中的星号，形成新的insertSQL；如果否，则执行S55：从元数据中获取表名对应的字段信息，并更新tableParamDict；S56：获取临时结果集别名或元数据中表名及输出字段(字典：tableParamDict)；S57：将结果应用至S41以及S58；S58：替换insertSQL的星号，形成新的insertSQL；S59：获取目标表的输出字段信息、替换或补充现有字段别名，形成最终insertSQL；S60：insert结构最终SQL；

S71：根据S43和S59的结果，with结构最终SQL；S72：根据S71和S60的结果，通过SQLLineage解析字段血缘后结束。

其中，SQL标准化预处理模块进行SQL预处理，主要包括：SQL格式处理、去除星号、目标字段替换。

(1)SQL格式处理

为了尽可能去除SQL解析的干扰因素，SQL格式处理主要包括去除SQL中包含的注释、换行符、多余空格、非业务代码部分(包括查询、DDL和参数设置)。

(2)去除代码中的星号

如果SQL代码中包含星号，对最终SQLLineage解析出来的字段血缘结果有重大的影响。如上流程图所示，星号的处理分为两种情况，包括临时结果集中SQL带有星号的处理和Insert SQL部分带有星号的处理。先处理前者再处理后者，最终形成表或临时结果集和其字段的映射关系，根据映射关系替换掉现有星号即可。

(3)目标字段替换

由于SQL代码不规范的问题，会出现最终Insert SQL部分的字段和目标表实际的字段不符，因此需要将目标字段替换成目标表实际的字段名称。

由于SQLLineage从设计上来说就是一个静态的SQL解析工具，本申请实施例提供的方法通过格式处理及与实际生产环境中的元数据进行结合，对原始SQL完成标准化预处理，极大提高了SQLLineage字段血缘解析结果的准确率。

此外，本发明实施例还提供了一种基于SQL进行字段血缘分析的装置，该装置包括：

生成模块，用于将预先获取的原始SQL文本进行标准化预处理，生成标准化SQL文本；标准化预处理包括：基础格式处理、星号处理和目标字段替换；

解析模块，用于对标准化SQL文本进行解析，并根据解析结果输出字段血缘数据；字段血缘数据包括：字段中文名称、字段英文名称和字段类型。

本申请实施例所提供的基于SQL进行字段血缘分析的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。本申请实施例提供的基于SQL进行字段血缘分析的装置与上述实施例提供的基于SQL进行字段血缘分析的方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

本申请实施例还提供了一种电子设备，具体的，该电子设备包括处理器和存储装置；存储装置上存储有计算机程序，计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。

图4为本申请实施例提供的一种电子设备的结构示意图，该电子设备400包括：处理器40，存储器41，总线42和通信接口43，所述处理器40、通信接口43和存储器41通过总线42连接；处理器40用于执行存储器41中存储的可执行模块，例如计算机程序。

其中，存储器41可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线42可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器41用于存储程序，所述处理器40在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器40中，或者由处理器40实现。

处理器40可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器40中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器40可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41，处理器40读取存储器41中的信息，结合其硬件完成上述方法的步骤。

对应于上述方法，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行上述方法的步骤。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于SQL进行字段血缘分析的方法，其特征在于，包括：

将预先获取的原始SQL文本进行标准化预处理，生成标准化SQL文本；所述标准化预处理包括：基础格式处理、星号处理和目标字段替换；

对所述标准化SQL文本进行解析，并根据解析结果输出字段血缘数据；所述字段血缘数据包括：字段中文名称、字段英文名称和字段类型。

2.根据权利要求1所述的基于SQL进行字段血缘分析的方法，其特征在于，所述基础格式处理包括：删除预先获取的原始SQL文本的基础格式参数；所述基础格式参数包括：注释、换行符、多余空格和非业务代码部分。

3.根据权利要求1所述的基于SQL进行字段血缘分析的方法，其特征在于，所述星号处理包括：处理预先获取的原始SQL文本中包含的星号。

4.根据权利要求3所述的基于SQL进行字段血缘分析的方法，其特征在于，处理预先获取的原始SQL文本中包含的星号，包括：

根据临时结果集中SL带有的星号以及Insert SQL部分带有的星号，生成临时结果集和其字段的映射关系；

基于所述映射关系替换预先获取的原始SQL文本中包含的星号。

5.根据权利要求1所述的基于SQL进行字段血缘分析的方法，其特征在于，所述目标字段替换包括：将目标字段替换成目标表实际的字段名称。

6.根据权利要求1所述的基于SQL进行字段血缘分析的方法，其特征在于，对所述标准化SQL文本进行解析，并根据解析结果输出字段血缘数据，包括：

基于抽象语法树对所述标准化SQL文本进行解析，生成SQL解析结果；

对所述SQL解析结果进行程序逻辑判断及测试，输出字段血缘数据。

7.根据权利要求6所述的基于SQL进行字段血缘分析的方法，其特征在于，对所述SQL解析结果进行程序逻辑判断及测试，输出字段血缘数据，包括：

对所述SQL解析结果进行单元测试、SIT测试及UAT测试后，输出字段血缘数据。

8.一种基于SQL进行字段血缘分析的装置，其特征在于，包括：

生成模块，用于将预先获取的原始SQL文本进行标准化预处理，生成标准化SQL文本；所述标准化预处理包括：基础格式处理、星号处理和目标字段替换；

解析模块，用于对所述标准化SQL文本进行解析，并根据解析结果输出字段血缘数据；所述字段血缘数据包括：字段中文名称、字段英文名称和字段类型。

9.一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行所述权利要求1至7任一项所述的方法。