CN104424269A

CN104424269A - 数据血统分析方法与装置

Info

Publication number: CN104424269A
Application number: CN201310385157.6A
Authority: CN
Inventors: 陈翀; 陈康; 向勇; 张青; 吴旭; 刘春�; 高智衡; 陶彩霞; 关迎辉
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2013-08-30
Filing date: 2013-08-30
Publication date: 2015-03-18
Anticipated expiration: 2033-08-30
Also published as: CN104424269B

Abstract

本公开涉及一种数据血统分析方法与装置。该方法包括基于模式配置对查询语句进行分析，以识别其中的目标表、目标字段、源表与源字段；获取各类数据库系统定义的或用户自定义的元数据并利用元数据对查询语句的模糊字段进行精确匹配；根据识别出的目标字段与源字段的字段追溯顺序生成查询语句的数据血统关系；通过多层语句解析分析出多条查询语句之间的数据血统关系。本公开可以灵活分析各种通用结构化语句的数据血统。

Description

数据血统分析方法与装置

技术领域

本公开涉及云计算领域，特别地，涉及一种数据血统分析方法与装置。

背景技术

数据血统关系是指数据之间的上下文关系，数据的血统分析是对数据库系统追溯查询结果的来源，以衡量数据的可信度、数据的质量。通过数据血统追踪，在分布数据共享时可以解决数据的可信度、质量、版本信息等，对于各种导出数据集也能解决这些问题。通过数据血统追踪，可以获得数据在数据流的演化过程。

当前数据血统自动分析技术主要是针对主流关系型数据的标准SQL（Structured Query Language，结构化查询语言）语言的解析，通过词法分析、语法分析等技术分析SQL脚本中的数据的来由。

随着现在各类数据库技术的发展，分布式数据库与非关系型数据库等在SQL语法上不再囿于过往的标准SQL规范，会有很多自身扩充的关键字或语法格式，因此，现有的基于标准SQL语法完整定义的技术难以灵活扩充解析这些分布式数据库与非关系型数据库中的数据由来。

发明内容

本公开鉴于以上问题中的至少一个提出了新的技术方案。

本公开在其一个方面提供了一种数据血统分析方法，其可以灵活分析各种通用结构化语句的数据血统。

本公开在其另一方面提供了一种数据血统分析装置，其可以灵活分析各种通用结构化语句的数据血统。

根据本公开，提供一种数据血统分析方法，包括：

基于模式配置对查询语句进行分析，以识别其中的目标表、目标字段、源表与源字段；

获取各类数据库系统定义的或用户自定义的元数据，并利用元数据对查询语句的模糊字段进行精确匹配；

根据识别出的目标字段与源字段的字段追溯顺序生成查询语句的数据血统关系；

通过多层语句解析分析出多条查询语句之间的数据血统关系。

在本公开的一些实施例中，模式配置包括关键字语句模式、关键字集、运算符集、函数模式。

在本公开的一些实施例中，基于模式配置对查询语句进行分析的步骤包括：

利用模式配置中的关键字语句模式识别与提取查询语句中的关键字语句，并识别提取出的关键字语句中包含的目标表、目标字段、源表与源字段；

利用模式配置中的函数模式识别查询语句中包含的函数结构，并根据函数模式提取函数结构中的目标字段；

根据模式配置中的关键字集过滤查询语句中与数据血统关系无关的关键字；

利用模式配置中的运算符集识别目标数据与常量集，并得出目标字段与常量集之间的关系。

在本公开的一些实施例中，利用元数据对查询语句的模糊字段进行精确匹配的步骤包括：

从元数据中获取数据表包含的字段信息与字段顺序。

在本公开的一些实施例中，根据识别出的目标字段与源字段的字段追溯顺序生成查询语句的数据血统关系的步骤包括：

按照字段顺序对查询语句的目标字段和源字段进行匹配；

对于查询语句中的嵌套语句，通过递归追溯原始字段以生成查询语句的数据血统关系。

在本公开的一些实施例中，通过多层语句解析分析出多条查询语句之间的数据血统关系的步骤包括：

根据单一语句的源表、源字段与目标表、目标字段之间的关系在多条查询语句间进行比对和分析；

根据源表、源字段与目标表、目标字段的关系设置各查询语句的层级并形成各查询语句之间的数据血统关系。

根据本公开，还提供了一种数据血统分析装置，包括：

模式适配单元，用于基于模式配置对查询语句进行分析，以识别其中的目标表、目标字段、源表与源字段；

模糊字段匹配单元，用于获取各类数据库系统定义的或用户自定义的元数据，并利用元数据对查询语句的模糊字段进行精确匹配；

字段追溯单元，用于根据识别出的目标字段与源字段的字段追溯顺序生成查询语句的数据血统关系；

血统关系形成单元，用于通过多层语句解析分析出多条查询语句之间的数据血统关系。

在本公开的一些实施例中，模式配置中包括关键字语句模式、关键字集、运算符集、函数模式。

在本公开的一些实施例中，模式适配单元包括：

关键字模式识别子单元，用于利用模式配置中的关键字语句模式识别与提取查询语句中的关键字语句，并识别提取出的关键字语句中包含的目标表、目标字段、源表与源字段；

函数模式识别子单元，用于利用模式配置中的函数模式识别查询语句中包含的函数结构，并根据函数模式提取函数结构中的目标字段；

关键字滤除子单元，用于根据模式配置中的关键字集过滤查询语句中与数据血统关系无关的关键字；

常量识别子单元，用于利用模式配置中的运算符集识别目标数据与常量集，并得出目标字段与常量集之间的关系。

在本公开的一些实施例中，模糊字段匹配单元从元数据中获取数据表包含的字段信息与字段顺序。

在本公开的一些实施例中，字段追溯单元包括：

字段匹配子单元，用于按照字段顺序对查询语句的目标字段和源字段进行匹配；

递归追溯子单元，对于查询语句中的嵌套语句，用于通过递归追溯原始字段以生成查询语句的数据血统关系。

在本公开的一些实施例中，血统关系形成单元包括：

在本公开的技术方案中，由于用户可以自定义模式配置、并且在对查询语句进行识别时只识别与血统分析相关的关键字、滤除与统计数据血统关系无关的关键字，这样就可以通过灵活地设定模式配置来实现对各类查询语句的数据血统分析。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本申请的一部分。在附图中：

图1是本公开一个实施例的数据血统分析方法的流程示意图。

图2是语句间关联关系的一个实例的示意图。

图3是以insert语句分析为例的数据血统关系示意图。

图4是本公开一个实施例的数据血统分析装置的结构示意图。

具体实施方式

下面将参照附图描述本公开。要注意的是，以下的描述在本质上仅是解释性和示例性的，决不作为对本公开及其应用或使用的任何限制。除非另外特别说明，否则，在实施例中阐述的部件和步骤的相对布置以及数字表达式和数值并不限制本公开的范围。另外，本领域技术人员已知的技术、方法和装置可能不被详细讨论，但在适当的情况下意在成为说明书的一部分。

为了解决上述现有技术中的问题，本公开下述实施例提出了一种可灵活扩展的通用结构化查询语句的数据血统分析方法，在该方法中，首先进行元数据的获取，例如，可以通过元数据接口配置提取各类数据库的系统定义或用户自定义的元数据；其次进行模式识别，包括语句模式识别和函数模式识别；接下来进行词法分析，通过过滤关键字集中包含的关键字来识别其中的目标数据集和常量集；最后进行血统关系分析，通过单个语句输入输出的血统关系进一步计算系统语句间的数据血统关系，进而形成完整的数据血统关系网。

图1是本公开一个实施例的数据血统分析方法的流程示意图。

如图1所示，该实施例可以包括以下步骤：

S102，基于模式配置对查询语句进行分析，以识别其中的目标表、目标字段、源表与源字段；

其中，模式配置可以包括但不限于关键字语句模式、关键字集、运算符集和函数模式。

具体地，关键字语句模式给出了查询语句中需要识别的语句模式，例如，insert<targetbale>(<targetcol>,){select}。

关键字集可以包括但不限于insert、overwrite、table、select、from、as、where、join、on、bigint。

运算符集可以包括但不限于＝、＋、－、*、/、and、or、in、not in、like。

函数模式可以由用户任意定义，例如：

[A-Z][A-Za-z0-9]*(<arg>,)；

[A-Z][A-Za-z0-9]*(<arg>#keyword#keyword)。

具体地，可以通过以下步骤实现：

需要指出的是，如果语句中存在嵌套语句，则可以通过递归方法逐层进行解析。

S104，获取各类数据库系统定义的或用户自定义的元数据，并利用元数据对查询语句的模糊字段进行精确匹配；

其中，元数据是描述数据及其环境的数据，主要指数据在数据库中的定义和描述，可以理解为数据库中的数据字典。具体地，可以通过配置信息获取数据库类别，然后通过配置信息连接数据库，最后通过配置信息获取数据库中的元数据。

具体地，可以从元数据中获取数据表包含的字段信息与字段顺序，其中，该数据表可以为源表，可以为目标表。

S106，根据识别出的目标字段与源字段的字段追溯顺序生成查询语句的数据血统关系；

具体地，可以通过以下步骤实现：

按照字段顺序对查询语句的目标字段和源字段进行匹配；

S108，通过多层语句解析分析出多条查询语句之间的数据血统关系，需要指出的是，最细粒度的数据血统是从单一语句解析而来的，但数据血统解析的最终目标是形成整个系统内的所有数据的来龙去脉的关系，因此，需要基于单一语句解析往上继续计算不同语句之间的关系，进而形成全局关系。

具体地，可以通过以下步骤实现：

根据源表、源字段与目标表、目标字段的关系设置各语句的层级并形成各查询语句之间的数据血统关系。

在该实施例中，由于用户可以自定义模式配置、并且在对查询语句进行识别时只识别与血统分析相关的关键字、滤除与统计数据血统关系无关的关键字，这样就可以通过灵活地设定模式配置来实现对各类查询语句的数据血统分析。

进一步地，还可以对查询语句进行实时分析，通过不断获取数据处理脚本进行实时分析，进而实时更新数据血统关系网。

接下来，通过另一实施例对本公开的技术方案作进一步说明。该实施例可以包括以下步骤：

步骤一，元数据的获取：通过元数据接口配置提取各类数据库的系统定义或用户自定义的元数据，可以提供多种接口方式、灵活支持关系型/非关系型数据库。

步骤二，关键语法模式配置解析：通过语句模式配置快速识别和提取脚本中的关键语句，例如，通过解析如下模式配置快速识别语句中包含目标表、目标字段、源表、源字段及相关字段的关键部分：

insert<targettable>(<targetcol>,){select}；

select<srccol>,from<srctable>,where<condcol>。

步骤三，函数模式配置解析：通过自定义函数模式配置识别关键语句中包含的函数结构，例如，通过[A-Z][A-Za-z0-9_]*(<arg>,)或[A-Z][A-Za-z0-9_]*(<arg>#keyword<arg>)等预先设置好的定义，只要符合预设的规则就认为是函数，再从中提取<arg>部分作为目标字段进行分析。

步骤四，关键字过滤：对步骤二和步骤三输出的结果进行关键字过滤，滤除与数据血统分析无关的关键字，例如，overwrite、join、on、bigint与函数名等，进而得出需进一步解析的嵌套数据集和需进一步识别的目标集。

步骤五，识别目标数据集与常量集：根据运算符集匹配得出步骤四输出的目标集中的目标数据集与常量集，及其相互运算关系。

其中，目标数据集中包含目标表字段的集合，常量集是指语句中的常量，例如，select^*from a where a.a1=1，那么1就是常量，或者a.a1＝“test”，那么test就是常量。

步骤六，嵌套分析：对于步骤四输出的嵌套数据集，递归执行步骤二至步骤五，得出源字段的数据关系。

步骤七，模糊匹配：对于语句中没有指定的字段，例如，select^*等，可以通过步骤一获取的元数据取得数据表的具体字段顺序。

步骤八，单语句数据血统分析：根据目标字段与源字段顺序匹配字段间的数据血统关系，包括直接影响关系与间接影响关系。

步骤九，语句间的数据血统分析：通过单一语句的输入输出关系，计算多层语句之间的血统关系，形成最终的数据关联关系网。

例如：

第一条类SQL语句为：

Insert overwrite table tar_table1(t1,t2,t3)

Select src_table1.t1,src_table1.t2,src_table2.t3

From src_table1,src_table2;

第二条类SQL语句为：

Insert overwrite table src_table1(t1,t2)

Select src_table2.t1,src_table2.t2from src_table2;

第三条类SQL语句为：

Insert overwrite table src_table2(t1,t3)

Select sum(src_table3.t1)as t1,count(src_talbe3.t2)as t3

From src_table3;

首先，我们通过前述步骤一至步骤八解析出单条语句的关系；

然后，再分析t1字段的来源，通过源数据比对t1字段是来自于表src_table1中的t1，而src_table1中的t1是来自于src_table2中的t1，src_table2中的t1是来自于src_table3中的t1；通过分析比对tar_table1中的t3字段是来自于src_table2中的t3，而src_table2中的t3是来自于src_table3中的t2，就这样逐层的解析分解得到血统关系网，如图2所示。

从该实施例可以看出，在进行数据血统分析时，只需要根据配置的模式识别查询语句的关键部分后再进行解析，而不需要对查询语句的完整语法进行解析。

以insert语句为例，关键字语句模式仅需要配置：

insert<targettable>(<targetcol>,){select}；

select<srccol>,from<srctable>,where<condcol>；

在insert语句的识别过程仅需要识别insert、select、from、where四个关键字，而不关注其他的语法模式，其他的关键字也不需要被识别，因此，只要是类似这种模式的SQL和类SQL脚本都可以被灵活地解析。其中，类SQL语句可以包括insert、ovewrite、table1、select、colum1、colum2、from、table2等。类SQL语句有自身扩展的关键字、不同的语法结构、还有扩充的各种函数格式等。

如果有其他存在数据血统关系的语法格式需要被解析，也可以沿用类似的模式配置进行扩展，以实现快速配置与灵活扩展。

接下来，通过一个具体实例说明如何进行数据血统分析：

首先，可以在模式配置中定义如下insert语句模式：

{insert}=insert<targettable>[(<targetcol>,)]{select}；

{select}=select<srccol>,from<srctable>,where<condcol>；

<srctable>:({select})[<srctable>],<condcol>;意为<srctable>中会包含嵌套select语句的<srctable>子串和<condcol>子串；

<condcol>:<condcol>,({select})[<condtable>]；意为<condcol>会包含<condcol>子串和({select})[<condtable>]。

关键字集可以包括但不限于：insert、overwrite、table、select、from、as、where、join、on、bigint。

运算符集可以包括但不限于：=、+、-、*、/、and、or、in、not in、like。

函数模式可以包括但不限于：

[A-Z][A-Za-z0-9_]*(<arg>,)

[A-Z][A-Za-z0-9_]*(<arg>#keyword#keyword)。

假设需要解析的查询语句如下：

insert overwrite target_table

select src_table1.s1,cast(src_table2.s2 as bigint),src_table2.s3,′20130701′

from

(select c1,s1 from t1 where id>30)src_table1

join

(select c2,s2,s3 from t2 where date=′20130701′)src_table2

on src_table1.c1=src_table2.c2

where src_table2.s3 in(select c3 from t3);

具体的数据血统分析过程如下：

语句模式识别过程：

（1）根据模式配置中的insert、select、from、where等关键字识别语句的各关键部分；

<targettable>=‘overwrite table target_table’

<targetcol>=null，无指定

<srccol>=src_table1.s1/cast(src_table2.s2 as bigint)/src_table3.s3/′20130701′

<srctable>=‘(select c1,s1 from t1 where id>30)src_table1

join

(select c2,s2,s3 from t2 where date=′20130701′)src_table2

on src_table1.c1=src_table2.c2

<condcol>=‘src_table2.s3 in(select c3 from t3)’

（2）识别函数模式，根据[A-Z][A-Za-z0-9_]*(<arg>#keyword#keyword)模式识别cast(src_table2.s2 as bigint)函数，得出目标字段为src_table2.s2；

（3）按括号层级处理，过滤关键字集，例如，对<srctable>过滤关键字后，得到如下子串：

(select c1,s1from t1 where id>30)src_table1

(select c2,s2,s3from t2 where date=′20130701′)src_table2

src_table1.c1=src_table2.c2

（4）识别目标数据集与常量集，根据运算符集匹配得出相关字段src_table1.c1和src_table2.c2，其相关关系为src_table1.c1=src_table2.c2；

（5）对于嵌套语句，递归执行（1）-（4）步，得出以下数据关系：

src_table1.s1来自于t1.s1，相关字段t1.c1和t1.id，其相关关系为t1.id>30和t1.c1=t2.c2；

src_table2.s2来自于t2.s2，相关字段t2.c2和t2.date，其相关关系为t2.date=’20130701’和t1.c1=t2.c2；

src_table2.s3来自于t2.s3，相关字段t2.c2和t2.date，其相关关系为t2.date=’20130701’和t1.c1=t2.c2；

（6）对于语句中没有指定目标字段、select*等情况，从数据库元数据中获取相应信息；

<targettable>过滤关键字后得出目标表为target_table，由于<targetcol>无指定，因此需从数据库元数据中查询，得到target_table包含t1、t2、t3、t4字段。

（7）匹配生成最终数据血统关系，如图3所示，其中，实线是直接影响关系，虚线是间接影响关系。

本领域普通技术人员可以理解，实现上述方法实施例的全部和部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算设备可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤，而前述的存储介质可以包括ROM、RAM、磁碟和光盘等各种可以存储程序代码的介质。

图4是本公开一个实施例的数据血统分析装置的结构示意图。

如图4所示，该实施例中的装置40可以包括模式适配单元402、模糊字段匹配单元404、字段追溯单元406和血统关系形成单元408。其中，

模式适配单元402，用于基于模式配置对查询语句进行分析，以识别其中的目标表、目标字段、源表与源字段，其中，模式配置中可以包括但不限于关键字语句模式、关键字集、运算符集和函数模式；

模糊字段匹配单元404，用于获取各类数据库系统定义的或用户自定义的元数据，并利用元数据对查询语句的模糊字段进行精确匹配；

字段追溯单元406，用于根据识别出的目标字段与源字段的字段追溯顺序生成查询语句的数据血统关系；

血统关系形成单元408，用于通过多层语句解析分析出多条查询语句之间的数据血统关系。

进一步地，模式适配单元可以包括：

关键字滤除子单元，用于根据模式配置中的关键字集过滤查询语句中与数据血统关系无关的关键字；以及

进一步地，模糊字段匹配单元从元数据中获取数据表包含的字段信息与字段顺序。

进一步地，字段追溯单元可以包括：

字段匹配子单元，用于按照字段顺序对查询语句的目标字段和源字段进行匹配；以及

进一步地，血统关系形成单元可以包括：

根据单一语句的源表、源字段与目标表、目标字段之间的关系在多条查询语句间进行比对和分析；以及

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同和相似的部分可以相互参见。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处可以参见方法实施例部分的说明。

虽然已参照示例性实施例描述了本公开，但应理解，本公开不限于上述的示例性实施例。对于本领域技术人员显然的是，可以在不背离本公开的范围和精神的条件下修改上述的示例性实施例。所附的权利要求的范围应被赋予最宽的解释，以包含所有这样的修改以及等同的结构和功能。

Claims

1.一种数据血统分析方法，其特征在于，包括：

获取各类数据库系统定义的或用户自定义的元数据，并利用所述元数据对所述查询语句的模糊字段进行精确匹配；

2.根据权利要求1所述的数据血统分析方法，其特征在于，所述模式配置中包括关键字语句模式、关键字集、运算符集和函数模式。

3.根据权利要求2所述的数据血统分析方法，其特征在于，基于模式配置对查询语句进行分析的步骤包括：

利用所述模式配置中的关键字语句模式识别与提取查询语句中的关键字语句，并识别提取出的关键字语句中包含的目标表、目标字段、源表与源字段；

利用所述模式配置中的函数模式识别所述查询语句中包含的函数结构，并根据所述函数模式提取函数结构中的目标字段；

根据所述模式配置中的关键字集过滤所述查询语句中与数据血统关系无关的关键字；

利用所述模式配置中的运算符集识别目标数据与常量集，并得出目标字段与常量集之间的关系。

4.根据权利要求1所述的数据血统分析方法，其特征在于，利用所述元数据对所述查询语句的模糊字段进行精确匹配的步骤包括：

从所述元数据中获取数据表包含的字段信息与字段顺序。

5.根据权利要求4所述的数据血统分析方法，其特征在于，根据识别出的目标字段与源字段的字段追溯顺序生成查询语句的数据血统关系的步骤包括：

按照所述字段顺序对所述查询语句的目标字段和源字段进行匹配；

对于所述查询语句中的嵌套语句，通过递归追溯原始字段以生成查询语句的数据血统关系。

6.根据权利要求1所述的数据血统分析方法，其特征在于，所述通过多层语句解析分析出多条查询语句之间的数据血统关系的步骤包括：

7.一种数据血统分析装置，其特征在于，包括：

模糊字段匹配单元，用于获取各类数据库系统定义的或用户自定义的元数据，并利用所述元数据对所述查询语句的模糊字段进行精确匹配；

8.根据权利要求7所述的数据血统分析装置，其特征在于，所述模式配置中包括关键字语句模式、关键字集、运算符集和函数模式。

9.根据权利要求8所述的数据血统分析装置，其特征在于，所述模式适配单元包括：

关键字模式识别子单元，用于利用所述模式配置中的关键字语句模式识别与提取查询语句中的关键字语句，并识别提取出的关键字语句中包含的目标表、目标字段、源表与源字段；

函数模式识别子单元，用于利用所述模式配置中的函数模式识别查询语句中包含的函数结构，并根据所述函数模式提取函数结构中的目标字段；

关键字滤除子单元，用于根据所述模式配置中的关键字集过滤所述查询语句中与数据血统关系无关的关键字；

常量识别子单元，用于利用所述模式配置中的运算符集识别目标数据与常量集，并得出目标字段与常量集之间的关系。

10.根据权利要求7所述的数据血统分析装置，其特征在于，所述模糊字段匹配单元从所述元数据中获取数据表包含的字段信息与字段顺序。

11.根据权利要求10所述的数据血统分析装置，其特征在于，所述字段追溯单元包括：

字段匹配子单元，用于按照所述字段顺序对所述查询语句的目标字段和源字段进行匹配；

递归追溯子单元，对于所述查询语句中的嵌套语句，用于通过递归追溯原始字段以生成查询语句的数据血统关系。

12.根据权利要求7所述的数据血统分析装置，其特征在于，所述血统关系形成单元包括：