CN109101651A

CN109101651A - 一种元数据全链路分析的方法

Info

Publication number: CN109101651A
Application number: CN201810971665.5A
Authority: CN
Inventors: 肖庆超; 王培元; 程林; 杨培强
Original assignee: Inspur Software Group Co Ltd
Current assignee: Inspur Software Group Co Ltd
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2018-12-28

Abstract

本发明特别涉及一种元数据全链路分析的方法。该元数据全链路分析的方法，首先处理存储过程，去掉其中的无关信息；然后找出可能影响数据流向的sql，根据类型分别做预处理；最后进行数据流向查找。该元数据全链路分析的方法，通过服务接口的形式，对sql语句、存储过程语句进行分析，获取其中的表与表之间的字段全链路关系，从而实现了对数据流向全自动、彻底的分析，达到了梳理数据仓库中的数据流向的目的，极大地节省了时间和人力，为数据挖掘做好了准备。

Description

一种元数据全链路分析的方法

技术领域

本发明涉及数据流向分析技术领域，特别涉及一种元数据全链路分析的方法。

背景技术

随着大数据的兴起，数据仓库、数据流向成了非常重要的分析信息。其中，数据流向主要从sql，存储过程，ETL等工具进行分析。ETL可以根据配置信息进行快速分析，而sql和存储过程分析起来比较麻烦，目前的分析都是不彻底或者需要人工干预，不能全自动、彻底的分析其中的流向关系。针对上述问题，本发明提出了一种元数据全链路分析的方法。

发明内容

本发明为了弥补现有技术的缺陷，提供了一种简单高效的元数据全链路分析的方法。

本发明是通过如下技术方案实现的：

一种元数据全链路分析的方法，其特征在于，包括以下步骤：

（1）处理存储过程，去掉其中的无关信息；

（2）找出可能影响数据流向的sql，根据类型分别做预处理；

（3）进行数据流向查找。

所述步骤（1）中，首先获取存储过程文本内容，以一行为单位存储；解析文本内容，去掉文本中/**/和//注释的部分；并在行与行之间加空格合并成一行数据，然后去掉数据中包括换行在内的其他无关字符，并将连在一起的多空格合并成一个，进而得到了一个完整、规范、干净的存储过程内容。

所述步骤（2）中，解析获取的存储过程文本内容，采用分号;切割文本，得到单条sql内容；并从中筛选出可能通过表改变另一张表的sql单条语句；

对筛选出的单条sql语句进行逐一分析，如果是execute immediate开头的，则先将其中包含的sql提取出来；如果不是execute immediate开头的，则分别对可能通过表改变另一张表的sql单条语句进行处理。

可能通过表改变另一张表的sql单条语句包括insert语句，create语句，update语句和merge语句。

当可能通过表改变另一张表的sql单条语句为create语句时，解析方法为拆分出其中的insert部分和update部分，分别根据insert语句和update语句进行解析处理。

当可能通过表改变另一张表的sql单条语句为update语句时，解析方法包括以下步骤：

（A）根据文本拆分出set后面的语句，并根据逗号,拆成多条，逐条进行分析；

（B）判断是否存在select语句，如果存在，进入下一步，否则舍弃；

（C）对于存在select语句的sql获取等号=前后内容，等号=前面内容则为目标字段，根据顺序提取目标字段，采用解析insert语句方式解析select语句，获取表间关系。

当可能通过表改变另一张表的sql单条语句为create语句时，解析方法包括以下步骤：

（A）判断是否是根据select创建表，如果是，则进入下一步，否则舍弃；

（B）判断是否命名新表字段名称；

如果没有，则从后边的select语句中获取字段名称，并分析表间的关系；

如果有，则按照顺序提起字段名，分别在后面的select语句中查找分析。

当可能通过表改变另一张表的sql单条语句为insert语句时，解析方法包括以下步骤：

（A）判断是否select语句插入数据，如果是进入下一步，否则舍弃；

（B）判断insert是否是根据字段名插入数据；如果是，则从文本中按顺序提取字段名，如果不是，则获取表的全部字段，并按照顺序排序；

（C）根据上一步获取的字段顺序，从select语句中获取相应顺序的字段的来源；

（D）判断select最外层是否含有union、union all、minus或intersect，如果有union、union all或intersect，则将sql拆成两个sql语句，分别进行分析，然后将两部分的结果值合并；如果是minus，则只取前一部分进行分析；

（E）如果相应位置字段是字段而不是内嵌sql，根据文本获取到其中包含的有用的所有字段，分别查找，然后将结果集合并；

（F）如果相应位置字段是字段是内嵌sql，则递归查找。

所述步骤（E）中，查找规则包括以下步骤：

（i）首先判断是否是根据别名获取的字段名；

（ii）如果是根据别名，则找到相应的别名的表，如果表是内嵌sql，则进行递归获取；否则这张表就是来源表；

（iii）如果不是根据别名，则判断表的个数，如果是一张表，则该表是来源表，该字段是来源字段；如果多张表，则循环查询表的字段，看表是否包含这个字段，直到找到存在这个字段的表；

（iv）如果是*，则查询下面所有表字段，并根据表顺序排序，找到相应的字段及其表。

本发明的有益效果是：该元数据全链路分析的方法，通过服务接口的形式，对sql语句、存储过程语句进行分析，获取其中的表与表之间的字段全链路关系，从而实现了对数据流向全自动、彻底的分析，达到了梳理数据仓库中的数据流向的目的，极大地节省了时间和人力，为数据挖掘做好了准备。

附图说明

附图1为本发明元数据全链路分析的方法示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行详细的说明。应当说明的是，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

该元数据全链路分析的方法，包括以下步骤：

（1）处理存储过程，去掉其中的无关信息；

（2）找出可能影响数据流向的sql，根据类型分别做预处理；

（3）进行数据流向查找。

（B）判断是否命名新表字段名称；

（F）如果相应位置字段是字段是内嵌sql，则递归查找。

所述步骤（E）中，查找规则包括以下步骤：

（i）首先判断是否是根据别名获取的字段名；

如果是*，则查询下面所有表字段，并根据表顺序排序，找到相应的字段及其表。

Claims

1.一种元数据全链路分析的方法，其特征在于，包括以下步骤：

（1）处理存储过程，去掉其中的无关信息；

（2）找出可能影响数据流向的sql，根据类型分别做预处理；

（3）进行数据流向查找。

2.根据权利要求1所述的元数据全链路分析的方法，其特征在于：所述步骤（1）中，首先获取存储过程文本内容，以一行为单位存储；解析文本内容，去掉文本中/**/和//注释的部分；并在行与行之间加空格合并成一行数据，然后去掉数据中包括换行在内的其他无关字符，并将连在一起的多空格合并成一个，进而得到了一个完整、规范、干净的存储过程内容。

3.根据权利要求1所述的元数据全链路分析的方法，其特征在于：所述步骤（2）中，解析获取的存储过程文本内容，采用分号;切割文本，得到单条sql内容；并从中筛选出可能通过表改变另一张表的sql单条语句；对筛选出的单条sql语句进行逐一分析，如果是executeimmediate开头的，则先将其中包含的sql提取出来；如果不是execute immediate开头的，则分别对可能通过表改变另一张表的sql单条语句进行处理。

4.根据权利要求3所述的元数据全链路分析的方法，其特征在于：可能通过表改变另一张表的sql单条语句包括insert语句，create语句，update语句和merge语句。

5.根据权利要求4所述的元数据全链路分析的方法，其特征在于：当可能通过表改变另一张表的sql单条语句为create语句时，解析方法为拆分出其中的insert部分和update部分，分别根据insert语句和update语句进行解析处理。

6.根据权利要求4所述的元数据全链路分析的方法，其特征在于，当可能通过表改变另一张表的sql单条语句为update语句时，解析方法包括以下步骤：

根据文本拆分出set后面的语句，并根据逗号,拆成多条，逐条进行分析；

判断是否存在select语句，如果存在，进入下一步，否则舍弃；

对于存在select语句的sql获取等号=前后内容，等号=前面内容则为目标字段，根据顺序提取目标字段，采用解析insert语句方式解析select语句，获取表间关系。

7.根据权利要求4所述的元数据全链路分析的方法，其特征在于，当可能通过表改变另一张表的sql单条语句为create语句时，解析方法包括以下步骤：

判断是否是根据select创建表，如果是，则进入下一步，否则舍弃；

判断是否命名新表字段名称；

8.根据权利要求4-7中任意一项所述的元数据全链路分析的方法，其特征在于，当可能通过表改变另一张表的sql单条语句为insert语句时，解析方法包括以下步骤：

判断是否select语句插入数据，如果是进入下一步，否则舍弃；

判断insert是否是根据字段名插入数据；如果是，则从文本中按顺序提取字段名，如果不是，则获取表的全部字段，并按照顺序排序；

根据上一步获取的字段顺序，从select语句中获取相应顺序的字段的来源；

判断select最外层是否含有union、union all、minus或intersect，如果有union、union all或intersect，则将sql拆成两个sql语句，分别进行分析，然后将两部分的结果值合并；如果是minus，则只取前一部分进行分析；

如果相应位置字段是字段而不是内嵌sql，根据文本获取到其中包含的有用的所有字段，分别查找，然后将结果集合并；

如果相应位置字段是字段是内嵌sql，则递归查找。

9.根据权利要求8所述的元数据全链路分析的方法，其特征在于，所述步骤（E）中，查找规则包括以下步骤：

首先判断是否是根据别名获取的字段名；

如果是根据别名，则找到相应的别名的表，如果表是内嵌sql，则进行递归获取；否则这张表就是来源表；

如果不是根据别名，则判断表的个数，如果是一张表，则该表是来源表，该字段是来源字段；如果多张表，则循环查询表的字段，看表是否包含这个字段，直到找到存在这个字段的表；