CN113590610B

CN113590610B - 一种基于Elastic Search的血缘关系表示方法

Info

Publication number: CN113590610B
Application number: CN202110728893.1A
Authority: CN
Inventors: 谭巍; 田浩兵; 张奎; 陈卫
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2023-06-20
Anticipated expiration: 2041-06-29
Also published as: CN113590610A

Abstract

本发明属于大数据技术领域，尤其涉及一种基于Elastic Search的血缘关系表示方法。拟解决现有技术中提到的基于图数据库下的血缘管理，存在后期使用、学习和维护管理成本高的问题。提供了如下技术方案，解析单元获取待解析的SQL语句，并对SQL语句进行解析得到表名、字段以及表与表之间的相互依赖数据结构；分析单元遍历步骤1中得到的结果，并将结果中的关系依次存入到Elastic Search中；展示单元查询Elastic Search中索引，得到血缘关系数据，前端进行血缘关系展示。通过将血缘关系数据用E l ast ic Search展示，将计算与存储有机结合一起，可以充分发挥E l ast ic Search的快速查询和维护管理方便的特性，降低了对于血缘关系的学习使用，管理和维护成本。

Description

一种基于Elastic Search的血缘关系表示方法

技术领域

本发明属于大数据技术领域，尤其涉及一种基于Elastic Search的血缘关系表示方法。

背景技术

随着大数据技术的不断发展，部分公司均建立了符合自己业务的离线数据仓库或实时数据仓库，数据仓库被广泛运用与数据大屏、风险识别或业务决策。随着数据仓库接入的表和建立的模型增多，对于数据仓库的元数据血缘管理就变得越来越重要。一个良好的元数据血缘关系，可以很清晰和方便的看出表与表、表与模型之间的关系。对数据流向追踪、业务问题排查、减少维护成本等有着十分重要的作用。

目前针对血缘关系展示的方法，全是基于图数据库。基于图数据库进行血缘管理，优点是图数据库底层原理特别适合存储关系属性数据；缺点是图数据库稳定的产品大多商业化，其次是对于图数据库的查询没有通用的查询语言，并不支持SQL查询，需要单独学习一种新的查询语言；最后就是在表名，列名和任务之间，不能很好的实现相互查询。因此，基于图数据库下的血缘管理，存在后期使用、学习和维护管理成本高的问题。

发明内容

本发明提供了一种基于Elastic Search的血缘关系表示方法，拟解决现有技术中提到的基于图数据库下的血缘管理，存在后期使用、学习和维护管理成本高的问题。

本发明为解决上述技术问题提供了如下技术方案：

一种基于Elastic Search的血缘关系表示方法包括以下步骤：

步骤1：解析单元获取待解析的SQL语句，并对SQL语句进行解析得到表名、字段以及表与表之间的相互依赖数据结构；

步骤2：分析单元遍历步骤1中得到的结果，并将结果中的关系依次存入到ElasticSearch中；

步骤3：展示单元查询Elastic Search中索引，得到血缘关系数据，前端进行血缘关系展示。

步骤1中所述的SQL语句位于SQL中，所述SQL包括SQL语句、任务名以及集群名称；优选的，所述SQL通过HTTP的POST方式进行上传。

优选的，步骤1中对SQL的解析采用递归解析法，具体步骤如下：

步骤1.1：通过开源的动态数据管理框架获得要解析的SQL的抽象语法树；

步骤1.2：用一个List结构存放每次递归访问的数据，通过递归遍历步骤1.1中的抽象语法树，得到一条SQL语句中的表、字段以及表与表之间的相互关系；

步骤1.3：用一个List结构存放每次递归访问的数据，通过递归遍历步骤1.1中的抽象语法树，获得SQL语句中的中间表，将中间表加上一个符号“&”；非中间表不包含“&”。

优选的，定义一种用于存储步骤1.2获得的数据结果的数据结构LinegeTable，解析LinegeTable，解析后的数据物理存储为Elastic Search中的一个索引。

优选的，所述步骤2包括以下步骤：

步骤2.1：在Elastic Search中创建一个关联类型的索引，该索引存储了血缘具体数据；索引的结构主要由属性信息组成；

步骤2.2：根据步骤2.1的索引组成结构，设计索引写入id，保证id的唯一性；

步骤2.3：创建索引，创建索引时指定一个主分片，并设置副分片的个数为0；

步骤2.4：将步骤1.2中遍历的结果写入到索引中。

优选的，所述步骤2.4包括以下步骤：

步骤2.41：依次遍历步骤1.2中的列表结果，过滤掉中间表，得到List数组；

步骤2.42：遍历步骤2.41中得到的List数组，得到表数据，形成一条待写入索引的记录；待写入索引的记录中的id写入的_id相同；记录中的table_join_field的值取值为parentTable；记录下文档写入的id号标记为PId；

步骤2.43：判断步骤2.42中的表数据是否有依赖其他列表的列表，如果没有则执行步骤2.41；如果存在则遍历具备依赖关系的列表数据，按照步骤2.42的方法进行处理，形成的记录中，table_join_field取值为childTable，同时将步骤2.42中的PId写入其中；

步骤2.44：判断是否读取完成，读取未完成时执行步骤2.41，读取完成的，则完成步骤1.2中遍历的结果写入到索引中。

优选的，所述步骤3包括以下步骤：

步骤3.1：后端获取前端填写的表名和集群名，并解析得到表名和集群名，通过Elastic Search的查询语句在索引中查询：表名@集群名@parentTable和表名@集群名@childTable的记录，得到List数组；

步骤3.2：依次递归调用步骤3.1中获取的List数组，递归的深度等于查询深度；

步骤3.3：最终查询得到的结果将放入Map中，将Map转为Json格式返回给前端；

步骤3.4：前端拿到返回的json数据，即可以实现数据血缘关系的展示。

优选的，步骤3.2包括以下步骤：

步骤3.21：获取表名@集群名@parentTable的所有子文档列表，并将其所有子文档列表数据放入到一个list列表中，查询深度减1；

步骤3.22：遍历步骤3.21中的list列表，得到其中的一个数据；取该数据的表名和集群名，将该数据的表名和集群名组成一个字符串：表名@集群名@parentTable，然后在步骤2.1中创建的索引中查询该字符串；若基于该字符串查询出有数据则执行步骤3.21；若无数据则执行步骤3.23；

步骤3.23：如果查询深度为0或则没有在Elastic Search中查询到数据；那就将结果放入一个Map中。

优选的，步骤2.2中所述的id采用如下设计：id统一取值为表名，集群名和table_join_field字符串的拼接，即name@clusternam@table_join_field的形式。

优选的，步骤2.1中所述的属性信息包括：作为记录主键表示唯一性的id，与记录写入索引中的_id相同；表示表名称的name；用于表示任务名称的owner；表示一张表包含的列名字的columns；以逗号分隔的字符串；表示集群名字的clustername；用于表示关联文档的table_join_field，当写入的是父关联文档的时候table_join_field的值为parentTable，当写入的是子关联文档的时候table_join_field的值为childTable。

与现有技术相比本发明的有益效果是：通过将血缘关系数据用Elastic Search展示，将计算与存储有机结合一起，可以充分发挥Elastic Search的快速查询和维护管理方便的特性，降低了对于血缘关系的学习使用，管理和维护成本；同时可以很好的实现：表名，列名和任务名之间的三维立体查询，即通过表名看列名，看任务；通过列名看表名，看任务；通过任务名看表名，看列名，可以很方便的实现数据流，任务流的血缘追踪。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面对本发明的最优实施例作详细的描述。

一种基于Elastic Search的血缘关系表示方法，包括以下步骤：

步骤1中的所述SQL语句位于SQL中，所述SQL包括SQL语句、任务名以及集群名称；所述SQL通过HTTP的POST方式上传。

对SQL语句的解析通过递归的方式进行解析，解析步骤如下：

所述步骤1中的数据结构，定义为LinegeTable的数据结构，然后解析LinegeTable，解析后的数据物理存储为Elastic Search中的一个索引，参见下表1.1所示：

表1.1：存储解析后表的数据结构

数据类型	String	String	String	List<LinegeTable>	List<String>
						名称	table	jobName	clusterName	backwardTable	columns
含义	表名	任务名	集群名	依赖其他表的列表	列名

所述步骤2包括以下步骤：

步骤2.1：在Elastic Search中创建一个关联类型的索引，该索引存储了血缘具体数据；索引的结构主要由属性信息组成；属性信息包括：作为记录主键表示唯一性的id，与记录写入索引中的_id相同；表示表名称的name；用于表示任务名称的owner；表示一张表包含的列名字的columns；以逗号分隔的字符串；表示集群名字的clustername；用于表示关联文档的table_join_field，当写入的是父关联文档的时候table_join_field的值为parentTable，当写入的是子关联文档的时候table_join_field的值为childTable。

索引的设计结构如下：

步骤2.2：根据步骤2.1的索引组成结构，设计索引写入id，保证id的唯一性；并且考虑到方便后期针对记录的增加、删除、修改、查询。因此对索引的id，采用如下设计：id统一取值为表名,集群名和table_join_field字符串的拼接，即name@clusternam@table_join_field的形式。

步骤2.4：将步骤1.2中遍历的结果写入到索引中。

所述步骤2.4包括以下步骤：

步骤3.4：前端拿到返回的json数据，即可以实现数据血缘关系的展示。由于返回的数据包含了任务名，所以也可以实现表与任务，任务与任务的之间的相互展示。

通过Elastic Search的血缘索引，可以很方便的实现，表，列，任务，3者关系之间多维查询。只需要简单调用Elastic Search的查询API就能实现，只需将表名、列名、任务名中的任意一个作为查询参数到Elastic Search的索引中搜索，就能得到一个同时包含表名、列名和任务名的数据集。

查询表与表之间的血缘比较复杂，因此查询表的时候需要参入较多参数。查询需要的传入参数：表名,集群名和查询深度。其中查询深度默认值为3，查询深度值越大，返回的数据结果越多，血缘关系链路越长。获取到需要参数后，具体查询方式如下，步骤3.2中所述的递归调用具体步骤如下：

步骤3.22：遍历步骤3.21中的list列表，得到其中的一个数据；取该数据的表名和集群名，将该数据的表名和集群名组成一个字符串：表名@集群名@parentTable，在步骤2.1中创建的索引中查询该字符串；若基于该字符串查询出有数据则执行步骤3.21；若无数据则执行步骤3.23；

步骤3.23：如果查询深度为0或则没有在Elastic Search中查询到数据；那就将结果放入一个Map中。Map中的key定义为表1.1中的对象；value为一个List列表，List中的数据类型参见表1.1。存入Map的key值为父文档；value为子文档。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于Elastic Search的血缘关系表示方法，其特征在于：包括以下步骤：

其中对SQL语句的解析通过递归的方式进行解析，解析步骤如下：

步骤1.3：用一个List结构存放每次递归访问的数据，通过递归遍历步骤1.1中的抽象语法树，获得SQL语句中的中间表，将中间表加上一个符号“&”；非中间表不包含“&”；

步骤2：分析单元遍历步骤1中得到的结果，并将结果中的关系依次存入到ElasticSearch 中；

步骤2.4：将步骤1.2中遍历的结果写入到索引中；

2.根据权利要求1所述的一种基于Elastic Search的血缘关系表示方法，其特征在于：步骤1中的所述SQL语句位于SQL中，所述SQL包括SQL语句、任务名以及集群名称；所述SQL通过HTTP的POST方式上传。

3.根据权利要求1所述的一种基于Elastic Search的血缘关系表示方法，其特征在于：定义一种用于存储步骤1.2获得的数据结果的数据结构LinegeTable，解析LinegeTable，解析后的数据物理存储为Elastic Search中的一个索引。

4.根据权利要求1所述的一种基于Elastic Search的血缘关系表示方法，其特征在于：所述步骤2.4包括以下步骤：

5.根据权利要求4所述的一种基于Elastic Search的血缘关系表示方法，其特征在于：所述步骤3包括以下步骤：

步骤3.1：后端获取前端填写的表名和集群名，并解析得到表名和集群名，通过ElasticSearch的查询语句查询：表名@集群名@ parentTable 和表名@集群名@ childTable的记录，得到List数组；

6.根据权利要求5所述的一种基于Elastic Search的血缘关系表示方法，其特征在于：步骤3.2中所述的递归调用具体步骤如下：

步骤3.21：获取表名@集群名@ parentTable的所有子文档列表，并将其所有子文档列表数据放入到一个list列表中，查询深度减1；

步骤3.22：遍历步骤3.21中的list列表，得到其中的一个数据；取该数据的表名和集群名，将该数据的表名和集群名组成一个字符串：表名@集群名@ parentTable，在步骤2.1中创建的索引中查询该字符串；若基于该字符串查询出有数据则执行步骤3.21；若无数据则执行步骤3.23；

7.根据权利要求1所述的一种基于Elastic Search的血缘关系表示方法，其特征在于：步骤2.2中所述的id采用如下设计：id统一取值为表名，集群名和table_join_field字符串的拼接，即name@clusternam@table_join_field的形式。

8.根据权利要求1所述的一种基于Elastic Search的血缘关系表示方法，其特征在于：步骤2.1中所述的属性信息包括：作为记录主键表示唯一性的id，与记录写入索引中的_id相同；表示表名称的name；用于表示任务名称的owner；表示一张表包含的列名字的columns；以逗号分隔的字符串; 表示集群名字的clustername；用于表示关联文档的table_join_field，当写入的是父关联文档的时候table_join_field的值为parentTable，当写入的是子关联文档的时候table_join_field的值为childTable。