CN109446279A

CN109446279A - 基于neo4j大数据血缘关系管理方法、系统、设备及存储介质

Info

Publication number: CN109446279A
Application number: CN201811196013.5A
Authority: CN
Inventors: 邓燕辉; 蔡适择; 姚小龙; 曾昭正; 唐国凯; 张文斌
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd; SF Tech Co Ltd
Priority date: 2018-10-15
Filing date: 2018-10-15
Publication date: 2019-03-08

Abstract

本发明涉及基于neo4j大数据血缘关系管理方法、系统、设备及存储介质。方法包括以下步骤：解析SQL语句，生成相应的抽象语法树，对于每个抽象语法树，深度遍历该抽象语法树的每个节点，在每个节点采集相应的节点数据；将采集的节点数据关系存储于neo4j图形数据库，将采集的必要信息存储于HBase；将异构数据源的信息引入血缘关系系统，形成血缘关系。便于图形化展现各数据源、Hive表间的依赖关系和血缘关系。提升了大数据平台元数据管理能力的层次，加强了对平台内部数据流转的把控，理清数据的来龙去脉，打通了各异构数据源的隔阂，血缘关系作为一座桥梁，连接了各数据源。

Description

基于neo4j大数据血缘关系管理方法、系统、设备及存储介质

技术领域

本发明涉及数据库技术领域，尤其涉及基于neo4j大数据血缘关系管理方法、系统、设备及存储介质。

背景技术

大数据时代，数据蕴藏着无限的价值。移动互联网的蓬勃发展，让各互联网公司积累了PB级别的用户数据和业务数据。在强大的需求驱动下，大数据技术也稳步成熟发展，通过HDFS，HBase，MongoDB，Kafka等存储组件，记录下了海量且持续增加的数据。

数据的产生、加工融合、流转流通，到最终消亡，数据之间自然会形成一种关系。借鉴人类社会中类似的一种关系来表达数据之间的这种关系，称之为数据的血缘关系。

随着大数据的崛起，数据挖掘对于企业来说显得越来越重要。目前基于数据挖掘的开源解决方案有2种，WhereHows系统和Atlas系统。WhereHows系统，其所依赖组件非常多，而且github上的项目，文档滞后非常严重，编译会遇到非常多的问题，对于一个开源项目，这是致命伤，对使用者非常不友好。而且其依赖Azkaban，不支持字段级别的血缘。

而Atlas也是一个庞大的系统，需要依赖titan，solr等。研究人员尝试修改其元数据存储组件为HBase，但Atlas却只支持非常低级别的Hbase。对于ElasticSearch也是同样的问题，Atlas也只支持非常低级别ElasticSearch。若大数据团队为Atlas系统维护两个低级别的HBase和ElasticSearch，则成本太大。

发明内容

为了解决上述技术问题，本发明的目的在于提供基于neo4j大数据血缘关系管理方法、系统、设备及存储介质。

根据本发明的一个方面，提供了基于neo4j大数据血缘关系管理方法，包括以下步骤：

解析SQL语句，生成相应的抽象语法树，对于每个抽象语法树，深度遍历该抽象语法树的每个节点，在每个节点采集相应的节点数据；

将采集的节点数据关系存储于neo4j图形数据库，将采集的必要信息存储于HBase；

将异构数据源的信息引入血缘关系系统，形成血缘关系。

作为优选，采用Antlr语法分析工具，进行语法、词法和语义分析，生成相应的抽象语法树。

作为优选，基于neo4j大数据血缘关系管理方法还包括：

针对neo4j建立索引，优化查询语句。

作为优选，所述相应的节点数据包括源数据表、目标数据表、源数据表字段和目标数据表字段。

作为优选，所述的必要信息包括Hive SQL语句及运行Hive SQL的时间。

作为优选，将异构数据源的信息引入血缘关系系统，形成血缘关系，包括：

打通内部的ETL系统和接入分发系统，获取定位唯一数据源的数据信息并引入血缘关系系统。

根据本发明的另一个方面，提供了基于neo4j大数据血缘关系管理系统，包括：

语法树生成单元，配置用于解析SQL语句，生成相应的抽象语法树，对于每个抽象语法树，深度遍历该抽象语法树的每个节点，在每个节点采集相应的节点数据；

数据存储单元，配置用于将采集的节点数据关系存储于neo4j图形数据库，将采集的必要信息存储于HBase；

血缘关系形成单元，配置用于将异构数据源的信息引入血缘关系系统，形成血缘关系。

作为优选，基于neo4j大数据血缘关系管理系统，还包括：

索引单元，配置用于针对neo4j建立索引，优化查询语句。

数据获取子单元，配置用于打通内部的ETL系统和接入分发系统，获取定位唯一数据源的数据信息并引入血缘关系系统。

根据本发明的另一个方面，提供了一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如上任一项所述的方法。

根据本发明的另一个方面，提供了一种存储有计算机程序的计算机可读存储介质，该程序被处理器执行时实现如上任一项所述的方法。

与现有技术相比，本发明具有以下有益效果：

1、本发明示例的基于neo4j大数据血缘关系管理方法，可以通过图形化展现各数据源、Hive表间的依赖关系和血缘关系，大大提升数据仓库等同事的工作效率。提升了大数据平台元数据管理能力的层次，加强了对平台内部数据流转的把控，理清数据的来龙去脉。提供生成该血缘关系的Hive Sql等来源信息，打通了各异构数据源的隔阂，血缘关系作为一座桥梁，连接了各数据源。此外，基于解析Hive Sql这项技术，可以在各层面计数hive表的使用次数，据此对数据表进行冷热分离。

2、本发明示例的基于neo4j大数据血缘关系管理系统，包括语法树生成单元，配置用于解析SQL语句，生成相应的抽象语法树，对于每个抽象语法树，深度遍历该抽象语法树的每个节点，在每个节点采集相应的节点数据；数据存储单元，配置用于将采集的节点数据关系存储于neo4j图形数据库，将采集的必要信息存储于HBase；血缘关系形成单元，配置用于将异构数据源的信息引入血缘关系系统。通过上述单元相互协作，可以图形化展现各数据源、Hive表间的依赖关系和血缘关系。且该系统支持表级别和字段级别的血缘关系，系统更加轻量级。提升了大数据平台元数据管理能力的层次，加强了对平台内部数据流转的把控，理清数据的来龙去脉。提供生成该血缘关系的Hive Sql等来源信息，打通了各异构数据源的隔阂，血缘关系作为一座桥梁，连接了各数据源。

3、本发明示例的基于neo4j大数据血缘关系管理设备，通过存储有计算机程序的计算机可读介质,所述程序被运行用于形成血缘关系，图形化展现各数据源、Hive表间的依赖关系和血缘关系。提升了大数据平台元数据管理能力的层次，加强了对平台内部数据流转的把控，理清数据的来龙去脉。

支持表级别和字段级别的血缘关系，图形数据库使用Neo4j，同时采用HBase当辅助存储。同时打通大数据团队的ETL系统和接入分发系统Databus。

附图说明

图1为本发明流程图；

图2为本发明的架构图。

具体实施方式

为了更好的了解本发明的技术方案，下面结合具体实施例、说明书附图对本发明作进一步说明。

实施例一：

本实施例的基于neo4j大数据血缘关系管理方法，包括：

S1、解析SQL语句，生成相应的抽象语法树，对于每个抽象语法树，深度遍历该抽象语法树的每个节点，在每个节点采集相应的节点数据；

其中，采用Antlr语法分析工具，进行语法、词法和语义分析，生成相应的抽象语法树。

其中，所述相应的节点数据包括源数据表、目标数据表、源数据表字段和目标数据表字段。

具体的，LineageMgr服务通过Antlr解析器，解析存储于HDFS的已经成功执行的Hive Sql，得到Hive Sql的抽象语法树，通过深度遍历语法树的每个节点，分析各子树的相对结构，以及采集重要节点的数据，所采集的数据包括源数据表、目标数据表、源数据表字段和目标数据表字段。

LineageMgr主要的工作量，是要对生成的抽象语法树(AST)深度遍历，判断特定TOKEN子树下的内容，是否是血缘关系所需要的。同时，需要考虑很多Hive Sql的复杂语法，比如子查询，子查询带别名，JOIN关键词，UNION关键词，Where条件中带函数等等。

S2、将采集的节点数据关系存储于neo4j图形数据库，将采集的必要信息存储于HBase；

其中，所述的必要信息包括Hive SQL语句及运行Hive SQL的时间。

具体的，在深度遍历AST之后，将采集到的Hive Sql中包含的源数据表、目标数据表、源数据表字段和目标数据表字段存储入neo4j图形数据库，同时将详细的元数据存储于HBase。这样存储分离，neo4j发挥了自己的图形存储的能力，而HBase互补了neo4j节点和边不能存储过长信息的问题。再利用neo4j的图形数据库特性，用点来表示Hive的数据库表；用边来表示两个表的血缘关系，由源表指向目标表。再产生了多个血缘关系之后，多个边组成图，由此血缘图便产生了。

根据neo4j的查询语言Cypher，可以把neo4j的数据，图形化地展现出来。同时，也可以限定读取的语句，只筛选特定的表(neo4j的点)和血缘关系(neo4j的边)。

S3、将异构数据源的信息引入血缘关系系统，形成血缘关系；

其中，打通内部的ETL系统和接入分发系统，获取定位唯一数据源的数据信息并引入血缘关系系统。

具体的，ETL为大数据团队内部的ETL系统，内部的接入分发系统为Databus，打通团队内部的ETL系统和接入分发系统Databus，将各异构数据源的信息，即定位唯一数据源的数据信息(比如kafka数据，根据集群名称，topic名称，来定位一个数据源；Elasticsearch数据，根据Elasticsearch所在的集群，以及索引名，来定位一个数据源),组合成neo4j的数据结构，固化存储于neo4j，形成血缘关系。如图2所示，异构数据源包括ETL中的MySQL、Oracle、Hive、Kafka、Elasticsearch和接入分发系统Databus中的Kafka数据库。

基于neo4j大数据血缘关系管理方法，还包括：

针对neo4j建立索引，优化查询语句。

针对neo4j的特定属性建立索引，优化查询的Cypher语句。通过Dubbo框架暴露该血缘关系服务的功能。针对存入neo4j中的label为table，即表格节点的name属性，建立索引。这样方便了读取的效率，同时，也提升了写入时，采用merge语句的效率，保证了产品服务的可用性。

当产品需要展现血缘关系时，会作为客户端，访问Dubbo服务，通过RESTful API接口，HTTP协议来访问后台服务。后台服务，则需要编写高性能的Cypher语句去读取特定表格的上下游血缘关系。同时，组合成合适的数据结构返回给客户端展现，通过go.js框架来展现图形。

本实施例提供了基于neo4j大数据血缘关系管理系统，包括：

较佳的，采用Antlr语法分析工具，进行语法、词法和语义分析，生成相应的抽象语法树。

较佳的，基于neo4j大数据血缘关系管理系统，还包括：

索引单元，配置用于针对neo4j建立索引，优化查询语句。

较佳的，所述节点数据包括源数据表、目标数据表、源数据表字段和目标数据表字段。

较佳的，所述的必要信息包括Hive SQL语句及运行Hive SQL的时间。

较佳的，将异构数据源的信息引入血缘关系系统，形成血缘关系，包括：

本实施例提供了一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如上所述的方法。

本实施例提供了一种存储有计算机程序的计算机可读存储介质，该程序被处理器执行时实现如上所述的方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能。

Claims

1.基于neo4j大数据血缘关系管理方法，其特征是，包括：

将异构数据源的信息引入血缘关系系统，形成血缘关系。

2.根据权利要求1所述的基于neo4j大数据血缘关系管理方法，其特征是，采用Antlr语法分析工具，进行语法、词法和语义分析，生成相应的抽象语法树。

3.根据权利要求1所述的基于neo4j大数据血缘关系管理方法，其特征是，还包括：

针对neo4j建立索引，优化查询语句。

4.根据权利要求1所述的基于neo4j大数据血缘关系管理方法，其特征是，所述相应的节点数据包括源数据表、目标数据表、源数据表字段和目标数据表字段。

5.根据权利要求1所述的基于neo4j大数据血缘关系管理方法，其特征是，所述的必要信息包括Hive SQL语句及运行Hive SQL的时间。

6.根据权利要求1所述的基于neo4j大数据血缘关系管理方法，其特征是，所述将异构数据源的信息引入血缘关系系统，形成血缘关系，包括：

7.基于neo4j大数据血缘关系管理系统，其特征是，包括：

8.根据权利要求7所述的基于neo4j大数据血缘关系管理系统，其特征是，采用Antlr语法分析工具，进行语法、词法和语义分析，生成相应的抽象语法树。

9.根据权利要求7所述的基于neo4j大数据血缘关系管理系统，其特征是，还包括：

索引单元，配置用于针对neo4j建立索引，优化查询语句。

10.根据权利要求7所述的基于neo4j大数据血缘关系管理系统，其特征是，所述节点数据包括源数据表、目标数据表、源数据表字段和目标数据表字段。

11.根据权利要求7所述的基于neo4j大数据血缘关系管理系统，其特征是，所述的必要信息包括Hive SQL语句及运行Hive SQL的时间。

12.根据权利要求7所述的基于neo4j大数据血缘关系管理系统，其特征是，将异构数据源的信息引入血缘关系系统，形成血缘关系，包括：

13.一种设备，其特征是，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1-6中任一项所述的方法。

14.一种存储有计算机程序的计算机可读存储介质，其特征是，该程序被处理器执行时实现如权利要求1-6中任一项所述的方法。