CN113590651B

CN113590651B - 一种基于hql的跨集群数据处理系统及方法

Info

Publication number: CN113590651B
Application number: CN202110950767.0A
Authority: CN
Inventors: 王守明
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2023-06-20
Anticipated expiration: 2041-08-18
Also published as: CN113590651A

Abstract

本发明公开了一种基于HQL的跨集群数据处理系统及方法，该系统包括客户端、计算引擎管理模块、集群管理模块、跨集群表管理模块；客户端，用于将待查询的HQL语句发送到计算引擎管理模块，同时接收查询的结果数据；计算引擎管理模块，用于使用Hive引擎解析客户端发送过来的HQL语句，分析出HQL中的所用到的表以及表所属的集群，实现本集群或跨集群计算；集群管理模块，用于实时地获取所有集群的计算资源和存储资源，并计算出当前最空闲的集群，供计算引擎管理模块获取得到最空闲的集群来执行HQL语句；跨集群表管理模块，用于管理和维护跨集群同步过来的表。本发明解决跨集群HQL的数据计算，提升运算速度和集群的资源利用率。

Description

一种基于HQL的跨集群数据处理系统及方法

技术领域

本发明涉及大数据处理技术领域，具体涉及一种基于HQL的跨集群数据处理系统及方法。

背景技术

Hive是基于Hadoop(由Apache基金会所开发的分布式系统基础架构)开发的一个数据仓库工具，可以简单地将一个结构化的数据映射成为数据库中的一张表，同时还定义了简单的SQL(结构化查询语言)查询语言，称之为HQL，Hive执行引擎将简单的HQL语句转化为MapReduce(一种分布式计算系统)任务用于分布式大数据的分析和挖掘，Map-Reduce系统中包含有Map(映射)单元和Reduce(归约)单元，Map单元用于进行数据映射，实现分拣和分堆，Reduce单元进行数据合并。HQL的出现极大地降低了数仓分析人员的学习成本，对数据分析发挥着重要的作用。

然而随着业务的发展，往往数据分布在不同的集群上，由于HQL只能在单集群下的数据分析，在这种跨集群的场景下，HQL将不能发挥优势，现有的技术方案就是由集群运维人员将数据同步到同一集群，并将数据映射成一张Hive表，这样不仅费事费力，不利于数仓分析人员对数据的快速分析，同时也增加了对数据的维护成本。

发明内容

本发明目的在于提供一种基于HQL的跨集群数据处理系统及方法，解决跨集群HQL的数据计算、处理；本发明通过该系统，数仓分析人员将较好地利用HQL便利性来实现多个集群的数据分析，同时也减少了运维人员对数据的维护成本。

本发明通过下述技术方案实现：

第一方面，本发明提供了一种基于HQL的跨集群数据处理系统，该系统包括客户端、计算引擎管理模块、集群管理模块、跨集群表管理模块；

所述客户端，用于将待查询的HQL语句发送到计算引擎管理模块，同时接收所述计算引擎管理模块查询的结果数据；

所述计算引擎管理模块，用于使用Hive引擎解析客户端发送过来的HQL语句，分析出HQL中的所用到的表、以及表所属的集群(可能是本集群，也可能是非本集群)，实现本集群或跨集群计算；同时该模块支持跨集群HQL的语法检查；

所述集群管理模块，用于实时地获取所有集群的计算资源和存储资源，并计算出当前最空闲的集群，供所述计算引擎管理模块获取得到最空闲的集群来执行HQL语句；

所述跨集群表管理模块，用于管理和维护这些跨集群同步过来的表，即管理由非本集群同步到本集群的表；该模块默认是开启自动清除同步过来的表，如果关闭，将通过该模块实现手动删除。

进一步地，考虑到本系统的设计目标为满足多集群的HQL计算，需要对集群的一些配置属性信息需要维护管理，即所述集群管理模块还用于对集群的配置属性信息进行维护管理。所述集群的配置属性信息包括集群名称(HQL语句中的表名称会使用该属性)、集群yarn地址信息、集群HiveThriftServcer地址信息和集群hdfs的地址信息；获取这些信息主要目的是选择一个最空闲的集群，将最终由计算引擎管理模块解析后的HQL语句，提交到该集群，以提升集群的利用率和任务的运算效率。其中：

(1)集群名称：HQL中的表名称会使用，表名称的约定的规则为：[集群名称.数据库名称.表名称]；

(2)集群yarn地址信息：周期性的通过yarn地址获取该集群的资源(CPU核数、内存)信息；

(3)集群hdfs的地址信息：周期性的获取集群中HDFS的存储容量信息；

(4)集群HiveThriftServcer地址信息：是最终通过解析生产的HQL，将其提交给HiveThriftServcer。至于选择哪一个HiveThrfitServe，将依据(2)、(3)中获取的资源信息，选择剩余资源多的集群。

进一步地，所述计算引擎管理模块的执行过程具体包括：

使用Hive引擎解析客户端发送过来的HQL语句，解析该HQL语句的类型，HQL语句的类型包括DML类型、DDL类型；其中，DML(Data Manipulation Language)数据操纵语言，对数据库中的数据进行一些简单操作，如insert、delete、update、select等；DDL(DataDefinition Language)数据定义语言，对数据库中的某些对象(例如database、table)进行管理，如create、alter和drop。

如果解析出的HQL语句为DDL类型，那么继续解析该HQL语句所操作的对应集群，同时把HQL语句发送到对应的本集群去执行；

如果解析出的HQL语句为DML类型，那么继续解析该HQL语句为select语句还是非select语句；

若解析出来为select语句，则继续解析该HQL所涉及的表以及表所对应的集群，同时调用所述集群管理模块，查询出当前资源比较空闲的集群，同时把HQL语句发送到该集群执行；此处当前资源比较空闲的集群可以是本集群，也可以是非本集群(即跨集群)；

若解析出来为非select语句，则继续解析要插入或者删除或更新表所在的集群，同时解析该HQL语句所涉及到的其他表以及表所属的集群；如果该HQL语句所涉及到的其他表以及表所属的集群，与要插入或者删除或更新表所在的集群均在本集群，那么在本集群执行，并把执行结果数据返回给客户端；如果该HQL语句所涉及到的其他表以及表所属的集群，与要插入或者删除或更新表所在的集群不在同一集群，那么采用跨集群同步方法进行处理，并把执行结果数据返回给客户端。

具体地，如果该HQL语句所涉及到的其他表以及表所属的集群，与要插入或者删除或更新表所在的集群不在同一集群，那么采用跨集群同步方法进行处理，并把执行结果数据返回给客户端；具体包括：

要插入或者删除或更新表所在的集群记作clusterA，该HQL语句所涉及到的其他表以及表所属的集群记作clusterB、其他表记作clusterB.D.t；

获取表clusterB.D.t的建表语句和所在的HDFS路径，记作路径为path001，同时在集群clusterA中创建与表clusterB.D.t对应的hiv表clusterA.D.t，为防止表名重复，在clusterA.D.t后可加上时间戳后缀；在集群clusterA中使用discp命令从集群clusterB中复制path001到tmp/path001目录，使用load命令将集群cluserA中/tmp/path001的数据加载到新建的hive表clusterA.D.t中；并在集群clusterA中执行该非select语句，并将执行的结果发送到客户端，同时删除集群clusterA中的hiv表clusterA.D.t。

进一步地，所述计算引擎管理模块在执行使用Hive引擎解析客户端发送过来的HQL语句，解析出该HQL语句的类型之前还执行如下：

使用Antlr4技术框架分析客户端发送过来的HQL语句的语法是否正确，若HQL语句的语法正确，则执行解析该HQL语句的类型；若HQL语句的语法错误，则将错误信息返回给客户端。

第二方面，本发明还提供了一种基于HQL的跨集群数据处理方法，该方法应用于所述的一种基于HQL的跨集群数据处理系统，该方法包括：

S1：使用Hive引擎解析客户端发送过来的待查询HQL语句的类型，HQL语句的类型包括DML类型、DDL类型；

S2：如果解析出的HQL语句为DDL类型，那么继续解析该HQL语句所操作的对应集群，同时把HQL语句发送到对应的本集群去执行；

S3：如果解析出的HQL语句为DML类型，那么继续解析该HQL语句为select语句还是非select语句；

S4：若解析出来为select语句，则继续解析该HQL所涉及的表以及表所对应的集群，同时调用所述集群管理模块，查询出当前资源比较空闲的集群，同时把HQL语句发送到该集群执行；所述当前资源比较空闲的集群包括本集群或者非本集群；

S5：若解析出来为非select语句，则继续解析要插入或者删除或更新表所在的集群，同时解析该HQL语句所涉及到的其他表以及表所属的集群；如果该HQL语句所涉及到的其他表以及表所属的集群，与要插入或者删除或更新表所在的集群均在本集群，那么在本集群执行，并把执行结果数据返回给客户端；如果该HQL语句所涉及到的其他表以及表所属的集群，与要插入或者删除或更新表所在的集群不在同一集群，那么采用跨集群同步方法进行处理，并把执行结果数据返回给客户端。

进一步地，步骤S5中如果该HQL语句所涉及到的其他表以及表所属的集群，与要插入或者删除或更新表所在的集群不在同一集群，那么采用跨集群同步方法进行处理，并把执行结果数据返回给客户端；具体包括：

进一步地，步骤S1之前还包括：

S0：使用Antlr4技术框架分析客户端发送过来的HQL语句的语法是否正确，若HQL语句的语法正确，则执行解析该HQL语句的类型；若HQL语句的语法错误，则将错误信息返回给客户端。

本发明与现有技术相比，具有如下的优点和有益效果：

1、本发明一种基于HQL的跨集群数据处理系统及方法，仅通过配置简单的HQL语法规则，分析出待查询HQL语句中的所用到的表以及表所属那个集群，内部系统通过集群之间的数据同步技术，使业务分析人员无感知的情况下实现跨集群的HQL计算，解决跨集群HQL的数据计算、处理；且本发明将HQL提交到最空闲的集群中，提升运算速度和集群的资源利用率。

2、本发明系统及方法，无学习成本，简单的HQL语句就能实现跨集群计算，实用性强，更易于推广。

3、本发明通过该系统，数仓分析人员将较好地利用HQL便利性来实现多个集群的数据分析，同时也减少了运维人员对数据的维护成本。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明一种基于HQL的跨集群数据处理系统架构图。

图2为本发明实施例待查询HQL语句解析成语法树的示意图。

图3为本发明一种基于HQL的跨集群数据处理方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

如图1所示，本发明一种基于HQL的跨集群数据处理系统，该系统包括客户端、计算引擎管理模块、集群管理模块、跨集群表管理模块；

所述集群管理模块，用于实时地获取所有集群的计算资源(cpu核数和内存大小)和存储资源(HDFS存储空间使用率)，并运用一定的规则计算出当前最空闲的集群，供所述计算引擎管理模块获取得到最空闲的集群来执行HQL语句；

具体地，考虑到本系统的设计目标为满足多集群的HQL计算，需要对集群的一些配置属性信息需要维护管理，即所述集群管理模块还用于对集群的配置属性信息进行维护管理。所述集群的配置属性信息包括集群名称(HQL语句中的表名称会使用该属性)、集群yarn地址信息、集群HiveThriftServcer地址信息和集群hdfs的地址信息；获取这些信息主要目的是选择一个最空闲的集群，将最终由计算引擎管理模块解析后的HQL语句，提交到该集群，以提升集群的利用率和任务的运算效率。其中：

具体地，如图3所示，所述计算引擎管理模块的执行过程具体包括：

使用Antlr4技术框架分析客户端发送过来的HQL语句的语法是否正确，若HQL语句的语法正确，则执行解析该HQL语句的类型，HQL语句的类型包括DML类型、DDL类型；其中，DML(Data Manipulation Language)数据操纵语言，对数据库中的数据进行一些简单操作，如insert、delete、update、select等；DDL(Data Definition Language)数据定义语言，对数据库中的某些对象(例如database、table)进行管理，如create、alter和drop。

其中，本发明系统采用现有的Antlr4技术框架来分析HQL语句，Antlr4将HQL语句解析成一棵语法树，在这个语法树中我们可以获取两个重要的信息：(1)该HQL的类型为DML类型或者是DDL类型，(2)HQL中所涉及的表，表的命名格式本系统约定如下：[集群名称.数据库名称.表名称]，本实施例的待查询的HQL语句为：Select t1.id,t1.name,t2.agefromclusterA.student.st t1 left join clusterB.teacher.tc t2 on t2.id＝t1.id。

如图2所示，图2为HQL:Select t1.id,t1.name,t2.age fromclusterA.student.st t1 left join clusterB.teacher.tc t2 on t2.id＝t1.id解析出的语法树。

从图2的语法树中可以看出，该语句为SELECT语句，为DML类型的，同时解析到两张表为clusterA.student.st(集群clusterA中student数据库中的st表)t1和clusterB.teacher.tc(集群clusterB中teacher数据库中的tc表)。

若HQL语句的语法错误，则将错误信息返回给客户端。

若解析出来为非select语句，则继续解析要插入或者删除或更新表所在的集群，同时解析该HQL语句所涉及到的其他表以及表所属的集群；

如果该HQL语句所涉及到的其他表以及表所属的集群，与要插入或者删除或更新表所在的集群均在本集群，那么在本集群执行，并把执行结果数据返回给客户端；

如果该HQL语句所涉及到的其他表以及表所属的集群，与要插入或者删除或更新表所在的集群不在同一集群，那么采用跨集群同步方法进行处理，并把执行结果数据返回给客户端。

其中：

要解析出要插入或者删除或更新表所在的集群，该集群暂时称之为clusterA，同时也解析出该HQL所涉及到的其他表，以及表所属的集群，假如此时的HQL解析出来其他集群的表只有一张，该表暂时称之为clusterB.teacher.tc。

获取clusterB.teacher.tc的建表语句和所在的HDFS路径，暂路径为path001，同时在clusterA中创建tc，为防止表名重复，在tc后加上时间戳后缀。

在集群clusterA中使用discp命令从集群clusterB中复制path001到tmp/path001目录，使用load命令将集群cluserA中/tmp/path001的数据加载到新建的hive表tc中；并在集群clusterA中执行该非select语句，并将执行的结果发送到客户端，同时删除集群clusterA中的hiv表tc。

discp命令为远程复制命令；load命令为装入命令。

本发明一种基于HQL的跨集群数据处理系统，仅通过配置简单的HQL语法规则，分析出待查询HQL语句中的所用到的表以及表所属那个集群，内部系统通过集群之间的数据同步技术，使业务分析人员无感知的情况下实现跨集群的HQL计算，解决跨集群HQL的数据计算、处理；且本发明将HQL提交到最空闲的集群中，提升运算速度和集群的资源利用率。

本发明通过该系统，数仓分析人员将较好地利用HQL便利性来实现多个集群的数据分析，同时也减少了运维人员对数据的维护成本。

实施例2

如图2、图3所示，本实施例与实施例1的区别在于，本实施例提供了一种基于HQL的跨集群数据处理方法，该方法应用于实施例1所述的一种基于HQL的跨集群数据处理系统，该方法包括：

S0：使用Antlr4技术框架分析客户端发送过来的HQL语句的语法是否正确，若HQL语句的语法正确，则执行解析该HQL语句的类型；若HQL语句的语法错误，则将错误信息返回给客户端；

为了进一步的对本实施例进行说明，步骤S5中如果该HQL语句所涉及到的其他表以及表所属的集群，与要插入或者删除或更新表所在的集群不在同一集群，那么采用跨集群同步方法进行处理，并把执行结果数据返回给客户端；具体包括：

本发明一种基于HQL的跨集群数据处理方法，仅通过配置简单的HQL语法规则，分析出待查询HQL语句中的所用到的表以及表所属那个集群，内部系统通过集群之间的数据同步技术，使业务分析人员无感知的情况下实现跨集群的HQL计算，解决跨集群HQL的数据计算、处理；且本发明将HQL提交到最空闲的集群中，提升运算速度和集群的资源利用率。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于HQL的跨集群数据处理系统，其特征在于，该系统包括客户端、计算引擎管理模块、集群管理模块、跨集群表管理模块；

所述计算引擎管理模块，用于使用Hive引擎解析客户端发送过来的HQL语句，分析出HQL中的所用到的表、以及表所属的集群，实现本集群或跨集群计算；

所述跨集群表管理模块，用于管理和维护跨集群同步过来的表，即管理由非本集群同步到本集群的表；

所述计算引擎管理模块的执行过程具体包括：

使用Hive引擎解析客户端发送过来的HQL语句，解析该HQL语句的类型，HQL语句的类型包括DML类型、DDL类型；

若解析出来为select语句，则继续解析该HQL所涉及的表以及表所对应的集群，同时调用所述集群管理模块，查询出当前资源比较空闲的集群，同时把HQL语句发送到该集群执行；所述当前资源比较空闲的集群包括本集群或者非本集群；

2.根据权利要求1所述的一种基于HQL的跨集群数据处理系统，其特征在于，所述集群管理模块，还用于对集群的配置属性信息进行维护管理。

3.根据权利要求2所述的一种基于HQL的跨集群数据处理系统，其特征在于，所述集群的配置属性信息包括集群名称、集群yarn地址信息、集群HiveThriftServer地址信息和集群hdfs的地址信息。

4.根据权利要求1所述的一种基于HQL的跨集群数据处理系统，其特征在于，若解析出来为非select语句，则继续解析要插入或者删除或更新表所在的集群，同时解析该HQL语句所涉及到的其他表以及表所属的集群；如果该HQL语句所涉及到的其他表以及表所属的集群，与要插入或者删除或更新表所在的集群不在同一集群，那么采用跨集群同步方法进行处理，并把执行结果数据返回给客户端；具体包括：

获取表clusterB.D.t的建表语句和所在的HDFS路径，记作路径为path001，同时在集群clusterA中创建与表clusterB.D.t对应的hive表clusterA.D.t；在集群clusterA中使用discp命令从集群clusterB中复制path001到tmp/path001目录，使用load命令将集群cluserA中

/tmp/path001的数据加载到新建的hive表clusterA.D.t中；并在集群clusterA中执行该非select语句，并将执行的结果发送到客户端，同时删除集群clusterA中的hive表clusterA.D.t。

5.根据权利要求1所述的一种基于HQL的跨集群数据处理系统，其特征在于，所述计算引擎管理模块在执行使用Hive引擎解析客户端发送过来的HQL语句，解析出该HQL语句的类型之前还执行如下：

6.一种基于HQL的跨集群数据处理方法，其特征在于，该方法应用于如权利要求1至5中任一所述的一种基于HQL的跨集群数据处理系统，该方法包括：

7.根据权利要求6所述的一种基于HQL的跨集群数据处理方法，其特征在于，步骤S5中如果该HQL语句所涉及到的其他表以及表所属的集群，与要插入或者删除或更新表所在的集群不在同一集群，那么采用跨集群同步方法进行处理，并把执行结果数据返回给客户端；具体包括：

8.根据权利要求6所述的一种基于HQL的跨集群数据处理方法，其特征在于，步骤S1之前还包括：