CN113590651B - 一种基于hql的跨集群数据处理系统及方法 - Google Patents

一种基于hql的跨集群数据处理系统及方法 Download PDF

Info

Publication number
CN113590651B
CN113590651B CN202110950767.0A CN202110950767A CN113590651B CN 113590651 B CN113590651 B CN 113590651B CN 202110950767 A CN202110950767 A CN 202110950767A CN 113590651 B CN113590651 B CN 113590651B
Authority
CN
China
Prior art keywords
cluster
hql
statement
tables
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110950767.0A
Other languages
English (en)
Other versions
CN113590651A (zh
Inventor
王守明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan XW Bank Co Ltd
Original Assignee
Sichuan XW Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan XW Bank Co Ltd filed Critical Sichuan XW Bank Co Ltd
Priority to CN202110950767.0A priority Critical patent/CN113590651B/zh
Publication of CN113590651A publication Critical patent/CN113590651A/zh
Application granted granted Critical
Publication of CN113590651B publication Critical patent/CN113590651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于HQL的跨集群数据处理系统及方法,该系统包括客户端、计算引擎管理模块、集群管理模块、跨集群表管理模块;客户端,用于将待查询的HQL语句发送到计算引擎管理模块,同时接收查询的结果数据;计算引擎管理模块,用于使用Hive引擎解析客户端发送过来的HQL语句,分析出HQL中的所用到的表以及表所属的集群,实现本集群或跨集群计算;集群管理模块,用于实时地获取所有集群的计算资源和存储资源,并计算出当前最空闲的集群,供计算引擎管理模块获取得到最空闲的集群来执行HQL语句;跨集群表管理模块,用于管理和维护跨集群同步过来的表。本发明解决跨集群HQL的数据计算,提升运算速度和集群的资源利用率。

Description

一种基于HQL的跨集群数据处理系统及方法
技术领域
本发明涉及大数据处理技术领域,具体涉及一种基于HQL的跨集群数据处理系统及方法。
背景技术
Hive是基于Hadoop(由Apache基金会所开发的分布式系统基础架构)开发的一个数据仓库工具,可以简单地将一个结构化的数据映射成为数据库中的一张表,同时还定义了简单的SQL(结构化查询语言)查询语言,称之为HQL,Hive执行引擎将简单的HQL语句转化为MapReduce(一种分布式计算系统)任务用于分布式大数据的分析和挖掘,Map-Reduce系统中包含有Map(映射)单元和Reduce(归约)单元,Map单元用于进行数据映射,实现分拣和分堆,Reduce单元进行数据合并。HQL的出现极大地降低了数仓分析人员的学习成本,对数据分析发挥着重要的作用。
然而随着业务的发展,往往数据分布在不同的集群上,由于HQL只能在单集群下的数据分析,在这种跨集群的场景下,HQL将不能发挥优势,现有的技术方案就是由集群运维人员将数据同步到同一集群,并将数据映射成一张Hive表,这样不仅费事费力,不利于数仓分析人员对数据的快速分析,同时也增加了对数据的维护成本。
发明内容
本发明目的在于提供一种基于HQL的跨集群数据处理系统及方法,解决跨集群HQL的数据计算、处理;本发明通过该系统,数仓分析人员将较好地利用HQL便利性来实现多个集群的数据分析,同时也减少了运维人员对数据的维护成本。
本发明通过下述技术方案实现:
第一方面,本发明提供了一种基于HQL的跨集群数据处理系统,该系统包括客户端、计算引擎管理模块、集群管理模块、跨集群表管理模块;
所述客户端,用于将待查询的HQL语句发送到计算引擎管理模块,同时接收所述计算引擎管理模块查询的结果数据;
所述计算引擎管理模块,用于使用Hive引擎解析客户端发送过来的HQL语句,分析出HQL中的所用到的表、以及表所属的集群(可能是本集群,也可能是非本集群),实现本集群或跨集群计算;同时该模块支持跨集群HQL的语法检查;
所述集群管理模块,用于实时地获取所有集群的计算资源和存储资源,并计算出当前最空闲的集群,供所述计算引擎管理模块获取得到最空闲的集群来执行HQL语句;
所述跨集群表管理模块,用于管理和维护这些跨集群同步过来的表,即管理由非本集群同步到本集群的表;该模块默认是开启自动清除同步过来的表,如果关闭,将通过该模块实现手动删除。
进一步地,考虑到本系统的设计目标为满足多集群的HQL计算,需要对集群的一些配置属性信息需要维护管理,即所述集群管理模块还用于对集群的配置属性信息进行维护管理。所述集群的配置属性信息包括集群名称(HQL语句中的表名称会使用该属性)、集群yarn地址信息、集群HiveThriftServcer地址信息和集群hdfs的地址信息;获取这些信息主要目的是选择一个最空闲的集群,将最终由计算引擎管理模块解析后的HQL语句,提交到该集群,以提升集群的利用率和任务的运算效率。其中:
(1)集群名称:HQL中的表名称会使用,表名称的约定的规则为:[集群名称.数据库名称.表名称];
(2)集群yarn地址信息:周期性的通过yarn地址获取该集群的资源(CPU核数、内存)信息;
(3)集群hdfs的地址信息:周期性的获取集群中HDFS的存储容量信息;
(4)集群HiveThriftServcer地址信息:是最终通过解析生产的HQL,将其提交给HiveThriftServcer。至于选择哪一个HiveThrfitServe,将依据(2)、(3)中获取的资源信息,选择剩余资源多的集群。
进一步地,所述计算引擎管理模块的执行过程具体包括:
使用Hive引擎解析客户端发送过来的HQL语句,解析该HQL语句的类型,HQL语句的类型包括DML类型、DDL类型;其中,DML(Data Manipulation Language)数据操纵语言,对数据库中的数据进行一些简单操作,如insert、delete、update、select等;DDL(DataDefinition Language)数据定义语言,对数据库中的某些对象(例如database、table)进行管理,如create、alter和drop。
如果解析出的HQL语句为DDL类型,那么继续解析该HQL语句所操作的对应集群,同时把HQL语句发送到对应的本集群去执行;
如果解析出的HQL语句为DML类型,那么继续解析该HQL语句为select语句还是非select语句;
若解析出来为select语句,则继续解析该HQL所涉及的表以及表所对应的集群,同时调用所述集群管理模块,查询出当前资源比较空闲的集群,同时把HQL语句发送到该集群执行;此处当前资源比较空闲的集群可以是本集群,也可以是非本集群(即跨集群);
若解析出来为非select语句,则继续解析要插入或者删除或更新表所在的集群,同时解析该HQL语句所涉及到的其他表以及表所属的集群;如果该HQL语句所涉及到的其他表以及表所属的集群,与要插入或者删除或更新表所在的集群均在本集群,那么在本集群执行,并把执行结果数据返回给客户端;如果该HQL语句所涉及到的其他表以及表所属的集群,与要插入或者删除或更新表所在的集群不在同一集群,那么采用跨集群同步方法进行处理,并把执行结果数据返回给客户端。
具体地,如果该HQL语句所涉及到的其他表以及表所属的集群,与要插入或者删除或更新表所在的集群不在同一集群,那么采用跨集群同步方法进行处理,并把执行结果数据返回给客户端;具体包括:
要插入或者删除或更新表所在的集群记作clusterA,该HQL语句所涉及到的其他表以及表所属的集群记作clusterB、其他表记作clusterB.D.t;
获取表clusterB.D.t的建表语句和所在的HDFS路径,记作路径为path001,同时在集群clusterA中创建与表clusterB.D.t对应的hiv表clusterA.D.t,为防止表名重复,在clusterA.D.t后可加上时间戳后缀;在集群clusterA中使用discp命令从集群clusterB中复制path001到tmp/path001目录,使用load命令将集群cluserA中/tmp/path001的数据加载到新建的hive表clusterA.D.t中;并在集群clusterA中执行该非select语句,并将执行的结果发送到客户端,同时删除集群clusterA中的hiv表clusterA.D.t。
进一步地,所述计算引擎管理模块在执行使用Hive引擎解析客户端发送过来的HQL语句,解析出该HQL语句的类型之前还执行如下:
使用Antlr4技术框架分析客户端发送过来的HQL语句的语法是否正确,若HQL语句的语法正确,则执行解析该HQL语句的类型;若HQL语句的语法错误,则将错误信息返回给客户端。
第二方面,本发明还提供了一种基于HQL的跨集群数据处理方法,该方法应用于所述的一种基于HQL的跨集群数据处理系统,该方法包括:
S1:使用Hive引擎解析客户端发送过来的待查询HQL语句的类型,HQL语句的类型包括DML类型、DDL类型;
S2:如果解析出的HQL语句为DDL类型,那么继续解析该HQL语句所操作的对应集群,同时把HQL语句发送到对应的本集群去执行;
S3:如果解析出的HQL语句为DML类型,那么继续解析该HQL语句为select语句还是非select语句;
S4:若解析出来为select语句,则继续解析该HQL所涉及的表以及表所对应的集群,同时调用所述集群管理模块,查询出当前资源比较空闲的集群,同时把HQL语句发送到该集群执行;所述当前资源比较空闲的集群包括本集群或者非本集群;
S5:若解析出来为非select语句,则继续解析要插入或者删除或更新表所在的集群,同时解析该HQL语句所涉及到的其他表以及表所属的集群;如果该HQL语句所涉及到的其他表以及表所属的集群,与要插入或者删除或更新表所在的集群均在本集群,那么在本集群执行,并把执行结果数据返回给客户端;如果该HQL语句所涉及到的其他表以及表所属的集群,与要插入或者删除或更新表所在的集群不在同一集群,那么采用跨集群同步方法进行处理,并把执行结果数据返回给客户端。
进一步地,步骤S5中如果该HQL语句所涉及到的其他表以及表所属的集群,与要插入或者删除或更新表所在的集群不在同一集群,那么采用跨集群同步方法进行处理,并把执行结果数据返回给客户端;具体包括:
要插入或者删除或更新表所在的集群记作clusterA,该HQL语句所涉及到的其他表以及表所属的集群记作clusterB、其他表记作clusterB.D.t;
获取表clusterB.D.t的建表语句和所在的HDFS路径,记作路径为path001,同时在集群clusterA中创建与表clusterB.D.t对应的hiv表clusterA.D.t,为防止表名重复,在clusterA.D.t后可加上时间戳后缀;在集群clusterA中使用discp命令从集群clusterB中复制path001到tmp/path001目录,使用load命令将集群cluserA中/tmp/path001的数据加载到新建的hive表clusterA.D.t中;并在集群clusterA中执行该非select语句,并将执行的结果发送到客户端,同时删除集群clusterA中的hiv表clusterA.D.t。
进一步地,步骤S1之前还包括:
S0:使用Antlr4技术框架分析客户端发送过来的HQL语句的语法是否正确,若HQL语句的语法正确,则执行解析该HQL语句的类型;若HQL语句的语法错误,则将错误信息返回给客户端。
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明一种基于HQL的跨集群数据处理系统及方法,仅通过配置简单的HQL语法规则,分析出待查询HQL语句中的所用到的表以及表所属那个集群,内部系统通过集群之间的数据同步技术,使业务分析人员无感知的情况下实现跨集群的HQL计算,解决跨集群HQL的数据计算、处理;且本发明将HQL提交到最空闲的集群中,提升运算速度和集群的资源利用率。
2、本发明系统及方法,无学习成本,简单的HQL语句就能实现跨集群计算,实用性强,更易于推广。
3、本发明通过该系统,数仓分析人员将较好地利用HQL便利性来实现多个集群的数据分析,同时也减少了运维人员对数据的维护成本。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明一种基于HQL的跨集群数据处理系统架构图。
图2为本发明实施例待查询HQL语句解析成语法树的示意图。
图3为本发明一种基于HQL的跨集群数据处理方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
如图1所示,本发明一种基于HQL的跨集群数据处理系统,该系统包括客户端、计算引擎管理模块、集群管理模块、跨集群表管理模块;
所述客户端,用于将待查询的HQL语句发送到计算引擎管理模块,同时接收所述计算引擎管理模块查询的结果数据;
所述计算引擎管理模块,用于使用Hive引擎解析客户端发送过来的HQL语句,分析出HQL中的所用到的表、以及表所属的集群(可能是本集群,也可能是非本集群),实现本集群或跨集群计算;同时该模块支持跨集群HQL的语法检查;
所述集群管理模块,用于实时地获取所有集群的计算资源(cpu核数和内存大小)和存储资源(HDFS存储空间使用率),并运用一定的规则计算出当前最空闲的集群,供所述计算引擎管理模块获取得到最空闲的集群来执行HQL语句;
所述跨集群表管理模块,用于管理和维护这些跨集群同步过来的表,即管理由非本集群同步到本集群的表;该模块默认是开启自动清除同步过来的表,如果关闭,将通过该模块实现手动删除。
具体地,考虑到本系统的设计目标为满足多集群的HQL计算,需要对集群的一些配置属性信息需要维护管理,即所述集群管理模块还用于对集群的配置属性信息进行维护管理。所述集群的配置属性信息包括集群名称(HQL语句中的表名称会使用该属性)、集群yarn地址信息、集群HiveThriftServcer地址信息和集群hdfs的地址信息;获取这些信息主要目的是选择一个最空闲的集群,将最终由计算引擎管理模块解析后的HQL语句,提交到该集群,以提升集群的利用率和任务的运算效率。其中:
(1)集群名称:HQL中的表名称会使用,表名称的约定的规则为:[集群名称.数据库名称.表名称];
(2)集群yarn地址信息:周期性的通过yarn地址获取该集群的资源(CPU核数、内存)信息;
(3)集群hdfs的地址信息:周期性的获取集群中HDFS的存储容量信息;
(4)集群HiveThriftServcer地址信息:是最终通过解析生产的HQL,将其提交给HiveThriftServcer。至于选择哪一个HiveThrfitServe,将依据(2)、(3)中获取的资源信息,选择剩余资源多的集群。
具体地,如图3所示,所述计算引擎管理模块的执行过程具体包括:
使用Antlr4技术框架分析客户端发送过来的HQL语句的语法是否正确,若HQL语句的语法正确,则执行解析该HQL语句的类型,HQL语句的类型包括DML类型、DDL类型;其中,DML(Data Manipulation Language)数据操纵语言,对数据库中的数据进行一些简单操作,如insert、delete、update、select等;DDL(Data Definition Language)数据定义语言,对数据库中的某些对象(例如database、table)进行管理,如create、alter和drop。
其中,本发明系统采用现有的Antlr4技术框架来分析HQL语句,Antlr4将HQL语句解析成一棵语法树,在这个语法树中我们可以获取两个重要的信息:(1)该HQL的类型为DML类型或者是DDL类型,(2)HQL中所涉及的表,表的命名格式本系统约定如下:[集群名称.数据库名称.表名称],本实施例的待查询的HQL语句为:Select t1.id,t1.name,t2.agefromclusterA.student.st t1 left join clusterB.teacher.tc t2 on t2.id=t1.id。
如图2所示,图2为HQL:Select t1.id,t1.name,t2.age fromclusterA.student.st t1 left join clusterB.teacher.tc t2 on t2.id=t1.id解析出的语法树。
从图2的语法树中可以看出,该语句为SELECT语句,为DML类型的,同时解析到两张表为clusterA.student.st(集群clusterA中student数据库中的st表)t1和clusterB.teacher.tc(集群clusterB中teacher数据库中的tc表)。
若HQL语句的语法错误,则将错误信息返回给客户端。
如果解析出的HQL语句为DDL类型,那么继续解析该HQL语句所操作的对应集群,同时把HQL语句发送到对应的本集群去执行;
如果解析出的HQL语句为DML类型,那么继续解析该HQL语句为select语句还是非select语句;
若解析出来为select语句,则继续解析该HQL所涉及的表以及表所对应的集群,同时调用所述集群管理模块,查询出当前资源比较空闲的集群,同时把HQL语句发送到该集群执行;此处当前资源比较空闲的集群可以是本集群,也可以是非本集群(即跨集群);
若解析出来为非select语句,则继续解析要插入或者删除或更新表所在的集群,同时解析该HQL语句所涉及到的其他表以及表所属的集群;
如果该HQL语句所涉及到的其他表以及表所属的集群,与要插入或者删除或更新表所在的集群均在本集群,那么在本集群执行,并把执行结果数据返回给客户端;
如果该HQL语句所涉及到的其他表以及表所属的集群,与要插入或者删除或更新表所在的集群不在同一集群,那么采用跨集群同步方法进行处理,并把执行结果数据返回给客户端。
其中:
要解析出要插入或者删除或更新表所在的集群,该集群暂时称之为clusterA,同时也解析出该HQL所涉及到的其他表,以及表所属的集群,假如此时的HQL解析出来其他集群的表只有一张,该表暂时称之为clusterB.teacher.tc。
获取clusterB.teacher.tc的建表语句和所在的HDFS路径,暂路径为path001,同时在clusterA中创建tc,为防止表名重复,在tc后加上时间戳后缀。
在集群clusterA中使用discp命令从集群clusterB中复制path001到tmp/path001目录,使用load命令将集群cluserA中/tmp/path001的数据加载到新建的hive表tc中;并在集群clusterA中执行该非select语句,并将执行的结果发送到客户端,同时删除集群clusterA中的hiv表tc。
discp命令为远程复制命令;load命令为装入命令。
本发明一种基于HQL的跨集群数据处理系统,仅通过配置简单的HQL语法规则,分析出待查询HQL语句中的所用到的表以及表所属那个集群,内部系统通过集群之间的数据同步技术,使业务分析人员无感知的情况下实现跨集群的HQL计算,解决跨集群HQL的数据计算、处理;且本发明将HQL提交到最空闲的集群中,提升运算速度和集群的资源利用率。
本发明通过该系统,数仓分析人员将较好地利用HQL便利性来实现多个集群的数据分析,同时也减少了运维人员对数据的维护成本。
实施例2
如图2、图3所示,本实施例与实施例1的区别在于,本实施例提供了一种基于HQL的跨集群数据处理方法,该方法应用于实施例1所述的一种基于HQL的跨集群数据处理系统,该方法包括:
S0:使用Antlr4技术框架分析客户端发送过来的HQL语句的语法是否正确,若HQL语句的语法正确,则执行解析该HQL语句的类型;若HQL语句的语法错误,则将错误信息返回给客户端;
S1:使用Hive引擎解析客户端发送过来的待查询HQL语句的类型,HQL语句的类型包括DML类型、DDL类型;
S2:如果解析出的HQL语句为DDL类型,那么继续解析该HQL语句所操作的对应集群,同时把HQL语句发送到对应的本集群去执行;
S3:如果解析出的HQL语句为DML类型,那么继续解析该HQL语句为select语句还是非select语句;
S4:若解析出来为select语句,则继续解析该HQL所涉及的表以及表所对应的集群,同时调用所述集群管理模块,查询出当前资源比较空闲的集群,同时把HQL语句发送到该集群执行;所述当前资源比较空闲的集群包括本集群或者非本集群;
S5:若解析出来为非select语句,则继续解析要插入或者删除或更新表所在的集群,同时解析该HQL语句所涉及到的其他表以及表所属的集群;如果该HQL语句所涉及到的其他表以及表所属的集群,与要插入或者删除或更新表所在的集群均在本集群,那么在本集群执行,并把执行结果数据返回给客户端;如果该HQL语句所涉及到的其他表以及表所属的集群,与要插入或者删除或更新表所在的集群不在同一集群,那么采用跨集群同步方法进行处理,并把执行结果数据返回给客户端。
为了进一步的对本实施例进行说明,步骤S5中如果该HQL语句所涉及到的其他表以及表所属的集群,与要插入或者删除或更新表所在的集群不在同一集群,那么采用跨集群同步方法进行处理,并把执行结果数据返回给客户端;具体包括:
要插入或者删除或更新表所在的集群记作clusterA,该HQL语句所涉及到的其他表以及表所属的集群记作clusterB、其他表记作clusterB.D.t;
获取表clusterB.D.t的建表语句和所在的HDFS路径,记作路径为path001,同时在集群clusterA中创建与表clusterB.D.t对应的hiv表clusterA.D.t,为防止表名重复,在clusterA.D.t后可加上时间戳后缀;在集群clusterA中使用discp命令从集群clusterB中复制path001到tmp/path001目录,使用load命令将集群cluserA中/tmp/path001的数据加载到新建的hive表clusterA.D.t中;并在集群clusterA中执行该非select语句,并将执行的结果发送到客户端,同时删除集群clusterA中的hiv表clusterA.D.t。
本发明一种基于HQL的跨集群数据处理方法,仅通过配置简单的HQL语法规则,分析出待查询HQL语句中的所用到的表以及表所属那个集群,内部系统通过集群之间的数据同步技术,使业务分析人员无感知的情况下实现跨集群的HQL计算,解决跨集群HQL的数据计算、处理;且本发明将HQL提交到最空闲的集群中,提升运算速度和集群的资源利用率。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于HQL的跨集群数据处理系统,其特征在于,该系统包括客户端、计算引擎管理模块、集群管理模块、跨集群表管理模块;
所述客户端,用于将待查询的HQL语句发送到计算引擎管理模块,同时接收所述计算引擎管理模块查询的结果数据;
所述计算引擎管理模块,用于使用Hive引擎解析客户端发送过来的HQL语句,分析出HQL中的所用到的表、以及表所属的集群,实现本集群或跨集群计算;
所述集群管理模块,用于实时地获取所有集群的计算资源和存储资源,并计算出当前最空闲的集群,供所述计算引擎管理模块获取得到最空闲的集群来执行HQL语句;
所述跨集群表管理模块,用于管理和维护跨集群同步过来的表,即管理由非本集群同步到本集群的表;
所述计算引擎管理模块的执行过程具体包括:
使用Hive引擎解析客户端发送过来的HQL语句,解析该HQL语句的类型,HQL语句的类型包括DML类型、DDL类型;
如果解析出的HQL语句为DDL类型,那么继续解析该HQL语句所操作的对应集群,同时把HQL语句发送到对应的本集群去执行;
如果解析出的HQL语句为DML类型,那么继续解析该HQL语句为select语句还是非select语句;
若解析出来为select语句,则继续解析该HQL所涉及的表以及表所对应的集群,同时调用所述集群管理模块,查询出当前资源比较空闲的集群,同时把HQL语句发送到该集群执行;所述当前资源比较空闲的集群包括本集群或者非本集群;
若解析出来为非select语句,则继续解析要插入或者删除或更新表所在的集群,同时解析该HQL语句所涉及到的其他表以及表所属的集群;如果该HQL语句所涉及到的其他表以及表所属的集群,与要插入或者删除或更新表所在的集群均在本集群,那么在本集群执行,并把执行结果数据返回给客户端;如果该HQL语句所涉及到的其他表以及表所属的集群,与要插入或者删除或更新表所在的集群不在同一集群,那么采用跨集群同步方法进行处理,并把执行结果数据返回给客户端。
2.根据权利要求1所述的一种基于HQL的跨集群数据处理系统,其特征在于,所述集群管理模块,还用于对集群的配置属性信息进行维护管理。
3.根据权利要求2所述的一种基于HQL的跨集群数据处理系统,其特征在于,所述集群的配置属性信息包括集群名称、集群yarn地址信息、集群HiveThriftServer地址信息和集群hdfs的地址信息。
4.根据权利要求1所述的一种基于HQL的跨集群数据处理系统,其特征在于,若解析出来为非select语句,则继续解析要插入或者删除或更新表所在的集群,同时解析该HQL语句所涉及到的其他表以及表所属的集群;如果该HQL语句所涉及到的其他表以及表所属的集群,与要插入或者删除或更新表所在的集群不在同一集群,那么采用跨集群同步方法进行处理,并把执行结果数据返回给客户端;具体包括:
要插入或者删除或更新表所在的集群记作clusterA,该HQL语句所涉及到的其他表以及表所属的集群记作clusterB、其他表记作clusterB.D.t;
获取表clusterB.D.t的建表语句和所在的HDFS路径,记作路径为path001,同时在集群clusterA中创建与表clusterB.D.t对应的hive表clusterA.D.t;在集群clusterA中使用discp命令从集群clusterB中复制path001到tmp/path001目录,使用load命令将集群cluserA中
/tmp/path001的数据加载到新建的hive表clusterA.D.t中;并在集群clusterA中执行该非select语句,并将执行的结果发送到客户端,同时删除集群clusterA中的hive表clusterA.D.t。
5.根据权利要求1所述的一种基于HQL的跨集群数据处理系统,其特征在于,所述计算引擎管理模块在执行使用Hive引擎解析客户端发送过来的HQL语句,解析出该HQL语句的类型之前还执行如下:
使用Antlr4技术框架分析客户端发送过来的HQL语句的语法是否正确,若HQL语句的语法正确,则执行解析该HQL语句的类型;若HQL语句的语法错误,则将错误信息返回给客户端。
6.一种基于HQL的跨集群数据处理方法,其特征在于,该方法应用于如权利要求1至5中任一所述的一种基于HQL的跨集群数据处理系统,该方法包括:
S1:使用Hive引擎解析客户端发送过来的待查询HQL语句的类型,HQL语句的类型包括DML类型、DDL类型;
S2:如果解析出的HQL语句为DDL类型,那么继续解析该HQL语句所操作的对应集群,同时把HQL语句发送到对应的本集群去执行;
S3:如果解析出的HQL语句为DML类型,那么继续解析该HQL语句为select语句还是非select语句;
S4:若解析出来为select语句,则继续解析该HQL所涉及的表以及表所对应的集群,同时调用所述集群管理模块,查询出当前资源比较空闲的集群,同时把HQL语句发送到该集群执行;所述当前资源比较空闲的集群包括本集群或者非本集群;
S5:若解析出来为非select语句,则继续解析要插入或者删除或更新表所在的集群,同时解析该HQL语句所涉及到的其他表以及表所属的集群;如果该HQL语句所涉及到的其他表以及表所属的集群,与要插入或者删除或更新表所在的集群均在本集群,那么在本集群执行,并把执行结果数据返回给客户端;如果该HQL语句所涉及到的其他表以及表所属的集群,与要插入或者删除或更新表所在的集群不在同一集群,那么采用跨集群同步方法进行处理,并把执行结果数据返回给客户端。
7.根据权利要求6所述的一种基于HQL的跨集群数据处理方法,其特征在于,步骤S5中如果该HQL语句所涉及到的其他表以及表所属的集群,与要插入或者删除或更新表所在的集群不在同一集群,那么采用跨集群同步方法进行处理,并把执行结果数据返回给客户端;具体包括:
要插入或者删除或更新表所在的集群记作clusterA,该HQL语句所涉及到的其他表以及表所属的集群记作clusterB、其他表记作clusterB.D.t;
获取表clusterB.D.t的建表语句和所在的HDFS路径,记作路径为path001,同时在集群clusterA中创建与表clusterB.D.t对应的hive表clusterA.D.t;在集群clusterA中使用discp命令从集群clusterB中复制path001到tmp/path001目录,使用load命令将集群cluserA中
/tmp/path001的数据加载到新建的hive表clusterA.D.t中;并在集群clusterA中执行该非select语句,并将执行的结果发送到客户端,同时删除集群clusterA中的hive表clusterA.D.t。
8.根据权利要求6所述的一种基于HQL的跨集群数据处理方法,其特征在于,步骤S1之前还包括:
S0:使用Antlr4技术框架分析客户端发送过来的HQL语句的语法是否正确,若HQL语句的语法正确,则执行解析该HQL语句的类型;若HQL语句的语法错误,则将错误信息返回给客户端。
CN202110950767.0A 2021-08-18 2021-08-18 一种基于hql的跨集群数据处理系统及方法 Active CN113590651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110950767.0A CN113590651B (zh) 2021-08-18 2021-08-18 一种基于hql的跨集群数据处理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110950767.0A CN113590651B (zh) 2021-08-18 2021-08-18 一种基于hql的跨集群数据处理系统及方法

Publications (2)

Publication Number Publication Date
CN113590651A CN113590651A (zh) 2021-11-02
CN113590651B true CN113590651B (zh) 2023-06-20

Family

ID=78238514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110950767.0A Active CN113590651B (zh) 2021-08-18 2021-08-18 一种基于hql的跨集群数据处理系统及方法

Country Status (1)

Country Link
CN (1) CN113590651B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146245B (zh) * 2022-09-06 2022-11-18 杭州比智科技有限公司 一种密钥权限可动态管理的Hive列级数据加密方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740316A (zh) * 2014-12-31 2016-07-06 商业对象软件有限公司 基于本地处理的样本数据的行为一致的集群范围数据整理
CN108268614A (zh) * 2017-12-29 2018-07-10 郑州轻工业学院 一种森林资源空间数据的分布式管理方法
CN109086407A (zh) * 2018-08-01 2018-12-25 华东师范大学 面向分布式内存数据库的多流水线调度方法
CN112182031A (zh) * 2020-10-12 2021-01-05 浙江大华技术股份有限公司 数据查询方法及装置、存储介质、电子装置
US10909114B1 (en) * 2018-06-19 2021-02-02 Amazon Technologies, Inc. Predicting partitions of a database table for processing a database query

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201615747D0 (en) * 2016-09-15 2016-11-02 Gb Gas Holdings Ltd System for data management in a large scale data repository

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740316A (zh) * 2014-12-31 2016-07-06 商业对象软件有限公司 基于本地处理的样本数据的行为一致的集群范围数据整理
CN108268614A (zh) * 2017-12-29 2018-07-10 郑州轻工业学院 一种森林资源空间数据的分布式管理方法
US10909114B1 (en) * 2018-06-19 2021-02-02 Amazon Technologies, Inc. Predicting partitions of a database table for processing a database query
CN109086407A (zh) * 2018-08-01 2018-12-25 华东师范大学 面向分布式内存数据库的多流水线调度方法
CN112182031A (zh) * 2020-10-12 2021-01-05 浙江大华技术股份有限公司 数据查询方法及装置、存储介质、电子装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于Hive的性能优化研究;王康;陈海光;李东静;;上海师范大学学报(自然科学版)(第04期);80-87 *
数据库集群自动化运维管理系统的设计与实现;肖文;《中国优秀硕士学位论文全文数据库 信息科技辑》(第09期);I138-569 *

Also Published As

Publication number Publication date
CN113590651A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
US11068439B2 (en) Unsupervised method for enriching RDF data sources from denormalized data
CN110941612B (zh) 基于关联数据的自治数据湖构建系统及方法
US9081837B2 (en) Scoped database connections
CN110674154B (zh) 一种基于Spark的对Hive中数据进行插入、更新和删除的方法
CN108628986A (zh) 数据查询方法、装置、计算机设备和存储介质
CN105824957A (zh) 分布式内存列式数据库的查询引擎系统及查询方法
US9971820B2 (en) Distributed system with accelerator-created containers
CN107330098B (zh) 一种自定义报表的查询方法、计算节点及查询系统
CN111858760B (zh) 一种异构数据库的数据处理方法及装置
CN114461603A (zh) 多源异构数据融合方法及装置
CN105608228B (zh) 一种高效的分布式的rdf数据存储方法
CN109902126B (zh) 支持hive自动分区的加载系统及其实现方法
US20210165773A1 (en) On-demand, dynamic and optimized indexing in natural language processing
CN109871470B (zh) 一种电网设备数据标签化管理系统及实现方法
CN111221785A (zh) 一种多源异构数据的语义数据湖构建方法
CN107818181A (zh) 基于Plcient交互式引擎的索引方法及其系统
CN111680017A (zh) 一种数据同步的方法及装置
CN113177090A (zh) 数据处理方法及装置
Bidoit et al. Processing XML queries and updates on map/reduce clusters
CN115495440A (zh) 异构数据库的数据迁移方法、装置、设备及存储介质
KR101955376B1 (ko) 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치
CN113590651B (zh) 一种基于hql的跨集群数据处理系统及方法
CN115857918A (zh) 数据处理方法、装置、电子设备及存储介质
CN110109870A (zh) 一种基于Solr的海量数据快速检索系统
CN111125248A (zh) 一种大数据存储解析查询系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant