CN113672641A - 数据库集群数据处理方法、装置、系统、介质和电子设备 - Google Patents

数据库集群数据处理方法、装置、系统、介质和电子设备 Download PDF

Info

Publication number
CN113672641A
CN113672641A CN202110948922.5A CN202110948922A CN113672641A CN 113672641 A CN113672641 A CN 113672641A CN 202110948922 A CN202110948922 A CN 202110948922A CN 113672641 A CN113672641 A CN 113672641A
Authority
CN
China
Prior art keywords
data
data query
storage node
node
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110948922.5A
Other languages
English (en)
Inventor
杨杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN202110948922.5A priority Critical patent/CN113672641A/zh
Publication of CN113672641A publication Critical patent/CN113672641A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24532Query optimisation of parallel queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24542Plan optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Operations Research (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种数据库集群数据处理方法、装置、系统、介质和电子设备,所述数据库集群包括至少一个计算节点和多个存储节点,该方法应用于所述计算节点,包括:基于数据查询请求,生成执行计划,所述数据查询请求来自客户端,所述执行计划用于指示存储节点进行数据查询操作;将所述执行计划发送至所述存储节点;接收所述存储节点执行数据查询操作得到的操作结果,以得到数据查询结果;将所述数据查询结果发送至所述客户端。本公开实施方案中将计算压力部分均衡给存储节点,实现一定程度的分布式计算,缓解计算节点的压力,提升了数据处理速度。

Description

数据库集群数据处理方法、装置、系统、介质和电子设备
技术领域
本公开实施例涉及数据库技术领域,尤其涉及一种数据库集群数据处理方法,数据库集群数据处理方法装置,数据库系统,以及实现数据库集群数据处理方法的计算机可读存储介质和电子设备。
背景技术
开源分布式关系型数据库支持无限的水平扩展,具备强一致性和高可用性,其适合高可用、强一致要求较高、数据规模较大等应用场景。
随着数据规模的迅速增长,为了提供长期稳定的服务,相关技术中提出了开源分布式关系型数据库集群的方案。该集群通常包含计算节点、存储节点、管理节点这3个基础组件组成数据库服务。其中管理节点是整个集群的管理模块,主要工作是:存储集群的元信息与调度和负载均衡等。存储节点负责存储数据。计算节点本身并不存储数据,只负责计算,例如接收SQL请求,处理SQL相关的逻辑,并可通过管理节点找到计算所需的数据所在的存储节点的地址,进而从相应存储节点拉取所需的数据进行计算。
但是,目前的数据库集群存在一些问题,例如计算压力全部集中在计算节点,数据处理速度有待进一步提高。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种数据库集群数据处理方法,数据库集群数据处理装置,数据库系统,以及实现数据库集群数据处理方法的计算机可读存储介质和电子设备。
第一方面,本公开实施例提供了一种数据库集群数据处理方法,所述数据库集群包括至少一个计算节点和多个存储节点,该方法应用于所述计算节点,包括:
基于数据查询请求,生成执行计划,所述数据查询请求来自客户端,所述执行计划用于指示存储节点进行数据查询操作;
将所述执行计划发送至所述存储节点;
接收所述存储节点执行数据查询操作得到的操作结果,以得到数据查询结果;
将所述数据查询结果发送至所述客户端。
可选的,在本公开的一些实施例中,所述接收所述存储节点执行数据查询操作得到的操作结果,以得到数据查询结果,包括:
接收所述存储节点返回的表连接操作结果;
基于每个所述存储节点返回的所述表连接操作结果,生成数据查询结果。
可选的,在本公开的一些实施例中,所述方法还包括:
从所述多个存储节点中确定出第一目标存储节点和第二目标存储节点;
所述将所述执行计划发送至所述存储节点,包括:
将所述执行计划发送至所述第一目标存储节点和第二目标存储节点,以使所述第一目标存储节点基于所述执行计划将其存储的第一目标数据表复制至所述第二目标存储节点,以及,使所述第二目标存储节点基于所述执行计划对其原始存储的第二目标数据表与所述第一目标数据表执行表连接操作;
所述接收所述存储节点执行数据查询操作得到的操作结果,以得到数据查询结果,包括:
接收所述第二目标存储节点返回的表连接操作结果;
基于所述表连接操作结果生成所述数据查询结果。
可选的,在本公开的一些实施例中,所述第一目标数据表的数据量小于预设数据量阈值。
第二方面,本公开实施例提供一种数据库集群数据处理方法,所述数据库集群包括至少一个计算节点和多个存储节点,该方法应用于存储节点,包括:
接收所述计算节点发送的执行计划,所述执行计划是所述计算节点基于数据查询请求生成的,所述数据查询请求来自客户端;
根据所述执行计划执行数据查询操作,以得到操作结果;
将所述操作结果返回所述计算节点,以使所述计算节点基于所述操作结果得到数据查询结果,将所述数据查询结果返回所述客户端。
可选的,在本公开的一些实施例中,所述根据所述执行计划执行数据查询操作,以得到操作结果,包括:
根据所述执行计划确定出目标数据表;
对所述目标数据表执行表连接操作,以得到表连接操作结果;
所述将所述操作结果返回所述计算节点,以使所述计算节点基于所述操作结果得到数据查询结果,包括:
将所述表连接操作结果返回所述计算节点,以使所述计算节点基于每个所述存储节点返回的所述表连接操作结果生成数据查询结果。
可选的,在本公开的一些实施例中,所述方法还包括:
从所述多个存储节点中确定出第一目标存储节点;
根据所述执行计划使所述第一目标存储节点将其复制得到的第一目标数据表同步至所述多个存储节点中除第一目标存储节点外的其他存储节点;
所述根据所述执行计划执行数据查询操作,以得到操作结果,包括:
针对每个存储节点,基于所述执行计划对原始存储的第二目标数据表与所述第一目标数据表执行表连接操作,得到表连接操作结果;
所述将所述操作结果返回所述计算节点,以使所述计算节点基于所述操作结果得到数据查询结果,包括:
将所述表连接操作结果返回所述计算节点,以使所述计算节点基于每个存储节点返回的所述表连接操作结果生成所述数据查询结果。
可选的,在本公开的一些实施例中,所述第一目标数据表的数据量小于预设数据量阈值。
第三方面,本公开实施例提供一种数据库集群数据处理装置,所述数据库集群包括至少一个计算节点和多个存储节点,该装置应用于所述计算节点,包括:
计划生成模块,用于基于数据查询请求,生成执行计划,所述数据查询请求来自客户端,所述执行计划用于指示存储节点进行数据查询操作;
计划发送模块,用于将所述执行计划发送至所述存储节点;
结果确定模块,用于接收所述存储节点执行数据查询操作得到的操作结果,以得到数据查询结果;
结果反馈模块,用于将所述数据查询结果发送至所述客户端。
第四方面,本公开实施例提供一种数据库集群数据处理装置,所述数据库集群包括至少一个计算节点和多个存储节点,该装置应用于存储节点,包括:
计划接收模块,用于接收所述计算节点发送的执行计划,所述执行计划是所述计算节点基于数据查询请求生成的,所述数据查询请求来自客户端;
数据处理模块,用于根据所述执行计划执行数据查询操作,以得到操作结果;
结果反馈模块,用于将所述操作结果返回所述计算节点,以使所述计算节点基于所述操作结果得到数据查询结果,将所述数据查询结果返回所述客户端。
第五方面,本公开实施例提供一种数据库系统,包括至少一个计算节点和多个存储节点:
所述计算节点,用于基于数据查询请求,生成执行计划,将所述执行计划发送至所述存储节点,所述数据查询请求来自客户端;
所述存储节点,用于基于所述执行计划进行数据查询操作,得到操作结果,将所述操作结果返回所述计算节点;
所述计算节点,还用于基于所述操作结果得到数据查询结果,将所述数据查询结果发送至所述客户端。
第六方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述数据库集群数据处理方法的步骤。
第七方面,本公开实施例提供一种电子设备,包括:
处理器;以及
存储器,用于存储计算机程序;
其中,所述处理器配置为经由执行所述计算机程序来执行上述任一实施例所述数据库集群数据处理方法的步骤。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例提供的数据库集群数据处理方法、装置、数据库系统、存储介质和电子设备,计算节点基于数据查询请求,生成执行计划,所述数据查询请求来自客户端,所述执行计划用于指示存储节点进行数据查询操作;将所述执行计划发送至存储节点,接收所述存储节点执行数据查询操作得到的操作结果,以得到数据查询结果;将所述数据查询结果发送至所述客户端。这样,本实施例的方案中,存储节点进行数据查询操作处理,然后计算节点基于存储节点返回的操作结果,确定最终的数据查询结果,如此可将计算压力至少部分均衡给存储节点,利用存储节点的计算能力实现了分布式计算,从而缓解计算节点的压力,进而提升了数据库集群的数据处理速度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例数据库集群数据处理方法流程图;
图2为本公开实施例数据库集群数据处理过程示意图;
图3为本公开另一实施例数据库集群数据处理方法流程图;
图4为本公开实施例数据库集群数据处理装置示意图;
图5为本公开另一实施例数据库集群数据处理装置示意图;
图6为本公开实施例数据库系统示意图;
图7为本公开实施例实现数据库集群数据处理方法的电子设备示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
应当理解,在下文中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
图1为本公开实施例示出的数据库集群数据处理方法流程图,该数据库集群包括至少一个计算节点和多个存储节点,该方法应用于该数据库集群中的计算节点。
该方法具体可以包括以下步骤:
步骤S101:基于数据查询请求,生成执行计划,所述数据查询请求来自客户端,所述执行计划用于指示存储节点进行数据查询操作。
示例性的,客户端可以是计算机、类似计算设备或者部署在计算机上的应用程序等。客户端可以通过输入装置接收到用户的查询指令,进而形成数据查询请求,并将数据查询请求发送给计算节点。计算节点例如可以是数据库服务器,其在接收客户端发送的数据查询请求后,基于数据查询请求生成执行计划。其中,生成执行计划,关于执行计划的具体生成过程可以参考相关技术理解,此处不再赘述。生成的执行计划用于指示存储节点进行数据查询操作。
示例性的,例如数据库集群中有100个存储节点,而本次数据查询请求所查询的数据位于其中例如2个存储节点上,则这2个存储节点即为目标存储节点。执行计划可以指示每个目标存储节点分别进行数据查询操作。
步骤S102:将所述执行计划发送至所述存储节点。
存储节点例如数据库集群中用于数据存储的服务器,其可以与计算节点通信连接。计算节点基于两者间的通信连接关系将执行计划发送至存储节点。
在一些实施例中,计算节点可以将执行计划发送至数据库集群中的所有存储节点,使所述的存储节点执行执行计划。在另一些实施例中,计算节点可以仅将执行计划发送至数据集群中的部分存储节点。
示例性的,数据库集群中有100个存储节点,从100个存储节点中确定出2个存储节点作为目标存储节点。计算节点将执行计划分别发送至这两个目标存储节点。然后每个目标存储节点基于执行计划执行数据查询操作得到操作结果。
步骤S103:接收所述存储节点执行数据查询操作得到的操作结果,以得到数据查询结果。
计算节点在接收到存储节点(或者目标存储节点)返回的操作结果后,可以对接收到的所有操作结果进行数据处理,以生成数据查询结果。示例性地,可以将所有操作结果汇总到一个数据表中,进而将会数据表作为数据查询结果。例如,每个存储节点(或者目标存储节点)返回的操作结果例如可以是任一数据表的分片,计算节点可以将这些分片汇总至一个数据表,生成数据查询结果。
在另一些实施例中,每个存储节点(或者目标存储节点)返回的操作结果例如可以是任一数据表。计算节点在接收到所有存储节点返回的数据表后,可以对接收到的所有数据库建立连接关系,从而将建立连接关系的所有数据表作为数据查询结果。
步骤S104:将所述数据查询结果发送至所述客户端。
具体的,计算节点返回最终确定的数据查询结果至所述客户端。
本公开实施例的数据库集群数据处理方法中,计算节点基于数据查询请求,生成执行计划,所述数据查询请求来自客户端,所述执行计划用于指示存储节点进行数据查询操作;将所述执行计划发送至存储节点,接收所述存储节点执行数据查询操作得到的操作结果,以得到数据查询结果;将所述数据查询结果发送至所述客户端。这样,本实施例的方案中,存储节点进行数据查询操作处理,然后计算节点基于存储节点返回的操作结果,确定最终的数据查询结果,如此可将计算压力至少部分均衡给存储节点,利用存储节点的计算能力,实现了一定程度的分布式计算,从而缓解计算节点的压力,进而提升了整体的数据处理速度。
可选的,在本公开的一些实施例中,步骤S103中接收所述存储节点执行数据查询操作得到的操作结果,以得到数据查询结果,包括:
步骤i):接收所述存储节点返回的表连接操作结果。
示例性的,待查询的数据可能位于目标存储节点上的两个或两个以上的数据表中,因此每个目标存储节点执行数据查询操作可以是执行表连接(Join)操作,即将例如两个数据表中的关联数据进行连接(Join)操作,进而得到表连接操作结果,将表连接操作结果返回计算节点,也即计算节点接收目标存储节点返回的表连接操作结果。
步骤ii):基于每个所述存储节点返回的所述表连接操作结果,生成数据查询结果。
示例性的,计算节点可基于每个目标存储节点返回的表连接操作结果,汇总生成最终的数据查询结果。
本实施例中,存储节点对查询相关的至少两个数据表进行表连接操作处理,然后计算节点基于存储节点返回的表连接操作结果,确定最终的数据查询结果,如此可将计算压力至少部分均衡给存储节点,利用存储节点的计算能力,实现了一定程度的分布式计算,从而缓解计算节点的压力,进而提升了整体的数据处理速度。可选的,在本公开的一些实施例中,结合图2中所示,所述方法还可以包括以下步骤:
步骤a):从所述多个存储节点中确定出第一目标存储节点和第二目标存储节点。
示例性的,计算节点可以基于数据查询请求从多个存储节点中确定出第一目标存储节点如目标存储节点A和第二目标存储节点如目标存储节点B,也即待查询的数据存储于目标存储节点A和目标存储节点B上。
相应的,步骤S102中,将所述执行计划发送至所述存储节点,包括:将所述执行计划发送至所述第一目标存储节点和第二目标存储节点,以使所述第一目标存储节点基于所述执行计划将其存储的第一目标数据表复制至所述第二目标存储节点,以及,使所述第二目标存储节点基于所述执行计划对其原始存储的第二目标数据表与所述第一目标数据表执行表连接操作。
示例性的,计算节点将执行计划发送至目标存储节点A和目标存储节点B,目标存储节点A基于执行计划将自身存储的第一目标数据表如表1复制到自身之外的目标存储节点B,目标存储节点B将自身存储的第二目标数据表如表2’与第一目标数据表如表1进行表连接操作,得到第一表连接操作结果;和/或,目标存储节点B将自身存储的第一目标数据表如表1’复制到自身之外的目标存储节点A,目标存储节点A将自身存储的第二目标数据表如表2与第一目标数据表如表1’进行表连接(Join)操作,得到第二表连接操作结果。
示例性的,第一目标数据表可包括至少一个子表(图未示),此时目标存储节点A将第一目标数据表如表1的每个子表均复制到自身之外的目标存储节点B。
步骤S103中,接收所述存储节点执行数据查询操作得到的操作结果,以得到数据查询结果,包括:接收所述第二目标存储节点返回的表连接操作结果;基于所述表连接操作结果生成所述数据查询结果。
示例性的,计算节点接收目标存储节点B返回的第一表连接操作结果,和/或,计算节点接收目标存储节点A返回的第二表连接操作结果,计算节点基于该第一表连接操作结果和/或第二表连接操作结果生成最终的数据查询结果。
本实施例中,每个目标存储节点对待查询数据所在的数据表先进行表连接操作处理,然后计算节点基于目标存储节点返回的表连接操作结果,确定最终的数据查询结果,如此可将计算压力至少部分均衡给存储节点,利用存储节点的计算能力,实现了一定程度的分布式计算,从而缓解计算节点的压力,进而提升了整体的数据处理速度。
可选的,在本公开的一些实施例中,所述第一目标数据表的数据量小于预设数据量阈值。示例性的,预设数据量阈值可以是50M以下,但也不限于此,具体可以根据但不限于数据库集群的硬件配置以及性能参数等来确定。
在一些实施例中,第一目标存储节点如目标存储节点A可包括至少两个目标数据表,也即待查询的数据至少部分位于目标存储节点A上存储的至少两个目标数据表中。此时,目标存储节点A基于所述执行计划将其存储的第一目标数据表复制至所述第二目标存储节点如目标存储节点B时,可选择仅将目标存储节点A上至少两个目标数据表中的数据量小的目标数据表作为第一目标数据表复制到目标存储节点B,之后目标存储节点B基于第一目标数据表与自身第二目标数据表进行表连接操作,返回表连接操作结果,同时目标存储节点A可返回自身剩余的目标数据表的查询结果如表连接操作结果,计算节点基于目标存储节点B返回的表连接操作结果,以及目标存储节点A返回的查询结果确定最终的数据查询结果。
需要说明的是,相关技术中的数据库集群,是从待查询的数据所在的一个或多个目标存储节点拉取数据到计算节点进行统一计算,当数据量较大时,这增加了数据传输耗时,降低了数据处理速度。
因此本实施例中,在将计算压力至少部分均衡给存储节点,利用存储节点的计算能力,实现了一定程度的分布式计算的同时,在具体处理时将每个或部分目标存储节点上数据量小的目标数据表复制到其余目标存储节点,这样在一定程度上减少了整体的数据传输耗时,进而进一步提高了数据处理速度。
本公开实施例还提供一种数据库集群数据处理方法,所述数据库集群包括至少一个计算节点和多个存储节点。参考图3所示,该方法应用于存储节点,包括以下步骤:
步骤S301:接收所述计算节点发送的执行计划,所述执行计划是所述计算节点基于数据查询请求生成的,所述数据查询请求来自客户端。
存储节点与计算节点可以通信连接。存储节点基于通信连接关系接收计算节点发送的执行计划。
计算节点将生成的执行计划发送至存储节点。数据库集群中可以包括一个或者一个以上的存储节点,在一些实施例中,数据库集群中的所有存储节点接收执行计划,在另一些实施例中,可以是数据库集群中的部分存储节点接收执行计划。
示例性的,例如集群中有100个存储节点,而本次数据查询请求所查询的数据位于其中例如2个存储节点上,则这2个存储节点即为目标存储节点。执行计划可以指示每个目标存储节点分别进行数据查询操作。此时,每个目标存储节点均可接收计算节点发送的执行计划。
步骤S302:根据所述执行计划执行数据查询操作,以得到操作结果。
示例性的,例如确定上述2个存储节点为目标存储节点,则计算节点将执行计划发送至每个目标存储节点。然后每个目标存储节点基于执行计划执行数据查询操作得到操作结果。
步骤S303:将所述操作结果返回所述计算节点,以使所述计算节点基于所述操作结果得到数据查询结果,将所述数据查询结果返回所述客户端。
具体的,计算节点基于每个目标存储节点返回的操作结果,确定最终的数据查询结果,例如将每个目标存储节点返回的操作结果进行汇总操作得到数据查询结果。计算节点再返回最终确定的数据查询结果至所述客户端。
本公开实施例的数据库集群数据处理方法中,存储节点接收计算节点发送的执行计划,执行所述数据查询操作得到操作结果,将所述操作结果返回计算节点,以使所述计算节点基于所述操作结果得到数据查询结果,将所述数据查询结果返回所述客户端。如此可将计算压力至少部分均衡给存储节点,利用存储节点的计算能力,实现了一定程度的分布式计算,从而缓解计算节点的压力,进而提升了整体的数据处理速度。
可选的,在本公开的一些实施例中,步骤S302中根据所述执行计划执行数据查询操作,以得到操作结果,包括:根据所述执行计划确定出目标数据表;对所述目标数据表执行表连接操作,以得到表连接操作结果。步骤S303中将所述操作结果返回所述计算节点,以使所述计算节点基于所述操作结果得到数据查询结果,包括:将所述表连接操作结果返回所述计算节点,以使所述计算节点基于每个所述存储节点返回的所述表连接操作结果生成数据查询结果。
示例性的,待查询的数据可能位于目标存储节点上的两个或两个以上的目标数据表中,因此可以先根据执行计划确定出目标存储节点上的目标数据表,例如确定出目标数据表的唯一标识等信息。通常数据查询请求是携带待查询的数据所在目标存储节点的标识以及该目标存储节点上的目标数据表的标识,执行计划是基于数据查询请求生成的,因此执行计划也可以携带目标数据表的标识,如此基于执行计划中的目标数据表的标识即可确定出目标数据表。之后每个目标存储节点对确定出的目标数据表执行数据查询操作可以是执行表连接(Join)操作,即将例如两个目标数据表中的关联数据进行连接(Join)操作,进而得到表连接操作结果,将表连接操作结果返回计算节点,也即计算节点接收目标存储节点返回的表连接操作结果。计算节点可基于每个目标存储节点返回的表连接操作结果,汇总生成最终的数据查询结果。
可选的,在本公开的一些实施例中,所述方法还包括以下步骤:从所述多个存储节点中确定出第一目标存储节点;根据所述执行计划使所述第一目标存储节点将其复制得到的第一目标数据表同步至所述多个存储节点中除第一目标存储节点外的其他存储节点。
示例性的,结合图2所示,计算节点可从多个存储节点中确定出第一目标存储节点如目标存储节点A。计算节点将执行计划发送至目标存储节点A,目标存储节点A基于执行计划将自身存储的第一目标数据表如表1复制同步到自身之外的目标存储节点B。
相应的,步骤S302中根据所述执行计划执行数据查询操作,以得到操作结果,包括:针对每个存储节点,基于所述执行计划对原始存储的第二目标数据表与所述第一目标数据表执行表连接操作,得到表连接操作结果。
示例性的,针对每个存储节如目标存储节点A和目标存储节点B,目标存储节点B基于所述执行计划将自身存储的第二目标数据表如表2’与第一目标数据表如表1进行表连接操作,得到第一表连接操作结果。目标存储节点A基于所述执行计划将自身存储的第二目标数据表如表2与第一目标数据表如表1’进行表连接操作,得到第二表连接操作结果。
步骤S303中将所述操作结果返回所述计算节点,以使所述计算节点基于所述操作结果得到数据查询结果,包括:将所述表连接操作结果返回所述计算节点,以使所述计算节点基于每个存储节点返回的所述表连接操作结果生成所述数据查询结果。
示例性的,目标存储节点B返回第一表连接操作结果至计算节点,目标存储节点A返回第二表连接操作结果至计算节点,计算节点基于该第一表连接操作结果和第二表连接操作结果生成最终的数据查询结果。
可选的,在本公开的一些实施例中,所述第一目标数据表的数据量小于预设数据量阈值。示例性的,预设数据量阈值可以是50M以下,但也不限于此,具体可以根据但不限于数据库集群的硬件配置以及性能参数等来确定。
在一些实施例中,第一目标存储节点如目标存储节点A可包括至少两个目标数据表,也即待查询的数据至少部分位于目标存储节点A上存储的至少两个目标数据表中。此时,目标存储节点A基于所述执行计划将其存储的第一目标数据表复制至所述第二目标存储节点如目标存储节点B时,可选择仅将目标存储节点A上至少两个目标数据表中的数据量小的目标数据表作为第一目标数据表复制到目标存储节点B,之后目标存储节点B基于第一目标数据表与自身第二目标数据表进行表连接操作,返回表连接操作结果,同时目标存储节点A可返回自身剩余的目标数据表的查询结果如表连接操作结果,计算节点基于目标存储节点B返回的表连接操作结果,以及目标存储节点A返回的查询结果确定最终的数据查询结果。
需要说明的是,相关技术中的数据库集群是从待查询的数据所在的一个或多个目标存储节点拉取数据到计算节点进行统一计算,当数据量较大时,这增加了数据传输耗时,降低了数据处理速度。
因此本实施例中,在将计算压力至少部分均衡给存储节点,利用存储节点的计算能力,实现了一定程度的分布式计算的同时,在具体处理时将每个或部分目标存储节点上数据量小的目标数据表复制到其余目标存储节点,这样在一定程度上减少了整体的数据传输耗时,进而进一步提高了数据处理速度。
尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。另外,也易于理解的是,这些步骤可以是例如在多个模块/进程/线程中同步或异步执行。
本公开实施例提供一种数据库集群数据处理装置,所述数据库集群包括至少一个计算节点和多个存储节点,该装置应用于所述计算节点,如图4所示数据库集群数据处理装置包括:
计划生成模块401,用于基于数据查询请求,生成执行计划,所述数据查询请求来自客户端,所述执行计划用于指示存储节点进行数据查询操作;
计划发送模块402,用于将所述执行计划发送至所述存储节点;
结果确定模块403,用于接收所述存储节点执行数据查询操作得到的操作结果,以得到数据查询结果;
结果反馈模块404,用于将所述数据查询结果发送至所述客户端。
可选的,在本公开的一些实施例中,所述结果确定模块403用于接收所述存储节点返回的表连接操作结果;基于每个所述存储节点返回的所述表连接操作结果,生成数据查询结果。
可选的,在本公开的一些实施例中,所述装置还包括节点确定模块,用于从所述多个存储节点中确定出第一目标存储节点和第二目标存储节点。所述计划发送模块402用于将所述执行计划发送至所述第一目标存储节点和第二目标存储节点,以使所述第一目标存储节点基于所述执行计划将其存储的第一目标数据表复制至所述第二目标存储节点,以及,使所述第二目标存储节点基于所述执行计划对其原始存储的第二目标数据表与所述第一目标数据表执行表连接操作。所述结果确定模块403用于接收所述第二目标存储节点返回的表连接操作结果;基于所述表连接操作结果生成所述数据查询结果。
可选的,在本公开的一些实施例中,所述第一目标数据表的数据量小于预设数据量阈值。
本公开实施例还提供一种数据库集群数据处理装置,所述数据库集群包括至少一个计算节点和多个存储节点,该装置应用于存储节点,如图5所示数据库集群数据处理装置包括:
计划接收模块501,用于接收所述计算节点发送的执行计划,所述执行计划是所述计算节点基于数据查询请求生成的,所述数据查询请求来自客户端。
数据处理模块502,用于根据所述执行计划执行数据查询操作,以得到操作结果。
结果反馈模块503,用于将所述操作结果返回所述计算节点,以使所述计算节点基于所述操作结果得到数据查询结果,将所述数据查询结果返回所述客户端。
可选的,在本公开的一些实施例中,所述数据处理模块502用于根据所述执行计划确定出目标数据表;对所述目标数据表执行表连接操作,以得到表连接操作结果。所述结果反馈模块503用于将所述表连接操作结果返回所述计算节点,以使所述计算节点基于每个所述存储节点返回的所述表连接操作结果生成数据查询结果。
可选的,在本公开的一些实施例中,所述装置还可包括节点确定模块和数据同步模块,其中,节点确定模块用于从所述多个存储节点中确定出第一目标存储节点。数据同步模块用于根据所述执行计划使所述第一目标存储节点将其复制得到的第一目标数据表同步至所述多个存储节点中除第一目标存储节点外的其他存储节点。所述数据处理模块502用于针对每个存储节点,基于所述执行计划对原始存储的第二目标数据表与所述第一目标数据表执行表连接操作,得到表连接操作结果。所述结果反馈模块503用于将所述表连接操作结果返回所述计算节点,以使所述计算节点基于每个存储节点返回的所述表连接操作结果生成所述数据查询结果。
可选的,在本公开的一些实施例中,所述第一目标数据表的数据量小于预设数据量阈值。
本公开实施例提供一种数据库系统,如图6所示数据库系统可包括至少一个计算节点601和多个存储节点602:
所述计算节点601,用于基于数据查询请求,生成执行计划,将所述执行计划发送至所述存储节点,所述数据查询请求来自客户端;
所述存储节点602,用于基于所述执行计划进行数据查询操作,以得到操作结果,将所述操作结果返回所述计算节点;
所述计算节点601,还用于基于所述操作结果得到数据查询结果,将所述数据查询结果发送至所述客户端。
可选的,在一些实施例中,所述存储节点602用于基于所述执行计划确定出目标数据表,对所述目标数据表进行表连接操作,以得到表连接操作结果,将所述表连接操作结果返回所述计算节点601。所述计算节点601用于基于每个所述存储节点602返回的所述表连接操作结果,生成数据查询结果。
可选的,在本公开的一些实施例中,所述计算节点601用于从所述多个存储节点602中确定出第一目标存储节点和第二目标存储节点。将所述执行计划发送至所述第一目标存储节点和第二目标存储节点。所述第一目标存储节点用于基于所述执行计划将其存储的第一目标数据表复制至所述第二目标存储节点,所述第二目标存储节点用于基于所述执行计划对其原始存储的第二目标数据表与所述第一目标数据表执行表连接操作。所述计算节点601用于接收所述第二目标存储节点返回的表连接操作结果,基于所述表连接操作结果生成所述数据查询结果。
可选的,在本公开的一些实施例中,所述计算节点601用于从所述多个存储节点中确定出第一目标存储节点。所述第一目标存储节点根据所述执行计划将其复制得到的第一目标数据表同步至所述多个存储节点中除第一目标存储节点外的其他存储节点。每个所述存储节点602分别基于所述执行计划对原始存储的第二目标数据表与所述第一目标数据表执行表连接操作,得到表连接操作结果,将所述表连接操作结果返回所述计算节点601。所述计算节点601基于每个所述存储节点602返回的所述表连接操作结果生成所述数据查询结果。
可选的,在本公开的一些实施例中,所述第一目标数据表的数据量小于预设数据量阈值。
关于上述实施例中的装置及系统,其中各个模块执行操作的具体方式以及带来的相应技术效果已经在对应的方法实施例中进行了对应的详细描述,此处将不做详细阐述说明。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。作为模块或单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现木公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项实施例所述数据库集群数据处理方法的步骤。
示例性的,该可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
本公开实施例还提供一种电子设备,如图7所示电子设备包括处理器701以及存储器702,存储器702用于存储计算机程序。其中,所述处理器701配置为经由执行所述计算机程序来执行上述任一项实施例中所述数据库集群数据处理方法的步骤。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述数据库集群数据处理方法。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (13)

1.一种数据库集群数据处理方法,其特征在于,所述数据库集群包括至少一个计算节点和多个存储节点,该方法应用于所述计算节点,包括:
基于数据查询请求,生成执行计划,所述数据查询请求来自客户端,所述执行计划用于指示存储节点进行数据查询操作;
将所述执行计划发送至所述存储节点;
接收所述存储节点执行数据查询操作得到的操作结果,以得到数据查询结果;
将所述数据查询结果发送至所述客户端。
2.根据权利要求1所述的数据处理方法,其特征在于,所述接收所述存储节点执行数据查询操作得到的操作结果,以得到数据查询结果,包括:
接收所述存储节点返回的表连接操作结果;
基于每个所述存储节点返回的所述表连接操作结果,生成数据查询结果。
3.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:
从所述多个存储节点中确定出第一目标存储节点和第二目标存储节点;
所述将所述执行计划发送至所述存储节点,包括:
将所述执行计划发送至所述第一目标存储节点和第二目标存储节点,以使所述第一目标存储节点基于所述执行计划将其存储的第一目标数据表复制至所述第二目标存储节点,以及,使所述第二目标存储节点基于所述执行计划对其原始存储的第二目标数据表与所述第一目标数据表执行表连接操作;
所述接收所述存储节点执行数据查询操作得到的操作结果,以得到数据查询结果,包括:
接收所述第二目标存储节点返回的表连接操作结果;
基于所述表连接操作结果生成所述数据查询结果。
4.根据权利要求3所述的数据处理方法,其特征在于,所述第一目标数据表的数据量小于预设数据量阈值。
5.一种数据库集群数据处理方法,其特征在于,所述数据库集群包括至少一个计算节点和多个存储节点,该方法应用于存储节点,包括:
接收所述计算节点发送的执行计划,所述执行计划是所述计算节点基于数据查询请求生成的,所述数据查询请求来自客户端;
根据所述执行计划执行数据查询操作,以得到操作结果;
将所述操作结果返回所述计算节点,以使所述计算节点基于所述操作结果得到数据查询结果,将所述数据查询结果返回所述客户端。
6.根据权利要求5所述的数据处理方法,其特征在于,所述根据所述执行计划执行数据查询操作,以得到操作结果,包括:
根据所述执行计划确定出目标数据表;
对所述目标数据表执行表连接操作,以得到表连接操作结果;
所述将所述操作结果返回所述计算节点,以使所述计算节点基于所述操作结果得到数据查询结果,包括:
将所述表连接操作结果返回所述计算节点,以使所述计算节点基于每个所述存储节点返回的所述表连接操作结果生成数据查询结果。
7.根据权利要求5所述的数据处理方法,其特征在于,所述方法还包括:
从所述多个存储节点中确定出第一目标存储节点;
根据所述执行计划使所述第一目标存储节点将其复制得到的第一目标数据表同步至所述多个存储节点中除第一目标存储节点外的其他存储节点;
所述根据所述执行计划执行数据查询操作,以得到操作结果,包括:
针对每个存储节点,基于所述执行计划对原始存储的第二目标数据表与所述第一目标数据表执行表连接操作,得到表连接操作结果;
所述将所述操作结果返回所述计算节点,以使所述计算节点基于所述操作结果得到数据查询结果,包括:
将所述表连接操作结果返回所述计算节点,以使所述计算节点基于每个存储节点返回的所述表连接操作结果生成所述数据查询结果。
8.根据权利要求7所述的数据处理方法,其特征在于,所述第一目标数据表的数据量小于预设数据量阈值。
9.一种数据库集群数据处理装置,其特征在于,所述数据库集群包括至少一个计算节点和多个存储节点,该装置应用于所述计算节点,包括:
计划生成模块,用于基于数据查询请求,生成执行计划,所述数据查询请求来自客户端,所述执行计划用于指示存储节点进行数据查询操作;
计划发送模块,用于将所述执行计划发送至所述存储节点;
结果确定模块,用于接收所述存储节点执行数据查询操作得到的操作结果,以得到数据查询结果;
结果反馈模块,用于将所述数据查询结果发送至所述客户端。
10.一种数据库集群数据处理装置,其特征在于,所述数据库集群包括至少一个计算节点和多个存储节点,该装置应用于存储节点,包括:
计划接收模块,用于接收所述计算节点发送的执行计划,所述执行计划是所述计算节点基于数据查询请求生成的,所述数据查询请求来自客户端;
数据处理模块,用于根据所述执行计划执行数据查询操作,以得到操作结果;
结果反馈模块,用于将所述操作结果返回所述计算节点,以使所述计算节点基于所述操作结果得到数据查询结果,将所述数据查询结果返回所述客户端。
11.一种数据库系统,其特征在于,包括至少一个计算节点和多个存储节点:
所述计算节点,用于基于数据查询请求,生成执行计划,将所述执行计划发送至所述存储节点,所述数据查询请求来自客户端;
所述存储节点,用于根据所述执行计划进行数据查询操作,以得到操作结果,将所述操作结果返回所述计算节点;
所述计算节点,还用于基于所述操作结果得到数据查询结果,将所述数据查询结果发送至所述客户端。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1~8中任一项所述数据库集群数据处理方法的步骤。
13.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储计算机程序;
其中,所述处理器配置为经由执行所述计算机程序来执行权利要求1~8中任一项所述数据库集群数据处理方法的步骤。
CN202110948922.5A 2021-08-18 2021-08-18 数据库集群数据处理方法、装置、系统、介质和电子设备 Pending CN113672641A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110948922.5A CN113672641A (zh) 2021-08-18 2021-08-18 数据库集群数据处理方法、装置、系统、介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110948922.5A CN113672641A (zh) 2021-08-18 2021-08-18 数据库集群数据处理方法、装置、系统、介质和电子设备

Publications (1)

Publication Number Publication Date
CN113672641A true CN113672641A (zh) 2021-11-19

Family

ID=78543553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110948922.5A Pending CN113672641A (zh) 2021-08-18 2021-08-18 数据库集群数据处理方法、装置、系统、介质和电子设备

Country Status (1)

Country Link
CN (1) CN113672641A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115495457A (zh) * 2022-11-16 2022-12-20 青岛以萨数据技术有限公司 基于单机向量数据库的数据处理系统、设备及存储介质
CN115941786A (zh) * 2022-11-23 2023-04-07 金篆信科有限责任公司 数据库中的数据包传输方法、装置、设备及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115495457A (zh) * 2022-11-16 2022-12-20 青岛以萨数据技术有限公司 基于单机向量数据库的数据处理系统、设备及存储介质
CN115495457B (zh) * 2022-11-16 2023-04-07 青岛以萨数据技术有限公司 基于单机向量数据库的数据处理系统、设备及存储介质
CN115941786A (zh) * 2022-11-23 2023-04-07 金篆信科有限责任公司 数据库中的数据包传输方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN109146447B (zh) 区块链透明分片方法、装置及系统
US9563673B2 (en) Query method for a distributed database system and query apparatus
CN110147407B (zh) 一种数据处理方法、装置及数据库管理服务器
US9037677B2 (en) Update protocol for client-side routing information
CN103714073B (zh) 数据查询的方法和装置
JP6338817B2 (ja) データベースミドルウェアを用いたデータ管理システム及びその方法
US9875186B2 (en) System and method for data caching in processing nodes of a massively parallel processing (MPP) database system
CN107784044B (zh) 表数据查询方法及装置
KR20170010844A (ko) 원격 데이터베이스에 대한 뮤테이션들의 프로세싱
CN113672641A (zh) 数据库集群数据处理方法、装置、系统、介质和电子设备
CN103299299A (zh) 高适应性查询优化器检索空间生成方法
CN110347515B (zh) 一种适合边缘计算环境的资源优化分配方法
JPWO2004063928A1 (ja) データベース負荷軽減システムおよび負荷軽減プログラム
US9984081B2 (en) Workload aware data placement for join-based query processing in a cluster
JP6129290B1 (ja) 分散計算におけるアプリケーションパラメータ設定およびシステム仕様設定を推奨する方法およびシステム
US11226986B2 (en) Data table partitioning management method and apparatus
CN111782235A (zh) 一种数据升级、查询方法和装置
CN114860764A (zh) 分布式数据库查询的优化方法、系统及电子设备
CN108874837A (zh) 数据库分库方法、装置、中间件及存储介质和电子设备
CN106874341B (zh) 一种数据库同步方法
US10042957B2 (en) Devices and methods for implementing dynamic collaborative workflow systems
CN111782634B (zh) 数据分布式存储方法、装置、电子设备及存储介质
CN114489772A (zh) 工作流执行方法及装置、存储介质、设备
JP6506773B2 (ja) 情報処理装置、方法およびプログラム
CN111767060A (zh) 多阶段灰度验证方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination