CN105045871B

CN105045871B - 数据聚合查询方法及装置

Info

Publication number: CN105045871B
Application number: CN201510416774.7A
Authority: CN
Inventors: 胡伟; 黄晓慧; 黄齐仁; 李�浩; 陈晓攀; 熊志强
Original assignee: Shenzhen Hanyun Technology Co Ltd; NATIONAL SUPERCOMPUTING CENTER IN SHENZHEN (SHENZHEN CLOUD COMPUTING CENTER)
Current assignee: Shenzhen Hanyun Technology Co Ltd; NATIONAL SUPERCOMPUTING CENTER IN SHENZHEN (SHENZHEN CLOUD COMPUTING CENTER)
Priority date: 2015-07-15
Filing date: 2015-07-15
Publication date: 2018-09-28
Anticipated expiration: 2035-07-15
Also published as: CN105045871A

Abstract

本发明适用于大规模数据处理技术领域，尤其涉及数据聚合查询方法及装置。该方法包括：当接收到针对数据库集群的查询请求时，确定查询请求对应的哈希表，确定哈希表对应的多个分区表，并生成MapReduce查询任务；通过Hadoop Yarn框架中的调度节点根据MapReduce查询任务确定多个子任务，并将多个子任务分配到多个计算节点；通过多个计算节点执行多个子任务，得到多个计算结果，并通过多个计算节点将多个计算结果反馈给调度节点；通过调度节点对多个计算结果进行化简，得到查询请求对应的查询结果。本发明实现了数据库集群中相关联的多个分区表的关系型查询与统计，并减小了网络开销，提高了数据聚合查询的效率。

Description

数据聚合查询方法及装置

技术领域

本发明属于大规模数据处理技术领域，尤其涉及数据聚合查询方法及装置。

背景技术

在数据库集群中，聚合查询是数据查询与分析的主要手段之一。数据库集群的查询涉及到数据库集群中的多个节点。现有的对数据库集群进行聚合查询的方式将分布在多个节点的数据汇聚到主节点后，由主节点执行聚合查询。

现有的数据聚合查询的方式在将多个节点的数据汇聚到主节点的过程中需要传输大量数据，网络开销很大。此外，现有的数据聚合查询的方式仅由主节点对大量数据进行聚合查询，数据聚合查询的执行受到主节点的数据处理能力的限制，导致现有的数据聚合查询的效率较低。

发明内容

鉴于此，本发明实施例提供了一种数据聚合查询的方法及装置，以解决现有的数据聚合查询的网络开销较大且效率较低的问题。

第一方面，本发明实施例提供了一种数据聚合查询的方法，包括：

当接收到针对数据库集群的查询请求时，确定所述查询请求对应的哈希表，并确定所述哈希表对应的多个分区表，多个所述分区表在所述数据库集群中相关联；

根据所述查询请求确定每个所述分区表对应的查询条件，并根据每个所述分区表对应的查询条件生成MapReduce查询任务；

通过Hadoop Yarn框架中的调度节点根据所述MapReduce查询任务确定多个子任务，并将多个所述子任务分配到多个计算节点；

通过多个所述计算节点执行多个所述子任务，得到多个计算结果，并通过多个所述计算节点将多个所述计算结果反馈给所述调度节点；

通过所述调度节点对多个所述计算结果进行化简，得到所述查询请求对应的查询结果。

第二方面，本发明实施例提供了一种数据聚合查询的装置，包括：

分区表确定单元，用于当接收到针对数据库集群的查询请求时，确定所述查询请求对应的哈希表，并确定所述哈希表对应的多个分区表，多个所述分区表在所述数据库集群中相关联；

查询任务生成单元，用于根据所述查询请求确定每个所述分区表对应的查询条件，并根据每个所述分区表对应的查询条件生成MapReduce查询任务；

子任务分配单元，用于通过Hadoop Yarn框架中的调度节点根据所述MapReduce查询任务确定多个子任务，并将多个所述子任务分配到多个计算节点；

分布式计算单元，用于通过多个所述计算节点执行多个所述子任务，得到多个计算结果，并通过多个所述计算节点将多个所述计算结果反馈给所述调度节点；

化简单元，用于通过所述调度节点对多个所述计算结果进行化简，得到所述查询请求对应的查询结果。

本发明实施例与现有技术相比存在的有益效果是：本发明实施例根据针对数据库集群的查询请求对应的哈希表生成MapReduce查询任务，由Hadoop Yarn框架中的调度节点将MapReduce查询任务划分为多个子任务，并将多个子任务分配到多个计算节点执行，由此由多个计算节点分别执行Map任务，并由调度节点执行Reduce任务，从而实现了数据库集群中相关联的多个分区表的关系型查询与统计，并减小了网络开销，提高了数据聚合查询的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的数据聚合查询的方法的实现流程图；

图2是本发明实施例提供的数据聚合查询方法步骤S103中所述通过Hadoop Yarn框架中的调度节点根据所述MapReduce查询任务确定多个子任务的具体实现流程图；

图3是本发明实施例提供的数据聚合查询方法步骤S103中所述将多个所述子任务分配到多个计算节点的具体实现流程图；

图4是本发明实施例提供的数据聚合查询装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1示出了本发明实施例提供的数据聚合查询的方法的实现流程图，详述如下：

在步骤S101中，当接收到针对数据库集群的查询请求时，确定查询请求对应的哈希表，并确定哈希表对应的多个分区表，多个分区表在数据库集群中相关联。

在本发明实施例中，数据库集群包括至少两台数据库服务器。查询请求可以为用户发出的SQL(Structured Query Language，结构化查询语言)查询请求。分区表指的是查询请求对应的哈希表在每个数据库服务器中的哈希分区表。

在步骤S102中，根据查询请求确定每个分区表对应的查询条件，并根据每个分区表对应的查询条件生成MapReduce查询任务。

根据接收到的查询请求、查询请求对应的哈希表以及哈希表对应的多个分区表，可以确定每个分区表对应的查询条件。生成的MapReduce查询任务送入Hadoop Yarn框架中的调度节点。

优选地，所述根据每个所述分区表对应的查询条件生成MapReduce查询任务具体为：根据每个分区表对应的查询条件，每个分区表的分区描述信息以及数据库集群在Hadoop Yarn框架中的数据格式生成MapReduce查询任务。

在步骤S103中，通过Hadoop Yarn框架中的调度节点根据MapReduce查询任务确定多个子任务，并将多个子任务分配到多个计算节点。

调度节点在划分MapReduce查询任务时，判断MapReduce查询任务中剩余的数据块数是否大于N，其中，N为大于或等于1的整数。若MapReduce查询任务中剩余的数据块数大于N，则根据N个数据块确定出一个新的子任务；若MapReduce查询任务中剩余的数据块数小于或等于N，则根据所有剩余的数据块确定出的一个新的子任务。在确定出新的子任务后，将新的子任务分配到计算节点。

需要说明的是，本发明实施例中的子任务指的是Map(映射)任务。

作为本发明的一个实施例，每个子任务只针对多个分区表中的其中一个分区表。

在步骤S104中，通过多个计算节点执行多个子任务，得到多个计算结果，并通过多个计算节点将多个计算结果反馈给调度节点。

在步骤S105中，通过调度节点对多个计算结果进行化简，得到查询请求对应的查询结果。

调度节点在接收到各个计算节点发送的计算结果后，执行Reduce(化简)任务。

图2示出了本发明实施例提供的数据聚合查询方法步骤S103中所述通过HadoopYarn框架中的调度节点根据所述MapReduce查询任务确定多个子任务的具体实现流程图，参照图2：

在步骤S201中，通过Hadoop Yarn框架中的调度节点确定Hadoop Yarn框架的初始配置参数，初始配置参数包括Hadoop Yarn框架中的所有计算节点的总CPU资源和总内存资源；

在步骤S202中，通过调度节点根据初始配置参数将MapReduce查询任务划分为多个子任务。

在本发明实施例中，Hadoop Yarn框架中的调度节点根据所有计算节点的总CPU(Central Processing Unit，中央处理器)资源和总内存资源确定Hadoop Yarn框架的初始配置参数，再根据初始配置参数将MapReduce查询任务划分为多个子任务。在将MapReduce查询任务划分为多个子任务之后，可以确定每个子任务的CPU资源需求占比和内存资源需求占比，并将CPU资源需求占比和内存资源需求占比中的较大者作为该子任务的支配份额。在多个用户同时发出多个查询请求时，调度节点选择性地分配子任务至计算节点，以保证各个用户对应的总支配份额相同。

根据各个计算节点的计算能力的不同，可以为各个计算节点配置不同个数的并发任务数，由此提高数据聚合查询的效率。

图3示出了本发明实施例提供的数据聚合查询方法步骤S103中所述将多个所述子任务分配到多个计算节点的具体实现流程图，参照图3：

在步骤S301中，根据每个计算节点的CPU资源、内存资源、硬盘资源和/或网络吞吐量确定每个计算节点的计算能力；

在步骤S302中，根据每个计算节点的计算能力将多个子任务分配到多个计算节点。

在本发明实施例中，调度节点根据每个计算节点的计算能力进行子任务的分配。对于计算能力较高的计算节点，分配更多的子任务，从而提高数据聚合查询的整体效率。

优选地，所述将多个所述子任务分配到多个计算节点还包括：

通过调度节点实时监控Hadoop Yarn框架中的所有计算节点的资源使用情况，并根据所有计算节点的资源使用情况对未分配的子任务进行分配。

在本发明实施例中，调度节点在计算节点执行子任务的过程中，实时监控计算节点的资源使用情况，以根据各个计算节点的资源使用情况对后续的子任务进行分配。

应理解，在本发明实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本发明实施例根据针对数据库集群的查询请求对应的哈希表生成MapReduce查询任务，由Hadoop Yarn框架中的调度节点将MapReduce查询任务划分为多个子任务，并将多个子任务分配到多个计算节点执行，由此由多个计算节点分别执行Map任务，并由调度节点执行Reduce任务，从而实现了数据库集群中相关联的多个分区表的关系型查询与统计，并减小了网络开销，提高了数据聚合查询的效率。

图4示出了本发明实施例提供的数据聚合查询装置的结构框图，该装置可以用于运行图1至图3所示的数据聚合查询方法。为了便于说明，仅示出了与本发明实施例相关的部分。

参照图4，该装置包括：

分区表确定单元41，用于当接收到针对数据库集群的查询请求时，确定所述查询请求对应的哈希表，并确定所述哈希表对应的多个分区表，多个所述分区表在所述数据库集群中相关联；

查询任务生成单元42，用于根据所述查询请求确定每个所述分区表对应的查询条件，并根据每个所述分区表对应的查询条件生成MapReduce查询任务；

子任务分配单元43，用于通过Hadoop Yarn框架中的调度节点根据所述MapReduce查询任务确定多个子任务，并将多个所述子任务分配到多个计算节点；

分布式计算单元44，用于通过多个所述计算节点执行多个所述子任务，得到多个计算结果，并通过多个所述计算节点将多个所述计算结果反馈给所述调度节点；

化简单元45，用于通过所述调度节点对多个所述计算结果进行化简，得到所述查询请求对应的查询结果。

优选地，所述查询任务生成单元42具体用于：

根据所述查询请求确定每个所述分区表对应的查询条件，并根据每个所述分区表对应的查询条件，每个所述分区表的分区描述信息以及所述数据库集群在所述HadoopYarn框架中的数据格式生成所述MapReduce查询任务。

优选地，所述子任务分配单元43包括：

初始配置参数确定子单元431，用于通过Hadoop Yarn框架中的调度节点确定所述Hadoop Yarn框架的初始配置参数，所述初始配置参数包括所述Hadoop Yarn框架中的所有计算节点的总CPU资源和总内存资源；

任务划分子单元432，用于通过所述调度节点根据所述初始配置参数将所述MapReduce查询任务划分为多个子任务。

优选地，所述子任务分配单元43还包括：

计算能力确定子单元433，用于根据每个所述计算节点的CPU资源、内存资源、硬盘资源和/或网络吞吐量确定每个所述计算节点的计算能力；

子任务分配子单元434，用于根据每个所述计算节点的计算能力将多个所述子任务分配到多个所述计算节点。

优选地，所述子任务分配子单元434还用于：

通过所述调度节点实时监控所述Hadoop Yarn框架中的所有所述计算节点的资源使用情况，并根据所有所述计算节点的资源使用情况对未分配的所述子任务进行分配。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据聚合查询的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述根据每个所述分区表对应的查询条件生成MapReduce查询任务具体为：

根据每个所述分区表对应的查询条件，每个所述分区表的分区描述信息以及所述数据库集群在所述Hadoop Yarn框架中的数据格式生成所述MapReduce查询任务。

3.如权利要求1所述的方法，其特征在于，所述通过Hadoop Yarn框架中的调度节点根据所述MapReduce查询任务确定多个子任务包括：

通过Hadoop Yarn框架中的调度节点确定所述Hadoop Yarn框架的初始配置参数，所述初始配置参数包括所述Hadoop Yarn框架中的所有计算节点的总CPU资源和总内存资源；

通过所述调度节点根据所述初始配置参数将所述MapReduce查询任务划分为多个子任务。

4.如权利要求1所述的方法，其特征在于，所述将多个所述子任务分配到多个计算节点包括：

根据每个所述计算节点的CPU资源、内存资源、硬盘资源和/或网络吞吐量确定每个所述计算节点的计算能力；

根据每个所述计算节点的计算能力将多个所述子任务分配到多个所述计算节点。

5.如权利要求4所述的方法，其特征在于，所述将多个所述子任务分配到多个计算节点还包括：

6.一种数据聚合查询的装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述查询任务生成单元具体用于：

根据所述查询请求确定每个所述分区表对应的查询条件，并根据每个所述分区表对应的查询条件，每个所述分区表的分区描述信息以及所述数据库集群在所述Hadoop Yarn框架中的数据格式生成所述MapReduce查询任务。

8.如权利要求6所述的装置，其特征在于，所述子任务分配单元包括：

初始配置参数确定子单元，用于通过Hadoop Yarn框架中的调度节点确定所述HadoopYarn框架的初始配置参数，所述初始配置参数包括所述Hadoop Yarn框架中的所有计算节点的总CPU资源和总内存资源；

任务划分子单元，用于通过所述调度节点根据所述初始配置参数将所述MapReduce查询任务划分为多个子任务。

9.如权利要求6所述的装置，其特征在于，所述子任务分配单元还包括：

计算能力确定子单元，用于根据每个所述计算节点的CPU资源、内存资源、硬盘资源和/或网络吞吐量确定每个所述计算节点的计算能力；

子任务分配子单元，用于根据每个所述计算节点的计算能力将多个所述子任务分配到多个所述计算节点。

10.如权利要求9所述的装置，其特征在于，所述子任务分配子单元还用于：