CN106250519A

CN106250519A - 用于并行数据库的数据查询方法和装置

Info

Publication number: CN106250519A
Application number: CN201610633323.3A
Authority: CN
Inventors: 郭庆; 李晋钢; 张建磊; 惠润海; 宋怀明
Original assignee: Dawning Information Industry Beijing Co Ltd
Current assignee: Dawning Information Industry Beijing Co Ltd
Priority date: 2016-08-04
Filing date: 2016-08-04
Publication date: 2016-12-21

Abstract

本发明公开了一种用于并行数据库的数据查询方法和装置，该方法包括：在各个数据库节点上对目标数据表按照目标数据表与其他数据表之间的相应关联字段分别进行目标数据的分组聚合；在各个数据库节点上对相应的分组聚合结果和相应的其他数据表按照相应的关联字段分别进行哈希方式的数据重划分；将各个数据库节点的分组聚合结果的数据重划分结果和其他数据表的数据重划分结果均汇总到一个目标数据库节点；在目标数据库节点上对分组聚合结果的数据重划分结果和其他数据表的数据重划分结果进行目标数据的连接聚合。本发明能够实现数据的聚合查询，同时调高查询的并行性，提升集群的资源利用率，并降低网络开销，提高查询的性能。

Description

用于并行数据库的数据查询方法和装置

技术领域

本发明涉及并行数据库领域，具体来说，涉及一种用于并行数据库的数据查询方法和装置。

背景技术

随着大数据时代到来，与传统数据分析相比，现在遇到更大的挑战，一方面是数据量的爆炸式增长，另一方面是数据类型的增加。面对这些挑战，Hadoop(一个由Apache基金会所开发的分布式系统基础架构)应运而生，解决了离线数据分析的难题，但对于实时的数据分析要求，Hadoop因为自身的特点，并不能在这一领域应用；因此并行数据库依然是实时结构化数据分析的主要工具。

在并行数据库系统中，聚合和关联查询是进行数据分析的主要方法，而大部分的分析将同时涉及到多张大表的连接和聚合。本专利主要是对Share-Nothing结构下的并行数据库的连接聚合查询优化进行说明。连接查询是将多张有关联的表通过关联字段进行连接，常用于关联事务数据的相关维度信息，聚合查询是一种对数据进行汇总、统计分析的查询方式，常用于进行报表统计。

并行数据库的查询设计到集群中的多个数据库节点，如果直接在各节点上进行连接聚合查询，最终会得到一个错误的不可用结果集。为保证结果集的正确定，现在的并行数据库对聚合查询的执行方式，主要是通过将数据汇聚到一个节点进行聚合，但是这种方式也带来了一个问题是数据的汇聚过程会大大增加网络的通信开销，最终影响查询的性能。

针对相关技术中的上述问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的上述问题，本发明提出一种用于并行数据库的数据查询方法和装置，能够实现数据的聚合查询，同时调高查询的并行性，提升集群的资源利用率，并降低网络开销，提高查询的性能。

本发明的技术方案是这样实现的：

根据本发明的一个方面，提供了一种用于并行数据库的数据查询方法。

该数据查询方法包括：

在各个数据库节点上对目标数据表按照目标数据表与其他数据表之间的相应关联字段分别进行目标数据的分组聚合；

在各个数据库节点上对相应的分组聚合结果和相应的其他数据表按照相应的关联字段分别进行哈希方式的数据重划分；

将各个数据库节点的分组聚合结果的数据重划分结果和其他数据表的数据重划分结果均汇总到一个目标数据库节点；

在目标数据库节点上对分组聚合结果的数据重划分结果和其他数据表的数据重划分结果进行目标数据的连接聚合。

其中，在对目标数据进行聚合操作时，聚合操作的方式包括以下至少之一：

sum、max、min、count、avg。

可选的，在聚合操作为count的情况下，在各个数据库节点上对目标数据表按照目标数据表与其他数据表之间的相应关联字段分别进行目标数据的连接聚合时，该连接聚合的聚合操作为sum。

可选的，在聚合操作为avg的情况下，在各个数据库节点上对目标数据表按照目标数据表与其他数据表之间的相应关联字段分别进行目标数据的分组聚合时，该分组聚合的聚合操作包括count和sum。

相应的，在目标数据库节点上对分组聚合结果的数据重划分结果和其他数据表的数据重划分结果进行目标数据的连接聚合时，该连接聚合的聚合操作为对该count的分组聚合结果的数据重划分结果和该sum的分组聚合结果的数据重划分结果分别作sum连接操作，该sum连接操作的结果为sum的分组聚合结果的数据重划分结果的sum值与count操作的分组聚合结果的数据重划分结果的sum值的比值。

根据本发明的另一方面，提供了一种用于并行数据库的数据查询装置。

该数据查询装置包括：

分组聚合模块，用于在各个数据库节点上对目标数据表按照目标数据表与其他数据表之间的相应关联字段分别进行目标数据的分组聚合；

重划分模块，用于在各个数据库节点上对相应的分组聚合结果和相应的其他数据表按照相应的关联字段分别进行哈希方式的数据重划分；

汇总模块，用于将各个数据库节点的分组聚合结果的数据重划分结果和其他数据表的数据重划分结果均汇总到一个目标数据库节点；

连接聚合模块，用于在目标数据库节点上对分组聚合结果的数据重划分结果和其他数据表的数据重划分结果进行目标数据的连接聚合。

sum、max、min、count、avg。

本发明通过在各个数据库节点上分别进行分组聚合，并将聚合结果重划分，并将重划分后的结果汇聚到一个数据库节点来进行连接聚合，实现数据的聚合查询，同时可以调高查询的并行性，提升集群的资源利用率，并降低网络开销，提高查询的性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的用于并行数据库的数据查询方法的流程图；

图2是根据本发明实施例的聚合函数的数据查询方法的流程图；

图3是根据本发明实施例的count聚合函数的数据查询方法的流程图；

图4是根据本发明实施例的avg聚合函数的数据查询方法的流程图；

图5是根据本发明实施例的用于并行数据库的数据查询装置的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，提供了一种用于并行数据库的数据查询方法。

如图1所示，根据本发明实施例的数据查询方法包括：

步骤S101，在各个数据库节点上对目标数据表按照目标数据表与其他数据表之间的相应关联字段分别进行目标数据的分组聚合；

步骤S103，在各个数据库节点上对相应的分组聚合结果和相应的其他数据表按照相应的关联字段分别进行哈希方式的数据重划分；

步骤S105，将各个数据库节点的分组聚合结果的数据重划分结果和其他数据表的数据重划分结果均汇总到一个目标数据库节点；

步骤S107，在目标数据库节点上对分组聚合结果的数据重划分结果和其他数据表的数据重划分结果进行目标数据的连接聚合。

其中，不同数据表之间进行连接查询时主要通过join关键词实现，本发明支持内连接、外连接以及自连接方式，聚合查询主要通过聚集函数和GroupBy子句实现，其中聚集函数包括count、avg、sum、max、min等，其中，avg返回指定组中数据的平均值，空值被忽略；count返回指定组中指定字段的数量；max返回指定字段的数据最大值；min返回指定字段的数据最小值；sum返回指定字段的数据之和，只能用于数字列，空值被忽略。

本发明将连接与聚合查询结合，会产生更多的查询方式。针对不同的查询，会采用不同的优化方式，本专利主要通过将聚合和连接操作分阶段执行，达到降低数据通信开销的目的，下面对不同的优化方式进行说明。

并行数据库中表的分布方式有Hash、Range、List等分布方式，因此数据库表的连接，也需要针对分布情况，采用不同的优化方式，主要分为两种：无需重划分数据的连接和需要重划分数据的连接。

1、无需重划分数据的连接

无需重新划分数据，即连接的表的分布依据字段与连接字段一致，在进行数据表连接时，可直接在并行数据库各节点中执行连接，不会影响连接数据的正确性。因此，针对无需重划分数据的连接聚合查询，直接将查询语句在各个节点执行，然后汇总结果即可。

2、需重划分数据的连接

需重新划分数据，即连接的数据表的分布字段与连接字段不一样，或连接表的分布方式不一致，为了保证连接后结果的正确性，需要已经各表的连接字段进行数据的Hash重划分。

因数据重划分会涉及到大量数据的网络传输，为了降低网络传输的开销，本发明将聚合谓词下放到数据重划分之前，通过改写查询的任务流程，在保证结果正确性的同时，降低重划分数据的网络开销。数据聚合有多重方式，针对不同的聚合方式，采用不同的谓词下放和改写规则(下文会详述)

其中，聚合查询指对全局数据或过滤后的数据进行聚合，包括：sum、max、min、count、avg五种聚合操作。这类查询的主要形式有两种：

select agg_s(table1.colum)from table1，table2where table1.col1＝table2.col1。

其中，agg_s代表简单聚合函数：sum、max、min，这类聚合在各个节点执行后，无需改写操作类型，即可在重划分之后的数据集中进行连接聚合，不会影响最终的结果，需要注意的是，在各个节点执行聚合时，需要按照连接的字段进行分组。执行如图2所示：

此类查询可以分两阶段进行，第一阶段为下面的第一步和第二步，执行的操作为过滤(Filter)，并且按照连接列对过滤后的数据进行分组聚合，即图2所示的agg_s(Filter)，将连接列添加到group by子句中，执行完成后，将第一阶段的结果集汇总到一个节点，然后进行第二阶段(第三步)执行，第二阶段为上面的一个执行点，进行聚合操作agg_s。

依据上面描述的流程，上述语句可分成三步骤：

第一步：进行分组聚合，降低数据传输数据量：select agg_s(colum),col1fromtable1group by col1；本步骤结果用new_table1表示；

第二步：对第一步的结果new_table1按照col1进行Hash方式的数据重划分，对上述table2按照col1进行Hash方式的数据重划分构成new_table1和new_table2，本步骤的结果为new_table1和new_table2。

第三步：进行连接聚合：select agg_s(new_table1.colum)from new_table1,new_table2where new_table1.col1＝new_table2.col1；

如上所述，这类聚合函数，在节点的并行执行结果，分组聚合之后，可以有效降低网络通信开销，提升查询的执行效率。

而对于聚合函数：count、avg，这类函数各节点执行情况会影响全局聚合的正确性，因此需要进行改写，而count和sum的改写方式又有所不同，本实施例中，用agg_c代表需要进行改写的函数count和avg。

聚合查询：

Select agg_c(column)from table1,table2where table1.col1＝table2.col2

Count查询的执行流程如图3所示；Avg查询的执行流程如图4所示：同样的，此类需要改写的聚合函数，在进行上述聚合查询时仍然分为两阶段进行，第一阶段为第一步：分组聚合+重划分、第二步：连接聚合，第一步执行的操作为过滤，并且按照连接列进行分组聚合(如图3、4所示，count操作为：count(Filter)、avg操作为：count、sum(Filter))，将连接列添加到group by子句中，特别的，对于avg的聚合操作来说，第一阶段查询被改写为两个聚合操作(如图4所示count、sum(Filter))，同样的，执行完成后，将第一阶段的结果集汇总到一个节点，然后进行第二阶段执行，第二阶段为上面的一个执行节点，进行聚合操作，为第三步连接聚合，其中，特别的，对于count的聚合查询，如图3所示，第二阶段的操作改写为sum；对于avg，第二阶段的操作改写为对第一阶段结果求和(sum)，并对求和后的值作比值处理，其中，分子为对第一阶段sum结果的求和(如图4所示的sum_sum)，分母为对第一阶段count结果的求和(如图4所示的sum_count)。

下面以avg聚合查询为例，来对上述两个阶段作详细说明书，参照图4：

第一步：进行分组聚合改写，降低数据传输数据量

Select count(colum)column_cnt,sum(colum)column_sum,col1fromtable1group by col1；本步骤结果由new_table1表示；

第二步：对第一步的结果new_table1按照col1进行Hash方式的数据重划分，对上述table2按照col1进行Hash方式的数据重划分，划分结果分别存在new_table1和new_table2，本步骤的结果为new_table1和new_table2；

第三步：进行连接聚合：

Select sum(new_table1.column_sum)/sum(new_table2.column_cnt)from new_table1,new_table2where new_table1.col1＝new_table2.col1。

如上所述，这类聚合函数，在节点的并行执行结果，会对全局结果产生错误影响，但是通过对聚合函数的改写，可以消除这些影响，在达到聚合并行的前提下，有效降低网络通信开销，提升查询的执行效率。

本专利描述的优化方法为查询Sql语句解析和执行树优化阶段采用，对最终构造的查询执行树在集群中并行执行，一方面可以调高查询的并行性，提升集群的资源利用率，另一方面，可以有效降低网络开销，在并行数据库的查询过程中，网络开销往往是最耗费时间的过程；因此通过降低网络开销，进而提高了查询的性能。

在实践中表明，采用本专利描述的方法，可将查询性能提升一个数量级。

另外，对于并行数据库的使用与业务结合比较紧密的情况，本发明的上述实施例通过统一的SQL接口进行查询优化，满足性能数量级提升的要求。而在实际的应用中，可以根据业务人员对数据分析和查询的要求，人工构造执行树，同样可以达到性能提升的目的，但是这种方式要求业务人员对数据库、业务系统和数据分布情况有深入的了解。

根据本发明的实施例，还提供了一种用于并行数据库的数据查询装置。

如图5所示，根据本发明实施例的数据查询装置包括：

分组聚合模块51，用于在各个数据库节点上对目标数据表按照目标数据表与其他数据表之间的相应关联字段分别进行目标数据的分组聚合；

重划分模块52，用于在各个数据库节点上对相应的分组聚合结果和相应的其他数据表按照相应的关联字段分别进行哈希方式的数据重划分；

汇总模块53，用于将各个数据库节点的分组聚合结果的数据重划分结果和其他数据表的数据重划分结果均汇总到一个目标数据库节点；

连接聚合模块54，用于在目标数据库节点上对分组聚合结果的数据重划分结果和其他数据表的数据重划分结果进行目标数据的连接聚合。

其中，在一个实施例中，在对目标数据进行聚合操作时，聚合操作的方式包括以下至少之一：

sum、max、min、count、avg。

可选的，在一个实施例中，在聚合操作为count的情况下，在各个数据库节点上对目标数据表按照目标数据表与其他数据表之间的相应关联字段分别进行目标数据的连接聚合时，该连接聚合的聚合操作为sum。

可选的，在一个实施例中，在聚合操作为avg的情况下，在各个数据库节点上对目标数据表按照目标数据表与其他数据表之间的相应关联字段分别进行目标数据的分组聚合时，该分组聚合的聚合操作包括count和sum。

相应的，在一个实施例中，在目标数据库节点上对分组聚合结果的数据重划分结果和其他数据表的数据重划分结果进行目标数据的连接聚合时，该连接聚合的聚合操作为对该count的分组聚合结果的数据重划分结果和该sum的分组聚合结果的数据重划分结果分别作sum连接操作，该sum连接操作的结果为sum的分组聚合结果的数据重划分结果的sum值与count操作的分组聚合结果的数据重划分结果的sum值的比值。

综上所述，借助于本发明的上述技术方案，通过将聚合运算谓词下放到存储数据的各个节点并行执行，执行此步骤无需进行网络传输，而聚合之后的数据将会大大减少，从而达到降低网络开销的目的，并可以调高查询的并行性，提升集群的资源利用率，另一方面，可以有效降低网络开销，在并行数据库的查询过程中，网络开销往往是最耗费时间的过程；因此通过降低网络开销，进而提高了查询的性能。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于并行数据库的数据查询方法，其特征在于，包括：

在各个数据库节点上对目标数据表按照所述目标数据表与其他数据表之间的相应关联字段分别进行目标数据的分组聚合；

在所述各个数据库节点上对相应的分组聚合结果和相应的其他数据表按照相应的关联字段分别进行哈希方式的数据重划分；

将所述各个数据库节点的分组聚合结果的数据重划分结果和其他数据表的数据重划分结果均汇总到一个目标数据库节点；

在所述目标数据库节点上对所述分组聚合结果的数据重划分结果和其他数据表的数据重划分结果进行目标数据的连接聚合。

2.根据权利要求1所述的数据查询方法，其特征在于，在对所述目标数据进行聚合操作时，聚合操作的方式包括以下至少之一：

sum、max、min、count、avg。

3.根据权利要求2所述的数据查询方法，其特征在于，在所述聚合操作为count的情况下，在各个数据库节点上对目标数据表按照所述目标数据表与其他数据表之间的相应关联字段分别进行目标数据的连接聚合时，该连接聚合的聚合操作为sum。

4.根据权利要求2所述的数据查询方法，其特征在于，在所述聚合操作为avg的情况下，在各个数据库节点上对目标数据表按照所述目标数据表与其他数据表之间的相应关联字段分别进行目标数据的分组聚合时，该分组聚合的聚合操作包括count和sum。

5.根据权利要求4所述的数据查询方法，其特征在于，在所述目标数据库节点上对所述分组聚合结果的数据重划分结果和其他数据表的数据重划分结果进行目标数据的连接聚合时，该连接聚合的聚合操作为对该count的分组聚合结果的数据重划分结果和该sum的分组聚合结果的数据重划分结果分别作sum连接操作，该sum连接操作的结果为sum的分组聚合结果的数据重划分结果的sum值与count操作的分组聚合结果的数据重划分结果的sum值的比值。

6.一种用于并行数据库的数据查询装置，其特征在于，包括：

分组聚合模块，用于在各个数据库节点上对目标数据表按照所述目标数据表与其他数据表之间的相应关联字段分别进行目标数据的分组聚合；

重划分模块，用于在所述各个数据库节点上对相应的分组聚合结果和相应的其他数据表按照相应的关联字段分别进行哈希方式的数据重划分；

汇总模块，用于将所述各个数据库节点的分组聚合结果的数据重划分结果和其他数据表的数据重划分结果均汇总到一个目标数据库节点；

连接聚合模块，用于在所述目标数据库节点上对所述分组聚合结果的数据重划分结果和其他数据表的数据重划分结果进行目标数据的连接聚合。

7.根据权利要求6所述的数据查询装置，其特征在于，在对所述目标数据进行聚合操作时，聚合操作的方式包括以下至少之一：

sum、max、min、count、avg。

8.根据权利要求7所述的数据查询装置，其特征在于，在所述聚合操作为count的情况下，在各个数据库节点上对目标数据表按照所述目标数据表与其他数据表之间的相应关联字段分别进行目标数据的连接聚合时，该连接聚合的聚合操作为sum。

9.根据权利要求7所述的数据查询装置，其特征在于，在所述聚合操作为avg的情况下，在各个数据库节点上对目标数据表按照所述目标数据表与其他数据表之间的相应关联字段分别进行目标数据的分组聚合时，该分组聚合的聚合操作包括count和sum。

10.根据权利要求9所述的数据查询装置，其特征在于，在所述目标数据库节点上对所述分组聚合结果的数据重划分结果和其他数据表的数据重划分结果进行目标数据的连接聚合时，该连接聚合的聚合操作为对该count的分组聚合结果的数据重划分结果和该sum的分组聚合结果的数据重划分结果分别作sum连接操作，该sum连接操作的结果为sum的分组聚合结果的数据重划分结果的sum值与count操作的分组聚合结果的数据重划分结果的sum值的比值。