CN105975617A

CN105975617A - 一种多分区表查询处理的方法和装置

Info

Publication number: CN105975617A
Application number: CN201610335305.7A
Authority: CN
Inventors: 白贤锋
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2016-05-20
Filing date: 2016-05-20
Publication date: 2016-09-28

Abstract

本发明提供一种多分区表查询处理的方法和装置，能够实现并行执行查询各分区表数据，从而增加了输入输出数据量，提高了Presto的执行效率。本发明的多分区表查询处理的方法包括：接收数据库查询语句；解析所述数据库查询语句以获得数据源表；从所述数据源表提取数据分区；如果所述数据分区的数目是一个，则直接执行所述数据库查询语句，否则对所述数据库查询语句进行并行化转换，把所述数据库查询语句分解成分别与各数据分区对应的多个子查询语句，然后并行执行所述多个子查询语句。

Description

一种多分区表查询处理的方法和装置

技术领域

本发明涉及计算机及计算机软件技术领域，特别地涉及一种多分区表查询处理的方法和装置。

背景技术

数据在关系数据库中的存储采用表(table)的形式。

当表中的数据量不断增大，查询数据的速度就会变慢，应用程序的性能就会下降，这时就应该考虑对表进行分区。表进行分区后，在逻辑上，表仍然是完整的表，只是将表中的数据在物理上存放到多个分区对应的表空间(物理文件上)。这样，在查询数据时，不是每次都扫描整个表。因此，很多数据库(例如：MySQL、Oracle、Hive等)在进行建模时都会进行数据分区。

以Hive数据库为例，在Hive Select数据查询中一般会扫描整个表的内容，会消耗很多时间做没必要的工作。但是，有时候只需要扫描表中关心的一部分数据，因此Hive在建表时引入了分区partition的概念。在Hive表中的一个partition对应于表下的一个目录，所有的partition的数据都存储在该分区字段目录中(比如按日期范围分区等)。在创建Hive表时指定的partition的分区空间叫做分区表。

Presto是Facebook最新研发的数据查询引擎，可对250PB以上的数据进行快速地交互式分析，且Presto的性能远超Hive，因此Presto是目前常用的大数据查询引擎。

现有的Presto在进行数据查询时的方案是采用串行读取各分区内容的方式进行，其运行步骤如：先读取第一个分区内容，再读取第二个分区内容，然后读取第三个分区内容，……直至依次读取所有分区内容。

由于现有的方案是串行读取各分区表数据，故在进行数据查询时具有以下的缺点：

1、整体执行时间长、效率低；

2、输入输出I/0数据量小

因此，现有的技术方案无法发挥Presto基于内存的强大查询优势。

发明内容

有鉴于此，本发明提供一种多分区表查询处理的方法和装置，能够实现并行执行查询各分区表数据，从而增加了输入输出数据量，提高了Presto的执行效率。

为实现上述目的，根据本发明的一个方面，提供了一种多分区表查询处理的方法。

一种多分区表查询处理的方法，包括：接收数据库查询语句；解析所述数据库查询语句以获得数据源表；从所述数据源表提取数据分区；如果所述数据分区的数目是一个，则直接执行所述数据库查询语句，否则对所述数据库查询语句进行并行化转换，把所述数据库查询语句分解成分别与各数据分区对应的多个子查询语句，然后并行执行所述多个子查询语句。

可选地，对所述数据库查询语句的并行化转换包括：根据所述数据分区的数目将所述数据库查询语句复制成对应的数目；为每个所述数据库查询语句添加相应的分区条件以形成相应的子查询语句，所述分区条件为相应的数据分区的标识；将添加了分区条件的各子查询语句拼接以使得并行执行各子查询。

可选地，所述拼接通过UNION ALL实现。

可选地，所述数据库查询语句是SQL语句，所述数据源表从所述SQL语句的FROM子句中解析。

可选地，所述数据分区是按每日划分的数据分区。

根据本发明的另一方面，提供了一种多分区表查询处理的装置。

一种多分区表查询处理的装置，包括：查询语句接收模块，用于接收数据库查询语句；数据源表获取模块，用于解析所述数据库查询语句以获得数据源表；数据分区提取模块，用于从所述数据源表提取数据分区；查询语句执行模块，用于如果所述数据分区的数目是一个，则直接执行所述数据库查询语句，否则对所述数据库查询语句进行并行化转换，把所述数据库查询语句分解成分别与各数据分区对应的多个子查询语句，然后并行执行所述多个子查询语句。

可选地，所述查询语句执行模块还用于：根据所述数据分区的数目将所述数据库查询语句复制成对应的数目；为每个所述数据库查询语句添加相应的分区条件以形成相应的子查询语句，所述分区条件为相应的数据分区的标识；将添加了分区条件的各子查询语句拼接以使得并行执行各子查询。

可选地，所述拼接通过UNION ALL实现。

可选地，所述数据分区是按每日划分的数据分区。

根据本发明的又一方面，提供了一种多分区表查询处理的装置。

一种多分区表查询处理的装置，包括：存储器和处理器，其中，所述存储器存储指令；所述处理器执行所述指令用于：接收数据库查询语句；解析所述数据库查询语句以获得数据源表；从所述数据源表提取数据分区；如果所述数据分区的数目是一个，则直接执行所述数据库查询语句，否则对所述数据库查询语句进行并行化转换，把所述数据库查询语句分解成分别与各数据分区对应的多个子查询语句，然后并行执行所述多个子查询语句。

可选地，所述处理器还用于：根据所述数据分区的数目将所述数据库查询语句复制成对应的数目；为每个所述数据库查询语句添加相应的分区条件以形成相应的子查询语句，所述分区条件为相应的数据分区的标识；将添加了分区条件的各子查询语句拼接以使得并行执行各子查询。

根据本发明的技术方案，根据数据库查询SQL语句中数据源表的数据分区，对SQL语句进行并行化转换，以将多分区数据源表的SQL查询转换为可并行执行的多个子SQL查询，从而提高了数据库查询的运行效率，增加了数据的输入输出量；使Presto同一时间可处理的SQL任务更多，进而大大提高了Presto运行的稳定性。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的多分区表查询处理的方法的主要步骤示意图；

图2是本发明实施例的原理架构图；

图3是本发明实施例的执行流程图；

图4是本发明实施例的查询语句并行化转换过程示意图；

图5是根据本发明一个实施例的多分区表查询处理的装置的主要模块示意图；

图6是根据本发明另一实施例的多分区表查询处理的装置的主要模块示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的多分区表查询处理的方法的主要步骤示意图。如图1所示，本发明的多分区表查询处理的方法主要包括如下的步骤S11至步骤S14。

步骤S11：接收数据库查询语句；

步骤S12：解析数据库查询语句以获得数据源表；

步骤S13：从数据源表提取数据分区；

步骤S14：如果数据分区的数目是一个，则直接执行数据库查询语句，否则对数据库查询语句进行并行化转换，把数据库查询语句分解成分别与各数据分区对应的多个子查询语句，然后并行执行该多个子查询语句。

其中，对所述数据库查询语句的并行化转换包括：根据所述数据分区的数目将所述数据库查询语句复制成对应的数目；为每个所述数据库查询语句添加相应的分区条件以形成相应的子查询语句，所述分区条件为相应的数据分区的标识；将添加了分区条件的各子查询语句拼接以使得并行执行各子查询。

根据本发明的技术方案，所述拼接通过UNION ALL实现。所述数据库查询语句是SQL语句，所述数据源表从所述SQL语句的FROM子句中解析；且所述数据分区是按每日划分的数据分区。

图2是本发明实施例的原理架构图。如图2所示，以Hive数据库表为例来进行说明，也可以是其他具有分区partition的数据库表，例如：MySQL、Oracle等等。本发明是通过对接收到的Hive表的查询SQL语句(执行语句)进行解析以提取查询数据源，然后判断该数据源表是否为多分区表(亦即，该Hive表包括多个分区)。对于多分区Hive表进行SQL语句的并行化转换处理，以生成与分区个数相同的多个SQL语句，然后将该多个SQL语句进行拼接，并且并行运行该多个SQL语句，从而得到SQL执行语句的查询结果。

图3是本发明实施例的执行流程图。如图3所示，数据查询操作开始后，首先接收SQL语句(步骤S31)，再解析该SQL语句(步骤S32)以获得数据源Hive表。SQL语句例如是：

SELECT dt,chan_first_cate_cd,count(distinct session_id)visits

FROM online_log_index

GROUP BY dt,chan_first_cate_cd；

则对该SQL语句进行解析，从SQL语句中“FROM”后找出原始数据源Hive表，即：online_log_index。

获取数据源表后，根据该数据源表包含的分区字段确定数据源表的所有分区，进而判断该数据源是否是多分区表(步骤S33)。在如上的例子中，可通过指令“show partitions online_log_index”来得到分区字段，如果分区字段值只有一个，则该数据源表为单分区表，否则该数据源表为多分区表。对于单分区表进行数据查询，直接运行原SQL语句即可；对于多分区表进行数据查询，则需将原SQL语句进行并行化转换处理，然后再运行。

结合上述示例，假设数据源Hive表online_log_index有3个以日期为标识的分区，例如分别是：2015-12-25、2015-12-26、2015-12-27，表示相应业务在这三日的数据，那么数据源Hive表即为多分区表，此时，需将原SQL语句进行并行化转换处理。

本发明实施例的查询语句并行化转换过程示意图如图4所示。首先是将原SQL语句进行复制为多个子SQL语句，其中，复制的个数与数据源表的分区个数相同，本实施例中，需将原SQL语句复制为3个子SQL语句；再为这3个子SQL语句添加分区条件；然后将添加了分区条件的子SQL语句通过“UNION ALL”拼接成临时表；最后，执行SELECT*FROM临时表，即可将所有分区的查询结果全部显示出来。

下面结合前述的例子，详细说明本发明的实施过程。

原SQL执行语句为：

SELECT dt,chan_first_cate_cd,count(distinct session_id)visits

FROM online_log_index

GROUP BY dt,chan_first_cate_cd；

由于本实施例中有3个以日期为标识的分区，分别是：2015-12-25、2015-12-26、2015-12-27，故需将原SQL执行语句复制为3份，分别对应3个子SQL语句。此处“复制”的过程为本领域技术人员所公知的技术，不再赘述。

之后，依次为每个子SQL语句增加分区条件。以分区条件“2015-12-25”为例，对一个子SQL语句增加分区条件后得到：

SELECT dt,chan_first_cate_cd,count(distinct session_id)visits

FROM online_log_index Where dt＝'2015-12-25'

GROUP BY dt,chan_first_cate_cd；

另外两个子SQL语句的处理方法相同，此处不再列举。该3个子SQL语句的区别仅在于分区条件，(如上述子SQL语句出现中的Wheredt＝'2015-12-25')。

然后，通过UNION ALL将各分区的子SQL语句拼接起来，形成一个大的SQL语句，并且并行执行各子SQL，将所得到的结果作为一个临时表，通过“SELECT*FROM临时表”从临时表中查找目标数据。具体执行过程如下所示：

SELECT*FROM(SELECT dt,chan_first_cate_cd,count(distinctsession_id)visits

FROM online_log_index

GROUP BY dt,chan_first_cate_cd

SELECT dt,chan_first_cate_cd,count(distinct session_id)visits

FROM online_log_index where dt＝'2015-12-25'

GROUP BY dt,chan_first_cate_cd

union all

SELECT dt,chan_first_cate_cd,count(distinct session_id)visits

FROM online_log_index where dt＝'2015-12-26'

GROUP BY dt,chan_first_cate_cd

union all

SELECT dt,chan_first_cate_cd,count(distinct session_id)visits

FROM online_log_index where dt＝'2015-12-27'

GROUP BY dt,chan_first_cate_cd)。

根据如上所述实施例的实施过程，即可实现将多分区数据源表的数据查询并行运行，从而极大提高了SQL的运行效率，使Presto同一时间可以处理更多的SQL任务。由于Presto在进行数据库查询时是基于内存计算的，SQL早运行完即可早释放内存，因此，可避免导致内存溢出。

图5是根据本发明一个实施例的多分区表查询处理的装置的主要模块示意图。如图5所示，本发明的多分区表查询处理的装置50主要包括查询语句接收模块51、数据源表获取模块52、数据分区提取模块53和查询语句执行模块54。

查询语句接收模块51用于接收数据库查询语句；数据源表获取模块52用于解析所述数据库查询语句以获得数据源表；数据分区提取模块53用于从所述数据源表提取数据分区；查询语句执行模块54用于如果所述数据分区的数目是一个，则直接执行所述数据库查询语句，否则对所述数据库查询语句进行并行化转换，把所述数据库查询语句分解成分别与各数据分区对应的多个子查询语句，然后并行执行所述多个子查询语句。

查询语句执行模块54还可以用于：根据所述数据分区的数目将所述数据库查询语句复制成对应的数目；为每个所述数据库查询语句添加相应的分区条件以形成相应的子查询语句，所述分区条件为相应的数据分区的标识；将添加了分区条件的各子查询语句拼接以使得并行执行各子查询。

其中，所述拼接通过UNION ALL实现。

根据本发明实施例的技术方案，所述数据库查询语句是SQL语句，所述数据源表从所述SQL语句的FROM子句中解析。并且，所述数据分区是按每日划分的数据分区。

图6是根据本发明另一实施例的多分区表查询处理的装置的主要模块示意图。如图6所示，本发明的多分区表查询处理的装置60主要包括存储器61和处理器62。

其中，存储器61存储指令；处理器62执行所述指令用于：接收数据库查询语句；解析所述数据库查询语句以获得数据源表；从所述数据源表提取数据分区；如果所述数据分区的数目是一个，则直接执行所述数据库查询语句，否则对所述数据库查询语句进行并行化转换，把所述数据库查询语句分解成分别与各数据分区对应的多个子查询语句，然后并行执行所述多个子查询语句。

处理器62还可以用于：根据所述数据分区的数目将所述数据库查询语句复制成对应的数目；为每个所述数据库查询语句添加相应的分区条件以形成相应的子查询语句，所述分区条件为相应的数据分区的标识；将添加了分区条件的各子查询语句拼接以使得并行执行各子查询。

根据本发明实施例的技术方案，根据数据库查询SQL语句中数据源表的数据分区，对SQL语句进行并行化转换，以将多分区数据源表的SQL查询转换为可并行执行的多个子SQL查询，从而提高了数据库查询的运行效率，增加了数据的输入输出量；使Presto同一时间可处理的SQL任务更多，进而大大提高了Presto运行的稳定性。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种多分区表查询处理的方法，其特征在于，包括：

接收数据库查询语句；

解析所述数据库查询语句以获得数据源表；

从所述数据源表提取数据分区；

如果所述数据分区的数目是一个，则直接执行所述数据库查询语句，否则对所述数据库查询语句进行并行化转换，把所述数据库查询语句分解成分别与各数据分区对应的多个子查询语句，然后并行执行所述多个子查询语句。

2.根据权利要求1所述的方法，其特征在于，对所述数据库查询语句的并行化转换包括：

根据所述数据分区的数目将所述数据库查询语句复制成对应的数目；

为每个所述数据库查询语句添加相应的分区条件以形成相应的子查询语句，所述分区条件为相应的数据分区的标识；

将添加了分区条件的各子查询语句拼接以使得并行执行各子查询。

3.根据权利要求2所述的方法，其特征在于，所述拼接通过UNION ALL实现。

4.根据权利要求1所述的方法，其特征在于，所述数据库查询语句是SQL语句，所述数据源表从所述SQL语句的FROM子句中解析。

5.根据权利要求1所述的方法，其特征在于，所述数据分区是按每日划分的数据分区。

6.一种多分区表查询处理的装置，其特征在于，包括：

查询语句接收模块，用于接收数据库查询语句；

数据源表获取模块，用于解析所述数据库查询语句以获得数据源表；

数据分区提取模块，用于从所述数据源表提取数据分区；

查询语句执行模块，用于如果所述数据分区的数目是一个，则直接执行所述数据库查询语句，否则对所述数据库查询语句进行并行化转换，把所述数据库查询语句分解成分别与各数据分区对应的多个子查询语句，然后并行执行所述多个子查询语句。

7.根据权利要求6所述的装置，其特征在于，所述查询语句执行模块还用于：

8.根据权利要求7所述的装置，其特征在于，所述拼接通过UNION ALL实现。

9.根据权利要求6所述的装置，其特征在于，所述数据库查询语句是SQL语句，所述数据源表从所述SQL语句的FROM子句中解析。

10.根据权利要求6所述的装置，其特征在于，所述数据分区是按每日划分的数据分区。

11.一种多分区表查询处理的装置，其特征在于，包括：存储器和处理器，其中，

所述存储器存储指令；

所述处理器执行所述指令用于：

接收数据库查询语句；

解析所述数据库查询语句以获得数据源表；

从所述数据源表提取数据分区；

12.根据权利要求11所述的装置，其特征在于，所述处理器还用于：