CN103310011A

CN103310011A - 集群数据库系统环境下的数据查询解析方法

Info

Publication number: CN103310011A
Application number: CN2013102749208A
Authority: CN
Inventors: 李晋钢; 宋怀明; 苗艳超; 刘新春; 邵宗有
Original assignee: Dawning Information Industry Beijing Co Ltd
Current assignee: Dawning Information Industry Beijing Co Ltd
Priority date: 2013-07-02
Filing date: 2013-07-02
Publication date: 2013-09-18

Abstract

本发明公开了一种集群数据库系统环境下的数据查询解析方法，包括：接收到来自客户端的为第一结构化查询语言SQL语句的查询请求后，对所述第一SQL语句进行语法解析，使得语法解析后的第一SQL语句为以SelectStmt结构体表示的语法树；对所述语法树进行分析并构建相应的查询任务树；根据预确定的优化规则对所述查询任务树进行优化并生成查询任务流；其中：所述查询任务树包括由多层级构成的多个查询任务节点，同一层级包括一个或多个查询任务节点，其中，一个查询任务节点对应一个查询任务，以及，同一层级的多个查询任务节点生成为相互间并行执行的查询任务。采用本发明，可充分利用无共享结构集群数据库系统的并行运行算能力。

Description

集群数据库系统环境下的数据查询解析方法

技术领域

本发明涉及数据处理技术领域，更具体地，涉及一种集群数据库系统环境下的数据查询解析方法。

背景技术

集群数据库系统通常由采用无共享结构（Shared-nothing）互联的多个数据库节点构成，并且，数据以分布式方式存储在各数据库节点中。

通常在集群数据库系统中，查询语句经过解析（可包括词法分析，语法分析和语义分解和优化），分解成查询执行任务，提交给数据库节点执行查询以获得查询结果。现有一种执行查询的方法是嵌套查询，例如，在一个SELECT语句的WHERE子句、FROM子句或HAVING子句中嵌套另一个SELECT语句的查询称为嵌套查询（又称子查询）。现有的嵌套查询会在多个数据表和数据库节点进行查询和交换，通常会导致复杂的查询算法，从而严重影响查询效率。

因此，需要一种改进的嵌套查询执行方式以实现集群数据库系统环境下的数据查询。

发明内容

为解决现有技术存在的问题，本发明提供了一种集群数据库系统环境下的数据查询解析方法，包括：

接收到来自客户端的为第一结构化查询语言SQL语句的查询请求后，对所述第一SQL语句进行语法解析，使得语法解析后的第一SQL语句为以SelectStmt结构体表示的语法树，其中，所述SelectStmt结构体包括Select链表、From链表、Where链表、Groupby链表、Having链表、Orderby链表和Union链表；

对所述语法树进行分析并构建相应的查询任务树；

根据预确定的优化规则对所述查询任务树进行优化并生成查询任务流；其中：

所述查询任务树包括由多层级构成的多个查询任务节点，同一层级包括一个或多个查询任务节点，其中，一个查询任务节点对应一个查询任务，以及，同一层级的多个查询任务节点生成为相互间并行执行的查询任务。

在可选实施例中，对所述语法树进行分析并构建相应的查询任务树包括：在判断出第一查询任务节点小数据表嵌套子查询时，提取所述第一查询任务节点中小数据表嵌套子查询语法树并构建为所述第一查询任务节点下的子节点，将查询结果集分发类型标记为ALL。

在可选实施例中，对所述语法树进行分析并构建相应的查询任务树包括：在判断出第二查询任务节点含大数据表嵌套子查询时，提取所述第二查询任务节点中大数据表嵌套子查询语法树并构建为所述第二查询任务节点下的子节点，将查询结果集分发类型标记为HASH。

在可选实施例中，根据预定的优化规则对所述查询任务树进行优化并生成查询任务流，包括：判断未处理的查询任务节点中是否有嵌套查询；在判断为是时，依次判断所述Select链表、From链表、Where链表、Having链表和Union链表中是否有嵌套查询；以及，对判断出有嵌套查询的链表构建对应的子查询任务树，并将所构建的子查询任务树插入到查询任务队列中，以及设定将与所述子查询任务树对应的子查询结果更新到该有嵌套查询的链表的查询结果组中。

在可选实施例中，所述预定的优化规则包括以下之一或任意组合：

每一个查询任务或子查询任务针对预设的一组数据库节点进行查询，其中，每一数据大表在该组数据库节点中的各数据库节点的分布规则相同，每一数据小表在该组数据库节点中的各数据库节点上设置有数据副本；

将过滤后的查询要求下发给子查询任务节点；

属于一个数据表的子查询结果集采用统一的别名。

在可选实施例中，对判断出有嵌套查询的链表构建对应的子查询任务树，并将所构建的子查询任务树插入到查询任务队列中，以及设定将与所述子查询任务树对应的子查询结果更新到该有嵌套查询的链表的查询结果组中，包括：

判断所述嵌套查询是否与外部数据表关联，

在判断出有关联时，构建子查询任务树节点，作为外部数据表查询任务树节点下的子节点，以及根据所述外部数据表的属性标注该查询结果集分发类型；

在判断出无关联时，构建子查询任务树节点，作为外部数据表查询任务树节点下的子节点，以及将该查询结果集分发类型标注为赋值方式ASSIGN。

在可选实施例中，设定将与所述子查询任务树对应的子查询结果更新到该有嵌套查询的链表的查询结果组中，包括：

在对子查询结果集采用统一的别名时，将所述子查询结果集的第一属性信息更新到相对应的后续查询子任务中，其中，所述子查询结果集的第一属性信息包括子查询结果集列以及子查询结果集别名。

在可选实施例中，设定将与所述子查询任务树对应的子查询结果更新到该有嵌套查询的链表的查询结果组中，包括：在对子查询结果采用中间变量存储时，将所述子查询结果的第二属性信息更新到相对应的链表的后续查询任务中，其中，所述子查询结果集的第二属性信息包括中间结果集名。

本发明实施例通过对查询语句的分解优化，构建并行执行的查询任务流，充分利用无共享结构集群数据库系统的并行运行算能力。

附图说明

图1是集群数据库系统环境下的数据查询的逻辑结构图。

图2是根据发明实施例的一种集群数据库系统环境下的数据查询解析方法的流程示意图。

图3是SelectStmt结构体的结构示意图。

图4是根据本发明一实施例的分解构造的查询任务树。

图5是根据本发明一实施例的嵌套查询优化流程的示意图。

具体实施方式

下面结合附图对本发明进行进一步地详细说明。

集群数据库查询服务的逻辑结构如图1所示，客户端将SQL(StructuredQuery Language，结构化查询语言)查询语句提交给查询服务器20。然后查询服务器20对SQL查询语句进行解析优化后生成并行执行查询任务流，提交给数据库节点30。各数据库节点30在接收到查询任务后执行查询，并获得查询结果，然后各数据库节点30将所得到的查询结果分别发送给查询服务器20。最后，查询服务器20将查询结果汇总，返回给客户端10。

图2是根据发明实施例的一种集群数据库系统环境下的数据查询解析方法的流程示意图。如图2所述，该数据查询解析方法包括以下步骤：

S201，接收到来自客户端的为第一SQL语句的查询请求后，对所述第一SQL语句进行语法解析，使得语法解析后的第一SQL语句为以SelectStmt结构体表示的语法树。

在本发明实施例中，所述SelectStmt结构体包括Select链表、From链表、Where链表、Groupby链表、Having链表、Orderby链表和Union链表；

S202，对所述语法树进行分析并构建相应的查询任务树。

在本发明实施例中，所述查询任务树包括由多层级构成的多个查询任务节点，同一层级包括一个或多个查询任务节点，其中，一个查询任务节点对应一个查询任务，以及，同一层级的多个查询任务节点生成为相互间并行执行的查询任务。

S203，根据预确定的优化规则对所述查询任务树进行优化并生成查询任务流。

在本发明实施例中，可以采用Lex（Lexical compiler）和Yacc（YetAnother Compiler Compiler）对SQL语句进行词法和语法解析。Lex和Yacc是现有进行词法和语法分析的工具，通过编写词法语法分析规则，构建出词法语法分析的代码。Lex用来实现词法分析模块，原理是利用有限状态自动机识别给定的正则表达式，把符合条件的字符串划为一个令牌（token）。Yacc用于实现语法分析模块，利用BNF解析语句，在不断规约的过程中，把SQL语句解析为一棵语法树。

在本发明实施例中，将语法解析后的SQL语句用一个SelectStmt结构体表示，此结构体是一颗语法树，如图3所示，包括select，from，where，groupby，having，orderby和union共7个链表，其中有些链表可以嵌套包含SelectStmt结构，而union链表内一定是SelectStmt结构。

嵌套查询可能出现在Select list，From list，Where list和Having list中。

图4是根据本发明一实施例的分解构造的查询任务树。图4中，查询子任务表示为处于不同的层级。每一个查询子任务节点都是一个单独执行的SQL语句，其执行结果可以采用外部表的形式进行保存。在本发明实施例中，查询任务流可以分解构造成查询任务树，每个查询子任务节点都是一个运算子，结构为（sql，exeNodelist,distNodelist,distType），其中：sql为执行的sql查询语句，exeNodelist为运行查询任务的数据库节点，distNodelist为查询结果集分发数据库节点，distType为分发类型。

例如，分发类型有HASH，RANGE，ALL，ASSIGN等。HASH指将结果集散列到distNodelist中，RANGE指将结果集排序存储到distNodelist中，ALL指将结果集全拷贝到distNodelist中，ASSIGN（赋值方式）指结果集为一个值，采用中间变量存储。

在一可选实施例中，提取查询任务节点中小表嵌套子查询语法树构建任务树节点，作为此查询任务节点的子节点插入到任务树中，标记结果集分发类型为ALL。构造子查询语句，作为字符串插入到父节点的相应位置

类似地，提取查询任务节点中大表嵌套子查询语法树构建任务树节点，作为此查询任务节点的子节点插入到任务树中，标记结果集分发类型为HASH。构造子查询语句，作为字符串插入到父节点的相应位置。

在本发明实施例中，根据数据的情况确定表的大小，如果是分布存储的表（即数据分块存放在多个数据节点中）则为大表，如果是复制表（即数据在多个节点上存储相同的副本）则为小表。

下面以在Having list中有嵌套查询进行举例说明。Having list中有嵌套查询的情况可以包括以下两种：

A）如果嵌套查询中与外部表有关联，则构造子查询任务树节点，作为外部表任务树节点的子节点插入到任务树中，如果嵌套查询为大表，则标记结果集分发类型为重划分HASH，否则标记结果集分发类型为全复制ALL。构造子查询语句，作为字符串插入到父节点Having list中。

B)如果嵌套查询中与外部表无关联，即嵌套查询只返回一个值，则构造子查询任务树节点，作为外部表任务树节点的子节点插入到任务中。而且，标记结果集分发类型为ASSIGN。将分发变量名作为字符串插入到父节点having list中。

可选地，在本发明实施例中，可以针对上面7个语义链表，进行分解和重组，构造查询任务树。其中，查询任务树中的各查询任务节点可包括7个语义链表中两个或多个。

进一步地，对查询任务树进行优化从而生成查询任务流。通过对并行查询树进行优化，构造左深树，然后生成并行执行任务流。对查询任务数进行优化的一种实现方式可以包括如下：

（1）除中间结果集外，每一个子查询任务只针对一个大表（含大表视图）进行查询。

（2）尽可能下发过滤查询，并将过滤后的查询要求下发到子查询任务节点，减少查询关联的数据量。

例如，如果一个子查询任务中含有过滤条件，且这个子查询任务还有子查询任务节点（即含有孩子节点），如果过滤条件只针对一个孩子节点中的数据表，则将此过滤条件下发给子任务节点执行。

（3）属于一个数据表的子查询结果集采用统一的别名。

每个查询任务节点包含一个PreSemantic列表，表示其子任务队列。

在本发明实施中，嵌套查询优化流程包括如下：

S501，开始；

S502，判断是否有未处理的Semantic节点，如果是，则执行步骤S503。如果否，则执行步骤S510：结束。

S503，提取Semantic节点；

S504，判断Semantic节点中是否有嵌套子查询，如果是，则执行步骤S505；如果否，则返回执行步骤S502。

S505，是否有Having list嵌套；如果是，则执行步骤S506，如果否，则执行步骤S509：

S506，判断嵌套子查询是否与外部表有关联；如果是，则执行步骤S507；如果否，则执行步骤S508。

S507，构造子查询任务树，将所构造的子查询任务树插入到Presemantic队列中，将查询结果集别名更新到having中。然后在执行步骤S507后，继续执行步骤S504。

S508，构造子查询任务树，将所构造的子查询任务树插入到Presemantic队列中，将查询结果赋值给变量，更新having组。然后在执行步骤S508后，继续执行步骤S504。

S509，将嵌套子查询提取出来，生成查询任务树并插入到Presemantic队列中，根据子查询表属性，将查询结果集的属性信息插入到相应的队列中。其中，与查询结果集相关的属性信息包括结果集名及其结构、存储位置等。

然后，在执行步骤S509后，继续执行步骤S504。

在本发明一可选实施例中，设定将与所述子查询任务树对应的子查询结果更新到该有嵌套查询的链表的查询结果组中，包括：在对子查询结果集采用统一的别名时，将该子查询结果集的第一属性信息更新到相对应的后续查询子任务中，其中，该子查询结果集的第一属性信息包括子查询结果集列以及子查询结果集别名。

在可选实施例中，设定将与所述子查询任务树对应的子查询结果更新到该有嵌套查询的链表的查询结果组中，包括：在对子查询结果采用中间变量存储时，将所述子查询结果的第二属性信息更新到相对应的链表的后续查询任务中，其中，所述子查询结果集的第二属性信息包括中间结果集名

本发明实施例通过对查询语句的分解优化，构建并行执行任务流，充分利用无共享结构集群数据库系统的并行运算能力，提高I/O代价+CPU代价查询效率。SQL查询的查询代价公式为：

查询代价=I/O代价+CPU代价+通信代价

进一步地，通过优先执行过滤查询缩小关联数据集，利用高速的集群内部网络，有效降低中间结果传输的时间损耗。而且通过采用中间结果分发机制（即对运算结果的分发操作），降低了查询的通信代价，并可保证结果的正确性。

在此提供的算法和实现不限于任何特定的计算机、虚拟系统或者其它设备。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或部件，以及此外可以把它们分成多个子模块或子单元或子部件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书（包括伴随的权利要求、摘要和附图）中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书（包括伴随的权利要求、摘要和附图）中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本申请的说明书中虽然描述了本发明实施例的大量具体细节，然而，能够理解，本发明实施例并不是必须在所有的具体细节情况下才能实施。在一些实例中，并未详细示出公知的方法、结构和技术，以便于清楚地理解本发明的发明主旨。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种集群数据库系统环境下的数据查询解析方法，包括：

对所述语法树进行分析并构建相应的查询任务树；

2.根据权利要求1所述的数据查询解析方法，其特征在于，对所述语法树进行分析并构建相应的查询任务树包括：

在判断出第一查询任务节点含小数据表嵌套子查询时，提取所述第一查询任务节点中小数据表嵌套子查询语法树并构建为所述第一查询任务节点下的子节点，将查询结果集分发类型标记为全复制ALL。

3.根据权利要求1所述的数据查询解析方法，其特征在于，对所述语法树进行分析并构建相应的查询任务树包括：

在判断出第二查询任务节点含大数据表嵌套子查询时，提取所述第二查询任务节点中大数据表嵌套子查询语法树并构建为所述第二查询任务节点下的子节点，将查询结果集分发类型标记为重划分HASH。

4.根据权利要求2或3所述的数据查询解析方法，其特征在于，根据预定的优化规则对所述查询任务树进行优化并生成查询任务流，包括：

判断未处理的查询任务节点中是否有嵌套查询；

在判断为是时，依次判断所述Select链表、From链表、Where链表、Having链表和Union链表中是否有嵌套查询；

对判断出有嵌套查询的链表构建对应的子查询任务树，并将所构建的子查询任务树插入到查询任务队列中，以及设定将与所述子查询任务树对应的子查询结果更新到该有嵌套查询的链表的查询结果组中。

5.根据权利要求4所述的数据查询解析方法，其特征在于，所述预定的优化规则包括以下之一或任意组合：

将过滤后的查询要求下发给子查询任务节点；

属于一个数据表的子查询结果集采用统一的别名。

6.根据权利要求5所述的数据查询解析方法，其特征在于，对判断出有嵌套查询的链表构建对应的子查询任务树，并将所构建的子查询任务树插入到查询任务队列中，以及设定将与所述子查询任务树对应的子查询结果更新到该有嵌套查询的链表的查询结果组中，包括：

判断所述嵌套查询是否与外部数据表关联，

7.根据权利要求6所述的数据查询解析方法，其特征在于，设定将与所述子查询任务树对应的子查询结果更新到该有嵌套查询的链表的查询结果组中，包括：

在对子查询结果集采用统一的别名时，将所述子查询结果集的第一属性信息更新到相对应的后续查询子任务中，其中，所述子查询结果集的第一属性信息包括子查询结果集列以及子查询结果集别名；或者，

在对子查询结果采用中间变量存储时，将所述子查询结果的第二属性信息更新到相对应的链表的后续查询任务中，其中，所述子查询结果集的第二属性信息包括中间结果集名。