CN101739398A

CN101739398A - 分布式数据库多连接查询优化算法

Info

Publication number: CN101739398A
Application number: CN200810159685A
Authority: CN
Inventors: 高永超; 钱恒; 刘丽梅; 王云争; 王玎
Original assignee: SHANDONG INSTITUTE OF STANDARDIZATION
Current assignee: SHANDONG INSTITUTE OF STANDARDIZATION
Priority date: 2008-11-11
Filing date: 2008-11-11
Publication date: 2010-06-16

Abstract

一种数据库技术领域的查询优化算法，主要用于解决分布式数据库多连接查询优化问题。技术方案要点如下：1.对三元以上关系连接进行预优化，减少了关系连接的操作顺序优化的搜索空间；2.制定预处理规则，对预优化后的全部关系连接进行合并；3.加载数据库统计信息，估计各处理机的负载，以负载均衡和处理机间传输代价最小为目标，采用图分割方法将关系连接分配到多个处理机进行并行优化。本发明通过预优化多元连接减小了连接操作顺序优化的搜索空间，利用并行机制降低了优化子问题的规模，有效提高了多连接查询优化的效率。

Description

分布式数据库多连接查询优化算法

技术领域

本发明涉及数据库技术领域，具体地，涉及一种分布式数据库的三阶段多连接查询优化方法，该算法用于查询过程中多连接操作的优化，以提高查询效率。

背景技术

数据和信息在当今社会活动中越来越显示出其重要性，已经成为人类发展的一种极为重要的资源。分布式数据库是计算机网络与数据库技术相互协调、渗透发展起来的产物，它通过增加数据的冗余来提高系统的可靠性、可用性，但同时使得分布式查询处理更加复杂，因此分布式数据库的查询优化在分布式数据库技术中十分重要。

分布式查询处理具有能够通过通信网络存取远程站点的数据，以及在不同站点间传输请求和数据的能力。分布式查询优化的准则是使通信费用最低和响应时间最短，即以最小的总代价，在最短的响应时间内获得需要的数据。分布式查询处理由四个层次模式组成：

(1)查询分解：将查询问题转换成一个定义在全局关系上的关系代数表达式。

(2)数据本地化：把一个在全局关系上的查询进行具体化，落实到合适的片段上的查询，使尽可能做到本地化或近地化。

(3)全局优化：输入是分片查询，即在片段上的查询，其目标在于寻找一个近于最优的执行策略。

(4)局部优化：由拥有与查询有关的片段的各个站点执行，采用集中式数据库系统中查询优化的算法，所需信息取自局部模式。

由此可见，在分布式数据库系统中，查询优化包括两个内容：全局优化即查询策略优化、局部处理优化。查询分解和数据本地化已经通过消除冗余表达式、查询本地化或近地化等做了某些优化，全局优化即是提出分片查询的最佳操作次序，使得代价函数最小，代价函数一般是I/O、CPU和通信代价之和。

目前分布式查询的全局优化的策略和算法主要有三类：基于关系代数等价变换的查询优化处理，基于半连接算法的优化连接查询，基于直接连接算法的查询优化处理。基于半连接算法的优化连接查询经半连接操作，可减少操作关系的大小，从而减少站点间数据的传输量，达到优化目的，适于只考虑站点间的通信传输代价的大型广域网。在高速的局域网中，本地处理的代价也必须考虑在内，使用全连接是较合适的，查询优化策略就是去确定选择执行全连接的最佳方法。基于直接连接算法的站点依赖算法、分片和复制算法、站点依赖和数据复制算法，以及Hash划分算法等主要是使得连接操作的数据传送量最小(最好是无数据传送)和负载均衡，从而达到优化的目的。

全局查询优化的关键是如何选择操作的执行顺序，不同的查询算法，往往会使查询操作的执行效率产生很大的差异。对分布式查询处理，要充分利用处理的可并行性和对数据进行合理分布来优化查询处理，使得查询的费用最小。一个好的查询处理应该使数据的传输量和通信次数最少，并充分利用分布式的并行处理，从而减少查询的总代价和总的处理时间。

对于海量信息的查询和复杂查询，由于多元连接的存在使得当前查询算法的费用仍然很大。本发明在考虑通信代价和当地处理代价的情况下，以减少通信代价和提高响应速率为目标，提出分布式数据库的多连接查询优化算法。

发明内容

本发明的目的是针对分布式数据库中的多连接查询，提出一种三阶段的查询优化算法，该算法首先估计各连接的代价，并分别对多元关系连接进行预优化，确定多元关系连接的操作次序；然后根据连接间的代价将所有连接分配到多个处理器进行并行优化，尽量保证负载均衡；最后分别优化各处理器上的关系的连接顺序。

给定一个查询Q，经过查询分解和数据本地化，确定查询所用的片段及其你所在的站点。设Q涉及的关系为{R₁，R₂，…R_n}，用连接图G表示这n个关系及关系之间可能的连接，图的顶点表示关系，边表示关系之间的连接，根据数据库统计信息，包括各站点片段统计信息、资源信息和通信信息等，预先估计关系的连接代价作为边的权值。在两表连接中，选择的驱动表不同，连接的代价也有差异，因为连接操作满足交换律和结合律，只是对于分布式数据库而言，不同站点间的数据需要传输，存在传输代价，因而这里连接图中边的权值由两表连接时使连接代价较小的连接方式所确定。根据边的权重，将各关系进行选择连接，形成一个不包含环的连通分量，即一棵查询树，就确定了连接的一个操作顺序。

假设有查询Q＝{(R₁.A₂，R₂.A₄)|(R₁.A₁＝R₂.A₁)∧(R₂.A₁＝R₃.A₁)∧(R₃.A₂＝R₄.A₂)∧(R₃.A₃＝R₅，A₃)}，通过构造该查询的连接图可知，由该查询可以得到3个关系连接：在属性A₁上R₁∞R₂∞R₃，在属性A₂上R₃∞R₄，在属性A₃上R₃∞R₅。三个以上关系的连接如R₁∞R₂∞R₃，有三种连接次序(见下图)，本身存在一个最优连接次序。

因此本发明中首先对三个以上关系的连接进行预优化处理，选择最小代价的执行子顺序，减少全部关系连接的搜索空间，然后进行并行优化，并尽量保证负载均衡，从而提高查询的效率。

本发明方法具体如下：

步骤一：将查询中的关系连接按关系数目进行分类；

步骤二：加载数据库中的统计信息，预估关系的连接代价作为边的权值；

步骤三：三元以上连接的预优化；

步骤四：对全部关系连接进行预处理；

步骤五：连接操作的并行化，尽量保证均衡负载；

步骤六：并行地在各处理机上进行相应关系连接的操作顺序的优化。

流程如附图所示。

本发明方法中采用三阶段优化算法，首先通过对三元以上关系连接的预优化，减少了操作顺序优化的搜索空间；然后对预优化后的连接图制定了预处理规则，以均衡负载和处理机间传输代价最小为目标将连接划分到多个处理机进行并行处理；最后在各处理机上分别进行关系连接的操作顺序的优化。该方法减小了搜索空间、降低了优化问题的规模，从而提高了查询的效率。

附图说明

附图是本发明的流程示意图。

具体实施方式

以下对本发明的具体实施作进一步的描述：

步骤一：将查询中的关系连接划分为两类：二元关系连接、三元以上关系的连接；

步骤二：加载数据库中的统计信息，包括各站点片段统计信息、资源信息和通信信息等，预估关系的连接代价作为边的权值；

步骤三：预优化三元以上连接的操作顺序。确定各个三元以上连接的各自的最优操作顺序，这与集中式数据库中的查询操作相同，可以使用现有的有效策略和方法，并且可以并行处理；

步骤四：预处理规则：如果某三元以上连接只与另外的一个关系间存在连接操作，则将该三元连接与该关系合并成一个新的关系，但仍以该关系的名称命名，将预优化后的连接总代价记入后续的连接代价中；如果某三元以上连接中的某个或某几个关系与另外的关系间存在连接操作，则保留该关系，将其余关系并入这个或几个关系中，同样地，与其它关系进行连接时考虑预优化的连接代价；

步骤五：连接操作的并行化，尽量保证均衡负载。收集处理机的负载信息，以均衡负载和处理机间传输代价最小为目标，采用图分割方法将连接图G划分为多个子题，从而相应地将关系连接划分到多个处理机进行并行优化。

步骤六：采用集中式数据库查询优化的有效策略并行地在各处理机上进行相应关系连接操作顺序的优化。

本发明方法具有可行性和高效性，能够解决分布式数据库多连接查询优化问题。特别是本算法通过对三元以上关系连接的预优化，减少了操作顺序优化的搜索空间；然后按照预处理规则对连接图中的关系代表的顶点进行合并，并均衡地将它们分配到多个处理机进行并行优化，降低了优化子问题的规模。本发明有效提高了查询优化的效率，为分布式数据库的多连接查询优化提供了新的方法。

Claims

1.一种分布式数据库多连接查询优化算法，其特征在于它通过如下步骤实现：(1)将查询中的关系连接划分为二元关系连接、三元以上关系的连接两类；(2)加载数据库中的统计信息，预估关系的连接代价作为边的权值；(3)利用集中式数据库查询优化方法，预优化三元以上连接；(4)利用预处理规则对三元以上连接的顶点进行合并；(5)收集处理机的负载信息，以均衡负载和处理机间传输代价最小为目标，采用图分割方法将全部关系连接划分到多个处理机进行并行优化；(6)采用集中式数据库查询优化的有效策略并行地在各处理机上进行相应关系连接操作的优化。

2.根据权力要求1所述的分布式数据库多连接查询优化算法，其特征在于步骤(1)和步骤(3)中将关系连接按元素数目进行分类，对三个以上关系连接进行预优化，减少了全部关系连接操作优化的搜索空间。

3.根据权力要求1所述的分布式数据库多连接查询优化算法，其特征在于步骤(4)中制定预处理规则，对预优化后的关系进行合并，减少了连接图中的顶点个数，从而降低了步骤(5)中并行划分的问题规模。

4.根据权力要求1所述的分布式数据库多连接查询优化算法，其特征在于步骤(5)和步骤(6)采用了并行机制，根据处理机的负载信息将关系连接均衡地划分到多个处理机上，分别进行关系连接操作顺序的优化，从而减小了子优化问题的规模、提高了查询的效率。