CN103336829A

CN103336829A - 基于模拟退火算法的查询优化方法

Info

Publication number: CN103336829A
Application number: CN2013102822434A
Authority: CN
Inventors: 姜弢; 宋健; 徐学纯; 贾海青
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2013-07-05
Filing date: 2013-07-05
Publication date: 2013-10-02
Anticipated expiration: 2033-07-05
Also published as: CN103336829B

Abstract

本发明涉及一种基于模拟退火算法的查询优化方法，是将数据查询优化过程分成建立模型，分解策略空间和优化三部分，然后引入模拟退火算法，对所有策略空间子集进行并行搜索，从每个子集中得到一个最终解，在比较最终解后得到最优解。本发明公开的模拟退火算法较其他智能优化算法能够有效避免陷入局部极值，缩减了优化时间；其次，由于使用了并行搜索，提高了模拟退火算法搜索范围，降低了模拟退火算法局部搜索特性对搜索精度的影响。与传统的局部随机搜索算法搜索到最优策略的概率比较，对提高得到最优策略的概率效果明显，提高了数据库的查询速度，缩短查询优化相对时间，以及提高得到最优策略概率。

Description

基于模拟退火算法的查询优化方法

技术领域

本发明涉及一种关系数据库查询的优化方法，尤其是提高大型关系数据库多链接查询速度的优化方法。

背景技术

关系数据库是建立在数学概念基础上的一款主流数据库，能够直接的描述现实关系，存取效率较高，但是数据结构比较复杂，尤其是大型关系数据库，随着应用环境的扩大，其储存的数据种类越来越多，数量也越来越大，数据结构就变得极为复杂，在进行多链接查询时，查询效率低下。为了使大型关系数据库数据库系统能够及时响应用户操作，快速给出查询结果，往往要进行查询优化。查询优化指的是在查询语句对应的多种执行策略中选择一种能够最快给出查询结果的策略，即最优策略，执行策略也叫做查询策略，查询策略的集合称为策略空间S,查询优化过程中运用的算法称为查询优化方法。

传统查询优化方法主要包括穷尽搜索算法和局部随机搜索算法，穷尽搜索算法通过穷尽S内的每一条查询策略寻找最优策略，该算法对储存空间的需求很大，当查询关系个数较多时，算法效率太低，变得不可行。局部随机搜索算法在搜索最优策略的过程中并不搜索整个策略空间S,而只搜索它的一个子集,这个子集是被期待包含一个最优策略或者至少包含一个接近最优的策略，所以得到最优策略的概率很低。

近年，智能优化算法在数据库查询优化问题上得到广泛运用,如遗传算法(Genetic Algorithm，GA)和粒子群算法(Particle Swarm Optimizer，PSO)等。当优化问题的规模较大、搜索空间变得复杂时,多数智能算法能够搜索到近最优解,但由于算法择优保留的搜索机制,以及后期变异、交叉等操作对最优解构成成分的破坏,会使算法在近最优解附近振荡,延长了搜索时间,或陷入局部极值无法进行更广范围的搜索，降低了搜索精度。

发明内容

本发明的目的在于针对上述现有技术的不足，提供了一种适用于大型关系数据库多链接，能够缩短查询优化相对时间以及提高得到最优策略概率的一种基于模拟退火算法的查询优化方法。

本发明将数据查询优化过程分成建立模型，分解策略空间和优化3个部分，主要思想是：首先，将查询优化问题转化为求全局最优解的问题，即建立数学模型，计算查询策略给出查询结果所消耗的时间(代价)的函数为代价函数，查询策略为代价函数的解，策略空间S为代价函数的解空间，该模型叫做查询策略代价评估数学模型；然后，将策略空间随机分解成3个以上的子集；最后，引入模拟退火算法，对所有策略空间子集进行并行搜索，从每个子集中得到一个最终解，在比较最终解后得到最优解，该解对应的查询策略为最优策略。

本发明的目的是通过以下技术方案实现的：

基于模拟退火算法的查询优化方法，包括以下步骤：

a.定义一个策略空间S，设S内的所有查询策略都需要n-1个步骤才能够完成查询任务；

b.建立基于图形结构的查询策略代价评估数学模型，设图中有n个结点，从结点i(i＝1,2,L,n)到结点j(j＝1,2,L,n)的路径为d_ij，路径表示从结点i到结点j的消耗时间即代价，代价矩阵是

D = (\begin{matrix} d_{11} & K & d_{1 n} \\ M & O & M \\ d_{n 1} & L & d_{nn} \end{matrix}),

所求为遍历n个结点的总代价，代价函数如下：

f (x_{1}, x_{2}, L, x_{n}) = Σ_{i = 1}^{n - 1} d_{x_{i} x_{i + 1}} LLLLLLLLLLLLLLLL - - - (1)

式中：(x₁,x₂,L,x_n)为代价函数f(X)的一个解X(1)，其中x_i＝(1,2,3L,n)，x_j＝(1,2,3L,n)，x_i≠x_j(i≠j)，f(X)所有解组成的集合称为解空间X，模型中的结点表示查询状态，遍历一次n个结点表示采用一种查询策略完成查询任务，X(1)表示某一种查询策略，解空间X表示策略空间S；

c.将解空间X随机分解成λ(λ≥2)个以上的子集，表示为X_r(1≤r≤λ)；

d.采用模拟退火算法求最优解，先设定模拟退火算法的初始参数，包括初始温度t₀，温度降温因子α，马氏链长度L，一般地，初始参数选取可采用下述经验值：t₀＝100，α＝0.8或α＝0.9，L＝100n，计算过程中，新解的接受概率为：

P = \{\begin{matrix} 1, Δf \leq 0 \\ \exp (- Δf / t), Δf > 0 \end{matrix} LLLLLLLLLLLLLLLL - - - (2)

式中：t为当前温度，降温后的温度T_e＝αt；

e.对所有解空间X的子集X_r(1≤r≤λ)并行采用模拟退火算法进行优化，从X_r中随机选取一个解作为当前解X_r(1)，根据式(1)计算当前代价f(X_r(1))；

f.令停止降温条件m＝0，通过扰动方式调换当前解X_r(1)中任意几个元素的位置形成一个新的解X_r(2)，根据公式(1)计算出新的代价f(X_r(2))，求出代价差Δf＝f(X_r(2))-f(X_r(1))，新解的接受原则是，当Δf≤0时，接受X_r(2)作为当前最优解，当Δf＞0时，给出0到1范围内的随机值β，在P＞β时，接受X_r(2)作为当前最优解，否则抛弃X_r(2)。在当前温度下共进行L次扰动，若扰动过程中接受了新的解，则令m＝1，再根据T_e＝αt降低温度；

g.令当前温度t＝T_e，重复步骤f，直到在当前温度t下不再接受新的解，令m＝0，停止计算，此时函数收敛，求得的当前解为X_r最终解，比较各个子集对应的最终解，代价最小的为最优解，该解所对应的查询策略为最优策略。

有益效果：经试验，本发明公开的模拟退火算法较其他智能优化算法能够有效避免陷入局部极值，缩减了优化时间；其次，由于使用了并行搜索，提高了模拟退火算法搜索范围，降低了模拟退火算法局部搜索特性对搜索精度的影响。本发明公开的基于模拟退火算法的查询优化方法适用于大型数据库的查询优化，图1展示了基于模拟退火算法的查询优化方法收敛曲线，图2展示了模拟退火算法与传统的局部随机搜索算法搜索到最优策略的概率比较，从图中可以看出本发明对提高得到最优策略的概率的效果明显，而好的查询策略能够提高数据查询速度，本发明能够提高数据库的查询速度，缩短查询优化相对时间，以及提高得到最优策略概率。

附图说明

图1基于模拟退火算法的查询优化方法收敛曲线图

图2模拟退火算法与传统查询优化算法搜索到最优策略的概率比较图

具体实施方式

下面结合附图对本发明作进一步的详细说明：

基于模拟退火算法的查询优化方法，是在大型数据库多条件复杂查询情况下对查询语句进行优化。主要通过比较查询语句对应的多种查询策略在执行过程中消耗的时间大小，找到消耗时间最小的查询策略，即最优策略，本发明能够提高得到最优策略的概率，从而提高系统的查询速度。

基于模拟退火算法的查询优化算法，包括以下步骤：

D = (\begin{matrix} d_{11} & K & d_{1 n} \\ M & O & M \\ d_{n 1} & L & d_{nn} \end{matrix}),

所求为遍历n个结点的总代价，代价函数如下：

f (x_{1}, x_{2}, L, x_{n}) = Σ_{i = 1}^{n - 1} d_{x_{i} x_{i + 1}} LLLLLLLLLLLLLLLL - - - (1)

P = \{\begin{matrix} 1, Δf \leq 0 \\ \exp (- Δf / t), Δf > 0 \end{matrix} LLLLLLLLLLLLLLLL - - - (2)

式中：t为当前温度，降温后的温度T_e＝αt；

e、对所有解空间X的子集X_r(1≤r≤λ)并行采用模拟退火算法进行优化，从X_r中随机选取一个解作为当前解X_r(1)，根据式(1)计算当前代价f(X_r(1))；

f、令停止降温条件m＝0，通过扰动方式调换当前解X_r(1)中任意几个元素的位置形成一个新的解X_r(2)，根据公式(1)计算出新的代价f(X_r(2))，求出代价差Δf＝f(X_r(2))-f(X_r(1))，新解的接受原则是，当Δf≤0时，接受X_r(2)作为当前最优解，当Δf＞0时，给出0到1范围内的随机值β，在P＞β时，接受X_r(2)作为当前最优解，否则抛弃X_r(2)。在当前温度下共进行L次扰动，若扰动过程中接受了新的解，则令m＝1，再根据T_e＝αt降低温度；

g、令当前温度t＝T_e，重复步骤f，直到在当前温度t下不再接受新的解，令m＝0，停止计算，此时函数收敛，求得的当前解为X_r最终解，比较各个子集对应的最终解，代价最小的为最优解，该解所对应的查询策略为最优策略。

实施例

基于模拟退火算法的数据库查询优化算法，以对一条需要8个步骤完成查询任务的查询命令进行查询优化为例：包括以下步骤：

a.定义一个策略空间S，设S内的所有查询策略都需要8个步骤能够完成查询任务；

b.建立基于图形结构的查询策略代价评估数学模型，设图中有9个结点，从结点i(i＝1,2,L,9)到结点j(j＝1,2,L,9)的路径为d_ij，路径表示从结点i到结点j的消耗时间即代价，代价矩阵是

D = (\begin{matrix} d_{11} & K & d_{19} \\ M & O & M \\ d_{91} & L & d_{99} \end{matrix}),

所求为遍历9个结点的总代价，将n＝9带入公式(1)中得到的代价函数为：

f (x_{1}, x_{2}, L, x_{9}) = Σ_{i = 1}^{8} d_{x_{i} x_{i + 1}} LLLLLLLLLLLLLLLL - - - (3)

式中：(x₁,x₂,L,x₉)为代价函数f(X)的一个解X₁，其中x_i＝(1,2,3L,9)，x_j＝(1,2,3L,9)，x_i≠x_j(i≠j)，所有解组成的集合称为解空间X，经过计算统计本例中共有362880个解，其中最优解为2585.5；

c.本例中将解空间X随机分解成了3个子集，表示为X_r(1≤r≤3)；

d.采用模拟退火算法求最优解，先设定模拟退火算法的初始参数，初始温度t₀＝100，温度衰减因子α取0.8，马氏链长度为L＝900，根据公式(2)计算新解的接受概率为，降温后的温度T_e＝0.8t，；

e.对3个子集X₁,X₂,X₃并行采用模拟退火算法进行优化，从3个子集中随机选取一个解作为这个子集的当前解X_r(1)，根据式(1)计算当前代价f(X_r(1))，本例中以子集X₁示范，当前解X_r(1)：

X₁(1)＝(1174.6,167.7,1571.1,843.3,940.8,951.8,1677.1,649.0)

初始代价f(X₁)＝7975.4；

f.令停止降温条件m＝0，通过扰动方式调换当前解X₁(1)中任意几个元素的位置形成一个新的解X₁(2)，本例中生成的新解为：

X₁(2)＝(593.7,202.5,781.0,91.0,1577.9,1314.8,1059.3,665.6)

新代价为f(X₂)＝6285.8，求出代价差Δf＝-1689.6，此时Δf≤0，接受X₂作为当前最优解，若Δf＞0时，给出0到1范围内的随机值r，在P＞r时，接受X₁(2)作为当前最优解，否则抛弃X₁(2)。在当前温度下共进行900次扰动，若扰动过程中接受了新的解，则令m＝1，再根据T_e＝0.8t降低温度；

g.令当前温度t＝T_e，重复步骤f，直到在当前温度t下不再接受新的解，令m＝0，停止计算，此时函数收敛，本例子集X₁共降温9次，最后t＝13.4218，最终解为2585.5，其它子集X₂和X₃分别降温9次和11次，最终解分别为2984.5和2608.3，则最优解为2585.5，其所对应的查询策略为最优策略。

采用上述方法对9结点查询命令进行查询优化，图1是运用本发明搜索最优策略的收敛曲线，图2是本发明与传统查询优化算法在不同解结点的情况下搜索到最优策略的概率比较，可以看到本发明得到最优策略的概率明显高于传统查询优化算法。

Claims

1.一种基于模拟退火算法的查询优化方法，其特征在于，包括以下步骤：

a、定义一个策略空间S，设S内的所有查询策略都需要n-1个步骤才能够完成查询任务；

b、建立基于图形结构的查询策略代价评估数学模型，设图中有n个结点，从结点i(i＝1,2,L,n)到结点j(j＝1,2,L,n)的路径为d_ij，路径表示从结点i到结点j的消耗时间即代价，代价矩阵是

D = (\begin{matrix} d_{11} & K & d_{1 n} \\ M & O & M \\ d_{n 1} & L & d_{nn} \end{matrix}),

所求为遍历n个结点的总代价，代价函数如下：

f (x_{1}, x_{2}, L, x_{n}) = Σ_{i = 1}^{n - 1} d_{x_{i} x_{i + 1}} LLLLLLLLLLLLLLLL - - - (1)

式中：(x₁,x₂,L,x_n)为代价函数f(X)的一个解X₁，其中x_i＝(1,2,3L,n)，x_j＝(1,2,3L,n)，x_i≠x_j(i≠j)，f(X)所有解组成的集合称为解空间X，模型中的结点表示查询状态，遍历一次n个结点表示采用一种查询策略完成查询任务，X₁表示某一种查询策略，解空间X表示策略空间S；

c、将解空间X随机分解成λ(λ≥2)个以上的子集，表示为X_r(1≤r≤λ)；

d、采用模拟退火算法求最优解，先设定模拟退火算法的初始参数，包括初始温度t₀，温度降温因子α，马氏链长度L，一般地，初始参数选取可采用下述经验值：t₀＝100，α＝0.8或α＝0.9，L＝100n，计算过程中，新解的接受概率为：

P = \{\begin{matrix} 1, Δf \leq 0 \\ \exp (- Δf / t), Δf > 0 \end{matrix} LLLLLLLLLLLLLLLL - - - (2)

式中：t为当前温度，降温后的温度T_e＝αt；