CN102156725A

CN102156725A - 一种提高数据仓库查询性能的方法

Info

Publication number: CN102156725A
Application number: CN 201110081485
Authority: CN
Inventors: 沈晶; 赵荣; 刘纪平
Original assignee: Chinese Academy of Surveying and Mapping
Current assignee: Chinese Academy of Surveying and Mapping
Priority date: 2011-04-01
Filing date: 2011-04-01
Publication date: 2011-08-17
Anticipated expiration: 2031-04-01
Also published as: CN102156725B

Abstract

本发明涉及一种提高数据仓库查询性能的方法，首先将数据仓库中的数据按照所存储的逻辑关系分为事实表和维度表，然后根据维度表数据对事实表中的数据进行分组汇总，将每个分组生成为一个视图，将生成的所有视图添加到候选视图集合中；然后使用基于信息素扩散的双种蚁群算法，模拟自然界中不同种群的蚂蚁群觅食的过程，在候选视图集合中根据查询频率来寻找数据之间的内在联系，选择生成物化视图，在有限的存储空间内将需要进行表间连接或聚集的查询操作的结果进行预先计算和保存，从而提高数据仓库的查询性能。

Description

一种提高数据仓库查询性能的方法

技术领域

本发明涉及一种提高数据仓库查询性能的方法，尤其涉及一种使用基于信息素扩散的双种蚁群算法的物化视图选择方法。该技术属于信息智能处理领域，可应用于知识工程，特别是信息共享、信息集成等领域。

背景技术

随着信息技术的广泛应用，信息系统产生了大量的数据，如何从这些海量数据中提取对决策分析有用的信息成为决策管理人员所面临的重要难题。传统的数据库系统(管理信息系统)即联机事务处理系统(On-Line Transaction Processing，简称OLTP)作为数据管理手段，主要用于事务处理，但它对分析处理的支持一直不能令人满意。因此，人们逐渐尝试对OLTP数据库中的数据进行再加工，形成一个综合的、面向分析的、更好的支持决策制定的决策支持系统(Decision Support System，简称DSS)。由于决策数据库和运行操作数据库在数据来源、数据内容、数据模式、服务对象、访问方式、事务管理乃至物理存储等方面都有不同的特点和要求，因此直接在运行操作的数据库上建立DSS是不合适的。数据仓库(Data Warehouse)技术就是在这样的背景下发展起来的。数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的持久的数据集合。构建数据仓库的过程就是根据预先设计好的逻辑模式从分布在各处的OLTP数据库中提取数据并对经过必要的变换最终形成统一模式数据的过程。

联机分析处理(On-Line Analytical Processing，简称OLAP)在内的诸多应用牵引驱动了数据仓库技术的出现和发展；而数据仓库技术反过来又促进了OLAP技术的发展。

在面对拥有海量数据的数据仓库时，OLAP需要支持各种可能的查询，相当一部分查询可能要涉及大量的数据，并需要对数据进行选择、投影、连接等处理，这是一个非常耗时的过程，然而一个决策支持系统要求它的查询能够被快速响应。解决这一矛盾通常采用的一个有效的方法是：数据仓库针对OLAP可能的查询对原始数据进行选择、投影、连接等预处理，建立物化视图(Materialized View)，即通过物化视图技术，将一部分视图预先进行计算并加以物理存储，当执行OLAP查询时，可直接从物化视图中获取查询结果，避免了对底层数据复杂的综合操作，从而有效提高了查询响应速度。但是，并非所有视图都要进行物化，这将带来巨大的存储空间和视图维护的开销，因此，必须在缩短响应时间和资源限制二者之间进行权衡，选择出恰当的物化视图集合，物化视图的选择问题作为设计、构建数据仓库的关键问题之一，已成为当前数据仓库领域的一个研究热点。

近年来，在解决物化视图选择问题(View Selection Problem，简称VSP)上已相继出现了多种优化算法：如贪婪算法、遗传算法、蚁群算法等。其中给定查询频率的静态视图选择贪婪算法存在搜索空间太大、时间复杂度高以及未考虑查询的概率和分布等诸多缺点，并且当源数据发生变化时，这种变化不能立刻反映到数据仓库，不适合在线运行；遗传算法(Genetic Algorithm，简称GA)全局搜索能力强，并显示出了比贪婪算法和启发式算法更好的求解能力，但是遗传算法存在收敛速度较慢，而且有时会出现“早熟”现象。蚁群算法(Ant Colony Algorithm，简称ACA)较强的局部搜索能力和正反馈机制应用于最优物化集的选择，但是单一的蚁群算法全局搜索能力较低，易陷入局部最优。因此现有物化视图选取方法和工具均存在某种程度的局限性，不适合关系数据库和联机分析的实际情况。

为解决上述技术问题，本发明结合关系数据库内容的具体情况提出了新的基于信息素扩散的双种蚁群物化视图选择方法。与现有方法相比，该方法全局的搜索能力较强，有效避免“早熟”及得到局部最优解的情况，此外，当源数据发生变化时，能将变化立刻反映到数据立方体中。经实验证明，该方法不仅最大限度地节省了物化所需的存储空间，而且极大地缩短了OLAP的响应时间，提高了数据仓库的效率。

发明内容

为解决上述技术问题，本发明提供了一种提高数据仓库查询性能的方法，首先将数据仓库中的数据按照所存储的逻辑关系分为事实表和维度表，然后根据维度表数据对事实表中的数据进行分组汇总，将每个分组生成为一个视图，将生成的所有视图添加到候选视图集合中；然后使用基于信息素扩散的双种蚁群算法，模拟自然界中不同种群的蚂蚁群觅食的过程，在候选视图集合中根据查询频率来寻找数据之间的内在联系，选择生成物化视图，在有限的存储空间内将需要进行表间连接或聚集的查询操作的结果进行预先计算和保存，从而提高数据仓库的查询性能；其具体步骤为：

(A)将候选视图集合中的视图与蚂蚁行进路径上的结点进行对应；

(B)在给定存储空间K_max限制下，蚂蚁不断的从候选视图集合中选择一个未被选中的合适的视图放到已选视图集中，直到再放入任何一个未被选中的视图将导致整个已选视图集大小超出存储空间限制；

(C)蚂蚁按照状态转移规则进行视图结点选择，同时通过信息素更新策略、信息素扩散规则、信息通信规则对视图结点选择进行更新；

(D)迭代计算步骤(C)，对两个种群的蚂蚁找到的最优解进行比较，选出其中较优的解作为迭代最优解，将已选视图集中与该迭代最优解对应的视图组作为物化视图进行存储

本发明取得了以下技术效果：

(1)物化视图选取的解是全局最优解。

(2)为联机分析的源文件存储节省了大量空间。

(3)通过改进的蚁群算法，选取了最优的物化视图，极大地提高了OLAP的查询响应速度。

附图说明

图1为基于双种群蚁群算法流程图；

图2为三种算法查询代价随迭代次数变化的测试结果图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及具体实施方式对本发明作进一步的详细描述。

蚂蚁是一种古老的社会性昆虫，它的个体结构和行为很简单，但是由这些简单个体构成的蚁群，却表现出高度结构化的社会组织，能够完成远远超过蚂蚁个体能力的复杂任务。这除了与其成员的有组织有分工有关外，更重要的是其独特的信息系统。研究发现：蚂蚁虽然没有视觉，但运动时会通过在路径上释放出一种特殊的分泌物-信息素来寻找路径。当蚂蚁遇到一个还没有走过的路口时，就随机的挑选一条路径前进，同时释放出一定量的信息素。其它蚂蚁遇到前面蚂蚁走过的路径时可以感知环境中信息素的存在及强度，并倾向于朝着信息素浓度高的方向移动。于是，由大量蚂蚁完成的高度自组织行为便形成一个信息正反馈机制：某一路径上走过的蚂蚁越多，该路径上的信息素浓度越大，则后来者选择该路径的概率越大；蚂蚁少的路径信息素浓度越低，选择概率就小，并且随着时间的流逝信息素逐渐挥发直至消失，这样的路径最后被淘汰，最终整个蚁群获得最优路径。蚁群算法就是受到了真实蚁群的启发，通过模拟真实蚁群的行为进行优化计算的智能算法。

本发明创造性地引入双种群蚁群算法来解决大型数据仓库中的物化视图的选择问题，利用新的蚁群算法，以蚁群算法搜索最优路径的优势，得到物化视图选取的最优解。同时还利用两个种群的各异性，设计良好的信息素更新机制，为数据进行全局搜索，防止落入局部最优解。

其主要步骤如下：

(1)在利用双种蚁群算法求解物化视图选择问题中，将蚂蚁路径上的每个结点看作候选视图中的一个视图。

(2)在给定存储空间K_max限制下，蚂蚁不断的从未被选中的视图集合中选择一个合适的视图放到物化视图集中，直到再放入任何一个未访问的视图将导致整个物化视图集大小超出存储空间限制，这时就称蚂蚁已经建立了一个完整解决方案，即选择了一组视图。

(3)蚂蚁按照状态转移规则进行视图结点选择。而基于信息素的双种蚁群算法的基本思路是：将基本蚁群算法中的蚂蚁隔离到两个种群内各独立搜索，每个种群拥有独立的信息素矩阵，相互之间通过定期的通信来交换优良解和信息素的分布信息。

(4)算法每次迭代都对两个种群找到的最优解进行比较，选出其中较优的解作为算法的迭代最优解。

其中步骤(3)中的状态转移规则为：

假设蚁群中蚂蚁的数量为n，初始信息素τ_ij＝C(C为常数)。在某一时刻，蚂蚁k从视图i选择下一个视图j的寸候，根据下述规则选择：

式(1)中，q是[0，1]区间均匀分布的随机数；q₀∈[0，1]是一个参数；τ_ij表示i到j边上的信息素浓度，η_ij表示i到j边的能见度，令η_ij＝f_j/S_j，其中f_j为视图j的查询概率，S_j为视图j所占的存储空间，即让蚂蚁倾向于选择那些具有较高查询概率并具有较小物理空间的视图，也就是启发蚂蚁选择那些单位空间查询频率高的视图来进行物化。α、β分别表示τ与η的相对影响力。通过对双种群进行功能上的划分，即：一个种群取较大的β值和ρ值，使其具有较快的收敛速度，另一个种群采用信息素扩散的策略，使其具有更好的寻优能力，可以使算法具有更好的性能。

式(1)中，D根据式(2)所定义的状态转移概率p_ij进行选择。

式(1)中，allowed_K为可选视图的集合，即allowed_K＝候选视图集L一禁忌表tabu_K，表示蚂蚁k当前所能选择的视图结点。禁忌表tabu_K中存放的是蚂蚁k搜索过的或不满足限制条件的视图结点。

表示蚂蚁k由视图i转移到视图j的状态转移概率，s为除i、j以外的视图变量。

其中步骤(3)中的信息素更新策略为：

信息素更新分为两个阶段：信息素全局更新，信息素局部更新。信息素局部更新发生在蚂蚁选择完一个视图结点后，作用是使已选中的边对后来的蚂蚁具有较小的吸引力，从而扩大蚂蚁对未选中的边的搜索范围。蚂蚁从视图i选择视图j后，在边(i，j)上的信息素更新：式中ρ为信息素挥发系数(0＜ρ＜1)。τ₀为信息素初值，取为1/N×K_max，N为候选视图个数，K_max为给定的存储空间限制。信息素全局更新发生在所有蚂蚁都建立了解决方案后，对本次迭代的最优路径进行信息素更新；信息素局部更新规则如式(3)所示、信息素全局更新规则如式(4)所示：

τ_{ij}^{new} = (1 - ρ) τ_{ij}^{old} + {ρτ}_{0} - - - (3)

τ_{ij}^{new} = (1 - ρ) τ_{ij}^{old} + {ρΔτ}_{ij} - - - (4)

式(3)、(4)中，

分别为信息素更新前后从i到j边上的信息素浓度；

式(4)中，Δτ_ij取值为：

式(5)中，Q_smallest，Q_biggest分别为最优路径对应的总查询代价和最差路径对应的总查询代价。w是常数，可控制信息素浓度的大小，一般取为1。

其中步骤(3)中的信息素扩散规则为：

τ^{*} = \{\begin{matrix} (1 - \frac{η_{iu} c_{uD}}{η_{ij} c_{iD}}) τ_{0} λ & η_{iu} c_{uD} \leq η_{ij} c_{jD} \\ 0 & η_{iu} c_{uD} > η_{ij} c_{jD} \end{matrix} - - - (6)

式(6)中，i、j节点为最优路径上的节点，u为与当前节点i直接相连的非最优路径节点。c_iD、c_uD分别为i点、u点到NULL点的查询代价，λ表示信息量的大小。信息素扩散规则，可扩大解的搜索范围，快速引导蚁群向最优的进化方向前进，另外在信息素更新时加上阈值限制，让τ_ij∈[τ_min，τ_max]，能够有效预防因最优、最差路径上信息素差值过大而引起的停滞现象。

其中步骤(3)中的信息通信规则为：

\{\begin{matrix} τ_{ij}^{A} = (τ_{ij}^{A} + τ_{ij}^{B}) / 2 \\ τ_{ij}^{B} = τ_{ij}^{A} \end{matrix} - - - (7)

式(7)中

分别是(i，j)段A种群和B种群的信息素。

如上所述，本发明所提出的基于信息素扩散的双种蚁群算法的物化视图选

择方法的具体流程如图1所示：

(1)加载数据，对双种群分别进行参数初始化，根据系统参数初始化信息素强度，设置循环次数NC＝0，设置最大初循环次数NC_max，设置ρ_max，ρ_min，初始化信息素表为：τ_ij＝ρ_max，且初始时刻Δτ_ij＝0，初始化启发因子表为：η_ij＝1/s_ij，s_ij为(i，j)视图的存储代价；

(2)将A种群的所有蚂蚁初始化到视图节点NULL处，将B种群的所有蚂蚁初始化到数据集上界的基表，更新蚂蚁的禁忌表；

(3)计算与当前节点i直接相连的每个节点到NULL处(基表处)的查询代价，根据式(2)计算的概率选择视图j，将j加入禁忌表；

(4)若当前节点i的物化视图存储代价达到最大值，执行步骤(5)，否则跳转到步骤(2)；

(5)计算两个种群中每只蚂蚁所走的路径对应的视图查询代价，分别记录最优视图和最优视图代价为：bestview_A，bestcost_A和bestview_B，bestcost_B；

(6)若NC％10＝0，则按式(7)进行种群间通信，否则执行Step7；

(7)按照式(3)、(4)分别更新种群A和B的信息素表；按照式(6)对种群B的最优路径进行信息素扩散；

(8)若循环次数NC≥NC_max，则循环结束并输出程序计算结果，否则清空禁忌表并跳转到步骤2。

为了验证基于信息素扩散的双种群蚁群算法(简称PDDPAS)的有效性，在分析实验中将它与经典遗传算法和单种蚁群算法在求解速度、跳出局部最优能力方面进行了比较。

本实验在相同实验平台和相同公共参数的条件下，每种算法独立实验10次，取10次实验的平均结果进行比较。最终实验结果如表1和图2所示。

表1 GA，ACA，PDDPAS独立实验10次总查询代价(百万行)结果比较

实验硬件平台为CPU P42.6GHz，RAM 2G，操作系统为Windows XP，实验数据为东南亚森林资源分布数据。测试数据仓库中共有包括五个维度表和一个事实表：一个森林资源分布事实表和森林分类维度表、国家维度表、省维度表、图斑维度表、人口分布维度表，即有32(即2⁵)个视图节点。设定空间限制K_max＝200M。其中PDDPAS的参数设置为：α＝(2/2)，β＝(5/7)，p＝(0.3/0.3)，λ＝0.3，NC_max＝800。

由此可见，在相同条件下，PDDPAS算法在迭代时间、迭代次数、收敛性等指标上都要好于GA和ACA算法。

以上仅为本发明的一种实施方式，其描述较为具体和详细，但不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于发明的保护范围。

Claims

1.一种提高数据仓库查询性能的方法，首先将数据仓库中的数据按照所存储的逻辑关系分为事实表和维度表，然后根据维度表数据对事实表中的数据进行分组汇总，将每个分组生成为一个视图，将生成的所有视图添加到候选视图集合中；然后使用基于信息素扩散的双种蚁群算法，模拟自然界中不同种群的蚂蚁群觅食的过程，在候选视图集合中根据查询频率来寻找数据之间的内在联系，选择生成物化视图，在有限的存储空间内将需要进行表间连接或聚集的查询操作的结果进行预先计算和保存，从而提高数据仓库的查询性能；其具体步骤为：

(D)迭代计算步骤(C)，对两个种群的蚂蚁找到的最优解进行比较，选出其中较优的解作为迭代最优解，将已选视图集中与该迭代最优解对应的视图组作为物化视图进行存储；

步骤(C)中的状态转移规则为：假设蚁群中蚂蚁的数量为n，初始信息素τ_ij＝C(C为常数)；在某一时刻，蚂蚁k从视图i选择下一个视图j的时候，根据下述规则选择。

式(1)中，q是[0，1]区间均匀分布的随机数；q₀∈[0，1]是一个参数；τ_ij表示i到j边上的信息素浓度，η_ij表示i到j边的能见度，令η_ij＝f_j/S_j，其中f_j为视图j的查询概率，S_j为视图j所占的存储空间，即启发蚂蚁选择那些单位空间查询频率高的视图来进行物化；α、β分别表示τ与η的相对影响力；通过对双种群进行功能上的划分，即使两个种群的蚂蚁分别具有较快的收敛速度和更好的寻优能力；

式(1)中，allowed_K为可选视图的集合，D根据下面式(2)所定义的状态转移概率

进行选择；

式(2)中，

表示蚂蚁k由视图i转移到视图j的状态转移概率，s为除i、j以外的视图变量；

步骤(C)中的信息素更新策略为：在蚂蚁选择完一个视图结点后进行信息素局部更新，更新规则如下式(3)所示：

τ_{ij}^{new} = (1 - ρ) τ_{ij}^{old} + {ρτ}_{0} - - - (3)

在所有蚂蚁都建立了解决方案后进行信息素全局更新，更新规则如下式(4)所示；

τ_{ij}^{new} = (1 - ρ) τ_{ij}^{old} + {ρΔτ}_{ij} - - - (4)

式(3)、(4)中，ρ为信息素挥发系数，取值为0＜ρ＜1；τ₀为信息素初值，取为1/N×K_max，N为候选视图个数，K_max为给定的存储空间限制；分别为信息素更新前后从i到j边上的信息素浓度；

式(4)中，Δτ_ij取值为：

式(5)中，Q_smallest，Q_biggest分别为最优路径对应的总查询代价和最差路径对应的总查询代价；w是常数，可控制信息素浓度的大小，一般取为1；

步骤(C)中的信息素扩散规则为：

τ^{*} = \{\begin{matrix} (1 - \frac{η_{iu} c_{uD}}{η_{ij} c_{iD}}) τ_{0} λ & η_{iu} c_{uD} \leq η_{ij} c_{jD} \\ 0 & η_{iu} c_{uD} > η_{ij} c_{jD} \end{matrix} - - - (6)

式(6)中，i、j节点为最优路径上的节点，u为与当前节点i直接相连的非最优路径节点；c_iD、c_uD分别为i点、u点到NULL点的查询代价，λ表示信息量的大小；

步骤(C)中的信息通信规则为：

\{\begin{matrix} τ_{ij}^{A} = (τ_{ij}^{A} + τ_{ij}^{B}) / 2 \\ τ_{ij}^{B} = τ_{ij}^{A} \end{matrix} - - - (7)

式(7)中分别是(i，j)段A种群和B种群的信息素。

2.如权利要求1所述的一种提高数据仓库查询性能的方法，其数值计算的流程为：

(I)加载数据，对双种群分别进行参数初始化，根据系统参数初始化信息素强度，设置循环次数NC＝0，设置最大初循环次数NC_max，设置ρ_max，ρ_min，初始化信息素表为：τ_ij＝ρ_max，且初始时刻Δτ_ij＝0，初始化启发因子表为：η_ij＝1/s_ij，s_ij为(i，j)视图的存储代价；

(II)将A种群的所有蚂蚁初始化到视图节点NULL处，将B种群的所有蚂蚁初始化到数据集上界的基表，更新蚂蚁的禁忌表；

(III)计算与当前节点i直接相连的每个节点到NULL处，即基表处，的查询代价，根据式(2)计算的概率选择视图j，将j加入禁忌表；

(IV)若当前节点i的物化视图存储代价达到最大值，执行步骤(V)，否则跳转到步骤(II)；

(V)计算两个种群中每只蚂蚁所走的路径对应的视图查询代价，分别记录最优视图和最优视图代价为：bestview_A，bestcost_A和bestview_B，bestcost_B；

(VI)若NC％10＝0，则按式(7)进行种群间通信，否则执行步骤(VII)；

(VII)按照式(3)、(4)分别更新种群A和B的信息素表；按照式(6)对种群B的最优路径进行信息素扩散；

(VIII)若循环次数NC≥NC_max，则循环结束并输出程序计算结果，否则清空禁忌表并跳转到步骤(II)。