CN102214216B

CN102214216B - 一种层次关系数据上关键字检索结果的聚合摘要方法

Info

Publication number: CN102214216B
Application number: CN 201110150869
Authority: CN
Inventors: 何震瀛; 胡昊; 汪卫
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2011-06-07
Filing date: 2011-06-07
Publication date: 2013-02-27
Anticipated expiration: 2031-06-07
Also published as: CN102214216A

Abstract

本发明属于关系数据库技术领域，具体为一种层次关系数据上关键字检索结果的聚合摘要方法。该方法的步骤为：给定具有层次关系H的关系数据库D和其上的一个检索Q以及n个检索结果S，S中为每一条结果元组t ₁ 、t ₂ 、…、t _n，根据H上的层次关系，按照最低上层最小覆盖聚集的原则采用按序连接方法将n条检索结果t ₁ 、t ₂ 、…、t _n聚合成为最大最低上层最小覆盖聚集，并对这些聚合结果根据最大覆盖的原则，以迭代查找最大覆盖，在查找的过程中进行剪枝，从而找出贪心结果I。本发明在聚合过程中根据层次关系减少了连接操作，在摘要过程中引入剪枝方法减少时间代价，从而使聚合摘要效率更高。

Description

一种层次关系数据上关键字检索结果的聚合摘要方法

技术领域

本发明属于关系数据库技术领域，具体涉及一种层次关系数据上关键字检索结果的聚合摘要方法。

背景技术

近年来，关键字检索作为从结构化或半结构化数据中提取所需信息的方法已被广为接受。目前已有许多针对关键字检索问题提出的检索系统。但基于关系数据库上的检索系统更多致力于获得包含所有关键字的元组或元组连接树。简单的将这些结果返回会造成信息冗余并且有时还会生成无意义的结果。此外，在许多数据库中，具有层次关系的数据普遍存在，这对检索结果信息整合具有指导作用。

对于检索结果的进一步处理等工作包括打分方法和结果聚合已经有许多人在研究了。关系数据库检索结果的聚合问题现有的方法仅关注于一张表上的聚合操作。然而，实际应用中，信息会依据范式被分解成不同的部分存储于多张表中。若简单的将该方法应用于多张表的问题中会根据连接关系生成一张非常大的表，这是耗时且不实际的。另外，该方法中的属性上并无层次关系。需要注意的是，也有另外的工作对聚合操作予以支持，但是，它需要由用户指定在哪些属性上进行聚合操作，这对于不熟悉数据库模式的大多数用户来讲是十分困难的。而且，该工作中的聚合操作是对结果集进行聚合选择（即计算元组数目或求最大最小值等），并非在此基础上做信息整合。摘要问题现有的方法有基于贪心和随机算法的两种解决方案。

发明内容

本发明的目的是针对层次关系数据库关键字检索结果的聚合摘要问题，提出一种基于排序和剪枝的聚合摘要方法，以减少查询代价，提升用户体验。

本发明提出的聚合摘要方法，利用层次关系的性质，结合最低上层最小覆盖聚集的原则以及最大覆盖原理的特征，对带连接元组集进行按序连接，减少连接开销，最后在摘要阶段给出3个剪枝条件，既保证找出的结果是满足贪心法的结果，又大大减小搜索空间，提高摘要效率。

首先对一些基本概念进行定义：

定义1. 划分：设S是一个集合，

。如果下列条件成立则称

为S的一个划分： ①

, ② 对于任意P_i,
，若

，则P_iP_j 为空集。

定义2. 聚集关系：设a={S ₁, S ₂,… , S_n }是一个有限元组集族，元组是某关系数据库中的每一条记录，S_i (1≤ i ≤ n)是任意元组集合,≦是如下定义的二元关系：对于a中任意集合S_i 和S_j ，如果存在一个函数F：

→S_j (

是S_i 的划分)，则称S_i 和S_j 满足≦，记作S_i ≦S_j ，F称为聚集函数。如果满足下列条件则称为a上的聚集关系：对于a中任意集合S_i 和S_j ，如果S_i ≦S_j ， S_j ≦S_i ，则S_i =S_j 。

定义3. 划分的覆盖：设S是一个元组集合，

={S ₁, S ₂, … , S_m }，

是S上的一个划分。D是S上的字典，Q

D是S中出现的某些词，谓词contain表示集合中包含词项。则Cov(

, Q)={S_i | S_icontainQ}是划分

关于Q的覆盖。其中，S_i 是S的子集。

定义4. 最小覆盖聚集(MC)：设a={S ₁, S ₂, … , S_n }是一个有限元组集族。Q

D是a中出现的某些词，给定S_i 和

，

2 ^Si 是S_i 上的一个划分，若∀ S_ja ， S_j ≦ S_i ，不存在划分

2 ^Sj ，使得S_j 上有划分的覆盖Cov(

,Q)，则S_i 是关于Q的最小覆盖聚集(MC)。

定义5. 层次关系：设H是一个有限集合，

是满足自反的，反对称的和传递的偏序关系，且：对于H中的任意元素h_i ，若h_i 非极小元，如果存在一个函数F：h_i →H ’, H ’

H，则称F为分层函数，称

是H上的层次关系。

定义6. 最低上层最小覆盖聚集(LMC)：设S为关于Q的MC，MH(S)表示S中层次关系属性上的最低上层，若对于任意的S ₂ S，S ₂中包含所有Q，不存在S ₁ S，且

w_iQ ， S ₁ contain Q，使得MH(S ₁)

MH(S ₂)，则称S ₂为关于Q的最低上层最小覆盖聚集(LMC)。若同时也不存在sÎS，且S ₂{s}也是LMC，则称S ₂为MaxLMC。

定义7. 属性划分：设A是给定关系数据库模式Sc上的属性集合。A=A^CA^PA^U 是关于A的一个划分，其中A^C 表示分类属性，A^P 表示具有偏序关系的聚集属性，A^U 是其补集。A^C 和A^P 统称为聚集属性。

根据以上定义，给定具有层次关系H的关系数据库D和其上的一个检索Q以及n个检索结果S，S中为每一条结果元组t ₁ 、 t ₂ 、…、 t_n ，T ₁={t|

Q ₁,tcontainQ ₁, Q ₁ Q}为待连接元组集，本发明提出的聚合摘要方法是基于以下性质的：

(1). 在顺序遍历元组集T ₁的过程中，对于元组集T ₁中的每个元组t_i ，选择连接属性上值相同的t_jT ₂，T ₂={t|

Q ₂,tcontainQ ₂, Q ₂

Q}也为待连接元组集，设为，顺序遍历这样的t_j 即可，且从

开始，MH(t_i
t_j )层次会越来越高，根据最低上层条件，若对于t_jk ，MH(t_i
t_j0 )

MH(t_i
t_jk )，则

以后的元组都不必考虑，因而

、

、…、

这些连接操作不必要执行。

(2). 在某属性上的聚集结果是互不相交的，即，MaxLMC(S,Q)中的结果按照聚集属性的不同（假设其中涉及到m个聚集属性）可分为m类。

(3). MaxLMC(S,Q)按照连接属性归类为{M ₁，M ₂，…，M_m }, M_i 表示按照第i个连接属性上聚合的集族，M_i 根据连接属性的值做最低层次最小覆盖聚集，聚集结果也是不同连接属性值分类的集合，记为M_i ={M_i ₁，M_i ₂，…，M_imi }，则M_i 中的集合互不相交；摘要的剪枝过程中，若初始最大MaxLMC来自M_i ₁，则若|M_i ₂ |>|M_k ₁|对于k=1,2,…,m, k≠i成立，M_i ₂应是下一个选择的MaxLMC，而且可以继续选择直到出现k≠i使得|M_ij|<|M_k ₁ |为止。

(4). 摘要的剪枝过程中，若当前摘要集为I，并处于第r次迭代当中。在考察M_i 的时候，从M_i ₁开始，若|M_i1I|=t，|I-
|=x，则在M_i 中，我们只需要按序考察x – t +1个集合。

(5). 摘要的剪枝过程中，若当前摘要集为I，并处于第r次迭代当中。在考察M_i 的时候，从M_i ₁开始，若|M_i ₁ I|=t，则在M_i 中，我们只需要考察到规模为|M_i ₁ |-t的集合。

基于以上性质，本发明方法利用按需连接方法和摘要剪枝方法，对检索结果进行剪枝和摘要，具体步骤为：

（1）对于查询用户输入的检索Q和依据DISCOVER系统生成的SQL语句，在做最后连接前，对于待连接元组集T ₁, T ₂，以按序连接方法生成最大最低上层最小覆盖聚集MaxLMC(S,Q)= {R_S ₁, R_S ₂, …, R_Sm }，其中R_Si 表示层次S_i 上的聚合结果；

（2）以步骤(1)求出的MaxLMC(S, Q)，在存储时按照每一聚合结果R_Si 中元组的数目维护一个最大堆，使得MaxLMC(S, Q)是有序的；

（3）对于步骤(2)得到的有序MaxLMC(S, Q)，以迭代查找最大覆盖的方法，在查找的过程中进行剪枝，从而找出贪心结果I。

本发明的步骤（1）中，所述按序连接方法生成最大最低上层最小覆盖聚集MaxLMC(S,Q)= {R_S ₁, R_S ₂, …, R_Sm }的步骤如下：

（a）MaxLMC(S,Q)初始化为空；MaxLMC(S,Q)记为R；

（b）对于元组集T ₁中的t ₁₁，考察元组集T ₂中的t ₂₁，并记录t ₁₁与t ₂₁的连接后的层次关系值；

（c）重复步骤（b）的操作，对于元组集T ₂中的t _2k，若t ₁₁与t _2k的连接后的层次关系高于t ₁₁与t ₂₁连接后的层次关系，则进入步骤（d）；否则，将t ₁₁与t _2k连接，并加入R _MH(t ₁₁ t ₂₁₎，进入步骤（b）；这里R _MH ₍ t ₁₁ t ₂₁₎表示R（R是一个集族）中最小上层与MH(t ₁₁
t ₂₁)相同的集合；

（d）重复步骤（b）和（c），直到所有的元组集T ₁中的元组都被考察过；

（e）输出MaxLMC(S,Q)。

本发明的步骤（3）中，所述迭代查找最大覆盖方法的步骤如下：

（a）按照最大最低上层最小覆盖聚集MaxLMC(S,Q)，MaxLMC(S,Q)按照连接属性归类为{M ₁，M ₂，…，M_m },其中每一类M_i ={M_i ₁，M_i ₂，…，M_imi }中的集合互不相交；

（b）选择元组数目最多的M_i ₁加入初始集合I；

（c）将M_i ₁从MaxLMC(S,Q)中删除；

（d）根据剪枝方法，找到下一个需要考察的集合或者考察的边界条件；

（e）按照步骤（d）的选择选出使I
M_ij 中元组数目最多的M_ij 加入I；

（f）将M_i ₁从MaxLMC(S,Q)中删除；

（g）重复步骤（d）、（e）和（f），直到找到k个摘要集合；

（h）输出I。

本发明中，所述对MaxLMC(S,Q)剪枝（步骤（3）或步骤（3-d）的步骤如下：

（1）若初始最大MaxLMC来自M_i ₁，则若|M_i ₂ |>|M_k ₁|对于k=1, 2, … , m, k≠i成立，M_i ₂应是下一个选择的MaxLMC，而且继续选择直到出现k≠i使得|M_ij|<|M_k ₁ |为止；

（2）若当前摘要集为I，并处于第r次迭代当中；在考察M_i 的时候，从M_i ₁开始，若|M_i ₁ I|=t，|I-
|=x，则在M_i 中，只需要按序考察x–t +1个集合；

（3）若当前摘要集为I，并处于第r次迭代当中；在考察M_i 的时候，从M_i1 开始，若|M_i ₁ I|=t，则在M_i 中，只需要考察到规模为|M_i ₁ |-t的集合。

根据以上步骤进行的聚合摘要方法，在聚合阶段节省了大量耗时的连接操作，在摘要阶段节省了大量的遍历集合的操作，从而改善了系统运行的时间。附图1为本发明方法实验检测所采用的数据源，为一个模拟数据。附图2-3为本发明方法的按序连接过程中节省的连接操作占原有连接操作数目的百分比，从图中可以看出，本发明方法通过按序连接，有效地节省了耗时的连接操作。附图4-5为本发明方法中摘要步骤剪枝（Improved方法）与不使用剪枝（Baseline方法）时的时间比较，从图中可以看出，本发明方法的剪枝方法显著的改善了系统的响应时间。

综上所述，本发明在聚合过程中根据层次关系减少了连接操作，在摘要过程中引入剪枝方法减少了时间代价，从而使聚合摘要效率更高。

附图说明

图1为本发明实验所采用的一个层次关系数据库模式及其实例。

图2为真实数据上采用本发明的连接节省比。

图3为模拟数据上采用本发明的连接节省比。

图4为聚合属性数目m=2时，真实数据和模拟数据上摘要方法采用剪枝时的效率比较。其中，左图为真实数据，右图为模拟数据。

图5为聚合属性数目m=3时，真实数据和模拟数据上摘要方法采用剪枝时的效率比较。其中，左图为真实数据，右图为模拟数据。

图6为一部分可能的连接结果。中间一列为公司。

图7展示了m=2时MaxLMC(S,Q)可能的情况，数字代表每个MaxLMC中元组的数目。

具体实施方式

本发明所描述的聚合摘要方法是基于按序连接方法和剪枝摘要方法的,下面将通过一个例子详细描述本发明所述方法的具体实施方式：

考虑图1(e)中所示的关系数据库模式和图1(a, b, c, d)中对应于模式的实例。这是有关某公司销售商品的数据库。图1(e)中的有向箭头表示在模式之间存在有主键指向外键的（一对多）关系。考虑某用户在检索信息时键入关键字组合为“a”和“b”，意为需要检索出a和b特点的汽车。那么按照以下步骤进行聚集摘要：

（1）选取分别包含a和b的带连接结果集T ₁和T ₂。

（2）按序遍历T ₁中元组的过程中按序遍历T ₂中元组，若连接结果在层次关系上不是最低上层，则删掉结果。图6中第2，3条元组被删除。

（3）对（2）得到的聚合结果集族MaxLMC(S, Q)，按照剪枝摘要算法对其进行剪枝，如图7所示，此时的MaxLMC(S, Q)中有两类集族，各集合中元组的数目用数字标出。

（4）采用性质（3）中剪枝条件，我们从元组最多的集合a ₁开始选取，当选取第二个集合时，由于a ₂的元组为19条，比b ₁要多，因此不必考虑其他集合，将a ₂作为结果输出即可。同样的，a ₃也因此被输出。

（5）采用性质（4）中剪枝条件，假设灰色标记的集合的并集是已经选择的集合I，当前为第5次迭代。对于a ₄来说，假设8条元组中有3条在I中出现（此例中这3条元组来自b ₁），且I中共有9条元组来自集族b（此例中均来自b ₁），则在集族a中剩余的集合最多还可能与I相交的数目为9-3=6，因此，在按序的6+1条元组内必将出现一条不与I相交的元组（抽屉原理）。

（6）采用性质（5）中剪枝条件，当前为第5次迭代，同上例，对于a₄ ，有3条元组在b ₁中，则a₄ 的贡献为8-3=5，那么我们仅需考察到规模为5的a ₅即可，因为a ₅以后的元组规模都小于5，贡献不可能比a ₄大。

（7）按照（4）、（5）、（6）步骤剪枝得到最终的摘要集。

Claims

1.一种层次关系数据上关键字检索结果的聚合摘要方法，其特征在于具体步骤如下：

（1）对于查询用户输入的检索Q和依据DISCOVER系统生成的SQL语句，设 T ₁、T ₂是在SQL语句做最后连接之前的结果元组，T ₁={t| Q ₁,tcontainQ ₁, Q ₁

Q}，T ₂={t|

Q ₂,tcontainQ ₂, Q ₂

Q}且Q ₁∪Q ₂=Q, Q ₁∩Q ₂=Φ；在做最后连接前，对于待连接元组集T ₁、T ₂，以按序连接方法生成最大最低上层最小覆盖聚集MaxLMC(S,Q)= {R_S ₁, R_S ₂,…,R_Sm }，其中R_Si 表示层次S_i 上的聚合结果；

（2）以步骤(1)求出的MaxLMC(S,Q)，在存储时按照每一聚合结果R_Si 中元组的数目维护一个最大堆，使得MaxLMC(S,Q)是有序的；

（3）对于步骤(2)得到的有序MaxLMC(S,Q)，以迭代查找最大覆盖的方法，在查找的过程中进行剪枝，从而找出贪心结果I；其中，

步骤（1）中所述按序连接方法的步骤如下：

（a）MaxLMC(S,Q)初始化为空；MaxLMC(S,Q)记为R；

（c）重复步骤（b）的操作，对于元组集T ₂中的t _2k，若t ₁₁与t _2k的连接后的层次关系高于t ₁₁与t ₂₁连接后的层次关系，则进入步骤（d）；否则，将t ₁₁与t _2k连接，并加入R _MH ₍ t ₁₁ t ₂₁₎，进入步骤（b）；这里R _MH ₍ t ₁₁ t ₂₁₎表示R中最小上层与MH(t ₁₁
t ₂₁)相同的集合，其中R是一个集族；

（e）输出MaxLMC(S,Q)；

步骤（3）中所述迭代查找最大覆盖方法的步骤如下：

（b）选择元组数目最多的M_i ₁加入初始集合I；

（c）将M_i ₁从MaxLMC(S,Q)中删除；

（e）按照步骤（d）的选择选出使I M_ij 中元组数目最多的M_ij 加入I；

（f）将M_i ₁从MaxLMC(S,Q)中删除；

（h）输出I ；

所述对MaxLMC(S,Q)剪枝的步骤如下：

（2）若当前摘要集为I，并处于第r次迭代当中；在考察M_i 的时候，从M_i ₁开始，若|M_i ₁ I|=t，|I-
|=x，则在M_i 中，只需要按序考察x – t +1个集合；