CN102063474B

CN102063474B - 基于语义相关的XML关键字top-k查询方法

Info

Publication number: CN102063474B
Application number: CN201010598619A
Authority: CN
Inventors: 娄颖; 陈群; 李战怀; 张利军; 李霞; 崔海文
Original assignee: Northwestern Polytechnical University
Current assignee: Asia-Pacific Light Alloy (Nantong) Technology Co., Ltd.; Northwestern Polytechnical University
Priority date: 2010-12-16
Filing date: 2010-12-16
Publication date: 2012-10-10
Anticipated expiration: 2030-12-16
Also published as: CN102063474A

Abstract

本发明公开了一种基于语义相关的XML关键字top-k查询方法，以树结构对需XML文档进行预处理，将XML文档中能够满足下面条件的信息片段看作虚拟文档；根据相关度计算模型，计算出每个虚拟文档和被该虚拟文档所包含的词项之间的相关度，并对每个词项建立包含该词项虚拟文档的倒排表，倒排表的顺序按照相关度的大小由高到底排序；在虚拟文档d和关键字查询Q之间的相关度的基础上实现top-k查询。本发明能够在不计算出所有查询结果的情况下，根据用户的需要提前返回给用户最相关若干查询结果，避免冗余操作，提高了检索的效率和质量。

Description

基于语义相关的XML关键字top-k查询方法

技术领域

本发明属数据库技术领域，具体涉及一种XML文档关键字top-k查询方法。

背景技术

由于具有简洁、灵活和高可扩展性的特点，XML已经成为数据存储和交换的重要格式之一，用户对XML数据进行检索的效率和质量也提出了更高的要求。用户使用关键字查询时既不需要了解XML文档的结构也不需要掌握复杂的查询语言，因此，关键字查询逐步成为XML数据信息检索的重要手段。随着XML数据量迅速增加，查询结果的数量也相应较大，与web信息检索类似，用户往往关心的是最相关的几个结果。计算出所有查询结果返回给用户，从查询效率和用户需求来讲均不可取。利用top-k查询的思想能够在不需计算所有查询结果的情况下，提早输出最相关的k个结果。能够提高查询的效率并满足用户需求。

传统的关键字查询方法如“G.Li，J.Feng，J.Wang and L.Zhou Effective keyword searchfor valuable LCAs over XML document in CIKM pages 30-41，2007.”所描述的，是通过计算包含关键字节点的LCA进行查询，这种方法按照关键字出现在文档中的先后顺序进行计算查询结果，查询结果的输出顺序和其在文档中的先后顺序一致。这样，与用户需求不相关的查询结果也会首先返回给用户。也有方法如“Z.Bao，T.Ling，B.Chen and J.Lu.Effective XML Keyword Search with Relevance Oriented Ranking.in ICDE 2009.”采用计算出所有结果再进行相关度排序，这样虽然能够返回给用户相关结果，但常常会产生大量的无用操作，影响查询效率。

Threshold Algorithm(TA)算法(如“Ronald Fagin，Amnon Lotem，and Moni Naor.Optimalaggregation algorithms for middleware.In PODS，Santa Barbara，California，May 2001.”)是经典的top-k算法之一，已经广泛应用在关系数据库和信息检索领域能够顺序访问相关度属性的值是TA算法实现的条件之一。在XML文档信息检索中，结构语义是影响查询结果相关度的重要因素之一，但某些结构语义信息在查询前是未知的，这会影响TA算法中阈值(Threshold)的设置，无法实现TA算法。

发明内容

为了克服现有技术的不足，本发明提供一种XML关键字top-k检索算法，在满足XML文档信息无损的情况下，从XML文档中提取信息片段作为虚拟文档；根据XML文档树形结构的特点提出了同时考虑内容语义和结构语义的相关度计算模型；在此基础上，计算出虚拟文档中的词项与该虚拟文档之间的语义相关度，最终实现top-k查询算法，提高了检索的质量和效率。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤一、以树结构对需XML文档进行预处理，将XML文档中能够满足下面条件的信息片段看作虚拟文档：

1.XML文档中的子树。

2.该子树不能是只包含文本节点的子树。

3.该子树不能是只包含文本节点和文本节点父节点的子树。

对与每个虚拟文档，根据在文档中的顺序编号。

步骤二、根据相关度计算模型，计算出每个虚拟文档和被该虚拟文档所包含的词项之间的相关度，并对每个词项建立包含该词项虚拟文档的倒排表，倒排表的顺序按照相关度的大小由高到底排序。

计算虚拟文档和词项相关度的模型结合tf*idf加权技术，具体描述如下：

r (t, d) = \frac{\ln (1 + wtf (t, d)) * \ln (widf (t, D))}{n (d)} - - - (1)

公式(1)描述了对于每个词项t和虚拟文档d之间的相关度。具体描述如下：

wtf (t, d) = \underset{m &Element; m (d, t)}{Σ} α^{dis (d, m)} - - - (2)

wtf(t，d)计算词项在虚拟文档d中的词频，对于词项t，虚拟文档d中可能包含若干个，m代表d所包含一个具体的t，dis(d，m)代表m与d的之间的层次距离，即m与d的根节点之间的距离，α为层次衰减因子(设置为0.8的常量)。

widf (t, D) = \frac{f_{(D)}}{f_{(D, t)} + 1} - - - (3)

widf(t，D)代表了词项t在虚拟文档集合中的逆向文件频率idf。其中f(D)代表了所有的虚拟文档个数，f(D，t)代表包含了t的虚拟文档个数。

n (d) = (1 - s + s * \frac{l (d)}{avgl (D)}) * f^{λ} (d) - - - (4)

公式(4)对查询结果的词频正规化，第一项从内容上进行正规化，l(d)代表虚拟文档d的长度(包含词项的个数)，avgl(D)代表所有虚拟文档的平均长度，s为0.2的常量；f(d)代表d中包含虚拟文档的个数。λ为0.7的常量。

步骤三、在公式(5)的基础上实现top-k查询

R (Q, d) = \frac{1}{\ln (F (Q, d) + 1)} \underset{t &Element; Q}{Σ} r (t, d) - - - (5)

针对关键字查询Q，公式(5)计算虚拟文档d和Q之间的相关度。在进行top-k查询时，需要知道所有影响查询结果相关度因素，这样能够设置查询结果的阈值。公式(5)第一部分1/ln(F(Q，d)+1)为输入关键字之间的接近程度，是影响相关度的一个重要因素，通过d中包含Q中所有关键字的最小路径个数来表示，在确定最终查询结果后才能获取，称为未知相关度。第二部分为每个关键字(词项)与虚拟文档的相关度，在步骤二中已经计算获取，称为已知相关度。

对于未知相关度，当所有的关键字都处在查询结果的同一路径下时，关键字的接近程度最高，能够推断出未知相关度的最优值ln2，作为阈值计算的一部分。

按照TA算法的思想实现top-k查询的思想，具体方法为：

1、首先顺序访问每个关键字对应的虚拟文档倒排队列(虚拟文档是按照已知相关度由高到低的顺序排列)，确定阈值，阈值为当前指向倒排队列的已知相关度和未知相关度得最优值之和。

2、判断根据当前访问的虚拟文档是否包含所有关键字，在包含所有关键字的情况下，将该虚拟文档加入候选结果队列。比较候选结果队列中的虚拟文档相关度值与阈值的大小，当候选结果相关度大于阈值，输出该候选结果。当输出k个结果时，结束算法；当未能输出k个结果时，重复1和2，继续向下顺序访问虚拟文档倒排队列，根据指向的已知相关度改变阈值，进而按照2描述计算新的查询结果。

本发明的有益效果是：由于充分考虑了包含在XML文档中的内容和结构语义信息，并且改变了查询结果的计算顺序，本发明能够在不计算出所有查询结果的情况下，根据用户的需要提前返回给用户最相关若干查询结果。避免冗余操作。提高了检索的效率和质量。

下面结合附图和实施例对本发明进一步说明。

附图说明

图1为一个XML文档及其树形表示。

图2虚拟文档的结构图。

图3工作流程图。

具体实施方式

1.与本发明有关的一些概念和定义。

图1所示，XML文档可以表示为树模型：T＝(NE，NV，E，r)，其中内部节点集合NE对应XML文档的元素和属性，叶节点集合NV对应XML文档的文本，E为有向边集合，代表了节点之间的信息包含关系，r为文档树的根节点。图2所示，在虚拟文档中，直接包含文本的节点均为认为是对文本内容的说明，看作标注节点。

阈值算法(Threshold Algorithm)是由Fagin在2001年提出的高效top-k查询算法，广泛应用与各种领域。需要满足两个条件：1.查询结果的语义相关度与影响相关度属性值之间存在着单调的关系；2.能够顺序和随机访问影响相关度的因素值。

2.与本发明有关的一些性质。

性质1.当关键字出现在某个虚拟文档中的次数越多，距离越近，该关键字与文档的相关联度越高。

性质2.在距离和词频相同的情况下，虚拟文档包含的内容信息和语义信息越少，与关键字的相关度越高。

查询结果的大小分为两个部分：文本内容的长度和结构内容的大小。对于文本内容的长度，我们借助tf*idf加权技术中词频正规化的思想进行判断。对于结构内容的大小，考虑结构中包含语义信息是否丰富，我们将查询结果中包含虚拟文档个数作为衡量结构内容的标准。查包含的虚拟文档个数越少，说明语义信息越单一，该结果的相关度越高。

性质3.在其他因素均相同的情况下，在虚拟文档中查询关键字接近程度越高，该虚拟文档与查询的相关度越高。

关键字的接近程度是影响查询结果相关度的重要因素，通过关键字在查询结果中的最小分布情况判断关键字的接近程度，分布越集中，查询结果越相关；分布越分散，查询结果越不相关。我们通过计算虚拟文档中包含所有关键字至少一次的信息片断中最小路径个数计算查询关键字的接近程度。

给定XML文档，如图3所示，本发明的top-k查询方法具体如下：

(1)确定XML文档中的虚拟文档：

a)预处理XML文档，在解析XML文档过程中，根据步骤一中的描述，确定XML文档中的虚拟文档，并进行编号。

(2)计算每个虚拟文档与其包含每个词项之间的相关度，建立词项的倒排表。

a)对于每个虚拟文档，根据公式(2)，计算出虚拟文档与词项受层次语义影响的词频。包括该关键字出现的次数和与根节点的层次距离。

b)对于XML文档中的每个词项，根据公式(3)计算出该词项在所有虚拟文档中的逆向文档频率。

c)对于每个虚拟文档，计算出该文档的内容长度和语义信息的多少，再根据公式(4)计算出规范化因子。

d)最后根据公式(1)，计算出虚拟文档与包含其包含词项之间的相关度，作为已知的相关度值。建立关键字和虚拟文档的倒排表，倒排表按照相关度值由高到低排序。

(3)在用户输入查询关键字查询和k值后，查询过程如下：

a)针对输入的查询关键字，提取查询中每个关键字对应的虚拟文档列表，列表按照已知相关度由高到低进行排序。

b)顺序访问每个关键字对应的虚拟文档倒排队列，根据公式(5)，结合未知相关度得最优值和当前虚拟文档的已知相关度的值设置阈值。

c)判断根据当前访问的虚拟文档是否包含所有关键字，在包含所有关键字的情况下，将该虚拟文档加入候选结果队列，比较候选结果队列中的虚拟文档最终相关度值与阈值的大小，判断候选结果队列中时候有k个结果大于阈值，如果没有，回到b)，向下顺序访问，改变阈值，进入c)继续查询；如果有，输出k个查询结果。

Claims

1.一种基于语义相关的XML关键字top-k查询方法，其特征在于包括下述步骤：

步骤一、以树结构对XML文档进行预处理，将XML文档中能够满足下面条件的信息片段看作虚拟文档：

1)XML文档中的子树；

2)该子树不能是只包含文本节点的子树；

3)该子树不能是只包含文本节点和文本节点父节点的子树；

对于每个虚拟文档，根据在文档中的顺序编号；

步骤二、根据相关度计算模型，计算出每个虚拟文档和被该虚拟文档所包含的词项之间的相关度，并对每个词项建立包含该词项虚拟文档的倒排表，倒排表的顺序按照相关度的大小由高到底排序；

虚拟文档和词项的相关度

其中，词项在虚拟文档d中的词频

m代表d所包含一个具体的t，dis(d，m)代表m与d的之间的层次距离，即m与d的根节点之间的距离，α为层次衰减因子，设置为0.8；词项t在虚拟文档集合中的逆向文件频率

f(D)代表了所有的虚拟文档个数，f(D，t)代表包含了t的虚拟文档个数；对查询结果的词频正规化

l(d)代表虚拟文档d的长度，avgl(D)代表所有虚拟文档的平均长度，s为0.2的常量；f(d)代表d中包含虚拟文档的个数，λ为0.7；

步骤三、在虚拟文档d和关键字查询Q之间的相关度的基础上实现top-k查询，1/ln(F(Q，d)+1)为输入关键字之间的接近程度，通过d中包含Q中所有关键字的最小路径个数来表示，具体方法为：

a)首先顺序访问每个关键字对应的虚拟文档倒排队列，确定阈值，阈值为当前指向倒排队列的已知相关度和未知相关度的最优值之和；

b)判断根据当前访问的虚拟文档是否包含所有关键字，在包含所有关键字的情况下，将该虚拟文档加入候选结果队列；比较候选结果队列中的虚拟文档相关度值与阈值的大小，当候选结果相关度大于阈值，输出该候选结果；当输出k个结果时，结束算法；当未能输出k个结果时，重复a)和b)，继续向下顺序访问虚拟文档倒排队列，根据指向的已知相关度改变阈值，进而按照b)描述计算新的查询结果。