CN102063474B - 基于语义相关的XML关键字top-k查询方法 - Google Patents

基于语义相关的XML关键字top-k查询方法 Download PDF

Info

Publication number
CN102063474B
CN102063474B CN201010598619A CN201010598619A CN102063474B CN 102063474 B CN102063474 B CN 102063474B CN 201010598619 A CN201010598619 A CN 201010598619A CN 201010598619 A CN201010598619 A CN 201010598619A CN 102063474 B CN102063474 B CN 102063474B
Authority
CN
China
Prior art keywords
virtual document
document
degree
correlation
virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010598619A
Other languages
English (en)
Other versions
CN102063474A (zh
Inventor
娄颖
陈群
李战怀
张利军
李霞
崔海文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asia-Pacific Light Alloy (Nantong) Technology Co., Ltd.
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201010598619A priority Critical patent/CN102063474B/zh
Publication of CN102063474A publication Critical patent/CN102063474A/zh
Application granted granted Critical
Publication of CN102063474B publication Critical patent/CN102063474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于语义相关的XML关键字top-k查询方法,以树结构对需XML文档进行预处理,将XML文档中能够满足下面条件的信息片段看作虚拟文档;根据相关度计算模型,计算出每个虚拟文档和被该虚拟文档所包含的词项之间的相关度,并对每个词项建立包含该词项虚拟文档的倒排表,倒排表的顺序按照相关度的大小由高到底排序;在虚拟文档d和关键字查询Q之间的相关度的基础上实现top-k查询。本发明能够在不计算出所有查询结果的情况下,根据用户的需要提前返回给用户最相关若干查询结果,避免冗余操作,提高了检索的效率和质量。

Description

基于语义相关的XML关键字top-k查询方法
技术领域
本发明属数据库技术领域,具体涉及一种XML文档关键字top-k查询方法。
背景技术
由于具有简洁、灵活和高可扩展性的特点,XML已经成为数据存储和交换的重要格式之一,用户对XML数据进行检索的效率和质量也提出了更高的要求。用户使用关键字查询时既不需要了解XML文档的结构也不需要掌握复杂的查询语言,因此,关键字查询逐步成为XML数据信息检索的重要手段。随着XML数据量迅速增加,查询结果的数量也相应较大,与web信息检索类似,用户往往关心的是最相关的几个结果。计算出所有查询结果返回给用户,从查询效率和用户需求来讲均不可取。利用top-k查询的思想能够在不需计算所有查询结果的情况下,提早输出最相关的k个结果。能够提高查询的效率并满足用户需求。
传统的关键字查询方法如“G.Li,J.Feng,J.Wang and L.Zhou Effective keyword searchfor valuable LCAs over XML document in CIKM pages 30-41,2007.”所描述的,是通过计算包含关键字节点的LCA进行查询,这种方法按照关键字出现在文档中的先后顺序进行计算查询结果,查询结果的输出顺序和其在文档中的先后顺序一致。这样,与用户需求不相关的查询结果也会首先返回给用户。也有方法如“Z.Bao,T.Ling,B.Chen and J.Lu.Effective XML Keyword Search with Relevance Oriented Ranking.in ICDE 2009.”采用计算出所有结果再进行相关度排序,这样虽然能够返回给用户相关结果,但常常会产生大量的无用操作,影响查询效率。
Threshold Algorithm(TA)算法(如“Ronald Fagin,Amnon Lotem,and Moni Naor.Optimalaggregation algorithms for middleware.In PODS,Santa Barbara,California,May 2001.”)是经典的top-k算法之一,已经广泛应用在关系数据库和信息检索领域能够顺序访问相关度属性的值是TA算法实现的条件之一。在XML文档信息检索中,结构语义是影响查询结果相关度的重要因素之一,但某些结构语义信息在查询前是未知的,这会影响TA算法中阈值(Threshold)的设置,无法实现TA算法。
发明内容
为了克服现有技术的不足,本发明提供一种XML关键字top-k检索算法,在满足XML文档信息无损的情况下,从XML文档中提取信息片段作为虚拟文档;根据XML文档树形结构的特点提出了同时考虑内容语义和结构语义的相关度计算模型;在此基础上,计算出虚拟文档中的词项与该虚拟文档之间的语义相关度,最终实现top-k查询算法,提高了检索的质量和效率。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤一、以树结构对需XML文档进行预处理,将XML文档中能够满足下面条件的信息片段看作虚拟文档:
1.XML文档中的子树。
2.该子树不能是只包含文本节点的子树。
3.该子树不能是只包含文本节点和文本节点父节点的子树。
对与每个虚拟文档,根据在文档中的顺序编号。
步骤二、根据相关度计算模型,计算出每个虚拟文档和被该虚拟文档所包含的词项之间的相关度,并对每个词项建立包含该词项虚拟文档的倒排表,倒排表的顺序按照相关度的大小由高到底排序。
计算虚拟文档和词项相关度的模型结合tf*idf加权技术,具体描述如下:
r ( t , d ) = ln ( 1 + wtf ( t , d ) ) * ln ( widf ( t , D ) ) n ( d ) - - - ( 1 )
公式(1)描述了对于每个词项t和虚拟文档d之间的相关度。具体描述如下:
wtf ( t , d ) = Σ m ∈ m ( d , t ) α dis ( d , m ) - - - ( 2 )
wtf(t,d)计算词项在虚拟文档d中的词频,对于词项t,虚拟文档d中可能包含若干个,m代表d所包含一个具体的t,dis(d,m)代表m与d的之间的层次距离,即m与d的根节点之间的距离,α为层次衰减因子(设置为0.8的常量)。
widf ( t , D ) = f ( D ) f ( D , t ) + 1 - - - ( 3 )
widf(t,D)代表了词项t在虚拟文档集合中的逆向文件频率idf。其中f(D)代表了所有的虚拟文档个数,f(D,t)代表包含了t的虚拟文档个数。
n ( d ) = ( 1 - s + s * l ( d ) avgl ( D ) ) * f λ ( d ) - - - ( 4 )
公式(4)对查询结果的词频正规化,第一项从内容上进行正规化,l(d)代表虚拟文档d的长度(包含词项的个数),avgl(D)代表所有虚拟文档的平均长度,s为0.2的常量;f(d)代表d中包含虚拟文档的个数。λ为0.7的常量。
步骤三、在公式(5)的基础上实现top-k查询
R ( Q , d ) = 1 ln ( F ( Q , d ) + 1 ) Σ t ∈ Q r ( t , d ) - - - ( 5 )
针对关键字查询Q,公式(5)计算虚拟文档d和Q之间的相关度。在进行top-k查询时,需要知道所有影响查询结果相关度因素,这样能够设置查询结果的阈值。公式(5)第一部分1/ln(F(Q,d)+1)为输入关键字之间的接近程度,是影响相关度的一个重要因素,通过d中包含Q中所有关键字的最小路径个数来表示,在确定最终查询结果后才能获取,称为未知相关度。第二部分为每个关键字(词项)与虚拟文档的相关度,在步骤二中已经计算获取,称为已知相关度。
对于未知相关度,当所有的关键字都处在查询结果的同一路径下时,关键字的接近程度最高,能够推断出未知相关度的最优值ln2,作为阈值计算的一部分。
按照TA算法的思想实现top-k查询的思想,具体方法为:
1、首先顺序访问每个关键字对应的虚拟文档倒排队列(虚拟文档是按照已知相关度由高到低的顺序排列),确定阈值,阈值为当前指向倒排队列的已知相关度和未知相关度得最优值之和。
2、判断根据当前访问的虚拟文档是否包含所有关键字,在包含所有关键字的情况下,将该虚拟文档加入候选结果队列。比较候选结果队列中的虚拟文档相关度值与阈值的大小,当候选结果相关度大于阈值,输出该候选结果。当输出k个结果时,结束算法;当未能输出k个结果时,重复1和2,继续向下顺序访问虚拟文档倒排队列,根据指向的已知相关度改变阈值,进而按照2描述计算新的查询结果。
本发明的有益效果是:由于充分考虑了包含在XML文档中的内容和结构语义信息,并且改变了查询结果的计算顺序,本发明能够在不计算出所有查询结果的情况下,根据用户的需要提前返回给用户最相关若干查询结果。避免冗余操作。提高了检索的效率和质量。
下面结合附图和实施例对本发明进一步说明。
附图说明
图1为一个XML文档及其树形表示。
图2虚拟文档的结构图。
图3工作流程图。
具体实施方式
1.与本发明有关的一些概念和定义。
图1所示,XML文档可以表示为树模型:T=(NE,NV,E,r),其中内部节点集合NE对应XML文档的元素和属性,叶节点集合NV对应XML文档的文本,E为有向边集合,代表了节点之间的信息包含关系,r为文档树的根节点。图2所示,在虚拟文档中,直接包含文本的节点均为认为是对文本内容的说明,看作标注节点。
阈值算法(Threshold Algorithm)是由Fagin在2001年提出的高效top-k查询算法,广泛应用与各种领域。需要满足两个条件:1.查询结果的语义相关度与影响相关度属性值之间存在着单调的关系;2.能够顺序和随机访问影响相关度的因素值。
2.与本发明有关的一些性质。
性质1.当关键字出现在某个虚拟文档中的次数越多,距离越近,该关键字与文档的相关联度越高。
性质2.在距离和词频相同的情况下,虚拟文档包含的内容信息和语义信息越少,与关键字的相关度越高。
查询结果的大小分为两个部分:文本内容的长度和结构内容的大小。对于文本内容的长度,我们借助tf*idf加权技术中词频正规化的思想进行判断。对于结构内容的大小,考虑结构中包含语义信息是否丰富,我们将查询结果中包含虚拟文档个数作为衡量结构内容的标准。查包含的虚拟文档个数越少,说明语义信息越单一,该结果的相关度越高。
性质3.在其他因素均相同的情况下,在虚拟文档中查询关键字接近程度越高,该虚拟文档与查询的相关度越高。
关键字的接近程度是影响查询结果相关度的重要因素,通过关键字在查询结果中的最小分布情况判断关键字的接近程度,分布越集中,查询结果越相关;分布越分散,查询结果越不相关。我们通过计算虚拟文档中包含所有关键字至少一次的信息片断中最小路径个数计算查询关键字的接近程度。
给定XML文档,如图3所示,本发明的top-k查询方法具体如下:
(1)确定XML文档中的虚拟文档:
a)预处理XML文档,在解析XML文档过程中,根据步骤一中的描述,确定XML文档中的虚拟文档,并进行编号。
(2)计算每个虚拟文档与其包含每个词项之间的相关度,建立词项的倒排表。
a)对于每个虚拟文档,根据公式(2),计算出虚拟文档与词项受层次语义影响的词频。包括该关键字出现的次数和与根节点的层次距离。
b)对于XML文档中的每个词项,根据公式(3)计算出该词项在所有虚拟文档中的逆向文档频率。
c)对于每个虚拟文档,计算出该文档的内容长度和语义信息的多少,再根据公式(4)计算出规范化因子。
d)最后根据公式(1),计算出虚拟文档与包含其包含词项之间的相关度,作为已知的相关度值。建立关键字和虚拟文档的倒排表,倒排表按照相关度值由高到低排序。
(3)在用户输入查询关键字查询和k值后,查询过程如下:
a)针对输入的查询关键字,提取查询中每个关键字对应的虚拟文档列表,列表按照已知相关度由高到低进行排序。
b)顺序访问每个关键字对应的虚拟文档倒排队列,根据公式(5),结合未知相关度得最优值和当前虚拟文档的已知相关度的值设置阈值。
c)判断根据当前访问的虚拟文档是否包含所有关键字,在包含所有关键字的情况下,将该虚拟文档加入候选结果队列,比较候选结果队列中的虚拟文档最终相关度值与阈值的大小,判断候选结果队列中时候有k个结果大于阈值,如果没有,回到b),向下顺序访问,改变阈值,进入c)继续查询;如果有,输出k个查询结果。

Claims (1)

1.一种基于语义相关的XML关键字top-k查询方法,其特征在于包括下述步骤:
步骤一、以树结构对XML文档进行预处理,将XML文档中能够满足下面条件的信息片段看作虚拟文档:
1)XML文档中的子树;
2)该子树不能是只包含文本节点的子树;
3)该子树不能是只包含文本节点和文本节点父节点的子树;
对于每个虚拟文档,根据在文档中的顺序编号;
步骤二、根据相关度计算模型,计算出每个虚拟文档和被该虚拟文档所包含的词项之间的相关度,并对每个词项建立包含该词项虚拟文档的倒排表,倒排表的顺序按照相关度的大小由高到底排序;
虚拟文档和词项的相关度
Figure FSB00000843224600011
其中,词项在虚拟文档d中的词频
Figure FSB00000843224600012
m代表d所包含一个具体的t,dis(d,m)代表m与d的之间的层次距离,即m与d的根节点之间的距离,α为层次衰减因子,设置为0.8;词项t在虚拟文档集合中的逆向文件频率 
Figure FSB00000843224600013
f(D)代表了所有的虚拟文档个数,f(D,t)代表包含了t的虚拟文档个数;对查询结果的词频正规化
Figure FSB00000843224600014
l(d)代表虚拟文档d的长度,avgl(D)代表所有虚拟文档的平均长度,s为0.2的常量;f(d)代表d中包含虚拟文档的个数,λ为0.7;
步骤三、在虚拟文档d和关键字查询Q之间的相关度 的基础上实现top-k查询,1/ln(F(Q,d)+1)为输入关键字之间的接近程度,通过d中包含Q中所有关键字的最小路径个数来表示,具体方法为:
a)首先顺序访问每个关键字对应的虚拟文档倒排队列,确定阈值,阈值为当前指向倒排队列的已知相关度和未知相关度的最优值之和;
b)判断根据当前访问的虚拟文档是否包含所有关键字,在包含所有关键字的情况 下,将该虚拟文档加入候选结果队列;比较候选结果队列中的虚拟文档相关度值与阈值的大小,当候选结果相关度大于阈值,输出该候选结果;当输出k个结果时,结束算法;当未能输出k个结果时,重复a)和b),继续向下顺序访问虚拟文档倒排队列,根据指向的已知相关度改变阈值,进而按照b)描述计算新的查询结果。 
CN201010598619A 2010-12-16 2010-12-16 基于语义相关的XML关键字top-k查询方法 Active CN102063474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010598619A CN102063474B (zh) 2010-12-16 2010-12-16 基于语义相关的XML关键字top-k查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010598619A CN102063474B (zh) 2010-12-16 2010-12-16 基于语义相关的XML关键字top-k查询方法

Publications (2)

Publication Number Publication Date
CN102063474A CN102063474A (zh) 2011-05-18
CN102063474B true CN102063474B (zh) 2012-10-10

Family

ID=43998750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010598619A Active CN102063474B (zh) 2010-12-16 2010-12-16 基于语义相关的XML关键字top-k查询方法

Country Status (1)

Country Link
CN (1) CN102063474B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102394784B (zh) * 2011-11-21 2016-01-20 北京邮电大学 基于隐私保持的分布式Top-k查询方法
CN102867054A (zh) * 2012-09-13 2013-01-09 江苏乐买到网络科技有限公司 一种xml关键字查询方法
CN104391908B (zh) * 2014-11-17 2019-03-05 南京邮电大学 一种图上基于局部敏感哈希的多关键字索引方法
CN105069094B (zh) * 2015-08-06 2018-08-07 苏州大学 一种基于语义理解的空间关键字索引方法
CN107577752B (zh) * 2017-08-31 2019-11-08 北京印刷学院 一种基于关键字的xml检索排序处理系统及方法
CN113641783A (zh) * 2020-04-27 2021-11-12 北京庖丁科技有限公司 基于关键语句的内容块检索方法、装置、设备和介质
CN113779039A (zh) * 2021-09-26 2021-12-10 辽宁工程技术大学 Top-k集合空间关键字近似查询方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201834A (zh) * 2007-11-01 2008-06-18 复旦大学 基于文档类型定义的xml数据流关键字搜索方法
CN101840438A (zh) * 2010-05-25 2010-09-22 刘宏 面向源文献元关键词的检索系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8688673B2 (en) * 2005-09-27 2014-04-01 Sarkar Pte Ltd System for communication and collaboration

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201834A (zh) * 2007-11-01 2008-06-18 复旦大学 基于文档类型定义的xml数据流关键字搜索方法
CN101840438A (zh) * 2010-05-25 2010-09-22 刘宏 面向源文献元关键词的检索系统

Also Published As

Publication number Publication date
CN102063474A (zh) 2011-05-18

Similar Documents

Publication Publication Date Title
CN102063474B (zh) 基于语义相关的XML关键字top-k查询方法
Martínez-Prieto et al. Exchange and consumption of huge RDF data
CN103235812B (zh) 查询多意图识别方法和系统
CN104915449B (zh) 一种基于水利对象分类标签的分面检索系统及方法
CN102081660B (zh) 基于语义相关的xml文档关键字检索排序方法
CN102799677A (zh) 一种基于语义的水利领域信息检索系统及方法
CN102411626A (zh) 基于相关性分数分布对查询意图进行分类的方法
Akritidis et al. A self-verifying clustering approach to unsupervised matching of product titles
CN101814093A (zh) 一种基于相似性的半监督学习垃圾网页检测方法
Koumenides et al. Ranking methods for entity‐oriented semantic web search
Paliwal et al. Web service discovery via semantic association ranking and hyperclique pattern discovery
Nguyen et al. K-Graphs: selecting top-k data sources for XML keyword queries
Nguyen et al. Top-k answers for XML keyword queries
CN104794237A (zh) 网页信息处理方法及装置
CN100447788C (zh) 一种基于固定关键词的信息搜索方法及系统
Fafalios et al. Type-Ahead Exploratory Search through Typo and Word Order Tolerant Autocompletion.
Fafalios et al. Exploiting available memory and disk for scalable instant overview search
Ning et al. Efficient processing of top-k twig queries over probabilistic XML data
Arora et al. Graph based ranked answers for keyword graph structure
Yao et al. Efficient computation of multiple XML keyword queries
Zhu et al. Application of e-commerce personality searching based on RSS
Zhou et al. Effective approach for an extended p-skyline query
Koloniari et al. Lca-based selection for xml document collections
Pirumova Optimization of information service technologies in the Central scientific agricultural library
Mijić et al. CADIAL search engine at INEX

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: ASIA-PACIFIC LIGHT ALLOY (NANTONG) TECHNOLOGY CO.,

Free format text: FORMER OWNER: NORTHWESTERN POLYTECHNICAL UNIVERSITY

Effective date: 20141125

Owner name: NORTHWESTERN POLYTECHNICAL UNIVERSITY

Effective date: 20141125

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 710072 XI AN, SHAANXI PROVINCE TO: 226600 NANTONG, JIANGSU PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20141125

Address after: 226600 No. 29 Haiphong Road, Haian Economic Development Zone, Haian, Jiangsu, Nantong

Patentee after: Asia-Pacific Light Alloy (Nantong) Technology Co., Ltd.

Patentee after: Northwestern Polytechnical University

Address before: 710072 Xi'an friendship West Road, Shaanxi, No. 127

Patentee before: Northwestern Polytechnical University