CN103455564A - 一种根据维基百科中话题信息使查询词项多样化的方法 - Google Patents

一种根据维基百科中话题信息使查询词项多样化的方法 Download PDF

Info

Publication number
CN103455564A
CN103455564A CN2013103563193A CN201310356319A CN103455564A CN 103455564 A CN103455564 A CN 103455564A CN 2013103563193 A CN2013103563193 A CN 2013103563193A CN 201310356319 A CN201310356319 A CN 201310356319A CN 103455564 A CN103455564 A CN 103455564A
Authority
CN
China
Prior art keywords
lexical item
topic
probability
wikipedia
sim
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013103563193A
Other languages
English (en)
Other versions
CN103455564B (zh
Inventor
胡昊
张明西
汪卫
王鹏
何震瀛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201310356319.3A priority Critical patent/CN103455564B/zh
Publication of CN103455564A publication Critical patent/CN103455564A/zh
Application granted granted Critical
Publication of CN103455564B publication Critical patent/CN103455564B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明属于关系数据库技术领域,具体为一种根据维基百科中话题信息使查询词项多样化的方法。该方法的步骤为:给定目标查询词t 0,候选扩展集T,维基百科中的话题信息C和页面信息D(C),相似性函数sim 1sim 2,整数k和实数
Figure 772701DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE004AA
),通过贪心方法,在每一轮迭代中寻找当前与目标查询词t 0既相似又同时具有最大的话题多样性的词项,直至k个词项
Figure DEST_PATH_IMAGE006AA
都被找到。本发明在扩展查询此项时引入了外部的维基百科分类信息,从而使扩展的多样性得以更高。

Description

一种根据维基百科中话题信息使查询词项多样化的方法
技术领域
本发明属于关系数据库技术领域,具体涉及一种根据维基百科中话题信息使查询词项多样化的方法。
背景技术
近年来,关键字查询作为从结构化或半结构化数据中提取所需信息的方法已被广为接受。为提高查询质量,查询推荐是常用的方法。查询推荐方法在用户提交关键字进行查询时根据查询记录分析等方法推荐一些相关的关键字供用户选择。
然而,仅推荐相关的关键字是不够的,向用户推荐的这些关键字两两之间应该在话题上尽可能的不同,这样才能使关键字尽可能的覆盖更多的话题。上述过程即为查询词项的多样化。
现在已有一些将查询词项多样化的方法。但是这些方法大多数都是通过对查询记录分析,然后依据统计方法、机器学习方法等方法来对查询词项进行多样化。然而,实际应用中并不总是会有查询记录,这限制了上述方法的使用。此外,还有一些工作通过对查询数据或者查询结果的分析来进行查询词项的多样化,这与本发明提出的方法不同,本发明采用维基百科中的话题信息来对查询词项多样化。
维基百科是一个开放的百科全书,它所提供的词条和概念具有较高的覆盖率和准确率。因此,本发明依靠维基百科来进行查询词项多样化。
发明内容
本发明的目的是针对查询推荐中的查询词项同质化问题,提出一种根据维基百科中话题信息时查询词项多样化的方法,以提高查询推荐在话题上的覆盖率,提升用户体验。
本发明提出的查询词项多样化的方法,利用维基百科中的话题信息,结合候选扩展集和数据库中的统计信息,通过MMR方法,对候选扩展集中的词项进行重新选择,使得选出的k个词项既与给定的目标查询词t0相似,又互相在话题上呈现多样性。
首先对一些基本概念进行定义:
定义1.维基百科中的分类信息:维基百科中的分类信息包括一个分类层次c和实体集合ε,每个c∈c都是一个分类,每个e∈ε都是一个实体。若实体e是一个分类c的实例,则记作e∈c。
本发明中,我们认为每个分类或实体都代表一个相应的话题。
定义2.候选扩展集T:T中包含n个与目标查询词t0相关的词。查询词项多样性的方法是从T中选出k个词。
计算时,候选扩展集可以是任意查询推荐方法给出的推荐词的集合。这样的设置保证了本方法的兼容性。对于给定的查询推荐方法,我们采用siml(t0,t)来表示t和t0的相关性。
假设每一个词项t∈T都被分类到维基百科上的相关话题中,我们用C(t)表示与t相关的所有话题。由于每一个词侧重的话题不同,因此我们假定每一个词t在话题集合C(t)上都有一个分布。记这个分布为ζ(t)。对于两个词t1和t2,我们可以求出他们在话题C(tl)∪C(t2)上的分布ζ(t1)和ζ(t2),然后根据多样性函数sim2(t1,t2)=cos(ζ(t1),ζ(t2))来计算t1和t2在话题上的不同。
计算时,由于维基百科中话题数目非常多,我们仅取与目标查询词最相关的话题c,然后令C=(cl,c2,...,cn}为话题c的所有子话题。
根据之前所述,本发明方法需要解决的问题形式化表述如下:
问题1.查询词项推荐的多样化问题:给定目标查询词t0,候选扩展集T,相关性度量函数sim1和sim2,以及整数k,要找到一个多样性词项集合Sk={t1,t2,...,ti,...,tk},
Figure BDA0000366984900000022
使得第i个词项ti的边缘相关度(marginal relevance)最大。
本发明中,边缘相关度的计算式为:
MR ( t 0 , t i ) = λ sim 1 ( t 0 , t i ) - ( 1 - λ ) max t x ∈ S i - 1 sim 2 ( t x , t i )
其中,λ∈[0,1],是一个实数。
对于上述问题1,我们采用已知的MMR方法来求解。
求解时从
Figure BDA0000366984900000023
开始,每次向集合Si-1中添加词ti,ti∈T-Si-1,使得MR(t0,ti)最大。该过程一直持续,直到k个词均被添加(即生成Sk)为止。
为正确求解问题1,需要知道目标查询词t0,候选扩展集T,相关性度量函数sim1和sim2,以及整数k。一般地,对于给定的目标查询词t0,相关性度量函数sim1可以利用已知的相似性计算方法;一旦确定了相似性计算方法,候选扩展集T和相关性度量函数sim1便确定了。接下来需要确定sim2函数和话题分布ζ(tx)。具体步骤如下:
(1)对于候选扩展集T中的每一个词项tx∈T,设维基百科中的话题信息C={c1,c2,...,cn}由n个话题组成,根据话题对应方法,为每个词项tx生成话题分布ζ(tx),该分布的概率质量函数记为P{C=ci|tx}=P(ci|tx);
(2)以步骤(1)求出的|T|个分布,根据相关性函数sim1、sim2和参数λ(λ∈[0,1]),利用已知的MMR算法找出多样化此项扩展集合Sk,使得|Sk|=k,且Sk中的k个词项既与目标查询词t0相似,又对应方法的步骤如下:
(a)选择与t0在分类信息上首次出现的分类c(即为与t0最相关的分类),令C={c1,c2,...,cn}为所有c的子分类;
(b)对于分布ζ(tx),其概率质量函数P(ci|tx)按照如下方法计算:
P ( c i | t x ) = P ( t x | c i ) P ( c i ) P ( t x )
其中词项tx的概率P(tx)在分布的各个分量中都相等,不会影响ζ(tx),因此忽略不计算P(tx);词项tx在给定分类信息ci上的概率P(tx|ci)是维基百科中的先验概率,它与查询所在的数据库无关;分类信息ci的概率P(ci则为ci在数据库上的概率;
步骤(b)中所述P(tx|ci]和p(ci)的计算方法如下:
(b1)词项tx在给定分类信息ci上的概率P(tx|ci)分为分类短语相关概率
P ( t x | c i ) = α P ph ( t x | c i ) + ( 1 - α ) P st ( t x | c i )
其中,α是调整分类短语相关概率和统计相关概率的权重参数,取值范围为0≤α≤1,计算时可取α=0.6;
(b2)步骤(b1)中Pph(tx|ci)计算方法为:
P ph ( t x | c i ) = 1 c i ( t x ) Σ c j ∈ C ( t 0 ) 1 c j ( t x )
其中当词项tx在分类系信息ci中出现时,
Figure BDA0000366984900000043
否则
Figure BDA0000366984900000044
(b3)步骤(b1)中Pst(tx|ci)即词项tx在文档集D(ci)中的TF-IDF值,其中文档集D(ci)是维基百科中分类信息ci下的所有解释页面;
(b4)P(ci)的计算方法为, P ( c i ) = 1 - ( Σ t j ∈ c i ( 1 - Imp ( t j ) p Num _ of _ terms ( c i ) ) 1 p , 其中p=2,Num_of_terms(ci)为分类信息ci中词项的个数;
(b5)步骤(b4)中Imp(tj)=PR(tj)×IDF(tj],其中PR(tj)为词项tj在数据库中的PageRank值,计算时,先按照数据库的模式将数据改写成图数据,然后按照PageRank的方法进行计算;IDF(tj)为词项tj在数据库中出现次数的倒数。
上述方法在计算两个词项tx和ti在话题上的不同时,先计算出各自在所有相关话题C={c1,c2,...,cn}上的分布,然后根据cosine距离计算话题分布上的距离。使用cosine距离是因为它与向量长度无关,并且可以快速计算。
在计算话题分布ζ(tx)中的概率质量函数P(cz|tx)时,本发明同时利用了词项与维基百科中话题的相似度,以及话题在数据库中的重要程度。结合了两者的信息,本方法更加合理的给出了词项在话题上的分布。
附图说明
图1为已知方法NetClus计算出的相关词项和根据词项设置的潜在话题。
图2为维基百科中与“Data mining”相关的话题。
图3为本发明计算出的与“data mining”和“XML”相关的话题。
图4为本发明计算出的“data mining”相关词项,λ取0.8。
图5为本发明计算出的“XML”相关词项,λ取0.8。
图6为本发明方法与已有方法的比较,其中FCT为Frequent Co-occuring Terms方法;CRW为Contextual Random Walk方法;NC为NetClus方法;TDQS0,TDQS5,TDQS8分别为本发明方法中λ取0,0.5和0.8的情况。
图7为本发明方法的效果(NDGC-IA)与已有方法的比较。
具体实施方式
本发明所描述的查询词项多样化是基于已有的相关性计算方法的,下面将通过一个例子详细描述本发明所述方法的具体实施方式:
考虑图1中所示的由已知方法NetClus计算出的“data mining”相关的词项。很显然,这top-5个词项在潜在话题上过于一致(2个来自data mining,3个来自association rule mining)。实际情况中,与data mining相关的话题还有很多(如图2中的classification等)。相关词项的推荐应该同时考虑话题上的多样性。比如,若推荐classification、tree这些词项,会给用户提供更多的选择。
考虑用户给定的目标查询词为t0=“data mining”,并且已经按照NetClus的方法计算出相关词项T(图1)。为了将这些相关词项按照不同的话题重新排列,我们首先构造C(t0)。与data mining词项最相关的话题在维基百科中为同名话题data mining,因此,我们将data mining话题的所有子话题都包含在C(t0)内。
我们按照以下步骤进行多样化:
(1)估算T中每一个词的tx分布ζ(tx);
(2)以步骤(1)求出的|T|个分布,根据相关性函数sim1、sim2和参数λ(λ∈[O,1]),利用已知的MMR算法找出多样化此项扩展集合Sk
步骤(1)中所述话题对应的步骤如下:
(a)构造C(t0)。
(b)对于分布ζ(tx),计算其概率质量函数P(ci|tx)按照如下方法计算:
P ( c i | t x ) = P ( t x | c i ) P ( c i ) P ( t x )
例如,对于词项association和话题association rule mining,若已经知道P(association|associationrulemining)=0.914,,P(association rule mining)=0.034,则我们可以通过将这两项相乘来计算P(ci|tx),(不考虑P(tx),因为P(tx)是一个标量,不会影响话题分布)。
步骤(b)中所述P(tx|ci]和P(ci)的计算方法如下:
(a)P(tx|ci)分为分类短语相关概率Pph(tx|ci)和统计相关概率Pst(tx|ci),P(tx|ci)计算方法为:
P ( t x | c i ) = α P ph ( t x | c i ) + ( 1 - α ) P st ( t x | c i )
其中计算时α=0.6;
(b)依据权利要求3.(b)中的方法,可以算出association词项与associationrule mining话题的相关度为1.0;support词项与它的相关度为0;mine词项与它的相关度为0.058。
(c)依据权利要求3.(b)中的方法,可以算出association,mine和support分别与association rule mining话题的相关度为0.7867,0.7466,0.2267.
(d)依据权利要求3.(d)和3.(e)中的方法,可以计算出association rule mining话题的重要程度为0.0343。

Claims (3)

1.一种根据维基百科中分类信息使查询词项多样化的方法,其特征在于具体步骤如下:
(1)对于候选扩展集T中的每一个词项tx∈T,设维基百科中的相关话题信息C={c1,c,...,cn}由n个话题组成,根据话题对应方法,为每个词项tx生成话题分布ζ(tx),该分布的概率质量函数记为P{C=ci|tx}=P(ci|tx);
(2)以步骤(1)求出的|T|个分布,根据相关性函数sim1、sim2和参数λ,λ∈[0,1],利用已知的MMR算法找出多样化此项扩展集合Sk,使得|Sk|=k,且Sk中的k个词项既与目标查询词t0相似,又尽可能在话题信息上呈现多样性;其中,MMR算法每一步优化的目标为:
MR ( t 0 , t i ) = λ sim 1 ( t 0 , t i ) - ( 1 - λ ) max t x ∈ S i - 1 sim 2 ( t x , t i )
(3)步骤(2)中的sim1(t0,ti)为任意已知求解词项相似性的度量方法;对于sim2(tx,ti),计算时首先求出tx和ti在所有分类信息上的分布ζ(tx)和ζ(ti),然后采用cosine距离来计算相似度,即 sim 2 ( t x , t i ) = cos ( ζ ( t x ) , ζ ( t i ) ) .
2.根据权利要求1所述的方法,其特征在于步骤(1)中所述话题对应方法的步骤如下:
(a)选择与t0在分类信息上首次出现的分类c,令C={c1,c2,...,cn}为所有c的子分类;
(b)对于分布ζ(tx),其概率质量函数P(ci|tx)按照如下方法计算:
P ( c i | t x ) = P ( t x | c i ) P ( c i ) P ( t x )
其中词项tx的概率P(tx)在分布的各个分量中都相等,不会影响ζ(tx),因此忽略不计算P(tx);词项tx在给定分类信息ci上的概率P(tx|ci)是维基百科中的先验概率,它与查询所在的数据库无关;分类信息ci的概率P(ci)则为ci在数据库上的概率。
3.根据权利要求2所述的方法,其特征在于步骤(b)中所述P(tx|ci)和P(ci)的计算方法如下:
(b1)词项tx在给定分类信息ci上的概率P(tx|ci)分为分类短语相关概率Pph(tx|ci)和统计相关概率Pst(tx|ci),P(tx|ci)计算式为:
P ( t x | c i ) = α P ph ( t x | c i ) + ( 1 - α ) P st ( t x | c i )
其中,α是调整分类短语相关概率和统计相关概率的权重参数,取值范围为0≤α≤1;
(b2)步骤(b1)中Rph(tx|ci)计算式为:
P ph ( t x | C i ) = 1 C i ( t x ) Σ C j ∈ C ( t 0 ) 1 C j ( t x )
其中当词项tx在分类系信息ci中出现时,
Figure FDA0000366984890000024
否则
Figure FDA0000366984890000025
(b3)步骤(b1)中Pst(tx|ci)即词项tx在文档集D(ci)中的TF-IDF值,其中文档集D(ci)是维基百科中分类信息ci下的所有解释页面;
(b4)P(ci)的计算式为: P ( c i ) = 1 - ( Σ t j ∈ c i ( 1 - Imp ( t j ) p Num _ of _ terms ( c i ) ) 1 p , 其中p=2,Num_of_terms(ci)为分类信息ci中词项的个数;
(b5)步骤(b4)中Imp(tj)=PR(tj)×IDF(tj),其中PR(tj)为词项tj在数据库中的PageRank值,计算时,先按照数据库的模式将数据改写成图数据,然后按照PageRank的方法进行计算;IDF(tj)为词项tj在数据库中出现次数的倒数。
CN201310356319.3A 2013-08-15 2013-08-15 一种根据维基百科中话题信息使查询词项多样化的方法 Expired - Fee Related CN103455564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310356319.3A CN103455564B (zh) 2013-08-15 2013-08-15 一种根据维基百科中话题信息使查询词项多样化的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310356319.3A CN103455564B (zh) 2013-08-15 2013-08-15 一种根据维基百科中话题信息使查询词项多样化的方法

Publications (2)

Publication Number Publication Date
CN103455564A true CN103455564A (zh) 2013-12-18
CN103455564B CN103455564B (zh) 2018-11-13

Family

ID=49737927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310356319.3A Expired - Fee Related CN103455564B (zh) 2013-08-15 2013-08-15 一种根据维基百科中话题信息使查询词项多样化的方法

Country Status (1)

Country Link
CN (1) CN103455564B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056209A (zh) * 2016-05-23 2016-10-26 大连理工大学 一种基于循环神经网络的查询词项权重学习方法
CN110555154A (zh) * 2019-08-30 2019-12-10 北京科技大学 一种面向主题的信息检索方法
CN110704613A (zh) * 2019-08-23 2020-01-17 上海科技发展有限公司 词汇数据库构建及查询方法、数据库系统、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408897A (zh) * 2008-10-10 2009-04-15 清华大学 一种基于协作过滤的个性化查询扩展方法
US20110047161A1 (en) * 2009-03-26 2011-02-24 Sung Hyon Myaeng Query/Document Topic Category Transition Analysis System and Method and Query Expansion-Based Information Retrieval System and Method
CN102637179A (zh) * 2011-02-14 2012-08-15 阿里巴巴集团控股有限公司 词项加权函数确定及基于该函数进行搜索的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408897A (zh) * 2008-10-10 2009-04-15 清华大学 一种基于协作过滤的个性化查询扩展方法
US20110047161A1 (en) * 2009-03-26 2011-02-24 Sung Hyon Myaeng Query/Document Topic Category Transition Analysis System and Method and Query Expansion-Based Information Retrieval System and Method
CN102637179A (zh) * 2011-02-14 2012-08-15 阿里巴巴集团控股有限公司 词项加权函数确定及基于该函数进行搜索的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAMRAN MASSOUDI 等: "Incorporating Query Expansion and Quality Indicators in Searching Microblog Posts", 《ECIR 2011: ADVANCES IN INFORMATION RETRIEVAL》 *
张博 等: "一种用于查询扩展词选取的主题模型", 《东北大学学报(自然科学版)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056209A (zh) * 2016-05-23 2016-10-26 大连理工大学 一种基于循环神经网络的查询词项权重学习方法
CN106056209B (zh) * 2016-05-23 2019-04-19 大连理工大学 一种基于循环神经网络的查询词项权重学习方法
CN110704613A (zh) * 2019-08-23 2020-01-17 上海科技发展有限公司 词汇数据库构建及查询方法、数据库系统、设备及介质
CN110704613B (zh) * 2019-08-23 2020-11-10 上海科技发展有限公司 词汇数据库构建及查询方法、数据库系统、设备及介质
CN110555154A (zh) * 2019-08-30 2019-12-10 北京科技大学 一种面向主题的信息检索方法

Also Published As

Publication number Publication date
CN103455564B (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
CN102567326B (zh) 一种信息搜索、及信息搜索排序装置和方法
CN102799677B (zh) 一种基于语义的水利领域信息检索系统及方法
CN105045826A (zh) 一种基于图模型的实体链接算法
CN104462357A (zh) 实现个性化搜索的方法和装置
CN104166732B (zh) 一种基于全局评分信息的项目协同过滤推荐方法
Zheng et al. Integrating context similarity with sparse linear recommendation model
CN104424254A (zh) 获取相似对象集合、提供相似对象信息的方法及装置
Aouadi et al. Smooth attractor for a nonlinear thermoelastic diffusion thin plate based on Gurtin–Pipkin’s model
CN105893585A (zh) 一种结合标签数据的二部图模型学术论文推荐方法
CN103455564A (zh) 一种根据维基百科中话题信息使查询词项多样化的方法
CN102254025B (zh) 信息回忆检索方法
US20130159317A1 (en) High precision set expansion for large concepts
CN110362652A (zh) 基于空间-语义-数值相关度的空间关键字Top-K查询方法
US20140365456A1 (en) Item-based recommendation engine for recommending a highly-associated item
Basile et al. Content-based recommender systems+ DBpedia knowledge= semantics-aware recommender systems
Park Recommending personalized search terms for assisting exploratory website search
WO2013152813A1 (en) Article selection
CN102915311A (zh) 搜索方法及系统
Guo et al. Collaborative filtering model of book recommendation system
Zadeh et al. Max-sum diversification, monotone submodular functions and semi-metric spaces
Zheng et al. Correlation-based context-aware matrix factorization
Falconer et al. Generalized dimensions of images of measures under Gaussian processes
CN103646106A (zh) 一种基于内容相似性的Web主题排序方法
Han et al. Enhancement of prediction accuracy for home sales index prediction model based on integration of multiple regression analysis and genetic algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181113

Termination date: 20210815

CF01 Termination of patent right due to non-payment of annual fee