CN105786827A - 基于效用的搜索引擎查询推荐方法 - Google Patents

基于效用的搜索引擎查询推荐方法 Download PDF

Info

Publication number
CN105786827A
CN105786827A CN201410802219.3A CN201410802219A CN105786827A CN 105786827 A CN105786827 A CN 105786827A CN 201410802219 A CN201410802219 A CN 201410802219A CN 105786827 A CN105786827 A CN 105786827A
Authority
CN
China
Prior art keywords
inquiry
search
candidate query
query
search sessions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410802219.3A
Other languages
English (en)
Inventor
王建国
黄哲学
姜青山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201410802219.3A priority Critical patent/CN105786827A/zh
Publication of CN105786827A publication Critical patent/CN105786827A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于效用的搜索引擎查询推荐方法,包括:S1.由一个起始查询q1构建一个搜索会话组SSG1,搜索会话组SSG1中起始查询q1外的查询为候选查询q1,t,候选查询q1,t的集合为候选查询集Q1;S2.计算候选查询q1,t的感知效用α1,t;S3.计算候选查询q1,t的后验效用β1,t;S4.计算候选查询q1,t的查询级效用Y1,t;S5.用候选查询q1,t的三个效用的乘积α1,t1,t*Y1,t进行排序,推荐最靠前的K个给用户。本发明采用感知效用、后验效用和查询级效用的乘积来对候选查询进行排序,能够引导用户找到更多相关搜索结果的查询。

Description

基于效用的搜索引擎查询推荐方法
技术领域
本发明涉及搜索引擎查询技术领域,尤其涉及一种基于效用的的搜索引擎查询推荐方法。
背景技术
给定一个历史日志数据,查询推荐技术构建一个知识库。这个知识库由两部分构成:一个起始查询集合Q和相应的候选查询集合,每个候选查询集合与一个Q中起始查询相关联而且是排好序的。当搜索引擎从用户获得一个起始查询q,查询推荐知识库把前K个候选查询推荐给用户,并且将它们显示在q的搜索结果页的底部或者两侧。这样,搜索引擎查询推荐技术能够帮助用户很快找到有用的搜索结果。如图1所示,百度把推荐的相关查询显示在底部“相关搜索”部分。目前,这项技术已经被用在很多商业搜索引擎,像百度、谷歌和必应等。
现存的查询推荐都是基于相似性而不是效用性(有用性)。当前存在方法主要通过一个相似性函数S(q,qi)对起始查询q∈Q的候选查询集合{q1,q2,…,qm}进行排序。S是从q和qi的不同查询日志数据计算而来。
首先被用来计算两个查询的相似性的是查询日志数据中被点击的URLs。一个查询-URL二部图被从查询日志数据的URLs创建,之后被用来计算查询之间的相似性。BeefermanandBerger(2000)在查询-URL二部图上使用一种凝聚聚类算法来聚类查询进而找到相关的查询来推荐。CraswellandSzummer(2007)应用两种随机游走过程在查询-URL二部图上传播查询相似性并获得查询之间更好的相似性得分。Lietal(2008)将查询-URL二部图折叠成一个仿射图,并用一种基于层次化凝聚聚类的排序方法来推荐相似的查询。LiuandSun(2008)将无向的查询-URL二部图转变成一个有向的二部图,并应用一种随机游走来寻找与起始查询相似的查询。取代随机游走,Maetal(2012)使用热传导来建模有向的查询-URL二部图上相似信息传播,进而推荐相似的查询。
搜索会话日志数据也被用来计算两个查询之间的相似性。一个搜索会话是被同一个用户在一段时间内构造的一系列查询。Fonsecaetal(2003)将搜索会话看成是查询的交易(transaction),并应用关联规则挖掘算法来找到关联的查询进行推荐。Huangetal(2003)用一个搜索会话的向量代表每个查询,其中向量的每一个分量记录查询在那个搜索会话中出现的次数。两个查询的相似性从两个查询向量计算得出。给定当前的搜索会话,Heetal(2009)提出用一种从搜索会话中构造的混合的可变记忆的马尔科夫模型(MixturevariablememoryMarkovmodel)来预测被选择的下一个查询。
从搜索会话中相邻的查询,Boldietal(2008,2009)构建了一个查询流程图并应用一个从起始查询开始的随机游走方法,来测量查询之间的相似性。Anagnostopoulosetal(2010)提出了一种方法来扰动查询流程图的转移概率来最大化随机游走的期望效用。Bordinoetal(2010)提出了一种方法将一个大的查询流程图映射到一个低维的空间,从而降低查询之间相似性的计算量。
现存的基于相似性的搜索引擎查询推荐方法推荐与起始查询最相似的候选查询给用户,但相似的查询的搜索结果往往是无用的,也就是不相关的。例如,给定起始查询“iphoneavailabletimemarket”,这个查询想要找到信息是“what’sthetimeofiphonetosellonthemarket”,基于相似性(similarity-based)的方法推荐的查询包括“iphonemarketsaletime”,“iphonesellingmarket”以及“iphonereleasedate”。显然,三个推荐看起来与起始查询相似,但是,它们的搜索结果表明只有最后一个能够找到相关的搜索结果。一个没有相关搜索结果的推荐对用户来讲是没有用的。
因此,针对上述技术问题,有必要提供一种基于效用的的搜索引擎查询推荐方法。
发明内容
有鉴于此,本发明的目的在于一种基于效用的的搜索引擎查询推荐方法。
为了达到上述目的,本发明实施例提供的技术方案如下:
一种基于效用的的搜索引擎查询推荐方法,所述方法包括:
S1、由一个起始查询ql构建一个搜索会话组SSGl,搜索会话组SSGl中起始查询ql外的查询为候选查询ql,t,候选查询ql,t的集合为候选查询集Ql
S2、计算候选查询ql,t的感知效用αl,t,αl,t为用户点击候选查询ql,t的搜索结果的概率;
S3、计算候选查询ql,t的后验效用βl,t,βl,t为用户能够从点击结果中获得的信息;
S4、计算候选查询ql,t的查询级效用Yl,t,Yl,t为候选查询ql,t对用户的吸引性;
S5、用候选查询ql,t的三个效用的乘积αl,tl,t*Yl,t进行排序,推荐最靠前的K个给用户。
作为本发明的进一步改进,所述步骤S2具体为:
给定一个搜索会话组SSGl和候选查询集合Ql,候选查询ql,t的感知效用αl,t为
α l , t = Σ j = 1 N l Σ i = 1 M l , j I ( Q l , j , i = q l , t ) . I ( C l , j , i = 1 ) Σ j = 1 N l Σ i = 1 M l , j I ( Q l , j , i = q l , t ) ,
其中,Nl表示SSGl中包含的搜索会话的个数,Ml,i表示搜索会话j的长度,Ql,j,i=ql,t表示候选查询ql,t被用户在搜索会话j中第i个查询循环中重构,Cl,j,i=1表示搜索会话j中第i个查询循环的搜索结果被用户点击,I为指示函数。
作为本发明的进一步改进,所述步骤S3包括:
S31、测量搜索会话组SSGl中每个候选查询ql,t与起始查询ql的关系来确定候选查询ql,t是否属于与起始查询ql对应的搜索任务;
S32、采用无监督的方法评估每个搜索会话SSGl中与起始查询ql对应的搜索任务的满意状态;
S33、构建后验效用概率模型,求解得到后验效用βl,t
作为本发明的进一步改进,所述步骤S31包括为:
构建查询图G=(V,E),其中,V=Ql∪{ql},在查询图G中,如果一个候选查询ql,t与起始查询ql之间有连边,则该候选查询ql,t属于从起始查询ql开始的的搜索任务,记作O=1,否则该候选查询ql,t不属于起始查询ql的搜索任务,记作O=0;
如果候选查询ql,t与起始查询ql包含相同的关键词,则该候选查询ql,t属于从起始查询ql开始的的搜索任务,记作O=1,否则该候选查询ql,t不属于起始查询ql的搜索任务,记作O=0。
作为本发明的进一步改进,所述步骤S32具体为:
计算搜索会话组SSGl的第j个搜索会话的满意状态其中,Ml,j表示第j个搜索会话的长度,Ol,j,i=1表示第j个搜索会话中的第i查询属于从起始查询ql开始的搜索任务,|Ul,j,i|表示第j个搜索会话中的第i查询循环中点击的URL的集合,其中,
设定阈值如果则认为搜索会话j是满意的,记作S=1,否则认为搜索会话j是不满意的,记作S=0。
作为本发明的进一步改进,所述步骤S33具体为:
用户在第j个搜索会话的第i个查询循环处对累计的有用信息感到满意的概率为:
P ( S l , j , i = 1 | C l , j , 1 : i , O l , j , 1 : i ) = σ ( Σ k = 1 i ( I ( O l , j , k = 1 ) . ( I ( C l , j , k = 1 ) . β l , j , k ) ) ,
其中,Cl,j,1:i={Cl,j,1,...,Cl,j,i}、Sl,j,1:i={Sl,j,1,...,Sl,j,i}、βl,j,k为用户从第j个搜索会话的第i个查询循环处获得的有用信息;
S只有两个状态,因此P(Sl,j,i=0|Cl,j,1:i,Ol,j,1:i)=1-P(Sl,j,i=1|Cl,j,1:i,Ol,j,1:i)
整个搜索会话组SSGl中的所有候选查询出现的概率为:
Π j = 1 N l Π i = 1 M l , j P ( S l , j , i | C l , j , 1 : i , O l , j , 1 : i ) S l , j , i . ( 1 - P ( S l , j , i | C l , j , 1 : i , O l , j , 1 : i ) ) 1 - S l , j , i ;
通过求解最大似然估计来得到βl={βl,t|1≤t≤Tl},其中,Tl=|Ql|。
作为本发明的进一步改进,所述步骤S4具体为:
候选查询ql,t在第j个搜索会话中的第i个查询循环中被构造的概率为:
P ( Q l , j , i = q l , t ) = I ( q l , t ∈ Q l ( j , i - 1 ) ) · γ l , t Σ ql , ∈ Q l ( j , i - 1 ) γ l , * + I ( q l , t ∈ Q l - Q l ( j , i - 1 ) ) · γ l , t Σ ql , ∈ Q l - Q l ( j , i - 1 ) γ l , * ,
其中,γl,t为候选查询ql,t的查询级效用,为第j个搜索会话中前i-1个查询循环中出现的候选查询集合,为剩余的候选查询;
整个搜索会话组SSGl中的所有候选查询出现的概率为:
Π j = 1 N l Π i = 1 M l , j P ( Q l , j , i = q l , t ) ,
通过求解最大似然估计来得到γl={γl,t|1≤t≤Tl},其中,Tl=|Ql|。
本发明具有以下有益效果:
采用感知效用、后验效用和查询级效用的乘积来对候选查询进行排序,能够引导用户找到更多相关搜索结果的查询。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中百度为查询“专利申请”返回的搜索结果以及推荐的相关查询示意图。
图2为本发明一种基于效用的的搜索引擎查询推荐方法的流程示意图。
图3为本发明一具体实施方式中的查询-URL二部图。
图4为本发明一具体实施方式中文档级效用的效果示意图。
图5为本发明一具体实施方式中的标注工具示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
参图2所示,本发明公开了一种基于效用的的搜索引擎查询推荐方法,包括:
S1、由一个起始查询ql构建一个搜索会话组SSGl,搜索会话组SSGl中起始查询ql外的查询为候选查询ql,t,候选查询ql,t的集合为候选查询集Ql
S2、计算候选查询ql,t的感知效用αl,t,αl,t为用户点击候选查询ql,t的搜索结果的概率;
S3、计算候选查询ql,t的后验效用βl,t,βl,t为用户能够从点击结果中获得的信息;
S4、计算候选查询ql,t的查询级效用Yl,t,Yl,t为候选查询ql,t对用户的吸引性;
S5、用候选查询ql,t的三个效用的乘积αl,tl,t*Yl,t进行排序,推荐最靠前的K个给用户。
本发明中首先定义一个数据表达来记录查询循环中重要的信息。具体包括:
定义1.
一个查询循环是一个5元组QC=<UID,T,Q,C,U>,其中
1.UID表示用户的标示符,
2.T表示时间戳,
3.Q表示查询,
4.C表示查询结果的状态:″被点击″或者″未被点击″,
5.U表示被点击的URL集合。
给定一个信息搜索任务,用户需要一系列的查询循环来获得他想要的信息,并以一定程度的满意度完成搜索任务。为了完成搜索任务的查询循环的集合构成了一个搜索会话SS(searchsession)。
定义2.
一个搜索会话SS是一系列的查询循环<QC0,...,QCn>,这些查询循环满足以下的条件:
1.所有的查询循环具有相同的UID,即QC0.UID=…=QCn.UID;
2.查询循环由时间来排序,亦即QC0.T=…=QCn.T;
3.QCi+1.T-QCi.T≤tθ,其中tθ是一个给定的时间阈值(通常30分钟)。
给定一个时间间隔阈值tθ,将日志文件组织成搜索会话。把搜索会话的第一个查询定义为起始查询,并使用Q={ql|l=1,2,3…}表示。具有相同的起始查询的搜索会话构成一个搜索会话组SSGl
定义3.
一个搜索会话组SSGl包括Nl个搜索会话,这些会话具有相同的起始查询ql
定义4.
给定一个起始查询ql,搜索会话组SSGl中所有的不同的查询,除去ql本身,被定义为ql的候选查询(candidatequery)。
使用Ql={ql,t|1≤t≤Tl}来表示起始查询ql∈Q的候选查询集合,其中Tl=|Ql|。给定一个起始查询ql和它的候选查询集Ql,使用联合概率P(Q=ql,t;C=″clicked″;S=″satisfied″|ql,ql,t)来测量候选查询ql,t∈Ql的有用性。其中,Q=ql,t表示用户选择候选查询ql,t,C=″clicked″表示用户点击ql,t的搜索结果;S=″satisfied″表示用户对点击文档感到满意。
由于联合概率P无法直接测量,我们定义三个效用(utility)来间接计算P。
定义5.
给定起始查询ql和它的候选查询ql,t∈Ql,ql,t的感知效用(perceivedutility)αl,t被定义为用户点击ql,t的搜索结果的概率。
定义6.
给定起始查询ql和它的候选查询ql,t∈Ql,ql,t的后验效用(posteriorutility)βl,t被定义为用户能够从点击结果中获得的信息。
定义7.
给定起始查询ql和它的候选查询ql,t∈Ql,ql,t的查询级效用(query-levelutility)γl,t被定义为ql,t对用户的吸引性。ql,t越容易被用户想到和理解,ql,t的吸引性越大。
这些定义指示了如下的关系:
ql,t=P(C=″被点击″|Q=ql,t;ql;ql,t);
β1,t∝P(S=″满意″|C=″被定义″;ql;ql,t);
γl,t∝P(Q=ql,t|ql;ql,t);
因此,αl,tl,tl,t∝P(Q=ql,t;C=″clicked″;S=″satisfied″|ql,ql,t)。
由于排序是相对的,用候选查询ql,t的三个效用的乘积αl,tl,tl,t来对它们进行排序,推荐最靠前的K个给用户。
S2、感知效用α的计算:
给定一个搜索会话组SSGl和候选查询集合Ql,候选查询ql,t的感知效用αl,t被这样计算
&alpha; l , t = &Sigma; j = 1 N l &Sigma; i = 1 M l , j I ( Q l , j , i = q l , t ) . I ( C l , j , i = 1 ) &Sigma; j = 1 N l &Sigma; i = 1 M l , j I ( Q l , j , i = q l , t ) ,
其中,Nl表示SSGl中包含的搜索会话的个数,Ml,j表示搜索会话j的长度,Qi,j,i=ql,t表示候选查询ql,t被用户在搜索会话j中第i个查询循环中重构,Cl,j,i=1表示搜索会话j中第i个查询循环的搜索结果被用户点击,I为指示函数。
S3、后验效用β的计算:
给定一个起始查询ql,根据ql的搜索意图,用户构造一系列的查询,这些查询构成了一个从ql开始的搜索任务(searchtask)。在完成一个搜索任务的过程中,用户点击构造的查询的搜索结果,并获得一定的有用信息(后验效用),当用户累积有用的信息到一定的量的时候,用户感到满意并终止这个搜索任务。
由于一个搜索会话往往包含多个搜索任务,因此在计算后验效用β之前,先通过测量搜索会话组SSGl中每个候选查询与起始查询ql的关系来确定它是否属于与ql对应的搜索任务,之后,用一种无监督的方法评估每个搜索会话中与起始查询ql对应的搜索任务的满意状态。
S31、候选查询与起始查询的关系
给定一个候选查询ql,可以用两种方法来测量候选查询ql,t与它的关系。
第一种方法:从整个查询日志中抽取出Ql∪{ql}中的全部查询以及它们所点击的URLs,并构造一个查询-URLs二部图,如图3所示。左边的顶点为查询顶点,右侧的顶点为URL顶点,如果这个查询和这个URL在至少一个查询循环中出现,则它们之间有连边。
令U(i)是在二部图中与查询i相连的URLs的集合。构造一个新的查询图G=(V,E),其中V=Ql∪{ql},而且,在查询图G中,如果一个查询顶点ql,t到起始查询顶点ql,则该候选查询ql,t属于从起始查询ql开始的的搜索任务,否则该候选查询ql,t不属于起始查询ql的搜索任务。
第二种方法:如果候选查询ql,t与起始查询ql包含相同的关键词,则该候选查询ql,t属于从起始查询ql开始的的搜索任务,否则该候选查询ql,t不属于起始查询ql的搜索任务。
为了记录候选查询ql,t与起始查询ql的关系,用一个额外的属性O扩展查询循环。如果一个查询循环中的候选查询ql,t属于从起始查询ql开始的搜索任务,那么在这个查询循环中O=1,否则,O=0。
S32、搜索会话满意状态
在一个搜索任务中,用户点击的搜索结果越多,用户越容易满意。给定搜索会话组SSGl的第j个搜索会话,计算测量值:
&theta; l , j = &sigma; ( &Sigma; i = 1 M l , j I ( O l , j , i = 1 ) . | U l , j , i | ) ,
其中,Ml,j表示第j个搜索会话的长度,Ol,j,i=1表示第j个搜索会话中的第i查询属于从ql开始的搜索任务,|Ul,j,i|表示第j个搜索会话中的第i查询循环中点击的URL的集合,其中 &sigma; ( x ) = 1 1 + exp ( - x ) .
定义阈值如果,则认为搜索会话j是满意的,否则,不满意。
本发明中用属性S扩展查询循环,用S来记录搜索会话的满意状态,满意S=1,否则,S=0。为了避免搜索会话组稀疏性,我们为SSGl中的每一个查询循环计算一个满意状态。令Sl,j,i表示搜索会话组中第j个搜索会话中第i个查询循环中的满意状态,当且仅当i=Ml,j,且时,Sl,j,i=1,否则,Sl,j,i=0。
S33、后验效用概率模型
定义用户在第j个搜索会话的第i个查询循环处对累计的有用信息感到满意的概率为:
P ( S l , j , i = 1 | C l , j , 1 : i , O l , j , 1 : i ) = &sigma; ( &Sigma; k = 1 i ( I ( O l , j , k = 1 ) . ( I ( C l , j , k = 1 ) . &beta; l , j , k ) ) ,
其中,Cl,j,1:i={Cl,j,1,...,Cl,j,i},Sl,j,1:i={Sl,j,1,...,Sl,j,i},βl,j,k为用户从第j个搜索会话的第i个查询循环处获得的有用信息。由于S只有两个状态,因此有:
P(Sl,j,i=0|Cl,j,1:i,Ol,j,1:i)=1-P(Sl,j,i=1|Cl,j,1:i,Ol,j,1:i),
建模整个搜索会话组SSGl中的满意状态的出现概率为:
&Pi; j = 1 N l &Pi; i = 1 M l , j P ( S l , j , i | C l , j , 1 : i , O l , j , 1 : i ) S l , j , i . ( 1 - P ( S l , j , i | C l , j , 1 : i , O l , j , 1 : i ) ) 1 - S l , j , i
通过解上面的最大似然估计来解出βl={βl,t|1≤t≤Tl},其中,Tl=|Ql|。
S4、查询级效用γ的计算:
给定搜索会话组SSGl,定义候选查询ql,t在第j个搜索会话中的第i个查询循环中被构造的概率为:
P ( Q l , j , i = q l , t ) = I ( q l , t &Element; Q l ( j , i - 1 ) ) &CenterDot; &gamma; l , t &Sigma; ql , &Element; Q l ( j , i - 1 ) &gamma; l , * + I ( q l , t &Element; Q l - Q l ( j , i - 1 ) ) &CenterDot; &gamma; l , t &Sigma; ql , &Element; Q l - Q l ( j , i - 1 ) &gamma; l , * ,
其中,γl,t为候选查询ql,t的查询级效用,为第j个搜索会话中前i-1个查询循环中出现的候选查询集合,为剩余的候选查询。
建模整个搜索会话组SSGl中的所有候选查询出现的概率为:
&Pi; j = 1 N l &Pi; i = 1 M l , j P ( Q l , j , i = q l , t ) ,
通过解上面的最大似然估计来解出γl={γl,t|1≤t≤Tl},其中,Tl=|Ql|。
由于感知效用和后验效用都依赖于文档,因此,把感知效用和后验效用称为文档级效用。
文档级效用的效果
文档级效用的评价指标为:
MRD ( q l , q l , t ) = &Sigma; j = 1 N l &Sigma; i = 1 M l , j R l , j , i . I ( Q l , j , i = q l , t ) &Sigma; j = 1 N l &Sigma; i = 1 M l , j I ( Q l , j , i = q l , t ) ,
其中,Rl,j,i表示在第j搜索会话的第i个查询循环中被点击的相关文档。候选查询ql,t能够找到的平均相关文档越多,MRD的值越高。
给定一个测试查询ql,用下面的DCG指标评估ql的前10个推荐查询:
DCG ( q l , 10 ) = &Sigma; k = 1 10 2 DCG ( query l , k ) - 1 log ( k + 1 ) ,
选择100个测试查询,分别计算它们的DCG值,然后求100个DCG值的平均值。参图4所示,QRM是本发明的结果,QFG是查询流程图方法的结果。结果显示,本发明比查询流程图方法能够找到更多的相关文档。
查询级效用的效果
通过用户的点击行为,进行手动评价来调查查询级效用对推荐的查询的吸引性的影响。参图5所示,本发明中创建一个标注工具来模拟真实的搜索场景。给定一个测试查询,标注者能够看到商业搜索引擎给一个测试查询的返回结果以及10个由一种方法推荐的查询。给定搜索结果,我们要求标注者为每个推荐标注他有多么想要点击这个查询。我们定义6点刻度(0,0.2,0.4,0.6,0.8,1.0)来测量点击的欲望,0意味着“完全不想点击”,1.0意味着“绝对想要点击它”。引入一个基准方法,这个基准方法用上面提到的感知效用和后验效用的乘积来对候选查询排序(本发明中的方法用感知效用、后验效用和查询级效用的乘积对候选查询排序)。随机的选择100个测试查询,用本发明的方法以及基准方法为它们推荐查询,然后邀请三个标注者标注这些推荐的查询。这样,两种方法为每个测试查询推荐的查询都被三个标注者标注了。
评估每一个测试查询的推荐结果,并使用CRN(clickedrecommendationnumber,被点击的推荐的个数),CRS(clickedrecommendationscore,点击的推荐的得分)和TRS(totalrecommendationscore,总的推荐得分)作为评价指标。给定一个测试查询q,令R={γ1,...,γ10}表示由某个方法推荐的10个查询,L={l1,...,l10}表示在这些推荐上的相应的得分。这里,定义推荐查询上的一个非零的标注得分是在其上的一个点击。也就是说,如果li>0,那么,测试查询q的第i个推荐查询以的欲望获得了一个点击。针对测试查询q的三个测量被定义为
CRNq=|γi|li>0,i∈[1,10]|,
CRS q = &Sigma; i = 1 10 2 l i - 1 log ( i + 1 ) CRN q ,
TRS q = &Sigma; i = 1 10 2 l i - 1 log ( i + 1 ) 10 ,
其中,|*|表示一个集合的大小。对于每一个测试查询q,为每个标注者的标注结果计算三个测量,之后求平均值来获得它的评价结果。在100组测试查询上求平均来获得这一方法的性能。两种方法在100组测试查询上的结果显示在表1中。
表1查询级效用的效果
DLU QRM
平均CRN 3.35 4.93(+47.2%)
平均CRS 0.38 0.43(+13.2%)
平均TRS 0.15 0.25(+66.7%)
从表1可以看出,通过使用查询级效用和文档级效用一起推荐查询而不是用单独是使用文档级效用,本发明的方法能够提高推荐结果的点击率和用户点击的欲望。
综上所述,本发明采用感知效用、后验效用和查询级效用的乘积来对候选查询进行排序,能够引导用户找到更多相关搜索结果的查询。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (7)

1.一种基于效用的的搜索引擎查询推荐方法,其特征在于,所述方法包括:
S1、由一个起始查询q1构建一个搜索会话组SSG1,搜索会话组SSG1中起始查询q1外的查询为候选查询q1,t,候选查询q1,t的集合为候选查询集Q1
S2、计算候选查询q1,t的感知效用α1,t,α1,t为用户点击候选查询q1,t的搜索结果的概率;
S3、计算候选查询q1,t的后验效用β1,t,β1,t为用户能够从点击结果中获得的信息;
S4、计算候选查询q1,t的查询级效用Y1,t,Y1,t为候选查询q1,t对用户的吸引性;
S5、用候选查询q1,t的三个效用的乘积α1,t1,t*Y1,t进行排序,推荐最靠前的K个给用户。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2具体为:
给定一个搜索会话组SSG1和候选查询集合Q1,候选查询q1,t的感知效用α1,t为
&alpha; l , t = &Sigma; j = 1 N l &Sigma; i = 1 M l , j I ( Q l , j , i = q l , t ) . I ( c l , j , i = 1 ) &Sigma; j = 1 N l &Sigma; i = 1 M l , j I ( Q l , j , i = q l , t ) ,
其中,N1表示SSG1中包含的搜索会话的个数,M1,j表示搜索会话j的长度,Q1,j,i=q1,t表示候选查询q1,t被用户在搜索会话j中第i个查询循环中重构,C1,j,i=1表示搜索会话j中第i个查询循环的搜索结果被用户点击,I为指示函数。
3.根据权利要求1所述的方法,其特征在于,所述步骤S3包括:
S31、测量搜索会话组SSG1中每个候选查询q1,t与起始查询q1的关系来确定候选查询q1,t是否属于与起始查询q1对应的搜索任务;
S32、采用无监督的方法评估每个搜索会话SSG1中与起始查询q1对应的搜索任务的满意状态;
S33、构建后验效用概率模型,求解得到后验效用β1,t
4.根据权利要求3所述的方法,其特征在于,所述步骤S31包括为:
构建查询图G=(V,E),其中,V=Ql∪{ql},在查询图G中,如果一个候选查询q1,t与起始查询q1之间有连边,则该候选查询q1,t属于从起始查询q1开始的的搜索任务,记作O=1,否则该候选查询q1,t不属于起始查询q1的搜索任务,记作O=0;
如果候选查询q1,t与起始查询q1包含相同的关键词,则该候选查询q1,t属于从起始查询q1开始的的搜索任务,记作O=1,否则该候选查询q1,t不属于起始查询q1的搜索任务,记作O=0。
5.根据权利要求4所述的方法,其特征在于,所述步骤S32具体为:
计算搜索会话组SSG1的第j个搜索会话的满意状态其中,M1,j表示第j个搜索会话的长度,Ol,j,i=1表示第j个搜索会话中的第i查询属于从起始查询q1开始的搜索任务,|Ul,j,i|表示第j个搜索会话中的第i查询循环中点击的URL的集合,其中,
设定阈值如果则认为搜索会话j是满意的,记作S=1,否则认为搜索会话j是不满意的,记作S=0。
6.根据权利要求5所述的方法,其特征在于,所述步骤S33具体为:
用户在第j个搜索会话的第i个查询循环处对累计的有用信息感到满意的概率为:
P ( S l , j , i = 1 | C l , j , 1 : i , O l , j , 1 : i ) = &sigma; ( &Sigma; k = 1 i ( I ( O l , j , k = 1 ) . ( I ( C l , j , k = 1 ) . &beta; l , j , k ) ) ,
其中,Cl,j,1:i={Cl,j,1,...,Cl,j,i}、Sl,j,1:i={Sl,j,1,...,Sl,j,i}、βl,j,k为用户从第j个搜索会话的第i个查询循环处获得的有用信息;
S只有两个状态,因此P(Sl,j,i=0|Cl,j,1:i,Ol,j,1:i)=1-P(Sl,j,i=1|Cl,j,1:i,Ol,j,1:i),
整个搜索会话组SSGl中的所有候选查询出现的概率为:
&Pi; j = 1 N l &Pi; i = 1 M l , j P ( S l , j , i | C l , j , 1 : i , O l , j , 1 : i ) S l , j , i . ( 1 - P ( S l , j , i | C l , j , 1 : i , O l , j , 1 : i ) ) 1 - S l , j , i ;
通过求解最大似然估计来得到βl={βl,t|1≤t≤Tl},其中,Tl=|Ql|。
7.根据权利要求1所述的方法,其特征在于,所述步骤S4具体为:候选查询ql,t在第j个搜索会话中的第i个查询循环中被构造的概率为:
P ( Q l , j , i = q l , t ) = I ( q l , t &Element; Q l ( j , i - 1 ) ) &CenterDot; &gamma; l , t &Sigma; ql &CenterDot; &Element; Q l ( j , i - 1 ) &gamma; l , * + I ( q l , t &Element; Q l - Q l ( j , i - 1 ) ) &CenterDot; &gamma; l , t &Sigma; ql &CenterDot; &Element; Q l - Q l ( j , i - 1 ) &gamma; l , * ,
其中,γl,t为候选查询ql,t的查询级效用,为第j个搜索会话中前i-1个查询循环中出现的候选查询集合,为剩余的候选查询;
整个搜索会话组SSGl中的所有候选查询出现的概率为:
&Pi; j = 1 N l &Pi; i = 1 M l , j P ( Q l , j , i = q l , t ) ,
通过求解最大似然估计来得到γl={γl,t|1≤t≤Tl},其中,Tl=|Ql|。
CN201410802219.3A 2014-12-18 2014-12-18 基于效用的搜索引擎查询推荐方法 Pending CN105786827A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410802219.3A CN105786827A (zh) 2014-12-18 2014-12-18 基于效用的搜索引擎查询推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410802219.3A CN105786827A (zh) 2014-12-18 2014-12-18 基于效用的搜索引擎查询推荐方法

Publications (1)

Publication Number Publication Date
CN105786827A true CN105786827A (zh) 2016-07-20

Family

ID=56385946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410802219.3A Pending CN105786827A (zh) 2014-12-18 2014-12-18 基于效用的搜索引擎查询推荐方法

Country Status (1)

Country Link
CN (1) CN105786827A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777282A (zh) * 2016-12-29 2017-05-31 百度在线网络技术(北京)有限公司 相关搜索的排序方法和装置
CN107169586A (zh) * 2017-03-29 2017-09-15 北京百度网讯科技有限公司 基于人工智能的资源组合优化方法、装置及存储介质
CN107480199A (zh) * 2017-07-17 2017-12-15 深圳先进技术研究院 数据库的查询重构方法、装置、设备及存储介质
CN108595662A (zh) * 2018-04-28 2018-09-28 尚谷科技(天津)有限公司 一种追踪cookie的最长浏览搜索长度的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929873A (zh) * 2011-08-08 2013-02-13 腾讯科技(深圳)有限公司 一种基于情境搜索提取搜索价值词的方法及装置
US20130080438A1 (en) * 2011-09-27 2013-03-28 VineSleuth, LLC Systems and Methods for Wine Ranking

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929873A (zh) * 2011-08-08 2013-02-13 腾讯科技(深圳)有限公司 一种基于情境搜索提取搜索价值词的方法及装置
US20130080438A1 (en) * 2011-09-27 2013-03-28 VineSleuth, LLC Systems and Methods for Wine Ranking

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIANGUO WANG ETC.: ""QRM:A Probabilistic Model for Search Engine Query Recommendation"", 《TRENDS ON KNOWLEDGE DISCOVERY AND DATA MINING》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777282A (zh) * 2016-12-29 2017-05-31 百度在线网络技术(北京)有限公司 相关搜索的排序方法和装置
CN107169586A (zh) * 2017-03-29 2017-09-15 北京百度网讯科技有限公司 基于人工智能的资源组合优化方法、装置及存储介质
CN107480199A (zh) * 2017-07-17 2017-12-15 深圳先进技术研究院 数据库的查询重构方法、装置、设备及存储介质
CN107480199B (zh) * 2017-07-17 2020-06-12 深圳先进技术研究院 数据库的查询重构方法、装置、设备及存储介质
CN108595662A (zh) * 2018-04-28 2018-09-28 尚谷科技(天津)有限公司 一种追踪cookie的最长浏览搜索长度的方法

Similar Documents

Publication Publication Date Title
Zhu et al. An effective partitional clustering algorithm based on new clustering validity index
Hu et al. HERS: Modeling influential contexts with heterogeneous relations for sparse and cold-start recommendation
Du et al. An improved focused crawler based on semantic similarity vector space model
CN103207881B (zh) 查询方法和装置
Zhao et al. Crowd-Selection Query Processing in Crowdsourcing Databases: A Task-Driven Approach.
CN105786827A (zh) 基于效用的搜索引擎查询推荐方法
Wu Linear combination of component results in information retrieval
KG et al. Modified heuristic similarity measure for personalization using collaborative filtering technique
CN104298776A (zh) 基于lda模型的搜索引擎结果优化系统
CN105354260A (zh) 一种融合社会网络和项目特征的移动应用推荐方法
Daoud et al. A personalized graph-based document ranking model using a semantic user profile
Naamani Dery et al. Iterative voting under uncertainty for group recommender systems
Adomavicius et al. Overcoming accuracy-diversity tradeoff in recommender systems: A variance-based approach
Anastasakos et al. A collaborative filtering approach to ad recommendation using the query-ad click graph
Valcarce et al. Efficient pseudo-relevance feedback methods for collaborative filtering recommendation
Gallagher et al. RMIT at the NTCIR-13 We Want Web Task.
Alhoori How to identify specialized research communities related to a researcher's changing interests
CN103150371B (zh) 正反向训练去混淆文本检索方法
Gan et al. Trinity: walking on a user-object-tag heterogeneous network for personalised recommendations
Liang et al. Finding knowledgeable groups in enterprise corpora
Ackerman et al. Evaluating rank accuracy based on incomplete pairwise preferences
Wu et al. A hybrid approach to personalized web search
Liang et al. Tag based collaborative filtering for recommender systems
Liu et al. Multi-domain collaborative recommendation with feature selection
Leelanupab et al. A comprehensive analysis of parameter settings for novelty-biased cumulative gain

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160720