CN105786827A

CN105786827A - 基于效用的搜索引擎查询推荐方法

Info

Publication number: CN105786827A
Application number: CN201410802219.3A
Authority: CN
Inventors: 王建国; 黄哲学; 姜青山
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2014-12-18
Filing date: 2014-12-18
Publication date: 2016-07-20

Abstract

本发明公开了一种基于效用的搜索引擎查询推荐方法，包括：S1.由一个起始查询q₁构建一个搜索会话组SSG₁，搜索会话组SSG₁中起始查询q₁外的查询为候选查询q_1，t，候选查询q_1，t的集合为候选查询集Q₁；S2.计算候选查询q_1，t的感知效用α_1，t；S3.计算候选查询q_1，t的后验效用β_1，t；S4.计算候选查询q_1，t的查询级效用Y_1，t；S5.用候选查询q_1，t的三个效用的乘积α_1，t*β_1，t*Y_1，t进行排序，推荐最靠前的K个给用户。本发明采用感知效用、后验效用和查询级效用的乘积来对候选查询进行排序，能够引导用户找到更多相关搜索结果的查询。

Description

基于效用的搜索引擎查询推荐方法

技术领域

本发明涉及搜索引擎查询技术领域，尤其涉及一种基于效用的的搜索引擎查询推荐方法。

背景技术

给定一个历史日志数据，查询推荐技术构建一个知识库。这个知识库由两部分构成：一个起始查询集合Q和相应的候选查询集合，每个候选查询集合与一个Q中起始查询相关联而且是排好序的。当搜索引擎从用户获得一个起始查询q，查询推荐知识库把前K个候选查询推荐给用户，并且将它们显示在q的搜索结果页的底部或者两侧。这样，搜索引擎查询推荐技术能够帮助用户很快找到有用的搜索结果。如图1所示，百度把推荐的相关查询显示在底部“相关搜索”部分。目前，这项技术已经被用在很多商业搜索引擎，像百度、谷歌和必应等。

现存的查询推荐都是基于相似性而不是效用性(有用性)。当前存在方法主要通过一个相似性函数S(q，q_i)对起始查询q∈Q的候选查询集合{q₁，q₂，…，q_m}进行排序。S是从q和q_i的不同查询日志数据计算而来。

首先被用来计算两个查询的相似性的是查询日志数据中被点击的URLs。一个查询-URL二部图被从查询日志数据的URLs创建，之后被用来计算查询之间的相似性。BeefermanandBerger(2000)在查询-URL二部图上使用一种凝聚聚类算法来聚类查询进而找到相关的查询来推荐。CraswellandSzummer(2007)应用两种随机游走过程在查询-URL二部图上传播查询相似性并获得查询之间更好的相似性得分。Lietal(2008)将查询-URL二部图折叠成一个仿射图，并用一种基于层次化凝聚聚类的排序方法来推荐相似的查询。LiuandSun(2008)将无向的查询-URL二部图转变成一个有向的二部图，并应用一种随机游走来寻找与起始查询相似的查询。取代随机游走，Maetal(2012)使用热传导来建模有向的查询-URL二部图上相似信息传播，进而推荐相似的查询。

搜索会话日志数据也被用来计算两个查询之间的相似性。一个搜索会话是被同一个用户在一段时间内构造的一系列查询。Fonsecaetal(2003)将搜索会话看成是查询的交易(transaction)，并应用关联规则挖掘算法来找到关联的查询进行推荐。Huangetal(2003)用一个搜索会话的向量代表每个查询，其中向量的每一个分量记录查询在那个搜索会话中出现的次数。两个查询的相似性从两个查询向量计算得出。给定当前的搜索会话，Heetal(2009)提出用一种从搜索会话中构造的混合的可变记忆的马尔科夫模型(MixturevariablememoryMarkovmodel)来预测被选择的下一个查询。

从搜索会话中相邻的查询，Boldietal(2008，2009)构建了一个查询流程图并应用一个从起始查询开始的随机游走方法，来测量查询之间的相似性。Anagnostopoulosetal(2010)提出了一种方法来扰动查询流程图的转移概率来最大化随机游走的期望效用。Bordinoetal(2010)提出了一种方法将一个大的查询流程图映射到一个低维的空间，从而降低查询之间相似性的计算量。

现存的基于相似性的搜索引擎查询推荐方法推荐与起始查询最相似的候选查询给用户，但相似的查询的搜索结果往往是无用的，也就是不相关的。例如，给定起始查询“iphoneavailabletimemarket”，这个查询想要找到信息是“what’sthetimeofiphonetosellonthemarket”，基于相似性(similarity-based)的方法推荐的查询包括“iphonemarketsaletime”，“iphonesellingmarket”以及“iphonereleasedate”。显然，三个推荐看起来与起始查询相似，但是，它们的搜索结果表明只有最后一个能够找到相关的搜索结果。一个没有相关搜索结果的推荐对用户来讲是没有用的。

因此，针对上述技术问题，有必要提供一种基于效用的的搜索引擎查询推荐方法。

发明内容

有鉴于此，本发明的目的在于一种基于效用的的搜索引擎查询推荐方法。

为了达到上述目的，本发明实施例提供的技术方案如下：

一种基于效用的的搜索引擎查询推荐方法，所述方法包括：

S1、由一个起始查询q_l构建一个搜索会话组SSG_l，搜索会话组SSG_l中起始查询q_l外的查询为候选查询q_l，t，候选查询q_l，t的集合为候选查询集Q_l；

S2、计算候选查询q_l，t的感知效用α_l，t，α_l，t为用户点击候选查询q_l，t的搜索结果的概率；

S3、计算候选查询q_l，t的后验效用β_l，t，β_l，t为用户能够从点击结果中获得的信息；

S4、计算候选查询q_l，t的查询级效用Y_l，t，Y_l，t为候选查询q_l，t对用户的吸引性；

S5、用候选查询q_l，t的三个效用的乘积α_l，t*β_l，t*Y_l，t进行排序，推荐最靠前的K个给用户。

作为本发明的进一步改进，所述步骤S2具体为：

给定一个搜索会话组SSGl和候选查询集合Ql，候选查询ql，t的感知效用αl，t为

α_{l, t} = \frac{Σ_{j = 1}^{N_{l}} Σ_{i = 1}^{M_{l, j}} I (Q_{l, j, i} = q_{l, t}) . I (C_{l, j, i} = 1)}{Σ_{j = 1}^{N_{l}} Σ_{i = 1}^{M_{l, j}} I (Q_{l, j, i} = q_{l, t})},

其中，N_l表示SSG_l中包含的搜索会话的个数，M_l，i表示搜索会话j的长度，Q_l，j，i＝q_l，t表示候选查询q_l，t被用户在搜索会话j中第i个查询循环中重构，C_l，j，i＝1表示搜索会话j中第i个查询循环的搜索结果被用户点击，I为指示函数。

作为本发明的进一步改进，所述步骤S3包括：

S31、测量搜索会话组SSG_l中每个候选查询q_l，t与起始查询q_l的关系来确定候选查询q_l，t是否属于与起始查询q_l对应的搜索任务；

S32、采用无监督的方法评估每个搜索会话SSG_l中与起始查询q_l对应的搜索任务的满意状态；

S33、构建后验效用概率模型，求解得到后验效用β_l，t。

作为本发明的进一步改进，所述步骤S31包括为：

构建查询图G＝(V，E)，其中，V＝Q_l∪{q_l}，在查询图G中，如果一个候选查询q_l，t与起始查询q_l之间有连边，则该候选查询q_l，t属于从起始查询q_l开始的的搜索任务，记作O＝1，否则该候选查询q_l，t不属于起始查询q_l的搜索任务，记作O＝0；

如果候选查询q_l，t与起始查询q_l包含相同的关键词，则该候选查询q_l，t属于从起始查询q_l开始的的搜索任务，记作O＝1，否则该候选查询q_l，t不属于起始查询q_l的搜索任务，记作O＝0。

作为本发明的进一步改进，所述步骤S32具体为：

计算搜索会话组SSG_l的第j个搜索会话的满意状态其中，M_l，j表示第j个搜索会话的长度，O_l，j，i＝1表示第j个搜索会话中的第i查询属于从起始查询q_l开始的搜索任务，|U_l，j，i|表示第j个搜索会话中的第i查询循环中点击的URL的集合，其中，

设定阈值如果则认为搜索会话j是满意的，记作S＝1，否则认为搜索会话j是不满意的，记作S＝0。

作为本发明的进一步改进，所述步骤S33具体为：

用户在第j个搜索会话的第i个查询循环处对累计的有用信息感到满意的概率为：

P (S_{l, j, i} = 1 | C_{l, j, 1 : i}, O_{l, j, 1 : i}) = σ (Σ_{k = 1}^{i} (I (O_{l, j, k} = 1) . (I (C_{l, j, k} = 1) . β_{l, j, k})),

其中，C_{l，j，1：i}＝{C_l，j，1，...，C_l，j，i}、S_{l，j，1：i}＝{S_l，j，1，...，S_l，j，i}、β_l，j，k为用户从第j个搜索会话的第i个查询循环处获得的有用信息；

S只有两个状态，因此P(S_l，j，i＝0|C_{l，j，1：i}，O_{l，j，1：i})＝1-P(S_l，j，i＝1|C_{l，j，1：i}，O_{l，j，1：i})_，

整个搜索会话组SSG_l中的所有候选查询出现的概率为：

Π_{j = 1}^{N_{l}} Π_{i = 1}^{M_{l, j}} P {(S_{l, j, i} | C_{l, j, 1 : i}, O_{l, j, 1 : i})}^{S_{l, j, i}} . {(1 - P (S_{l, j, i} | C_{l, j, 1 : i}, O_{l, j, 1 : i}))}^{1 - S_{l, j, i}};

通过求解最大似然估计来得到β_l＝{β_l，t|1≤t≤T_l}，其中，T_l＝|Q_l|。

作为本发明的进一步改进，所述步骤S4具体为：

候选查询q_l，t在第j个搜索会话中的第i个查询循环中被构造的概率为：

P (Q_{l, j, i} = q_{l, t}) = \frac{I (q_{l, t} &Element; Q_{l}^{(j, i - 1)}) \cdot γ_{l, t}}{Σ_{ql, &Element; Q_{l}^{(j, i - 1)}} γ_{l, *}} + \frac{I (q_{l, t} &Element; Q_{l} - Q_{l}^{(j, i - 1)}) \cdot γ_{l, t}}{Σ_{ql, &Element; Q_{l} - Q_{l}^{(j, i - 1)}} γ_{l, *}},

其中，γ_l，t为候选查询q_l，t的查询级效用，为第j个搜索会话中前i-1个查询循环中出现的候选查询集合，为剩余的候选查询；

整个搜索会话组SSG_l中的所有候选查询出现的概率为：

Π_{j = 1}^{N_{l}} Π_{i = 1}^{M_{l, j}} P (Q_{l, j, i} = q_{l, t}),

通过求解最大似然估计来得到γ_l＝{γ_l，t|1≤t≤T_l}，其中，T_l＝|Q_l|。

本发明具有以下有益效果：

采用感知效用、后验效用和查询级效用的乘积来对候选查询进行排序，能够引导用户找到更多相关搜索结果的查询。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中百度为查询“专利申请”返回的搜索结果以及推荐的相关查询示意图。

图2为本发明一种基于效用的的搜索引擎查询推荐方法的流程示意图。

图3为本发明一具体实施方式中的查询-URL二部图。

图4为本发明一具体实施方式中文档级效用的效果示意图。

图5为本发明一具体实施方式中的标注工具示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

参图2所示，本发明公开了一种基于效用的的搜索引擎查询推荐方法，包括：

本发明中首先定义一个数据表达来记录查询循环中重要的信息。具体包括：

定义1.

一个查询循环是一个5元组QC＝<UID，T，Q，C，U>，其中

1.UID表示用户的标示符，

2.T表示时间戳，

3.Q表示查询，

4.C表示查询结果的状态：″被点击″或者″未被点击″，

5.U表示被点击的URL集合。

给定一个信息搜索任务，用户需要一系列的查询循环来获得他想要的信息，并以一定程度的满意度完成搜索任务。为了完成搜索任务的查询循环的集合构成了一个搜索会话SS(searchsession)。

定义2.

一个搜索会话SS是一系列的查询循环<QC₀，...，QC_n>，这些查询循环满足以下的条件：

1.所有的查询循环具有相同的UID，即QC₀.UID＝…＝QC_n.UID；

2.查询循环由时间来排序，亦即QC₀.T＝…＝QC_n.T；

3.QC_i+1.T-QC_i.T≤t_θ，其中t_θ是一个给定的时间阈值(通常30分钟)。

给定一个时间间隔阈值t_θ，将日志文件组织成搜索会话。把搜索会话的第一个查询定义为起始查询，并使用Q＝{q_l|l＝1，2，3…}表示。具有相同的起始查询的搜索会话构成一个搜索会话组SSG_l。

定义3.

一个搜索会话组SSG_l包括N_l个搜索会话，这些会话具有相同的起始查询q_l。

定义4.

给定一个起始查询q_l，搜索会话组SSG_l中所有的不同的查询，除去q_l本身，被定义为q_l的候选查询(candidatequery)。

使用Q_l＝{q_l，t|1≤t≤T_l}来表示起始查询q_l∈Q的候选查询集合，其中T_l＝|Q_l|。给定一个起始查询q_l和它的候选查询集Q_l，使用联合概率P(Q＝q_l，t；C＝″clicked″；S＝″satisfied″|q_l，q_l，t)来测量候选查询q_l，t∈Q_l的有用性。其中，Q＝q_l，t表示用户选择候选查询q_l，t，C＝″clicked″表示用户点击q_l，t的搜索结果；S＝″satisfied″表示用户对点击文档感到满意。

由于联合概率P无法直接测量，我们定义三个效用(utility)来间接计算P。

定义5.

给定起始查询q_l和它的候选查询q_l，t∈Q_l，q_l，t的感知效用(perceivedutility)α_l，t被定义为用户点击q_l，t的搜索结果的概率。

定义6.

给定起始查询q_l和它的候选查询q_l，t∈Q_l，q_l，t的后验效用(posteriorutility)β_l，t被定义为用户能够从点击结果中获得的信息。

定义7.

给定起始查询q_l和它的候选查询q_l，t∈Q_l，q_l，t的查询级效用(query-levelutility)γ_l，t被定义为q_l，t对用户的吸引性。q_l，t越容易被用户想到和理解，q_l，t的吸引性越大。

这些定义指示了如下的关系：

q_l，t＝P(C＝″被点击″|Q＝q_l，t；q_l；q_l，t)；

β_1，t∝P(S＝″满意″|C＝″被定义″；q_l；q_l，t)；

γ_l，t∝P(Q＝q_l，t|q_l；q_l，t)；

因此，α_l，t*β_l，t*γ_l，t∝P(Q＝q_l，t；C＝″clicked″；S＝″satisfied″|q_l，q_l，t)。

由于排序是相对的，用候选查询q_l，t的三个效用的乘积α_l，t*β_l，t*γ_l，t来对它们进行排序，推荐最靠前的K个给用户。

S2、感知效用α的计算：

给定一个搜索会话组SSG_l和候选查询集合Q_l，候选查询q_l，t的感知效用α_l，t被这样计算

α_{l, t} = \frac{Σ_{j = 1}^{N_{l}} Σ_{i = 1}^{M_{l, j}} I (Q_{l, j, i} = q_{l, t}) . I (C_{l, j, i} = 1)}{Σ_{j = 1}^{N_{l}} Σ_{i = 1}^{M_{l, j}} I (Q_{l, j, i} = q_{l, t})},

其中，N_l表示SSG_l中包含的搜索会话的个数，M_l，j表示搜索会话j的长度，Q_i，j，i＝q_l，t表示候选查询q_l，t被用户在搜索会话j中第i个查询循环中重构，C_l，j，i＝1表示搜索会话j中第i个查询循环的搜索结果被用户点击，I为指示函数。

S3、后验效用β的计算：

给定一个起始查询q_l，根据q_l的搜索意图，用户构造一系列的查询，这些查询构成了一个从q_l开始的搜索任务(searchtask)。在完成一个搜索任务的过程中，用户点击构造的查询的搜索结果，并获得一定的有用信息(后验效用)，当用户累积有用的信息到一定的量的时候，用户感到满意并终止这个搜索任务。

由于一个搜索会话往往包含多个搜索任务，因此在计算后验效用β之前，先通过测量搜索会话组SSG_l中每个候选查询与起始查询q_l的关系来确定它是否属于与q_l对应的搜索任务，之后，用一种无监督的方法评估每个搜索会话中与起始查询q_l对应的搜索任务的满意状态。

S31、候选查询与起始查询的关系

给定一个候选查询q_l，可以用两种方法来测量候选查询q_l，t与它的关系。

第一种方法：从整个查询日志中抽取出Q_l∪{q_l}中的全部查询以及它们所点击的URLs，并构造一个查询-URLs二部图，如图3所示。左边的顶点为查询顶点，右侧的顶点为URL顶点，如果这个查询和这个URL在至少一个查询循环中出现，则它们之间有连边。

令U(i)是在二部图中与查询i相连的URLs的集合。构造一个新的查询图G＝(V，E)，其中V＝Q_l∪{q_l}，而且，在查询图G中，如果一个查询顶点q_l，t到起始查询顶点q_l，则该候选查询q_l，t属于从起始查询q_l开始的的搜索任务，否则该候选查询q_l，t不属于起始查询q_l的搜索任务。

第二种方法：如果候选查询q_l，t与起始查询q_l包含相同的关键词，则该候选查询q_l，t属于从起始查询q_l开始的的搜索任务，否则该候选查询q_l，t不属于起始查询q_l的搜索任务。

为了记录候选查询q_l，t与起始查询q_l的关系，用一个额外的属性O扩展查询循环。如果一个查询循环中的候选查询q_l，t属于从起始查询q_l开始的搜索任务，那么在这个查询循环中O＝1，否则，O＝0。

S32、搜索会话满意状态

在一个搜索任务中，用户点击的搜索结果越多，用户越容易满意。给定搜索会话组SSG_l的第j个搜索会话，计算测量值：

θ_{l, j} = σ (Σ_{i = 1}^{M_{l, j}} I (O_{l, j, i} = 1) . | U_{l, j, i} |),

其中，M_l，j表示第j个搜索会话的长度，O_l，j，i＝1表示第j个搜索会话中的第i查询属于从q_l开始的搜索任务，|U_l，j，i|表示第j个搜索会话中的第i查询循环中点击的URL的集合，其中

σ (x) = \frac{1}{1 + \exp (- x)} .

定义阈值如果，则认为搜索会话j是满意的，否则，不满意。

本发明中用属性S扩展查询循环，用S来记录搜索会话的满意状态，满意S＝1，否则，S＝0。为了避免搜索会话组稀疏性，我们为SSG_l中的每一个查询循环计算一个满意状态。令S_l，j，i表示搜索会话组中第j个搜索会话中第i个查询循环中的满意状态，当且仅当i＝M_l，j，且时，S_l，j，i＝1，否则，S_l，j，i＝0。

S33、后验效用概率模型

定义用户在第j个搜索会话的第i个查询循环处对累计的有用信息感到满意的概率为：

P (S_{l, j, i} = 1 | C_{l, j, 1 : i}, O_{l, j, 1 : i}) = σ (Σ_{k = 1}^{i} (I (O_{l, j, k} = 1) . (I (C_{l, j, k} = 1) . β_{l, j, k})),

其中，C_{l，j，1：i}＝{C_l，j，1，...，C_l，j，i}，S_{l，j，1：i}＝{S_l，j，1，...，S_l，j，i}，β_l，j，k为用户从第j个搜索会话的第i个查询循环处获得的有用信息。由于S只有两个状态，因此有：

P(S_l，j，i＝0|C_{l，j，1：i}，O_{l，j，1：i})＝1-P(S_l，j，i＝1|C_{l，j，1：i}，O_{l，j，1：i})，

建模整个搜索会话组SSG_l中的满意状态的出现概率为：

Π_{j = 1}^{N_{l}} Π_{i = 1}^{M_{l, j}} P {(S_{l, j, i} | C_{l, j, 1 : i}, O_{l, j, 1 : i})}^{S_{l, j, i}} . {(1 - P (S_{l, j, i} | C_{l, j, 1 : i}, O_{l, j, 1 : i}))}^{1 - S_{l, j, i}}

通过解上面的最大似然估计来解出β_l＝{β_l，t|1≤t≤T_l}，其中，T_l＝|Q_l|。

S4、查询级效用γ的计算：

给定搜索会话组SSG_l，定义候选查询q_l，t在第j个搜索会话中的第i个查询循环中被构造的概率为：

P (Q_{l, j, i} = q_{l, t}) = \frac{I (q_{l, t} &Element; Q_{l}^{(j, i - 1)}) \cdot γ_{l, t}}{Σ_{ql, &Element; Q_{l}^{(j, i - 1)}} γ_{l, *}} + \frac{I (q_{l, t} &Element; Q_{l} - Q_{l}^{(j, i - 1)}) \cdot γ_{l, t}}{Σ_{ql, &Element; Q_{l} - Q_{l}^{(j, i - 1)}} γ_{l, *}},

其中，γ_l，t为候选查询q_l，t的查询级效用，为第j个搜索会话中前i-1个查询循环中出现的候选查询集合，为剩余的候选查询。

建模整个搜索会话组SSG_l中的所有候选查询出现的概率为：

Π_{j = 1}^{N_{l}} Π_{i = 1}^{M_{l, j}} P (Q_{l, j, i} = q_{l, t}),

通过解上面的最大似然估计来解出γ_l＝{γ_l，t|1≤t≤T_l}，其中，T_l＝|Q_l|。

由于感知效用和后验效用都依赖于文档，因此，把感知效用和后验效用称为文档级效用。

文档级效用的效果

文档级效用的评价指标为：

MRD (q_{l}, q_{l, t}) = \frac{Σ_{j = 1}^{N_{l}} Σ_{i = 1}^{M_{l, j}} R_{l, j, i} . I (Q_{l, j, i} = q_{l, t})}{Σ_{j = 1}^{N_{l}} Σ_{i = 1}^{M_{l, j}} I (Q_{l, j, i} = q_{l, t})},

其中，R_l，j，i表示在第j搜索会话的第i个查询循环中被点击的相关文档。候选查询q_l，t能够找到的平均相关文档越多，MRD的值越高。

给定一个测试查询q_l，用下面的DCG指标评估q_l的前10个推荐查询：

DCG (q_{l}, 10) = Σ_{k = 1}^{10} \frac{2^{DCG ({query}_{l, k})} - 1}{\log (k + 1)},

选择100个测试查询，分别计算它们的DCG值，然后求100个DCG值的平均值。参图4所示，QRM是本发明的结果，QFG是查询流程图方法的结果。结果显示，本发明比查询流程图方法能够找到更多的相关文档。

查询级效用的效果

通过用户的点击行为，进行手动评价来调查查询级效用对推荐的查询的吸引性的影响。参图5所示，本发明中创建一个标注工具来模拟真实的搜索场景。给定一个测试查询，标注者能够看到商业搜索引擎给一个测试查询的返回结果以及10个由一种方法推荐的查询。给定搜索结果，我们要求标注者为每个推荐标注他有多么想要点击这个查询。我们定义6点刻度(0，0.2，0.4，0.6，0.8，1.0)来测量点击的欲望，0意味着“完全不想点击”，1.0意味着“绝对想要点击它”。引入一个基准方法，这个基准方法用上面提到的感知效用和后验效用的乘积来对候选查询排序(本发明中的方法用感知效用、后验效用和查询级效用的乘积对候选查询排序)。随机的选择100个测试查询，用本发明的方法以及基准方法为它们推荐查询，然后邀请三个标注者标注这些推荐的查询。这样，两种方法为每个测试查询推荐的查询都被三个标注者标注了。

评估每一个测试查询的推荐结果，并使用CRN(clickedrecommendationnumber，被点击的推荐的个数)，CRS(clickedrecommendationscore，点击的推荐的得分)和TRS(totalrecommendationscore，总的推荐得分)作为评价指标。给定一个测试查询q，令R＝{γ₁，...，γ₁₀}表示由某个方法推荐的10个查询，L＝{l₁，...，l₁₀}表示在这些推荐上的相应的得分。这里，定义推荐查询上的一个非零的标注得分是在其上的一个点击。也就是说，如果l_i＞0，那么，测试查询q的第i个推荐查询以的欲望获得了一个点击。针对测试查询q的三个测量被定义为

CRN_q＝|γ_i|l_i＞0，i∈[1，10]|，

{CRS}_{q} = \frac{Σ_{i = 1}^{10} \frac{2^{l_{i} - 1}}{\log (i + 1)}}{{CRN}_{q}},

{TRS}_{q} = \frac{Σ_{i = 1}^{10} \frac{2^{l_{i} - 1}}{\log (i + 1)}}{10},

其中，|*|表示一个集合的大小。对于每一个测试查询q，为每个标注者的标注结果计算三个测量，之后求平均值来获得它的评价结果。在100组测试查询上求平均来获得这一方法的性能。两种方法在100组测试查询上的结果显示在表1中。

表1查询级效用的效果

	DLU	QRM
			平均CRN	3.35	4.93(+47.2％)

平均CRS	0.38	0.43(+13.2％)
			平均TRS	0.15	0.25(+66.7％)

从表1可以看出，通过使用查询级效用和文档级效用一起推荐查询而不是用单独是使用文档级效用，本发明的方法能够提高推荐结果的点击率和用户点击的欲望。

综上所述，本发明采用感知效用、后验效用和查询级效用的乘积来对候选查询进行排序，能够引导用户找到更多相关搜索结果的查询。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于效用的的搜索引擎查询推荐方法，其特征在于，所述方法包括：

S1、由一个起始查询q₁构建一个搜索会话组SSG₁，搜索会话组SSG₁中起始查询q₁外的查询为候选查询q_1，t，候选查询q_1，t的集合为候选查询集Q₁；

S2、计算候选查询q_1，t的感知效用α_1，t，α_1，t为用户点击候选查询q_1，t的搜索结果的概率；

S3、计算候选查询q_1，t的后验效用β_1，t，β_1，t为用户能够从点击结果中获得的信息；

S4、计算候选查询q_1，t的查询级效用Y_1，t，Y_1，t为候选查询q_1，t对用户的吸引性；

S5、用候选查询q_1，t的三个效用的乘积α_1，t*β_1，t*Y_1，t进行排序，推荐最靠前的K个给用户。

2.根据权利要求1所述的方法，其特征在于，所述步骤S2具体为：

给定一个搜索会话组SSG1和候选查询集合Q1，候选查询q1，t的感知效用α1，t为

α_{l, t} = \frac{Σ_{j = 1}^{N_{l}} Σ_{i = 1}^{M_{l, j}} I (Q_{l, j, i} = q_{l, t}) . I (c_{l, j, i} = 1)}{Σ_{j = 1}^{N_{l}} Σ_{i = 1}^{M_{l, j}} I (Q_{l, j, i} = q_{l, t})},

其中，N₁表示SSG₁中包含的搜索会话的个数，M_1，j表示搜索会话j的长度，Q_1，j，i＝q_1，t表示候选查询q_1，t被用户在搜索会话j中第i个查询循环中重构，C_1，j，i＝1表示搜索会话j中第i个查询循环的搜索结果被用户点击，I为指示函数。

3.根据权利要求1所述的方法，其特征在于，所述步骤S3包括：

S31、测量搜索会话组SSG₁中每个候选查询q_1，t与起始查询q₁的关系来确定候选查询q_1，t是否属于与起始查询q₁对应的搜索任务；

S32、采用无监督的方法评估每个搜索会话SSG₁中与起始查询q₁对应的搜索任务的满意状态；

S33、构建后验效用概率模型，求解得到后验效用β_1，t。

4.根据权利要求3所述的方法，其特征在于，所述步骤S31包括为：

构建查询图G＝(V，E)，其中，V＝Q_l∪{q_l}，在查询图G中，如果一个候选查询q_1，t与起始查询q₁之间有连边，则该候选查询q_1，t属于从起始查询q₁开始的的搜索任务，记作O＝1，否则该候选查询q_1，t不属于起始查询q₁的搜索任务，记作O＝0；

如果候选查询q_1，t与起始查询q₁包含相同的关键词，则该候选查询q_1，t属于从起始查询q₁开始的的搜索任务，记作O＝1，否则该候选查询q_1，t不属于起始查询q₁的搜索任务，记作O＝0。

5.根据权利要求4所述的方法，其特征在于，所述步骤S32具体为：

计算搜索会话组SSG₁的第j个搜索会话的满意状态其中，M_1，j表示第j个搜索会话的长度，O_l，j，i＝1表示第j个搜索会话中的第i查询属于从起始查询q₁开始的搜索任务，|U_l，j，i|表示第j个搜索会话中的第i查询循环中点击的URL的集合，其中，

6.根据权利要求5所述的方法，其特征在于，所述步骤S33具体为：

P (S_{l, j, i} = 1 | C_{l, j, 1 : i} {, O}_{l, j, 1 : i}) = σ (Σ_{k = 1}^{i} (I (O_{l, j, k} = 1) . (I (C_{l, j, k} = 1) . β_{l, j, k})),

S只有两个状态，因此P(S_l，j，i＝0|C_l，j，1:i，O_{l，j，1：i})＝1-P(S_l，j，i＝1|C_{l，j，1：i}，O_{l，j，1：i})，

整个搜索会话组SSG_l中的所有候选查询出现的概率为：

Π_{j = 1}^{N_{l}} Π_{i = 1}^{M_{l, j}} P {(S_{l, j, i} | C_{l, j, 1 : i}, O_{l, j, 1 : i})}^{S_{l, j, i}} . {(1 - P (S_{l, j, i} | C_{l, j, 1 : i}, O_{l, j, 1 : i}))}^{1 - S_{l, j, i}};

7.根据权利要求1所述的方法，其特征在于，所述步骤S4具体为：候选查询q_l，t在第j个搜索会话中的第i个查询循环中被构造的概率为：

P (Q_{l, j, i} = q_{l, t}) = \frac{I (q_{l, t} &Element; Q_{l}^{(j, i - 1)}) \cdot γ_{l, t}}{Σ_{ql \cdot &Element; Q_{l}^{(j, i - 1)}} γ_{l, *}} + \frac{I (q_{l, t} &Element; Q_{l} - Q_{l}^{(j, i - 1)}) \cdot γ_{l, t}}{Σ_{ql \cdot &Element; Q_{l} - Q_{l}^{(j, i - 1)}} γ_{l, *}},

整个搜索会话组SSG_l中的所有候选查询出现的概率为：

Π_{j = 1}^{N_{l}} Π_{i = 1}^{M_{l, j}} P (Q_{l, j, i} = q_{l, t}),