CN103870592A

CN103870592A - 综合语义和时效性意图对检索结果进行多样化的方法

Info

Publication number: CN103870592A
Application number: CN201410123319.3A
Authority: CN
Inventors: 陈竹敏; 任鹏杰; 马军; 吴凯; 隋雪芹; 宋晓萌
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2014-03-28
Filing date: 2014-03-28
Publication date: 2014-06-18
Anticipated expiration: 2034-03-28
Also published as: CN103870592B

Abstract

本发明公开了综合语义和时效性意图对检索结果进行多样化的方法；步骤如下：接收用户的查询；采用查询时效性分类算法判断查询属于没有时间意图的查询QoT、仅有一个查询量突起的查询OQ、有多个查询量突起且突起之间没有周期性的查询AMQ和有多个查询量突起且突起之间有周期性的查询PMQ中的哪一类，若该查询属于QoT类就进入步骤（3-1）；若该查询属于OQ、AMQ、PMQ三类中的一类，就进入步骤（3-2）；（3-1）：仅考虑语义意图对检索结果进行多样化；（3-2）：计算P(t|q)并同时考虑语义意图和时效性意图对检索结果进行多样化；将多样化的检索结果输出；本发明有效地建模查询动态性，通过考虑查询的时效性特征来提升信息检索系统的性能，改善用户的搜索体验。

Description

综合语义和时效性意图对检索结果进行多样化的方法

技术领域

本发明涉及信息检索领域，具体地说是一种综合语义和时效性意图对检索结果进行多样化的方法。

背景技术

随着大数据时代的到来，信息量越来越丰富，信息需求越来越复杂，信息检索系统如何利用有限的空间满足用户的不同信息需求变得异常重要。而结果的多样化作为一种最有效的解决方案近来受到企业界和学术界的普遍关注。

之所以要对信息检索结果进行多样化的主要原因包括：

（1）大多查询存在歧义性、模糊性和多义性。一个典型的代表查询是“苹果”。它既可以代表一种水果，也可以代表苹果公司或者其电子产品。对这种查询用户希望返回多样化的结果，因为搜索引擎不知道用户的具体需求。

（2）用户的信息需求具有不确定性、浏览性，并且因人而异。也就是说即使是同一个查询，不同用户的信息需求也是不同的。比如同样是查询“猪流感”，医务人员可能更关注猪流感的病理、病因等专业方面的信息，而普通大众则可能更关注猪流感的传播等新闻信息。

（3）Web是一个动态的信息空间，其中的内容不断变化。用户查询也是时间敏感的，即用户的查询意图随时间而变化。比如同样是查询“地震”，在地震发生不久时用户的查询意图与地震过后的查询意图存在很大区别。

（4）大数据时代造成了大量可用信息的存在，因此需要信息检索系统在提供检索结果时需要尽量避免冗余信息，并保证新颖性和多样性。

任何事物都不是一成不变的，互联网更是如此，网络信息日新月异。因此，对于信息检索系统来说，时效性是一个很重要的因素。然而，传统的检索结果多样化方法只是考虑查询的语义意图进行多样化，比如经典的MMR模型、xQuAD模型、IA-Select模型等，这样，难以捕捉查询的动态性，不能有效地利用查询的时效性特征来改善信息检索系统的性能。

发明内容

本发明的目的就是为了解决上述问题，提供了一种综合语义和时效性意图对检索结果进行多样化的方法，该方法可以有效地建模查询的动态性，通过考虑查询的时效性特征来提升信息检索系统的性能，改善用户的搜索体验，提高用户满意度。

为了实现上述目的，本发明采用如下技术方案：

一种综合语义和时效性意图对检索结果进行多样化的方法,步骤如下：

步骤（1）：接收用户的查询；

步骤（2）：采用查询时效性分类算法判断查询属于

没有时间意图的查询QoT（Query without Time intent）、

仅有一个查询量突起的查询OQ（One spike Query）、

有多个查询量突起且突起之间没有周期性的查询AMQ（Aperiodic Multi-spike Query）和

有多个查询量突起且突起之间有周期性的查询PMQ（Periodic Multi-spike Query）

中的哪一类，若该查询属于QoT类就进入步骤（3-1）；若该查询属于OQ、AMQ、PMQ三类中的一类，就进入步骤（3-2）；

步骤（3-1）：仅考虑语义意图对检索结果进行多样化；

步骤（3-2）：计算P(t|q)并同时考虑语义意图和时效性意图对检索结果进行多样化；

步骤（4）：将多样化的检索结果输出。

所述步骤（3-1）的计算公式为：

\begin{matrix} P (S | q) \\ = \underset{z &Element; Z}{Σ} P (z, S | q, t) \\ = \underset{z &Element; Z}{Σ} P (z | q) P (S | z, q) \\ &Proportional; \underset{z &Element; Z}{Σ} P (z | q) (1 - \underset{d &Element; s}{Π} (1 - P (d | z, q))) \end{matrix} - - - (1)

其中，S为检索结果文档；q为给定查询；Z为给定查询q的子主题集合；d为一篇文档。

所述公式（1）中，根据条件独立性假设，P(d|q,t,z)进一步展开为：

\begin{matrix} P (d | z, q) \\ = P (c_{d} | q, z) \\ &Proportional; P (c_{d} | q) P (c_{d} | z) \end{matrix} - - - (2)

其中，c_d代表文档d的文本内容。

所述步骤（3-2）的计算公式为：

\begin{matrix} P (S | q) \\ = \underset{t &Element; T}{Σ} P (t | q) P (S | q, t) \\ = \underset{t &Element; T}{Σ} P (t | q) \underset{z &Element; Z}{Σ} P (z, S | q, t) \\ = \underset{t &Element; T}{Σ} P (t | q) \underset{z &Element; Z}{Σ} P (z | q) P (S | z, q, t) \\ &Proportional; \underset{t &Element; T}{Σ} P (t | q) \underset{z &Element; Z}{Σ} P (z | q) (1 - \underset{d &Element; s}{Π} (1 - P (d | z, q, t))) \end{matrix} - - - (3)

其中，T为时间单元的集合。

所述公式（3）中，根据条件独立性假设，P(d|q,t,z)进一步展开为：

\begin{matrix} P (d | q, t, z) \\ = P (c_{d}, t_{d} | q, t, z) \\ = P (c_{d} | q, z) P (t_{d} | t) \\ &Proportional; P (c_{d} | q) P (c_{d} | z) P (t_{d} | t) \end{matrix} - - - (4)

其中，t代表某个时间单元；t_d代表文档d的发布时间。

所述公式（2）和（4）中，P(c_d|q)是用于衡量文档d与查询q的语义相关度，其计算方式如下：

P (c_{d} | q) = \frac{SIM (c_{d}, q)}{\max_{d^{'} &Element; D} SIM (c_{d^{'}}, q)} - - - (5)

其中，SIM(c_d,q)是任意一种文档d与查询q的文本相关度计算方法，比如Cosine距离。

所述公式（2）和（4）中，P(c_d|z)计算方式与P(c_d|q)相似，用于衡量文档d与子主题z的语义相关度。

所述公式（4）中，P(t_d|t)衡量文档的发布时间t_d与查询的时效性意图t的相关度。使用Sigmoid函数作为时间衰减函数来计算P(t_d|t)。

P (t_{d} | t) = \frac{1}{1 + e^{- ω + | t - t_{d} |}} - - - (6)

其中，ω为模型参数，用于控制时间衰减的速度。

所述公式（1）和（3）中，P(z|q)是子主题z的重要性。某个子主题与用户的查询意图越相关，该子主题的P(z|q)应该更大。在没有任何先验知识的情况下，可以用均匀分布来建模P(z|q)的分布，即：

P (z | q) = \frac{1}{| Z |} - - - (7) .

所述公式（3）中，P(t|q)的计算方式，分三种情况：

第一种是基于文档估计方法，P(t|q)计算公式为：

P (t | q) \approx Σ_{d &Element; D_{k}} P (t | d) \frac{P (d | q)}{Σ_{d^{'} &Element; D_{k}} P (d^{'} | q)} - - - (8)

其中，D_k是与查询q相关的前k个相关文档组成的集合.如果文档d的发布时间属于查询时效性意图t，那么P(t|d)=1；否则P(t|d)=0。

第二种是基于词的估计方法，P(t|q)计算公式为：

P (t | q) &Proportional; P (q | t) \approx \underset{w &Element; q}{Π} P (w | t) - - - (9)

其中，P(w|t)是在时间单元t生成词w的概率，可以用词w在时间单元t的频率来估计。

第三种是结合查询日志和词的估计方法，P(t|q)计算公式为：

\begin{matrix} P (t | q) \\ = P (t) P (c_{q}, f_{q}, t_{q} | t) \\ = P (t) P (c_{q} | t) P (f_{q} | t) P (t_{q} | t) \\ &Proportional; P (t) (\underset{w &Element; q}{Π} P (w | t)) P (f_{q} | t) \frac{1}{1 + e^{- ω + | t - t_{q} |}} \end{matrix} - - - (10)

其中，c_q代表查询的内容，即词的集合；f_q代表查询的查询频率；t_q代表查询的提交时间；P(t)为时间单元t的重要性，在无其他先验知识的情况下，可以用均匀分布来估计；P(f_q|t)为查询q在时间单元t的查询频数。

本发明的有益效果：

本发明旨在对用户意图不是很明确的查询，尤其是时效性不是很明确的查询提供一个多样化的检索结果。现有的搜索引擎仍然是基于关键词的检索，当用户提交一个很简短的查询词时，搜索引擎难以准确捕捉用户检索的语义意图和时效性意图，在这种情况下，给用户返回一个多样化的检索结果是很有必要的。例如，当用户检索“地震”时，其语义意图可能是地震事件或者地震相关知识，而时效性意图可能是某一次地震发生前、发生时、发生后甚至没有时间要求。本发明对于这种情况，能够综合考虑语义维度和时效性维度来进行检索结果的多样化。本发明相对于传统的多样化方法，在信息检索多样化领域的各个评测指标上都有很大的提升，因此有效地改善信息检索的性能，提升用户的搜索体验。

附图说明

图1为本发明的整体流程图；

图2为查询的时效性类别分类图；

图3（a）为查询“Haiti earthquake”的查询频率曲线；

图3（b）为查询“earthquake”的查询频率曲线；

图3（c）为查询“Christmas present”的查询频率曲线；

图4为本发明的概率图模型；

图5为本发明的应用举例。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

当一个用户提交一个查询时，首先应用Ren P,Chen Z,Song X,et al.UnderstandingTemporal Intent of User Query Based on Time-Based Query Classification[M]//Natural LanguageProcessing and Chinese Computing.Springer Berlin Heidelberg,2013:334-345.一文中的分类算法判断该查询的时效性类别。然后，若该查询属于QoT类，则仅考虑语义意图对检索结果进行多样化，若该查询属于其他三类，则应用本发明对检索结果进行多样化。具体的应用流程见图1：

步骤（1）：接收用户的查询；

步骤（2）：应用Ren P,Chen Z,Song X,et al.Understanding Temporal Intent of User QueryBased on Time-Based Query Classification.[M]//Natural Language Processing and ChineseComputing.Springer Berlin Heidelberg,2013:334-345.一文中的分类算法判断查询（如图2所示）属于QoT（Query without Time intent，没有时间意图的查询）、OQ（One spike Query，仅有一个查询量突起的查询）、AMQ（Aperiodic Multi-spike Query，有多个查询量突起且突起之间没有周期性的查询）和PMQ（Periodic Multi-spike Query，有多个查询量突起且突起之间有周期性的查询）中的哪一类，若该查询属于QoT类就进入步骤（3-1）；若该查询属于OQ、AMQ、PMQ三类中的一类，就进入步骤（3-2）；

步骤（3-1）：仅考虑语义意图对检索结果进行多样化；

步骤（3-2）：计算P(t|q)并同时考虑语义意图和时效性意图对检索结果进行多样化。

步骤（4）：将多样化的检索结果通过搜索引擎页面展示给用户。

本发明主要针对那些时间敏感的查询（QwT类）进行时效性多样化。比如“Haiti earthquake”（OQ），“earthquake”（AMQ），“Christmas present”（PMQ），如图3（a）、图3（b）和图3（c）。这些查询词往往有多个时效性意图。这类查询大约占所有查询的54%。所以，对这类查询的检索结果进行改进将有助于大幅度提升检索系统的性能。

本发明的名称为RM+T+S+D（RM代表任意一种信息检索排序模型，比如向量空间模型；T代表Temporal时效性，S代表Semantics语义，D代表Diversity），其数学模型见公式（1），其概率图模型见图4：

\begin{matrix} P (S | q) \\ = \underset{t &Element; T}{Σ} P (t | q) P (S | q, t) \\ = \underset{t &Element; T}{Σ} P (t | q) \underset{z &Element; Z}{Σ} P (S | z, q, t) \\ = \underset{t &Element; T}{Σ} P (t | q) \underset{z &Element; Z}{Σ} P (z | q) P (S | q, t) \\ &Proportional; \underset{t &Element; T}{Σ} P (t | q) \underset{z &Element; Z}{Σ} P (z | q) (1 - \underset{d &Element; s}{Π} (1 - P (d | z, q, t))) \end{matrix} - - - (1)

给定查询q，该查询的子主题集合Z，时间单元集合T，需要返回的查询结果的数目k。本发明的目标是从文档集D中找到一个k个文档的子集S，使公式（1）最大化。

把文档d从概念上分成两个部分：c_d代表文档的语义内容，t_d代表文档的时效性。更具体地说，c_d和t_d分别代表文档的文本内容和发布时间。根据条件独立性假设，P(S|q,t,z)进一步展开为：

\begin{matrix} P (d | q, t, z) \\ = P (c_{d}, t_{d} | q, t . z) \\ = P (c_{d} | q, z) P (t_{d} | t) \\ &Proportional; P (c_{d} | q) P (c_{d} | z) P (t_{d} | t) \end{matrix} - - - (2)

其中，t代表某个时间单元；t_d代表文档d的发布时间。其他变量同上。

所述公式（2）中，P(c_d|q)是用于衡量文档d与查询q的语义相关度，其计算方式如下：

P (c_{d} | q) = \frac{SIM (c_{d}, q)}{\max_{d^{'} &Element; D} SIM (c_{d^{'}}, q)} - - - (3)

所述公式（2）中，P(c_d|z)计算方式与P(c_d|q)相似，用于衡量文档d与子主题z的语义相关度。

所述公式（2）中，P(t_d|t)衡量文档的发布时间t_d与查询的时效性意图t的相关度。使用Sigmoid函数作为时间衰减函数来计算P(t_d|t)。

P (t_{d} | t) = \frac{1}{1 + e^{- ω + | t - t_{d} |}} - - - (4)

其中，ω为模型参数，用于控制时间衰减的速度。

所述公式（1）中，P(z|q)是子主题z的重要性。某个子主题与用户的查询意图越相关，该子主题的P(z|q)应该更大。在没有任何先验知识的情况下，可以用均匀分布来建模P(z|q)的分布，即：

P (z | q) = \frac{1}{| Z |} - - - (5)

所述公式（1）中，P(t|q)的计算方式，分三种情况：

第一种是基于文档估计方法，P(t|q)计算公式为：

P (t | q) \approx Σ_{d &Element; D_{k}} P (t | d) \frac{P (d | q)}{Σ_{d^{'} &Element; D_{k}} P (d^{'} | q)} - - - (6)

第二种是基于词的估计方法，P(t|q)计算公式为：

P (t | q) &Proportional; P (q | t) \approx \underset{w &Element; q}{Π} P (w | t) - - - (7)

第三种是结合查询日志和词的估计方法，P(t|q)计算公式为：

\begin{matrix} P (t | q) \\ = P (t) P (c_{q}, f_{q}, t_{q} | t) \\ = P (t) P (c_{q} | t) P (f_{q} | t) P (t_{q} | t) \\ &Proportional; P (t) (\underset{w &Element; q}{Π} P (w | t)) P (f_{q} | t) \frac{1}{1 + e^{- ω + | t - t_{q} |}} \end{matrix} - - - (10)

所述步骤（2）中查询时效性分类算法：

算法的输入为查询q一定时间范围内的查询频率曲线F＝{f₁,f₂,...,f_t}，其中，f_t为查询q在t时的搜索量。输出为QoT、OQ、AMQ、PMQ中一类。算法原理是采用机器学习SVM模型学习一个分类器。算法包括两个主要部分：预处理和特征提取。提取出的特征可以作为SVM模型的输入用来训练及预测。

（1）预处理：根据时间序列分析技术，可以认为曲线F包含三种成分：趋势性成分m_t、季节性成分S_t及随机性成分Y_t；使用多项式拟合曲线F作为曲线F的趋势性成分，并从曲线F中减去趋势性成分m_t成为预处理后的曲线F^q：

F＝m_t+S_t+Y_t （9）

（2）特征提取：在预处理后的曲线F^q上提取以下特征：

均值（Mean）：

M = \frac{\underset{f_{t} &Element; E^{q}}{Σ} f_{t}}{| F^{q} |}; - - - (10)

其中，f_t为查询q在t时的搜索量.

标准差（Standard Deviation）：

SD = \frac{\sqrt{\underset{f_{t} &Element; F^{q}}{Σ} {(f_{t} - M)}^{2}}}{| F^{q} |}; - - - (11)

其中，M为均值；其他参数同上.

最大突起程度（Max Rate）：

其中，f_m＝max F^q，其时间单元为m；其他参数同上.

突起程度（Spike Rate）：

SR = \frac{f_{m} - \max [F^{q} - {f_{m - 2}, f_{m - 1}, f_{m + 1}, f_{m + 2}}]}{\underset{f &Element; F^{q}}{Σ} f} - - - (13)

其中，f_m-2、f_m-1、f_m+1、f_m+2分别为时间单元为m-2、m-1、m+1、m+2时的搜索量；其他参数同上。

与QoT类的距离（Distance from QoT）：其中，F(QoT)为已标注的为QoT类的曲线集合；(F^q')ⁿ代表将曲线F^q'向左或者向右循环平移n个时间单元；α为模型参数，可以通过最小化

求得.

与OQ类的距离（Distance from OQ）：

D_{OQ} = \frac{\underset{F^{q^{'} &Element; F (OQ)}}{Σ} \min_{α, n} (\frac{| | F^{q} - α (F^{q^{'}})^{n} | |}{| | F^{q} | |})}{| F | (OQ)}; - - - (15)

其中，F(OQ)为已标注的为OQ类的曲线集合；其他参数同上.

与AMQ类的距离（Distance from AMQ）：

D_{AMQ} = \frac{\underset{F^{q^{'}} &Element; F (AMQ)}{Σ} \min_{α, n} (\frac{| | F^{q} - α {(F^{q^{'}})}^{n} | |}{| | F^{q} | |})}{| F (AMQ) |}; - - - (16)

其中，F(AMQ)为已标注的为AMQ类的曲线集合；其他参数同上.

与PMQ类的距离（Distance from PMQ）：

D_{PMQ} = \frac{\underset{F^{q^{'}} &Element; F (AMQ)}{Σ} \min_{α, n} (\frac{| | F^{q} - α {(F^{q^{'}})}^{n} | |}{| | F^{q} | |})}{| F (AMQ) |}; - - - (17)

其中，F(PMQ)为已标注的为PMQ类的曲线集合；其他参数同上。

本发明的数学模型主要有如下部分组成：

●文档与查询的语义相关度部分P(c_d|q)。

●文档的时效性意图多样化部分，包括：(1)时效性意图t对查询q的重要度P(t|q)；(2)文档的发布时间t_d与查询的时效性意图t的相关度P(t_d|t)。

●文档的语义意图(主题覆盖度)多样化部分，包括：（1）语义意图z对查询q的重要度P(z|q)；（2）文档的文本内容c_d与查询的子主题z的相关度P(c_d|z)。

图5为应用本发明进行检索多样化的一个例子，当用户提交查询词“地震”时，在没有其他信息的情况下，难以明确用户的检索需求，该实例查询时并无新的地震事件发生，因而就查询词“地震”的可能子主题“地震官网”、“地震知识”、“地震事件”等等进行检索结果的多样化，并按子主题分类别展示给用户。从中我们可以发现，检索结果不仅在语义维度上进行了多样化，在时效性维度上也同样进行了多样化。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种综合语义和时效性意图对检索结果进行多样化的方法,其特征是，步骤如下：

步骤（1）：接收用户的查询；

步骤（2）：采用查询时效性分类算法判断查询属于

没有时间意图的查询QoT、

仅有一个查询量突起的查询OQ、

有多个查询量突起且突起之间没有周期性的查询AMQ和

有多个查询量突起且突起之间有周期性的查询PMQ

步骤（3-1）：仅考虑语义意图对检索结果进行多样化；

步骤（4）：将多样化的检索结果输出。

2.如权利要求1所述的一种综合语义和时效性意图对检索结果进行多样化的方法,其特征是，所述步骤（3-1）的计算公式为：

\begin{matrix} P (S | q) \\ = \underset{z &Element; Z}{Σ} P (z, S | q, t) \\ = \underset{z &Element; Z}{Σ} P (z | q) P (S | z, q) \\ &Proportional; \underset{z &Element; Z}{Σ} P (z | q) (1 - \underset{d &Element; s}{Π} (1 - P (d | z, q))) \end{matrix} - - - (1)

3.如权利要求2所述的一种综合语义和时效性意图对检索结果进行多样化的方法,其特征是，所述公式（1）中，根据条件独立性假设，P(d|q,t,z)进一步展开为：

\begin{matrix} P (d | z, q) \\ = P (c_{d} | q, z) \\ &Proportional; P (c_{d} | q) P (c_{d} | z) \end{matrix} - - - (2)

其中，c_d代表文档d的文本内容。

4.如权利要求1所述的一种综合语义和时效性意图对检索结果进行多样化的方法,其特征是，所述步骤（3-2）的计算公式为：

\begin{matrix} P (S | q) \\ = \underset{t &Element; T}{Σ} P (t | q) P (S | q, t) \\ = \underset{t &Element; T}{Σ} P (t | q) \underset{z &Element; Z}{Σ} P (z, S | q, t) \\ = \underset{t &Element; T}{Σ} P (t | q) \underset{z &Element; Z}{Σ} P (z | q) P (S | z, q, t) \\ &Proportional; \underset{t &Element; T}{Σ} P (t | q) \underset{z &Element; Z}{Σ} P (z | q) (1 - \underset{d &Element; s}{Π} (1 - P (d | z, q, t))) \end{matrix} - - - (3)

其中，T为时间单元的集合。

5.如权利要求4所述的一种综合语义和时效性意图对检索结果进行多样化的方法,其特征是，所述公式（3）中，根据条件独立性假设，P(d|q,t,z)进一步展开为：

\begin{matrix} P (d | q, t, z) \\ = P (c_{d}, t_{d} | q, t, z) \\ = P (c_{d} | q, z) P (t_{d} | t) \\ &Proportional; P (c_{d} | q) P (c_{d} | z) P (t_{d} | t) \end{matrix} - - - (4)

其中，t代表某个时间单元；t_d代表文档d的发布时间。

6.如权利要求3或5所述的一种综合语义和时效性意图对检索结果进行多样化的方法,其特征是，所述公式（2）和（4）中，P(c_d|q)是用于衡量文档d与查询q的语义相关度，其计算方式如下：

P (c_{d} | q) = \frac{SIM (c_{d}, q)}{\max_{d^{'} &Element; D} SIM (c_{d^{'}}, q)} - - - (5)

其中，SIM(c_d,q)是任意一种文档d与查询q的文本相关度计算方法。

7.如权利要求3或5所述的一种综合语义和时效性意图对检索结果进行多样化的方法,其特征是，所述公式（2）和（4）中，P(c_d|z)计算方式与P(c_d|q)相似，用于衡量文档d与子主题z的语义相关度。

8.如权利要求5所述的一种综合语义和时效性意图对检索结果进行多样化的方法,其特征是，所述公式（4）中，P(t_d|t)衡量文档的发布时间t_d与查询的时效性意图t的相关度；使用Sigmoid函数作为时间衰减函数来计算P(t_d|t)；

P (t_{d} | t) = \frac{1}{1 + e^{- ω + | t - t_{d} |}} - - - (6)

其中，ω为模型参数，用于控制时间衰减的速度。

9.如权利要求2或4所述的一种综合语义和时效性意图对检索结果进行多样化的方法,其特征是，所述公式（1）和（3）中，P(z|q)是子主题z的重要性；某个子主题与用户的查询意图越相关，该子主题的P(z|q)应该更大；在没有任何先验知识的情况下，用均匀分布来建模P(z|q)的分布，即：

P (z | q) = \frac{1}{| Z |} - - - (7) .

10.如权利要求1所述的一种综合语义和时效性意图对检索结果进行多样化的方法,其特征是，所述公式（3）中，P(t|q)的计算方式，分三种情况：

第一种是基于文档估计方法，P(t|q)计算公式为：

P (t | q) \approx Σ_{d &Element; D_{k}} P (t | d) \frac{P (d | q)}{Σ_{d^{'} &Element; D_{k}} P (d^{'} | q)} - - - (8)

其中，D_k是与查询q相关的前k个相关文档组成的集合.如果文档d的发布时间属于查询时效性意图t，那么P(t|d)=1；否则P(t|d)=0；

第二种是基于词的估计方法，P(t|q)计算公式为：

P (t | q) &Proportional; P (q | t) \approx \underset{w &Element; q}{Π} P (w | t) - - - (9)

其中，P(w|t)是在时间单元t生成词w的概率，用词w在时间单元t的频率来估计；

第三种是结合查询日志和词的估计方法，P(t|q)计算公式为：

\begin{matrix} P (t | q) \\ = P (t) P (c_{q}, f_{q}, t_{q} | t) \\ = P (t) P (c_{q} | t) P (f_{q} | t) P (t_{q} | t) \\ &Proportional; P (t) (\underset{w &Element; q}{Π} P (w | t)) P (f_{q} | t) \frac{1}{1 + e^{- ω + | t - t_{q} |}} \end{matrix} - - - (10)

其中，c_q代表查询的内容，即词的集合；f_q代表查询的查询频率；t_q代表查询的提交时间；P(t)为时间单元t的重要性，在无其他先验知识的情况下，用均匀分布来估计；P(f_q|t)为查询q在时间单元t的查询频数。