CN103235812A

CN103235812A - 查询多意图识别方法和系统

Info

Publication number: CN103235812A
Application number: CN2013101460370A
Authority: CN
Inventors: 程学旗; 熊锦华; 程舒杨; 廖华明; 王元卓; 公帅
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2013-04-24
Filing date: 2013-04-24
Publication date: 2013-08-07
Anticipated expiration: 2033-04-24
Also published as: CN103235812B

Abstract

本发明提供一种查询多意图识别方法和系统，所述方法包括：根据G-PLSI模型计算查询意图概率特征向量，其中，G-PLSI模型用于模拟摘要文本的产生过程、相同查询意图下搜索不同查询时的点击链接行为，以及相同查询意图下在同一session中搜索不同查询的行为，查询意图概率特征向量体现摘要文本信息以及不同查询在相同链接上的点击概率和在同一session中的共现概率。所述方法还包括：计算不同查询的查询意图概率特征向量之间的相似度并且根据该相似度进行查询聚类。本发明使用的查询意图概率特征向量对查询内容和用户点击行为进行结合利用，能够更准确地反映用户搜索意图。

Description

查询多意图识别方法和系统

技术领域

本发明涉及信息检索领域，尤其涉及一种查询多意图识别方法和系统。

背景技术

在信息量不断快速增长的现代，搜索引擎成了人们获取知识和有用信息的主要途径之一。根据搜索引擎的查询日志信息统计，查询的平均长度为2.21个词，其中查询长度为1个或2个词的约占62%，查询长度长于6个词的低于4%。由于多数查询的长度较短，用户在查询中所表达的搜索意图往往是具有多义性或多需求的，比如用户在搜索“苹果”一词时，可能是指的水果，也可能是指苹果公司，也可能是指苹果公司的产品。此外，由于用户缺乏一些领域的专业知识，在进行搜索的时候很难用搜索词来明确表达自己的意思。查询多意图识别可以分析出用户搜索词的多种不同需求，利用这些不同需求的分析结果，搜索引擎可以有效地组织其搜索结果页面，给予用户根据其需求强度排序的搜索结果。如何正确理解用户的搜索意图，一直以来都是搜索引擎相关研究的重点之一。

查询聚类为搜索引擎对用户多种需求的深入理解提供了理论基础。查询聚类是指将相似的查询及其URL链接分在一个群簇中，这些群簇的标签是由其中查询和URL链接的标题、摘要、文本共同决定的。查询聚类的相关研究主要侧重相似度计算方法和聚类算法两个方面，包括基于内容的聚类、基于点击行为和session（会话）信息的聚类、综合以上三种信息的聚类等。基于内容的聚类一般通过对查询结果的URL链接中的文本内容进行聚类。基于点击和session信息的聚类包括诸如Sadikov等人提出的、结合了查询日志中的点击和session信息的聚类，通过在马尔可夫图上进行多次随机游走算法模拟用户的搜索行为，计算出每个查询在不同的文档上的吸收分布概率，利用这些概率特征之间的相似度计算不同查询之间的相似度。综合考虑内容、点击URL链接和session信息相似度的聚类包括诸如Wen等人提出的查询聚类，其综合考虑了查询内容的相似度、点击URL链接和session信息的相似度，现有的这种聚类方法仅仅通过简单的加权形式来综合计算查询不同信息的相似度，不能很好的识别用户的搜索意图。

在查询多意图识别中由于查询文本的特征较少，目前相关的研究多数集中在基于内容相似度或者基于点击或session信息的相似度进行聚类，这些方法缺乏对于用户搜索意图的考虑，不能准确区分多意图查询的各种不同意图。

发明内容

根据本发明的一个实施例，提出一种查询多意图识别方法，包括：

步骤1）、根据G-PLSI模型计算查询意图概率特征向量，其中，G-PLSI模型用于模拟摘要文本的产生过程、相同查询意图下搜索不同查询时的点击链接行为，以及相同查询意图下在同一session中搜索不同查询的行为，查询意图概率特征向量体现摘要文本信息以及不同查询在相同链接上的点击概率和在同一session中的共现概率；

步骤2）、计算不同查询的查询意图概率特征向量之间的相似度并且根据该相似度进行查询聚类。

在一个实施例中，步骤1）中根据G-PLSI模型计算查询意图概率特征向量包括：采用EM算法计算G-PLSI模型概似函数的最优解，获得查询意图概率特征向量。在另一个实施例中，步骤1）中根据G-PLSI模型计算查询意图概率特征向量包括：采用TEM算法计算G-PLSI模型概似函数的最优解，获得查询意图概率特征向量。

在一个实施例中，采用如下公式表示G-PLSI模型概似函数：

L = Σ_{i = 1}^{N} Σ_{j = 1}^{M} n (q_{i}, w_{j}) \log P (q_{i}, w_{j}) + \frac{1}{2} Σ_{i = 1}^{N} Σ_{j = 1}^{N} (λ_{s} \cdot s (q_{i}, q_{j}) + λ_{c} \cdot c (q_{i}, q_{j})) \log P (q_{i}, q_{j}),

其中，n(q_i,w_j)为单词w_j在查询q_i的摘要文本中出现的次数，N为查询的个数，M为单词总个数，P(q_i,w_j)为查询-单词对的概率，s(q_i,q_j)为查询q_i与查询q_j相似且出现在同一session中的次数，c(q_i,q_j)为查询q_i与查询q_j在相同链接的点击次数，λ_c为相同链接上的点击行为在查询意图表征上的权重，λ_s为相同session中不同查询的共现在查询意图表征上的权重，P(q_i,q_j)为不同查询的查询意图相同的概率。

在一个实施例中，步骤1）中采用下式表示查询q_i的查询意图概率特征向量：

\overset{&RightArrow;}{Q} I_{i} = [\begin{matrix} P (s_{1} | q_{i}) \\ P (s_{2} | q_{i}) \\ . . . \\ . . . \\ P (s_{K} | q_{i}) \end{matrix}],

其中，s_k表示查询的意图，1≤k≤K；通过计算G-PLSI模型概似函数的最优解获得P(s_k|q_i)。

在一个实施例中，步骤2）中采用下式计算不同查询q_i与q_j的查询意图概率特征向量之间的相似度：

sim (\overset{&RightArrow;}{Q} I_{i}, \overset{&RightArrow;}{Q} I_{j}) = Σ_{k = 1}^{K} P (s_{k} | q_{i}) P (s_{k} | q_{j}) .

在另一个实施例中，步骤2）中采用下式计算不同查询q_i与q_j的查询意图概率特征向量之间的相似度：

sim (\overset{&RightArrow;}{Q} I_{i}, \overset{&RightArrow;}{Q} I_{j}) = \frac{Σ_{k = 1}^{K} P (s_{k} | q_{i}) P (s_{k} | q_{j})}{\sqrt{(Σ_{k = 1}^{K} P {(s_{k} | q_{i})}^{2}) (Σ_{k = 1}^{K} P {(s_{k} | q_{j})}^{2})}} .

在一个实施例中，步骤1）之前还包括：

步骤0）、获得查询的摘要文本。

在进一步的实施例中，步骤0）中获得查询的摘要文本包括：在查询日志中，从查询的文本内容本身获得摘要文本；在查询日志中，从用户搜索该查询时所点击的链接获得摘要文本；在商业搜索引擎中，从搜索该查询所得结果页面的链接中获得摘要文本。

在进一步的实施例中，使用下式计算单词w_j在查询q_i的摘要文本中出现的次数：

n(q_i,w_j)=λ_a·n_a+λ_b·n_b+λ_c·n_c，

其中，λ_a、λ_b、λ_c为权重因子；n_a表示从查询的文本内容本身获得的摘要文本中，单词w_j出现的次数，n_b表示在查询日志中从用户搜索查询时所点击的链接获得的摘要文本中，单词w_j出现的次数；n_c表示在商业搜索引擎中从搜索查询所得结果页面的链接中获得的摘要文本中，单词w_j出现的次数。

根据本发明的另一个实施例，提出一种查询多意图识别系统，所述系统包括G-PLSI模型模块和查询聚类模块，其中所述G-PLSI模型模块用于模拟摘要文本的产生过程、相同查询意图下搜索不同查询时的点击链接行为，以及相同查询意图下在同一session中搜索不同查询的行为；并且用于计算查询意图概率特征向量，其中查询意图概率特征向量体现摘要文本信息以及不同查询在相同链接上的点击概率和在同一session中的共现概率；所述查询聚类模块用于计算不同查询的查询意图概率特征向量之间的相似度并且根据该相似度进行查询聚类。

采用本发明可以达到如下的有益效果：

本发明采用基于查询图信息的隐语义模型（G-PLSI）计算用户查询意图概率特征向量，该查询意图概率特征向量对于查询内容和用户点击行为进行了有效的结合利用，更准确地反映了用户搜索意图。

附图说明

此处所述的方法和系统的前述和其它目的、方面、特征和优点通过参考下述结合附图的细节描述将会更加明显并更易于理解，其中：

图1是根据本发明一个实施例的查询多意图识别方法的流程图；

图2是根据本发明一个实施例的查询多意图识别系统的框图；以及

图3是基于G-PLSI模型、LapPLSI模型和PLSI模型的聚类结果示意图。

具体实施方式

下面结合附图和具体实施方式对本发明加以说明。

图1描述了查询多意图识别方法的一个实施例，包括以下几个步骤：

步骤100、对数据进行预处理。

在一个实施例中，用于进行查询多意图识别的数据可以包括从查询日志获取的查询文本、用户点击信息，以及session（会话）信息等数据。通过对这些数据进行预处理可以获得查询的摘要文本，以及不同查询在同一链接或session中的共现次数（共同出现的次数）。

在一个实施例中，可以从以下途径获得查询的摘要文本：

a）、查询日志中，查询文本内容本身；

b）、查询日志中，用户搜索该查询时所点击的链接的标题，以及链接中的文本摘要等信息；

c）、在商业搜索引擎中，搜索该查询所得的前N条链接的标题，以及链接中的文本摘要等信息，例如，N可取值为10。

其中，查询的摘要文本可以包含以上三项中任意多项的组合，并且可以采用不同的权重来计算其词频。例如，在一个实施例中，采用途径a）获得的查询文本内容本身（摘要文本）的权重可以设置得比通过途径b)和途径c)获得的摘要文本的权重高。例如，可以用n_a、n_b和n_c分别表示来自上述不同项目的摘要文本的权重

步骤102、采用基于查询图信息的PLSI模型(简称为G-PLSI)，对查询意图概率特征向量进行计算，并且利用EM算法获得最优解。

假设在步骤100获得了N个查询Q={q₁,q₂,...,q_N}，这些查询共享同一组K个查询意图S={s₁,s₂,...,s_K}，且查询的摘要文本都由包含在集合W={w₁,w₂,...,w_M}中的单词（或者词语）组成。将每个查询的摘要文本看作是一个伪文档，那么可采用PLSI模型来模拟这些文档的产生过程：

1）、以P(q_i)的概率选择一个查询q_i；

2）、以P(s_k|q_i)的概率确定该查询的意图为s_k；

3）、基于该查询的意图s_k，以P(w_j|s_k)的概率产生一个单词w_j；

因此，查询-单词对P(q_i,w_j)的概率可计算如下：

P (q_{i}, w_{j}) = P (q_{i}) P (w_{j} | q_{i}) = P (q_{i}) Σ_{k = 1}^{K} P (w_{j} | s_{k}) P (s_{k} | q_{i}) - - - (1)

由此，可以得到基于查询内容的概似函数，如公式2所示：

L = Σ_{i = 1}^{N} Σ_{j = 1}^{M} n (q_{i}, w_{j}) \log P (q_{i}, w_{j}) = Σ_{i = 1}^{N} Σ_{j = 1}^{M} n (q_{i}, w_{j}) \log Σ_{k = 1}^{K} P (q_{i} | s_{k}) P (w_{j} | s_{k}) P (s_{k}) - - - (2)

其中，n(q_i,w_j)为单词w_j在查询q_i的摘要文本中出现的次数。如上文所述，查询的摘要文本可以从三种不同途径获得，则可采用不同权重计算单词w_j在来自不同途径的摘要文本中出现的次数：

n(q_i,w_j)=λ_a·n_a+λ_b·n_b+λ_c·n_c （3）

其中，λ_a、λ_b、λ_c为权重因子。

然而，仅用查询的摘要文本信息（即查询内容）来计算查询意图概率特征向量不足以提供查询意图的所有知识。在查询日志中，用户的点击行为和session信息能够很好地补充这一知识。用户的点击行为和session信息从另一个角度反映了用户在搜索查询时的查询意图，当用户点击某一链接时，说明该链接中的信息是用户想要查看的信息，或者该链接中的信息与用户查询意图相关；而用户在同一session中搜索相似查询，往往是由于这些相似查询表达了用户的同一查询意图，或者这些相似查询表达了用户在同一查询主题上不同的需求。因而，不同查询在同一链接上有点击行为或出现在同一session中，表明了这些查询所表达的查询意图相似。

如上所述，本发明提出基于查询图信息的PLSI模型（G-PLSI模型）。该模型对查询内容、用户点击行为和session信息进行了有效的结合。

G-PLSI模型可用于模拟用户在相同的查询意图下搜索不同查询时产生了相同的点击行为（仍基于上述假设）：

1）、以P(s_k)的概率选择用户的查询意图s_k；

2）、在查询意图s_k下，用户A₁以P(q_i|s_k)的概率搜索了查询q_i，并点击了一个链接u’；

3）、在查询意图s_k下，用户A₂以P(q_j|s_k)的概率搜索了查询q_j，并点击了该相同的链接u’。

同样，可采用G-PLSI模型来模拟用户在相同的查询意图下在同一session中搜索了不同的查询，其产生的过程如下：

1）、以P(s_k)的概率选择用户的查询意图s_k；

2）、用户在查询意图s_k下以P(q_i|s_k)的概率搜索了查询q_i；

3）、在同一session中，用户在查询意图s_k下以P(q_j|s_k)的概率搜索了另一查询q_j。

可以将不同查询在相同链接上的点击记录和不同查询出现在同一session中的共现次数来表征不同查询出现同一查询意图，因而，可以通过不同查询在相同链接上的点击概率和出现在同一session中的共现概率，来计算不同查询的查询意图相同的概率，计算公式如下：

P (q_{i}, q_{j}) = Σ_{k = 1}^{K} P (q_{i} | s_{k}) P (q_{j} | s_{k}) P (s_{k}) - - - (4)

由此，结合上文中描述的基于查询内容的概似函数，可以得到G-PSLI模型（基于查询内容和用户行为）的概似函数，如公式5所示：

L = Σ_{i = 1}^{N} Σ_{j = 1}^{M} n (q_{i}, w_{j}) \log P (q_{i}, w_{j}) + \frac{1}{2} Σ_{i = 1}^{N} Σ_{j = 1}^{N} (λ_{s} \cdot s (q_{i}, q_{j}) + λ_{c} \cdot c (q_{i}, q_{j})) \log P (q_{i}, q_{j}) - - - (5)

其中n(q_i,w_j)为单词w_j在查询q_i的摘要文本中出现的次数，P(q_i,w_j)为查询-单词对的概率，s(q_i,q_j)为查询q_i与查询q_j相似且出现在同一session中的次数，c(q_i,q_j)为查询q_i与查询q_j在相同链接的点击次数，λ_c为相同链接上的点击行为在查询意图表征上的权重，λ_s为相同session中不同查询的共现在查询意图表征上的权重。

在一个实施例中，可采用EM算法来计算上述G-PLSI模型概似函数的最优解，从而得到查询意图概率特征向量的值，在E步中利用Jensen不等式对概似函数求下界，可得：

P (s_{k} | q_{i}, w_{j}) = \frac{P (q_{i} | s_{k}) P (w_{j} | s_{k}) P (s_{k})}{Σ_{k = 1}^{K} P (q_{i} | s_{k}) P (w_{j} | s_{k}) P (s_{k})} - - - (6)

P (s_{k} | q_{i}, q_{j}) = \frac{P (q_{i} | s_{k}) P (q_{j} | s_{k}) P (s_{k})}{Σ_{k = 1}^{K} P (q_{i} | s_{k}) P (q_{j} | s_{k}) P (s_{k})} - - - (7)

在M步中采用拉格朗日乘法数最大化G-PLSI模型概似函数，可得：

P (s_{k}) = \frac{Σ_{i = 1}^{N} Σ_{j = 1}^{M} n (q_{i}, w_{j}) P (s_{k} | q_{i}, w_{j})}{Σ_{i = 1}^{N} Σ_{j = 1}^{M} n (q_{i}, w_{j})} - - - (8)

P (q_{i} | s_{k}) = \frac{Σ_{j = 1}^{M} n (q_{i}, w_{j}) P (s_{k} | q_{i}, w_{j}) + Σ_{j = 1}^{N} (λ_{s} \cdot s (q_{i}, q_{j}) + λ_{c} \cdot (q_{i}, q_{j})) P (s_{k} | q_{i}, q_{j})}{Σ_{i = 1}^{N} Σ_{j = 1}^{M} n (q_{i}, w_{i}) P (s_{k} | q_{i}, w_{j}) + Σ_{i = 1}^{N} Σ_{j = 1}^{N} (λ_{s} \cdot s (q_{i}, q_{j}) + λ_{c} \cdot c (q_{i}, q_{j})) P (s_{k} | q_{i}, q_{j})} - - - (9)

P (w_{j} | s_{k}) = \frac{Σ_{i = 1}^{N} n (q_{i}, w_{j}) P (s_{k} | q_{i}, w_{j})}{Σ_{i = 1}^{N} Σ_{j = 1}^{M} n (q_{i}, w_{j}) P (s_{k} | q_{i}, w_{j})} - - - (10)

需要说明的是，在另一个实施例中，在进行E步更新时，也可采用TEM算法对更新利用控制参数进行调整。可以不断地进行E步和M步的迭代，直到获得最优解。在获得最优解的同时可以获得查询意图概率特征向量的值，即在一个实施例中，对于查询q_i，其查询意图概率特征向量：

\overset{&RightArrow;}{Q} I_{i} = [\begin{matrix} P (s_{1} | q_{i}) \\ P (s_{2} | q_{i}) \\ . . . \\ . . . \\ P (s_{K} | q_{i}) \end{matrix}]

的值。

步骤104、利用步骤102中获得的查询意图概率特征向量进行查询之间的相似度计算。

由步骤102可获得查询意图概率特征向量，对于查询q_i其查询意图概率特征向量可以为

\overset{&RightArrow;}{Q} I_{i} = [\begin{matrix} P (s_{1} | q_{i}) \\ P (s_{2} | q_{i}) \\ . . . \\ . . . \\ P (s_{K} | q_{i}) \end{matrix}] .

此外，根据步骤102还可以获得{P(s_k|q_i,w_j)}、{P(w_i|s_k)}等概率分布。

在一个实施例中，可利用向量之间的内积来计算查询意图概率特征向量的相似度，如公式11所示：

sim (\overset{&RightArrow;}{Q} I_{i}, \overset{&RightArrow;}{Q} I_{j}) = Σ_{k = 1}^{K} P (s_{k} | q_{i}) P (s_{k} | q_{i}) - - - (11)

在另一个实施例中，可考虑向量的归一化，使用两个向量夹角的余弦值来计算相似度，如公式12所示：

sim (\overset{&RightArrow;}{Q} I_{i}, \overset{&RightArrow;}{Q} I_{j}) = \frac{Σ_{k = 1}^{K} P (s_{k} | q_{i}) P (s_{k} | q_{j})}{\sqrt{(Σ_{k = 1}^{K} P {(s_{k} | q_{i})}^{2}) (Σ_{k = 1}^{K} P {(s_{k} | q_{j})}^{2})}} - - - (12)

在进一步的实施例中，可采用不同的度量并利用余弦相似度进行查询在不同的意图上的综合相似度的计算：

sim (\overset{&RightArrow;}{Q} I_{i}, \overset{&RightArrow;}{Q} I_{j}) = \frac{Σ_{k = 1}^{K} {sim}_{k} (\overset{&RightArrow;}{Q} I_{i}, \overset{&RightArrow;}{Q} I_{j})}{\sqrt{(Σ_{k = 1}^{K} {| | m_{k} (\overset{&RightArrow;}{Q} I_{i}) | |}^{2}) (Σ_{k = 1}^{K} {| | m_{k} (\overset{&RightArrow;}{Q} I_{j}) | |}^{2})}} = \frac{Σ_{k = 1}^{K} m_{k} (\overset{&RightArrow;}{Q} I_{i}) \cdot m_{k} (\overset{&RightArrow;}{Q} I_{j})}{\sqrt{(Σ_{k = 1}^{K} {| | m_{k} (\overset{&RightArrow;}{Q} I_{i}) | |}^{2}) (Σ_{k = 1}^{K} {| | m_{k} (\overset{&RightArrow;}{Q} I_{j}) | |}^{2})}} - - - (13)

其中，

是查询在第k个意图上的查询意图特征向量，可表示如下：

m_{k} (\overset{&RightArrow;}{Q} I_{i}) = [\begin{matrix} n (q_{i}, w_{1}) P (s_{k} | q_{i}, w_{1}) \\ n (q_{i}, w_{2}) P (s_{k} | q_{i}, w_{2}) \\ . . . \\ . . . \\ n (q_{i}, w_{M}) P (s_{k} | q_{i}, w_{M}) \end{matrix}]

步骤106、对查询进行聚类

在一个实施例中，查询聚类算法可采用扁平聚类，例如K-均值算法，或层次聚类，如单连接聚类、全连接聚类、质心聚类等算法。

在进一步的实施例中，当需要对特定查询的多个意图进行识别时，可对查询日志中与该查询具有相同的点击链接或出现在相同session的查询的集合进行质心聚类，取聚类结果中较大（数量较大）的多个群簇作为该查询的多个意图的体现。

根据本发明的一个实施例，还提供一种查询多意图识别系统。图2示出了该系统的一个实施例，包括预处理模块200、基于查询图信息的隐语义模型（G-PLSI）模块202，以及查询聚类模块204。

预处理模块200用于从查询日志中获取查询文本、用户点击信息，以及session信息等数据，并对这些数据进行预处理。从而获得查询的摘要文本、不同查询在同一链接的点击次数或在同一session中的共现次数。

G-PLSI模型模块202可用于模拟摘要文本的产生过程、相同查询意图下搜索不同查询时的点击链接行为，以及相同查询意图下在同一session中搜索不同查询的行为。G-PLSI模型模块202还可以用于利用EM算法、根据G-PSLI模型的概似函数对查询意图概率特征向量进行计算，得到查询意图概率特征向量的值。

其中，在EM算法的E步中利用Jensen不等式对概似函数求下界，在M步中采用拉格朗日乘法数最大化G-PLSI模型概似函数。而在另一个实施例中，在进行E步更新时，也可采用TEM算法对更新利用控制参数进行调整。通过不断进行E步和M步的迭代，直到获得最优解。

查询聚类模块204用于根据从G-PLSI模型模块获得的查询意图概率特征向量计算查询之间的相似度，并且对查询进行聚类。

其中，查询聚类模块204还包括相似度计算子模块206和聚类子模块208。

相似度计算子模块206用于利用从G-PLSI模型模块获得的查询意图概率特征向量进行查询之间的相似度的计算。例如，可采用查询意图概率特征向量之间的内积或余弦夹角进行相似度计算，或者可采用不同的度量计算查询在各意图上的相似度从而进行查询之间的相似度计算。

聚类子模块208用于利用相似度计算模块206所获得的查询相似度进行查询聚类，聚类算法可采用扁平聚类，如K-均值算法；或者层次聚类，如单连接聚类、全连接聚类、质心聚类等。在一个实施例中，取聚类结果中较大的多个群簇作为该查询的多个意图的体现。

为验证G-PLSI模型用于查询多意图识别的有效性，发明人挑选43个具有多意图的种子查询进行实验。从查询日志中获得了与这些种子查询相关的433个查询，根据每个种子查询的不同意图标注了这433个查询。获得了由91个群簇组成的标注数据，每个群簇中约包含有4到6个属于该群簇意图下的查询。图3示出了分别基于G-PLSI模型、LapPLSI模型和PLSI模型获取查询意图概率、利用公式（12）计算查询之间相似度，并采用kmeans聚类算法进行聚类的结果。其中purity代表的是聚类结果的纯度，NMI代表的是聚类结果的NMI值。从图3中可以看出，采用G-PLSI模型所得聚类结果的纯度值和NMI值均高于PLSI模型和LapPLSI模型。

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims

1.一种查询多意图识别方法，包括：

2.根据权利要求1所述的方法，步骤1）中根据G-PLSI模型计算查询意图概率特征向量包括：

采用EM算法计算G-PLSI模型概似函数的最优解，获得查询意图概率特征向量。

3.根据权利要求1所述的方法，步骤1）中根据G-PLSI模型计算查询意图概率特征向量包括：

采用TEM算法计算G-PLSI模型概似函数的最优解，获得查询意图概率特征向量。

4.根据权利要求2或3所述的方法，采用如下公式表示G-PLSI模型概似函数：

L = Σ_{i = 1}^{N} Σ_{j = 1}^{M} n (q_{i}, w_{j}) \log P (q_{i}, w_{j}) + \frac{1}{2} Σ_{i = 1}^{N} Σ_{j = 1}^{N} (λ_{s} \cdot s (q_{i}, q_{j}) + λ_{c} \cdot c (q_{i}, q_{j})) \log P (q_{i}, q_{j}),

5.根据权利要求4所述的方法，步骤1）中采用下式表示查询qi的查询意图概率特征向量：

\overset{&RightArrow;}{Q} I_{i} = [\begin{matrix} P (s_{1} | q_{i}) \\ P (s_{2} | q_{i}) \\ . . . \\ . . . \\ P (s_{K} | q_{i}) \end{matrix}],

6.根据权利要求5所述的方法，步骤2）中采用下式计算不同查询q_i与q_j的查询意图概率特征向量之间的相似度：

sim (\overset{&RightArrow;}{Q} I_{i}, \overset{&RightArrow;}{Q} I_{j}) = Σ_{k = 1}^{K} P (s_{k} | q_{i}) P (s_{k} | q_{j}) .

7.根据权利要求5所述的方法，步骤2）中采用下式计算不同查询q_i与q_j的查询意图概率特征向量之间的相似度：

sim (\overset{&RightArrow;}{Q} I_{i}, \overset{&RightArrow;}{Q} I_{j}) = \frac{Σ_{k = 1}^{K} P (s_{k} | q_{i}) P (s_{k} | q_{j})}{\sqrt{(Σ_{k = 1}^{K} P {(s_{k} | q_{i})}^{2}) (Σ_{k = 1}^{K} P {(s_{k} | q_{j})}^{2})}} .

8.根据权利要求4所述的方法，步骤1）中采用下式表示查询q_i在意图s_k上的查询意图概率特征向量：

m_{k} (\overset{&RightArrow;}{Q} I_{i}) = [\begin{matrix} n (q_{i}, w_{1}) P (s_{k} | q_{i}, w_{1}) \\ n (q_{i}, w_{2}) P (s_{k} | q_{i}, w_{2}) \\ . . . \\ . . . \\ n (q_{i}, w_{M}) P (s_{k} | q_{i}, w_{M}) \end{matrix}],

其中，s_k表示查询的意图，1≤k≤K；通过计算G-PLSI模型概似函数的最优解获得P(s_k|q_i,w_j),1≤j≤M。

9.根据权利要求8所述的方法，步骤2）中计算不同查询的查询意图概率特征向量之间的相似度包括采用下式计算不同查询q_i与q_j在不同意图上的相似度：

sim (\overset{&RightArrow;}{Q} I_{i}, \overset{&RightArrow;}{Q} I_{j}) = \frac{Σ_{k = 1}^{K} {sim}_{k} (\overset{&RightArrow;}{Q} I_{i}, \overset{&RightArrow;}{Q} I_{j})}{\sqrt{(Σ_{k = 1}^{K} {| | m_{k} (\overset{&RightArrow;}{Q} I_{i}) | |}^{2}) (Σ_{k = 1}^{K} {| | m_{k} (\overset{&RightArrow;}{Q} I_{j}) | |}^{2})}} = \frac{Σ_{k = 1}^{K} m_{k} (\overset{&RightArrow;}{Q} I_{i}) \cdot m_{k} (\overset{&RightArrow;}{Q} I_{j})}{\sqrt{(Σ_{k = 1}^{K} {| | m_{k} (\overset{&RightArrow;}{Q} I_{i}) | |}^{2}) (Σ_{k = 1}^{K} {| | m_{k} (\overset{&RightArrow;}{Q} I_{j}) | |}^{2})}} .

10.根据权利要求4所述的方法，步骤1）之前还包括：

步骤0）、获得查询的摘要文本。

11.根据权利要求10所述的方法，步骤0）中获得查询的摘要文本包括：

在查询日志中，从查询的文本内容本身获得摘要文本；

在查询日志中，从用户搜索该查询时所点击的链接获得摘要文本；

在商业搜索引擎中，从搜索该查询所得结果页面的链接中获得摘要文本。

12.根据权利要求10所述的方法，使用下式计算单词w_j在查询q_i的摘要文本中出现的次数：

n(q_i,w_j)=λ_a·n_a+λ_b·n_b+λ_c·n_c，

其中，λ_a、λ_b、λ_c为权重因子；n_a表示从查询的文本内容本身获得的摘要文本中，单词w_j出现的次数，n_b表示在查询日志中从用户搜索查询时所点击的链接获得的摘要文本中，单词w_j出现的次数；n_c表示在商业搜索引擎中搜索查询所得结果页面的链接中获得的摘要文本中，单词w_j出现的次数。

13.一种查询多意图识别系统，包括G-PLSI模型模块和查询聚类模块，其中：

所述G-PLSI模型模块用于模拟摘要文本的产生过程、相同查询意图下搜索不同查询时的点击链接行为，以及相同查询意图下在同一session中搜索不同查询的行为；并且用于计算查询意图概率特征向量，其中查询意图概率特征向量体现摘要文本信息以及不同查询在相同链接上的点击概率和在同一session中的共现概率；

所述查询聚类模块用于计算不同查询的查询意图概率特征向量之间的相似度并且根据该相似度进行查询聚类。