CN103268348A

CN103268348A - 一种用户查询意图识别方法

Info

Publication number: CN103268348A
Application number: CN2013102045290A
Authority: CN
Inventors: 熊锦华; 公帅; 程学旗; 廖华明; 王元卓
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2013-05-28
Filing date: 2013-05-28
Publication date: 2013-08-28
Anticipated expiration: 2033-05-28
Also published as: CN103268348B

Abstract

本发明提供了一种用户查询意图识别方法，包括：1）对于待识别的用户查询，将其切分为两个命名实体e1,e2和命名实体上下文ct；2）根据用户查询日志的集合和主题模型，计算用户查询中包含命名实体e1，e2和上下文ct的情况下隐含主题r的概率p(r|e1,e2,ct)，找出使得概率p(r|e1,e2,ct)最大的主题r，将该主题r作为命名实体e1,e2之间所隐含的关系；所述主题模型是用查询日志聚合文档集合训练得到的主题模型；所述查询日志聚合文档集合是将每两个命名实体在查询日志中的上下文聚合到一起，形成的关于两两命名实体组合的文档集合。本发明识别的准确率和召回率高；时间复杂度低，给搜索引擎造成的负荷较小，能够提升用户体验；特别适合于移动端的搜素或者移动终端本地的应用搜索。

Description

一种用户查询意图识别方法

技术领域

本发明涉及网络和搜索引擎应用领域，具体地说，本发明涉及一种用户查询意图识别方法。

背景技术

随着互联网规模不断增加，搜索引擎成为互联网上的重要应用系统之一。如何准确地理解用户提交到搜索引擎的查询背后的查询意图是一个非常重要的技术问题。由于搜索引擎的结果日趋复杂，搜索结果不再是简单的文档列表，而是包含应用或者是应用的运行结果内容，例如“天气预报”，“汇率转换”，“机票查询”等，以及垂直搜索引擎的结果如“微博”搜索，商品搜索的结果摘要等。因此准确理解用户的查询意图，识别用户查询中是否包含触发某个应用或者垂直搜索引擎对于改善搜索引擎的用户体验至关重要。

搜索引擎的查询意图最早提出时主要分为三类，分别是导航类，信息类，事务类。导航类是指用户期望找到某个网站的首页。信息类是指用户期望找到一些满足需求的网页，这些网页往往是内容型的，例如新闻，百科类的网页。通过阅读这些页面，用户可以得到满意的信息。事务类是指用户期望找到某个网页能够完成某项事务。例如银行转账，购买商品，查询机票信息等。随着互联网的快速发展，搜索引擎的返回结果中加入了很多应用，例如天气预报、汇率转换、交通信息查询、音乐播放器等。

现有的商业搜索引擎中通常仅使用人工编辑的规则来判断用户查询是否触发这些应用，当应用较多时，这种方案暴露出效率低下且识别的召回率低等问题，越来越难以适应应用程序不断增加的发展趋势。

由于搜索引擎的用户查询较短，文本特征稀疏，且用户查询往往具有歧义性，如何解决计算机准确识别用户的查询意图这一问题非常具有挑战性。现有的查询意图的识别方法主要采用下面两类方法来解决这一挑战问题。一类方法利用用户搜索引擎的点击日志来识别用户的查询意图（参考D,Jiang,J.Pei,H.Li,Minng Search and Browse Logs for Web Search:ASuervey,ACM Transactions on Computational Logic,2013,pp.1-42）。这类方法利用用户在查询结果页中所点击的网站或页面来识别查询意图，它可以通过所点击的网站或页面来识别信息类、导航类、事务类等粗粒度意图，在某些情形下，还可以识别少数针对特征领域的意图，例如用户查询是否包含找工作意图或者是否包含下载歌曲意图，但是单独使用这类方法无法直接识别出细粒度的意图，例如是否包含触发某特定应用的意图；同时，由于查询点击日志可能还存在稀疏性，这种方案不能覆盖长尾查询。另外一类方法通过使用用户查询的搜索结果反向判断用户查询的意图，这类方法利用搜索结果页的主题分布特征来识别用户查询意图的分布。该方法一方面识别查询意图的时间复杂度高（参考D,Jiang,J.Pei,H.Li,MinngSearch and Browse Logs for Web Search:A Suervey,ACM Transactions onComputational Logic,2013,pp.1-42），同时也给搜索引擎造成较大的负荷。

因此，当前迫切需要一种识别的准确率和召回率高且开销小的识别用户查询意图（包括是否触发某应用的意图）的解决方案。

发明内容

本发明的任务是提供一种识别的准确率和召回率高且开销小的识别用户查询意图（包括是否触发某应用的意图）的解决方案。

为实现上述发明目的，本发明提供了一种用户查询意图识别方法，包括下列步骤：

1）对于待识别的用户查询，将其切分为两个命名实体e1,e2和命名实体上下文ct；

2）根据用户查询日志的集合和主题模型，计算用户查询中包含命名实体e1，e2和上下文ct的情况下隐含主题r的概率p(r|e1,e2,ct)，找出使得概率p(r|e1,e2,ct)最大的主题r，将该主题r作为命名实体e1,e2之间所隐含的关系；其中，所述主题模型是用查询日志聚合文档集合训练得到的主题模型；所述查询日志聚合文档集合是对用户查询日志进行处理，将每两个命名实体在查询日志中的上下文聚合到一起，形成的关于两两命名实体组合的文档集合。

其中，所述步骤2）中，生成所述查询日志聚合文档集合的方法包括下列步骤：

11）将用户查询日志中的每个用户查询切分为命名实体和实体关系上下文两部分；

12）对于用户查询所关联的点击页面，查找其中包含该用户查询中的命名实体的句子，并将该句子切分为命名实体和实体关系上下文两部分；

13）用切分后的用户查询及其所关联的点击页面的相应句子构成用户查询日志集合，对用户查询日志集合中的每两个命名实体及其上下文进行聚合，形成关于两两命名实体组合的聚合文档，组成查询日志聚合文档集合。

其中，所述步骤13）还包括：标记每个命名实体所属的命名实体类型。

其中，所述步骤2）中，所述主题模型为隐含狄利克雷分配模型。

其中，所述步骤2）中，所述主题模型为基于概率的隐含语义分析模型。

其中，所述步骤2）中，所述主题模型使用变分期望最大算法估计参数。

其中，所述步骤2）还包括：在计算概率p(r|e1,e2,ct)时，当命名实体e1的命名实体类型为c_i，命名实体e2的命名实体类型为c_j时，将命名实体e1，e2及上下文ct聚合而成的文档输入所述步骤2）所训练的主题模型，得出在命名实体组合e1,e2出现的条件下文档主题为r的概率p(r|e1,e2)，在命名实体类型组合c_i,c_j出现的条件下文档主题为r的概率p(r|c_i,c_j)，以及在文档主题为r的条件下出现命名实体上下文ct的概率p(ct|r)，根据用户查询日志集合，得出两种命名实体类型c_i,c_j在查询日志的共现率p(c_i,c_j)，进而得出概率p(r|e1,e2,ct)。

其中，所述用户查询意图识别方法还包括步骤：

3）利用命名实体的类型及用户查询中隐含的命名实体关系，根据应用程序的描述文档进行匹配，并启动匹配成功的应用。

其中，步骤3）还包括：利用命名实体的类型及用户查询中隐含的命名实体关系，根据应用程序的描述文档中注册的输入参数的类型以及参数之间的约束关系进行匹配。

与现有技术相比，本发明具有下列技术效果：

1、避免了由人工定义每个应有程序的触发规则，识别的准确率和召回率高。

2、不需要使用搜索引擎的查询结果，时间复杂度低，给搜索引擎造成的负荷较小，总体开销小。

3、能够直接触发应用并将应用运行结果直接展现在搜索结果页中，进而有效减少了用户额外点击行为，特别适合于移动端的搜索或者移动终端本地的应用搜索。

附图说明

图1示出了本发明一个实施例的用户查询意图识别方法的流程图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步地描述。

根据本发明的一个实施例，提供了一种用户查询意图识别方法。和已有方法不同，本实施例利用用户查询中包含的命名实体及其之间的隐含的关系来判断用户查询中是否含有触发某个特定应用的意图，例如查询“北京，伦敦”中，其隐含的实体关系为“从…到…”，如果能够识别出这样的实体关系，搜索引擎就可以方便而准确的触发航班查询的应用，并将应用的运行结果直接显示在搜索结果页中，从而提升用户搜索体验。这种技术特别适合应用在移动终端搜索以及移动终端本身的应用搜索的场景中。

图1示出了该实施例的用户查询意图识别方法的总体流程，参考图1，该用户查询意图识别方法包括下列步骤：

步骤101：收集命名实体及其所属的命名实体类型，建立命名实体集合。命名实体是文本中具有特定意义的实体，主要包括人名、地名（例如城市名称，地理名称）、机构名、专有名词（例如歌曲名称、明星名）等。它是语言中承载信息的重要单位，在用户查询中广泛出现。本领域普通技术人员可以利用现有的命名实体识别技术，将过往用户查询中的命名实体加入命名实体集合中，并进一步对命名实体的类型进行识别和标记。命名实体类型包括“地名”类型，“人名”类型、“汽车名称”类型等等。本实施例中，可以从查询日志中识别出命名实体及其类型，从而建立命名实体集合。本实施例中，一个命名实体对应于唯一的命名实体类型，而一个命名实体类型之下可能有多个命名实体。

步骤102：使用收集好的命名实体集合将用户查询日志中的每个查询切分为命名实体和实体关系上下文两部分。

对于命名实体集合，使用其中命名实体构造前缀树结构（类似于一个快速查找的字典），然后对于每个用户查询，在构造好的前缀树中匹配命名实体。例如用户查询“北京上海航班”，从前缀树中可以匹配到“北京”和“上海”，那么这两个词就识别为了命名实体，相应的“航班”为实体上下文。也就是说，一条用户查询，若能匹配到命名实体，则用户查询中剩下的单词就构成实体关系上下文。有的查询中没有上下文，此时的上下文可记为空。

步骤103：对于用户查询所关联的点击页面，查找其中包含该用户查询中的命名实体的句子，并将该句子切分为命名实体和实体关系上下文两部分。具体地，该句子除去命名实体的部分即为命名实体关系的上下文。利用步骤102和103，即可对每个查询和它所关联的点击页面的相关句子进行切分，得到用户查询日志集合，该用户查询日志集合中记录全部的切分后的用户查询日志。

步骤104：将用户查询日志集合的每两个命名实体在查询日志中的上下文聚合到一起，形成关于两两命名实体的组合的文档，得到用户查询日志聚合文档集合。例如，查询日志中，包含命名实体“北京”，“上海”的上下文有“航班”，“高铁”，“火车”，“天气”，“旅游”等，这些单词构成了关于“北京”，“上海”命名实体的文档。

步骤105：建立和训练针对用户查询的主题模型。

主题模型又称主题发现模型。向主题模型输入一篇文档，能够得到该文档的主题分布特征。PLSA(Probabilistic Latent Semantic Analysis,基于概率的隐含语义分析),LDA（Latent Dirichlet Allocation，隐含狄利克雷分配）等都是常用的主题模型。主题模型中存在两个主要的参数，β和θ。β是一个矩阵，其中各个元素记录了某个主题条件下生成某个单词的概率。θ表示文档的主题分布特征，在本实施例中，命名实体上下文与主题模型中的单词对应，两两命名实体的组合与主题模型中的文档对应，因此，θ表示两两命名实体的组合的主题分布特征，β表示实体上下文的主题分布特征。

一个优选实施例中，使用LDA作为主题模型，但本领域技术人员易于理解，本发明也可以采用其它的主题模型。LDA模型基于词袋（bag-of-word）假设，特别适合用来处理用户查询并不构成完整句子的问题。LDA的建模过程是逆向通过文本集合建立生成模型。假设一个语料库中有若干个主题，生成某个文档时，首先随机选择某一主题；然后选择单词，选择到那些和主题相关的词的概率更高。这样就完成了一个单词的选择。不断选择N个单词，这样就组成了一篇文档。具体来说，生成一篇文档按照如下步骤：

a.选择N，N服从Poisson(ξ)分布，这里N代表文档的长度。

b.选择θ，θ服从Dirichlet(α)分布，这里θ是列向量，代表的是各主题发生的概率，α是Dirichlet分布的参数

c.对N个单词中的每一个:

c1)选择主题z_n，z_n服从Multinomial(θ)多项分布。z_n代表当前选择的主题

c2)选择w_n，根据p(w_n|z_n;β)：在z_n条件下的多项分布。

对于主题模型，利用步骤104所得的用户查询日志聚合文档集合作为训练集对其进行训练。

在一个优选实施例中，在对主题模型进行训练时，使用变分Expectation–Maximization(EM，期望最大)方法估计主题模型的参数。LDA模型的训练实际上需要计算α和β两个参数。α和β可以采用极大似然估计。针对用户查询日志聚合文档集合中的任何一个单词均有下面的似然函数

p (w | α, β) \frac{Γ (Σ_{i} α_{i})}{Π_{i} Γ ({&PartialD;}_{i})} &Integral; (Π_{i = 1}^{k} θ^{α_{i} - 1}) (Π_{n = 1}^{N} Σ_{i = 1}^{k} Π_{j = 1}^{V} {(θ_{i} β_{i, j})}^{w_{n}^{j}}) dθ

其中，用户查询日志聚合文档集合中包含的文档数量为N，单词数量为V。参数w表示文档集合的某个单词是否出现，当文档中第n个单词是序号为j的单词，则参数w_n ^j取值为1，当文档中第n个单词不是序号为j的单词，则参数w_n ^j取值为0。α为狄利克雷分布的参数，β是一个V*k维的矩阵，矩阵中的元素β_i,j表示第i个单词在第j个主题上的发生概率，k表示预先设定的主题数量。θ为一个k维的向量，其元素θ_i表示文档在第i个主题上分布的概率。

使用变分EM（期望最大，Expectation Maximization）算法，每次E-STEP(期望计算步骤)输入α和β，计算似然函数，也就是变分估计的过程，M-STEP（最大化步骤）做极大似然函数的参数估计，求出α和β（分别给定一个α和β的值，就可以计算出一个似然函数的值，极大似然函数的参数估计，就是要找出一对α和β，使得似然函数值最大）。这样不断迭代直到似然函数收敛（此时得到似然函数的下界），就求得了最终的α和β值。在此过程中，参数θ的值也同时求得。迭代过程中需要使用文档的词频向量作为变分估计的输入，来计算参数β和θ的取值。文档的词频向量可根据步骤104所得到的用户查询日志聚合文档集合得出。

步骤106：统计命名实体和命名实体类型的共现率。

具体地，对于任意两个实体ei、ej，统计在查询日志中同时包含这两个命名实体的查询个数C(ei,ej)，统计仅包含命名实体ei的查询个数C(ei)以及仅包含命名实体ej的查询个数C(ej)，终得到命名实体的共现率为

P(ei,ej)=C(ei,ej)/[C(ei)+C(ej)]

对于任意两个命名实体类型ci,cj，在查询日志中统计同时包含ci类命名实体以及cj类命名实体的查询个数，C(ci,cj)，以及仅包含ci类命名实体的查询个数C(ci)和仅包含cj类命名实体的查询个数C(cj),最终得到命名实体类型的共现率为

P(ci,cj)=C(ci,cj)/[(ci)+C(cj)]

步骤107：对待识别用户查询，将其用三元组<e1,e2,ct>表示，其中e1，e2表示命名实体，ct表示他们之间的实体上下文本。另外，用R表示命名实体e1，e2之间的关系集合。

本实施例使用概率论将识别用户查询中隐含的关系的问题形式化为如下的问题：

\underset{r &Element; R}{\arg \max} p (r | e 1, e 2, ct)

即找出使得条件概率（p(r|e1,e2,ct)）最大的关系r，这个关系r就是三元组<e1,e2,ct>所隐含的命名实体间的关系。

由于用户查询中同时包含两个命名实体的情况比较少见，上述的条件概率（p(r|e1,e2,ct)）不能直接估算出来，因此本实施例使用实体的类型和实体上下文来估计条件概率。这是因为某些实体之间的关系在某类实体的类型中比较常见，例如“交通”关系在城市名称这类命名实体较常见。同时实体之间的上下文也能够有助于识别命名实体间隐含的关系。例如用户查询“北京上海航班”中很可能隐含的关系为两个城市之间的“交通关系”。

下面求解问题：

\underset{r &Element; R}{\arg \max} p (r | e 1, e 2, ct)

其中变量r表示查询中隐含的实体关系，p(r|e1,e2,ct)表示在查询中包含命名实体e1，e2,以及实体上下文为ct的情况下隐含关系r的概率，这个概率正比于r,e1,e2,ct的联合概率分布

\underset{e 1 &Element; c_{i}, e 2 &Element; c_{j}}{Σ} p (e 1, e 2, c_{i}, c_{j}, ct, r)

c_i表示命名实体e1所属的命名实体类型，c_j表示命名实体e2所属的命名实体类型。

基于使用贝叶斯公式进行推导可以得到

p (r | e 1, e 2, ct) &Proportional; p (r, e 1, e 2, ct)

= \underset{e 1 &Element; c_{i}, e 2 &Element; c_{j}}{Σ} p (e 1, e 2, c_{i}, c_{j}, ct, r)

= p (e 1, e 2) \underset{e 1 &Element; c_{i}, e 2 &Element; c_{j}}{Σ} p (c_{i}, c_{j} | e 1, e 2) p (r | e 1, e 2, c_{i}, c_{j}) p (ct | e 1, e 2, c_{i}, c_{j}, r)

= p (e 1, e 2) \underset{e 1 &Element; c_{i}, e 2 &Element; c_{j}}{Σ} p (c_{i} . c_{j} | e 1, e 2) p (r | e 1, e 2, c_{i}, c_{j}) p (ct | r)

其中，由于实体关系上下文ct仅依赖于实体关系而非命名实体，因此可以得到p(ct|e1,e2,c_i,c_j,r)≈p(ct|r)，p(r|e1,e2,ci,cj)表示实体间关系不仅依赖于命名实体也依赖于命名实体所属的类型。p(e1,e2)可以通过计算命名实体在文档集合中的共现率获得。p(ct|r)可以使用LDA主题模型估计出，若用户查询中包含的上下文为空时，p(ct|r)=const，const表示一个预先设定的常数，大于0且小于1。由于命名实体类型包含大量的命名实体并且每个命名实体属于多个类型，本实施例假设任意两个命名实体的共现率与任意两个类型的命名实体的共现率相同。任意两个命名实体类型之间是独立的，故p(ci,cj|e1,e2)可以进行如下估计：

p(c_i,c_j|e1,e2)=p(c_i,c_j)

p(c_i,c_j)可以通过任意两种命名实体类型在查询日志的共现率计算出来。

p (r | e 1, e 2, c_{i}, c_{j}) &Proportional; p (r | e 1, e 2) p (r | c_{i}, c_{j})

= p (r | e 1, e 2) \underset{e_{k} &Element; c_{i}, e_{m} &Element; c_{j}}{Σ} p (r | e_{k}, e_{m})

p(r|e1,e2),p(r|e_k,e_m)可以从训练好的主题模型中获得，训练好的主题模型中针对每个文档包含一个主题分布向量θ,θ为一个k维的向量，向量中第i个元素表示该文档在第i个主题上分布的概率，本实施例针对每个命名实体对e1,e2构造文档来训练主题模型，主题分布向量θ就记录了e1,e2组合属于各个主题的概率分别是多少，而e1,e2之间的关系r实际上就是主题模型中的主题，所以通过主题分布向量θ可以直接得出p(r|e1,e2)。

综上所述，利用步骤105所训练的主题模型，即可得出在命名实体组合e1,e2出现的条件下文档主题为r的概率p(r|e1,e2)，在命名实体类型组合c_i,c_j出现的条件下文档主题为r的概率p(r|c_i,c_j)，两种命名实体类型c_i,c_j在查询日志的共现率p(c_i,c_j)，以及在文档主题为r的条件下出现单词ct（即命名实体上下文ct）的概率p(ct|r)，进而可以得出查询中包含命名实体e1，e2和上下文ct的情况下隐含关系r（即主题为r）的概率p(r|e1,e2,ct)的大小，从而得到当前待识别查询<e1,e2,ct>所隐含的关系

步骤108：建立应用程序的描述文档。由应用开发者注册应用程序时提供，主要的内容为应用程序的描述信息，应用程序的输入，输出参数的类型以及输入参数之间的约束关系，例如“交通”类。将应用程序的描述文档存储在数据库中供触发应用时调用。

步骤109：在识别出用户查询中隐含的实体关系后，利用命名实体的类型信息及其隐含的关系在应用程序的描述文档中逐一进行匹配。搜索引擎中应用注册时需要注册应用的输入参数的类型以及输入参数之间的约束，即参数之间符合怎样的关系。例如两个应用分别是“天气查询”和“航班查询”。“天气查询”应用注册了输入参数为唯一的城市名称，航班查询应用注册了两个输入参数，参数类型均为城市名称，参数之间的关系为“交通关系”。使用步骤107中发现的用户查询中的命名实体和实体间关系与应用程度描述匹配的过程中，若发现某个应用程序的输入参数的类型与用户查询中命名实体的类型相同并且输入参数之间的约束与用户查询中隐含的实体关系相等时，就识别出了需要触发该应用程序的查询意图。搜索引擎可以根据业务需要选择触发该应用程序，并将应用程序的运行结果在结果页中直接进行显示或者将应用程序返回由用户触发。例如用户查询“北京上海航班”中包含了两个城市名称类型的命名实体“北京”，“上海”，实体间的关系为“交通关系”，因此触发“航班查询”应用。若用户查询为“北京昌平旅游”中包含的城市名称为“北京”，“昌平”很显然不符合“交通关系”，无法触发“航班查询”应用。

在试验中，基于某商业搜索引擎连续三个月的查询日志，利用上述实施例的方案进行用户查询意图识别，从用户查询中识别出隐含的实体间关系的准确率约为90%，召回率约为70%。

最后应说明的是，以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制，本发明在应用上可以延伸为其它的修改、变化、应用和实施例，并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

Claims

1.一种用户查询意图识别方法，包括下列步骤：

2.根据权利要求1所述的用户查询意图识别方法，其特征在于，所述步骤2）中，生成所述查询日志聚合文档集合的方法包括下列步骤：

3.根据权利要求2所述的用户查询意图识别方法，其特征在于，所述步骤13）还包括：标记每个命名实体所属的命名实体类型。

4.根据权利要求3所述的用户查询意图识别方法，其特征在于，所述步骤2）中，所述主题模型为隐含狄利克雷分配模型。

5.根据权利要求3所述的用户查询意图识别方法，其特征在于，所述步骤2）中，所述主题模型为基于概率的隐含语义分析模型。

6.根据权利要求4所述的用户查询意图识别方法，其特征在于，所述步骤2）中，所述主题模型使用变分期望最大算法估计参数。

7.根据权利要求4所述的用户查询意图识别方法，其特征在于，所述步骤2）还包括：在计算概率p(r|e1,e2,ct)时，当命名实体e1的命名实体类型为c_i，命名实体e2的命名实体类型为c_j时，将命名实体e1，e2及上下文ct聚合而成的文档输入所述步骤2）所训练的主题模型，得出在命名实体组合e1,e2出现的条件下文档主题为r的概率p(r|e1,e2)，在命名实体类型组合c_i,c_j出现的条件下文档主题为r的概率p(r|c_i,c_j)，以及在文档主题为r的条件下出现命名实体上下文ct的概率p(ct|r)，根据用户查询日志集合，得出两种命名实体类型c_i,c_j在查询日志的共现率p(c_i,c_j)，进而得出概率p(r|e1,e2,ct)。

8.根据权利要求4所述的用户查询意图识别方法，其特征在于，所述用户查询意图识别方法还包括步骤：

9.根据权利要求8所述的用户查询意图识别方法，其特征在于，步骤3）还包括：利用命名实体的类型及用户查询中隐含的命名实体关系，根据应用程序的描述文档中注册的输入参数的类型以及参数之间的约束关系进行匹配。