CN103235812A - 查询多意图识别方法和系统 - Google Patents

查询多意图识别方法和系统 Download PDF

Info

Publication number
CN103235812A
CN103235812A CN2013101460370A CN201310146037A CN103235812A CN 103235812 A CN103235812 A CN 103235812A CN 2013101460370 A CN2013101460370 A CN 2013101460370A CN 201310146037 A CN201310146037 A CN 201310146037A CN 103235812 A CN103235812 A CN 103235812A
Authority
CN
China
Prior art keywords
inquiry
sigma
rightarrow
query
intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101460370A
Other languages
English (en)
Other versions
CN103235812B (zh
Inventor
程学旗
熊锦华
程舒杨
廖华明
王元卓
公帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201310146037.0A priority Critical patent/CN103235812B/zh
Publication of CN103235812A publication Critical patent/CN103235812A/zh
Application granted granted Critical
Publication of CN103235812B publication Critical patent/CN103235812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种查询多意图识别方法和系统,所述方法包括:根据G-PLSI模型计算查询意图概率特征向量,其中,G-PLSI模型用于模拟摘要文本的产生过程、相同查询意图下搜索不同查询时的点击链接行为,以及相同查询意图下在同一session中搜索不同查询的行为,查询意图概率特征向量体现摘要文本信息以及不同查询在相同链接上的点击概率和在同一session中的共现概率。所述方法还包括:计算不同查询的查询意图概率特征向量之间的相似度并且根据该相似度进行查询聚类。本发明使用的查询意图概率特征向量对查询内容和用户点击行为进行结合利用,能够更准确地反映用户搜索意图。

Description

查询多意图识别方法和系统
技术领域
本发明涉及信息检索领域,尤其涉及一种查询多意图识别方法和系统。
背景技术
在信息量不断快速增长的现代,搜索引擎成了人们获取知识和有用信息的主要途径之一。根据搜索引擎的查询日志信息统计,查询的平均长度为2.21个词,其中查询长度为1个或2个词的约占62%,查询长度长于6个词的低于4%。由于多数查询的长度较短,用户在查询中所表达的搜索意图往往是具有多义性或多需求的,比如用户在搜索“苹果”一词时,可能是指的水果,也可能是指苹果公司,也可能是指苹果公司的产品。此外,由于用户缺乏一些领域的专业知识,在进行搜索的时候很难用搜索词来明确表达自己的意思。查询多意图识别可以分析出用户搜索词的多种不同需求,利用这些不同需求的分析结果,搜索引擎可以有效地组织其搜索结果页面,给予用户根据其需求强度排序的搜索结果。如何正确理解用户的搜索意图,一直以来都是搜索引擎相关研究的重点之一。
查询聚类为搜索引擎对用户多种需求的深入理解提供了理论基础。查询聚类是指将相似的查询及其URL链接分在一个群簇中,这些群簇的标签是由其中查询和URL链接的标题、摘要、文本共同决定的。查询聚类的相关研究主要侧重相似度计算方法和聚类算法两个方面,包括基于内容的聚类、基于点击行为和session(会话)信息的聚类、综合以上三种信息的聚类等。基于内容的聚类一般通过对查询结果的URL链接中的文本内容进行聚类。基于点击和session信息的聚类包括诸如Sadikov等人提出的、结合了查询日志中的点击和session信息的聚类,通过在马尔可夫图上进行多次随机游走算法模拟用户的搜索行为,计算出每个查询在不同的文档上的吸收分布概率,利用这些概率特征之间的相似度计算不同查询之间的相似度。综合考虑内容、点击URL链接和session信息相似度的聚类包括诸如Wen等人提出的查询聚类,其综合考虑了查询内容的相似度、点击URL链接和session信息的相似度,现有的这种聚类方法仅仅通过简单的加权形式来综合计算查询不同信息的相似度,不能很好的识别用户的搜索意图。
在查询多意图识别中由于查询文本的特征较少,目前相关的研究多数集中在基于内容相似度或者基于点击或session信息的相似度进行聚类,这些方法缺乏对于用户搜索意图的考虑,不能准确区分多意图查询的各种不同意图。
发明内容
根据本发明的一个实施例,提出一种查询多意图识别方法,包括:
步骤1)、根据G-PLSI模型计算查询意图概率特征向量,其中,G-PLSI模型用于模拟摘要文本的产生过程、相同查询意图下搜索不同查询时的点击链接行为,以及相同查询意图下在同一session中搜索不同查询的行为,查询意图概率特征向量体现摘要文本信息以及不同查询在相同链接上的点击概率和在同一session中的共现概率;
步骤2)、计算不同查询的查询意图概率特征向量之间的相似度并且根据该相似度进行查询聚类。
在一个实施例中,步骤1)中根据G-PLSI模型计算查询意图概率特征向量包括:采用EM算法计算G-PLSI模型概似函数的最优解,获得查询意图概率特征向量。在另一个实施例中,步骤1)中根据G-PLSI模型计算查询意图概率特征向量包括:采用TEM算法计算G-PLSI模型概似函数的最优解,获得查询意图概率特征向量。
在一个实施例中,采用如下公式表示G-PLSI模型概似函数:
L = Σ i = 1 N Σ j = 1 M n ( q i , w j ) log P ( q i , w j ) + 1 2 Σ i = 1 N Σ j = 1 N ( λ s · s ( q i , q j ) + λ c · c ( q i , q j ) ) log P ( q i , q j ) ,
其中,n(qi,wj)为单词wj在查询qi的摘要文本中出现的次数,N为查询的个数,M为单词总个数,P(qi,wj)为查询-单词对的概率,s(qi,qj)为查询qi与查询qj相似且出现在同一session中的次数,c(qi,qj)为查询qi与查询qj在相同链接的点击次数,λc为相同链接上的点击行为在查询意图表征上的权重,λs为相同session中不同查询的共现在查询意图表征上的权重,P(qi,qj)为不同查询的查询意图相同的概率。
在一个实施例中,步骤1)中采用下式表示查询qi的查询意图概率特征向量:
Q → I i = P ( s 1 | q i ) P ( s 2 | q i ) . . . . . . P ( s K | q i ) ,
其中,sk表示查询的意图,1≤k≤K;通过计算G-PLSI模型概似函数的最优解获得P(sk|qi)。
在一个实施例中,步骤2)中采用下式计算不同查询qi与qj的查询意图概率特征向量之间的相似度:
sim ( Q → I i , Q → I j ) = Σ k = 1 K P ( s k | q i ) P ( s k | q j ) .
在另一个实施例中,步骤2)中采用下式计算不同查询qi与qj的查询意图概率特征向量之间的相似度:
sim ( Q → I i , Q → I j ) = Σ k = 1 K P ( s k | q i ) P ( s k | q j ) ( Σ k = 1 K P ( s k | q i ) 2 ) ( Σ k = 1 K P ( s k | q j ) 2 ) .
在一个实施例中,步骤1)之前还包括:
步骤0)、获得查询的摘要文本。
在进一步的实施例中,步骤0)中获得查询的摘要文本包括:在查询日志中,从查询的文本内容本身获得摘要文本;在查询日志中,从用户搜索该查询时所点击的链接获得摘要文本;在商业搜索引擎中,从搜索该查询所得结果页面的链接中获得摘要文本。
在进一步的实施例中,使用下式计算单词wj在查询qi的摘要文本中出现的次数:
n(qi,wj)=λa·nab·nbc·nc
其中,λa、λb、λc为权重因子;na表示从查询的文本内容本身获得的摘要文本中,单词wj出现的次数,nb表示在查询日志中从用户搜索查询时所点击的链接获得的摘要文本中,单词wj出现的次数;nc表示在商业搜索引擎中从搜索查询所得结果页面的链接中获得的摘要文本中,单词wj出现的次数。
根据本发明的另一个实施例,提出一种查询多意图识别系统,所述系统包括G-PLSI模型模块和查询聚类模块,其中所述G-PLSI模型模块用于模拟摘要文本的产生过程、相同查询意图下搜索不同查询时的点击链接行为,以及相同查询意图下在同一session中搜索不同查询的行为;并且用于计算查询意图概率特征向量,其中查询意图概率特征向量体现摘要文本信息以及不同查询在相同链接上的点击概率和在同一session中的共现概率;所述查询聚类模块用于计算不同查询的查询意图概率特征向量之间的相似度并且根据该相似度进行查询聚类。
采用本发明可以达到如下的有益效果:
本发明采用基于查询图信息的隐语义模型(G-PLSI)计算用户查询意图概率特征向量,该查询意图概率特征向量对于查询内容和用户点击行为进行了有效的结合利用,更准确地反映了用户搜索意图。
附图说明
此处所述的方法和系统的前述和其它目的、方面、特征和优点通过参考下述结合附图的细节描述将会更加明显并更易于理解,其中:
图1是根据本发明一个实施例的查询多意图识别方法的流程图;
图2是根据本发明一个实施例的查询多意图识别系统的框图;以及
图3是基于G-PLSI模型、LapPLSI模型和PLSI模型的聚类结果示意图。
具体实施方式
下面结合附图和具体实施方式对本发明加以说明。
图1描述了查询多意图识别方法的一个实施例,包括以下几个步骤:
步骤100、对数据进行预处理。
在一个实施例中,用于进行查询多意图识别的数据可以包括从查询日志获取的查询文本、用户点击信息,以及session(会话)信息等数据。通过对这些数据进行预处理可以获得查询的摘要文本,以及不同查询在同一链接或session中的共现次数(共同出现的次数)。
在一个实施例中,可以从以下途径获得查询的摘要文本:
a)、查询日志中,查询文本内容本身;
b)、查询日志中,用户搜索该查询时所点击的链接的标题,以及链接中的文本摘要等信息;
c)、在商业搜索引擎中,搜索该查询所得的前N条链接的标题,以及链接中的文本摘要等信息,例如,N可取值为10。
其中,查询的摘要文本可以包含以上三项中任意多项的组合,并且可以采用不同的权重来计算其词频。例如,在一个实施例中,采用途径a)获得的查询文本内容本身(摘要文本)的权重可以设置得比通过途径b)和途径c)获得的摘要文本的权重高。例如,可以用na、nb和nc分别表示来自上述不同项目的摘要文本的权重
步骤102、采用基于查询图信息的PLSI模型(简称为G-PLSI),对查询意图概率特征向量进行计算,并且利用EM算法获得最优解。
假设在步骤100获得了N个查询Q={q1,q2,...,qN},这些查询共享同一组K个查询意图S={s1,s2,...,sK},且查询的摘要文本都由包含在集合W={w1,w2,...,wM}中的单词(或者词语)组成。将每个查询的摘要文本看作是一个伪文档,那么可采用PLSI模型来模拟这些文档的产生过程:
1)、以P(qi)的概率选择一个查询qi
2)、以P(sk|qi)的概率确定该查询的意图为sk
3)、基于该查询的意图sk,以P(wj|sk)的概率产生一个单词wj
因此,查询-单词对P(qi,wj)的概率可计算如下:
P ( q i , w j ) = P ( q i ) P ( w j | q i ) = P ( q i ) Σ k = 1 K P ( w j | s k ) P ( s k | q i ) - - - ( 1 )
由此,可以得到基于查询内容的概似函数,如公式2所示:
L = Σ i = 1 N Σ j = 1 M n ( q i , w j ) log P ( q i , w j ) = Σ i = 1 N Σ j = 1 M n ( q i , w j ) log Σ k = 1 K P ( q i | s k ) P ( w j | s k ) P ( s k ) - - - ( 2 )
其中,n(qi,wj)为单词wj在查询qi的摘要文本中出现的次数。如上文所述,查询的摘要文本可以从三种不同途径获得,则可采用不同权重计算单词wj在来自不同途径的摘要文本中出现的次数:
n(qi,wj)=λa·nab·nbc·nc   (3)
其中,λa、λb、λc为权重因子。
然而,仅用查询的摘要文本信息(即查询内容)来计算查询意图概率特征向量不足以提供查询意图的所有知识。在查询日志中,用户的点击行为和session信息能够很好地补充这一知识。用户的点击行为和session信息从另一个角度反映了用户在搜索查询时的查询意图,当用户点击某一链接时,说明该链接中的信息是用户想要查看的信息,或者该链接中的信息与用户查询意图相关;而用户在同一session中搜索相似查询,往往是由于这些相似查询表达了用户的同一查询意图,或者这些相似查询表达了用户在同一查询主题上不同的需求。因而,不同查询在同一链接上有点击行为或出现在同一session中,表明了这些查询所表达的查询意图相似。
如上所述,本发明提出基于查询图信息的PLSI模型(G-PLSI模型)。该模型对查询内容、用户点击行为和session信息进行了有效的结合。
G-PLSI模型可用于模拟用户在相同的查询意图下搜索不同查询时产生了相同的点击行为(仍基于上述假设):
1)、以P(sk)的概率选择用户的查询意图sk
2)、在查询意图sk下,用户A1以P(qi|sk)的概率搜索了查询qi,并点击了一个链接u’;
3)、在查询意图sk下,用户A2以P(qj|sk)的概率搜索了查询qj,并点击了该相同的链接u’。
同样,可采用G-PLSI模型来模拟用户在相同的查询意图下在同一session中搜索了不同的查询,其产生的过程如下:
1)、以P(sk)的概率选择用户的查询意图sk
2)、用户在查询意图sk下以P(qi|sk)的概率搜索了查询qi
3)、在同一session中,用户在查询意图sk下以P(qj|sk)的概率搜索了另一查询qj
可以将不同查询在相同链接上的点击记录和不同查询出现在同一session中的共现次数来表征不同查询出现同一查询意图,因而,可以通过不同查询在相同链接上的点击概率和出现在同一session中的共现概率,来计算不同查询的查询意图相同的概率,计算公式如下:
P ( q i , q j ) = Σ k = 1 K P ( q i | s k ) P ( q j | s k ) P ( s k ) - - - ( 4 )
由此,结合上文中描述的基于查询内容的概似函数,可以得到G-PSLI模型(基于查询内容和用户行为)的概似函数,如公式5所示:
L = Σ i = 1 N Σ j = 1 M n ( q i , w j ) log P ( q i , w j ) + 1 2 Σ i = 1 N Σ j = 1 N ( λ s · s ( q i , q j ) + λ c · c ( q i , q j ) ) log P ( q i , q j ) - - - ( 5 )
其中n(qi,wj)为单词wj在查询qi的摘要文本中出现的次数,P(qi,wj)为查询-单词对的概率,s(qi,qj)为查询qi与查询qj相似且出现在同一session中的次数,c(qi,qj)为查询qi与查询qj在相同链接的点击次数,λc为相同链接上的点击行为在查询意图表征上的权重,λs为相同session中不同查询的共现在查询意图表征上的权重。
在一个实施例中,可采用EM算法来计算上述G-PLSI模型概似函数的最优解,从而得到查询意图概率特征向量的值,在E步中利用Jensen不等式对概似函数求下界,可得:
P ( s k | q i , w j ) = P ( q i | s k ) P ( w j | s k ) P ( s k ) Σ k = 1 K P ( q i | s k ) P ( w j | s k ) P ( s k ) - - - ( 6 )
P ( s k | q i , q j ) = P ( q i | s k ) P ( q j | s k ) P ( s k ) Σ k = 1 K P ( q i | s k ) P ( q j | s k ) P ( s k ) - - - ( 7 )
在M步中采用拉格朗日乘法数最大化G-PLSI模型概似函数,可得:
P ( s k ) = Σ i = 1 N Σ j = 1 M n ( q i , w j ) P ( s k | q i , w j ) Σ i = 1 N Σ j = 1 M n ( q i , w j ) - - - ( 8 )
P ( q i | s k ) = Σ j = 1 M n ( q i , w j ) P ( s k | q i , w j ) + Σ j = 1 N ( λ s · s ( q i , q j ) + λ c · ( q i , q j ) ) P ( s k | q i , q j ) Σ i = 1 N Σ j = 1 M n ( q i , w i ) P ( s k | q i , w j ) + Σ i = 1 N Σ j = 1 N ( λ s · s ( q i , q j ) + λ c · c ( q i , q j ) ) P ( s k | q i , q j ) - - - ( 9 )
P ( w j | s k ) = Σ i = 1 N n ( q i , w j ) P ( s k | q i , w j ) Σ i = 1 N Σ j = 1 M n ( q i , w j ) P ( s k | q i , w j ) - - - ( 10 )
需要说明的是,在另一个实施例中,在进行E步更新时,也可采用TEM算法对更新利用控制参数进行调整。可以不断地进行E步和M步的迭代,直到获得最优解。在获得最优解的同时可以获得查询意图概率特征向量的值,即在一个实施例中,对于查询qi,其查询意图概率特征向量:
Q → I i = P ( s 1 | q i ) P ( s 2 | q i ) . . . . . . P ( s K | q i ) 的值。
步骤104、利用步骤102中获得的查询意图概率特征向量进行查询之间的相似度计算。
由步骤102可获得查询意图概率特征向量,对于查询qi其查询意图概率特征向量可以为 Q → I i = P ( s 1 | q i ) P ( s 2 | q i ) . . . . . . P ( s K | q i ) . 此外,根据步骤102还可以获得{P(sk|qi,wj)}、{P(wi|sk)}等概率分布。
在一个实施例中,可利用向量之间的内积来计算查询意图概率特征向量的相似度,如公式11所示:
sim ( Q → I i , Q → I j ) = Σ k = 1 K P ( s k | q i ) P ( s k | q i ) - - - ( 11 )
在另一个实施例中,可考虑向量的归一化,使用两个向量夹角的余弦值来计算相似度,如公式12所示:
sim ( Q → I i , Q → I j ) = Σ k = 1 K P ( s k | q i ) P ( s k | q j ) ( Σ k = 1 K P ( s k | q i ) 2 ) ( Σ k = 1 K P ( s k | q j ) 2 ) - - - ( 12 )
在进一步的实施例中,可采用不同的度量并利用余弦相似度进行查询在不同的意图上的综合相似度的计算:
sim ( Q → I i , Q → I j ) = Σ k = 1 K sim k ( Q → I i , Q → I j ) ( Σ k = 1 K | | m k ( Q → I i ) | | 2 ) ( Σ k = 1 K | | m k ( Q → I j ) | | 2 ) = Σ k = 1 K m k ( Q → I i ) · m k ( Q → I j ) ( Σ k = 1 K | | m k ( Q → I i ) | | 2 ) ( Σ k = 1 K | | m k ( Q → I j ) | | 2 ) - - - ( 13 )
其中,
Figure BDA00003096181300095
是查询在第k个意图上的查询意图特征向量,可表示如下:
m k ( Q → I i ) = n ( q i , w 1 ) P ( s k | q i , w 1 ) n ( q i , w 2 ) P ( s k | q i , w 2 ) . . . . . . n ( q i , w M ) P ( s k | q i , w M )
步骤106、对查询进行聚类
在一个实施例中,查询聚类算法可采用扁平聚类,例如K-均值算法,或层次聚类,如单连接聚类、全连接聚类、质心聚类等算法。
在进一步的实施例中,当需要对特定查询的多个意图进行识别时,可对查询日志中与该查询具有相同的点击链接或出现在相同session的查询的集合进行质心聚类,取聚类结果中较大(数量较大)的多个群簇作为该查询的多个意图的体现。
根据本发明的一个实施例,还提供一种查询多意图识别系统。图2示出了该系统的一个实施例,包括预处理模块200、基于查询图信息的隐语义模型(G-PLSI)模块202,以及查询聚类模块204。
预处理模块200用于从查询日志中获取查询文本、用户点击信息,以及session信息等数据,并对这些数据进行预处理。从而获得查询的摘要文本、不同查询在同一链接的点击次数或在同一session中的共现次数。
G-PLSI模型模块202可用于模拟摘要文本的产生过程、相同查询意图下搜索不同查询时的点击链接行为,以及相同查询意图下在同一session中搜索不同查询的行为。G-PLSI模型模块202还可以用于利用EM算法、根据G-PSLI模型的概似函数对查询意图概率特征向量进行计算,得到查询意图概率特征向量的值。
其中,在EM算法的E步中利用Jensen不等式对概似函数求下界,在M步中采用拉格朗日乘法数最大化G-PLSI模型概似函数。而在另一个实施例中,在进行E步更新时,也可采用TEM算法对更新利用控制参数进行调整。通过不断进行E步和M步的迭代,直到获得最优解。
查询聚类模块204用于根据从G-PLSI模型模块获得的查询意图概率特征向量计算查询之间的相似度,并且对查询进行聚类。
其中,查询聚类模块204还包括相似度计算子模块206和聚类子模块208。
相似度计算子模块206用于利用从G-PLSI模型模块获得的查询意图概率特征向量进行查询之间的相似度的计算。例如,可采用查询意图概率特征向量之间的内积或余弦夹角进行相似度计算,或者可采用不同的度量计算查询在各意图上的相似度从而进行查询之间的相似度计算。
聚类子模块208用于利用相似度计算模块206所获得的查询相似度进行查询聚类,聚类算法可采用扁平聚类,如K-均值算法;或者层次聚类,如单连接聚类、全连接聚类、质心聚类等。在一个实施例中,取聚类结果中较大的多个群簇作为该查询的多个意图的体现。
为验证G-PLSI模型用于查询多意图识别的有效性,发明人挑选43个具有多意图的种子查询进行实验。从查询日志中获得了与这些种子查询相关的433个查询,根据每个种子查询的不同意图标注了这433个查询。获得了由91个群簇组成的标注数据,每个群簇中约包含有4到6个属于该群簇意图下的查询。图3示出了分别基于G-PLSI模型、LapPLSI模型和PLSI模型获取查询意图概率、利用公式(12)计算查询之间相似度,并采用kmeans聚类算法进行聚类的结果。其中purity代表的是聚类结果的纯度,NMI代表的是聚类结果的NMI值。从图3中可以看出,采用G-PLSI模型所得聚类结果的纯度值和NMI值均高于PLSI模型和LapPLSI模型。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims (13)

1.一种查询多意图识别方法,包括:
步骤1)、根据G-PLSI模型计算查询意图概率特征向量,其中,G-PLSI模型用于模拟摘要文本的产生过程、相同查询意图下搜索不同查询时的点击链接行为,以及相同查询意图下在同一session中搜索不同查询的行为,查询意图概率特征向量体现摘要文本信息以及不同查询在相同链接上的点击概率和在同一session中的共现概率;
步骤2)、计算不同查询的查询意图概率特征向量之间的相似度并且根据该相似度进行查询聚类。
2.根据权利要求1所述的方法,步骤1)中根据G-PLSI模型计算查询意图概率特征向量包括:
采用EM算法计算G-PLSI模型概似函数的最优解,获得查询意图概率特征向量。
3.根据权利要求1所述的方法,步骤1)中根据G-PLSI模型计算查询意图概率特征向量包括:
采用TEM算法计算G-PLSI模型概似函数的最优解,获得查询意图概率特征向量。
4.根据权利要求2或3所述的方法,采用如下公式表示G-PLSI模型概似函数:
L = Σ i = 1 N Σ j = 1 M n ( q i , w j ) log P ( q i , w j ) + 1 2 Σ i = 1 N Σ j = 1 N ( λ s · s ( q i , q j ) + λ c · c ( q i , q j ) ) log P ( q i , q j ) ,
其中,n(qi,wj)为单词wj在查询qi的摘要文本中出现的次数,N为查询的个数,M为单词总个数,P(qi,wj)为查询-单词对的概率,s(qi,qj)为查询qi与查询qj相似且出现在同一session中的次数,c(qi,qj)为查询qi与查询qj在相同链接的点击次数,λc为相同链接上的点击行为在查询意图表征上的权重,λs为相同session中不同查询的共现在查询意图表征上的权重,P(qi,qj)为不同查询的查询意图相同的概率。
5.根据权利要求4所述的方法,步骤1)中采用下式表示查询qi的查询意图概率特征向量:
Q → I i = P ( s 1 | q i ) P ( s 2 | q i ) . . . . . . P ( s K | q i ) ,
其中,sk表示查询的意图,1≤k≤K;通过计算G-PLSI模型概似函数的最优解获得P(sk|qi)。
6.根据权利要求5所述的方法,步骤2)中采用下式计算不同查询qi与qj的查询意图概率特征向量之间的相似度:
sim ( Q → I i , Q → I j ) = Σ k = 1 K P ( s k | q i ) P ( s k | q j ) .
7.根据权利要求5所述的方法,步骤2)中采用下式计算不同查询qi与qj的查询意图概率特征向量之间的相似度:
sim ( Q → I i , Q → I j ) = Σ k = 1 K P ( s k | q i ) P ( s k | q j ) ( Σ k = 1 K P ( s k | q i ) 2 ) ( Σ k = 1 K P ( s k | q j ) 2 ) .
8.根据权利要求4所述的方法,步骤1)中采用下式表示查询qi在意图sk上的查询意图概率特征向量:
m k ( Q → I i ) = n ( q i , w 1 ) P ( s k | q i , w 1 ) n ( q i , w 2 ) P ( s k | q i , w 2 ) . . . . . . n ( q i , w M ) P ( s k | q i , w M ) ,
其中,sk表示查询的意图,1≤k≤K;通过计算G-PLSI模型概似函数的最优解获得P(sk|qi,wj),1≤j≤M。
9.根据权利要求8所述的方法,步骤2)中计算不同查询的查询意图概率特征向量之间的相似度包括采用下式计算不同查询qi与qj在不同意图上的相似度:
sim ( Q → I i , Q → I j ) = Σ k = 1 K sim k ( Q → I i , Q → I j ) ( Σ k = 1 K | | m k ( Q → I i ) | | 2 ) ( Σ k = 1 K | | m k ( Q → I j ) | | 2 ) = Σ k = 1 K m k ( Q → I i ) · m k ( Q → I j ) ( Σ k = 1 K | | m k ( Q → I i ) | | 2 ) ( Σ k = 1 K | | m k ( Q → I j ) | | 2 ) .
10.根据权利要求4所述的方法,步骤1)之前还包括:
步骤0)、获得查询的摘要文本。
11.根据权利要求10所述的方法,步骤0)中获得查询的摘要文本包括:
在查询日志中,从查询的文本内容本身获得摘要文本;
在查询日志中,从用户搜索该查询时所点击的链接获得摘要文本;
在商业搜索引擎中,从搜索该查询所得结果页面的链接中获得摘要文本。
12.根据权利要求10所述的方法,使用下式计算单词wj在查询qi的摘要文本中出现的次数:
n(qi,wj)=λa·nab·nbc·nc
其中,λa、λb、λc为权重因子;na表示从查询的文本内容本身获得的摘要文本中,单词wj出现的次数,nb表示在查询日志中从用户搜索查询时所点击的链接获得的摘要文本中,单词wj出现的次数;nc表示在商业搜索引擎中搜索查询所得结果页面的链接中获得的摘要文本中,单词wj出现的次数。
13.一种查询多意图识别系统,包括G-PLSI模型模块和查询聚类模块,其中:
所述G-PLSI模型模块用于模拟摘要文本的产生过程、相同查询意图下搜索不同查询时的点击链接行为,以及相同查询意图下在同一session中搜索不同查询的行为;并且用于计算查询意图概率特征向量,其中查询意图概率特征向量体现摘要文本信息以及不同查询在相同链接上的点击概率和在同一session中的共现概率;
所述查询聚类模块用于计算不同查询的查询意图概率特征向量之间的相似度并且根据该相似度进行查询聚类。
CN201310146037.0A 2013-04-24 2013-04-24 查询多意图识别方法和系统 Active CN103235812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310146037.0A CN103235812B (zh) 2013-04-24 2013-04-24 查询多意图识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310146037.0A CN103235812B (zh) 2013-04-24 2013-04-24 查询多意图识别方法和系统

Publications (2)

Publication Number Publication Date
CN103235812A true CN103235812A (zh) 2013-08-07
CN103235812B CN103235812B (zh) 2015-04-01

Family

ID=48883853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310146037.0A Active CN103235812B (zh) 2013-04-24 2013-04-24 查询多意图识别方法和系统

Country Status (1)

Country Link
CN (1) CN103235812B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927328A (zh) * 2014-03-18 2014-07-16 清华大学 查询意图挖掘的方法和系统
CN106489148A (zh) * 2016-06-29 2017-03-08 深圳狗尾草智能科技有限公司 一种基于用户画像的意图场景识别方法及系统
CN107357516A (zh) * 2017-07-10 2017-11-17 南京邮电大学 一种基于隐马尔可夫模型的手势查询意图预测方法
CN107885817A (zh) * 2017-11-06 2018-04-06 余帝乾 一种基于大数据网络用户行为的方法和装置
CN108437916A (zh) * 2017-02-16 2018-08-24 通用汽车环球科技运作有限责任公司 用于通过语音输入进行多意图查询的车辆控制系统和方法
CN109635105A (zh) * 2018-10-29 2019-04-16 厦门快商通信息技术有限公司 一种中文文本多意图识别方法及系统
CN109783608A (zh) * 2018-12-20 2019-05-21 出门问问信息科技有限公司 目标假设的确定方法、装置、可读存储介质和电子设备
CN112905893A (zh) * 2021-03-22 2021-06-04 北京百度网讯科技有限公司 搜索意图识别模型的训练方法、搜索意图识别方法及装置
CN113486252A (zh) * 2021-07-30 2021-10-08 北京字节跳动网络技术有限公司 搜索结果展示方法、装置、设备和介质
CN113836275A (zh) * 2020-06-08 2021-12-24 菜鸟智能物流控股有限公司 对话模型建立方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033142B (zh) * 2018-06-11 2021-02-12 腾讯科技(深圳)有限公司 一种数据处理方法、装置及服务器

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254039A (zh) * 2011-08-11 2011-11-23 武汉安问科技发展有限责任公司 一种基于搜索引擎的网络搜索方法
CN102567408A (zh) * 2010-12-31 2012-07-11 阿里巴巴集团控股有限公司 推荐搜索关键词的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567408A (zh) * 2010-12-31 2012-07-11 阿里巴巴集团控股有限公司 推荐搜索关键词的方法和装置
CN102254039A (zh) * 2011-08-11 2011-11-23 武汉安问科技发展有限责任公司 一种基于搜索引擎的网络搜索方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
何婷婷等: "《基于主题词对的文档重排方法》", 《第三届学生计算语言学研讨会论文集》 *
王奕: "《基于概率潜在语义分析的中文文本分类研究》", 《甘肃联合大学学报》 *
白露等: "《基于查询意图的长尾查询推荐》", 《计算机学报》 *
陈晓明: "《概率潜在语义模型综述》", 《现代商贸工业》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927328B (zh) * 2014-03-18 2017-04-19 清华大学 查询意图挖掘的方法和系统
CN103927328A (zh) * 2014-03-18 2014-07-16 清华大学 查询意图挖掘的方法和系统
CN106489148A (zh) * 2016-06-29 2017-03-08 深圳狗尾草智能科技有限公司 一种基于用户画像的意图场景识别方法及系统
CN108437916A (zh) * 2017-02-16 2018-08-24 通用汽车环球科技运作有限责任公司 用于通过语音输入进行多意图查询的车辆控制系统和方法
CN108437916B (zh) * 2017-02-16 2021-06-01 通用汽车环球科技运作有限责任公司 用于通过语音输入进行多意图查询的车辆控制系统和方法
CN107357516B (zh) * 2017-07-10 2019-10-01 南京邮电大学 一种基于隐马尔可夫模型的手势查询意图预测方法
CN107357516A (zh) * 2017-07-10 2017-11-17 南京邮电大学 一种基于隐马尔可夫模型的手势查询意图预测方法
CN107885817A (zh) * 2017-11-06 2018-04-06 余帝乾 一种基于大数据网络用户行为的方法和装置
CN109635105A (zh) * 2018-10-29 2019-04-16 厦门快商通信息技术有限公司 一种中文文本多意图识别方法及系统
CN109783608A (zh) * 2018-12-20 2019-05-21 出门问问信息科技有限公司 目标假设的确定方法、装置、可读存储介质和电子设备
CN109783608B (zh) * 2018-12-20 2021-01-05 出门问问信息科技有限公司 目标假设的确定方法、装置、可读存储介质和电子设备
CN113836275A (zh) * 2020-06-08 2021-12-24 菜鸟智能物流控股有限公司 对话模型建立方法及装置
CN113836275B (zh) * 2020-06-08 2023-09-05 菜鸟智能物流控股有限公司 对话模型建立方法、装置、非易失性存储介质和电子装置
CN112905893A (zh) * 2021-03-22 2021-06-04 北京百度网讯科技有限公司 搜索意图识别模型的训练方法、搜索意图识别方法及装置
CN112905893B (zh) * 2021-03-22 2024-01-12 北京百度网讯科技有限公司 搜索意图识别模型的训练方法、搜索意图识别方法及装置
CN113486252A (zh) * 2021-07-30 2021-10-08 北京字节跳动网络技术有限公司 搜索结果展示方法、装置、设备和介质

Also Published As

Publication number Publication date
CN103235812B (zh) 2015-04-01

Similar Documents

Publication Publication Date Title
CN103235812B (zh) 查询多意图识别方法和系统
CN102073730B (zh) 一种主题网络爬虫系统的构建方法
CN101751455B (zh) 采用人工智能技术自动产生标题的方法
Selvakuberan et al. Feature selection for web page classification
CN104376406A (zh) 一种基于大数据的企业创新资源管理与分析系统和方法
CN102663022B (zh) 一种基于url的分类识别方法
CN102682001A (zh) 一种确定推荐词的方法及设备
CN103870505A (zh) 一种查询词推荐方法和查询词推荐系统
CN101097570A (zh) 一种自动识别分类广告类型的广告分类方法
CN1996316A (zh) 基于网页相关性的搜索引擎搜索方法
CN102012915A (zh) 一种文档共享平台的关键词推荐方法及系统
CN102289514B (zh) 社会标签自动标注的方法以及社会标签自动标注器
CN102968419A (zh) 交互式互联网实体名称的消歧方法
CN102915381A (zh) 基于多维语义的可视化网络检索呈现系统及呈现控制方法
CN101763395A (zh) 采用人工智能技术自动生成网页的方法
CN101814085A (zh) 基于wdb特征和用户查询请求的web数据库选择方法
Jin et al. Ranking refinement and its application to information retrieval
Zhu et al. Information retrieval using Hellinger distance and sqrt-cos similarity
CN117874347A (zh) 一种基于业务特征的内容推荐技术
CN102063474A (zh) 基于语义相关的XML关键字top-k查询方法
Xiao A Survey of Document Clustering Techniques & Comparison of LDA and moVMF
CN108334573A (zh) 基于聚类信息的高相关微博检索方法
Guan et al. Research and design of internet public opinion analysis system
CN102289502A (zh) 一种基于高频字图模型的Deep Web数据爬取方法
Song et al. Searchable web sites recommendation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20130807

Assignee: Branch DNT data Polytron Technologies Inc

Assignor: Institute of Computing Technology, Chinese Academy of Sciences

Contract record no.: 2018110000033

Denomination of invention: Method and system for identifying multiple query intents

Granted publication date: 20150401

License type: Common License

Record date: 20180807