CN103870592A - 综合语义和时效性意图对检索结果进行多样化的方法 - Google Patents

综合语义和时效性意图对检索结果进行多样化的方法 Download PDF

Info

Publication number
CN103870592A
CN103870592A CN201410123319.3A CN201410123319A CN103870592A CN 103870592 A CN103870592 A CN 103870592A CN 201410123319 A CN201410123319 A CN 201410123319A CN 103870592 A CN103870592 A CN 103870592A
Authority
CN
China
Prior art keywords
inquiry
intention
ageing
retrieval
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410123319.3A
Other languages
English (en)
Other versions
CN103870592B (zh
Inventor
陈竹敏
任鹏杰
马军
吴凯
隋雪芹
宋晓萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201410123319.3A priority Critical patent/CN103870592B/zh
Publication of CN103870592A publication Critical patent/CN103870592A/zh
Application granted granted Critical
Publication of CN103870592B publication Critical patent/CN103870592B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了综合语义和时效性意图对检索结果进行多样化的方法;步骤如下:接收用户的查询;采用查询时效性分类算法判断查询属于没有时间意图的查询QoT、仅有一个查询量突起的查询OQ、有多个查询量突起且突起之间没有周期性的查询AMQ和有多个查询量突起且突起之间有周期性的查询PMQ中的哪一类,若该查询属于QoT类就进入步骤(3-1);若该查询属于OQ、AMQ、PMQ三类中的一类,就进入步骤(3-2);(3-1):仅考虑语义意图对检索结果进行多样化;(3-2):计算P(t|q)并同时考虑语义意图和时效性意图对检索结果进行多样化;将多样化的检索结果输出;本发明有效地建模查询动态性,通过考虑查询的时效性特征来提升信息检索系统的性能,改善用户的搜索体验。

Description

综合语义和时效性意图对检索结果进行多样化的方法
技术领域
本发明涉及信息检索领域,具体地说是一种综合语义和时效性意图对检索结果进行多样化的方法。
背景技术
随着大数据时代的到来,信息量越来越丰富,信息需求越来越复杂,信息检索系统如何利用有限的空间满足用户的不同信息需求变得异常重要。而结果的多样化作为一种最有效的解决方案近来受到企业界和学术界的普遍关注。
之所以要对信息检索结果进行多样化的主要原因包括:
(1)大多查询存在歧义性、模糊性和多义性。一个典型的代表查询是“苹果”。它既可以代表一种水果,也可以代表苹果公司或者其电子产品。对这种查询用户希望返回多样化的结果,因为搜索引擎不知道用户的具体需求。
(2)用户的信息需求具有不确定性、浏览性,并且因人而异。也就是说即使是同一个查询,不同用户的信息需求也是不同的。比如同样是查询“猪流感”,医务人员可能更关注猪流感的病理、病因等专业方面的信息,而普通大众则可能更关注猪流感的传播等新闻信息。
(3)Web是一个动态的信息空间,其中的内容不断变化。用户查询也是时间敏感的,即用户的查询意图随时间而变化。比如同样是查询“地震”,在地震发生不久时用户的查询意图与地震过后的查询意图存在很大区别。
(4)大数据时代造成了大量可用信息的存在,因此需要信息检索系统在提供检索结果时需要尽量避免冗余信息,并保证新颖性和多样性。
任何事物都不是一成不变的,互联网更是如此,网络信息日新月异。因此,对于信息检索系统来说,时效性是一个很重要的因素。然而,传统的检索结果多样化方法只是考虑查询的语义意图进行多样化,比如经典的MMR模型、xQuAD模型、IA-Select模型等,这样,难以捕捉查询的动态性,不能有效地利用查询的时效性特征来改善信息检索系统的性能。
发明内容
本发明的目的就是为了解决上述问题,提供了一种综合语义和时效性意图对检索结果进行多样化的方法,该方法可以有效地建模查询的动态性,通过考虑查询的时效性特征来提升信息检索系统的性能,改善用户的搜索体验,提高用户满意度。
为了实现上述目的,本发明采用如下技术方案:
一种综合语义和时效性意图对检索结果进行多样化的方法,步骤如下:
步骤(1):接收用户的查询;
步骤(2):采用查询时效性分类算法判断查询属于
没有时间意图的查询QoT(Query without Time intent)、
仅有一个查询量突起的查询OQ(One spike Query)、
有多个查询量突起且突起之间没有周期性的查询AMQ(Aperiodic Multi-spike Query)和
有多个查询量突起且突起之间有周期性的查询PMQ(Periodic Multi-spike Query)
中的哪一类,若该查询属于QoT类就进入步骤(3-1);若该查询属于OQ、AMQ、PMQ三类中的一类,就进入步骤(3-2);
步骤(3-1):仅考虑语义意图对检索结果进行多样化;
步骤(3-2):计算P(t|q)并同时考虑语义意图和时效性意图对检索结果进行多样化;
步骤(4):将多样化的检索结果输出。
所述步骤(3-1)的计算公式为:
P ( S | q ) = Σ z ∈ Z P ( z , S | q , t ) = Σ z ∈ Z P ( z | q ) P ( S | z , q ) ∝ Σ z ∈ Z P ( z | q ) ( 1 - Π d ∈ s ( 1 - P ( d | z , q ) ) ) - - - ( 1 )
其中,S为检索结果文档;q为给定查询;Z为给定查询q的子主题集合;d为一篇文档。
所述公式(1)中,根据条件独立性假设,P(d|q,t,z)进一步展开为:
P ( d | z , q ) = P ( c d | q , z ) ∝ P ( c d | q ) P ( c d | z ) - - - ( 2 )
其中,cd代表文档d的文本内容。
所述步骤(3-2)的计算公式为:
P ( S | q ) = Σ t ∈ T P ( t | q ) P ( S | q , t ) = Σ t ∈ T P ( t | q ) Σ z ∈ Z P ( z , S | q , t ) = Σ t ∈ T P ( t | q ) Σ z ∈ Z P ( z | q ) P ( S | z , q , t ) ∝ Σ t ∈ T P ( t | q ) Σ z ∈ Z P ( z | q ) ( 1 - Π d ∈ s ( 1 - P ( d | z , q , t ) ) ) - - - ( 3 )
其中,T为时间单元的集合。
所述公式(3)中,根据条件独立性假设,P(d|q,t,z)进一步展开为:
P ( d | q , t , z ) = P ( c d , t d | q , t , z ) = P ( c d | q , z ) P ( t d | t ) ∝ P ( c d | q ) P ( c d | z ) P ( t d | t ) - - - ( 4 )
其中,t代表某个时间单元;td代表文档d的发布时间。
所述公式(2)和(4)中,P(cd|q)是用于衡量文档d与查询q的语义相关度,其计算方式如下:
P ( c d | q ) = SIM ( c d , q ) max d ′ ∈ D SIM ( c d ′ , q ) - - - ( 5 )
其中,SIM(cd,q)是任意一种文档d与查询q的文本相关度计算方法,比如Cosine距离。
所述公式(2)和(4)中,P(cd|z)计算方式与P(cd|q)相似,用于衡量文档d与子主题z的语义相关度。
所述公式(4)中,P(td|t)衡量文档的发布时间td与查询的时效性意图t的相关度。使用Sigmoid函数作为时间衰减函数来计算P(td|t)。
P ( t d | t ) = 1 1 + e - ω + | t - t d | - - - ( 6 )
其中,ω为模型参数,用于控制时间衰减的速度。
所述公式(1)和(3)中,P(z|q)是子主题z的重要性。某个子主题与用户的查询意图越相关,该子主题的P(z|q)应该更大。在没有任何先验知识的情况下,可以用均匀分布来建模P(z|q)的分布,即:
P ( z | q ) = 1 | Z | - - - ( 7 ) .
所述公式(3)中,P(t|q)的计算方式,分三种情况:
第一种是基于文档估计方法,P(t|q)计算公式为:
P ( t | q ) ≈ Σ d ∈ D k P ( t | d ) P ( d | q ) Σ d ′ ∈ D k P ( d ′ | q ) - - - ( 8 )
其中,Dk是与查询q相关的前k个相关文档组成的集合.如果文档d的发布时间属于查询时效性意图t,那么P(t|d)=1;否则P(t|d)=0。
第二种是基于词的估计方法,P(t|q)计算公式为:
P ( t | q ) ∝ P ( q | t ) ≈ Π w ∈ q P ( w | t ) - - - ( 9 )
其中,P(w|t)是在时间单元t生成词w的概率,可以用词w在时间单元t的频率来估计。
第三种是结合查询日志和词的估计方法,P(t|q)计算公式为:
P ( t | q ) = P ( t ) P ( c q , f q , t q | t ) = P ( t ) P ( c q | t ) P ( f q | t ) P ( t q | t ) ∝ P ( t ) ( Π w ∈ q P ( w | t ) ) P ( f q | t ) 1 1 + e - ω + | t - t q | - - - ( 10 )
其中,cq代表查询的内容,即词的集合;fq代表查询的查询频率;tq代表查询的提交时间;P(t)为时间单元t的重要性,在无其他先验知识的情况下,可以用均匀分布来估计;P(fq|t)为查询q在时间单元t的查询频数。
本发明的有益效果:
本发明旨在对用户意图不是很明确的查询,尤其是时效性不是很明确的查询提供一个多样化的检索结果。现有的搜索引擎仍然是基于关键词的检索,当用户提交一个很简短的查询词时,搜索引擎难以准确捕捉用户检索的语义意图和时效性意图,在这种情况下,给用户返回一个多样化的检索结果是很有必要的。例如,当用户检索“地震”时,其语义意图可能是地震事件或者地震相关知识,而时效性意图可能是某一次地震发生前、发生时、发生后甚至没有时间要求。本发明对于这种情况,能够综合考虑语义维度和时效性维度来进行检索结果的多样化。本发明相对于传统的多样化方法,在信息检索多样化领域的各个评测指标上都有很大的提升,因此有效地改善信息检索的性能,提升用户的搜索体验。
附图说明
图1为本发明的整体流程图;
图2为查询的时效性类别分类图;
图3(a)为查询“Haiti earthquake”的查询频率曲线;
图3(b)为查询“earthquake”的查询频率曲线;
图3(c)为查询“Christmas present”的查询频率曲线;
图4为本发明的概率图模型;
图5为本发明的应用举例。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
当一个用户提交一个查询时,首先应用Ren P,Chen Z,Song X,et al.UnderstandingTemporal Intent of User Query Based on Time-Based Query Classification[M]//Natural LanguageProcessing and Chinese Computing.Springer Berlin Heidelberg,2013:334-345.一文中的分类算法判断该查询的时效性类别。然后,若该查询属于QoT类,则仅考虑语义意图对检索结果进行多样化,若该查询属于其他三类,则应用本发明对检索结果进行多样化。具体的应用流程见图1:
步骤(1):接收用户的查询;
步骤(2):应用Ren P,Chen Z,Song X,et al.Understanding Temporal Intent of User QueryBased on Time-Based Query Classification.[M]//Natural Language Processing and ChineseComputing.Springer Berlin Heidelberg,2013:334-345.一文中的分类算法判断查询(如图2所示)属于QoT(Query without Time intent,没有时间意图的查询)、OQ(One spike Query,仅有一个查询量突起的查询)、AMQ(Aperiodic Multi-spike Query,有多个查询量突起且突起之间没有周期性的查询)和PMQ(Periodic Multi-spike Query,有多个查询量突起且突起之间有周期性的查询)中的哪一类,若该查询属于QoT类就进入步骤(3-1);若该查询属于OQ、AMQ、PMQ三类中的一类,就进入步骤(3-2);
步骤(3-1):仅考虑语义意图对检索结果进行多样化;
步骤(3-2):计算P(t|q)并同时考虑语义意图和时效性意图对检索结果进行多样化。
步骤(4):将多样化的检索结果通过搜索引擎页面展示给用户。
本发明主要针对那些时间敏感的查询(QwT类)进行时效性多样化。比如“Haiti earthquake”(OQ),“earthquake”(AMQ),“Christmas present”(PMQ),如图3(a)、图3(b)和图3(c)。这些查询词往往有多个时效性意图。这类查询大约占所有查询的54%。所以,对这类查询的检索结果进行改进将有助于大幅度提升检索系统的性能。
本发明的名称为RM+T+S+D(RM代表任意一种信息检索排序模型,比如向量空间模型;T代表Temporal时效性,S代表Semantics语义,D代表Diversity),其数学模型见公式(1),其概率图模型见图4:
P ( S | q ) = Σ t ∈ T P ( t | q ) P ( S | q , t ) = Σ t ∈ T P ( t | q ) Σ z ∈ Z P ( S | z , q , t ) = Σ t ∈ T P ( t | q ) Σ z ∈ Z P ( z | q ) P ( S | q , t ) ∝ Σ t ∈ T P ( t | q ) Σ z ∈ Z P ( z | q ) ( 1 - Π d ∈ s ( 1 - P ( d | z , q , t ) ) ) - - - ( 1 )
给定查询q,该查询的子主题集合Z,时间单元集合T,需要返回的查询结果的数目k。本发明的目标是从文档集D中找到一个k个文档的子集S,使公式(1)最大化。
P(S|q,t,z)看作在给定t、z的条件下S对查询的满意度部分P(S|q,t,z)。P(S|q,t,z)是给定t、z的条件下文档d满足查询q的概率;1-P(S|q,t,z)则是不满足的概率.因此,根据朴素贝叶斯假设,S不满足查询的概率是Πd∈S(1-P(d|q,z,t))。
把文档d从概念上分成两个部分:cd代表文档的语义内容,td代表文档的时效性。更具体地说,cd和td分别代表文档的文本内容和发布时间。根据条件独立性假设,P(S|q,t,z)进一步展开为:
P ( d | q , t , z ) = P ( c d , t d | q , t . z ) = P ( c d | q , z ) P ( t d | t ) ∝ P ( c d | q ) P ( c d | z ) P ( t d | t ) - - - ( 2 )
其中,t代表某个时间单元;td代表文档d的发布时间。其他变量同上。
所述公式(2)中,P(cd|q)是用于衡量文档d与查询q的语义相关度,其计算方式如下:
P ( c d | q ) = SIM ( c d , q ) max d ′ ∈ D SIM ( c d ′ , q ) - - - ( 3 )
其中,SIM(cd,q)是任意一种文档d与查询q的文本相关度计算方法,比如Cosine距离。
所述公式(2)中,P(cd|z)计算方式与P(cd|q)相似,用于衡量文档d与子主题z的语义相关度。
所述公式(2)中,P(td|t)衡量文档的发布时间td与查询的时效性意图t的相关度。使用Sigmoid函数作为时间衰减函数来计算P(td|t)。
P ( t d | t ) = 1 1 + e - ω + | t - t d | - - - ( 4 )
其中,ω为模型参数,用于控制时间衰减的速度。
所述公式(1)中,P(z|q)是子主题z的重要性。某个子主题与用户的查询意图越相关,该子主题的P(z|q)应该更大。在没有任何先验知识的情况下,可以用均匀分布来建模P(z|q)的分布,即:
P ( z | q ) = 1 | Z | - - - ( 5 )
所述公式(1)中,P(t|q)的计算方式,分三种情况:
第一种是基于文档估计方法,P(t|q)计算公式为:
P ( t | q ) ≈ Σ d ∈ D k P ( t | d ) P ( d | q ) Σ d ′ ∈ D k P ( d ′ | q ) - - - ( 6 )
其中,Dk是与查询q相关的前k个相关文档组成的集合.如果文档d的发布时间属于查询时效性意图t,那么P(t|d)=1;否则P(t|d)=0。
第二种是基于词的估计方法,P(t|q)计算公式为:
P ( t | q ) ∝ P ( q | t ) ≈ Π w ∈ q P ( w | t ) - - - ( 7 )
其中,P(w|t)是在时间单元t生成词w的概率,可以用词w在时间单元t的频率来估计。
第三种是结合查询日志和词的估计方法,P(t|q)计算公式为:
P ( t | q ) = P ( t ) P ( c q , f q , t q | t ) = P ( t ) P ( c q | t ) P ( f q | t ) P ( t q | t ) ∝ P ( t ) ( Π w ∈ q P ( w | t ) ) P ( f q | t ) 1 1 + e - ω + | t - t q | - - - ( 10 )
其中,cq代表查询的内容,即词的集合;fq代表查询的查询频率;tq代表查询的提交时间;P(t)为时间单元t的重要性,在无其他先验知识的情况下,可以用均匀分布来估计;P(fq|t)为查询q在时间单元t的查询频数。
所述步骤(2)中查询时效性分类算法:
算法的输入为查询q一定时间范围内的查询频率曲线F={f1,f2,...,ft},其中,ft为查询q在t时的搜索量。输出为QoT、OQ、AMQ、PMQ中一类。算法原理是采用机器学习SVM模型学习一个分类器。算法包括两个主要部分:预处理和特征提取。提取出的特征可以作为SVM模型的输入用来训练及预测。
(1)预处理:根据时间序列分析技术,可以认为曲线F包含三种成分:趋势性成分mt、季节性成分St及随机性成分Yt;使用多项式拟合曲线F作为曲线F的趋势性成分,并从曲线F中减去趋势性成分mt成为预处理后的曲线Fq
F=mt+St+Yt  (9)
(2)特征提取:在预处理后的曲线Fq上提取以下特征:
均值(Mean): M = Σ f t ∈ E q f t | F q | ; - - - ( 10 )
其中,ft为查询q在t时的搜索量.
标准差(Standard Deviation): SD = Σ f t ∈ F q ( f t - M ) 2 | F q | ; - - - ( 11 )
其中,M为均值;其他参数同上.
最大突起程度(Max Rate):
Figure BDA0000484205500000093
其中,fm=max Fq,其时间单元为m;其他参数同上.
突起程度(Spike Rate): SR = f m - max [ F q - { f m - 2 , f m - 1 , f m + 1 , f m + 2 } ] Σ f ∈ F q f - - - ( 13 )
其中,fm-2、fm-1、fm+1、fm+2分别为时间单元为m-2、m-1、m+1、m+2时的搜索量;其他参数同上。
与QoT类的距离(Distance from QoT):其中,F(QoT)为已标注的为QoT类的曲线集合;(Fq')n代表将曲线Fq'向左或者向右循环平移n个时间单元;α为模型参数,可以通过最小化
Figure BDA0000484205500000096
求得.
与OQ类的距离(Distance from OQ): D OQ = Σ F q ′ ∈ F ( OQ ) min α , n ( | | F q - α ( F q ′ ) n | | | | F q | | ) | F | ( OQ ) ; - - - ( 15 )
其中,F(OQ)为已标注的为OQ类的曲线集合;其他参数同上.
与AMQ类的距离(Distance from AMQ):
D AMQ = Σ F q ′ ∈ F ( AMQ ) min α , n ( | | F q - α ( F q ′ ) n | | | | F q | | ) | F ( AMQ ) | ; - - - ( 16 )
其中,F(AMQ)为已标注的为AMQ类的曲线集合;其他参数同上.
与PMQ类的距离(Distance from PMQ):
D PMQ = Σ F q ′ ∈ F ( AMQ ) min α , n ( | | F q - α ( F q ′ ) n | | | | F q | | ) | F ( AMQ ) | ; - - - ( 17 )
其中,F(PMQ)为已标注的为PMQ类的曲线集合;其他参数同上。
本发明的数学模型主要有如下部分组成:
●文档与查询的语义相关度部分P(cd|q)。
●文档的时效性意图多样化部分,包括:(1)时效性意图t对查询q的重要度P(t|q);(2)文档的发布时间td与查询的时效性意图t的相关度P(td|t)。
●文档的语义意图(主题覆盖度)多样化部分,包括:(1)语义意图z对查询q的重要度P(z|q);(2)文档的文本内容cd与查询的子主题z的相关度P(cd|z)。
图5为应用本发明进行检索多样化的一个例子,当用户提交查询词“地震”时,在没有其他信息的情况下,难以明确用户的检索需求,该实例查询时并无新的地震事件发生,因而就查询词“地震”的可能子主题“地震官网”、“地震知识”、“地震事件”等等进行检索结果的多样化,并按子主题分类别展示给用户。从中我们可以发现,检索结果不仅在语义维度上进行了多样化,在时效性维度上也同样进行了多样化。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种综合语义和时效性意图对检索结果进行多样化的方法,其特征是,步骤如下:
步骤(1):接收用户的查询;
步骤(2):采用查询时效性分类算法判断查询属于
没有时间意图的查询QoT、
仅有一个查询量突起的查询OQ、
有多个查询量突起且突起之间没有周期性的查询AMQ和
有多个查询量突起且突起之间有周期性的查询PMQ
中的哪一类,若该查询属于QoT类就进入步骤(3-1);若该查询属于OQ、AMQ、PMQ三类中的一类,就进入步骤(3-2);
步骤(3-1):仅考虑语义意图对检索结果进行多样化;
步骤(3-2):计算P(t|q)并同时考虑语义意图和时效性意图对检索结果进行多样化;
步骤(4):将多样化的检索结果输出。
2.如权利要求1所述的一种综合语义和时效性意图对检索结果进行多样化的方法,其特征是,所述步骤(3-1)的计算公式为:
P ( S | q ) = Σ z ∈ Z P ( z , S | q , t ) = Σ z ∈ Z P ( z | q ) P ( S | z , q ) ∝ Σ z ∈ Z P ( z | q ) ( 1 - Π d ∈ s ( 1 - P ( d | z , q ) ) ) - - - ( 1 )
其中,S为检索结果文档;q为给定查询;Z为给定查询q的子主题集合;d为一篇文档。
3.如权利要求2所述的一种综合语义和时效性意图对检索结果进行多样化的方法,其特征是,所述公式(1)中,根据条件独立性假设,P(d|q,t,z)进一步展开为:
P ( d | z , q ) = P ( c d | q , z ) ∝ P ( c d | q ) P ( c d | z ) - - - ( 2 )
其中,cd代表文档d的文本内容。
4.如权利要求1所述的一种综合语义和时效性意图对检索结果进行多样化的方法,其特征是,所述步骤(3-2)的计算公式为:
P ( S | q ) = Σ t ∈ T P ( t | q ) P ( S | q , t ) = Σ t ∈ T P ( t | q ) Σ z ∈ Z P ( z , S | q , t ) = Σ t ∈ T P ( t | q ) Σ z ∈ Z P ( z | q ) P ( S | z , q , t ) ∝ Σ t ∈ T P ( t | q ) Σ z ∈ Z P ( z | q ) ( 1 - Π d ∈ s ( 1 - P ( d | z , q , t ) ) ) - - - ( 3 )
其中,T为时间单元的集合。
5.如权利要求4所述的一种综合语义和时效性意图对检索结果进行多样化的方法,其特征是,所述公式(3)中,根据条件独立性假设,P(d|q,t,z)进一步展开为:
P ( d | q , t , z ) = P ( c d , t d | q , t , z ) = P ( c d | q , z ) P ( t d | t ) ∝ P ( c d | q ) P ( c d | z ) P ( t d | t ) - - - ( 4 )
其中,t代表某个时间单元;td代表文档d的发布时间。
6.如权利要求3或5所述的一种综合语义和时效性意图对检索结果进行多样化的方法,其特征是,所述公式(2)和(4)中,P(cd|q)是用于衡量文档d与查询q的语义相关度,其计算方式如下:
P ( c d | q ) = SIM ( c d , q ) max d ′ ∈ D SIM ( c d ′ , q ) - - - ( 5 )
其中,SIM(cd,q)是任意一种文档d与查询q的文本相关度计算方法。
7.如权利要求3或5所述的一种综合语义和时效性意图对检索结果进行多样化的方法,其特征是,所述公式(2)和(4)中,P(cd|z)计算方式与P(cd|q)相似,用于衡量文档d与子主题z的语义相关度。
8.如权利要求5所述的一种综合语义和时效性意图对检索结果进行多样化的方法,其特征是,所述公式(4)中,P(td|t)衡量文档的发布时间td与查询的时效性意图t的相关度;使用Sigmoid函数作为时间衰减函数来计算P(td|t);
P ( t d | t ) = 1 1 + e - ω + | t - t d | - - - ( 6 )
其中,ω为模型参数,用于控制时间衰减的速度。
9.如权利要求2或4所述的一种综合语义和时效性意图对检索结果进行多样化的方法,其特征是,所述公式(1)和(3)中,P(z|q)是子主题z的重要性;某个子主题与用户的查询意图越相关,该子主题的P(z|q)应该更大;在没有任何先验知识的情况下,用均匀分布来建模P(z|q)的分布,即:
P ( z | q ) = 1 | Z | - - - ( 7 ) .
10.如权利要求1所述的一种综合语义和时效性意图对检索结果进行多样化的方法,其特征是,所述公式(3)中,P(t|q)的计算方式,分三种情况:
第一种是基于文档估计方法,P(t|q)计算公式为:
P ( t | q ) ≈ Σ d ∈ D k P ( t | d ) P ( d | q ) Σ d ′ ∈ D k P ( d ′ | q ) - - - ( 8 )
其中,Dk是与查询q相关的前k个相关文档组成的集合.如果文档d的发布时间属于查询时效性意图t,那么P(t|d)=1;否则P(t|d)=0;
第二种是基于词的估计方法,P(t|q)计算公式为:
P ( t | q ) ∝ P ( q | t ) ≈ Π w ∈ q P ( w | t ) - - - ( 9 )
其中,P(w|t)是在时间单元t生成词w的概率,用词w在时间单元t的频率来估计;
第三种是结合查询日志和词的估计方法,P(t|q)计算公式为:
P ( t | q ) = P ( t ) P ( c q , f q , t q | t ) = P ( t ) P ( c q | t ) P ( f q | t ) P ( t q | t ) ∝ P ( t ) ( Π w ∈ q P ( w | t ) ) P ( f q | t ) 1 1 + e - ω + | t - t q | - - - ( 10 )
其中,cq代表查询的内容,即词的集合;fq代表查询的查询频率;tq代表查询的提交时间;P(t)为时间单元t的重要性,在无其他先验知识的情况下,用均匀分布来估计;P(fq|t)为查询q在时间单元t的查询频数。
CN201410123319.3A 2014-03-28 2014-03-28 综合语义和时效性意图对检索结果进行多样化的方法 Expired - Fee Related CN103870592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410123319.3A CN103870592B (zh) 2014-03-28 2014-03-28 综合语义和时效性意图对检索结果进行多样化的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410123319.3A CN103870592B (zh) 2014-03-28 2014-03-28 综合语义和时效性意图对检索结果进行多样化的方法

Publications (2)

Publication Number Publication Date
CN103870592A true CN103870592A (zh) 2014-06-18
CN103870592B CN103870592B (zh) 2017-04-12

Family

ID=50909122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410123319.3A Expired - Fee Related CN103870592B (zh) 2014-03-28 2014-03-28 综合语义和时效性意图对检索结果进行多样化的方法

Country Status (1)

Country Link
CN (1) CN103870592B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310069A (zh) * 2018-12-11 2020-06-19 阿里巴巴集团控股有限公司 一种针对时效性搜索的评估方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1862916A1 (en) * 2006-06-01 2007-12-05 Microsoft Corporation Indexing Documents for Information Retrieval based on additional feedback fields
JP5233233B2 (ja) * 2007-10-05 2013-07-10 日本電気株式会社 情報検索システム、情報検索用インデックスの登録装置、情報検索方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
任昭春: "基于动态主题建模的Web论坛文档摘要", 《计算机研究与发展》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310069A (zh) * 2018-12-11 2020-06-19 阿里巴巴集团控股有限公司 一种针对时效性搜索的评估方法及装置
CN111310069B (zh) * 2018-12-11 2023-09-26 阿里巴巴集团控股有限公司 一种针对时效性搜索的评估方法及装置

Also Published As

Publication number Publication date
CN103870592B (zh) 2017-04-12

Similar Documents

Publication Publication Date Title
CN109815308B (zh) 意图识别模型的确定及检索意图识别方法、装置
CN103207899B (zh) 文本文件推荐方法及系统
CN104424291B (zh) 一种对搜索结果进行排序的方法及装置
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
Elmeleegy et al. Mashup advisor: A recommendation tool for mashup development
CN103268348B (zh) 一种用户查询意图识别方法
US8515975B1 (en) Search entity transition matrix and applications of the transition matrix
US20150356072A1 (en) Method and Apparatus of Matching Text Information and Pushing a Business Object
US8359326B1 (en) Contextual n-gram analysis
CN103838756A (zh) 一种确定推送信息的方法及装置
CN103116582B (zh) 一种信息检索方法及相关系统和装置
CN103514181B (zh) 一种搜索方法和装置
EP3114580A1 (en) Inserting native application search results into web search results
CN103577549A (zh) 一种基于微博标签的人群画像系统和方法
CN103823893A (zh) 一种基于用户评论的产品检索方法及产品检索系统
CN103186574A (zh) 一种搜索结果的生成方法和装置
EP2766826B1 (en) Searching information
CN103294681A (zh) 一种搜索结果的生成方法和装置
US20150339700A1 (en) Method, apparatus and system for processing promotion information
CN108280689A (zh) 基于搜索引擎的广告投放方法、装置以及搜索引擎系统
Singh et al. Rewriting null e-commerce queries to recommend products
CN102663022A (zh) 一种基于url的分类识别方法
Vu et al. Improving search personalisation with dynamic group formation
CN104268230A (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN108572971A (zh) 一种用于挖掘与检索词相关的关键词的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170412

Termination date: 20190328

CF01 Termination of patent right due to non-payment of annual fee