CN105488195A - 一种基于层次结构子话题的搜索结果多样化排序方法 - Google Patents

一种基于层次结构子话题的搜索结果多样化排序方法 Download PDF

Info

Publication number
CN105488195A
CN105488195A CN201510888616.1A CN201510888616A CN105488195A CN 105488195 A CN105488195 A CN 105488195A CN 201510888616 A CN201510888616 A CN 201510888616A CN 105488195 A CN105488195 A CN 105488195A
Authority
CN
China
Prior art keywords
topic
sub
document
hierarchical structure
centerdot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510888616.1A
Other languages
English (en)
Inventor
窦志成
文继荣
胡莎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin University of China
Original Assignee
Renmin University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renmin University of China filed Critical Renmin University of China
Priority to CN201510888616.1A priority Critical patent/CN105488195A/zh
Publication of CN105488195A publication Critical patent/CN105488195A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于层次结构子话题的搜索结果多样化排序方法,其包括如下步骤:1)定义查询词的层次结构树状子话题的表示方法;2)对层次结构子话题和查询、文档的相关性进行估算;3)建立基于查询词的层次结构子话题的搜索结果多样化模型;其中,步骤3)通过两种排序方法的任一种实现:a):根据层次结构话题新颖性模型对文档进行多样化排序;b):根据层次结构话题比例模型对文档进行多样化排序。本发明定义了查询的层次结构子话题,以及多层子话题和查询、文档间的相关性推算方法,提出基于该层次结构子话题的搜索结果多样化算法,能够灵活地利用不同粒度的子话题,更准确地匹配真实用户意图,从而提高搜索结果的多样性。

Description

一种基于层次结构子话题的搜索结果多样化排序方法
技术领域
本发明涉及一种基于层次结构子话题的搜索结果多样化排序方法。
背景技术
互联网信息越来越全面的覆盖了人们的日常生活,用户逐渐习惯依赖于搜索引擎来查找自己需要的信息。大量研究表明,在提交给搜索引擎中的查询中,有相当部分的查询是短文本查询。这些短文本查询由于信息量少,在解释用户意图时,通常是有歧义的,或者有多重含义的。常见的有歧义的查询,例如,搜索“苹果”,有的用户可能是在找关于著名的苹果公司的相关信息,有的用户则是关心水果苹果相关的信息;搜索“人大”,某些用户可能是在找关于著名高校中国人民大学的相关信息,某些用户查找的则是全国人民代表大会的相关信息。而多重含义的查询,是指在该查询下常包含了多个领域,例如,搜索“红楼梦”,用户实际是想找与该查询相关的一个具体领域,如“红楼梦电视剧”,“红楼梦著作”,“红楼梦人物”,“红楼梦明星”等。搜索结果多样化技术旨在解决上述问题。
目前,搜索结果多样化方法可以划分为两大类:隐性(implicit)方法和显性(explicit)方法。早期的多样化技术大多属于隐性多样化模型,其中最有影响力的工作之一是Carbonell和Goldstein在1998年提出的MMR算法。这类隐性方法认为,如果两个文档(搜索结果)的文本内容越相似,则这两个文档涉及的话题越相似,冗余性越高。如果能减少排序中的冗余文档,即可提高排序的多样性。于是,在多样化重排序时,隐性方法侧重于比较文档间的相似度,将更新颖的文档排在前面,从而实现搜索结果多样化。但是,由于该类方法在多样化时只完成了冗余处理,没有明确查询的用户意图。因此,该方法不知道哪些用户意图更应该被覆盖,不能有目的地完成多样化,其效果有限。
显性方法又称为基于子话题的方法,是目前搜索多样化技术的主流。该类方法明确地利用子话题模拟用户意图,并通过子话题对搜索结果进行多样化。显性方法认为,两个文档覆盖的子话题的相似性即为两个文档的相似性,而一个更多样化的文档排序应该在有限的结果中覆盖尽可能多的子话题。
在现有的显性方法中,一个查询的用户意图通常表示为一个子话题列表形式,其中每个子话题对应一个用户意图。对于一个查询,获取相关子话题列表的方法有很多,包括:用查询的分类信息作为子话题,巧用搜索引擎获取相关子话题,分析结果文档的短语或词组生成子话题,或者联合多个外部资源生成组合子话题等。例如,用Google的查询推荐和相关查询来代表查询的用户意图;从比较相关的检索文档中抽取单词和短语生成查询意图。从四类不同类型的数据中挖掘子话题。
在搜索结果多样化方向的国际竞赛或评测任务中(如TRECWebTrack的Diversitytask,和NTCIR的Intent\IMinetask),查询的子话题由标注人员的主观标注确定,视为真实的用户意图。多样化算法中使用的子话题应该尽可能地贴近真实用户意图,方能得到让真实用户满意的多样化结果。然而,由于多样化算法中的子话题是根据查询自动地生成的,很难完美地和真实的用户意图相匹配。而目前多样化方法中主要采用列表形式的子话题,很难找到合适粒度的子话题能够完美匹配真实的用户意图。而真实的用户意图本身则是隐含逻辑的层次结构。
因此,如何解决上述问题成为本领域技术人员亟需解决的技术问题。
发明内容
针对背景技术中存在的问题,本发明的目的在于提供一种基于层次结构子话题的搜索结果多样化排序方法,该方法定义了查询的层次结构子话题,以及多层子话题和查询、文档间的相关性推算方法,基于该层次结构子话题的搜索结果多样化算法,能够灵活地利用不同粒度的子话题,更准确地匹配真实用户意图,从而提高搜索结果的多样性。
本发明的目的是通过以下技术方案来实现的:
一种基于层次结构子话题的搜索结果多样化排序方法,所述方法包括如下步骤:
1)定义查询词的层次结构树状子话题的表示方法;
2)对层次结构子话题和查询、文档的相关性进行估算;
3)建立基于查询词的层次结构子话题的搜索结果多样化模型;
其中,所述步骤3)通过两种排序方法的任一种实现:
a)排序方法一:根据层次结构话题新颖性模型对文档进行多样化排序;
b)排序方法二:根据层次结构话题比例模型对文档进行多样化排序。
进一步,所述步骤1)中层次结构子话题的表示方法具体为:
(1)对于每个新闻搜索词q,在搜索引擎中抽取其查询推荐词作为该搜索词的第一层子话题,表示为{t1,t2,t3,...};
(2)对于第一层子话题ti,在搜索引擎中抽取其查询推荐词为该子话题的子话题,作为搜索词的第二层子话题,表示为{ti,1,ti,2,ti,3,...};
(3)对于第j层子话题在搜索引擎中抽取其查询推荐词为该子话题的子话题,作为搜索词的第二层子话题
上述子话题的生成方式并不局限于搜索引擎的查询推荐。
进一步,所述步骤2)具体为:
(1)对于层次结构子话题树内部,定义父亲子话题在该查询词中的重要程度可以由其所有孩子子话题完全覆盖,即
(2)定义层次结构中每个子话题和查询的相关性概率的推导方式为:
P ( t i 1 , . , i j + 1 | q ) = P ( t i 1 , . , i j | q ) · P ( t i 1 , . , i j + 1 | t i 1 , . , i j ) ;
(3)定义层次结构中每个子话题和文档d的相关性概率的推导方式为:
P ( d | t i 1 , . , i j ) = 1 - Π t i 1 , . , i j + 1 ∈ T i 1 , . , i j ( 1 - P ( d | t i 1 , . , i j + 1 ) ) .
进一步,所述步骤3)中涉及的多样化排序方法,其基本步骤为:
(1)遍历所有待排序文档,根据算法策略选择当前多样性最佳的文档;
(2)将当前最佳文档加入已选文档列表;
(3)重复上述步骤,直到已选文档的数目符合要求;
(4)文档的选择顺序即为最终输出的文档排序,即搜索结果多样化排序。
进一步,所述步骤3)中算法a)层次结构话题新颖性排序方法,其最佳文档的选择策略为:
(1)对于层次结构子话题中的第j层子话题,考虑该层子话题本身的重要性,子话题被已选择文档集D覆盖的情况,以及子话题和待选文档d的相关性,计算文档d在该层子话题中的多样性 Φ ( d , D , j ) = Σ | i 1 , . , i j | = j [ P ( d | t i 1 , . , i j ) · P ( t i 1 , . , i j | q ) . Π d ′ ∈ D ( 1 - P ( d ′ | t i 1 , . , i j ) ) ] ;
(2)综合文档d在每层子话题的多样性,计算文档d在子话题树上的多样性 Φ ( d , D ) = α · Φ ( d , D , 1 ) + ( 1 - α ) · Φ ( d , D , 2 ) + ( 1 - α ) 2 α · Φ ( d , D , 3 ) + ... + ( 1 - α ) n - 1 α n - 2 · Φ ( d , D , n ) , 此时各层子话题的贡献由参数α控制;
(3)选择整体多样性Φ(d,D)最大的文档为当前最佳文档。
进一步,所述步骤3)中算法b)层次结构话题比例排序方法,其最佳文档的选择策略为:
(1)对于第j层子话题,考虑该层中每个子话题本身的重要性以及子话题被已选择文档集D覆盖的情况计算子话题尚未被满足的份额 qt i 1 , . , i j = P ( t i 1 , . , i j | q ) / ( 2 s i 1 , . , i j + 1 ) ;
(2)对于第j层子话题,选择份额最大的子话题为该层的最佳子话题
(3)计算文档d在第j层子话题上的多样性此时重点考虑文档d和该层最佳子话题的相关性,同时也考虑文档d和该层其余非最佳子话题的相关性,以及该层最佳子话题与其余子话题的关系 Φ ( d , D , t i 1 , . , i j * ) = λ · qt i 1 , . , i j * · P ( d | t i 1 , . , i j * ) + ( 1 - λ ) · Σ t k ≠ t i 1 , . , i j * , | k | = j qt k · P ( d | t k ) · P ( t k | t i 1 , . , i j * ) ;
(4)综合文档d在每层子话题的多样性,计算文档d在子话题树上的多样性 Φ ( d , D ) = α · Φ ( d , D , 1 ) + ( 1 - α ) · Φ ( d , D , 2 ) + ( 1 - α ) 2 α · Φ ( d , D , 3 ) + ... + ( 1 - α ) n - 1 α n - 2 · Φ ( d , D , n ) , 此时各层子话题的贡献由参数α控制;
(5)选择整体多样性Φ(d,D)最大的文档为当前最佳文档。
本发明具有以下积极的技术效果:
本发明的方法可以获得更多有效的词项列表,在得到补充后的词项列表之后,对新的词项列表进行打分,将相似的词项列表进行合并分类,计算不同的查询分面、词项列表的重要性,最终使得挖掘出的查询维度更加完善,使得用户可以获得更为完整的信息。
附图说明
图1是查询“defender”的两层结构子话题;
图2是层次结构子话题树示意图。
具体实施方式
下面结合附图和具体实施方式对本申请作进一步的说明。
定义层次结构子话题的表达方式和相关概念:
对于一个给定的查询q,我们用R={d1,d2,...,dm}表示最初的尚未多样化的文档集合,用Tq={t1,t2,...,tn}表示查询相关的n个子话题集合。给定P(d|q)代表文档d和查询q相关的概率,P(d|t)代表文档d和子话题t相关的概率,P(t|q)代表子话题t在查询q中的重要程度。目前大部分基于子话题的多样化算法,利用Tq、P(d|q)、P(d|t)、P(t|q)对初始文档R进行重排序,得到多样化后的结果文档,记为D。在层次化的多样化模型中,由于多层子话题的引入,本发明需要对上述子话题形式和概率进行重新定义。
层次结构子话题的定义:
本申请用Tq={t1,t2,...}表示查询q的第一层子话题集合其中i1代表子话题在集合Tq的位置(i1=1,2,...)。同理,表示子话题的所有孩子子话题(第二层)的集合其中i2代表子话题在集合中的相对索引编号。以此递推,我们用代表层次结构中第j层子话题,用代表其孩子子话题(第j+1层)的集合其中子话题是子话题在第j+1层上的第ij+1个孩子子话题。
如图2所示,其展示了一个两层结构的子话题示例。第一层包含两个子话题t1和t2,第二层有四个子话题t1,1,t1,2,t2,1和t2,2。其中,t1,1和t1,2是t1的孩子话题,t2,1和t2,2是t2的孩子话题。上述关系可以表示为T1={t1,1,t1,2}和T2={t2,1,t2,2}。
本申请使用图1中的查询“defender”来解释上述形式化定义。子话题“defenderwindows”有三个孩子子话题:“defenderwindowshome”代表用户希望访问软件主页,“defenderwindowsdownload”表示软件的下载需求,“defenderwindowsproblems”显示用户对软件的各种问题感兴趣。同样地,第一层子话题“defenderarcadegame”和“defenderlandrover”都有各自的第二层孩子话题。注意,单词级别的多样化模型也有类似的表达形式,将一个子话题表示为包含多个单词的一个集合与本申请的方法不同的是,该模型并不考虑子话题ti和单词之间的关系,而将每个单词视为一个独立的子话题,然后把所有单词其合并起来形成一个更大的单词子话题集合相比之下,本申请保持了完整的层次结构子话题树,并以此为依据对文档进行多样化。
层次子话题的概率计算:
是描述子话题在其双亲子话题中重要程度的概率。假设可以被其孩子子话题集合完全覆盖,且每个孩子子话题之间相对独立。由此可以得到:
Σ t i 1 , . , i j + 1 ∈ T i 1 , . , i j P ( t i 1 , . , i j + 1 | t i 1 , . , i j ) = 1
在图2中,可得:P(t1,1|t1)+P(t1,2|t1)=1,P(t2,1|t2)+P(t2,2|t2)=1。
是描述子话题在查询q中的重要性。在多层子话题中,此概率的计算方式受子话题的生成方式影响。若已知叶子话题的重要性(例如,双亲子话题是由孩子子话题聚类生成),双亲子话题的重要性可由其孩子子话题的重要性相加得到,由此迭代找到所有子话题的重要性。
P ( t i 1 , . , i j | q ) = Σ t i 1 , . , i j + 1 ∈ T i 1 , . , i j P ( t i 1 , . , i j + 1 | q ) - - - ( 1 )
在另一种情况下,可能只知道第一层子话题的重要性。例如,在利用GoogleSuggestions生成多层结构子话题时,必须先得到第一层子话题,然后才能将其输入检索框能找到第二层子话题。此时,可以利用贝叶斯公式计算每个孩子子话题的重要性:
P ( t i 1 , . , i j + 1 | q ) = P ( t i 1 , . , i j | q ) · P ( t i 1 , . , i j + 1 | t i 1 , . , i j )
在图2中,若已知P(t1,1|q)和P(t1,2|q),则P(t1|q)=P(t1,1|q)+P(t1,2|q);若已知P(t1|q),则P(t1,1|q)=P(t1|q)·P(t1,1|t1),P(t1,2|q)=P(t1|q)·P(t1,2|t1)。
代表文档d满足子话题的概率。由于该概率也可以记为本申请默认叶子话题为单词或短语的形式,于是叶子话题和文档的相关概率可用语言模型或其他检索模型直接计算得到。然而,非叶子话题不一定是单词或短语的形式,他们可能是一组子话题的集合(例如,将原始GoogleSuggestions作为第二层子话题,将其聚类信息视为虚拟第一层子话题)。考虑到此类情况,本申请使用一个自底向上的方法来递归地生成子话题和文档相关的概率,具体公式如下:
P ( d | t i 1 , . , i j ) = 1 - Π t i 1 , . , i j + 1 ∈ T i 1 , . , i j ( 1 - P ( d | t i 1 , . , i j + 1 ) ) . - - - ( 2 )
上式中,是文档d不满足子话题概率,其乘积代表d不满足的所有孩子子话题的概率,则1-∏(...)表示d满足至少一个的孩子子话题的概率。
话题新颖性模型:
话题新颖性模型(topicnoveltymodel)起源于经典MMR算法,是目前被广泛接受的一个多样化算法框架。其基本思想是,在排序中同时考虑文档与查询的相关性和文档之间的新颖性。具体到每次的文档选择时,它倾向选择既与查询相关,并与已选择文档尽可能不相关的文档。其公式如下:
d * = arg max d ∈ R \ D ( 1 - λ ) · P ( d | q ) + λ · Φ ( d , D ) - - - ( 3 )
其中,Φ(d,D)代表文档d与已选择文档集D不相关的概率,即该文档的新颖性(又称多样性),在不同的算法中有不同的定义。本申请选择了著名的xQuAD算法,作为层次化模型的基础。xQuAD显示地利用文档在子话题上的覆盖情况来计算文档的多样性。
Φ ( d , D ) = Σ t ∈ T q [ P ( d | t ) · P ( t | q ) · Π d ′ ∈ D ( 1 - P ( d ′ | t ) ) ] - - - ( 4 )
上式中,(1-P(d′|t))表示已选择的某个文档d′不满足子话题t的概率,其乘积∏d′∈D(...)表示所有已选文档D不能满足t的概率。再考虑查询相关所有子话题的情况,以及子话题的权重P(t|q),上述多样性Φ(d,D)代表了当前文档d满足而已选文档不满足各个子话题的概率。
然而,公式(4)是针对列表形式存在的子话题设计的,在处理层次结构的用户意图时可能并不适用。以图2所示的用户意图为例,假设文档d1和d2与子话题t1,1相关,文档d3和子话题t1,2相关,文档d4和子话题t2,1相关,需要对文档进行多样化排序。一个理想的排序为d1→d4→d3→d2,其多样性在每次选择中均为最大。如果只使用第一层子话题,xQuAD可能输出排序d1→d4→d2→d3,因为此时子话题较粗糙,无法区分文档d2和d3的细微差别,认为其均与t1相关;如果只使用第二层子话题,xQuAD可能输出排序d1→d3→d4→d2,因为此时子话题太细,认为d3与d4相对于d1都是同样新颖,并不知道d3与d1都和子话题t1相关,而d4才是真正全新的选择。
为了解决上述问题,本申请改进了xQuAD的整体框架,提出了一个能处理多层子话题的层次结构话题新颖性模型(HierarchicalxQuAD,HxQuAD),可以显示地利用层次结构的子话题来解决搜索结果多样化问题。在计算文档多样性时,HxQuAD会对层次结构中的每层子话题独立地估算文档在该层的多样性。文档在子话题树中第j层的多样性计算如下:
Φ ( d , D , j ) = Σ | i 1 , . , i j | = j [ P ( d | t i 1 , . , i j ) · P ( t i 1 , . , i j | q ) · Π d ′ ∈ D ( 1 - P ( d ′ | t i 1 , . , i j ) ) ] - - - ( 5 )
其中,|i1,.,ij|=j表示子话题位于子话题树中的第j层,描述在查询q中的重要程度,而则代表d满足子话题的概率,通过自底向上递归计算得到 P ( d | t i 1 , . , i j ) = 1 - Π t i 1 , . , i j + 1 ∈ T i 1 , . , i j ( 1 - P ( d | t i 1 , . , i j + 1 ) ) . 该局部多样性Φ(d,D,j)估算的是文档d在第j层子话题中多样性。
然后,本申请把所有局部多样性整合起来,以评估文档在所有子话题层(即整个子话题树)上的多样性。我们引入参数α来控制每层子话题(即子话题粒度)在判断多样性时的贡献。具体做法如下面公式:
Φ ( d , D ) = α · Φ ( d , D , 1 ) + ( 1 - α ) · Φ ( d , D , 2 ) + ( 1 - α ) 2 α · Φ ( d , D , 3 ) + ... + ( 1 - α ) n - 1 α n - 2 · Φ ( d , D , n ) - - - ( 5 )
上式中,α的取值范围为(0,1]。当α=0.5时,每层子话题在计算多样性时同等重要;当α>0.5时,算法更看重文档在较粗粒度子话题上的多样性;当α<0.5时,算法则更偏向于文档在较细粒度子话题上的表现。特别地,若α=1,则算法只使用第一层的子话题;反之,若α接近于0,则算法倾向于只考虑最底层的叶子话题。注意,如果子话题树只存在两层结构,α的最小值可以为0。
简而言之,HxQuAD将xQuAD的传统多样性计算改进为处理单层多样性的局部多样性计算,在此基础上提出可处理层次结构子话题的多样化模型。HxQuAD包含两个参数:传统子话题新颖性模型必有的用于平衡文档相关性和新颖性的参数λ,和多层结构模型特有的用于控制子话题层次影响的参数α。
话题比例模型:
话题比例模型(topicproportionalitymodel)通过子话题的比例对文档进行排序,其特点是将多样化中的文档选择划分为两个步骤:选择子话题和选择最佳文档。在每次迭代中,该模型首先根据子话题比例策略选择最佳子话题,然后根据当前最佳子话题寻找最相关的文档。
PM2是话题比例模型的代表算法。它将搜索结果多样化问题类比为政治选举中的党派席位分配问题,认为既然选举中的席位应该满足党派受到选票的比例,则文档的多样化结果应该满足子话题的分布比例。它参考选举中使用的圣拉古计算法(Sainte-Lague1),用其席位分配方法模拟子话题的选择。在每次排序迭代中,PM2首先根据Sainte-Lague公式计算当前子话题ti需要改善的分布比例,记为子话题的份额qti(quotient):
qt i = w i 2 s i + 1 - - - ( 7 )
为了使已选文档中的子话题分布与原始文档的整体子话题分布尽可能一致,PM2选择当前最大份额的(待改善程度最大的)子话题,作为当前最佳子话题t*。然后,它计算多样化函数Φ(d,D,t*),找到与最佳子话题t*最相关,与其他子话题较相关的文档,作为当前最佳文档d*
d * = arg max d &Element; R \ D &Phi; ( d , D , t * )
其中,Φ(d,D,t*)=λ·qti*·P(d|ti*)+(1-λ)·∑i≠i*qti·P(d|ti)(8)
在文档d*加入已选文档集D后,为了惩罚d*的相关子话题,PM2在每个子话题中计算d*占用的比例,作为当前已占有的席位si(seat)。
s i = s i + P ( d * | t i ) &Sigma; t j &Element; T q P ( d * | t j ) - - - ( 9 )
该算法重复上述过程,每次迭代时从R中选择最佳文档d*加入D。
在本申请中,我们改进了PM2的基础框架,提出了可处理树状结构子话题的层次结构话题比例模型(HierarchicalPM2model,HPM2)。HPM2保留了原模型PM2的核心思想,即根据预选的最佳子话题选择最佳文档。与之不同的是,
------------------在层次结构的子话题树中,每层的子话题可能包含不同粒度的多样化信息,对于每层的子话题,HPM2都能根据当前子话题比例找到一个该层最佳的子话题。最后,HPM2综合考虑文档与各层最佳子话题的关系,选择最佳文档。以图2中的子话题树为例。我们根据子话题比例,可能选择第一层的最佳子话题为t1,选择第二层的最佳子话题为t1,1,然后寻找和t1,t1,1最相关的文档为最佳文档。注意,由于每层最佳子话题在选择时相互独立,有时我们也可能选择t1和t2,1为第一层和第二层的最佳子话题。HPM2的具体过程如下:
首先,对每层的子话题,HPM2计算该子话题在对应子话题层中的份额,作为当前子话题在该层的比例,记为对于第j层的子话题其份额的具体计算方式类似公式(7),具体如下。其中代表满足q的概率。
qt i 1 , . , i j = P ( t i 1 , . , i j | q ) 2 s i 1 , . , i j + 1
HPM2比较第j层上的所有子话题的份额,选择份额最大的子话题为该层最佳子话题,记为同理,分别表示从子话题树的第1层,第2层,...,第n层选出的该层最佳子话题。对于每层子话题,HPM2计算文档与该层最佳子话题和其他子话题的相关程度,代表文档在该层子话题的多样性。
对于第j层的子话题,根据PM2定义的多样化表达,一个多样化的文档应与该层最佳子话题尽可能地相关,与该层其他子话题比较相关。HPM2定义为文档d在第j层子话题上的多样性,如下:
&Phi; ( d , D , t i 1 , . , i j * ) = &lambda; &CenterDot; qt i 1 , . , i j * &CenterDot; P ( d | t i 1 , . , i j * ) + ( 1 - &lambda; ) &CenterDot; &Sigma; t k &NotEqual; t i 1 , . , i j * , | k | = j qt k &CenterDot; P ( d | t k ) &CenterDot; P ( t k | t i 1 , . , i j * ) - - - ( 10 )
上式中,函数来表达子话题tk和最佳子话题之间的依赖关系。
HPM2引入该函数的原因是,由于子话题树独特的层次结构,同层的非最佳子话题与最佳子话题的关系是存在亲疏远近的,需要不同对待。在层次结构中,如果子话题t与最佳子话题t*同属一个双亲子话题,则相比于该层的其他子话题,t与t*更相关。仍然以图2的子话题树为例,如果t1,1是选中的最佳子话题,是决定文档多样性的关键,由于t1,2与t1,1关系紧密(同双亲子话题),则t1,2显然比t2,1和t2,2更重要。因此,在文档多样性的计算中,HPM2应该给t1,2更高的权重,以示其与t2,1和t2,2的区别。具体地,每个非最佳子话题的权重,由其与最佳子话题在层次结构中的距离来决定。函数的相关公式如下:
P ( t i 1 , . , i j | t i 1 , . , i j * ) = 2 j - d i s ( t i 1 , . , i j , t i 1 , . , i j * ) + 1 2 j
其中,dis(t,t*)是子话题树中从t到t*的路径距离。由于两个第j层子话题的最大距离为2j,我们在公式中用2j对距离做归一化处理。继续讨论图2的例子,我们得到P(t2|t1)=(2·1-2+1)/(2·1)=0.5,P(t1,2|t1,1)=(2·2-2+1)/(2·2)=0.75,P(t2,2|t1,1)=(2·2-4+1)/(2·2)=0.25。
更进一步地,本申请综合考虑文档在每层子话题中的多样性,然后根据下列公式选择最佳文档d*。其中,参数α∈(0,1]用于控制子话题粒度(子话题层)在多样性中的影响,类似公式(5)。
d * = arg max d &Element; R \ D &lsqb; &alpha; &CenterDot; &Phi; ( d , D , t i 1 * ) + ( 1 - &alpha; ) &CenterDot; &Phi; ( d , D , t i 1 , i 2 * ) + ( 1 - &alpha; ) 2 &alpha; &CenterDot; &Phi; ( d , D , t i 1 , i 2 , i 3 * ) + ... + ( 1 - &alpha; ) n - 1 &alpha; n - 2 &CenterDot; &Phi; ( d , D , t i 1 , . , i n * ) &rsqb; - - - ( 11 )
最后,HPM2基于选择的最佳文档d*,更新其相关的子话题的比例,具体公式如下所示。注意,由于层次结构中各层的子话题比例相对独立,子话题的比例是逐层统计,子话题比例的更新也是在每层上完成。
s i 1 , . , i j = s i 1 , . , i j + P ( d * | t i 1 , . , i j ) &Sigma; | k | = j P ( d * | t k )
简而言之,HPM2的工作过程是:根据每层子话题比例选择该层的最佳子话题,结合所有最佳子话题计算多样性并选择当前最佳文档,基于当前文档和子话题的关系逐层更新子话题占有比例。与PM2中只考虑一个最佳子话题不同,HPM2需要为层次结构中的每层子话题选择当前最佳子话题,并且在文档的选择中同时考虑n个最佳子话题。此外,HPM2还引入了一个距离函数,利用非最佳子话题和最佳子话题在层次结构中的距离远近判断子话题间的相关性,从而控制不同相关程度的非最佳子话题在多样性中的影响。
上面所述只是为了说明本发明,应该理解为本发明并不局限于以上实施例,符合本发明思想的各种变通形式均在本发明的保护范围之内。

Claims (6)

1.一种基于层次结构子话题的搜索结果多样化排序方法,其特征在于,所述方法包括如下步骤:
1)定义查询词的层次结构树状子话题的表示方法;
2)对层次结构子话题和查询、文档的相关性进行估算;
3)建立基于查询词的层次结构子话题的搜索结果多样化模型;
其中,所述步骤3)通过两种排序方法的任一种实现:
a)排序方法一:根据层次结构话题新颖性模型对文档进行多样化排序;
b)排序方法二:根据层次结构话题比例模型对文档进行多样化排序。
2.根据权利要求1所述的基于层次结构子话题的搜索结果多样化排序方法,其特征在于,所述步骤1)中层次结构子话题的表示方法具体为:
(1)对于每个新闻搜索词q,在搜索引擎中抽取其查询推荐词作为该搜索词的第一层子话题,表示为{t1,t2,t3,...};
(2)对于第一层子话题ti,在搜索引擎中抽取其查询推荐词为该子话题的子话题,作为搜索词的第二层子话题,表示为{ti,1,ti,2,ti,3,...};
(3)对于第j层子话题在搜索引擎中抽取其查询推荐词为该子话题的子话题,作为搜索词的第二层子话题
上述子话题的生成方式并不局限于搜索引擎的查询推荐。
3.根据权利要求1所述的基于层次结构子话题的搜索结果多样化排序方法,其特征在于,所述步骤2)具体为:
(1)对于层次结构子话题树内部,定义父亲子话题在该查询词中的重要程度可以由其所有孩子子话题完全覆盖,即
(2)定义层次结构中每个子话题和查询的相关性概率的推导方式为:
P ( t i 1 , . , i j + 1 | q ) = P ( t i 1 , . , i j | q ) &CenterDot; P ( t i 1 , . , i j + 1 | t i 1 , . , i j ) ;
(3)定义层次结构中每个子话题和文档d的相关性概率的推导方式为:
P ( d | t i 1 , . , i j ) = 1 - &Pi; t i 1 , . , i j + 1 &Element; T i 1 , . , i j ( 1 - P ( d | t i 1 , . , i j + 1 ) ) .
4.根据权利要求1所述的基于层次结构子话题的搜索结果多样化排序方法,其特征在于,所述步骤3)中涉及的多样化排序方法,其基本步骤为:
(1)遍历所有待排序文档,根据算法策略选择当前多样性最佳的文档;
(2)将当前最佳文档加入已选文档列表;
(3)重复上述步骤,直到已选文档的数目符合要求;
(4)文档的选择顺序即为最终输出的文档排序,即搜索结果多样化排序。
5.根据权利要求1所述的基于层次结构子话题的搜索结果多样化排序方法,其特征在于,所述步骤3)中算法a)层次结构话题新颖性排序方法,其最佳文档的选择策略为:
(1)对于层次结构子话题中的第j层子话题,考虑该层子话题本身的重要性,子话题被已选择文档集D覆盖的情况,以及子话题和待选文档d的相关性,计算文档d在该层子话题中的多样性 &Phi; ( d , D , j ) = &Sigma; | i 1 , . , i j | = j [ P ( d | t i 1 , . , i j ) &CenterDot; P ( t i 1 , . , i j | q ) &CenterDot; &Pi; d &prime; &Element; D ( 1 - P ( d &prime; | t i 1 , . , i j ) ) ] ;
(2)综合文档d在每层子话题的多样性,计算文档d在子话题树上的多样性 &Phi; ( d , D ) = &alpha; &CenterDot; &Phi; ( d , D , 1 ) + ( 1 - &alpha; ) &CenterDot; &Phi; ( d , D , 2 ) + ( 1 - &alpha; ) 2 &alpha; &CenterDot; &Phi; ( d , D , 3 ) + ... + ( 1 - &alpha; ) n - 1 &alpha; n - 2 &CenterDot; &Phi; ( d , D , n ) , 此时各层子话题的贡献由参数α控制;
(3)选择整体多样性Φ(d,D)最大的文档为当前最佳文档。
6.根据权利要求1所述的基于层次结构子话题的搜索结果多样化排序方法,其特征在于,所述步骤3)中算法b)层次结构话题比例排序方法,其最佳文档的选择策略为:
(1)对于第j层子话题,考虑该层中每个子话题本身的重要性以及子话题被已选择文档集D覆盖的情况计算子话题尚未被满足的份额 qt i 1 , . , i j = P ( t i 1 , . , i j | q ) / ( 2 s i 1 , . , i j + 1 ) ;
(2)对于第j层子话题,选择份额最大的子话题为该层的最佳子话题
(3)计算文档d在第j层子话题上的多样性此时重点考虑文档d和该层最佳子话题的相关性,同时也考虑文档d和该层其余非最佳子话题的相关性,以及该层最佳子话题与其余子话题的关系 &Phi; ( d , D , t i 1 , . , i j * ) = &lambda; &CenterDot; qt i 1 , . , i j * &CenterDot; P ( d | t i 1 , . , i j * ) + ( 1 - &lambda; ) &CenterDot; &Sigma; t k &NotEqual; t i 1 , . , i j * , | k | = j qt k &CenterDot; P ( d | t k ) &CenterDot; P ( t k | t i 1 , . , i j * ) ;
(4)综合文档d在每层子话题的多样性,计算文档d在子话题树上的多样性 &Phi; ( d , D ) = &alpha; &CenterDot; &Phi; ( d , D , 1 ) + ( 1 - &alpha; ) &CenterDot; &Phi; ( d , D , 2 ) + ( 1 - &alpha; ) 2 &alpha; &CenterDot; &Phi; ( d , D , 3 ) + ... + ( 1 - &alpha; ) n - 1 &alpha; n - 2 &CenterDot; &Phi; ( d , D , n ) , 此时各层子话题的贡献由参数α控制;
(5)选择整体多样性Φ(d,D)最大的文档为当前最佳文档。
CN201510888616.1A 2015-12-07 2015-12-07 一种基于层次结构子话题的搜索结果多样化排序方法 Pending CN105488195A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510888616.1A CN105488195A (zh) 2015-12-07 2015-12-07 一种基于层次结构子话题的搜索结果多样化排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510888616.1A CN105488195A (zh) 2015-12-07 2015-12-07 一种基于层次结构子话题的搜索结果多样化排序方法

Publications (1)

Publication Number Publication Date
CN105488195A true CN105488195A (zh) 2016-04-13

Family

ID=55675169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510888616.1A Pending CN105488195A (zh) 2015-12-07 2015-12-07 一种基于层次结构子话题的搜索结果多样化排序方法

Country Status (1)

Country Link
CN (1) CN105488195A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066567A (zh) * 2017-04-05 2017-08-18 竹间智能科技(上海)有限公司 文字对话中基于话题侦测的用户画像建模方法及系统
CN109344332A (zh) * 2018-10-31 2019-02-15 郑州云海信息技术有限公司 一种Web API组合推荐方法、装置及电子设备
CN112182155A (zh) * 2020-09-25 2021-01-05 中国人民大学 一种基于生成式对抗网络的搜索结果多样化方法
CN112182439A (zh) * 2020-09-30 2021-01-05 中国人民大学 一种基于自注意力网络的搜索结果多样化方法
CN113407792A (zh) * 2021-07-06 2021-09-17 亿览在线网络技术(北京)有限公司 一种基于话题的文本输入方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102419755A (zh) * 2010-09-28 2012-04-18 阿里巴巴集团控股有限公司 一种搜索结果的排序方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102419755A (zh) * 2010-09-28 2012-04-18 阿里巴巴集团控股有限公司 一种搜索结果的排序方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHA HU ET AL.: ""Search Result Diversification Based on Hierarchical Intents"", 《CIKM "15 PROCEEDINGS OF THE 24TH ACM INTERNATIONAL ON CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 *
李清敏 等: ""面向话题的中文微博观点倾向性分析研究"", 《科学技术与工程》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066567A (zh) * 2017-04-05 2017-08-18 竹间智能科技(上海)有限公司 文字对话中基于话题侦测的用户画像建模方法及系统
CN109344332A (zh) * 2018-10-31 2019-02-15 郑州云海信息技术有限公司 一种Web API组合推荐方法、装置及电子设备
CN112182155A (zh) * 2020-09-25 2021-01-05 中国人民大学 一种基于生成式对抗网络的搜索结果多样化方法
CN112182155B (zh) * 2020-09-25 2023-08-18 中国人民大学 一种基于生成式对抗网络的搜索结果多样化方法
CN112182439A (zh) * 2020-09-30 2021-01-05 中国人民大学 一种基于自注意力网络的搜索结果多样化方法
CN112182439B (zh) * 2020-09-30 2023-05-23 中国人民大学 一种基于自注意力网络的搜索结果多样化方法
CN113407792A (zh) * 2021-07-06 2021-09-17 亿览在线网络技术(北京)有限公司 一种基于话题的文本输入方法
CN113407792B (zh) * 2021-07-06 2024-03-26 亿览在线网络技术(北京)有限公司 一种基于话题的文本输入方法

Similar Documents

Publication Publication Date Title
CN107066553B (zh) 一种基于卷积神经网络与随机森林的短文本分类方法
Hussain et al. A survey of author name disambiguation techniques: 2010–2016
Getoor et al. Learning probabilistic models of link structure
Getoor et al. Learning probabilistic models of relational structure
CN111191466B (zh) 一种基于网络表征和语义表征的同名作者消歧方法
CN104239513A (zh) 一种面向领域数据的语义检索方法
CN105488195A (zh) 一种基于层次结构子话题的搜索结果多样化排序方法
CN102231151B (zh) 一种农业领域本体自适应学习建模方法
Vijaya et al. Artificial neural network-based merging score for Meta search engine
CN114997288A (zh) 一种设计资源关联方法
CN101639837A (zh) 用于自动分类对象的方法和系统
Djenouri et al. An ontology matching approach for semantic modeling: A case study in smart cities
Codina et al. Taking advantage of semantics in recommendation systems
Jurek et al. Classification by cluster analysis: A new meta-learning based approach
Asa et al. A comprehensive survey on extractive text summarization techniques
Eyjolfsdottir et al. Moviegen: A movie recommendation system
Portmann A fuzzy grassroots ontology for improving social semantic web search
Chakraborti et al. Product news summarization for competitor intelligence using topic identification and artificial bee colony optimization
Perdih et al. Semantic reasoning from model-agnostic explanations
CN107729440A (zh) 一种基于贝叶斯网络的结构化文档检索模型及其检索方法
Soltanpoor et al. A new approach for better document retrieval and classification performance using supervised WSD and Concept Graph
Hristoskova et al. A graph-based disambiguation approach for construction of an expert repository from public online sources
Souza Cabral et al. Combining multiple metadata types in movies recommendation using ensemble algorithms
Fanizzi et al. Composite ontology matching with uncertain mappings recovery
WO2015187129A1 (en) Document classification based on multiple meta-algorithmic patterns

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160413

RJ01 Rejection of invention patent application after publication