CN104915405A

CN104915405A - 一种基于多层次的微博查询扩展方法

Info

Publication number: CN104915405A
Application number: CN201510294437.5A
Authority: CN
Inventors: 胡琴敏; 陈琴; 贺樑
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2015-06-02
Filing date: 2015-06-02
Publication date: 2015-09-16
Anticipated expiration: 2035-06-02
Also published as: CN104915405B

Abstract

本发明公开了一种基于多层次的微博查询扩展方法，其特点是将原微博查询词对应的语料库PRF层和外部源的web层中提取关键词作为候选查询扩展词，将候选查询扩展词与原始微博查询语句合并作为标签集对PRF层中的文档进行标注，并利用Labeled LDA对标注的PRF文档进行语义建模，然后将来自不同源的候选查询扩展词和微博查询词映射到统一的语义层，挖掘出它们潜在的语义，并根据它们之间的语义相似度，过滤掉与微博查询词语义无关的候选扩展词，组成新的微博查询词进行更为精准的查询和检索。本发明与现有技术相比具有查询漂移少，检索效率高，准确性好，尤其将扩展词进行有效的整合，以达到最优的扩展效果，使查询结果能符合用户真实的信息需求。

Description

一种基于多层次的微博查询扩展方法

技术领域

本发明涉及互联网信息搜索技术领域，尤其是一种基于多层次的微博查询扩展方法。

背景技术

随着社交网络的兴起，微博已成为人们分享实时信息的一个重要平台。面对每天发布涉及各个方面的海量微博，用户要想找到自己感兴趣的内容，通常采用检索的方式。然而，一方面由于用户输入的查询词较少，且不够准确，另一方面由于微博本身有字数限制，文本较短，常常导致查询结果不符合用户真实的信息需求。为了解决这一问题，通常在检索过程中会对用户查询进行扩展，用户查询的扩展主要分为基于查询语料库本身的扩展和基于外部源的扩展两大类。最常用的基于查询语料库本身的扩展方法是伪相关反馈（pseudo relevance feedback），其主要思想是初步检索后排在前面k个的文档中含有一些与查询相关的词，可以提取出来加入到原始的查询中，用于下一次查询。这样反复迭代多次，得到最终的查询结果。基于外部源的扩展主要利用相关的一些外部资源来扩充原始的查询，如web搜索结果和wikipedia语料库。由于人们经常在web中搜索微博上的一些实时热点以便进一步了解事件的发展，所以web检索结果常被用来作微博检索的查询扩展。

然而，现有技术的查询扩展带来了大量与原始查询无关的词，不仅降低检索效率，也会造成查询漂移，有损检索结果的准确性，尤其如何将上述两种查询扩展方法产生的扩展词进行有效的整合，以达到最优的扩展效果，使查询结果能符合用户真实的信息需求。

发明内容

本发明的目的是针对现有技术的不足而设计的一种基于多层次的微博查询扩展方法，分别从PRF层和web层提取关键词作为候选查询扩展词，并利用Labeled LDA对原始微博查询和所有候选查询扩展词进行统一语义建模，将它们映射到统一的语义层，对候选查询扩展词进行筛选过滤，使得查询更精炼准确，查询漂移少，检索效率高，不依赖于传统的特征工程和有监督的分类，操作更简单易行，在Microblog Track 2011-2014中的检索结果比传统的查询扩展更为准确有效，尤其将扩展词进行有效的整合，以达到最优的扩展效果，使查询结果能符合用户真实的信息需求。

本发明的目的是这样实现的：一种基于多层次的微博查询扩展方法，其特点是将原微博查询词在其对应的语料库PRF层和外部源的web层中提取关键词作为候选查询扩展词，以候选查询扩展词与原微博查询词为标签集对PRF层中的文档进行标注，利用Labeled LDA对标注的PRF文档进行语义建模，然后将来自不同源的候选查询扩展词和原微博查询词映射到统一的语义层，挖掘出它们潜在的语义，并根据它们之间的语义相似度，过滤掉与原微博查询词语义无关的候选扩展词，作为查询扩展词添加到原微博查询词中组成新微博查询词，使用扩展后的新微博查询词进行查询，其查询结果更能符合用户的真实信息需求，微博查询的具体扩展按下述步骤进行：

（一）、基于PRF层的候选扩展词提取

将原微博查询词在其对应的语料库中进行初步检索，并将前K₁个检索结果作为PRF 文档，利用TFIDF在 PRF 文档中提取关键词为候选查询扩展词，其中：K₁ =10~20。

（二）、基于web层的候选扩展词提取

将原微博查询词在外部源的web层中进行检索，保存前K₂个包括标题和片段的检索结果，从标题和片段中提取TF较高的关键词为候选查询扩展词，其中：K₂ =10~20。

（三）、统一语义层建模

将PRF层和web层检索得到的候选查询扩展词与原微博查询词合并为标签集对PRF文档进行标注，并利用Labeled LDA对标注的PRF文档进行语义建模得到标签-词分布，然后根据标签与候选查询扩展词和原微博查询词之间的一一对应关系以及标签-词分布，得到原微博查询词和候选查询扩展词关于所有词的分布表示，从中选取权重最高的n个词来表示其潜在的语义；其中：n=10~20。

（四）、候选查询扩展词的筛选

根据上述潜在语义的表示采用余弦相似度计算每个候选查询扩展词与原微博查询词的语义相似度，并设定一个阈值，对候选查询扩展词进行过滤，将语义相似度大于阈值的候选查询扩展词作为查询扩展词添加到原微博查询词中组成新微博查询词，使用扩展后的新微博查询词进行查询，其查询结果更能符合用户的真实信息需求。

本发明与现有技术相比具有以下优点：

、全面性：查询扩展词来自语料库的PRF层和外部源的web层，分别从语料库的PRF文档和web搜索的标题及片段中提取关键词用作查询扩展，更全面地捕获了用户的查询企图，有助于更好地理解用户查询，缓解短文档和短查询之间的不匹配问题。

、精炼性：传统的查询扩展依赖于大量的扩展词来提高最终的检索性能，事实上其中真正有效的扩展词只占少数，通过将原始查询及来自PRF层和web层的所有扩展词映射到统一的语义层，并根据扩展词和原始查询之间的语义相似度，过滤掉语义无关的扩展词，进一步精化了查询扩展，减少了因扩展太多造成的查询漂移。

、简单性：采用无监督方式进行查询扩展词筛选，即将查询词（原始的和扩展的）映射到统一语义层，再自动过滤掉语义无关的词，更简单易行，不像传统方法需要依赖标注好的训练集，通过特征工程找出查询扩展词的特征，再进行有监督的分类。

、有效性：在Microblog Track 2011-2014的数据集上都被证明是有效的，查询经多层次扩展后，检索的MAP值超过了最新的一些查询扩展方法。

附图说明

图1为本发明操作流程示意图。

具体实施方式

参阅附图1，本发明将原微博查询词在其对应的语料库PRF层和外部源的web层中提取关键词作为候选查询扩展词，以候选查询扩展词与原微博查询词为标签集对PRF层中的文档进行标注，利用Labeled LDA对标注的PRF文档进行语义建模，然后将来自不同源的候选查询扩展词和原微博查询词映射到统一的语义层，挖掘出它们潜在的语义，并根据它们之间的语义相似度，过滤掉与原微博查询词语义无关的候选扩展词，作为查询扩展词添加到原微博查询词中组成新微博查询词，使用扩展后的新微博查询词进行查询，其查询结果更能符合用户的真实信息需求，微博查询的具体扩展按下述步骤进行：

（一）、基于PRF层的候选扩展词提取

（二）、基于web层的候选扩展词提取

（三）、统一语义层建模

（四）、候选查询扩展词的筛选

根据上述潜在语义的表示采用余弦相似度计算每个候选查询扩展词与原微博查询词的语义相似度，并设定一个阈值，对候选查询扩展词进行过滤，将语义相似度大于阈值的候选查询扩展词作为查询扩展词添加到原微博查询词中组成新微博查询词，使用扩展后的新微博查询词进行查询，其查询结果更能符合和满足用户的真实信息需求。

以上只是对本发明作进一步的说明，并非用以限制本专利，凡为本发明等效实施，均应包含于本专利的权利要求范围之内。

Claims

1.一种基于多层次的微博查询扩展方法，其特征在于将原微博查询词在其对应的语料库PRF层和外部源的web层中提取关键词作为候选查询扩展词，以候选查询扩展词与原微博查询词为标签集对PRF层中的文档进行标注，利用Labeled LDA对标注的PRF文档进行语义建模，然后将来自不同源的候选查询扩展词和原微博查询词映射到统一的语义层，挖掘出它们潜在的语义，并根据它们之间的语义相似度，过滤掉与原微博查询词语义无关的候选扩展词，作为查询扩展词添加到原微博查询词中组成新微博查询词，使用扩展后的新微博查询词进行查询，其查询结果更能符合用户的真实信息需求，微博查询的具体扩展按下述步骤进行：

（一）、基于PRF层的候选扩展词提取

将原微博查询词在其对应的语料库中进行初步检索，并将前K₁个检索结果作为PRF 文档，利用TFIDF在 PRF 文档中提取关键词为候选查询扩展词，其中：K₁ =10~20；

（二）、基于web层的候选扩展词提取

将原微博查询词在外部源的web层中进行检索，保存前K₂个包括标题和片段的检索结果，从标题和片段中提取TF较高的关键词为候选查询扩展词，其中：K₂ =10~20；

（三）、统一语义层建模

将PRF层和web层检索得到的候选查询扩展词与原微博查询词合并为标签集对PRF文档进行标注，并利用Labeled LDA对标注的PRF文档进行语义建模得到标签-词分布，然后根据标签与候选查询扩展词和原微博查询词之间的一一对应关系以及标签-词分布，得到原微博查询词和候选查询扩展词关于所有词的分布表示，从中选取权重最高的n个词来表示其潜在的语义；其中：n=10~20；

（四）、候选查询扩展词的筛选