CN104915405A - 一种基于多层次的微博查询扩展方法 - Google Patents
一种基于多层次的微博查询扩展方法 Download PDFInfo
- Publication number
- CN104915405A CN104915405A CN201510294437.5A CN201510294437A CN104915405A CN 104915405 A CN104915405 A CN 104915405A CN 201510294437 A CN201510294437 A CN 201510294437A CN 104915405 A CN104915405 A CN 104915405A
- Authority
- CN
- China
- Prior art keywords
- query
- word
- expansion
- candidate
- microblogging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多层次的微博查询扩展方法,其特点是将原微博查询词对应的语料库PRF层和外部源的web层中提取关键词作为候选查询扩展词,将候选查询扩展词与原始微博查询语句合并作为标签集对PRF层中的文档进行标注,并利用Labeled LDA对标注的PRF文档进行语义建模,然后将来自不同源的候选查询扩展词和微博查询词映射到统一的语义层,挖掘出它们潜在的语义,并根据它们之间的语义相似度,过滤掉与微博查询词语义无关的候选扩展词,组成新的微博查询词进行更为精准的查询和检索。本发明与现有技术相比具有查询漂移少,检索效率高,准确性好,尤其将扩展词进行有效的整合,以达到最优的扩展效果,使查询结果能符合用户真实的信息需求。
Description
技术领域
本发明涉及互联网信息搜索技术领域,尤其是一种基于多层次的微博查询扩展方法。
背景技术
随着社交网络的兴起,微博已成为人们分享实时信息的一个重要平台。面对每天发布涉及各个方面的海量微博,用户要想找到自己感兴趣的内容,通常采用检索的方式。然而,一方面由于用户输入的查询词较少,且不够准确,另一方面由于微博本身有字数限制,文本较短,常常导致查询结果不符合用户真实的信息需求。为了解决这一问题,通常在检索过程中会对用户查询进行扩展,用户查询的扩展主要分为基于查询语料库本身的扩展和基于外部源的扩展两大类。最常用的基于查询语料库本身的扩展方法是伪相关反馈(pseudo relevance feedback),其主要思想是初步检索后排在前面k个的文档中含有一些与查询相关的词,可以提取出来加入到原始的查询中,用于下一次查询。这样反复迭代多次,得到最终的查询结果。基于外部源的扩展主要利用相关的一些外部资源来扩充原始的查询,如web搜索结果和wikipedia语料库。由于人们经常在web中搜索微博上的一些实时热点以便进一步了解事件的发展,所以web检索结果常被用来作微博检索的查询扩展。
然而,现有技术的查询扩展带来了大量与原始查询无关的词,不仅降低检索效率,也会造成查询漂移,有损检索结果的准确性,尤其如何将上述两种查询扩展方法产生的扩展词进行有效的整合,以达到最优的扩展效果,使查询结果能符合用户真实的信息需求。
发明内容
本发明的目的是针对现有技术的不足而设计的一种基于多层次的微博查询扩展方法,分别从PRF层和web层提取关键词作为候选查询扩展词,并利用Labeled LDA对原始微博查询和所有候选查询扩展词进行统一语义建模,将它们映射到统一的语义层,对候选查询扩展词进行筛选过滤,使得查询更精炼准确,查询漂移少,检索效率高,不依赖于传统的特征工程和有监督的分类,操作更简单易行,在Microblog Track 2011-2014中的检索结果比传统的查询扩展更为准确有效,尤其将扩展词进行有效的整合,以达到最优的扩展效果,使查询结果能符合用户真实的信息需求。
本发明的目的是这样实现的:一种基于多层次的微博查询扩展方法,其特点是将原微博查询词在其对应的语料库PRF层和外部源的web层中提取关键词作为候选查询扩展词,以候选查询扩展词与原微博查询词为标签集对PRF层中的文档进行标注,利用Labeled LDA对标注的PRF文档进行语义建模,然后将来自不同源的候选查询扩展词和原微博查询词映射到统一的语义层,挖掘出它们潜在的语义,并根据它们之间的语义相似度,过滤掉与原微博查询词语义无关的候选扩展词,作为查询扩展词添加到原微博查询词中组成新微博查询词,使用扩展后的新微博查询词进行查询,其查询结果更能符合用户的真实信息需求,微博查询的具体扩展按下述步骤进行:
(一)、基于PRF层的候选扩展词提取
将原微博查询词在其对应的语料库中进行初步检索,并将前K1个检索结果作为PRF 文档,利用TFIDF在 PRF 文档中提取关键词为候选查询扩展词,其中:K1 =10~20。
(二)、基于web层的候选扩展词提取
将原微博查询词在外部源的web层中进行检索,保存前K2个包括标题和片段的检索结果,从标题和片段中提取TF较高的关键词为候选查询扩展词,其中:K2 =10~20。
(三)、统一语义层建模
将PRF层和web层检索得到的候选查询扩展词与原微博查询词合并为标签集对PRF文档进行标注,并利用Labeled LDA对标注的PRF文档进行语义建模得到标签-词分布,然后根据标签与候选查询扩展词和原微博查询词之间的一一对应关系以及标签-词分布,得到原微博查询词和候选查询扩展词关于所有词的分布表示,从中选取权重最高的n个词来表示其潜在的语义;其中:n=10~20。
(四)、候选查询扩展词的筛选
根据上述潜在语义的表示采用余弦相似度计算每个候选查询扩展词与原微博查询词的语义相似度,并设定一个阈值,对候选查询扩展词进行过滤,将语义相似度大于阈值的候选查询扩展词作为查询扩展词添加到原微博查询词中组成新微博查询词,使用扩展后的新微博查询词进行查询,其查询结果更能符合用户的真实信息需求。
本发明与现有技术相比具有以下优点:
、全面性:查询扩展词来自语料库的PRF层和外部源的web层,分别从语料库的PRF文档和web搜索的标题及片段中提取关键词用作查询扩展,更全面地捕获了用户的查询企图,有助于更好地理解用户查询,缓解短文档和短查询之间的不匹配问题。
、精炼性:传统的查询扩展依赖于大量的扩展词来提高最终的检索性能,事实上其中真正有效的扩展词只占少数,通过将原始查询及来自PRF层和web层的所有扩展词映射到统一的语义层,并根据扩展词和原始查询之间的语义相似度,过滤掉语义无关的扩展词,进一步精化了查询扩展,减少了因扩展太多造成的查询漂移。
、简单性:采用无监督方式进行查询扩展词筛选,即将查询词(原始的和扩展的)映射到统一语义层,再自动过滤掉语义无关的词,更简单易行,不像传统方法需要依赖标注好的训练集,通过特征工程找出查询扩展词的特征,再进行有监督的分类。
、有效性:在Microblog Track 2011-2014的数据集上都被证明是有效的,查询经多层次扩展后,检索的MAP值超过了最新的一些查询扩展方法。
附图说明
图1为本发明操作流程示意图。
具体实施方式
参阅附图1,本发明将原微博查询词在其对应的语料库PRF层和外部源的web层中提取关键词作为候选查询扩展词,以候选查询扩展词与原微博查询词为标签集对PRF层中的文档进行标注,利用Labeled LDA对标注的PRF文档进行语义建模,然后将来自不同源的候选查询扩展词和原微博查询词映射到统一的语义层,挖掘出它们潜在的语义,并根据它们之间的语义相似度,过滤掉与原微博查询词语义无关的候选扩展词,作为查询扩展词添加到原微博查询词中组成新微博查询词,使用扩展后的新微博查询词进行查询,其查询结果更能符合用户的真实信息需求,微博查询的具体扩展按下述步骤进行:
(一)、基于PRF层的候选扩展词提取
将原微博查询词在其对应的语料库中进行初步检索,并将前K1个检索结果作为PRF 文档,利用TFIDF在 PRF 文档中提取关键词为候选查询扩展词,其中:K1 =10~20。
(二)、基于web层的候选扩展词提取
将原微博查询词在外部源的web层中进行检索,保存前K2个包括标题和片段的检索结果,从标题和片段中提取TF较高的关键词为候选查询扩展词,其中:K2 =10~20。
(三)、统一语义层建模
将PRF层和web层检索得到的候选查询扩展词与原微博查询词合并为标签集对PRF文档进行标注,并利用Labeled LDA对标注的PRF文档进行语义建模得到标签-词分布,然后根据标签与候选查询扩展词和原微博查询词之间的一一对应关系以及标签-词分布,得到原微博查询词和候选查询扩展词关于所有词的分布表示,从中选取权重最高的n个词来表示其潜在的语义;其中:n=10~20。
(四)、候选查询扩展词的筛选
根据上述潜在语义的表示采用余弦相似度计算每个候选查询扩展词与原微博查询词的语义相似度,并设定一个阈值,对候选查询扩展词进行过滤,将语义相似度大于阈值的候选查询扩展词作为查询扩展词添加到原微博查询词中组成新微博查询词,使用扩展后的新微博查询词进行查询,其查询结果更能符合和满足用户的真实信息需求。
以上只是对本发明作进一步的说明,并非用以限制本专利,凡为本发明等效实施,均应包含于本专利的权利要求范围之内。
Claims (1)
1.一种基于多层次的微博查询扩展方法,其特征在于将原微博查询词在其对应的语料库PRF层和外部源的web层中提取关键词作为候选查询扩展词,以候选查询扩展词与原微博查询词为标签集对PRF层中的文档进行标注,利用Labeled LDA对标注的PRF文档进行语义建模,然后将来自不同源的候选查询扩展词和原微博查询词映射到统一的语义层,挖掘出它们潜在的语义,并根据它们之间的语义相似度,过滤掉与原微博查询词语义无关的候选扩展词,作为查询扩展词添加到原微博查询词中组成新微博查询词,使用扩展后的新微博查询词进行查询,其查询结果更能符合用户的真实信息需求,微博查询的具体扩展按下述步骤进行:
(一)、基于PRF层的候选扩展词提取
将原微博查询词在其对应的语料库中进行初步检索,并将前K1个检索结果作为PRF 文档,利用TFIDF在 PRF 文档中提取关键词为候选查询扩展词,其中:K1 =10~20;
(二)、基于web层的候选扩展词提取
将原微博查询词在外部源的web层中进行检索,保存前K2个包括标题和片段的检索结果,从标题和片段中提取TF较高的关键词为候选查询扩展词,其中:K2 =10~20;
(三)、统一语义层建模
将PRF层和web层检索得到的候选查询扩展词与原微博查询词合并为标签集对PRF文档进行标注,并利用Labeled LDA对标注的PRF文档进行语义建模得到标签-词分布,然后根据标签与候选查询扩展词和原微博查询词之间的一一对应关系以及标签-词分布,得到原微博查询词和候选查询扩展词关于所有词的分布表示,从中选取权重最高的n个词来表示其潜在的语义;其中:n=10~20;
(四)、候选查询扩展词的筛选
根据上述潜在语义的表示采用余弦相似度计算每个候选查询扩展词与原微博查询词的语义相似度,并设定一个阈值,对候选查询扩展词进行过滤,将语义相似度大于阈值的候选查询扩展词作为查询扩展词添加到原微博查询词中组成新微博查询词,使用扩展后的新微博查询词进行查询,其查询结果更能符合用户的真实信息需求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510294437.5A CN104915405B (zh) | 2015-06-02 | 2015-06-02 | 一种基于多层次的微博查询扩展方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510294437.5A CN104915405B (zh) | 2015-06-02 | 2015-06-02 | 一种基于多层次的微博查询扩展方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104915405A true CN104915405A (zh) | 2015-09-16 |
CN104915405B CN104915405B (zh) | 2018-10-23 |
Family
ID=54084468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510294437.5A Active CN104915405B (zh) | 2015-06-02 | 2015-06-02 | 一种基于多层次的微博查询扩展方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104915405B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105608166A (zh) * | 2015-12-18 | 2016-05-25 | Tcl集团股份有限公司 | 一种标签提取方法及装置 |
CN106294688A (zh) * | 2016-08-05 | 2017-01-04 | 浪潮软件集团有限公司 | 一种基于用户特征分析的查询扩展方法、装置和系统 |
CN106776503A (zh) * | 2016-12-22 | 2017-05-31 | 东软集团股份有限公司 | 文本语义相似度的确定方法及装置 |
CN107168943A (zh) * | 2017-04-07 | 2017-09-15 | 平安科技(深圳)有限公司 | 话题预警的方法和装置 |
CN108052554A (zh) * | 2017-11-29 | 2018-05-18 | 有米科技股份有限公司 | 多维度拓展关键词的方法和装置 |
CN109657145A (zh) * | 2018-12-20 | 2019-04-19 | 拉扎斯网络科技(上海)有限公司 | 商户搜索方法及装置、电子设备及计算机可读存储介质 |
CN109829051A (zh) * | 2019-01-30 | 2019-05-31 | 科大讯飞股份有限公司 | 一种数据库相似语句筛选的方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103885985A (zh) * | 2012-12-24 | 2014-06-25 | 北京大学 | 微博实时检索方法和装置 |
-
2015
- 2015-06-02 CN CN201510294437.5A patent/CN104915405B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103885985A (zh) * | 2012-12-24 | 2014-06-25 | 北京大学 | 微博实时检索方法和装置 |
Non-Patent Citations (2)
Title |
---|
QIN CHEN 等: "ECNU at TREC 2014: Microblog Track", 《HTTP://WWW.ICA.STC.SH.CN/S/176/T/1114/F5/FB/INFO128507.HTM》 * |
唐晓波 等: "基于语义查询扩展的微博检索", 《情报资料工作》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105608166A (zh) * | 2015-12-18 | 2016-05-25 | Tcl集团股份有限公司 | 一种标签提取方法及装置 |
CN106294688A (zh) * | 2016-08-05 | 2017-01-04 | 浪潮软件集团有限公司 | 一种基于用户特征分析的查询扩展方法、装置和系统 |
CN106776503A (zh) * | 2016-12-22 | 2017-05-31 | 东软集团股份有限公司 | 文本语义相似度的确定方法及装置 |
CN106776503B (zh) * | 2016-12-22 | 2020-03-10 | 东软集团股份有限公司 | 文本语义相似度的确定方法及装置 |
CN107168943A (zh) * | 2017-04-07 | 2017-09-15 | 平安科技(深圳)有限公司 | 话题预警的方法和装置 |
US11205046B2 (en) | 2017-04-07 | 2021-12-21 | Ping An Technology (Shenzhen) Co., Ltd. | Topic monitoring for early warning with extended keyword similarity |
CN108052554A (zh) * | 2017-11-29 | 2018-05-18 | 有米科技股份有限公司 | 多维度拓展关键词的方法和装置 |
CN108052554B (zh) * | 2017-11-29 | 2019-04-30 | 有米科技股份有限公司 | 多维度拓展关键词的方法和装置 |
CN109657145A (zh) * | 2018-12-20 | 2019-04-19 | 拉扎斯网络科技(上海)有限公司 | 商户搜索方法及装置、电子设备及计算机可读存储介质 |
CN109829051A (zh) * | 2019-01-30 | 2019-05-31 | 科大讯飞股份有限公司 | 一种数据库相似语句筛选的方法和装置 |
CN109829051B (zh) * | 2019-01-30 | 2023-01-17 | 科大讯飞股份有限公司 | 一种数据库相似语句筛选的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104915405B (zh) | 2018-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104915405A (zh) | 一种基于多层次的微博查询扩展方法 | |
CN102982076B (zh) | 基于语义标签库的多维度内容标注方法 | |
CN104021198B (zh) | 基于本体语义索引的关系数据库信息检索方法及装置 | |
CN105468605A (zh) | 一种实体信息图谱生成方法及装置 | |
CN102411621A (zh) | 一种基于云模型的中文面向查询的多文档自动文摘方法 | |
CN103729402A (zh) | 一种基于图书目录的知识图谱的构建方法 | |
CN103617174A (zh) | 一种基于云计算的分布式搜索方法 | |
CN102004775A (zh) | 一种基于智能搜索的福富企业搜索引擎技术 | |
CN102662936A (zh) | 融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法 | |
CN103324700A (zh) | 一种基于Web信息的本体概念属性学习方法 | |
CN105608232A (zh) | 一种基于图形数据库的bug知识建模方法 | |
CN104268230A (zh) | 一种基于异质图随机游走的中文微博客观点探测方法 | |
CN104216979A (zh) | 中文工艺专利自动分类系统及利用该系统进行专利分类的方法 | |
Bansal et al. | Towards semantic retrieval of hashtags in microblogs | |
CN104281565A (zh) | 语义词典构建方法和装置 | |
CN104778201A (zh) | 一种基于多查询结果合并的在先技术检索方法 | |
CN104008210A (zh) | 一种基于多搜索引擎的Web信息检索方法 | |
CN103927342A (zh) | 基于大数据的垂直搜索引擎系统 | |
CN105404677A (zh) | 一种基于树形结构的检索方法 | |
CN103336765B (zh) | 一种文本关键词的马尔可夫矩阵离线修正方法 | |
CN104156431A (zh) | 一种基于实体图社团结构的rdf关键词查询方法 | |
CN107391690B (zh) | 一种处理文献信息的方法 | |
CN104217026A (zh) | 一种基于图模型的中文微博客倾向性检索方法 | |
CN105574004A (zh) | 一种网页去重方法和设备 | |
De Melo et al. | Searching the web of data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |