CN105956010B - 基于分布式表征和局部排序的分布式信息检索集合选择方法 - Google Patents

基于分布式表征和局部排序的分布式信息检索集合选择方法 Download PDF

Info

Publication number
CN105956010B
CN105956010B CN201610251677.1A CN201610251677A CN105956010B CN 105956010 B CN105956010 B CN 105956010B CN 201610251677 A CN201610251677 A CN 201610251677A CN 105956010 B CN105956010 B CN 105956010B
Authority
CN
China
Prior art keywords
distributed
document
scoring
sample
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610251677.1A
Other languages
English (en)
Other versions
CN105956010A (zh
Inventor
陈岭
钱坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201610251677.1A priority Critical patent/CN105956010B/zh
Publication of CN105956010A publication Critical patent/CN105956010A/zh
Application granted granted Critical
Publication of CN105956010B publication Critical patent/CN105956010B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于分布式表征和局部排序的分布式信息检索集合选择方法,包括:接收来自用户的原始查询,对原始查询进行扩展得到扩展查询,并计算该扩展查询的分布式表征向量;针对每个集合的样本集中的任意一个文档,计算该文档的分布式表征向量,并以该文档与扩展查询对应的分布式表征向量之间的夹角的余弦值作为该文档的评分;针对任意一个集合,根据该集合的样本集中各个文档的评分计算该集合的评分,并选择评分较高的k个集合作为最终结果;每个集合的样本集通过对该集合采样得到。本发明采用分布式表征向量表示文档和查询,且采用基于局部排序的查询与集合相关度计算,引入文档评分阈值,提高了集合评分的准确度,进而提高检索精确度。

Description

基于分布式表征和局部排序的分布式信息检索集合选择方法
技术领域
本发明涉及分布式信息检索技术领域,具体涉及一种基于分布式表征和局部排序的分布式信息检索集合选择方法。
背景技术
分布式信息检索(Distributed Information Retrieval,DIR)系统通常将大文档集(文档数目多)划分为若干小文档集(文档数目少),每个小文档集(简称集合)由一台服务器独立存储和检索。在接收到用户的查询后,分布式信息检索系统将查询同时转发给多个服务器,再将服务器返回的结果进行合并,最后返回给用户。一般情况下,查询与各集合的相关度是不同的,为降低检索开销,分布式信息检索系统通常先计算查询与集合的相关度,得到集合评分;再按集合评分将集合降序排列;最后将查询转发给排名靠前的k个集合所在的服务器,这个过程被称为集合选择。
近二十年来,分布式信息检索集合选择领域涌现了许多研究。其中一部分方法将集合视为一个“超大文档”(big document)。如CVV(The Cue-Validity-Variance)和CORI(Collection Retrieval Information Network)等方法使用词典、词频率和文档频率等统计信息计算集合评分,这些方法不仅忽略了集合大小,还要求每个集合提供能描述其自身的词典和词频等统计信息,这在非协同式环境下很难实现。
另外一部分方法将集合看作是由众多小文档构成的。如ReDDE(RelevantDocument Distribution Estimation)、CRCS(Central-rank-based CollectionSelection)和SHIRE(Sampling-based Hierarchical Relevance Estimation)等方法使用TF-IDF形式的关键词相关度和起预测作用的拟合函数来计算查询与文档的相关度(为表述方便,本发明将“查询与文档的相关度”简称为“文档的评分”),但忽略了语义信息。Matthias等人使用ESA向量表示查询和集合,并将向量相似度作为集合评分,然而ESA向量易受到维灾影响。此外,现有集合选择方法的文档排序方式亦不合理,一般情况下,用户更关心与查询最相关的文档,故集合评分应与最相关文档的相关度成正比,而现有的文档排序方式则会漏掉部分集合的最相关文档。
发明内容
针对现有技术的不足,本发明提供了一种基于分布式表征和局部排序的分布式信息检索集合选择方法,该方法兼具检索效率高和检索精确度高的优点。
一种基于分布式表征和局部排序的分布式信息检索集合选择方法,包括:
步骤1,接收来自用户的原始查询,对原始查询进行扩展得到扩展查询,并计算该扩展查询的分布式表征向量;
步骤2,针对每个集合的样本集中的任意一个文档,计算该文档的分布式表征向量,并以该文档与扩展查询对应的分布式表征向量之间的夹角的余弦值作为该文档的评分;
步骤3,针对任意一个集合,根据该集合的样本集中各个文档的评分计算该集合的评分,并选择评分较高的k个集合作为最终结果;
每个集合的样本集通过对该集合采样得到。
采用结合Wikipedia和ListNet的查询扩展方法对原始查询进行扩展,具体过程如下:
步骤100,根据原始查询的关键词在Wikipedia所有网页中进行检索,将检索得到的网页标题作为候选扩展词;
步骤101,针对每一个候选扩展词,根据该候选扩展词和原始查询的关键词在Wikipedia各个网页的摘要和正文部分出现的情况计算该候选扩展词的特征向量,并计算该特征向量与权重向量的内积作为候选扩展词的评分,
作为优选,所述特征向量和权重向量的维数相同,所述权重向量使用ListNet算法训练得到;
步骤102,将评分较高的若干个(具体个数可根据应用需要设定)候选扩展词作为关键词增加到原始查询即得到扩展查询。
本发明中扩展查询的分布式表征向量根据如下公式计算得到:
其中,Vq'为扩展查询q'的分布式表征向量,Vterm为预先计算的得到词term的分布式表征向量,tfterm为词term在扩展查询q'中的词频率。
进一步优选,各个文档以及词term的分布式表征向量均通过PV模型训练得到。
作为优选,每个集合的样本集通过对该集合按照预设采样率采用基于查询的采样方法采样得到。
进一步优选,步骤3计算集合c的评分包括:
步骤300,从该集合的样本集中确定满足如下条件的文档作为最相关文档,并形成最相关文档集:
其中,dl为样本集中评分降序排序时排名为第l的文档,为样本dl的评分,τc为针对集合c预设的评分阈值,ωc为针对集合c预设的评分排名阈值;
步骤301,根据如下公式计算集合c的评分Rc
其中,αc为对集合c采样时的采样率,πc为集合c的最相关文档集。
为保证查询精度,本发明中τc根据如下公式设定:
τc=β×Dd
其中,Dd为样本集中评分最高的文档d的评分,β为全局参数,取值范围为[0,1]。
本发明中,k、l、ωc、β、αc在实际应用需要根据实际应用需求设定。
与现有的技术相比,本发明具有如下优点:
1)本发明采用分布式表征向量表示文档和查询,并使用神经网络语言模型来获取分布式表征向量,提高了文档语义获取的准确度,从而提高查询与文档相关度的准确度;
2)使用结合Wikipedia和ListNet的查询扩展方法对原始查询进行扩展。通过引入Wikipedia来提高扩展词的质量,同时引入词频率、文档频率和词共现三类特征以及基于特征的学习排序算法ListNet,提高了查询语义获取的准确度;
3)采用基于局部排序的查询与集合相关度计算方法,在重定义文档的排序方式和权重计算方式的基础上,引入文档评分阈值,提高了集合评分的准确度,进一步提高检索精确度。
附图说明
图1为本实施例的基于分布式表征和局部排序的信息检索集合选择方法流程图;
图2为基于查询的采样算法流程图;
图3为计算文档评分子阶段流程图;
图4为选择集合子阶段的流程图。
具体实施方式
下面将结合具体附图和具体实施例对本发明进行详细说明。
本发明提出了基于分布式表征和局部排序的分布式信息检索集合选择方法,该方法使用表示一个集合,Nc表示集合c中文档的数目,一个分布式信息检索环境包含多个集合{c1,c2,…,cM},M是集合个数。sc表示集合c的样本集,表示分布式信息检索系统的中心样本集。为提高检索效率,事先将可以提前计算的一些通用量或通用处理供后续查询使用。
本实施例的基于分布式表征和局部排序的信息检索集合选择方法流程图如图1所示,分为预处理和在线处理两个阶段。
预处理阶段
预处理的具体步骤如下:
1)使用“基于查询的采样”算法为集合c构建样本集sc,其流程如图2所示。首先从查询日志中随机选取1个词作为初始查询词;然后在每轮检索中,将返回的前5个文档加入到样本集sc,再从sc中随机选取1个词作为下一轮检索的查询词;当sc中文档数目达到400时停止采样;待所有集合的样本集构建完成,可得到中心样本集S;
2)将中心样本集S输入到PV模型进行训练,得到中心样本集中文档对应的分布式表征向量Vd和文档中各个词对应的分布式表征向量Vterm等信息;
3)解析Wikipedia,获取Wikipedia中出现的词以及对应的TF和DF等语料统计信息(用于构建特征向量);
4)为Wikipedia的所有网页建立索引,以提供检索功能(在“计算文档评分”时被使用);
5)使用ListNet算法训练出权重向量w(在“计算文档评分”的步骤3中被使用)。ListNet的输入是一组查询Q={q1,q2,q3,…,qm},每个查询qi都对应一个词列表一个相关度评分列表和一个特征向量列表其中ni表示ei中元素个数;表示与查询qi的相关度为的词,表示词对应的特征向量;来自Wikipedia的标题;si中的元素是降序排列的,并按照式子(1)计算
其中σ(*)是性能度量函数,本实施例中采用精确度来衡量性能度量函数,精确度p@n计算公式如下,
num表示在检索得到的前n个文档中与查询相关的文档数目,本实施例中n取10。
在线处理阶段
在线处理阶段分为计算文档评分和选择集合两个子阶段。
计算文档评分子阶段的流程如图3所示,具体步骤如下:
1)令q为用户输入的原始查询,在Wikipedia所有网页(每个网页被视为一个文档)的正文中进行检索,关键词为q,检索得到的网页的标题作为候选扩展词;
2)为候选扩展词e构建特征向量f(e)=[f1(e),f2(e),…,f12(e)]。式子(3)至(8)为摘要字段上的特征,其中式子(3)和(4)是词频率TF特征,式子(5)和(6)是文档频率DF特征,式子(7)和(8)是共现co-occurrence特征;tf(e|fieldabstract)表示在Wikipedia的所有网页的摘要字段上,词e出现的次数;df(e|fieldabstract)表示在Wikipedia的所有网页中,摘要字段包含词e的网页个数;tk为查询q中的词,C(tk,e|fieldabstract)表示在Wikipedia的所有网页中,摘要字段同时包含词tk和e的网页个数;(tk,tr)表示由q中的任意两个查询词构成的词对(无序),θ是由q的所有词对构成的集合,|θ|是集合θ的元素个数,C(tk,tr,e|fieldabstract)表示在Wikipedia的所有网页中,摘要字段同时包含词tk、tr和e的网页个数;正文字段上的特征(即f2(e),f4(e),f6(e),f8(e),f10(e)和f12(e))与摘要字段的类似;
3)采用式子(9)计算候选扩展词e的评分ze,其中“·”代表两个向量的内积,并按照评分ze将所有候选扩展词降序排列;
ze=f(e)·w (9)
4)选取排名靠前的γ个词追加到查询q中,得到扩展查询q′;
5)按照式子(10)计算q′对应的分布式表征向量Vq′,其中,tfterm是词term在q′中的词频率;
Vq′=∑termq′Vterm×tfterm, (10)
本实施例每个词的词频率为该词在查询中出现的次数与查询中词总数的比值。例如:查询是“今天天气真棒”,包括“今天”、“天气”、“真”和“棒”5个词,且这5个词的词频率分别就是1/6,2/6,1/6,1/6和1/6。
6)按照式子(11)计算Vq′与Vd之间的向量余弦值,并将其作为文档d的评分Dd
Dd=cos(Vq′,Vd) (11)
7)重复步骤6),直至S中所有文档的评分均计算完毕。
选择集合子阶段的流程如图4所示,具体步骤如下:
1)将集合c的样本集sc中的所有文档按照文档评分降序排列,得到文档序列
2)按照式子(12)计算集合c的文档评分阈值τc,其中d为sc中文档评分Dd最大的文档,β是一个取值范围为[0,1]的全局参数;
τc=β×Dd (12)
3)找出集合c的所有最相关文档。令dl是文档序列中的一个文档,l为dl的排名,ωc是一个正整数,在样本集sc的所有文档中,满足式子(13)的文档就是集合c的最相关文档,并用πc表示集合c的所有最相关文档;
4)按照式子(14)计算集合c的评分Rc,其中αc为集合c的采样因子,即集合c的文档总个数与其样本集sc的文档总个数的比值,g(l)是文档的权重函数;
5)重复步骤1至4,直至所有集合的评分均计算完毕;
6)将所有集合按照集合评分降序排列,选取排名靠前的k个集合。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于分布式表征和局部排序的分布式信息检索集合选择方法,其特征在于,包括:
步骤1,接收来自用户的原始查询,对原始查询进行扩展得到扩展查询,并计算该扩展查询的分布式表征向量;所述扩展查询的分布式表征向量根据如下公式计算得到:
其中,Vq'为扩展查询q'的分布式表征向量,Vterm为预先计算的得到词term的分布式表征向量,tfterm为词term在扩展查询q'中的词频率;
步骤2,针对每个集合的样本集中的任意一个文档,计算该文档的分布式表征向量,并以该文档与扩展查询对应的分布式表征向量之间的夹角的余弦值作为该文档的评分;
步骤3,针对任意一个集合,根据该集合的样本集中各个文档的评分计算该集合的评分,并选择评分较高的k个集合作为最终结果;
每个集合的样本集通过对该集合采样得到。
2.如权利要求1所述的基于分布式表征和局部排序的分布式信息检索集合选择方法,其特征在于,采用结合Wikipedia和ListNet的查询扩展方法对原始查询进行扩展。
3.如权利要求2所述的基于分布式表征和局部排序的分布式信息检索集合选择方法,其特征在于,步骤1中对原始查询进行扩展包括:
步骤100,根据原始查询的关键词在Wikipedia所有网页中进行检索,将检索得到的网页标题作为候选扩展词;
步骤101,针对每一个候选扩展词,根据该候选扩展词和原始查询的关键词在Wikipedia各个网页的摘要和正文部分出现的情况计算该候选扩展词的特征向量,并计算该特征向量与权重向量的内积作为候选扩展词的评分,
所述特征向量和权重向量的维数相同,所述权重向量使用ListNet算法训练得到;
步骤102,将评分较高的若干个候选扩展词作为关键词增加到原始查询即得到扩展查询。
4.如权利要求1所述的基于分布式表征和局部排序的分布式信息检索集合选择方法,其特征在于,各个文档以及词term的分布式表征向量均通过PV模型训练得到。
5.如权利要求1~4中任意一项所述的基于分布式表征和局部排序的分布式信息检索集合选择方法,其特征在于,每个集合的样本集通过对该集合照预设采样率采用基于查询的采样方法采样得到。
6.如权利要求5所述的基于分布式表征和局部排序的分布式信息检索集合选择方法,其特征在于,步骤3计算集合c的评分包括:
步骤300,从该集合的样本集中确定满足如下条件的文档作为最相关文档,并形成最相关文档集:
其中,dl为样本集中评分降序排序时排名为第l的文档,为样本dl的评分,τc为针对集合c预设的评分阈值,ωc为针对集合c预设的评分排名阈值;
步骤301,根据如下公式计算集合c的评分Rc
其中,αc为对集合c采样时的采样率,πc为集合c的最相关文档集。
7.如权利要求6所述的基于分布式表征和局部排序的分布式信息检索集合选择方法,其特征在于,τc根据如下公式设定:
τc=β×Dd
其中,Dd为样本集中评分最高的文档d的评分,β为全局参数,取值范围为[0,1]。
CN201610251677.1A 2016-04-20 2016-04-20 基于分布式表征和局部排序的分布式信息检索集合选择方法 Expired - Fee Related CN105956010B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610251677.1A CN105956010B (zh) 2016-04-20 2016-04-20 基于分布式表征和局部排序的分布式信息检索集合选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610251677.1A CN105956010B (zh) 2016-04-20 2016-04-20 基于分布式表征和局部排序的分布式信息检索集合选择方法

Publications (2)

Publication Number Publication Date
CN105956010A CN105956010A (zh) 2016-09-21
CN105956010B true CN105956010B (zh) 2019-03-26

Family

ID=56917876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610251677.1A Expired - Fee Related CN105956010B (zh) 2016-04-20 2016-04-20 基于分布式表征和局部排序的分布式信息检索集合选择方法

Country Status (1)

Country Link
CN (1) CN105956010B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10572221B2 (en) 2016-10-20 2020-02-25 Cortical.Io Ag Methods and systems for identifying a level of similarity between a plurality of data representations
CN107133274B (zh) * 2017-04-10 2020-12-15 浙江鸿程计算机系统有限公司 一种基于图知识库的分布式信息检索集合选择方法
CN107229738B (zh) * 2017-06-18 2020-04-03 杭州电子科技大学 一种基于文档评分模型和相关度的学术论文搜索排序方法
US11734332B2 (en) 2020-11-19 2023-08-22 Cortical.Io Ag Methods and systems for reuse of data item fingerprints in generation of semantic maps
CN113709125A (zh) * 2021-08-18 2021-11-26 北京明略昭辉科技有限公司 一种异常流量的确定方法、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU1907300A (en) * 1998-11-30 2000-06-19 Justsystem Corporation Term-length term-frequency method for measuring document similarity and classifying text
CN101582085A (zh) * 2008-09-19 2009-11-18 江苏大学 一种基于分布式信息检索系统的集合选择方法
CN102521350A (zh) * 2011-12-12 2012-06-27 浙江大学 基于历史点击数据的分布式信息检索集合选择方法
CN104050235A (zh) * 2014-03-27 2014-09-17 浙江大学 基于集合选择的分布式信息检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7287025B2 (en) * 2003-02-12 2007-10-23 Microsoft Corporation Systems and methods for query expansion

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU1907300A (en) * 1998-11-30 2000-06-19 Justsystem Corporation Term-length term-frequency method for measuring document similarity and classifying text
CN101582085A (zh) * 2008-09-19 2009-11-18 江苏大学 一种基于分布式信息检索系统的集合选择方法
CN102521350A (zh) * 2011-12-12 2012-06-27 浙江大学 基于历史点击数据的分布式信息检索集合选择方法
CN104050235A (zh) * 2014-03-27 2014-09-17 浙江大学 基于集合选择的分布式信息检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Collection selection for managed distributed document databases;Daryl D"Souza 等;《Information Processing and Management》;20040531;第40卷(第3期);527-546 *

Also Published As

Publication number Publication date
CN105956010A (zh) 2016-09-21

Similar Documents

Publication Publication Date Title
CN105956010B (zh) 基于分布式表征和局部排序的分布式信息检索集合选择方法
CN110442777B (zh) 基于bert的伪相关反馈模型信息检索方法及系统
El-Beltagy et al. KP-Miner: A keyphrase extraction system for English and Arabic documents
CN102253982B (zh) 一种基于查询语义和点击流数据的查询建议方法
US9106698B2 (en) Method and server for intelligent categorization of bookmarks
US9009146B1 (en) Ranking search results based on similar queries
US8983971B2 (en) Method, apparatus, and system for mobile search
KR101775061B1 (ko) 엔티티들과 연관된 애스펙트들을 식별하기 위한 시스템들 및 방법들
Froud et al. Arabic text summarization based on latent semantic analysis to enhance arabic documents clustering
Nabli et al. Efficient cloud service discovery approach based on LDA topic modeling
CN109960756B (zh) 新闻事件信息归纳方法
CN106815252A (zh) 一种搜索方法和设备
CN103838833A (zh) 基于相关词语语义分析的全文检索系统
CN111104488B (zh) 检索和相似度分析一体化的方法、装置和存储介质
Froud et al. Stemming and similarity measures for Arabic Documents Clustering
CN108182186B (zh) 一种基于随机森林算法的网页排序方法
CN113821646A (zh) 基于语义检索的智能化专利相似度搜索方法及装置
KR101377447B1 (ko) 태그간 의미 분석을 이용한 다중 문서 요약 방법 및 시스템
US7747618B2 (en) Augmenting user, query, and document triplets using singular value decomposition
US9465875B2 (en) Searching based on an identifier of a searcher
CN108509449B (zh) 一种信息处理的方法及服务器
Juan An effective similarity measurement for FAQ question answering system
CN111737413A (zh) 基于概念网语义的反馈模型信息检索方法、系统及介质
Šimko et al. Semantic history map: Graphs aiding web revisitation support
Wang et al. CMU OAQA at TREC 2015 LiveQA: Discovering the Right Answer with Clues.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190326