CN105956010B

CN105956010B - 基于分布式表征和局部排序的分布式信息检索集合选择方法

Info

Publication number: CN105956010B
Application number: CN201610251677.1A
Authority: CN
Inventors: 陈岭; 钱坤
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2016-04-20
Filing date: 2016-04-20
Publication date: 2019-03-26
Anticipated expiration: 2036-04-20
Also published as: CN105956010A

Abstract

本发明公开了一种基于分布式表征和局部排序的分布式信息检索集合选择方法，包括：接收来自用户的原始查询，对原始查询进行扩展得到扩展查询，并计算该扩展查询的分布式表征向量；针对每个集合的样本集中的任意一个文档，计算该文档的分布式表征向量，并以该文档与扩展查询对应的分布式表征向量之间的夹角的余弦值作为该文档的评分；针对任意一个集合，根据该集合的样本集中各个文档的评分计算该集合的评分，并选择评分较高的k个集合作为最终结果；每个集合的样本集通过对该集合采样得到。本发明采用分布式表征向量表示文档和查询，且采用基于局部排序的查询与集合相关度计算，引入文档评分阈值，提高了集合评分的准确度，进而提高检索精确度。

Description

基于分布式表征和局部排序的分布式信息检索集合选择方法

技术领域

本发明涉及分布式信息检索技术领域，具体涉及一种基于分布式表征和局部排序的分布式信息检索集合选择方法。

背景技术

分布式信息检索(Distributed Information Retrieval，DIR)系统通常将大文档集(文档数目多)划分为若干小文档集(文档数目少)，每个小文档集(简称集合)由一台服务器独立存储和检索。在接收到用户的查询后，分布式信息检索系统将查询同时转发给多个服务器，再将服务器返回的结果进行合并，最后返回给用户。一般情况下，查询与各集合的相关度是不同的，为降低检索开销，分布式信息检索系统通常先计算查询与集合的相关度，得到集合评分；再按集合评分将集合降序排列；最后将查询转发给排名靠前的k个集合所在的服务器，这个过程被称为集合选择。

近二十年来，分布式信息检索集合选择领域涌现了许多研究。其中一部分方法将集合视为一个“超大文档”(big document)。如CVV(The Cue-Validity-Variance)和CORI(Collection Retrieval Information Network)等方法使用词典、词频率和文档频率等统计信息计算集合评分，这些方法不仅忽略了集合大小，还要求每个集合提供能描述其自身的词典和词频等统计信息，这在非协同式环境下很难实现。

另外一部分方法将集合看作是由众多小文档构成的。如ReDDE(RelevantDocument Distribution Estimation)、CRCS(Central-rank-based CollectionSelection)和SHIRE(Sampling-based Hierarchical Relevance Estimation)等方法使用TF-IDF形式的关键词相关度和起预测作用的拟合函数来计算查询与文档的相关度(为表述方便，本发明将“查询与文档的相关度”简称为“文档的评分”)，但忽略了语义信息。Matthias等人使用ESA向量表示查询和集合，并将向量相似度作为集合评分，然而ESA向量易受到维灾影响。此外，现有集合选择方法的文档排序方式亦不合理，一般情况下，用户更关心与查询最相关的文档，故集合评分应与最相关文档的相关度成正比，而现有的文档排序方式则会漏掉部分集合的最相关文档。

发明内容

针对现有技术的不足，本发明提供了一种基于分布式表征和局部排序的分布式信息检索集合选择方法，该方法兼具检索效率高和检索精确度高的优点。

一种基于分布式表征和局部排序的分布式信息检索集合选择方法，包括：

步骤1，接收来自用户的原始查询，对原始查询进行扩展得到扩展查询，并计算该扩展查询的分布式表征向量；

步骤2，针对每个集合的样本集中的任意一个文档，计算该文档的分布式表征向量，并以该文档与扩展查询对应的分布式表征向量之间的夹角的余弦值作为该文档的评分；

步骤3，针对任意一个集合，根据该集合的样本集中各个文档的评分计算该集合的评分，并选择评分较高的k个集合作为最终结果；

每个集合的样本集通过对该集合采样得到。

采用结合Wikipedia和ListNet的查询扩展方法对原始查询进行扩展，具体过程如下：

步骤100，根据原始查询的关键词在Wikipedia所有网页中进行检索，将检索得到的网页标题作为候选扩展词；

步骤101，针对每一个候选扩展词，根据该候选扩展词和原始查询的关键词在Wikipedia各个网页的摘要和正文部分出现的情况计算该候选扩展词的特征向量，并计算该特征向量与权重向量的内积作为候选扩展词的评分，

作为优选，所述特征向量和权重向量的维数相同，所述权重向量使用ListNet算法训练得到；

步骤102，将评分较高的若干个(具体个数可根据应用需要设定)候选扩展词作为关键词增加到原始查询即得到扩展查询。

本发明中扩展查询的分布式表征向量根据如下公式计算得到：

其中，V_q'为扩展查询q'的分布式表征向量，V_term为预先计算的得到词term的分布式表征向量，tf_term为词term在扩展查询q'中的词频率。

进一步优选，各个文档以及词term的分布式表征向量均通过PV模型训练得到。

作为优选，每个集合的样本集通过对该集合按照预设采样率采用基于查询的采样方法采样得到。

进一步优选，步骤3计算集合c的评分包括：

步骤300，从该集合的样本集中确定满足如下条件的文档作为最相关文档，并形成最相关文档集：

其中，d_l为样本集中评分降序排序时排名为第l的文档，为样本d_l的评分，τ_c为针对集合c预设的评分阈值，ω_c为针对集合c预设的评分排名阈值；

步骤301，根据如下公式计算集合c的评分R_c：

其中，α_c为对集合c采样时的采样率，π_c为集合c的最相关文档集。

为保证查询精度，本发明中τ_c根据如下公式设定：

τ_c＝β×D_d，

其中，D_d为样本集中评分最高的文档d的评分，β为全局参数，取值范围为[0,1]。

本发明中，k、l、ω_c、β、α_c在实际应用需要根据实际应用需求设定。

与现有的技术相比，本发明具有如下优点：

1)本发明采用分布式表征向量表示文档和查询，并使用神经网络语言模型来获取分布式表征向量，提高了文档语义获取的准确度，从而提高查询与文档相关度的准确度；

2)使用结合Wikipedia和ListNet的查询扩展方法对原始查询进行扩展。通过引入Wikipedia来提高扩展词的质量，同时引入词频率、文档频率和词共现三类特征以及基于特征的学习排序算法ListNet，提高了查询语义获取的准确度；

3)采用基于局部排序的查询与集合相关度计算方法，在重定义文档的排序方式和权重计算方式的基础上，引入文档评分阈值，提高了集合评分的准确度，进一步提高检索精确度。

附图说明

图1为本实施例的基于分布式表征和局部排序的信息检索集合选择方法流程图；

图2为基于查询的采样算法流程图；

图3为计算文档评分子阶段流程图；

图4为选择集合子阶段的流程图。

具体实施方式

下面将结合具体附图和具体实施例对本发明进行详细说明。

本发明提出了基于分布式表征和局部排序的分布式信息检索集合选择方法，该方法使用表示一个集合，N_c表示集合c中文档的数目，一个分布式信息检索环境包含多个集合{c₁,c₂,…,c_M}，M是集合个数。s_c表示集合c的样本集，表示分布式信息检索系统的中心样本集。为提高检索效率，事先将可以提前计算的一些通用量或通用处理供后续查询使用。

本实施例的基于分布式表征和局部排序的信息检索集合选择方法流程图如图1所示，分为预处理和在线处理两个阶段。

预处理阶段

预处理的具体步骤如下：

1)使用“基于查询的采样”算法为集合c构建样本集s_c，其流程如图2所示。首先从查询日志中随机选取1个词作为初始查询词；然后在每轮检索中，将返回的前5个文档加入到样本集s_c，再从s_c中随机选取1个词作为下一轮检索的查询词；当s_c中文档数目达到400时停止采样；待所有集合的样本集构建完成，可得到中心样本集S；

2)将中心样本集S输入到PV模型进行训练，得到中心样本集中文档对应的分布式表征向量V_d和文档中各个词对应的分布式表征向量V_term等信息；

3)解析Wikipedia，获取Wikipedia中出现的词以及对应的TF和DF等语料统计信息(用于构建特征向量)；

4)为Wikipedia的所有网页建立索引，以提供检索功能(在“计算文档评分”时被使用)；

5)使用ListNet算法训练出权重向量w(在“计算文档评分”的步骤3中被使用)。ListNet的输入是一组查询Q＝{q¹,q²,q³,…,q^m}，每个查询qⁱ都对应一个词列表一个相关度评分列表和一个特征向量列表其中nⁱ表示eⁱ中元素个数；表示与查询qⁱ的相关度为的词，表示词对应的特征向量；来自Wikipedia的标题；sⁱ中的元素是降序排列的，并按照式子(1)计算

其中σ(*)是性能度量函数，本实施例中采用精确度来衡量性能度量函数，精确度p@n计算公式如下，

num表示在检索得到的前n个文档中与查询相关的文档数目，本实施例中n取10。

在线处理阶段

在线处理阶段分为计算文档评分和选择集合两个子阶段。

计算文档评分子阶段的流程如图3所示，具体步骤如下：

1)令q为用户输入的原始查询，在Wikipedia所有网页(每个网页被视为一个文档)的正文中进行检索，关键词为q，检索得到的网页的标题作为候选扩展词；

2)为候选扩展词e构建特征向量f(e)＝[f₁(e),f₂(e),…,f₁₂(e)]。式子(3)至(8)为摘要字段上的特征，其中式子(3)和(4)是词频率TF特征，式子(5)和(6)是文档频率DF特征，式子(7)和(8)是共现co-occurrence特征；tf(e|field_abstract)表示在Wikipedia的所有网页的摘要字段上，词e出现的次数；df(e|field_abstract)表示在Wikipedia的所有网页中，摘要字段包含词e的网页个数；t_k为查询q中的词，C(t_k,e|field_abstract)表示在Wikipedia的所有网页中，摘要字段同时包含词t_k和e的网页个数；(t_k,t_r)表示由q中的任意两个查询词构成的词对(无序)，θ是由q的所有词对构成的集合，|θ|是集合θ的元素个数，C(t_k,t_r,e|field_abstract)表示在Wikipedia的所有网页中，摘要字段同时包含词t_k、t_r和e的网页个数；正文字段上的特征(即f₂(e)，f₄(e)，f₆(e)，f₈(e)，f₁₀(e)和f₁₂(e))与摘要字段的类似；

3)采用式子(9)计算候选扩展词e的评分z_e，其中“·”代表两个向量的内积，并按照评分z_e将所有候选扩展词降序排列；

z_e＝f(e)·w (9)

4)选取排名靠前的γ个词追加到查询q中，得到扩展查询q′；

5)按照式子(10)计算q′对应的分布式表征向量V_q′，其中，tf_term是词term在q′中的词频率；

V_q′＝∑_term∈_q′V_term×tf_term， (10)

本实施例每个词的词频率为该词在查询中出现的次数与查询中词总数的比值。例如：查询是“今天天气真棒”，包括“今天”、“天气”、“真”和“棒”5个词，且这5个词的词频率分别就是1/6，2/6，1/6，1/6和1/6。

6)按照式子(11)计算V_q′与V_d之间的向量余弦值，并将其作为文档d的评分D_d；

D_d＝cos(V_q′,V_d) (11)

7)重复步骤6)，直至S中所有文档的评分均计算完毕。

选择集合子阶段的流程如图4所示，具体步骤如下：

1)将集合c的样本集s_c中的所有文档按照文档评分降序排列，得到文档序列

2)按照式子(12)计算集合c的文档评分阈值τ_c，其中d为s_c中文档评分D_d最大的文档，β是一个取值范围为[0,1]的全局参数；

τ_c＝β×D_d (12)

3)找出集合c的所有最相关文档。令d_l是文档序列中的一个文档，l为d_l的排名，ω_c是一个正整数，在样本集s_c的所有文档中，满足式子(13)的文档就是集合c的最相关文档，并用π_c表示集合c的所有最相关文档；

4)按照式子(14)计算集合c的评分R_c，其中α_c为集合c的采样因子，即集合c的文档总个数与其样本集s_c的文档总个数的比值，g(l)是文档的权重函数；

5)重复步骤1至4，直至所有集合的评分均计算完毕；

6)将所有集合按照集合评分降序排列，选取排名靠前的k个集合。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于分布式表征和局部排序的分布式信息检索集合选择方法，其特征在于，包括：

步骤1，接收来自用户的原始查询，对原始查询进行扩展得到扩展查询，并计算该扩展查询的分布式表征向量；所述扩展查询的分布式表征向量根据如下公式计算得到：

其中，V_q'为扩展查询q'的分布式表征向量，V_term为预先计算的得到词term的分布式表征向量，tf_term为词term在扩展查询q'中的词频率；

每个集合的样本集通过对该集合采样得到。

2.如权利要求1所述的基于分布式表征和局部排序的分布式信息检索集合选择方法，其特征在于，采用结合Wikipedia和ListNet的查询扩展方法对原始查询进行扩展。

3.如权利要求2所述的基于分布式表征和局部排序的分布式信息检索集合选择方法，其特征在于，步骤1中对原始查询进行扩展包括：

所述特征向量和权重向量的维数相同，所述权重向量使用ListNet算法训练得到；

步骤102，将评分较高的若干个候选扩展词作为关键词增加到原始查询即得到扩展查询。

4.如权利要求1所述的基于分布式表征和局部排序的分布式信息检索集合选择方法，其特征在于，各个文档以及词term的分布式表征向量均通过PV模型训练得到。

5.如权利要求1～4中任意一项所述的基于分布式表征和局部排序的分布式信息检索集合选择方法，其特征在于，每个集合的样本集通过对该集合照预设采样率采用基于查询的采样方法采样得到。

6.如权利要求5所述的基于分布式表征和局部排序的分布式信息检索集合选择方法，其特征在于，步骤3计算集合c的评分包括：

步骤301，根据如下公式计算集合c的评分R_c：

7.如权利要求6所述的基于分布式表征和局部排序的分布式信息检索集合选择方法，其特征在于，τ_c根据如下公式设定：

τ_c＝β×D_d，