CN112307182A

CN112307182A - 一种基于问答系统的伪相关反馈的扩展查询方法

Info

Publication number: CN112307182A
Application number: CN202011178079.9A
Authority: CN
Inventors: 侯嘉伟; 张伟楠
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-02-02
Anticipated expiration: 2040-10-29
Also published as: CN112307182B

Abstract

本发明提出了一种基于问答系统的伪相关反馈的扩展查询方法,借鉴一些问答系统中成熟的语义挖掘模块，比如注意力机制等，使得模型可以真正理解用户的搜索意图，从而根据查询与文档的交互语义信息来选择扩展词项。与传统模型相比，由于加入了语义交互特征，扩展词项选择的效果显著提高。此外，我们还进一步加入基于成对损失函数的神经网络来理解词项的统计学特征，运用词频、逆文档频率等来纠正语义模型可能存在的语义漂移问题。实践证明，我们的方法相比于之前传统的伪相关反馈算法有着更高的排序准确度及更好的鲁棒性，可以被应用于各类搜索场景。

Description

一种基于问答系统的伪相关反馈的扩展查询方法

技术领域

本发明涉及信息检索方法领域，特别是搜索引擎中基于伪相关反馈算法的扩展查询方法研究。

背景技术

在信息技术日益发达的今天，越来越多的人开始用搜索引擎检索浏览和查询相关知识，搜索引擎则根据用户的需求和一些相关算法，运用特定的策略从互联网中检索出定制信息返回给用户。但是由于互联网生态的多元化以及信息量的快速增长，用户很难准确并高效的给出所需的查询，所以用户为搜索引擎提供的可能只是一些简短的查询或者少数的查询词项，这就有可能导致搜索引擎无法完全获取用户的查询意图，进而使得无法返回最佳的满足用户需求的检索结果。查询扩展技术也就应运而生了，一般情况下，搜索引擎可以通过对于用户提出的原始查询进行合理的扩展在一定程度上解决上述问题，也就是检索系统通过多种策略选择合适的词汇扩展原始查询，这样扩展后的查询语句就会包含更丰富的信息，之后根据扩展后产生的新的查询语句进行检索并向用户返回最终的结果。

在许多常用搜索场景下，系统会提前准备好近义词表或专有词表等，当用户提交查询后，根据提前定义好的规则，用近义词等词汇扩展原始查询，这种最简单的查询扩展方法只利用了用户原始查询中的信息，但由于大量原始查询本来就有信息缺失，所以这种简单的方法常常无法真正扩展出用户的搜索意图，系统需要结合更多的信息来完成查询扩展任务。伪相关反馈算法正是解决这类问题的一种有效算法，在伪相关反馈算法中，根据用户提出的原始查询，搜索引擎会进行第一次检索，第一次检索中的前k篇文档会作为伪相关文档，算法根据原始查询和伪相关文档选择词项对原始查询进行扩展，最后搜索引擎根据扩展后的查询进行第二次检索，并将检索结果返回给用户。在整个过程中，用户只需要提交原始查询即可，之后所有的操作都由系统内部完成，所以伪相关反馈算法可以在不影响用户体验的前提下，提高搜索的质量和效果。

分析近期关于伪相关反馈算法的专利技术：

申请号为201710370190.X的中国发明专利申请《一种基于伪相关反馈模型的信息检索方法及系统》建立了一种基于统计学特征的伪相关反馈模型，利用TFIDF、BM25等计算词项重要性，通过词语共现频率计算词与查询的相关性。但该方法仅仅依靠统计学特征判断扩展词项，无法理解查询与文档中的语义和意图，大量有效的长尾扩展词无法被选出。

申请号为201910031478.3的中国发明专利申请《基于语义相似度的伪相关反馈模型信息检索方法及系统》基于传统的Rocchio算法和语义相似度预测查询扩展词。但该方法仅使用上下文相关词嵌入向量，无法做到查询与文档间的语义交互，有信息丢失，同时，由于使用Rocchio算法结合语义相似度计算，忽略了词频等大量统计学特征，会使得扩展后的查询有语义飘移问题。

分析近期关于伪相关反馈算法的研究：

当前信息检索领域中对于伪相关反馈算法的研究根据算法模型利用的特征可以大致分为以下三类，基于统计学特征的伪相关反馈算法，基于语义特征的伪相关反馈算法和基于混合特征的伪相关反馈算法。

在基于统计学特征的伪相关反馈算法中，Montazeralghaem等在信息检索国际会议Special Interest Group on Information Retrieval(SIGIR 2018年第41届)上发表的Theoretical Analysis of Interdependent Constraints in Pseudo-RelevanceFeedback《伪相关反馈中相互依赖约束的理论分析》中通过理论分析给出了一些统计学特征及约束之间的相互关联性，结合这些关联性及统计学约束特征建立了计算扩展词项相关性的具体算法，该算法可以较好地利用统计学特征，但却完全忽略了查询与文档中的语义信息及用户的搜索意图。

在基于语义特征的伪相关反馈算法中，Roy等在信息检索国际会议SpecialInterest Group on Information Retrieval(SIGIR 2016年第39届)上发表的Using WordEmbeddings for Automatic Query Expansion《利用词嵌入的自动查询扩展》中建立了kNN算法结合语义相似度的完整算法，通过kNN一步步地筛选出语义相似度高地扩展词项。其不足在于：只利用上下文相关的词嵌入向量，完全忽略查询与文档间的语义交互信息，同时，忽略词频等特征可能会造成扩展后的查询语义飘移。

在基于混合特征的伪相关反馈算法中，Kuzi等在信息与知识管理国际会议TheConference on Information and Knowledge Management(CIKM 2016年第25届)上发表的Query Expansion Using Word Embeddings《利用词嵌入的查询扩展方法》通过多种基于余弦相似度的方法叠加挖掘语义特征，结合RM3算法有效利用统计学特征，最后用线性加权的方法将两种算法的结果通过一个可调参数结合起来选择扩展词项。该方法的问题在于，基于规则方式计算统计学特征的影响，模型泛化性差，只是利用词项的嵌入向量，没有有效的手段去挖掘查询与伪相关文档间的语义联系。

对国内外相关专利以及相关研究分析后可得出一下结论：目前信息检索领域的伪相关反馈算法无法对用户查询与伪相关文档间的语义交互信息进行有效的利用，造成相关算法无法识别用户的搜索意图，在查询扩展中有偏差。对词频等统计学信息的利用无法摆脱固定的规则模型，泛化性较差，无法充分利用特征交叉的信息。因此，本发明探究如何有效挖掘和利用查询与伪相关文档间的语义联系，并对统计学特征利用及特征交叉方法进行有效改进，从而完善查询扩展任务的伪相关反馈算法。

发明内容

有鉴于现有技术的上述缺陷，本发明的目的是提出一种基于问答系统的伪相关反馈的扩展查询方法，能够有效利用相关语义挖掘模型学习查询与伪相关文档间的语义联系，并通过成对损失函数训练的方法有效引入神经网络充分使得统计学特征交叉作用，从而共同提升查询扩展的效果，即扩展后的查询在排序时，NDCG等指标显著提高。

为此，我们提出可以借鉴问答系统中相对成熟的语义挖掘模型，并结合伪相关反馈算法自身的特点，设计一种具有创新性的基于问答系统的伪相关反馈算法。问答系统(QA)作为自然语言领域中成熟的语义挖掘任务，需要模型根据问题从相应的文章片段中选出一段句子作为答案来回答问题。由此可以看出，问答系统的任务和模型与伪相关反馈中极其相似，问答系统中的问题、文章片段和答案分别对应伪相关反馈中的查询、伪相关文档和扩展词项。

从传统模型的限制出发，基于问答系统与伪相关反馈算法的共同点，本发明算法的具体设计内容如下，

首先，是基于问答系统的语义挖掘模块，这个模块主要有输入层、注意力层和输出层。在输入层中，输入部分是原始查询以及某一篇伪相关文档的词项集，通过提前训练好的词向量模型可以得到这些词项的语义向量，借鉴transformer模型中的输入层，我们也使用相同的位置编码方式，并加到语义向量上，作为该层的输出，输入层的目的就是提取伪相关反馈模型中需要的词项语义信息，这些语义信息中已经加入了相对位置信息。

在注意力层中，又可以进一步分为多头注意力层以及注意力流层。多头注意力层采用了自注意力机制，自注意力机制最近被广泛运用于问答系统等多种自然语言任务，可以有效挖掘词项序列内部的语义联系，在多头注意力层中，分别对伪相关反馈文档以及原始查询中的词项序列使用自注意力机制，得到包含词项序列内部相关语义信息的向量，多头注意力层又会使用多个自注意力模块，使得模型可以注意来自不同位置的不同表示子空间的语义信息。因此，多头注意力层的输入是词项的上下文无关语义向量，输出是词项考虑了其序列内部相关语义信息的语义向量，目的是是分别挖掘了伪相关文档以及原始查询中的内部语义信息。在这之后，注意力流层采用问答系统模型中常用的双向注意力机制，这种注意力机制可以分别考虑查询-文档以及文档-查询两个方向的交互语义信息，通过建立相似性矩阵与加权求和的方式识别查询与伪相关文档间的语义交互信息。

在输出层中，由于伪相关反馈的输出扩展词项一定是来自于伪相关文档的，也就是模型的输出一定来自模型的输入，所以该模块的输出层通过指针网络来实现，最终的输出就是某一篇伪相关反馈文档的词项集中的每一个词作为扩展词项的概率。整个算法模块通过交叉熵损失函数可以得到有效的训练。在模型推理阶段，将多篇伪相关反馈文档分别输入模型，将输出进行简单的求和即可得出推断结果。

其次，是基于统计学特征的模块，该模块的目的是为了解决语义模型存在的语义漂移问题，这些特征包括，词频、逆文档频率、文档长度等等。具体来说，就是将伪相关文档中出现过的词项作为候选扩展词项，对于每一个候选扩展词项，都会有一个基于统计学特征的向量来表征这个词项对于某一个特定查询的信息，这个特征向量的具体组成是：查询归一化词频、使用拉普拉斯平滑后的逆文档频率以及这些词项在每一篇伪相关文档中的归一化词频。之后，为了使得统计学特征得到有效的利用，使用神经网络代替了传统的统计学方法以达到特征充分交叉的目的，在神经网络的训练方法上，没有采用平方差等传统的损失函数，而是采用成对损失函数，即对于每一个扩展词项，可以定义如果原始查询在扩展这个词项后，排序得到的NDCG有所提升，就认为这个词是正例，反之这个词项则为负例。通过正负例的成对训练，使得神经网络模型可以针对NDCG或MAP等指标有特定的优化训练。采用这样的损失函数的原因是查询扩展中关注的是词项的相对排序，最后只需要选择排序靠前的作为最终扩展词项即可。

最终将之前两部分介绍的模块通过加权求和的方式结合在一起，即可生成最终的基于问答系统的伪相关反馈算法。在模型训练阶段，两部分模块会进行并行训练，在测试阶段，两部分训练好的模块结合预测一个候选词项应该被扩展的概率。以上就是本发明所设计的基于问答系统的伪相关反馈模型的大致结构。

检索查询的流程，包括：

步骤1、根据查询Q的关键字对文档集D进行初次检索。

步骤2、取出初次检索结果中的前k篇为伪相关文档集合D’，其中的词作为候选扩展词。

步骤3、通过基于问答系统的模块，计算查询与文档的语义交互信息得出每个候选词被扩展的概率。

步骤4、通过基于统计学特征的模块，提取候选词的归一化词频、逆文档频率等，并通过神经网络预测扩展概率。

步骤5、将步骤3、步骤4得出的候选词及其权重进行线性融合，最终提取出前n个查询扩展词。

步骤6、将原查询与扩展词线性加权融合生成新的查询Q’。

步骤7、根据新查询Q’进行第二次检索，生成最终查询结果。

优选地，步骤1中，首先会对查询关键字和文档集做预处理，具体过程包括分词和去除标点及停用词，在英文中要将词项筛选为词根形式。

进一步地，步骤2中，初次检索结果作为候选的伪相关文档集，计算候选的伪相关文档集中每一个文档的BM25分数，根据BM25分数对文档进行降序排列，提取出前k篇文档作为伪相关文档集，候选扩展词项就是这个文档集中文档所包含的所有词。

进一步地，步骤3中，基于问答系统的模块包括输入层，输入为原始查询Q和一篇伪相关文档D_u，通过Fasttext预训练模型可以得到其中每一个词项的对应词嵌入向量，借鉴transformer模型中的输入层，我们也使用相同的位置编码方式，加上对应的位置编码，即可得到注意力层的输入向量Q＝{q₁，q₂，...，q_n}与D_u＝{d_u，1，d_u，2，...，d_u，m}，其中n为原始查询长度，m为文档集中的文档长度。

进一步地，步骤3中，基于问答系统的模块包括注意力层，注意力层中通过多头注意力层得到上下文相关语义向量来挖掘文本内部语义信息，多头注意力层通过自注意力机制的堆叠实现，这里给出针对自注意力机制实现，即：

其中dim_K为词嵌入向量维度，此处需要注意的是，词嵌入向量{d_u，1，d_u，2，...，d_u，m}在输入注意力层前需要经过参数矩阵做一次乘法运算；将多个这样的自注意力模块堆叠即可得到多头注意力层的输出。

进一步地，步骤3中，基于问答系统的模块包括注意力流层，注意力流层采用双向注意力机制，这种注意力机制可以分别考虑查询-文档以及文档-查询两个方向的交互语义信息；

首先，对于一篇伪相关反馈文档以及查询中的词项集，可以建立一个相似性矩阵

矩阵中的每一列分别表示文档中的词项，每一行分别表示查询中的词项，每一项的值表示一个查询词项和一个文档词项的相关度。

文档-查询注意力表示哪一个查询词项与伪相关文档中的每一个词项是最相关的，对查询矩阵每一行通过softmax进行归一化a_i：＝softmax(S_i：)，再将查询词项的语义向量通过该归一化权重带权相加就可以得到文档查询注意力矩阵：

A_i：＝∑_ja_ijr_j

其中r_j表示查询经过多头注意力层的输出，

查询-文档注意力则表示文档中的哪一个词与查询中的每一个词是最相关的，采用与文档-查询注意力矩阵相似的求法可以得到这个方向的注意力矩阵，其中权重矩阵为：

得到的注意力向量矩阵为：

其中，o_i表示伪相关文档经过多头注意力层的输出，这里的

复制m次即可得最终的矩阵

最后将两个方向的注意力矩阵与原始文档词项集语义向量组成的矩阵求平均值即可得到注意力流层的输出：

进一步地，步骤3中，基于问答系统的模块包括输出层指针网络，输出层指针网络用来限制语义模块的输出一定来自伪相关文档，具体形式为

其中W₁，W₂，W₃为可训练参数矩阵，

表示查询语义向量，E_i：为注意力层的输出，这里的P_pointer(d_u，i|Q，D_u)表示第u篇伪相关文档D_u中第i个词项d_u，i被扩展的概率。

之后，将k篇伪相关文档的结果加和即为基于问答系统模块结果

进一步地，步骤3中，基于问答系统的模块训练通过交叉熵损失函数来实现，对于每一个候选词项，该词为正例当且仅当原始查询扩展该词后，排序相关指标NDCG等有提升，否则为负例，具体交叉熵损失函数为：

进一步地，步骤4中，基于统计学特征的模块主要是为了纠正语义模块的语义漂移问题，在算法中，会先为每一个候选扩展词项建立统计学特征向量

其中，

表示词项w在查询Q的归一化词频，

表示逆文档频率，

表示在w伪相关文档D_u中的归一化词频，

表示词项w在文本中的词频，C表示文档总数，C_w表示出现过词项w的文档总数，avg_l表示平均文档长度，α为可设置的超参数。

通过神经网络对特征向量进行预测

W_PRF(w|Q)P_lambda(w|Q)＝sigmoid(W₄·relu(W₅·FV(w，Q)+b₅)+b₆)

进一步地，步骤4中，基于统计学特征的模块，在训练前对每一个候选词项的标签进行判断，如果该词项被扩展后可以使得排序指标NDCG提高，则这个词为正例样本，否则为负例样本，使用的成对损失函数计算方法为

其中，s_i和s_j分别表示神经网络对于词项i和词项j被扩展概率的预测分数，

和

分别表示对于原始查询Q扩展词项i和j后NDCG的提升值。

进一步地，步骤5中，基于问答系统的伪相关反馈算法的最终结果

W(w|Q)＝γW_QA(w|Q)+(1-γ)W_PRF(w|Q)

其中γ为超参数。

进一步地，步骤6中，根据每个候选词项的分数W(w|Q)选出排在前M为的词项为扩展词项，使用这些查询对原始查询Q进行扩展后得到新的查询Q′为

P(w|Q′)＝(1-β)P(w|Q)+β

其中β为超参数。

与现有技术相比，本发明的有益效果如下：

相比于业界常用的基于伪相关反馈算法的扩展查询方法在排序效果、准确率和鲁棒性上都有提升。

附图说明

图1是本发明实施例的方法的说明图；

图2是本发明实施例的基于问答系统的模块结构及处理过程；

图3是本发明实施例的整体结构图及处理过程。

具体实施方式

以下参考说明书附图介绍本申请的优选实施例，使其技术内容更加清楚和便于理解。本申请可以通过许多不同形式的实施例来得以体现，本申请的保护范围并非仅限于文中提到的实施例。

以下将对本发明的构思、具体结构及产生的技术效果作进一步的说明，以充分地了解本发明的目的、特征和效果，但本发明的保护不仅限于此。

本发明的一个实施例：

如附图1，检索查询的流程，包括：

步骤1、初次检索

通过相关性检索模型，根据查询Q的关键字对文档集D进行第一次检索。

首先会对原始查询和文档集做预处理，具体过程包括分词和去除标点及停用词，在英文中要将词项筛选为词根形式。

步骤2、候选词项

取出初次检索结果中的前k篇为伪相关文档集合D’，其中的词作为候选扩展词。

具体为，初次检索结果作为候选的伪相关文档集，计算候选的伪相关文档集中每一个文档的BM25分数，根据BM25分数对文档进行降序排列，提取出前k篇文档作为伪相关文档集，候选扩展词项就是这个文档集中文档所包含的所有词。

步骤3、基于问答系统的模块，通过计算查询与文档的语义交互信息得出每个候选词被扩展的概率。

步骤4、基于统计学特征的模块，提取候选词的归一化词频、逆文档频率等，并通过神经网络预测扩展概率。

步骤5、将两个模块得出的候选词及其权重进行线性融合，最终提取出前n个查询扩展词。

步骤6、扩展查询

将原查询与扩展词线性加权融合生成新的查询Q’。

步骤7、最终检索

通相关性检索模型，根据新查询Q’进行第二次检索，生成最终查询结果。

所述步骤3中，基于问答系统的模块结构及处理过程，如图2所示：

结合图2按自下而上的顺序说明，

最底层为输入层，该模块的输入为原始查询Q和一篇伪相关文档D_u，通过Fasttext预训练模型可以得到其中每一个词项的对应词嵌入向量，借鉴transformer模型中的输入层，我们也使用相同的位置编码方式，加上对应的位置编码，即可得到注意力层的输入向量Q＝{q₁，q₂，...，q_n}与D_u＝{d_u，1，d_u，2，...，d_u，m}，其中n为原始查询长度，m为文档集中的文档长度。

接下来是注意力层，注意力层中通过多头注意力层得到上下文相关语义向量来挖掘文本内部语义信息，多头注意力层通过自注意力机制的堆叠实现，这里给出针对自注意力机制实现，即：

这里只给出了基于一篇伪相关文档的自注意力机制实现，对于查询的自注意力机制算法与该式相同，其中dim_K为词嵌入向量维度，此处需要注意的是，词嵌入向量{d_u，1，d_u，2，...，d_u，m}在输入注意力层前需要经过参数矩阵做一次乘法运算。将多个这样的自注意力模块堆叠即可得到多头注意力层的输出。

接下来是注意力流层，注意力流层采用双向注意力机制，这种注意力机制可以分别考虑查询-文档以及文档-查询两个方向的交互语义信息。

A_i：＝∑_ja_ijr_j

其中rj表示查询经过多头注意力层的输出，

得到的注意力向量矩阵为：

其中，o_i表示伪相关文档经过多头注意力层的输出，这里的

复制m次即可得最终的矩阵

最后是输出层指针网络，用来限制语义模块的输出一定来自伪相关文档，具体形式为

其中W₁，W₂，W₃为可训练参数矩阵，

这部分模型的训练通过交叉熵损失函数来实现，对于每一个候选词项，该词为正例当且仅当原始查询扩展该词后，排序相关指标NDCG等有提升，否则为负例，具体交叉熵损失函数为

步骤4中，基于统计学特征的模块主要是为了纠正语义模块的语义漂移问题，在算法中，会先为每一个候选扩展词项建立统计学特征向量

其中，

表示词项w在查询Q的归一化词频，

表示逆文档频率，

表示在w伪相关文档D_u中的归一化词频，

通过神经网络对特征向量进行预测

W_PRF(w|Q)P_lambda(w|Q)＝sigmoid(W₄·relu(W₅·FV(w，Q)+b₅)+b₆)

在训练前对每一个候选词项的标签进行判断，如果该词项被扩展后可以使得排序指标NDCG提高，则这个词为正例样本，否则为负例样本，使用的成对损失函数计算方法为

和

分别表示对于原始查询Q扩展词项i和j后NDCG的提升值。

步骤5中，合并步骤3与步骤4中的两个模块的结果得到基于问答系统的伪相关反馈算法的最终结果

W(w|Q)＝γW_QA(w|Q)+(1-γ)W_PRF(w|Q)

其中γ为超参数。

如图3所示，为包含了两个模块的整体结构及处理流程图。

步骤6中，根据每个候选词项的分数W(w|Q)选出排在前M为的词项为扩展词项，使用这些查询对原始查询Q进行扩展后得到新的查询Q′为

P(w|Q′)＝(1-β)P(w|Q)+β

其中β为超参数。

步骤7中，使用新得到的查询Q′进行第二次检索，方法与步骤1相同，即可得到最终检索结果，可用于测评或模型预测。

为了验证本发明方法的实际效果，在多个标准集上做了对比实验，在对比实验中，基线算法为不采用伪相关反馈的检索模型以及包括背景技术中三篇研究论文在内的伪相关反馈算法，这些算法被认为是现在信息检索中效果较好的伪相关反馈算法。本实验使用了一个标准的国际数据集TREC Disks 4&5和一个公开的中文数据集OGeek，这些数据集的信息如下表所示：

数据集名称	查询数	文档数	平均文档长度	标注样本数
					TREC	250	174k	284	311k
OGeek	68253	662k	3.18	750k

表1实验数据集基本信息

在对比实验中，主要的评测指标有NDCG和MAP用来反映模型扩展后排序的整体效果，准确率Prec用来反映扩展查询后排序准确率，RI表示查询扩展后，NDCG提升的查询数量占总查询比例，用来反映模型的鲁棒性，其中NDCG和MAP在两个数据集上分别测排序前1000和前5篇文档效果，Prec在两个数据集上分别测排序前20和前5篇文档效果。整体对比实验效果如下表所示，

表2伪相关反馈算法对比实验

在表2中，无查询扩展即表示根据原查询搜索的结果，RM3+，LL(ALL)，MEDMM和SVM分别代表论文Selecting Discriminative Terms for Relevance Model，TheoreticalAnalysis of Interdependent Constraints in Pseudo-Relevance Feedback，Revisiting the divergence minimization feedback model和Selecting goodexpansion terms for pseudo-relevance feedback中的伪相关反馈算法。从表中可以观察得出，本发明算法相比于业界常用的有效伪相关反馈算法在排序效果、准确率和鲁棒性上都有一定的提升，表面本发明技术方案有效。

以上详细描述了本申请的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本申请的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本申请的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于问答系统的伪相关反馈的扩展查询方法，其特征在于，包括：

步骤1、根据查询Q对文档集D进行初次检索；

步骤2、取出初次检索结果中的前k篇作为伪相关文档集合D’，其中的词作为候选扩展词；

步骤3、通过基于问答系统的模块，计算所述查询Q与伪相关文档集合D’的语义交互信息得出每个所述候选扩展词被扩展的概率；

步骤4、通过基于统计学特征的模块，提取所述候选扩展词的归一化词频、逆文档频率，并通过神经网络预测扩展概率；

步骤5、将所述步骤3、所述步骤4得出的候选扩展词及其权重进行线性融合，最终提取出前n个查询扩展词；

步骤6、将所述查询Q与所述查询扩展词线性加权融合生成新的查询Q’；

步骤7、根据的所述查询Q’进行第二次检索，生成最终查询结果。

2.如权利要求1所述的扩展查询方法，其特征在于，所述步骤2中，所述初次检索结果作为候选的伪相关文档集，计算所述候选的伪相关文档集中每一个文档的BM25分数，根据BM25分数对文档进行降序排列，提取出前k篇文档作为所述伪相关文档集合D’，所述候选扩展词就是这个文档集中文档所包含的所有词。

3.如权利要求1所述的扩展查询方法，其特征在于，所述步骤3中，所述基于问答系统的模块包括输入层，其输入为所述查询Q和一篇伪相关文档D_u，通过Fasttext预训练模型得到其中每一个词项的对应词嵌入向量，加上对应的位置编码，即可得到下一层的输入向量Q＝{q₁，q₂，...，q_n}与D_u＝{d_u，1，d_u，2，...，d_u，m}，其中n为原始查询长度，m为文档集中的文档长度。

4.如权利要求3所述的扩展查询方法，其特征在于，所述步骤3中，所述基于问答系统的模块包括注意力层，所述注意力层中通过多头注意力层得到上下文相关语义向量来挖掘文本内部语义信息，所述多头注意力层通过自注意力机制的堆叠实现，即：