CN111177357B

CN111177357B - 一个基于记忆神经网络的对话式信息检索的方法

Info

Publication number: CN111177357B
Application number: CN201911406907.7A
Authority: CN
Inventors: 窦志成; 文继荣
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-05-23
Anticipated expiration: 2039-12-31
Also published as: CN111177357A

Abstract

本发明提出一种基于记忆神经网络的对话式信息检索的方法，通过建立检索模型，所述检索模型包括用户总体查询意图建模、当前查询特定意图建模和统计特征引入，所述用户总体查询意图建模利用用户的历史查询和历史点击信息建模会话内用户的整体查询意图，所述当前查询特定意图建模通过对当前查询词分析，找到最能表示当前特定查询意图的查询词来与文档进行交互，所述统计特征引入用于直接地衡量候选文档与整个查询序列的关系。

Description

一个基于记忆神经网络的对话式信息检索的方法

技术领域

本发明涉及一种检索方法，尤其涉及一个基于记忆神经网络的对话式信息检索的方法。

背景技术

对话式检索可以在使搜索引擎的用户可以采用类似对话的方式和搜索引擎进行交互获取想要的搜索结果。这种搜索方式一方面可以帮助用户将一个复杂的搜索任务分割成若干个简单的搜索任务，另一方面可以使用户在搜索过程中，通过搜索引擎的反馈结果，逐渐明确自己的核心搜索意图，从而形成更高效便捷的搜索过程。

现有技术用于解决对话式检索问题的方法主要是基于会话的检索模型，然而对话式检索与基于会话的检索的一大区别在于对话式检索中的查询更为简略，正如人们日常生活中对话时，通常会省略之前对话提到的事物，因此想要理解查询意图，不仅需要更好地理解查询历史，还需要更好地理解检索结果历史以及用户点击历史。另外，对话式检索过程中用户的查询意图较为发散，因而对当前查询的意图需要更精细的理解。现有技术中由基于反馈的记忆神经网络来提升检索效果，然而该模型中关于检索结果负例的使用不适用于对话式检索。本发明采用记忆神经网络存储历史的正例搜索结果用于理解用户的总体搜索意图，同时利用基于核的神经网络模型理解用户当前的搜索意图，并通过大量的特征设计提升检索效果。

发明内容

本发明提出了一种基于记忆神经网络的对话式信息检索的方法，通过建立检索模型，所述检索模型包括用户总体查询意图建模、当前查询特定意图建模和统计特征引入，所述用户总体查询意图建模利用用户的历史查询和历史点击信息建模会话内用户的整体查询意图，所述当前查询特定意图建模通过对当前查询词分析，找到最能表示当前特定查询意图的查询词来与文档进行交互，所述统计特征引入用于直接地衡量候选文档与整个查询序列的关系。

本发明有效地解决了对话式信息检索问题中用户意图发散的问题及当前查询信息缺失的问题。本发明应用在搜索引擎上可以大大提升用户的搜索体验，这体现在用户可以将复杂的查询任务分隔开，由浅入深地完成搜索任务。以及在用户与搜索引擎地交互过程中，用户可以更好地完善与明确自己的查询意图。

附图说明

图1为本发明的整体框架图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

对话式信息检索将用户的搜索行为视作用户与搜索引擎的对话过程。但是与对话机器人不同之处在于，搜索引擎无法显式地给用户类似人与人之间交流时的回答，而是通过返回检索到的文档列表，作为提供给用户的隐式回复，这里隐式的含义是搜索引擎给用户的回答包含在文档中需要用户自己阅读与选择。这样的交互方式使得对话式检索与传统的信息检索任务有着显著的差异，从传统的单方主导的交互方式，变化为双方共同主导的交互方式。一方面搜索引擎根据用户提供的一系列查询逐渐明晰用户的查询意图进而返回更符合该意图的文档，另一方面用户也根据搜索引擎反馈的信息判断搜索引擎理解的搜索意图，根据搜索引擎的理解与实际意图的偏差调整查询的表述方式，进而提供更贴合真实搜索意图的查询。

以实际会话中的查询序列为例，对于当前查询"What training is required fora PA"，如果不借助外部知识库，很难理解这里的PA是什么意思，但是如果看到历史查询中的"What is a physician assistant"和"physician assistant average salary"，就不难知道PA是"physician assistant"的意思。就这一点而言，基于会话的检索模型也可以做到实体含义的理解，实际上，对话式检索的查询再此基础上会更加简洁，比如当前查询被简化成"What training is required"，甚至前一个查询也被简化成"their averagesalary"，此时只有第一个查询中有"physician assistant"这个表现核心搜索意图的词汇。因而在对话式检索问题中，在用户查询的信息量及其有限的情况下，充分挖掘用户点击文档的信息变得尤为重要。

另一方面，一般会话内的所有查询的意图不会有很大差距，但是对话式信息检索中同一会话内的查询意图有时会有很大差别。比如，一会话中第一个查询为"What are thedifferent types of macromolecules？"，第二个查询为"Tell me about thecharacteristics of carbohydrates"，第六个查询为"Tell me about lipids"，可见第六个查询不仅像上文提到的省略了大量信息，而且与第二个查询的意图差别很大，所以第二个查询的相关信息应用在第六个查询的文档排序上时会产生偏差。

与基于会话的信息检索形式类似，对话式信息检索研究的用户查询同样来源于同一个会话内。定义会话历史S＝{q₁，q₂，...，q_t-1}，对应的用户历史点击文档为

其中n_i表示第i个查询对应点击的文档个数。给定当前的查询q_t，以及候选文档d_c，计算该候选文档的得分：Score(q_t，d_c)＝p(d_c|q_t，S，D_c)。以该得分为依据对文档列表进行排序，将结果返回给用户。

用户的总体意图需要通过会话的历史信息得到，尤其是用户的历史点击文档包含的信息，但是由于对话过程中主题的分散，并不是所有的历史点击文档都和当前的查询意图相关，因此本发明使用key-value记忆神经网络来存储历史信息，其中将历史查询作为键值(key)，将文档信息作为值(value)，因而可以通过历史查询与当前查询的相关程度选择可能对理解当前查询意图有利的文档信息。

如图1所示，本发明首先使用历史正例文档与历史查询构成记忆神经网络，使用当前查询到记忆神经网络中抽取相关信息，得到记忆向量r^m,将记忆向量与候选文档表示向量交互得到匹配特征f₁，然后使用当前查询中出现的各个词与查询历史中出现的各个词之间计算相似度，将每个查询词对应的所有相似度值相加得到对应权重，每个查询词得到的权重值拼接在一起得到权重向量。将改权重向量与每个查询词对应idf组成的向量相乘，就得到了查询词的注意力向量a^new,将该注意力向量用于当前查询与候选文档使用KNRM模型的匹配过程中，获得特征f₂，然后使用一些额外的统计特征，将这些特征通过全连接层获得匹配特征f₃。最后将所述三个匹配特征通过全连接层获得最终的匹配得分。

本发明首先对查询与文档语句进行表示。对查询q＝{w₁，w₂，...，w_l}，其中w_t表示查询中的第t个词，使用graph embedding的方式得到对应词向量表示x_t(graph embedding构建图时将处于同一查询以及同一文档中的词之间连成边，每个词作为一个结点)，使用双向LSTM处理词向量矩阵，得到每个词对应的隐含层向量表示

即由前向LSTM与后向LSTM模型得到的隐含层向量拼接而成，每个方向LSTM隐含层的向量是通过遗忘门、输入门、输出门三个门进行控制，它的计算过程如下：

其中的tanh()和σ()是激活函数，所有的W矩阵和

向量都是待训练的参数，

表示t时刻的输出门向量，

表示t时刻的上下文向量，

表示t时刻的输入门向量，

表示t时刻的遗忘门向量。由此得到查询q中每个词的隐含层表示H_q＝{h₁，h₂，...，h_l}。随后使用注意力机制将这些隐含层向量连接起来，得到查询q的表示向量r_q：

A＝Softmax(v^TH_qW_a)，A＝[α₁，α₂，...，α_l]

类似地，可以得到所有历史查询的表示

所有历史点击文档的表示

其中n_i表示第i个查询对应的点击文档数量，

表示第k个查询对应的第i个点击文档。当前查询的表示

以及候选文档表示

在对所有查询进行编码时使用的双向LSTM模型参数相同，对所有文档进行编码时使用的双向LSTM模型参数也相同。对同一历史查询对应的所有的历史点击文档表示求均值，得到key-value记忆神经网络中存储的值矩阵V：

对应的键值矩阵K就是历史查询的表示

当计算得到当前查询的表示

之后，为借助记忆神经网络通过历史知识更好地理解当前查询的意图，因而选取与当前查询语义更相近的历史查询，读取相应键值的记忆单元，将这些记忆单元通过加权合得到总体的记忆向量表示r_m：

最后将得到的记忆向量表示与候选文档表示向量进行交互，衡量候选文档与用户总体查询意图的相似程度

所述W₁表示待训练的参数。在对话式检索问题中，用户在整个会话内的查询意图相对分散，因而在理解用户当前查询意图是不能完全参考与过去查询过程中的相似处，还需要分析当前查询与历史查询的不同，从而建模出当前特定的查询意图。一些在历史查询中频繁出现的词在当前查询中如果也出现了，那么该词虽然有可能反应用户的查询意图，但相对于当前查询而言，改词具有的信息量相对低，对候选文档集的过滤作用往往不如一些新出现的词明显。针对这种情况，本发明采用了基于核方法的神经网络模型建模当前特定的查询意图。

参考KNRM模型，本发明用类似的方式对当前查询与候选文档进行交互，但是为了体现表示当前特定意图的词汇，在KNRM模型中为每个查询词引入了权重，该权重a^new衡量对应词汇的新鲜度，计算方式如下：

其中X_h表示历史查询中出现过的所有词的词向量，

为历史查询中出现的第i个词，X_h为历史查询中出现的所有词的集合，x_t表示当前查询中的第t个词。W₂为参数，用于计算当前查询词与历史出现的查询词之间的相似度。相似度越低，说明该词越能代表当前查询的特定意图，即含有更高的信息量。此外，词的idf同样可以反映改词含有的信息量多少，因而将idf加入到权重的计算中，即

为计算当前查询与候选文档的相关度，首先需要对二者词向量矩阵进行交互得到相似度矩阵M：

随后，参考KNRM模型中核方法的使用，使用多个高斯核来统计不同分布下词向量的相似程度，得到k维匹配特征

最后，将得到的k维匹配特征通过全连接层，得到当前查询与候选文档的相似度

所述W₃和b均为待训练的参数。

为了更直接地衡量候选文档与整个查询序列的关系，本发明引入了114维统计特征。考虑到每篇文档的第一句话经常是带有总结性质的，因而有57维特征是衡量整篇候选文档与用户查询序列的关系，另外57维特征是衡量候选文档第一句话与用户查询序列的关系。表1列出前57维特征的计算方式，后面57维特征的计算方式相同。

表1

其中与文档基本统计特征相关的有3维特征，与词频相关的有4维特征，与文档tfidf值相关的有5维特征，标准化词频特征有4维，文档与查询词共同词相关特征有7维，文档与查询词向量相似度特征有24维，这里文档和查询的总体词向量表示有2种计算方式，一种是将所有词向量直接相加，另一种是以各词的idf维权重将词向量加权得到。由于使用了word2vec和graph embedding2种方式表示词向量，因此每种相似度有4种计算方式，因此文档与查询词向量相似度特征共有24维。最后，当前查询词分别与之前的i个查询连接得到10个重组的查询，将这10个重组查询分别与文档计算BM25值和Rouge-L值，得到20维特征。故共得到57维特征。将这57维特征的计算方式从应用在文档上替换成应用在文档的第一句话上，又会得到57维特征，因而总共得到114维特征。将这114维特征通过多层感知机，得到1维匹配特征f₃。

将之前得到的三个匹配特征综合起来，通过全连接层得到最终的匹配分数，其中W₄为全连接层的参数：

Score(q_t，d_c)＝Leaky_ReLU(W₄[f₁；f₂；f₃])

模型训练过程采用pairwise的方式，即对候选文档序列中的一对文档，正例文档为

负例文档为

训练目标是让这对文档的得分差距尽可能大，损失函数为：

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于记忆神经网络的对话式信息检索的方法，其特征在于，通过建立检索模型，所述检索模型包括用户总体查询意图建模、当前查询特定意图建模和统计特征引入，所述用户总体查询意图建模利用用户的历史查询和历史点击信息建模会话内用户的整体查询意图，所述当前查询特定意图建模通过对当前查询词分析，找到最能表示当前特定查询意图的查询词来与文档进行交互，所述统计特征引入用于直接地衡量候选文档与整个查询序列的关系；

所述用户总体查询意图建模的具体方式为，首先对查询与文档语句进行表示，查询q＝{w₁,w₂,…,w_l}，其中w_t表示查询中的第t个词，使用graph embedding的方式得到对应词向量表示x_t，所述graph embedding构建图时将处于同一查询以及同一文档中的词之间连成边，每个词作为一个结点，使用双向LSTM处理词向量矩阵，得到每个词对应的隐含层向量表示

由前向LSTM与后向LSTM模型得到的隐含层向量拼接而成，每个方向LSTM隐含层的向量通过遗忘门、输入门、输出门三个门进行控制，它的计算过程如下：

其中的tanh()和σ()是激活函数，公式中的所有W矩阵和

向量都是待训练的参数，

表示t时刻的输出门向量，

表示t时刻的上下文向量，

表示t时刻的输入门向量，

表示t时刻的遗忘门向量，由此得到查询q中每个词的隐含层表示H_q＝{h₁,h₂,…,h_l}；所述l为正整数，

随后使用注意力机制将隐含层向量连接起来，得到查询q的表示向量r_q:

其中，A＝Softmax(v^TH_qW_a),A＝[α₁,α₂,…,α_l]

所有历史查询的表示

所有历史点击文档的表示

其中n_i表示第i个查询对应的点击文档数量，

表示第k个查询对应的第i个点击文档，所述当前查询的表示

以及候选文档表示

在对所有查询进行编码时使用的双向LSTM模型参数相同，并且对所有文档进行编码时使用的双向LSTM模型参数也相同；

对同一历史查询对应的所有的历史点击文档表示求均值，得到key-value记忆神经网络中存储的值矩阵V：

V＝[v₁,v₂,…v_t-1]，

其中

所述k为正整数，对应的键值矩阵K为历史查询的表示

选取与当前查询语义更相近的历史查询，读取相应键值的记忆单元，将这些记忆单元通过加权合得到总体的记忆向量表示r_m:

最后将得到的记忆向量表示与候选文档表示向量进行交互，衡量候选文档与用户总体查询意图的相似程度为

所述W₁表示待训练的参数。

2.如权利要求1所述的方法，其特征在于，所述当前查询特定意图建模的具体方式为，为每个查询词引入了权重a^new衡量对应词汇的新鲜度，计算方式如下：

其中X_h表示历史查询中出现过的所有词的词向量，所述W₂为参数，

为历史查询中出现的第i个词，X_h为历史查询中出现的所有词的集合，x_t表示当前查询中的第t个词；

然后计算当前查询与候选文档的相关度，对二者词向量矩阵进行交互得到相似度矩阵M：

所述W₃为待训练的参数，

为当前查询中第i个词的表示，

为候选文档中第j个词的表示；

随后使用多个高斯核来统计不同分布下词向量的相似程度，得到k维匹配特征

其中

所述μ_k和

分别表示第k个高斯核的均值和方差，将得到的k维匹配特征通过全连接层，得到当前查询与候选文档的相似度

所述W₃和b均为待训练的参数。

3.如权利要求2所述的方法，其特征在于，所述统计特征引入为引入了114维统计特征，将这114维特征通过多层感知机，得到1维匹配特征f₃，其中57维特征是衡量整篇候选文档与用户查询序列的关系，另外57维特征是衡量候选文档第一句话与用户查询序列的关系；最后将所述特征f₁、f₂、f₃通过全连接层得到最终的匹配分数。