CN111930887B

CN111930887B - 基于联合训练方式的多文档多答案机器阅读理解系统

Info

Publication number: CN111930887B
Application number: CN202010640437.7A
Authority: CN
Inventors: 孙宁; 王彬; 韩光洁
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2023-07-21
Anticipated expiration: 2040-07-06
Also published as: CN111930887A

Abstract

本发明提供了一种基于联合训练方式的多文档多答案机器阅读理解系统，系统包括：多文档排序选择模块、机器阅读理解模型、答案验证模块、机器阅读理解和答案验证模块的联合训练模块；多文档排序选择模块提供了一种多文档的筛选方案，选取与问题相关的段落内容作为机器阅读理解模型的输入；机器阅读理解模型能够从输入的多个段落内容中选取问题的答案；答案验证模块将机器阅读理解模型输出的多答案进行验证，选取正确的答案作为最终的输出；机器阅读理解模型和答案验证模块的联合训练模块使用联合训练的方式，最优化联合损失函数，得出两个模型的最优化参数。整个系统的算法实现了从多文档中进行检索，最终能输出多答案的功能。

Description

基于联合训练方式的多文档多答案机器阅读理解系统

技术领域

本发明涉及自然语言处理领域，尤其是一种基于联合训练方式的多文档多答案机器阅读理解系统。

背景技术

随着科学技术的发展与进步，智能设备与互联网不断的飞速发展，人们日常生活中产生了大量的电子数据，人类进入了大数据时代。而在这些海量的数据之中，以自然语言形式的保存的数据占据了其中的一部分，而这一部分也是人们获取信息的一个重要来源，人们可以在这些海量数据中搜寻自己需要的信息。但往往在日常的搜索之中需要花费巨大的时间与精力才能找到自己需要的信息。因此，我们对智能问答系统的需求日益增长。

目前能够针对多文本或者海量文本的机器阅读理解系统的研究还不完善，成熟的系统还较少，无法很好的从大量的文本中抽取出有效的信息回复用户。用户在进行提问时，系统无法从网络中提供的大量文本中抽取出正确有效的答案，或者提供一些答非所问的答案，使用户无法从大数据中获取到有用的信息，使得大量的文档失去了应有的价值。所以我们急需一个系统，能够根据用户提出的问题，从大量的文本中获取相关的信息，对于文档进行检索，给出问题的答案。这样能够在最简短的时间内，返回给用户有效的信息。

发明内容

本发明提供了一种基于联合训练方式的多文档多答案机器阅读理解系统，系统包括多文档排序选择模块、机器阅读理解模型、答案验证模块、机器阅读理解模型和答案验证模块的联合训练模块；

所述多文档排序选择模块提供了一种多文档的筛选方案，选取与问题相关的文章作为机器阅读理解模型的输入；

所述机器阅读理解模型能够从输入的多文章中选取问题的答案，该答案可能是多个的；

所述答案验证模块将机器阅读理解模型输出的多答案进行验证，选取正确的答案作为系统最终的输出；

所述机器阅读理解模型和答案验证模块的联合训练模块，使用联合训练的方式训练两个模块中的参数，最优化联合损失函数，得出两个模型的最优化参数。整个系统的算法实现了从多文档中进行检索，最终能输出多答案的功能。

多文档排序选择模块提供了一种文档排序选择功能，能够从大量的文档中选择出与问题相关的文章，并从文章中选取与问题相关的段落，将这些段落内容作为后续机器阅读理解模型的输入。整个多文档排序选择模块分为文档选择子模块与段落选择子模块；多文档排序选择模块的计算步骤如下：

(1-1)将文章输入进文档选择子模块，选择与问题相关的文档，剔除无关的文档，选择相关性最高的前k₁篇文档输入段落选择子模块；

(1-2)段落选择子模块将输入的文档的拆分为段落；

(1-3)对这些段落分别使用基于强度排序与基于匹配度排序的方案进行打分，将这两个分数进行加权求和；

(1-4)最后，将这些加权求和的分数进行排序，最终选择排名前k₂个段落作为多文档排序选择模块的输出。此处的k₁,k₂为自定义的超参数，用于控制选择的文章数和段落数。

上述步骤(1-1)中的文档选择子模块使用BM25算法与TF-IDF算法计算出问题与文档的相关性，选择相关性高的前k₁篇文档输入段落选择子模块。

上述步骤(1-1)中的段落选择子模块从文档选择子模块输出的文档中选择与问题相关的段落，作为最终多文档排序选择模块的最终输出；段落选择子模块包括基于强度的打分方案，基于匹配度的打分方案。

上述段落选择子模块中的基于强度的打分方案，具体内容为：使用BLEU-4分数计算问句与每个段落的分数，该分数记作score₁。

上述段落选择子模块中的基于匹配度的打分方案，具体内容为：提供了数量为N的文档，平均每个文档有K个段落，所以设P_i为段落内容，其中i是段落标号，从1到N*K，设问题为Q；将文章与问题/>中分割好的词语转换为各自的单词级词向量和/>将问题与段落的词向量输入双向LSTM网络中进行编码，得到新的编码向量和/>u^P表示文章内容，u^Q表示问题，计算公式为：

然后计算每个段落中包含问题答案的概率p(P_i|Q)，公式为：

其中sim(x,y)为相似性函数，用来衡量在段落P_i中包含问题Q的答案的概率，使用简单的评分函数，为两个向量的点积，具体公式为：

sim(x,y)＝x^T*y (4)

其中x,y为两个向量，代表函数的形参；模型的损失函数具体公式为：

其中θ表示该模型可训练参数，最终根据段落中包含问题的概率进行打分，输出基于匹配度的打分分数，该打分分数记为score₂。

上述步骤(1-3)中的对基于强度和基于匹配度的打分加权求和的具体公式为：

score_sum＝λ₁*score₁+λ₂*score₂ (6)

其中λ₁,λ₂为自定义的超参数，λ₁,λ₂∈(0，1)且λ₁+λ₂＝1，表示两种打分方案所占的权重。最终根据总分score_num进行排序，选择前k₂个段落内容进行输出。

上述的机器阅读理解模型采用的是基于注意力机制的机器阅读理解模型，该模型中有五个网络，包括：文章与问题词嵌入层、文章与问题编码层、基于注意力机制的答案搜索层、基于注意力机制的自匹配层、答案输出层；机器阅读理解模型的计算步骤如下：

(2-1)将文章与问题数据输入模型中，对文章与问题内容进行预处理工作；

(2-2)将处理好的词语输入文章与问题词嵌入层，将自然语言的词语转换成词向量形式；

(2-3)将文章词向量与问题词向量输入文章与问题的编码层，生成文章编码向量与问题编码向量；

(2-4)将文章编码向量与问题编码向量输入基于注意力机制的答案搜索层，先计算问题编码向量对于文章编码向量的注意力向量，然后生成基于问题注意力的文章编码向量；

(2-5)将基于问题注意力的文章编码向量输入基于注意力机制的自匹配层，计算基于问题注意力的文章向量与原先的文章向量的注意力向量，然后生成自匹配的文章向量；

(2-6)将自匹配的文章向量输入基于Pointer Networks网络答案输出网络，输出答案的开始位置与结束位置。

(2-7)本模型的损失函数L_answer为每个单词被选中概率的交叉熵损失函数，具体为：

其中a_k为段落中的单词，k是单词标号，K是该段落中的总单词数，P_i为段落内容，其中i是段落标号，Q为问题。

上述的所述答案验证模块对于机器阅读理解模型输出的候选答案进行验证，对候选答案的内容进行判断是否应该出现在答案中，并且对候选答案之间进行对比，确认答案的可信度，该模块包括，答案内容验证子模块、答案跨段落验证子模块。

上述的答案验证模块中的答案内容验证子模块，具体内容为：在机器阅读理解模型计算出候选答案之后，计算段落中的每一个词语出现在候选答案中的概率，段落中第k个单词出现概率计算公式为：

其中的表示为ReLU函数输出的参数，/>表示为基于问题注意力的文章编码向量/>的权重参数。本模块的损失函数设为L_content，用于验证文章内容是否应该出现在答案中，计算公式为：

其中N为段落数，|P|为单词数量，当该单词在答案中，则否则/>

上述的答案验证模块中的答案跨段落验证子模块，具体内容为：在机器阅读理解模型计算出候选答案之后，每个候选答案需要去各个段落搜集证据，与其他的候选答案交换信息并相互验证，用来确认答案的有效性；给定所有段落每个候选答案会通过注意力机制与其他候选答案一起收集支持性信息，具体公式为：

其中，S_i,j为候选答案之前的交叉内容，α_i,j为对S_i,j使用softmax函数计算的结果，用于表示两者的内容的相关程度，为基于注意力权重从其他段落中搜集到的验证信息，然后将其与原始表示/>一起输入全连接层，具体公式为：

其中为全连接层的输出，w^v表示全连接层中的可训练参数，对这些段落分数进行归一化处理，这样可以获得候选答案A_i的验证分数/>具体公式为：

损失函数L_verify可以公式化为正确答案的负对数概率，具体公式为：

其中N表示答案的数量，是第i个候选答案在所有答案中的索引。

上述的机器阅读理解模型和答案验证模块的联合训练模块，具体内容为：将机器阅读理解模型的损失函数L_answer与答案验证系统中答案内容验证的损失函数L_content与答案验证系统中答案跨段落验证的损失函数L_verify进行加权求和，具体公式为：

其中为自定义的超参数，用于控制权重，/>且/>最后使用总的损失函数进行参数的训练。

附图说明

图1是基于联合训练方式的多文档多答案机器阅读理解系统框架结构图；

图2是基于联合训练方式的多文档多答案机器阅读理解系统的算法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的应用原理做详细的描述。

如图1所示，一种基于联合训练方式的多文档多答案机器阅读理解系统，包括多文档排序选择模块、机器阅读理解模型、答案验证模块、机器阅读理解和答案验证模块的联合训练模块。

基于联合训练方式的多文档多答案机器阅读理解系统提供了一种多文档多答案输出的机器阅读理解算法，算法能够对处理多文档多答案的情况，根据问题从文本中搜索有效信息，最后将问题的答案输出。

本发明的算法流程如图2所示，首先输入多篇文章，将文章输入多文档选择排序模块，该模块将输入的多文档进行处理，筛选出与问题相关的段落。将段落内容输入机器阅读理解模型中，机器阅读理解模型根据问题从段落内容中找到问题的候选答案，将候选答案输出。候选答案输入答案验证模块，答案验证模块验证候选答案是否有效、可信，验证之后输出最终的答案。其中机器阅读理解和答案验证模块的联合训练模块用于机器阅读理解模型与答案验证模块的参数训练。最后根据真实答案与算法输出答案的比较，看是否满足要求，如果满足就停止训练，否则就继续训练以达到良好的效果。

实施例：

本发明采用了百度Dureader数据集里训练模型，该数据集数据量较大，其中每个问题都提供了多篇文章以供参考，并且数据都是由人进行提供与标注的。本算法的具体实施步骤如下：

(1)数据预处理

对用于训练的文章与问题数据进行预处理，具体操作步骤如下：

(1-1)清除问题中的无效字符，如“_百度知道”、“_百度问答”等与实际问题无关的词语。

(1-2)使用Jieba分词对处理好的文章内容、问题进行分词，生成分词好的文本数据。之后将分词后的文本输入词表生成程序，生成词表。

(1-3)将所有的数据进行划分批次，一个批次(batch)的数据将一起输入模型进行训练。

(1-4)将每一个批次(batch)中的数据内容保持到同样的长度，也就是在小于固定长度的文章与问题内容使用填充符(<pad>)的id进行字符填充。

(1-5)把一个批次(batch)的数据一同输入模型中进行训练。

(2)多文档选择排序模块

多文档选择模块中主要包括文档选择子模块，段落选择子模块，其中文档选择子模块的输出文章数k₁设为2，段落选择子模块的输出段落数k₂设为1。段落选择子模块中基于强度的打分方案和基于匹配度的打分方案的权重占比λ设为0.6。其中基于匹配度的打分方案中设置了3层的双向LSTM网络，对词向量进行编码。其中使用了Dropout，比例为0.5；LSTM中的隐藏单元数为48。

(3)答案验证模块

答案验证模块中主要包括答案内容验证子模块、答案跨段落验证子模块。答案内容验证子模块、答案跨段落验证子模块中的神经网络都为单层GRU网络。其中使用了Dropout，比例为0.5；GRU中的隐藏单元数为48。答案跨段落验证子模块中的全连接神经网络的层数为3层，隐藏层单元数为48。

(4)机器阅读理解模型与答案验证模块的联合训练模块

该方法中将两个模块的损失函数按权重相加，结合成最终的损失函数。使用AdaDelta作为优化函数，该优化函数可以自动调节学习率，设置初始学习率为0.5。

Claims

1.一种基于联合训练方式的多文档多答案机器阅读理解系统，其特征在于，所述系统包括多文档排序选择模块、机器阅读理解模型、答案验证模块、机器阅读理解模型和答案验证模块的联合训练模块；

所述多文档排序选择模块提供了一种多文档的筛选方案，剔除无关的文章段落，选取与问题相关的段落内容作为机器阅读理解模型的输入；

所述机器阅读理解模型能够从段落内容中寻找问题的答案，该答案并不一定是单一的，而可能是具有多个的；

所述答案验证模块将机器阅读理解模型输出的多答案进行验证，将验证正确的答案进行输出；

所述机器阅读理解模型和答案验证模块的联合训练模块使用联合训练的方式，最优化联合损失函数，得出两个模型的最优化参数；

所述多文档排序选择模块能够从大量的文档中选择出与问题相关的文章，并从文章中选取与问题相关的段落，将这些段落内容作为后续机器阅读理解模型的输入；所述多文档排序选择模块系统分为文档选择子模块与段落选择子模块；多文档排序选择模块的计算步骤如下：

(2-1)将文章输入进文档选择子模块，该模块使用BM25算法与TF-IDF算法计算出问题与文档的相关性，剔除无关的文档，选择相关性最高的前k₁篇文档输入段落选择子模块；

(2-2)段落选择子模块将输入的文档的拆分为段落；

(2-3)对这些段落分别使用基于强度排序与基于匹配度排序的方案进行打分，最终根据基于强度排序的打分score₁和基于匹配度排序的打分score₂，进行加权求和，具体公式为：

score_sum＝λ₁*score₁+λ₂*score₂ (1)

其中λ₁,λ₂为自定义的超参数，λ₁,λ₂∈(0，1)，且λ₁+λ₂＝1，表示两种打分方案所占的权重；

(2-4)最后，将这些加权求和的最终分数score_sum进行排序，最终选择排名前k₂个段落作为多文档排序选择模块的输出；

上述的k₁,k₂为自定义的超参数，用于控制选择的文档数和段落数。

2.根据权利要求1中所述的基于联合训练方式的多文档多答案机器阅读理解系统，其特征在于：所述的基于强度排序的打分方案的具体内容为：使用BLEU-4分数计算问句与每个段落的分数，这个总分表示了问句中的关键词在每个段落中出现的次数。

3.根据权利要求1中所述的基于联合训练方式的多文档多答案机器阅读理解系统，其特征在于：所述的基于匹配度排序的打分方案的具体内容为：提供了数量为N的文档，平均每个文档有K个段落，所以设P_i为段落内容，其中i是段落标号，从1到N*K，设问题为Q；将文章与问题/>中分割好的词语转换为各自的单词级词向量/>和将问题与段落的词向量输入双向LSTM网络中进行编码，得到新的编码向量/>和/>u^P表示文章内容，u^Q表示问题，计算公式为：

然后计算每个段落中包含问题答案的概率p(P_i|Q)，公式为：

其中sim(x,y)为相似性函数，用来衡量在段落内容P_i中包含问题Q的答案的概率，使用简单的评分函数，为两个向量的点积，具体公式为：

sim(x,y)＝x^T*y (5)

其中θ表示该模型可训练参数，最终根据段落中包含问题的概率进行打分，输出基于匹配度的打分分数。

4.根据权利要求1中所述的基于联合训练方式的多文档多答案机器阅读理解系统，其特征在于：所述机器阅读理解模型使用基于门控注意力机制的机器阅读理解模型，基于门控注意力机制的机器阅读理解模型对输入的段落进行处理，从中提取出提问问题的答案，返回结果；基于门控注意力机制的机器阅读理解模型的损失函数为每个单词被选中概率的交叉熵损失函数L_answer，计算公式为：

其中a_w为段落中的单词，k是单词标号，S是段落中的总单词数，P_i为段落内容，其中i是段落标号，Q为问题。

5.根据权利要求4中所述的基于联合训练方式的多文档多答案机器阅读理解系统，其特征在于：所述答案验证模块对于机器阅读理解模型输出的候选答案进行验证，主要对候选答案的内容进行判断，判断这些内容是否应该出现在答案中，并且对候选答案进行跨段落验证是否正确；所述答案验证模块包括，答案内容验证子模块、答案跨段落验证子模块。

6.根据权利要求5中所述的基于联合训练方式的多文档多答案机器阅读理解系统，其特征在于：所述的答案内容验证子模块的具体内容为：在机器阅读理解模型计算出候选答案之后，计算段落中的每一个词语出现在候选答案中的概率，段落中第k个单词出现概率计算公式为：

其中的W₁ ^c表示为ReLU函数输出的参数，表示为基于问题注意力的文章编码向量/>的权重参数；本模块的损失函数设为L_content，用于验证文章内容是否应该出现在答案中，计算公式为：

其中M为段落数，|P|为单词数量，当单词在答案中，则否则/>

7.根据权利要求6中所述的基于联合训练方式的多文档多答案机器阅读理解系统，其特征在于：所述的答案跨段落验证子模块的具体内容为：在机器阅读理解模型计算出候选答案之后，每个候选答案需要去各个段落搜集证据，与其他的候选答案交换信息并相互验证；给定所有段落每个候选答案会通过注意力机制与其他候选答案一起收集支持性信息，具体公式为：

其中为全连接层的输出，w^v表示全连接层中的可训练参数，对这些段落分数进行归一化处理，获得候选答案A_i的验证分数/>具体公式为：

损失函数L_verify公式化为正确答案的负对数概率，具体公式为：

其中N_a表示答案的数量，是第m个候选答案在所有答案中的索引。

8.根据权利要求7中所述的基于联合训练方式的多文档多答案机器阅读理解系统，其特征在于：所述的机器阅读理解模型和答案验证模块的联合训练模块的具体内容为：将机器阅读理解模型的损失函数L_answer与答案验证系统中答案内容验证的损失函数L_content与答案验证系统中答案跨段落验证的损失函数L_verify进行加权求和，具体公式为：