CN110929515A

CN110929515A - 基于协同注意力和自适应调整的阅读理解方法及系统

Info

Publication number: CN110929515A
Application number: CN201911148081.9A
Authority: CN
Inventors: 王怀超; 李宏伟; 曹卫东
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2020-03-27
Anticipated expiration: 2039-11-21
Also published as: CN110929515B

Abstract

本发明公开了一种基于协同注意力和自适应调整的阅读理解方法及系统，属于机器阅读理解技术领域，其特征在于，包含：S1、输入文档词向量和问题词向量并进行训练，词向量包含字符级嵌入和词嵌入两个粒度；S2、使用余弦相似度计算问题与文档的相似度权重，根据相似度权重对文档词嵌入进行自适应调整；S3、将文档词向量和问题词向量通过多层双向门控循环单元进行编码；S4、对文档和问题使用协同注意力机制，获取带有问题感知的文档向量表示query‑aware和带有文档感知的问题向量表示para‑aware；S5、使用自注意力机制学习文档和问题的内部依赖关系，获取新的语义向量表示；S6、使用注意力作为指针，预测答案的开始位置和结束位置，根据答案跨度抽取答案序列。

Description

基于协同注意力和自适应调整的阅读理解方法及系统

技术领域

本发明属于机器阅读理解技术领域，特别是涉及一种基于协同注意力和自适应调整的阅读理解方法及系统。

背景技术

在自然语言处理和人工智能研究中，机器阅读理解注重考察对自然语言的理解能力和推理能力，是一项具有挑战性的任务。机器阅读理解是指以自然语言的形式给出文档和问题，机器通过对自然语言的理解和推理返回正确的答案。根据问题的类型，阅读理解任务可以分为三类：答案选择型、完型填空型和问答型。答案选择型旨在根据机器对文档和问题的理解，从多个候选答案中选出与文档语义最相近的选项作为正确答案。完型填空型是指使用一个占位符替换文档中的一个实体，通过理解上下文，选择最合适的实体填充问题中的占位符。问答型阅读理解需要机器阅读文档和问题后进行推理，自动生成答案。

针对答案选择型阅读理解任务，通常高度依赖于特征工程，无法直接建立端到端的深层模型。针对完型填空型阅读理解任务，通常只需要理解问题附近的文档信息，不需要对文档进行通篇阅读，不足以评估现有的阅读理解技术。为了满足对大型高质量阅读理解数据集的需求，问答式阅读理解数据集随之发布，基于注意力的神经网络模型已经成为阅读理解自动问答的一项普遍的研究课题。

单向注意力模型可以获取更多与文档相关的问题信息，但是无法利用单向注意力将上下文信息融入问题中，导致文档和问题的综合语义向量表示不准确。双向注意力模型可以实现问题和文档信息的交互。但往往忽略使用循环神经网络聚合长文本序列导致的信息丢失问题，影响模型的性能。

发明内容

本发明为了解决背景技术中提及到的技术问题，在精确匹配和模糊匹配指标上均得到显著提升，为此提出一种基于协同注意力和自适应调整的阅读理解方法及系统。

为了解决上述技术问题，本发明的技术方案为：

本专利的第一发明目的是提供一种基于协同注意力和自适应调整的阅读理解方法，包含下列步骤：

S101、输入文档词向量和问题词向量并进行训练，词向量包含字符级嵌入和词嵌入两个粒度；

S102、使用余弦相似度计算问题与文档的相似度权重，根据相似度权重对文档词嵌入进行自适应调整；

S103、将文档词向量和问题词向量通过多层双向门控循环单元进行编码；

S104、对文档和问题使用协同注意力机制，获取带有问题感知的文档向量表示query-aware和带有文档感知的问题向量表示para-aware；

S105、使用自注意力机制学习文档和问题的内部依赖关系，获取新的语义向量表示；

S106、使用注意力作为指针，预测答案的开始位置和结束位置，根据答案跨度抽取答案序列。

进一步，所述S101具体为：使用预训练好的GloVe模型进行训练生成词嵌入；将单词中的字符输入到BiGRU中进行计算生成字符级嵌入，将词嵌入和字符级嵌入进行拼接，输出文档词向量表示：p＝{p₁,p₂,…,p_T}，问题词向量表示：q＝{q₁,q₂,…,q_L}；对于单词X，其词向量表示为：[X_w；X_c]∈R^d，其中，X_w表示词嵌入，X_c表示字符级嵌入，符号[a；b]表示将向量a和向量b水平连接。

所述步骤102为：利用余弦相似度计算<文档,问题>单词对的相关性概率分布矩阵r_tl，求取每一列的最大值r_t作为文档中第t个单词与问题序列的相关权重。将文档词向量与权重相乘进行自适应调整，使重要词汇携带更多信息，生成新的文档词向量矩阵

将

输入到下一层。

所述S103为：将文档词向量矩阵和问题词向量矩阵输入双向门控循环单元中进行编码，输出文档和问题的特征矩阵表示。

所述S104为：融合文档和问题信息，生成注意力概率分布矩阵O，对注意力概率分布矩阵O按行归一化，得到文档注意力矩阵；按列归一化，得到问题注意力矩阵,将文档注意力矩阵应用于问题中，再用加入了注意力信息的问题矩阵替换原向量矩阵，再次对文档进行注意力计算；合并两次计算，生成基于协同注意力的问题和文档的相互依赖表示；加入文档特征信息，生成带有问题感知的文档向量表示；用同样的方式，计算带有文档感知的问题向量表示。

所述S105为：对感知向量表示使用自注意力机制动态收集序列内部的信息，聚合匹配向量，实现每个单词与段内其他单词的信息交互；

所述S106为：将问题聚合向量作为初始隐藏状态，以注意力机制为指针，将最大注意力得分所在的位置作为答案的开始位置，将当前注意力加权向量作为输入，使用双向门控循环单元学习带有答案开始位置信息的上下文语境向量作为预测答案结束位置的初始隐藏状态，再次使用注意力指针预测答案的结束位置。

本专利的第二发明目的是提供一种基于协同注意力和自适应调整的阅读理解系统，包括：

输入模块：将文档词向量和问题词向量作为输入进行训练，词向量包含字符级嵌入和词嵌入两个粒度；

过滤模块：使用余弦相似度计算问题与文档的相似度权重，根据相似度权重对文档词嵌入进行自适应调整；

编码模块：将文档向量和问题向量通过多层双向门控循环单元进行编码；

协同注意力模块：对文档和问题使用协同注意力机制，获取带有问题感知的文档向量表示query-aware和带有文档感知的问题向量表示para-aware；

自注意力模块：使用自注意力机制学习文档和问题的内部依赖关系，获取新的语义向量表示；

预测模块：使用注意力作为指针，预测答案的开始位置和结束位置，根据答案跨度抽取答案序列。

本专利的第三发明目的是提供一种实现上述基于协同注意力和自适应调整的阅读理解方法的计算机程序。

本专利的第四发明目的是提供一种实现上述基于协同注意力和自适应调整的阅读理解方法的信息数据处理终端。

本专利的第五发明目的是提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述的基于协同注意力和自适应调整的阅读理解方法。

本发明的优点及积极效果为：

本发明利用余弦相似度加强与问题相关文本的特征表示，借助协同注意力机制捕获文档和问题中的相关信息，使用自注意力机制学习当前时间步骤与上下文的关系，获取问题和文档的自匹配向量表示。该模型对于精确匹配和模糊匹配均具有较高性能，具有一定的应用价值。

附图说明

图1为本发明优选实施例的流程图；

图2为本发明优选实施例中不同学习率下的EM值；

图3为本发明优选实施例中不同学习率下的F1值。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹例举以下实施例，并配合附图详细说明如下。

下面结合附图1至图3对本发明的结构作详细的描述。

一种基于协同注意力和自适应调整的阅读理解方法，包含下列步骤：

步骤101中，将文档词向量和问题词向量作为输入进行训练，词向量包含字符级嵌入和词嵌入两个粒度；

具体步骤如下：

将单词转换成一个d维的向量，该向量包括词嵌入和字符级嵌入两个粒度。词嵌入由预训练好的GloVe模型训练而成；字符级嵌入通过将单词中的字符输入到双向门控循环单元中计算得到。将生成的文档词向量表示：p＝{p₁,p₂,…,p_T}，问题词向量表示：q＝{q₁,q₂,…,q_L}作为输入，捕获语义特征。

步骤102中，使用余弦相似度计算问题与文档的相似度权重，根据相似度权重对文档词嵌入进行自适应调整；

具体步骤如下：

首先利用余弦相似度计算<文档,问题>单词对的相关性概率分布矩阵:

式中，p_t∈p，q_l∈q。

然后求取每一列的最大值

作为文档中第t个单词与问题序列的相关权重。利用

赋予重要词汇更多信息，并将

输入到下一层。

步骤103中，将文档向量和问题向量通过多层双向门控循环单元进行编码；

具体步骤如下：

将文档向量和问题向量分别输入双向门控循环单元中进行编码，对输出向量进行水平拼接，生成特征矩阵表示。

步骤104中，对文档和问题使用协同注意力机制，获取带有问题感知的文档向量表示(query-aware)和带有文档感知的问题向量表示(para-aware)；

具体步骤如下：

融合文档矩阵

和问题矩阵

的信息，生成注意力概率分布矩阵，公式如下：

将O按行归一化，得到关于文档的问题注意力分数矩阵O^q；按列归一化，得到关于问题的文档注意力分数矩阵O^p：

O^q＝softmax(row(O))∈R^T×L (3)

O^p＝softmax(col(O))∈R^L×T (4)

将文档注意力矩阵应用于问题中，如式(5)所示：

使用加入了注意力信息的问题矩阵替换原向量矩阵，再次对文档进行注意力计算：

将式(5)与式(6)合并，

表示基于协同注意力的问题和文档的相互依赖表示。

由于答案预测需要基于文档信息，所以将文档特征矩阵

与注意力向量拼接，得到新的向量表示：

D^P的列向量query-aware帮助捕获文档中的重要信息。

使用同样地计算方式获取新的问题向量表示：

D^Q的列向量para-aware可以精准地表示问题中的关键部分。

步骤105中，使用自注意力机制学习文档和问题的内部依赖关系，获取新的语义向量表示；

具体步骤如下：

使用自注意力动态地收集序列内部的信息，聚合匹配向量，使得序列的每个时间步长可以与段内其他位置实现信息交互，如式(7)～(9)所示：

式中，

V和W_v是可训练参数，B∈R^T×L表示文档中每个单词与上下文单词的相似度矩阵，

表示第t个单词单词与第j个单词进行自匹配的注意力得分，

表示归一化后的分数，

是整篇文档的注意力加权向量。

将D^P与c^P进行拼接，经过双向门控循环单元得到文档融合上下文信息的语义向量表示。

采用同样的计算方式，生成问题融合上下文信息的语义向量表示。

步骤106中，使用注意力作为指针，预测答案的开始位置和结束位置，根据答案跨度抽取答案序列。

具体步骤如下：

作为预测答案开始点的初始隐藏状态。选取注意力得分最大值所在的位置，作为答案的开始点：

p_start＝max(a₁,a₂,…,a_T) (12)

式中，

v和

W_h是可训练参数。A_j表示文档中第j个单词与

的相似度，a_i为归一化后的得分。

将当前预测概率的注意力加权向量作为输入，使用BiGRU学习新的带有答案开始位置信息的上下文语境向量作为预测答案结束位置的初始隐藏状态：

采用同样地计算方式选择答案的结束位置。

实施例：

为了验证本模型的性能，本发明人设计了相应的实施例，与基于匹配长短时记忆网络和应答指针的端到端神经网络(Match-LSTM)、基于自匹配网络的阅读理解模型(R-Net)、动态协调网络(DCN)、双向注意流神经网络模型(BiDAF)、简单有效的多段落阅读理解模型(S-Norm)进行了对比；实验从学习率和随机失活两个角度考虑，验证了不同参数对模型准确率的影响。

对比一：为验证本文所提模型CARC在机器阅读理解领域的有效性，设计对比实验评价协调注意力和自适应调整阅读理解模型的性能。实验使用SQuAD数据集进行验证。实验结果如表1所示。

表1模型性能对比

根据表1可以看出，本文提出的CARC模型的性能最好，在验证集和测试集均有所提升，精确匹配率达到72.9％，模糊匹配率高达81.8％。Match-LSTM模型的性能最差，它通过软注意力(soft-attention)对问题和文档内容进行交互，语义表示能力较差。它利用序列(Sequence)模型和边界(Boundary)模型两种方式生成答案，验证了Boundary模型的预测能力相对较好。R-Net模型比Match-LSTM模型表现优异，因为它在使用注意力的基础上添加门控机制，加强了问题与文档的关联度。而本文提出的基于协同注意力和自适应调整的模型通过使用协同注意力机制，分别从问题角度和文档角度重点关注重要信息，进一步增强了文档和问题的相互联系，在测试集上比R-Net模型的精确匹配率提高了0.6％，模糊匹配率提高了1.1％，验证了本文提出的CARC模型的有效性。DCN模型和BiDAF模型均使用了双向注意力。DCN模型采用动态迭代的方式反复思考问题提升模型预测能力。BiDAF模型通过多阶段、层次化的方式获取多粒度的文档特征，增强文档的语义表示。但是，它们仅使用双向长短时记忆网络(BiLSTM)对文档信息进行聚合，降低了模型的表示能力，所以它们的性能一般。而本文通过对文档和问题使用自注意力机制，减少了文档长度对模型的影响，很好的表示了自匹配向量，在测试集上比DCN模型精确匹配率提高了6.7％，模糊匹配率提高了5.9％，比BiDAF模型精确匹配率提高了4.9％，模糊匹配率提高了4.5％，验证了CARC模型的有效性。S-Norm模型为了增强文档与问题的相关度，抽取多个相关段落完成阅读理解任务，但是被忽略的段落中可能与文档上下文或问题存在潜在的关联，导致模型性能下降。而本文利用自适应调整加强文档中重要信息的特征，比S-Norm模型精确匹配率提高了6.7％，模糊匹配率提高了5.9％。

对比二：学习率在深度学习中起着重要的作用，决定了目标函数收敛到局部最小值的能力与速度。若学习率设置的过小,会导致收敛过程缓慢。若学习率设置的过大,会导致梯度来回震荡，甚至无法收敛，降低模型性能。合适的学习率可以帮助目标函数快速的收敛到局部最小值。实验中学习率的大小分别设置为：0.01，0.001，0.0001，迭代次数设为5万次，实验数据使用SQuAD中的测试集。图1、图2展示了不同学习率取值对EM值和F1值的影响。

根据图2可得，横坐标表示迭代次数，纵坐标表示答案预测的精确匹配能力。根据曲线可以看出，当learning_rate＝0.01时，迭代2.5万次时EM值达到71.3％，但是2.5万次以后曲线不稳定，模型性能一般。当learning_rate＝0.0001时，迭代5万次曲线一直处于上升阶段，仍未收敛，模型性能最差。当learning_rate＝0.001时，迭代4万次时EM值达到72.7％，最先收敛，模型精确匹配率最高。根据图3可得，横坐标表示迭代次数，纵坐标表示答案预测的模糊匹配能力。可以看出，当learning_rate＝0.001时收敛速度最快，F1值取得最大值，模糊匹配能力最好。综合图2、图3可以得出，学习率取0.001时模型的理解和推理能力最好。

对比三：为了防止过拟合的发生，设置合适的随机失活值至关重要。随机失活值设置过高或过低都会影响模型的性能。合适的随机失活值可以控制训练集的训练精度，提高模型精度。实验在训练集和测试集上进行验证，迭代次数为5万次，随机失活选取了0.5，0.6，0.65，0.7，0.8五个不同的数值进行对比。实验结果如表2所示。

表2随机失活对模型性能的影响

根据表2可以看出，当随机失活值取0.8时，训练集和测试集的损失函数值相差最大，模型的表现较差。随着随机失活的减小，损失函数的差距减小，模型的性能逐渐提升。当随机失活值降低到0.6时，准确率达到最高值。当随机失活值取0.5时，在训练集和测试集上模型的性能都表现的最差。实验证明，当随机失活值取0.6时，协同注意力机器阅读理解模型具有最好的答案预测效果。

通过全面的对比不同参数对模型指标以及收敛时间的影响，选取了最优参数设置。通过实验结果可知，本文提出的基于协同注意力和自适应调整的阅读理解模型在阅读理解任务中具有相对较好的性能。

本发明提供的协同注意力和自适应调整阅读理解模型(CARC)模型的基本原理如下：利用余弦相似度加强与问题相关文本的特征表示，借助协同注意力机制捕获文档和问题中的相关信息，使用自注意力机制学习当前时间步骤与上下文的关系，获取问题和文档的自匹配向量表示。实验结果表明本文提出的模型对于精确匹配和模糊匹配均具有较高性能，在机器阅读理解领域具有一定的应用价值。

一种基于协同注意力和自适应调整的阅读理解系统，包括：

协同注意力模块：对文档和问题使用协同注意力机制，获取带有问题感知的文档向量表示(query-aware)和带有文档感知的问题向量表示(para-aware)；

一种实现上述上述优选实施例中基于协同注意力和自适应调整的阅读理解方法的计算机程序。

一种实现上述优选实施例中基于协同注意力和自适应调整的阅读理解方法的信息数据处理终端。

一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述优选实施例中的基于协同注意力和自适应调整的阅读理解方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅是对本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种基于协同注意力和自适应调整的阅读理解方法，其特征在于，包含下列步骤：

2.根据权利要求1所述的基于协同注意力和自适应调整的阅读理解方法，其特征在于，所述S101具体为：使用预训练好的GloVe模型进行训练生成词嵌入；将单词中的字符输入到BiGRU中进行计算生成字符级嵌入，将词嵌入和字符级嵌入进行拼接，输出文档词向量表示：p＝{p₁,p₂,…,p_T}，问题词向量表示：q＝{q₁,q₂,…,q_L}；对于单词X，其词向量表示为：[X_w；X_c]∈R^d，其中，X_w表示词嵌入，X_c表示字符级嵌入，符号[a；b]表示将向量a和向量b水平连接。

3.根据权利要求1所述的基于协同注意力和自适应调整的阅读理解方法，其特征在于，所述步骤102为：利用余弦相似度计算<文档,问题>单词对的相关性概率分布矩阵r_tl，求取每一列的最大值r_t作为文档中第t个单词与问题序列的相关权重。将文档词向量与权重相乘进行自适应调整，使重要词汇携带更多信息，生成新的文档词向量矩阵

将

输入到下一层。

4.根据权利要求1所述的基于协同注意力和自适应调整的阅读理解方法，其特征在于，所述S103为：将文档词向量矩阵和问题词向量矩阵输入双向门控循环单元中进行编码，输出文档和问题的特征矩阵表示。

5.根据权利要求1所述的基于协同注意力和自适应调整的阅读理解方法，其特征在于，所述S104为：融合文档和问题信息，生成注意力概率分布矩阵O，对注意力概率分布矩阵O按行归一化，得到文档注意力矩阵；按列归一化，得到问题注意力矩阵,将文档注意力矩阵应用于问题中，再用加入了注意力信息的问题矩阵替换原向量矩阵，再次对文档进行注意力计算；合并两次计算，生成基于协同注意力的问题和文档的相互依赖表示；加入文档特征信息，生成带有问题感知的文档向量表示；用同样的方式，计算带有文档感知的问题向量表示。

6.根据权利要求1所述的基于协同注意力和自适应调整的阅读理解方法，其特征在于，所述S105为：对感知向量表示使用自注意力机制动态收集序列内部的信息，聚合匹配向量，实现每个单词与段内其他单词的信息交互；

7.一种基于协同注意力和自适应调整的阅读理解系统，其特征在于，包括：

8.一种实现权利要求1所述基于协同注意力和自适应调整的阅读理解方法的计算机程序。

9.一种实现权利要求1所述基于协同注意力和自适应调整的阅读理解方法的信息数据处理终端。

10.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1所述的基于协同注意力和自适应调整的阅读理解方法。