CN109657246B

CN109657246B - 一种基于深度学习的抽取式机器阅读理解模型的建立方法

Info

Publication number: CN109657246B
Application number: CN201811556939.0A
Authority: CN
Inventors: 陈尧钧; 印鉴; 高静
Original assignee: Guangdong Hengdian Information Technology Co ltd; National Sun Yat Sen University
Current assignee: Guangdong Hengdian Information Technology Co ltd; National Sun Yat Sen University
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2020-10-16
Anticipated expiration: 2038-12-19
Also published as: CN109657246A

Abstract

本发明提供一种基于深度学习的抽取式机器阅读理解模型的建立方法，该方法使用卷积代替了广泛应用在机器阅读理解的LSTM、GRU等RNN的变种，不同于RNN当前时刻的计算依赖上一时刻，卷积是可以并行计算的，这使得模型不论训练还是推理速度都优于使用RNN变种的模型；在使用注意力机制捕捉关键信息时，使用到了多头注意力机制，使得对于文章这样的长文本能够捕捉所有相关的信息，进一步提升模型的准确率。

Description

一种基于深度学习的抽取式机器阅读理解模型的建立方法

技术领域

本发明涉及自然语言处理技术领域，更具体地，涉及一种基于深度学习的抽取式机器阅读理解模型的建立方法。

背景技术

自然语言处理是将人类自然语言转化为机器语言从而达到人机交互的一门技术。机器阅读理解是自然语言处理的核心任务之一，也是研究的热点之一，它对于搜索引擎、智能客服等都有直接的应用价值。阅读理解作为应试的常见题型，它需要应试者通过阅读原文和问题，然后综合原文和问题进行理解和推理，进而得到答案。这能够有效考察应试者理解文本的水平。而机器阅读理解与此类似，形式都是根据文章去提出一些问题，然后机器对问题进行作答。从答案类型的角度进行划分，可以分为选择题、问答题、完形填空等等。目前针对不同类型的题目都有相应的数据集陆陆续续地推出，推动着机器阅读理解的发展。比如针对问答题，就有SQuAD、MS MARCO数据集，但两个数据集设计有所不同。微软研究院发布的MS MARCO数据集要求对文本语义先进行归纳整合，再去生成具有自然语言形式的答案，所以针对此数据集的模型属于生成式模型。而斯坦福大学发布的SQuAD数据集将问题的标准答案设置为原文的一个片段，所以针对该数据集的模型属于抽取式模型，这类模型从原文中抽取一个片段作为答案。具体的抽取方法就是输出两个数字代表答案短语第一个单词和最后一个单词在原文的位置。

近年来深度学习的不断发展，使得LSTM、GRU等RNN的变种被广泛应用到机器阅读理解的任务中，结合注意力机制取得了不错的性能效果。但也正因为LSTM等RNN变种网络结构的使用，使得这些机器阅读理解模型的推理速度和训练速度都较慢。并且以往的模型大多在对文章进行注意力操作时仅进行一次，这对于长文本的文章来说可能无法捕捉到所有相关的信息，可能会漏掉一些关键信息。

发明内容

本发明提供一种基于深度学习的抽取式机器阅读理解模型的建立方法，利用该方法建立的模型可提升阅读理解的效率，并且保证较高的准确率。

为了达到上述技术效果，本发明的技术方案如下：

一种基于深度学习的抽取式机器阅读理解模型的建立方法，包括以下步骤：

S1：对文章和问题的句子进行分词；

S2：为每个文章词设置一个精准匹配特征，表示该文章词是否出现在问题中，如果出现则该特征置为1，否则置为0；

S3：把单词映射成词表当中对应的词向量，得到每个单词词级别的表示；

S4：把单词的每个字母映射成字符表当中对应的字符向量，输入到卷积神经网络训练得到固定大小的向量，得到每个单词字符级别的表示；

S5：将文章和问题的每个单词对应的词级别和字符级别的表示拼接在一起，分别输入到两层highway networks中，输出即为文章词和问题词的特征向量表示；

S6：将文章和问题的词向量表示分别通过多层卷积进行处理，从而融合每个词周围的上下文信息去调整每个词的表示；

S7：将S6得到的文章和问题的词向量表示通过文章-问题注意力机制，得到每个文章词对应相关的问题词表示；

S8：将S6得到的文章和问题的词向量表示通过问题-文章多头注意力机制，得到每个问题词对应相关的文章词表示；

S9：将S6得到的问题的词向量表示利用注意力机制，得到每个问题词对于整个问句表达的重要性占比，通过这个重要性占比与S8得到的每个问题词对应相关的文章词表示进行加权求和，从而得到一个与问题长度无关的向量，该向量整合了和问题相关的文章词信息；

S10：将S6得到的文章词表示、S2得到的每个文章词对应的精准匹配特征、S7得到每个文章词对应相关的问题词向量、S6和S7得到的每个词向量表示对应元素相乘的结果、S6的每个文章词向量表示和S9得到的向量对应元素相乘的结果进行合并，再次输入到多层卷积进行处理，从而融合每个文章词周围的上下文信息和精准匹配特征及结合S7、S9的注意力计算结果去整合每个词的表示；

S11：将S10得到的文章词向量表示通过文章-文章多头注意力机制，得到每个文章词在全文范围内的对应相关的上下文表示；

S12：将S10得到的文章词表示与S11得到的每个文章词对应相关的上下文表示进行合并，输入到多层卷积进行处理，从而融合每个词周围上下文和全局范围内的上下文去调整每个文章词的表示；

S13：将S12得到的文章词表示进行线性变换后，经过softmax函数进行归一化转化为一个概率分布，该分布代表了文章中每个单词是标准答案短语第一个单词的概率，优化该概率分布，作为模型的优化目标之一，使得标准答案短语第一个单词在原文的位置对应的概率相应增大，即通过代表标准答案短语的第一个单词在原文位置的One-hot向量和该概率分布计算交叉熵损失，得到L_s；

S14：预测答案短语最后一个单词的位置需要将预测答案短语第一个单词的位置的信息考虑在内，所以对S12得到的文章词表示再一次经过多层卷积进行处理得到新的文章词表示，最后通过线性变换和softmax函数归一化得到一个概率分布，该分布代表了文章每个单词是标准答案短语最后一个单词的概率，优化该概率分布，作为模型的优化目标之一，使得标准答案短语最后一个单词在原文的位置对应的概率相应增大，即通过代表标准答案短语的最后一个单词在原文位置的One-hot向量与该概率分布计算交叉熵损失，得到L_e；

S15：将S13和S14的两个优化目标相结合，即把S13的L_s和S14的L_e相加，就得到损失函数，使用基于梯度下降原理的优化器来进行优化训练；

S16：取S13和S14两个概率分布最大值的位置，分别对应了模型预测的答案短语的第一个单词和最后一个单词在原文中的位置，这两个位置区间的单词序列即为模型预测的答案短语。

进一步地，所述步骤S6中的多层卷积过程如下：

1)、设定多层卷积操作输出的词向量表示的维度大小为d，d为超参数，输入的每个词向量表示维度大小为v，词的个数为t个，则输入的大小1×t×v，如果d≠v，则需要先经过一层卷积操作，即设置步长为1，使用d个大小为1×1×v的卷积核对输入的词向量堆叠的矩阵进行卷积，则输出的每个词向量表示的维度大小就转化为d；

2)、设定每次要卷积的词的个数为k个，k为超参数，设置步长为1，使用d个大小为1×k×d的卷积核对输入的矩阵进行卷积操作，再经过relu激活函数得到输出；

3)、设定多层卷积的层数为z，z为超参数，所以步骤2)循环z次，每层的输入都为上一层的输出，且每次进行卷积前，为保证输出的词向量个数一致，对输入补零；

4)、设定步长为1，对步骤3)最后一层的输出使用d个大小为1×1×d的卷积核对其进行卷积操作，经过relu激活函数得到输出后再次使用d个大小为1×1×d的卷积核对其进行卷积操作，从而对特征进行进一步整合。

进一步地，所述的步骤S7中的文章-问题注意力机制过程如下：

1)、所有问题词表示进行堆叠就形成问题矩阵Q，所有文章词表示进行堆叠就形成文章矩阵P，矩阵Q和矩阵P的每一行都代表了一个词向量表示，输入一个文章词向量表示和一个问题词向量表示及它们向量对应元素相乘的结果，将三者拼接后进行线性变换，就得到该文章词和该问题词的相关性分数，为矩阵P的每个文章词表示和矩阵Q的每个问题词表示都计算相关性分数，就得到了相关性分数矩阵S，S_ij表示第i个文章词和第j个问题词相关性分数；

2)、对步骤1)得到的矩阵S按以下方式计算：

A＝softmax(S)Q

其中，矩阵A的每行代表了对应位置的文章词相关的问题词表示。

进一步地，所述的步骤S8中的问题-文章多头注意力机制过程如下：

1)、将所有问题词表示堆叠成的问题矩阵Q和文章词表示堆叠成的文章矩阵P通过线性变换映射到不同空间m次，得到Q₁，Q₂…Q_m和P₁，P₂…P_m，m为超参数；

2)、由步骤1)得到m个问题矩阵与m个文章矩阵按以下方式计算：

其中，1≤i≤m且i为整数，

为一个文章词向量表示的维度大小，矩阵H_i的每行代表了对应位置的问题词相关的文章词表示；

3)、最后将步骤2)得到的这m个相关文章词矩阵进行合并通过线性变换将这m次注意力计算的结果整合为一个矩阵，这个矩阵的每行代表了对应位置的问题词相关的文章词表示。

进一步地，所述的步骤S11中的文章-文章多头注意力机制过程如下：

1)、将所有文章词表示堆叠成的文章矩阵P通过线性变换映射到不同空间m次，P₁，P₂…P_m，m为超参数；

2)、由步骤1)得到m个文章矩阵按以下方式计算：

其中，1≤i≤m且i为整数，

为一个文章词向量表示的维度大小，矩阵H_i的每行代表了对应位置的文章词相关的上下文表示；

3)最后将步骤2)得到的这m个相关上下文矩阵进行合并通过线性变换将这m次自注意力机制计算得到的结果整合为一个矩阵，这个矩阵的每行代表了对应位置的文章词相关的上下文表示。

其中，模型的每层输入都会进行Batch Normalization，用以调整输入的分布和防止进行优化训练时梯度无法下降，并且层与层之间会进行残差连接；步骤S15的优化器包括：SGD+Momentum、AdaDelta或者Adam。

与现有技术相比，本发明技术方案的有益效果是：

本发明使用卷积代替了广泛应用在机器阅读理解的LSTM、GRU等RNN的变种。不同于RNN当前时刻的计算依赖上一时刻，卷积是可以并行计算的，这使得模型不论训练还是推理速度都优于使用RNN变种的模型。

本发明在使用注意力机制捕捉关键信息时，使用到了多头注意力机制，使得对于文章这样的长文本能够捕捉所有相关的信息，进一步提升模型的准确率。

附图说明

图1为本发明方法的流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于深度学习的抽取式机器阅读理解模型的建立方法，其具体实现包括以下步骤：

R1、对文章和问题的句子进行分词。

R2、为每个文章词设置一个精准匹配特征，表示该文章词是否出现在问题中，如果出现则该特征置为1，否则置为0。

R3、把单词映射成词表当中对应的词向量，得到每个单词词级别的表示，词表中的词向量为预训练的Glove词向量，维度大小为300。

R4、把单词的每个字母映射成字符表当中对应的字符向量，字符向量的维度大小为64。设置每个单词字母个数为16，个数小于16则进行补零，大于16则直接截断。每次卷积的字母个数为5，所以使用96个大小为1×5×64的卷积核对大小为1×16×64的单词进行卷积操作，并且卷积操作的步长设为1，然后再对每个卷积核卷积的结果进行最大池化得到固定大小的向量。对每个单词都进行卷积，就得到每个单词字符级别的表示。

R5、将文章和问题的每个单词对应的词级别和字符级别的表示拼接在一起，分别输入到两层highway networks中，输出即为文章词和问题词的特征向量表示，并且输出的每个词向量维度大小为96。

R6、将文章和问题的词向量表示堆叠成的矩阵使用多层卷积操作，具体过程如下：设定层数为7，设置步长为1，每次卷积单词个数为7，则一层卷积操作为使用96个大小为1×7×96的卷积核对输入的矩阵进行卷积操作，再经过relu激活函数得到输出。多层卷积每层的输入为上一层的输出。再使用96个大小为1×1×96的卷积核进行卷积操作，经过relu激活函数得到输出后再次使用96个大小为1×1×96的卷积核对输出进行卷积操作。

R7、将R6得到的文章和问题的词向量表示通过文章-问题注意力机制，得到每个文章词对应相关的问题词表示，具体过程如下：所有问题词表示进行堆叠就形成问题矩阵Q，所有文章词表示进行堆叠就形成文章矩阵P，矩阵Q和矩阵P的每一行都代表了一个词向量表示，输入一个文章词向量表示和一个问题词向量表示及它们向量对应元素相乘的结果，将三者拼接后进行线性变换，就得到该文章词和该问题词的相关性分数。为矩阵P的每个文章词表示和矩阵Q的每个问题词表示都计算相关性分数，就得到了相关性分数矩阵S，S_ij表示第i个文章词和第j个问题词相关性分数；对得到的矩阵S按以下方式计算：

A＝softmax(S)Q

R8、将R6得到的文章和问题的词向量表示通过问题-文章多头注意力机制，得到每个问题词对应相关的文章词表示，具体过程如下：将所有问题词表示堆叠成的问题矩阵Q和文章词表示堆叠成的文章矩阵P通过线性变换映射到不同空间8次，得到Q₁，Q₂…Q₈和P₁，P₂…P₈。将得到的8个问题矩阵与8个文章矩阵按以下方式计算：

其中，1≤i≤8且i为整数，矩阵H_i的每行代表了对应位置的问题词相关的文章词表示。最后将得到的这8个相关文章词矩阵进行合并通过线性变换将这8次注意力计算的结果整合为一个矩阵，这个矩阵的每行代表了对应位置的问题词相关的文章词表示。

R9、将R6得到的问题的词向量表示利用注意力机制，得到每个问题词对于整个问句表达的重要性占比，通过这个重要性占比与R8得到的每个问题词对应相关的文章词表示进行加权求和，从而得到一个与问题长度无关的向量，该向量整合了和问题相关的文章词信息。

R10、将R6得到的文章词表示、R2得到的每个文章词对应的精准匹配特征、R7得到每个文章词对应相关的问题词向量、R6和R7得到的每个词向量表示对应元素相乘的结果、R6的每个文章词向量表示和R9得到的向量对应元素相乘的结果进行合并，再次输入到多层卷积进行处理。多层卷积具体过程如下：此时输入的每个词向量维度大小为385≠96，所以先经过一层卷积操作，即设置步长为1，使用96个大小为1×1×385的卷积核对输入进行卷积，则输出的每个词向量表示的维度大小就转化为96。再进行多层卷积，先设定层数为4，设置步长为1，每次卷积单词个数为5，则一层卷积操作为使用96个大小为1×5×96的卷积核对输入的矩阵进行卷积操作，再经过relu激活函数得到输出。多层卷积每层的输入为上一层的输出。再使用96个大小为1×1×96的卷积核进行卷积操作，经过relu激活函数得到输出后再次使用96个大小为1×1×96的卷积核对输出进行卷积操作。

R11、将R10得到的文章词向量表示通过文章-文章多头注意力机制，得到每个文章词在全文范围内的对应相关的上下文表示，具体过程如下：将所有文章词表示堆叠成的文章矩阵P通过线性变换映射到不同空间8次，P₁，P₂…P₈，然后将得到8个文章矩阵按以下方式计算：

其中，1≤i≤8且i为整数，矩阵H_i的每行代表了对应位置的文章词相关的上下文表示。最后将得到的这8个相关上下文矩阵进行合并通过线性变换将这8次自注意力机制计算得到的结果整合为一个矩阵，这个矩阵的每行代表了对应位置的文章词相关的上下文表示。

R12、将R10得到的文章词表示与R11得到的每个文章词对应相关的上下文表示进行合并，输入到多层卷积进行处理。多层卷积具体过程如下：此时的输入的每个词向量维度大小为192≠96，所以先经过一层卷积操作，即设置步长为1，使用96个大小为1×1×192的卷积核对输入进行卷积，则输出的每个词向量表示的维度大小就转化为96。再进行多层卷积，先设定层数为14，设置步长为1，每次卷积单词个数为5，则一层卷积操作为使用96个大小为1×5×96的卷积核对输入的矩阵进行卷积操作，再经过relu激活函数得到输出。多层卷积每层的输入为上一层的输出。再使用96个大小为1×1×96的卷积核进行卷积操作，经过relu激活函数得到输出后再次使用96个大小为1×1×96的卷积核对输出进行卷积操作。

R13、将R12得到的文章词表示进行线性变换后，经过softmax函数进行归一化转化为一个概率分布，该分布代表了文章中每个单词是标准答案短语第一个单词的概率，通过代表标准答案短语的第一个单词在原文位置的one-hot向量和该概率分布计算交叉熵损失，得到L_s。

R14、将R12得到的文章词表示再一次经过多层卷积进行处理得到新的文章词表示，最后通过线性变换和softmax函数归一化得到一个概率分布，该分布代表了文章每个单词是标准答案短语最后一个单词的概率，通过代表标准答案短语的最后一个单词在原文位置的one-hot向量与该概率分布计算交叉熵损失，得到L_e。

R15、模型的每层输入都会进行Batch Normalization，并且层与层之间会进行残差连接。

R16、将R13的L_s和R14的L_e相加，就得到损失函数，使用Adam优化器来进行优化训练。

R17、取R13和R14两个概率分布最大值的位置，分别对应了模型预测的答案短语的第一个单词和最后一个单词在原文中的位置，这两个位置区间的单词序列即为模型预测的答案短语。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。