CN109460553B

CN109460553B - 一种基于门限卷积神经网络的机器阅读理解方法

Info

Publication number: CN109460553B
Application number: CN201811308503.XA
Authority: CN
Inventors: 陈武亚; 权小军
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-11-05
Filing date: 2018-11-05
Publication date: 2023-05-16
Anticipated expiration: 2038-11-05
Also published as: CN109460553A

Abstract

本发明提供一种基于门限卷积神经网络的机器阅读理解方法，通过构建门限卷积神经网络模型，包括输入层、门限卷积层和答案层；输入层用于编码目标文章，将编码的文章向量序列、问题向量序列和答案向量序列传送给所述门限卷积层；门限卷积层通过交互的方式产生具有高层语义信息的文章，问题，答案表达，并将这些表达传送给答案层；最后由答案层进行推理决策，做出预测；确定目标文章，导入门限卷积神经网络模型中进行机器阅读理解，导出预测结果。本发明提供的一种基于门限卷积神经网络的机器阅读理解方法，有效简化了神经网络模型，大大减少了训练和测试时长，提高了处理效率，提升了用户体验感；保持文本的长期依赖关系，准确预测出答案信息。

Description

一种基于门限卷积神经网络的机器阅读理解方法

技术领域

本发明涉及自然语言处理领域，更具体的，涉及一种基于门限卷积神经网络的机器阅读理解方法。

背景技术

机器阅读理解的目标是教机器学会阅读和理解人类语言，这是自然语言处理领域中一个长期的目标，它的任务形式主要包括完型填空阅读理解，段落抽取阅读理解，和开放域阅读理解。当我们给出一个文段、一个问题还有几个候选答案，机器能根据给定的文段和问题，并结合常识知识进行推理得出最终的答案。现在在该任务上的主流模型都是基于传统的循环结构，该结果虽然可以学习到文本的长期依赖关系，有利于促进模型进行推理，但该模型在训练和测试阶段很费时，这种高时间复杂度的问题限制了该模型在许多NLP任务的使用，影响用户体验，不利于研究的开展。

发明内容

本发明为克服上述现有存在的模型复杂度高，存在耗时长、影响用户体验及不利于研究的开展的技术缺陷，提供一种于门限卷积神经网络的机器阅读理解方法。

为解决上述技术问题，本发明的技术方案如下：

一种基于门限卷积神经网络的机器阅读理解方法，包括以下步骤：

S1：构建门限卷积神经网络模型，包括输入层、门限卷积层和答案层；其中，所述输入层用于编码目标文章，将编码的文章向量序列、问题向量序列和答案向量序列传送给所述门限卷积层；所述门限卷积层通过交互的方式产生具有高层语义信息的文章，问题，答案表达，并将这些表达传送给答案层；最后由所述答案层进行推理决策，做出预测；

S2：确定目标文章，导入门限卷积神经网络模型中进行机器阅读理解，导出预测结果。

其中，步骤S1中，所述输入层利用多方位信息编码目标文章，计算每个单词的多个角度的特征表达，包括：词语嵌入、关系嵌入、词性标注和命名实体嵌入、特征嵌入；其中：

所述词语嵌入通过300维Glove词向量初始化词语嵌入矩阵，选择词频最高的10个单词对应的词向量进行微调，从而得到每个词对应的词语嵌入；

所述关系嵌入通过提取ConceptNet库中所有的关系并为每个提取出来的关系赋值一个随机初始化的10维向量，将关系嵌入变成一个二维矩阵，矩阵行数为ConceptNet库的关系总数，列数为10；对于目标文章每个单词，若在ConceptNet库中存在一条连接该单词和问题与答案中任一单词的边，那该单词的关系嵌入就是该边所对应的向量；

所述词性标注和命名实体嵌入先计算目标文章的每个单词的词性、所属的实体类型；然后将每个单词的词性训练为49个不同类型的词性标签，每个初始化为10维向量；最后将每个单词所属的实体类型训练为18个不同的标签，每个初始化为8维向量；

所述特征嵌入包括：对数词频特征、词语共现特征、词语模糊匹配特征；所述对数词频特征为基于英语维基百科统计每个单词的词频，取其对数作为该单词的对数词频特征；所述词语共现特征是一个二元特征，若一个单词同时出现在文章、问题和答案中，该单词就具备词语共现特征；所述词语模糊匹配特征仅需要部分匹配即可。

其中，步骤S1中，所述门限卷积层包括门限机制模块，该模块的具体计算公式为：

g_i＝relu(w_i:i+k*w_g+V_gv_g+b_g)；

o_i＝tanh(w_i:i+k*w_o+b_o)；

c_i＝g_i·o_i；

其中，*为卷积操作；w_i:i+k为被卷积的文章向量、问题向量或答案向量；w_g和w_o为卷积核；v_g为参考向量；V_g和b_g分别为线性变换参数和偏置参数；o_i为对文本向量经过卷积后得到的特性映射；g_i为结合参考向量；o_i作为实际输出的比值，即为控制信息流动的门控；通过所述门限机制模块的一维卷积，门限卷积神经网络模型对文章、问题、答案进行交互，产生高层语义信息表达。

其中，所述门限卷积层还包括最大池化模块和自注意力机制；所述门限卷积神经网络模型对文章、问题、答案的交互具体包括以下步骤：

S21：利用普通卷积核为1和3的卷积网络对问题向量序列进行卷积并通过最大池化模块进行池化处理，得到一个表征问题语意信息的向量；

S22：将表征问题语意信息的向量作为参考向量，结合卷积核为3、4、5的一维卷积和门限机制模块对答案向量序列进行运算操作，并通过最大池化模块进行池化处理，得到一个表征答案语意信息的向量；

S23：将表征问题和答案语意信息的向量作为参考向量，结合卷积核为3、4、5的一维卷积和门限机制模块对文章向量序列进行运算操作，然后利用自注意力机制将目标文章文本每个单词的向量经过线性变换转化为一个标量，用softmax函数将得到的标量转化为对应的概率，即每个单词的权重，最后对这些单词向量加权求和，得到一个表征文章语义信息的向量。

其中，所述答案层将具有高层语义信息的文章、问题、答案表达串联起来，进行进一步建模，最终做出预测，具体采用双线性交互，具体计算公式为：

y＝σ(c_pW₃c_A+c_QW₄c_A)；

其中，c_p，c_Q，c_A分别代表具有高层语义信息的文章、问题、答案表达；y是相应的候选答案的预测分数。

与现有技术相比，本发明技术方案的有益效果是：

本发明提供的一种基于门限卷积神经网络的机器阅读理解方法，采用门限卷积神经网络作为模型基础架构，结合自注意力机制，有效简化了神经网络模型，一方面大大减少了训练和测试时长，提高了处理效率，提升了用户体验感；另一方面保持文本的长期依赖关系，准确预测出答案信息。

附图说明

图1为本发明方法流程图；

图2为门限卷积神经网络模型交互过程流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于门限卷积神经网络的机器阅读理解方法，包括以下步骤：

更具体的，在步骤S1中，所述输入层利用多方位信息编码目标文章，计算每个单词的多个角度的特征表达，包括：词语嵌入、关系嵌入、词性标注和命名实体嵌入、特征嵌入；其中：

更具体的，在步骤S1中，所述门限卷积层包括门限机制模块，该模块的具体计算公式为：

g_i＝relu(w_i:i+k*w_g+V_gv_g+b_g)；

o_i＝tanh(w_i:i+k*w_o+b_o)；

c_i＝g_i·o_i；

更具体的，如图2所示，所述门限卷积层还包括最大池化模块和自注意力机制；所述门限卷积神经网络模型对文章、问题、答案的交互具体包括以下步骤：

更具体的，所述答案层将具有高层语义信息的文章、问题、答案表达串联起来，进行进一步建模，最终做出预测，具体采用双线性交互，具体计算公式为：

y＝σ(c_pW₃c_A+c_QW₄c_A)；

在具体实施过程中，提出一个代替传统循环结构的门限卷积神经网络模型，充分利用门限卷积神经网络参数少，训练速度快并且能够有效提取局部特征的特点，结合自主力机制能有效建模长文本的长期依赖关系的优势，对文章，问题，答案进行有效地交互和推理，再做出预测。

在具体实施过程中，门限卷积神经网络是在普通卷积上加了一个门控开关，这个门控开关能结合参考向量，控制信息的流动，使得目标向量和参考向量能更好的交互，进而能得到具有更高层语义信息的表达。此外，门限卷积神经网络模型充分利用了外部知识，提取ConceptNet库的信息作为参考，有利于模型的推理和决策。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于门限卷积神经网络的机器阅读理解方法，其特征在于，包括以下步骤：

步骤S1中，所述输入层利用多方位信息编码目标文章，计算每个单词的多个角度的特征表达，包括：词语嵌入、关系嵌入、词性标注和命名实体嵌入、特征嵌入；其中：

所述特征嵌入包括：对数词频特征、词语共现特征、词语模糊匹配特征；所述对数词频特征为基于英语维基百科统计每个单词的词频，取其对数作为该单词的对数词频特征；所述词语共现特征是一个二元特征，若一个单词同时出现在文章、问题和答案中，该单词就具备词语共现特征；所述词语模糊匹配特征仅需要部分匹配即可；

步骤S1中，所述门限卷积层包括门限机制模块，该模块的具体计算公式为：

g_i＝relu(w_i:i+k*w_g+V_gv_g+b_g)；

o_i＝tanh(w_i:i+k*w_o+b_o)；

c_i＝g_i·o_i；

其中，*为卷积操作；wi:ik为被卷积的文章向量、问题向量或答案向量；

wg和wo为卷积核；vg为参考向量；Vg和bg分别为线性变换参数和偏置参数；oi为对文本向量经过卷积后得到的特性映射；gi为结合参考向量；c_i作为实际输出的比值，即为控制信息流动的门控；通过所述门限机制模块的一维卷积，门限卷积神经网络模型对文章、问题、答案进行交互，产生高层语义信息表达；

所述门限卷积层还包括最大池化模块和自注意力机制；所述门限卷积神经网络模型对文章、问题、答案的交互具体包括以下步骤：

S23：将表征问题和答案语意信息的向量作为参考向量，结合卷积核为3、4、5的一维卷积和门限机制模块对文章向量序列进行运算操作，然后利用自注意力机制将目标文章文本每个单词的向量经过线性变换转化为一个标量，用softmax函数将得到的标量转化为对应的概率，即每个单词的权重，最后对这些单词向量加权求和，得到一个表征文章语义信息的向量；

2.根据权利要求1所述的一种基于门限卷积神经网络的机器阅读理解方法，其特征在于，所述答案层将具有高层语义信息的文章、问题、答案表达串联起来，进行进

一步建模，最终做出预测，具体采用双线性交互，具体计算公式为：

y＝σ(c_pW₃c_A+c_QW₄c_A)；