CN110795535A

CN110795535A - 一种深度可分离卷积残差块的阅读理解方法

Info

Publication number: CN110795535A
Application number: CN201911033469.4A
Authority: CN
Inventors: 蔡晓东; 郑淑婷; 侯珍珍; 田文靖
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-02-14

Abstract

本发明公开了一种深度可分离卷积残差块的阅读理解系统及方法，涉及自然语言处理技术领域，技术方案为，包括以下步骤：数据预处理，对数据进行词向量化表示，转化为网络能够识别的数据信息；提取上下文特征信息，采用卷积残差块对输入数据进行编码，获取输入文本上下文的语义信息；提取交互特征信息，采用三线性相似函数获取文本段落和问题间的语义交互信息；推测并输出答案，采用卷积残差快对交互信息进行编码，并输出预测。相对现有技术，本发明能够在确保答案准确性的同时，显著提升模型的训练和推理速率。

Description

一种深度可分离卷积残差块的阅读理解方法

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种深度可分离卷积残差块的阅读理解方法。

背景技术

阅读理解是指通过对文档的阅读和理解，从而推测出问题的正确答案。目前的阅读理解模型主要基于递归神经网络，它的序列特性很适合学习长距离文本上下文信息，但也排除了实例内的并行化，使训练和推理都很慢，对实时应用的部署带来很大挑战。针对该问题，利用深度可分离卷积可以多通道并行处理、计算复杂度低及残差网络容易优化等优点，提出一种基于深度可分离卷积残差块的阅读理解模型。首先，设计了一个深度可分离卷积和残差网络相结合的卷积残差块，该模块能够在网络深度增加的同时保持较少的参数，提升运算效率。在此基础上，利用设计的模块对阅读理解模型进行改进，达到更高效的语义理解能力。实验结果表明，与基准模型相比，提出的模型在确保答案推断准确性的同时，进一步显著提升了模型训练和推理的效率。

发明内容

针对上述技术问题，本发明提供一种深度可分离卷积残差块的阅读理解方法。

其技术方案为，包括如下步骤：

S1、采用NLTK(自然语言处理工具包)对待处理的阅读文本和提问问题进行预处理，并进行词向量化表示，转化为网络能够识别的数据信息；

S2、提取上下文特征信息，采用卷积残差块对所述阅读文本和提问问题进行编码，获取输入文本上下文的语义信息；

S3、提取交互特征信息，采用三线性相似函数获取阅读文本段落和所提问问题间的语义交互信息；

S4、推测并输出答案，采用卷积残差块对交互信息进行编码，并输出预测。

优选为，所述S1的具体步骤为：

S101、采用预先训练好的300维Glove模型对待处理的阅读文本和提问问题进行初始化，获得每个单词的词嵌入；

S102、采用卷积神经网络根据所述阅读文本和提问问题获得每个词的字符嵌入；

S103、将S101和S102获取的词嵌入和字符嵌入进行连接，得到输入数据信息的词向量表示。

优选为，所述S2具体步骤为：

S201、采用深度可分离卷积和残差网络，设计卷积残差块；

S202、在卷积残差块中引入多头注意力机制，去弥合文本段落或问题中在空间上完全不同但语义相关的词之间的差距，从而获取文本段落和问题中长距离的文本信息。

优选为，所述S3具体步骤为：

S301、采用三线性相似函数f(q,c)＝W₀[q,c,q⊙c]，计算文本段落和所提问问题间词的语义相似性，得到相似矩阵S；

S302、采用softmax函数，分别沿S的行和列进行归一化，分别得到

和

并将上下文-问题注意力计算为

将问题-上下文关注度计算为

其中Q和C是编码的问题和文本段落。

其中，上下文-问题，是通过计算上下文中的每一个词与整个问题的语义相关度，从而确定问题中哪些词是重要的，在寻找答案时重点关注；

问题-上下文，同理，确定上下文文本段落中哪些词重要。

优选为，所述S4体步骤为：

S401、采用卷积残差块进行编码，获取文本段落和问题间的交互特征信息；

S402、预测文本段落上下文中，每个位置是答案范围的开始或结束的概率；起始位置和结束位置的概率分别被建模为：

p¹＝softmax(W₁[B₀；B₁])；

p²＝softmax(W₂[B₀；B₂])；

其中W₁和W₂是两个可训练变量，B₀，B₁，B₂分别是三个模型编码器的输出；

跨度的得分是跨度区间起始位置和结束位置概率的乘积；因为本方案针对是问答式阅读理解，给出的问题答案是一个区间，此处的跨度得分是通过计算起始位置和结束位置为正确答案的概率。

目标函数为真实开始和结束指数索引的预测分布的负对数概率的和在所有训练样本上平均：

其中

和

分别是示例i答案的真实开始和结束位置，θ包含所有可训练变量；

在进行推理时，选择预测的跨度(k,l)使得

最大化并且k≤l。其中k,l表示开始位置和结束位置，s,e表示start和ending。

本发明实施例提供的技术方案带来的有益效果是：本发明能够在确保答案准确性的同时，显著提升模型的训练和推理速率。

附图说明

图1为本发明实施例的方法流程图。

图2为本发明实施例的卷积残差块图。

图3为本发明实施例的整体框架图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。当然，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，在不冲突的情况下，本发明创造中的实施例及实施例中的特征可以相互组合。

实施例1

参见图1至图3，本发明提供一种深度可分离卷积残差块的阅读理解方法，包括如下步骤：

S1、采用NLTK(自然语言处理工具包)对待处理的阅读文本和提问问题进行预处理，并进行词向量化表示，转化为网络能够识别的数据信息；具体为，

S2、提取上下文特征信息，采用卷积残差块对所述阅读文本和提问问题进行编码，获取输入文本上下文的语义信息；具体为，

S201、采用深度可分离卷积和残差网络，设计卷积残差块；

S3、提取交互特征信息，采用三线性相似函数获取阅读文本段落和所提问问题间的语义交互信息；具体为，

和并将上下文-问题注意力计算为

将问题-上下文关注度计算为

其中Q和C是编码的问题和文本段落。

问题-上下文，同理，确定上下文文本段落中哪些词重要。

具体为，

p¹＝softmax(W₁[B₀；B₁])；

p²＝softmax(W₂[B₀；B₂])；

参见图3，其中W₁和W₂是两个可训练变量，B₀，B₁，B₂分别是三个模型编码器的输出；

其中

和

在进行推理时，选择预测的跨度(k,l)使得

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度可分离卷积残差块的阅读理解方法，其特征在于，包括如下步骤：

S1、采用NLTK对待处理的阅读文本和提问问题进行预处理，并进行词向量化表示，转化为网络能够识别的数据信息；

2.根据权利要求1所述的基于深度可分离卷积残差块的阅读理解方法，其特征在于，所述S1的具体步骤为：

3.根据权利要求2所述的基于深度可分离卷积残差块的阅读理解方法，其特征在于，所述S2具体步骤为：

S201、采用深度可分离卷积和残差网络，设计卷积残差块；

4.根据权利要求1-3所述的基于深度可分离卷积残差块的阅读理解方法，其特征在于，所述S3具体步骤为：

和

并将上下文-问题注意力计算为

将问题-上下文关注度计算为

其中Q和C是编码的问题和文本段落。

5.根据权利要求1-4所述的基于深度可分离卷积残差块的阅读理解方法，其特征在于，所述S4体步骤为：

p¹＝soft max(W₁[B₀；B₁])；

p²＝soft max(W₂[B₀；B₂])；

跨度的得分是跨度区间起始位置和结束位置概率的乘积；

其中

和

在进行推理时，选择预测的跨度(k,l)使得最大化并且k≤l。