CN114218365A

CN114218365A - 一种机器阅读理解方法、系统、计算机及存储介质

Info

Publication number: CN114218365A
Application number: CN202111419520.2A
Authority: CN
Inventors: 姜小波; 何昆
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-03-22
Anticipated expiration: 2041-11-26
Also published as: CN114218365B

Abstract

本发明公开了一种机器阅读理解方法、系统、计算机及存储介质，方法包括：获取原始文段文本和原始问题文本的单词级信息、字符级信息以及特征信息；将获得的信息进行向量表征以及向量表征融合；进行层次注意力交互，并将各层的交互结果进行拼接；对交互后的文段表征和交互后的问题表征进行特征提取；进行多轮回答，将每轮的生成的双指针分布结果进行汇总，并计算汇总结果的随机掩码平均值，得到最终的双指针分布，分布中最大元素对应的索引即为答案在文段中的起、止位置。本发明以提出的多样性循环单元为核心模块，通过降维自注意力机制与自适应局部信息门控机制提取全局与局部信息，实现了兼顾准确率、计算/参数量的最佳机器阅读理解综合性能。

Description

一种机器阅读理解方法、系统、计算机及存储介质

技术领域

本发明涉及自然语言处理的技术领域，尤其涉及到一种机器阅读理解方法、系统、计算机及存储介质。

背景技术

随着人工智能的高速发展，人机交互的应用场景愈加广泛，如智能客服、聊天机器人、推荐系统等。在优化用户体验的过程中，如何让机器更好地理解人类语言是人机交互技术最核心的问题。

机器阅读理解(Machine Reading Comprehension,MRC)为解决上述问题提供了技术支撑，其通过让计算机阅读文本段落并回答给定问题的任务形式，训练机器理解人类语言，并具备一定的推理能力。近年来，深度神经网络的创新突破以及大规模预训练模型的迭代更新，极大促进了MRC技术的发展，研究者们纷纷投入开发规模更大、层数更深的MRC模型，其参数量从几百兆到几亿甚至上百亿，导致计算开销与训练成本激增，而回答的准确率却趋于饱和。

如今，研究者们开始关注MRC模型的兼顾准确率与计算/参数量的综合性能，提出了各种优化方案，以实现计算/存储开销降低的同时保证准确性。其中一部分研究工作以低计算/参数开销的循环神经网络如LSTM、GRU为基础，通过优化MRC模型架构，提出新颖的计算模块或计算机制来提升模型回答的准确率；另一部分研究则针对高准确率的大规模MRC模型，采用矩阵分解、参数共享、剪枝与量化等方法降低其参数量。

但是，这些方法依然存在三个主要问题：

(1)基于LSTM、GRU的MRC模型在提取当前词的特征时，只能利用单向循环迭代的信息，无法同时兼顾上下文，造成整体模型对上下文信息的提取不够充分，进而影响回答的准确率。

(2)轻量处理后的大规模MRC模型虽然参数量减少，但依然存在大量的平方级复杂度的自注意力运算，因此实际计算开销并未降低，其训练过程难以大批量并行进行，且受到文本长度以及词向量维度的严重限制。

(3)现阶段MRC模型中使用的自注意力机制过于注重全局信息，即每个词都要与整个文段中所有词计算注意力，造成大量计算开销，而多数情况下答案的获取只需关注其所在的一段局部范围。

因此，如何解决上述问题，使MRC模型的兼顾准确率与计算/参数量的综合性能达到最优，是一项重要且具有实际意义的任务。

发明内容

本发明的目的在于克服现有技术的不足，提供一种机器阅读理解方法，以提出的多样性循环单元(Diversity Recurrent Unit,DRU)为核心，将低参数/计算量的循环神经网络与提出的低时间复杂度的降维自注意力机制相结合，对文段与问题进行特征提取，得到充分融合上下文信息的文段与问题表征，然后通过局部信息门控增强二者上下文表征中局部信息的比重，为答案获取提供关注范围，从而在低计算/参数开销的条件下提高了回答的准确率，实现MRC的综合性能最优。

为实现上述目的，本发明所提供的技术方案为：

一种机器阅读理解方法，包括以下步骤：

S1、获取原始文段文本和原始问题文本的单词级信息、字符级信息以及特征信息；

S2、将步骤S1获得的信息进行向量表征以及向量表征融合，得到原始文段表征d_e和原始问题表征q_e，以及融合后的综合文段表征d_u和综合问题表征q_u；

S3、将原始文段表征d_e、原始问题表征q_e、综合文段表征d_u、综合问题表征q_u进行层次注意力交互，并将各层的交互结果进行拼接，得到交互后的文段表征d和交互后的问题表征q；

S4、对交互后的文段表征d和交互后的问题表征q进行特征提取，得到文段的上下文表征d_x和问题的上下文表征q_x；

S5、利用文段的上下文表征d_x和问题的上下文表征q_x进行多轮回答，将每轮的生成的双指针分布结果进行汇总，并计算汇总结果的随机掩码平均值，得到最终的双指针分布，分布中最大元素对应的索引即为答案在文段中的起、止位置。

进一步地，所述步骤S2具体包括：

S2-1、使用GloVe和CoVe来表征单词向量，得到w_glove∈R^L×300以及两层w_cove∈R^L×600；使用ELMo来表征字符向量，得到w_char∈R^L×1024以及两层w_elmo∈R^L×1024；通过特征工程得到特征向量w_feature∈R^L×24，将w_glove、w_char、w_feature以及w_cove与w_elmo的第一层进行拼接，送入两层一维卷积前馈网络CFF中，得到一度融合后的表征w_ffn∈R^L×256；

S2-2、将w_cove与w_elmo的第一层与w_ffn拼接得x∈R^L×1880，将x送入多样性循环单元DRU中计算，得到二度融合后的表征w_dru0∈R^L×256；

S2-3、将w_glove、w_elmo的第二层与w_dru0进行拼接，再送入一个多样性循环单元DRU中，得到三度融合后的表征w_dru1∈R^L×256；

S2-4、将w_dru0与w_dru1进行拼接作为融合后的综合表征u∈R^L×512；将w_cove、w_elmo的第二层与w_glove进行拼接作为原始表征e∈R^L×1924；

S2-5、分别对原始文段文本与原始问题文本执行S2-1～S2-4的过程，得到原始文段表征d_e、原始问题表征q_e、融合后的综合文段表征d_u以及综合问题表征q_u。

进一步地，所述步骤S2-2中，多样性循环单元DRU内的计算包括以下分步骤：

A1)、对x分别进行降维自注意力计算以及可分离卷积计算，得到全局上下文表征h以及局部信息表征x_local：

h＝(W·x+b)^T·softmax(x·v+b)

x_local＝SeparableConvlD(x)

其中W、v和b分别为可学习的矩阵、向量和偏置；

A2)、计算局部门控矩阵g并更新x：

g＝σ(W·[x|h]+b)

x＝g⊙x+(1-g)⊙x_local

其中σ与⊙分别表示矩阵元素的sigmoid运算与点积运算；

A3)、将x与h通过一层双向长短时记忆网络BiLSTM，得到w_dru0。

进一步地，所述步骤S3具体包括：

S3-1、将综合文段表征d_u与原始文段表征d_e进行拼接，将综合问题表征q_u和综合文段表征d_u进行拼接，通过线性变换降低拼接表征的词向量维数来降低计算开销，得到

与

d_r＝ReLU(W_d·[d_u|d_e]+b_d)

q_r＝ReLU(W_q·[q_u|q_e]+b_q)

其中L_d与L_q分别为文段和问题的序列长度；ReLU为激活函数；q_d和W_q为可学习的矩阵；b_d和b_q为可学习的偏置；

S3-2、将文段与问题各自的综合表征u拆分为两层w_dru0和w_dru1，同时将u送入一层多样性循环单元DRU中得到w_dru2，将这三层具有递进关系的表征作为层次表征，记文段与问题各自的三个层次表征分别为

与

i＝0，1，2；

S3-3、对每个层次i对应的文段与问题表征进行双向注意力交互计算，得到交互后的各层次文段表征

i＝0，1，2，将其与文段综合表征d_u进行拼接作为最终交互后的整体文段表征

同时将第三层次问题表征q₂作为最终交互后的整体问题表征

进一步地，所述步骤S3-3中，

的计算步骤包括：

B1)、通过矩阵乘法，矩阵一向量乘法以及行方向的掩码softmax计算得到文段到问题的注意力分数矩阵

i＝0，1，2；

其中v_d、v_q为两个可训练向量，分别代表文段和问题的整体信息；

B2)、取出

每一行的最大值并进行softmax计算，得到问题到文段的注意力分数

B3)、通过

与问题层次表征的矩阵乘法以及

与文段层次表征的向量-矩阵乘法，得到双向注意力下两个充分信息交互后的文段表征

与

其中

为a₂在行方向扩展后的结果；

B4)、将交互后的文段表征、文段层次表征及其对应点积进行拼接，通过一次线性变换，得到最终的各层次文段表征

其中W_i、b_i分别为可学习的矩阵、偏置。

进一步地，所述步骤S4包括以下分步骤：

S4-1，将交互后的文段表征d经过一层多样性循环单元DRU后得到d_dru，将d_dru与d进行拼接，经过一层线性变换得到

d_sr＝ReLU(W·[d_dru|d]+b)

计算d_sr的自注意力分数

s_d＝softmax(d_sr·(d_sr)^T)

将s_d与d_dru进行矩阵相乘，得到

d_sa＝s_d·d_dru；

S4-2，将d_sa与d_dru进行拼接，送入一层多样性循环单元DRU中，得到最终用于多轮回答的文段表征

S4-3，使用一个可训练的向量v作为问题信息的概括，将其与问题表征q进行向量-矩阵乘法，经过softmax后得到自注意力分数s_q，

s_q＝softmax(q·v^T+b)

将s_q与线性变换后的问题表征进行向量-矩阵相乘，得到自注意力下的问题表征q_x∈R²⁵⁶，作为最终用于多轮回答的初始一维问题表征q_x0，

q_x0＝(s_q)^T·(W·q+b)。

进一步地，所述步骤S5包括以下分步骤：

S5-1、将初始的问题向量表征q_x0经过一层线性变换转化为与文段矩阵表征相同的词向量维度，通过矩阵-向量乘法及softmax得到文段与问题的注意力分数，作为初始的答案起始位置的概率分布

p_s0＝softmax(d_x·(W·q_x0+b)^T)，

将p_s0与文段的上下文表征d_x进行向量-矩阵相乘，得到初始的带有答案起始位置信息的表征h_s0∈R²⁵⁶，

h_s0＝(p_s0)^T·d_x；

S5-2、将h_s0作为提示与q_x0拼接作为新的初始问题表征，与文段的上下文表征d_x进行矩阵-向量注意力计算，得到初始的答案结束位置的概率分布

p_e0＝softmax(d_x·(W·[q_x0|h_s0]+b)^T)

以及初始的带有答案结束位置信息的表征h_e0∈R²⁵⁶，

h_e0＝(p_e0)^T·d_x，

将h_e0与h_s0进行拼接，作为初始的答案信息表征h_ans0∈R⁵¹²；

S5-3、将h_ans0与g_x0进行门控循环单元GRU的一次迭代操作，得到更新后的问题表征q_x1，使用q_x1重复S5-1与S5-2的步骤得到p_s1、h_s1、p_e1、h_e1和h_ans1；

S5-4、重复执行3次S5-3，将各轮结果p_si与p_ei进行随机掩码平均，得到最终的答案起、止位置分布

其中p_s与p_e中最大元素对应的索引即为答案在文段中的起、止位置。

为实现上述目的，本发明另外提供一种机器阅读理解系统，该机器阅读理解系统用于实现上面所述的机器阅读理解方法，其包括：表征融合模块、信息交互模块、特征提取模块、多轮回答模块；

其中，

所述表征融合模块，用于获取原始文段文本和原始问题文本的单词级信息、字符级信息以及特征信息；并将获得的信息进行向量表征以及向量表征融合，得到原始文段表征d_e和原始问题表征q_e，以及融合后的综合文段表征d_u和综合问题表征q_u；

所述信息交互模块，用于将原始文段表征d_e、原始问题表征q_e、综合文段表征d_u、综合问题表征q_u进行层次注意力交互，并将各层的交互结果进行拼接，得到交互后的文段表征d和交互后的问题表征q；

所述特征提取模块，用于对交互后的文段表征d和交互后的问题表征q进行特征提取，得到文段的上下文表征d_x和问题的上下文表征q_x；

所述多轮回答模块，用于利用文段的上下文表征d_x和问题的上下文表征q_x进行多轮回答，将每轮的生成的双指针分布结果进行汇总，并计算汇总结果的随机掩码平均值，得到最终的双指针分布，分布中最大元素对应的索引即为答案在文段中的起、止位置。

为实现上述目的，本发明另外提供一种计算机，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上面所述的机器阅读理解方法的步骤。

为实现上述目的，本发明另外提供一种存储介质，其存储有计算机程序，该程序被处理器执行时实现上面所述的机器阅读理解方法的步骤。

与现有技术相比，本技术方案的原理及优点如下：

本技术方案以提出的多样性循环单元DRU为核心，将低参数/计算量的循环神经网络与提出的低时间复杂度的降维自注意力机制相结合，来获取充分融合上下文信息的文段与问题表征，并通过局部信息门控增强二者上下文表征中局部信息的比重，从而在低计算/参数开销的条件下提高了回答的准确率，实现MRC的综合性能最优。

本技术方案中，多样性循环单元DRU以及多轮回答模块具有高泛化性，其中多样性循环单元DRU可移植到其他任意MRC模型中作为特征提取器，提升模型的综合性能；而多轮回答模块可移植到相关的MRC以及其他问答相关模型中，提升回答的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一一种机器阅读理解方法的原理流程图；

图2为本发明实施例一一种机器阅读理解方法中多样性循环单元DRU的算法机制图；

图3为本发明实施例一一种机器阅读理解方法中双向交互注意力算法机制图；

图4为本发明实施例一一种机器阅读理解方法中使用的随机掩码平均计算机制图；

图5为本发明实施例二一种机器阅读理解系统的结构示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例一：

如图1所示，本实施例所述的一种机器阅读理解方法，包括以下步骤：

S1、对原始文段文本和原始问题文本进行预处理，获取原始文段文本和原始问题文本的单词级信息、字符级信息以及特征信息；

具体地说，步骤S2包括以下分步骤：

S2-1、使用GloVe(Global Vectors)和CoVe(Contextualized Vectors)来表征单词向量，得到w_gloe∈R^L×300以及两层w_cove∈R^L×600；使用ELMo来表征字符向量，得到w_char∈R^L ^×1024以及两层w_elmo∈R^L×1024；通过特征工程得到特征向量w_feature∈R^L×24，将w_glove、w_char、w_feature以及w_cove与w_elmo的第一层进行拼接，送入两层一维卷积前馈网络CFF中，得到一度融合后的表征w_ffn∈R^L×256；

具体地，如图2所示，多样性循环单元DRU内的计算包括以下分步骤：

h＝(W·x+b)^T·softmax(x·v+b)

x_local＝SeparableConv1D(x)

其中W、v和b分别为可学习的矩阵、向量和偏置；

A2)、计算局部门控矩阵g并更新x：

g＝σ(W·[x|h]+b)

x＝g⊙x+(1-g)⊙x_local

其中σ与⊙分别表示矩阵元素的sigmoid运算与点积运算；

A3)、将x与h通过一层双向长短时记忆网络BiLSTM，得到w_dru0。

具体地，步骤S3具体包括：

与

d_r＝ReLU(W_d·[d_u|d_e]+b_d)

q_r＝ReLU(W_q·[q_u|q_e]+b_q)

其中L_d与L_q分别为文段和问题的序列长度；ReLU为激活函数；W_d和W_q为可学习的矩阵；b_d和b_q为可学习的偏置；

与

i＝0，1，2；

S3-3、对每个层次i对应的文段与问题表征进行双向注意力交互计算，如图3所示，得到交互后的各层次文段表征

同时将第三层次问题表征q₂作为最终交互后的整体问题表征

具体地，

的计算步骤包括：

B1)、通过矩阵乘法，矩阵-向量乘法以及行方向的掩码softmax计算得到文段到问题的注意力分数矩阵

i＝0，1，2；

B2)、取出

每一行的最大值并进行softmax计算，得到问题到文段的注意力分擞

B3)、通过

与问题层次表征的矩阵乘法以及

与

其中

为a₂在行方向扩展后的结果；

其中W_i、b_i分别为可学习的矩阵、偏置。

具体地，步骤S4包括以下分步骤：

d_sr＝ReLU(W·[d_dru|d]+b)

计算d_sr的自注意力分数

s_d＝softmax(d_sr·(d_sr)^T)

将S_d与d_dru进行矩阵相乘，得到

d_sa＝s_d·d_dru；

s_q＝softmax(q·v^T+b)

q_x0＝(s_q)^T·(W·q+b)。

具体地，步骤S5包括以下分步骤：

p_s0＝softmax(d_x·(W·q_x0+b)^T)，

h_s0＝(p_s0)^T·d_x；

p_e0＝softmax(d_x·(W·[q_x0|h_s0]+b)^T)

以及初始的带有答案结束位置信息的表征h_e0∈R²⁵⁶，

h_e0＝(p_e0)^T·d_x，

S5-3、将h_ans0与q_x0进行门控循环单元GRU的一次迭代操作，得到更新后的问题表征q_x1，使用q_x1重复S5-1与S5-2的步骤得到p_s1、h_s1、p_e1、h_e1和h_ans1；

S5-4、重复执行3次S5-3，将各轮结果p_si与p_ei(i＝0，1，2，3，4)进行随机掩码平均，如图4所示，得到最终的答案起、止位置分布

实施例二：

如图5所示，本实施例为一种机器阅读理解系统，所述机器阅读理解系统用于上面所述的机器阅读理解方法，具体包括：表征融合模块1、信息交互模块2、特征提取模块3、多轮回答模块4；

其中，

所述表征融合模块1，用于获取原始文段文本和原始问题文本的单词级信息、字符级信息以及特征信息；并将获得的信息进行向量表征以及向量表征融合，得到原始文段表征d_e和原始问题表征q_e，以及融合后的综合文段表征d_u和综合问题表征q_u；

所述信息交互模块2，用于将原始文段表征d_e、原始问题表征q_e、综合文段表征d_u、综合问题表征q_u进行层次注意力交互，并将各层的交互结果进行拼接，得到交互后的文段表征d和交互后的问题表征q；

所述特征提取模块3，用于对交互后的文段表征d和交互后的问题表征q进行特征提取，得到文段的上下文表征d_x和问题的上下文表征q_x；

所述多轮回答模块4，用于利用文段的上下文表征d_x和问题的上下文表征q_x进行多轮回答，将每轮的生成的双指针分布结果进行汇总，并计算汇总结果的随机掩码平均值，得到最终的双指针分布，分布中最大元素对应的索引即为答案在文段中的起、止位置。

表1是机器阅读理解任务中各模型性能对比，使用的数据集为SQuAD-v1.0，模型性能的评估指标为EM值和F1值，即精准匹配率和宽松匹配率。从实验结果可以看出基于多样性循环单元的模型在机器阅读理解任务上的表现优于传统的逻辑回归(LR)、Bi□LSTM网络以及小规模自注意力网络等模型。

模型	EM值(％)	F1值(％)
			LR(Rajpurkar et al.，2016)	40.0	51.0
BiDAF(Seo et al.，2017)	69.2	77.8
			EQuANt(Aubet et al.，2019)	69.3	78.8
QANet(Yu et al.，2018)	73.6	82.7
			FusionNet(Huang et al.，2018)	75.3	83.6
SAN(Liu et al.，2018)	76.2	84.1
			VS3-Net(Park et al.，2019)	76.7	84.6
Word+BPE-FRQ(Zhang et al.，2019)	77.8	85.5
			GF-Net(Lee et al.，2019)	78.7	85.8
基于DRU的机器阅读理解方法	81.0	87.2

表1实体关系抽取任务各网络性能对比表

实施例三

本实施例为一种计算机，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上面所述的机器阅读理解方法的步骤。

实施例四

本实施例为一种存储介质，其存储有计算机程序，该程序被处理器执行时实现上面所述的机器阅读理解方法的步骤。

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。