CN111414762A

CN111414762A - 基于dcu编码和自注意力机制的机器阅读理解方法

Info

Publication number: CN111414762A
Application number: CN202010102851.2A
Authority: CN
Inventors: 甘玲; 陈辉龙
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2020-07-14

Abstract

本发明涉及基于DCU编码和自注意力机制的机器阅读理解方法，属于计算机技术领域。该方法包括以下步骤：S1：搭建嵌入层；S2：搭建DCU编码层；S3：搭建自注意力层；S4：选择数据集；S5：选择评价指标；S6：实验；本发明将训练时间缩短到了原模型的三分之一，并且在评价指标ROUGE‑L和BLEU‑4上分别提升了2.69和1.91个百分点，证明了：DCU和自注意力机制不仅能更好的获取文档的全局上下文信息，而且时间开销更小；采用预训练好的词向量能显著提升模型的整体性能。

Description

基于DCU编码和自注意力机制的机器阅读理解方法

技术领域

本发明属于计算机技术领域，涉及基于DCU编码和自注意力机制的机器阅读理解方法。

背景技术

机器阅读理解的主要任务是让机器学会阅读和理解文章，对于机器阅读理解模型来说，基于给定的问题，其能从相关文章中寻找答案。机器阅读理解技术涉及到语言理解、知识推理、摘要生成等复杂技术，因而面临着诸多挑战。随着深度学习技术的日趋成熟，以及各种大规模英文机器阅读理解数据集的发布，基于深度学习的英文机器阅读理解技术取得了巨大的进步。但是在中文方面，机器阅读理解技术目前还处于发展阶段，其中具有代表性的是百度公司开源的DuReader数据集以及在该数据集上构建的两个基线模型。其中一个基线模型是基于BiDAF模型构建的，该基线模型如附图1所示，模型中包括嵌入层、编码层、匹配层、建模层和输出层，下面对模型每一层涉及的技术和功能进行分析：

(1)嵌入层。该层的作用主要是将每个词映射到一个高维的向量空间。这里使用随机生成词向量的方式来获得每个词固定长度的词嵌入，然后通过一个两层的HighwayNetwork进行处理，分别得到代表输入文本表征的矩阵X∈R^d×T和代表问题表征的矩阵Q∈Q^d×J。

(2)编码层。将嵌入层得到的具有上下文语义信息的词向量输入到双向的长短期记忆网络(BiLSTM)来对单词之间的相互作用关系进行编码，得到H∈R^2d×T和U∈R^2d×J的矩阵表示。

(3)匹配层。这层的输入为经过编码层得到的文本表征矩阵H和问题表征矩阵U，然后使用双向注意力机制来获得query-aware上下文表征。此模型采用的注意力较先前普遍流行的注意力模型做出了以下几点改进：第一，模型的注意力层不再将文本的上下文信息聚合表征为固定大小的向量，而是计算得到每个时间步长的注意力权向量，接着和先前几层得到的表征一起，流式通过后续的建模层，这样能减少先前捕捉聚合信息时的信息丢失；第二，模型使用memory-less注意力机制，当模型迭代计算注意力时，每个时间步长的注意力仅仅是当前问题和上下文环境的函数，不会直接受先前时间步长上注意力的影响。这样将使模型的注意力层和建模层的分工更明确，使注意力集中于学习问题和文本上下文之间的注意力表示而使建模层更集中于学习query-aware上下文表征(注意力层的输出)之间的相互作用关系。

该模型主要从两个方向计算注意力：从文本到问题的注意力和从问题到文本的注意力。文本和问题的上下文嵌入之间双向的注意力都来源于一个共同的相似矩阵S∈R^T×J,S_tj就表示文本中第t个词和问题中第j个词的相似度。相似度矩阵计算公式如下：

S_tj＝α(H_:t,U_:j)∈R (1)

其中α是一个可训练的标量函数，能对两个输入向量之间的相似度进行编码。H_:t则是H中第t个列向量，同样，U_:j则是H中第j个列向量。

由文本到问题的注意力。该技术能表示问题中哪些词和文本中的词最相关。用a_t∈R^J来表示文本中第t个词对问题的中词的注意力权重，这里Σa_tj＝1。由a_t＝soft max(S_t:)∈R^J计算注意力权重，随后得到每个伴随的问题向量为

这里

即为一个2d乘T的矩阵，其中包含对整个文档的问题表征向量。

由问题到文本的注意力。该技术能表示哪些文本中的词与问题中的一个词最相似，这对回答问题是至关重要的。通过b_t＝soft max(max_col(S))∈R^T得到文本中词上的注意力权重，其中最大函数max_col在整列上执行，参与的文本向量即表示为

这个向量表示文本中关于问题的最重要的词的加权求和，

对列执行T次就得到了

最后，由词嵌入和注意力向量组合产生矩阵G，其中每列向量可以看成是文本中每个词的query-aware表征。G的定义如下：

其中，G_:t表示第t个列向量(与文本中第t个词对应)，β是一个需要训练的函数，作用是将它的三个输入向量融合。d_G表示β函数的输出维度。β函数也可以是任意一个可训练的神经网络，例如多层感知机，这里使用的

其中‘；’表示连接操作，

表示元素积。

(4)建模层。该层主要是捕捉在问题条件下上下文文本中词的相互关系。这里再次采用双向的长短期记忆网络(BiLSTM)，这里可以认为是带着问题把上下文再读一遍的过程。该层得到的矩阵M∈R^2d×T，M中每列向量将包含整个文本段落和问题中词的上下文信息，最后传输给输出层来预测答案。

(5)输出层。机器阅读理解需要模型能找到段落里一个句子或一些子成分进行一定的总结来回答问题，而这些子成分则是通过预测起始位置索引得出来的，本模型采用指针网络来达到这一目的。

当前技术存在的主要问题：

(1)模型使用随机生成词向量的方法，不能有效的表示词与词之间的关联性，因此不能很好地捕捉篇章的全局上下文信息，而且基于该方法训练的模型鲁棒性较差；

(2)编码层和建模层采用了双向的长短期记忆网络(BiLSTM)，虽然此技术能在一定程度上对文章和问题进行编码和建模，但是BiLSTM不仅结构复杂、计算量大、在数据量很大的任务上训练耗时，而且BiLSTM限制了模型获取长距离上下文信息。

发明内容

有鉴于此，本发明的目的在于提供基于DCU编码和自注意力机制的机器阅读理解方法，改进上述基线模型编码模块，改进后的模型能大幅降低模型训练时间。改进上述基线模型的建模层，简化模型的结构，进一步缩短模型的训练时间，提高模型性能。改进上述基线模型的词嵌入方法，提高模型的鲁棒性和整体性能。最终，本人基于以上改进方案构建一个不仅时间开销小，其性能也有一定的优越性的机器阅读理解模型。

为达到上述目的，本发明提供如下技术方案：

基于DCU编码和自注意力机制的机器阅读理解方法，该方法包括以下步骤：

S1：搭建嵌入层；

S2：搭建DCU编码层；

S3：搭建自注意力层。

可选的，所述S1中，嵌入层，使用通过百度百科预训练好的300维中文词-词向量，该层将每个词映射到高维向量空间。

可选的，所述S2中，DCU编码层，结合上下文中的语境线索利用膨胀组合单元DCU分别对文档和问题进行编码。

可选的，所述S3中，自注意力层，通过引入自注意力机制来捕捉在问题条件上下文文本中词的相互关系。

可选的，所述DCU编码层：将多个尺度的信息组合在一起进行编码，利用多尺度n元语法信息来实现语义融合，得到更好的文档表达，加快序列编码速度，其中多尺度包括：词、短语、句子和段落；给定输入序列S＝[w₁,w₂,...,w_l],R＝r₁,r₂,...,r_k，k表示进行k次Fold/Unfold操作，算法步骤为：

Fold操作；对于每个r_j，首先将S中的r_j个词进行串结，将原输入序列缩减为l/r_j，对于新的包含l/r_j个块的序列中的每个表示进行如下的计算：

其中Fold的操作次数等于R的大小，对于R中不同的r值，W和b不共享，σ为ReLU激活函数；

Unfold操作；将上一步得到的

序列展开成原输入序列的长度；

Multi-Granular Reasoning操作；将Unfold之后的表示进行串结，然后通过两层前馈神经网络得到一个门向量，计算公式如下：

其中F(·)＝ReLU(W_x+b)；g_t相当于一个多尺度学习的门控向量，尺度最低的那些词会拥有相同的g_t值；

Encoding操作；这一步使用上一步得到的门控向量g_t来控制原始输入文档中每个w_t与原始表示之间的粒度大小：

z_t＝tanh(W_pw_t)+b_p (5)

y_t＝σ(g_t)*w_t+(1-σ(g_t))z_t (6)

y_t为最终得到的编码表示，σ为激活函数。

可选的，所述自注意力层是捕捉在问题条件上下文文本中词的相互关系；首先使用一层GRU对上一层的输出结果进行处理，将上下文文本中词query-aware向量表示G进行降维处理；然后将处理后的结果输入到自注意力机制层；该层得到的矩阵M∈R^2d×T,M中每列向量将包含整个文本段落和问题中词的上下文信息，最后传输给输出层来预测答案。

可选的，所述S3后还包括：

S4：选择数据集；采用百度公司发布的基于实际应用场景的大规模数据集DuReader2.0；

S5：选择评价指标；

S6：实验；在GeForceGTX1080ti GPU和Intel(R)Xeon(R)E5-2618L CPU(32核110GB内存)硬件环境，Ubuntu16.04系统、python 3.5.2、TensorFlow-GPU 1.9.0和Cuda10.0软件环境下进行；实验参数设置为：embed_size＝300，drop_out＝1.0，learning_rate＝0.001，batch_size＝32，epoch＝3；实验首先在训练集上每训练完一个epoch就对模型在验证集上进行验证，然后保存当前模型，训练完所有epoch后保存ROUGE-L指标最高的模型作为最后的模型，最后在测试集上对模型进行测试，最终将测试所得结果提交到DuReader Homepage平台上得出测试集上的ROUGE-L和BLEU-4指标得分。

本发明在DuReader2.0数据集上的实验情况如表1所示：

表1在DuReader2.0数据集上的实验数据表

与背景技术相比，本发明将训练时间缩短到了原模型的三分之一，并且在评价指标ROUGE-L和BLEU-4上分别提升了2.69和1.91个百分点，证明了：

(1)DCU和自注意力机制不仅能更好的获取文档的全局上下文信息，而且时间开销更小；

(2)采用预训练好的词向量能显著提升模型的整体性能。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为DuReader基线模型；

图2为DCU总体结构；

图3为基于DCU编码和自注意力机制的机器阅读理解模型。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本技术方案主要包括以下层次结构：(1)嵌入层，主要使用通过百度百科预训练好的300维中文词-词向量，该层将每个词映射到高维向量空间；(2)DCU编码层，结合上下文中的语境线索利用膨胀组合单元(Dilated Compositional Units，DCU)分别对文档和问题进行编码；(3)自注意力层，通过引入自注意力机制来捕捉在问题条件上下文文本中词的相互关系。

下面对(2)和(3)进行详细的描述。

DCU编码层。DCU结构如附图2所示，其主要思路是将多个尺度的信息组合在一起进行编码，利用多尺度n元语法信息来实现语义融合，得到更好的文档表达，加快序列编码速度，其中多尺度包括：词、短语、句子、段落等。给定输入序列S＝[w₁,w₂,...,w_l],R＝r₁,r₂,...,r_k(k表示进行k次Fold/Unfold操作)，其算法步骤为：

Fold操作。对于每个r_j，首先将S中的r_j个词进行串结，将原输入序列缩减为l/r_j，对于新的包含l/r_j个块的序列中的每个表示进行如下的计算：

其中Fold的操作次数等于R的大小，对于R中不同的r值，W和b不共享，σ为ReLU激活函数。

Unfold操作。将上一步得到的

序列展开成原输入序列的长度。

Multi-Granular Reasoning操作。将Unfold之后的表示进行串结，然后通过两层前馈神经网络得到一个门向量，计算公式如下：

其中F(·)＝ReLU(W_x+b)。g_t相当于一个多尺度学习的门控向量，尺度最低的那些词会拥有相同的g_t值。

Encoding操作。这一步使用上一步得到的门控向量g_t来控制原始输入文档中每个w_t与原始表示之间的粒度大小：

z_t＝tanh(W_pw_t)+b_p (5)

y_t＝σ(g_t)*w_t+(1-σ(g_t))z_t (6)

这里的y_t即为最终得到的编码表示，σ为激活函数。这一步的操作类似highwaynetworks，但是与此不同的是本方法通过多粒度序列块推理学习到的门向量能捕捉更丰富的长文档语义信息。

自注意力层。该层主要是捕捉在问题条件上下文文本中词的相互关系。这里采用搜狗开源的自注意力机制的实现方案。该方案首先使用一层GRU对上一层的输出结果进行处理，其目的主要是将上下文文本中词query-aware向量表示G进行降维处理。然后将处理后的结果输入到自注意力机制层，这里可以认为是带着问题把上下文再读一遍的过程。该层得到的矩阵M∈R^2d×T,M中每列向量将包含整个文本段落和问题中词的上下文信息，最后传输给输出层来预测答案。

图3是根据现有技术和发明点构建的一个机器阅读理解模型的最佳实施例，本实施例模型包括(1)嵌入层；(2)DCU编码层；(3)匹配层；(4)自注意力层；(5)输出层。其中匹配层和输出层采用的是现有技术，关于这两层的功能作用已在现有技术的背景技术里介绍过，这里就不再赘述。同样的，嵌入层、DCU编码层以及自注意力层已在技术方案及发明要点里介绍过，这里也不再赘述。

本发明创造的实施过程为：

1.模型构建。根据现有技术和技术方案及发明要点构建模型，见图3。

2.选择数据集。本部分采用的是百度公司最近发布的基于实际应用场景的大规模数据集DuReader2.0，相比以前的数据集，DuReader2.0有以下特点：

(1)所有的问题、原文都来源于百度搜索引擎数据和百度知道问答社区数据，答案是由人类回答的；

(2)数据集中包含了大量的是非和观点类的样本，而这是之前很少研究的；

(3)每个问题都对应多个答案，初始版本的数据集包含200k问题、1000k原文和420k答案。百度于2019年在初始版本的基础上发布了DuReader2.0版本，该版本包含271574条训练集、10000条验证集和120000条测试集，是目前规模最大，难度最大、更具研究价值的中文机器阅读理解数据集。

3.选择评价指标。相同次数百分比(BLEU-4)和重叠单元百分比(ROUGE-L)是两个广泛用于评估机器阅读理解模型性能的评价指标。

4.实验。本发明的实验是在GeForceGTX1080ti GPU和Intel(R)Xeon(R)E5-2618LCPU(32核110GB内存)硬件环境，Ubuntu16.04系统、python 3.5.2、TensorFlow-GPU 1.9.0和Cuda10.0等软件环境下进行。实验参数设置为：embed_size＝300，drop_out＝1.0，learning_rate＝0.001，batch_size＝32，epoch＝3。实验首先在训练集上每训练完一个epoch就对模型在验证集上进行验证，然后保存当前模型，训练完所有epoch后保存ROUGE-L指标最高的模型作为最后的模型，最后在测试集上对模型进行测试，最终将测试所得结果提交到DuReader Homepage平台上得出测试集上的ROUGE-L和BLEU-4指标得分。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于DCU编码和自注意力机制的机器阅读理解方法，其特征在于：该方法包括以下步骤：

S1：搭建嵌入层；

S2：搭建DCU编码层；

S3：搭建自注意力层。

2.根据权利要求1所述基于DCU编码和自注意力机制的机器阅读理解方法，其特征在于：所述S1中，嵌入层，使用通过百度百科预训练好的300维中文词-词向量，该层将每个词映射到高维向量空间。

3.根据权利要求1所述基于DCU编码和自注意力机制的机器阅读理解方法，其特征在于：所述S2中，DCU编码层，结合上下文中的语境线索利用膨胀组合单元DCU分别对文档和问题进行编码。

4.根据权利要求1所述基于DCU编码和自注意力机制的机器阅读理解方法，其特征在于：所述S3中，自注意力层，通过引入自注意力机制来捕捉在问题条件上下文文本中词的相互关系。

5.根据权利要求3所述基于DCU编码和自注意力机制的机器阅读理解方法，其特征在于：

所述DCU编码层：将多个尺度的信息组合在一起进行编码，利用多尺度n元语法信息来实现语义融合，得到更好的文档表达，加快序列编码速度，其中多尺度包括：词、短语、句子和段落；给定输入序列S＝[w₁,w₂,...,w_l],R＝r₁,r₂,...,r_k，k表示进行k次Fold/Unfold操作，算法步骤为：

Unfold操作；将上一步得到的

序列展开成原输入序列的长度；

z_t＝tanh(W_pw_t)+b_p (5)

y_t＝σ(g_t)*w_t+(1-σ(g_t))z_t (6)

y_t为最终得到的编码表示，σ为激活函数。

6.根据权利要求4所述基于DCU编码和自注意力机制的机器阅读理解方法，其特征在于：所述自注意力层是捕捉在问题条件上下文文本中词的相互关系；首先使用一层GRU对上一层的输出结果进行处理，将上下文文本中词query-aware向量表示G进行降维处理；然后将处理后的结果输入到自注意力机制层；该层得到的矩阵M∈R^2d×T,M中每列向量将包含整个文本段落和问题中词的上下文信息，最后传输给输出层来预测答案。

7.根据权利要求1所述基于DCU编码和自注意力机制的机器阅读理解方法，其特征在于：所述S3后还包括：

S5：选择评价指标；