CN114398976A

CN114398976A - 基于bert与门控类注意力增强网络的机器阅读理解方法

Info

Publication number: CN114398976A
Application number: CN202210035885.3A
Authority: CN
Inventors: 陈羽中; 张睿
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-04-26
Anticipated expiration: 2042-01-13

Abstract

本发明涉及一种基于BERT与门控类注意力增强网络的机器阅读理解方法。包括以下步骤：步骤A、收集中国中学生英语考试中的阅读理解多选题，并标注每篇文章的每个问题对应的答案选项类别，构建带类别标签的训练集S；步骤B、训练基于BERT与门控类注意力网络的深度学习模型GCAN‑BERT，用于预测给定问题对应选项的答案；步骤C、将待判断的文章、问题、选项输入到训练后的基于BERT与门控类注意力网络的深度学习模型GCAN‑BERT中，得到给定问题对应的答案选项。本发明能够有效提高多选阅读理解选项预测的精确度。

Description

基于BERT与门控类注意力增强网络的机器阅读理解方法

技术领域

本发明涉及自然语言处理领域与机器阅读理解应用领域，具体涉及一种基于BERT与门控类注意力增强网络的机器阅读理解方法。

背景技术

机器阅读理解(Machine Reading Comprehension,MRC)是一种利用算法让计算机能像人一样理解文本语义并尝试回答相关问题的技术。选择式MRC模型的输入为文章、问题和相关选项，输出为答案选项。

随着深度神经网络的发展，出现了许多基于循环神经网络和卷积神经网络的机器阅读理解算法。层级协同匹配模型(Hierarchical Co-MatchingModel,HCM)包括协同匹配模块和分层聚合组件，前者针对文章中的每个词，分别计算问题到文章、选项到文章的注意力从而构造两个匹配表示，从而获得协同匹配状态，后者对文章中每个句子的协同匹配状态应用双向循环神经网络编码和最大池化得到最终的匹配表示结果。该模型在当时取得了很好的性能，但它计算的两个匹配表示都是单向的，没有计算文章至问题、文章至选项方向的注意力，并且问题和选项之间缺少匹配交互，最终得到的协同匹配状态只是简单的向量拼接。Cheng等提出了一种基于卷积空间注意力的模型(ConvolutionalSpatialAttention,CSA)，它可以充分提取篇章、问题以及选项之间的互信息从而增强各自的向量空间表示，并使用不同的卷积窗口动态从相邻空间注意力矩阵上抽取特征用于答案预测。

但循环神经网络本身的序列顺序依赖性导致模型难以并行计算。卷积神经网络不存在序列依赖问题，并行计算能力强，但卷积神经网络难以处理长文本，因为单卷积层难以捕获远距离的特征，需要结合膨胀卷积或者加深卷积网络来捕获这种远距离特征，但连续跳接可能会错过文本的特征组合，而加深卷积网络对模型的帮助十分有限。Transformer的出现成为了特征抽取器的新主流，它具有优秀的文本语义特征与任务相关特征提取能力、长距离特征捕获能力，并行计算能力也足够强大。BERT基于双向Transformer，结合掩码模型来实现上下文的深层双向表示，刷新了许多基准阅读理解数据集的记录，在预训练语言模型(Pre-trainedLanguage Model,PLM)下游微调MRC模型成为新的范式。基于预训练语言模型的MRC模型架构主要包括两个过程：利用PLM对文本进行编码、设计一个启发式的机制作为解码器在下游MRC任务上微调输出。

Sun等人根据人类的认知方式提出了三种阅读策略，分别是前后阅读、高亮阅读、自我评价三种策略，在GPT下游微调模型，取得了当时的最优效果。但该方法本质上是通过阅读策略增加更多先验知识，在文章、问题、选项的交互上未做进一步的工作，因此未获得充分的文本匹配表示用于下游分类任务预测。现有预训练语言模型通过提取序列最后一层隐层的第一个字符CLS的特征表示，再接一个线性层用于预测多选答案。DCMN(Dual Co-Matching Network)认为预训练语言模型这种使用CLS的最后一层隐层向量作为聚合表示来进行选项预测的方式过于粗糙，没有考虑到文章和问句之间的关系。并对HCM进行了改进，先使用BERT对文本编码，然后利用双向匹配策略来获得文章、问题、选项的两两匹配表示，再利用门控机制来融合每种匹配两个方向上的信息。但是DCMN的匹配机制过于复杂，依赖复杂的序列匹配网络。现有基于Transformer的PLM模型已经具有足够强大的特征交互能力来捕获文章、问题、选项之间的关联特征，这些复杂的句对匹配交互可以交由Transformer编码块来完成。

综上，尽管基于预训练语言模型的MRC模型已经有了长足的发展，但它们大多数是提取序列的首个词CLS的高层隐层表示，再接一个线性层用于预测多选答案，这种预测方式过于粗略。本文将CLS这种用于聚合下游序列信息的向量表示称为类向量，类向量在编码过程中学习到的权重表示被要求优化两个相互矛盾的目标：参与其他序列文本之间的注意力计算过程、聚合对于线性分类器有用的信息。这导致类向量在编码过程中与文章、问题和选项之间交互匹配得到的高层特征不能被充分优化与聚合。而现有方法对类向量的获取过于依赖复杂的序列匹配网络，未充分利用Transformer的特征编码与交互能力。

发明内容

本发明的目的在于提供一种基于BERT与门控类注意力增强网络的机器阅读理解方法，有效提高多选阅读理解选项答案预测的精确度。

为实现上述目的，本发明的技术方案是：一种基于BERT与门控类注意力增强网络的机器阅读理解方法，包括如下步骤：

步骤A、收集中国中学生英语考试中的阅读理解多选题，并标注每篇文章的每个问题对应的答案选项类别，构建带类别标签的训练集S；

步骤B、使用训练集S训练基于BERT与门控类注意力增强网络的深度学习模型GCAN-BERT，用于预测给定问题对应选项的答案；

步骤C、将待判断的文章、问题、选项输入到训练后的基于BERT与门控类注意力增强网络的深度学习模型GCAN-BERT中，得到给定问题对应的答案选项。

在本发明一实施例中，所述步骤B具体包括以下步骤：

步骤B1、将训练集S的每个(文章、问题、选项)三元组形式的训练样本作为GCAN-BERT的输入；GCAN-BERT使用BERT作为编码器，由嵌入层和多层Transformer编码网络组成，从而编码得到序列的高层语义特征表示，并送入门控类注意力增强网络；

步骤B2、在门控类注意力增强网络中，将BERT模型的[CLS]标签的输出向量称为类向量，作为聚合下游信息的向量；门控类注意力增强网络仅仅更新[CLS]表示的权重，在减少下游任务计算量的同时，让类向量专注于与序列其他部分交互匹配，并充分聚合这些匹配特征，得到聚合信息v^L2；最后将v^L2馈送到预测层用于预测选项答案；

步骤B3、预测层把前文得到的聚合信息v^L2通过一个全连接层去预测最终的答案选项；根据目标损失函数，利用反向传播方法计算深度学习网络模型GCAN-BERT中的各参数的梯度，并利用随机梯度下降方法更新参数；

步骤B4、当GCAN-BERT产生的损失值迭代变化小于设定阈值、或者达到最大迭代次数，终止GCAN-BERT的训练。

在本发明一实施例中，所述步骤B1具体包括以下步骤：

步骤B11、文章表示为P，问题表示为Q，每个问题有J个答案选项，依次取第j个答案选项Oj，j＝1,2,…,J，将三者拼接为“[CLS]P[SEP]QO_j”的长序列，其中，[CLS]与[SEP]为分隔符，以上长序列可进一步表示为文本序列T＝([CLS]，t₁，t₂，...，t_n)，n为序列长度；

步骤B12、通过BERT词典，将T映射为词嵌入表示，记为E_T＝(e_CLS，e_t1，...，e_tn)，e_CLS代表[CLS]的词嵌入表示，e_ti代表词t_i的词嵌入表示；

其中n+1代表输入序列的长度，d表示词向量的维度；

步骤B13、句子表示代表序列中的词属于文章、问题还是选项，将每个属于文章的词的句子表示设置为e_A,

向量e_A中所有元素的值均为0；将每个属于问题或答案选项的词的句子表示设置为e_B,

向量e_B中所有元素的值均为1；则T的句子表示为

步骤B14、计算T中每个词t_i的位置表示，合并得到位置表示E_P，计算过程为：

其中，p表示词在当前序列中的位置序号，p＝1,2,…,n，d表示词向量的维度，k表示词向量维度中的位置序号，k＝1,2,…,d/2；

代表对偶数位置的词向量用sin函数计算绝对位置编码，而

代表对奇数位置的词向量用cos函数计算绝对位置编码，

步骤B15、将每个词的词嵌入表示、句子表示、位置表示相加，得到X＝E_T+E_S+E_P＝(CLS，x₁，x₂，...，x_n)，

将X送入BERT的多层Transformer网络进行编码，从而获取到序列的高层语义特征表示；

步骤B16、多层Transformer网络由多个Transformer编码块堆叠而成；每个Transformer编码块最重要的子层是多头自注意力机制和前向反馈层两个子层，每个子层后面都加了残差连接和归一化层；X首先被映射为三种向量即查询向量Q、键向量K、值向量V，计算公式如下：

Q＝XW^Q+b^Q

K＝XW^K+b^K

V＝XW^V+b^V

其中，W^Q、W^K、W^V、b^Q、b^K、b^V代表训练参数；

步骤B17、将Q、K、V向量送入多头自注意力机制中，在它们的词向量维度上划分h个子向量，每个子向量的维度为d/h，分别送入自注意力机制里训练；最后再将这h个自注意力子向量拼接起来重新得到一个d维的输出向量C；为预防过拟合，并且让向量更加归整，加速网络收敛，对多头自注意力机制子层添加残差连接和归一化，得到向量M，公式如下：

C＝Concat(head₁，head₂，...，head_h)W^C+b^C

M＝LayerNorm(X+C)

其中，head_i代表第i个子向量的自注意力分数，

W^C、b^C代表训练参数，Concat代表拼接操作，LayerNorm为层归一化变换；

步骤B18、将向量M送入全连接的前向反馈子层，该层对M做了两个线性变换，从而得到序列的综合特征N，再将M和N进行残差连接，经过层归一化处理得到序列的最终高层特征H，公式如下：

N＝(W^FM+b^F)W^N+b^N

H＝LayerNorm(M+N)

其中，W^F、W^N、b^F、b^N表示训练参数；

步骤B19、将高层特征H送入门控类注意力增强网络中。

在本发明一实施例中，所述步骤B2具体包括以下步骤：

步骤B21、门控类注意力增强网络由多头类注意力机制、类前向反馈层、门控表示融合层、归一化层组成；门控类注意力增强网络固定了除了[CLS]的表示以外的序列其他部分的参数权重，仅仅更新[CLS]的表示的权重；编码器的高层特征H首先输入到多头类注意力机制层，该层用于将[CLS]与其他序列交互匹配，从而类向量关注到文章、问题、选项的关键信息；将序列H中[CLS]的词表示记为h_CLS，除了[CLS]以外的其他词序列记为Z，随后将[CLS]的表示映射为查询向量Q，将Z映射为键向量K和值向量V，公式如下：

Q＝h_CLSW₁+b₁

K＝ZW₂+b₂

V＝ZW₃+b₃

其中，W₁、W₂、W₃、b₁、b₂、b₃代表训练参数，

步骤B22、对Q、K、V计算多头自注意力机制，将每种向量都划分为h个d/h维的子向量，分别送入自注意力机制里训练，最后再将h个自注意力子向量重新拼接起来并经过线性变换后得到d维的输出向量s，公式如下：

s＝Concat(head₁，head₂，...，head_h)W^v+b^v

其中，head_i代表第i个子向量的自注意力分数，

W^v，b^v代表训练参数，Concat代表拼接；

包含了[CLS]经过与其他序列交互匹配后得到的关键信息；由于多头类注意力机制只学习和更新[CLS]类向量权值，即类向量不用参与到序列其他词表示的权重更新，因此[CLS]学习到的序列匹配特征更加充分；

步骤B23、将s输入门控融合层，该层引入了门控机制用于代替残差连接，从而有针对性地将类向量的交互信息与原类向量特征h_CLS进行融合，它们在门控表示融合层中的具体变化如下：

u＝g_MHCA(h_CLS，s)

其中，g_MHCA(h_CLS，s)是一个门控函数，该门控函数使用GRU风格的门控机制，将门控单元、原类向量特征h_CLS和MHCA的输出s结合起来，将其调整为深度激活函数，具体计算公式如下：

r＝sigmoid(W₄h_CLS+U₁s)

z＝sigmoid(W₅h_CLS+U₂s-b₄)

其中，W₄、W₅、W₆、U₁、U2、U₃、b₄表示训练参数，⊙代表点乘，最终得到的u，

步骤B24、将u与Z重新拼接在一起，送入到层归一化层处理后得到规范化的特征H^L1，层归一化调整了CLS的分布，并有助于提高网络训练时的收敛速度，提取H^L1中[CLS]的表示，得到

将u^L1输入到类前向反馈层，具体公式如下：

H^L1＝LayerNorm(Concat[u，Z])

步骤B25、类前向反馈层对u^L1进行了两个线性变换得到u^FN，u^FN从匹配信息中进一步聚合用于回答问题所需的表示信息；随后将u^FN和u^L1一起输入一个门控融合层，从而有针对性地将类向量的交互信息与聚合信息进行融合，并防止模型过拟合，公式如下：

u^FN＝(W₇u^L1+b₅)W₈+b₆

v＝g_CFFN(u^FN，u^L1）

其中，W₇、W₈、b₅、b₆是可训练参数，

g_CFFN是一个门控函数，它的结构与计算方式和上述的g_MHCA一致；

步骤B26、将v和Z重新拼接在一起，再次送入到层归一化层处理，得到规范化的特征H^L2，提取H^L2中[CLS]的表示，得到类向量

v^L2充分地聚合了文章、问题和选项之间的信息，可用于下游分类任务的选项答案预测。

H^L2＝LayerNorm(Concat[v，Z])

在本发明一实施例中，所述步骤B3具体包括以下步骤：

步骤B31、对文章P、问题Q、以及每个问题的相关答案选项重复步骤B1、B2，通过一个全连接层作为分类器来预测最终的答案选项，分类器对每个选项进行打分，所有选项的分数经过Softmax后得到模型对每个选项预测的概率；

步骤B32、最终通过梯度优化算法SGD进行学习率更新，利用反向传播迭代更新模型参数，以最小化损失函数来训练模型。

本发明还提供了一种采用如上述所述方法的基于BERT与门控类注意力增强网络的机器阅读理解系统，包括：

数据收集模块，收集中国中学生英语考试中的阅读理解多选题，并标注每篇文章的每个问题对应的答案选项类别，构建带类别标签的训练集S；

BERT编码器模块，由嵌入层和多层Transformer编码网络组成；将训练集S的每个(文章、问题、选项)三元组形式的训练样本被送入BERT编码器模块，从而获取到融合序列上下文信息的高层语义特征表示，并送入门控类注意力增强网络；

门控类注意力网络模块，更新CLS表示的权重，在减少下游任务计算量的同时，让类向量专注于与序列其他部分交互匹配，并充分聚合这些匹配特征，得到聚合信息v^L2；最后将v^L2馈送到预测层用于预测选项答案；

选项预测模块，预测层把前文得到的聚合信息v^L2通过一个全连接层和Softmax去预测最终的答案选项；根据目标损失函数，利用反向传播方法计算深度学习网络模型GCAN-BERT中的各参数的梯度，并利用随机梯度下降方法更新参数；

网络训练模块，当深度学习网络模型GCAN-BERT产生的损失值迭代变化小于设定阈值、或者达到最大迭代次数，终止深度学习网络模型GCAN-BERT的训练。

相较于现有技术，本发明具有以下有益效果：本发明能够有效提高多选阅读理解选项预测的精确度。

附图说明

图1为基于BERT与门控类注意力增强网络的机器阅读理解方法系统流程图。

图2为基于BERT与门控类注意力增强网络的深度学习模型GCAN-BERT结构图。

图3为Transformer编码块结构图。

图4为门控类注意力增强网络结构图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

如图1、2所示，本发明一种基于BERT与门控类注意力增强网络的机器阅读理解方法，包括如下步骤：

所述步骤B具体包括以下步骤：

步骤B1、将训练集S的每个(文章、问题、选项)三元组形式的训练样本作为GCAN-BERT的输入；GCAN-BERT使用BERT作为编码器，由嵌入层和多层Transformer编码网络组成，从而编码得到序列的高层语义特征表示，并送入门控类注意力增强网络；具体实现如下：

步骤B11、文章表示为P，问题表示为Q，每个问题有四个选项，取第j个选项表示Oj，j＝1,2,…,J,J为总答案选项数；将三者拼接为“[CLS]P[SEP]QO_j”的长序列，[CLS]、[SEP]为分隔符，得到长序列文本T＝([CLS]，t₁，t2，...，t_n)，[SEP]也包含在t_i里，n为序列长度；

其中n+1代表输入序列的长度，d表示词向量的维度；

步骤B13、句子表示代表序列中的词属于文章还是属于问题和选项，令每个属于文章的词的句子表示为e_A,

e_A每个维度的值都为0，[SEP]的句子表示也记为e_A；令每个属于问题和答案选项的词的句子表示为e_B,

e_B每个维度的值都为1；于是得到句子表示E_S，

代表对偶数位置的词向量用sin函数计算绝对位置编码，而

代表对奇数位置的词向量用cos函数计算绝对位置编码，

步骤B15、将每个词的词嵌入表示、句子表示、位置表示相加，得到X＝E_T+E_S+E_P＝(CLS，x₁，x2，...，x_n)，

Q＝xW^Q+b^Q

K＝XW^K+b^K

V＝XW^V+b^V

其中，W^Q、W^K、W^V、b^Q、b^K、b^V代表训练参数；

C＝Concat(head₁，head₂，...，head_h)W^C+b^C

M＝LayerNorm(X+C)

其中，head_i代表第i个子向量的自注意力分数，

N＝(W^FM+b^F)W^N+b^N

H＝LayerNorm(M+N)

其中，W^F、W^N、b^F、b^N表示训练参数；

步骤B19、将高层特征H送入门控类注意力增强网络中；

步骤B2、在门控类注意力增强网络中，将BERT模型的[CLS]标签的输出向量称为类向量，作为聚合下游信息的向量；门控类注意力增强网络仅仅更新CLS表示的权重，在减少下游任务计算量的同时，让类向量专注于与序列其他部分交互匹配，并充分聚合这些匹配特征，得到聚合信息v^L2；最后将v^L2馈送到预测层用于预测选项答案；具体实现如下：

Q＝h_CLSW₁+b₁

K＝ZW₂+b₂

V＝ZW₃+b₃

其中，W₁、W₂、W₃、b₁、b₂、b₃代表训练参数，

s＝Concat(head₁，head₂，...，head_h)W^v+b^v

其中，head_i代表第i个子向量的自注意力分数，

W^v，b^v代表训练参数，Concat代表拼接；

步骤B23、将s输入门控融合层，该层引入了门控机制用于代替残差连接，从而有针对性地将类向量的交互信息与h_CLS进行融合，它们在门控表示融合层中的具体变化如下：

u＝g_MHCA(h_CLS，s)

r＝sigmoid(W₄h_CLS+U₁s)

z＝sigmoid(W₅h_CLS+U₂s-b₄)

将u^L1输入到类前向反馈层，具体公式如下：

H^L1＝LayerNorm(Concat[u，Z])

u^FN＝(W₇u^L1+b₅)W₈+b₆

v＝g_CFFN(u^FN，u^L1)

其中，W₇、W₈、b₅、b₆是可训练参数，

v^L2充分地聚合了文章、问题和选项之间的信息，可用于下游分类任务的选项答案预测；

H^L2＝LayerWorm(Concat[v，Z])

步骤B3、预测层把前文得到的聚合信息v^L2通过一个全连接层去预测最终的答案选项；根据目标损失函数，利用反向传播方法计算深度学习网络模型GCAN-BERT中的各参数的梯度，并利用随机梯度下降方法更新参数；具体实现如下：

步骤B32、最终通过梯度优化算法SGD进行学习率更新，利用反向传播迭代更新模型参数，以最小化损失函数来训练模型；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。