CN114969278A

CN114969278A - 一种基于知识增强图神经网络的文本问答模型

Info

Publication number: CN114969278A
Application number: CN202210270313.3A
Authority: CN
Inventors: 王琳琳; 冯雨溪; 贺樑
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2022-08-30

Abstract

本发明公开了一种基于知识增强神经网络的文本问答模型，以提升机器对自然语言的理解能力。该模型由输入、推理、预测三大模块组成，通过设计知识增强模块融合来自常识知识库ConceptNet的结构化知识和非结构化文本的深层次语义，利用图注意力网络选择与文本有关的知识以基于文本语义进行多跳推理，使用多层感知机输出预测结果以准确进行文本问答。本发明在DREAM等公开数据集上表现出了优越特性，验证了其具有良好的语义理解能力；这同时表明基于知识增强图神经网络的文本问答模型架构能够进行知识选择、完成异构信息融合，提升机器的常识推断能力以进行准确的文本问答。

Description

一种基于知识增强图神经网络的文本问答模型

技术领域

本发明涉及自然语言处理技术领域，尤其涉及基于知识增强神经网络的文本问答模型。

背景技术

文字和语言是人类文明的重要标志，也是人类交流的主要载体。在不断发展的历史进程中，人类产生了浩如烟海的文本资料和文字信息，但囿于机器对自然语言理解能力的不足，复杂文本通常仅作为有效数据被物理存档，而未被充分挖掘和利用，这给人机交互带来了巨大挑战。随着互联网的飞速发展，基于若干关键词的信息搜索和基于浅层语义分析等方式的传统信息检索技术已然无法满足当下用户对海量信息精准化处理的迫切需求。因此，研究者提出了一系列基于深度神经网络的机器阅读理解式问答模型，来帮助机器从错综复杂的数据资源中自动找到答案，并以自然语言的方式回答用户问题，以满足日益增长的信息获取需求。

由于自然语言文本中普遍存在着大量机器难以理解的常识、隐喻、幽默等，对问题进行准确的回答需要机器结合一些并未在原文中明确表达的背景知识。但现有的机器阅读理解模型往往缺乏相应的外界知识储备，难以应对复杂的语言现象，实现文本内在语义的深层次理解仍是一项重大挑战。因而，如何从问题文干之外的外部知识中获取相关知识，使得模型能够综合上下文语义理解背景信息，而后基于推理做出正确的回答是当下问答模型研究的热点。这是因为，引入过多的外部知识往往会给模型带来不必要的噪音，进而无法帮助模型实现性能提升；

其次，知识融合的方式多种多样，如何找到结构化知识和非结构化文本的最佳组合方式是目前亟待研究的关键问题。目前，基于知识的模型尚且无法具备人类对外界世界的认知能力，简单的反义知识关系就很容易骗过当前模型，因此，提升问答模型的推理理解能力极为必要。

发明内容

本发明的目的是提供一种基于知识增强神经网络的问答模型，旨在通过引入世界知识辅助文本深层次语义理解。通过建立文本语义与外部知识的有效交互选择出与文本相关的外部知识后与预训练语言模型融合，并利用预训练语言模型的多头注意力机制动态关注文本中的特定内容，利用图神经网络中的信息聚合算法实现有效语义推理，进而完成对问题的正确回答。

实现本发明目的的具体技术方案是：

一种基于知识增强神经网络的文本问答模型，利用外部知识帮助机器理解常识背景信息、并借助图神经网络聚合算法提高模型的认知推理能力，该模型包括输入模块、推理模块和预测模块，其中：

所述输入模块，由常识知识库即ConceptNet、知识增强模块和融合模块组成，知识增强模块接收转换成统一格式的输入语句，根据输入语句中的实体整合常识知识库中的知识，使用注意力掩码矩阵存储语句和知识的位置编码，融合模块实现输入语句与知识的融合；

所述推理模块，由预训练语言模型和知识增强图注意力网络组成，使用预训练语言模型处理知识融合后的输入样例，获得篇章-问题对的表征向量；同时利用知识增强图注意力网络完成信息聚合和知识推理，以获得知识增强后的文本语义全新表示；

所述预测模块，将预训练语言模型输出的表征向量和知识增强图注意力网络输出的文本语义全新表示融合后，使用多层感知机进行概率预测，通过最小化负对数似然完成问答模型的训练。

所述知识增强模块接收转换成统一格式的输入语句,所述的输入语句统一格式为：用[SEP]分割文章与问答对。

所述的知识增强模块：定位输入语句中的实体，将其作为线索整合ConceptNet中的结构化知识以改进模型的常识理解能力，具体包括：

对于输入语句中的所有实体，从ConceptNet中提取他们的相邻实体；

为中心实体与相邻实体添加二者之间对应关系形成新的树形形式；

使用每个节点与根节点之间的相对距离作为软位置编码来代替位置编码，并使用注意力掩码矩阵维护树形输入中不同分支的不可见性；

使用位置编码存储和模板拓展策略将树形的结构化知识嵌入到输入语句中，具体包括：

使用ConceptNet中的边缘权重值作为先验知识来选择与目标实体联系最大的相邻实体，以避免引入噪音；

手动设计文本模板，使用自然语言来描述目标实体与ConceptNet中抽取到的结构化知识之间的关系；

通过软位置和注意力掩码矩阵将转换后的非结构化文本片段插入到原始输入中。

所述的融合模块：展平原始输入与结构化知识，送到预训练语言模型进行处理。

所述的预训练语言模型，用于处理知识融合后的输入样例，先利用海量文本对模型进行预训练，然后在下游任务即目标任务上继续对该模型进行微调即Fine-tune，从而提高下游任务的准确率，具体包括：

处理知识融合后的输入样例，获得篇章-问题对的表征向量；

使用词向量矩阵、块向量矩阵和位置向量矩阵对表征向量进行映射，得到输入表示；

输入表示随后经过编码层的多层编码，借助自注意力机制充分学习句子中每个词之间的语义关联，得到句子的上下文语义表示；

最终将问题答案的选择转换为分类任务，输出层通过一个全连接层预测输入文本对应的分类标签，通过优化交叉熵损失函数对其参数进行学习。

所述编码层的多层编码，具体过程：

在[MASK]的位置预测原来的词，具体来说，将输入文本中的部分单词用[MASK]掩盖，通过多层Transformer编码器使用掩码词周围的上下文信息将掩码词还原为原单词；

再使用替换词检测任务，对于被掩码语言模型在[MASK]位置预测后的词，判断该词对于原始输入文本而言是否被替换，即识别出这些单词和原始句子对应位置的单词是否一致。

所述的知识增强图注意力网络包括图注意力网络即GAT、多层感知机和自注意机制，利用图神经网络的信息传播算法实现邻居节点的信息聚合和更新，提升知识理解和推理能力。

所述的图注意力网络，会自动学习到有效实体后进行推理，具体包括：

根据从输入中提取的实体，按照边权重从ConceptNet中选择相邻节点；

利用选择出的相邻节点为每个实体构造子图；

利用注意力机制对实体的嵌入表示进行优化；

优化过程中，根据问答任务自动学习子图中两个实体间的最佳边权重，用于表示相邻实体与中心实体的相关性；

所述多层感知机融合图注意力网络实体级别的输出与预训练语言模型的输出，然后进行分类，获取问答任务需要的语义特征；

所述自注意力模块接收到多层感知机输出的语义特征，计算单词间的依赖关系，学习句子的内部结构，对多层感知机的输出进一步细化。

本发明在DREAM等公开数据集上表现出了优越特性，验证了其具有良好的语义理解能力；这同时表明基于知识增强图神经网络的文本问答模型架构能够进行知识选择、完成异构信息融合，提升机器的常识推断能力以进行准确的文本问答。

附图说明

图1为本发明结构示意图；

图2为本发明的算法框架图；

图3为本发明的输入模块流程图；

图4为本发明中知识增强模块的工作原理图；

图5为本发明在DREAM数据集上的测试效果图；

图6为本发明在DREAM数据集中不同对话轮次数据上的测试效果图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

以下将对实现的基于知识增强神经网络的文本问答模型进行具体说明。如图1、2所示，本发明包括输入模块、推理模块，以及预测模块三部分，其工作的具体步骤如下：

步骤1：将输入的训练实例转换格式。对于每个问题，假设P为文章文本段落；Q为问题；N为候选答案的数量；O_i表示选项，其中i∈{1，2，3，…,N}。对于每个训练实例，将O_i拼接在Q之后，即将问题-答案对表示为QO_i。接下来，将文章文本连接为[CLS]P[SEP]QO_i[SEP]，并将转换后的输入表示为U_i。使用独热向量表示U_i，并添加位置编码，从而对每个U_i有着全新嵌入表示

处理流程如图3所示。

受K-BERT的启发，本发明提出一种全新的知识增强模块即Kemb，用以整合ConceptNet中的一些结构化知识来改进模型的常识理解能力。对于输入语句中的所有实体，先从ConceptNet中提取它们的相邻实体，并添加对应的关系形成新的树形形式。使用每个节点与根节点之间的相对距离作为软位置编码来代替位置编码，以及一个注意力掩码矩阵来维护树形输入中不同分支的不可见性，并结合以下策略将结构化知识嵌入到预训练语言模型中：首先，由于ConceptNet中的边缘权重值表示这些信息的可信度，故使用其作为先验知识来选择最相关的相邻实体，并避免一些不必要的噪音；其次，手动设计一些文本模板，使用自然语言在ConceptNet中描述结构化实体及其之间的关系，然后将转换后的非结构化文本片段插入到原始输入中。最后，展平后的输入可以通过预训练语言模型进行处理。知识增强模块工作原理如图4所示。

步骤2：推理阶段中，利用知识增强图注意力网络即Kegat基于所有相关实体进行推理，同时使用单词敏感的预训练语言模型Electra对整个篇章-问题对获得句子级别的高级表示。该知识增强图注意力网络主要由图注意力网络、自注意力模块和多层感知机组成。其中，图注意力网络依赖于信息聚合算法能够有效完成邻居节点的表征来更新节点特征，并利用其中的注意力机制针对不同的邻居学习不同的权重。

具体来说，本发明使用一种新颖的方法从ConceptNet中挑选相关的结构化知识，利用图注意力网络根据由实体及相关知识构建的子图进行语义推理。首先，使用N-gram方法，先从转换后的输入U_i中提取所有实体；其次，使用边权重作为从ConceptNet中选择最多k个相邻节点的概率，利用这些相邻节点为每个提取的实体构造子图。假设实体数量为n，则将依次构造n个子图。接下来，利用ConceptNet获得第i个实体的嵌入表示作为初始表示

它将通过L层的图注意力网络得以优化。在优化过程中，图注意力网络根据问答任务自动学习这些子图中两个实体间的最佳边缘权重，用于表示相邻实体与每个中心实体的相关性。换言之，对于每个中心实体，图注意力网络只给那些在构造的子图中与几个最合理的相邻实体相邻的边分配更高的权重，并舍弃一些无关紧要的边。因此，通过改进子图，可以提高模型的抽象语义推理能力。图注意力网络工作原理如下：

本发明基于公式(1)更新每个实体节点，其中σ(·)表示ELU激活函数，W是网络参数，

表示图注意力网络的第l层表示，Ν_i表示与第i个实体的所有相邻节点。M表示公式(2)中独立注意机制的数量，

表示第j个实体与第i个实体的相关度。除此之外，f(·)表示将向量转换为实数的投影函数，[；]表示串联操作。最后定义公式(3),其中U_i为第i个语句，n表示该语句中的实体子图个数，

作为从图注意力网络获得的实体子图的最终

本发明的推理模块将继续使用自注意力模块和多层感知机进行特征优化，具体做法如下：对已构造子图中的所有节点，训练一个共享权重矩阵，得到每个邻居节点的权重；计算注意力值时，将节点的表示分别使用共享权重矩阵做映射，并将其结果向量拼接起来；再使用前馈神经网络将拼接向量映射到实数，激活函数处理后再经过归一化得到最终的注意力系数；得到注意力系数后即可对邻居节点加权求和得到中心节点的输出特征。为了使自注意力能够稳定地表示节点，引入多头注意力机制来提高模型的表征能力：对于中间输出特征，使用多个权重矩阵计算自注意力，然后将注意力头得到的结果拼接得到输出向量，将各个注意力头的输出向量取平均得到最终的结果。在句子级别，本发明使用自注意力模块和多层感知机即MLP以促进模型对实体和输入语句进行推理。首先利用多层感知机将图注意力网络的输出

与预训练语言模型的输出

融合为

然后采用自注意力模块进行细化得到G_Ui。因此，可以将问题－答案对作为参考，进一步完善实体级表示。如公式(4)-(5)所示：

其中，

是细化后的的表示，SelfAttn(·)表示自注意力操作，而σ(·)是激活函数。最后，再将

和

连接起来以获得整个推理表示

如公式(6)所示。

步骤3：经过推理模块处理后，每个输入实例可得转化后的表示

在预测模块中，使用多层感知机来进行概率计算，以完成下游问答任务。该过程原理可定义为公式(7)-(9)。

P′＝softmax(P) (8)

y＝argmax(P') (9)

其中P为MLP输出且P∈R^N×1，y是预测结果，P'是选择第i个选项的概率。

在训练阶段，根据公式(10)完成最小化负对数似然训练

其中，y^*表示最优选项的独热向量，L表示损失函数。

本发明的具体网络参数配置如下，训练时batch_size设置为1，测试使用batch_size为4，训练学习率为0.001，fine-tuning过程中学习率为0.0000005，adam_epsilon为0.000001，weight_decay为0.01，训练中的迭代epochs设置为2，warmup_proportion设置为0.05，fine_tune_epochs设置为10，k_fold设置为5。

在具体实验阶段，由于对话文本通常含有缩略、指代、隐喻等复杂的语言特性，因此和常见的书面文本相比，DREAM数据集给问答模型带来了更大的挑战。为了探究本问答模型对于对话段落的理解能力，实验测试了不同问答模型在DREAM数据集上的答案选择准确率以进行比较。实验中使用的基线模型包括：随机选择方法和基于最新预训练语言模型架构XLNET-large、BERT-large、BERT-large+WAE等方法，其中WAE指Wasserstein自动编码器，是一种用于构建数据分布生成模型的算法，通过最小化模型分布和目标分布之间的Wasserstein距离的惩罚形式，促使编码的训练分布与先验分布相匹配，是对抗性自动编码器的泛化，相比变分自编码器可以生成质量更好的样本。实验结果如图5所示。从图中可以看出，本发明在对话文本上显示出了良好的理解性能，引入知识增强图注意力网络的系统相比先前表现极好的BERT-large+WAE模型相对提升了14.9％，比基于Electra-large的架构相对提升了4.8％。

DREAM数据集含有由多个讲话者组成的多轮次对话，由于对话文本的特殊性，参与人的随机加入使得话题往往分散于不同轮次中，然而较多轮次的对话篇章同时给机器进行理解带来了不小的挑战。因此，实验测试了本发明在不同轮次对话上的理解效果。在使用全部的Train数据子集训练后，将测试集根据对话轮次划分为：小于6轮、小于8轮、大于13轮和大于14轮的数据集，在划分后的数据子集上分别测试，实验结果如图6所示。从图中结果对比来看，当输入的对话轮次控制为小于8轮时，本发明对答案的预测准确率为82.41％，相比于对所有测试数据的预测，准确率提升了3.15％；而当对话轮次调整为小于6轮时，准确率为82.50％，相比于全部测试数据的准确率提升了3.24％。当对话轮次大于13轮时，模型对答案预测的准确率为71.43％，相较于所有测试数据的准确率下降了7.83％；当对话轮次调整为大于14轮时，准确率下降了8.81％。由此分析，由于对话语句中主题的转移较快，涵盖内容较多，因此对其内容的理解对于本发明而言是具有挑战性的。本发明在对话轮次小于8轮时有着较好的理解能力。

Claims

1.一种基于知识增强神经网络的文本问答模型，其特征在于,包括输入模块、推理模块和预测模块，其中：

2.根据权利要求1所述的文本问答模型，其特征在于，所述知识增强模块接收转换成统一格式的输入语句,所述的输入语句统一格式为：用[SEP]分割文章与问答对。

3.根据权利要求1所述的文本问答模型，其特征在于,所述的知识增强模块：定位输入语句中的实体，将其作为线索整合ConceptNet中的结构化知识以改进模型的常识理解能力，具体包括：

使用位置编码存储和模板拓展策略将树形的结构化知识嵌入到输入语句中。

4.根据权利要求3所述的文本问答模型，其特征在于,所述使用位置编码存储和模板拓展策略将树形的结构化知识嵌入到输入语句中，具体包括：

5.根据权利要求1所述的文本问答模型，其特征在于，所述的融合模块：展平原始输入与结构化知识，送到预训练语言模型进行处理。

6.根据权利要求1所述的文本问答模型，其特征在于,所述的预训练语言模型，用于处理知识融合后的输入样例，先利用海量文本对模型进行预训练，然后在下游任务即目标任务上继续对该模型进行微调即Fine-tune，从而提高下游任务的准确率，具体包括：

处理知识融合后的输入样例，获得篇章-问题对的表征向量；

7.根据权利要求6所述的文本问答模型，其特征在于,所述编码层的多层编码，具体过程：

8.根据权利要求1所述的文本问答模型，其特征在于,所述的知识增强图注意力网络包括图注意力网络即GAT、多层感知机和自注意机制，利用图神经网络的信息传播算法实现邻居节点的信息聚合和更新，提升知识理解和推理能力。

9.根据权利要求8所述的文本问答模型，其特征在于,所述的图注意力网络，会自动学习到有效实体后进行推理，具体包括：

利用选择出的相邻节点为每个实体构造子图；

利用注意力机制对实体的嵌入表示进行优化；