CN113590745B

CN113590745B - 一种可解释的文本推断方法

Info

Publication number: CN113590745B
Application number: CN202110743722.6A
Authority: CN
Inventors: 万海; 沈大伟; 刘亚男; 曾娟; 黄佳莉
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2023-10-10
Anticipated expiration: 2041-06-30
Also published as: CN113590745A

Abstract

本发明提供一种可解释的文本推断方法，该方法通过观察人类对文本进行理解和推理的过程，模拟人类的文本推断的思维过程进行构建模型，使构建的模型具有可解释性。具体地，考虑到人类在进行长文本阅读的时候，对文本的理解主要基于空间顺序和内容关联两方面，将两方面的信息融合进行理解和推理，因此，本发明根据人类阅读文本的这一特点，根据文本中句子的空间顺序和句子的内容进行融合而构建神经网络模型，且该模型可模拟人类推理过程。为了更好地讲述和理解本发明提出的文本推断方法，本发明将该方法具体应用于机器阅读理解任务。

Description

一种可解释的文本推断方法

技术领域

本发明涉及自然语言理解领域，更具体地，涉及一种可解释的文本推断方法。

背景技术

文本推断是自然语言理解领域的前沿研究方向，具体包括对文本的理解和文本的逻辑推理两个研究挑战。传统的文本推断方法在于推断过程中引入逻辑规则，这些逻辑规则由专家手工构建，往往针对具体的推理场景，泛化能力差且规则构建成本高。而随着深度学习的兴起，基于深度学习的文本推断技术获得广泛关注。基于深度学习的文本推断方法分为两大类，第一类是基于知识库，通过引入知识图谱等外部知识提高模型对文本的理解能力和推理能力，第二类则是通过构建模型对现有文本进行理解和推断。本发明在意的是基于深度学习的第二类文本推断方法，而现有该类方法的模型主要通过循环神经网络或预训练语言模型对文本进行理解，然后通过注意力机制或者构建实体级别的图网络进行推理，对文本的理解过于粗糙且模型缺乏可解释性。

机器阅读理解是指让机器能够阅读文档、理解文档所表达的意思并根据文档内容推理出问题答案。近年来，阅读理解作为自然语言处理的一个重要任务成为了学术界和工业界的研究热点，成为了评价基于自然语言处理的智能系统的核心任务之一。

机器阅读理解任务一般可以分为4类：完形填空、多项选择、片段选择和答案生成。本发明主要意在处理多项选择任务。阅读理解的选择题通常包括一篇背景材料、一个或多个问题以及每个问题的多个选项。多项选择任务则是从多个候选答案中为问题选择出正确的答案。目前的数据通常来源于试卷中真实的阅读理解题，问题和答案候选集由专家手工进行构建，候选答案通常为4个。代表数据集为RACE(ReAding comprehension datasetfrom examination)，该数据集来源于中国中学生的英文试卷，涵盖多个领域的主题和多种不同类型的篇章。

传统的处理机器阅读理解问题的方法是基于规则的。1999年提出的Deep Read系统采用信息抽取的方法，分别将问题和背景材料中的关键信息抽取出来，然后采用匹配的方式从背景材料中搜索出问题查询的信息，该系统使用词袋模型对句子信息进行表示。2000年提出的基于规则的阅读理解问答系统Quarc可以接收一篇背景材料并且挑选出一个最合适的句子作为相应问题的答案，Quarc通过启发式规则查找背景材料和问题中的词汇和语义线索。

传统的处理机器阅读理解问题的方法基于规则或手工构建特征的方式依赖人工，模型的泛化和迁移能力差。

随着大规模阅读理解数据的出现，数据驱动的方法开始占据了主导，基于深层神经网络的端到端模型成为了机器阅读理解研究的主流方法。大部分端到端的深度学习模型都采用“编码器-推理与交互-答案预测”的框架来解决阅读理解问题。

对于编码器，多数阅读理解任务方法采用循环神经网络(RNN，recurrent neuralnetwork)或长短期记忆网络(LSTM，Long Short Term Memory Network)来实现，近年来，随着预训练语言模型的兴起及其在各个自然语言处理任务中取得出色效果，采用预训练语言模型作为编码器成为趋势。

交互与推理过程是指对背景材料和问题等信息的处理。交互主要指在背景材料信息与问题信息之间的关联操作，而推理主要指由已有信息产生新信息的过程。目前，在阅读理解选择题任务上，常用于这一过程的结构是RNN和注意力机制。

最终的答案预测阶段，则一般是采用线性全连接层或者注意力机制。

由于背景材料一般比较长，所以目前的工作大多是先找出可能和问题相关的候选句子，然后集中于寻找问题和候选句子之间的语义关系。这种工作忽略了背景材料中不同段落或同一段落间不同句子的拓扑顺序，也使得一旦候选句子选择错误，直接导致后面答案选择的错误。此外，当文档中隐含地指出问题及其正确选项之间的关系时，是难以找到合适的候选句子的。

发明内容

本发明提供一种可解释的文本推断方法，该方法通过观察人类对文本进行理解和推理的过程，模拟人类的文本推断的思维过程进行构建模型，使构建的模型具有可解释性。

为了达到上述技术效果，本发明的技术方案如下：

一种可解释的文本推断方法，包括以下步骤：

S1：进行指代消解、实体识别；

S2：进行信息编码；

S3：构建句子关系图；

S4：句子关系图的处理；

S5：进行特征信息融合；

S6：进行选项选择。

进一步地，所述步骤S1的具体过程是：

S11：对于背景材料中的所有句子，使用StandfordCoreNLP工具进行指代消解，并将指代消解后的句子替换背景材料中的原始句子；

S12：对背景材料中的所有句子按顺序进行编号，对于有N个句子的背景材料，得到编号为为s₀至s_N-1的句子序号表示，同时对问题句子编号为q；

S13：对于背景材料的所有句子和问题句子，使用StandfordCoreNLP工具进行实体抽取，然后构建句子实体表；句子实体表中，第一列为句子序号，即q以及s₀至s_N-1，第二列为句子序号所对应句子中所含有的实体集合。

进一步地，所述步骤S2的具体过程是：

S21：由背景材料句子s₀,s₁,…s_N-1，问题句子q和选项句子o₀,o₁,o₂,o₃，组成示例的句子集合，通过预训练语言模型产生每个句子的特征表示；

S22：令预训练语言模型的输入句子为s，由n个单词构成，在单词序列的头部加入“[CLS]”，尾部加入“[SEP]”，得到预训练语言模型的输入序列；

S23：预训练语言模型采用Bert模型，输入序列经过Bert模型，抽取“[CLS]”所对应的隐含特征向量，作为句子s的特征表示，记为vs。

进一步地，所述步骤S3的具体过程是：

S31：将背景材料中所有句子的特征表示和问题句子的特征表示作为句子关系图的节点，即句子特征vs₀,vs₁,…,vs_N-1和句子特征vq，则句子关系图共有N+1个节点；

S32：构建句子关系图中各个节点间的初始边关系矩阵M。具体为：初始阶段，任意两个节点间的边权重均为0。实际上，边关系矩阵为一个二维矩阵，每个维度表示图的节点，则矩阵大小为R^(N+1)×(N+1)，其中，第i个节点和第j个节点的边权重为M[i][j]；

S33：构建句子关系图中节点间边关系矩阵M的顺序关系。具体为：对于背景材料中的句子节点vs₀,vs₁,…,vs_N-1，假设vs_i和vs_i+1所对应的句子在同一段落中，且这两个句子相邻，则对应边权重做加2处理，即M[i][i+1]＝M[i][i+1]+2；如果vs_i和vs_i+1所对应的句子不在同一段落中，但这两个句子相邻，则对应边权重做加1处理，即M[i][i+1]＝M[i][i+1]+1；

S34：构建句子关系图中节点间边关系矩阵的内容相关关系，根据步骤S1中得到的句子实体表D，将具有相同实体的句子节点的边权重做加3处理：句子i的实体集合为D[i]，句子j的实体集合为D[j]，若则M[i][j]＝M[i][j]+3。

进一步地，所述步骤S4中，将句子关系图的节点特征[vq,vo₀,vo₁,vo₂,vo₃,vs₀,vs₁,…,vs_N-1]和节点间边关系矩阵M输入图注意力模型中，图注意力模型采用多头注意力机制，使用8头注意力机制，将8头注意力机制的输出向量进行求均值，作为最终的注意力输出向量，从而得到经过图注意力模型处理后的节点特征为[gq,go₀,go₁,go₂,go₃,gs₀,gs₁,…,gs_N-1]。

进一步地，所述步骤S5的具体过程是：

S51：将经过图注意力模型处理后的背景材料句子节点特征表示，按原始句子顺序组合成新的特征序列，记为[gs₀,gs₁,…,gs_N-1]；

S52：将选项句子特征与背景材料的特征序列联合，如选项i与背景材料的特征序列联合组成序列[go_i,gs₀,gs₁,…,gs_N-1]，其中i∈[0,3]，然后将得到的序列输入BiLSTM模型，得到对应的输出特征表示序列，并以go_i所对应的输出特征表示作为选项i的融合特征表示op_i。

进一步地，所述步骤S6的具体过程是：

S61：最终答案的选择采用注意力机制，注意力机制包含query，key，value三个通道输入，query通道的输入为问题的特征表示gq，key和value通道的输入为选项的特征表示[op₀,op₁,op₂,op₃]；

S62：query和key之间的计算MLP，则对于选项i，有Sim_i＝MLP(gp,op_i)；

S63：使用Softmax进行归一化，得到选项i作为答案选择的概率

S64：选择概率最大的选项作为最终答案，即答案为选项

进一步地，步骤S1中，使用指代消解工具，对背景材料中的句子进行指代消解并将句子按顺序进行编号；然后，使用命名实体识别工具对问题和背景材料的句子进行实体抽取，得到每个句子中所含有的实体集合；对背景材料、问题以及选项进行编码，采用预训练语言模型对背景材料按句子为单位进行编码，问题与各个选项也分别看作是句子输入预训练语言模型进行编码，从而得到每个句子的特征表示；步骤S3中，为了充分获取和利用背景材料中的信息，结合背景材料中句子之间以及句子和问题之间的关联关系，构建句子关系图，其中关联关系包括顺序关系和内容相关关系。

进一步地，步骤S5中，将句子关系图中的特征节点按顺序关系恢复排列，得到背景材料的句子序列和问题句子的新特征表示，然后，将选项的特征表示和背景材料的句子序列组合成新的序列，输入双向长短期记忆网络进行选项和背景材料的信息融合。

与现有技术相比，本发明技术方案的有益效果是：

本发明提出的一种可解释的文本推断模型，通过模拟人类进行文本理解和推理的过程而建立模型，是模型构建过程具有可解释性；针对阅读理解任务中的多项选择题进行选项选择，首次以建立句子间多层关系图的方式来获取背景材料信息和处理背景材料中句子间的关系；在构建句子实体表前，首先对背景材料中的所有句子进行了指代消解，从而使得句子的实体抽取步骤能够避免因实体在句子中以代词等形式出现而无法正确抽取的情况；构建句子关系图的方法，既考虑了句子间的多种顺序关系，又考虑了句子的内容相关关系；以背景材料中的段落内部句子顺序关系和段落间句子顺序关系来构建了背景材料中句子间的顺序关系，又以背景材料中含有的相同实体的句子认为具有内容相关关系，从而在多方面结合了背景材料中的句子关系，形成了句子间的拓扑结构；将问题句子也放入句子关系图中，同时将问题句子和背景材料句子以内容相关关系进行关联，从而使得模型可以关注全局背景材料信息的同时，重点关注与背景材料中与问题相关的句子。

附图说明

图1是本发明一种可解释的文本推断方法的整体流程图；

图2是本发明提出的一种可解释的文本推断方法的训练流程。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1-2所示，在本实施例中，数据集中的背景材料记为Story，问题记为q，选项集合记为Option。一篇具有N个句子的背景材料，材料中每个句子按顺序分别记为s₀,s₁,…s_N-1，每个问题的选项集合具有4个选项，每个选项记为o_i，其中i∈[0,3]。

本发明利用StandfordCoreNLP工具对文本进行指代消解和实体抽取、预训练语言模型生成句子特征和图处理模型等技术完成结合句子次序与内容构建图的机器选项选择方法。如图1所示，包括以下步骤：

S1、指代消解、实体识别：使用指代消解工具，如StandfordCoreNLP等，对背景材料中的句子进行指代消解并将句子按顺序进行编号。然后，使用命名实体识别工具对问题和背景材料的句子进行实体抽取，得到每个句子中所含有的实体集合。

S11：对背景材料按照段落进行拆分，将每个段落通过StandfordCoreNLP工具进行指代消解，将指代消解后的段落按原顺序进行组合得到指代消解过后的背景材料。

S12：将S11中得到的背景材料按照逗号、句号、分号、问号、感叹号等句子分割符号进行分割，对分割后得到的句子按顺序进行编号，记为s₀,s₁,…s_N-1，同时记住句子所在的段落号。

S13：将问题句子和背景材料中的句子s₀,s₁,…s_N-1分别通过StandfordCoreNLP工具，得到每个句子中所含有的实体，并构建句子实体表。句子实体表具体可表示为一个key-value字典，记为D，key值为句子序号(s₀,s₁,…s_N-1和q)，value为实体集合。

S2、信息编码：对背景材料、问题以及选项进行编码。采用预训练语言模型对背景材料按句子为单位进行编码，问题与各个选项也分别看作是句子输入预训练语言模型进行编码，从而得到每个句子的特征表示。

S21：由背景材料句子s₀,s₁,…s_N-1，问题句子q和选项句子o₀,o₁,o₂,o₃，组成示例的句子集合，通过预训练语言模型产生每个句子的特征表示。

S22：令预训练语言模型的输入句子为s，由n个单词构成。在单词序列的头部加入“[CLS]”，尾部加入“[SEP]”，得到预训练语言模型的输入序列。

S23：预训练语言模型采用Bert模型。输入序列经过Bert模型，抽取“[CLS]”所对应的隐含特征向量，作为句子s的特征表示，记为vs。

S3、构建句子关系图：为了充分获取和利用背景材料中的信息，结合背景材料中句子之间以及句子和问题之间的关联关系，构建句子关系图。其中关联关系包括顺序关系和内容相关关系。

S31：将背景材料中所有句子的特征表示和问题句子的特征表示作为句子关系图的节点，即句子特征vs₀,vs₁,…,vs_N-1和句子特征vq，则句子关系图共有N+1个节点。

S32：构建句子关系图中各个节点间的初始边关系矩阵M。具体为：初始阶段，任意两个节点间的边权重均为0。实际上，边关系矩阵为一个二维矩阵，每个维度表示图的节点，则矩阵大小为R^(N+1)×(N+1)，其中，第i个节点和第j个节点的边权重为M[i][j]。

S33：构建句子关系图中节点间边关系矩阵M的顺序关系。具体为：对于背景材料中的句子节点vs₀,vs₁,…,vs_N-1，假设vs_i和vs_i+1所对应的句子在同一段落中，且这两个句子相邻，则对应边权重做加2处理，即M[i][i+1]＝M[i][i+1]+2；如果vs_i和vs_i+1所对应的句子不在同一段落中，但这两个句子相邻，则对应边权重做加1处理，即M[i][i+1]＝M[i][i+1]+1。

S34：构建句子关系图中节点间边关系矩阵的内容相关关系。具体为：根据步骤S1中得到的句子实体表D，将具有相同实体的句子节点的边权重做加3处理。如句子i的实体集合为D[i]，句子j的实体集合为D[j]，若则M[i][j]＝M[i][j]+3。

S4、句子关系图的处理：将构建好的句子关系图经过图注意力模型，充分融合处理句子之间的关系。

S41：图注意力模型采用论文《Graph Attention Networks》中的模型设定。将句子关系图的节点特征[vq,vo₀,vo₁,vo₂,vo₃,vs₀,vs₁,…,vs_N-1]和节点间边关系矩阵M输入图注意力模型中。图注意力模型采用多头注意力机制，这里使用8头注意力机制，将8头注意力机制的输出向量进行求均值，作为最终的注意力输出向量。从而得到经过图注意力模型处理后的节点特征为[gq,go₀,go₁,go₂,go₃,gs₀,gs₁,…,gs_N-1]。

S5、特征信息融合：将句子关系图中的特征节点按顺序关系恢复排列，得到背景材料的句子序列和问题句子的新特征表示，然后，将选项的特征表示和背景材料的句子序列组合成新的序列，输入双向长短期记忆网络进行选项和背景材料的信息融合。

S51：将经过图注意力模型处理后的背景材料句子节点特征表示，按原始句子顺序组合成新的特征序列，记为[gs₀,gs₁,…,gs_N-1]。

S6、选项选择：将融合背景材料后的选项特征表示经过以问题句子的特征表示作为查询的注意力层，选择概率最大的选项作为最终选择的答案。

S61：最终答案的选择采用注意力机制。注意力机制包含query，key，value三个通道输入，query通道的输入为问题的特征表示gq，key和value通道的输入为选项的特征表示[op₀,op₁,op₂,op₃]。

S62：query和key之间的计算MLP，则对于选项i，有Sim_i＝MLP(gp,op_i)。

S63：使用Softmax进行归一化，得到选项i作为答案选择的概率

S64：选择概率最大的选项作为最终答案，即答案为选项

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种可解释的文本推断方法，其特征在于，包括以下步骤：

S1：进行指代消解、实体识别；

S2：进行信息编码；

S3：构建句子关系图；

S4：句子关系图的处理；

S5：进行特征信息融合；

S6：进行选项选择；

步骤S1中，使用指代消解工具，对背景材料中的句子进行指代消解并将句子按顺序进行编号；然后，使用命名实体识别工具对问题和背景材料的句子进行实体抽取，得到每个句子中所含有的实体集合；

步骤S2中，对背景材料、问题以及选项进行编码，采用预训练语言模型对背景材料按句子为单位进行编码，问题与各个选项也分别看作是句子输入预训练语言模型进行编码，从而得到每个句子的特征表示；

步骤S3中，为了充分获取和利用背景材料中的信息，结合背景材料中句子之间以及句子和问题之间的关联关系，构建句子关系图，其中关联关系包括顺序关系和内容相关关系；

步骤S5中，将句子关系图中的特征节点按顺序关系恢复排列，得到背景材料的句子序列和问题句子的新特征表示，然后，将选项的特征表示和背景材料的句子序列组合成新的序列，输入双向长短期记忆网络进行选项和背景材料的信息融合。

2.根据权利要求1所述的可解释的文本推断方法，其特征在于，所述步骤S1的具体过程是：

S12：对背景材料中的所有句子按顺序进行编号，对于有N个句子的背景材料，得到编号为s₀至s_N-1的句子序号表示，同时对问题句子编号为q；

3.根据权利要求2所述的可解释的文本推断方法，其特征在于，所述步骤S2的具体过程是：

4.根据权利要求3所述的可解释的文本推断方法，其特征在于，所述步骤S3的具体过程是：

S32：构建句子关系图中各个节点间的初始边关系矩阵M，具体为：初始阶段，任意两个节点间的边权重均为0，实际上，边关系矩阵为一个二维矩阵，每个维度表示图的节点，则矩阵大小为R^(N+1)×(N+1)，其中，第i个节点和第j个节点的边权重为M[i][j]；

S33：构建句子关系图中节点间边关系矩阵M的顺序关系，具体为：对于背景材料中的句子节点vs₀,vs₁,…,vs_N-1，假设vs_i和vs_i+1所对应的句子在同一段落中，且这两个句子相邻，则对应边权重做加2处理，即M[i][i+1]＝M[i][i+1]+2；如果vs_i和vs_i+1所对应的句子不在同一段落中，但这两个句子相邻，则对应边权重做加1处理，即M[i][i+1]＝M[i][i+1]+1；

5.根据权利要求4所述的可解释的文本推断方法，其特征在于，所述步骤S4中，将句子关系图的节点特征[vq,vo₀,vo₁,vo₂,vo₃,vs₀,vs₁,…,vs_N-1]和节点间边关系矩阵M输入图注意力模型中，图注意力模型采用多头注意力机制，使用8头注意力机制，将8头注意力机制的输出向量进行求均值，作为最终的注意力输出向量，从而得到经过图注意力模型处理后的节点特征为[gq,go₀,go₁,go₂,go₃,gs₀,gs₁,…,gs_N-1]。

6.根据权利要求5所述的可解释的文本推断方法，其特征在于，所述步骤S5的具体过程是：

7.根据权利要求6所述的可解释的文本推断方法，其特征在于，所述步骤S6的具体过程是：

S63：使用Softmax进行归一化，得到选项i作为答案选择的概率

S64：选择概率最大的选项作为最终答案，即答案为选项