CN111444328A

CN111444328A - 一种带有解释生成的自然语言自动预测推断方法

Info

Publication number: CN111444328A
Application number: CN202010371946.4A
Authority: CN
Inventors: 戴新宇; 成臻; 何亮; 张建兵; 黄书剑; 陈家骏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2020-07-24
Anticipated expiration: 2040-05-06
Also published as: CN111444328B

Abstract

本发明提供了一种带有解释生成的自然语言自动预测推断方法，包括如下步骤：步骤1，训练一个变分解释生成模型；步骤2，训练一个基于解释的逻辑关系预测模型；步骤3，通过所述的变分解释生产模型对自然语言推断进行解释生成，通过生成的解释进行逻辑关系预测。

Description

一种带有解释生成的自然语言自动预测推断方法

技术领域

本发明属于自然语言处理领域，尤其涉及一种带有解释生成的自然语言自动预测推断方法。

背景技术

随着人工智能技术的不断发展，社会生产生活的各个领域都经历着巨大的变革。自然语言推断作为机器理解人类语言的基础技术之一对人们生活的各个方面影响日益增长。自然语言推断是指在给定前提文本信息的情况下下判断假设文本与其之间的逻辑关系——蕴含、无关或矛盾。该技术支撑着众多上层文本领域应用，可以帮助搜索引擎中在文档集中定位蕴含用户搜索信息的内容，对与搜索关键字无关或矛盾的信息进行过滤筛查；还可以帮助自动问答系统对候选答案进行检查，防止系统给出与问题无关或矛盾的响应。可以看出自然语言推断技术作为机器理解人类自然语言的关键一环起着至关重要的作用。

尽管现有基于神经网络的自然语言推断技术取得了不错的性能，但作为自然语言理解的基础技术之一，现有方法并不具备很好的解释性。缺乏解释性的自然语言推断技术不仅让使用者对结果的可靠性产生质疑，也使得研究人员无法理解现有技术的推断机制、从而有针对性的做出改进。因此从应用和研发两方面，可解释性自然语言推断对搜索引擎和问答系统等人机交互应用的未来发展都具有重要价值。由于早期人们对自然语言推断技术的关注点局限于逻辑关系识别的准确率，缺乏相关可解释性的研究，目前最好的对自然语言推断进行解释生成的模型所生成的解释仍存在明显的逻辑语义错误以及信息不完整现象，给出的解释难以应用到实际生产生活中。因此，如何对自然语言推断生成高质量的解释亟待解决。

由于现有关于可解释性自然语言推断的研究较少，只有Camburu等人[Camburu etal.,2018]关于解释生成的一些研究。Camburu等人根据预测逻辑关系和生成解释的先后顺序提出了两种不同的自然语言推断解释生成架构，分别称为PredictAndExplain和ExplainThenPredict。

在PredictAndExplain架构中，需要预测的逻辑关系作为逻辑词——蕴含(Entailment)、无关(Neutral)或矛盾(Contradiction)添加在解释文本之前，在生成解释的同时对逻辑词进行生成，生成的逻辑词即预测的逻辑关系。具体地，Camburu等人[Camburu et al.,2018]采用基于双向循环神经网络的孪生网络对前提文本和假设文本分别进行编码表示，并采用另一个循环神经网络对逻辑关系词和解释文本进行解码生成。

而在ExplainThenPredict架构中，两个子模块分别基于前提-假设文本对进行解释生成和基于所生成的解释进行逻辑关系预测。具体地，Camburu等人[Camburu et al.,2018]将注意力机制引入解释生成的过程中，在生成每个词时解码器根据当前状态分别对前提文本的表示和假设文本的表示进行关注，有效地提升了生成解释的质量。

尽管基于PredictAndExplain架构的解释生成模型可以采用端到端的训练方式直接获得逻辑关系以及相应解释，但由于在生成解释过程中引入了逻辑词，导致生成的解释质量严重偏低。相比PredictAndExplain，基于ExplainThenPredict架构的解释生成模型得到的解释质量明显较高，但基于生成的解释进行逻辑关系预测准确率下降了很多，这是由于相比原始前提-假设文本对，所生成的解释存在逻辑语义错误与缺失。不管是PredictAndExplain架构还是ExplainThenPredict架构，现有的解释生成模型均是基于循环神经网络的判别式模型。由于逻辑信息是隐式地存在于前提-假设文本对中，现有判别式解释生成器难以有效地捕捉并生成包含正确逻辑语义的解释。

此外，尽管Camburu等人[Camburu et al.,2018]针对自然语言推断设计了基于孪生网络的注意力机制，但仍缺少对前提和假设间的交互信息，而这些交互信息在非解释性自然语言推断模型中被广泛证明是非常有效的。

发明内容

在搜索引擎和自动问答系统中，目前所利用的自然语言推断技术尚不具备可解释性，导致用户对系统做出的响应无法判断其可靠性、研究人员无法了解系统的推断机制并进行有针对性的改进。本发明需要解决的问题是为现有自然语言推断技术进行解释生成，从而提升系统的可解释性以及推断的准确性。

为了解决上述技术问题，本发明公开了一种带有解释生成的自然语言自动预测推断方法，

步骤1，训练一个变分解释生成模型，将前提-假设文本对和标准解释文本输入变分解释生成模型，其中标准解释文本为训练数据集(如英文中常采用SNLI[Bowman,S R etal.,2015]、MultiNLI[Williams,A et al.,2018]等数据集)中的生成目标，输出生成的解释文本；

步骤2，训练一个基于解释的逻辑关系预测模型，将标准解释文本输入模型，输出预测的逻辑关系；

步骤3，将待测试的前提-假设文本对输入步骤1得到的变分解释生成模型生成相应解释，然后将生成的解释输入步骤2得到的逻辑关系预测模型，输出预测的结果。

步骤1包括：

采用如下符号对基于变分解释生成模型的输入输出进行标记：输入为前提文本

假设文本

和标准解释文本

其中m和n分别为前提文本和假设文本的最大长度，

为前提文本中第m个词，

为前提文本中第n个词，

为标准解释文本的第u个词；输出为生成的解释文本

以及逻辑关系l，其中

为生成的解释文本中第u个词；

步骤1-1，将前提文本和假设文本采用BERT中采用的方式进行拼接，并将拼接结果输入基于Transformer的编码器得到相应上下文表示

及其压缩表示

其中

表示前提-假设文本对中第m+n+1个词的上下文表示；

步骤1-2，将标准解释文本输入基于Transformer的编码器得到相应上下文表示

及其压缩表示

其中

表示标准解释中第u个个词的上下文表示；

步骤1-3，将步骤1-1得到的前提-假设文本对压缩表示

输入隐变量z的先验分布估计器，计算得到隐变量z的先验分布

表示均值为μ₁、方差为

的多变量高斯分布，并根据所述多变量高斯分布采样得到隐变量z；

步骤1-4，将步骤1-1得到的前提假设文本对压缩表示

和步骤1-2得到的标准解释文本压缩表示输入隐变量z的后验分布估计器，计算得到隐变量z的后验分布

表示均值为μ₂、方差为

的多变量高斯分布；

步骤1-5，将步骤1-1得到的上下文表示、压缩表示和步骤1-3得到的隐变量输入变分解释生成器的解码器，得到生成的解释文本

步骤1-6，对步骤1-3得到的隐变量z进行逻辑监督。

步骤1-1中所述编码器包括一个输入层，基于Transformer的编码表示层和一个平均池化层；

输入层将前提文本和假设文本拼接为一个序列作为编码器的输入，并在两个文本间插入分隔符[SEP]，即x^X＝[x^P,[SEP],x^H]，同时用一组额外的分隔编码

分别对前提部分和假设部分进行表示，即前提和分隔符部分采用0表示，假设部分采用1表示，最终编码表示层的输入为

编码表示层采用Transformer作为编码器，得到前提-假设文本对的上下文表示s^X；

平均池化层对前提-假设文本对的上下文表示进行均值计算，得到压缩表示

步骤1-2中所述编码器与步骤1-1中的编码器相同，但在输入层中不加入分隔符，且标准解释的分割编码为0。

步骤1-3中所述先验分布估计器包括一个先验分布估计层和一个采样层；

先验分布估计层包括两个独立的单层前馈神经网络，分别用于计算隐变量先验分布的均值μ₁和方差

其中

为计算先验分布均值的单层前馈神经网络，

为计算先验分布方差的单层前馈神经网络；

采样层先从标准高斯分布采样得到一个噪声向量∈～N(0,I)，然后基于噪声向量从条件先验分布

计算得到隐变量z＝σ₁·∈+μ₁。

步骤1-4中所述后验分布估计器包括一个后验分布估计层，后验分布估计层包括两个单层前馈神经网络，分别用于近似估计隐变量的条件先验分布的均值μ₂和方差

其中

为计算后验分布均值的单层前馈神经网络，

为计算后验分布方差的单层前馈神经网络。

步骤1-5中的解码器采用带有多头注意力机制的Transformer按序生成解释文本中的词，生成第i个词时输入为上一时刻生成的词

隐变量z，以及当前解码器内部状态与步骤1-1中前提-假设文本对的上下文表示的注意力表示c_i。

步骤1-6中逻辑监督采用一个双层前馈神经网络f_z对隐变量进行逻辑监督：p(l|z)＝f_z(z)，p(l|z)表示预测的逻辑关系为l的概率，用于解决变分解释生成器训练过程中出现的后验坍塌问题[Bowman S R et al.,2015]。

步骤1中，采用加入逻辑监督的变分下界ELBO(Evidence Lower BoundObjective，简称ELBO)对变分解释生成模型进行优化：loss＝ELBO+∑_lllogp(l|z)，

其中

KL为刻画两个分布之间距离的KL散度(Kullback-Leibler divergence)，p(z|x^P,x^H)为隐变量z的先验分布，q(z|x^P,x^H,y^E)为隐变量z的后验分布；

为第i个生成的词为

的概率。

步骤2包括：

步骤2-1，采用一个输入嵌入层对标准的解释文本进行词嵌入表示，输入嵌入层采用预训练的词嵌入Glove，输入嵌入层不跟随模型进行训练；

步骤2-2，采用一个上下文表示层对步骤2-1得到的标准解释文本的词嵌入表示进行上下文表示，上下文表示层采用一个2048维的双向长短时记忆网络(BiLSTM)；

步骤2-3，采用一个逻辑关系预测层对步骤2-2得到的标准解释文本的上下文编码表示进行逻辑关系预测，逻辑关系预测层采用3层前馈神经网络；

步骤2中，采用如下公式对基于解释的逻辑关系预测模型进行优化：loss＝∑_lllogp(l|y^E)，p(l|y^E)为步骤2-3中3层前馈神经网络预测逻辑关系为l的概率。

步骤3包括：

步骤3-1，将前提文本和假设文本输入步骤1中训练好的变分解释生成模型生成解释，

步骤3-2，将步骤3-1生成的解释输入到步骤2中训练好的逻辑关系预测模型进行逻辑关系预测。

本发明技术方案带来的有益效果

技术层面：(1)现有关于可解释性自然语言推断的研究十分缺乏，已有的解释生成方法得到的结果存在明显的逻辑语义错误或缺失，其原因在于逻辑信息在前提-假设文本对中是隐式的包含，而现有判别式的解释生成系统很难有效地挖掘其中的语义信息。本发明通过生成式的方法，在生成解释的过程中引入隐变量对该逻辑信息进行建模，并在训练过程中引入目标解释进行逻辑信息指导，使得引入的隐变量可以有效编码相应逻辑信息，显著提升了生成的解释质量，同时提升逻辑关系预测的准确性。

(2)本发明提供的方法相比现有自然语言推断解释生成系统具有更快的效率，在相同硬件设备条件下可以达到约20倍的提速。

(3)本发明提供的方法具有强耦合性，使用者可以根据需要替换现有方法中的逻辑关系预测模块。

应用层面：本发明提出的基于变分自编码器的自然语言推断解释生成器可以应用于任何搜索引擎及问答系统中：既可以帮助用户了解系统响应的可靠性，又可以帮助研究人员了解系统的运行机制并做出有针对性的改进。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是变分解释生成模型流程图。

图2是变分解释生成模型中输入编码器流程图。

图3是变分解释生成模型中先验分布估计器流程图。

图4是变分解释生成模型中后验分布估计器流程图。

图5是逻辑关系预测模型流程图。

图6带有解释生成的自然语言推断系统流程图。

具体实施方式

本发明提供了一种对自然语言进行解释生成的方法，包括如下内容：

首先给出一个基于Transformer[Vaswani et al.,2017]变分解释生成模型，流程图如图1所示。采用如下符号对基于变分解释生成模型的输入输出进行标记：输入为前提文本

假设文本

和标准解释文本

其中m和n分别为前提文本和假设文本的最大长度，

为前提文本中第m个词，

为前提文本中第n个词，

为标准解释文本的第u个词；输出为生成的解释文本

以及逻辑关系l，其中

为生成的解释文本中第u个词。如图1所示，模型分为以下几步：

步骤1-1，将前提文本和假设文本采用BERT[Devlin,J et al.,2019]中采用的方式进行拼接，并将拼接结果输入基于Transformer[Vaswani et al.,2017]的编码器得到相应上下文表示

及其压缩表示

其中

表示前提-假设文本对中第m+n+1个词的上下文表示；；

步骤1-2，将标准解释文本输入基于Transformer[Vaswani et al.,2017]的编码器得到相应上下文表示

及其压缩表示

其中

表示标准解释中第u个个词的上下文表示；

步骤1-3，将步骤1-1得到的前提-假设文本对压缩表示

表示均值为μ₁、方差为

步骤1-4，将步骤1-1得到的前提假设文本对压缩表示

表示均值为μ₂、方差为

的多变量高斯分布；

步骤1-6，对步骤1-3得到的隐变量z进行逻辑监督。

这一流程中，如图2所示，步骤1-1中所述编码器包括一个输入层，基于Transformer的编码表示层和一个平均池化层；输入层将前提文本和假设文本拼接为一个序列作为编码器的输入，并在两个文本间插入分隔符[SEP]，即x^X＝[x^P,[SEP],x^H]，同时用一组额外的分隔编码

编码表示层采用Transformer作为编码器，得到前提-假设文本对的上下文表示s^X；平均池化层对前提-假设文本对的上下文表示进行均值计算，得到压缩表示

网络参数采用Xavier[Glorot X etal.,2010]进行随机初始化。步骤1-2中所述编码器与步骤1-1中的编码器相同，但在输入层中不加入分隔符，且标准解释的分割编码为0。

如图3所示，步骤1-3中所述先验分布估计器包括一个先验分布估计层和一个采样层；先验分布估计层包括两个独立的单层前馈神经网络，分别用于计算隐变量先验分布的均值μ₁和方差

其中

为先验分布均值估计器，是一个计算先验分布均值的单层前馈神经网络，

为先验分布方差估计器，是一个计算先验分布方差的单层前馈神经网络；采样层先从标准高斯分布采样得到一个噪声向量∈～N(0,I)，然后基于噪声向量从条件先验分布

计算得到隐变量z＝σ₁·∈+μ₁。

如图4所示，步骤1-4中所述后验分布估计器包括一个后验分布估计层，后验分布估计层包括两个单层前馈神经网络，分别用于近似估计隐变量的条件先验分布的均值μ₂和方差

其中

为计算后验分布均值估计器，

为计算后验分布方差估计器。

步骤1中，采用加入逻辑监督的变分下界ELBO(Evidence Lower BoundObjective，简称ELBO)[Kingma D P et al.,2013][Sohn K et al.,2015]对变分解释生成模型进行优化：loss＝ELBO+∑_lllogp(l|z)，其中

为第i个生成的词为

的概率。

然后建立解释的逻辑关系预测模型：

流程图如图5所示，将标准解释文本输入模型，输出预测的逻辑关系。方法分为如下几步：

步骤2-2，采用一个上下文表示层对步骤2-1得到的标准解释文本的词嵌入表示进行上下文表示，上下文表示层采用一个2048维的双向长短时记忆网络(BiLSTM)[Hochreiter,S et al.,1997]；

建立一种基于前文提出的变分自然语言推断解释生成器的可解释自然语言推断系统。具体的流程图如图6所示，涉及以下几个步骤：

步骤3-1，将前提文本和假设文本输入步骤1中训练好的变分解释生成模型生成解释，在搜索引擎中前提文本为用户输入的搜索信息，如“微软的创始人是谁”，即x^P＝[“微软”，“的”，“创始人”，“是”，谁]，假设文本是数据库中的检索匹配文档，如“微软公司于1975年由比尔·盖茨和保罗·艾伦创立”，即x^H＝[“微软”，“公司”，“于”，“1975”，“年”，“由”，“比尔·盖茨”，“和”，“保罗·艾伦”，“创立”]，可解释自然语言推断系统将其实例化为输入进行解释生成，可以生成解释

——“因为比尔·盖茨和保罗·艾伦创立了微软公司，所以他们是微软的创始人”。

步骤3-2，将步骤3-1生成的解释

“因为比尔·盖茨和保罗·艾伦创立了微软公司，所以他们是微软的创始人”输入到步骤2中训练好的逻辑关系预测模型进行逻辑关系预测，可解释自然语言推断系统将

实例化为逻辑关系预测模型的输入进行逻辑关系推断，并做出蕴含的响应，即l＝蕴含(Entailment)，假设文本x^H“微软公司于1975年由比尔·盖茨和保罗·艾伦创立”蕴含了前提文本x^P“微软的创始人是谁”的答案，进而搜索引擎将该段假设文本x^H和生成的解释

作为结果返回给用户。

本发明中涉及的带有解释生成的自然语言推断模型，还可以采用一些简单的方法：

采用PredictAndExplain结构，将逻辑关系作为逻辑词插入解释之前统一进行生成，经过实验验证，该方案在解释生成质量上要比第四章提出的方案差。

去除本发明提到的逻辑监督损失，经过实验验证，该方案出现后验坍塌问题，模型性能与基于Transformer的判别式解释生成模型基本一致。

本发明提到的逻辑监督损失可以改用现有的一些解决后验坍塌的方案[Bowman SR et al.,2015][Zhao T et al.,2017]，经过实验验证，现有技术并不完全适应本专利中的变分解释生成模型，性能远低于本发明所提出方案得到的结果。

采用基于Transformer的判别式解释生成器，并加入本发明提到的逻辑监督损失，经过实验验证，该方案相比基于Transformer的判别式解释生成模型有一定提升，但仍远低于本发明提到的变分解释生成器。

参考文献：[Camburu et al.,2018]e-SNLI:Natural language inference withnatural language explanations

[Vaswani et al.,2017]Attention is all you need

[Glorot X et al.,2010]Understanding the difficulty of training deepfeedforward neural networks

[Pennington J et al.,2014]Glove:Global vectors for wordrepresentation

[Kingma D P et al.,2013]Auto-encoding variational bayes

[Sohn K et al.,2015]Learning structured output representation usingdeep conditional generative models

[Bowman S R et al.,2015]Generating sentences from a continuous space

[Bowman,S R et al.,2015]Alarge annotated corpus for learning naturallanguage inference

[Williams,A et al.,2018]A Broad-Coverage Challenge Corpus forSentence Understanding through Inference

[Zhao T et al.,2017]Learning discourse-level diversity for neuraldialog models using conditional variational autoencoders

[Devlin,J et al.,2019]BERT:Pre-training of Deep BidirectionalTransformers for Language Understanding

[Hochreiter,S et al.,1997]Long Short-Term Memory

本发明提供了一种带有解释生成的自然语言自动预测推断方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。