CN111444328A - 一种带有解释生成的自然语言自动预测推断方法 - Google Patents

一种带有解释生成的自然语言自动预测推断方法 Download PDF

Info

Publication number
CN111444328A
CN111444328A CN202010371946.4A CN202010371946A CN111444328A CN 111444328 A CN111444328 A CN 111444328A CN 202010371946 A CN202010371946 A CN 202010371946A CN 111444328 A CN111444328 A CN 111444328A
Authority
CN
China
Prior art keywords
text
interpretation
layer
hypothesis
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010371946.4A
Other languages
English (en)
Other versions
CN111444328B (zh
Inventor
戴新宇
成臻
何亮
张建兵
黄书剑
陈家骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202010371946.4A priority Critical patent/CN111444328B/zh
Publication of CN111444328A publication Critical patent/CN111444328A/zh
Application granted granted Critical
Publication of CN111444328B publication Critical patent/CN111444328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种带有解释生成的自然语言自动预测推断方法,包括如下步骤:步骤1,训练一个变分解释生成模型;步骤2,训练一个基于解释的逻辑关系预测模型;步骤3,通过所述的变分解释生产模型对自然语言推断进行解释生成,通过生成的解释进行逻辑关系预测。

Description

一种带有解释生成的自然语言自动预测推断方法
技术领域
本发明属于自然语言处理领域,尤其涉及一种带有解释生成的自然语言自动预测推断方法。
背景技术
随着人工智能技术的不断发展,社会生产生活的各个领域都经历着巨大的变革。自然语言推断作为机器理解人类语言的基础技术之一对人们生活的各个方面影响日益增长。自然语言推断是指在给定前提文本信息的情况下下判断假设文本与其之间的逻辑关系——蕴含、无关或矛盾。该技术支撑着众多上层文本领域应用,可以帮助搜索引擎中在文档集中定位蕴含用户搜索信息的内容,对与搜索关键字无关或矛盾的信息进行过滤筛查;还可以帮助自动问答系统对候选答案进行检查,防止系统给出与问题无关或矛盾的响应。可以看出自然语言推断技术作为机器理解人类自然语言的关键一环起着至关重要的作用。
尽管现有基于神经网络的自然语言推断技术取得了不错的性能,但作为自然语言理解的基础技术之一,现有方法并不具备很好的解释性。缺乏解释性的自然语言推断技术不仅让使用者对结果的可靠性产生质疑,也使得研究人员无法理解现有技术的推断机制、从而有针对性的做出改进。因此从应用和研发两方面,可解释性自然语言推断对搜索引擎和问答系统等人机交互应用的未来发展都具有重要价值。由于早期人们对自然语言推断技术的关注点局限于逻辑关系识别的准确率,缺乏相关可解释性的研究,目前最好的对自然语言推断进行解释生成的模型所生成的解释仍存在明显的逻辑语义错误以及信息不完整现象,给出的解释难以应用到实际生产生活中。因此,如何对自然语言推断生成高质量的解释亟待解决。
由于现有关于可解释性自然语言推断的研究较少,只有Camburu等人[Camburu etal.,2018]关于解释生成的一些研究。Camburu等人根据预测逻辑关系和生成解释的先后顺序提出了两种不同的自然语言推断解释生成架构,分别称为PredictAndExplain和ExplainThenPredict。
在PredictAndExplain架构中,需要预测的逻辑关系作为逻辑词——蕴含(Entailment)、无关(Neutral)或矛盾(Contradiction)添加在解释文本之前,在生成解释的同时对逻辑词进行生成,生成的逻辑词即预测的逻辑关系。具体地,Camburu等人[Camburu et al.,2018]采用基于双向循环神经网络的孪生网络对前提文本和假设文本分别进行编码表示,并采用另一个循环神经网络对逻辑关系词和解释文本进行解码生成。
而在ExplainThenPredict架构中,两个子模块分别基于前提-假设文本对进行解释生成和基于所生成的解释进行逻辑关系预测。具体地,Camburu等人[Camburu et al.,2018]将注意力机制引入解释生成的过程中,在生成每个词时解码器根据当前状态分别对前提文本的表示和假设文本的表示进行关注,有效地提升了生成解释的质量。
尽管基于PredictAndExplain架构的解释生成模型可以采用端到端的训练方式直接获得逻辑关系以及相应解释,但由于在生成解释过程中引入了逻辑词,导致生成的解释质量严重偏低。相比PredictAndExplain,基于ExplainThenPredict架构的解释生成模型得到的解释质量明显较高,但基于生成的解释进行逻辑关系预测准确率下降了很多,这是由于相比原始前提-假设文本对,所生成的解释存在逻辑语义错误与缺失。不管是PredictAndExplain架构还是ExplainThenPredict架构,现有的解释生成模型均是基于循环神经网络的判别式模型。由于逻辑信息是隐式地存在于前提-假设文本对中,现有判别式解释生成器难以有效地捕捉并生成包含正确逻辑语义的解释。
此外,尽管Camburu等人[Camburu et al.,2018]针对自然语言推断设计了基于孪生网络的注意力机制,但仍缺少对前提和假设间的交互信息,而这些交互信息在非解释性自然语言推断模型中被广泛证明是非常有效的。
发明内容
在搜索引擎和自动问答系统中,目前所利用的自然语言推断技术尚不具备可解释性,导致用户对系统做出的响应无法判断其可靠性、研究人员无法了解系统的推断机制并进行有针对性的改进。本发明需要解决的问题是为现有自然语言推断技术进行解释生成,从而提升系统的可解释性以及推断的准确性。
为了解决上述技术问题,本发明公开了一种带有解释生成的自然语言自动预测推断方法,
步骤1,训练一个变分解释生成模型,将前提-假设文本对和标准解释文本输入变分解释生成模型,其中标准解释文本为训练数据集(如英文中常采用SNLI[Bowman,S R etal.,2015]、MultiNLI[Williams,A et al.,2018]等数据集)中的生成目标,输出生成的解释文本;
步骤2,训练一个基于解释的逻辑关系预测模型,将标准解释文本输入模型,输出预测的逻辑关系;
步骤3,将待测试的前提-假设文本对输入步骤1得到的变分解释生成模型生成相应解释,然后将生成的解释输入步骤2得到的逻辑关系预测模型,输出预测的结果。
步骤1包括:
采用如下符号对基于变分解释生成模型的输入输出进行标记:输入为前提文本
Figure BDA0002478466520000031
假设文本
Figure BDA0002478466520000032
和标准解释文本
Figure BDA0002478466520000033
其中m和n分别为前提文本和假设文本的最大长度,
Figure BDA0002478466520000034
为前提文本中第m个词,
Figure BDA0002478466520000035
为前提文本中第n个词,
Figure BDA0002478466520000036
为标准解释文本的第u个词;输出为生成的解释文本
Figure BDA0002478466520000037
以及逻辑关系l,其中
Figure BDA0002478466520000038
为生成的解释文本中第u个词;
步骤1-1,将前提文本和假设文本采用BERT中采用的方式进行拼接,并将拼接结果输入基于Transformer的编码器得到相应上下文表示
Figure BDA0002478466520000039
及其压缩表示
Figure BDA00024784665200000310
其中
Figure BDA00024784665200000311
表示前提-假设文本对中第m+n+1个词的上下文表示;
步骤1-2,将标准解释文本输入基于Transformer的编码器得到相应上下文表示
Figure BDA00024784665200000312
及其压缩表示
Figure BDA00024784665200000313
其中
Figure BDA00024784665200000314
表示标准解释中第u个个词的上下文表示;
步骤1-3,将步骤1-1得到的前提-假设文本对压缩表示
Figure BDA00024784665200000315
输入隐变量z的先验分布估计器,计算得到隐变量z的先验分布
Figure BDA00024784665200000316
表示均值为μ1、方差为
Figure BDA00024784665200000317
的多变量高斯分布,并根据所述多变量高斯分布采样得到隐变量z;
步骤1-4,将步骤1-1得到的前提假设文本对压缩表示
Figure BDA00024784665200000318
和步骤1-2得到的标准解释文本压缩表示输入隐变量z的后验分布估计器,计算得到隐变量z的后验分布
Figure BDA00024784665200000319
表示均值为μ2、方差为
Figure BDA00024784665200000320
的多变量高斯分布;
步骤1-5,将步骤1-1得到的上下文表示、压缩表示和步骤1-3得到的隐变量输入变分解释生成器的解码器,得到生成的解释文本
Figure BDA00024784665200000321
步骤1-6,对步骤1-3得到的隐变量z进行逻辑监督。
步骤1-1中所述编码器包括一个输入层,基于Transformer的编码表示层和一个平均池化层;
输入层将前提文本和假设文本拼接为一个序列作为编码器的输入,并在两个文本间插入分隔符[SEP],即xX=[xP,[SEP],xH],同时用一组额外的分隔编码
Figure BDA0002478466520000041
分别对前提部分和假设部分进行表示,即前提和分隔符部分采用0表示,假设部分采用1表示,最终编码表示层的输入为
Figure BDA0002478466520000042
编码表示层采用Transformer作为编码器,得到前提-假设文本对的上下文表示sX
平均池化层对前提-假设文本对的上下文表示进行均值计算,得到压缩表示
Figure BDA0002478466520000043
步骤1-2中所述编码器与步骤1-1中的编码器相同,但在输入层中不加入分隔符,且标准解释的分割编码为0。
步骤1-3中所述先验分布估计器包括一个先验分布估计层和一个采样层;
先验分布估计层包括两个独立的单层前馈神经网络,分别用于计算隐变量先验分布的均值μ1和方差
Figure BDA00024784665200000414
其中
Figure BDA0002478466520000046
为计算先验分布均值的单层前馈神经网络,
Figure BDA0002478466520000047
为计算先验分布方差的单层前馈神经网络;
采样层先从标准高斯分布采样得到一个噪声向量∈~N(0,I),然后基于噪声向量从条件先验分布
Figure BDA0002478466520000048
计算得到隐变量z=σ1·∈+μ1
步骤1-4中所述后验分布估计器包括一个后验分布估计层,后验分布估计层包括两个单层前馈神经网络,分别用于近似估计隐变量的条件先验分布的均值μ2和方差
Figure BDA0002478466520000049
Figure BDA00024784665200000410
其中
Figure BDA00024784665200000411
为计算后验分布均值的单层前馈神经网络,
Figure BDA00024784665200000412
为计算后验分布方差的单层前馈神经网络。
步骤1-5中的解码器采用带有多头注意力机制的Transformer按序生成解释文本中的词,生成第i个词时输入为上一时刻生成的词
Figure BDA00024784665200000413
隐变量z,以及当前解码器内部状态与步骤1-1中前提-假设文本对的上下文表示的注意力表示ci
步骤1-6中逻辑监督采用一个双层前馈神经网络fz对隐变量进行逻辑监督:p(l|z)=fz(z),p(l|z)表示预测的逻辑关系为l的概率,用于解决变分解释生成器训练过程中出现的后验坍塌问题[Bowman S R et al.,2015]。
步骤1中,采用加入逻辑监督的变分下界ELBO(Evidence Lower BoundObjective,简称ELBO)对变分解释生成模型进行优化:loss=ELBO+∑lllogp(l|z),
其中
Figure BDA0002478466520000051
KL为刻画两个分布之间距离的KL散度(Kullback-Leibler divergence),p(z|xP,xH)为隐变量z的先验分布,q(z|xP,xH,yE)为隐变量z的后验分布;
Figure BDA0002478466520000052
为第i个生成的词为
Figure BDA0002478466520000053
的概率。
步骤2包括:
步骤2-1,采用一个输入嵌入层对标准的解释文本进行词嵌入表示,输入嵌入层采用预训练的词嵌入Glove,输入嵌入层不跟随模型进行训练;
步骤2-2,采用一个上下文表示层对步骤2-1得到的标准解释文本的词嵌入表示进行上下文表示,上下文表示层采用一个2048维的双向长短时记忆网络(BiLSTM);
步骤2-3,采用一个逻辑关系预测层对步骤2-2得到的标准解释文本的上下文编码表示进行逻辑关系预测,逻辑关系预测层采用3层前馈神经网络;
步骤2中,采用如下公式对基于解释的逻辑关系预测模型进行优化:loss=∑lllogp(l|yE),p(l|yE)为步骤2-3中3层前馈神经网络预测逻辑关系为l的概率。
步骤3包括:
步骤3-1,将前提文本和假设文本输入步骤1中训练好的变分解释生成模型生成解释,
步骤3-2,将步骤3-1生成的解释输入到步骤2中训练好的逻辑关系预测模型进行逻辑关系预测。
本发明技术方案带来的有益效果
技术层面:(1)现有关于可解释性自然语言推断的研究十分缺乏,已有的解释生成方法得到的结果存在明显的逻辑语义错误或缺失,其原因在于逻辑信息在前提-假设文本对中是隐式的包含,而现有判别式的解释生成系统很难有效地挖掘其中的语义信息。本发明通过生成式的方法,在生成解释的过程中引入隐变量对该逻辑信息进行建模,并在训练过程中引入目标解释进行逻辑信息指导,使得引入的隐变量可以有效编码相应逻辑信息,显著提升了生成的解释质量,同时提升逻辑关系预测的准确性。
(2)本发明提供的方法相比现有自然语言推断解释生成系统具有更快的效率,在相同硬件设备条件下可以达到约20倍的提速。
(3)本发明提供的方法具有强耦合性,使用者可以根据需要替换现有方法中的逻辑关系预测模块。
应用层面:本发明提出的基于变分自编码器的自然语言推断解释生成器可以应用于任何搜索引擎及问答系统中:既可以帮助用户了解系统响应的可靠性,又可以帮助研究人员了解系统的运行机制并做出有针对性的改进。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是变分解释生成模型流程图。
图2是变分解释生成模型中输入编码器流程图。
图3是变分解释生成模型中先验分布估计器流程图。
图4是变分解释生成模型中后验分布估计器流程图。
图5是逻辑关系预测模型流程图。
图6带有解释生成的自然语言推断系统流程图。
具体实施方式
本发明提供了一种对自然语言进行解释生成的方法,包括如下内容:
首先给出一个基于Transformer[Vaswani et al.,2017]变分解释生成模型,流程图如图1所示。采用如下符号对基于变分解释生成模型的输入输出进行标记:输入为前提文本
Figure BDA0002478466520000061
假设文本
Figure BDA0002478466520000062
和标准解释文本
Figure BDA0002478466520000063
Figure BDA0002478466520000064
其中m和n分别为前提文本和假设文本的最大长度,
Figure BDA0002478466520000065
为前提文本中第m个词,
Figure BDA0002478466520000066
为前提文本中第n个词,
Figure BDA0002478466520000067
为标准解释文本的第u个词;输出为生成的解释文本
Figure BDA0002478466520000068
以及逻辑关系l,其中
Figure BDA0002478466520000069
为生成的解释文本中第u个词。如图1所示,模型分为以下几步:
步骤1-1,将前提文本和假设文本采用BERT[Devlin,J et al.,2019]中采用的方式进行拼接,并将拼接结果输入基于Transformer[Vaswani et al.,2017]的编码器得到相应上下文表示
Figure BDA0002478466520000071
及其压缩表示
Figure BDA0002478466520000072
其中
Figure BDA0002478466520000073
表示前提-假设文本对中第m+n+1个词的上下文表示;;
步骤1-2,将标准解释文本输入基于Transformer[Vaswani et al.,2017]的编码器得到相应上下文表示
Figure BDA0002478466520000074
及其压缩表示
Figure BDA0002478466520000075
其中
Figure BDA0002478466520000076
表示标准解释中第u个个词的上下文表示;
步骤1-3,将步骤1-1得到的前提-假设文本对压缩表示
Figure BDA0002478466520000077
输入隐变量z的先验分布估计器,计算得到隐变量z的先验分布
Figure BDA0002478466520000078
表示均值为μ1、方差为
Figure BDA0002478466520000079
的多变量高斯分布,并根据所述多变量高斯分布采样得到隐变量z;
步骤1-4,将步骤1-1得到的前提假设文本对压缩表示
Figure BDA00024784665200000710
和步骤1-2得到的标准解释文本压缩表示输入隐变量z的后验分布估计器,计算得到隐变量z的后验分布
Figure BDA00024784665200000711
表示均值为μ2、方差为
Figure BDA00024784665200000712
的多变量高斯分布;
步骤1-5,将步骤1-1得到的上下文表示、压缩表示和步骤1-3得到的隐变量输入变分解释生成器的解码器,得到生成的解释文本
Figure BDA00024784665200000713
步骤1-6,对步骤1-3得到的隐变量z进行逻辑监督。
这一流程中,如图2所示,步骤1-1中所述编码器包括一个输入层,基于Transformer的编码表示层和一个平均池化层;输入层将前提文本和假设文本拼接为一个序列作为编码器的输入,并在两个文本间插入分隔符[SEP],即xX=[xP,[SEP],xH],同时用一组额外的分隔编码
Figure BDA00024784665200000714
分别对前提部分和假设部分进行表示,即前提和分隔符部分采用0表示,假设部分采用1表示,最终编码表示层的输入为
Figure BDA00024784665200000715
编码表示层采用Transformer作为编码器,得到前提-假设文本对的上下文表示sX;平均池化层对前提-假设文本对的上下文表示进行均值计算,得到压缩表示
Figure BDA00024784665200000716
网络参数采用Xavier[Glorot X etal.,2010]进行随机初始化。步骤1-2中所述编码器与步骤1-1中的编码器相同,但在输入层中不加入分隔符,且标准解释的分割编码为0。
如图3所示,步骤1-3中所述先验分布估计器包括一个先验分布估计层和一个采样层;先验分布估计层包括两个独立的单层前馈神经网络,分别用于计算隐变量先验分布的均值μ1和方差
Figure BDA0002478466520000081
其中
Figure BDA0002478466520000082
为先验分布均值估计器,是一个计算先验分布均值的单层前馈神经网络,
Figure BDA0002478466520000083
为先验分布方差估计器,是一个计算先验分布方差的单层前馈神经网络;采样层先从标准高斯分布采样得到一个噪声向量∈~N(0,I),然后基于噪声向量从条件先验分布
Figure BDA0002478466520000084
计算得到隐变量z=σ1·∈+μ1
如图4所示,步骤1-4中所述后验分布估计器包括一个后验分布估计层,后验分布估计层包括两个单层前馈神经网络,分别用于近似估计隐变量的条件先验分布的均值μ2和方差
Figure BDA0002478466520000085
其中
Figure BDA0002478466520000086
为计算后验分布均值估计器,
Figure BDA0002478466520000087
为计算后验分布方差估计器。
步骤1-5中的解码器采用带有多头注意力机制的Transformer按序生成解释文本中的词,生成第i个词时输入为上一时刻生成的词
Figure BDA0002478466520000088
隐变量z,以及当前解码器内部状态与步骤1-1中前提-假设文本对的上下文表示的注意力表示ci
步骤1-6中逻辑监督采用一个双层前馈神经网络fz对隐变量进行逻辑监督:p(l|z)=fz(z),p(l|z)表示预测的逻辑关系为l的概率,用于解决变分解释生成器训练过程中出现的后验坍塌问题[Bowman S R et al.,2015]。
步骤1中,采用加入逻辑监督的变分下界ELBO(Evidence Lower BoundObjective,简称ELBO)[Kingma D P et al.,2013][Sohn K et al.,2015]对变分解释生成模型进行优化:loss=ELBO+∑lllogp(l|z),其中
Figure BDA0002478466520000089
KL为刻画两个分布之间距离的KL散度(Kullback-Leibler divergence),p(z|xP,xH)为隐变量z的先验分布,q(z|xP,xH,yE)为隐变量z的后验分布;
Figure BDA00024784665200000810
为第i个生成的词为
Figure BDA00024784665200000811
的概率。
然后建立解释的逻辑关系预测模型:
流程图如图5所示,将标准解释文本输入模型,输出预测的逻辑关系。方法分为如下几步:
步骤2-1,采用一个输入嵌入层对标准的解释文本进行词嵌入表示,输入嵌入层采用预训练的词嵌入Glove,输入嵌入层不跟随模型进行训练;
步骤2-2,采用一个上下文表示层对步骤2-1得到的标准解释文本的词嵌入表示进行上下文表示,上下文表示层采用一个2048维的双向长短时记忆网络(BiLSTM)[Hochreiter,S et al.,1997];
步骤2-3,采用一个逻辑关系预测层对步骤2-2得到的标准解释文本的上下文编码表示进行逻辑关系预测,逻辑关系预测层采用3层前馈神经网络;
步骤2中,采用如下公式对基于解释的逻辑关系预测模型进行优化:loss=∑lllogp(l|yE),p(l|yE)为步骤2-3中3层前馈神经网络预测逻辑关系为l的概率。
建立一种基于前文提出的变分自然语言推断解释生成器的可解释自然语言推断系统。具体的流程图如图6所示,涉及以下几个步骤:
步骤3-1,将前提文本和假设文本输入步骤1中训练好的变分解释生成模型生成解释,在搜索引擎中前提文本为用户输入的搜索信息,如“微软的创始人是谁”,即xP=[“微软”,“的”,“创始人”,“是”,谁],假设文本是数据库中的检索匹配文档,如“微软公司于1975年由比尔·盖茨和保罗·艾伦创立”,即xH=[“微软”,“公司”,“于”,“1975”,“年”,“由”,“比尔·盖茨”,“和”,“保罗·艾伦”,“创立”],可解释自然语言推断系统将其实例化为输入进行解释生成,可以生成解释
Figure BDA0002478466520000091
——“因为比尔·盖茨和保罗·艾伦创立了微软公司,所以他们是微软的创始人”。
步骤3-2,将步骤3-1生成的解释
Figure BDA0002478466520000092
“因为比尔·盖茨和保罗·艾伦创立了微软公司,所以他们是微软的创始人”输入到步骤2中训练好的逻辑关系预测模型进行逻辑关系预测,可解释自然语言推断系统将
Figure BDA0002478466520000093
实例化为逻辑关系预测模型的输入进行逻辑关系推断,并做出蕴含的响应,即l=蕴含(Entailment),假设文本xH“微软公司于1975年由比尔·盖茨和保罗·艾伦创立”蕴含了前提文本xP“微软的创始人是谁”的答案,进而搜索引擎将该段假设文本xH和生成的解释
Figure BDA0002478466520000094
作为结果返回给用户。
本发明中涉及的带有解释生成的自然语言推断模型,还可以采用一些简单的方法:
采用PredictAndExplain结构,将逻辑关系作为逻辑词插入解释之前统一进行生成,经过实验验证,该方案在解释生成质量上要比第四章提出的方案差。
去除本发明提到的逻辑监督损失,经过实验验证,该方案出现后验坍塌问题,模型性能与基于Transformer的判别式解释生成模型基本一致。
本发明提到的逻辑监督损失可以改用现有的一些解决后验坍塌的方案[Bowman SR et al.,2015][Zhao T et al.,2017],经过实验验证,现有技术并不完全适应本专利中的变分解释生成模型,性能远低于本发明所提出方案得到的结果。
采用基于Transformer的判别式解释生成器,并加入本发明提到的逻辑监督损失,经过实验验证,该方案相比基于Transformer的判别式解释生成模型有一定提升,但仍远低于本发明提到的变分解释生成器。
参考文献:[Camburu et al.,2018]e-SNLI:Natural language inference withnatural language explanations
[Vaswani et al.,2017]Attention is all you need
[Glorot X et al.,2010]Understanding the difficulty of training deepfeedforward neural networks
[Pennington J et al.,2014]Glove:Global vectors for wordrepresentation
[Kingma D P et al.,2013]Auto-encoding variational bayes
[Sohn K et al.,2015]Learning structured output representation usingdeep conditional generative models
[Bowman S R et al.,2015]Generating sentences from a continuous space
[Bowman,S R et al.,2015]Alarge annotated corpus for learning naturallanguage inference
[Williams,A et al.,2018]A Broad-Coverage Challenge Corpus forSentence Understanding through Inference
[Zhao T et al.,2017]Learning discourse-level diversity for neuraldialog models using conditional variational autoencoders
[Devlin,J et al.,2019]BERT:Pre-training of Deep BidirectionalTransformers for Language Understanding
[Hochreiter,S et al.,1997]Long Short-Term Memory
本发明提供了一种带有解释生成的自然语言自动预测推断方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (10)

1.一种带有解释生成的自然语言自动预测推断方法,其特征在于,包括如下步骤:
步骤1训练一个变分解释生成模型,将前提-假设文本对和标准解释文本输入变分解释生成模型,标准解释文本为数据集中原有的生成目标,输出生成的解释文本;
步骤2,训练一个基于解释的逻辑关系预测模型,将标准解释文本输入模型,输出预测的逻辑关系;
步骤3,将待测试的前提-假设文本对输入步骤1得到的变分解释生成模型生成相应解释,然后将生成的解释输入步骤2得到的逻辑关系预测模型,输出预测的结果。
2.根据权利要求1所述的方法,其特征在于,步骤1中,采用如下符号对基于变分解释生成模型的输入输出进行标记:输入为前提文本
Figure FDA0002478466510000011
假设文本
Figure FDA0002478466510000012
和标准解释文本
Figure FDA0002478466510000013
其中m和n分别为前提文本和假设文本的最大长度,
Figure FDA0002478466510000014
为前提文本中第m个词,
Figure FDA0002478466510000015
为前提文本中第n个词,
Figure FDA0002478466510000016
为标准解释文本的第u个词;输出为生成的解释文本
Figure FDA0002478466510000017
以及逻辑关系l,其中
Figure FDA0002478466510000018
为生成的解释文本中第u个词;
步骤1具体包括如下步骤:
步骤1-1,将前提文本和假设文本进行拼接,并将拼接结果输入基于Transformer的编码器得到相应上下文表示
Figure FDA0002478466510000019
及其压缩表示
Figure FDA00024784665100000110
其中
Figure FDA00024784665100000111
表示前提-假设文本对中第m+n+1个词的上下文表示;
步骤1-2,将标准解释文本输入基于Transformer的编码器得到相应上下文表示
Figure FDA00024784665100000112
及其压缩表示
Figure FDA00024784665100000113
其中
Figure FDA00024784665100000114
表示标准解释中第u个个词的上下文表示;
步骤1-3,将步骤1-1得到的前提-假设文本对压缩表示
Figure FDA00024784665100000115
输入隐变量z的先验分布估计器,计算得到隐变量z的先验分布
Figure FDA00024784665100000116
Figure FDA00024784665100000117
表示均值为μ1、方差为
Figure FDA00024784665100000118
的多变量高斯分布,并根据所述多变量高斯分布采样得到隐变量z;
步骤1-4,将步骤1-1得到的前提假设文本对压缩表示
Figure FDA00024784665100000119
和步骤1-2得到的标准解释文本压缩表示输入隐变量z的后验分布估计器,计算得到隐变量z的后验分布
Figure FDA00024784665100000120
Figure FDA00024784665100000121
表示均值为μ2、方差为
Figure FDA00024784665100000122
的多变量高斯分布;
步骤1-5,将步骤1-1得到的上下文表示、压缩表示和步骤1-3得到的隐变量输入变分解释生成器的解码器,得到生成的解释文本
Figure FDA0002478466510000021
步骤1-6,对步骤1-3得到的隐变量z进行逻辑监督。
3.根据权利要求2所述的方法,其特征在于,步骤1-1中所述编码器包括一个输入层,基于Transformer的编码表示层和一个平均池化层;
输入层将前提文本和假设文本拼接为一个序列作为编码器的输入,并在两个文本间插入分隔符[SEP],即xX=[xP,[SEP],xH],同时用一组额外的分隔编码
Figure FDA0002478466510000022
分别对前提部分和假设部分进行表示,即前提和分隔符部分采用0表示,假设部分采用1表示,最终编码表示层的输入为
Figure FDA0002478466510000023
编码表示层采用Transformer作为编码器,得到前提-假设文本对的上下文表示sX
平均池化层对前提-假设文本对的上下文表示进行均值计算,得到压缩表示
Figure FDA0002478466510000024
4.根据权利要求3所述的方法,其特征在于,步骤1-2中所述编码器与步骤1-1中的编码器相同,但在输入层中不加入分隔符,且标准解释的分割编码为0。
5.根据权利要求4所述的方法,其特征在于,步骤1-3中所述先验分布估计器包括一个先验分布估计层和一个采样层;
先验分布估计层包括两个独立的单层前馈神经网络,分别用于计算隐变量先验分布的均值μ1和方差
Figure FDA0002478466510000025
Figure FDA0002478466510000026
其中
Figure FDA0002478466510000027
为计算先验分布均值的单层前馈神经网络,
Figure FDA0002478466510000028
为计算先验分布方差的单层前馈神经网络;
采样层先从标准高斯分布采样得到一个噪声向量∈~N(0,I),然后基于噪声向量从条件先验分布
Figure FDA0002478466510000029
计算得到隐变量z=σ1·∈+μ1
6.根据权利要求5所述的方法,步骤1-4中所述后验分布估计器包括一个后验分布估计层,后验分布估计层包括两个单层前馈神经网络,分别用于近似估计隐变量的条件先验分布的均值μ2和方差
Figure FDA00024784665100000210
Figure FDA00024784665100000211
其中
Figure FDA00024784665100000212
为计算后验分布均值的单层前馈神经网络,
Figure FDA00024784665100000213
为计算后验分布方差的单层前馈神经网络。
7.根据权利要求6所述的方法,其特征在于,步骤1-5中采用带有多头注意力机制的Transformer解码器按序生成解释文本中的词,生成第i个词时输入为上一时刻生成的词
Figure FDA00024784665100000214
隐变量z,以及当前解码器内部状态与步骤1-1中前提-假设文本对的上下文表示的注意力表示ci
8.根据权利要求7所述的方法,其特征在于,步骤1-6中采用一个双层前馈神经网络fz对隐变量进行逻辑监督:p(l|z)=fz(z),
p(l|z)表示预测关系为l的概率,用于解决变分解释生成器训练过程中出现的后验坍塌问题。
9.根据权利要求8所述的方法,其特征在于,步骤2中,采用加入逻辑监督的变分下界ELBO对变分解释生成模型进行优化:loss=ELBO+∑l llogp(l|z),
其中
Figure FDA0002478466510000031
KL为刻画两个分布之间距离的KL散度,p(z|xP,xJ)为隐变量z的先验分布,q(z|xP,xH,yE)为隐变量z的后验分布;
Figure FDA0002478466510000032
为第i个生成的词为
Figure FDA0002478466510000033
的概率。
10.根据权利要求9所述的方法,其特征在于,步骤2中训练的逻辑关系预测模型包括一个输入嵌入层,一个上下文表示层和一个逻辑关系预测层;
输入嵌入层采用预训练的词嵌入Glove对输入的解释进行表示,输入嵌入层不跟随模型进行训练;
上下文表示层采用一个2048维的双向长短时记忆网络对标准解释进行上下文编码表示;
逻辑关系预测层采用3层前馈神经网络,基于解释的上下文编码表示进行逻辑关系预测;
步骤3包括:
步骤3-1,将前提文本和假设文本输入步骤1中训练好的变分解释生成模型生成解释,
步骤3-2,将步骤3-1生成的解释输入到步骤2中训练好的逻辑关系预测模型进行逻辑关系预测。
CN202010371946.4A 2020-05-06 2020-05-06 一种带有解释生成的自然语言自动预测推断方法 Active CN111444328B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010371946.4A CN111444328B (zh) 2020-05-06 2020-05-06 一种带有解释生成的自然语言自动预测推断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010371946.4A CN111444328B (zh) 2020-05-06 2020-05-06 一种带有解释生成的自然语言自动预测推断方法

Publications (2)

Publication Number Publication Date
CN111444328A true CN111444328A (zh) 2020-07-24
CN111444328B CN111444328B (zh) 2023-04-14

Family

ID=71653638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010371946.4A Active CN111444328B (zh) 2020-05-06 2020-05-06 一种带有解释生成的自然语言自动预测推断方法

Country Status (1)

Country Link
CN (1) CN111444328B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434804A (zh) * 2020-10-23 2021-03-02 东南数字经济发展研究院 一种深度Transformer级联神经网络模型压缩算法
CN112581185A (zh) * 2020-12-28 2021-03-30 北京明略软件系统有限公司 广告用户性别年龄预估方法、系统、计算机和存储介质
CN112784965A (zh) * 2021-01-28 2021-05-11 广西大学 面向云环境下大规模多元时间序列数据异常检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145288A (zh) * 2018-07-11 2019-01-04 西安电子科技大学 基于变分自编码模型的文本深度特征提取方法
CN109918477A (zh) * 2019-02-18 2019-06-21 华南理工大学 一种基于变分自编码器的分布式检索资源库选择方法
CN110287333A (zh) * 2019-06-12 2019-09-27 北京语言大学 一种基于知识库进行释义生成的方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145288A (zh) * 2018-07-11 2019-01-04 西安电子科技大学 基于变分自编码模型的文本深度特征提取方法
CN109918477A (zh) * 2019-02-18 2019-06-21 华南理工大学 一种基于变分自编码器的分布式检索资源库选择方法
CN110287333A (zh) * 2019-06-12 2019-09-27 北京语言大学 一种基于知识库进行释义生成的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
何亮 等: "A_study_of_variational_method_for_text-independent_speaker_recognition" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434804A (zh) * 2020-10-23 2021-03-02 东南数字经济发展研究院 一种深度Transformer级联神经网络模型压缩算法
CN112581185A (zh) * 2020-12-28 2021-03-30 北京明略软件系统有限公司 广告用户性别年龄预估方法、系统、计算机和存储介质
CN112581185B (zh) * 2020-12-28 2024-05-31 北京明略软件系统有限公司 广告用户性别年龄预估方法、系统、计算机和存储介质
CN112784965A (zh) * 2021-01-28 2021-05-11 广西大学 面向云环境下大规模多元时间序列数据异常检测方法
CN112784965B (zh) * 2021-01-28 2022-07-29 广西大学 面向云环境下大规模多元时间序列数据异常检测方法

Also Published As

Publication number Publication date
CN111444328B (zh) 2023-04-14

Similar Documents

Publication Publication Date Title
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN111241295B (zh) 基于语义句法交互网络的知识图谱关系数据抽取方法
CN110929030B (zh) 一种文本摘要和情感分类联合训练方法
CN110390397B (zh) 一种文本蕴含识别方法及装置
Chen et al. Syntax or semantics? knowledge-guided joint semantic frame parsing
CN110516244B (zh) 一种基于bert的句子自动填充方法
CN111444328B (zh) 一种带有解释生成的自然语言自动预测推断方法
CN111738003A (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN112699216A (zh) 端到端的语言模型预训练方法、系统、设备及存储介质
CN112800203B (zh) 一种融合文本和知识表征的问答匹配方法及系统
CN115392252A (zh) 一种融合自注意力与层级残差记忆网络的实体识别方法
CN114218928A (zh) 一种基于图知识和主题感知的抽象文本摘要方法
CN116521882A (zh) 基于知识图谱的领域长文本分类方法及系统
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Xu et al. A comprehensive survey of automated audio captioning
CN113177113B (zh) 任务型对话模型预训练方法、装置、设备及存储介质
Morioka et al. Multiscale recurrent neural network based language model.
CN116863920B (zh) 基于双流自监督网络的语音识别方法、装置、设备及介质
CN111582287B (zh) 一种基于充足视觉信息与文本信息的图像描述方法
CN117171299A (zh) 一种文本生成方法和装置
CN111274359B (zh) 基于改进vhred与强化学习的查询推荐方法及系统
CN113836910A (zh) 一种基于多层次语义的文本识别方法及系统
Cui et al. MSAM: A multi-layer bi-LSTM based speech to vector model with residual attention mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant