CN111444328B - 一种带有解释生成的自然语言自动预测推断方法 - Google Patents

一种带有解释生成的自然语言自动预测推断方法 Download PDF

Info

Publication number
CN111444328B
CN111444328B CN202010371946.4A CN202010371946A CN111444328B CN 111444328 B CN111444328 B CN 111444328B CN 202010371946 A CN202010371946 A CN 202010371946A CN 111444328 B CN111444328 B CN 111444328B
Authority
CN
China
Prior art keywords
text
interpretation
layer
hypothesis
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010371946.4A
Other languages
English (en)
Other versions
CN111444328A (zh
Inventor
戴新宇
成臻
何亮
张建兵
黄书剑
陈家骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202010371946.4A priority Critical patent/CN111444328B/zh
Publication of CN111444328A publication Critical patent/CN111444328A/zh
Application granted granted Critical
Publication of CN111444328B publication Critical patent/CN111444328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种带有解释生成的自然语言自动预测推断方法,包括如下步骤:步骤1,训练一个变分解释生成模型;步骤2,训练一个基于解释的逻辑关系预测模型;步骤3,通过所述的变分解释生产模型对自然语言推断进行解释生成,通过生成的解释进行逻辑关系预测。

Description

一种带有解释生成的自然语言自动预测推断方法
技术领域
本发明属于自然语言处理领域,尤其涉及一种带有解释生成的自然语言自动预测推断方法。
背景技术
随着人工智能技术的不断发展,社会生产生活的各个领域都经历着巨大的变革。自然语言推断作为机器理解人类语言的基础技术之一对人们生活的各个方面影响日益增长。自然语言推断是指在给定前提文本信息的情况下下判断假设文本与其之间的逻辑关系——蕴含、无关或矛盾。该技术支撑着众多上层文本领域应用,可以帮助搜索引擎中在文档集中定位蕴含用户搜索信息的内容,对与搜索关键字无关或矛盾的信息进行过滤筛查;还可以帮助自动问答系统对候选答案进行检查,防止系统给出与问题无关或矛盾的响应。可以看出自然语言推断技术作为机器理解人类自然语言的关键一环起着至关重要的作用。
尽管现有基于神经网络的自然语言推断技术取得了不错的性能,但作为自然语言理解的基础技术之一,现有方法并不具备很好的解释性。缺乏解释性的自然语言推断技术不仅让使用者对结果的可靠性产生质疑,也使得研究人员无法理解现有技术的推断机制、从而有针对性的做出改进。因此从应用和研发两方面,可解释性自然语言推断对搜索引擎和问答系统等人机交互应用的未来发展都具有重要价值。由于早期人们对自然语言推断技术的关注点局限于逻辑关系识别的准确率,缺乏相关可解释性的研究,目前最好的对自然语言推断进行解释生成的模型所生成的解释仍存在明显的逻辑语义错误以及信息不完整现象,给出的解释难以应用到实际生产生活中。因此,如何对自然语言推断生成高质量的解释亟待解决。
由于现有关于可解释性自然语言推断的研究较少,只有Camburu等人(参考文献Camburu et al.,2018,e-SNLI:Natural language inference with natural languageexplanations)关于解释生成的一些研究。Camburu等人根据预测逻辑关系和生成解释的先后顺序提出了两种不同的自然语言推断解释生成架构,分别称为PredictAndExplain和ExplainThenPredict。
在PredictAndExplain架构中,需要预测的逻辑关系作为逻辑词——蕴含(Entailment)、无关(Neutral)或矛盾(Contradiction)添加在解释文本之前,在生成解释的同时对逻辑词进行生成,生成的逻辑词即预测的逻辑关系。具体地,Camburu等人采用基于双向循环神经网络的孪生网络对前提文本和假设文本分别进行编码表示,并采用另一个循环神经网络对逻辑关系词和解释文本进行解码生成。
而在ExplainThenPredict架构中,两个子模块分别基于前提-假设文本对进行解释生成和基于所生成的解释进行逻辑关系预测。具体地,Camburu等人将注意力机制引入解释生成的过程中,在生成每个词时解码器根据当前状态分别对前提文本的表示和假设文本的表示进行关注,有效地提升了生成解释的质量。
尽管基于PredictAndExplain架构的解释生成模型可以采用端到端的训练方式直接获得逻辑关系以及相应解释,但由于在生成解释过程中引入了逻辑词,导致生成的解释质量严重偏低。相比PredictAndExplain,基于ExplainThenPredict架构的解释生成模型得到的解释质量明显较高,但基于生成的解释进行逻辑关系预测准确率下降了很多,这是由于相比原始前提-假设文本对,所生成的解释存在逻辑语义错误与缺失。不管是PredictAndExplain架构还是ExplainThenPredict架构,现有的解释生成模型均是基于循环神经网络的判别式模型。由于逻辑信息是隐式地存在于前提-假设文本对中,现有判别式解释生成器难以有效地捕捉并生成包含正确逻辑语义的解释。
此外,尽管Camburu等人针对自然语言推断设计了基于孪生网络的注意力机制,但仍缺少对前提和假设间的交互信息,而这些交互信息在非解释性自然语言推断模型中被广泛证明是非常有效的。
发明内容
在搜索引擎和自动问答系统中,目前所利用的自然语言推断技术尚不具备可解释性,导致用户对系统做出的响应无法判断其可靠性、研究人员无法了解系统的推断机制并进行有针对性的改进。本发明需要解决的问题是为现有自然语言推断技术进行解释生成,从而提升系统的可解释性以及推断的准确性。
为了解决上述技术问题,本发明公开了一种带有解释生成的自然语言自动预测推断方法,
步骤1,训练一个变分解释生成模型,将前提-假设文本对和标准解释文本输入变分解释生成模型,其中标准解释文本为训练数据集(如英文中常采用SNLI、MultiNLI等数据集,参考文献Bowman,S R et al.,2015,Generating sentences from a continuousspace,Williams,A et al.,2018,A Broad-Coverage Challenge Corpus for SentenceUnderstanding through Inference)中的生成目标,输出生成的解释文本;
步骤2,训练一个基于解释的逻辑关系预测模型,将标准解释文本输入模型,输出预测的逻辑关系;
步骤3,将待测试的前提-假设文本对输入步骤1得到的变分解释生成模型生成相应解释,然后将生成的解释输入步骤2得到的逻辑关系预测模型,输出预测的结果。
步骤1包括:
采用如下符号对基于变分解释生成模型的输入输出进行标记:输入为前提文本
Figure GDA0004087407890000031
假设文本
Figure GDA0004087407890000032
和标准解释文本
Figure GDA0004087407890000033
其中m和n分别为前提文本和假设文本的最大长度,
Figure GDA0004087407890000034
为前提文本中第m个词,
Figure GDA0004087407890000035
为前提文本中第n个词,
Figure GDA0004087407890000036
为标准解释文本的第u个词;输出为生成的解释文本
Figure GDA0004087407890000037
以及逻辑关系l,其中
Figure GDA0004087407890000038
为生成的解释文本中第u个词;
步骤1-1,将前提文本和假设文本采用BERT中采用的方式进行拼接,并将拼接结果输入基于Transformer的编码器得到相应上下文表示
Figure GDA0004087407890000039
及其压缩表示
Figure GDA00040874078900000310
其中
Figure GDA00040874078900000311
表示前提-假设文本对中第m+n+1个词的上下文表示;
步骤1-2,将标准解释文本输入基于Transformer的编码器得到相应上下文表示
Figure GDA00040874078900000312
及其压缩表示
Figure GDA00040874078900000313
其中
Figure GDA00040874078900000314
表示标准解释中第u个个词的上下文表示;
步骤1-3,将步骤1-1得到的前提-假设文本对压缩表示
Figure GDA00040874078900000315
输入隐变量z的先验分布估计器,计算得到隐变量z的先验分布
Figure GDA00040874078900000316
表示均值为μ1、方差为
Figure GDA00040874078900000320
的多变量高斯分布,并根据所述多变量高斯分布采样得到隐变量z;
步骤1-4,将步骤1-1得到的前提假设文本对压缩表示
Figure GDA00040874078900000317
和步骤1-2得到的标准解释文本压缩表示输入隐变量z的后验分布估计器,计算得到隐变量z的后验分布
Figure GDA00040874078900000318
表示均值为μ2、方差为
Figure GDA00040874078900000319
的多变量高斯分布;
步骤1-5,将步骤1-1得到的上下文表示、压缩表示和步骤1-3得到的隐变量输入变分解释生成器的解码器,得到生成的解释文本
Figure GDA0004087407890000041
步骤1-6,对步骤1-3得到的隐变量z进行逻辑监督。
步骤1-1中所述编码器包括一个输入层,基于Transformer的编码表示层和一个平均池化层;
输入层将前提文本和假设文本拼接为一个序列作为编码器的输入,并在两个文本间插入分隔符[SEP],即xX=[xP,[SEP],xH],同时用一组额外的分隔编码
Figure GDA0004087407890000042
分别对前提部分和假设部分进行表示,即前提和分隔符部分采用0表示,假设部分采用1表示,最终编码表示层的输入为
Figure GDA0004087407890000043
编码表示层采用Transformer作为编码器,得到前提-假设文本对的上下文表示sX
平均池化层对前提-假设文本对的上下文表示进行均值计算,得到压缩表示
Figure GDA0004087407890000044
步骤1-2中所述编码器与步骤1-1中的编码器相同,但在输入层中不加入分隔符,且标准解释的分割编码为0。
步骤1-3中所述先验分布估计器包括一个先验分布估计层和一个采样层;
先验分布估计层包括两个独立的单层前馈神经网络,分别用于计算隐变量先验分布的均值μ1和方差
Figure GDA0004087407890000045
Figure GDA0004087407890000046
其中
Figure GDA00040874078900000413
为计算先验分布均值的单层前馈神经网络,
Figure GDA0004087407890000047
为计算先验分布方差的单层前馈神经网络;
采样层先从标准高斯分布采样得到一个噪声向量∈~N(0,I),然后基于噪声向量从条件先验分布
Figure GDA0004087407890000048
计算得到隐变量z=σ1·∈+μ1
步骤1-4中所述后验分布估计器包括一个后验分布估计层,后验分布估计层包括两个单层前馈神经网络,分别用于近似估计隐变量的条件先验分布的均值μ2和方差
Figure GDA00040874078900000414
Figure GDA0004087407890000049
其中
Figure GDA00040874078900000410
为计算后验分布均值的单层前馈神经网络,
Figure GDA00040874078900000411
为计算后验分布方差的单层前馈神经网络。
步骤1-5中的解码器采用带有多头注意力机制的Transformer按序生成解释文本中的词,生成第i个词时输入为上一时刻生成的词
Figure GDA00040874078900000412
隐变量z,以及当前解码器内部状态与步骤1-1中前提-假设文本对的上下文表示的注意力表示ci
步骤1-6中逻辑监督采用一个双层前馈神经网络fz对隐变量进行逻辑监督:p(l|z)=fz(z),p(l|z)表示预测的逻辑关系为l的概率,用于解决变分解释生成器训练过程中出现的后验坍塌问题(参考文献Bowman S R et al.,2015,Generating sentences fromacontinuous space)。
步骤1中,采用加入逻辑监督的变分下界ELBO(Evidence Lower BoundObjective,简称ELBO)对变分解释生成模型进行优化:loss=ELBO+∑lllogp(l|z),
其中
Figure GDA0004087407890000051
KL为刻画两个分布之间距离的KL散度(Kullback-Leibler divergence),p(z|xP,xH)为隐变量z的先验分布,q(z|xP,xH,yE)为隐变量z的后验分布;
Figure GDA0004087407890000052
为第i个生成的词为
Figure GDA0004087407890000053
的概率。
步骤2包括:
步骤2-1,采用一个输入嵌入层对标准的解释文本进行词嵌入表示,输入嵌入层采用预训练的词嵌入Glove,输入嵌入层不跟随模型进行训练;
步骤2-2,采用一个上下文表示层对步骤2-1得到的标准解释文本的词嵌入表示进行上下文表示,上下文表示层采用一个2048维的双向长短时记忆网络(BiLSTM);
步骤2-3,采用一个逻辑关系预测层对步骤2-2得到的标准解释文本的上下文编码表示进行逻辑关系预测,逻辑关系预测层采用3层前馈神经网络;
步骤2中,采用如下公式对基于解释的逻辑关系预测模型进行优化:loss=∑lllogp(l|yE),p(l|yE)为步骤2-3中3层前馈神经网络预测逻辑关系为l的概率。
步骤3包括:
步骤3-1,将前提文本和假设文本输入步骤1中训练好的变分解释生成模型生成解释,
步骤3-2,将步骤3-1生成的解释输入到步骤2中训练好的逻辑关系预测模型进行逻辑关系预测。
本发明技术方案带来的有益效果
技术层面:(1)现有关于可解释性自然语言推断的研究十分缺乏,已有的解释生成方法得到的结果存在明显的逻辑语义错误或缺失,其原因在于逻辑信息在前提-假设文本对中是隐式的包含,而现有判别式的解释生成系统很难有效地挖掘其中的语义信息。本发明通过生成式的方法,在生成解释的过程中引入隐变量对该逻辑信息进行建模,并在训练过程中引入目标解释进行逻辑信息指导,使得引入的隐变量可以有效编码相应逻辑信息,显著提升了生成的解释质量,同时提升逻辑关系预测的准确性。
(2)本发明提供的方法相比现有自然语言推断解释生成系统具有更快的效率,在相同硬件设备条件下可以达到约20倍的提速。
(3)本发明提供的方法具有强耦合性,使用者可以根据需要替换现有方法中的逻辑关系预测模块。
应用层面:本发明提出的基于变分自编码器的自然语言推断解释生成器可以应用于任何搜索引擎及问答系统中:既可以帮助用户了解系统响应的可靠性,又可以帮助研究人员了解系统的运行机制并做出有针对性的改进。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是变分解释生成模型流程图。
图2是变分解释生成模型中输入编码器流程图。
图3是变分解释生成模型中先验分布估计器流程图。
图4是变分解释生成模型中后验分布估计器流程图。
图5是逻辑关系预测模型流程图。
图6带有解释生成的自然语言推断系统流程图。
具体实施方式
本发明提供了一种对自然语言进行解释生成的方法,包括如下内容:
首先给出一个基于Transformer(参考文献Vaswani et al.,2017,Attention isall you need)变分解释生成模型,流程图如图1所示。采用如下符号对基于变分解释生成模型的输入输出进行标记:输入为前提文本
Figure GDA0004087407890000061
假设文本
Figure GDA0004087407890000062
Figure GDA0004087407890000063
和标准解释文本
Figure GDA0004087407890000064
其中m和n分别为前提文本和假设文本的最大长度,
Figure GDA0004087407890000065
为前提文本中第m个词,
Figure GDA0004087407890000066
为前提文本中第n个词,
Figure GDA0004087407890000067
为标准解释文本的第u个词;输出为生成的解释文本
Figure GDA0004087407890000068
以及逻辑关系l,其中
Figure GDA0004087407890000069
为生成的解释文本中第u个词。如图1所示,模型分为以下几步:
步骤1-1,将前提文本和假设文本采用BERT(参考文献Devlin,J et al.,2019,BERT:Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding)中采用的方式进行拼接,并将拼接结果输入基于Transformer的编码器得到相应上下文表示
Figure GDA0004087407890000071
及其压缩表示
Figure GDA0004087407890000072
其中
Figure GDA0004087407890000073
表示前提-假设文本对中第m+n+1个词的上下文表示;;
步骤1-2,将标准解释文本输入基于Transformer的编码器得到相应上下文表示
Figure GDA0004087407890000074
及其压缩表示
Figure GDA0004087407890000075
其中
Figure GDA0004087407890000076
表示标准解释中第u个个词的上下文表示;
步骤1-3,将步骤1-1得到的前提-假设文本对压缩表示
Figure GDA0004087407890000077
输入隐变量z的先验分布估计器,计算得到隐变量z的先验分布
Figure GDA0004087407890000078
表示均值为μ1、方差为
Figure GDA00040874078900000716
的多变量高斯分布,并根据所述多变量高斯分布采样得到隐变量z;
步骤1-4,将步骤1-1得到的前提假设文本对压缩表示
Figure GDA0004087407890000079
和步骤1-2得到的标准解释文本压缩表示输入隐变量z的后验分布估计器,计算得到隐变量z的后验分布
Figure GDA00040874078900000710
表示均值为μ2、方差为
Figure GDA00040874078900000711
的多变量高斯分布;
步骤1-5,将步骤1-1得到的上下文表示、压缩表示和步骤1-3得到的隐变量输入变分解释生成器的解码器,得到生成的解释文本
Figure GDA00040874078900000712
步骤1-6,对步骤1-3得到的隐变量z进行逻辑监督。
这一流程中,如图2所示,步骤1-1中所述编码器包括一个输入层,基于Transformer的编码表示层和一个平均池化层;输入层将前提文本和假设文本拼接为一个序列作为编码器的输入,并在两个文本间插入分隔符[SEP],即xX=[xP,[SEP],xH],同时用一组额外的分隔编码
Figure GDA00040874078900000713
分别对前提部分和假设部分进行表示,即前提和分隔符部分采用0表示,假设部分采用1表示,最终编码表示层的输入为
Figure GDA00040874078900000714
编码表示层采用Transformer作为编码器,得到前提-假设文本对的上下文表示sX;平均池化层对前提-假设文本对的上下文表示进行均值计算,得到压缩表示
Figure GDA00040874078900000715
网络参数采用Xavier(参考文献Glorot X et al.,2010,Understanding the difficulty of training deepfeedforward neural networks)进行随机初始化。步骤1-2中所述编码器与步骤1-1中的编码器相同,但在输入层中不加入分隔符,且标准解释的分割编码为0。
如图3所示,步骤1-3中所述先验分布估计器包括一个先验分布估计层和一个采样层;先验分布估计层包括两个独立的单层前馈神经网络,分别用于计算隐变量先验分布的均值μ1和方差
Figure GDA0004087407890000081
Figure GDA0004087407890000082
其中
Figure GDA0004087407890000083
为先验分布均值估计器,是一个计算先验分布均值的单层前馈神经网络,
Figure GDA0004087407890000084
为先验分布方差估计器,是一个计算先验分布方差的单层前馈神经网络;采样层先从标准高斯分布采样得到一个噪声向量∈~N(0,I),然后基于噪声向量从条件先验分布
Figure GDA0004087407890000085
计算得到隐变量z=σ1·∈+μ1
如图4所示,步骤1-4中所述后验分布估计器包括一个后验分布估计层,后验分布估计层包括两个单层前馈神经网络,分别用于近似估计隐变量的条件先验分布的均值μ2和方差
Figure GDA0004087407890000086
Figure GDA0004087407890000087
其中
Figure GDA0004087407890000088
为计算后验分布均值估计器,
Figure GDA0004087407890000089
为计算后验分布方差估计器。
步骤1-5中的解码器采用带有多头注意力机制的Transformer按序生成解释文本中的词,生成第i个词时输入为上一时刻生成的词
Figure GDA00040874078900000810
隐变量z,以及当前解码器内部状态与步骤1-1中前提-假设文本对的上下文表示的注意力表示ci
步骤1-6中逻辑监督采用一个双层前馈神经网络fz对隐变量进行逻辑监督:p(l|z)=fz(z),p(l|z)表示预测的逻辑关系为l的概率,用于解决变分解释生成器训练过程中出现的后验坍塌问题(参考文献Bowman S R et al.,2015,Generating sentences fromacontinuous space)。
步骤1中,采用加入逻辑监督的变分下界ELBO(Evidence Lower BoundObjective,简称ELBO)(参考文献Kingma D P et al.,2013,Auto-encoding variationalbayes,Sohn K et al.,2015,Learning structured output representation using deepconditional generative models)对变分解释生成模型进行优化:loss=ELBO+∑lllogp(l|z),其中
Figure GDA00040874078900000811
KL为刻画两个分布之间距离的KL散度(Kullback-Leibler divergence),p(z|xP,xH)为隐变量z的先验分布,q(z|xP,xH,yE)为隐变量z的后验分布;
Figure GDA00040874078900000812
为第i个生成的词为
Figure GDA00040874078900000813
的概率。
然后建立解释的逻辑关系预测模型:
流程图如图5所示,将标准解释文本输入模型,输出预测的逻辑关系。方法分为如下几步:
步骤2-1,采用一个输入嵌入层对标准的解释文本进行词嵌入表示,输入嵌入层采用预训练的词嵌入Glove,输入嵌入层不跟随模型进行训练;
步骤2-2,采用一个上下文表示层对步骤2-1得到的标准解释文本的词嵌入表示进行上下文表示,上下文表示层采用一个2048维的双向长短时记忆网络(BiLSTM)(参考文献Hochreiter,S et al.,1997,Long Short-Term Memory);
步骤2-3,采用一个逻辑关系预测层对步骤2-2得到的标准解释文本的上下文编码表示进行逻辑关系预测,逻辑关系预测层采用3层前馈神经网络;
步骤2中,采用如下公式对基于解释的逻辑关系预测模型进行优化:loss=∑lllogp(l|yE),p(l|yE)为步骤2-3中3层前馈神经网络预测逻辑关系为l的概率。
建立一种基于前文提出的变分自然语言推断解释生成器的可解释自然语言推断系统。具体的流程图如图6所示,涉及以下几个步骤:
步骤3-1,将前提文本和假设文本输入步骤1中训练好的变分解释生成模型生成解释,在搜索引擎中前提文本为用户输入的搜索信息,如“微软的创始人是谁”,即xP=[“微软”,“的”,“创始人”,“是”,谁],假设文本是数据库中的检索匹配文档,如“微软公司于1975年由比尔·盖茨和保罗·艾伦创立”,即xH=[“微软”,“公司”,“于”,“1975”,“年”,“由”,“比尔·盖茨”,“和”,“保罗·艾伦”,“创立”],可解释自然语言推断系统将其实例化为输入进行解释生成,可以生成解释
Figure GDA0004087407890000091
——“因为比尔·盖茨和保罗·艾伦创立了微软公司,所以他们是微软的创始人”。
步骤3-2,将步骤3-1生成的解释
Figure GDA0004087407890000092
“因为比尔·盖茨和保罗·艾伦创立了微软公司,所以他们是微软的创始人”输入到步骤2中训练好的逻辑关系预测模型进行逻辑关系预测,可解释自然语言推断系统将
Figure GDA0004087407890000093
实例化为逻辑关系预测模型的输入进行逻辑关系推断,并做出蕴含的响应,即l=蕴含(Entailment),假设文本xH“微软公司于1975年由比尔·盖茨和保罗·艾伦创立”蕴含了前提文本xP“微软的创始人是谁”的答案,进而搜索引擎将该段假设文本xH和生成的解释
Figure GDA0004087407890000094
作为结果返回给用户。
本发明中涉及的带有解释生成的自然语言推断模型,还可以采用一些简单的方法:
采用PredictAndExplain结构,将逻辑关系作为逻辑词插入解释之前统一进行生成,经过实验验证,该方案在解释生成质量上要比第四章提出的方案差。
去除本发明提到的逻辑监督损失,经过实验验证,该方案出现后验坍塌问题,模型性能与基于Transformer的判别式解释生成模型基本一致。
本发明提到的逻辑监督损失可以改用现有的一些解决后验坍塌的方案(参考文献Bowman S R et al.,2015,A large annotated corpus for learning natural languageinference,Zhao T et al.,2017,Learning discourse-level diversity for neuraldialog models using conditional variational autoencoders),经过实验验证,现有技术并不完全适应本专利中的变分解释生成模型,性能远低于本发明所提出方案得到的结果。
采用基于Transformer的判别式解释生成器,并加入本发明提到的逻辑监督损失,经过实验验证,该方案相比基于Transformer的判别式解释生成模型有一定提升,但仍远低于本发明提到的变分解释生成器。
本发明提供了一种带有解释生成的自然语言自动预测推断方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (1)

1.一种带有解释生成的自然语言自动预测推断方法,其特征在于,包括如下步骤:
步骤1训练一个变分解释生成模型,将前提-假设文本对和标准解释文本输入变分解释生成模型,标准解释文本为数据集中原有的生成目标,输出生成的解释文本;
步骤2,训练一个基于解释的逻辑关系预测模型,将标准解释文本输入模型,输出预测的逻辑关系;
步骤3,将待测试的前提-假设文本对输入步骤1得到的变分解释生成模型生成相应解释,然后将生成的解释输入步骤2得到的逻辑关系预测模型,输出预测的结果;
步骤1中,采用如下符号对基于变分解释生成模型的输入输出进行标记:输入为前提文本
Figure QLYQS_2
假设文本
Figure QLYQS_5
和标准解释文本
Figure QLYQS_8
其中m和n分别为前提文本和假设文本的最大长度,
Figure QLYQS_3
为前提文本中第m个词,
Figure QLYQS_4
为前提文本中第n个词,
Figure QLYQS_6
为标准解释文本的第u个词;输出为生成的解释文本
Figure QLYQS_7
以及逻辑关系l,其中
Figure QLYQS_1
为生成的解释文本中第u个词;
步骤1具体包括如下步骤:
步骤1-1,将前提文本和假设文本进行拼接,并将拼接结果输入基于Transformer的编码器得到相应上下文表示
Figure QLYQS_9
及其压缩表示
Figure QLYQS_10
其中
Figure QLYQS_11
表示前提-假设文本对中第m+n+1个词的上下文表示;
步骤1-2,将标准解释文本输入基于Transformer的编码器得到相应上下文表示
Figure QLYQS_12
及其压缩表示
Figure QLYQS_13
其中
Figure QLYQS_14
表示标准解释中第u个个词的上下文表示;
步骤1-3,将步骤1-1得到的前提-假设文本对压缩表示
Figure QLYQS_15
输入隐变量z的先验分布估计器,计算得到隐变量z的先验分布
Figure QLYQS_16
Figure QLYQS_17
表示均值为μ1、方差为
Figure QLYQS_18
的多变量高斯分布,并根据所述多变量高斯分布采样得到隐变量z;
步骤1-4,将步骤1-1得到的前提假设文本对压缩表示
Figure QLYQS_19
和步骤1-2得到的标准解释文本压缩表示输入隐变量z的后验分布估计器,计算得到隐变量z的后验分布
Figure QLYQS_20
Figure QLYQS_21
表示均值为μ2、方差为
Figure QLYQS_22
的多变量高斯分布;
步骤1-5,将步骤1-1得到的上下文表示、压缩表示和步骤1-3得到的隐变量输入变分解释生成器的解码器,得到生成的解释文本
Figure QLYQS_23
步骤1-6,对步骤1-3得到的隐变量z进行逻辑监督;
步骤1-1中所述编码器包括一个输入层,基于Transformer的编码表示层和一个平均池化层;
输入层将前提文本和假设文本拼接为一个序列作为编码器的输入,并在两个文本间插入分隔符[SEP],即xX=[xP,[SEP],xH],同时用一组额外的分隔编码
Figure QLYQS_24
分别对前提部分和假设部分进行表示,即前提和分隔符部分采用0表示,假设部分采用1表示,最终编码表示层的输入为
Figure QLYQS_25
编码表示层采用Transformer作为编码器,得到前提-假设文本对的上下文表示sX
平均池化层对前提-假设文本对的上下文表示进行均值计算,得到压缩表示
Figure QLYQS_26
步骤1-2中所述编码器与步骤1-1中的编码器相同,但在输入层中不加入分隔符,且标准解释的分割编码为0;
步骤1-3中所述先验分布估计器包括一个先验分布估计层和一个采样层;
先验分布估计层包括两个独立的单层前馈神经网络,分别用于计算隐变量先验分布的均值μ1和方差
Figure QLYQS_27
Figure QLYQS_28
其中
Figure QLYQS_29
为计算先验分布均值的单层前馈神经网络,
Figure QLYQS_30
为计算先验分布方差的单层前馈神经网络;
采样层先从标准高斯分布采样得到一个噪声向量∈~N(0,I),然后基于噪声向量从条件先验分布
Figure QLYQS_31
计算得到隐变量z=σ1·∈+μ1
步骤1-4中所述后验分布估计器包括一个后验分布估计层,后验分布估计层包括两个单层前馈神经网络,分别用于近似估计隐变量的条件先验分布的均值μ2和方差
Figure QLYQS_32
Figure QLYQS_33
其中
Figure QLYQS_34
为计算后验分布均值的单层前馈神经网络,
Figure QLYQS_35
为计算后验分布方差的单层前馈神经网络;
步骤1-5中采用带有多头注意力机制的Transformer解码器按序生成解释文本中的词,生成第i个词时输入为上一时刻生成的词
Figure QLYQS_36
隐变量z,以及当前解码器内部状态与步骤1-1中前提-假设文本对的上下文表示的注意力表示ci
步骤1-6中采用一个双层前馈神经网络fz对隐变量进行逻辑监督:p(l|z)=fz(z),
p(l|z)表示预测关系为l的概率,用于解决变分解释生成器训练过程中出现的后验坍塌问题;
步骤2中,采用加入逻辑监督的变分下界ELBO对变分解释生成模型进行优化:loss=ELBO+∑lllogp(l|z),
其中
Figure QLYQS_37
KL为刻画两个分布之间距离的KL散度,p(z|xP,xH)为隐变量z的先验分布,q(z|xP,xH,yE)为隐变量z的后验分布;
Figure QLYQS_38
为第i个生成的词为
Figure QLYQS_39
的概率;
步骤2中训练的逻辑关系预测模型包括一个输入嵌入层,一个上下文表示层和一个逻辑关系预测层;
输入嵌入层采用预训练的词嵌入Glove对输入的解释进行表示,输入嵌入层不跟随模型进行训练;
上下文表示层采用一个2048维的双向长短时记忆网络对标准解释进行上下文编码表示;
逻辑关系预测层采用3层前馈神经网络,基于解释的上下文编码表示进行逻辑关系预测;
步骤3包括:
步骤3-1,将前提文本和假设文本输入步骤1中训练好的变分解释生成模型生成解释,
步骤3-2,将步骤3-1生成的解释输入到步骤2中训练好的逻辑关系预测模型进行逻辑关系预测。
CN202010371946.4A 2020-05-06 2020-05-06 一种带有解释生成的自然语言自动预测推断方法 Active CN111444328B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010371946.4A CN111444328B (zh) 2020-05-06 2020-05-06 一种带有解释生成的自然语言自动预测推断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010371946.4A CN111444328B (zh) 2020-05-06 2020-05-06 一种带有解释生成的自然语言自动预测推断方法

Publications (2)

Publication Number Publication Date
CN111444328A CN111444328A (zh) 2020-07-24
CN111444328B true CN111444328B (zh) 2023-04-14

Family

ID=71653638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010371946.4A Active CN111444328B (zh) 2020-05-06 2020-05-06 一种带有解释生成的自然语言自动预测推断方法

Country Status (1)

Country Link
CN (1) CN111444328B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434804A (zh) * 2020-10-23 2021-03-02 东南数字经济发展研究院 一种深度Transformer级联神经网络模型压缩算法
CN112581185B (zh) * 2020-12-28 2024-05-31 北京明略软件系统有限公司 广告用户性别年龄预估方法、系统、计算机和存储介质
CN112784965B (zh) * 2021-01-28 2022-07-29 广西大学 面向云环境下大规模多元时间序列数据异常检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145288A (zh) * 2018-07-11 2019-01-04 西安电子科技大学 基于变分自编码模型的文本深度特征提取方法
CN109918477B (zh) * 2019-02-18 2021-02-12 华南理工大学 一种基于变分自编码器的分布式检索资源库选择方法
CN110287333A (zh) * 2019-06-12 2019-09-27 北京语言大学 一种基于知识库进行释义生成的方法及系统

Also Published As

Publication number Publication date
CN111444328A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
CN111444328B (zh) 一种带有解释生成的自然语言自动预测推断方法
CN113836277A (zh) 用于数字助理的机器学习系统
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN109885670A (zh) 一种面向话题文本的交互注意力编码情感分析方法
CN110516244B (zh) 一种基于bert的句子自动填充方法
CN112800203B (zh) 一种融合文本和知识表征的问答匹配方法及系统
CN112699216A (zh) 端到端的语言模型预训练方法、系统、设备及存储介质
CN113987179A (zh) 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质
CN114998670B (zh) 多模态信息预训练方法及系统
CN113505198B (zh) 关键词驱动的生成式对话回复方法、装置及电子设备
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN117421595B (zh) 一种基于深度学习技术的系统日志异常检测方法及系统
CN107679225A (zh) 一种基于关键词的回复生成方法
CN115392252A (zh) 一种融合自注意力与层级残差记忆网络的实体识别方法
CN111274359B (zh) 基于改进vhred与强化学习的查询推荐方法及系统
CN114743539A (zh) 语音合成方法、装置、设备及存储介质
CN114692605A (zh) 一种融合句法结构信息的关键词生成方法及装置
CN116450839A (zh) 知识增强预训练语言模型知识注入和训练方法及系统
Su et al. MICO: A multi-alternative contrastive learning framework for commonsense knowledge representation
CN114282592A (zh) 一种基于深度学习的行业文本匹配模型方法及装置
CN115116443A (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
CN117056494A (zh) 开放域问答的方法、装置、电子设备和计算机存储介质
CN116595985A (zh) 一种基于生成式常识辅助增强对话中情绪识别的方法
CN115796187A (zh) 一种基于对话结构图约束的开放域对话方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant