CN111444328B - 一种带有解释生成的自然语言自动预测推断方法 - Google Patents
一种带有解释生成的自然语言自动预测推断方法 Download PDFInfo
- Publication number
- CN111444328B CN111444328B CN202010371946.4A CN202010371946A CN111444328B CN 111444328 B CN111444328 B CN 111444328B CN 202010371946 A CN202010371946 A CN 202010371946A CN 111444328 B CN111444328 B CN 111444328B
- Authority
- CN
- China
- Prior art keywords
- text
- interpretation
- layer
- hypothesis
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 14
- 239000010410 layer Substances 0.000 claims description 70
- 238000009826 distribution Methods 0.000 claims description 66
- 238000013528 artificial neural network Methods 0.000 claims description 28
- 239000002356 single layer Substances 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000005192 partition Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 230000015654 memory Effects 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000008094 contradictory effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 241000669618 Nothes Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 235000013405 beer Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种带有解释生成的自然语言自动预测推断方法,包括如下步骤:步骤1,训练一个变分解释生成模型;步骤2,训练一个基于解释的逻辑关系预测模型;步骤3,通过所述的变分解释生产模型对自然语言推断进行解释生成,通过生成的解释进行逻辑关系预测。
Description
技术领域
本发明属于自然语言处理领域,尤其涉及一种带有解释生成的自然语言自动预测推断方法。
背景技术
随着人工智能技术的不断发展,社会生产生活的各个领域都经历着巨大的变革。自然语言推断作为机器理解人类语言的基础技术之一对人们生活的各个方面影响日益增长。自然语言推断是指在给定前提文本信息的情况下下判断假设文本与其之间的逻辑关系——蕴含、无关或矛盾。该技术支撑着众多上层文本领域应用,可以帮助搜索引擎中在文档集中定位蕴含用户搜索信息的内容,对与搜索关键字无关或矛盾的信息进行过滤筛查;还可以帮助自动问答系统对候选答案进行检查,防止系统给出与问题无关或矛盾的响应。可以看出自然语言推断技术作为机器理解人类自然语言的关键一环起着至关重要的作用。
尽管现有基于神经网络的自然语言推断技术取得了不错的性能,但作为自然语言理解的基础技术之一,现有方法并不具备很好的解释性。缺乏解释性的自然语言推断技术不仅让使用者对结果的可靠性产生质疑,也使得研究人员无法理解现有技术的推断机制、从而有针对性的做出改进。因此从应用和研发两方面,可解释性自然语言推断对搜索引擎和问答系统等人机交互应用的未来发展都具有重要价值。由于早期人们对自然语言推断技术的关注点局限于逻辑关系识别的准确率,缺乏相关可解释性的研究,目前最好的对自然语言推断进行解释生成的模型所生成的解释仍存在明显的逻辑语义错误以及信息不完整现象,给出的解释难以应用到实际生产生活中。因此,如何对自然语言推断生成高质量的解释亟待解决。
由于现有关于可解释性自然语言推断的研究较少,只有Camburu等人(参考文献Camburu et al.,2018,e-SNLI:Natural language inference with natural languageexplanations)关于解释生成的一些研究。Camburu等人根据预测逻辑关系和生成解释的先后顺序提出了两种不同的自然语言推断解释生成架构,分别称为PredictAndExplain和ExplainThenPredict。
在PredictAndExplain架构中,需要预测的逻辑关系作为逻辑词——蕴含(Entailment)、无关(Neutral)或矛盾(Contradiction)添加在解释文本之前,在生成解释的同时对逻辑词进行生成,生成的逻辑词即预测的逻辑关系。具体地,Camburu等人采用基于双向循环神经网络的孪生网络对前提文本和假设文本分别进行编码表示,并采用另一个循环神经网络对逻辑关系词和解释文本进行解码生成。
而在ExplainThenPredict架构中,两个子模块分别基于前提-假设文本对进行解释生成和基于所生成的解释进行逻辑关系预测。具体地,Camburu等人将注意力机制引入解释生成的过程中,在生成每个词时解码器根据当前状态分别对前提文本的表示和假设文本的表示进行关注,有效地提升了生成解释的质量。
尽管基于PredictAndExplain架构的解释生成模型可以采用端到端的训练方式直接获得逻辑关系以及相应解释,但由于在生成解释过程中引入了逻辑词,导致生成的解释质量严重偏低。相比PredictAndExplain,基于ExplainThenPredict架构的解释生成模型得到的解释质量明显较高,但基于生成的解释进行逻辑关系预测准确率下降了很多,这是由于相比原始前提-假设文本对,所生成的解释存在逻辑语义错误与缺失。不管是PredictAndExplain架构还是ExplainThenPredict架构,现有的解释生成模型均是基于循环神经网络的判别式模型。由于逻辑信息是隐式地存在于前提-假设文本对中,现有判别式解释生成器难以有效地捕捉并生成包含正确逻辑语义的解释。
此外,尽管Camburu等人针对自然语言推断设计了基于孪生网络的注意力机制,但仍缺少对前提和假设间的交互信息,而这些交互信息在非解释性自然语言推断模型中被广泛证明是非常有效的。
发明内容
在搜索引擎和自动问答系统中,目前所利用的自然语言推断技术尚不具备可解释性,导致用户对系统做出的响应无法判断其可靠性、研究人员无法了解系统的推断机制并进行有针对性的改进。本发明需要解决的问题是为现有自然语言推断技术进行解释生成,从而提升系统的可解释性以及推断的准确性。
为了解决上述技术问题,本发明公开了一种带有解释生成的自然语言自动预测推断方法,
步骤1,训练一个变分解释生成模型,将前提-假设文本对和标准解释文本输入变分解释生成模型,其中标准解释文本为训练数据集(如英文中常采用SNLI、MultiNLI等数据集,参考文献Bowman,S R et al.,2015,Generating sentences from a continuousspace,Williams,A et al.,2018,A Broad-Coverage Challenge Corpus for SentenceUnderstanding through Inference)中的生成目标,输出生成的解释文本;
步骤2,训练一个基于解释的逻辑关系预测模型,将标准解释文本输入模型,输出预测的逻辑关系;
步骤3,将待测试的前提-假设文本对输入步骤1得到的变分解释生成模型生成相应解释,然后将生成的解释输入步骤2得到的逻辑关系预测模型,输出预测的结果。
步骤1包括:
采用如下符号对基于变分解释生成模型的输入输出进行标记:输入为前提文本假设文本和标准解释文本其中m和n分别为前提文本和假设文本的最大长度,为前提文本中第m个词,为前提文本中第n个词,为标准解释文本的第u个词;输出为生成的解释文本以及逻辑关系l,其中为生成的解释文本中第u个词;
步骤1-1,将前提文本和假设文本采用BERT中采用的方式进行拼接,并将拼接结果输入基于Transformer的编码器得到相应上下文表示及其压缩表示其中表示前提-假设文本对中第m+n+1个词的上下文表示;
步骤1-6,对步骤1-3得到的隐变量z进行逻辑监督。
步骤1-1中所述编码器包括一个输入层,基于Transformer的编码表示层和一个平均池化层;
输入层将前提文本和假设文本拼接为一个序列作为编码器的输入,并在两个文本间插入分隔符[SEP],即xX=[xP,[SEP],xH],同时用一组额外的分隔编码分别对前提部分和假设部分进行表示,即前提和分隔符部分采用0表示,假设部分采用1表示,最终编码表示层的输入为
编码表示层采用Transformer作为编码器,得到前提-假设文本对的上下文表示sX;
步骤1-2中所述编码器与步骤1-1中的编码器相同,但在输入层中不加入分隔符,且标准解释的分割编码为0。
步骤1-3中所述先验分布估计器包括一个先验分布估计层和一个采样层;
步骤1-4中所述后验分布估计器包括一个后验分布估计层,后验分布估计层包括两个单层前馈神经网络,分别用于近似估计隐变量的条件先验分布的均值μ2和方差 其中为计算后验分布均值的单层前馈神经网络,为计算后验分布方差的单层前馈神经网络。
步骤1-5中的解码器采用带有多头注意力机制的Transformer按序生成解释文本中的词,生成第i个词时输入为上一时刻生成的词隐变量z,以及当前解码器内部状态与步骤1-1中前提-假设文本对的上下文表示的注意力表示ci。
步骤1-6中逻辑监督采用一个双层前馈神经网络fz对隐变量进行逻辑监督:p(l|z)=fz(z),p(l|z)表示预测的逻辑关系为l的概率,用于解决变分解释生成器训练过程中出现的后验坍塌问题(参考文献Bowman S R et al.,2015,Generating sentences fromacontinuous space)。
步骤1中,采用加入逻辑监督的变分下界ELBO(Evidence Lower BoundObjective,简称ELBO)对变分解释生成模型进行优化:loss=ELBO+∑lllogp(l|z),
KL为刻画两个分布之间距离的KL散度(Kullback-Leibler divergence),p(z|xP,xH)为隐变量z的先验分布,q(z|xP,xH,yE)为隐变量z的后验分布;为第i个生成的词为的概率。
步骤2包括:
步骤2-1,采用一个输入嵌入层对标准的解释文本进行词嵌入表示,输入嵌入层采用预训练的词嵌入Glove,输入嵌入层不跟随模型进行训练;
步骤2-2,采用一个上下文表示层对步骤2-1得到的标准解释文本的词嵌入表示进行上下文表示,上下文表示层采用一个2048维的双向长短时记忆网络(BiLSTM);
步骤2-3,采用一个逻辑关系预测层对步骤2-2得到的标准解释文本的上下文编码表示进行逻辑关系预测,逻辑关系预测层采用3层前馈神经网络;
步骤2中,采用如下公式对基于解释的逻辑关系预测模型进行优化:loss=∑lllogp(l|yE),p(l|yE)为步骤2-3中3层前馈神经网络预测逻辑关系为l的概率。
步骤3包括:
步骤3-1,将前提文本和假设文本输入步骤1中训练好的变分解释生成模型生成解释,
步骤3-2,将步骤3-1生成的解释输入到步骤2中训练好的逻辑关系预测模型进行逻辑关系预测。
本发明技术方案带来的有益效果
技术层面:(1)现有关于可解释性自然语言推断的研究十分缺乏,已有的解释生成方法得到的结果存在明显的逻辑语义错误或缺失,其原因在于逻辑信息在前提-假设文本对中是隐式的包含,而现有判别式的解释生成系统很难有效地挖掘其中的语义信息。本发明通过生成式的方法,在生成解释的过程中引入隐变量对该逻辑信息进行建模,并在训练过程中引入目标解释进行逻辑信息指导,使得引入的隐变量可以有效编码相应逻辑信息,显著提升了生成的解释质量,同时提升逻辑关系预测的准确性。
(2)本发明提供的方法相比现有自然语言推断解释生成系统具有更快的效率,在相同硬件设备条件下可以达到约20倍的提速。
(3)本发明提供的方法具有强耦合性,使用者可以根据需要替换现有方法中的逻辑关系预测模块。
应用层面:本发明提出的基于变分自编码器的自然语言推断解释生成器可以应用于任何搜索引擎及问答系统中:既可以帮助用户了解系统响应的可靠性,又可以帮助研究人员了解系统的运行机制并做出有针对性的改进。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是变分解释生成模型流程图。
图2是变分解释生成模型中输入编码器流程图。
图3是变分解释生成模型中先验分布估计器流程图。
图4是变分解释生成模型中后验分布估计器流程图。
图5是逻辑关系预测模型流程图。
图6带有解释生成的自然语言推断系统流程图。
具体实施方式
本发明提供了一种对自然语言进行解释生成的方法,包括如下内容:
首先给出一个基于Transformer(参考文献Vaswani et al.,2017,Attention isall you need)变分解释生成模型,流程图如图1所示。采用如下符号对基于变分解释生成模型的输入输出进行标记:输入为前提文本假设文本 和标准解释文本其中m和n分别为前提文本和假设文本的最大长度,为前提文本中第m个词,为前提文本中第n个词,为标准解释文本的第u个词;输出为生成的解释文本以及逻辑关系l,其中为生成的解释文本中第u个词。如图1所示,模型分为以下几步:
步骤1-1,将前提文本和假设文本采用BERT(参考文献Devlin,J et al.,2019,BERT:Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding)中采用的方式进行拼接,并将拼接结果输入基于Transformer的编码器得到相应上下文表示及其压缩表示其中表示前提-假设文本对中第m+n+1个词的上下文表示;;
步骤1-6,对步骤1-3得到的隐变量z进行逻辑监督。
这一流程中,如图2所示,步骤1-1中所述编码器包括一个输入层,基于Transformer的编码表示层和一个平均池化层;输入层将前提文本和假设文本拼接为一个序列作为编码器的输入,并在两个文本间插入分隔符[SEP],即xX=[xP,[SEP],xH],同时用一组额外的分隔编码分别对前提部分和假设部分进行表示,即前提和分隔符部分采用0表示,假设部分采用1表示,最终编码表示层的输入为编码表示层采用Transformer作为编码器,得到前提-假设文本对的上下文表示sX;平均池化层对前提-假设文本对的上下文表示进行均值计算,得到压缩表示网络参数采用Xavier(参考文献Glorot X et al.,2010,Understanding the difficulty of training deepfeedforward neural networks)进行随机初始化。步骤1-2中所述编码器与步骤1-1中的编码器相同,但在输入层中不加入分隔符,且标准解释的分割编码为0。
如图3所示,步骤1-3中所述先验分布估计器包括一个先验分布估计层和一个采样层;先验分布估计层包括两个独立的单层前馈神经网络,分别用于计算隐变量先验分布的均值μ1和方差 其中为先验分布均值估计器,是一个计算先验分布均值的单层前馈神经网络,为先验分布方差估计器,是一个计算先验分布方差的单层前馈神经网络;采样层先从标准高斯分布采样得到一个噪声向量∈~N(0,I),然后基于噪声向量从条件先验分布计算得到隐变量z=σ1·∈+μ1。
如图4所示,步骤1-4中所述后验分布估计器包括一个后验分布估计层,后验分布估计层包括两个单层前馈神经网络,分别用于近似估计隐变量的条件先验分布的均值μ2和方差 其中为计算后验分布均值估计器,为计算后验分布方差估计器。
步骤1-5中的解码器采用带有多头注意力机制的Transformer按序生成解释文本中的词,生成第i个词时输入为上一时刻生成的词隐变量z,以及当前解码器内部状态与步骤1-1中前提-假设文本对的上下文表示的注意力表示ci。
步骤1-6中逻辑监督采用一个双层前馈神经网络fz对隐变量进行逻辑监督:p(l|z)=fz(z),p(l|z)表示预测的逻辑关系为l的概率,用于解决变分解释生成器训练过程中出现的后验坍塌问题(参考文献Bowman S R et al.,2015,Generating sentences fromacontinuous space)。
步骤1中,采用加入逻辑监督的变分下界ELBO(Evidence Lower BoundObjective,简称ELBO)(参考文献Kingma D P et al.,2013,Auto-encoding variationalbayes,Sohn K et al.,2015,Learning structured output representation using deepconditional generative models)对变分解释生成模型进行优化:loss=ELBO+∑lllogp(l|z),其中
KL为刻画两个分布之间距离的KL散度(Kullback-Leibler divergence),p(z|xP,xH)为隐变量z的先验分布,q(z|xP,xH,yE)为隐变量z的后验分布;为第i个生成的词为的概率。
然后建立解释的逻辑关系预测模型:
流程图如图5所示,将标准解释文本输入模型,输出预测的逻辑关系。方法分为如下几步:
步骤2-1,采用一个输入嵌入层对标准的解释文本进行词嵌入表示,输入嵌入层采用预训练的词嵌入Glove,输入嵌入层不跟随模型进行训练;
步骤2-2,采用一个上下文表示层对步骤2-1得到的标准解释文本的词嵌入表示进行上下文表示,上下文表示层采用一个2048维的双向长短时记忆网络(BiLSTM)(参考文献Hochreiter,S et al.,1997,Long Short-Term Memory);
步骤2-3,采用一个逻辑关系预测层对步骤2-2得到的标准解释文本的上下文编码表示进行逻辑关系预测,逻辑关系预测层采用3层前馈神经网络;
步骤2中,采用如下公式对基于解释的逻辑关系预测模型进行优化:loss=∑lllogp(l|yE),p(l|yE)为步骤2-3中3层前馈神经网络预测逻辑关系为l的概率。
建立一种基于前文提出的变分自然语言推断解释生成器的可解释自然语言推断系统。具体的流程图如图6所示,涉及以下几个步骤:
步骤3-1,将前提文本和假设文本输入步骤1中训练好的变分解释生成模型生成解释,在搜索引擎中前提文本为用户输入的搜索信息,如“微软的创始人是谁”,即xP=[“微软”,“的”,“创始人”,“是”,谁],假设文本是数据库中的检索匹配文档,如“微软公司于1975年由比尔·盖茨和保罗·艾伦创立”,即xH=[“微软”,“公司”,“于”,“1975”,“年”,“由”,“比尔·盖茨”,“和”,“保罗·艾伦”,“创立”],可解释自然语言推断系统将其实例化为输入进行解释生成,可以生成解释——“因为比尔·盖茨和保罗·艾伦创立了微软公司,所以他们是微软的创始人”。
步骤3-2,将步骤3-1生成的解释“因为比尔·盖茨和保罗·艾伦创立了微软公司,所以他们是微软的创始人”输入到步骤2中训练好的逻辑关系预测模型进行逻辑关系预测,可解释自然语言推断系统将实例化为逻辑关系预测模型的输入进行逻辑关系推断,并做出蕴含的响应,即l=蕴含(Entailment),假设文本xH“微软公司于1975年由比尔·盖茨和保罗·艾伦创立”蕴含了前提文本xP“微软的创始人是谁”的答案,进而搜索引擎将该段假设文本xH和生成的解释作为结果返回给用户。
本发明中涉及的带有解释生成的自然语言推断模型,还可以采用一些简单的方法:
采用PredictAndExplain结构,将逻辑关系作为逻辑词插入解释之前统一进行生成,经过实验验证,该方案在解释生成质量上要比第四章提出的方案差。
去除本发明提到的逻辑监督损失,经过实验验证,该方案出现后验坍塌问题,模型性能与基于Transformer的判别式解释生成模型基本一致。
本发明提到的逻辑监督损失可以改用现有的一些解决后验坍塌的方案(参考文献Bowman S R et al.,2015,A large annotated corpus for learning natural languageinference,Zhao T et al.,2017,Learning discourse-level diversity for neuraldialog models using conditional variational autoencoders),经过实验验证,现有技术并不完全适应本专利中的变分解释生成模型,性能远低于本发明所提出方案得到的结果。
采用基于Transformer的判别式解释生成器,并加入本发明提到的逻辑监督损失,经过实验验证,该方案相比基于Transformer的判别式解释生成模型有一定提升,但仍远低于本发明提到的变分解释生成器。
本发明提供了一种带有解释生成的自然语言自动预测推断方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (1)
1.一种带有解释生成的自然语言自动预测推断方法,其特征在于,包括如下步骤:
步骤1训练一个变分解释生成模型,将前提-假设文本对和标准解释文本输入变分解释生成模型,标准解释文本为数据集中原有的生成目标,输出生成的解释文本;
步骤2,训练一个基于解释的逻辑关系预测模型,将标准解释文本输入模型,输出预测的逻辑关系;
步骤3,将待测试的前提-假设文本对输入步骤1得到的变分解释生成模型生成相应解释,然后将生成的解释输入步骤2得到的逻辑关系预测模型,输出预测的结果;
步骤1中,采用如下符号对基于变分解释生成模型的输入输出进行标记:输入为前提文本假设文本和标准解释文本其中m和n分别为前提文本和假设文本的最大长度,为前提文本中第m个词,为前提文本中第n个词,为标准解释文本的第u个词;输出为生成的解释文本以及逻辑关系l,其中为生成的解释文本中第u个词;
步骤1具体包括如下步骤:
步骤1-6,对步骤1-3得到的隐变量z进行逻辑监督;
步骤1-1中所述编码器包括一个输入层,基于Transformer的编码表示层和一个平均池化层;
输入层将前提文本和假设文本拼接为一个序列作为编码器的输入,并在两个文本间插入分隔符[SEP],即xX=[xP,[SEP],xH],同时用一组额外的分隔编码分别对前提部分和假设部分进行表示,即前提和分隔符部分采用0表示,假设部分采用1表示,最终编码表示层的输入为
编码表示层采用Transformer作为编码器,得到前提-假设文本对的上下文表示sX;
步骤1-2中所述编码器与步骤1-1中的编码器相同,但在输入层中不加入分隔符,且标准解释的分割编码为0;
步骤1-3中所述先验分布估计器包括一个先验分布估计层和一个采样层;
步骤1-4中所述后验分布估计器包括一个后验分布估计层,后验分布估计层包括两个单层前馈神经网络,分别用于近似估计隐变量的条件先验分布的均值μ2和方差 其中为计算后验分布均值的单层前馈神经网络,为计算后验分布方差的单层前馈神经网络;
步骤1-5中采用带有多头注意力机制的Transformer解码器按序生成解释文本中的词,生成第i个词时输入为上一时刻生成的词隐变量z,以及当前解码器内部状态与步骤1-1中前提-假设文本对的上下文表示的注意力表示ci;
步骤1-6中采用一个双层前馈神经网络fz对隐变量进行逻辑监督:p(l|z)=fz(z),
p(l|z)表示预测关系为l的概率,用于解决变分解释生成器训练过程中出现的后验坍塌问题;
步骤2中,采用加入逻辑监督的变分下界ELBO对变分解释生成模型进行优化:loss=ELBO+∑lllogp(l|z),
步骤2中训练的逻辑关系预测模型包括一个输入嵌入层,一个上下文表示层和一个逻辑关系预测层;
输入嵌入层采用预训练的词嵌入Glove对输入的解释进行表示,输入嵌入层不跟随模型进行训练;
上下文表示层采用一个2048维的双向长短时记忆网络对标准解释进行上下文编码表示;
逻辑关系预测层采用3层前馈神经网络,基于解释的上下文编码表示进行逻辑关系预测;
步骤3包括:
步骤3-1,将前提文本和假设文本输入步骤1中训练好的变分解释生成模型生成解释,
步骤3-2,将步骤3-1生成的解释输入到步骤2中训练好的逻辑关系预测模型进行逻辑关系预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010371946.4A CN111444328B (zh) | 2020-05-06 | 2020-05-06 | 一种带有解释生成的自然语言自动预测推断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010371946.4A CN111444328B (zh) | 2020-05-06 | 2020-05-06 | 一种带有解释生成的自然语言自动预测推断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111444328A CN111444328A (zh) | 2020-07-24 |
CN111444328B true CN111444328B (zh) | 2023-04-14 |
Family
ID=71653638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010371946.4A Active CN111444328B (zh) | 2020-05-06 | 2020-05-06 | 一种带有解释生成的自然语言自动预测推断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444328B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434804A (zh) * | 2020-10-23 | 2021-03-02 | 东南数字经济发展研究院 | 一种深度Transformer级联神经网络模型压缩算法 |
CN112581185B (zh) * | 2020-12-28 | 2024-05-31 | 北京明略软件系统有限公司 | 广告用户性别年龄预估方法、系统、计算机和存储介质 |
CN112784965B (zh) * | 2021-01-28 | 2022-07-29 | 广西大学 | 面向云环境下大规模多元时间序列数据异常检测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145288A (zh) * | 2018-07-11 | 2019-01-04 | 西安电子科技大学 | 基于变分自编码模型的文本深度特征提取方法 |
CN109918477B (zh) * | 2019-02-18 | 2021-02-12 | 华南理工大学 | 一种基于变分自编码器的分布式检索资源库选择方法 |
CN110287333A (zh) * | 2019-06-12 | 2019-09-27 | 北京语言大学 | 一种基于知识库进行释义生成的方法及系统 |
-
2020
- 2020-05-06 CN CN202010371946.4A patent/CN111444328B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111444328A (zh) | 2020-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348016B (zh) | 基于句子关联注意力机制的文本摘要生成方法 | |
CN111444328B (zh) | 一种带有解释生成的自然语言自动预测推断方法 | |
CN113836277A (zh) | 用于数字助理的机器学习系统 | |
CN110929030A (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN109885670A (zh) | 一种面向话题文本的交互注意力编码情感分析方法 | |
CN110516244B (zh) | 一种基于bert的句子自动填充方法 | |
CN112800203B (zh) | 一种融合文本和知识表征的问答匹配方法及系统 | |
CN112699216A (zh) | 端到端的语言模型预训练方法、系统、设备及存储介质 | |
CN113987179A (zh) | 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质 | |
CN114998670B (zh) | 多模态信息预训练方法及系统 | |
CN113505198B (zh) | 关键词驱动的生成式对话回复方法、装置及电子设备 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN117421595B (zh) | 一种基于深度学习技术的系统日志异常检测方法及系统 | |
CN107679225A (zh) | 一种基于关键词的回复生成方法 | |
CN115392252A (zh) | 一种融合自注意力与层级残差记忆网络的实体识别方法 | |
CN111274359B (zh) | 基于改进vhred与强化学习的查询推荐方法及系统 | |
CN114743539A (zh) | 语音合成方法、装置、设备及存储介质 | |
CN114692605A (zh) | 一种融合句法结构信息的关键词生成方法及装置 | |
CN116450839A (zh) | 知识增强预训练语言模型知识注入和训练方法及系统 | |
Su et al. | MICO: A multi-alternative contrastive learning framework for commonsense knowledge representation | |
CN114282592A (zh) | 一种基于深度学习的行业文本匹配模型方法及装置 | |
CN115116443A (zh) | 语音识别模型的训练方法、装置、电子设备及存储介质 | |
CN117056494A (zh) | 开放域问答的方法、装置、电子设备和计算机存储介质 | |
CN116595985A (zh) | 一种基于生成式常识辅助增强对话中情绪识别的方法 | |
CN115796187A (zh) | 一种基于对话结构图约束的开放域对话方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |