CN109858032A - 融合Attention机制的多粒度句子交互自然语言推理模型 - Google Patents
融合Attention机制的多粒度句子交互自然语言推理模型 Download PDFInfo
- Publication number
- CN109858032A CN109858032A CN201910113631.7A CN201910113631A CN109858032A CN 109858032 A CN109858032 A CN 109858032A CN 201910113631 A CN201910113631 A CN 201910113631A CN 109858032 A CN109858032 A CN 109858032A
- Authority
- CN
- China
- Prior art keywords
- sentence
- vector
- attention
- premise
- context vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 71
- 230000007246 mechanism Effects 0.000 title claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 180
- 238000000034 method Methods 0.000 claims abstract description 54
- 230000002452 interceptive effect Effects 0.000 claims abstract description 21
- 239000013604 expression vector Substances 0.000 claims description 56
- 235000019580 granularity Nutrition 0.000 claims description 55
- 230000004927 fusion Effects 0.000 claims description 54
- 238000004364 calculation method Methods 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000007935 neutral effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000006978 adaptation Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 3
- 239000010410 layer Substances 0.000 description 38
- 230000000694 effects Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种融合Attention机制的多粒度句子交互自然语言推理模型,本发明首先获取句子的全局特征,融合注意力机制提取句子的局部特征,其次在对句子进行编码的过程中,采用不同的交互策略对输出的上下文向量进行多样性匹配,通过最大池化、加权平均池化等操作,完成句子对的建模,其中最大池化仅保留给定范围的最大特征值,有助于强化重要语义;平均池化是对给定范围的所有值取平均,全面考虑每个方面的局部信息,避免信息丢失;最后整合句子间的匹配向量进行蕴含关系的预测;这种方法能够捕捉两个句子之间的多样性交互特征,减小句子损失,侧重关注前提文本到假设文本之间的正向蕴含关系的识别,提高模型预测质量。
Description
技术领域
本发明涉及自然语言推理领域,具体是一种融合Attention机制的多粒度句子交互自然语言推理模型。
背景技术
近来年,随着自然语言处理技术的发展,人们开始研究让机器理解人类自然语言的方法,希望计算机不仅能够快速获取并处理语言中的表层信息,更能实现对文本的深层次“理解”。在自然语言“理解”过程中重要的一部分就是对语义的推理,通过语义推理能够让计算机判断出句子之间的逻辑关系。
自然语言推理(NLI)定义为句子对之间的有向推理关系,是自然语言处理领域一项基础性工作,其基本任务是判断由前提句子(P)的语义是否能推断出假设句子(H)的语义,如果句子H的语义能从句子P的语义中推断出来,则句子对P与H之间是蕴含关系,如表1所示。
表1.自然语言推理任务样本
传统自然语言推理方法主要依赖人工的文本特征,结合机器学习方法对特征向量进行分类;基于深度学习的方法主要在深度网络中,通过将句子映射到向量空间的方式,使句子特征的计算和句子特征之间的关联性更容易被挖掘,从而能够很好的学习句子特征,包括序列学习、句子的表示学习和句子匹配等相关工作。
句子匹配主要任务是聚合前提句子和假设句子之间的组合特征,传统方法都是针对两个句子进行向量间匹配,或先对两个句子之间的词语或者上下文向量做匹配,匹配结果通过一个神经网络聚集为一个向量后再做匹配,也有引入注意力机制加以考虑,现阶段都取得了不错的效果,但是还存在以下问题:(1)基于词语级别或者句子级别的匹配都是单粒度同层次的匹配,这种匹配方式只关注捕捉句子自身的语义信息,忽略了句子之间的组合信息和交互特征,造成句义损失,不能有力的辨别句子对的蕴含关系。(2)一般的序列输入方式捕捉的是句子的全局特征分布,没有兼顾到句子局部特征的定位,导致句子语义信息不足,且基于文本相似度的方法容易丢失语义信息,降低模型的质量。
传统的自然语言推理方法有基于词袋模型、基于WordNet词典、基于FrameNet框架,基于句法树,这些方法都是基于特征分类的方法,对句子自身包含的语义研究并不多,而且基于文本相似度方法不具备推理性,“相似蕴含”,因此无法捕捉深层的句子含义。随着Word2Vec(2013)和GloVe(2014)模型为代表的基于深度学习的词向量的兴起掀开了基于深度学习的自然语言推理研究浪潮。Bowman[2]等人提出了LSTM模型,首先尝试使用基于句子编码的深度学习方法和基于词语级别的分类器方法来解决自然语言处理问题,验证了深度学习在自然语言推理上的有效性,但是在输入长句时,编码成的中间向量的信息损失也加大,生成的句子精确率也随之降低。Attention方法有效的缓解了上述问题,[13]等人提出了word-by-word Attention模型,该模型分别用两个LSTM来学习前提句子和假设句子,通过在编码前提句子时考虑假设句子中每个词的信息,将假设句子中每个词与前提句子中的词产生对应的软对齐,获得假设句子中每个词对应的前提句子中的上下文信息,这种方法能缓解长句信息损失,其本质还是通过两个句子向量匹配来推断蕴含关系,无法匹配到细粒度的词语匹配关系,对中立关系的识别不是很好。为了更好的推断句子间词和短语级别的匹配情况,Wang等人[14]提出mLSTM模型,该模型对前提文本和假设文本建模的两个LSTM模型产生的注意力向量拼接,进行匹配后再预测,这个方法可以很好的识别词和短语的匹配情况,是无法兼顾句子的全局特征的分布与局部特征的定位。Liu等人提出使用双向的LSTM模型(Bi-LSTM)有利于提取句子的全局信息而不受句子语序影响,同时融合“Inner-Attention”机制,利用句子本身的表示来进行指导Attention,进一步提升了模型的识别效果,但是没有考虑句子间的组合特征。Wang等人的Bi-MPM模型提出了对句子匹配工作进行多视角的计算方法,从多个视角去提取句子的特征,通过对给定的两个句子分别编码,从多个方向进行匹配,能够充分提取句子的语义信息。
发明内容
本发明要解决的技术问题是提供一种融合Attention机制的多粒度句子交互自然语言推理模型,通过不同粒度、不同层次的句子交互,捕捉句子间的组合特征,减小句义信息损失,利用深度神经网络模型(Bi-LSTM)对句子蕴含关系进行分类,提高蕴含关系识别准确度。
本发明的技术方案为:
融合Attention机制的多粒度句子交互自然语言推理模型,包括有依次连接的输入层、编码层、交互层和分类层;所述的输入层首先对前提句子P和假设句子H独立进行编码,将句子中的每个单词表示为d维向量;所述的编码层利用Bi-LSTM模型融合Attention机制对输入的单词序列逐个进行编码生成句子表示向量,但保留每个隐藏层单元输出的上下文向量,将上下文信息融合到前提句子P和假设句子H每个时间步的表示中;所述的交互层比较前提句子P和假设句子H每个时间步的上下文向量和所有向量,为了比较前提句子P和假设句子H的上下文向量,设计多粒度、不同层次的交互匹配方法,在句子编码过程中进行文本语义对齐,利用不同的交互策略,得到融合注意力权重上下文向量,结合最大池化和平均池化的方法进行句子匹配生成新的表示向量;所述的分类层包括有顺次连接的多层感知器和Softmax分类器,交互层输出的匹配向量传入多层感知器进行聚合处理后传至Softmax分类器,使用Softmax函数为激活函数,输出前提句子P和假设句子H之间关系的分类结果,标签即蕴含、中性和矛盾;
所述的多粒度句子交互自然语言推理模型的目标函数如公式(1)所示,即最小化预测标签分布和实际标签y分布的交叉熵,其中N为样本数量,C表示标签类别;
所述的编码层利用Bi-LSTM模型融合Attention机制对输入的单词序列逐个进行编码生成句子表示向量的具体步骤为:Attention机制为输入d维特征向量计算一个注意力分布,对不同的特征向量赋予不同权重,从而实现注意力的分配,计算方法如公式(2)-(6)所示:
yt=G(yt-1,st,ct) (2),
st=f(st-1,yt-1,ct) (3),
etj=f(st-1,hj) (6),
其中,yt为当前时刻t输出的上下文向量,yt-1为上一时刻t-1输出的上下文向量,st为当前时刻t隐藏层状态,st-1为上一时刻t-1隐藏层状态,hj为输入中单个隐藏状态,ct为注意力得分,f,G为激活函数,etj是输入xj对输出yt的注意力得分,αtj是对注意力得分进行归一化之后的注意力概率,L为序列的长度;
Bi-LSTM模型通过注意力权重的计算,最终得到是参数对历史隐藏层状态加权求和的结果向量,即句子表示向量。
所述的交互层进行句子匹配工作,句子匹配是指比较两个句子并判断句子间关系,其主要工作是聚合前提句子和假设句子之间的组合特征,具体包括有6种交互策略,分别是同一层次单粒度的3种交互和跨层次多粒度的3种交互,并将各种策略生成的句子表达向量拼接进行策略融合;所述的同一层次单粒度的3种交互包括有句子内词粒度交互、句子间词粒度交互和句子间句粒度交互,所述的跨层次多粒度的3种交互包括有词语与句子全交互、融合注意力的平均池化匹配和融合注意力的最大池化匹配。
所述的句子内词粒度交互是指对句子本身的上下文向量之间进行注意力权重的计算,这种方法能捕捉到句子内的语义特征,突出每个词语在句子中的重要性,计算方法如公式(7)和(8)所示:
其中,分别为前提句子P本身的上下文向量,分别为假设句子H本身的上下文向量,fm表示匹配函数,用来度量向量之间的匹配度;表示假设句子H自身上下文向量之间注意力权重,表示前提句子P自身上下文向量之间注意力权重;
句子内词粒度交互的目的是量化每个词语在自身句子中的重要性m′i,计算方法如公式(9)和(10)所示:
其中,T为序列的长度;分别为每个时间步前提句子P和假设句子H中每个词语的注意力权重,和分别表示每个时间步前提句子P和假设句子H的上下文向量;
然后对前提句子P和假设句子H的表示向量进行计算,计算方法如公式(11)和(12)所示:
其中,表示加权操作的函数,和分别表示前提句子P和假设句子H每个词语的上下文向量,和表示前提句子P和假设句子H融合注意力权重的上下文向量;
最后再对这些上下文向量进行池化得到融合句子自身注意力权重的表示向量,如公式(13)和(14)所示:
其中,表示池化操作,vP和vH分别表示前提句子P和假设句子H的表示向量。
所述的句子间词粒度交互就是将前提句子P和假设句子H所包含的上下文向量之间进行一一对齐,完成交叉注意力权重的计算,计算方法如公式(15)和(16)所示;基于句子的对齐是由两个序列模型构建的编码器-解码器框架,编码器对输入向量{x1,x2…,xn}进行编码得到中间的上下文向量c,解码器根据这个上下文向量c进行解码得到目标词汇,解码过程中考虑到每个输入元素对输出结果y1,y2,…yn的重要性是不相同的,在计算某个时刻输出yt时,都会有对应的上下文向量ct,该向量包含了输入序列向量{x1,x2…,xn}对当前输出的重要性权重分布,即注意力权重,其计算方法如公式(17)和(18)所示:
SP×H=(yP)T·(yH) (15),
其中,yP、yH为前提句子P和假设句子H在Bi-LSTM层的输出, 分别为前提句子P和假设句子H本身的任意一个上下文向量,sij为交叉注意力权重,是对齐矩阵SP×H的元素,M,N分别是句子P和H的长度,αi为句子P的上下文向量对的对齐,即的加权和,βj为句子H的上下文向量对的对齐,即的加权和,βj为句子H的上下文向量对的对齐,即的加权和;
融合注意力权重αi与βj后,计算前提句子P和假设句子H的表示向量vP和vH,其计算方法如公式(19)-(22)所示:
其中,T表示序列长度,和表示前提句子P和假设句子H融合注意力权重的上下文向量,vP和vH表示经过池化操作后融合前提句子P和假设句子H自身注意力权重的表示向量。
所述的句子间句粒度交互就是直接对Bi-LSTM层建模后的两个句子表示向量作对应元素的匹配计算,仅保留最大的匹配结果,计算方法如公式(23)所示,利用最大池化筛选特征值:
y=(m)max-polling=max[yP⊙yH] (23);
其中,(m)max-polling表示最大池化匹配度。
所述的词语与句子全交互就是将句子P的每一个上下文向量和句子H的表示向量作比较,计算方法如公式(24)-(26)所示,这种方法能够得到句子P中每个词语和句子H的语义相似性;
其中,fm为匹配函数,(mt)full为全交互匹配度,为句子P当前时刻上下文向量,为假设句子H当前时刻的表示向量,yH为经过池化操作后的上下文向量,vp表示前提句子P融合句子本身注意力权重mt的表示向量。
所述的融合注意力的平均池化匹配即首先计算前提句子P和假设句子H中每一个上下文向量之间的匹配值s,如公式(27)所示:
其中,表示前提句子P的输入xi在Bi-LSTM层的输出,表示假设句子H的输入xj在Bi-LSTM层的输出,L表示序列长度,si,j为注意力权重;
随后利用s对假设句子H中的每个上下文向量做加权求平均操作,得到假设句子H的表示向量,再将前提句子P中的每个上下文向量与句子H的表示向量匹配,计算方法如公式(28)所示;
其中,表示假设句子H的输入xj在Bi-LSTM层的输出,T表示序列的长度,αi'表示假设句子H所有上下文向量加权取平均向量;
最后通过公式(29)-(31)比较前提句子P的上下文向量和这个平均值向量:
其中,(mt)attention为融合注意力的平均池化匹配度,为前提句子P当前时刻的上下文向量,表示前提句子P融合自身注意力权重mt的上下文向量,为前提句子P当前时刻的上下文向量,vp为前提句子P的表示向量。
所述的融合注意力的最大池化匹配过程参考平均池化匹配,将平均变成了取最大计算公式,如公式(32)-(35)所示:
其中,表示假设句子H的输入xj在Bi-LSTM层的输出,si,j表示注意力权重,αi为假设句子H的所有上下文向量加权取最大向量,αt”为句子H的上下文向量,(mt)max-att为融合注意力的最大池化匹配度,为当前时刻前提句子P的上下文向量,表示前提句子P的任一上下文向量,(mt)max-att为融合注意力的最大池化匹配度,为前提句子P当前时刻融合自身权重的上下文向量,vp为前提句子P的表示向量。
所述的句子匹配即对句子表示向量进行距离度量的计算,采用向量相减后对应元素相乘方法,计算方法如公式(36)所示:
fm(v1,v2)=(v1-v2)⊙(v1-v2) (36),
其中,v1,v2分别为前提句子P和假设句子H的表示向量。
本发明的优点:
(1)、针对句子间组合信息和交互特征问题,提出多粒度和不同层次的句子交互策略,对词语和句子进行交互建模,捕捉两个句子之间的交互特征,减少句义信息损失,提高蕴含关系识别准确度。
(2)、针对全局特征和局部特征兼顾问题,利用Bi-LSTM模型对序列信息处理优势,融合Attention机制捕捉句子交互过程中单词级特征的重要性,并将向量元素的对应计算作为两个句子向量的匹配度量,能有效的补充句子信息,提升模型效果。
综上所述,本发明利用深度神经网络模型(Bi-LSTM)获取句子的全局特征,融合注意力机制提取句子的局部特征,在对句子进行编码的过程中,采用不同的交互策略对输出的上下文向量进行多样性匹配,通过最大池化、加权平均池化等操作,完成句子对的建模,其中最大池化仅保留给定范围的最大特征值,有助于强化重要语义;平均池化是对给定范围的所有值取平均,全面考虑每个方面的局部信息,避免信息丢失;最后整合句子间的匹配向量进行蕴含关系的预测;这种方法能够捕捉两个句子之间的多样性交互特征,减小句子损失,侧重关注前提文本到假设文本之间的正向蕴含关系的识别,提高模型预测质量。
附图说明
图1是本发明的原理框图。
图2是本发明同一层次单粒度交互的原理框图。
图3是本发明跨层次多粒度交互的原理框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
见图1,融合Attention机制的多粒度句子交互自然语言推理模型,包括有依次连接的输入层、编码层、交互层和分类层;输入层首先对前提句子P和假设句子H独立进行编码,将句子中的每个单词表示为d维向量;编码层利用Bi-LSTM模型融合Attention机制对输入的单词序列逐个进行编码生成句子表示向量,但保留每个隐藏层单元输出的上下文向量,将上下文信息融合到前提句子P和假设句子H每个时间步的表示中;交互层比较前提句子P和假设句子H每个时间步的上下文向量和所有向量,为了比较前提句子P和假设句子H的上下文向量,设计多粒度、不同层次的交互匹配方法,在句子编码过程中进行文本语义对齐,利用不同的交互策略,得到融合注意力权重上下文向量,结合最大池化和平均池化的方法进行句子匹配生成新的表示向量;分类层包括有顺次连接的多层感知器和Softmax分类器,交互层输出的匹配向量传入多层感知器进行聚合处理后传至Softmax分类器,使用Softmax函数为激活函数,输出前提句子P和假设句子H之间关系的分类结果,标签即蕴含、中性和矛盾;
多粒度句子交互自然语言推理模型的目标函数如公式(1)所示,即最小化预测标签分布和实际标签y分布的交叉熵,其中N为样本数量,C表示标签类别;
其中,编码层利用Bi-LSTM模型融合Attention机制对输入的单词序列逐个进行编码生成句子表示向量的具体步骤为:Attention机制为输入d维特征向量计算一个注意力分布,对不同的特征向量赋予不同权重,从而实现注意力的分配,计算方法如公式(2)-(6)所示:
yt=G(yt-1,st,ct) (2),
st=f(st-1,yt-1,ct) (3),
etj=f(st-1,hj) (6),
其中,yt为当前时刻t输出的上下文向量,yt-1为上一时刻t-1输出的上下文向量,st为当前时刻t隐藏层状态,st-1为上一时刻t-1隐藏层状态,hj为输入中单个隐藏状态,ct为注意力得分,f,G为激活函数,etj是输入xj对输出yt的注意力得分,αtj是对注意力得分进行归一化之后的注意力概率,L为序列的长度;
Bi-LSTM模型通过注意力权重的计算,最终得到是参数对历史隐藏层状态加权求和的结果向量,即句子表示向量。
交互层进行句子匹配工作,句子匹配是指比较两个句子并判断句子间关系,其主要工作是聚合前提句子和假设句子之间的组合特征,具体包括有6种交互策略,分别是同一层次单粒度的3种交互和跨层次多粒度的3种交互,并将各种策略生成的句子表达向量拼接进行策略融合;同一层次单粒度的3种交互包括有句子内词粒度交互、句子间词粒度交互和句子间句粒度交互,跨层次多粒度的3种交互包括有词语与句子全交互、融合注意力的平均池化匹配和融合注意力的最大池化匹配。
句子内词粒度交互是指对句子本身的上下文向量之间进行注意力权重的计算,这种方法能捕捉到句子内的语义特征,突出每个词语在句子中的重要性,计算方法如公式(7)和(8)所示:
其中,分别为前提句子P本身的上下文向量,分别为假设句子H本身的上下文向量,fm表示匹配函数,用来度量向量之间的匹配度;表示假设句子H自身上下文向量之间注意力权重,表示前提句子P自身上下文向量之间注意力权重;
句子内词粒度交互的目的是量化每个词语在自身句子中的重要性m′i,计算方法如公式(9)和(10)所示:
其中,T为序列的长度;分别为每个时间步前提句子P和假设句子H中每个词语的注意力权重,和分别表示每个时间步前提句子P和假设句子H的上下文向量;
然后对前提句子P和假设句子H的表示向量进行计算,计算方法如公式(11)和(12)所示:
其中,表示加权操作的函数,和分别表示前提句子P和假设句子H每个词语的上下文向量,和表示前提句子P和假设句子H融合注意力权重的上下文向量;
最后再对这些上下文向量进行池化得到融合句子自身注意力权重的表示向量,如公式(13)和(14)所示:
其中,表示池化操作,vP和vH分别表示前提句子P和假设句子H的表示向量。
句子间词粒度交互就是将前提句子P和假设句子H所包含的上下文向量之间进行一一对齐,完成交叉注意力权重的计算,计算方法如公式(15)和(16)所示;基于句子的对齐是由两个序列模型构建的编码器-解码器框架,编码器对输入向量{x1,x2…,xn}进行编码得到中间的上下文向量c,解码器根据这个上下文向量c进行解码得到目标词汇,解码过程中考虑到每个输入元素对输出结果y1,y2,…yn的重要性是不相同的,在计算某个时刻输出yt时,都会有对应的上下文向量ct,该向量包含了输入序列向量{x1,x2…,xn}对当前输出的重要性权重分布,即注意力权重,其计算方法如公式(17)和(18)所示:
SP×H=(yP)T·(yH) (15),
其中,yP、yH为前提句子P和假设句子H在Bi-LSTM层的输出, 分别为前提句子P和假设句子H本身的任意一个上下文向量,sij为交叉注意力权重,是对齐矩阵SP×H的元素,M,N分别是句子P和H的长度,αi为句子P的上下文向量对的对齐,即的加权和,βj为句子H的上下文向量对的对齐,即的加权和,βj为句子H的上下文向量对的对齐,即的加权和;
融合注意力权重αi与βj后,计算前提句子P和假设句子H的表示向量vP和vH,其计算方法如公式(19)-(22)所示:
其中,T表示序列长度,和表示前提句子P和假设句子H融合注意力权重的上下文向量,vP和vH表示经过池化操作后融合前提句子P和假设句子H自身注意力权重的表示向量。
句子间句粒度交互就是直接对Bi-LSTM层建模后的两个句子表示向量作对应元素的匹配计算,仅保留最大的匹配结果,计算方法如公式(23)所示,利用最大池化筛选特征值:
y=(m)max-polling=max[yP⊙yH] (23);
其中,(m)max-polling表示最大池化匹配度。
词语与句子全交互就是将句子P的每一个上下文向量和句子H的表示向量作比较,计算方法如公式(24)-(26)所示,这种方法能够得到句子P中每个词语和句子H的语义相似性;
(mt)full=fm(yt P,yH) (24),
其中,fm为匹配函数,(mt)full为全交互匹配度,为句子P当前时刻上下文向量,为假设句子H当前时刻的表示向量,yH为经过池化操作后的上下文向量,vP表示前提句子P融合句子本身注意力权重mt的表示向量。
融合注意力的平均池化匹配即首先计算前提句子P和假设句子H中每一个上下文向量之间的匹配值s,如公式(27)所示:
其中,表示前提句子P的输入xi在Bi-LSTM层的输出,表示假设句子H的输入xj在Bi-LSTM层的输出,L表示序列长度,si,j为注意力权重;
随后利用s对假设句子H中的每个上下文向量做加权求平均操作,得到假设句子H的表示向量,再将前提句子P中的每个上下文向量与句子H的表示向量匹配,计算方法如公式(28)所示;
其中,表示假设句子H的输入xj在Bi-LSTM层的输出,T表示序列的长度,αi'表示假设句子H所有上下文向量加权取平均向量;
最后通过公式(29)-(31)比较前提句子P的上下文向量和这个平均值向量:
其中,(mt)attention为融合注意力的平均池化匹配度,为前提句子P当前时刻的上下文向量,表示前提句子P融合自身注意力权重mt的上下文向量,为前提句子P当前时刻的上下文向量,vP为前提句子P的表示向量。
融合注意力的最大池化匹配过程参考平均池化匹配,将平均变成了取最大计算公式,如公式(32)-(35)所示:
其中,表示假设句子H的输入xj在Bi-LSTM层的输出,si,j表示注意力权重,αi为假设句子H的所有上下文向量加权取最大向量,αt”为句子H的上下文向量,(mt)max-att为融合注意力的最大池化匹配度,为当前时刻前提句子P的上下文向量,表示前提句子P的任一上下文向量,(mt)max-att为融合注意力的最大池化匹配度,为前提句子P当前时刻融合自身权重的上下文向量,vP为前提句子P的表示向量。
句子匹配即对句子表示向量进行距离度量的计算,采用向量相减后对应元素相乘方法,计算方法如公式(36)所示:
fm(v1,v2)=(v1-v2)⊙(v1-v2) (36),
其中,v1,v2分别为前提句子P和假设句子H的表示向量。
实验结果及分析:
A、实验数据集及评价指标:
数据集:本文实验采用的是斯坦福大学发布的SNLI数据集,该数据集一共包含570,000的人工手写英文句子对,其中549367对用于训练数据,9842对用于验证数据,9824对用于测试数据,对测试数据每个句子对除了前提文本、假设文本、标签外还包含五个人工标注,数据集样例如表2所示。
对实验数据集进行了分析,发现训练集中包含“蕴含”标签句子有183187个,“中性”标签句子有182764个,“矛盾”标签数据有183187个;验证集中包含“蕴含”标签句子有3329个,“中性”标签句子有3235个,“矛盾”标签数据有3278个;测试集中“蕴含”标签句子有3368个,“中性”标签句子有3219个,“矛盾”标签数据有3237个,由此判断整个数据集的标签分布较均衡,因此实验过程中不需要考虑不同标签的权重。
评价指标:自然语言推理任务的评价指标是分类准确度,计算方法如公式(20)所示:
其中,|pairs|是句子对的数量,是表示模型对第i对样本的蕴含关系的预测标签,yi为真实标签;1[·]是指示函数,当判定条件为真时值为1,否则为0。
B、交互策略对比及分析:
在实验中采用300D GloVe来作为预训练词向量,且在训练的过程中词向量不予更新,采用Adam优化方法更新参数,设置单词的最大长度设为15,句子最大长度设为40,字符向量维度为20D,batch大小设为128,Bi-LSTM层维度为300,学习率设为0.0001。为了缓解模型过拟合问题,我们在模型输入输出处应用dropout,设dropout设为0.3,在损失函数中加入了一个l2正则项,应用Early stopping保持模型的泛化能力,设Early stopping为5。
我们将Bi-LSTM模型作为基准模型,通过对不同粒度交互策略的贡献度进行实验分析,可以发现不同粒度融合模型在训练过程中的表现优于Bi-LSTM模型。
针对交互策略,进行了详细的实验,对比分析不同策略下的性能,结果如下表所示:
交互策略对比实验结果表
由上表结果,我们可以得到如下结论:
(1)、无论是单粒度交互还是多粒度交互,不同粒度的交互策略融合都能够提升模型的表现。
(2)、在SNLI语料上单粒度策略融合模型准确率分别比句子内交互策略提高3.6%、比句子间交互策略提高2.4%,多粒度策略融合模型比词语-句子交互策略提高0.4%、比融合注意力的池化提高0.5%,说明句子间的交互信息对模型的提升效果大于句子内交互,且词语与句子的交互信息对句子推理最为重要。
(3)、整个组合模型准确率比单粒度策略融合模型提高1.8%,比多粒度策略融合准确率提高0.2%,说明本文提出的交互策略能有效提升模型表现效果。
C、模型性能分析:
将本发明与下面几种模型进行了对比:
LSTM模型:采用word-by-word方法进行前提句子和假设句子的匹配。
Tree-based CNN模型:采用基于树的卷积过程提取句子结构特征然后通过最大池化聚合并分类。
mLSTM+Attention模型:将对前提句子和假设句子建模的两个LSTM模型产生的注意力向量拼接,进行匹配后再预测。
可分解的注意力模型:对前提句子和假设句子的每一个单词对应匹配,结合神经网络和矩阵运算将两个文本的注意力机制求解问题分解为两个子问题。
Bi-MPM模型:对前提句子和假设句子分别编码,从两个方向P→H,H→P对其匹配。在匹配过程中,从多视野的角度,一个句子的每一步都与另一个句子的所有time-step对应匹配。最后用一个Bi-LSTM被用来集合所有匹配结果到一个固定长度的向量,连上一个全连接层得到匹配的结果。
模型对比实验结果表
来源 | 模型 | Acc(%) |
Bowman | LSTM模型 | 80.6 |
Mou | Tree-based CNN模型 | 82.1 |
Wang | mLSTM+Attention模型 | 86.1 |
Parikh | 可分解的注意力模型 | 86.8 |
Wang | Bi-MPM模型 | 86.9 |
本发明 | 多粒度句子交互模型 | 87.5 |
上表为不同模型的在SNLI语料上的实验结果,可以看出引入Attention机制的模型准确率比没有引入的要高,说明Attention机制的引入对模型的表现效果具有提升作用,在同时也可以看到本文模型的准确率达到了87.5%,优于同类最优模型。
综上所述,本发明引入了Attention机制捕获句子的局部特征,对不同特征计算概率分布,减小处理高维输入数据的计算负担,同时提高模型的预测质量;其次提出了多粒度不同层次的句子交互匹配方法,在句子建模过程中运用不同的交互策略,利用不同层次和不同粒度之间的信息交互获取丰富的语义信息,本发明在计算过程中会直接将句子中任意两个上下文向量、或两个层次的表示向量之间的关系通过一个计算步骤直接联系起来,所以序列中不同位置、不同粒度的特征之间的距离可以被极大地缩短,通过实验验证这种不同粒度不同层次融合方法要优于单粒度和多粒度交互方法。最后将本发明与其他优自然语言推理模型进行了实验比较,准确率达到87.5%,说明了本发明在最佳配置下的表现要优于同类其他最优模型。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.融合Attention机制的多粒度句子交互自然语言推理模型,其特征在于:包括有依次连接的输入层、编码层、交互层和分类层;所述的输入层首先对前提句子P和假设句子H独立进行编码,将句子中的每个单词表示为d维向量;所述的编码层利用Bi-LSTM模型融合Attention机制对输入的单词序列逐个进行编码生成句子表示向量,但保留每个隐藏层单元输出的上下文向量,将上下文信息融合到前提句子P和假设句子H每个时间步的表示中;所述的交互层比较前提句子P和假设句子H每个时间步的上下文向量和所有向量,为了比较前提句子P和假设句子H的上下文向量,设计多粒度、不同层次的交互匹配方法,在句子编码过程中进行文本语义对齐,利用不同的交互策略,得到融合注意力权重上下文向量,结合最大池化和平均池化的方法进行句子匹配生成新的表示向量;所述的分类层包括有顺次连接的多层感知器和Softmax分类器,交互层输出的匹配向量传入多层感知器进行聚合处理后传至Softmax分类器,使用Softmax函数为激活函数,输出前提句子P和假设句子H之间关系的分类结果,标签即蕴含、中性和矛盾;
所述的多粒度句子交互自然语言推理模型的目标函数如公式(1)所示,即最小化预测标签分布和实际标签y分布的交叉熵,其中N为样本数量,C表示标签类别;
2.根据权利要求1所述的融合Attention机制的多粒度句子交互自然语言推理模型,其特征在于:所述的编码层利用Bi-LSTM模型融合Attention机制对输入的单词序列逐个进行编码生成句子表示向量的具体步骤为:Attention机制为输入d维特征向量计算一个注意力分布,对不同的特征向量赋予不同权重,从而实现注意力的分配,计算方法如公式(2)-(6)所示:
yt=G(yt-1,st,ct) (2),
st=f(st-1,yt-1,ct) (3),
etj=f(st-1,hj) (6),
其中,yt为当前时刻t输出的上下文向量,yt-1为上一时刻t-1输出的上下文向量,st为当前时刻t隐藏层状态,st-1为上一时刻t-1隐藏层状态,hj为输入中单个隐藏状态,ct为注意力得分,f,G为激活函数,etj是输入xj对输出yt的注意力得分,αtj是对注意力得分进行归一化之后的注意力概率,L为序列的长度;
Bi-LSTM模型通过注意力权重的计算,最终得到是参数对历史隐藏层状态加权求和的结果向量,即句子表示向量。
3.根据权利要求1所述的融合Attention机制的多粒度句子交互自然语言推理模型,其特征在于:所述的交互层进行句子匹配工作,句子匹配是指比较两个句子并判断句子间关系,其主要工作是聚合前提句子和假设句子之间的组合特征,具体包括有6种交互策略,分别是同一层次单粒度的3种交互和跨层次多粒度的3种交互,并将各种策略生成的句子表达向量拼接进行策略融合;所述的同一层次单粒度的3种交互包括有句子内词粒度交互、句子间词粒度交互和句子间句粒度交互,所述的跨层次多粒度的3种交互包括有词语与句子全交互、融合注意力的平均池化匹配和融合注意力的最大池化匹配。
4.根据权利要求3所述的融合Attention机制的多粒度句子交互自然语言推理模型,其特征在于:所述的句子内词粒度交互是指对句子本身的上下文向量之间进行注意力权重的计算,这种方法能捕捉到句子内的语义特征,突出每个词语在句子中的重要性,计算方法如公式(7)和(8)所示:
其中,分别为前提句子P本身的上下文向量,分别为假设句子H本身的上下文向量,fm表示匹配函数,用来度量向量之间的匹配度;表示假设句子H自身上下文向量之间注意力权重,表示前提句子P自身上下文向量之间注意力权重;
句子内词粒度交互的目的是量化每个词语在自身句子中的重要性m′i,计算方法如公式(9)和(10)所示:
其中,T为序列的长度;分别为每个时间步前提句子P和假设句子H中每个词语的注意力权重,和分别表示每个时间步前提句子P和假设句子H的上下文向量;
然后对前提句子P和假设句子H的表示向量进行计算,计算方法如公式(11)和(12)所示:
其中,F表示加权操作的函数,和分别表示前提句子P和假设句子H每个词语的上下文向量,和表示前提句子P和假设句子H融合注意力权重的上下文向量;
最后再对这些上下文向量进行池化得到融合句子自身注意力权重的表示向量,如公式(13)和(14)所示:
其中,表示池化操作,vP和vH分别表示前提句子P和假设句子H的表示向量。
5.根据权利要求3所述的融合Attention机制的多粒度句子交互自然语言推理模型,其特征在于:所述的句子间词粒度交互就是将前提句子P和假设句子H所包含的上下文向量之间进行一一对齐,完成交叉注意力权重的计算,计算方法如公式(15)和(16)所示;基于句子的对齐是由两个序列模型构建的编码器-解码器框架,编码器对输入向量{x1,x2…,xn}进行编码得到中间的上下文向量c,解码器根据这个上下文向量c进行解码得到目标词汇,解码过程中考虑到每个输入元素对输出结果y1,y2,…yn的重要性是不相同的,在计算某个时刻输出yt时,都会有对应的上下文向量ct,该向量包含了输入序列向量{x1,x2…,xn}对当前输出的重要性权重分布,即注意力权重,其计算方法如公式(17)和(18)所示:
SP×H=(yP)T·(yH) (15),
其中,yP、yH为前提句子P和假设句子H在Bi-LSTM层的输出, 分别为前提句子P和假设句子H本身的任意一个上下文向量,sij为交叉注意力权重,是对齐矩阵SP×H的元素,M,N分别是句子P和H的长度,αi为句子P的上下文向量对的对齐,即的加权和,βj为句子H的上下文向量对的对齐,即的加权和,βj为句子H的上下文向量对的对齐,即的加权和;
融合注意力权重αi与βj后,计算前提句子P和假设句子H的表示向量vP和vH,其计算方法如公式(19)-(22)所示:
其中,T表示序列长度,和表示前提句子P和假设句子H融合注意力权重的上下文向量,vP和vH表示经过池化操作后融合前提句子P和假设句子H自身注意力权重的表示向量。
6.根据权利要求3所述的融合Attention机制的多粒度句子交互自然语言推理模型,其特征在于:所述的句子间句粒度交互就是直接对Bi-LSTM层建模后的两个句子表示向量作对应元素的匹配计算,仅保留最大的匹配结果,计算方法如公式(23)所示,利用最大池化筛选特征值:
y=(m)max-polling=max[yP⊙yH] (23);
其中,(m)max-polling表示最大池化匹配度。
7.根据权利要求3所述的融合Attention机制的多粒度句子交互自然语言推理模型,其特征在于:所述的词语与句子全交互就是将句子P的每一个上下文向量和句子H的表示向量作比较,计算方法如公式(24)-(26)所示,这种方法能够得到句子P中每个词语和句子H的语义相似性;
其中,fm为匹配函数,(mt)full为全交互匹配度,为句子P当前时刻上下文向量,为假设句子H当前时刻的表示向量,yH为经过池化操作后的上下文向量,vP表示前提句子P融合句子本身注意力权重mt的表示向量。
8.根据权利要求3所述的融合Attention机制的多粒度句子交互自然语言推理模型,其特征在于:所述的融合注意力的平均池化匹配即首先计算前提句子P和假设句子H中每一个上下文向量之间的匹配值s,如公式(27)所示:
其中,表示前提句子P的输入xi在Bi-LSTM层的输出,表示假设句子H的输入xj在Bi-LSTM层的输出,L表示序列长度,si,j为注意力权重;
随后利用s对假设句子H中的每个上下文向量做加权求平均操作,得到假设句子H的表示向量,再将前提句子P中的每个上下文向量与句子H的表示向量匹配,计算方法如公式(28)所示;
其中,表示假设句子H的输入xj在Bi-LSTM层的输出,T表示序列的长度,αi'表示假设句子H所有上下文向量加权取平均向量;
最后通过公式(29)-(31)比较前提句子P的上下文向量和这个平均值向量:
其中,(mt)attention为融合注意力的平均池化匹配度,为前提句子P当前时刻的上下文向量,表示前提句子P融合自身注意力权重mt的上下文向量,为前提句子P当前时刻的上下文向量,vp为前提句子P的表示向量。
9.根据权利要求3所述的融合Attention机制的多粒度句子交互自然语言推理模型,其特征在于:所述的融合注意力的最大池化匹配过程参考平均池化匹配,将平均变成了取最大计算公式,如公式(32)-(35)所示:
其中,表示假设句子H的输入xj在Bi-LSTM层的输出,si,j表示注意力权重,αi为假设句子H的所有上下文向量加权取最大向量,αt”为句子H的上下文向量,(mt)max-att为融合注意力的最大池化匹配度,为当前时刻前提句子P的上下文向量,表示前提句子P的任一上下文向量,(mt)max-att为融合注意力的最大池化匹配度,为前提句子P当前时刻融合自身权重的上下文向量,vp为前提句子P的表示向量。
10.根据权利要求3所述的融合Attention机制的多粒度句子交互自然语言推理模型,其特征在于:所述的句子匹配即对句子表示向量进行距离度量的计算,采用向量相减后对应元素相乘方法,计算方法如公式(36)所示:
fm(v1,v2)=(v1-v2)⊙(v1-v2) (36),
其中,v1,v2分别为前提句子P和假设句子H的表示向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910113631.7A CN109858032A (zh) | 2019-02-14 | 2019-02-14 | 融合Attention机制的多粒度句子交互自然语言推理模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910113631.7A CN109858032A (zh) | 2019-02-14 | 2019-02-14 | 融合Attention机制的多粒度句子交互自然语言推理模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109858032A true CN109858032A (zh) | 2019-06-07 |
Family
ID=66897830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910113631.7A Pending CN109858032A (zh) | 2019-02-14 | 2019-02-14 | 融合Attention机制的多粒度句子交互自然语言推理模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109858032A (zh) |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298037A (zh) * | 2019-06-13 | 2019-10-01 | 同济大学 | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 |
CN110390107A (zh) * | 2019-07-26 | 2019-10-29 | 腾讯科技(深圳)有限公司 | 基于人工智能的下文关系检测方法、装置及计算机设备 |
CN110390397A (zh) * | 2019-06-13 | 2019-10-29 | 成都信息工程大学 | 一种文本蕴含识别方法及装置 |
CN110457480A (zh) * | 2019-08-16 | 2019-11-15 | 国网天津市电力公司 | 基于交互式注意力机制的细粒度情感分类模型的构建方法 |
CN110472238A (zh) * | 2019-07-25 | 2019-11-19 | 昆明理工大学 | 基于层级交互注意力的文本摘要方法 |
CN110516065A (zh) * | 2019-07-12 | 2019-11-29 | 杭州电子科技大学 | 一种基于多路动态掩码的注意力神经网络的方法 |
CN110618980A (zh) * | 2019-09-09 | 2019-12-27 | 上海交通大学 | 基于法律文本精确匹配和矛盾检测的系统及方法 |
CN110826338A (zh) * | 2019-10-28 | 2020-02-21 | 桂林电子科技大学 | 一种单选择门与类间度量的细粒度语义相似识别的方法 |
CN111008529A (zh) * | 2019-07-24 | 2020-04-14 | 贵州大学 | 一种基于神经网络的中文关系抽取方法 |
CN111078833A (zh) * | 2019-12-03 | 2020-04-28 | 哈尔滨工程大学 | 一种基于神经网络的文本分类方法 |
CN111325000A (zh) * | 2020-01-23 | 2020-06-23 | 北京百度网讯科技有限公司 | 语言生成方法、装置及电子设备 |
CN111475620A (zh) * | 2020-04-03 | 2020-07-31 | 南京邮电大学 | 一种面向智能问答系统的自然语言推理方法 |
CN111581986A (zh) * | 2020-05-13 | 2020-08-25 | 识因智能科技(北京)有限公司 | 一种基于动态推敲网络的自然语言生成方法 |
CN111581392A (zh) * | 2020-04-28 | 2020-08-25 | 电子科技大学 | 一种基于语句通顺度的自动作文评分计算方法 |
CN111680136A (zh) * | 2020-04-28 | 2020-09-18 | 平安科技(深圳)有限公司 | 一种口语语义匹配的方法及装置 |
CN111737466A (zh) * | 2020-06-18 | 2020-10-02 | 中国科学院计算技术研究所 | 一种用于深度神经网络交互信息量化的方法 |
CN111858893A (zh) * | 2020-07-27 | 2020-10-30 | 平安科技(深圳)有限公司 | 句子对匹配方法、装置和计算机设备和存储介质 |
CN112052673A (zh) * | 2020-08-28 | 2020-12-08 | 丰图科技(深圳)有限公司 | 物流网点识别方法、装置、计算机设备和存储介质 |
CN112232087A (zh) * | 2020-10-20 | 2021-01-15 | 中国民航大学 | 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 |
CN112328784A (zh) * | 2019-08-05 | 2021-02-05 | 上海智臻智能网络科技股份有限公司 | 数据信息分类方法及装置 |
CN112364652A (zh) * | 2020-10-27 | 2021-02-12 | 齐鲁工业大学 | 基于多通道卷积的文本实体关系抽取方法及系统 |
CN112463924A (zh) * | 2020-11-27 | 2021-03-09 | 齐鲁工业大学 | 面向智能问答基于内部相关性编码的文本意图匹配方法 |
CN112463923A (zh) * | 2020-11-25 | 2021-03-09 | 平安科技(深圳)有限公司 | 用户欺诈行为检测方法、装置、设备及存储介质 |
CN112541364A (zh) * | 2020-12-03 | 2021-03-23 | 昆明理工大学 | 融合多层次语言特征知识的汉越神经机器翻译的方法 |
CN112749566A (zh) * | 2019-10-31 | 2021-05-04 | 兰雨晴 | 一种面向英文写作辅助的语义匹配方法及装置 |
CN112966527A (zh) * | 2021-04-21 | 2021-06-15 | 吉林大学 | 一种基于自然语言推理的关系抽取模型 |
CN113065359A (zh) * | 2021-04-07 | 2021-07-02 | 齐鲁工业大学 | 面向智能交互的句子对语义匹配方法和装置 |
CN113836923A (zh) * | 2021-08-27 | 2021-12-24 | 山西清众科技股份有限公司 | 一种基于多级上下文特征提取的命名实体识别方法 |
CN114064967A (zh) * | 2022-01-18 | 2022-02-18 | 之江实验室 | 多粒度级联交互网络的跨模态时序行为定位方法及装置 |
CN114492451A (zh) * | 2021-12-22 | 2022-05-13 | 马上消费金融股份有限公司 | 文本匹配方法、装置、电子设备及计算机可读存储介质 |
CN116383491A (zh) * | 2023-03-21 | 2023-07-04 | 北京百度网讯科技有限公司 | 信息推荐方法、装置、设备、存储介质和程序产品 |
CN116663523A (zh) * | 2023-05-19 | 2023-08-29 | 杭州众章数据科技有限公司 | 多角度增强网络的语义文本相似度计算方法 |
CN116383491B (zh) * | 2023-03-21 | 2024-05-24 | 北京百度网讯科技有限公司 | 信息推荐方法、装置、设备、存储介质和程序产品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578106A (zh) * | 2017-09-18 | 2018-01-12 | 中国科学技术大学 | 一种融合单词语义知识的神经网络自然语言推理方法 |
CN109214001A (zh) * | 2018-08-23 | 2019-01-15 | 桂林电子科技大学 | 一种中文语义匹配系统及方法 |
CN109299262A (zh) * | 2018-10-09 | 2019-02-01 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
-
2019
- 2019-02-14 CN CN201910113631.7A patent/CN109858032A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578106A (zh) * | 2017-09-18 | 2018-01-12 | 中国科学技术大学 | 一种融合单词语义知识的神经网络自然语言推理方法 |
CN109214001A (zh) * | 2018-08-23 | 2019-01-15 | 桂林电子科技大学 | 一种中文语义匹配系统及方法 |
CN109299262A (zh) * | 2018-10-09 | 2019-02-01 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
Non-Patent Citations (1)
Title |
---|
SEONHOON KIM等: "Semantic Sentence Matching with Densely-connected Recurrent and Co-attentive Information", 《ARXIV》 * |
Cited By (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390397A (zh) * | 2019-06-13 | 2019-10-29 | 成都信息工程大学 | 一种文本蕴含识别方法及装置 |
CN110298037B (zh) * | 2019-06-13 | 2023-08-04 | 同济大学 | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 |
CN110298037A (zh) * | 2019-06-13 | 2019-10-01 | 同济大学 | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 |
CN110516065A (zh) * | 2019-07-12 | 2019-11-29 | 杭州电子科技大学 | 一种基于多路动态掩码的注意力神经网络的方法 |
CN111008529B (zh) * | 2019-07-24 | 2023-07-21 | 贵州大学 | 一种基于神经网络的中文关系抽取方法 |
CN111008529A (zh) * | 2019-07-24 | 2020-04-14 | 贵州大学 | 一种基于神经网络的中文关系抽取方法 |
CN110472238A (zh) * | 2019-07-25 | 2019-11-19 | 昆明理工大学 | 基于层级交互注意力的文本摘要方法 |
CN110472238B (zh) * | 2019-07-25 | 2022-11-18 | 昆明理工大学 | 基于层级交互注意力的文本摘要方法 |
CN110390107A (zh) * | 2019-07-26 | 2019-10-29 | 腾讯科技(深圳)有限公司 | 基于人工智能的下文关系检测方法、装置及计算机设备 |
CN112328784A (zh) * | 2019-08-05 | 2021-02-05 | 上海智臻智能网络科技股份有限公司 | 数据信息分类方法及装置 |
CN112328784B (zh) * | 2019-08-05 | 2023-04-18 | 上海智臻智能网络科技股份有限公司 | 数据信息分类方法及装置 |
CN110457480A (zh) * | 2019-08-16 | 2019-11-15 | 国网天津市电力公司 | 基于交互式注意力机制的细粒度情感分类模型的构建方法 |
CN110457480B (zh) * | 2019-08-16 | 2023-07-28 | 国网天津市电力公司 | 基于交互式注意力机制的细粒度情感分类模型的构建方法 |
CN110618980A (zh) * | 2019-09-09 | 2019-12-27 | 上海交通大学 | 基于法律文本精确匹配和矛盾检测的系统及方法 |
CN110826338A (zh) * | 2019-10-28 | 2020-02-21 | 桂林电子科技大学 | 一种单选择门与类间度量的细粒度语义相似识别的方法 |
CN110826338B (zh) * | 2019-10-28 | 2022-06-17 | 桂林电子科技大学 | 一种单选择门与类间度量的细粒度语义相似识别的方法 |
CN112749566A (zh) * | 2019-10-31 | 2021-05-04 | 兰雨晴 | 一种面向英文写作辅助的语义匹配方法及装置 |
CN112749566B (zh) * | 2019-10-31 | 2024-05-03 | 兰雨晴 | 一种面向英文写作辅助的语义匹配方法及装置 |
CN111078833B (zh) * | 2019-12-03 | 2022-05-20 | 哈尔滨工程大学 | 一种基于神经网络的文本分类方法 |
CN111078833A (zh) * | 2019-12-03 | 2020-04-28 | 哈尔滨工程大学 | 一种基于神经网络的文本分类方法 |
US11562150B2 (en) | 2020-01-23 | 2023-01-24 | Beijing Baidu Netcom Science Technology Co., Ltd. | Language generation method and apparatus, electronic device and storage medium |
CN111325000B (zh) * | 2020-01-23 | 2021-01-26 | 北京百度网讯科技有限公司 | 语言生成方法、装置及电子设备 |
CN111325000A (zh) * | 2020-01-23 | 2020-06-23 | 北京百度网讯科技有限公司 | 语言生成方法、装置及电子设备 |
CN111475620A (zh) * | 2020-04-03 | 2020-07-31 | 南京邮电大学 | 一种面向智能问答系统的自然语言推理方法 |
CN111581392A (zh) * | 2020-04-28 | 2020-08-25 | 电子科技大学 | 一种基于语句通顺度的自动作文评分计算方法 |
CN111680136A (zh) * | 2020-04-28 | 2020-09-18 | 平安科技(深圳)有限公司 | 一种口语语义匹配的方法及装置 |
CN111581392B (zh) * | 2020-04-28 | 2022-07-05 | 电子科技大学 | 一种基于语句通顺度的自动作文评分计算方法 |
CN111680136B (zh) * | 2020-04-28 | 2023-08-25 | 平安科技(深圳)有限公司 | 一种口语语义匹配的方法及装置 |
CN111581986A (zh) * | 2020-05-13 | 2020-08-25 | 识因智能科技(北京)有限公司 | 一种基于动态推敲网络的自然语言生成方法 |
CN111737466B (zh) * | 2020-06-18 | 2022-11-29 | 中国科学院计算技术研究所 | 一种用于深度神经网络交互信息量化的方法 |
CN111737466A (zh) * | 2020-06-18 | 2020-10-02 | 中国科学院计算技术研究所 | 一种用于深度神经网络交互信息量化的方法 |
CN111858893A (zh) * | 2020-07-27 | 2020-10-30 | 平安科技(深圳)有限公司 | 句子对匹配方法、装置和计算机设备和存储介质 |
CN111858893B (zh) * | 2020-07-27 | 2022-06-03 | 平安科技(深圳)有限公司 | 句子对匹配方法、装置和计算机设备和存储介质 |
CN112052673A (zh) * | 2020-08-28 | 2020-12-08 | 丰图科技(深圳)有限公司 | 物流网点识别方法、装置、计算机设备和存储介质 |
CN112232087A (zh) * | 2020-10-20 | 2021-01-15 | 中国民航大学 | 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 |
CN112232087B (zh) * | 2020-10-20 | 2022-09-02 | 中国民航大学 | 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 |
CN112364652A (zh) * | 2020-10-27 | 2021-02-12 | 齐鲁工业大学 | 基于多通道卷积的文本实体关系抽取方法及系统 |
CN112463923A (zh) * | 2020-11-25 | 2021-03-09 | 平安科技(深圳)有限公司 | 用户欺诈行为检测方法、装置、设备及存储介质 |
CN112463923B (zh) * | 2020-11-25 | 2023-04-28 | 平安科技(深圳)有限公司 | 用户欺诈行为检测方法、装置、设备及存储介质 |
CN112463924A (zh) * | 2020-11-27 | 2021-03-09 | 齐鲁工业大学 | 面向智能问答基于内部相关性编码的文本意图匹配方法 |
CN112463924B (zh) * | 2020-11-27 | 2022-07-05 | 齐鲁工业大学 | 面向智能问答基于内部相关性编码的文本意图匹配方法 |
CN112541364A (zh) * | 2020-12-03 | 2021-03-23 | 昆明理工大学 | 融合多层次语言特征知识的汉越神经机器翻译的方法 |
CN113065359A (zh) * | 2021-04-07 | 2021-07-02 | 齐鲁工业大学 | 面向智能交互的句子对语义匹配方法和装置 |
CN113065359B (zh) * | 2021-04-07 | 2022-05-24 | 齐鲁工业大学 | 面向智能交互的句子对语义匹配方法和装置 |
CN112966527A (zh) * | 2021-04-21 | 2021-06-15 | 吉林大学 | 一种基于自然语言推理的关系抽取模型 |
CN113836923B (zh) * | 2021-08-27 | 2023-06-27 | 山西清众科技股份有限公司 | 一种基于多级上下文特征提取的命名实体识别方法 |
CN113836923A (zh) * | 2021-08-27 | 2021-12-24 | 山西清众科技股份有限公司 | 一种基于多级上下文特征提取的命名实体识别方法 |
CN114492451B (zh) * | 2021-12-22 | 2023-10-24 | 马上消费金融股份有限公司 | 文本匹配方法、装置、电子设备及计算机可读存储介质 |
CN114492451A (zh) * | 2021-12-22 | 2022-05-13 | 马上消费金融股份有限公司 | 文本匹配方法、装置、电子设备及计算机可读存储介质 |
CN114064967B (zh) * | 2022-01-18 | 2022-05-06 | 之江实验室 | 多粒度级联交互网络的跨模态时序行为定位方法及装置 |
CN114064967A (zh) * | 2022-01-18 | 2022-02-18 | 之江实验室 | 多粒度级联交互网络的跨模态时序行为定位方法及装置 |
CN116383491A (zh) * | 2023-03-21 | 2023-07-04 | 北京百度网讯科技有限公司 | 信息推荐方法、装置、设备、存储介质和程序产品 |
CN116383491B (zh) * | 2023-03-21 | 2024-05-24 | 北京百度网讯科技有限公司 | 信息推荐方法、装置、设备、存储介质和程序产品 |
CN116663523A (zh) * | 2023-05-19 | 2023-08-29 | 杭州众章数据科技有限公司 | 多角度增强网络的语义文本相似度计算方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109858032A (zh) | 融合Attention机制的多粒度句子交互自然语言推理模型 | |
CN109299262B (zh) | 一种融合多粒度信息的文本蕴含关系识别方法 | |
Hu et al. | Learning structured inference neural networks with label relations | |
CN108681539B (zh) | 一种基于卷积神经网络的蒙汉神经翻译方法 | |
CN110298037A (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN109241536A (zh) | 一种基于深度学习自注意力机制的句子排序方法 | |
CN109800411A (zh) | 临床医疗实体及其属性抽取方法 | |
CN109670177A (zh) | 一种基于lstm实现医学语义归一化的控制方法及控制装置 | |
CN107578106A (zh) | 一种融合单词语义知识的神经网络自然语言推理方法 | |
CN110134946A (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN110321563A (zh) | 基于混合监督模型的文本情感分析方法 | |
CN109994201B (zh) | 一种基于深度学习的糖尿病与高血压概率计算系统 | |
CN106778882A (zh) | 一种基于前馈神经网络的智能合约自动分类方法 | |
CN112732921B (zh) | 一种虚假用户评论检测方法及系统 | |
CN110532558A (zh) | 一种基于句子结构深层解析的多意图识别方法及系统 | |
CN113220891B (zh) | 基于无监督的概念到句子的生成对抗网络图像描述方法 | |
CN110188195A (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN110347819A (zh) | 一种基于正负样本对抗训练的文本摘要生成方法 | |
CN105404865A (zh) | 基于概率态受限玻尔兹曼机级联的人脸检测方法 | |
CN110009025A (zh) | 一种用于语音测谎的半监督加性噪声自编码器 | |
CN108920446A (zh) | 一种工程文本的处理方法 | |
CN110852181A (zh) | 基于注意力机制卷积神经网络钢琴乐谱难度识别方法 | |
CN114841151A (zh) | 基于分解-重组策略的医学文本实体关系联合抽取方法 | |
Yong et al. | A new emotion analysis fusion and complementary model based on online food reviews | |
CN113869055A (zh) | 基于深度学习的电网项目特征属性识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190607 |
|
RJ01 | Rejection of invention patent application after publication |