CN109858032A

CN109858032A - 融合Attention机制的多粒度句子交互自然语言推理模型

Info

Publication number: CN109858032A
Application number: CN201910113631.7A
Authority: CN
Inventors: 程淑玉; 钱政; 刘威
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-02-14
Filing date: 2019-02-14
Publication date: 2019-06-07

Abstract

本发明公开了一种融合Attention机制的多粒度句子交互自然语言推理模型，本发明首先获取句子的全局特征，融合注意力机制提取句子的局部特征，其次在对句子进行编码的过程中，采用不同的交互策略对输出的上下文向量进行多样性匹配，通过最大池化、加权平均池化等操作,完成句子对的建模，其中最大池化仅保留给定范围的最大特征值，有助于强化重要语义；平均池化是对给定范围的所有值取平均，全面考虑每个方面的局部信息，避免信息丢失；最后整合句子间的匹配向量进行蕴含关系的预测；这种方法能够捕捉两个句子之间的多样性交互特征，减小句子损失，侧重关注前提文本到假设文本之间的正向蕴含关系的识别，提高模型预测质量。

Description

融合Attention机制的多粒度句子交互自然语言推理模型

技术领域

本发明涉及自然语言推理领域，具体是一种融合Attention机制的多粒度句子交互自然语言推理模型。

背景技术

近来年，随着自然语言处理技术的发展，人们开始研究让机器理解人类自然语言的方法，希望计算机不仅能够快速获取并处理语言中的表层信息,更能实现对文本的深层次“理解”。在自然语言“理解”过程中重要的一部分就是对语义的推理，通过语义推理能够让计算机判断出句子之间的逻辑关系。

自然语言推理(NLI)定义为句子对之间的有向推理关系，是自然语言处理领域一项基础性工作，其基本任务是判断由前提句子(P)的语义是否能推断出假设句子(H)的语义，如果句子H的语义能从句子P的语义中推断出来，则句子对P与H之间是蕴含关系，如表1所示。

表1.自然语言推理任务样本

传统自然语言推理方法主要依赖人工的文本特征，结合机器学习方法对特征向量进行分类；基于深度学习的方法主要在深度网络中，通过将句子映射到向量空间的方式，使句子特征的计算和句子特征之间的关联性更容易被挖掘，从而能够很好的学习句子特征，包括序列学习、句子的表示学习和句子匹配等相关工作。

句子匹配主要任务是聚合前提句子和假设句子之间的组合特征，传统方法都是针对两个句子进行向量间匹配，或先对两个句子之间的词语或者上下文向量做匹配，匹配结果通过一个神经网络聚集为一个向量后再做匹配,也有引入注意力机制加以考虑，现阶段都取得了不错的效果，但是还存在以下问题：(1)基于词语级别或者句子级别的匹配都是单粒度同层次的匹配，这种匹配方式只关注捕捉句子自身的语义信息，忽略了句子之间的组合信息和交互特征，造成句义损失，不能有力的辨别句子对的蕴含关系。(2)一般的序列输入方式捕捉的是句子的全局特征分布，没有兼顾到句子局部特征的定位，导致句子语义信息不足，且基于文本相似度的方法容易丢失语义信息，降低模型的质量。

传统的自然语言推理方法有基于词袋模型、基于WordNet词典、基于FrameNet框架，基于句法树，这些方法都是基于特征分类的方法，对句子自身包含的语义研究并不多，而且基于文本相似度方法不具备推理性，“相似蕴含”，因此无法捕捉深层的句子含义。随着Word2Vec(2013)和GloVe(2014)模型为代表的基于深度学习的词向量的兴起掀开了基于深度学习的自然语言推理研究浪潮。Bowman[2]等人提出了LSTM模型，首先尝试使用基于句子编码的深度学习方法和基于词语级别的分类器方法来解决自然语言处理问题，验证了深度学习在自然语言推理上的有效性，但是在输入长句时，编码成的中间向量的信息损失也加大，生成的句子精确率也随之降低。Attention方法有效的缓解了上述问题，[13]等人提出了word-by-word Attention模型，该模型分别用两个LSTM来学习前提句子和假设句子，通过在编码前提句子时考虑假设句子中每个词的信息，将假设句子中每个词与前提句子中的词产生对应的软对齐，获得假设句子中每个词对应的前提句子中的上下文信息，这种方法能缓解长句信息损失，其本质还是通过两个句子向量匹配来推断蕴含关系，无法匹配到细粒度的词语匹配关系，对中立关系的识别不是很好。为了更好的推断句子间词和短语级别的匹配情况，Wang等人[14]提出mLSTM模型，该模型对前提文本和假设文本建模的两个LSTM模型产生的注意力向量拼接，进行匹配后再预测，这个方法可以很好的识别词和短语的匹配情况，是无法兼顾句子的全局特征的分布与局部特征的定位。Liu等人提出使用双向的LSTM模型(Bi-LSTM)有利于提取句子的全局信息而不受句子语序影响，同时融合“Inner-Attention”机制,利用句子本身的表示来进行指导Attention，进一步提升了模型的识别效果，但是没有考虑句子间的组合特征。Wang等人的Bi-MPM模型提出了对句子匹配工作进行多视角的计算方法，从多个视角去提取句子的特征，通过对给定的两个句子分别编码，从多个方向进行匹配，能够充分提取句子的语义信息。

发明内容

本发明要解决的技术问题是提供一种融合Attention机制的多粒度句子交互自然语言推理模型，通过不同粒度、不同层次的句子交互，捕捉句子间的组合特征，减小句义信息损失，利用深度神经网络模型(Bi-LSTM)对句子蕴含关系进行分类，提高蕴含关系识别准确度。

本发明的技术方案为：

融合Attention机制的多粒度句子交互自然语言推理模型，包括有依次连接的输入层、编码层、交互层和分类层；所述的输入层首先对前提句子P和假设句子H独立进行编码，将句子中的每个单词表示为d维向量；所述的编码层利用Bi-LSTM模型融合Attention机制对输入的单词序列逐个进行编码生成句子表示向量，但保留每个隐藏层单元输出的上下文向量，将上下文信息融合到前提句子P和假设句子H每个时间步的表示中；所述的交互层比较前提句子P和假设句子H每个时间步的上下文向量和所有向量，为了比较前提句子P和假设句子H的上下文向量，设计多粒度、不同层次的交互匹配方法，在句子编码过程中进行文本语义对齐，利用不同的交互策略，得到融合注意力权重上下文向量，结合最大池化和平均池化的方法进行句子匹配生成新的表示向量；所述的分类层包括有顺次连接的多层感知器和Softmax分类器，交互层输出的匹配向量传入多层感知器进行聚合处理后传至Softmax分类器，使用Softmax函数为激活函数，输出前提句子P和假设句子H之间关系的分类结果，标签即蕴含、中性和矛盾；

所述的多粒度句子交互自然语言推理模型的目标函数如公式(1)所示，即最小化预测标签分布和实际标签y分布的交叉熵，其中N为样本数量，C表示标签类别；

所述的编码层利用Bi-LSTM模型融合Attention机制对输入的单词序列逐个进行编码生成句子表示向量的具体步骤为：Attention机制为输入d维特征向量计算一个注意力分布，对不同的特征向量赋予不同权重，从而实现注意力的分配，计算方法如公式(2)-(6)所示:

y_t＝G(y_t-1,s_t,c_t) (2)，

s_t＝f(s_t-1,y_t-1,c_t) (3)，

e_tj＝f(s_t-1,h_j) (6)，

其中,y_t为当前时刻t输出的上下文向量，y_t-1为上一时刻t-1输出的上下文向量，s_t为当前时刻t隐藏层状态，s_t-1为上一时刻t-1隐藏层状态，h_j为输入中单个隐藏状态，c_t为注意力得分，f，G为激活函数，e_tj是输入x_j对输出y_t的注意力得分，α_tj是对注意力得分进行归一化之后的注意力概率，L为序列的长度；

Bi-LSTM模型通过注意力权重的计算，最终得到是参数对历史隐藏层状态加权求和的结果向量，即句子表示向量。

所述的交互层进行句子匹配工作，句子匹配是指比较两个句子并判断句子间关系，其主要工作是聚合前提句子和假设句子之间的组合特征，具体包括有6种交互策略，分别是同一层次单粒度的3种交互和跨层次多粒度的3种交互，并将各种策略生成的句子表达向量拼接进行策略融合；所述的同一层次单粒度的3种交互包括有句子内词粒度交互、句子间词粒度交互和句子间句粒度交互，所述的跨层次多粒度的3种交互包括有词语与句子全交互、融合注意力的平均池化匹配和融合注意力的最大池化匹配。

所述的句子内词粒度交互是指对句子本身的上下文向量之间进行注意力权重的计算，这种方法能捕捉到句子内的语义特征，突出每个词语在句子中的重要性，计算方法如公式(7)和(8)所示：

其中，分别为前提句子P本身的上下文向量，分别为假设句子H本身的上下文向量，f_m表示匹配函数，用来度量向量之间的匹配度；表示假设句子H自身上下文向量之间注意力权重，表示前提句子P自身上下文向量之间注意力权重；

句子内词粒度交互的目的是量化每个词语在自身句子中的重要性m′_i，计算方法如公式(9)和(10)所示：

其中，T为序列的长度；分别为每个时间步前提句子P和假设句子H中每个词语的注意力权重，和分别表示每个时间步前提句子P和假设句子H的上下文向量；

然后对前提句子P和假设句子H的表示向量进行计算，计算方法如公式(11)和(12)所示：

其中，表示加权操作的函数，和分别表示前提句子P和假设句子H每个词语的上下文向量，和表示前提句子P和假设句子H融合注意力权重的上下文向量；

最后再对这些上下文向量进行池化得到融合句子自身注意力权重的表示向量，如公式(13)和(14)所示：

其中，表示池化操作，v^P和v^H分别表示前提句子P和假设句子H的表示向量。

所述的句子间词粒度交互就是将前提句子P和假设句子H所包含的上下文向量之间进行一一对齐，完成交叉注意力权重的计算，计算方法如公式(15)和(16)所示；基于句子的对齐是由两个序列模型构建的编码器-解码器框架，编码器对输入向量{x₁,x₂…,x_n}进行编码得到中间的上下文向量c，解码器根据这个上下文向量c进行解码得到目标词汇，解码过程中考虑到每个输入元素对输出结果y₁,y₂,…y_n的重要性是不相同的，在计算某个时刻输出y_t时，都会有对应的上下文向量c_t，该向量包含了输入序列向量{x₁,x₂…,x_n}对当前输出的重要性权重分布，即注意力权重，其计算方法如公式(17)和(18)所示：

S_P×H＝(y^P)^T·(y^H) (15)，

其中，y^P、y^H为前提句子P和假设句子H在Bi-LSTM层的输出，分别为前提句子P和假设句子H本身的任意一个上下文向量，s_ij为交叉注意力权重，是对齐矩阵S_P×H的元素，M，N分别是句子P和H的长度，α_i为句子P的上下文向量对的对齐，即的加权和，β_j为句子H的上下文向量对的对齐，即的加权和，β_j为句子H的上下文向量对的对齐，即的加权和；

融合注意力权重α_i与β_j后，计算前提句子P和假设句子H的表示向量v^P和v^H，其计算方法如公式(19)-(22)所示：

其中，T表示序列长度，和表示前提句子P和假设句子H融合注意力权重的上下文向量，v^P和v^H表示经过池化操作后融合前提句子P和假设句子H自身注意力权重的表示向量。

所述的句子间句粒度交互就是直接对Bi-LSTM层建模后的两个句子表示向量作对应元素的匹配计算，仅保留最大的匹配结果，计算方法如公式(23)所示，利用最大池化筛选特征值：

y＝(m)_max-polling＝max[y^P⊙y^H] (23)；

其中，(m)_max-polling表示最大池化匹配度。

所述的词语与句子全交互就是将句子P的每一个上下文向量和句子H的表示向量作比较，计算方法如公式(24)-(26)所示，这种方法能够得到句子P中每个词语和句子H的语义相似性；

其中，f_m为匹配函数，(m_t)_full为全交互匹配度，为句子P当前时刻上下文向量，为假设句子H当前时刻的表示向量，y^H为经过池化操作后的上下文向量，v^p表示前提句子P融合句子本身注意力权重m_t的表示向量。

所述的融合注意力的平均池化匹配即首先计算前提句子P和假设句子H中每一个上下文向量之间的匹配值s，如公式(27)所示：

其中，表示前提句子P的输入x_i在Bi-LSTM层的输出，表示假设句子H的输入x_j在Bi-LSTM层的输出，L表示序列长度，s_i,j为注意力权重；

随后利用s对假设句子H中的每个上下文向量做加权求平均操作，得到假设句子H的表示向量，再将前提句子P中的每个上下文向量与句子H的表示向量匹配,计算方法如公式(28)所示；

其中，表示假设句子H的输入x_j在Bi-LSTM层的输出，T表示序列的长度，α_i'表示假设句子H所有上下文向量加权取平均向量；

最后通过公式(29)-(31)比较前提句子P的上下文向量和这个平均值向量：

其中，(m_t)_attention为融合注意力的平均池化匹配度，为前提句子P当前时刻的上下文向量，表示前提句子P融合自身注意力权重m_t的上下文向量，为前提句子P当前时刻的上下文向量，v^p为前提句子P的表示向量。

所述的融合注意力的最大池化匹配过程参考平均池化匹配，将平均变成了取最大计算公式，如公式(32)-(35)所示：

其中，表示假设句子H的输入x_j在Bi-LSTM层的输出，s_i,j表示注意力权重，α_i为假设句子H的所有上下文向量加权取最大向量，α_t”为句子H的上下文向量，(m_t)_max-att为融合注意力的最大池化匹配度，为当前时刻前提句子P的上下文向量，表示前提句子P的任一上下文向量，(m_t)_max-att为融合注意力的最大池化匹配度，为前提句子P当前时刻融合自身权重的上下文向量，v^p为前提句子P的表示向量。

所述的句子匹配即对句子表示向量进行距离度量的计算，采用向量相减后对应元素相乘方法，计算方法如公式(36)所示：

f_m(v₁,v₂)＝(v₁-v₂)⊙(v₁-v₂) (36)，

其中，v₁,v₂分别为前提句子P和假设句子H的表示向量。

本发明的优点：

(1)、针对句子间组合信息和交互特征问题，提出多粒度和不同层次的句子交互策略，对词语和句子进行交互建模，捕捉两个句子之间的交互特征，减少句义信息损失，提高蕴含关系识别准确度。

(2)、针对全局特征和局部特征兼顾问题，利用Bi-LSTM模型对序列信息处理优势，融合Attention机制捕捉句子交互过程中单词级特征的重要性，并将向量元素的对应计算作为两个句子向量的匹配度量，能有效的补充句子信息，提升模型效果。

综上所述，本发明利用深度神经网络模型(Bi-LSTM)获取句子的全局特征，融合注意力机制提取句子的局部特征，在对句子进行编码的过程中，采用不同的交互策略对输出的上下文向量进行多样性匹配，通过最大池化、加权平均池化等操作,完成句子对的建模，其中最大池化仅保留给定范围的最大特征值，有助于强化重要语义；平均池化是对给定范围的所有值取平均，全面考虑每个方面的局部信息，避免信息丢失；最后整合句子间的匹配向量进行蕴含关系的预测；这种方法能够捕捉两个句子之间的多样性交互特征，减小句子损失，侧重关注前提文本到假设文本之间的正向蕴含关系的识别，提高模型预测质量。

附图说明

图1是本发明的原理框图。

图2是本发明同一层次单粒度交互的原理框图。

图3是本发明跨层次多粒度交互的原理框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

见图1，融合Attention机制的多粒度句子交互自然语言推理模型，包括有依次连接的输入层、编码层、交互层和分类层；输入层首先对前提句子P和假设句子H独立进行编码，将句子中的每个单词表示为d维向量；编码层利用Bi-LSTM模型融合Attention机制对输入的单词序列逐个进行编码生成句子表示向量，但保留每个隐藏层单元输出的上下文向量，将上下文信息融合到前提句子P和假设句子H每个时间步的表示中；交互层比较前提句子P和假设句子H每个时间步的上下文向量和所有向量，为了比较前提句子P和假设句子H的上下文向量，设计多粒度、不同层次的交互匹配方法，在句子编码过程中进行文本语义对齐，利用不同的交互策略，得到融合注意力权重上下文向量，结合最大池化和平均池化的方法进行句子匹配生成新的表示向量；分类层包括有顺次连接的多层感知器和Softmax分类器，交互层输出的匹配向量传入多层感知器进行聚合处理后传至Softmax分类器，使用Softmax函数为激活函数，输出前提句子P和假设句子H之间关系的分类结果，标签即蕴含、中性和矛盾；

多粒度句子交互自然语言推理模型的目标函数如公式(1)所示，即最小化预测标签分布和实际标签y分布的交叉熵，其中N为样本数量，C表示标签类别；

其中，编码层利用Bi-LSTM模型融合Attention机制对输入的单词序列逐个进行编码生成句子表示向量的具体步骤为：Attention机制为输入d维特征向量计算一个注意力分布，对不同的特征向量赋予不同权重，从而实现注意力的分配，计算方法如公式(2)-(6)所示:

y_t＝G(y_t-1,s_t,c_t) (2)，

s_t＝f(s_t-1,y_t-1,c_t) (3)，

e_tj＝f(s_t-1,h_j) (6)，

交互层进行句子匹配工作，句子匹配是指比较两个句子并判断句子间关系，其主要工作是聚合前提句子和假设句子之间的组合特征，具体包括有6种交互策略，分别是同一层次单粒度的3种交互和跨层次多粒度的3种交互，并将各种策略生成的句子表达向量拼接进行策略融合；同一层次单粒度的3种交互包括有句子内词粒度交互、句子间词粒度交互和句子间句粒度交互，跨层次多粒度的3种交互包括有词语与句子全交互、融合注意力的平均池化匹配和融合注意力的最大池化匹配。

句子内词粒度交互是指对句子本身的上下文向量之间进行注意力权重的计算，这种方法能捕捉到句子内的语义特征，突出每个词语在句子中的重要性，计算方法如公式(7)和(8)所示：

句子间词粒度交互就是将前提句子P和假设句子H所包含的上下文向量之间进行一一对齐，完成交叉注意力权重的计算，计算方法如公式(15)和(16)所示；基于句子的对齐是由两个序列模型构建的编码器-解码器框架，编码器对输入向量{x₁,x₂…,x_n}进行编码得到中间的上下文向量c，解码器根据这个上下文向量c进行解码得到目标词汇，解码过程中考虑到每个输入元素对输出结果y₁,y₂,…y_n的重要性是不相同的，在计算某个时刻输出y_t时，都会有对应的上下文向量c_t，该向量包含了输入序列向量{x₁,x₂…,x_n}对当前输出的重要性权重分布，即注意力权重，其计算方法如公式(17)和(18)所示：

S_P×H＝(y^P)^T·(y^H) (15)，

句子间句粒度交互就是直接对Bi-LSTM层建模后的两个句子表示向量作对应元素的匹配计算，仅保留最大的匹配结果，计算方法如公式(23)所示，利用最大池化筛选特征值：

y＝(m)_max-polling＝max[y^P⊙y^H] (23)；

其中，(m)_max-polling表示最大池化匹配度。

词语与句子全交互就是将句子P的每一个上下文向量和句子H的表示向量作比较，计算方法如公式(24)-(26)所示，这种方法能够得到句子P中每个词语和句子H的语义相似性；

(m_t)_full＝f_m(y_t ^P,y^H) (24)，

融合注意力的平均池化匹配即首先计算前提句子P和假设句子H中每一个上下文向量之间的匹配值s，如公式(27)所示：

融合注意力的最大池化匹配过程参考平均池化匹配，将平均变成了取最大计算公式，如公式(32)-(35)所示：

句子匹配即对句子表示向量进行距离度量的计算，采用向量相减后对应元素相乘方法，计算方法如公式(36)所示：

f_m(v₁,v₂)＝(v₁-v₂)⊙(v₁-v₂) (36)，

其中，v₁,v₂分别为前提句子P和假设句子H的表示向量。

实验结果及分析：

A、实验数据集及评价指标：

数据集：本文实验采用的是斯坦福大学发布的SNLI数据集，该数据集一共包含570,000的人工手写英文句子对，其中549367对用于训练数据，9842对用于验证数据，9824对用于测试数据，对测试数据每个句子对除了前提文本、假设文本、标签外还包含五个人工标注，数据集样例如表2所示。

对实验数据集进行了分析，发现训练集中包含“蕴含”标签句子有183187个，“中性”标签句子有182764个，“矛盾”标签数据有183187个；验证集中包含“蕴含”标签句子有3329个，“中性”标签句子有3235个，“矛盾”标签数据有3278个；测试集中“蕴含”标签句子有3368个，“中性”标签句子有3219个，“矛盾”标签数据有3237个，由此判断整个数据集的标签分布较均衡，因此实验过程中不需要考虑不同标签的权重。

评价指标：自然语言推理任务的评价指标是分类准确度，计算方法如公式(20)所示：

其中，|pairs|是句子对的数量，是表示模型对第i对样本的蕴含关系的预测标签，y_i为真实标签；1[·]是指示函数，当判定条件为真时值为1，否则为0。

B、交互策略对比及分析：

在实验中采用300D GloVe来作为预训练词向量，且在训练的过程中词向量不予更新，采用Adam优化方法更新参数，设置单词的最大长度设为15，句子最大长度设为40，字符向量维度为20D，batch大小设为128，Bi-LSTM层维度为300，学习率设为0.0001。为了缓解模型过拟合问题，我们在模型输入输出处应用dropout，设dropout设为0.3，在损失函数中加入了一个l₂正则项，应用Early stopping保持模型的泛化能力，设Early stopping为5。

我们将Bi-LSTM模型作为基准模型，通过对不同粒度交互策略的贡献度进行实验分析，可以发现不同粒度融合模型在训练过程中的表现优于Bi-LSTM模型。

针对交互策略，进行了详细的实验，对比分析不同策略下的性能，结果如下表所示：

交互策略对比实验结果表

由上表结果，我们可以得到如下结论：

(1)、无论是单粒度交互还是多粒度交互，不同粒度的交互策略融合都能够提升模型的表现。

(2)、在SNLI语料上单粒度策略融合模型准确率分别比句子内交互策略提高3.6％、比句子间交互策略提高2.4％，多粒度策略融合模型比词语-句子交互策略提高0.4％、比融合注意力的池化提高0.5％，说明句子间的交互信息对模型的提升效果大于句子内交互，且词语与句子的交互信息对句子推理最为重要。

(3)、整个组合模型准确率比单粒度策略融合模型提高1.8％，比多粒度策略融合准确率提高0.2％，说明本文提出的交互策略能有效提升模型表现效果。

C、模型性能分析：

将本发明与下面几种模型进行了对比：

LSTM模型：采用word-by-word方法进行前提句子和假设句子的匹配。

Tree-based CNN模型:采用基于树的卷积过程提取句子结构特征然后通过最大池化聚合并分类。

mLSTM+Attention模型：将对前提句子和假设句子建模的两个LSTM模型产生的注意力向量拼接，进行匹配后再预测。

可分解的注意力模型：对前提句子和假设句子的每一个单词对应匹配，结合神经网络和矩阵运算将两个文本的注意力机制求解问题分解为两个子问题。

Bi-MPM模型：对前提句子和假设句子分别编码，从两个方向P→H,H→P对其匹配。在匹配过程中，从多视野的角度，一个句子的每一步都与另一个句子的所有time-step对应匹配。最后用一个Bi-LSTM被用来集合所有匹配结果到一个固定长度的向量，连上一个全连接层得到匹配的结果。

模型对比实验结果表

来源	模型	Acc(％)
			Bowman	LSTM模型	80.6
Mou	Tree-based CNN模型	82.1
			Wang	mLSTM+Attention模型	86.1
Parikh	可分解的注意力模型	86.8
			Wang	Bi-MPM模型	86.9
本发明	多粒度句子交互模型	87.5

上表为不同模型的在SNLI语料上的实验结果，可以看出引入Attention机制的模型准确率比没有引入的要高，说明Attention机制的引入对模型的表现效果具有提升作用，在同时也可以看到本文模型的准确率达到了87.5％，优于同类最优模型。

综上所述，本发明引入了Attention机制捕获句子的局部特征，对不同特征计算概率分布，减小处理高维输入数据的计算负担，同时提高模型的预测质量；其次提出了多粒度不同层次的句子交互匹配方法，在句子建模过程中运用不同的交互策略，利用不同层次和不同粒度之间的信息交互获取丰富的语义信息，本发明在计算过程中会直接将句子中任意两个上下文向量、或两个层次的表示向量之间的关系通过一个计算步骤直接联系起来，所以序列中不同位置、不同粒度的特征之间的距离可以被极大地缩短，通过实验验证这种不同粒度不同层次融合方法要优于单粒度和多粒度交互方法。最后将本发明与其他优自然语言推理模型进行了实验比较，准确率达到87.5％，说明了本发明在最佳配置下的表现要优于同类其他最优模型。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.融合Attention机制的多粒度句子交互自然语言推理模型，其特征在于：包括有依次连接的输入层、编码层、交互层和分类层；所述的输入层首先对前提句子P和假设句子H独立进行编码，将句子中的每个单词表示为d维向量；所述的编码层利用Bi-LSTM模型融合Attention机制对输入的单词序列逐个进行编码生成句子表示向量，但保留每个隐藏层单元输出的上下文向量，将上下文信息融合到前提句子P和假设句子H每个时间步的表示中；所述的交互层比较前提句子P和假设句子H每个时间步的上下文向量和所有向量，为了比较前提句子P和假设句子H的上下文向量，设计多粒度、不同层次的交互匹配方法，在句子编码过程中进行文本语义对齐，利用不同的交互策略，得到融合注意力权重上下文向量，结合最大池化和平均池化的方法进行句子匹配生成新的表示向量；所述的分类层包括有顺次连接的多层感知器和Softmax分类器，交互层输出的匹配向量传入多层感知器进行聚合处理后传至Softmax分类器，使用Softmax函数为激活函数，输出前提句子P和假设句子H之间关系的分类结果，标签即蕴含、中性和矛盾；

2.根据权利要求1所述的融合Attention机制的多粒度句子交互自然语言推理模型，其特征在于：所述的编码层利用Bi-LSTM模型融合Attention机制对输入的单词序列逐个进行编码生成句子表示向量的具体步骤为：Attention机制为输入d维特征向量计算一个注意力分布，对不同的特征向量赋予不同权重，从而实现注意力的分配，计算方法如公式(2)-(6)所示:

y_t＝G(y_t-1,s_t,c_t) (2)，

s_t＝f(s_t-1,y_t-1,c_t) (3)，

e_tj＝f(s_t-1,h_j) (6)，

其中,y_t为当前时刻t输出的上下文向量，y_t-1为上一时刻t-1输出的上下文向量，s_t为当前时刻t隐藏层状态，s_t-1为上一时刻t-1隐藏层状态，hj为输入中单个隐藏状态，c_t为注意力得分，f，G为激活函数，e_tj是输入x_j对输出y_t的注意力得分，α_tj是对注意力得分进行归一化之后的注意力概率，L为序列的长度；

3.根据权利要求1所述的融合Attention机制的多粒度句子交互自然语言推理模型，其特征在于：所述的交互层进行句子匹配工作，句子匹配是指比较两个句子并判断句子间关系，其主要工作是聚合前提句子和假设句子之间的组合特征，具体包括有6种交互策略，分别是同一层次单粒度的3种交互和跨层次多粒度的3种交互，并将各种策略生成的句子表达向量拼接进行策略融合；所述的同一层次单粒度的3种交互包括有句子内词粒度交互、句子间词粒度交互和句子间句粒度交互，所述的跨层次多粒度的3种交互包括有词语与句子全交互、融合注意力的平均池化匹配和融合注意力的最大池化匹配。

4.根据权利要求3所述的融合Attention机制的多粒度句子交互自然语言推理模型，其特征在于：所述的句子内词粒度交互是指对句子本身的上下文向量之间进行注意力权重的计算，这种方法能捕捉到句子内的语义特征，突出每个词语在句子中的重要性，计算方法如公式(7)和(8)所示：

其中，F表示加权操作的函数，和分别表示前提句子P和假设句子H每个词语的上下文向量，和表示前提句子P和假设句子H融合注意力权重的上下文向量；

5.根据权利要求3所述的融合Attention机制的多粒度句子交互自然语言推理模型，其特征在于：所述的句子间词粒度交互就是将前提句子P和假设句子H所包含的上下文向量之间进行一一对齐，完成交叉注意力权重的计算，计算方法如公式(15)和(16)所示；基于句子的对齐是由两个序列模型构建的编码器-解码器框架，编码器对输入向量{x₁,x₂…,x_n}进行编码得到中间的上下文向量c，解码器根据这个上下文向量c进行解码得到目标词汇，解码过程中考虑到每个输入元素对输出结果y₁,y₂,…y_n的重要性是不相同的，在计算某个时刻输出y_t时，都会有对应的上下文向量c_t，该向量包含了输入序列向量{x₁,x₂…,x_n}对当前输出的重要性权重分布，即注意力权重，其计算方法如公式(17)和(18)所示：

S_P×H＝(y^P)^T·(y^H) (15)，

6.根据权利要求3所述的融合Attention机制的多粒度句子交互自然语言推理模型，其特征在于：所述的句子间句粒度交互就是直接对Bi-LSTM层建模后的两个句子表示向量作对应元素的匹配计算，仅保留最大的匹配结果，计算方法如公式(23)所示，利用最大池化筛选特征值：

y＝(m)_max-polling＝max[y^P⊙y^H] (23)；

其中，(m)_max-polling表示最大池化匹配度。

7.根据权利要求3所述的融合Attention机制的多粒度句子交互自然语言推理模型，其特征在于：所述的词语与句子全交互就是将句子P的每一个上下文向量和句子H的表示向量作比较，计算方法如公式(24)-(26)所示，这种方法能够得到句子P中每个词语和句子H的语义相似性；

8.根据权利要求3所述的融合Attention机制的多粒度句子交互自然语言推理模型，其特征在于：所述的融合注意力的平均池化匹配即首先计算前提句子P和假设句子H中每一个上下文向量之间的匹配值s，如公式(27)所示：

9.根据权利要求3所述的融合Attention机制的多粒度句子交互自然语言推理模型，其特征在于：所述的融合注意力的最大池化匹配过程参考平均池化匹配，将平均变成了取最大计算公式，如公式(32)-(35)所示：

10.根据权利要求3所述的融合Attention机制的多粒度句子交互自然语言推理模型，其特征在于：所述的句子匹配即对句子表示向量进行距离度量的计算，采用向量相减后对应元素相乘方法，计算方法如公式(36)所示：

f_m(v₁,v₂)＝(v₁-v₂)⊙(v₁-v₂) (36)，

其中，v₁,v₂分别为前提句子P和假设句子H的表示向量。