CN109299262B

CN109299262B - 一种融合多粒度信息的文本蕴含关系识别方法

Info

Publication number: CN109299262B
Application number: CN201811174143.9A
Authority: CN
Inventors: 王慧瑶; 郭泽颖; 印鉴; 高静
Original assignee: Guangdong Hengdian Information Technology Co ltd; Sun Yat Sen University
Current assignee: Guangdong Hengdian Information Technology Co ltd; Sun Yat Sen University
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2022-04-15
Anticipated expiration: 2038-10-09
Also published as: CN109299262A

Abstract

本发明提供一种融合多粒度信息的文本蕴含关系识别方法，提出融合字与词、词与词、词与句之间多粒度信息融合与交互的建模方法。本发明首先在字符向量层使用卷积神经网络和Highway网络层建立基于字符级别的词向量模型，并与GloVe预训练的词向量拼接；之后句子建模层将融合字词粒度的词向量使用双向长短时记忆网络进行建模，再经过句子匹配层对文本对进行融合注意力机制的交互与匹配，最后通过整合分类层求得类别；模型建立好后将模型进行训练和测试最终获取测试样本的文本蕴含识别分类结果。这种融合了字、词、句多粒度信息的层次化组合结构方法融合了模型中浅层的特征定位和深层的特征学习等优势，从而进一步提升文本蕴含关系识别的准确性。

Description

一种融合多粒度信息的文本蕴含关系识别方法

技术领域

本发明涉及自然语言处理领域，更具体地，涉及一种融合多粒度信息的文本蕴含关系识别方法。

背景技术

文本蕴含识别研究是指对给定的两段文本(前提文本和假设文本)判断它们之间的蕴含关系(蕴含、矛盾或中性)。这是自然语言处理领域一项重要的任务，传统的研究方法主要依赖特征工程、外部语义资源和工具的支持，结合机器学习方法完成文本蕴含关系分类。这种基于特征分类的方法通常需要耗费较多的时间和计算成本。随着深度神经网络在人工智能的各项任务获得出色表现，现在文本蕴含识别的主流研究工作是利用深度神经网络对文本序列建模来完成句子的表示和匹配，虽已取得一定进展，但仍存在一些不足：一是句子表示过程中用到的word2vec，GloVe或Str2Matrix等都依赖于现有的语料库，有越来越多的新词、低频词或复合词未出现或很少出现在训练语料中，而这些词语并不全包含在预训练词向量中，新词向量大比例缺失会影响模型的训练效果。二是主流方法中对两个句子的向量表示计算距离关系矩阵或是基于文本相似度的方法不具备语义推理的能力。三是前提文本与假设文本之间交互信息等的探讨较少，现有技术都是对两个文本分别进行编码或者映射后，简单地对向量进行聚合，随后经过深度序列模型并预测分类，但此过程中忽略了句子之间的交互信息等。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷，提供一种融合多粒度信息的文本蕴含关系识别方法。

为解决上述技术问题，本发明的技术方案如下：一种融合多粒度信息的文本蕴含关系识别方法，包括以下步骤：

S1：获取已标注好的英文文本语料，在输入层输入训练样本集；

S2：在字符向量层，对S1输入的文本P和Q，分别建立以字符粒度为输入单位的卷积神经网络CNN模型，对句子中的每个单词提取字符特征得到各个新的词向量；

S3：在词向量融合层，建立Highway网络层，传入S2中字符级别卷积神经网络CNN模型输出的单词向量，输出基于字符特征的词向量序列，然后将它们逐个与原有的预训练词向量结合，得到融合了字词两个粒度信息的词向量；

S4：在句子建模层，建立双向长短时记忆网络即BiLSTM，将S3输出的融合字词信息的词向量序列依次通过记忆单元，得到每一时刻输出的上下文向量；

S5：在交互层，融合注意力机制，分别对S4中蕴含文本对P和Q每一时刻的上下文向量运用多粒度，跨层次的交互策略，得到不同策略下P和Q的文本表示向量，将其依次连接得到P和Q文本对的联合向量表达；

S6：在分类层，建立多层神经网络MLP层和Softmax分类器，传入S5中所得的文本对联合向量，输出文本蕴含关系识别的分类结果；

S7：利用训练样本集，通过反向传播不断最小化目标函数来训练模型，使其学习出S1-S6中构建的各层网络参数，生成预测过程的模型；

S8：将测试样本集语料放入S7中训练好的融合多粒度信息模型中，最终获取测试样本的文本蕴含识别分类结果。

优选地，所述步骤S1中的训练样本为：收集用于文本蕴含识别任务的已标注好的语料，将其中80％作为训练样本集，剩余20％作为测试样本集；语料集中的数据样本由三个部分组成：

其中P⁽ⁿ⁾第n对样本中的前提文本，Q⁽ⁿ⁾表示第n对训练样本中的假设文本，

表示P和Q之间的关系标签，C为输出类别的个数，y⁽ⁿ⁾是C维的0-1向量；关系标签包含蕴含、矛盾和中性即C＝3；P和Q均为英文句子文本，第n对前提文本和假设文本可分别表示为由单词构成的序列：

和

其中句子P的长度为P中单词个数l_a，句子Q的长度为Q中单词个数l_b。

优选地，所述步骤S2的具体过程是：

S21：构建字符表并进行数据预处理和字符表示：将S1的文本P和Q中的单词转换为小写字母，再对每个单词中所包含的字符根据字符表进行索引与标记，未出现在字符集合中的其他特殊符号将以零向量作为初始化；分别将句子P和Q中的每个单词表示为由字符向量拼接而成的单词矩阵；

S22：初始化卷积神经网络CNN模型及其参数，所述参数包括网络中连接的权重和偏置，并将S21中句子P和Q由字符向量组成的单词序列作为卷积神经网络的输入，该网络包括字符特征卷积层，字符特征池化层和字符特征连接层；

S23：所述字符特征卷积层，对S22中得到的每个单词矩阵设置不同大小的卷积核进行一维卷积操作以便捕捉不同相邻字符的局部组合特征；

S24：所述字符特征池化层，对S23中各个单词经不同卷积核H得到的特征映射f^k分别进行最大池化，各自独立进行局部特征选择；

S25：所述字符特征连接层，将S24中每个单词最大池化后的所有特征值进行连接得到各个单词的向量表示y^k，将句子所包含的所有单词的向量表示横向拼接得到句子的向量表示，如句长为la的句子P可表示为序列[y¹，y²，...，y^la]。

优选地，所述步骤S3的具体过程是：

S31：建立Highway网络并初始化其参数，所述参数包括网络中连接的权重和偏置，设置转换门t和携带门1-t；

S32：将S3中卷积神经网络层输出的词向量序列，逐个通过Highway网络，一部分经过转换门变换后输出到下一层，另一部分保留原始的输入信息不经过非线性变换操作而直接传输到下一层，以确保深度神经网络的训练性能；

S33：将S32中Highway网络层的每个输出v_c，即基于字符特征得到的词向量序列，分别与其原有的GloVe预训练词向量v_w进行连接，得到单词表示向量v_combined，即v_combined＝[v_c，v_w]作为同时融合了字符和单词特征的融合词向量。

优选地，所述步骤S4的具体过程是：

S41：建立双向长短时记忆网络BiLSTM并初始化其参数，所述参数包括网络中连接的权重和偏置，并按标准LSTM模型设置各门控单元和Cell单元；

S42：在双向长短时记忆网络BiLSTM的输入层依次传入S33输出的融合字词信息的词向量序列，经前向传播层和后向传播层两种方向的输入编码后，将同一时刻的2个隐层单元结合计算得到该时刻的编码输出，即句子某一时刻的上下文向量

或

优选地，所述步骤S5包含五种不同的交互策略，具体过程是：

S51：对S42中蕴含文本对P和Q每一时刻的上下文向量

或

采用词粒度的句子内交互策略：P和Q以相同的子结构各自进行句内上下文向量词语对齐匹配，P的计算方法如下：

其中，

表示句子P中i时刻上下文向量与j时刻上下文向量的匹配度，

表示i时刻上下文向量在句子P内的重要性，

表示融合注意力权重的上下文向量，

表示加权操作函数，

表示池化操作函数。对每一时刻上下文向量都如此计算并进行池化得到融合句子P自身注意力权重的表示向量v^P；

表示句子Q中i时刻上下文向量与j时刻上下文向量的匹配度，

表示i时刻上下文向量在句子Q内的重要性，

表示融合注意力权重的上下文向量，对每一时刻上下文向量都如此计算并进行池化得到融合句子Q自身注意力权重的表示向量v^P；匹配函数f_m是对向量进行相减后取对应元素的乘积作为匹配度量完成匹配工作。其计算方法如下：

f_m(y₁,y₂)＝(y₁-y₂)⊙(y₁-y₂)

其中，y₁,y₂为两个维度为d的向量；

将融合句子P和Q的注意力权重向量v^P和v^Q进行连接得到文本P和Q基于句内交互策略下的联合表示向量v₁：v₁＝[v^P，v^Q]；

S52：对S42中BiLSTM层建模后的两个句子表示向量y^P和y^Q采用句粒度的句子间交互策略：对y^P和y^Q句子向量对应元素进行对齐匹配，仅保留最大的匹配结果，计算方法如下：

v₂＝(m)_max-pooling＝max[y^P⊙y^Q].

其中，v₂是融合P和Q句子间交互信息的联合表示向量；

S53：对S42中经BiLSTM层建模后的文本对进行跨层次的信息匹配，采用词句粒度的词语和句子全交互的策略：文本P的每一个上下文向量和文本Q的句子表示向量分别匹配，文本P中的每个词与文本Q的整个句子进行交互的计算方法如下：

将计算得到的v^P和v^Q进行连接即为采用词语和句子全交互策略后所得的联合表示向量v₃：v₃＝[v^P,v^Q]；

S54：对S42中蕴含文本对P和Q每一时刻的上下文向量

或

采用词粒度句子间交互的策略，将P，Q所包含的上下文向量之间进行一一对齐，即分别计算P的每个上下文向量在文本Q中的重要性以及Q的每个上下文向量在文本P中的重要性，完成词粒度的交叉注意力权重的计算，先对y^P和y^Q求得一个词对齐矩阵

矩阵元素s_ij越大表示对应词义越匹配，

对于注意力权重的计算方式如下所示：

其中，α_i表示文本P的上下文向量对

的对齐，即

的加权和，β_j表示文本Q的上下文向量对

的对齐，即

的加权和，融合注意力权重α_i与β_j后，计算两个句子的表示向量v^P和v^Q，计算方式形如公式：

将计算得到的v^P和v^Q进行连接即为采用采用词粒度的句子间交互的策略后所得的联合表示向量v₄：v₄＝[v^P,v^Q]；

S55：对S42中蕴含文本对P和Q每一时刻的上下文向量

或

采用词句粒度的融合注意力的平均池化交互策略，仍先对y^P和y^Q求得一个词对齐矩阵

其中

随后利用s对文本Q和文本P中的每一个上下文向量加权并求平均，得到文本Q和文本P的每个上下文向量

与

对齐后的平均加权表示向量α_i、β_j，然后比较Q的平均向量α_i和P的上下文向量

求得

的注意力权重(m_i)_attention，P的平均向量β_j和Q的上下文向量

求得

的注意力权重(m_j)_attention对文本P和文本Q中的每个上下文向量都如此操作并平均池化可得最终P的文本表示向量v^P以及Q的文本表示向量v^Q，公式如下：

将其拼接得到融合注意力平均池化的词句粒度交互策略下的联合表示向量v₅：v₅＝[v^P,v^Q]；

S56：对S51、S52、S53、S54和S55采用相应策略交互后所得的联合表示向量v₁、v₂、v₃、v₄、v₅进行拼接作为文本P和Q利用了不同层次和粒度之间的信息交互后最终所得的句子联合表示向量v：v＝[v₁，v₂，v₃、v₄、v₅]。

优选地，所述步骤S6的具体过程是：建立多层神经网络MLP层Softmax层并初始化其参数，所述参数包括多层神经网络中连接的权重和偏置，将S5中运用各种交互策略所得的联合表示向量传入MLP的输入层，经过各隐藏层后到输出层以Softmax为激活函数对向量进行归一化操作最终得到文本对所属的文本蕴含关系分类标签，计算方法如下：

r＝softmax(W_mlpv+b)

其中，Wmlp是MLP层的权重参数，b是MLP层的偏置参数通过模型训练学习而确定。

优选地，步骤S7的具体过程是：

对每个批处理batch中的语料计算目标函数，并通过反向传播来最小化目标函数以优化模型网络内各层参数；经多轮迭代后，当准确率趋于稳定时，完成模型训练并保存模型；其中目标函数为预测标签

分布和实际标签y分布的交叉熵，目标函数公式如下：

其中，N为样本数量，C表示标签类别。

优选地，所述步骤S8的具体过程是：

将所有测试样本集输入到训练好的模型中，得到预测的每个文本对属于蕴含关系中每一类别的概率，通过选取最后分布在“蕴含”“矛盾”“中性”三个标签上的最大概率对应的标签类别，得到文本对蕴含关系所属的类别；根据模型对测试样本的预测所属分类与其真实所属分类的对比，可评测本发明模型进行文本蕴含识别的准确率。

与现有技术相比，本发明技术方案的有益效果是：本发明结合英语单词的拼写特点，提出一种融合字词信息的输入方式，通过构建基于字符级别的卷积神经网络模型，降低模型输入的粒度从而捕捉单词构词结构中包含的词根词缀信息，获取单词拼写中的字符组合特征。在字符基础上同时结合原有词向量工作，利用字词两个粒度的特征提升文本蕴含识别模型的表现。其次，本发明从句子匹配的角度深入探究，提出一种融合注意力机制的文本交互匹配方法。利用双向长短时记忆神经网络模型在句子编码过程中的上下文信息，采用跨层次和多粒度的匹配策略，对词语和句子进行交互建模；利用前提文本和假设文本之间的多种组合特征来辅助模型推断文本的蕴含关系，弥补了现有发明对句子之间交互信息的缺失。此外，本发明结合单词的构词特征和句子的结构特征提出卷积神经网络(CNN)与双向长短时记忆网络(BiLSTM)的层次化组合结构，它能够融合模型中浅层的特征定位和深层的特征学习等优势，从而进一步提升文本蕴含关系识别的质量。基于上述创新点和改进，本发明可显著提升文本蕴含识别的准确性。

附图说明

图1为本发明的流程示意图；

图2为本发明实施例1中的算法结构示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示的一种融合多粒度信息的文本蕴含识别方法，包括模型建立、模型训练和模型预测过程，具体方法步骤如下：

模型建立过程包括：在输入层输入获取的训练样本集；在字符向量层对输入的文本对P和Q，分别建立以字符粒度为输入单位的卷积神经网络(CNN)模型，对句子中的每个单词提取字符特征得到各个新的词向量；在词向量融合层，建立Highway网络层，传入字符级别卷积神经网络(CNN)模型层建立的单词向量，输出基于字符特征的词向量序列，然后将它们逐个与原有的预训练词向量结合，得到融合了字词两个粒度信息的词向量；在句子建模层，建立双向长短时记忆网络(BiLSTM)，将融合字词信息的词向量序列依次通过网络中的记忆单元，该层输出每一时刻的上下文向量；在交互层，融合注意力机制，分别对蕴含文本对P和Q每一时刻的上下文向量运用多粒度，跨层次的交互策略，得到不同策略下P和Q的文本表示向量，将其依次连接得到P和Q文本对的联合向量表达；在分类层，建立多层神经网络(MLP)层和Softmax分类器，传入经交互层所得的文本对联合向量，最终得到输出的分类结果；

模型训练过程包括：通过反向传播不断最小化目标函数来训练模型，经多轮迭代后，目标函数值趋于稳定，学习出构建各层网络的最优化参数，保存模型。

模型测试过程包括：输入测试样本到训练好的融合多粒度信息模型中，该模型分别融合了字与词、词与句之间的多粒度信息交互，最终获取测试样本的文本蕴含识别分类结果。

如图1所示的结构示意图，在具体实施过程中，其具体步骤：

1、在输入层输入训练样本，本发明为一种融合多粒度信息的文本蕴含识别方法，是结合CNN和BiLSTM模型的层次化结构来完成的。既然用到了深度神经网络模型，首先要了解数据集。我们使用的是斯坦福大学发布的SNLI(Stanford Natural LanguageInference)数据集，它是有关语义推断、文本理解的人工标注数据集，它平衡了分类标签的数量，逐渐成为文本蕴含识别任务的标准评测数据集。SNLI数据集的语料来源于图片社交网站，构造样本数据的过程如下：首先取网站中的图片标题作为初始数据；然后对每个标题文本人工创建与它蕴含、矛盾或中性关系的另一句文本；最后对每一组文本进行关系标签的标注。SNLI数据集一共包含570,000的人工手写英文句子对，包括标签和五个人工标注结果。在SNLI数据集上，以8:2比例划分为训练样本集和测试样本集。其中数据样例如表1所示：

表1：SNLI数据集样例

2、构建字符表，设置字符向量维度为15，句子最大长度为40。将文本P和Q中的单词转换为小写字母，再根据字符集合进行索引与标记，未出现在字符集合中的其他特殊符号将以零向量作为初始化；分别将句子P和Q中的每个单词表示为由字符向量拼接而成的单词矩阵，如：句子P中第k个单词表示为P^k＝[c₁,c₂,…,c_l]，其中c_n代表一个字符列向量，其维度为d，所规定的单词最大字符长度为l：设置为15(若词语长度不够l则补全(补零)得到最大长度为l的向量)，将单词中每个字符对应的列向量进行拼接就得到单词矩阵

因此句子P和Q分别可视为单词矩阵的序列。

接着初始化卷积神经网络(CNN)模型及其参数，所述参数包括每层网络连接的权重和偏置，该层包含以下三层结构：

一，在字符特征卷积层对上述得到的每个单词矩阵进行一维卷积操作(对单词矩阵而言，只有连续多个字符列向量才能表明字符组合的含义)：可设置7种不同大小的卷积核，卷积核宽度w为{1，2，3，4，5，6，7}，卷积核大小为{min{200，50*w}}，以捕捉不同相邻字符的局部组合特征。如：对单词矩阵P^k和卷积核H(

w为卷积核宽度)进行卷积操作，根据如下公式计算得到特征映射

(f^k[i])_H＝tanh(<P_k[*,i:i+w-1],H>+b)

其中P^k[*,i:i+w-1]指单词矩阵中第i列到第i+w-1列的实值，b表示神经网络CNN层的偏置参数，H表示卷积核参数，它们都通过模型训练的过程学习来确定；

二，在字符特征池化层，使用最大池化对经不同卷积核H得到的特征映射f^k分别独立进行局部特征选择，计算公式如下：

其中

表示卷积核H下单词k的特征值；

三，将每个单词经最大池化后的所有特征值进行连接得到各个单词的向量表示y^k，如句长为la的句子P可表示为序列[y¹,y²,…,y^la]。

3、建立Highway网络层并初始化其参数，Highway层维度设置为300，设置转换门t和携带门1-t，计算方法如下：

t＝σ(W_Ty+b_T)

其中，W_T和B_T分别表示Highway网络层的权权重参数和偏置参数。

对前面CNN层输出的单词表示向量y，即Highway网络的输入，一部分经过转换门变换后输出到下一层，另一部分保留原始的输入信息不经过非线性变换操作g而直接传输到下一层，以确保深度神经网络的训练性能；计算公式如下：

z＝(1-t)⊙y+t⊙g(W_Hy+b)

4、考虑到仅通过字符信息来完成单词的表示可能会存在一些语义信息的丢失，构建融合字词信息的词向量，将Highway网络层的输出，即基于字符特征的词向量序列，表示为v_c，分别与其原有的GloVe预训练词向量v_w进行连接，得到句子建模层输入的单词表示向量v_combined，即v_combined＝[v_c,v_w]。

5、句子建模层为能同时捕获句子中历史和未来两种上下文信息，而LSTM能很好地保留历史信息用于序列建模，本文发明在句子建模层建立双向长短时记忆网络(BiLSTM)，根据基本LSTM模型设置各门控单元和Cell单元，BiLSTM层维度设置为300；在双向长短时记忆网络(BiLSTM)的输入层每一时刻依次传入融合字词信息的词向量序列，经前向传播和后向传播两种方向的输入和编码

后，将同一时刻的2个隐层单元结合计算得到该时刻的编码输出，即句子的上下文向量

或

使用BiLSTM模型分别对P和Q两个文本进行编码的公式如下：

其中具体的计算过程如下述公式所示，y_t表示时刻t的上下文向量：

其中，当前时刻t的输入为v_t，则上一时刻的前向

隐藏层状态为

后向

隐藏层状态为

输出为y_t，

为隐藏层的激活函数，

为输出层的激活函数。

6、在交互层基于句子建模层采用五种不同的策略实现蕴含文本对之间的信息交互，分别融合且匹配了句内词与词粒度之间、句子间词与词粒度、句子间句与句粒度之间和句子间词与句粒度之间的语义信息，具体策略如下：

第一种策略是对P和Q每一时刻的上下文向量

或

采用词粒度的句子内交互策略，即P和Q以相同的子结构各自进行句内上下文向量词语对齐匹配，计算方法如下：

其中，

表示句子P中i时刻上下文向量与j时刻上下文向量的匹配度，

表示i时刻上下文向量在句子P内的重要性，

表示融合注意力权重的上下文向量，

表示加权操作函数，

表示池化操作函数，对每一时刻上下文向量进行池化得到融合句子P自身注意力权重的表示向量v^P；

句子Q的计算方法同上，可得v^Q，将融合句子P和Q的注意力权重向量v^P和v^Q进行连接得到文本P和Q基于句内交互策略下的联合表示向量v₁：v₁＝[v^P,v^Q]。

第二种策略是对经过BiLSTM层建模后的两个句子表示向量y^P和y^Q采用句粒度的句子间交互策略：对y^P和y^Q句子向量对应元素进行对齐匹配，仅保留最大的匹配结果，计算方法如下：

v₂＝(m)_max-pooling＝max[y^P⊙y^Q]

其中，v₂是融合P和Q句子间交互信息的联合表示向量；

第三种策略是对经过BiLSTM层建模后的文本对进行跨层次的信息匹配，采用词句粒度的词语和句子全交互的策略：文本P的每一个上下文向量和文本Q的句子表示向量分别匹配，文本P中的每个词与文本Q的整个句子进行交互的计算方法如下：

同理可计算文本Q中的每个词与文本P的整个句子交互的结果v^Q，将计算得到的v^P和v^Q进行连接即为采用词语和句子全交互策略后所得的联合表示向量v₃：v₃＝[v^P,v^Q]；

第四种策略是对经过BiLSTM层建模后的文本对P和Q每一时刻的上下文向量

或

采用词粒度句子间交互的策略，将P，Q所包含的上下文向量之间进行一一对齐，即分别计算P或Q的每个上下文向量在文本Q或P中的重要性，完成词粒度的交叉注意力权重的计算，需先对y^P和y^Q求得一个词对齐矩阵

矩阵元素s_ij越大表示对应词义越匹配，

对于注意力权重的计算方法如下：

其中，α_i表示文本P的上下文向量对

的对齐，即

的加权和，同理β_j。融合注意力权重α_i与β_j后，计算两个句子的表示向量v^P和v^Q，计算方式形如公式：

第五种策略是对对经过BiLSTM层建模后的文本对P和Q每一时刻的上下文向量

或

其中

与

求得

的注意力权重(m_i)_attention，P的平均向量β_j和Q的上下文向量

求得

最后对采用上述相应策略交互后所得的句子联合表示向量v₁、v₂、v₃、v₄、v₅进行拼接，作为文本P和Q利用了不同层次和粒度之间的信息交互后最终所得的句子联合表示向量v：v＝[v₁，v₂，v₃，v4，v₅]；

上述策略中所涉及的匹配函数f_m均对向量进行相减后取对应元素的乘积作为匹配度量完成匹配工作。其计算方法如下：

f_m(y₁,y₂)＝(y₁-y₂)⊙(y₁-y₂)

其中，y₁,y₂为两个维度为d的向量；

7、将在各层融合了多粒度信息的句子联合表示向量传入MLP层后以Softmax为激活函数对向量进行归一化操作可得最终分类结果，计算方法如下：

r＝softmax(W_mlp[s^P,s^Q]+b)

8、设置batch为{32，64，128}，最大迭代次数为30，Adam方法进行优化。对每个batch中的语料计算目标函数，并通过反向传播来最小化目标函数以优化网络内各层参数。经多轮迭代后，当准确率趋于稳定时，完成模型训练。目标函数为预测标签

分布和实际标签y分布的交叉熵，目标函数公式如下：

其中，N为样本数量，C表示标签类别；

9、将所有测试样本集输入到训练好的模型中，得到预测的每个文本对属于蕴含关系中每一类别的概率，通过选取最后分布在“蕴含”“矛盾”“中性”三个标签上的最大概率对应的标签类别，得到文本对蕴含关系所属的类别。

为了和之前的方法做对比，本发明文本蕴含识别任务的评价指标是分类的准确度，计算方法如下公式所示：

其中，|pairs|表示句子对的数量，

表示模型对第i对样本的蕴含关系的预测标签，y_i表示真实标签；1[·]是指示函数，当判定条件为真时值为1，否则为0。

本发明相较于以前方法有很大的提升，本发明利用卷积神经网络模型能很好地捕捉局部特征以弥补当前词向量的不足；从双向长短时记忆网络模型在序列信息特征建模的优势出发对句子进行建模同时结合五种跨层次、多粒度的交互策略，融合字符、词语、句子三种粒度的信息，训练得到高性能的模型最终提升了文本蕴含识别的准确性。

附图2中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种融合多粒度信息的文本蕴含关系识别方法，其特征在于，包括以下步骤：

S8：将测试样本集语料放入S7中训练好的融合多粒度信息模型中，最终获取测试样本的文本蕴含识别分类结果；

所述步骤S1中的训练样本为：

收集用于文本蕴含识别任务的已标注好的语料，将其中80％作为训练样本集，剩余20％作为测试样本集；语料集中的数据样本由三个部分组成：

其中P⁽ⁿ⁾表示第n对样本中的前提文本，Q⁽ⁿ⁾表示第n对样本中的假设文本，

和

其中句子P的长度为P中单词个数l_a，句子Q的长度为Q中单词个数l_b；

所述步骤S2的具体过程是：

2.根据权利要求1所述的一种融合多粒度信息的文本蕴含关系识别方法，其特征在于，所述步骤S3的具体过程是：

S32：将S3中卷积神经网络层输出的词向量序列，逐个通过Highway网络，一部分将经过转换门变换后输出到下一层，另一部分将保留原始的输入信息不经过非线性变换操作而直接传输到下一层，以确保深度神经网络的训练性能；

3.根据权利要求2所述的一种融合多粒度信息的文本蕴含关系识别方法，其特征在于，所述步骤S4的具体过程是：

或

4.根据权利要求3所述的一种融合多粒度信息的文本蕴含关系识别方法，其特征在于，所述步骤S5包含五种不同的交互策略，具体过程是：

S51：对S42中蕴含文本对P和Q每一时刻的上下文向量

或

采用词粒度的句子内交互策略：P和Q以相同的子结构各自进行句内上下文向量词语对齐匹配，P和Q的计算方法如下：

其中，

表示句子P中i时刻上下文向量与j时刻上下文向量的匹配度，

表示i时刻上下文向量在句子P内的重要性，

表示融合注意力权重的上下文向量，

表示加权操作函数，

表示池化操作函数，对每一时刻上下文向量进行池化得到融合句子P自身注意力权重的表示向量v^P；同理，

表示句子Q中i时刻上下文向量与j时刻上下文向量的匹配度，

表示i时刻上下文向量在句子Q内的重要性，

表示融合注意力权重的上下文向量，对每一时刻上下文向量进行池化得到融合句子Q自身注意力权重的表示向量v^P；匹配函数f_m是对向量进行相减后取对应元素的乘积作为匹配度量完成匹配工作，其计算方法如下：

f_m(y₁，y₂)＝(y₁-y₂)⊙(y₁-y₂)

其中，y₁，y₂为两个维度为d的向量；

v₂＝(m)_max-pooling＝max[y^P⊙y^Q]

其中，v₂是融合P和Q句子间交互信息的联合表示向量；

将计算得到的v^P和v^Q进行连接即为采用词语和句子全交互策略后所得的联合表示向量：v₃：v₃＝[v^P，v^Q]；

S54：对S42中蕴含文本对P和Q每一时刻的上下文向量

或

矩阵元素s_ij越大表示对应词义越匹配，

对于注意力权重的计算方式如下所示：

其中，α_i表示文本P的上下文向量对

的对齐，即

的加权和，β_j表示文本Q的上下文向量对

的对齐，即

将计算得到的v^P和v^Q进行连接即为采用采用词粒度的句子间交互的策略后所得的联合表示向量v₄：v₄＝[v^P，v^Q]；

S55：对S42中蕴含文本对P和Q每一时刻的上下文向量

或

其中

与

求得

的注意力权重(m_i)_attention，P的平均向量β_j和Q的上下文向量

求得

将其拼接得到融合注意力平均池化的词句粒度交互策略下的联合表示向量v₅：v₅＝[v^P，v^Q]；

5.根据权利要求4所述的一种融合多粒度信息的文本蕴含关系识别方法，其特征在于，所述步骤S6的具体过程是：建立多层神经网络MLP层Softmax层并初始化其参数，所述参数包括多层神经网络中连接的权重和偏置，将S5中运用各种交互策略所得的联合表示向量传入MLP的输入层，经过各隐藏层后到输出层以Softmax为激活函数对向量进行归一化操作最终得到文本对所属的文本蕴含关系分类标签，计算方法如下：

r＝softmax(W_mlpv+b)

6.根据权利要求5所述的一种融合多粒度信息的文本蕴含关系识别方法，其特征在于，所述步骤S7的具体过程是：

分布和实际标签y分布的交叉熵，目标函数公式如下：

其中，N为样本数量，C表示标签类别。

7.根据权利要求6所述的一种融合多粒度信息的文本蕴含关系识别方法，其特征在于，所述步骤S8的具体过程是：