CN111652000A

CN111652000A - 一种语句相似度判断方法及判断系统

Info

Publication number: CN111652000A
Application number: CN202010439712.9A
Authority: CN
Inventors: 朱晓红; 陈俊宇; 何胜冬
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-09-11
Anticipated expiration: 2040-05-22
Also published as: CN111652000B

Abstract

本发明公开了一种语句相似度判断方法及判断系统，涉及自然语言语义相似度计算技术领域，通过在建模层、多语义嵌入层、语义重要性计算曾层、语义对齐层和输出层上进行改进；利用多语义矩阵计算多粒度级别的相似性矩阵，并根据该矩阵发现两个句子真正的语义对齐。考虑到不同的语义有不同的重要性，我们提出了语义重要性计算。提出的模型不需要稀疏特征以及WordNet等外部资源，在较短的时间内成功训练并在相似度计算任务上取得了有竞争力的结果。可视化分析表明了模型的良好性能及可解释性。

Description

一种语句相似度判断方法及判断系统

技术领域

本发明涉及自然语言语义相似度计算技术领域，更具体地说，它涉及一种语句相似度判断方法及判断系统。

背景技术

生活中的许多场景需要比较文本的相似性，比如论文剽窃检测、对话系统和信息检索等领域。因此如何快速、形象的检测句子予以相似度是一项基本且非常重要的任务。

句子对的语义匹配(SPSM)是NLP中最基本的问题，比如文本相似度检测、自然语言推理、释义识别、答案选择等。随着神经网络在NLP等领域的复兴，研究者开始致力于使用神经网络解决SPSM任务。卷积神经网络(CNN)和循环神经网络(RNN)已经被熟练地应用在了SPSM任务。以往的很多工作是基于句子编码或单词粒度的交互来处理语义匹配问题。

基于句子编码的方法将两个句子分别表示成一个单一的分布式句子嵌入，然后再根据句子向量来计算句子对的相似度。该方式缺少句子对交互，并且单一句子向量可能无法完全涵盖句子的所有语义信息。为了增加句子对的交互性，研究者使用单词粒度的相似度矩阵获取细粒度语义信息并提高模型性能。仅仅基于细粒度的单词交互有可能丢失粗粒度信息，例如短语信息或者句子的长期依赖信息。Yin and Schütze、Yin et al、Tien etal等人利用CNN学习到的单词、短语和n元信息学习多种粒度级别的交互信息。单词粒度和多粒度交互都是人为规定交互的粒度大小，这有可能导致模型无法学习到真正的不同粒度交互信息。

目前的优秀模型大多均基于神经网络。CNN和RNN模型通常也采用基于句子编码和句子交互的策略。CNN擅长提取输入的抽象特征,合并重要的上下文并以分层的方式对句子对建模。Yin and Schütze使用CNN计算包括单词粒度、短语粒度以及句子粒度的多粒度交互矩阵。其第一次采取了多粒度交互特征，因此性能显著提升。Hua and Lin用成对单词粒度的交互矩阵和19层的CNN来计算文本相似度。Yao et al利用多层的卷积、池化操作，在输出中执行k最大池化得到句子向量并进行比较。类似的还有Hua He et al、Santos et al)、Yin et al、Wang et al、Tien et al等人的工作。

RNN比CNN更擅长处理序列信息。Mueller et al使用孪生LSTM的最后一个隐藏层作为句子表示并使用Manhattan距离衡量相似性，取得了非常不错的结果。孪生网络也是句子对语义匹配的常用策略。其将两个句子分别通过参数共享的神经网络，最终在相同的嵌入空间中得到各自的句子表示(Bowman et al；Tan et al；Neculoiu et al；Reimers etal)，可以减少模型参数并实现句子对隐式交互。Shen et al结合经典的单词相似度矩阵和对齐表示，并使用内部加权对齐策略赋予每个单词相应的对齐权重。Wan et al、Santos etal、Zhang et al等均使用LSTM的输出单元计算句子对单词级别的相似度矩阵。

目前，预训练模型在各种NLP任务中占据了主导地位，其在大型数据上训练一个语言模型，然后在下游任务的特定数据上微调。BERT是现在最流行且效果最好的预训练模型，使用Transformer的编码器，以完形填空和下一个句子预测任务在Wikipedia和BooksCorpus数据集上训练真正的双向语言模型。Reimers et al的Sentence-BERT使用孪生BERT模型得到句子向量并计算余弦相似度作为句子对相似性。Zhang et al将PWIM模型的BiLSTM编码层替换为BERT，并在SICK数据集上得到了最先进的结果。BERT模型需要庞大的计算资源和内存，我们的目的是希望快速训练出有竞争力且可解释性强的模型，验证多语义嵌入矩阵和语义对齐的有效性，并且可以应用在任意的个人电脑上。

发明内容

本发明的上述技术目的是通过以下技术方案得以实现的：

一种语句相似度判断方法，包括以下步骤，

步骤1：上下文信息建模；

采用BiLSTM作为句子编码层；BiLSTM使用词嵌入作为输入，假定预训练的词嵌入的维度是d，输入的句子对S和T的长度分别为ls和lt，则S和T分别对应了一个输入矩阵S＝[S¹,S²,…,S^ls]，T＝[T¹,T²,…,T^lt]，Sⁱ和T^j分别代表S中第i个单词和T中第j个单词的d维词嵌入,假定LSTM隐藏层的维度是u，给定第t个时间步的词嵌入x_t，上一个时间步的隐藏层输出h_t-1以及细胞状态c_t-1，LSTM按照如下方式得到第t个时间步的输出：

i_t＝σ(w_xix_t+W_hih_t-1+b_i)

f_t＝σ(w_xfx_t+W_hfh_t-1+b_f)

o_t＝σ(W_xox_t+w_hoh_t-1+b_o)

c_t＝f_tc_t-1+i_ttanh(w_xcx_t+w_hch_t-1+b_c)

h_t＝o_ttanh(c_t)

i,f,o分别代表输入门、遗忘门和输出门，它们控制LSTM中的信息流动；对于输入序列S，BiLSTM将正向和反向的隐层单元级联在一起后得到输出

S_h是ls×2u的输出矩阵；

步骤2：多语义嵌入层；

使用2层MLP自注意机制来学习输入句子的语义矩阵；将BiLSTM的整个隐藏层输出S_h或T_h作为输入，计算它们的线性组合：

E_s＝W_sS_h

权重矩阵W₁∈R^S×2u，将输入映射到大小为s的隐藏层；W₂是一个r×s的权重矩阵，r是语义嵌入个数；soft max将输出的r×l矩阵的每一行归一化，得到多语义嵌入权重矩阵W_s；W_s的每一行对应的是S_h的每个单元的权重，其与S_h的加权和就得到句子的一个语义向量；E_S∈R^r×2u是s的多语义嵌入矩阵，每一行代表了s的某个语义，且该语义仅由句子的部分单词、短语或长距离信息组成，自动具备了多粒度信息；汇总语义权重W_s并归一化，得到句子的总体语义向量：

总体语义向量汇总了各个分语义，体现了句子的整体关注点

步骤3：语义重要性计算层；

使用单个语义与总体语义的相似性作为语义重要性，使用两个向量的余弦值作为它们的相似度，经过soft max归一化后，得到E_S中每个语义的重要性SI，句子T同理得到TI：

||.||表示L2范数；

表示E_S的第i行，即第i个语义；

步骤4：语义对齐层；

使用多语义嵌入矩阵计算句子对真正的语义对齐；根据E_S和E_t得到语义相似度矩阵SS，SS_ij表示句子s的第i个语义

和句子T的第j个语义

的相似度，直接使用余弦相似度：

按照如下方式对M的每一行归一化：

语义相似度矩阵SS_norm的每一行元素都属于[0,1]，可以被视为句子S的对齐权重；对SS的每一列做同样的处理，得到句子T的对齐权重；衡量句子S和T的相似度需要评估句子S的语义是否被T包含，反之亦然；为句子S的每个语义计算其在T中的加权对齐，句子T同理；使用语义加权和的方式计算E_S的每个语义在E_t中的对齐表示

为了衡量

和

的匹配程度，使用正交分解策略将原始语义向量

正交分解为平行于对齐向量

的相似部分

和垂直于

的不相似部分

进一步细化匹配程度：

平行分量(对齐分量)，

垂直分量(对齐残差)；将分解原始语义的模型称为MSEM-WI；MSEM-WI模型得到衡量对齐程度的平行分量矩阵

和垂直分量矩阵

MSEM-WI-Original得到特征e_sp＝SI*E_sp，e_so＝SI*E_so；句子T的类似特征；

步骤5：输出层；

利用S和T的总体语义向量，得到额外的语义相关性特征；使用两个总体语义向量的逐元素乘积

和逐元素差

作为总体语义特征；结合加权语义匹配向量和总体语义特征，MSEM-WI得到特征f_o＝[e_×；e_-；e_sp；e_tp；e_so；e_to],f_o∈R^12u；

将相似度分数估计视为分类问题，使用2层的MLP计算：

p_φ＝soft max(M₂ReLU(M₁f_o+b1)+b2)。

一种语句相似度判断系统，基于上述的语句相似度判断方法，包括建模层、多语义嵌入层、语义重要性计算曾层、语义对齐层和输出层。

综上所述，本发明具有以下有益效果：

利用多语义矩阵计算多粒度级别的相似性矩阵，并根据该矩阵发现两个句子真正的语义对齐。考虑到不同的语义有不同的重要性，我们提出了语义重要性计算。提出的模型不需要稀疏特征以及WordNet等外部资源，在较短的时间内成功训练并在相似度计算任务上取得了有竞争力的结果。可视化分析表明了模型的良好性能及可解释性。

附图说明

图1是本发明实施例的结构示意图；

图2是句子对语义热力图。

具体实施方式

以下结合附图对本发明作进一步详细说明。

一种语句相似度判断方法，包括以下步骤，

步骤1：上下文信息建模；

i_t＝σ(w_xix_t+W_hih_t-1+b_i)

f_t＝σ(w_xfx_t+W_hfh_t-1+b_f)

o_t＝σ(W_xox_t+w_hoh_t-1+b_o)

c_t＝f_tc_t-1+i_ttanh(w_xcx_t+w_hch_t-1+b_c)

h_t＝o_ttanh(c_t)

S_h是ls×2u的输出矩阵；

步骤2：多语义嵌入层；

E_s＝W_sS_h

权重矩阵W₁∈R^S×2u，将输入映射到大小为s的隐藏层；W₂是一个r×s的权重矩阵，r是语义嵌入个数；softmax将输出的r×l矩阵的每一行归一化，得到多语义嵌入权重矩阵W_s；W_s的每一行对应的是S_h的每个单元的权重，其与S_h的加权和就得到句子的一个语义向量；E_S∈R^r×2u是s的多语义嵌入矩阵，每一行代表了s的某个语义，且该语义仅由句子的部分单词、短语或长距离信息组成，自动具备了多粒度信息；汇总语义权重W_s并归一化，得到句子的总体语义向量：

总体语义向量汇总了各个分语义，体现了句子的整体关注点

步骤3：语义重要性计算层；

使用单个语义与总体语义的相似性作为语义重要性，使用两个向量的余弦值作为它们的相似度，经过softmax归一化后，得到E_S中每个语义的重要性SI，句子T同理得到TI：

||.||表示L2范数；

表示E_S的第i行，即第i个语义；

步骤4：语义对齐层；

和句子T的第j个语义

的相似度，直接使用余弦相似度：

按照如下方式对M的每一行归一化：

为了衡量

和

的匹配程度，使用正交分解策略将原始语义向量

正交分解为平行于对齐向量

的相似部分

和垂直于

的不相似部分

进一步细化匹配程度：

平行分量(对齐分量)，

和垂直分量矩阵

步骤5：输出层；

和逐元素差

将相似度分数估计视为分类问题，使用2层的MLP计算：

p_φ＝soft max(M₂ReLU(M₁f_o+b1)+b2)。

实验设置和实验结果：

我们在语义相似度任务上评估MSEM-WI模型的性能，使用Sentences InvolvingCompositional Knowledge(SICK)数据集，包括4500/500/4927个句子对用于训练/验证/测试。每个句子对都用一个[1,5]的相关性分数进行注释，分数越高，表明两个句子之间的关系越紧密。我们使用均方误差(MSE)作为评价指标。

实验设置：

我们使用300维的GloVe词向量(Pennington et al.,2014)并在训练过程中固定词向量，所有OOV(out of vocabulary)的单词均进行随机初始化。模型有许多超参数，经过实验验证，我们采用以下的超参数设置：LSTM隐层单元大小为100，自注意层和输出层的隐层单元均设置为50，L2正则化系数设置为0.0005，惩罚项P的惩罚系数为0.005，学习率0.001，batch size为25。考虑到SICK和MSRP数据集的句子都很短，我们设置语义个数r为5。使用Adam优化算法进行训练。

训练：

在SICK数据集中，我们将相似度分数估计视为回归问题，使用均方误差作为损失函数：

m是训练数据的大小，y是句子对的相似度标签，

则是由模型预测的相似度分数。

实验结果和分析：

表1

表1展示了我们模型的结果以及其他模型在SICK上的性能。MSEM-WI-Alignment在3个评价指标上均稍微超过MSEM-WI-Original，这与我们的预期是相符合的。表1中灰色的部分(2-6行)的性能弱于我们的模型。第一组的模型是基于传统的特征工程，依靠WordNet等外部资源，性能明显弱于当前的基于神经网络的模型。虽然我们的模型不是最优的，但是与最先进的模型相比，无论是在模型性能、训练时间还是模型复杂度上面，我们的模型都具有强大的竞争力。我们在具有8GB内存和Intel i5四核CPU的个人计算机进行训练，在15分钟的时间内便可成功训练我们的模型并得到具有竞争力的结果。MSEM-WI模型的结果和最佳结果之间的差距仅仅为0.0177()、0.0305()、0.0276(MSE)。PWIM(He and Lin,2016)利用19层的深度CNN来获取相似度信息，具有较高的复杂度以及较长的训练时间，而我们的模型结构简单并具有有竞争力的结果。MaLSTM(Mueller et al,,2016)模型采用了预训练的策略，并利用WordNet进行数据增强，MSEM-WI模型是端到端的，且无需任何外部资源以及预训练策略。M-MaxLSTM-CNN(Tien et al.,2019)采用多种词嵌入的结合作为输入并利用CNN和RNN处理，MSEM-WI仅仅采用单一的GloVe词向量。BERTBASE,JOINT+PWIM-BiLSTM(Zhanget al.,2019)得到最先进的结果。他们使用孪生BERT和PWIM(He and Lin,2016)，基于预训练策略，模型复杂度高且训练时间长。MSEM-WI除了模型简单、易于训练且有强大的竞争力之外，其最大的优点是非常易于可视化，有较强的可解释性。

我们随机从SICK测试集中选择1个句子对作为可视化例子。图2的句子对有着相同的语义，相似度分数高达4.5，其预测结果为4.558，与真实标签非常接近。每个句子有3行热力图，前两行是根据语义重要性从中选择的前两个语义，第3行是总体语义热力图。可以发现单个语义能够学习到由细粒度或粗粒度信息组成的部分语义。除此之外，模型能够学习到相似的语义，图2中的句子对显示的是相似的重点语义，包括”pink shirt with whitewriting”和”lying”。可以看出MSEM-WI模型能够学习到句子对的相似语义或不相似部分，证明了模型的良好性能以及可解释性。

本申请提出了句子的多语义嵌入矩阵，能够表达句子的多种不同的语义。基于该语义矩阵，我们使用语义相似性矩阵计算两个句子的加权语义对齐。基于语义重要性和语义分解，我们能够得到语义相似特征，能被有效地用于语义相似性评估。实验及可视化分析证明了模型的良好性能以及可解释性。

本具体实施例仅仅是对本发明的解释，其并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本发明的权利要求范围内都受到专利法的保护。

Claims

1.一种语句相似度判断方法，其特征在于，包括以下步骤，

步骤1：上下文信息建模；

i_t＝σ(w_xix_t+W_hih_t-1+b_i)

f_t＝σ(w_xfx_t+W_hfh_t-1+b_f)

o_t＝σ(W_xox_t+w_hoh_t-1+b_o)

c_t＝f_tc_t-1+i_ttanh(w_xcx_t+w_hch_t-1+b_c)

h_t＝o_ttanh(c_t)

S_h是ls×2u的输出矩阵；

步骤2：多语义嵌入层；

E_s＝W_sS_h

权重矩阵W₁∈R^S×2u，将输入映射到大小为s的隐藏层；W₂是一个r×s的权重矩阵，r是语义嵌入个数；softmax将输出的r×l矩阵的每一行归一化，得到多语义嵌入权重矩阵W_s；W_s的每一行对应的是S_h的每个单元的权重，其与S_h的加权和就得到句子的一个语义向量；E_S∈R^r ^×2u是s的多语义嵌入矩阵，每一行代表了s的某个语义，且该语义仅由句子的部分单词、短语或长距离信息组成，自动具备了多粒度信息；汇总语义权重W_s并归一化，得到句子的总体语义向量：