CN112784010A

CN112784010A - 一种基于多模型非线性融合的中文句子相似度计算方法

Info

Publication number: CN112784010A
Application number: CN202110001501.1A
Authority: CN
Inventors: 张培颖; 黄兴哲
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-05-11

Abstract

本发明公开了一种基于多模型非线性融合的句子相似度计算方法，属于中文自然语言处理领域。针对现有的神经网络模型对句子特征提取过于细致，缺少对重点内容的突出问题。本发明基于传统的统计方法来实现对句子特征的粗粒度提取并结合注意力机制使用卷积神经网络对提取内容进行重点突出。模型综合考虑了三种句子相似度计算模型的评估结果对其进行了非线性融合。基于改进的杰卡德系数算法和IF‑IDF算法实现对句子特征的粗粒度提取，基于word2vec_CNN的句子相似度计算方法实现对提取的关键特征的突出。本发明在蚂蚁金服数据集上做了大量的实验验证了模型的有效性。

Description

一种基于多模型非线性融合的中文句子相似度计算方法

技术领域

本发明为一种算法，涉及到中文信息提取和句子相似度计算领域。

背景技术

句子相似度分析是自然语言处理领域的基础性任务，被广泛的应用于自动问答系统，机器翻译系统以及推荐系统中，面向中文的自然语言处理技术对我国人工智能技术的发展至关重要。随着自媒体在生活中的深入，个人言论对社会舆论的牵引越来越严重。自然语言处理技术能够做到在个人言论引导社会舆论之前对其进行控制，过滤从而净化网络环境。

句子相似度计算技术发展历程可以分为三个阶段。一是基于统计的方法计算句子相似度，二是基于语言模型利用预训练的词向量来计算句子之间的相似度。传统的基于统计的方法是通过对句子中表层信息的统计来实现的。比如，计算句子对中共现词的数目，计算序列的长度等，这种基于表层信息的方式在精确度上有待进一步地提升。基于语言模型利用预训练的词向量来计算句子之间相似度的方式使得句子相似度分析任务的精度有了很大的提升，这类语言模型通过监督或者无监督的方式从大量的语料库中学习出词或者句子的向量表示来表征自然语言序列。常见的语言模型包括word2vec,BERT等。word2vec语言模型由Mikolov等人提出，它是一种包含了输入层，隐藏层和输出层的多层神经网络结构，通过将自然语言序列使用TF-IDF算法转化为向量作为深度学习模型输入的形式来获取词向量。这种方式相比于传统的TF-IDF算法解决了矩阵的特征稀疏问题，避免了维度灾难现象。word2vec语言模型对词向量的训练包括两种方式。一种是CBOW(Continuous BagofWords)连续词袋模型，该模型是在已知当前词上下文的前提下来预测当前词。另一种是Skip-gram模型，该模型与CBOW相反，是在已知当前词的情况下来推测上下文。但是，这种模型不能表示一词多义问题。此外，对句子特征粒度的提取也过于细致无法突出句子中代表语义的主要特征。谷歌提出的预训练模型BERT基于前人的研究解决了一词多义问题。此外，BERT可以使用无监督的方式训练词向量,其预训练加微调的模型结构使得其刷新了自然语言处理领域11项任务的精确度。BERT模型基于多层Transformer结构，抛弃了传统的卷积神经网络和循环神经网络，融合了多头注意力机制有效地解决了自然语言处理中长序列的单词依赖问题。虽然这些模型取得了不错的效果，但是对句子序列的分析粒度过于细致，对句子中语法，语序等特征的提取过于模糊且训练语言模型往往需要花费较多的时间。

基于前人的研究，我们提出了多模型非线性融合方法来计算中文语句的相似度，该模型同时融合了多种语义计算模型的计算结果，并对传统的杰卡德算法进行了改进，通过浅层神经网络来给出模型对语义评估的最终结果。其通过注意力机制实现了对特征提取粒度的把控，通过多模型融合的方式对计算结果进行了择优。实验结果表明，多模型非线性融合的中文句子相似度计算方法精确度有进一步的提升。

发明内容

本发明目的是解决中文句子相似度计算领域对句子特征提取粒度过于细致，缺少对主要重点内容的突出，多种算法对句子相似度计算任务优点难以进行有效融合的问题。

为解决以上问题提出了基于多模型非线性融合的中文句子相似度计算方法，其主要技术方案如下:

S1.对杰卡德系数算法进行了改进，不同的句子成分对句子语义的影响不同，改进的杰卡德系数算法除了统计句子对中的共现词外加入了对句子成分的考虑；

S2.基于传统的IF-IDF算法将自然语言序列根据单词频率提取为向量计算中文句子语义相似度；

S3.基于注意力的word2vec-CNN模型使用神经网络来计算中文句子的语义相似度，模型中融合了对句子之间互信息，多特征的提取；

S4.基于以上三种模型，采用加权系数对模型输出结果进行加权，输入到浅层全连接神经网络中学习各模型更贴合真实语义的计算结果。

其中，改进的杰卡德系数算法在传统杰卡德系数算法的基础上增加了对句子成分的考虑，传统的杰卡德系数算法通过简单的比对句子对的分词结果中共现词的数目来给出句子的语义相似度，但是不同的句子成分对语义的影响是不同的，我们提出的模型中基于此特征对传统的杰卡德系数算法进行了改进。基于先前的研究经验，模型中主要考虑了句子的主干成分，包括主语、谓语、宾语、定语和状语，具体的语义计算公式如下所示。

其中，Jaccard_Sim代表语义计算结果，α为加权系数，Sen_A∩Sen_B为句子对的分词结果集合中共现词的数目，Sen_A∪Sen_B为句子对分词结果的并集。α的值根据共现词集合中具有相同句子成分的单词数目来给出。因为只有连续的语法成分才会影响到句子的语义，当共现词集合的数目小于3时，不考虑共现词中句子成分对语义的影响，此时，调节因子α＝1，调节因子α的计算公式如下所示。

其中，count代表共现词集合中具有相同句子成分的共现词数目。当共现词集合中没有相同句子成分的单词时调节因子α的值为1。

TF-IDF算法通过将句子中的词转换为向量的形式来计算句子对的语义相似度。TF代表一个词对句子的重要性。然而，在句子中一个词出现的次数越多并不能说明其对语义就越重要，IDF代表一个词在文档中出现的频率，其用来消除常见词对TF-IDF算法评判结果的影响。

在模型中，计算句子对之间TF-IDF相似度值的公式如下所示。

其中，term(w_i)代表词w_i在文本中出现的次数，Sen_A∪Sen_B代表Sen_A和Sen_B的并集，T代表句子对中词的总个数。

基于注意力的word2vec-CNN模型使用神经网络来计算中文句子的语义相似度，模型中通过语义嵌入和位置嵌入的方式来提取句子中的多特征对原始的句子矩阵进行加权。在句子输入到神经网络之前对句子对之间的互信息进行关联，利用关联后获取的注意力向量与原始矩阵相乘得到卷积神经网络最终的输入。模型中使用的位置嵌入和语义嵌入的计算公式如下所示。

其中，set(A)和set(B)分别为句子的分词结果集合，使用余弦距离公式计算两个词之间的相似度。

其中，w_i和w_j为句子对中的共现词，pos(w_i)代表单词w_i在句子A中的位置，pos(w_j)代表单词w_j在句子B中的位置。在获取到位置矩阵和语义矩阵之后对两个特征矩阵进行合并，并分别按照行和列对计算结果求和得到注意力向量。

最后将获取到的向量分别与原始的句子矩阵相乘得到卷积神经网络最终的输入。

在获取到上述三种句子相似度计算模型在数据集上的结果之后，采用sigmoid函数对F1值进行归一化。

[a,b,c]＝sigmoid(Jaccard_sim,word2vec_CNN,IF-IDF) (8)将获取到的a,b,c作为权重因子对各模型计算结果进行加权，对加权之后的结果构建成向量的形式输入到浅层全连接神经网络中来得出模型最终的输出。

本发明公开了一种基于多模型非线性融合的句子相似度计算方法，该方法对各模型的计算结果进行了融合，实现了对句子特征粗粒度的提取。

附图说明

图1为一种基于多模型非线性融合的句子相似度计算方法结构图。

图2为三种模型的实验结果图。

图3为一种基于多模型非线性融合的句子相似度计算方法与相关方法的性能对比图。

图4为选取的具体句子对。

图5为具体句子对语义评估结果。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制。

以下结合附图和实施实例对本发明做进一步的阐述。

图1为一种基于多模型非线性融合的中文句子相似度计算方法结构图，该图描述了模型包括的三种结构，分别为基于句子成分的杰卡德系数算法,TF-IDF算法以及基于word2vec-CNN的句子相似度计算模型。图中描述了模型处理句子对的流程以及浅层全连接神经网络的结构。

在具体的计算过程中，将分词后的句子分别按照基于句子成分的杰卡德系数算法,TF-IDF算法计算语义相似度，并将分词结果利用预训练的词向量映射为矩阵的形式按照基于word2vec-CNN的句子相似度计算方法计算句子对的语义相似度。模型中使用的加权系数a,b,c根据各模型的计算结果来获得。浅层全连接神经网络使用Adam优化器来训练模型的参数，使用平方误差损失函数来统计预测结果与实际结果之间的损失，模型中使用的训练数据为蚂蚁金服金融语料库。

图2为三种模型的实验结果图，该图中展示了基于句子成分的杰卡德系数算法,TF-IDF算法以及基于word2vec-CNN的句子相似度计算模型在蚂蚁金融语料库上的实验结果，根据该实验结果借助公式(8)来确定模型中的加权系数a,b,c。根据图二中的实验结果选取三种模型的F1值输入到sigmiod函数中进行归一化得出a,b,c的值分别为0.38，0.40，0.22。在模型的计算中，均采用该组加权系数对各模型的输出进行加权。

图3和图5分别为基于多模型非线性融合的中文句子相似度计算方法在蚂蚁金融数据集上与其它相关模型的实验结果对比图。图3表明一种基于多模型非线性融合的中文句子相似度计算方法性能优于其它模型。图5展示了在具体句子对上三种模型和一种基于多模型非线性融合的中文句子相似度计算方法给出的语义评估结果。

实施例中的方案并非用以限制本发明的专利保护范围，凡未脱离本发明的等效实施或变更，均包含于本案例的专利范围中。

Claims

1.一种基于多模型非线性融合的中文句子相似度计算方法,其特征在于，所述方法应该包括以下步骤:

S1.基于改进的杰卡德系数算法加入对句子成分的考虑来计算句子对之间的杰卡德系数相似度；

S3.融合句子对之间的互信息和多特征，基于注意力的word2vec-CNN模型使用卷积神经网络来计算中文句子的语义相似；

2.根据权利要求1所述的一种基于多模型非线性融合的中文句子相似度计算方法，其特征在于，所述S1具体过程为:

将分词结果使用改进的杰卡德系数算法来从共现词集合中考虑句子成分对语义的影响衡量句子对之间的语义相似度，

其中，Jaccard_Sim代表语义计算结果，α为加权系数，Sen_A∩Sen_B为句子对的分词结果集合中共现词的数目，Sen_A∪Sen_B为句子对分词结果的并集，α的值根据共现词集合中具有相同句子成分的单词数目来给出，因为只有连续的语法成分才会影响到句子的语义，当共现词集合的数目小于3时，不考虑共现词中句子成分对语义的影响，此时，调节因子α＝1，调节因子α的计算公式如下所示。

其中，count代表共现词集合中具有相同句子成分的共现词数目，当共现词集合中没有相同句子成分的单词时调节因子α的值为1。

3.根据权利要求1所述的一种基于多模型非线性融合的中文句子相似度计算方法，其特征在于，所述S2具体过程为:

将传统的IF-IDF算法应用于句子对的语义评估问题中，以句子作为基本的衡量单元来构建句子的IF-IDF向量，计算其语义相似度，

4.根据权利要求1所述的一种基于多模型非线性融合的中文句子相似度计算方法，其特征在于，所述S3具体过程为:

根据句子对之间的互信息和多特征生成加权向量对原始的句子矩阵进行加权输入到卷积神经网络中计算句子的语义相似度，其过程分别包括语义嵌入和位置嵌入，

其中，set(A)和set(B)分别为句子的分词结果集合，使用余弦距离公式计算两个词之间的相似度，

其中，w_i和w_j为句子对中的共现词，pos(w_i)代表单词w_i在句子A中的位置，pos(w_j)代表单词w_j在句子B中的位置，在获取到位置矩阵和语义矩阵之后对两个特征矩阵进行合并，并分别按照行和列对计算结果求和得到注意力向量，

5.根据权利要求1所述的一种基于多模型非线性融合的中文句子相似度计算方法，其特征在于，所述S4具体过程为:

在获取到以上三种模型在数据集上的性能结果之后，使用sigmoid函数对其进行归一化，

[a,b,c]＝sigmoid(Jaccard_sim,word2vec_CNN,IF-IDF) (8)

将获取到的a,b,c作为权重因子对各模型计算结果进行加权，对加权之后的结果构建成向量的形式输入到浅层全连接神经网络中来得出模型最终的输出。