CN112633008A

CN112633008A - 基于多特征注意力的卷积神经网络句子相似度计算方法

Info

Publication number: CN112633008A
Application number: CN202011581732.6A
Authority: CN
Inventors: 张培颖; 黄兴哲
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-09

Abstract

本发明公开了基于多特征注意力的卷积神经网络句子相似度计算方法，属于自然语言处理领域。针对现有方法对句子的特征信息考虑不全面，在输入到深度学习模型之前缺少对句子对之间互信息的考虑以及句子特征向量不突出的问题。本发明首次提出了基于多特征注意力的卷积神经网络句子相似度模型用于语义评估，将句子的语序，分词结果的语义等信息利用特征提取算法提取为加权向量，将加权向量与原始的句子矩阵相乘得到句子对的多特征注意力矩阵。模型从多种句子特征考虑，从全局出发使用特征加权机制对重点特征进行突出推断语义的相似度。本发明在微软释义语料库和语义评估任务的数据集上做了大量的实验验证了该方法的有效性。

Description

基于多特征注意力的卷积神经网络句子相似度计算方法

技术领域

本发明属于一种算法程序，涉及到自然语言处理领域，主要是句子的相似度计算方法。

背景技术

随着互联网进一步的深入发展，网络在人们生活中渗透能力越来越强。在衣食住行各方面均搭上了信息快车，数据伴随着网络激发出蓬勃的生命力，如雨后之笋，春起之苗。然而，沟通交流的工具在变化，但文明延续的载体千百年来始终没有改变。电子化的新闻是靠文字来表达，网购商品评价信息也是依靠文字来记载。电子化的内容让实现数据的处理与分析成为了可能，但是如何分析和处理网络上复杂的文字内容对研究者们提出了新的要求。自然语言处理就是通过分析和提取文本特征来处理文本信息的技术，句子相似度计算任务主要用来衡量文本之间的语义相似性，作为自然语言处理技术的基础性任务，其算法模型的精确度决定了其它各领域任务的精度。随着网络文本在数量和表现形式上的变化，对自然语言处理任务的算法精确度提出了更高的要求。因此，有必要从句子特征选择，特征工程和特征向量化等多角度分析句子特征的提取算法和方式，以进一步提高句子相似度计算任务的精确度，推进自然语言处理领域各项任务的发展。

句子语义评估的思路是通过比对句子对之间的语法，语序等特征来衡量语义之间的相似程度。传统的算法通过串匹配的方式来计算句子对之间的语义相似度，将句子中的特征视为字符串来对比串之间的相似度。随着人工智能和深度学习技术在自然语言处理领域的应用。研究者们将神经网络和深度学习模型结合起来训练出词向量来衡量文本之间的相似度。Mikolov等人提出的word2vec静态词向量通过one-hot编码形式的输入来学习出单词的向量表示，这种方式缺少文本中的上下文关系无法表示一词多义问题。ELMo动态词向量虽然解决了一词多义问题但训练需要消耗大量的时间。谷歌提出的双向语言模型BERT通过pre-trained和fine-tuning的形式刷新了NLP领域11项任务的精确度，奠定了语言模型pre-trained和fine-tuning的结构，但依然存在进一步改进的空间。

综合以上分析，基于统计的句子相似度计算方法精确度无法满足需求，基于深度学习模型训练词向量的形式虽然奠定了文本相似度计算的思路但是在模型的具体结构上依然具有进一步提升的空间。

不同于现有的模型，我们的模型融合了传统的特征提取方法和神经网络模型提出了基于多特征注意力的卷积神经网络句子相似度计算方法。该方法基于word2vec向量利用注意力机制对句子对之间的互信息进行加权来生成注意力矩阵。该矩阵中包含了句子的多特征信息以及句子对之间的互信息，可以进一步提升模型的精确度。

发明内容

本发明的目的是为了解决传统的模型在句子对输入到深度学习模型之前缺少对句子中互信息的关联，缺少对句子中多种特征的融合以及缺少对特征矩阵中主要特征信息的突出问题。

本发明为解决以上问题提出的技术方案是：

S1.使用语义嵌入算法对句子中分词结果进行语义计算并构建语义矩阵。

S2.使用位置嵌入算法对句子中的共现词进行位置特征的计算并将计算结果与语义相似度通过调节因子的形式融合。

S3.将获取到的多特征注意力矩阵分别按照行列求和获取多特征注意力向量并与原始的句子矩阵相乘得出句子的多特征注意力矩阵。

其中，基于句子对的分词结果，我们从互信息和多特征的角度对句子的特征信息进行了提取与加权。具体的说，针对句子对进行分词并映射为词向量得到句子的向量序列Sen_A＝{w₁,w₂,w₃...,w_n}，Sen_B＝{w'₁,w'₂,w'₃,......,w'_m}。其中，n和m分别代表句子对的长度。

根据余弦距离公式计算其语义相似度。

其中，set(A)和set(B)分别为句子的分词结果集合。w2v_emdding∈[-1,1],值越大代表两个词向量之间的相似度越高。依据公式(1)计算句子对之间各单词的语义相似度得出语义相似度矩阵。

除了考虑句子对的语义信息外，我们在模型中还加入了对句子对中共现词位置信息的计算。

其中，w_i和w_j为句子对中的共现词，pos(w_i)代表单词w_i在句子A中的位置，pos(w_j)代表单词w_j在句子B中的位置。在根据公式(1)和公式(2)计算出句子之间的语义矩阵，根据公式(3)计算出句子对之间的共现词位置信息之后，再将语义矩阵和位置矩阵进行加权合并得到句子对的注意力加权矩阵。

其中，α和β为调节语义系数和位置系数的权重因子，α+β＝1。

在得到句子的注意力加权矩阵之后，对矩阵的行和列分别求和计算加权向量。

最后将得到的权重向量与原始的句子矩阵相乘获取句子经过多特征加权后的多特征注意力矩阵作为卷积神经网络的输入。

mf_matrix_A＝softmax(att_vec[i])·att_matrix_A[i][j] (7)

mf_matrix_B＝softmax(att_vec[i])·att_matrix_B[i][j] (8)

其中，att_matrix_A为句子A的分词结果经过映射之后的原始矩阵，att_matrix_B为句子B的分词结果经过映射之后的原始矩阵。mf_matrix_A和mf_matrix_B分别为句子A和句子B的多特征注意力矩阵。

然后，将得到的多特征注意力矩阵输入到卷积神经网中进行特征矩阵的降维，将降维和平坦化后的向量利用距离公式计算相似度。

最后，所述的基于多特征注意力的卷积神经网络句子相似度计算模型由tensorflow1.3实现，采用50维的glove词向量作为模型的输入，针对句子对的不同长度问题使用零填充的方式进行补全。在模型的训练中使用Adam优化器，设置1000个训练批次，学习率设置为0.001，对语义矩阵和位置矩阵的加权系数α和β分别设置为0.64和0.36，使用微软释义语料库和语义评估任务集分别对模型的效果进行验证。

与现有的句子相似度计算任务相比，本发明的效益是：

1.本发明提出一种新的句子特征提取算法，该提取算法同时考虑了句子中的语序，语义等多种句子特征，使得句子相似度计算模型可以更加充分地提取句子特征。

2.本发明在句子对输入到卷积神经网络模型之前对句子对之间的互信息进行关联，提出特征关联算法获取加权向量对句子对的原始矩阵进行加权。

附图说明

图1为基于多特征注意力的卷积神经网络句子相似度计算模型特征矩阵生成流程图。

图2为卷积神经网络的结构图。

图3为基于多特征注意力的卷积神经网络模型与相关模型在语义评估任务数据集上皮尔森系数对比图。

图4为基于多特征注意力的卷积神经网络模型与相关模型在微软释义语料库上精确度和F1值对比图。

具体实施方式

附图仅用于示例说明，不能理解为对本发明的限制。

以下结合附图和具体实例对本发明进行进一步的详细说明。

图1为基于多特征注意力的卷积神经网络模型特征矩阵的生成流程图，该过程一共分为五步。图中①为对原始的自然语言序列进行分词，去停用词之后进行语义特征和位置特征的提取。②过程将句子根据预训练的词向量映射为原始的句子向量矩阵，在模型中我们使用的为50维的glove词向量。③过程是对提取到的包含语义嵌入和位置嵌入的矩阵分别按照行和列求和得到句子的加权特征向量。④过程将获取到的特征向量与原始的句子矩阵相乘。⑤过程为得出的句子注意力矩阵，该矩阵中根据特征提取的结果对相应特征信息进行了加权突出。

图2为模型中使用的卷积神经网络的结构图，该网络包含两层卷积层，两层池化层，相比于传统的卷积神经网络移除了全连接层。网络的输入为句子对的多特征注意力矩阵，输出为一维的句子特征向量。模型训练过程中使用的损失函数如下。

Loss＝-∑_it_ilog(y_i)+(1-t_i)log(1-y_i) (9)

其中，t_i为句子对实际的语义相似度标签，y_i为模型预测输出的句子对语义计算结果。

在获取到句子最终的一维向量表示后，再利用距离公式计算最后的相似度得分，计算最终相似度的距离公式如下。

Sim(Sen_A,Sen_B)＝COS(Vec_A,Vec_B) (10)

其中，Vec_A和Vec_B分别为句子对的特征向量。

图3为基于多特征注意力的卷积神经网络实验数据与相关模型的实验数据对比，数据表明基于多特征注意力的卷积神经网络模型比其他模型的语义评判更加精确。

图4为基于多特征注意力的卷积神经网络模型和其他模型在微软释义语料库上实验结果的皮尔森系数对比。

本发明提出了一种基于多特征注意力的卷积神经网络句子语义评估模型，该模型同时考虑了句子的多种特征，包括句子序列的语序，语义等，模型中提出的特征提取算法将句子中的特征提取为向量的形式对原始的句子矩阵进行加权，来获取到句子的多特征注意力矩阵，通过卷积神经网络的学习来拟合出能够精确地计算语义相似度的模型。未来，我们将进一步研究句子和文本的语义计算问题，验证特征提取算法的有效性。

最后，本发明的示例解释仅为说明本专利所进行的举例，本领域的研究人员，对上述实例的任何修改和替换均包含在本发明专利要求保护的范围之内。

Claims

1.基于多特征注意力的卷积神经网络句子相似度计算方法，其特征在于，所述方法应该包括以下步骤：

S1.使用语义嵌入算法对句子中分词结果进行语义计算并构建语义矩阵；

S2.使用位置嵌入算法对句子中的共现词进行位置特征的计算并将计算结果与语义相似度通过调节因子的形式融合；

2.根据权利要求1所述的基于多特征注意力的卷积神经网络句子相似度计算方法。其特征在于，所述S1具体过程为：

基于句子对的分词结果，从互信息和多特征的角度对句子的特征信息进行提取与加权，具体的说，针对句子对进行分词并映射为词向量得到句子的向量序列Sen_A＝{w₁,w₂,w₃...,w_n}，Sen_B＝{w'₁,w'₂,w'₃,......,w'_m}，其中，n和m分别代表句子对的长度。根据余弦距离公式计算其语义相似度，

其中，set(A)和set(B)分别为句子的分词结果集合，w2v_emdding∈[-1,1]值越大代表两个词向量之间的相似度越高，依据公式(1)计算句子对之间各单词的相似度得出语义相似度矩阵。

。

3.根据权利要求1所述的基于多特征注意力的卷积神经网络句子相似度计算方法，其特征在于，所述的S2具体过程为：

对句子对的分词结果筛查，选出待评估句子对中的共现词，根据公式(3)计算位置关系

其中，w_i和w_j为句子对中的共现词，pos(w_i)代表单词w_i在句子A中的位置，pos(w_j)代表单词w_j在句子B中的位置。根据公式(1)和公式(2)计算出句子之间的语义矩阵，根据公式(3)计算出句子对之间的共现词位置信息之后，再将语义矩阵和位置矩阵进行加权合并得到句子对的注意力加权矩阵，

4.根据权利要求1所述的基于多特征注意力的卷积神经网络句子相似度计算方法，其特征在于，所述的S3具体过程为：

在得到多特征加权矩阵之后，对矩阵的行和列分别求和计算加权向量，

最后将得到的加权向量与原始的句子矩阵相乘获取句子经过多特征加权后的多特征注意力矩阵作为卷积神经网络的输入，

mf_matrix_A＝softmax(att_vec[i])·att_matrix_A[i][j] (7)

mf_matrix_B＝softmax(att_vec[i])·att_matrix_B[i][j] (8)

其中，att_matrix_A为句子A的分词结果经过映射之后的原始矩阵，att_matrix_B为句子B的分词结果经过映射之后的原始矩阵，mf_matrix_A和mf_matrix_B分别为句子A和句子B的多特征注意力矩阵。