CN110348014B

CN110348014B - 一种基于深度学习的语义相似度计算方法

Info

Publication number: CN110348014B
Application number: CN201910620461.1A
Authority: CN
Inventors: 罗光春; 秦科; 惠孛; 刘贵松; 黄为
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2023-03-24
Anticipated expiration: 2039-07-10
Also published as: CN110348014A

Abstract

发明公开了一种基于深度学习的语义相似度计算方法，涉及语义相似度计算领域；其包括步骤1：构建训练数据集，并预处理训练数据获取one‑hot稀疏向量；步骤2：构建包括N层BI‑LSTM网络、残差网络、相似度矩阵、CNN卷积神经网络、池化层和全连接层的语义相似度计算网络模型；步骤3：将one‑hot稀疏向量输入上述网络模型，利用训练数据集训练参数，完成有监督训练；步骤4：将待测文本输入已训练的上述网络模型，判定是否为相似文本后输出结果。本发明语义相似度计算网络模型包括多层BI‑LSTM网络、残差网络、CNN卷积神经网络、池化层和全连接层，同时使用BI‑LSTM网络和CNN卷积神经网络，BI‑LSTM网络中加入残差网络，克服了多层网络带来的梯度消失问题，增强了模型的特征提取能力。

Description

一种基于深度学习的语义相似度计算方法

技术领域

本发明涉及语义相似度计算领域，尤其是一种基于深度学习的语义相似度计算方法。

背景技术

语义相似度计算是自然语言处理领域的一项基本任务，随着人工智能时代的到来，越来越多的科学家和学者们将目光放在自然语言处理领域，而语义相似度计算任务因为其在文档复制检查、信息检索和机器翻译等领域都有十分广泛的应用，越来越多的研究人员投身于语义相似度计算的研究。近年来，因为深度学习技术的兴起，也使得语义相似度计算得到了突飞猛进的发展。比起传统方法，深度学习技术能提取深层语义，获得更加丰富的特征表达。

应用于语义相似度计算的深度学习模型包括CNN模型，BI-LSTM模型和MatchPyramid模型。CNN模型可以提取N-gram特征，即利用CNN卷积核的滑动窗口提取中心词和周围词的特征，符合人类自然语言的表达；BI-LSTM模型专门用于处理具有时序数据的模型，自然语言就是一个天然的时序数据，所以BI-LSTM模型可以很好提取语义特征；MatchPyramid模型是利用词向量点积的方法构造一个二维相似度矩阵，将此矩阵看作一个二维图像，进而使用CNN模型进行处理，利于提取特征。一方面，上述的模型的网络层数较浅，特征提取能力差；另一方面，CNN模型和BI-LSTM模型虽然都可以对文本进行语义特征的提取，但是两种模型提取的特征是不同的特征，单独使用其中一种模型，特征提取不够完善；MatchPyramid模型利用词向量进行相似度矩阵的构造，仅靠词向量对于文本语义的表达不够充分。因此，需要一种基于深度学习的语义相似度计算方法克服以上问题，实现完整提取特征，增强特征提取能力。

发明内容

本发明的目的在于：本发明提供了一种基于深度学习的语义相似度计算方法，解决现有模型特征提取不完善、网络层数浅导致相似度计算准确度低的问题。

本发明采用的技术方案如下：

一种基于深度学习的语义相似度计算方法，包括如下步骤：

步骤1：构建训练数据集，并预处理训练数据获取one-hot稀疏向量；

步骤2：构建包括N层BI-LSTM网络、残差网络、相似度矩阵、CNN卷积神经网络、池化层和全连接层的语义相似度计算网络模型；

步骤3：将one-hot稀疏向量输入上述语义相似度计算网络模型，利用训练数据集训练所述网络模型的参数，完成有监督训练；

步骤4：将待测文本转化为one-hot稀疏向量后，输入已训练的语义相似度计算网络模型，判定是否为相似文本后输出结果。

优选地，所述步骤1包括如下步骤：

步骤1.1：对构建的训练数据集的数据格式进行统一；

步骤1.2：删除训练数据集中缺失数据、无关数据的特殊符号和乱码；

步骤1.3：对步骤1.2中的训练数据集进行分词和构建词典后，根据词语在词典中的位置，将数据转化为one-hot稀疏向量。

优选地，所述步骤2包括如下步骤：

步骤2.1：对两个文本输入分别建立Embedding层即词向量嵌入层，将one-hot稀疏向量转化为低维度词向量X_E，如以下公式所示：

X_E＝X_O×W

其中，X_O为one-hot稀疏向量，维度为L×D_L，L为句子长度，D_L为词典长度，W为可训练的权重，维度为D_L×D，D为词向量嵌入的维度；

步骤2.2：基于低维度词向量构建深度特征提取网络：构建两个N层BI-LSTM网络结构，在每一个BI-LSTM网络中添加一个残差网络；

步骤2.3：构建相似度矩阵：对两个N层BI-LSTM网络的输出做点积操作，构建相似度矩阵；

步骤2.4：构建特征提取网络：在相似度矩阵后依次连接CNN卷积神经网络、最大池化层和全连接神经网络1；

步骤2.5：构建输出网络：基于步骤2.4的网络依次连接一个全连接神经网络2和softmax层。

优选地，所述步骤3包括如下步骤：

步骤3.1：初始化步骤2中所述深度学习语义相似度计算网络的所有参数；

步骤3.2：将训练集数据输入到深度学习语义相似度计算网络中获得输出；

步骤3.3：根据训练集标签和网络输出计算交叉熵损失函数值；

步骤3.4：将损失函数值进行反向传播更新深度学习语义相似度计算网络参数；

步骤3.5：反复迭代3.2至3.4，直至深度学习语义相似度计算网络收敛，完成有监督训练获取深度学习语义相似度计算模型。

优选地，所述步骤4包括如下步骤：

步骤4.1：将待测文本中的两个文本转化成one-hot稀疏向量；

步骤4.2：加载深度学习语义相似度计算模型，将one-hot稀疏向量输入深度学习语义相似度计算模型获得二分类概率输出，取概率大值对应的类别作为预测结果。

优选地，所述N为等于或者大于3的正整数。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本发明构建包括多层BI-LSTM网络、残差网络、CNN卷积神经网络、池化层和全连接层的深度学习语义相似度计算网络，同时使用BI-LSTM网络和CNN卷积神经网络，采用BI-LSTM网络中加入残差网络，克服了多层网络带来的梯度消失问题，增强了模型的特征提取能力；

2.本发明使用三层BI-LSTM网络结构的输出来构建二维相似度矩阵，对这个矩阵使用CNN卷积神经网络，促使CNN卷积神经网络提取的特征语义信息更丰富，也解决了MatchPyramid模型使用词向量构建相似度矩阵特征不充分的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的总体流程图；

图2为本发明的预处理流程图；

图3为本发明的网络架构示意图；

图4为本发明的训练流程图；

图5为本发明的预测流程图；

图6为本发明的示例相似度计算示意图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

实施例1

如图1-5所示，本发明包含四个步骤：训练数据集构建，网络模型搭建，模型训练和模型预测。训练数据集的构建和网络模型搭建是为了模型训练做基础，训练完模型以后，再利用已训练好的模型进行语义相似度的计算。

1.1手工构建训练数据集，数据集中每条数据保持统一的格式，在本申请中的格式为“文本1文本2标签”，每一条数据由两个文本即“文本1”和“文本2”以及一个标签组成，数据范例如下：“我想修改绑定的手机号绑定的手机号应该怎么修改1”，在每条数据中分隔“文本1”，“文本2”和“标签”的是制表符，标签为1则两个文本为相似文本，标签为0则该条数据为非相似文本。

1.2检查训练数据是否有缺失，即格式中“文本1”，“文本2”和“标签”的某一项或者某几项有缺失，则删除此条数据；再者如果文本中包含无意义的特殊符号以及由某些原因导致的乱码，将这些符号或者乱码从数据中删除。

1.3将所有训练数据进行分词，选用常规的分词工具，例如：jieba分词工具，利用分词之后的结果构建一个词典，其中词在词典中的位置按词的频率大小排序，再利用词在词典中的位置，将文本数据转化成one-hot稀疏向量，one-hot向量是一个稀疏向量，其中只有某一个维度元素为1，其他元素都为0，整个向量的维度对应词典的长度，元素为1的维度对应本词在词典用的位置，例如：“我想修改绑定的手机号”这个话的分词结果是“我想修改绑定的手机号”其中“我”这个词在字典的位置是2，那么其对应的one-hot向量是[0,1,0,0,0,…,0]，只有在第2维的值为1剩余都为0，向量长度等于词典大小。

2.1本发明的第二个步骤是网络模型的构建，首先建立embedding层即词向量嵌入层，这一层是将one-hot向量映射为低维度词向量X_E，具体是将one-hot向量乘以一个可训练的权重，公式表达如下：

X_E＝X_O×W

其中，X_O为one-hot向量，维度为L×D_L，L为句子长度，D_L为词典长度，W为可训练的权重，维度为D_L×D，D为词向量嵌入的维度，在本例中词向量维度取300维；

2.2构建一个三层的BI-LSTM网络，在每个BI-LSTM网络中加入一个残差网络，BI-LSTM网络结构分为三个门，包括遗忘门、输入门和输出门，遗忘门的公式如下：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

其中，σ为sigmoid激活函数，W_f为遗忘门可训练的权重，h_t-1为t-1时刻的cell输出，x_t即为2.1中的词向量，b_f为偏置。

输入门的公式如下：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

其中，tanh表示tanh激活函数，W_i为输入门可训练的权重，W_c为cell可训练权重，h_t-1为t-1时刻的cell输出，

为输出门更新前的输出，C_t为输出门更新后的输出，x_t即为2.1中的词向量，b_i，b_c为偏置。

输出门的公式如下：

o_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

其中，W_o为输出门可训练的权重，h_t-1为t-1时刻的cell输出，x_t即为2.1中的词向量，b_o为偏置。

残差网络的公式表达如下：

y＝F(x,W_i)+x

其中，F(x,W_i)为当前层BI-LSTM网络的输出，x为上一层BI-LSTM网络的输出，y是本层BI-LSTM网络的输出，也是下一层BI-LSTM网络的输入，BI-LSTM网络中的权重设置为150维。

2.3将两个三层BI-LSTM网络的输出做点积操作，构造一个二维的相似度矩阵，例如两个50维的向量做点积操作后，得到一个

二维矩阵。

2.4在获得相似度矩阵后，接卷积神经网络、最大池化层和一个全连接神经网络，其中卷积运算具体为：

上式中，k为10×10卷积核权重矩阵，A_ij为y_ij对应的输入数据中10×10邻域，x_l为二维相似度矩阵；卷积核滑动的步长为1。最大池化公式如下：

全连接网络的公式如下：

y＝f(Wx+b)

其中，W为权重，x为网络输入，y为网络输出，b为偏置，全连接层的权重维度为60。

2.5在CNN网络结构后再加上一个全连接的神经网络和softmax层作为网络模型的最后输出层，全连接网络公式与上面类似，但这里的全连接网络的权重维度为2，因为语义相似度问题本质上也是二分类问题，再对全连接网络的输出做softmax归一化操作，获得预测的概率。softmax公式如下：

其中，eⁱ为输出向量的一个元素，e^j为输出向量的每一个元素。至此本发明的网络模型构建已经完成。

本网络模型的参数设置如表1：

表1本发明的网络结构参数

参数名称	参数值
		embedding维度	300
BI-LSTM网络隐藏层参数大小	150
		构建相似度矩阵方式	点积
卷积核大小	10X10
		池化方式	最大池化
全连接层1维度	60
		全连接层2维度	2
优化算法	adam

3.1对整个网络模型的参数进行初始化，本实施例采用随机初始化的方法，随机初始化的方法细节如下：

其中，rand为随机数，n_i-1为第i-1层的权重总数。

3.2将训练数据集分批次输入到网络模型中，获得网络输出。批次大小可根据硬件性能和数据集大小确定，在本例中批次大小为64。

3.3根据训练集的标签0或1以及网络的输出计算交叉熵损失函数，交叉熵损失函数公式如下：

其中，x为网络输入，q为网络模型，p为标签。

3.4将损失函数值进行反向传播，更新深度网络的权重参数，即计算每一层网络的梯度，反向的梯度计算过程如下式：

其中，L表示损失函数，W_i为网络权重，y_i为网络输出，x_i为网络输入。

通过反向传播获得每个参数的梯度，再利用adam优化算法更新权重，公式表达如下：

m_t＝β₁·m_t-1+(1-β₁)·g_t

v_t＝β₂·v_t-1+(1-β₂)·g_t ²

其中，g_t为t时刻的梯度，m_t为t时刻的梯度的一阶矩，v_t表示t时刻的梯度的二阶矩，

为经过t轮迭代的梯度一阶矩，

为经过t轮迭代的梯度二阶矩，t为迭代步数，β₁，β₂，ε是超参数，β₂设为0.9999，ε设为10^-8。

3.5重复3.2到3.4直至模型收敛。

4.1在模型训练完成以后，利用已经训练好的模型进行预测，首先将输入文本转化成one-hot向量。

4.2加载已训练好的模型，将one-hot向量输入到模型中，获得模型最终的输出，此输出为二分类的概率，取概率更大的类别作为模型的最后预测结果。

本例的结果如下图6所示，本发明构建包括多层BI-LSTM网络、残差网络、CNN卷积神经网络、池化层和全连接层的深度学习语义相似度计算网络，同时使用BI-LSTM网络和CNN卷积神经网络，采用BI-LSTM网络中加入残差网络，克服了多层网络带来的梯度消失问题，增强了模型的特征提取能力；还使用三层BI-LSTM网络结构的输出来构建二维相似度矩阵，对这个矩阵使用CNN卷积神经网络，促使CNN卷积神经网络提取的特征语义信息更丰富，也解决了MatchPyramid模型使用词向量构建相似度矩阵特征不充分的问题。根据示例和测试数据可得，本申请的网络模型能够挖掘更多的语义特征，克服了现有模型的缺点，在语义相似度计算任务上能够取得更好的效果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的语义相似度计算方法，其特征在于：包括如下步骤：

步骤4：将待测文本转化为one-hot稀疏向量后，输入已训练的语义相似度计算网络模型，判定是否为相似文本后输出结果；

具体的，所述步骤2包括如下步骤：

X_E＝X_O×W

步骤2.5：构建输出网络：基于步骤2.4的网络依次连接一个全连接神经网络2和softmax层；

所述步骤3包括如下步骤：

2.根据权利要求1所述的一种基于深度学习的语义相似度计算方法，其特征在于：所述步骤1包括如下步骤：

步骤1.1：对构建的训练数据集的数据格式进行统一；

3.根据权利要求1所述的一种基于深度学习的语义相似度计算方法，其特征在于：所述步骤4包括如下步骤：

步骤4.1：将待测文本中的两个文本转化成one-hot稀疏向量；

4.根据权利要求1所述的一种基于深度学习的语义相似度计算方法，其特征在于：所述N为等于或者大于3的正整数。