CN113486645A

CN113486645A - 一种基于深度学习的文本相似度检测方法

Info

Publication number: CN113486645A
Application number: CN202110640512.4A
Authority: CN
Inventors: 杨鹏; 田杨静; 戈妍妍; 魏仕佳
Original assignee: Zhejiang Huaxun Technology Co ltd
Current assignee: Zhejiang Huaxun Technology Co ltd
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2021-10-08

Abstract

本发明公开了一种基于深度学习的文本相似度检测方法，该方法能够基于深度学习，细粒度地比较目标文本与待测文本的相似度。本发明首先利用XLNet模型获得文本的词向量表示，然后在此基础上使用BiLSTM模型学习词语的双向依赖以获得基于句粒度的文本表示矩阵；同时，在词嵌入阶段引入对抗训练，以增强模型的鲁棒性；其次，利用自注意力层提取不同句子对文本表示的贡献度，生成文本的深层语义特征；最后，融合目标文本与相似文本的深层文本表示矩阵得到交互矩阵，并利用卷积神经网络对特征进行抽取，实现基于句粒度的文本相似度判定。本发明从句粒度对文本建模，可以挖掘文本之间的深层语义特征，提高文本相似度判定的准确性。

Description

一种基于深度学习的文本相似度检测方法

技术领域

本发明涉及一种检测方法，具体涉及一种基于深度学习的文本相似度检测方法，属于互联网与人工智能技术领域。

背景技术

随着互联网技术的不断推广和人们参与时事积极性的提高，自媒体模式得到了快速发展。但是，自媒体平台审查能力欠缺以及创作者自律性不足导致自媒体行业畸形发展，自媒体作品抄袭现象时有发生。为了有效地对这些文本进行深入地挖掘和利用，很多学者针对文本相似度的计算提出不同的解决策略。传统方法往往采取对文本建模，进而比较提取的文本特征得到文本相似度。但是由于传统方法只考虑文本的浅层信息进行相似度计算，容易造成准确率难以提高的问题。随着深度学习技术在自然语言处理领域的发展，采用文本表层信息和语义信息相结合方式对文本进行建模，可以增强文本的表征信息，为后续文本相似度检测的计算提供基础。

但是，基于深度学习方法也存在某些问题。首先，传统方法大多使用Word2Vec模型得到词语的向量表示，但是Word2Vec模型基于大量语料库训练得到的是静态的词向量表示，无法针对不同文本中词语所处的上下文而进行修正，难以解决一词多义问题，导致得到的词向量对词语的语义特征表示不精确，最终检测结果精确度不高。然后，文本从句粒度对文本建模，常常是将不同句子的向量表示进行整合得到文本表示矩阵。这样的做法无法突出文本中不同句子的重要程度，缺乏对句子之间信息的考虑，导致文本建模精度不高，会影响到文本相似度检测的准确度。最后，对于文本抄袭的种类很多，例如近义词替换，但是常见的数据集无法包含不同的抄袭种类，会导致模型检测的准确度不高，模型的泛化能力不强。针对以上问题，亟需设计新的模型架构，以便有效地检测目标文本与待测文本的深层语义相似度。

发明内容

本发明正是针对现有技术中存在的问题，提供一种基于深度学习的文本相似度检测方法，该技术方案首先利用XLNet模型得到文本的词向量表示，然后使用BiLSTM捕获句子中词语的双向依赖，得到句向量表示。通过对基于句粒度的文本表示进行分析，得到两文本基于句粒度的相似度值。

为了实现上述目的，本发明的技术方案如下，一种基于深度学习的文本相似度检测方法，所述方法包括以下步骤：

步骤1，构建基于句粒度的文本表示矩阵，首先利用XLNet预训练模型得到单词的动态词向量表示，然后利用BiLSTM模型获取词语的上下文语义，构建基于句粒度的文本表示矩阵；

步骤2，对抗训练，在原训练集的基础上，文本对抗训练的加入可以添加对抗样本，增强模型的鲁棒性；

步骤3，自注意力模型的引入，由于基于句粒度的文本表示矩阵忽略句子之间的关系，故通过自注意力模型可以对文本中句子的贡献赋予不同的权重，学习到文本的深层语义；

步骤4，文本相似度判定，文本相似度判定模块主要将得到的文本交互矩阵输入卷积神经网络，进行特征抽取，将对文本相似度判定没有帮助的特征进行去除，最后利用softmax函数得到文本相似度值。

相对于现有技术，本发明具有如下优点，1)该技术方案利用XLNet模型获取词语的动态向量表示，并且文本抄袭主要是基于句粒度的借鉴，继而使用BiLSTM模型分析句子中词语的上下文信息得到基于句粒度的文本表示矩阵，这些信息可产生更准确的特征表示，从而带来更好的模型性能；2)在文本表示矩阵的基础上，利用自注意力机制学习不同句子之间的关系。将句子对文本的不同影响赋予不同的权重，增强文本的表征信息；3)引入对抗训练的思路，通过添加扰动构造一些对抗样本，提高模型在遇到对抗样本时的鲁棒性，同时在一定程度上提高模型的泛化能力。

附图说明

图1为本发明实施例的整体框架图。

图2为本发明实施例的自注意力模型单元计算图。

具体实施方式

为了加深对本发明的理解，下面结合附图对本实施例做详细的说明。

实施例1：如图1所示，本发明是一种基于深度学习的文本相似度检测方法，具体实施步骤如下：

步骤1，基于句粒度的文本表示矩阵构建。文本表示模型的优劣程度会严重影响到文本相似度计算的结果，本实例从句粒度构建文本的表示模型。首先利用XLNet获得文本的词向量表示，然后构建基于双向长短时记忆网络(BiLSTM)的语义提取模块，得到文本的句向量表示。

子步骤1-1，基于XLNet模型的词向量表示。在本实例中，使用哈尔滨工业大学讯飞联合实验室提出的XLNet-mid模型。同时，在XLNet模型的单词编码、段编码和位置编码三层编码层基础上添加词性编码，将四种编码层叠加作为最终词向量来表征词汇的语义信息。其中，词性编码如表1所示。最终，将经过预处理之后的文本作为模型的输入，使每个单词得到一个固定长度的词向量表示。

表1词性编码

子步骤1-2，基于BiLSTM模型的句向量表示。假设在XLNet模型中，利用“SEP”对文本划分，得到多个句子。其中第i个句子包含特征词的数量为l，那么第i句的词向量集可表示为X_i＝{x₁,x₂,…,x_t,…,x_l}，将第i个句子的词向量集X_i依次输入BiLSTM模型，经过全连接层进行线性映射得到第i个句子的句向量表示。

经过XLNet模型与BiLSTM模型之后，文本将转为一个基于句粒度的表示矩阵。若文本包含g个句子，每个句子的向量维度为l，则文本可以表示

步骤2，对抗训练。本实例中选择在XLNet的Token Embedding阶段的引入FreeLB方法来生成对抗样本。通过用样本集和对抗样本共同对模型进行训练，使得模型能识别出对抗样本，增强模型的鲁棒性，应对多种抄袭检测方法。FreeLB的公式可以表示：

其中，D代表训练集，x代表输入，y代表标签，θ表示模型参数，L(x+r_adv,y；θ)表示样本添加扰动之后的损失函数，r_adv表示对抗扰动。

步骤3，自注意力模型引入。本实例引入了自注意力模型学习文本中句子之间的依赖关系，改进模型的特征学习能力。如果对文本中句子之间的关系进行分析，自注意力模型可以根据句子对文本表征贡献的不同，对文本中的关键句子设置较高的权重，对没有意义的句子赋予较低的权重。假设Attention模型输入的特征表示为x_i，获得对应的y_i的步骤过程分为4个子步骤：

子步骤3-1，将输入特征的向量表示x_i与三个权值矩阵W^Q、W^K和W^V相乘获得三个向量q_i、k_i和v_i。

子步骤3-2，将q_i向量与不同特征的k_j向量进行点积运算，得到一个分数score_ij。

子步骤3-3，将得到的score_ij除以

然后再将获得的结果经过softmax函数标准化得到权重值w_ij，使其最后的列表和为1。w_ij的计算可以表示为公式：

子步骤3-4，将v_i向量与子步骤3-3中不同的权重值w_ij相乘累计得到输出y_i，可以表示为：

步骤4，文本相似度判定。利用步骤3处理后的深层文本表示矩阵获得交互矩阵，进而获得文本相似度的结果。该步骤的实施可以分为以下3个子步骤：

子步骤4-1，基于句粒度的交互矩阵表示。使用目标文本与待测文本获得文本交互矩阵。如果目标文本表示矩阵表示为

待测文本表示矩阵表示为

本实例采取将目标文本与待测文本进行矩阵相乘得到文本交互矩阵，表示为

计算可以表示为：

Z＝XY^T (4)

同时，交互矩阵的维度采用50*50，对于不足长度的矩阵进行填充，超过50长度进行截取。

子步骤4-2，特征提取与判定。对交互矩阵进行三层卷积层与池化层的交替操作来提取两个文本基于句粒度的多样性交互特征。其中，在单个通道中，在卷积层对输入的向量进行一维卷积得到特征，然后在池化层选取特征中的最大值。最后将每个通道中得到的特征进行拼接构成新的向量来表示文本；

子步骤4-3，损失函数设置。本实例选取交叉熵函数作为损失函数，对模型进行训练。并且，为了防止发生过拟合，在损失函数中添加L2正则化。损失函数最终可以表示为公式：

其中，在交叉熵函数部分，N表示样本的总数，y_i表示第i个样本期望的标签类别，是模型经过softmax函数后得到的概率值，它的取值范围是y_i∈{0,1}，

表示第i个样本预测的标签类别，在实验中，如果目标文本与待测文本是相似文本，则标记为1，反之，标记为0。在L2正则化部分，w表示权重系数。

在训练过程中采用Adam优化器进行梯度反向传播来更新模型参数，参数值为β₁＝0.9、β₂＝0.99、eps＝1e-8。

基于相同的发明构思，本发明实施例还提供一种基于深度学习的文本相似度检测方法与装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的基于深度学习的文本相似度检测方法。

需要说明的是，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

Claims

1.一种基于深度学习的文本相似度检测方法，其特征在于，所述方法包括以下步骤：

步骤1，构建基于句粒度的文本表示矩阵，

步骤2，对抗训练，

步骤3，自注意力模型的引入，

步骤4，文本相似度判定。

2.根据权利要求1所述的基于深度学习的文本相似度检测方法，其特征在于，所述步骤1，构建基于句粒度的文本表示矩阵，首先利用XLNet预训练模型得到单词的动态词向量表示，然后利用BiLSTM模型获取词语的上下文语义，构建基于句粒度的文本表示矩阵。

3.根据权利要求1所述的基于深度学习的文本相似度检测方法，其特征在于，步骤2，对抗训练，在原训练集的基础上，文本对抗训练的加入可以添加对抗样本，增强模型的鲁棒性。

4.根据权利要求1所述的基于深度学习的文本相似度检测方法，其特征在于，步骤3，自注意力模型的引入，由于基于句粒度的文本表示矩阵忽略句子之间的关系，故通过自注意力模型可以对文本中句子的贡献赋予不同的权重，学习到文本的深层语义。

5.根据权利要求1所述的基于深度学习的文本相似度检测方法，其特征在于，步骤4，文本相似度判定，文本相似度判定模块主要将得到的文本交互矩阵输入卷积神经网络，进行特征抽取，将对文本相似度判定没有帮助的特征进行去除，最后利用softmax函数得到文本相似度值。

6.根据权利要求1所述的基于深度学习的文本相似度检测方法，其特征在于，所述步骤1，具体如下：

子步骤1-1，基于XLNet模型的词向量表示，使用哈尔滨工业大学讯飞联合实验室提出的XLNet-mid模型，同时，在XLNet模型的单词编码、段编码和位置编码三层编码层基础上添加词性编码，将四种编码层叠加作为最终词向量来表征词汇的语义信息，其中，词性编码如表1所示，最终，将经过预处理之后的文本作为模型的输入，使每个单词得到一个固定长度的词向量表示；

表1词性编码

子步骤1-2，基于BiLSTM模型的句向量表示，假设在XLNet模型中，利用“SEP”对文本划分，得到多个句子，其中第i个句子包含特征词的数量为l，那么第i句的词向量集可表示为X_i＝{x₁,x₂,…,x_t,…,x_l}，将第i个句子的词向量集X_i依次输入BiLSTM模型，经过全连接层进行线性映射得到第i个句子的句向量表示；

经过XLNet模型与BiLSTM模型之后，文本将转为一个基于句粒度的表示矩阵，若文本包含g个句子，每个句子的向量维度为l，则文本可以表示

7.根据权利要求1所述的基于深度学习的文本相似度检测方法，其特征在于，步骤2，对抗训练，具体如下：选择在XLNet的Token Embedding阶段的引入FreeLB方法来生成对抗样本，通过用样本集和对抗样本共同对模型进行训练，使得模型能识别出对抗样本，增强模型的鲁棒性，应对多种抄袭检测方法，FreeLB的公式表示：

8.根据权利要求1所述的基于深度学习的文本相似度检测方法，其特征在于，步骤3，自注意力模型引入，具体如下：引入了自注意力模型学习文本中句子之间的依赖关系，改进模型的特征学习能力，如果对文本中句子之间的关系进行分析，自注意力模型可以根据句子对文本表征贡献的不同，对文本中的关键句子设置较高的权重，对没有意义的句子赋予较低的权重,假设Attention模型输入的特征表示为x_i，获得对应的y_i的步骤过程分为4个子步骤：

子步骤3-1，将输入特征的向量表示x_i与三个权值矩阵W^Q、W^K和W^V相乘获得三个向量q_i、k_i和v_i；

子步骤3-2，将q_i向量与不同特征的k_j向量进行点积运算，得到一个分数score_ij；

子步骤3-3，将得到的score_ij除以