CN113723070B

CN113723070B - 文本相似度模型训练方法、文本相似度检测方法及装置

Info

Publication number: CN113723070B
Application number: CN202110958349.6A
Authority: CN
Inventors: 杨洋; 李锋; 张琛; 万化
Original assignee: Shanghai Pudong Development Bank Co Ltd
Current assignee: Shanghai Pudong Development Bank Co Ltd
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2024-01-23
Anticipated expiration: 2041-08-20
Also published as: CN113723070A

Abstract

本申请涉及一种文本相似度模型训练方法、文本相似度检测方法及装置。其中方法通过分别对第一文本样本和第二文本样本进行编码处理，得到对应的第一特征编码和第二特征编码，通过第一特征编码和第二特征编码对孪生神经网络进行训练，并获取孪生神经网络训练后的损失，基于损失确定第一特征编码的第一扰动特征以及第二特征编码的第二扰动特征，进而对孪生神经网络进行迭代训练，从而得到用于文本相似度检测的文本相似度检测模型。由于本公开基于训练过程中的损失可以通过计算而产生新的训练数据，从而使得模型能够使用更多的数据进行训练，不仅可以提高模型的鲁棒性，还可以提升模型的泛化能力以及准确率。

Description

文本相似度模型训练方法、文本相似度检测方法及装置

技术领域

本申请涉及计算机应用技术，特别是涉及一种文本相似度模型训练方法、文本相似度检测方法及装置。

背景技术

在自然语言处理任务中，经常需要判断两篇文档是否相似，或者计算两篇文档的相似程度。比如，基于聚类算法发现微博热点话题时，需要度量各篇文本的内容相似度，然后让内容足够相似的微博聚成一个簇；而在问答系统中，则需要准备一些经典问题和对应的答案，当用户的问题和经典问题很相似时，系统直接返回准备好的答案；而监控稿件在互联网中的传播情况时，则可以把所有和原创稿件相似的文章，都看作转发，进而刻画原创稿件的传播范围；在对语料进行预处理时，则需要基于文本的相似度，把重复的文本给挑出来并删除。总之，文本相似度模型是一种非常有用的工具，可以帮助我们解决很多问题。

然而，在自然语言处理领域，通常采用传统的机器学习方法进行模型训练，但是，如果训练数据较少，则容易出现过拟合的现象，导致模型无法在验证集上得到较好的效果，从而无法在类似场景中直接应用。因此，传统的机器学习方法训练模型存在效果差、泛化能力不理想等弊端。

发明内容

基于此，有必要针对上述传统的机器学习方法训练模型存在效果差、泛化能力不理想的问题，提供一种文本相似度模型训练方法、文本相似度检测方法及装置。

一种文本相似度模型训练方法，所述方法包括：

分别对用于文本相似度训练的第一文本样本和第二文本样本进行编码处理，得到对应的第一特征编码和第二特征编码；

通过所述第一特征编码和所述第二特征编码对孪生神经网络进行训练；

获取所述孪生神经网络训练后的损失，基于所述损失确定所述第一特征编码的第一扰动特征以及所述第二特征编码的第二扰动特征；

根据所述第一特征编码和对应的第一扰动特征以及所述第二特征编码和对应的第二扰动特征对所述孪生神经网络进行迭代训练；

重复执行上述获取所述孪生神经网络训练后的损失的步骤，直到所述损失最小时，得到用于文本相似度检测的文本相似度检测模型。

在其中一个实施例中，所述基于所述损失确定所述第一特征编码的第一扰动特征以及所述第二特征编码的第二扰动特征，包括：获取所述损失关于所述第一特征编码的第一导数，将所述第一导数确定为所述第一特征编码的第一扰动特征；获取所述损失关于所述第二特征编码的第二导数，将所述第二导数确定为所述第二特征编码的第二扰动特征。

在其中一个实施例中，所述获取所述孪生神经网络训练后的损失，包括：获取所述孪生神经网络基于所述第一特征编码和所述第二特征编码，预测的所述第一文本样本和所述第二文本样本之间的相似度结果；根据所述第一文本样本和所述第二文本样本之间的相似度结果，确定所述孪生神经网络训练后的损失。

在其中一个实施例中，所述获取所述孪生神经网络基于所述第一特征编码和所述第二特征编码，预测的所述第一文本样本和所述第二文本样本之间的相似度结果，包括：将所述第一特征编码输入所述孪生神经网络的第一分支网络，得到所述第一分支网络输出的第一识别结果；将所述第二特征编码输入所述孪生神经网络的第二分支网络，得到所述第二分支网络输出的第二识别结果；获取所述第一识别结果与所述第二识别结果之间的距离，将所述距离确定为所述第一文本样本和所述第二文本样本之间的相似度结果。

在其中一个实施例中，所述获取所述第一识别结果与所述第二识别结果之间的距离，包括：其中，X_h为第一识别结果，X_b为第二识别结果，ξ为常数，D_w则为指数距离。

在其中一个实施例中，所述损失为对比损失；所述根据所述第一文本样本和所述第二文本样本之间的相似度结果，确定所述孪生神经网络训练后的损失，包括：

L(w,(Y,X_h,X_b)ⁱ)＝(1-Y)×L_D(D_w ⁱ)+Y×L_S(D_w ⁱ)；

L_D(D_w ⁱ)＝max(0,margin-D_w ⁱ)²；

L_S(D_w ⁱ)＝(D_w ⁱ)²；其中，m为样本数，w为模型参数，Y是数据标签，(Y,X_h,X_b)ⁱ是第i个样本示例，L_S(D_w ⁱ)是相似的输入样本对的部分损失函数，L_D(D_w ⁱ)是不同的输入样本对的部分损失函数。

在其中一个实施例中，所述损失为分类损失；所述根据所述第一文本样本和所述第二文本样本之间的相似度结果，确定所述孪生神经网络训练后的损失，包括：

L＝α×f₀(y)×max(0，0-D_w)²+β×f₁(y)×max(0，(D_w-l₂)×(D_w-l₃))²

+γ×f₂(y)×max(0，l₁-D_w)²

+δ×f₃(y)×max(0，(D_w-l₄)×(D_w-l₅))²

其中，f₀(y)、f₁(y)、f₂(y)以及f₃(y)为对应类别的指示函数，α、β、γ以及δ为每个类别的权重，l₁、l₂、l₃、l₄以及l₅为不同类别所对应的距离区间的边界值，D_w为距离也即相似度结果。

在其中一个实施例中，所述根据所述第一特征编码和对应的第一扰动特征以及所述第二特征编码和对应的第二扰动特征对所述孪生神经网络进行迭代训练，包括：根据所述第一特征编码叠加对应的第一扰动特征，得到更新后的第一特征编码；根据所述第二特征编码叠加对应的第二扰动特征，得到更新后的第二特征编码；采用更新后的第一特征编码和更新后的第二特征编码对所述孪生神经网络进行迭代训练。

一种文本相似度检测方法，所述方法包括：

获取用于文本相似度检测的第一文本和第二文本；

将所述第一文本和所述第二文本输入如权利要求1至8任一项所述文本相似度模型训练方法得到的文本相似度检测模型中，得到所述文本相似度检测模型输出的所述第一文本和所述第二文本之间的文本相似度结果。

一种文本相似度模型训练装置，所述装置包括：

编码模块，用于分别对用于文本相似度训练的第一文本样本和第二文本样本进行编码处理，得到对应的第一特征编码和第二特征编码；

训练模块，用于通过所述第一特征编码和所述第二特征编码对孪生神经网络进行训练；

扰动确定模块，用于获取所述孪生神经网络训练后的损失，基于所述损失确定所述第一特征编码的第一扰动特征以及所述第二特征编码的第二扰动特征；

所述训练模块还用于：根据所述第一特征编码和对应的第一扰动特征以及所述第二特征编码和对应的第二扰动特征对所述孪生神经网络进行迭代训练；并重复执行上述获取所述孪生神经网络训练后的损失，直到所述损失最小时，得到用于文本相似度检测的文本相似度模型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上所述的文本相似度模型训练方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的文本相似度模型训练方法。

上述文本相似度模型训练方法、文本相似度检测方法及装置，通过分别对用于文本相似度训练的第一文本样本和第二文本样本进行编码处理，得到对应的第一特征编码和第二特征编码，通过第一特征编码和第二特征编码对孪生神经网络进行训练，并获取孪生神经网络训练后的损失，基于损失确定第一特征编码的第一扰动特征以及第二特征编码的第二扰动特征，根据第一特征编码和对应的第一扰动特征以及第二特征编码和对应的第二扰动特征对孪生神经网络进行迭代训练，重复执行上述获取孪生神经网络训练后的损失的步骤，直到损失最小时，得到用于文本相似度检测的文本相似度检测模型。由于本公开基于训练过程中的损失可以通过计算而产生新的训练数据，进而采用新的训练数据对孪生神经网络进行迭代训练，从而使得模型能够使用更多的数据进行训练，不仅可以提高模型的鲁棒性，还可以提升模型的泛化能力以及准确率。

附图说明

图1为一个实施例中文本相似度模型训练方法的流程示意图；

图2为一个实施例中基于损失确定扰动特征步骤的流程示意图；

图3为一个实施例中获取损失步骤的流程示意图；

图4为一个实施例中预测相似度结果步骤的流程示意图；

图5为一个实施例中迭代训练步骤的流程示意图；

图6为一个实施例中文本相似度检测方法的流程示意图；

图7为一个实施例中文本相似度模型训练装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种文本相似度模型训练方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法可以包括以下步骤：

步骤102，分别对用于文本相似度训练的第一文本样本和第二文本样本进行编码处理，得到对应的第一特征编码和第二特征编码。

其中，第一文本样本和第二文本样本是用于进行相似度比较的样本文件，具体地，第一文本样本和第二文本样本可以分别是标题样本和正文样本。编码处理则是对文本进行潜在特征的编码，具体地，可以通过卷积神经网络(Convolutional NeuralNetworks，简称CNN)、长短期记忆网络(Long Short-Term Memory，简称LSTM)或编码器进行编码处理。第一特征编码和第二特征编码则是分别对第一文本样本和第二文本样本进行编码处理后得到的结果。在本实施例中，通过分别对用于文本相似度训练的第一文本样本和第二文本样本进行编码处理，从而得到对应的第一特征编码和第二特征编码。

步骤104，通过第一特征编码和第二特征编码对孪生神经网络进行训练。

其中，孪生神经网络是用于训练并得到文本相似度检测模型的基础网络。具体地，孪生神经网络具有两个分支，第一特征编码和第二特征编码则分别为两个分支的输入，例如，当第一特征编码为一个分支的输入时，则第二特征编码为另一个分支的输入。在本实施例中，孪生神经网络可以基于LSTM或CNN实现。通过将第一特征编码和第二特征编码分别输入孪生神经网络的两个分支，从而对孪生神经网络进行训练。

步骤106，获取孪生神经网络训练后的损失，基于损失确定第一特征编码的第一扰动特征以及第二特征编码的第二扰动特征。

其中，损失可以是孪生神经网络输出的所有样本的预测值和真实标签之间的所有差异之和，损失还可以基于孪生神经网络输出的样本预测值之间的距离确定。第一扰动特征和第二扰动特征则分别为第一特征编码和第二特征编码的噪声特征，通过引入噪声特征，从而可以增加对模型训练的训练数据，以提高模型的鲁棒性。在本实施例中，可以基于孪生神经网络训练后的损失，并通过计算而确定第一特征编码的第一扰动特征以及第二特征编码的第二扰动特征。

步骤108，根据第一特征编码和对应的第一扰动特征以及第二特征编码和对应的第二扰动特征对孪生神经网络进行迭代训练。

在本实施例中，根据第一特征编码和对应的第一扰动特征以及根据第二特征编码和对应的第二扰动特征而形成新的训练数据，进而采用新的训练数据对孪生神经网络进行迭代训练，从而使得模型能够使用更多的数据进行训练。

步骤110，重复执行上述获取孪生神经网络训练后的损失的步骤，直到损失最小时，得到用于文本相似度检测的文本相似度检测模型。

具体地，通过返回执行上述步骤106，获取孪生神经网络训练后的损失，可能理解的是，此处的损失是孪生神经网络采用新的训练数据对孪生神经网络进行迭代训练后的损失。如果该损失达到最小时，则停止训练，并得到用于文本相似度检测的文本相似度检测模型。如果该损失没有达到最小时，则循环执行上述步骤106，即根据新的损失计算新的扰动，根据新的扰动形成新的数据进行训练，并基于训练后的损失判定网络是否收敛，即损失是否达到最小，只有当损失最小时，才停止训练，并得到收敛的文本相似度检测模型。

上述文本相似度模型训练方法中，通过分别对用于文本相似度训练的第一文本样本和第二文本样本进行编码处理，得到对应的第一特征编码和第二特征编码，通过第一特征编码和第二特征编码对孪生神经网络进行训练，并获取孪生神经网络训练后的损失，基于损失确定第一特征编码的第一扰动特征以及第二特征编码的第二扰动特征，根据第一特征编码和对应的第一扰动特征以及第二特征编码和对应的第二扰动特征对孪生神经网络进行迭代训练，重复执行上述获取孪生神经网络训练后的损失的步骤，直到损失最小时，得到用于文本相似度检测的文本相似度检测模型。由于本公开基于训练过程中的损失可以通过计算而产生新的训练数据，进而采用新的训练数据对孪生神经网络进行迭代训练，从而使得模型能够使用更多的数据进行训练，不仅可以提高模型的鲁棒性，还可以提升模型的泛化能力以及准确率。

在一个实施例中，如图2所示，基于损失确定第一特征编码的第一扰动特征以及第二特征编码的第二扰动特征，具体可以包括：

步骤202，获取损失关于第一特征编码的第一导数，将第一导数确定为第一特征编码的第一扰动特征。

可以理解的是，由于损失是基于损失函数得到，在本实施例中，损失也即损失函数，具体可以采用任意计算损失的函数实现。其中，第一导数则是基于损失函数对输入孪生神经网络中一个分支的第一特征编码进行求导得到，也即第一导数是基于损失函数对第一特征编码的求导。

步骤204，获取损失关于第二特征编码的第二导数，将第二导数确定为第二特征编码的第二扰动特征。

同理，第二导数则是基于损失函数对输入孪生神经网络中另一个分支的第二特征编码进行求导得到，也即第二导数是基于损失函数对第二特征编码的求导。

上述实施例中，通过获取损失关于第一特征编码的第一导数，并将第一导数确定为第一特征编码的第一扰动特征，通过获取损失关于第二特征编码的第二导数，并将第二导数确定为第二特征编码的第二扰动特征。即通过对损失函数求导，产生对原有输入进行改变的极大梯度，即得到扰动特征，从而最大程度地改变输入，以形成新的训练数据。

在一个实施例中，如图3所示，获取孪生神经网络训练后的损失，具体可以包括如下步骤：

步骤302，获取孪生神经网络基于第一特征编码和第二特征编码，预测的第一文本样本和第二文本样本之间的相似度结果。

其中，相似度结果可以采用任意的相似度计算方式获得，例如可以采用softmax函数、sigmoid函数等进行计算。该相似度结果用于表征第一文本样本和第二文本样本之间的相似性。在本实施例中，孪生神经网络可以基于输入的第一特征编码和第二特征编码，而预测对应的第一文本样本和第二文本样本之间的相似度。

步骤304，根据第一文本样本和第二文本样本之间的相似度结果，确定孪生神经网络训练后的损失。

在本实施例中，可以采用损失函数，并根据第一文本样本和第二文本样本之间的相似度结果，通过计算而确定孪生神经网络训练后的损失。具体地，损失函数可以采用任意计算损失的函数实现。

上述实施例中，通过获取孪生神经网络基于第一特征编码和第二特征编码预测的第一文本样本和第二文本样本之间的相似度结果，并根据第一文本样本和第二文本样本之间的相似度结果，而确定孪生神经网络训练后的损失，进而可以基于损失并通过计算而产生新的训练数据，从而避免传统技术中因训练数据较少而容易出现过拟合的问题，以提高模型的泛化能力。

在一个实施例中，如图4所示，上述获取孪生神经网络基于第一特征编码和第二特征编码，预测的第一文本样本和第二文本样本之间的相似度结果，具体包括：

步骤402，将第一特征编码输入孪生神经网络的第一分支网络，得到第一分支网络输出的第一识别结果。

由于孪生神经网络是基于两个人工神经网络建立的耦合构架，在本实施例中，第一分支网络则是孪生神经网络中的一个人工神经网络。第一识别结果则是第一分支网络基于输入的第一特征编码进行处理后输出的结果。具体地，可以是对第一特征编码进行再次编码后的编码结果，也可以是对与第一特征编码所对应的第一文本样本的分类结果。

步骤404，将第二特征编码输入孪生神经网络的第二分支网络，得到第二分支网络输出的第二识别结果。

其中，第二分支网络则是孪生神经网络中的另一个人工神经网络。第二识别结果则是第二分支网络基于输入的第二特征编码进行处理后输出的结果。具体地，可以是对第二特征编码进行再次编码后的编码结果，也可以是对与第二特征编码所对应的第二文本样本的分类结果。

步骤406，获取第一识别结果与第二识别结果之间的距离，将距离确定为第一文本样本和第二文本样本之间的相似度结果。

其中，距离可以采用任意可导的距离函数进行计算，例如，欧氏距离、余弦距离、杰卡德距离、海明距离以及指数距离等。在本实施例中，可以基于距离函数计算第一识别结果与第二识别结果之间的距离，进而将计算得到的距离确定为第一文本样本和第二文本样本之间的相似度结果。

上述实施例中，通过将第一特征编码输入孪生神经网络的第一分支网络，得到第一分支网络输出的第一识别结果，将第二特征编码输入孪生神经网络的第二分支网络，得到第二分支网络输出的第二识别结果，并获取第一识别结果与第二识别结果之间的距离，将该距离确定为第一文本样本和第二文本样本之间的相似度结果，从而便于后续损失的计算。

在一个实施例中，当距离为指数距离时，则可以通过以下公式计算第一识别结果与第二识别结果之间的距离：

其中，X_h为第一识别结果，X_b为第二识别结果，ξ为基于经验设置的常数，该常数通常为一个0-1之间的数，D_w则为计算的第一识别结果与第二识别结果之间指数距离。在本实施例中，通过计算孪生神经网络两个分支网络输出的指数距离，从而可以增加两个分支网络输出之间的边际效益。

在一个实施例中，以损失为对比损失为例，则根据第一文本样本和第二文本样本之间的相似度结果，确定孪生神经网络训练后的损失，具体包括：

L(w,(Y,X_h,X_b)ⁱ)＝(1-Y)×L_D(D_w ⁱ)+Y×L_S(D_w ⁱ)；

L_D(D_w ⁱ)＝max(0,margin-D_w ⁱ)²；

L_S(D_w ⁱ)＝(D_w ⁱ)²；其中，m为样本数，w为模型参数，Y是数据标签，(Y，X_h，X_b)ⁱ是第i个样本示例，L_S(D_w ⁱ)是相似的输入样本对的部分损失函数，L_D(D_w ⁱ)是不同的输入样本对的部分损失函数。

由于当Y等于1时，其输入样本对是相似的，它们之间的距离应该尽可能小。所以L(w，(Y,X_h,X_b)ⁱ)等于(D_w ⁱ)²，这意味着这个样本对的损失与距离的平方成正比。而当Y等于0时，则表示输入样本对不同，则它们之间的距离应尽可能大。因此，本实施例中设置了一个正数margin值，该值是由实验统计分析得到的经验值，上述公式中max的操作也是为了保证两个不同输入的距离始终大于0。

在一个实施例中，以损失为分类损失为例，则根据第一文本样本和第二文本样本之间的相似度结果，确定孪生神经网络训练后的损失，具体包括：

+γ×f₂(y)×max(0，l₁-D_w)²

+δ×f₃(y)×max(0，(D_w-l₄)×(D_w-l₅))²

举例来说，若数据集的标签用数字编码为y＝{0,1,2,3}，分别表示一致、冲突、中立和不相关四个类别，则有(l₁、l₂)为类别“0”的区间范围，(l₂、l₃)为类别“1”的区间范围，(l₃、l₄)为类别“2”的区间范围，(l₄、l₅)为类别“3”的区间范围。可以理解的是，本实施例中的四个类别仅用作解释说明，并不用于限定本申请的范围，在实际应用时可以更多的类别。指示函数具体如下：

f₀(y)＝((1-y)×(2-y)×(3-y))/6；

f₁(y)＝((y-0)×(2-y)×(3-y))/2；

f₂(y)＝((0-y)×(1-y)×(3-y))/2；

f₃(y)＝((y-0)×(y-1)×(y-2))/6；

其中，y为神经网络输出的类别值，取值范围为上述标签{0,1,2,3}中的一个，将y代入到上述函数中，就能得到对应样本对属于上述4个类别的概率或距离的指示，这四个通常有三个为0，选出1个为1，即通过计算f₀(y)、f₁(y)、f₂(y)以及f₃(y)中有三个的结果为0，只有1个的结果为1。又由于不同的类别对应不同的部分损失函数，因此，将其代入到上述分类损失函数中，通过使用f_i(y)来选择正确的部分损失函数。同样，只有当样本对中每个样本的距离处于相应的区间时，该部分损失函数才会达到最小值。

在一个实施例中，如图5所示，根据第一特征编码和对应的第一扰动特征以及第二特征编码和对应的第二扰动特征对孪生神经网络进行迭代训练，具体包括：

步骤502，根据第一特征编码叠加对应的第一扰动特征，得到更新后的第一特征编码。

具体地，由于第一特征编码是对初始的第一文本样本进行的编码，因此，通过对第一特征编码叠加对应的第一扰动特征，从而得到更新后的第一特征编码，即得到新的样本数据。

步骤504，根据第二特征编码叠加对应的第二扰动特征，得到更新后的第二特征编码。

同理，由于第二特征编码是对初始的第二文本样本进行的编码，因此，通过对第二特征编码叠加对应的第二扰动特征，从而得到更新后的第二特征编码，即得到新的样本数据。

步骤506，采用更新后的第一特征编码和更新后的第二特征编码对孪生神经网络进行迭代训练。

在得到更新后的第一特征编码和更新后的第二特征编码后，则可以采用更新后的第一特征编码和更新后的第二特征编码对孪生神经网络进行迭代训练。即采用新的训练数据对孪生神经网络进行迭代训练，从而使得模型能够使用更多的数据进行训练，不仅可以提高模型的鲁棒性，还可以提升模型的泛化能力以及准确率。

具体地，举例来说，若第一特征编码为V_h，第二特征编码为V_b，则更新后的第一特征编码为V_h′，更新后的第二特征编码为V_b′，则有：

(V_h′，V_b′)＝-logf(y|V_h+r_adv ^h,V_b+r_adv ^b,w)，其中，f为神经网络，w为网络参数，r_adv ^h和r_adv ^b为对应的第一扰动特征和第二扰动特征，具体地：

其中，L为损失函数，g_h为基于损失函数对V_h的求导，g_b为基于损失函数对V_b的求导，ε为扰动的强度。则损失函数L的计算如下：

具体地，将第一特征编码为V_h和第二特征编码为V_b输入孪生神经网络后，可以得到神经网络输出的对应的第一识别结果X_h和第二识别结果X_b，则可以根据第一识别结果X_h和第二识别结果X_b计算距离D_w，以指数距离为例来说，进而计算损失函数L，以分类损失为例，具体计算公式如下：

+γ×f₂(y)×max(0，l₁-D_w)²

+δ×f₃(y)×max(0，(D_w-l₄)×(D_w-l₅))²

其中，f₀(y)、f₁(y)、f₂(y)以及f₃(y)为对应类别的指示函数，α、β、γ以及δ为每个类别的权重，l₁、l₂、l₃、l₄以及l₅为不同类别所对应的距离区间的边界值，D_w为距离。

本实施例可以在具有较少样本数据的情况下，通过引入对抗训练的技术，实现了文本的特殊数据增强，即通过对损失函数求导，产生对原有输入的改变，并获得极大的梯度，从而最大程度地改变输入，相当于产生了新的数据。这使得模型能够使用更多的数据进行训练，从而提高了模型准确率，并提升了模型的泛化能力。且实验证明，如果使用60％左右的数据，即能达到原来使用100％数据的效果，且在数据量足够的情况下，对抗训练方法能够进一步提高模型的效果。

在一个实施例中，如图6所示，本申请还提供了一种文本相似度检测方法，具体包括如下步骤：

步骤602，获取用于文本相似度检测的第一文本和第二文本。

其中，第一文本和第二文本是用于进行相似度检测的待测文本数据。具体地，第一文本和第二文本可以分别是标题文本和正文文本，本实施例中并不对此进行限定。

步骤604，将第一文本和第二文本输入文本相似度检测模型中，得到文本相似度检测模型输出的第一文本和第二文本之间的文本相似度结果。

其中，文本相似度检测模型是基于上述文本相似度模型训练方法得到的。文本相似度结果则用于表征第一文本与第二文本之间的相似性。

在本实施例中，通过采用上述文本相似度模型训练方法得到的文本相似度检测模型，来检测第一文本与第二文本之间的文本相似度，由于在训练文本相似度检测模型时是基于训练过程中的损失，并通过计算而产生新的训练数据，进而采用新的训练数据进行迭代训练，从而使得模型能够使用更多的数据进行训练，不仅可以提高模型的鲁棒性，还可以提升模型的泛化能力以及模型检测的准确率。

应该理解的是，虽然图1-图6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-图6中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种文本相似度模型训练装置，包括：编码模块702、训练模块704和扰动确定模块706，其中：

编码模块702，用于分别对用于文本相似度训练的第一文本样本和第二文本样本进行编码处理，得到对应的第一特征编码和第二特征编码；

训练模块704，用于通过所述第一特征编码和所述第二特征编码对孪生神经网络进行训练；

扰动确定模块706，用于获取所述孪生神经网络训练后的损失，基于所述损失确定所述第一特征编码的第一扰动特征以及所述第二特征编码的第二扰动特征；

所述训练模块704还用于：根据所述第一特征编码和对应的第一扰动特征以及所述第二特征编码和对应的第二扰动特征对所述孪生神经网络进行迭代训练；并重复执行上述获取所述孪生神经网络训练后的损失，直到所述损失最小时，得到用于文本相似度检测的文本相似度模型。

在一个实施例中，扰动确定模块具体用于：获取所述损失关于所述第一特征编码的第一导数，将所述第一导数确定为所述第一特征编码的第一扰动特征；获取所述损失关于所述第二特征编码的第二导数，将所述第二导数确定为所述第二特征编码的第二扰动特征。

在一个实施例中，扰动确定模块具体还用于：获取所述孪生神经网络基于所述第一特征编码和所述第二特征编码，预测的所述第一文本样本和所述第二文本样本之间的相似度结果；根据所述第一文本样本和所述第二文本样本之间的相似度结果，确定所述孪生神经网络训练后的损失。

在一个实施例中，扰动确定模块具体还用于：将所述第一特征编码输入所述孪生神经网络的第一分支网络，得到所述第一分支网络输出的第一识别结果；将所述第二特征编码输入所述孪生神经网络的第二分支网络，得到所述第二分支网络输出的第二识别结果；获取所述第一识别结果与所述第二识别结果之间的距离，将所述距离确定为所述第一文本样本和所述第二文本样本之间的相似度结果。

在一个实施例中，扰动确定模块具体还用于：其中，X_h为第一识别结果，X_b为第二识别结果，ξ为常数，D_w则为指数距离。

在一个实施例中，所述损失为对比损失；扰动确定模块具体还用于：

L(w,(Y,X_h,X_b)ⁱ)＝(1-Y)×L_D(D_w ⁱ)+Y×L_S(D_w ⁱ)；

L_D(D_w ⁱ)＝max(0,margin-D_w ⁱ)²；

在一个实施例中，所述损失为分类损失；扰动确定模块具体还用于：

L＝α×f₀(y)×max(0,0-D_w)²+β×f₁(y)×max(0,(D_w-l₂)×(D_w-l₃))²

+γ×f₂(y)×max(0,l₁-D_w)²

+δ×f₃(y)×max(0,(D_w-l₄)×(D_w-l₅))²

在一个实施例中，所述根据所述第一特征编码和对应的第一扰动特征以及所述第二特征编码和对应的第二扰动特征对所述孪生神经网络进行迭代训练，包括：根据所述第一特征编码叠加对应的第一扰动特征，得到更新后的第一特征编码；根据所述第二特征编码叠加对应的第二扰动特征，得到更新后的第二特征编码；采用更新后的第一特征编码和更新后的第二特征编码对所述孪生神经网络进行迭代训练。

关于文本相似度模型训练装置的具体限定可以参见上文中对于文本相似度模型训练方法的限定，在此不再赘述。上述文本相似度模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，也可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本相似度模型训练方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取所述损失关于所述第一特征编码的第一导数，将所述第一导数确定为所述第一特征编码的第一扰动特征；获取所述损失关于所述第二特征编码的第二导数，将所述第二导数确定为所述第二特征编码的第二扰动特征。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取所述孪生神经网络基于所述第一特征编码和所述第二特征编码，预测的所述第一文本样本和所述第二文本样本之间的相似度结果；根据所述第一文本样本和所述第二文本样本之间的相似度结果，确定所述孪生神经网络训练后的损失。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将所述第一特征编码输入所述孪生神经网络的第一分支网络，得到所述第一分支网络输出的第一识别结果；将所述第二特征编码输入所述孪生神经网络的第二分支网络，得到所述第二分支网络输出的第二识别结果；获取所述第一识别结果与所述第二识别结果之间的距离，将所述距离确定为所述第一文本样本和所述第二文本样本之间的相似度结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：其中，X_h为第一识别结果，X_b为第二识别结果，ξ为常数，D_w则为指数距离。

在一个实施例中，所述损失为对比损失；处理器执行计算机程序时还实现以下步骤：

L(w,(Y,X_h,X_b)ⁱ)＝(1-Y)×L_D(D_w ⁱ)+Y×L_S(D_w ⁱ)；

L_D(D_w ⁱ)＝max(0,margin-D_w ⁱ)²；

在一个实施例中，所述损失为分类损失；处理器执行计算机程序时还实现以下步骤：

L＝α×f₀(y)×max(0,0-D_w)²+β×f₁(y)×max(0,(D_w-l₂)×(D_w-l₃))²

+γ×f₂(y)×max(0,l₁-D_w)²

+δ×f₃(y)×max(0,(D_w-l₄)×(D_w-l₅))²

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据所述第一特征编码叠加对应的第一扰动特征，得到更新后的第一特征编码；根据所述第二特征编码叠加对应的第二扰动特征，得到更新后的第二特征编码；采用更新后的第一特征编码和更新后的第二特征编码对所述孪生神经网络进行迭代训练。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取用于文本相似度检测的第一文本和第二文本；将所述第一文本和所述第二文本输入如上所述的文本相似度模型训练方法得到的文本相似度检测模型中，得到所述文本相似度检测模型输出的所述第一文本和所述第二文本之间的文本相似度结果。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取所述损失关于所述第一特征编码的第一导数，将所述第一导数确定为所述第一特征编码的第一扰动特征；获取所述损失关于所述第二特征编码的第二导数，将所述第二导数确定为所述第二特征编码的第二扰动特征。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取所述孪生神经网络基于所述第一特征编码和所述第二特征编码，预测的所述第一文本样本和所述第二文本样本之间的相似度结果；根据所述第一文本样本和所述第二文本样本之间的相似度结果，确定所述孪生神经网络训练后的损失。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将所述第一特征编码输入所述孪生神经网络的第一分支网络，得到所述第一分支网络输出的第一识别结果；将所述第二特征编码输入所述孪生神经网络的第二分支网络，得到所述第二分支网络输出的第二识别结果；获取所述第一识别结果与所述第二识别结果之间的距离，将所述距离确定为所述第一文本样本和所述第二文本样本之间的相似度结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：其中，X_h为第一识别结果，X_b为第二识别结果，ξ为常数，D_w则为指数距离。

在一个实施例中，所述损失为对比损失；计算机程序被处理器执行时还实现以下步骤：

L(w,(Y,X_h,X_b)ⁱ)＝(1-Y)×L_D(D_w ⁱ)+Y×L_S(D_w ⁱ)；

L_D(D_w ⁱ)＝max(0,margin-D_w ⁱ)²；

在一个实施例中，所述损失为分类损失；计算机程序被处理器执行时还实现以下步骤：

L＝α×f₀(y)×max(0,0-D_w)²+β×f₁(y)×max(0,(D_w-l₂)×(D_w-l₃))²

+γ×f₂(y)×max(0,l₁-D_w)²

+δ×f₃(y)×max(0,(D_w-l₄)×(D_w-l₅))²

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据所述第一特征编码叠加对应的第一扰动特征，得到更新后的第一特征编码；根据所述第二特征编码叠加对应的第二扰动特征，得到更新后的第二特征编码；采用更新后的第一特征编码和更新后的第二特征编码对所述孪生神经网络进行迭代训练。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取用于文本相似度检测的第一文本和第二文本；将所述第一文本和所述第二文本输入如上所述的文本相似度模型训练方法得到的文本相似度检测模型中，得到所述文本相似度检测模型输出的所述第一文本和所述第二文本之间的文本相似度结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本相似度模型训练方法，其特征在于，所述方法包括：

重复执行上述获取所述孪生神经网络训练后的损失的步骤，直到所述损失最小时，得到用于文本相似度检测的文本相似度检测模型；

所述基于所述损失确定所述第一特征编码的第一扰动特征以及所述第二特征编码的第二扰动特征，包括：获取所述损失关于所述第一特征编码的第一导数，将所述第一导数确定为所述第一特征编码的第一扰动特征；获取所述损失关于所述第二特征编码的第二导数，将所述第二导数确定为所述第二特征编码的第二扰动特征；

所述获取所述孪生神经网络训练后的损失，包括：将所述第一特征编码输入所述孪生神经网络的第一分支网络，得到所述第一分支网络输出的第一识别结果；将所述第二特征编码输入所述孪生神经网络的第二分支网络，得到所述第二分支网络输出的第二识别结果；获取所述第一识别结果与所述第二识别结果之间的距离，将所述距离确定为所述第一文本样本和所述第二文本样本之间的相似度结果；根据所述第一文本样本和所述第二文本样本之间的相似度结果，确定所述孪生神经网络训练后的损失。

2.根据权利要求1所述的方法，其特征在于，所述获取所述第一识别结果与所述第二识别结果之间的距离，包括：

其中，X_h为第一识别结果，X_b为第二识别结果，ξ为常数，D_w则为指数距离。

3.根据权利要求2所述的方法，其特征在于，所述损失为对比损失；所述根据所述第一文本样本和所述第二文本样本之间的相似度结果，确定所述孪生神经网络训练后的损失，包括：

L(w,(Y,X_h,X_b)ⁱ)＝(1-Y)×L_D(D_w ⁱ)+Y×L_S(D_w ⁱ)；

L_D(D_w ⁱ)＝max(0,margin-D_w ⁱ)²；

L_S(D_w ⁱ)＝(D_w ⁱ)²；其中，m为样本数，w为模型参数，Y是数据标签，(Y,X_h,X_b)ⁱ是第i个样本示例，L_S(D_w ⁱ)是相似的输入样本对的部分损失函数，L_D(D_w ⁱ)是不同的输入样本对的部分损失函数，margin为设置的正数值，是由实验统计分析得到的经验值。

4.根据权利要求2所述的方法，其特征在于，所述损失为分类损失；所述根据所述第一文本样本和所述第二文本样本之间的相似度结果，确定所述孪生神经网络训练后的损失，包括：

L＝α×f₀(y)×max(0,0-D_w)²+β×f₁(y)×max(0,(D_w-l₂)×(D_w-l₃))²+γ×f₂(y)×max(0,l₁-D_w)²+δ×f₃(y)×max(0,(D_w-l₄)×(D_w-l₅))²

5.根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述第一特征编码和对应的第一扰动特征以及所述第二特征编码和对应的第二扰动特征对所述孪生神经网络进行迭代训练，包括：

根据所述第一特征编码叠加对应的第一扰动特征，得到更新后的第一特征编码；

根据所述第二特征编码叠加对应的第二扰动特征，得到更新后的第二特征编码；

采用更新后的第一特征编码和更新后的第二特征编码对所述孪生神经网络进行迭代训练。

6.一种文本相似度检测方法，其特征在于，所述方法包括：

获取用于文本相似度检测的第一文本和第二文本；

将所述第一文本和所述第二文本输入如权利要求1至5任一项所述文本相似度模型训练方法得到的文本相似度检测模型中，得到所述文本相似度检测模型输出的所述第一文本和所述第二文本之间的文本相似度结果。

7.一种文本相似度模型训练装置，其特征在于，所述装置应用于如权利要求1至5任一项所述的文本相似度模型训练方法，所述装置包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。