CN112966112B

CN112966112B - 基于对抗学习的文本分类模型训练和文本分类方法及装置

Info

Publication number: CN112966112B
Application number: CN202110322493.0A
Authority: CN
Inventors: 郑行; 邹泊滔; 严淮; 王鑫云; 吴潇丽; 汤深; 孙清清; 张天翼
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2023-08-08
Anticipated expiration: 2041-03-25
Also published as: CN112966112A

Abstract

说明书实施例提供了一种文本分类模型的训练方法和文本分类方法，文本分类模型包括文本分类网络、对抗文本生成网络，该方法包括：将第一文本样本输入对抗文本生成网络，获得第一对抗文本；根据第一对抗文本与第一文本样本的文本差异损失；确定第一对抗文本与第一文本样本对于文本分类网络的判别差异损失；以文本差异损失趋于变小、判别差异损失趋于变大为目标，训练对抗文本生成网络；将第二文本样本输入经过训练的对抗文本生成网络，生成第二对抗文本；将第二文本样本和所述第二对抗文本，输入文本分类网络，得到第二文本样本和第二对抗文本分别对应的分类结果,以该分类结果趋同于第二文本样本的分类标签为目标，更新文本分类网络。

Description

基于对抗学习的文本分类模型训练和文本分类方法及装置

技术领域

本说明书一个或多个实施例涉及机器学习领域和数据安全领域，尤其涉及一种基于对抗学习的文本分类模型训练和文本分类方法及装置。

背景技术

在大量业务领域中,例如反非法所得合法化制裁扫描、电商交易、内容安全等，存在着大量的文本对抗场景，攻击者会通过关键词改写、特殊字符、字符重复、音节替换、部分缺失、同/近义词替换、语种混写等各种对抗形式以干扰以文本分类模型为核心的风险控制系统的拦截，从而进行违规交易或者发表违规言论。

因此，需要一种在抗干扰能力方面鲁棒性更好的文本分类模型。

发明内容

本说明书中的实施例旨在提供更有效的文本分类模型的方法，解决现有技术中的不足。

根据第一方面,提供了一种文本分类模型的训练方法，所述文本分类模型包括文本分类网络、对抗文本生成网络，所述方法包括：

将第一文本样本输入对抗文本生成网络，获得第一对抗文本；

根据第一对抗文本与第一文本样本，确定文本差异损失；

确定所述第一对抗文本与第一文本样本对于所述文本分类网络的判别差异损失；

以所述文本差异损失趋于变小、所述判别差异损失趋于变大为目标，更新所述对抗文本生成网络；

将第二文本样本输入经过训练的所述对抗文本生成网络，生成第二对抗文本；

将所述第二文本样本和所述第二对抗文本，输入文本分类网络，得到第二文本样本和第二对抗文本分别对应的分类结果,以所述第二文本样本和第二对抗文本分别对应的分类结果趋同于所述第二文本样本的分类标签为目标，更新所述文本分类网络。

在一个实施例中,所述方法还包括，在确定所述第一对抗文本与第一文本样本对于所述文本分类网络的判别差异损失之前，对于所述文本分类网络进行预训练。

在一个实施例中,对于所述文本分类网络进行预训练，包括，基于第四文本样本和/或所述第一文本样本，对于所述文本分类网络进行预训练。

在一个实施例中,所述文本分类网络基于文本卷积网络TextCnn、长短期记忆网络LSTM中的一种。

在一个实施例中,所述根据第一对抗文本与第一文本样本，确定文本差异损失，包括，根据所述第一对抗文本与第一文本样本的文本编辑距离，确定文本差异损失。

在一个实施例中,所述确定所述第一对抗文本与第一文本样本对于所述文本分类网络的判别差异损失，包括：

将所述第一对抗文本与第一文本样本输入所述文本分类网络，分别获取所述第一对抗文本对应的文本分类网络的第一梯度，以及所述第一文本样本对应的文本分类网络的第二梯度；

根据第一梯度和第二梯度，确定所述第一对抗文本与第一文本样本对于文本分类模型的判别差异损失。

将所述第一对抗文本与第一文本样本输入所述文本分类网络，获取所述第一对抗文本与第一文本样本分别对应的分类结果；

根据所述第一对抗文本与第一文本样本分别对应的分类结果，确定所述第一对抗文本与第一文本样本对于文本分类模型的判别差异损失。

在一个实施例中,所述分类结果为离散性结果或连续性结果。

在一个实施例中,所述以所述文本差异损失趋于变小、所述判别差异损失趋于变大为目标，更新所述对抗文本生成网络，包括：

根据文本差异损失与判别差异损失的平方的加权差值，确定第一损失；

以所述第一损失趋于变小为目标，更新所述对抗文本生成网络。

在一个实施例中,将所述第二文本样本和所述第二对抗文本，输入文本分类网络，得到第二文本样本和第二对抗文本分别对应的分类结果，以所述第二文本样本和第二对抗文本分别对应的分类结果趋同于所述第二文本样本的分类标签为目标，更新所述文本分类网络,包括：

根据所述第二文本样本进行重采样，获取N1个第三文本样本；

根据所述第二对抗文本进行重采样，获取N2个第三对抗文本；所述N1与N2的比值为预先确定的；

将所述N1个第三文本样本、以及N2个第三对抗文本输入文本分类网络，得到所述N1个第三文本样本、以及N2个第三对抗文本分别对应的分类结果，以所述N1个第三文本样本、以及N2个第三对抗文本分别对应的分类结果趋同于所述第一文本样本的分类标签为目标，更新所述文本分类网络。

在一个实施例中,所述对抗文本生成网络为强化学习模型，通过多步动作获得所述第一对抗文本；

以所述文本差异损失趋于变小、所述判别差异损失趋于变大为目标，更新所述对抗文本生成网络，包括：

根据文本差异损失、所述判别差异损失，确定多步动作的奖励分数，所述奖励分数与所述文本差异损失负相关、与所述判别差异正相关；

根据所述多步动作的奖励分数，确定多步动作的预期累积奖励分数，以所述预期累积奖励分数趋于变大为目标，更新所述对抗文本生成网络。

根据第二方面,提供了一种文本分类方法，所述方法包括：

将待测文本输入根据第一方面所述的方法训练好的文本分类模型；

将所述文本分类模型的输出结果作为文本分类结果。

根据第三方面,提供了一种文本分类模型的训练装置，所述文本分类模型包括文本分类网络、对抗文本生成网络，所述装置包括：

对抗文本获取单元，配置为，将第一文本样本输入对抗文本生成网络，获得第一对抗文本；

文本差异损失确定单元，配置为，根据第一对抗文本与第一文本样本，确定文本差异损失；

判别差异损失确定单元，配置为，确定所述第一对抗文本与第一文本样本对于所述文本分类网络的判别差异损失；

对抗网络训练单元，配置为，以所述文本差异损失趋于变小、所述判别差异损失趋于变大为目标，更新所述对抗文本生成网络；

第二对抗文本获取单元，配置为，将第二文本样本输入经过训练的所述对抗文本生成网络，生成第二对抗文本；

分类网络训练单元，配置为，将所述第二文本样本和所述第二对抗文本，输入文本分类网络，得到第二文本样本和第二对抗文本分别对应的分类结果,以所述第二文本样本和第二对抗文本分别对应的分类结果趋同于所述第二文本样本的分类标签为目标，更新所述文本分类网络。

在一个实施例中，所述装置还包括，分类网络预训练单元，配置为，在确定所述第一对抗文本与第一文本样本对于所述文本分类网络的判别差异损失之前，对于所述文本分类网络进行预训练。

在一个实施例中，分类网络预训练单元，进一步配置为，基于第四文本样本和/或所述第一文本样本，对于所述文本分类网络进行预训练。

在一个实施例中，所述文本分类网络基于文本卷积网络TextCnn、长短期记忆网络LSTM中的一种。

在一个实施例中，文本差异损失确定单元，进一步配置为，根据所述第一对抗文本与第一文本样本的文本编辑距离，确定文本差异损失。

在一个实施例中，判别差异损失确定单元，进一步配置为，

在一个实施例中，判别差异损失确定单元，进一步配置为：

在一个实施例中，对抗网络训练单元，进一步配置为：

在一个实施例中，分类网络训练单元，进一步配置为：

将所述N1个第三文本样本、以及N2个第三对抗文本输入文本分类网络，得到所述N1个第三文本样本、以及N2个第三对抗文本分别对应的分类结果，以所述N1个第三文本样本、以及N2个第三对抗文本分别对应的分类结果趋同于所述第二文本样本的分类标签为目标，更新所述文本分类网络。

在一个实施例中，所述对抗文本生成网络为强化学习模型，对抗文本获取单元，进一步配置为，通过多步动作获得所述第一对抗文本；

对抗网络训练单元，进一步配置为：

以多步动作的预期累积的奖励分数趋于变大为目标，更新所述对抗文本生成网络。

根据第四方面,提供了一种文本分类装置,所述装置包括：

文本输入单元，配置为，将待测文本输入根据第一方面的方法训练好的文本分类模型中的文本分类网络；

分类结果输出单元，将所述文本分类网络的输出结果作为待测文本的分类结果。

根据第五方面,提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一、第二方面所述的方法。

根据第六方面,提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一、第二方面所述的方法。

利用以上各个方面中的方法、装置、计算设备、存储介质中的一个或多个，可以更为有效地在提高文本分类模型的鲁棒性，即对于施加了各种对抗形式的文本的分类能力。

附图说明

为了更清楚说明本发明实施例的技术方案，下面将对实施例描述中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出根据本说明书实施例的一种文本分类模型的训练方法的原理示意图；

图2示出根据本说明书实施例的一种文本分类模型的训练方法的流程图；

图3示出根据本说明书实施例的一种文本分类方法的流程图；

图4示出根据本说明书实施例的一种文本分类模型的训练装置的结构图；

图5示出根据本说明书实施例的一种文本分类装置的结构图。

实施方式

下面将结合附图，对本发明书提供的方案进行描述。

如前所述，现有的文本分类模型可能面临攻击者通过关键词改写、特殊字符、字符重复、音节替换、部分缺失、同/近义词替换、语种混写等多种对抗形式进行的攻击，从而导致文本分类模型效能降低，以文本分类模型为核心的风险控制系统则因此也面临一系列的安全问题。因此，加强文本分类模型面对施加上述对抗形式的文本时的分类能力是亟需解决的问题。

发明人研究了利用对抗学习来增强文本分类模型的方法。但是现有的基于对抗学习的方法用于增强文本分类模型存在不足。具体的，现有技术中利用对抗学习主要包括两种方案，第一种是基于梯度扰动的对抗方案，基于梯度扰动的对抗方案起源于图片对抗领域，图片分类模型通过朝损失函数梯度下降的方向调整参数训练模型，对应的，对抗样本通过朝损失函数梯度上升的方向微调样本数据就可以起到以微小的扰动造成对模型结果较大的影响，达到对抗目的。然而，文本空间与图片连续的像素空间不同，文本空间的离散性导致表征空间的连续扰动难以对应到文本空间的扰动或者对应的扰动幅度过大（例如：图片的像素灰度表现为连续的0~255数字，因此扰动可以直接表现为像素灰度的变化，而文本表示成向量后是不连续的，对文本向量增加扰动后通常无法对应到另一个文本），对抗样本缺乏有效性。第二种方案是通用生成对抗网络GAN方案，通用GAN常用于图片对抗领域，通过生成器生成对抗样本，由原始样本和生成的样本训练判别器，判别器的目标是区分生成的样本和原始样本。但是现有的通用GAN方案中训练的最终目标常常使得生成器可以生成足以以假乱真的图片，而判别器难以判定生成器生成的图片的真假。因此,通用生成对抗网络方案不能保证最终增强分类器的分类能力。

发明人为了解决上述技术问题，在本说明书中的实施例中，提出一种文本分类模型的训练方法、文本分类方法及其装置。下面说明该方法的基本思想。

图1示出根据本说明书实施例的一种文本分类模型的训练方法的原理示意图。如图1所示，该文本分类模型包括对抗文本生成网络和文本分类网络。先根据文本样本对文本分类网络进行预训练（或者利用已经训练过的文本分类网络）。然后，利用文本样本和经过预训练的文本分类网络来训练对抗文本生成网络，具体的训练方式是，将文本样本输入对抗文本生成网络，得到对抗文本，根据文本样本和对抗文本的文本差异（例如文本编辑距离），和文本分类网络对于文本样本和对抗文本的判别差异(例如，针对不同类型的文本分类网络，可以利用梯度差异或是分类结果打分差异)，训练对抗文本生成网络，训练的方向是使得文本差异趋向变小，而文本分类网络对于文本样本和对抗文本的判别差异趋向变大。接着，利用训练过的对抗文本生成网络生成的对抗文本和原来的文本样本对文本分类网络进行进一步增强训练，可以调节两者输入对抗文本生成网络的数量比例，从而使得文本分类网络的分类能力不断的增强。

使用该方法对文本分类模型进行训练，一方面通过训练一个对抗文本生成网络生成对原文本样本施加对抗扰动的对抗文本，从而使得文本分类网络的训练中可以利用对抗文本对文本分类模型进行训练，从而提高了文本分类网络对于对抗样本的分类能力。另一方面，利用原文本样本和对抗文本的混合样本训练文本分类模型，并可以调节其混合比例，避免由于对抗文本生成网络的过度增强导致文本分类模型失效的可能性，提高文本分类模型对于包括施加了对抗形式的文本在内的更广泛的文本的分类能力。

下面进一步阐述该方法的具体过程。

图2示出根据本说明书实施例的一种文本分类模型的训练方法的流程图。文本分类模型包括文本分类网络、对抗文本生成网络，该方法至少包括如下步骤：

在步骤21，将第一文本样本输入对抗文本生成网络，获得第一对抗文本。

所述第一文本样本例如为网络交易中包含交易内容的文本信息、或者网络上发表的言论的记录文本，也可以是网络业务涉及的关键信息例如实体名、地址等。当然，这些只是对第一文本样本的示例性的描述，而不用于限制本说明书实施例的范围。此外，通常第一文本样本有一个对应的分类标签，用于指示该文本样本的正确分类结果。

对抗文本生成网络的设计目的是为了根据文本样本生成对抗文本，该对抗文本用于干扰文本分类网络的分类能力，其具体训练方法在后续步骤中描述。

在步骤22，根据第一对抗文本与第一文本样本，确定文本差异损失。

所述文本差异损失用于衡量第一对抗文本与第一文本样本本身之间的差异，可以理解在不同的实施例中，可以具有不同的衡量两者之间差异的具体方式。在一个实施例中，可以根据第一对抗文本与第一文本样本的文本编辑距离，确定文本差异损失，其中文本编辑距离越大，文本差异损失越大，即文本差异损失与文本编辑距离正相关。具体的，文本编辑距离（Edit Distance），又称莱文斯坦（Levenshtein）距离，是指两个字符串（文本）之间，由一个转成另一个所需的最少编辑操作次数，其距离越大说明它们越是不同。所述编辑操作可以包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。在另一实施例中，还可以通过词嵌入的方式将第一对抗文本和第一文本样本分别转换为第一向量和第二向量，基于第一向量和第二向量，确定第一对抗文本和第一文本样本的文本相似度；进而，可以根据该文本相似度确定文本差异损失。其中，文本相似度越高，文本差异损失越小。在其他实施例中，还存在其他确定文本差异损失的方式，在此不一一枚举。

在步骤23，确定所述第一对抗文本与第一文本样本对于所述文本分类网络的判别差异损失。

判别差异损失，是指从文本分类网络对于文本进行分类判别的角度，第一对抗文本与第一文本样本的差异。根据不同的实施例，确定判别差异损失也可以具有不同的具体方式。

在一些实际应用场景中，判别差异损失可以基于文本分类网络的运行中的内部参数信息确定。因此，在一个实施例中，可以通过以下过程确定判别差异损失：

将第一对抗文本与第一文本样本输入文本分类网络，分别获取第一对抗文本对应的文本分类网络的第一梯度，以及第一文本样本对应的文本分类网络的第二梯度；根据第一梯度和第二梯度，确定所述第一对抗文本与第一文本样本对于文本分类模型的判别差异损失。具体的，第一梯度和第二梯度之间的差异越大，则判别差异损失越大；即判别差异损失与第一梯度和第二梯度的差值正相关。

神经网络模型的训练本质上可以理解为，将数据馈送到神经网络模型，然后让模型自动的“学习”，从而优化该神经网络模型的各种参数，在某一种参数配置下该模型可以最佳的匹配该学习任务。反向传播方法是实现模型自动“学习”的一种方式，其核心就是对神经网络每层的权重参数不断使用梯度下降来进行优化。而从数学角度,梯度是根据模型学习任务设置的损失函数相对于模型参数的偏导数构成的向量，其意义在于梯度的方向即为损失函数值变化最快的方向。梯度下降法，即基于梯度指示出函数值下降最快的方向，利用梯度，我们可以使用迭代的方法向损失函数值下降最快的方向调整模型参数，从而解决神经网络训练中的最优化问题。

梯度的计算一般至少需要利用训练样本的样本特征和当前的模型参数信息。因此，可以将第一对抗文本输入该文本分类网络，根据第一对抗文本的文本特征，当前模型参数信息，计算得到第一梯度；类似的，将第一文本样本输入该文本分类网络，计算得到第二梯度。

在另一些实际应用场景中，判别差异损失还可以基于文本分类网络的分类结果确定。因此，在一个实施例中，可以通过以下过程确定判别差异损失：

将第一对抗文本与第一文本样本输入所述文本分类网络，获取第一对抗文本与第一文本样本分别对应的分类结果；根据所述第一对抗文本与第一文本样本分别对应的分类结果，确定所述第一对抗文本与第一文本样本对于文本分类模型的判别差异损失。具体的，第一对抗文本与第一文本样本分别对应的分类结果之间的差异越大，则判别差异损失越大；即判别差异损失与分类结果的差异正相关。

在不同的例子中，文本分类网络给出的分类结果可以为离散性结果，例如给出输入的文本的类别，或连续性结果，例如给出输入的文本分别属于各个类别的概率。在一个例子中，可以根据文本分类网络给出的第一对抗文本与第一文本样本的类别，以及预先设定的判断类别间差距的规则，确定判别差异损失。在另一个例子中，可以根据文本分类网络给出的第一对抗文本与第一文本样本分别属于各个类别的概率的值的差，确定判别差异损失。

在一个实施例中，在确定第一对抗文本与第一文本样本对于所述文本分类网络的判别差异损失之前，可以对于文本分类网络进行预训练。对于文本分类网络预训练，可以利用第一文本样本和/或与第一文本不同的第四文本样本。

在不同的实施例中，文本分类网络可以基于不同的神经网络类型，例如其可以基于文本卷积网络TextCnn、长短期记忆网络LSTM中的一种，只需其具有文本分类能力即可，本说明书对此不作限定。

在步骤24，以所述文本差异损失趋于变小、所述判别差异损失趋于变大为目标，更新所述对抗文本生成网络。

根据不同的实施方式，以文本差异损失趋于变小、判别差异损失趋于变大为目标，训练对抗文本生成网络可以采用不同的具体方式。在一个实施例中，可以根据文本差异损失与判别差异损失的平方的加权差值，确定第一损失；以所述第一损失趋于变小为目标，更新所述对抗文本生成网络。

以数学方式表述，该对抗文本生成网络的训练的损失函数为：

其中， L _G为第一损失，L _T为文本差异损失，L _J为判别差异损失。

在不同的实施例中，对抗文本生成网络的训练的损失函数还可以设计为其他形式，只需其具有使训练达到文本差异损失趋于变小、判别差异损失趋于变大的目的即可，本说明书对此不作限定。

根据不同的实施方式，对抗文本生成网络还可以具有不同的对抗文本生成方式。例如，根据一种实施方式，对抗文本生成网络可以根据输入的文本样本输出完整的对抗文本。

根据另一种实施方式，对抗文本生成网络可以根据输入的文本样本分多步输出对抗文本，每步输出对抗文本的依序的一个部分，例如，每步依序输出对抗文本中的几个字/词，或其中一段。在一个实施例中，这种生成方式的对抗文本生成网络可以基于强化学习模型，通过多步动作获得所述第一对抗文本。在该实施例中，可以通过如下过程训练对抗文本生成网络：根据文本差异损失、所述判别差异损失，确定多步动作的奖励分数，奖励分数与所述文本差异损失负相关、与所述判别差异正相关；根据多步动作的奖励分数，确定多步动作的预期累积奖励分数，以预期累积奖励分数趋于变大为目标，更新对抗文本生成网络。

强化学习模型是一种半监督的机器学习模型，其本质是学习最优的决策序列，或者说其学习目的是学习到一种策略，使得根据该策略执行的一系列动作的长期积累的动作奖励最大化。而在上述的多步生成模式下，通常获得的判别差异损失只能基于文本分类模型对于整个对抗文本的分类判别得到，也就是说在上述多步生成过程中，难以得到对于每步输出的部分的判别结果。所以可以利用强化学习模型的特点，根据完整对抗文本得到文本差异损失、判别差异损失，确定其中多步动作的奖励分数，从而可以根据多步动作的预期累积的奖励分数趋于变大为目标，训练对抗文本生成网络。

以上通过多种方式，对对抗文本生成网络进行训练。于是，接下来可以利用训练的对抗文本生成网络，反过来对文本分类网络进行增强训练。

在步骤25，将第二文本样本输入经过训练的所述对抗文本生成网络，生成第二对抗文本。

该步骤中，将第二文本样本输入经过训练后的对抗文本生成网络，得到第二对抗文本。在不同的例子中，第二文本样本可以是与第一文本样本相同的文本样本，也可以是不同的文本样本。

需要理解，根据前述对抗文本生成网络的训练目标，经过训练的对抗文本生成网络，已经具备生成足够高质量的对抗文本的能力，即生成的对抗文本与输入文本的文本差异足够小，但是对于文本分类网络具有足够的分类混淆能力。因此，当将第二文本样本输入经过训练的对抗文本生成网络，生成得到的第二对抗文本将会与第二文本样本非常相似（文本差异很小），但是对于增强训练前的文本分类网络具有足够的攻击力。因此，我们可以使用这样的对抗样本，对文本分类网络进行增强训练。

于是，接下来，在步骤26，将第二文本样本和第二对抗文本，输入文本分类网络，得到第二文本样本和第二对抗文本分别对应的分类结果,以所述第二文本样本和第二对抗文本分别对应的分类结果趋同于所述第二文本样本的分类标签为目标，更新所述文本分类网络。

该步骤中，将第二文本样本和第二对抗文本混合输入文本分类网络，训练文本分类网络。需要注意的是，训练中也以第二文本样本的分类标签作为第二对抗文本的分类标签。

根据不同的实施方式，可以在训练中调节第二文本样本和第二对抗文本在输入中的数量比例，或者说通过权重参数调节两者输入数量的比重。根据一种实施方式，还可以对第二文本样本和第二对抗文本分别进行重采样，获得多个分别基于两者的两种重采样样本，将两种重采样文本输入文本分类网络，并调节其中两种重采样文本的数量比例。具体的，在一个实施例中，可以通过以下过程训练文本分类模型：根据第二文本样本进行重采样，获取N1个第三文本样本；根据第二对抗文本进行重采样，获取N2个第三对抗文本；所述N1与N2的比值为预先确定的；将N1个第三文本样本、以及N2个第三对抗文本输入文本分类网络，得到N1个第三文本样本、以及N2个第三对抗文本分别对应的分类结果，以N1个第三文本样本、以及N2个第三对抗文本分别对应的分类结果趋同于所述第一文本样本的分类标签为目标，更新所述文本分类网络。

这里的重采样是一种增广样本的方法，即根据原文本样本生成新的文本样本的方法，例如，在一个例子中可以通过同义词、近义词替换的方式替换原文本样本中的部分字词，从而得到新的样本。因此，可以通过对第二文本样本、第二对抗文本施加同义词、近义词替换，得到第三文本样本、第三对抗文本。

图3示出根据本说明书实施例的一种文本分类方法的流程图，该方法包括：

在步骤31，将待测文本输入根据图1所示方法训练好的文本分类模型。

在步骤32，将文本分类模型的输出结果作为文本分类结果。

可见，该文本分类方法即使用以图1所示方法训练好的文本分类模型对待测文本进行分类。

图4示出根据本说明书实施例的一种文本分类模型的训练装置，所述文本分类模型包括文本分类网络、对抗文本生成网络。如图4所示，该装置400包括：

对抗文本获取单元41，配置为，将第一文本样本输入对抗文本生成网络，获得第一对抗文本；

文本差异损失确定单元42，配置为，根据第一对抗文本与第一文本样本，确定文本差异损失；

判别差异损失确定单元43，配置为，确定所述第一对抗文本与第一文本样本对于所述文本分类网络的判别差异损失；

对抗网络训练单元44，配置为，以所述文本差异损失趋于变小、所述判别差异损失趋于变大为目标，更新所述对抗文本生成网络；

第二对抗文本获取单元45，配置为，将第二文本样本输入经过训练的所述对抗文本生成网络，生成第二对抗文本；

分类网络训练单元46，配置为，将所述第二文本样本和所述第二对抗文本，输入文本分类网络，得到第二文本样本和第二对抗文本分别对应的分类结果,以所述第二文本样本和第二对抗文本分别对应的分类结果趋同于所述第二文本样本的分类标签为目标，更新所述文本分类网络。

在一个实施例中，该装置还可以包括，分类网络预训练单元，配置为，在确定所述第一对抗文本与第一文本样本对于所述文本分类网络的判别差异损失之前，对于所述文本分类网络进行预训练。

在一个实施例中，分类网络预训练单元，可以进一步配置为，包括，基于第四文本样本和/或所述第一文本样本，对于所述文本分类网络进行预训练。

在一个实施例中，所述文本分类网络可以基于文本卷积网络TextCnn、长短期记忆网络LSTM中的一种。

在一个实施例中，文本差异损失确定单元，可以进一步配置为，根据所述第一对抗文本与第一文本样本的文本编辑距离，确定文本差异损失。

在一个实施例中，判别差异损失确定单元，可以进一步配置为，

在一个实施例中，判别差异损失确定单元，可以进一步配置为：

在一个实施例中，所述分类结果可以为离散性结果或连续性结果。

在一个实施例中，对抗网络训练单元，可以进一步配置为，

在一个实施例中，分类网络训练单元，可以进一步配置为：

在一个实施例中，所述对抗文本生成网络可以为强化学习模型，对抗文本获取单元，可以进一步配置为，通过多步动作获得所述第一对抗文本；

对抗网络训练单元，进一步配置为：

图5示出根据本说明书实施例的一种文本分类装置的结构图。如图5所示，该装置500包括：

文本输入单元51，配置为，将待测文本输入根据图2所示的方法训练好的文本分类模型中的文本分类网络；

分类结果输出单元52，将文本分类网络的输出结果作为待测文本的分类结果。

本说明书另一方面提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述任一项方法。

本说明书另一方面提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述任一项方法。

需要理解，本文中的“第一”，“第二”等描述，仅仅为了描述的简单而对相似概念进行区分，并不具有其他限定作用。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种文本分类模型的训练方法，所述文本分类模型包括文本分类网络、对抗文本生成网络，所述方法包括：

将第一文本样本输入基于强化学习模型的对抗文本生成网络，通过多步动作获得第一对抗文本；

根据第一对抗文本与第一文本样本，确定文本差异损失；

分别将所述第一对抗文本与第一文本样本输入所述文本分类网络，从所述文本分类网络分别对上述两个文本进行分类判别的角度，确定第一对抗文本与第一文本样本的判别差异损失；

根据文本差异损失、所述判别差异损失，确定多步动作的奖励分数，所述奖励分数与所述文本差异损失负相关、与所述判别差异正相关；以多步动作的预期累积的奖励分数趋于变大为目标，更新所述对抗文本生成网络；

2.根据权利要求1所述的方法，还包括，在确定所述第一对抗文本与第一文本样本对于所述文本分类网络的判别差异损失之前，对于所述文本分类网络进行预训练。

3.根据权利要求2所述的方法，其中，对于所述文本分类网络进行预训练，包括，基于第四文本样本和/或所述第一文本样本，对于所述文本分类网络进行预训练。

4.根据权利要求1所述的方法，其中，所述文本分类网络基于文本卷积网络TextCnn、长短期记忆网络LSTM中的一种。

5.根据权利要求1所述的方法，其中，根据第一对抗文本与第一文本样本，确定文本差异损失，包括，根据所述第一对抗文本与第一文本样本的文本编辑距离，确定文本差异损失。

6.根据权利要求1所述的方法，其中，所述确定所述第一对抗文本与第一文本样本的判别差异损失，包括：

分别获取所述第一对抗文本对应的文本分类网络的第一梯度，以及所述第一文本样本对应的文本分类网络的第二梯度；

7.根据权利要求1所述的方法，其中，所述确定所述第一对抗文本与第一文本样本的判别差异损失，包括：

获取所述第一对抗文本与第一文本样本分别对应的分类结果；

8.根据权利要求7所述的方法，其中，所述分类结果为离散性结果或连续性结果。

9.根据权利要求1所述的方法，其中，将所述第二文本样本和所述第二对抗文本，输入文本分类网络，得到第二文本样本和第二对抗文本分别对应的分类结果，以所述第二文本样本和第二对抗文本分别对应的分类结果趋同于所述第二文本样本的分类标签为目标，更新所述文本分类网络,包括：

10.一种文本分类方法,所述方法包括：

将待测文本输入根据权利要求1的方法训练好的文本分类模型中的文本分类网络；

将所述文本分类网络的输出结果作为待测文本的分类结果。

11.一种文本分类模型的训练装置，所述文本分类模型包括文本分类网络、对抗文本生成网络，所述装置包括：

对抗文本获取单元，配置为，将第一文本样本输入基于强化学习模型的对抗文本生成网络，通过多步动作获得第一对抗文本；

判别差异损失确定单元，配置为，分别将所述第一对抗文本与第一文本样本输入所述文本分类网络，从所述文本分类网络分别对上述两个文本进行分类判别的角度，确定第一对抗文本与第一文本样本的判别差异损失；

对抗网络训练单元，配置为，根据文本差异损失、所述判别差异损失，确定多步动作的奖励分数，所述奖励分数与所述文本差异损失负相关、与所述判别差异正相关；以多步动作的预期累积的奖励分数趋于变大为目标，更新所述对抗文本生成网络；

12.根据权利要求11所述的装置，还包括，分类网络预训练单元，配置为，在确定所述第一对抗文本与第一文本样本对于所述文本分类网络的判别差异损失之前，对于所述文本分类网络进行预训练。

13.根据权利要求12所述的装置，其中，分类网络预训练单元，进一步配置为，基于第四文本样本和/或所述第一文本样本，对于所述文本分类网络进行预训练。

14.根据权利要求11所述的装置，其中，所述文本分类网络基于文本卷积网络TextCnn、长短期记忆网络LSTM中的一种。

15.根据权利要求11所述的装置，其中，文本差异损失确定单元，进一步配置为，根据所述第一对抗文本与第一文本样本的文本编辑距离，确定文本差异损失。

16.根据权利要求11所述的装置，其中，判别差异损失确定单元，进一步配置为，

17.根据权利要求11所述的装置，其中，判别差异损失确定单元，进一步配置为：

18.根据权利要求11所述的装置，其中，分类网络训练单元，进一步配置为：

19.一种文本分类装置,所述装置包括：

文本输入单元，配置为，将待测文本输入根据权利要求1的方法训练好的文本分类模型中的文本分类网络；

20.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-10中任一项的所述的方法。

21.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-10中任一项所述的方法。