CN111241287A

CN111241287A - 用于生成对抗文本的生成模型的训练方法及装置

Info

Publication number: CN111241287A
Application number: CN202010048326.7A
Authority: CN
Inventors: 任彦昆
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2020-06-05

Abstract

本说明书实施例提供一种用于生成对抗文本的生成模型的训练方法及装置，在方法中，将具有分类标签的原始文本输入生成模型，生成对抗文本，该对抗文本用于模拟对目标分类模型的攻击。将对抗文本分别输入预先训练的目标分类模型和第二分类模型，得到第一分类结果和第二分类结果。第二分类模型用于基于文本的情感极性实现文本分类。根据第一分类结果和原始文本的分类标签，确定第一预测损失。根据第二分类结果和原始文本的分类标签，确定第二预测损失。根据原始文本与对抗文本的文本距离，确定第三预测损失。以最大化第一预测损失，且最小化第二预测损失和第三预测损失为目标，训练生成模型。

Description

用于生成对抗文本的生成模型的训练方法及装置

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及一种用于生成对抗文本的生成模型的训练方法及装置。

背景技术

在一个分类任务中，对于文本x，假设目标分类模型将其分类为类别y。现对文本x进行微小的改变，得到文本x’。对于文本x’，假设目标分类模型将其分类为类别y’。若y与y’不同，并且x’对于预定人员来说真实类别依然为y，那么文本x’就可以看作是文本x的对抗文本，它成功攻击了目标分类模型。

对抗文本有很重要的作用。例如在大型网络社区中，为了能够保护网络社区的安全，通常需要使用目标分类模型对用户发表的内容(即文本)进行分类，找出其中的违规内容。而若想目标分类模型能够实现内容的准确分类，就需要找到目标分类模型的弱点，如，获取到用户发表的内容的对抗文本，同时使用这些对抗文本训练目标分类模型，由此可以使目标分类模型能够正确分类这些对抗文本，以此抵御外界的攻击。因此，对抗文本的生成就成为要解决的问题。

发明内容

本说明书一个或多个实施例描述了一种用于生成对抗文本的生成模型的训练方法及装置，可以生成大规模有效的对抗文本。

第一方面，提供了一种用于生成对抗文本的生成模型的训练方法，包括：

将具有分类标签的原始文本输入生成模型，以生成所述原始文本对应的对抗文本；所述对抗文本用于模拟对目标分类模型的攻击；所述原始文本包括多个文本特征；

将所述对抗文本输入预先训练的目标分类模型，输出第一分类结果；并且，将所述对抗文本输入预先训练的、基于文本的情感极性实现文本分类的第二分类模型，输出第二分类结果；

根据所述第一分类结果和所述原始文本的分类标签，确定第一预测损失；根据所述第二分类结果和所述原始文本的分类标签，确定第二预测损失；至少根据所述原始文本与所述对抗文本之间的文本距离，确定第三预测损失；

以最大化所述第一预测损失，且最小化所述第二预测损失和所述第三预测损失为目标，训练所述生成模型。

第二方面，提供了一种用于生成对抗文本的生成模型的训练装置，包括：

生成单元，用于将具有分类标签的原始文本输入生成模型，以生成所述原始文本对应的对抗文本；所述对抗文本用于模拟对目标分类模型的攻击；所述原始文本包括多个文本特征；

输入输出单元，用于将所述对抗文本输入预先训练的目标分类模型，输出第一分类结果；并且，将所述对抗文本输入预先训练的、基于文本的情感极性实现文本分类的第二分类模型，输出第二分类结果；

确定单元，用于根据所述第一分类结果和所述原始文本的分类标签，确定第一预测损失；根据所述第二分类结果和所述原始文本的分类标签，确定第二预测损失；至少根据所述原始文本与所述对抗文本之间的文本距离，确定第三预测损失；

训练单元，用于以最大化所述第一预测损失，且最小化所述第二预测损失和所述第三预测损失为目标，训练所述生成模型。

第三方面，提供了一种计算机存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

本说明书一个或多个实施例提供的用于生成对抗文本的生成模型的训练方法及装置，可以最大化第一预测损失，且最小化第二预测损失和第三预测损失为目标，训练生成模型。由此，可以大大提升模型训练的准确性。此外，在基于该生成模型生成对抗文本时，该对抗文本可以与原始文本的情感极性相一致，且目标分类模型能够区分该对抗文本与原始文本的类别。进而提升了所生成的对抗文本的准确性。

附图说明

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1说明书提供的VAE训练方法示意图；

图2为本说明书提供的模型连接框图；

图3为本说明书一个实施例提供的用于生成对抗文本的生成模型的训练方法流程图；

图4为本说明书一个实施例提供的用于生成对抗文本的生成模型的训练装置示意图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

在描述本说明书提供的方案之前，先对本方案的发明构思作以下说明。

传统技术中，主要通过如下两种方法来生成对抗文本(用于模拟对目标分类模型的攻击)：第一种，基于梯度的方法，在该方法中，首先计算原文中单词的嵌入式向量的梯度，然后使用梯度迭代修改嵌入式向量，将最终修改得到的嵌入式向量映射到具体的单词。将原文中的单词替换为映射得到的单词，从而得到原文的对抗文本。然而这种方法只能根据一个已有的有标注文本生成一个对应的对抗文本，因此生成对抗文本数量有限。并且需要多次计算梯度，速度很慢。第二种，基于编辑的方法，在该方法中，首先计算原文中各单词的嵌入式向量的梯度，基于梯度找到原文中最重要的单词。然后通过修改最重要单词的拼写或同义词替换来得到对抗文本。这种方法也需要根据一个已有的有标注文本生成一个对应的对抗文本，因此生成对抗文本数量有限。并且需要计算梯度，速度也比较慢。

为了解决所生成的对抗文本数量有限的问题，本领域技术人员提出基于生成模型来生成对抗文本的方法。这里的生成模型可以包括但不限于自动编码器(Auto Encoder，AE)、变分自动编码器(Variational Autoencoder，VAE)以及生成对抗网络(GenerativeAdversarial Networks，GAN)等。

在基于生成模型生成对抗文本时，可以先训练生成模型，之后基于训练后的生成模型生成对抗文本。

以生成模型为AE来说，AE可以包括编码器和解码器。AE的训练过程，即为调整编码器和解码器各自的参数的过程。这里的编码器和解码器可以为任意的模型，如，可以神经网络模型。具体地，编码器用于将真实文本编码为隐向量，解码器用于将隐向量解码为对抗文本。在传统技术中，可以基于如下的损失函数，训练AE。

其中，x为真实文本，x’真实文本对应的对抗文本。(x-x')²表征真实文本与对抗文本之间的文本距离。通过在损失函数中引入该部分内容，可以确保生成模型的准确率，即可以确保所生成的对抗文本接近于真实文本。

在AE训练完成之后，随机采样服从标准正态分布的目标向量，并将其输入到训练后的AE的解码器。之后，通过解码器的输出得到新对抗文本。可以理解的是，由于可以随机采样目标向量，从而采样的目标向量的数量可以不受限制，进而可以生成大量的对抗文本。

再以生成模型为VAE来说，VAE可以包括编码器、解码器和采样单元。VAE的训练过程，也为调整编码器和解码器各自的参数的过程。其具体训练过程可参见图1所示。图1中，编码器和解码器可以为任意的模型，如，可以神经网络模型。其中，编码器具体可以用于针对每个真实文本(即，x1-x6)，生成该真实文本对应的正态分布的均值(μ)和标准差(σ)。采样单元，用于在编码器生成的均值和标准差限定的正态分布中进行采样，并基于采样结果得到一个隐向量(z)。如，z＝μ+σ〃ε，其中，ε为服从标准正态分布的向量。可以理解的是，由于基于确定的均值和标准差，可以唯一地确定一个正态分布。因此，采样单元最终生成的隐向量可以服从一个正态分布。也即，针对每个真实文本，通过编码器可以构造一个专属的正态分布。在采样单元生成真实文本对应的隐向量之后，可以将该隐向量输入解码器。通过解码器的输出可以得到真实文本对应的对抗文本。

由于在VAE中，编码器的作用发生了变化，从而可以基于如下的损失函数，训练VAE。

其中，x为真实文本，x’真实文本对应的对抗文本，z为真实文本对应的隐向量所服从的正态分布，p为标准正态分布。

需要说明的是，公式2的前半部分内容：(x-x')²表征真实文本与对抗文本之间的文本距离。如前所述，通过在损失函数中引入该部分内容，可以确保生成模型的准确率，即可以确保所生成的对抗文本接近于真实文本。公式2的后半部分内容：KL(z||p)表征隐向量所服从的正态分布与标准正态分布之间的距离(也称Kullback-Leible散度值，简称KL散度值)。通过在损失函数中引入该部分内容，可以使得真实文本对应的隐向量所服从的正态分布能够接近于标准正态分布。

在一个例子中，上述真实文本对应的KL散度值可以基于公式3进行计算。

KL＝μ²+e^σ-(1+σ) (公式3)

其中，μ和σ分别为在生成真实文本所对应的隐向量的过程中，由编码器针对该真实文本生所成的均值和标准差。

在基于上述方法对VAE进行训练之后。可以随机采样服从标准正态分布的目标向量，并将其输入到训练后的VAE的解码器中，通过解码器的输出可以得到相应的对抗文本。可以理解的是，由于可以随机采样目标向量，从而采样的目标向量的数量可以不受限制，进而可以生成大量的对抗文本。

此外，由于在VAE的训练过程中，损失函数中还引入了后半部分的内容(即KL(z||p))，这会使得解码器针对各真实文本生成的隐向量服均从标准正态分布。由于在训练过程中，解码器解码的对象为服从标准正态分布的隐向量。因此，之后随机采样服从标准正态分布的目标向量，并基于其来生成对抗文本时，所生成的对抗文本更准确。

需要说明的是，结合公式1和公式2的损失函数可以得出，上述生成模型的训练方法只能确保生成的对抗文本整体上接近于真实文本，而并不能保证目标分类模型能够对该两者的类别进行区分。如，目标分类模型将真实文本分类为类别y，而将对抗文本分类为类别y’，且y不同于y’。然而在实际场景下，通常希望目标分类模型能够准确识别各自的类别。如，在生成用户评论内容的对抗文本的场景下，希望目标分类模型能够将真实的用户评论内容分类为正常内容，而将攻击者模拟生成的评论内容分类为违规内容。因此，本申请还可以引入一个损失函数(后续说明)，以保证目标分类模型能够对真实文本与对抗文本的类别进行区分。

此外，基于上述生成模型的训练方法，还不能保证对抗文本的内容与真实文本的情感极性一致。然而在实际场景下，通常希望两者的内容相近。如，在生成用户评论内容的对抗文本的场景下，如果真实的用户评论内容所表达的是正面情感，那么希望生成的对抗文本所表达的也是正面情感。为此，本申请还可以引入另一个损失函数(后续说明)，以保证对抗文本与真实文本的情感极性相一致。

综合以上，本申请提出了一种新的生成模型的训练方法，该训练方法基于三个损失函数进行。由此，可以使得在基于该生成模型生成对抗文本时，目标分类模型能够区分真实文本与对抗文本的类别。此外，还可以使得该对抗文本与真实文本的情感极性相一致，这大大提升了所生成的对抗文本的准确性。

以上就是本说明书提供的发明构思，基于该发明构思就可以得到本方案，以下对本方案进行详细阐述。

图2为本说明书提供的模型连接框图。图2中，首先将具有分类标签的原始文本(即上述真实文本)输入生成模型，之后通过生成模型的输出得到原始文本对应的对抗文本。将得到的对抗文本输入到预先训练的目标分类模型，并通过输出确定对抗文本的第一预测结果(即类别)。之后，基于第一预测结果与上述分类标签确定第一预测损失。此外，对于生成的对抗文本，还可以将其输入到预先训练的第二分类模型，并通过输出确定对抗文本的第二预测结果。之后，基于第二预测结果与上述分类标签确定第二预测损失。最后，还可以基于公式1确定第三预测损失。在确定出上述三种损失之后，以最大化第一预测损失，且最小化第二预测损失和第三预测损失为目标，训练生成模型。其具体训练过程后续说明。

以下结合图3对本方案提供的用于生成对抗文本的生成模型的训练方法进行说明。

图3为本说明书一个实施例提供的用于生成对抗文本的生成模型的训练方法流程图。所述方法的执行主体可以为具有处理能力的设备：服务器或者系统或者装置。如图3所示，所述方法具体可以包括：

步骤302，将具有分类标签的原始文本输入生成模型，以生成原始文本对应的对抗文本。该对抗文本用于模拟对目标分类模型的攻击。

这里的原始文本可以包括但不限于用户评论内容以及广告内容等。上述生成模型可以包括但不限于自动编码器(Auto Encoder，AE)、变分自动编码器(VariationalAutoencoder，VAE)以及生成对抗网络(Generative Adversarial Networks，GAN)等。以生成模型为VAE为例来说，其可以如图2所示，即该生成模型可以包括编码器、解码器和采样单元。编码器，用于接收原始文本，输出原始文本对应的正态分布的均值和标准差。采样单元，用于在均值和标准差限定的正态分布中进行采样，并基于采样结果得到一个隐向量。解码器，用于对隐向量解码得到原始文本对应的对抗文本。

步骤304，将对抗文本输入预先训练的目标分类模型，输出第一分类结果，并且，将对抗文本输入预先训练的、基于文本的情感极性实现文本分类的第二分类模型，输出第二分类结果。

对于上述目标分类模型，其可以采用神经网络、梯度决策树、贝叶斯分类、支持向量机等算法实现。需要说明的是，在执行生成模型的训练步骤的过程中，目标分类模型是预先训练好的。在一个例子中，可以基于交叉熵损失函数、铰链损失函数以及指数损失函数等，对目标分类模型进行训练。

此外，上述目标分类模型可以用于进行基于文本分析的业务处理(如，舆情分析以文档归类等)。

对于上述第二分类模型，其可以为任一能基于文本的情感极性实现文本分类的模型。如，可以为Google BERT模型或者线性分类模型等。

以第二分类模型为线性分类模型为例，其可以基于如下的损失函数训练第二分类模型。

其中，xi为文本i，g为线性运算函数，g(xi)为文本i的预测结果，yi为文本i的分类标签，λΩ(w)为L1正则项。

需要说明的是，基于上述损失函数，对线性分类模型进行训练后，该线性分类模型可以具有特征选择的作用。如，可以过滤掉文本中不适宜出现的词，而保留适宜的词。该特征选择的作用的原理如下：

在训练第二分类模型的过程中，对于输入到第二分类模型的训练样本，可以采用任意的词向量化方法，对其中的每个词进行词向量化，从而针对每个词，可以得到N(N为正整数)维的词向量。之后，将各个词的N维的词向量进行拼接，以得到原始样本对应的句子向量。在实际中，训练样本对应的句子向量通常设定为M维(M为大于N的正整数)。在第二分类模型中，针对训练样本的每个维度可以设定对应的权重值。从而，针对第二分类模型的训练过程可以理解为是不断调整每个维度对应的权重值的过程。可以理解的是，在训练第二分类模型之后，模型中重要维度对应的权重值较高，而不重要的维度对应的权重值较低，由此，就可以实现特征选择的作用。

在本说明书中，可以基于相同的训练样本集训练目标分类模型和第二分类模型。从而，训练得到的目标分类模型和第二分类模型可以进行相同的业务处理。如，均用于进行舆情分析等。

还需要说明的是，步骤302中输入到生成模型的原始文本是基于目标分类模型和第二分类模型所进行的业务处理而确定。具体地，若该两者均用于进行舆情分析，那么输入到生成模型的原始文本可以为正常评论内容和违规评论内容等。

步骤306，根据第一分类结果和原始文本的分类标签，确定第一预测损失，根据第二分类结果和原始文本的分类标签，确定第二预测损失，至少根据原始文本与对抗文本之间的文本距离，确定第三预测损失。

在一个例子中，可以基于如下的损失函数，确定第一预测损失。

其中，

为第一预测损失，x’为对抗文本，f(x’)为对抗文本的第一分类结果，f为对应于目标分类模型的函数或算法，y为原始文本的分类标签。

应理解，上述公式5仅为本说明书给出的确定第一预测损失的一种示例，在实际应用中，还可以在公式5中加入正则项等，本说明书对此不作限定。

在一个例子中，可以基于如下的损失函数，确定第二预测损失。

其中，

为第二预测损失，x’为对抗文本，g(x’)为对抗文本的第二分类结果，g为对应于第二分类模型的函数或算法，即线性运算函数，y为原始文本的分类标签。

应理解，上述公式6仅为本说明书给出的确定第二预测损失的一种示例，在实际应用中，还可以在公式6中加入正则项等，本说明书对此不作限定。

此外，对于上述第三预测损失，可以基于上述公式1或者公式2计算得到。

步骤308，以最大化第一预测损失，且最小化第二预测损失和第三预测损失为目标，训练生成模型。

在一个例子中，可以是基于第一预测损失、第二预测损失和第三预测损失各自对应的预定权重，对第一预测损失、第二预测损失和第三预测损失进行加权求和，得到综合损失。该综合损失与第一预测损失负相关，且与第二预测损失和第三预测损失正相关。之后，基于综合损失，训练生成模型。

可以理解的是，在实际的训练过程中，通常会经过多次迭代训练，并将最后一次训练得到的模型作为最终使用的模型。以生成模型为AE或者VAE为例来说，上述训练生成模型可以理解为是不断调整编码器和解码器各自的参数的过程。

需要说明的是，在综合损失与第一预测损失负相关的情况下，可以使得训练得到的生成模型所生成的对抗文本与原始文本的类别不同，也即可以使得目标分类模型能够区分原始文本与对抗文本的类别。此外，在综合损失与第二预测损失和第三预测损失正相关的情况下，可以使得训练得到的生成模型所生成对抗文本接近于原始文本，且两者的情感极性相一致。也即，本申请是基于对抗的思想，来训练生成模型的。这里对抗的思想体现在，既要使得对抗文本接近于原始文本且两者的情感极性相一致相近，又要使得目标分类模型能够区分原始文本和对抗文本的类别。

此外，在目标分类模型的业务处理为舆情分析的情况下，由于第二分类模型具有特征选择的作用，从而在针对表达正面情感的原始文本，生成对应的对抗文本时，所生成的对抗文本会包含较多的正面情感词语。

以上就是本说明书针对用于生成对抗文本的生成模型的训练方法的说明。在该生成模型训练好之后，可以随机采样服从标准正态分布的目标向量。这里的目标向量可以与前述生成模型训练过程中所生成的隐向量具有相同的维度。之后可以将采样的目标向量作为训练后的生成模型的解码器的输入，通过输出得到新对抗文本。如，可以将采样得到的目标向量输入图1或图2所示的解码器中，并通过该解码器的输出得到新对抗文本。由于可以无限随机采样目标向量，因此不需要依赖给定的有标注数据，可以无限生成对抗文本。并且训练之后不需要再计算梯度，只需要经过前馈过程即可生成，因此速度很快。可以进行大规模对抗文本生成。

综上，在本方案中，通过第三预测损失的约束，可以使得生成模型所生成的对抗文本接近于原始文本。此外，还可以使得解码器针对各原始文本生成的隐向量服均从标准正态分布。通过第一预测损失的约束，可以使得目标分类模型能够区分原始文本与对抗文本的类别。通过第二预测损失的约束，可以使得原始文本与对抗文本的情感极性相一致。从而，在基于本方案训练得到的生成模型生成对抗文本时，可以大大提升所生成的对抗文本的准确性。

与上述用于生成对抗文本的生成模型的训练方法对应地，本说明书一个实施例还提供的一种用于生成对抗文本的生成模型的训练装置，如图4所示，该装置可以包括：

生成单元402，用于将具有分类标签的原始文本输入生成模型，以生成原始文本对应的对抗文本。该对抗文本用于模拟对目标分类模型的攻击。该原始文本包括多个文本特征。

该原始文本可以包括用户评论内容或者广告内容等。

该生成模型可以为变分自动编码器VAE，变分自动编码器VAE包括：编码器、解码器和采样单元。

编码器，用于接收原始文本，输出原始文本对应的正态分布的均值和标准差。

采样单元，用于在均值和标准差限定的正态分布中进行采样，并基于采样结果得到一个隐向量。

解码器，用于对隐向量解码得到原始文本对应的对抗文本。

输入输出单元404，用于将对抗文本输入预先训练的目标分类模型，输出第一分类结果，并且，将对抗文本输入预先训练的、基于文本的情感极性实现文本分类的第二分类模型，输出第二分类结果。

确定单元406，用于根据第一分类结果和原始文本的分类标签，确定第一预测损失，根据第二分类结果和原始文本的分类标签，确定第二预测损失，至少根据原始文本与对抗文本之间的文本距离，确定第三预测损失。

训练单元408，用于以最大化第一预测损失，且最小化第二预测损失和第三预测损失为目标，训练生成模型。

训练单元408具体可以用于：

以最大化第一预测损失，且最小化第二预测损失和第三预测损失为目标，调整编码器以及解码器各自的参数。

训练单元408还具体可以用于：

基于第一预测损失、第二预测损失和第三预测损失各自对应的预定权重，对第一预测损失、第二预测损失和第三预测损失进行加权求和，得到综合损失，该综合损失与第一预测损失负相关，且与第二预测损失和第三预测损失正相关。

基于综合损失，训练生成模型。

确定单元406具体可以用于：基于原始文本对应的正态分布的均值和标准差，计算原始文本对应的KL散度值。

根据原始文本与对抗文本之间的文本距离以及KL散度值，确定第三预测损失。

可选地，该装置还可以包括：

获取单元(图中未示出)，用于随机采样服从标准正态分布的目标向量，将采样的目标向量作为训练后的生成模型的解码器的输入，通过输出得到新对抗文本。

本说明书上述实施例装置的各功能模块的功能，可以通过上述方法实施例的各步骤来实现，因此，本说明书一个实施例提供的装置的具体工作过程，在此不复赘述。

本说明书一个实施例提供的用于生成对抗文本的生成模型的训练装置，生成单元402将具有分类标签的原始文本输入生成模型，以生成原始文本对应的对抗文本。输入输出单元404将对抗文本输入预先训练的目标分类模型，输出第一分类结果，并且，将对抗文本输入预先训练的、基于文本的情感极性实现文本分类的第二分类模型，输出第二分类结果。确定单元406根据第一分类结果和原始文本的分类标签，确定第一预测损失，根据第二分类结果和原始文本的分类标签，确定第二预测损失，至少根据原始文本与对抗文本之间的文本距离，确定第三预测损失。训练单元408以最大化第一预测损失，且最小化第二预测损失和第三预测损失为目标，训练生成模型。由此，可以提升所生成的对抗文本的准确性。

另一方面，本说明书的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行图3所示的方法。

另一方面，本说明书的实施例提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现图3所示的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于服务器中。当然，处理器和存储介质也可以作为分立组件存在于服务器中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述的具体实施方式，对本说明书的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书的具体实施方式而已，并不用于限定本说明书的保护范围，凡在本说明书的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的保护范围之内。

Claims

1.一种用于生成对抗文本的生成模型的训练方法，所述方法包括：

将具有分类标签的原始文本输入生成模型，以生成所述原始文本对应的对抗文本；所述对抗文本用于模拟对目标分类模型的攻击；

2.根据权利要求1所述的方法，所述生成模型为变分自动编码器VAE；所述变分自动编码器VAE包括：编码器、解码器和采样单元；

所述编码器，用于接收所述原始文本，输出所述原始文本对应的正态分布的均值和标准差；

所述采样单元，用于在所述均值和标准差限定的正态分布中进行采样，并基于采样结果得到一个隐向量；

所述解码器，用于对所述隐向量解码得到所述原始文本对应的对抗文本。

3.根据权利要求2所述的方法，所述以最大化所述第一预测损失，且最小化所述第二预测损失和所述第三预测损失为目标，训练所述生成模型，包括：

以最大化所述第一预测损失，且最小化所述第二预测损失和所述第三预测损失为目标，调整所述编码器以及所述解码器各自的参数。

4.根据权利要求2所述的方法，所述确定第三预测损失，包括：

基于所述原始文本对应的正态分布的均值和标准差，计算所述原始文本对应的KL散度值；

根据所述原始文本与所述对抗文本之间的文本距离以及所述KL散度值，确定第三预测损失。

5.根据权利要求2-4任一项所述的方法，在训练所述生成模型之后，还包括：

随机采样服从标准正态分布的目标向量；

将采样的目标向量作为训练后的所述生成模型的解码器的输入，通过输出得到新对抗文本。

6.根据权利要求1所述的方法，所述以最大化所述第一预测损失，且最小化所述第二预测损失和所述第三预测损失为目标，训练所述生成模型，包括：

基于所述第一预测损失、所述第二预测损失和所述第三预测损失各自对应的预定权重，对所述第一预测损失、所述第二预测损失和所述第三预测损失进行加权求和，得到综合损失，所述综合损失与所述第一预测损失负相关，且与所述第二预测损失和所述第三预测损失正相关；

基于所述综合损失，训练所述生成模型。

7.根据权利要求1所述的方法，所述原始文本包括用户评论内容或者广告内容。

8.一种用于生成对抗文本的生成模型的训练装置，该装置包括：

9.根据权利要求8所述的装置，所述生成模型为变分自动编码器VAE；所述变分自动编码器VAE包括：编码器、解码器和采样单元；

10.根据权利要求9所述的装置，所述训练单元具体用于：

11.根据权利要求9所述的装置，所述确定单元具体用于：

12.根据权利要求9-11任一项所述的装置，还包括：

获取单元，用于随机采样服从标准正态分布的目标向量；将采样的目标向量作为训练后的所述生成模型的解码器的输入，通过输出得到新对抗文本。

13.根据权利要求8所述的装置，所述训练单元具体用于：

基于所述综合损失，训练所述生成模型。

14.根据权利要求8所述的装置，所述原始文本包括用户评论内容或者广告内容。

15.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-7中任一项所述的方法。

16.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-7中任一项所述的方法。