CN111241287A - 用于生成对抗文本的生成模型的训练方法及装置 - Google Patents

用于生成对抗文本的生成模型的训练方法及装置 Download PDF

Info

Publication number
CN111241287A
CN111241287A CN202010048326.7A CN202010048326A CN111241287A CN 111241287 A CN111241287 A CN 111241287A CN 202010048326 A CN202010048326 A CN 202010048326A CN 111241287 A CN111241287 A CN 111241287A
Authority
CN
China
Prior art keywords
text
loss
classification
model
original text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010048326.7A
Other languages
English (en)
Inventor
任彦昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010048326.7A priority Critical patent/CN111241287A/zh
Publication of CN111241287A publication Critical patent/CN111241287A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种用于生成对抗文本的生成模型的训练方法及装置,在方法中,将具有分类标签的原始文本输入生成模型,生成对抗文本,该对抗文本用于模拟对目标分类模型的攻击。将对抗文本分别输入预先训练的目标分类模型和第二分类模型,得到第一分类结果和第二分类结果。第二分类模型用于基于文本的情感极性实现文本分类。根据第一分类结果和原始文本的分类标签,确定第一预测损失。根据第二分类结果和原始文本的分类标签,确定第二预测损失。根据原始文本与对抗文本的文本距离,确定第三预测损失。以最大化第一预测损失,且最小化第二预测损失和第三预测损失为目标,训练生成模型。

Description

用于生成对抗文本的生成模型的训练方法及装置
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及一种用于生成对抗文本的生成模型的训练方法及装置。
背景技术
在一个分类任务中,对于文本x,假设目标分类模型将其分类为类别y。现对文本x进行微小的改变,得到文本x’。对于文本x’,假设目标分类模型将其分类为类别y’。若y与y’不同,并且x’对于预定人员来说真实类别依然为y,那么文本x’就可以看作是文本x的对抗文本,它成功攻击了目标分类模型。
对抗文本有很重要的作用。例如在大型网络社区中,为了能够保护网络社区的安全,通常需要使用目标分类模型对用户发表的内容(即文本)进行分类,找出其中的违规内容。而若想目标分类模型能够实现内容的准确分类,就需要找到目标分类模型的弱点,如,获取到用户发表的内容的对抗文本,同时使用这些对抗文本训练目标分类模型,由此可以使目标分类模型能够正确分类这些对抗文本,以此抵御外界的攻击。因此,对抗文本的生成就成为要解决的问题。
发明内容
本说明书一个或多个实施例描述了一种用于生成对抗文本的生成模型的训练方法及装置,可以生成大规模有效的对抗文本。
第一方面,提供了一种用于生成对抗文本的生成模型的训练方法,包括:
将具有分类标签的原始文本输入生成模型,以生成所述原始文本对应的对抗文本;所述对抗文本用于模拟对目标分类模型的攻击;所述原始文本包括多个文本特征;
将所述对抗文本输入预先训练的目标分类模型,输出第一分类结果;并且,将所述对抗文本输入预先训练的、基于文本的情感极性实现文本分类的第二分类模型,输出第二分类结果;
根据所述第一分类结果和所述原始文本的分类标签,确定第一预测损失;根据所述第二分类结果和所述原始文本的分类标签,确定第二预测损失;至少根据所述原始文本与所述对抗文本之间的文本距离,确定第三预测损失;
以最大化所述第一预测损失,且最小化所述第二预测损失和所述第三预测损失为目标,训练所述生成模型。
第二方面,提供了一种用于生成对抗文本的生成模型的训练装置,包括:
生成单元,用于将具有分类标签的原始文本输入生成模型,以生成所述原始文本对应的对抗文本;所述对抗文本用于模拟对目标分类模型的攻击;所述原始文本包括多个文本特征;
输入输出单元,用于将所述对抗文本输入预先训练的目标分类模型,输出第一分类结果;并且,将所述对抗文本输入预先训练的、基于文本的情感极性实现文本分类的第二分类模型,输出第二分类结果;
确定单元,用于根据所述第一分类结果和所述原始文本的分类标签,确定第一预测损失;根据所述第二分类结果和所述原始文本的分类标签,确定第二预测损失;至少根据所述原始文本与所述对抗文本之间的文本距离,确定第三预测损失;
训练单元,用于以最大化所述第一预测损失,且最小化所述第二预测损失和所述第三预测损失为目标,训练所述生成模型。
第三方面,提供了一种计算机存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
本说明书一个或多个实施例提供的用于生成对抗文本的生成模型的训练方法及装置,可以最大化第一预测损失,且最小化第二预测损失和第三预测损失为目标,训练生成模型。由此,可以大大提升模型训练的准确性。此外,在基于该生成模型生成对抗文本时,该对抗文本可以与原始文本的情感极性相一致,且目标分类模型能够区分该对抗文本与原始文本的类别。进而提升了所生成的对抗文本的准确性。
附图说明
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1说明书提供的VAE训练方法示意图;
图2为本说明书提供的模型连接框图;
图3为本说明书一个实施例提供的用于生成对抗文本的生成模型的训练方法流程图;
图4为本说明书一个实施例提供的用于生成对抗文本的生成模型的训练装置示意图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
在描述本说明书提供的方案之前,先对本方案的发明构思作以下说明。
传统技术中,主要通过如下两种方法来生成对抗文本(用于模拟对目标分类模型的攻击):第一种,基于梯度的方法,在该方法中,首先计算原文中单词的嵌入式向量的梯度,然后使用梯度迭代修改嵌入式向量,将最终修改得到的嵌入式向量映射到具体的单词。将原文中的单词替换为映射得到的单词,从而得到原文的对抗文本。然而这种方法只能根据一个已有的有标注文本生成一个对应的对抗文本,因此生成对抗文本数量有限。并且需要多次计算梯度,速度很慢。第二种,基于编辑的方法,在该方法中,首先计算原文中各单词的嵌入式向量的梯度,基于梯度找到原文中最重要的单词。然后通过修改最重要单词的拼写或同义词替换来得到对抗文本。这种方法也需要根据一个已有的有标注文本生成一个对应的对抗文本,因此生成对抗文本数量有限。并且需要计算梯度,速度也比较慢。
为了解决所生成的对抗文本数量有限的问题,本领域技术人员提出基于生成模型来生成对抗文本的方法。这里的生成模型可以包括但不限于自动编码器(Auto Encoder,AE)、变分自动编码器(Variational Autoencoder,VAE)以及生成对抗网络(GenerativeAdversarial Networks,GAN)等。
在基于生成模型生成对抗文本时,可以先训练生成模型,之后基于训练后的生成模型生成对抗文本。
以生成模型为AE来说,AE可以包括编码器和解码器。AE的训练过程,即为调整编码器和解码器各自的参数的过程。这里的编码器和解码器可以为任意的模型,如,可以神经网络模型。具体地,编码器用于将真实文本编码为隐向量,解码器用于将隐向量解码为对抗文本。在传统技术中,可以基于如下的损失函数,训练AE。
Figure BDA0002370209620000041
其中,x为真实文本,x’真实文本对应的对抗文本。(x-x')2表征真实文本与对抗文本之间的文本距离。通过在损失函数中引入该部分内容,可以确保生成模型的准确率,即可以确保所生成的对抗文本接近于真实文本。
在AE训练完成之后,随机采样服从标准正态分布的目标向量,并将其输入到训练后的AE的解码器。之后,通过解码器的输出得到新对抗文本。可以理解的是,由于可以随机采样目标向量,从而采样的目标向量的数量可以不受限制,进而可以生成大量的对抗文本。
再以生成模型为VAE来说,VAE可以包括编码器、解码器和采样单元。VAE的训练过程,也为调整编码器和解码器各自的参数的过程。其具体训练过程可参见图1所示。图1中,编码器和解码器可以为任意的模型,如,可以神经网络模型。其中,编码器具体可以用于针对每个真实文本(即,x1-x6),生成该真实文本对应的正态分布的均值(μ)和标准差(σ)。采样单元,用于在编码器生成的均值和标准差限定的正态分布中进行采样,并基于采样结果得到一个隐向量(z)。如,z=μ+σ〃ε,其中,ε为服从标准正态分布的向量。可以理解的是,由于基于确定的均值和标准差,可以唯一地确定一个正态分布。因此,采样单元最终生成的隐向量可以服从一个正态分布。也即,针对每个真实文本,通过编码器可以构造一个专属的正态分布。在采样单元生成真实文本对应的隐向量之后,可以将该隐向量输入解码器。通过解码器的输出可以得到真实文本对应的对抗文本。
由于在VAE中,编码器的作用发生了变化,从而可以基于如下的损失函数,训练VAE。
Figure BDA0002370209620000051
其中,x为真实文本,x’真实文本对应的对抗文本,z为真实文本对应的隐向量所服从的正态分布,p为标准正态分布。
需要说明的是,公式2的前半部分内容:(x-x')2表征真实文本与对抗文本之间的文本距离。如前所述,通过在损失函数中引入该部分内容,可以确保生成模型的准确率,即可以确保所生成的对抗文本接近于真实文本。公式2的后半部分内容:KL(z||p)表征隐向量所服从的正态分布与标准正态分布之间的距离(也称Kullback-Leible散度值,简称KL散度值)。通过在损失函数中引入该部分内容,可以使得真实文本对应的隐向量所服从的正态分布能够接近于标准正态分布。
在一个例子中,上述真实文本对应的KL散度值可以基于公式3进行计算。
KL=μ2+eσ-(1+σ) (公式3)
其中,μ和σ分别为在生成真实文本所对应的隐向量的过程中,由编码器针对该真实文本生所成的均值和标准差。
在基于上述方法对VAE进行训练之后。可以随机采样服从标准正态分布的目标向量,并将其输入到训练后的VAE的解码器中,通过解码器的输出可以得到相应的对抗文本。可以理解的是,由于可以随机采样目标向量,从而采样的目标向量的数量可以不受限制,进而可以生成大量的对抗文本。
此外,由于在VAE的训练过程中,损失函数中还引入了后半部分的内容(即KL(z||p)),这会使得解码器针对各真实文本生成的隐向量服均从标准正态分布。由于在训练过程中,解码器解码的对象为服从标准正态分布的隐向量。因此,之后随机采样服从标准正态分布的目标向量,并基于其来生成对抗文本时,所生成的对抗文本更准确。
需要说明的是,结合公式1和公式2的损失函数可以得出,上述生成模型的训练方法只能确保生成的对抗文本整体上接近于真实文本,而并不能保证目标分类模型能够对该两者的类别进行区分。如,目标分类模型将真实文本分类为类别y,而将对抗文本分类为类别y’,且y不同于y’。然而在实际场景下,通常希望目标分类模型能够准确识别各自的类别。如,在生成用户评论内容的对抗文本的场景下,希望目标分类模型能够将真实的用户评论内容分类为正常内容,而将攻击者模拟生成的评论内容分类为违规内容。因此,本申请还可以引入一个损失函数(后续说明),以保证目标分类模型能够对真实文本与对抗文本的类别进行区分。
此外,基于上述生成模型的训练方法,还不能保证对抗文本的内容与真实文本的情感极性一致。然而在实际场景下,通常希望两者的内容相近。如,在生成用户评论内容的对抗文本的场景下,如果真实的用户评论内容所表达的是正面情感,那么希望生成的对抗文本所表达的也是正面情感。为此,本申请还可以引入另一个损失函数(后续说明),以保证对抗文本与真实文本的情感极性相一致。
综合以上,本申请提出了一种新的生成模型的训练方法,该训练方法基于三个损失函数进行。由此,可以使得在基于该生成模型生成对抗文本时,目标分类模型能够区分真实文本与对抗文本的类别。此外,还可以使得该对抗文本与真实文本的情感极性相一致,这大大提升了所生成的对抗文本的准确性。
以上就是本说明书提供的发明构思,基于该发明构思就可以得到本方案,以下对本方案进行详细阐述。
图2为本说明书提供的模型连接框图。图2中,首先将具有分类标签的原始文本(即上述真实文本)输入生成模型,之后通过生成模型的输出得到原始文本对应的对抗文本。将得到的对抗文本输入到预先训练的目标分类模型,并通过输出确定对抗文本的第一预测结果(即类别)。之后,基于第一预测结果与上述分类标签确定第一预测损失。此外,对于生成的对抗文本,还可以将其输入到预先训练的第二分类模型,并通过输出确定对抗文本的第二预测结果。之后,基于第二预测结果与上述分类标签确定第二预测损失。最后,还可以基于公式1确定第三预测损失。在确定出上述三种损失之后,以最大化第一预测损失,且最小化第二预测损失和第三预测损失为目标,训练生成模型。其具体训练过程后续说明。
以下结合图3对本方案提供的用于生成对抗文本的生成模型的训练方法进行说明。
图3为本说明书一个实施例提供的用于生成对抗文本的生成模型的训练方法流程图。所述方法的执行主体可以为具有处理能力的设备:服务器或者系统或者装置。如图3所示,所述方法具体可以包括:
步骤302,将具有分类标签的原始文本输入生成模型,以生成原始文本对应的对抗文本。该对抗文本用于模拟对目标分类模型的攻击。
这里的原始文本可以包括但不限于用户评论内容以及广告内容等。上述生成模型可以包括但不限于自动编码器(Auto Encoder,AE)、变分自动编码器(VariationalAutoencoder,VAE)以及生成对抗网络(Generative Adversarial Networks,GAN)等。以生成模型为VAE为例来说,其可以如图2所示,即该生成模型可以包括编码器、解码器和采样单元。编码器,用于接收原始文本,输出原始文本对应的正态分布的均值和标准差。采样单元,用于在均值和标准差限定的正态分布中进行采样,并基于采样结果得到一个隐向量。解码器,用于对隐向量解码得到原始文本对应的对抗文本。
步骤304,将对抗文本输入预先训练的目标分类模型,输出第一分类结果,并且,将对抗文本输入预先训练的、基于文本的情感极性实现文本分类的第二分类模型,输出第二分类结果。
对于上述目标分类模型,其可以采用神经网络、梯度决策树、贝叶斯分类、支持向量机等算法实现。需要说明的是,在执行生成模型的训练步骤的过程中,目标分类模型是预先训练好的。在一个例子中,可以基于交叉熵损失函数、铰链损失函数以及指数损失函数等,对目标分类模型进行训练。
此外,上述目标分类模型可以用于进行基于文本分析的业务处理(如,舆情分析以文档归类等)。
对于上述第二分类模型,其可以为任一能基于文本的情感极性实现文本分类的模型。如,可以为Google BERT模型或者线性分类模型等。
以第二分类模型为线性分类模型为例,其可以基于如下的损失函数训练第二分类模型。
Figure BDA0002370209620000081
其中,xi为文本i,g为线性运算函数,g(xi)为文本i的预测结果,yi为文本i的分类标签,λΩ(w)为L1正则项。
需要说明的是,基于上述损失函数,对线性分类模型进行训练后,该线性分类模型可以具有特征选择的作用。如,可以过滤掉文本中不适宜出现的词,而保留适宜的词。该特征选择的作用的原理如下:
在训练第二分类模型的过程中,对于输入到第二分类模型的训练样本,可以采用任意的词向量化方法,对其中的每个词进行词向量化,从而针对每个词,可以得到N(N为正整数)维的词向量。之后,将各个词的N维的词向量进行拼接,以得到原始样本对应的句子向量。在实际中,训练样本对应的句子向量通常设定为M维(M为大于N的正整数)。在第二分类模型中,针对训练样本的每个维度可以设定对应的权重值。从而,针对第二分类模型的训练过程可以理解为是不断调整每个维度对应的权重值的过程。可以理解的是,在训练第二分类模型之后,模型中重要维度对应的权重值较高,而不重要的维度对应的权重值较低,由此,就可以实现特征选择的作用。
在本说明书中,可以基于相同的训练样本集训练目标分类模型和第二分类模型。从而,训练得到的目标分类模型和第二分类模型可以进行相同的业务处理。如,均用于进行舆情分析等。
还需要说明的是,步骤302中输入到生成模型的原始文本是基于目标分类模型和第二分类模型所进行的业务处理而确定。具体地,若该两者均用于进行舆情分析,那么输入到生成模型的原始文本可以为正常评论内容和违规评论内容等。
步骤306,根据第一分类结果和原始文本的分类标签,确定第一预测损失,根据第二分类结果和原始文本的分类标签,确定第二预测损失,至少根据原始文本与对抗文本之间的文本距离,确定第三预测损失。
在一个例子中,可以基于如下的损失函数,确定第一预测损失。
Figure BDA0002370209620000091
其中,
Figure BDA0002370209620000092
为第一预测损失,x’为对抗文本,f(x’)为对抗文本的第一分类结果,f为对应于目标分类模型的函数或算法,y为原始文本的分类标签。
应理解,上述公式5仅为本说明书给出的确定第一预测损失的一种示例,在实际应用中,还可以在公式5中加入正则项等,本说明书对此不作限定。
在一个例子中,可以基于如下的损失函数,确定第二预测损失。
Figure BDA0002370209620000101
其中,
Figure BDA0002370209620000102
为第二预测损失,x’为对抗文本,g(x’)为对抗文本的第二分类结果,g为对应于第二分类模型的函数或算法,即线性运算函数,y为原始文本的分类标签。
应理解,上述公式6仅为本说明书给出的确定第二预测损失的一种示例,在实际应用中,还可以在公式6中加入正则项等,本说明书对此不作限定。
此外,对于上述第三预测损失,可以基于上述公式1或者公式2计算得到。
步骤308,以最大化第一预测损失,且最小化第二预测损失和第三预测损失为目标,训练生成模型。
在一个例子中,可以是基于第一预测损失、第二预测损失和第三预测损失各自对应的预定权重,对第一预测损失、第二预测损失和第三预测损失进行加权求和,得到综合损失。该综合损失与第一预测损失负相关,且与第二预测损失和第三预测损失正相关。之后,基于综合损失,训练生成模型。
可以理解的是,在实际的训练过程中,通常会经过多次迭代训练,并将最后一次训练得到的模型作为最终使用的模型。以生成模型为AE或者VAE为例来说,上述训练生成模型可以理解为是不断调整编码器和解码器各自的参数的过程。
需要说明的是,在综合损失与第一预测损失负相关的情况下,可以使得训练得到的生成模型所生成的对抗文本与原始文本的类别不同,也即可以使得目标分类模型能够区分原始文本与对抗文本的类别。此外,在综合损失与第二预测损失和第三预测损失正相关的情况下,可以使得训练得到的生成模型所生成对抗文本接近于原始文本,且两者的情感极性相一致。也即,本申请是基于对抗的思想,来训练生成模型的。这里对抗的思想体现在,既要使得对抗文本接近于原始文本且两者的情感极性相一致相近,又要使得目标分类模型能够区分原始文本和对抗文本的类别。
此外,在目标分类模型的业务处理为舆情分析的情况下,由于第二分类模型具有特征选择的作用,从而在针对表达正面情感的原始文本,生成对应的对抗文本时,所生成的对抗文本会包含较多的正面情感词语。
以上就是本说明书针对用于生成对抗文本的生成模型的训练方法的说明。在该生成模型训练好之后,可以随机采样服从标准正态分布的目标向量。这里的目标向量可以与前述生成模型训练过程中所生成的隐向量具有相同的维度。之后可以将采样的目标向量作为训练后的生成模型的解码器的输入,通过输出得到新对抗文本。如,可以将采样得到的目标向量输入图1或图2所示的解码器中,并通过该解码器的输出得到新对抗文本。由于可以无限随机采样目标向量,因此不需要依赖给定的有标注数据,可以无限生成对抗文本。并且训练之后不需要再计算梯度,只需要经过前馈过程即可生成,因此速度很快。可以进行大规模对抗文本生成。
综上,在本方案中,通过第三预测损失的约束,可以使得生成模型所生成的对抗文本接近于原始文本。此外,还可以使得解码器针对各原始文本生成的隐向量服均从标准正态分布。通过第一预测损失的约束,可以使得目标分类模型能够区分原始文本与对抗文本的类别。通过第二预测损失的约束,可以使得原始文本与对抗文本的情感极性相一致。从而,在基于本方案训练得到的生成模型生成对抗文本时,可以大大提升所生成的对抗文本的准确性。
与上述用于生成对抗文本的生成模型的训练方法对应地,本说明书一个实施例还提供的一种用于生成对抗文本的生成模型的训练装置,如图4所示,该装置可以包括:
生成单元402,用于将具有分类标签的原始文本输入生成模型,以生成原始文本对应的对抗文本。该对抗文本用于模拟对目标分类模型的攻击。该原始文本包括多个文本特征。
该原始文本可以包括用户评论内容或者广告内容等。
该生成模型可以为变分自动编码器VAE,变分自动编码器VAE包括:编码器、解码器和采样单元。
编码器,用于接收原始文本,输出原始文本对应的正态分布的均值和标准差。
采样单元,用于在均值和标准差限定的正态分布中进行采样,并基于采样结果得到一个隐向量。
解码器,用于对隐向量解码得到原始文本对应的对抗文本。
输入输出单元404,用于将对抗文本输入预先训练的目标分类模型,输出第一分类结果,并且,将对抗文本输入预先训练的、基于文本的情感极性实现文本分类的第二分类模型,输出第二分类结果。
确定单元406,用于根据第一分类结果和原始文本的分类标签,确定第一预测损失,根据第二分类结果和原始文本的分类标签,确定第二预测损失,至少根据原始文本与对抗文本之间的文本距离,确定第三预测损失。
训练单元408,用于以最大化第一预测损失,且最小化第二预测损失和第三预测损失为目标,训练生成模型。
训练单元408具体可以用于:
以最大化第一预测损失,且最小化第二预测损失和第三预测损失为目标,调整编码器以及解码器各自的参数。
训练单元408还具体可以用于:
基于第一预测损失、第二预测损失和第三预测损失各自对应的预定权重,对第一预测损失、第二预测损失和第三预测损失进行加权求和,得到综合损失,该综合损失与第一预测损失负相关,且与第二预测损失和第三预测损失正相关。
基于综合损失,训练生成模型。
确定单元406具体可以用于:基于原始文本对应的正态分布的均值和标准差,计算原始文本对应的KL散度值。
根据原始文本与对抗文本之间的文本距离以及KL散度值,确定第三预测损失。
可选地,该装置还可以包括:
获取单元(图中未示出),用于随机采样服从标准正态分布的目标向量,将采样的目标向量作为训练后的生成模型的解码器的输入,通过输出得到新对抗文本。
本说明书上述实施例装置的各功能模块的功能,可以通过上述方法实施例的各步骤来实现,因此,本说明书一个实施例提供的装置的具体工作过程,在此不复赘述。
本说明书一个实施例提供的用于生成对抗文本的生成模型的训练装置,生成单元402将具有分类标签的原始文本输入生成模型,以生成原始文本对应的对抗文本。输入输出单元404将对抗文本输入预先训练的目标分类模型,输出第一分类结果,并且,将对抗文本输入预先训练的、基于文本的情感极性实现文本分类的第二分类模型,输出第二分类结果。确定单元406根据第一分类结果和原始文本的分类标签,确定第一预测损失,根据第二分类结果和原始文本的分类标签,确定第二预测损失,至少根据原始文本与对抗文本之间的文本距离,确定第三预测损失。训练单元408以最大化第一预测损失,且最小化第二预测损失和第三预测损失为目标,训练生成模型。由此,可以提升所生成的对抗文本的准确性。
另一方面,本说明书的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行图3所示的方法。
另一方面,本说明书的实施例提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现图3所示的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于服务器中。当然,处理器和存储介质也可以作为分立组件存在于服务器中。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述的具体实施方式,对本说明书的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书的具体实施方式而已,并不用于限定本说明书的保护范围,凡在本说明书的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的保护范围之内。

Claims (16)

1.一种用于生成对抗文本的生成模型的训练方法,所述方法包括:
将具有分类标签的原始文本输入生成模型,以生成所述原始文本对应的对抗文本;所述对抗文本用于模拟对目标分类模型的攻击;
将所述对抗文本输入预先训练的目标分类模型,输出第一分类结果;并且,将所述对抗文本输入预先训练的、基于文本的情感极性实现文本分类的第二分类模型,输出第二分类结果;
根据所述第一分类结果和所述原始文本的分类标签,确定第一预测损失;根据所述第二分类结果和所述原始文本的分类标签,确定第二预测损失;至少根据所述原始文本与所述对抗文本之间的文本距离,确定第三预测损失;
以最大化所述第一预测损失,且最小化所述第二预测损失和所述第三预测损失为目标,训练所述生成模型。
2.根据权利要求1所述的方法,所述生成模型为变分自动编码器VAE;所述变分自动编码器VAE包括:编码器、解码器和采样单元;
所述编码器,用于接收所述原始文本,输出所述原始文本对应的正态分布的均值和标准差;
所述采样单元,用于在所述均值和标准差限定的正态分布中进行采样,并基于采样结果得到一个隐向量;
所述解码器,用于对所述隐向量解码得到所述原始文本对应的对抗文本。
3.根据权利要求2所述的方法,所述以最大化所述第一预测损失,且最小化所述第二预测损失和所述第三预测损失为目标,训练所述生成模型,包括:
以最大化所述第一预测损失,且最小化所述第二预测损失和所述第三预测损失为目标,调整所述编码器以及所述解码器各自的参数。
4.根据权利要求2所述的方法,所述确定第三预测损失,包括:
基于所述原始文本对应的正态分布的均值和标准差,计算所述原始文本对应的KL散度值;
根据所述原始文本与所述对抗文本之间的文本距离以及所述KL散度值,确定第三预测损失。
5.根据权利要求2-4任一项所述的方法,在训练所述生成模型之后,还包括:
随机采样服从标准正态分布的目标向量;
将采样的目标向量作为训练后的所述生成模型的解码器的输入,通过输出得到新对抗文本。
6.根据权利要求1所述的方法,所述以最大化所述第一预测损失,且最小化所述第二预测损失和所述第三预测损失为目标,训练所述生成模型,包括:
基于所述第一预测损失、所述第二预测损失和所述第三预测损失各自对应的预定权重,对所述第一预测损失、所述第二预测损失和所述第三预测损失进行加权求和,得到综合损失,所述综合损失与所述第一预测损失负相关,且与所述第二预测损失和所述第三预测损失正相关;
基于所述综合损失,训练所述生成模型。
7.根据权利要求1所述的方法,所述原始文本包括用户评论内容或者广告内容。
8.一种用于生成对抗文本的生成模型的训练装置,该装置包括:
生成单元,用于将具有分类标签的原始文本输入生成模型,以生成所述原始文本对应的对抗文本;所述对抗文本用于模拟对目标分类模型的攻击;所述原始文本包括多个文本特征;
输入输出单元,用于将所述对抗文本输入预先训练的目标分类模型,输出第一分类结果;并且,将所述对抗文本输入预先训练的、基于文本的情感极性实现文本分类的第二分类模型,输出第二分类结果;
确定单元,用于根据所述第一分类结果和所述原始文本的分类标签,确定第一预测损失;根据所述第二分类结果和所述原始文本的分类标签,确定第二预测损失;至少根据所述原始文本与所述对抗文本之间的文本距离,确定第三预测损失;
训练单元,用于以最大化所述第一预测损失,且最小化所述第二预测损失和所述第三预测损失为目标,训练所述生成模型。
9.根据权利要求8所述的装置,所述生成模型为变分自动编码器VAE;所述变分自动编码器VAE包括:编码器、解码器和采样单元;
所述编码器,用于接收所述原始文本,输出所述原始文本对应的正态分布的均值和标准差;
所述采样单元,用于在所述均值和标准差限定的正态分布中进行采样,并基于采样结果得到一个隐向量;
所述解码器,用于对所述隐向量解码得到所述原始文本对应的对抗文本。
10.根据权利要求9所述的装置,所述训练单元具体用于:
以最大化所述第一预测损失,且最小化所述第二预测损失和所述第三预测损失为目标,调整所述编码器以及所述解码器各自的参数。
11.根据权利要求9所述的装置,所述确定单元具体用于:
基于所述原始文本对应的正态分布的均值和标准差,计算所述原始文本对应的KL散度值;
根据所述原始文本与所述对抗文本之间的文本距离以及所述KL散度值,确定第三预测损失。
12.根据权利要求9-11任一项所述的装置,还包括:
获取单元,用于随机采样服从标准正态分布的目标向量;将采样的目标向量作为训练后的所述生成模型的解码器的输入,通过输出得到新对抗文本。
13.根据权利要求8所述的装置,所述训练单元具体用于:
基于所述第一预测损失、所述第二预测损失和所述第三预测损失各自对应的预定权重,对所述第一预测损失、所述第二预测损失和所述第三预测损失进行加权求和,得到综合损失,所述综合损失与所述第一预测损失负相关,且与所述第二预测损失和所述第三预测损失正相关;
基于所述综合损失,训练所述生成模型。
14.根据权利要求8所述的装置,所述原始文本包括用户评论内容或者广告内容。
15.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-7中任一项所述的方法。
16.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-7中任一项所述的方法。
CN202010048326.7A 2020-01-16 2020-01-16 用于生成对抗文本的生成模型的训练方法及装置 Pending CN111241287A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010048326.7A CN111241287A (zh) 2020-01-16 2020-01-16 用于生成对抗文本的生成模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010048326.7A CN111241287A (zh) 2020-01-16 2020-01-16 用于生成对抗文本的生成模型的训练方法及装置

Publications (1)

Publication Number Publication Date
CN111241287A true CN111241287A (zh) 2020-06-05

Family

ID=70877039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010048326.7A Pending CN111241287A (zh) 2020-01-16 2020-01-16 用于生成对抗文本的生成模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN111241287A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738217A (zh) * 2020-07-24 2020-10-02 支付宝(杭州)信息技术有限公司 生成人脸对抗补丁的方法和装置
CN111767405A (zh) * 2020-07-30 2020-10-13 腾讯科技(深圳)有限公司 文本分类模型的训练方法、装置、设备及存储介质
CN111897964A (zh) * 2020-08-12 2020-11-06 腾讯科技(深圳)有限公司 文本分类模型训练方法、装置、设备及存储介质
CN111966998A (zh) * 2020-07-23 2020-11-20 华南理工大学 基于变分自动编码器的口令生成方法、系统、介质和设备
CN112200380A (zh) * 2020-10-23 2021-01-08 支付宝(杭州)信息技术有限公司 优化风险检测模型的方法及装置
CN112288032A (zh) * 2020-11-18 2021-01-29 上海依图网络科技有限公司 一种基于生成对抗网络的量化模型训练的方法及装置
CN112668857A (zh) * 2020-12-23 2021-04-16 深圳壹账通智能科技有限公司 分阶段质检的数据分类方法、装置、设备及存储介质
CN112966112A (zh) * 2021-03-25 2021-06-15 支付宝(杭州)信息技术有限公司 基于对抗学习的文本分类模型训练和文本分类方法及装置
CN113220553A (zh) * 2021-05-13 2021-08-06 支付宝(杭州)信息技术有限公司 一种文本预测模型性能的评估方法和装置
CN113222480A (zh) * 2021-06-11 2021-08-06 支付宝(杭州)信息技术有限公司 对抗样本生成模型的训练方法及装置
CN113505202A (zh) * 2021-07-30 2021-10-15 中关村科学城城市大脑股份有限公司 一种基于情感分析的数据增强方法和系统
CN113569469A (zh) * 2021-07-14 2021-10-29 扬州大学 一种用于设计高性能闪耀光栅结构的预测网络的构建方法
CN113590761A (zh) * 2021-08-13 2021-11-02 网易有道信息技术(北京)有限公司 文本处理模型的训练方法、文本处理方法及相关设备
CN116227474A (zh) * 2023-05-09 2023-06-06 之江实验室 一种对抗文本的生成方法、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190266483A1 (en) * 2018-02-27 2019-08-29 Facebook, Inc. Adjusting a classification model based on adversarial predictions
CN110334806A (zh) * 2019-05-29 2019-10-15 广东技术师范大学 一种基于生成式对抗网络的对抗样本生成方法
CN110378474A (zh) * 2019-07-26 2019-10-25 北京字节跳动网络技术有限公司 对抗样本生成方法、装置、电子设备和计算机可读介质
CN110457701A (zh) * 2019-08-08 2019-11-15 南京邮电大学 基于可解释性对抗文本的对抗训练方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190266483A1 (en) * 2018-02-27 2019-08-29 Facebook, Inc. Adjusting a classification model based on adversarial predictions
CN110334806A (zh) * 2019-05-29 2019-10-15 广东技术师范大学 一种基于生成式对抗网络的对抗样本生成方法
CN110378474A (zh) * 2019-07-26 2019-10-25 北京字节跳动网络技术有限公司 对抗样本生成方法、装置、电子设备和计算机可读介质
CN110457701A (zh) * 2019-08-08 2019-11-15 南京邮电大学 基于可解释性对抗文本的对抗训练方法

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111966998A (zh) * 2020-07-23 2020-11-20 华南理工大学 基于变分自动编码器的口令生成方法、系统、介质和设备
CN111966998B (zh) * 2020-07-23 2023-07-18 华南理工大学 基于变分自动编码器的口令生成方法、系统、介质和设备
CN111738217A (zh) * 2020-07-24 2020-10-02 支付宝(杭州)信息技术有限公司 生成人脸对抗补丁的方法和装置
CN111738217B (zh) * 2020-07-24 2020-11-13 支付宝(杭州)信息技术有限公司 生成人脸对抗补丁的方法和装置
CN111767405A (zh) * 2020-07-30 2020-10-13 腾讯科技(深圳)有限公司 文本分类模型的训练方法、装置、设备及存储介质
CN111767405B (zh) * 2020-07-30 2023-12-08 腾讯科技(深圳)有限公司 文本分类模型的训练方法、装置、设备及存储介质
CN111897964A (zh) * 2020-08-12 2020-11-06 腾讯科技(深圳)有限公司 文本分类模型训练方法、装置、设备及存储介质
CN111897964B (zh) * 2020-08-12 2023-10-17 腾讯科技(深圳)有限公司 文本分类模型训练方法、装置、设备及存储介质
CN112200380A (zh) * 2020-10-23 2021-01-08 支付宝(杭州)信息技术有限公司 优化风险检测模型的方法及装置
CN112200380B (zh) * 2020-10-23 2023-07-25 支付宝(杭州)信息技术有限公司 优化风险检测模型的方法及装置
CN112288032A (zh) * 2020-11-18 2021-01-29 上海依图网络科技有限公司 一种基于生成对抗网络的量化模型训练的方法及装置
CN112288032B (zh) * 2020-11-18 2022-01-14 上海依图网络科技有限公司 一种基于生成对抗网络的量化模型训练的方法及装置
CN112668857A (zh) * 2020-12-23 2021-04-16 深圳壹账通智能科技有限公司 分阶段质检的数据分类方法、装置、设备及存储介质
CN112966112B (zh) * 2021-03-25 2023-08-08 支付宝(杭州)信息技术有限公司 基于对抗学习的文本分类模型训练和文本分类方法及装置
CN112966112A (zh) * 2021-03-25 2021-06-15 支付宝(杭州)信息技术有限公司 基于对抗学习的文本分类模型训练和文本分类方法及装置
CN113220553A (zh) * 2021-05-13 2021-08-06 支付宝(杭州)信息技术有限公司 一种文本预测模型性能的评估方法和装置
CN113220553B (zh) * 2021-05-13 2022-06-17 支付宝(杭州)信息技术有限公司 一种文本预测模型性能的评估方法和装置
CN113222480A (zh) * 2021-06-11 2021-08-06 支付宝(杭州)信息技术有限公司 对抗样本生成模型的训练方法及装置
CN113222480B (zh) * 2021-06-11 2023-05-12 支付宝(杭州)信息技术有限公司 对抗样本生成模型的训练方法及装置
CN113569469A (zh) * 2021-07-14 2021-10-29 扬州大学 一种用于设计高性能闪耀光栅结构的预测网络的构建方法
CN113569469B (zh) * 2021-07-14 2023-10-03 扬州大学 一种用于设计高性能闪耀光栅结构的预测网络的构建方法
CN113505202A (zh) * 2021-07-30 2021-10-15 中关村科学城城市大脑股份有限公司 一种基于情感分析的数据增强方法和系统
CN113590761B (zh) * 2021-08-13 2022-03-25 网易有道信息技术(北京)有限公司 文本处理模型的训练方法、文本处理方法及相关设备
CN113590761A (zh) * 2021-08-13 2021-11-02 网易有道信息技术(北京)有限公司 文本处理模型的训练方法、文本处理方法及相关设备
CN116227474A (zh) * 2023-05-09 2023-06-06 之江实验室 一种对抗文本的生成方法、装置、存储介质及电子设备
CN116227474B (zh) * 2023-05-09 2023-08-25 之江实验室 一种对抗文本的生成方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN111241287A (zh) 用于生成对抗文本的生成模型的训练方法及装置
US11106714B2 (en) Summary generating apparatus, summary generating method and computer program
Al Sallab et al. Deep learning models for sentiment analysis in Arabic
WO2021014951A1 (ja) 質問応答システムのための回答分類器及び表現ジェネレータ、並びに表現ジェネレータを訓練するためのコンピュータプログラム
CN111241291A (zh) 利用对抗生成网络生成对抗样本的方法及装置
US11669687B1 (en) Systems and methods for natural language processing (NLP) model robustness determination
Ra et al. DeepAnti-PhishNet: Applying deep neural networks for phishing email detection
Hassanat et al. Magnetic force classifier: a Novel Method for Big Data classification
CN114048729A (zh) 医学文献评价方法、电子设备、存储介质和程序产品
Huai et al. Latency-constrained DNN architecture learning for edge systems using zerorized batch normalization
CN113591892A (zh) 一种训练数据的处理方法及装置
Shi et al. A vector representation of DNA sequences using locality sensitive hashing
JP2010272004A (ja) 判別装置及び判別方法、並びにコンピューター・プログラム
Catania et al. Deep convolutional neural networks for DGA detection
CN116662538A (zh) 基于多任务学习的文本摘要生成方法、装置、设备及介质
Chatterjee et al. Class-biased sarcasm detection using BiLSTM variational autoencoder-based synthetic oversampling
Tran et al. Explain by evidence: An explainable memory-based neural network for question answering
CN116361788A (zh) 一种基于机器学习的二进制软件漏洞预测方法
CN116127060A (zh) 一种基于提示词的文本分类方法及系统
US20220383195A1 (en) Machine learning algorithm search
Kwon et al. Detecting textual adversarial examples through text modification on text classification systems
CN113722439A (zh) 基于对抗性类别对齐网络的跨领域情感分类方法及系统
Han et al. An Interactive Model of Target and Context for Aspect‐Level Sentiment Classification
Kyriakidis et al. Leveraging Transformer Self Attention Encoder for Crisis Event Detection in Short Texts
CN113849634A (zh) 用于提升深度模型推荐方案可解释性的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination