CN114925699A - 一种基于风格变换的高迁移性对抗文本生成方法 - Google Patents

一种基于风格变换的高迁移性对抗文本生成方法 Download PDF

Info

Publication number
CN114925699A
CN114925699A CN202210470248.9A CN202210470248A CN114925699A CN 114925699 A CN114925699 A CN 114925699A CN 202210470248 A CN202210470248 A CN 202210470248A CN 114925699 A CN114925699 A CN 114925699A
Authority
CN
China
Prior art keywords
text
task
vector
style
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210470248.9A
Other languages
English (en)
Other versions
CN114925699B (zh
Inventor
邱士林
刘启和
张准
周世杰
曾逸
靳佳冀
武哲纬
周金
于泽楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210470248.9A priority Critical patent/CN114925699B/zh
Publication of CN114925699A publication Critical patent/CN114925699A/zh
Application granted granted Critical
Publication of CN114925699B publication Critical patent/CN114925699B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于风格变换的高迁移性对抗文本生成方法,包括如下步骤:S1、构建预训练模型,包括构建原始替代模型Forg、构建释义生成器P、构建特征提取器E和特征解码器D;S2、构建测试文本的向量表示集和替代模型集F;所述测试文本的向量表示集包括语义特征向量集Vp、缩放因子集
Figure DDA0003621611540000011
和风格特征向量集Vs;S3、构建任务集,包括构建总任务集Task,划分查询任务集Taskqr和支持任务集Tasksr;S4、利用元学习优化策略获取风格特征噪声向量δ*;S5、生成对抗文本x*。本发明通过结合风格变换和元学习策略,在黑盒场景下能生成具备强攻击能力、高迁移性的对抗文本。

Description

一种基于风格变换的高迁移性对抗文本生成方法
技术领域
本发明涉及对抗文本生成技术领域,具体涉及一种基于风格变换的高迁移性对抗文本生成方法。
背景技术
深度神经网络近年来在自然语言处理领域发展迅速,表现出优异的性能。基于此,各种各样的基于深度神经网络的自然语言处理系统被逐渐应用到现实生活中,如垃圾邮件过滤、机器翻译、医疗信息处理、视觉问答等。但是,已有研究表明,以深度神经网络为代表的人工智能模型面临严峻的对抗攻击安全威胁。
对抗攻击是一种模型推理阶段的安全威胁,攻击者可通过向输入样本添加微小的、人眼无法察觉的噪声来构造对抗样本,从而使人工智能模型产生错误输出。近年来,为了发现自然语言处理模型面临的潜在对抗攻击威胁,研究者们已经提出多种不同的对抗攻击方法,但受限于文本样本自身的特殊性(离散性、存在语义信息、易被人眼察觉),要生成具备强攻击能力、高迁移性、不易察觉性的对抗文本仍面临巨大的挑战。
目前,根据对目标模型的访问能力的不同,现有针对文本处理任务模型的对抗攻击方法可分为白盒攻击和黑盒攻击方法。其中,白盒攻击方法是指攻击者对目标模型具有完全的访问能力,能够获取到目标模型的所有信息,包括模型架构、参数、梯度等,并利用这些信息来产生对抗文本,因此,这类攻击方法通常能够生成具备强攻击能力的对抗样本。而在黑盒攻击场景下,攻击者只能获取到目标模型对输入文本的预测输出,而无法获取到其他任何信息,因此,这类攻击方法产生的对抗文本的攻击能力一般比白盒攻击产生的对抗样本的低。但是,由于黑盒攻击方法不需要获取目标模型的信息,黑盒攻击方法更适合应用于现实世界中,用以测试现有人工智能系统的安全性。
根据扰动级别的不同,现有针对文本处理任务模型的对抗攻击方法可以分为字符级、词级、句级攻击方法。其中,字符级攻击方法是通过翻转、替换、删除、增加某些字符来生成对抗文本,虽然能够很好的保留文本的语义信息,但却十分容易被人眼、拼写检查器、语法检查器所发现。词级攻击方法通过替换、删除、增加整个词来产生对抗文本,能在一定程度上缓解字符级攻击方法产生的对抗文本易被察觉的问题,但却存在另外两个问题:一是可能在一定程度上影响文本的语义信息,二是通过这类方法产生的对抗文本的多样性较差,目标模型很可能通多某些统计分析手段发现这些对抗样本。句级攻击方法是指对整个文本进行变换,因此,能够较好的缓解前两种攻击方法存在的问题,生成不易被察觉的多样化对抗文本。目前的句级对抗攻击方法主要包含在原文本中插入特定的新文本、用释义替换文本中的某些词、重写整个文本等手段。但是,现有句级攻击方法存在两个主要问题:一是容易破坏文本的语义,二是生成的对抗文本的可读性较差。
现有基于风格变换的句级对抗文本生成方法过程中没有优化过程,产生的对抗文本的攻击能力有限,风格生成器的生成能力不足、支持的风格类型不合适,对生成的对抗文本的攻击能力造成很大的影响也没有考虑其迁移性。因此,亟需一种在黑盒场景下能生成具备强攻击能力、高迁移性的对抗文本的方法。
发明内容
为解决现有技术中存在的问题,本发明提供了一种基于风格变换的高迁移性对抗文本生成方法,通过结合风格变换和元学习策略,在黑盒场景下能生成具备强攻击能力、高迁移性的对抗文本,解决了上述背景技术中提到的问题。
为实现上述目的,本发明提供如下技术方案:一种基于风格变换的高迁移性对抗文本生成方法,包括如下步骤:
S1、构建预训练模型,包括构建原始替代模型Forg、构建释义生成器P、构建特征提取器E和特征解码器D;
S2、构建测试文本的向量表示集和替代模型集
Figure BDA0003621611520000031
所述测试文本的向量表示集包括语义特征向量集Vp、缩放因子集
Figure BDA0003621611520000032
和风格特征向量集Vs
S3、构建任务集,包括构建总任务集Task,划分查询任务集Taskqr和支持任务集Tasksr
S4、利用元学习优化策略获取风格特征噪声向量δ*
S5、生成对抗文本x*
优选的,在步骤S1中,所述构建原始替代模型Forg具体包括:
设训练文本集为
Figure BDA0003621611520000033
将Xtr输入到目标模型中,从而获得目标模型对Xtr的预测标签集
Figure BDA0003621611520000034
将Xtr和Ytr配对,形成原始训练数据集
Figure BDA0003621611520000035
Figure BDA0003621611520000036
将Wtr作为训练数据,训练后得到目标模型的原始替代模型Forg
所述构建释义生成器P具体包括:设文本释义数据集为
Figure BDA0003621611520000037
Figure BDA0003621611520000041
将W作为训练数据,训练得到释义生成器P;
所述的构建特征提取器E和特征解码器D具体包括:
先搭建初始特征提取器和初始特征解码器的联合网络模型,初始特征提取器由预训练模型BERT和池化层Pooling组成,初始特征解码器由预训练模型BERT和全连接层Linear组成;
将原始文本集Xtr中的文本进行向量化,得到原始文本向量集
Figure BDA0003621611520000042
将原始文本向量集Vtr作为输入,输入到联合模型中,得到输出向量
Figure BDA0003621611520000043
计算损失值,根据该损失值利用梯度反向传播策略更新一次联合模型的参数;
重复执行ψ次上述步骤,训练得到特征提取器E和特征解码器D。
优选的,所述步骤S2中构建测试文本的向量表示集的具体步骤包括:
S21、构建释义文本集;
S21-1、设测试数据为datats=(xts,yts),yts是测试文本xts的真实标签;
S21-2、将xts输入到释义生成器P中,获得xts的一个释义文本;
S21-3、重复执行G次步骤S21-2,得到xts的释义文本集
Figure BDA0003621611520000044
S22、获取文本特征向量、语义特征向量集;
将xts作为输入,输入到特征提取器E中,得到xts的文本特征向量vA;依次将Xp中的每一个释义文本
Figure BDA0003621611520000051
作为输入,输入到特征提取器E中,得到Xp的语义特征向量集
Figure BDA0003621611520000052
Figure BDA0003621611520000053
Figure BDA0003621611520000054
的语义特征向量;
S23、获取缩放因子集、风格特征向量集;
S23-1、对一个语义特征向量
Figure BDA0003621611520000055
和文本特征向量vA,求解得到
Figure BDA0003621611520000056
对应的缩放因子βg和风格特征向量
Figure BDA0003621611520000057
S23-2、对Vp中的每一个
Figure BDA0003621611520000058
执行步骤S23-1,得到
Figure BDA0003621611520000059
Figure BDA00036216115200000510
Figure BDA00036216115200000511
优选的,所述步骤S2中构建替代模型集
Figure BDA00036216115200000512
具体包括:首先初始化衰减因子集为γ,然后将测试文本xts输入到原始替代模型中,通过正态分布采样得到优化后的衰减因子集γ*,最后将γ*应用于原始替代模型中,得到替代模型集
Figure BDA00036216115200000513
优选的,所述步骤S3中构建任务集的具体步骤包括:
S31、构建总任务集Task:
对语义特征向量集
Figure BDA00036216115200000514
缩放因子集
Figure BDA00036216115200000515
风格特征向量集
Figure BDA00036216115200000516
Figure BDA0003621611520000061
替代模型集
Figure BDA0003621611520000062
中的元素进行匹配;
得到总任务集
Figure BDA0003621611520000063
S32、划分查询任务集Taskqr和支持任务集Tasksr
将总任务集Task划分为查询任务集Taskqr和支持任务集Tasksr,满足Task=Taskqr∪Tasksr
Figure BDA0003621611520000064
其中,查询任务集
Figure BDA0003621611520000065
是查询任务集中的第m个查询任务;
支持任务集
Figure BDA0003621611520000066
是支持任务集中的第n个支持任务。
优选的,所述步骤S4利用元学习优化策略获取风格特征噪声向量δ*的具体步骤包括:
S41、在支持任务集上获取风格特征噪声:
S41-1、在支持任务集Tasksr中随机选取B个任务,得到支持任务子集
Figure BDA0003621611520000071
其中,
Figure BDA0003621611520000072
是支持任务子集中的第b个支持任务;
S41-2、对支持任务
Figure BDA0003621611520000073
计算特征向量
Figure BDA0003621611520000074
Figure BDA0003621611520000075
输入到解码器D中,得到文本向量
Figure BDA0003621611520000076
S41-3、将
Figure BDA0003621611520000077
输入到支持任务子集的Fb中,得到Fb
Figure BDA0003621611520000078
的预测标签y′b和损失值
Figure BDA0003621611520000079
利用反向传播,得到
Figure BDA00036216115200000710
关于
Figure BDA00036216115200000711
的梯度向量
Figure BDA00036216115200000712
S41-4、对支持任务集中的每一个任务执行S41-1~S41-3步骤,得到支持梯度向量集gsub,计算gsub中所有梯度向量的平均值,得到第c次元学习优化中的平均支持梯度向量
Figure BDA00036216115200000713
S41-5、计算噪声向量
Figure BDA00036216115200000714
S42、在查询任务集上扰动风格特征向量:
S42-1、在查询任务集Taskqr的查询任务
Figure BDA00036216115200000715
中,将δsub添加到
Figure BDA00036216115200000716
中,得到扰动后的风格特征向量
Figure BDA00036216115200000717
再将
Figure BDA00036216115200000718
投影到
Figure BDA00036216115200000719
方向上,得到投影后的风格特征向量
Figure BDA00036216115200000720
S42-2、计算特征向量
Figure BDA00036216115200000721
Figure BDA00036216115200000722
输入到解码器D中,得到文本向量
Figure BDA00036216115200000723
S42-3、将
Figure BDA00036216115200000724
输入到查询任务集的Fm中,得到Fm
Figure BDA00036216115200000725
的预测标签y″m和损失值
Figure BDA00036216115200000726
利用反向传播,得到
Figure BDA00036216115200000727
关于
Figure BDA00036216115200000728
的梯度向量
Figure BDA00036216115200000729
S42-4、对查询任务集中的每一个任务执行S42-1~S42-3步骤,得到查询梯度向量集gqr,计算gqr中所有梯度向量的平均值,得到第c次元学习优化中的平均查询梯度向量
Figure BDA00036216115200000730
S43、通过迭代多次元学习优化获取噪声向量:
重复执行
Figure BDA0003621611520000081
次步骤S41~S42,得到平均支持梯度向量的集合Gsr和平均查询梯度向量的集合Gqr
计算Gsr中所有元素的平均值
Figure BDA0003621611520000082
计算Gqr中所有元素的平均值
Figure BDA0003621611520000083
计算噪声向量
Figure BDA0003621611520000084
优选的,所述步骤S5中生成对抗文本x*的具体步骤包括:
S51、分离语义特征与风格特征:
将测试文本xts输入到释义生成器P中,获得xts的一个释义文本xp
将xts作为输入数据,输入到特征提取器E中,得到xts的文本特征向量vA
将xp作为输入数据,输入到特征提取器E中,得到xp的语义特征向量vp
利用求解公式,求解得到vp对应的缩放因子β和风格特征向量vs
S52、生成对抗样本:
将δ*添加到vs中,得到扰动的风格特征向量vs′=vs*,再将vs′投影到vs方向上,得到投影后的风格特征向量
Figure BDA0003621611520000085
计算特征向量v*=βvp+vs*
将v*输入到解码器D中,得到对抗文本x*,令xts=x*
重复执行τ次上述步骤,得到最终的对抗文本x*
优选的,所述步骤S51中的求解公式具体为
Figure BDA0003621611520000086
本发明的有益效果是:
1)本发明在黑盒场景下,通过迭代多次“构建任务集-获取风格特征噪声-生成对抗样本”过程,能够产生具备强攻击能力的对抗文本。
2)本发明在生成对抗文本的过程中,先将文本的语义特征和风格特征分离开,再向风格特征添加噪声,能够在维持语义不变的情况下变换文本风格,因此,本发明方法产生的对抗文本具备很好的不易察觉性,并且对抗文本质量不依赖于预先训练的风格生成器。
3)本发明在对抗文本的生成过程中引入了元学习策略,并且通过同时扩展数据和替代模型来构建任务集,使得生成的对抗文本能够具有较高的迁移性。
附图说明
图1为本发明方法的总体步骤流程示意图;
图2为特征提取器和特征解码器的联合模型示意图;;
图3为构建测试文本向量表示集示意图;
图4为构建替代模型集示意图;
图5为构建任务集示意图;
图6为利用元学习策略获取风格特征噪声示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图6,为了测试目标模型是否存在对抗攻击安全威胁,给定测试文本xts,需生成与xts具有同样语义信息的对抗文本x*,并将x*输入到目标模型中,观察目标模型是否能够对x*做出正确判断。
本发明提出的一种基于风格变换的高迁移性对抗文本生成方法,总体步骤流程如图1所示,其详细步骤如下:
步骤1构建预训练模型
本发明首先训练构建一个原始替代模型Forg、一个释义生成器P、一个特征提取器E、一个特征解码器D,其详细的构建过程为:
步骤1.1构建原始替代模型Forg
步骤1.1.1训练文本集为
Figure BDA0003621611520000101
其中,
Figure BDA0003621611520000102
为第i个训练文本,且1≤i≤R,R是训练文本总个数。
步骤1.1.2将Xtr输入到目标模型中,具体指的是所生成的对抗样本要攻击的人工智能模型,从而获得目标模型对Xtr的预测标签集
Figure BDA0003621611520000103
其中,
Figure BDA0003621611520000104
是目标模型对
Figure BDA0003621611520000105
的预测标签,且1≤i≤R。
步骤1.1.3将Xtr和Ytr配对,形成原始训练数据集
Figure BDA0003621611520000106
步骤1.1.4将Wtr作为训练数据,训练得到目标模型的原始替代模型Forg
步骤1.2构建释义生成器P
步骤1.2.1设文本释义数据集为
Figure BDA0003621611520000107
其中,
Figure BDA0003621611520000108
是文本集,tj是第j个文本,
Figure BDA0003621611520000109
是释义集,uj是tj的释义,1≤j≤J,J是样本总个数。
步骤1.2.2将W作为训练数据,输入到初始的释义生成器中进行训练,训练得到释义生成器P。
步骤1.3构建特征提取器E和特征解码器D
步骤1.3.1搭建特征提取器E和特征解码器D的联合网络模型,其结构如图2所示。其中,特征提取器E由预训练模型BERT和池化层Pooling组成,特征解码器D由预训练模型BERT和全连接层Linear组成。
步骤1.3.2对原始文本集Xtr中的文本进行向量化,得到原始文本向量集
Figure BDA0003621611520000111
Figure BDA0003621611520000112
是文本
Figure BDA0003621611520000113
的向量表示。
步骤1.3.3将原始文本向量集Vtr作为输入,输入到联合模型中,得到输出向量
Figure BDA0003621611520000114
v′i是联合模型对
Figure BDA0003621611520000115
的预测输出。
步骤1.3.4计算损失值
Figure BDA0003621611520000116
并根据该损失值,利用梯度反向传播策略更新一次联合模型的参数。
步骤1.3.5重复执行ψ次步骤1.3.3-1.3.4,训练得到特征提取器E和特征解码器D,其中,ψ是超参数,由人为指定。
步骤2构建测试文本的向量表示集和替代模型集
步骤2.1构建测试文本的向量表示集
构建测试文本的向量表示集的过程如图3所示,其详细步骤包括:
步骤2.1.1构建释义文本集
步骤2.1.1.1测试数据为datats=(xts,yts),yts是测试文本xts的真实标签。
步骤2.1.1.2将xts输入到释义生成器P中,获得xts的一个释义文本。
步骤2.1.1.3重复执行G次步骤2.1.1.2,得到xts的释义文本集
Figure BDA0003621611520000121
Figure BDA0003621611520000122
是xts的第g个释义文本,1≤g≤G,且G是10的整数倍,G的次数也是由人为指定。
步骤2.1.2获取文本特征向量、语义特征向量集
步骤2.1.2.1将xts作为输入,输入到特征提取器E中,得到xts的文本特征向量vA
步骤2.1.2.2依次将Xp中的每一个释义文本
Figure BDA0003621611520000123
作为输入,输入到特征提取器E中,得到Xp的语义特征向量集
Figure BDA0003621611520000124
Figure BDA0003621611520000125
Figure BDA0003621611520000126
的语义特征向量。
步骤2.1.3获取缩放因子集、风格特征向量集
步骤2.1.3.1对一个语义特征向量
Figure BDA0003621611520000127
和文本特征向量vA,根据下述两个公式,求解得到
Figure BDA0003621611520000128
对应的缩放因子βg和风格特征向量
Figure BDA0003621611520000129
Figure BDA00036216115200001210
步骤2.1.3.2对Vp中的每一个
Figure BDA00036216115200001211
执行步骤2.1.3.1,得到缩放因子集
Figure BDA00036216115200001212
和风格特征向量集
Figure BDA00036216115200001213
步骤2.2根据原始替代模型获取替代模型集
构建替代模型集的过程如图4所示,其详细步骤包括:
步骤2.2.1原始替代模型Forg中的残差层的总个数为L。
步骤2.2.2初始化衰减因子集为
Figure BDA0003621611520000131
其中,γl是第l个残差层的衰减因子,衰减因子是可以被优化的,且γl可通过学习策略(训练过程)进行调优,γl∈[0,1]。
步骤2.2.3将测试文本xts输入到Forg中,得到Forg对xts的预测输出概率向量
Figure BDA0003621611520000132
计算真实标签yts
Figure BDA0003621611520000133
之间的交叉熵损失
Figure BDA0003621611520000134
其中,DIM是
Figure BDA0003621611520000135
的总维度数,
Figure BDA0003621611520000136
Figure BDA0003621611520000137
的第dim个维度上的元素值,
Figure BDA0003621611520000138
步骤2.2.4假设第l个残差块的输入为zl-1,1≤l≤L,则第l个残差块的输出为zl=zl-1+fl(zl-1),其中,fl(·)是残差部分的输出。
步骤2.2.5重写步骤2.2.4中第l个残差块的输出zl=zl-1l·fl(zl-1)+μ,其中,μ是一个常数,μ的值等于(1-γl)·fl(zl-1)的值。
步骤2.2.6利用反向传播,计算梯度
Figure BDA0003621611520000139
其中,
Figure BDA00036216115200001310
Figure BDA00036216115200001311
对zL的偏导数,
Figure BDA00036216115200001312
是fl对zl-1的偏导数,
Figure BDA00036216115200001313
是z1对z1的偏导数。
步骤2.2.7从正态分布N(0,1)中采样L×K个噪声,得到噪声集Δ=[Δ1 Δ2…ΔK],其中,
Figure BDA00036216115200001314
是第k个噪声向量,Δk·l是第k个噪声向量的第l个噪声,1≤k≤K。
步骤2.2.8对每一个噪声向量Δk,计算
Figure BDA00036216115200001315
其中,exp(·)是指数函数,||·||2是L2范数函数。
步骤2.2.9计算
Figure BDA0003621611520000141
得到优化后的衰减因子集γ*=γ+Δ*,其中,
Figure BDA0003621611520000142
是γ*的第l个衰减因子,即
Figure BDA0003621611520000143
将γ*应用于原始替代模型,得到替代模型F1
步骤2.2.10重复G-1次如下步骤:在第g次,从均匀分布U(-0.5,0.5)中采样L个噪声,并将其添加到γ*的对应衰减因子中,得到一个更新后的衰减因子集γ*′,将γ*′应用于原始替代模型,得到替代模型Fg+1,1≤g≤G-1。
步骤2.2.11结合步骤2.2.9和步骤2.2.10中得到的所有替代模型,得到替代模型集
Figure BDA0003621611520000144
步骤3构建任务集
构建任务集的过程如图5所示,其详细步骤包括:
步骤3.1构建总任务集
对语义特征向量集
Figure BDA0003621611520000145
缩放因子集
Figure BDA0003621611520000146
风格特征向量集
Figure BDA0003621611520000147
替代模型集
Figure BDA0003621611520000148
中的元素进行匹配,得到总任务集
Figure BDA0003621611520000151
其中,
Figure BDA0003621611520000152
是Task中的第g个任务。
步骤3.2划分查询任务集和支持任务集
将总任务集Task随机划分为查询任务集Taskqr和支持任务集Tasksr,满足Task=Taskqr∪Tasksr
Figure BDA0003621611520000153
其中,
Figure BDA0003621611520000154
Figure BDA0003621611520000155
是查询任务集中的第m个查询任务,1≤m≤M,M=G/10;支持任务集
Figure BDA0003621611520000156
是支持任务集中的第n个支持任务,1≤n≤N,N=G-M。
步骤4获取风格特征噪声
利用元学习优化策略,即利用训练过程来优化,迭代执行
Figure BDA0003621611520000157
次步骤4.1-4.2,且
Figure BDA0003621611520000158
以获取风格特征噪声,过程如图6所示。其详细步骤包括:
步骤4.1在支持任务集上获取风格特征噪声
步骤4.1.1从
Figure BDA0003621611520000159
中随机选取B个任务,得到支持任务子集
Figure BDA00036216115200001510
其中,
Figure BDA00036216115200001511
是支持任务子集中的第b个支持任务,1≤b≤B。
步骤4.1.2对一个支持任务
Figure BDA0003621611520000161
计算特征向量
Figure BDA0003621611520000162
步骤4.1.3将
Figure BDA0003621611520000163
输入到解码器D中,得到文本向量
Figure BDA0003621611520000164
步骤4.1.4将
Figure BDA0003621611520000165
输入到支持任务子集中的Fb中,得到Fb
Figure BDA0003621611520000166
的预测标签y′b,得到损失值
Figure BDA0003621611520000167
||·||2是L2范数函数。利用反向传播,得到
Figure BDA0003621611520000168
关于
Figure BDA0003621611520000169
的梯度向量
Figure BDA00036216115200001610
步骤4.1.5对
Figure BDA00036216115200001611
中的每一个任务
Figure BDA00036216115200001612
执行步骤4.1.2-4.1.4,得到支持梯度向量集
Figure BDA00036216115200001613
计算gsub中所有梯度向量的平均值,得到第c次元学习优化中的平均支持梯度向量
Figure BDA00036216115200001614
步骤4.1.6计算噪声向量
Figure BDA00036216115200001615
其中,∈是超参数,用于设定噪声值大小,sign(·)是符号函数,且
Figure BDA00036216115200001616
步骤4.2在查询任务集上扰动风格特征向量
步骤4.2.1对一个查询任务
Figure BDA00036216115200001617
将δsub添加到
Figure BDA00036216115200001618
中,得到扰动后的风格特征向量
Figure BDA00036216115200001619
再将
Figure BDA00036216115200001620
投影到
Figure BDA00036216115200001621
方向上,得到投影后的风格特征向量
Figure BDA00036216115200001622
步骤4.2.2计算特征向量
Figure BDA00036216115200001623
步骤4.2.3将
Figure BDA00036216115200001624
输入到解码器D中,得到文本向量
Figure BDA00036216115200001625
步骤4.2.4将
Figure BDA0003621611520000171
输入到查询任务集的Fm中,得到Fn
Figure BDA0003621611520000172
的预测标签y″m,得到损失值
Figure BDA0003621611520000173
利用反向传播,得到
Figure BDA0003621611520000174
关于
Figure BDA0003621611520000175
的梯度向量
Figure BDA0003621611520000176
步骤4.2.5对
Figure BDA0003621611520000177
中的每一个任务
Figure BDA0003621611520000178
执行步骤4.2.1-4.2.4,得到查询梯度向量集
Figure BDA0003621611520000179
计算gqr中所有梯度向量的平均值,得到第c次元学习优化中的平均查询梯度向量
Figure BDA00036216115200001710
步骤4.3通过迭代多次元学习优化获取噪声向量
步骤4.3.1重复执行
Figure BDA00036216115200001711
次步骤4.1-4.2,得到平均支持梯度向量的集合
Figure BDA00036216115200001712
Figure BDA00036216115200001713
和平均查询梯度向量的集合
Figure BDA00036216115200001714
Figure BDA00036216115200001715
是第c次元学习优化得到的平均支持梯度向量,
Figure BDA00036216115200001716
是第c次元学习优化得到的平均查询梯度向量,且
Figure BDA00036216115200001717
Figure BDA00036216115200001718
步骤4.3.2计算Gsr中所有元素的平均值
Figure BDA00036216115200001719
计算Gqr中所有元素的平均值
Figure BDA00036216115200001720
步骤4.3.3计算噪声向量
Figure BDA00036216115200001721
其中,α是超参数,用于设定噪声值大小。
步骤5生成对抗样本
步骤5.1分离语义特征与风格特征
步骤5.1.1将测试文本xts输入到释义生成器P中,获得xts的一个释义文本xp
步骤5.1.2将xts作为输入数据,输入到特征提取器E中,得到xts的文本特征向量vA
步骤5.1.3将xp作为输入数据,输入到特征提取器E中,得到xp的语义特征向量vp
步骤5.1.4根据下述两个公式,求解得到vp对应的缩放因子β和风格特征向量vs
Figure BDA0003621611520000181
步骤5.2生成对抗样本
步骤5.2.1将δ*添加到vs中,得到扰动的风格特征向量vs′=vs*,再将vs′投影到vs方向上,得到投影后的风格特征向量
Figure BDA0003621611520000182
步骤5.2.2计算特征向量v*=βvp+vs*
步骤5.2.3将v*输入到解码器D中,得到对抗文本x*,令xts=x*
步骤5.2.4重复执行τ次(人为设定的超参数)步骤2-5.2.4,得到最终的对抗文本x*
本发明通过结合风格变换和元学习策略,在黑盒场景下能生成具备强攻击能力、高迁移性的对抗文本。本发明在黑盒场景下,通过迭代多次“构建任务集-获取风格特征噪声-生成对抗样本”过程,能够产生具备强攻击能力的对抗文本。
本发明在生成对抗文本的过程中,先将文本的语义特征和风格特征分离开,再向风格特征添加噪声,能够在维持语义不变的情况下变换文本风格,因此,本发明方法产生的对抗文本具备很好的不易察觉性,并且对抗文本质量不依赖于预先训练的风格生成器。
本发明在对抗文本的生成过程中引入了元学习策略,并且通过同时扩展数据和替代模型来构建任务集,使得生成的对抗文本能够具有较高的迁移性。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于风格变换的高迁移性对抗文本生成方法,其特征在于,包括如下步骤:
S1、构建预训练模型,包括构建原始替代模型Forg、构建释义生成器P、构建特征提取器E和特征解码器D;
S2、构建测试文本的向量表示集和替代模型集
Figure FDA0003621611510000016
所述测试文本的向量表示集包括语义特征向量集Vp、缩放因子集
Figure FDA0003621611510000017
和风格特征向量集Vs
S3、构建任务集,包括构建总任务集Task,划分查询任务集Taskqr和支持任务集Tasksr
S4、利用元学习优化策略获取风格特征噪声向量δ*
S5、生成对抗文本x*
2.根据权利要求1所述的基于风格变换的高迁移性对抗文本生成方法,其特征在于:在步骤S1中,所述构建原始替代模型Forg具体包括:
设训练文本集为
Figure FDA0003621611510000011
将Xtr输入到目标模型中,从而获得目标模型对Xtr的预测标签集
Figure FDA0003621611510000012
将Xtr和Ytr配对,形成原始训练数据集
Figure FDA0003621611510000013
Figure FDA0003621611510000014
将Wtr作为训练数据,训练后得到目标模型的原始替代模型Forg
所述构建释义生成器P具体包括:设文本释义数据集为
Figure FDA0003621611510000015
Figure FDA0003621611510000021
将W作为训练数据,训练得到释义生成器P;
所述的构建特征提取器E和特征解码器D具体包括:
先搭建初始特征提取器和初始特征解码器的联合网络模型,初始特征提取器由预训练模型BERT和池化层Pooling组成,初始特征解码器由预训练模型BERT和全连接层Linear组成;
将原始文本集Xtr中的文本进行向量化,得到原始文本向量集
Figure FDA0003621611510000022
将原始文本向量集Vtr作为输入,输入到联合模型中,得到输出向量
Figure FDA0003621611510000023
计算损失值,根据该损失值利用梯度反向传播策略更新一次联合模型的参数;
重复执行ψ次上述步骤,训练得到特征提取器E和特征解码器D。
3.根据权利要求1所述的基于风格变换的高迁移性对抗文本生成方法,其特征在于:所述步骤S2中构建测试文本的向量表示集的具体步骤包括:
S21、构建释义文本集;
S21-1、设测试数据为datats=(xts,yts),yts是测试文本xts的真实标签;
S21-2、将xts输入到释义生成器P中,获得xts的一个释义文本;
S21-3、重复执行G次步骤S21-2,得到xts的释义文本集
Figure FDA0003621611510000024
S22、获取文本特征向量、语义特征向量集;
将xts作为输入,输入到特征提取器E中,得到xts的文本特征向量vA;依次将Xp中的每一个释义文本
Figure FDA0003621611510000031
作为输入,输入到特征提取器E中,得到Xp的语义特征向量集
Figure FDA0003621611510000032
Figure FDA0003621611510000033
Figure FDA0003621611510000034
的语义特征向量;
S23、获取缩放因子集、风格特征向量集;
S23-1、对一个语义特征向量
Figure FDA0003621611510000035
和文本特征向量vA,求解得到
Figure FDA0003621611510000036
对应的缩放因子βg和风格特征向量
Figure FDA0003621611510000037
S23-2、对Vp中的每一个
Figure FDA0003621611510000038
执行步骤S23-1,得到
Figure FDA0003621611510000039
和风格特征向量集
Figure FDA00036216115100000310
4.根据权利要求1所述的基于风格变换的高迁移性对抗文本生成方法,其特征在于:所述步骤S2中构建替代模型集
Figure FDA00036216115100000311
具体包括:首先初始化衰减因子集为γ,然后将测试文本xts输入到原始替代模型中,通过正态分布采样得到优化后的衰减因子集γ*,最后将γ*应用于原始替代模型中,得到替代模型集
Figure FDA00036216115100000312
5.根据权利要求1所述的基于风格变换的高迁移性对抗文本生成方法,其特征在于:所述步骤S3中构建任务集的具体步骤包括:
S31、构建总任务集Task:
对语义特征向量集
Figure FDA0003621611510000041
缩放因子集
Figure FDA0003621611510000042
风格特征向量集
Figure FDA0003621611510000043
Figure FDA0003621611510000044
替代模型集
Figure FDA0003621611510000045
中的元素进行匹配;
得到总任务集
Figure FDA0003621611510000046
S32、划分查询任务集Taskqr和支持任务集Tasksr
将总任务集Task划分为查询任务集Taskqr和支持任务集Tasksr,满足Task=Taskqr∪Tasksr
Figure FDA0003621611510000047
其中,查询任务集
Figure FDA0003621611510000048
Figure FDA0003621611510000049
是查询任务集中的第m个查询任务;
支持任务集
Figure FDA00036216115100000410
Figure FDA00036216115100000411
是支持任务集中的第n个支持任务。
6.根据权利要求1所述的基于风格变换的高迁移性对抗文本生成方法,其特征在于:所述步骤S4利用元学习优化策略获取风格特征噪声向量δ*的具体步骤包括:
S41、在支持任务集上获取风格特征噪声:
S41-1、在支持任务集Tasksr中随机选取B个任务,得到支持任务子集
Figure FDA0003621611510000051
其中,
Figure FDA0003621611510000052
是支持任务子集中的第b个支持任务;
S41-2、对支持任务
Figure FDA0003621611510000053
计算特征向量
Figure FDA0003621611510000054
Figure FDA0003621611510000055
输入到解码器D中,得到文本向量
Figure FDA0003621611510000056
S41-3、将
Figure FDA0003621611510000057
输入到支持任务子集的Fb中,得到Fb
Figure FDA0003621611510000058
的预测标签y′b和损失值
Figure FDA0003621611510000059
利用反向传播,得到
Figure FDA00036216115100000510
关于
Figure FDA00036216115100000511
的梯度向量
Figure FDA00036216115100000512
S41-4、对支持任务集中的每一个任务执行S41-1~S41-3步骤,得到支持梯度向量集gsub,计算gsub中所有梯度向量的平均值,得到第c次元学习优化中的平均支持梯度向量
Figure FDA00036216115100000513
S41-5、计算噪声向量
Figure FDA00036216115100000514
S42、在查询任务集上扰动风格特征向量:
S42-1、在查询任务集Taskqr的查询任务
Figure FDA00036216115100000515
中,将δsub添加到
Figure FDA00036216115100000516
中,得到扰动后的风格特征向量
Figure FDA00036216115100000517
再将
Figure FDA00036216115100000518
投影到
Figure FDA00036216115100000519
方向上,得到投影后的风格特征向量
Figure FDA00036216115100000520
S42-2、计算特征向量
Figure FDA00036216115100000521
Figure FDA00036216115100000522
输入到解码器D中,得到文本向量
Figure FDA00036216115100000523
S42-3、将
Figure FDA00036216115100000524
输入到查询任务集的Fm中,得到Fm
Figure FDA00036216115100000525
的预测标签y″m和损失值
Figure FDA00036216115100000526
利用反向传播,得到
Figure FDA00036216115100000527
关于
Figure FDA00036216115100000528
的梯度向量
Figure FDA00036216115100000529
S42-4、对查询任务集中的每一个任务执行S42-1~S42-3步骤,得到查询梯度向量集gqr,计算gqr中所有梯度向量的平均值,得到第c次元学习优化中的平均查询梯度向量
Figure FDA0003621611510000061
S43、通过迭代多次元学习优化获取噪声向量:
重复执行
Figure FDA0003621611510000062
次步骤S41~S42,得到平均支持梯度向量的集合Gsr和平均查询梯度向量的集合Gqr
计算Gsr中所有元素的平均值
Figure FDA0003621611510000063
计算Gqr中所有元素的平均值
Figure FDA0003621611510000064
计算噪声向量
Figure FDA0003621611510000065
7.根据权利要求1所述的基于风格变换的高迁移性对抗文本生成方法,其特征在于:所述步骤S5中生成对抗文本x*的具体步骤包括:
S51、分离语义特征与风格特征:
将测试文本xts输入到释义生成器P中,获得xts的一个释义文本xp
将xts作为输入数据,输入到特征提取器E中,得到xts的文本特征向量vA
将xp作为输入数据,输入到特征提取器E中,得到xp的语义特征向量vp
利用求解公式,求解得到vp对应的缩放因子β和风格特征向量vs
S52、生成对抗样本:
将δ*添加到vs中,得到扰动的风格特征向量vs′=vs*,再将vs′投影到vs方向上,得到投影后的风格特征向量
Figure FDA0003621611510000066
计算特征向量v*=βvp+vs*
将v*输入到解码器D中,得到对抗文本x*,令xts=x*
重复执行τ次上述步骤,得到最终的对抗文本x*
8.根据权利要求7所述的基于风格变换的高迁移性对抗文本生成方法,其特征在于:所述步骤S51中的求解公式具体为
Figure FDA0003621611510000071
CN202210470248.9A 2022-04-28 2022-04-28 一种基于风格变换的高迁移性对抗文本生成方法 Active CN114925699B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210470248.9A CN114925699B (zh) 2022-04-28 2022-04-28 一种基于风格变换的高迁移性对抗文本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210470248.9A CN114925699B (zh) 2022-04-28 2022-04-28 一种基于风格变换的高迁移性对抗文本生成方法

Publications (2)

Publication Number Publication Date
CN114925699A true CN114925699A (zh) 2022-08-19
CN114925699B CN114925699B (zh) 2023-05-23

Family

ID=82806123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210470248.9A Active CN114925699B (zh) 2022-04-28 2022-04-28 一种基于风格变换的高迁移性对抗文本生成方法

Country Status (1)

Country Link
CN (1) CN114925699B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117057414A (zh) * 2023-08-11 2023-11-14 佛山科学技术学院 一种面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898598A (zh) * 2020-07-03 2020-11-06 贵州大学 一种动态场景下基于文本的目标检测方法
CN113222105A (zh) * 2020-02-05 2021-08-06 百度(美国)有限责任公司 元协作训练范式
CN113591460A (zh) * 2021-07-02 2021-11-02 中译语通科技股份有限公司 一种基于迭代知识迁移的机器翻译风格迁移性能提升方法
CN113674140A (zh) * 2021-08-20 2021-11-19 燕山大学 一种物理对抗样本生成方法及系统
CN114091448A (zh) * 2021-10-22 2022-02-25 广州大学 文本对抗样本生成方法、系统、计算机设备和存储介质
CN114254108A (zh) * 2021-12-13 2022-03-29 重庆邮电大学 一种中文文本对抗样本生成的方法、系统及介质
JP2022061792A (ja) * 2020-10-07 2022-04-19 富士通株式会社 情報処理装置制御プログラム、情報処理装置制御方法及び情報処理装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222105A (zh) * 2020-02-05 2021-08-06 百度(美国)有限责任公司 元协作训练范式
CN111898598A (zh) * 2020-07-03 2020-11-06 贵州大学 一种动态场景下基于文本的目标检测方法
JP2022061792A (ja) * 2020-10-07 2022-04-19 富士通株式会社 情報処理装置制御プログラム、情報処理装置制御方法及び情報処理装置
CN113591460A (zh) * 2021-07-02 2021-11-02 中译语通科技股份有限公司 一种基于迭代知识迁移的机器翻译风格迁移性能提升方法
CN113674140A (zh) * 2021-08-20 2021-11-19 燕山大学 一种物理对抗样本生成方法及系统
CN114091448A (zh) * 2021-10-22 2022-02-25 广州大学 文本对抗样本生成方法、系统、计算机设备和存储介质
CN114254108A (zh) * 2021-12-13 2022-03-29 重庆邮电大学 一种中文文本对抗样本生成的方法、系统及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
EDWIN JAIN等: "Adversarial Text Generation for Google\'s Perspective API" *
赵传君 等: "跨领域文本情感分类研究进展" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117057414A (zh) * 2023-08-11 2023-11-14 佛山科学技术学院 一种面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法及系统

Also Published As

Publication number Publication date
CN114925699B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
Thiesson et al. Learning mixtures of DAG models
CN110490128A (zh) 一种基于加密神经网络的手写识别方法
CN111429340A (zh) 一种基于自注意力机制的循环图像翻译方法
CN110347860B (zh) 基于卷积神经网络的深度图像描述方法
CN104517274B (zh) 基于贪婪搜索的人脸画像合成方法
CN115510814B (zh) 一种基于双重规划的篇章级复杂问题生成方法
CN114038055A (zh) 一种基于对比学习和生成对抗网络的图像生成方法
CN112017255A (zh) 一种根据食谱生成食物图像的方法
CN112348911A (zh) 基于语义约束的堆叠文本生成细粒度图像方法及系统
CN116662552A (zh) 金融文本数据分类方法、装置、终端设备及介质
CN113033822A (zh) 基于预测校正和随机步长优化的对抗性攻击与防御方法及系统
CN113487024A (zh) 交替序列生成模型训练方法、从文本中抽取图的方法
CN114925699A (zh) 一种基于风格变换的高迁移性对抗文本生成方法
CN116721179A (zh) 一种基于扩散模型生成图像的方法、设备和存储介质
CN114282555A (zh) 翻译模型训练方法及装置、翻译方法及装置
CN114048290A (zh) 一种文本分类方法及装置
CN111461229B (zh) 一种基于目标传递和线搜索的深层神经网络优化及图像分类方法
CN108959512B (zh) 一种基于属性增强注意力模型的图像描述网络及技术
CN116843830A (zh) 一种基于自监督学习的掩码图像建模算法
CN115510986A (zh) 一种基于AdvGAN的对抗样本生成方法
Neekhara et al. Adversarial reprogramming of sequence classification neural networks
CN115510440A (zh) 一种基于nes算法的黑盒模型反演攻击方法及系统
CN115374251A (zh) 一种基于句法对比学习的稠密检索方法
Lee et al. Large-Scale and Interpretable Collaborative Filtering for Educational Data
CN113360615B (zh) 基于知识图谱和时序特征的对话推荐方法、系统及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant