CN116304703A - 基于de-c&w的通用对抗样本生成方法 - Google Patents
基于de-c&w的通用对抗样本生成方法 Download PDFInfo
- Publication number
- CN116304703A CN116304703A CN202310274573.2A CN202310274573A CN116304703A CN 116304703 A CN116304703 A CN 116304703A CN 202310274573 A CN202310274573 A CN 202310274573A CN 116304703 A CN116304703 A CN 116304703A
- Authority
- CN
- China
- Prior art keywords
- attack
- sample
- individual
- algorithm
- generation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 90
- 238000005457 optimization Methods 0.000 claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 35
- 230000008569 process Effects 0.000 claims abstract description 19
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 67
- 238000013136 deep learning model Methods 0.000 claims description 30
- 238000012360 testing method Methods 0.000 claims description 7
- 230000035772 mutation Effects 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 8
- 238000013528 artificial neural network Methods 0.000 description 16
- 238000013135 deep learning Methods 0.000 description 13
- 238000002474 experimental method Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 8
- 238000011176 pooling Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 241000282994 Cervidae Species 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 2
- 241000009328 Perro Species 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000007123 defense Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000011480 coordinate descent method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于DE‑C&W的通用对抗样本生成方法,其步骤为:首先,使用差分进化(DE)算法对原始样本进行预处理,找到容易被攻击的敏感点;其次,给敏感点加入随机扰动后添加到原始样本中,得到对抗样本,并将对抗样本与原始样本共同作为初始输入样本;再基于初始输入样本构建C&W攻击算法的目标函数及损失函数;最后,使用Adam优化算法对损失函数进行优化,进而求得目标函数的最优解,也即最优扰动向量。本发明在生成通用对抗扰动实现普适性攻击时,降低了实现成本、简化了计算过程,保证攻击成功率的同时可在网络结构未知的情况下实现更加高效便捷、成本更低的普适性攻击。
Description
技术领域
本发明涉及深度学习技术领域,特别是指一种基于DE-C&W的通用对抗样本生成方法。
背景技术
目前,深度学习技术在各个领域都取得了迅猛的发展,随着深度学习技术的不断推广和普及,深度学习模型开始成为攻击的目标,其安全性也逐渐成为深度学习技术进一步发展应用的关键。对抗样本的存在对深度学习网络的安全性构成了极大威胁,并在很大程度上限制了深度学习应用的进一步发展。
2013年,Szegedy在文献[Christian Szegedy,Wojciech Zaremba,IlyaSutskever,Joan Bruna,Dumitru Erhan,et al.Intriguing properties of neuralnetworks[J].CoRR,2013,abs/1312.6199.]中用难以察觉的扰动揭示了深度神经网络的脆弱特性,发现在被深度神经网络分类正确的干净样本上添加微小的噪声,生成人眼看上去与原图几乎没有差别的新图像,将其再次输入模型后却会得到错误的预测结果,这种被修改后的样本被称为对抗样本(adversarial example)。2014年,Goodfellow在文献[1]--[Ian J.Goodfellow and Jonathon Shlens and Christian Szegedy.Explaining andHarnessing Adversarial Examples[J].CoRR,2014,abs/1412.6572.]中基于对抗样本的概念提出了通过生成对抗性样本来逃避基于深度学习检测的攻击被称为对抗攻击(adversarial attack)。许多以图像为数据载体的深度学习智能系统已经投入现实使用,针对深度学习模型的对抗攻击会导致模型识别出错,给人们的生活造成严重破坏。研究对抗样本的生成方法,增强对抗样本的攻击性能,才能有针对性地研究出更全面、更有效的对抗防御方法。
自从对抗样本被提出之后,越来越多的对抗攻击方法相继问世,深度学习的安全性日益受到威胁。目前已有的生成对抗样本的方法有很多,典型的对抗样本攻击方法主要有以下几种。
(1)快速梯度攻击算法(Faster Gradient Sign Method,FGSM)
快速梯度攻击(Fast Gradient Sign Method,FGSM)最早由Goodfellow等人在文献[1]中提出,其主要思想是:首先确定深度学习模型损失函数梯度变化最快的方向,在此方向上添加噪声,即生成对抗扰动,并将扰动迭代添加到图像中,导致模型分类错误。该算法的工作原理是计算关于输入的损失函数的梯度,并通过将一个选定的小常数乘以梯度的符号向量来产生一个小的扰动。
使用快速梯度符号攻击方法构造对抗样本的优点在于效率比较高,生成的对抗样本可迁移性强,但是,最终生成的对抗样本会对原始干净图像的所有像素点都产生一些微小的扰动。快速梯度符号攻击法攻击属于白盒攻击,需要得到模型的神经网络结构信息,另外,添加的噪声扰动容易被去除,如使用中值滤波等方法就能够过滤噪音,导致FGSM方法的攻击性不佳。
FGSM作为早期经典的攻击方法为后续基于梯度变化生成对抗扰动的方法奠定了基础,并且衍生出许多以此为基础的对抗攻击方法,如积分损失快速梯度符号法(Integrated Loss Fast Gradient Sign Method,IL-FGSM)、动量迭代的快速梯度方法(Momentum Iterative Fast Gradient Sign Method,MI-FGSM)、多样性的梯度攻击方法(Diverse Input Fast Gradient Sign Method,DI-FGSM)等。
(2)基本迭代法攻击算法(Basic Iterative Method,BIM)
基本迭代法攻击算法(Basic Iterative Method,BIM)由Kurakin等人于2016年提出。该方法不同于FGSM只在梯度方向上添加一次扰动,而是通过迭代的方式,沿着梯度增加的方向多步的进行添加小的扰动,并且在每一小步后,重新计算梯度方向。算法在每一次迭代过程中为了尽可能避免大的改变,使用切分函数Clip∈{·}约束坐标的每个输入特征把其限制在输入的扰动邻域内以及可行的输入空间内。
该算法是一种优化寻找最优解的小步迭代攻击方法,虽能构造出更加精准的扰动,具有较好的攻击效果,但不可避免地带来了过量的计算代价,与此同时BIM生成的对抗样本比FGSM生成的对抗样本更不可迁移。
(3)深度欺骗攻击算法(DeepFool)
文献[S.-M.Moosavi-Dezfooli,A.Fawzi and P.Frossard.DeepFool:A Simpleand Accurate Method to Fool Deep Neural Networks[C].2016 IEEE Conference onComputer Vision and Pattern Recognition(CVPR),2016:2574-2582,doi:10.1109/CVPR.2016.282.]提出的深度欺骗(DeepFool)攻击算法是一种基于迭代的不对原始样本扰动范围进行限制的新白盒攻击方法。深度欺骗攻击算法目的是寻找可以使分类器产生误判的最小扰动,其通过迭代计算的方式生成最小范数的对抗扰动。该算法可以生成比快速梯度攻击更小的扰动,通过每一次迭代为样本添加一个小的扰动向量,逐渐向模型拟合的决策边界靠近,直至原始输入样本被移动至边界的另一边,使得分类器分类错误。
通过深度欺骗攻击法生成对抗样本的扰动比快速梯度算法范数值更小,计算速度更快,可以生成更为精确的扰动,与原始样本相比几乎是不可察觉的。但是,深度欺骗攻击法所添加的扰动大小全部依靠人工的设计,需要较多的先验知识,这也是基于梯度算法普遍存在的问题。
(4)零阶优化算法攻击(Zeroth Order Optimization,ZOO)
ZOO是Chen等人提出的一种只访问模型的输入(图像)和输出(置信度分数)的黑盒攻击,它通过直接估计目标模型的梯度来生成对抗样本。ZOO算法不需要计算梯度,但需要查询和评估目标模型的梯度,需要进行更多次数的迭代,而且在估计梯度上也需要进行大量的计算。
该算法通过利用零阶优化的思想估计黑盒模型对输入样本的梯度,即使用零阶随机坐标下降法以及降维法、分层攻击法和重要性抽样技术来有效地攻击黑盒模型。该算法可以实现对目标神经网络模型的改进攻击,从而不再需要训练替代模型,攻击迁移性的损失便可以避免,由于黑盒攻击无法知道目标模型的参数或者内部结构,只能获取输入输出关系,因此目标模型梯度信息无法计算并获取,反向传播也就无法进行,与训练黑盒替代模型不同,根据输入输出关系,算法随机选取像素位置,添加扰动并计算伪梯度,估计梯度值,经过多次迭代得到黑盒对抗样本。
(5)单像素攻击算法(One Pixel Attack)
文献[J.Su,D.V.Vargas,K.Sakurai.One Pixel Attack for Fooling DeepNeural Networks[J],IEEE Transactions on Evolutionary Computation.2019,23(5):828-841.]提出了一种单像素攻击(One Pixel Attack)方法,该算法可以看作是对抗攻击的极端情况,即在图像中只改动一个像素点的情况下就可以实现对抗攻击。单像素攻击利用标准差分进化算法计算扰动向量并且只保留一个对结果影响最大的扰动。仅通过差分进化实现攻击使得单像素攻击方法无可避免的存在一些差分进化自身所具有的缺陷。而对于进化算法的优化问题,其计算依赖于种群规模和迭代次数,因此为了尽可能的获得全局最优解,种群规模和迭代次数的设定将相对较大,需要在较大的种群规模中通过多轮迭代寻求对抗扰动的最优解,因此查询次数就会增多,攻击效率就会降低。其次,由于进化算法局部搜索能力不足,导致求解过程容易陷入局部最优解,造成早熟收敛以及搜索停滞的问题,并且随着目标网络模型输入图像的像素尺寸不断增大,网络模型的不断优化,单像素对抗攻击故存在差分进化算法所具有的弊端,即很难保持较高的攻击成功率。
发明内容
由于对抗样本攻击存在攻击普适性不高,生成对抗样本效率低,并且需要反复多次访问被攻击网络,在实际应用中不仅会造成攻击成本高而且容易被对方发现。针对此问题,本发明提出一种基于DE-C&W(Differential Evolution-Carlini and Wagner Attack)的通用对抗样本生成方法,该方法利用差分进化算法预处理输入的图像,筛选出易被攻击的敏感像素点,降低维度的同时减少查询次数使攻击成本降低;利用反向传播将对抗问题转化为优化问题并优化损失函数,使其不需要获取深度神经网络的内部信息,生成通用对抗扰动实现普适性攻击;使用Adam优化算法搜索最优解,使深度学习模型识别错误时对抗样本与原样本间的差距最小,寻优结果更加精确,并且此优化算法使参数的更新不受梯度的伸缩变换影响,使算法收敛速度更快。
本发明的技术方案是这样实现的:
一种基于DE-C&W的通用对抗样本生成方法,其步骤如下:
步骤一:使用差分进化算法对原始样本进行预处理,找到容易被攻击的敏感点;
步骤二:给敏感点加入随机扰动后添加到原始样本中,得到对抗样本,并将对抗样本与原始样本共同作为初始输入样本;
步骤三:基于初始输入样本构建C&W攻击算法的目标函数及损失函数;
步骤四:使用Adam优化算法对损失函数进行优化,进而求得目标函数的最优解,也即最优扰动向量。
优选地,所述使用差分进化算法对原始样本进行预处理,找到容易被攻击的敏感点的方法为:
S1.1、预处理初始样本:初始化种群,并设置交叉概率CR、缩放因子F、迭代参数t,随机生成N个个体作为扰动向量,每个扰动向量是由图像中像素的坐标和像素值组成的;
S1.2、按照变异公式执行变异过程得到新个体,即新的扰动向量,每个变异的新个体是通过随机选择的三个上一代个体进行相互结合生成的下一代个体;
S1.3、按照交叉公式执行交叉过程得到新的向量空间解;
S1.4、根据选择公式执行选择过程,按照贪婪规则筛选出符合要求的个体进入下一代;
S1.5、如果新个体相比上一代个体能够使得深度学习模型预测的概率值更小,则淘汰上一代个体;
S1.6、重复步骤S1.2至S1.4,直至找到对应数量的敏感点可以使得深度学习模型的预测结果错误。
优选地,所述变异公式为:
vi(g+1)=xr1(g)+F·(xr2(g)-xr3(g));
其中,vi(g+1)是目标个体xi(g)对应的变异个体,即第g+1代种群中的第i个变异个体;r1、r2和r3是从父代中随机选取的三个不同于i的整数,xr1(g)、xr2(g)、xr2(g)是从当前第g代群体中随机选择的3个互不相同的个体,且它们与目标个体xi(g)不同;F为缩放因子;
所述交叉公式为:
其中,rand(0,1)用于产生(0,1)之间的一个随机数,CR是交叉概率,jrand为一个在[1,D]中随机选择的整数,确保交叉后的试验个体至少有一维分量由变异个体提供;vj,i(g+1)表示第g+1代种群中的变异个体i在第j维上的值,xj,i(g)表示第g代种群中个体i的第j维分量,即目标个体xi(g)在第j维上的值,uj,i(g+1)表示最终交叉产生的第g+1代种群中新个体i在第j维上的值;
所述选择公式为:
其中,xi(g+1)表示最终选择的第g+1代种群中第i个个体,ui(g+1)表示第g+1代种群中的第i个变异个体,xi(g)表示第g代种群中第i个个体,f(·)即为需要优化的函数。
优选地,所述C&W攻击算法的目标函数为:
其中,An表示对抗样本,Xn表示初始输入样本,表示初始输入样本Xn与对抗样本An间的距离度量,c为常数,f(·)为损失函数,Z(An)表示深度模型对对抗样本An的预测输出,t为被判错误的类别,P表示维度;
损失函数f(Z(An),t)的表达式为:
f(Z(An),t)=max{log[Z(An)i′]-max(log[Z(An)t:i′≠t]),0};
其中,Z(·)i′为深度神经网络模型Softmax前一层的第i′个输出函数,i′为输入数据的原始类别。
优选地,所述使用Adam优化算法对损失函数进行优化的方法为:通过估计损失函数的梯度求解目标函数的最优解;损失函数的梯度公式如下:
其中,x表示某个输入样本,gj(x)表示目标模型函数f(x)在像素点x的第j维上的梯度,hj(x)表示目标模型函数f(x)在像素点x的第j维上的二阶梯度,xj表示像素点x在第j维上的值,h表示常数,ej是第j维上的单位向量。
与现有技术相比,本发明产生的有益效果为:
1)本发明使用DE对输入图像进行预处理,找到容易被攻击的多个敏感像素点并降低搜索维度,减少查询次数降低攻击成本;利用反向传播将对抗攻击问题转化为优化问题,将对抗样本生成的问题重新定义为无约束的优化问题,之后优化C&W攻击算法中的损失函数,使其不需要获取深度神经网络的内部状态信息;使用Adam优化算法搜索最优解,也就是最小扰动,使深度学习模型识别错误时对抗样本与原样本间的差距最小。
2)本发明在生成通用对抗扰动实现普适性攻击时,降低了实现成本、简化了计算过程,保证攻击成功率的同时可在网络结构未知的情况下实现更加高效便捷、成本更低的普适性攻击。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的差分进化算法迭代流程图。
图2为本发明的DE-C&W的通用对抗样本生成算法框架图。
图3为本发明的DE-C&W的通用对抗样本生成算法流程图。
图4为本发明实施例自定义的深度学习模型网络结构;(a)MNIST,(b)Cifar10。
图5为Cifar10数据集成功对抗实例。
图6为MNIST数据集成功对抗实例。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图2和3所示,本发明实施例提供了一种基于DE-C&W的通用对抗样本生成方法,具体步骤如下:
步骤一:使用DE对原始样本进行预处理,找到容易被攻击的敏感点;差分进化(Differential Evolution,DE)是Price和Storn引入的一种简单而强大的基于群体的全局优化进化算法,用于求解多维空间的最优解。由于其具有结构简单、容易实现、收敛快速、鲁棒性强等特点,而被广泛应用。1996年在日本名古屋举行的第一届国际演化计算(ICEO)竞赛中,差分进化算法被证明是速度最快的进化算法。
使用DE算法对原始样本进行预处理的步骤为:
S1.1、预处理初始样本:初始化种群,并设置交叉概率CR、缩放因子F、迭代参数t,随机生成N个个体作为扰动向量,每个扰动向量是由图像中像素的坐标和像素值组成的。
S1.2、按照变异公式执行变异过程得到新个体,即新的扰动向量,每个变异的新个体是通过随机选择的三个上一代个体进行相互结合生成的下一代个体。
DE算法通过采用浮点矢量进行编码生成种群个体。在DE算法寻优的过程中,首先从父代个体中间选择两个个体向量做差生成差分矢量,然后选择另外一个个体与差分矢量求和生成实验个体。为了方便定位像素位置,且因差分进化算法要求输入值为向量的形式,将像素点表示为xi=(x,y,r,g,b),其中x、y表示像素点的坐标,r、g、b表示像素点颜色通道的取值。添加的扰动也写成相同的向量形式,r、g、b也就是这个像素点要加入的扰动值,一个扰动值对应着一个修改位置的像素,每个变异体包含固定数量的添加过扰动的向量。所述变异公式为:
vi(g+1)=xr1(g)+F·(xr2(g)-xr3(g)) (1)
其中,vi(g+1)表示第g+1代种群中的第i个变异体;r1、r2和r3是从父代中随机选取不同于i的整数;xi(g)表示第g代种群中第i个个体,i≠r1≠r2≠r3,F为缩放因子。
S1.3、按照交叉公式执行交叉过程得到新的向量空间解;对父代个体与相应的实验个体进行交叉操作生成新的子代个体,交叉公式为:
其中,rand(0,1)是(0,1)之间的随机数;CR是交叉概率,通过交叉概率CR决定中间vi(g+1)的第j个位置的元素值;jrand为一个在[1,D]中随机选择的整数,确保交叉后的试验个体至少有一维分量由变异个体提供;vj,i(g+1)表示第g+1代种群中的变异个体i在第j维上的值,xj,i(g)表示第g代种群中个体i的第j维分量,即目标个体xi(g)在第j维上的值,uj,i(g+1)表示最终交叉产生的第g+1代种群中新个体i在第j维上的值。
S1.4、根据选择公式执行选择过程,按照贪婪规则筛选出符合要求的个体进入下一代;最后在父代个体和子代个体之间进行选择操作,将符合要求的个体保存到下一代群体中去。选择公式为:
其中,xi(g+1)表示最终选择的第g+1代种群中的第i个个体;ui(g+1)表示交叉产生的第g+1代种群中的第i个变异个体;xi(g)表示第g代种群中第i个个体;f(·)即为需要优化的函数。该公式表示把交叉向量和原向量对比,选择较优的那个,即对比ui(g+1)和xi(g)哪个更优。
S1.5、如果新个体相比上一代个体能够使得深度学习模型预测的概率值更小,则淘汰上一代个体。
S1.6、重复步骤S1.2至S1.4,直至找到对应数量的敏感点可以使得深度学习模型的预测结果错误。
差分进化算法迭代流程如图1所示。在预处理图像时应用差分进化算法,目的是为了降低查询的维度来提高查询的效率,并且找到容易被攻击的像素点。从上述寻优的过程中可以看出,DE进化的本质是利用了群体中向量或者个体之间的距离和方向信息,将Adam优化算法应用于搜索图像的扰动点,把图像作为输入向量,图像中的像素点作为实验个体,经过差分进化算法的变异、交叉和选择等操作,搜索加入扰动后对深度学习模型影响最大的像素点,然后以这些点为中心搜索一个小邻域内的点,从而降低了优化算法的查询维度。
步骤二:给敏感点加入随机扰动后添加到原始样本中,得到对抗样本,并将对抗样本与原始样本共同作为初始输入样本。
步骤三:基于初始输入样本构建C&W攻击算法的目标函数及损失函数。
C&W(Carlini and Wagner Attack)是一个基于优化的白盒攻击算法,它可以调节置信度,同时兼顾高攻击准确率和低对抗扰动的两个方面,达到真正意义上对抗样本的效果,该攻击可以破解很多的防御方法,但是因为它是基于优化的攻击方式,所以导致大量的时间消耗在参数更新上,对抗样本生成时间较慢,不如其它的攻击方式快捷,所以在一些AI(Artificial Intelligence)对抗样本的竞赛上,很少有采用C&W攻击来生成对抗样本。针对对抗样本生成较慢,生成时间较长的问题,本发明首先选用DE算法对输入图像进行预处理以减少查询次数和降低搜索维度,然后使用Adam优化算法使参数的更新不受梯度的伸缩变换影响,以此来达到使收敛速度更快的优化目的。
Carlini和Wagner在2016年为了攻击防御性蒸馏网络提出的一种基于优化的C&W攻击算法。该算法通过以下最优化算式得到初始对抗图像。
f(An)=max(max{Z(An)i′:i′≠t}-Z(An)t,-k) (5)
其中,An表示对抗样本,Xn表示初始输入样本,An-Xn表示向初始输入样本添加的对抗扰动;表示初始样本Xn与对抗样本An间的距离度量,通常使用欧氏距离度量;P表示维度,[0,1]P表示一个P维的超立方体,An中每一个维度的取值都在[0,1]之间;c为可选择的常数,用以权衡两个损失函数之间的关系,c越大,攻击成功率越高,同时耗时也更长;f(An)表示深度学习模型的损失函数,t为被判错误的类别,其中Z(·)i′函数为深度神经网络模型Softmax前一层的第i′个输出,i′为输入数据的原始类别,参数k为约束置信度的最小值。
C&W攻击首先使用损失函数f(An),当且仅当f(An)≤0时替换深度模型Z(·)对对抗样本的预测输出,然后使用拉格朗日法则将深度模型对对抗样本的预测输出类标转换为算式(6)所示的优化问题。在此算法中作者对损失函数做了多种变形尝试,并且在以(L2范数)为距离衡量尺度的条件下,在多种自定义的损失函数中找到了攻击效果最好的损失函数,如式(7)所示。这样的损失函数形式意味着只需要使得模型把An分类为某一个不正确的类别的置信度超过原本类别的置信度即可。同时该算法使用公式(6)对An进行盒约束,将优化An的问题转换为优化w的问题。
其中,w是在tanh空间中的自变量,表示优化的参数,w经过映射变换后得到扰动。通过这样方法保证了生成得到的对抗样本无论参数w怎么变化,经过映射变换后,对抗样本也不会超出正常的数据范围,此时盒约束优化问题就转化为无约束的优化问题,便于后续使用优化器进行求解。
优化的C&W攻击算法中的损失函数不需要获取深度神经网络的内部状态信息,但需要反向传播将对抗攻击问题转化为优化问题,所以优化的C&W攻击算法让损失函数只取决于Z(·)的输出和分类标签,与深度神经网络的内部状态信息无关。优化后的算法公式如公式(7)所示,其中f(Z(An),t)为修改后的损失函数。
其中,Z(An)表示深度模型对对抗样本An的预测输出;An∈[0,1]P表示限制增加扰动后值的范围。之所以存在上下界,是因为数字图像能表示的像素值范围是有限的,在经过归一化之后,像素值都约束在[0,1]的范围内,为了确保添加扰动后的图像有效,在实验中通过在公式(7)引入新的变量w对扰动值的范围进行限制,由于tanh函数本身的值域范围为[-1,1],这样就保证了An的范围在[0,1]之间。另外,由于像素值的限制靠的是损失函数本身的值域而非人工截断,那么就可以引入一些不支持人工截断的优化器,例如Adam优化方法。修改后的损失函数不需要获取深度神经网络内部状态信息,同时将神经网络的输出Z(x)转换成log(·)并进行单调变换,能更好的表征概率分布,清楚每个类别的置信度,修改后的损失函数如公式(8)所示:
f(Z(An),t)=max{log[Z(An)i′]-max(log[Z(An)t:i′≠t]),0} (8)
在优化后的攻击中,当An被判定成为除了原始类别i′以外的其它类时,表明生成的对抗样本攻击成功。
步骤四:使用Adam优化算法对损失函数进行优化,进而求得目标函数的最优解,也即最优扰动向量。
Adam算法在2014年由Kingma和Lei提出,随后在深度学习领域内十分流行,因为它能很快实现计算高效,方便实现,且内存使用也很少的优良结果。Liu等人在使用优化方法解决对抗样本攻击时使用了对称差商法来估计梯度gj,再增加一次查询就能得到二阶信息hj,公式如下:
其中,x表示某个输入样本,gj(x)表示目标模型函数f(x)在像素点x的第j维上的梯度,hj(x)表示目标模型函数f(x)在像素点x的第j维上的二阶梯度,xj表示像素点x在第j维上的值,h表示一个足够小的常数,ej是第j维上的单位向量。算法选择一个足够小的数h来计算某个像素点附近的梯度,以寻找最优解。对称差商法适用于大型深度神经网络,完全可以解决对抗攻击问题,但此方法会产生大量的模型查询,导致查询效率过低,因此梯度估计方法被更多学者研究。优化后的C&W攻击不知道目标函数梯度信息,只能通过已知的图像信息和输出结果估计待攻击网络的梯度,把估计出的梯度作为初始搜索方向来搜索最优解。Adam算法和传统的随机梯度下降不同。随机梯度下降保持单一的学习率更新所有的权重,学习率在训练过程中不会改变,而且是以估计的梯度作为初始方向搜索最优解,不用搜索所有数据从而加快迭代。而Adam通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率,参数的更新不受梯度的伸缩变换影响,收敛速度更快,比普通的随机梯度下降法能更快找到最优解。
本发明通过优化C&W攻击算法中的损失函数使其不需要获取深度神经网络的内部状态信息,让损失函数只取决于F(·)的输出和分类标签,并通过反向传播将对抗攻击问题转化为优化问题,在攻击者无法掌握待攻击网络的损失函数及其梯度的情况下用改进的Adam最优化算法去求解最优扰动,且当深度学习模型识别出现错误时,攻击图像与原始图像之间的差异最小。
本发明方法的伪代码如算法1所示。其中Z(x)为准备攻击的模型,Dist(·)为误差限制,Loss(·)为损失函数,x0为初始输入,λ为正则化参数,Q为最大查询次数,δ=x-x0为扰动向量,F为缩放因子,CR为交叉概率。
实验与结果分析
为了验证本发明方法生成对抗样本的效率和普适性,以及对抗样本攻击的成功率、攻击时间以及访问网络次数的有效性,在LeNet、ResNet和自定义深度学习模型上与现有的对抗样本生成算法C&W进行对比。实验环境为Jet Brains PyCharm 2021.3.2,使用语言为Python,搭载的深度学习框架为Pytorch、Tensorflow、Keras。进行对比实验的计算机的具体配置如表1所示。
表1计算机配置信息表
本发明所实现的深度学习模型针对的数据集为Cifar-10和MNIST数据集。每个数据集被分为训练集和测试集。Cifar10数据集是用于识别普适物体的32*32*3的彩色图像数据集,共10种分类,类别分别为airplane、automobile、bird、cat、deer、dog、frog、horse、ship、truck,各个类之间没有重叠,其中训练集50000张,测试集10000张。MNIST是大小为28*28的灰度图像手写数字数据集,类别为0到9,同样是10分类,一共包含了70000张图像和标签,其中训练集有60000张,测试集有10000张。训练集用于训练网络,测试集中被识别正确的图像用作对抗示例。
由于两种数据集输入的通道数不同,深度学习模型结构输入层的大小也有所不同,实验对这两种数据集分类的深度学习模型基本一致,区别在于输入层的大小不同,因此受到迁移学习的启发,根据实验需求先针对一种数据集设计好深度学习模型,然后复用其结构在此结构前加一层新的输入层作为针对另一数据集分类的深度学习模型,比如针对Cifar-10数据集上的深度学习模型,其输入层大小为32*32通道为3,那么MNIST的深度学习模型则复用其网络结构,然后在其输入层之前再加一层大小为28*28、通道为1的层作为新的输入层,并使该层的输出为大小为32*32、通道为3。在Cifar-10数据集和MNIST上训练的LeNet深度学习模型结构如表2所示。
表2 LeNet模型网络结构
为使分类准确率更高,残差网络模型ResNet选择ResNet50。首先通过一个卷积层之后有一个池化层,然后通过一系列的残差结构,最后再通过一个平均池化下的采样操作以及一个全连接层得到一个输出,具体参数如表3所示。
表3 ResNet模型网络结构
自定义深度学习模型也遵循除了参数不同,其它结构基本一致原则,其模型结构如图4所示。其中,Conv2D表示卷积层,Max pooling表示最大池化层,Average pooling表示全局平均池化层,Bottleneck表示残差块,Full connected表示全连接层,Softmax函数指归一化指数函数。
对上述LeNet、ResNet和自定义三种模型进行训练并以此准确率的模型为后续生成对抗样本所使用,最终在Cifar-10与MNIST数据集上图像识别正确率如表4所示。
表4模型识别图像分类的正确率
本发明在使用Adam优化算法进行优化时结合文献[Kingma D P,Ba J.Adam:AMethod for Stochastic Optimization[J].Computer Science,CoRR,abs/1412.6980,2014.]、[杨同.深度学习中自适应算法学习率的研究[D].华中科技大学,2021.DOI:10.27157/d.cnki.ghzku.2021.006389.]设置实验所需参数,初始学习率为0.001,一阶矩估计的指数衰减率为0.9,二阶矩估计的指数衰减率为0.999。正则化参数用于防止深度学习模型对训练数据的过度拟合。一般来说,正则化参数的值越大,查询代价越低。文献[N.Carlini and D.Wagner,"Towards Evaluating the Robustness of NeuralNetworks,"2017IEEE Symposium on Security and Privacy(SP),San Jose,CA,USA,2017,pp.39-57,doi:10.1109/SP.2017.49.]的实验结果表明,当正则化参数值为10时,攻击时间和查询次数最少。因此,本实验把正则化参数的初始值设定为10。
本实验用经典的算法ZOO、One pixel与本发明方法对LeNet、ResNet和自定义深度学习三种模型进行攻击,并对三种算法的攻击成功率、攻击平均时间和平均查询次数进行了对比。在Cifar-10数据集和MNIST数据集上的实验结果如表5所示。
表5实验结果
通过分析表5可知,本发明方法和ZOO算法在Cifar10和MINIST两种数据集上攻击成功率都高于One Pixel算法,在Cifar10数据集上ZOO算法的攻击成功率虽然高于本发明方法,但是由于ZOO算法做了过多的模型评估导致攻击所用时间较长且查询次数过多,使得ZOO在处理维度较高的图像时,不能快速的搜索出最优扰动,并且过多的网络查询次数还会增加被发现的风险。本发明方法利用差分进化算法预处理图像,在一定程度上降低了解空间的搜索维度,能够较好地处理高维数据,并且所用时间和平均查询次数远远小于ZOO。本发明方法在两种数据集上进行对抗样本攻击时不仅取得了较理想的成功率,而且在三种不同类型的深度学习模型上进行攻击实验都保持着较高的攻击成功率,同时平均查询次数也有不同程度的减少,降低了攻击被发现的风险。
使用MNIST、Cifar10数据集在LeNet、ResNet和自定义深度学习模型上成功生成的一些对抗样本分别如图5和图6所示。图5是采用数据集Cifar10的实验结果,其实验结果数字0到9对应的分类分别为airplane、automobile、bird、cat、deer、dog、frog、horse、ship、truck,例如第一行第一张图片正确的类别为8,对应为ship类别,却被错误地被识别为0,对应为airplane类别。图6是采用数据集MNIST的实验结果,其实验结果数字0到9对应的分类与图片上的数字相对应,例如第一行第一张图片正确的类别为3,却错误地被识别为9,第一行第二张图片正确的类别为5,却被识别为9。
本发明利用差分进化算法预处理输入的图像,筛选出易被攻击的敏感像素点,降低维度的同时减少查询次数使攻击成本降低;利用反向传播将对抗问题转化为优化问题并优化损失函数,使其不需要获取深度神经网络的内部信息,生成通用对抗扰动实现普适性攻击;使用Adam优化算法搜索最优解,使深度学习模型识别错误时对抗样本与原样本间的差距最小,寻优结果更加精确,并且此优化算法使参数的更新不受梯度的伸缩变换影响,使算法收敛速度更快。实验结果表明,本发明方法在生成通用对抗扰动实现普适性攻击时,降低了实现成本、简化了计算过程,保证攻击成功率的同时可在网络结构未知的情况下实现更加高效便捷、成本更低的普适性攻击。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于DE-C&W的通用对抗样本生成方法,其特征在于,其步骤如下:
步骤一:使用差分进化算法对原始样本进行预处理,找到容易被攻击的敏感点;
步骤二:给敏感点加入随机扰动后添加到原始样本中,得到对抗样本,并将对抗样本与原始样本共同作为初始输入样本;
步骤三:基于初始输入样本构建C&W攻击算法的目标函数及损失函数;
步骤四:使用Adam优化算法对损失函数进行优化,进而求得目标函数的最优解,也即最优扰动向量。
2.根据权利要求1所述的基于DE-C&W的通用对抗样本生成方法,其特征在于,所述使用差分进化算法对原始样本进行预处理,找到容易被攻击的敏感点的方法为:
S1.1、预处理初始样本:初始化种群,并设置交叉概率CR、缩放因子F、迭代参数t,随机生成N个个体作为扰动向量,每个扰动向量是由图像中像素的坐标和像素值组成的;
S1.2、按照变异公式执行变异过程得到新个体,即新的扰动向量,每个变异的新个体是通过随机选择的三个上一代个体进行相互结合生成的下一代个体;
S1.3、按照交叉公式执行交叉过程得到新的向量空间解;
S1.4、根据选择公式执行选择过程,按照贪婪规则筛选出符合要求的个体进入下一代;
S1.5、如果新个体相比上一代个体能够使得深度学习模型预测的概率值更小,则淘汰上一代个体;
S1.6、重复步骤S1.2至S1.4,直至找到对应数量的敏感点可以使得深度学习模型的预测结果错误。
3.根据权利要求2所述的基于DE-C&W的通用对抗样本生成方法,其特征在于,所述变异公式为:
vi(g+1)=xr1(g)+F·(xr2(g)-xr3(g));
其中,vi(g+1)是目标个体xi(g)对应的变异个体,即第g+1代种群中的第i个变异个体;r1、r2和r3是从父代中随机选取的三个不同于i的整数,xr1(g)、xr2(g)、xr2(g)是从当前第g代群体中随机选择的3个互不相同的个体,且它们与目标个体xi(g)不同;F为缩放因子;
所述交叉公式为:
其中,rand(0,1)用于产生(0,1)之间的一个随机数,CR是交叉概率,jrand为一个在[1,D]中随机选择的整数,确保交叉后的试验个体至少有一维分量由变异个体提供;vj,i(g+1)表示第g+1代种群中的变异个体i在第j维上的值,xj,i(g)表示第g代种群中个体i的第j维分量,即目标个体xi(g)在第j维上的值,uj,i(g+1)表示最终交叉产生的第g+1代种群中新个体i在第j维上的值;
所述选择公式为:
其中,xi(g+1)表示最终选择的第g+1代种群中第i个个体,ui(g+1)表示第g+1代种群中的第i个变异个体,xi(g)表示第g代种群中第i个个体,f(·)即为需要优化的函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310274573.2A CN116304703A (zh) | 2023-03-21 | 2023-03-21 | 基于de-c&w的通用对抗样本生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310274573.2A CN116304703A (zh) | 2023-03-21 | 2023-03-21 | 基于de-c&w的通用对抗样本生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116304703A true CN116304703A (zh) | 2023-06-23 |
Family
ID=86826923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310274573.2A Pending CN116304703A (zh) | 2023-03-21 | 2023-03-21 | 基于de-c&w的通用对抗样本生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116304703A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866287A (zh) * | 2019-10-31 | 2020-03-06 | 大连理工大学 | 一种基于权重谱生成对抗样本的点攻击方法 |
CN113704758A (zh) * | 2021-07-29 | 2021-11-26 | 西安交通大学 | 一种黑盒攻击对抗样本生成方法及系统 |
CN114066912A (zh) * | 2021-11-23 | 2022-02-18 | 中国人民解放军战略支援部队信息工程大学 | 基于优化算法和不变性的智能对抗样本生成方法及系统 |
CN115062306A (zh) * | 2022-06-28 | 2022-09-16 | 中国海洋大学 | 一种针对恶意代码检测系统的黑盒对抗攻击方法 |
CN115272774A (zh) * | 2022-09-01 | 2022-11-01 | 贵州大学 | 基于改进自适应差分进化算法的对抗样本攻击方法及系统 |
-
2023
- 2023-03-21 CN CN202310274573.2A patent/CN116304703A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866287A (zh) * | 2019-10-31 | 2020-03-06 | 大连理工大学 | 一种基于权重谱生成对抗样本的点攻击方法 |
CN113704758A (zh) * | 2021-07-29 | 2021-11-26 | 西安交通大学 | 一种黑盒攻击对抗样本生成方法及系统 |
CN114066912A (zh) * | 2021-11-23 | 2022-02-18 | 中国人民解放军战略支援部队信息工程大学 | 基于优化算法和不变性的智能对抗样本生成方法及系统 |
CN115062306A (zh) * | 2022-06-28 | 2022-09-16 | 中国海洋大学 | 一种针对恶意代码检测系统的黑盒对抗攻击方法 |
CN115272774A (zh) * | 2022-09-01 | 2022-11-01 | 贵州大学 | 基于改进自适应差分进化算法的对抗样本攻击方法及系统 |
Non-Patent Citations (1)
Title |
---|
PIN-YU CHEN: "ZOO: Zeroth Order Optimization Base d Black-b ox Attacks to Deep Neural Networks without Training Substitute Models", 《ARXIV:1708.03999V2》, 2 November 2017 (2017-11-02), pages 1 - 13 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126360B (zh) | 基于无监督联合多损失模型的跨域行人重识别方法 | |
Ghasedi et al. | Balanced self-paced learning for generative adversarial clustering network | |
Zhang et al. | Simplifying mixture models through function approximation | |
Liu et al. | An improved InceptionV3 network for obscured ship classification in remote sensing images | |
CN110866287A (zh) | 一种基于权重谱生成对抗样本的点攻击方法 | |
Han et al. | End-to-end trainable trident person search network using adaptive gradient propagation | |
CN110705636A (zh) | 一种基于多样本字典学习和局部约束编码的图像分类方法 | |
Kang et al. | Rotation-invariant deep embedding for remote sensing images | |
Valliammal et al. | An optimal feature subset selection for leaf analysis | |
CN114399630A (zh) | 基于信念攻击和显著区域扰动限制的对抗样本生成方法 | |
CN116777006A (zh) | 基于样本缺失标签增强的多标签学习方法、装置和设备 | |
Meenakshi et al. | An Optimised Defensive Technique to Recognize Adversarial Iris Images Using Curvelet Transform. | |
Li et al. | Sa-es: Subspace activation evolution strategy for black-box adversarial attacks | |
Fan et al. | Partial label learning based on disambiguation correction net with graph representation | |
Barman et al. | A graph-based approach for making consensus-based decisions in image search and person re-identification | |
An et al. | Multi-level common space learning for person re-identification | |
Ye et al. | Leapattack: Hard-label adversarial attack on text via gradient-based optimization | |
Hu et al. | Attention‐guided evolutionary attack with elastic‐net regularization on face recognition | |
Zheng et al. | U-Turn: Crafting Adversarial Queries with Opposite-Direction Features | |
CN110135253A (zh) | 一种基于长期递归卷积神经网络的手指静脉认证方法 | |
CN116304703A (zh) | 基于de-c&w的通用对抗样本生成方法 | |
CN113486736B (zh) | 一种基于活跃子空间与低秩进化策略的黑盒对抗攻击方法 | |
CN111581467B (zh) | 基于子空间表示和全局消歧方法的偏标记学习方法 | |
Liu et al. | Enhanced attacks on defensively distilled deep neural networks | |
Liu et al. | Ml-stealer: Stealing prediction functionality of machine learning models with mere black-box access |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |