CN109460814B - 一种具有防御对抗样本攻击功能的深度学习分类方法 - Google Patents
一种具有防御对抗样本攻击功能的深度学习分类方法 Download PDFInfo
- Publication number
- CN109460814B CN109460814B CN201811138721.3A CN201811138721A CN109460814B CN 109460814 B CN109460814 B CN 109460814B CN 201811138721 A CN201811138721 A CN 201811138721A CN 109460814 B CN109460814 B CN 109460814B
- Authority
- CN
- China
- Prior art keywords
- sample
- dnn
- attack
- model
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000006870 function Effects 0.000 title claims abstract description 28
- 238000013135 deep learning Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 74
- 238000013145 classification model Methods 0.000 claims abstract description 29
- 230000003042 antagnostic effect Effects 0.000 claims abstract description 16
- 230000007123 defense Effects 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 14
- 238000009826 distribution Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 5
- 238000005457 optimization Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 5
- 238000011176 pooling Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 208000001613 Gambling Diseases 0.000 description 1
- AYFVYJQAPQTCCC-GBXIJSLDSA-N L-threonine Chemical compound C[C@@H](O)[C@H](N)C(O)=O AYFVYJQAPQTCCC-GBXIJSLDSA-N 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种具有防御对抗样本攻击功能的深度学习分类方法,实现该分类方法的装置包括:攻击生成模型AG,对抗样本判别模型D,分类模型DNN,具体方法如下:(1)使用正常数据集训练DNN,分类准确率大于预设值,停止DNN的训练;(2)交替训练AG和D的参数,直到AG‑D实现纳什均衡;(3)交替训练型AG和DNN的参数,直到AG‑DNN实现纳什均衡;(4)判断对抗样本判别模型D和分类模型DNN是否达到帕累托最优,若是,则DNN训练完毕,执行步骤(5),否则,返回步骤(2);(5)将待分类的样本输入训练完毕的分类模型DNN,得到分类结果。利用本发明,可以有效解决分类模型在实际分类应用中面对对抗样本时的脆弱性,改善模型性能的鲁棒性。
Description
技术领域
本发明属于人工智能领域的深度学习算法与模型的安全领域研究领域,具体涉及一种具有防御对抗样本攻击功能的深度学习分类方法。
背景技术
目前,深度学习吸引了大批学者和研究机构的注意,通过硬件性能的不断提升,深度学习被广泛应用于目标检测、图像语义分割与理解、知识图谱、数据生成等领域。深度学习是目前人工智能机器学习最常用的技术之一,深度神经网络的对抗性攻击是一个严重的安全隐患。对抗攻击定义为:攻击者通过在原始数据上添加精心设计的微小扰动得到对抗样本,从而对深度学习模型进行愚弄,使其以较高置信度误判的恶意攻击。根据是否已知攻击目标的模型结构和参数分布,可以分为白盒攻击和黑盒攻击;针对攻击者的原始期望,分为目标攻击和无目标攻击;根据对抗样本的不同,分为虚拟数字空间攻击和真实世界中的物理空间攻击。
目前针对数字空间的对抗攻防研究日趋深入,而真实世界的对抗攻防也已起步,都对安全生产生活造成极大威胁。Liu等人成功攻击Clarifai公司的图像分类模型,这表明恶意的攻击者很有可能通过对抗攻击干扰患者诊疗,存在严重安全隐患。Etimov等人演示了真实场景下使用对抗样本对实际运行的自动驾驶系统进行愚弄,将“左转弯”路牌错误识别为“小心路滑”标识,而直接威胁车内人员的生命财产安全。正确识别对抗性攻击并提高深度神经网络的防御能力迫在眉睫。
对抗样本的防御难度在于,从攻击角度出发,对抗样本的构建过程是针对单一目标模型的离散攻击,缺乏对其产生机理的分析与数学模型的构建,也因为对抗样本要求深度神经网络模型为每一个可能的输入值产生好的输出结果。此外,对抗样本是深度神经网络模型非线性和非凸最优化问题的解决方法,需要有好的方法描述这些复杂优化问题的方法;从防御角度出发,大部分防御研究侧重单一攻击的防御,通过捕获到攻击者的对抗样本展开深度神经网络的对抗学习实现对该攻击的防御,因此依赖已有少量对抗样本的对抗训练不具有普适性。
目前已有的对抗性攻击方法主要可以分为基于梯度的攻击、基于优化的攻击和其它攻击。面对不同的攻击方法,根据最终的防御效果,可以分为完全防御和仅检测,完全防御是将检测出的对抗样本进行还原处理,恢复其原始面貌;仅检测则是对检测出的对抗样本进行拒绝,而不做进一步处理。目前深度神经网络的对抗性攻击的防御方法主要可以分为修改训练/输入数据、网络修正法、附加网络法三类。
发明内容
本发明的目的是提供一种具有防御对抗样本攻击功能的深度学习分类方法,通过快速高效的生成大量对抗样本,用于DNN模型的对抗训练,从而有效提高其在进行分类任务时面对对抗样本的性能鲁棒性。
为实现上述发明目的,本发明提供以下技术方案:
一种面向深度学习对抗攻击的快速防御方法,实现该分类方法的装置包括:
攻击生成模型AG,该攻击生成模型AG的输入为正常样本,噪声样本以及正常样本的类标,输出为扰动尽可能小且攻击能力尽可能强的对抗样本;
对抗样本判别模型D,该对抗样本判别模型D的输入为正常样本、正常样本的类标以及攻击生成模型AG输出的对抗样本,输出为正常样本和对抗样本的区分结果;
分类模型DNN,该分类模型DNN的输入为正常样本和对抗样本,输出为预测类标;
应用上述装置进行分类的方法如下:
(1)使用正常数据集训练分类模型DNN,直到分类准确率大于预设值,停止DNN的训练;
(2)交替训练攻击生成模型AG和对抗样本判别模型D的参数,直到AG-D实现纳什均衡;
(3)交替训练攻击生成模型AG和分类模型DNN的参数,直到AG-DNN实现纳什均衡;
(4)判断对抗样本判别模型D和分类模型DNN是否达到帕累托最优,若是,则则DNN训练完毕,执行步骤(5),否则,返回步骤(2);
(5)将待分类的样本输入训练完毕的分类模型DNN,得到分类结果。
本发明的深度学习分类方法基于由攻击生成模型AG、对抗样本判别模型D和分类模型DNN组成的三方博弈模型结构,通过AG自动生成对抗样本,分别作为D和DNN的输入样本,并通过D和DNN的输出反馈给AG,调整其内部参数。
通过三方博弈的对抗训练策略,使AG生成扰动尽可能小,攻击能力尽可能强的对抗样本,用于DNN模型的对抗训练,从而有效提高其面对对抗样本的性能鲁棒性。
本发明的三方博弈模型中,DNN的网络结构与数据集的复杂程度有关;而D和AG的网络结构设计,与DNN网络以及数据集的复杂程度有关。为了能够实现更好的对抗训练效果,需要生成具有多样性和强泛化能力的对抗样本,为此本发明的攻击生成模型AG为多通道的级联式对抗样本生成器。
所述多通道的级联式对抗样本生成器由主通道、特征金字塔卷积通道、条件矩阵通道三部分级联组成;所述主通道的功能是进行对抗样本生成;所述特征金字塔卷积通道的功能是为主通道的每一层网络级联图像特征,在实现对DNN相似攻击效果的前提下减少训练次数;所述条件矩阵通道的功能是为主通道的每一层网络级联样本类标,强化分类属性,加快对原始数据分布的拟合。
所述多通道的级联式对抗样本生成器构建需要满足的三点要求:
①.构建得到的DNN网络在正常数据集上的测试分类准确率需要达到90%。
②.D网络包括卷积和反卷积两部分,因此其复杂度约等于两个DNN网络;AG网络具有三通道,主通道复杂度与DNN相似;
步骤(2)的具体过程为:
(2-1)固定攻击生成模型AG的参数,将AG输出的对抗样本和正常样本的混合数据,以及对应的真实类标作为对抗样本判别模型D的输入,训练D的参数,使其能够区分对抗样本和正常样本;
(2-2)固定对抗样本判别模型D的参数,将正常样本、对应的类标、噪声样本作为训练攻击生成模型AG的输入,训练AG的参数,使其输出的对抗样本分布更接近真实数据分布;
(2-3)重复上述两个步骤,直到AG-D实现纳什均衡。
步骤(2-3)中,AG-D实现纳什均衡时满足:
其中,min max表示纳什均衡中的最大最小目标函数,log表示对数函数,xnor表示对抗样本,y表示对应于xnor的类标,xadv=AG(xnor)表示生成器AG(·)根据原始正常样本生成的对抗样本,D(·|·)表示判别器的输出,E[·]表示交叉熵的期望。
步骤(3)的具体过程为:
(3-1)固定攻击生成模型AG的参数,将对抗样本和正常样本作为分类模型DNN的输入,训练DNN的参数,使其能够正确识别正常样本和对抗样本的真实类标;
(3-2)固定分类模型DNN的参数,将AG的输出作为DNN的输入,并通过DNN的输出微调训练AG网络的参数,使其能够误导DNN对对抗样本的识别;
(3-3)重复上述两个步骤,直到AG-DNN实现纳什均衡。
步骤(3-3)中,AG-DNN实现纳什均衡时满足:
其中,DNN表示待攻击的深度模型,y表示样本的真实类标,yt表示攻击者的预设类标;当t=0时,攻击者不预设类标,此时为无目标攻击。argmax(·)函数表示取one-hot编码后的向量的最大值位置。
步骤(4)的具体步骤为:
(4-1)计算攻击生成模型AG产生的对抗样本的扰动强度PI,
其中,σ=1表示核宽度,||xadv-xnor||2表示计算二范数,PI∈[0,1),其值越小,说明对抗图像中的扰动越少,视觉质量越好;
(4-2)计算分类模型DNN的对抗样本攻击能力AA,计算公式如下:
(4-3)以PI为横坐标,1-AA/2为纵坐标的二维平面上绘制帕累托点,若该点落在可行解范围内且相对于上一个求解纳什均衡的可行解的距离小于ε,则结束训练,执行步骤(5),否则返回步骤(2);
所述的可行解范围定义为:
其中,r为常数,ε表示纳什均衡的可行解距离,a衡量可行解的扰动大小,b衡量可行解的攻击能力强弱。
本发明的主要内容包括基于生成式对抗网络的三方博弈模型结构、多通道的级联式对抗样本生成器、三方博弈的对抗训练策略、综合的攻击与防御性能评价指标。通过快速生成大量高效的对抗样本进行分类模型的对抗训练,有效解决分类模型面对对抗样本时的脆弱性,改善模型性能的鲁棒性,进一步提高深度学习分类方法在实际应用中的可靠性。
附图说明
图1为本发明分类方法的三方博弈模型结构示意图;
图2为本发明攻击生成模型AG的结构示意图;
图3为本发明基于帕累托的多目标优化过程示意图;
图4为本发明分类方法在三方博弈训练过程中对抗样本的扰动情况可视化结果示意图;
图5为本发明分类方法生成的对抗样本的可视化效果及误分类结果示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
实现本发明分类方法的装置为基于生成式对抗网络的三方博弈模型,其结构如图1所示,主要包含三个模块:1)攻击生成模型(Attack Generator,AG)的功能是自动生成扰动尽可能小,攻击能力尽可能强的对抗样本xadv,其输入包括正常样本xnor、样本的真实类标y、噪声z;2)对抗样本判别模型(Discriminator,D)的功能是实现二分类任务,区分正常样本与对抗样本,定义正常样本的类标为真(real),对抗样本的类标为假(fake),并通过分类结果反馈训练(feedback training)AG,使对抗样本的扰动尽可能小。D网络的输入是正常样本和对抗样本的混合,以及对应的正常样本的真实类标y,输出层为单个神经元,使用sigmoid函数激活;3)分类模型(DNN),功能是实现k分类任务,预测样本的类标,并通过反馈微调训练(fine tune training)AG,使对抗样本的攻击能力尽可能强。DNN网络的输入是正常样本和对抗样本的混合,输出层为k个神经元,使用softmax函数激活,输出样本属于每一类的置信度。
三方博弈模型的设计目标是通过AG网络自动生成对抗样本,分别作为对抗样本判别模型D和分类模型DNN的输入样本,并通过D和DNN的输出反馈给AG,调整其内部参数。其中D通过判定对抗样本与真实正常样本的分布距离,控制扰动大小;DNN通过预测类标与真实类标的距离,控制攻击能力的强弱。最终通过AG与D和DNN的多方博弈过程,保证其生成对抗样本的多样性和泛化能力,并用生成的对抗样本对DNN进行对抗训练,得到面对对抗样本具有更强鲁棒性的DNN模型用于样本分类。
在三方博弈模型中,DNN的网络结构与数据集的复杂程度有关;而D和AG的网络结构设计,与DNN网络以及数据集的复杂程度有关。为了能够实现更好的对抗训练效果,需要生成具有多样性和强泛化能力的对抗样本,为此本发明设计的攻击生成模型AG为多通道的级联式对抗样本生成器。
如图2所示,多通道的级联式对抗样本生成器包含:主通道(main channel),进行对抗样本生成;特征金字塔卷积通道(feature pyramid convolutional channel),为主通道的每一层网络级联(concatenate)图像特征,在实现对DNN相似攻击效果的前提下减少训练次数;条件矩阵通道(condition matrix channel),为主通道的每一层网络级联样本类标,强化分类属性,加快对原始数据分布的拟合。其中,特征金字塔卷积通道的输入是原始的正常样本,经过卷积后得到不同深度的特征层,以图2为例,原始图像的尺寸为32*32*3,使用3*3*64的卷积模块和2*2的池化窗口后得到16*16*64的特征层,使用3*3*128的卷积模块和2*2的池化窗口后得到8*8*128的特征层,使用3*3*256的卷积模块和2*2池化窗口后得到4*4*256的特征层,使用2*2*512的卷积模块和2*2的池化窗口后得到2*2*512的特征层。主通道是利用噪声的高维分布和神经网络的强拟合能力,实现对抗扰动的生成,在生成过程中,特征金字塔卷积通道中不同尺寸的特征层会和主通道中的对应尺寸的特征层级联,完成网络的参数训练。条件矩阵是将类标作为条件特征级联到主通道,以cifar-10数据集为例,属于10分类数据,条件特征的深度为10。
本发明给出多通道的级联式对抗样本生成器构建需要满足的三点要求:
1、构建得到的DNN网络在纯净数据集上的测试分类准确率需要达到90%。
2、D网络包括卷积和反卷积两部分,因此其复杂度约等于两个DNN网络;AG网络具有三通道,主通道复杂度与DNN相似。
三方博弈的对抗训练策略制定:
为了快速高效的实现对抗训练,本发明对对抗样本的要求比较高,对抗样本的生成描述为以下优化任务:对抗样本与正常样本十分接近,同时能够成功攻击目标模型。具体的优化目标如下:
其中LossD(·,·)和LossDNN(·,·)分别表示判别网络和目标模型的损失函数,分别对应扰动项和攻击项。
三方博弈模型的训练对象包括生成网络AG、判别网络D和攻击目标网络DNN,训练模式分为以下四种:
Train(AG→D):固定生成网络AG的参数,将AG的输出xadv和正常样本xnor的混合数据,以及对应的真实类标y作为D的输入,训练判别网络D的参数,使其能够区分xadv和xnor,D网络的优化目标可以表示为:
其中xadv=AG(xnor,z|y),因为D网络的输出层为sigmoid激活的单个神经元,所以定义输入数据xnor和xadv在D中的期望输出类标分别为1和0。
Train(D→AG):固定判别网络D的参数训练生成网络AG的参数,将正常样本xnor、对应的类标y、噪声z作为AG网络的输入,使其输出的对抗样本分布尽可能接近真实数据分布,AG网络的优化目标可以表示为:
Train(AG→DNN):固定AG的参数,将xadv和xnor混合作为DNN的输入,训练待攻击的目标模型DNN的参数,使其在保持正确识别正常样本类别能力的同时,能够正确识别对抗样本的真实类标,DNN的优化目标可以表示为:
s.t.j=argmax(y),
其中y表示one-hot编码的样本真实类标,argmax(y)表示y中最大值的位置。DNN的输出层是softmax激活的k个神经元,DNNj(·)表示预测为第j类的置信度。
Train(DNN→AG):固定DNN的参数,将AG的输出作为DNN的输入,并通过DNN的输出微调训练AG网络的参数,使其能够实现愚弄DNN的效果。AG的优化目标可以表示为:
其中t表示是否为目标攻击,yt表示one-hot编码的攻击者预设的目标。
最后,将生成器AG、判别器D和攻击目标DNN组合在一起得到三方博弈模型,并进行多目标优化的参数训练,定义待优化的目标函数为:
在训练过程中,存在AG、D、DNN三方的竞争博弈关系,AG的目标是快速大量的生成高质量的对抗样本,能够尽可能的接近真实样本分布,同时能够愚弄DNN;D的目标是尽可能的区分AG生成的对抗样本和真实正常样本;DNN的目标是尽可能正确分类AG生成的对抗样本,并通过正常样本和对抗样本的混合进行对抗训练,提高鲁棒性。
三方博弈训练的基础是最小最大定理(Minimax theorem)。最小最大定理给出,对于零和博弈的两个玩家,最小最大解决方案与纳什均衡是一致。在训练过程中,存在AG和D的交替训练(AG-D)实现纳什均衡和AG和DNN的交替训练(AG-DNN)实现纳什均衡。最后,通过AG-D和AG-DNN的交替训练,达到D和DNN之间的帕累托最优。
三方博弈的具体训练步骤如下:
S01.使用正常样本数据集训练DNN网络,直到在验证数据集上的分类准确率acc>thre,停止DNN的训练;
S02.固定AG网络参数,根据公式(2),用AG生成的对抗样本和真实的正常样本训练D网络;
S03.固定D网络参数,根据公式(3),训练AG网络的参数;
S04.若达到AG-D的纳什均衡,则跳转下一步,否则返回步骤2;
S05.固定AG网络参数,根据公式(4),用AG生成的对抗样本和真实的正常样本混合对DNN进行对抗训练,提高DNN面对对抗样本的鲁棒性;
S06.固定DNN参数,根据公式(5),训练AG网络的参数;
S07.若达到AG-DNN的纳什均衡,则跳转下一步,否则返回步骤5;
S08.计算此时的公式(10)和(11)定义的PI值,AA值,在以PI为横坐标,1-AA/2为纵坐标的二维平面上绘制帕累托点,若该点落在可行解范围内且相对于上一个求解纳什均衡的可行解的距离小于ε,则结束训练,保存最优模型,否则返回步骤2。
可行解范围定义为:
其中r为常数。
在进行分类应用时,将待分类的样品输入步骤S08训练完成的最优模型,即可得到分类结果。
多方博弈训练过程中的帕累托解变化过程如图3所示,箭头指向左上表示交替训练AG-D的收敛方向,箭头指向右下表示交替训练AG-DNN的收敛方向。
综合的攻击与防御性能评价指标定义:
对于本发明的评价包括对抗样本的扰动评价、对抗样本的攻击能力评价、经过对抗训练的DNN防御能力评价。
生成首先定义扰动峰值(perturbation peak,PP),扰动方差(perturbationvariance,PV),扰动强度(perturbation intensity,PI)作为单张对抗图像的扰动质量评估指标,公式如下:
其中ρ=xadv(i,j,k)-xnor(i,j,k),xadv(i,j,k)表示图像中第i行第j列的像素的第k通道的像素值,i=1,2,...,M,j=1,2,...,N,本发明中的图像为RGB三通道。
其中σ=1表示核宽度,PI∈[0,1),其值越小,说明对抗图像中的扰动越少,视觉质量越好。
对于目标攻击,当对抗图像的预测类标lpre与预设类标ltar相同,则说明攻击成功;当对抗图像的预测类标lpre与预设类标ltar不同,且lpre与真实类标ltruth不同,则由目标攻击退化为无目标攻击成功;当计算结束得到的对抗样本预测类标与ltruth相同,则表明攻击失败,但是此时的对抗样本仍然被认为具有一定的攻击能力。因此,定义以下公式计算对抗样本的攻击能力(attack ability,AA):
攻击成功率(attack success rate,ASR):
其中sumNum(xadv)表示生成的对抗样本的数量,sumNum(xadv|lpre=ltar)表示目标攻击成功的对抗样本数量,sumNum(xadv|lpre≠ltruth)表示无目标攻击成功的对抗样本数量。
定义对抗攻击的迁移能力(transferability of attack ability,TAA)用于衡量生成的对抗样本在实现同样任务的新模型中具有的攻击能力,计算公式如下:
攻击与防御是天然敌对的双方,因此以上定义的AA、ASR、TAA既可以表示对抗样本的攻击能力,也可以用于反映经过对抗训练后的DNN模型的防御能力。当AA、ASR、TAA的值越小,说明经过对抗训练后的模型的鲁棒性越强。
下面将本发明的分类方法应用于实现图像分类任务的DNN模型,通过大量高效的对抗样本快速提高DNN模型在面对对抗样本时的性能鲁棒性。
如图4所示,将三方博弈训练过程中的对抗样本进行可视化,图中的(a)是原始图像,(f)是对抗样本,(b)-(e)分别是经过50次、200次、300次、400次的中间结果。可以看出,训练比较稳定,最后能够得到大量高效的对抗样本数据。
如图5所示,从左往右的第一列是原始图像,第二列是扰动可视化结果,第三列是得到的对抗样本,第四列是得到的对抗样本被误分的类属性。可以看出,本发明得到的对抗样本具有高质量,能够用于对抗训练。
如表1所示,是经过三方博弈训练后得到的模型与原始模型的防御能力的区别,表中的“org”表示原始DNN模型(如VGG19模型、IncRes-v2模型),“cp”相当于复制原始的模型并经过对抗训练的结果,“FGSM、MI-FGSM、C&W”等表示目前比较经典且先进的攻击方法。
表1
从表1可以看出,经过本发明的对抗训练后,分类模型在进行分类时的防御能力大大增强了,或者说不同攻击方法的攻击能力减弱了。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种具有防御对抗样本攻击功能的深度学习分类方法,用于实现图像分类,其特征在于,实现该分类方法的装置包括:
攻击生成模型AG,该攻击生成模型AG的输入为正常样本,噪声样本以及正常样本的类标,输出为扰动尽可能小且攻击能力尽可能强的对抗样本;
对抗样本判别模型D,该对抗样本判别模型D的输入为正常样本、正常样本的类标以及攻击生成模型AG输出的对抗样本,输出为正常样本和对抗样本的区分结果;
分类模型DNN,该分类模型DNN的输入为正常样本和对抗样本,输出为预测类标;
具体方法如下:
(1)使用正常数据集训练用于实现图像分类任务的分类模型DNN,直到分类准确率大于预设值,停止DNN的训练;
(2)交替训练攻击生成模型AG和对抗样本判别模型D的参数,直到AG-D实现纳什均衡;
(3)交替训练攻击生成模型AG和分类模型DNN的参数,直到AG-DNN实现纳什均衡;
(4)判断对抗样本判别模型D和分类模型DNN是否达到帕累托最优,若是,则DNN训练完毕,执行步骤(5),否则,返回步骤(2);
(5)将待分类的图像样本输入训练完毕的分类模型DNN,得到图像的分类结果。
2.如权利要求1所述的具有防御对抗样本攻击功能的深度学习分类方法,其特征在于,所述的攻击生成模型AG为多通道的级联式对抗样本生成器,所述多通道的级联式对抗样本生成器由主通道、特征金字塔卷积通道、条件矩阵通道三部分级联组成。
3.如权利要求1所述的具有防御对抗样本攻击功能的深度学习分类方法,其特征在于,步骤(1)中,所述的预设值为90%。
4.如权利要求1所述的具有防御对抗样本攻击功能的深度学习分类方法,其特征在于,步骤(2)的具体过程为:
(2-1)固定攻击生成模型AG的参数,将AG输出的对抗样本和正常样本的混合数据,以及对应的真实类标作为对抗样本判别模型D的输入,训练D的参数,使其能够区分对抗样本和正常样本;
(2-2)固定对抗样本判别模型D的参数,将正常样本、对应的类标、噪声样本作为训练攻击生成模型AG的输入,训练AG的参数,使其输出的对抗样本分布更接近真实数据分布;
(2-3)重复上述两个步骤,直到AG-D实现纳什均衡。
6.如权利要求1所述的具有防御对抗样本攻击功能的深度学习分类方法,其特征在于,步骤(3)的具体过程为:
(3-1)固定攻击生成模型AG的参数,将对抗样本和正常样本作为分类模型DNN的输入,训练DNN的参数,使其能够正确识别正常样本和对抗样本的真实类标;
(3-2)固定分类模型DNN的参数,将AG的输出作为DNN的输入,并通过DNN的输出微调训练AG网络的参数,使其能够误导DNN对对抗样本的识别;
(3-3)重复上述两个步骤,直到AG-DNN实现纳什均衡。
8.如权利要求1所述的具有防御对抗样本攻击功能的深度学习分类方法,其特征在于,步骤(4)的具体步骤为:
(4-1)计算攻击生成模型AG产生的对抗样本的扰动强度PI,
其中,σ=1表示核宽度,||xadv-xnor||2表示计算二范数,PI∈[0,1),其值越小,说明对抗图像中的扰动越少,视觉质量越好;
(4-2)计算分类模型DNN的对抗样本攻击能力AA,计算公式如下:
(4-3)以PI为横坐标,1-AA/2为纵坐标的二维平面上绘制帕累托点,若该点落在可行解范围内且相对于上一个求解纳什均衡的可行解的距离小于ε,则结束训练,执行步骤(5),否则返回步骤(2);
所述的可行解范围定义为:
其中,r为常数,ε表示纳什均衡的可行解距离,a衡量可行解的扰动大小,b衡量可行解的攻击能力强弱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811138721.3A CN109460814B (zh) | 2018-09-28 | 2018-09-28 | 一种具有防御对抗样本攻击功能的深度学习分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811138721.3A CN109460814B (zh) | 2018-09-28 | 2018-09-28 | 一种具有防御对抗样本攻击功能的深度学习分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109460814A CN109460814A (zh) | 2019-03-12 |
CN109460814B true CN109460814B (zh) | 2020-11-03 |
Family
ID=65607109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811138721.3A Active CN109460814B (zh) | 2018-09-28 | 2018-09-28 | 一种具有防御对抗样本攻击功能的深度学习分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109460814B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401407A (zh) * | 2020-02-25 | 2020-07-10 | 浙江工业大学 | 一种基于特征重映射的对抗样本防御方法和应用 |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175513B (zh) * | 2019-04-15 | 2021-01-08 | 浙江工业大学 | 一种基于多目标路优化的路牌识别攻击防御方法 |
EP3739515B1 (en) * | 2019-05-16 | 2024-05-01 | Robert Bosch GmbH | Determining a perturbation mask for a classification model |
CN110348475B (zh) * | 2019-05-29 | 2023-04-18 | 广东技术师范大学 | 一种基于空间变换的对抗样本增强方法和模型 |
US11037025B2 (en) * | 2019-05-30 | 2021-06-15 | Baidu Usa Llc | Systems and methods for adversarially robust object detection |
CN110222831B (zh) * | 2019-06-13 | 2022-05-17 | 百度在线网络技术(北京)有限公司 | 深度学习模型的鲁棒性评估方法、装置及存储介质 |
CN110472672B (zh) * | 2019-07-25 | 2023-04-18 | 创新先进技术有限公司 | 用于训练机器学习模型的方法和装置 |
CN112311733A (zh) * | 2019-07-30 | 2021-02-02 | 四川大学 | 一种基于强化学习优化xss检测模型防御对抗攻击的方法 |
CN110444208A (zh) * | 2019-08-12 | 2019-11-12 | 浙江工业大学 | 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置 |
WO2021026805A1 (zh) | 2019-08-14 | 2021-02-18 | 东莞理工学院 | 对抗样本检测方法、装置、计算设备及计算机存储介质 |
CN110674938B (zh) * | 2019-08-21 | 2021-12-21 | 浙江工业大学 | 基于协同多任务训练的对抗攻击防御方法 |
CN110598400B (zh) * | 2019-08-29 | 2021-03-05 | 浙江工业大学 | 一种基于生成对抗网络的高隐藏中毒攻击的防御方法及应用 |
CN110619292B (zh) * | 2019-08-31 | 2021-05-11 | 浙江工业大学 | 基于二进制粒子群通道优化的对抗防御方法 |
CN110569916B (zh) * | 2019-09-16 | 2022-03-22 | 电子科技大学 | 用于人工智能分类的对抗样本防御系统及方法 |
CN110719275B (zh) * | 2019-09-30 | 2021-04-02 | 南方电网科学研究院有限责任公司 | 一种基于报文特征的电力终端漏洞攻击检测方法 |
CN110969186B (zh) * | 2019-10-28 | 2023-04-07 | 浙江工业大学 | 基于通道检测的面向无线信号识别的对抗攻击防御方法与装置 |
CN110852363B (zh) * | 2019-10-31 | 2022-08-02 | 大连理工大学 | 一种基于欺骗攻击者的对抗样本防御方法 |
CN110910328B (zh) * | 2019-11-26 | 2023-01-24 | 电子科技大学 | 一种基于对抗性样本分类等级的防御方法 |
CN110941794B (zh) * | 2019-11-27 | 2023-08-22 | 浙江工业大学 | 一种基于通用逆扰动防御矩阵的对抗攻击防御方法 |
CN111046394A (zh) * | 2019-12-12 | 2020-04-21 | 支付宝(杭州)信息技术有限公司 | 一种基于对抗样本增强模型抗攻击能力的方法和系统 |
CN111310802B (zh) * | 2020-01-20 | 2021-09-17 | 星汉智能科技股份有限公司 | 一种基于生成对抗网络的对抗攻击防御训练方法 |
CN111600835B (zh) * | 2020-03-18 | 2022-06-24 | 宁波送变电建设有限公司永耀科技分公司 | 一种基于fgsm对抗攻击算法的检测与防御方法 |
CN111476294B (zh) * | 2020-04-07 | 2022-03-22 | 南昌航空大学 | 一种基于生成对抗网络的零样本图像识别方法及系统 |
CN111625820A (zh) * | 2020-05-29 | 2020-09-04 | 华东师范大学 | 一种基于面向AIoT安全的联邦防御方法 |
CN112434762A (zh) * | 2020-11-23 | 2021-03-02 | 浙江工业大学 | 一种基于深度学习的信号攻击分析方法 |
CN112488486B (zh) * | 2020-11-25 | 2022-04-15 | 吉林大学 | 一种基于零和博弈的多准则决策方法 |
CN112508958B (zh) * | 2020-12-16 | 2022-07-19 | 桂林电子科技大学 | 一种轻量多尺度的生物医学图像分割方法 |
CN112580732B (zh) * | 2020-12-25 | 2024-02-23 | 北京百度网讯科技有限公司 | 模型训练方法、装置、设备、存储介质和程序产品 |
CN112819109B (zh) * | 2021-04-19 | 2021-06-18 | 中国工程物理研究院计算机应用研究所 | 针对黑盒对抗样本攻击的视频分类系统安全性增强方法 |
CN113395280B (zh) * | 2021-06-11 | 2022-07-26 | 成都为辰信息科技有限公司 | 基于生成对抗网络的抗混淆性网络入侵检测方法 |
CN113408698B (zh) * | 2021-06-15 | 2023-06-23 | 西安邮电大学 | 一种深度神经网络模型鲁棒性优化方法 |
CN113436192A (zh) * | 2021-08-26 | 2021-09-24 | 深圳科亚医疗科技有限公司 | 一种病理图像的分类学习方法、分类系统及可读介质 |
CN116452923B (zh) * | 2023-06-16 | 2023-09-01 | 安徽大学 | 一种针对对抗攻击的协同防御策略和系统 |
CN117153418B (zh) * | 2023-10-31 | 2024-03-19 | 暨南大学 | 抗后门攻击的智能早产儿视网膜病变分类预测方法 |
CN118246516A (zh) * | 2024-04-01 | 2024-06-25 | 兰州理工大学 | 一种基于dqn的局部像素扰动黑盒攻击方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480586A (zh) * | 2017-07-06 | 2017-12-15 | 天津科技大学 | 基于人脸特征点位移的生物识别照片仿冒攻击检测方法 |
CN108322349A (zh) * | 2018-02-11 | 2018-07-24 | 浙江工业大学 | 基于对抗式生成网络的深度学习对抗性攻击防御方法 |
CN108446765A (zh) * | 2018-02-11 | 2018-08-24 | 浙江工业大学 | 面向深度学习对抗性攻击的多模型协同防御方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10362048B2 (en) * | 2016-05-12 | 2019-07-23 | Keysight Technologies Singapore (Sales) Pte. Ltd. | Distributed online wireless security test system |
-
2018
- 2018-09-28 CN CN201811138721.3A patent/CN109460814B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480586A (zh) * | 2017-07-06 | 2017-12-15 | 天津科技大学 | 基于人脸特征点位移的生物识别照片仿冒攻击检测方法 |
CN108322349A (zh) * | 2018-02-11 | 2018-07-24 | 浙江工业大学 | 基于对抗式生成网络的深度学习对抗性攻击防御方法 |
CN108446765A (zh) * | 2018-02-11 | 2018-08-24 | 浙江工业大学 | 面向深度学习对抗性攻击的多模型协同防御方法 |
Non-Patent Citations (1)
Title |
---|
Discriminatively-learned Global Image Representation Using CNN as a Local Feature Extractor for Image Retrieval;Wei-Lin Ku et al.;《2015 Visual Communications and Image Processing(VCIP)》;20160425;全文 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401407A (zh) * | 2020-02-25 | 2020-07-10 | 浙江工业大学 | 一种基于特征重映射的对抗样本防御方法和应用 |
CN111401407B (zh) * | 2020-02-25 | 2021-05-14 | 浙江工业大学 | 一种基于特征重映射的对抗样本防御方法和应用 |
Also Published As
Publication number | Publication date |
---|---|
CN109460814A (zh) | 2019-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109460814B (zh) | 一种具有防御对抗样本攻击功能的深度学习分类方法 | |
CN105184309B (zh) | 基于cnn和svm的极化sar图像分类 | |
Horng et al. | Multilevel image thresholding selection based on the firefly algorithm | |
Kang et al. | A hybrid gravitational search algorithm with swarm intelligence and deep convolutional feature for object tracking optimization | |
CN103839065A (zh) | 人群动态聚集特征提取方法 | |
CN111160286A (zh) | 一种视频真伪鉴别方法 | |
Qian et al. | Spot evasion attacks: Adversarial examples for license plate recognition systems with convolutional neural networks | |
CN113704758A (zh) | 一种黑盒攻击对抗样本生成方法及系统 | |
Chi et al. | Public-attention-based adversarial attack on traffic sign recognition | |
CN112749686B (zh) | 图像检测方法、装置、计算机设备及存储介质 | |
CN115775409A (zh) | 一种人脸图像防篡改融合检测方法 | |
CN116071797A (zh) | 一种基于自编码器的稀疏人脸比对对抗样本生成方法 | |
CN115187789A (zh) | 基于卷积层激活差异的对抗图像检测方法及装置 | |
Huo et al. | Traffic sign recognition based on resnet-20 and deep mutual learning | |
CN113723560A (zh) | 一种面向ar应用的基于生成对抗网络的对抗样本生成方法 | |
Liu et al. | A united classification system of X-ray image based on fuzzy rule and neural networks | |
Dhar et al. | Detecting deepfake images using deep convolutional neural network | |
Gill et al. | Fruit image segmentation using teacher-learner optimization algorithm and fuzzy entropy | |
Mo et al. | Confusable vehicle feature extraction and recognition based on cascaded SVM | |
Co et al. | Real-time detection of practical universal adversarial perturbations | |
Ammar et al. | Enhancing Neural Network Resilence against Adversarial Attacks based on FGSM Technique | |
Kwon et al. | FriendNet backdoor: indentifying backdoor attack that is safe for friendly deep neural network | |
Wang et al. | Generating adversarial patches using data-driven MultiD-WGAN | |
Yu et al. | Two strategies to optimize the decisions in signature verification with the presence of spoofing attacks | |
Khehra et al. | Fuzzy 2-partition Kapur entropy for image segmentation using teaching-learning-based optimization algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |