CN109460814B

CN109460814B - 一种具有防御对抗样本攻击功能的深度学习分类方法

Info

Publication number: CN109460814B
Application number: CN201811138721.3A
Authority: CN
Inventors: 陈晋音; 郑海斌; 熊晖; 沈诗婧; 苏蒙蒙
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2020-11-03
Anticipated expiration: 2038-09-28
Also published as: CN109460814A

Abstract

本发明公开了一种具有防御对抗样本攻击功能的深度学习分类方法，实现该分类方法的装置包括：攻击生成模型AG，对抗样本判别模型D，分类模型DNN，具体方法如下：(1)使用正常数据集训练DNN，分类准确率大于预设值，停止DNN的训练；(2)交替训练AG和D的参数，直到AG‑D实现纳什均衡；(3)交替训练型AG和DNN的参数，直到AG‑DNN实现纳什均衡；(4)判断对抗样本判别模型D和分类模型DNN是否达到帕累托最优，若是，则DNN训练完毕，执行步骤(5)，否则，返回步骤(2)；(5)将待分类的样本输入训练完毕的分类模型DNN，得到分类结果。利用本发明，可以有效解决分类模型在实际分类应用中面对对抗样本时的脆弱性，改善模型性能的鲁棒性。

Description

一种具有防御对抗样本攻击功能的深度学习分类方法

技术领域

本发明属于人工智能领域的深度学习算法与模型的安全领域研究领域，具体涉及一种具有防御对抗样本攻击功能的深度学习分类方法。

背景技术

目前，深度学习吸引了大批学者和研究机构的注意，通过硬件性能的不断提升，深度学习被广泛应用于目标检测、图像语义分割与理解、知识图谱、数据生成等领域。深度学习是目前人工智能机器学习最常用的技术之一，深度神经网络的对抗性攻击是一个严重的安全隐患。对抗攻击定义为：攻击者通过在原始数据上添加精心设计的微小扰动得到对抗样本，从而对深度学习模型进行愚弄，使其以较高置信度误判的恶意攻击。根据是否已知攻击目标的模型结构和参数分布，可以分为白盒攻击和黑盒攻击；针对攻击者的原始期望，分为目标攻击和无目标攻击；根据对抗样本的不同，分为虚拟数字空间攻击和真实世界中的物理空间攻击。

目前针对数字空间的对抗攻防研究日趋深入，而真实世界的对抗攻防也已起步，都对安全生产生活造成极大威胁。Liu等人成功攻击Clarifai公司的图像分类模型，这表明恶意的攻击者很有可能通过对抗攻击干扰患者诊疗，存在严重安全隐患。Etimov等人演示了真实场景下使用对抗样本对实际运行的自动驾驶系统进行愚弄，将“左转弯”路牌错误识别为“小心路滑”标识，而直接威胁车内人员的生命财产安全。正确识别对抗性攻击并提高深度神经网络的防御能力迫在眉睫。

对抗样本的防御难度在于，从攻击角度出发，对抗样本的构建过程是针对单一目标模型的离散攻击，缺乏对其产生机理的分析与数学模型的构建，也因为对抗样本要求深度神经网络模型为每一个可能的输入值产生好的输出结果。此外，对抗样本是深度神经网络模型非线性和非凸最优化问题的解决方法，需要有好的方法描述这些复杂优化问题的方法；从防御角度出发，大部分防御研究侧重单一攻击的防御，通过捕获到攻击者的对抗样本展开深度神经网络的对抗学习实现对该攻击的防御，因此依赖已有少量对抗样本的对抗训练不具有普适性。

目前已有的对抗性攻击方法主要可以分为基于梯度的攻击、基于优化的攻击和其它攻击。面对不同的攻击方法，根据最终的防御效果，可以分为完全防御和仅检测，完全防御是将检测出的对抗样本进行还原处理，恢复其原始面貌；仅检测则是对检测出的对抗样本进行拒绝，而不做进一步处理。目前深度神经网络的对抗性攻击的防御方法主要可以分为修改训练/输入数据、网络修正法、附加网络法三类。

发明内容

本发明的目的是提供一种具有防御对抗样本攻击功能的深度学习分类方法，通过快速高效的生成大量对抗样本，用于DNN模型的对抗训练，从而有效提高其在进行分类任务时面对对抗样本的性能鲁棒性。

为实现上述发明目的，本发明提供以下技术方案：

一种面向深度学习对抗攻击的快速防御方法，实现该分类方法的装置包括：

攻击生成模型AG，该攻击生成模型AG的输入为正常样本，噪声样本以及正常样本的类标，输出为扰动尽可能小且攻击能力尽可能强的对抗样本；

对抗样本判别模型D，该对抗样本判别模型D的输入为正常样本、正常样本的类标以及攻击生成模型AG输出的对抗样本，输出为正常样本和对抗样本的区分结果；

分类模型DNN，该分类模型DNN的输入为正常样本和对抗样本，输出为预测类标；

应用上述装置进行分类的方法如下：

(1)使用正常数据集训练分类模型DNN，直到分类准确率大于预设值，停止DNN的训练；

(2)交替训练攻击生成模型AG和对抗样本判别模型D的参数，直到AG-D实现纳什均衡；

(3)交替训练攻击生成模型AG和分类模型DNN的参数，直到AG-DNN实现纳什均衡；

(4)判断对抗样本判别模型D和分类模型DNN是否达到帕累托最优，若是，则则DNN训练完毕，执行步骤(5)，否则，返回步骤(2)；

(5)将待分类的样本输入训练完毕的分类模型DNN，得到分类结果。

本发明的深度学习分类方法基于由攻击生成模型AG、对抗样本判别模型D和分类模型DNN组成的三方博弈模型结构，通过AG自动生成对抗样本，分别作为D和DNN的输入样本，并通过D和DNN的输出反馈给AG，调整其内部参数。

通过三方博弈的对抗训练策略，使AG生成扰动尽可能小，攻击能力尽可能强的对抗样本，用于DNN模型的对抗训练，从而有效提高其面对对抗样本的性能鲁棒性。

本发明的三方博弈模型中，DNN的网络结构与数据集的复杂程度有关；而D和AG的网络结构设计，与DNN网络以及数据集的复杂程度有关。为了能够实现更好的对抗训练效果，需要生成具有多样性和强泛化能力的对抗样本，为此本发明的攻击生成模型AG为多通道的级联式对抗样本生成器。

所述多通道的级联式对抗样本生成器由主通道、特征金字塔卷积通道、条件矩阵通道三部分级联组成；所述主通道的功能是进行对抗样本生成；所述特征金字塔卷积通道的功能是为主通道的每一层网络级联图像特征，在实现对DNN相似攻击效果的前提下减少训练次数；所述条件矩阵通道的功能是为主通道的每一层网络级联样本类标，强化分类属性，加快对原始数据分布的拟合。

所述多通道的级联式对抗样本生成器构建需要满足的三点要求：

①.构建得到的DNN网络在正常数据集上的测试分类准确率需要达到90％。

②.D网络包括卷积和反卷积两部分，因此其复杂度约等于两个DNN网络；AG网络具有三通道，主通道复杂度与DNN相似；

③.计算AG、DNN、D的网络模块数

和权重个数

根据要求②可得，

步骤(2)的具体过程为：

(2-1)固定攻击生成模型AG的参数，将AG输出的对抗样本和正常样本的混合数据，以及对应的真实类标作为对抗样本判别模型D的输入，训练D的参数，使其能够区分对抗样本和正常样本；

(2-2)固定对抗样本判别模型D的参数，将正常样本、对应的类标、噪声样本作为训练攻击生成模型AG的输入，训练AG的参数，使其输出的对抗样本分布更接近真实数据分布；

(2-3)重复上述两个步骤，直到AG-D实现纳什均衡。

步骤(2-3)中，AG-D实现纳什均衡时满足：

其中，min max表示纳什均衡中的最大最小目标函数，log表示对数函数，x^nor表示对抗样本，y表示对应于x^nor的类标，x^adv＝AG(x^nor)表示生成器AG(·)根据原始正常样本生成的对抗样本，D(·|·)表示判别器的输出，E[·]表示交叉熵的期望。

步骤(3)的具体过程为：

(3-1)固定攻击生成模型AG的参数，将对抗样本和正常样本作为分类模型DNN的输入，训练DNN的参数，使其能够正确识别正常样本和对抗样本的真实类标；

(3-2)固定分类模型DNN的参数，将AG的输出作为DNN的输入，并通过DNN的输出微调训练AG网络的参数，使其能够误导DNN对对抗样本的识别；

(3-3)重复上述两个步骤，直到AG-DNN实现纳什均衡。

步骤(3-3)中，AG-DNN实现纳什均衡时满足：

s.t.j＝argmax(y),j'＝argmax(y_t)

其中，DNN表示待攻击的深度模型，y表示样本的真实类标，y_t表示攻击者的预设类标；当t＝0时，攻击者不预设类标，此时为无目标攻击。argmax(·)函数表示取one-hot编码后的向量的最大值位置。

步骤(4)的具体步骤为：

(4-1)计算攻击生成模型AG产生的对抗样本的扰动强度PI，

其中，σ＝1表示核宽度，||x^adv-x^nor||²表示计算二范数，PI∈[0,1)，其值越小，说明对抗图像中的扰动越少，视觉质量越好；

(4-2)计算分类模型DNN的对抗样本攻击能力AA，计算公式如下：

其中，

和

表示原始的正常样本被分类为真实类标l_truth，预设类标l_tar和预测类标l_pre的置信度，

和

表示生成的对抗样本被分类为真实类标l_truth，预设类标l_tar和预测类标l_pre的置信度；

(4-3)以PI为横坐标，1-AA/2为纵坐标的二维平面上绘制帕累托点，若该点落在可行解范围内且相对于上一个求解纳什均衡的可行解的距离小于ε，则结束训练，执行步骤(5)，否则返回步骤(2)；

所述的可行解范围定义为：

其中，r为常数，ε表示纳什均衡的可行解距离，a衡量可行解的扰动大小，b衡量可行解的攻击能力强弱。

本发明的主要内容包括基于生成式对抗网络的三方博弈模型结构、多通道的级联式对抗样本生成器、三方博弈的对抗训练策略、综合的攻击与防御性能评价指标。通过快速生成大量高效的对抗样本进行分类模型的对抗训练，有效解决分类模型面对对抗样本时的脆弱性，改善模型性能的鲁棒性，进一步提高深度学习分类方法在实际应用中的可靠性。

附图说明

图1为本发明分类方法的三方博弈模型结构示意图；

图2为本发明攻击生成模型AG的结构示意图；

图3为本发明基于帕累托的多目标优化过程示意图；

图4为本发明分类方法在三方博弈训练过程中对抗样本的扰动情况可视化结果示意图；

图5为本发明分类方法生成的对抗样本的可视化效果及误分类结果示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

实现本发明分类方法的装置为基于生成式对抗网络的三方博弈模型，其结构如图1所示，主要包含三个模块：1)攻击生成模型(Attack Generator，AG)的功能是自动生成扰动尽可能小，攻击能力尽可能强的对抗样本x^adv，其输入包括正常样本x^nor、样本的真实类标y、噪声z；2)对抗样本判别模型(Discriminator，D)的功能是实现二分类任务，区分正常样本与对抗样本，定义正常样本的类标为真(real)，对抗样本的类标为假(fake)，并通过分类结果反馈训练(feedback training)AG，使对抗样本的扰动尽可能小。D网络的输入是正常样本和对抗样本的混合，以及对应的正常样本的真实类标y，输出层为单个神经元，使用sigmoid函数激活；3)分类模型(DNN)，功能是实现k分类任务，预测样本的类标，并通过反馈微调训练(fine tune training)AG，使对抗样本的攻击能力尽可能强。DNN网络的输入是正常样本和对抗样本的混合，输出层为k个神经元，使用softmax函数激活，输出样本属于每一类的置信度。

三方博弈模型的设计目标是通过AG网络自动生成对抗样本，分别作为对抗样本判别模型D和分类模型DNN的输入样本，并通过D和DNN的输出反馈给AG，调整其内部参数。其中D通过判定对抗样本与真实正常样本的分布距离，控制扰动大小；DNN通过预测类标与真实类标的距离，控制攻击能力的强弱。最终通过AG与D和DNN的多方博弈过程，保证其生成对抗样本的多样性和泛化能力，并用生成的对抗样本对DNN进行对抗训练，得到面对对抗样本具有更强鲁棒性的DNN模型用于样本分类。

在三方博弈模型中，DNN的网络结构与数据集的复杂程度有关；而D和AG的网络结构设计，与DNN网络以及数据集的复杂程度有关。为了能够实现更好的对抗训练效果，需要生成具有多样性和强泛化能力的对抗样本，为此本发明设计的攻击生成模型AG为多通道的级联式对抗样本生成器。

如图2所示，多通道的级联式对抗样本生成器包含：主通道(main channel)，进行对抗样本生成；特征金字塔卷积通道(feature pyramid convolutional channel)，为主通道的每一层网络级联(concatenate)图像特征，在实现对DNN相似攻击效果的前提下减少训练次数；条件矩阵通道(condition matrix channel)，为主通道的每一层网络级联样本类标，强化分类属性，加快对原始数据分布的拟合。其中，特征金字塔卷积通道的输入是原始的正常样本，经过卷积后得到不同深度的特征层，以图2为例，原始图像的尺寸为32*32*3，使用3*3*64的卷积模块和2*2的池化窗口后得到16*16*64的特征层，使用3*3*128的卷积模块和2*2的池化窗口后得到8*8*128的特征层，使用3*3*256的卷积模块和2*2池化窗口后得到4*4*256的特征层，使用2*2*512的卷积模块和2*2的池化窗口后得到2*2*512的特征层。主通道是利用噪声的高维分布和神经网络的强拟合能力，实现对抗扰动的生成，在生成过程中，特征金字塔卷积通道中不同尺寸的特征层会和主通道中的对应尺寸的特征层级联，完成网络的参数训练。条件矩阵是将类标作为条件特征级联到主通道，以cifar-10数据集为例，属于10分类数据，条件特征的深度为10。

本发明给出多通道的级联式对抗样本生成器构建需要满足的三点要求：

1、构建得到的DNN网络在纯净数据集上的测试分类准确率需要达到90％。

2、D网络包括卷积和反卷积两部分，因此其复杂度约等于两个DNN网络；AG网络具有三通道，主通道复杂度与DNN相似。

3、计算AG、DNN、D的网络模块数

和权重个数

根据要求2可得，

三方博弈的对抗训练策略制定：

为了快速高效的实现对抗训练，本发明对对抗样本的要求比较高，对抗样本的生成描述为以下优化任务：对抗样本与正常样本十分接近，同时能够成功攻击目标模型。具体的优化目标如下：

其中Loss_D(·,·)和Loss_DNN(·,·)分别表示判别网络和目标模型的损失函数，分别对应扰动项和攻击项。

三方博弈模型的训练对象包括生成网络AG、判别网络D和攻击目标网络DNN，训练模式分为以下四种：

Train(AG→D)：固定生成网络AG的参数，将AG的输出x^adv和正常样本x^nor的混合数据，以及对应的真实类标y作为D的输入，训练判别网络D的参数，使其能够区分x^adv和x^nor，D网络的优化目标可以表示为：

其中x^adv＝AG(x^nor,z|y)，因为D网络的输出层为sigmoid激活的单个神经元，所以定义输入数据x^nor和x^adv在D中的期望输出类标分别为1和0。

Train(D→AG)：固定判别网络D的参数训练生成网络AG的参数，将正常样本x^nor、对应的类标y、噪声z作为AG网络的输入，使其输出的对抗样本分布尽可能接近真实数据分布，AG网络的优化目标可以表示为：

Train(AG→DNN)：固定AG的参数，将x^adv和x^nor混合作为DNN的输入，训练待攻击的目标模型DNN的参数，使其在保持正确识别正常样本类别能力的同时，能够正确识别对抗样本的真实类标，DNN的优化目标可以表示为：

s.t.j＝argmax(y),

其中y表示one-hot编码的样本真实类标，argmax(y)表示y中最大值的位置。DNN的输出层是softmax激活的k个神经元，DNN^j(·)表示预测为第j类的置信度。

Train(DNN→AG)：固定DNN的参数，将AG的输出作为DNN的输入，并通过DNN的输出微调训练AG网络的参数，使其能够实现愚弄DNN的效果。AG的优化目标可以表示为：

其中t表示是否为目标攻击，y_t表示one-hot编码的攻击者预设的目标。

最后，将生成器AG、判别器D和攻击目标DNN组合在一起得到三方博弈模型，并进行多目标优化的参数训练，定义待优化的目标函数为：

在训练过程中，存在AG、D、DNN三方的竞争博弈关系，AG的目标是快速大量的生成高质量的对抗样本，能够尽可能的接近真实样本分布，同时能够愚弄DNN；D的目标是尽可能的区分AG生成的对抗样本和真实正常样本；DNN的目标是尽可能正确分类AG生成的对抗样本，并通过正常样本和对抗样本的混合进行对抗训练，提高鲁棒性。

三方博弈训练的基础是最小最大定理(Minimax theorem)。最小最大定理给出，对于零和博弈的两个玩家，最小最大解决方案与纳什均衡是一致。在训练过程中，存在AG和D的交替训练(AG-D)实现纳什均衡和AG和DNN的交替训练(AG-DNN)实现纳什均衡。最后，通过AG-D和AG-DNN的交替训练，达到D和DNN之间的帕累托最优。

三方博弈的具体训练步骤如下：

S01.使用正常样本数据集训练DNN网络，直到在验证数据集上的分类准确率acc>thre，停止DNN的训练；

S02.固定AG网络参数，根据公式(2)，用AG生成的对抗样本和真实的正常样本训练D网络；

S03.固定D网络参数，根据公式(3)，训练AG网络的参数；

S04.若达到AG-D的纳什均衡，则跳转下一步，否则返回步骤2；

S05.固定AG网络参数，根据公式(4)，用AG生成的对抗样本和真实的正常样本混合对DNN进行对抗训练，提高DNN面对对抗样本的鲁棒性；

S06.固定DNN参数，根据公式(5)，训练AG网络的参数；

S07.若达到AG-DNN的纳什均衡，则跳转下一步，否则返回步骤5；

S08.计算此时的公式(10)和(11)定义的PI值，AA值，在以PI为横坐标，1-AA/2为纵坐标的二维平面上绘制帕累托点，若该点落在可行解范围内且相对于上一个求解纳什均衡的可行解的距离小于ε，则结束训练，保存最优模型，否则返回步骤2。

可行解范围定义为：

其中r为常数。

在进行分类应用时，将待分类的样品输入步骤S08训练完成的最优模型，即可得到分类结果。

多方博弈训练过程中的帕累托解变化过程如图3所示，箭头指向左上表示交替训练AG-D的收敛方向，箭头指向右下表示交替训练AG-DNN的收敛方向。

综合的攻击与防御性能评价指标定义：

对于本发明的评价包括对抗样本的扰动评价、对抗样本的攻击能力评价、经过对抗训练的DNN防御能力评价。

生成首先定义扰动峰值(perturbation peak，PP)，扰动方差(perturbationvariance，PV)，扰动强度(perturbation intensity，PI)作为单张对抗图像的扰动质量评估指标，公式如下：

其中ρ＝x^adv(i,j,k)-x^nor(i,j,k)，x^adv(i,j,k)表示图像中第i行第j列的像素的第k通道的像素值，i＝1,2,...,M，j＝1,2,...,N，本发明中的图像为RGB三通道。

其中

表示第k通道的像素值的平均值，PV越小，说明扰动分布越均匀，对抗图像的视觉形变越小。

其中σ＝1表示核宽度，PI∈[0,1)，其值越小，说明对抗图像中的扰动越少，视觉质量越好。

对于目标攻击，当对抗图像的预测类标l_pre与预设类标l_tar相同，则说明攻击成功；当对抗图像的预测类标l_pre与预设类标l_tar不同，且l_pre与真实类标l_truth不同，则由目标攻击退化为无目标攻击成功；当计算结束得到的对抗样本预测类标与l_truth相同，则表明攻击失败，但是此时的对抗样本仍然被认为具有一定的攻击能力。因此，定义以下公式计算对抗样本的攻击能力(attack ability，AA)：

其中

和

表示原始正常样本被分类为真实类标l_truth，预设类标l_tar和预测类标l_pre的置信度，

和

表示生成的对抗样本被分类为l_truth，预设类标l_tar和l_pre的置信度。

攻击成功率(attack success rate,ASR)：

其中sumNum(x^adv)表示生成的对抗样本的数量，sumNum(x^adv|l_pre＝l_tar)表示目标攻击成功的对抗样本数量，sumNum(x^adv|l_pre≠l_truth)表示无目标攻击成功的对抗样本数量。

定义对抗攻击的迁移能力(transferability of attack ability,TAA)用于衡量生成的对抗样本在实现同样任务的新模型中具有的攻击能力，计算公式如下：

其中

表示对抗样本在第i个新模型中体现的攻击能力，并计算在多个不同结构的模型中的攻击能力的均值评估攻击算法的泛化能力，值越大，表明攻击算法的泛化能力越强。

攻击与防御是天然敌对的双方，因此以上定义的AA、ASR、TAA既可以表示对抗样本的攻击能力，也可以用于反映经过对抗训练后的DNN模型的防御能力。当AA、ASR、TAA的值越小，说明经过对抗训练后的模型的鲁棒性越强。

下面将本发明的分类方法应用于实现图像分类任务的DNN模型，通过大量高效的对抗样本快速提高DNN模型在面对对抗样本时的性能鲁棒性。

如图4所示，将三方博弈训练过程中的对抗样本进行可视化，图中的(a)是原始图像，(f)是对抗样本，(b)-(e)分别是经过50次、200次、300次、400次的中间结果。可以看出，训练比较稳定，最后能够得到大量高效的对抗样本数据。

如图5所示，从左往右的第一列是原始图像，第二列是扰动可视化结果，第三列是得到的对抗样本，第四列是得到的对抗样本被误分的类属性。可以看出，本发明得到的对抗样本具有高质量，能够用于对抗训练。

如表1所示，是经过三方博弈训练后得到的模型与原始模型的防御能力的区别，表中的“org”表示原始DNN模型(如VGG19模型、IncRes-v2模型)，“cp”相当于复制原始的模型并经过对抗训练的结果，“FGSM、MI-FGSM、C&W”等表示目前比较经典且先进的攻击方法。

表1

从表1可以看出，经过本发明的对抗训练后，分类模型在进行分类时的防御能力大大增强了，或者说不同攻击方法的攻击能力减弱了。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种具有防御对抗样本攻击功能的深度学习分类方法，用于实现图像分类，其特征在于，实现该分类方法的装置包括：

具体方法如下：

(1)使用正常数据集训练用于实现图像分类任务的分类模型DNN，直到分类准确率大于预设值，停止DNN的训练；

(4)判断对抗样本判别模型D和分类模型DNN是否达到帕累托最优，若是，则DNN训练完毕，执行步骤(5)，否则，返回步骤(2)；

(5)将待分类的图像样本输入训练完毕的分类模型DNN，得到图像的分类结果。

2.如权利要求1所述的具有防御对抗样本攻击功能的深度学习分类方法，其特征在于，所述的攻击生成模型AG为多通道的级联式对抗样本生成器，所述多通道的级联式对抗样本生成器由主通道、特征金字塔卷积通道、条件矩阵通道三部分级联组成。

3.如权利要求1所述的具有防御对抗样本攻击功能的深度学习分类方法，其特征在于，步骤(1)中，所述的预设值为90％。

4.如权利要求1所述的具有防御对抗样本攻击功能的深度学习分类方法，其特征在于，步骤(2)的具体过程为：

(2-3)重复上述两个步骤，直到AG-D实现纳什均衡。

5.如权利要求4所述的具有防御对抗样本攻击功能的深度学习分类方法，其特征在于，步骤(2-3)中，AG-D实现纳什均衡时满足：

其中，min max表示纳什均衡中的最大最小目标函数，x^nor表示对抗样本，y表示对应于x^nor的类标，x^adv＝AG(x^nor)表示生成器AG(·)根据原始正常样本生成的对抗样本，D(·|·)表示判别器的输出，E[·]表示交叉熵的期望。

6.如权利要求1所述的具有防御对抗样本攻击功能的深度学习分类方法，其特征在于，步骤(3)的具体过程为：

(3-3)重复上述两个步骤，直到AG-DNN实现纳什均衡。

7.如权利要求6所述的具有防御对抗样本攻击功能的深度学习分类方法，其特征在于，步骤(3-3)中，AG-DNN实现纳什均衡时满足：

s.t.j＝argmax(y),j'＝argmax(y_t)

其中，DNN表示待攻击的深度模型，y表示样本的真实类标，y_t表示攻击者的预设类标；当t＝0时，攻击者不预设类标，此时为无目标攻击；argmax(·)函数表示取one-hot编码后的向量的最大值位置。

8.如权利要求1所述的具有防御对抗样本攻击功能的深度学习分类方法，其特征在于，步骤(4)的具体步骤为：

(4-1)计算攻击生成模型AG产生的对抗样本的扰动强度PI，

(4-2)计算分类模型DNN的对抗样本攻击能力AA，计算公式如下：

其中，

和

和

所述的可行解范围定义为：