CN111325324A

CN111325324A - 一种基于二阶方法的深度学习对抗样本生成方法

Info

Publication number: CN111325324A
Application number: CN202010104455.3A
Authority: CN
Inventors: 钱亚冠; 张锡敏; 周武杰; 关晓惠; 李蔚; 潘俊; 云本胜; 楼琼
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd; Zhejiang University of Water Resources and Electric Power
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd; Zhejiang University of Water Resources and Electric Power; Zhejiang University of Science and Technology ZUST
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2020-06-23

Abstract

本发明属于数据信息处理技术，公开了一种基于二阶方法的深度学习对抗样本生成方法及系统，在输入样本X的一个微小邻域内，即L_p(p∈[2,0,∞])范数约束内，对神经网络函数进行二次Taylor展开，替代神经网络的非线性部分。再通过拉格朗日乘子法构造对偶函数计算极值求取最佳扰动δ，使对抗样本X′＝X+δ被判断为正确类的置信度降至最低，或者使对抗样本X′被判断为目标类的置信度升至最高。本发明对于无目标攻击采取降低正确输出类的置信度的操作；对有目标攻击则提采取高目标类的置信度的操作。本发明提出的方法可以避免陷入局部极值，以极小的代价生成高质量的对抗样本，应用于深度神经网络的对抗训练，可有效提高防御效果。

Description

一种基于二阶方法的深度学习对抗样本生成方法

技术领域

本发明属于数据信息处理技术领域，尤其涉及一种基于二阶方法的深度学习对抗样本生成方法及系统。

背景技术

目前，最接近的现有技术：深度神经网络(DNNs)在生物信息学，语音识别和计算机视觉等许多领域实现了成功的应用。然而，研究发现DNNs很容易受到对抗样本的攻击。现有技术1发现DNN在图像分类领域中的对抗样本，即在自然图像中添加微小的扰动，获得的噪声图像可使DNNs做出错误的预测。由于对抗样本对人类视觉而言通常难以明显察觉，且不会判断错误。因此对抗样本具有较好的隐蔽性，利用对抗样本对DNNs发起的攻击具有很强的危害性。例如，在自动驾驶领域，对抗样本可能会导致采用深度神经网络进行路标识别的汽车采取不正确的行动，从而导致交通事故。

对抗样本的存在激发了研究人员的极大兴趣，提出了许多对抗样本的生成方法。由于缺乏对对抗样本产生原因的根本性认识，目前各种方法产生的对抗样本只是其中的一个子集。不同方法产生的对抗样本的攻击强度不同，因此利用对抗样本估计DNNs鲁棒性上界还存在问题。如果对抗样本的强度不够大，数量不够多且攻击成功率不高，那么用其估计的鲁棒性上界就无法很好的逼近真实上界。因此，从这个角度看，高效生成大量的、强度大的对抗样本对于精确评估DNNs的鲁棒性具有现实意义。

现有技术2首次提出利用对抗样本和正常样本同时作为训练数据训练模型，实验证明是一种防御对抗样本的有效方法，这种方法被称作对抗训练。对抗训练能够使模型有效正则化并揭露模型的缺陷从而进行改善。现有技术3根据对抗训练提出了最大-最小鞍点优化问题，最大化问题的目的是找到最强对抗样本，降低神经网络的分类性能；最小化问题的目标是调整模型参数，最小化对抗样本带来的负面影响。这个观点给出了理想鲁棒神经网络应该达到的目标，以及对其鲁棒性的定量度量。强大的对抗样本可以有效解决内部最大化问题。因此，高效生成大量的、强度大的对抗样本对于提高DNNs的鲁棒性具有重要意义。

对抗样本的生成通常建模为损失函数关于输入样本的一个优化问题。由于DNNs的高度非线性，求解这个优化问题非常困难。因此，目前基于梯度的主流方法都将其转化为一个易于优化的目标函数，通过一步或多步迭代产生对抗样本。这些方法的目标函数都采用神经网络最后一个隐藏层或Softmax层的输出进行计算，PGD为了保证迭代的有效性，计算迭代点的投影都十分费时，并且收敛速度缓慢,Deepfool与 FGSM以及由于其算法特性，都容易陷入局部最优值，从而无法得到全局最优解。JSMA在最后一个隐藏层每迭代一次就要计算一次新的梯度，C&W对超参数的选择也要进行迭代计算。这些方法把梯度信息看作是图片的组成部分而非是神经网络的组成部分，因此只有通过多次迭代才可得到对抗样本。

综上所述，现有技术存在的问题是：现有对抗样本生成方法速度不佳，计算复杂程度高，且容易过早陷入局部最优，对梯度信息的利用度很低。同时生成对抗样本质量不高，可转移性低。尤其是，一旦对梯度进行平滑，现有的极大多数方法会引入极端变化从而导致极值导数数值，这会降低关于神经元如何被不同输入激活的信息质量，导致无法生成对抗样本。

解决上述技术问题的难度：将生成对抗样本转化为一个优化问题后，DNNs的高度非凸且非线性使得解决这个优化问题十分困难；对抗样本由于其特性，难以同时兼顾白盒攻击成功率与可转移性；有效的对抗样本在兼顾攻击成功率的同时还要保持隐蔽性，这意味所添加的扰动要十分微小并且有效。若梯度被平滑，则难以得到梯度信息从而生成对抗样本。

解决上述技术问题的意义：生成的对抗样本能够更好估计深度神经网络鲁棒性上界。将其用于对抗训练，则能够使深度神经网络有效正则化并揭露模型的缺陷从而进行改善。以防御蒸馏为代表的平滑梯度的防御方法无法防御本发明提供了一种基于二阶方法的深度学习对抗样本生成方法及系统。

发明内容

针对现有技术存在的问题，本发明提供了一种基于二阶方法的深度学习对抗样本生成方法及系统。

本发明是这样实现的，一种基于二阶方法的深度学习对抗样本生成方法，所述基于二阶方法的深度学习对抗样本生成方法包括：

在输入样本的L_p(p∈[2,0,∞])范数约束内，对神经网络函数进行二次Taylor展开，用二次函数替代神经网络非凸且非线性部分，通过拉格朗日乘子法计算极值求取最佳扰动δ，使对抗样本X′被判断为正确类的置信度降至最低，或者能将对抗样本被判断为目标类的置信度升至最高，即无目标攻击时，降低正确类的置信度；有目标攻击时，提高目标类的置信度。

进一步，所述计算最佳扰动δ包括：将获取最佳扰动δ，建模为以置信度为目标函数的优化问题；根据在不同神经网络层和不同攻击目标定义如下三类不同的目标函数：

T₁＝z_j(X+δ)，T₄＝f_j(X+δ)分别代表X+δ在最后一个隐藏层和Softmax层中正确类别的输出，将这两个式子中的任意一个降至最低都可以得到对抗样本；

T₂＝z_t(X+δ)，T₅＝f_t(X+δ)分别代表X+δ在最后一个隐藏层和Softmax层中目标类别的输出，将这两个式子中的任意一个升至最高都生成目标对抗样本；

T₃＝z_t(X+δ)-max_i≠t(z_i(X+δ))，T₆＝f_t(X+δ)-max_i≠t(f_i(X+δ))分别代表在最后一个隐藏层和Softmax层上目标类输出和最大值类输出的差值，当差值达到最大时，生成目标对抗样本的几率最大。

同时根据攻击目标确定目标函数，建立优化模型：

(1)当为无目标攻击时：

j是目标类，寻找约束内的δ使f_j(X+δ)最小，建模为：

(2)当为有目标攻击时：

t是目标类，寻找约束内使f_t(X+δ)最大的δ，建模为：

良性样本输入X不是有意义的自然图片时制作成欺骗神经网络的对抗样本，并分类到目标类t；将上式中添加一个条件F(X)≠i。

进一步，包括以下步骤：

步骤一，计算深度神经网络F关于输入X在最后一个隐藏层的输出Logist值或Softmax层的梯度矩阵或 Hessian矩阵；

步骤二，在以输入为中心的邻域内，用梯度信息生成近似神经网络输入-输出映射的Taylor多项式；

步骤三，运用拉格朗日乘子法添加约束形成一个易于计算的优化式，得到有效的扰动值δ，并利用KKT 最优化条件得到L_p范数内的最优解对抗样本X′。

进一步，步骤一中，具体包括：

(1)计算F关于X的梯度矩阵

和Hessian矩阵

(2)在X邻域U(X,δ)内用Taylor多项式近似F：

X′为邻域内的某个动点，F(X′)是X′被判断为i的logist值或softmax值，F(X′)愈低则X′被判断为第i类的概率愈低，被误分类的概率就越大；

(3)通过拉格朗日乘子法计算δ：将生成对抗样本的问题转换成一个不等式约束条件下的非线性优化问题：

构造拉格朗日函数：

其中C为常数，取满足

的最小的C值；

将不等式约束条件下的非线性优化问题转化为无约束优化问题；

将式(6)转化为对偶问题：

其中，对偶函数g(λ)＝inf L(δ,λ)，由弱对偶性可知，式(8)的最优值d^*是式(6)的最优下界，即用凸优化问题来近似原问题；式(8)的最优解必须满足如下KKT条件：

L(δ,λ)的近似最优解为(δ^*,λ^*)；

若得到的δ满足

条件，则δ即为生成对抗样本的最佳扰动。

进一步，步骤一中，可利用高斯牛顿法简化计算：

首先，高斯牛顿法作为最小化最小二乘代价(1/2)||F_y(X+δ)||²的一种专门方法，对于给定点X，迭代的纯形式是将F_y(X+δ)线性化得到：

其次，最小化线性公式R的范数：

再者，

可逆，通过二次极小化，可由(11)式得到

将(12)式改写为：

其中，α^k是按照步长规则选择的一个步长,Δ^k是一个对角矩阵使

正定。

本发明另一目的在于提供一种基于二阶方法的深度学习对抗样本生成系统包括：

神经网络梯度信息计算模块，计算深度神经网络关于输入在最后一个隐藏层的输出Logist值或Softmax 层的梯度矩阵或Hessian矩阵；

神经网络输出置信度计算模块，在以输入为中心的邻域内，用梯度信息生成近似神经网络输入-输出映射的Taylor多项式；

最优解对抗样本获取模块，运用拉格朗日乘子法添加约束形成一个易于计算的优化式，得到有效的扰动值，并利用KKT最优化条件得到范数内的最优解对抗样本。

本发明另一目的在于提供一种实现所述基于二阶方法的深度学习对抗样本生成方法的信息数据处理终端。

本发明另一目的在于提供一种一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述基于二阶方法的深度学习对抗样本生成方法。

本发明另一目的在于提供一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以实施所述基于二阶方法的深度学习对抗样本生成方法。

综上所述，本发明的优点及积极效果为：本发明提出的方法直接根据梯度近似出神经网络在输入邻域内的输出式，可以直接求出邻域内最小值，求解精度高，计算代价小。本发明使用对抗训练作为防御，提高了深度神经网络的鲁棒性。

本发明方法的创新点就在于近似出神经网络在输入邻域内的输出，通过拉格朗日乘子法解出约束内的极值。对于内部最大化问题，本发明方法可以获得最优解，而现有技术不能。

本发明提出在输入样本的一个微小领域内(采用L_p(p∈[2,0,∞])范数约束)，对神经网络函数进行二次Taylor展开近似，替代DNNs的非线性部分，对于低维空间一步即可得到二次函数内的最优解(对抗样本)。在微小领域内用二次函数替代的明显好处是可以有效避免陷入局部最优；且低维空间上可以一步就获得对抗样本。因此，本发明与其他多步方法相比，具有速度快的优势，同时可避免过早的陷入局部最优；与一步方法相比，本发明方法更接近最优解，使得对抗样本更强大。因此，本发明提出的方法可以最小的代价生成高质量的对抗样本在降低计算复杂程度的同时，避免过早陷入局部最优，提高了生成对抗样本的强度。

本发明除了采用攻击成功率作为评价指标，还采用可转移性来评估对抗样本的黑盒攻击能力。实验表明本发明方法所生成的对抗样本具有高度的可转移性。因此，本发明生成的对抗样本可以有效的检验现有的防御方法对可转移性的防御能力。

首先，本发明通过分析发现对抗样本需要保持良好的隐蔽性，因此最优对抗样本必须在一个很小的扰动范围得到。为此本发明只需在在输入样本的微小领域内进行两次函数逼近，在保证领域内分类器等价的前提下，即可快速得到近似最优的对抗样本。与以往所有方法相比，本发明方法可以避免过早的陷入局部最优，因此可以获得攻击力更强的对抗样本。

其次，转移性实验证明本发明生成的高置信度对抗样本同时也具有高度可转移性。

最后，本发明系统地评估了目标函数的选择，以寻找对抗样本，并表明这种选择会对攻击的有效性产生显著的影响。

本发明是目前第一个从数学角度分析通过优化方法降低置信度从而生成对抗样本的攻击方法。

附图说明

图1是本发明实施例提供的基于二阶方法的深度学习对抗样本生成方法流程图。

图2是本发明实施例提供的DNNs与对偶函数间的关系图。展示了MNIST与CIFAR10数据集上生成对抗样本的过程，随着常数C的不断增大，对于目标函数T₁，DNNs与对偶函数的损失值变化情况。可以看到DNNs 与对偶函数的变化趋于一致。

图3是本发明实施例提供的常数C的变化。本发明绘制了目标函数T₁分别在MNIST和CIFAR10数据集上生成对抗样本时，常数C与DNNs的交叉熵损失值变化关系。

图4是本发明实施例提供的对抗训练过程中交叉熵损失的变化过程图。

图5是本发明实施例提供的不同数据集上评估不同方法产生的对抗样本在用不同对抗样本进行对抗训练的DNNs上的攻击能力热力图。

图6是本发明实施例提供的对于MNIST数据集的有目标攻击，其中原始图片为全黑或全白图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于二阶方法的深度学习对抗样本生成方法，下面结合附图对本发明作详细的描述。

本发明实施例提供的基于二阶方法的深度学习对抗样本生成方法包括：

本发明实施例提供的计算最佳扰动δ包括：

将获取最佳扰动δ，建模为以置信度为目标函数的优化问题；根据在不同神经网络层和不同攻击目标定义如下三类不同的目标函数：

同时根据攻击目标确定目标函数，建立优化模型：

(1)当为无目标攻击时：

j是目标类，寻找约束内的δ使f_j(X+δ)最小，建模为：

(2)当为有目标攻击时：

t是目标类，寻找约束内使f_t(X+δ)最大的δ，建模为：

如图1所示，本发明实施例提供的基于二阶方法的深度学习对抗样本生成方法包括以下步骤：

S101，计算深度神经网络最后一个隐藏层或Softmax层的梯度矩阵和Hessian矩阵。

S102，在以输入为中心的邻域内，用梯度信息生成近似深度神经网络输出的Taylor多项式。

S103，运用拉格朗日乘子法添加约束形成一个易于计算的优化式，得到有效的扰动值δ，并利用KKT 最优化条件得到L_p(p∈[2,0,∞])范数内的最优解即对抗样本X′。

本发明实施例提供的基于二阶方法产生对抗样本方法具体包括：

(1)计算F关于X的梯度矩阵

和Hessian矩阵

(2)在X邻域U(X,δ)内用Taylor多项式近似F：

构造拉格朗日函数：

其中C为常数，取满足

的最小的C值；

将式(6)转化为对偶问题：

L(δ,λ)的近似最优解为(δ^*,λ^*)；

若得到的δ满足

条件，则δ即为生成对抗样本的最佳扰动。

步骤(1)中，可利用高斯牛顿法简化计算：

其次，最小化线性公式R的范数：

再者，

可逆，通过二次极小化，可由(11)式得到

将(12)式改写为：

正定。

本发明提供一种基于二阶方法的深度学习对抗样本生成系统包括：

神经网络梯度信息计算模块，计算深度神经网络最后一个隐藏层的输出Logist值或Softmax层的输出置信度，并采用Taylor多项式展开，计算神经网络的输出对输入X的梯度信息。

神经网络输出置信度计算模块，利用梯度信息在以输入X为中心的邻域内近似出神经网络的输出置信度。

下面结合具体实施例对本发明作进一步说明。

实施例1：

1、相关技术具体分析如下：

1.1深神经网络与符号

DNNs一般可以表示为映射函数

是d维输入变量，

是一个m维概率向量，表示m个类的置信度。一个N层DNNs接收一个输入X后产生相应的输出如下：

F(X)＝F^(N)(...F⁽²⁾(F⁽¹⁾(X))) (1)

F⁽ⁱ⁾代表DNNs第i层的计算输出。这些层可以是卷积、池化或者其他形式的神经网络层。DNNs的最后一层采用Softmax层，定义为

Z＝F^(N-1)(·)则是前一层(又称最后一个隐藏层)的输出向量。最后的预测标签则由y＝argmax_i＝1...mF(X)_i得到，其中 F(X)＝Softmax(Z)。

1.2 DNNs的对抗样本

现有技术1首先发现DNNs中存在对抗样本。正式的说，在

空间中，对大小为m×n的图像X，找到在L_p(p∈[2,0,∞])范数内与其足够接近的点X′，满足X′＝X+δ，其中||δ||_p＜C，本发明将这样的点X′称为对抗样本样本。这个X′与X从人眼的视觉看同属一个类别，但细微的扰动δ欺骗神经网络判断为与X不同的类，即

F(X′)＝F(X+δ)＝y′ s.t.y′≠y (2)

对抗样本可以根据对抗特异性分为有目标攻击和无目标攻击。对于类标签应该为y的X′，无目标攻击仅仅让DNNs误分类，即F(X′)≠y。而有目标攻击不仅让DNNs发生错误的预测，而且还要让DNNs错误预测到指定的类上，即F(X′)＝y′,y′≠y，这里y′就是目标类。通常情况下，扰动δ通过L_p范数来约束，即||X^*-X||_p≤C。

1.3深度学习中的威胁模型

目前有很多生成对抗样本的方法，但这些方法都是在一定的假设限制下进行。因为要讨论对抗样本的攻击强度或攻击的健壮性，在很大程度上取决于对手被允许做什么，没有这样的限制，攻击者可以使用任何图像替换给定的图像，那就违背了对抗样本的定义。为此，本发明把这些假设条件定义为威胁模型，通常包含攻击目标和攻击能力。

(1)对抗性目标

威胁模型中的攻击目标可以被定义为一个需要被检测和防御的具体式子。在深度神经网络中，对于攻击目标的划分有利于本发明明确这个具体式子。因此，威胁模型中，对于攻击目标的划分至关重要。本发明将攻击目标按照划分为2类：

a)无目标攻击：改变对抗样本的类别至任意一个非正确类。

b)有目标攻击：改变对抗样本的类别至指定的一个非正确类。

在本发明中，无目标攻击和有目标攻击都建立在改变置信度的基础上，本发明的方法是目前第一个从数学角度分析通过优化方法降低置信度从而生成对抗样本的攻击方法。

(2)对抗能力

对抗样本还可以根据攻击方掌握目标分类器信息的多少来定义攻击能力，分为白箱攻击和黑箱攻击。所谓白箱攻击是指攻击者几乎知道关于DNNs的所有信息，包括训练数据、激活函数、拓扑结构、权重系数等。黑箱攻击则假设攻击者无法获得已训练的神经网络模型内部信息，仅能获得模型的输出，包含标签和置信度。

因为需要掌握目标DNNs的梯度信息，本发明方法属于白盒攻击。但是由于本发明方法生成的对抗样本具有高度可转移性，所以很容易在本地构建代理DNNs，成功实现黑箱攻击。

1.4现有的典型生成方法

本发明选择一些典型的基于梯度的方法与本发明提出的方法进行比较，现有的典型方法包括FGSM, JSMA,Deepfool,C&W,PGD,M-DI²-FGSM等。

(1)FGSM

Goodfellow等人提出一种在L_∞约束下快速生成对抗样本的方法，称FGSM(fastgradient sign method)：

其中J是损失函数，ε是对符号梯度方向sign(·)上的扰动限制。FGSM具有计算复杂度低，短时间内可产生大量对抗样本的优点。注意到，FGSM的目的在于快速生成对抗样本而非对抗样本的有效性。

(2)JSMA(Jacobian-based Saliency Map Attack)

Papernot等人提出了一种L₀约束下的有目标攻击方法。根据对抗显著性对输入分量进行递减排序，选择对抗显著性强的分量生成扰动δ。对于目标类t，分量i的对抗显著性值S(X,t)[i]被定义为：

其中，

为DNNs的Jacobian矩阵。每次迭代过程中，选择对抗显著性值最大的分量X_i增加恒定的偏移量，直到样本被错误分类为止。

(3)Deepfool

Moosavi-Dezfooli等人提出了Deepfool方法，采用线性逼近的方法进行梯度迭代攻击。对于一个二分类器，可以用下面的迭代过程描述：

这里X′_i是第i次迭代的对抗样本，X′₀＝X，

是X′_i与决策边界f(X′_i)的估计距离，

是X′_i朝着决策边界的梯度方向。通过寻找最近超平面，该方法也可以扩展到多分类器。

(4)C&W

Carlini和Wagner提出一种基于梯度下降的有目标迭代攻击方法。根据他们的进一步研究，C&W的攻击对于现有的大多数防御都是有效的。他们把生成对抗样本建模为如下的优化问题，在最小化扰动δ的同时鼓励模型分类错误：

当且仅当F(X′)＝y′时，g(X′)≥0。作者通过实验评估发现最有效的函数g是:

其中k是控制置信度的常数。

(5)PGD

Aleksander等人将生成对抗样本的过程解释为解决鞍点问题的内部最大化问题的简单一步解决方案。在此基础上，他们提出了FGSM的一种衍生方法，称为PGD。该方法的实质是对损失函数投影梯度下降:

(6)M-DI²-FGSM

动量和不同的输入是缓解过拟合现象的两种完全不同的方法。Xie等将它们自然地结合在一起，形成了一种更强的攻击。迭代快速梯度符号法(M-DI²-FGSM):

2、本发明：

本发明提出的对抗样本生成算法是在L_p(p∈[2,0,∞])范数约束内，找到合适的扰动δ，使对抗样本 X′被判断为正确类的置信度降至最低，或者能将对抗样本被判断为目标类的置信度升至最高。对于无目标攻击而言，就是降低正确输出类的置信度；对于有目标攻击而言，就是提高目标类的置信度。因此，本发明提出的方法，核心就是利用梯度信息在以X为中心的邻域内近似出神经网络的输出置信度，通过拉格朗日乘子法计算极值求取扰动δ。

本发明方法的第一步是计算神经网络F的输出对输入X的梯度信息。考虑到目前深度神经网络的 Logits层和Softmax层的输出都可以提供深度神经网络的梯度信息，但由于Softmax层的输出就是归一化后的Logits层的输出，因此两者会有所不同。本发明将在最后一个隐藏层和Softmax层上分别进行梯度的计算和实验，以分析其中的差异。本发明把最后一个隐藏层的输出称为Logist值，Softmax层输出称为置信度。

分析到对抗样本是在X周围的微小邻域内得到，而在该邻域内，神经网络的输出仍然可能是高度非线性的，即使采用多步迭代也很容易陷入局部最优。为此，本发明在X的微小邻域内对神经网络在最后一个隐藏层或Softmax层的输出采用二次Taylor展开，用简单的二次函数代替神经网络非凸且非线性部分。而后运用拉格朗日乘子法添加约束形成一个易于计算的优化式子。通过这种方法可以得到有效的扰动值，从而生成对抗样本X′。具体包括以下内容：

2.1问题表述：

本发明将根据攻击目标将确定目标函数，建立优化模型。假设以最后一个隐藏层的输出为参考，生成对抗样本。神经网络最后一个隐藏层中每个神经元所输出的值就是X被分到这个神经元所代表的类的 logist值，X的预测标签y＝argmax_i＝1,...,m(Z_i)。即z_i值愈大,X被判断为第i类的可能性就越大，反之亦然。由于对抗样本X′的目的是给X添加少量扰动从而让神经网络产生错误分类。因此，本发明的目的是找到微小扰动δ，添加到X使得正确标签为第j类的X在添加完扰动后的logist值Z_j(X′)尽可能小，这意味着图片加上扰动后被判断成第j类的概率愈低，神经网络产生误分类的概率就愈高。

假设以softmax层的输出为参考，生成对抗样本。在softmax层输出的Y，代表归一化后的不同类各自的置信度。Y_i值愈大,X被判断为第i类的可能性就越大，反之亦然。与最后一个隐藏层的区别在于，softmax 层的输出经过了归一化，这意味着f_j(X)的下降意味着∑_i≠jf_i(X)的上升。直觉上来说，在softmax层上降低正确类的置信度更有助于实现对抗样本。但是，本发明的实验结果显示，归一化与否并对于本发明的方法来说并没有很大的差别。从这一点上来说，本发明的方法JSMA具有更好的适应性。

本发明把获取最佳扰动δ，建模为以置信度为目标函数的优化问题。根据在不同神经网络层和不同攻击目标定义如下三类不同的目标函数：

(2)无目标攻击

本发明的目标是找到约束内的δ使f_j(X+δ)最小。于是，根据中对抗样本的表述，本发明将为X寻找对抗扰动δ并构建对抗样本的问题描述为：

(2)有目标攻击

假设t是目标类，那么目标是找到约束内使F_t(X+δ)最大的δ，本发明将这个过程建模为：

本发明还专门研究了一种特殊的输入情况，即良性样本X不是有意义的自然图片，它可能是一张纯黑或者纯白的图片，也可能是没有意义的乱码。经过本发明的方法将他制作成的对抗样本，可欺骗神经网络，将其分类到本发明的目标类t。本发明将式(13)中添加一个条件F(X)≠i。

2.2基于二阶方法产生对抗样本：

针对深度神经网络，本发明提出一种新颖的对抗样本生成算法，并在后面的实验中证明了它的有效性。目标函数z_i与f_i都可以用同一种方法求解梯度信息，本发明将z_i与f_i统一记为F。采用二次Taylor多项式近似F在X邻域内的非线性部分，将有约束非线性优化问题转化为有约束线性优化问题，接下来利用拉格朗日乘子法和KKT最优化条件找到L₂范数球内的最优解。这个过程降低了优化问题的求解难度的同时也提升了求解精度。

(1)计算F关于X的梯度矩阵

和Hessian矩阵

(2)在X邻域U(X,δ)内用Taylor多项式近似F：

X′为邻域内的某个动点，F(X′)是X′被判断为i的logist值或softmax值，这个值愈低就意味着X′被判断为第i类的概率愈低，被误分类的概率就越大。

(3)通过拉格朗日乘子法计算δ：在(16)式中δ是唯一的未知量，于是，本发明把生成对抗样本的问题转换成一个不等式约束条件下的非线性优化问题：

本发明构造拉格朗日函数：

将不等式约束条件下的非线性优化问题转化为无约束优化问题。为了进行更好的计算，接下来，将原问题(17)转化为对偶问题：

其中，对偶函数g(λ)＝inf L(δ,λ)，由弱对偶性可知，式(19)的最优值d^*是原问题(17)的最优下界，即用凸优化问题来近似原问题。(19)式的最优解必须满足如下KKT条件：

假设λ＝λ^*时，-g(λ^*)可以得到最小值，δ＝δ^*时，T(δ^*)可以得到最小值。根据弱对偶性原则，原始问题的最优值不小于对偶问题的最优值，即g(λ^*)≤T(δ^*)。若原始函数是一个凸函数且满足slater准则，那么，g(λ^*)＝T(δ^*)。但是，由于神经网络的高度非线性，

难以被证明为一个正定矩阵。因此，本发明可以认为(δ^*,λ^*)是L(δ,λ)的近似最优解。

如果所求得的δ满足

条件，那么δ就是生成对抗样本的最佳扰动。这样，本发明就将含有不等式约束优化问题通过拉格朗日乘子法求得最优解δ，从而生成出对抗样本X′。上述对抗样本生成方法很容易推广到所有非循环深度神经网络，唯一的要求就是激活函数可微，这个要求已被BP算法中激活函数处处可导的特点满足了。

想要通过式(18)生成对抗样本还涉及到对C的选择，这也是非常重要的一个步骤。C是对δ的约束， C的值如果过大生成对抗样本的成功率较高，但随之而来的是较差的图片质量，反之亦然，因此对C的选择至关重要。从经验上来说，最为合适的C是求解式(18)后满足

的最小的C。

2.3基于高斯牛顿法产生对抗样本：

2.2的方法由于Taylor展开公式，虽然可以生成有效且可转移性高的对抗样本，但是这个方法的缺点也十分明显。由于Taylor展开公式涉及到Hessian矩阵的计算，而Hessian矩阵中的二阶项通常难以计算或计算量很大，利用整个Hessian的割线近似也是不可取的。因此，本发明还可以采用高斯牛顿法简化计算。

高斯牛顿法作为最小化最小二乘代价(1/2)||F_y(X+δ)||²的一种专门方法，对于给定点X，迭代的纯形式是将F_y(X+δ)线性化得到

接下来最小化线性公式R的范数：

假设

可逆，通过二次极小化，可由(22)式得到

注意到，R是一个线性函数，所以有||F_y(X+δ)||²＝||R(X+δ,X+δ^k)||²，并且高斯牛顿法在一次迭代中收敛。另外，在上述迭代中使用的方向

是下降方向，因为

是最小二乘代价函数(1/2)||F_y(X+δ)||²在X+δ处的梯度。并且，

是正定矩阵。

但是，由于深度神经网络的高度非线性，本发明无法从数学角度证明

可逆，因此，为了确保迭代方向保持下降，也为了处理矩阵

是一个奇异矩阵，以及在矩阵近似奇异时增强收敛性，本发明将(23)式改写如下

其中，α^k是由本发明讨论过的一个按照步长规则选择的一个步长,Δ^k是一个对角矩阵使

正定。算法如下：

3.对抗训练构建鲁棒神经网络

为了可靠地训练出对于对抗样本具有鲁棒性的神经网络，本发明不是采用直接关注于提高对特定攻击的鲁棒性的方法，而是首先提出一个具有对抗性的模型应该满足的具体要求。本发明将这个具体要求描述为一个最大最小化问题，一方面最大化对抗样本的能力，其神经网络错误分类的概率应达到最高。另一方面，训练模型，找到模型参数以最小化模型对于对抗样本的误分类概率。这正是使用对抗训练技术训练神经网络的问题。

对抗训练：假设(x,y_true)∈D为原始训练数据，在约束ε下可获得对抗样本x^adv＝x+δ，J(·)为损失函数，对抗训练是使用当前模型下最大化损失的对抗样本训练模型，同时满足最小化经验风险：

可以发现(27)是个鞍点问题，是一个内部最大化问题和一个外部极小问题的组合。内部最大化问题是找到损失最大的对抗样本。外部最小化问题是在某种对抗攻击下，寻找使对抗损失最小的模型参数。目前关于对抗样本的工作通常侧重于特定的防御机制，或针对此类防御的攻击。最大最小化问题的一个重要特征是，获得小的对抗损失可以保证指定的攻击没有能力欺骗神经网络。根据这个特征，防御住所有对抗样本是可行的。由此可见，对抗训练是模型精度和鲁棒性之间的一种最佳平衡。

其次，(27)明确了一个理想神经网络应该达到的目标，以及它的鲁棒性的量化度量。当

接近无穷小时，对应的模型对指定的攻击具有完美的鲁棒性。本发明研究了深神经网络背景下对抗训练的结构。这些研究将引导本发明使用对抗训练，以产生对广泛的对抗性攻击具有高抵抗力的模型。因此，本发明现在将注意力集中在获得(27)的一个好的解决方案上。

3.1内部最大化

内部最大化问题对应于找到有效的对抗样本,这是一个非凹值内极大值问题。由于这个问题要求本发明最大化一个非凹函数，因此这是难以处理的。本发明的方法用一个二阶Taylor展开函数近似非凹函数在输入邻域内的输出，再将这个二阶函数通过对偶问题转化为凸优化问题以便计算。本发明的方法更有利于找到约束范围内的极值，并且避免陷入局部最优解，这正是现有的典型攻击方法的缺陷。为了详细说明本发明方法能够很好的解决内部最大化问题，本发明以mnist数据集为例，随机取500张图片，对深度神经网络与本发明的二阶函数间极值变化间的关系。

正如本发明所预料的那样，本发明的实验表明本发明用二阶函数近似神经网络的输出，然后用对偶函数进行转化的方法不但能够避免陷入局部极值，找到约束范围内的全局最优解，并且二阶函数所找到的点 X输入神经网络同样可以得到极值。

3.2外部最小化

前面的讨论表明，通过应用本发明方法可以成功地解决内部优化问题。为了训练对抗性强的网络，本发明还需要解决外部优化问题，即找到最小化“对抗性损失”的模型参数。在训练深度神经网络时,最小化损失函数的主要方法是随机梯度下降(SGD)。计算外部优化问题梯度的有效方式是在内部问题的最大值处计算损耗函数的梯度。这对应于对抗训练中在原有的训练数据集中加入对抗样本。当然，现在还不清楚这是否有效最大最小问题的下降方向。然而，对于连续可微的情况Danskin定理-一个经典的优化定理-指出这确实是正确的，并且内部最大值的梯度对应于最大最小问题的下降方向。

4.下面集合实验评估对本发明作进一步描述：

本发明要用实验来验证以下几个问题:(1)所有目标函数在不同数据集的纵向比较；(2)FGSM,JSMA, Deepfool,C&W,PGD以及M-DI²-FGSM在不同数据集与本发明的横向比较；(3)本发明是否能通过对抗训练够提高DNNs的鲁棒性；(4)本发明的对抗样本可转移性是否足够强。

4.1实验设置

本发明的实验会在MNIST和CIFAR10这2个数据集上进行以验证本发明的有效性。MNIST是一个广泛应用于机器学习社区的手写数据集。它包含从数字0到9的10个类，共包含70,000张手写数字图像。选取60000 张图像作为训练数据，10000张图像作为测试数据。每个图像的大小为28×28像素。

CIFAR-10数据集由10个类的60000个32x32彩色图像组成，每个类有6000个图像。有50000个训练图像和10000个测试图像。数据集分为五个训练批次和一个测试批次，每个批次有10000个图像。

本发明对每个数据集使用标准模型。对于MNIST本发明使用标准的3层卷积神经网络达到99.6％的精度。对于Cifar10,我们训练了一个标准的4层卷积神经网络达到95.3％的精度。

攻击已经被分类错误的图像是没有意义的。因此，本发明分别从2个数据集中随机选择500张图像，这些图像被本发明测试的所有网络正确分类，从而形成本发明的测试数据集。

4.2评估指标：

本发明使用三组指标对于6个目标函数T(·)进行评估，分别是L_p，PSNR以及ASR。现有的研究普遍用L_p的值来衡量全局或局部添加的扰动量，这是对于对抗样本隐蔽性的度量。为了更好地评估对抗样本的隐蔽性，我们将“Peak Signal to Noise Ratio”(PSNR)列为评估标准之一，PSNR作为是最普遍，最广泛使用的评鉴图片质量的客观量测法可以对对抗样本的隐蔽性进行有效评估。ASR代表制作对抗样本的成功概率。若之作对抗样本的成功率不是100％，那么这些数据仅取了成功的那部分作为基数。这三条数据会在 MNIST、CIFAR10上作为标准对目标函数进行比较。

A.目标函数进行纵向比较

表1不同目标函数在MNIST和CIFAR10进行无目标攻击

表2不同目标函数在MNIST和CIFAR10进行有目标攻击

表1和表2展示了实验结果。本发明评估了6个目标函数在MNIST和CIFAR10数据集上生成的对抗样本的质量和成功率。在无目标攻击中，T₁和T₄的唯一区别在于，T₁的梯度信息来源于最后有个隐藏层，而T₄的梯度信息来源于Softmax层。在有目标攻击中，T₂，T₃与T₅，T₆的区别也在于此。实验结果显示目标函数定位目标于最后一个隐藏层与定位目标于Softmax层并无太大差距。甚至受Softmax层的归一化的影响，在相同条件下，T₄，T₅和T₆的质量优于T₁，T₂和T₃。这说明在本发明中，Softmax层带来的归一化并不会由于引入极端变化产生极值导数数值[9]而导致降低关于神经元如何被不同输入激活的信息质量。因此，不论防御方法是否对Softmax层的梯度进行平滑，本发明都能得到有效对抗样本。

B.与现存有效方法进行横向比较

为了验证本发明的对抗样本的有效性，我们使用Cleverhans中的JSMA，C&W，FGSM以及Deepfool进行对比,PGD和M-DI²-FGSM的代码来自原文链接，并且为保证评估的严谨性，本发明采用同一个模型和同一批测试数据来验证以上方法。

对于FGSM,本发明取ε＝0.01，如果在指定步长内能够生成目标类对抗样本，则返回对抗样本进行评估，否则视作失败。PGD作为FGSM的衍生方法，在“0-255”的像素尺度上，每个像素的该变量上限为ε＝8.0。对于JSMA,本发明以产生对抗样本为目标，扩大对于扰动的约束，将迭代终止条件修改为成功分类为目标类。即无论需要多大的扰动，产生目标类的对抗样本就视为成功。但是，JSMA由于搜索显著性特征图时固有的大量计算成本，因此无法在CIFAR10上运行[11]。如果删除这一搜索过程，JSMA生成对抗样本的效果又会大打折扣，因此，在CIFAR10的实验中，本发明不对JSMA进行实验。C&W与上述基于梯度的方法都略有不同，因为这是一种基于优化的攻击，实验中采用C&W中的L₂攻击，并设置ε＝1以及学习率为0.1。Deepfool使用L₂攻击，并且在计算中以f/||w||*w取代f/||w||*w/||w||。

本发明从MNIST与CIFAR中随机取出500张可以被初始模型正确判断的图片进行测试。毕竟，如果图片在没有叠加扰动的情况下就有可能被错误分类，那么也就失去了制作对抗样本的意义。另外，在有目标攻击中，本发明还根据对抗样本的图像质量将对抗样本分为最优质量和最差质量，换而言之是为了比较不同方法制造对抗样本所叠加的扰动强度。结果如下表所示。

本发明以L_p范数和PSNR值衡量添加扰动后的隐蔽性。实验证明在不同数据集中，相比于现有的典型攻击方法，本文方法生成的对抗样本隐蔽性更高，并且我们的方法对于任意图片都能制作出目标类对抗样本。

JSMA使用最后一层隐藏层取代Softmax层计算得出saliency map。这种方法的本质是迭代的修改拥有最大导数值的像素点，直到产生对抗样本或者修改的像素点个数超过限定范围。作者举了简单例子使用前向导数发现的微小输入扰动是如何引起神经网络输出巨大的变化的，但并未给出数学推导。我们认为这种方法的数学依据来源于DNNs可以在固定值X的邻域内满足：对于小||δ||，存在

因此JSMA可以迭代出对抗样本。

但是，因为作者认为Softmax层带来的归一化会引入极端变化从而导致极值导数数值，这会降低关于神经元如何被不同输入激活的信息质量，并导致前向导数在生成saliency map时的准确性不高。所以，作者使用最后一层隐藏层而非Softmax层作为目标函数。作者按挑选出令S(X,t)值最大，但本质上是希望找到令

最大的像素作为添加扰动后最有利于分类为目标类t的像素，但是由于没有经过Softmax层的归一化，作者并不能保证

增大的同时，带来

的减小。因此，S(X,t)的值愈大，并不意味着

的值就愈大。这就意味着上式选出的像素点严格来说并非是有目标攻击的关键像素点。我们有理由相信这就是JSMA制造对抗样本的能力远非我们所预期的那么优秀的原因。而本发明克服了这一弊端，无论是在最后一层隐藏层还是在Softmax层，本文方法都能有效修改像素点有效对抗样本。

C&W致力于求解minimize||δ||_p+c·f(X+δ)s.t.X+δ∈[0,1]ⁿ。作者采用二分搜索来确定常数c的值，这是一种机械的搜索方法，远不如我们所使用的拉格朗日乘子法来的准确灵活。同时，C&W采用δ_i＝1/2(tanh(w_i)+1)-x_i来扩大了搜索空间，不可否认，这种方法十分有利于搜索更为强大的对抗样本，但是也会带来非常大的搜索成本。而本发明则不需要付出这么大的代价同样可以成功。

PGD将有约束优化问题转化为无约束优化问题虽然具有易于实现，以及适合求解大规模优化问题从而生成有效对抗样本的优点，但是为了保证迭代的有效性，计算迭代点的投影都十分费时，并且收敛速度缓慢。另外，当PGD将迭代点从约束外迭代至约束内时，势必损失部分迭代信息。而本发明在用Taylor二阶展开公式近似出DNNs的输入与输出的映射后，采用拉格朗日乘子法构造对偶函数进行优化从而生成对抗样本。拉格朗日乘子法同样可以将无约束优化问题转化成有约束优化问题，但是不同于投影梯度下降算法，拉格朗日乘子法并不会因为迭代而损失迭代信息,因此优化结果更为准确。

Deepfool与FGSM以及由于其算法特性，都容易陷入局部最优值，从而无法得到全局最优解，而本发明用Taylor二阶展开公式近似出DNNs的输入与输出的映射，可以有效避免陷入局部最优。M-DI²-FGSM将动量和不同的输入自然地结合在一起，形成了一种可转移性更强的攻击，但是实验证明其ASR并不理想。

C.基于Taylor展开式生成对抗样本用于对抗训练及其可转移性

通过实验可以发现，相比现有的典型攻击方法，本发明可以更好地解决内部最大化问题。当进行对抗训练时，交叉熵损失在不断下降从而使外部问题最小化，如图4所示。这个结果表明本发明的训练是成功的，本发明有助于加强DNNs的鲁棒性。

对抗样本的可转移性使其可以作用于另一个模型，即使这个模型和产生对抗样本的模型相差甚远。因此，一种鲁棒的防御方法必须对于对抗样本的可转移性有所防范，而对抗样本能力的强弱也体现在其可转移性上。

将基于梯度计算的攻击分为单步攻击和迭代攻击。在一般情况下，迭代攻击由于倾向于过度拟合特定的网络参数，虽然在白箱攻击中表现优异，但是会削弱对抗样本的可转移性。而单步攻击由于欠拟合网络参数，因此所产生的对抗样本具有稍微强一些的可转移性，但在白箱攻击中并不能达到令人满意的效果。

本发明同时对DNNs求得一阶和二阶梯度矩阵，再采用Taylor公式近似出DNNs在输入邻域内的输出。由于Taylor公式可以很好地近似出DNNs，而又不会对其完全拟合，因此本发明对于DNNs的网络参数可以在过拟合与欠拟合间达到一个很好的平衡，无论是白盒攻击还是黑盒攻击都表现优异。图5同样显示了由本发明生成的对抗样本在白箱和黑箱设置的成功率与其他攻击方法的比较。很明显，本发明的对抗样本相比其他对抗样本具有更高的可转移性。

D.产生随机样本

基于上述实验，本发明可以将任意图片制作成目标类的对抗样本，这个理论在无意义的图片上同样适用。现有技术用纯黑或纯白的图片制作出对人类来说毫无意义但神经网络会错误将其分至目标类的对抗样本。但是，其实验存在一个缺陷。纯黑图片无需改变任何一个像素就会被分类成1，因为初始图像已经会被分类成1。同理，纯白图像不添加任何扰动也会被神经网络误分类为8。本发明来完善这个实验，为神经网络的输出再添加一个类用于分类无意义的图片以完善这个体系。图6是本发明得到的结果。现有技术中的随意对抗样本可以明显看出目标标签，但是本发明的方法并不能看出来。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。