CN111047054A

CN111047054A - 一种基于两阶段对抗知识迁移的对抗样例防御方法

Info

Publication number: CN111047054A
Application number: CN201911282214.1A
Authority: CN
Inventors: 钱亚冠; 关晓惠; 周武杰; 李蔚; 潘俊; 云本胜; 楼琼
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd; Zhejiang University of Water Resources and Electric Power
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd; Zhejiang University of Water Resources and Electric Power; Zhejiang University of Science and Technology ZUST
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-04-21

Abstract

本发明属于人工智能安全技术领域，公开了一种基于两阶段对抗知识迁移的对抗样例防御方法，通过异构多源的对抗训练，先把对抗知识从数据迁移到大型复杂DNN(深度神经网络)，完成第一阶段的对抗知识迁移；然后采用对抗样例的软标签，提出对抗萃取技术，把对抗知识从复杂DNN迁移到简单DNN，实现第二阶段的对抗知识迁移。本发明提出的两阶段对抗知识迁移的方法，可以使边缘设备上的简单神经网络获得与大型复杂网络接近的鲁棒性，较好的解决了依靠单纯对抗训练无法解决的简单网络的鲁棒性问题。本发明提出的对抗萃取具有较好的算法收敛性，可以使简单网络模型性能和鲁棒性稳定提升并加快收敛，较好的解决了集成对抗训练中模型性能和鲁棒性的不稳定问题。

Description

一种基于两阶段对抗知识迁移的对抗样例防御方法

技术领域

本发明属于人工智能安全技术领域，尤其涉及一种基于两阶段对抗知识迁移的对抗样例防御方法。

背景技术

目前，最接近的现有技术：近来深度神经网络(DNN，Deep Neural Networks)被广泛运用在图像识别、自然语言处理等领域，但是研究表明，如果对数据增加一些精心设计的、不被人察觉的扰动，可导致深度神经网络错误分类。这种被添加恶意噪声的样例被称为对抗样例。对抗样例的出现限制了深度神经网络在安全敏感领域的应用，比如在自动驾驶、人脸支付等。研究人员在防御对抗样例方面做了大量工作，其中把对抗样例作为训练数据，对DNN进行对抗训练被认为是目前针对对抗样例最为有效的防御方法之一。

随着边缘计算的兴起，在边缘设备上部署具有与大型DNN同样的高精度和防御能力的简单DNN成为亟待解决的问题。最新研究表明，大型DNN经过对抗训练可以获得优良的防御能力。但把这些经过对抗训练的大型DNN部署到资源(内存、计算和功率)严格受限，又需要实时预测的边缘设备(如便携式设备或传感器网络)时，却成为一个极具挑战的问题。目前提出了各种模型压缩方法，如剪枝、参数量化和知识萃取等，或直接对边缘设备上的简单DNN进行对抗训练，但这些现有技术解决的效果不佳。原因在于：(1)简单DNN比大型DNN更难训练得到高的分类精度和鲁棒性。(2)现有的模型压缩等方法只关注提升简单DNN的分类精度，并不能提升简单DNN的对抗样例防御能力。因此，为边缘设备上的简单DNN设计防御对抗样例的方法具有十分重要的意义。

发明内容

本发明提出一种基于两阶段对抗知识迁移的对抗样例防御方法，可以使边缘设备上的简单DNN获得与大型复杂的DNN相当的分类精度和防御能力。由于对抗训练的目的是使DNN获得对抗知识，增强对对抗样例的防御能力，因此如何把对抗知识高效的迁移到简单DNN是本发明的核心。

本发明是这样实现的，通过异构多源的对抗训练，先把对抗知识从数据迁移到大型DNN，完成第一阶段的对抗知识迁移；然后采用对抗样例的软标签，提出对抗萃取技术，把对抗知识从大型DNN迁移到简单DNN，实现第二阶段的对抗知识迁移。通过两阶段的对抗知识迁移，可以有效的把蕴含于数据和模型中的对抗知识迁移到边缘设备上的简单DNN，从而获得与大型DNN相当的防御能力。

具体包括：

进一步，所述两阶段对抗知识迁移的防御方法具体包括以下步骤：

(1)从多个DNN中生成对抗样例，形成多源对抗样例数据集D_a；

(2)将干净样例数据集D_c和多源对抗样例数据集D_a合并，形成对抗训练集D；

(3)将对抗训练集D对复杂DNN f_teacher进行训练，实现第一阶段对抗知识从数据向复杂DNN的迁移；

(4)将干净样例数据集D_c输入f_teacher，获得带软标签的干净样例数据集

(5)将多源对抗样例数据集D_a输入f_teacher，获得带软标签的对抗样例数据集

(6)将

和

合并，形成带软标的对抗训练集D^soft；

(7)带软标的对抗训练集D^soft对边缘设备上的简单DNN f_student进行对抗训练，实现第二阶段对抗知识从大型DNN向简单DNN的迁移，使其获得与大型DNN相当的防御能力。

进一步，步骤(3)、步骤(7)中对抗知识包括：

第一类，对抗样例和硬标签对(x′,y)；第二类，决策边界f(x)及对抗样例和软标签对(x′,y^soft)；所述软标签包括：DNN经过Softmax层输出的概率置信度向量，其经过DNN计算得到，蕴含决策边界信息。

进一步，步骤(1)中通过多个预训练DNN上执行FGSM算法。输入干净样例

在一个预训练DNN上计算关于x的梯度，利用下式获得对抗样例x′：

其中f(x；θ)为其中一个预训练DNN，J(·)为交叉熵函数。在多个预训练DNN上重复上述过程，形成多源对抗样例数据集D_a。

所述FGSM生成对抗样例还依赖于具体的DNN模型，通过多个不同的预训练DNN，获得差异性对抗样例，N个预训练DNNf₁，f₂，…，f_N用于生成对抗样例。给定一个干净样例x，可获得N个对抗样例：x′_i＝x+εsign(▽_xJ(f_i(x),y))，i＝1...N。假设所有的干净样例组成集合D_c＝{(x₁,y₁),...,(x_M,y_M)}，由获得的所有的对抗样例组成集合D_a＝{(x′₁₁,y₁),...,(x′_1N,y₁),(x′₂₁,y₁),...,(x′_2N,y₂),...,(x′_MN,y_M)}，则D_a蕴含了足量的对抗知识。

进一步，步骤(3)中，所述对抗知识从数据向模型迁移具体包括：

对抗训练：假设(x,y_true)∈D为原始训练数据，在约束ε下可获得对抗样例x′＝x+δ。对抗训练是使用当前模型下最大化损失的对抗样例训练模型，同时满足最小化经验风险：

定义如下的损失函数进行对抗学习，实现对抗知识从数据集D_a向大型DNNf_teacher的迁移：

其中λ控制对抗知识的比重。具体的训练步骤包括：

(3-1)按序从D_c中取出干净样例(x,y)，从D_a中取出(x,y)对应的对抗样例(x′,y)；

(3-2)将(x,y)和(x′,y)代入(3)式，计算L₁(θ)对θ的梯度▽L₁(θ)；

(3-3)更新θ：

其中η为学习率，本发明中设置为0.5；

(3-4)重复步骤(3-1)～(3-3)，直到L₁(θ)小于0.001；

(3-5)得到从数据中获得对抗知识的大型DNNf_teacher(θ^*)。

进一步，步骤(4)中，对于所有的干净样例(x,y)∈D_c，选择合适的萃取温度T₁，计算

得到带软标签的干净样例集合

进一步，步骤(5)中，利用已获得对抗样例集合D_a，对于所有的对抗样例(x′,y)∈D_a，选择合适的萃取温度T₂，计算

本发明可以获得带软标签的对抗样例集合

进一步，步骤(7)中，所述对抗知识从大型DNN向简单DNN迁移具体包括：

本发明定义如下的风险函数对边缘设备上的简单DNN进行训练：

其中，J是交叉熵函数，λ控制干净样例和对抗样例的比重，α控制应标签和软标签的比重，

表示干净样例的软标签，

表示对抗样例的软标签。从(4)式可以注意到，本发明把对简单DNN的训练分成两部分，前面部分是干净样例的正常训练，后面部分是对抗训练，其中软标签部分分别是对分类知识和对抗知识的迁移。具体的训练步骤包括：

(5-1)按序从

中取出干净样例

从

中取出对应的对抗样例

(5-2)将

和

代入(4)式，计算L₂(θ)对θ的梯度

(5-3)更新θ：

其中η为学习率，本发明中设置为0.5；

(5-4)重复步骤(5-1)～(5-3)，直到L₂(θ)小于0.001；

(5-5)得到从大型DNN迁移对抗知识得到的简单DNNf_student(θ^*)。

综上所述，本发明的优点及积极效果为：

1)本发明提出的两阶段对抗知识迁移的方法，可以使简单神经网络获得与复杂网络接近的鲁棒性，较好的解决了依靠单纯对抗训练无法解决的简单网络的鲁棒性问题。

2)本发明提出的对抗萃取具有较好的算法收敛性，可以使简单网络模型性能和鲁棒性稳定提升并加快收敛，较好的解决了集成对抗训练中模型性能和鲁棒性的不稳定问题。

3)本发明通过两个实际的图像数据集MNIST和CIFAR-10，比较了多种方法，利用实验证明了本发明提出的方法对增加简单网络鲁棒性的有效性。

附图说明

图1是本发明实施例提供的两阶段对抗知识迁移的防御方法流程图。

图2是本发明实施例提供的对抗知识的迁移流程图。

图3中：图(a)是用自然训练方法学习决策边界；图(b)是由对抗性训练方法学习的决策边界。

图4是本发明实施例提供的在CIFAR-10和SGD算法下干净样例准确率示意图。

图5是本发明实施例提供的在CIFAR-10下和SGD算法下对抗样例准确率。

图6是本发明实施例提供的在CIFAR-10下和adam算法下干净样例准确率示意图。

图7是本发明实施例提供的在CIFAR-10下和adam算法下对抗样例准确率示意图。

图8是本发明实施例提供的在MNIST和SGD算法下干净样例准确率对比示意图。

图9是本发明实施例提供的在MNIST和SGD算法下对抗样例准确率对比示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明比原有的对抗训练方法可以训练得到鲁棒性更强的简单DNN，表3为本发明在CIFAR10数据集下得到的简单DNN与正常训练得到的、对抗训练得到的和集成对抗训练得到的相同的简单的DNN对比。类似的，表4为在MNIST数据集下的实验对比。实验对比说明本发明相比原有的方法可以得到鲁棒性更强的简单DNN。同时图4、图5为本发明与正常训练、集成对抗训练的训练过程对比图，图4、图5说明本发明相比正常训练可以得到鲁棒性更强的简单DNN，并且可以更快收敛。本发明的将对抗知识迁移到简单神经网络是过去研究中没有尝试过的，这对边缘计算中的对抗样例防御策略有良好的应用价值。

本发明实施例提供的一种两阶段对抗知识迁移的防御方法，提出对抗知识概念、两阶段对抗知识迁移以及同时使用两阶段对抗知识迁移的改进方法，在利用正常样例和对抗样例进行对抗训练时，加入经过对抗训练的大型复杂DNN对干净样例和对抗样例计算出的软标签，进行对抗萃取，实现对抗知识从数据向模型转移，复杂模型向简单模型的转移。

如图1所示，本发明实施例提供的两阶段对抗知识迁移的防御方法通过异构多源的对抗训练，先把对抗知识从数据迁移到大型DNN，完成第一阶段的对抗知识迁移；然后采用对抗样例的软标签，提出对抗萃取技术，把对抗知识从大型DNN迁移到简单DNN，实现第二阶段的对抗知识迁移。通过两阶段的对抗知识迁移，可以有效的把蕴含于数据和模型中的对抗知识迁移到边缘设备上的简单DNN，从而获得与大型DNN相当的防御能力。

具体包括以下步骤：

S101，从多个预训练DNN中生成对抗样例，形成多源对抗样例数据集。

S102，将干净样例数据集和多源对抗样例数据集合并，形成对抗训练集。

S103，将对抗训练集对复杂大型DNN进行训练，实现第一阶段对抗知识从数据向大型DNN的迁移。

S104，将干净样例数据集输入大型DNN，获得带软标签的干净样例数据集。

S105，将多源对抗样例数据集输入大型DNN，获得带软标签的对抗样例数据集。

S106，将上述两个带软标签的数据集合并，形成带软标的对抗训练集。

S107，利用带软标的对抗训练集对边缘设备上的简单DNN进行对抗训练，实现第二阶段对抗知识从大型DNN向简单DNN的迁移，使其获得与大型DNN相当的防御能力。

下面结合实施例对本发明作进一步描述。

实施例1

1、背景知识

1.1对抗样例与威胁模型

对抗样例广泛的存在于图像、语音、文本等数据中。以图像分类系统为例，图像对抗样例是一种在自然图像基础上，通过精心设计，可以巧妙地欺骗深度神经网络的非自然图像。本发明给出对抗样例的形式化定义：

对抗样例：设x正常的数据样例，y_true为x的正确分类标签，f(·)为机器学习分类器，F(·)为人类感知判断。存在扰动δ，使得f(x+δ)≠y_true，而F(x+δ)＝y_true，那么本发明称x′＝x+δ为对抗样例。

本发明把这种利用对抗样例欺骗分类器的攻击称为对抗攻击。对抗攻击的本质就是寻找对抗样例，通常把它建模为如下的优化问题：

min||δ||_p (1)

s.t.f(x+δ)≠y_true (2)

||δ||_p≤ε (3)

这里||·||_p表示L_p范数，ε是对扰动幅度的约束，表示对抗样例的强度，过大的扰动容易被人眼察觉。由定义1可知，对抗样例的目的是使分类器做出错误的预测，因此，根据错误预测的类标签不同，进一步分为有目标攻击和无目标攻击。

有目标攻击：假设攻击方希望对抗样例被明确的误分类到y_adv上，即f(x+δ)＝y_adv，y_adv≠y_true，那么本发明称这样的对抗攻击为有目标攻击。

无目标攻击：如果攻击方只要求x′＝x+δ被误分类，即f(x+δ)≠y_true，通常f(x+δ)＝m_iaxC_i，C_i为类y_i的置信度，y_i＝y_true，那么本发明称这样的对抗攻击为无目标攻击。

攻击目标和攻击能力的组合称为威胁模型。攻击能力是根据攻击方对目标模型掌握的信息的程度，分为白盒攻击和黑盒攻击。在白盒攻击下，攻击者知道模型的全部信息，包括模型的结构、参数和使用的训练数据等，因此也更难防御。黑盒攻击是假设攻击方几乎完全不知道目标模型的信息，因此黑盒攻击更容易实施。本发明的防御是针对深度神经网络的黑盒攻击。

1.2生成对抗样例的典型攻击方法

FGSM：Goodfellow等人提出一种快速生成对抗样例的方法，称FGSM(fastgradient sign method)：

其中J是损失函数，f是DNN，ε是对符号梯度方向sign(·)上的扰动限制。FGSM与复杂的优化方法L-BFGS相比，具有计算复杂度低，短时间内可产生大量对抗样例的优点。

Step-LL：FGSM是无目标攻击，Kurakin等人基于FGSM提出有目标攻击方法Step-LL(Single-Step Least-Likely Class Method)，即针对攻击目标类y_adv，最大化后验概率Pr(y_adv|x)：

(5)式与FGSM不同的是，代价函数内由原来的正确类别y变为攻击目标类y_adv。

I-FGSM：Kurakin等人进一步提出基于迭代的多步FGSM，又称I-FGSM：

与FGSM相比，I-FGSM的成功率增大，但计算复杂度也显著增加。

Iter-LL：当把单步的Step-LL改成多步迭代方法后，攻击成功率可达到99％以上，但计算复杂度也大幅增加：

1.3对抗萃取

经过对抗训练的大型复杂DNN输出的概率型置信度值蕴含着更多的对抗知识，将概率向量作为目标标签去训练简单DNN，可使简单DNN学习到复杂DNN的对抗防御知识。受化学中萃取技术启发，利用不同的温度，获得不同的物质。本发明利用Softmax函数获取不同温度下的类概率值q_i:

其中z_i表示第i类的logit值，T代表萃取温度，n为分类数。相对于传统上的独热编码(“硬标签”)，由(8)中得到所有类别的类概率值向量y^soft＝(q₁,q₂,...,q_n)被称为对抗样例“软标签”。利用复杂DNN上得到的对抗样例软标签对简单DNN进行训练，实现对抗知识的迁移。本发明对简单DNN进行训练的代价函数定义为：

J_student＝αJ(f(x；θ),y)+(1-α)J(f(x；θ),y^soft)T²) (9)

其中α取值范围为[0,1]，作为为权衡两种代价函数的权重，J(·)为交叉熵函数。由于y_soft产生的梯度为y产生梯度的1/T²，需要对y^soft为标签的代价函数乘上T²，这样保证了硬标签与软标签对计算梯度的贡献保持大致相同。

2、对抗知识迁移

机器学习的本质是从数据中获取知识，通过模型来表示知识。正常情况下，机器学习是从训练数据中获取分类或预测知识。但是对抗样例的出现，表明模型仅学习分类或预测知识是不够的，需要进一步学习对抗知识来增强模型的鲁棒性。

对抗知识：能够增强模型鲁棒性，防御对抗样例的知识，本发明把它称之为对抗知识。它有多种可能的蕴含形式，一种是以数据的形式蕴含，具体表现为对抗样例和硬标签对(x′,y)，另一种是以模型的形式蕴含，具体表现为决策边界f(x)及对抗样例和软标签对(x′,y^soft)。这里的软标签是指DNN经过Softmax层输出的概率置信度向量，经过DNN计算得到，因此蕴含了决策边界的信息。

对抗训练或对抗学习能够把蕴含在数据中的对抗知识迁移到模型中，目的是提高模型的鲁棒性和防御能力。研究表明模型越大、越复杂，对抗训练的效果越明显，防御抗对样例的能力越强。本发明通过实验也验证了这一结论：相同数据集的对抗训练，复杂网络的性能明显优于简单网络。由此可见，复杂网络比简单网络更利于学到对抗知识，一个重要的原因是复杂网络比简单网络具有更大的容量(Capacity)，或VC维。

考虑到边缘设备的存储和计算资源都有限，不适合部署复杂的DNN，需要更简单的神经网络，同时也要满足较高的鲁棒性。由于小型网络的容量有限，直接进行对抗训练的效果不佳，或者说对抗训练从数据集迁移对抗知识到模型的效率不够好，本发明提出了两阶段对抗知识迁移的技术实现从数据向复杂DNN迁移，再从复杂DNN向简单DNN高效迁移对抗知识的思路。

整个对抗知识的迁移流程如图2所示。首先通过FGSM算法将干净样例在本地预训练网络上生成对抗样例。为了获得差异性较大的样例，本发明采用多个本地网络生成对抗样例。然后将这些对抗样例与干净样例一起对复杂DNN进行对抗训练，实现对抗知识从数据到模型的迁移。最后将对抗样例和在复杂DNN上输出的置信度向量(软标签)与正常样例一起对简单DNN进行对抗训练，实现对抗知识从复杂DNN向简单DNN的迁移。上述过程可以简单的概括为两个阶段：(1)对抗知识从数据向复杂DNN的迁移，(2)再从复杂DNN向简单DNN的迁移。

2.1对抗知识从数据向模型迁移

对抗性样例的存在是因为模型的决策边界与训练和测试数据集中的样例之间的距离太小，从而使得微小的扰动就可以让对抗样例越过决策边界。利用对抗样例蕴含的对抗知识进行训练，可以找到一个合理地远离这些样例的边界。从图2中可以看出，对抗训练之后，决策边界发生了改变，与样例的间距变大。这与支持向量机(SVM)的最大间隔学习获得鲁棒性的原理是一致的。因此，对抗训练可以有效的把对抗知识从数据迁移到模型。对抗训练是一个关于鞍点的优化问题，可以把传统的ERM训练推广到鲁棒性训练。

对抗训练：假设(x,y_true)∈D为原始训练数据，在约束ε下可获得对抗样例x′＝x+δ，J(·)为损失函数，对抗训练是使用当前模型下最大化损失的对抗样例训练模型，同时满足最小化经验风险：

可以发现对抗训练是个鞍点问题，是一个内部最大化问题和一个外部极小问题的组合。内部最大化问题是找到损失最大的对抗样例。外部最小化问题是在某种对抗攻击下，寻找使对抗损失最小的模型参数。由此可见，对抗训练企图在模型精度和鲁棒性之间取得最佳平衡。

由于(10)式只是个理论模型，事实上要取得最优对抗样例的计算复杂度很高。由Hoffeding不等式可知，足够多的训练数据可以提高学习效率。因此，大量的对抗样例作为训练数据有利于从数据中迁移对抗知识。为此本发明采用简单高效的FGSM单步攻击方法生成对抗样例。(10)式变为如下的近似优化模型：

这里x′_FGSMFGSM方法生成的对抗样例。

如果对抗样例之间的差异性越大，那么将可以获得更加丰富的决策边界，从而提高对抗知识的转移率。由(4)式可知，FGSM生成对抗样例还依赖于具体的DNN模型，为此本发明通过多个不同的网络模型，获得差异性对抗样例。Tramèr等人也提出类似的集成对抗训练方法，生成对抗样例的模型与当前训练的模型分离，增大对抗训练的数据集，从而有效防御黑盒攻击。而本发明是从可学习理论出发，目的是获得更加丰富的对抗知识。如图3所示，N个DNNf₁，f₂，…，f_N用于生成对抗样例。给定一个干净样例x，本发明可获得N个对抗样例：

假设所有的干净样例组成集合D_c＝{(x₁,y₁),...,(x_M,y_M)}，由上述方法获得的所有的对抗样例组成集合D_a＝{(x′₁₁,y₁),...,(x′_1N,y₁),(x′₂₁,y₁),...,(x′_2N,y₂),...,(x′_MN,y_M)}，那么D_a蕴含了足量的对抗知识。本发明定义如下的损失函数进行对抗学习，实现对抗知识从数据集D_a向复杂DNNf_teacher的迁移：

其中J是交叉熵函数，λ控制对抗知识的比重。

2.2对抗知识从复杂模型向简单模型迁移

复杂模型由于具有更大的容量，因此可以最大限度地把对抗知识从数据中迁移到复杂模型。考虑到边缘设备需要简单的网络模型，直接从数据迁移对抗知识的效率比较低。经过对抗训练的复杂DNN输出的概率向量不仅蕴含着关于类分布的信息熵，也蕴含了模型决策边界的对抗知识。因此，利用对抗样例的软标签对可以更好地把复杂DNN已学到的对抗知识迁移到简单DNN。

对抗萃取：采用抗样例x′，从经过对抗训练的复杂DNN获得对应的软标签y^soft，再利用(x′,y^soft)对简单DNN进行训练，实现对抗知识从复杂模型向简单模型迁移的过程。

由图3所示，本发明已从前一阶段获得对抗样例集合D_a。利用1.3节的(8)式，选择合适的萃取温度T，本发明可以获得带软标签的对抗样例训练集

同时，本发明也可以获得带软标签的干净样例训练集

考虑到干净样例和对抗样例对于决策边界的影响不同，本发明采用不同的萃取温度。为此，本发明定义如下的风险函数对简单DNN进行训练：

其中J是交叉熵函数，λ控制干净样例和对抗样例的比重，α控制应标签和软标签的比重，

表示干净样例的软标签，

表示对抗样例的软标签。从(13)式可以注意到，本发明把对简单DNN的训练分成两部分，前面部分是干净样例的正常训练，负责对分类知识的迁移；后面部分是对抗训练，负责对抗知识的迁移。

3、实验证明

本发明提出的两阶段对抗知识迁移是有效的。第一阶段可以通过对抗训练从数据迁移对抗知识到模型，第二阶段可以通过知识萃取从模型迁移对抗知识到模型。相比于常规的的对抗训练，本发明提出的方法训练出的简单DNN模型性能得到提升，可以获得更强的鲁棒性。同时实验发现集成对抗训练随机性较大，在训练后期无法稳定提升性能，加入知识萃取后起到正则化作用，可以使训练过程加快收敛。

将知识萃取和对抗训练结合，迁移神经网络的对抗知识是过去研究中没有尝试过的，这对对抗样例的防御策略有一定的参考价值。两阶段的对抗知识迁移结合在一起是提升模型鲁棒性的有效方法，也是获得鲁棒性强的简单模型的有效方法。

3.1实验评估

3.1.1数据集和模型设置

CIFAR-10数据集是带有复杂背景的物体分类数据集，它共包含10个类别，为飞机、鸟、猫等。每个图像为大小32×32的RGB图像。数据集有5万张训练图像，1万张测试图像。CIFAR-10使用随机裁剪和随机水平翻转进行数据增强，并根据数据集的平均值和方差对输入图像进行归一化。

MNIST是一个被广泛应用于机器学习性能测试的手写体数据集，它共包含10个类别，分别为类别0至类别9。每个图像为大小为28×28的灰度图像。数据集有5万张训练图像，1万张测试图像。

实验采用的DNN为不同层数的Resnet，通道大小设置为16、32和64。复杂DNN使用Res26，简单DNN使用Res8。使用SGD算法训练模型，mini-batch大小置为256。在MNIST数据集训练20个epoch，在CIFAR-10数据集训练80个epoch。学习率从0.1开始，迭代到最大epoch的1/2时下降到0.01，迭代到最大epoch的3/4时下降到0.001。实验中使用的动量为0.9，权重衰减为0.0001。对抗训练时，对抗样例和干净样例的数量各占mini-batch大小的一半，使用正常训练的Res26、Res20、Res14和Res8作为本地模型生成FGSM对抗样例进行对抗训练，对抗样例强度ε＝16/256。为了提高实验的可靠性，在相同条件下进行了50次重复实验，并显示了结果的平均值。

目前还没有在简单网络上进行对抗训练的研究。本发明以当前对抗训练效果最好的集成对抗训练方法为比较基准进行对比实验。为便于表达，本发明用网络和训练集组合的表示方式来描述实验配置，如Res8(clc)表示Res8网络上用干净样例训练，Res8(dist-clc)表示从干净样例训练的Res26中萃取得到Res8，Res8(adv)表示直接在Res8上对抗训练，Res8(dist-adv)表示从对抗训练过的Res26中萃取得到Res8。

3.1.2对抗知识迁移的有效性

为了证明对抗知识迁移的有效性，本发明分别采用(1)直接用对抗样例对抗训练Res26和Res8；(2)利用本发明提出的两阶段对抗知识转移的方法训练Res8。首先本发明用干净样例训练Res26和Res8，分别得到Res26(cln)和Res8(cln)，实现正常分类知识从数据向复杂模型和简单模型的迁移；用(12)式对抗训练另外的Res26和Res8，λ取0.5，分别得到Res26(adv)和Res8(adv)，实现对抗知识从数据向复杂模型和简单模型的迁移。然后，利用萃取技术分别对得到的两个Res26进行知识迁移，依照经验设置萃取温度T为3。对于Res26(cln)和Res26(adv)，α取0.1，萃取得到Res8(dist-cln)和Res8(dist-adv)。这里需要注意的是，Res8(dist-adv)是采用干净样例的软标签从Res26(adv)萃取得到。

为实现本发明的二阶段对抗知识迁移，本发明采用(13)式进行对抗训练，依照经验设置超参数，T₁设置为3，T₂设置为5，α取0.1，λ取0.5，得到Res8(adv-trans)。与Res8(dist-adv)不同的是，Res8(adv-trans)的萃取包含对抗样例的软标签。最后，实验使用在另一个预训练的Res26网络上生成的FGSM、I-FGSM、Step-LL、Iter-LL对抗样例对以上模型进行黑盒攻击，对抗样例强度ε＝16/256。各个模型在CIFAR-10干净样例和对抗样例上的分类准确率如表1所示。本发明同样在MNIST数据集下进行了上述重复实验，结果如表2所示。

表1 CIFAR-10数据集的分类准确率

表2 MNIST数据集分类准确率

观察表1、表2可得：

(1)比较两个表中没有经过对抗训练的Res26(cln)、Res8(cln)，和经过对抗训练的Res26(adv)，Res8(adv)，可以发现对抗训练可以显著的增强对抗样例的防御能力。以MNIST上的FGSM对抗样例为例，Res26(clc)的分类准确率从99.56％下降到25.56％，而Res26(adv)只从99.3％下降到98.95％。因此，不管复杂模型还是简单模型，对抗训练都可以将对抗知识从数据迁移到模型上。

(2)Res26(adv)是经过对抗训练的复杂DNN，Res8(dist-adv)是通过干净样例的软标签从Res26(adv)萃取得到。本发明比较各种对抗样例攻击下的分类准确率，发现Res8(dist-adv)显著高于没有经过对抗训练的Res8(cln)，也高于从未经对抗训练的Res26(cln)萃取得到的Res8(dist-cln)。尽管Res8(dist-adv)并没有直接经过对抗训练，也即没有从数据中迁移对抗知识，但是利用复杂DNN已经获得的对抗知识，通过一般的知识萃取也能一定程度上实现对抗知识的迁移，从而提高了防御能力。

(3)比较Res8(adv)和Res8(adv-trans)，前者采用对抗样例对简单网络进行直接训练，以在CIFAR-10上的FGSM对抗样例为例，准确率为74.62％，而Res8(adv-trans)的准确率为75.68％。比较CIFAR-10上的I-FGSM、Step-LL和Iter-LL对抗样例，本发明提出的两阶段知识转移获得的Res8(adv-trans)均比直接进行对抗训练的Res8(adv)高出平均1％的准确率。但在MNIST数据集上，本发明发现I-FGSM和Iter-LL对抗样例反而还是Res8(adv)略高，这可能的原因是MNIST中的手写体相对来说比较简单，Res26和Res8之间的差异性不是很大，因此本发明提出的两阶段对抗知识迁移和一般对抗训练差别不大。

(4)本发明进一步比较Res8(dist-adv)和Res8(adv-trans)，前者采用干净样例进行常规的知识萃取，而后者采用本发明提出的对抗萃取。以CIFAR-10上的FGSM对抗样例为例，Res8(dist-adv)的准确率仅为38.30％，而Res8(adv-trans)可达75.68％。在I-FGSM、Step-LL和Iter-LL对抗样例上的结果也是Res8(adv-trans)的准确率明显高于Res8(dist-adv)，由此可以证明，对于简单网络而言，本发明提出的两阶段对抗知识迁移获得对抗知识要远高于一般的知识萃取。

综上所述，不管是直接对Res8进行对抗训练，还是直接从Res26中进行萃取，本发明提出的两阶段对抗知识迁移与它们相比，均具有更好迁移对抗知识的能力。

3.1.3鲁棒性评估

对抗知识迁移的目的是为了提高简单网络的鲁棒性。为了比较一般的对抗训练与两阶段对抗知识迁移在鲁棒性上的不同效果，本发明分别训练了4类不同的Res8网络。其中Res8(cln)是仅用干净样例训练的Res8网络，作为比较的基准模型；Res8(self-adv)是用FGSM算法在Res8(cln)上生成的对抗样例，再对Res8(cln)进行对抗训练得到的简单网络；Res8(adv)是FGSM在多个不同的Res8网络上获得的对抗样例，再训练Res8(cln)得到的简单网络；Res8(adv-trans)是本发明的两阶段对抗知识迁移获得的简单网络。

为了测试这些简单网络的鲁棒性，本发明用FGSM算法在Res26、Res20、Res16及Res8网络上生成对抗样例，分别表示为FGSMRes26、FGSMRes20、FGSMRes16和FGSMRes8。表3、表4记录了这4类对抗样例在不同简单网络上的分类准确率。

表3 CIFAR-10数据集上不同模型的分类准确率

表4 MNIST数据集上不同模型的分类准确率

观察表3、表4，面对各类FGSM对抗样例，可以明显发现没有对抗知识防御的Res8(cln)网络分类准确率最低，最低达7.47％，也即鲁棒性最差。Res8(self-adv)的鲁棒性在黑盒攻击下表现远低于Res8(adv)和Res8(adv-trans)，这与以往研究的结论相同，说明在训练的模型上生成对抗样例进行对抗训练并不能有效增加模型鲁棒性。相比于Res8(adv)，本发明提出的改进算法训练出的Res8(adv-trans)在各种对抗样例上的准确率都较高，说明本发明提出的改进算法在没有增加对抗样例的数量和类型的前提下，迁移复杂DNN对抗知识到简单DNN模型，是可以增加模型的鲁棒性，提升对黑盒攻击的防御能力的。表4也有类似的结果。

本发明提出的改进算法训练出的模型在不同类型的对抗样例也具备更强的防御能力。比较上述四个模型在不同类型的对抗样例的准确率，Clean表示干净样例，FGSM、step-LL、I-FGSM、Iter-LL表示由这些方法在Res26模型上生成的对抗样例，对抗样例强度ε＝16/256，其中I-FGSM和Iter-LL迭代次数k为5次，步长大小d为ε/5，表5和表6为两个数据集下的比较结果。

表5 CIFAR-10不同类型对抗样例的准确率

表6 MNIST不同类型对抗样例的准确率

观察表5和表6可得，Res8(adv-trans)在各种类型的对抗样例的准确率均高于Res8(adv)和Res8(self-adv)，说明本发明提出的改进算法是有效的，值得注意的是由I-FGSM生成的多步对抗样例在黑盒攻击下表现较差，例如表5在经过对抗训练的Res8(self-adv)、Res8(adv)和Res8(adv-trans)的准确率和干净样例的相近，由Iter-LL生成的多步对抗样例与I-FGSM表现类似，这符合以往工作指出的多步对抗样例比单步对抗样例转移性差，不适合用于黑盒攻击的结论。

3.1.4训练过程收敛性分析

为了进一步比较集成对抗训练和本发明提出的改进算法，训练Res8模型时，每经过1个epoch对测试样例进行测试，记录其准确率，并以横纵标epoch、纵坐标准确率绘制成图，用来比较集成对抗训练和本发明提出的改进算法的训练过程，并以正常训练模型的训练过程作为基准，使用SGD算法训练，具体训练设置与3.1.2节相同。图4为在CIFAR-10下测试样例是干净样例的测试结果对比，图5为在CIFAR-10下测试样例是由Res26生成的对抗样例的测试结果对比。

由图4可以看出，从第42个epoch开始，基准模型训练和本发明的方法已进入稳定阶段，可以认为是收敛到一个较稳定的局部最优状态。对照集成对抗训练，始终处于一个随机抖动状态，显然这对于模型的可用性是不利的。分析其中的原因，对抗样例起到了负面影响。集成对抗训练采用多个不同模型产生的对抗样例，因此这些对抗样例在空间中表现出各向异性，而对于训练过程而言，增加了随机性。而这种随机性又使得训练过程无法稳定在某个局部最优点，从而有可能从这个最优点逃逸，进入一个性能更差的区域。在本发明的图像上就呈现出上下抖动的不稳定过程。本发明的两阶段方法，则采用了软标签训练的对抗萃取。萃取具有更好的正则化效果，因此本发明的对抗训练会在一个更光滑的误差曲面上进行，从而具有更好的收敛稳定性。从图3，本发明也看出对于干净样例的分类准确率，正常训练要高于集成对抗训练和对抗萃取，所以鲁棒性的增强也是以牺牲分类准确性为代价的。

与图4不同的是，图5是用对抗样例测试训练过程。可以发现，随着训练迭代的进行，集成对抗训练与本发明的方法使得Res8模型的鲁棒性越来越好，但本发明的方法更稳定的收敛，且分类准确率高于集成对抗训练。采用干净样例训练的Res8模型随着训练迭代次数的增加，对对抗样例的分类准确率越来越低，但也逐步趋于收敛稳定状态。由此本发明可以得出结论，本发明的方法和干净样例训练都具有良好的收敛性。另外，从图4也发现了一个重要规律，用干净样例训练的越好的模型，其鲁棒性反而越差。

为了排除优化算法对模型训练的影响，在CIFAR-10数据集下以Adam算法训练网络进行重复实验，Adam算法超参数设置为Adam默认的，其它训练设置与上述相同，实验结果如图6、图7所示。

观察图6、图7可得，在Adam优化算法下，集成对抗训练的随机性大的缺点仍然存在，说明集成对抗训练随机性大、无法快速收敛的缺点无法通过使用一些基础的优化算法克服。从图中可以明显看出，使用本发明提出的改进算法的模型仍比集成对抗训练算法的性能强，并且可以较为稳定的提升性能。

在Mnist数据集下进行重复实验，也存在类似的结果，结果如图8、图9所示。

观察图8、图9可得，在MNIST数据集下，集成对抗训练的随机性大的缺点虽然不如在CIFAR-10数据集下明显，但仍然存在，本发明提出的改进算法训练更加稳定。但与在CIFAR-10数据集下结果不同的是，集成对抗训练算法在干净样例上的准确率高于本发明提出的改进算法约1％，但本发明提出的改进算法在干净样例的准确率仍高于98％，并且在对抗样例上准确率可达到97％，比集成对抗训练算法训练出的高3％左右。本发明提出的改进算法牺牲在干净样例不到1％的准确率以提升在对抗样例上约3％的准确率是可以接受的。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种两阶段对抗知识迁移的防御方法，其特征在于，所述两阶段对抗知识迁移的防御方法通过异构多源的对抗训练，先把对抗知识从数据迁移到大型DNN，完成第一阶段的对抗知识迁移；然后采用对抗样例的软标签，提出对抗萃取技术，把对抗知识从大型DNN迁移到简单DNN，实现第二阶段的对抗知识迁移。

2.如权利要求1所述的两阶段对抗知识迁移的防御方法，其特征在于，所述两阶段对抗知识迁移的防御方法具体包括：

(1)从多个预训练深度神经网络中生成对抗样例，形成多源对抗样例数据集；

(2)将干净样例数据集和多源对抗样例数据集合并，形成对抗训练集；

(3)将对抗训练集对复杂大型DNN进行训练，实现第一阶段对抗知识从数据向大型DNN的迁移；

(4)将干净样例数据集输入大型DNN，获得带软标签的干净样例数据集；

(5)将多源对抗样例数据集输入大型DNN，获得带软标签的对抗样例数据集；

(6)将上述两个带软标签的数据集合并，形成带软标的对抗训练集；

(7)利用带软标的对抗训练集对边缘设备上的简单DNN进行对抗训练，实现第二阶段对抗知识从大型DNN向简单DNN的迁移，使其获得与大型DNN相当的防御能力。

3.如权利要求2所述的两阶段对抗知识迁移的防御方法，其特征在于，步骤(1)中通过多个预训练DNN上执行FGSM算法；输入干净样例

其中f(x；θ)为其中一个预训练DNN，J(·)为交叉熵函数；在多个预训练DNN上重复获得对抗样例x′过程，形成多源对抗样例数据集D_a；

所述FGSM生成对抗样例还依赖具体的DNN模型，通过多个不同的预训练DNN，获得差异性对抗样例，N个预训练DNNf₁，f₂，…，f_N用于生成对抗样例；给定干净样例x，获得N个对抗样例：

所有的干净样例组成集合D_c＝{(x₁,y₁),...,(x_M,y_M)}，由获得的所有的对抗样例组成集合D_a＝{(x′₁₁,y₁),...,(x′_1N,y₁),(x′₂₁,y₁),...,(x′_2N,y₂),...,(x′_MN,y_M)}，则D_a蕴含足量的对抗知识。

4.如权利要求2所述的两阶段对抗知识迁移的防御方法，其特征在于，步骤(3)中，所述对抗知识从数据向模型迁移包括：

对抗训练：假设(x,y_true)∈D为原始训练数据，在约束ε下可获得对抗样例x′＝x+δ；对抗训练是使用当前模型下最大化损失的对抗样例训练模型，满足最小化经验风险：

其中λ控制对抗知识的比重。

5.如权利要求4所述的两阶段对抗知识迁移的防御方法，其特征在于，步骤(3)中，具体的训练步骤包括：

(3-2)将(x,y)和(x′,y)代入(3)式，计算L₁(θ)对θ的梯度

(3-3)更新θ：

其中η为学习率，设置为0.5；

(3-4)重复步骤(3-1)～(3-3)，直到L₁(θ)小于0.001；

(3-5)得到从数据中获得对抗知识的大型DNNf_teacher(θ^*)。

6.如权利要求2所述的两阶段对抗知识迁移的防御方法，其特征在于，步骤(3)、步骤(7)中对抗知识包括：第一类，对抗样例和硬标签对(x′,y)；第二类，决策边界f(x)及对抗样例和软标签对(x′,y^soft)；所述软标签包括：DNN经过Softmax层输出的概率置信度向量，其经过DNN计算得到，蕴含决策边界信息。

7.如权利要求2所述的两阶段对抗知识迁移的防御方法，其特征在于，步骤(4)中，对于所有的干净样例(x,y)∈D_c，选择合适的萃取温度T₁，计算