CN110674938B

CN110674938B - 基于协同多任务训练的对抗攻击防御方法

Info

Publication number: CN110674938B
Application number: CN201910774081.3A
Authority: CN
Inventors: 陈晋音; 陈若曦; 郑海斌
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2021-12-21
Anticipated expiration: 2039-08-21
Also published as: CN110674938A

Abstract

本发明公开了一种基于协同多任务训练的对抗攻击防御方法，1)训练五个结构相似的图像分类模型；2)取数据集中第i类图片调用五种无目标攻击生成对抗样本；3)将每一类的5种对抗样本输入对应的模型中，统计得到最难攻击的目标类y_robust；4)双通道结合，对三个置信度层和三者之间的梯度锁定结构进行协同多任务训练，检测并防御对抗样本。该抗攻击防御方法对黑盒和迁移性攻击的防御性能较好，通过双通道和三层置信度层协同多任务训练同时完成检测对抗样本和防御对抗攻击。

Description

基于协同多任务训练的对抗攻击防御方法

技术领域

本发明属于攻击防御领域，具体涉及一种基于协同多任务训练的对抗攻击防御方法。

背景技术

计算机视觉是深度学习实现突出成就的领域。从图像分类到物体目标检测、文字识别，它的成功被广泛证明。

然而，深度模型容易受到对输入的对抗性操作而出现误判断。这些添加在输入中的对抗性扰动非常小，并不能被人眼察觉到，但是已经足以改变模型的判断。在图像分类方面，对抗性攻击有L-bfgs，FGSM(Fast Gradient Sign Method)，BIM，C&W，Deepfool，PGD等几种典型方法。同时，对抗样本也具有迁移性，同一输入会被不同结构的模型同时误判断。

在自动驾驶、人脸识别、监控分析等对安全性要求较高的场合，对抗性攻击都可能存在，这对社会和网络的私密性、完整性和可用性造成极大的潜在危害。所以，防御对抗性攻击尤为重要。Goodfellow等人将对抗样本加入训练集，用对抗性训练来加强模型对于攻击的鲁棒性。Dziugaite等人将对抗样本进行压缩，在上采样过程中部分滤除对抗性扰动，使模型重新判断正确。Papernot等人提出了防御蒸馏来修改深度模型的参数，以抵御小规模的对抗性扰动。Prakash等人利用基波变换的像素偏转方法，对对抗样本重新分配像素值并去除噪声，使图片的类标得到恢复。Akhtar等人在原始模型中添加一个经过训练的单一网络，在不调整系数的情况下，使深度模型获得抵御由普遍扰动引起的攻击的能力。

但是，现有技术中至少存在以下缺点和不足：

(1)这些防御措施只能做到对抗样本的防御，而不能判断输入图片是否为对抗样本。

(2)这些方法在面对黑盒攻击时，经常不能取得较好的效果。

(3)对于可迁移的攻击，这些防御方法会遭到破坏。

发明内容

为了克服已有防御方法不能检测图片是否为对抗样本、对黑盒攻击防御效果欠佳的不足，本发明提供一种能同时识别并防御对抗样本且对黑盒攻击有较好防御效果的基于协同多任务训练的对抗攻击防御方法。

本发明解决其技术问题所采用的技术方案是：

一种基于协同多任务训练的对抗攻击防御方法，包括以下步骤：

利用FGSM，IGSM，JSMA，C&W l₂，Deepfool五种攻击方法对每类原始图像进行攻击处理，获得针对每类原始图像的五种对抗样本，将这五种对抗样本分别对应输入至五个图像分类模型中，输出5组预测置信度数列；

对每组预测置信度数列中预测置信度按照降序排序后，将预测置信度对应的图像类标记为一个类标数列；

统计5个类标数列中，图像类标出现次数最小的类标即为最难攻击类标，这样针对每张原始图像会有唯一一个正常类标和唯一一个最难攻击类标，且正常类标和最难攻击类标是一一对应关系；

选择图像分类模型中的任意一个作为预测分类器，将预测分类器的输出并行连接第一置信度层和第二置信度层，第一置信度层和第二置信度层之间连接有第一梯度锁定器，第一置信度层和第二置信度层的输出分别连接第一softmax和第二softmax，形成检测通道；将原始图像和对抗样本作为预测分类器的输入，以原始图像的正确类标和最难攻击类标作为预测分类器的输出，预测输出和真实输出的交叉熵作为损失函数，对检测通道进行训练；

将预测分类器的输出连接第三置信度层，第三置信度层与第二置信度层之间连接有第二梯度锁定器，第三置信度层的输出连接有第三softmax，形成防御通道，将对抗样本作为输入，将对抗样本的正确类标作为输出，以预测输出和真实输出的交叉熵作为损失函数，对防御通道进行训练；

将待检测样本输入至训练好的检测通道中，经比较预测输出与最难攻击类标的对应关系，确定待检测样本为对抗样本；

将对抗样本输入至训练好的防御通道中，经计算输出对抗样本的正确类标，以实现对待检测样本的防御。

本发明中，利用多种攻击方法攻击原始图像获得多种对抗样本，利用对图像分类模型获得对抗样本的置信度，挑选对抗样本置信度对小的那类图像类标作为图像的最难攻击类标，以此构建原始图像的正确类标与最难共计类标的对应关系，该对应关系是后续检测阶段，判断对抗样本的依据。根据该对应关系可以检测待测样本是否为对抗样本。

优选地，所述利用FGSM，IGSM，JSMA，C&W l₂，Deepfool五种攻击方法对每类原始图像进行攻击处理，获得针对每类原始图像的五种对抗样本包括：

对于FGSM，对抗样本

为：

其中，

为第i种原始图像，

为原始图像的正确标签，

为模型M的预测输出，模型M为CNN模型，L(·)为损失函数Loss，

表示对图像x求导，sgn(·)表示符号函数，ε为控制扰动大小的超参数；

对于IGSM，对抗样本

为：

其中，

表示第j次迭代生成的对抗样本，

表示第j-1次迭代输入的第i类的原始图像，

表示第j-1次迭代生成的对抗样本，clip_ε(·)表示clip函数，将函数值限定在扰动ε范围内，α表示步长，一般设为1；

对于JSMA，对抗样本

为：

根据输入实例计算神经网络输出的前向导数，然后利用对抗性显著性图来决定需要被加入扰动的关键像素点，并对这些关键像素点增加扰动，得到的对抗样本记为

对于C&W l₂，对抗样本

为：

其中，ρ为增加扰动，D(·)为带有二范数的距离矩阵，c为权重参数，对抗样本

即为

对于Deepfool，对抗样本

为：

将扰动反复迭代直至图片被误判断，即获得抗样本

每次迭代中对图像的修改计算公式为：

其中，r_i为在图像上增加的扰动，

本发明中，通过设置第一梯度锁定器和第二梯度锁定器，能够在训练检测通道时，实现多多任务协同训练，同时学习原始图像和对抗样本的特征，以使训练好的检测通道能够准确识别对抗样本和原始图像。

优选地，所述第一梯度锁定器和第二梯度锁定器为至少两个依次连接的全连接层，第一梯度锁定器的输入为第二置信度层的输出，第一梯度锁定器用于对第二置信度层的输出进行全连接操作，并对全连接操作结果和第一置信度层的输出进行相乘，以实现梯度协同；与第一梯度锁定器相同，第二梯度锁定器的输入为第二置信度层的输出，第二梯度锁定器用于对第三置信度层的输出进行全连接操作，并对全连接操作结果和第二置信度层的输出进行相乘，以实现梯度协同。

本发明中，在训练检测通道时，损失函数为：

其中，J(·,·)为交叉熵函数，J(·,·)为反交叉熵函数，

为类标为i的原始图像，

为原始图像的正确类标，

为原始图像的对抗样本，y_robust为原始图像的最难攻击类标，α、β以及γ为权重参数，进一步地，权重参数α＝β＝0.4，γ＝0.2。

在训练防御通道时，损失函数为：

其中，J(·,·)为交叉熵函数，

为原始图像的正确类标，

为原始图像的对抗样本。

本发明的技术构思为：基于协同多任务训练的对抗攻击防御方法，同时完成对对抗样本的防御和对抗攻击的防御，对黑盒和迁移性较强的攻击具有较好的防御效果。首先训练5个结构相似的模型，输入某一类的图片调用五种无目标攻击生成5种对抗样本，利用五个模型统计出该类图片最难被攻击的类标。取一个模型三个不同置信度层和两两之间的梯度锁定装置进行协同多任务训练，第一通道作为检测通道取前两个置信度层，利用正常类标和最难攻击的类标一一对应的原则判断输入图像是否为对抗样本，第二通道作为防御通道使用第三置信度层，得到对抗样本对应的正确类标。

与现有技术相比，本发明具有有益效果为：

由于梯度锁定和协同多任务训练的存在，该方法对黑盒和迁移性攻击的防御性能较好。结合多通道使本发明能完成对对抗样本的检测并输出对抗样本的正确类标。在真实图像数据集上的实验结果表明，该算法具有良好的适用性和准确率，能够有效检测对抗样本，对对抗攻击有良好的防御效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是最难攻击类标y_robust的计算过程示意图；

图2是基于协同多任务训练的对抗攻击防御方法整体框架示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

参照图1～图2，一种基于协同多任务训练的对抗攻击防御方法，包括以下步骤：

1)训练5个结构相似的深度模型M₁M₂……M₅作为图像分类模型。

将训练集和测试集图片大小初始化至长宽相同的正方形作为输入。模型结构上，M₁～M₅为卷积神经网络，在结构上，第一层的卷积大小相同，模型深度和dropout层数量依次增加。学习率都设为0.001，batchsize设为100。模型识别准确率高于95％时停止训练并保存模型。

以MNIST数据集为例，M₁至M₅的模型结构如表1所示：

表1

2)系列对抗样本的生成

步骤2)的具体过程为：

2.1)在数据集中取出第i类的原始图片a张，其对应类标为

即

其中M(x)表示模型M对输入x的输出。

2.2)用FGSM，IGSM，JSMA，C&W l₂，Deepfool等5种无目标攻击方法生成5种不同的对抗样本

攻击算法如下公式：

对于FGSM，对抗样本

为：

其中，

为第i种原始图像，

为原始图像的正确标签，

为模型M的预测输出，M模型为CNN模型，L(·)为损失函数Loss，

表示对图像x求导，sgn(·)表示符号函数，ε为控制扰动大小的超参数，可以为0.1；

对于IGSM，对抗样本

为：

其中，

表示第j次迭代生成的对抗样本，

表示第j-1次迭代输入的第i类的原始图像，

表示第j-1次迭代生成的对抗样本，clip_ε(·)表示clip函数，将函数值限定在ε范围内，α表示步长，一般设为1；

对于JSMA，对抗样本

为：

对于C&W l₂，对抗样本

为：

即为

c为大于0的常数。

对于Deepfool，对抗样本

为：

将扰动反复迭代直至图片被误判断，即获得抗样本

每次迭代中对图像的修改计算公式为：

其中，r_i为在图像上增加的扰动，

3)最难攻击类标y_robust的获取，具体流程如图1所示。

步骤3)的具体过程为：

3.1)将每一类的5种对抗样本输入对应的模型M1～M5中，取出每个softmax层的输出置信度数列，将其按照递减顺序排列得到{logits_n}。将logits_n所对应的类标记成一个数列{a_n}，即a_n＝argmax(logits_n)。

3.2)统计5个模型的5个数列{a_n}，按照类标出现的次数多少降序排列。出现次数最少的类标就是最难攻击的目标类y_robust。每一张正常样本输入，都有正确类标

和唯一对应的最难攻击类标y_robust，

和y_robust两个类标也呈一一对应关系。

4)双通道结合，检测并防御对抗样本，过程如图2所示。

4.1)第一通道作为检测通道检测对抗样本

4.1.1)模型M₁有两个置信度层Z₁和Z₂，输入正常样本的训练集，两者同时进行训练，同时也使用对抗样本对模型进行正则化。训练的loss函数为：

J(·,·)为交叉熵函数，在训练时，α＝β＝0.4，γ＝0.2。当输入为对抗样本时，

是反交叉熵函数，使y_robust的loss函数最大化。

4.1.2)置信度层Z₁和Z₂之间连接有梯度锁定器G1。梯度锁定器G1包括两个全连接层，使Z₁和Z₂保持非线性关系。置信度层Z₂是梯度锁定器G的输入，梯度锁定器G将置信度层Z₁和梯度锁定器G的输出相乘。本发明中使用良性训练数据集对体系结构进行训练，协同学习并通过FGSM的梯度对它进行正则化。训练过程采用步骤4.1.1)，即采用损失函数J₁进行训练。

4.1.3)将对抗样本和正常样本同时输入给模型M₁，取M₁的置信度层Z₁和Z₂。Z₁经过softmax后的值用来计算模型输出与

之间的loss函数。已知

则与

对应的y_robust也已知。经过softmax后的Z₂值被用来计算模型输出与y_robust之间的loss函数。

当输入为正常样本时，

与y_robust将继续保持对应关系。当输入为对抗样本时，

保持不变，但是y_robust发生变化，两者之间的对应关系受到破坏。通过判断

与y_robust之间的关系，就能检测输入的图片是否为对抗样本。

4.2)第二通道作为防御通道防御对抗性攻击

4.2.1)用

和

对M₁的第三个置信度层Z₃进行训练，训练的loss函数为

Z₂和Z₃之间也有梯度锁定器G2，训练方法如步骤4.1.2)。

4.2.2)当输入图片被检测为对抗样本时，该对抗样本将进入第二通道。由于Z₃由对抗样本及其对应的正确类标进行训练，它的输出经过softmax就是对应的正确类标

输入对抗样本，输出正确类标，模型完成了对对抗攻击的防御。

应用例

上述对抗攻击防御方法可以应用到恶性图片的防御。即原始图像为恶性图片，对抗样本为对恶性图片增加扰动后形成的对抗样本。

恶性图片是指包含有色情、暴力的色情暴力图片，这些恶性图片在受到上传者的对抗性扰动操作后，不能被分类器识别成恶性图片，在网上得到传播。

应用时，针对恶性图片采用FGSM生成能够成功欺骗分类器的对抗样本，生成过程下：

ρ表示扰动大小，ε为控制扰动大小的参数，sign(·)为符号函数。Loss(θ,x_i,l)表示模型的损失函数，

表示对x求导，θ是模型参数，x_i表示输入的图片，l表示结果的类标。

然后，把对抗样本和恶性图片的正常样本按随机比例混合，输入到基于协同多任务训练的对抗攻击防御方法中，经过第一通道，模型能识别出正常样本和对抗样本。识别出的对抗样本经过第二通道后，模型输出他们对应正常样本的类标。这些类标都是恶性类标，对抗样本于是被分类器识别成恶性图片，从而阻止其在网上传播。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于协同多任务训练的对抗攻击防御方法，包括以下步骤：

利用FGSM，IGSM，JSMA，C&Wl₂，Deepfool五种攻击方法对每类原始图像进行攻击处理，获得针对每类原始图像的五种对抗样本，将这五种对抗样本分别对应输入至五个图像分类模型中，输出5组预测置信度数列；

2.如权利要求1所述的基于协同多任务训练的对抗攻击防御方法，其特征在于，所述第一梯度锁定器和第二梯度锁定器为至少两个依次连接的全连接层，第一梯度锁定器的输入为第二置信度层的输出，第一梯度锁定器用于对第二置信度层的输出进行全连接操作，并对全连接操作结果和第一置信度层的输出进行相乘，以实现梯度协同；与第一梯度锁定器相同，第二梯度锁定器的输入为第二置信度层的输出，第二梯度锁定器用于对第三置信度层的输出进行全连接操作，并对全连接操作结果和第二置信度层的输出进行相乘，以实现梯度协同。

3.如权利要求2所述的基于协同多任务训练的对抗攻击防御方法，其特征在于，在训练检测通道时，损失函数为：