CN110647918A

CN110647918A - 面向深度学习模型对抗攻击的拟态防御方法

Info

Publication number: CN110647918A
Application number: CN201910790333.1A
Authority: CN
Inventors: 陈晋音; 王雪柯; 郑海斌; 林翔
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2020-01-03
Anticipated expiration: 2039-08-26
Also published as: CN110647918B

Abstract

面向深度学习模型对抗攻击的拟态防御方法，包括以下步骤：1)准备对抗样本；2)训练对抗样本检测器；3)检测对抗样本；4)防御对抗扰动，具体包括主动防御对抗扰动、被动防御对抗扰动。本发明避免了手动提取特征及划分像素块的弊端，简化了流程；提高了训练效率；提高了数据更新的速度及准确率；提高了数据处理的效率。

Description

面向深度学习模型对抗攻击的拟态防御方法

技术领域

本发明涉及一种对抗攻击的拟态防御方法。

背景技术

深度学习是人工神经网络的一个分支，具有深度网络结构的人工神经网络是深度学习最早的网络模型。目前，深度学习已经广泛应用于机器视觉、视频识别、图像理解、人脸识别、体感识别、自然语言处理、语音识别、无监督学习、迁移学习以及其他商业领域，而且取得了一系列突破性成果。例如，机器视觉已经成功应用于汽车、医学以及航空等行业，UX/UI、汽车、安保、物联网等行业使用了语音识别，未来无论是学术界还是工业界，深度学习都将作为研究应用的焦点进一步发展。

然而随着深度学习模型在图像识别及攻防上的广泛应用，深度学习的抗干扰能力也逐渐成为人们关注的重点。无论是训练数据本身还是算法设计都存在着潜在的安全隐患，而且各存在的安全隐患是不确定的，各种攻击可能会随着时间及不同攻击方法的改变而有所差异，该类隐患会使得基于该类算法的应用存在安全问题，例如自动驾驶目标检测错误将造成车祸，医疗影像识别错误将对病人造成巨大影响，安全监控无法准确识别从而警报故障等。然而目前所提出的有关防御的方法都是针对被攻击后的模型采取防御，包括优化防御速度，还有就是通过多个检测器对样本进行协同免疫。然而这些方法都无法让模型自动的根据检测到的扰动随时做出防御，更不能在时间上优先于扰动从而使外加攻击对样本不起作用。目前，我国已有专利所涉及的防御领域主要有网络安全、电力系统、物联网、恶意代码、家庭安全、大数据分析的APT监测以及机器学习的xss防御等，而面向图像识别防御领域的研究则比较少。已有防御方法包括：使用检测器判断样本是否异常并作出判断，具体可参考专利“一种基于LSTM检测器的对抗攻击防御方法(专利号：2018101412736)”；训练不同结构的样本分类器，并用遗传算法进行优化，具体参考专利“面向多种对抗图片攻击的协同免疫防御方法(专利号：201810299225X)”；还有就是利用FaceNet模型、LSTM网络和AlexNet模型提取获得微表情特征并与脸部特征拼接获得最终脸部特征，根据人脸库中存储的人脸标签确定该最终脸部特征对应的人脸标签达到准确的人脸识别，有效地防御图像对抗攻击；也有基于扰动进化对图像分类器对抗性攻击的防御方法；“一种人工智能图像辨识攻击防御方法、系统及存储介质(专利号：201810223174.2)”中使用了监视器端和服务器端并还原成原始目标图像，快速判断图像目标的真伪性。这些方法针对性很强，但并不具有普适性，图像领域的防御仍有很大发展空间。

在自然界中，拟态现象(Mimic Phenomenon,MP)是指一种生物如果能够在色彩、纹理和形状等特征上模拟另一种生物或环境，从而使一方或双方受益的生态适应现象。按防御行为分类可将其列入基于内生机理的主动防御范畴，又可称之为拟态伪装(MimicGuise,MG)。如果这种伪装不仅限于色彩、纹理和形状上，而且在行为和形态上也能模拟另一种生物或环境的拟态伪装，则定义为“拟态防御”(Mimic Defense,MD)。受此启发，人们已经将其应用到了网络空间安全领域，并提出主动防御理论(CMD)，为应对网络空间中基于未知漏洞、后门或病毒木马等的未知威胁。网络拟态安全最初是由邬江兴院士提出，邬江兴院士带领团队自主研制“网络空间拟态防御成套设备和系统”并有了成果，拟态防御原理是从内层结构带来的一种免疫能力的提升，以异构冗余可靠性技术架构为基础，通过导入基于拟态伪装策略的多维动态重构机制，建立动态异构冗余的拟态系统构造，产生一种内生的“测不准”效应。而深度学习在图像识别上的准确性问题在一定程度上也是环境变量。

发明内容

本发明要克服现有技术的上述缺点，提出面向深度学习模型对抗攻击的拟态防御方法。

为了抵御深度学习中存在的多种类型的对抗扰动，本发明提出了面向深度学习模型对抗攻击的拟态防御方法，包括主动防御和被动防御。当深度模型受到攻击，本方法采用混合GRU和编解码器架构用于检测图像样本中的对抗扰动。然后可根据攻击类型选取事先训练好的被动模型快速高效的达到防御效果。本发明也提供了另外一种方法，主动防御，在防御模型中加入变量扰动，攻击到达的时候我们的模型已经检测到并做出了扰动参数改动，而攻击做出响应的时候已经不是最初攻击的模型参数了，从而攻击无效，达到拟态防御效果。

为了识别各种新型攻击，减少对新型攻击的训练时间，提高攻击的防御效果，本发明提出一种面向深度学习模型对抗攻击的拟态防御方法，包括主动和被动防御方法。我们提出的被动防御方法可以随时调节，图像被添加对抗扰动之后再对原来搭建好的模型更改参数使其达到最佳防御效果。而对于主动防御只需要先给防御的深度模型加一个随对抗扰动变化的扰动变量，就可以达到良好的防御效果，而不需要考虑攻击模型变化而使原来防御方法失效，不需要重新训练整个模型，从而使得算法应用更加灵活，具有普适性。

本发明解决其技术问题所采用的技术方案是：

面向深度学习模型对抗攻击的拟态防御方法，包括以下步骤：

1)准备对抗样本；

对训练数据集使用多种攻击方法生成对抗样本S，采用的生成对抗样本方法有FGSM、JSMA、迭代计算法以及图像旋转等等。将使用不同攻击方法生成的对抗样本分批保存，攻击模型用A表示。

2)训练对抗样本检测器，过程如下：

2.1)将每个对抗样本分成8×8个互相没有交叉和重叠的图像块(batch)，并为补丁提取重采样特征，然后将从图像中提取的重采样特征按顺序输入到GRU网络中；

2.2)本发明使用卷积层来设计编码器，对原图进行编码过滤，每个编码器的基本构建块使用卷积、池、和激活函数。为每个编码器使用剩余单元，剩余块使用无参连接。编码器中的每个剩余单元生成一组特征映射。本发明在每个卷积层使用批量标准化。批处理归一化对协方差漂移具有较强的鲁棒性。本发明选择Relu激活函数max(0,x)用在每个剩余单元的末尾来减小特征图的大小；

2.3)将2.1)的特征映射经两层卷积与原图经2.2)输出的特征值进行融合。再采用解码器对上一层学到的特征图进行上采样，然后进行卷积运算和批处理归一化。解码器网络采3×3大小的内核，本发明的解码器在第一层和第二层分别使用64和16个特征图。最后，利用两幅热图对解码器网络末端的操纵类和非操纵类进行了预测。在网络的最后，我们得到了更精细的空间图表示，他显示了图像中被攻击的区域。

3)检测对抗样本；

3.1)将用于检测的图片x输入到对抗样本检测器即1)中的模型，根据最终输出结果判断是否有对抗扰动；

3.2)根据检测结果，对样本进行分类；计算分类样本x被分成各类的次数，将被分类结果次数最多的类型作为图像检测的分类结果，即CL(x)＝max{n(cl₁),n(cl₂),...,n(cl_n)}，其中CL(x)检测样本的分类结果，n(cl₁)表示检测样本被判为第1类攻击的次数，cl₁表示被分为1类。

4)防御对抗扰动，具体如下：

4.1)主动防御对抗扰动；

4.1.1)首先是选取模型，本发明选用AlexNet模型，AlexNet模型的一个优点是使用了LRN创新层，局部响应归一化借鉴侧抑制的思想实现局部抑制，使得响应比较大的值相对更大，提高了模型的泛化能力。LRN只对数据相邻区域做归一化处理，不改变数据的大小和维度。AlexNet还应用了Overlapping(重叠池化)，在fc6、fc7全连接层引入了dropout的功能。

4.1.2)对卷积层使用的过滤器参数进行调整，使用wⁱ _x,y,z来表示对于输出单位节点矩阵的第i个节点，过滤器输入节点(x,y,z)的权重，使用bⁱ表示第i个输出节点对应的偏置项参数，单位矩阵中第i个节点的取值g(i)为：

其中a_x,y,z为过滤器中节点(x,y,z)的取值，f为激活函数。

为使该模型有自动防御功能，本发明对权重wⁱ _x,y,z加上一个扰动S，A为wⁱ _x,y,z的权重，S为扰动变量，加扰动后单位矩阵中第i个节点的取值g′(i)为：

其中A指定值为0.5，S为扰动变量，根据检测到对抗样本的变化而自动调整，对新型攻击方法同样适用。

4.1.3)输出层采用全连接层，输出为y₁,y₂,y₃,...,y_n，然后经softmax回归处理之后再输出，softmax函数为：

其中，yi为经过全连接层的输出值。

4.2)被动防御对抗扰动；

若被检测图像存在被添加扰动的倾向，则对检测器参数进行更改。给GRU网络添加扰动，并使用正则化使结果更平滑，同时外加Fast R-CNN模型并对模型进行优化。此时整个网络的损失函数包括两部分L_cls和L_loc,分别对应分类的损失和回归的损失。分类的输出是q(q₀,q₁,......,q_n),共n个类，回归的输出是一个四元组

分类的损失和回归的损失分别为：

L_cls(q,u)＝-log qu (4)

其中u是真实类别，v是真实的平移缩放参数，q为分类的输出，z^u是回归的输出。

本发明通过给FastR-CNN模型添加扰动减小损失来达到有效防御。加扰动之后的输出为：

f_i(x_i,θ_i)＝x_i-θ_i+log²(ax_i+bθ_i) (6)

其中x_i[x₁,x₂,......,x_k]为输入图像像素值，θ_i[θ₁,θ₂,......,θ_k]是输出像素值，a和b为训练得到的优化参数。

根据攻击方法的不同将被动防御模型进行优化，最终训练出多种防御方法，以备再次抵御后续攻击时使用，参数修改便捷。同时要训练主动防御，在大量各种攻击下测试主动防御的准确率，保证达到最优结果。

本发明的技术构思为：基于图像检测与识别的拟态防御方法，首先对输入图像分成多个小块(patch)，然后逐个像素的去观察这些小块，获取重采样特征值，再由GRU单元输出生成特征映射，并经过两层卷积神经网络之后与原始图像通过编码器的特征值映射进行融合，最后再进行解码操作，通过输出有扰动痕迹的图像得出图像是否被攻击。这里编码器有残差块、批处理归一化和激活函数组成，如果受到攻击则可通过两种方法进行防御。第一种是主动防御，主要采用AlexNet模型加随对抗扰动变化的扰动变量，来抵御各种类型的攻击，从而实现高效的自动抵抗多种类型攻击的防御功能。第二种是被动防御，在时间上该防御是落后于对抗扰动的，具有可调性，需要对被攻击的深度模型给定优化参数。

本发明的有益效果主要表现在：1)使用卷积神经网络提取图像特征，并将图像分成64个batch，充分发挥了深度学习的优势，避免了手动提取特征及划分像素块的弊端，简化了流程；2)相比常用的LSTM，使用四层GRU网络处理图像特征能够达到相当的效果，并且相比之下更容易进行训练，能够很大程度上提高训练效率。3)主动防御使用了AlexNet模型，包含8层可学习层，提高了数据更新的速度及准确率。4)采用编码器降低图像处理过程中数据量大的弊端，提高了数据处理的效率，采用的编码过滤器能够使算法在更大、更全面的层次上考虑整个图像的情况。

附图说明

图1是本发明方法的流程图。

图2是本发明方法的检测算法结构框。

图3是本发明方法的主动防御框图。

图4是本发明方法的被动防御框图。

具体实施方式

下面结合附图对本发明作进一步描述。

1)随机取部分正常图片输入到多种攻击模型A，生成有对抗扰动的图片，即对抗样本s。本发明以cifa10数据集为例，采用的生成对抗样本方法有FGSM、JSMA、迭代计算法以及图像旋转等等。将使用不同攻击方法生成的对抗样本分批保存。

2)训练对抗样本检测器，过程如下：

2.1)将每个对抗样本分成8×8个互相没有交叉和重叠的图像块(batch)，并为补丁提取重采样特征，然后将从图像中提取的重采样特征按顺序输入到GRU网络中。算法结构图如图2所示，在GRU网络中，我们使用2个堆叠层和64个时间步长，在最后一层，每一步都得到一个64维向量，然后将GRU网络生成的向量投影到N_f特征映射中。用

表示第l^th个步长生成的特征向量，为了得到输出O_l，本发明引入了一个权矩阵

从F_l变换到F_l′，向量F_l′为：

F_l′＝F_l·W_l+B_l (1)

其中，B_l是带N_f维的偏置，F_l和F_l′是权矩阵W_l的两种状态。

2.2)使用编码器主要是设计一个有效的结构，为像素级篡改区域分割。我们使用卷积层来设计编码器，每个编码器的基本构建块使用卷积、池、和激活函数。为每个编码器使用剩余单元，剩余块使用无参连接。假设剩余单位的输入是y，单位从输入到输出的映射是T(y)，在正向传递中，剩余单元的输出为T(y)+y。在每个卷积层中，我们使用核大小为3×3×d，d为滤波器的深度。本发明对网络中的不同层使用不同的深度。本方法分别在编码器的构架的第一层、第二层、第三层和第四层使用了23、64、128和256个特征映射。编码器中的每个剩余单元生成一组特征映射。我们在每个卷积层使用批量标准化。批处理归一化对协方差漂移具有较强的鲁棒性。我们选择Relu激活函数max(0,x)用在每个剩余单元的末尾来减小特征图的大小。

2.3)将2.1)的特征映射经两层卷积与原图经2.2)输出的特征值进行融合。再采用解码器对上一层学到的特征图进行上采样，然后进行卷积运算和批处理归一化。解码器网络采用3×3大小的内核，本方法的解码器在第一层和第二层分别使用64和16个特征图。最后，利用两幅热图对对解码器网络末端的操纵类和非操纵类进行了预测。在网络的最后，本方法得到了更精细的空间图表示，他显示了图像中被攻击的区域。

3)检测对抗样本；

3.2)根据检测结果，对样本进行分类；计算分类样本x被分成各类的次数为，将被分类结果次数最多的类型作为图像检测的分类结果，即CL(x)＝max{n(cl₁),n(cl₂),...,n(cl_n)}，其中CL(x)检测样本的分类结果，n(cl₁)表示检测样本被判为第1类攻击的次数，cl₁表示被分为1类；

4)防御对抗扰动，具体如下：

4.1)主动防御对抗扰动；

4.1.1)首先是选取模型，如图3所示，本发明选用AlexNet模型，有5个卷积层和3个全连接层组成，除了第八层全连接层之外都使用了Relu激活函数，AlexNet模型的一个优点是使用了LRN创新层，局部响应归一化借鉴侧抑制的思想实现局部抑制，使得响应比较大的值相对更大，提高了模型的泛化能力。LRN只对数据相邻区域做归一化处理，不改变数据的大小和维度。AlexNet还应用了Overlapping(重叠池化)，在fc6、fc7全连接层引入了dropout的功能。

其中a_x,y,z为过滤器中节点(x,y,z)的取值，f为激活函数。

为使该模型有自动防御功能，本发明对权重wⁱ _x,y,z加上一个扰动S，A为wⁱ _x,y,z的权重，加扰动后单位矩阵中第i个节点的取值g′(i)为：

其中A为wⁱ _x,y,z的权重，S为扰动变量，A和S的值根据检测到对抗样本的变化而自动调整。

4.1.3)输出层采用全连接层，输出为y₁,y₂,y₃,...,y_n，然后经softmax回归处理之后输出：

其中，yi为经过全连接层的输出值。

4.2)被动防御对抗扰动；

若被检测图像存在被添加扰动的倾向，则对检测器参数进行更改。给GRU网络添加扰动，结构框图如图4所示，并使用正则化使结果更平滑，同时外加Fast R-CNN模型并对模型进行优化。此时整个网络的损失函数包括两部分L_cls和L_loc,分别对应分类的损失和回归的损失。分类的输出是q(q₀,q₁,......,q_n),共n个类，回归的输出是一个四元组

分类的损失和回归的损失分别为：

L_cls(q,u)＝-log qu (5)

本发明通过给Fast R-CNN模型添加扰动减小损失来达到有效防御。加扰动之后的输出为：

f_i(x_i,θ_i)＝x_i-θ_i+log²(ax_i+bθ_i) (7)

训练好的基于GRU网络的检测模型有很高精确度，可直接检测并可视化出被攻击部分。本发明的防御方法提供了两种，主动防御方法的模型可以自动调节参数已达到期望防御结果，被动防御则比较灵活，只需要改变设置好的参数。因此，本发明基本上可以防御各有已经存在的和未来可能会出现的各种类型的攻击。

本说明书所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.面向深度学习模型对抗攻击的拟态防御方法，包括以下步骤：

1)准备对抗样本；

对训练数据集使用多种攻击方法生成对抗样本S，采用的生成对抗样本方法有FGSM、JSMA、迭代计算法以及图像旋转等等；将使用不同攻击方法生成的对抗样本分批保存，攻击模型用A表示；

2)训练对抗样本检测器，过程如下：

2.2)使用卷积层来设计编码器，对原图进行编码过滤，每个编码器的基本构建块使用卷积、池、和激活函数；为每个编码器使用剩余单元，剩余块使用无参连接；编码器中的每个剩余单元生成一组特征映射；在每个卷积层使用批量标准化；批处理归一化对协方差漂移具有较强的鲁棒性；选择Relu激活函数max(0,x)用在每个剩余单元的末尾来减小特征图的大小；

2.3)将2.1)的特征映射经两层卷积与原图经2.2)输出的特征值进行融合；再采用解码器对上一层学到的特征图进行上采样，然后进行卷积运算和批处理归一化；解码器网络采用3×3大小的内核，第一层和第二层分别使用64和16个特征图；最后，利用两幅热图对解码器网络末端的操纵类和非操纵类进行了预测；在网络的最后，得到了更精细的空间图表示，显示了图像中被攻击的区域；

3)检测对抗样本；

3.2)根据检测结果，对样本进行分类；计算分类样本x被分成各类的次数，将被分类结果次数最多的类型作为图像检测的分类结果，即CL(x)＝max{n(cl₁),n(cl₂),...,n(cl_n)}，其中CL(x)检测样本的分类结果，n(cl₁)表示检测样本被判为第1类攻击的次数，cl₁表示被分为1类；

4)防御对抗扰动，具体如下：

4.1)主动防御对抗扰动；

4.1.1)首先是选取模型，选用AlexNet模型，AlexNet模型的一个优点是使用了LRN创新层，局部响应归一化借鉴侧抑制的思想实现局部抑制，使得响应比较大的值相对更大，提高了模型的泛化能力；LRN只对数据相邻区域做归一化处理，不改变数据的大小和维度；AlexNet还应用了重叠池化Overlapping，在fc6、fc7全连接层引入了dropout的功能；

其中a_x,y,z为过滤器中节点(x,y,z)的取值，f为激活函数；

为使该模型有自动防御功能，给权重wⁱ _x,y,z加上一个扰动S，A为wⁱ _x,y,z的权重，S为扰动变量，加扰动后单位矩阵中第i个节点的取值g′(i)为：

其中A指定值为0.5，S为扰动变量，根据检测到对抗样本的变化而自动调整，对新型攻击方法同样适用；

其中，yi为经过全连接层的输出值；

4.2)被动防御对抗扰动；

若被检测图像存在被添加扰动的倾向，则对检测器参数进行更改；给GRU网络添加扰动，并使用正则化使结果更平滑，同时外加Fast R-CNN模型并对模型进行优化；此时整个网络的损失函数包括两部分L_cls和L_loc,分别对应分类的损失和回归的损失；分类的输出是q(q₀,q₁,......,q_n),共n个类，回归的输出是一个四元组

分类的损失和回归的损失分别为：

L_cls(q,u)＝-logqu (4)

其中u是真实类别，v是真实的平移缩放参数，q为分类的输出，z^u是回归的输出；

通过给FastR-CNN模型添加扰动减小损失来达到有效防御；加扰动之后的输出为：

f_i(x_i,θ_i)＝x_i-θ_i+log²(ax_i+bθ_i) (6)