CN111754519B

CN111754519B - 一种基于类激活映射的对抗防御方法

Info

Publication number: CN111754519B
Application number: CN202010465617.6A
Authority: CN
Inventors: 陈晋音; 上官文昌; 沈诗婧
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2024-04-30
Anticipated expiration: 2040-05-27
Also published as: CN111754519A

Abstract

本发明公开了一种基于类激活映射的对抗防御方法，包括如下步骤：S1、通过梯度上升方法建立使预测模型中神经元激活值最大化的对比图像集；S2、基于待测图像的类激活映射图定位判定区域；S3、基于二值化算法计算待测图像判定区域和相同标签对比图像判定区域的不一致度；S4、判断待测图像是否带有扰动，若不一致度大于阈值则待测图像带有对抗扰动，反之，为正常图像；S5、移除待测图像中的对抗扰动。本发明所述对抗防御方法通用性高，可抵抗不同的对抗攻击，数据处理成本低，提高了防御效率。

Description

一种基于类激活映射的对抗防御方法

技术领域

本发明属于对抗防御领域，具体涉及一种基于类激活映射的对抗防御方法。

背景技术

近几年来，深度学习在计算机视觉、语音识别、强化学习等机器学习领域取得了重大突破，在视频识别、图像分类、视频抓取等视觉领域中有极高的性能。但在取得这些成功的同时，深度神经网络被发现容易受到对抗扰动(被恶意设计并添加到输入数据中)的攻击，这种攻击被称为对抗攻击。深度神经网络容易受到对抗攻击的这一特点引起了广泛的担忧。根据研究结果表明，即使是一个很小的、在人的视觉感知上难以区分的扰动也很容易导致模型出现灾难性的错误预测。例如，在自动驾驶中，停车标志可能会被深度神经网络误认为是限速标志。恶意软件可能会躲避过深度神经网络的检测。在使用人脸识别进行身份验证时，未经授权的人可以通过欺骗深度神经网络来完成身份验证。

对抗攻击是通过生成对抗样本来实现的，即在良性样本上添加复杂的扰动，以使深度神经网络将对抗样本分类为目标标签(目标攻击)或是错误标签(非目标攻击)，而不是良性样本的正确标签。对抗攻击根据攻击者能否获取深度神经网络的相关信息被分为两类：黑盒攻击和白盒攻击。在黑盒攻击中，攻击者不能获取深度神经网络的结构和参数等相关信息，只能通过查询和观察网络的输出来进行攻击。在白盒攻击中，攻击者可以得到深度神经网络的完整信息(例如，网络的结构和权重参数)。白盒方法根据对抗性梯度的方向，迭代地改变扰动，将一个干净的测试样本变成对抗性样本。对抗性梯度是损失函数的梯度，其定义通常是为了最大化深度模型的分类错误。但是，在黑盒环境下，攻击者无法获取对抗性梯度。在这种情况下，攻击者需要通过攻击本地代理模型，然后将这些攻击转移到目标模型从而实现对抗攻击。或者，他们可以使用诸如有限差分或自然进化策略等黑盒优化方法来估计梯度，从而实现对抗攻击。

为了减轻对抗性攻击的影响，最近已经提出了各种防御方法。这些可以大致分为两类：(1)被动防御，在测试期间修改输入，使用图像变换等方法来降低对抗性扰动的影响。(2)主动防御，通过改变深度模型的基础架构或学习过程，例如通过添加更多的层、集成/对抗训练或改变损失/激活函数。主动防御通常更受重视，因为在白盒攻击中，它们提供了相对更好的健壮性。但是，目前大多数提出的方法主要都是针对电子攻击，没有涉及到现实世界的物理攻击。另外，他们只专注于消除来自输入的显式扰动图片，或者他们只是应用了多个CNN进行交叉验证。所有这些方法都有一些缺点：他们找不到一种通用的防御方法论，不能抵抗不同的对抗攻击，缺乏多样性。另外，他们在消除干扰时引入了大量的数据处理成本，这大大增加了方法的计算成本，严重影响了防御效率。

发明内容

为了克服现有技术的上述缺点，本发明提供了一种基于类激活映射的对抗防御方法，通过比较待测图像与同类标签对比图像的主要激活源的不一致度，以此判断待测图像是否为对抗样本。

本发明解决所述技术问题所采用的技术方案是：

一种基于类激活映射的防御方法，包括以下步骤：

S1、通过梯度上升方法建立使预测模型中神经元激活值最大化的对比图像集；

S2、基于待测图像的类激活映射图定位判定区域；

S3、基于二值化算法计算待测图像判定区域和相同标签对比图像判定区域的不一致度；

S4、判断待测图像是否带有扰动，若不一致度大于阈值则待测图像带有对抗扰动，反之，为正常图像；

S5、移除待测图像中的对抗扰动。

所述基于待测图像的类激活映射图定位判定区域，具体如下：

S21、建立定位模型，所述定位模型与预测模型的区别在于将预测模型中softmax层的上一层改为大小为(1，1，c)的全局平均池化层；

S22、将全局平均池化层的上一卷积层输出的特征图记为(h，w，c)，全局平均池化层的各通道权重w_n分别等于特征图中各通道特征的平均数，其中h，w，c分别表示特征图的长度，宽度和通道总数；

S23、将特征图(h，w，c)对应的热力图经过全局平均池化层池化后，得到该待测图像的类激活映射图CAM，计算公式如(3)所示：

式中，w_n表示全局平均池化层第n层的权重值，f_n表示第n通道特征图的热力图；

S24、将类激活映射图叠加到待测图像上，选取高亮区域为判定区域。

步骤S2解决了卷积层输出的特征图大小与待测图像大小不同这一问题，因为经过深度模型的图像经过卷积层不可避免地会出现长度宽度变小，通道数增加的情况，为了准确定位激活源，故在这里通过类激活映射图，使其与输入图像的大小相等，再进行叠加，确定待测图像的判定区域，即哪块区域决定了预测模型的预测结果。

将激活值按照由低到高通过固定映射关系映射到颜色由蓝到红组成的热力图，其中，固定映射关系为激活值与颜色的波长形成的对应关系，颜色由蓝到花是指按照光谱颜色分布的蓝、青、绿、黄、橙、红。所述高亮区域为热力图中除了蓝色之外的所有区域。

与现有技术相比，本发明具有如下有益效果：

(1)本发明所述对抗防御方法通用性高，可抵抗不同的对抗攻击。

(2)本发明所述对抗防御方法数据处理成本低，提高了防御效率。

附图说明

图1为本发明所述对抗防御方法的流程图。

图2为本发明的所述对图像进行2D快速傅里叶变换和二值化示例图，图2中2D FFT为2D快速傅里叶变换。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

S1、通过梯度上升方法建立使预测模型中神经元激活值最大化的对比图像集。

S11、选取图像集，从图像集中随机选取标签为l的图像x；

S12、将图像x输入预测模型，计算图像x在预测模型第i层中第j个神经元的激活值a_i,j和激活值梯度并根据式(1)对图像x进行像素迭代更新；

公式中，x′为迭代更新后的图像，x为输入的图像，η为迭代步长；

S13、重复执行S12，直到迭代次数达到预设值得到最终图像x^*，此时神经元激活值a_i,j达到最大，并将该最终图像x^*作为标签为l的对比图像，以此构建对比图像集。

本实例中所述的预测模型为依次连接的卷积层、池化层、卷积层、池化层、全连接层、softmax层。

S2、基于待测图像的类激活映射图定位判定区域。

判定区域是对预测模型输出的预测结果起到关键作用的像素位置。

S23、将特征图的热力图每一层与其对应的权重相乘后再相加，即可得到该输入图像的类激活映射图CAM，计算公式如(3)所示：

S3、基于二值化算法计算待测图像判定区域和相同标签对比图像判定区域的不一致度。

理论上，若二者有很大的相似性，那么基本可以判定该待测图像为正常图像，反之，若二者具有较大的不一致度，可以判定待测图像带有对抗扰动的。

S31、将待测图像输入预测模型，输出为标签为l；

S32、裁剪待测图像的判定区域作为图像I_test；裁剪标签为l的对比图像的判定区域作为图像I_creat；

快速傅里叶变换是离散傅里叶变换应用在计算机中的一种快速算法。整个过程可以简单概括为：首先对图像的每一行做一维快速傅里叶变换，然后对每一列做一维快速傅里叶变换。具体来说，先对第0行的每个像素点做快速傅里叶变换，将变换后输出的实部放回原来第0行的实部，输出的虚部放回第0行的虚部。这样计算玩全部行之后，用相同的方法进行列方向上的快速傅里叶变换。经过上述2D快速傅里叶变换后，原来的输入图像会变为一张傅里叶频谱图像，是一张灰度图像，这里通过频谱图像来比较两张图像的相似性。

S33、将图像I_test和图像I_creat进行2D快速傅里叶变换得到傅里叶频谱灰度图像；

本实施例采用大律法二值化，通过统计整个图像的直方图特性来实现全局阈值的自动选取，主要是利用最大类间方差，将图像分为前景和背景两个部分。因方差是灰度分布均匀性的一种度量，方差值越大,说明构成图像的两部分差别越大，当部分目标错分为背景或部分背景错分为目标都会导致两部分差别变小，因此使类间方差最大的分割意味着错分概率最小。具体步骤如下：

a)首先计算待测图像和对比图像的直方图，将图像所有的像素点按照0-255共256个像素等级，统计落在每个等级的像素点数量；

b)归一化直方图；

c)设置T表示分类的阈值，从0开始迭代，像素值在0-T灰度级范围的像素叫做前景像素，像素值在T-255灰度级范围的像素叫做背景像素；

d)通过归一化的直方图，统计前景像素所占整幅图像的比例a₀，并统计前景像素的平均灰度u₀；统计背景像素所占整幅图像的比例a₁，并统计背景像素的平均灰度u₁；

e)计算前景像素和背景像素的方差，计算公式如式(4)所示：

g＝a₀*a₁*(u₀-u₁)² (4)；

式中，a₀表示前景像素所占整幅图像的比例，a₁表示背景像素所占整幅图像的比例，u₀表示前景像素的平均灰度，u₁表示背景像素的平均灰度；

f)将灰度级阈值T的等级加1，转到步骤d)直到T为256时结束迭代；

g)将前景像素和背景像素的方差最大时对应的灰度级阈值T作为全局阈值二值化图像。

S34、对步骤S33中得到的傅里叶频谱灰度图像进行二值化操作得到二值化图像；

S35、计算两张二值化图像的不一致度。计算公式如式(5)所示：

其中，P_test表示待测图像的二值图像，P_creat表示与待测图像同一标签的对比图像的二值图像，|P_test∩P_creat|表示P_creat和P_test中像素值都为1的像素个数；|P_test∪P_creat|表示P_creat像素值为1和P_test像素值为1的并集中的像素个数。

图2中分别展示了图像I_test和I_creat经过快速傅里叶变换后和二值化后的效果图。

S4、判断待测图像是否带有扰动，若不一致度大于阈值则待测图像带有对抗扰动，反之，为正常图像。

S41、人为设定一个阈值λ，通过比较λ和不一致度，判断输入图像是否为对抗样本；

S42、将步骤S3中得到的不一致度与阈值λ比较，若不一致度大于阈值则待测图像带有对抗扰动，反之，为正常图像。

S5、移除待测图像中的对抗扰动。

S51、获取步骤S4中检测到的带有对抗扰动的待测图像，良性样本无需进行图像恢复，直接输入模型预测即可；

S52、移除对抗扰动，为减轻计算复杂度，节省时间成本，在对抗扰动处进行中值滤波。对抗扰动中的每个像素会被以其为中心的九宫格中所有像素的中值替换。

本实施例中选取cifar10数据集，分为训练集与测试集，建立对比图像集。训练集50000张图像，测试集20000张图像，其中10000张为用LanCe攻击生成的对抗样本。通过最大化神经元激活值来生成图像。迭代步长设置为0.001，迭代次数设置为20，Cifar10数据集中所有的类都用来生成一张图像组成对比图像集。然后利用类激活映射定位输入图像的激活源(判定区域)。输入图像输入预测模型，预测结果为l。从对比图像集中选取标签l的图像。将两张图像进行2D快速傅里叶变换和大律法进行二值化，计算两张图像的不一致度。设置不一致度阈值为λ为0.5，将不一致度与阈值比较，判断输入图像是否为对抗样本。若为对抗样本，则通过中值滤波，采用3*3模板对对抗扰动处像素进行滤波。

该防御方法的性能评价指标为对抗样本的检测准确率acc_D和分类模型的分类准确率acc_R，具体公式如下：

式(6)中，在检测输入图像是否为对抗样本时，n_D表示检测正确的样本，N_D表示检测的样本量。式(7)中，恢复图像后，n_R表示分类模型分类正确的样本数量，N_R表示分类的样本量。

Claims

1.一种基于类激活映射的对抗防御方法，其特征在于，包括如下步骤：

S2、基于待测图像的类激活映射图定位判定区域，包括：

S23、将特征图(h，w，c)对应的热力图经过全局平均池化层池化后，得到该待测图像的类激活映射图CAM，计算公式如(1)所示：

S24、将类激活映射图叠加到待测图像上，选取高亮区域为判定区域；

S5、移除待测图像中的对抗扰动。

2.根据权利要求1所述的基于类激活映射的对抗防御方法，其特征在于，所述的预测模型包括卷积层，池化层、全连接层和softmax层。

3.根据权利要求2所述的基于类激活映射的对抗防御方法，其特征在于，所述的预测模型包括依次连接的m个特征提取层、全连接层和softmax层依次连接，所述的特征提取层为依次连接的卷积层和池化层。

4.根据权利要求1所述的基于类激活映射的对抗防御方法，其特征在于，所述通过梯度上升方法建立使预测模型中神经元激活值最大化的对比图像集，具体如下：

S11、选取图像集，从图像集中随机选取标签为l的图像x；

S12、将图像x输入预测模型，计算图像x在预测模型第i层中第j个神经元的激活值a_i,j和激活值梯度并根据式(2)对图像x进行像素迭代更新；

5.根据权利要求1～4任意一项所述的基于类激活映射的对抗防御方法，其特征在于，所述基于二值化算法计算待测图像判定区域和相同标签对比图像判定区域的不一致度，具体如下：

S31、将待测图像输入预测模型，输出为标签为l；

S35、计算两张二值化图像的不一致度，计算公式如式(3)所示：

6.根据权利要求5所述的基于类激活映射的对抗防御方法，其特征在于，所述二值化算法为大律法二值化、灰度平局值法或百分比阈值法。

7.根据权利要求6所述的基于类激活映射的对抗防御方法，其特征在于，所述大律法二值化包括如下步骤：

b)归一化直方图；

e)计算前景像素和背景像素的方差，计算公式如式(4)所示：

g＝a₀*a₁*(u₀-u₁)² (4)

式中，u₀表示前景像素的平均灰度；

8.根据权利要求1所述的基于类激活映射的对抗防御方法，其特征在于，所述移除对抗扰动为在对抗扰动处进行中值滤波。