CN114969728B

CN114969728B - 一种基于热力图的神经网络攻击方法

Info

Publication number: CN114969728B
Application number: CN202210628270.1A
Authority: CN
Inventors: 刘浩瀚; 左兴权; 黄海; 陈浩杰
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2024-06-07
Anticipated expiration: 2042-06-06
Also published as: CN114969728A

Abstract

本发明提供了一种基于热力图的神经网络攻击方法，属于人工智能安全技术领域。本发明方法包括：利用要对抗攻击的神经网络模型对输入图像分类，获得图像对于类别的热力图；根据热力图和选取阈值获取二值化矩阵，矩阵中取值为1的区域为重要区域；采用单次攻击或迭代攻击生成对抗样本；单次攻击方式下，添加一次扰动来生成对抗样本；迭代攻击方式下，每次迭代添加一次扰动，逐步生成对抗样本，总体扰动会更小。本发明方法解决了目前全局攻击中扰动过大，易被人眼识别的不足，使得生成的对抗样本更加高效，经实验证明，在成功率相似的前提下，本发明方法的扰动范数大小、峰值信噪比和结构相似度衡量指标相比现有全局方法均有显著提升。

Description

一种基于热力图的神经网络攻击方法

技术领域

本发明属于人工智能安全技术领域，具体涉及一种基于热力图的神经网络攻击方法。

背景技术

目前，随着人工智能的发展，神经网络在各领域的运用越来越广泛。由于深度神经网络本身的不可解释性和脆弱性，其模型的部署也带来了一定的安全隐患。对抗攻击(Adversarial Attack)是针对深度模型预测和决策阶段的一种攻击方法，可以在不改变模型结构和参数的基础上对输入添加扰动从而干扰模型判断结果。近年来，对抗攻击是目前人工智能领域的研究热点，旨在发现深度神经网络模型的弱点，提高模型鲁棒性。

目前，许多研究者已经提出了多种基于白盒的对抗样本生成方法，主要思路为根据损失函数获取模型的梯度信息，并在梯度方向添加扰动，例如经典方法FGSM(Fastgradient sign method)、I-FGSM(Iterative fast gradient sign method)、PGD(Projected Gradient Descent)、MI-FGSM(momentum iterative fast gradient signmethod，MIM)等。

基于梯度的白盒攻击方法具有优秀的攻击性能，然而其一般具有较大的扰动，易被人眼所察觉，其原因为这些攻击方法在全局添加扰动，未考虑扰动冗余的问题。因此，需要结合扰动区域大小与攻击效果，设计出低扰动的局部对抗样本生成方案。

发明内容

针对上述现有全局攻击的不足，本发明根据在图片领域每个像素点对于模型决策的影响程度是不同的这一思想，提供了一种基于热力图的神经网络攻击方法(SalienceMap-based Local Adversarial Attack，简称SMLAA)，SMLAA为一种白盒局部攻击方法。本发明方法使用热力图解释方法发现图像中的局部重要区域，并针对重要区域添加局部扰动，通过单次攻击或迭代攻击方法生成扰动更小的对抗样本。

本发明提出的一种基于热力图的神经网络攻击方法，包括如下步骤：

(1)给定用于对抗攻击的神经网络的图像分类模型f，对于输入图像x模型f输出类别c，获取图像x对于类别c的热力图SM_mask；

(2)根据热力图和选取阈值θ，获取二值化矩阵B_mask，矩阵B_mask中将大于θ的像素的值置为1，其余置为0：矩阵B_mask中取值为1的区域为重要区域；

(3)预先设置攻击方式，为单次攻击或迭代攻击；

(3.1)选取单次攻击时，根据损失函数对原样本x求导得到梯度矩阵，取梯度矩阵与矩阵B_mask的交集，得到重要区域的梯度信息，根据梯度信息生成局部扰动，添加到样本x的重要区域，当模型f对生成的样本的分类结果与样本x不同时，生成的样本为对抗样本；

(3.2)选取迭代攻击时，在每次迭代过程中：先根据损失函数对当前样本求导得到梯度矩阵，初始当前样本为原样本；再取梯度矩阵与矩阵B_mask的交集，生成一次步长为η的局部扰动，添加到当前样本上；判断模型f对当前样本的分类结果是否与样本x不同，若是，当前样本为对抗样本，否则继续对当前样本执行下一次迭代过程，直到获得对抗样本或者达到最大迭代次数。

所述步骤3.1中，设根据损失函数对原样本x求导得到梯度矩阵g，添加的局部扰动r，如下：

r＝α_Ssign(g∧B_mask)

其中，∧为取交集，sign表示矩阵的方向向量，α_S为单次扰动系数。

对计算的局部扰动r，与设置的最大扰动阈值α_max比较，若r>α_max，表示原样本x攻击所需扰动过大，不生成对抗样本；否则，将局部扰动添加至原样本，得到对抗样本x_adv。将生成的对抗样本x_adv输入模型f，若分类结果与原样本x相同，则为当前扰动系数α_S增加攻击增量v，然后重新对样本x计算局部扰动，生成对抗样本；若分类结果与样本x不同，则输出对抗样本x_adv，用于攻击模型f。

所述步骤3.2中，设当前迭代次数为t，则添加一次步长为η的局部扰动r_t+1如下：

r_t+1＝ηsign(g_t∧B_mask)

其中，g_t为在第t次迭代中当前样本对应的梯度矩阵。

对计算的局部扰动r_t+1，与设置的最大扰动阈值α_max比较，若r_t+1>α_max，表示原样本x攻击所需扰动过大，不生成对抗样本；否则，将局部扰动添加至上一轮的样本，更新当前对抗样本x_adv。对当前迭代次数与最大迭代次数K比较，若t≥K，同样认为原样本x攻击所需扰动过大，不生成对抗样本；否则将当前对抗样本x_adv输入模型f，获取分类结果。若分类结果与原样本x相同，重新计算当前对抗样本x_adv的梯度信息并添加局部扰动；若分类结果与样本x不同，则输出对抗样本x_adv，用于攻击模型f。

本发明的基于热力图的神经网络攻击方法的优点在于：

(1)本发明通过神经网络最后一个卷积层的输出进行反向传播，定义特征图的每一个通道的权重，加权融合后得到每一个像素对决策结果的重要程度矩阵，并以热力图的可视化结果展现，其能清晰得显示模型的关注重点，然后通过选取阈值来完成对样本关注区域的选取，本发明的选取方法是新颖且普遍性强的，对于白盒神经网络均可使用，且无需对网络结构与样本进行改变。

(2)本发明根据图像中每个像素对网络决策的影响程度不同这一原理，结合热力图的可视化结果与局部攻击的优势，形成局部的白盒攻击方法，并提供单次攻击与迭代攻击两种方式。经实验证明，在成功率相似的前提下，本发明方法的扰动范数大小、峰值信噪比和结构相似度衡量指标相比现有全局方法均有显著提升。本发明可解决目前全局攻击中扰动过大，易被人眼识别的不足，使得生成的对抗样本更加高效。

附图说明

图1为本发明的一种基于热力图的神经网络攻击方法的整体流程图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好的理解本发明。但需要特别说明，本发明不仅限于以下具体实施方法的范围，以下实施例仅用于说明本发明。

如图1所示，本发明实施例的基于热力图的神经网络攻击方法，分以下18个步骤说明。

S101：设置对抗攻击参数。

设置用于对抗攻击的神经网络的图像分类模型f，确定输入图像x，将图像x通过模型f的输出标签记为c；设置提取阈值θ，单次扰动系数α_S，单次攻击增量ν，迭代攻击步长η，最大迭代次数K，最大扰动阈值α_max。

S102：计算特征图每个通道权重。

对于给定网络f、干净样本x与真实输出类别c，设A表示网络f中卷积输出的特征图，利用反向传播的梯度计算特征图每一个通道的权重，通道k对应类别c的权重计算为：

其中c表示类别，y^c是该类别对应的得分，是输出中还没经过Softmax的值，表示特征层A在通道k中(i,j)坐标的值，Z表示特征图的尺寸，即长*宽得到。由上式可见，每个通道k的权值为该通道上特征图梯度的均值。

S103：获取热力图矩阵SM_mask。

将所有通道线性加权融合，输入激活函数ReLU，只保留对类别c有正作用的区域，即热力图的矩阵形式SM_mask：

其中，A^k为通道k的特征图，输出为对类别c有正影响的区域，SM_mask可通过热力图的可视化呈现，其表示为样本x对于输出类别c的热力图。颜色深度表示深度神经网络对与图像的每一个像素的关注程度，颜色越深说明此区域对于网络决策更重要。

S104：计算重要性二值矩阵B_mask。

根据热力图SM_mask，可通过设定的提取阈值θ得到二值化的矩阵形式B_mask，该矩阵中将重要像素的值设置为1，其余像素的值置为0：

表示矩阵/>中坐标(i,j)处的值，/>表示矩阵B_mask中坐标(i,j)处的值。此处的阈值θ为可设定的参数，例如选择SM_mask中的中位数，可保证正好提取一半的像素。

S105：判断攻击方式。

判断所需攻击方式，单次攻击转至S106，迭代攻击转至S110。

S106：计算梯度并添加局部扰动r。

根据图像分类模型f的损失函数对样本x求导得到梯度矩阵g，与重要区域二值化矩阵B_mask取交集，得到重要区域的梯度信息。然后，根据梯度信息在重要区域上添加局部扰动r，如下：

r＝α_Ssign(g∧B_mask)

其中，∧为取交集，sign表示矩阵的方向向量。

S107：判断攻击是否超过阈值。

判断扰动r是否超过扰动最大阈值α_max，若r(x)>α_max，则认为此样本攻击所需扰动过大，转至步骤S117，若r(x)≤α_max，转至S108。

S108：将扰动添加至原样本。

将扰动添加至原样本，得到对抗样本x_adv，如下：

x_adv＝x+r

S109：判断当前样本是否为对抗样本。

判断模型输出f(x_adv)是否有变化，若f(x_adv)＝c，增加扰动系数α_S＝α_S+ν，转至S106。若f(x_adv)≠c，转至步骤S118。

S110：初始化对抗样本，迭代次数。

定义当前对抗样本x_adv＝x，当前迭代次数t＝0；

S111：计算当前样本重要区域梯度。

将当前样本x_adv输入网络f，根据损失函数对当前样本x_adv求导得到梯度矩阵g_t，梯度矩阵g_t在每次迭代中需重新计算。

S112：计算局部扰动r_t+1。

根据重要区域二值化矩阵B_mask，求得当前局部梯度，并添加一次步长为η的扰动r_t+1：

r_t+1＝ηsign(g_t∧B_mask)

S113：判断攻击是否超过阈值。

判断扰动r_t+1是否超过扰动最大阈值α_max，若r_t+1>α_max，则认为当前样本攻击所需扰动过大，转至步骤S117，若r_t+1≤α_max，转至步骤S114。

S114：添加扰动并更新x_adv。

将扰动添加至当前对抗样本x_adv并更新：x_adv＝x_adv+r_t+1。

S115：判断是否超过最大迭代次数。

判断迭代次数t是否超过最大迭代次数，若t≥K，则认为此样本攻击所需扰动过大，转至S117，若t<K，转至S116。

S116：判断当前样本是否为对抗样本。

判断模型输出f(x_adv)是否有变化，若f(x_adv)＝c，更新迭代次数t＝t+1，转至步骤S111，若f(x_adv)≠c，转至S118。

S117：攻击失败。

不生成对抗样本。

S118：攻击成功。

输出对抗样本x_adv，用于攻击分类模型f。

根据上述步骤可知，本发明引入了热力图的思想，计算特征图权值，高效准确的提取网络对样本的关注区域，通过向关注区域内添加局部扰动实现攻击，相比全局攻击，攻击关注点更加明确。本发明方法在保证总体成功率的基础上，生成更小的对抗样本。本发明方法提供了两种攻击方式，采用单次攻击时，添加一次扰动来生成对抗样本，效率比较高；采用迭代攻击时，每次迭代都添加一次扰动，逐步添加直到成功，总体扰动会更小一些，更适用于对扰动比较敏感的模型。

为了更好的验证本发明的有效性与效率，采用具体实例对本发明进行实验验证。

首先采用ImageNet2012数据集。该数据集包含大量彩色图片数据，当前针对高像素图像的多种主流攻击方法均采用了此数据集，因此选取此数据集进行对比实验。

神经网络选用了SqueezeNet1_1，MobileNet_v2，ResNet50三种经典网络，代码基于Pytorch深度学习框架，其中每个网络都已针对ImageNet2012数据集进行了训练，训练后的网络对于干净样本的预测成功率均高于90％，将训练后的网络作为实验的目标模型，对其进行攻击。

分别用本发明的一种单次攻击方法、两种迭代攻击方法SM-FGSM(Salience Map-based FGSM)、SM-PGD(Salience Map-based PGD)、SM-MIM(Salience Map-based MIM)与白盒攻击算法FGSM、PGD和MIM对目标模型进行攻击，通过多个评价指标来比价它们的性能。

实验中，选取的指标有：攻击成功率(Success Rate，SR)、平均鲁棒性(AverageRobustness，AR)、峰值信噪比(Peak signal-to-noise ratio，PSNR)、结构相似性(Structual Similarity，SSIM)。

攻击成功率表示为攻击成功的样本与所有输入样本之比，定义如下：

其中N表示输入样本数；f(x_adv)_i表示第i个对抗样本的分类结果标签，y_i表示原始样本x_i的标签；I(X)判断条件是否为真，即：

平均鲁棒性用来评价对于对抗样本对于分类器f所添加的扰动大小定义为：

其中r_i表示第i个样本所添加的噪声矩阵，值越小说明对抗样本添加的扰动越小。

峰值信噪比是一种基于像素点间的误差而衡量图像差异的评价指标，定义为：

其中，n为像素的位数，2ⁿ-1为图像像素可取到的最大值，例如8bits图像最大值为255；其中x(i,j)、x_adv(i,j)分别表示干净样本、对抗样本在位置(i,j)的像素值。如果图片为RGB彩色图像，则求每个通道的MSE，然后取三个通道MSE的平均值作为总体MSE。PSNR值越大，则两张图片越相似。

结构相似性是基于两幅图片之间的亮度、对比度和结构来衡量样本的相似性的，定义如下：

SSIM＝l(x,x_adv)^α·c(x,x_adv)^β·s(x,x_adv)^γ

SSIM由三部分组成，其中，为干净样本x(对抗样本x_adv)所有像素的均值；为x(x_adv)的标准差；为xx_adv的协方差，c₁＝(k₁L)²,c₂＝(k₂L)²,c₃＝c₂/2，按照经验常取k₁＝0.01,k₂＝0.03，L等价于PSNR中的(2ⁿ-1)²，α,β,γ为表示三部分占比的常数，SSIM指标值越大说明两张图片的相似度越高。

参数选取：

热力图选取中，提取阈值θ＝0.1。

FGSM与SM-FGSM中，扰动系数α_S＝0.012，最大扰动阈值α_max＝0.5，单次攻击增量ν＝0.002。

PGD与SM-PGD中，最大迭代次数K＝30，每次迭代攻击步长η＝0.015。

MIM与SM-MIM中，最大迭代次数K＝20，每次迭代攻击步长η＝0.01，衰减系数μ＝1.0。

表1本发明与全局攻击在不同数据集和网络下各扰动指标

表1为6种攻击方法攻击3个目标网络的实验结果。SR为攻击成功率，表中AR、PSNR、SSIM表示测试数据集中所有样本的指标平均值。

表1表明，对于网络SqueezeNet1_1与ResNet50，SR平均下降了3％，局部攻击方法的AR下降了9％-24％，PSNR提升了3％，SSIM也有所提升。因为白盒攻击方法产生的扰动较小，PSNR与SSIM指标仅小幅提升。AR降低幅度较大，这说明扰动幅度降低较大，拥有更小扰动的对抗样本不易被人眼或机器检测到，因此攻击更加高效。

对于网络MobileNet_v2，相比全局攻击方法，两种局部攻击方法的SR指标更好，1种局部攻击方法的SR指标略低；AR下降了9％-23％；PSNR提升了2-3％；SSIM也有所提升。对于该网络，局部攻击方法与全局攻击方法的SR指标值相似，但所添加的扰动明显降低，说明局部攻击方法在保证成功率的前提下，能够生成更不易察觉的对抗样本。

全局攻击方法与局部攻击方法均以高成功率欺骗了网络模型，而局部攻击方法在添加扰动的区域与幅度上均优于全局攻击方法，这说明本发明方法生成的对抗样本更接近于原干净样本，更不易被人所察觉。

以上为本发明的具体实施方法描述。应当指出，本发明不仅局限于具体实施方式的范围，对于本技术领域的普通技术人员来讲，在不脱离本发明原理的前提下，所进行的改变也应视为本发明的保护范围。

Claims

1.一种基于热力图的神经网络攻击方法，其特征在于，包括如下步骤：

(1)给定用于对抗攻击的神经网络的图像分类模型f，设模型f对输入图像x输出类别c，获取该模型在输入图像x对于输出类别c的热力图SM_mask；

(3)预先设置攻击方式，为单次攻击或迭代攻击；

2.根据权利要求1所述的方法，其特征在于，所述的步骤3.1中，设根据目标函数对原样本x求导得到梯度矩阵g，添加的局部扰动r，如下：

r＝α_Ssign(g∧B_mask)

3.根据权利要求1或2所述的方法，其特征在于，所述的步骤3.1中，对计算的局部扰动r，与设置的最大扰动阈值α_max比较，若r>α_max，表示原样本x攻击所需扰动过大，不生成对抗样本；否则，将局部扰动添加至原样本，得到对抗样本。

4.根据权利要求3所述的方法，其特征在于，所述的步骤3.1中，将生成的对抗样本输入模型f，若分类结果与原样本x相同，则为当前扰动系数α_S增加攻击增量v，然后重新对样本x计算局部扰动，生成对抗样本；若分类结果与样本x不同，则输出对抗样本，用于攻击模型f。

5.根据权利要求1所述的方法，其特征在于，所述的步骤3.2中，设当前迭代次数为t，则添加一次步长为η的局部扰动r_t+1如下：

r_t+1＝ηsign(g_t∧B_mask)

其中，∧为取交集，sign表示矩阵的方向向量。

6.根据权利要求1或5所述的方法，其特征在于，所述的步骤3.2中，在第t次迭代中，将生成的局部扰动r_t+1与设置的最大扰动阈值α_max比较，若r_t+1>α_max，表示当前样本攻击所需扰动过大，不生成对抗样本；否则将局部扰动添加至当前样本，然后将当前样本输入模型f，若分类结果与样本x相同，则对当前样本进行下一次迭代，若分类结果与样本x不同，则当前样本为对抗样本。

7.根据权利要求1所述的方法，其特征在于，所述的步骤2中，选取阈值θ设置为SM_mask中的中位数。

8.根据权利要求1所述的方法，其特征在于，所述方法中，对模型f，预先输入图像x，获得输出标签c；然后利用反向传播的梯度计算特征图每一个通道的权重，将所有通道线性加权融合，输入激活函数ReLU，只保留对类别c有正作用的区域，得到热力图SM_mask。