CN112149752B

CN112149752B - 一种单像素攻击分布可视化方法

Info

Publication number: CN112149752B
Application number: CN202011066499.8A
Authority: CN
Inventors: 孙健; 王婉怡; 陈杰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2022-10-21
Anticipated expiration: 2040-09-30
Also published as: CN112149752A

Abstract

本发明提供一种单像素攻击分布可视化方法，首先采用差分进化算法对原始图像的各像素点逐一进行单像素攻击，得到所有能够被攻击成功的像素点，克服了现有单像素攻击每次仅仅能够收敛至某一局部最优点而导致的随机性缺陷；同时，在全图扫描过程中，本发明采用位置攻击图M1记录被成功攻击的像素点的位置，即单像素攻击的分布，从而能够直观且全面的展示出原始图像上可成功攻击的像素点的位置分布和数量，实现单像素攻击分布的可视化，为用户提供攻击策略的参考信息，对单像素攻击与神经网络可解释性的进一步研究有着非常重要的意义。

Description

一种单像素攻击分布可视化方法

技术领域

本发明属于图像识别技术领域，尤其涉及一种单像素攻击分布可视化方法。

背景技术

图像识别领域正处于高速发展阶段，不仅在学术研究领域连续取得重大突破，越来越多的实际产品也在逐步投入使用，例如无人驾驶车辆、人脸识别以及视频监控等。神经网络作为图像识别的重要支撑技术，正在逐步渗入日常生活的方方面面。

然而，对于这一新兴的人工智能技术，却存在着十分严重的安全隐患。对抗性攻击是针对神经网络的一种攻击，在图像识别领域，对抗性攻击通过生成对抗性样本来实现攻击，对抗性样本是指在原有输入样本的基础上，增加人类难以识别的微小干扰值，使神经网络分类错误的样本。对抗性攻击根据被攻击的神经网络的内部结构与参数是否已知，可分为白盒攻击与黑盒攻击。由于白盒攻击实现难度较低，对白盒攻击的研究早于黑盒攻击，Goodfellow等人在文献(Adversarial examples in the physical world，arXivpreprint arXiv:1607.02533)提出了一种基于梯度的白盒攻击，称为快速梯度下降法(Fast Gradient Sign Method，FGSM)，该方法基于使得识别类别发生错误的寻优函数，通过梯度下降的方式，寻找寻优函数的最优解。而后，在FGSM的基础上，基于梯度下降思想，许多类FGSM的白盒攻击开始涌现，如Kurakin等人在文献(The Limitations of DeepLearning in Adversarial Settings，2016IEEE European Symposiun on Security andPrivacy)提出的迭代梯度算法(Interative Fast Gradient Sign Method，I-FGSM)以及最不可能类别的迭代快速梯度下降算法(Least-Likely-Class Iterative Fast GradientSign Method，LL-FGSM)。黑盒攻击相较于白盒攻击，更加符合攻击的实际情况，实际上大多数情况下，攻击者难以获得被攻击的神经网络的具体信息。与白盒攻击的思想类似，Chun-Chen Tu等人在文献(Autozoom:Autoencoder-based zeroth order optimization methodfor attacking black-box neural networks.CoRR)中提出了一种模拟梯度的方法，称为零阶优化算法(Zero Order Optimal,ZOO),使用近似梯度与二阶导求法，实现对黑盒模型梯度与二阶导的大致估计，每次干扰仅改变一个像素坐标(坐标梯度下降)，利用ADAM与Newton方法实现生成黑盒攻击。除此之外，Su等人在文献(One pixel attack for foolingdeep neural networks,arXiv preprint arXiv:1710.08864)中提出了一种十分特殊的黑盒攻击，单像素攻击，与之前基于梯度下降思想的攻击不同，单像素攻击采用差分进化算法，种群中个体为像素点坐标以及对应像素值，以分类置信度作为适应度函数，寻找最优点，仅仅修改图像中一个像素点的像素值，即可实现攻击。

单像素攻击由差分进化算法实现，在一张图片中，往往存在多个局部最优点，而单像素攻击每次仅仅能够收敛至某一局部最优点，这导致了单像素攻击具有一定的随机性。想要进一步探究单像素攻击的攻击分布，需要克服由差分进化算法带来的随机性。然而，但目前为止，还没有一种方法能够成功降低单像素攻击过程的随机性，实现单像素攻击分布的可视化。

发明内容

为解决上述问题，本发明提供一种单像素攻击分布可视化方法，能够成功降低单像素攻击过程的随机性，实现单像素攻击分布的可视化。

一种单像素攻击分布可视化方法，包括以下步骤：

S1：将原始图像输入训练好的图像识别网络F中，得到原始图像的所属类别；

S2：构建一个像素值均为零的位置攻击图M1，且位置攻击图M1与原始图像的大小相同；

S3：依次将原始图像的各个像素点作为当前像素点执行攻击可视化操作，以此更新位置攻击图M1，实现单像素攻击分布的可视化，其中，所述攻击可视化操作为：

S31：采用差分进化算法对当前像素点进行单像素攻击，得到攻击图像；

S32：将攻击图像再次输入训练好的图像识别网络F中，得到攻击图像的所属类别；

S33：判断攻击图像的所属类别与原始图像的所属类别是否不同，若不同，则当前像素点被成功攻击，并将位置攻击图M1中与当前像素点坐标相同的像素点的像素值置为1，实现位置攻击图M1的更新。

进一步地，一种单像素攻击分布可视化方法，还包括以下步骤：

S4：构建一个像素值均为零的干扰值攻击图M2，且干扰值攻击图M2与原始图像的大小相同；

S5：获取原始图像中所有被攻击成功的像素点，并依次将各个被攻击成功的像素点作为攻击像素点执行像素替换操作，以此更新干扰值攻击图M2，其中，所述像素替换操作为：

S51：获取攻击像素点对应的攻击像素值(R*,G*,B*)，其中，所述攻击像素值(R*,G*,B*)为采用差分进化算法对攻击像素点进行单像素攻击时，得到的用于替换攻击像素点在原始图像上的原始像素值(R,G,B)的像素值；

S52：将攻击像素值(R*,G*,B*)与原始像素值(R,G,B)作差，得到RGB三通道上的差值绝对值△R、△G以及△B；

S53：获取RGB三通道上的差值绝对值△R、△G以及△B的均值，将干扰值攻击图M2中与攻击像素点坐标相同的像素点的像素值替换为所述均值，实现干扰值攻击图M2的更新。

进一步地，所述图像识别网络F除了得到原始图像和攻击图像的所属类别外，还可以得到原始图像和攻击图像属于各自类别的置信度；

所述方法还包括以下步骤：

S6：构建一个像素值均为零的置信度攻击图M3，且置信度攻击图M3与原始图像的大小相同；

S7：获取原始图像中所有被攻击成功的像素点，将置信度攻击图M3中与各个被攻击成功的像素点坐标相同的像素点的像素值分别替换为各个被攻击成功的像素点对应的置信度。

有益效果：

1、本发明提供一种单像素攻击分布可视化方法，首先采用差分进化算法对原始图像的各像素点逐一进行单像素攻击，得到所有能够被攻击成功的像素点，克服了现有单像素攻击每次仅仅能够收敛至某一局部最优点而导致的随机性缺陷；同时，在全图扫描过程中，本发明采用位置攻击图M1记录被成功攻击的像素点的位置，即单像素攻击的分布，从而能够直观且全面的展示出原始图像上可成功攻击的像素点的位置分布和数量，实现单像素攻击分布的可视化，为用户提供攻击策略的参考信息，对单像素攻击与神经网络可解释性的进一步研究有着非常重要的意义。

2、本发明提供一种单像素攻击分布可视化方法，通过全局扫描的方式，采用干扰值攻击图M2记录被成功攻击的像素点的像素值变化，即原始像素值与攻击替换后的像素值的绝对差值的均值，能够直观的展示出各可成功攻击像素点的像素值在攻击图像中相对于原始图像的差异变化，实现单像素攻击分布的更深层次的可视化，为用户提供更多的攻击策略参考信息。

3、本发明提供一种单像素攻击分布可视化方法，通过全局扫描的方式，采用置信度攻击图M3记录被成功攻击的像素点的置信度，即攻击图像错误分类后的置信度，能够直观的展示出各可成功攻击像素点的攻击可靠性，实现单像素攻击分布的更深层次的可视化，为用户提供更多的攻击策略参考信息。

附图说明

图1为本发明提供的一种单像素攻击分布可视化方法的总体流程图；

图2为本发明提供的一种单像素攻击分布可视化方法的具体流程图；

图3为本发明提供的位置攻击图M1，干扰值攻击图M2以及置信度攻击图M3的一组示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

实施例一

如图1所示，一种单像素攻击分布可视化方法，包括以下步骤：

S1：将原始图像输入训练好的图像识别网络F中，得到原始图像的所属类别以及原始图像属于该类别的置信度。

需要说明的是，训练好的图像识别网络F为预设的神经网络，图像识别网络F用于图像识别，输入原始图像x后，输出该原始图像的识别结果y，其中，输出的识别结果y为置信度最高的类别，且置信度的取值范围为[0,1]。也就是说，图像识别网络F可以得到原始图像x属于各个类别的置信度，将置信度最大值对应的类别作为最终输出的识别结果y。

S2：构建一个像素值均为零的位置攻击图M1，且位置攻击图M1与原始图像的大小相同。假设原始图像大小为M×N，则位置攻击图M1的尺寸也为M×N。

S31：采用差分进化算法对当前像素点进行单像素攻击，得到攻击图像。

需要说明的是，采用差分进化算法对当前像素点进行单像素攻击，其实是寻找使得识别类别变化且识别结果最好的最优点，算法的初始种群中个体表示为(a,b,R₀,G₀,B₀)，其中(a,b)为原始图像中某一像素点坐标，为了降低单像素攻击的随机性，像素点坐标(a,b)在种群迭代过程中不变，R₀,G₀,B₀为攻击像素值，通过高斯分布进行初始化。单像素攻击通过替换(a,b)处的像素值进行，当攻击后的识别类别与原始图片的识别类别不同时，认为攻击成功。

具体的，本发明中的单像素攻击，通过替换原始图片中一个像素点的像素值实现攻击，寻找这一像素点以及对应像素值的寻优函数如下：

其中，e(x)指加入到原始图像x中的扰动，x+e(x)为对抗性样本，f_adv为所预设的神经网络F输出错误类别adv时的识别结果，寻优函数旨在寻找能够使得原始图像x错误分类，且错误类别的识别结果，即置信度最高的扰动。约束条件为所加扰动e(x)中非零元素数不多于d个。约束条件含义为：保证修改的像素个数不超过d个，通常实验中d＝1，因此被称为单像素攻击，但也有部分实验中将d设为3或5，以期获得更好的攻击效果。

该寻优函数通过差分进化算法寻找最优扰动e(x)^*，即成功的单像素攻击，本发明中，单像素攻击通过如下方式实现，差分进化算法的初始种群为K，其中个体表示为(a,b,R₀,G₀,B₀)，(a,b)为原始图片中某一像素点坐标，为了降低单像素攻击的随机性，像素点坐标(a,b)始终不变，R₀,G₀,B₀为攻击像素值，通过高斯分布进行初始化。随后，通过以下方法生成下一代种群K：

其中，x_i(g+1)是下一代的个体，x_r1(g)为上一代中的直系父母个体，x_r2(g)与x_r3(g)分别为上一代中随机选取的旁系个体，P为系数，P＝0.5，g为种群迭代数的索引。

一旦生成下一代种群K，下一代个体x_i(g+1)将与其父母个体x_r1(g)进行比较，根据寻优函数(1)选择其中一个作为优胜个体存活，进入下一次种群迭代，重复(2)中操作，继续生成新的种群。

当迭代次数达到上限时，获得最优个体(a,b,R*,G*,B*)，将原始图像x的(a,b)像素点处的像素值替换为(R*,G*,B*)，将加入扰动后的攻击图像输入预设的神经网络F中，如果识别类别错误，则认为攻击成功，即步骤S32～S33。

S32：将攻击图像再次输入训练好的图像识别网络F中，得到攻击图像的所属类别以及攻击图像属于该类别的置信度。

也就是说，本发明步骤S3具体为：待识别的原始图像x的像素为M×N个，遍历所述M×N个像素点；对每一个像素点，利用差分进化算法进行单像素攻击，种群迭代次数为H次，当达到H次时，判断此时的单像素攻击是否能够改变原始图片x的识别类别，再将攻击后的攻击图像再次输入图像识别网络F进行识别，如果识别结果改变，则认为攻击成功。因此，对于原始图像x，一共将进行M×N×H次种群迭代以寻找成功攻击的单像素攻击。

S4：构建一个像素值均为零的干扰值攻击图M2，且干扰值攻击图M2与原始图像的大小相同。

S51：获取攻击像素点对应的攻击像素值(R*,G*,B*)，其中，所述攻击像素值(R*,G*,B*)为采用差分进化算法对攻击像素点进行单像素攻击时，得到的用于替换攻击像素点在原始图像上的原始像素值(R,G,B)的像素值。

S52：将攻击像素值(R*,G*,B*)与原始像素值(R,G,B)作差，得到RGB三通道上的差值绝对值△R、△G以及△B。

S6：构建一个像素值均为零的置信度攻击图M3，且置信度攻击图M3与原始图像的大小相同。

由此可见，本发明通过位置攻击图M1，干扰值攻击图M2以及置信度攻击图M3实现了单像素攻击分布可视化，同时记录了攻击的像素变化值与识别结果；具体的，在全图扫描过程中，位置攻击图M1记录被成功攻击的像素点的位置，即单像素攻击的分布；干扰值攻击图M2记录被成功攻击的像素点的像素值变化，即原始像素值与攻击替换后的像素值的绝对差值的均值；置信度攻击图M3记录被成功攻击的像素点的置信度，即错误分类后的置信度y’；也就是说，本发明通过全局扫描的方式，降低了单像素攻击的随机性，首次可视化了单像素攻击的攻击分布，对单像素攻击与神经网络可解释性的进一步研究有着非常重要的意义。

实施例二

基于以上实施例，本实施例再结合图2，对一种单像素攻击分布可视化方法进行进一步地说明。

参阅图2，图2为本发明单像素攻击分布可视化方法的具体实现过程，即如何生成可视化工具位置攻击图M1，干扰值攻击图M2以及置信度攻击图M3，具体实现步骤如下：

S1，将原始图像x输入至预设神经网络F中，得到原始图片识别结果：

y＝f(x) (3)

其中，y为输出类别的置信度，0≦y≦1，而输出的识别类别为所有类别中置信度最高的类别；

S2，初始化位置攻击图M1，干扰值攻击图M2以及置信度攻击图M3。三种攻击图尺寸均与原始图像x的尺寸一致，原始图像x共有M×N个像素值，因此位置攻击图M1，干扰值攻击图M2以及置信度攻击图M3的大小均为M×N，且所有像素值均为0，表示如下：

Mi[x,y]＝0 (4)

其中，i＝1,2,3且0≦x≦M，0≦y≦N，Mi[x,y]表示攻击图像Mi在(x,y)像素点处的像素值；

S3，攻击原始图像x的像素点(a,b)，采用差分进化算法的初始种群为K，其中个体表示为(a,b,R₀,G₀,B₀)，(a,b)为原始图片中的像素点坐标，像素点坐标(a,b)始终不变，R₀,G₀,B₀为攻击像素值，通过高斯分布进行初始化。通过生成新的子代不断进行种群迭代，迭代过程中比对父代与子代个体，根据寻优函数保留两者中较优个体进入下一次迭代，直至达到迭代上限K，获得最优个体(a,b,R*,G*,B*)，替换原始图片x的(a,b)像素点处的像素值，即图2中的x[a,b]，替换为(R*,G*,B*)，替换后的图片被称为对抗性样本，记为x’，将加入扰动后的图片x’输入预设的神经网络F中：

y′＝F(x′) (5)

其中，y’为对抗性样本x’的识别结果，如果识别类别错误，则认为攻击成功；

S4，当S3中在原始图像x的(a,b)像素点处生成的单像素攻击攻击成功时，修改位置攻击图M1中的像素值：

M1[a,b]＝1 (6)

其中，M1[a,b]表示位置攻击图M1在像素点(a,b)处的像素值，当攻击成功时，在该像素点处，像素值置1；

S5，当S3中在原始图片x的(a,b)像素点处生成的单像素攻击攻击成功时，干扰值攻击图M2记录原始图片x的像素点(a,b)处的原始像素值(R,G,B)，与攻击的替换像素值(R*,G*,B*)的绝对差值：

其中，像素绝对差值△I为(△R,△G,△B)，通过对RGB三通道的绝对差值取平均，得到干扰值攻击图M2在像素点(a,b)处的像素值M2[a,b]；

S6，当S3中在原始图片x的(a,b)像素点处生成的单像素攻击攻击成功时，置信度攻击图M3记录加入扰动后的图片x’输入至所预设的神经网络F后的识别结果y’：

M3[a,b]＝y′ (8)

其中，M3[a,b]表示置信度攻击图M3在像素点(a,b)处的像素值，当攻击成功时，在该像素点处，记录攻击成功后的识别结果y’；

S7，判断原始图像x中所有像素点是否被扫描完毕，如果没有，回到步骤S2攻击新的像素点(a₁,b₁)，如果扫描完毕，进入步骤S8；

S8，绘制位置攻击图M1、干扰值攻击图M2与置信度攻击图M3，显示单像素攻击的攻击分布。

如图3所示，图3为本发明提供的单像素攻击分布可视化方法的位置攻击图M1，干扰值攻击图M2以及置信度攻击图M3的一组示例，各攻击图中区域均显示了单像素攻击的攻击分布，同时，干扰值攻击图M2记录了攻击前后像素值的变化，置信度攻击图M3记录了攻击的置信度。

因此，本发明提供了一种单像素攻击分布可视化方法，通过位置攻击图M1，干扰值攻击图M2以及置信度攻击图M3实现了单像素攻击分布可视化，同时记录了攻击的像素值变化与识别结果y’，成功降低单像素攻击过程的随机性。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当然可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种单像素攻击分布可视化方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种单像素攻击分布可视化方法，其特征在于，还包括以下步骤：

3.如权利要求1所述的一种单像素攻击分布可视化方法，其特征在于，所述图像识别网络F除了得到原始图像和攻击图像的所属类别外，还可以得到原始图像和攻击图像属于各自类别的置信度；

所述方法还包括以下步骤：