CN112529047A

CN112529047A - 一种基于梯度屏蔽的对抗样本生成方法

Info

Publication number: CN112529047A
Application number: CN202011317776.8A
Authority: CN
Inventors: 顾钊铨; 胡卫雄; 王乐; 方滨兴; 贾焰; 田志宏; 唐可可
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-03-19

Abstract

本发明公开了一种基于梯度屏蔽的对抗样本生成方法，包括：S1，将原始输入图像X表示成a×b的矩阵D,记为D＝D_a×b；S2，采用目标检测算法在矩阵D中进行核心区域定位，得到核心区域D^S；S3，运行基于梯度的攻击方法得到梯度矩阵M_G；S4，基于核心区域D^S和梯度矩阵M_G构造梯度屏蔽矩阵H；S5，将梯度矩阵M_G与梯度屏蔽矩阵H对应相乘得到更新梯度矩阵M'_G；S6，依据公式完成对抗样本的构造：S7，重复执行步骤S3‑S6进行K轮迭代，最终得到基于区域的梯度屏蔽方法的对抗样本。本发明既实现了高效的对抗样本生成，拥有与梯度攻击相似的成功率，又减少了对抗样本相对于原始样本的扰动，提高了对抗样本的抗感知能力和抗检测能力。

Description

一种基于梯度屏蔽的对抗样本生成方法

技术领域

本发明涉及人工智能安全技术领域，具体涉及一种基于梯度屏蔽的对抗样本生成方法。

背景技术

近年来，随着深度学习技术的不断突破，极大地促进了人工智能行业的发展，但人工智能本身的安全性问题也引起了人们越来越多的关注。特别地，由于深度学习强大的表征能力，它已被应用到各个图像处理领域。尤其是像自动驾驶这种高安全性要求的领域，神经网络更是扮演着极其重要的角色。2014年，Szegedy等人指出，对图像添加微小的扰动，可以导致神经网络识别图片出错，这一发现引起了学术界和工业界的广泛关注。自此之后，许多研究人员提出了大量的攻击方法来针对先前的分类器生成对抗样本，有攻击就会有防御，一些研究人员也提出了大量的防御方法来抵御对抗样本的攻击，不论是攻击还是防御都有助于研究人员进一步地理解神经网络的运行机理。但是，此前很多研究神经网络攻击的人员通常将关注点主要放在了提高对抗样本的攻击成功率上，而不是生成更好的难以察觉的或者说是扰动更小的对抗样本。

将攻击的类型依据攻击方法对原始图像的修改程度分为了全局的图像攻击和局部的图像攻击。在现有的攻击方法中，基于梯度的攻击方法是全局图像攻击的代表，基于梯度的攻击技术通常会对整张图片产生扰动。例如Goodfellow等人提出的通过修改整张图片的快速符号梯度法(FGSM)。FGSM仅采用一步更新即可生成对抗样本，扰动是通过反向传播获得的。而后，kurakin等人又在FGSM的基础上提出了基础迭代攻击(BIM)，在每次迭代时裁剪像素值，并且通过多次迭代生成对抗样本，以及之后的基于动量优化的MI-FGSM攻击方法同样是更强大的基于梯度的对抗样本生成方法，虽然这些攻击方法都是基于梯度的，生成对抗样本的效率很快，而且成功率也很高。但是从扰动的程度来看，这些方法都是对整张图像的像素值去做更改，扰动的幅度很大，从对抗样本的抗感知能力和抗检测能力来说效果并不是很好。

在现有的技术中，部分的技术也考虑了只进行局部的像素值修改，比如单像素攻击方法(one-pixel attack)，虽然只进行了局部像素点的更改，减小了扰动的幅度，但是单像素攻击的效率慢，成功率低。又比如现有的方法中有通过计算奇异点及临近点之间的平均距离作为评估指标来区分包含奇异点的对抗样本，设计新的基于点攻击方法来生成对抗样本，引入了新的约束权衡篡改点的数量和篡改的程度，以此来生成扰动更小的对抗样本，但是基于权重普生成的方法需要计算奇异值也带了很大的开销，耗时更多，而且成功率也不高。

综上，行业内急需研发一种既能高效的生成对抗样本，拥有与梯度攻击相似的成功率，又减少了对抗样本相对于原始样本的扰动，提高了对抗样本的抗感知能力和抗检测能力的对抗样本生成方法

发明内容

本发明的目的是为了克服以上现有技术存在的不足，提供了一种攻击成功率高且对原始样本的扰动小的基于梯度屏蔽的对抗样本生成方法。

本发明的目的通过以下的技术方案实现：

一种基于梯度屏蔽的对抗样本生成方法，包括：

S1，将原始输入图像X表示成a×b的矩阵D,记为D＝D_a×b；其中，d_ij表示位于第i行第j列的像素；

S2，采用目标检测算法在矩阵D中进行核心区域定位，得到核心区域D^S；

S3，运行基于梯度的攻击方法得到梯度矩阵M_G；

S4，基于核心区域D^S和梯度矩阵M_G构造梯度屏蔽矩阵H；

S5，将梯度矩阵M_G与梯度屏蔽矩阵H对应相乘得到更新梯度矩阵M'_G；

S6，依据以下公式完成对抗样本的构造：

其中，

表示第t+1轮生成的对抗样本，X^t _adv表示第t轮的对抗样本，α是超参数，用于控制扰动的大小；Sign是符号函数。然后进行多轮的上述操作，最终得到基于区域的梯度屏蔽方法的对抗样本。

S7，重复执行步骤S3-S6进行K轮迭代，最终得到基于区域的梯度屏蔽方法的对抗样本，其中K>2。

优选地，步骤S4包括：先将梯度屏蔽矩阵H全部初始化为零，再将梯度屏蔽矩阵H中与核心区域D^S相对应的位置的值全部置为1，完成了梯度屏蔽矩阵H的构造。

优选地，在步骤S4中屏蔽矩阵定义如下：

其中，H_ij表示屏蔽矩阵H第i行第j列的值，

表示非核心区域，在梯度屏蔽矩阵中，矩阵D中的非核心区域的值被置为0，矩阵D中的核心区域的值被置为1。

优选地，步骤S2中的目标检测算法为YOLOV3。

优选地，步骤S3中的基于梯度的攻击方法为快速符号攻击法。

本发明相对于现有技术具有如下优点：

本发明基于梯度屏蔽生成对抗样本方法，首先采用目标检测算法在矩阵D中进行核心区域定位，得到核心区域D^S；基于核心区域D^S和梯度矩阵M_G构造梯度屏蔽矩阵H；在梯度屏蔽矩阵中，矩阵D中的非核心区域的值被置为0，矩阵D中的核心区域的值被置为1。这样在通过运用梯度屏蔽矩阵来对反向传播的梯度进行部分的屏蔽，实现局部攻击的对抗样本生成效果，这样既实现了高效的对抗样本生成，拥有与梯度攻击相似的成功率，又减少了对抗样本相对于原始样本的扰动，提高了对抗样本的抗感知能力和抗检测能力。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的基于梯度屏蔽的对抗样本生成方法的流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

本发明设计的对抗样本生成方法包括以下几个步骤：

选择要攻击的核心区域。在本发明中，使用经典的目标检测算法来检测要分类的对象。这些检测算法可以识别出目标的大致位置，并消除整个图像中的周围干扰。通过目标检测算法选择关键区域，可以自动实现。然而，这些检测算法只能指出被识别对象的位置，不能指出对象内部的敏感信息(即对最终分类结果起决定作用的部分)。

基于梯度的攻击。本发明中保留了基于梯度攻击的优点，在计算梯度时以然与之前的方法相似，通过损失函数的反向传播来得到梯度矩阵，不同之处在于不再是使用梯度矩阵对整张图片进行更改，而是通过一个梯度屏蔽矩阵来忽略图像中不敏感区域的梯度。这样做当我们将梯度屏蔽矩阵与梯度矩阵进行相乘时，就将核心区域外的梯度屏蔽了。

迭代的攻击。许多现有的基于梯度的攻击方法在多次迭代生成的对抗样本，对DNN的攻击表现出更好的性能。这是因为优化过程可能需要多次逼近和调整，对应于多次迭代的优化过程。因此，本发明通过多次迭代的修改梯度来生成对抗样本。

将上述步骤结合起来完成最终的攻击。通过选择图片的核心区域，然后运用基于梯度的攻击和梯度屏蔽矩阵来迭代地完成对抗样本的生成。下面结合图1举例说明：

图1为本发明设计的基于梯度屏蔽的对抗样本生成方法的流程图。从图中1可以看出，本发明设计的方法可以分为两个部分，区域选择部分(102)和基于梯度的迭代攻击部分(103-106)。区域选择部分中X表示输入的原始图像；YOLOV3是一种目标检测算法，表示可以通过目标检测的手段得到核心区域D；基于梯度的迭代攻击部分中可以运用各种基于梯度的攻击方法得到一个梯度矩阵M_G，然后构造一个梯度屏蔽矩阵H来屏蔽部分梯度，最后通过反复的迭代(K轮)完成对抗样本的构造。

具体而言，假设原始的样本图像X的大小为299×299，则样本图像X能够被表示成一个299×299的矩阵。则

(1)可以通过目标检测的算法例如YoLoV3定位出样本图像X的核心位置D^100×100,表示定位出来的核心区域的大小为100×100。

(2)可以利用梯度攻击的方法，例如FGSM方法的得到梯度矩阵M_G,梯度矩阵的大小也为299×299。

(3)依据目标检测算法得到的核心位置D^100×100，先构造一个梯度屏蔽矩阵H，开始时全部初始化为零，它的大小应该也为299×299，之后，将参照D^100×100相对应的位置和大小，将梯度屏蔽矩阵H相对应的区域的值全部置为1，此时就完成了梯度屏蔽矩阵H的构造；梯度屏蔽矩阵H的构造公式为

其中，H_ij表示屏蔽矩阵H第i行第j列的值，

(4)将梯度矩阵M_G与屏蔽矩阵H对应相乘得到下一步(步骤(5))的更新梯度矩阵M'_G,此时M'_G大小为299×299，对应的D^100×100区域的值保留了，区域外的值均为0。

(5)依据

完成第一轮对抗样本的构造，然后通过K(例如K＝100)轮迭代完成最后样本的输出。其中，

因此，本发明设计的方法可以自然地把梯度屏蔽的策略与之前的基于梯度的方法结合起来，生成一种更强大的对抗样本攻击方法，除了进一步保证了攻击的效率和成功率，也大大较少了对抗的扰动，大大提高了生成的对抗样本的质量，其能真正做到更高的攻击效率和成功率以及更好的抗感知效果。

上述具体实施方式为本发明的优选实施例，并不能对本发明进行限定，其他的任何未背离本发明的技术方案而所做的改变或其它等效的置换方式，都包含在本发明的保护范围之内。