CN113159317B

CN113159317B - 一种基于动态残差侵蚀的对抗样本生成方法

Info

Publication number: CN113159317B
Application number: CN202110435216.0A
Authority: CN
Inventors: 张全新; 周慧鹏; 王亚杰; 张耀元; 李元章; 谭毓安
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2022-10-21
Anticipated expiration: 2041-04-22
Also published as: CN113159317A

Abstract

本发明涉及一种基于动态残差侵蚀的对抗样本生成方法，属于深度学习安全技术领域，主要用于解决现有技术对于提升对抗样本转移性效果甚微，攻击未知黑盒模型成功率低等技术问题。本发明通过动态侵蚀残差网络模型的残差块结构反向传播时的梯度(EGM)信息，达到生成对抗样本时的梯度多样性。同时，提出了一种新的Corrasion Attack攻击方法并与EGM侵蚀机制相结合，能够大幅度提升对抗样本的转移性，提升了攻击成功率。

Description

一种基于动态残差侵蚀的对抗样本生成方法

技术领域

本发明涉及一种提升对抗样本黑盒转移性的攻击方法，具体涉及一种基于动态残差侵蚀的对抗样本生成方法，属于深度学习安全技术领域。

背景技术

在计算机视觉领域，深度学习技术已成为解决图像分类、目标检测、语义分割等问题的主流技术手段。随着深度学习技术的不断改进和计算资源的不断完善，人们正逐渐把深度学习技术应用到安全领域，例如手机人脸识别、面部识别ATM等。

然而，研究表明，深度学习模型极易受到微小扰动的影响。Szegedy等人首次提出，在图像分类领域，深度学习模型存在脆弱性，即，在输入图像中添加精心制造的肉眼不易察觉的扰动，可导致图像分类器以极高的置信度将图片进行错误分类，同时，相同的扰动可以欺骗多种图片分类器。在人脸识别任务中，精心设计的扰动可以欺骗神经网络，将其错误分类为指定人脸。

基于对抗样本的转移性对未知黑盒模型进行攻击，攻击者不知道目标黑盒模型的权重、参数等任何信息，只能依靠对抗样本的转移性去进行攻击。介于对抗样本的转移性较低，无法使目标黑盒模型高置信度的错误分类。因此，技术人员希望找到一种方式，能够提升攻击未知黑盒模型的成功率，从而提升对抗样本的转移性。对抗样本的可转移性，是指相同的输入可以成功攻击不同的模型。利用可转移性，Papernot等人通过攻击替代模型，开发了一个黑盒(攻击者无法访问目标模型)攻击系统；Liu建议攻击替代模型的集合可以提高对抗样本的转移性。基于集合模型，Dong，zhou等人开发了几种通过平滑梯度进一步提升转移性的方法。

围绕对抗样本的可转移性，人们提出了很多方法，比如攻击一个替代模型或者多个替代模型的集成。在之前的工作中，Li等人提出对深度残差神经网络模型进行侵蚀的Ghost机制，其基本原理是在一个基础网络(从零开始训练的网络)上生成大量的虚拟模型。虚拟这个词意味着这些网络没有被存储或训练(因此被称为幽灵网络)。相反，它们是通过对基础网络的某些中间结构进行动态侵蚀而产生的。但是，这种侵蚀机制在模型前向传播时会损失模型的精度，导致模型的预测与真实输出存在较大的差异，这在计算对抗性损失时会存在较大的差异。

目前，大部分黑盒模型对抗性攻击算法都是基于转移性的。但是，由于大部分方法是迭代生成对抗样本，它们是在替代模型上生成对抗样本，迭代次数过多将会对替代模型过拟合，迭代次数过少不能成功攻破未知黑盒模型。最重要的是，它们获取到的梯度不具备多样化。导致对抗样本的转移性较低，攻击未知黑盒模型的成功率较低。提升对抗样本的转移性，提升攻击未知黑盒模型的称功率，有助于挖掘神经网络模型的弱点以及寻找神经网络学习的特征盲区。能够帮助技术人员寻找更鲁棒的神经网络模型。因此，研究对抗样本的转移性，提升攻击未知黑盒模型的成功率，具有重大的意义。

发明内容

本发明的目的是为了解决现有技术对于提升对抗样本转移性效果甚微，攻击未知黑盒模型成功率低等技术问题，创造性地提出一种基于动态残差侵蚀的对抗样本生成方法。

本发明的创新点在于：通过动态侵蚀残差网络模型的残差块结构反向传播时的梯度(EGM)信息，达到生成对抗样本时的梯度多样性。同时，提出一种新的攻击方法并与EGM相结合，能够大幅度提升对抗样本的转移性，提升攻击成功率。

本发明采用以下技术方案实现。

一种基于动态残差侵蚀的对抗样本生成方法，包括以下步骤：

步骤1：针对残差网络中的残差块结构，采用行动态梯度侵蚀机制(EGM侵蚀机制)进行侵蚀处理，之后将其作为本地的白盒替代神经网络模型。

具体如下：

在残差网络中，令F_i(·)表示第i层的残差块中的残差函数，F_i(x_i)表示第i层的残差函数的输出，x_i表示第i层跳跃连接部分，λ表示侵蚀参数；

首先，确定侵蚀参数λ，λ的取值为符合[0.5，1]的均匀分布，即侵蚀参数λ为一个集合λ＝{λ₁，λ₂，λ₃…λ_i}；

然后，在第i层残差块的部分，在其反向传播过程中给其梯度乘以侵蚀参数，使其变成

步骤2：采用Corrasion Attack攻击方法，将其与EGM侵蚀机制相结合，生成对抗样本，能够大幅度提升对抗样本的转移性。

具体地，Corrasion Attack攻击方法包括以下步骤：

步骤2.1：以MXNET_LResNet34E_IR、MXNET_LResNet50E_IR、MXNET_LResNet100E_IR作为本地替代模型，进行对抗攻击；

步骤2.2：给定一张原始输入图片x和靶向图片y。其中，图片x允许改变最大像素值∈、攻击步长α；

步骤2.3：设计一个输入变换函数T(·)，以随机概率p对输入图片x进行平移缩放：

T(x，p)＝T(x)，with probability p

步骤2.4：设定对抗攻击迭代次数。如50次。

步骤2.5：对于每一轮迭代攻击，将其分为m轮子迭代；

步骤2.6：对于每一轮子迭代，利用函数S_i(·)对图片进行尺度变换，其中，S_i(·)表示对图像的像素除以2的i次方，其中i∈[1，m]；

步骤2.7：将尺度变换后的图片混入随机噪声，降低获取到的图片的梯度方差；

步骤2.8：将步骤2.7得到的图片送入输入变换函数T(·)中；

步骤2.9：将处理后的图片送入步骤1获得的本地白盒替代神经网络模型中，求解图片梯度，同时，将靶向图片送入神经网络提取图片特征；

对于识别任务，使用余弦相似度作为损失函数；

步骤2.10：将m轮子迭代获取到的梯度进行求平均，结果作为本次迭代攻击的最终梯度G；

步骤2.11：在获得的图像梯度G上，使用卷积核kernel matrix W，对图像梯度进行平滑；

步骤2.12：将经步骤2.11中处理后的梯度信息进行累计，即，与之前的梯度信息进行求和；

步骤2.13：对图片像素使用梯度方向进行更新，获取对抗样本x^adv，并对更改的最大像素值进行裁剪操作；

步骤2.14：将步骤2.13中输出的对抗样本作为本轮迭代攻击的结果和下一轮迭代攻击的输入，重复执行步骤2.5至2.13，直至达到迭代攻击次数。

为验证本方法的效果，可以采用以下方式进行测试：

将生成的对抗样本进行未知黑盒靶向攻击测试。

具体可以在InsightFace_mobilefacenet、InsightFace_IR_SE50、CosFace、FaceNet_casia、FaceNet_vggface2、ArcFace、MobileNet、ResNet50、ShuffleNet、evoLVe_IR_152、evoLVe_IR_50、evoLVe_IR_50_Asia这12个未知黑盒模型上，具体进行未知黑盒靶向攻击测试。

有益效果

本发明方法，通过动态侵蚀残差网络中残差块反向传播时的梯度机制(EGM)，同时基于EGM机制提出的Corrasion Attack方法，用于生成可转移性的对抗样本。对比现有技术，具有如下优点：

1.本发明提供了一种针对于残差网络中动态侵蚀残差块反向传播梯度机制(EGM)；

2.本发明提供了一种新的攻击方法Corrasion Attack，与其他对抗性攻击方法相比具有更强的转移性。与EGM相结合时能够展现出更强的转移性；

3.本发明提供了EGM动态残差块梯度侵蚀机制，能够大幅度提升其他生对抗攻击方法生成的对抗样本的转移性；

4.本发明提供了针对不同未知黑盒人脸特征提取模型的攻击效果；

5.本发明提供了针对不同方法与EGM相结合生成对抗样本转移性提升的效果。

附图说明

图1是本发明实施实例中的EGM侵蚀机制的示意图；

图2是本发明实施实例中的EGM机制与MI-FGSM攻击方法相结合攻击未知黑盒模型转移性提升效果图；

图3是本发明实施实例中的EGM机制与DIM攻击方法相结合攻击未知黑盒模型转移性提升效果图；

图4是本发明实施实例中的EGM机制与TI-FGSM攻击方法相结合攻击未知黑盒模型转移性提升效果图；

图5是本发明实施实例中的EGM机制与SIM攻击方法相结合攻击未知黑盒模型转移性提升效果图；

图6是本发明实施实例中的EGM机制与Vr-FGSM攻击方法相结合攻击未知黑盒模型转移性提升效果图；

图7是本发明实施实例中的Corrasion Attack方法与其他攻击方法攻击效果对比效果图(以MXNET_LRESNet100E_IR人脸特征提取模型作为白盒模型)；

图8是本发明实施实例中的Corrasion Attack方法与其他攻击方法攻击效果对比效果图(以FaceNet_vggface2人脸特征提取模型作为白盒模型)；

图9是本发明实施实例中的Corrasion Attack方法与其他攻击方法攻击效果对比效果图(以Resnet50人脸特征提取模型作为白盒模型)；

图10是本发明实施实例中的EGM与Corrasion Attack方法相结合与其他攻击方法相对比效果图(以MXNET_LResNet34E_IR、MXNET_LResNet50E_IR、MXNET_LResNet100E_IR人脸特征提取模型作为白盒模型)。

具体实施方式

结合附图及实施例对本发明做进一步说明和详细说明。

实施例

具体如下：

在残差网络中，令F_i(·)表示第i层的残差块中的残差函数，F_i(x_i)表示第i层的残差函数的输出，x_j表示第i层跳跃连接部分，λ表示侵蚀参数；

如图1所示。

具体地，Corrasion Attack攻击方法如下：

步骤2.1：以MXNET_LResNet34E_IR、MXNET_LResNet50E_IR、MXNET_LResNet100E_IR作为本地替代模型进行对抗攻击；

将InsightFace_mobilefacenet、InsightFace_IR_SE50、CosFace、FaceNet_casia、FaceNet_vggface2、ArcFace、MobileNet、ResNet50、ShuffleNet、evoLVe_IR_152、evoLVe_IR_50、evoLVe_IR_50_Asia作为未知黑盒模型，数据集选用LFW人脸数据集；

步骤2.2：给定一张原始输入图片x(例如人脸图片)和靶向图片y(例如靶向人脸图片)。其中，图片x允许改变最大像素值∈，攻击步长α。

步骤2.3：设计一个输入变换函数T(·)，以随机概率p对输入图片x进行平移缩放；

T(x，p)＝T(x)，with probability p

步骤2.4：设定对抗攻击迭代次数，本实施例设定为50次迭代；

步骤2.5：对于每一轮迭代攻击，将其细分为m轮子迭代；

步骤2.8：将步骤2.7得到的图片送入输入变换函数T(·)中；

对于识别任务，使用余弦相似度作为损失函数；

步骤2.14：将步骤2.13中输出的对抗样本作为本轮迭代攻击的结果和下一轮迭代攻击的输入，重复执行步骤2.5至2.13，直至达到迭代攻击次数、

将生成的对抗样本进行未知黑盒靶向攻击测试，验证本方法的效果，具体如下：

在InsightFace_mobilefacenet、InsightFace_IR_SE50、CosFace、FaceNet_casia、FaceNet_vggface2、ArcFace、MobileNet、ResNet50、ShuffleNet、evoLVe_IR_152、evoLVe_IR_50、evoLVe_IR_50_Asia这12个模型上进行未知黑盒靶向攻击测试。

具体地，测试包括以下步骤：

步骤3.1：使用步骤2中生成的对抗样本x^adv和靶向攻击图片y，组成靶向攻击对，在上述未知的识别模型上进行靶向攻击实验。

步骤3.2：将对抗样本x^adv与靶向图片y分别送入InsightFace_mobilefacenet特征提取模型。将两者预测的图片特征向量使用余弦相似度进行计算，计算其相似度，若计算出的相似度大于可信度阈值说明攻击成功，否则说明攻击失败；

步骤3.3：将对抗样本x^adv与靶向图片y分别送入InsightFace_IR_SE50特征提取模型。将两者预测的图片特征向量使用余弦相似度进行计算，计算其相似度。若计算出的相似度大于可信度阈值，说明攻击成功，否则说明攻击失败；

步骤3.4：将对抗样本x^adv与靶向图片y分别送入CosFace特征提取模型。将两者预测的图片特征向量使用余弦相似度进行计算，计算其相似度。若计算出的相似度大于可信度阈值，说明攻击成功，否则说明攻击失败；

步骤3.5：将对抗样本x^adv与靶向图片y分别送入FaceNet_casia特征提取模型。将两者预测的图片特征向量使用余弦相似度进行计算，计算其相似度。若计算出的相似度大于可信度阈值说明攻击成功，否则说明攻击失败；

步骤3.6：将对抗样本x^adv与靶向图片y分别送入FaceNet_vggface2特征提取模型。将两者预测的图片特征向量使用余弦相似度进行计算，计算其相似度。若计算出的相似度大于可信度阈值说明攻击成功，否则说明攻击失败；

步骤3.7：将对抗样本x^adv与靶向图片y分别送入ArcFace特征提取模型。将两者预测的图片特征向量使用余弦相似度进行计算，计算其相似度。若计算出的相似度大于可信度阈值说明攻击成功，否则说明攻击失败；

步骤3.8：将对抗样本x^adv与靶向图片y分别送入MobileNet特征提取模型。将两者预测的图片特征向量使用余弦相似度进行计算，计算其相似度。若计算出的相似度大于可信度阈值说明攻击成功，否则说明攻击失败；

步骤3.9：将对抗样本x^adv与靶向图片y分别送入ResNet50特征提取模型。将两者预测的图片特征向量使用余弦相似度进行计算，计算其相似度。若计算出的相似度大于可信度阈值说明攻击成功，否则说明攻击失败；

步骤3.10：将对抗样本x^adv与靶向图片y分别送入ShuffleNet特征提取模型。将两者预测的图片特征向量使用余弦相似度进行计算，计算其相似度。若计算出的相似度大于可信度阈值说明攻击成功。以此攻击ShuffleNet模型；

步骤3.11：将对抗样本x^adv与靶向图片y分别送入evoLVe_IR_152特征提取模型。将两者预测的图片特征向量使用余弦相似度进行计算，计算其相似度。若计算出的相似度大于可信度阈值说明攻击成功，否则说明攻击失败；

步骤3.12：将对抗样本x^adv与靶向图片y分别送入evoLVe_IR_50特征提取模型。将两者预测的图片特征向量使用余弦相似度进行计算，计算其相似度。

若计算出的相似度大于可信度阈值说明攻击成功，否则说明攻击失败；

步骤3.13：将对抗样本x^adv与靶向图片y分别送入evoLVe_IR_50_Asia特征提取模型。将两者预测的图片特征向量使用余弦相似度进行计算，计算其相似度。若计算出的相似度大于可信度阈值说明攻击成功，否则说明攻击失败。

Claims

1.一种基于动态残差侵蚀的对抗样本生成方法，其特征在于，包括以下步骤：

步骤1：针对残差网络中的残差块结构，采用行动态梯度侵蚀机制，即EGM侵蚀机制，进行侵蚀处理，之后将其作为本地的白盒替代神经网络模型；

步骤2：采用Corrasion Attack攻击方法，将其与EGM侵蚀机制相结合，生成对抗样本；其中，Corrasion Attack攻击包括以下步骤：

步骤2.2：给定一张原始输入图片x和靶向图片y，其中，图片x允许改变最大像素值∈、攻击步长α；

T(x，p)＝T(x)，with probability p

步骤2.4：设定对抗攻击迭代次数；

步骤2.5：对于每一轮迭代攻击，将其分为m轮子迭代；

步骤2.8：将步骤2.7得到的图片送入输入变换函数T(·)中；

步骤2.9：将处理后的图片送入步骤1获得的本地白盒替代神经网络模型中，求解图片梯度，同时，将靶向图片送入神经网络提取图片特征；对于识别任务，使用余弦相似度作为损失函数；

2.如权利要求1所述的一种基于动态残差侵蚀的对抗样本生成方法，其特征在于，步骤1的具体实现方法如下：

3.一种测试如权利要求1所述的一种基于动态残差侵蚀的对抗样本生成方法的方法，其特征在于，包括以下步骤：

使用InsightFace_mobilefacenet、InsightFace_IR_SE50、CosFace、FaceNet_casia、FaceNet_vggface2、ArcFace、MobileNet、ResNet50、ShuffleNet、evoLVe_IR_152、evoLVe_IR_50、evoLVe_IR_50_Asia这12个未知黑盒模型上，具体进行未知黑盒靶向攻击测试；

步骤3.1：使用步骤2中生成的对抗样本x^adv和靶向攻击图片y，组成靶向攻击对，在上述未知的识别模型上进行靶向攻击实验；

步骤3.2：将对抗样本x^adv与靶向图片y分别送入InsightFace_mobilefacenet特征提取模型；将两者预测的图片特征向量使用余弦相似度进行计算，计算其相似度，若计算出的相似度大于可信度阈值说明攻击成功，否则说明攻击失败；

步骤3.3：将对抗样本x^adv与靶向图片y分别送入InsightFace_IR_SE50特征提取模型；将两者预测的图片特征向量使用余弦相似度进行计算，计算其相似度；若计算出的相似度大于可信度阈值，说明攻击成功，否则说明攻击失败；

步骤3.4：将对抗样本x^adv与靶向图片y分别送入CosFace特征提取模型；将两者预测的图片特征向量使用余弦相似度进行计算，计算其相似度；若计算出的相似度大于可信度阈值，说明攻击成功，否则说明攻击失败；

步骤3.5：将对抗样本x^adv与靶向图片y分别送入FaceNet_casia特征提取模型；将两者预测的图片特征向量使用余弦相似度进行计算，计算其相似度；若计算出的相似度大于可信度阈值说明攻击成功，否则说明攻击失败；

步骤3.6：将对抗样本x^adv与靶向图片y分别送入FaceNet_vggface2特征提取模型；将两者预测的图片特征向量使用余弦相似度进行计算，计算其相似度；若计算出的相似度大于可信度阈值说明攻击成功，否则说明攻击失败；

步骤3.7：将对抗样本x^adv与靶向图片y分别送入ArcFace特征提取模型；将两者预测的图片特征向量使用余弦相似度进行计算，计算其相似度；若计算出的相似度大于可信度阈值说明攻击成功，否则说明攻击失败；

步骤3.8：将对抗样本x^adv与靶向图片y分别送入MobileNet特征提取模型；将两者预测的图片特征向量使用余弦相似度进行计算，计算其相似度；若计算出的相似度大于可信度阈值说明攻击成功，否则说明攻击失败；

步骤3.9：将对抗样本x^adv与靶向图片y分别送入ResNet50特征提取模型；将两者预测的图片特征向量使用余弦相似度进行计算，计算其相似度；若计算出的相似度大于可信度阈值说明攻击成功，否则说明攻击失败；

步骤3.10：将对抗样本x^adv与靶向图片y分别送入ShuffleNet特征提取模型；将两者预测的图片特征向量使用余弦相似度进行计算，计算其相似度；若计算出的相似度大于可信度阈值说明攻击成功；以此攻击ShuffleNet模型；

步骤3.11：将对抗样本x^adv与靶向图片y分别送入evoLVe_IR_152特征提取模型；将两者预测的图片特征向量使用余弦相似度进行计算，计算其相似度；若计算出的相似度大于可信度阈值说明攻击成功，否则说明攻击失败；

步骤3.12：将对抗样本x^adv与靶向图片y分别送入evoLVe_IR_50特征提取模型；将两者预测的图片特征向量使用余弦相似度进行计算，计算其相似度；若计算出的相似度大于可信度阈值说明攻击成功，否则说明攻击失败；

步骤3.13：将对抗样本x^adv与靶向图片y分别送入evoLVe_IR_50_Asia特征提取模型；将两者预测的图片特征向量使用余弦相似度进行计算，计算其相似度；若计算出的相似度大于可信度阈值说明攻击成功，否则说明攻击失败。