CN117372804A

CN117372804A - 一种基于图像梯度计算的对抗样本防御方法

Info

Publication number: CN117372804A
Application number: CN202311263930.1A
Authority: CN
Inventors: 杨子祺; 万劼; 洛伦佐.卡瓦拉罗
Original assignee: Zhejiang University ZJU; ZJU Hangzhou Global Scientific and Technological Innovation Center
Current assignee: Zhejiang University ZJU; ZJU Hangzhou Global Scientific and Technological Innovation Center
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-01-09

Abstract

本发明公开了一种基于图像梯度计算的对抗样本防御方法，通过对输入样本求取边缘梯度之后的梯度信息进行检测来满足识别对抗样本的需求，降低遭受对抗攻击的风险，从而评估模型的鲁棒性。通过对输入图像提取边缘梯度，训练一个基于分类器的主任务模型，由于对抗样本与正常样本的梯度信息之间存在较大差异，使得对抗样本能很好地被主任务模型识别；通过训练一个“主任务模型”来对输入样本经过边缘梯度提取之后的图像进行分类，从而能够更好地识别对抗样本，由于本发明采用浅层神经网络，因此具有响应速度快的优点；由于本发明采用图像边缘信息作为检测标准，可以极大提高分类准确率。

Description

一种基于图像梯度计算的对抗样本防御方法

技术领域

本发明涉及人工智能安全(AI Security)、机器学习(Machine Learning)、对抗样本(Adversarial Example)技术领域，尤其涉及一种基于图像梯度计算的对抗样本防御方法。

背景技术

随着人工智能领域技术性的不断突破，人工智能模型已经广泛用户领域，包括生物特征识别、自动驾驶、图像识别、语音识别等，对传统的制造业、医疗业等诸多行业有着巨大的推动作用。

人工智能模型在各种任务中取得了显著的性能提升，但同时也暴露出面对对抗样本攻击的脆弱性。对抗样本攻击是一种经过精心设计的、通过对人类而言难以察觉的微小扰动来误导深度学习模型输出结果的攻击方式，可能导致严重的安全漏洞和数据失真。对于自动驾驶系统而言，对抗样本会让汽车对路面情况产生错误判断，并造成严重交通事故；对于人脸识别系统而言，攻击者可以通过构造对抗人脸信息伪造自己面部身份从而通过人脸识别系统检测。

由此可见，对抗样本的检测技术的研发需求日益渐起。目前已经有许多针对对抗样本的防御方法被提出，包括对抗训练、预处理防御、面向模型的防御等。对抗训练通过在训练中加入含有扰动的图像，从而可以扩大模型的决策边界，使得模型对对抗样本有一定的抵御能力；预处理方法通常采用对输入图像进行模糊、扭曲还原等操作，使得原始加入的噪音被破坏失效；面向模型的防御诸如模型蒸馏，降低模型对于输入的敏感度，提高对抗样本生成难度。

然而现有的对抗样本防御方法，存在一些设计上的缺陷：

防御者会面临计算复杂度高，重新训练整个任务成本大、周期长等情况，会导致被防御模型效果变差等诸多问题。

首先现有的防御方法计算复杂度高，部分方法涉及到提取输入的高维表征之后进行重建还原，会导致大量的计算开销，在现实生产环境中是不大具有部署价值的；其次是重新训练整个任务的成本大，部分方法要求对于受保护模型进行重新训练或者微调，但是这类方法方法的成本直接与受保护模型以及受保护任务的复杂度相关，一旦复杂程度高，此类方法的训练成本就会极大；最后，现有的防御方法一旦涉及到对于受保护模型的重新训练，就有极大可能牺牲受保护模型的表现来提高鲁棒性。

发明内容

本发明的目的在于针对现有对抗样本检测算法的不足，提供一种基于图像梯度计算的对抗样本防御方法。本发明是通过以下技术方案来实现的：

本发明公开了一种基于图像梯度计算的对抗样本防御方法，包括以下步骤：

S1获取对抗数据集：通过采用对抗攻击算法获取到具有对抗性的输入样本，得到对抗数据集；

S2构建输入样本的梯度数据集：通过对S1中生成的对抗样本数据集以及正常样本数据集先经过特征压缩处理，再采用梯度算子进行图像梯度计算，并分别对这两个数据集所属的数据赋予不同的标签，得到输入样本的梯度数据集；

S3训练主分类任务模型：使用主分类任务模型学习S2中获得的输入样本的梯度数据集，让主分类任务模型对输入样本有很好的区分能力，得到具有区分对抗样本与正常样本梯度差异的模型；

S4提取测试样本梯度信息并检测：通过S3训练得到的具有区分对抗样本与正常样本梯度差异的模型，将新的输入样本在经过梯度抽取之后，输入到主分类模型中，得到主分类模型对于此样本的判别结果，采用分类准确率来判断主任务模型的分类效果。

作为进一步地改进，本发明所述的步骤S1中，所述的对抗攻击算法采用FGSM或PGD或C&W。

作为进一步地改进，本发明所述的步骤S2中，特征压缩处理算法采用比特深度衰减算法(Bit Depth Reduction,BDR)，衰减度设置为7位比特：将整个图像的像素值从[0,1]减去2⁷-1比特，然后经过round函数取整为{0,1}，再除以2⁷-1，得到最终衰减值：

BDR(x)＝round(x*(2ⁱ-1)/(2ⁱ-1))。

作为进一步地改进，本发明所述的步骤S2中，所述的梯度算子为高斯拉普拉斯算子(Laplacian of Gaussian,LoG)：LoG算子基于卷积操作，对经过比特衰减算法处理之后的输入样本BFR(x)的水平和垂直方向进行二阶卷积梯度运算，得到输入样本的图像梯度g_LoG(BDR(x))，其中LoG卷积核为g_LoG：

作为进一步地改进，本发明所述的步骤S3中，主分类任务模型训练的损失函数如下：L(f_θ)(g_LoG(BDR(x)))，y)其中，x是输入样本，y是输入样本x的标签，f_θ是模型权重为θ主任务模型，L是交叉熵函数。

作为进一步地改进，本发明所述的设置评价指标1-主任务的分类准确率，是用来衡量主任务模型对于对抗样本的判别的特性：

其中argmax函数用来选择模型概率最大的类，来进行预测输入样本是否是对抗样本。

作为进一步地改进，本发明所述的采用的PGD对抗攻击算法设定总的干扰强度为α,并且设置迭代的总的轮数为n，则每一个步长的时候更新的扰动并对扰动的大小进行限制，裁剪到[0，1]之间，

本发明的有益效果如下：

本发明的方法通过对输入样本求取边缘梯度之后的梯度信息进行检测来满足识别对抗样本的需求，降低遭受对抗攻击的风险，从而评估模型的鲁棒性。通过对输入图像提取边缘梯度，训练一个基于分类器的主任务模型，由于对抗样本与正常样本的梯度信息之间存在较大差异，使得对抗样本能很好地被主任务模型识别。

本发明通过训练一个“主任务模型”来对输入样本经过边缘梯度提取之后的图像进行分类，从而能够更好地识别对抗样本。

由于本发明采用的是不需要重训练的设计方法，因此能够以一个较小的训练成本来训练一个可以即插即用的对抗样本防御模型；由于本发明采用浅层神经网络，因此具有响应速度快的优点；由于本发明采用图像边缘信息作为检测标准，可以极大提高分类准确率。

附图说明

图1是本发明方法算法流程的原理图；

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本发明实例提供的基于图像梯度计算的对抗样本防御方法，其整个流程如图1所示，包括如下步骤s：

步骤一：获取对抗数据集

本实施例中主分类任务训练集为MNIST和CIFAR-10数据集，单次输入样本通过随机抽取的方式从选定的数据集中获取。

对应数据集有如下可能：

a：主分类任务训练集为MNIST。

b：主分类任务训练集为CIFAR-10。

将原始样本标注为0，经过PGD对抗攻击算法生成的对抗样本标注为1。记为输入模型的样本为x，输入样本x对应的标签为y。在实际部署中，由于数据集的不同，单个样本的输入通道数会发生改变，主任务模型的输入的通道数选择也有不同；

当选取数据集分类a时，主任务模型的输入通道数为1；

当选取数据集分类b时，主任务模型的输入通道数为3；

步骤二：构建输入样本的梯度数据集

该步骤分为以下子步骤：

(1)将原始样本以及对抗算法生成的对抗样本经过比特衰减算法(BDR)处理：将比特衰减算法的衰减度设置为7，然后直接处理整个输入样本，得到BDR(x)。

(2)根据选定的图像边缘算子构建梯度卷积核，并与上一步中得到的经过BDR处理之后的样本进行卷积操作，得到输入样本的梯度信息g_LoG(BDR(x))。

步骤三：训练主分类任务模型；

通过随机梯度下降训练主任务模型。此时主模型的输出为f_θ(g_LoG(BDR(x)))，采用L(f_θ(g_LOG(BDR(x)))，y)作为损失函数。其中，f_θ是模型权重为θ主任务模型，L是交叉熵函数。在训练初期可以选择较大的初始步长为0.01，使模型快速收敛，后期可以通过步长衰减方法获得较小步长，使模型可以通过微调获得更高准确率。

步骤四：提取测试样本梯度信息并检测

主任务模型训练完成之后，对于任意一个输入的待检验样本，可以将其通过比特衰减以及梯度处理之后，再交给主任务模型进行计算。模型计算结果f_θ(g_LoG(BDR(x)))根据argmax选择概率最大的一类标签为预测标签，从而判断输入样本是否是恶意的对抗样本。为了评估主任务模型针对恶意样本的识别效果，我们采用准确率表示主任务模型对恶意样本以及正常样本的识别能力。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种基于图像梯度计算的对抗样本防御方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于图像梯度计算的对抗样本防御方法，其特征在于，所述的步骤S1中，所述的对抗攻击算法采用FGSM或PGD或C&W。

3.根据权利要求1或2所述的基于图像梯度计算的对抗样本防御方法，其特征在于，所述的步骤S2中，特征压缩处理算法采用比特深度衰减算法(Bit Depth Reduction,BDR)，衰减度设置为7位比特：将整个图像的像素值从[0,1]减去2⁷-1比特，然后经过round函数取整为{0,1}，再除以2⁷-1，得到最终衰减值：

BDR(x)＝round(x*(2ⁱ-1)/(2ⁱ-1))。

4.根据权利要求3所述的基于图像梯度计算的对抗样本防御方法，其特征在于，所述的步骤S2中，所述的梯度算子为高斯拉普拉斯算子(Laplacian of Gaussian,LoG)：LoG算子基于卷积操作，对经过比特衰减算法处理之后的输入样本BDR(x)的水平和垂直方向进行二阶卷积梯度运算，得到输入样本的图像梯度g_LoG(BDR(x))，其中LoG卷积核为g_LoG：

5.根据权利要求1或2或4所述的基于图像梯度计算的对抗样本防御方法，其特征在于，所述的步骤S3中，主分类任务模型训练的损失函数如下：

L(f_θ(g_LoG(BDR(x))),y)

其中，x是输入样本，y是输入样本x的标签，f_θ是模型权重为θ主任务模型，L是交叉熵函数。

6.根据权利要求5所述的基于图像梯度计算的对抗样本防御方法，其特征在于，所述的设置评价指标1-主任务的分类准确率，是用来衡量主任务模型对于对抗样本的判别的特性：

7.根据权利要求6所述的基于图像梯度计算的对抗样本防御方法，其特征在于，所述的采用的PGD对抗攻击算法设定总的干扰强度为α,并且设置迭代的总的轮数为n，则每一个步长的时候更新的扰动并对扰动的大小进行限制，裁剪到[0,1]之间，