CN115294399A - 一种防御对抗攻击的图像分类方法、装置和计算机设备 - Google Patents

一种防御对抗攻击的图像分类方法、装置和计算机设备 Download PDF

Info

Publication number
CN115294399A
CN115294399A CN202210992847.7A CN202210992847A CN115294399A CN 115294399 A CN115294399 A CN 115294399A CN 202210992847 A CN202210992847 A CN 202210992847A CN 115294399 A CN115294399 A CN 115294399A
Authority
CN
China
Prior art keywords
image classification
loss function
classification model
weight
random noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210992847.7A
Other languages
English (en)
Inventor
周鋆
杨昊
朱先强
朱承
张维明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202210992847.7A priority Critical patent/CN115294399A/zh
Publication of CN115294399A publication Critical patent/CN115294399A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种种防御对抗攻击的图像分类方法、装置和计算机设备,首先获取预先构建的图像分类模型以及图像分类模型的最后一层特征提取器的权重,向权重中引入随机噪声,其中随机噪声满足多变量高斯分布;然后将原始图像输入图像分类模型,获取最后一层特征提取器提取的原始图像特征;再根据原始图像特征和随机噪声的分布方差构建基于权重的损失函数,根据基于权重的损失函数构建图像分类模型的损失函数;最后优化图像分类模型的损失函数得到训练好的防御对抗攻击的图像分类模型,采用防御对抗攻击的图像分类模型进行图像分类。本发明可以大大减少训练时间和计算负担,同时确保对原始图像分类的准确性和鲁棒性。

Description

一种防御对抗攻击的图像分类方法、装置和计算机设备
技术领域
本申请涉及计算机设觉技术领域,特别是涉及一种防御对抗攻击的图像分类方法、装置和计算机设备。
背景技术
深度神经网络已被广泛用于各个领域,并凭借其强大的表示能力取得了卓越的性能。然而,深度神经网络对不易察觉的故意扰动(又称对抗性攻击)容易出错,这对将深度神经网络应用于安全关键场景构成了重大挑战。近年来,人们提出了许多防御方法来提高深度神经网络的抗攻击能力,即对抗性鲁棒性,进而保证图像分类结果的稳定性。
现有的随机防御方法大多依赖于对抗性训练,对抗训练首先通过对抗性攻击生成对抗性图像样本,然后利用生成的对抗图像样本重新训练模型,它以牺牲干净图像的准确性为代价提高模型的对抗性鲁棒性。因此,依靠对抗性训练的方法是一个低效的训练过程,并阻碍了在现实世界中的应用,特别是在需要快速决策的场景。总而言之,为了提高模型的防御对抗攻击能力以确保图像分类结果的稳定性,迫切需要一种不需要对抗性训练的图像分类方法。
发明内容
基于此,提供一种无需对抗性训练的防御对抗攻击的图像分类方法、装置和计算机设备,以提高图像分类的效率和鲁棒性。
一种防御对抗攻击的图像分类方法,所述方法包括:
获取预先构建的图像分类模型以及所述图像分类模型的最后一层特征提取器的权重,向所述权重中引入随机噪声;所述随机噪声满足多变量高斯分布;
将原始图像输入所述图像分类模型,获取所述最后一层特征提取器提取的原始图像特征;
根据所述原始图像特征和所述随机噪声的分布方差构建基于权重的损失函数,根据所述基于权重的损失函数构建所述图像分类模型的损失函数;
优化所述图像分类模型的损失函数得到训练好的防御对抗攻击的图像分类模型,采用所述防御对抗攻击的图像分类模型进行图像分类。
在其中一个实施例中,向所述权重中引入随机噪声,包括:
在多变量高斯分布中进行采样,获取一个零均值单位方差向量;所述多变量高斯分布的均值
Figure BDA0003804463820000021
C表示图像分类模型的输出类别数,D表示最后一层特征提取器提取的原始图像特征的维度;
根据所述零均值单位方差向量和下三角矩阵的乘积得到随机噪声的各向异性高斯分布的协方差矩阵:
∑=L·LT
其中,∑表示协方差矩阵,即随机噪声
Figure BDA0003804463820000022
的分布方差,
Figure BDA0003804463820000023
表示零均值单位方差向量和下三角矩阵的乘积;
从所述各向异性高斯分布中进行采样,向所述权重中引入各向异性的随机噪声。
在其中一个实施例中,根据所述原始图像特征和所述随机噪声的分布方差构建基于权重的损失函数为:
Figure BDA0003804463820000024
其中,
Figure BDA0003804463820000025
表示基于权重的损失函数,
Figure BDA0003804463820000026
表示原始图像,
Figure BDA0003804463820000027
表示最后一层特征提取器提取的原始图像特征,∑表示随机噪声
Figure BDA0003804463820000028
的分布方差,
Figure BDA0003804463820000029
在其中一个实施例中,根据所述基于权重的损失函数构建所述图像分类模型的损失函数为:
Figure BDA00038044638200000210
其中,Lloss表示图像分类模型的损失函数,
Figure BDA00038044638200000211
表示交叉熵损失函数,
Figure BDA00038044638200000212
表示l2正则化项,λ1表示权重正则化强度的控制系数,λ2表示模型参数惩罚强度的控制系数。
一种防御对抗攻击的图像分类装置,所述装置包括:
随机噪声引入模块,用于获取预先构建的图像分类模型以及所述图像分类模型的最后一层特征提取器的权重,向所述权重中引入随机噪声;所述随机噪声满足多变量高斯分布;
原始图像特征获取模块,用于将原始图像输入所述图像分类模型,获取所述最后一层特征提取器提取的原始图像特征;
损失函数构建模块,用于根据所述原始图像特征和所述随机噪声的分布方差构建基于权重的损失函数,根据所述基于权重的损失函数构建所述图像分类模型的损失函数;
损失函数优化模块,用于优化所述图像分类模型的损失函数得到训练好的防御对抗攻击的图像分类模型,采用所述防御对抗攻击的图像分类模型进行图像分类。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取预先构建的图像分类模型以及所述图像分类模型的最后一层特征提取器的权重,向所述权重中引入随机噪声;所述随机噪声满足多变量高斯分布;
将原始图像输入所述图像分类模型,获取所述最后一层特征提取器提取的原始图像特征;
根据所述原始图像特征和所述随机噪声的分布方差构建基于权重的损失函数,根据所述基于权重的损失函数构建所述图像分类模型的损失函数;
优化所述图像分类模型的损失函数得到训练好的防御对抗攻击的图像分类模型,采用所述防御对抗攻击的图像分类模型进行图像分类。
上述一种防御对抗攻击的图像分类方法、装置和计算机设备,首先获取预先构建的图像分类模型以及图像分类模型的最后一层特征提取器的权重,向权重中引入随机噪声,其中随机噪声满足多变量高斯分布;然后将原始图像输入图像分类模型,获取最后一层特征提取器提取的原始图像特征;再根据原始图像特征和随机噪声的分布方差构建基于权重的损失函数,根据基于权重的损失函数构建图像分类模型的损失函数;最后优化图像分类模型的损失函数得到训练好的防御对抗攻击的图像分类模型,采用防御对抗攻击的图像分类模型进行图像分类。可以看到,本发明整个过程中均未用到对抗图像样本,相较于依赖对抗训练的现有防御方法,本发明可以大大减少训练时间和计算负担,同时确保对原始图像分类的准确性和鲁棒性,尤其是在需要快速决策的场景下,无需对抗训练可以大大提高图像分类的效率。
附图说明
图1为一个实施例中一种防御对抗攻击的图像分类方法的流程示意图;
图2为一个实施例中的图像分类可视化结果,其中(a)为不添加随机噪声时的分类结果,(b)为WB-SNN的分类结果;
图3为一个实施例中网络训练耗时对比图;
图4为一个实施例中一种防御对抗攻击的图像分类装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种防御对抗攻击的图像分类方法,包括以下步骤:
步骤102,获取预先构建的图像分类模型以及图像分类模型的最后一层特征提取器的权重,向权重中引入随机噪声。
随机噪声
Figure BDA0003804463820000041
满足多变量高斯分布,即
Figure BDA0003804463820000042
∑表示随机噪声
Figure BDA0003804463820000043
的分布方差。
本方法对图像分类模型的网络架构不作限制,可以选择不同的深度、宽度和结构类型,例如ResNet-18、ResNet-32和GoogLeNet等。
步骤104,将原始图像输入图像分类模型,获取最后一层特征提取器提取的原始图像特征。
原始图像是指未对其做扰动的干净图像。
为简单起见,考虑一个二分类的情况。给定一个输入x,该模型输出分类标签y∈[-1,1]。则模型分类可以表达为:
Figure BDA0003804463820000051
其中,f(·)是将x嵌入特征空间的非线性映射,h是目标模型,
Figure BDA0003804463820000052
分别表示最后一个分类层即最后一层特征提取器的权重和偏置。
可以看到,模型输出
Figure BDA0003804463820000053
是最后一层权重转置
Figure BDA0003804463820000054
与最后一层特征提取器提取的特征
Figure BDA0003804463820000055
的点积加上层偏置
Figure BDA0003804463820000056
得到的。
因此,本方法的步骤102和步骤104分别获取最后一层特征提取器的权重和最后一层特征提取器提取的原始图像特征以进行后续处理。
步骤106,根据原始图像特征和随机噪声的分布方差构建基于权重的损失函数,根据基于权重的损失函数构建图像分类模型的损失函数。
步骤110,优化图像分类模型的损失函数得到训练好的防御对抗攻击的图像分类模型,采用防御对抗攻击的图像分类模型进行图像分类。
上述一种防御对抗攻击的图像分类方法,首先获取预先构建的图像分类模型以及图像分类模型的最后一层特征提取器的权重,向权重中引入随机噪声,其中随机噪声满足多变量高斯分布;然后将原始图像输入图像分类模型,获取最后一层特征提取器提取的原始图像特征;再根据原始图像特征和随机噪声的分布方差构建基于权重的损失函数,根据基于权重的损失函数构建图像分类模型的损失函数;最后优化图像分类模型的损失函数得到训练好的防御对抗攻击的图像分类模型,采用防御对抗攻击的图像分类模型进行图像分类。可以看到,本方法整个过程中均未用到对抗图像样本,相较于依赖对抗训练的现有防御方法,本方法可以大大减少训练时间和计算负担,同时确保对原始图像分类的准确性和鲁棒性,尤其是在需要快速决策的场景下,无需对抗训练可以大大提高图像分类的效率。
在此提供基于权重的损失函数的推导过程:
步骤202,将原始图像和对应的攻击图像输入预先构建的图像分类模型,获取最后一层特征提取器提取的原始图像特征和攻击图像特征。
步骤204,向权重中引入随机噪声;
向权重中引入随机噪声后模型输出为
Figure BDA0003804463820000057
其中
Figure BDA0003804463820000061
因此,
Figure BDA0003804463820000062
可以被表述为
Figure BDA0003804463820000063
预测的决策边界由
Figure BDA0003804463820000064
得到,值得注意的是,如果预测正确,决策边界的值为正,否则为负。
根据权重、随机噪声和原始特征得到原始决策边界:
Figure BDA0003804463820000065
其中,
Figure BDA0003804463820000066
表示原始图像,y表示图像分类模型的输出类别,
Figure BDA0003804463820000067
表示图像分类模型的最后一层特征提取器的权重,
Figure BDA0003804463820000068
表示最后一层特征提取器提取的原始特征,b表示最后一层特征提取器的偏置,∑表示随机噪声
Figure BDA0003804463820000069
的方差,
Figure BDA00038044638200000610
Figure BDA00038044638200000611
表示原始决策边界。
根据权重、随机噪声和攻击特征得到攻击决策边界;
Figure BDA00038044638200000612
其中,
Figure BDA00038044638200000613
表示攻击图像,
Figure BDA00038044638200000614
表示最后一层特征提取器提取的攻击特征,
Figure BDA00038044638200000615
表示攻击决策边界。
步骤206,根据原始决策边界和攻击决策边界构建图像分类模型在处理原始图像和攻击图像时的错误分类概率的差值函数。
重点关注模型在强度δ内被攻击和未被攻击之间错误分类的概率差异,差值函数可表示为:
Figure BDA00038044638200000616
根据累积分布函数可以得到:
Figure BDA00038044638200000617
Figure BDA00038044638200000618
其中,
Figure BDA00038044638200000619
表示图像分类模型在处理对抗图像时分类错误,
Figure BDA0003804463820000071
表示图像分类模型在处理原始图像时分类错误,||·||p表示p范数,
Figure BDA0003804463820000072
表示生成对抗图像时往原始图像中添加的噪声,∈表示噪声对应的扰动强度。
步骤208,计算所述差值函数的上界。
如上所述定义的概率差值函数
Figure BDA0003804463820000073
是有界的,其为:
Figure BDA0003804463820000074
其中
Figure BDA0003804463820000075
有界,对于任何
Figure BDA0003804463820000076
证明如下:
利普利兹常数c对于
Figure BDA0003804463820000077
概率差值函数
Figure BDA0003804463820000078
可以写成:
Figure BDA0003804463820000079
基于不等式放缩,可以得到:
Figure BDA00038044638200000710
为了简化计算,将
Figure BDA00038044638200000711
看作K,因此满足:
Figure BDA00038044638200000712
可以看到,增加
Figure BDA00038044638200000713
将减小概率差值函数的值,即可以通过优化概率差值函数的上界可以最小化被攻击的模型和未被攻击的模型之间的错误分类概率差异。大多数现有的非随机防御方法旨在保持输入预测不被对抗性攻击所改变,而随机防御方法应该使预测被改变的概率最小,即最小化被攻击的模型和未被攻击的模型之间的错误分类概率差异。
本方法从权重角度推导并优化了鲁棒性的误差上界以提高模型的鲁棒性,从上述推导过程可以看出本方法根据具有理论保证的基于权重的随机神经网络进行图像分类,并且推导结果也表明了本方法无需对抗训练的原因。其中,随机神经网络通过在训练过程中注入随机性噪声,有针对性地增强模型,在提高分类结果的鲁棒性方面显示出巨大的潜力。根据注入噪声的位置主要可以分为两大类,一类是在模型的特征上注入噪声,另一类是在模型权重上注入随机性噪声,虽然上述方法在一定程度上提高了图像分类结果的稳定性,但大多数随机神经网络是由直觉启发的经验上的启发式,缺乏理论上的保证。
在一个实施例中,向权重中引入随机噪声,包括:
一个直接的想法是在模型权重中注入一个各向同性的噪声。按照这个想法,可以很容易地实现一个各向同性的噪声,通常可以从具有对角线协方差矩阵的多变量高斯分布中抽取一个各向同性的噪声,这意味着它对不同维度的学习特征的扰动是独立的。然而,这样的强假设是不合理的。因此,本方法实现了更合理的各向异性噪声,它可以灵活地提供更丰富的噪声分布。在这种情况下,各向同性的噪声可以被看作是一种特殊情况。在模型权重上实现各向异性噪声并不容易,下面将详细介绍其实现:
在多变量高斯分布中进行采样,获取一个零均值单位方差向量,其中多变量高斯分布的均值
Figure BDA0003804463820000081
C表示图像分类模型的输出类别数,D表示最后一层特征提取器提取的原始图像特征的维度;
根据零均值单位方差向量和下三角矩阵的乘积得到随机噪声的各向异性高斯分布的协方差矩阵:
∑=L·LT
其中,∑表示协方差矩阵,即随机噪声
Figure BDA0003804463820000082
的分布方差,
Figure BDA0003804463820000083
表示零均值单位方差向量和下三角矩阵的乘积;
从各向异性高斯分布中进行采样,向权重中引入各向异性的随机噪声。
在一个实施例中,根据原始图像特征和随机噪声的分布方差构建基于权重的损失函数为:
Figure BDA0003804463820000091
其中,
Figure BDA0003804463820000092
表示基于权重的损失函数,
Figure BDA0003804463820000093
表示原始图像,
Figure BDA0003804463820000094
表示最后一层特征提取器提取的原始图像特征,∑表示随机噪声
Figure BDA0003804463820000095
的分布方差,
Figure BDA0003804463820000096
根据基于权重的损失函数构建图像分类模型的损失函数为:
Figure BDA0003804463820000097
其中,Lloss表示图像分类模型的损失函数,
Figure BDA0003804463820000098
表示交叉熵损失函数,
Figure BDA0003804463820000099
表示l2正则化项,λ1表示权重正则化强度的控制系数,λ2表示模型参数惩罚强度的控制系数。
以下提供实验过程来证明本方法的有效性:
1、数据集:
在实验中使用的数据集是SVHN,CIFAR-10,以及CIFAR-100。
SVHN数据集由73K训练数据和26K测试数据组成,数据大小为32x32x3,有十个类;CIFAR-10和CIFAR-100数据集包含50K训练数据和10K测试数据,都是32x32x3的彩色图像;CIFAR-10有10个类,每个类包含6000张图像;CIFAR-100有100个类,每个类包含600幅图像。
2、对抗攻击:
白盒攻击,包括FGSM、PGD10,以及更强的攻击方法PGD100
黑箱攻击,包括One-Pixel攻击,以及更强的Square攻击。
进一步使用EOT攻击来评估提出的方法对应的模型不属于梯度混淆。
3、网络架构:
对于网络架构,选择了广泛的网络来充分验证所提方法的有效性,其中包括不同的宽度、深度和结构类型。具体来说,在实验中分别使用了ResNet-18、ResNet-20[1.5×]、ResNet-20[2X]、ResNet-20[4X]、ResNet-32、ResNet-44、ResNet-50、WRN-34-10、ResNeXt29-2x64d和GoogLeNet。
4、实验细节:
所有的实验都是由Pytorch平台在内存为24GB的NVIDIA RTX 3090的GPU服务器上实现的。我们使用的Pytorch版本是1.7.0,部分攻击算法遵循foolbox,这是一个公开攻击库。
本方法使用最常用的ResNet-18模型作为实验的骨干,还使用了许多不同的网络架构来泛化图像分类模型。按照文献对攻击进行参数化。
具体来说,FGSM和PGD10被设定为CIFAR-10和CIFAR-100的攻击强度为∈=8/255。PGD10的步长为α=∈/10,所有基准的步数为k=10。对于PGD100攻击,我们相应地设置k=100和α=∈/100。对于One-Pixel攻击(一像素攻击),规模N设置为400,最大迭代次数kmax=75,我们进一步进行更强的5像素攻击和Square方形攻击。为了公平比较,从公开文献中提取了一些竞争结果。对于超参数,λ1、λ2和λ3的默认设置分别为0.001、1、0.01。
5、实验结果:
为了评估所提出的方法的有效性,将WB-SNN(本方法对应的基于权重的随机神经网络)的防御性能与最近的四种最先进的基于权重的随机防御方法进行评估。
No Defense:没有任何防御方法的原始ResNet-18模型。
Adv.Train:用对抗性训练的模型。
PNI:学习一个参数来控制可训练的随机性。
Adv-BNN:以对抗性训练贝叶斯神经网络进行防御。
L2P:通过学习扰动注入模块和引入交替反向传播方法连续训练网络和噪声参数来改进PNI。
实验是在ResNet-18模型、CIFAR-10和CIFAR-100数据集上进行的,以进行公平的比较。值得注意的是,之前的基于权重的随机神经网络都是经验上有效的,并且依赖于对抗性训练,而所提出的WB-SNN是理论上有保证的,并且没有对抗性训练。
5.1白盒攻击实验:
我们首先在CIFAR-10数据集上用著名的白盒攻击FGSM和PGD来评估所提出的WB-SNN。FGSM是一种单步攻击,而PGD是一种迭代攻击方法。实验结果显示在表1和表2中。
表1比较结果1
Figure BDA0003804463820000111
在表1中,比较了不同深度的网络ResNet-18、ResNet-32和ResNet-44。结果显示,本方法对应的WB-SNN在这三个网络上表现良好。所提出的WB-SNN并没有牺牲干净数据的准确性,而且实现了强大的对抗性鲁棒性。然后,将提出的WB-SNN与其他最先进的随机防御系统在不同的网络宽度上进行比较:ResNet-20[1.5x]、ResNet-20[2x]和ResNet-20[4x]。本方法对应的WB-SNN仍然优于这些现有的基于权重的SNN。具体来说,对于干净数据的准确性,与最好的防御方法PNI相比,本方法在ResNet-20[1.5x]、ResNet-20[2x]和ResNet-20[4x]上分别有7.2%、7.4%、6.2%的改进。对于PGD和FGSM攻击的鲁棒准确性,与最先进的防御方法L2P相比,除了ResNet-20[1.5x],本方法也达到了最佳的鲁棒准确性。在PGD攻击中,本方法取得了与L2P类似的结果。
表2比较结果2
Figure BDA0003804463820000112
在表2中,结果比较了在CIFAR-10和CIFAR-100数据集上训练的最先进的SNN,并以ResNet-18为骨干网络。"Adv.Train"模型的结果表明常规的对抗性训练在FGSM和PGD攻击下取得了最差的结果。值得强调的是,相比之下,最先进的随机防御"Adv-BNN"、"PNI"和"L2P"都需要对抗性训练,即生成对抗性样本并重新训练网络,需要高计算成本,并以牺牲干净数据的准确性为代价。从结果中可以看出,对抗性训练及其变种确实牺牲了干净数据的准确性。与干净数据准确性方面最好的防御方法"PNI"相比,本方法在CIFAR-10和CIFAR-100数据集上分别有6.5%和13.1%的改进。对于CIFAR-10数据集的鲁棒性,与最好的随机防御方法L2P相比,本方法所提出的WB-SNN对FGSM攻击有13.9%的改善,对PGD攻击14.6%改善,而不牺牲干净数据的准确性。对于FGSM攻击下的CIFAR-100数据集的稳健准确性,与最好的随机防御方法Adv-BNN和L2P相比,本方法有大约18.7%的改进。对于PGD攻击,虽然本方法没有达到最高的精度,但也有很强的竞争力。此外,这些方法都是经验上的有效方法,而提出的WB-SNN则有理论上的保证。
5.2黑盒攻击实验:
接下来,本方法评估了对黑箱攻击的防御,即n-pixel攻击。这种攻击是无导数的,并依赖于进化优化,其攻击强度由其破坏的像素数控制。本方法实施了1,2,3像素攻击,并实现了更强的5像素攻击。结果显示在表3中,本方法对在CIFAR-10数据集上训练的ResNet-18模型进行了n像素的攻击。可以看到,本方法的WB-SNN并没有牺牲干净数据的准确性。与PNI的最佳干净数据准确性相比,本方法有大约7.0%的改进。与最好的随机防御方法Adv-BNN相比,本方法的WB-SNN在1,2,3像素攻击上分别有17.5%、14.6%和14.6%的改进。即使在更强的5像素攻击下,所提出的WB-SNN也能提供60的鲁棒性,甚至高于所有3像素攻击下的随机防御方法。
表3黑盒攻击实验结果
Figure BDA0003804463820000121
在表4中,我们展示了两个更强的攻击的实验结果,其中PGD100是更强的白盒攻击,Square是更强的黑盒攻击,实验表明本方法在更强的攻击下仍能保持较好的性能。
表4强攻击实验结果
Figure BDA0003804463820000131
在此直接将本方法提出的WB-SNN与之前最先进的防御方法进行比较,有些防御方法是随机的,有些则不是。对于随机的防御方法,有些是基于权重的,有些是基于特征的。在CIFAR-10的非目标PGD攻击上评估模型,评估结果如表5所示。可以从结果中得出两个结论。一是本方法的WB-SNN不需要对抗性训练。相比之下,之前大多数最先进的防御方法都需要对抗性训练,即使是在更深的网络上训练的方法,本方法也取得了最佳的干净数据准确性。另一个是本方法在ResNet-18模型上达到了最高的对抗性鲁棒性,即使与更深或更广的网络相比也取得了相当的结果。更具体地说,本方法所提出的WB-SNN在理论上是有保证的,而大多数最先进的防御方法则没有。
表5模型评估结果
Figure BDA0003804463820000132
从CIFAR-10数据集中抽取1000张图片。图2分别显示了从ResNet-18获得的嵌入向量的可视化结果,图2(a)为不添加随机噪声时的分类结果,图2(b)为WB-SNN的分类结果。两种方法的可视化都形成了十个主要聚类。图2(a)几个聚类之间的边界并不清晰,图2(b)比图2(a)更平滑,这表明提出的WB-SNN可以有很强的对抗性。可以观察到,WB-SNN的可视化有十个聚类,彼此之间有相当大的余量。此外,每个聚类可以与另一个聚类进行线性分离,这是ResNet-18在没有防御的情况下所不能实现的。
直观地说,这个实验表明,WB-SNN可以学习一个更稳健的架构,实现类内的紧凑性,甚至在类间分离方面也有更好的表现,这从本质上减少了可能的对抗性区域。因此,在无界高方差的设置下,本方法可以保持高不确定性,并自适应地学习更有意义和稳健的表征。此外,不确定性也会帮助网络避免陷入局部最优而探索全局最优,从而提高模型的鲁棒性和分类能力。
为了评估所提出的WB-SNN的泛化能力。在不同的网络结构上进行FGSM和PGD攻击。首先探索数据集大小的影响,如表6所示。实验中使用了三种不同的尺寸。SVHN:一个相对较小的数据集。CIFAR-10:一个有60K训练数据和10K测试数据的中等数据集。CIFAR-100:一个有一百个类的大数据集。实验是基于骨干网ResNet-18进行的。结果表明,WB-SNN对不同的数据集规模有很好的泛化性。
表6 WB-SNN在不同数据集下的的泛化性能结果
Figure BDA0003804463820000141
表7主要探讨了网络结构对所提WB-SNN的影响。更具体地说,有四种网络结构。ResNet、Wide-ResNet、ResNext和GoogLeNet,五种网络在本实验中被使用。结果表明,本方法提出的WB-SNN能很好地泛化到具有不同宽度、深度和网络结构的各种架构。
表7 WB-SNN在不同网络结构下的的泛化性能结果
Figure BDA0003804463820000151
如图3所示,提供了WB-SNN与标准和一般的对抗性训练的耗时对比,其中包含四种不同的网络结构的对比:ResNet-18、ResNet-20(4x),其网络宽度是标准ResNet-20的四倍,ResNet-44和GoogleNet。与具有不同架构、宽度和深度的网络相比,本方法提出的WB-SNN在时间消耗方面显示出优势。具体来说,本方法比正常的对抗性训练节省了大约3.37、3.33、2.94和3.45倍的计算成本,只比标准训练多付出2.02、2.07、1.72和2.12的时间。事实证明,本方法可以用比标准训练多一点的计算成本来实现一个更强大的模型。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种防御对抗攻击的图像分类装置,包括:随机噪声引入模块、原始图像特征获取模块、损失函数构建模块和损失函数优化模块,其中:
随机噪声引入模块,用于获取预先构建的图像分类模型以及图像分类模型的最后一层特征提取器的权重,向权重中引入随机噪声;随机噪声满足多变量高斯分布;
原始图像特征获取模块,用于将原始图像输入图像分类模型,获取最后一层特征提取器提取的原始图像特征;
损失函数构建模块,用于根据原始图像特征和随机噪声的分布方差构建基于权重的损失函数,根据基于权重的损失函数构建图像分类模型的损失函数;
损失函数优化模块,用于优化图像分类模型的损失函数得到训练好的防御对抗攻击的图像分类模型,采用防御对抗攻击的图像分类模型进行图像分类。
在一个实施例中,随机噪声引入模块还用于在多变量高斯分布中进行采样,获取一个零均值单位方差向量;多变量高斯分布的均值
Figure BDA0003804463820000161
C表示图像分类模型的输出类别数,D表示最后一层特征提取器提取的原始图像特征的维度;
根据零均值单位方差向量和下三角矩阵的乘积得到随机噪声的各向异性高斯分布的协方差矩阵:
∑=L·LT
其中,∑表示协方差矩阵,即随机噪声
Figure BDA0003804463820000162
的分布方差,
Figure BDA0003804463820000163
表示零均值单位方差向量和下三角矩阵的乘积;
从各向异性高斯分布中进行采样,向权重中引入各向异性的随机噪声。
在一个实施例中,损失函数构建模块还用于根据原始图像特征和随机噪声的分布方差构建基于权重的损失函数为:
Figure BDA0003804463820000164
其中,
Figure BDA0003804463820000165
表示基于权重的损失函数,
Figure BDA0003804463820000166
表示原始图像,
Figure BDA0003804463820000167
表示最后一层特征提取器提取的原始图像特征,∑表示随机噪声
Figure BDA0003804463820000168
的分布方差,
Figure BDA0003804463820000169
根据基于权重的损失函数构建图像分类模型的损失函数为:
Figure BDA00038044638200001610
其中,Lloss表示图像分类模型的损失函数,
Figure BDA00038044638200001611
表示交叉熵损失函数,
Figure BDA00038044638200001612
表示l2正则化项,λ1表示权重正则化强度的控制系数,λ2表示模型参数惩罚强度的控制系数。
关于一种防御对抗攻击的图像分类装置的具体限定可以参见上文中对于一种防御对抗攻击的图像分类方法的限定,在此不再赘述。上述一种防御对抗攻击的图像分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图像数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种防御对抗攻击的图像分类方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synch link)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种防御对抗攻击的图像分类方法,其特征在于,所述方法包括:
获取预先构建的图像分类模型以及所述图像分类模型的最后一层特征提取器的权重,向所述权重中引入随机噪声;所述随机噪声满足多变量高斯分布;
将原始图像输入所述图像分类模型,获取所述最后一层特征提取器提取的原始图像特征;
根据所述原始图像特征和所述随机噪声的分布方差构建基于权重的损失函数,根据所述基于权重的损失函数构建所述图像分类模型的损失函数;
优化所述图像分类模型的损失函数得到训练好的防御对抗攻击的图像分类模型,采用所述防御对抗攻击的图像分类模型进行图像分类。
2.根据权利要求1所述的方法,其特征在于,向所述权重中引入随机噪声,包括:
在多变量高斯分布中进行采样,获取一个零均值单位方差向量;所述多变量高斯分布的均值
Figure FDA0003804463810000011
C表示图像分类模型的输出类别数,D表示最后一层特征提取器提取的原始图像特征的维度;
根据所述零均值单位方差向量和下三角矩阵的乘积得到随机噪声的各向异性高斯分布的协方差矩阵:
∑=L·LT
其中,∑表示协方差矩阵,即随机噪声
Figure FDA0003804463810000012
的分布方差,
Figure FDA0003804463810000013
表示零均值单位方差向量和下三角矩阵的乘积;
从所述各向异性高斯分布中进行采样,向所述权重中引入各向异性的随机噪声。
3.根据权利要求1所述的方法,其特征在于,根据所述原始图像特征和所述随机噪声的分布方差构建基于权重的损失函数,包括:
根据所述原始图像特征和所述随机噪声的分布方差构建基于权重的损失函数为:
Figure FDA0003804463810000014
其中,
Figure FDA0003804463810000015
表示基于权重的损失函数,
Figure FDA0003804463810000016
表示原始图像,
Figure FDA0003804463810000017
表示最后一层特征提取器提取的原始图像特征,∑表示随机噪声
Figure FDA0003804463810000018
的分布方差,
Figure FDA0003804463810000019
Figure FDA0003804463810000024
4.根据权利要求3所述的方法,其特征在于,根据所述基于权重的损失函数构建所述图像分类模型的损失函数,包括:
根据所述基于权重的损失函数构建所述图像分类模型的损失函数为:
Figure FDA0003804463810000021
其中,Lloss表示图像分类模型的损失函数,
Figure FDA0003804463810000022
表示交叉熵损失函数,
Figure FDA0003804463810000023
表示l2正则化项,λ1表示权重正则化强度的控制系数,λ2表示模型参数惩罚强度的控制系数。
5.一种防御对抗攻击的图像分类装置,其特征在于,所述装置包括:
随机噪声引入模块,用于获取预先构建的图像分类模型以及所述图像分类模型的最后一层特征提取器的权重,向所述权重中引入随机噪声;所述随机噪声满足多变量高斯分布;
原始图像特征获取模块,用于将原始图像输入所述图像分类模型,获取所述最后一层特征提取器提取的原始图像特征;
损失函数构建模块,用于根据所述原始图像特征和所述随机噪声的分布方差构建基于权重的损失函数,根据所述基于权重的损失函数构建所述图像分类模型的损失函数;
损失函数优化模块,用于优化所述图像分类模型的损失函数得到训练好的防御对抗攻击的图像分类模型,采用所述防御对抗攻击的图像分类模型进行图像分类。
6.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
CN202210992847.7A 2022-08-18 2022-08-18 一种防御对抗攻击的图像分类方法、装置和计算机设备 Pending CN115294399A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210992847.7A CN115294399A (zh) 2022-08-18 2022-08-18 一种防御对抗攻击的图像分类方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210992847.7A CN115294399A (zh) 2022-08-18 2022-08-18 一种防御对抗攻击的图像分类方法、装置和计算机设备

Publications (1)

Publication Number Publication Date
CN115294399A true CN115294399A (zh) 2022-11-04

Family

ID=83829440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210992847.7A Pending CN115294399A (zh) 2022-08-18 2022-08-18 一种防御对抗攻击的图像分类方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN115294399A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797711A (zh) * 2023-02-20 2023-03-14 泉州装备制造研究所 一种基于重构模型的对抗样本改进分类方法
CN116702876A (zh) * 2023-04-27 2023-09-05 贵州大学 一种基于预处理的图像对抗防御方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797711A (zh) * 2023-02-20 2023-03-14 泉州装备制造研究所 一种基于重构模型的对抗样本改进分类方法
CN116702876A (zh) * 2023-04-27 2023-09-05 贵州大学 一种基于预处理的图像对抗防御方法
CN116702876B (zh) * 2023-04-27 2024-04-12 贵州大学 一种基于预处理的图像对抗防御方法

Similar Documents

Publication Publication Date Title
Jacobsen et al. Excessive invariance causes adversarial vulnerability
CN109948663B (zh) 一种基于模型抽取的步长自适应的对抗攻击方法
Salem et al. Dynamic backdoor attacks against machine learning models
Xu et al. Feature squeezing: Detecting adversarial examples in deep neural networks
CN115294399A (zh) 一种防御对抗攻击的图像分类方法、装置和计算机设备
CN110941794B (zh) 一种基于通用逆扰动防御矩阵的对抗攻击防御方法
Madono et al. Block-wise scrambled image recognition using adaptation network
CN113822328B (zh) 防御对抗样本攻击的图像分类方法、终端设备及存储介质
Li et al. Deepobfuscator: Obfuscating intermediate representations with privacy-preserving adversarial learning on smartphones
CN110046577B (zh) 行人属性预测方法、装置、计算机设备和存储介质
Guo et al. Dual reconstruction nets for image super-resolution with gradient sensitive loss
Cui et al. Multitask identity-aware image steganography via minimax optimization
Wang et al. Generating semantic adversarial examples via feature manipulation
Gu et al. FedPass: privacy-preserving vertical federated deep learning with adaptive obfuscation
Park et al. Adversarially robust hyperspectral image classification via random spectral sampling and spectral shape encoding
Zanddizari et al. Generating black-box adversarial examples in sparse domain
Sitawarin et al. Preprocessors matter! realistic decision-based attacks on machine learning systems
Choi et al. PIHA: Detection method using perceptual image hashing against query-based adversarial attacks
Pestana et al. Adversarial Attacks and Defense on Deep Learning Classification Models using YC b C r Color Images
CN113139618A (zh) 一种基于集成防御的鲁棒性增强的分类方法及装置
Xu et al. FLPM: A property modification scheme for data protection in federated learning
Senzaki et al. Simple black-box adversarial examples generation with very few queries
Cao et al. FePN: A robust feature purification network to defend against adversarial examples
Liang et al. Large-scale image classification using fast svm with deep quasi-linear kernel
Luo et al. Defective convolutional layers learn robust cnns

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination