CN114387476A - 一种提高对抗样本在防御机制上迁移性的方法 - Google Patents

一种提高对抗样本在防御机制上迁移性的方法 Download PDF

Info

Publication number
CN114387476A
CN114387476A CN202210048486.0A CN202210048486A CN114387476A CN 114387476 A CN114387476 A CN 114387476A CN 202210048486 A CN202210048486 A CN 202210048486A CN 114387476 A CN114387476 A CN 114387476A
Authority
CN
China
Prior art keywords
defense
convolution
model
gradient
convolution kernel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210048486.0A
Other languages
English (en)
Inventor
王秀婷
张健
何松华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202210048486.0A priority Critical patent/CN114387476A/zh
Publication of CN114387476A publication Critical patent/CN114387476A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明提出了一种新的基于迁移的黑盒攻击方法,具体涉及深度学习、图像分类、对抗攻击等领域。该方法可以用于评价神经网络的鲁棒性,检测各种防御模型和防御机制的有效性。为达到上述目的,本发明采用的技术方案是使用预定义核在正常模型(替代模型)上模拟防御模型的平滑卷积核,将输入到模型之前的图片利用预定义的平滑卷积核进行卷积平滑。由于防御模型通过更平滑的卷积核来减轻对抗性干扰的影响,通过在白盒环境中模拟它们来实施攻击,我们产生了防御模型无法消除的更“鲁棒”的对抗性扰动,从而产生更多的对抗性例子逃避防御机制。在ImageNet数据集上的实验结果表明,本发明提出的方法和其他方法结合时,可以在10种先进防御机制下达到91.7%的迁移率,这表明目前这些防御方法还不能达到抵抗对抗样本的作用。

Description

一种提高对抗样本在防御机制上迁移性的方法
技术领域
本发明提出了一种新的基于迁移的黑盒攻击方法,具体涉及深度学习、图像分类、对抗攻击等领域。该方法可以用于评价神经网络的鲁棒性,检测各种防御模型和防御机制的有效性。
背景技术
对抗攻击是在神经网络的输入中,添加恶意的、难以察觉到的干扰形成对抗样本,达到欺骗神经网络的输出结果。依据是否可以获取受害者模型的先验知识,对抗攻击可以分为白盒攻击和黑盒攻击,白盒攻击可以充分利用模型的架构或者参数等来制作对抗样本,但是在现实世界这是不可取的,所以研究黑盒攻击更具实际价值。
黑盒攻击的一大分支就是基于迁移的攻击。它利用白盒攻击方法,在一个替代模型上来制作对抗样本,然后将其应用到黑盒环境的受害者模型去。由于不同模型的结构和参数之间存在着巨大的差异,传统的白盒攻击方法会很容易地过拟合于替代模型,导致迁移率(黑盒攻击成功率)比较低。虽然有一系列方法提出来提升对抗样本的迁移性,但是在防御机制下,他们的迁移性遭受到了严重的限制。
利用对抗训练得到的模型是主流的防御模型之一,它在训练网络时,在训练集中添加了一定比例的对抗样本来增强模型的鲁棒性。研究发现,相比较于正常训练的得到的模型,这种防御模型的卷积核参数要更平滑一些。这些平滑的卷积核有消除对抗扰动的作用,但是对抗训练是十分耗时的,特别是对于较大的数据集。因此,有一些系列防御机制被提出来,其主要思想就是在对抗样本输入到模型之前,将其对抗扰动进行净化掉,使得输入到模型中的样本尽可能纯净,从而达到防御对抗样本的效果。
发明内容
本发明提出了一种新的基于图像分类任务的攻击方法(SAM)。它旨在生成更“鲁棒”的对抗扰动,使更多的对抗样本逃避防御模型和防御机制,提高对抗样本在防御下的黑盒迁移性。该发明原理简单,容易实现,并可以和其他基于梯度的攻击方法结合,并进一步提升对抗样本在防御机制下的黑盒迁移性。
为达到上述目的,本发明采用的技术方案是使用预定义的卷积核在正常模型(替代模型)上模拟防御模型的平滑卷积核。由于防御模型通过更平滑的卷积核来减轻对抗性干扰的影响,通过在白盒环境中模拟它们来实施攻击,我们产生了防御模型无法消除的更“鲁棒”的对抗性扰动,从而产生更多的对抗性例子逃避防御机制。在ImageNet数据集上的实验结果表明,本发明提出的方法和其他方法结合时,可以在10种先进防御机制下达到91.7%的迁移率,这表明目前这些防御方法还不能达到抵抗对抗样本的作用。
具体步骤可以如下:
(1)将待分类的图片按照(B,C,W,H)这个维度进行重组,其中B为同时处理的图片数(Batch),C为图片的通道数(Channel),W和H分别表示图片的宽(Width)和高(High),并规格化到(0,1)之间得到Xclean
(2)根据待分类的图片的数据集的均值和方差,将步骤(1)规格化后的张量正则化到标准分布得到X。
(3)将步骤(2)的张量(X)与预定义的平滑的卷积核(W)进行卷积,卷积时应对输入进行相应的填充,以确保卷积后的张量的Size与卷积前的Size保持一致。预定义的卷积核W可以表示为:
Figure BDA0003473507370000021
其中k表示该卷积核的尺寸,一般为奇数,卷积后的张量(X')可以表示为:X'=X*W
(4)将X'输入到预训练好的分类模型(Model)中,得到模型得输出结果。
(5)根据待分类的真实标签和模型的输出,计算交叉熵损失(Loss)。
(6)根据Loss进行反向传播,得到Xclean的梯度Grad。
(7)计算累计的梯度:T_grad=T_grad+Grad,初始化时T_grad为0。
(8)利用梯度下降的方式求得对抗噪声,初步得到对抗样本Adv:
Figure BDA0003473507370000022
其中
Figure BDA0003473507370000023
表示步长。
(9)将Adv裁剪到(Xclean-ε,Xclean+ε),再裁剪到(0,1)得到Xadv,其中ε表示添加噪声的最大限制。
(10)将步骤(2)中的输入更换为步骤(9)中的Xadv,重复步骤(2)到步骤(9)T次,最后得到的Xadv再规格化到(0,255),即是本方法最后要得到的对抗样本。
附图说明
图1是本发明提出的新的攻击方法的流程图。
图中,1、一批待分类的图片 2、预定义的卷积核 3、分类模型 4、模型的输出结果5、反向传播得到的梯度 6、输出得到的对抗样本
具体实施方式
下面结合附图和实施例对本发明方案进一步描述。
参见图1,将待一批带攻击的样本(图中1)按照模型(图中3)的格式进行预处理后,将预处理后的图片和我们定义的平滑的卷积核(图中2)进行卷积,再将其输入到图片分类模型(图中3)中去,得到分类模型的输出结果(图中4)后,将输出结果和这批图片的真实标签计算交叉熵损失函数,然后再通过反向传播计算其梯度(图中5),通过梯度下降的方式,在输入图片(图中1)上按照梯度的方向添加扰动,并将溢出的部分裁剪到指定范围(0到1)内,重复上述步骤T次,得到对抗样本(图中6),使得图片在真实标签上的置信度下降,从而达到使分类模型的结果出错。最后将得到的对抗样本迁移输入到其他的黑盒防御模型,也能达到欺骗黑盒环境下的防御模型的目的。
如果将本方法和其他方法进行进一步结合时,只需将原本输入到分类模型中的张量,替换为该张量与步骤(3)中定义的卷积核进行卷积后的张量即可。

Claims (6)

1.一种提高对抗样本在防御机制上迁移率的方案,其特征在于如下步骤:
(1)将预处理后的图片和预定义的平滑后的卷积核进行同尺度卷积,使卷积后的尺寸和卷积之前的尺寸相同。
(2)将卷积后的图片输入到模型,计算输出结果,并利用其真实标签计算交叉熵损失。
(3)对交叉熵损失进行反向传播,计算图片的梯度,并将该梯度累加到总梯度中。
(4)将图片在总梯度的方向上进行梯度下降,即将总梯度通过sign函数后,再乘以一定的步长,添加到图片上,然后将溢出的部分裁剪掉。
(5)重复上述步骤T次,并返回最终的对抗样本。
2.根据权利要求1所诉的一种提高对抗样本在防御机制上迁移率的方案,其特征在于,在输入到模型中的图片,更换为该图片与预定义的平滑的卷积核卷积后的图片,并且卷积后的尺寸需要保持和卷积之前的相同。
3.根据权利要求1所诉的一种提高对抗样本在防御机制上转移率的方案,其特征在于,用一个平滑的卷积核平滑图片,该卷积核不是唯一的,但需要满足平滑的特征,即其每个值和其相邻位置的值都是相近的,比如线性卷积核、高斯卷积核、均值卷积核等等。
4.根据权利要求1所诉的一种提高对抗样本在防御机制上转移率的方案,其特征在于,所使用的平滑卷积核的尺寸是可变的,不是固定的,不同尺寸的卷积核对应生成的对抗样本,在普通模型和防御模型上的迁移率不同。
5.根据权利要求1所诉的一种提高对抗样本在防御机制上转移率的方案,其特征在于,在图片上添加的扰动,是基于使用平滑卷积核后的图片的梯度,该方向上的梯度生成的对抗扰动对防御机制更加鲁棒。
6.根据权利要求1所诉的一种提高对抗样本在防御机制上转移率的方案,其特征在于,该方案可以和其他基于梯度的攻击相结合,并进一步提升在防御机制上的黑盒迁移率。
CN202210048486.0A 2022-01-17 2022-01-17 一种提高对抗样本在防御机制上迁移性的方法 Pending CN114387476A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210048486.0A CN114387476A (zh) 2022-01-17 2022-01-17 一种提高对抗样本在防御机制上迁移性的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210048486.0A CN114387476A (zh) 2022-01-17 2022-01-17 一种提高对抗样本在防御机制上迁移性的方法

Publications (1)

Publication Number Publication Date
CN114387476A true CN114387476A (zh) 2022-04-22

Family

ID=81201654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210048486.0A Pending CN114387476A (zh) 2022-01-17 2022-01-17 一种提高对抗样本在防御机制上迁移性的方法

Country Status (1)

Country Link
CN (1) CN114387476A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115439377A (zh) * 2022-11-08 2022-12-06 电子科技大学 一种增强对抗图像样本迁移性攻击的方法
CN115909020A (zh) * 2022-09-30 2023-04-04 北京瑞莱智慧科技有限公司 模型鲁棒性检测方法、相关装置及存储介质
CN116468977A (zh) * 2023-06-19 2023-07-21 北京科技大学 一种视觉检测模型的对抗鲁棒性评估方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115909020A (zh) * 2022-09-30 2023-04-04 北京瑞莱智慧科技有限公司 模型鲁棒性检测方法、相关装置及存储介质
CN115909020B (zh) * 2022-09-30 2024-01-09 北京瑞莱智慧科技有限公司 模型鲁棒性检测方法、相关装置及存储介质
CN115439377A (zh) * 2022-11-08 2022-12-06 电子科技大学 一种增强对抗图像样本迁移性攻击的方法
CN116468977A (zh) * 2023-06-19 2023-07-21 北京科技大学 一种视觉检测模型的对抗鲁棒性评估方法及装置
CN116468977B (zh) * 2023-06-19 2023-08-18 北京科技大学 一种视觉检测模型的对抗鲁棒性评估方法及装置

Similar Documents

Publication Publication Date Title
CN114387476A (zh) 一种提高对抗样本在防御机制上迁移性的方法
KR102318772B1 (ko) 도메인 분리 뉴럴 네트워크들
CN112364885B (zh) 一种基于深度神经网络模型可解释性的对抗样本防御方法
Kimura et al. Few-shot learning of neural networks from scratch by pseudo example optimization
CN110048827B (zh) 一种基于深度学习卷积神经网络的类模板攻击方法
CN104113789B (zh) 一种基于深度学习的视频摘要在线生成方法
CN109859288B (zh) 基于生成对抗网络的图像上色方法及装置
CN111192211B (zh) 一种基于单个深度神经网络的多噪声类型盲去噪方法
CN113674140B (zh) 一种物理对抗样本生成方法及系统
CN107945210B (zh) 基于深度学习和环境自适应的目标跟踪方法
Han et al. An improved extreme learning machine based on particle swarm optimization
CN109992931A (zh) 一种基于噪声压缩的可迁移的非黑盒攻击对抗方法
CN110322003B (zh) 一种用于文档分类的基于梯度的通过添加虚假节点的图对抗样本生成方法
Hsu et al. A high-capacity QRD-based blind color image watermarking algorithm incorporated with AI technologies
CN111047054A (zh) 一种基于两阶段对抗知识迁移的对抗样例防御方法
CN109003287A (zh) 基于改进遗传算法的图像分割方法
Chen et al. Patch selection denoiser: An effective approach defending against one-pixel attacks
Wang et al. Intelligent nonconvex compressive sensing using prior information for image reconstruction by sparse representation
Dong et al. Image deblurring with low-rank approximation structured sparse representation
CN114399630A (zh) 基于信念攻击和显著区域扰动限制的对抗样本生成方法
CN101567079B (zh) 基于Hopfield神经网络的运动模糊图像恢复方法
CN105608468A (zh) 一种基于流型矩阵补全的多标签分类方法
CN114638356A (zh) 一种静态权重引导的深度神经网络后门检测方法及系统
Sun et al. Instance-level Trojan Attacks on Visual Question Answering via Adversarial Learning in Neuron Activation Space
CN115187449A (zh) 一种基于透视变换的提高对抗样本迁移性的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination