CN114387476A - 一种提高对抗样本在防御机制上迁移性的方法 - Google Patents
一种提高对抗样本在防御机制上迁移性的方法 Download PDFInfo
- Publication number
- CN114387476A CN114387476A CN202210048486.0A CN202210048486A CN114387476A CN 114387476 A CN114387476 A CN 114387476A CN 202210048486 A CN202210048486 A CN 202210048486A CN 114387476 A CN114387476 A CN 114387476A
- Authority
- CN
- China
- Prior art keywords
- defense
- convolution
- model
- gradient
- convolution kernel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000008260 defense mechanism Effects 0.000 title claims abstract description 17
- 230000005012 migration Effects 0.000 title abstract description 7
- 238000013508 migration Methods 0.000 title abstract description 7
- 230000007123 defense Effects 0.000 claims abstract description 17
- 230000003042 antagnostic effect Effects 0.000 claims abstract description 6
- 230000037230 mobility Effects 0.000 claims 4
- 238000009499 grossing Methods 0.000 claims 3
- 230000000644 propagated effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 6
- 238000013528 artificial neural network Methods 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000013145 classification model Methods 0.000 description 6
- 235000000332 black box Nutrition 0.000 description 4
- 230000006870 function Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种新的基于迁移的黑盒攻击方法,具体涉及深度学习、图像分类、对抗攻击等领域。该方法可以用于评价神经网络的鲁棒性,检测各种防御模型和防御机制的有效性。为达到上述目的,本发明采用的技术方案是使用预定义核在正常模型(替代模型)上模拟防御模型的平滑卷积核,将输入到模型之前的图片利用预定义的平滑卷积核进行卷积平滑。由于防御模型通过更平滑的卷积核来减轻对抗性干扰的影响,通过在白盒环境中模拟它们来实施攻击,我们产生了防御模型无法消除的更“鲁棒”的对抗性扰动,从而产生更多的对抗性例子逃避防御机制。在ImageNet数据集上的实验结果表明,本发明提出的方法和其他方法结合时,可以在10种先进防御机制下达到91.7%的迁移率,这表明目前这些防御方法还不能达到抵抗对抗样本的作用。
Description
技术领域
本发明提出了一种新的基于迁移的黑盒攻击方法,具体涉及深度学习、图像分类、对抗攻击等领域。该方法可以用于评价神经网络的鲁棒性,检测各种防御模型和防御机制的有效性。
背景技术
对抗攻击是在神经网络的输入中,添加恶意的、难以察觉到的干扰形成对抗样本,达到欺骗神经网络的输出结果。依据是否可以获取受害者模型的先验知识,对抗攻击可以分为白盒攻击和黑盒攻击,白盒攻击可以充分利用模型的架构或者参数等来制作对抗样本,但是在现实世界这是不可取的,所以研究黑盒攻击更具实际价值。
黑盒攻击的一大分支就是基于迁移的攻击。它利用白盒攻击方法,在一个替代模型上来制作对抗样本,然后将其应用到黑盒环境的受害者模型去。由于不同模型的结构和参数之间存在着巨大的差异,传统的白盒攻击方法会很容易地过拟合于替代模型,导致迁移率(黑盒攻击成功率)比较低。虽然有一系列方法提出来提升对抗样本的迁移性,但是在防御机制下,他们的迁移性遭受到了严重的限制。
利用对抗训练得到的模型是主流的防御模型之一,它在训练网络时,在训练集中添加了一定比例的对抗样本来增强模型的鲁棒性。研究发现,相比较于正常训练的得到的模型,这种防御模型的卷积核参数要更平滑一些。这些平滑的卷积核有消除对抗扰动的作用,但是对抗训练是十分耗时的,特别是对于较大的数据集。因此,有一些系列防御机制被提出来,其主要思想就是在对抗样本输入到模型之前,将其对抗扰动进行净化掉,使得输入到模型中的样本尽可能纯净,从而达到防御对抗样本的效果。
发明内容
本发明提出了一种新的基于图像分类任务的攻击方法(SAM)。它旨在生成更“鲁棒”的对抗扰动,使更多的对抗样本逃避防御模型和防御机制,提高对抗样本在防御下的黑盒迁移性。该发明原理简单,容易实现,并可以和其他基于梯度的攻击方法结合,并进一步提升对抗样本在防御机制下的黑盒迁移性。
为达到上述目的,本发明采用的技术方案是使用预定义的卷积核在正常模型(替代模型)上模拟防御模型的平滑卷积核。由于防御模型通过更平滑的卷积核来减轻对抗性干扰的影响,通过在白盒环境中模拟它们来实施攻击,我们产生了防御模型无法消除的更“鲁棒”的对抗性扰动,从而产生更多的对抗性例子逃避防御机制。在ImageNet数据集上的实验结果表明,本发明提出的方法和其他方法结合时,可以在10种先进防御机制下达到91.7%的迁移率,这表明目前这些防御方法还不能达到抵抗对抗样本的作用。
具体步骤可以如下:
(1)将待分类的图片按照(B,C,W,H)这个维度进行重组,其中B为同时处理的图片数(Batch),C为图片的通道数(Channel),W和H分别表示图片的宽(Width)和高(High),并规格化到(0,1)之间得到Xclean。
(2)根据待分类的图片的数据集的均值和方差,将步骤(1)规格化后的张量正则化到标准分布得到X。
(3)将步骤(2)的张量(X)与预定义的平滑的卷积核(W)进行卷积,卷积时应对输入进行相应的填充,以确保卷积后的张量的Size与卷积前的Size保持一致。预定义的卷积核W可以表示为:
其中k表示该卷积核的尺寸,一般为奇数,卷积后的张量(X')可以表示为:X'=X*W
(4)将X'输入到预训练好的分类模型(Model)中,得到模型得输出结果。
(5)根据待分类的真实标签和模型的输出,计算交叉熵损失(Loss)。
(6)根据Loss进行反向传播,得到Xclean的梯度Grad。
(7)计算累计的梯度:T_grad=T_grad+Grad,初始化时T_grad为0。
(8)利用梯度下降的方式求得对抗噪声,初步得到对抗样本Adv:
(9)将Adv裁剪到(Xclean-ε,Xclean+ε),再裁剪到(0,1)得到Xadv,其中ε表示添加噪声的最大限制。
(10)将步骤(2)中的输入更换为步骤(9)中的Xadv,重复步骤(2)到步骤(9)T次,最后得到的Xadv再规格化到(0,255),即是本方法最后要得到的对抗样本。
附图说明
图1是本发明提出的新的攻击方法的流程图。
图中,1、一批待分类的图片 2、预定义的卷积核 3、分类模型 4、模型的输出结果5、反向传播得到的梯度 6、输出得到的对抗样本
具体实施方式
下面结合附图和实施例对本发明方案进一步描述。
参见图1,将待一批带攻击的样本(图中1)按照模型(图中3)的格式进行预处理后,将预处理后的图片和我们定义的平滑的卷积核(图中2)进行卷积,再将其输入到图片分类模型(图中3)中去,得到分类模型的输出结果(图中4)后,将输出结果和这批图片的真实标签计算交叉熵损失函数,然后再通过反向传播计算其梯度(图中5),通过梯度下降的方式,在输入图片(图中1)上按照梯度的方向添加扰动,并将溢出的部分裁剪到指定范围(0到1)内,重复上述步骤T次,得到对抗样本(图中6),使得图片在真实标签上的置信度下降,从而达到使分类模型的结果出错。最后将得到的对抗样本迁移输入到其他的黑盒防御模型,也能达到欺骗黑盒环境下的防御模型的目的。
如果将本方法和其他方法进行进一步结合时,只需将原本输入到分类模型中的张量,替换为该张量与步骤(3)中定义的卷积核进行卷积后的张量即可。
Claims (6)
1.一种提高对抗样本在防御机制上迁移率的方案,其特征在于如下步骤:
(1)将预处理后的图片和预定义的平滑后的卷积核进行同尺度卷积,使卷积后的尺寸和卷积之前的尺寸相同。
(2)将卷积后的图片输入到模型,计算输出结果,并利用其真实标签计算交叉熵损失。
(3)对交叉熵损失进行反向传播,计算图片的梯度,并将该梯度累加到总梯度中。
(4)将图片在总梯度的方向上进行梯度下降,即将总梯度通过sign函数后,再乘以一定的步长,添加到图片上,然后将溢出的部分裁剪掉。
(5)重复上述步骤T次,并返回最终的对抗样本。
2.根据权利要求1所诉的一种提高对抗样本在防御机制上迁移率的方案,其特征在于,在输入到模型中的图片,更换为该图片与预定义的平滑的卷积核卷积后的图片,并且卷积后的尺寸需要保持和卷积之前的相同。
3.根据权利要求1所诉的一种提高对抗样本在防御机制上转移率的方案,其特征在于,用一个平滑的卷积核平滑图片,该卷积核不是唯一的,但需要满足平滑的特征,即其每个值和其相邻位置的值都是相近的,比如线性卷积核、高斯卷积核、均值卷积核等等。
4.根据权利要求1所诉的一种提高对抗样本在防御机制上转移率的方案,其特征在于,所使用的平滑卷积核的尺寸是可变的,不是固定的,不同尺寸的卷积核对应生成的对抗样本,在普通模型和防御模型上的迁移率不同。
5.根据权利要求1所诉的一种提高对抗样本在防御机制上转移率的方案,其特征在于,在图片上添加的扰动,是基于使用平滑卷积核后的图片的梯度,该方向上的梯度生成的对抗扰动对防御机制更加鲁棒。
6.根据权利要求1所诉的一种提高对抗样本在防御机制上转移率的方案,其特征在于,该方案可以和其他基于梯度的攻击相结合,并进一步提升在防御机制上的黑盒迁移率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210048486.0A CN114387476A (zh) | 2022-01-17 | 2022-01-17 | 一种提高对抗样本在防御机制上迁移性的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210048486.0A CN114387476A (zh) | 2022-01-17 | 2022-01-17 | 一种提高对抗样本在防御机制上迁移性的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114387476A true CN114387476A (zh) | 2022-04-22 |
Family
ID=81201654
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210048486.0A Pending CN114387476A (zh) | 2022-01-17 | 2022-01-17 | 一种提高对抗样本在防御机制上迁移性的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114387476A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115439377A (zh) * | 2022-11-08 | 2022-12-06 | 电子科技大学 | 一种增强对抗图像样本迁移性攻击的方法 |
CN115909020A (zh) * | 2022-09-30 | 2023-04-04 | 北京瑞莱智慧科技有限公司 | 模型鲁棒性检测方法、相关装置及存储介质 |
CN116468977A (zh) * | 2023-06-19 | 2023-07-21 | 北京科技大学 | 一种视觉检测模型的对抗鲁棒性评估方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2020103905A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Unsupervised cross-domain self-adaptive medical image segmentation method based on deep adversarial learning |
CN112464230A (zh) * | 2020-11-16 | 2021-03-09 | 电子科技大学 | 基于神经网络中间层正则化的黑盒攻击型防御系统及方法 |
CN113837244A (zh) * | 2021-09-02 | 2021-12-24 | 哈尔滨工业大学 | 基于多层显著性特征的对抗样本检测方法及装置 |
-
2022
- 2022-01-17 CN CN202210048486.0A patent/CN114387476A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464230A (zh) * | 2020-11-16 | 2021-03-09 | 电子科技大学 | 基于神经网络中间层正则化的黑盒攻击型防御系统及方法 |
AU2020103905A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Unsupervised cross-domain self-adaptive medical image segmentation method based on deep adversarial learning |
CN113837244A (zh) * | 2021-09-02 | 2021-12-24 | 哈尔滨工业大学 | 基于多层显著性特征的对抗样本检测方法及装置 |
Non-Patent Citations (2)
Title |
---|
何松华;张润民;欧建平;张军: "基于卷积神经网络的高分辨率雷达目标识别", 《何松华;张润民;欧建平;张军》, 25 August 2019 (2019-08-25) * |
韦璠;宋云飞;邵明莉;刘天;陈小红;王祥丰;陈铭松: "利用特征融合和整体多样性提升单模型鲁棒性", 软件学报, no. 09, 14 January 2020 (2020-01-14) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115909020A (zh) * | 2022-09-30 | 2023-04-04 | 北京瑞莱智慧科技有限公司 | 模型鲁棒性检测方法、相关装置及存储介质 |
CN115909020B (zh) * | 2022-09-30 | 2024-01-09 | 北京瑞莱智慧科技有限公司 | 模型鲁棒性检测方法、相关装置及存储介质 |
CN115439377A (zh) * | 2022-11-08 | 2022-12-06 | 电子科技大学 | 一种增强对抗图像样本迁移性攻击的方法 |
CN116468977A (zh) * | 2023-06-19 | 2023-07-21 | 北京科技大学 | 一种视觉检测模型的对抗鲁棒性评估方法及装置 |
CN116468977B (zh) * | 2023-06-19 | 2023-08-18 | 北京科技大学 | 一种视觉检测模型的对抗鲁棒性评估方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114387476A (zh) | 一种提高对抗样本在防御机制上迁移性的方法 | |
CN112364885B (zh) | 一种基于深度神经网络模型可解释性的对抗样本防御方法 | |
KR102318772B1 (ko) | 도메인 분리 뉴럴 네트워크들 | |
CN109859288B (zh) | 基于生成对抗网络的图像上色方法及装置 | |
CN110048827B (zh) | 一种基于深度学习卷积神经网络的类模板攻击方法 | |
CN113674140B (zh) | 一种物理对抗样本生成方法及系统 | |
CN109948663A (zh) | 一种基于模型抽取的步长自适应的对抗攻击方法 | |
CN109635763B (zh) | 一种人群密度估计方法 | |
CN106228512A (zh) | 基于学习率自适应的卷积神经网络图像超分辨率重建方法 | |
CN107945210B (zh) | 基于深度学习和环境自适应的目标跟踪方法 | |
CN109992931A (zh) | 一种基于噪声压缩的可迁移的非黑盒攻击对抗方法 | |
CN106204597B (zh) | 一种基于自步式弱监督学习的视频物体分割方法 | |
Hsu et al. | A high-capacity QRD-based blind color image watermarking algorithm incorporated with AI technologies | |
CN111047054A (zh) | 一种基于两阶段对抗知识迁移的对抗样例防御方法 | |
CN112182576A (zh) | 一种基于深度学习中特征碰撞的投毒攻击方法 | |
CN109003287A (zh) | 基于改进遗传算法的图像分割方法 | |
CN113283524A (zh) | 一种基于对抗攻击的深度神经网络近似模型分析方法 | |
CN104517120A (zh) | 基于多路分层正交匹配的遥感图像场景分类方法 | |
Chen et al. | Patch selection denoiser: An effective approach defending against one-pixel attacks | |
CN103473366B (zh) | 一种多视角跨数据域图像内容识别的分类方法及装置 | |
Dong et al. | Image deblurring with low-rank approximation structured sparse representation | |
CN112800471B (zh) | 多源域迁移中的对抗域自适应差分隐私保护方法 | |
CN112861601A (zh) | 生成对抗样本的方法及相关设备 | |
CN114723733B (zh) | 一种基于公理解释的类激活映射方法及装置 | |
CN101567079A (zh) | 基于Hopfield神经网络的运动模糊图像恢复方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |