CN114332569A - 基于注意力机制的低扰动对抗攻击方法 - Google Patents
基于注意力机制的低扰动对抗攻击方法 Download PDFInfo
- Publication number
- CN114332569A CN114332569A CN202210261232.7A CN202210261232A CN114332569A CN 114332569 A CN114332569 A CN 114332569A CN 202210261232 A CN202210261232 A CN 202210261232A CN 114332569 A CN114332569 A CN 114332569A
- Authority
- CN
- China
- Prior art keywords
- disturbance
- sample
- attention
- attack
- gradient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000007246 mechanism Effects 0.000 title claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims abstract description 30
- 230000009467 reduction Effects 0.000 claims description 22
- 230000000694 effects Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 description 4
- 235000000332 black box Nutrition 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000001617 migratory effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于注意力机制的低扰动对抗攻击方法,属于人工智能安全领域。包括获得输入样本的梯度矩阵;选择对抗样本的重要区域进行更新;将对抗样本的扰动分组,逐组减半降低扰动;通过注意力机制,选择模型的非注意力区域进一步降低扰动,得到最终的对抗样本。本发明利用注意力机制的特点,来提取模型的感兴趣的特征区域,在对注意力区域进行攻击的同时,减少非注意力区域的冗余噪声,即保证了对抗样本的攻击有效性,又增强了对抗样本扰动的不可见性,提高对抗样本的图像质量。
Description
技术领域
本发明属于人工智能安全技术领域,具体涉及一种基于注意力机制的低扰动对抗攻击方法。
背景技术
随着人工智能的发展,深度神经网络在计算机视觉方面得到了越来越广泛的应用。但是,近期的研究表明,深度神经网络很容易受到带有微小扰动的对抗样本的攻击从而产生误分类,这为其带来了许多安全隐患,特别是在自动驾驶,无人机等安全领域上的应用。近年来,人们针对对抗样本的生成进行了越来越广泛的研究,旨在发现模型的不足,提高模型的鲁棒性。
对抗攻击可分为白盒攻击和黑盒攻击。其中,白盒攻击需要已知攻击模型的内部结构信息,不太符合实际的应用场景。黑盒攻击要求攻击者在模型内部结构未知的情况下对其进行攻击,具体可分为查询攻击和迁移性攻击。在查询攻击中,需要利用模型的输出结果来估计模型的决策边界和梯度信息,进而生成对抗样本。而迁移性攻击则利用了白盒模型生成的对抗样本的可转移性。但是这些迁移性攻击未考虑到攻击时产生的噪声冗余问题,即在迭代攻击的过程中均在全局上进行一定步长的扰动。因此,需要结合冗余噪声和攻击效果,设计出低扰动的对抗样本生成方法。
发明内容
本发明解决的技术问题:提供一种对注意力区域进行攻击的同时,减少非注意力区域的冗余噪声,攻击有效性高且增强对抗样本扰动的不可见性的基于注意力机制的低扰动对抗攻击方法。
技术方案:为了解决上述技术问题,本发明采用的技术方案如下:
一种基于注意力机制的低扰动对抗攻击方法,其特征在于,包括:首先,获得输入样本的梯度矩阵;选择对抗样本的重要区域进行对抗样本的更新;将对抗样本的扰动分组,逐组减半降低扰动;通过注意力机制,选择模型的非注意力区域进一步降低扰动,得到最终的对抗样本。
进一步地,获得输入样本的梯度矩阵的方法为:在对抗攻击的过程中,将原始样本输入攻击网络,并利用损失函数得到反向传播后的梯度值矩阵:
并利用基于动量的更新方法优化梯度更新方向:
进一步地,选择对抗样本的重要区域进行更新的方法如下:
步骤2.1:选择梯度的绝对值大小作为区域重要性的判定依据,将其进行排序,找到梯度绝对值最小的n个像素点的索引位置为
其中,L(.)表示获取值的对应索引的损失函数;
步骤2.2:基于索引位置,获得对应的掩码矩阵
其中,i,j,k表示每个像素点在矩阵中的索引位置;
步骤2.3:在每轮对抗样本的更新过程中,只选择重要的像素点根据梯度方向进行更新,根据梯度矩阵的符号和掩码矩阵的符号来更新对抗样本
进一步地,将对抗样本的扰动分组,逐组减半降低扰动,具体方式如下:
首先根据扰动noise的大小,从大到小进行排序,并进行分组,接着对每组的扰动进行降扰,具体为noise i =noise i /2;然后,利用查询机制对降扰后的对抗样本进行验证,即F (x+noise),若失去攻击效果,则取消该分组的降扰操作;否则,保留具有攻击效果的对抗样本的降扰操作。
进一步地,通过注意力机制,选择模型的非注意力区域进一步降低扰动,得到最终的对抗样本,具体方式如下:
步骤4.1:首先根据grad-CAM注意力提取方法获得攻击模型的注意力特征图att i,j,k ;
步骤4.3:根据步骤4.2中的获得的注意力掩码矩阵,选择非注意力区域,更为精确地进行降低扰动的操作;在非注意力区域中根据扰动的大小进行排序和分组,接着对每组的扰动进行减半降扰操作,并利用查询机制对降扰后的对抗样本进行验证。若失去攻击效果,则取消该分组的降扰操作;否则,保留具有攻击效果的对抗样本的降扰操作。
有益效果:与现有技术相比,本发明具有以下优点:
(1)本发明提出了基于注意力机制的攻击方法,相比于其他可迁移性对抗样本生成方法,在保证攻击效果的同时,具有更低的噪声冗余。
(2)在对抗样本生成时,根据梯度大小对于图片攻击效果的影响,融合梯度掩码,减少了可迁移攻击产生的冗余噪声。
(3)在对抗样本生成后利用分组降扰的方法对扰动进行初步的压缩。接着,提取注意力特征图,细化攻击区域。融合了注意力机制和查询机制来平衡攻击效果和冗余噪声,进一步减少对抗样本的扰动。
附图说明
图1是基于注意力机制的低扰动对抗攻击方法结构示意图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,实施例在以本发明技术方案为前提下进行实施,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。
如图1所示,本发明的基于注意力机制的低扰动对抗攻击方法,首先获得输入样本的梯度矩阵;选择对抗样本的重要区域进行对抗样本的更新;将对抗样本的扰动分组,逐组减半降低扰动;通过注意力机制,选择模型的非注意力区域进一步降低扰动,得到最终的对抗样本。具体包括如下步骤1-步骤4共四大步骤:
步骤1:获得输入样本的梯度矩阵,具体方式如下:
在对抗攻击的过程中,将原始样本输入攻击网络,并利用损失函数得到反向传播后的梯度值矩阵:
并利用基于动量的更新方法优化梯度更新方向:
步骤2:选择对抗样本的重要区域进行更新,具体方式如下:
步骤2.1:选择梯度的绝对值大小作为区域重要性的判定依据,将其进行排序,找到梯度绝对值最小的n个像素点的索引位置为:
步骤2.2:基于索引位置,获得对应的掩码矩阵:
其中L(.)表示获取值的对应索引的损失函数;
步骤2.3:在每轮对抗样本的更新过程中,只选择重要的像素点根据梯度方向进行更新,根据梯度矩阵的符号和掩码矩阵的符号来更新对抗样本
步骤3:将对抗样本的扰动分组,逐组减半降低扰动,具体方式如下:
首先根据扰动noise的大小,从大到小进行排序,并进行分组,接着对每组的扰动进行降扰,具体为noise i =noise i /2,其中i为组号;然后,利用查询机制对降扰后的对抗样本进行验证,即F(x+noise),其中x为原始样本,F为黑盒模型模拟的查询函数;若失去攻击效果,则取消该分组的降扰操作;否则,保留具有攻击效果的对抗样本的降扰操作。
步骤4:通过注意力机制,选择模型的非注意力区域进一步降低扰动,得到最终的对抗样本,具体方式如下:
步骤4.1:首先根据grad-CAM注意力提取方法获得攻击模型的注意力特征图att i,j,k ;
步骤4.3:根据步骤4.2中的获得的注意力掩码矩阵,选择非注意力区域,更为精确地进行降低扰动的操作;在非注意力区域中根据扰动的大小进行排序和分组,接着对每组的扰动进行减半降扰操作,并利用查询机制对降扰后的对抗样本进行验证。若失去攻击效果,则取消该分组的降扰操作;否则,保留具有攻击效果的对抗样本的降扰操作。
通过以下实验验证本发明的方法有效性和效率:
成功攻击率——为对黑盒模型的攻击效果。
首先选择数据集,本发明选择了ImageNet-compatible数据集,其中包含了ImageNet数据集中1000张不同种类的图像,并被应用于NIPS 2017对抗竞赛中。接着本发明选择VGG-16为白盒模型,Inception V3,Inception- ResNet152 V2 (Res-152)和DenseNet161 (Dense-161) 为黑盒攻击模型。对比方法为原始的基于动量的MI-FGSM攻击方法。
表1 本发明在不同黑盒模型下的成功攻击率
总体而言,本发明提出了基于注意力机制的攻击方法。在对抗样本生成时,融合梯度掩码,较少可迁移攻击产生的冗余扰动。在对抗样本生成后利用注意力特征图,细化攻击区域进一步减少了对抗样本的扰动。本发明融合了注意力机制和查询机制,来平衡攻击效果和冗余扰动。相比于其他可迁移性对抗样本生成方法,在保证攻击效果的同时,具有更低的扰动量。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
3.根据权利要求1所述的基于注意力机制的低扰动对抗攻击方法,其特征在于:将对抗样本的扰动分组,逐组减半降低扰动,具体方式如下:
首先根据扰动noise的大小,从大到小进行排序,并进行分组,接着对每组的扰动进行降扰,具体为noise i =noise i /2,其中i为组号;然后,利用查询机制对降扰后的对抗样本进行验证,即F(x+noise i ),其中x为原始样本,F为黑盒模型模拟的查询函数;若失去攻击效果,则取消该分组的降扰操作;否则,保留具有攻击效果的对抗样本的降扰操作。
4.根据权利要求1所述的基于注意力机制的低扰动对抗攻击方法,其特征在于:通过注意力机制,选择模型的非注意力区域进一步降低扰动,得到最终的对抗样本,具体方式如下:
步骤4.1:首先根据grad-CAM注意力提取方法获得攻击模型的注意力特征图att i,j,k ;
步骤4.3:根据步骤4.2中的获得的注意力掩码矩阵,选择非注意力区域,更为精确地进行降低扰动的操作;在非注意力区域中根据扰动的大小进行排序和分组,接着对每组的扰动进行减半降扰操作,并利用查询机制对降扰后的对抗样本进行验证;
若失去攻击效果,则取消该分组的降扰操作;否则,保留具有攻击效果的对抗样本的降扰操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210261232.7A CN114332569B (zh) | 2022-03-17 | 2022-03-17 | 基于注意力机制的低扰动对抗攻击方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210261232.7A CN114332569B (zh) | 2022-03-17 | 2022-03-17 | 基于注意力机制的低扰动对抗攻击方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114332569A true CN114332569A (zh) | 2022-04-12 |
CN114332569B CN114332569B (zh) | 2022-05-27 |
Family
ID=81033138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210261232.7A Active CN114332569B (zh) | 2022-03-17 | 2022-03-17 | 基于注意力机制的低扰动对抗攻击方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114332569B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114815904A (zh) * | 2022-06-29 | 2022-07-29 | 中国科学院自动化研究所 | 基于注意力网络的无人集群对抗方法、装置及无人设备 |
CN114943641A (zh) * | 2022-07-26 | 2022-08-26 | 北京航空航天大学 | 基于模型共享结构的对抗纹理图像生成方法和装置 |
WO2024027068A1 (zh) * | 2022-08-05 | 2024-02-08 | 深圳中集智能科技有限公司 | 评估目标检测模型鲁棒性的攻击方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948658A (zh) * | 2019-02-25 | 2019-06-28 | 浙江工业大学 | 面向特征图注意力机制的对抗攻击防御方法及应用 |
US20200285952A1 (en) * | 2019-03-08 | 2020-09-10 | International Business Machines Corporation | Quantifying Vulnerabilities of Deep Learning Computing Systems to Adversarial Perturbations |
CN111768325A (zh) * | 2020-04-03 | 2020-10-13 | 南京信息工程大学 | 大数据隐私保护中基于生成对抗样本的安全性提升方法 |
CN112633280A (zh) * | 2020-12-31 | 2021-04-09 | 西北大学 | 一种对抗样本生成方法及系统 |
CN112836798A (zh) * | 2021-01-29 | 2021-05-25 | 华中科技大学 | 一种针对场景文字识别的非定向式白盒对抗攻击方法 |
CN113505864A (zh) * | 2021-09-10 | 2021-10-15 | 南京理工大学 | 群智能单像素生成扰动与攻击方法 |
CN113609784A (zh) * | 2021-08-18 | 2021-11-05 | 清华大学 | 一种交通极限场景生成方法、系统、设备和存储介质 |
-
2022
- 2022-03-17 CN CN202210261232.7A patent/CN114332569B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948658A (zh) * | 2019-02-25 | 2019-06-28 | 浙江工业大学 | 面向特征图注意力机制的对抗攻击防御方法及应用 |
US20200285952A1 (en) * | 2019-03-08 | 2020-09-10 | International Business Machines Corporation | Quantifying Vulnerabilities of Deep Learning Computing Systems to Adversarial Perturbations |
CN111768325A (zh) * | 2020-04-03 | 2020-10-13 | 南京信息工程大学 | 大数据隐私保护中基于生成对抗样本的安全性提升方法 |
CN112633280A (zh) * | 2020-12-31 | 2021-04-09 | 西北大学 | 一种对抗样本生成方法及系统 |
CN112836798A (zh) * | 2021-01-29 | 2021-05-25 | 华中科技大学 | 一种针对场景文字识别的非定向式白盒对抗攻击方法 |
CN113609784A (zh) * | 2021-08-18 | 2021-11-05 | 清华大学 | 一种交通极限场景生成方法、系统、设备和存储介质 |
CN113505864A (zh) * | 2021-09-10 | 2021-10-15 | 南京理工大学 | 群智能单像素生成扰动与攻击方法 |
Non-Patent Citations (4)
Title |
---|
DEQIANG LI等: "Adversarial Deep Ensemble: Evasion Attacks and Defenses for Malware Detection", 《IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY》 * |
JINYINCHEN等: "FineFool: A novel DNN object contour attack on image recognition based on the attention perturbation adversarial technique", 《COMPUTERS & SECURITY》 * |
XIAOYI DONG等: "Robust Superpixel-Guided Attentional Adversarial Attack", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
张宏伦: "基于生成对抗网络的人脸图片编辑研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114815904A (zh) * | 2022-06-29 | 2022-07-29 | 中国科学院自动化研究所 | 基于注意力网络的无人集群对抗方法、装置及无人设备 |
CN114943641A (zh) * | 2022-07-26 | 2022-08-26 | 北京航空航天大学 | 基于模型共享结构的对抗纹理图像生成方法和装置 |
CN114943641B (zh) * | 2022-07-26 | 2022-10-28 | 北京航空航天大学 | 基于模型共享结构的对抗纹理图像生成方法和装置 |
WO2024027068A1 (zh) * | 2022-08-05 | 2024-02-08 | 深圳中集智能科技有限公司 | 评估目标检测模型鲁棒性的攻击方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114332569B (zh) | 2022-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114332569B (zh) | 基于注意力机制的低扰动对抗攻击方法 | |
CN108446700B (zh) | 一种基于对抗攻击的车牌攻击生成方法 | |
CN113674140B (zh) | 一种物理对抗样本生成方法及系统 | |
CN112308133A (zh) | 基于卷积神经网络的调制识别方法 | |
CN110335212B (zh) | 基于条件对抗网络的缺损古籍汉字修复方法 | |
CN109063723A (zh) | 基于迭代挖掘物体共同特征的弱监督图像语义分割方法 | |
CN111651762A (zh) | 一种基于卷积神经网络的pe恶意软件检测方法 | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN111488911B (zh) | 基于Mask R-CNN与GAN的图像实体抽取方法 | |
CN112766315A (zh) | 一种用于测试人工智能模型鲁棒性的方法和系统 | |
CN110210347A (zh) | 一种基于深度学习的彩色套层剪纸智能设计方法 | |
CN113159045A (zh) | 一种结合图像预处理与卷积神经网络的验证码识别方法 | |
CN113657267A (zh) | 一种半监督行人重识别模型、方法和装置 | |
CN114299286A (zh) | 一种异常天气下基于类别分组的道路场景语义分割方法 | |
CN115019039A (zh) | 一种结合自监督和全局信息增强的实例分割方法及系统 | |
CN115578722A (zh) | 基于车牌间协同学习机制的车牌检测方法 | |
CN115879108A (zh) | 基于神经网络特征提取的联邦学习模型攻击防御方法 | |
Cheng et al. | Fast gradient non-sign methods | |
Song et al. | Learning structural similarity with evolutionary-GAN: A new face de-identification method | |
Xu et al. | Adversarial example defense based on image reconstruction | |
CN111612803B (zh) | 一种基于图像清晰度的车辆图像语义分割方法 | |
CN117522735A (zh) | 基于多尺度的密流感知去雨图像增强方法 | |
Zhang et al. | Adversarial learning in transformer based neural network in radio signal classification | |
CN113159317B (zh) | 一种基于动态残差侵蚀的对抗样本生成方法 | |
CN113537272A (zh) | 基于深度学习的半监督社交网络异常账号检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |