CN114332569A - 基于注意力机制的低扰动对抗攻击方法 - Google Patents

基于注意力机制的低扰动对抗攻击方法 Download PDF

Info

Publication number
CN114332569A
CN114332569A CN202210261232.7A CN202210261232A CN114332569A CN 114332569 A CN114332569 A CN 114332569A CN 202210261232 A CN202210261232 A CN 202210261232A CN 114332569 A CN114332569 A CN 114332569A
Authority
CN
China
Prior art keywords
disturbance
sample
attention
attack
gradient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210261232.7A
Other languages
English (en)
Other versions
CN114332569B (zh
Inventor
练智超
黄庆福
李千目
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202210261232.7A priority Critical patent/CN114332569B/zh
Publication of CN114332569A publication Critical patent/CN114332569A/zh
Application granted granted Critical
Publication of CN114332569B publication Critical patent/CN114332569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于注意力机制的低扰动对抗攻击方法,属于人工智能安全领域。包括获得输入样本的梯度矩阵;选择对抗样本的重要区域进行更新;将对抗样本的扰动分组,逐组减半降低扰动;通过注意力机制,选择模型的非注意力区域进一步降低扰动,得到最终的对抗样本。本发明利用注意力机制的特点,来提取模型的感兴趣的特征区域,在对注意力区域进行攻击的同时,减少非注意力区域的冗余噪声,即保证了对抗样本的攻击有效性,又增强了对抗样本扰动的不可见性,提高对抗样本的图像质量。

Description

基于注意力机制的低扰动对抗攻击方法
技术领域
本发明属于人工智能安全技术领域,具体涉及一种基于注意力机制的低扰动对抗攻击方法。
背景技术
随着人工智能的发展,深度神经网络在计算机视觉方面得到了越来越广泛的应用。但是,近期的研究表明,深度神经网络很容易受到带有微小扰动的对抗样本的攻击从而产生误分类,这为其带来了许多安全隐患,特别是在自动驾驶,无人机等安全领域上的应用。近年来,人们针对对抗样本的生成进行了越来越广泛的研究,旨在发现模型的不足,提高模型的鲁棒性。
对抗攻击可分为白盒攻击和黑盒攻击。其中,白盒攻击需要已知攻击模型的内部结构信息,不太符合实际的应用场景。黑盒攻击要求攻击者在模型内部结构未知的情况下对其进行攻击,具体可分为查询攻击和迁移性攻击。在查询攻击中,需要利用模型的输出结果来估计模型的决策边界和梯度信息,进而生成对抗样本。而迁移性攻击则利用了白盒模型生成的对抗样本的可转移性。但是这些迁移性攻击未考虑到攻击时产生的噪声冗余问题,即在迭代攻击的过程中均在全局上进行一定步长的扰动。因此,需要结合冗余噪声和攻击效果,设计出低扰动的对抗样本生成方法。
发明内容
本发明解决的技术问题:提供一种对注意力区域进行攻击的同时,减少非注意力区域的冗余噪声,攻击有效性高且增强对抗样本扰动的不可见性的基于注意力机制的低扰动对抗攻击方法。
技术方案:为了解决上述技术问题,本发明采用的技术方案如下:
一种基于注意力机制的低扰动对抗攻击方法,其特征在于,包括:首先,获得输入样本的梯度矩阵;选择对抗样本的重要区域进行对抗样本的更新;将对抗样本的扰动分组,逐组减半降低扰动;通过注意力机制,选择模型的非注意力区域进一步降低扰动,得到最终的对抗样本。
进一步地,获得输入样本的梯度矩阵的方法为:在对抗攻击的过程中,将原始样本输入攻击网络,并利用损失函数得到反向传播后的梯度值矩阵:
Figure 775475DEST_PATH_IMAGE001
并利用基于动量的更新方法优化梯度更新方向:
Figure 787294DEST_PATH_IMAGE002
其中,u为动量因子,J为模型使用的损失函数,
Figure 345314DEST_PATH_IMAGE003
为第t轮迭代产生的对抗样 本,y表示原始图片的真实标签,
Figure 467991DEST_PATH_IMAGE004
表示第t轮迭代产生的动量。
进一步地,选择对抗样本的重要区域进行更新的方法如下:
步骤2.1:选择梯度的绝对值大小作为区域重要性的判定依据,将其进行排序,找到梯度绝对值最小的n个像素点的索引位置为
Figure 427857DEST_PATH_IMAGE005
其中,L(.)表示获取值的对应索引的损失函数;
步骤2.2:基于索引位置,获得对应的掩码矩阵
Figure 344997DEST_PATH_IMAGE006
其中,i,j,k表示每个像素点在矩阵中的索引位置;
步骤2.3:在每轮对抗样本的更新过程中,只选择重要的像素点根据梯度方向进行更新,根据梯度矩阵的符号和掩码矩阵的符号来更新对抗样本
Figure 390313DEST_PATH_IMAGE007
式中,
Figure 51102DEST_PATH_IMAGE008
为扰动的更新步长,
Figure 865474DEST_PATH_IMAGE009
为获取梯度矩阵符号的函数。
进一步地,将对抗样本的扰动分组,逐组减半降低扰动,具体方式如下:
首先根据扰动noise的大小,从大到小进行排序,并进行分组,接着对每组的扰动进行降扰,具体为noise i =noise i /2;然后,利用查询机制对降扰后的对抗样本进行验证,即F (x+noise),若失去攻击效果,则取消该分组的降扰操作;否则,保留具有攻击效果的对抗样本的降扰操作。
进一步地,通过注意力机制,选择模型的非注意力区域进一步降低扰动,得到最终的对抗样本,具体方式如下:
步骤4.1:首先根据grad-CAM注意力提取方法获得攻击模型的注意力特征图att i,j,k
步骤4.2:根据特征图的数值分布特点,根据转换因子
Figure 219095DEST_PATH_IMAGE010
,获得二进制类型的注意力 掩码矩阵:
Figure 486128DEST_PATH_IMAGE011
步骤4.3:根据步骤4.2中的获得的注意力掩码矩阵,选择非注意力区域,更为精确地进行降低扰动的操作;在非注意力区域中根据扰动的大小进行排序和分组,接着对每组的扰动进行减半降扰操作,并利用查询机制对降扰后的对抗样本进行验证。若失去攻击效果,则取消该分组的降扰操作;否则,保留具有攻击效果的对抗样本的降扰操作。
有益效果:与现有技术相比,本发明具有以下优点:
(1)本发明提出了基于注意力机制的攻击方法,相比于其他可迁移性对抗样本生成方法,在保证攻击效果的同时,具有更低的噪声冗余。
(2)在对抗样本生成时,根据梯度大小对于图片攻击效果的影响,融合梯度掩码,减少了可迁移攻击产生的冗余噪声。
(3)在对抗样本生成后利用分组降扰的方法对扰动进行初步的压缩。接着,提取注意力特征图,细化攻击区域。融合了注意力机制和查询机制来平衡攻击效果和冗余噪声,进一步减少对抗样本的扰动。
附图说明
图1是基于注意力机制的低扰动对抗攻击方法结构示意图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,实施例在以本发明技术方案为前提下进行实施,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。
如图1所示,本发明的基于注意力机制的低扰动对抗攻击方法,首先获得输入样本的梯度矩阵;选择对抗样本的重要区域进行对抗样本的更新;将对抗样本的扰动分组,逐组减半降低扰动;通过注意力机制,选择模型的非注意力区域进一步降低扰动,得到最终的对抗样本。具体包括如下步骤1-步骤4共四大步骤:
步骤1:获得输入样本的梯度矩阵,具体方式如下:
在对抗攻击的过程中,将原始样本输入攻击网络,并利用损失函数得到反向传播后的梯度值矩阵:
Figure 950608DEST_PATH_IMAGE012
并利用基于动量的更新方法优化梯度更新方向:
Figure 619487DEST_PATH_IMAGE013
其中,u为动量因子,J为模型使用的损失函数,
Figure 878430DEST_PATH_IMAGE014
为第t轮迭代产生的对抗样 本,y表示原始图片的真实标签,
Figure 898338DEST_PATH_IMAGE015
表示第t轮迭代产生的动量。
步骤2:选择对抗样本的重要区域进行更新,具体方式如下:
步骤2.1:选择梯度的绝对值大小作为区域重要性的判定依据,将其进行排序,找到梯度绝对值最小的n个像素点的索引位置为:
Figure 900929DEST_PATH_IMAGE016
步骤2.2:基于索引位置,获得对应的掩码矩阵:
Figure 424314DEST_PATH_IMAGE017
其中L(.)表示获取值的对应索引的损失函数;
步骤2.3:在每轮对抗样本的更新过程中,只选择重要的像素点根据梯度方向进行更新,根据梯度矩阵的符号和掩码矩阵的符号来更新对抗样本
Figure 119738DEST_PATH_IMAGE018
式中,
Figure 361363DEST_PATH_IMAGE019
为扰动的更新步长,
Figure 902066DEST_PATH_IMAGE009
为获取梯度矩阵符号的函数。
步骤3:将对抗样本的扰动分组,逐组减半降低扰动,具体方式如下:
首先根据扰动noise的大小,从大到小进行排序,并进行分组,接着对每组的扰动进行降扰,具体为noise i =noise i /2,其中i为组号;然后,利用查询机制对降扰后的对抗样本进行验证,即F(x+noise),其中x为原始样本,F为黑盒模型模拟的查询函数;若失去攻击效果,则取消该分组的降扰操作;否则,保留具有攻击效果的对抗样本的降扰操作。
步骤4:通过注意力机制,选择模型的非注意力区域进一步降低扰动,得到最终的对抗样本,具体方式如下:
步骤4.1:首先根据grad-CAM注意力提取方法获得攻击模型的注意力特征图att i,j,k
步骤4.2:根据特征图的数值分布特点,根据转换因子
Figure 811116DEST_PATH_IMAGE010
,获得二进制类型的注意力 掩码矩阵:
Figure 146283DEST_PATH_IMAGE020
步骤4.3:根据步骤4.2中的获得的注意力掩码矩阵,选择非注意力区域,更为精确地进行降低扰动的操作;在非注意力区域中根据扰动的大小进行排序和分组,接着对每组的扰动进行减半降扰操作,并利用查询机制对降扰后的对抗样本进行验证。若失去攻击效果,则取消该分组的降扰操作;否则,保留具有攻击效果的对抗样本的降扰操作。
通过以下实验验证本发明的方法有效性和效率:
评估指标为对抗样本的
Figure 140784DEST_PATH_IMAGE021
范数值(扰动大小)和对黑盒模型的成功攻击率。
成功攻击率——为对黑盒模型的攻击效果。
Figure 485177DEST_PATH_IMAGE022
范数——为对抗样本与原始样本之间扰动量的大小。
首先选择数据集,本发明选择了ImageNet-compatible数据集,其中包含了ImageNet数据集中1000张不同种类的图像,并被应用于NIPS 2017对抗竞赛中。接着本发明选择VGG-16为白盒模型,Inception V3,Inception- ResNet152 V2 (Res-152)和DenseNet161 (Dense-161) 为黑盒攻击模型。对比方法为原始的基于动量的MI-FGSM攻击方法。
表1 本发明在不同黑盒模型下的成功攻击率
Figure 983155DEST_PATH_IMAGE023
表2 本发明在不同黑盒模型下的
Figure 754802DEST_PATH_IMAGE021
范数
Figure 236599DEST_PATH_IMAGE024
表1和表2的结果表示,本发明的方法可以保证成功攻击率下降不超过2%的前提 下,大幅降低针对不同黑盒模型进行攻击时的对抗扰动的
Figure 119104DEST_PATH_IMAGE025
范数的大小,进一步提升了对 抗样本扰动的不可见性。
总体而言,本发明提出了基于注意力机制的攻击方法。在对抗样本生成时,融合梯度掩码,较少可迁移攻击产生的冗余扰动。在对抗样本生成后利用注意力特征图,细化攻击区域进一步减少了对抗样本的扰动。本发明融合了注意力机制和查询机制,来平衡攻击效果和冗余扰动。相比于其他可迁移性对抗样本生成方法,在保证攻击效果的同时,具有更低的扰动量。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种基于注意力机制的低扰动对抗攻击方法,其特征在于,包括:首先,获得输入样本的梯度矩阵;选择对抗样本的重要区域进行对抗样本的更新;将对抗样本的扰动分组,逐组减半降低扰动;通过注意力机制,选择模型的非注意力区域进一步降低扰动,得到最终的对抗样本;其中,获得输入样本的梯度矩阵的方法为:在对抗攻击的过程中,将原始样本输入攻击网络,并利用损失函数得到反向传播后的梯度值矩阵:
Figure 584803DEST_PATH_IMAGE001
并利用基于动量的更新方法优化梯度更新方向:
Figure 946514DEST_PATH_IMAGE002
其中,u为动量因子,J为模型使用的损失函数,
Figure 658118DEST_PATH_IMAGE003
为第t轮迭代产生的对抗样本,y表 示原始图片的真实标签,
Figure 788886DEST_PATH_IMAGE004
表示第t轮迭代产生的动量。
2.根据权利要求1所述的基于注意力机制的低扰动对抗攻击方法,其特征在于:选择对抗样本的重要区域进行更新的方法如下:
步骤2.1:选择梯度的绝对值大小作为区域重要性的判定依据,将其进行排序,找到梯度绝对值最小的n个像素点的索引位置为
Figure 193322DEST_PATH_IMAGE005
其中,L(.)表示获取值的对应索引的损失函数;
步骤2.2:基于索引位置,获得对应的掩码矩阵
Figure 42329DEST_PATH_IMAGE006
其中,i,j,k表示每个像素点在矩阵中的索引位置;
步骤2.3:在每轮对抗样本的更新过程中,只选择重要的像素点根据梯度方向进行更新,根据梯度矩阵的符号和掩码矩阵的符号来更新对抗样本
Figure 557624DEST_PATH_IMAGE007
式中,
Figure 542898DEST_PATH_IMAGE008
为扰动的更新步长,
Figure 118236DEST_PATH_IMAGE009
为获取梯度矩阵符号的函数。
3.根据权利要求1所述的基于注意力机制的低扰动对抗攻击方法,其特征在于:将对抗样本的扰动分组,逐组减半降低扰动,具体方式如下:
首先根据扰动noise的大小,从大到小进行排序,并进行分组,接着对每组的扰动进行降扰,具体为noise i =noise i /2,其中i为组号;然后,利用查询机制对降扰后的对抗样本进行验证,即F(x+noise i ),其中x为原始样本,F为黑盒模型模拟的查询函数;若失去攻击效果,则取消该分组的降扰操作;否则,保留具有攻击效果的对抗样本的降扰操作。
4.根据权利要求1所述的基于注意力机制的低扰动对抗攻击方法,其特征在于:通过注意力机制,选择模型的非注意力区域进一步降低扰动,得到最终的对抗样本,具体方式如下:
步骤4.1:首先根据grad-CAM注意力提取方法获得攻击模型的注意力特征图att i,j,k
步骤4.2:根据特征图的数值分布特点,根据转换因子
Figure 454539DEST_PATH_IMAGE010
,获得二进制类型的注意力掩码 矩阵:
Figure 507946DEST_PATH_IMAGE011
步骤4.3:根据步骤4.2中的获得的注意力掩码矩阵,选择非注意力区域,更为精确地进行降低扰动的操作;在非注意力区域中根据扰动的大小进行排序和分组,接着对每组的扰动进行减半降扰操作,并利用查询机制对降扰后的对抗样本进行验证;
若失去攻击效果,则取消该分组的降扰操作;否则,保留具有攻击效果的对抗样本的降扰操作。
CN202210261232.7A 2022-03-17 2022-03-17 基于注意力机制的低扰动对抗攻击方法 Active CN114332569B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210261232.7A CN114332569B (zh) 2022-03-17 2022-03-17 基于注意力机制的低扰动对抗攻击方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210261232.7A CN114332569B (zh) 2022-03-17 2022-03-17 基于注意力机制的低扰动对抗攻击方法

Publications (2)

Publication Number Publication Date
CN114332569A true CN114332569A (zh) 2022-04-12
CN114332569B CN114332569B (zh) 2022-05-27

Family

ID=81033138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210261232.7A Active CN114332569B (zh) 2022-03-17 2022-03-17 基于注意力机制的低扰动对抗攻击方法

Country Status (1)

Country Link
CN (1) CN114332569B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114815904A (zh) * 2022-06-29 2022-07-29 中国科学院自动化研究所 基于注意力网络的无人集群对抗方法、装置及无人设备
CN114943641A (zh) * 2022-07-26 2022-08-26 北京航空航天大学 基于模型共享结构的对抗纹理图像生成方法和装置
WO2024027068A1 (zh) * 2022-08-05 2024-02-08 深圳中集智能科技有限公司 评估目标检测模型鲁棒性的攻击方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948658A (zh) * 2019-02-25 2019-06-28 浙江工业大学 面向特征图注意力机制的对抗攻击防御方法及应用
US20200285952A1 (en) * 2019-03-08 2020-09-10 International Business Machines Corporation Quantifying Vulnerabilities of Deep Learning Computing Systems to Adversarial Perturbations
CN111768325A (zh) * 2020-04-03 2020-10-13 南京信息工程大学 大数据隐私保护中基于生成对抗样本的安全性提升方法
CN112633280A (zh) * 2020-12-31 2021-04-09 西北大学 一种对抗样本生成方法及系统
CN112836798A (zh) * 2021-01-29 2021-05-25 华中科技大学 一种针对场景文字识别的非定向式白盒对抗攻击方法
CN113505864A (zh) * 2021-09-10 2021-10-15 南京理工大学 群智能单像素生成扰动与攻击方法
CN113609784A (zh) * 2021-08-18 2021-11-05 清华大学 一种交通极限场景生成方法、系统、设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948658A (zh) * 2019-02-25 2019-06-28 浙江工业大学 面向特征图注意力机制的对抗攻击防御方法及应用
US20200285952A1 (en) * 2019-03-08 2020-09-10 International Business Machines Corporation Quantifying Vulnerabilities of Deep Learning Computing Systems to Adversarial Perturbations
CN111768325A (zh) * 2020-04-03 2020-10-13 南京信息工程大学 大数据隐私保护中基于生成对抗样本的安全性提升方法
CN112633280A (zh) * 2020-12-31 2021-04-09 西北大学 一种对抗样本生成方法及系统
CN112836798A (zh) * 2021-01-29 2021-05-25 华中科技大学 一种针对场景文字识别的非定向式白盒对抗攻击方法
CN113609784A (zh) * 2021-08-18 2021-11-05 清华大学 一种交通极限场景生成方法、系统、设备和存储介质
CN113505864A (zh) * 2021-09-10 2021-10-15 南京理工大学 群智能单像素生成扰动与攻击方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DEQIANG LI等: "Adversarial Deep Ensemble: Evasion Attacks and Defenses for Malware Detection", 《IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY》 *
JINYINCHEN等: "FineFool: A novel DNN object contour attack on image recognition based on the attention perturbation adversarial technique", 《COMPUTERS & SECURITY》 *
XIAOYI DONG等: "Robust Superpixel-Guided Attentional Adversarial Attack", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
张宏伦: "基于生成对抗网络的人脸图片编辑研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114815904A (zh) * 2022-06-29 2022-07-29 中国科学院自动化研究所 基于注意力网络的无人集群对抗方法、装置及无人设备
CN114943641A (zh) * 2022-07-26 2022-08-26 北京航空航天大学 基于模型共享结构的对抗纹理图像生成方法和装置
CN114943641B (zh) * 2022-07-26 2022-10-28 北京航空航天大学 基于模型共享结构的对抗纹理图像生成方法和装置
WO2024027068A1 (zh) * 2022-08-05 2024-02-08 深圳中集智能科技有限公司 评估目标检测模型鲁棒性的攻击方法和装置

Also Published As

Publication number Publication date
CN114332569B (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN114332569B (zh) 基于注意力机制的低扰动对抗攻击方法
CN108446700B (zh) 一种基于对抗攻击的车牌攻击生成方法
CN113674140B (zh) 一种物理对抗样本生成方法及系统
CN112308133A (zh) 基于卷积神经网络的调制识别方法
CN110335212B (zh) 基于条件对抗网络的缺损古籍汉字修复方法
CN109063723A (zh) 基于迭代挖掘物体共同特征的弱监督图像语义分割方法
CN111651762A (zh) 一种基于卷积神经网络的pe恶意软件检测方法
CN110175248B (zh) 一种基于深度学习和哈希编码的人脸图像检索方法和装置
CN111488911B (zh) 基于Mask R-CNN与GAN的图像实体抽取方法
CN112766315A (zh) 一种用于测试人工智能模型鲁棒性的方法和系统
CN110210347A (zh) 一种基于深度学习的彩色套层剪纸智能设计方法
CN113159045A (zh) 一种结合图像预处理与卷积神经网络的验证码识别方法
CN113657267A (zh) 一种半监督行人重识别模型、方法和装置
CN114299286A (zh) 一种异常天气下基于类别分组的道路场景语义分割方法
CN115019039A (zh) 一种结合自监督和全局信息增强的实例分割方法及系统
CN115578722A (zh) 基于车牌间协同学习机制的车牌检测方法
CN115879108A (zh) 基于神经网络特征提取的联邦学习模型攻击防御方法
Cheng et al. Fast gradient non-sign methods
Song et al. Learning structural similarity with evolutionary-GAN: A new face de-identification method
Xu et al. Adversarial example defense based on image reconstruction
CN111612803B (zh) 一种基于图像清晰度的车辆图像语义分割方法
CN117522735A (zh) 基于多尺度的密流感知去雨图像增强方法
Zhang et al. Adversarial learning in transformer based neural network in radio signal classification
CN113159317B (zh) 一种基于动态残差侵蚀的对抗样本生成方法
CN113537272A (zh) 基于深度学习的半监督社交网络异常账号检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant