CN112270700B - 一种愚弄深度神经网络可解释算法的攻击判断方法 - Google Patents
一种愚弄深度神经网络可解释算法的攻击判断方法 Download PDFInfo
- Publication number
- CN112270700B CN112270700B CN202011185396.3A CN202011185396A CN112270700B CN 112270700 B CN112270700 B CN 112270700B CN 202011185396 A CN202011185396 A CN 202011185396A CN 112270700 B CN112270700 B CN 112270700B
- Authority
- CN
- China
- Prior art keywords
- image
- disturbance
- noise
- interpretation
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种愚弄深度神经网络可解释性的攻击方法。每幅输入图像在某区域内加噪声后生成扰动图像;利用扰动图像构造损失函数项。在保持生成的扰动图像分类结果和原始图像分类结果相同的前提下,用可解释性算法对分类结果进行解释,并将解释的突出区域定位于扰动区域内;利用Adam优化算法逐步将噪声进行限制直到视觉上感知不出扰动存在,使扰动不明显,最后生成使解释发生错误的扰动图像。本发明将攻击与可解释性任务结合起来,能够有效攻击五种深度神经网络可解释方法,且攻击区域的大小和位置可以任意改变,可以衡量解释在攻击下的鲁棒性能。
Description
技术领域
本发明涉及了一种图像处理的可解释攻击判断方法,尤其是涉及了一种愚弄深度神经网络可解释算法的攻击判断方法。
背景技术
对于人工智能系统来说,现实环境复杂多变,系统的决策失误将会导致重大损失,所以人工智能系统模型的可解释性变得十分重要,让人们明白系统是如何工作的,决策是如何形成的,寻找其错误原因、对其进行改进。因此,研究深度学习的可解释性十分必要。然而,随着人工智能可解释性算法的不断提出,出现了对可解释算法的攻击。例如在输入图像中加入扰动,在保持预测结果不发生改变的情况下,其解释效果将发生很大程度的改变,因此对深度神经网络的可解释性算法进行鲁棒性度量是一个困难但必要的任务。
发明内容
本发明的目的在于对现有深度学习图像分类的可解释性算法进行攻击,可以同时对单目标物体和多目标物体图像的分类展开愚弄攻击,且对原始图像的扰动改变视觉不可感知,提供一种愚弄深度神经网络可解释算法的攻击判断方法,也是一种基于优化区域块噪声的攻击神经网络可解释性方法。
本发明中要解决的技术问题包括:一种有效的攻击算法;加入噪声的扰动大小要约束;单目标物体和多目标物体图像分类解释均可被愚弄;多目标物体图像分类解释被愚弄要分配合适。
为了比较现有可解释性技术的鲁棒性能,设计一种有效的愚弄深度学习可解释性算法的攻击方法是本发明要解决的技术问题之一。
此外,在输入图像中加入扰动时,还要确保扰动后的图像和原图像在视觉上尽可能的相像,即扰动不明显,分类结果不改变,同时也要达到愚弄解释的效果,扰动同时并能攻击解释也是本发明要解决的技术问题之一。
本发明不仅攻击了只包含一个目标物体的图像分类的解释,对于单幅同时包含两个及两个以上目标物体的图像,其解释也要达到被愚弄的效果,即对图像内的每个目标物体的解释不仅要产生错误,而且解释突出的区域也要分别被“分配”到各自的方形区域内,这种“分配”是可被控制的,这也是本发明要解决的技术问题之一。
如图1所示,本发明是通过以下技术方案来实现的:
步骤1)生成扰动图像:
步骤2)将扰动图像的分类类别和扰动图像对应的原始图像的分类类别c保持一致,同时针对扰动图像采用已经固定网络模型参数的深度神经网络进行图像分类的解释方法处理获得解释热力图,然后将扰动图像输入到解释的分类模型中进行训练处理,并根据解释热力图和保持分类不变建立损失函数优化获得扰动明显的噪声z;
利用初步扰动图像x~,在保持扰动和原始图像的分类的类别一致的同时,最终将解释的可视化区域定位于该掩码区域内,从而改变解释的结果,达到愚弄解释的效果。
深度神经网络图像分类的解释方法,将解释的可视化热力图区域定位于该掩码区域m内,使得解释热力图不再突出图像中目标物体本身,从而达到愚弄深度神经网络可解释算法的目的。
步骤3)根据预先设置的限制范围对步骤2)获得的噪声z进行限制迭代处理,并同时对扰动图像进行优化,表示噪声限制范围的上限,将每次迭代优化得到的噪声z加到原始图像x的扰动区域内,得到最终的视觉难感知的扰动不明显的扰动图像X;
步骤4)对步骤3)得到的视觉难感知的扰动图像X和原始图像x分别采用解释方法进行解释处理,解释处理可以是一种可视化处理方式,判断解释是否被愚弄,若解释被愚弄,则攻击成功;否则攻击不成功。
所述步骤1)中,针对多目标物体的图像分类解释被攻击的情况,单幅包含n个目标物体的扰动图像生成为:
其中,x和分别是原始图像和扰动图像,mn表示带有n块扰动区域的二进制掩码图像,二进制掩码图像是一个只包含数字0和1的大小和原始图像相同的图像,二进制掩码图像mn中包含有n块方形区域作为扰动区域,方形区域用0填充,其余区域用1填充;z为噪声。这样将噪声z同时填充到该n个扰动区域内,本发明仅以包含两个目标物体为例,即令n=2,同样设置为边界或角落位置,z为初始噪声。
具体实施中,将方形区域设置为角落或边界位置,能够不遮挡图像内主要目标物体。
所述的步骤2)中,具体为:
对于单幅单目标物体的输入图像x,输入分类模型后分类结果为c,分类模型为事先训练好的神经网络模型,分类损失定义为使扰动图像的分类不发生改变,定义为位置重要性损失lloim(h,m),使解释区域定位于定义的方形区域内,其计算为:
将lloim(h,m)作为惩罚项,则总的损失函数为:
对于单幅包含n个目标物体的输入图像x,输入到预先训练好的分类模型中,各自分类结果为cj(j=1,2,...n),加入噪声后的扰动图像使得每个类别均不改变的同时,也将各自解释区域hj定位于任意的n个角落位置,设置总共损失函数为:
其中,lloim(hj,mj)是图像中第j个目标物体的解释区域hj和其对应的二进制掩码mj的位置重要性损失,是扰动图像和第j个目标物体的分类cj的分类损失,λj是各目标物体的权衡位置重要性损失和分类损失的两项损失的超参数,cj表示第j个分类,n表示分类类别的总数;
以总共损失函数最小化优化处理获得扰动明显的噪声Z。
具体实施中包含两个目标物体的情况,令n=2。
所述步骤3)具体为:
其中,zn是第n次优化且被限制大小的噪声,L(Xn,h,c,m)表示在第n次得到的扰动图Xn上的损失,sgn()表示符号函数,▽表示求梯度,sgn(▽L())表示损失梯度的符号,ε是每次迭代梯度的贡献值;h表示解释得到的热力图,c表示预测的分类结果;
clipa,b(Z)=min(max(Z,a),b)
其中,a、b分别表示约束范围的最小和最大值,Z表示约束的对象即噪声;
3.3)将限制大小的噪声Zn+1加入到原始图像x中的扰动区域内,得到第n+1次的图像Xn+1,计算为:
3.4)重复步骤3.1)~3.3)进行多次迭代,共进行T次迭代后,得到最终迭代获得的图像XT作为视觉难感知的扰动不明显的扰动图像X。
最终根据损失函数和噪声约束过程同时采用在Adam优化器中进行优化,得到最终的优化噪声Z,以及优化噪声Z下加入后的视觉难感知的扰动不明显的扰动图像X。
本发明对于一幅输入图像,在图像的某区域内加噪声后生成扰动图像;利用扰动图像构造损失函数项;在保持生成的扰动图像分类结果和原始图像分类结果相同的前提下,用可解释性算法对分类结果进行解释,并将解释的突出区域定位于加扰区域内;同时,为了使扰动不明显,利用Adam优化算法逐步将噪声进行限制直到视觉上感知不出扰动存在,最后生成使解释发生错误的扰动图像。
本发明中用来愚弄可解释性算法的攻击方法,具有一定的迁移性,即针对某种解释算法优化得到的扰动图像,同时也可以直接进行愚弄其他的解释算法。
本发明的有益效果是:
1.本发明能够有效攻击五种深度学习可解释性算法,分别为Grad-CAM、GFI(Guided-Feature-Inversion)、Grad-CAM++、Full-Grad和Score-CAM,在不改变分类结果的同时,将解释突出到提前定义的二进制掩码方形区域内,且定义的区域的大小和位置可以随意改变,即攻击后生成的解释可以被定位到任意位置,不再突出图像内主要目标物体。
2.本发明也对噪声的大小进行了限制,从而生成视觉上不可察觉的扰动图像。
3.本发明不仅可以攻击单幅包含单个目标物体的图像的解释,同时也能愚弄单幅包含多个目标物体的图像的解释。实验中愚弄了包含两个目标物体的解释,且能分别将两个目标物体的解释定位于两个提前定义的不同的位置,是一种“一对一”针对性的愚弄,而不是只是简单的将多目标物体解释区域同时定位于同一个位置,或者进行简单的交换两个目标物体的解释。
4.本发明攻击解释的算法能够在不同解释算法间进行迁移。例如分别用Full-Grad、Grad-CAM++解释算法进行计算得到的扰动图像,可以愚弄Grad-CAM的解释,但是反过来,用Grad-CAM解释算法计算得到的扰动图像,对Full-Grad解释改变效果不明显,说明Full-Grad算法鲁棒性更好,而Grad-CAM算法鲁棒性较差。
综合来说,本发明将攻击与可解释性任务结合起来,能够有效攻击五种深度神经网络可解释方法,且攻击区域的大小和位置可以任意改变,可以衡量解释在攻击下的鲁棒性能。
附图说明
图1为本发明实施步骤流程图,通过图中所示约束优化噪声获得最终的扰动不明显的图像,并进行解释。图中:上边部分为原始图像的解释结果,下边部分为解释被攻击之后的可视化结果。
图2为原始图像在五种未被攻击的解释上的可视化结果。
图3为图2的左下角被攻击后得到的扰动图像。
图4为图3的扰动图像在五种解释上的可视化结果。
图5为Grad-CAM的攻击单幅两目标物体前后的可视化结果。
图6为分别攻击Full-Grad和Grad-CAM++优化得到的噪声迁移到Grad-CAM的可视化结果。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
按照本发明的发明内容完整方法实施的例子及其实施情况如下:
本发明在ImageNet数据集上训练的深度神经网络VGG19模型上实施,以Grad-CAM为例,进行详细说明如下:
1)生成一个随机初始化噪声,生成一个二进制掩码,如果是单幅单目标物体图像,如图2第一列所示,设定对应方形区域位置的值为0,其他区域为1;如果是单幅多目标物体的图像,如图5第一列所示,同时设定对应两个方形区域位置的值为0,其他区域为1。
5)攻击单幅单目标物体图像的解释时,设定学习率为0.01、优化次数为150次、λ为0.1、攻击单幅两目标物体图像的解释时,设定学习率为0.01、优化次数为350次、λ1和λ2均为0.1、重复执行2)、3)、4)三步。优化结束后得到最终的训练好的噪声,将该噪声加入到原始图像中,得到如图3所示的扰动不明显的图像,分别对原始图像和扰动图像进行解释。
对比图2和图4的可视化结果,可以发现预测分类未发生改变下,解释区域发生了变化。
图5为单幅两目标物体的解释被攻击,可以发现两个目标物体的预测分类均未改变时,但是可视化区域被各自分配。图6上为噪声迁移前的Grad-CAM对原图像的解释,发现解释区域在目标物体上;图6下为噪声迁移后的Grad-CAM对扰动图像的解释,发现解释区域在方形区域内,解释被愚弄。
Claims (2)
1.一种愚弄深度神经网络可解释算法的攻击判断方法,该方法步骤如下:
步骤1)生成扰动图像:
步骤2)将扰动图像的分类类别和扰动图像对应的原始图像的分类类别c保持一致,同时针对扰动图像采用深度神经网络进行图像分类的解释方法处理获得解释热力图,然后将扰动图像输入到分类模型中进行训练处理,并根据解释热力图和保持分类不变建立损失函数优化获得扰动明显的噪声z;
步骤4)对步骤3)得到的视觉难感知的扰动图像X和原始图像x分别采用解释方法进行解释处理,判断解释是否被愚弄,若解释被愚弄,则攻击成功;否则攻击不成功;
所述的步骤2)中,具体为:
对于单幅包含n个目标物体的输入图像x,输入到预先训练好的分类模型中,各自分类结果为cj(j=1,2,...n),加入噪声后的扰动图像使得每个类别均不改变的同时,也将各自解释区域hj定位于任意的n个角落位置,设置总共损失函数为:
其中,lloim(hj,mj)是图像中第j个目标物体的解释区域hj和其对应的二进制掩码mj的位置重要性损失,是扰动图像和第j个目标物体的分类cj的分类损失,λj是各目标物体的权衡位置重要性损失和分类损失的两项损失的超参数,cj表示第j个分类,n表示分类类别的总数;
以总共损失函数最小化优化处理获得扰动明显的噪声Z;
所述步骤3)具体为:
其中,zn是第n次优化且被限制大小的噪声,L(Xn,h,c,m)表示在第n次得到的扰动图Xn上的损失,sgn()表示符号函数,表示求梯度,表示损失梯度的符号,是每次迭代梯度的贡献值;h表示解释得到的热力图,c表示预测的分类结果;
clipa,b(Z)=min(max(Z,a),b)
其中,a、b分别表示约束范围的最小和最大值,Z表示约束的对象即噪声;
3.3)将限制大小的噪声Zn+1加入到原始图像x中的扰动区域内,得到第n+1次的图像Xn+1,计算为:
3.4)重复步骤3.1)~3.3)进行多次迭代,共进行T次迭代后,得到最终迭代获得的图像XT作为视觉难感知的扰动图像X。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011185396.3A CN112270700B (zh) | 2020-10-30 | 2020-10-30 | 一种愚弄深度神经网络可解释算法的攻击判断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011185396.3A CN112270700B (zh) | 2020-10-30 | 2020-10-30 | 一种愚弄深度神经网络可解释算法的攻击判断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112270700A CN112270700A (zh) | 2021-01-26 |
CN112270700B true CN112270700B (zh) | 2022-06-28 |
Family
ID=74345007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011185396.3A Active CN112270700B (zh) | 2020-10-30 | 2020-10-30 | 一种愚弄深度神经网络可解释算法的攻击判断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112270700B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113487545A (zh) * | 2021-06-24 | 2021-10-08 | 广州玖的数码科技有限公司 | 一种面向姿态估计深度神经网络的扰动图像生成方法 |
CN113836392B (zh) * | 2021-08-06 | 2024-03-26 | 浙江大学 | 一种基于bert与用户评论的深度学习可解释推荐方法 |
CN113971640B (zh) * | 2021-09-15 | 2024-06-14 | 浙江大学 | 对深度网络解释算法的对抗噪声攻击扰动图像的防御方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446765A (zh) * | 2018-02-11 | 2018-08-24 | 浙江工业大学 | 面向深度学习对抗性攻击的多模型协同防御方法 |
CN110516695A (zh) * | 2019-07-11 | 2019-11-29 | 南京航空航天大学 | 面向医学图像分类的对抗样本生成方法及系统 |
CN111160400A (zh) * | 2019-12-06 | 2020-05-15 | 天津大学 | 一种基于修正边界攻击的对抗攻击方法 |
CN111340180A (zh) * | 2020-02-10 | 2020-06-26 | 中国人民解放军国防科技大学 | 指定标签的对抗样本生成方法、装置、电子设备及介质 |
CN111414964A (zh) * | 2020-03-23 | 2020-07-14 | 上海金桥信息股份有限公司 | 一种基于对抗样本防御的图像安全识别方法 |
CN111667049A (zh) * | 2019-03-08 | 2020-09-15 | 国际商业机器公司 | 量化深度学习计算系统对对抗性扰动的脆弱性 |
-
2020
- 2020-10-30 CN CN202011185396.3A patent/CN112270700B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446765A (zh) * | 2018-02-11 | 2018-08-24 | 浙江工业大学 | 面向深度学习对抗性攻击的多模型协同防御方法 |
CN111667049A (zh) * | 2019-03-08 | 2020-09-15 | 国际商业机器公司 | 量化深度学习计算系统对对抗性扰动的脆弱性 |
CN110516695A (zh) * | 2019-07-11 | 2019-11-29 | 南京航空航天大学 | 面向医学图像分类的对抗样本生成方法及系统 |
CN111160400A (zh) * | 2019-12-06 | 2020-05-15 | 天津大学 | 一种基于修正边界攻击的对抗攻击方法 |
CN111340180A (zh) * | 2020-02-10 | 2020-06-26 | 中国人民解放军国防科技大学 | 指定标签的对抗样本生成方法、装置、电子设备及介质 |
CN111414964A (zh) * | 2020-03-23 | 2020-07-14 | 上海金桥信息股份有限公司 | 一种基于对抗样本防御的图像安全识别方法 |
Non-Patent Citations (3)
Title |
---|
Fooling neural network interpretations via adversarial model manipulation;Juyeon Heo 等;《arXiv:1902.02041v3 [cs.LG]》;20191101;第1-18页 * |
基于生成式对抗网络的通用性对抗扰动生成方法;刘恒等;《信息网络安全》;20200510;第20卷(第05期);第57-64页 * |
聚焦图像对抗攻击算法PS-MIFGSM;吴立人等;《计算机应用》;20200510;第40卷(第05期);第1348-1353页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112270700A (zh) | 2021-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112270700B (zh) | 一种愚弄深度神经网络可解释算法的攻击判断方法 | |
CN109492582B (zh) | 一种基于算法对抗性攻击的图像识别攻击方法 | |
CN111881935B (zh) | 一种基于内容感知gan的对抗样本生成方法 | |
Liu et al. | A chaotic quantum-behaved particle swarm optimization based on lateral inhibition for image matching | |
CN112364885B (zh) | 一种基于深度神经网络模型可解释性的对抗样本防御方法 | |
CN113674140B (zh) | 一种物理对抗样本生成方法及系统 | |
KR20200072588A (ko) | Cnn기반의 딥러닝 모델 학습장치 및 그 방법 | |
CN112733458B (zh) | 一种基于自适应变分模态分解的工程结构信号处理方法 | |
CN114758198A (zh) | 一种基于元学习对抗扰动的黑盒攻击方法及系统 | |
CN114399630A (zh) | 基于信念攻击和显著区域扰动限制的对抗样本生成方法 | |
Qin et al. | Gradually enhanced adversarial perturbations on color pixel vectors for image steganography | |
CN113935496A (zh) | 一种面向集成模型的鲁棒性提升防御方法 | |
CN116824334A (zh) | 一种基于频域特征融合再构的模型后门攻击对抗方法 | |
KR101982942B1 (ko) | 객체 추적 방법 및 이를 수행하는 장치들 | |
CN113971640B (zh) | 对深度网络解释算法的对抗噪声攻击扰动图像的防御方法 | |
CN115510986A (zh) | 一种基于AdvGAN的对抗样本生成方法 | |
CN116527296A (zh) | 一种多层次网络安全态势评估方法 | |
CN112149752B (zh) | 一种单像素攻击分布可视化方法 | |
Dong et al. | Image multithreshold segmentation method based on improved Harris hawk optimization | |
CN112529047A (zh) | 一种基于梯度屏蔽的对抗样本生成方法 | |
CN116361965A (zh) | 基于注意力引导的自适应动量偏差对抗攻击方法 | |
CN117876817B (zh) | 一种对抗样本生成方法 | |
CN115631333B (zh) | 提高目标检测模型鲁棒性的对抗训练方法及目标检测方法 | |
CN117171762A (zh) | 一种基于数据增强和步长调整的单步对抗训练方法及系统 | |
CN116433924A (zh) | 一种基于有目标数据增强的对抗攻击方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |