CN112270700B - 一种愚弄深度神经网络可解释算法的攻击判断方法 - Google Patents

一种愚弄深度神经网络可解释算法的攻击判断方法 Download PDF

Info

Publication number
CN112270700B
CN112270700B CN202011185396.3A CN202011185396A CN112270700B CN 112270700 B CN112270700 B CN 112270700B CN 202011185396 A CN202011185396 A CN 202011185396A CN 112270700 B CN112270700 B CN 112270700B
Authority
CN
China
Prior art keywords
image
disturbance
noise
interpretation
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011185396.3A
Other languages
English (en)
Other versions
CN112270700A (zh
Inventor
孔祥维
宋倩倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202011185396.3A priority Critical patent/CN112270700B/zh
Publication of CN112270700A publication Critical patent/CN112270700A/zh
Application granted granted Critical
Publication of CN112270700B publication Critical patent/CN112270700B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种愚弄深度神经网络可解释性的攻击方法。每幅输入图像在某区域内加噪声后生成扰动图像;利用扰动图像构造损失函数项。在保持生成的扰动图像分类结果和原始图像分类结果相同的前提下,用可解释性算法对分类结果进行解释,并将解释的突出区域定位于扰动区域内;利用Adam优化算法逐步将噪声进行限制直到视觉上感知不出扰动存在,使扰动不明显,最后生成使解释发生错误的扰动图像。本发明将攻击与可解释性任务结合起来,能够有效攻击五种深度神经网络可解释方法,且攻击区域的大小和位置可以任意改变,可以衡量解释在攻击下的鲁棒性能。

Description

一种愚弄深度神经网络可解释算法的攻击判断方法
技术领域
本发明涉及了一种图像处理的可解释攻击判断方法,尤其是涉及了一种愚弄深度神经网络可解释算法的攻击判断方法。
背景技术
对于人工智能系统来说,现实环境复杂多变,系统的决策失误将会导致重大损失,所以人工智能系统模型的可解释性变得十分重要,让人们明白系统是如何工作的,决策是如何形成的,寻找其错误原因、对其进行改进。因此,研究深度学习的可解释性十分必要。然而,随着人工智能可解释性算法的不断提出,出现了对可解释算法的攻击。例如在输入图像中加入扰动,在保持预测结果不发生改变的情况下,其解释效果将发生很大程度的改变,因此对深度神经网络的可解释性算法进行鲁棒性度量是一个困难但必要的任务。
发明内容
本发明的目的在于对现有深度学习图像分类的可解释性算法进行攻击,可以同时对单目标物体和多目标物体图像的分类展开愚弄攻击,且对原始图像的扰动改变视觉不可感知,提供一种愚弄深度神经网络可解释算法的攻击判断方法,也是一种基于优化区域块噪声的攻击神经网络可解释性方法。
本发明中要解决的技术问题包括:一种有效的攻击算法;加入噪声的扰动大小要约束;单目标物体和多目标物体图像分类解释均可被愚弄;多目标物体图像分类解释被愚弄要分配合适。
为了比较现有可解释性技术的鲁棒性能,设计一种有效的愚弄深度学习可解释性算法的攻击方法是本发明要解决的技术问题之一。
此外,在输入图像中加入扰动时,还要确保扰动后的图像和原图像在视觉上尽可能的相像,即扰动不明显,分类结果不改变,同时也要达到愚弄解释的效果,扰动同时并能攻击解释也是本发明要解决的技术问题之一。
本发明不仅攻击了只包含一个目标物体的图像分类的解释,对于单幅同时包含两个及两个以上目标物体的图像,其解释也要达到被愚弄的效果,即对图像内的每个目标物体的解释不仅要产生错误,而且解释突出的区域也要分别被“分配”到各自的方形区域内,这种“分配”是可被控制的,这也是本发明要解决的技术问题之一。
如图1所示,本发明是通过以下技术方案来实现的:
步骤1)生成扰动图像:
对于每幅原始图像x,在原始图像x内利用二进制掩码图像m加入初始噪声z,得到带有扰动的且扰动较明显的初步的扰动图像
Figure BDA0002751262240000021
步骤2)将扰动图像
Figure BDA0002751262240000022
的分类类别和扰动图像
Figure BDA0002751262240000023
对应的原始图像的分类类别c保持一致,同时针对扰动图像
Figure BDA0002751262240000024
采用已经固定网络模型参数的深度神经网络进行图像分类的解释方法处理获得解释热力图,然后将扰动图像
Figure BDA0002751262240000025
输入到解释的分类模型中进行训练处理,并根据解释热力图和保持分类不变建立损失函数优化获得扰动明显的噪声z;
利用初步扰动图像x~,在保持扰动和原始图像的分类的类别一致的同时,最终将解释的可视化区域定位于该掩码区域内,从而改变解释的结果,达到愚弄解释的效果。
深度神经网络图像分类的解释方法,将解释的可视化热力图区域定位于该掩码区域m内,使得解释热力图不再突出图像中目标物体本身,从而达到愚弄深度神经网络可解释算法的目的。
步骤3)根据预先设置的
Figure BDA0002751262240000026
限制范围对步骤2)获得的噪声z进行限制迭代处理,并同时对扰动图像进行优化,
Figure BDA0002751262240000027
表示噪声限制范围的上限,将每次迭代优化得到的噪声z加到原始图像x的扰动区域内,得到最终的视觉难感知的扰动不明显的扰动图像X;
步骤4)对步骤3)得到的视觉难感知的扰动图像X和原始图像x分别采用解释方法进行解释处理,解释处理可以是一种可视化处理方式,判断解释是否被愚弄,若解释被愚弄,则攻击成功;否则攻击不成功。
所述步骤1)中,针对多目标物体的图像分类解释被攻击的情况,单幅包含n个目标物体的扰动图像生成为:
Figure BDA0002751262240000028
其中,x和
Figure BDA0002751262240000029
分别是原始图像和扰动图像,mn表示带有n块扰动区域的二进制掩码图像,二进制掩码图像是一个只包含数字0和1的大小和原始图像相同的图像,二进制掩码图像mn中包含有n块方形区域作为扰动区域,方形区域用0填充,其余区域用1填充;z为噪声。这样将噪声z同时填充到该n个扰动区域内,本发明仅以包含两个目标物体为例,即令n=2,同样设置为边界或角落位置,z为初始噪声。
具体实施中,将方形区域设置为角落或边界位置,能够不遮挡图像内主要目标物体。
所述的步骤2)中,具体为:
对于单幅单目标物体的输入图像x,输入分类模型后分类结果为c,分类模型为事先训练好的神经网络模型,分类损失定义为
Figure BDA00027512622400000313
使扰动图像
Figure BDA00027512622400000314
的分类不发生改变,定义为位置重要性损失lloim(h,m),使解释区域定位于定义的方形区域内,其计算为:
Figure BDA0002751262240000031
将lloim(h,m)作为惩罚项,则总的损失函数为:
Figure BDA0002751262240000032
其中,
Figure BDA0002751262240000033
为分类损失,lloim(h,m)为位置重要性损失,λ是权衡两项损失的超参数,
Figure BDA0002751262240000034
为扰动图像
Figure BDA0002751262240000035
的解释热力图。
对于单幅包含n个目标物体的输入图像x,输入到预先训练好的分类模型中,各自分类结果为cj(j=1,2,...n),加入噪声后的扰动图像
Figure BDA00027512622400000312
使得每个类别均不改变的同时,也将各自解释区域hj定位于任意的n个角落位置,设置总共损失函数为:
Figure BDA0002751262240000036
其中,lloim(hj,mj)是图像中第j个目标物体的解释区域hj和其对应的二进制掩码mj的位置重要性损失,
Figure BDA0002751262240000037
是扰动图像
Figure BDA0002751262240000038
和第j个目标物体的分类cj的分类损失,λj是各目标物体的权衡位置重要性损失和分类损失的两项损失的超参数,cj表示第j个分类,n表示分类类别的总数;
以总共损失函数最小化优化处理获得扰动明显的噪声Z。
具体实施中包含两个目标物体的情况,令n=2。
所述步骤3)具体为:
3.1)以2.1)损失函数为例,在第n+1次求取损失函数反向传播梯度过程后,得到中间的未被限制大小的更新噪声
Figure BDA0002751262240000039
计算为:
Figure BDA00027512622400000310
其中,zn是第n次优化且被限制大小的噪声,L(Xn,h,c,m)表示在第n次得到的扰动图Xn上的损失,sgn()表示符号函数,▽表示求梯度,sgn(▽L())表示损失梯度的符号,ε是每次迭代梯度的贡献值;h表示解释得到的热力图,c表示预测的分类结果;
3.2)进一步对更新噪声
Figure BDA00027512622400000311
进行限制处理,具体表示为:
Figure BDA0002751262240000041
其中,clip表示裁剪符号,
Figure BDA0002751262240000042
表示将
Figure BDA0002751262240000043
限制为
Figure BDA0002751262240000044
范围内,符号clip计算为:
clipa,b(Z)=min(max(Z,a),b)
其中,a、b分别表示约束范围的最小和最大值,Z表示约束的对象即噪声;
这样即将
Figure BDA0002751262240000045
限制为
Figure BDA0002751262240000046
范围内,得到了第n+1次约束后的更新噪声Zn+1
3.3)将限制大小的噪声Zn+1加入到原始图像x中的扰动区域内,得到第n+1次的图像Xn+1,计算为:
Figure BDA0002751262240000047
3.4)重复步骤3.1)~3.3)进行多次迭代,共进行T次迭代后,得到最终迭代获得的图像XT作为视觉难感知的扰动不明显的扰动图像X。
最终根据损失函数和噪声约束过程同时采用在Adam优化器中进行优化,得到最终的优化噪声Z,以及优化噪声Z下加入后的视觉难感知的扰动不明显的扰动图像X。
本发明对于一幅输入图像,在图像的某区域内加噪声后生成扰动图像;利用扰动图像构造损失函数项;在保持生成的扰动图像分类结果和原始图像分类结果相同的前提下,用可解释性算法对分类结果进行解释,并将解释的突出区域定位于加扰区域内;同时,为了使扰动不明显,利用Adam优化算法逐步将噪声进行限制直到视觉上感知不出扰动存在,最后生成使解释发生错误的扰动图像。
本发明中用来愚弄可解释性算法的攻击方法,具有一定的迁移性,即针对某种解释算法优化得到的扰动图像,同时也可以直接进行愚弄其他的解释算法。
本发明的有益效果是:
1.本发明能够有效攻击五种深度学习可解释性算法,分别为Grad-CAM、GFI(Guided-Feature-Inversion)、Grad-CAM++、Full-Grad和Score-CAM,在不改变分类结果的同时,将解释突出到提前定义的二进制掩码方形区域内,且定义的区域的大小和位置可以随意改变,即攻击后生成的解释可以被定位到任意位置,不再突出图像内主要目标物体。
2.本发明也对噪声的大小进行了限制,从而生成视觉上不可察觉的扰动图像。
3.本发明不仅可以攻击单幅包含单个目标物体的图像的解释,同时也能愚弄单幅包含多个目标物体的图像的解释。实验中愚弄了包含两个目标物体的解释,且能分别将两个目标物体的解释定位于两个提前定义的不同的位置,是一种“一对一”针对性的愚弄,而不是只是简单的将多目标物体解释区域同时定位于同一个位置,或者进行简单的交换两个目标物体的解释。
4.本发明攻击解释的算法能够在不同解释算法间进行迁移。例如分别用Full-Grad、Grad-CAM++解释算法进行计算得到的扰动图像,可以愚弄Grad-CAM的解释,但是反过来,用Grad-CAM解释算法计算得到的扰动图像,对Full-Grad解释改变效果不明显,说明Full-Grad算法鲁棒性更好,而Grad-CAM算法鲁棒性较差。
综合来说,本发明将攻击与可解释性任务结合起来,能够有效攻击五种深度神经网络可解释方法,且攻击区域的大小和位置可以任意改变,可以衡量解释在攻击下的鲁棒性能。
附图说明
图1为本发明实施步骤流程图,通过图中所示约束优化噪声获得最终的扰动不明显的图像,并进行解释。图中:上边部分为原始图像的解释结果,下边部分为解释被攻击之后的可视化结果。
图2为原始图像在五种未被攻击的解释上的可视化结果。
图3为图2的左下角被攻击后得到的扰动图像。
图4为图3的扰动图像在五种解释上的可视化结果。
图5为Grad-CAM的攻击单幅两目标物体前后的可视化结果。
图6为分别攻击Full-Grad和Grad-CAM++优化得到的噪声迁移到Grad-CAM的可视化结果。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
按照本发明的发明内容完整方法实施的例子及其实施情况如下:
本发明在ImageNet数据集上训练的深度神经网络VGG19模型上实施,以Grad-CAM为例,进行详细说明如下:
1)生成一个随机初始化噪声,生成一个二进制掩码,如果是单幅单目标物体图像,如图2第一列所示,设定对应方形区域位置的值为0,其他区域为1;如果是单幅多目标物体的图像,如图5第一列所示,同时设定对应两个方形区域位置的值为0,其他区域为1。
2)将噪声和二进制掩码进行相乘,然后加上原始图像,得到扰动较明显的扰动图像
Figure BDA0002751262240000061
3)将扰动图像在模型VGG19上进行解释,分别构造分类损失
Figure BDA0002751262240000062
和位置重要性损失lloim(h,m),目的是为了在保持扰动和原始图像的分类的类别不发生改变的同时,能够将解释的突出的区域定位于该掩码区域内。
4)计算总损失项,并将噪声进一步约束在
Figure BDA0002751262240000063
内,利用自适应矩估计(Adam)优化器对噪声进行迭代优化。
5)攻击单幅单目标物体图像的解释时,设定学习率为0.01、优化次数为150次、λ为0.1、
Figure BDA0002751262240000064
攻击单幅两目标物体图像的解释时,设定学习率为0.01、优化次数为350次、λ1和λ2均为0.1、
Figure BDA0002751262240000065
重复执行2)、3)、4)三步。优化结束后得到最终的训练好的噪声,将该噪声加入到原始图像中,得到如图3所示的扰动不明显的图像,分别对原始图像和扰动图像进行解释。
对比图2和图4的可视化结果,可以发现预测分类未发生改变下,解释区域发生了变化。
图5为单幅两目标物体的解释被攻击,可以发现两个目标物体的预测分类均未改变时,但是可视化区域被各自分配。图6上为噪声迁移前的Grad-CAM对原图像的解释,发现解释区域在目标物体上;图6下为噪声迁移后的Grad-CAM对扰动图像的解释,发现解释区域在方形区域内,解释被愚弄。

Claims (2)

1.一种愚弄深度神经网络可解释算法的攻击判断方法,该方法步骤如下:
步骤1)生成扰动图像:
对于每幅原始图像x,在原始图像x内利用二进制掩码图像m加入初始噪声z,得到带有扰动的扰动图像
Figure FDA0003628944720000011
步骤2)将扰动图像
Figure FDA0003628944720000012
的分类类别和扰动图像
Figure FDA0003628944720000013
对应的原始图像的分类类别c保持一致,同时针对扰动图像
Figure FDA0003628944720000014
采用深度神经网络进行图像分类的解释方法处理获得解释热力图,然后将扰动图像
Figure FDA0003628944720000015
输入到分类模型中进行训练处理,并根据解释热力图和保持分类不变建立损失函数优化获得扰动明显的噪声z;
步骤3)根据预先设置的
Figure FDA0003628944720000016
限制范围对步骤2)获得的噪声z进行限制迭代处理,并同时对扰动图像进行优化,
Figure FDA0003628944720000017
表示噪声限制范围的上限,得到最终的视觉难感知的扰动图像X;
步骤4)对步骤3)得到的视觉难感知的扰动图像X和原始图像x分别采用解释方法进行解释处理,判断解释是否被愚弄,若解释被愚弄,则攻击成功;否则攻击不成功;
所述的步骤2)中,具体为:
对于单幅包含n个目标物体的输入图像x,输入到预先训练好的分类模型中,各自分类结果为cj(j=1,2,...n),加入噪声后的扰动图像
Figure 1
使得每个类别均不改变的同时,也将各自解释区域hj定位于任意的n个角落位置,设置总共损失函数为:
Figure FDA0003628944720000018
其中,lloim(hj,mj)是图像中第j个目标物体的解释区域hj和其对应的二进制掩码mj的位置重要性损失,
Figure FDA0003628944720000019
是扰动图像
Figure FDA00036289447200000110
和第j个目标物体的分类cj的分类损失,λj是各目标物体的权衡位置重要性损失和分类损失的两项损失的超参数,cj表示第j个分类,n表示分类类别的总数;
以总共损失函数最小化优化处理获得扰动明显的噪声Z;
所述步骤3)具体为:
3.1)在第n+1次求取损失函数反向传播梯度过程后,得到中间的未被限制大小的更新噪声
Figure FDA00036289447200000111
计算为:
Figure FDA00036289447200000112
其中,zn是第n次优化且被限制大小的噪声,L(Xn,h,c,m)表示在第n次得到的扰动图Xn上的损失,sgn()表示符号函数,
Figure FDA0003628944720000021
表示求梯度,
Figure FDA0003628944720000022
表示损失梯度的符号,
Figure 2
是每次迭代梯度的贡献值;h表示解释得到的热力图,c表示预测的分类结果;
3.2)进一步对更新噪声
Figure FDA0003628944720000029
进行限制处理,具体表示为:
Figure FDA0003628944720000023
其中,clip表示裁剪符号,
Figure FDA0003628944720000024
表示将
Figure FDA0003628944720000025
限制为
Figure FDA0003628944720000026
范围内,符号clip计算为:
clipa,b(Z)=min(max(Z,a),b)
其中,a、b分别表示约束范围的最小和最大值,Z表示约束的对象即噪声;
3.3)将限制大小的噪声Zn+1加入到原始图像x中的扰动区域内,得到第n+1次的图像Xn+1,计算为:
Figure FDA00036289447200000210
3.4)重复步骤3.1)~3.3)进行多次迭代,共进行T次迭代后,得到最终迭代获得的图像XT作为视觉难感知的扰动图像X。
2.根据权利要求1所述的一种愚弄深度神经网络可解释算法的攻击判断方法,其特征在于:所述步骤1)中,针对多目标物体的图像分类解释被攻击的情况,单幅包含n个目标物体的扰动图像生成为:
Figure FDA0003628944720000027
其中,x和
Figure FDA0003628944720000028
分别是原始图像和扰动图像,mn表示带有n块扰动区域的二进制掩码图像,二进制掩码图像是一个只包含数字0和1的大小和原始图像相同的图像,二进制掩码图像mn中包含有n块方形区域作为扰动区域,方形区域用0填充,其余区域用1填充;z为噪声。
CN202011185396.3A 2020-10-30 2020-10-30 一种愚弄深度神经网络可解释算法的攻击判断方法 Active CN112270700B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011185396.3A CN112270700B (zh) 2020-10-30 2020-10-30 一种愚弄深度神经网络可解释算法的攻击判断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011185396.3A CN112270700B (zh) 2020-10-30 2020-10-30 一种愚弄深度神经网络可解释算法的攻击判断方法

Publications (2)

Publication Number Publication Date
CN112270700A CN112270700A (zh) 2021-01-26
CN112270700B true CN112270700B (zh) 2022-06-28

Family

ID=74345007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011185396.3A Active CN112270700B (zh) 2020-10-30 2020-10-30 一种愚弄深度神经网络可解释算法的攻击判断方法

Country Status (1)

Country Link
CN (1) CN112270700B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113487545A (zh) * 2021-06-24 2021-10-08 广州玖的数码科技有限公司 一种面向姿态估计深度神经网络的扰动图像生成方法
CN113836392B (zh) * 2021-08-06 2024-03-26 浙江大学 一种基于bert与用户评论的深度学习可解释推荐方法
CN113971640B (zh) * 2021-09-15 2024-06-14 浙江大学 对深度网络解释算法的对抗噪声攻击扰动图像的防御方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446765A (zh) * 2018-02-11 2018-08-24 浙江工业大学 面向深度学习对抗性攻击的多模型协同防御方法
CN110516695A (zh) * 2019-07-11 2019-11-29 南京航空航天大学 面向医学图像分类的对抗样本生成方法及系统
CN111160400A (zh) * 2019-12-06 2020-05-15 天津大学 一种基于修正边界攻击的对抗攻击方法
CN111340180A (zh) * 2020-02-10 2020-06-26 中国人民解放军国防科技大学 指定标签的对抗样本生成方法、装置、电子设备及介质
CN111414964A (zh) * 2020-03-23 2020-07-14 上海金桥信息股份有限公司 一种基于对抗样本防御的图像安全识别方法
CN111667049A (zh) * 2019-03-08 2020-09-15 国际商业机器公司 量化深度学习计算系统对对抗性扰动的脆弱性

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446765A (zh) * 2018-02-11 2018-08-24 浙江工业大学 面向深度学习对抗性攻击的多模型协同防御方法
CN111667049A (zh) * 2019-03-08 2020-09-15 国际商业机器公司 量化深度学习计算系统对对抗性扰动的脆弱性
CN110516695A (zh) * 2019-07-11 2019-11-29 南京航空航天大学 面向医学图像分类的对抗样本生成方法及系统
CN111160400A (zh) * 2019-12-06 2020-05-15 天津大学 一种基于修正边界攻击的对抗攻击方法
CN111340180A (zh) * 2020-02-10 2020-06-26 中国人民解放军国防科技大学 指定标签的对抗样本生成方法、装置、电子设备及介质
CN111414964A (zh) * 2020-03-23 2020-07-14 上海金桥信息股份有限公司 一种基于对抗样本防御的图像安全识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Fooling neural network interpretations via adversarial model manipulation;Juyeon Heo 等;《arXiv:1902.02041v3 [cs.LG]》;20191101;第1-18页 *
基于生成式对抗网络的通用性对抗扰动生成方法;刘恒等;《信息网络安全》;20200510;第20卷(第05期);第57-64页 *
聚焦图像对抗攻击算法PS-MIFGSM;吴立人等;《计算机应用》;20200510;第40卷(第05期);第1348-1353页 *

Also Published As

Publication number Publication date
CN112270700A (zh) 2021-01-26

Similar Documents

Publication Publication Date Title
CN112270700B (zh) 一种愚弄深度神经网络可解释算法的攻击判断方法
CN109492582B (zh) 一种基于算法对抗性攻击的图像识别攻击方法
CN111881935B (zh) 一种基于内容感知gan的对抗样本生成方法
Liu et al. A chaotic quantum-behaved particle swarm optimization based on lateral inhibition for image matching
CN112364885B (zh) 一种基于深度神经网络模型可解释性的对抗样本防御方法
CN113674140B (zh) 一种物理对抗样本生成方法及系统
KR20200072588A (ko) Cnn기반의 딥러닝 모델 학습장치 및 그 방법
CN112733458B (zh) 一种基于自适应变分模态分解的工程结构信号处理方法
CN114758198A (zh) 一种基于元学习对抗扰动的黑盒攻击方法及系统
CN114399630A (zh) 基于信念攻击和显著区域扰动限制的对抗样本生成方法
Qin et al. Gradually enhanced adversarial perturbations on color pixel vectors for image steganography
CN113935496A (zh) 一种面向集成模型的鲁棒性提升防御方法
CN116824334A (zh) 一种基于频域特征融合再构的模型后门攻击对抗方法
KR101982942B1 (ko) 객체 추적 방법 및 이를 수행하는 장치들
CN113971640B (zh) 对深度网络解释算法的对抗噪声攻击扰动图像的防御方法
CN115510986A (zh) 一种基于AdvGAN的对抗样本生成方法
CN116527296A (zh) 一种多层次网络安全态势评估方法
CN112149752B (zh) 一种单像素攻击分布可视化方法
Dong et al. Image multithreshold segmentation method based on improved Harris hawk optimization
CN112529047A (zh) 一种基于梯度屏蔽的对抗样本生成方法
CN116361965A (zh) 基于注意力引导的自适应动量偏差对抗攻击方法
CN117876817B (zh) 一种对抗样本生成方法
CN115631333B (zh) 提高目标检测模型鲁棒性的对抗训练方法及目标检测方法
CN117171762A (zh) 一种基于数据增强和步长调整的单步对抗训练方法及系统
CN116433924A (zh) 一种基于有目标数据增强的对抗攻击方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant