CN112633280A - 一种对抗样本生成方法及系统 - Google Patents

一种对抗样本生成方法及系统 Download PDF

Info

Publication number
CN112633280A
CN112633280A CN202011620173.5A CN202011620173A CN112633280A CN 112633280 A CN112633280 A CN 112633280A CN 202011620173 A CN202011620173 A CN 202011620173A CN 112633280 A CN112633280 A CN 112633280A
Authority
CN
China
Prior art keywords
temp
threshold
original image
disturbance
temporary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011620173.5A
Other languages
English (en)
Other versions
CN112633280B (zh
Inventor
叶贵鑫
王玉莉
车小康
田洋
瞿兴
范子茜
汤战勇
房鼎益
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern University
Original Assignee
Northwestern University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern University filed Critical Northwestern University
Priority to CN202011620173.5A priority Critical patent/CN112633280B/zh
Publication of CN112633280A publication Critical patent/CN112633280A/zh
Application granted granted Critical
Publication of CN112633280B publication Critical patent/CN112633280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种对抗样本生成方法与系统。所公开的方法包括获取原始图像的可解释性区域图像;确定合适的像素阈值,根据可解释性区域图像生成该阈值下原始图像的扰动添加模板,根据扰动添加模板中的0像素点值在原始图像的相应像素点处添加叠加扰动,生成该原始图像的对抗样本。所述公开的系统为执行所述对抗样本生成方法的系统。本发明可确保对抗扰动的可感知性和攻击性,且人眼不易发现本发明的方法加在对抗样本中的扰动,同时经验证模型以较高的概率被对抗样本误分类。

Description

一种对抗样本生成方法及系统
技术领域
本发明涉及计算机应用技术领域,具体是一种基于模型可解释性的对抗样本生成方法。
背景技术
对抗样本指在数据集中通过故意添加细微的干扰(即对抗扰动)所形成的输入样本,导致模型以高置信度给出一个错误的输出。在图像识别中,可以理解为原来被一个卷积神经网络(如InceptionV3、Alexnet、Lenet5等CNN模型)分类为一个类(比如“熊猫”)的图片,经过非常细微甚至人眼无法察觉的改动后,突然被误分成另一个类(比如“长臂猿”)。对抗扰动指加在图像上的扰动,对抗样本指在原图上添加对抗扰动后的图像。
评价对抗样本的指标主要包括:对抗样本的攻击性:生成的对抗样本使得模型分类错误的能力;对抗样本的感知性:人眼对添加在图像上的对抗扰动的可见性。
基于上述原理,在原始输入数据集中加入细微的扰动,可以有效的防御某些基于网络模型(如DNNs模型)的攻击。
现有产生对抗样本的方法多种多样。例如:快速梯度符号法(FGSM)是一种基于梯度的扰动生成方法,利用对输入图像的分类损失梯度产生对抗扰动来欺骗识别模型。它提供了一个快速的解决方案,以获得对抗样本。I-FGSM是FGSM的迭代版本,通过划分较小的步长将其多次应用以获得更好的攻击性。
虽然大多数现有的对抗样本生成方法能产生攻击性强的对抗样本,但都是以“全局”的方式添加对抗扰动。“全局”指该扰动生成方法平等地对待一张图像中的所有像素,对所有像素均添加对抗扰动。这种扰动添加方式往往不考虑自然图像中像素具有的局部平滑特性。特别是,随着扰动大小的增加,模型测试精度降低,由于添加全局的扰动将破坏原始图像的局部平滑,使得扰动变得更容易被人眼感知。因此,在对自然图像进行攻击时,如何权衡对抗扰动攻击的成功率和扰动的可感知性是目前需要解决的问题。
发明内容
针对现有技术的缺陷或不足,本发明一方面提供了一种对抗样本生成方法。
为此,本发明所提供的对抗样本生成方法包括:
步骤一,获取原始图像的可解释性区域图像;
步骤二,确定合适的像素阈值threshold,根据可解释性区域图像生成该阈值下原始图像的扰动添加模板Mask,根据扰动添加模板中的0像素点值在原始图像的相应像素点处添加叠加扰动,生成该原始图像的对抗样本;所述叠加扰动采用公式(1)计算:
Figure BDA0002875930620000021
其中:
Ln(x,y)表示为第n个第二CNN分类模型训练时的损失函数,n=1,2,3,...,N,N≥2;y表示原始图像x的类别;例如可以理解为y是数据集中已给定的原始图像x的类别;
Figure BDA0002875930620000022
表示第n个第二CNN分类模型的关于损失函数Ln(x,y)的梯度,N个第二CNN分类模型的初始结构或/和网络参数不同,且N个第二CNN分类模型采用相同的训练集训练获得;
Figure BDA0002875930620000023
描述了loss函数的梯度方向,α为在该方向上的偏移量级;α>0。
进一步,所述步骤一包括将原始图像集中的任一原始图像x和第一CNN分类模型作为模型可解释性算法的输入,输出原始图像x的可解释性区域图像,所述原始图像x为第一CNN分类模型可识别并分类的图像。
可选的,所述模型可解释性算法采用Grad-CAM算法。
进一步,所述步骤二包括:
Step1,根据公式(2)划分原始图像x的可解释性区域图像,得到当前阈值thresholdtemp对应的临时扰动添加模板Masktemp
Figure BDA0002875930620000031
其中,mi,j为可解释性区域图像中像素点(i,j)处的像素值,maski,j为临时扰动添加模板Masktemp对应像素点(i,j)处的像素值,初始0≤thresholdtemp≤255;
Step2,在原始图像x中的与Step1生成的临时扰动添加模板Masktemp中像素值为0的像素点对应的像素点处添加采用公式(1)计算的叠加扰动ε,生成原始图像x的临时对抗样本xadv+
Step3,用临时对抗样本xadv+对第一CNN分类模型进行攻击,得到的攻击成功率ratetemp
Step4,若ratetemp>rate,则更新rate=ratetemp,threshold=thresholdtemp,然后临时阈值thresholdtemp增加至少1个单位像素值后跳至step5;否则,不更新rate和阈值threshold,临时阈值thredholdtemp增加至少1个单位像素值后跳至step5;初始模型攻击成功率rate≥0;
Step5,若临时阈值thresholdtemp小于等于255,跳转至Step1;若临时阈值thresholdtemp大于255,则跳到step6;
Step6,当前阈值作为所确定的threshold,该阈值下生产的临时扰动添加模板为原始图像x的扰动添加模板Mask,所生生的临时对抗样本为该原始图像的对抗样本。
可选的,所述Step4中,若ratetemp>rate,则更新rate=ratetemp,threshold=thresholdtemp,然后临时阈值thresholdtemp增加1、2、3、4、5或6个单位像素值后跳至step5;否则,不更新rate和阈值threshold,临时阈值thresholdtemp增加1、2、3、4、5或6个单位像素值后跳至step5;初始模型攻击成功率rate≥0。
更进一步的方案中,方法用于生成原始图像集中的各原始图像的对抗样本;进一步还包括步骤三:生成原始图像集中各原始图像的可解释性区域图像;利用其中任一原始图像确定合适的像素阈值threshold,根据可解释性区域图像生成该阈值下原始图像的扰动添加模板Mask;在合适阈值threshold下,分别生成原始图像集中各原始图像的扰动添加模板;之后在各原始图像中与各自的扰动添加模板中像素值为0的像素点对应像素点处添加采用式(1)生成的对抗扰动,生成各原始图像的对抗样本,各原始图像的α取值相同或不同。
进一步,本发明的方法还包括:采用步骤1-5确定α值:
步骤1,取αtemp,采用公式(1)生成临时对抗扰动εtemp,αtemp初始大于0;
步骤2,将产生的临时对抗扰动εtemp全局添加到原始图像x或待处理图像上,得到临时对抗样本
Figure BDA0002875930620000041
步骤3,用临时对抗样本
Figure BDA0002875930620000042
攻击第一CNN模型,得到的攻击成功率为
Figure BDA0002875930620000043
步骤4,比较
Figure BDA0002875930620000044
与当前rateattack的大小,若两者相等或差值的绝对值在允许的误差范围内,则flag+1,跳转到步骤5;否则,
Figure BDA0002875930620000045
跳转到步骤5;其中flag初始取0,初始rateattack≥0;
步骤5,判断flag的值,若小于等于flagmax,flagmax≥2,则αtemp增加至少1个单位后继续步骤1;否则当前αtemp为α。
可选的,步骤5中判断flag的值,6≥flagmax≥2,则αtemp增加1、2、3、4、5或6个单位继续步骤1;否则当前αtemp为α。
本发明同时还提供了一种对抗样本生成系统。为此,本发明提供的对抗样本生成系统包括可解释区域图像生成模块和对抗样本生成模块;所述可解释性区域图像生成模块用于获取待处理图像的可解释性区域图像,所述对抗样本生成模块用于生成待处理图像的对抗样本。
进一步,所述系统还包括扰动优化模块,该扰动优化模块用于执行上述步骤1-5。
本发明可确保对抗扰动的可感知性和攻击性,且人眼不易发现本发明的方法加在对抗样本中的扰动,同时经验证模型以较高的概率被对抗样本误分类。
附图说明
图1Grad-CAM算法产生的类激活映射图示例;
图2为实施例确定类激活映射图二值化阈值threshold的示例;
图3为实施例中本发明的方法与现有的以“全局”方式添加对抗扰动方法生成的对抗样本在不同扰动大小下视觉上的对比,(a)为以“全局”的方式添加对抗扰动;(b)为以本发明的方法添加对抗扰动。
具体实施方式
除非另有说明,本文中的术语根据本发明所属领域普通技术人员的常规认识理解。
本发明所述的图像可解释性区域图像是指图像分类问题中,对分类器分类起到了关键作用的区域。如图1所示,类激活映射图通过颜色变化的程度,直观反应出图像中对分类影响的区域其重要程度分布信息。
可采用模型可解释性算法与相应CNN分类模型获得原始图像的可解释性区域图像,所述CNN分类模型是指采用与原始图像属性相同(如均为动物图像、均为熊猫图像、均为熊猫爪子的图像;均为汽车图像、均为轿车图像、均为轮胎图像,即属性的广义程度不做限定)的样本集和相应的标签集对初始网络进行训练获得的分类模型。
适用于本发明的模型可解释性算法为现有的相应算法,以Grad-CAM算法为例,Grad-CAM(Gradient-weighted Class Activation Mapping)是一种能对卷积神经网络的决策生成“可视化解释”的技术。该方法由Selvaraju等人提出;其基本思路是针对某类别A的解释,首先获得softmax层之前对类别A的分数值;假设最后一层卷积层特征图B通过类别A的数值反向传播到对应的卷积层(即调用分类模型中的相应层),得到对应的梯度,梯度尺寸与特征图B一致;再将梯度全局平均来计算对应通道的权重;最后通过加权和的方式得到原始图像的类激活映射图。如图2所示,类激活映射图以彩色图的形式全图覆盖,无法确定在哪些区域中添加对抗扰动既能保证攻击成功率又能使添加扰动的区域更小。
本发明对抗扰动的生成方法是基于FGSM算法所做的改进,FGSM算法称为快速梯度法(Fast Gradient Sign Method),该算法最早由Goodfellow等人在其论文中提出,其原理为,让输入的样本图像朝着类别置信度降低的方向移动,在深度学习模型中寻找其梯度变化最大的方向,并按照此方向在一定阈值的限制内,通过一次移动,来对输入样本添加扰动,使得模型的loss增大,最终导致模型的分类错误。本发明改进后的算法是对原始图像叠加N个不同网络结构或/和网络参数的CNN分类模型产生的扰动,即生成叠加对抗扰动ε,基于该改进算法生成的对抗样本不仅能很好的攻击原模型,也能更好的攻击其他模型。具体来讲,本发明的方法在生产对抗扰动时所使用的N个不同结构或/和网络参数的CNN分类模型,但使用相同属性样本集训练且训练过程相同,训练过程中的损失函数相同或不同,所述损失函数为神经网络训练过程中可使用的损失函数,例如但不限于:CrossEntropyLoss、MultiMarginLoss等。
并且,在能保证攻击模型成功的情况下,本发明对抗扰动生成过程中的相应梯度方向偏移量值α可取优选值。本发明提供了一种α取值的确定方法,具体包括:
步骤1,根据αtemp的取值,采用公式(1)生成临时对抗扰动εtemp,αtemp初始大于0;
步骤2,将产生的临时对抗扰动εtemp全局添加到原始图像x上,得到临时对抗样本
Figure BDA0002875930620000071
步骤3,用临时对抗样本
Figure BDA0002875930620000072
攻击第一CNN模型,得到的攻击成功率为
Figure BDA0002875930620000073
步骤4,比较
Figure BDA0002875930620000074
与当前rateattack的大小,若两者相等或差值的绝对值在允许的误差范围内(其中误差范围越小效果越好,例如可取0.005-0.01,合理的误差范围为了表示攻击模型的成功率几乎不在变化这一点,误差值大小可任意设定,误差值越小,结果越精确),则flag+1,跳转到步骤5;否则,
Figure BDA0002875930620000075
跳转到步骤5;其中flag初始取0,rateattack初始取0;
步骤5,判断flag的值,若小于等于4,则αtemp增加至少1单位继续步骤1;否则当前αtemp为α。
以下是发明人提供的具体实施例,以对本发明的方案做进一步解释说明。
实施例:
该实施例的数据集选取ImageNet数据集中6个类别,每个类别中的100张图像作为数据集;
该实施例中第一CNN分类模型是:Pytorch框架中预训练好的Inception V3;第二CNN分类模型分别是:Pytorch框架中预训练好的Inception V3和ResNet34,即N=2;
根据本发明提供的α确定方法,该实施例在初始αtemp=5、间隔取5、误差范围取0.01、flagmax=4、初始rateattack=0的条件下,确定α的取值,循环过程α=10之后继续增加扰动,扰动对模型的攻击成功率几乎保持不变,因此该实施例后续步骤以α=10时,对模型的攻击成功率为依据找出合适的阈值生成二值掩码;
分别对ImageNet数据中6个类别(分别为:rock crab、malinois、Great Pyrenees、wood rabbit、Arabian camel和macaque)的100张图像,通过使用Grad-CAM可解释性算法找到Inception V3模型对这些图像的可解释性区域(即生成类激活映射图),该实施例具体采用文献《Grad-CAM:Why did you say that?Visual Explanations from Deep Networksvia Gradient-based Localization》中公开的方法获得类激活映射图;
该实施例的像素值thresholdtemp初始取120,初始rate=0,依次循环取125、130、135、140、145、150、155为阈值划分二值掩码,如图2所示,依据二值掩码Mask中像素值为0的区域在数据集中任一类别任一原图上分别添加基于InceptionV3和Resnet34模型产生的α=10生成的扰动对应的对抗样本
Figure BDA0002875930620000081
攻击Inception V3模型,根据得到的攻击成功率确定最终二值掩码的阈值大小;以生成的对抗样本攻击模型的成功率越高且添加对抗扰动的区域越小为原则确定二值掩码阈值;结果如表1所示,该表列出在不同阈值下的可解释性区域掩码中,添加α=10的对抗扰动,攻击第一CNN模型Inception V3模型的成功率,从表中可以看出在二值掩码阈值为像素值130,对抗样本的攻击准确率基本不再变化,当像素值继续减小(即增加添加扰动的区域面积)攻击准确率可能会增加,但增加幅度并不明显。因此在以生成的对抗样本攻击模型的成功率越高且添加对抗扰动的区域越小的原则下,划分二值掩码的阈值设为像素值130;
之后取α=10、像素值130,采用上述方案生成数据集中其他图像的对抗样本。
表1
Figure BDA0002875930620000091
在上述实施例方案基础上,进一步,将本发明的方法与添加单一扰动的方案进行对比,其中添加单一扰动的方案与该实施例的方案不同的是,公式(1)中为两个相同的Inception V3模型,具体方案是:
通过对一张图像按像素值130划分Grad-CAM算法对第一CNN分类Inception V3模型给出的可解释性区域得到二值掩码,并在掩码中像素值为0的区域,分别添加扰动大小α=2.5、5、7.5、10的由第二CNN分类Inception V3和ResNet34模型产生的FGSM叠加扰动,由此生成的对抗样本去分别测试对InceptionV3、Resnet34、VGG11和Alexnet模型的攻击成功率;并与同等扰动大小的仅由Inception V3模型产生的对抗扰动攻击结果做对比。结果如表2所示,本发明的扰动叠加的攻击方法相较于单扰动攻击,从攻击效果和迁移效果整体来说,要更有效一些。
同时该实施例用上述方案中生成的各叠加扰动攻击Pytorch框架中预训练好的VGG11和Alexnet模型,测试本发明生成的对抗扰动的迁移效果,结果如表2所示,说明本发明的生成的对抗扰动的迁移效果良好。
表2
Figure BDA0002875930620000101
更进一步,将本发明在可解释性区域的掩码范围内添加扰动生成对抗样本的方法与现有在“全局”范围内添加扰动生成对抗样本的方法进行对比,其中所添加的扰动为:在α=2.5、5、7.5、10下,由第一CNN分类Inception V3和ResNet34模型产生的叠加扰动。
结果如图3所示,从图中可以看出,对于背景平滑的图像来说,现有方法产生的扰动易破坏该图像平滑性,且添加的扰动越大,背景中的扰动越易被人眼感知。例如在α=10的情况下,人眼能明显看出浅色背景中添加的扰动。而本发明提出的方法,由于扰动添加到该图像的可解释性区域(即图像的主体兔子上),背景区域几乎没有对抗扰动添加,因此极大的保证了对抗扰动的可感知性。并且随着扰动的增大,本发明的生成对抗样本的方法在扰动感知性方面优势越大。

Claims (10)

1.一种对抗样本生成方法,方法用于生成原始图像的对抗样本,其特征在于,所述方法包括:
步骤一,获取原始图像的可解释性区域图像;
步骤二,确定合适的像素阈值threshold,根据可解释性区域图像生成该阈值threshold下原始图像的扰动添加模板Mask,根据扰动添加模板中的0像素点值在原始图像对应的像素点处添加叠加扰动ε,生成该原始图像的对抗样本;
Figure FDA0002875930610000011
其中:
Ln(x,y)表示为第n个第二CNN分类模型训练时的损失函数,n=1,2,3,...,N,N≥2;y表示原始图像x的分类类别;
Figure FDA0002875930610000014
表示第n个第二CNN分类模型的关于损失函数Ln(x,y)的梯度,N个第二CNN分类模型的初始结构或/和网络参数不同,且N个第二CNN分类模型采用相同的训练集训练获得;
Figure FDA0002875930610000013
描述了loss函数的梯度方向,α为在该方向上的偏移量级;α>0。
2.如权利要求1所述的对抗样本生成方法,其特征在于,所述步骤一包括将原始图像x和第一CNN分类模型作为模型可解释性算法的输入,输出原始图像x的可解释性区域图像,所述原始图像x为第一CNN分类模型可识别并分类的图像。
3.如权利要求2所述的对抗样本生成方法,其特征在于,所述模型可解释性算法采用Grad-CAM算法。
4.如权利要求1所述的对抗样本生成方法,其特征在于,所述步骤二包括:
Step1,根据公式(2)划分原始图像x的可解释性区域图像,得到当前阈值thresholdtemp对应的临时扰动添加模板Masktemp
Figure FDA0002875930610000021
其中,mi,j为可解释性区域图像中像素点(i,j)处的像素值,maski,j为临时扰动添加模板Masktemp对应像素点(i,j)处的像素值,初始0≤thresholdtemp≤255;
Step2,在原始图像x中的与Step1生成的临时扰动添加模板Masktemp中像素值为0的像素点对应的像素点处添加采用公式(1)计算的叠加扰动ε,生成原始图像x的临时对抗样本xadv +
Step3,用临时对抗样本xadv+对第一CNN分类模型进行攻击,得到的攻击成功率ratetemp
Step4,若ratetemp>rate,则更新rate=ratetemp,threshold=thresholdtemp,然后临时阈值thresholdtemp增加至少1个单位像素值后跳至step5;否则,不更新rate和阈值threshold,临时阈值thresholdtemp增加至少1个单位像素值后跳至step5;初始模型攻击成功率rate≥0;
Step5,若临时阈值thresholdtemp小于等于255,跳转至Step1;若临时阈值thresholdtemp大于255,则跳到step6;
Step6,当前阈值作为所确定的threshold,该阈值下生产的临时扰动添加模板为原始图像x的扰动添加模板Mask,所生生的临时对抗样本为该原始图像的对抗样本。
5.如权利要求1至4任一权利要求所述的对抗样本生成方法,其特征在于,所述Step4中,若ratetemp>rate,则更新rate=ratetemp,threshold=thresholdtemp,然后临时阈值thresholdtemp增加1、2、3、4、5或6个单位像素值后跳至step5;否则,不更新rate和阈值threshold,临时阈值thresholdtemp增加1、2、3、4、5或6个单位像素值后跳至step5;初始模型攻击成功率rate≥0。
6.如权利要求1所述的对抗样本生成方法,其特征在于,方法用于生成原始图像集中的各原始图像的对抗样本;进一步还包括步骤三:生成原始图像集中各原始图像的可解释性区域图像;利用其中任一原始图像确定合适的像素阈值threshold,根据可解释性区域图像生成该阈值下原始图像的扰动添加模板Mask;在合适阈值threshold下,分别生成原始图像集中各原始图像的扰动添加模板,之后在各原始图像中与各自的扰动添加模板中像素值为0的像素点对应像素点处添加采用式(1)生成的对抗扰动,生成各原始图像的对抗样本,各原始图像的α取值相同或不同。
7.如权利要求1所述的对抗样本生成方法,其特征在于,进一步还包括,采用步骤1-5确定α值:
步骤1,取αtemp,采用公式(1)生成临时对抗扰动εtemp,αtemp初始大于0;
步骤2,将产生的临时对抗扰动εtemp全局添加到原始图像x或待处理图像上,得到临时对抗样本
Figure FDA0002875930610000031
步骤3,用临时对抗样本
Figure FDA0002875930610000032
攻击第一CNN模型,得到的攻击成功率为
Figure FDA0002875930610000033
步骤4,比较
Figure FDA0002875930610000034
与当前rateattack的大小,若两者相等或差值的绝对值在允许的误差范围内,则flag+1,跳转到步骤5;否则,
Figure FDA0002875930610000035
跳转到步骤5;其中flag初始取0,初始rateattack≥0;
步骤5,判断flag的值,若小于等于flagmax,flagmax≥2,则αtemp增加至少1个单位后继续步骤1;否则当前αtemp为α。
8.如权利要求7所述的对抗样本生成方法,其特征在于,步骤5中判断flag的值,6≥flagmax≥2,则αtemp增加1、2、3、4、5或6个单位继续步骤1;否则当前αtemp为α。
9.一种对抗样本生成系统,其特征在于,包括可解释区域图像生成模块和对抗样本生成模块;所述可解释性区域图像生成模块用于获取待处理图像的可解释性区域图像,所述对抗样本生成模块用于生成待处理图像的对抗样本。
10.如权利要求9所述对抗样本生成系统,其特征在于,还包括扰动优化模块,该扰动优化模块用于执行权利要求7所述步骤。
CN202011620173.5A 2020-12-31 2020-12-31 一种对抗样本生成方法及系统 Active CN112633280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011620173.5A CN112633280B (zh) 2020-12-31 2020-12-31 一种对抗样本生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011620173.5A CN112633280B (zh) 2020-12-31 2020-12-31 一种对抗样本生成方法及系统

Publications (2)

Publication Number Publication Date
CN112633280A true CN112633280A (zh) 2021-04-09
CN112633280B CN112633280B (zh) 2023-01-31

Family

ID=75287440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011620173.5A Active CN112633280B (zh) 2020-12-31 2020-12-31 一种对抗样本生成方法及系统

Country Status (1)

Country Link
CN (1) CN112633280B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033747A (zh) * 2021-05-26 2021-06-25 中国工程物理研究院计算机应用研究所 一种用于人机识别的图形识别码生成方法
CN113450271A (zh) * 2021-06-10 2021-09-28 南京信息工程大学 一种基于人类视觉模型的鲁棒自适应对抗样本生成方法
CN114332569A (zh) * 2022-03-17 2022-04-12 南京理工大学 基于注意力机制的低扰动对抗攻击方法
CN114399630A (zh) * 2021-12-31 2022-04-26 燕山大学 基于信念攻击和显著区域扰动限制的对抗样本生成方法
CN114882323A (zh) * 2022-07-08 2022-08-09 第六镜科技(北京)集团有限责任公司 对抗样本生成方法、装置、电子设备及存储介质
CN117253094A (zh) * 2023-10-30 2023-12-19 上海计算机软件技术开发中心 一种图像分类系统对抗性样本生成方法、系统及电子设备
WO2024120206A1 (zh) * 2022-12-05 2024-06-13 中国科学院深圳先进技术研究院 无限制对抗样本生成方法、装置、电子设备及存储介质
CN114399630B (zh) * 2021-12-31 2024-10-29 燕山大学 基于信念攻击和显著区域扰动限制的对抗样本生成方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858368A (zh) * 2018-12-29 2019-06-07 浙江工业大学 一种基于Rosenbrock-PSO的人脸识别攻击防御方法
CN111161789A (zh) * 2019-12-11 2020-05-15 深圳先进技术研究院 一种模型预测的关键区域的分析方法及装置
US20200226425A1 (en) * 2019-01-11 2020-07-16 International Business Machines Corporation Margin based adversarial computer program
US20200265271A1 (en) * 2019-02-15 2020-08-20 Baidu Usa Llc Systems and methods for joint adversarial training by incorporating both spatial and pixel attacks
US20200272726A1 (en) * 2019-02-25 2020-08-27 Advanced Micro Devices, Inc. Method and apparatus for generating artificial intelligence resistant verification images
CN111600835A (zh) * 2020-03-18 2020-08-28 宁波送变电建设有限公司永耀科技分公司 一种基于fgsm对抗攻击算法的检测与防御方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858368A (zh) * 2018-12-29 2019-06-07 浙江工业大学 一种基于Rosenbrock-PSO的人脸识别攻击防御方法
US20200226425A1 (en) * 2019-01-11 2020-07-16 International Business Machines Corporation Margin based adversarial computer program
US20200265271A1 (en) * 2019-02-15 2020-08-20 Baidu Usa Llc Systems and methods for joint adversarial training by incorporating both spatial and pixel attacks
US20200272726A1 (en) * 2019-02-25 2020-08-27 Advanced Micro Devices, Inc. Method and apparatus for generating artificial intelligence resistant verification images
CN111161789A (zh) * 2019-12-11 2020-05-15 深圳先进技术研究院 一种模型预测的关键区域的分析方法及装置
CN111600835A (zh) * 2020-03-18 2020-08-28 宁波送变电建设有限公司永耀科技分公司 一种基于fgsm对抗攻击算法的检测与防御方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TING DENG 等: "generate adversarial examples by spatially perturbing on the meaningful area", 《ELSEVIER》 *
刘恒等: "基于生成式对抗网络的通用性对抗扰动生成方法", 《信息网络安全》 *
陈晋音等: "基于PSO的路牌识别模型黑盒对抗攻击方法", 《软件学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033747A (zh) * 2021-05-26 2021-06-25 中国工程物理研究院计算机应用研究所 一种用于人机识别的图形识别码生成方法
CN113450271A (zh) * 2021-06-10 2021-09-28 南京信息工程大学 一种基于人类视觉模型的鲁棒自适应对抗样本生成方法
CN113450271B (zh) * 2021-06-10 2024-02-27 南京信息工程大学 一种基于人类视觉模型的鲁棒自适应对抗样本生成方法
CN114399630A (zh) * 2021-12-31 2022-04-26 燕山大学 基于信念攻击和显著区域扰动限制的对抗样本生成方法
CN114399630B (zh) * 2021-12-31 2024-10-29 燕山大学 基于信念攻击和显著区域扰动限制的对抗样本生成方法
CN114332569A (zh) * 2022-03-17 2022-04-12 南京理工大学 基于注意力机制的低扰动对抗攻击方法
CN114882323A (zh) * 2022-07-08 2022-08-09 第六镜科技(北京)集团有限责任公司 对抗样本生成方法、装置、电子设备及存储介质
WO2024120206A1 (zh) * 2022-12-05 2024-06-13 中国科学院深圳先进技术研究院 无限制对抗样本生成方法、装置、电子设备及存储介质
CN117253094A (zh) * 2023-10-30 2023-12-19 上海计算机软件技术开发中心 一种图像分类系统对抗性样本生成方法、系统及电子设备
CN117253094B (zh) * 2023-10-30 2024-05-14 上海计算机软件技术开发中心 一种图像分类系统对抗性样本生成方法、系统及电子设备

Also Published As

Publication number Publication date
CN112633280B (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
CN112633280B (zh) 一种对抗样本生成方法及系统
CN109948658B (zh) 面向特征图注意力机制的对抗攻击防御方法及应用
CN109492582B (zh) 一种基于算法对抗性攻击的图像识别攻击方法
CN112364885B (zh) 一种基于深度神经网络模型可解释性的对抗样本防御方法
CN111950581A (zh) 针对多个扰动类型稳健的分类
CN113283599B (zh) 基于神经元激活率的对抗攻击防御方法
CN111882476B (zh) 基于深度强化学习的自动学习嵌入代价的图像隐写方法
CN104869126A (zh) 一种网络入侵异常检测方法
CN113269241B (zh) 一种遥感图像对抗样本的软阈值防御方法
CN111178504B (zh) 基于深度神经网络的鲁棒压缩模型的信息处理方法及系统
CN112580728B (zh) 一种基于强化学习的动态链路预测模型鲁棒性增强方法
CN115081618A (zh) 一种提升深度神经网络模型鲁棒性的方法及装置
CN111950635A (zh) 一种基于分层特征对齐的鲁棒特征学习方法
Vargas et al. Model agnostic dual quality assessment for adversarial machine learning and an analysis of current neural networks and defenses
CN115510986A (zh) 一种基于AdvGAN的对抗样本生成方法
CN111340066B (zh) 一种基于几何向量的对抗样本生成方法
CN115797311A (zh) 一种基于深度强化学习的公路裂缝图像分割方法
CN115346072A (zh) 图像分类模型的训练方法及装置、电子设备和存储介质
CN114693973A (zh) 一种基于Transformer模型的黑盒对抗样本生成方法
CN113487506A (zh) 基于注意力去噪的对抗样本防御方法、装置和系统
CN113901932A (zh) 融合人工鱼与粒子群算法的工程机械图像识别方法及系统
CN113537463A (zh) 基于数据扰动的对抗样本防御方法与装置
CN114036503B (zh) 一种迁移攻击方法、装置、电子设备及存储介质
CN114399630B (zh) 基于信念攻击和显著区域扰动限制的对抗样本生成方法
CN118587561B (zh) 基于自适应梯度时序特征剪枝的动作识别迁移攻击方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant