CN112766401A - 基于显著性对抗训练的对抗样本防御方法 - Google Patents

基于显著性对抗训练的对抗样本防御方法 Download PDF

Info

Publication number
CN112766401A
CN112766401A CN202110120845.4A CN202110120845A CN112766401A CN 112766401 A CN112766401 A CN 112766401A CN 202110120845 A CN202110120845 A CN 202110120845A CN 112766401 A CN112766401 A CN 112766401A
Authority
CN
China
Prior art keywords
sample
confrontation
training
activation
significance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110120845.4A
Other languages
English (en)
Other versions
CN112766401B (zh
Inventor
王莘
宫羽欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202110120845.4A priority Critical patent/CN112766401B/zh
Publication of CN112766401A publication Critical patent/CN112766401A/zh
Application granted granted Critical
Publication of CN112766401B publication Critical patent/CN112766401B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于显著性对抗训练的对抗样本防御方法,包括:利用投影梯度下降法生成对抗样本;利用可解释性方法获取模型对于对抗样本的显著图;将显著图划分为预设数量的小块样本,并计算每个小块样本的平均显著值,每个小块样本根据对应位置的平均显著值进行JPEG压缩;将显著性压缩后的对抗样本作为训练数据进行对抗训练。在测试时,将显著性压缩后的样本输入模型进行识别。该方法提升模型的对抗鲁棒性,提升模型对于对抗样本的识别准确率。

Description

基于显著性对抗训练的对抗样本防御方法
技术领域
本发明涉及攻击防御技术领域,特别涉及一种基于显著性对抗训练的对抗样本防御方法。
背景技术
当深度神经网络应用在对抗性环境中时,需要考虑一些安全性漏洞。对抗样本就是经过预训练的神经网络模型在测试以及在实际应用期间会被攻击者利用,并会针对模型造成一定的安全性威胁的人工产物。攻击者的主要目的是在输入样本X上添加尽可能小的扰动矢量δX,使得分类模型F产生不同于真实标签Y的错误输出Y*≠Y。形式化对抗样本的优化问题如下公式所示。添加在对抗样本上的对抗性扰动通常不会影响人类的正确判断,但确会误导模型的识别结果。
Figure BDA0002922001210000011
为了抵抗对抗性攻击,已经提出了许多防御对抗样本的方法,这些对抗性防御方法试图恢复模型针对对抗样本的正确识别结果,大致可分为两类。第一类防御方法增强神经网络模型本身的鲁棒性。对抗训练是其中的一种典型方法,它将对抗样本融入训练数据中,并给予这些对抗样本对应的正确标签重新训练神经网络模型。虽然对抗训练对模型的对抗鲁棒性有所改善,但依旧具有一定的上升空间。第二类防御方法是基于图像预处理操作,一些研究将对抗性攻击添加在干净样本上的微小扰动视为噪声,通过使用图像降噪等预处理方法尝试将对抗图像转换为干净图像,然后在测试时直接将它们输入分类器。这类方法的局限性是预处理操作的程度有限,较小程度的改变可能无法有效转换对抗样本,而较大程度的预处理操作又可能影响干净样本的分类结果。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的在于提出一种基于显著性对抗训练的对抗样本防御方法,该方法通过训练具有对抗鲁棒性的模型提升针对对抗样本的识别准确率。
为达到上述目的,本发明实施例提出了基于显著性对抗训练的对抗样本防御方法,包括以下步骤:步骤S1,利用投影梯度下降法生成对抗样本;步骤S2,利用可解释性方法获取输入样本的显著图;步骤S3,将所述显著图划分为预设数量的小块样本,并计算每个小块样本的平均显著值,每个小块样本根据对应位置的平均显著值进行JPEG压缩;步骤S4,将显著性压缩后的对抗样本作为训练数据进行对抗训练。
本发明实施例的基于显著性对抗训练的对抗样本防御方法,通过结合对抗训练和预处理防御方法,在对抗样本上进行战略性地预处理操作,并进一步结合对抗训练,改进模型针对对抗样本的识别效果,解决了对抗样本导致基于机器学习的图像分类模型产生异常输出的技术问题,同时,在对干净样本的识别结果影响尽可能小的的情况下,提升模型对于对抗样本的识别准确率。
另外,根据本发明上述实施例的基于显著性对抗训练的对抗样本防御方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述步骤S1具体包括:进行迭代攻击前,利用投影梯度下降法在输入样本上随机添加扰动范围[-∈,∈]内的初始扰动值e,在随机点的基础上沿着损失函数的梯度的方向进行多次扰动值大小为α≤∈的迭代扰动,并将所述扰动值投影到扰动范数球内,生成所述对抗样本。
进一步地,在本发明的一个实施例中,基于投影梯度下降法的无目标对抗样本生成公式为:
Figure BDA0002922001210000021
其中,
Figure BDA0002922001210000022
为随机初始化的对抗样本,X为输入样本,e为随机初始扰动值,
Figure BDA0002922001210000023
为进行N+1次扰动的对抗样本,ClipX,∈表示将对抗样本投影到[X-∈,X+∈],α为迭代扰动,θF为模型F的参数,
Figure BDA0002922001210000024
为模型的损失关于样本的梯度。
进一步地,在本发明的一个实施例中,所述步骤S2具体包括:步骤S201,利用所述可解释性方法中的得分-类激活映射方法Score-CAM计算输入样本在预设卷积层获得的k个通道的激活图,k为正整数;步骤S202,将每个激活图上采样到输入样本大小,并通过归一化函数将上采样后的激活图标准化到[0,1]范围内,获得较平滑蒙版;步骤S203,计算每个激活图负责的前景部分对预测类别的贡献得分,并将所述贡献得分进行softmax函数变换作为权重,处理所述权重和所述激活图得到所述输入样本的显著图。
进一步地,在本发明的一个实施例中,所述步骤S202中较平滑蒙版的计算公式为:
Figure BDA0002922001210000025
其中,
Figure BDA0002922001210000026
为较平滑蒙版,
Figure BDA0002922001210000027
为上采样后的激活图,
Figure BDA0002922001210000028
为上采样后的激活图的最小值,
Figure BDA0002922001210000029
为上采样后的激活图的最大值。
进一步地,在本发明的一个实施例中,所述步骤S203中计算每个激活图负责的前景部分对预测类别的贡献得分的公式为:
Figure BDA00029220012100000210
其中,fc(X)为预测类别c对应的logit输出,
Figure BDA00029220012100000211
为较平滑蒙版,
Figure BDA00029220012100000212
表示哈达玛积,Xb为基线输入。
进一步地,在本发明的一个实施例中,所述步骤S203中处理所述权重和所述激活图得到所述输入样本的显著图,计算公式为:
Figure BDA0002922001210000031
其中,
Figure BDA0002922001210000032
为输入样本的显著图,
Figure BDA0002922001210000033
为指定类别c的第k个权重,
Figure BDA0002922001210000034
为层l的第k个激活图,k为激活图个数。
进一步地,在本发明的一个实施例中,所述步骤S3中的JPEG压缩公式为:
Figure BDA0002922001210000035
其中,C(Xi)为显著性压缩后的对抗样本,Q为JPEG压缩程度列表,Sali为每个小块样本的平均显著值。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一个实施例的基于显著性对抗训练的对抗样本防御方法流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于显著性对抗训练的对抗样本防御方法。
图1是本发明一个实施例的基于显著性对抗训练的对抗样本防御方法流程图。
如图1所示,该基于显著性对抗训练的对抗样本防御方法包括以下步骤:
在步骤S1中,利用投影梯度下降法PGD生成对抗样本。
其中,投影梯度下降法(projected gradient descent,PGD)源于为了实现一个具有对抗鲁棒性的模型,而需要解决的鞍点问题的内部最大化问题,目的是获取扰动输入样本X后使损失函数值最大化的对抗样本Xadv,因此,投影梯度下降法PGD被经验性地认为是基于梯度的最有效的对抗性攻击方法。
具体地,在进行迭代攻击前,利用投影梯度下降法在输入样本上随机添加扰动范围[-∈,∈]内的初始扰动值e,在随机点的基础上沿着损失函数的梯度的方向进行多次扰动值大小为α≤∈的迭代扰动,并将扰动值投影到扰动范数球内,生成对抗样本。其中,基于投影梯度下降法的无目标对抗样本生成公式为:
Figure BDA0002922001210000041
其中,
Figure BDA0002922001210000042
为随机初始化的对抗样本,X为输入样本,e为随机初始扰动值,
Figure BDA0002922001210000043
为进行N+1次扰动的对抗样本,ClipX,∈表示将对抗样本投影到[X-∈,X+∈],α为迭代扰动,θF为模型F的参数,
Figure BDA0002922001210000044
为模型的损失关于样本的梯度。
在步骤S2中,利用可解释性方法获取输入样本的显著图。
具体地,本发明实施例为了能够获取对模型预测具有主要贡献的样本区域,采用使用事后视觉可解释方法,其中,可解释性方法可以帮助人理解机器学习模型针对每一个输入样本的决策依据。可视化的解释结果以显著图的效果呈现,突出显示输入样本中用于模型预测的重要决策区域,这些注意力区域提供了有关模型实际将输入样本的哪些信息用于预测的见解。因此,本发明实施例中利用可解释性方法中的分-类激活映射方法Score-CAM(Score-Class Activation Mapping)生成输入样本的显著图。
具体地,本发明实施例利用得分-类激活映射方法计算输入样本X在预设卷积层l获得的k个通道的激活图
Figure BDA0002922001210000045
k为正整数;然后,对各个激活图
Figure BDA0002922001210000046
进行上采样到输入样本大小获得
Figure BDA0002922001210000047
并通过归一化函数将上采样后的激活图标准化到[0,1]范围内,来获得更平滑的蒙版,计算公式为:
Figure BDA0002922001210000048
其中,
Figure BDA0002922001210000049
为较平滑蒙版,
Figure BDA00029220012100000410
为上采样后的激活图,
Figure BDA00029220012100000411
为上采样后的激活图的最小值,
Figure BDA00029220012100000412
为上采样后的激活图的最大值。
Score-CAM生成输入样本的显著图。Score-CAM首先计算输入样本X在指定的卷积层l获得的k个通道的激活输出
Figure BDA00029220012100000413
然后,对各个激活图
Figure BDA00029220012100000414
进行上采样到输入样本大小获得
Figure BDA00029220012100000415
并通过归一化函数将上采样后的激活图标准化到[0,1]范围内,来获得更平滑的蒙版,
计算每个激活图
Figure BDA00029220012100000416
主要负责的前景部分对预测类别c的贡献得分
Figure BDA00029220012100000417
计算公式为:
Figure BDA00029220012100000418
其中,fc(X)为预测类别c对应的logit输出,
Figure BDA00029220012100000419
为较平滑蒙版,
Figure BDA00029220012100000420
表示哈达玛积,Xb为基线输入。
然后将贡献得分
Figure BDA00029220012100000421
经过softmax函数变换的值作为权重
Figure BDA00029220012100000422
处理权重和激活图来获取良好的类别区分能力,进而得到输入样本的显著图,计算公式为:
Figure BDA0002922001210000051
其中,
Figure BDA0002922001210000052
为输入样本的显著图,
Figure BDA0002922001210000053
为指定类别c的第k个权重,
Figure BDA0002922001210000054
为层l的第k个激活图,k为激活图个数。
在步骤S3中,将显著图划分为预设数量的小块样本,并计算每个小块样本的平均显著值,每个小块样本根据对应位置的平均显著值进行JPEG压缩。
具体地,根据分-类激活映射方法Score-CAM获取显著值范围为[0,1]的显著图,将它划分为8*8=64个的小块,并计算小块显著图i的平均显著值Sali。将输入样本也划分为8*8=64个小块样本Xi,每个小块样本根据对应位置的小块显著图的平均显著值实施不同程度的JPEG压缩,即在压缩程度列表中选取显著程度对应的压缩程度,计算公式为:
Figure BDA0002922001210000055
其中,C(Xi)为显著性压缩后的对抗样本,Q为JPEG压缩程度列表,Sali为每个小块样本的平均显著值。
其中,JPEG压缩程度列表Q为[90,80,70,70,50,20],|Q|=6。为了尽可能地移除对抗样本中的对抗性噪声,同时降低对干净样本的影响,本发明实施例在输入样本的显著区域实施更强的预处理操作。
步骤S4中,将显著性压缩后的对抗样本作为训练数据进行对抗训练。
具体地,为了进行有效地对抗训练需要实现如下公式的内部最大化问题和外部最小化问题的组合。
Figure BDA0002922001210000056
式中,X为输入样本,fθ()为神经网络函数,Y为样本标签,τ为叠加在输入上的扰动,L(fθ(X+τ),Y)为在输入样本X上叠加一个扰动τ,再经过神经网络函数,与样本标签Y比较得到的损失,max(L)为优化目标,即寻找使损失函数最大的扰动。
其中,内部最大化旨利用基于投影梯度下降法PGD的对抗样本使模型的损失最大化,外部最小化旨通过不断地优化模型的参数θ使由内部攻击问题产生的“对抗性损失”最小化,从而获得具有对抗鲁棒性的模型。在对抗训练期间,本发明将显著性压缩后的对抗样本作为训练数据,并赋予对应干净样本的标签,通过迭代训练,让模型对输入样本的显著区域进行有效地预测,从而提升模型针对对抗样本的识别准确率。
下面根据一个具体实施例对本发明提出的基于显著性对抗训练的对抗样本防御方法进一步说明。
在CIFAR-10数据集进行实验,CIFAR-10数据集包含10个类别,共60000个图像,其中训练集包含50000个样本,测试集包括10000个样本。训练过程中针对ResNet18模型生成扰动程度为8/255,迭代次数为7的基于PGD的无目标对抗样本作为训练数据。模型在[0,0.2]的范围内使用周期性学习率,进行了15次迭代训练。测试时使用扰动程度为8/255,迭代次数为50的基于PGD的无目标对抗样本作为测试数据。模型在测试期间对于干净样本与基于PGD的对抗样本的损失和识别结果如下表1所示,针对对抗样本的识别准确率提升了6.24%,对于干净样本的识别结果仅降低了0.74%。显著性对抗训练在对干净样本的识别结果有较低影响的情况下,有效地提升了对抗样本的识别结果,实验结果展现了本发明方法的有效性。
表1显著性对抗训练的测试结果
Figure BDA0002922001210000061
综上,本发明实施例提出的基于显著性对抗训练的对抗样本防御方法,通过结合对抗训练和预处理防御方法,在对抗样本上进行战略性地预处理操作,并进一步结合对抗训练,改进模型针对对抗样本的识别效果,解决了对抗样本导致基于机器学习的图像分类模型产生异常输出的技术问题,同时,在对干净样本的识别结果影响尽可能小的的情况下,提升模型对于对抗样本的识别准确率。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种基于显著性对抗训练的对抗样本防御方法,其特征在于,包括以下步骤:
步骤S1,利用投影梯度下降法生成对抗样本;
步骤S2,利用可解释性方法获取输入样本的显著图;
步骤S3,将所述显著图划分为预设数量的小块样本,并计算每个小块样本的平均显著值,每个小块样本根据对应位置的平均显著值进行JPEG压缩;
步骤S4,将显著性压缩后的对抗样本作为训练数据进行对抗训练。
2.根据权利要求1所述的基于显著性对抗训练的对抗样本防御方法,其特征在于,所述步骤S1具体包括:
进行迭代攻击前,利用投影梯度下降法在输入样本上随机添加扰动范围[-∈,∈]内的初始扰动值e,在随机点的基础上沿着损失函数的梯度的方向进行多次扰动值大小为α≤∈的迭代扰动,并将所述扰动值投影到扰动范数球内,生成所述对抗样本。
3.根据权利要求2所述的基于显著性对抗训练的对抗样本防御方法,其特征在于,基于投影梯度下降法的无目标对抗样本生成公式为:
Figure FDA0002922001200000011
其中,
Figure FDA0002922001200000012
为随机初始化的对抗样本,X为输入样本,e为随机初始扰动值,
Figure FDA0002922001200000013
为进行N+1次扰动的对抗样本,ClipX,∈表示将对抗样本投影到[X-∈,X+∈],α为迭代扰动,θF为模型F的参数,
Figure FDA0002922001200000014
为模型的损失关于样本的梯度。
4.根据权利要求1所述的基于显著性对抗训练的对抗样本防御方法,其特征在于,所述步骤S2具体包括:
步骤S201,利用所述可解释性方法中的得分-类激活映射方法Score-CAM计算输入样本在预设卷积层获得的k个通道的激活图,k为正整数;
步骤S202,将每个激活图上采样到输入样本大小,并通过归一化函数将上采样后的激活图标准化到[0,1]范围内,获得较平滑蒙版;
步骤S203,计算每个激活图负责的前景部分对预测类别的贡献得分,并将所述贡献得分进行softmax函数变换作为权重,处理所述权重和所述激活图得到所述输入样本的显著图。
5.根据权利要求4所述的基于显著性对抗训练的对抗样本防御方法,其特征在于,所述步骤S202中较平滑蒙版的计算公式为:
Figure FDA0002922001200000015
其中,
Figure FDA0002922001200000021
为较平滑蒙版,
Figure FDA0002922001200000022
为上采样后的激活图,
Figure FDA0002922001200000023
为上采样后的激活图的最小值,
Figure FDA0002922001200000024
为上采样后的激活图的最大值。
6.根据权利要求4所述的基于显著性对抗训练的对抗样本防御方法,其特征在于,所述步骤S203中计算每个激活图负责的前景部分对预测类别的贡献得分的公式为:
Figure FDA0002922001200000025
其中,fc(X)为预测类别c对应的logit输出,
Figure FDA0002922001200000026
为较平滑蒙版,○表示哈达玛积,Xb为基线输入。
7.根据权利要求4所述的基于显著性对抗训练的对抗样本防御方法,其特征在于,所述步骤S203中处理所述权重和所述激活图得到所述输入样本的显著图,计算公式为:
Figure FDA0002922001200000027
其中,
Figure FDA0002922001200000028
为输入样本的显著图,
Figure FDA0002922001200000029
为指定类别c的第k个权重,
Figure FDA00029220012000000210
为层l的第k个激活图。
8.根据权利要求1所述的基于显著性对抗训练的对抗样本防御方法,其特征在于,所述步骤S3中的JPEG压缩公式为:
Figure FDA00029220012000000211
其中,C(Xi)为显著性压缩后的对抗样本,Q为JPEG压缩程度列表,Sali为每个小块样本的平均显著值。
CN202110120845.4A 2021-01-28 2021-01-28 基于显著性对抗训练的对抗样本防御方法 Active CN112766401B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110120845.4A CN112766401B (zh) 2021-01-28 2021-01-28 基于显著性对抗训练的对抗样本防御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110120845.4A CN112766401B (zh) 2021-01-28 2021-01-28 基于显著性对抗训练的对抗样本防御方法

Publications (2)

Publication Number Publication Date
CN112766401A true CN112766401A (zh) 2021-05-07
CN112766401B CN112766401B (zh) 2022-03-01

Family

ID=75706492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110120845.4A Active CN112766401B (zh) 2021-01-28 2021-01-28 基于显著性对抗训练的对抗样本防御方法

Country Status (1)

Country Link
CN (1) CN112766401B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569897A (zh) * 2021-05-17 2021-10-29 海南师范大学 一种基于固定像素点获取低频信息的对抗样本防御方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1390059A (zh) * 2001-06-01 2003-01-08 中国科学院计算技术研究所 合成孔径雷达复数图像数据压缩方法
CN111582295A (zh) * 2019-02-15 2020-08-25 百度(美国)有限责任公司 通过结合空间攻击和像素攻击两者来进行联合对抗性训练的系统和方法
CN111699693A (zh) * 2017-11-21 2020-09-22 因默希弗机器人私人有限公司 用于数字现实的图像压缩
CN111783551A (zh) * 2020-06-04 2020-10-16 中国人民解放军军事科学院国防科技创新研究院 基于贝叶斯卷积神经网络的对抗样本防御方法
CN111783085A (zh) * 2020-06-29 2020-10-16 浙大城市学院 一种对抗样本攻击的防御方法、装置及电子设备
CN112163638A (zh) * 2020-10-20 2021-01-01 腾讯科技(深圳)有限公司 图像分类模型后门攻击的防御方法、装置、设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1390059A (zh) * 2001-06-01 2003-01-08 中国科学院计算技术研究所 合成孔径雷达复数图像数据压缩方法
CN111699693A (zh) * 2017-11-21 2020-09-22 因默希弗机器人私人有限公司 用于数字现实的图像压缩
CN111582295A (zh) * 2019-02-15 2020-08-25 百度(美国)有限责任公司 通过结合空间攻击和像素攻击两者来进行联合对抗性训练的系统和方法
CN111783551A (zh) * 2020-06-04 2020-10-16 中国人民解放军军事科学院国防科技创新研究院 基于贝叶斯卷积神经网络的对抗样本防御方法
CN111783085A (zh) * 2020-06-29 2020-10-16 浙大城市学院 一种对抗样本攻击的防御方法、装置及电子设备
CN112163638A (zh) * 2020-10-20 2021-01-01 腾讯科技(深圳)有限公司 图像分类模型后门攻击的防御方法、装置、设备及介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AADITYA PRAKASH 等: "Protecting JPEG Images Against Adversarial Attacks", 《ARXIV:1803.00940V1》 *
AADITYA PRAKASH 等: "Semantic Perceptual Image Compression Using Deep Convolution Networks", 《2017 DATA COMPRESSION CONFERENCE (DCC)》 *
HAOFAN WANG 等: "Score-CAM:Score-Weighted Visual Explanations for Convolutional Neural Networks", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS (CVPRW)》 *
YUXIN GONG 等: "An Adversarial Attack Method in Gray-Box Setting Oriented to Defenses Based on Image Preprocessing", 《ADVANCES IN INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569897A (zh) * 2021-05-17 2021-10-29 海南师范大学 一种基于固定像素点获取低频信息的对抗样本防御方法
CN113569897B (zh) * 2021-05-17 2024-04-05 海南师范大学 一种基于固定像素点获取低频信息的对抗样本防御方法

Also Published As

Publication number Publication date
CN112766401B (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN109948658B (zh) 面向特征图注意力机制的对抗攻击防御方法及应用
CN111310802B (zh) 一种基于生成对抗网络的对抗攻击防御训练方法
CN111475797B (zh) 一种对抗图像生成方法、装置、设备以及可读存储介质
CN110941794B (zh) 一种基于通用逆扰动防御矩阵的对抗攻击防御方法
Jiang et al. Color backdoor: A robust poisoning attack in color space
CN113283599B (zh) 基于神经元激活率的对抗攻击防御方法
CN113627543B (zh) 一种对抗攻击检测方法
CN114399630A (zh) 基于信念攻击和显著区域扰动限制的对抗样本生成方法
CN114387449A (zh) 一种应对神经网络对抗性攻击的图像处理方法及系统
CN113591975A (zh) 基于Adam算法的对抗样本生成方法及系统
CN113487015A (zh) 基于图像亮度随机变换的对抗样本生成方法及系统
CN112766401B (zh) 基于显著性对抗训练的对抗样本防御方法
Li et al. Detecting adversarial patch attacks through global-local consistency
CN114049537B (zh) 一种基于卷积神经网络的对抗样本防御方法
Dhaliwal et al. Gradient similarity: An explainable approach to detect adversarial attacks against deep learning
Liang et al. We can always catch you: Detecting adversarial patched objects with or without signature
Heinrich et al. Fool me Once, shame on You, Fool me Twice, shame on me: a Taxonomy of Attack and de-Fense Patterns for AI Security.
CN111950635A (zh) 一种基于分层特征对齐的鲁棒特征学习方法
CN117152486A (zh) 一种基于可解释性的图像对抗样本检测方法
CN111027567A (zh) 一种基于算法学习的边缘提取方法
CN116011558A (zh) 一种高迁移性的对抗样本生成方法和系统
CN115017501A (zh) 一种基于不确定性估计的图像对抗攻击样本检测方法和系统
CN113409407B (zh) 一种基于平均压缩获取低频信息的对抗样本防御方法
Zhou et al. Exploring the effect of randomness on transferability of adversarial samples against deep neural networks
CN114638356A (zh) 一种静态权重引导的深度神经网络后门检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant