CN116011558A - 一种高迁移性的对抗样本生成方法和系统 - Google Patents

一种高迁移性的对抗样本生成方法和系统 Download PDF

Info

Publication number
CN116011558A
CN116011558A CN202310046878.8A CN202310046878A CN116011558A CN 116011558 A CN116011558 A CN 116011558A CN 202310046878 A CN202310046878 A CN 202310046878A CN 116011558 A CN116011558 A CN 116011558A
Authority
CN
China
Prior art keywords
feature
negative
feature map
gradient
iteration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310046878.8A
Other languages
English (en)
Other versions
CN116011558B (zh
Inventor
常相茂
晋子康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202310046878.8A priority Critical patent/CN116011558B/zh
Publication of CN116011558A publication Critical patent/CN116011558A/zh
Application granted granted Critical
Publication of CN116011558B publication Critical patent/CN116011558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供一种高迁移性的对抗样本生成方法和系统,其中方法包括获取原始图像在指定的深度学习网络多个中间层的特征图;根据中间层的激活值和梯度将所有特征图划分为正向特征区域和负向特征区域;将所有指定中间层的不同区域加权求和作为损失函数,以使用动量法对损失函数进行处理得到每次迭代攻击的对抗样本;在迭代攻击次数达到预设次数的情况下生成高迁移性的对抗样本。本发明通过准确的特征划分方式,量化地解释正向特征和负向特征对对抗样本迁移性的影响,即正向特征主导了对抗性样本的迁移性,扰动更多的特征可以生成更高迁移性的对抗样本。

Description

一种高迁移性的对抗样本生成方法和系统
技术领域
本发明属于人工智能安全技术领域,尤其涉及一种高迁移性的对抗样本生成方法和系统。
背景技术
深度学习网络(DNNs)对计算机视觉领域的各种真实场景任务具有革命性的影响,如图像分类、人脸识别、目标检测、语义分割等。但是最近的研究表明,DNNs很容易受到对抗样本的影响,恶意攻击者通过在干净图像中添加人类难以察觉的扰动就可以误导DNNs的最终决策,这给DNNs的现实部署带来很大的安全挑战。为了准确地评估DNNs的缺陷并提高其鲁棒性,有必要对对抗性攻击进行深入研究。许多对抗样本生成方法都是基于黑盒设置的,攻击者在这种设置下只拥有对目标模型的查询权限,无法访问目标模型的结构、参数等信息。基于迁移的对抗攻击可以轻松地越过这些限制,因为它只需要在本地代理模型上生成对抗样本就可以成功地误导目标模型,现有的迁移攻击方法,比如输入转换、梯度校准以及生成模型在黑盒设置下都表现出不俗的性能,但是这些方法都存在对抗样本与本地代理模型过度拟合的问题,无法有效地破坏原始图像在不同模型间共享的内在特征。而特征级攻击通过扰乱原始图像在网络中间层的输出,可以减少本地代理模型特定特征的影响,进一步提高对抗样本的迁移性。
目前,在使用特征级攻击提高对抗样本迁移性方向上已经存在一些工作:(1)FDA通过扰动原始图像中间层的激活值证明了特征级攻击相比与其他迁移攻击方法可以更加有效地提高对抗样本的迁移性;(2)FIA引入聚合梯度,将原始图像的“噪声”特征进行中和,从而有效破坏了主导不同模型决策的重要特征;(3)RPA为了获得更加准确的聚合梯度,对原始图像进行随机斑块变换,使变换后的图像可以在保留对象空间结构和纹理信息的同时改变非对象噪声;(4)NAA使用归因算法对每个神经元的重要性进行评估,更有针对性地破坏原始图像的内在特征。虽然上述方法都可以在目标模型上获得很高的攻击成功率,但是仍存在以下问题:
现有的特征级攻击方法仅破坏单个中间层的特征信息,由于单个层所能提供的信息有限,对抗样本很容易陷入特定于代理模型的局部优化;
现有的特征级攻击方法使用固定阈值或平均值划分正向特征和负向特征,由于迭代攻击的过程中提取的中间层激活值和梯度在不断变化,每次迭代获得的特征划分的结果都是不同的,但是对于原始图像,所有特征的属性的固定的。
发明内容
本发明针对现有技术中的不足,提供一种高迁移性的对抗样本生成方法和系统。
第一方面,本发明提供一种高迁移性的对抗样本生成方法,包括:
S1,获取原始图像在指定的深度学习网络多个中间层的特征图;
S2,根据中间层的激活值和梯度将所有特征图划分为正向特征区域和负向特征区域;
S3,将所有指定中间层的不同区域加权求和作为损失函数,以使用动量法对损失函数进行处理得到每次迭代攻击的对抗样本;
S4,判断迭代攻击次数是否达到预设次数;
S5,如果是,则生成高迁移性的对抗样本;
S6,如果否,则返回执行步骤S3的操作。
进一步地,所述根据中间层的激活值和梯度将所有特征图划分为正向特征区域和负向特征区域,包括:
根据以下公式计算中间层每个特征图的空间位置的梯度:
Figure BDA0004055897330000021
其中,
Figure BDA0004055897330000022
为中间层每个特征图的空间位置(i,j)的梯度;f(x)[q]为深度学习网络f对于输入图像x属于类别q的预测分数;
Figure BDA0004055897330000023
为深度学习网络第k层第c个特征图在空间位置(i,j)的激活值;
根据以下公式计算中间层每个特征图的空间位置的重要性:
Figure BDA0004055897330000024
其中,wij为中间层每个特征图的空间位置(i,j)的重要性;relu为激活函数,以将负梯度设为0,正梯度保持不变;
根据每个特征图的空间位置的重要性将所有特征图划分为正向特征区域和负向特征区域。
进一步地,所述根据每个特征图的空间位置的重要性将所有特征图划分为正向特征区域和负向特征区域,包括:
根据以下公式将特征图划分为正向特征区域:
Figure BDA0004055897330000025
其中,γ为超参数,以控制正向特征区域和负向特征区域所占的比例;
Figure BDA0004055897330000031
Figure BDA0004055897330000032
均代表当前中间层所有特征图空间位置(i,j)属于正向特征区域;
Figure BDA0004055897330000033
为wij的平均值;
根据以下公式将特征图划分为负向特征区域:
Figure BDA0004055897330000034
其中,
Figure BDA0004055897330000035
Figure BDA0004055897330000036
均代表当前中间层所有特征图空间位置(i,j)属于负向特征区域。
进一步地,所述将所有指定中间层的不同区域加权求和作为损失函数,以使用动量法对损失函数进行处理得到每次迭代攻击的对抗样本,包括:
根据以下公式计算损失函数:
Figure BDA0004055897330000037
其中,L(xadv)为损失函数;m为指定的中间层的个数;s为第s个指定的中间层;Δks为深度学习网络第ks层的聚合梯度;
Figure BDA0004055897330000038
为深度学习网络对于输入的对抗图像xadv的第ks层激活值;
Figure BDA0004055897330000039
为第ks层划分的正向特征区域;
Figure BDA00040558973300000310
为第ks层划分的负向特征区域;α为超参数,以控制正向特征区域的破坏程度;β为超参数,以控制负向特征区域的破坏程度;
构建动量法表达式:
Figure BDA00040558973300000311
其中,gt+1为第t+1次迭代的加权累计梯度;μ为衰减因子;gt为第t次迭代的加权累计梯度;
Figure BDA00040558973300000312
为第t次迭代生成的对抗图像;||·||1为范数运算。
进一步地,本发明提供一种高迁移性的对抗样本生成方法还包括:
根据以下公式对每次迭代生成的对抗图像进行切片处理,以使所有像素落在[0,1]范围内:
Figure BDA00040558973300000313
其中,Clip(·)为切片函数;
Figure BDA00040558973300000314
为第t+1次迭代生成的对抗图像;σ为每次迭代攻击的步长;
Figure BDA0004055897330000041
第二方面,本发明提供一种高迁移性的对抗样本生成系统,包括:
特征图获取模块,用于获取原始图像在指定的深度学习网络多个中间层的特征图;
特征图划分模块,用于根据中间层的激活值和梯度将所有特征图划分为正向特征区域和负向特征区域;
第一计算模块,用于将所有指定中间层的不同区域加权求和作为损失函数,以使用动量法对损失函数进行处理得到每次迭代攻击的对抗样本;
判断模块,用于判断迭代攻击次数是否达到预设次数;
对抗样本生成模块,用于在判断模块确定迭代攻击次数达到预设次数的情况下,生成高迁移性的对抗样本;
更新模块,用于在判断模块确定迭代攻击次数没有达到预设次数的情况下,返回执行计算模块的操作。
进一步地,所述特征图划分模块包括:
第一计算单元,用于根据以下公式计算中间层每个特征图的空间位置的梯度:
Figure BDA0004055897330000042
其中,
Figure BDA0004055897330000043
为中间层每个特征图的空间位置(i,j)的梯度;f(x)[q]为深度学习网络f对于输入图像x属于类别q的预测分数;
Figure BDA0004055897330000044
为深度学习网络第k层第c个特征图在空间位置(i,j)的激活值;
第二计算单元,用于根据以下公式计算中间层每个特征图的空间位置的重要性:
Figure BDA0004055897330000045
其中,wij为中间层每个特征图的空间位置(i,j)的重要性;relu为激活函数,以将负梯度设为0,正梯度保持不变;
特征图划分单元,用于根据每个特征图的空间位置的重要性将所有特征图划分为正向特征区域和负向特征区域。
进一步地,所述特征图划分单元包括:
第一特征图划分装置,用于根据以下公式将特征图划分为正向特征区域:
Figure BDA0004055897330000051
其中,γ为超参数,以控制正向特征区域和负向特征区域所占的比例;
Figure BDA0004055897330000052
Figure BDA0004055897330000053
均代表当前中间层所有特征图空间位置(i,j)属于正向特征区域;
Figure BDA0004055897330000054
为wij的平均值;
第二特征图划分装置,用于根据以下公式将特征图划分为负向特征区域:
Figure BDA0004055897330000055
其中,
Figure BDA0004055897330000056
Figure BDA0004055897330000057
均代表当前中间层所有特征图空间位置(i,j)属于负向特征区域。
进一步地,所述第一计算模块包括:
第三计算单元,用于根据以下公式计算损失函数:
Figure BDA0004055897330000058
其中,L(xadv)为损失函数;m为指定的中间层的个数;s为第s个指定的中间层;Δks为深度学习网络第ks层的聚合梯度;
Figure BDA0004055897330000059
为深度学习网络对于输入的对抗图像xadv的第ks层激活值;
Figure BDA00040558973300000510
为第ks层划分的正向特征区域;
Figure BDA00040558973300000511
为第ks层划分的负向特征区域;α为超参数,以控制正向特征区域的破坏程度;β为超参数,以控制负向特征区域的破坏程度;
构建单元,用于构建动量法表达式:
Figure BDA00040558973300000512
其中,gt+1为第t+1次迭代的加权累计梯度;μ为衰减因子;gt为第t次迭代的加权累计梯度;
Figure BDA00040558973300000513
为第t次迭代生成的对抗图像;||·||1为范数运算。
进一步地,本发明提供一种高迁移性的对抗样本生成系统还包括:
第二计算模块,用于根据以下公式对每次迭代生成的对抗图像进行切片处理,以使所有像素落在[0,1]范围内:
Figure BDA00040558973300000514
其中,Clip(·)为切片函数;
Figure BDA00040558973300000515
为第t+1次迭代生成的对抗图像;σ为每次迭代攻击的步长;
Figure BDA0004055897330000061
本发明提供一种高迁移性的对抗样本生成方法和系统,其中方法包括S1,获取原始图像在指定的深度学习网络多个中间层的特征图;S2,根据中间层的激活值和梯度将所有特征图划分为正向特征区域和负向特征区域;S3,将所有指定中间层的不同区域加权求和作为损失函数,以使用动量法对损失函数进行处理得到每次迭代攻击的对抗样本;S4,判断迭代攻击次数是否达到预设次数;S5,如果是,则生成高迁移性的对抗样本;S6,如果否,则返回执行步骤S3的操作。
本发明相比于单个中间层的特征级攻击,本发明通过聚合多个中间层的特征信息,最大程度地扭曲不同模型间共享的对象内在特征和降低仅服务于本地代理模型的特定特征影响。本发明通过准确的特征划分方式,量化地解释正向特征和负向特征对对抗样本迁移性的影响,即正向特征主导了对抗性样本的迁移性,扰动更多的特征可以生成更高迁移性的对抗样本。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种高迁移性的对抗样本生成方法的流程图;
图2为本发明实施例提供的正向特征和负向特征攻击成功率对比图;
图3为本发明实施例提供的一种高迁移性的对抗样本生成系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例使用f表示深度学习网络,当网络的输入是一个干净的原始图像x时,可以得到图像x属于第p类的概率f(x)[p]和图像类别预测结果q=arg maxf(x)。本发明实施例的目标是通过添加难以察觉的扰动∈制作对抗性的例子xadv来误导深度学习网络。因此对抗样本的生成过程可以表示为以下优化问题:
arg maxf(xadv)≠q,||xadv-x||p≤∈。
其中,p范数是为了正则化xadv相比于x的扰动,本发明实施例使用p=∞。上述优化需要恶意攻击者有访问目标模型的结构和参数的权限,直接进行优化在黑盒设置下是不现实的。但是由于转移性的存在,本发明实施例通过本地代理模型生成的对抗样本也可以成功误导目标模型的决策。
在一实施例中,如图1所示,本发明实施例提供一种高迁移性的对抗样本生成方法,包括:
S1,获取原始图像在指定的深度学习网络多个中间层的特征图。
S2,根据中间层的激活值和梯度将所有特征图划分为正向特征区域和负向特征区域。
大多数特征级攻击方法的目的是破坏正向特征或扩大负向特征的影响,但它们没有提供合理的特征划分方法。本发明实施例在迭代攻击前使用原始图像在中间层的激活值和梯度来区分正向和负向特征区域。对于预测类为q的原始输入图像x,本发明实施例将深度学习网络第k层的输出激活值定义为Ak,同时使用
Figure BDA0004055897330000071
表示第k层第c个特征图的激活值。
根据以下公式计算中间层每个特征图的空间位置的梯度:
Figure BDA0004055897330000072
其中,
Figure BDA0004055897330000073
为中间层每个特征图的空间位置(i,j)的梯度;f(x)[q]为深度学习网络f对于输入图像x属于类别q的预测分数;
Figure BDA0004055897330000074
为深度学习网络第k层第c个特征图在空间位置(i,j)的激活值。
由于与目标类别相关的不同位置(特征)的重要性可以通过每个位置的单独权重来反映,为了获得更准确的中层细粒度的正向和负向特征定位,本发明实施例将具有负梯度的位置的梯度设为零,具有正梯度的位置保持不变,即relu激活函数。然后将每个神经元的激活值乘以梯度,并沿通道维数线性组合。
根据以下公式计算中间层每个特征图的空间位置的重要性:
Figure BDA0004055897330000075
其中,wij为中间层每个特征图的空间位置(i,j)的重要性;relu为激活函数,以将负梯度设为0,正梯度保持不变。
根据每个特征图的空间位置的重要性将所有特征图划分为正向特征区域和负向特征区域。
基于wij,本发明引入与wij形状相同的正向特征特征向量
Figure BDA0004055897330000076
和负向特征向量
Figure BDA0004055897330000077
进行特征区域划分,两者都是由0和1组成。
根据以下公式将特征图划分为正向特征区域:
Figure BDA0004055897330000081
其中,γ为超参数,以控制正向特征区域和负向特征区域所占的比例;
Figure BDA0004055897330000082
Figure BDA0004055897330000083
均代表当前中间层所有特征图空间位置(i,j)属于正向特征区域;
Figure BDA0004055897330000084
为wij的平均值。
根据以下公式将特征图划分为负向特征区域:
Figure BDA0004055897330000085
其中,
Figure BDA0004055897330000086
Figure BDA0004055897330000087
均代表当前中间层所有特征图空间位置(i,j)属于负向特征区域。
S3,将所有指定中间层的不同区域加权求和作为损失函数,以使用动量法对损失函数进行处理得到每次迭代攻击的对抗样本。
针对指定的m个实施攻击的中间层K={k1,k2,...,km},在攻击开始前对每一层的特征图进行区域划分,可以得到两个特征区域集,一个是所有指定中间层的正向特征区域集
Figure BDA0004055897330000088
另一个是所有指定中间层的负向特征区域集
Figure BDA0004055897330000089
进一步地,本发明实施例根据以下损失函数来指导生成对抗样本xadv
Figure BDA00040558973300000810
其中,L(xadv)为损失函数;m为指定的中间层的个数;s为第s个指定的中间层;
Figure BDA00040558973300000811
为深度学习网络第ks层的聚合梯度;
Figure BDA00040558973300000812
为深度学习网络对于输入的对抗图像xadv的第ks层激活值;
Figure BDA00040558973300000813
为第ks层划分的正向特征区域;
Figure BDA00040558973300000814
为第ks层划分的负向特征区域;α为超参数,以控制正向特征区域的破坏程度;β为超参数,以控制负向特征区域的破坏程度。
因此,对抗样本生成的优化问题可以重新定义为:
Figure BDA00040558973300000815
为了更好的解决上述优化问题,本发明实施例采用动量法获得每次迭代生成的对抗图像;构建的动量法表达式:
Figure BDA0004055897330000091
其中,gt+1为第t+1次迭代的加权累计梯度;g0=0;μ为衰减因子;gt为第t次迭代的加权累计梯度;
Figure BDA0004055897330000092
为第t次迭代生成的对抗图像;
Figure BDA0004055897330000093
为原始图像;||·||1为范数运算。
同时,本发明实施例对每次迭代生成的对抗图像进行切片处理,以使所有像素落在[0,1]范围内:
Figure BDA0004055897330000094
其中,Clip(·)为切片函数;
Figure BDA0004055897330000095
为第t+1次迭代生成的对抗图像;σ为每次迭代攻击的步长;
Figure BDA0004055897330000096
S4,判断迭代攻击次数是否达到预设次数。
S5,如果是,则生成高迁移性的对抗样本。
S6,如果否,则返回执行步骤S3的操作。
本发明实施例提供一种高迁移性的对抗样本生成方法,相比于单个中间层的特征级攻击,本发明通过聚合多个中间层的特征信息,最大程度地扭曲不同模型间共享的对象内在特征和降低仅服务于本地代理模型的特定特征影响,本发明实施例的方法生成的对抗样本相比于FIA、RPA和NAA具有更加优越的迁移性;同时通过更加准确的特征划分方式,量化地解释正向特征和负向特征对对抗样本迁移性的影响,即正向特征主导了对抗性样本的迁移性,扰动更多的特征可以生成更高迁移性的对抗样本。
为了验证本发明生成的对抗样本具有高迁移性以及解释不同特征对对抗样本迁移性的影响,进行了如下实验。实验遵循之前特征级攻击方法的设置,使用NeurIPS2017对抗性竞赛发布的ImageNet-compatible数据集,其包含1000张随机采样的图像。实验从极具代表性的分类模型中选择本地代理模型和目标模型,其中包括四个正常训练模型:Vgg-16、Inception-v3(Inc-v3)、Inception-v4(Inc-v4)、Inception-Resnet-v2(IncRes-v2),三个反向训练模型:Incv3adv、IncResv2adv和Incv3ens4。相关实验参数设置如下:最大扰动∈=16,最大迭代次数T=16,每次迭代攻击步长σ=∈/T=1.6。对于动量法,衰减因子μ=1.0。实验结果表明只需要攻击两个中间层就足以体现本发明所提方法的优越性,针对Vgg-16,本发明实施例选择攻击Conv3_3层和Conv5_1层,针对Inc-v3,本发明实施例选择攻击Mixed_5b层和Mixed_6b层。
为了与目前的特征级攻击方法进行公平比较,在迁移性方面,本发明实施例平等对待正向特征和负向特征,因此将γ、α和β的值都设为1.0,结果如表1所示。实验选择的本地代理模型是Vgg-16,表格的最左边一列的攻击方法,最上面一行是目标模型。本发明提出的方法在正常训练模型和反向训练模型上的对抗样本迁移性都显著优于基线方法,相比于FIA平均提升4.5%,相比于RPA平均提升1.8%,相比于NAA平均提升2.3%,特别地,当目标模型是Incv3ens4时,本发明提出的方法相比于FIA有8.0%的提升,这证明了通过本发明实施例提出的方法可以更加有效地破坏主导不同模型决策的图像内部特征,生成具有更高的迁移性的对抗样本。
表1目前的特征级攻击方法迁移性比较
Inc-v3 Inc-v4 IncRes-v2 Incv3adv IncResv2adv Incv3ens4
FIA 95.2% 96.2% 92.0% 84.1% 81.6% 78.2%
FIA+ours 97.6% 98.4% 95.2% 90.0% 86.8% 86.2%
RPA 95.8% 96.9% 94.5% 89.9% 87.4% 86.8%
RPA+ours 97.5% 97.6% 95.8% 91.4% 90.1% 89.8%
NAA 93.0% 93.0% 90.6% 85.4% 83.5% 83.7%
NAA+ours 94.8% 95.0% 92.5% 87.5% 86.7% 86.3%
进一步地,为了验证特征划分方式的合理性同时解释正向特征和负向特征对对抗样本迁移性的影响,本发明选择Inc-v3作为本地代理模型,Inc-v4作为目标模型,并通过调整γ、α和β的值选择部分比例的正向特征和负向特征分别实施攻击。例如,γ=0.8,α=1.0,β=0代表只选择50%的正向特征,γ=0.8,α=1.0,β=0代表只选择50%的负向特征,实验结果如图2所示。当使用所有特征时,攻击成功率为88.1%,但仅使用25%的正向特征就能达到79.5%的攻击成功率,是使用25%的负向特征的攻击成功率的两倍多。而且随着特征比例的增加,两种特征的区域有更多的重叠部分,这导致两种特征攻击成功率之间的差距越来越小。可以发现,正向特征主导了对抗性样本的迁移性,扰动更多的特征可以生成更高迁移性的对抗样本。
基于同一发明构思,本发明实施例还提供了一种高迁移性的对抗样本生成系统,由于该系统解决问题的原理与高迁移性的对抗样本生成方法相似,因此该系统的实施可以参见高迁移性的对抗样本生成方法的实施,重复之处不再赘述。
在另一实施例中,本发明实施例提供的高迁移性的对抗样本生成系统,如图3所示,包括:
特征图获取模块10,用于获取原始图像在指定的深度学习网络多个中间层的特征图。
特征图划分模块20,用于根据中间层的激活值和梯度将所有特征图划分为正向特征区域和负向特征区域。
第一计算模块30,用于将所有指定中间层的不同区域加权求和作为损失函数,以使用动量法对损失函数进行处理得到每次迭代攻击的对抗样本。
判断模块40,用于判断迭代攻击次数是否达到预设次数。
对抗样本生成模块50,用于在判断模块确定迭代攻击次数达到预设次数的情况下,生成高迁移性的对抗样本。
更新模块60,用于在判断模块确定迭代攻击次数没有达到预设次数的情况下,返回执行计算模块的操作。
示例性地,所述特征图划分模块包括:
第一计算单元,用于根据以下公式计算中间层每个特征图的空间位置的梯度:
Figure BDA0004055897330000111
其中,
Figure BDA0004055897330000112
为中间层每个特征图的空间位置(i,j)的梯度;f(x)[q]为深度学习网络f对于输入图像x属于类别q的预测分数;
Figure BDA0004055897330000113
为深度学习网络第k层第c个特征图在空间位置(i,j)的激活值;
第二计算单元,用于根据以下公式计算中间层每个特征图的空间位置的重要性:
Figure BDA0004055897330000114
其中,wij为中间层每个特征图的空间位置(i,j)的重要性;relu为激活函数,以将负梯度设为0,正梯度保持不变;
特征图划分单元,用于根据每个特征图的空间位置的重要性将所有特征图划分为正向特征区域和负向特征区域。
示例性地,所述特征图划分单元包括:
第一特征图划分装置,用于根据以下公式将特征图划分为正向特征区域:
Figure BDA0004055897330000115
其中,γ为超参数,以控制正向特征区域和负向特征区域所占的比例;
Figure BDA0004055897330000116
Figure BDA0004055897330000117
均代表当前中间层所有特征图空间位置(i,j)属于正向特征区域;
Figure BDA0004055897330000118
为wij的平均值;
第二特征图划分装置,用于根据以下公式将特征图划分为负向特征区域:
Figure BDA0004055897330000121
其中,
Figure BDA0004055897330000122
Figure BDA0004055897330000123
均代表当前中间层所有特征图空间位置(i,j)属于负向特征区域。
示例性地,所述第一计算模块包括:
第三计算单元,用于根据以下公式计算损失函数:
Figure BDA0004055897330000124
其中,L(xadv)为损失函数;m为指定的中间层的个数;s为第s个指定的中间层;
Figure BDA0004055897330000125
为深度学习网络第ks层的聚合梯度;
Figure BDA0004055897330000126
为深度学习网络对于输入的对抗图像xadv的第ks层激活值;
Figure BDA0004055897330000127
为第ks层划分的正向特征区域;
Figure BDA0004055897330000128
为第ks层划分的负向特征区域;α为超参数,以控制正向特征区域的破坏程度;β为超参数,以控制负向特征区域的破坏程度;
构建单元,用于构建动量法表达式:
Figure BDA0004055897330000129
其中,gt+1为第t+1次迭代的加权累计梯度;μ为衰减因子;gt为第t次迭代的加权累计梯度;
Figure BDA00040558973300001210
为第t次迭代生成的对抗图像;||·||1为范数运算。
示例性地,本发明实施例提供的高迁移性的对抗样本生成系统,还包括:
第二计算模块70,用于根据以下公式对每次迭代生成的对抗图像进行切片处理,以使所有像素落在[0,1]范围内:
Figure BDA00040558973300001211
其中,Clip(·)为切片函数;
Figure BDA00040558973300001212
为第t+1次迭代生成的对抗图像;σ为每次迭代攻击的步长;
Figure BDA00040558973300001213
关于上述各个模块更加具体的工作过程可以参考前述实施例公开的相应内容,在此不再进行赘述。
在另一实施例中,本发明提供一种计算机设备,包括处理器和存储器;其中,处理器执行存储器中保存的计算机程序时实现上述高迁移性的对抗样本生成方法的步骤。
关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
在另一实施例中,本发明提供一种计算机可读存储介质,用于存储计算机程序;计算机程序被处理器执行时实现上述高迁移性的对抗样本生成方法的步骤。
关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的系统、设备和存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上结合具体实施方式和范例性实例对本发明进行了详细说明,不过这些说明并不能理解为对本发明的限制。本领域技术人员理解,在不偏离本发明精神和范围的情况下,可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本发明的范围内。本发明的保护范围以所附权利要求为准。

Claims (10)

1.一种高迁移性的对抗样本生成方法,其特征在于,包括:
S1,获取原始图像在指定的深度学习网络多个中间层的特征图;
S2,根据中间层的激活值和梯度将所有特征图划分为正向特征区域和负向特征区域;
S3,将所有指定中间层的不同区域加权求和作为损失函数,以使用动量法对损失函数进行处理得到每次迭代攻击的对抗样本;
S4,判断迭代攻击次数是否达到预设次数;
S5,如果是,则生成高迁移性的对抗样本;
S6,如果否,则返回执行步骤S3的操作。
2.根据权利要求1所述的高迁移性的对抗样本生成方法,其特征在于,所述根据中间层的激活值和梯度将所有特征图划分为正向特征区域和负向特征区域,包括:
根据以下公式计算中间层每个特征图的空间位置的梯度:
Figure FDA0004055897320000011
其中,
Figure FDA0004055897320000012
为中间层每个特征图的空间位置(i,j)的梯度;f(x)[q]为深度学习网络f对于输入图像x属于类别q的预测分数;
Figure FDA0004055897320000013
为深度学习网络第k层第c个特征图在空间位置(i,j)的激活值;
根据以下公式计算中间层每个特征图的空间位置的重要性:
Figure FDA0004055897320000014
其中,wij为中间层每个特征图的空间位置(i,j)的重要性;relu为激活函数,以将负梯度设为0,正梯度保持不变;
根据每个特征图的空间位置的重要性将所有特征图划分为正向特征区域和负向特征区域。
3.根据权利要求2所述的高迁移性的对抗样本生成方法,其特征在于,所述根据每个特征图的空间位置的重要性将所有特征图划分为正向特征区域和负向特征区域,包括:
根据以下公式将特征图划分为正向特征区域:
Figure FDA0004055897320000015
其中,γ为超参数,以控制正向特征区域和负向特征区域所占的比例;
Figure FDA0004055897320000016
Figure FDA0004055897320000017
均代表当前中间层所有特征图空间位置(i,j)属于正向特征区域;
Figure FDA0004055897320000018
为wij的平均值;
根据以下公式将特征图划分为负向特征区域:
Figure FDA0004055897320000021
其中,
Figure FDA0004055897320000022
Figure FDA0004055897320000023
均代表当前中间层所有特征图空间位置(i,j)属于负向特征区域。
4.根据权利要求1所述的高迁移性的对抗样本生成方法,其特征在于,所述将所有指定中间层的不同区域加权求和作为损失函数,以使用动量法对损失函数进行处理得到每次迭代攻击的对抗样本,包括:
根据以下公式计算损失函数:
Figure FDA0004055897320000024
其中,L(xadv)为损失函数;m为指定的中间层的个数;s为第s个指定的中间层;
Figure FDA0004055897320000025
为深度学习网络第ks层的聚合梯度;
Figure FDA00040558973200000212
为深度学习网络对于输入的对抗图像xadv的第ks层激活值;
Figure FDA0004055897320000026
为第ks层划分的正向特征区域;
Figure FDA0004055897320000027
为第ks层划分的负向特征区域;α为超参数,以控制正向特征区域的破坏程度;β为超参数,以控制负向特征区域的破坏程度;
构建动量法表达式:
Figure FDA0004055897320000028
其中,gt+1为第t+1次迭代的加权累计梯度;μ为衰减因子;gt为第t次迭代的加权累计梯度;
Figure FDA00040558973200000213
为第t次迭代生成的对抗图像;||·||1为范数运算。
5.根据权利要求4所述的高迁移性的对抗样本生成方法,其特征在于,还包括:
根据以下公式对每次迭代生成的对抗图像进行切片处理,以使所有像素落在[0,1]范围内:
Figure FDA0004055897320000029
其中,Clip(·)为切片函数;
Figure FDA00040558973200000210
为第t+1次迭代生成的对抗图像;σ为每次迭代攻击的步长;
Figure FDA00040558973200000211
6.一种高迁移性的对抗样本生成系统,其特征在于,包括:
特征图获取模块,用于获取原始图像在指定的深度学习网络多个中间层的特征图;
特征图划分模块,用于根据中间层的激活值和梯度将所有特征图划分为正向特征区域和负向特征区域;
第一计算模块,用于将所有指定中间层的不同区域加权求和作为损失函数,以使用动量法对损失函数进行处理得到每次迭代攻击的对抗样本;
判断模块,用于判断迭代攻击次数是否达到预设次数;
对抗样本生成模块,用于在判断模块确定迭代攻击次数达到预设次数的情况下,生成高迁移性的对抗样本;
更新模块,用于在判断模块确定迭代攻击次数没有达到预设次数的情况下,返回执行计算模块的操作。
7.根据权利要求6所述的高迁移性的对抗样本生成系统,其特征在于,所述特征图划分模块包括:
第一计算单元,用于根据以下公式计算中间层每个特征图的空间位置的梯度:
Figure FDA0004055897320000031
其中,
Figure FDA0004055897320000032
为中间层每个特征图的空间位置(i,j)的梯度;f(x)[q]为深度学习网络f对于输入图像x属于类别q的预测分数;
Figure FDA0004055897320000033
为深度学习网络第k层第c个特征图在空间位置(i,j)的激活值;
第二计算单元,用于根据以下公式计算中间层每个特征图的空间位置的重要性:
Figure FDA0004055897320000034
其中,wij为中间层每个特征图的空间位置(i,j)的重要性;relu为激活函数,以将负梯度设为0,正梯度保持不变;
特征图划分单元,用于根据每个特征图的空间位置的重要性将所有特征图划分为正向特征区域和负向特征区域。
8.根据权利要求7所述的高迁移性的对抗样本生成系统,其特征在于,所述特征图划分单元包括:
第一特征图划分装置,用于根据以下公式将特征图划分为正向特征区域:
Figure FDA0004055897320000041
其中,γ为超参数,以控制正向特征区域和负向特征区域所占的比例;
Figure FDA0004055897320000042
Figure FDA0004055897320000043
均代表当前中间层所有特征图空间位置(i,j)属于正向特征区域;w为wij的平均值;
第二特征图划分装置,用于根据以下公式将特征图划分为负向特征区域:
Figure FDA0004055897320000044
其中,
Figure FDA0004055897320000045
Figure FDA0004055897320000046
均代表当前中间层所有特征图空间位置(i,j)属于负向特征区域。
9.根据权利要求6所述的高迁移性的对抗样本生成系统,其特征在于,所述第一计算模块包括:
第三计算单元,用于根据以下公式计算损失函数:
Figure FDA0004055897320000047
其中,L(xadv)为损失函数;m为指定的中间层的个数;s为第s个指定的中间层;
Figure FDA0004055897320000048
为深度学习网络第ks层的聚合梯度;Aks为深度学习网络对于输入的对抗图像xadv的第ks层激活值;
Figure FDA0004055897320000049
为第ks层划分的正向特征区域;
Figure FDA00040558973200000410
为第ks层划分的负向特征区域;α为超参数,以控制正向特征区域的破坏程度;β为超参数,以控制负向特征区域的破坏程度;
构建单元,用于构建动量法表达式:
Figure FDA00040558973200000411
其中,gt+1为第t+1次迭代的加权累计梯度;μ为衰减因子;gt为第t次迭代的加权累计梯度;
Figure FDA00040558973200000412
为第t次迭代生成的对抗图像;||·||1为范数运算。
10.根据权利要求6所述的高迁移性的对抗样本生成系统,其特征在于,还包括:
第二计算模块,用于根据以下公式对每次迭代生成的对抗图像进行切片处理,以使所有像素落在[0,1]范围内:
Figure FDA00040558973200000413
其中,Clip(·)为切片函数;
Figure FDA0004055897320000051
为第t+1次迭代生成的对抗图像;σ为每次迭代攻击的步长;
Figure FDA0004055897320000052
CN202310046878.8A 2023-01-31 2023-01-31 一种高迁移性的对抗样本生成方法和系统 Active CN116011558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310046878.8A CN116011558B (zh) 2023-01-31 2023-01-31 一种高迁移性的对抗样本生成方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310046878.8A CN116011558B (zh) 2023-01-31 2023-01-31 一种高迁移性的对抗样本生成方法和系统

Publications (2)

Publication Number Publication Date
CN116011558A true CN116011558A (zh) 2023-04-25
CN116011558B CN116011558B (zh) 2023-10-27

Family

ID=86019102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310046878.8A Active CN116011558B (zh) 2023-01-31 2023-01-31 一种高迁移性的对抗样本生成方法和系统

Country Status (1)

Country Link
CN (1) CN116011558B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117523342A (zh) * 2024-01-04 2024-02-06 南京信息工程大学 一种高迁移性对抗样本生成方法、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114066912A (zh) * 2021-11-23 2022-02-18 中国人民解放军战略支援部队信息工程大学 基于优化算法和不变性的智能对抗样本生成方法及系统
CN114511593A (zh) * 2022-01-25 2022-05-17 中国矿业大学 一种基于重要特征的视觉目标跟踪可转移黑盒攻击方法
CN115641471A (zh) * 2022-10-18 2023-01-24 西安交通大学 一种基于生成对抗网络的对抗样本生成方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114066912A (zh) * 2021-11-23 2022-02-18 中国人民解放军战略支援部队信息工程大学 基于优化算法和不变性的智能对抗样本生成方法及系统
CN114511593A (zh) * 2022-01-25 2022-05-17 中国矿业大学 一种基于重要特征的视觉目标跟踪可转移黑盒攻击方法
CN115641471A (zh) * 2022-10-18 2023-01-24 西安交通大学 一种基于生成对抗网络的对抗样本生成方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIANPING ZHANG ET AL: "Improving adversarial transferability via neuron attribution-based attacks", 《 PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VI- SION AND PATTERN RECOGNITION》, pages 14993 *
ZHIBO WANG ET AL: "Feature importance-aware transfer- able adversarial attacks", 《PROCEEDINGS OF THE IEEE/CVF IN- TERNATIONAL CONFERENCE ON COMPUTER VISION》, pages 7639 *
王烨奎 等: "基于特征图关注区域的目标检测对抗攻击方法", 《计算机工程与应用》, pages 1 - 13 *
金双 等: "基于损失平滑的对抗样本攻击算法", 《北京航空航天大学学报》, pages 1 - 11 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117523342A (zh) * 2024-01-04 2024-02-06 南京信息工程大学 一种高迁移性对抗样本生成方法、设备及介质
CN117523342B (zh) * 2024-01-04 2024-04-16 南京信息工程大学 一种高迁移性对抗样本生成方法、设备及介质

Also Published As

Publication number Publication date
CN116011558B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN111951153B (zh) 基于生成对抗网络隐空间解构的人脸属性精细化编辑方法
CN113822328B (zh) 防御对抗样本攻击的图像分类方法、终端设备及存储介质
CN112200243B (zh) 一种基于低问询图像数据的黑盒对抗样本生成方法
CN115115905B (zh) 基于生成模型的高可迁移性图像对抗样本生成方法
Li et al. DLEP: A deep learning model for earthquake prediction
CN116011558B (zh) 一种高迁移性的对抗样本生成方法和系统
Yang et al. Adversarial attacks on brain-inspired hyperdimensional computing-based classifiers
CN114399630A (zh) 基于信念攻击和显著区域扰动限制的对抗样本生成方法
Chen et al. RCA-SOC: A novel adversarial defense by refocusing on critical areas and strengthening object contours
CN116258867A (zh) 一种基于关键区域低感知性扰动的对抗样本生成方法
Xiang et al. Double-branch fusion network with a parallel attention selection mechanism for camouflaged object detection
CN115062306A (zh) 一种针对恶意代码检测系统的黑盒对抗攻击方法
Putra et al. Multilevel neural network for reducing expected inference time
CN117454330A (zh) 一种对抗模型中毒攻击的个性化联邦学习方法
Chen et al. Act-detector: Adaptive channel transformation-based light-weighted detector for adversarial attacks
CN114359742B (zh) 一种优化小目标检测的加权损失函数计算方法
CN112766401B (zh) 基于显著性对抗训练的对抗样本防御方法
CN114398977A (zh) 一种基于对抗样本的网络欺骗流量生成方法
Yu et al. Morphological neural networks for automatic target detection by simulated annealing learning algorithm
CN113343964A (zh) 一种平衡的水下声学图像目标检测方法
CN111723864A (zh) 基于主动学习使用互联网图片进行对抗训练的方法及装置
Afrakoti et al. Effective partitioning of input domains for ALM algorithm
Beltrami et al. Grid-quadtree algorithm for support vector classification parameters selection
Zhang et al. Perception-driven Imperceptible Adversarial Attack against Decision-based Black-box Models
ao Yu et al. Black-box Attacks on DNN Classifier Based on Fuzzy Adversarial Examples

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant