CN116011558A

CN116011558A - 一种高迁移性的对抗样本生成方法和系统

Info

Publication number: CN116011558A
Application number: CN202310046878.8A
Authority: CN
Inventors: 常相茂; 晋子康
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-01-31
Filing date: 2023-01-31
Publication date: 2023-04-25
Anticipated expiration: 2043-01-31
Also published as: CN116011558B

Abstract

本发明提供一种高迁移性的对抗样本生成方法和系统，其中方法包括获取原始图像在指定的深度学习网络多个中间层的特征图；根据中间层的激活值和梯度将所有特征图划分为正向特征区域和负向特征区域；将所有指定中间层的不同区域加权求和作为损失函数，以使用动量法对损失函数进行处理得到每次迭代攻击的对抗样本；在迭代攻击次数达到预设次数的情况下生成高迁移性的对抗样本。本发明通过准确的特征划分方式，量化地解释正向特征和负向特征对对抗样本迁移性的影响，即正向特征主导了对抗性样本的迁移性，扰动更多的特征可以生成更高迁移性的对抗样本。

Description

一种高迁移性的对抗样本生成方法和系统

技术领域

本发明属于人工智能安全技术领域，尤其涉及一种高迁移性的对抗样本生成方法和系统。

背景技术

深度学习网络(DNNs)对计算机视觉领域的各种真实场景任务具有革命性的影响，如图像分类、人脸识别、目标检测、语义分割等。但是最近的研究表明，DNNs很容易受到对抗样本的影响，恶意攻击者通过在干净图像中添加人类难以察觉的扰动就可以误导DNNs的最终决策，这给DNNs的现实部署带来很大的安全挑战。为了准确地评估DNNs的缺陷并提高其鲁棒性，有必要对对抗性攻击进行深入研究。许多对抗样本生成方法都是基于黑盒设置的，攻击者在这种设置下只拥有对目标模型的查询权限，无法访问目标模型的结构、参数等信息。基于迁移的对抗攻击可以轻松地越过这些限制，因为它只需要在本地代理模型上生成对抗样本就可以成功地误导目标模型，现有的迁移攻击方法，比如输入转换、梯度校准以及生成模型在黑盒设置下都表现出不俗的性能，但是这些方法都存在对抗样本与本地代理模型过度拟合的问题，无法有效地破坏原始图像在不同模型间共享的内在特征。而特征级攻击通过扰乱原始图像在网络中间层的输出，可以减少本地代理模型特定特征的影响，进一步提高对抗样本的迁移性。

目前，在使用特征级攻击提高对抗样本迁移性方向上已经存在一些工作：(1)FDA通过扰动原始图像中间层的激活值证明了特征级攻击相比与其他迁移攻击方法可以更加有效地提高对抗样本的迁移性；(2)FIA引入聚合梯度，将原始图像的“噪声”特征进行中和，从而有效破坏了主导不同模型决策的重要特征；(3)RPA为了获得更加准确的聚合梯度，对原始图像进行随机斑块变换，使变换后的图像可以在保留对象空间结构和纹理信息的同时改变非对象噪声；(4)NAA使用归因算法对每个神经元的重要性进行评估，更有针对性地破坏原始图像的内在特征。虽然上述方法都可以在目标模型上获得很高的攻击成功率，但是仍存在以下问题：

现有的特征级攻击方法仅破坏单个中间层的特征信息，由于单个层所能提供的信息有限，对抗样本很容易陷入特定于代理模型的局部优化；

现有的特征级攻击方法使用固定阈值或平均值划分正向特征和负向特征，由于迭代攻击的过程中提取的中间层激活值和梯度在不断变化，每次迭代获得的特征划分的结果都是不同的，但是对于原始图像，所有特征的属性的固定的。

发明内容

本发明针对现有技术中的不足，提供一种高迁移性的对抗样本生成方法和系统。

第一方面，本发明提供一种高迁移性的对抗样本生成方法，包括：

S1，获取原始图像在指定的深度学习网络多个中间层的特征图；

S2，根据中间层的激活值和梯度将所有特征图划分为正向特征区域和负向特征区域；

S3，将所有指定中间层的不同区域加权求和作为损失函数，以使用动量法对损失函数进行处理得到每次迭代攻击的对抗样本；

S4，判断迭代攻击次数是否达到预设次数；

S5，如果是，则生成高迁移性的对抗样本；

S6，如果否，则返回执行步骤S3的操作。

进一步地，所述根据中间层的激活值和梯度将所有特征图划分为正向特征区域和负向特征区域，包括：

根据以下公式计算中间层每个特征图的空间位置的梯度：

其中，

为中间层每个特征图的空间位置(i，j)的梯度；f(x)[q]为深度学习网络f对于输入图像x属于类别q的预测分数；

为深度学习网络第k层第c个特征图在空间位置(i，j)的激活值；

根据以下公式计算中间层每个特征图的空间位置的重要性：

其中，w_ij为中间层每个特征图的空间位置(i，j)的重要性；relu为激活函数，以将负梯度设为0，正梯度保持不变；

根据每个特征图的空间位置的重要性将所有特征图划分为正向特征区域和负向特征区域。

进一步地，所述根据每个特征图的空间位置的重要性将所有特征图划分为正向特征区域和负向特征区域，包括：

根据以下公式将特征图划分为正向特征区域：

其中，γ为超参数，以控制正向特征区域和负向特征区域所占的比例；

和

均代表当前中间层所有特征图空间位置(i，j)属于正向特征区域；

为w_ij的平均值；

根据以下公式将特征图划分为负向特征区域：

其中，

和

均代表当前中间层所有特征图空间位置(i，j)属于负向特征区域。

进一步地，所述将所有指定中间层的不同区域加权求和作为损失函数，以使用动量法对损失函数进行处理得到每次迭代攻击的对抗样本，包括：

根据以下公式计算损失函数：

其中，L(x_adv)为损失函数；m为指定的中间层的个数；s为第s个指定的中间层；Δ_ks为深度学习网络第k_s层的聚合梯度；

为深度学习网络对于输入的对抗图像x_adv的第k_s层激活值；

为第k_s层划分的正向特征区域；

为第k_s层划分的负向特征区域；α为超参数，以控制正向特征区域的破坏程度；β为超参数，以控制负向特征区域的破坏程度；

构建动量法表达式：

其中，g_t+1为第t+1次迭代的加权累计梯度；μ为衰减因子；g_t为第t次迭代的加权累计梯度；

为第t次迭代生成的对抗图像；||·||₁为范数运算。

进一步地，本发明提供一种高迁移性的对抗样本生成方法还包括：

根据以下公式对每次迭代生成的对抗图像进行切片处理，以使所有像素落在[0，1]范围内：

其中，Clip(·)为切片函数；

为第t+1次迭代生成的对抗图像；σ为每次迭代攻击的步长；

第二方面，本发明提供一种高迁移性的对抗样本生成系统，包括：

特征图获取模块，用于获取原始图像在指定的深度学习网络多个中间层的特征图；

特征图划分模块，用于根据中间层的激活值和梯度将所有特征图划分为正向特征区域和负向特征区域；

第一计算模块，用于将所有指定中间层的不同区域加权求和作为损失函数，以使用动量法对损失函数进行处理得到每次迭代攻击的对抗样本；

判断模块，用于判断迭代攻击次数是否达到预设次数；

对抗样本生成模块，用于在判断模块确定迭代攻击次数达到预设次数的情况下，生成高迁移性的对抗样本；

更新模块，用于在判断模块确定迭代攻击次数没有达到预设次数的情况下，返回执行计算模块的操作。

进一步地，所述特征图划分模块包括：

第一计算单元，用于根据以下公式计算中间层每个特征图的空间位置的梯度：

其中，

第二计算单元，用于根据以下公式计算中间层每个特征图的空间位置的重要性：

特征图划分单元，用于根据每个特征图的空间位置的重要性将所有特征图划分为正向特征区域和负向特征区域。

进一步地，所述特征图划分单元包括：

第一特征图划分装置，用于根据以下公式将特征图划分为正向特征区域：

和

为w_ij的平均值；

第二特征图划分装置，用于根据以下公式将特征图划分为负向特征区域：

其中，

和

进一步地，所述第一计算模块包括：

第三计算单元，用于根据以下公式计算损失函数：

为深度学习网络对于输入的对抗图像x_adv的第k_s层激活值；

为第k_s层划分的正向特征区域；

构建单元，用于构建动量法表达式：

为第t次迭代生成的对抗图像；||·||₁为范数运算。

进一步地，本发明提供一种高迁移性的对抗样本生成系统还包括：

第二计算模块，用于根据以下公式对每次迭代生成的对抗图像进行切片处理，以使所有像素落在[0，1]范围内：

其中，Clip(·)为切片函数；

为第t+1次迭代生成的对抗图像；σ为每次迭代攻击的步长；

本发明提供一种高迁移性的对抗样本生成方法和系统，其中方法包括S1，获取原始图像在指定的深度学习网络多个中间层的特征图；S2，根据中间层的激活值和梯度将所有特征图划分为正向特征区域和负向特征区域；S3，将所有指定中间层的不同区域加权求和作为损失函数，以使用动量法对损失函数进行处理得到每次迭代攻击的对抗样本；S4，判断迭代攻击次数是否达到预设次数；S5，如果是，则生成高迁移性的对抗样本；S6，如果否，则返回执行步骤S3的操作。

本发明相比于单个中间层的特征级攻击，本发明通过聚合多个中间层的特征信息，最大程度地扭曲不同模型间共享的对象内在特征和降低仅服务于本地代理模型的特定特征影响。本发明通过准确的特征划分方式，量化地解释正向特征和负向特征对对抗样本迁移性的影响，即正向特征主导了对抗性样本的迁移性，扰动更多的特征可以生成更高迁移性的对抗样本。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种高迁移性的对抗样本生成方法的流程图；

图2为本发明实施例提供的正向特征和负向特征攻击成功率对比图；

图3为本发明实施例提供的一种高迁移性的对抗样本生成系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例使用f表示深度学习网络，当网络的输入是一个干净的原始图像x时，可以得到图像x属于第p类的概率f(x)[p]和图像类别预测结果q＝arg maxf(x)。本发明实施例的目标是通过添加难以察觉的扰动∈制作对抗性的例子x_adv来误导深度学习网络。因此对抗样本的生成过程可以表示为以下优化问题：

arg maxf(x_adv)≠q，||x_adv-x||_p≤∈。

其中，p范数是为了正则化x_adv相比于x的扰动，本发明实施例使用p＝∞。上述优化需要恶意攻击者有访问目标模型的结构和参数的权限，直接进行优化在黑盒设置下是不现实的。但是由于转移性的存在，本发明实施例通过本地代理模型生成的对抗样本也可以成功误导目标模型的决策。

在一实施例中，如图1所示，本发明实施例提供一种高迁移性的对抗样本生成方法，包括：

S1，获取原始图像在指定的深度学习网络多个中间层的特征图。

S2，根据中间层的激活值和梯度将所有特征图划分为正向特征区域和负向特征区域。

大多数特征级攻击方法的目的是破坏正向特征或扩大负向特征的影响，但它们没有提供合理的特征划分方法。本发明实施例在迭代攻击前使用原始图像在中间层的激活值和梯度来区分正向和负向特征区域。对于预测类为q的原始输入图像x，本发明实施例将深度学习网络第k层的输出激活值定义为A_k,同时使用

表示第k层第c个特征图的激活值。

根据以下公式计算中间层每个特征图的空间位置的梯度：

其中，

为深度学习网络第k层第c个特征图在空间位置(i，j)的激活值。

由于与目标类别相关的不同位置(特征)的重要性可以通过每个位置的单独权重来反映，为了获得更准确的中层细粒度的正向和负向特征定位，本发明实施例将具有负梯度的位置的梯度设为零，具有正梯度的位置保持不变，即relu激活函数。然后将每个神经元的激活值乘以梯度，并沿通道维数线性组合。

根据以下公式计算中间层每个特征图的空间位置的重要性：

其中，w_ij为中间层每个特征图的空间位置(i，j)的重要性；relu为激活函数，以将负梯度设为0，正梯度保持不变。

基于w_ij，本发明引入与w_ij形状相同的正向特征特征向量

和负向特征向量

进行特征区域划分，两者都是由0和1组成。

根据以下公式将特征图划分为正向特征区域：

和

为w_ij的平均值。

根据以下公式将特征图划分为负向特征区域：

其中，

和

S3，将所有指定中间层的不同区域加权求和作为损失函数，以使用动量法对损失函数进行处理得到每次迭代攻击的对抗样本。

针对指定的m个实施攻击的中间层K＝{k₁,k₂,...,k_m}，在攻击开始前对每一层的特征图进行区域划分，可以得到两个特征区域集，一个是所有指定中间层的正向特征区域集

另一个是所有指定中间层的负向特征区域集

进一步地，本发明实施例根据以下损失函数来指导生成对抗样本x_adv：

其中，L(x_adv)为损失函数；m为指定的中间层的个数；s为第s个指定的中间层；

为深度学习网络第k_s层的聚合梯度；

为深度学习网络对于输入的对抗图像x_adv的第k_s层激活值；

为第k_s层划分的正向特征区域；

为第k_s层划分的负向特征区域；α为超参数，以控制正向特征区域的破坏程度；β为超参数，以控制负向特征区域的破坏程度。

因此，对抗样本生成的优化问题可以重新定义为：

为了更好的解决上述优化问题，本发明实施例采用动量法获得每次迭代生成的对抗图像；构建的动量法表达式：

其中，g_t+1为第t+1次迭代的加权累计梯度；g₀＝0；μ为衰减因子；g_t为第t次迭代的加权累计梯度；

为第t次迭代生成的对抗图像；

为原始图像；||·||₁为范数运算。

同时，本发明实施例对每次迭代生成的对抗图像进行切片处理，以使所有像素落在[0，1]范围内：

其中，Clip(·)为切片函数；

为第t+1次迭代生成的对抗图像；σ为每次迭代攻击的步长；

S4，判断迭代攻击次数是否达到预设次数。

S5，如果是，则生成高迁移性的对抗样本。

S6，如果否，则返回执行步骤S3的操作。

本发明实施例提供一种高迁移性的对抗样本生成方法，相比于单个中间层的特征级攻击，本发明通过聚合多个中间层的特征信息，最大程度地扭曲不同模型间共享的对象内在特征和降低仅服务于本地代理模型的特定特征影响，本发明实施例的方法生成的对抗样本相比于FIA、RPA和NAA具有更加优越的迁移性；同时通过更加准确的特征划分方式，量化地解释正向特征和负向特征对对抗样本迁移性的影响，即正向特征主导了对抗性样本的迁移性，扰动更多的特征可以生成更高迁移性的对抗样本。

为了验证本发明生成的对抗样本具有高迁移性以及解释不同特征对对抗样本迁移性的影响，进行了如下实验。实验遵循之前特征级攻击方法的设置，使用NeurIPS2017对抗性竞赛发布的ImageNet-compatible数据集，其包含1000张随机采样的图像。实验从极具代表性的分类模型中选择本地代理模型和目标模型，其中包括四个正常训练模型：Vgg-16、Inception-v3(Inc-v3)、Inception-v4(Inc-v4)、Inception-Resnet-v2(IncRes-v2)，三个反向训练模型：Incv3_adv、IncResv2_adv和Incv3_ens4。相关实验参数设置如下：最大扰动∈＝16，最大迭代次数T＝16，每次迭代攻击步长σ＝∈/T＝1.6。对于动量法，衰减因子μ＝1.0。实验结果表明只需要攻击两个中间层就足以体现本发明所提方法的优越性，针对Vgg-16，本发明实施例选择攻击Conv3_3层和Conv5_1层，针对Inc-v3，本发明实施例选择攻击Mixed_5b层和Mixed_6b层。

为了与目前的特征级攻击方法进行公平比较，在迁移性方面，本发明实施例平等对待正向特征和负向特征，因此将γ、α和β的值都设为1.0，结果如表1所示。实验选择的本地代理模型是Vgg-16，表格的最左边一列的攻击方法，最上面一行是目标模型。本发明提出的方法在正常训练模型和反向训练模型上的对抗样本迁移性都显著优于基线方法，相比于FIA平均提升4.5％，相比于RPA平均提升1.8％，相比于NAA平均提升2.3％，特别地，当目标模型是Incv3_ens4时，本发明提出的方法相比于FIA有8.0％的提升，这证明了通过本发明实施例提出的方法可以更加有效地破坏主导不同模型决策的图像内部特征，生成具有更高的迁移性的对抗样本。

表1目前的特征级攻击方法迁移性比较

Inc-v3

Inc-v4

IncRes-v2

Incv3_adv

IncResv2_adv

Incv3_ens4

FIA

95.2％

96.2％

92.0％

84.1％

81.6％

78.2％

FIA+ours

97.6％

98.4％

95.2％

90.0％

86.8％

86.2％

RPA

95.8％

96.9％

94.5％

89.9％

87.4％

86.8％

RPA+ours

97.5％

97.6％

95.8％

91.4％

90.1％

89.8％

NAA

93.0％

90.6％

85.4％

83.5％

83.7％

NAA+ours

94.8％

95.0％

92.5％

87.5％

86.7％

86.3％

进一步地，为了验证特征划分方式的合理性同时解释正向特征和负向特征对对抗样本迁移性的影响，本发明选择Inc-v3作为本地代理模型，Inc-v4作为目标模型，并通过调整γ、α和β的值选择部分比例的正向特征和负向特征分别实施攻击。例如，γ＝0.8，α＝1.0，β＝0代表只选择50％的正向特征，γ＝0.8，α＝1.0，β＝0代表只选择50％的负向特征，实验结果如图2所示。当使用所有特征时，攻击成功率为88.1％，但仅使用25％的正向特征就能达到79.5％的攻击成功率，是使用25％的负向特征的攻击成功率的两倍多。而且随着特征比例的增加，两种特征的区域有更多的重叠部分，这导致两种特征攻击成功率之间的差距越来越小。可以发现，正向特征主导了对抗性样本的迁移性，扰动更多的特征可以生成更高迁移性的对抗样本。

基于同一发明构思，本发明实施例还提供了一种高迁移性的对抗样本生成系统，由于该系统解决问题的原理与高迁移性的对抗样本生成方法相似，因此该系统的实施可以参见高迁移性的对抗样本生成方法的实施，重复之处不再赘述。

在另一实施例中，本发明实施例提供的高迁移性的对抗样本生成系统，如图3所示，包括：

特征图获取模块10，用于获取原始图像在指定的深度学习网络多个中间层的特征图。

特征图划分模块20，用于根据中间层的激活值和梯度将所有特征图划分为正向特征区域和负向特征区域。

第一计算模块30，用于将所有指定中间层的不同区域加权求和作为损失函数，以使用动量法对损失函数进行处理得到每次迭代攻击的对抗样本。

判断模块40，用于判断迭代攻击次数是否达到预设次数。

对抗样本生成模块50，用于在判断模块确定迭代攻击次数达到预设次数的情况下，生成高迁移性的对抗样本。

更新模块60，用于在判断模块确定迭代攻击次数没有达到预设次数的情况下，返回执行计算模块的操作。

示例性地，所述特征图划分模块包括：

其中，

示例性地，所述特征图划分单元包括：

和

为w_ij的平均值；

其中，

和

示例性地，所述第一计算模块包括：

第三计算单元，用于根据以下公式计算损失函数：

为深度学习网络第k_s层的聚合梯度；

为深度学习网络对于输入的对抗图像x_adv的第k_s层激活值；

为第k_s层划分的正向特征区域；

构建单元，用于构建动量法表达式：

为第t次迭代生成的对抗图像；||·||₁为范数运算。

示例性地，本发明实施例提供的高迁移性的对抗样本生成系统，还包括：

第二计算模块70，用于根据以下公式对每次迭代生成的对抗图像进行切片处理，以使所有像素落在[0，1]范围内：

其中，Clip(·)为切片函数；

为第t+1次迭代生成的对抗图像；σ为每次迭代攻击的步长；

关于上述各个模块更加具体的工作过程可以参考前述实施例公开的相应内容，在此不再进行赘述。

在另一实施例中，本发明提供一种计算机设备，包括处理器和存储器；其中，处理器执行存储器中保存的计算机程序时实现上述高迁移性的对抗样本生成方法的步骤。

关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

在另一实施例中，本发明提供一种计算机可读存储介质，用于存储计算机程序；计算机程序被处理器执行时实现上述高迁移性的对抗样本生成方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的系统、设备和存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上结合具体实施方式和范例性实例对本发明进行了详细说明，不过这些说明并不能理解为对本发明的限制。本领域技术人员理解，在不偏离本发明精神和范围的情况下，可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本发明的范围内。本发明的保护范围以所附权利要求为准。