CN114676852A

CN114676852A - 一种基于相关性类激活映射的通用对抗扰动生成方法

Info

Publication number: CN114676852A
Application number: CN202210371521.2A
Authority: CN
Inventors: 陈自刚; 代仁杰; 刘正皓; 敖晋; 程智全
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-06-28

Abstract

本发明公开了一种基于相关性类激活映射的通用对抗扰动生成方法，属于对抗机器学习领域。目前，该领域的关键技术问题是深度神经网络决策可解释性和对抗样本可迁移性增强。本发明利用层间相关性传播与类激活映射级联的方式来生成并优化通用对抗扰动，进而理解深度神经网络的关注点。首先利用深度神经网络分类器计算出干净样本的原始标签类和其他错误标签类，然后，通过前向传播的类激活映射特征图与相关性系数线性权重组合，使原始标签的最终热力图贡献最小，其他错误类的热力图贡献最大，再通过最小化相关性类激活映射损失函数来迭代更新通用对抗扰动，从而形成迁移性强的通用对抗扰动，提高对抗样本的攻击成功率。

Description

一种基于相关性类激活映射的通用对抗扰动生成方法

技术领域

本发明涉及一种基于相关性类激活映射的通用对抗扰动生成方法，属于对抗机器学习领域。

背景技术

机器学习技术在解决复杂任务方面取得了重大突破，然而，机器学习技术(尤其是人工神经网络和数据驱动人工智能)在训练或测试时极易受到对抗样本攻击，这些样本很容易颠覆机器学习模型的原定输出。自从AlexNet模型在大规模视觉识别挑战(ILSVRC)方面取得突破以来，各种图像分类神经网络被提出来改进图像分类技术，深度神经网络在解决复杂计算机视觉问题方面表现出惊人的高性能，包括图像识别，目标检测，语义分割和人脸识别等。源于计算机视觉问题的解决方案在所有相关领域都发挥着至关重要的作用，例如安全性，农业、工业等。然而，对抗样本很容易推翻机器的原始输出学习技术，并使训练有素的模型以较高的置信度给出错误的分类结果，因此，了解对抗样本的产生对我们来说至关重要，其不仅可以帮助我们理解不同模型的鲁棒性，还可以还分析训练算法的不足之处。

目前，对抗样本从对抗攻击所需知识大致可分为白盒攻击和黑盒攻击：白盒攻击定义为允许攻击者可以控制模型的输入，通过修改输入数据、网络结构、训练参数、激活函数等理解模型每层。黑盒攻击不了解模型的内部细节，攻击者只能控制模型的输入。在白盒环境下，迭代攻击比单步攻击具有更高的成功率，但在大多数情况下，其可转移性并不理想，因为它对网络参数敏感。此外，攻击者很难获得受害者模型的确切知识，从而难以在实践中使用白盒攻击。

通用对抗攻击对数据集生成通用的对抗样本扰动，数据集内任意输入加上该扰动后都可导致神经网络模型输出结果错误。针对大多数对抗攻击泛化能力较差，攻击时间较长的缺点，通用对抗攻击则省去了对抗样本生成阶段的训练过程，可以直接得到样本从而攻击深度学习模型，减少了对抗样本的攻击时间。另一方面，神经网络的可解释性也是关注的热点，类激活映射CAM通过对神经网络模型可视化得到了特征图，层间相关性传播LRP则通过反向梯度传播得到每个像素点的贡献，进而得到神经网络模型的关注点。因此，研究如何攻击神经网络的关注点并产生通用扰动对理解神经网络模型及机器学习算法具有重要的现实意义。

发明内容

(一)要解决的技术问题

为了使生成的对抗样本在视觉上跟干净样本更难区分并理解神经网络的深层语义特征，本发明提出了一种基于相关性类激活映射的通用对抗扰动生成方法，所生成的对抗样本不仅噪声更难察觉，而且依然具有对深度神经网络有效攻击的能力。本发明方法具有通用性，即可以与任意现有生成对抗样本的方法相结合，增强对抗样本攻击的隐蔽性。

(二)技术方案

为了解决上述技术问题，本发明所采用的技术方案是：一种基于相关性类激活映射的通用对抗扰动生成方法，其特征在于，包括以下步骤：

步骤一：加载数据，对ImageNet_validation数据集进行预处理；

步骤二：目标机器学习模型采用VGG19，其网络结构和参数固定不变且包含最后的三个全连接层；

步骤三：为加快训练速度，设定训练参数等；

步骤四：利用步骤一中得到的数据集对VGG19进行训练，更新模型参数得到训练权重和偏置；

步骤五：生成基于相关性类激活映射的通用对抗扰动，其包含以下子步骤：

步骤1：初始化通用对抗扰动v，使用训练好VGG19卷积神经网络生成通用扰动；

步骤2：数据预处理，从ImageNet_validation中随机采样图片，将通用对抗扰动和数据集裁剪到和合适大小叠加并进行预处理后得到对抗样本输入神经网络；

步骤3：将图像样本x输入设定好的卷积神经网络，对最后一个卷积层的各通道输出进行激活映射特征图提取，得到激活映射图

步骤4：激活映射图

经过预训练好的模型网络正向传播得到全连接层的分布输出y，将全连接层的输出采用反向分层相关性传播得到目标类c的神经网络的第i层对最后一层卷积层的某一通道k的激活映射特征图

的相关系数

步骤5：全局池化，利用全局池化操作对各个通道的相关性传播系数进行降低维度，得到激活映射图

的权重系数

步骤6：提取相关性类激活映射图，将激活映射图的权重系数

与激活映射图A₁～A_n线性组合构成相关性类激活映射函数

利用l_p范数度量及层间相关性解释器构造损失函数；

步骤7：优化通用扰动v，图像样本x通过目标机器学习模型f，计算目标分类c_ori以及错误分类c_adv，通过

使得机器学习模型输出接近错误分类，并且梯度更新时采用动量迭代的方式，迭代更新通用扰动v直到f(x+v)不等于f(x)，当迭代次数大于或等于样本图像的数量或优化目标收敛时，最终得到基于相关性类激活映射的通用对抗扰动v_out。

本发明由于采取以上技术方案，其具有以下有益效果：

(1)本发明提供一种基于相关性类激活映射的通用对抗扰动生成方法，给定目标模型和数据集，当应用于任何输入时，都能基于类激活映射和层间相关性传播来生成具有尺度不变性的、泛化能力强、对抗强度大的对抗样本图像。

(2)本发明提供一种基于相关性类激活映射的通用对抗扰动生成方法，可以基于类激活映射的特征图与层间相关性的相关系数结合得到的函数，通过增大错误类，减小正确类的概率热力图，从而使得目标神经网络决策错误。

(3)与传统的对抗样本生成方法相比，采用本发明产生的通用对抗扰动的对抗样本有更低的峰值信噪比、结构相似性、攻击成功率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

图1为本发明基于相关性类激活映射的通用对抗扰动生成方法流程；

图2为本发明对抗样本攻击流程；

图3为本发明层间相关性传播图示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于相关性类激活映射通用扰动的对抗样本生成方法，通过分别获取样本图像的类激活映射图及图像在反向传播时注意力的权重，根据线性组合形成损失函数来优化扰动图像，得到最佳通用扰动，再将最佳通用扰动线性叠加在样本图像中，可得到最终的对抗样本，进而提高对抗样本的生成效率以及扰动的攻击成功率，并且在不影响视觉效果的前提下将正常的训练样本转化为对抗样本，提高模型的抗干扰能力和鲁棒性。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明方法的整体流程如图1所示，包括以下步骤：

步骤一：加载数据，对ImageNet_validation数据集进行预处理；

具体地，对原始数据集进行预处理的方法指，划分训练集与测试集和为数据集设置标签。

划分数据集的方法为，80％的数据集划分为训练集，剩余20％数据集划分为测试集。

为数据集设置标签的方法为，读取ImageNet的1000个类别标签文件。

步骤二：目标机器学习模型采用VGG19其网络结构和参数固定不变且包含最后的三个全连接层；

步骤二中所述的搭建VGG19卷积神经网络，其包含5个blocks，每个block的池化层大小为2×2，采用的是最大池化方式。

进一步地，block1，block2有两个卷积层，一个最大池化层。

进一步地，block3，block4，block5有四个卷积层，一个最大池化层。

进一步地，搭建VGG19卷积神经网络，构建输入图像尺寸为224×224×3，感受野为3×3，卷积步长为1，填充为1，池化层大小为2×2，有三个完全连接层，每层有4096个神经元，激活函数采用ReLU，最后一层具有1000个神经元的Softmax分类层。

步骤三：为加快训练速度，设定训练参数：batch_size设置为32；为提高准确率，增加batch_normalize；

进一步地，所述的基于相关性类激活映射的通用对抗扰动生成方法，训练过程使用SGD优化器，参数设置为：momentum＝0.9，decay＝0.001，初始学习率设置为0.01。

步骤1：初始化算法参数、获取训练样本集和初始扰动数据：

初始化通用对抗扰动v为0，是指生成一个维度与输出图像尺寸相同的初始扰动图像。初始化算法参数，包括学习率，迭代次数等，使用卷积神经网络f生成通用扰动，所述卷积神经网络是训练后得到的模型；优选地，在l无穷范数≤0.1的视觉约束条件下随机初始化一个与输出图像相同尺寸的初始扰动图像。

所述训练样本集中包括多张样本图像。在本实施例中，从ImagNet_validation训练集中随机采样图片，再额外随机选择1000张图片用于训练阶段的验证集。采用ImageNet_validation测试集作为评估扰动图像在未知图像上生成对抗样本的泛化性能。训练样本集，验证集与测试集图片均无重合。

步骤2：数据预处理，将通用对抗扰动和数据集裁剪到和合适大小叠加并进行预处理后得到对抗样本输入神经网络；优选地，将其转化为float32格式的Numpy张量并批量按通道颜色对样本图像进行标准化；

具体地，数据裁剪方式为中心裁剪，所述通用扰动与数据集裁剪到的合适大小为224×224×3。

具体地，block5_conv4层的输出特征图，它是VGG19的最后一个卷积层，计算根据输入图像类别相对于block5_conv4特征图梯度，然后计算池化梯度，每个元素是特定特征图通道的梯度平均大小，对于给定的图像样本，将特征图数组的每个通道乘以某通道对图像类别的重要程度，得到特征图的逐通道的平均值即为类激活的热力图。

具体地，激活映射图的所得的激活值来自深层卷积层保留的空间信息，通过最后一层的的到多层卷积的叠加语义。最后一层的激活映射图的大小为16×16×512。

进一步地，所述步骤3中，激活映射图提取在最后一层卷积层，其通道数为512。

步骤4：激活映射图

的相关系数

具体地，y＝max{y¹,...,y^c,...,y^N}。

具体地，上述步骤4中，全连接层输出的目标类别概率分布输出y经过归一化指数操作，所述反向分层相关性传播机制遵循z-rule规则：

其中

R_i，R_j表示第i层相关性和第j层相关性，X_i分别表示第i层的激活输出，

表示第i层和第j层之间权重的部分。

进一步地，步骤4中所述反向传播激活映射特征图

的相关系数

采用经过了Softmax的层间相关性传播可表示为：

进一步地，如图三所示为反向层间相关性传播方法。

进一步地，上述步骤4所述激活图特征

的c表示目标类别，k表示最后一个卷积层的第k个通道，其取值范围为1～n，其中n＝512。

的权重系数

步骤6：提取相关性类激活映射图，将激活映射图的权重系数

与激活映射图

线性组合构成相关性类激活映射函数

利用l_p范数度量及层间相关性解释器构造损失函数：

具体地，假设在目标分类神经网络f上的层间相关性解释器为I，指定的类别标签为y，那么I(x,y)代表相应类别的热图。层间相关性性解释器I需要在目标分类深度神经网络上构造，它以图像x和选择的分类标签c为输入，生成相应类别的热图I(x,c)。当加入通用扰动v时，扰动图像的热图定义为I(x+v,c)。

进一步地，所述步骤7包含以下子步骤：

7.1、通用对抗扰动v初始化为向量的形式；

7.2、设置第零次对抗样本为真实样本；

7.3、当干净样本与对抗样本均方根误差小于阈值时，继续用动量迭代的方式更新梯度；

7.4、根据计算的梯度迭代更新对抗样本，直到生成的对抗扰动在干净样本上能够以较高的愚弄率欺骗神经网络。

具体地，动量迭代更新梯度公式为：

m_t←γm_t-1+η_tg_t

x_t←x_t-1-m_t

其中，m_t代表第t次迭代动量，g_t代表第t次迭代的梯度。

进一步优选地，目标RMSD阈值设置为7。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

本发明对于通用对抗扰动的理解研究是基于VGG模型来进行研究分析，本发明方法同样适用于其他VGGNet卷积神经网络的研究分析。本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。