CN116958644A

CN116958644A - 一种基于特征一致性约束的图像分类对抗样本防御方法

Info

Publication number: CN116958644A
Application number: CN202310672617.7A
Authority: CN
Inventors: 郭延明; 武与伦; 于天元; 阮逸润; 白亮; 王昊冉
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-06-07
Filing date: 2023-06-07
Publication date: 2023-10-27
Anticipated expiration: 2043-06-07
Also published as: CN116958644B

Abstract

本发明提供一种基于特征一致性约束的图像分类对抗样本防御方法，其包括以下步骤：S1、通过特征细化模块检测通道特征激活值中的最小激活值，然后对最小激活值特征进行细化；S2、利用具有并行互补模式的特征激活抑制模块同时抑制通道激活值和空间激活值，从通道和空间两个维度对细化后的特征进行权重调整；S3、利用特征对齐模块对细化和抑制后的中间特征进行中心约束和知识蒸馏，用以对加权后的特征进行对齐。与其他最先进的防御模型相比，在对抗鲁棒性方面具有优越的性能。此外，本发明技术方案在干净样本的分类精确度上也超过了基线模型。

Description

一种基于特征一致性约束的图像分类对抗样本防御方法

技术领域

本发明属于图像分类技术领域，具体涉及一种基于特征一致性约束的图像分类对抗样本防御方法。

背景技术

对抗样本的出现给智能系统的安全带来了挑战。在各种对抗防御算法中，基于通道特征抑制的方法取得了良好的鲁棒性。然而，在特征抑制中使用全局平均池化并不能有效去除通道中的异常值，且这些算法忽略了对抗样本特征中的空间维度。

发明内容

本发明要解决的技术问题是提供一种基于特征一致性约束的图像分类对抗样本防御方法，以解决现有技术存在的上述至少一个问题。

基于上述目的，本申请中一个或多个实施例提供了一种基于特征一致性约束的图像分类对抗样本防御方法，其包括以下步骤：

S1、通过特征细化模块检测通道特征激活中的最小激活值，然后对最小激活值特征进行细化；

S2、利用具有并行互补模式的特征激活抑制模块同时抑制通道激活值和空间激活值，从通道和空间两个维度对细化后的特征进行权重调整；

S3、利用特征对齐模块对细化和抑制后的中间特征进行中心约束和知识蒸馏，用以对加权后的特征进行对齐。

基于本发明的上述技术方案，还可以作出以下改进：

可选的，步骤S1包括：

所述特征细化模块首先计算特征图中的每个通道特征的平均激活值，然后将每个通道的最小激活值缩放到其平均激活值上，操作表述如下：

X^′＝X-X*MinMask+(1-MinMask)*Mean(X)

其中，X表示原始的中间特征，X^′表示细化后的特征，MinMask是一个只包含(0,1)的掩码矩阵，其中1表示该通道中最小值的位置，0表示其他值，Mean表示通道特征的平均激活值。

可选的，步骤S2包括：

S201、通过GAP操作聚合空间信息并生成通道上下文描述符，通过使用额外的1*1卷积层对特征进行聚合后再经过GAP操作并生成空间上下文描述符，所述通道上下文描述符和空间上下文描述符互补；

S202、利用两个全连接层作为额外的辅助分类器，将通道上下文描述符和空间上下文描述符分别作为分类器的输入，其中，基于一个具有K类的多分类任务，定义全连接层的权值通过若干权重向量表示为W＝[W¹，W²，…，W^K]，每个权重向量属于一个对应于真值标签的特定类别，通过权重向量对通道激活值和空间激活值重新加权，将细化后的特征激活重组形成新特征，该新特征包括通道特征和空间特征；

S203、采用并行方式来合并通道特征和空间特征，获得最终聚合特征。

可选的，步骤S201包括：

定义通道激活值为F^C，空间激活值为F^S，分别通过以下公式计算:

其中，Z为特征细化模块获得的中间特征，且Z属于特征空间R^C*H*W，C、H和W分别表示特征映射Z的通道、高度和宽度。

可选的，步骤S202中激活重组的具体操作如下：

其中表示逐元素相乘，W^true和W^predict分别表示全连接层中真实标签和预测标签对应的权重向量，两个Z^′分别是由权重向量重新激活之后的通道维度和空间维度上的新特征，它将被输入到骨干网络的后续层中。

可选的，步骤S303中最终聚合特征通过以下方式计算：

其中，Z^C和Z^S分别为通道抑制特征和空间抑制特征，Z^sup为最终聚合特征。

可选的，步骤S3包括：

S301、在特征激活抑制模块的两个辅助分类器上添加中心约束，通过修改原始的分类损失来对目标模型的特征空间施加额外的限制；

S302、以注意力图的形式将知识从一个独立训练的教师模型迁移到当前的对抗训练的学生模型进行知识蒸馏。

可选的，步骤S302中，教师模型与目标学生模型具有相同的网络结构，且仅在干净的样本上进行训练；具体包括以下步骤：

首先从教师模型与目标学生模型的同一网络层中提取特征图，并生成一对用于知识迁移的注意力图，然后进行知识蒸馏操作。

可选的，特征激活抑制模块中的辅助分类器的修正分类损失通过以下公式计算：

其中表示辅助分类器的原始交叉熵损失，/>表示中心约束；变量c_yi是特定类yi的类中心；λ₁和λ₂为交叉熵损失与中心约束之间的调整系数；e为自然对数，W为分类器的权重向量，b为偏置项，xi为当前分类的图像，yi为该图像对应的标签。

可选的，定义教师模型与目标学生模型的同一网络层中提取特征图分别是X^T和X^S，通过优化以下损失函数来进行知识蒸馏:

其中X^T和X^S属于特征空间R^C*H*W，以及X^T和X^S分别对应的知识Kn(X^T)和Kn(X^S)属于特征空间R^1*H*W，函数Distance()用于度量两个二维张量之间的距离；

通过知识蒸馏束，来自教师模型的知识可以具体地指导来自学生模型的特征，使得扭曲的特征空间接近原始的干净特征分布，最终损失函数表示为:

其中表示骨干网络中的原始分类丢失,/>和/>分别表示辅助分类器在通道和空间维度上的修正分类损失,/>表示知识蒸馏损失。

本发明的有益效果是，本发明提供一种基于特征一致性约束的图像分类对抗样本防御方法，通过特征细化、抑制和对齐来抵消干扰，为了扩大特征通道的整体激活量，减轻对抗实例的恶意影响，首先将每个通道的最小值细化为平均值，然后采用特征激活抑制模块以并行互补的方式从通道和空间维度对细化的特征进行权重调整，为了避免模型在干净样本上的性能下降，最后加入了额外的约束进行特征对齐。在大量公共数据集上的定量和定性实验表明，与其他最先进的防御模型相比，在对抗鲁棒性方面具有优越的性能。此外，本发明技术方案在干净样本的分类精确度上也超过了基线模型。

附图说明

图1为本发明实施例的一种基于特征一致性约束的图像分类对抗样本防御方法的标准训练模型示意图。

图2为本发明实施例的一种基于特征一致性约束的图像分类对抗样本防御方法的基线CAS模型的示意图。

图3为本发明实施例的一种基于特征一致性约束的图像分类对抗样本防御方法的模型示意图。

图4为本发明实施例的一种基于特征一致性约束的图像分类对抗样本防御方法的对应通道激活值的干净样本和对抗样本之间的差值示意图。

图5为本发明实施例的一种基于特征一致性约束的图像分类对抗样本防御方法的特征细化模块示意图。

图6为本发明实施例的一种基于特征一致性约束的图像分类对抗样本防御方法从空间角度分析对抗样本特征图与干净样本特征图的差异示意图。

图7为本发明实施例的一种基于特征一致性约束的图像分类对抗样本防御方法的特征激活抑制模块的示意图。

图8为本发明实施例的一种基于特征一致性约束的图像分类对抗样本防御方法的特征对齐模块中的中心约束示意图。

图9为本发明实施例的一种基于特征一致性约束的图像分类对抗样本防御方法的特征对齐模块中的知识蒸馏约束示意图。

图10为本发明实施例的一种基于特征一致性约束的图像分类对抗样本防御方法的CAS模型与RSA模型在通道维度特征激活差异的比较示意图。

图11为本发明实施例的一种基于特征一致性约束的图像分类对抗样本防御方法的CAS模型与RSA模型在空间维度上特征激活差异的比较示意图。

图12为本发明实施例的一种基于特征一致性约束的图像分类对抗样本防御方法的四个策略的消融实验对比图。

图13为本发明实施例的一种基于特征一致性约束的图像分类对抗样本防御方法的四个掩码率的消融实验对比图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本申请中一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本申请中一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

参考图1-图9，

本申请中一个或多个实施例提供了一种基于特征一致性约束的图像分类对抗样本防御方法，其包括以下步骤：

S1、通过特征细化模块检测通道特征激活值中的最小激活值，然后对最小激活值特征进行细化；

图1-图3展示了标准训练模型、基线CAS模型和我们提出的RSA(用于防御图像分类中对抗攻击的方法)模型之间的三个示意图。如图3所示，来自对抗图像的扰动特征首先通过特征细化模块进行细化。之后，特征激活抑制模块对细化后的特征进行权重调整。最后，特征对齐模块采用中心约束(CC)和知识蒸馏(KD)两个约束对加权后的特征进行对齐。

为了检验特征激活值的影响，我们从带有CAS的对抗训练网络的倒数第二层提取干净和对抗示例的激活值。然后，我们通过以下操作来研究干净样本和对抗样本之间在通道方面的激活值表示差异。通过在提取的特征上使用GAP，我们先根据激活值的大小降序重新排列干净样本的特征通道。然后，我们固定这个通道顺序，并计算每个通道内干净样本和对抗样本的激活值之间的差异。如图4所示，0.0线以上图案表示在该通道中干净的图像比对抗样本具有更高的激活值，0.0线以下则表示相反。图4中，其展示了对应通道激活值的干净样本和对抗样本之间的差值。每个子图显示了特定类的所有样本的平均通道值。横轴表示特征图的每个通道，纵轴表示该通道上干净样本的激活值与其对应对抗样本的激活值之差。为了便于展示，我们从CIFAR-10数据集中的三个类中选择样本，观察整个512个通道中激活值的大小的前100位。可以明显看出，在激活值较高的通道中，原始图像的激活值大于对抗性实例的激活值。随着通道激活值的降低，对抗样本的激活值会略大于正常样本，但差异不像高激活值通道中那么大。对抗样本扰乱了原始数据的特征分布，而这很可能导致上述激活值的差异。因此，我们认为有必要处理对抗扰动引起的异常通道激活值，从而提高目标模型的鲁棒性。

图5为特征细化模块示意图，其展示了在特征映射的通道上操作的过程。本实施例中假设原始图像中激活值较大的通道对正确的图像分类更为重要。而在这些通道中，对抗样本的激活值大小大多低于干净样品。我们认为，对抗噪声的加入改变了特征的激活值，并导致了上述的差异。对于每个通道，如果放大一些较小的激活值，则通道的整体激活幅值相应略有提高，这种不利的影响可能会有所缓解。我们尝试删除每个通道中的最小值，这样可以在不影响数据特征分布的情况下，放大整个通道的整体激活值。为此，实施例设计了一种新的特征细化模块，该模块能够修正这些最小激活值。该模块不需要额外的参数进行训练。特征细化模块的原理图如图5所示。具体来说，对于特征图中的每个通道，特征细化模块首先计算它们的平均激活值，然后将每个通道的最小值缩放到其平均值上。这个模块的目的是增加最小值的大小来提高通道激活的整个大小，并且我们假设只修改一个值不会过度扭曲原始数据的特征分布。特征细化模块的操作表述如下:

X^′＝X-X*MinMask+(1-MinMask)*Mean(X)

在进行上述操作后，由对抗噪声引起的扰动特征信道中的异常小激活幅值可以被放大和细化，从而提高模型的对抗鲁棒性。

基线模型CAS利用通道激活抑制和辅助分类器来计算通道特征的重要性并调整激活值。然而，假设除了特征通道这一角度外，上述的激活差异也存在于特征的空间域。与上一节的定性分析类似，我们绘制一个热力图来观察特征激活值在空间域上是否存在差异。图6显示了3个4*4的特征图，每个空间位置的值表示在该位置(沿所有通道)干净的图像与其对应的对抗样本之间的激活值幅度差异。在图6中，每个子图显示了特定类的所有样本的平均空间激活值。加深部分表示对应位置干净样本的激活值高于对抗样本的激活值，较浅部分表示相反的情况。为了进行更直观的分析，这些特征映射属于CIFAR-10数据集中三个类的所有样本。为了便于表示和分析，特征图已被转换为单个通道(2D)，所有位置的激活值均为平均值。可以清楚地观察到，两类样本的特征在空间分布上有明显的差异。因此，我们假设除了从通道角度抑制所谓的有害通道外，还应该在特征空间中将类似的操作迁移到空间层面。我们认为，通过通道和空间激活值抑制对特征图进行重新加权，可以在模型鲁棒性方面产生互补效应。

因此，本实施例中将原始特征激活抑制模块扩展为新的并行互补模式。新的特征激活抑制模块同时抑制通道激活值和空间激活值，我们认为它对防御对抗样本具有更好的互补效果，图7显示了我们提出的特性激活抑制模块的原理示意图，其分别从两个辅助分类器中获得相应的权值，并利用这些权值向量对优化后的特征进行加权。最后通过张量相加的方法将通道和空间重加权特征聚合在一起。

具体的，定义通道激活值为F^C，空间激活值为F^S，分别通过以下公式计算:

在模型的训练阶段，我们采用训练数据的标签来选择权值向量。在模型的推理阶段，我们通过使用辅助层的预测标签来获取权重向量，因为在这个阶段，测试数据真实标签是不可访问的，具体的说，激活重组的具体操作如下：

其中表示逐元素相乘，W^true和W^predict分别表示全连接层中真实标签和预测标签对应的权重向量，两个Z′分别是由权重向量重新激活之后的通道维度和空间维度上的新特征，它将被输入到骨干网络的后续层中。

基于辅助分类器，通道型和空间型上下文描述符都能够生成权重向量，并且我们有两个独立的权重组件来抑制之前细化的特征映射Z。原始的CBAM模型利用串行序贯的方式排列来增强原始的中间特征，但在这里我们提出使用并行方式来合并激活抑制后的通道和空间特征，最终聚合特征通过以下方式计算：

基于特征细化模块和特征激活抑制模块都是针对对抗引起样本的恶意特征而设计的，但由于对抗训练的影响，模型在干净图像上的泛化性能仍有下降。因此我们试图对特征空间施加一些约束，这样它就不会被对抗训练过度扭曲。我们的目标是使最终经通道抑制特征和空间抑制特征聚合后的最终特征Z^sup更接近干净样本上从标准训练模型中提取的特征映射。此外，我们还尝试对上述重加权特征空间进行收紧，这样可以减小同一类内样本之间的距离，使隐藏特征更加紧凑。

为了使每一类样本内的特征更加紧凑和具有鉴别性，本实施例首先在特征激活抑制模块上增加了一个中心约束，它通过修改原始的分类损失来对目标模型的特征空间施加额外的限制，如图8所示，实施例在特征激活抑制模块的两个辅助分类器上添加了这个中心约束。形式上，特征激活抑制模块中的辅助分类器的修正分类损失通过以下公式计算：

此外，实施例应用了一种知识蒸馏机制，以注意力图的形式将知识从一个独立训练的教师模型迁移到当前的对抗训练学生模型。我们使用的教师模型与目标学生模型具有相同的网络结构，且仅在干净的样本上进行训练。首先从两个模型的同一层中提取特征图，并生成一对用于知识迁移的注意力图，然后进行知识蒸馏操作。如图9所示，定义教师模型与目标学生模型的同一网络层中提取特征图分别是X^T和X^S，通过优化以下损失函数来进行知识蒸馏:

其中X^T和X^S属于特征空间R^C*H*W，以及X^T和X^S分别对应的知识Kn(X^T)和Kn(X^S)属于特征空间R^1*H*W，函数Distance()用于度量两个二维张量之间的距离，这里可以选择常用的L1或L2距离；特征对齐的优化目标是使扭曲的特征空间接近原始的干净特征分布，它可以缓解对抗训练模型在干净样本的性能下降问题，同时也可以在一定程度上削弱对抗样本的恶意影响。

实验设置

数据集，我们选择了图像分类领域的三个经典数据集来评估我们的RSA模型:CIFAR-10、CIFAR-100和SVHN。CIFAR-10包含6万张32*32像素的三通道彩色图像，共有10个不同的对象类别。同样，CIFAR-100也由6万张彩色图像组成，这些图像的大小与前一个数据集相同，只是CIFAR-100有100个对象类别。第三个数据集街景门牌号(SVHN)是从谷歌街景图像中的门牌号中摘录出来的，风格类似于MNIST。但它包含更大数量级的标记数据(超过60万位数图像)，用于解决更困难的、未解决的现实问题(识别自然场景图像中的字符编号)。该数据集有10个不同的数字类，其中训练集有73257张照片，测试集有26032张照片。

超参数设置，为了进行公平的比较，我们采用了与基线模型CAS相同的训练策略和超参数。为了评估我们的算法在各种网络架构中的有效性，我们选择ResNet-18和WRN-34-10作为我们的骨干网络。我们用PGD-10生成的对抗性示例(epsilon＝8/255和步长2/255)对上述两个骨干网进行200轮的对抗性训练。我们利用SGD优化器与动量0.9，权重衰减2e-4来优化模型中的可学习参数。特别地，我们将提出的特征细化模块和特征激活抑制模块安排在最后和倒数第二个残差块中。特征激活抑制模块中额外分支中的分类器都使用了上述的修正损失，而骨干网络中则使用了正常的交叉熵损失进行分类。在实验中，修改后的通道损失中参数lambda_1和lambda_2分别设为2和0.1，而在空间维度中这两个参数则分别是0.1和0.01。

白盒攻击防御

为了验证我们提出的RSA算法的有效性，我们首先在三个最常用的白盒攻击算法FGSM、PGD-20和CW上测试我们的算法，并将防御结果与其他先进的对抗防御算法进行比较。

表1是基于ResNet-18和WRN-34-10的CIFAR-10、CIFAR-100和SVHN的白盒干净精度和鲁棒精度实验结果，其中最佳结果以粗体显示。

表1：

在两个骨干网和三个公共数据集上的结果显示在表1中。很明显，在CIFAR-10数据集上，我们在ResNet-18和WideResNet-34-10上提出的算法的干净样本精度和鲁棒精度基本上超过了所有其他比较防御算法。同样地，我们提出的算法在CIFAR-100和SVHN数据集上的性能也优于比较的最先进的对抗防御算法。kWTA和SAP方法分别从神经网络的激活函数和激活值的修剪上增强了网络的鲁棒性。但是他们忽略了对抗样本特征空间与正常样本之间的差异，导致这两个模型在干净样本精度方面的性能急剧下降。此外，PCL和SML方法利用凸多面体限制和带有三联体损失的度量学习来限制对抗样本和干净样本之间的特征距离。因此，它们在干净图像的识别性能比前两种方法都要高。但是，这两种方法都忽略了扰动特征空间中异常值的问题，因此，这两种方法的对抗鲁棒性都不太好。相比之下，我们的方法综合考虑了两类样本在特征空间中的表示，并减轻了特征中异常值的恶性影响，因此得到了最好的结果。

我们的基线模型CAS及其变体CIFS算法只从特征通道激活值的角度考虑了对抗样本的影响，而忽略了污染特征对空间域的有害影响。同时，两种方法都没有考虑到对抗训练带来的干净样本精度下降问题。值得一提的是，与这两种方法相比，我们的算法结合了特征细化，提高了异常通道激活值的幅度值，并将原始的CAS扩展到并行互补模式下的通道和空间激活值同时抑制。此外，我们采用了特征对齐模块，以缓解对抗训练造成的干净样本识别精度下降。通过这种方式，我们的RSA在干净样本和对抗鲁棒的准确性方面优于这两种对比算法。

鲁棒软标签对抗蒸馏(RSLAD)算法是另一种利用知识蒸馏概念的防御方法。DS-NET算法则使用一种神经结构搜索(NAS)措施，通过人工设计的模块和原子结构找到最鲁棒的网络。从表1可以清楚地看到，我们的算法几乎在所有精度上都超过了同样使用知识蒸馏的RSLAD算法，这说明我们提出的前两个模块确实可以在更大程度上提高模型的对抗鲁棒性。值得注意的是，尽管在CIFAR-10和SVHN数据集上使用WideResNet-34-10的干净样本精度略低于DS-NET，但我们算法的对抗鲁棒性比该算法好得多。掩蔽对抗破坏(MAD)算法使用了对抗损失的二阶信息来修剪对抗训练网络。虽然MAD在个别识别精度上略高于我们的算法，但我们模型的整体性能仍然优于这种基于修剪的方法。

黑盒攻击防御

除了白盒攻击外，我们还测试了所提出的RSA算法对黑盒攻击的防御性能。为了保证比较的公平性，我们采用了与基线模型CAS相同的实验设置，选择了基于梯度和基于查询的两种黑盒攻击方法。前者包括PGD-20和CW，而后者利用NA攻击。在测试NA攻击时，我们从CIFAR-10和SVHN数据集的测试集中随机抽样1000张图像，并将查询的最大数量限制为20,000张。实验结果见表2。可以明显看出，在三种黑盒攻击下，我们提出的模型的黑盒鲁棒性都优于基线模型。这样，我们认为可以从经验上证明，我们提出的RSA算法不仅可以提高对白盒攻击的防御能力，而且在面对各种黑盒攻击时，相比我们的基线模型也有更好的性能。

表2是基于ResNet-18的CIFAR-10黑盒鲁棒精度实验结果，其中最佳结果以粗体显示。

表2：

定性实验

除了在白盒和黑盒攻击中进行的定量实验外，我们还通过定性实验分析了RSA算法的有效性和优越性。为了研究我们的RSA模型和基线模型CAS之间的特征差异，我们设计了两种类型的通道和空间维度的定性实验。

对于两个定性实验，我们比较在CAS和RSA中相同通道/空间位置的干净样本与对抗样本的激活值差异。特别地，我们在同一类别的样本中计算这些特征激活值。我们首先研究了通道角度的激活值水平差异。如图10所示，我们可以很明显地发现，在激活值较大的通道中(每个子图的左侧部分)，我们的RSA算法可以有效地减小CAS中激活值之间的差异。尽管我们的RSA算法在少数通道中(第二列中显著的蓝色部分)略微放大了对抗示例的激活值，但我们可以观察到，与CAS相比，这种差异的数值的数量级更小。因此，这进一步说明RSA模型可以有效减小两个样本激活值在信道维度上的差异。

类似的，我们也从空间维度对这两个模型进行了分析。从图11可以清楚地看到，对于对应空间位置的激活值的差异，我们的RSA算法整体上明显小于基线模型CAS。因此，也可以定性地证明RSA算法可以有效地消除两类样本在空间维度上的特征激活值差异。

消融分析

从图4中也可以观察到，对抗样本中的某些通道激活比干净图像的激活要大。此外，我们还可以尝试随机放大激活值。因此，我们首先通过掩码不同的激活值来研究不同的特征细化策略的影响。除了在我们提出的模块中掩码特征中的最小值之外，我们还构造了一些其他策略，包括掩码最大值、掩码随机值和不掩码。在这个实验中，我们只在每个通道中掩码一个值。

从图12可以看出，与其他三种策略相比，我们最早提出的策略“Min Mask”在干净样本和对抗样本上的性能都更好。我们假设，虽然我们的特征细化模块放大了每个通道的最小值，但这种放大可能对原始激活水平较高的通道更有效，这对正确的分类更有帮助。这可能是“Min Mask”达到最佳性能的原因。值得一提的是，尽管“UnMask”策略在干净精度上表现得更好，但它的对抗鲁棒性比“Max Mask”和“Random Mask”更差。因此，我们认为在扰动特征中掩码一些值确实有利于提高对抗鲁棒性。

此外，我们还尝试在特征细化模块中确定最佳掩码率。因此，我们将原始的单一值细化模块与其他三种掩码率进行比较。为了进行对比，我们除了取最小值的掩码外，还取两个最小值的掩码，四个最小值的掩码，以及不取任何值的掩码作为实验的对照组，因为我们提取的中间特征图的大小仅为16*16。图13显示，仅掩盖每个通道中最小值的原始掩码率在干净样本精度和鲁棒精度上都表现最佳。值得注意的是，当掩码率上升到25％时，模型的鲁棒精度下降，甚至比FGSM和CW上的不掩码效果更差。因此，我们认为在利用特征细化模块时应选择适当的掩码率，以免丢失过多的信息，避免在提升对抗鲁棒性时产生相反作用。

表3是基于ResNet-18的RSA模型不同模块对CIFAR-10的影响分析，其中最佳结果以粗体显示。

表3：

Module	Refine	Suppress	Align	Clean	FGSM	PGD-20	CW
								Ablation 1	√			81.25	63.23	53.25	53.30
Ablation 2	√	√		85.23	65.26	60.25	55.37
								Ablation 3	√	√	√	89.24	69.13	64.49	57.93

并且，为了探究我们提出的算法中各种子组件对对抗鲁棒性和干净样本精度的影响，我们设计了另一个消融实验进行比较。如表3所示，我们比较了完整版本RSA算法与其他两个变体的鲁棒精度和干净精度。第一个版本只将特征细化模块添加到基线模型中，而第二个版本同时应用了特征细化和特征激活抑制模块，而没有额外的特征对齐。可以清楚地看到，只添加特征细化操作确实能增加对抗鲁棒性，但也会在一定程度上降低在干净样本上的性能。我们推断这是因为在减少信道维度中的恶意影响时，也可能会丢失一些信息，进而影响干净图像的特征分布。此外，从结果中可以发现，加入扩展后的特征激活抑制模块可以进一步提高目标模型的鲁棒性。最后，对辅助分类器和抑制特征进行额外的约束，可以补偿对抗训练对干净样本精度的影响。因此，我们认为，我们提出的将三个模块结合在一起的RSA算法可以改善基于对抗训练的目标模型的干净精度和鲁棒精度之间的权衡。

结论

本实施例提出了一种新的对抗样本防御算法RSA，该算法由特征细化模块、特征激活抑制模块和特征对齐模块组成。RSA算法在CAS模型的基础上，首先利用特征细化模块对特征通道中的整体激活量进行恢复和细化，然后利用特征激活抑制模块对通道和空间域的高阶特征进行权重调整。最后通过知识蒸馏操作和两个辅助分支的额外中心约束对特征空间进行对齐。在三个公共数据集和两个广泛使用的骨干网络上进行的定量和定性实验，并与其他防御算法进行比较的结果，证明了我们提出的RSA算法的优越性。在未来，我们将尝试引入诸如自监督机制和元学习方法等手段，以更好地解决对抗防御算法中干净和鲁棒精度之间的权衡。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种基于特征一致性约束的图像分类对抗样本防御方法，其特征是，其包括以下步骤：

2.如权利要求1所述的一种基于特征一致性约束的图像分类对抗样本防御方法，其特征是，步骤S1包括：

所述特征细化模块首先计算特征图中的每个通道特征的平均激活值，然后将每个通道特征的最小激活值缩放到其平均激活值上，操作表述如下：

X^′＝X-X*MinMask+(1-MinMask)*Mean(X)

3.如权利要求2所述的一种基于特征一致性约束的图像分类对抗样本防御方法，其特征是，步骤S2包括：

4.如权利要求3所述的一种基于特征一致性约束的图像分类对抗样本防御方法，其特征是，步骤S201包括：

5.如权利要求4所述的一种基于特征一致性约束的图像分类对抗样本防御方法，其特征是，步骤S202中激活重组的具体操作如下：

6.如权利要求5所述的一种基于特征一致性约束的图像分类对抗样本防御方法，其特征是，步骤S303中最终聚合特征通过以下方式计算：

7.如权利要求6所述的一种基于特征一致性约束的图像分类对抗样本防御方法，其特征是，步骤S3包括：

8.如权利要求7所述的一种基于特征一致性约束的图像分类对抗样本防御方法，其特征是，步骤S302中，教师模型与目标学生模型具有相同的网络结构，且仅在干净的样本上进行训练；具体包括以下步骤：

9.如权利要求8所述的一种基于特征一致性约束的图像分类对抗样本防御方法，其特征是，特征激活抑制模块中的辅助分类器的修正分类损失l_fas通过以下公式计算：

l_fas＝λ₁l_cea+λ₂l_center

其中l_cea表示辅助分类器的原始交叉熵损失，l_center表示中心约束；变量c_yi是特定类yi的类中心；λ₁和λ₂为交叉熵损失与中心约束之间的调整系数；e为自然对数，W为分类器的权重向量，b为偏置项，xi为当前分类的图像，yi为该图像对应的标签。

10.如权利要求9所述的一种基于特征一致性约束的图像分类对抗样本防御方法，其特征是，定义教师模型与目标学生模型的同一网络层中提取特征图分别是X^T和X^S，通过优化以下损失函数来进行知识蒸馏:

l_kd＝Distance(Kn(X^T),Kn(X^S))

l＝l_ce+l_fasc+l_fass+l_kd

其中l_ce表示骨干网络中的原始分类丢失,l_fasc和l_fass分别表示辅助分类器在通道和空间维度上的修正分类损失,l_kd表示知识蒸馏损失。