CN117454187B

CN117454187B - 一种基于频域限制目标攻击的集成模型训练方法

Info

Publication number: CN117454187B
Application number: CN202311777374.XA
Authority: CN
Inventors: 丁虎; 林伟晨; 张万林; 黄若民
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-12-22
Filing date: 2023-12-22
Publication date: 2024-05-17
Anticipated expiration: 2043-12-22
Also published as: CN117454187A

Abstract

本发明公开了一种基于频域限制目标攻击的集成模型训练方法，在集成子模型频域的每个特征中引入扰动，并分析扰动对准确性的影响来进行敏感性测试，识别出频域中的非鲁棒特征；在对抗攻击生成数据集时只针对识别出的非鲁棒特征进行目标攻击，得到多个具有不同非鲁棒特征的数据集；根据所得到的多个具有不同非鲁棒特征的数据集，训练得到具有多样性的子模型，将各子模型集成后得到具有对抗鲁棒性的集成模型。该方法能缩短训练鲁棒集成模型的时间开销，包括不同子模型之间的通信以及训练开销，提升集成模型在正常数据上的分类准确率以及对抗攻击下的分类准确率。

Description

一种基于频域限制目标攻击的集成模型训练方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于频域限制目标攻击的集成模型训练方法。

背景技术

在机器学习领域，现有技术通常采用在损失函数中增加额外正则项来减弱子模型在训练过程中学习到的特征的相似性，例如DVERGE以及TRS集成模型训练方法：

DVERGE采用轮流优化每个子模型的方式，来优化如下目标函数：

每次优化子模型需要计算 O(m) 次对抗样本，其中m为集成模型的子模型数量，那么整体DVERGE的训练就需要进行计算O(㎡)次对抗样本。

在TRS的训练过程中，损失函数的正则项额外加入了模型的二阶梯度信息，即：

其中是关于输入的二阶梯度，计算复杂度和模型参数量的平方成正比。

由上述方案可知，虽然现有技术中的DVERGE以及TRS能够训练出具有鲁棒性的集成模型，但是训练阶段的开销仍然比较大。

发明内容

本发明的目的是提供一种基于频域限制目标攻击的集成模型训练方法，该方法能缩短训练鲁棒集成模型的时间开销，包括不同子模型之间的通信以及训练开销，提升集成模型在正常数据上的分类准确率以及对抗攻击下的分类准确率。

本发明的目的是通过以下技术方案实现的：

一种基于频域限制目标攻击的集成模型训练方法，所述方法包括：

步骤1、在集成子模型频域的每个特征中引入扰动，并分析扰动对准确性的影响来进行敏感性测试，识别出频域中的非鲁棒特征；

步骤2、在对抗攻击生成数据集时只针对步骤1识别出的非鲁棒特征进行目标攻击，得到多个具有不同非鲁棒特征的数据集；

步骤3、根据所得到的多个具有不同非鲁棒特征的数据集，将数据集分配给不同的子模型作为当前的训练数据集，使用梯度下降算法更新各个子模型的参数，获得能够识别多样性特征的子模型，再将训练好的子模型集成后获得具有对抗鲁棒性的集成模型。

由上述本发明提供的技术方案可以看出，上述方法能缩短训练鲁棒集成模型的时间开销，包括不同子模型之间的通信以及训练开销，提升集成模型在正常数据上的分类准确率以及对抗攻击下的分类准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的基于频域限制目标攻击的集成模型训练方法流程示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，这并不构成对本发明的限制。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

如图1为本发明实施例提供的基于频域限制目标攻击的集成模型训练方法流程示意图，所述方法包括：

在该步骤中，所引入的扰动表示为；其中/>表示与频域中坐标/>相对应的傅里叶基矩阵；扰动强度由参数v控制，而r表示扰动的方向，决定是变大还是变小，从1，-1中随机抽取；

将扰动添加到各个频域中，具体是通过在干净输入图像x上添加扰动/>，测量预训练模型/>的错误率，从而判断哪些特征对扰动敏感，其中：

通过设定一个错误率阈值，根据特征的错误率区分非鲁棒特征和鲁棒特征，错误率超过所设定错误率阈值的特征被归类为非鲁棒特征；错误率低于所设定错误率阈值的特征被视为鲁棒特征。

在该步骤中，对抗攻击具有变换数据和预训练模型所具有的非鲁棒特征的能力，其中目标攻击集中在修改数据中的非鲁棒特征与特定目标标签相关，考虑原始数据集中的数据点/>，将目标标签设为/>，获得相应的对抗样本/>；当使用/>进行模型训练时，与目标标签/>相关的非鲁棒特征与标签/>的预测产生相关性，因此模型对于将标签误分为目标标签/>的非鲁棒特征的依赖减弱，这种依赖的减少提高了对抗攻击将预测引导到目标标签/>相对于其他类别的难度，同时能够增加不同子模型的非鲁棒特征的多样性，具体来说：

首先引入以下定义：

假设有一个预训练模型，该预训练模型/>在数据集/>上进行了训练，使用该预训练模型/>生成一个包含对抗样本的数据集 />；如果数据集/>不包含能够成功攻击类别s并将其误分类为类别t的任何对抗样本，则定义/>在攻击方向/>上弱，即定义/>具有/>-弱点，而/>中所有弱点方向/>共同形成了弱点集合W；

给定具有相应弱点集合的数据集/>，定义数据集/>的多样性如下：

由该公式可知：当所有的数据集集合拥有相同弱点集合时，数据集/>的多样性为0；当所有的数据集集合拥有不相交的弱点集合时，数据集/>的多样性为1；

本申请期望生成的不同数据集拥有尽可能高的数据集多样性，对于原始数据集中的每个样本，使用以下方法将数据分配给新数据集：

为每个样本生成关于所有其他类别的对抗样本；然后对于每个对抗样本，将其分配给当前包含最少个样本的数据集，m表示集成子模型的数量；同时为了保持新数据集的大小与原始数据集相同，选择目标类别置信度最高的对抗样本；

最终由频域编辑以及目标攻击共同生成多个具有不同非鲁棒特征的数据集。

上述操作在对抗攻击生成数据集时只修改敏感的频率特征（非鲁棒特征），这样就可以尽可能地保持原始数据的信息以及不敏感的鲁棒特征频率，从而保持干净数据集的准确率。

上述方法可以生成具有不同非鲁棒特征的数据集，从而得到特征更加多样化的子模型，而对抗样本在特征多样化的子模型之间的传递性减弱了，如此一来，所得到的集成模型便获得了对抗鲁棒性，本申请将这种方法称为带有频率限制的目标攻击TAFE。

下表1展示在不同的数据集CIFAR100和SVHN上的白盒攻击的防御效果，其中每一行代表不同的攻击方法，每一列代表不同和的集成模型防御性训练方法，TAFE表示本申请所述方法，表1中的实验均重复进行三次。

表1：集成模型对白盒攻击的对抗鲁棒性（%）；数据集分别为CIFAR100和SVHN；“clean”表示干净数据集的准确率；和λ表示l_∞范数的对抗扰动的强度和C&W攻击的系数：

由表1可知：在CIFAR-100以及SVHN数据集中本方法都可以获得最高的干净数据集上的分类准确率，且在大部分攻击方式下都可以获得相较于基准方法更高的分类准确率，体现本方法性能上的优势。

表2是本申请所述方法在CIFAR-100数据集上的消融实验，分别做了只用目标攻击的方法和只用频域编辑的实验，然后分别查看两种编辑手段的效果，并结合两者,比较结合后的效果。

表2：TAFE方法在CIFAR-100 数据集上的消融实验；TA表示只使用目标攻击的方法编辑数据集，其中表示目标攻击的强度；FE表示只使用频域编辑的方法编辑数据集，其中e表示错误率阈值：

由表2可知：当TA中的目标攻击强度逐渐增加时，模型的对抗性鲁棒性逐渐提高，但是这种改进是以模型在干净数据上的准确率为代价的；另一方面，通过逐渐增加FE中e的值，观察到集成模型的干净准确率提高，但是模型的对抗鲁棒性减弱。通过结合这两个步骤，本申请所述方法（TAFE）与单独使用任一方法(/>为0.05或者e为0.4)相比都能够提供更好地在对抗鲁棒性和干净准确率之间的权衡。

下表3是在相同的实验环境下测试的不同方法的时间代价：

表3：在数据集CIFAR100下和网络结构Resnet18下，不同方法训练三个子模型的平均时间：

由表3可知：和效果较好的DVERGE方法比，本申请方法在训练阶段，子模型之间不需要通信，可以有更好的并行性以及通信损失；另一方面，在训练过程中，本申请方法需要计算的对抗样本数量更少，所以每一轮迭代，时间消耗较少。

值得注意的是，本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

综上所述，通过本发明方法生成的数据集上训练不同的子模型，集成子模型可以学习到更加多样性的非鲁棒特征，这样将这些子模型结合成一个集成模型，这个集成模型就能够对对抗性攻击表现出鲁棒性，同时尽可能保持每个子模型的干净准确性。

另外，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，相应的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。本文背景技术部分公开的信息仅仅旨在加深对本发明的总体背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

Claims

1.一种基于频域限制目标攻击的集成模型训练方法，其特征在于，所述方法包括：

所引入的扰动表示为；其中/>表示与频域中坐标/>相对应的傅里叶基矩阵；扰动强度由参数v控制，而r表示扰动的方向，决定是变大还是变小，从1，-1中随机抽取；

通过设定一个错误率阈值，根据特征的错误率区分非鲁棒特征和鲁棒特征，错误率超过所设定错误率阈值的特征被归类为非鲁棒特征；错误率低于所设定错误率阈值的特征被视为鲁棒特征；

步骤2、在对抗攻击生成数据集时只针对步骤1识别出的非鲁棒特征进行目标攻击，得到多个具有不同非鲁棒特征的数据集，具体过程为：

对抗攻击具有变换数据和预训练模型所具有的非鲁棒特征的能力，考虑原始数据集中的数据点/>，将目标标签设为/>，获得相应的对抗样本/>；当使用/>进行模型训练时，与目标标签/>相关的非鲁棒特征与标签/>的预测产生相关性，因此模型对于将标签误分为目标标签/>的非鲁棒特征的依赖减弱，具体来说：

首先引入以下定义：

对于原始数据集中的每个样本，使用以下方法将数据分配给新数据集：

最终由频域编辑以及目标攻击共同生成多个具有不同非鲁棒特征的数据集；