CN117197589A

CN117197589A - 一种目标分类模型对抗训练方法及系统

Info

Publication number: CN117197589A
Application number: CN202311455090.9A
Authority: CN
Inventors: 王骞; 曹厚泽; 龚雪鸾; 王云飞
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2023-12-08
Anticipated expiration: 2043-11-03
Also published as: CN117197589B

Abstract

本发明为了解决现有对抗训练方法提升模型鲁棒性程度有限的问题，提出了一种目标分类模型对抗训练通用方法。通过构建重要性分析算法，计算模型权重和训练数据的重要性，针对性调整模型更新策略和学习速率，有效地提升了模型抵御对抗攻击的鲁棒性，解决了传统训练策略的不足。

Description

一种目标分类模型对抗训练方法及系统

技术领域

本发明属于人工智能安全领域，主要涉及对深度神经网络领域的对抗样本攻击的防御的进一步研究，具体地指一种基于去中心化决策的目标分类对抗训练方法及系统。

背景技术

目前深度神经网络在众多应用场景中取得巨大的成功，但对于安全性要求较高的场景，其抵御针对性攻击的能力成为重点关注的问题。在这些场景中，神经网络不仅需要实现较高的准确度，同时需要能抵御外界攻击干扰，防止做出错误的决策或预测，造成较大的经济损失与社会影响。

对抗样本是指经过特定的扰动后，能够使神经网络误分类的样本。对抗样本的存在表明了神经网络的鲁棒性问题，即神经网络在面对微小的输入变化时，可能会产生不可预期的输出变化。这对于安全敏感的应用场景，如自动驾驶、人脸识别等，是非常危险的。

为了增强神经网络的鲁棒性，对抗训练是一种常用且高效的方法，即在训练过程中，使用对抗样本来更新模型参数，使得模型能够适应对抗样本的扰动。然而，现有的对抗训练方法存在一些问题，如对抗训练通常需要大量的计算资源和时间，因为每次迭代都需要生成新的对抗样本，并且需要多次梯度计算和反向传播；对抗训练容易受到梯度掩蔽和梯度对齐等问题的影响，即模型在某些方向上的梯度很小或者与真实标签一致，导致模型无法有效地学习到鲁棒特征；对抗训练可能导致灾难性过拟合现象，即模型在训练过程中突然失去泛化能力，图像分类的准确率极大降低。这可能是由于模型在对抗训练中过度关注了某些特定的扰动方向，而忽略了其他方向上的信息。

为了解决这些问题，一些改进的对抗训练方法被提出，例如2020年NIPS会议上，研究者提出引入名为GradAlign的约束项，一定程度提升鲁棒性和泛化能力，但是其提升效果仍较为有限，模型仍然会出现训练过程中分类准确率骤降接近0%的情况。

发明内容

为了克服上述不足，本发明提出了一种基于去中心化决策的目标分类模型对抗训练方法及系统，分散模型注意力的对抗训练机制有效地解决了单步对抗训练的灾难性过拟合和多步对抗训练的鲁棒性过拟合问题，并提高了模型抵御对抗样本的鲁棒性。

本发明所设计的基于去中心化决策的目标分类模型对抗训练方法，包含以下步骤：

步骤1，数据处理与模型初始化。

将数据集划分为训练集和测试集，对图片进行归一化处理，即将特征值大小调整到相近的范围。并初始化模型参数，即在网络模型训练之前，对各个节点的权重和偏置进行初始化赋值的过程。同时，将对抗扰动程度初始化为0/255。

步骤2，生成对抗样本。

基于模型的参数与梯度，在训练图像上施加随机扰动，并将对抗扰动程度增加2/255，输入模型后获得梯度，逆梯度下降方向生成扰动，并归一化为对抗扰动程度/>范围内，叠加扰动后的图像即为对抗样本。将生成的对抗样本作为模型的训练样本，进行训练。

步骤3，模型权重分析。训练过程中，针对模型参数的重要性，定义模型的损失函数，针对不同重要性的参数采取对应的更新策略。具体而言，通过计算损失函数对参数的敏感度获得模型参数的重要性。然后，根据设计的损失函数，在模型训练参数更新时，限制重要参数的更新程度，同时允许重要性较低的参数完全更新。

步骤4，训练数据分析。

在模型最后两层之间引入了一个标准的超球面，用于度量神经网络输入样本的学习难度，以更好学习对抗样本特征。标准超球面是指一个单位半径的高维球面，它可以用来表示归一化后的权重向量或特征向量。标准超球面上的分布可以反映神经网络的相关性和泛化能力，具体来说，标准超球面上的分布越均匀，表示神经网络中的权重向量或特征向量越不相关，从而能提高了神经网络的表达能力和泛化能力。训练者首先对倒数第二层的特征图和softmax层的权重进行归一化，然后为了将超球面结合到对抗训练中，在模型损失函数中加入了一个边界项，使得损失函数与模型参数向量和输入特征向量的夹角有关，引导模型更多学习夹角更大即更难以学习的训练样本，从而提升模型的鲁棒性和泛化能力。

循环执行步骤2、3、4，直到模型训练完毕或达到预设的停止条件。

基于同样的发明构思，本方案还提供一种基于去中心化决策的对抗训练系统：

包括数据处理与模型初始化模块，将图像数据集划分为训练集和测试集，初始化模型，并将扰动程度初始化为0/255；

对抗样本生成模块，在每训练阶段增加，生成对抗样本；

模型权重分析模块，根据模型参数的重要性，选择不同的参数更新策略，模型参数的重要性表示为：

其中是损失函数，/>是模型参数；并用新的损失函数/>在训练过程中限制不同重要性参数的变化幅度，具体地：

其中是原始的损失函数，/>是一个超参数，/>代表上一轮更新后参数值；一个参数很重要，需要抑制它相对于上一轮参数值/>的更新幅度；反之，则放松它相对于上一轮参数值/>的更新，使其具有较大的更新幅度；

训练数据分析模块，在最后两层引入一个标准的超球面，用于度量神经网络的学习难度，使其最大化分类准确率的同时，最小化分类难度；

系统循环执行对抗样本生成模块，权重分析模块和训练数据分析模块的操作，直到模型训练完毕或达到预设的停止条件。

基于同一发明构思，本方案还提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现基于去中心化决策的对抗训练方法。

基于同样的发明构思，本方案还提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现基于去中心化决策的对抗训练方法。

本发明的优点在于：

参数重要性分析和自适应参数更新：

通过计算参数的重要性，该技术允许对每个参数采取不同的更新策略。这有助于平衡模型的学习过程，避免模型过度关注某些特定的参数。由于采用了自适应参数更新策略，可以有效降低对抗训练所需的计算资源和时间成本。模型不必显著增加训练轮次，从而提高了效率。通过限制重要参数的更新幅度和允许不太重要的参数完全更新，该技术能更精确引导模型参数更新程度，从而增强了模型学习样本内容的能力，增强了模型的泛化能力，使其更好地适应对抗样本的扰动。

分散模型注意力的对抗训练机制：

该技术针对单步对抗训练的灾难性过拟合问题提供了解决方案。通过自适应参数更新策略，可以避免模型在训练过程中突然失去泛化能力的问题。通过引入标准超球面和夹角相关性，该技术使模型更好地学习对抗样本的特征，从而提高了模型的鲁棒性。这有助于模型更好地应对对抗样本攻击。通过在损失函数中加入边界项来惩罚夹角的增加，该技术有效地防止了过拟合问题，使模型不会过度学习训练数据中的噪声样本。

综上所述，这个发明技术在对抗训练领域具有独特的特点和多个优势，包括解决过拟合问题、提高鲁棒性、个性化参数更新、降低计算成本和增强泛化能力。这些优势有助于提高深度神经网络模型在面对对抗样本攻击时的鲁棒性和分类准确性，同时避免广泛存在的过拟合问题。

附图说明

图1是本发明的系统模型图。

图2是本发明中样本处理图。

图3是本发明的模型权重分析图。

图4是本发明中训练数据分析图。

具体实施方式

为使本发明实施方式的目的、技术方案和和特点说明更加清楚，下面结合本发明的附图，对本发明实施方式中的技术方案进行清晰、完整地描述。

本发明涉及一种目标分类模型对抗训练方法，本方法充分考虑了有目标攻击情况和无目标攻击情况两类。附图1为本方法的主要流程，图2、3、4分别是本发明在样本处理阶段、模型权重分析阶段、训练数据分析阶段的主要流程。

实施例一

本发明应用在医疗图像诊断领域，医疗图像分类属于安全敏感领域，若在图像采集过程中存在高斯噪声，或输入的医疗图像被恶意篡改，会导致错误的分类结果，影响诊疗建议和实施，危害患者健康。本发明的基于去中心化决策的目标分类模型对抗训练方法，针对已经训练好的医疗图像分类模型，具体过程如下：

步骤1，数据处理与模型初始化。首先，将医疗图像数据集划分为训练集和测试集，并对图片进行归一化处理，从而这样可以减少数据的噪声和方差，提高模型的收敛速度，最后随机初始化模型参数。同时，将对抗扰动程度初始化为0/255，表示我们还没有对原始图片添加任何扰动。

步骤2，生成对抗样本。每训练阶段，在医疗图像训练数据集上将增加2/255，直到达到16/255。这样可以使得逐渐增加对抗扰动的强度，从而考察模型在不同程度的扰动下的性能。然后，根据不同的/>和两种主流的对抗样本生成方法输出结果有最大负面影响的样本作为对抗样本，两种主流对抗样本生成方法为快速梯度符号法FGSM和投影梯度下降法PGD。使用一种方法生成对抗样本也可以，但两种生成方法具有横向比较的价值，主流方法具有普适性。快速梯度符号法FGSM，它根据损失函数对输入的梯度方向来添加扰动，即

其中是原始图片，/>是对抗图片，/>是扰动程度，/>是模型参数，/>是真实标签，/>是损失函数。FGSM的优点是生成速度快，缺点是容易被防御方法识别和抵抗。PGD是一种投影梯度下降法，它在多次迭代中不断更新扰动，并将其投影到一个球形区域，即

其中是第t次迭代后的对抗图片，/>是每次迭代的步长，/>是投影函数，/>是一个以x为中心、以/>为半径的球形区域。PGD的优点是生成的对抗样本更难被防御方法识别和抵抗，缺点是生成速度慢。

步骤3，模型权重分析。根据模型参数的重要性，选择不同的参数更新策略。我们用一个公式来计算模型参数的重要性，它反映了损失函数对参数的敏感度。具体地，

其中是损失函数，/>是模型参数。这个公式表示了当参数发生微小变化时，损失函数会发生变化的幅度。例如对于模型参数/>中某一参数/>如果/>很大，则说明该参数很重要；如果/>很小，则说明该参数不太重要。然后，用另一个公式来定义模型的新损失函数/>，其用于在训练过程中限制不同重要性参数的变化幅度。它包含了一个调节因子/>，用于限制重要参数的变化，同时允许不太重要的参数完全更新。具体地，

其中是原始的损失函数，/>是一个超参数，默认值为0.1，用于控制调节因子的强度，/>代表上一轮更新后参数值。这个公式的含义是，当对模型进行梯度下降时，会同时考虑原始的损失函数和参数的重要性。如果一个参数很重要，那么它对应的重要性参数/>会很大，为最小化损失函数/>，需要抑制它相对于上一轮参数值/>的更新幅度；如果一个参数不太重要，那么它对应的重要性参数/>会很小，为最小化损失函数/>，需要放松它相对于上一轮参数值/>的更新，使其具有较大的更新幅度。这样可以使得模型在保持良性样本性能的同时，增强对最坏情况样本的鲁棒性。

步骤4，训练数据分析。为了更好地学习最坏情况下的扰动，在最后两层之间引入了一个标准的超球面，用于度量神经网络的学习难度。我们首先对倒数第二层的特征图和softmax层的权重/>进行归一化，即

其中表示/>范数。这样可以使得两个向量都在单位超球面上。然后，根据两个向量的内积和夹角来表示神经网络的映射函数/>，即

其中是两个向量之间的夹角。这个公式表示了神经网络将特征图映射到权重向量上的过程。如果两个向量越接近，则内积越大，夹角越小；如果两个向量越远离，则内积越小，夹角越大。为了将超球面结合到对抗训练中，在模型损失函数中加入了一个边界项b，使得损失函数与两个向量的夹角有关。具体地，

这个公式表示了当两个向量之间的夹角增大时，边界项也会增大。而当向量夹角增加时，更容易超过决策边界夹角，使得模型分类错误。因此在现有的损失函数上增加该边界项作为惩罚，使得模型在针对带有惩罚项的损失函数进行更新时，自动分配更小的权重给更容易分类错误的样本，避免模型过度学习训练数据中的噪声样本，出现过拟合的情况。因此该步骤这样可以使得模型在最大化分类准确率的同时，最小化分类难度。

重复进行上述操作，模型的鲁棒性和分类准确性不再显著升高，此时可以发现其在拥有强鲁棒性和高分类准确度的同时，具有强泛化性，不会出现过拟合的情况。

使用本方法，无需影响前期正常医疗图像分类训练过程与分类准确度，步骤三和步骤四的技术能够使得模型在保持无扰动输入的高分类准确度的同时，具有高鲁棒性，可正确分类存在恶意扰动的医疗图像。

实施例二

本发明的一种目标分类模型对抗训练方法，应用在自动驾驶领域。自动驾驶中需要对车辆周围标志进行准确识别，例如道路指示牌、红绿灯以及穿行马路的行人。由于灯光、行人穿着、指示牌部分破损、镜头污渍等外部因素，或者他人恶意修改，在指示牌上贴小块人眼难以察觉的扰动图案，自动驾驶系统易错误识别或错误分类，严重影响后续系统决策。例如将禁止停车标志识别为立即停车标志，或者无法识别穿行马路的行人。

在现有自动驾驶识别模型的基础上，使用本发明所述的目标分类模型对抗训练方法进行对抗训练，其具体过程实施例一有详述，此处不再赘述，简言之，在每个训练轮次在训练数据集上施加对抗性扰动，使用实施例一中步骤三和步骤四的技术训练过程，引导模型训练方向。经过本方法训练后的模型，在保持原有正常识别准确率的情况下，具有相较于现存方法更高的鲁棒性，对于干扰具有更强的容错性。

实施例三

基于同一发明构思，本方案还提供一种目标分类模型对抗训练系统：

对抗样本生成模块，在每训练阶段增加，生成对抗样本；

由于本发明实施例二所介绍的设备为实施本发明实施例一种目标分类模型对抗训练方法所采用的系统，故而基于本发明实施例一介绍的方法，本领域所属技术人员能够了解该电子设备的具体结构及变形，故而在此不再赘述。

实施例四

基于同一发明构思，本发明还提供了一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现实施例一中所述的方法。

由于本发明实施例三所介绍的设备为实施本发明实施例一目标分类模型对抗训练方法所采用的电子设备，故而基于本发明实施例一介绍的方法，本领域所属技术人员能够了解该电子设备的具体结构及变形，故而在此不再赘述。凡是本发明实施例一种方法所采用的电子设备都属于本发明所欲保护的范围。

实施例五

基于同一发明构思，本发明还提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例一中所述的方法。

由于本发明实施例四所介绍的设备为实施本发明实施例一目标分类模型对抗训练方法采用的计算机可读介质，故而基于本发明实施例一介绍的方法，本领域所属技术人员能够了解该电子设备的具体结构及变形，故而在此不再赘述。凡是本发明实施例一种方法所采用的电子设备都属于本发明所欲保护的范围。

本文中所描述的具体实施例仅仅是对本发明作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种目标分类模型对抗训练方法，其特征在于，包括以下步骤：

步骤1，将数据集划分为训练集和测试集，初始化目标分类模型，并将扰动程度初始化为0/255；

步骤2，在每训练阶段增加，生成对抗样本；

步骤3，根据目标分类模型参数的重要性，选择不同的参数更新策略，模型参数的重要性表示为：

；

其中L是损失函数，ω是模型参数；并用新的损失函数L ^′在训练过程中限制不同重要性参数的变化幅度，具体地：

；

其中L是原始的损失函数，λ是一个超参数，ω _pre代表上一轮更新后参数值；一个参数很重要，需要抑制它相对于上一轮参数值ω _pre的更新幅度；反之，则放松它相对于上一轮参数值ω _pre的更新，使其具有较大的更新幅度；

步骤4，训练数据分析时，在最后两层引入一个标准的超球面，用于度量神经网络的学习难度，使其最大化分类准确率的同时，最小化分类难度；

步骤5，循环执行步骤2、3、4，直到模型训练完毕或达到预设的停止条件。

2.根据权利要求1所述的目标分类模型对抗训练方法，其特征在于：

步骤1中对数据集进行归一化处理，并随机初始化模型参数。

3.根据权利要求1所述的目标分类模型对抗训练方法，其特征在于：步骤2的基于模型的参数与梯度，在训练图像上施加随机扰动，并将对抗扰动程度增加2/255，输入模型后获得梯度，逆梯度下降方向生成扰动，并归一化为对抗扰动程度/>范围内，叠加扰动后的图像即为对抗样本。

4.根据权利要求3所述的目标分类模型对抗训练方法，其特征在于：

每训练阶段，将增加2/255，直到/>达到16/255。

5.根据权利要求3所述的目标分类模型对抗训练方法，其特征在于：采用多种对抗样本生成方法中模型输出结果有最大负面影响的样本作为对抗样本。

6.根据权利要求5所述的目标分类模型对抗训练方法，其特征在于：采用2中对抗样本生成方法，分别为快速梯度符号法和投影梯度下降法。

7.根据权利要求1所述的目标分类模型对抗训练方法，其特征在于：步骤4中在模型中引入超球面的具体过程如下：

首先对倒数第二层的特征图z和softmax层的权重w进行归一化，即

；

其中表示L ₂范数；然后，根据两个向量的内积和夹角来表示神经网络的映射函数f，即

；

其中θ是两个向量之间的夹角；在模型损失函数中加入了一个边界项b，使得损失函数与两个向量的夹角有关，具体地，

；

在现有的损失函数上增加该边界项作为惩罚，使得模型在针对带有惩罚项的损失函数进行更新时，自动分配更小的权重给更容易分类错误的样本，避免过拟合的情况。

8.一种目标分类模型对抗训练系统，其特征在于：

包括数据处理与模型初始化模块，将图像数据集划分为训练集和测试集，初始化目标分类模型，并将扰动程度初始化为0/255；

对抗样本生成模块，在每训练阶段增加，生成对抗样本；

；

9.一种电子设备，其特征在于，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；

当一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现权利要求1-7中任一项所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于：所述程序被处理器执行时实现权利要求1-7中任一项所述的方法。