CN113935496A

CN113935496A - 一种面向集成模型的鲁棒性提升防御方法

Info

Publication number: CN113935496A
Application number: CN202111302450.2A
Authority: CN
Inventors: 刘宁; 庄文梓; 黄立峰
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-01-14
Anticipated expiration: 2041-11-04
Also published as: CN113935496B

Abstract

本发明公开了一种面向集成模型的鲁棒性提升防御方法，包括步骤如下：S1：在每个训练样本上提取所有子模型的非鲁棒特征样本；S2：选取未训练的子模型，将其他子模型提取的非鲁棒特征样本分别输入该子模型进行训练；S3：通过结合特征层混合方法，将非鲁棒特征样本在正在训练的子模型的第t层中间特征层的输出值，以不同的比例混合为一个中间层输出feature_map；S4：将混合得到的feature_map继续输入该正在训练的子模型进行前向传播，计算交叉熵更新该子模型的参数；S5：对集成模型中的所有子模型都分别经过上述步骤S1～S5进行训练，直到所有子模型达到最大训练轮数，则得到最终的子模型。通过本发明训练得到的集成模型，不仅能有效防御白盒攻击和黑盒攻击方法，同时还基本不影响对干净样本的识别率。

Description

一种面向集成模型的鲁棒性提升防御方法

技术领域

本发明涉及深度学习技术领域，更具体的，涉及一种面向集成模型的鲁棒性提升防御方法。

背景技术

深度神经网络模型的特点之一就是通过线性特征间的线性组合来表达结果与特征的对应关系，因此只需要稍微篡改输入数据的少数内容，就会对提取的特征产生巨大的变化，让人工智能系统输出错误的结果。这将对基于深度学习的人工智能系统的鲁棒性产生巨大的威胁。

针对目前的深度学习模型，若攻击者对输入图像的内容进行轻微篡改，就会使特定的图像内容无法被人工智能系统检测或识别，对人工智能系统的安全性带来了极大的挑战。被篡改图像的扰动噪音往往比较小，不容易被人眼的视觉系统所察觉，但却容易干扰人工智能系统的判断。因此如何有效防御这些噪声攻击，也成了目前深度模型亟待解决的问题之一。但目前已有的防御方法，要么对扰动攻击的防御效果不理想，要么通过牺牲对干净样本的识别率来换取对扰动攻击较好的防御效果。两者都无法达到预期的结果，该问题依然未得到较好的解决。

发明内容

本发明为了解决以上现有技术中存在不足的问题，提供了一种面向集成模型的鲁棒性提升防御方法。

为实现上述本发明目的，采用的技术方案如下：

一种面向集成模型的鲁棒性提升防御方法，所述的方法包括步骤如下：

S1：在每个训练样本上提取所有子模型的非鲁棒特征样本；

S2：选取未训练的子模型，将其他子模型提取的非鲁棒特征样本分别输入该子模型进行训练，子模型间通过相互训练彼此生成的非鲁棒特征样本，以学习彼此的“脆弱性”；

S3：通过结合特征层混合方法，将非鲁棒特征样本在正在训练的子模型的第t层中间特征层的输出值，以不同的比例混合为一个中间层输出feature_map；

S4：将混合得到的feature_map继续输入该正在训练的子模型进行前向传播，计算交叉熵更新该子模型的参数；

S5：对集成模型中的所有子模型都分别经过上述步骤S1～S5进行训练，直到所有子模型达到最大训练轮数，则得到最终的子模型。

优选地，步骤S1，在提取所有子模型的非鲁棒特征样本之前，先进行初始化操作，具体如下：基于均匀分布U(-ε,ε)生成一个维度为h×w×c噪音矩阵对原图像x_s进行初始化操作；其中h，w，c分别为训练样本集图像的高、宽、通道维度，ε表示添加的扰动的像素最大值。

进一步地，步骤S1，利用特征提取算法在非鲁棒特征图像z上提取子模型的非鲁棒特征样本，包括以下步骤：

S101：随机选取另一个目标图像x；

S102：以迭代的方式，将非鲁棒特征图像z在特征层的输出值逼近目标图像 x在特征层的输出值，形成最终的非鲁棒特征样本，其计算公式为：

式中：f_i ^l(·)表示第i个子模型的第l层的输出值，其中括号内表示模型的输入；z_i,l表示由第i个子模型通过第l特征层生成的非鲁棒特征样本；s.t.||.||_∞表示使用无穷范数对生成的非鲁棒特征样本进行约束。

再进一步地，步骤S3，具体地，在训练第i个子模型时，将随机选取第j个子模型生成的非鲁棒特征图像，与除第i子模型和j子模型外的其他子模型生成的非鲁棒特征样本，分别按照比例λ和γ在第i个子模型的第t层中间特征层的输出混合成一个中间层输出feature_map。

再进一步地，所述的特征层混合方法，其计算公式为：

式中，λ和γ为混合系数，λ是服从Beta分布的随机矩阵系数，γ则定义为 (1-λ)/(N-2)，其中，N是子模型的数量；t和l均是随机选取的特征层；k是除i和j外的任一子模型序号；f_i ^t(z_j,l)是第j子模型提取的非鲁棒特征样本在第i子模型的第t层的输出值；Y_i ^t则是训练第i个子模型时，其他子模型生成的非鲁棒特征样本在该子模型的第t层中间特征层的输出值的混合结果feature_map。

再进一步地，计算混合后的feature_map的交叉熵，交叉熵计算公式为：

式中：M是类别数量；y_s是原图像的真实类别标签；

是符号函数，若真实类别标签等于c则取1，否则取0；p_c则是判断为类别c的概率。

再进一步地，使用交叉熵更新子模型的参数，其公式为：

最小化式(4)让子模型i通过学习其他子模型生成的非鲁棒特征样本，从而学习到其他子模型的“脆弱性”。

再进一步地，在实际测试部署中，对于每个测试样本，同时输入经过上述步骤S1～S5训练得到的所有子模型进行查询；通过查询获取所有子模型的预测结果，计算预测结果的均值，将该均值作为最终的预测结果。

一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述的处理器执行所述的计算机程序时，实现上述的方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时，实现上述的方法的步骤。

本发明的有益效果如下：

本发明提供了一种面向集成模型的鲁棒性提升防御方法，首先在所有训练样本上提取所有子模型的非鲁棒特征，然后子模型间通过学习彼此的非鲁棒特征，来学习彼此的“脆弱性”，以此降低子模型间的迁移性；最后结合特征层混合方法，使子模型能够更好地学习到其他子模型的非鲁棒特征，进一步增大子模型间的差异性；交替训练所有子模型，最后通过多个差异性较大的子模型，能够更好地提升集成模型整体的鲁棒性。通过本发明训练得到的集成模型，不仅能有效防御白盒攻击和黑盒攻击方法，同时还基本不影响对干净样本的识别率。

附图说明

图1是实施例1所述的方法的流程图。

图2是实施例1所提出的防御方法的整体流程示例图。

图3是非鲁棒特征图像生成流程示例图。

图4是非鲁棒特征图像z的生成结果图像示例图。

图5是随机特征混合流程示例图。

图6是集成模型更新流程示例图。

图7是实施例1所提出的防御方法防御黑盒迁移攻击时的成功率结果图。

图8是实施例1所提出的防御方法防御白盒攻击时的成功率结果图。

具体实施方式

下面结合附图和具体实施方式对本发明做详细描述。

实施例1

如图1、图2所示，一种面向集成模型的鲁棒性提升防御方法，所述的方法包括步骤如下：

S1：使用特征提取算法在每个训练样本上提取所有子模型的非鲁棒特征样本；步骤S1的流程示例图如图3所示。

在一个具体的实施例中，在提取所有子模型的非鲁棒特征样本之前，先进行初始化操作，具体如下：基于均匀分布U(-ε,ε)生成一个维度为h×w×c噪音矩阵对原图像x_s进行初始化操作；其中h，w，c分别为训练样本集图像的高、宽、通道维度，ε表示添加的扰动的像素最大值。原图像x_s的示例如图3(a)所示。

在一个具体的实施例中，步骤S1，利用特征提取算法在非鲁棒特征图像z 上提取子模型的非鲁棒特征样本，效果示例如图3所示，包括以下步骤：

S101：随机选取另一个目标图像x；目标图像x的示例如图3(b)所示。

最小化式(1)可以在尽可能保持非鲁棒特征图像与原图像相似的同时，使非鲁棒特征图像的特征表示与目标图像接近。非鲁棒特征样本本质上是第i个子模型生成的对抗样本，其具有该子模型的“脆弱性”信息，即包含该子模型的非鲁棒特征。非鲁棒特征图像z的结果示例如图3(c)所示。

S2：选取未训练的子模型，将其他子模型提取的非鲁棒特征样本分别输入该子模型进行训练，子模型间通过相互训练彼此生成的非鲁棒特征样本，以学习彼此的“脆弱性”，有效降低子模型间的迁移性。通过不同子模型间相互训练彼此的非鲁棒特征样本，学习彼此的“脆弱性”，有效的降低子模型间的迁移性。

S3：如图5所示，在训练非鲁棒特征样本时，通过结合特征层混合方法，将非鲁棒特征样本在正在训练的子模型的第t层中间特征层的输出值，以不同的比例混合为一个中间层输出feature_map。

在一个具体的实施例中，具体地，在训练第i个子模型时，将随机选取第j个子模型生成的非鲁棒特征图像，与除第i子模型和j子模型外的其他子模型生成的非鲁棒特征样本，分别按照比例λ和γ在第i个子模型的第t层中间特征层的输出混合成一个中间层输出feature_map。

本实施例通过随机混合特征输出，可以降低子模型间训练数据或特征相似度，从而进一步降低了子模型间的迁移性，同时进一步地提升子模型间的差异性。

在一个具体的实施例中，所述的特征层混合方法，其计算公式为：

式中，λ和γ为混合系数，λ是服从Beta分布的随机矩阵系数，γ则定义为 (1-λ)/(N-2)，其中，N是子模型的数量；t和l均是随机选取的特征层；k是除i和j外的任一子模型序号；f_i ^t(z_j,l)是第j子模型提取的非鲁棒特征样本在第 i子模型的第t层的输出值；Y_i ^t则是训练第i个子模型时，其他子模型生成的非鲁棒特征样本在该子模型的第t层中间特征层的输出值的混合结果feature_map。

更直观的解释是，在每次训练的迭代中，本实施例会随机选取一个子模型生成的非鲁棒特征图像作为主要的训练样本，而剩余子模型生成的非鲁棒特征样本以不同的权重在特征层与主训练样本进行特征混合，得到一个混合feature_map。这能够在降低子模型间训练特征相似度的同时，使每个子模型依旧能学习到所有其他子模型的非鲁棒特征。

S4：将混合得到的feature_map继续输入该正在训练的子模型进行前向传播，计算交叉熵更新该子模型的参数；如图6所示，是集成模型更新流程示例图。

计算混合后的feature_map的交叉熵，交叉熵计算公式为：

式中：M是类别数量；y_s是原图像的真实类别标签；

式(3)表示交叉熵公式可以衡量预测结果与真实结果的不一致性。熵值越大表示预测越不准确，而熵值越小则表示预测越准确。

再进一步地，使用交叉熵更新子模型的参数，其公式为：

最小化式(4)让子模型i通过学习其他子模型生成的非鲁棒特征样本，从而学习到其他子模型的“脆弱性”。即对抗样本能够成功攻击其他子模型，也无法轻易成功攻击子模型i。结合特征混合算法，能够更好地学习到其他子模型的非鲁棒特征。

再进一步地，在实际测试部署中，对于每个测试样本，同时输入经过上述步骤S1～S5训练得到的所有子模型进行查询；通过查询获取所有子模型的预测结果，计算预测结果的均值，将该均值作为最终的预测结果，公式为：

其中，P_i表示第i个子模型的预测概率结果，P_ens则是结合了所有子模型给出的最终预测结果。

本实施例所述的方法的防御效果如图7和图8所示。图7展示了本实施例所述的方法防御黑盒迁移攻击的成功率，图8展示了本实施例所述的方法防御白盒攻击的成功率。第一行数据表示的是攻击扰动的强度，第一列的数字则代表了使用的子模型的数量。可以看出本实施例所述的方法已经可以做到在保持较高的干净样本准确率的同时，较好地防御黑盒迁移攻击。并且在防御白盒攻击时，针对低扰动攻击也有较好的防御效果。此外，本实施例所述的方法的防御效果可以随着子模型数量的增加而进一步增强。

实施例2

一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述的处理器执行所述的计算机程序时，实现的方法步骤如下：

S1：在每个训练样本上提取所有子模型的非鲁棒特征样本；

S3：通过结合特征层混合方法，将非鲁棒特征样本在正在训练的子模型的第 t层中间特征层的输出值，以不同的比例混合为一个中间层输出feature_map；

实施例3

一种计算机可读存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时，实现的方法步骤如下：

S1：在每个训练样本上提取所有子模型的非鲁棒特征样本；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种面向集成模型的鲁棒性提升防御方法，其特征在于：所述的方法包括步骤如下：

S1：在每个训练样本上提取所有子模型的非鲁棒特征样本；

2.根据权利要求1所述的面向集成模型的鲁棒性提升防御方法，其特征在于：步骤S1，在提取所有子模型的非鲁棒特征样本之前，先进行初始化操作，具体如下：基于均匀分布U(-ε,ε)生成一个维度为h×w×c噪音矩阵对原图像x_s进行初始化操作；其中h，w，c分别为训练样本集图像的高、宽、通道维度，ε表示添加的扰动的像素最大值。

3.根据权利要求2所述的面向集成模型的鲁棒性提升防御方法，其特征在于：步骤S1，利用特征提取算法在非鲁棒特征图像z上提取子模型的非鲁棒特征样本，包括以下步骤：

S101：随机选取另一个目标图像x；

S102：以迭代的方式，将非鲁棒特征图像z在特征层的输出值逼近目标图像x在特征层的输出值，形成最终的非鲁棒特征样本，其计算公式为：

4.根据权利要求3所述的面向集成模型的鲁棒性提升防御方法，其特征在于：步骤S3，具体地，在训练第i个子模型时，将随机选取第j个子模型生成的非鲁棒特征图像，与除第i子模型和j子模型外的其他子模型生成的非鲁棒特征样本，分别按照比例λ和γ在第i个子模型的第t层中间特征层的输出混合成一个中间层输出feature_map。

5.根据权利要求4所述的面向集成模型的鲁棒性提升防御方法，其特征在于：所述的特征层混合方法，其计算公式为：

式中，λ和γ为混合系数，λ是服从Beta分布的随机矩阵系数，γ则定义为(1-λ)/(N-2)，其中，N是子模型的数量；t和l均是随机选取的特征层；k是除i和j外的任一子模型序号；f_i ^t(z_j,l)是第j子模型提取的非鲁棒特征样本在第i子模型的第t层的输出值；Y_i ^t则是训练第i个子模型时，其他子模型生成的非鲁棒特征样本在该子模型的第t层中间特征层的输出值的混合结果feature_map。

6.根据权利要求5所述的面向集成模型的鲁棒性提升防御方法，其特征在于：计算混合后的feature_map的交叉熵，交叉熵计算公式为：

式中：M是类别数量；y_s是原图像的真实类别标签；

7.根据权利要求6所述的面向集成模型的鲁棒性提升防御方法，其特征在于：使用交叉熵更新子模型的参数，其公式为：

8.根据权利要求1～7任一项所述的面向集成模型的鲁棒性提升防御方法，其特征在于：在实际测试部署中，对于每个测试样本，同时输入经过上述步骤S1～S5训练得到的所有子模型进行查询；通过查询获取所有子模型的预测结果，计算预测结果的均值，将该均值作为最终的预测结果。

9.一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：所述的处理器执行所述的计算机程序时，实现如权利要求1～7任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述的计算机程序被处理器执行时，实现如权利要求1～7任一项所述的方法的步骤。