CN113902954A

CN113902954A - 基于主特征增强的图像中毒防御方法、装置及其应用

Info

Publication number: CN113902954A
Application number: CN202111084309.XA
Authority: CN
Inventors: 林昶廷; 韩蒙; 张旭鸿; 张龙源; 纪守领
Original assignee: Binjiang Research Institute Of Zhejiang University
Current assignee: Binjiang Research Institute Of Zhejiang University
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2022-01-07

Abstract

本发明公开了一种基于主特征增强的图像中毒防御方法、装置及其应用，方法包括：获取图像数据集；选取中毒攻击方法对图像样本进行下毒操作并对深度学习模型进行训练，获得中毒深度学习模型；基于特征神经通路获得主特征增强样本，构成主特征图像数据集；采用原始的图像数据集、主特征图像数据集以及对应的类标对中毒深度学习模型进行训练，获得增加防御机制后的深度学习模型；将中毒样本输入到增加防御机制后的深度学习模型中，统计中毒样本的标签变化率；迭代直至标签变化率大于或等于设定阈值，则获得最终的具有防御机制的深度学习模型。本发明的方法与深度学习采用的模型无关，并且适用于其他多种策略，不影响模型的正常功能的使用。

Description

基于主特征增强的图像中毒防御方法、装置及其应用

技术领域

本发明涉及深度学习领域，尤其涉及一种基于主特征增强的图像中毒防御方法、装置及其应用。

背景技术

近年来，随着硬件设备的发展和理论研究的深入，基于深度学习的应用不断增长。研究人员发现深度学习算法在各个领域中的表现明显优于传统的机器学习算法，例如图像识别任务，语音识别，自然语言处理。在某些情况下，深度模型处理这些任务的性能甚至超过了人类的表现。特别是卷积神经网络(Convolutional Neural Network,CNN)在图像处理任务中取得了巨大的成功，目前部署的基于CNN的图像识别模型不仅可以识别动植物物种，而且还在自动驾驶任务中得到应用。

随着深度模型网络结构的不断改进，高效的深度学习框架的开放获取途径，以及训练复杂模型所需的硬件性能提升，深度学习在安全相关领域中的关键应用逐渐成熟，例如自动驾驶，视频监控，恶意软件检测，无人机和机器人路径规划以及语音命令识别等等。随着ATM机的面部识别功能和手机的人脸解锁功能等的实现，深度学习在我们的日常生活中发挥越来越重要的作用。

对于深度学习模型的攻击，分为对抗攻击和中毒攻击。对抗攻击发生在深度学习模型的测试阶段，攻击者通过再原始数据上添加精心设计的微小扰动得到对抗样本，从而对深度学习模型进行愚弄，使其以较高置信度误判的恶意攻击。

相对对抗攻击而言，中毒攻击往往对深度学习的安全性威胁性更大。中毒攻击通常针对深度学习模型的训练阶段，通过对干净样本添加一定的扰动或将两张干净样本的特征混合实现毒药样本的构建，并标注错误的标签混入干净样本中进行训练；在预测阶段，潜在的触发样本输入到深度学习模型中，将会使模型内部发生混乱从而导致错误分类，值得注意的是，触发样本可能与干净样本无异。

特别是在自动驾驶和人脸识别等安全性相关领域中，注入毒药样本训练后的中毒模型对一些潜在的触发样本造成误分类的现象，将会对人工智能安全乃至人生安全产生严重的威胁。

对于以上问题，一方面，需要构建完备的测试数据集以良好的检测和修复任何不良情况下模型误分类的情况。另一方面，对于深度学习模型来说，需要具有自我防御机制，对异常数据进行辨别并拒绝异常数据的输入。

现有一些中毒防御方法会降低深度学习模型的识别性能，或者中毒性防御方法的适用于特定的深度学习模型，不能有效扩展到其它深度学习模型。

发明内容

本发明提供了一种基于主特征增强的图像中毒防御方法，该方法与深度学习采用的模型无关，并且适用于其他多种策略，不影响模型的正常功能的使用。

本发明的技术方案如下：

一种基于主特征增强的图像中毒防御方法，包括以下步骤：

(1)获取图像数据集X，保存图像数据集X中的图像样本x以及每张图像样本的类标Y；获取深度学习模型；

(2)选取中毒攻击方法对图像样本x进行下毒操作，获得中毒样本X_p，将中毒样本X_p与干净的图像样本x混合，对深度学习模型进行训练，获得中毒深度学习模型f(·)；

(3)基于特征神经通路构建主特征图通路，由主特征图通路获得每个图像样本x对应的主特征增强样本x′，由主特征增强样本x′构成主特征图像数据集X′；

(4)采用原始的图像数据集X、对应的主特征图像数据集X′以及对应的类标Y对中毒深度学习模型f(·)进行训练，获得增加防御机制后的深度学习模型f'(.)；

(5)将中毒样本X_p输入到增加防御机制后的深度学习模型f'(.)中，统计中毒样本X_p的标签变化率

(6)重复步骤(3)-(5)，直至所述的标签变化率大于或等于设定阈值Tth，则获得最终的具有防御机制的深度学习模型。

步骤(1)中，所述的图像数据集包括MNIST数据集、CIFAR-10数据集和ImageNet数据集。

步骤(2)中，所述的中毒攻击方法包括BadNets、Dynamic Backdoor Attack、Feature Collision Attack和Trojan Attack。

步骤(3)包括：

(3-1)将干净的图像数据集X输入到所述的中毒深度学习模型f(·)中，计算图像样本在中毒深度学习模型f(·)中间运算层的嵌入特征f_emb(x_i)，选出每层激活值最大的神经元进行累加，构建损失函数：

其中，x_i∈X,i＝1,2,...；λ为平衡参数；max(·)表示该层激活值最大的神经元；

(3-2)以损失函数梯度下降作为导向对原始的图像样本x的像素值进行改变，获得其对应的主特征增强样本x′：

x'＝x+s*grad

其中，s为迭代步长；

由主特征增强样本x′构成主特征图像数据集X′。

将神经网络的前向传播过程表示为f:R^D→R^C，其中D表示输入的维度，C表示输出的维度。对于L层的神经网络结构，以输入的某个神经元为起始节点，每层中间运算层的某个神经元为中间节点，最后输出的某个神经元为末节点，节点间串联构成一条有向无环图，这就是第L-1级特征神经通路，称为最长神经通路，定义为集合P_L-1＝{p_L-1(1,·,...,·)}。对集合中所有神经通路的计算构成了神经网络的前向传播过程，并且决定了最后的输出结果。

步骤(3-1)中选出每层激活值最大的神经元前后依次串联，构成主特征图通路。

所述的λ可人为调节，优选为常数1。

步骤(3-2)中，对原始的图像样本x的像素值进行改变时，需满足：

其中，L₀表示已更改像素的最大数量；L_∞表示像素更改的最大值；size(x)是原始的图像样本x中像素值大于0的像素数量；0<α,β<1。

步骤(5)中，所述的标签变化率

可以衡量深度学习模型敏感性，值越大表示深度学习模型的防御效果越好。

所述的标签变化率

的计算公式为：

其中，{x'_i∈X_p|f(x_i')≠f'(x_i')}|表示标签发生变化的样本数量；|X_p|表示输入到增加防御机制后的深度学习模型f'(.)中的中毒样本X_p的总数量。

本发明还提供了上述基于主特征增强的图像中毒防御方法在图像识别中的应用，包括，采用所述的基于主特征增强的图像中毒防御方法获得的具有防御机制的深度学习模型对待识别图像进行识别。

本发明还提供了一种基于主特征增强的图像中毒防御装置，所述的装置内含有所述的基于主特征增强的图像中毒防御方法获得的具有防御机制的深度学习模型。

与现有技术相比，本发明的有益效果为：

(1)针对现有中毒防御方法降低原样本识别性能的问题，提出基于主特征增强的图像中毒防御方法，实现深度学习模型水印后门工作机理解释，提升模型的鲁棒性。

(2)针对攻击者对防御方法已知的情况下的防御，每轮利用训练好的模型主特征的特征增强，利用模型对输入的损失求反向梯度相加，这样做可以使得补丁沿着模型损失下降的方向进行优化。

(3)随着各个任务利用在深度学习中，在深度学习上的模型多种多样，此方法与深度学习采用的模型无关，并且适用于其他多种策略，不影响模型的正常功能的使用。

附图说明

图1为本发明图像中毒防御方法的全阶段示意图；

图2为本发明图像中毒防御方法的流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

现在许多开发者没有足够的计算资源去训练效果较好的模型，会从网上下载知名的机构或者知名开发者训练好的模型。但是有研究者发现许多训练好的模型内部会有一些后门存在，导致模型内部存在潜在的漏洞，因此我们需要对网上下载好的模型进行防御保护后再使用。本发明提出了一种基于主特征增强的图像中毒防御方法，通过模拟异常样本在深度学习模型中的数据流动过程增加防御机制，从而使深度学习模型在实际部署和应用时更加安全可靠。

参照图1～图2，基于主特征增强的图像中毒防御方法，包括以下步骤：

1)获取图像数据集，具体包括：

1.1)收集常用于图像分类的MNIST数据集、CIFAR-10数据集和ImageNet数据集并保存为X以及每张图像相应的类标Y；

2)预训练中毒深度学习模型f(·)，具体包括：

2.1)将图像数据集按预设比例划分为训练集和测试集，通过one-hot编码将图片数据集中每个样本的标签转化为一维向量；

2.2)收集模型中毒方法，获取BadNets、Dynamic Backdoor Attack、FeatureCollision Attack和Trojan Attack并保存；

2.3)选取中毒攻击方法并对获取的图像数据进行下毒操作，并混入到干净样本中进行模型训练。

3)构建特征神经通路，具体包括：

将神经网络的前向传播过程表示为f:R^D→R^C，其中D表示输入的维度，C表示输出的维度。对于L层网络结构，以输入的某个神经元为起始节点，每层中间运算层的某个神经元为中间节点，最后输出的某个神经元为末节点，节点间串联构成一条有向无环图，这就是主要研究的第L-1级特征神经通路，称为最长神经通路，定义为集合P_L-1＝{p_L-1(1,·,...,·)}。对集合中所有神经通路的计算构成了神经网络的前向传播过程，并且决定了最后的输出结果。

3.1)构建主特征图通路，包括：

设N＝{n₁,n₂,...}为深度学习模型的一组神经元，将干净图像数据集X输入到步骤2.3)预训练好的深度学习模型f(·)中，并计算样本在模型f(·)卷积层与池化层的嵌入特征f_emb(x_i)，其中x_i∈X,i＝1,2,...。将特征图中激活值最大的神经元进行累加，构成损失函数：

其中，λ表示平衡参数，可人为调节，默认为常数1；max(·)表示该层激活值最大的特征图。

3.2)构建主特征增强样本，具体操作包括：

通过对损失函数梯度下降作为导向对原始图像的像素值进行改变：

x'＝x+s*grad

其中s为迭代步长。

改变图像的像素值时需满足：

其中，X表示原始图像；X’表示改变像素值后的主特征图像；L₀表示已更改像素的最大数量；L_∞表示像素更改的最大值；size(x)是原始的图像样本x中像素值大于0的像素数量；0<α,β<1。

构建防御机制，过程如下：

4.1)将原始图像X与输入的主特征图像X’以及每张图像相应的类标Y输入预训练预测模型中进行防御：

w＝arg max_w(f(X')＝Y+f(X)＝Y)

5)评估防御机制，过程如下：

5.1)将步骤2.2)方法生成的中毒样本X_p输入到增加防御机制后的深度学习模型中，统计模型的标签变化率：

其中，f(.)是防御前的模型，f'(.)是防御后的模型，

衡量测试模型的敏感性，值越大表示模型防御效果越好。当

小于一定阈值T_th则重复步骤3，否则则说明模型得到了一定的修复。

上述实施提供的基于主特征增强的图像中毒防御方法，具有以下优点：

1)针对现有中毒防御方法降低原样本识别性能的问题，提出基于主特征增强的图像中毒防御方法，实现深度学习模型水印后门工作机理解释，提升模型的鲁棒性。2)针对攻击者对防御方法已知的情况下的防御，每轮利用训练好的模型主特征的特征增强，利用模型对输入的损失求反向梯度相加，这样做可以使得补丁沿着模型损失下降的方向进行优化。3)随着各个任务利用在深度学习中，在深度学习上的模型多种多样，此方法与深度学习采用的模型无关，并且适用于其他多种策略，不影响模型的正常功能的使用。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于主特征增强的图像中毒防御方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于主特征增强的图像中毒防御方法，其特征在于，所述的图像数据集包括MNIST数据集、CIFAR-10数据集和ImageNet数据集。

3.根据权利要求1所述的基于主特征增强的图像中毒防御方法，其特征在于，所述的中毒攻击方法包括BadNets、Dynamic Backdoor Attack、Feature Collision Attack和Trojan Attack。

4.根据权利要求1所述的基于主特征增强的图像中毒防御方法，其特征在于，步骤(3)包括：

x'＝x+s*grad

其中，s为迭代步长；

由主特征增强样本x′构成主特征图像数据集X′。

5.根据权利要求4所述的基于主特征增强的图像中毒防御方法，其特征在于，λ为常数1。

6.根据权利要求4所述的基于主特征增强的图像中毒防御方法，其特征在于，步骤(3-2)中，对原始的图像样本x的像素值进行改变时，需满足：

7.根据权利要求1所述的基于主特征增强的图像中毒防御方法，其特征在于，所述的标签变化率

的计算公式为：

8.一种如权利要求1-7任一项所述的基于主特征增强的图像中毒防御方法在图像识别中的应用，其特征在于，包括：采用所述的具有防御机制的深度学习模型对待识别图像进行识别。

9.一种基于主特征增强的图像中毒防御装置，其特征在于，所述的装置内含有如权利要求1-7任一项所述的基于主特征增强的图像中毒防御方法获得的具有防御机制的深度学习模型。