CN111178504B

CN111178504B - 基于深度神经网络的鲁棒压缩模型的信息处理方法及系统

Info

Publication number: CN111178504B
Application number: CN201911302108.5A
Authority: CN
Inventors: 裴庆祺; 闫玉双
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2023-04-07
Anticipated expiration: 2039-12-17
Also published as: CN111178504A

Abstract

本发明属于深度神经网络技术领域，公开了一种基于深度神经网络的鲁棒压缩模型的信息处理方法及系统，输入层、第一层卷积层和激活层主要部署在移动设备端，第二层卷积层、激活层、池化层、第一层全连接层、激活层、第二层全连接层、激活层、第三层全连接层、激活层和输出层部署在边缘服务器端；移动设备和边缘服务器共同训练两层卷积层和三层全连接层的卷积神经网络；模型训练主要包括三个模块：模型初始化模块、模型压缩模块、模型鲁棒模块；在模型鲁棒模块中，采用基于模型权重分布的防御机制，将拉普拉斯噪声加入到压缩模型中。本发明不需要在训练中加入对抗样本，减小计算开销；同时能够极大提高模型的鲁棒性，具有重要的意义。

Description

基于深度神经网络的鲁棒压缩模型的信息处理方法及系统

技术领域

本发明属于深度神经网络技术领域，尤其涉及一种基于深度神经网络的鲁棒压缩模型的信息处理方法及系统。

背景技术

深度神经网络在图像分类、对象检测和语义识别中应用广泛。特别是深度卷积神经网络，例如LeNet，AlexNet，VGGNet，GoogLeNet和ResNet等在机器学习任务中表现出色。由于基于深度神经网络的模型具有大量的参数，因此基于深度神经网络的应用需要很大的计算开销。移动设备具有有限的计算能力，因此一方面移动设备不具有训练模型的能力，一方面模型不适合部署在移动设备端。为了解决这个问题，需要将大规模的模型压缩为小规模的模型。同时，考虑到边缘计算环境下，边缘服务器可以帮助移动设备共同训练压缩模型，最后压缩模型部署到移动设备端。

但是，基于深度神经网络的模型容易受到对抗样本的攻击。攻击者通过小幅度改变合法样本制造对抗样本，导致模型例如分类器在预测任务中错误分类。例如，在图像识别任务中，由于深度神经网络在训练过程中只需提取训练样本的少量特征，因此，在预测阶段分类器很难正确分类与原始图像存在部分差异的图像，攻击者利用这一性质精心制作对抗样本，导致分类器产生错误的分类结果。目前，针对模型预测阶段的防御技术主要包括对抗训练和防御蒸馏这两种常用方法。Tramèr等在文献“Ensemble adversarial training:attacks and defenses”中提出利用联合对抗训练的方式提高对抗样本的多样性，但是引入的对抗样本的种类有限，因此模型仅针对引入的对抗样本具有特定的鲁棒性，模型的普适性仍然具有一定的局限性。同时，由于在对抗训练中需要加入对抗样本，因此对抗训练额外增加计算开销。Papernot等在文献“Distillation as a defense to adversarialperturbations against deep neural networks”中提出防御蒸馏方法，旨在降低对抗样本的梯度值，使得输出的模型更加平滑，从而降低对扰动的敏感度。但是，针对较小的输入变化，防御蒸馏虽然能够产生小的梯度值，在黑盒攻击中特征值的变化未能显著提高基于深度神经网络的模型的鲁棒性。

综上所述，现有技术存在的问题是：

(1)现有基于深度神经网络的模型在对抗训练中需要加入对抗样本，增加计算开销。另一方面，模型只针对特定的样本具有较好的鲁棒性，随着对抗样本多样性的增加，模型的鲁棒性明显降低。

(2)现有基于深度神经网络的模型防御性蒸馏在黑盒环境下并不能显著提高模型的鲁棒性。

解决上述技术问题的难度：现实生活中，对抗样本的数量和种类有限，在对抗训练和防御蒸馏中不可能考虑到所有对抗样本的情况，因此训练模型的鲁棒性具有一定的局限性。

解决上述技术问题的意义：一方面，本发明利用边缘服务器帮助移动设备共同训练鲁棒的压缩模型，使训练的模型部署在移动设备端成为可能，因此移动设备可提供基于深度神经网络的应用服务如图像识别任务。一方面，近年来基于深度神经网络的模型在安全领域应用尤其广泛，这些应用对模型的安全性要求较高，本发明能够极大提高模型的鲁棒性，可有效防御基于模型梯度产生的对抗样本，因此本发明在现实生活中具有重要的应用价值。

发明内容

针对现有技术存在的问题，本发明提供了一种基于深度神经网络的鲁棒压缩模型的信息处理方法及系统。

本发明是这样实现的，一种基于深度神经网络的鲁棒压缩模型的信息处理方法，所述基于深度神经网络的鲁棒压缩模型的信息处理方法包括以下步骤：

第一步，输入层、第一层卷积层和激活层主要部署在移动设备端，第二层卷积层、激活层、池化层、第一层全连接层、激活层、第二层全连接层、激活层、第三层全连接层、激活层和输出层部署在边缘服务器端；移动设备和边缘服务器共同训练两层卷积层和三层全连接层的卷积神经网络；

第二步，定义每次选取小批量训练样本的个数，权重剪切阈值，模型剪切的总次数；对模型参数进行剪切并进行模型再训练，重复以上模型参数剪切和模型再训练后得到性能良好的压缩模型；

第三步，采用基于模型权重分布的防御机制，将拉普拉斯噪声加入到压缩模型中。

进一步，所述第一步具体包括：定义输入训练数据集X＝{x₁,x₂,...,x_n}，损失函数L(Θ,X)，目标函数

Θ表示模型的参数，

是惩罚项，||Θ||₂表示二范数计算，λ表示惩罚项系数；

在第t轮迭代中，随机选取b个小批量训练样本，计算平均梯度

其中

g_t(x_i)表示训练样本x_i在第t轮迭代训练时的梯度，Θ_t表示第t轮迭代的模型参数；通过计算Θ_t+1＝Θ_t-η_tg_t完成第t+1轮模型参数的更新，Θ_t+1表示第t+1轮迭代的模型参数，η_t表示学习率。经过T轮迭代训练，得到预训练模型f₁。

进一步，所述第二步具体包括：定义每次选取小批量训练样本的个数为b，权重剪切阈值t_pr，模型参数小于t_pr时被剪切掉，模型剪切的总次数为k；根据t_pr对模型参数进行剪切并进行模型再训练，重复以上模型参数剪切和模型再训练k次后得到性能良好的压缩模型。

进一步，每次模型参数剪切和模型再训练具体包括以下步骤：根据t_pr对模型参数进行剪切；随机选取b个小批量训练样本，计算平均梯度

其中

g_t(x_i)表示训练样本x_i在第t轮迭代训练时的梯度，Θ_t表示第t轮迭代的模型参数；通过计算Θ_t+1＝Θ_t-η_tg_t完成第t+1轮模型参数的更新，Θ_t+1表示第t+1轮迭代的模型参数，η_t表示学习率。进行T轮迭代训练；得到压缩模型f₂。

进一步，所述第三步具体包括：分别加入两个对称的拉普拉斯噪声分布，分别表示为

和

其中n表示训练数据集中训练样本的个数，P_m表示模型鲁棒参数，P_m越大，加入的拉普拉斯噪声越小，模型的鲁棒性越小；

全连接层的参数集合用f_FC＝{f_FC1,f_FC2}＝{w₁,w₂...,w_N}，其中N＝n₁+n₂，

f_FC1表示权重小于0的集合，f_FC2表示权重大于等于0的集合；

定义为：基于模型权重分布的防御机制M(f_FC)＝{M₁(f_FC1),M₂(f_FC2)}表示当输入f_FC＝{f_FC1,f_FC2}时，输出鲁棒压缩模型f_r。

进一步，

针对f_FC1，加入

针对f_FC2，加入

本发明的另一目的在于提供一种实施所述基于深度神经网络的鲁棒压缩模型的信息处理方法的基于深度神经网络的鲁棒压缩模型的信息处理系统，所述基于深度神经网络的鲁棒压缩模型的信息处理系统包括：

模型初始化模块，用于实现输入层、第一层卷积层和激活层主要部署在移动设备端，第二层卷积层、激活层、池化层、第一层全连接层、激活层、第二层全连接层、激活层、第三层全连接层、激活层和输出层部署在边缘服务器端；移动设备和边缘服务器共同训练两层卷积层和三层全连接层的卷积神经网络；

模型压缩模块，用于定义每次选取小批量训练样本的个数，权重剪切阈值，模型剪切的总次数；对模型参数进行剪切并进行模型再训练，重复以上模型参数剪切和模型再训练后得到性能良好的压缩模型；

模型鲁棒模块，用于实现采用基于模型权重分布的防御机制，将拉普拉斯噪声加入到压缩模型中。

本发明的另一目的在于提供一种所述基于深度神经网络的鲁棒压缩模型的信息处理方法在图像分类中的应用。

本发明的另一目的在于提供一种所述基于深度神经网络的鲁棒压缩模型的信息处理方法在对象检测中的应用。

本发明的另一目的在于提供一种所述基于深度神经网络的鲁棒压缩模型的信息处理方法在语义识别中的应用。

综上所述，本发明的优点及积极效果为：本发明在边缘环境下，移动设备和边缘服务器共同训练模型，模型分别部署在移动服务器端和边缘服务器端。鲁棒压缩模型的构建主要包括三个模块：模型初始化模块、模型压缩模块和模型鲁棒模块。本发明为了保证模型抵抗对抗样本的能力，在模型压缩模块提出一种基于模型权重分布的防御机制。

本发明利用边缘服务器帮助移动设备共同训练鲁棒的压缩模型，使训练的模型部署在移动设备端成为可能，因此移动设备可提供基于深度神经网络的应用服务如图像识别任务。近年来，基于深度神经网络的模型在安全领域应用尤其广泛，这些应用例如图像识别、目标检测等对模型的安全性要求较高，本发明能够极大提高模型在预测阶段的鲁棒性，有效防御基于模型梯度产生的对抗样本，因此本发明在现实生活中具有重要的应用价值。

附图说明

图1是本发明实施例提供的基于深度神经网络的鲁棒压缩模型的信息处理方法流程图。

图2是本发明实施例提供的基于深度神经网络的鲁棒压缩模型的信息处理系统的结构示意图；

图中：1、模型初始化模块；2、模型压缩模块；3、模型鲁棒模块。

图3是本发明实施例提供的无防御机制的模型抵抗FGSM攻击的鲁棒性能示意图。

图4是本发明实施例提供的无防御机制的模型抵抗BIM攻击的鲁棒性能示意图；

图中：Model 1-Model 4为具有不同模型压缩率R和惩罚系数λ的无防御机制的压缩模型。

(a)Model 1：R＝0.9,λ＝10^-4；(b)Model 2：R＝0.7,λ＝10^-4；(c)Model 3：R＝0.9,λ＝10^-5；(d)Model 4：R＝0.7,λ＝10^-5。

图5是本发明实施例提供的具有防御机制的模型抵抗FGSM攻击的鲁棒性能示意图；

图中：(a)拉普拉斯噪声

E＝±0.5and different scale＝1/5.5,1/11,1/22,1/27.5,1/55；

(b)拉普拉斯噪声

E＝±0.6and different scale＝1/5.5,1/11,1/22,1/27.5,1/55。

图6是本发明实施例提供的具有防御机制的模型抵抗BIM攻击的鲁棒性能示意图；

图中：(a)拉普拉斯噪声E＝±0.5and scale＝1/5.5；(a)拉普拉斯噪声E＝±0.5and scale＝1/55。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于深度神经网络的鲁棒压缩模型的信息处理方法及系统，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的基于深度神经网络的鲁棒压缩模型的信息处理方法包括以下步骤：

S101：输入层、第一层卷积层和激活层主要部署在移动设备端，第二层卷积层、激活层、池化层、第一层全连接层、激活层、第二层全连接层、激活层、第三层全连接层、激活层和输出层部署在边缘服务器端。移动设备和边缘服务器共同训练两层卷积层和三层全连接层的卷积神经网络。

S102：定义每次选取小批量训练样本的个数，权重剪切阈值，模型剪切的总次数；对模型参数进行剪切并进行模型再训练，重复以上模型参数剪切和模型再训练后得到性能良好的压缩模型。

S103：采用基于模型权重分布的防御机制，将拉普拉斯噪声加入到压缩模型中。

如图2所示，本发明实施例提供的基于深度神经网络的鲁棒压缩模型的信息处理系统包括：

模型初始化模块1，用于实现输入层、第一层卷积层和激活层主要部署在移动设备端，第二层卷积层、激活层、池化层、第一层全连接层、激活层、第二层全连接层、激活层、第三层全连接层、激活层和输出层部署在边缘服务器端。移动设备和边缘服务器共同训练两层卷积层和三层全连接层的卷积神经网络。

模型压缩模块2，用于定义每次选取小批量训练样本的个数，权重剪切阈值，模型剪切的总次数；对模型参数进行剪切并进行模型再训练，重复以上模型参数剪切和模型再训练后得到性能良好的压缩模型。

模型鲁棒模块3，用于实现采用基于模型权重分布的防御机制，将拉普拉斯噪声加入到压缩模型中。

下面结合附图对本发明的技术方案作进一步的描述。

由于基于深度神经网络的模型具有大量的参数，因此基于深度神经网络的应用需要很大的计算开销。移动设备具有有限的计算能力，因此一方面移动设备不具有训练模型的能力，一方面模型不适合部署在移动设备端。为了解决这个问题，需要将大规模的模型压缩为小规模的模型。同时，考虑到边缘计算环境下，边缘服务器可以帮助移动设备共同训练压缩模型，最后压缩模型部署到移动设备端。

本发明实施例提供的基于深度神经网络的鲁棒压缩模型的信息处理方法及系统包括：

步骤一：模型初始化模块。

输入层、第一层卷积层和激活层主要部署在移动设备端，第二层卷积层、激活层、池化层、第一层全连接层、激活层、第二层全连接层、激活层、第三层全连接层、激活层和输出层部署在边缘服务器端。移动设备和边缘服务器共同训练两层卷积层和三层全连接层的卷积神经网络。

定义输入训练数据集X＝{x₁,x₂,...,x_n}，损失函数L(Θ,X)，目标函数

Θ表示模型的参数，

是惩罚项，||Θ||₂表示二范数计算，λ表示惩罚项系数。

其中

g_t(x_i)表示训练样本x_i在第t轮迭代训练时的梯度，Θ_t表示第t轮迭代的模型参数。通过计算Θ_t+1＝Θ_t-η_tg_t完成模型参数的更新，Θ_t+1表示第t+1轮迭代的模型参数，η_t表示学习率。经过T轮迭代训练，得到预训练模型f₁。

步骤二：模型压缩模块。

定义每次选取小批量训练样本的个数为b，权重剪切阈值t_pr，模型参数小于t_pr时被剪切掉，模型剪切的总次数为k。根据t_pr对模型参数进行剪切并进行模型再训练，重复以上模型参数剪切和模型再训练k次后得到性能良好的剪切模型。每次模型参数剪切和模型再训练具体包括以下步骤：

首先，根据t_pr对模型参数进行剪切。随机选取b个小批量训练样本，计算平均梯度

其中

g_t(x_i)表示训练样本x_i在第t轮迭代训练时的梯度，Θ_t表示第t轮迭代的模型参数。通过计算Θ_t+1＝Θ_t-η_tg_t完成模型参数的更新，Θ_t+1表示第t+1轮迭代的模型参数，η_t表示学习率。进行T轮迭代训练；

最终得到压缩模型f₂。

步骤三：模型鲁棒模块。为了提高模型抵御对抗样本的鲁棒性，本发明提出一种基于模型权重分布的防御机制，考虑将拉普拉斯噪声加入到模型中。又考虑到模型压缩后，全连接层的权重分布会从高斯分布变为两个大体对称的高斯分布。为了提高压缩模型的预测能力，分别加入两个对称的拉普拉斯噪声分布，分别表示为

和

其中n表示训练数据集中训练样本的个数，P_m表示模型鲁棒参数，P_m越大，加入的拉普拉斯噪声越小，模型的鲁棒性越小。

假设全连接层的参数集合用f_FC＝{f_FC1,f_FC2}＝{w₁,w₂...,w_N}，其中N＝n₁+n₂，

f_FC1表示权重小于0的集合，f_FC2表示权重大于等于0的集合。

具体包括以下步骤：

针对f_FC1，加入

即

针对f_FC2，加入

即

最后，输出鲁棒压缩模型f_r。

下面结合仿真对本发明的技术效果作详细的描述。

1、实验仿真：设计由2个卷积层和3个全连接层构成的卷积神经网络，如图3所示。通过在此卷积神经网络上测试MNIST数据集评估本发明的性能。MNIST数据集由60000个手写数字训练样例和10000个手写数字测试样例构成。实验任务目标是在预测阶段，使模型具有抵抗由FGSM(Fast Gradient Sign Method)和BIM(Basic Iterative Method)方法制作的对抗样本的鲁棒压缩模型，当输入无标签的对抗样本时输出相应的正确类标签。

2、通过实验仿真测试无防御机制的压缩模型(也就是图3和图4所示的Model1、Model2、Model3、Model4)和具有防御机制的压缩模型(也就是图5和图6加入不同拉普拉斯噪声的模型)抵抗由FGSM(Fast Gradient Sign Method)和BIM(Basic Iterative Method)方法制作的对抗样本的鲁棒性能。实验证明，如图3，无防御机制的模型在ε较小也就是ε＝0.005,0.01,0.05时抵抗FGSM攻击的正确率可达到80％以上，因此具有较高的抵制对抗样本的鲁棒性。但是当ε较大也就是ε＝0.1,0.5时很难抵制FGSM的攻击，其中ε表示对合法图像的扰动程度，ε越大，表示扰动越大。从图4可以看出，即使ε较小时，模型很容易受到BIM攻击，随着迭代次数Step的增加，防御正确率迅速降低，模型鲁棒性明显下降。

但是，本发明提出的基于模型权重分布的防御机制可以有效提高压缩模型抵抗FGSM和BIM攻击的能力。如图5和如图6所示，ε取值范围较大，即ε＝0.005,0.01,0.05,0.1,0.5,1时，模型的防御正确率可高达90％以上，模型可有效抵制对抗样本的攻击。

对比图3和图5、图4和图6，与无防御机制的压缩模型相比，基于模型权重分布的防御机制的压缩模型具有很强的抵制对抗样本的鲁棒性能，因此实验结果表明本发明提出的基于模型权重分布的防御机制可有效抵制FGSM和BIM攻击。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度神经网络的鲁棒压缩模型的信息处理方法，其特征在于，所述基于深度神经网络的鲁棒压缩模型的信息处理方法包括以下步骤：

第三步，采用基于模型权重分布的防御机制，将拉普拉斯噪声加入到压缩模型中；

所述第三步具体包括：分别加入两个对称的拉普拉斯噪声分布，分别表示为

和

f_FC1表示权重小于0的集合，f_FC2表示权重大于等于0的集合；

2.如权利要求1所述的基于深度神经网络的鲁棒压缩模型的信息处理方法，其特征在于，所述第一步具体包括：定义输入训练数据集X＝{x1,x2,...,xn}，损失函数L(Θ,X)，目标函数

Θ表示模型的参数，

是惩罚项，||Θ||₂表示二范数计算，λ表示惩罚项系数；

其中

g_t(x_i)表示训练样本x_i在第t轮迭代训练时的梯度，Θ_t表示第t轮迭代的模型参数；通过计算Θ_t+1＝Θ_t-η_tg_t完成第t+1轮模型参数的更新，Θ_t+1表示第t+1轮迭代的模型参数，η_t表示学习率；经过T轮迭代训练，得到预训练模型f₁。

3.如权利要求1所述的基于深度神经网络的鲁棒压缩模型的信息处理方法，其特征在于，所述第二步具体包括：定义每次选取小批量训练样本的个数为b，权重剪切阈值t_pr，模型参数小于t_pr时被剪切掉，模型剪切的总次数为k；根据t_pr对模型参数进行剪切并进行模型再训练，重复以上模型参数剪切和模型再训练k次后得到性能良好的压缩模型。

4.如权利要求3所述的基于深度神经网络的鲁棒压缩模型的信息处理方法，其特征在于，每次模型参数剪切和模型再训练具体包括以下步骤：根据t_pr对模型参数进行剪切；随机选取b个小批量训练样本，计算平均梯度

其中

g_t(x_i)表示训练样本x_i在第t轮迭代训练时的梯度，Θ_t表示第t轮迭代的模型参数；通过计算Θ_t+1＝Θ_t-η_tg_t完成第t+1轮模型参数的更新，Θ_t+1表示第t+1轮迭代的模型参数，η_t表示学习率，进行T轮迭代训练；得到压缩模型f₂。

5.如权利要求1所述的基于深度神经网络的鲁棒压缩模型的信息处理方法，其特征在于，针对f_FC1，加入

针对f_FC2，加入

6.一种实施权利要求1～5任意一项所述基于深度神经网络的鲁棒压缩模型的信息处理方法的基于深度神经网络的鲁棒压缩模型的信息处理系统，其特征在于，所述基于深度神经网络的鲁棒压缩模型的信息处理系统包括：

7.一种如权利要求1～5任意一项所述基于深度神经网络的鲁棒压缩模型的信息处理方法在图像分类中的应用。

8.一种如权利要求1～5任意一项所述基于深度神经网络的鲁棒压缩模型的信息处理方法在对象检测中的应用。

9.一种如权利要求1～5任意一项所述基于深度神经网络的鲁棒压缩模型的信息处理方法在语义识别中的应用。