CN115511059A

CN115511059A - 一种基于卷积神经网络通道解耦的网络轻量化方法

Info

Publication number: CN115511059A
Application number: CN202211246878.4A
Authority: CN
Inventors: 袁全波; 王慧娟; 魏国晟; 李建义
Original assignee: North China Institute of Aerospace Engineering
Current assignee: North China Institute of Aerospace Engineering
Priority date: 2022-10-12
Filing date: 2022-10-12
Publication date: 2022-12-23
Anticipated expiration: 2042-10-12
Also published as: CN115511059B

Abstract

本发明提供了一种基于卷积神经网络通道解耦的网络轻量化方法，包括：对数据集中的图像进行预处理；构建第一卷积神经网络模型和第二卷积神经网络模型；基于第一卷积神经网络模型，构建自监督预训练模型，基于预处理后的图像对自监督预训练模型进行训练，将训练后的自监督预训练模型知识蒸馏到第二卷积神经网络模型中，获得第三卷积神经网络模型；在第三卷积神经网络模型的通道后面加入可训练参数门阈值进行通道解耦，判断通道重要性，完成网络的轻量化。本发明在卷积网络中加入通道门阈值，在知识蒸馏实现模型压缩的基础上，进一步使网络轻量化，从而大幅度减少了模型的存储和计算开支。

Description

一种基于卷积神经网络通道解耦的网络轻量化方法

技术领域

本发明属于深度学习技术领域，尤其涉及一种基于卷积神经网络通道解耦的网络轻量化方法。

背景技术

近些年，越来越多的模型帮助人们完成了各式各样的任务，但随着模型规模的增大，终端模型部署的难度也直线增长，模型压缩，网络轻量化即用于解决这一问题，从而给移动端部署减轻压力，减少其对计算机量和存储量的要求。

在监督学习的领域，剪枝、量化、知识蒸馏，各种方法层出不穷。然而，在自监督学习方面，模型的轻量化仍然是一大难题。近两年，针对自监督模型的轻量化方法发展缓慢，不仅因为其不能使用标签而带来的限制条件，而且比监督学习更加庞大的模型规模更是难题。

发明内容

为解决上述技术问题，本发明提出一种基于卷积神经网络通道解耦的网络轻量化方法，在卷积网络的基础上加入门阈值，并改善其结构，大幅度减少了模型的存储和计算开支。

为实现上述目的，本发明提供了一种基于卷积神经网络通道解耦的网络轻量化方法，包括如下步骤：

对数据集中的图像进行预处理；

构建第一卷积神经网络模型和第二卷积神经网络模型，其中，所述第二卷积神经网络模型的规模小于所述第一卷积神经网络模型；

基于所述第一卷积神经网络模型，构建自监督预训练模型，基于预处理后的所述图像对所述自监督预训练模型进行训练，将训练后的所述自监督预训练模型知识蒸馏到所述第二卷积神经网络模型中，获得第三卷积神经网络模型；

在所述第三卷积神经网络模型的通道后面加入可训练参数门阈值进行通道解耦，判断通道重要性，完成网络的轻量化。

可选地，所述预处理包括：对所述图像进行增量处理，对增量后的所述图像进行归一化处理；

所述增量处理包括：随机裁剪、随机水平翻转、随机颜色属性变化、随机灰度变换和随机高斯滤波。

可选地，所述自监督预训练模型，基于在所述第一卷积神经网络模型后连接两层全连接层构成。

可选地，基于预处理后的所述图像对所述自监督预训练模型进行训练包括：

将预处理后的所述图像输入至所述自监督预训练模型中，获取两组输出向量；

通过InfoNCE损失函数对两组所述输出向量进行处理，将相同图像得到的输出向量距离拉近，不同图像得到的输出向量距离拉远。

可选地，将训练后的所述自监督预训练模型知识蒸馏到所述第二卷积神经网络模型中包括：

将所述自监督预训练模型作为第一教师网络模型，将所述第二卷积神经网络模型作为第一学生网络模型；

构建第一预设数值长度的第一队列，将所述第一预设数值的预处理后的所述图像输入至所述第一教师网络模型中，并将获得的输出向量加入到所述第一队列中，获得第一存储体；

将所述第一教师网络模型的梯度固定，所述第一学生网络模型的梯度打开，将预处理后的所述图像输入至所述第一教师网络模型和第一学生网络模型中，将所述第一教师网络模型和第一学生网络模型的输出向量依次与所述第一存储体进行内积，并分别进行SoftMax，最终得到的两组向量分别表示所述第一教师网络模型、所述第一学生网络模型与所述第一存储体的相似程度；

将两组向量的相似程度进行交叉熵损失函数处理，使两组向量的相似程度最近，完成所述知识蒸馏到所述第二卷积神经网络模型。

可选地，对所述第三卷积神经网络模型的通道后面加入可训练参数门阈值进行通道解耦包括：

将所述第三卷积神经网络模型作为第二教师网络模型，在所述第三卷积神经网络模型的每个通道后加入一个可训练参数门阈值，将加入所述可训练参数门阈值的第三卷积神经网络模作为第二学生网络模型；

将预处理后的所述图像输入至所述第二教师网络模型和所述第二学生网络模型，获取所述图像的门阀值，基于所述门阀值获得所述通道重要性。

可选地，判断所述通道重要性包括：

对每类图像的所述门阀值进行并集处理，获取每类图像所对应通道的门阀值，对所述第二学生网络模型中全部通道的门阀值进行排序，获得每类图像在所述第二学生网络模型中的第一通道重要性排名；

对每个通道不同类图像的所述第一通道重要性排名进行累加，并对累加后的所有通道的重要性排名再次排序，得到所述第二学生网络模型中第二通道重要性排名；

基于所述第二通道重要性排名，将所述第二学生网络模型中不重要通道的参数进行去除，完成所述通道的重要性的判断。

可选地，将预处理后的所述图像输入至所述第二教师网络模型和所述第二学生网络模型前还包括：

构建第二预设数值长度的第二队列，将所述第二预设数值的预处理后的所述图像输入至所述第二教师网络模型中，并将获得的输出向量加入到所述第二队列中，获得第二存储体；

在交叉熵的基础上加入L1损失函数构建损失函数，将预处理后的所述图像输入至所述第二教师网络模型和所述第二学生网络模型，经过L2-Norm处理后，分别比较两组输出向量与所述第二存储体的相似程度，将两组相似程度进行所述损失函数处理，将所述第二教师网络模型知识蒸馏到所述第二学生网络模型中。

与现有技术相比，本发明具有如下优点和技术效果：

本发明通过自监督知识蒸馏，将大模型的知识迁移到小模型上，实现第一次的网络轻量化；通道门阈值机制实现的通道重要性分析，实现的网络进一步的轻量化；大幅度减少了模型的存储和计算开支；在解决自监督学习模型轻量化的同时，利用自监督学习的表征能力可以实现自网络分类、神经网络剪枝等多种功能。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例的网络轻量化方法流程示意图；

图2为本发明实施例的基于自监督对比学习模型预训练的示意图；

图3为本发明实施例的基于自监督知识蒸馏实现模型压缩的示意图；

图4为本发明实施例的基于通道解耦实现自监督网络模型通道重要性分离示意图；

图5为本发明实施例的门阈值结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例

本实施例提出一种基于卷积神经网络通道解耦的网络轻量化方法，包括：

对数据集中的图像进行预处理；

进一步地，预处理包括：对图像进行增量处理，对增量后的图像进行归一化处理；增量处理包括：随机裁剪、随机水平翻转、随机颜色属性变化、随机灰度变换和随机高斯滤波。

构建第一卷积神经网络模型和第二卷积神经网络模型，其中，第二卷积神经网络模型的规模小于第一卷积神经网络模型；

基于第一卷积神经网络模型，构建自监督预训练模型，基于预处理后的图像对自监督预训练模型进行训练，将训练后的自监督预训练模型中的内容知识蒸馏到第二卷积神经网络模型中，获得第三卷积神经网络模型；

进一步地，自监督预训练模型为：在第一卷积神经网络模型后连接两层全连接层构成。

进一步地，基于预处理后的图像对自监督预训练模型进行训练包括：

将预处理后的图像输入至自监督预训练模型中，获取两组输出向量；通过InfoNCE损失函数对两组输出向量进行处理，将相同图像得到的输出向量距离拉近，不同图像得到的输出向量距离拉远。

进一步地，将训练后的自监督预训练模型中的内容知识蒸馏到第二卷积神经网络模型中包括：

将自监督预训练模型作为第一教师网络模型，将第二卷积神经网络模型作为第一学生网络模型；

构建第一预设数值长度的第一队列，将第一预设数值的预处理后的图像输入至第一教师网络模型中，并将获得的输出向量加入到第一队列中，获得第一存储体；

将第一教师网络模型的梯度固定，第一学生网络模型的梯度打开，将预处理后的图像输入至第一教师网络模型和第一学生网络模型中，将第一教师网络模型和第一学生网络模型的输出向量依次与第一存储体进行内积，并分别进行SoftMax，最终得到的两组向量分别表示第一教师网络模型、第一学生网络模型与第一存储体的相似程度；

将两组向量的相似程度进行交叉熵损失函数处理，使两组向量的相似程度最近，完成知识蒸馏到第二卷积神经网络模型。

其中，还将第一队列中的向量移除，将使用过的预设数值的数据加入到第一队列中。使队列保持在一定的长度并且保证队列的不断的更新，用来满足模型反向传播时更好的梯度变化。

在第三卷积神经网络模型的通道后面加入可训练参数门阈值进行通道解耦，判断通道重要性，完成网络的轻量化。

进一步地，对第三卷积神经网络模型的通道后面加入可训练参数门阈值进行通道解耦包括：

将第三卷积神经网络模型作为第二教师网络模型，在第三卷积神经网络模型的每个通道后加入一个可训练参数门阈值，将加入可训练参数门阈值的第三卷积神经网络模型作为第二学生网络模型；

将预处理后的图像输入至第二教师网络模型和第二学生网络模型，获取图像的门阀值，基于门阀值获得通道的重要性。

进一步地，判断所述通道重要性包括：

对每个通道不同类图像的所述第一通道重要性排名进行累加，并对累加后的所有通道重要性排名再次排序，得到所述第二学生网络模型中第二通道重要性排名；

基于第二通道重要性排名，将第二学生网络模型中不重要通道的参数进行去除，完成所述通道的重要性的判断。通道重要性根据门阈值的权重大小进行判定，即权重越大重要程度越高，反之权重越小重要程度越小，权重为0时认为该通道没有作用，可直接省去。

进一步地，将预处理后的图像输入至第二教师网络模型和第二学生网络模型前还包括：

构建第二预设数值长度的第二队列，将第二预设数值的预处理后的图像输入至第二教师网络模型中，并将获得的输出向量加入到第二队列中，获得第二存储体；

在交叉熵的基础上加入L1损失函数构建损失函数，将预处理后的所述图像输入至所述第二教师网络模型和所述第二学生网络模型，经过L2-Norm处理后，分别比较两组输出向量与所述第二存储体的相似程度，将两组相似程度进行所述损失函数处理，将所述第二教师网络模型知识蒸馏到所述第二学生网络模型中，其中在交叉熵损失函数的基础上加入L1损失，用来对第二学生网络模型中的门阈值进行稀疏化处理。

具体地，本实施例提供的一种基于卷积神经网络通道解耦的网络轻量化方法，其详细步骤如图1所示：

S1.对数据集进行预处理，获得不同图像增强策略下的新数据；

其中，在S1中，对数据集进行预处理，具体包括：

将数据集中的图片顺序进行打乱，将其大小调整为256×256；随机裁剪为84×84，规模参数大小为(0.1,1)；随机水平翻转，翻转概率为0.5；随机颜色属性变化，默认亮度0.4，对比度0.4，饱和度0.4，色调0.1，发生概率为0.8；随机灰度变换，变换概率为0.2；随机高斯滤波，高斯核长宽为3，高斯核标准偏差为0.1，2.0，发生概率为0.5；

对增量后的图像进行归一化处理，获得神经网络输入前的预处理图像。

本实施例以公共数据集CIFAR-10，CIFAR-100，ImageNet为研究对象，图像进行预处理。

S2.将增强后的图像批量输入到卷积神经网络当中进行自监督对比学习训练，得到自监督预训练模型；

其中，获取自监督对比学习预训练模型，如图2所示，具体包括：

选取一个规模较大的卷积神经网络模型(Resnet-50)作为预训练模型的骨干，并在骨干网络后加入两层全连接层，第一层输出维度为2048，第二层输出维度设置为256；将每批待输入的图片进行两次随机预处理，输入到网络当中，得到两组256维向量；通过InfoNCE损失函数使得相同图片得到的输出向量距离拉近，不同图像得到的向量距离拉远，具体公式如下：

其中，z_i和z_j为某个图像的两张不同数据增强后的输出，即为正样本；

为指示函数，仅当k≠i时，指示其结果为1；z_k表示同批次中不同图像增强后的输出，即为负样本；sim表示两向量间的内积；τ表示温度系数，用于控制正、负样本在损失函数中的权重比例。

S3.将自监督预训练模型学习到的内容知识蒸馏到小规模的卷积神经网络中；

其中，自监督预训练模型的训练，如图3所示，具体包括：

将S3中得到的预训练模型作为教师网络，选取一个规模较小的网络(VGG-16)作为学生网络，因输出维度不一致，所以在学生网络后加入一层全连接层，使输出维度保持在2048维；

构建一个长为2048的队列，选取2048个数据输入到教师网络中，将得到的输出向量加入到该队列当中，作为原始的存储体；

将教师网络梯度固定，学生网络梯度打开，依次将数据输入到教师、学生网络当中；将教师、学生网络得到的输出依次与队列进行内积，并分别进行SoftMax，得到的两组向量分别表示教师、学生网络与存储体的相似程度；

将两组相似程度经过交叉熵损失函数，使学生网络和教师网络与存储体的相似程度尽可能接近；

将使用过的教师网络数据加入到队列当中，旧的向量移除；

得到的学生网络即为新的预训练模型，同时也是第一次实现了轻量化的过程。

S4.将新卷积神经网络每个通道后加入可训练参数门阈值进行通道解耦，获得其不同通道的重要性程度；

其中，门阈值进行通道解耦，如图4所示，具体包括：

新模型固定所有参数权重，将其作为教师网络，新模型每个通道后加入一个可训练参数并称其为门阈值(Gate)，初始值为1，并固定其余参数的梯度，作为学生网络；

同S3队列方法相同，找一组数据经过教师网络得到一组原始的存储体，并在之后的训练中不断更新；

构建一个交叉熵损失函数，将图片分别输入到教师、学生网络,经过L2-Norm后，比较其输出与存储体队列的相似程度，并在损失函数中加入L1损失，使学生网络中的门阈值不断稀疏化；

每单张图片经过预处理后分别进入教师、学生网络，反向传播30次，得到该图片的门阈值，如图5所示，该参数值越大表示该通道重要性程度越高，反之，参数权重越小表示该通道重要程度低，当权重变为0时，表示该通道不起任何作用。

S5.将每类的重要性通道进行模糊并集操作，作为该类的重要通道的判定；

其中，将每类的重要性通道进行模糊并集操作，具体包括：

每类图片的门阈值进行并集操作，即对同类图片的每个通道求均值，依次对所有通道的门阈值进行大小排序，得到该类图片在神经网络中的通道重要性排名。

S6.将多类重要性通道进行判定，依次裁剪掉不重要的通道，实现网络的轻量化。

其中，联合判定通道重要性程度并剪枝，具体包括：

对每个通道不同类的排名进行累加，并对累加后的所有通道排名再次排序，得到神经网络中通道重要性的排名，依次剪去不重要通道的参数，当准确率发生变化时，停止操作。其中，对每个通道不同类的排名进行累加为对所有类的通道进行重要性排名，即对于每一个通道，联合多类别的重要性进行累加。

在具体应用当中，若神经网络采用自监督进行训练并且需要对网络进行稀疏化处理时，可以采用本发明的网络轻量化方法。例如需要使用到ImageNet数据集对模型进行预训练，可以构建第一神经网络，将第一神经网络知识蒸馏到第二神经网络小模型中，最后通过自监督知识蒸馏的方式获得第三神经网络，使模型结构进一步的稀疏化，从而减轻预训练模型的参数量和复杂度，加速下游任务的训练速度。同样的，使用的下游若无采用自监督训练的结构，也可以采用该方法使模型轻量化，方便在移动端等算力、存储能力较低的设备中进行部署。需要注意的，该方法在多分类、子任务分类等领域效果明显。一般的，网络结构越简单，可稀疏能力越强，即若使用规模结构较为复杂的网络、存在较多的跳连结构的网络，存在稀疏化效果下降、调参困难的可能。

以上，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于卷积神经网络通道解耦的网络轻量化方法，其特征在于，包括：

对数据集中的图像进行预处理；

构建第一卷积神经网络模型和第二卷积神经网络模型，其中，所述第二卷积神经网络模型的参数量及复杂度小于所述第一卷积神经网络模型；

2.根据权利要求1所述的基于卷积神经网络通道解耦的网络轻量化方法，其特征在于，所述预处理包括：对所述图像进行增量处理，对增量后的所述图像进行归一化处理；

3.根据权利要求1所述的基于卷积神经网络通道解耦的网络轻量化方法，其特征在于，所述自监督预训练模型，基于在所述第一卷积神经网络模型后连接两层全连接层构成。

4.根据权利要求3所述的基于卷积神经网络通道解耦的网络轻量化方法，其特征在于，基于预处理后的所述图像对所述自监督预训练模型进行训练包括：

5.根据权利要求1所述的基于卷积神经网络通道解耦的网络轻量化方法，其特征在于，将训练后的所述自监督预训练模型知识蒸馏到所述第二卷积神经网络模型中包括：

将两组向量的相似程度进行交叉熵损失函数处理，使两组向量的相似程度最近，完成知识蒸馏到所述第二卷积神经网络模型。

6.根据权利要求1所述的基于卷积神经网络通道解耦的网络轻量化方法，其特征在于，对所述第三卷积神经网络模型的通道后面加入可训练参数门阈值进行通道解耦包括：

7.根据权利要求6所述的基于卷积神经网络通道解耦的网络轻量化方法，其特征在于，判断所述通道重要性包括：

基于所述第二通道重要性排名，将排名中小于预设重要性阈值的通道进行去除，完成所述通道的重要性的判断。

8.根据权利要求6所述的基于卷积神经网络通道解耦的网络轻量化方法，其特征在于，将预处理后的所述图像输入至所述第二教师网络模型和所述第二学生网络模型前还包括：