CN115511059A - 一种基于卷积神经网络通道解耦的网络轻量化方法 - Google Patents
一种基于卷积神经网络通道解耦的网络轻量化方法 Download PDFInfo
- Publication number
- CN115511059A CN115511059A CN202211246878.4A CN202211246878A CN115511059A CN 115511059 A CN115511059 A CN 115511059A CN 202211246878 A CN202211246878 A CN 202211246878A CN 115511059 A CN115511059 A CN 115511059A
- Authority
- CN
- China
- Prior art keywords
- network model
- convolutional neural
- neural network
- channel
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000013140 knowledge distillation Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 22
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 239000013585 weight reducing agent Substances 0.000 claims 7
- 238000004364 calculation method Methods 0.000 abstract description 3
- 230000006835 compression Effects 0.000 abstract description 3
- 238000007906 compression Methods 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000013138 pruning Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于卷积神经网络通道解耦的网络轻量化方法,包括:对数据集中的图像进行预处理;构建第一卷积神经网络模型和第二卷积神经网络模型;基于第一卷积神经网络模型,构建自监督预训练模型,基于预处理后的图像对自监督预训练模型进行训练,将训练后的自监督预训练模型知识蒸馏到第二卷积神经网络模型中,获得第三卷积神经网络模型;在第三卷积神经网络模型的通道后面加入可训练参数门阈值进行通道解耦,判断通道重要性,完成网络的轻量化。本发明在卷积网络中加入通道门阈值,在知识蒸馏实现模型压缩的基础上,进一步使网络轻量化,从而大幅度减少了模型的存储和计算开支。
Description
技术领域
本发明属于深度学习技术领域,尤其涉及一种基于卷积神经网络通道解耦的网络轻量化方法。
背景技术
近些年,越来越多的模型帮助人们完成了各式各样的任务,但随着模型规模的增大,终端模型部署的难度也直线增长,模型压缩,网络轻量化即用于解决这一问题,从而给移动端部署减轻压力,减少其对计算机量和存储量的要求。
在监督学习的领域,剪枝、量化、知识蒸馏,各种方法层出不穷。然而,在自监督学习方面,模型的轻量化仍然是一大难题。近两年,针对自监督模型的轻量化方法发展缓慢,不仅因为其不能使用标签而带来的限制条件,而且比监督学习更加庞大的模型规模更是难题。
发明内容
为解决上述技术问题,本发明提出一种基于卷积神经网络通道解耦的网络轻量化方法,在卷积网络的基础上加入门阈值,并改善其结构,大幅度减少了模型的存储和计算开支。
为实现上述目的,本发明提供了一种基于卷积神经网络通道解耦的网络轻量化方法,包括如下步骤:
对数据集中的图像进行预处理;
构建第一卷积神经网络模型和第二卷积神经网络模型,其中,所述第二卷积神经网络模型的规模小于所述第一卷积神经网络模型;
基于所述第一卷积神经网络模型,构建自监督预训练模型,基于预处理后的所述图像对所述自监督预训练模型进行训练,将训练后的所述自监督预训练模型知识蒸馏到所述第二卷积神经网络模型中,获得第三卷积神经网络模型;
在所述第三卷积神经网络模型的通道后面加入可训练参数门阈值进行通道解耦,判断通道重要性,完成网络的轻量化。
可选地,所述预处理包括:对所述图像进行增量处理,对增量后的所述图像进行归一化处理;
所述增量处理包括:随机裁剪、随机水平翻转、随机颜色属性变化、随机灰度变换和随机高斯滤波。
可选地,所述自监督预训练模型,基于在所述第一卷积神经网络模型后连接两层全连接层构成。
可选地,基于预处理后的所述图像对所述自监督预训练模型进行训练包括:
将预处理后的所述图像输入至所述自监督预训练模型中,获取两组输出向量;
通过InfoNCE损失函数对两组所述输出向量进行处理,将相同图像得到的输出向量距离拉近,不同图像得到的输出向量距离拉远。
可选地,将训练后的所述自监督预训练模型知识蒸馏到所述第二卷积神经网络模型中包括:
将所述自监督预训练模型作为第一教师网络模型,将所述第二卷积神经网络模型作为第一学生网络模型;
构建第一预设数值长度的第一队列,将所述第一预设数值的预处理后的所述图像输入至所述第一教师网络模型中,并将获得的输出向量加入到所述第一队列中,获得第一存储体;
将所述第一教师网络模型的梯度固定,所述第一学生网络模型的梯度打开,将预处理后的所述图像输入至所述第一教师网络模型和第一学生网络模型中,将所述第一教师网络模型和第一学生网络模型的输出向量依次与所述第一存储体进行内积,并分别进行SoftMax,最终得到的两组向量分别表示所述第一教师网络模型、所述第一学生网络模型与所述第一存储体的相似程度;
将两组向量的相似程度进行交叉熵损失函数处理,使两组向量的相似程度最近,完成所述知识蒸馏到所述第二卷积神经网络模型。
可选地,对所述第三卷积神经网络模型的通道后面加入可训练参数门阈值进行通道解耦包括:
将所述第三卷积神经网络模型作为第二教师网络模型,在所述第三卷积神经网络模型的每个通道后加入一个可训练参数门阈值,将加入所述可训练参数门阈值的第三卷积神经网络模作为第二学生网络模型;
将预处理后的所述图像输入至所述第二教师网络模型和所述第二学生网络模型,获取所述图像的门阀值,基于所述门阀值获得所述通道重要性。
可选地,判断所述通道重要性包括:
对每类图像的所述门阀值进行并集处理,获取每类图像所对应通道的门阀值,对所述第二学生网络模型中全部通道的门阀值进行排序,获得每类图像在所述第二学生网络模型中的第一通道重要性排名;
对每个通道不同类图像的所述第一通道重要性排名进行累加,并对累加后的所有通道的重要性排名再次排序,得到所述第二学生网络模型中第二通道重要性排名;
基于所述第二通道重要性排名,将所述第二学生网络模型中不重要通道的参数进行去除,完成所述通道的重要性的判断。
可选地,将预处理后的所述图像输入至所述第二教师网络模型和所述第二学生网络模型前还包括:
构建第二预设数值长度的第二队列,将所述第二预设数值的预处理后的所述图像输入至所述第二教师网络模型中,并将获得的输出向量加入到所述第二队列中,获得第二存储体;
在交叉熵的基础上加入L1损失函数构建损失函数,将预处理后的所述图像输入至所述第二教师网络模型和所述第二学生网络模型,经过L2-Norm处理后,分别比较两组输出向量与所述第二存储体的相似程度,将两组相似程度进行所述损失函数处理,将所述第二教师网络模型知识蒸馏到所述第二学生网络模型中。
与现有技术相比,本发明具有如下优点和技术效果:
本发明通过自监督知识蒸馏,将大模型的知识迁移到小模型上,实现第一次的网络轻量化;通道门阈值机制实现的通道重要性分析,实现的网络进一步的轻量化;大幅度减少了模型的存储和计算开支;在解决自监督学习模型轻量化的同时,利用自监督学习的表征能力可以实现自网络分类、神经网络剪枝等多种功能。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例的网络轻量化方法流程示意图;
图2为本发明实施例的基于自监督对比学习模型预训练的示意图;
图3为本发明实施例的基于自监督知识蒸馏实现模型压缩的示意图;
图4为本发明实施例的基于通道解耦实现自监督网络模型通道重要性分离示意图;
图5为本发明实施例的门阈值结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例
本实施例提出一种基于卷积神经网络通道解耦的网络轻量化方法,包括:
对数据集中的图像进行预处理;
进一步地,预处理包括:对图像进行增量处理,对增量后的图像进行归一化处理;增量处理包括:随机裁剪、随机水平翻转、随机颜色属性变化、随机灰度变换和随机高斯滤波。
构建第一卷积神经网络模型和第二卷积神经网络模型,其中,第二卷积神经网络模型的规模小于第一卷积神经网络模型;
基于第一卷积神经网络模型,构建自监督预训练模型,基于预处理后的图像对自监督预训练模型进行训练,将训练后的自监督预训练模型中的内容知识蒸馏到第二卷积神经网络模型中,获得第三卷积神经网络模型;
进一步地,自监督预训练模型为:在第一卷积神经网络模型后连接两层全连接层构成。
进一步地,基于预处理后的图像对自监督预训练模型进行训练包括:
将预处理后的图像输入至自监督预训练模型中,获取两组输出向量;通过InfoNCE损失函数对两组输出向量进行处理,将相同图像得到的输出向量距离拉近,不同图像得到的输出向量距离拉远。
进一步地,将训练后的自监督预训练模型中的内容知识蒸馏到第二卷积神经网络模型中包括:
将自监督预训练模型作为第一教师网络模型,将第二卷积神经网络模型作为第一学生网络模型;
构建第一预设数值长度的第一队列,将第一预设数值的预处理后的图像输入至第一教师网络模型中,并将获得的输出向量加入到第一队列中,获得第一存储体;
将第一教师网络模型的梯度固定,第一学生网络模型的梯度打开,将预处理后的图像输入至第一教师网络模型和第一学生网络模型中,将第一教师网络模型和第一学生网络模型的输出向量依次与第一存储体进行内积,并分别进行SoftMax,最终得到的两组向量分别表示第一教师网络模型、第一学生网络模型与第一存储体的相似程度;
将两组向量的相似程度进行交叉熵损失函数处理,使两组向量的相似程度最近,完成知识蒸馏到第二卷积神经网络模型。
其中,还将第一队列中的向量移除,将使用过的预设数值的数据加入到第一队列中。使队列保持在一定的长度并且保证队列的不断的更新,用来满足模型反向传播时更好的梯度变化。
在第三卷积神经网络模型的通道后面加入可训练参数门阈值进行通道解耦,判断通道重要性,完成网络的轻量化。
进一步地,对第三卷积神经网络模型的通道后面加入可训练参数门阈值进行通道解耦包括:
将第三卷积神经网络模型作为第二教师网络模型,在第三卷积神经网络模型的每个通道后加入一个可训练参数门阈值,将加入可训练参数门阈值的第三卷积神经网络模型作为第二学生网络模型;
将预处理后的图像输入至第二教师网络模型和第二学生网络模型,获取图像的门阀值,基于门阀值获得通道的重要性。
进一步地,判断所述通道重要性包括:
对每类图像的所述门阀值进行并集处理,获取每类图像所对应通道的门阀值,对所述第二学生网络模型中全部通道的门阀值进行排序,获得每类图像在所述第二学生网络模型中的第一通道重要性排名;
对每个通道不同类图像的所述第一通道重要性排名进行累加,并对累加后的所有通道重要性排名再次排序,得到所述第二学生网络模型中第二通道重要性排名;
基于第二通道重要性排名,将第二学生网络模型中不重要通道的参数进行去除,完成所述通道的重要性的判断。通道重要性根据门阈值的权重大小进行判定,即权重越大重要程度越高,反之权重越小重要程度越小,权重为0时认为该通道没有作用,可直接省去。
进一步地,将预处理后的图像输入至第二教师网络模型和第二学生网络模型前还包括:
构建第二预设数值长度的第二队列,将第二预设数值的预处理后的图像输入至第二教师网络模型中,并将获得的输出向量加入到第二队列中,获得第二存储体;
在交叉熵的基础上加入L1损失函数构建损失函数,将预处理后的所述图像输入至所述第二教师网络模型和所述第二学生网络模型,经过L2-Norm处理后,分别比较两组输出向量与所述第二存储体的相似程度,将两组相似程度进行所述损失函数处理,将所述第二教师网络模型知识蒸馏到所述第二学生网络模型中,其中在交叉熵损失函数的基础上加入L1损失,用来对第二学生网络模型中的门阈值进行稀疏化处理。
具体地,本实施例提供的一种基于卷积神经网络通道解耦的网络轻量化方法,其详细步骤如图1所示:
S1.对数据集进行预处理,获得不同图像增强策略下的新数据;
其中,在S1中,对数据集进行预处理,具体包括:
将数据集中的图片顺序进行打乱,将其大小调整为256×256;随机裁剪为84×84,规模参数大小为(0.1,1);随机水平翻转,翻转概率为0.5;随机颜色属性变化,默认亮度0.4,对比度0.4,饱和度0.4,色调0.1,发生概率为0.8;随机灰度变换,变换概率为0.2;随机高斯滤波,高斯核长宽为3,高斯核标准偏差为0.1,2.0,发生概率为0.5;
对增量后的图像进行归一化处理,获得神经网络输入前的预处理图像。
本实施例以公共数据集CIFAR-10,CIFAR-100,ImageNet为研究对象,图像进行预处理。
S2.将增强后的图像批量输入到卷积神经网络当中进行自监督对比学习训练,得到自监督预训练模型;
其中,获取自监督对比学习预训练模型,如图2所示,具体包括:
选取一个规模较大的卷积神经网络模型(Resnet-50)作为预训练模型的骨干,并在骨干网络后加入两层全连接层,第一层输出维度为2048,第二层输出维度设置为256;将每批待输入的图片进行两次随机预处理,输入到网络当中,得到两组256维向量;通过InfoNCE损失函数使得相同图片得到的输出向量距离拉近,不同图像得到的向量距离拉远,具体公式如下:
其中,zi和zj为某个图像的两张不同数据增强后的输出,即为正样本;为指示函数,仅当k≠i时,指示其结果为1;zk表示同批次中不同图像增强后的输出,即为负样本;sim表示两向量间的内积;τ表示温度系数,用于控制正、负样本在损失函数中的权重比例。
S3.将自监督预训练模型学习到的内容知识蒸馏到小规模的卷积神经网络中;
其中,自监督预训练模型的训练,如图3所示,具体包括:
将S3中得到的预训练模型作为教师网络,选取一个规模较小的网络(VGG-16)作为学生网络,因输出维度不一致,所以在学生网络后加入一层全连接层,使输出维度保持在2048维;
构建一个长为2048的队列,选取2048个数据输入到教师网络中,将得到的输出向量加入到该队列当中,作为原始的存储体;
将教师网络梯度固定,学生网络梯度打开,依次将数据输入到教师、学生网络当中;将教师、学生网络得到的输出依次与队列进行内积,并分别进行SoftMax,得到的两组向量分别表示教师、学生网络与存储体的相似程度;
将两组相似程度经过交叉熵损失函数,使学生网络和教师网络与存储体的相似程度尽可能接近;
将使用过的教师网络数据加入到队列当中,旧的向量移除;
得到的学生网络即为新的预训练模型,同时也是第一次实现了轻量化的过程。
S4.将新卷积神经网络每个通道后加入可训练参数门阈值进行通道解耦,获得其不同通道的重要性程度;
其中,门阈值进行通道解耦,如图4所示,具体包括:
新模型固定所有参数权重,将其作为教师网络,新模型每个通道后加入一个可训练参数并称其为门阈值(Gate),初始值为1,并固定其余参数的梯度,作为学生网络;
同S3队列方法相同,找一组数据经过教师网络得到一组原始的存储体,并在之后的训练中不断更新;
构建一个交叉熵损失函数,将图片分别输入到教师、学生网络,经过L2-Norm后,比较其输出与存储体队列的相似程度,并在损失函数中加入L1损失,使学生网络中的门阈值不断稀疏化;
每单张图片经过预处理后分别进入教师、学生网络,反向传播30次,得到该图片的门阈值,如图5所示,该参数值越大表示该通道重要性程度越高,反之,参数权重越小表示该通道重要程度低,当权重变为0时,表示该通道不起任何作用。
S5.将每类的重要性通道进行模糊并集操作,作为该类的重要通道的判定;
其中,将每类的重要性通道进行模糊并集操作,具体包括:
每类图片的门阈值进行并集操作,即对同类图片的每个通道求均值,依次对所有通道的门阈值进行大小排序,得到该类图片在神经网络中的通道重要性排名。
S6.将多类重要性通道进行判定,依次裁剪掉不重要的通道,实现网络的轻量化。
其中,联合判定通道重要性程度并剪枝,具体包括:
对每个通道不同类的排名进行累加,并对累加后的所有通道排名再次排序,得到神经网络中通道重要性的排名,依次剪去不重要通道的参数,当准确率发生变化时,停止操作。其中,对每个通道不同类的排名进行累加为对所有类的通道进行重要性排名,即对于每一个通道,联合多类别的重要性进行累加。
在具体应用当中,若神经网络采用自监督进行训练并且需要对网络进行稀疏化处理时,可以采用本发明的网络轻量化方法。例如需要使用到ImageNet数据集对模型进行预训练,可以构建第一神经网络,将第一神经网络知识蒸馏到第二神经网络小模型中,最后通过自监督知识蒸馏的方式获得第三神经网络,使模型结构进一步的稀疏化,从而减轻预训练模型的参数量和复杂度,加速下游任务的训练速度。同样的,使用的下游若无采用自监督训练的结构,也可以采用该方法使模型轻量化,方便在移动端等算力、存储能力较低的设备中进行部署。需要注意的,该方法在多分类、子任务分类等领域效果明显。一般的,网络结构越简单,可稀疏能力越强,即若使用规模结构较为复杂的网络、存在较多的跳连结构的网络,存在稀疏化效果下降、调参困难的可能。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (8)
1.一种基于卷积神经网络通道解耦的网络轻量化方法,其特征在于,包括:
对数据集中的图像进行预处理;
构建第一卷积神经网络模型和第二卷积神经网络模型,其中,所述第二卷积神经网络模型的参数量及复杂度小于所述第一卷积神经网络模型;
基于所述第一卷积神经网络模型,构建自监督预训练模型,基于预处理后的所述图像对所述自监督预训练模型进行训练,将训练后的所述自监督预训练模型知识蒸馏到所述第二卷积神经网络模型中,获得第三卷积神经网络模型;
在所述第三卷积神经网络模型的通道后面加入可训练参数门阈值进行通道解耦,判断通道重要性,完成网络的轻量化。
2.根据权利要求1所述的基于卷积神经网络通道解耦的网络轻量化方法,其特征在于,所述预处理包括:对所述图像进行增量处理,对增量后的所述图像进行归一化处理;
所述增量处理包括:随机裁剪、随机水平翻转、随机颜色属性变化、随机灰度变换和随机高斯滤波。
3.根据权利要求1所述的基于卷积神经网络通道解耦的网络轻量化方法,其特征在于,所述自监督预训练模型,基于在所述第一卷积神经网络模型后连接两层全连接层构成。
4.根据权利要求3所述的基于卷积神经网络通道解耦的网络轻量化方法,其特征在于,基于预处理后的所述图像对所述自监督预训练模型进行训练包括:
将预处理后的所述图像输入至所述自监督预训练模型中,获取两组输出向量;
通过InfoNCE损失函数对两组所述输出向量进行处理,将相同图像得到的输出向量距离拉近,不同图像得到的输出向量距离拉远。
5.根据权利要求1所述的基于卷积神经网络通道解耦的网络轻量化方法,其特征在于,将训练后的所述自监督预训练模型知识蒸馏到所述第二卷积神经网络模型中包括:
将所述自监督预训练模型作为第一教师网络模型,将所述第二卷积神经网络模型作为第一学生网络模型;
构建第一预设数值长度的第一队列,将所述第一预设数值的预处理后的所述图像输入至所述第一教师网络模型中,并将获得的输出向量加入到所述第一队列中,获得第一存储体;
将所述第一教师网络模型的梯度固定,所述第一学生网络模型的梯度打开,将预处理后的所述图像输入至所述第一教师网络模型和第一学生网络模型中,将所述第一教师网络模型和第一学生网络模型的输出向量依次与所述第一存储体进行内积,并分别进行SoftMax,最终得到的两组向量分别表示所述第一教师网络模型、所述第一学生网络模型与所述第一存储体的相似程度;
将两组向量的相似程度进行交叉熵损失函数处理,使两组向量的相似程度最近,完成知识蒸馏到所述第二卷积神经网络模型。
6.根据权利要求1所述的基于卷积神经网络通道解耦的网络轻量化方法,其特征在于,对所述第三卷积神经网络模型的通道后面加入可训练参数门阈值进行通道解耦包括:
将所述第三卷积神经网络模型作为第二教师网络模型,在所述第三卷积神经网络模型的每个通道后加入一个可训练参数门阈值,将加入所述可训练参数门阈值的第三卷积神经网络模作为第二学生网络模型;
将预处理后的所述图像输入至所述第二教师网络模型和所述第二学生网络模型,获取所述图像的门阀值,基于所述门阀值获得所述通道重要性。
7.根据权利要求6所述的基于卷积神经网络通道解耦的网络轻量化方法,其特征在于,判断所述通道重要性包括:
对每类图像的所述门阀值进行并集处理,获取每类图像所对应通道的门阀值,对所述第二学生网络模型中全部通道的门阀值进行排序,获得每类图像在所述第二学生网络模型中的第一通道重要性排名;
对每个通道不同类图像的所述第一通道重要性排名进行累加,并对累加后的所有通道的重要性排名再次排序,得到所述第二学生网络模型中第二通道重要性排名;
基于所述第二通道重要性排名,将排名中小于预设重要性阈值的通道进行去除,完成所述通道的重要性的判断。
8.根据权利要求6所述的基于卷积神经网络通道解耦的网络轻量化方法,其特征在于,将预处理后的所述图像输入至所述第二教师网络模型和所述第二学生网络模型前还包括:
构建第二预设数值长度的第二队列,将所述第二预设数值的预处理后的所述图像输入至所述第二教师网络模型中,并将获得的输出向量加入到所述第二队列中,获得第二存储体;
在交叉熵的基础上加入L1损失函数构建损失函数,将预处理后的所述图像输入至所述第二教师网络模型和所述第二学生网络模型,经过L2-Norm处理后,分别比较两组输出向量与所述第二存储体的相似程度,将两组相似程度进行所述损失函数处理,将所述第二教师网络模型知识蒸馏到所述第二学生网络模型中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211246878.4A CN115511059B (zh) | 2022-10-12 | 2022-10-12 | 一种基于卷积神经网络通道解耦的网络轻量化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211246878.4A CN115511059B (zh) | 2022-10-12 | 2022-10-12 | 一种基于卷积神经网络通道解耦的网络轻量化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115511059A true CN115511059A (zh) | 2022-12-23 |
CN115511059B CN115511059B (zh) | 2024-02-09 |
Family
ID=84510581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211246878.4A Active CN115511059B (zh) | 2022-10-12 | 2022-10-12 | 一种基于卷积神经网络通道解耦的网络轻量化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115511059B (zh) |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097178A (zh) * | 2019-05-15 | 2019-08-06 | 电科瑞达(成都)科技有限公司 | 一种基于熵注意的神经网络模型压缩与加速方法 |
CN110175628A (zh) * | 2019-04-25 | 2019-08-27 | 北京大学 | 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法 |
CN111291836A (zh) * | 2020-03-31 | 2020-06-16 | 中国科学院计算技术研究所 | 一种生成学生网络模型的方法 |
CN111985523A (zh) * | 2020-06-28 | 2020-11-24 | 合肥工业大学 | 基于知识蒸馏训练的2指数幂深度神经网络量化方法 |
CN112116030A (zh) * | 2020-10-13 | 2020-12-22 | 浙江大学 | 一种基于向量标准化和知识蒸馏的图像分类方法 |
WO2021023202A1 (zh) * | 2019-08-07 | 2021-02-11 | 交叉信息核心技术研究院(西安)有限公司 | 一种卷积神经网络的自蒸馏训练方法、设备和可伸缩动态预测方法 |
CN113159173A (zh) * | 2021-04-20 | 2021-07-23 | 北京邮电大学 | 一种结合剪枝与知识蒸馏的卷积神经网络模型压缩方法 |
US20210319266A1 (en) * | 2020-04-13 | 2021-10-14 | Google Llc | Systems and methods for contrastive learning of visual representations |
WO2021243473A1 (en) * | 2020-06-05 | 2021-12-09 | Huawei Technologies Co., Ltd. | Improved knowledge distillation by utilizing backward pass knowledge in neural networks |
US20210383238A1 (en) * | 2020-06-05 | 2021-12-09 | Aref JAFARI | Knowledge distillation by utilizing backward pass knowledge in neural networks |
US11200497B1 (en) * | 2021-03-16 | 2021-12-14 | Moffett Technologies Co., Limited | System and method for knowledge-preserving neural network pruning |
CN113947196A (zh) * | 2021-10-25 | 2022-01-18 | 中兴通讯股份有限公司 | 网络模型训练方法、装置和计算机可读存储介质 |
CN114049513A (zh) * | 2021-09-24 | 2022-02-15 | 中国科学院信息工程研究所 | 一种基于多学生讨论的知识蒸馏方法和系统 |
US20220067274A1 (en) * | 2020-09-02 | 2022-03-03 | Zhejiang Lab | Compression method and platform of pre-training language model based on knowledge distillation |
CN114169501A (zh) * | 2021-12-02 | 2022-03-11 | 深圳市华尊科技股份有限公司 | 神经网络压缩方法及相关设备 |
CN114548279A (zh) * | 2022-02-23 | 2022-05-27 | 浙江外国语学院 | 一种基于蒸馏网络的半监督图像分类方法 |
CN114626504A (zh) * | 2022-01-11 | 2022-06-14 | 南通大学 | 一种基于群组关系知识蒸馏的模型压缩方法 |
CN114677304A (zh) * | 2022-03-28 | 2022-06-28 | 东南大学 | 一种基于知识蒸馏和深度神经网络的图像去模糊算法 |
CN114972839A (zh) * | 2022-03-30 | 2022-08-30 | 天津大学 | 一种基于在线对比蒸馏网络的广义持续分类方法 |
-
2022
- 2022-10-12 CN CN202211246878.4A patent/CN115511059B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175628A (zh) * | 2019-04-25 | 2019-08-27 | 北京大学 | 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法 |
CN110097178A (zh) * | 2019-05-15 | 2019-08-06 | 电科瑞达(成都)科技有限公司 | 一种基于熵注意的神经网络模型压缩与加速方法 |
WO2021023202A1 (zh) * | 2019-08-07 | 2021-02-11 | 交叉信息核心技术研究院(西安)有限公司 | 一种卷积神经网络的自蒸馏训练方法、设备和可伸缩动态预测方法 |
CN111291836A (zh) * | 2020-03-31 | 2020-06-16 | 中国科学院计算技术研究所 | 一种生成学生网络模型的方法 |
US20210319266A1 (en) * | 2020-04-13 | 2021-10-14 | Google Llc | Systems and methods for contrastive learning of visual representations |
US20210383238A1 (en) * | 2020-06-05 | 2021-12-09 | Aref JAFARI | Knowledge distillation by utilizing backward pass knowledge in neural networks |
WO2021243473A1 (en) * | 2020-06-05 | 2021-12-09 | Huawei Technologies Co., Ltd. | Improved knowledge distillation by utilizing backward pass knowledge in neural networks |
CN111985523A (zh) * | 2020-06-28 | 2020-11-24 | 合肥工业大学 | 基于知识蒸馏训练的2指数幂深度神经网络量化方法 |
US20220067274A1 (en) * | 2020-09-02 | 2022-03-03 | Zhejiang Lab | Compression method and platform of pre-training language model based on knowledge distillation |
CN112116030A (zh) * | 2020-10-13 | 2020-12-22 | 浙江大学 | 一种基于向量标准化和知识蒸馏的图像分类方法 |
US11200497B1 (en) * | 2021-03-16 | 2021-12-14 | Moffett Technologies Co., Limited | System and method for knowledge-preserving neural network pruning |
CN113159173A (zh) * | 2021-04-20 | 2021-07-23 | 北京邮电大学 | 一种结合剪枝与知识蒸馏的卷积神经网络模型压缩方法 |
CN114049513A (zh) * | 2021-09-24 | 2022-02-15 | 中国科学院信息工程研究所 | 一种基于多学生讨论的知识蒸馏方法和系统 |
CN113947196A (zh) * | 2021-10-25 | 2022-01-18 | 中兴通讯股份有限公司 | 网络模型训练方法、装置和计算机可读存储介质 |
CN114169501A (zh) * | 2021-12-02 | 2022-03-11 | 深圳市华尊科技股份有限公司 | 神经网络压缩方法及相关设备 |
CN114626504A (zh) * | 2022-01-11 | 2022-06-14 | 南通大学 | 一种基于群组关系知识蒸馏的模型压缩方法 |
CN114548279A (zh) * | 2022-02-23 | 2022-05-27 | 浙江外国语学院 | 一种基于蒸馏网络的半监督图像分类方法 |
CN114677304A (zh) * | 2022-03-28 | 2022-06-28 | 东南大学 | 一种基于知识蒸馏和深度神经网络的图像去模糊算法 |
CN114972839A (zh) * | 2022-03-30 | 2022-08-30 | 天津大学 | 一种基于在线对比蒸馏网络的广义持续分类方法 |
Non-Patent Citations (2)
Title |
---|
赖叶静;郝珊锋;黄定江;: "深度神经网络模型压缩方法与进展", 华东师范大学学报(自然科学版), no. 05 * |
赵胜伟;葛仕明;叶奇挺;罗朝;李强;: "基于增强监督知识蒸馏的交通标识分类", 中国科技论文, no. 20 * |
Also Published As
Publication number | Publication date |
---|---|
CN115511059B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210042580A1 (en) | Model training method and apparatus for image recognition, network device, and storage medium | |
Zheng et al. | PAC-Bayesian framework based drop-path method for 2D discriminative convolutional network pruning | |
WO2020244261A1 (zh) | 高分辨率遥感图像的场景识别系统及模型生成方法 | |
CN109657584B (zh) | 辅助驾驶的改进LeNet-5融合网络交通标志识别方法 | |
US20190228268A1 (en) | Method and system for cell image segmentation using multi-stage convolutional neural networks | |
CN111882040B (zh) | 基于通道数量搜索的卷积神经网络压缩方法 | |
CN112613581B (zh) | 一种图像识别方法、系统、计算机设备和存储介质 | |
CN111339818B (zh) | 一种人脸多属性识别系统 | |
CN111931641B (zh) | 基于权重多样性正则化的行人重识别方法及其应用 | |
US20220319233A1 (en) | Expression recognition method and apparatus, electronic device, and storage medium | |
CN114898151A (zh) | 一种基于深度学习与支持向量机融合的图像分类方法 | |
CN110837570B (zh) | 对图像数据进行无偏见分类的方法 | |
CN111583031A (zh) | 一种基于集成学习的申请评分卡模型建立方法 | |
CN112381030A (zh) | 一种基于特征融合的卫星光学遥感图像目标检测方法 | |
Mamatkulovich | Lightweight residual layers based convolutional neural networks for traffic sign recognition | |
CN113420794A (zh) | 一种基于深度学习的二值化Faster R-CNN柑橘病虫害识别方法 | |
CN112883931A (zh) | 基于长短期记忆网络的实时真假运动判断方法 | |
CN115511059A (zh) | 一种基于卷积神经网络通道解耦的网络轻量化方法 | |
CN113378866B (zh) | 图像分类方法、系统、存储介质及电子设备 | |
CN112989955B (zh) | 基于空时双流异构嫁接卷积神经网络人体动作识别方法 | |
CN115439791A (zh) | 跨域视频动作识别方法、装置、设备和计算机可存储介质 | |
CN115546474A (zh) | 一种基于学习者集成策略的少样本语义分割方法 | |
Soujanya et al. | A CNN based approach for handwritten character identification of Telugu guninthalu using various optimizers | |
CN114936890A (zh) | 一种基于逆倾向加权方法的反事实公平的推荐方法 | |
Shah et al. | A multi-blocked image classifier for deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |