CN112906747A - 一种基于知识蒸馏的图像分类方法 - Google Patents

一种基于知识蒸馏的图像分类方法 Download PDF

Info

Publication number
CN112906747A
CN112906747A CN202110092971.3A CN202110092971A CN112906747A CN 112906747 A CN112906747 A CN 112906747A CN 202110092971 A CN202110092971 A CN 202110092971A CN 112906747 A CN112906747 A CN 112906747A
Authority
CN
China
Prior art keywords
network
output
loss
teacher
entropy loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110092971.3A
Other languages
English (en)
Inventor
杨新武
孙芃
斯迪文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110092971.3A priority Critical patent/CN112906747A/zh
Publication of CN112906747A publication Critical patent/CN112906747A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明公开一种基于知识蒸馏的图像分类方法,该方法采用知识蒸馏的方法训练得到轻量级的分支模型,在推断时只需要加载部分模型,提高运行时的速度。本发明通过这种训练和推断的方法,既降低了模型参数量,同时准确率不降低,推断时的运算量和参数量得到压缩,为实现一个高效的推理过程提供了更加精简的模型。

Description

一种基于知识蒸馏的图像分类方法
技术领域
本发明属于神经网络模型压缩领域。具体是在图像分类任务中,采用老师网络的监督学生网络所有分支的训练,并且学生网络最后一层的输出监督其余分支的训练,同时在分支结构中使用通道注意力机制selayer提高蒸馏效果的一种有效方法。
背景技术
在图像领域中,卷积神经网络占有很重要的地位。近年来的研究进展表明卷积神经网络的精度可以通过增加网络的深度和宽度来改善,但随着深度的增加,卷积神经网络效果变得越来越好的同时也让训练变得更加困难。卷积神经网络取得如此的成功,但是在实际应用中部署网络,尤其是在移动设备或者嵌入式便携设备上,会受到大规模的参数量和计算量的限制。深而宽的卷积神经网络在推断的时候需要更多的时间和能耗。为了解决这个问题,一些深度神经网络的压缩算法被提出用来训练高效的卷积神经网络模型,以便于取得更快的运行时速度。
卷积神经网络的改进已经在以下的工作中被广泛的研究。一些网络量化的方法被提出来替代复杂的卷积神经网络运算。这些网络模型使用低比特权重和激活值,从而应用比特运算的小存储量和高效计算。另一个流行的技术是采用深度分离卷积,对每个通道采用可分离的卷积核,然后在所有的通道上接入一个点乘的卷积。还有的方法是致力于寻找一个替代现有标准卷积的高效卷积方法训练一个新的神经网络。还有一些其他的工作引入了剪枝等方法,这些工作都依赖于高运算量的重新训练过程来维持减少参数后的神经网络的精度。此外,近年来的另外一个研究方向是模型蒸馏,将大的“老师”网络压缩成一个小的“学生”网络,进而很容易的部署在资源有限的硬件上。然而,找到更小的学生网络结构并且可以逼近老师网络的性能依然是这个领域的一个重大挑战。
图像分类任务是图像领域基础任务之一,在诸多复杂的图像任务中都包含分类任务,如果分类任务的模型参数量降低和推断速度能够提高,对于压缩复杂任务的模型参数量压缩具有重要意义。本发明是为了降低分类任务的模型参数量,同时提高分类任务的模型推断速度。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的是对于图像分类任务,提出一种基于内部监督和外部监督结合的知识蒸馏的方法,该方法采用知识蒸馏的手段训练得到轻量级的图像分类模型,在推断时只需要加载部分模型,提高运行时的速度。
本发明采用技术方案如下:
步骤1:初试化多分支结构的学生网络和老师网络,老师网络加载训好的模型,并冻结所有参数,不参与训练,学生网络不冻结参数,参与训练。
步骤2:对于图像分类数据集,首先取一批数据和对应的标签,进行数据预处理,按照batch_size分开,输入数据Xbatch,真实标签Ybatch。
步骤3:将Xbatch数据分别传入带有多分支结构的学生网络和老师网络中,分别得到学生网络的的四个输出s_1,s_2,s_3,s_4,和老师网络的一个输出t。
步骤4:整个损失函数由三部分组成,分别是交叉熵损失,相对熵损失,中间层损失。
学生网络的输出层第一个分支结构的相对熵损失函数由两部分构成,第一部分是s_1和s_4构成相对熵损失,第二部分是s_1和老师网络的输出t构成相对熵损失。学生网络的输出层第二个分支结构的相对熵损失函数由两部分构成,第一部分是s_2和s_4构成相对熵损失,第二部分是s_2和老师网络的输出t构成相对熵损失。学生网络的输出层第三个分支结构的相对熵损失函数由两部分构成,第一部分是s_3和s_4构成相对熵损失,第二部分是s_3和老师网络的输出t构成相对熵损失。学生网络的输出层第四个结构的相对熵损失函数由s_4和老师网络的输出t构成。
学生网络的每一个分支结构都要和真实标签Ybatch计算交叉熵损失。
学生网络每一个分支的中间层都需要和深层分支中间层计算中间层损失。
步骤5:对于总的损失和链式法则进行反向传播和梯度计算,然后更新所有权重
步骤6:重复上述步骤至200个epoch(每一个epoch代表遍历整个训练集),学生网络收敛。
对于步骤4损失计算的进一步说明,给定属于M类N个样本的数据集,使用Y表示标签,分类器(结构中有多个分类器都是这样)输出后设置softmax。
损失主要有三部分构成:标签损失,蒸馏损失,特征损失。
标签损失。第一个损失来源于数据集的标签。对于每一个分类器,都计算标签y和pn概率的交叉熵,在训练的过程中标签y引导每个分类器的正确概率尽可能高。
蒸馏损失。在传统的知识蒸馏中,有一个输出为as的学生网络Net和一个输出为at的教师网络Net,他们之间计算损失。
特征损失。在最终FC层之前,计算了不同的特征映射之间的L2距离。在一个网络的内部进行特征损失的计算,由于在一个网络中所以不存在分支网络与深层网络之间能力出现较大差距导致无法拟合。hint loss迫使学生接近教师的权重分布,也就是缩小了不同分支之间的差距。
每一个分支分类器K的损失由标签损失,蒸馏损失,特征损失组成,为了平衡这三个部分的损耗。
第四个分类器后面的损失由两部分组成,分别是标签损失,蒸馏损失。
本发明的第二个创新在于对于分支结构卷积层的改进。在为了减少参数量,在分支结构中应当用较少的卷积层,如何控制卷积层数量的同时保持较高的准确率。在分支结构使用selayer强化分支结构抽取特征的能力。
第一个操作是将每一个通道对应的特征以一个标量的形式提取出来。首先考虑输出特征中每个通道的信息在通道上都是独立的,将每一个通道全局空间信息压缩到一个标量中。通过使用全局平均池化来生成基于通道的信息来实现的。形式上,统计量
Figure BDA0002913364660000031
是通过将U的空间维数H×W进行压缩而得到的;通过使用平均池化生成通道级信息来实现将全局空间信息压缩到信道信号中。形式上,通过将U通过其空间维度H×W压缩来生成统计量
Figure BDA0002913364660000032
使得z的第c个元素由上面的公式计算得到。
第二个操作是为了利用在压缩操作中的信息,该操作旨在捕获通道与通道之间相关性。要实现这一目标,函数必须满足两个标准:第一,它必须是灵活的(特别是,它必须能够学习通道之间的非线性交互);第二,它必须学习非互斥关系,因为需要确保强化多个通道的表示,而不是one-hot表示形式,只提取top K的通道特征。
Excitation操作将基于输入的通道量z映射到一组通道权重。SElayer本质上引入了根据输入特征进行通道的自注意力函数。
本发明专利创新性是对于图像分类任务,引入老师网络和多分支学生网络的模块,目的是为了更好提高学生网络多分支结构的准确率,从而在更多的图像分类场景上使用参数量较少的分支结构,将参数量较多的主干结构砍掉。使最终部署的网络结构更加简单。使用老师网络可以给学生网络的多个分支提供更多的监督信息,使训练过程更加高效,更快的收敛。
本发明摒弃了之前的知识蒸馏方案中学生网络只有一个输出的结构,充分挖掘了学生网络本身的能力,提高了每一个分支的准确率。对于本发明中针对图像分类任务使用的α和β超参数是为了控制不同的损失的比例,需要不同的分类数量和具体场景要求改变不同损失配比,提高最终的蒸馏效果,使最终分类预测的准确率得到提升。
附图说明
图1是本发明的结构图。
图2是本发明知识蒸馏过程示意图。
图3是本发明selayer分支结构示意图。
具体实施方式
以下结合附图和实施例对本发明进行详细说明。
本发明将通过例子并参照附图的方式说明,其中:
一种基于内部监督和外部监督结合的知识蒸馏的方法,该方法采用知识蒸馏的手段训练得到轻量级的图像分类模型,在推断时只需要加载部分模型,提高运行时的速度。
本发明采用技术方案如下:
步骤1:初试化多分支结构的学生网络和老师网络,老师网络加载训好的模型,并冻结所有参数,不参与训练,学生网络不冻结参数,参与训练。
步骤2:对于图像分类数据集,首先取一批数据和对应的标签,进行数据预处理,按照batch_size分开,输入数据Xbatch,真实标签Ybatch,
步骤3:将Xbatch数据分别传入带有多分支结构的学生网络和老师网络中,分别得到学生网络的的四个输出s_1,s_2,s_3,s_4,和老师网络的一个输出t。
步骤4:整个损失函数由三部分组成,分别是交叉熵损失,相对熵损失,中间层损失。
学生网络的输出层第一个分支结构的相对熵损失函数由两部分构成,第一部分是s_1和s_4构成相对熵损失,第二部分是s_1和老师网络的输出t构成相对熵损失。学生网络的输出层第二个分支结构的相对熵损失函数由两部分构成,第一部分是s_2和s_4构成相对熵损失,第二部分是s_2和老师网络的输出t构成相对熵损失。学生网络的输出层第三个分支结构的相对熵损失函数由两部分构成,第一部分是s_3和s_4构成相对熵损失,第二部分是s_3和老师网络的输出t构成相对熵损失。学生网络的输出层第四个结构的相对熵损失函数由s_4和老师网络的输出t构成。
学生网络的每一个分支结构都要和真实标签Ybatch计算交叉熵损失。
学生网络每一个分支的中间层都需要和深层分支中间层计算中间层损失。
整体损失函数为lossK=lossL+α*lossKD_sum+β*lossFi.
步骤5:对于总的损失和链式法则进行反向传播和梯度计算,然后更新所有权重
步骤6:重复上述步骤至200个epoch(每一个epoch代表遍历整个训练集),学生网络收敛。
对于步骤4损失计算的进一步说明,
给定属于M类N个样本的数据集,使用Y表示标签,分类器(结构中有多个分类器都是这样)输出后设置softmax,如下:
Figure BDA0002913364660000051
这里的z是全连接层的输出。
Figure BDA0002913364660000052
是ith软化后的分类结果的概率。T通常设置为3,T表示蒸馏温度。T越大,概率分布越柔和。
损失主要有三部分构成:标签损失,蒸馏损失,特征损失。
标签损失。第一个损失来源于数据集的标签。对于每一个分类器,都计算标签y和pn概率的交叉熵,在训练的过程中标签y引导每个分类器的正确概率尽可能高。损失函数计算如下:
Figure BDA0002913364660000053
lossL=Cross Entropy(pn,y) (3)
蒸馏损失。在传统的知识蒸馏中,有一个输出为as的学生网络Net和一个输出为at的教师网络Net,他们之间计算损失,公式如下:
Figure BDA0002913364660000054
Figure BDA0002913364660000055
KL散度公式如下,
Figure BDA0002913364660000056
Figure BDA0002913364660000057
是软化以后的概率输出。
Figure BDA0002913364660000058
其中τ表示温度。温度越高,学生网络的概率分布越柔和,知识也越丰富。
上述每一个分支分类器的蒸馏损失有两部分构成,分别是当前分支分类器和最后一个分类器的损失,以及当前分支分类器和老师网络输出的损失。
Figure BDA0002913364660000059
si_t的蒸馏损失是由学生网络的分支分类器和老师网络的输出损失,si_s4的蒸馏损失是分支网络和最后一个分类器的输出损失。
特征损失。在最终FC层之前,计算了不同的特征映射之间的L2距离。在一个网络的内部进行特征损失的计算,由于在一个网络中所以不存在分支网络与深层网络之间能力出现较大差距导致无法拟合。hint loss迫使学生接近教师的权重分布,也就是缩小了不同分支之间的差距。
Figure BDA00029133646600000510
其中Fi表示第i层FC之前的特征图.Block4模块后FC之前的特征图.
每一个分支分类器K的损失由标签损失,蒸馏损失,特征损失组成,为了平衡这三个部分的损耗,引入了两个超参数α和β,公式如下:
lossK=lossL+α*lossKD_sum+β*lossFi
K是分支结构的数量
第四个分类器后面的损失由两部分组成,分别是标签损失,蒸馏损失,公式如下:
lossN=lossKD+lossL
lossKD是第四个分类器和老师网络的输出损失构成的。
训练期间,计算上述三部分损失的总和作为losstotal
Figure BDA0002913364660000061
本发明的第二个创新在于对于分支结构卷积层的改进。在为了减少参数量,在分支结构中应当用较少的卷积层,如何控制卷积层数量的同时保持较高的准确率。在分支结构使用selayer强化分支结构抽取特征的能力。
selayer主要包括Squeeze和Excitation两个操作,可以适用于任何映射。Ftr:X→U,X∈RH′×W′×C′,U∈RH×W×C,以卷积为例,卷积核为V=[v1,v2,...,vC],其中vc表示第c个卷积核。那么输出U=[u1,u2,...,uC]:
Figure BDA0002913364660000062
其中*代表卷积操作,而
Figure BDA0002913364660000063
代表一个3D卷积核,其输入一个channel上的空间特征,它学习特征空间关系,但是由于对各个channel的卷积结果做了求和操作,所以通道级别的特征关系与卷积核学习到的空间关系混合在一起。而SE模块就是为了抽离这种混杂关系,使得模型直接学习到通道级特征关系。
第一个操作是将每一个通道对应的特征以一个标量的形式提取出来。首先考虑输出特征中每个通道的信息在通道上都是独立的,将每一个通道全局空间信息压缩到一个标量中。通过使用全局平均池化来生成基于通道的信息来实现的。形式上,统计量
Figure BDA0002913364660000064
是通过将U的空间维数H×W进行压缩而得到的,从而计算z:
Figure BDA0002913364660000065
通过使用平均池化生成通道级信息来实现将全局空间信息压缩到信道信号中。形式上,通过将U通过其空间维度H×W压缩来生成统计量
Figure BDA0002913364660000071
使得z的第c个元素由上面的公式计算得到。
第二个操作是为了利用在压缩操作中的信息,该操作旨在捕获通道与通道之间相关性。要实现这一目标,函数必须满足两个标准:第一,它必须是灵活的(特别是,它必须能够学习通道之间的非线性交互);第二,它必须学习非互斥关系,因为需要确保强化多个通道的表示,而不是one-hot表示形式,只提取top K的通道特征。
为了满足这些要求,选择使用门控机制和S形激活:
s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z))
δ使用ReLU激活函数。
Figure BDA0002913364660000072
Figure BDA0002913364660000073
为了降低模型复杂度以及提升泛化能力,这里采用包含两个全连接层的bottleneck结构,其中第一个FC层起到降维的作用,降维系数为r是个超参数,然后采用ReLU函数激活。最后的FC层恢复原始的维度。通过使用sc重新缩放U来获得特征的最终输出:
Figure BDA0002913364660000074
这里
Figure BDA0002913364660000075
和Fscale(uc,sc)指的是标量sc和特征图
Figure BDA0002913364660000076
之间的通道方式乘法。
Excitation操作将基于输入的通道量z映射到一组通道权重。SElayer本质上引入了根据输入特征进行通道的自注意力函数。
本发明专利创新性是对于图像分类任务,引入老师网络和多分支学生网络的模块,目的是为了更好提高学生网络多分支结构的准确率,从而在更多的图像分类场景上使用参数量较少的分支结构,将参数量较多的主干结构砍掉。使最终部署的网络结构更加简单。使用老师网络可以给学生网络的多个分支提供更多的监督信息,使训练过程更加高效,更快的收敛。

Claims (5)

1.一种基于知识蒸馏的图像分类方法,特征在于,包括:
步骤1:初试化多分支结构的学生网络和老师网络,老师网络加载训好的模型,并冻结所有参数,不参与训练,学生网络不冻结参数,参与训练;
步骤2:对于图像分类数据集,首先取一批数据和对应的标签,进行数据预处理,按照batch_size分开,输入数据Xbatch,真实标签Ybatch;
步骤3:将Xbatch数据分别传入带有多分支结构的学生网络和老师网络中,分别得到学生网络的的四个输出s_1,s_2,s_3,s_4,和老师网络的一个输出t;
步骤4:整个损失函数由三部分组成,分别是交叉熵损失,相对熵损失,中间层损失;
学生网络的输出层第一个分支结构的相对熵损失函数由两部分构成,第一部分是s_1和s_4构成相对熵损失,第二部分是s_1和老师网络的输出t构成相对熵损失;学生网络的输出层第二个分支结构的相对熵损失函数由两部分构成,第一部分是s_2和s_4构成相对熵损失,第二部分是s_2和老师网络的输出t构成相对熵损失;学生网络的输出层第三个分支结构的相对熵损失函数由两部分构成,第一部分是s_3和s_4构成相对熵损失,第二部分是s_3和老师网络的输出t构成相对熵损失;学生网络的输出层第四个结构的相对熵损失函数由s_4和老师网络的输出t构成;
步骤5:对于总的损失和链式法则进行反向传播和梯度计算,然后更新所有权重;
步骤6:重复上述步骤至200个epoch,每一个epoch代表遍历整个训练集,学生网络收敛。
2.根据权利要求1所述的一种基于知识蒸馏的图像分类方法,其特征在于,所述随机生成学生网络的权重,包括:
学生网络有多个出口,学生网络的输出有多个,
同一个网络层的权值精度一样;
同一个网络层的激活值精度一样。
3.根据权利要求1所述的一种基于知识蒸馏的图像分类方法,其特征在于,老师网络加载训练的权重,不参与学生网络的训练过程,包括:老师网络有一个出口,老师网络的输出只有一个。
4.根据权利要求1所述的一种基于知识蒸馏的图像分类方法,其特征在于,老师网络的输出监督学生网络的训练,包括:
学生网络的每一个分支结构都要和真实标签Ybatch计算交叉熵损失;
学生网络每一个分支的中间层都需要和深层分支中间层计算中间层损失。
5.根据权利要求1所述的一种基于知识蒸馏的图像分类方法,其特征在于,学生网络的分支结构加入了selayer,包括:在分支结构中的入口处和出口处加入selayer。
CN202110092971.3A 2021-01-25 2021-01-25 一种基于知识蒸馏的图像分类方法 Pending CN112906747A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110092971.3A CN112906747A (zh) 2021-01-25 2021-01-25 一种基于知识蒸馏的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110092971.3A CN112906747A (zh) 2021-01-25 2021-01-25 一种基于知识蒸馏的图像分类方法

Publications (1)

Publication Number Publication Date
CN112906747A true CN112906747A (zh) 2021-06-04

Family

ID=76118647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110092971.3A Pending CN112906747A (zh) 2021-01-25 2021-01-25 一种基于知识蒸馏的图像分类方法

Country Status (1)

Country Link
CN (1) CN112906747A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392938A (zh) * 2021-07-30 2021-09-14 广东工业大学 一种分类模型训练方法、阿尔茨海默病分类方法及装置
CN113592007A (zh) * 2021-08-05 2021-11-02 哈尔滨理工大学 一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质
CN113609965A (zh) * 2021-08-03 2021-11-05 同盾科技有限公司 文字识别模型的训练方法及装置、存储介质、电子设备
CN113822339A (zh) * 2021-08-27 2021-12-21 北京工业大学 一种自知识蒸馏和无监督方法相结合的自然图像分类方法
CN115713755A (zh) * 2023-01-09 2023-02-24 三亚中国农业科学院国家南繁研究院 一种高效精准的草地贪夜蛾的图像识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
CN111275713A (zh) * 2020-02-03 2020-06-12 武汉大学 一种基于对抗自集成网络的跨域语义分割方法
CN112116030A (zh) * 2020-10-13 2020-12-22 浙江大学 一种基于向量标准化和知识蒸馏的图像分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
CN111275713A (zh) * 2020-02-03 2020-06-12 武汉大学 一种基于对抗自集成网络的跨域语义分割方法
CN112116030A (zh) * 2020-10-13 2020-12-22 浙江大学 一种基于向量标准化和知识蒸馏的图像分类方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392938A (zh) * 2021-07-30 2021-09-14 广东工业大学 一种分类模型训练方法、阿尔茨海默病分类方法及装置
CN113609965A (zh) * 2021-08-03 2021-11-05 同盾科技有限公司 文字识别模型的训练方法及装置、存储介质、电子设备
CN113609965B (zh) * 2021-08-03 2024-02-13 同盾科技有限公司 文字识别模型的训练方法及装置、存储介质、电子设备
CN113592007A (zh) * 2021-08-05 2021-11-02 哈尔滨理工大学 一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质
CN113822339A (zh) * 2021-08-27 2021-12-21 北京工业大学 一种自知识蒸馏和无监督方法相结合的自然图像分类方法
CN115713755A (zh) * 2023-01-09 2023-02-24 三亚中国农业科学院国家南繁研究院 一种高效精准的草地贪夜蛾的图像识别方法

Similar Documents

Publication Publication Date Title
CN112906747A (zh) 一种基于知识蒸馏的图像分类方法
Zheng et al. PAC-Bayesian framework based drop-path method for 2D discriminative convolutional network pruning
Dong et al. Network pruning via transformable architecture search
Tjandra et al. Compressing recurrent neural network with tensor train
Gu et al. Projection convolutional neural networks for 1-bit cnns via discrete back propagation
Xu et al. PredCNN: Predictive Learning with Cascade Convolutions.
CN113887610B (zh) 基于交叉注意力蒸馏Transformer的花粉图像分类方法
Cai et al. An optimal construction and training of second order RBF network for approximation and illumination invariant image segmentation
CN111461322A (zh) 一种深度神经网络模型压缩方法
Lin et al. An on-line ICA-mixture-model-based self-constructing fuzzy neural network
CN114422382B (zh) 网络流量预测方法、计算机装置、产品及存储介质
CN117501245A (zh) 神经网络模型训练方法和装置、数据处理方法和装置
CN114612761A (zh) 一种面向图像识别的网络架构搜索方法
CN114926770A (zh) 视频动作识别方法、装置、设备和计算机可读存储介质
Isikdogan et al. Semifreddonets: Partially frozen neural networks for efficient computer vision systems
Sasikumar et al. Reconfigurable and hardware efficient adaptive quantization model-based accelerator for binarized neural network
CN113610192A (zh) 一种基于连续性剪枝的神经网络轻量化方法及系统
Xu et al. LRP-based policy pruning and distillation of reinforcement learning agents for embedded systems
Park et al. Additive ensemble neural networks
Chen et al. Deep global-connected net with the generalized multi-piecewise ReLU activation in deep learning
Pragnesh et al. Compression of convolution neural network using structured pruning
Li et al. Neural plasticity networks
CN113435586B (zh) 用于卷积神经网络的卷积运算装置、系统和图像处理装置
Zhao et al. U-net for satellite image segmentation: Improving the weather forecasting
CN113536916B (zh) 一种基于骨骼信息的分组混淆图卷积动作识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination