CN114298224A

CN114298224A - 图像分类方法、装置以及计算机可读存储介质

Info

Publication number: CN114298224A
Application number: CN202111642391.3A
Authority: CN
Inventors: 姚俊荣
Original assignee: Yuncong Technology Group Co Ltd
Current assignee: Yuncong Technology Group Co Ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-08

Abstract

本发明涉及图像处理技术领域，具体提供一种图像分类方法、装置以及计算机可读存储介质，旨在解决如何提高图像分类准确性与效率的问题。为此目的，本发明的方法包括：将当前教师模型的特征提取网络划分成至少一个第一特征提取层，将学生模型的特征提取网络划分成至少一个第二特征提取层且第一、第二特征提取层一一对应；获取当前教师模型中第一特征提取层提取到的教师图像特征以及获取与第一特征提取层对应的第二特征提取层提取到的学生图像特征。采用知识蒸馏方法，使所有教师模型同时指导学生模型使用每个教师模型各自对应的教师图像特征与学生图像特征进行图像分类训练，提高分类准确性。同时学生模型的模型参数少，因而具备较高的分类效率。

Description

图像分类方法、装置以及计算机可读存储介质

技术领域

本发明涉及图像处理技术领域，具体提供一种图像分类方法、装置以及计算机可读存储介质。

背景技术

在图像处理技术领域中通常采用基于神经网络的图像分类模型进行图像分类，而这些图像分类模型的模型精度与推理速度往往呈负相关关系，即模型参数越多模型精度越高而推理速度则越低，模型参数越少则模型精度越低而推理速度则越高。目前为了获取模型参数少且模型精度高的图像分类模型，可以通过知识蒸馏(Knowledge Distilling)方法，使用模型参数多且模型精度高的教师模型(Teacher network)指导模型参数少的学生模型(Student network)训练，实现从教师模型到学生模型的知识迁移(Knowledgetransfer)，提高学生模型的模型精度。虽然通过知识蒸馏方法能够在一定程度上缓解学生模型由于模型参数少而导致的模型精度较低的问题，但是学生模型与教师模型之间的模型精度差距仍然比较大，当在对图像分类准确性与分类效率的要求都比较高的应用场景中应用这些学生模型进行图像分类时将无法得到准确性较高的图像分类结果，降低了这些应用场景中图像分类的准确性。

相应地，本领域需要一种新的图像分类方案来解决上述问题。

发明内容

为了克服上述缺陷，提出了本发明，以提供解决或至少部分地解决如何同时提高图像分类准确性与效率的技术问题的图像分类方法、装置以及计算机可读存储介质。

在第一方面，本发明提供一种图像分类方法，所述方法包括：

针对每个教师模型，将当前教师模型的特征提取网络划分成至少一个第一特征提取层，将学生模型的特征提取网络划分成至少一个第二特征提取层且所述第一特征提取层与所述第二特征提取层一一对应；其中，所述教师模型是训练好的图像分类模型；

获取当前教师模型中每个第一特征提取层提取到的图像样本的教师图像特征以及获取学生模型中与每个第一特征提取层各自对应的第二特征提取层提取到的图像样本的学生图像特征；

采用知识蒸馏方法，使所有教师模型同时指导所述学生模型使用每个教师模型各自对应的教师图像特征与学生图像特征进行图像分类训练；

采用训练好的学生模型进行图像分类。

在上述图像分类方法的一个技术方案中，“采用知识蒸馏方法，使所有教师模型同时指导所述学生模型使用每个教师模型各自对应的教师图像特征与学生图像特征进行图像分类训练”的步骤具体包括：

采用知识蒸馏方法并按照下式所示的知识蒸馏函数L_total进行图像分类训练：

L_total＝L_CE+L_teacher

其中，L_CE表示所述学生模型对所述图像样本进行图像分类训练时确定的损失函数，所述L_teacher表示同时利用所有教师模型对所述学生模型使用每个教师模型各自对应的教师图像特征与学生图像特征进行训练指导学习时确定的知识蒸馏损失函数。

在上述图像分类方法的一个技术方案中，所述知识蒸馏损失函数L_teacher如下式所示：

L_teaher＝∑w_tL_layer,t

其中，所述w_t表示第t个教师模型的第一蒸馏权重，所述L_layer,t表示利用第t个教师模型对所述学生模型使用第t个教师模型对应的教师图像特征与学生图像特征进行训练指导学习时确定的多层次蒸馏损失函数；

L_layer,t＝∑w_tiL_ti，所述w_ti表示第t个教师模型中第i个第一特征提取层的第二蒸馏权重，所述L_ti表示利用第t个教师模型对所述学生模型使用第t个教师模型中第i个第一特征提取层提取到的教师图像特征以及学生模型中与第i个第一特征提取层对应的第二特征提取层提取到的学生图像特征进行训练指导学习时确定的第i个第一特征提取层的蒸馏损失函数。

在上述图像分类方法的一个技术方案中，所述第i个第一特征提取层的蒸馏损失函数L_ti如下式所示：

其中，所述T_tij表示第t个教师模型中第i个第一特征提取层提取到的教师图像特征中的第j个特征值，S_j表示学生模型中与第i个第一特征提取层对应的第二特征提取层提取到的学生图像特征中的第j个特征值。

在上述图像分类方法的一个技术方案中，所述第二蒸馏权重w_ti的计算公式如下式所示：

w_ti＝Dα_ti

其中，所述D表示根据图像分类训练时采用的图像样本的Batch值确定的超参数，α_ti表示预设的第t个教师模型中第i个第一特征提取层的权重超参数。

在上述图像分类方法的一个技术方案中，“获取当前教师模型中每个第一特征提取层提取到的图像样本的教师图像特征”的步骤具体包括按照下式所示的方法分别对每个第一特征提取层提取到的教师图像特征进行特征处理：

其中，所述F′_j表示特征处理后的教师图像特征中的第j个特征值，所述F_j表示特征处理之前的教师图像特征中的第j个特征值，所述t表示阈值且t＝E[F_i|F_i<0]，所述E表示期望，“E[F_i|F_i<0]”表示教师图像特征中小于零的特征值的期望值。

在上述图像分类方法的一个技术方案中，“获取与每个第一特征提取层各自对应的第二特征提取层提取到的图像样本的学生图像特征”的步骤具体包括：对所述学生图像特征进行特征处理，以使所述学生图像特征的特征维度与所述教师图像特征的特征维度相同。

第二方面，提供一种图像分类装置，所述装置包括：

模型划分模块，其被配置成针对每个教师模型，将当前教师模型的特征提取网络划分成至少一个第一特征提取层，将学生模型的特征提取网络划分成至少一个第二特征提取层且所述第一特征提取层与所述第二特征提取层一一对应；其中，所述教师模型是训练好的图像分类模型；

特征获取模块，其被配置成针对每个教师模型，获取当前教师模型中每个第一特征提取层提取到的图像样本的教师图像特征以及获取与每个第一特征提取层各自对应的第二特征提取层提取到的图像样本的学生图像特征；

图像分类训练模块，其被配置成采用知识蒸馏方法，使所有教师模型同时指导所述学生模型使用每个教师模型各自对应的教师图像特征与学生图像特征进行图像分类训练；

图像分类模块，其被配置成采用训练好的学生模型进行图像分类

在第三方面，提供一种控制装置，该控制装置包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行上述图像分类方法的技术方案中任一项技术方案所述的图像分类方法。

在第四方面，提供一种计算机可读存储介质，该计算机可读存储介质其中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行上述图像分类方法的技术方案中任一项技术方案所述的图像分类方法。

本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：

在实施本发明的技术方案中，可以采用知识蒸馏方法，使多个教师模型同时指导学生模型进行图像分类训练，从而使学生模型能够从多个不同的教师模型中学习图像分类能力，提高学生模型进行图像分类的准确性。同时，在使用教师模型指导学生模型进行图像分类训练时可以使学生模型充分学习教师模型提取图像特征，根据图像特征进行分类的能力，缩小学生模型与教师模型之间的差距，进一步提高生模型进行图像分类的准确性。

具体而言，针对每个教师模型，首先可以将当前教师模型的特征提取网络划分成至少一个第一特征提取层，同时按照相同的划分方法将学生模型的特征提取网络划分成至少一个第二特征提取层，以使第一特征提取层与第二特征提取层一一对应；然后获取当前教师模型中每个第一特征提取层提取到的图像样本的教师图像特征以及获取学生模型中与每个第一特征提取层各自对应的第二特征提取层提取到的图像样本的学生图像特征。通过上述方法分别获取每个教师模型各自对应的教师图像特征与学生图像特征，然后再采用知识蒸馏方法，使所有教师模型同时指导学生模型使用每个教师模型各自对应的教师图像特征与学生图像特征进行图像分类训练，得到分类准确性更高的学生模型。

此外，相对于教师模型而言，学生模型的模型结构简单，模型参数少，因而学生模型还具备较高的图像分类效率。因此，采用上述训练好的学生模型进行图像分类，能够显著提高图像分类的准确性与效率。

附图说明

参照附图，本发明的公开内容将变得更易理解。本领域技术人员容易理解的是：这些附图仅仅用于说明的目的，而并非意在对本发明的保护范围组成限制。其中：

图1是根据本发明的一个实施例的图像分类方法的主要步骤流程示意图；

图2是根据本发明的一个实施例的第一特征提取层的结构示意图；

图3是根据本发明的另一个实施例的图像分类方法的主要步骤流程示意图；

图4是根据本发明的一个实施例的图像分类装置的主要结构框图示意图。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在本发明的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。

参阅附图1，图1是根据本发明的一个实施例的图像分类方法的主要步骤流程示意图。如图1所示，本发明实施例中的图像分类方法主要包括下列步骤S101至步骤S104。

步骤S101：针对每个教师模型，将当前教师模型的特征提取网络划分成至少一个第一特征提取层，将学生模型的特征提取网络划分成至少一个第二特征提取层且第一特征提取层与第二特征提取层一一对应。

教师模型指的是训练好的图像分类模型，并且教师模型是模型结构复杂、模型参数较多但具备较高的图像分类准确性的模型。在采用教师模型进行图像分类时教师模型会通过特征提取网络提取图像的图像特征，再根据提取到的图像特征进行分类。而步骤S101中的学生模型是未经训练的分类模型，并且学生模型的模型结构简单，模型参数较少，具有较高的推理速度，学生模型同样具备特征提取网络，通过这个特征提取网络可以提取图像的图像特征，进而根据提取到的图像特征进行分类。

在本实施例中在对每个教师模型的特征提取网络进行划分后，同时采用相同的方法对学生模型的特征提取网络进行划分，使得教师模型的每个第一特征提取层分别与学校模型的每个第二特征提取层一一对应。例如：教师模型A的特征提取网络划分成两个第一特征提取层a1和a2，那么此时也将学生模型的特征提取网络划分成两个第二特征提取层c1和c2。需要说明的是，第一特征提取层与第二特征提取层一一对应指的是在数据从输入至教师模型/学生模型到从教师模型/学生模型输出这个方向上一一对应。如果教师模型A的第一特征提取层a1靠近教师模型A的输入层，第一特征提取层a2靠近教师模型A的输出层，学生模型的第二特征提取层c1靠近学生模型的输入层，第二特征提取层c2靠近学生模型的输出层，则第一特征提取层a1与第二特征提取层c1对应，第一特征提取层a2与第二特征提取层c2对应。

参阅附图2，图2示例性示出了采用ResNet50网络结构的教师模型中一个第一特征提取层的结构。如图2所示，该第一特征提取层是ResNet50网络结构中的一个残差卷积模块，其包括两个卷积模块、一个按位加和模块和一个非线性激活层，每个卷积模块都包括一个卷积层(Convolutional layer)、一个批归一化层(Batch Normalization layer)和一个非线性激活层(Relu layer)。

步骤S102：针对每个教师模型，获取当前教师模型中每个第一特征提取层提取到的图像样本的教师图像特征以及获取学生模型中与每个第一特征提取层各自对应的第二特征提取层提取到的图像样本的学生图像特征。

例如：针对教师模型A，将教师模型A的特征提取网络划分成两个第一特征提取层a1和a2，同时将学生模型的特征提取网络也划分成两个第二特征提取层c1和c2，第一特征提取层a1与第二特征提取层c1对应，第一特征提取层a2与第二特征提取层c2对应。此时，可以获取第一特征提取层a1和a2提取到的教师图像特征Da1和Da2，并且获取第二特征提取层c1和c2提取到的学生图像特征Dc1和Dc2。

又例如：针对教师模型B，将教师模型B的特征提取网络划分成一个第一特征提取层b(即将整个特征提取网络作为一个第一特征提取层b)，同时将学生模型的特征提取网络也划分成一个第二特征提取层c(即将整个特征提取网络作为一个第二特征提取层c)，第一特征提取层b与第二特征提取层c对应。此时，可以获取第一特征提取层b提取到的教师图像特征Db，并且获取第二特征提取层c提取到的学生图像特征Dc。

步骤S103：采用知识蒸馏方法，使所有教师模型同时指导学生模型使用每个教师模型各自对应的教师图像特征与学生图像特征进行图像分类训练。

由于教师图像特征是教师模型中不同第一特征提取层提取到的图像特征，当使教师模型指导学生模型使用其对应的教师图像特征与学生图像特征进行图像分类训练，可以使学生模型充分学习教师模型提取图像特征，根据图像特征进行分类的能力，缩小学生模型与教师模型之间的差距，最终提高学生模型进行图像分类的准确性。

继续参阅步骤S102中的例子，针对教师模型A而言，教师图像特征Da1和Da2是教师模型A对应的教师图像特征，学生图像特征Dc1和Dc2是教师模型A对应的学生图像特征。教师模型A可以指导学生模型使用教师图像特征Da1和Da2及学生图像特征Dc1和Dc2进行图像分类训练。

针对教师模型B而言，教师图像特征Db是教师模型B对应的教师图像特征，学生图像特征Dc是教师模型B对应的学生图像特征。教师模型B可以指导学生模型使用教师图像特征Db及学生图像特征Dc进行图像分类训练。

步骤S104：采用训练好的学生模型进行图像分类。

基于上述步骤S101至步骤S104，采用知识蒸馏方法，使多个教师模型同时指导学生模型进行图像分类训练，可以使学生模型能够从多个不同的教师模型中学习图像分类能力，提高学生模型进行图像分类的准确性。同时，在使用教师模型指导学生模型进行图像分类训练时可以使学生模型充分学习教师模型提取图像特征，根据图像特征进行分类的能力，缩小学生模型与教师模型之间的差距，进一步提高学生模型进行图像分类的准确性。此外，相对于教师模型而言，学生模型的模型结构简单，模型参数少，因而学生模型还具备较高的图像分类效率。因此，采用上述训练好的学生模型进行图像分类，能够显著提高图像分类的准确性与效率。

下面对上述步骤S102和步骤S103作进一步说明。

参阅附图2，在上述步骤S102的一个实施方式中，每个第一特征提取层的最后一层网络结构都是非线性激活层，而每个第一特征提取层提取到的教师图像特征可以是这个非线性激活层的输入特征。由于非线性激活层会舍去特征值小于零的特征，使得学生模型无法学习到教师模型对这些特征值小于零的特征的提取能力，而将非线性激活层的输入特征作为教师图像特征就可以充分考虑这些特征值小于零的特征。但是，这些特征值小于零的特征中有一部分特征的特征值过小，对于图像分类训练的作用不大，如果仍然使用这些特征进行分类训练还会增大计算负担。对此，可以获取这些特征值小于零的特征的期望值，根据期望值对非线性激活层的输入特征进行筛选，保留特征值大于期望值的特征，舍去特征值小于或等于期望值的特征。具体而言，在本实施方式中在获取当前教师模型中每个第一特征提取层提取到的图像样本的教师图像特征之后可以通过下式(1)所示的方法分别对每个第一特征提取层提取到的教师图像特征进行特征处理：

公式(1)中各参数含义如下：

F′_j表示特征处理后的教师图像特征中的第j个特征值，F_j表示特征处理之前的教师图像特征中的第j个特征值，t表示阈值且t＝E[F_i|F_i<0]，E表示期望，“E[F_i|F_i<0]”表示教师图像特征中小于零的特征值的期望值。

进一步，在上述步骤S102的另一个实施方式中，为了便于后续步骤S103教师模型指导学生模型使用每个教师模型各自对应的教师图像特征与学生图像特征进行图像分类训练，可以在获取学生模型中与每个第一特征提取层各自对应的第二特征提取层提取到的图像样本的学生图像特征之后对学生图像特征进行特征处理，以使学生图像特征的特征维度与教师图像特征的特征维度相同。

在上述步骤S103的一个实施方式中，由于教师图像特征是教师模型中不同第一特征提取层提取到的图像特征，当使教师模型指导学生模型使用其对应的教师图像特征与学生图像特征进行图像分类训练，在一个教师模型上可以使用每个第一特征提取层提取到的教师图像特征以及相应的学生图像特征分别对学生模型进行知识蒸馏，即在教师模型上对学生模型同时进行多层次的知识蒸馏，使得学生模型能够充分学习教师模型中每个第一特征提取层提取图像特征的能力以及教师模型根据每个第一特征提取层提取到的图像特征进行图像分类的能力。具体而言，在本实施方式中，可以采用知识蒸馏方法并按照下式(2)所示的知识蒸馏函数L_total，使所有教师模型同时指导学生模型使用每个教师模型各自对应的教师图像特征与学生图像特征进行图像分类训练：

L_total＝L_CE+L_teacher (2)

公式(2)中各参数含义如下：

L_CE表示学生模型对图像样本进行图像分类训练时确定的损失函数，即这个损失函数是知识蒸馏方法中的硬损失函数(Hard loss)，在一个实施方式中损失函数L_CE可以采用交叉熵损失函数。要说明的是，学生模型对图像样本进行图像分类训练时不对学生模型中的特征提取网络进行划分。L_teacher表示同时利用所有教师模型对学生模型使用每个教师模型各自对应的教师图像特征与学生图像特征进行训练指导学习时确定的知识蒸馏损失函数，即这个损失函数是知识蒸馏方法中的软损失函数(Soft loss)。

在上述步骤S103的另一个实施方式中，可以通过下式(3)所示的方法构建公式(2)中的知识蒸馏损失函数L_teacher，即知识蒸馏损失函数L_teacher的计算公式可以如下式(3)所示：

L_teaher＝∑w_tL_layer,t (3)

公式(3)中各参数含义如下：

w_t表示第t个教师模型的第一蒸馏权重，L_layer,t表示利用第t个教师模型对学生模型使用第t个教师模型对应的教师图像特征与学生图像特征进行训练指导学习时确定的多层次蒸馏损失函数。通过(3)所示的方法还可以实现多个教师模型之间相互进行知识蒸馏，进而提高每个教师模型各自的图像分类能力，从而最终提高学生模型的图像分类能力。

多层次蒸馏损失函数L_layer,t的计算公式可以如下式(4)所示：

L_layer,t＝∑w_tiL_ti (4)

公式(4)中各参数含义如下：

w_ti表示第t个教师模型中第i个第一特征提取层的第二蒸馏权重，L_ti表示利用第t个教师模型对学生模型使用第t个教师模型中第i个第一特征提取层提取到的教师图像特征以及学生模型中与第i个第一特征提取层对应的第二特征提取层提取到的学生图像特征进行训练指导学习时确定的第i个第一特征提取层的蒸馏损失函数。

第二蒸馏权重w_ti的的计算公式可以如下式(5)所示：

w_ti＝Dα_ti (5)

公式(5)中各参数含义如下：

D表示根据图像分类训练时采用的图像样本的Batch值确定的超参数，α_ti表示预设的第t个教师模型中第i个第一特征提取层的权重超参数，在同一个教师模型中每个第一特征提取层的权重超参数可以不同。一个实施方式中

d表示预设的系数。

第i个第一特征提取层的蒸馏损失函数L_ti的计算公式可以如下式(6)所示：

公式(6)中各参数含义如下：

T_tij表示第t个教师模型中第i个第一特征提取层提取到的教师图像特征中的第j个特征值，S_j表示学生模型中与第i个第一特征提取层对应的第二特征提取层提取到的学生图像特征中的第j个特征值，WHC中的W、H和C分别表示第i个第一特征提取层提取到的教师图像特征对应的特征图的宽、高和通道数，WHC表示第i个第一特征提取层的教师图像特征中特征值的总数。

参阅附图3，以教师模型包括教师模型1和教师模型2为例，对根据本发明实施例的图像分类方法中的图像分类训练作进一步说明。

步骤11：将输入数据同时输入至学生模型、教师模型1和教师模型2。

输入数据可以是包含行人头盔的图像，教师模型1采用ResNet50模型，教师模型2采用DeitTransformer模型。其中，教师模型1的特征提取网络被划分成四个第一特征提取层，教师模型2的特征提取网络被划分层一个第一特征提取层。

步骤12：获取学生模型提取到的学生图像特征，获取教师模型1和教师模型2提取到的教师图像特征。

获取学生模型提取到的学生图像特征时包括获取与教师模型1对应的学生图像特征以及获取与教师模型2对应的学生图像特征。在获取与教师模型1对应的学生图像特征时同样将学生模型的特征提取网络划分成四个第二特征提取层，然后分别获取每个第二特征提取层提取到的学生图像特征。在获取教师模型2对应的学生图像特征时将学生模型的特征提取网络划分成一个第二特征提取层，然后获取这个第二特征提取层提取到的学生图像特征。

步骤13：计算知识蒸馏损失函数。

根据前述方法实施例中公式(3)至(6)所述的方法计算知识蒸馏损失函数L_teacher。其中，教师模型1的第一蒸馏权重w₁为1，教师模型2的第一蒸馏权重w₂为5，教师模型1的四个第一特征提取层各自对应的权重超参数α₁₁、α₁₂、α₁₃和α₁₄分别是0.1、0.3、0.5和0.7，教师模型2的第二特征提取层的权重超参数α₂₁为1。教师模型1和教师模型2对应的超参数D均为

步骤14：计算知识蒸馏函数。

根据前述方法实施例中公式(2)所述的方法计算知识蒸馏函数L_total。

步骤15：反向传播。

根据知识蒸馏函数L_total的损失值计算学生模型的模型参数的梯度，根据该梯度反向传播更新学生模型的模型参数，完成一次迭代训练。

通过重复执行步骤12至步骤15，直至学生模型满足收敛条件停止图像分类训练，就可以得到训练好的学生模型。收敛条件可以是迭代训练的次数达到预设的次数如50次或知识蒸馏函数L_total的损失值小于预设的数值等。此外，上述步骤11至步骤15中的步骤方法与前述方法实施例中步骤S101至步骤S104中的相关步骤方法相同，在此不再赘述。

需要指出的是，尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述，但是本领域技术人员可以理解，为了实现本发明的效果，不同的步骤之间并非必须按照这样的顺序执行，其可以同时(并行)执行或以其他顺序执行，这些变化都在本发明的保护范围之内。

进一步，本发明还提供了一种图像分类装置。

参阅附图4，图4是根据本发明的一个实施例的图像分类装置的主要结构框图。如图4所示，本发明实施例中的图像分类装置主要包括模型划分模块、特征获取模块、图像分类训练模块和图像分类模块。在本实施例中，模型划分模块可以被配置成针对每个教师模型，将当前教师模型的特征提取网络划分成至少一个第一特征提取层，将学生模型的特征提取网络划分成至少一个第二特征提取层且第一特征提取层与所述第二特征提取层一一对应；其中，教师模型是训练好的图像分类模型；特征获取模块可以被配置成针对每个教师模型，获取当前教师模型中每个第一特征提取层提取到的图像样本的教师图像特征以及获取与每个第一特征提取层各自对应的第二特征提取层提取到的图像样本的学生图像特征；图像分类训练模块可以被配置成采用知识蒸馏方法，使所有教师模型同时指导学生模型使用每个教师模型各自对应的教师图像特征与学生图像特征进行图像分类训练；图像分类模块可以被配置成采用训练好的学生模型进行图像分类。一个实施方式中，具体实现功能的描述可以参见步骤S101至步骤S104所述。

在一个实施方式中，图像分类训练模块可以被配置成采用知识蒸馏方法并按照前述方法实施例中公式(2)所示的知识蒸馏函数L_total指导学生模型使用每个教师模型各自对应的教师图像特征与学生图像特征进行图像分类训练。一个实施方式中，具体实现功能的描述可以参见步骤S103所述。

在一个实施方式，特征获取模块可以被配置成采用前述方法实施例中公式(1)所示的方法分别对每个第一特征提取层提取到的教师图像特征进行特征处理。此外，特征获取模块还可以被配置成对学生图像特征进行特征处理，以使学生图像特征的特征维度与教师图像特征的特征维度相同。一个实施方式中，具体实现功能的描述可以参见步骤S102所述。

上述图像分类装置以用于执行图1所示的图像分类方法实施例，两者的技术原理、所解决的技术问题及产生的技术效果相似，本技术领域技术人员可以清楚地了解到，为了描述的方便和简洁，图像分类装置的具体工作过程及有关说明，可以参考图像分类方法的实施例所描述的内容，此处不再赘述。

本领域技术人员能够理解的是，本发明实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。

进一步，本发明还提供了一种控制装置。在根据本发明的一个控制装置实施例中，控制装置包括处理器和存储装置，存储装置可以被配置成存储执行上述方法实施例的图像分类方法的程序，处理器可以被配置成用于执行存储装置中的程序，该程序包括但不限于执行上述方法实施例的图像分类方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备。

进一步，本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中，计算机可读存储介质可以被配置成存储执行上述方法实施例的图像分类方法的程序，该程序可以由处理器加载并运行以实现上述图像分类方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备，可选的，本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

进一步，应该理解的是，由于各个模块的设定仅仅是为了说明本发明的装置的功能单元，这些模块对应的物理器件可以是处理器本身，或者处理器中软件的一部分，硬件的一部分，或者软件和硬件结合的一部分。因此，图中的各个模块的数量仅仅是示意性的。

本领域技术人员能够理解的是，可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理，因此，拆分或合并之后的技术方案都将落入本发明的保护范围内。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种图像分类方法，其特征在于，所述方法包括：

采用训练好的学生模型进行图像分类。

2.根据权利要求1所述的图像分类方法，其特征在于，“采用知识蒸馏方法，使所有教师模型同时指导所述学生模型使用每个教师模型各自对应的教师图像特征与学生图像特征进行图像分类训练”的步骤具体包括：

L_total＝L_CE+L_teacher

3.根据权利要求2所述的图像分类方法，其特征在于，所述知识蒸馏损失函数L_teacher如下式所示：

4.根据权利要求3所述的图像分类方法，其特征在于，所述第i个第一特征提取层的蒸馏损失函数L_ti如下式所示：

5.根据权利要求3所述的图像分类方法，其特征在于，所述第二蒸馏权重w_ti的计算公式如下式所示：

w_ti＝Dα_ti

6.根据权利要求1所述的图像分类方法，其特征在于，“获取当前教师模型中每个第一特征提取层提取到的图像样本的教师图像特征”的步骤具体包括按照下式所示的方法分别对每个第一特征提取层提取到的教师图像特征进行特征处理：

7.根据权利要求1所述的图像分类方法，其特征在于，“获取与每个第一特征提取层各自对应的第二特征提取层提取到的图像样本的学生图像特征”的步骤具体包括：对所述学生图像特征进行特征处理，以使所述学生图像特征的特征维度与所述教师图像特征的特征维度相同。

8.一种图像分类装置，其特征在于，所述装置包括：

图像分类模块，其被配置成采用训练好的学生模型进行图像分类。

9.一种控制装置，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至4中任一项所述的图像分类方法。

10.一种计算机可读存储介质，其中存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至4中任一项所述的图像分类方法。