CN116416456A

CN116416456A - 基于自蒸馏的图像分类方法、系统、存储介质和电子设备

Info

Publication number: CN116416456A
Application number: CN202310071832.1A
Authority: CN
Inventors: 程彦皓
Original assignee: Shumei Tianxia Beijing Technology Co ltd; Beijing Nextdata Times Technology Co ltd
Current assignee: Shumei Tianxia Beijing Technology Co ltd; Beijing Nextdata Times Technology Co ltd
Priority date: 2023-01-13
Filing date: 2023-01-13
Publication date: 2023-07-11
Anticipated expiration: 2043-01-13
Also published as: CN116416456B

Abstract

本发明公开了一种基于自蒸馏的图像分类方法、系统、存储介质和电子设备，包括：基于多个图像样本，对卷积神经网络进行迭代训练，得到第一图像分类模型；将每个图像样本输入第一图像分类模型，得到并将输出特征图分别输入特征处理模块和注意力机制模块，得到并根据原始特征图和注意力特征图进行自蒸馏，得到并根据每个图像样本的自蒸馏损失值，对第一图像分类模型的参数进行优化，直至第二图像分类模型满足预设条件时，将第二图像分类模型确定为目标图像分类模型；将待测图像输入至目标图像分类模型，得到图像分类结果。本发明能够利用模型自身的注意力图进行蒸馏，在有效压缩图像分类模型训练时间的同时，确保了图像分类的效果不受影响。

Description

基于自蒸馏的图像分类方法、系统、存储介质和电子设备

技术领域

本发明涉及知识蒸馏技术领域，尤其涉及一种基于自蒸馏的图像分类方法、系统、存储介质和电子设备。

背景技术

知识蒸馏是将知识从预先训练的较大的教师网络转移到学生网络的方法，使得较小的学生网络获得与教师网络相近的识别效果，同时降低部署时的计算复杂度。但现有的知识蒸馏方法，首先要训练较大的教师网络，待教师网络训练完成后，利用教师网络训练学生网络，这种方法虽然还可以有效提升学生网络的效果，但训练周期较长，难以维护。

因此，如何在不损失学生网络的效果的基础上，有效节省训练时间，是当前亟需解决的技术问题。

发明内容

为解决上述技术问题，本发明提供了一种基于自蒸馏的图像分类方法、系统、存储介质和电子设备。

本发明的基于自蒸馏的图像分类方法的技术方案如下：

基于多个图像样本，对用于图像分类的卷积神经网络进行迭代训练，得到第一图像分类模型；

将任一图像样本输入所述第一图像分类模型，得到该图像样本对应的输出特征图，并将所述输出特征图输入至特征处理模块，得到该图像样本的原始特征图，将所述输出特征图输入至注意力机制模块，得到该图像样本的注意力特征图，并基于该图像样本的原始特征图和注意力特征图进行自蒸馏，得到该图像样本的自蒸馏损失值，直至得到每个图像样本的自蒸馏损失值；

基于所有的自蒸馏损失值，对所述第一图像分类模型的参数进行优化，得到第二图像分类模型，将所述第二图像分类模型作为所述第一图像分类模型并返回执行所述将任一图像样本输入所述第一图像分类模型的步骤，直至所述第二图像分类模型满足预设训练条件时，将所述第二图像分类模型确定为目标图像分类模型；

将待测图像输入至所述目标图像分类模型，得到所述待测图像的图像分类结果。

本发明的基于自蒸馏的图像分类方法的有益效果如下：

本发明的方法不需要单独训练教师网络，能够利用模型自身的注意力图进行蒸馏，在有效压缩图像分类模型训练时间的同时，确保了图像分类的效果不受影响。

在上述方案的基础上，本发明的基于自蒸馏的图像分类方法还可以做如下改进。

进一步，所述特征处理模块包括：依次连接设置的通道维度的第一平均池化层和第一L2归一化层；

所述将所述输出特征图输入至特征处理模块，得到该图像样本的原始特征图的步骤，包括：

将所述输出特征图依次通过所述通道维度的第一平均池化层和所述第一L2归一化层进行通道维度平均池化处理和L2归一化处理，得到该图像样本的原始特征图。

进一步，所述注意力机制模块包括：全局平均池化层、节点权重计算模块、通道维度的第二平均池化层和第二L2归一化层；

所述将所述输出特征图输入至注意力机制模块，得到该图像样本的注意力特征图的步骤，包括：

将所述输出特征图输入至所述所述全局平均池化层进行全局平均池化处理，得到第一特征图；

通过所述节点权重计算模块获取所述第一特征图的正确预测节点所对应的权重，并将所述第一特征图的正确预测节点所对应的权重与所述输出特征图相乘，得到第二特征图；

将所述第二特征图依次通过所述通道维度的第二平均池化层和第二L2归一化层进行通道维度平均池化处理和L2归一化处理，得到该图像样本的注意力特征图。

进一步，还包括：

对任一图像样本进行分类标注，得到该图像样本的分类标签信息，直至得到每个图像样本的分类标签信息。

进一步，所述通过所述节点权重计算模块获取所述第一特征图的正确预测节点所对应的权重的步骤，包括：

基于任一图像样本的分类标签信息，确定该图像样本的第一特征图的正确预测节点，以获取该图像样本的第一特征图的正确预测节点所对应的权重。

进一步，所述预设训练条件为：达到最大迭代训练次数或所述第二图像分类模型的损失值收敛。

本发明的基于自蒸馏的图像分类系统的技术方案如下：

包括：预训练模块、处理模块、训练模块和运行模块；

所述预训练模块用于：基于多个图像样本，对用于图像分类的卷积神经网络进行迭代训练，得到第一图像分类模型；

所述处理模块用于：将任一图像样本输入所述第一图像分类模型，得到该图像样本对应的输出特征图，并将所述输出特征图输入至特征处理模块，得到该图像样本的原始特征图，将所述输出特征图输入至注意力机制模块，得到该图像样本的注意力特征图，并基于该图像样本的原始特征图和注意力特征图进行自蒸馏，得到该图像样本的自蒸馏损失值，直至得到每个图像样本的自蒸馏损失值；

所述训练模块用于：基于所有的自蒸馏损失值，对所述第一图像分类模型的参数进行优化，得到第二图像分类模型，将所述第二图像分类模型作为所述第一图像分类模型并调用所述处理模块，直至所述第二图像分类模型满足预设训练条件时，将所述第二图像分类模型确定为目标图像分类模型；

所述运行模块用于：将待测图像输入至所述目标图像分类模型，得到所述待测图像的图像分类结果。

本发明的基于自蒸馏的图像分类系统的有益效果如下：

本发明的系统不需要单独训练教师网络，能够利用模型自身的注意力图进行蒸馏，在有效压缩图像分类模型训练时间的同时，确保了图像分类的效果不受影响。

在上述方案的基础上，本发明的基于自蒸馏的图像分类系统还可以做如下改进。

进一步，所述特征处理模块包括：依次连接设置的通道维度的第一平均池化层和第一L2归一化层；所述处理模块具体用于：

本发明的一种存储介质的技术方案如下：

存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如本发明的基于自蒸馏的图像分类方法的步骤。

本发明的一种电子设备的技术方案如下：

包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，使所述计算机执行如本发明的基于自蒸馏的图像分类方法的步骤。

附图说明

图1示出了本发明提供的基于自蒸馏的图像分类方法的实施例的流程示意图；

图2示出了本发明提供的基于自蒸馏的图像分类方法的实施例中自蒸馏的结构示意图；

图3示出了本发明提供的基于自蒸馏的图像分类系统的实施例的结构示意图。

具体实施方式

图1示出了本发明提供的基于自蒸馏的图像分类方法的实施例的流程示意图。如图1所示，该方法包括如下步骤：

步骤110：基于多个图像样本，对用于图像分类的卷积神经网络进行迭代训练，得到第一图像分类模型。

其中，①图像样本为：任意选取的用于图像分类的图像。②卷积神经网络的作用为：对输入的图像进行图像分类处理。③卷积神经网络进行迭代训练的次数约为40次，也可根据实际需求进行设定。例如，损失值不再持续收敛(变小)，即可停止迭代训练。④第一图像分类模型为：卷积神经网络经过训练后所得到的用于图像分类的模型。

需要说明的是，卷积神经网络是通过使用交叉熵进行训练的。

步骤120：将任一图像样本输入所述第一图像分类模型，得到该图像样本对应的输出特征图，并将所述输出特征图输入至特征处理模块，得到该图像样本的原始特征图，将所述输出特征图输入至注意力机制模块，得到该图像样本的注意力特征图，并基于该图像样本的原始特征图和注意力特征图进行自蒸馏，得到该图像样本的自蒸馏损失值，直至得到每个图像样本的自蒸馏损失值。

其中，①输出特征图为：将图像输入第一图像分类模型进行图像分类处理后所得到的特征图。②如图2所示，特征处理模块包括：依次连接设置的通道维度的第一平均池化层和第一L2归一化层。③注意力机制模块包括：全局平均池化层、节点权重计算模块、通道维度的第二平均池化层和第二L2归一化层。

需要说明的是，通过对图像的原始特征图和注意力特征图计算损失，能够使得第一图像分类模型学习到空间注意力特征。其中，使用L2 Loss计算原始特征图和注意力特征图的损失，L2 Loss为目标变量和预测值的差值平方和，具体公式为：Loss＝(y₁-y₂)²；y₁为注意力特征图，y₂为原始特征图。

步骤130：基于所有的自蒸馏损失值，对所述第一图像分类模型的参数进行优化，得到第二图像分类模型，将所述第二图像分类模型作为所述第一图像分类模型并返回执行步骤120，直至所述第二图像分类模型满足预设训练条件时，将所述第二图像分类模型确定为目标图像分类模型。

其中，①第二图像分类模型为：根据一次训练过程所得到的自蒸馏损失值，对第一图像分类模型的参数进行优化后所得到的图像分类模型。②目标图像分类模型为：最终训练好的图像分类模型。③预设训练条件为：达到最大迭代训练次数或第二图像分类模型的损失值收敛。

具体地，基于所有的自蒸馏损失值，对第一图像分类模型的参数进行优化，得到第二图像分类模型；判断第二图像分类模型是否满足预设训练条件，若是，则将第二图像分类模型确定为目标图像分类模型；若否，则将第二图像分类模型作为第一图像分类模型并返回执行步骤120，直至第二图像分类模型满足预设训练条件时，将第二图像分类模型确定为目标图像分类模型。

步骤140：将待测图像输入至所述目标图像分类模型，得到所述待测图像的图像分类结果。

其中，①待测图像为：任意选取的待进行图像分类的图像。②图像分类结果为：包含待测图像的至少一种类别的分类结果。

较优地，所述将所述输出特征图输入至特征处理模块，得到该图像样本的原始特征图的步骤，包括：

较优地，所述将所述输出特征图输入至注意力机制模块，得到该图像样本的注意力特征图的步骤，包括：

将所述输出特征图输入至所述所述全局平均池化层进行全局平均池化处理，得到第一特征图。

通过所述节点权重计算模块获取所述第一特征图的正确预测节点所对应的权重，并将所述第一特征图的正确预测节点所对应的权重与所述输出特征图相乘，得到第二特征图。

较优地，还包括：

其中，分类标签信息为：对图像样本对应的每种类别进行标注所得到的标签信息。

较优地，所述通过所述节点权重计算模块获取所述第一特征图的正确预测节点所对应的权重的步骤，包括：

其中，①第一特征图对应多个预测节点，一个预测节点对应一个预测类别。②正确预测节点为：与第一特征图对应的图像样本的分类标签信息中的标注类别相同的预测节点。

本实施例的技术方案不需要单独训练教师网络，能够利用模型自身的注意力图进行蒸馏，在有效压缩图像分类模型训练时间的同时，确保了图像分类的效果不受影响。

图2示出了本发明提供的基于自蒸馏的图像分类系统的实施例的结构示意图。如图2所示，该系统200包括：预训练模块210、处理模块220、训练模块230和运行模块240。

所述预训练模块210用于：基于多个图像样本，对用于图像分类的卷积神经网络进行迭代训练，得到第一图像分类模型；

所述处理模块220用于：将任一图像样本输入所述第一图像分类模型，得到该图像样本对应的输出特征图，并将所述输出特征图输入至特征处理模块，得到该图像样本的原始特征图，将所述输出特征图输入至注意力机制模块，得到该图像样本的注意力特征图，并基于该图像样本的原始特征图和注意力特征图进行自蒸馏，得到该图像样本的自蒸馏损失值，直至得到每个图像样本的自蒸馏损失值；

所述训练模块230用于：基于所有的自蒸馏损失值，对所述第一图像分类模型的参数进行优化，得到第二图像分类模型，将所述第二图像分类模型作为所述第一图像分类模型并调用所述处理模块220，直至所述第二图像分类模型满足预设训练条件时，将所述第二图像分类模型确定为目标图像分类模型；

所述运行模块240用于：将待测图像输入至所述目标图像分类模型，得到所述待测图像的图像分类结果。

较优地，所述特征处理模块包括：依次连接设置的通道维度的第一平均池化层和第一L2归一化层；所述处理模块具体用于：

上述关于本实施例的一种基于自蒸馏的图像分类系统200中的各参数和各个模块实现相应功能的步骤，可参考上文中关于基于自蒸馏的图像分类方法的实施例中的各参数和步骤，在此不做赘述。

本发明实施例提供的一种存储介质，包括：存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如基于自蒸馏的图像分类方法的步骤，具体可参考上文中基于自蒸馏的图像分类方法的实施例中的各参数和步骤，在此不做赘述。

计算机存储介质例如：优盘、移动硬盘等。

本发明实施例提供的一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，使所述计算机执行如基于自蒸馏的图像分类方法的步骤，具体可参考上文中的基于自蒸馏的图像分类方法的实施例中的各参数和步骤，在此不做赘述。

所属技术领域的技术人员知道，本发明可以实现为方法、系统、存储介质和电子设备。

因此，本发明可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等)，还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)，只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于自蒸馏的图像分类方法，其特征在于，包括：

2.根据权利要求1所述的基于自蒸馏的图像分类方法，其特征在于，所述特征处理模块包括：依次连接设置的通道维度的第一平均池化层和第一L2归一化层；

3.根据权利要求1或2所述的基于自蒸馏的图像分类方法，其特征在于，所述注意力机制模块包括：全局平均池化层、节点权重计算模块、通道维度的第二平均池化层和第二L2归一化层；

4.根据权利要求3所述的基于自蒸馏的图像分类方法，其特征在于，还包括：

5.根据权利要求4所述的基于自蒸馏的图像分类方法，其特征在于，所述通过所述节点权重计算模块获取所述第一特征图的正确预测节点所对应的权重的步骤，包括：

6.根据权利要求1所述的基于自蒸馏的图像分类方法，其特征在于，所述预设训练条件为：达到最大迭代训练次数或所述第二图像分类模型的损失值收敛。

7.一种基于自蒸馏的图像分类系统，其特征在于，包括：预训练模块、处理模块、训练模块和运行模块；

8.根据权利要求7所述的基于自蒸馏的图像分类系统，其特征在于，所述特征处理模块包括：依次连接设置的通道维度的第一平均池化层和第一L2归一化层；所述处理模块具体用于：

9.一种存储介质，其特征在于，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如权利要求1至6中任一项所述的基于自蒸馏的图像分类方法。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，使所述计算机执行如权利要求1至6中任一项所述的基于自蒸馏的图像分类方法。