CN114972790A

CN114972790A - 图像分类模型训练方法、图像分类方法、电子设备和存储介质

Info

Publication number: CN114972790A
Application number: CN202210625461.2A
Authority: CN
Inventors: 解天舒; 杨宇航; 刘明; 王晓敏; 龚海刚; 程旋; 刘明辉; 邓佳丽
Original assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2022-08-30

Abstract

本发明的实施例提供了一种图像分类模型训练方法、图像分类方法、电子设备及存储介质，涉及计算机视觉领域。获取已标注类型标签的多张图像样本。针对每一张图像样本，将图像样本输入至图像分类模型，在图像分类模型中的任意一层卷积层中，从图像样本中提取出多张具有不同通道的特征图像。其中，不同通道表征图像样本不同的图像特征。利用预测得到的图像样本的类型标签和特征图像的类型标签，以及该图像样本已标注的类型标签，计算得到图像分类模型的损失值，基于该损失值调整图像分类模型的参数。重复执行上述步骤，以使可以达到预期训练目标。如此，由于没有增加输入图像分类模型的图像样本的数量，使得每次模型训练耗费的时间更少。

Description

图像分类模型训练方法、图像分类方法、电子设备和存储介质

技术领域

本发明涉及计算机视觉领域，具体而言，涉及一种图像分类模型训练方法、图像分类方法、电子设备和存储介质。

背景技术

自监督学习作为一种重要的学习方法，已经在神经网络上获得了广泛应用。基于大量的无标记数据，通过一个半自动的过程，自监督学习生成伪标签对网络进行训练，使无需人工标注而让网络拥有提取特征的能力变为现实。由于自监督学习方法的简单而强大，研究人员已将其应用于深度学习的其他领域。

然而目前基于自监督学习方法训练图像分类模型时，为了保证最终网络模型的训练效果，一般会采用大量的数据集，特别是当图像分类模型的网络复杂时，使得其时间消耗大。

发明内容

本发明的目的包括，例如，提供了一种图像分类模型训练方法、图像分类方法、电子设备及存储介质，其能够减少模型训练时的时间消耗。

本发明的实施例可以这样实现：

第一方面，本发明提供一种图像分类模型训练方法，应用于电子设备，所述方法包括：

获取已标注类型标签的多张图像样本；

针对每一张所述图像样本，将所述图像样本输入至图像分类模型，在所述图像分类模型中的任意一层卷积层中，从所述图像样本中提取出多张特征图像，并预测得到所述图像样本的类型以及所述多张特征图像的类型标签；其中，不同特征图像表征缺少不同通道的图像样本，不同通道表征图像样本不同的图像特征；

利用预测得到的所述图像样本的类型标签和所述特征图像的类型标签，以及该图像样本已标注的类型标签，计算得到所述图像分类模型的损失值；

判断所述损失值是否达到预期训练目标；

若否，则基于所述损失值，调整所述图像分类模型的参数，并返回执行针对每一张所述图像样本，将所述图像样本输入至图像分类模型的步骤，直至最新得到的损失值达到预期训练目标；

若是，则结束训练，得到训练后的图像分类模型。

在可选的实施方式中，所述在所述图像分类模型中的任意一层卷积层中，从所述图像样本中提取出多张特征图像的步骤，包括：

基于所述图像样本包含的多个通道，得到多个通道组；其中，每个通道组包含的通道各不相同，且每个通道组所缺少的通道，组成所述图像样本包含的多个通道；

分别丢弃所述图像样本包含的多个通道组中的一个通道组，以得到包含不同通道组的多张特征图像。

在可选的实施方式中，所述分别丢弃所述图像样本包含的多个通道组中的一个通道组，以得到包含不同通道组的多张特征图像的步骤，包括：

从多个通道组中获取目标通道组包含的通道，并确定为目标通道；

生成二进制掩码；其中，所述二进制掩码中含有每个所述通道对应的矩阵，每个所述矩阵中元素的值待定；

在二进制掩码中，将目标通道对应的矩阵设置为零矩阵，将不具有目标通道对应的矩阵中的每个元素的值设置为1，得到目标二进制掩码；

将所述目标二进制掩码与所述图像样本相乘，以得到特征图像；

重复上述步骤，直至得到所述图像样本的所有特征图像。

在可选的实施方式中，所述从所述图像样本中提取出多张特征图像的步骤之后，所述方法还包括：

基于所述图像样本已标注的类型标签，标注从所述图像样本中提取出的每张特征图像的类型标签；

根据特征图像缺少的通道，标注所述图像样本的通道标签和每张所述特征图像和通道标签；

所述预测得到所述图像样本的类型以及所述多张特征图像的类型标签的步骤，包括：

基于联合分类器，预测得到所述图像样本的类型标签和通道标签，以及所述特征图像的类型标签和通道标签；

基于联合分类器，预测得到所述图像样本的类型标签，以及所述特征图像的类型标签；

基于单一分类器，预测得到所述图像样本的类型标签；

所述利用预测得到的所述图像样本的类型标签和所述特征图像的类型标签，以及该图像样本已标注的类型标签，计算得到所述图像分类模型的损失值的步骤，包括：

利用预测的图像样本的类型标签，所述图像样本的通道标签，特征图像的类型标签，特征图像的通道标签，图像样本已标注的类型标签，图像样本已标注的通道标签，特征图像已标注的类型标签，以及特征图像已标注的通道标签，计算得到所述图像分类模型的联合损失值；

利用联合分类器预测的图像样本的类型标签以及特征图像的类型标签，单一分类器预测的图像样本的类型标签，图像样本已标注的类型标签，以及特征图像已标注的类型标签，计算得到所述图像分类模型的综合损失值；

利用预测的图像样本的类型标签，以及所述图像样本已标注的类型标签，计算得到所述图像分类模型的单一损失值；

根据所述联合损失值、所述单一损失值和所述综合损失值，得到所述损失值。

在可选的实施方式中，所述基于联合分类器，预测得到所述图像样本的类型标签和通道标签，以及所述特征图像的类型标签和通道标签的步骤，包括：

基于所述联合分类器，确定所述图像样本分别为各种联合标签的联合概率，以及每张特征图像分别为各种联合标签的联合概率；其中，所述联合标签由类型标签和通道标签共同组成，类型标签和通道标签中任一项不同为不同联合标签；

所述利用预测的图像样本的类型标签，所述图像样本的通道标签，特征图像的类型标签，特征图像的通道标签，图像样本已标注的类型标签，图像样本已标注的通道标签，特征图像已标注的类型标签，以及特征图像已标注的通道标签，计算得到所述图像分类模型的联合损失值的步骤，包括：

基于图像样本的多个联合概率，图像样本已标注的类型标签和通道标签，特征图像的多个联合，以及特征图像已标注的类型标签和通道标签，计算得到所述图像分类模型的联合损失值。

在可选的实施方式中，所述基于单一分类器，预测得到所述图像样本的类型标签的步骤，包括：

基于所述单一分类器，确定所述图像样本分别为各种类型标签的自蒸馏概率；

所述基于联合分类器，预测得到所述图像样本的类型标签，以及所述特征图像的类型标签的步骤，包括：

基于所述联合分类器，确定所述图像样本分别为各种类型标签的单一概率，和特征图像分别为各种类型标签的单一概率；基于所述图像样本的多个单一概率，以及所述特征图像的多个单一概率，确定所述图像样本分别为各种类型标签的聚合概率；

所述利用联合分类器预测的图像样本的类型标签以及特征图像的类型标签，单一分类器预测的图像样本的类型标签，图像样本已标注的类型标签，以及特征图像已标注的类型标签，计算得到所述图像分类模型的综合损失值的步骤，包括：

根据每张所述图像样本的多个聚合概率，和每张所述图像样本的多个自蒸馏概率，以及所述图像样本已标注的类型标签，计算得到所述综合损失值。

基于单一分类器，确定所述图像样本分别为各种类型标签的自蒸馏概率；

所述利用预测的图像样本的类型标签，以及所述图像样本已标注的类型标签，计算得到所述图像分类模型的单一损失值的步骤，包括：

根据每张所述图像样本的多个自蒸馏概率，以及所述图像样本已标注的类型标签，计算得到所述单一损失值。

第二方面，本发明提供一种图像分类方法，应用于电子设备，所述方法包括：

获取待检测图像；

将所述待检测图像输入利用如前述实施方式-7任意一项所述的图像分类模型训练方法得到的图像分类模型中，得到预测的所述待检测图像的类型。

第三方面，本发明提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如前述实施方式中任一项的图像分类模型训练方法或前述实施方式的图像分类方法的各个步骤。

第四方面，本发明提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如前述实施方式中任一项的图像分类模型训练方法或前述实施方式的图像分类方法的各个步骤。

本发明实施例的有益效果包括，例如：在获取已标注类型标签的图像样本后，并将该图像样本输入至图像分类模型中后。在图像分类模型的任意一层卷积层中，从图像样本中提取出多张通道不同的特征图像。以使后续基于预测得到的图像样本的类型标签和特征图像的类型标签，以及图像样本已标注的类型标签，确定图像分类模型的损失值。后续可以基于该损失值对图像分类模型的网络参数进行反复调整，以得到训练成功的图像分类模型。其中，不同通道表征不同的图像特征。

由于特征图像只是在卷积层提取得到，并没有对输入图像分类模型的数据集进行扩张，即增大输入图像分类模型的图片数量，使得可以减少每次模型训练学习的时间，即可以浪费更少的时间。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供一种电子设备的结构示意图。

图2为本发明实施例提供一种图形分类模型训练方法的流程示意图之一。

图3为本发明实施例提供一种图形分类模型训练方法的流程示意图之二。

图4为本发明实施例提供一种丢弃不同通道的特征图像的示意图。

图5为本发明实施例提供的一种特征变换示意图。

图6为本发明实施例提供的一种图形分类模型训练方法的流程示意图之三。

图7为本发明实施例提供的一种模型训练的网络结构的示意图。

图8为本发明实施例提供的一种图形分类模型训练方法的流程示意图之四。

图9为本发明实施例提供的一种图形分类模型训练方法的流程示意图之五。

图10为本发明实施例提供的一种图形分类模型训练方法的流程示意图之六。

图11为本发明实施例提供一种图像分类模型训练装置的功能模块示意图。

图标：100-电子设备；110-通信单元；120-存储器；130-处理器；

200-图像分类模型训练装置；210-训练样本获取模块；220-图像类型预测模块；230-损失值计算模块；240-训练进度判断模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。

现有自监督学习技术中，例如，SLA是一项将自监督学习方法应用到监督学习下的技术，其通过识别图像变换(例如图像旋转)的代理任务来增强监督学习。然而在SLA算法要求为每个图像生成多个转换图像，这相当于将数据集扩展几次，这种图像层面的代理任务不可避免地会产生大量的时间消耗和内存开销。

基于现有自监督学习技术中存在的问题，请参照图1，为本发明实施例提供一种电子设备100的结构示意图。该电子设备100包括存储器120、处理器130以及通信单元110。

该存储器120、处理器130以及通信单元110各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。该图像分类模型训练方法可以以软件或固件(Firmware)的形式存储于存储器120中或固化在电子设备100的操作系统(Operating System，OS)中的软件功能模块。处理器130用于执行存储器120中存储的可执行模块。

其中，该存储器120可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器120用于存储程序，该处理器130在接收到执行指令后，执行该程序。该通信单元110用于与外部系统通信连接。

该处理器130可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

基于现有技术存在的数据集大量扩张，而带来的模型训练时间长的问题，本发明实施例提供一种图形分类模型训练方法的流程示意图之一，如图2所示。其可以减少图像分类模型训练耗时的同时，确保图像分类模型的分类精准度。其具体实现方式如下所示：

步骤S101、获取已标注类型标签的多张图像样本。

步骤S102、针对每一张图像样本，将图像样本输入至图像分类模型，在图像分类模型中的任意一层卷积层中，从图像样本中提取出多张特征图像，并预测得到图像样本的类型以及多张特征图像的类型标签。

其中，不同特征图像表征缺少不同通道的图像样本，不同通道表征图像样本不同的图像特征；

步骤S103、利用预测得到的图像样本的类型标签和特征图像的类型标签，以及该图像样本已标注的类型标签，计算得到图像分类模型的损失值。

步骤S104、判断损失值是否达到预期训练目标。若否，则执行步骤S105。若是，则执行步骤S106。

步骤S105、基于损失值，调整图像分类模型的参数。并返回执行步骤S102至步骤S104；

步骤S106、结束训练，得到训练后的图像分类模型。

在获取多个已标注类型标签的图像样本后，将多张图像样本输入图像分类模型。在图像分类模型的卷积层中，可以从一张图像样本中提取出多张特征图像。其中，不同特征图像缺少不同的通道，每个通道可以表征图像样本不同的信息。利用预测的图像样本的类型标签和特征图像的类型标签，以及图像样本已标注的类型标签，确定图像分类模型的损失值，通过该损失值对图像分类模型的参数进行调整。并返回执行步骤返回执行步骤S102至步骤S104，直至最新得到的损失值达到预期训练目标。

由于特征图像只是在卷积层提取得到，而没有对输入图像分类模型的数据集进行扩张，即增大输入图像分类模型的图片数量，使得可以减少每次模型训练学习的时间，即可以浪费更少的时间。

此外，由于并没有输入的数据集进行扩张，使得内存资源的消耗也更少。

示例性的，本方法实施例提供的训练方法可以在任何网络模型的基础上进行训练，以得到图像分类模型。例如，网络模型可以是ResNet、Wide ResNet1、DenseNet、PyramidNet等等。

示例性的，可以是任意一层卷积层，也可以根据实际应用需求，选取多层卷积层进行特征图像的提取。

示例性的，有M张图像样本的训练图像集合

其中，x_i表示图像样本，M表示图像样本的张数。则预期训练目标公式可以通过如下公式表示：

其中，θ表示网络模型的参数，损失函数loss(·)表示网络输出与实际标签之间的距离，一般使用交叉熵损失L_CE作为损失函数来训练网络。损失函数loss(·)的可以通过如下方式表示：

其中，K的数值表示特征图像的数量加图像样本的数量，

表示预测的某一图像的类型标签与已标注的类型标签的差距。

示例性的，在步骤S102之后，可以基于图像样本已标注的类型标签，标注从图像样本中提取出的每张特征图像的类型标签。根据特征图像缺少的通道，标注图像样本的通道标签和每张特征图像和通道标签。以使后续根据类型标签和通道标签确定损失值。

特征图像是如何从图像样本中提取的，可以参考图3，为本发明实施例提供的一种图形分类模型训练方法的流程示意图之二。步骤S02中的在图像分类模型中的任意一层卷积层中，从图像样本中提取出多张特征图像的步骤，可以通过如下方式实现：

步骤S102-1、基于图像样本包含的多个通道，得到多个通道组。

其中，每个通道组包含的通道各不相同。

示例性的，可以分别丢弃图像样本包含的多个通道组中的一个通道组，以得到包含不同通道组的多张特征图像。其具体实现方式可以通过如下步骤实现：

步骤S102-2、从多个通道组中获取目标通道组包含的通道，并确定为目标通道。

步骤S102-3、在二进制掩码中，将目标通道对应的矩阵设置为零矩阵，将不具有目标通道对应的矩阵中的每个元素的值设置为1，得到目标二进制掩码。

其中，二进制掩码中含有每个通道对应的矩阵，每个矩阵中元素的值待定。

步骤S102-4、将目标二进制掩码与图像样本相乘，以得到特征图像。

重复上述步骤S102-2至步骤S102-4，直至得到图像样本的所有特征图像。

由于图片在传入网络模型进行训练时，需要经历多次卷积的过程。而卷积层可以在通道与通道之间进行交互，之后在下一层生成新的通道。因此，通过考虑丢弃不同的通道进行特征变换，使得在不增加数据集的情况下，即不增加训练时间的情况下，又能确保训练完成后的图像分类模型的精准度。并且通过对每一个特征图像保留大部分的通道，以保证大多数语义特征信息的完整，而使得原始分类任务能够顺利进行。

需要说明的是，一张图片有多张通道，不同的通道对应着语义特征信息的不同方面。例如，一张RGB彩色图片分别含有红色通道、绿色通道以及蓝色通道，而一张单色通道(比如红色通道)的灰度图片则可以视为一个通道的特征图像，该特征图像可以表明一定的语义特征。通过丢弃不同的通道来进行特征变换，使得模型在反复训练过程中，通过区分哪些通道缺失，以学习到更加细微的语义特征，即对整个图像有更深入的了解。

需要解释的是，可以把每个图像看成由三个维度组成，第一维度为高度，第二维度为宽度，第三维度为通道。每个通道由一个二维矩阵构成，该二维矩阵为长度和宽度分别为该第一维度和第二维度的尺寸大小，二维矩阵中的每个像素点对应元素的数值为该通道中每个像素点对应的像素值。

为方便理解通道可以标识不同的语义特征信息，可以结合图4进行参考，为本发明实施例提供的一种丢弃不同通道的特征图像的示意图。从从左往右，每一列的图像分别为原始图像、基线模型的CAMs、模型一的CAMs、模型二的CAMs、模型三的CAMs以及模型四的CAMs。每一行，利用Stanford Dogs数据集上训练的ResNet-18模型，基于该行的原始图像，在该模型的卷积层的最后一层上分别丢弃4组不同的通道所形成的特征图像(分别为模型一的CAMs、模型二的CAMs、模型三的CAMs以及模型四的CAMs对应标注的图像)。图中的基线模型CAMs对应标注的是没有丢弃任何通道的图像样本。由于丢弃了不同的通道，使得每个特征图像聚焦于不同的语义信息，即特征图像与基线模型的CAMs突出或者忽略的部分不同。因此，可以利用该特征变换，即丢弃图像样本的不同通道，作为监督信号构造自监督中的代理任务，以挖掘更深层次的视觉表征，提高分类性能。

示例性的，若一个图像样本的大小为height×width×n_channels，将其通道随机划分成k组。每一通道组包含有n_channels/k个通道。每个特征图像可以通过数学运算完成特征变换，即从图像样本提取出多个特征图像。其中，特征图像可以通过如下公式得到：

其中，t_j表征特征变换，M_j表示进行数学运算的二进制掩码，使得可以通过基于该二进制掩码从图像样本中得到多个特征图像。

为方便理解上述公式，下面简单的说明如何生成一个特征图像。首先确定生成该特征图像需要丢弃的通道，然后生成height×width×n_channels的二进制掩码M_j。确定生成该特征图像需要丢弃的通道组中包含的目标通道，将该目标通道对应的矩阵设置为零矩阵，其他不为目标通道对应的矩阵中的元素设置为1，通过将图像样本f与二进制掩码M_j相乘，得到特征图像

如此，可以通过上述方法得到其他特征图像。

为方便理解丢弃通道的过程，图5为本发明实施例提供的一种特征变换示意图。如图5所示，f可以看做是图像样本，

分别为丢弃不同通道后的特征图像，图中的每个正方形代表一个通道组。虚线框的正方形表征被丢弃的通道组。通过图5中的四次特征变换，刚好把图像样本中的所有通道都丢弃一次。需要说明的是，

丢弃的通道不是相邻的，即

丢弃的通道可以是图5中

中丢弃的通道，相应的，

丢弃的通道可以是图5中

中丢弃的通道。

示例性的，通道组的确定可以根据实际应用情况进行设定，以确定特征图像时丢弃那些通道。例如，可以通过随机划分所有通道，并且所有通道组包含的通道各不相同的方式，确定多个通道组。还可以人为划分通道，确定多个通道组。还可以预先设定只丢弃部分通道，基于丢弃的部分通道，确定多个通道组。

示例性的，对于随机划分所有通道，并且所有通道组包含的通道各不相同的方式确定多个通道组的方式，可以保证所有通道只会被丢弃一次，使得在实际应用中表现较佳。在让程序执行丢弃通道时，可以通过以下公式：

让程序明白所有通道只会被丢弃一次。其中，f为图像样本，

为从该图像样本中提取出的特征图像，j为通道组编号，k为通道组总个数。

为了在测试阶段恢复基本的网络结构，本发明实施例引入了自蒸馏的思想，将联合分类器σ(·；μ)的知识迁移到另一个单一分类器σ(·；v)。图6为本发明实施例提供的一种图形分类模型训练方法的流程示意图之三，如图6所示。步骤S102中的预测得到图像样本的类型以及多张特征图像的类型标签的步骤，其具体实现方式可以如下：

步骤S102-5、基于联合分类器，预测得到图像样本的类型标签和通道标签，以及特征图像的类型标签和通道标签。

步骤S102-6、基于联合分类器，预测得到图像样本的类型标签，以及特征图像的类型标签。

步骤S102-7、基于单一分类器，预测得到图像样本的类型标签。

步骤S103的具体实现方式可以如下所示：

步骤S103-1、利用预测的图像样本的类型标签，图像样本的通道标签，特征图像的类型标签，特征图像的通道标签，图像样本已标注的类型标签，图像样本已标注的通道标签，特征图像已标注的类型标签，以及特征图像已标注的通道标签，计算得到图像分类模型的联合损失值。

步骤S103-2、利用联合分类器预测的图像样本的类型标签以及特征图像的类型标签，单一分类器预测的图像样本的类型标签，图像样本已标注的类型标签，以及特征图像已标注的类型标签，计算得到图像分类模型的综合损失值。

步骤S103-3、利用预测的图像样本的类型标签，以及图像样本已标注的类型标签，计算得到图像分类模型的单一损失值。

步骤S103-4、根据联合损失值、单一损失值和综合损失值，得到损失值。

示例性的，可以在网络中的最后一层之后添加一个单一分类器。由于不需要增加任何的卷积层，因此也不会带来计算开销的增加。

示例性的，可以使用KL散度作为标准，将联合分类器σ(·；μ)学习到的知识蒸馏到单一分类器σ(·；v)中。使得在训练完成后，网络就可以去掉联合分类器σ(·；μ)，并且不用再对特征图进行特征变换，只需使用单一分类器解决原始的分类任务，而不用在联合分类输出后进行聚合，即只使用一个和基线模型完全相同的网络模型对图像进行分类即可。

示例性的，可以结合图7进行参考，为本发明实施例提供的一种模型训练的网络结构的示意图。如图所示，将类型标签为狗的图像样本输入至待训练的图像分类模型中，在图像分类模型的最后一层卷积层中进行特征转换，以生成多个特征图像

然后将特征图像以及图像样本转移至模型的其他部分，最后转移至联合分类器中。其中，联合标签由类型标签和通道标签组成，总共有n*k个。n表示类型标签的个数，k表示通道标签的个数。例如，某个联合标签为狗以及丢弃第二组通道。

上述预测特征图像和图像样本的类型标签以及通道标签时，实际上是预测各种标签的概率。可以参考图8为本发明实施例提供的一种图形分类模型训练方法的流程示意图之四。如图8所示，步骤S102-5的具体实现方式可以如下所示：

步骤S201、基于联合分类器，确定图像样本分别为各种联合标签的联合概率，以及每张特征图像分别为各种联合标签的联合概率。

其中，联合标签由类型标签和通道标签共同组成，类型标签和通道标签中任一项不同为不同联合标签。

步骤S103-1的具体实现方式可以如下所示：

步骤S202、基于图像样本的多个联合概率，图像样本已标注的类型标签和通道标签，特征图像的多个联合，以及特征图像已标注的类型标签和通道标签，计算得到所述图像分类模型的联合损失值。

示例性的，联合分类器将得到特征图像和图像样本，联合分类器预测特征图像为联合标签的概率以及图像样本为联合标签的概率。例如，其中一个特征图像为狗且丢弃第一通道组的概率为80％，为狗且丢弃第二通道组的概率为10％等等。

其中，联合概率可以通过如下公式进行表示：

该公式表示图像为某一类型标签(i)和通道标签(j)的条件下的概率。

示例性的，在得到联合概率后，基于上述的损失函数，以计算出图像分类模型的联合损失值。

上述预测特征图像和图像样本的类型标签时，实际上是预测为各种类型标签的概率。可以参考图9为本发明实施例提供的一种图形分类模型训练方法的流程示意图之五。如图9所示，步骤S103-7可以通过如下方式实现：

步骤S301、基于单一分类器，确定图像样本分别为各种类型标签的自蒸馏概率。

步骤S103-3的具体是实现方式可以如下所示：

步骤S302、根据每张图像样本的多个自蒸馏概率，以及图像样本已标注的类型标签，计算得到单一损失值。

示例性的，单一分类器σ(·；v)，基于自蒸馏推理，自蒸馏概率的计算可以简单表示如下：

其中，该自蒸馏概率表示分别为各种类型标签的概率。例如，预测图像样本为狗的概率为80％，为猪的概率为10％。

上述预测特征图像和图像样本的类型标签时，实际上是预测特征图像和图像样本为各种类型标签的概率。可以参考图10，为本发明实施例提供的一种图形分类模型训练方法的流程示意图之六。如图10所示，步骤S102-6的可以通过如下方式实现：

步骤S401、基于联合分类器，确定图像样本分别为各种类型标签的单一概率，和特征图像分别为各种类型标签的单一概率。

步骤S402、基于图像样本的多个单一概率，以及特征图像的多个单一概率，确定图像样本分别为各种类型标签的聚合概率。

步骤S102-7可以通过如下方式实现：

步骤S403、基于单一分类器，确定图像样本分别为各种类型标签的自蒸馏概率。

步骤S103-2可以通过如下方式实现：

步骤S404、根据每张图像样本的多个聚合概率，和每张图像样本的多个自蒸馏概率，以及图像样本已标注的类型标签，计算得到综合损失值。

示例性的，联合分类器可以通过单一推断的方式，计算得到图像样本的单一概率。计算单一概率的公式如右所示：

其中，该公式表示图像样本为某一类型标签的概率。例如，为狗的概率为80％，为猪的概率为10％等等。

特征图像的单一概率可以通过如右方式得到：

类似的，该公式表示特征图像为某一类型标签的概率。

在得到特征图像和图像样本的单一概率后，可以引入聚合推理，基于聚合推理的方式，以得到图像样本的聚合概率。计算聚合概率的公式如下所示：

其中，P_agg(i|x)即表示输入x的原始标签为i的聚合概率。z_i可以被进一步表示为：

示例性的，在网络的训练过程中，引入了一个额外的单一分类器σ(·；v)，因此需要计算一个额外的交叉熵损失函数L_CE(σ(f；v),y)，同时还需要一个KL-loss D_KL(P_agg(·|x)||σ(f；v))使其学习联合分类器的知识。其中，P_agg(·|x)表示聚合推理的概率，σ(f；v)表示基于单一分类器的自蒸馏概率。

示例性的，通过联合分类器计算得到的聚合概率以及基于单一分类器得到的自蒸馏概率，可以计算得到综合损失值。将该综合损失值加入至总的损失值的，以使图像分类模型基于该损失值进行调节时，可以使得单一分类器学到联合分类器的知识。

示例性的，在基于对训练好的图像分类模型进行图像识别时，其具体实现方式为：

获取待检测图像。

将所述待检测图像输入至训练完成的图像分类模型中，得到预测的待检测图像的类型。

其中，图像分类模型为按照前述实施例中的图像分类模型训练方法得到的，通过本发明实施例提供的方法可以一定程度上提升模型的预测准确性。即与其他网络模型相比，在反复训练相同的阶段的情况下，即反复调整网络模型的参数的次数相同的情况下，其分类精度更高。

例如，可以选用ResNet-110作为主干模型，并使用学习率为0.1、动量为0.9、重量衰减为随机梯度下降算法(SGD)。在同样训练300次的情况下，训练批次大小为128，测试批次大小为100，在第150和225个阶段，学习率下降了0.1倍，即降低了学习难度。其中，批次大小表示每次输入图片的数量。

需要说明的是，在本领域中，可以利用单一推理、聚合推理和自蒸馏推理，判断训练完成后的模型的分类精度(准确率)，以评价模型分类结果。其中，分类精度越高表征模型训练越好。通过采用CIFAR-100验证集，训练相同次数(比如300次)下的本发明实施例提供的图像分类模型和其他模型的分类精度对比，可以参考下表：

其中，baseline表示网络模型对于验证集的分类精度，Ours-SI、Ours-AG和Ours-SD均表示采用本发明实施例提供的训练方法训练得到的图像分类模型的各种分类精度。其中，Ours-SI表示基于验证集利用单一推理得到的分类精度，Ours-AG表示基于该验证集利用聚合推理得到的分类精度。Ours-SD基于该验证集利用聚合推理得到的分类精度。

通过上表可以看出，本发明实施例提供的训练方法无论是应用于哪种模型，从各种评价标准下，其分类精度均有提升。从而使得本发明实施例提供的训练方法对于各种网络模型均适用，并且均有相应的提升效果。

示例性的，本发明实施例提供的训练方法，还可以在CIFAR-10和tiny ImageNet等其他图像数据集上取得良好的效果。基于ResNet-110模型，使用本发明实施例提供的训练方法和未使用本发明实施例提供的训练方法，其分类精度对比效果可以如下表所示：

通过上表可以看出，无论是使用何种评估标准进行评估，其分类精度均有明显提升。特别是在ResNet-110上训练Tiny-ImageNet的准确率达到了63.54％。从而使得基于本发明实施例提供的训练方法训练得到的图像分类模型，对于各种数据集具有广泛的适用性、通用性和数据集兼容性。

此外，由于本发明实施例是通过丢弃不同的通道，对图像分类模型进行训练学习的，使得其在细粒度识别上的效果也更好。

需要解释的是，细粒度图像分类的目的是识别在同一基本类别下的物体的相似子类别。细粒度图像识别和一般图像识别的区别在于，细粒度图像的子类别通常共享相同的部分，因此只能通过这些部分的纹理和颜色特征的细微差异来区分。例如在狗类图片中具体识别为哈士奇或者阿拉斯加等，在鸟类图片中具体识别为喜鹊或燕子等，这些子类图片单凭肉眼都很难区分，并且对于不同年龄的同一子类，以及基于不同角度拍摄的同一子类得到的图片也有所不同，这些都是干扰分类结果的因素，为了解决细粒度分类任务，网络必须挖掘更深层更细致的特征，以找到同一类别的共同特征或者说找到不同子类的区别。从理论上讲，细粒度图像分类是一个比跨物种图像分类更难完成的任务，因此跨物种的图像特征差距比较明显，而对不同子类的物种来说，特征差距比较细微，这就要求网络需要具有更强的特征提取能力。

例如，使用ResNet-18模型作为基线网络，并使用CUB-200，Stanford Dogs和Standford Cars三种常用的细粒度图像数据集进行训练。基于ResNet-110模型，使用本发明实施例提供的训练方法和未使用本发明实施例提供的训练方法，其分类精度对比效果可以如下表所示：

通过上表可以看出，无论是使用何种评估标准进行评估，其分类精度均有明显提升。特别是在Stanford Dogs数据集上进行训练时，基于聚合推理得到的分类精度与基线网络的分类精度相比，提高了6.62个百分点。从而使得本发明实施例提供的训练方法得到的图像分类模型在对于细粒度识别上，也有明显的效果。

图11为本发明实施例提供一种图像分类模型训练装置200的功能模块示意图，该装置基本原理及产生的技术效果与前述对应的方法实施例相同，为简要描述，本实施例中未提及部分，可参考方法实施例中的相应内容。如图11所示，该装置包括训练样本模块210、图像类型预测模块220、损失值计算模块230以及训练进度判断模块240。

训练样本模块210，用于获取已标注类型标签的多张图像样本。

图像类型预测模块220，用于针对每一张图像样本，将图像样本输入至图像分类模型，在图像分类模型中的任意一层卷积层中，从图像样本中提取出多张特征图像，并预测得到图像样本的类型以及多张特征图像的类型标签。

损失值计算模块230，用于利用预测得到的图像样本的类型标签和特征图像的类型标签，以及该图像样本已标注的类型标签，计算得到图像分类模型的损失值。

训练进度判断模块240，用于判断损失值是否达到预期训练目标；若否，则基于损失值，调整图像分类模型的参数，并返回执行针对每一张图像样本，将图像样本输入至图像分类模型的步骤，直至最新得到的损失值达到预期训练目标。若是，则结束训练，得到训练后的图像分类模型。

所述损失值计算模块230还用于基于图像样本已标注的类型标签，标注从图像样本中提取出的每张特征图像的类型标签。根据特征图像缺少的通道，标注图像样本的通道标签和每张特征图像和通道标签。

在本申请的一些实施例中，挺了一种图像分类装置，图像分类装置，可以包括：

图像获取模块，用于获取待检测图像。

图像分类模块，用于将所述待检测图像输入上述的图像分类模型训练方法得到的图像分类模型中，得到预测的所述待检测图像的类型。

本发明实施例还提供一种存储介质，存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述方法实施例的步骤。

综上所述，本发明实施例提供了一种图像分类模型训练方法、图像分类方法、装置、电子设备及存储介质，在获取已标注类型标签的图像样本后，并将该图像样本输入至图像分类模型中后。在图像分类模型的任意一层卷积层中，从图像样本中提取出多张通道不同的特征图像。以使后续基于预测得到的图像样本的类型标签和特征图像的类型标签，以及图像样本已标注的类型标签，确定图像分类模型的损失值。后续可以基于该损失值对图像分类模型的网络参数进行反复调整，以得到训练成功的图像分类模型。由于其中，不同通道表征不同的图像特征。

由于特征图像只是在卷积层提取得到，并没有对输入图像分类模型的数据集进行扩张，即增大输入图像分类模型的图片数量，使得可以减少每次模型训练学习的时间，即可以浪费更少的时间。并且由于是通过在卷积层丢弃不同的通道，得到多张特征图像，使得也能确保训练完成后的图像分类模型的准确性。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像分类模型训练方法，其特征在于，应用于电子设备，所述方法包括：

获取已标注类型标签的多张图像样本；

判断所述损失值是否达到预期训练目标；

若是，则结束训练，得到训练后的图像分类模型。

2.根据权利要求1所述的方法，其特征在于，所述在所述图像分类模型中的任意一层卷积层中，从所述图像样本中提取出多张特征图像的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，所述分别丢弃所述图像样本包含的多个通道组中的一个通道组，以得到包含不同通道组的多张特征图像的步骤，包括：

重复上述步骤，直至得到所述图像样本的所有特征图像。

4.根据权利要求1所述的方法，其特征在于，所述从所述图像样本中提取出多张特征图像的步骤之后，所述方法还包括：

基于单一分类器，预测得到所述图像样本的类型标签；

5.根据权利要求4所述的方法，其特征在于，所述基于联合分类器，预测得到所述图像样本的类型标签和通道标签，以及所述特征图像的类型标签和通道标签的步骤，包括：

6.根据权利要求4所述的方法，其特征在于，所述基于单一分类器，预测得到所述图像样本的类型标签的步骤，包括：

7.根据权利要求4所述的方法，其特征在于，所述基于单一分类器，预测得到所述图像样本的类型标签的步骤，包括：

8.一种图像分类方法，其特征在于，应用于电子设备，所述方法包括：

获取待检测图像；

将所述待检测图像输入利用如权利要求1-7任意一项所述的图像分类模型训练方法得到的图像分类模型中，得到预测的所述待检测图像的类型。

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1-7中任一项的图像分类模型训练方法或权利要求8的图像分类方法的各个步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1-7中任一项的图像分类模型训练方法或权利要求8的图像分类方法的各个步骤。