CN115496955A

CN115496955A - 图像分类模型训练方法、图像分类方法、设备和介质

Info

Publication number: CN115496955A
Application number: CN202211459133.6A
Authority: CN
Inventors: 胡季宏; 许莹莹; 刘婧; 陈延伟; 童若锋; 林兰芬; 李劲松
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-11-18
Filing date: 2022-11-18
Publication date: 2022-12-20
Anticipated expiration: 2042-11-18
Also published as: CN115496955B

Abstract

本申请涉及一种图像分类模型训练方法、图像分类方法、设备和介质，通过将有标签样本输入至图像分类模型，得到监督损失；将无标签样本输入至图像分类模型，得到伪标签和半监督损失，无标签样本由无标签数据集进行不同程度的图像增强处理得到；根据无标签样本的伪标签的属性和对应的图像增强处理的程度，筛选相应无标签样本作为图像分类模型中预设分类的正样本、负样本和锚点，将正样本、负样本和锚点输入至损失函数进行计算，得到对比学习损失，负样本携带有不可靠伪标签；根据监督损失、半监督损失和对比学习损失，确定总损失，将总损失输入至图像分类模型进行反向传播以更新图像分类模型的参数，提升了模型的预测精度，加快了模型收敛速度。

Description

图像分类模型训练方法、图像分类方法、设备和介质

技术领域

本申请涉及人工智能领域，特别是涉及一种图像分类模型训练方法、图像分类方法、计算机设备和计算机可读存储介质。

背景技术

半监督学习（Semi-Supervised Learning，SSL），指的是能够同时利用一小部分标签样本和大量无标签样本来训练神经网络模型的一种方法，能够降低对样本标签的依赖。以下是相关技术基于半监督学习训练图像分类模型的步骤：

步骤1、对于有标签样本，采用和传统监督学习相同的训练手段，即通过图像分类模型抽取原始图像特征、输出预测结果，将预测结果与实际标签进行交叉熵损失（CrossEntropy Loss）计算，得到监督损失；

步骤2、对于无标签样本，对同一张输入的原始图像分别进行一强一弱两种图像增强，从而得到两张来源于同一图像但特征不同的新图像，然后分别输入图像分类模型抽取特征、输出预测结果；

步骤3、将经过弱图像增强得到的图像的预测结果作为伪标签，与经过强图像增强得到的图像的预测结果进行交叉熵损失计算，作为半监督损失；

步骤4、将半监督损失与监督损失按照一定系数混合后作为最终的总损失，通过反向传播算法更新模型参数。

对于标签类别少、类间差异大的简单数据集而言，模型的预测精度较高；然而，对于标签类别多、类间差异小的复杂数据集而言，模型的预测精度会有大幅度下滑。例如，在Cifar-10数据集中，总共有10类且每一类提供4个有标签样本，模型的预测精度可达88.61%。在Cifar-100数据集中，总共有100类且每一类提供4个样本，模型的预测精度只有53.38%。而在Imagenet-1k数据集中，总共有100k类且每一类提供100个样本，模型的预测精度也仅有56.34%。

针对相关技术中存在基于半监督学习训练得到的图像分类模型，对复杂数据集的预测精度较低的问题，目前还没有提出有效的解决方案。

发明内容

在本实施例中提供了一种图像分类模型训练方法、图像分类方法、计算机设备和计算机可读存储介质，以解决相关技术中，基于半监督学习训练得到的图像分类模型，对复杂数据集的预测精度较低的问题。

第一个方面，在本实施例中提供了一种图像分类模型训练方法，包括：

将有标签样本输入至所述图像分类模型，得到监督损失；

将无标签样本输入至所述图像分类模型，得到伪标签和半监督损失，其中，所述无标签样本包括第一无标签样本和第二无标签样本，所述第一无标签样本和所述第二无标签样本由无标签数据集进行不同程度的图像增强处理得到；

根据所述无标签样本的伪标签的属性和对应的图像增强处理的程度，筛选相应所述无标签样本作为所述图像分类模型中预设分类的正样本、负样本和锚点，并将所述正样本、所述负样本和所述锚点输入至损失函数进行计算，得到对比学习损失，其中，所述负样本携带有不可靠伪标签；

根据所述监督损失、所述半监督损失和所述对比学习损失，确定总损失，并将所述总损失输入至所述图像分类模型进行反向传播以更新所述图像分类模型的参数。

在其中的一些实施例中，所述将无标签样本输入至所述图像分类模型，得到伪标签，包括：

将所述第一无标签样本输入至所述图像分类模型进行前向传播，得到第一预测结果，其中，所述第一无标签样本由所述无标签数据集进行弱图像增强处理得到；

根据所述第一预测结果确定所述伪标签。

在其中的一些实施例中，所述将所述正样本、所述负样本和所述锚点输入至损失函数进行计算，得到对比学习损失，包括：

将所述第一无标签样本的图像特征向量进行编号后存储至列表，并根据所述图像分类模型的输出分类个数设置相应数目的队列；

在所述图像分类模型的每一批次学习过程中，将所述负样本进行顺序编号后存储至相应队列中，并按照预设长度实时维护所述队列；

从所述队列中随机抽取预设数目的负样本编号，并根据抽取的所述负样本编号，从所述列表中提取相应的图像特征向量参与所述损失函数的计算。

在其中的一些实施例中，所述将无标签样本输入至所述图像分类模型，得到半监督损失，包括：

将所述第二无标签样本输入至所述图像分类模型进行前向传播，得到第二预测结果，其中，所述第二无标签样本由所述无标签数据集进行强图像增强处理得到；

在所述伪标签中选取可靠伪标签与所述第二预测结果进行交叉熵损失计算，得到所述半监督损失。

在其中的一些实施例中，所述根据所述无标签样本的伪标签的属性和对应的图像增强处理的程度，筛选相应所述无标签样本作为所述图像分类模型中预设分类的正样本、负样本和锚点，包括：

根据携带有可靠伪标签的所述第一无标签样本，确定所述正样本；

根据携带有不可靠伪标签的所述第一无标签样本，确定所述负样本；

根据携带有可靠伪标签的所述第二无标签样本，确定所述锚点。

在其中的一些实施例中，确定所述伪标签的属性包括：

在第一预测结果的最大值大于第一阈值，且不确定性熵值小于第二阈值的情况下，将对应于该第一预测结果的伪标签判定为可靠伪标签；或者，

在第一预测结果按照置信度降序排列时所述预设分类所处的位置次序大于第三阈值，且不确定性熵值大于第四阈值的情况下，将对应于该第一预测结果的伪标签判定为不可靠伪标签；

其中，所述第一预测结果通过将所述第一无标签样本输入至所述图像分类模型进行前向传播得到。

在其中的一些实施例中，所述不同程度的图像增强处理包括：弱图像增强处理，对所述无标签数据集执行刚性变换；强图像增强处理，对所述无标签数据集执行色彩变换和/或仿射变换。

在其中的一些实施例中，所述将所述有标签样本输入至所述图像分类模型，得到监督损失，包括：

将所述有标签样本输入至所述图像分类模型进行前向传播，得到第三预测结果；

将所述第三预测结果与预设标签样本进行交叉熵损失计算，得到所述监督损失。

在其中的一些实施例中，所述根据所述监督损失、所述半监督损失和所述对比学习损失，确定总损失，包括：

根据预设系数，对所述监督损失、所述半监督损失和所述对比学习损失执行加权求和，得到所述总损失。

在其中的一些实施例中，所述图像分类模型包括：编码器、分类器和多层感知机，所述编码器分别与所述分类器和所述多层感知机连接。

在其中的一些实施例中，所述将所述总损失输入至所述图像分类模型进行反向传播以更新所述图像分类模型的参数，包括：

将所述总损失输入至所述图像分类模型进行反向传播，分别计算所述编码器、所述分类器和所述多层感知机的参数梯度，并根据所述参数梯度更新所述图像分类模型的参数。

在其中的一些实施例中，所述有标签样本和无标签样本包括：医学图像、车载相机拍摄的图像或者安防监控相机拍摄的图像。

第二个方面，在本实施例中提供了一种图像分类方法，包括：将待预测图像输入至图像分类模型，得到预测标签；根据所述预测标签，得到图像分类结果；其中，所述图像分类模型由上述第一方面所述的图像分类模型训练方法训练得到。

第三个方面，在本实施例中提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面或者第二方面所述的方法。

第四个方面，在本实施例中提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面或者第二方面所述的方法的步骤。

与相关技术相比，在本实施例中提供的图像分类模型训练方法、图像分类方法、计算机设备和计算机可读存储介质，通过将有标签样本输入至图像分类模型，得到监督损失；将无标签样本输入至图像分类模型，得到伪标签和半监督损失，其中，无标签样本包括第一无标签样本和第二无标签样本，第一无标签样本和第二无标签样本由无标签数据集进行不同程度的图像增强处理得到；根据无标签样本的伪标签的属性和对应的图像增强处理的程度，筛选相应无标签样本作为图像分类模型中预设分类的正样本、负样本和锚点，并将正样本、负样本和锚点输入至损失函数进行计算，得到对比学习损失，其中，负样本携带有不可靠伪标签；根据监督损失、半监督损失和对比学习损失，确定总损失，并将总损失输入至图像分类模型进行反向传播以更新图像分类模型的参数，提升了模型的预测精度，加快了模型收敛速度。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请一实施例中图像分类模型的结构示意图；

图2是本申请一实施例中图像分类模型训练方法的流程图一；

图3是本申请一实施例中图像分类模型训练方法的流程图二；

图4是本申请一实施例中图像分类方法的流程图；

图5是本申请一实施例中计算机设备的结构示意图。

具体实施方式

为更清楚地理解本申请的目的、技术方案和优点，下面结合附图和实施例，对本申请进行了描述和说明。

除另作定义外，本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制，它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体，其目的是涵盖不排他的包含；例如，包含一系列步骤或模块（单元）的过程、方法和系统、产品或设备并未限定于列出的步骤或模块（单元），而可包括未列出的步骤或模块（单元），或者可包括这些过程、方法、产品或设备固有的其他步骤或模块（单元）。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接，而可以包括电气连接，无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。通常情况下，字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等，只是对相似对象进行区分，并不代表针对对象的特定排序。

本申请提供的实施例可以运行在任何具有计算和存储能力的设备上，如手机、平板电脑、PC(Personal Computer，个人电脑)、笔记本、服务器等设备；还可以由运行在两个或两个以上设备的逻辑节点来实现本说明书实施例中的各项功能。

经研究发现，对于复杂数据集（例如标签类别多、类间差异小）而言，难以获得可靠的伪标签是导致图像分类模型预测精度下滑的主要原因。在基于半监督学习训练得到的图像分类模型中，其对于无标签数据的筛选机制，是只有在模型对经过弱图像增强的输入数据的预测置信度的最大值大于预设阈值时，才会将该弱图像增强后的预测结果作为伪标签与强图像增强后的预测结果进行交叉熵损失计算。一旦数据集变复杂，模型难以对输入数据给出高置信度的预测结果，使得能够通过置信度阈值筛选的无标签数据比例大大降低，从而由于训练过程中大量无标签样本的信息未被有效利用，导致模型性能降低、训练时间延长等一系列问题。

针对上述问题，在一个实施例中，图1给出了图像分类模型的结构示意图。如图1所示，该图像分类模型包括：编码器、分类器和多层感知机，编码器分别与分类器和多层感知机连接。其中，编码器用于抽取输入图像的特征，输出预设维度的图像高维特征；分类器用于将编码器抽取的图像高维特征转化为模型类别预测结果；多层感知机用于将编码器抽取的图像高维特征降维后转化为用于对比学习的图像特征向量。本实施例的图像分类模型，所使用的训练样本包括但不限于医学图像、车载相机拍摄的图像或者安防监控相机拍摄的图像。这些图像的特点是标签类别多、类间差异小。相关技术通过人工标注方式给样本增添标签，耗时耗力。而且，在一些特殊领域，如医学影像分析，需要该领域的专家才能够完成制作标签的工作，标签的获得成本就更加昂贵。本实施例采用半监督学习训练图像分类模型，减少对数据标签的依赖，而且还对半监督学习做出改进，提升图像分类模型的预测精度。

结合图1，图2给出了一种图像分类模型训练方法的流程图，以该方法应用于终端为例进行说明，包括如下步骤：

步骤S201，将有标签样本输入至图像分类模型，得到监督损失。

终端将有标签样本输入至图像分类模型进行前向传播，得到第三预测结果；将第三预测结果与预设标签样本进行交叉熵损失计算，得到监督损失。示例性地，终端将有标签样本和无标签样本输入模型执行依次进行编码器和分类器的前向计算，得到模型预测结果；通过Softmax函数将模型预测结果转化为预测概率，最后通过预测结果与实际标签的交叉熵损失来计算得到监督损失Ls。Ls具体计算公式如下：

其中，Ice代表交叉熵计算，Ism代表Softmax函数，“。”代表复合函数操作符，表示两个函数依次使用，即先计算函数e，再将e的输出结果输入至函数f。

可选的，有标签样本，可以是对有标签数据集进行弱图像增强处理得到的样本，且所使用的弱图像增强处理方法与处理无标签数据集类似。示例性地，在每批次学习过程中，终端从有标签数据集中抽取数量大小为Nl的样本，并对该样本进行弱图像增强处理，得到用于训练的有标签样样本

，

为该批次学习有标签样本中第i张经过弱图像增强的图像，

为该图像对应的标签类别。

步骤S202，将无标签样本输入至图像分类模型，得到伪标签和半监督损失，其中，无标签样本包括第一无标签样本和第二无标签样本，第一无标签样本和第二无标签样本由无标签数据集进行不同程度的图像增强处理得到。

不同程度的图像增强处理，包括弱图像增强处理，对无标签数据集执行刚性变换，较大程度地保留图像原始特征，例如旋转、平移、伸缩或者裁剪；强图像增强处理，对无标签数据集执行色彩变换和/或仿射变换，较大程度地改变图像原始特征，其中，强图像增强处理可以是在弱图像增强处理的基础上，叠加图像扭曲处理。

终端可以从无标签数据集中抽取数量大小Nu的样本，并对该样本分别进行强弱图像增强处理，最终得到的无标签样本

，

为该次训练无标签样本中第i张经过弱图像增强处理的图像，

为该次训练无标签样本中第i张经过强图像增强处理的图像。

可选的，终端将第一无标签样本输入至图像分类模型进行前向传播，得到第一预测结果，根据第一预测结果确定伪标签，其中，第一无标签样本由无标签数据集进行弱图像增强处理得到。其中，根据第一预测结果确定无标签样本的伪标签，指的是将第一预测结果的最大值（one-hot策略）作为相应无标签样本的伪标签，也即相应第一无标签样本和第二无标签样本的伪标签。其中，伪标签具有是否可靠的属性，即伪标签可以划分为可靠伪标签与不可靠伪标签。

示例性地，将经过强弱图像增强得到的样本输入模型，依次进行编码器，分类器以及多层感知机等模块计算得到弱增强图像的模型分类结果

、图像表征

，以及强增强图像的模型分类结果

、图像表征

。同时对弱增强的分类结果计算熵值

，作为判断标签可靠性的依据。各个结果计算公式如下：

其中，C为模型分类层的维度，Ism代表Softmax函数，Inorm代表L2正则化函数，将图像特征向量的欧几里得范数（Euclidean norm）调整为1。

可选的，终端将第二无标签样本输入至图像分类模型进行前向传播，得到第二预测结果，在伪标签中选取可靠伪标签与第二预测结果进行交叉熵损失计算，得到半监督损失，其中，第二无标签样本由无标签数据集进行强图像增强处理得到。

步骤S203，根据无标签样本的伪标签的属性和对应的图像增强处理的程度，筛选相应无标签样本作为图像分类模型中预设分类的正样本、负样本和锚点，并将正样本、负样本和锚点输入至损失函数进行计算，得到对比学习损失，其中，负样本携带有不可靠伪标签。

可选的，终端根据无标签样本的伪标签的属性和对应的图像增强处理的程度，筛选相应无标签样本作为图像分类模型中预设分类的正样本、负样本和锚点，包括：根据携带有可靠伪标签的第一无标签样本，确定正样本；根据携带有不可靠伪标签的第一无标签样本，确定负样本；根据携带有可靠伪标签的第二无标签样本，确定锚点。

示例性地，使用infoNCE函数计算对比学习损失Lcont，从而将不可靠伪标签样本作为特定类别的负样本纳入模型训练过程中。对比学习损失的计算公式如下：

其中，大写C表示图像分类模型的类别数目，小写c表示图像分类模型中的特定类别，M为每一类别的锚点数目。Zci为c类第i个锚点的图像特征向量，

为c类第i个锚点的正样本图像特征向量，

为c类第j个负样本图像特征向量，τ温度系数为模型超参数，N为负样本的数目。

可选的，本实施例对正样本、负样本、锚点制定了不同的选择策略。对于类别c，其正样本来自于单批次学习无标签样本中弱增强图像的图像特征向量，且需要满足与在计算半监督损失时相同的限制条件，即弱增强图像分类结果的最大值大于置信度阈值ϑ，不确定性熵值小于不确定性阈值μ，分类结果的最大值所属类别为c。正样本的选择计算公式如下：

类别c的锚点来自于单批次学习无标签样本中强增强图像的图像特征向量，且其属于相同原始图像的弱增强图像要满足类别c正样本的筛选标准。锚点的选择计算公式如下：

类别c的负样本来自于单批次学习无标签样本中弱增强图像的图像特征向量，且需满足不确定性熵值大于不确定性阈值φ（即第四阈值），将图像分类结果按照置信度从大到小排列类别c所处的位置要大于ε。Oi(c)表示对于第i个无标签样本，其从大到小排列的置信度顺序中类别c所处的位次。负样本的选择计算公式如下：

步骤S204，根据监督损失、半监督损失和对比学习损失，确定总损失，并将总损失输入至图像分类模型进行反向传播以更新图像分类模型的参数。

可以设置预设系数，对监督损失、半监督损失和对比学习损失执行加权求和，得到总损失。总损失计算公式如下：

其中，

为半监督损失的加权系数，

为对比学习损失的加权系数。

在获得总损失后，将总损失输入至图像分类模型进行反向传播，分别计算编码器、分类器和多层感知机的参数梯度，并根据参数梯度更新图像分类模型的参数。示例性地，通过神经网络反向传播算法，计算图像分类模型中编码器、分类器以及多层感知机各个模块的参数梯度，通过梯度下降算法更新模型中的参数。可选的，终端可以循环执行步骤S201至S204，直至图像分类模型的参数收敛或者达到预设迭代次数。

在上述步骤S201至S204中，利用对比学习策略提升通过置信度阈值筛选的无标签样本的比例，将带有不可靠伪标签的无标签样本转化为预设分类的负样本加入模型训练过程，以充分利用无标签样本的信息，从而提升了模型的预测精度。此外，正是由于充分利用无标签样本的信息，还加快了模型收敛速度，节省了终端的计算时间。

在一个实施例中，在不改变原本半监督图像分类算法的基础上，可以将上述实施例提供的图像分类模型训练方法，作为插件加入到相关技术的图像分类模型训练过程中，从而提高模型训练的有效性。

在一个实施例中，给出了划分伪标签属性的方法。关于确定可靠伪标签，可以是在第一预测结果的最大值大于第一阈值，且不确定性熵值小于第二阈值的情况下，将对应于该第一预测结果的伪标签判定为可靠伪标签。可选的，第一阈值为预测结果的置信度阈值。关于确定不可靠伪标签，可以是在第一预测结果按照置信度降序排列时预设分类所处的位置次序大于第三阈值，且不确定性熵值大于第四阈值的情况下，将对应于该第一预测结果的伪标签判定为不可靠伪标签。

示例性地，为避免错误伪标签的影响，预先设定置信度阈值ϑ（即第一阈值）以及熵值阈值μ（即第二阈值），只有当模型对弱增强图像分类结果的最大值大于置信度阈值ϑ且熵值小于熵值阈值μ时，才进行损失函数计算。半监督损失Lu的计算公式如下：

考虑到计算对比学习损失时，为保证模型训练的有效性，应提高较大的负样本数量。但是，在单次模型训练中，由于计算资源限制，或者受样本类别不平衡性的影响，往往无法给每个类别都分配足够数量的负样本。为解决该问题，在一个实施例中，给出了计算对比学习损失的方法。将第一无标签样本的图像特征向量进行编号后存储至列表，并根据图像分类模型的输出分类个数设置相应数目的队列；在图像分类模型的每一批次学习过程中，将负样本进行顺序编号后存储至相应队列中，并按照预设长度实时维护队列；从队列中随机抽取预设数目的负样本编号，并根据抽取的负样本编号，从列表中提取相应的图像特征向量参与损失函数的计算。如此设置，能够充分利用终端的计算资源，抵抗样本类别不平衡性的影响。

示例性地，首先通过一个列表保存所有弱增强无标签图像的图像特征向量，并随着模型的训练过程更新该列表中的信息。同时还维护C个队列，每个队列长度为L。其中C为图像分类模型的类别数目，L为算法超算数，用于控制队列长度。在每个批次的学习过程中，将根据上述规则挑选出的负样本编号压入对应类别的队列末尾位置，当队列总长度超过设定的长度L时，剔除队列中位置最前的样本。每次挑选负样本时，则从相应队列中随机抽取一定数量的负样本编号，再根据负样本编号从图像特征向量的列表中提取相应的图像特征向量参与损失函数计算。

在一个实施例中，给出了另一种图像分类模型训练方法。有标签样本和无标签样本取自Cifar-100数据集（https://www.cs.toronto.edu/~kriz/cifar.html），该数据集的图像共有100个类别，其中，训练集共有50000张图像，每个类别500张，测试集共有10000张图像，每个类别100张。为测试图像分类模型的性能，每次测试随机挑选有标签样本400张，每个类别4张，无标签样本则使用全部数据集数据，共50000张。

请参阅图3，本实施例具体实施过程包含如下步骤：

步骤S301，构建图像分类模型。图像分类模型包括编码器、分类器和多层感知机，编码器分别与分类器和多层感知机连接。编码器采用Wideresnet-28网络，其最后全局池化层的输出图像高维特征维度为512。分类器采用Jianfeng Wang提出的神经过程（NeuralProcess）模块，以提高分类器生成的伪标签质量。多层感知机由两层线性全连接神经网络组成，其第一层输入特征维度为512，输出特征维度为512；第二层输入特征维度为512，输出特征维度为128。在第一全连接层与第二全连接层中间有ReLu激活函数层。最终多层感知机将编码器抽取的512维图像特征，转化为用于对比学习的128维图像特征向量。

步骤S302，构建列表和队列。其中，列表用于储存所有无标签样本的图像特征向量，长度为无标签样本的数量，即50000。队列用于储存所有类别负样本编号，队列个数为样本标签类别数目，即100，队列长度为算法超参数，设为3000。

步骤S303，采用SGD作为模型更新器，其参数设置包括：权重衰减（weight-decay）为0.001，动量（momentum）为0.9，初始学习速率（learning rate）为0.03，随后余弦衰减至0。

步骤S304，随机抽取有标签样本和无标签样本。具体地，每次随机地从有标签样本集中抽取有标签样本和无标签样本64例，并对每个样本执行包括随机翻转、裁剪在内的弱图像增强得到单次训练用的有标签样本

，其中，Nl为64。同时，从无标签样本中随机地抽取有标签样本和无标签样本448例，并对每个样本分别执行包括随机翻转、裁剪在内的弱图像增强，以及参考RandAugment算法策略的包含了图像扭曲、对比度变换等在内的强图像增强，得到单次训练用的无标签样本

，Nu为448。

步骤S305，将有标签样本输入图像分类模型。具体地，将有标签样本依次通过编码器和分类器进行模型前向运算，得到模型预测结果，之后通过Softmax函数将模型预测结果转化为预测概率，最后通过预测结果与实际标签的交叉熵损失来计算得到监督损失Ls。Ls具体计算公式如下：

其中，

代表交叉熵计算，

代表Softmax函数。

步骤S306，将无标签样本输入图像分类模型。具体地，将无标签样本

输入模型进行前向运算，分类层的输出结果经过Softmax函数运算后得到模型预测结果

，多层感知机输出的图像特征向量为

。同时，对弱增强样本的模型预测结果执行熵值运算得到

，用作后续标签可靠程度的判断依据之一，以及将该次运算得到的弱增强样本的图像特征向量根据样本编号更新到图像特征向量列表的对应位置。

步骤S307，计算半监督损失。具体地，将模型对弱增强图像的分类结果的最大值（one-hot策略）作为该无标签样本伪标签，然后与模型对强增强图像的分类结果进行交叉熵损失计算，从而得到半监督损失Lu。为避免错误伪标签的影响，预先设定置信度阈值为0.95以及熵值阈值0.4，只有当模型对弱增强图像分类结果的最大值大于置信度阈值且熵值小于熵值阈值时，将该弱增强图像分类结果的最大值判定为可靠伪标签，只对拥有可靠伪标签的样本及其强图像增强的计算结果进行损失函数计算。

步骤S308，确定正样本、负样本和锚点。具体地，将步骤6中挑选出的带有可靠伪标签的强增强图像的图像特征向量作为锚点，将其对应的弱增强图像的图像特征向量的平均值作为正样本，其锚点和正样本所属的类别均为可靠伪标签的置信度最大值所在的类别。负样本的挑选策略需满足以下条件：假定对类别c寻找其负样本，首先，将弱增强图像的模型预测结果置信度按照从大到小的顺序排列，类别c所处的次序要大于20；其次，将该次训练的所有448个无标签样本的熵值进行排序，弱增强图像的模型预测结果的熵值要处于最高的20%。将挑选出的各个类别负样本的样本序号放入其类别对应的负样本序号队列中。检查每一类别负样本序号队列的长度，若长度超过限定长度3000，则去除队列最前方的样本，直到队列长度等于3000。

步骤S309，计算每一类别的对比学习损失。具体地，依次对Cifar-100数据集中100个类别，匹配步骤S307中挑选出的锚点、正样本，并从类别对应的负样本序号队列中随机抽取锚点数量256倍的负样本序号，然后根据序号从图像特征向量列表中抽取对应的图像特征向量作为负样本。当且仅当正样本和锚点数目均大于零，且负样本数目达到锚点数量256倍的情况下，通过infoNCE损失计算每一类别的对比学习损失。该次训练的整体对比学习损失为Lcont为各类别对比学习损失的平均值。

步骤S310，计算总损失。具体地，将该次学习的监督损失、半监督损失以及对比学习损失进行加权求和。总损失计算公式如下：

其中，

为半监督损失的加权系数本实施例中设为1，

为对比学习损失的加权系数，本实施例中随着训练进行逐步由0.1上升为1。

步骤S311，根据神经网络反向传播算法处理总损失，得到模型中所有参数的梯度，并使用SGD更新器更新模型参数。

重复步骤S304至步骤S311，直到图像分类模型收敛，或者达到预先设定的最大学习次数500000次。

以下是本实施例中图像分类模型训练方法和传统训练方法的实验对照结果。共进行了五次测试，其中序号1为传统训练方法（例如FixMatch算法）的实验结果。序号2，3与序号4，5为两组重复试验，序号2，3共同使用一组有标签样本，序号4，5共同使用另一组有标签样本。序号3，5在原始FixMatch的基础上，将分类器由单层全连接层增加了神经过程模块，而序号2，4在3，5的基础上引入了对比学习模块，从而将不可靠伪标签引入模型训练过程。使用精确度作为评价指标，5次测试的结果如下表所示。结果表明，通过对比学习引入不可靠伪标签后模型精确度有1.7%的提升，从而验证了本申请的图像分类模型训练方法的有效性。

图像分类模型预测结果对照表

在一个实施例中，请参见图4，为本实施例提供的一种图像分类的流程图，该流程包括如下步骤：

步骤S401，将待预测图像输入至图像分类模型，得到预测标签；

步骤S402，根据预测标签，得到图像分类结果；其中，图像分类模型由上述任一实施例的图像分类模型训练方法训练得到。

在一个实施例中，待预测图像包括：医学图像、车载相机拍摄的图像或者安防监控相机拍摄的图像。

在一个实施例中，还提供了一种图像分类模型训练装置，包括：第一输入模块，用于将有标签样本输入至图像分类模型，得到监督损失；第二输入模块，将无标签样本输入至图像分类模型，得到伪标签和半监督损失，其中，无标签样本包括第一无标签样本和第二无标签样本，第一无标签样本和第二无标签样本由无标签数据集进行不同程度的图像增强处理得到；筛选模块，用于根据无标签样本的伪标签的属性和对应的图像增强处理的程度，筛选相应无标签样本作为图像分类模型中预设分类的正样本、负样本和锚点，并将正样本、负样本和锚点输入至损失函数进行计算，得到对比学习损失，其中，负样本携带有不可靠伪标签；参数调整模块，用于根据监督损失、半监督损失和对比学习损失，确定总损失，并将总损失输入至图像分类模型进行反向传播以更新图像分类模型的参数。

在一个实施例中，还提供了一种图像分类装置，包括：第三输入模块，用于将待预测图像输入至图像分类模型，得到预测标签；输出模块，用于根据预测标签，得到图像分类结果；其中，图像分类模型由上述任一实施例的图像分类模型训练方法训练得到。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，其特征在于，处理器执行计算机程序时实现上述任一项方法实施例。可选的，该计算机设备可以是终端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种图像分类模型训练方法或者图像分类方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

步骤S201，将有标签样本输入至图像分类模型，得到监督损失；

步骤S202，将无标签样本输入至图像分类模型，得到伪标签和半监督损失，其中，无标签样本包括第一无标签样本和第二无标签样本，第一无标签样本和第二无标签样本由无标签数据集进行不同程度的图像增强处理得到；

步骤S203，根据无标签样本的伪标签的属性和对应的图像增强处理的程度，筛选相应无标签样本作为图像分类模型中预设分类的正样本、负样本和锚点，并将正样本、负样本和锚点输入至损失函数进行计算，得到对比学习损失，其中，负样本携带有不可靠伪标签；

可选地，在本实施例中，上述处理器还可以被设置为通过计算机程序执行以下步骤：

需要说明的是，在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，在本实施例中不再赘述。

此外，结合上述实施例中提供的图像分类模型训练方法或者图像分类方法，在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种图像分类模型训练方法或者图像分类方法的步骤。

应该明白的是，这里描述的具体实施例只是用来解释这个应用，而不是用来对它进行限定。根据本申请提供的实施例，本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例，均属本申请保护范围。

显然，附图只是本申请的一些例子或实施例，对本领域的普通技术人员来说，也可以根据这些附图将本申请适用于其他类似情况，但无需付出创造性劳动。另外，可以理解的是，尽管在此开发过程中所做的工作可能是复杂和漫长的，但是，对于本领域的普通技术人员来说，根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段，不应被视为本申请公开的内容不足。

“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例，也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是，本申请中描述的实施例在没有冲突的情况下，可以与其它实施例结合。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。本申请实施例中涉及对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对专利保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种图像分类模型训练方法，其特征在于，包括：

将有标签样本输入至所述图像分类模型，得到监督损失；

2.根据权利要求1所述的图像分类模型训练方法，其特征在于，所述将无标签样本输入至所述图像分类模型，得到伪标签，包括：

根据所述第一预测结果确定所述伪标签。

3.根据权利要求1所述的图像分类模型训练方法，其特征在于，所述将所述正样本、所述负样本和所述锚点输入至损失函数进行计算，得到对比学习损失，包括：

4.根据权利要求1所述的图像分类模型训练方法，其特征在于，所述将无标签样本输入至所述图像分类模型，得到半监督损失，包括：

5.根据权利要求1所述的图像分类模型训练方法，其特征在于，所述根据所述无标签样本的伪标签的属性和对应的图像增强处理的程度，筛选相应所述无标签样本作为所述图像分类模型中预设分类的正样本、负样本和锚点，包括：

6.根据权利要求1至权利要求5中任一项所述的图像分类模型训练方法，其特征在于，确定所述伪标签的属性包括：

7.根据权利要求1至权利要求5中任一项所述的图像分类模型训练方法，其特征在于，所述不同程度的图像增强处理包括：弱图像增强处理，对所述无标签数据集执行刚性变换；强图像增强处理，对所述无标签数据集执行色彩变换和/或仿射变换。

8.根据权利要求1所述的图像分类模型训练方法，其特征在于，所述将所述有标签样本输入至所述图像分类模型，得到监督损失，包括：

9.根据权利要求1所述的图像分类模型训练方法，其特征在于，所述根据所述监督损失、所述半监督损失和所述对比学习损失，确定总损失，包括：

10.根据权利要求1所述的图像分类模型训练方法，其特征在于，所述图像分类模型包括：编码器、分类器和多层感知机，所述编码器分别与所述分类器和所述多层感知机连接。

11.根据权利要求10所述的图像分类模型训练方法，其特征在于，所述将所述总损失输入至所述图像分类模型进行反向传播以更新所述图像分类模型的参数，包括：

12.根据权利要求1所述的图像分类模型训练方法，其特征在于，所述有标签样本和无标签样本包括：医学图像、车载相机拍摄的图像或者安防监控相机拍摄的图像。

13.一种图像分类方法，其特征在于，包括：将待预测图像输入至图像分类模型，得到预测标签；根据所述预测标签，得到图像分类结果；其中，所述图像分类模型由权利要求1至权利要求12中任一项所述的图像分类模型训练方法训练得到。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现权利要求1至权利要求12中任一项所述的图像分类模型训练方法或者实现权利要求13所述的图像分类方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1至权利要求12中任一项所述的图像分类模型训练方法的步骤或者实现权利要求13所述的图像分类方法的步骤。