CN116612328A

CN116612328A - 模型训练方法、图像分类方法及装置

Info

Publication number: CN116612328A
Application number: CN202310587511.7A
Authority: CN
Inventors: 蒋乐; 龚福才; 黄雨安; 李国明; 叶晓舟; 欧阳晔
Original assignee: Asiainfo Technologies China Inc
Current assignee: Asiainfo Technologies China Inc
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2023-08-18

Abstract

本申请实施例提供了一种模型训练方法、图像分类方法及装置，涉及计算机视觉与模式识别技术领域。该方法包括：获取多个第一样本图像；基于多个第一样本图像对初始分类模型进行至少一次训练操作，将符合预设训练结束条件的初始分类模型作为训练好的分类模型；训练操作包括：确定每个第一样本图像中的样本目标对象所在的预测区域；针对每个第一样本图像，通过所确定的预测区域对第一样本图像进行切分，获取第一样本图像对应的至少一个第二样本图像；确定至少一个第二样本图像分别对应的预测类别，以及损失函数；基于损失函数对初始分类模型的参数进行调整。本申请实施例提高了训练得到的分类模型的准确性。

Description

模型训练方法、图像分类方法及装置

技术领域

本申请涉及计算机视觉与模式识别技术领域，具体而言，本申请涉及一种模型训练方法、图像分类方法及装置。

背景技术

随着机器学习的发展，神经网络模型得到了越来越广泛的应用。神经网络模型在模型训练阶段往往需要大量的训练数据，使得神经网络模型具有更好的性能。但是，在实际应用中，可能无法获得大量的训练数据，针对这种情况，小样本学习方法应运而生。

在图像分类的应用场景中，现有的小样本学习方法通常是通过对已有的样本图像进行网格划分来达到扩充样本数量的目的，当一些样本目标对象较小或者位于对应图像的某个局部区域时，网格划分后得到的图像包含的是图像的背景，并不包含样本目标对象，导致这些图像的实际内容与其对应的标签不一致，进而使得通过这些图像训练得到的模型的准确性较低。

发明内容

本申请实施例提供了一种模型训练方法、图像分类方法及装置，可以解决现有技术中训练得到的模型的准确性较低的问题。

所述技术方案如下：

根据本申请实施例的一个方面，提供了一种模型训练方法，该方法包括：

获取多个第一样本图像；

基于所述多个第一样本图像对初始分类模型进行至少一次训练操作，将符合预设训练结束条件的初始分类模型作为训练好的分类模型；

其中，所述训练操作包括：

确定每个第一样本图像中的样本目标对象所在的预测区域；

针对每个第一样本图像，通过所确定的预测区域对所述第一样本图像进行切分，获取所述第一样本图像对应的至少一个第二样本图像；所述第二样本图像包括所述样本目标对象所在的预测区域中的至少部分区域；

确定所述至少一个第二样本图像分别对应的预测类别，基于各个样本目标对象分别对应的真实类别和各个第二样本图像分别对应预测类别，确定损失函数；

基于所述损失函数对所述初始分类模型的参数进行调整，将调整参数后的初始分类模型作为下一次训练操作对应的初始分类模型。

可选地，针对每个第一样本图像，所述通过所确定的预测区域对所述第一样本图像进行切分，获取所述第一样本图像对应的至少一个第二样本图像，包括：

基于所述第一样本图像中样本目标对象所在的预测区域对应的至少一个检测框，确定所述第一样本图像的至少一个候选区域；

基于所确定的至少一个所述候选区域，分别生成对应的至少一个第二样本图像。

可选地，所述候选区域包括第一候选区域和第二候选区域；

所述基于所述第一样本图像中样本目标对象所在的预测区域对应的至少一个检测框，确定所述第一样本图像的至少一个候选区域，包括：

确定与每一检测框对应的第一候选区域；

确定各个检测框的最小外接矩形区域，得到第二候选区域。

可选地，所述基于所确定的至少一个所述候选区域，分别生成对应的至少一个第二样本图像，包括：

基于至少一个所述候选区域，得到与至少一个所述候选区域分别对应的至少一个第三样本图像；

针对至少一个第三样本图像进行随机数据增强处理，得到至少一个第二样本图像。

可选地，所述随机数据增强处理包括以下至少一种：

随机擦除处理；

随机裁剪处理；

随机旋转处理；

随机噪声处理。

可选地，所述多个第一样本图像包括多个查询图像.与每一查询图像对应的至少一个类别相同的正例图像和与每一查询图像对应的至少一个类别不同的反例图像；

所述基于各个样本目标对象分别对应的真实类别和各个第二样本图像分别对应预测类别，确定损失函数，包括：

基于各个样本目标对象分别对应的真实类别，确定各个第二样本图像分别对应的标签类别；

基于各个第二样本图像分别对应的标签类别及其预测类别之间的第一差异性，确定第一损失函数；

基于属于同一类别的任意两个第二样本图像之间的第二差异性和不属于同一类别的任意两个第二样本图像之间的第三差异性，确定第二损失函数；

基于所述第一损失函数和所述第二损失函数，确定所述损失函数。

根据本申请实施例的一个方面，提供了一种图像分类方法，该方法包括：

获取待分类的第一图像；

通过训练好的分类模型执行分类操作，得到所述第一图像的图像类别：

其中，所述分类操作包括：

对所述第一图像进行目标检测，得到所述第一图像中的目标对象所在的目标区域；

基于所述第一图像中的目标对象所在的目标区域对所述第一图像进行切分，得到所述第一图像对应的至少一个第二图像；所述第二图像包括所述目标对象所在的目标区域的至少部分区域；

对所述至少一个第二图像进行分类，得到各个第二图像分别对应的图像类别，基于各个第二图像分别对应的图像类别确定所述第一图像的图像类别；

其中，所述分类模型是基于本申请任一可选实施例提供的模型训练方法训练得到的。

根据本申请实施例的另一个方面，提供了一种模型训练装置，该装置包括：

第一样本图像获取模块，用于获取多个第一样本图像；

训练模块，用于基于所述多个第一样本图像对初始分类模型进行至少一次训练操作，将符合预设训练结束条件的初始分类模型作为训练好的分类模型；

其中，所述训练操作包括：

确定每个第一样本图像中的样本目标对象所在的预测区域；

根据本申请实施例的另一个方面，提供了一种图像分类装置，该装置包括：

第一图像获取模块，用于获取待分类的第一图像；

分类模块，用于通过训练好的分类模型执行分类操作，得到所述第一图像的图像类别：

其中，所述分类操作包括：

其中，所述分类模型是基于本申请任一可选实施例提供的的模型训练方法训练得到的。

根据本申请实施例的另一个方面，提供了一种电子设备，该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述任一种模型训练方法或图像分类方法的步骤。

根据本申请实施例的再一个方面，提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种模型训练方法或图像分类方法的步骤。

本申请实施例提供的技术方案带来的有益效果是：

针对每个第一样本图像，通过对第一样本图像进行目标检测，得到第一样本图像中的样本目标对象所在的预测区域，并基于预测区域对第一样本图像进行切分，使得生成的至少一个第二样本图像至少包含对应的样本目标对象的一部分。既能够通过对原始的第一样本图像进行切分，实现扩充样本数量的目的，又保证了扩充的第二样本图像中均包含真实的目标对象，进而保证了第二样本图像实际的内容与其标签类别的一致性，以供后续通过第二样本图像对初始分类模型进行有效地训练，提高了训练得到的分类模型的准确性。

此外，将样本目标对象所在的预测区域作为第一样本图像划分的依据，使得划分得到的第二样本图像都是与样本目标对象相关的，从而可以剔除无关的背景区域，降低了图像中背景区域的干扰，有利于模型的快速收敛，提高了模型的训练速度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为现有技术中对查询图像进行网格划分的示意图；

图2为本申请实施例提供的一种模型训练方法的流程示意图；

图3为本申请实施例提供的另一种模型训练方法的流程示意图；

图4为本申请实施例提供的一种RPN模块结构的示意图；

图5为本申请实施例提供的一种图像分类方法的流程示意图；

图6为本申请实施例提供的一种模型训练装置的结构示意图；

图7为本申请实施例提供的一种图像分类装置的结构示意图；

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”可以实现为“A”，或者实现为“B”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

神经网络模型在模型训练阶段往往需要大量的训练数据，使得神经网络模型具有更好的性能。但是，在实际应用中，可能无法获得大量的训练数据，针对这种情况，小样本学习方法应运而生。小样本学习方法指的是在少量训练样本的情况下进行有效的机器学习。

在图片分类应用场景中，有时候很难采集到足够多的数据来训练模型，因此可以利用小样本学习来进行图像分类以解决训练数据量小的问题。现有的小样本图像分类方法包括以下几种：

1、基于模型改进的方法

该方法的核心思想是尽量缩小假设空间。该方法又可以分为如下几个小类：多任务学习方法：可以处理多个任务的学习方法，模型的参数可以共享也可以是相关联的；嵌入学习方法：将样本映射到一个低维空间，从而缩小假设空间，就可以通过少量样本求出模型的近似解；基于外部记忆的学习方法：对小样本数据集学习得到的知识存储到外部，对于新样本，使用存储在外部的知识进行表示，并根据表示完成匹配。

2、基于算法优化的方法

该方法的核心是通过改进优化算法来更快地搜索到合适解。该方法有可以分为如下几个小类。改善已有参数的方法：从参数初始化的角度着手，借助已经训练好的模型来调整小样本模型的参数。改善元学习参数的方法：该方法的思想是学习如何学习，结合不同特定任务模型参数来对新任务的参数进行初始化。学习优化器的方法：优化器每次都迭代更新上一次的模型参数，通过学习小样本数据集中每个迭代的更新值，应用到新的测试集上。

目前，小样本图像分类方法中最常见的是含对比学习的小样本嵌入模型方法(简称infoPatch)，含对比学习的小样本嵌入模型指的是在小样本情况下，通过对比学习的方式来学习嵌入表示，属于上述的基于模型改进的方法中的嵌入学习方法。

现有的infoPatch方法是通过对样本图像中的查询图像进行网格划分，分成N*W的网格区域图片，其中，每个网格区域图片为一个patch(小块)，全部网格区域图片为一组patches。

图1为现有技术中对查询图像进行网格划分的示意图，如图1所示，当一些样本目标对象较小或者位于对应图像的某个局部区域时，将查询图像使用网格划分成patches时，生成的某些patch可能仅仅是背景，不包含与真实类别相对应的真实对象。

查询图像对应的一组Patches中每个patch对应的类别标签与原始的查询图像的类别标签是相同的，均为查询图像中目标对象的真实类别。例如，图1中查询图像的类别标签为鸟，则该查询图像对应的一组patches中每个patch的类别标签均为鸟。而查询图像中鸟较小时，网络划分后的一些patch中并不包含鸟，导致这些patch不包括与其类别标签对应的对象，这些patch实际包含的内容与其对应的类别标签不一致，即这些patch的类别标签并不是这些patch的真实类别。

模型训练的过程就是通过不断地调整模型的参数，使得模型输出的样本图像的预测类别与类别标签尽可能一致。由于这些patch实际包含的内容与其对应的类别标签不一致，通过这些patch训练所得的模型的准确性较低，无法有效的对图像进行分类。

本申请提供的模型训练方法、图像分类方法及装置，旨在解决现有技术的如上技术问题。

下面通过对几个示例性实施方式的描述，对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是，下述实施方式之间可以相互参考、借鉴或结合，对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等，不再重复描述。

图2为本申请实施例提供的一种模型训练方法的流程示意图，如图2所示，该方法包括：

步骤S110，获取多个第一样本图像。

具体地，第一样本图像可以为用于模型训练的图像，第一样本图像可以是通过图像采集设备采集到的，也可以是在符合相关规定的前提下通过网络收集得到的，本申请实施例对第一样本图像的具体获取方式不做限定。

针对每个第一样本图像，第一样本图像可以为带标注的样本图像，第一样本图像存在与其对应的标签类别，第一样本图像的标签类别可以为第一样本图像包含的至少一个样本目标对象的真实类别。

步骤S120，基于多个第一样本图像对初始分类模型进行至少一次训练操作，将符合预设训练结束条件的初始分类模型作为训练好的分类模型。

具体地，基于多个第一样本图像对初始分类模型重复执行训练操作，直至满足预设训练结束条件。

其中，训练操作包括以下步骤：

步骤S121，确定每个第一样本图像中的样本目标对象所在的预测区域；

步骤S122，针对每个第一样本图像，通过所确定的预测区域对第一样本图像进行切分，获取第一样本图像对应的至少一个第二样本图像；第二样本图像包括样本目标对象所在的预测区域中的至少部分区域；

步骤S123，确定至少一个第二样本图像分别对应的预测类别，基于各个样本目标对象分别对应的真实类别和各个第二样本图像分别对应预测类别，确定损失函数；

步骤S124，基于损失函数对初始分类模型的参数进行调整，将调整参数后的初始分类模型作为下一次训练操作对应的初始分类模型。

具体地，将多个第一样本图像输入至初始分类模型，通过初始分类模型对多个第一样本图像进行目标检测，得到每个第一样本图像中的样本目标对象所在的预测区域。

针对每个第一样本图像，可以基于第一样本图像中样本目标对象所在的预测区域对第一样本图像进行切分，并基于切分后得到的至少一个图像，生成对应的至少一个第二样本图像。其中，第二样本图像可以包括对应的第一样本图像中样本目标对象所在的预测区域中的至少部分区域。

其中，初始分类模型可以包括初始检测模块、初始图像切分模块和初始类别预测模块。其中，初始检测模块用于对第一样本图像进行目标检测，输出第一样本图像中样本目标对象所在的预测区域；初始图像切分模块用于基于预测区域对第一样本图像进行切分；初始类别预测模块用于对第二样本图像进行图像分类，输出第二样本图像的预测类别。

初始检测模块和初始类别预测模块可以是基于神经网络构建的。可选地，初始检测模块和初始类别预测模块可以共用部分的的神经网络结构，即初始检测模块和初始类别预测模块中有部分的神经网络结构是相同的，上述共用的部分神经网络结构可以共享模型的参数，从而减少模型参数的计算量，提高模型训练的速度。

可选地，可以将基于预测区域对第一样本图像进行切分后得到的至少一个图像作为第二样本图像；也可以对切分后得到的至少一个图像进行组合，将组合后的图像作为第二样本图像，本申请实施例对第二样本图像的具体确定方式不做限定。

相较于现有技术中的网络划分的方式，本申请实施例提供的方法，基于样本目标对象所在的预测区域针对性的对第一样本图像进行切分，以保证生成的第二样本图像至少包含对应的样本目标对象的一部分。既能够通过对原始的第一样本图像进行切分，实现扩充样本数量的目的，又保证了扩充的第二样本图像中均包含真实的样本目标对象，进而保证了第二样本图像实际的内容与其标签类别的一致性，以供后续通过第二样本图像对初始分类模型进行有效地训练，提高了训练得到的分类模型的准确性。

在确定出至少一个第二样本图像之后，通过初始分类模型可以得到每个第二样本图像分别对应的预测类别。针对每个第二样本图像，可以将第二样本图像包含的样本目标对象的真实类别作为该第二样本图像的标签类别，并基于各个第二样本图像分别对应的标签类别与预测类别之间的差异性，确定初始分类模型的损失函数。

基于损失函数可以对当前训练操作对应的初始分类模型的参数进行调整，并将调整参数后的初始分类模型参与下一次训练操作。通过不断地执行上述训练操作，基于损失函数来约束模型的训练，使得初始分类模型的预测类别越来越接近样本图像的标签类别，直至符合预设训练结束条件，并将符合预设训练结束条件的初始分类模型作为训练好的分类模型。

其中，训练结束条件可以为损失函数收敛，例如，损失函数小于设定值或者连续设定次数计算得到损失函数均小于设定值；训练结束条件也可以为训练次数达到预设次数，本申请实施例对此不做限定。

本申请实施例提供的模型训练方法，针对每个第一样本图像，通过对第一样本图像进行目标检测，得到第一样本图像中的样本目标对象所在的预测区域，并基于预测区域对第一样本图像进行切分，使得生成的至少一个第二样本图像至少包含对应的样本目标对象的一部分。既能够通过对原始的第一样本图像进行切分，实现扩充样本数量的目的，又保证了扩充的第二样本图像中均包含真实的目标对象，进而保证了第二样本图像实际的内容与其标签类别的一致性，以供后续通过第二样本图像对初始分类模型进行有效地训练，提高了训练得到的分类模型的准确性。

此外，当第一样本图像中样本目标对象较小时，第一样本图像中相应地背景区域较大，而背景区域通常是与样本目标对象无关的信息，将背景区域较大的图像作为训练样本时，会对模型的训练产生较大的干扰，不利于模型的快速收敛，降低了模型的训练速度。本申请实施例中，将样本目标对象所在的预测区域作为第一样本图像划分的依据，使得划分得到的第二样本图像都是与样本目标对象相关的，从而可以剔除无关的背景区域，降低了图像中背景区域的干扰，有利于模型的快速收敛，提高了模型的训练速度。

作为一种可选实施例，针对每个第一样本图像，通过所确定的预测区域对第一样本图像进行切分，获取第一样本图像对应的至少一个第二样本图像，包括：

基于第一样本图像中样本目标对象所在的预测区域对应的至少一个检测框，确定第一样本图像的至少一个候选区域；

基于所确定的至少一个候选区域，分别生成对应的至少一个第二样本图像。

具体地，针对每个第一样本图像，可以基于第一样本图像中样本目标对象所在的预测区域的至少部分区域，确定出对应的至少一个候选区域。

第一样本图像中的样本目标对象所在的预测区域可以表示为多个检测框，可以将任一检测框对应的区域作为一个候选区域；也可以将包含至少两个检测框的区域作为一个候选区域。进一步地，包含至少两个检测框的区域可以是基于包含至少两个检测框的最小外接矩形确定的。

例如，预测区域通过四个检测框进行表示，即预测区域对应四个检测框，可以将包含四个检测框中任意两个检测框的区域作为一个候选区域，也可以将包含四个检测框中任意三个检测框的区域作为一个候选区域，还可以将包含全部四个检测框的区域作为一个候选区域。

在确定出第一样本图像对应的至少一个候选区域之后，可以基于至少一个候选区域对应的图像，分别生成对应的至少一个第二样本图像。

本申请实施例中，基于预测区域对应的至少一个检测框确定至少一个候选区域，并基于至少一个候选区域生成至少一个第二样本图像。由于检测框至少部分包括对应的样本目标对象，基于至少一个检测框确定的候选区域也可以至少部分包括对应的样本目标对象，进而使得基于候选区域生成的第二样本图像也可以至少部分包括对应的样本目标对象。

同时，将预测区域表示为至少一个检测框，通过对预测区域对应的至少一个检测框进行任意组合，生成多个候选区域，进一步扩充了训练样本的数量。

作为一种可选实施例，候选区域包括第一候选区域和第二候选区域；

基于第一样本图像中样本目标对象所在的预测区域对应的至少一个检测框，确定第一样本图像的至少一个候选区域，包括：

确定与每一检测框对应的第一候选区域；

确定各个检测框的最小外接矩形区域，得到第二候选区域。

具体地，候选区域可以包括第一候选区域和第二候选区域，可以将预测区域对应的每一检测框对应的区域作为第一候选区域，将包含各个检测框的最小外接矩形区域作为第二候选区域。

每一检测框可以至少部分包括对应的样本目标对象，也就是说每一检测框对应的第一候选区域可以包括样本目标对象的至少一部分，但是不能保证第一候选区域可以包括完整的样本目标对象。通过将包含所有检测框的最小外接矩形区域作为第二候选区域，使得第二候选区域可以包括完整的样本目标对象，以实现基于第二候选区域生成的第二样本图像可以全面地反映对应样本目标对象的特点，使得样本图像可以更好的代表对应的真实类别，有利于提高训练得到的模型的准确性。

作为一种可选实施例，基于所确定的至少一个所述候选区域，分别生成对应的至少一个第二样本图像，包括：

具体地，针对每个第一样本图像，在确定第一样本图像对应的至少一个候选区域之后，可以将至少一个候选区域分别对应的图像作为对应的至少一个第三样本图像。

可以从至少一个第三样本图像中选取出若干个候选样本图像，其中，可以将部分的第三样本图像作为候选样本图像，也可以将全部的第三样本图像均作为候选样本图像，本申请实施例对此不做限制。

针对任一候选样本图像，对该候选样本图像进行随机数据增强处理，将经过随机数据增强处理之后的候选样本图像作为第二样本图像。

其中，随机数据增强处理可以包括随机擦除处理、随机裁剪处理、随机旋转处理和随机噪声处理中的至少一种。

本申请实施例中，可以通过调整随机数据增强处理中数据增强处理的次数、每次数据增强处理的方式，以及各个数据增强处理方式的顺序中的至少一种，通过丰富数据增强的具体方式，进一步扩充训练样本的数量，提高训练样本的多样性。

可选地，对于同一候选样本图像，可以采用不同方式进行数据增强，例如对任一候选样本图像进行两次随机数据增强处理，得到一个第二样本图像；对该候选样本图像进行三次随机数据增强处理，得到又一个第二样本图像。又例如，对任一候选样本图像进行一次随机擦除处理，得到一个第二样本图像；对该候选样本图像进行一次随机裁剪处理，得到又一个第二样本图像。

可选地，对于不同的候选样本图像，可以采用相同的方式进行数据增强，也可以采用不同的方式进行数据增强。

本申请实施例中，通过针对第三样本图像进行随机数据增强处理，得到第二样本图像，既扩充了训练样本的数量，又提高了训练样本的多样性，从而可以提高模型的泛化能力。

作为一种可选实施例，多个第一样本图像包括多个查询图像、与每一查询图像对应的至少一个类别相同的正例图像和与每一查询图像对应的至少一个类别不同的反例图像；

基于各个样本目标对象分别对应的真实类别和各个第二样本图像分别对应预测类别，确定损失函数，包括：

基于第一损失函数和第二损失函数，确定损失函数。

具体地，多个第一样本图像可以包括多个查询图像、多个正例图像和多个反例图像，其中，正例图像可以为与查询图像的类别相同的图像，反例图像可以为与查询图像的类别不同的图像。

针对每个第一样本图像，可以通过初始分类模型对该第一样本图像进行目标检测，得到该第一样本图像中样本目标对象所在的预测区域，并基于预测区域对该第一样本图像进行切分，获取对应的至少一个第二样本图像。其中，第二样本图像的标签类别与其对应的第一样本图像的标签类别是相同的。

对于第一样本图像中查询图像、正例图像和负例图像均可以执行上述切分操作，分别生成对应的至少一个第二样本图像，以扩充训练样本的数量，同时可以剔除无关的背景区域，降低了图像中背景区域的干扰，有利于模型的快速收敛，提高了模型的训练速度。此外，还可以将原始的第一样本图像作为一个第二样本图像，以进一步扩充训练样本的数量。

在此基础上，模型训练的损失函数可以包括第一损失函数和第二损失函数。

针对每个第二样本图像，可以将该第二样本图像包含的样本目标对象的真实类别作为该第二样本图像的标签类别。基于各个第二样本图像分别对应的标签类别及其预测类别之间的第一差异性，确定第一损失函数。

针对每个第二样本图像，还可以基于属于同一类别的任意两个第二样本图像的图像特征之间的第二差异性，以及不属于同一类别的任意两个第二样本图像之间的第三差异性，确定第二损失函数。

基于第一损失函数和第二损失函数，确定约束模型训练的损失函数。其中，模型的损失函数可以通过将第一损失函数和第二损失函数进行求和得到。可选的，可以获取第一损失函数和第二损失函数各自对应的权重，采用该权重对两部分损失进行加权求和，得到模型的损失函数。

本申请实施例中，模型的损失函数包含了两部分，一部分是通过模型得到的各个第二样本图像的预测类别和各个第二样本图像的标签类别之间的差异，即第一损失函数；另一部分是同一类别的第二样本图像之间的差异和不同类别的第二样本图像之间的差异，即第二损失函数。通过包括第一损失函数和第二损失函数的联合损失函数对初始分类模型进行训练，使得模型既可以学习到预测类别与标签类别之间的差异越小，又可以学习到同一类别的图像特征之间的差异越小，不同类别的图像特征之间的差异越大，提高了训练得到的分类模型的准确性，有利于后续图像分类的准确性。

作为一种可选实施例，图3为本申请实施例提供的一种模型训练方法的流程示意图，如图3所示，该模型训练方法包括：

确定多个第一样本图像，多个第一样本图像包括多个查询图像、多个正例图像以及多个负例图像，其中，正例图像可以为与查询图像类别相同的图像，负例图像可以为与查询图像类别不同的图像。图3中查询图像的类别为狗，正例图像的类别也为狗，负例图像的类别为鸟。

本申请实施例中，每个第一样本图像中样本目标对象所在的预测区域可以表示为多个检测框，可以通过检测框提取器对每个第一样本图像进行目标检测，输出对应的多个检测框。检测框提取器可以包括随机数据增强处理模块、骨干特征提取器和RPN(RegionProposal Network，区域候选网络)模块。

通过随机数据增强处理模块可以对每个第一样本图像可以进行随机数据增强处理，其中，随机数据增强处理可以包括随机擦除处理、随机裁剪处理、随机旋转处理和随机噪声处理中的至少一种，以提高训练样本的多样性。此外，还可以将每个第一样本图像调整至预设尺寸，例如，将第一样本图像的尺寸调整为224*224。

对于随机数据增强处理之后的第一样本图像，可通过骨干特征提取器提取到第一样本图像的骨干特征。在输入至骨干特征提取器的第一样本图像尺寸为224*224，输出的该第一样本图像的骨干特征大小为512*7*7。

可选地，骨干特征提取器的网络结构可以为去掉平均池化层和FC(Full Connect，全连接)层的Resnet18(一种深度卷积神经网络)网络结构。

将提取到的骨干特征输入至RPN模块，通过RPN模块进行多次卷积操作以及NMS(Non Maximum Suppression，非极大抑制)处理，得到目标检测结果，其中，目标检测结果可以包括预设数量个检测框的位置以及对应的得分。

可选地，图4为本申请实施例提供的一种RPN模块结构的示意图，如图4所示，RPN模块中包括多个卷积核，将多个大小为512*7*7的骨干特征输入RPN模块，通过多个卷积核的多次卷积操作，得到多个检测框及其对应的得分，通过对多个检测框及其对应的得分进行NMS处理，将预设数量个得分最高的检测框及其得分输出，例如，预设数量为4，则将得分最高的前四个检测框作为Top4检测框，并输出Top4检测框及其得分。

针对每个第一样本图像，得到该第一样本图像的预设数量个检测框之后，可以将每个检测框的区域对应的图像作为一个第二样本图像，在此基础上，还可以获取包括各个检测框的MBR(Minimum Bounding Rectangle，最小外接矩形)，将最小外接矩形的区域对应的图像作为一个第二样本图像。预设数量个检测框和MBR区域都包含对应图像中的真实的目标对象的至少一部分。

可选地，当输出Top4检测框时，可以基于Top4检测框中每个检测框的位置，确定Top4检测框的MBR。对于每个检测框，x1、y1、x2、y2分别代表该检测框的左上角顶点的横纵坐标值和右下角顶点的横纵坐标值。将四个检测框中全部x1的最小值作为MBR的x1，全部y1的最小值作为MBR的y1，全部x2的最大值作为MBR的x2，全部y2的最大值作为MBR的y2。

如图3所示，一个第一样本图像对应4个检测框，基于4个检测框分别对应生成4个第二样本图像，基于包括4个检测框的一个MBR，对应生成一个第二样本图像，也就是说，基于一个第一样本图像可以生成对应的四个第二样本图像，从而达到扩充训练样本数量的目的。

在得到多个第二样本图像之后，可以针对至少一个第二样本图像进行随机数据增强处理，其中，随机数据增强处理可以包括随机擦除处理、随机裁剪处理、随机旋转处理和随机噪声处理中的至少一种，以提高训练样本的多样性，进而提高模型的泛化能力。图3中示出了随机数据增强处理为随机擦除处理的情形。

对于经过随机数据增强处理之后的第二样本图像，可以通过平均池化特征提取器提取出第二样本图像的图像特征。可选地，平均池化特征提取器的网络结构可以为去掉FC层的Resnet18的网络结构，在这种情况下，平均池化特征提取器比骨干特征提取器多了一个平均池化层，其他网络结构可以共享模型的参数。而且，由于平均池化特征提取器多个一个平均池化层，因此可以不管各个检测框的尺寸是多个，输出的特征大小都是统一的。在图4所示的RPN模块的基础上，平均池化特征提取器输出的图像特征大小为512*1*1。

在得到各个第二样本图像的图像特征之后，可以计算每两个第二样本图像的图像特征之间的余弦相似度。针对每两个第二样本图像，可以根据每两个第二样本图像的图像特征之间的余弦相似度，以及这两个第二样本图像的标签的正例负例关系，可以根据对比学习的公式，计算对比学习损失。

同时，还可以通过预测类别输出模块计算每个第二样本图像的预测类别。可选地，预测类别输出模块可以包括一个FC层和softmax(一种分类函数)层，FC层的输出通道就是全部训练样本的分类数加1，就是得到每个第二样本图像属于各个分类的得分，再经过softmax层后，得到属于每个第二样本图像各个分类的概率。针对每个第二样本图像，可以根据每个第二样本图像的预测分类概率，以及该第二样本图像的标签类别，根据交叉熵损失的公式，计算分类损失。

将对比损失和分类损失直接求和，得到模型的训练总损失。通过模型的训练总损失不断调整骨干特提取器和平均池化特征提取器的模型参数，从而不断优化模型的参数。模型训练过程中，可以采用端到端训练方式，从而有效提取到图像的最具代表性的特征。

本申请实施例提供的模型训练方法，使用RPN找到第一样本图像中包含真实的目标对象的检测框，通过检测框对第一样本图像进行切分生成第二样本图像，以保证每个第二样本图像至少部分包含目标对象；对查询图像、正例图像、负例图像，均使用RPN得到预设数量个检测框以及包含所有预设数量个检测框的最小外接矩形，用于进行后续的图像特征提取降低图像中背景区域的干扰，有利于模型的快速收敛；对于每个第二样本图像进行随机数据增强处理，提高训练数据的多样性，最终提高模型的泛化能力。

图5为本申请实施例提供的一种图像分类方法的流程示意图，如图5所示，该方法包括：

步骤S210，获取待分类的第一图像；

步骤S220，通过训练好的分类模型执行分类操作，得到第一图像的图像类别；

其中，分类操作包括以下步骤：

步骤S221，对第一图像进行目标检测，得到第一图像中的目标对象所在的目标区域；

步骤S222，基于第一图像中的目标对象所在的目标区域对第一图像进行切分，得到第一图像对应的至少一个第二图像；第二图像包括目标对象所在的目标区域的至少部分区域；

步骤S223，对至少一个第二图像进行分类，得到至少一个第二图像对应的图像类别，基于至少一个第二图像对应的图像类别确定第一图像的图像类别；

其中，分类模型是基于本申请任一可选实施例中提供的模型训练方法进行训练得到的。

具体地，在执行步骤S210之前，可以采用本申请实施例提供的模型训练方法得到分类模型，通过本申请实施例提供的模型训练方法可以在训练样本数量有限的情况下得到准确性较高的分类模型，从而提高图像分类的准确性。

在实际实施时，可以先获取待分类的第一图像，其中，第一图像可以为需要进行图像分类的图像，将第一图像输入至分类模型，通过分类模型对第一图像进行图像分类，得到第一图像的图像类别。

其中，分类模型对第一图像进行分类的具体过程包括：

首先，对第一图像进行目标检测，得到第一图像中目标对象所在的目标区域；其次，基于第一图像中目标对象所在的目标区域对第一图像进行切分，得到对应的至少一个第二图像，其中，第二图像包含目标对象所在的目标区域的至少部分区域；最后，针对每个第二图像，对第二图像进行图像分类，得到第二图像对应的图像类别。并基于各个第二图像分别对应的图像类别，确定第一图像的图像类别。

其中，当多个第二图像分别对应的图像类别相同时，可以多个第二图像统一的图像类别作为第一图像的图像类别；当多个第二图像分别对应的图像类别不同时，可以将多个第二图像中出现概率最高的图像类别作为第一图像的图像类别。

本申请实施例中，第二图像是基于目标对象所在的目标区域划分得到的，第二图像至少包括目标对象的一部分，第二图像可以有效地表征目标对象的特点，通过对第二图像进行分类可以准确地得到目标对象的类别，即第一图像的图像类别，提高了图像分类的准确性。

将目标对象所在的目标区域作为第一图像划分的依据，使得划分得到的第二图像都是与目标对象相关的，从而可以剔除无关的背景区域，降低了图像中背景区域的干扰，有利于提高模型运算的速度，提高了图像分类的效率。

此外，基于各个第二图像分别对应的图像类别，确定第一图像的图像类别，可以有效地避免模型的一次错误分类对图像分类结果的影响，进一步提高了图像分类的准确性。

图6为本申请实施例提供的一种模型训练装置的结构示意图，如图6所示，该装置包括：

第一样本图像获取模块310，用于获取多个第一样本图像；

训练模块320，用于基于多个第一样本图像对初始分类模型进行至少一次训练操作，将符合预设训练结束条件的初始分类模型作为训练好的分类模型；

其中，训练操作包括：

确定每个第一样本图像中的样本目标对象所在的预测区域；

针对每个第一样本图像，通过所确定的预测区域对第一样本图像进行切分，获取第一样本图像对应的至少一个第二样本图像；第二样本图像包括样本目标对象所在的预测区域中的至少部分区域；

确定至少一个第二样本图像分别对应的预测类别，基于各个样本目标对象分别对应的真实类别和各个第二样本图像分别对应预测类别，确定损失函数；

基于损失函数对初始分类模型的参数进行调整，将调整参数后的初始分类模型作为下一次训练操作对应的初始分类模型。

作为一种可选实施例，训练模块还包括图像切分子模块，图像切分子模块包括：

候选区域确定单元，用于基于第一样本图像中样本目标对象所在的预测区域对应的至少一个检测框，确定第一样本图像的至少一个候选区域；

第二样本图像生成单元，用于基于所确定的至少一个候选区域，分别生成对应的至少一个第二样本图像。

作为一种可选实施例，该装置中候选区域包括第一候选区域和第二候选区域；

候选区域确定单元具体用于：

确定与每一检测框对应的第一候选区域；

确定各个检测框的最小外接矩形区域，得到第二候选区域。

作为一种可选实施例，该装置中第二样本图像生成单元具体用于：

作为一种可选实施例，该装置中随机数据增强处理包括以下至少一种：

随机擦除处理；

随机裁剪处理；

随机旋转处理；

随机噪声处理。

作为一种可选实施例，该装置中多个第一样本图像包括多个查询图像.与每一查询图像对应的至少一个类别相同的正例图像和与每一查询图像对应的至少一个类别不同的反例图像；

训练模块还包括损失函数计算子模块，用于：

基于第一损失函数和第二损失函数，确定损失函数。

图7为本申请实施例提供的一种图像分类装置的结构示意图，如图7所示，该装置包括：

第一图像获取模块410，用于获取待分类的第一图像；

分类模块420，用于通过训练好的分类模型执行分类操作，得到第一图像的图像类别：

其中，分类操作包括：

对第一图像进行目标检测，得到第一图像中的目标对象所在的目标区域；

基于第一图像中的目标对象所在的目标区域对第一图像进行切分，得到第一图像对应的至少一个第二图像；第二图像包括目标对象所在的目标区域的至少部分区域；

对至少一个第二图像进行分类，得到各个第二图像分别对应的图像类别，基于各个第二图像分别对应的图像类别确定第一图像的图像类别；

其中，分类模型是本申请任一可选实施例中提供的模型训练方法训练得到的。

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

本申请实施例中提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现上述模型训练方法或图像分类方法的步骤，与相关技术相比可实现：既能够通过对原始的第一样本图像进行切分，实现扩充样本数量的目的，又保证了扩充的第二样本图像中均包含真实的目标对象，进而保证了第二样本图像实际的内容与其标签类别的一致性，以供后续通过第二样本图像对初始分类模型进行有效地训练，提高了训练得到的分类模型的准确性。此外，将样本目标对象所在的预测区域作为第一样本图像划分的依据，使得划分得到的第二样本图像都是与样本目标对象相关的，从而可以剔除无关的背景区域，降低了图像中背景区域的干扰，有利于模型的快速收敛，提高了模型的训练速度。

在一个可选实施例中提供了一种电子设备，如图8所示，图8所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器4003用于存储执行本申请实施例的计算机程序，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序，以实现前述方法实施例所示的步骤。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种模型训练方法，其特征在于，包括：

获取多个第一样本图像；

其中，所述训练操作包括：

确定每个第一样本图像中的样本目标对象所在的预测区域；

2.根据权利要求1所述的模型训练方法，其特征在于，针对每个第一样本图像，所述通过所确定的预测区域对所述第一样本图像进行切分，获取所述第一样本图像对应的至少一个第二样本图像，包括：

3.根据权利要求2所述的模型训练方法，其特征在于，所述候选区域包括第一候选区域和第二候选区域；

确定与每一检测框对应的第一候选区域；

确定各个检测框的最小外接矩形区域，得到第二候选区域。

4.根据权利要求2所述的模型训练方法，其特征在于，所述基于所确定的至少一个所述候选区域，分别生成对应的至少一个第二样本图像，包括：

5.根据权利要求4所述的模型训练方法，其特征在于，所述随机数据增强处理包括以下至少一种：

随机擦除处理；

随机裁剪处理；

随机旋转处理；

随机噪声处理。

6.根据权利要求1所述的模型训练方法，其特征在于，所述多个第一样本图像包括多个查询图像、与每一查询图像对应的至少一个类别相同的正例图像和与每一查询图像对应的至少一个类别不同的反例图像；

7.一种图像分类方法，其特征在于，包括：

获取待分类的第一图像；

其中，所述分类操作包括：

其中，所述分类模型是基于权利要求1至6中任一项所述的模型训练方法训练得到的。

8.一种模型训练装置，其特征在于，包括：

第一样本图像获取模块，用于获取多个第一样本图像；

其中，所述训练操作包括：

确定每个第一样本图像中的样本目标对象所在的预测区域；

9.一种图像分类装置，其特征在于，包括：

第一图像获取模块，用于获取待分类的第一图像；

其中，所述分类操作包括：

10.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1至7中任一项所述方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。