CN117237744A

CN117237744A - 一种图像分类模型的训练方法、装置、介质及电子设备

Info

Publication number: CN117237744A
Application number: CN202311497032.2A
Authority: CN
Inventors: 王玉柱; 段曼妮; 王永恒
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2023-12-15
Anticipated expiration: 2043-11-10
Also published as: CN117237744B

Abstract

本说明书公开了一种图像分类模型的训练方法、装置、介质及电子设备，包括：获取各样本图像，以及确定各样本图像分别在预设的各目标类别中所属的类别，并作为各样本图像分别对应的标注。基于各样本图像以及各标注，对预先训练的第一模型进行训练，得到第二模型。融合各样本图像中不同类别的样本图像，得到训练样本。根据训练样本以及第二模型，确定训练样本对应的标准特征。将训练样本输入第一模型，确定训练样本对应的样本特征。至少根据样本特征以及标准特征，对第一模型进行训练，并将训练完成的第一模型作为图像分类模型，增强图像分类模型的表征能力，提高图像分类模型的输出结果的准确性。

Description

一种图像分类模型的训练方法、装置、介质及电子设备

技术领域

本说明书涉及计算机技术领域，尤其涉及一种图像分类模型的训练方法、装置、介质及电子设备。

背景技术

随着科技的不断发展，迁移学习应用的越来越广泛，尤其被应用在图像处理领域。

目前，一般是基于预先训练的其他领域的模型，采用迁移学习的方式进行训练，以得到图像分类模型。但是，训练完成的图像分类模型的表征空间都是离散的，也就是该图像分类模型只能分析预设的类别，并且该图像分类模型的表征能力弱。例如，通过迁移学习，可以基于视频识别模型训练图像分类模型，该图像分类模型可以对预设的20个类别进行分类，那么该图像分类模型只能学习到20个类别分别对应的表征，也只能分析20个类别。因此，如何训练一个图像分类模型以提高模型的表征能力是一个非常重要的问题。

基于此，本说明书提供一种图像分类模型的训练方法。

发明内容

本说明书提供一种图像分类模型的训练方法、装置、介质及电子设备，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种图像分类模型的训练方法，包括：

获取各样本图像，以及确定所述各样本图像分别在预设的各目标类别中所属的类别，并作为所述各样本图像分别对应的标注；

基于所述各样本图像以及各标注，对预先训练的第一模型进行训练，得到第二模型；其中，所述第二模型用于确定输入所述第二模型的图像在所述各目标类别中所属的类别；

融合所述各样本图像中不同类别的样本图像，得到训练样本；

根据所述训练样本以及所述第二模型，确定所述训练样本对应的标准特征；

将所述训练样本输入所述第一模型，确定所述训练样本对应的样本特征；

至少根据所述样本特征以及所述标准特征，对所述第一模型进行训练，并将训练完成的第一模型作为图像分类模型，其中，所述图像分类模型用于根据待分类图像，确定所述待分类图像的分类结果。

可选地，融合所述各样本图像中不同类别的样本图像，得到训练样本，具体包括：

针对所述各样本图像，确定类别不为该样本图像对应的类别的各样本图像，并作为各其他图像；

将至少一个其他图像与该样本图像进行融合，并将融合后的图像作为训练样本。

可选地，根据所述训练样本以及所述第二模型，确定所述训练样本对应的标准特征，具体包括：

根据所述各样本图像以及所述第二模型，确定所述各目标类别对应的第一特征；

确定所述训练样本对应的类别，并根据所述各目标类别对应的第一特征以及确定出的类别，确定所述训练样本对应的标准特征。

可选地，根据所述各样本图像以及所述第二模型，确定所述各目标类别对应的第一特征，具体包括：

针对所述各目标类别，在所述各样本图像中，确定类别为该目标类别的样本图像为目标样本；

将该目标类别对应的目标样本输入所述第二模型，确定该目标类别对应的目标样本的输出特征；

根据所述输出特征，确定该目标类别的第一特征。

可选地，所述第二模型包括分类层；

根据所述各样本图像以及所述第二模型，确定所述各目标类别对应的第一特征，具体包括：

针对所述各目标类别，确定在所述第二模型的分类层的模型参数中该目标类别对应的模型参数；

将确定出的模型参数作为该目标类别对应的第一特征。

可选地，所述方法还包括：

将所述各样本图像作为各训练样本；

采用标签平滑的方式，对所述各训练样本分别对应的类别进行调整，得到所述各训练样本分别对应的调整后的类别；

根据所述训练样本以及所述第二模型，确定所述训练样本对应的标准特征，具体包括：

根据所述各目标类别对应的第一特征以及所述各训练样本分别对应的调整后的类别，确定所述各训练样本分别对应的标准特征。

可选地，所述方法还包括：

响应于用户的图像分类请求，确定待分类图像；

将所述待分类图像输入所述图像分类模型，确定所述待分类图像的分类结果；

将所述待分类图像的分类结果发送给所述用户。

本说明书提供了一种图像分类模型的训练装置，包括：

获取模块，用于获取各样本图像，以及确定所述各样本图像分别在预设的各目标类别中所属的类别，并作为所述各样本图像分别对应的标注；

第一训练模块，用于基于所述各样本图像以及各标注，对预先训练的第一模型进行训练，得到第二模型；其中，所述第二模型用于确定输入所述第二模型的图像在所述各目标类别中所属的类别；

融合模块，用于融合所述各样本图像中不同类别的样本图像，得到训练样本；

确定模块，用于根据所述训练样本以及所述第二模型，确定所述训练样本对应的标准特征；

输入模块，用于将所述训练样本输入所述第一模型，确定所述训练样本对应的样本特征；

第二训练模块，用于至少根据所述样本特征以及所述标准特征，对所述第一模型进行训练，并将训练完成的第一模型作为图像分类模型，其中，所述图像分类模型用于根据待分类图像，确定所述待分类图像的分类结果。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述图像分类模型的训练方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述图像分类模型的训练方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

本说明书提供的图像分类模型的训练方法，获取各样本图像，以及确定各样本图像分别在预设的各目标类别中所属的类别，并作为各样本图像分别对应的标注。之后，基于各样本图像以及各标注，对预先训练的第一模型进行训练，得到第二模型。融合各样本图像中不同类别的样本图像，得到训练样本。根据训练样本以及第二模型，确定训练样本对应的标准特征。再将训练样本输入第一模型，确定训练样本对应的样本特征。至少根据样本特征以及标准特征，对第一模型进行训练，并将训练完成的第一模型作为图像分类模型。

从上述方法中可以看出，本申请在训练图像分类模型时，获取各样本图像，以及确定各样本图像分别在预设的各目标类别中所属的类别，并作为各样本图像分别对应的标注。之后，基于各样本图像以及各标注，对预先训练的第一模型进行训练，得到第二模型。融合各样本图像中不同类别的样本图像，得到训练样本，以增加用于训练图像分类模型的样本的多样性，从而提高图像分类模型的表征能力。根据训练样本以及第二模型，确定训练样本对应的标准特征。再将训练样本输入第一模型，确定训练样本对应的样本特征。至少根据样本特征以及标准特征，对第一模型进行训练，并将训练完成的第一模型作为图像分类模型，增强图像分类模型的表征能力，提高图像分类模型的输出结果的准确性。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中提供的一种图像分类模型的训练方法的流程示意图；

图2为本说明书中提供的一种第一模型的结构示意图；

图3为本说明书中提供的一种图像分类模型的应用的示意图；

图4为本说明书提供的一种图像分类模型的训练装置结构的示意图；

图5为本说明书提供的一种对应于图1的电子设备的结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中提供的一种图像分类模型的训练方法的流程示意图，包括以下步骤：

S100：获取各样本图像，以及确定所述各样本图像分别在预设的各目标类别中所属的类别，并作为所述各样本图像分别对应的标注。

目前，基于迁移学习进行模型训练的方式一般有两种，一种是利用下游任务的数据对预训练模型的全部参数进行微调。另外一种是利用下游任务的数据对预训练模型的部分参数进行微调，比如可以只对预训练模型的分类器的参数进行调整。但是，采用上述两种迁移学习方式，训练预训练模型得到的模型的表征空间都是离散的，也就是该模型只能分析预定义的语义类别。

基于此，本说明书中，用于训练图像分类模型的设备可以获取各样本图像，以及确定各样本图像分别在预设的各目标类别中所属的类别，并作为各样本图像分别对应的标注。其中，用于训练图像分类模型的设备可以是服务器，也可以是诸如台式电脑、笔记本电脑等电子设备。为了便于描述，下面仅以服务器为执行主体，对本说明书提供的图像分类模型的训练方法进行说明。

上述样本图像与后续图像分类模型具体的应用场景有关，并且，目标类别也与后续图像分类模型具体的应用场景有关，不同的应用场景对应不同的目标类别。当图像分类模型用于交通场景的人车分类时，则目标类别可以包括行人、自行车、电动车、货车、公交车以及汽车等，该图像分类模型用于对采集到的交通场景的图像进行分类，并且可以将采集到的图像分为各目标类别。然而，当图像分类模型用于室外自然场景分类时，则目标类别包括动物、鸟类、植物、人等，该图像分类模型用于对采集到的室外自然场景的图像进行分类，并且可以将采集到的图像分为各目标类别。当然，图像分类模型的应用场景还可以为其他任意图像分类相关场景下的任务，相应的，目标类别为图像分类模型相关的类别，可以预先设置，本说明书不做具体限定。为了便于说明，下述以交通场景的人车分类为例，目标类别以行人、自行车、电动车、货车、公交车以及汽车六个类别为例进行说明。

上述样本图像可以为预先经过图像采集设备采集到的图像，该样本图像对应的类别为上述行人、自行车、电动车、货车、公交车以及汽车六个目标类别中的一种，也就是样本图像对应的类别为目标类别中的一种，并且该样本图像对应的类别为该样本图像的标注。图像采集设备可以为摄像机、照相机等采集设备，图像为任意地区的交通场景图像，比如街道、十字路口以及道路等地区的图像，本说明书不做具体限定。

S102：基于所述各样本图像以及各标注，对预先训练的第一模型进行训练，得到第二模型；其中，所述第二模型用于确定输入所述第二模型的图像在所述各目标类别中所属的类别。

服务器可以基于各样本图像以及各标注，对预先训练的第一模型进行训练，得到第二模型。其中，第一模型为其他领域的模型，也就是第一模型不为用于对图像进行分类的模型，第一模型的功能与图像分类模型的功能不同，并且第一模型为预先训练的模型。该第一模型可以为用于对视频进行分类的模型，还可以为用于对视频进行动作识别的模型，当然，还可以为其他领域的模型，本说明书不做具体限定。另外，第一模型的架构可以为Vision Transformer，还可以为卷积神经网络（Convolutional Neural Networks，简称CNN）架构的模型，也可以为其他Transformer架构的模型，本说明书不做具体限定，只是第一模型的功能与服务器所需训练的图像分类模型的功能不同。但是，第二模型为图像分类模型，该第二模型可以用于确定输入该第二模型的图像在各目标类别中所属的类别。

具体的，服务器可以将各样本图像输入预先训练的第一模型，确定第一模型的各输出结果。以各输出结果与各标注之间的差异最小为目标，对第一模型进行训练。将训练完成的第一模型作为第二模型。其中，通过利用图像分类任务的相关数据（即各样本图像以及各标注）对其他领域的模型（即功能不为图像分类的第一模型）进行训练，使得训练完成的第一模型可以用于执行图像分类任务。

例如，服务器可以将各样本图像输入预先训练的视频识别模型，确定视频识别模型的各输出结果。以各输出结果与各标注之间的差异最小为目标，对视频识别模型进行训练。将训练完成的视频识别模型作为第二模型。

在本说明书中，除了通过利用图像分类任务的相关数据（即各样本图像以及各标注）对第一模型进行训练，使得训练完成的第一模型可以用于执行图像分类任务之外，服务器还可以对各样本图像进行增强处理，再基于增强后的样本图像以及增强后的样本图像对应的标注，对第一模型进行训练。通过对用于训练第一模型的样本进行增强，增加了样本的多样性，以提高训练完成的第一模型的表征能力，使得训练完成的第一模型的输出结果的准确率高。故服务器还可以对各样本图像进行增强处理，再将各增强后的样本图像输入预先训练的第一模型，确定第一模型的各输出结果。再以各输出结果以及各增强后的样本图像对应的标注之间的差异最小为目标，对第一模型进行训练。之后，将训练完成的第一模型作为第二模型。

其中，在对各样本图像进行增强处理时，服务器可以采用任意已有的图像处理方式，对各样本图像进行增强处理，也可以仅对指定数量的样本图像进行增强处理，本说明书不做具体限定。该指定数量为服务器预先设置的数值。图像处理方式包括保持宽高比缩放、随机裁剪、随机水平翻转、去均值、添加抖动、拼接等手段。服务器可以从上述图像处理方式中选取至少一种方式对样本图像进行增强处理，具体的以保持宽高比缩放这一图像处理方式为例，服务器可以针对各样本图像，确定该样本图像的宽高比，在保持确定出的宽高比的情况下，对该样本图像进行缩放，得到处理后的图像，即增强后的样本图像。再以拼接这一图像处理方式为例，服务器可以从各样本图像中确定至少两个图像，并将确定出的至少两个图像进行拼接，得到拼接后的图像，即增强后的样本图像。

当然，除了对各样本图像进行处理之外，还可以对各样本图像对应的类别进行处理，比如，某一图像对应的目标类别为汽车，对该图像对应的类别进行标签平滑处理，得到该图像对应的处理后的类别，该处理后的类别可以为0.9的概率为汽车，0.1的概率为货车。后续再以各样本图像以及各样本图像对应的处理后的类别，对第一模型进行训练。具体的，服务器可以对各样本图像对应的类别进行标签平滑（Label Smoothing）处理，得到各样本图像分别对应的处理后的类别。以各样本图像以及各样本图像对应的处理后的类别，对第一模型进行训练。

S104：融合所述各样本图像中不同类别的样本图像，得到训练样本。

服务器可以融合各样本图像中不同类别的样本图像，得到训练样本。其中，样本图像至少包括两个图像，并且至少两个样本图像的类别是不同的，也就是至少两个样本图像在各目标类别中所属的类别是不同的。训练样本为由至少两个不同类别的样本图像进行融合得到的。具体的，针对各样本图像，服务器可以确定类别不为该样本图像对应的类别的各样本图像，并作为各其他图像。再将至少一个其他图像与该样本图像进行融合，并将融合后的图像作为训练样本。

其中，在将至少一个其他图像与该样本图像进行融合时，服务器可以按照任意比例融合至少一个其他图像与该样本图像，也可以按照指定比例融合至少一个其他图像与该样本图像，指定比例为进行融合的图像所对应的比例，该指定比例为服务器预先设置的进行融合的每一个图像所对应的比例，比如进行融合的图像为图像1以及图像2，指定比例为图像1为0.9，图像2为0.1，故服务器可以将0.9的图像1与0.1的图像2进行融合。

上述若是将两个图像进行融合时，服务器可以采用下述公式进行计算：

其中，表示融合后的图像，即训练样本，/>表示图像i，/>表示图像/>，/>表示图像i对应的比例，/>表示图像/>对应的比例。

上述若是将至少三个图像进行融合时，以三个图像融合为例，服务器可以采用下述公式进行计算：

其中，、/>以及/>分别表示为/>、/>以及/>对应的比例，/>、/>以及/>分别表示图像1、图像2以及图像3。

另外，为了保证融合后的图像效果更好，增加训练样本的多样性，上述在融合各样本图像中不同类别的样本图像，得到训练样本时，服务器可以先对各样本图像进行处理，再融合处理后的各样本图像中不同类别的样本图像，得到训练样本。其中，对样本图像的处理方式包括保持宽高比缩放、随机裁剪、随机水平翻转、去均值以及添加抖动等，服务器可以采用上述处理方式中的至少一种，对全部样本图像或者指定数量的样本图像进行处理，再融合处理后的各样本图像中不同类别的样本图像。

S106：根据所述训练样本以及所述第二模型，确定所述训练样本对应的标准特征。

服务器可以根据训练样本以及第二模型，确定训练样本对应的标准特征。其中，第二模型为服务器基于样本图像以及样本图像对应的标注对第一模型进行训练得到的。标准特征与训练样本对应的类别相关，不同的训练样本的类别对应不同的标准特征，并且该标准特征与训练样本也相关，不同的训练样本可以对应不同的类别，从而对应不同的标准特征。当然，相同类别的训练样本也可以对应不同的标准特征。

具体的，服务器可以根据各样本图像以及第二模型，确定各目标类别对应的第一特征。再确定训练样本对应的类别，并根据各目标类别对应的第一特征以及确定出的类别，确定训练样本对应的标准特征。其中，每一个目标类别均对应一个第一特征，图像的特征与某一第一特征越相似，该图像对应的类别越可能为该第一特征对应的目标类别。基于此，在根据各样本图像以及第二模型，确定各目标类别对应的第一特征时，服务器可以确定各目标类别分别对应的样本图像，再基于第二模型，确定各目标类别分别对应的图像的特征，根据确定出的特征，确定各目标类别分别对应的第一特征。

具体的，在根据各样本图像以及第二模型，确定各目标类别对应的第一特征时，针对各目标类别，服务器可以在各样本图像中，确定类别为该目标类别的样本图像为目标样本。将该目标类别对应的目标样本输入第二模型，确定该目标类别对应的目标样本的输出特征。根据输出特征，确定该目标类别的第一特征。其中，各样本图像中可以存在多个类别为该目标类别的图像，也就是存在多个目标样本，故在根据输出特征，确定该目标类别的第一特征时，服务器将各目标样本的输出特征的均值作为该目标类别的第一特征，具体的可以采用下述公式进行计算：

其中，表示目标类别/>对应的第一特征，/>表示在各样本图像中类别为目标类别/>的图像，/>表示在各样本图像中类别为目标类别/>的图像的数量，j表示/>中第j个图像，/>表示第j个图像对应的输出特征。

在本说明书中，在上述步骤S104中服务器是将至少两个类别不同的图像进行融合，使得融合后的图像（即训练样本）的类别与融合前的图像（即样本图像）的类别不一致，也就是融合后的图像的类别与融合前的图像的类别不一致。每一个训练样本均对应至少两个样本图像，只是至少两个样本图像在训练样本中的占比是不相同的，故上述在确定训练样本对应的类别时，服务器可以确定在训练样本中至少两个样本图像分别对应的比例，也就是至少两个样本图像在训练样本中的占比，将至少两个样本图像中比例最高的样本图像对应的类别作为训练样本对应的类别。

另外，在上述步骤S104中训练样本可以是服务器融合至少一个其他图像与该样本图像得到的，故上述在确定训练样本对应的类别时，服务器可以确定该样本图像在训练样本中所占的比重，以及确定至少一个其他图像在训练样本中所占的比重，从该样本图像对应的比重以及至少一个其他图像对应的比重中，确定比重最高的图像，并将确定出的图像对应的类别作为训练样本对应的类别。

并且，由于该样本图像以及确定出的至少一个其他图像可以按照指定比例进行融合，故在确定训练样本对应的类别时，服务器可以根据指定比例，确定该样本图像与至少一个其他图像中比例最高的图像对应的类别，并作为训练样本对应的类别。

在本说明书中，上述在根据各目标类别对应的第一特征以及确定出的类别，确定训练样本对应的标准特征时，服务器可以确定训练样本对应的至少两个样本图像，从各目标类别对应的第一特征中，确定至少两个样本图像对应的类别的第一特征，再将确定出的至少两个第一特征进行融合，确定训练样本对应的标准特征。其中，训练样本对应至少两个样本图像，并且至少两个样本图像的类别是不同的，训练样本是将至少两个样本图像按照任意比例或者指定比例进行融合得到的，故上述在将确定出的至少两个第一特征进行融合，确定训练样本对应的标准特征时，服务器可以确定至少两个样本图像分别在训练样本的占比。再根据至少两个样本图像分别对应的占比，将至少两个样本图像对应的至少两个第一特征进行融合，得到训练样本对应的标准特征。服务器还可以将至少两个第一特征按照指定比例进行融合，得到训练样本对应的标准特征。

当上述训练样本对应两个样本图像时，服务器可以采用下述公式确定训练样本对应的标准特征：

其中，表示训练样本对应的标准特征，/>表示图像i对应的第一特征，/>表示图像/>对应的第一特征，/>表示图像i对应的比例，/>表示图像/>对应的比例。

当上述训练样本对应至少三个样本图像时，以三个样本图像为例，服务器可以采用下述公式确定训练样本对应的标准特征：

其中，、/>以及/>分别表示为/>、/>以及/>对应的比例，/>、/>以及/>分别表示图像1、图像2以及图像3分别对应的第一特征。

在本说明书中，上述步骤S104中可以得到多个训练样本，故对于每一个训练样本均可以采用上述的方式，确定每一个训练样本对应的标准特征，在此就不再赘述。

S108：将所述训练样本输入所述第一模型，确定所述训练样本对应的样本特征。

服务器将训练样本输入第一模型，确定训练样本对应的样本特征。其中，第一模型可以包括特征提取层以及分类层，如图2所示，图2为本说明书中提供的一种第一模型的结构示意图。故服务器可以将训练样本输入第一模型的特征提取层，确定训练样本对应的样本特征。

另外，由于训练样本可以为基于各样本图像得到的，故训练样本可以有多个，针对每一个训练样本，服务器可以将该训练样本输入第一模型的特征提取层，确定该训练样本的样本特征。

S110：至少根据所述样本特征以及所述标准特征，对所述第一模型进行训练，并将训练完成的第一模型作为图像分类模型，其中，所述图像分类模型用于根据待分类图像，确定所述待分类图像的分类结果。

服务器可以至少根据样本特征以及标准特征，对第一模型进行训练，并将训练完成的第一模型作为图像分类模型。其中，图像分类模型用于根据待分类图像，确定待分类图像的分类结果。具体的，服务器可以至少以样本特征与标准特征之间的差异最小为目标，对第一模型进行训练，并将训练完成的第一模型作为图像分类模型。另外，训练样本可以有多个，故服务器至少根据各训练样本分别对应的样本特征以及各训练样本分别对应的标准特征，对第一模型进行训练，并将训练完成的第一模型作为图像分类模型。

另外，以一个训练样本为例，服务器还可以根据样本特征以及标准特征，确定特征约束损失，再至少根据特征约束损失，对第一模型进行训练，并将训练完成的第一模型作为图像分类模型。其中，根据样本特征以及标准特征，确定特征约束损失时，服务器可以采用下述公式进行计算：

其中，表示特征约束损失，/>表示输出特征，/>表示特征中心。/>为度量函数。

在本说明书中，除了根据样本特征以及标准特征，对第一模型训练之外，服务器还可以根据训练样本的输出结果以及训练样本对应的类别，对第一模型进行训练。基于此，以一个训练样本为例，服务器可以将训练样本输入第一模型，确定训练样本对应的输出结果。确定训练样本的类别。再根据训练样本的输出结果、训练样本的类别、样本特征以及标准特征，对第一模型进行训练。其中，输出结果为第一模型确定出的训练样本在各目标类别中所属的类别。

具体的，以一个训练样本为例，服务器可以将训练样本输入第一模型，确定训练样本对应的输出结果。确定训练样本的类别。以输出结果与训练样本的类别之间的差异最小和以样本特征与标准特征之间的差异最小为目标，对第一模型进行训练。

服务器还可以根据训练样本的类别以及输出结果，确定分类任务损失。以及，根据样本特征以及标准特征，确定特征约束损失。之后，根据分类任务损失以及特征约束损失，对第一模型进行训练。其中，在确定分类任务损失时，可以采用下述公式进行计算：

其中，表示分类任务损失，N表示第二样本数据中图像的数量，/>表示图像i对应的目标类别，/>表示图像i对应的输出结果。

上述在根据分类任务损失以及特征约束损失，对第一模型进行训练时，服务器可以直接将分类任务损失以及特征约束损失的和作为总损失，再根据总损失，对第一模型进行训练。

从上述方法中可以看出，本申请在训练图像分类模型时，服务器可以获取各样本图像，以及确定各样本图像分别在预设的各目标类别中所属的类别，并作为各样本图像分别对应的标注。之后，基于各样本图像以及各标注，对预先训练的第一模型进行训练，得到第二模型。融合各样本图像中不同类别的样本图像，得到训练样本，以增加用于训练图像分类模型的样本的多样性，从而提高图像分类模型的表征能力。根据训练样本以及第二模型，确定训练样本对应的标准特征。再将训练样本输入第一模型，确定训练样本对应的样本特征。至少根据样本特征以及标准特征，对第一模型进行训练，并将训练完成的第一模型作为图像分类模型，增强图像分类模型的表征能力，提高图像分类模型的输出结果的准确性。

进一步地，服务器融合各样本图像中不同类别的样本图像，得到训练样本，后续再基于各目标类别的第一特征，确定训练样本对应的标准特征，增加了图图像的特征的连续性以及多样性，从而使得图像分类模型的特征空间的表征连续性以及多样性。之后，至少以训练样本对应的标准特征以及训练样本对应的样本特征，对第一模型训练，得到图像分类模型，提高图像分类模型的输出结果的准确性。

在本说明书中，除了上述步骤S106中根据各样本图像以及第二模型，确定各目标类别对应的第一特征时，除了根据各目标类别分别对应的样本图像的特征，计算各目标类别分别对应的第一特征之外，服务器还可以根据第二模型中分类层的模型参数，确定各目标类别分别对应的第一特征。具体的，第二模型包括分类层，分类层用于基于图像的特征，确定图像的输出结果。针对各目标类别，服务器可以确定在第二模型的分类层的模型参数中该目标类别对应的模型参数。将确定出的模型参数作为该目标类别对应的第一特征。其中，模型参数可以为权重参数。

在本说明书中，在上述步骤S104中通过将至少两个类别不同的样本图像进行融合，得到训练样本。后续在上述步骤S106中确定训练样本对应的标准特征时，实际上是将至少两个类别不同的样本图像的类别对应的第一特征进行融合，得到训练样本对应的标准特征。并且，该至少两个样本图像对应哪些类别，就将这些类别对应的第一特征进行融合。同时，该至少两个样本图像对应的类别是不相同的，从而该至少两个样本图像的类别对应的第一特征也是不相同的。

基于此，通过拼接的图像处理方式将至少两个图像进行拼接，得到拼接后的图像，后续再以训练样本对第一模型进行训练，使得各目标类别对应的第一特征具有连续性，从而使得训练完成的模型的表征具有连续性以及多样性。比如，进行融合的两个样本图像A和样本图像B分别对应的第一特征为1和2，将0.9的样本图像A和0.1的样本图像B进行拼接，得到图像C，即训练样本。图像C对应的标准特征为0.9样本图像A对应的第一特征和0.1的样本图像B对应的第一特征，该图像C的标准特征在1和2之间，并且由于样本图像A的类别对应的第一特征的比重高，故该图像C的标准特征靠近1。从而使得各目标类别的第一特征具有连续性，后续基于图像C训练图像分类模型，使得图像分类模型的表征能力增强。

在上述步骤S106中将该目标类别对应的目标样本输入第二模型，确定该目标类别对应的目标样本的输出特征时，或者在上述步骤S108中将训练样本输入第一模型，确定训练样本对应的样本特征时，由于第二模型与第一模型的模型结构相同，基于第一模型以及第二模型确定图像的特征的过程类似，第二模型可以包括特征提取层以及分类层，故以将该目标类别对应的目标样本输入第二模型，确定该目标类别对应的目标样本的输出特征为例进行具体说明，服务器可以将该目标类别对应的目标样本输入第二模型，确定该目标类别对应的目标样本的输出特征。该输出特征可以表示为，L表示特征序列的长度，D表示特征的维度。

其中，在将该目标类别对应的目标样本输入第二模型，确定该目标类别对应的目标样本的输出特征时，服务器可以将该目标类别对应的目标样本输入第二模型，确定第二模型输出的序列特征，将序列特征中的首位特征向量作为该目标类别对应的目标样本的输出特征，即。服务器还可以将序列特征中的除首位之外的其他特征向量进行平均池化，再将平均池化的结果作为该目标类别对应的目标样本的输出特征，即。上述序列特征中的首位特征向量表示为类别特征，即class token。

另外，在本说明书中的图像分类模型的训练方法也可以应用在知识蒸馏场景，上述第二模型可以作为教师模型，上述第一模型可以作为学生模型，因此，上述序列特征中还可以包括distillation token，故服务器还可以将序列特征中distillation token对应的特征向量以及class token对应的特征向量的和作为该目标类别对应的目标样本的输出特征。当然，服务器也可以将序列特征中distillation token对应的特征向量以及classtoken对应的特征向量的均值作为该目标类别对应的目标样本的输出特征，本说明书不做具体限定。

在上述步骤S110中根据分类任务损失以及特征约束损失，对第一模型进行训练时，服务器可以按照预设的权重，对分类任务损失进行加权，再根据加权后的损失以及特征约束损失，对第一模型进行训练。具体的，服务器可以按照预设的权重，对分类任务损失进行加权，再以加权后的损失以及特征约束损失的和，对第一模型进行计算，具体的可以采用下述公式进行计算：

其中，表示预设的权重，L表示加权后的损失以及特征约束损失的和。

在本说明书中，服务器还可以将各样本图像作为各训练样本，采用标签平滑的方式，对各训练样本分别对应的类别进行调整，得到各训练样本分别对应的调整后的类别。其中，每一个训练样本分别对应的调整后的类别为按照指定参数对每一个训练样本对应的类别（即每一个样本图像对应的类别）进行标签平滑处理后得到的。基于此，在上述步骤S106中根据训练样本以及第二模型，确定训练样本对应的标准特征时，服务器可以根据各样本图像以及第二模型，确定各目标类别对应的第一特征。再根据各目标类别对应的第一特征以及各训练样本分别对应的调整后的类别，确定各训练样本分别对应的标准特征。

其中，在根据各目标类别对应的第一特征以及各训练样本分别对应的调整后的类别，确定各训练样本分别对应的标准特征时，以一个训练样本为例，服务器可以从各目标类别对应的第一特征，确定训练样本对应的调整后的类别对应的第一特征。按照指定参数，对确定出的第一特征进行调整，将调整后的第一特征作为训练样本对应的标准特征。上述指定参数为服务器预先设置的标签平滑的参数。

上述按照指定参数，对确定出的第一特征进行调整，将调整后的第一特征作为训练样本对应的标准特征时，服务器可以采用下述公式进行计算：

其中，表示图像i（即训练样本）对应的标准特征，/>表示指定参数，/>表示确定出的图像i的第一特征，也就是图像i的调整前的第一特征，/>表示各目标类别的数量，/>表示除图像i的类别对应的第一特征之外的其他目标类别对应的第一特征。

在本说明书中，在得到图像分类模型后，为了保证图像分类模型的输出结果的准确性，服务器可以基于测试样本，对图像分类模型进行测试。故服务器可以获取测试图像，以及确定测试图像在各目标类别中所属的类别，并作为测试图像的标注。服务器可以根据测试图像以及测试图像对应的标注，对图像分别模型进行测试。具体的，服务器可以将测试图像输入图像分类模型，得到输出结果，确定输出结果与测试图像对应的标注之间的差异，当差异在指定范围内时，说明图像分类模型的准确性高，确定图像分类模型通过测试，后续将通过测试的图像分类模型应用在图像分类任务中。当差异不在指定范围内时，说明图像分类模型的准确性较低，服务器可以重新确定测试图像，并继续测试图像分类模型。或者，服务器还可以继续训练图像分类模型。

在本说明书中，在得到图像分类模型后，服务器可以响应于用户的图像分类请求，确定待分类图像，再将待分类图像输入图像分类模型，确定待分类图像的分类结果。将待分类图像的分类结果发送给用户。具体的，如图3所示，图3为本说明书中提供的一种图像分类模型的应用的示意图，图像分类模型包括特征提取层以及分类层，服务器可以响应于用户的图像分类请求，确定待分类图像，再将待分类图像输入图像分类模型的特征提取层，确定待分类图像的输出特征。再将输出特征输入图像分类模型的分类层，确定待分类图像的分类结果。将分类结果发送给用户，以使用户可以根据分类结果，确定待分类图像所属的类别。其中，分类结果为上述步骤S100中六个目标类别中的一个，该待分类图像所属的类别为上述步骤S100中六个目标类别中的一个。

在本说明书中，在得到图像分类模型后，服务器可以将该图像分类模型部署到终端上，以使终端可以接收用户上传的待分类图像，将待分类图像输入图像分类模型，确定待分类图像的分类结果，并显示给用户。

以上为本说明书的一个或多个实施的方法，基于同样的思路，本说明书还提供了相应的图像分类模型的训练装置，如图4所示。

图4为本说明书提供的一种图像分类模型的训练装置的示意图，包括：

获取模块200，用于获取各样本图像，以及确定所述各样本图像分别在预设的各目标类别中所属的类别，并作为所述各样本图像分别对应的标注；

第一训练模块202，用于基于所述各样本图像以及各标注，对预先训练的第一模型进行训练，得到第二模型；其中，所述第二模型用于确定输入所述第二模型的图像在所述各目标类别中所属的类别；

融合模块204，用于融合所述各样本图像中不同类别的样本图像，得到训练样本；

确定模块206，用于根据所述训练样本以及所述第二模型，确定所述训练样本对应的标准特征；

输入模块208，用于将所述训练样本输入所述第一模型，确定所述训练样本对应的样本特征；

第二训练模块210，用于至少根据所述样本特征以及所述标准特征，对所述第一模型进行训练，并将训练完成的第一模型作为图像分类模型，其中，所述图像分类模型用于根据待分类图像，确定所述待分类图像的分类结果。

可选地，所述融合模块204具体用于，针对所述各样本图像，确定类别不为该样本图像对应的类别的各样本图像，并作为各其他图像；将至少一个其他图像与该样本图像进行融合，并将融合后的图像作为训练样本。

可选地，所述确定模块206具体用于，根据所述各样本图像以及所述第二模型，确定所述各目标类别对应的第一特征；确定所述训练样本对应的类别，并根据所述各目标类别对应的第一特征以及确定出的类别，确定所述训练样本对应的标准特征。

可选地，所述确定模块206具体用于，针对所述各目标类别，在所述各样本图像中，确定类别为该目标类别的样本图像为目标样本；将该目标类别对应的目标样本输入所述第二模型，确定该目标类别对应的目标样本的输出特征；根据所述输出特征，确定该目标类别的第一特征。

可选地，所述第二模型包括分类层；

所述确定模块206具体用于，针对所述各目标类别，确定在所述第二模型的分类层的模型参数中该目标类别对应的模型参数；将确定出的模型参数作为该目标类别对应的第一特征。

可选地，所述装置还包括：

调整模块212，用于将所述各样本图像作为各训练样本；采用标签平滑的方式，对所述各训练样本分别对应的类别进行调整，得到所述各训练样本分别对应的调整后的类别；

所述确定模块206具体用于，根据所述各样本图像以及所述第二模型，确定所述各目标类别对应的第一特征；根据所述各目标类别对应的第一特征以及所述各训练样本分别对应的调整后的类别，确定所述各训练样本分别对应的标准特征。

可选地，所述装置还包括：

应用模块214，用于响应于用户的图像分类请求，确定待分类图像；将所述待分类图像输入所述图像分类模型，确定所述待分类图像的分类结果；将所述待分类图像的分类结果发送给所述用户。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的一种图像分类模型的训练方法。

本说明书还提供了图5所示的一种对应于图1的电子设备的示意结构图。如图5所示，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的图像分类模型的训练方法。

当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（Programmable Logic Device, PLD）（例如现场可编程门阵列（Field Programmable GateArray，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（Hardware Description Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera Hardware DescriptionLanguage）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（RubyHardware Description Language）等，目前最普遍使用的是VHDL（Very-High-SpeedIntegrated Circuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书的实施例可提供为方法、系统、或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种图像分类模型的训练方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，融合所述各样本图像中不同类别的样本图像，得到训练样本，具体包括：

3.如权利要求1所述的方法，其特征在于，根据所述训练样本以及所述第二模型，确定所述训练样本对应的标准特征，具体包括：

4.如权利要求3所述的方法，其特征在于，根据所述各样本图像以及所述第二模型，确定所述各目标类别对应的第一特征，具体包括：

根据所述输出特征，确定该目标类别的第一特征。

5.如权利要求3所述的方法，其特征在于，所述第二模型包括分类层；

将确定出的模型参数作为该目标类别对应的第一特征。

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

将所述各样本图像作为各训练样本；

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

响应于用户的图像分类请求，确定待分类图像；

将所述待分类图像的分类结果发送给所述用户。

8.一种图像分类模型的训练装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~7任一项所述的方法。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1~7任一项所述的方法。