CN113657523A

CN113657523A - 一种图像目标分类方法、装置、设备及存储介质

Info

Publication number: CN113657523A
Application number: CN202110967988.9A
Authority: CN
Inventors: 傅云翔; 张友国; 吕军; 姜殿洪; 程效根; 尹大海; 宋薇薇
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-11-16

Abstract

本申请提出一种图像目标分类方法、装置、设备及存储介质，该方法包括：获取目标图像，所述目标图像中包含待分类的目标对象；从所述目标图像中分割得到至少一个关键图像区域，所述关键图像区域为包含所述目标对象的关键部位的图像区域，所述关键部位为同一类别下的不同类型的目标对象之间具有较大区分度的部位；根据所述目标图像和所述至少一个关键图像区域，确定对所述目标对象的分类结果。该方法能够对于属于同一类别但是分属不同类型的目标对象进行准确分类，从而提高了图像目标分类的精细化程度，能够应对相同种类对象的细分类问题。

Description

一种图像目标分类方法、装置、设备及存储介质

技术领域

本申请涉及数字图像处理技术领域，尤其涉及一种图像目标分类方法、装置、设备及存储介质。

背景技术

图像目标分类是识别图像中的目标对象的关键技术，通常是通过从图像中提取目标对象特征，然后基于目标对象特征对目标对象进行分类。上述方案在对不同种类的对象进行分类时能够获得可观的分类效果，但是对于同一种类对象下的不同类型进行分类时，往往效果不佳。

比如在汽车领域，同一车辆品牌下会存在多种不同型号、不同系列的车型。对于不同品牌的车辆，通过图像分类通常能够准确区分，但是对于同一车辆品牌下的不同型号或不同系列的车型，则通常无法通过常规的图像分类方案准确区分。

因此，常规的图像目标分类方案在处理相同种类对象的细分类问题时的效果不佳。

发明内容

基于上述技术现状，本申请提出一种图像目标分类方法、装置、设备及存储介质，能够提高处理基于图像的相同种类对象的细分类问题时的分类效果。

为了实现上述目的，本申请提出的技术方案具体如下：

一种图像目标分类方法，包括：

获取目标图像，所述目标图像中包含待分类的目标对象；

从所述目标图像中分割得到至少一个关键图像区域，所述关键图像区域为包含所述目标对象的关键部位的图像区域，所述关键部位为同一类别下的不同类型的目标对象之间具有较大区分度的部位；

根据所述目标图像和所述至少一个关键图像区域，确定对所述目标对象的分类结果。

可选的，从所述目标图像中分割得到至少一个关键图像区域，以及，根据所述目标图像和所述至少一个关键图像区域，确定对所述目标对象的分类结果，包括：

将所述目标图像输入预先训练的目标分类模型，得到所述目标分类模型输出的对所述目标对象的分类结果；

其中，所述目标分类模型具备从所述目标图像中分割得到至少一个关键图像区域，并根据所述目标图像和所述至少一个关键图像区域，确定对所述目标对象的分类结果的能力。

可选的，从所述目标图像中分割得到至少一个关键图像区域，包括：

从所述目标图像中检测目标对象的关键部位；

当检测到目标对象的关键部位时，从目标图像中截取包含该关键部位的设定大小的图像区域，得到关键图像区域。

可选的，根据所述目标图像和所述至少一个关键图像区域，确定对所述目标对象的分类结果，包括：

从所述目标图像和所述至少一个关键图像区域中提取图像特征，并基于提取得到的图像特征确定对所述目标对象的分类结果。

可选的，从所述目标图像和所述至少一个关键图像区域中提取图像特征，并基于提取得到的图像特征确定对所述目标对象的分类结果，包括：

对所述目标图像进行特征提取，得到第一图像特征；

以及，对所述至少一个关键图像区域分别进行特征提取，得到第二图像特征；其中，所述第一图像特征与所述第二图像特征的尺寸相同；

对所述第一图像特征和所述第二图像特征进行融合处理，得到融合特征；

基于所述融合特征，确定对所述目标对象的分类结果。

可选的，所述对所述第一图像特征和所述第二图像特征进行融合处理，得到融合特征，包括：

对所述第一图像特征和所述第二图像特征进行拼接及卷积处理，得到融合特征。

可选的，所述目标分类模型通过预先训练得到的大规模图像分类模型辅助训练得到；

其中，所述大规模图像分类模型通过对深度卷积神经网络进行图像分类训练得到；

所述深度卷积神经网络以及所述目标分类模型均由残差网络搭建而成，并且所述大规模图像分类模型包含的残差网络数量大于所述目标分类模型包含的残差网络数量。

可选的，通过预先训练得到的大规模图像分类模型辅助训练所述目标分类模型，包括：

以预先获取的目标对象图像作为训练样本，利用所述大规模图像分类模型对所述目标分类模型进行蒸馏训练；

其中，所述目标对象图像为包含与所述目标图像中包含的目标对象相同或不同类型的对象的图像。

可选的，所述以预先获取的目标对象图像作为训练样本，利用所述大规模图像分类模型对所述目标分类模型进行蒸馏训练，包括：

利用所述大规模图像分类模型以及所述目标分类模型，分别对预先获取的目标对象图像进行分类处理；

通过将所述大规模图像分类模型以及所述目标分类模型的输出，与所述目标对象图像的分类标签进行对比，确定所述大规模图像分类模型的分类损失，以及所述目标分类模型的分类损失；

以及，通过将所述大规模图像分类模型提取的目标对象图像特征向量，与所述目标分类模型提取的目标对象图像特征向量进行对比，确定蒸馏损失；

根据所述大规模图像分类模型的分类损失对所述大规模图像分类模型的参数进行更新，以及，根据所述目标分类模型的分类损失和所述蒸馏损失，对所述目标分类模型的参数进行更新。

可选的，在利用所述大规模图像分类模型以及所述目标分类模型，分别对预先获取的目标对象图像进行分类处理之前，所述方法还包括：

将预先获取的目标对象图像调整为设定大小；

通过对目标对象图像进行随机裁剪，实现对目标对象图像的数据量扩充；

对各个目标对象图像进行像素值归一化处理。

一种图像目标分类装置，包括：

图像获取单元，用于获取目标图像，所述目标图像中包含待分类的目标对象；

图像提取单元，用于从所述目标图像中分割得到至少一个关键图像区域，所述关键图像区域为包含所述目标对象的关键部位的图像区域，所述关键部位为同一类别下的不同类型的目标对象之间具有较大区分度的部位；

目标分类单元，用于根据所述目标图像和所述至少一个关键图像区域，确定对所述目标对象的分类结果。

一种图像目标分类设备，包括：

存储器和处理器；

所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现上述的图像目标分类方法。

一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现上述的图像目标分类方法。

本申请提出的图像目标分类方法在对目标图像中的待分类目标对象进行分类时，先从目标图像中分割得到至少一个关键图像区域，所述关键图像区域为包含所述目标对象的关键部位的图像区域，所述关键部位为同一类别下的不同类型的目标对象之间具有较大区分度的部位；然后，根据所述目标图像和所述至少一个关键图像区域，确定对所述目标对象的分类结果。上述的分类方案不仅利用了图像整体特征，还充分利用了不同类型的目标对象之间具有较大区分度的部位的图像特征，即不仅利用了全局特征还利用了局部特征，因此，该方案能够对于属于同一类别但是分属不同类型的目标对象进行准确分类，从而提高了图像目标分类的精细化程度，能够应对相同种类对象的细分类问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的一种图像目标分类方法的流程示意图；

图2是本申请实施例提供的目标分类模型进行图像目标分类的过程示意图；

图3是本申请实施例提供的目标分类模型训练过程示意图；

图4是本申请实施例提供的一种图像目标分类装置的结构示意图；

图5是本申请实施例提供的一种图像目标分类设备的结构示意图。

具体实施方式

本申请实施例提出的技术方案适用于对图像目标进行分类、识别的应用场景，采用本申请实施例技术方案，能够更加细致、准确地对图像中的目标对象进行分类，尤其是对于同一种类下的不同类型的目标对象也能够实现准确分类。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例首先提出一种图像目标分类方法，参见图1所示，该方法包括：

S101、获取目标图像，所述目标图像中包含待分类的目标对象。

上述的待分类的目标对象，可以是目标图像中的任意种类的目标对象，例如可以是动物、植物、汽车、桌子、椅子等各种物品中的任意一种或多种，具体的，该待分类的目标对象可以是任意种类的目标对象下属的任意类型的对象，例如可以是老虎种类下的东北虎、华南虎，或者是树木种类下的杨树、柳树、榆树等，或者是汽车种类下的轿车、越野车等。

本申请实施例技术方案尤其能够解决对于属于某一种类下的某一种类型的目标对象的分类，因此，上述的目标对象，可以是任意种类对象下属的任一类型的对象。在本申请实施例中，以目标图像中包含一个待分类目标对象为例介绍本申请实施例所提出的图像目标分类方法的实施方式。

为了便于说明本申请实施例技术方案的实现过程，本申请实施例以目标对象为某一品牌汽车下属的某一型号的汽车为例，对本申请实施例技术方案进行介绍。通过执行本申请实施例技术方案，能够准确地对相同品牌、不同型号的汽车进行分类、识别。

上述的目标图像可以是对待分类目标对象进行实时拍摄获取的图像，也可以是从存储器中读取的包含待分类目标对象的图像。

S102、从所述目标图像中分割得到至少一个关键图像区域，所述关键图像区域为包含所述目标对象的关键部位的图像区域，所述关键部位为同一类别下的不同类型的目标对象之间具有较大区分度的部位。

具体的，上述的目标对象的关键部位，是指属于同一类别的不同类型的目标对象之间具有较大区分度的部位，也就是具有明显区别的部位。

其中，属于同一类别的不同类型的目标对象之间的区分度，可以通过差异度来度量，属于同一类别的不同类型的目标对象之间的差异度越大，则两者之间的区分度就越大。该差异度可以用差异度百分比来表示。

因此，上述的属于同一类别的不同类型的目标对象之间具有较大区分度的部位，具体可以是属于同一类别的不同类型的目标对象之间具有较大差异度的部位，例如差异度超过设定的差异度阈值的部位，为了使得不同类型的目标对象之间的区分度较大，该设定的差异度阈值为较高百分比的差异度，该较高百分比优选地可设置为超过60％的差异度，比如可以将属于同一类别的不同类型的目标对象之间的差异度超过70％的部位作为该属于同一类别的不同类型的目标对象之间的具有较大区分度的部位。

可以理解，依据属于同一类别的不同类型的目标对象之间的具有较大区分度的关键部位，能够更加准确地对属于同一类别的不同类型的目标对象进行区分。因此，从目标图像中提取得到至少一个关键图像区域，然后借助这些关键图像区域对目标图像中的目标对象进行分类，将有助于更加准确地确定目标对象的具体类型，即实现对目标对象的更加细致的分类。

基于上述原理，本申请实施例在获取到包含待分类的目标对象之后，从该目标图像中分割出至少一个关键图像区域，并将其用于对目标对象进行分类。

作为一种可选的实施方式，本申请实施例预先针对各种类别的物品，预先确定属于同一类别的不同类型的物品之间具有较大区分度的部位。

比如，对于汽车来说，同一汽车品牌下的不同车型，在车前脸、车前灯、车轮、车后灯这些部位的区分度较大，因此可以将汽车图像中的车前脸、车前灯、车轮、车后灯这些部位作为属于同一品牌汽车的不同车型之间具有较大区分度的部位。

又如，对于树木而言，不同类型的树木在树叶、树皮这些部位的区分度较大，因此可以将树木图像中的树叶、树皮这些部位作为属于不同品种树木之间的具有较大区分度的部位。

然后，当获取到包含待分类的目标对象的目标图像后，先识别确定该目标对象所属的类别，然后再根据预先已经确定的属于该类别的不同类型的物品之间具有较大区分度的部位，从该目标图像的目标对象图像区域中检测上述预先已经确定的属于该类别的不同类型的物品之间具有较大区分度的部位，也就是从该目标图像中检测目标对象的关键部位。

当从目标图像中检测到目标对象的关键部位时，从目标图像中截取包含该关键部位的设定大小的图像区域，得到关键图像区域。

例如，假设获取到的目标图像为包含待分类的汽车的图像，由于预先已经确定了，属于同一汽车品牌的不同车型在车前脸、车前灯、车轮、车后灯这些部位的区分度较大，因此从该汽车图像中检测车前脸、车前灯、车轮、车后灯这些部位，并将包含这些部位的图像区域分割出来，得到关键图像区域。

其中，对于各个关键部位的图像区域分割，可以通过固定参数的检测框来控制分割出的关键图像区域的大小。即，利用固定参数的检测框从目标图像中检测并分割包含关键部位的图像区域，使得分割出的各个关键图像区域为相同尺寸的图像区域。

S103、根据所述目标图像和所述至少一个关键图像区域，确定对所述目标对象的分类结果。

示例性的，分别对上述的目标图像，以及上述的至少一个关键图像区域进行图像特征提取，然后将提取的所有的图像特征，共同用于对目标图像中的目标对象进行分类。

可选的，上述的将提取的所有的图像特征，共同用于对目标图像中的目标对象进行分类，可以是先将提取的目标图像特征与各个关键图像区域特征进行特征融合，然后再利用融合特征对目标对象进行分类。

例如，先对汽车图像整体进行特征提取得到汽车图像特征，然后对从汽车图像中分割得到的车前脸、车前灯、车轮、车后灯这些部位的图像区域分别进行特征提取，得到各个关键图像区域特征；接下来将提取的汽车图像特征与各个关键图像区域特征进行特征融合，得到融合特征，再利用该融合特征对汽车图像中的具体车型进行分类。

或者，也可以先利用目标图像对目标图像中的待分类目标对象的类别进行分类，然后再借助从目标图像中分割得到的各个关键图像区域对目标图像中的待分类目标对象的具体类型进行分类。

例如，先对汽车图像整体进行特征提取得到汽车图像特征，然后利用汽车图像特征对该汽车图像中的汽车进行分类，确定其是属于哪个品牌的汽车。接下来，对于从汽车图像中分割得到的各个关键图像区域进行特征提取，得到各个关键图像区域特征，然后再利用各个关键图像区域特征，确定该汽车图像中的汽车是属于已确定的汽车品牌下所属的哪个型号的汽车。

通过上述介绍可见，本申请实施例提出的图像目标分类方法在对目标图像中的待分类目标对象进行分类时，先从目标图像中分割得到至少一个关键图像区域，所述关键图像区域为包含所述目标对象的关键部位的图像区域，所述关键部位为同一类别下的不同类型的目标对象之间具有较大区分度的部位；然后，根据所述目标图像和所述至少一个关键图像区域，确定对所述目标对象的分类结果。上述的分类方案不仅利用了图像整体特征，还充分利用了不同类型的目标对象之间具有较大区分度的部位的图像特征，即不仅利用了全局特征还利用了局部特征，因此，该方案能够对于属于同一类别但是分属不同类型的目标对象进行准确分类，从而提高了图像目标分类的精细化程度，能够应对相同种类对象的细分类问题。

作为一种可选的实施方式，本申请实施例预先训练目标分类模型，用于通过执行本申请实施例提出的目标分类方法，实现对目标图像中的目标对象的分类。

上述的目标分类模型经过训练后，具备从目标图像中分割得到至少一个关键图像区域，并根据目标图像和至少一个关键图像区域，确定对目标对象的分类结果的能力。

基于上述的模型训练效果，将获取的目标图像输入该目标分类模型，则，该目标分类模型从该目标图像中分割得到至少一个关键图像区域，并根据目标图像和该至少一个关键图像区域，确定对该目标图像中的目标对象的分类结果，进而，获取该目标分类模型输出的对该目标对象的分类结果，即达到了对目标图像中的目标对象的分类目的。

示例性的，上述的目标分类模型可以通过对训练样本图像进行目标分类训练得到，其中，训练样本图像中的待分类目标，是与上述的目标图像中的目标对象相同类别的目标。

例如，假设上述的目标分类模型用于对汽车图像中的汽车进行分类，则对该目标分类模型进行训练时，利用包含汽车的图像作为训练样本图像，使模型对训练样本图像中的汽车进行分类训练。

假设上述的目标分类模型用于对树木图像中的树木进行分类，则对该目标分类模型进行训练时，利用包含树木的图像作为训练样本图像，使模型对训练样本图像中的树木进行分类训练。

即，上述的目标分类模型，可以根据其应用目的而选择训练样本进行训练。

具体的训练过程可以参见后续实施例介绍。

参见上文实施例介绍，上述的根据目标图像和至少一个关键图像区域，确定对目标图像中的目标对象的分类结果，具体可以从目标图像和至少一个关键图像区域提取图像特征，然后基于提取得到的图像特征确定对目标对象的分类结果。

具体的，上述过程可以通过执行如下步骤S1-S3而实现：

S1、从所述目标图像中提取图像特征，得到第一图像特征；以及，对所述至少一个关键图像区域分别进行特征提取，得到第二图像特征；其中，所述第一图像特征与所述第二图像特征的尺寸相同。

具体的，如图2所示，假设目标图像为汽车图像，将该目标图像输入目标分类模型，该目标分类模型中的包含一个轻量级的检测模型，用于从输入目标分类模型的目标图像中检测、分割得到至少一个关键图像区域，具体的分割方法可参见上述方法实施例介绍。

如图2所示，将上述的汽车图像输入该目标分类模型，则该目标分类模型中的检测模型首先从该汽车图像中分割出四个关键图像区域，例如可以分别是车前脸、车前灯、车轮、车后灯的图像区域。

在分别获取上述的目标图像，以及从目标图像中分割得到的至少一个关键图像区域后，对该目标图像进行图像特征提取，例如将该目标图像输入目标分类模型的特征提取模块A，由特征提取模块A对目标图像进行特征提取，即可得到该目标图像的整体图像特征，作为第一图像特征。

其中，上述的特征提取模块A由多个残差网络构成，各个残差网络配合对目标图像进行卷积处理，得到其图像特征，该图像特征为设定大小的特征图。

同时，对于从目标图像中分割到的至少一个关键图像区域，分别进行特征提取，得到各个关键图像区域对应的图像特征，分别作为第二图像特征。

示例性的，由于关键图像区域是从目标图像中提取的子区域，其尺寸小于目标图像，直接对关键图像区域提取的特征的维度必定小于直接对目标图像提取的特征，这在后期对目标图像特征和关键图像区域特征进行融合时是困难的。

为了使得对目标图像提取的特征与对关键图像区域提取的特征的维度相同，从而便于后续的特征融合，本申请实施例对各个关键图像区域进行反卷积处理，从而提取各个关键图像区域的图像特征，并且，设置对目标图像进行卷积得到的图像特征的维度，与关键图像区域经过反卷积得到的图像特征的维度相同，也就是使上述的第一图像特征和第二图像特征的尺寸相同，这样可以便于后期对第一图像特征和第二图像特征进行融合。

示例性的，上述的目标图像经过卷积得到的图像特征的尺寸，与上述的关键图像区域经过反卷积得到的图像区域的图像特征的尺寸，可以通过对卷积核和反卷积核的大小进行调整而控制。

S2、对所述第一图像特征和所述第二图像特征进行融合处理，得到融合特征。

具体的，将第一图像特征和第二图像特征进行融合，得到的融合特征中同时包含了目标图像的整体图像特征，以及目标图像中的关键部位图像特征。因此，基于该融合特征，既能够从整体上对目标图像中的目标对象进行分类识别，又能从细节上对目标图像中的目标对象进行分类识别，从而能够用于对目标对象进行细分类。

作为一种优选的实施方式，本申请实施例对上述的第一图像特征和第二图像特征进行拼接处理以及卷积处理，得到融合特征。

如图2所示，目标分类网络的特征融合模块将从原始的汽车图像中分割得到的关键图像区域通过反卷积上采样到与原始汽车图像的特征图相同尺寸，组成特征图组，通过分组卷积融合网络逐层提取特征和直接提取特征，得到与各个关键图像区域对应的第二图像特征。

然后，特征融合模块对上述的第一图像特征和第二图像特征进行拼接处理，得到拼接特征。然后，目标分类网络的特征提取模块B再对拼接特征进行卷积处理，使得拼接特征成为全局特征与局部特征深度融合的融合特征。

其中，上述的特征提取模块B由多个残差网络构成，各个残差网络配合对输入的拼接特征进行卷积处理，得到融合特征。该特征提取模块B相对于特征提取模块A更小，即特征提取模块B包含的残差网络的数量比特征提取模块A更少。

S3、基于所述融合特征，确定对所述目标对象的分类结果。

具体的，根据上述的融合特征进行目标对象分类，即可确定对目标对象的分类结果。

示例性的，如图2所示，将上述的融合特征输入目标分类模型的特征分类器，使特征分类器基于该融合特征，确定对目标对象的分类结果。

通过上述介绍可见，上述的目标分类模型，其中包括局部分割模块，特征提取模块A、特征融合模块、特征提取模块B、特征分类器等主要部分，能够分别实现关键图像区域分割、目标图像特征提取、关键图像区域特征提取、特征融合、基于融合特征的目标分类处理。

基于上述的模型架构，作为优选的实现方式，上述的目标分类模型，通过预先训练得到的大规模图像分类模型辅助训练得到。

其中，上述的大规模图像分类模型，通过对深度卷积神经网络进行图像分类训练得到。

并且，本申请实施例设定，上述的深度卷积神经网络与上述的目标分类模型一样，都是由残差网络搭建而成，并且该大规模图像分类模型包含的残差网络数量大于目标分类模型包含的残差网络数量。优选的，该大规模图像分类模型由大量的残差网络组成，而该目标分类模型则由少量的残差网络组成。

残差网络的存在有利于深层网络结构的搭建，本申请实施例使用大量的残差网络串联作为网络基础结构，结合senet结构用以适量降低模型参数大小并提升计算速度，得到深度卷积神经网络结构。

由大量的残差网络搭建组成的深度卷积神经网络，能够通过足量的计算单元(组成深度卷积神经网络的残差网络即为深度卷积神经网络的计算单元)提取出图像尽可能多的特征。深度卷积神经网络在图像精细分类领域具有强大的泛化能力，使用深度卷积神经网络能够规避目标对象分类训练数据少(例如汽车图像分类训练数据少)的问题，通过海量其他图像分类数据就能训练得到一个特征提取能力强大的网络模型。

为了使得上述的大规模图像分类模型能够被训练出强大的特征提取能力，本申请实施例利用海量公开数据对该大规模图像分类模型进行训练。由于imagenet数据集数据量大种类丰富，可以直接选取作为该大规模图像分类模型的训练数据。

在选取的大规模图像分类模型的训练数据中，可以包含与上述的目标图像中包含的目标对象相同或不同类别的对象的图像。

例如，假设上述的目标图像为汽车图像，则选取的大规模图像分类模型的训练数据中，可能包括汽车图像，也可能包括其他对象图像，比如动物图像、植物图像等。

作为优选的实施方式，本申请实施例从imagenet数据集中筛选海量的包含与目标图像中的目标对象不同类别的对象的图像，作为该大规模图像分类模型的训练数据。主要用于训练该大规模图像分类模型对图像的特征提取能力。

例如，假设上述的目标图像为汽车图像，也就是希望训练目标分类模型能够用于对汽车图像中的汽车进行分类，则预先利用海量的非汽车图像训练得到大规模图像分类模型，用于辅助对上述的目标分类模型的训练。

由此可以理解，在本申请实施例中，为了训练得到目标分类模型，需要预先准备两种训练数据，一种是用于训练得到大规模图像分类模型的海量非分类目标图像，另一种是用于训练得到目标分类模型的分类目标图像。

在实际训练之前，先对上述的两种训练数据分别进行预处理，即，对用于训练目标分类模型的目标对象图像，以及对用于训练大规模图像分类模型的图像，进行相同的预处理，该预处理的具体处理内容包括如下A1、A2、A3：

A1、将预先获取的目标对象图像调整为设定大小。

具体的，本申请实施例将所有的训练图像统一调整为224×224大小。

A2、通过对目标对象图像进行随机裁剪，实现对目标对象图像的数据量扩充。

具体的，为了应对图像数据不均衡的问题，采用随机无放回的采样方式并使用随机裁剪来进行图像数据扩充。

A3、对各个目标对象图像进行像素值归一化处理。

具体的，统计训练数据的所有图像在RGB三个通道上的像素值，相加求和再求平均获得均值，并通过统计学计算方差。然后对原始图像每一个像素值减去方差再除以均值获得归一化后的图像数据。

经过上述的训练数据预处理后，首先对上述的大规模图像分类模型进行训练，在训练时，采用224×224的输入尺寸，初始学习率设置为0.4，学习率衰减设置为0.1，作200次epoch的迭代，分别在40、60次时执行学习率衰减。在imagenet数据下能过预先训练出准确率约80％的网络模型，供后续辅助训练目标分类模型时使用。

当上述的大规模图像分类模型训练完成后，通过该大规模图像分类模型辅助训练目标分类模型。

具体是，以预先获取的目标对象图像作为训练样本，利用该大规模图像分类模型对目标分类模型进行蒸馏训练。

其中，上述的目标对象图像，即为上述实施例介绍的，为了对目标分类模型进行训练的训练数据，其具体为包含与目标图像中的待分类的目标对象相同或不同类型的对象的图像，也就是，目标对象图像中包含上述的目标图像中的待分类目标对象所属类型的对象。

例如，假设目标图像为汽车图像，则上述的目标对象图像，则为包含与目标图像中的汽车相同或不同类型的汽车的图像。

利用包含与待分类的目标对象相同或不同类型的对象的图像对目标分类模型进行训练，可以使得该目标分类模型具备对目标对象所属类型的对象进行细分类的能力。

示例性的，上述的以预先获取的目标对象图像作为训练样本，利用该大规模图像分类模型对目标分类模型进行蒸馏训练。

目标分类模型在实际场景中应用时，需要在保持识别速度的情况下实现较好的识别效果。将知识蒸馏技术应用到图像目标分类中，通过海量图像训练大规模图像分类模型用来指导目标分类模型的训练，使得该目标分类模型提取的图像特征会趋同于该大规模图像分类模型提取的图像特征，从而提高该目标分类模型的特征提取能力，使得目标分类模型能够又快又好地对目标图像中的目标对象进行分类。

由于目标分类模型的体量比大规模图像分类模型的体量小得多，因此，将知识蒸馏技术应用到目标分类模型训练中，利用大规模图像分类模型对目标分类模型进行蒸馏训练，可以使得目标分类模型这一较小体量的模型具备大体量模型才具备的图像分类性能。将目标分类模型进行线上部署或实际场景应用，具有较高的便利性，不会由于模型体量较大造成无法部署或者资源消耗过高的问题。

具体的，上述的利用大规模图像分类模型对目标分类模型进行蒸馏训练的具体处理过程，包括如下步骤：

B1、利用所述大规模图像分类模型以及所述目标分类模型，分别对预先获取的目标对象图像进行分类处理。

具体的，大规模图像分类模型作为教师网络，而目标分类模型作为学生网络，将训练数据，即预先获取的目标对象图像，同时输入大规模图像分类模型以及目标分类模型，使得该大规模图像分类模型以及该目标分类模型同时对同一目标对象图像进行分类处理。

例如图3所示，对获取的车型识别数据图像(即用于训练的汽车图像)打标签，得到车型识别数据标签。然后将车型识别数据图像分别输入大规模图像分类模型，以及目标分类模型，使大规模图像分类模型以及目标分类模型分别对车型识别数据图像进行汽车分类处理。

B2、通过将所述大规模图像分类模型以及所述目标分类模型的输出，与所述目标对象图像的分类标签进行对比，确定所述大规模图像分类模型的分类损失，以及所述目标分类模型的分类损失；

以及，通过将所述大规模图像分类模型提取的目标对象图像特征向量，与所述目标分类模型提取的目标对象图像特征向量进行对比，确定蒸馏损失。

具体的，在上述的大规模图像分类模型以及上述的目标分类模型分别对同一目标对象图像进行分类处理的过程中，本申请实施例针对大规模图像分类模型和目标分类模型进行如下三种损失函数的计算：

第一种损失函数是大规模图像分类模型的输出与目标对象图像的分类标签之间的损失函数。

将大规模图像分类模型的输出，与输入该大规模图像分类模型的目标对象图像的分类标签计算损失，得到该大规模图像分类模型的分类损失。其中，目标对象图像的分类标签，是指对目标对象图像进行图像目标分类标注得到的标签。

本申请实施例利用交叉熵损失函数，计算大规模图像分类模型的输出，与目标对象图像的分类标签之间的损失，得到大规模图像分类模型的分类损失。

第二种损失函数是目标分类模型的输出与目标分类图像的分类标签计算损失，得到该目标分类模型的分类损失。

将目标分类模型的输出，与输入该目标分类模型的目标对象图像的分类标签计算损失，得到该目标分类模型的分类损失。作为可选的实施方式，本申请实施例利用交叉熵损失函数，计算目标分类模型的输出，与目标对象图像的分类标签之间的损失，得到目标分类模型的分类损失。

第三种损失函数是将大规模图像分类模型提取的目标对象图像特征向量，与目标分类模型提取的目标对象图像特征向量计算损失，得到蒸馏损失。

从大规模图像分类模型中，提取输入其分类层的特征向量，该特征向量即为大规模图像分类模型对输入的目标对象图像进行特征提取得到的目标对象图像特征向量。

相应的，从目标分类模型中，提取输入其分类层的特征向量。该特征向量即为目标分类模型对输入的目标对象图像进行特征提取得到的目标对象图像特征向量。

然后，将大规模图像分类模型提取的目标对象图像特征向量，与目标分类模型提取的目标对象图像特征向量进行对比，计算两者的损失，作为蒸馏损失。该蒸馏损失能够用于表示大规模图像分类模型与目标分类模型对同一目标对象图形进行特征提取得到的目标对象特征向量的差异。

其中，目标对象图像标签为非0即1的标签组成的one-hot向量形式。而大规模图像分类模型和目标分类模型通过softmax对每个样本输出的都是一个连续的标签分布，每个标签对应每个类型的对象的置信度，其取值范围在0到1之间。因此，大规模图像分类模型和目标分类模型的输出分别可以命名为大规模图像分类模型预测标签和目标分类模型预测标签。

例如图3所示，将车型识别数据图像分别输入大规模图像分类模型以及目标分类模型，然后通过将大规模图像分类模型的输出与车型识别数据标签进行对比，计算得到大规模图像分类模型的分类损失loss；与此同时，通过该将目标分类模型的输出与车型识别数据标签进行对比，计算得到目标分类模型的分类损失Hard-Target Loss；以及，将大规模图像分类模型对车型识别数据图像提取的特征向量，与目标分类模型对车型识别数据图像提取的特征向量进行对比计算损失，得到蒸馏损失Soft-Target Loss。

其中，车型识别数据标签为非0即1的标签组成的one-hot向量形式。而大规模图像分类模型和目标分类模型通过softmax对每个样本输出的都是一个连续的标签分布，每个标签对应每个车型的置信度，其取值范围在0到1之间。因此，大规模图像分类模型和目标分类模型的输出分别可以命名为大规模图像分类模型预测标签和目标分类模型预测标签。

B3、根据所述大规模图像分类模型的分类损失对所述大规模图像分类模型的参数进行更新，以及，根据所述目标分类模型的分类损失和所述蒸馏损失，对所述目标分类模型的参数进行更新。

具体的，在每轮训练过程中，均同时执行如下的模型参数更新：

(1)根据大规模图像分类模型的分类损失，对大规模图像分类模型的参数进行更新，将该大规模图像分类模型从原来的非分类目标图像分类模型，逐步调整为分类目标图像分类模型。

例如图3，通过对大规模图形分类模型的参数进行调整，使得大规模图像分类模型从原来的非汽车图像分类模型逐步调整为汽车图像分类模型。

(2)根据目标分类模型的分类损失和蒸馏损失，对目标分类模型的参数进行更新。

根据蒸馏损失对目标分类模型的参数进行更新，将辅助目标分类模型预测标签的分布与大规模图像分类模型的预测标签分布的差距变小，使得目标分类模型可以学习到大规模图像分类模型的特征提取能力和泛化能力，能够更好地区分类间差小的相似种类。而根据目标分类模型的分类损失对目标分类模型的参数进行更新，能够使得目标分类模型逐步获得正确的分类识别能力。

将上述两种损失结合用于对目标分类模型进行参数调整，使得轻量级的目标分类模型以较小的网络参数，获得接近大规模图像分类模型的分类效果。从而解决了轻量级网络无法胜任繁重的图像目标分类任务的问题。

与上述的图像目标分类方法相对应的，本申请实施例还提出一种图像目标分类装置，参见图4所示，该装置包括：

图像获取单元100，用于获取目标图像，所述目标图像中包含待分类的目标对象；

图像提取单元110，用于从所述目标图像中分割得到至少一个关键图像区域，所述关键图像区域为包含所述目标对象的关键部位的图像区域，所述关键部位为同一类别下的不同类型的目标对象之间具有较大区分度的部位；

目标分类单元120，用于根据所述目标图像和所述至少一个关键图像区域，确定对所述目标对象的分类结果。

本申请实施例提出的图像目标分类装置在对目标图像中的待分类目标对象进行分类时，先从目标图像中分割得到至少一个关键图像区域，所述关键图像区域为包含所述目标对象的关键部位的图像区域，所述关键部位为同一类别下的不同类型的目标对象之间具有较大区分度的部位；然后，根据所述目标图像和所述至少一个关键图像区域，确定对所述目标对象的分类结果。上述的分类方案不仅利用了图像整体特征，还充分利用了不同类型的目标对象之间具有较大区分度的部位的图像特征，即不仅利用了全局特征还利用了局部特征，因此，该方案能够对于属于同一类别但是分属不同类型的目标对象进行准确分类，从而提高了图像目标分类的精细化程度，能够应对相同种类对象的细分类问题。

从所述目标图像中检测目标对象的关键部位；

对所述目标图像进行特征提取，得到第一图像特征；

基于所述融合特征，确定对所述目标对象的分类结果。

可选的，在利用所述大规模图像分类模型以及所述目标分类模型，分别对预先获取的目标对象图像进行分类处理之前，还包括：

将预先获取的目标对象图像调整为设定大小；

对各个目标对象图像进行像素值归一化处理。

具体的，上述的图像目标分类装置的各个单元的具体工作内容，请参见上述的方法实施例的内容，此处不再赘述。

本申请另一实施例还提出一种图像目标分类设备，参见图5所示，该设备包括：

存储器200和处理器210；

其中，所述存储器200与所述处理器210连接，用于存储程序；

所述处理器210，用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的图像目标分类方法。

具体的，上述图像目标分类设备还可以包括：总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器210可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器，还可包括基带芯片、调制解调器等。

存储器200中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器210执行存储器200中所存放的程序，以及调用其他设备，可用于实现本申请实施例所提供的图像目标分类方法的各个步骤。

本申请另一实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时，实现上述任一实施例提供的图像目标分类方法的各个步骤。

具体的，上述的图像目标分类设备的各个部分的具体工作内容，以及上述的存储介质上的计算机程序被处理器运行时的具体处理内容，均可以参见上述的图像目标分类方法的各个实施例的内容，此处不再赘述。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图像目标分类方法，其特征在于，包括：

获取目标图像，所述目标图像中包含待分类的目标对象；

2.根据权利要求1所述的方法，其特征在于，从所述目标图像中分割得到至少一个关键图像区域，以及，根据所述目标图像和所述至少一个关键图像区域，确定对所述目标对象的分类结果，包括：

3.根据权利要求1或2所述的方法，其特征在于，从所述目标图像中分割得到至少一个关键图像区域，包括：

从所述目标图像中检测目标对象的关键部位；

4.根据权利要求1或2所述的方法，其特征在于，根据所述目标图像和所述至少一个关键图像区域，确定对所述目标对象的分类结果，包括：

5.根据权利要求4所述的方法，其特征在于，从所述目标图像和所述至少一个关键图像区域中提取图像特征，并基于提取得到的图像特征确定对所述目标对象的分类结果，包括：

对所述目标图像进行特征提取，得到第一图像特征；

基于所述融合特征，确定对所述目标对象的分类结果。

6.根据权利要求5所述的方法，其特征在于，所述对所述第一图像特征和所述第二图像特征进行融合处理，得到融合特征，包括：

7.根据权利要求2所述的方法，其特征在于，所述目标分类模型通过预先训练得到的大规模图像分类模型辅助训练得到；

8.根据权利要求7所述的方法，其特征在于，通过预先训练得到的大规模图像分类模型辅助训练所述目标分类模型，包括：

9.根据权利要求8所述的方法，其特征在于，所述以预先获取的目标对象图像作为训练样本，利用所述大规模图像分类模型对所述目标分类模型进行蒸馏训练，包括：

10.根据权利要求9所述的方法，其特征在于，在利用所述大规模图像分类模型以及所述目标分类模型，分别对预先获取的目标对象图像进行分类处理之前，所述方法还包括：

将预先获取的目标对象图像调整为设定大小；

对各个目标对象图像进行像素值归一化处理。

11.一种图像目标分类装置，其特征在于，包括：

12.一种图像目标分类设备，其特征在于，包括：

存储器和处理器；

所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现如权利要求1至10中任意一项所述的图像目标分类方法。

13.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现如权利要求1至10中任意一项所述的图像目标分类方法。