CN110929774A

CN110929774A - 图像中目标物的分类方法、模型训练方法和装置

Info

Publication number: CN110929774A
Application number: CN201911126987.0A
Authority: CN
Inventors: 闫桂霞; 王瑞琛; 王晓利
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2020-03-27
Anticipated expiration: 2039-11-18
Also published as: CN110929774B

Abstract

本申请提供一种图像中目标物的分类方法、模型训练方法和装置，属于计算机技术领域，涉及人工智能和计算机视觉技术。本申请通过特征提取模型提取待处理图像的特征图，确定在待处理图像中预先标定的目标物包围框在特征图中对应的待分类区域，通过图像分类模型确定待分类区域对应的目标物类别，并输出分类结果。其中，特征提取模型和图像分类模型是基于训练图像进行训练得到的，训练图像包括样本目标物和样本目标物所处的背景环境。使用包括背景环境的训练图像对特征提取模型和图像分类模型进行训练，可以充分利用训练图像中的背景信息，使训练得到的特征提取模型和图像分类模型可以准确区分目标物与背景，进而提高分类准确率。

Description

图像中目标物的分类方法、模型训练方法和装置

技术领域

本申请涉及计算机技术领域，更具体地说，涉及一种图像中目标物的分类方法、模型训练方法和装置。

背景技术

随着计算机技术的迅速发展，对图像中的物品进行分类的技术已在越来越多的领域得到了应用。现有技术中通常采用图像分类模型对图像中的物品进行分类，如何训练得到一个准确率高的图像分类模型是在图像分类应用中的重要问题。

目前，在对图像分类模型进行训练时，一般是人工在原始图像中标注物品包围框，将人工标注的物品包围框对应的图像区域从原始图像中分割出来，得到仅包含物品的小区域图像，基于由小区域图像组成的训练数据集对图像分类模型进行训练。

由于通过上述方法得到的小区域图像仅包含物品，而剔除了物品周围的背景环境信息，因而供图像分类模型学习的图像信息较片面，使训练得到的图像分类模型的分类准确率较低。

现有技术对图像中的其他目标物进行分类时，也存在上述技术问题。

发明内容

为解决现有存在的技术问题，本申请实施例提供一种图像中目标物的分类方法、模型训练方法和装置，可以提高分类准确率。

为达到上述目的，本申请实施例的技术方案是这样实现的：

第一方面，本申请实施例提供一种图像中目标物的分类方法，所述方法包括：

通过特征提取模型对待处理图像进行特征提取，得到所述待处理图像的特征图；

确定在所述待处理图像中预先标定的目标物包围框在所述特征图中对应的待分类区域；

通过图像分类模型确定所述待分类区域对应的目标物类别，并输出分类结果；所述特征提取模型和所述图像分类模型是基于训练图像进行训练得到的，所述训练图像包括样本目标物和样本目标物所处的背景环境，其中所述样本目标物被标注了样本目标物包围框和样本目标物分类标签。

第二方面，本申请实施例还提供一种模型训练方法，所述模型包括特征提取模型和图像分类模型；所述方法包括：

获取训练图像；所述训练图像包括样本目标物和样本目标物所处的背景环境，其中所述样本目标物被标注了样本目标物包围框和样本目标物分类标签；

将所述训练图像输入特征提取模型，得到所述训练图像的特征图；

确定所述训练图像的样本目标物包围框在所述训练图像的特征图中对应的待分类区域；

通过图像分类模型对所述训练图像的特征图中的待分类区域进行目标物分类预测，得到样本目标物的预测分类结果；

根据所述样本目标物的预测分类结果和预先标注的样本目标物分类标签，确定分类损失值；

根据所述分类损失值调整所述特征提取模型和所述图像分类模型中的参数，直至所述分类损失值收敛至预设的期望值，获得已训练的特征提取模型和图像分类模型。

第三方面，本申请实施例还提供一种图像中目标物的分类装置，所述装置包括：

特征提取单元，用于通过特征提取模型对待处理图像进行特征提取，得到所述待处理图像的特征图；

区域确定单元，用于确定在所述待处理图像中预先标定的目标物包围框在所述特征图中对应的待分类区域；

分类检测单元，用于通过图像分类模型确定所述待分类区域对应的目标物分类，并输出分类结果；所述特征提取模型和所述图像分类模型是基于训练图像进行训练得到的，所述训练图像包括样本目标物和样本目标物所处的背景环境，其中所述样本目标物被标注了样本目标物包围框和样本目标物分类标签。

在一种可选的实施例中，所述目标物包围框为多边形框；所述区域确定单元，还用于：

响应在所述待处理图像上连续选择目标物在设定方向上的边缘极值点的操作，根据所选择的边缘极值点的坐标确定所述目标物包围框在所述待处理图像中的位置坐标。

在一种可选的实施例中，所述目标物包围框为方形框；所述区域确定单元，还用于：

响应在所述待处理图像上的滑动操作，将滑动的起始点坐标和终止点坐标分别作为目标物包围框的对角线上的两个角点的坐标，确定所述目标物包围框在所述待处理图像中的位置坐标。

第四方面，本申请实施例还提供一种模型训练装置，所述模型包括特征提取模型和图像分类模型；所述装置包括：

数据获取单元，用于获取训练图像；所述训练图像包括样本目标物和样本目标物所处的背景环境，其中所述样本目标物被标注了样本目标物包围框和样本目标物分类标签；

训练单元，用于将所述训练图像输入特征提取模型，得到所述训练图像的特征图；确定所述训练图像的样本目标物包围框在所述训练图像的特征图中对应的待分类区域；通过图像分类模型对所述训练图像的特征图中的待分类区域进行目标物分类预测，得到样本目标物的预测分类结果；根据所述样本目标物的预测分类结果和预先标注的样本目标物分类标签，确定分类损失值；根据所述分类损失值调整所述特征提取模型和所述图像分类模型中的参数，直至所述分类损失值收敛至预设的期望值，获得已训练的特征提取模型和图像分类模型。

第五方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现第一方面的图像中目标物的分类方法。

第六方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现第二方面的模型训练方法。

第七方面，本申请实施例还提供一种电子设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器实现上述图像中目标物的分类方法。

第八方面，本申请实施例还提供一种电子设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器实现上述模型训练方法。

本申请实施例的图像中目标物的分类方法、模型训练方法和装置，通过特征提取模型提取待处理图像的特征图，确定在待处理图像中预先标定的目标物包围框在特征图中对应的待分类区域，通过图像分类模型确定待分类区域对应的目标物类别，并输出分类结果。其中，特征提取模型和图像分类模型是基于训练图像进行训练得到的，所述训练图像并不是从原始图像中分割出来的仅包含目标物的小区域图像，而是完整的原始图像，所述训练图像不仅包括样本目标物，还包括样本目标物所处的背景环境。使用包括背景环境的训练图像对特征提取模型和图像分类模型进行训练，可以充分利用训练图像中的背景信息，使训练得到的特征提取模型和图像分类模型可以准确区分目标物与背景，进而提高分类准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种图像中目标物的分类方法的流程示意图；

图2为本申请实施例提供的一种图像中目标物的分类方法的示意图；

图3为图1中步骤S102的流程示意图；

图4为本申请实施例提供的一种在待处理图像中标定目标物包围框的示意图；

图5为本申请实施例提供的一种模型训练方法的流程示意图；

图6为本申请实施例提供的一种特征提取模型的结构示意图；

图7为本申请实施例提供的一种图像中目标物的分类装置的结构示意图；

图8为本申请实施例提供的另一种图像中目标物的分类装置的结构示意图；

图9为本申请实施例提供的另一种模型训练装置的结构示意图；

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

以下对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

(1)图像分类：根据不同目标物各自在图像中所反映的不同特征，把不同类别的目标物区分开来的图像处理方法。具体可以利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读。例如，可以采用CNN(Convolutional Neural Networks，卷积神经网络)提取图像的特征，基于图像中的不同特征进行分类。对图像中的目标物进行分类后，可以根据分类结果做进一步应用，比如图像检索、视频监控以及涉及图像的语义分析等各种应用。

(2)迁移学习(Transfer Learning)：目标是将从一个环境中学到的知识用来帮助新环境中的学习任务。在实际业务中，使用大数据预先已训练的模型作为基础，当不同领域的新数据需要较好的模型支持时，能够快速的训练和应用，并且使用的数据量较少。

下面结合附图及具体实施例对本申请作进一步详细的说明。

为了解决现有技术中的图像分类模型的分类准确率较低的问题，本申请实施例提供了一种图像中目标物的分类方法、装置、存储介质和电子设备。本申请实施例涉及人工智能(Artificial Intelligence,AI)和机器学习技术，基于人工智能中的计算机视觉(Computer Vision,CV)技术和机器学习(Machine Learning,ML)而设计。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、语音处理技术、以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能在多个领域展开研究和应用，例如常见的智能家居、图像检索、视频监控、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗等，相信随着技术的发展，人工智能将在更多的领域得到应用，并发挥越来越重要的价值。

计算机视觉技术是指用摄像机或电子设备上的摄像头代替人眼对目标对象进行识别、跟踪和测量等机器视觉，并进一步做图形处理，以代替人的视觉判读。本申请实施例基于计算机视觉技术对待处理图像进行特征提取，并对待处理图像中包含的目标物进行分类。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本申请实施例在图像分类过程中，采用了基于机器学习的人工神经网络对训练图像的目标物分类标签进行学习，并利用学习结果从待处理图像中提取图像特征，基于提取的图像特征进行分类。

本申请实施例提供的图像中目标物的分类方法可以应用于任意可以进行图像处理的电子设备，例如计算机、智能移动终端、服务器等。其中，目标物可以包括包、衣服、书本、水杯等物品，还可以包括人体、花草树木等等。

图1示例性地给出了本申请实施例提供的图像中目标物的分类方法的流程示意图，图2示例性地给本申请实施例提供的图像中目标物的分类方法的示意图。下文以物品为例，结合图1和图2，说明本申请实施例提供的分类方法的执行过程。需要说明的是，下文所介绍的分类方法同样适用于对人体、车辆等其它目标物。如图1和图2所示，该方法包括以下步骤：

步骤S101，通过特征提取模型对待处理图像进行特征提取，得到待处理图像的特征图。

其中，待处理图像是指需要进行物品分类的图像，待处理图像可以是图像采集装置实时采集的图像，也可以为预先存储的图像。待处理图像可以是视频中的图像帧，也可以是预设格式的图片，其中，预设格式可以包括但不限于JPEG格式、PNG格式、BMP格式或者GIF格式等，本申请实施例对此不作限制。

特征提取模型可以采用骨干(back bone)网络，骨干网络的输入是待处理图像，骨干网络的输出为待处理图像的特征图。待处理图像的特征图中包括待处理图像中包含的物品的特征以及背景环境的特征，根据物品的特征以及背景环境的特征，可以将物品与背景环境中区分开来，并基于物品的特征进行物品分类。

步骤S102，确定在待处理图像中预先标定的物品包围框在特征图中对应的待分类区域。

可以采用人工标注或机器标注的方式在待处理图像中预先标定物品包围框。当待处理图像中包含多个待分类的物品时，可以标定多个物品包围框，每个物品对应一个物品包围框。根据物品包围框在待处理图像中的位置，确定物品包围框在待处理图像的特征图中对应的待分类区域，也可以称为ROI(Region of Interest，感兴趣区域)。

步骤S103，通过图像分类模型确定待分类区域对应的物品分类，并输出分类结果。

其中，图像分类模型可以采用SVM(Support Vector Machine，支持向量机)分类器模型或Softmax分类器模型。SVM分类器是一种线性分类器，主要用于二分类，在本申请实施例中，如果需要多分类，可以采用多个SVM分类器组成用于多分类的SVM分类器模型。Softmax分类器模型可以用于进行多分类。图像分类模型可以输出待分类区域对应的物品属于预设类别的物品的概率值。

上述的特征提取模型和图像分类模型是基于训练图像进行训练得到的，其中，训练图像包括样本物品和样本物品所处的背景环境，训练图像中的样本物品被标注了样本物品包围框和样本物品分类标签。

本申请实施例的图像中物品的分类方法，通过特征提取模型提取待处理图像的特征图，确定在待处理图像中预先标定的物品包围框在特征图中对应的待分类区域，通过图像分类模型确定待分类区域对应的物品分类，并输出分类结果。其中，特征提取模型和图像分类模型是基于训练图像进行训练得到的，上述训练图像并不是从原始图像中分割出来的仅包含物品的小区域图像，而是完整的原始图像，训练图像不仅包括样本物品，还包括样本物品所处的背景环境。使用包括背景环境的训练图像对特征提取模型和图像分类模型进行训练，可以充分利用训练图像中的背景信息，使训练得到的特征提取模型和图像分类模型可以准确区分物品与背景，进而提高分类准确率。尤其在对复杂图像进行物品分类时，可以显著提高分类准确率。

例如，图像中包含多个物品，并且图像中的背景环境复杂，使用现有的图像分类模型对图像中的物品进行分类时，经常无法从背景中识别出物品，因而导致无法准确地进行分类。采用本申请实施例提供的分类方法对复杂图像进行物品分类时，可以准确地将待分类的物品与背景环境区分开，从而显著提高分类准确率。

可选地，上述步骤S101中使用的特征提取模型可以采用骨干网络。在一些实施例中，骨干网络可以是CNN、DNN(Deep Neural Networks，深度神经网络)或FCN(FullyConvolutional Neuron networks，全卷积神经网络)实现。例如，骨干网络可以采用AlexNet网络模型、VGG网络模型、Resnet网络模型等。以全卷积神经网络为例进行说明，全卷积神经网络可以包括至少一个卷积层、至少一个池化层和至少一个上采样层，卷积层和池化层可以间隔设置，即相邻的池化层之间可以设置一个或多个卷积层。每个卷积层包括一个或多个用于从待处理图像的像素矩阵中提取特征信息的第一卷积核，用第一卷积核按照一定的步长遍历待处理图像的像素矩阵，得到至少一个特征值，由至少一个特征值组成卷积特征图。池化层用于将卷积层输出的卷积特征图进行降维处理，减小卷积特征图的尺寸，全卷积神经网络的池化层输出池化特征图。上采样层连接在最后一个池化层之后，用于将最后一个池化层输出的池化特征图放大，得到待处理图像的特征图，输出的特征图的尺寸与待处理图像的尺寸相同。

在另一些实施例中，骨干网络可以包括残差网络和FPN(Feature PyramidNetworks，特征金字塔网络)。残差网络包括多个特征提取层，特征金字塔网络包括对应的多个网络层。通过残差网络的多个特征提取层，输出多个尺寸的特征响应图，将多个尺寸的特征响应图对应输入特征金字塔网络的多个网络层，通过自下而上的特征融合，可以得到多个尺寸的特征图。

示例性地，残差网络的每个特征提取层可以将输入的特征响应图缩小至原来的1/2。特征金字塔网络的每个网络层可以将输入的特征图放大至原来的2倍。

采用残差网络和特征金字塔网络，可以获取待处理图像的多个不同尺寸的特征图，感受野的变化范围也较大，可以检测出不同尺寸的物品。其中，感受野又可称为接收野，被定义为卷积神经网络特征所能看到输入图像的区域，也可理解为特征图上的一个点对应输入图像上的区域。感受野小的特征图有助于检测小物品，感受野大的特征图有助于检测大物品。综上，采用残差网络和特征金字塔网络，具有多种感受野，能够对不同大小的物品进行检测。为了进一步扩大物品的检测范围，检测不同大小的物品，可以增加残差网络和特征金字塔网络的层数。实际应用中，可以根据实际需求而灵活删减残差网络和特征金字塔网络的层数。

在一种可选的实施例中，步骤S102可以采用图3所示的方法实现，包括如下步骤：

步骤S1021，确定预先标定的物品包围框在待处理图像中的位置坐标。

可以采用人工标注或机器标注的方式在待处理图像中预先标定物品包围框。

在一些实施例中，可以人工预先在待处理图像中标定物品包围框。确定人工标定的物品包围框的位置坐标的一种方式为：如果物品包围框为多边形框；响应在待处理图像上连续选择物品在设定方向上的边缘极值点的操作，根据所选择的边缘极值点的坐标确定物品包围框在待处理图像中的位置坐标。

以物品包围框为四边形框为例，如图4所示，假设待处理图像中的物品是车辆，用户在待处理图像中连续选定四个边缘极值点，分别为车辆上端的边缘极值点、车辆右端的边缘极值点、车辆下端的边缘极值点和车辆左端的边缘极值点。根据用户选择的四个边缘极值点的坐标，可以确定包围车辆的物品包围框在待处理图像中的位置坐标，即物品包围框在待处理图像中的位置。

例如，可以采用物品包围框的左上角的角点和右下角的角点的坐标表示物品包围框在待处理图像中的位置。其中，车辆上端的边缘极值点的坐标作为物品包围框的左上角的角点的纵坐标，车辆左端的边缘极值点的坐标作为物品包围框的左上角的角点的横坐标，可以确定物品包围框的左上角的角点的位置坐标。车辆下端的边缘极值点的坐标作为物品包围框的右下角的角点的纵坐标，车辆右端的边缘极值点的坐标作为物品包围框的右下角的角点的横坐标，可以确定物品包围框的右下角的角点的位置坐标，进而可以确定物品包围框在待处理图像中的位置坐标。

在另一些实施例中，确定人工标定的物品包围框的位置坐标的一种方式为：如果物品包围框为方形框，响应在待处理图像上的滑动操作，将滑动的起始点坐标和终止点坐标分别作为物品包围框的对角线上的两个角点的坐标，确定物品包围框在待处理图像中的位置坐标。

示例性地，物品包围框的对角线上的两个角点可以分别是左上角的角点和右下角的角点。将滑动的起始点的坐标作为物品包围框的左上角的角点的坐标，将滑动的终止点的坐标作为物品包围框的右下角的角点的坐标，确定物品包围框在待处理图像中的位置坐标。

采用人工标注的方式在待处理图像中预先标定物品包围框，可以更准确地确定物品所在的位置。

步骤S1022，根据物品包围框在待处理图像中的位置坐标，在特征图中确定对应的待分类包围框。

在一些实施例中，特征提取模型输出的特征图的尺寸与待处理图像的尺寸相同，此时，可以将物品包围框在待处理图像中的位置坐标，直接作为待分类包围框在特征图中的位置坐标。

例如，在待处理图像中，已知物品包围框的左上角的角点的坐标和右下角的角点的坐标，可以将物品包围框的左上角的角点的坐标作为待分类包围框在特征图中的左上角的角点的坐标，将物品包围框的右下角的角点的坐标作为待分类包围框在特征图中的右下角的角点的坐标，从而确定待分类包围框在特征图中的位置，在特征图中标注出待分类包围框。

在另一些实施例中，如果特征提取模型输出的特征图的尺寸与待处理图像的尺寸不同，可以根据特征图与待处理图像的尺寸比例和物品包围框在待处理图像中的位置坐标，确定物品包围框对应的待分类包围框在特征图中的位置坐标。

例如，如果特征提取模型输出的特征图的尺寸是待处理图像的1/2，假设在待处理图像中，物品包围框的左上角的角点的坐标为(x₁,y₁)，物品包围框的右下角的角点的坐标为(x₂,y₂)。根据特征图与待处理图像的尺寸比例，可以确定待分类包围框在特征图中的左上角的角点的坐标为(x₁/2,y₁/2)，右下角的角点的坐标为(x₂/2,y₂/2)，进而确定待分类包围框在特征图中的位置，在特征图中标注出待分类包围框。

步骤S1023，将待分类包围框的内部区域作为待分类区域。

在特征图中，待分类包围框所包围的区域即为待分类区域。

如果待处理图像中标注了多个物品包围框，则在特征图中也确定对应数量的待分类区域。通过图像分类模型确定每个待分类区域对应的物品分类，并输出分类结果。图像分类模型可以输出待分类区域对应的物品属于某种预设种类的物品的概率值。示例性地，图像分类模型可以将待分类区域包含的物品特征与预存的每一种预设种类的物品特征进行比对，计算待分类区域包含的物品特征与每以种预设种类的物品特征的相似度值，作为待分类区域对应的物品属于该预设种类的物品的概率值。图像分类模型可以输出概率值最高的三个物品种类，作为分类结果。其余的物品种类对应的概率值可以按照由高到低的顺序保存在分类结果列表中，以备用户查询。

例如，在对图像中的果蔬进行分类时，图像分类模型将同一个待分类区域包含的物品特征与预存的十种预设种类的物品特征进行比对，十种预设种类的物品分别为苹果、葡萄、橘子、西红柿、草莓、梨、菠萝、茄子、哈密瓜和黄瓜，分别得到待分类区域包含的物品属于苹果的概率为85％，待分类区域包含的物品属于葡萄的概率为3％，待分类区域包含的物品属于橘子的概率为5％，待分类区域包含的物品属于西红柿的概率为25％，待分类区域包含的物品属于草莓的概率为4％，待分类区域包含的物品属于梨的概率为10％，待分类区域包含的物品属于菠萝的概率为6％，待分类区域包含的物品属于茄子的概率为2％，待分类区域包含的物品属于哈密瓜的概率为5％，待分类区域包含的物品属于黄瓜的概率为0％。则图像分类模型输出对该待分类区域的分类结果为：苹果85％，西红柿25％，梨10％。

现有技术中，对图像中的物品进行分类时，一般得到待处理图像的特征图后，采用RPN(Region Proposal Networks，区域选取网络)在特征图中确定ROI区域，即包含物品的待分类区域，然后图像分类器基于RPN网络确定的ROI区域进行分类。而由于RPN网络确定的ROI区域会出现偏差，因此而导致分类器输出的分类结果错误率较高。

在本申请实施例中，可以采用人工标注的方式预先在待处理图像中标出物品包围框，得到待处理图像的特征图后，将待处理图像中的物品包围框映射到特征图中，确定待分类区域，可以保证确定的待分类区域准确无误，图像分类模型基于准确的待分类区域进行物品分类，可以提高分类结果的准确性。

在本申请实施例提供的图像中物品的分类方法，在对图像中的物品进行分类的过程中，使用了特征提取模型和图像分类模型。本申请实施例还提供一种模型训练方法，该模型用于对图像中的物品进行分类，该模型包括上述特征提取模型和图像分类模型。图5示出了本申请实施例提供的模型训练方法的流程图，如图5所示，该方法包括如下步骤：

步骤S501，获取训练图像。

获取训练样本集，训练样本集中包括多张训练图像，训练样本集中的训练图像可以是通过摄像头采集的，也可以是通过网络下载的。训练图像中包括样本物品和样本物品所处的背景环境，其中，样本物品被标注了样本物品包围框和样本物品分类标签。

从训练样本集中随机抽取一张训练图像，执行步骤S502。

步骤S502，将训练图像输入特征提取模型，得到训练图像的特征图。

将随机抽取的训练图像输入待训练的特征提取模型，得到特征提取模型输出的训练图像的特征图。

步骤S503，确定训练图像的样本物品包围框在训练图像的特征图中对应的待分类区域。

该步骤的具体实现过程可以参照图3所示的方法执行，在此不再赘述。由于该特征图是对包含背景环境的训练图像进行特征提取得到的，特征图中包含背景环境信息，将训练图像中的物品包围框直接映射到包含背景环境信息的特征图中，可以充分利用背景信息，使模型更好地区分物品与背景，从而使训练得到的模型的分类准确率更高。

步骤S504，通过图像分类模型对训练图像的特征图中的待分类区域进行物品分类预测，得到样本物品的预测分类结果。

将标注了待分类区域的特征图输入图像分类模型，得到图像分类模型输出的预测分类结果。

步骤S505，根据样本物品的预测分类结果和预先标注的样本物品分类标签，确定分类损失值。

可以采用预设的损失函数计算分类损失值，损失函数可以采用交叉熵损失函数，例如Sigmoid函数。通常，损失值是判定实际的输出与期望的输出的接近程度。损失值越小，说明实际的输出越接近期望的输出。

步骤S506，判断分类损失值是否收敛；如果是，执行步骤S508；如果否，执行步骤S507。

判断分类损失值是否收敛至预设的期望值，即是否小于或等于预设的期望值，如果是，说明分类损失值收敛；如果否，说明分类损失值尚未收敛。

步骤S507，根据分类损失值调整特征提取模型和图像分类模型中的参数。

如果分类损失值尚未收敛，可以采用反向传播算法，根据分类损失值调整特征提取模型和图像分类模型中的参数，然后返回步骤S501继续抽取训练图像对特征提取模型和图像分类模型进行训练。

步骤S508，将当前参数作为特征提取模型和图像分类模型的参数，获得已训练的特征提取模型和图像分类模型。

本申请实施例的模型训练方法，用于训练特征提取模型和图像分类模型的训练图像并不是从原始图像中分割出来的仅包含物品的小区域图像，而是完整的原始图像，上述训练图像不仅包括物品，还包括物品所处的背景环境。使用包括背景环境的训练图像对特征提取模型和图像分类模型进行训练，可以充分利用训练图像中的背景信息，使训练得到的特征提取模型和图像分类模型可以准确区分物品与背景，进而提高分类准确率。

为了利用较少的训练图像更快地对特征提取模型和图像分类模型进行训练，可以采用迁移学习的方式。即利用其它领域已经训练过的网络模型，例如利用图像分割领域已经训练过的网络模型作为待训练的特征提取模型和图像分类模型。采用本申请实施例中的训练数据对其再次进行训练，能够快速得到所需要的特征提取模型和图像分类模型。

同样，图5所示的模型训练方法也可以适用于对人体、花草树木等其它目标物。

为了更便于理解本申请实施例的方案，以下具体介绍本申请实施例的图像中物品的分类方法两个应用实例。

在一个应用实例中，通过用户输入的四个极值点在待处理图像中确定物品包围框的位置，共得到三个物品包围框。通过特征提取模型对待处理图像进行特征提取，得到待处理图像的特征图。特征提取模型采用全卷积神经网络，特征提取模型输出的特征图与待处理图像的尺寸相同。根据物品包围框在待处理图像中的位置坐标，在特征图中确定与物品包围框对应的待分类区域，相对应地，得到三个待分类区域。通过图像分类模型确定三个待分类区域对应的物品分类，得到三个待分类区域分别对应的分类结果。

在另一个应用实例中，接收用户在待处理图像中标定的物品包围框。通过特征提取模型对待处理图像进行特征提取，得到待处理图像的特征图。特征提取模型包括残差网络和特征金字塔网络，残差网络可以采用Resnet-50等网络结构。残差网络和特征金字塔网络的网络结构可以参见图6所示。

在图6中，残差网络包括四个特征提取层，每个特征提取层输出一个尺寸的特征响应图，每个特征提取层输出的特征响应图的尺寸与其它特征提取层不同。一种可选的网络结构为：每个特征提取层包括至少一个卷积层和至少一个池化层，卷积层用于提取待检测图像中的特征信息，生成特征响应图，池化层用于缩小特征响应图的尺寸。另一种可选的网络结构为：每个特征提取层包括多个卷积层，其中，至少一个卷积层的步长大于或等于2，用于缩小特征响应图的尺寸，起到与池化层相同的作用。与残差网络相对应地，特征金字塔网络包括四个网络层，每个网络层对应输入一种尺寸的特征响应图，输出对应尺寸的特征图。除第一网络层之外，每层网络层将上一网络层传递的特征图与本层网络层接收到的特征响应图进行融合，得到本层网络层的特征响应图传递至下一网络层。

待处理图像输入残差网络后，残差网络的四个特征提取层输出四个特征响应图，分别为第一特征响应图、第二特征响应图、第三特征响应图和第四特征响应图。第一特征响应图、第二特征响应图、第三特征响应图和第四特征响应图的尺寸依次减小。四个特征响应图依次输入特征金字塔网络对应的网络层。其中，第一网络层包括卷积层，第二网络层、第三网络层和第四网络层包括上采样层和卷积层。第一网络层对应输入第四特征响应图，第四特征响应图经第一网络层的卷积层，得到第一特征图；第一特征图经第二网络层的上采样层后尺寸放大，第二网络层对应输入第三特征响应图，第三特征响应图和尺寸放大的第一特征图经第二网络层的卷积层进行特征融合，得到第二特征图。第二特征图经第三网络层的上采样层后尺寸放大，第三网络层对应输入第二特征响应图，第二特征响应图和尺寸放大的第三特征图经第三网络层的卷积层进行特征融合，得到第三特征图。第三特征图经第四网络层的上采样层后尺寸放大，第四网络层对应输入第一特征响应图，第一特征响应图和尺寸放大的第四特征图经第四网络层的卷积层进行特征融合，得到第四特征图。

因此，特征金字塔网络输出四个特征图，分别为第一特征图、第二特征图、第三特征图和第四特征图。第一特征图、第二特征图、第三特征图和第四特征图的尺寸依次增大。

根据每个特征图与待处理图像的尺寸比例和物品包围框在待处理图像中的位置坐标，在四个特征图中均确定物品包围框对应的待分类区域。将四个特征图均输入图像分类模型，图像分类模型基于四个特征图中尺寸合适的待分类区域进行物品分类，输出分类结果。

与图1所示的图像中目标物的分类方法的实施例相对应地，本申请实施例还提供了一种图像中目标物的分类装置。图7为本申请实施例提供的图像中目标物的分类装置的结构示意图；如图7所示，本申请实施例的提供的图像中目标物的分类装置包括特征提取单元71、区域确定单元72和分类检测单元73。其中，

特征提取单元71，用于通过特征提取模型对待处理图像进行特征提取，得到待处理图像的特征图；

区域确定单元72，用于确定在待处理图像中预先标定的目标物包围框在特征图中对应的待分类区域；

分类检测单元73，用于通过图像分类模型确定待分类区域对应的目标物类别，并输出分类结果；特征提取模型和图像分类模型是基于训练图像进行训练得到的，训练图像包括样本目标物和样本目标物所处的背景环境，其中样本目标物被标注了样本目标物包围框和样本目标物分类标签。

在一种可能的实现方式中，区域确定单元72，还可以用于：

确定预先标定的目标物包围框在待处理图像中的位置坐标；

根据目标物包围框在待处理图像中的位置坐标，在特征图中确定对应的待分类包围框；

将待分类包围框的内部区域作为待分类区域。

在一种可能的实现方式中，目标物包围框为多边形框；区域确定单元72，还可以用于：

响应在待处理图像上连续选择目标物在设定方向上的边缘极值点的操作，根据所选择的边缘极值点的坐标确定目标物包围框在待处理图像中的位置坐标；或者，

响应在待处理图像上的滑动操作，将滑动的起始点坐标和终止点坐标分别作为目标物包围框的对角线上的两个角点的坐标，确定目标物包围框在待处理图像中的位置坐标。

在一种可能的实现方式中，区域确定单元72，还可以用于：

根据特征图与待处理图像的尺寸比例和目标物包围框在待处理图像中的位置坐标，确定目标物包围框对应的待分类包围框在特征图中的位置坐标。

在一种可能的实现方式中，如图8所示，上述装置还可以包括模型训练单元81，用于：

将训练图像输入特征提取模型，得到训练图像的特征图；

确定训练图像的样本目标物包围框在训练图像的特征图中对应的待分类区域；

通过图像分类模型对训练图像的特征图中的待分类区域进行目标物分类预测，得到样本目标物的预测分类结果；

根据样本目标物的预测分类结果和预先标注的样本目标物分类标签，确定分类损失值；

根据分类损失值调整特征提取模型和图像分类模型中的参数，直至分类损失值收敛至预设的期望值，获得已训练的特征提取模型和图像分类模型。

本申请实施例的图像中目标物的分类装置，通过特征提取模型提取待处理图像的特征图，确定在待处理图像中预先标定的目标物包围框在特征图中对应的待分类区域，通过图像分类模型确定待分类区域对应的目标物类别，并输出分类结果。其中，特征提取模型和图像分类模型是基于训练图像进行训练得到的，上述训练图像并不是从原始图像中分割出来的仅包含目标物的小区域图像，而是完整的原始图像，训练图像不仅包括目标物，还包括目标物所处的背景环境。使用包括背景环境的训练图像对特征提取模型和图像分类模型进行训练，可以充分利用训练图像中的背景信息，使训练得到的特征提取模型和图像分类模型可以准确区分目标物与背景，进而提高分类准确率。

与图6所示的模型训练方法的实施例相对应地，本申请实施例还提供了一种模型训练装置，用于训练对图像中的目标物进行分类的模型，该模型包括特征提取模型和图像分类模型。图9为本申请实施例提供的模型训练装置的结构示意图；如图9所示，本申请实施例的提供的模型训练装置包括数据获取单元91和训练单元92。

数据获取单元，用于获取训练图像；训练图像包括样本目标物和样本目标物所处的背景环境，其中样本目标物被标注了样本目标物包围框和样本目标物分类标签；

训练单元，用于将训练图像输入特征提取模型，得到训练图像的特征图；确定训练图像的样本目标物包围框在训练图像的特征图中对应的待分类区域；通过图像分类模型对训练图像的特征图中的待分类区域进行目标物分类预测，得到样本目标物的预测分类结果；根据样本目标物的预测分类结果和预先标注的样本目标物分类标签，确定分类损失值；根据分类损失值调整特征提取模型和图像分类模型中的参数，直至分类损失值收敛至预设的期望值，获得已训练的特征提取模型和图像分类模型。

本申请实施例的模型训练装置，用于训练特征提取模型和图像分类模型的训练图像并不是从原始图像中分割出来的仅包含目标物的小区域图像，而是完整的原始图像，训练图像不仅包括目标物，还包括目标物所处的背景环境。使用包括背景环境的训练图像对特征提取模型和图像分类模型进行训练，可以充分利用训练图像中的背景信息，使训练得到的特征提取模型和图像分类模型可以准确区分目标物与背景，进而提高分类准确率。

与上述方法实施例相对应地，本申请实施例还提供了一种电子设备。电子设备可以是计算机、服务器或移动终端，如智能手机、平板电脑，手提电脑等。电子设备至少包括用于存储数据的存储器和用于数据处理的处理器。其中，对于用于数据处理的处理器而言，在执行处理时，可以采用微处理器、CPU、DSP或FPGA实现；对于存储器来说，包含操作指令，该操作指令可以为计算机可执行代码，通过上述操作指令来实现上述本申请实施例图像中目标物的分类方法或模型训练方法流程中的各个步骤。

图10为本申请实施例提供的一种电子设备的结构示意图；如图10所示，本申请实施例中电子设备100包括：处理器101、显示器102、存储器103、输入设备106、总线105和通讯设备104；处理器101、存储器103、输入设备106、显示器102和通讯设备104均通过总线105连接，总线105用于处理器101、存储器103、显示器102、通讯设备104和输入设备106之间传输数据。

处理器101用于执行上述的图像中目标物的分类方法，对输入的待处理图像包含的目标物进行分类，并输出分类结果，通过显示器102将分类结果展示给用户。

当电子设备为终端设备时，处理器101还通过通讯模块104与服务器连接。当电子设备为服务器时，处理器101还通过通讯模块104与多个终端设备连接。

输入设备106主要用于获得用户的输入操作，当电子设备不同时，输入设备106也可能不同。例如，当电子设备为计算机时，输入设备106可以为鼠标、键盘等输入设备；当电子设备为智能手机、平板电脑等便携设备时，输入设备106可以为触控屏。

本实施例中，存储器103中存储有计算机存储介质，计算机存储介质中存储有计算机程序，计算机程序被处理器执行时，实现本申请实施例的图像中目标物的分类方法或模型训练方法。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时，实现上述图像中目标物的分类方法。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时，实现上述模型训练方法。

在一些可能的实施方式中，本申请提供的图像中目标物的分类方法或模型训练方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的图像中目标物的分类方法的步骤，例如，计算机设备可以执行如图1所示的步骤S101～S103中图像中目标物的分类方法的流程。

上述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于图像中目标物的分类方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种图像中目标物的分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述确定在所述待处理图像中预先标定的目标物包围框在所述特征图中对应的待分类区域，包括：

确定预先标定的目标物包围框在所述待处理图像中的位置坐标；

根据所述目标物包围框在所述待处理图像中的位置坐标，在所述特征图中确定对应的待分类包围框；

将所述待分类包围框的内部区域作为所述待分类区域。

3.根据权利要求2所述的方法，其特征在于，所述目标物包围框为多边形框；所述确定预先标定的目标物包围框在所述待处理图像中的位置坐标，包括：

响应在所述待处理图像上连续选择目标物在设定方向上的边缘极值点的操作，根据所选择的边缘极值点的坐标确定所述目标物包围框在所述待处理图像中的位置坐标；或者，

4.根据权利要求2所述的方法，其特征在于，所述根据所述目标物包围框在所述待处理图像中的位置坐标，在所述特征图中确定对应的待分类包围框，包括：

根据所述特征图与所述待处理图像的尺寸比例和所述目标物包围框在所述待处理图像中的位置坐标，确定所述目标物包围框对应的待分类包围框在所述特征图中的位置坐标。

5.根据权利要求1所述的方法，其特征在于，所述特征提取模型和所述图像分类模型的训练过程包括：

通过图像分类模型对所述训练图像的特征图中的待分类区域进行分类预测，得到样本目标物的预测分类结果；

6.一种模型训练方法，其特征在于，所述模型包括特征提取模型和图像分类模型；所述方法包括：

7.一种图像中目标物的分类装置，其特征在于，所述装置包括：

分类检测单元，用于通过图像分类模型确定所述待分类区域对应的目标物类别，并输出分类结果；所述特征提取模型和所述图像分类模型是基于训练图像进行训练得到的，所述训练图像包括样本目标物和样本目标物所处的背景环境，其中所述样本目标物被标注了样本目标物包围框和样本目标物分类标签。

8.根据权利要求7所述的装置，其特征在于，所述区域确定单元，还用于：

将所述待分类包围框的内部区域作为所述待分类区域。

9.根据权利要求8所述的装置，其特征在于，所述区域确定单元，还用于：

10.一种模型训练装置，其特征在于，所述模型包括特征提取模型和图像分类模型；所述装置包括：

训练单元，用于将所述训练图像输入特征提取模型，得到所述训练图像的特征图；确定所述训练图像的样本目标物包围框在所述训练图像的特征图中对应的待分类区域；通过图像分类模型对所述训练图像的特征图中的待分类区域进行分类预测，得到样本目标物的预测分类结果；根据所述样本目标物的预测分类结果和预先标注的样本目标物分类标签，确定分类损失值；根据所述分类损失值调整所述特征提取模型和所述图像分类模型中的参数，直至所述分类损失值收敛至预设的期望值，获得已训练的特征提取模型和图像分类模型。

11.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，其特征在于：所述计算机程序被处理器执行时，实现权利要求1～5任一项或权利要求6所述的方法。

12.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器实现权利要求1～5任一项或权利要求6所述的方法。