CN111368636B

CN111368636B - 目标分类方法、装置、计算机设备和存储介质

Info

Publication number: CN111368636B
Application number: CN202010082834.7A
Authority: CN
Inventors: 岑俊毅; 李立赛; 傅东生
Original assignee: Shenzhen Miracle Intelligent Network Co Ltd
Current assignee: Shenzhen Miracle Intelligent Network Co Ltd
Priority date: 2020-02-07
Filing date: 2020-02-07
Publication date: 2024-02-09
Anticipated expiration: 2040-02-07
Also published as: CN111368636A

Abstract

本申请涉及一种目标分类方法、装置、计算机设备和存储介质。所述方法包括：获取待处理的初始图像帧；通过目标检测模型对初始图像帧进行目标检测，确定初始图像帧中包括的至少一个候选对象、及各候选对象分别对应的第一确信度；从候选对象中筛选第一确信度满足高确信度条件的目标对象，并根据比目标对象在初始图像帧中所占区域更大的区域，生成相应的目标图像；通过分类模型对各目标图像进行分类处理，得到各目标图像对应的预分类结果；将满足分类条件的预分类结果，作为相应目标图像中目标对象的分类结果。采用本方法能够提高对目标分类时的分类准确性。

Description

目标分类方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种目标分类方法、装置、计算机设备和存储介质。

背景技术

随着图像处理技术的发展，出现了目标检测技术，目标检测技术是基于目标几何和统计特征的一种图像分割技术，可将目标对象的分割任务和识别任务合二为一，实现对目标对象的识别和提取。传统的对图像中存在多个目标对象时，对目标对象进行分类的方式，通常是通过一个目标检测模型，连续完成目标定位和目标分类两个任务，且需要同时支持对多个目标对象的同时检测。

然而，传统的采用一个目标检测模型来连续完成目标定位和目标分类两个任务，很容易顾此失彼，在准确性要求高的应用场景下有很大缺陷，特别是在模型学习不充分或者样本不够多元化的情况下，在对目标对象进行分类时的分类准确性低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高分类准确性的目标分类方法、装置、计算机设备和存储介质。

一种目标分类方法，所述方法包括：

获取待处理的初始图像帧；

通过目标检测模型对所述初始图像帧进行目标检测，确定所述初始图像帧中包括的至少一个候选对象、及各候选对象分别对应的第一确信度；

从所述候选对象中筛选第一确信度满足高确信度条件的目标对象，并根据比所述目标对象在初始图像帧中所占区域更大的区域，生成相应的目标图像；

通过分类模型对各所述目标图像进行分类处理，得到各所述目标图像对应的预分类结果；

将满足分类条件的预分类结果，作为相应目标图像中目标对象的分类结果。

一种目标分类装置，所述装置包括：

获取模块，用于获取待处理的初始图像帧；

目标检测模块，用于通过目标检测模型对所述初始图像帧进行目标检测，确定所述初始图像帧中包括的至少一个候选对象、及各候选对象分别对应的第一确信度；

图像生成模块，用于从所述候选对象中筛选第一确信度满足高确信度条件的目标对象，并根据比所述目标对象在初始图像帧中所占区域更大的区域，生成相应的目标图像；

分类模块，用于通过分类模型对各所述目标图像进行分类处理，得到各所述目标图像对应的预分类结果；

确定模块，将满足分类条件的预分类结果，作为相应目标图像中目标对象的分类结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述目标分类方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述目标分类方法的步骤。

上述目标分类方法、装置、计算机设备和存储介质，通过目标检测模型对初始图像帧进行首次检测，确定初始图像帧中存在的候选对象，并得到各个候选对象相应的第一确信度。从而可从中选取高确信度的目标对象，扩充目标对象所在区域而生成对应的目标图像。进而可通过分类模型对目标图像进行二次检测，从而对目标图像进行准确的分类。这样先执行一次高分辨率目标检测，可以高效地进行初次筛选，且由于不需反复执行，所以不会增加大量的性能开销。再单批多次通过分类模型对筛选出的目标图像进行分类处理，大大提高了图像分类的准确度，且，这与高分辨率目标检测模型相比，减少了大量的算力消耗。因此通过结合目标检测模型和分类模型，可以合理使用更多计算资源，并大大提高目标分类准确性。

附图说明

图1为一个实施例中目标分类方法的应用环境图；

图2为一个实施例中目标分类方法的流程示意图；

图3为一个实施例中通过目标检测模型对初始图像帧进行目标检测，确定初始图像帧中包括的至少一个候选对象、及各候选对象分别对应的第一确信度的步骤的流程示意图；

图4为一个实施例中根据比目标对象在初始图像帧中所占区域更大的区域，生成相应的目标图像的步骤的流程示意图；

图5为一个实施例中目标分类装置的结构框图；

图6为另一个实施例中目标分类装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的目标分类方法，可以应用于如图1所示的应用环境中。其中，终端110通过网络与计算机设备120通过网络进行通信。其中，终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，计算机设备120具体可以通过终端或服务器实现，其中服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

可以理解，终端110可通过图像采集装置采集初始图像帧，并将初始图像帧发送至计算机设备120。计算机设备120可获取待处理的初始图像帧，通过目标检测模型对初始图像帧进行目标检测，确定初始图像帧中包括的至少一个候选对象、及各候选对象分别对应的第一确信度。计算机设备120从所候选对象中筛选第一确信度满足高确信度条件的目标对象，并根据比目标对象在初始图像帧中所占区域更大的区域，生成相应的目标图像，通过分类模型对各目标图像进行分类处理，得到各目标图像对应的预分类结果。计算机设备120将满足分类条件的预分类结果，作为相应目标图像中目标对象的分类结果。

在一个实施例中，如图2所示，提供了一种目标分类方法，以该方法应用于图1中的计算机设备120为例进行说明，该目标分类方法包括以下步骤：

S202，获取待处理的初始图像帧。

其中，帧(Frame)是一个量词，指影像动画中最小单位的单幅影像画面，一帧就是一幅静止的画面，而连续的帧就形成动画或电影等。图像帧是一幅静止的图像。待处理的初始图像帧是待进行处理的，静止的初始源图像，还未进行任何分类处理或其他处理的图像帧。

具体地，计算机设备可从本地或其他计算机设备处获取待处理的初始图像帧。在一个实施例中，终端可通过图像采集设备，比如摄像头，对目标环境或目标场景进行图像采集，以得到采集的视频。终端可对采集的视频进行分割，得到一帧一帧的初始图像帧，进而将所形成的初始图像帧通过网络传输发送至计算机设备进行处理。或者，终端可将采集的视频发送至计算机设备，计算机设备将该视频分割成一帧一帧的初始图像帧。

在一个实施例中，终端可通过图像采集设备，对目标环境或目标场景进行图像采集，以得到采集的图像，并将采集的图像发送至计算机设备。计算机设备从中筛选出预设数量的图像作为初始图像帧。

在一个实例中，待处理的初始图像帧可以由RTSP(Real Time StreamingProtocol，实时流传输协议)或者RTMP(Real Time Messaging Protocol，实时消息传输协议)等协议来传输。其中，RTSP和RTMP都是为播放器和服务器之间音频、视频和数据传输而开发，进行实时音视频数据通信的网络协议。在一个实施例中，计算机设备可与流媒体服务器对接，流媒体服务器可以生成RTSP/RTMP服务，并从网络平台上获取视频数据，通过RTSP/RTMP服务将视频数据转发至对接的计算机设备。从而计算机设备可基于视频数据确定待处理的初始图像帧。

S204，通过目标检测模型对初始图像帧进行目标检测，确定初始图像帧中包括的至少一个候选对象、及各候选对象分别对应的第一确信度。

其中，目标检测是基于目标几何和统计特征的一种图像分割技术，可将目标对象的分割任务和识别任务合二为一，实现对目标对象的识别和提取。而目标检测模型是一种实现目标检测的数学模型。候选对象是初始图像帧中所要识别的对象，初始图像帧中通常包含至少一个候选对象。

具体地，计算机设备可将初始图像帧输入至目标检测模型，通过该目标检测模型输入的初始图像帧进行目标检测，以识别出初始图像帧中包括的候选对象。并且，目标检测模型可对识别出的候选对象进行初始分类处理，得到相应的初始分类结果。其中，初始分类结果包括候选对象对应的初始分类类别和相应的第一确信度。候选对象对应的第一确信度表示对该候选对象进行初始分类所得到的初始分类类别的可信程度。

举例说明，初始图像帧中包括A和B两个物体，通过目标检测模型对初始图像帧进行目标检测，可以得到该初始图像帧中的候选对象分别为A和B。对初始图像帧中的A和B分别进行分类处理，得到初始分类类别分别是a类别和b类别，那么对于A对象属于a这个类别的可信程度，就是A对象所对应的第一确信度。

在一个实施例中，计算机设备可采用高分辨率的目标检测模型对初始图像帧进行目标检测。其中，高分辨率如分辨率为720*720，分辨率的高低决定了对初始图像帧进行处理时在细节方面的精细程度。通常情况下，初始图像帧的分辨率越高，所包含的像素就越多，图像帧就越清晰。因此，高分辨率的目标检测模型能更准确地对初始图像帧进行对目标检测。

在一个实施例中，该目标检测模型具体可以是基于SSD算法(Single ShotMultiBox Detector，单镜头多盒检测器)、R-CNN算法(Region CNN，区域卷积神经网络)或YOLO算法(You Only Look Once，一种实时目标检测算法)等的神经网络模型，本申请实施例对此不做限定。其中，SSD算法是一种通用物体检测算法，可以同时检测多个对象并直接预测相应对象的目标类别。SSD算法的主要特点是提取了不同尺度的特征图像来做检测，大尺度特征图像可以用来检测小物体，而小尺度特征图像用来检测大物体。

在一个实施例中，目标检测模型可对输入的初始图像帧进行特征提取，并生成相应的特征图像。选取预设层数(比如六层)的特征图像，并基于选取的特征图像，在每个特征图像的每个点上生成先验框。采用不同尺度和长宽比的先验框(Default boxes)对候选对象进行定位，从所有不同规格的先验框中筛选出高确信度的先验框作为候选框，该候选框中的对象则为识别出的候选对象。

在一个实施例中，该目标检测模型可预先通过训练样本训练得到。此处的训练样本包括样本图像、该样本图像中各样本对象的目标位置信息、以及该样本图像中各样本对象的标注分类信息。计算机设备可将样本图像输入至待训练的目标检测模型中，通过该目标检测模型对样本图像进行处理，输出用于标记样本对象的候选框，以及该样本对象对应的预测分类类别。计算机设备可基于各个样本对象各自对应的目标位置信息和候选框的第一差异、以及各个样本对象各自对应的标注分类信息和预测分类类别的第二差异，构建损失函数。通过最小化该损失函数来调整模型参数，直到达到训练停止条件时停止训练，得到训练好的目标检测模型。其中，训练停止条件是停止模型训练的条件，具体可以是达到预设迭代次数或训练后的目标检测模型达到预设性能指标。

在一个实施例中，在对目标图像进行训练时，可以对训练样本中的样本图像进行特征提取，并生成相应的特征图像。选取每个样本图像中预设层数(比如其中六层)的特征图像，在每个特征图像的每个点上生成先验框。采用不同尺度和长宽比的先验框对候选对象进行定位，从所有不同规格的先验框中筛选出高确信度的先验框作为候选框，并通过构建损失函数，不断优化目标检测模型。

在一个实施例中，计算机设备根据各个样本对象各自对应的目标位置信息和候选框的第一差异、以及各个样本对象各自对应的标注分类信息和预测分类类别的第二差异来构造损失函数。具体公式为：其中，N是与样本对象匹配的候选框的数量，参数a是权重系数，用于调整各个样本对象各自对应的目标位置信息和候选框的第一差异，与各个样本对象各自对应的标注分类信息和预测分类类别的第二差异之间的比例，默认a的值为1。L_conf(x,c)表示各个样本对象各自对应的标注分类信息和预测分类类别的第二差异，L_conf(x,l,g)表示各个样本对象各自对应的目标位置信息和候选框的第一差异。其中，c表示对于各个样本对象各自对应的预测分类类别的可信度，l表示候选框，g表示实际的标注框，x是/>表示第i个候选框，第j个实际的标注框，以及第p个分类。

S206，从候选对象中筛选第一确信度满足高确信度条件的目标对象，并根据比目标对象在初始图像帧中所占区域更大的区域，生成相应的目标图像。

其中，高确信度条件具体可以是候选对象所对应的第一确信度大于等于预设的第一阈值，和/或，按第一确信度从高至低进行排序后排序序号小于等于预设序号。

具体地，候选对象对应的第一确信度表示对该候选对象进行初始分类所得到的初始分类类别的可信程度。计算机设备可从候选对象中筛选第一确信度满足高确信度条件的目标对象，进而计算机设备可确定该目标对象在初始图像帧中的位置区域。计算机设备可扩大该位置区域，并根据扩大的位置区域生成相应的目标图像。

在一个实施例中，计算机设备可预先设置第一阈值，第一阈值可以是一个具体的数值，当某个候选对象对应的第一确信度大于或等于第一阈值时，计算机设备可直接将该候选对象作为目标对象。

在一个实施例中，计算机设备可预先设置单帧最大检测数目作为预设序号。计算机设备可将各个候选对象按照各自对应的第一确信度的大小，从高至低进行排序，进而将排序序号小于等于预设序号的候选对象直接作为目标对象。

在一个实施例中，从候选对象中筛选第一确信度满足高确信度条件的目标对象，包括：从候选对象中筛选出第一确信度大于等于第一阈值的备用对象，将备用对象按照各自对应的第一确信度按从高到低顺次排序，将排序序号小于等于预设序号的备用对象作为目标对象。

在一个实施例中，计算机设备可从候选对象中筛选出第一确信度大于等于第一阈值的候选对象作为备用对象。进而计算机设备将各个备用对象按照各自对应的第一确信度按从高到低顺次排序，将排序序号小于等于预设序号的备用对象作为目标对象。

上述实施例中，可通过两重筛选，从候选对象中筛选出预设数量的第一确信度大于等于第一阈值的目标对象，使得筛选出的目标对象的第一确信度既大于等于第一阈值，又是第一确信度最大的前几个。

在一个实施例中，计算机设备可根据各目标对象在初始图像帧中的位置信息，确定各目标对象在初始图像帧中所占的区域，通过扩大所在区域的面积，得到相应的目标区域，并按各目标区域生成对应的目标图像。其中，目标区域及对应的目标图像都包含相应的目标对象。

S208，通过分类模型对各目标图像进行分类处理，得到各目标图像对应的预分类结果。

其中，预分类结果包括预分类类别和各预分类类别对应的第二确信度。预分类类别对应的第二确信度表示对目标对象进行分类处理所得到的预分类类别的可信程度。具体地，计算机设备可将目标图像输入至分类模型中，通过分类模型提取各目标图像的图像特征，并基于提取的图像特征对该目标图像进行分类，得到相应的预分类结果、以及该预分类结果对应的第二确信度。

在一个实施例中，计算机设备可采用低分辨率的分类模型对目标图像进行分类处理，其中，低分辨率如分辨率为240*240。分辨率的高低决定了对目标图像进行处理时在细节方面的精细程度。通常情况下，图像的分辨率越低，所包含的像素就越少，因而低分辨率的分类模型不需消耗额外的计算机资源，可节省大量的算力消耗。

分类模型是用于对输入数据进行分类处理的数学模型，具体可以是VGG(VisualGeometry Group Network，视觉几何群网络)或ResNets(Residual Network，残差网络)等神经网络。本申请实施例对此不做限定。在一个实施例中，该分类模型具体可以是神经网络模型VGG16，因为VGG结构中有13个卷积层和3个全连接层，因而叫做VGG16。其中，卷积层主要进行对目标图像的特征提取，如进行矩阵卷积，各卷积操作之后一般会加上偏置量，再通过激活函数输出给下一层。卷积是目标图像的像素值的加权和。其中，常见的激活函数有sigmoid函数、tanh函数和relu函数等。全链接层主要通过矩阵相乘，起到“分类器”的作用，对各目标对象进行分类处理。

在一个实施例中，预分类结果包括预分类类别，步骤S208,也就是通过分类模型对各目标图像进行分类处理，得到各目标图像对应的预分类结果，包括：通过分类模型依次对各目标图像进行分类处理，得到目标图像属于各个目标类别的概率，确定概率中的最大概率，将最大概率所对应的目标类别，作为目标图像的预分类类别。

其中，目标类别是预设置的分类类别。在一个实施例中，计算机设备可将目标图像依次输入至分类模型中，通过分类模型进行特征提取，进而根据提取出的特征对该目标图像进行分类，得到该目标图像属于各个目标类别的概率。进而计算机设备可将多个概率中最大概率所对应的目标类别，作为该目标图像的预分类类别。这样，通过分类模型可准确快捷地确定各个目标图像对应的预分类类别。

一个实施例中，计算机设备可获取预先训练的分类模型。该分类模型可预先通过训练样本训练得到。此处的训练样本包括样本图像、以及该样本图像对应的标注分类信息。其中，此处的样本图像为针对目标对象添加了相应环境噪音处理后的图像。计算机设备按照一定比例从样本图像中抽取训练集和测试集。将训练集输入至待训练的分类模型中，通过该分类模型对训练集进行处理，学习每个训练集对应分类的外观特征。计算机设备可以通过测试集去检验分类模型训练的结果，达到训练停止条件时停止训练，得到训练好的分类模型。其中，训练停止条件是停止模型训练的条件，具体可以是达到预设迭代次数或训练后的分类模型达到预设性能指标。

S210，将满足分类条件的预分类结果，作为相应目标图像中目标对象的分类结果。

具体地，预分类结果包括预分类类别和相应预分类类别对应的第二确信度。计算机设备筛选预分类类别满足分类条件，和/或，第二确信度满足分类条件的目标图像，筛选出的目标图像可认为是分类模型分类结果可信的目标图像。因而，计算机设备可将筛选出的目标图像所对应的预分类结果，作为该目标图像最终的分类结果。

在一个实施例中，目标检测模型在对初始图像帧进行目标检测时，还用于确定各候选对象对应的初始分类类别，候选对象包括目标对象，预分类结果包括预分类类别和各预分类类别对应的第二确信度。分类条件包括以下条件的至少一种：预分类结果中的第二确信度大于或等于第二阈值，目标图像的初始分类类别与对应的预分类类别相同。其中，目标图像的初始分类类别为目标图像所包括的目标对象所对应的初始分类类别。

在一个实施例中，目标检测模型对初始图像帧中的候选对象进行初始分类处理，得到初始分类结果。其中，初始分类结果包括候选对象对应的初始分类类别和相应的第一确信度。分类模型对目标图像进行分类处理，得到预分类结果。其中，预分类结果包括预分类类别和各预分类类别对应的第二确信度。目标对象是从候选对象中筛选得到，并根据目标对象所在的目标区域生成相应的目标图像。

在一个实施例中，计算机设备可预先设置第二阈值，第二阈值可以是一个具体的数值，当预分类类别对应的第二确信度大于或等于第二阈值时，计算机设备直接将该预分类类别作为相应的目标对象的分类结果。

在一个实施例中，当目标图像的初始分类结果，也就是目标图像所包括的目标对象所对应的初始分类类别与对应的预分类类别相同时，计算机设备将预分类类别作为相应的目标对象的分类结果。

在一个实施例中，当预分类类别对应的第二确信度大于或等于第二阈值时，计算机设备可确定这些第二确信度大于等于第二阈值的预分类类别所对应的目标图像。并比较这些确定的目标图像各自所对应的初始分类类别与预分类类别是否相同，若相同，则将对应的预分类类别作为该目标对象的分类结果；若不同，则表示对该目标图像的分类结果不准确，无法确定该目标图像的分类结果。这样，可以快速准确地对初始图像帧中所包括的多个目标对象进行分类。

上述目标分类方法中，通过目标检测模型对初始图像帧进行首次检测，确定初始图像帧中存在的候选对象，并得到各个候选对象相应的第一确信度。从而可从中选取高确信度的目标对象，扩充目标对象所在区域而生成对应的目标图像。进而可通过分类模型对目标图像进行二次检测，从而对目标图像进行准确的分类。这样先执行一次高分辨率目标检测，可以高效地进行初次筛选，且由于不需反复执行，所以不会增加大量的性能开销。再单批多次通过分类模型对筛选出的目标图像进行分类处理，大大提高了图像分类的准确度，且，这与高分辨率目标检测模型相比，减少了大量的算力消耗。因此通过结合目标检测模型和分类模型，可以合理使用更多计算资源，并大大提高目标分类准确性。

参考图3，在一个实施例中，步骤S204，也就是通过目标检测模型对初始图像帧进行目标检测，确定初始图像帧中包括的至少一个候选对象、及各候选对象分别对应的第一确信度的步骤具体包括：

S302，通过目标检测模型对初始图像帧进行特征提取，生成对应的特征图像，且在特征图像的每个像素点上生成至少一个先验框。

其中，特征提取是提取图像中属于特征性的信息的过程。先验框(Default box)是预先设置的不同规格的备选框。通过设置不同规格的先验框，定位不同规格的候选对象。

计算机设备可通过目标检测模型中的卷积网络提取初始图像帧中的特征，并生成相应的特征图像，且在特征图像的每个像素点上生成至少一个先验框。

在一个实施例中，计算机设备可以通过CNN(Convolutional Neural Network，卷积神经网络)对初始图像帧进行特征提取。在机器学习领域中，CNN是一种深度前馈人工神经网络,通过人工神经元响应周围单元，可以完成大型的图像处理任务。其中，卷积神经网络包括卷积层和池化层，卷积层和池化层可进行对初始图像帧的特征提取，并生成相应的特征图像。

在一个实施例中，计算机设备选取每个初始图像帧的特征图像(比如其中六层)，即每个初始图像帧有6个特征图像。以特征图像上的每个像素点为中心，生成一系列同心的先验框。其中，每一层特征图像上像素点不同，并且每个像素点上都要生成先验框。先验框的规格主要由先验框的尺度和宽高比来决定。

可以理解，由于不同层的特征图像对应到初始图像帧上的感受野不同，所以在不同层的特征图像上生成的先验框的大小是不同的，且在每一层的特征图像上生成的先验框的比例都是相同的。

在一个实施例中，计算机设备在生成先验框时遵守先验框的线性递增规则。也就是随着特征图像大小的降低，先验框的尺度线性增加。在SSD结构中，不同大小的特征图像对应处理特征图像中不同尺度的对象。大尺度特征图像可以用来检测小物体，而小尺度特征图像用来检测大物体。

在一个实施例中，每个特征图像上的先验框的尺度，也就是具体的大小可以由以下公式计算：其中，m表示不包括第一层特征图像的特征图像的总个数，当选取其中六层特征图像时，特征图像的总个数为6，则m的取值为5。s_k表示先验框大小相对初始图像帧的比例，s_min和s_max分别表示先验框大小相对初始图像帧的比例的最小值和最大值，如分别取0.2和0.9。

在一个实施例中，每个特征图像上的先验框的宽高比，可以由不同的ratio值(比值)来表示，如常用的ratio值为1，2，3，1/2，1/3这五个数。具体可以由以下公式来计算：其中，/>和/>为分别对应的先验框的宽度和高度，a_r带入不同的ratio值。因此，每个特征图像会有一个a_r＝1且尺度为s_k的正方形先验框。5个ratio值对应5种不同宽高比的先验框。

在一个实施例中，当ratio值为1时，还会设置一个新的先验框的尺度，具体计算方式为：也就是当a_r＝1时，每个特征图像都有两个宽高比为1但大小不同的正方形先验框。因而根据不同的先验框的尺度和宽高比，可使得特征图像上的每个点都有6种不同的先验框。

在一个实施例中，每个先验框的中心坐标可以由以下公式计算得出：((i+0.5)/|f_k|,(j+0.5)/|f_k|)，i,j∈[0,|f_k|)，其中，f_k表示第k层特征图像的大小。

S304，从所有先验框中筛选出至少一个候选框。

在一个实施例中，计算机设备通过NMS算法(Non Maximum Suppression，非极大值抑制算法)从所有的先验框中筛选出候选框，并使得候选框与候选对象的数量相匹配。其中，NMS算法是同时处理多个先验框，去除重合率大的冗余先验框，得到对应的第一确信度最高的先验框作为相应的候选框。NMS算法主要是从所有先验框中筛选出候选框，因此来提高目标检测的效率。

S306，基于候选框，确定初始图像帧中包括的至少一个候选对象。

具体地，候选框与候选对象的数量相匹配，每个候选框内有且仅有一个候选对象。计算机设备可确定初始图像帧中各个候选框中的候选对象。

S308，对候选对象进行初始分类处理，得到初始分类结果，初始分类结果包括候选对象对应的初始分类类别和相应的第一确信度。

具体地，计算机设备可通过目标检测模型对候选对象进行初始分类处理，得到初始分类结果。其中，初始分类结果包括候选对象对应的初始分类类别和相应的第一确信度。候选对象对应的第一确信度表示对该候选对象进行初始分类所得到的初始分类类别的可信程度。

在以上实例中，计算机设备采用目标检测模型对初始图像帧进行目标检测，以准确快速地从初始图像帧中识别出候选对象。再通过对候选对象进行初始分类处理，可以得到初步的初始分类结果。

参考图4，在一个实施例中，步骤S206，也就是根据比目标对象在初始图像帧中所占区域更大的区域，生成相应的目标图像，包括：

S402，获取各目标对象在初始图像帧中分别对应的位置信息。

在一个实施例中，计算机设备可预先将目标对象按各自对应的第一确信度从高到低顺次排序，同时将各目标对象所包含对应的位置信息以及初始分类类别一起保存到队列中。计算机设备从队列中读取各目标对象的位置信息。

在步骤S402，也就是获取各目标对象在初始图像帧中分别对应的位置信息之前，还包括预先存储目标对象所包含对应的位置信息以及初始分类结果的内容。

具体地，计算机设备可预设第一阈值，从候选对象中筛选出第一确信度大于或等于第一阈值的备选对象，并将备选对象按各自对应的第一确信度从高到低顺次排序。预设单帧最大检测数目作为预设序号，将排序序号小于或等于预设序号的备用对象作为目标对象。

在一个实施例中，第一阈值可以是具体的数值，如0.9，当某个候选对象对应的第一确信度大于等于0.9时，计算机设备可直接将该候选对象作为备选对象，并将备选对象按各自对应的第一确信度从高到低顺次排序。

在一个实施例中，计算机设备可预先设置单帧最大检测数目作为预设序号。当备选对象的排序序号小于或等于预设序号时，将对应的备选对象作为目标对象。例如，预设单帧最大检测数目的默认值是5时，将排序序号是第一到第五的备选对象作为目标对象，也就是将1-5号目标对象按各自对应的第一确信度从高到低顺次排序，同时将各目标对象所包含对应的位置信息以及初始分类结果一起保存到队列中。

S404，根据各目标对象对应的位置信息，确定各目标对象分别在初始图像帧中的区域。

具体地，目标对象在初始图像帧中的位置信息可以是目标对象在初始图像帧中所在区域的起始坐标和宽高的数值。计算机设备可根据目标对象在初始图像帧中位置信息，确定各目标对象在初始图像帧所在的具体区域。

在一个实施例中，目标对象在初始图像帧中所在区域的起始坐标可以是所在区域的顶点坐标，如左上角或右下角的顶点坐标，也可以是所在区域的中心点坐标。本申请实施例对此不做限定。

S406，扩大各区域的面积，得到包括有相应目标对象的目标区域。

具体地，计算机设备可可以通过扩大目标对象在初始图像帧中的区域的面积，得到相应的目标区域，进而并按各目标区域生成对应的目标图像。

在一个实施例中，计算机设备扩大目标对象在初始图像帧中的区域的面积，可以是同时扩大所在区域的宽和高的比值，如同时扩大所在区域的宽和高的10％。目标对象所在区域的比例保持不变，但所在区域的面积会增大。因而得到包含该目标对象的目标区域，并按各目标区域生成对应的目标图像。

S408，基于各目标区域，分别生成与各目标对象对应的目标图像。

具体地，计算机设备可根据初始图象帧中包括该目标区域的像素，生成对应的目标图像，该目标图像中包括相应的目标对象。

上述实施例中，获取各目标对象在初始图像帧中所在区域的位置信息，得到各目标对象在初始图像帧中的区域。通过扩大所在区域的面积，得到相应的目标区域，这样根据目标区域所生成的目标图像就既包括了目标对象又包括了环境噪音，便于后续进行分类处理。

在一个实施例中，S208包括：预分类结果包括预分类类别和各预分类类别对应的第二确信度；通过分类模型对各目标图像进行分类处理，得到各目标图像对应的预分类结果之前，该目标分类方法还包括：将各目标图像按照相应的第一确信度按由高至低依次存储至队列中。通过分类模型对各目标图像进行分类处理，得到各目标图像对应的预分类结果的步骤具体包括：顺次从队列中取出目标对象，并通过分类模型对取出的目标图像进行分类处理，得到各目标图像对应的预分类类别和各预分类类别所对应的第二确信度；当目标图像所对应的第二确信度小于第二阈值时，停止从队列中取出目标对象。

具体地，计算机设备可将各目标图像按照对应的第一确信度由高至低依次存储至队列中，并顺次从队列中取出目标对象。通过分类模型顺对取出的目标图像进行分类处理，得到该目标图像对应的预分类类别和各预分类类别对应的第二确信度。当目标图像所对应的第二确信度小于第二阈值时，计算机设备可停止从队列中取出目标对象。

在一个实施例中，计算机设备可以设置提前终止机制。如预设第二阈值，其中，第二阈值可以是具体的数字。计算机设备通过分类模型顺次从队列中取出目标对象，当目标图像所对应的第二确信度小于第二阈值时，停止从队列中取出目标对象。

上述实施例中，依次对第一确信度较大的目标图像进行分类处理，以得到目标图像对应的预分类类别和相应的第二确信度。当处理到某个目标图像时，该目标图像的第二确信度小于第二阈值，则停止从队列中取出目标对象。这样通过设置提前终止机制的方式，不仅可以提高目标分类的效率，还可以合理分配资源，减少资源浪费。

在一个实施例中，关于目标检测模型和分类模型在预先训练前，计算机设备可进行以下准备工作：计算机设备获取样本图像，用矩形标注框框出样本对象在样本图像中的位置，并标注出样本对象属于的目标类别。其中，样本对象的位置，也就是目标位置信息可用坐标(x,y,w,h)来表示。计算机设备将包含相应的标注信息的样本图像作为第一样本图像并保存成XML格式。其中，XML格式是用于训练目标检测模型的样本格式。XML格式的第一样本图像作为训练目标检测模型的输入数据。

进而，计算机设备可从内存中读取样本对象在第一样本图像中的目标位置信息和分别对应的标注分类信息，从上下左右四个方向扩充样本对象所在区域的像素。如同时增加样本对象外接的矩形标注框的宽高大小的10％。

该部分具体操作如下：计算机设备可以把样本对象外接矩形标注框的起始坐标和对应的宽高分别设置为(x,y)和(w,h)，扩展的宽度和高度分别设置为w_add和h_add，其中，w_add＝w*10％，h_add＝h*10％，扩展后的矩形标注框的起始坐标和宽高分别设置为(x_new,y_new)和(w_new,h_new)。那么，x_new＝x-w_add；y_new＝y+h_add；w_new＝w+2*w_add；h_new＝h+2*h_add。

其中，以样本对象外接矩形标注框的左上角的顶点坐标作为起始坐标，从上下左右四个方向增加矩形标注框的宽高大小的10％时，矩形标注框的起始坐标会向左上角方向平移，也就是起始坐标中的横坐标会向左平移，纵坐标会向上平移。矩形标注框的宽度会分别向左向右增加原来矩形标注框的10％，矩形标注框的高度会分别向上向下增加原来矩形标注框高度的10％，因此扩展后的矩形标注框的宽度总共增加原来矩形标注框的20％，高度总共增加原来矩形标注框高度的20％。

接下来，计算机设备可获取扩展后的矩形标注框的起始坐标(x_new,y_new)和对应的宽高(w_new,h_new)作为样本对象在扩展后的样本图像中的目标位置信息，从第一样本图像中分别截取扩展后的区域图像，作为第二样本图像。将第二样本图像按照各自对应的标注分类信息存储在对应类别属性的文件夹。其中，第二样本图像作为训练分类模型的输入数据。通过第二样本图像来训练分类模型。

应该理解的是，虽然图2-图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-图4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种目标分类装置500，包括：获取模块501、目标检测模块502、图像生成模块503、分类模块504和确定模块505，其中：

获取模块501，用于获取待处理的初始图像帧。

目标检测模块502，用于通过目标检测模型对初始图像帧进行目标检测，确定初始图像帧中包括的至少一个候选对象、及各候选对象分别对应的第一确信度。

图像生成模块503，用于从候选对象中筛选第一确信度满足高确信度条件的目标对象，并根据比所对象在初始图像帧中所占区域更大的区域，生成相应的目标图像。

分类模块504，用于通过分类模型对各目标图像进行分类处理，得到各目标图像对应的预分类结果。

确定模块505，将满足分类条件的预分类结果，作为相应目标图像中目标对象的分类结果。

在一个实施例中，目标检测模块502还用于通过目标检测模型对初始图像帧进行特征提取，生成对应的特征图像，且在特征图像的每个像素点上生成至少一个先验框；从所有先验框中筛选出至少一个候选框；基于候选框，确定初始图像帧中包括的至少一个候选对象；对候选对象进行初始分类处理，得到初始分类结果，初始分类结果包括候选对象对应的初始分类类别和相应的第一确信度。

在一个实施例中，图像生成模块503还用于从候选对象中筛选出第一确信度大于等于第一阈值的备用对象；将备用对象按照各自对应的第一确信度按从高到低顺次排序；将排序序号小于等于预设序号的备用对象作为目标对象。

在一个实施例中，图像生成模块503还用于获取各目标对象在初始图像帧中分别对应的位置信息；根据各目标对象对应的位置信息，确定各目标对象分别在初始图像帧中的区域；扩大各区域的面积，得到包括有相应目标对象的目标区域；基于各目标区域，分别生成与各目标对象对应的目标图像。

在一个实施例中，预分类结果包括预分类类别；分类模块504还用于通过分类模型依次对各目标图像进行分类处理，得到目标图像属于各个目标类别的概率；确定概率中的最大概率；将最大概率所对应的目标类别，作为目标图像的预分类类别。

参考图6，在一个实施例中，预分类结果包括预分类类别和各预分类类别对应的第二确信度。该目标分类装置500还包括存储模块506，用于将各目标图像按照相应的第一确信度按由高至低依次存储至队列中。分类模块504还用于顺次从队列中取出目标对象，并通过分类模型对取出的目标图像进行分类处理，得到各目标图像对应的预分类类别和各预分类类别所对应的第二确信度；当目标图像所对应的第二确信度小于第二阈值时，停止从队列中取出目标对象。

在一个实施例中，目标检测模型在对初始图像帧进行目标检测时，还用于确定各候选对象对应的初始分类类别，候选对象包括目标对象。预分类结果包括预分类类别和各预分类类别对应的第二确信度。分类条件包括以下条件的至少一种：预分类结果中的第二确信度大于或等于第二阈值，目标图像的初始分类类别与对应的预分类类别相同，其中，目标图像的初始分类类别为目标图像所包括的目标对象所对应的初始分类类别。

上述目标分类装置，通过目标检测模型对初始图像帧进行首次检测，确定初始图像帧中存在的候选对象，并得到各个候选对象相应的第一确信度。从而可从中选取高确信度的目标对象，扩充目标对象所在区域而生成对应的目标图像。进而可通过分类模型对目标图像进行二次检测，从而对目标图像进行准确的分类。这样先执行一次高分辨率目标检测，可以高效地进行初次筛选，且由于不需反复执行，所以不会增加大量的性能开销。再单批多次通过分类模型对筛选出的目标图像进行分类处理，大大提高了图像分类的准确度，且，这与高分辨率目标检测模型相比，减少了大量的算力消耗。因此通过结合目标检测模型和分类模型，可以合理使用更多计算资源，并大大提高目标分类准确性。

关于目标分类装置的具体限定可以参见上文中对于目标分类方法的限定，在此不再赘述。上述目标分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备具体可以是终端或服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和通信接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI(Wireless Fidelity，无线局域网)、运营商网络、NFC(Near Field Communication，近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种目标分类方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述目标分类方法的步骤。此处目标分类方法的步骤可以是上述各个实施例的目标分类方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述目标分类方法的步骤。此处目标分类方法的步骤可以是上述各个实施例的目标分类方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种目标分类方法，所述方法包括：

获取待处理的初始图像帧；

将满足分类条件的预分类结果，作为相应目标图像中目标对象的分类结果；

所述根据比所述目标对象在初始图像帧中所占区域更大的区域，生成相应的目标图像，包括：

获取各所述目标对象在所述初始图像帧中分别对应的位置信息；根据各所述目标对象对应的位置信息，确定各所述目标对象分别在所述初始图像帧中的区域；扩大各所述区域的面积，得到包括有相应目标对象的目标区域，所述扩大各所述区域的面积是指同时扩大各所述区域的宽和高的比值；基于各所述目标区域，分别生成与各目标对象对应的目标图像；

所述预分类结果包括预分类类别和各预分类类别对应的第二确信度；所述通过分类模型对各所述目标图像进行分类处理，得到各所述目标图像对应的预分类结果之前，所述方法还包括：将各目标图像按照相应的第一确信度按由高至低依次存储至队列中；所述通过分类模型对各所述目标图像进行分类处理，得到各所述目标图像对应的预分类结果，包括：顺次从所述队列中取出目标对象，并通过分类模型对取出的目标图像进行分类处理，得到各所述目标图像对应的预分类类别和各预分类类别所对应的第二确信度；当所述目标图像所对应的第二确信度小于第二阈值时，停止从所述队列中取出目标对象，其中，第二阈值为具体的数。

2.根据权利要求1所述的方法，其特征在于，所述通过目标检测模型对所述初始图像帧进行目标检测，确定所述初始图像帧中包括的至少一个候选对象、及各候选对象分别对应的第一确信度，包括：

通过目标检测模型对所述初始图像帧进行特征提取，生成对应的特征图像，且在所述特征图像的每个像素点上生成至少一个先验框；

从所有所述先验框中筛选出至少一个候选框；

基于所述候选框，确定所述初始图像帧中包括的至少一个候选对象；

对所述候选对象进行初始分类处理，得到初始分类结果，所述初始分类结果包括所述候选对象对应的初始分类类别和相应的第一确信度。

3.根据权利要求1所述的方法，其特征在于，所述从所述候选对象中筛选第一确信度满足高确信度条件的目标对象，包括：

从所述候选对象中筛选出第一确信度大于等于第一阈值的备用对象；

将所述备用对象按照各自对应的第一确信度按从高到低顺次排序；

将排序序号小于等于预设序号的备用对象作为目标对象。

4.根据权利要求1所述的方法，其特征在于，所述预分类结果包括预分类类别；所述通过分类模型对各所述目标图像进行分类处理，得到各所述目标图像对应的预分类结果，包括：

通过分类模型依次对各所述目标图像进行分类处理，得到所述目标图像属于各个目标类别的概率；

确定所述概率中的最大概率；

将所述最大概率所对应的目标类别，作为所述目标图像的预分类类别。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述目标检测模型在对所述初始图像帧进行目标检测时，还用于确定各候选对象对应的初始分类类别，所述候选对象包括目标对象；所述预分类结果包括预分类类别和各预分类类别对应的第二确信度；所述分类条件包括以下条件的至少一种：

所述预分类结果中的第二确信度大于或等于第二阈值；

所述目标图像的初始分类类别与对应的预分类类别相同，其中，所述目标图像的初始分类类别为所述目标图像所包括的目标对象所对应的初始分类类别。

6.一种目标分类装置，其特征在于，所述装置包括：

获取模块，用于获取待处理的初始图像帧；

确定模块，将满足分类条件的预分类结果，作为相应目标图像中目标对象的分类结果；

所述图像生成模块，还用于获取各所述目标对象在所述初始图像帧中分别对应的位置信息；根据各所述目标对象对应的位置信息，确定各所述目标对象分别在所述初始图像帧中的区域；扩大各所述区域的面积，得到包括有相应目标对象的目标区域；基于各所述目标区域，分别生成与各目标对象对应的目标图像；所述扩大各所述区域的面积是指同时扩大各所述区域的宽和高的比值；

预分类结果包括预分类类别和各预分类类别对应的第二确信度；所述目标分类装置还包括存储模块，用于将各目标图像按照相应的第一确信度按由高至低依次存储至队列中；所述分类模块还用于顺次从队列中取出目标对象，并通过分类模型对取出的目标图像进行分类处理，得到各目标图像对应的预分类类别和各预分类类别所对应的第二确信度；当目标图像所对应的第二确信度小于第二阈值时，停止从队列中取出目标对象，其中，第二阈值为具体的数。

7.根据权利要求6所述的装置，其特征在于，所述目标检测模块还用于通过目标检测模型对所述初始图像帧进行特征提取，生成对应的特征图像，且在所述特征图像的每个像素点上生成至少一个先验框；从所有所述先验框中筛选出至少一个候选框；基于所述候选框，确定所述初始图像帧中包括的至少一个候选对象；对所述候选对象进行初始分类处理，得到初始分类结果，所述初始分类结果包括所述候选对象对应的初始分类类别和相应的第一确信度。

8.根据权利要求6所述的装置，其特征在于，所述图像生成模块还用于从候选对象中筛选出第一确信度大于等于第一阈值的备用对象；将备用对象按照各自对应的第一确信度按从高到低顺次排序；将排序序号小于等于预设序号的备用对象作为目标对象。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。