CN108960266B

CN108960266B - 图像目标检测方法及装置

Info

Publication number: CN108960266B
Application number: CN201710364321.3A
Authority: CN
Inventors: 储文青; 华先胜; 黄建强; 周昌
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-05-22
Filing date: 2017-05-22
Publication date: 2022-02-08
Anticipated expiration: 2037-05-22
Also published as: CN108960266A

Abstract

本申请实施例公开了一种图像目标检测方法和装置，该方法包括：确定目标图像中的多个候选检测框的图像特征；基于确定的图像特征，预测候选检测框的图像所属的物体分类，该候选检测框的图像所属的物体分类包括主分类以及对应的子分类；基于候选检测框的图像所属的物体分类，以及主分类和子分类的过滤规则，对候选检测框进行重复候选检测框的过滤处理，得到过滤后的检测框。本申请实施例的方案，能够减少或避免在目标检测过程发生漏检或错检，提高图像目标检测的准确率。

Description

图像目标检测方法及装置

技术领域

本申请涉及图像处理领域，尤其涉及一种图像目标检测方法及装置。

背景技术

随着计算机技术的发展和计算机视觉原理的广泛应用，利用计算机图像处理技术对目标进行实时跟踪，对目标进行动态实时跟踪定位等技术在智能化交通系统、智能监控系统、军事目标检测及医学导航手术中手术器械定位等方面具有广泛的应用价值。

目标检测，也叫目标提取，是一种基于目标几何和统计特征的图像分割技术，将目标的分割和识别合二为一。在现有的目标检测中，主要是通过分类器确定某类物体的位置并以检测框的形式呈现物体的位置。分类器检测某类物体时，主要是通过消除交叉重复的冗余检测框，从而找到最佳物体的检测位置。

在现有的分类器中，通过非极大值抑制算法抑制冗余的检测框。但当待检测物体相互之间重叠得比较厉害时，如果交叠率阈值设置得过大，分类器可能会无法过滤掉某些冗余检测框，导致漏检；如果交叠率阈值设置得过小，分类器则可能会将一些正确的候选检测框去掉，从而导致错检。

发明内容

本申请实施例的目的是提供一种图像目标检测方法及装置，以减少或避免在图像目标检测过程发生漏检或错检，提高图像目标检测的准确率。

为解决上述技术问题，本申请实施例是这样实现的：

第一方面，提出了一种图像目标检测方法，该方法包括：

确定目标图像中的多个候选检测框的图像特征；

基于确定的图像特征，预测候选检测框的图像所属的物体分类，该候选检测框的图像所属的物体分类包括主分类以及对应的子分类；

基于候选检测框的图像所属的物体分类，以及主分类和子分类的过滤规则，对候选检测框进行重复候选检测框的过滤处理，得到过滤后的检测框；

其中，子分类的过滤规则不同于子分类所属主分类的过滤规则。

第二方面，提出了一种图像目标检测装置，该装置包括：

确定单元，确定目标图像中的多个候选检测框的图像特征；

预测单元，基于确定的图像特征，预测候选检测框的图像所属的物体分类，该候选检测框的图像所属的物体分类包括主分类以及对应的子分类；

过滤单元，基于候选检测框的图像所属的物体分类，以及主分类和子分类的过滤规则，对候选检测框进行重复候选检测框的过滤处理，得到过滤后的检测框，其中，子分类的过滤规则不同于子分类所属主分类的过滤规则。

第三方面，提出了一种电子设备，该电子设备包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，该可执行指令在被执行时使该处理器执行以下操作：

确定目标图像中的多个候选检测框的图像特征；

第四方面，提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序当被电子设备执行时，能够使该电子设备执行以下方法：

确定目标图像中的多个候选检测框的图像特征；

第五方面，提出了一种图像目标检测方法，其特征在于，包括：

确定目标图片的多个候选检测框并提取该多个候选检测框的图像特征；

根据该多个候选检测框的图像特征，按照第一级分类进行分类并确定第一级分类对应的分类概率；

按照第一级分类、第一级分类对应的分类概率及第一级分类对应的第一交叠率阈值对该多个候选检测框进行非极大值抑制得到第一目标检测框；

根据该第一目标检测框的图像特征，按照第二级分类进行分类并确定第二级分类对应的分类概率；

按照第二级分类、第二级分类对应的分类概率及第二级分类对应的第二交叠率阈值对该第一检测框进行非极大值抑制得到第二目标检测框，其中，每种第二级分类被分为至少一种第一级分类，第一级分类的第一交叠率阈值小于该第一分类所属的第二级分类的第二交叠率阈值。

第六方面，提出了一种图像目标检测装置，该装置包括：

确定单元，确定目标图片的多个候选检测框及该多个候选检测框的分类概率；

第一筛选单元，按照第一级分类、第一级分类对应的分类概率及第一级分类对应的第一交叠率阈值对该多个候选检测框进行非极大值抑制以筛选得到第一目标检测框；

第二筛选单元，按照第二级分类、第二级分类对应的分类概率及第二级分类对应的第二交叠率阈值对该第一检测框进行非极大值抑制以筛选得到第二目标检测框，其中，每种第二级分类被分为至少一种第一级分类，第一级分类的第一交叠率阈值小于该第一分类所属的第二级分类的第二交叠率阈值。

第七方面，提出了一种电子设备，该电子设备包括：

处理器；以及

第八方面，提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序当被电子设备执行时，能够使该电子设备执行以下方法：

第一方面，提出了一种图像目标检测方法，该方法包括：

确定目标图像中的多个候选检测框的图像特征；

基于确定的图像特征，预测候选检测框的图像所属的物体分类，该候选检测框的图像所属的物体分类包括主分类及子分类，其中至少一个主分类能够被划分为对应的子分类；

由以上本申请实施例提供的技术方案可见，本申请实施例中，通过按照主分类和子分类各自的过滤规则，对目标图像的候选检测框进行重复候选检测框的过滤处理，从而能够尽可能地去掉冗余的候选检测框，并减少或避免去掉正确的候选检测框,提高了目标检测的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请现有技术对目标图片进行非极大值抑制得到最优检测框的示意图。

图2是本申请的一个实施例叠加的目标物体的场景示意图。

图3是本申请的一个实施例图像目标检测的方法流程图。

图4是本申请的一个实施例检测框过滤的过程示意图。

图5是本申请的一个实施例叠加的目标物体的检测框的示意图。

图6是本申请的另一个实施例检测框过滤的过程示意图。

图7是本申请的再一个实施例检测框过滤的过程示意图。

图8是本申请的再一个实施例检测框过滤的过程示意图。

图9是本申请的一个实施例图像目标检测的方法流程图。

图10是本申请的一个实施例物体图像特征、遮挡类型、物体视角的图片示意图。

图11是本申请的一示例性实施例的电子设备的示意结构图。

图12是本申请的一个实施例图像目标检测装置的结构示意图。

图13是本申请的另一个实施例图像目标检测装置的结构示意图。

图14是本申请的一个实施例图像目标检测装置的结构示意图。

图15是本申请的再一个实施例图像目标检测的方法流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

为了方便理解本申请实施例，首先在此介绍本申请实施例描述中会引入的几个要素。

深度学习(Deep Learning)：深度学习是机器学习的分支，是机器学习中的表征学习方法，通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。也就是说，深度学习是通过使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象。以图像为例，一幅图像的特征(观测值)可以使用多种方式来表示，如每个像素强度值的矢量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务。深度学习的好处是将用非监督式或半监督式的特征学习和分层特征提取的高效算法来替代手工获取特征。

卷积神经网络(Convolutional Neural Network，CNN)：卷积神经网络由一个或多个卷积层和顶端的全连通层组成，同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网络能够利用输入数据的二维结构。一般地，CNN的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。与其他深度学习结构相比，卷积神经网络在图像和语音识别方面能够给出更优的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络，卷积神经网络需要估计的参数更少，使之成为一种颇具吸引力的深度学习结构。

目标检测(Object Detection)：目标检测是涉及计算机视觉和图像处理的计算机技术，通过基于目标几何和统计特征的图像分割，将目标的分割和识别合二为一。例如，目标检测可在数字图像和视频中检测某一类(例如人，建筑物或汽车)的语义对象。目标检测在计算机视觉的许多领域中具有应用，包括图像检索和视频监视。

交叠率(Intersection over Union,IOU)：在目标检测的评价体系中，有一个参数叫做IOU，指模型产生的目标窗口和原来标记窗口的交叠率。交叠率可能有多种计算方式，例如，在一种计算方式中，交叠率可表示为检测结果(Detection Result)与Ground Truth的交集比上检测结果(Detection Result)与Ground Truth的并集，具体可用如下公式表示：

聚类(cluster)：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。聚类分析又称群分析，是研究样品或指标的分类问题的一种统计分析方法。聚类分析起源于分类学，但是聚类不等于分类。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。聚类分析在许多领域受到广泛应用，包括机器学习，数据挖掘，模式识别，图像分析以及生物信息。

图1是本申请现有技术对目标图片进行非极大值抑制得到最优检测框的示意图。如图1所示，分类器在对图1(A)中的目标物体汽车进行检测时，可能会存在多个候选检测框，每个候选检测框都会带有一个分类器得分。通过结合分类器得分和交叠率阈值，可选出得分最高的候选检测框；通过交叠率阈值，可排除与得分最高的候选框的交叠率大于交叠率阈值的候选检测框。基于上述算法对图1(A)的候选检测框进行处理，可得到图1(B)的最优检测框。

但是，在现有的基于非极大值抑制算法的图像目标检测方法中，对于相互之间重叠得比较厉害的待检测物体，其目标检测的错误率较高。

图2是本申请的一个实施例叠加的目标物体的场景示意图。如图2所示，车A和车B两辆重叠得比较厉害的汽车。在使用非极大值抑制算法对圆圈区域内的汽车进行检测框定位时，如果交叠率阈值设置得过大，分类器可能会无法过滤掉某些冗余检测框，导致漏检；如果交叠率阈值设置得过小，分类器则可能会将一些正确的候选检测框去掉，从而导致错检。

为解决上述问题，本申请实施例提出了一种图像目标检测方法和装置。

图3是本申请的一个实施例图像目标检测的方法流程图，图3的方法由图像目标检测装置执行。该方法包括：

S301，确定目标图像中的多个候选检测框的图像特征。

S302，基于确定的图像特征，预测候选检测框的图像所属的物体分类，该候选检测框的图像所属的物体分类包括主分类以及对应的子分类。

应理解，在本申请实施例中，主分类是指用于预测图像的物体分类中划分粒度最大的分类，是比子分类的划分粒度粗的分类。例如，用于预测图像的物体分类，可包括汽车和人等。

每个主分类可划分为至少一个对应的子分类；每个子分类必定隶属于某个主分类。例如，汽车作为主分类，可进一步划分为如下多个子分类：车头朝前的汽车、车头朝后的汽车、车站朝两侧的汽车；人作为主分类，可进一步分为如下多个子分类：长头发的人、短头发的人，等等。

应理解，预测候选检测框的图像所属的物体分类，可包括预测候选检测框的图像为某种物体分类的概率。例如，预测候选检测框的图像是汽车的概率为99％，预测候选检测框的图像是人的概率为1％，等等。

S303，基于候选检测框的图像所属的物体分类，以及主分类和子分类的过滤规则，对候选检测框进行重复候选检测框的过滤处理，得到过滤后的检测框。

应理解，在本申请实施例中，目标检测的过滤处理，是为了尽可能排除每个物体的重复检测框，并避免漏检的情况发生。

为便于理解本申请图3所示实施例的方案，结合图4进行举例说明。图4是本申请的一个实施例检测框过滤的过程示意图。如图4所示，不妨假设目标图像的候选检测框包括A1-A5等多个候选检测框。在得到候选检测框及对应的特征值之后，可基于候选检测框的特征值预测候选检测框所属于的物体分类，然后再基于主分类和子分类的过滤规则对候选检测框进行过滤，得到过滤后的检测框，例如，过滤掉A2、A4，得到过滤后的检测框A1、A3、A5等。当然，应理解，上述图4检测框过滤的过程示意图仅仅是示意性的，在实际的应用中，候选检测框的个数可能是其它的数值，过滤后的检测框也可能是其它的结果，其过滤对象及过滤结果由实际情况决定，并不限于上述列举的例子。

图5是本申请的一个实施例叠加的目标物体过滤后的检测框的示意图。对于如图2所示的场景中的车A和车B，执行图3或图4所示的方法后，可得到如图5所示的过滤后的两个检测框，分别对应于车A和车B。

本申请实施例中，通过按照主分类和子分类各自的过滤规则，对目标图像的候选检测框进行重复候选检测框的过滤处理，从而能够尽可能地去掉冗余的候选检测框，并减少或避免去掉正确的候选检测框,提高了目标检测的准确率。

可选的，子分类的过滤规则为基于第一阈值进行的非极大值抑制处理；主分类的过滤规则为基于第二阈值进行的非极大值抑制处理，且子分类的第一阈值小于子分类所属主分类的第二阈值。

应理解，在本申请实施例中，第一阈值为子分类的交叠率阈值，第二阈值为主分类的交叠率阈值。在进行非极大值抑制处理的过程中，如果两个检测框的交叠率大于交叠率阈值，则保留预测概率大的分类的检测框，概率小的检测框将被过滤掉。

在本申请实施例中，子分类的过滤规则为基于第一阈值进行的非极大值抑制处理。基于子分类的过滤规则，对于某个候选检测框集合进行重复候选检测框的过滤处理，其一种具体实现步骤可如下所示：

(1)选择候选检测框集合中预测的子分类概率最大的候选检测框，放入保留检测框集合；

(2)在候选检测框集合剩余的候选检测框中，选择预测的子分类概率最大的候选检测框，如果与保留检测框集合中任意一个检测框的交叠率都小于第一阈值，则放入保留检测框集合；否则，将其舍弃。

(3)循环执行步骤(2)，直至候选检测框集合为空。

此时，得到的保留检测框集合即为基于子分类过滤规则的非极大值抑制处理结果。

可选的，在本申请实施例中，不同子分类的第一阈值可以相同，也可以不同；不同主分类的第二阈值可以相同，也可以不同。

可选的，作为一个实施例，可按照分类粒度从细到粗的过滤顺序进行过滤。此时，步骤S303具体可实现为：

基于子分类的过滤规则，对候选检测框进行非极大值抑制处理，得到初始过滤后剩余的候选检测框；

基于主分类的过滤规则，对剩余的候选检测框进行非极大值抑制处理，得到过滤后的检测框。

图6是本申请的另一个实施例检测框过滤的过程示意图。如图6所示，在得到候选检测框A1-A5及对应的特征值之后，可基于候选检测框的特征值预测候选检测框A1-A5所属于的物体分类，再基于子分类的过滤规则对候选检测框A1-A5进行过滤，得到初始过滤后剩余的候选检测框A1、A2、A3、A5，然后基于主分类的过滤规则对候选检测框A1、A2、A3、A5进行过滤，得到过滤后的检测框A1、A3、A5。当然，应理解，上述图6检测框过滤的过程示意图仅仅是示意性的，在实际的应用中，候选检测框的个数可能是其它的数值，过滤后的检测框也可能是其它的结果，其过滤对象及过滤结果由实际情况决定，并不限于上述列举的例子。

可选的，作为另一个实施例，可按照分类粒度从粗到细的过滤顺序进行过滤。此时，步骤S303具体可实现为：

基于主分类的过滤规则，对候选检测框进行非极大值抑制处理，得到初始过滤后剩余的候选检测框；

基于子分类的过滤规则，对剩余的候选检测框进行非极大值抑制处理，得到过滤后的检测框。

图7是本申请的另一个实施例检测框过滤的过程示意图。如图7所示，在得到候选检测框A1-A5及对应的特征值之后，可基于候选检测框的特征值预测候选检测框A1-A5所属于的物体分类，再基于主分类的过滤规则对候选检测框A1-A5进行过滤，得到初始过滤后剩余的候选检测框A1、A3、A4、A5，然后基于子分类的过滤规则对候选检测框A1、A3、A4、A5进行过滤，得到过滤后的检测框A1、A3、A5。当然，应理解，上述图7检测框过滤的过程示意图仅仅是示意性的，在实际的应用中，候选检测框的个数可能是其它的数值，过滤后的检测框也可能是其它的结果，其过滤对象及过滤结果由实际情况决定，并不限于上述列举的例子。

可选的，作为再一个实施例，可按照不同分类粒度分别进行过滤，再以过滤后的集合的交集作为过滤后的检测框。此时，步骤S303具体可实现为：

基于主分类的过滤规则，对候选检测框进行非极大值抑制处理，得到过滤后剩余的第一候选检测框集合；

基于子分类的过滤规则，对候选检测框进行非极大值抑制处理，得到过滤后剩余的第二候选检测框集合；

确定第一候选检测框集合和第二候选检测框集合的交集为过滤后的检测框。

图8是本申请的另一个实施例检测框过滤的过程示意图。如图8所示，在得到候选检测框A1-A5及对应的特征值之后，可基于候选检测框的特征值预测候选检测框A1-A5所属于的物体分类，再基于子分类的过滤规则对候选检测框A1-A5进行过滤，得到过滤后剩余的候选检测框集合1：A1、A2、A3、A5，基于主分类的过滤规则对候选检测框A1-A5进行过滤，得到过滤后剩余的候选检测框集合2：A1、A3、A4、A5，最后对主分类和子分类各自过滤后的候选检测框集合1和2求取交集，得到过滤后的检测框A1、A3、A5。当然，应理解，上述图8检测框过滤的过程示意图仅仅是示意性的，在实际的应用中，候选检测框的个数可能是其它的数值，过滤后的检测框也可能是其它的结果，其过滤对象及过滤结果由实际情况决定，并不限于上述列举的例子。

可选地，每个该子分类还能够分为至少一个第三级分类，该候选检测框的图像所属的物体分类还包括对应的第三级分类；

其中，步骤S303可实现为：

基于候选检测框的图像所属的物体分类，以及主分类、子分类、第三级分类的过滤规则，对候选检测框进行重复候选检测框的过滤处理，得到过滤后的检测框。

其中，第三级分类的过滤规则为：基于第三阈值进行的非极大值抑制处理，且第三级分类的第三阈值小于第三级分类所属子分类的第一阈值。应理解，在本申请实施例中，第三阈值为第三级分类的交叠率阈值。

具体地，其过滤方式可参照上述三种过滤方式，如下：

可选地，在一种具体的实现方式中，步骤S303可实现为：

基于子分类的过滤规则，对剩余的候选检测框进行非极大值抑制处理，得到二次过滤后剩余的检测框；

基于第三级分类的过滤规则，对二次过滤后剩余的候选检测框进行非极大值抑制处理，得到过滤后的检测框。

可选地，在另一种具体的实现方式中，步骤S303可实现为：

基于第三级分类的过滤规则，对候选检测框进行非极大值抑制处理，得到初始过滤后剩余的候选检测框；

基于主分类的过滤规则，对二次过滤后剩余的候选检测框进行非极大值抑制处理，得到过滤后的检测框。

可选地，在再一种具体的实现方式中，步骤S303可实现为：

基于第三级分类的过滤规则，对候选检测框进行非极大值抑制处理，得到过滤后剩余的第三候选检测框集合；

确定第一候选检测框集合、第二候选检测框集合、第三候选检测框集合的交集为过滤后的检测框。

当然，应理解，第三级分类还可进一步划分为粒度更细的第四级分类，第四级分类也可进一步划分为粒度更细的第五级分类；相应地，其过滤方式也可参照上述三种过滤方式，不再赘述。

可选地，作为一个实施例，该方法还可包括：确定多个训练图片中每个训练图片的主分类信息，并根据多个训练图片中每个训练图片中物体图像特征和主分类信息，训练主分类器中该主分类的识别参数；

确定多个训练图片中每个训练图片的子分类信息，并根据多个训练图片中每个训练图片中物体图像特征和子分类信息，训练子分类器中该子分类的识别参数。

可选地，在本实施例的一种实现方式中，确定多个训练图片中每个训练图片的主分类信息包括：通过标注确定多个训练图片中每个训练图片的主分类信息。

可选地，在本实施例的一种实现方式中，确定多个训练图片中每个训练图片的子分类信息包括：通过标注确定多个训练图片中每个训练图片的子分类信息。

或者，可选地，在本实施例的一种实现方式中，确定多个训练图片中每个训练图片的子分类信息包括：通过标注确定多个训练图片中每个训练图片的主分类；根据多个训练图片中每个训练图片中物体图像特征和主分类，通过聚类确定多个训练图片中每个训练图片的子分类信息。

可选地，该方法还包括：

根据多个训练图片中每个训练图片中物体图像特征和主分类训练该分类器中该主分类的第二交叠率阈值；

根据多个训练图片中每个训练图片中物体图像特征和子分类训练该分类器中该子分类的第一交叠率阈值。

可选地，该方法还可包括：加载预先通过训练得到的具备该子分类的识别能力的该子分类器，以及具备该主分类的识别能力的该主分类器。

图9是本申请的另一个实施例图像目标检测的方法流程图。下面，结合图9，以按照分类粒度从细到粗的过滤顺序进行过滤的方式进行举例说明。

S901，确定目标图像中的多个候选检测框的图像特征。

应理解，在进行目标图像的目标检测时，首先需要搜索出所有可能是物体的区域。

例如，可通过物体识别查找(search for object recognition)算法或选择性查找(Selective Search)算法等搜索出2000～3000个候选区域。

以Selective Search算法为例，其确定候选区域的方法如下：

(1)使用一种过分割手段，将图像分割成小区域。

(2)查看现有小区域，合并可能性最高的两个区域，重复直到整张图片合并成一个区域位置。在合并过程中，可优先合并以下四种区域：A颜色或颜色直方图相近的区域，B纹理或梯度直方图相近的区域，C合并后总面积小的区域，D合并后总面积在其所在的包围盒(boundingBox，bbox)中所占比例大的区域。

例如，假设有区域a-b-c-d-e-f-g-h。按照合并后总面积小的区域优先进行合并的原则，较好的合并方式是：ab-cd-ef-gh->abcd-efgh->abcdefgh。

(3)输出所有曾经存在过的区域，即为候选区域。

为了尽可能不遗漏候选区域，上述操作在多个颜色空间，例如RGB(Red，Green，Blue)空间，HSV(Hue,Saturation,Value)空间，色彩模型Lab空间等同时进行。在一个颜色空间中，使用上述四条规则的不同组合进行合并。所有颜色空间与所有规则的全部结果，在去除重复后，都作为候选区域输出。此时确定的候选区域，即本申请实施例中的候选检测框。

当确定目标图片的候选检测框后，可提取候选检测框的图像特征。

具体地，在本申请实施例中，可通过训练好的深度神经网络提取候选检测框中的特征。该深度神经网络，例如，可以是卷积神经网络CNN等。在使用深度神经网络提取特征之前，一般可将候选检测框归一化成同一尺寸，例如，227*227等。在归一化成同一尺寸时，可采用多种方式，例如，形变是是否保持原比例、对框外区域直接截取还是补灰度，等等。

S902，根据该多个候选检测框的图像特征，按照第一级分类进行分类并确定第一级分类对应的分类概率。

通过深度神经网络如CNN等对候选检测框中的特征进行提取后，可将该特征送入分类器进行分类。具体地，在本申请实施例中，可根据深度神经网络中提取出来的多个候选检测框的图像特征，在深度神经网络中的第一级分类器中进行判别，以获取多个候选检测框在第一级分类中对应的分类概率。

例如，假设目标图片的候选检测框为2000个，第一级分类包括10种行人分类和10种汽车分类，则在深度神经网络中会存在20个第一级分类器，或者是1个具备20种第一级分类功能的第一级分类器。

在本申请实施例中，第一级分类器可根据候选检测框的图像特征，从物体图像特征、遮挡类型和物体视角等方面对物体进行识别，确定候选检测框被判定为各种第一级分类的概率。

S903，按照第一级分类、第一级分类对应的分类概率及第一级分类对应的第一交叠率阈值对该多个候选检测框进行非极大值抑制得到第一目标检测框。

当候选检测框经过第一级分类器得到各种第一级分类的概率后，可按照第一级分类、第一级分类对应的分类概率及第一级分类对应的第一交叠率阈值对该多个候选检测框进行非极大值抑制得到第一目标检测框。

例如，假设目标图片的2000个候选检测框的第一级分类在20个第一级分类中的分类1的概率分别为概率1至概率2000，对2000个进行非极大抑制的第一交叠率阈值为IOU1，则在分类1对2000个进行非极大抑制的一个具体的算法过程可如下所示：

步骤1：假设2000个候选检测框构成的候选检测框集合为Q。从集合Q中选择概率最大的候选检测框，不妨假设为候选检测框n，其对应的概率为概率n。

步骤2：分别判断集合Q中其余的候选检测框与该候选检测框n的交叠率IOU是否大于或等于IOU1，如果大于或等于IOU1，则从集合Q中排除，并将候选检测框n放到目标检测框的集合T中。此时，集合Q中不包含被排除的候选检测框，也不包含候选检测框n。

步骤3：从集合Q剩下的候选检测框中选择概率最大的候选检测框m，分别判断其余的候选检测框与该候选检测框m的交叠率IOU是否大于或等于IOU1，如果大于或等于IOU1，则从集合Q中排除，并将候选检测框m放到目标检测框的集合T中。

步骤4：重复执行步骤3，直至集合Q为空集。最终得到的集合T中的候选检测框即分类1通过非极大抑制算法得到的目标检测框。

S904，根据该第一目标检测框的图像特征，按照第二级分类进行分类并确定第二级分类对应的分类概率。

应理解，步骤S904具体可实现为：根据该第一目标检测框的图像特征，在第二级分类器中进行判别以获取该第一目标检测框在第二级分类中对应的分类概率，其中，该第二级分类器为该第二级分类对应的分类器。

应理解，在一种具体的实现方式中，第二级分类器可直接将步骤S901中确定的多个候选检测框作为输入，根据该多个候选检测框的图像特征，按照第二级分类进行分类并确定第二级分类对应的分类概率，再根据步骤S903中确定的第一目标检测框，确定第一目标检测框的第二级分类及第二级分类对应的分类概率。此时，该多个候选检测框的图像特征，显然会包括第一目标检测框的图像特征。

或者，在另一种具体的实现方式中，可根据步骤S903中确定的第一目标检测框，将该第一目标检测框作为第二分类器的输入，使得第二分类器根据该多个候选检测框的图像特征，按照第二级分类进行分类并确定第二级分类对应的分类概率。

S905，按照第二级分类、第二级分类对应的分类概率及第二级分类对应的第二交叠率阈值对该第一检测框进行非极大值抑制得到第二目标检测框。

其中，每种第二级分类被分为至少一种第一级分类，第一级分类的第一交叠率阈值小于该第一分类所属的第二级分类的第二交叠率阈值。

步骤S905的具体实现可参考步骤S903，本申请实施例在此不再赘述。

应理解，以较小的第一交叠率阈值对分类划分粒度较细的第一级分类进行非极大值抑制，以抑制交叠率大于第一交叠率阈值且分类概率较小的候选检测框，可以尽可能地抑制属于同一个第一级分类的冗余的候选检测框；而以较大的第二交叠率阈值对分类划分粒度较粗的第二级分类进行非极大值抑制，以抑制交叠率大于第二交叠率阈值且分类概率较小的候选检测框，则可以避免将属于不同第一级分类的候选检测框当作冗余的候选检测框给以排除。

本申请实施例中，通过对划分粒度细的分类采用较小的交叠率阈值进行非极大值抑制，对划分粒度粗的分类采用较大的交叠率阈值进行非极大值抑制，从而能够去掉冗余的候选检测框，并减少或避免去掉正确的候选检测框，提高了目标检测的准确率。

可选地，在步骤S905之后，该方法还可包括：根据该第二目标检测框的图像特征，按照第三级分类进行分类并确定第三级分类对应的分类概率；按照第三级分类、第三级分类对应的分类概率及第三级分类对应的第三交叠率阈值对该第二检测框进行非极大值抑制得到第三目标检测框，其中，每种第三级分类被分为至少一种第二级分类，第二级分类的第二交叠率阈值小于该第二分类所属的第三级分类的第三交叠率阈值。

本申请实施例中，通过对检测目标的分类进一步地划分为3种或更多种不同的分类粒度，从而能够根据不同分类对应的交叠率阈值对候选检测框进行非极大值抑制，提高了目标检测的准确率。

按照分类粒度从粗到细的过滤顺序进行过滤的方式，以及按照不同分类粒度分别进行过滤，再以过滤后的集合的交集作为过滤后的检测框的过滤方式，其具体实现可结合图9所示实施例推导出，本申请实施例不再赘述。

当然，应理解，在执行图3或图9的方法之前，还可预先训练用于识别图像中物体分类的分类器。

可选的，该方法还可包括：

确定多个训练图片中每个训练图片的第二级分类信息，并根据多个训练图片中每个训练图片中物体图像特征和第二级分类信息，训练第二分类器中第二级分类的识别参数；

确定多个训练图片中每个训练图片的第一级分类信息，并根据多个训练图片中每个训练图片中物体图像特征和第一级分类信息，训练第一分类器中第一级分类的识别参数。

应理解，在本申请实施例中，第二级分类可以是目标物体中划分粒度较大的种类，例如，人、汽车、房子等；第一级分类是对第二级分类更细的划分方式，以汽车为例，可按照多种方式对汽车做进一步的划分。例如，按汽车被遮挡的比例，可将汽车的遮挡类型分为0-5％，5-20％，20-50％，50％以上，等等。又例如，按照物体视角，可以将汽车划分为车前侧朝向观察者、车左侧朝向观察者、车右侧朝向观察者、车后侧朝向观察者、车左前侧朝向观察者、车右前侧朝向观察者、车左后侧朝向观察者、车右后侧朝向观察者等几类物体视角。又例如，还可根据多种分类方式，将汽车进行更细粒度的划分，以遮挡类型和物体视角为例，按照遮挡类型将汽车分为上述4个分类项(0-5％，5-20％，20-50％，50％以上)，按照物体视角将汽车分为上述8个分类项(车前侧朝向观察者、车左侧朝向观察者、车右侧朝向观察者、车后侧朝向观察者、车左前侧朝向观察者、车右前侧朝向观察者、车左后侧朝向观察者、车右后侧朝向观察者)，则按照遮挡类型和物体视角两种分类方式，可将汽车分为4*8＝32个分类项，等等。

可选地，作为一个实施例，确定多个训练图片中每个训练图片的第二级分类信息具体可实现为：通过标注确定多个训练图片中每个训练图片的第二级分类信息。图10是本申请的一个实施例汽车的训练图片示意图。例如，在对分类器进行训练时，可将图10中的每个训练图片的第二级分类，都标注为汽车。

可选地，作为一个实施例，确定多个训练图片中每个训练图片的第一级分类信息具体可实现为：通过标注确定多个训练图片中每个训练图片的第一级分类信息。如图10所示，可以标注图10中每个图片的种类为汽车，并标注图片的遮挡类型和物体视角。由于同一行的汽车的物体图像特征、遮挡类型和物体视角基本相同或类似，可以归为同一个第一级分类。

可选地，作为一个实施例，确定多个训练图片中每个训练图片的第一级分类信息具体可实现为：通过标注确定多个训练图片中每个训练图片的第二级分类信息；根据多个训练图片中每个训练图片中物体图像特征和第二级分类信息，通过聚类确定多个训练图片中每个训练图片的第一级分类信息。例如，对图10中的每个图片，标注图片的遮挡类型和物体视角等分类项，并根据每个训练图片中物体图像特征和分类项，对图片进行聚类，从而得到第一级分类信息。应理解，此时得到的第一级分类信息，除了具有属于同一类的分类项以外，还在具有某些相同或属于同一类的物体图像特征。

应理解，在确定训练图片的分类信息后，即可根据训练图片中物体图像特征和分类信息，对该分类信息对应的分类器进行训练。还是以图10为例，对于汽车分类，可将图10的所有图片作为输入，将汽车作为预测的输出分类，根据图片的物体图像特征及预测的分类(汽车)，训练深度神经网络模型中汽车分类器的识别参数；对汽车的遮挡类型和物体视角分类，可将图10的所有图片作为输入，将每个图片对应的汽车的遮挡类型和物体视角分类作为输出，训练深度神经网络模型中关于汽车的遮挡类型和物体视角的分类器的识别参数。其中，汽车分类即本申请实施例的第二级分类，汽车分类器即本申请实施例的第二级分类器；汽车的遮挡类型和物体视角分类即本申请实施例的第一级分类，关于汽车的遮挡类型和物体视角的分类器即本申请实施例的第一级分类器。根据训练图片中物体图像特征和分类训练分类器的识别参数的具体实现可参考现有技术，本申请实施例在此不再赘述。

在本申请实施例中，通过对深度神经网络进行两个级别的分类粒度的训练，使得深度神经网络具备两个级别的分类粒度的识别能力，从而使得深度神经网络能够根据分类粒度设置不同的交叠率阈值，以避免采用单一交叠率导致在对检测框进行非极大值抑制时产生错检或漏检，提高目标检测的准确率。

可选地，该方法还可包括：根据训练图片中目标物体的物体图像特征和标注的第二级分类训练该分类器中该第二级分类的第二交叠率阈值；根据训练图片中物体图像特征、标注的遮挡类型和标注的物体视角训练该分类器中该第一级分类的第一交叠率阈值。

本申请实施例中，通过对分类对应的交叠率阈值进行训练，使得深度神经网络在对重叠率较高的物体进行识别时，能够进一步提高目标检测的准确率。

可选地，该方法还可包括：加载预先通过训练得到的具备该第一级分类的识别能力的该第一级分类器，以及具备该第二级分类的识别能力的该第二级分类器。

在本申请实施例中，训练分类器的过程与深度神经网络的识别检测过程是可分离的，也就是说，训练模块与识别检测模块可以是解耦合的。

图11是本申请的一个实施例电子设备的结构示意图。请参考图11，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，该程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成图像目标检测装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

确定目标图像中的多个候选检测框的图像特征；

上述如本申请图3所示实施例揭示的图像目标检测装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图3或图9所示实施例中图像目标检测装置执行的方法，并实现图像目标检测装置在图3或图9所示实施例的功能，本申请实施例在此不再赘述。

当然，除了软件实现方式之外，本申请的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括该一个或多个应用程序的电子设备执行时，能够使该电子设备执行图3所示实施例中图像目标检测装置执行的方法，并具体用于执行：

确定目标图像中的多个候选检测框的图像特征；

图12是本申请的一个实施例图像目标检测装置1200的结构示意图。请参考图12，在一种软件实施方式中，图像目标检测装置1200可包括：

确定单元1210，确定目标图像中的多个候选检测框的图像特征；

预测单元1220，基于确定的图像特征，预测候选检测框的图像所属的物体分类，该候选检测框的图像所属的物体分类包括主分类以及对应的子分类；

过滤单元1230，基于候选检测框的图像所属的物体分类，以及主分类和子分类的过滤规则，对候选检测框进行重复候选检测框的过滤处理，得到过滤后的检测框，其中，子分类的过滤规则不同于子分类所属主分类的过滤规则。

图像目标检测装置1200还可执行图3或图9所示实施例中图像目标检测装置执行的方法，并实现图像目标检测装置在图3或图9所示实施例，本申请实施例在此不再赘述。

图13是本申请的一个实施例电子设备的结构示意图。请参考图13，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图13中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

确定目标图片的多个候选检测框并提取所述多个候选检测框的图像特征；

根据所述多个候选检测框的图像特征，按照第一级分类进行分类并确定第一级分类对应的分类概率；

按照第一级分类、第一级分类对应的分类概率及第一级分类对应的第一交叠率阈值对所述多个候选检测框进行非极大值抑制得到第一目标检测框；

根据所述第一目标检测框的图像特征，按照第二级分类进行分类并确定第二级分类对应的分类概率；

按照第二级分类、第二级分类对应的分类概率及第二级分类对应的第二交叠率阈值对所述第一检测框进行非极大值抑制得到第二目标检测框，其中，每种第二级分类被分为至少一种第一级分类，第一级分类的第一交叠率阈值小于所述第一分类所属的第二级分类的第二交叠率阈值。

上述如本申请图9所示实施例揭示的图像目标检测装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图9所示实施例中图像目标检测装置执行的方法，并实现图像目标检测装置在图9所示实施例的功能，本申请实施例在此不再赘述。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括该一个或多个应用程序的电子设备执行时，能够使该电子设备执行图9所示实施例中图像目标检测装置执行的方法，并具体用于执行：

图14是本申请的一个实施例图像目标检测装置1400的结构示意图。如图14所示，图像目标检测装置1400可包括：

确定单元1410，确定目标图片的多个候选检测框并提取所述多个候选检测框的图像特征；

第一分类单元1420，根据所述多个候选检测框的图像特征，按照第一级分类进行分类并确定第一级分类对应的分类概率；

第一筛选单元1430，按照第一级分类、第一级分类对应的分类概率及第一级分类对应的第一交叠率阈值对所述多个候选检测框进行非极大值抑制得到第一目标检测框；

第二分类单元1440，根据所述第一目标检测框的图像特征，按照第二级分类进行分类并确定第二级分类对应的分类概率；

第二筛选单元1450，按照第二级分类、第二级分类对应的分类概率及第二级分类对应的第二交叠率阈值对所述第一检测框进行非极大值抑制得到第二目标检测框，其中，每种第二级分类被分为至少一种第一级分类，第一级分类的第一交叠率阈值小于所述第一分类所属的第二级分类的第二交叠率阈值。

可选地，图像目标检测装置1400还可包括第三筛选单元1460，按照第三级分类、第三级分类对应的分类概率及第三级分类对应的第三交叠率阈值对该第二检测框进行非极大值抑制得到第三目标检测框，其中，第三级分类能够被分为至少一种第二级分类，第二级分类的第二交叠率阈值小于该第二分类所属的第三级分类的第三交叠率阈值。

可选地，确定单元1410具体用于：

通过第一分类器确定该多个候选检测框被检测为第一级分类的分类概率；

通过第二分类器确定该多个候选检测框被检测为第二级分类的分类概率。

可选地，作为一个实施例，图像目标检测装置1400还可包括训练单元1470，

确定多个训练图片中每个训练图片的第二级分类信息，并根据多个训练图片中每个训练图片的物体视觉特征和第二级分类信息，训练该第二分类器中该第二级分类的识别参数；

确定多个训练图片中每个训练图片的第一级分类信息，并根据多个训练图片中每个训练图片的物体视觉特征和第一级分类信息，训练该第一分类器中该第一级分类的识别参数。

具体地，训练单元1470确定多个训练图片中每个训练图片的第二级分类信息可实现为：通过标注确定多个训练图片中每个训练图片的第二级分类信息。

具体地，训练单元1470确定多个训练图片中每个训练图片的第一级分类信息可实现为：

通过标注确定多个训练图片中每个训练图片的第一级分类信息；或者

通过标注确定多个训练图片中每个训练图片的分类项，该分类项的分类方式不同于该第一级分类的分类方式；根据多个训练图片中每个训练图片的物体视觉特征和分类项，通过聚类确定多个训练图片中每个训练图片的第一级分类信息。

进一步地，训练单元1470还根据多个训练图片中每个训练图片的物体视觉特征和第二级分类训练该分类器中该第二级分类的第二交叠率阈值；根据多个训练图片中每个训练图片的物体视觉特征和第一级分类训练该分类器中该第一级分类的第一交叠率阈值。

或者，可选地，作为一个实施例，图像目标检测装置1400还可包括加载单元1480，加载预先通过训练得到的包含该第一级分类和该第二级分类的分类器。

可选地，该第一级分类的第一交叠率阈值是预配置的，属于同一种第二级分类的不同第一级分类对应的第一交叠率阈值相同或不同。

图像目标检测装置1400还可执行图9的方法，并实现图像目标检测装置在图9所示实施例的功能，本申请实施例在此不再赘述。

图15是本申请实施例的再一种图像目标检测方法的流程图。图15的方法由图像目标检测装置执行，该方法包括：

S1501，确定目标图像中的多个候选检测框的图像特征。

S1502，基于确定的图像特征，预测各候选检测框的图像所属的物体分类，该候选检测框的图像所属的物体分类包括主分类及子分类，其中至少一个主分类被划分为对应的子分类。

S1503，基于候选检测框的图像所属的物体分类，以及主分类和子分类的过滤规则，对候选检测框进行重复候选检测框的过滤处理，得到过滤后的检测框，其中，子分类的过滤规则不同于子分类所属主分类的过滤规则。

应理解，本申请实施例中，主分类不一定有对应的子分类，但每个子分类必定有对应的主分类。

应理解，本申请实施例中，除了主分类不一定有子分类这一点与图3所示实施例不一致以外，其余的方案可参考图3所示实施例，本申请实施例在此不再赘述。

本申请实施例还提供了一种图像目标检测方法装置，包括处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行图15所示实施例中的方法。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被电子设备执行时，能够使所述电子设备执行图15所示实施例中的方法。

总之，以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种图像目标检测方法，其特征在于，包括：

确定目标图像中的多个候选检测框的图像特征；

基于确定的图像特征，预测候选检测框的图像所属的物体分类，所述候选检测框的图像所属的物体分类包括主分类以及对应的子分类，其中，所述预测候选检测框的图像所属的物体分类，包括预测所述候选检测框的图像为某种物体分类的概率；

2.如权利要求1所述的方法，其特征在于，

子分类的过滤规则为基于第一阈值进行的非极大值抑制处理；主分类的过滤规则为基于第二阈值进行的非极大值抑制处理，且子分类的第一阈值小于子分类所属主分类的第二阈值。

3.如权利要求1或2所述的方法，其特征在于，

所述基于候选检测框的图像所属的物体分类，以及主分类和子分类的过滤规则，对候选检测框进行重复候选检测框的过滤处理，得到过滤后的检测框，包括：

基于子分类的过滤规则，对所述候选检测框进行非极大值抑制处理，得到初始过滤后剩余的候选检测框；

基于主分类的过滤规则，对所述剩余的候选检测框进行非极大值抑制处理，得到过滤后的检测框。

4.如权利要求1或2所述的方法，其特征在于，

基于子分类的过滤规则，对所述剩余的候选检测框进行非极大值抑制处理，得到过滤后的检测框。

5.如权利要求1或2所述的方法，其特征在于，

6.如权利要求1或2所述的方法，其特征在于，

每个所述子分类还能够分为至少一个第三级分类，所述候选检测框的图像所属的物体分类还包括对应的第三级分类；

基于候选检测框的图像所属的物体分类，以及主分类和子分类的过滤规则，对候选检测框进行重复候选检测框的过滤处理，得到过滤后的检测框，包括：

7.一种图像目标检测方法，其特征在于，包括：

确定目标图片的多个候选检测框并提取所述多个候选检测框的图像特征，其中，所述候选检测框包括可能是物体的区域；

按照第二级分类、第二级分类对应的分类概率及第二级分类对应的第二交叠率阈值对所述第一目标检测框进行非极大值抑制得到第二目标检测框，其中，每种第二级分类被分为至少一种第一级分类，第一级分类的第一交叠率阈值小于所述第一级分类所属的第二级分类的第二交叠率阈值。

8.如权利要求7所述的方法，其特征在于，所述方法还包括：

根据所述第二目标检测框的图像特征，按照第三级分类进行分类并确定第三级分类对应的分类概率；

按照第三级分类、第三级分类对应的分类概率及第三级分类对应的第三交叠率阈值对所述第二目标检测框进行非极大值抑制得到第三目标检测框，其中，每种第三级分类被分为至少一种第二级分类，第二级分类的第二交叠率阈值小于所述第二级分类所属的第三级分类的第三交叠率阈值。

9.如权利要求7或8所述的方法，其特征在于，

根据所述多个候选检测框的图像特征，按照第一级分类进行分类并确定第一级分类对应的分类概率包括：根据所述多个候选检测框的图像特征，在第一级分类器中进行判别以获取所述多个候选检测框在第一级分类中对应的分类概率，其中，所述第一级分类器为所述第一级分类对应的分类器；

根据所述第一目标检测框的图像特征，按照第二级分类进行分类并确定第二级分类对应的分类概率包括：根据所述第一目标检测框的图像特征，在第二级分类器中进行判别以获取所述第一目标检测框在第二级分类中对应的分类概率，其中，所述第二级分类器为所述第二级分类对应的分类器。

10.如权利要求9所述的方法，其特征在于，在确定所述多个候选检测框的分类概率之前，所述方法还包括：

确定多个训练图片中每个训练图片的第二级分类信息，并根据多个训练图片中每个训练图片中物体图像特征和第二级分类信息，训练所述第二级分类器中所述第二级分类的识别参数；

确定多个训练图片中每个训练图片的第一级分类信息，并根据多个训练图片中每个训练图片中物体图像特征和第一级分类信息，训练所述第一级分类器中所述第一级分类的识别参数。

11.如权利要求10所述的方法，其特征在于，

确定多个训练图片中每个训练图片的第二级分类信息包括：

通过标注确定多个训练图片中每个训练图片的第二级分类信息。

12.如权利要求10所述的方法，其特征在于，

确定多个训练图片中每个训练图片的第一级分类信息包括：

通过标注确定多个训练图片中每个训练图片的第二级分类信息；

根据多个训练图片中每个训练图片中物体图像特征和第二级分类信息，通过聚类确定多个训练图片中每个训练图片的第一级分类信息。

13.如权利要求10-12中任一项所述的方法，其特征在于，

所述方法还包括：

根据多个训练图片中每个训练图片中物体图像特征和第二级分类训练所述第二级分类器中所述第二级分类的第二交叠率阈值；

根据多个训练图片中每个训练图片中物体图像特征和第一级分类训练所述第一级分类器中所述第一级分类的第一交叠率阈值。

14.如权利要求9所述的方法，其特征在于，所述方法还包括：

加载预先通过训练得到的具备所述第一级分类的识别能力的所述第一级分类器，以及具备所述第二级分类的识别能力的所述第二级分类器。

15.如权利要求7或8所述的方法，其特征在于，

所述第一级分类的第一交叠率阈值是预配置的，属于同一种第二级分类的不同第一级分类对应的第一交叠率阈值相同或不同。

16.一种图像目标检测装置，其特征在于，包括：

确定单元，确定目标图像中的多个候选检测框的图像特征；

预测单元，基于确定的图像特征，预测候选检测框的图像所属的物体分类，所述候选检测框的图像所属的物体分类包括主分类以及对应的子分类，其中，所述预测候选检测框的图像所属的物体分类，包括预测所述候选检测框的图像为某种物体分类的概率；

17.一种电子设备，其特征在于，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

确定目标图像中的多个候选检测框的图像特征；

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被电子设备执行时，能够使所述电子设备执行以下方法：

确定目标图像中的多个候选检测框的图像特征；

19.一种图像目标检测装置，其特征在于，包括：

确定单元，确定目标图片的多个候选检测框及所述多个候选检测框的分类概率，其中，所述候选检测框包括可能是物体的区域；

第一筛选单元，按照第一级分类、第一级分类对应的分类概率及第一级分类对应的第一交叠率阈值对所述多个候选检测框进行非极大值抑制以筛选得到第一目标检测框；

第二筛选单元，按照第二级分类、第二级分类对应的分类概率及第二级分类对应的第二交叠率阈值对所述第一目标检测框进行非极大值抑制以筛选得到第二目标检测框，其中，每种第二级分类被分为至少一种第一级分类，第一级分类的第一交叠率阈值小于所述第一级分类所属的第二级分类的第二交叠率阈值。

20.一种电子设备，其特征在于，包括：

处理器；以及

21.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被电子设备执行时，能够使所述电子设备执行以下方法：

22.一种图像目标检测方法，其特征在于，包括：

确定目标图像中的多个候选检测框的图像特征；

基于确定的图像特征，预测候选检测框的图像所属的物体分类，所述候选检测框的图像所属的物体分类包括主分类及子分类，其中至少一个主分类能够被划分为对应的子分类，所述预测候选检测框的图像所属的物体分类，包括预测所述候选检测框的图像为某种物体分类的概率；