CN108229514A

CN108229514A - 物体检测方法、装置和电子设备

Info

Publication number: CN108229514A
Application number: CN201611244381.3A
Authority: CN
Inventors: 王昌宝; 闫俊杰
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2018-06-29

Abstract

本发明实施例提供了一种物体检测方法、装置和电子设备，其中，所述物体检测方法包括：获取待检测的图像中的多个超像素；提取每个超像素的表象特征和多个超像素之间的空间上下文信息；根据所述表象特征和所述空间上下文信息，确定所述图像包括的至少一个物体的类别和/或位置。通过本发明实施例，基于超像素进行物体检测，能够自然地检测到传统的候选框产生算法漏掉的物体，可以有效提高物体检测的准确性。

Description

物体检测方法、装置和电子设备

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种物体检测方法、装置和电子设备。

背景技术

随着物体检测技术的发展，物体检测为其他的很多高层计算机视觉问题的解决提供了方案，成为解决计算机视觉问题，比如图片搜索、人脸识别、跟踪以及行为识别等的基础。

目前，物体检测大部分的工作是把物体检测问题转化成图像分类物体的问题。这一过程往往是先产生一个候选的物体区域，也即候选框，然后接着去独立地分类这些候选框。例如，利用滑动窗口采样多个尺度和位置来得到大约每张图片100000个候选框，或者，根据图像特征来聚类或者分割得到每张图片大概2000个候选框；然后，再用图片分类技术来分类各个候选框；进而，根据分类结果获得物体检测的结果。

然而，上述先获得候选框再进行图像分类的方法中，因为现有产生候选框的方式很难保证图像中的每个物体都被覆盖到，如果一个物体在候选框产生步骤中被漏掉，那么这个物体就再也不可能被检测出来。因此，如何尽可能地避免漏检物体，进而提高物体检测的准确性，成为本领域技术人员亟待解决的问题。

发明内容

本发明实施例提供了一种能量函数训练方案和一种物体检测方案。

根据本发明实施例的一个方面，提供了一种物体检测方法，包括：获取待检测的图像中的多个超像素；提取每个超像素的表象特征和多个超像素之间的空间上下文信息；根据所述表象特征和所述空间上下文信息，确定所述图像包括的至少一个物体的类别和/或位置。

可选地，所述提取每个超像素的表象特征和多个超像素之间的空间上下文信息；根据所述表象特征和所述空间上下文信息，确定物体类别，包括：通过能量函数提取每个超像素的表象特征和多个超像素之间的空间上下文信息；并根据所述表象特征和所述空间上下文信息，确定物体类别和/或位置。

可选地，在所述获取进行了超像素分割后的待检测的物体图像中的多个超像素之前，所述方法还包括：获取用于训练的样本图像，其中，所述样本图像中包含有分割后的超像素的信息；使用所述样本图像训练所述能量函数。

可选地，使用所述样本图像训练所述能量函数，包括：使用所述样本图像、并基于区域卷积神经网络RCNN和设定的目标函数训练能量函数，直至所述能量函数对所述样本图像中的超像素的标注满足设定的训练终止条件；其中，所述能量函数包括以下数据代价项、平滑代价项、和标签代价项中的任一种或任一种以上的组合；所述数据代价项用于建模超像素的表象，所述平滑代价项用于建模超像素之间的空间上下文关系，所述标签代价项用于对超像素的标注数目进行惩罚；所述RCNN用于获取所述样本图像中设定类别的检测框并对所述设定类别的检测框进行分类；分类的结果被作为所述能量函数对超像素的初始标注；所述目标函数用于训练所述能量函数各个代价项的权重参数。

可选地，所述使用RCNN和设定的目标函数训练能量函数，直至所述能量函数对所述样本图像中的超像素的标注满足设定的训练终止条件，包括：通过所述RCNN对所述用于训练的样本图像进行检测，获取设定类别的目标对象检测框，和所述目标对象检测框的分类结果；将所述分类结果作为所述目标对象检测框对应的超像素的初始标注；根据所述初始标注和所述目标函数，确定所述能量函数的各个代价项的权重参数的初始权重；根据所述初始权重确定所述能量函数；根据确定的所述能量函数对所述目标对象检测框对应的超像素进行标注训练的结果，调整所述能量函数的权重参数，直至所述能量函数对所述样本图像中的超像素的标注满足设定的训练终止条件。

可选地，根据确定的所述能量函数对所述目标对象检测框对应的超像素进行标注训练的结果，调整所述能量函数的权重参数，直至所述能量函数对所述样本图像中的超像素的标注满足设定的训练终止条件，包括：使用确定的所述能量函数对所述目标对象检测框对应的超像素进行标注；使用损失函数计算所述标注的标注结果损失值；判断所述标注结果损失值是否满足设定阈值；若不满足，则根据所述标注和所述目标函数更新所述能量函数的权重参数，使用更新后的所述权重参数重新确定能量函数，并使用重新确定的能量函数对所述目标对象检测框对应的超像素进行标注训练，直至所述能量函数对所述样本图像中的超像素的标注满足设定的训练终止条件。

可选地，所述数据代价项根据超像素对应的目标对象检测框的最小数据代价确定；和/或，所述平滑代价项根据属于领域的两个超像素的标注一致性和所述两个超像素的颜色指标和纹理指标确定；和/或，所述标签代价项根据超像素的标注数目确定。

可选地，所述目标函数根据设定的损失函数、所述能量函数的各个代价项确定。

可选地，在获取进行了超像素分割后的待检测的物体图像中的多个超像素之前，所述方法还包括：获取待检测的图像；对所述待检测的图像进行超像素分割。

可选地，所述待检测的图像包括静态图像或视频帧图像。

根据本发明实施例的另一个方面，还提供了一种物体检测装置，包括：第一获取模块，用于获取待检测的图像中的多个超像素；确定模块，用于提取每个超像素的表象特征和多个超像素之间的空间上下文信息；根据所述表象特征和所述空间上下文信息，确定所述图像包括的至少一个物体的类别和/或位置。

可选地，所述确定模块用于通过能量函数提取每个超像素的表象特征和多个超像素之间的空间上下文信息；并根据所述表象特征和所述空间上下文信息，确定物体类别和/或位置。

可选地，所述装置还包括：第二获取模块，用于在所述第一获取模块获取进行了超像素分割后的待检测的物体图像中的多个超像素之前，获取用于训练的样本图像，其中，所述样本图像中包含有分割后的超像素的信息；训练模块，用于使用所述样本图像训练所述能量函数。

可选地，所述训练模块，用于使用所述样本图像、并基于区域卷积神经网络RCNN和设定的目标函数训练能量函数，直至所述能量函数对所述样本图像中的超像素的标注满足设定的训练终止条件；其中，所述能量函数包括以下数据代价项、平滑代价项、和标签代价项中的任一种或任一种以上的组合；所述数据代价项用于建模超像素的表象，所述平滑代价项用于建模超像素之间的空间上下文关系，所述标签代价项用于对超像素的标注数目进行惩罚；所述RCNN用于获取所述样本图像中设定类别的检测框并对所述设定类别的检测框进行分类；分类的结果被作为所述能量函数对超像素的初始标注；所述目标函数用于训练所述能量函数各个代价项的权重参数。

可选地，所述训练模块包括：第三获取模块，用于通过所述RCNN对所述用于训练的样本图像进行检测，获取设定类别的目标对象检测框，和所述目标对象检测框的分类结果；初始标注模块，用于将所述分类结果作为所述目标对象检测框对应的超像素的初始标注；初始权重模块，用于根据所述初始标注和所述目标函数，确定所述能量函数的各个代价项的权重参数的初始权重；函数确定模块，用于根据所述初始权重确定所述能量函数；调整模块，用于根据确定的所述能量函数对所述目标对象检测框对应的超像素进行标注训练的结果，调整所述能量函数的权重参数，直至所述能量函数对所述样本图像中的超像素的标注满足设定的训练终止条件。

可选地，所述调整模块，用于使用确定的所述能量函数对所述目标对象检测框对应的超像素进行标注；使用损失函数计算所述标注的标注结果损失值；判断所述标注结果损失值是否满足设定阈值；若不满足，则根据所述标注和所述目标函数更新所述能量函数的权重参数，使用更新后的所述权重参数重新确定能量函数，并使用重新确定的能量函数对所述目标对象检测框对应的超像素进行标注训练，直至所述能量函数对所述样本图像中的超像素的标注满足设定的训练终止条件。

可选地，所述装置还包括：超像素分割模块，用于在所述第一获取模块获取进行了超像素分割后的待检测的物体图像中的多个超像素之前，获取待检测的图像；对所述待检测的图像进行超像素分割。

可选地，所述待检测的图像包括静态图像或视频帧图像。

根据本发明实施例的再一个方面，还提供了一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如前所述的物体检测方法对应的操作。

根据本发明实施例的又一个方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有：用于获取待检测的图像中的多个超像素的可执行指令；用于提取每个超像素的表象特征和多个超像素之间的空间上下文信息的可执行指令；用于根据所述表象特征和所述空间上下文信息，确定所述图像包括的至少一个物体的类别和/或位置的可执行指令。

根据本发明实施例提供的技术方案，首先获得待检测的图像的超像素，进而提取每个超像素的表象特征和多个超像素之间的空间上下文信息，以确定图像中的至少一个物体的类别和/或位置。其中，超像素的表象特征能够反映超像素的外貌特征，也即超像素看起来的样子，如某超像素的表象表明该超像素属于一把椅子的一部分；超像素的空间上下文关系能够反映相邻超像素之间的关系以便于进行物体分类。相比较于传统的候选框，超像素粒度更小，可以灵活聚类组成新物体，更易于建模物体之间的关系，并且，超像素一般不会破坏图像中物体的边界信息。因此，基于超像素进行物体检测，能够自然地检测到传统的候选框产生算法漏掉的物体，可以有效提高物体检测的准确性。

附图说明

图1是根据本发明实施例一的一种物体检测方法的步骤流程图；

图2是根据本发明实施例二的一种物体检测方法的步骤流程图；

图3是根据本发明实施例三的一种物体检测方法的步骤流程图；

图4是根据本发明实施例四的一种物体检测装置的结构框图；

图5是根据本发明实施例五的一种电子设备的结构示意图。

具体实施方式

下面结合附图(若干附图中相同的标号表示相同的元素)和实施例，对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

本领域技术人员可以理解，本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

实施例一

参照图1，示出了根据本发明实施例一的一种物体检测方法的步骤流程图。

本实施例的物体检测方法包括以下步骤：

步骤S102：获取待检测的图像中的多个超像素。

其中，待检测的图像为进行了超像素分割后的图像。本实施例中，针对进行了超像素分割后的图像，从中获取图像中的多个超像素。本发明实施例中，多个意指两个及两个以上。

在实际应用中，可以采用任意适当的超像素分割方法得到一张图片中的超像素，包括但不限于采用基于图论的超像素分割方法，如，graph-based方法、Ncut方法、superpixel lattice方法、基于熵率方法等；或者采用基于梯度下降的方法，如，分水岭方法、MeanShift方法、Quick-shift方法、SLIC方法等。

在计算机视觉领域，通过图像分割将数字图像细分为多个图像子区域(像素的集合)，该图像子区域也可以被称作超像素。超像素是由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域。这些小区域大多保留了进一步进行图像分割的有效信息，且一般不会破坏图像中物体的边界信息。超像素可以灵活地聚类组成新的物体，并且，物体之间的相互关系在物体这一层比较难以建模，而在超像素这一层可以很自然地建模。因此，如果知道了每个超像素的标签，比如该超像素属于哪个类别的第几个物体，就可以有效地进行物体检测。本实施例中，通过超像素的表象特征和空间上下文信息实现这一目的。

步骤S104：提取每个超像素的表象特征和多个超像素之间的空间上下文信息。

超像素的表象特征用于表明超像素的外貌特征；超像素的空间上下文关系可以帮助物体的分类，比如，椅子和餐桌往往一起出现，如果超像素对应的一个物体的空间上下文信息中包含了餐桌，那么该超像素对应的物体可能为椅子的几率更大。

其中，提取每个超像素的表象特征和多个超像素之间的空间上下文信息可以由本领域技术人员采用任意适当方式实现。但除此之外，本发明实施例还提供了一种通过能量函数提取超像素的表象特征和空间上下文信息的优选示例，具体如下文实施例二和三中所述。

步骤S106：根据所述表象特征和所述空间上下文信息，确定所述图像包括的至少一个物体的类别和/或位置。

基于超像素的表象特征和空间上下文信息，可以确定超像素对应的物体类别和/或在图像中的位置。

通过本实施例，首先获得待检测的图像的超像素，进而提取每个超像素的表象特征和多个超像素之间的空间上下文信息，以确定图像中的至少一个物体的类别和/或位置。其中，超像素的表象特征能够反映超像素的外貌特征，也即超像素看起来的样子；超像素的空间上下文关系能够反映相邻超像素之间的关系以便于进行物体分类。相比较于传统的候选框，超像素粒度更小，可以灵活聚类组成新物体，更易于建模物体之间的关系，并且，超像素一般不会破坏图像中物体的边界信息。因此，基于超像素进行物体检测，能够自然地检测到传统的候选框产生算法漏掉的物体，可以有效提高物体检测的准确性。

实施例二

参照图2，示出了根据本发明实施例二的一种物体检测方法的步骤流程图。

本实施例中，首先训练一个用于进行物体检测的能量函数，进而使用该能量函数进行图像检测，确定图像中物体的类别和/或位置。本实施例的物体检测方法包括以下步骤：

步骤S202：获取用于训练的样本图像。

其中，所述样本图像中包含有分割后的超像素的信息。

步骤S204：使用所述样本图像训练能量函数。

在一种可行方式中，可以使用所述样本图像、并基于RCNN(Region basedConvolutional Neural Network，区域卷积神经网络)和设定的目标函数训练能量函数，直至所述能量函数对所述样本图像中的超像素的标注满足设定的训练终止条件。所述目标函数用于优化所述能量函数中的参数。

其中，能量函数包括数据代价项、平滑代价项和标签代价项中的任一种或任一种以上的组合。其中，数据代价项用于建模超像素的表象，平滑代价项用于建模超像素之间的空间上下文关系，比如两个超像素是否属于同一个物体，标签代价项用于对超像素的标注数目进行惩罚。RCNN用于获取样本图像中设定类别的检测框并对设定类别的检测框进行分类，RCNN分类的结果被作为能量函数对超像素的初始标注。目标函数用于训练能量函数各个代价项的权重参数。

在实际应用中，对每个标注的结果L，定义一个能量函数E(L)来衡量其代价。最好的标注结果L对应于使得能量E(L)最小的那个标注。以下为不同需求下能量E(L)所包含的参数项：

1)当独立地考虑每个超像素的时候，它的标注应该根据超像素的表象和根据某一类别的训练数据学习到的表象模型匹配，因此引入数据代价项；

2)考虑到物体的连续性，邻域中的超像素的标注应该比较相关，而邻域中不一致的标签应该有个相应的惩罚。如果两个邻域的超像素有相同的标注而被当做是同一个物体，它们的表象应该相关，因此引入平滑代价项；

3)为了得到更紧凑的结果，标注的结果应该用更少的标签，因此引入标签代价项。

超像素的表象用于表明超像素的外貌特征；超像素的空间上下文关系可以帮助物体的分类，比如，椅子和餐桌往往一起出现，如果超像素对应的一个物体的空间上下文信息中包含了餐桌，那么该超像素对应的物体可能为椅子的几率更大；超像素的标注数目可以反映同一个物体的不同超像素被标注为不同标注的数目，同一物体的不同超像素通常需要做相同标注，如果该物体的不同超像素被标注为不同标注的数目过多，则需要进行惩罚，以得到更为紧凑的检测结果。

以单张用于训练的样本图像为例，在训练能量函数时，可以先通过RCNN对该样本图像进行检测。RCNN为预先训练好的、具有图像检测功能的RCNN，通过该RCNN在样本图像中确定检测框，进而对检测框进行分类，但该分类结果不够准确，而且有可能发生漏检。因此，在本实施例的方案中，仅将RCNN的检测结果作为能量函数的超像素标注初始结果，以进行后续的能量函数训练。对能量函数的训练目标是最小化该能量函数，因此，需要结合目标函数训练能量函数的参数，以实现最小化能量函数的训练，该训练为迭代训练，直至能量函数对样本图像中的超像素的标注满足设定的训练终止条件。其中，设定的训练终止条件包括但不限于：设定的收敛条件或者设定的迭代运算次数等。

通过包含有分割后的超像素的样本图像、RCNN和目标函数训练预设的能量函数。其中，能量函数包括数据代价项、平滑代价项和标签代价项，数据代价项用于建模超像素的表象，平滑代价项用于建模超像素之间的空间上下文关系，标签代价项用于对超像素的标注数目进行惩罚。经过训练获得的能量函数，能够充分利用超像素的表象信息和空间上下文关系信息，基于超像素的表象和空间上下文关系进行物体标注。超像素的表象能够反映超像素的外貌特征，超像素的空间上下文关系能够反映相邻超像素之间的关系以便于确定超像素的类别，并且，超像素一般不会破坏图像中物体的边界信息，因此，基于超像素的能量函数能够自然地检测到传统的候选框产生算法漏掉的物体并且可以通过全局的图像上下文来推理相互有遮挡的物体。当将其应用于物体检测时，可以有效提高物体检测的准确性。

步骤S206：获取待检测的图像中的多个超像素。

步骤S208：通过能量函数提取每个超像素的表象特征和多个超像素之间的空间上下文信息；根据所述表象特征和所述空间上下文信息，确定物体类别和/或位置。

如前所述，经过训练的能量函数能够提取超像素的表象特征和空间上下文信息，并根据其提取的超像素的表象特征和空间上下文信息确定图像中至少一个物体的类别和/或位置。

通过本实施例的物体检测方案，基于超像素进行物体检测，相比较于传统的候选框，超像素粒度更小，可以灵活聚类组成新物体，更易于建模物体之间的关系，并且，超像素一般不会破坏图像中物体的边界信息。因此，基于超像素并通过能量函数进行物体检测，能够自然地检测到传统的候选框产生算法漏掉的物体，可以有效提高物体检测的准确性。

本实施例的物体检测方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：PC机、移动终端、服务器等。

实施例三

参照图3，示出了根据本发明实施例三的一种物体检测方法的步骤流程图。

本实施例中，对训练用于进行物体检测的能量函数进行了进一步的说明。在完成对能量函数的训练后，使用该能量函数进行图像检测，以确定图像中物体的类别和/或位置。

本实施例的物体检测方法包括以下步骤：

步骤S302：获取样本图像，并对样本图像进行超像素分割，将进行了超像素分割后的样本图像作为用于训练的样本图像。

本实施例中，将每张用于训练的样本图像的超像素分割结果记为P，其中，P＝{p₁，p₂，…，p_N}，p_i是第i个超像素，而N是超像素的个数；如果p_i和p_j在空间上连在一起，则p_i和p_j属于一个邻域系统X，即，(p_i，p_j)∈X。针对每一个超像素，对其进行人工标注，获得超像素标注集合L＝{l₁，l₂，…，l_N}，其中，标注l_i∈{0，1，2，…，∞}。这里，l_i＝0表示p_i属于背景，而l_i＝j表示p_i属于某一类的第j个物体。

为便于处理和说明，本实施例中，以单个类别的超像素为例进行说明。在实际应用中，也可以针对每个类别的超像素分别分开进行处理。此种情况下，RCNN可以训练成仅识别某一类物体的神经网络，如，在有多种动物的图像中，可以仅识别山羊，其它类动物和图像均识别为背景。

步骤S304：确定能量函数。

本实施例中，在图像上定义一个能量函数，并对该能量函数进行训练，以使该能量函数具有获得每个超像素的标注的功能。本实施例中的能量函数包括数据代价项、平滑代价项和标签代价项，其中，数据代价项用来建模超像素的表象，平滑代价项用来建模超像素之间的空间上下文关系，标签代价项用来对超像素的标注数目进行惩罚，以得到更紧凑的检测结果。

本实施例中，能量函数中的各个代价项可以通过以下方式确定：数据代价项根据超像素对应的目标对象检测框的最小数据代价确定；平滑代价项根据属于领域的两个超像素的标注一致性和两个超像素的颜色指标和纹理指标确定；标签代价项根据超像素的标注数目确定。在实际应用中，能量函数可以仅包括上述各个代价项中的任意一个，也可以包括上述各个代价项中的任意多个或者全部。

基于上述方式，一种能量函数可以定义为如下公式(1)：

其中，E(L)表示能量函数，表示能量函数的数据代价项，表示能量函数的平滑代价项，C(L)表示能量函数的标签代价项。

步骤S306：使用RCNN和设定的目标函数训练能量函数。

本实施例中，数据代价项从基于RCNN的分类结果上传播得到，而能量函数的其他代价项可以通过结构化SVM(Support Vector Machine，支持向量机)得到。

使用RCNN和设定的目标函数对能量函数的训练为迭代训练，直至训练至能量函数对样本图像中的超像素的标注满足设定的训练终止条件。其中，目标函数可以根据设定的损失函数和能量函数的各个代价项确定。

在一种可行方式中，可以通过RCNN对用于训练的样本图像进行检测，获取设定类别的目标对象检测框，和目标对象检测框的分类结果；然后，将分类结果作为目标对象检测框对应的超像素的初始标注；根据初始标注和目标函数，确定能量函数的各个代价项的权重参数的初始权重；根据初始权重确定能量函数；根据确定的能量函数对目标对象检测框对应的超像素进行标注训练的结果，调整能量函数的权重参数，直至能量函数对样本图像中的超像素的标注满足设定的训练终止条件。

在根据确定的能量函数对目标对象检测框对应的超像素进行标注训练的结果，调整能量函数的权重参数，直至能量函数对样本图像中的超像素的标注满足设定的训练终止条件时，可以使用确定的能量函数对目标对象检测框对应的超像素进行标注；使用损失函数计算标注的标注结果损失值；判断标注结果损失值是否满足设定阈值；若满足，则确定能量函数对样本图像中的超像素的标注满足设定的训练终止条件，完成能量函数的训练；若不满足，则根据标注和目标函数更新能量函数的权重参数，使用更新后的权重参数重新确定能量函数，并使用重新确定的能量函数对目标对象检测框对应的超像素进行标注训练，直至能量函数对样本图像中的超像素的标注满足设定的训练终止条件。

其中，训练终止条件可以可以由本领域技术人员根据实际需要适当设定，本发明实施例对此不作限制。

以下，以一个具体实例为例，对本发明实施例的能量函数的训练进行说明。

如前所述，每张用于训练的样本图像的超像素分割结果记为P，如果p_i和p_j在空间上连在一起，则p_i和p_j属于一个邻域系统X，针对每一个超像素的进行标注后的超像素标注集合为L。

对于L中的每一个标注结果，通过能量函数预测出的最好的超像素的标注结果L^*应对应于使得能量函数最小的那个标注。当独立地考虑每个超像素的时候，它的标注应该根据超像素的表象和根据某一类别的训练数据学习到的表象模型匹配；考虑到物体的连续性，邻域中的超像素的标注应该比较相关，而邻域中不一致的标注应该有相应的惩罚；如果两个邻域的超像素有相同的标注而被当作是同一个物体，它们的表象应该相关；最后，为了得到更紧凑的结果，标注的结果的数目应该尽可能少。

基于此，对能量函数进行训练。其中，对于能量函数的数据代价项，可以通过RCNN进行初始化，获得其初始值。

具体地，若通过RCNN确定的检测框的集合为R＝{r₁，r₂，…，r_T}，并且，RCNN对r_t的分类分数为s_t，可将该分类分数传播到能量函数的数据代价项上，作为该检测框r_t中的所有超像素的初始标注。在一种可选方案中，还可以使用sigmoid函数把s_t映射到(0，1)之间，以便于后续处理，也即如下公式(2)：

其中，α的具体取值可以由本领域技术人员根据实际需求适当设置，一般大于0。优选地，α可以根据经验被设成1.5。l_t为r_t的分类，D(l_t，r_t)为r_t的数据代价。

由于一个超像素可能属于不同的检测框，因此需要把不同的检测框的分数合并成一个值。对于每个超像素，本实施例中，线性加权其对应的最小的T个代价，也即如下公式(3)：

其中，p_i表示第i个超像素，l_i表示第i个超像素的标注，D(l_i，p_i)表示第i个超像素的数据代价项，表示数据代价项的权重参数，T表示超像素p_i所属的前T个代价项最小的检测框，t∈[1,T],t表示第t小的检测框(比如，t＝1，表示前T个中代价项最小的那个检测框；t＝T时，表示前T个中代价项最大的那个检测框)，R(p_i)_t表示第t个p_i所属的检测框，l_t表示第t个p_i所属的检测框的分类，D(l_t,R(p_i)_t)表示第t个p_i所属的检测框的最小数据代价。

对于能量函数的平滑代价项，基于邻域的超像素经常是正相关的，从而倾向于有相同的标注；此外，邻域的超像素被标注成同一个物体时，它们应该有比较接近的表象。因此，对于每个超像素，其与邻域中的另一个超像素之间的平滑代价项可以被定义为如下公式(4)：

其中，p_i表示第i个超像素，l_i表示第i个超像素的标注，p_j表示第j个超像素，l_j表示第j个超像素的标注，V_l(l_i，l_j)表示邻域的超像素p_i和p_j是否具有相同的标注，表示平滑代价项的权重参数，V_a(l_i，l_j，p_i，p_j)表示邻域的超像素p_i和p_j的表象。

对于V_l(l_i，l_j)，本实施例中将其设置为一个布尔值，如果l_i＝l_j，且(p_i，p_j)∈X，则该布尔值为0，否则为1。

对于V_a(l_i，l_j，p_i，p_j)，本实施例中使用两个互补的颜色指标和纹理指示来表示，其可被定义为如下公式(5)：

其中，和分别表示超像素p_i的颜色和纹理直方图中的第q个划分对应的值，和分别表示超像素p_j的颜色和纹理直方图中的第q个划分对应的值，q∈[1，Q]，Q表示超像素的颜色或纹理直方图的划分数量，表示超像素的颜色的权重参数，表示超像素的纹理直方图的权重参数。

由于一个物体的部件由于较大的表象差异，容易被标注成不同的物体，因此，最终的标注结果可能会有非常多的标注。为此，需要一个标签代价项来对过多的标注数目进行惩罚，从而得到紧凑的检测结果。本实施例中，将标签代价项定义为如下公式(6)：

其中，C(L)表示标签代价项，K表示单张样本图像中某一类别的物体的最大个数，i表示超像素序号，L表示超像素标注集合，表示第i个超像素的标注l_i的标签代价项的权重参数。

其中，

该标签代价项仅与标注L有关，而不依赖于特定的图像。

由上述公式(3)-(6)可见，如果想要确定能量函数，需要确定能量函数各个代价项的权重参数，也即，需要对能量函数的上述权重参数进行训练。上述权重参数包括w_d、w_s和w_l，其中，对于每张样本图像的每个类别的超像素，能量函数可以表示为w_d、w_s和w_l的线性函数，即公式(7)：

E(L)＝w^Tφ(P,L)

其中，w是将w_d、w_s和w_l串联后的向量，φ(P,L)是整个样本图像上的代价项目串联后的向量，其被定义为如下公式(8)：

其中，对于对于δ(i,L)，i＝1，…，K。

对于图像I_m，假设正确的超像素标注为L_m，而通过能量函数得到的超像素标注为则需要找到{w_d，w_s，w_l}，使得在给定I_m的情况下，和L_m尽量的接近。基于此，给定M个用于训练的样本图像，目标函数可以被定义为如下公式(9)：

其中，w表示包括数据代价项的权重参数、平滑代价项的权重参数和标签代价项的权重参数的权重参数向量，w^T表示w的转置，ε_m表示第m个超像素的真实标注和预测标注的不一致程度的松弛变量，M表示超像素的个数，C表示第m个超像素的标签代价项的数值，arg表示取其后面公式中的参数。

其中，对上述公式(9)的约束如下述公式(10)：

其中，w^Tw是正则项。对于公式(10)中的约束，考虑第m个样本图像，其超像素划分是P_m，而其真实的标注是L_m。较理想的结果是让真实的标注L_m比其它任意的标注L′_m都有更小的代价。但是，不是所有的错误的标注的代价是一样的，而损失函数l(L_m,L′_m)就用来描述L′_m的不正确程度。在公式(10)中，惩罚一个根据L_m和L′_m的不一致程度定义的松弛变量ε_m。

在具体训练能量函数时，先通过RCNN获得某一类别的超像素标注的初始值；然后，使用公式(9)的目标函数获得能量函数各个代价项的初始权重；根据确定的初始权重，确定能量函数，然后使用该确定的能量函数进行样本图像的超像素标注训练；通过损失函数l(L_m,L′_m)计算训练结果与正确标注的损失值；根据该损失值确定训练的能量函数是否满足训练终止条件，例如收敛条件；若满足，则停止能量函数的训练；若不满足，则继续使用公式(9)的目标函数重新获得能量函数各个代价项的权重参数，并使用重新获得的权重参数更新之前的权重参数(如使用重新获得的权重参数替换之前的权重参数)后继续前述超像素标注训练过程，直至根据损失函数确定能量函数的标注结果满足训练终止条件。

至此，实现了能量函数的训练，在训练完成后可以获得具有物体检测能力的能量函数。在此基础上，可以基于该能量函数对图像进行物体检测如下。

步骤S308：获取待检测的图像，并对待检测的图像进行超像素分割。

其中，待检测的图像包括但不限于：静态图像或视频帧图像。

在视频监控场景中，往往有对目标对象，如人、车辆等进行检测和识别的需要。本发明实施例既可应用于静态场景中的静态图像，也可应用于动态场景中的图像，如上述视频监控场景中的视频帧图像。

步骤S310：获取待检测的图像中的多个超像素。

步骤S312：通过训练完成的能量函数提取每个超像素的表象特征和多个超像素之间的空间上下文信息；并根据所述表象特征和所述空间上下文信息，确定物体类别和/或位置。

经过上述训练过的能量函数能够较为准确有效地进行超像素标注，确定图像中的所有物体的位置和其所属类别。当然，在实际使用中，可以根据需要，使用能量函数确定物体的类别和位置中的至少一种。

通过本实施例的物体检测方法，采用具有超像素标注功能的能量函数进行超像素标注，将超像素标注结果作为物体检测结果，能够自然地检测到传统的候选框产生算法漏掉的物体，有效提高物体检测的准确性。

实施例四

参照图4，示出了根据本发明实施例四的一种物体检测装置的结构框图。

本实施例的物体检测装置包括：第一获取模块402，用于获取待检测的图像中的多个超像素；确定模块404，用于提取每个超像素的表象特征和多个超像素之间的空间上下文信息；根据所述表象特征和所述空间上下文信息，确定所述图像包括的至少一个物体的类别和/或位置。

可选地，确定模块404用于通过能量函数提取每个超像素的表象特征和多个超像素之间的空间上下文信息；并根据所述表象特征和所述空间上下文信息，确定物体类别和/或位置。

可选地，本实施例的物体检测装置还包括：第二获取模块406，用于在第一获取模块402获取进行了超像素分割后的待检测的物体图像中的多个超像素之前，获取用于训练的样本图像，其中，样本图像中包含有分割后的超像素的信息；训练模块408，用于使用样本图像训练所述能量函数。

可选地，训练模块408用于使用样本图像、并基于RCNN和设定的目标函数训练能量函数，直至能量函数对样本图像中的超像素的标注满足设定的训练终止条件；其中，能量函数包括以下数据代价项、平滑代价项、和标签代价项中的任一种或任一种以上的组合；数据代价项用于建模超像素的表象，平滑代价项用于建模超像素之间的空间上下文关系，标签代价项用于对超像素的标注数目进行惩罚；RCNN用于获取样本图像中设定类别的检测框并对设定类别的检测框进行分类；分类的结果被作为能量函数对超像素的初始标注；目标函数用于训练能量函数各个代价项的权重参数。

可选地，训练模块408包括：第三获取模块4082，用于通过RCNN对用于训练的样本图像进行检测，获取设定类别的目标对象检测框，和目标对象检测框的分类结果；初始标注模块4084，用于将分类结果作为目标对象检测框对应的超像素的初始标注；初始权重模块4086，用于根据初始标注和目标函数，确定能量函数的各个代价项的权重参数的初始权重；函数确定模块4088，用于根据初始权重确定能量函数；调整模块40810，用于根据确定的能量函数对目标对象检测框对应的超像素进行标注训练的结果，调整能量函数的权重参数，直至能量函数对样本图像中的超像素的标注满足设定的训练终止条件。

可选地，调整模块40810用于使用确定的能量函数对目标对象检测框对应的超像素进行标注；使用损失函数计算所述标注的标注结果损失值；判断标注结果损失值是否满足设定阈值；若不满足，则根据标注和目标函数更新能量函数的权重参数，使用更新后的权重参数重新确定能量函数，并使用重新确定的能量函数对目标对象检测框对应的超像素进行标注训练，直至能量函数对样本图像中的超像素的标注满足设定的训练终止条件。

可选地，数据代价项根据超像素对应的目标对象检测框的最小数据代价确定；平滑代价项根据属于领域的两个超像素的标注一致性和两个超像素的颜色指标和纹理指标确定；标签代价项根据超像素的标注数目确定。

可选地，目标函数根据设定的损失函数、能量函数的各个代价项确定。

可选地，本实施例的物体检测装置还包括：超像素分割模块410，用于在第一获取模块402获取进行了超像素分割后的待检测的物体图像中的多个超像素之前，获取待检测的图像；对待检测的图像进行超像素分割。

可选地，待检测的图像包括静态图像或视频帧图像。

本实施例的物体检测装置用于实现前述多个方法实施例中相应的物体检测方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例五

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图5，其示出了适于用来实现本发明实施例的终端设备或服务器的电子设备500的结构示意图：如图5所示，电子设备500包括一个或多个处理器、通信元件等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)501，和/或一个或多个图像处理器(GPU)513等，处理器可以根据存储在只读存储器(ROM)502中的可执行指令或者从存储部分508加载到随机访问存储器(RAM)503中的可执行指令而执行各种适当的动作和处理。通信元件包括通信组件512和/或通信接口509。其中，通信组件512可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，通信接口509包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，通信接口509经由诸如因特网的网络执行通信处理。

处理器可与只读存储器502和/或随机访问存储器503中通信以执行可执行指令，通过通信总线504与通信组件512相连、并经通信组件512与其他目标设备通信，从而完成本发明实施例提供的任一项物体检测方法对应的操作，例如，获取待检测的图像中的多个超像素；提取每个超像素的表象特征和多个超像素之间的空间上下文信息；根据所述表象特征和所述空间上下文信息，确定所述图像包括的至少一个物体的类别和/或位置。

此外，在RAM 503中，还可存储有装置操作所需的各种程序和数据。CPU501或GPU513、ROM502以及RAM503通过通信总线504彼此相连。在有RAM503的情况下，ROM502为可选模块。RAM503存储可执行指令，或在运行时向ROM502中写入可执行指令，可执行指令使处理器执行上述通信方法对应的操作。输入/输出(I/O)接口505也连接至通信总线504。通信组件512可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在通信总线链接上。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口509。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

需要说明的，如图5所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图5的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信元件可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明的保护范围。

特别地，根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令，例如，获取待检测的图像中的多个超像素；提取每个超像素的表象特征和多个超像素之间的空间上下文信息；根据所述表象特征和所述空间上下文信息，确定所述图像包括的至少一个物体的类别和/或位置。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被处理器执行时，执行本发明实施例的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明实施例的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明实施例的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明实施例的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明实施例的方法的程序的记录介质。

本发明实施例的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式，很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种物体检测方法，包括：

获取待检测的图像中的多个超像素；

提取每个超像素的表象特征和多个超像素之间的空间上下文信息；

根据所述表象特征和所述空间上下文信息，确定所述图像包括的至少一个物体的类别和/或位置。

2.根据权利要求1所述的方法，其中，所述提取每个超像素的表象特征和多个超像素之间的空间上下文信息；根据所述表象特征和所述空间上下文信息，确定物体类别，包括：

通过能量函数提取每个超像素的表象特征和多个超像素之间的空间上下文信息；并根据所述表象特征和所述空间上下文信息，确定物体类别和/或位置。

3.根据权利要求1或2所述的方法，其中，在所述获取进行了超像素分割后的待检测的物体图像中的多个超像素之前，所述方法还包括：

获取用于训练的样本图像，其中，所述样本图像中包含有分割后的超像素的信息；

使用所述样本图像训练所述能量函数。

4.根据权利要求3所述的方法，其中，使用所述样本图像训练所述能量函数，包括：

使用所述样本图像、并基于区域卷积神经网络RCNN和设定的目标函数训练能量函数，直至所述能量函数对所述样本图像中的超像素的标注满足设定的训练终止条件；

其中，

所述能量函数包括以下数据代价项、平滑代价项、和标签代价项中的任一种或任一种以上的组合；

所述数据代价项用于建模超像素的表象，所述平滑代价项用于建模超像素之间的空间上下文关系，所述标签代价项用于对超像素的标注数目进行惩罚；所述RCNN用于获取所述样本图像中设定类别的检测框并对所述设定类别的检测框进行分类；分类的结果被作为所述能量函数对超像素的初始标注；所述目标函数用于训练所述能量函数各个代价项的权重参数。

5.根据权利要求4所述的方法，其中，所述使用RCNN和设定的目标函数训练能量函数，直至所述能量函数对所述样本图像中的超像素的标注满足设定的训练终止条件，包括：

通过所述RCNN对所述用于训练的样本图像进行检测，获取设定类别的目标对象检测框，和所述目标对象检测框的分类结果；

将所述分类结果作为所述目标对象检测框对应的超像素的初始标注；

根据所述初始标注和所述目标函数，确定所述能量函数的各个代价项的权重参数的初始权重；

根据所述初始权重确定所述能量函数；

根据确定的所述能量函数对所述目标对象检测框对应的超像素进行标注训练的结果，调整所述能量函数的权重参数，直至所述能量函数对所述样本图像中的超像素的标注满足设定的训练终止条件。

6.一种物体检测装置，包括：

第一获取模块，用于获取待检测的图像中的多个超像素；

确定模块，用于提取每个超像素的表象特征和多个超像素之间的空间上下文信息；根据所述表象特征和所述空间上下文信息，确定所述图像包括的至少一个物体的类别和/或位置。

7.根据权利要求6所述的装置，其中，所述确定模块，用于通过能量函数提取每个超像素的表象特征和多个超像素之间的空间上下文信息；并根据所述表象特征和所述空间上下文信息，确定物体类别和/或位置。

8.根据权利要求6或7所述的装置，其中，所述装置还包括：

第二获取模块，用于在所述第一获取模块获取进行了超像素分割后的待检测的物体图像中的多个超像素之前，获取用于训练的样本图像，其中，所述样本图像中包含有分割后的超像素的信息；训练模块，用于使用所述样本图像训练所述能量函数。

9.根据权利要求8所述的装置，其中，所述训练模块，用于使用所述样本图像、并基于区域卷积神经网络RCNN和设定的目标函数训练能量函数，直至所述能量函数对所述样本图像中的超像素的标注满足设定的训练终止条件；

其中，

10.一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-5任一项所述的物体检测方法对应的操作。