CN106846400A

CN106846400A - 一种结合窗口评分与超像素组合的物体位置预估方法

Info

Publication number: CN106846400A
Application number: CN201510888926.3A
Authority: CN
Inventors: 任桐炜; 贝佳; 刘璟
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2015-12-04
Filing date: 2015-12-04
Publication date: 2017-06-13
Anticipated expiration: 2035-12-04
Also published as: CN106846400B

Abstract

一种结合窗口评分与超像素组合的物体位置预估方法，在RGB‑D图像上先使用窗口评分初始化物体边界框，再在超像素表示的基础上确定物体边界框调整的弹性范围，最后综合利用颜色特征与深度特征，采用超像素组合方法对物体边界框进行调整，最终获得物体位置预估结果。本发明综合了两种主流的物体位置预估方法，综合利用了RGB‑D图像的颜色通道与深度通道，能够面对RGB‑D中物体位置预估的任务，取得比现有方法更好的物体位置预估效果。

Description

一种结合窗口评分与超像素组合的物体位置预估方法

技术领域

本发明属于计算机视觉技术领域，涉及到针对RGB-D图像的物体位置预估方法，具体为一种结合窗口评分与超像素组合的物体位置预估方法。

背景技术

在计算机视觉领域，物体位置预估是一项非常重要的研究内容，利用物体位置预估技术，计算机能够自动识别图像中的物体。这项技术作为基本技术广泛应用于场景分析，目标识别与匹配，视觉跟踪等领域。

RGB-D图像包含了颜色和深度两个通道。颜色通道与普通RGB图像相同，每个像素由R、G、B三个值来表示该像素的颜色信息；深度通道在每个像素上用一个值来表示物体与传感器之间的距离。

现有的物体位置预估的方法可以分为两个类别：窗口评分与超像素组合。窗口评分方法根据不同的能够衡量框内包含一个物体的可能性的特征对候选边界框进行评分。超像素组合将图片分解成不同的区域，然后合并相似的区域产生最后的结果。所述两种方法或它们的合并方法通常只考虑RGB-D图像的颜色通道，且仍有改进的空间，本发明所涉及的方法为窗口评分与超像素组合的合并，并且综合考虑了颜色通道与深度通道。

窗口评分与超像素组合方法各有其缺点，主要表现为无法同时满足效率与准确性。合并这两种方法以规避缺陷是一个新的想法，其相关方法依然处于不成熟的阶段，且目前出现的方法往往只考虑到了RGB-D图像的颜色通道而没有对深度信息进行利用，因此有必要给出针对RGB-D图像的方法。

发明内容

本发明要解决的问题是：针对RGB图像的位置预估方法通常只使用窗口评分方法粗略的获得窗口初始化结果，准确性不足，而超像素组合方法虽然提升了准确度，但往往需要很多的时间消耗，效率较低。虽然综合这两种方法的策略目前已经出现，但往往只考虑了颜色通道，而没有充分利用RGB-D图像的信息，且相关研究仍然处于不成熟的阶段。

本发明的技术方案为：一种结合窗口评分与超像素组合的物体位置预估方法，在RGB-D图像上先使用现有窗口评分方法获得初始的物体边界框，接着采用超像素表示图像，在超像素表示的基础上确定物体边界框调整的弹性范围，再采用超像素组合方法对边界框进行调整，最终获得物体位置预估结果。

本发明包括以下步骤：

1)利用窗口评分方法获取图像中的初始物体边界框；

2)采用超像素表示图像，确定初始物体边界框调整的弹性范围：

2.1)对于RGB-D图像，根据其颜色通道的信息将其表示为一组超像素S＝{s₁，s₂，…，s_n}；

2.2)对于初始物体边界框b_k，定义为完全被b_k所包含的一组超像素，为完全不被b_k所包含的一组超像素，为剩余的与b_k相交的一组超像素，作为物体边界框调整的弹性范围；

3)采用超像素组合方法对初始物体边界框进行调整：

3.1)将中的每个超像素s_i距中的任一超像素的最短中心距离作为其权重ω(s_i)，然后根据ω(s_i)由小到大来选择超像素构成将作为调整时的参照，中的超像素数量满足如下的公式：

λ是一个范围参数，取λ＝1.5；

3.2)对于每一个处于弹性范围的中的超像素s_m，分别计算它与与中超像素的相似度，用于决定它是否应该被包含在边界框内，所述相似度同时使用RGB-D图像的颜色通道与深度通道来进行度量；

3.3)根据3.2)计算得到的相似度，当且仅当中的超像素与的超像素在颜色通道与深度通道的相似度均大于对应的与的超像素的相似度时，把该超像素合并入划分为完全被边界框所包含的超像素，得到调整后的完全被边界框所包含的超像素集

3.4)根据3.3)对超像素的划分结果，调整初始物体边界框b_k，使之变为集合中的所有超像素最小闭包，即得到新的物体边界框得到最终的物体位置预估结果B^*：

其中B是步骤1)得到的初始物体位置预估结果。

本发明与现有技术相比有如下优点：综合使用了窗口评分与超像素组合方法从而规避了其各自的缺陷，得到了相对更加准确和有效的结果，并且本发明充分利用了RGB-D图像的颜色通道和深度通道来对弹性范围进行选择，分别从颜色与深度来考虑，相对于传统方法能够获得更加精确的结果，使结果在准确性较高的情况下还能有较高的召回率。图3展示了代表性的现有技术的位置预估结果和本发明的位置预估结果的比较示例，可见本发明位置预估结果具有更精确的位置预估结果。

附图说明

图1为本发明的实施流程。

图2与本发明与现有代表性方法的物体位置预估结果的比较示例。

图3为本发明与现有代表性方法在NJU1500数据集上的比较结果。

图4为本发明与现有代表性方法的运行效率比较结果。

具体实施方式

本发明针对RGB-D图像提出了一种结合窗口评分与超像素组合的物体位置预估方法，如图1所示，包括以下步骤：

1)利用已有的窗口评分方法获取初始的物体边界框。

本发明采用已有的窗口评分方法来获取初始的物体边界框，窗口评分方法请见参考文献1。对于RGB-D图像，采用滑动窗口来遍历图像，获得候选框；再根据各个候选框内区域所包含的边缘数目对候选框进行评分，对候选框b_k进行评分的公式如下：

其中，w_k与h_k分别表示区域b_k的宽度与高度，是指在b_k中心的选择区域，它的宽度和高度分别是与平衡参数η＝1.5；m_p为每个像素的边缘数目，是区域b_k包含的第i个边缘组e_i的每个像素的边缘数之和；ρ_k是一个参数，当e_i与b_k有重合部分时参数ρ_k为0；

最后，采用非极大值抑制NMS(non-maxima suppression)，即重叠超过一定比例的多个候选框中只保留上述评分最高的一个，来去除过于密集的候选框，并按照评分由高到低选择指定个数的候选框作为初始的物体边界框检测结果；

2)采用超像素表示图像，确定物体边界框调整的弹性范围：

2.1)对于RGB-D图像，根据其颜色通道的信息，采用已有的超像素生成方法(参考文献2)将其表示为一组超像素S＝{s₁，s₂，…，s_n}

2.2)对于一个初始的物体边界框b_k，定义为完全被b_k所包含的一组超像素，为完全不被b_k所包含的一组超像素，为剩余的与b_k相交的一组超像素。将被作为物体边界框调整的弹性范围。

3)采用超像素组合方法对边界框进行调整：

3.1)为了避免与中超像素的数目不平衡，进而影响物体边界框调整的准确性，选择的子集来作为调整时的参照。在选择过程中，将中的每个超像素s_i距中的任一超像素的最短中心距离作为其权重ω(s_i)：

其中dis()表示两个超像素的中心距离；然后根据ω(s_i)由小到大来选择超像素构成使得中的超像素数量满足如下的公式：

λ是一个范围参数，取λ＝1.5；

3.2)对于每一个处于弹性范围的中的超像素s_m，计算它与与中的超像素的相似度来决定它是否应该被包含在边界内，同时使用RGB-D图像的颜色通道与深度通道来进行处理，用于对边界框进行调整的四个参数如下定义：

sim^c()指在HSV空间内两个超像素的平均颜色相似度，sim^d()指两个超像素深度相似度；为s_m与中超像素的颜色相似度，为s_m与中超像素的深度相似度，为s_m与中超像素的颜色相似度，为s_m与中超像素的深度相似度。

3.3)基于3.2)的四个参数，按照下式对进行调整：

对调整后的超像素集取最小闭包，得到新的物体边界框

3.4)通过调整每个初始的物体边界框b_k，得到最终的物体位置预估结果B^*：

其中B是初始化的物体位置预估结果。

本发明实施在NJU1500数据集上，与目前代表性的方法进行了比较。图2所示为本方法得到的结果和其他方法的结果比较示例，其中图2(i)为本发明方法的结果，参与比较的代表性方法如图2(a)-(h)所示，依次为：adaptive integration of depth and color(AIDC—参考文献3)，binarized normed gradients(BING—参考文献4)，edge boxes(EB—参考文献1)，objectness(OBJ—参考文献5)，geodesic object proposal(GOP—参考文献6)，multiscale combinatorial grouping(MCG—参考文献7)以及selective search(SS—参考文献8)，multithresholding straddling expansion of edge boxes(M-EB—参考文献9)，可见本发明方法的识别结果更加精确。图3(a)和(b)分别展示了各种方法在预估物体边界框和人工标识测试基准的交并比(IoU)为0.5与0.8时位置预估结果的数量与召回率的关系，图3(c)展示了位置预估结果与平均召回率的曲线，其中实线表示本发明方法的曲线。图4为本发明方法与现有代表性方法运行效率的比较结果。

由图3可以发现，在IoU为0.5时，本发明方法的效果与现有方法的最优结果类似；在IoU为0.8时，本方法的效果优于现有方法；在平均召回率上，本方法与MCG效果接近，优于其它方法。由此可见，本发明能够适应不同的IoU要求。由图4可以发现，本发明方法消耗时间为MCG的1/10。综合物体位置预测效果和时间开销，本发明方法优于现有的物体位置预估方法。

参考文献：

1.C Lawrence Zitnick and Piotr Doll_ar.Edge boxes:Locating objectproposals from edges.In:European Computer Vision.391-405(2014)

2.Radhakrishna Achanta,Appu Shaji,Kevin Smith,Aurelien Lucchi,PascalFua,and Sabine Susstrunk.Slic superpixels compared to state-of-the-artsuperpixel methods.IEEE Transactions on Pattern Analysis and MachineIntelligence.34(11):2274–2282(2012)

3.Xiangyang Xu,Ling Ge,Tongwei Ren,and Gangshan Wu.Adaptiveintegration of depth and color for objectness estimation.In:IEEEInternational Conference on Multimedia and Expo(2015)

4.Ming-Ming Cheng,Ziming Zhang,Wen-Yan Lin,and Philip Torr.Bing:Binarized normed gradients for objectness estimation at 300fps.In:IEEEConference on Computer Vision and Pattern Recognition.3286-3293(2014)

5.Bogdan Alexe,Thomas Deselaers,and Vittorio Ferrari.Measuring theobjectness of image windows.IEEE Transactions on Pattern Analysis and MachineIntelligence.34(11),2189-2202(2012)

6.Philippand Vladlen Koltun.Geodesic object proposals.In:European Computer Vision.725-739(2014)

7.Pablo Arbelaez,Jordi Pont-Tuset,Jonathan Barron,Ferran Marques,andJagannath Malik.Multiscale combinatorial grouping.In:IEEE Conference onComputer Vision and Pattern Recognition.328-335(2014)

8.Deqing Sun,Stefan Roth,and Michael J Black.Secrets of optical owestimation and their principles.In:IEEE Conference on Computer Vision andPattern Recognition.2432-2439(2010)

9.Xiaozhi Chen,Huimin Ma,Xiang Wang,and Zhichen Zhao.Improving objectproposals with multi-thresholding straddling expansion.In:IEEE Conference onComputer Vision and Pattern Recognition(2015)

Claims

1.一种结合窗口评分与超像素组合的物体位置预估方法，其特征是在RGB-D图像上先使用现有窗口评分方法获得初始的物体边界框，接着采用超像素表示图像，在超像素表示的基础上确定物体边界框调整的弹性范围，再采用超像素组合方法对边界框进行调整，最终获得物体位置预估结果。

2.根据权利要求1所述的一种结合窗口评分与超像素组合的物体位置预估方法，其特征是包括以下步骤：

1)利用窗口评分方法获取图像中的初始物体边界框；

2.1)对于RGB-D图像，根据其颜色通道的信息将其表示为一组超像素S＝{s₁，s₂，...，s_n}；

3)采用超像素组合方法对初始物体边界框进行调整：

\frac{1}{λ} | S_{i n}^{b_{k}} | \leq | {\hat{s}}_{o u t}^{b_{k}} | \leq λ | S_{i n}^{b_{k}} |

λ是一个范围参数，取λ＝1.5；

B^{*} = B \cup {{\tilde{b}}_{k} | &ForAll; b_{k} &Element; B a n d &ForAll; b_{k} &NotEqual; {\tilde{b}}_{k}}

其中B是步骤1)得到的初始物体位置预估结果。

3.根据权利要求2所述的一种结合窗口评分与超像素组合的物体位置预估方法，其特征是步骤3.2)所述相似度的计算为：

sim^c( )指在HSV空间内两个超像素的平均颜色相似度，sim^d( )指两个超像素深度相似度；为s_m与中超像素的颜色相似度，为s_m与中超像素的深度相似度，为s_m与中超像素的颜色相似度，为s_m与中超像素的深度相似度。