CN104899883A

CN104899883A - 一种深度图像场景的室内对象立方体检测方法

Info

Publication number: CN104899883A
Application number: CN201510288956.0A
Authority: CN
Inventors: 陈小武; 张晗; 李甲; 赵沁平; 张宇
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2015-05-29
Filing date: 2015-05-29
Publication date: 2015-09-09
Anticipated expiration: 2035-05-29
Also published as: CN104899883B

Abstract

本发明涉及一种深度图像场景的室内对象立方体检测方法，首先通过求解一系列参数约束最小割问题，得到输入场景中对象的候选分割结果集合，并分别拟合立方体；其次，针对每一个对象分割结果及对应的立方体，使用描述对象统计特性与物理特征的二维图像特征以及三维几何特征衡量其与输入场景的拟合程度；最后，构建立方体的图结构，将场景的几何解析问题转化为最大权重子团求解问题，使用极大子团近似求解，得到一系列经过排序的场景内容几何解析结果，采用最大边缘相关度对解析结果重排序，提高相邻解析结果的多样性。本发明可广泛应用于机器人、监控等计算机视觉系统的室内场景对象解析、场景理解和三维重建。

Description

一种深度图像场景的室内对象立方体检测方法

技术领域

本发明涉及计算机视觉和图像场景理解领域，具体地说是一种深度图像场景的室内对象立方体检测方法。

背景技术

室内图像场景内容解析是计算机视觉领域的基本研究问题，其中几何属性解析是该领域研究热点。近期室内图像场景内容几何解析的研究工作从单张图像中恢复对象的立方体，该问题受到室内图像所具有的对象纹理多样性、对象外形多样性、场景光照多样性、室内场景对象多样性、摄像机视角多样性等多个因素的制约。为了解决上述问题，研究人员引入深度信息辅助解析单张室内图像场景中对象几何结构。

2013年，波士顿学院的Jiang等人提出一种基于混合整数线性规划的室内RGB-D图像场景中对象立方体检测方法。该方法首先结合场景彩色信息和深度信息将图像过分割成超像素，使用相邻的超像素对构建候选立方体集合；使用分支定界法高效的求解最优的立方体集合，使之具有较低的局部匹配耗费，较少的对象之间相交、遮挡区域，较大的图像覆盖面积，较少的立方体个数。该方法首次提出了在RGB-D图像中同时匹配多个对象立方体的方法。2013年丰田工业大学芝加哥分校的Lin等人提出一种基于条件随机场模型的室内RGB-D图像场景解析方法。该方法首先将参数约束最小割算法扩展至三维空间，产生场景中的对象分割结果集合，并为每一个对象分割结果拟合一个立方体。为了选取合适的立方体集合并为每个立方体赋予语义标签，该方法构建了一个全局条件随机场模型，综合考虑二维分割信息、三维几何信息、场景与对象之间的语义关系、对象与对象之间的语义关系及位置关系等信息。

一般来说，一个好的室内场景对象立方体检测器应当具备以下特性：(1)对象性，即检测到的立方体应捕获场景中的对象，而不是墙、地面等；(2)普遍适用性，即检测器可适用于室内场景中出现的所有语义类别对象，而不是某几种预定义语义类别对象。尽管目前的研究工作在解决上述某一个问题上取得了不错的结果，但是均无法解决另外一个问题。同时，该类方法只能生成一种场景几何解析结果，在一些情况下可能不是最优结果，不能完整的捕获场景中的所有对象。

发明内容

根据上述需求，为了克服现有技术的不足，本发明给出一种深度图像场景的室内对象立方体检测方法,目的在于：综合解决上述两个问题，具体而言，如何产生高对象性的立方体，如何设计对所有类别对象均具有普遍适用性的特征，如何高效的求解最优解并产生多种解析结果。为完成发明目的，本发明采用的技术方案是：一种深度图像场景的室内对象立方体检测方法，该方法包括以下步骤：

步骤(1)针对输入场景的彩色图像和深度图像，通过设置不同的种子区域和不同的数据项、偏置项权值，求解一系列参数约束最小割问题，得到输入场景中对象的候选分割结果集合；

步骤(2)根据输入的场景深度图像，将输入场景投影至三维空间，为对象的候选分割结果拟合立方体，即对应对象的三维包围盒，得到候选立方体集合；

步骤(3)针对每一个对象分割结果及对应的立方体，使用描述对象统计特性与物理特性的二维图像特征以及三维几何特征衡量其与输入场景的拟合程度；

步骤(4)构建立方体的图结构，将场景内容的几何解析问题转化为最大权重子团求解问题，使用极大子团近似求解，得到一系列经过排序的场景内容几何解析结果；

步骤(5)采用最大边缘相关度对解析结果重排序，提高相邻解析结果的多样性。

本发明结合深度信息，计算未知像素点的数据项权重、偏置项权重，具体而言，本发明结合深度信息，计算未知像素点属于前景、背景的概率，以此计算未知像素点的数据项权重；本发明结合深度信息，计算空间位置相邻像素点间的相似性，以此计算未知像素点的偏置项权重。本发明采用不同类别的策略，设置种子区域。针对一组前景种子区域、背景种子区域及一组特定的数据项权重及偏置项权重，应用参数约束最小割算法可得到一种对应的分割结果。本发明采用了不同组合的前景种子区域、背景种子区域及不同的数据项权重、偏置项权重等，故可得到大量的输入场景对象分割结果，本发明保留前100个做后续处理。

本发明将分割结果对应的像素点根据深度信息投影到三维空间，在拟合立方体x，z方向上下界时只要求包含95％的点，即允许一定比率的杂点，以提高拟合的鲁棒性；在拟合立方体y方向上下界时统计2％和98％的点的平均高度，作为立方体y方向高度的下界和上界，以增强立方体一般与地面平行这一约束；在xz平面允许拟合的立方体与坐标轴间有一定的夹角，在旋转后的两个正交方向上，允许有5％的杂点。按照上述度量准则，通过直接查找的方式可得到一个最优立方体。针对一张输入场景图像，本发明可产生包含100个立方体的候选集合。

本发明在衡量立方体与输入场景的拟合程度时综合考虑对象分割结果与输入图像的外观特征拟合程度，拟合立方体与点云的几何特征拟合程度。具体而言，可分为二维图像特征和三维几何特征。二维图像特征包括对象分割结果的对象性、紧实性、覆盖面积、边缘距离。对象性使用图特征、区域特征、格式塔特征衡量分割结果区域是否属于对象；紧实性衡量对象分割结果与立方体投影结果的相似性；边缘距离用以衡量立方体轮廓线与图像线检测结果之间的差异。三维几何特征主要包括立方体法向量可信度、最小平面距离、朝向与位置、体积。法向量可信度用以衡量通过最小二乘法计算得到的法向量与通过立方体得到的法向量之间的差异；最小平面距离使用对象分割结果区域中的点距立方体表面的最短距离来衡量立方体的拟合程度；朝向与位置基于曼哈顿假设衡量立方体的拟合程度。从候选立方体集合中选择最优子集时，不仅每个立方体都应有较高的匹配可信度，同时选取的立方体两两间应展现出良好的相互关系。具体而言，本发明在选取立方体集合时使用相交体积比、遮挡面积比、支撑距离来衡量选取的立方体两两之间的相互关系。

一般来讲，选取的立方体应展现出以下两个方面的特性，(1)每个立方体都应与输入图像有较高的拟合程度，即对应的对象分割结果与输入图像的外观特征有较好的对应，立方体与三维点云具有较好的匹配程度；(2)选取的立方体两两之间应展现良好的相互关系，具体而言，具有较小的相交体积比、较小的遮挡面积比、较小的支撑距离。

本发明将场景内容的几何解析问题转化为一个在立方体的图结构中寻找最大权重子团的问题，其中构建的立方体图结构中每个顶点和边都有权重。为求解最大权重子团，本发明提出使用一个包含两个步骤的求解算法：(1)从图中的一个节点出发，逐步选取与其相交、遮挡小于一定阀值的立方体，扩充得到对应的极大子团；(2)针对步骤一得到的极大子团根据目标能量方程进行局部优化，针对立方体集合中不在当前子团中的每个立方体，若其与初始立方体相交、遮挡小于一定阀值，则移除当前子团中与该立方体相交、遮挡大于一定阀值的立方体，同时向当前子团添加该立方体，将其扩充为极大子团，若当前子团的能量大于初始子团，则更新子团。该过程迭代直至收敛。上述算法最多可得到K个子团(重复的子团会被移除)，按照当前子团能量降序排列。步骤一是一个连续的贪婪启发式过程，步骤二是一个局部搜索启发过程，即为通过极大子团近似求解最大权重子团。由于本发明采用极大子团近似求解最大权重子团，故而本发明可以得到针对输入场景不同几何解析结果。

由上述步骤到的几何解析结果中，相似的结果对应能量值近似，一般排在接近的位置，几何解析结果的多样性较低。为提高相邻几何解析结果的多样性，本发明基于最大边缘相关度对前面得到的场景几何解析结果重新排序，保证结果的多样性。本发明从初始得分最高的几何解析结果出发，逐步选取边缘相关度最高的解析结果，即原始得分减去与已选取的解析结果的相似度，该方法迭代直至所有解析结果都被选取。本发明在计算几何解析结果t_i与t_j相似度的时候，综合考虑t_i对应二维分割结果与t_j对应二维分割结果的覆盖率和t_i选取的立方体集合与t_j选取的立方体集合的覆盖率。

与现有的技术相比，本发明有益的特点是：

1、本发明提出一种深度图像场景的室内对象立方体检测框架，该方法不用预先训练复杂的分类器，在公共数据集上提升了检测准确率。

2、本发明针对每一个对象分割结果及对应拟合的立方体，使用一系列描述对象统计特性与物理特征的二维图像特征以及三维几何特征衡量其与输入场景的拟合程度。

3、本发明将立方体的选取问题转化为最大权重子团求解问题，可对输入室内深度图像产生一系列的中层次表示结果。

附图说明

图1是本方法总体流程图；

图2是立方体拟合结果图；

图3是立方体紧实性特征示意图；

图4是立方体边缘距离特征示意图；

图5是立方体法向量可信度特征示意图；

图6是基于最大权重子团的的室内深度图像对象立方体检测算法流程示意图；

具体实施方式

下面结合附图对本发明作详细说明。

参阅图1本方法的总体流程图，方法可分为如下几个步骤：对象候选分割结果计算，立方体拟合，基于最大权重子团的立方体选取。以下将展开介绍上述步骤。

对象候选分割结果计算：为了能够在输入室内场景图像中分割出一系列具有较高对象性的结果，本发明将参数约束最小割算法(Contrained Parametric Min-Cut)扩展至深度空间，通过设置不同的种子区域和不同的数据项、偏置项权值，求解一系列的参数约束最小割问题，求得一系列输入场景对象的候选分割结果，高效的利用了外观线索和深度线索。针对输入的场景图像，本发明首先设置种子区域，本发明假设前景种子区域的像素点全部为前景，背景种子区域的像素点全部为背景。针对一组种子区域及对应的一组数据项、偏置项权值，应用参数约束最小割算法得到输入场景中对象分割结果。

使用I(Ρ)→R³表示输入的室内场景图像，P表示了该图中所有像素点集合。与基于图的分割方法相似，本发明定义加权图G＝(P,ε)中边的权重为相邻像素点间的相似性，每个像素点都是P中的一个节点。其中，划分成前景区域的像素点标记为1，划分成背景区域的像素点标记为0。通过将把前景种子区域像素点划分成背景区域的惩罚设置为无穷大，约束前景种子区域的的像素点为前景区域，同理约束背景种子区域的像素点为背景区域。本发明总体目标即针对所有像素点的标签{x₁,x₂,...,x_N},x_i∈{0,1}最小化一个能量方程，其中N为所有像素点的总数。优化能量方程如下所示：

E^{λ} (X) = \underset{u &Element; P}{Σ} D_{λ} (x_{u}) + \underset{(u, v) &Element; ϵ}{Σ} V_{λ} (x_{u}, x_{v}),

其中数据项定义如下：

D_{λ} (x_{u}) = \{\begin{matrix} 0, & if x_{u} = 1, u &NotElement; P_{b} \\ \infty, & if x_{u} = 1, u &Element; P_{b} \\ \infty, & if x_{u} = 0, u &Element; P_{f} \\ f (x_{u}) + λ, & if x_{u} = 0, u &NotElement; P_{f} \end{matrix}

前景偏置是通过将非种子区域像素点划分为背景区域是产生的耗费，其包含两部分，基于像素点特征的f(x_u)和一个统一项λ。这里f(x_u)通过使用的种子区域像素点的颜色及深度分布来计算完成的，本发明使用p_f(x_u)表示未知区域像素点属于前景的可能性，使用p_b(x_u)表示未知区域像素点属于背景的可能性，则有：

f(x_u)＝ln p_f(x_u)-ln p_b(x_u),

其中，针对像素点i，本发明在计算其属于前景的可能性时，不仅考虑彩色图像信息，同时引入了深度图像信息，p_f(x_u)定义如下：

p_{f} (i) = \exp (- γ . \min_{j} (α | | I (i) - I (j) | | + (1 - α) | | D (i) - D (j) | |)),

γ是一个缩放因子，j表示种子区域的代表像素点，本发明采用k-means算法同时在颜色空间和深度空间通过聚类得到种子区域的代表性像素点(本发明选取5个代表性像素点)，I(i)表示像素点i处的颜色值，D(i)表示像素点i处的深度值，通过将颜色差异与深度差异做线性加权，可更加高效的计算未知区域像素与前景种子区域、背景种子区域间的差异。本发明所采用的计算前背景概率方式基于高斯混合模型相比，速度较快，适合大规模的计算。当对象的颜色与背景差异较大时或者对象的深度与背景区域不连续时，本发明会得到较好的结果。

针对像素点j，其属于背景的可能性p_b(x_u)计算方式与上面p_f(x_u)计算方式类似。

本发明设计兼容项V_uv惩罚将空间位置相邻的像素点赋予不同的语义标签的情况：

V_{uv} (x_{u}, x_{v}) = \{\begin{matrix} 0, & if x_{u} = x_{v} \\ g (u, v), & if x_{u} &NotEqual; x_{v} \end{matrix}

空间位置相邻像素点间的相似性基于轮廓线检测器按如下方式计算：

g (u, v) = \exp (- \frac{α | | B_{I} (u) - B_{I} (v) | | + (1 - α) | | B_{D} (u) - B_{D} (v) | |}{σ^{2}}),

σ用来控制兼容项的平滑性。这里B_I(u)是轮廓线检测器在彩色图像上像素点u处的响应值，B_D(u)是轮廓线检测器在深度图像上像素点u处的响应值，这种线性加权的方式可将RGB-D图像中轮廓线的检测准确率提高2％。轮廓线检测器采用Berkeley大学的UCM算法。

针对一组前景种子区域、背景种子区域及一组特定的数据项权值及偏置项，应用参数约束最小割算法可得到一种对应的分割结果。本发明采用了不同组合的前景种子区域、背景种子区域及不同的数据项权值、偏置项权值等，故可得到大量的输入场景对象分割结果，本发明保留前100个做后续处理。

参阅图2立方体拟合结果图，针对基于参数约束最小割算法得到对象分割结果，本发明为其恢复一个立方体。一种直接的方式是将分割结果对应的像素点根据深度信息投影到三维空间，选择x，y，z方向上的最大值和最小值作为立方体的边界。但是这种方式对噪音非常敏感，一个杂乱的点可能会大幅度改变拟合的立方体形状。为了提高鲁棒性，本发明在拟合立方体时只要求包含95％的点，即允许一定比率的杂点。同时，在大量实验数据中发现，立方体一般与地面平行，本发明在拟合过程中加强这一约束，在y方向上统计2％和98％的点的平均高度，作为立方体高度的下界和上界；在xz平面允许拟合的立方体与坐标轴间有一定的夹角，在旋转后的两个正交方向上，分别统计拟合的立方体在对应方向上的5％和95％的点的位置作为上下界。按照上述度量准则，通过直接查找的方式可得到一个最优立方体。

基于上述方式，针对输入场景基于参数约束最小割算法得到的每个对象分割结果，本发明可为其恢复一个立方体，如图所示。针对输入室内场景图像，本发明在基于参数约束最小割的对象分割步骤保留前100个分割结果，本发明为每个对象分割结果拟合一个立方体表示为则针对一张输入场景图像，本发明产生包含100个立方体的候选集合。

本发明在衡量立方体与输入场景的拟合程度时综合考虑对象分割结果与输入图像的外观特征拟合程度，拟合立方体与点云的几何特征拟合程度。具体而言，可分为二维图像特征和三维几何特征。

二维图像特征包括对象分割结果的对象性、紧实性、覆盖面积、边缘距离。

对象性：共采用了三组特征，共计34个特征。这34个特征分别用来衡量对象分割结果的图特征、区域特征、格式塔特征。图划分的特征，即割的不同变种，包括割、割率、归一化割、未平衡割以及一个四维的二值变量表示表示对象分割结果边缘上割值是否大于对应阀值的比率，共计8个特征。区域特征为一些统计特征，主要表示对象一般出现在图像中的什么位置，以什么尺度出现。本文使用的区域特征包括面积，质心，对应区域的包围盒等18个特征。格式塔特征包含前景区域与背景区域的纹理相似性，前景区域内部纹理相似性，前景区域与背景区域的亮度相似性，前景区域内部亮度相似性，前景区域与背景区域间的边缘能量，前景区域内部边缘能量，曲线的连续性和凸性，共计8个特征。

参阅图3立方体的紧实性特征，针对基于参数约束最小割算法得到的对象分割结果s_i，本方法为其拟合一个立方体c_i，将该立方体投影到二维平面可得到该立方体对应的覆盖区域p_i。由于拟合立方体的时候本发明允许有5％的点在拟合立方体的外部，故而s_i和p_i存在一定的差异。对于一个好的对象分割结果，其对应的点应该有规律的分布在三维空间的一个长方体区域内，此时，s_i和p_i的覆盖率应该尽可能的高，即具有较高的紧实性。本发明采用Area(s_i∩p_i)/Area(s_i∪p_i)表示对象分割结果的紧实性，其中Area(·)提取对应结果的面积。如图3所示，从左到右依次为：是基于参数约束最小割算法得到的对象分割结果s_i；恢复的立方体投影到二维平面对应的区域p_i；是上述两个区域的交集s_i∩p_i；上述两个区域的并集s_i∪p_i。

面积：本发明在选择立方体时倾向于选择面积较大的立方体。具体而言，本发明使用应用参数约束最小割算法得到的对象结果s_i与将立方体投影到二维平面得到的区域p_i的交集，即为Area(s_i∩p_i)，除以该场景中检测到的最大相交面积做归一化。

参阅图4立方体的边缘距离特征示意图：本发明将立方体投影到二维平面，得到其对应的轮廓线，同时使用Canny线检测器检测输入图像中为边的像素点，对于立方体轮廓线上的每一个像素点，我们计算其与Canny线检测得到像素点的最短距离，累加并使用轮廓线上的像素点个数归一化得到最终的边缘距离。如图4所示，左图是将立方体投影到二维平面得到对应的轮廓线结果图，右图是应用Canny线检测器检测得到的输入图像边缘结果图。

基于深度的三维几何特征主要包括立方体法向量可信度、最小平面距离、朝向与位置、体积。

参阅图5立方体法向量可信度特征示意图；：给定输入场景彩色图像，根据深度信息可将输入场景投影到三维空间。针对每个像素点，在其周围局部窗口内采样深度差小于阀值的像素点，使用最小二乘法拟合出一个平面，进而可求得该像素点对应的法向量，表示为(N_x,N_y,N_z)，如图中左图所示。根据拟合的立方体在三维空间中的位置，本发明可以得到立方体表面的法向量，进而可以得到立方体投影到二维平面区域对应像素点的法向量，表示为(N′_x,N′_y,N′_z)，如图中右图所示。则本发明定义像素点的法向量可信度为(N_x·N′_x,N_y·N′_y,N_z·N′_z)。基于上述像素点的法向量可信度定义，本发明定义立方体c_i对应的法向量可信度为：

{cred}_{c_{i}} = \frac{1}{| s_{i} \cap p_{i} |} \underset{i &Element; s_{i} \cap p_{i}}{Σ} (N_{ix} \cdot N_{ix}^{'} + N_{iy} \cdot N_{iy}^{'} + N_{iz} \cdot N_{iz}^{'}),

其中，s_i∩p_i表示基于参数约束最小割算法得到的对象结果s_i与将立方体投影到平面得到的区域p_i的交集，|s_i∩p_i|表示s_i∩p_i内像素点的个数。

最小平面距离：对于基于参数约束最小割算法得到的对象结果，我们计算每个像素点到拟合立方体六个表面的最短距离，选取其中最小的最为该像素点到立方体的最短距离，累加之后使用该区域对应像素的总数归一化，用以表示该拟合立方体的最小平面距离。

朝向与位置：根据曼哈顿假设，室内场景中出现的对象应平行于检测到的墙面，该假设在室内场景解析中一般作为重要的先验并入解析模型。通过霍夫变化，可以得到室内房间中的墙的位置。本发明认为与墙面有较大夹角的立方体一般是错误的检测。针对这种情况，本发明引入约束，设置其对应的立方体位置耗费为表示第i个立方体超与检测得到的墙面间较小的夹角。

将输入场景图像的所有像素点投影到三维空间后，可以得到三维点云在x，z三个方向的上界和下界。由于得到对象分割结果时，分割模型可能产生错误的结果，拟合的立方体为了保持长方体的形态，可能超出上述x，z方向的界限。针对这种情况，本发明引入约束，设置其对应的立方体位置耗费为表示第i个立方体超出上述界限的面积。

体积：与二维图像面积类似，本发明在选择立方体的时候倾向于选择所占空间体积较大的立方体。具体而言，针对立方体c_i，使用其对应的体积vol(c_i)除以该场景中检测到的最大立方体体积做归一化。

上述所有的数据项特征都通过减去均值除以标准差做归一化。

从候选立方体集合中选择最优子集时，不仅每个立方体都应有较高的匹配可信度，同时选取的立方体两两间应展现出良好的相互关系。具体而言，兼容项包含以下三项：相交体积比、遮挡面积比、支撑距离。

相交体积比：每个立方体都是坚实的对象，在三维空间中占有一定的体积，故而在真实世界中，室内对象对应的立方体之间不可能当出现相交的情况。但是在本发明解析过程中，由于分割误差及拟合立方体误差，不可避免的会出现相交的情况，故而完全禁止相交是不可行的。本发明引入立方体两两之间相交的约束项，具体而言，定义立方体c_i与立方体c_j定义为vol(c_i∩c_j)/max(vol(c_i),vol(c_j))。

遮挡面积比：本发明定义两个立方体之间的遮挡面积比为Area(H∩Q)/Area(Q)，H表示离摄像机比较近的立方体对应的投影区域，Q表示离摄像机比较远的立方体对应的投影区域，Area(·)计算对应区域的面积。本发明使用立方体投影到二维平面对应区域像素点到摄像机的平均距离作为该立方体距摄像机的距离。

支撑距离：本发明采用支撑距离来衡量对应立方体集合在空间的物理稳定性。如果立方体c_i在y方向位于立方体c_j的上方，且c_i的质心投影至xz平面的点位于c_j在xz平面的投影区域内，本发明定义c_i可被c_j支撑，并定义c_i的下表面与c_j的上表面在y方向的距离为二者的支撑距离。本发明定义立方体c_i与地面的支撑距离为其下表面与地面间的距离，定义立方体c_i与墙面的支撑距离为其六个表面与墙面间的最小距离。本发明认为一个立方体可被墙面、地面或者其他可支撑立方体支撑。故而本发明定义立方体c_i的最小支撑距离为该立方体与检测到的墙面支撑距离、地面支撑距离或可支撑立方体支撑距离的最小值。给定一种场景几何解析结果，本发明按照立方体在y方向的上表面高度进行自顶向下的推理，分析其对应的最小支撑距离，选取其中的最大值作为该种几何解析结果的支撑距离。

室内深度图像对象立方体检测问题可表述为求解其中a_i表示在当前解中是否选取第i个立方体，其中1表示选取该立方体在当前解中，0表示不选取该立方体在当前解中。一般来讲，选取的立方体应展现出以下两个方面的特性，(1)每个立方体都应与输入图像有较高的拟合程度，即对应的对象分割结果与输入图像的外观特征有较好的对应，立方体与三维点云具有较好的匹配程度；(2)选取的立方体两两之间应展现良好的相互关系，具体而言，具有较小的相交体积比、较小的遮挡面积比、较小的支撑距离。具体而言，室内深度图像对象立方体检测问题的目标为优化如下能量方程：

\max_{A} Σ_{i = 1}^{K} a_{i} Φ (c_{i}, λ_{u}) + Σ_{i = 1}^{K} \underset{j &Element; N_{i}}{Σ} a_{i} a_{j} Ψ (c_{i}, c_{j}, λ_{p}),

st . a_{i} &Element; {0,1}, &ForAll; i &Element; {1,2, . . . K} .

这里的数据项Φ(c_i,λ_u)表示立方体与输入场景的拟合耗费，兼容项Ψ(c_i,c_j,λ_p)表示立方体两两之间的共存耗费，a_i是一个二值变量，表示是否选取第i个立方体，N_i表示与第i个立方体相邻的立方体。数据项Φ(c_i,λ_u)和兼容项Ψ(c_i,c_j,λ_p)都是表示不同特征的列向量，其对应的参数分别为λ_u和λ_p，注意，数据项和兼容项的参数均为线性的，即Φ(c_i,λ_u)＝λ_uΦ(c_i)。记场景几何解析结果对应的能量为F_β(t,L)。

参阅图6基于最大权重子团的的室内深度图像对象立方体检测算法流程示意图，本发明将上述能量方程的优化转化为一个在立方体的图结构中寻找最大权重子团的问题。本发明提出使用一个包含两个步骤的求解算法：(1)从图中的一个节点出发，逐步选取与其相交、遮挡小于一定阀值的立方体，扩充得到对应的极大子团；(2)针对步骤一得到的极大子团根据目标能量方程进行局部优化，针对立方体集合中不在当前子团中的每个立方体，若其与初始立方体相交、遮挡小于一定阀值，则移除当前子团中与该立方体相交、遮挡大于一定阀值的立方体，同时向当前子团添加该立方体，将其扩充为极大子团，若当前子团的能量大于初始子团，则更新子团。该过程迭代直至收敛。由上述算法最多可得到K个子团(重复的子团会被移除)，按照F_β(t,L)降序排列。步骤(1)是一个连续的贪婪启发式过程，步骤(2)是一个局部搜索启发过程，即为通过极大子团近似求解最大权重子团。

图为本发明采用的立方体选取策略，由于本发明采用极大子团近似求解最大权重子团，故而本发明可以得到针对输入场景不同几何解析结果。

由

图得到的几何解析结果中，相似的结果对应能量值近似，一般排在接近的位置，几何解析结果的多样性较低。为解决上述问题，本发明基于最大边缘相关度对

图得到的场景几何解析结果重新排序，保证结果的多样性。本发明从初始得分最高的几何解析结果出发，逐步选取边缘相关度最高的解析结果，即原始得分减去与已选取的解析结果的相似度，该方法迭代直至所有解析结果都被选取。本发明在计算几何解析结果t_i与t_j相似度的时候，综合考虑t_i对应二维分割结果与t_j对应二维分割结果的覆盖率和t_i选取的立方体集合与t_j选取的立方体集合的覆盖率。具体如下：

sim (t_{i}, t_{j}) = \frac{Area (s_{t_{i}} \cap s_{t_{j}})}{Area (s_{t_{i}} \cup s_{t_{j}})} + \frac{{| | c_{t_{i}} \cdot c_{t_{j}} | |}_{0}}{{| | c_{t_{i}} + c_{t_{j}} | |}_{0}},

其中，表示t_i对应的二维图像分割结果，表示t_i选取的立方体集合。

使用T表示算法1产生的全部几何解析结果集合，表示已选取的几何解析结果集合，s(t_i)表示t_i对应的能量值，sim(t_i,t_j)表示t_i与t_j间的相似度，则选取下一个最大边缘相关度的方式如下所示：

MMR = \underset{T_{i} &Subset; T / T_{p}}{\arg \max} [θ \cdot s (T_{i}) - (1 - θ) \cdot \max_{t_{j} &Element; T_{p}} sim (t_{i}, t_{j})] .

其中，参数θ控制结果的多样性，取值为0.75。

以上所述仅为本发明的一些基本说明，依据本发明的技术方案所做的任何等效变换，均应属于本发明的保护范围。

Claims

1.一种深度图像场景的室内对象立方体检测方法，其特征在于该方法包括以下步骤：

2.根据权利要求1所述的一种深度图像场景的室内对象立方体检测方法，其特征在于：其中，步骤(1)的基于参数约束最小割候选分割结果计算方法，引入了像素的深度信息，具体而言，在计算相邻像素的相似性时，采用下述计算方法：

V_{uv} (x_{u}, x_{v}) = \{\begin{matrix} 0, & if & x_{u} = x_{v} \\ g (u, v), & if & x_{u} &NotEqual; x_{v} \end{matrix}

其中，u,v为相邻像素点，x_u,x_v表示像素点属于前景或背景，当相邻像素前背景标签不一致时，其相似度惩罚按照下述公式计算：

g (u, v) = \exp (- \frac{α | | B_{I} (u) - B_{I} (v) | | + (1 - α) | | B_{D} (u) - B_{D} (v) | |}{σ^{2}}),

其中，σ用来控制兼容项的平滑性，B_I(u)是采用轮廓线检测器在彩色图像上像素点u处得到的响应值，B_D(u)是采用轮廓线检测器在深度图像上像素点u处的响应值，使用这两种响应值的线性加权定义相似性惩罚。

3.根据权利要求1所述的一种深度图像场景的室内对象立方体检测方法，其特征在于：在步骤(2)中，将分割结果对应的像素点根据深度信息投影到三维空间，在拟合立方体x，z方向上下界时只要求包含95％的点，即允许一定比率的杂点，以提高拟合的鲁棒性；在拟合立方体y方向上下界时统计2％和98％的点的平均高度，作为立方体y方向高度的下界和上界，以增强立方与地面平行这一约束；在xz平面允许拟合的立方体与坐标轴间有一定的夹角，在旋转后的两个正交方向上，允许有5％的杂点。

4.根据权利要求1所述的一种深度图像场景的室内对象立方体检测方法，其特征在于：在步骤(3)中，在衡量立方体与输入场景的拟合程度时综合考虑对象分割结果与输入图像的外观特征拟合程度，拟合立方体与点云的几何特征拟合程度；具体而言，描述这些拟合程度的特征分为二维图像特征和三维几何特征；

二维图像特征包括对象分割结果的对象性、紧实性、覆盖面积、边缘距离；

其中紧实性用以衡量对象分割结果与立方体投影结果的相似性，针对基于参数约束最小割算法得到的对象分割结果s_i，为其拟合一个立方体c_i，将该立方体投影到二维平面可得到该立方体对应的覆盖区域p_i；由于拟合立方体的时候允许有5％的点在拟合立方体的外部，故而s_i和p_i存在一定的差异；对于一个好的对象分割结果，其对应的点应该有规律的分布在三维空间的一个长方体区域内，此时，s_i和p_i的覆盖率应该尽可能的高，即具有较高的紧实性；采用Area(s_i∩p_i)/Area(s_i∪p_i)表示对象分割结果的紧实性，其中Area(·)提取对应结果的面积；

三维几何特征包括立方体法向量可信度、最小平面距离、朝向与位置、体积；

其中，法向量可信度采用如下方式给定：输入场景彩色图像，根据深度信息将输入场景投影到三维空间；针对每个像素点，在其周围局部窗口内采样深度差小于阀值的像素点，使用最小二乘法拟合出一个平面，进而求得该像素点对应的法向量，表示为(N_x,N_y,N_z)；根据拟合的立方体在三维空间中的位置，得到立方体表面的法向量，进而得到立方体投影到二维平面区域对应像素点的法向量，表示为(N′_x,N′_y,N′_z)；则定义像素点的法向量可信度为(N_x·N′_x,N_y·N′_y,N_z·N′_z)；基于上述像素点的法向量可信度定义，定义立方体c_i对应的法向量可信度为：

{cred}_{c_{i}} = \frac{1}{| s_{i} \cap p_{i} |} \underset{i &Element; s_{i} \cap p_{i}}{Σ} (N_{ix} \cdot N_{ix}^{'} + N_{iy} \cdot N_{iy}^{'} + N_{iz} \cdot N_{iz}^{'}),

其中，s_i∩p_i表示基于参数约束最小割算法得到的对象结果s_i与将立方体投影到平面得到的区域p_i的交集，|s_i∩p_i|表示s_i∩p_i内像素点的个数；

最小平面距离：对于基于参数约束最小割算法得到的对象结果，计算每个像素点到拟合立方体六个表面的最短距离，选取最小的距离作为该像素点到立方体的距离，并将所有像素点到立方体的距离累加后除以像素总数，用以表示该拟合立方体的最小平面距离；

朝向与位置：在室内场景解析方法的一个重要先验是曼哈顿假设，即场景中出现的对象应平行于检测到的墙面,该特征计算所拟合立方体与墙面的夹角与重叠区域，以表示立方体的朝向和位置属性。具体计算方法为：通过霍夫变化，得到室内房间中的墙的位置；计算立方体与墙面夹角，若超过某个阈值，认为是错误的立方体并移除；否则，计算立方体位置耗费为表示第i个立方体与检测得到的墙面间较小的夹角；

将输入场景图像的所有像素点投影到三维空间后，得到三维点云在x,y,z三个方向的上界和下界；由于得到对象分割结果时，分割模型可能产生错误的结果，拟合的立方体为了保持长方体的形态，可能超出整个场景在x,y,z方向的界限；针对这种情况，引入约束，设置其对应的立方体位置耗费为表示第i个立方体超出上述界限的面积；

使用相交体积比、遮挡面积比、支撑距离来衡量选取的立方体两两之间的相互关系；

其中支撑距离用来衡量对应立方体集合在空间的物理稳定性；如果立方体c_i在y方向位于立方体c_j的上方，且c_i的质心投影至xz平面的点位于c_j在xz平面的投影区域内，定义c_i可被c_j支撑，并定义c_i的下表面与c_j的上表面在y方向的距离为二者的支撑距离；定义立方体c_i与地面的支撑距离为其下表面与地面间的距离，定义立方体c_i与墙面的支撑距离为其六个表面与墙面间的最小距离；一个立方体能被墙面、地面或者其他可支撑立方体支撑；故而定义立方体c_i的最小支撑距离为该立方体与检测到的墙面支撑距离、地面支撑距离或可支撑立方体支撑距离的最小值；给定一种场景几何解析结果，按照立方体在y方向的上表面高度进行自顶向下的推理，分析其对应的最小支撑距离，选取其中的最大值作为该种几何解析结果的支撑距离。

5.根据权利要求3所述的一种深度图像场景的室内对象立方体检测方法，其特征在于：在步骤(4)中，将场景内容的几何解析问题转化为一个在立方体的图结构中寻找最大权重子团的问题，其中构建的立方体图结构中每个顶点和边都有权重；为求解最大权重子团，使用如下求解算法：(1)从图中的一个节点出发，逐步选取与其相交、遮挡小于一定阀值的立方体，扩充得到对应的极大子团；(2)针对步骤(1)得到的极大子团根据目标能量方程进行局部优化，针对立方体集合中不在当前子团中的每个立方体，若其与初始立方体相交、遮挡小于一定阀值，则移除当前子团中与该立方体相交、遮挡大于一定阀值的立方体，同时向当前子团添加该立方体，将其扩充为极大子团，若当前子团的能量大于初始子团，则更新子团；该过程迭代直至收敛；上述算法最多可得到K个子团，重复的子团会被移除，按照当前子团能量降序排列；由于采用极大子团近似求解最大权重子团，故而能得到针对输入场景不同几何解析结果。

6.根据权利要求1所述的一种深度图像场景的室内对象立方体检测方法，其特征在于：在步骤(5)中，为提高相邻几何解析结果的多样性，采用最大边缘相关度(MaximalMargin Relevance)对步骤(4)得到的场景几何解析结果重新排序，保证结果的多样性；从初始得分最高的几何解析结果出发，逐步选取边缘相关度最高的解析结果，该方法迭代直至所有解析结果都被选取；在计算几何解析结果t_i与t_j相似度的时候，综合考虑t_i对应二维分割结果与t_j对应二维分割结果的覆盖率和t_i选取的立方体集合与t_j选取的立方体集合的覆盖率；具体如下：

sim (t_{i}, t_{j}) = \frac{Area (s_{i} \cap s_{t_{j}})}{Area (s_{i} \cup s_{t_{j}})} + \frac{{| | c_{t_{i}} \cdot c_{t_{j}} | |}_{0}}{{| | c_{t_{i}} + c_{t_{j}} | |}_{0}},

其中，表示t_i对应的二维图像分割结果，表示t_i选取的立方体集合，Area(·)为区域面积，||·||₀为0-范数；

使用T表示全部几何解析结果集合，表示已选取的几何解析结果集合，s(t_i)表示t_i对应的能量值，sim(t_i,t_j)表示t_i与t_j间的相似度，则每一步选取具有最大边缘相关度的解析结果的方法为：

\underset{T_{i} &Subset; T / T_{p}}{\arg \max} [θ \cdot s (T_{i}) - (1 - θ) \cdot \max_{t_{j} &Element; T_{p}} sim (t_{i}, t_{j})] .

其中，θ为控制结果多样性的参数，设为0.75。