CN105488809B

CN105488809B - 基于rgbd描述符的室内场景语义分割方法

Info

Publication number: CN105488809B
Application number: CN201610023292.XA
Authority: CN
Inventors: 程建; 邹瑞雪; 王峰; 刘海军; 刘瑞
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2016-01-14
Filing date: 2016-01-14
Publication date: 2018-04-17
Anticipated expiration: 2036-01-14
Also published as: CN105488809A

Abstract

本发明公开了一种基于RGB‑D描述符的室内场景语义分割方法。涉及图像处理方法技术领域。该方法包括：利用Kinect获取具有深度信息的室内图像；利用边界全局分割算法bgs分别对RGB图和深度图进行分层分割；将得到的bgs_rgb和bgs_d线性结合得到最终的分层分割结果图；利用得到的分层分割图和RGBD图确定房间的重力方向，获得与重力方向有关的位姿特征；提取RGBD描述符；将得到的位姿特征与RGBD描述符串联得到特征集；选用线性支撑矢量机SVM作为分类器作用于特征集产生语义分割结果。通过所述方法得到的室内物品的语义分割结果准确率较高，可为室内物体识别和室内监控等方面提供一种有效的方法。

Description

基于RGBD描述符的室内场景语义分割方法

技术领域

本发明涉及图像处理方法技术领域，尤其涉及一种基于RGBD描述符的室内场景语义分割方法。

背景技术

图像分割作为一个计算机视觉领域的基础问题在物体识别、场景理解、机器人避障等领域有着广泛的应用。大多数的场景标注研究集中在室外场景，2010年，Gupta等人将场景解析为语义分割、深度顺序、几何估计和支撑关系组成三维图结构。室内场景标注是一个富有挑战性和了解不充分的问题，相对于室外场景推断，室内场景往往因为室内环境的杂乱性和复杂性而变得困难。

随着RGB-D传感器推出，例如Microsoft Kinect，有很多新的研究已经开始展开，它们利用3D信息解决在计算机视觉方面比较困难的问题。Kinect提供同步的颜色和深度信息，提供了普通摄像机在三维投影过程中丢失的3D几何信息，并且包含的深度信息可作为一个独立于室内环境照明条件的通道。由于深度图像像素点的信息具有空间定位性，因此在应用中可以利用空间几何量来做分割处理，这样做会有更好的稳定性，这一思路也是最近深度图像分割研究的一个主要方向。目前大多数的研究都侧重于物体识别而不是场景理解。其中Silberman于2012年发表在ECCV上的文章不仅在区域级上解析了室内场景中的主要平面和物体，还利用得到的平面信息对室内场景中物体的支撑关系进行了推断。但是它在NYU RGBD数据集中仅能获得56.6％的准确性，下一步研究方向是提高语义分割的准确性。

深度图像分割方法有近百种之多，主要可以归结3大类：基于边缘的方法；基于区域的方法；边缘和区域相结合的方法。边缘法能够非常准确地定位区域边界，这种方法计算速度快但是在实际应用中很容易受到噪声和遮挡等因素的影响，难以得到连续的区域边界。区域分割的实质是将近邻的有相似特征的像素点归为一个区域，逐像素点归类后整个数据集被划分为很多个小区域，然后再根据一定的判定条件对得到的小区域进行合并，最后得到一个具有一致性的区域的集合。边缘法和区域法的结合先进行边缘提取，用其结果确定区域的位置和数量，这种方法兼顺了速度和分割的准确性。

发明内容

本发明所要解决的技术问题是提供一种基于RGBD描述符的室内场景语义分割方法，所述方法能够对室内物体进行有效的语义标注。

为解决上述技术问题，本发明所采取的技术方案是：一种基于RGBD描述符的室内场景语义分割方法，其特征在于包括如下步骤：

利用Kinect获得具有深度信息的室内场景图；

利用图像的局部信息形成一个局部边界检测算子，再将其与多尺度信息结合并进行谱聚类形成带有全局信息的边界检测算子，利用边界全局检测算子对图像处理得到轮廓图，在此基础上进行分水岭分割和超度量映射得到最后的分层分割图，利用边界全局分割算法bgs分别对RGB图和深度图进行分层分割得到bgs_rgb和bgs_d；

将得到的bgs_rgb和bgs_d线性结合得到最终的分层分割结果图；

利用得到的分层分割结果图和RGBD图确定室内的重力方向，获得与重力方向有关的位姿特征；

提取RGBD描述符；

用有效匹配算法对得到的RGBD描述符进行处理得到相应的低维空间的向量表达，再将它们与位姿特征串联得到特征集；

采用SVM分类器进行分类得到语义分割结果。

采用上述技术方案所产生的有益效果在于：本发明利用RGBD图像的深度信息，通过重力方向的确定和描述符的提取获得大量有效的图像特征，描述符在捕获表观和形状相似性方面非常有效，得到的室内物品的语义分割结果准确率较高，可为室内物体识别和室内监控等方面提供一种有效的方法。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为基于RGB-D描述符的室内场景语义分割方法的基本流程图；

图2为本发明中边界全局分割方法bgs的流程图；

图3为本发明中获取与重力方向有关的方向特征的示意图；

图4为本发明中获取与重力方向有关的面积特征的示意图；

图5为本发明中局部二值模式描述符中局部二值列向量的确定方法示例图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本发明公开了一种基于RGB-D描述符的室内场景语义分割方法，所述方法能够广泛地应用于图像轮廓检测与分割，室内场景理解等领域。

图1示出了该室内场景语义分割方法的基本流程图。如图1所示，所述方法包括如下步骤：

步骤1.使用Kinect获取RGBD图像，获得图像的深度信息。由Kinect获取的RGBD图像，深度信息和颜色信息是同步的，便于利用和分析。

步骤2.bgs分割算法，现将该算法做一个简单介绍，算法流程图如图2所示，首先利用图像的局部亮度、颜色、纹理信息形成一个局部边界检测算子Lb(x，y，0)，预测在像素(x，y)处带有方向θ的边界后验概率。对于图像中的像素(x，y)，以该位置为圆心画一半径为r的圆，并将它在θ方向沿直径方向分为两半。对于每个半圆盘，计算像素灰度值的直方图，将半圆盘之间的χ²距离作为梯度幅值输出，用g和h表示两个半圆盘：

如果两个半圆盘之间差异较大，意味着图片在圆盘直径方向的不连续性。即如果χ²距离取值较大那么这个像素很有可能位于两个独立区域的边界上。Lb检测算子是4个独立特征通道的梯度信息的结合，前3个特征通道对应于CIELab颜色空间，即亮度，颜色a，颜色b通道，对于灰度图只有亮度通道。第4个特征通道是纹理通道。

在Lb算子的基础上对结合多尺度信息形成mLb算子，为了检测到粗糙构的边界，对每个通道考虑3个尺寸σ是圆盘半径(单位是像素个数)，对于亮度通道，使用σ＝5，对于颜色通道与纹理通道使用σ＝10。线性结合这些局部信息作为一个多尺度方向信号：

其中s表示尺寸，i表示特征，G_{i，σ(i，s)}(x，y，θ)衡量了位于圆心(x，y)处半径为σ(i，s)的被0方向的直径分开的两个半圆盘的直方图差异。参数d_i，s权衡每个方向信号的相对分布，由的梯度方向确定。对每个像素取不同方向间的最大响应作为边界强度值：

如图2所示将mLb算子进行谱聚类能得到带有全局信息的边界检测算子。关键在于谱聚类，构造一个稀疏对称矩阵w：

其中是连接i与j的直线段，ρ是一个常数，设置ρ＝0.1，连接所有在一个固定半径大小r圆内的像素。为了引入全局信息，定义D_ii＝∑_jW_ij并求解方程(D-w)v＝λDv的n+1个最小特征值0＝λ₀≤λ₁≤…≤λ_n对应的特征向量{v₀，v₁，…，v_n}，每个特征向量本身就带有轮廓信息，将每个特征向量v_k当作一幅图，与多个方向的高斯导数滤波器做卷积得到方向信号将不同特征向量得到的信息结合在一起形成sLb算子：

mLb算子和sLb算子代表了不同的信息，前者针对的是所有的边界而后者只提取图像中最凸出的曲线，将两者结合起来得到最后的bgs算子：

其中β_i，s和γ是F-measure的梯度下降方向得到的权重。

由上述得到的bgs算子产生的轮廓图往往不是闭合的，也就不能将图像分割为区域，需要进一步进行处理。在得到的轮廓图的基础上利用带方向的分水岭分割方法产生一组初始化区域，然后从这些初始化区域的边界构建一个超度量图(UCM)，最后得到一个分层分割图。

步骤3.分别在RGB和D图像应用边界全局分割算法，再将两者的分割结果线性结合起来作为最后的RGBD分层分割图。

在RGB图上执行边界全局算法(bgs)得到bgs_rgb，对深度图完成相同的操作得到bgs_d，最后通过式子结合起来：

bgs_rgbd＝(1-α)·bgs_rgb+α·bgs_d

其中a是权重，在实验中取α＝0.25，尽管这种线性结合是简单而粗糙的，将得到的bgs_rgbd分层分割图用于分类得到的语义标注结果与单独使用bgs_rgb完成分类后的结果进行比较，发现线性结合后分类效果得到提升。

步骤4.确定房间的重力方向，并得到与重力方向有关的特征。重力方向揭露出真实场景的很多结构，地板和其它支撑表面总是水平的，墙面往往是垂直的。因此重力方向的确定对房间的空间坐标的确立有很大帮助。通过一个简单的迭代算法对重力方向进行估计，首先初始化重力方向然后通过下面的步骤迭代修正估计的方向：

S21：初始重力方向g_i-1垂直向下，计算两个集合：

N_||＝{n：θ(n，g_i-1)＜d orθ(n，g_i-1)＞180°-d}

N_⊥＝{n：90°-d＜θ(n，g_i-1)＜90°+d}

其中d是阈值，n是由bgs_rgbd得到的分层分割图中的超像素块的表面法向量，作为可能满足条件的候选向量，θ(n，g_i-1)表示向量n与g_i-1之间的夹角，N_||包含地板和桌面等水平面的点的法线，是由那些与g_i-1夹角小于阈值d或者大于180°-d的向量组成的集合，N_⊥包含墙面点的法线，是由那些与g_i-1夹角介于90°-d与90°+d之间的向量组成的集合

S22：寻找一个新的重力方向g_i让其尽可能对齐N_||中的法线而与N_⊥中的法线垂直，也就意味着让g_i与N_||的夹角尽可能的小即sin²(θ(n，gi))的值小。而g_i与N_⊥的夹角尽可能的大，即cos²(θ(n，g_i))的取值小。那么问题转化为求解满足下面式子的最优解：

解决这个优化问题可将问题简化为求解矩阵的最小特征值所对应的特征向量问题。

S23：重复上述两个步骤，迭代5次或前后两次重力方向误差较小时算法结束，在实验中取d＝45°。

重力方向确定后，可以获得与重力方向有关的位姿特征。这些特征是以步骤3中bgs算法过分割产生的分层分割图的超像素为研究对象。位姿特征获取超像素与重力方向有关的方向和面积特征。如图3所示，将超像素的表面法向量与重力方向形成的夹角θ_g作为方向特征。如图4所示，将超像素投影到与重力方向垂直的平面和与重力方向平行的平面，计算得到投影面积，记垂直平面的投影面积是S_v平行平面的投影面积是S_h。

步骤5.提取RGBD描述符，低层特征的设计对于计算机视觉算法是关键的，如SIFT和HOG的方向直方图是在场景识别方面应用较广泛的特征。RGBD描述符是一组特征描述符，提供统一和基本的框架，能够将像素属性(梯度、颜色、局部二值模式等)转变为紧凑的块水平特征，描述符容易设计并日结果显示它们的效果好于SIFT等复杂特征。

对于使用的5个RGBD描述符：深度梯度(GD)，颜色(C)，局部二值模式(L)，梯度(G)，核主成分分析(KPCA)。对于描述符的提取均在常规的网格中完成，以两个像素为步幅，其中深度梯度，颜色，局部二值模式以及梯度描述符使用大小为16×16的块采样，对于核主成分分析描述符使用大小为40×40的块采样。以深度梯度描述符为例，首先将深度图视为灰度图并在每个像素点处计算梯度。深度梯度描述符GD_grad由像素梯度相似性函数k_o构建得到

其中P和Q是图片中的两个不同的块，p∈P是一个位于块P内的像素，θ_p和m_p是像素p在深度图中的方向和幅值。和是像素z处的深度梯度归一化的幅度和方向，其中ε_g是一个小的正数保证分母部分大于0，方向因子计算方向梯度的相似性，位置因子d_s(p，q)＝exp (-γ_s||p-q||²)用来衡量两个像素空间位置的接近度。分析梯度描述符可知它由三部分组成：归一化线性因子，使用每个像素的梯度幅值衡量像素的属性；方向因子d_o计算梯度方向间的相似度；位置高斯因子d_s权衡像素的空间分布。可以看出，D_grad将输入的像素属性转化为块水平特征。

采用与梯度描述符相似的方式构建颜色描述符：

其中c(p)是像素p的颜色值(对于灰度图是亮度值对于彩色图是RGB值)。d_c(c(p)，c(q))＝exp(-γ_o||c(p)-c(q)||²)衡量两个像素颜色上的相似度，d_s(p，q)的含义与梯度描述符表达式中的含义一致用以描述像素空间位置的接近程度。梯度描述符可以捕捉到图像变化，颜色核能够描述图像表观，而局部二值模式能有效地表示局部形状：

其中s_p是像素p的3×3领域内值的标准方差，ε_lbp是一个小的正数保证分母部分的取值大于0，归一化线性核对每个局部二值模式进行了加权；b_p是一个二值列向量，它二值化像素p周围的局部窗口的像素值差异，如图5给出了一个实例，其中155、163、168、171以及187(可以用红色表示)的像素强度大于中央139(可以用黑色表示)的像素强度，124、130、135(可以用蓝色表示)的像素强度小于中央139的像素强度值；d_b(b_p，b_q)＝exp(-γ_b||b_p-b_q||²)是一个高斯核用以衡量局部二值模式之间的相似性；位置因子d_s(p，q)＝exp(-γ_s||p-q||²)用来衡量两个像素空间位置的接近度。观察颜色，梯度和局部二值模式核的构建可以发现它们的形式十分相似，表达式中都有一个位置因子用于描述像素在空间位置上的相似度，一个高斯核用以描述像素间在该属性上的相似度，一个归一化线性因子用于加权。依据这种模式，不难得出关于梯度描述符的表达式：

可以看出梯度描述符和深度梯度描述符在本质上是一致的，不过处理的对象不同，深度梯度处理的是深度图，而梯度图处理的是RGB灰度化后的图。

3D形状特征是一个在物体识别方面比较稳定有效的特征，这个特征同样可以用于图像的语义标注问题。采用核主成分分析特征捕获物体的3D形状，下面就核主成分分析进行详细阐述：

核主成分分析是在主成分分析方法的基础上完成核的构建，在此处就不再详细介绍主成分分析方法，首先得到3D点云P并得到协方差矩阵D_P，计算协方差矩阵的特征值，然后由大到小排列取前L个特征值，通过式子得到核主成分特征

其中v¹是特征向量，L是KPCA的维数，D_P[s，t]＝exp(-γ_k||s-t||²)，P是3D点云，γ_k＞ 0并且s，t∈P。

关于RGBD描述符，其中深度梯度，颜色，局部二值模式以及梯度描述符使用大小为16×16的块采样，对于核主成分分析描述符使用大小为40×40的块采样，然后在每个超像素块上进行平均，即最后这5个特征都是作为超像素的属性。

步骤6.联合步骤2和步骤3所得特征作为总的特征集。将步骤2中得到的与重力方向有关的位姿特征与RGBD描述符串联在一起作为特征。位姿特征与RGBD描述符都是针对超像素的特征。但是由于超像素的大小差异较大，最后提取到的RGBD描述符的个数也各不相同(例如有些超像素不存在颜色的变化那么就会缺少颜色梯度描述符)，为了保证每个超像素最后得到的特征数是一致的，采用类似Bag of words(BOW)的方法让每个特征都用一组向量表示。采用的方法类似BOW但与BOW存在差异，称这种方法为有效匹配算法，该方法可以将局部特征映射到一个低维特征空间并且通过平均得到的特征向量形成一个集合水平特征。

知道实施BOW算法之后每个特征最后得到的结果是一个直方图，可用向量形式表达，向量的长度是由单词表的数日决定的。同样的，通过有效匹配算法每个特征最后也有一个相应的向量表达形式。下面就有效匹配进行说明：

假定一幅图片有一组局部特征X＝{x₁，…，x_p}，有字典V＝{v₁，…，v_M}。在BOW中每个局部特征都可被量化为一个K维的二值向量μ(x)＝[μ₁(x)，…，μ_M(x)]^T，其中|·|表示集合的数量。

其中当使用一个线性分类器时得到的函数表达式为：

其中δ(x，y)用于描述特征x与y之间的相似性，如果它们在同一个区域则为1否则为0，显然这种相似度的衡量方式是粗糙的。为了更好地提高分类准确性，打算用一个连续函数k(x，y)替代离散函数δ(x，y)得到新的表达式：

为了避免混淆，将此处的d(x，y)称为局部因子。d(x，y)可表示为d(x，y)＝φ(x)^Tφ(y)，由式子可知如果特征映射关系φ(·)是有限维的那么得到的d(x，y)局部核也是有限维的。D_s(X，Y)的表达式可进一步表示为：

其中是在一组向量上的特征映射。D_s(X，Y)即为有效匹配，通过上面的分析可知有效匹配的关键在于局部因子d(x，y)即φ(x)的表示形式的确定。下面给出一种φ(x)的构建方式：

假定一个已知的函数d(x，y)＝ψ(x)^Tψ(y)，要将它投影到低维空间，并用一组基向量表示。那么问题转化为给出一组基向量要求用基向量表示特征向量ψ(x)：

其中H＝[ψ(z₁)，…，ψ(z_M)]与都是投影得到的低维系数，上面的优化问题其实是一个凸二次规划问题：

由下向的式子得到局部因子d_l(x，y)：

其中d_z是一个M×1维向量，向量取值由式子{d_z}_i＝d(x，z_i)确定，即将x与z_i带入给定的函数d(x，y)＝ψ(x)^Tψ(y)中计算得到d_z；D_ZZ是一个M×M的矩阵，矩阵元素值由{D_ZZ}_ij＝d(z_i，z_j)确定；使用来表示得到φ(x)：

φ(x)＝Gd_z(x)

特征映射此时得到的类似于BOW中单词表的确定，有效匹配算法能够将每个局部特征表示成一个M维的向量，其中M是由基向量的维数。此处M扮演的角色类似于BOW中经过K-means聚类算法得到的单词表的数量。基向量实际上是由KPCA算法得到的，首先对一幅图像提取SIFT特征，然后随机选取F个SIFT特征，对这F个特征上完成PCA操作，选取由大到小排列的前M个特征值所对应的特征向量作为基向量。在实验中选取F＝10000，M＝50。

对整个有效匹配算法进行简单地归纳：(1)提取图像的SIFT特征；(2)利用KPCA得到一组含M个向量的基向量；(3)将给出的函数d(x，y)投影到低维空间并用一组基向量表示特征向量ψ(x)，最终得到特征映射即得到的特征为一个M维的特征向量。

将有效匹配算法运用到本发明的RGBD描述符中，假定有效匹配算法中基向量M＝200，那么每个RGBD描述符最终表示是一个50维的特征向量。5个RGBD描述符总共的特征向量长度为250，再与位姿特征串联在一起，最后得到的特征向量长度为253。

步骤7.采用SVM分类器对步骤6得到的分割图进行分类，完成语义标注。

采用一对多的方式训练基于位姿特征和RGBD描述符特征的SVM分类器，一对多方式就是训练时依次把某个类别的样本归为一类，其它剩余的样本归为另一类，这样k个类别的样本就构造出了k个SVM。分类时将未知样本分类为具有最大分类函数值的那类。选取RGBD数据库NYUD2中图片(实验采用1000张作为训练集，500张作为测试集)作为实验材料，结果表明基于上述特征得到的训练器的准确率比较高，能够有效地将室内场景物体分为13个类别。

Claims

1.一种基于RGBD描述符的室内场景语义分割方法，其特征在于包括如下步骤：

利用Kinect获得具有深度信息的室内场景图；

利用图像的局部信息形成一个局部边界检测算子，再将其与多尺度信息结合并进行谱聚类形成带有全局信息的边界检测算子，利用带有全局信息的边界检测算子对图像处理得到轮廓图，在此基础上进行分水岭分割和超度量映射得到最后的分层分割图，利用边界全局分割算法bgs分别对RGB图和深度图进行分层分割得到bgs_rgb和bgs_d；

将得到的bgs_rgb和bgs_d线性结合得到最终的分层分割结果图；

提取RGBD描述符；

采用SVM分类器进行分类得到语义分割结果；

其中，所述的边界全局分割算法bgs具体如下：

首先利用室内场景图像的局部亮度、颜色、纹理信息形成一个局部边界检测算子Lb(x,y)，预测在像素(x,y)处带有方向θ的边界后验概率；对于图像中的像素(x,y)，以该位置为圆心画一半径为r的圆，并将它在θ方向沿直径方向分为两半，对于每个半圆盘，计算像素灰度值的直方图，将半圆盘之间的χ²距离作为梯度幅值输出，用g和h表示两个半圆盘：

Lb检测算子是4个独立特征通道的梯度信息的结合，前3个特征通道对应于CIELab颜色空间，即亮度，颜色a，颜色b通道，对于灰度图只有亮度通道，第4个特征通道是纹理通道；

在Lb算子的基础上对结合多尺度信息形成mLb算子，对每个通道考虑3个尺寸ζ是圆盘半径，单位是像素个数，对于亮度通道，使用ζ＝5，对于颜色通道与纹理通道使用ζ＝10，线性结合这些局部信息作为一个多尺度方向信号：

其中s表示尺寸，i表示特征，G_i,ζ(i,s)(x,y,θ)衡量了位于圆心(x,y)处，半径为ζ(i,s)的被θ方向的直径分开的两个半圆盘的直方图差异；参数α_i,s权衡每个方向信号的相对分布，由的梯度方向确定；对每个像素取不同方向间的最大响应作为边界强度值：

将mLb算子进行谱聚类能得到带有全局信息的边界检测算子，关键在于谱聚类，构造一个稀疏对称矩阵w：

其中是连接i与j的直线段，ρ是一个常数，设置ρ＝0.1，连接所有在一个固定半径大小r圆内的像素；为了引入全局信息，定义D_ii＝∑_jW_ij并求解方程(D-w)v＝λDv的n+1个最小特征值0＝λ₀≤λ₁≤…≤λ_n对应的特征向量{v₀，v₁，…，v_n}，每个特征向量本身就带有轮廓信息，将每个特征向量v_k当作一幅图，与多个方向的高斯导数滤波器做卷积得到方向信号将不同特征向量得到的信息结合在一起形成sLb算子：

mLb算子和sLb算子代表了不同的信息，前者针对的是所有的边界，而后者只提取图像中最凸出的曲线，将两者结合起来得到最后的bgs算子：

其中β_i,s和γ是F-measure的梯度下降方向得到的权重，

在得到的轮廓图的基础上利用带方向的分水岭分割方法产生一组初始化区域，然后从这些初始化区域的边界构建一个超度量图UCM，最后得到一个分层分割图；

所述的提取RGBD描述符的方法如下：

使用5个RGBD描述符：深度梯度GD，颜色C，局部二值模式L，梯度G，核主成分分析KPCA；对于描述符的提取均在常规的网格中完成，以两个像素为步幅，其中深度梯度GD，颜色C，局部二值模式L以及梯度G描述符使用大小为16×16的块采样，对于核主成分分析描述符使用大小为40×40的块采样；以深度梯度GD描述符为例，首先将深度图视为灰度图并在每个像素点处计算梯度，深度梯度描述符GD_grad由像素梯度相似性函数k_o构建得到

其中P和Q是图片中的两个不同的块，p∈P是一个位于块P内的像素，θ_p和m_p是像素p在深度图中的方向和幅值；和是像素z处的深度梯度归一化的幅度和方向；其中ε_g是一个小的正数，保证分母部分大于0，，方向因子计算方向梯度的相似性，位置因子d_s(p,q)＝exp(-γ_s||p-q||²)用来衡量两个像素空间位置的接近度；分析梯度描述符可知它由三部分组成：归一化线性核，使用每个像素的梯度幅值衡量像素的属性；方向因子d_o计算梯度方向间的相似度；位置高斯因子d_s权衡像素的空间分布，GD_grad将输入的像素属性转化为块水平特征；

采用与梯度描述符相似的方式构建颜色描述符：

其中c(p)是像素p的颜色值，对于灰度图是亮度值对于彩色图是RGB值；d_c(c(p),c(q))＝exp(-γ_o||c(p)-c(q)||²)衡量两个像素颜色上的相似度，d_s(p,q)的含义与梯度描述符表达式中的含义一致用以描述像素空间位置的接近程度，梯度描述符可以捕捉到图像变化，颜色因子能够描述图像表观，而局部二值模式能有效地表示局部形状：

其中s_p是像素p的3×3邻域内值的标准方差，ε_lbp是一个小的正数保证分母部分的取值大于0，归一化线性核对每个局部二值模式进行了加权；b_p是一个二值列向量，它二值化像素p周围的局部窗口的像素值差异；d_b(b_p,b_q)＝exp(-γ_b||b_p-b_q||²)是一个高斯核用以衡量局部二值模式之间的相似性；位置因子d_s(p,q)＝exp(-γ_s||p-q||²)用来衡量两个像素空间位置的接近度；梯度描述符的表达式：

可以看出梯度描述符和深度梯度描述符在本质上是一致的，不过处理的对象不同，深度梯度处理的是深度图，而梯度图处理的是RGB灰度化后的图；

核主成分分析是在主成分分析方法的基础上完成核的构建，首先得到3D点云P并得到协方差矩阵D_P，计算协方差矩阵的特征值，然后由大到小排列取前L个特征值，通过式子得到核主成分特征

其中v^l是特征向量，L是KPCA的维数，D_P[s，t]＝exp(-γ_k||s-t||²)，P是3D点云，γ_k＞0并且s，t∈P；

关于RGBD描述符，其中深度梯度，颜色，局部二值模式以及梯度描述符使用大小为16×16的块采样，对于核主成分分析描述符使用大小为40×40的块采样，然后在每个超像素块上进行平均，即最后这5个特征都是作为超像素的属性；

所述的用有效匹配算法对得到的RGBD描述符进行处理得到相应的低维空间的向量表达如下：

假定一幅图片有一组局部特征X＝{x1，…，xp}，有字典V＝{v₁，…，v_M}，在BOW中每个局部特征都可被量化为一个M维的二值向量μ(x)＝[μ₁(x)，…，μ_M(x)]^T，其中|·|表示集合的数量；

其中当使用一个线性分类器时得到的函数表达式为：

其中δ(x,y)用于描述特征x与y之间的相似性，如果它们在同一个区域则为1，否则为0，用一个连续函数d(x,y)替代离散函数δ(x,y)得到新的表达式：

将此处的d(x,y)称为局部因子，d(x，y)可表示为由上式可知，如果特征映射关系是有限维的，那么得到的d(x,y)局部因子也是有限维的，D_s(X,Y)的表达式可进一步表示为：

其中是在一组向量上的特征映射，D_s(X,Y)即为有效匹配因子，通过上面的分析可知有效匹配的关键在于局部因子d(x，y)即的表示形式的确定，下面给出一种的构建方式：

假定一个已知的函数d(x,y)＝ψ(x)^Tψ(y)，要将它投影到低维空间，并用一组基向量表示，那么问题转化为给出一组基向量要求用基向量表示特征向量ψ(x)：

由下面的式子得到局部因子d_l(x,y)：

其中d_z是一个M×1维向量，向量取值由式子{d_z}_i＝d(x，z_i)确定，即将x与z_i带入给定的函数d(x,y)＝ψ(x)^Tψ(y)中计算得到d_z；D_ZZ是一个M×M的矩阵，矩阵元素值由{D_ZZ}_ij＝d(z_i,z_j)确定；使用来表示得到

特征映射此时得到的类似于BOW中单词表的确定，有效匹配算法能够将每个局部特征表示成一个M维的向量，其中M是基向量的维数。

2.如权利要求1所述的基于RGBD描述符的室内场景语义分割方法，其特征在于所述的将得到的bgs_rgb和bgs_d线性结合得到最终的分层分割结果图的方法如下：

在RGB图上执行边界全局算法bgs得到bgs_rgb，对深度图完成相同的操作得到bgs_d，最后通过如下公式结合起来：

bgs_rgbd＝(1-α)·bgs_rgb+α·bgs_d

其中，α是权重，取α＝0.25。

3.如权利要求1所述的基于RGBD描述符的室内场景语义分割方法，其特征在于所述的确定室内的重力方向，获得与重力方向有关的位姿特征的方法如下：

首先初始化重力方向然后通过下面的步骤迭代修正估计的方向：

S21：初始重力方向g_i-1垂直向下，计算两个集合：

N_||＝{n:θ(n，g_i-1)＜d orθ(n，g_i-1)＞180°-d}

N_⊥＝{n:90°-d＜θ(n，g_i-1)＜90°+d}

其中d是阈值，n是由bgs_rgbd得到的分层分割图中的超像素块的表面法向量，作为可能满足条件的候选向量，θ(n，gi-1)表示向量n与g_i-1之间的夹角，N_||包含地板和桌面水平面的点的法线，是由与g_i-1夹角小于阈值d或者大于180°-d的向量组成的集合，N_⊥包含墙面点的法线，是由与g_i-1夹角介于90°-d与90°+d之间的向量组成的集合；

S22：寻找一个新的重力方向g_i让其尽可能对齐N_||中的法线而与N_⊥中的法线垂直，也就意味着让g_i与N_||的夹角尽可能的小，即sin²(θ(n,g_i))的值尽可能的小；而g_i与N_⊥的夹角尽可能的大，即cos²(θ(n,g_i))的取值小；那么问题转化为求解满足下面式子的最优解：

简化为求解矩阵的最小特征值所对应的特征向量问题；

S23：重复上述两个步骤，迭代5次或前后两次重力方向误差较小时算法结束，取d＝45°；

重力方向确定后，可以获得与重力方向有关的位姿特征，位姿特征获取超像素与重力方向有关的方向和面积特征；将超像素的表面法向量与重力方向形成的夹角θ_g作为方向特征，将超像素投影到与重力方向垂直的平面和与重力方向平行的平面，计算得到投影面积，记垂直平面的投影面积是S_v平行平面的投影面积是S_h。

4.如权利要求1所述的基于RGBD描述符的室内场景语义分割方法，其特征在于所述的采用SVM分类器进行分类得到语义分割结果的方法如下：

采用一对多的方式训练基于位姿特征和RGBD描述符特征的SVM分类器，一对多方式就是训练时依次把某个类别的样本归为一类，其它剩余的样本归为另一类，这样k个类别的样本就构造出了k个SVM，分类时将未知样本分类为具有最大分类函数值的那类。