CN107944428B

CN107944428B - 一种基于超像素集的室内场景语义标注方法

Info

Publication number: CN107944428B
Application number: CN201711345653.3A
Authority: CN
Inventors: 王立春; 段学浩; 孔德慧; 王玉萍; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2021-07-30
Anticipated expiration: 2037-12-15
Also published as: CN107944428A

Abstract

一种基于超像素集的室内场景语义标注方法属于多媒体技术与计算机图形学技术领域，针对基于超像素特征或像素特征进行室内场景语义标注方法的语义特征提取自小尺度空间的局限。本发明先计算超像素特征，然后利用高斯混合模型基于超像素特征建模超像素集特征，并将其映射到希尔伯特空间，最后降维到欧式空间得到超像素集的特征表示。与以往方法不同，本发明针对与物体对象基本等量的空间(超像素集)提取特征，能更准确地表征物体对象以达到提高室内场景语义标注准确率的目标。

Description

一种基于超像素集的室内场景语义标注方法

技术领域

本发明属于多媒体技术与计算机图形学技术领域，具体涉及室内场景语义标注方法。

背景技术

室内场景语义标注作为计算机视觉研究的一项必要工作，一直都是相关领域研究的热点问题。而由于室内场景存在大量语义类别、对象间互相遮挡、低层视觉特征辨识力较弱以及不均匀光照等问题，更使得室内场景语义标注成为图像理解中一个棘手且极富挑战的研究方向。室内场景语义标注是室内场景理解的核心问题，其基本目标是为给定室内场景图像或拍摄于室内场景的视频中的帧中的每一个像素稠密地提供一个预定义的语义类别标签，其在室内智能服务机器人、反恐排爆等多个领域都有很大的应用价值。随着数据获取手段的发展，目前室内场景语义标注使用的源数据大多为RGBD数据，标注过程中的特征表示基本单位为超像素或像素。

基于超像素的室内场景语义标注方法，以超像素为基本单位提取特征表示。Silberman和Fergus等人利用SIFT算子提取超像素特征，以一种反馈式前向神经网络作为判别分类器，通过条件随机场(CRF)概率模型进行上下文优化，在NYU V1数据集上获得了56.6％的语义标注准确率。同样基于NYU V1数据集，Ren等人利用多种类型的核描述子提取超像素特征，以Linear SVM作为分类器，根据超像素分割层次构建树状模型，然后将构建的树状模型与马尔科夫随机场(MRF)概率图模型相结合，在NYU V1数据集上获得了76.1％的语义标注准确率。Anran Wang等人在NYU V1数据集上，以图像Patch数据作为输入，采用了一种分层的联合优化框架进行特征学习与特征编码，并结合Linear SVM分类器，在NYU V1数据集上获得了63.28％的语义标注准确率。Salman和Mohammed等人基于表面、深度和全局几何特征提出了一种新的CRF概率模型，他们的方法在Ceiling、Wall等平面型类别对象上识别效果非常显著，在NYU V1数据集上取得了61.7％的语义标注准确率。

基于像素的室内场景语义标注方法，以像素为基本单位提取特征表示。SaurabhGupta等人在深度图中嵌入了像素点的离地高度、重心角度等信息，然后基于调整后的深度图与彩色图利用CNN进行特征提取完成逐像素标注，在40类的NYU V2数据集上获得了32.5％的语义标注准确率。Ankur Handa等人通过在SUNRGBD数据集上增加虚拟数据，基于RNN在深度图像上提取特征进行逐像素标注，获得了49.01％的语义标注准确率。Heng Fan等人采用多模态RNNs(MM-RNNs)网络结构分别在彩色图(RGB)和深度图(Depth)进行逐像素预测，然后将两者预测结果相结合作为最终的预测结果，在NYU V1数据集上取得了74.6％的语义标注准确率。

以上这些方法都是基于超像素或像素特征进行室内场景语义标注，而超像素和像素所在的空间与待标注物体所占有的空间有较大差异,如图1所示：一个超像素只是沙发所在图像区域的很小一部分，因此超像素或像素特征不能完全刻画物体对象的特征。

发明内容

针对基于超像素特征或像素特征进行室内场景语义标注方法的语义特征提取自小尺度空间的局限，本发明提出了一种基于超像素集的室内场景语义标注方法。与以往方法不同，本发明针对与物体对象基本等量的空间(超像素集)提取特征，从而能更准确地表征物体对象以达到提高室内场景语义标注准确率的目标。

本发明所提出的室内场景语义标注方法中：首先计算超像素特征，然后利用高斯混合模型基于超像素特征建模超像素集特征，并将其映射到希尔伯特空间，最后降维到欧式空间得到超像素集的特征表示。本发明提出的室内场景语义标注方法主要包括以下几个步骤：

1.超像素分割

室内场景图像语义类别丰富且每种语义对象不能精确地独立出来进行判别分类，需要预先对室内场景图像进行超像素分割。超像素的意义在于把一幅原本是像素级(pixel-level)的图像，根据像素间的某种相似性划分成区域级(district-level)的图像。

本发明使用gPb/UCM算法进行图像的超像素分割，通过图像局部、全局特征计算像素属于边界的概率值

本发明将gPb/UCM算法分别应用于彩色图像和深度图像，按照公式(1)计算

式(1)中，

是基于彩色图像计算得到的像素属于边界的概率值，

是基于深度图像计算得到的像素属于边界的概率值。

依据公式(1)得到的概率值

和设定的概率阈值0.08(经验值)，按照八连通原则，将概率值小于0.08的像素连成一个区域，每个区域即为一个超像素。

2.Patch特征计算

Patch定义为16×16大小的网格,网格尺寸可以根据实际数据进行修改，本发明在实验中固定网格尺寸大小为16×16。以k个像素为步长,本发明在实验中固定步长k值为2,从彩色图像(RGB)和深度图像(Depth)左上角向右向下进行滑动，最终在彩色图像(RGB)和深度图像(Depth)上形成密集的网格。以分辨率为N*M的场景图像为例，最终得到的Patch数量为

针对每个Patch计算四类特征：深度梯度特征F_{g_d}、彩色梯度特征F_{g_c}、彩色特征F_col、纹理特征F_tex。

2.1深度梯度特征

深度图像中的Patch记为Z^d，对每个Z^d计算深度梯度特征F_{g_d},其中第t个分量的值由公式(2)定义：

公式(2)中，z^d∈Z^d表示像素z^d在深度Patch中的相对二维坐标位置；

和

分别表示像素z^d的深度梯度方向和梯度大小；

和

分别为深度梯度基向量和位置基向量，两组基向量为预定义值；d_g和d_s分别表示深度梯度基向量个数和位置基向量个数；

是在

上应用核主成分分析(KPCA)得到的第t个主成分的映射系数，

表示克罗内克积。

和

分别为深度梯度高斯核函数和位置高斯核函数，

和

为对应高斯核函数的参数。最后，利用EMK(efficient match kernel)算法对深度梯度特征进行变换，变换后的特征向量仍然记为F_{g_d}。

2.2彩色梯度特征

彩色图像中的Patch记为Z^c，对每个Z^c计算彩色梯度特征F_{g_c},其中第t个分量的值由公式(3)定义：

公式(3)中，z^c∈Z^c表示一个像素z^c在彩色图像Patch中的相对二维坐标位置；

和

分别表示像素z^c的梯度方向和梯度大小；

和

分别为彩色梯度基向量和位置基向量，两组基向量为预定义值；c_g和c_s分别表示彩色梯度基向量个数和位置基向量个数；

是在

上应用核主成分分析(KPCA)得到的第t个主成分的映射系数，

表示克罗内克积。

和

分别为彩色梯度高斯核函数和位置高斯核函数，

和

为对应高斯核函数的参数。最后，利用EMK(Efficient Match Kernel)算法对彩色梯度特征进行变换，变换后的特征向量仍然记为F_{g_c}。

2.3彩色特征

彩色图像中的Patch记为Z^c，对每个Z^c计算彩色特征F_col,其中第t个分量的值由公式(4)定义：

公式(4)中，z^c∈Z^c表示像素z^c在彩色图像Patch中的相对二维坐标位置；r(z^c)为三维向量，是像素z^c的RGB值；

和

分别为彩色基向量和位置基向量，两组基向量为预定义值；c_c和c_s分别表示彩色基向量个数和位置基向量个数；

是在

上应用核主成分分析(KPCA)得到的第t个主成分的映射系数，

表示克罗内克积。

和

分别为彩色高斯核函数和位置高斯核函数，

和

为对应高斯核函数的参数。最后，利用EMK(Efficient Match Kernel)算法对彩色特征进行变换，变换后的特征向量仍然记为F_col。

2.4纹理特征

首先将RGB场景图像变换为灰度图，灰度图像中的Patch记为Z^g，对每个Z^g计算纹理特征F_tex,其中第t个分量的值由公式(5)定义:

公式(5)中，z^g∈Z^g表示像素z^g在灰度图像Patch中的相对二维坐标位置；S(z^g)表示以像素z^g为中心的3×3区域内像素灰度值的标准方差；lbp(z^g)为像素z^g的局部二值模式特征(Local Binary Pattern，LBP)；

和

分别为局部二值模式基向量和位置基向量，两组基向量为预定义值；g_b和g_s分别表示局部二值模式基向量个数和位置基向量个数；

是在

上应用核主成分分析(KPCA)得到的第t个主成分的映射系数，

表示克罗内克积。

和

分别为局部二值模式高斯核函数和位置高斯核函数，

和

为对应高斯核函数的参数。最后，利用EMK(Efficient Match Kernel)算法对纹理特征进行变换，变换后的特征向量仍然记为F_tex。

3超像素特征

超像素特征F_seg定义如(6)式：

分别表示超像素深度梯度特征、彩色梯度特征、彩色特征和纹理特征，定义如(7)式：

(7)式中，F_{g_d}(p),F_{g_c}(p),F_col(p),F_tex(p)表示第p个中心位置落入超像素seg内的Patch的特征，n表示中心位置落入超像素seg内的Patch的数量。

超像素几何特征

按(8)式定义：

(8)式中各分量定义如下：

超像素面积A^seg＝∑_s∈seg1，s为超像素seg内的像素；超像素周长P^seg定义如(9)式：

公式(9)中，N、M分别表示RGB场景图象的横、纵向分辨率；seg、seg′表示不同的超像素；N₄(s)是像素s的四邻域集合；B_seg是超像素seg的边界像素集合。

超像素的面积周长比R^seg定义如(10)式：

是基于像素s的x坐标s_x、y坐标s_y、x坐标与y坐标乘积分别计算的二阶Hu矩，定义如式(11)、(12)、(13)

公式(14)中

分别表示超像素所包含像素的x坐标均值、y坐标均值、x坐标均值平方、y坐标均值平方，定义如式(14):

Width，Height分别表示图像宽度和高度，即

基于归一化的像素坐标值进行计算。

D_var分别表示超像素seg内像素s深度值s_d的平均值，深度值s_d平方的平均值、深度值方差,定义如式(15)：

D_miss表示超像素中丢失深度信息的像素的比例，定义如式(16):

N^seg是对应于超像素的点云的主法向量模长，其中超像素对应点云的主法向量通过主成分分析法(PCA)估计。

4超像素集特征

4.1基于超像素集建立高斯混合模型

超像素集合

对每个超像素依据步骤3计算特征F_seg，利用最大期望算法(EM，Expectation Maximization Algorithm)基于特征向量集合{F_seg|seg∈SP}建立高斯混合模型G(x)，模型形式如(17)式：

其中，m_g表示高斯分量个数，N(x|μ_ii,∑_ii)表示第ii个高斯分量，μ_ii和∑_ii分别表示第ii个高斯分量的均值向量和协方差矩阵，w_ii为第ii个高斯分量在高斯混合模型中的权值。

4.2高斯分量映射到希尔伯特空间

基于训练样本中第r个语义类别对应的超像素集合

依据步骤4.1建立对应于第r个语义类别的高斯混合模型，得到高斯分量集合

记所有C个语义类别对应的高斯混合模型所包含高斯分量的集合为

任一高斯分量g_l到希尔伯特空间的映射记为k_l，k_l的计算如公式(18)：

其中，tr表示矩阵的迹，即矩阵对角线元素的乘积；det表示行列式；D＝|F_seg|是超像素特征的维度；μ和∑分别是高斯分量的均值向量和协方差矩阵，∑^-1是协方差矩阵∑的逆。

4.3希尔伯特空间变换到欧式空间

记希尔伯特空间中向量k_l映射到低维欧式空间中的向量为Z_l，则有

Z_l＝A^Tk_l (19)

式(19)中A为正交矩阵。A＝[α₁,α₂,…,α_C-1]∈R^N×(C-1)，其中

N^r是第r个语义类别的高斯混合模型中高斯分量的个数，C是语义类别的数量，即N是C个语义类别的高斯混合模型包含的高斯分量总的数量；A是求解(20)式得到的前C-1个特征向量α₁，α₂，…α_C-1。

Bα＝λWα (20)

式(20)中，α为特征向量，λ为特征值，B和W的计算如公式(21)

其中，m_r，w_r计算如公式(22)

其中，C是语义类别的数量，N^r是第r个语义类别高斯混合模型中高斯分量的个数，

是第r个语义类别的高斯混合模型中第j_r个高斯分量的权值，

是第r个语义类别的高斯混合模型中第j_r个高斯分量映射到希尔伯特空间的高维向量。

4.4语义类别的特征表示

对第r个语义类别的高斯混合模型的每一个高斯分量

依据式(18)将其映射到希尔伯特空间得到向量

再依据式(19)降维到欧式空间得到向量

则第r个语义类别的一组高斯分量

变换为

记

即为第r个语义类别的特征表示。

5测试样本识别分类

测试样本S_te为一组超像素，依据步骤4.1构建高斯混合模型得到一组高斯分量

再依据式(18)将

映射到希尔伯特空间，最后依据式(19)降维到欧式空间得到向量集合

即为测试样本的特征表示。

设l(r)表示第r个语义类别的语义标签，L′(z_te)、L(z_te)分别表示测试样本的候选语义标签及最终语义标签；对测试样本的每个特征向量

计算其与所有类别特征向量

的夹角，与特征向量

夹角最小的类别特征向量

的语义标签l(r)是测试样本的候选语义标签，如式(23)所示；

其中

依据式(23)计算得到T个候选语义标签L′(z_te)，其中T是测试样本的高斯混合模型包含的高斯分量的数量。依据式(24)定义的投票规则计算测试样本与语义类别的距离，包含最多与测试样本特征向量夹角最小的类别特征向量的语义类别的语义标签即是测试样本的最终语义标签；

式(24)中，C为语义类别的数量。

附图说明

图1超像素分割示意图

图2 NYU V1数据集上本发明与其他方法的类别准确率对比

具体实施方式

本发明采用由Silberman和Fergus等人收集并整理的NYU V1数据集进行实验，本数据集总共有13个语义类别(Bed、Blind、Bookshelf、Cabinet、Ceiling、Floor、Picture、Sofa、Table、TV、Wall、Window、Background)和7个场景。整个数据集包含2284帧彩色图像(RGB)和2284帧深度图像(Depth)，它们之间一一对应，每张图像均为480×640大小的标准图像。按照传统划分方法，本发明选取数据集的60％用于训练，40％用于测试。

基于NYU V1数据集，进行了本发明所提方法与Silberman，Ren，Salman H.Khan,Anran,Heng等5人所提方法的对照实验，实验结果见表1的类平均准确率和图2的对象准确率，可以看出本发明所提出的方法在室内场景语义标注中取得了有竞争力的标注效果，特别是bookshelf、ceiling、window类别的识别效果比其他人所提方法的识别效果都好。

表1 NYU V1数据集上本发明与其他标注方法的类平均准确率比较

Claims

1.一种基于超像素集的室内场景语义标注方法，其特征在于，包括以下几个步骤：

1)超像素分割

使用gPb/UCM算法进行图像的超像素分割，通过图像局部、全局特征计算像素属于边界的概率值

将gPb/UCM算法分别应用于彩色图像和深度图像，按照公式(1)计算

式(1)中，

是基于彩色图像计算得到的像素属于边界的概率值，

是基于深度图像计算得到的像素属于边界的概率值；

依据公式(1)得到的概率值

和设定的概率阈值0.08，按照八连通原则，将概率值小于0.08的像素连成一个区域，每个区域即为一个超像素；

2)Patch特征计算

Patch定义为16×16大小的网格，以k个像素为步长，固定步长k值为2，从彩色图像RGB和深度图像Depth左上角向右向下进行滑动，最终在彩色图像RGB和深度图像Depth上形成密集的网格；以分辨率为N*M的场景图像为例，最终得到的Patch数量为

针对每个Patch计算四类特征：深度梯度特征DepthGradient、彩色梯度特征Gradient、彩色特征RGB、纹理特征Texture；

2.1深度梯度特征

深度图像中的Patch记为Z^d，对每个Z^d计算深度梯度特征F_{g_d}，其中第t个分量的值由公式(2)定义：

和

分别表示像素z^d的深度梯度方向和梯度大小；

和

是在

上应用核主成分分析(KPCA)得到的第t个主成分的映射系数，

表示克罗内克积；

和

分别为深度梯度高斯核函数和位置高斯核函数，

和

为对应高斯核函数的参数；最后，利用EMK算法对深度梯度特征进行变换，变换后的特征向量仍然记为F_{g_d}；

2.2彩色梯度特征

彩色图像中的Patch记为Z^c，对每个Z^c计算彩色梯度特征F_{g_c}，其中第t个分量的值由公式(3)定义：

和

分别表示像素z^c的梯度方向和梯度大小；

和

是在

上应用核主成分分析(KPCA)得到的第t个主成分的映射系数，

表示克罗内克积；

和

分别为彩色梯度高斯核函数和位置高斯核函数，

和

为对应高斯核函数的参数；最后，利用EMK算法对彩色梯度特征进行变换，变换后的特征向量仍然记为F_{g_c}；

2.3彩色特征

彩色图像中的Patch记为Z^c，对每个Z^c计算彩色特征F_col，其中第t个分量的值由公式(4)定义：

和

是在

上应用核主成分分析(KPCA)得到的第t个主成分的映射系数，

表示克罗内克积；

和

分别为彩色高斯核函数和位置高斯核函数，

和

为对应高斯核函数的参数；最后，利用EMK算法对彩色特征进行变换，变换后的特征向量仍然记为F_col；

2.4纹理特征

首先将RGB场景图像变换为灰度图，灰度图像中的Patch记为Z^g，对每个Z^g计算纹理特征F_tex，其中第t个分量的值由公式(5)定义：

t

是在

上应用核主成分分析(KPCA)得到的第t个主成分的映射系数，

表示克罗内克积；

和

分别为局部二值模式高斯核函数和位置高斯核函数，

和

为对应高斯核函数的参数；最后，利用EMK(Efficient Match Kernel)算法对纹理特征进行变换，变换后的特征向量仍然记为F_tex；

3)超像素特征计算

超像素特征F_seg定义如(6)式：

(7)式中，F_{g_d}(p)，F_{g_c}(p)，F_col(p)，F_tex(p)表示第p个中心位置落入超像素seg内的Patch的特征，n表示中心位置落入超像素seg内的Patch的数量；

超像素几何特征

按(8)式定义：

(8)式中各分量定义如下：

公式(9)中，N、M分别表示RGB场景图象的横、纵向分辨率；seg、seg′表示不同的超像素；N₄(s)是像素s的四邻域集合；B_seg是超像素seg的边界像素集合；

超像素的面积周长比R^seg定义如(10)式：

公式(14)中

分别表示超像素所包含像素的x坐标均值、y坐标均值、x坐标均值平方、y坐标均值平方，定义如式(14)：

Width，Height分别表示图像宽度和高度，即

基于归一化的像素坐标值进行计算；

D_var分别表示超像素seg内像素s深度值s_d的平均值，深度值s_d平方的平均值、深度值方差，定义如式(15)：

D_miss表示超像素中丢失深度信息的像素的比例，定义如式(16)：

N^seg是对应于超像素的点云的主法向量模长，其中超像素对应点云的主法向量通过主成分分析法(PCA)估计；

4)超像素集特征计算

4.1基于超像素集建立高斯混合模型(GMM)

超像素集合

对每个超像素依据步骤3计算特征F_seg，利用最大期望算法基于特征向量集合{F_seg|seg∈SP}建立高斯混合模型G(x)，模型形式如(17)式：

其中，m_g表示高斯分量个数，N(x|μ_ii，∑_ii)表示第ii个高斯分量，μ_ii和∑_ii分别表示第ii个高斯分量的均值向量和协方差矩阵，w_ii为第ii个高斯分量在高斯混合模型中的权值；

4.2高斯分量映射到希尔伯特空间

基于训练样本中第r个语义类别对应的超像素集合

其中，tr表示矩阵的迹，即矩阵对角线元素的乘积；det表示行列式；D＝|F_seg|是超像素特征的维度；μ和∑分别是高斯分量的均值向量和协方差矩阵，∑^-1是协方差矩阵∑的逆；

4.3希尔伯特空间变换到欧式空间

Z_l＝A^Tk_l (19)

式(19)中A为正交矩阵；A＝[α₁，α₂，...，α_C-1]∈R^N×(C-1)，其中

N^r是第r个语义类别的高斯混合模型中高斯分量的个数，C是语义类别的数量，即N是C个语义类别的高斯混合模型包含的高斯分量总的数量；A是求解(20)式得到的前C-1个特征向量α₁，α₂，...α_C-1；

Bα＝λWα (20)

式(20)中，α为特征向量，λ为特征值，B和W的计算如公式(21)

其中，m_r，w_r计算如公式(22)

是第r个语义类别的高斯混合模型中第j_r个高斯分量的权值，

是第r个语义类别的高斯混合模型中第j_r个高斯分量映射到希尔伯特空间的高维向量；

4.4语义类别的特征表示

对第r个语义类别的高斯混合模型的每一个高斯分量

依据式(18)将其映射到希尔伯特空间得到向量

再依据式(19)降维到欧式空间得到向量

则第r个语义类别的一组高斯分量

变换为

记

即为第r个语义类别的特征表示；

5)测试样本识别分类

再依据式(18)将

即为测试样本的特征表示；

设l(r)表示第r个语义类别的语义标签，L′(z_te)、L(z_te)分别表示测试样本的候选类别标签及最终类别标签；对测试样本的每个特征向量

计算其与所有类别特征向量

的夹角，与特征向量

夹角最小的类别特征向量

所属语义类别l(r)是测试样本的候选类别标签，如式(23)所示；

其中

{1，2，...，C}，n^r∈[1，N^r] (23)

依据式(24)定义的投票规则计算测试样本与语义类别的距离，包含最多与测试样本特征向量夹角最小的类别特征向量的所属语义类别即是测试样本的最终语义类别；

式(24)中，C为语义类别的数量。