CN104599275B

CN104599275B - 基于概率图模型的非参数化的rgb-d场景理解方法

Info

Publication number: CN104599275B
Application number: CN201510039559.XA
Authority: CN
Inventors: 费婷婷; 龚小谨
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2015-01-27
Filing date: 2015-01-27
Publication date: 2018-06-12
Anticipated expiration: 2035-01-27
Also published as: CN104599275A

Abstract

本发明公开了一种基于概率图模型的非参数化的RGB‑D场景理解方法。将待标注图像与训练集中已标注的图像进行全局特征匹配，构建待标注图像相似图像的检索集；将待标注图像及其相似图像检索集中的图像进行过分割，生成超像素，并对生成的超像素进行特征提取；计算训练集中各个类别所占的比例，构建稀有类别的词典，与相似图像的检索集一起作为待标注图像的标签源；将待标注图像中的每个超像素与该图像标签源中的所有超像素进行特征匹配；构建概率图模型，利用马尔科夫随机场将最大化后验概率转化成最小化能量函数的优化问题，利用图割方法求解该问题得到待标注图像每个超像素的语义标注。本发明整合了全局和局部的几何信息，提高了RGB‑D场景理解的性能。

Description

基于概率图模型的非参数化的RGB-D场景理解方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于概率图模型的非参数化的RGB-D场景理解方法。

背景技术

场景理解是用模式识别和人工智能的方法对场景图像进行分析、描述、分类和解释，最终得到场景图像逐像素语义标注的技术，是计算机视觉的一个重要课题，在机器人导航、虚拟现实、安防监控以及网络搜索领域有着广泛的应用。

场景理解的方法主要分为参数化方法和非参数化方法两大类。参数化的方法大多都基于依赖训练的生成模型，而非参数化的方法则无需依赖任何训练，通过图像间的相似性传递语义标签。在参数化的方法中，需要对场景中的每个类别分别训练一个分类器，然后利用贝叶斯网络或者马尔科夫随机场(MRF)等概率图模型构建得到生成模型。这种方法对于场景类别的伸缩性非常差，一旦场景的语义类别发生增减，就需要对所有语义类别重新进行训练，而且训练是一个非常耗费时间和计算资源的过程，导致参数化的场景理解方法在实际应用中受到了极大的限制。然而，大数据时代的到来为场景理解打开了非参数化方法的大门。不同于训练复杂的参数化模型，非参数化方法试图利用图像像素或者超像素间的匹配将已标注的相似图像的语义标签传递给待标注的图像。在数据集中的数据量足够大的前提下，我们总是能够找到与目标待标注图像场景相似的图像，而相似的场景所包含的语义信息往往是相似的，这为图像间语义标签的传递提供了可能。

传统的非参数化场景理解方法主要针对二维图像展开研究，随着激光雷达以及微软Kinect等距离传感器的面世，场景深度信息的获取变得越来越容易，结合三维点云数据或者致密深度等三维信息的场景理解方法受到了学者的广泛关注和研究。然而现有的RGB-D图像的场景理解都基于参数化的方法，如何快速高效高性能并且鲁棒地实现非参数化的RGB-D场景理解是目前面临的难题。

发明内容

本发明的目的在于针对参数化RGB-D场景理解方法的不足，提供一种基于概率图模型的非参数化的RGB-D场景理解方法，该方法避免了参数化方法耗时耗资源的离线训练，利用图像超像素间的相似性进行语义标签的转移，计算高效且能适应各种场景。同时，本发明提出的双向匹配以及基于协同表示分类(CRC)的标签转移机制使得本发明的方法与传统的非参数化场景理解方法相比，有效的减少了超像素之间的误匹配，取得了更好的性能。

本发明的目的是通过以下技术方案来实现的：

一种基于概率图模型的非参数化的RGB-D场景理解方法，包括如下步骤：

(1)输入待标注图像，利用GIST特征、颜色直方图、法向量直方图三种全局特征将待标注图像与训练集中的图像进行特征匹配，构建待标注图像的相似图像检索集；

(2)将步骤1输入的待标注图像及得到的相似图像检索集中的图像进行过分割，生成超像素，并利用梯度核描述符、颜色核描述符以及深度梯度核描述符三种核描述符(Kernel descriptor)提取超像素的特征f_i，其中i表示超像素的索引值；计算训练集中各个语义类别所占的比例，分别对各个稀有类别的超像素进行K-means聚类，取每个聚类的中心构建该稀有类别的词典；将所有稀有类别的词典与步骤1得到的相似图像检索集一起作为待标注图像的标签源；

(3)将步骤2得到的待标注图像中的每个超像素的特征与该图像标签源中的所有超像素的特征进行双向特征匹配，生成匹配集匹配度用基于协同表示分类(CRC)的残差度量；其中P，Q分别表示待标注图像中所有超像素的数量和标签源中所有超像素的数量；

(4)把步骤2得到的超像素的特征作为节点，将具有共同边界的超像素相连，构建概率图模型，将求解最大化后验概率的问题转化成求解最小化能量函数的马尔科夫随机场(MRF)，其描述如下：

其中，L表示待标注图像所有超像素的标签集，ψ_data是马尔科夫随机场(MRF)的数据项，ψ_smooth是马尔科夫随机场(MRF)的平滑项，l_i和l_j分别表示索引值为i和j的超像素的语义标签，λ是平衡系数。

(5)根据步骤3得到的匹配结果构建马尔科夫随机场(MRF)的数据项ψ_data，其描述如下：

其中s_i表示索引值为i的超像素，F_c表示步骤4得到的匹配集m_i中标签为c的超像素的核描述符按列排列构建得到的测量矩阵，为测量矩阵F_c对应的系数矩阵，C(s_i)表示匹配集m_i中语义类别集合，β是一个自定义的比大的常数，用来惩罚的情况；

根据图像超像素邻域间的平滑关系构建马尔科夫随机场(MRF)的平滑项ψ_smooth，其描述如下：

其中表示相邻超像素表面法向量间的平滑性，表示相邻超像素的核描述符之间的平滑性。

所述对待标注图像的相似图像检索集的求解方法具体为：分别计算待标注图像与训练集中所有图像的GIST特征、颜色直方图以及法向量直方图之间的欧氏距离，分别取距离最小的前K₁个图像，将三种全局特征匹配得到的3K₁个图像的交集作为待标注图像相似图像的检索集，K₁是一个自定义的常数。

所述对稀有类别字典的求解方法具体为：计算训练集中各个语义类别所占的比例，将占比不超过3％的语义类别定义为稀有类别，利用K-means聚类分别将属于各个稀有类别的超像素聚成K₂类，提取K₂个聚类中心作为该稀有类别的词典，K₂是一个自定义的常数。

步骤3所述利用双向匹配策略对待标注图像中的每个超像素匹配集的求解方法具体为：对一个待标注的超像素s_i，先根据该超像素与检索集中超像素核描述符特征的欧氏距离，在检索集中选出距离该超像素最近的K₃个超像素，K₃是一个自定义的常数；然后对其中的每个超像素s_j，根据核描述符特征的欧氏距离在待标注图像中找出其最近邻N(s_j)，当s_j不满足以下条件时，将s_j从s_i的匹配集m_i中移除掉，其描述如下：

D(s_i,N(s_j))≤ε₁ and H(s_i,N(s_j))≤ε₂ (5)

式中D表示超像素间二维的空间距离，H表示超像素三维的高度差。

步骤5所述对马尔科夫随机场(MRF)数据项ψ_data的求解方法具体为：用基于协同表示分类(CRC)的匹配残差来构建数据项，其描述如下：

式中γ是一个自定义的权重标量，F是匹配集m_i中所有超像素的核描述符按列排列构建得到的测量矩阵。

所述对马尔科夫随机场(MRF)数据项ψ_smooth的求解方法具体为：利用相邻超像素间表面法向量的角度以及特征的相似度来对邻域进行平滑，其描述如下：

其中

式中n_i表示超像素s_i的表面法向量，σ是一个自定义的常数。

本发明具有的有益效果是：本发明结合了图像全局和局部的几何信息，并利用双向匹配以及基于协同表示分类(CRC)的标签转移机制有效的减少了超像素间的误匹配，取得了良好的标注准确率。同时，本发明避免了传统参数化RGB-D场景理解方法耗时耗力的模型训练，计算高效，能同时适用于室内外场景。

附图说明

图1为构建待标注图像标签源的示意图；

图2为训练集中属于各个语义类别的超像素的占比图；

图3为实施例1采用现有场景理解方法与本发明方法对室内场景图像进行语义标注的结果对比图；分为(a)-(f)部分，其中(a)为待标注图像，(b)为待标注图像对应的致密深度图，(c)为Superparsing(RGB)算法得到的语义标注结果图，(d)为没有结合深度信息情况下，本发明方法得到的语义标注结果图，(e)为结合深度信息后，本发明方法得到的语义标注结果图，(f)为待标注图像人工标注的真值图；

图4为实施例2采用现有场景理解方法与本发明方法对室内场景图像进行语义标注的结果对比图；分为(a)-(f)部分，其中(a)为待标注图像，(b)为待标注图像对应的致密深度图，(c)为Superparsing(RGB)算法得到的语义标注结果图，(d)为没有结合深度信息情况下，本发明方法得到的语义标注结果图，(e)为结合深度信息后，本发明方法得到的语义标注结果图，(f)为待标注图像人工标注的真值图；

图5为实施例3采用现有场景理解方法与本发明方法对室内场景图像进行语义标注的结果对比图；分为(a)-(f)部分，其中(a)为待标注图像，(b)为待标注图像对应的致密深度图，(c)为Superparsing(RGB)算法得到的语义标注结果图，(d)为没有结合深度信息情况下，本发明方法得到的语义标注结果图，(e)为结合深度信息后，本发明方法得到的语义标注结果图，(f)为待标注图像人工标注的真值图；

图6为实施例4采用现有场景理解方法与本发明方法对室内场景图像进行语义标注的结果对比图；分为(a)-(f)部分，其中(a)为待标注图像，(b)为待标注图像对应的致密深度图，(c)为Superparsing(RGB)算法得到的语义标注结果图，(d)为没有结合深度信息情况下，本发明方法得到的语义标注结果图，(e)为结合深度信息后，本发明方法得到的语义标注结果图，(f)为待标注图像人工标注的真值图；

图7为实施例5采用现有场景理解方法与本发明方法对室外场景图像进行语义标注的结果对比图；分为(a)-(f)部分，其中(a)为待标注图像，(b)为待标注图像对应的致密深度图，(c)为Superparsing(RGB)算法得到的语义标注结果图，(d)为没有结合深度信息情况下，本发明方法得到的语义标注结果图，(e)为结合深度信息后，本发明方法得到的语义标注结果图，(f)为待标注图像人工标注的真值图；

图8为实施例6采用现有场景理解方法与本发明方法对室外场景图像进行语义标注的结果对比图；分为(a)-(f)部分，其中(a)为待标注图像，(b)为待标注图像对应的致密深度图，(c)为Superparsing(RGB)算法得到的语义标注结果图，(d)为没有结合深度信息情况下，本发明方法得到的语义标注结果图，(e)为结合深度信息后，本发明方法得到的语义标注结果图，(f)为待标注图像人工标注的真值图；

图9为实施例7采用现有场景理解方法与本发明方法对室外场景图像进行语义标注的结果对比图；分为(a)-(f)部分，其中(a)为待标注图像，(b)为待标注图像对应的致密深度图，(c)为Superparsing(RGB)算法得到的语义标注结果图，(d)为没有结合深度信息情况下，本发明方法得到的语义标注结果图，(e)为结合深度信息后，本发明方法得到的语义标注结果图，(f)为待标注图像人工标注的真值图；

图10为实施例8采用现有场景理解方法与本发明方法对室外场景图像进行语义标注的结果对比图；分为(a)-(f)部分，其中(a)为待标注图像，(b)为待标注图像对应的致密深度图，(c)为Superparsing(RGB)算法得到的语义标注结果图，(d)为没有结合深度信息情况下，本发明方法得到的语义标注结果图，(e)为结合深度信息后，本发明方法得到的语义标注结果图，(f)为待标注图像人工标注的真值图；

图11为本发明方法与传统的非参数化的Superparsing方法以及现有的参数化RGB-D场景理解方法在NYU-V1深度数据集上各个语义类别标注准确率的柱状比较图。

具体实施方式

下面结合附图与实施例对本发明进行进一步说明。

本发明一种基于L1正则化的图像显著性检测方法，包括如下步骤：

(1)输入待标注图像，分别计算待标注图像和训练集图像的GIST特征、颜色直方图、法向量直方图三种全局特征。计算图像GIST全局特征的具体描述如下：首先将图像划分成n_p×n_p的规则网格，网格大小为r'×c'，用m尺度n方向的Gabor滤波器组分别对图像的R、G、B通道进行卷积滤波，滤波后级联的结果即为网格块的GIST特征：

式中，n_c＝m×n，表示Gabor滤波器组的通道数，的维数为n_c×r'×c'，f_r/g/b(x,y)表示图像的R/G/B通道，g_mn(x,y)表示m尺度n方向的Gabor滤波器组，P_i表示索引值为i的网格块，*是卷积符号，cat是级联符号。对G^P各通道的滤波结果取均值后按行组合即可得到图像的全局GIST特征：

式中，的维数为n_c×n_p×n_p。

图像颜色直方图的计算比较简单，只需将颜色空间划分成n_b个颜色区间，n_b是一个自定义的常数，每个小区间成为直方图的一个bin。然后，通过计算颜色落在每个小区间内的像素数量即可得到颜色直方图hist_color。从图像的深度图得到图像每个像素的法向量后，利用和计算颜色直方图相同的处理方法即可得到图像的法向量直方图hist_normal；

(2)对步骤1得到的待标注图像与训练集中所有图像的GIST全局特征、颜色直方图hist_color以及法向量直方图hist_normal，分别计算待标注图像与训练集中所有图像的三种全局特征的欧氏距离，分别取距离最小的前K₁个图像，将三种特征匹配得到的3K₁个图像的交集作为待标注图像相似图像的检索集；计算训练集中各个语义类别所占的比例，如图2所示，将占比不超过3％的语义类别定义为稀有类别，利用K-means聚类分别将属于各个稀有类别的超像素聚成K₂类，提取K₂个聚类中心作为该稀有类别的词典，然后将所有稀有类别的词典与步骤2得到的相似图像检索集一起作为待标注图像的标签源，如图1所示；

(3)对步骤1输入的待标注图像及步骤2得到的相似图像检索集中的图像，用TurboPixel算法进行过分割，生成超像素，并利用梯度核描述符F_grad、颜色核描述符F_col以及深度梯度核描述符F_grad-d三种核描述符对超像素进行特征提取，具体描述如下：

式中，Z表示一个超像素，z表示超像素Z的一个像素的位置，表示归一化的梯度强度，表示归一化的深度梯度强度，ε_g是一个自定义的非常小的常数，是一个衡量两个像素梯度方向相似度的高斯核，和分别表示像素z和z'的梯度方向，k_p(z,z')是衡量两个像素在空间上相近程度的高斯核，是一个衡量两个像素值相似度的高斯核，和分别表示像素z和z'的像素值。和分别表示在像素z梯度方向的支持集和像素z位置的支持集上的均匀采样，d_o和d_s是采样数目，是投影系数。深度梯度核描述符的构建与梯度核描述符一样，只需将深度图当做图像的灰度图处理即可。最后，将三种特征串联即可得到该超像素最终的RGB-D特征f；

(4)将步骤3得到的待标注图像中的每个超像素的特征与该图像标签源中的所有超像素的特征进行双向特征匹配，生成匹配集具体描述如下：对一个待标注的超像素s_i，先根据该超像素与检索集中超像素核描述符的欧氏距离，在检索集中选出距离该超像素最近的K₃个超像素，然后对其中的每个超像素s_j，根据核描述符的欧氏距离在待标注图像中找出其最近邻N(s_j),当s_j不满足以下条件时，将s_j从s_i的匹配集m_i中移除掉，其描述如下：

D(s_i,N(s_j))≤ε₁ and H(s_i,N(s_j))≤ε₂ (6)

(5)把步骤3得到的超像素的特征作为节点，将具有共同边界的超像素相连，构建概率图模型，将求解最大化后验概率的问题转化成求解最小化能量函数的马尔科夫随机场(MRF)，其描述如下：

其中，ψ_data和ψ_smooth分别表示马尔科夫随机场(MRF)的数据项和平滑项，L表示待标注图像所有超像素的标签集，λ是平衡系数。

根据步骤4得到的基于协同表示分类(CRC)的匹配残差，构建马尔科夫随机场(MRF)的数据项ψ_data，具体描述如下：

其中对系数矩阵的求解方法具体为：

即利用已标记的超像素构建的超像素子空间来表示待标注的超像素，通过求解一个L2正则化优化问题来求解系数矩阵式中γ是一个自定义的权重标量，F是步骤4得到的匹配集m_i中所有超像素的核描述符按列排列构建得到的测量矩阵，l_i表示超像素s_i的语义标签，F_c表示匹配集m_i中标签为c的超像素的核描述符按列排列构建得到的测量矩阵，C(s_i)表示匹配集m_i中语义类别集合，β是一个自定义的比大的常数，用来惩罚的情况。

根据图像邻域间的平滑关系构建马尔科夫随机场(MRF)的平滑项ψ_smooth，其描述如下：

式中表示相邻超像素表面法向量间的平滑性，主要对具有相同标签但表面法向量有较大差异的邻域超像素进行惩罚，n_i表示超像素s_i的平面法向量；这个平滑项；表示相邻超像素的核描述符之间的平滑性，驱使特征相似的邻域超像素具有相同的标签，f_i表示超像素s_i的梯度核描述符颜色核描述符以及深度梯度核描述符三种核描述符串联构建而成的特征向量。

实施例1

对待检测图像图3(a)部分分别利用Superparsing(RGB)算法和结合深度信息前后的本发明方法进行处理，由结果对比图可以看出，我们的方法有效地克服了光照昏暗情况下，颜色信息不足对标注结果的影响，达到了良好的场景理解效果。

实施例2

对待检测图像图4(a)部分分别利用Superparsing(RGB)算法和结合深度信息前后的本发明方法进行处理，由结果对比图可以看出，我们的方法有效地减少了不同类别物体颜色相似的情况下的误匹配，在加入深度信息后，我们的方法有效的克服了光照条件不足的情况下，颜色信息不足对标注结果的影响，达到了良好的场景理解效果。

实施例3

对待检测图像图5(a)部分分别利用Superparsing(RGB)算法和结合深度信息前后的本发明方法进行处理，由结果对比图可以看出，加入深度信息后我们的方法有效地减少了不同类别的物体颜色相似情况下的误匹配，达到了良好的场景理解效果。

实施例4

对待检测图像图6(a)部分分别利用Superparsing(RGB)算法和结合深度信息前后的本发明方法进行处理，由结果对比图可以看出，加入深度信息后我们的方法有效地减少了不同类别的物体颜色相似情况下的误匹配，达到了良好的场景理解效果。

实施例5

对待检测图像图7(a)部分分别利用Superparsing(RGB)算法和结合深度信息前后的本发明方法进行处理，由结果对比图可以看出，本发明方法能更有效地减少阴影导致的误标注，大大提高了标注准确率，达到了良好的场景理解效果。

实施例6

对待检测图像图8(a)部分分别利用Superparsing(RGB)算法和结合深度信息前后的本发明方法进行处理，由结果对比图可以看出，本发明方法能更有效地减少阴影导致的误标注，大大提高了标注准确率，达到了良好的场景理解效果。

实施例7

对待检测图像图9(a)部分分别利用Superparsing(RGB)算法和结合深度信息前后的本发明方法进行处理，由结果对比图可以看出，本发明方法能更有效地减少阴影导致的误标注以及颜色相似的不同物体之间的误匹配，大大提高了标注准确率，达到了良好的场景理解效果。

实施例8

对待检测图像图10(a)部分分别利用Superparsing(RGB)算法和结合深度信息前后的本发明方法进行处理，由结果对比图可以看出，本发明方法能更有效地减少阴影导致的误标注，大大提高了标注准确率，达到了良好的场景理解效果。

图11为不同的场景理解方法在NYU-V1深度数据集上各个语义类别的标注准确率柱状比较图，柱状图越高，表明该方法在该类别上的标注准确率越高。从图8可以看出，与现有的非参数化的Superparsing方法相比，我们的方法在所有的语义类别上都取得了更高的标注准确率；与现有也许最先进的参数化RGB-D场景理解方法相比，我们的方法在大多数语义类别上也取得了更好的效果。

Claims

1.一种基于概率图模型的非参数化的RGB-D场景理解方法，其特征在于，包括如下步骤：

(2)将步骤1输入的待标注图像及得到的相似图像检索集中的图像进行过分割，生成超像素，并利用梯度核描述符、颜色核描述符以及深度梯度核描述符三种核描述符(Kerneldescriptor)提取超像素的特征f_i，其中i表示超像素的索引值；计算训练集中各个语义类别所占的比例，分别对各个稀有类别的超像素进行K-means聚类，取每个聚类的中心构建该稀有类别的词典；将所有稀有类别的词典与步骤1得到的相似图像检索集一起作为待标注图像的标签源；对稀有类别的字典的求解方法具体为：计算训练集中各个语义类别所占的比例，将占比不超过3％的语义类别定义为稀有类别，利用K-means聚类分别将属于各个稀有类别的超像素聚成K₂类，提取K₂个聚类中心作为该稀有类别的词典，K₂是一个自定义的常数；

其中，L表示待标注图像所有超像素的标签集，ψ_data是马尔科夫随机场(MRF)的数据项，ψ_smooth是马尔科夫随机场(MRF)的平滑项，l_i和l_j分别表示索引值为i和j的超像素的语义标签，λ是平衡系数；

其中s_i表示索引值为i的超像素，F_c表示步骤3得到的匹配集m_i中标签为c的超像素的核描述符按列排列构建得到的测量矩阵，为测量矩阵F_c对应的系数矩阵，C(s_i)表示匹配集m_i中语义类别集合，β是一个自定义的比大的常数，用来惩罚的情况；

其中

2.根据权利要求1所述的方法，其特征在于，对待标注图像的相似图像检索集的求解方法具体为：分别计算待标注图像与训练集中所有图像的GIST特征、颜色直方图以及法向量直方图之间的欧氏距离，分别取距离最小的前K₁个图像，将三种全局特征匹配得到的3K₁个图像的交集作为待标注图像相似图像的检索集，K₁是一个自定义的常数。

3.根据权利要求1所述的方法，其特征在于，步骤3利用双向特征匹配对待标注图像中的每个超像素匹配集的求解方法具体为：对一个待标注的超像素s_i，先根据该超像素与检索集中超像素核描述符特征的欧氏距离，在检索集中选出距离该超像素最近的K₃个超像素，K₃是一个自定义的常数；然后对其中的每个超像素s_j，根据核描述符特征的欧氏距离在待标注图像中找出其最近邻N(s_j)，当s_j不满足以下条件时，将s_j从s_i的匹配集m_i中移除掉，其描述如下：

D(s_i,N(s_j))≤ε₁ and H(s_i,N(s_j))≤ε₂ (5)

4.根据权利要求1所述的方法，其特征在于，步骤5对马尔科夫随机场(MRF)数据项ψ_data的求解方法具体为：用基于协同表示分类(CRC)的匹配残差来构建数据项，其描述如下：

其中

5.根据权利要求1所述的方法，其特征在于，步骤5对马尔科夫随机场(MRF)数据项ψ_smooth的求解方法具体为：利用相邻超像素间表面法向量的角度以及特征的相似度来对邻域进行平滑，其描述如下：