CN107944428B - 一种基于超像素集的室内场景语义标注方法 - Google Patents

一种基于超像素集的室内场景语义标注方法 Download PDF

Info

Publication number
CN107944428B
CN107944428B CN201711345653.3A CN201711345653A CN107944428B CN 107944428 B CN107944428 B CN 107944428B CN 201711345653 A CN201711345653 A CN 201711345653A CN 107944428 B CN107944428 B CN 107944428B
Authority
CN
China
Prior art keywords
gaussian
pixel
feature
formula
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711345653.3A
Other languages
English (en)
Other versions
CN107944428A (zh
Inventor
王立春
段学浩
孔德慧
王玉萍
尹宝才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201711345653.3A priority Critical patent/CN107944428B/zh
Publication of CN107944428A publication Critical patent/CN107944428A/zh
Application granted granted Critical
Publication of CN107944428B publication Critical patent/CN107944428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/36Indoor scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Image Analysis (AREA)

Abstract

一种基于超像素集的室内场景语义标注方法属于多媒体技术与计算机图形学技术领域,针对基于超像素特征或像素特征进行室内场景语义标注方法的语义特征提取自小尺度空间的局限。本发明先计算超像素特征,然后利用高斯混合模型基于超像素特征建模超像素集特征,并将其映射到希尔伯特空间,最后降维到欧式空间得到超像素集的特征表示。与以往方法不同,本发明针对与物体对象基本等量的空间(超像素集)提取特征,能更准确地表征物体对象以达到提高室内场景语义标注准确率的目标。

Description

一种基于超像素集的室内场景语义标注方法
技术领域
本发明属于多媒体技术与计算机图形学技术领域,具体涉及室内场景语义标注方法。
背景技术
室内场景语义标注作为计算机视觉研究的一项必要工作,一直都是相关领域研究的热点问题。而由于室内场景存在大量语义类别、对象间互相遮挡、低层视觉特征辨识力较弱以及不均匀光照等问题,更使得室内场景语义标注成为图像理解中一个棘手且极富挑战的研究方向。室内场景语义标注是室内场景理解的核心问题,其基本目标是为给定室内场景图像或拍摄于室内场景的视频中的帧中的每一个像素稠密地提供一个预定义的语义类别标签,其在室内智能服务机器人、反恐排爆等多个领域都有很大的应用价值。随着数据获取手段的发展,目前室内场景语义标注使用的源数据大多为RGBD数据,标注过程中的特征表示基本单位为超像素或像素。
基于超像素的室内场景语义标注方法,以超像素为基本单位提取特征表示。Silberman和Fergus等人利用SIFT算子提取超像素特征,以一种反馈式前向神经网络作为判别分类器,通过条件随机场(CRF)概率模型进行上下文优化,在NYU V1数据集上获得了56.6%的语义标注准确率。同样基于NYU V1数据集,Ren等人利用多种类型的核描述子提取超像素特征,以Linear SVM作为分类器,根据超像素分割层次构建树状模型,然后将构建的树状模型与马尔科夫随机场(MRF)概率图模型相结合,在NYU V1数据集上获得了76.1%的语义标注准确率。Anran Wang等人在NYU V1数据集上,以图像Patch数据作为输入,采用了一种分层的联合优化框架进行特征学习与特征编码,并结合Linear SVM分类器,在NYU V1数据集上获得了63.28%的语义标注准确率。Salman和Mohammed等人基于表面、深度和全局几何特征提出了一种新的CRF概率模型,他们的方法在Ceiling、Wall等平面型类别对象上识别效果非常显著,在NYU V1数据集上取得了61.7%的语义标注准确率。
基于像素的室内场景语义标注方法,以像素为基本单位提取特征表示。SaurabhGupta等人在深度图中嵌入了像素点的离地高度、重心角度等信息,然后基于调整后的深度图与彩色图利用CNN进行特征提取完成逐像素标注,在40类的NYU V2数据集上获得了32.5%的语义标注准确率。Ankur Handa等人通过在SUNRGBD数据集上增加虚拟数据,基于RNN在深度图像上提取特征进行逐像素标注,获得了49.01%的语义标注准确率。Heng Fan等人采用多模态RNNs(MM-RNNs)网络结构分别在彩色图(RGB)和深度图(Depth)进行逐像素预测,然后将两者预测结果相结合作为最终的预测结果,在NYU V1数据集上取得了74.6%的语义标注准确率。
以上这些方法都是基于超像素或像素特征进行室内场景语义标注,而超像素和像素所在的空间与待标注物体所占有的空间有较大差异,如图1所示:一个超像素只是沙发所在图像区域的很小一部分,因此超像素或像素特征不能完全刻画物体对象的特征。
发明内容
针对基于超像素特征或像素特征进行室内场景语义标注方法的语义特征提取自小尺度空间的局限,本发明提出了一种基于超像素集的室内场景语义标注方法。与以往方法不同,本发明针对与物体对象基本等量的空间(超像素集)提取特征,从而能更准确地表征物体对象以达到提高室内场景语义标注准确率的目标。
本发明所提出的室内场景语义标注方法中:首先计算超像素特征,然后利用高斯混合模型基于超像素特征建模超像素集特征,并将其映射到希尔伯特空间,最后降维到欧式空间得到超像素集的特征表示。本发明提出的室内场景语义标注方法主要包括以下几个步骤:
1.超像素分割
室内场景图像语义类别丰富且每种语义对象不能精确地独立出来进行判别分类,需要预先对室内场景图像进行超像素分割。超像素的意义在于把一幅原本是像素级(pixel-level)的图像,根据像素间的某种相似性划分成区域级(district-level)的图像。
本发明使用gPb/UCM算法进行图像的超像素分割,通过图像局部、全局特征计算像素属于边界的概率值
Figure BDA0001509293210000031
本发明将gPb/UCM算法分别应用于彩色图像和深度图像,按照公式(1)计算
Figure BDA0001509293210000032
式(1)中,
Figure BDA0001509293210000033
是基于彩色图像计算得到的像素属于边界的概率值,
Figure BDA0001509293210000034
是基于深度图像计算得到的像素属于边界的概率值。
Figure BDA0001509293210000035
依据公式(1)得到的概率值
Figure BDA0001509293210000036
和设定的概率阈值0.08(经验值),按照八连通原则,将概率值小于0.08的像素连成一个区域,每个区域即为一个超像素。
2.Patch特征计算
Patch定义为16×16大小的网格,网格尺寸可以根据实际数据进行修改,本发明在实验中固定网格尺寸大小为16×16。以k个像素为步长,本发明在实验中固定步长k值为2,从彩色图像(RGB)和深度图像(Depth)左上角向右向下进行滑动,最终在彩色图像(RGB)和深度图像(Depth)上形成密集的网格。以分辨率为N*M的场景图像为例,最终得到的Patch数量为
Figure BDA0001509293210000037
针对每个Patch计算四类特征:深度梯度特征Fg_d、彩色梯度特征Fg_c、彩色特征Fcol、纹理特征Ftex
2.1深度梯度特征
深度图像中的Patch记为Zd,对每个Zd计算深度梯度特征Fg_d,其中第t个分量的值由公式(2)定义:
Figure BDA0001509293210000038
公式(2)中,zd∈Zd表示像素zd在深度Patch中的相对二维坐标位置;
Figure BDA0001509293210000039
Figure BDA00015092932100000310
分别表示像素zd的深度梯度方向和梯度大小;
Figure BDA00015092932100000311
Figure BDA00015092932100000312
分别为深度梯度基向量和位置基向量,两组基向量为预定义值;dg和ds分别表示深度梯度基向量个数和位置基向量个数;
Figure BDA0001509293210000041
是在
Figure BDA0001509293210000042
上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,
Figure BDA0001509293210000043
表示克罗内克积。
Figure BDA0001509293210000044
Figure BDA0001509293210000045
分别为深度梯度高斯核函数和位置高斯核函数,
Figure BDA0001509293210000046
Figure BDA0001509293210000047
为对应高斯核函数的参数。最后,利用EMK(efficient match kernel)算法对深度梯度特征进行变换,变换后的特征向量仍然记为Fg_d
2.2彩色梯度特征
彩色图像中的Patch记为Zc,对每个Zc计算彩色梯度特征Fg_c,其中第t个分量的值由公式(3)定义:
Figure BDA0001509293210000048
公式(3)中,zc∈Zc表示一个像素zc在彩色图像Patch中的相对二维坐标位置;
Figure BDA0001509293210000049
Figure BDA00015092932100000410
分别表示像素zc的梯度方向和梯度大小;
Figure BDA00015092932100000411
Figure BDA00015092932100000412
分别为彩色梯度基向量和位置基向量,两组基向量为预定义值;cg和cs分别表示彩色梯度基向量个数和位置基向量个数;
Figure BDA00015092932100000413
是在
Figure BDA00015092932100000414
上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,
Figure BDA00015092932100000415
表示克罗内克积。
Figure BDA00015092932100000416
Figure BDA00015092932100000417
分别为彩色梯度高斯核函数和位置高斯核函数,
Figure BDA00015092932100000418
Figure BDA00015092932100000419
为对应高斯核函数的参数。最后,利用EMK(Efficient Match Kernel)算法对彩色梯度特征进行变换,变换后的特征向量仍然记为Fg_c
2.3彩色特征
彩色图像中的Patch记为Zc,对每个Zc计算彩色特征Fcol,其中第t个分量的值由公式(4)定义:
Figure BDA00015092932100000420
公式(4)中,zc∈Zc表示像素zc在彩色图像Patch中的相对二维坐标位置;r(zc)为三维向量,是像素zc的RGB值;
Figure BDA0001509293210000051
Figure BDA0001509293210000052
分别为彩色基向量和位置基向量,两组基向量为预定义值;cc和cs分别表示彩色基向量个数和位置基向量个数;
Figure BDA0001509293210000053
是在
Figure BDA0001509293210000054
上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,
Figure BDA0001509293210000055
表示克罗内克积。
Figure BDA0001509293210000056
Figure BDA0001509293210000057
分别为彩色高斯核函数和位置高斯核函数,
Figure BDA0001509293210000058
Figure BDA0001509293210000059
为对应高斯核函数的参数。最后,利用EMK(Efficient Match Kernel)算法对彩色特征进行变换,变换后的特征向量仍然记为Fcol
2.4纹理特征
首先将RGB场景图像变换为灰度图,灰度图像中的Patch记为Zg,对每个Zg计算纹理特征Ftex,其中第t个分量的值由公式(5)定义:
Figure BDA00015092932100000510
公式(5)中,zg∈Zg表示像素zg在灰度图像Patch中的相对二维坐标位置;S(zg)表示以像素zg为中心的3×3区域内像素灰度值的标准方差;lbp(zg)为像素zg的局部二值模式特征(Local Binary Pattern,LBP);
Figure BDA00015092932100000511
Figure BDA00015092932100000512
分别为局部二值模式基向量和位置基向量,两组基向量为预定义值;gb和gs分别表示局部二值模式基向量个数和位置基向量个数;
Figure BDA00015092932100000513
是在
Figure BDA00015092932100000514
上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,
Figure BDA00015092932100000515
表示克罗内克积。
Figure BDA00015092932100000516
Figure BDA00015092932100000517
分别为局部二值模式高斯核函数和位置高斯核函数,
Figure BDA00015092932100000518
Figure BDA00015092932100000519
为对应高斯核函数的参数。最后,利用EMK(Efficient Match Kernel)算法对纹理特征进行变换,变换后的特征向量仍然记为Ftex
3超像素特征
超像素特征Fseg定义如(6)式:
Figure BDA00015092932100000520
Figure BDA00015092932100000521
分别表示超像素深度梯度特征、彩色梯度特征、彩色特征和纹理特征,定义如(7)式:
Figure BDA0001509293210000061
(7)式中,Fg_d(p),Fg_c(p),Fcol(p),Ftex(p)表示第p个中心位置落入超像素seg内的Patch的特征,n表示中心位置落入超像素seg内的Patch的数量。
超像素几何特征
Figure BDA0001509293210000062
按(8)式定义:
Figure BDA0001509293210000063
(8)式中各分量定义如下:
超像素面积Aseg=∑s∈seg1,s为超像素seg内的像素;超像素周长Pseg定义如(9)式:
Figure BDA0001509293210000064
公式(9)中,N、M分别表示RGB场景图象的横、纵向分辨率;seg、seg′表示不同的超像素;N4(s)是像素s的四邻域集合;Bseg是超像素seg的边界像素集合。
超像素的面积周长比Rseg定义如(10)式:
Figure BDA0001509293210000065
Figure BDA0001509293210000066
是基于像素s的x坐标sx、y坐标sy、x坐标与y坐标乘积分别计算的二阶Hu矩,定义如式(11)、(12)、(13)
Figure BDA0001509293210000067
Figure BDA0001509293210000068
Figure BDA0001509293210000069
公式(14)中
Figure BDA00015092932100000610
分别表示超像素所包含像素的x坐标均值、y坐标均值、x坐标均值平方、y坐标均值平方,定义如式(14):
Figure BDA0001509293210000071
Width,Height分别表示图像宽度和高度,即
Figure BDA0001509293210000072
基于归一化的像素坐标值进行计算。
Figure BDA0001509293210000073
Dvar分别表示超像素seg内像素s深度值sd的平均值,深度值sd平方的平均值、深度值方差,定义如式(15):
Figure BDA0001509293210000074
Dmiss表示超像素中丢失深度信息的像素的比例,定义如式(16):
Figure BDA0001509293210000075
Nseg是对应于超像素的点云的主法向量模长,其中超像素对应点云的主法向量通过主成分分析法(PCA)估计。
4超像素集特征
4.1基于超像素集建立高斯混合模型
超像素集合
Figure BDA0001509293210000078
对每个超像素依据步骤3计算特征Fseg,利用最大期望算法(EM,Expectation Maximization Algorithm)基于特征向量集合{Fseg|seg∈SP}建立高斯混合模型G(x),模型形式如(17)式:
Figure BDA0001509293210000076
其中,mg表示高斯分量个数,N(x|μii,∑ii)表示第ii个高斯分量,μii和∑ii分别表示第ii个高斯分量的均值向量和协方差矩阵,wii为第ii个高斯分量在高斯混合模型中的权值。
4.2高斯分量映射到希尔伯特空间
基于训练样本中第r个语义类别对应的超像素集合
Figure BDA0001509293210000077
依据步骤4.1建立对应于第r个语义类别的高斯混合模型,得到高斯分量集合
Figure BDA0001509293210000081
Figure BDA0001509293210000082
记所有C个语义类别对应的高斯混合模型所包含高斯分量的集合为
Figure BDA0001509293210000083
任一高斯分量gl到希尔伯特空间的映射记为kl,kl的计算如公式(18):
Figure BDA0001509293210000084
其中,tr表示矩阵的迹,即矩阵对角线元素的乘积;det表示行列式;D=|Fseg|是超像素特征的维度;μ和∑分别是高斯分量的均值向量和协方差矩阵,∑-1是协方差矩阵∑的逆。
4.3希尔伯特空间变换到欧式空间
记希尔伯特空间中向量kl映射到低维欧式空间中的向量为Zl,则有
Zl=ATkl (19)
式(19)中A为正交矩阵。A=[α12,…,αC-1]∈RN×(C-1),其中
Figure BDA0001509293210000085
Figure BDA0001509293210000086
Nr是第r个语义类别的高斯混合模型中高斯分量的个数,C是语义类别的数量,即N是C个语义类别的高斯混合模型包含的高斯分量总的数量;A是求解(20)式得到的前C-1个特征向量α1,α2,…αC-1
Bα=λWα (20)
式(20)中,α为特征向量,λ为特征值,B和W的计算如公式(21)
Figure BDA0001509293210000087
其中,mr,wr计算如公式(22)
Figure BDA0001509293210000088
其中,C是语义类别的数量,Nr是第r个语义类别高斯混合模型中高斯分量的个数,
Figure BDA0001509293210000089
是第r个语义类别的高斯混合模型中第jr个高斯分量的权值,
Figure BDA00015092932100000810
是第r个语义类别的高斯混合模型中第jr个高斯分量映射到希尔伯特空间的高维向量。
4.4语义类别的特征表示
对第r个语义类别的高斯混合模型的每一个高斯分量
Figure BDA0001509293210000091
依据式(18)将其映射到希尔伯特空间得到向量
Figure BDA0001509293210000092
再依据式(19)降维到欧式空间得到向量
Figure BDA0001509293210000093
则第r个语义类别的一组高斯分量
Figure BDA0001509293210000094
变换为
Figure BDA0001509293210000095
Figure BDA0001509293210000096
即为第r个语义类别的特征表示。
5测试样本识别分类
测试样本Ste为一组超像素,依据步骤4.1构建高斯混合模型得到一组高斯分量
Figure BDA0001509293210000097
再依据式(18)将
Figure BDA0001509293210000098
映射到希尔伯特空间,最后依据式(19)降维到欧式空间得到向量集合
Figure BDA0001509293210000099
即为测试样本的特征表示。
设l(r)表示第r个语义类别的语义标签,L′(zte)、L(zte)分别表示测试样本的候选语义标签及最终语义标签;对测试样本的每个特征向量
Figure BDA00015092932100000910
计算其与所有类别特征向量
Figure BDA00015092932100000911
的夹角,与特征向量
Figure BDA00015092932100000912
夹角最小的类别特征向量
Figure BDA00015092932100000913
的语义标签l(r)是测试样本的候选语义标签,如式(23)所示;
Figure BDA00015092932100000914
其中
Figure BDA00015092932100000915
依据式(23)计算得到T个候选语义标签L′(zte),其中T是测试样本的高斯混合模型包含的高斯分量的数量。依据式(24)定义的投票规则计算测试样本与语义类别的距离,包含最多与测试样本特征向量夹角最小的类别特征向量的语义类别的语义标签即是测试样本的最终语义标签;
Figure BDA00015092932100000916
式(24)中,C为语义类别的数量。
附图说明
图1超像素分割示意图
图2 NYU V1数据集上本发明与其他方法的类别准确率对比
具体实施方式
本发明采用由Silberman和Fergus等人收集并整理的NYU V1数据集进行实验,本数据集总共有13个语义类别(Bed、Blind、Bookshelf、Cabinet、Ceiling、Floor、Picture、Sofa、Table、TV、Wall、Window、Background)和7个场景。整个数据集包含2284帧彩色图像(RGB)和2284帧深度图像(Depth),它们之间一一对应,每张图像均为480×640大小的标准图像。按照传统划分方法,本发明选取数据集的60%用于训练,40%用于测试。
基于NYU V1数据集,进行了本发明所提方法与Silberman,Ren,Salman H.Khan,Anran,Heng等5人所提方法的对照实验,实验结果见表1的类平均准确率和图2的对象准确率,可以看出本发明所提出的方法在室内场景语义标注中取得了有竞争力的标注效果,特别是bookshelf、ceiling、window类别的识别效果比其他人所提方法的识别效果都好。
表1 NYU V1数据集上本发明与其他标注方法的类平均准确率比较
Figure BDA0001509293210000101

Claims (1)

1.一种基于超像素集的室内场景语义标注方法,其特征在于,包括以下几个步骤:
1)超像素分割
使用gPb/UCM算法进行图像的超像素分割,通过图像局部、全局特征计算像素属于边界的概率值
Figure FDA0003076625770000011
将gPb/UCM算法分别应用于彩色图像和深度图像,按照公式(1)计算
Figure FDA0003076625770000012
式(1)中,
Figure FDA0003076625770000013
是基于彩色图像计算得到的像素属于边界的概率值,
Figure FDA0003076625770000014
是基于深度图像计算得到的像素属于边界的概率值;
Figure FDA0003076625770000015
依据公式(1)得到的概率值
Figure FDA0003076625770000016
和设定的概率阈值0.08,按照八连通原则,将概率值小于0.08的像素连成一个区域,每个区域即为一个超像素;
2)Patch特征计算
Patch定义为16×16大小的网格,以k个像素为步长,固定步长k值为2,从彩色图像RGB和深度图像Depth左上角向右向下进行滑动,最终在彩色图像RGB和深度图像Depth上形成密集的网格;以分辨率为N*M的场景图像为例,最终得到的Patch数量为
Figure FDA0003076625770000017
Figure FDA0003076625770000018
针对每个Patch计算四类特征:深度梯度特征DepthGradient、彩色梯度特征Gradient、彩色特征RGB、纹理特征Texture;
2.1深度梯度特征
深度图像中的Patch记为Zd,对每个Zd计算深度梯度特征Fg_d,其中第t个分量的值由公式(2)定义:
Figure FDA0003076625770000019
公式(2)中,zd∈Zd表示像素zd在深度Patch中的相对二维坐标位置;
Figure FDA00030766257700000110
Figure FDA00030766257700000111
分别表示像素zd的深度梯度方向和梯度大小;
Figure FDA00030766257700000112
Figure FDA00030766257700000113
分别为深度梯度基向量和位置基向量,两组基向量为预定义值;dg和ds分别表示深度梯度基向量个数和位置基向量个数;
Figure FDA00030766257700000114
是在
Figure FDA00030766257700000115
上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,
Figure FDA0003076625770000021
表示克罗内克积;
Figure FDA0003076625770000022
Figure FDA0003076625770000023
分别为深度梯度高斯核函数和位置高斯核函数,
Figure FDA0003076625770000024
Figure FDA0003076625770000025
为对应高斯核函数的参数;最后,利用EMK算法对深度梯度特征进行变换,变换后的特征向量仍然记为Fg_d
2.2彩色梯度特征
彩色图像中的Patch记为Zc,对每个Zc计算彩色梯度特征Fg_c,其中第t个分量的值由公式(3)定义:
Figure FDA0003076625770000026
公式(3)中,zc∈Zc表示一个像素zc在彩色图像Patch中的相对二维坐标位置;
Figure FDA0003076625770000027
Figure FDA0003076625770000028
分别表示像素zc的梯度方向和梯度大小;
Figure FDA0003076625770000029
Figure FDA00030766257700000210
分别为彩色梯度基向量和位置基向量,两组基向量为预定义值;cg和cs分别表示彩色梯度基向量个数和位置基向量个数;
Figure FDA00030766257700000211
是在
Figure FDA00030766257700000212
上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,
Figure FDA00030766257700000213
表示克罗内克积;
Figure FDA00030766257700000214
Figure FDA00030766257700000215
分别为彩色梯度高斯核函数和位置高斯核函数,
Figure FDA00030766257700000216
Figure FDA00030766257700000217
为对应高斯核函数的参数;最后,利用EMK算法对彩色梯度特征进行变换,变换后的特征向量仍然记为Fg_c
2.3彩色特征
彩色图像中的Patch记为Zc,对每个Zc计算彩色特征Fcol,其中第t个分量的值由公式(4)定义:
Figure FDA00030766257700000218
公式(4)中,zc∈Zc表示像素zc在彩色图像Patch中的相对二维坐标位置;r(zc)为三维向量,是像素zc的RGB值;
Figure FDA00030766257700000219
Figure FDA00030766257700000220
分别为彩色基向量和位置基向量,两组基向量为预定义值;cc和cs分别表示彩色基向量个数和位置基向量个数;
Figure FDA00030766257700000221
是在
Figure FDA00030766257700000222
上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,
Figure FDA00030766257700000223
表示克罗内克积;
Figure FDA0003076625770000031
Figure FDA0003076625770000032
分别为彩色高斯核函数和位置高斯核函数,
Figure FDA0003076625770000033
Figure FDA0003076625770000034
为对应高斯核函数的参数;最后,利用EMK算法对彩色特征进行变换,变换后的特征向量仍然记为Fcol
2.4纹理特征
首先将RGB场景图像变换为灰度图,灰度图像中的Patch记为Zg,对每个Zg计算纹理特征Ftex,其中第t个分量的值由公式(5)定义:
Figure FDA0003076625770000035
公式(5)中,zg∈Zg表示像素zg在灰度图像Patch中的相对二维坐标位置;S(zg)表示以像素zg为中心的3×3区域内像素灰度值的标准方差;lbp(zg)为像素zg的局部二值模式特征(Local Binary Pattern,LBP);
Figure FDA0003076625770000036
t
Figure FDA0003076625770000037
分别为局部二值模式基向量和位置基向量,两组基向量为预定义值;gb和gs分别表示局部二值模式基向量个数和位置基向量个数;
Figure FDA0003076625770000038
是在
Figure FDA0003076625770000039
上应用核主成分分析(KPCA)得到的第t个主成分的映射系数,
Figure FDA00030766257700000310
表示克罗内克积;
Figure FDA00030766257700000311
Figure FDA00030766257700000312
分别为局部二值模式高斯核函数和位置高斯核函数,
Figure FDA00030766257700000313
Figure FDA00030766257700000314
为对应高斯核函数的参数;最后,利用EMK(Efficient Match Kernel)算法对纹理特征进行变换,变换后的特征向量仍然记为Ftex
3)超像素特征计算
超像素特征Fseg定义如(6)式:
Figure FDA00030766257700000315
Figure FDA00030766257700000316
分别表示超像素深度梯度特征、彩色梯度特征、彩色特征和纹理特征,定义如(7)式:
Figure FDA00030766257700000317
(7)式中,Fg_d(p),Fg_c(p),Fcol(p),Ftex(p)表示第p个中心位置落入超像素seg内的Patch的特征,n表示中心位置落入超像素seg内的Patch的数量;
超像素几何特征
Figure FDA0003076625770000041
按(8)式定义:
Figure FDA0003076625770000042
(8)式中各分量定义如下:
超像素面积Aseg=∑s∈seg1,s为超像素seg内的像素;超像素周长Pseg定义如(9)式:
Figure FDA0003076625770000043
公式(9)中,N、M分别表示RGB场景图象的横、纵向分辨率;seg、seg′表示不同的超像素;N4(s)是像素s的四邻域集合;Bseg是超像素seg的边界像素集合;
超像素的面积周长比Rseg定义如(10)式:
Figure FDA0003076625770000044
Figure FDA0003076625770000045
是基于像素s的x坐标sx、y坐标sy、x坐标与y坐标乘积分别计算的二阶Hu矩,定义如式(11)、(12)、(13)
Figure FDA0003076625770000046
Figure FDA0003076625770000047
Figure FDA0003076625770000048
公式(14)中
Figure FDA0003076625770000049
分别表示超像素所包含像素的x坐标均值、y坐标均值、x坐标均值平方、y坐标均值平方,定义如式(14):
Figure FDA00030766257700000410
Width,Height分别表示图像宽度和高度,即
Figure FDA00030766257700000411
基于归一化的像素坐标值进行计算;
Figure FDA0003076625770000051
Dvar分别表示超像素seg内像素s深度值sd的平均值,深度值sd平方的平均值、深度值方差,定义如式(15):
Figure FDA0003076625770000052
Dmiss表示超像素中丢失深度信息的像素的比例,定义如式(16):
Figure FDA0003076625770000053
Nseg是对应于超像素的点云的主法向量模长,其中超像素对应点云的主法向量通过主成分分析法(PCA)估计;
4)超像素集特征计算
4.1基于超像素集建立高斯混合模型(GMM)
超像素集合
Figure FDA0003076625770000054
对每个超像素依据步骤3计算特征Fseg,利用最大期望算法基于特征向量集合{Fseg|seg∈SP}建立高斯混合模型G(x),模型形式如(17)式:
Figure FDA0003076625770000055
其中,mg表示高斯分量个数,N(x|μii,∑ii)表示第ii个高斯分量,μii和∑ii分别表示第ii个高斯分量的均值向量和协方差矩阵,wii为第ii个高斯分量在高斯混合模型中的权值;
4.2高斯分量映射到希尔伯特空间
基于训练样本中第r个语义类别对应的超像素集合
Figure FDA0003076625770000056
依据步骤4.1建立对应于第r个语义类别的高斯混合模型,得到高斯分量集合
Figure FDA0003076625770000057
记所有C个语义类别对应的高斯混合模型所包含高斯分量的集合为
Figure FDA0003076625770000058
任一高斯分量gl到希尔伯特空间的映射记为kl,kl的计算如公式(18):
Figure FDA0003076625770000059
其中,tr表示矩阵的迹,即矩阵对角线元素的乘积;det表示行列式;D=|Fseg|是超像素特征的维度;μ和∑分别是高斯分量的均值向量和协方差矩阵,∑-1是协方差矩阵∑的逆;
4.3希尔伯特空间变换到欧式空间
记希尔伯特空间中向量kl映射到低维欧式空间中的向量为Zl,则有
Zl=ATkl (19)
式(19)中A为正交矩阵;A=[α1,α2,...,αC-1]∈RN×(C-1),其中
Figure FDA0003076625770000061
Nr是第r个语义类别的高斯混合模型中高斯分量的个数,C是语义类别的数量,即N是C个语义类别的高斯混合模型包含的高斯分量总的数量;A是求解(20)式得到的前C-1个特征向量α1,α2,...αC-1
Bα=λWα (20)
式(20)中,α为特征向量,λ为特征值,B和W的计算如公式(21)
Figure FDA0003076625770000062
其中,mr,wr计算如公式(22)
Figure FDA0003076625770000063
其中,C是语义类别的数量,Nr是第r个语义类别高斯混合模型中高斯分量的个数,
Figure FDA0003076625770000064
是第r个语义类别的高斯混合模型中第jr个高斯分量的权值,
Figure FDA0003076625770000065
是第r个语义类别的高斯混合模型中第jr个高斯分量映射到希尔伯特空间的高维向量;
4.4语义类别的特征表示
对第r个语义类别的高斯混合模型的每一个高斯分量
Figure FDA0003076625770000066
依据式(18)将其映射到希尔伯特空间得到向量
Figure FDA0003076625770000067
再依据式(19)降维到欧式空间得到向量
Figure FDA0003076625770000068
则第r个语义类别的一组高斯分量
Figure FDA0003076625770000069
变换为
Figure FDA00030766257700000610
Figure FDA00030766257700000611
即为第r个语义类别的特征表示;
5)测试样本识别分类
测试样本Ste为一组超像素,依据步骤4.1构建高斯混合模型得到一组高斯分量
Figure FDA0003076625770000071
再依据式(18)将
Figure FDA0003076625770000072
映射到希尔伯特空间,最后依据式(19)降维到欧式空间得到向量集合
Figure FDA0003076625770000073
即为测试样本的特征表示;
设l(r)表示第r个语义类别的语义标签,L′(zte)、L(zte)分别表示测试样本的候选类别标签及最终类别标签;对测试样本的每个特征向量
Figure FDA0003076625770000074
计算其与所有类别特征向量
Figure FDA0003076625770000075
的夹角,与特征向量
Figure FDA0003076625770000076
夹角最小的类别特征向量
Figure FDA0003076625770000077
所属语义类别l(r)是测试样本的候选类别标签,如式(23)所示;
Figure FDA0003076625770000078
其中
Figure FDA0003076625770000079
{1,2,...,C},nr∈[1,Nr] (23)
依据式(24)定义的投票规则计算测试样本与语义类别的距离,包含最多与测试样本特征向量夹角最小的类别特征向量的所属语义类别即是测试样本的最终语义类别;
Figure FDA00030766257700000710
式(24)中,C为语义类别的数量。
CN201711345653.3A 2017-12-15 2017-12-15 一种基于超像素集的室内场景语义标注方法 Active CN107944428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711345653.3A CN107944428B (zh) 2017-12-15 2017-12-15 一种基于超像素集的室内场景语义标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711345653.3A CN107944428B (zh) 2017-12-15 2017-12-15 一种基于超像素集的室内场景语义标注方法

Publications (2)

Publication Number Publication Date
CN107944428A CN107944428A (zh) 2018-04-20
CN107944428B true CN107944428B (zh) 2021-07-30

Family

ID=61943423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711345653.3A Active CN107944428B (zh) 2017-12-15 2017-12-15 一种基于超像素集的室内场景语义标注方法

Country Status (1)

Country Link
CN (1) CN107944428B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191554B (zh) * 2018-09-04 2021-01-01 清华-伯克利深圳学院筹备办公室 一种超分辨图像重建方法、装置、终端和存储介质
CN109948445B (zh) * 2019-02-20 2023-04-07 西北大学 一种复杂背景下动作分类方法及分类系统
CN109829449B (zh) * 2019-03-08 2021-09-14 北京工业大学 一种基于超像素时空上下文的rgb-d室内场景标注方法
CN110084136A (zh) * 2019-04-04 2019-08-02 北京工业大学 基于超像素crf模型的上下文优化室内场景语义标注方法
CN110096961B (zh) * 2019-04-04 2021-03-02 北京工业大学 一种超像素级别的室内场景语义标注方法
CN110517270B (zh) * 2019-07-16 2022-04-12 北京工业大学 一种基于超像素深度网络的室内场景语义分割方法
CN110570352B (zh) * 2019-08-26 2021-11-05 腾讯科技(深圳)有限公司 图像标注方法、装置、系统及细胞标注方法
CN110751153B (zh) * 2019-09-19 2023-08-01 北京工业大学 一种室内场景rgb-d图像的语义标注方法
CN111275077A (zh) * 2020-01-13 2020-06-12 南京林业大学 多视角特征联合学习下的机载激光雷达点云语义标注方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544487A (zh) * 2013-11-01 2014-01-29 扬州瑞控汽车电子有限公司 基于单目视觉的前车识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544487A (zh) * 2013-11-01 2014-01-29 扬州瑞控汽车电子有限公司 基于单目视觉的前车识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Capture Surface Light Field for Gesture with Sparse";Yuping Wang et al.;《Journal of Information & Computational Science》;20140701;全文 *
"Chinese Sign Language animation generation";Jinghua Li et al;《Multimed Tools Appl》;20141231;全文 *
"基于多视点图像的人脸表面光场重构";王玉萍;《北京工业大学学报》;20160630;第42卷(第6期);全文 *
"面向中国手语合成的视频语义描述方法";王茹等;《北京工业大学学报》;20120531;第38 卷(第5 期);全文 *

Also Published As

Publication number Publication date
CN107944428A (zh) 2018-04-20

Similar Documents

Publication Publication Date Title
CN107944428B (zh) 一种基于超像素集的室内场景语义标注方法
CN106682598B (zh) 一种基于级联回归的多姿态的人脸特征点检测方法
Xiao et al. Multiple view semantic segmentation for street view images
Gosselin et al. Revisiting the fisher vector for fine-grained classification
Rozantsev et al. On rendering synthetic images for training an object detector
Wang et al. Joint learning of visual attributes, object classes and visual saliency
Oliva et al. Scene-centered description from spatial envelope properties
Lin Face detection in complicated backgrounds and different illumination conditions by using YCbCr color space and neural network
CN104268593B (zh) 一种小样本情况下多稀疏表示的人脸识别方法
Malik et al. The three R’s of computer vision: Recognition, reconstruction and reorganization
CN110096961B (zh) 一种超像素级别的室内场景语义标注方法
CN115035260A (zh) 一种室内移动机器人三维语义地图构建方法
Veeravasarapu et al. Adversarially tuned scene generation
Zheng et al. A review on vision-based pedestrian detection
Zhang et al. Learning category-specific 3D shape models from weakly labeled 2D images
CN116824485A (zh) 一种基于深度学习的开放场景伪装人员小目标检测方法
CN107784284B (zh) 人脸识别方法及系统
Xi et al. SR-POD: sample rotation based on principal-axis orientation distribution for data augmentation in deep object detection
Wang et al. Differential geometry boosts convolutional neural networks for object detection
Ye et al. Object detection in rgb-d indoor scenes
Zheng et al. Extracting non-negative basis images using pixel dispersion penalty
CN111062274B (zh) 上下文感知嵌入的人群计数方法、系统、介质及电子设备
CN114973305B (zh) 一种针对拥挤人群的精确人体解析方法
Liu et al. Deformable object matching via deformation decomposition based 2d label mrf
CN110751153B (zh) 一种室内场景rgb-d图像的语义标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant