CN104599275A - 基于概率图模型的非参数化的rgb-d场景理解方法 - Google Patents

基于概率图模型的非参数化的rgb-d场景理解方法 Download PDF

Info

Publication number
CN104599275A
CN104599275A CN201510039559.XA CN201510039559A CN104599275A CN 104599275 A CN104599275 A CN 104599275A CN 201510039559 A CN201510039559 A CN 201510039559A CN 104599275 A CN104599275 A CN 104599275A
Authority
CN
China
Prior art keywords
image
super
pixel
marked
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510039559.XA
Other languages
English (en)
Other versions
CN104599275B (zh
Inventor
费婷婷
龚小谨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201510039559.XA priority Critical patent/CN104599275B/zh
Publication of CN104599275A publication Critical patent/CN104599275A/zh
Application granted granted Critical
Publication of CN104599275B publication Critical patent/CN104599275B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于概率图模型的非参数化的RGB-D场景理解方法。将待标注图像与训练集中已标注的图像进行全局特征匹配,构建待标注图像相似图像的检索集;将待标注图像及其相似图像检索集中的图像进行过分割,生成超像素,并对生成的超像素进行特征提取;计算训练集中各个类别所占的比例,构建稀有类别的词典,与相似图像的检索集一起作为待标注图像的标签源;将待标注图像中的每个超像素与该图像标签源中的所有超像素进行特征匹配;构建概率图模型,利用马尔科夫随机场将最大化后验概率转化成最小化能量函数的优化问题,利用图割方法求解该问题得到待标注图像每个超像素的语义标注。本发明整合了全局和局部的几何信息,提高了RGB-D场景理解的性能。

Description

基于概率图模型的非参数化的RGB-D场景理解方法
技术领域
本发明属于图像处理技术领域,具体涉及一种基于概率图模型的非参数化的RGB-D场景理解方法。
背景技术
场景理解是用模式识别和人工智能的方法对场景图像进行分析、描述、分类和解释,最终得到场景图像逐像素语义标注的技术,是计算机视觉的一个重要课题,在机器人导航、虚拟现实、安防监控以及网络搜索领域有着广泛的应用。
场景理解的方法主要分为参数化方法和非参数化方法两大类。参数化的方法大多都基于依赖训练的生成模型,而非参数化的方法则无需依赖任何训练,通过图像间的相似性传递语义标签。在参数化的方法中,需要对场景中的每个类别分别训练一个分类器,然后利用贝叶斯网络或者马尔科夫随机场(MRF)等概率图模型构建得到生成模型。这种方法对于场景类别的伸缩性非常差,一旦场景的语义类别发生增减,就需要对所有语义类别重新进行训练,而且训练是一个非常耗费时间和计算资源的过程,导致参数化的场景理解方法在实际应用中受到了极大的限制。然而,大数据时代的到来为场景理解打开了非参数化方法的大门。不同于训练复杂的参数化模型,非参数化方法试图利用图像像素或者超像素间的匹配将已标注的相似图像的语义标签传递给待标注的图像。在数据集中的数据量足够大的前提下,我们总是能够找到与目标待标注图像场景相似的图像,而相似的场景所包含的语义信息往往是相似的,这为图像间语义标签的传递提供了可能。
传统的非参数化场景理解方法主要针对二维图像展开研究,随着激光雷达以及微软Kinect等距离传感器的面世,场景深度信息的获取变得越来越容易,结合三维点云数据或者致密深度等三维信息的场景理解方法受到了学者的广泛关注和研究。然而现有的RGB-D图像的场景理解都基于参数化的方法,如何快速高效高性能并且鲁棒地实现非参数化的RGB-D场景理解是目前面临的难题。
发明内容
本发明的目的在于针对参数化RGB-D场景理解方法的不足,提供一种基于概率图模型的非参数化的RGB-D场景理解方法,该方法避免了参数化方法耗时耗资源的离线训练,利用图像超像素间的相似性进行语义标签的转移,计算高效且能适应各种场景。同时,本发明提出的双向匹配以及基于协同表示分类(CRC)的标签转移机制使得本发明的方法与传统的非参数化场景理解方法相比,有效的减少了超像素之间的误匹配,取得了更好的性能。
本发明的目的是通过以下技术方案来实现的:
一种基于概率图模型的非参数化的RGB-D场景理解方法,包括如下步骤:
(1)输入待标注图像,利用GIST特征、颜色直方图、法向量直方图三种全局特征将待标注图像与训练集中的图像进行特征匹配,构建待标注图像的相似图像检索集;
(2)将步骤1输入的待标注图像及得到的相似图像检索集中的图像进行过分割,生成超像素,并利用梯度核描述符、颜色核描述符以及深度梯度核描述符三种核描述符(Kernel descriptor)提取超像素的特征fi,其中i表示超像素的索引值;计算训练集中各个语义类别所占的比例,分别对各个稀有类别的超像素进行K-means聚类,取每个聚类的中心构建该稀有类别的词典;将所有稀有类别的词典与步骤1得到的相似图像检索集一起作为待标注图像的标签源;
(3)将步骤2得到的待标注图像中的每个超像素的特征与该图像标签源中的所有超像素的特征进行双向特征匹配,生成匹配集匹配度用基于协同表示分类(CRC)的残差度量;其中P,Q分别表示待标注图像中所有超像素的数量和标签源中所有超像素的数量;
(4)把步骤2得到的超像素的特征作为节点,将具有共同边界的超像素相连,构建概率图模型,将求解最大化后验概率的问题转化成求解最小化能量函数的马尔科夫随机场(MRF),其描述如下:
E ( L ) = Σ i ψ data ( l i ) + λ Σ i , j ψ smooth ( l i , l j ) - - - ( 1 )
其中,L表示待标注图像所有超像素的标签集,ψdata是马尔科夫随机场(MRF)的数据项,ψsmooth是马尔科夫随机场(MRF)的平滑项,li和lj分别表示索引值为i和j的超像素的语义标签,λ是平衡系数。
(5)根据步骤3得到的匹配结果构建马尔科夫随机场(MRF)的数据项ψdata,其描述如下:
ψ data ( l i = c ) = | | f i - F c α c * | | 2 if c ∈ C ( s i ) β otherwise - - - ( 2 )
其中si表示索引值为i的超像素,Fc表示步骤4得到的匹配集mi中标签为c的超像素的核描述符按列排列构建得到的测量矩阵,为测量矩阵Fc对应的系数矩阵,C(si)表示匹配集mi中语义类别集合,β是一个自定义的比大的常数,用来惩罚的情况;
根据图像超像素邻域间的平滑关系构建马尔科夫随机场(MRF)的平滑项ψsmooth,其描述如下:
其中 δ ( c ≠ c ′ ) = 1 c ≠ c ′ 0 c = c ′ - - - ( 4 )
其中表示相邻超像素表面法向量间的平滑性,表示相邻超像素的核描述符之间的平滑性。
所述对待标注图像的相似图像检索集的求解方法具体为:分别计算待标注图像与训练集中所有图像的GIST特征、颜色直方图以及法向量直方图之间的欧氏距离,分别取距离最小的前K1个图像,将三种全局特征匹配得到的3K1个图像的交集作为待标注图像相似图像的检索集,K1是一个自定义的常数。
所述对稀有类别字典的求解方法具体为:计算训练集中各个语义类别所占的比例,将占比不超过3%的语义类别定义为稀有类别,利用K-means聚类分别将属于各个稀有类别的超像素聚成K2类,提取K2个聚类中心作为该稀有类别的词典,K2是一个自定义的常数。
步骤3所述利用双向匹配策略对待标注图像中的每个超像素匹配集的求解方法具体为:对一个待标注的超像素si,先根据该超像素与检索集中超像素核描述符特征的欧氏距离,在检索集中选出距离该超像素最近的K3个超像素,K3是一个自定义的常数;然后对其中的每个超像素sj,根据核描述符特征的欧氏距离在待标注图像中找出其最近邻N(sj),当sj不满足以下条件时,将sj从si的匹配集mi中移除掉,其描述如下:
D(si,N(sj))≤ε1 and H(si,N(sj))≤ε2    (5)
式中D表示超像素间二维的空间距离,H表示超像素三维的高度差。
步骤5所述对马尔科夫随机场(MRF)数据项ψdata的求解方法具体为:用基于协同表示分类(CRC)的匹配残差来构建数据项,其描述如下:
ψ data ( l i = c ) = | | f i - F c α c * | | 2 if c ∈ C ( s i ) β otherwise - - - ( 6 )
其中 α * =arg min α | | f i - Fα | | 2 2 + γ | | α | | 2 2 - - - ( 7 )
式中γ是一个自定义的权重标量,F是匹配集mi中所有超像素的核描述符按列排列构建得到的测量矩阵。
所述对马尔科夫随机场(MRF)数据项ψsmooth的求解方法具体为:利用相邻超像素间表面法向量的角度以及特征的相似度来对邻域进行平滑,其描述如下:
δ ( c ≠ c ′ ) = 1 c ≠ c ′ 0 c = c ′
其中
式中ni表示超像素si的表面法向量,σ是一个自定义的常数。
本发明具有的有益效果是:本发明结合了图像全局和局部的几何信息,并利用双向匹配以及基于协同表示分类(CRC)的标签转移机制有效的减少了超像素间的误匹配,取得了良好的标注准确率。同时,本发明避免了传统参数化RGB-D场景理解方法耗时耗力的模型训练,计算高效,能同时适用于室内外场景。
附图说明
图1为构建待标注图像标签源的示意图;
图2为训练集中属于各个语义类别的超像素的占比图;
图3为实施例1采用现有场景理解方法与本发明方法对室内场景图像进行语义标注的结果对比图;分为(a)-(f)部分,其中(a)为待标注图像,(b)为待标注图像对应的致密深度图,(c)为Superparsing(RGB)算法得到的语义标注结果图,(d)为没有结合深度信息情况下,本发明方法得到的语义标注结果图,(e)为结合深度信息后,本发明方法得到的语义标注结果图,(f)为待标注图像人工标注的真值图;
图4为实施例2采用现有场景理解方法与本发明方法对室内场景图像进行语义标注的结果对比图;分为(a)-(f)部分,其中(a)为待标注图像,(b)为待标注图像对应的致密深度图,(c)为Superparsing(RGB)算法得到的语义标注结果图,(d)为没有结合深度信息情况下,本发明方法得到的语义标注结果图,(e)为结合深度信息后,本发明方法得到的语义标注结果图,(f)为待标注图像人工标注的真值图;
图5为实施例3采用现有场景理解方法与本发明方法对室内场景图像进行语义标注的结果对比图;分为(a)-(f)部分,其中(a)为待标注图像,(b)为待标注图像对应的致密深度图,(c)为Superparsing(RGB)算法得到的语义标注结果图,(d)为没有结合深度信息情况下,本发明方法得到的语义标注结果图,(e)为结合深度信息后,本发明方法得到的语义标注结果图,(f)为待标注图像人工标注的真值图;
图6为实施例4采用现有场景理解方法与本发明方法对室内场景图像进行语义标注的结果对比图;分为(a)-(f)部分,其中(a)为待标注图像,(b)为待标注图像对应的致密深度图,(c)为Superparsing(RGB)算法得到的语义标注结果图,(d)为没有结合深度信息情况下,本发明方法得到的语义标注结果图,(e)为结合深度信息后,本发明方法得到的语义标注结果图,(f)为待标注图像人工标注的真值图;
图7为实施例5采用现有场景理解方法与本发明方法对室外场景图像进行语义标注的结果对比图;分为(a)-(f)部分,其中(a)为待标注图像,(b)为待标注图像对应的致密深度图,(c)为Superparsing(RGB)算法得到的语义标注结果图,(d)为没有结合深度信息情况下,本发明方法得到的语义标注结果图,(e)为结合深度信息后,本发明方法得到的语义标注结果图,(f)为待标注图像人工标注的真值图;
图8为实施例6采用现有场景理解方法与本发明方法对室外场景图像进行语义标注的结果对比图;分为(a)-(f)部分,其中(a)为待标注图像,(b)为待标注图像对应的致密深度图,(c)为Superparsing(RGB)算法得到的语义标注结果图,(d)为没有结合深度信息情况下,本发明方法得到的语义标注结果图,(e)为结合深度信息后,本发明方法得到的语义标注结果图,(f)为待标注图像人工标注的真值图;
图9为实施例7采用现有场景理解方法与本发明方法对室外场景图像进行语义标注的结果对比图;分为(a)-(f)部分,其中(a)为待标注图像,(b)为待标注图像对应的致密深度图,(c)为Superparsing(RGB)算法得到的语义标注结果图,(d)为没有结合深度信息情况下,本发明方法得到的语义标注结果图,(e)为结合深度信息后,本发明方法得到的语义标注结果图,(f)为待标注图像人工标注的真值图;
图10为实施例8采用现有场景理解方法与本发明方法对室外场景图像进行语义标注的结果对比图;分为(a)-(f)部分,其中(a)为待标注图像,(b)为待标注图像对应的致密深度图,(c)为Superparsing(RGB)算法得到的语义标注结果图,(d)为没有结合深度信息情况下,本发明方法得到的语义标注结果图,(e)为结合深度信息后,本发明方法得到的语义标注结果图,(f)为待标注图像人工标注的真值图;
图11为本发明方法与传统的非参数化的Superparsing方法以及现有的参数化RGB-D场景理解方法在NYU-V1深度数据集上各个语义类别标注准确率的柱状比较图。
具体实施方式
下面结合附图与实施例对本发明进行进一步说明。
本发明一种基于L1正则化的图像显著性检测方法,包括如下步骤:
(1)输入待标注图像,分别计算待标注图像和训练集图像的GIST特征、颜色直方图、法向量直方图三种全局特征。计算图像GIST全局特征的具体描述如下:首先将图像划分成np×np的规则网格,网格大小为r'×c',用m尺度n方向的Gabor滤波器组分别对图像的R、G、B通道进行卷积滤波,滤波后级联的结果即为网格块的GIST特征:
G i ( r / g / b ) P ( x , y ) = cat n c ( f r / g / b ( x , y ) * g mn ( x , y ) ) , ( x , y ) ∈ P i - - - ( 1 )
式中,nc=m×n,表示Gabor滤波器组的通道数,的维数为nc×r'×c',fr/g/b(x,y)表示图像的R/G/B通道,gmn(x,y)表示m尺度n方向的Gabor滤波器组,Pi表示索引值为i的网格块,*是卷积符号,cat是级联符号。对GP各通道的滤波结果取均值后按行组合即可得到图像的全局GIST特征:
G r / g / b G = { G 1 ( r / g / b ) P ‾ , G 2 ( r / g / b ) P ‾ , . . . , G n p × n p ( r / g / b ) P ‾ } - - - ( 2 )
其中 G i ( r / g / b ) P ‾ = 1 r ′ × c ′ Σ ( x , y ) ∈ P i G i ( r / g / b ) P ( x , y ) - - - ( 3 )
式中,的维数为nc×np×np
图像颜色直方图的计算比较简单,只需将颜色空间划分成nb个颜色区间,nb是一个自定义的常数,每个小区间成为直方图的一个bin。然后,通过计算颜色落在每个小区间内的像素数量即可得到颜色直方图histcolor。从图像的深度图得到图像每个像素的法向量后,利用和计算颜色直方图相同的处理方法即可得到图像的法向量直方图histnormal
(2)对步骤1得到的待标注图像与训练集中所有图像的GIST全局特征、颜色直方图histcolor以及法向量直方图histnormal,分别计算待标注图像与训练集中所有图像的三种全局特征的欧氏距离,分别取距离最小的前K1个图像,将三种特征匹配得到的3K1个图像的交集作为待标注图像相似图像的检索集;计算训练集中各个语义类别所占的比例,如图2所示,将占比不超过3%的语义类别定义为稀有类别,利用K-means聚类分别将属于各个稀有类别的超像素聚成K2类,提取K2个聚类中心作为该稀有类别的词典,然后将所有稀有类别的词典与步骤2得到的相似图像检索集一起作为待标注图像的标签源,如图1所示;
(3)对步骤1输入的待标注图像及步骤2得到的相似图像检索集中的图像,用TurboPixel算法进行过分割,生成超像素,并利用梯度核描述符Fgrad、颜色核描述符Fcol以及深度梯度核描述符Fgrad-d三种核描述符对超像素进行特征提取,具体描述如下:
F grad t ( Z ) = Σ i = 1 d o Σ j = 1 d s α ij t { Σ z ∈ Z u ~ ( z ) k o ( φ ~ ( z ) , p i ) k p ( z , q j ) } F col t ( Z ) = Σ i = 1 d o Σ j = 1 d s α ij t { Σ z ∈ Z k c ( φ ~ ( z ) , p i ) k p ( z , q j ) } F grad - d t ( Z ) = Σ i = 1 d o Σ j = 1 d s α ij t { Σ z ∈ Z u d ~ ( z ) k od ( φ ~ ( z ) , p i ) k pd ( z , q j ) } - - - ( 4 )
其中 u ~ ( z ) = u ( z ) / Σ z ∈ P u ( z ) 2 + ϵ g k p ( z , z ′ ) = exp ( - γ P | | z - z ′ | | 2 ) k o ( φ ~ ( z ) , φ ~ ( z ′ ) ) = exp ( - γ o | | φ ~ ( z ) - φ ~ ( z ′ ) | | 2 ) k c ( cφ ~ ( z ) , c ~ ( z ′ ) ) = exp ( - γ c | | c ( z ) - c ( z ′ ) | | 2 ) - - - ( 5 )
式中,Z表示一个超像素,z表示超像素Z的一个像素的位置,表示归一化的梯度强度,表示归一化的深度梯度强度,εg是一个自定义的非常小的常数,是一个衡量两个像素梯度方向相似度的高斯核,分别表示像素z和z'的梯度方向,kp(z,z')是衡量两个像素在空间上相近程度的高斯核,是一个衡量两个像素值相似度的高斯核,分别表示像素z和z'的像素值。分别表示在像素z梯度方向的支持集和像素z位置的支持集上的均匀采样,do和ds是采样数目,是投影系数。深度梯度核描述符的构建与梯度核描述符一样,只需将深度图当做图像的灰度图处理即可。最后,将三种特征串联即可得到该超像素最终的RGB-D特征f;
(4)将步骤3得到的待标注图像中的每个超像素的特征与该图像标签源中的所有超像素的特征进行双向特征匹配,生成匹配集具体描述如下:对一个待标注的超像素si,先根据该超像素与检索集中超像素核描述符的欧氏距离,在检索集中选出距离该超像素最近的K3个超像素,然后对其中的每个超像素sj,根据核描述符的欧氏距离在待标注图像中找出其最近邻N(sj),当sj不满足以下条件时,将sj从si的匹配集mi中移除掉,其描述如下:
D(si,N(sj))≤ε1 and H(si,N(sj))≤ε2    (6)
式中D表示超像素间二维的空间距离,H表示超像素三维的高度差。
(5)把步骤3得到的超像素的特征作为节点,将具有共同边界的超像素相连,构建概率图模型,将求解最大化后验概率的问题转化成求解最小化能量函数的马尔科夫随机场(MRF),其描述如下:
E ( L ) = Σ i ψ data ( l i ) + λ Σ i , j ψ smooth ( l i , l j ) - - - ( 7 )
其中,ψdata和ψsmooth分别表示马尔科夫随机场(MRF)的数据项和平滑项,L表示待标注图像所有超像素的标签集,λ是平衡系数。
根据步骤4得到的基于协同表示分类(CRC)的匹配残差,构建马尔科夫随机场(MRF)的数据项ψdata,具体描述如下:
ψ data ( l i = c ) = | | f i - F c α c * | | 2 if c ∈ C ( s i ) β otherwise - - - ( 8 )
其中对系数矩阵的求解方法具体为:
α * =arg min α | | f i - Fα | | 2 2 + γ | | α | | 2 2 - - - ( 9 )
即利用已标记的超像素构建的超像素子空间来表示待标注的超像素,通过求解一个L2正则化优化问题来求解系数矩阵式中γ是一个自定义的权重标量,F是步骤4得到的匹配集mi中所有超像素的核描述符按列排列构建得到的测量矩阵,li表示超像素si的语义标签,Fc表示匹配集mi中标签为c的超像素的核描述符按列排列构建得到的测量矩阵,C(si)表示匹配集mi中语义类别集合,β是一个自定义的比大的常数,用来惩罚的情况。
根据图像邻域间的平滑关系构建马尔科夫随机场(MRF)的平滑项ψsmooth,其描述如下:
式中表示相邻超像素表面法向量间的平滑性,主要对具有相同标签但表面法向量有较大差异的邻域超像素进行惩罚,ni表示超像素si的平面法向量;这个平滑项;表示相邻超像素的核描述符之间的平滑性,驱使特征相似的邻域超像素具有相同的标签,fi表示超像素si的梯度核描述符颜色核描述符以及深度梯度核描述符三种核描述符串联构建而成的特征向量。
实施例1
对待检测图像图3(a)部分分别利用Superparsing(RGB)算法和结合深度信息前后的本发明方法进行处理,由结果对比图可以看出,我们的方法有效地克服了光照昏暗情况下,颜色信息不足对标注结果的影响,达到了良好的场景理解效果。
实施例2
对待检测图像图4(a)部分分别利用Superparsing(RGB)算法和结合深度信息前后的本发明方法进行处理,由结果对比图可以看出,我们的方法有效地减少了不同类别物体颜色相似的情况下的误匹配,在加入深度信息后,我们的方法有效的克服了光照条件不足的情况下,颜色信息不足对标注结果的影响,达到了良好的场景理解效果。
实施例3
对待检测图像图5(a)部分分别利用Superparsing(RGB)算法和结合深度信息前后的本发明方法进行处理,由结果对比图可以看出,加入深度信息后我们的方法有效地减少了不同类别的物体颜色相似情况下的误匹配,达到了良好的场景理解效果。
实施例4
对待检测图像图6(a)部分分别利用Superparsing(RGB)算法和结合深度信息前后的本发明方法进行处理,由结果对比图可以看出,加入深度信息后我们的方法有效地减少了不同类别的物体颜色相似情况下的误匹配,达到了良好的场景理解效果。
实施例5
对待检测图像图7(a)部分分别利用Superparsing(RGB)算法和结合深度信息前后的本发明方法进行处理,由结果对比图可以看出,本发明方法能更有效地减少阴影导致的误标注,大大提高了标注准确率,达到了良好的场景理解效果。
实施例6
对待检测图像图8(a)部分分别利用Superparsing(RGB)算法和结合深度信息前后的本发明方法进行处理,由结果对比图可以看出,本发明方法能更有效地减少阴影导致的误标注,大大提高了标注准确率,达到了良好的场景理解效果。
实施例7
对待检测图像图9(a)部分分别利用Superparsing(RGB)算法和结合深度信息前后的本发明方法进行处理,由结果对比图可以看出,本发明方法能更有效地减少阴影导致的误标注以及颜色相似的不同物体之间的误匹配,大大提高了标注准确率,达到了良好的场景理解效果。
实施例8
对待检测图像图10(a)部分分别利用Superparsing(RGB)算法和结合深度信息前后的本发明方法进行处理,由结果对比图可以看出,本发明方法能更有效地减少阴影导致的误标注,大大提高了标注准确率,达到了良好的场景理解效果。
图11为不同的场景理解方法在NYU-V1深度数据集上各个语义类别的标注准确率柱状比较图,柱状图越高,表明该方法在该类别上的标注准确率越高。从图8可以看出,与现有的非参数化的Superparsing方法相比,我们的方法在所有的语义类别上都取得了更高的标注准确率;与现有也许最先进的参数化RGB-D场景理解方法相比,我们的方法在大多数语义类别上也取得了更好的效果。

Claims (6)

1.一种基于概率图模型的非参数化的RGB-D场景理解方法,其特征在于,包括如下步骤:
(1)输入待标注图像,利用GIST特征、颜色直方图、法向量直方图三种全局特征将待标注图像与训练集中的图像进行特征匹配,构建待标注图像的相似图像检索集;
(2)将步骤1输入的待标注图像及得到的相似图像检索集中的图像进行过分割,生成超像素,并利用梯度核描述符、颜色核描述符以及深度梯度核描述符三种核描述符(Kernel descriptor)提取超像素的特征fi,其中i表示超像素的索引值;计算训练集中各个语义类别所占的比例,分别对各个稀有类别的超像素进行K-means聚类,取每个聚类的中心构建该稀有类别的词典;将所有稀有类别的词典与步骤1得到的相似图像检索集一起作为待标注图像的标签源;
(3)将步骤2得到的待标注图像中的每个超像素的特征与该图像标签源中的所有超像素的特征进行双向特征匹配,生成匹配集匹配度用基于协同表示分类(CRC)的残差度量;其中P,Q分别表示待标注图像中所有超像素的数量和标签源中所有超像素的数量;
(4)把步骤2得到的超像素的特征作为节点,将具有共同边界的超像素相连,构建概率图模型,将求解最大化后验概率的问题转化成求解最小化能量函数的马尔科夫随机场(MRF),其描述如下:
E ( L ) = Σ i ψ data ( l i ) + λ Σ i , j ψ smooth ( l i , l j ) - - - ( 1 )
其中,L表示待标注图像所有超像素的标签集,ψdata是马尔科夫随机场(MRF)的数据项,ψsmooth是马尔科夫随机场(MRF)的平滑项,li和lj分别表示索引值为i和j的超像素的语义标签,λ是平衡系数;
(5)根据步骤3得到的匹配结果构建马尔科夫随机场(MRF)的数据项ψdata,其描述如下:
ψ data ( l i = c ) = | | f i - F c α c * | | 2 if c ∈ C ( S i ) β otherwisr - - - ( 2 )
其中si表示索引值为i的超像素,Fc表示步骤4得到的匹配集mi中标签为c的超像素的核描述符按列排列构建得到的测量矩阵,为测量矩阵Fc对应的系数矩阵,C(si)表示匹配集mi中语义类别集合,β是一个自定义的比大的常数,用来惩罚的情况;
根据图像超像素邻域间的平滑关系构建马尔科夫随机场(MRF)的平滑项ψsmooth,其描述如下:
其中 δ ( c ≠ c ′ ) = 1 c ≠ c ′ 0 c = c ′ - - - ( 4 )
其中表示相邻超像素表面法向量间的平滑性,表示相邻超像素的核描述符之间的平滑性。
2.根据权利要求1所述的方法,其特征在于,所述对待标注图像的相似图像检索集的求解方法具体为:分别计算待标注图像与训练集中所有图像的GIST特征、颜色直方图以及法向量直方图之间的欧氏距离,分别取距离最小的前K1个图像,将三种全局特征匹配得到的3K1个图像的交集作为待标注图像相似图像的检索集,K1是一个自定义的常数。
3.根据权利要求1所述的方法,其特征在于,所述对稀有类别字典的求解方法具体为:计算训练集中各个语义类别所占的比例,将占比不超过3%的语义类别定义为稀有类别,利用K-means聚类分别将属于各个稀有类别的超像素聚成K2类,提取K2个聚类中心作为该稀有类别的词典,K2是一个自定义的常数。
4.根据权利要求1所述的方法,其特征在于,步骤3所述利用双向匹配策略对待标注图像中的每个超像素匹配集的求解方法具体为:对一个待标注的超像素si,先根据该超像素与检索集中超像素核描述符特征的欧氏距离,在检索集中选出距离该超像素最近的K3个超像素,K3是一个自定义的常数;然后对其中的每个超像素sj,根据核描述符特征的欧氏距离在待标注图像中找出其最近邻N(sj),当sj不满足以下条件时,将sj从si的匹配集mi中移除掉,其描述如下:
D(si,N(sj))≤ε1 and H(si,N(sj))≤ε2      (5)
式中D表示超像素间二维的空间距离,H表示超像素三维的高度差。
5.根据权利要求1所述的方法,其特征在于,步骤5所述对马尔科夫随机场(MRF)数据项ψdata的求解方法具体为:用基于协同表示分类(CRC)的匹配残差来构建数据项,其描述如下:
ψ data ( l i = c ) = | | f i - F c α c * | | 2 if c ∈ C ( S i ) β otherwisr - - - ( 6 )
其中 α * = arg min α | | f i - Fα | | 2 2 + | | α | | 2 2 - - - ( 7 )
式中γ是一个自定义的权重标量,F是匹配集mi中所有超像素的核描述符按列排列构建得到的测量矩阵。
6.根据权利要求1所述的方法,其特征在于,所述对马尔科夫随机场(MRF)数据项ψsmooth的求解方法具体为:利用相邻超像素间表面法向量的角度以及特征的相似度来对邻域进行平滑,其描述如下:
δ ( c ≠ c ′ ) = 1 c ≠ c ′ 0 c = c ′
其中
式中ni表示超像素si的表面法向量,σ是一个自定义的常数。
CN201510039559.XA 2015-01-27 2015-01-27 基于概率图模型的非参数化的rgb-d场景理解方法 Expired - Fee Related CN104599275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510039559.XA CN104599275B (zh) 2015-01-27 2015-01-27 基于概率图模型的非参数化的rgb-d场景理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510039559.XA CN104599275B (zh) 2015-01-27 2015-01-27 基于概率图模型的非参数化的rgb-d场景理解方法

Publications (2)

Publication Number Publication Date
CN104599275A true CN104599275A (zh) 2015-05-06
CN104599275B CN104599275B (zh) 2018-06-12

Family

ID=53125025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510039559.XA Expired - Fee Related CN104599275B (zh) 2015-01-27 2015-01-27 基于概率图模型的非参数化的rgb-d场景理解方法

Country Status (1)

Country Link
CN (1) CN104599275B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488809A (zh) * 2016-01-14 2016-04-13 电子科技大学 基于rgbd描述符的室内场景语义分割方法
CN105825502A (zh) * 2016-03-12 2016-08-03 浙江大学 一种基于显著性指导的词典学习的弱监督图像解析方法
CN105844292A (zh) * 2016-03-18 2016-08-10 南京邮电大学 一种基于条件随机场和二次字典学习的图像场景标注方法
CN106611178A (zh) * 2016-03-10 2017-05-03 四川用联信息技术有限公司 一种显著目标识别方法
CN106777388A (zh) * 2017-02-20 2017-05-31 华南理工大学 一种双重补偿的多表哈希图像检索方法
WO2017088125A1 (zh) * 2015-11-25 2017-06-01 中国科学院自动化研究所 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置
CN107204000A (zh) * 2017-04-24 2017-09-26 天津大学 基于Kinect深度相机的人体分割方法
CN107886513A (zh) * 2016-09-29 2018-04-06 法乐第(北京)网络科技有限公司 一种确定训练样本的装置
CN107993220A (zh) * 2017-11-14 2018-05-04 北京理工大学 X射线造影图像中血管结构的提取方法及装置
CN108897778A (zh) * 2018-06-04 2018-11-27 四川创意信息技术股份有限公司 一种基于多源大数据分析的图像标注方法
CN109214235A (zh) * 2017-06-29 2019-01-15 沈阳新松机器人自动化股份有限公司 室外场景分类方法及系统
CN109255043A (zh) * 2018-09-14 2019-01-22 哈尔滨工业大学 基于场景理解的图像检索方法
CN109740658A (zh) * 2018-12-28 2019-05-10 陕西师范大学 一种基于带权图的半监督图像分类方法
WO2019109524A1 (zh) * 2017-12-07 2019-06-13 平安科技(深圳)有限公司 入侵检测方法、应用服务器及计算机可读存储介质
CN110110795A (zh) * 2019-05-10 2019-08-09 厦门美图之家科技有限公司 图像分类方法及装置
CN110210431A (zh) * 2019-06-06 2019-09-06 上海黑塞智能科技有限公司 一种基于点云语义标注和优化的点云分类方法
CN110287941A (zh) * 2019-07-03 2019-09-27 哈尔滨工业大学 一种基于概念学习的透彻感知与动态理解方法
CN110309335A (zh) * 2019-07-03 2019-10-08 腾讯科技(深圳)有限公司 一种图片匹配方法、装置、设备及存储介质
CN110570352A (zh) * 2019-08-26 2019-12-13 腾讯科技(深圳)有限公司 图像标注方法、装置、系统及细胞标注方法
CN111179271A (zh) * 2019-11-22 2020-05-19 浙江众合科技股份有限公司 一种基于检索匹配的物体角度信息标注方法及电子设备
CN111444858A (zh) * 2020-03-30 2020-07-24 哈尔滨工程大学 一种移动机器人场景理解方法
CN111612832A (zh) * 2020-04-29 2020-09-01 杭州电子科技大学 一种利用多任务互补提高深度估计准确性的方法
CN112990374A (zh) * 2021-04-28 2021-06-18 平安科技(深圳)有限公司 图像分类方法、装置、电子设备及介质
CN113313294A (zh) * 2021-05-19 2021-08-27 国网山东省电力公司淄博供电公司 一种电力系统重要节点、重要输电线路预测算法
CN116563638A (zh) * 2023-05-19 2023-08-08 广东石油化工学院 一种基于情景记忆的图像分类模型优化方法和系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100040300A1 (en) * 2008-08-18 2010-02-18 Samsung Techwin Co., Ltd. Image processing method and apparatus for correcting distortion caused by air particles as in fog
US20110285910A1 (en) * 2006-06-01 2011-11-24 Canesta, Inc. Video manipulation of red, green, blue, distance (RGB-Z) data including segmentation, up-sampling, and background substitution techniques
CN102982560A (zh) * 2011-11-02 2013-03-20 微软公司 根据rgb和深度图像的表面分割
CN103139476A (zh) * 2011-11-30 2013-06-05 佳能株式会社 图像摄取装置及图像摄取装置的控制方法
CN103337072A (zh) * 2013-06-19 2013-10-02 北京航空航天大学 一种基于纹理与几何属性联合模型的室内对象解析方法
CN103366361A (zh) * 2012-04-05 2013-10-23 联发科技(新加坡)私人有限公司 区域增长方法以及具有标记功能的区域增长方法
CN103530894A (zh) * 2013-10-25 2014-01-22 合肥工业大学 一种基于多尺度块稀疏表示的视频目标追踪方法及其系统
CN103942797A (zh) * 2014-04-24 2014-07-23 中国科学院信息工程研究所 基于直方图和超像素的场景图像文字检测方法及系统
CN104112363A (zh) * 2014-07-04 2014-10-22 西安交通大学 多传感数据时空同步方法及道路多传感数据车载采集系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110285910A1 (en) * 2006-06-01 2011-11-24 Canesta, Inc. Video manipulation of red, green, blue, distance (RGB-Z) data including segmentation, up-sampling, and background substitution techniques
US20100040300A1 (en) * 2008-08-18 2010-02-18 Samsung Techwin Co., Ltd. Image processing method and apparatus for correcting distortion caused by air particles as in fog
CN102982560A (zh) * 2011-11-02 2013-03-20 微软公司 根据rgb和深度图像的表面分割
CN103139476A (zh) * 2011-11-30 2013-06-05 佳能株式会社 图像摄取装置及图像摄取装置的控制方法
CN103366361A (zh) * 2012-04-05 2013-10-23 联发科技(新加坡)私人有限公司 区域增长方法以及具有标记功能的区域增长方法
CN103337072A (zh) * 2013-06-19 2013-10-02 北京航空航天大学 一种基于纹理与几何属性联合模型的室内对象解析方法
CN103530894A (zh) * 2013-10-25 2014-01-22 合肥工业大学 一种基于多尺度块稀疏表示的视频目标追踪方法及其系统
CN103942797A (zh) * 2014-04-24 2014-07-23 中国科学院信息工程研究所 基于直方图和超像素的场景图像文字检测方法及系统
CN104112363A (zh) * 2014-07-04 2014-10-22 西安交通大学 多传感数据时空同步方法及道路多传感数据车载采集系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
P. KOHLI ET AL.: "A Principled Deep Random Field Model for Image Segmentation", 《PROCEEDINGS OF THE 2013 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017088125A1 (zh) * 2015-11-25 2017-06-01 中国科学院自动化研究所 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置
US10496897B2 (en) 2015-11-25 2019-12-03 Institute Of Automation Chinese Academy Of Sciences Method and apparatus for recognizing RGB-D objects based on adaptive similarity measure of dense matching item
CN105488809A (zh) * 2016-01-14 2016-04-13 电子科技大学 基于rgbd描述符的室内场景语义分割方法
CN105488809B (zh) * 2016-01-14 2018-04-17 电子科技大学 基于rgbd描述符的室内场景语义分割方法
CN106611178A (zh) * 2016-03-10 2017-05-03 四川用联信息技术有限公司 一种显著目标识别方法
CN105825502A (zh) * 2016-03-12 2016-08-03 浙江大学 一种基于显著性指导的词典学习的弱监督图像解析方法
CN105825502B (zh) * 2016-03-12 2018-06-15 浙江大学 一种基于显著性指导的词典学习的弱监督图像解析方法
CN105844292A (zh) * 2016-03-18 2016-08-10 南京邮电大学 一种基于条件随机场和二次字典学习的图像场景标注方法
CN105844292B (zh) * 2016-03-18 2018-11-30 南京邮电大学 一种基于条件随机场和二次字典学习的图像场景标注方法
CN107886513A (zh) * 2016-09-29 2018-04-06 法乐第(北京)网络科技有限公司 一种确定训练样本的装置
CN106777388A (zh) * 2017-02-20 2017-05-31 华南理工大学 一种双重补偿的多表哈希图像检索方法
CN106777388B (zh) * 2017-02-20 2020-11-24 华南理工大学 一种双重补偿的多表哈希图像检索方法
CN107204000A (zh) * 2017-04-24 2017-09-26 天津大学 基于Kinect深度相机的人体分割方法
CN109214235A (zh) * 2017-06-29 2019-01-15 沈阳新松机器人自动化股份有限公司 室外场景分类方法及系统
CN107993220A (zh) * 2017-11-14 2018-05-04 北京理工大学 X射线造影图像中血管结构的提取方法及装置
WO2019109524A1 (zh) * 2017-12-07 2019-06-13 平安科技(深圳)有限公司 入侵检测方法、应用服务器及计算机可读存储介质
CN108897778A (zh) * 2018-06-04 2018-11-27 四川创意信息技术股份有限公司 一种基于多源大数据分析的图像标注方法
CN108897778B (zh) * 2018-06-04 2021-12-31 创意信息技术股份有限公司 一种基于多源大数据分析的图像标注方法
CN109255043A (zh) * 2018-09-14 2019-01-22 哈尔滨工业大学 基于场景理解的图像检索方法
CN109255043B (zh) * 2018-09-14 2020-08-11 哈尔滨工业大学 基于场景理解的图像检索方法
CN109740658A (zh) * 2018-12-28 2019-05-10 陕西师范大学 一种基于带权图的半监督图像分类方法
CN109740658B (zh) * 2018-12-28 2023-04-18 陕西师范大学 一种基于带权图的半监督图像分类方法
CN110110795A (zh) * 2019-05-10 2019-08-09 厦门美图之家科技有限公司 图像分类方法及装置
CN110210431A (zh) * 2019-06-06 2019-09-06 上海黑塞智能科技有限公司 一种基于点云语义标注和优化的点云分类方法
CN110287941A (zh) * 2019-07-03 2019-09-27 哈尔滨工业大学 一种基于概念学习的透彻感知与动态理解方法
CN110309335A (zh) * 2019-07-03 2019-10-08 腾讯科技(深圳)有限公司 一种图片匹配方法、装置、设备及存储介质
CN110287941B (zh) * 2019-07-03 2022-12-27 哈尔滨工业大学 一种基于概念学习的透彻感知与动态理解方法
CN110309335B (zh) * 2019-07-03 2023-01-06 腾讯科技(深圳)有限公司 一种图片匹配方法、装置、设备及存储介质
CN110570352A (zh) * 2019-08-26 2019-12-13 腾讯科技(深圳)有限公司 图像标注方法、装置、系统及细胞标注方法
CN111179271B (zh) * 2019-11-22 2021-05-11 浙江众合科技股份有限公司 一种基于检索匹配的物体角度信息标注方法及电子设备
CN111179271A (zh) * 2019-11-22 2020-05-19 浙江众合科技股份有限公司 一种基于检索匹配的物体角度信息标注方法及电子设备
CN111444858A (zh) * 2020-03-30 2020-07-24 哈尔滨工程大学 一种移动机器人场景理解方法
CN111612832B (zh) * 2020-04-29 2023-04-18 杭州电子科技大学 一种利用多任务互补提高深度估计准确性的方法
CN111612832A (zh) * 2020-04-29 2020-09-01 杭州电子科技大学 一种利用多任务互补提高深度估计准确性的方法
CN112990374A (zh) * 2021-04-28 2021-06-18 平安科技(深圳)有限公司 图像分类方法、装置、电子设备及介质
CN112990374B (zh) * 2021-04-28 2023-09-15 平安科技(深圳)有限公司 图像分类方法、装置、电子设备及介质
CN113313294A (zh) * 2021-05-19 2021-08-27 国网山东省电力公司淄博供电公司 一种电力系统重要节点、重要输电线路预测算法
CN116563638A (zh) * 2023-05-19 2023-08-08 广东石油化工学院 一种基于情景记忆的图像分类模型优化方法和系统
CN116563638B (zh) * 2023-05-19 2023-12-05 广东石油化工学院 一种基于情景记忆的图像分类模型优化方法和系统

Also Published As

Publication number Publication date
CN104599275B (zh) 2018-06-12

Similar Documents

Publication Publication Date Title
CN104599275A (zh) 基于概率图模型的非参数化的rgb-d场景理解方法
Kestur et al. UFCN: A fully convolutional neural network for road extraction in RGB imagery acquired by remote sensing from an unmanned aerial vehicle
CN110363122B (zh) 一种基于多层特征对齐的跨域目标检测方法
Zalpour et al. A new approach for oil tank detection using deep learning features with control false alarm rate in high-resolution satellite imagery
Huttunen et al. Car type recognition with deep neural networks
CN105138998B (zh) 基于视角自适应子空间学习算法的行人重识别方法及系统
CN105046688B (zh) 一种三维点云中的多平面自动识别方法
CN102324047B (zh) 基于稀疏核编码skr的高光谱图像地物识别方法
CN106951830B (zh) 一种基于先验条件约束的图像场景多对象标记方法
EP3029606A2 (en) Method and apparatus for image classification with joint feature adaptation and classifier learning
WO2017113232A1 (zh) 一种基于深度学习的产品分类方法及装置
CN105825502B (zh) 一种基于显著性指导的词典学习的弱监督图像解析方法
CN106227851A (zh) 基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法
CN110309842B (zh) 基于卷积神经网络的物体检测方法及装置
CN112016605B (zh) 一种基于边界框角点对齐和边界匹配的目标检测方法
CN114842264B (zh) 一种基于多尺度空谱特征联合学习的高光谱图像分类方法
CN110163239A (zh) 一种基于超像素和条件随机场的弱监督图像语义分割方法
CN112991269A (zh) 一种肺部ct图像的识别分类方法
Golovko et al. Development of solar panels detector
CN104112018A (zh) 一种大规模图像检索方法
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN105740891A (zh) 基于多层次特征提取和上下文模型的目标检测
Huo et al. A batch-mode active learning algorithm using region-partitioning diversity for SVM classifier
CN113032613B (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
CN114973031B (zh) 一种无人机视角下的可见光-热红外图像目标检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180612

Termination date: 20190127