CN108038498B - 一种基于子图匹配的室内场景对象语义标注方法 - Google Patents

一种基于子图匹配的室内场景对象语义标注方法 Download PDF

Info

Publication number
CN108038498B
CN108038498B CN201711270750.0A CN201711270750A CN108038498B CN 108038498 B CN108038498 B CN 108038498B CN 201711270750 A CN201711270750 A CN 201711270750A CN 108038498 B CN108038498 B CN 108038498B
Authority
CN
China
Prior art keywords
graph
semantic
class
node
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711270750.0A
Other languages
English (en)
Other versions
CN108038498A (zh
Inventor
李素琴
王立春
张勇
孔德慧
王玉萍
尹宝才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201711270750.0A priority Critical patent/CN108038498B/zh
Publication of CN108038498A publication Critical patent/CN108038498A/zh
Application granted granted Critical
Publication of CN108038498B publication Critical patent/CN108038498B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于子图匹配的室内场景对象语义标注方法,利用实例图建模待标注场景中对象间的上下文关系,利用知识图建模语义类别间的上下文关系,通过子图匹配算法寻找实例图对应的知识图子图,实现对象到语义类别的映射,为室内场景中的每一个对象提供语义标签。

Description

一种基于子图匹配的室内场景对象语义标注方法
技术领域
本发明属于多媒体技术领域,尤其涉及一种基于子图匹配的室内场景对象语义标注方法。
背景技术
室内场景对象语义标注是室内场景解析的核心任务之一,其基本目标是为对象层次的分割区域提供语义标签。在语义标注领域,室内场景语义标注因为其内在的固有属性(即,存在大量的语义类别,物体间存在遮挡以及视觉特征缺乏较强辨识能力等问题),受到了越来越多的关注。与目标识别关注特殊前景对象不同,语义标注需要一次性处理场景中的所有对象,并将对象分成若干类。研究表明在室内场景语义标注中引入对象级别的上下文先验,有助于提高语义标注的准确性。根据是否利用对象级别的上下文先验,室内场景语义标注方法大致可分为两类,一类是上下文无关的语义标注,一类是上下文相关的语义标注。
上下文无关的语义标注方法首先提取待标注区域的特征表示,然后基于特征表示利用分类器计算语义标签。常用分类器包括:决策树、朴素贝叶斯、人工神经网络、KNN(K-Nearest Neighbour)、SVM(support vector machines)等。决策树是非参数的,所以不需要担心离群点和数据是否线性可分,例如,决策树可以轻松处理这种情况:属于A类样本的特征x取值往往非常小或者非常大,而属于B类样本的特征x取值在中间范围。决策树的主要缺点是容易过拟合。朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率,但实际上并非总是如此。这是因为朴素贝叶斯模型假设属性之间相互独立,而这个假设在实际应用中往往是不成立的。人工神经网络虽然具有分类准确度高,并行分布处理能力、学习能力和鲁棒性强等特点,但是需要大量的参数(如,网络拓扑结构、权值和阈值的初始值),不能观察学习过程,输出结果难以解释。KNN是一种简单有效的分类方法,重新训练的代价较低,该算法适用于样本容量比较大的类域的自动分类,而对于样本容量较小的类域,采用这种算法容易产生误分。相对的,SVM可以解决小样本情况下的机器学习问题,提高泛化性能,解决高维和非线性问题,避免神经网络结构选择和局部极小点问题。关于复杂分类器,Couprie等采用一种多尺度卷积网络,从场景图像中非监督地学习特征描述子。分类器可以为每个像素进行语义标签推断并将推断结果融合至超像素中,获取非监督的图像语义标注结果。该方法的缺点在于需要大量的模型训练时间。关于简单分类器,P Guo等提出一种优化SVM分类器用于图像语义标注,将用于优化训练集的基于近邻传播算法的LVQ(Learning VectorQuantization)技术和用来训练SVM的一些代表性特征向量相结合。该方法不仅满足了SVM的小样本特性,而且大大加快了训练和标注过程。
上下文相关的语义标注在以上方法的基础上兼顾待标注区域间的语义关系,其中有大量的相关研究工作采用了MRF(Markov random field)和CRF(conditional randomfield)概率图模型进行上下文建模。基于MRF,Ren等提出了一种语义标注性能较为优越的室内场景语义标注方法。该方法充分利用超像素区域层次化结构来构建树状模型,并将树状模型与MRF概率图模型结合,使用已训练的1-vs-all线性SVM分类器,为RGB彩色图像中的每一个超像素赋予语义类别标签。MRF是一种生成模型,必须先得出变量的概率模型参数,再进行推断任务。由于需要考虑观察变量y和标签变量x的概率分布问题,这本身就是一个非常困难的问题。当我们的兴趣点在于标签而不是原始像素y的分布时,并没有必要花费资源考虑y的概率分布问题。CRF便是在这一点的基础上提出的一种判别式无向概率图模型。Xiong等扩展传统二维视觉中的网格CRF模型到三维空间,充分挖掘和利用任意三维对象之间的空间上下文信息,如平行、正交、邻接和共面,并根据四类几何标签(墙壁,地板,天花板,杂物)标记室内场景。
上下文无关的分类器不考虑对象实例之间的上下文关系,只能独立预测对象实例的标签。CRF虽然能够编码观测之间的已知关系,并构造一致性解释,但训练代价大,复杂度高。特别的,CRF对特征选择的依赖性较高,当特征的描述能力不符合期望时,其标注性能低于简单的SVM分类器。
发明内容
本发明针对上下文无关标注方法忽略对象间的上下文关系和CRF训练代价大的问题,提出了一种将SVM分类器和子图匹配技术相结合的基于上下文室内场景对象语义标注方法。该方法利用实例图建模待标注场景中对象间的上下文关系,利用知识图建模语义类别间的上下文关系,通过子图匹配算法寻找实例图对应的知识图子图,实现对象到语义类别的映射,为场景中的每一个对象提供语义标签。
为实现上述目的,本发明采用如下的技术方案:
一种基于子图匹配的室内场景对象语义标注方法,包括以下步骤:
步骤1、在CPMC(Constrained Parametric Min-Cuts)算法的基础上,根据深度和外观线索,自底而上地生成独立的对象候选区域,然后拟合候选区域,生成长方体;
步骤2、根据步骤1确定的训练集中的拟合长方体及其标注信息,统计对象级上下文语义,即“共现”、“邻近”、“之上”;
步骤3、构建知识图/实例图
所述知识图/实例图是无向图G=(V,E,α,β),V={v|v是场景中的拟合长方体},E={(u,v)|u∈V,v∈V},
Figure BDA0001495535210000035
Figure BDA0001495535210000036
α:V→LV是节点标记函数,LV是语义类别标签,β:E→LE是边标记函数,LE是包含4个元素的向量,
Figure BDA0001495535210000031
分别表示对象间的“共现”、“邻近”、“之上一”、“之上二”四种类型上下文关系;实例图中
Figure BDA0001495535210000032
的取值为1或0,表示存在或不存在相应语义关系;知识图中
Figure BDA0001495535210000033
表示相应语义关系的先验知识,其值是从训练场景集合中统计得到的,分别对应于四类上下文关系的统计概率
Figure BDA0001495535210000034
步骤4、特征选择与SVM分类器训练
用于描述三维长方体几何性质的参数包括:高度、较长的宽度、较短的宽度、水平纵横比、垂直纵横比、面积、体积、平行于墙、靠近墙和靠近地面;基于以上几何特征训练以RBF核(Radial Basis Function)作为核函数的SVM分类器,然后对类别分数按降序进行排序,并选择前h个分数对应的类别构建候选匹配集合,集合中的每个元素是实例图节点允许匹配的语义类别标签,定义RBF-SVM分类器,如(6)式:
Figure BDA0001495535210000041
其中,ck是权重,
Figure BDA0001495535210000042
是第k个长方体的特征向量,n是训练集中长方体的总数,yk∈{1,-1}用来指示
Figure BDA0001495535210000043
所属的类别,b是偏移,
Figure BDA0001495535210000044
步骤5、子图匹配
基于子图同构算法为分割对象分配标签,子图同构定义如下:
令Gp=(Vp,Eppp),Gt=(Vt,Ettt)分别表示模式图和目标图,其中V是图中的顶点集,E是顶点之间的边集;如果存在一个双射函数f满足Vp→Vt
Figure BDA0001495535210000049
Figure BDA00014955352100000410
αp(v)=αt(f(v));
Figure BDA00014955352100000411
βp((u,v))=βt((f(u),f(v))),则称Gp子图同构于Gt
基于单个待标注场景构建的实例图即为模式图,节点是依据步骤1计算得到的拟合长方体,每个节点有h个依据SVM分类计算得到的候选语义标签,且每个标签关联一个分值,图中边的标记函数值
Figure BDA0001495535210000048
是依据步骤2计算得到的上下文;目标图则是基于训练集中全部样本构建的知识图;
修改Ullmann算法的限制条件,允许匹配自环;放宽Ullmann算法中边匹配的约束条件;基于打分函数选择得分最高的子图作为实例图的最佳匹配,将知识图子图中对象节点的标签分配给对应的实例图对象节点,使得αp(v)=αt(f(v)),得到最终的语义标注。
作为优选,步骤1具体为:
步骤1.1、自底而上生成三维区域候选
CPMC采用参数化最小分割方法从等间隔的种子中产生多个前景候选变量,总的目标是最小化能量函数,求得对应的像素标签,如(1)式:
arg minXu∈PCλ(xu)+∑(u,v)∈εVuv(xu,xv) (1)
其中,X={x1,…,xN}是像素标签,xi∈{0,1},xi=1表示像素i是前景像素,xi=0则表示像素i是背景像素,N是总的像素数量,P是包含全部像素的集合,ε是邻接像素之间的边;(1)式中的Cλ定义单一势能:
Figure BDA0001495535210000051
其中,
Figure BDA0001495535210000057
是偏移,Vb是背景像素,Vf是前景像素,函数f定义为f(xu)=ln pf(xu)-ln pb(xu),pf表示像素u属于前景的概率分布,pb表示像素u属于背景的概率分布,(1)式中的成对项Vuv用来惩罚分配不同标签给相似邻接节点的情况:
Figure BDA0001495535210000052
两个邻接像素之间的相似性:
Figure BDA0001495535210000053
Figure BDA0001495535210000054
gPb(u)是像素u属于对象分割边界的概率。
步骤1.2、拟合长方体
首先对CMPC算法得到的对象分数进行排序,非极大值抑制处理后,选择前k个候选区域,然后在每个候选区域上拟合三维长方体,生成候选长方体。
作为优选,步骤2中“共现”关系为:两个对象同时出现在一个特定场景内,其具体定义如(5)式:
Figure BDA0001495535210000055
其中
Figure BDA0001495535210000056
表示第j个训练样本中的第i个长方体,Ntr是训练样本的总数,
Figure BDA0001495535210000058
是指示函数,当某个场景同时存在标注为类l和类l′的长方体时,
Figure BDA0001495535210000059
对于类l和类l′的多个实例存在于同一场景的情况,类l和类l′在该场景的共现关系只计数一次;
步骤2中“邻近”和“之上”关系为:
如果两个对象之间的距离小于0.5米,则认为它们是邻近的;如果对象A比对象B高,并且A有80%的地面投影落在B内,则A在B之上。
作为优选,步骤5具体为:
输入是有n个对象节点的实例图Gp和有m个对象节点的知识图Gt,输出是实例图的节点语义标签集合LV={l1,l2,…,ln},具体的语义标注步骤如下:
Step1:设置矩阵Mn×m,如果图Gp第i个对象节点的候选匹配集合中存在图Gt第j个对象节点相应的语义类别标签,并且第i个对象节点的度小于等于图Gt中第j个对象节点的度,则令Mij=1,反之Mij=0;
Step2:从n×m维矩阵M中生成
Figure BDA0001495535210000061
个二维矩阵M′n×m,其中
Figure BDA0001495535210000062
M′ij=1→Mij=1,且‖M′i1=1。每个M′表示实例图对象节点和知识图对象节点的一种映射关系,以上‖·‖1表示向量的1范数,即向量非零元素的个数;
Step3:令矩阵Pn×n和Tm×m分别表示实例图和知识图的邻接矩阵,矩阵Q=M′(M′T)T,如果对于任意i、j有Pij=1→Qij=1,则M′是图Gp和图Gt的一个子图同构映射矩阵,Q是与图Gp同构的一个知识图子图的邻接矩阵。因此,每一个Q对应一个同构于实例图的知识图子图;
Step4:对每个同构于实例图的知识图子图,按照(7)式进行打分评价其与实例图的匹配关系:
Figure BDA0001495535210000063
其中,
Figure BDA0001495535210000064
表示实例图中节点vi与知识图中节点vj的匹配分数,即,实例图中节点vi利用步骤4的RBF-SVM分类器计算得到的相应于知识图中节点vj语义类别的分数。
Figure BDA0001495535210000065
表示实例图中边ex与知识图中边ey的匹配分数;
边匹配分数定义如(8)式:
Figure BDA0001495535210000066
其中,C是上下文的数目,wi是第i类上下文的权重。
Figure BDA0001495535210000067
表示第i类上下文的匹配分数:
Figure BDA0001495535210000071
其中,
Figure BDA0001495535210000072
分别表示实例图中边ex和知识图中边ey的标签向量的第i个分量,对应于第i类上下文。τi是常数,用来惩罚实例图中存在第i类上下文而知识图中不存在第i类上下文的情况;
Step5:对Step4计算得到的所有分数进行排序,评分值最高的知识图子图即是实例图的最佳匹配,则实例图节点的标签
L(Gp)={αp(v)|αp(v)=αt(f(v))}。
附图说明
图1为本发明的流程示意图;
图2为拟合长方体的示意图;
图3为匹配过程示意图;
图4为搜索树实例图。
具体实施方式
本发明提供一种基于子图匹配的室内场景对象语义标注方法,建立在以下的理论基础之上:室内场景中的对象不是随机散落的,其尺寸、位置,以及附近会出现什么对象都遵循一些基本规律,这些规律被称为上下文。上下文信息可以有效地去除室内场景中不大可能存在的物体或者物体组合方式,约束相似室内场景使其在语义描述上具有较高的一致性。如,某个物体的特征与沙发的特征相似,该物体却出现在浴室场景里时,基于上下文信息可以拒绝标注该物体为沙发,从而提高语义标注的正确率。考虑到图这种数据结构刻画事物联系时的简洁性,本发明以图作为描述上下文的载体。具体来说,本发明基于对象级别的上下文信息构建知识图/实例图,其中,知识图通过统计多个已标注场景中对象的上下文信息构建,实例图基于单个待标注场景构建,并利用子图匹配方法从知识图中搜索源模式(实例图)对应的目标模式(知识图的子图),将最佳匹配的知识图子图节点标签作为实例图节点的语义标签,从而舍弃CRF复杂的学习推断过程,提高分类效率。
本发明在NYUv2 RGB-D数据集上做测试,该数据集包含1449个室内场景,共894类对象,由于类别过多导致上下文关系过于复杂而难以利用。为解决这个问题,本发明不考虑地板、天花板和墙壁,手工清理类列表,合并类似的类,并丢弃那些偶尔出现的类,得到21类对象。然后在RGB-D图像上检测21类对象的实例,拟合生成6680个ground-truth长方体。最后,将数据集划分为两个不相交的子集,分别用于训练和测试。训练集中包含795个室内场景(3630个对象),测试集中包含645个室内场景(3050个对象)。
本发明所提出方法的具体步骤如下:
1.RGB-D图像上的三维对象检测
本发明在CPMC(Constrained Parametric Min-Cuts)算法的基础上,根据深度和外观线索,自底而上地生成独立的对象候选区域,然后拟合候选区域,生成长方体。
1.1自底而上生成三维区域候选
CPMC采用参数化最小分割方法从等间隔的种子中产生多个前景候选变量,总的目标是最小化能量函数,求得对应的像素标签,如(1)式:
arg minXu∈PCλ(xu)+∑(u,v)∈εVuv(xu,xv) (1)
其中,X={x1,…,xN}是像素标签,xi∈{0,1},xi=1表示像素i是前景像素,xi=0则表示像素i是背景像素,N是总的像素数量,P是包含全部像素的集合,ε是邻接像素之间的边。(1)式中的Cλ定义单一势能:
Figure BDA0001495535210000081
这里
Figure BDA0001495535210000082
是偏移。Vb是背景像素,Vf是前景像素。函数f定义为f(xu)=ln pf(xu)-ln pb(xu),其中pf表示像素u属于前景的概率分布,pb表示像素u属于背景的概率分布。(1)式中的成对项Vuv用来惩罚分配不同标签给相似邻接节点的情况:
Figure BDA0001495535210000091
两个邻接像素之间的相似性:
Figure BDA0001495535210000092
Figure BDA0001495535210000093
gPb(u)是像素u属于对象分割边界的概率。
1.2拟合长方体
本发明从候选区域生成长方体。具体来说,首先对CMPC算法得到的对象分数进行排序,非极大值抑制处理后,选择前k个候选区域,然后在每个候选区域上拟合三维长方体,生成候选长方体。实现这一目标的方法是将给定区域中的像素映射到三维坐标系中,并在它们的周围找到最小的包围长方体,如图2所示。
本发明中,训练集和测试集中的场景图像均依据步骤1.1-1.2计算拟合长方体。其中,对训练集中的拟合长方体手工标注语义类别信息。
2.上下文统计
上下文通常能为对象识别提供有用的信息,例如,桌子上的物体更有可能是鼠标,而不是大象的尾巴。本发明的上下文关系主要考虑对象间的三类语义关系:“共现”关系,“邻近”关系,“之上”关系。
2.1“共现”关系
对象与对象之间的共现关系定义如(5)式:
Figure BDA0001495535210000094
其中
Figure BDA0001495535210000095
表示第j个训练样本(每个训练样本是一个RGBD图像对)中的第i个长方体,Ntr是训练样本的总数。
Figure BDA0001495535210000096
是指示函数,当某个场景同时存在标注为类l和类l′的长方体时,
Figure BDA0001495535210000097
值得注意的是,对于类l和类l′的多个实例存在于同一场景的情况,类l和类l′在该场景的共现关系只计数一次。
2.2“邻近”和“之上”关系
如果两个对象之间的距离小于0.5米,则认为它们是邻近的。如果对象A比对象B高,并且A有80%的地面投影落在B内,则A在B之上。
本发明基于步骤1确定的训练集中的拟合长方体及其标注信息,依据步骤2.1-2.2统计对象级上下文语义(“共现”、“邻近”、“之上”)。
3.知识图/实例图构建
直观上,如图3所示,图中的●节点表示场景中的对象,□节点表示对象存在语义关系,█节点表示语义关系类型。
形式上,本发明的知识图/实例图是无向图G=(V,E,α,β),V={v|v是场景中的拟合长方体},E={(u,v)|u∈V,v∈V},
Figure BDA0001495535210000101
Figure BDA0001495535210000102
α:V→LV是节点标记函数,LV是语义类别标签。β:E→LE是边标记函数,LE是包含4个元素的向量,
Figure BDA0001495535210000103
分别表示对象间的“共现”、“邻近”、“之上一”、“之上二”四种类型上下文关系。由于知识图/实例图中的边是无向边,而边所表示的上下文“之上”具有明确的方向指向,因此将对象A和B的“之上”上下文拆分为“之上一”和“之上二”,分别表示A在B之上和B在A之上。实例图中
Figure BDA0001495535210000104
的取值为1或0,表示存在或不存在相应语义关系;知识图中
Figure BDA0001495535210000105
表示相应语义关系的先验知识,其值是从训练场景集合中统计得到的,分别对应于四类上下文关系的统计概率
Figure BDA0001495535210000106
4.特征选择与SVM分类器训练
对象的几何属性是与外观和深度特征互补的判别信息。例如,床往往是平坦的,而冰箱通常比较高。本发明用以描述三维长方体几何性质的参数包括:高度、较长的宽度、较短的宽度、水平纵横比、垂直纵横比、面积、体积、平行于墙、靠近墙和靠近地面。这些属性不仅能够捕获对象的内在属性,还能得到其在场景布局中的相对位置。本发明在几何特征上训练以RBF核(Radial Basis Function)作为核函数的SVM分类器,然后对类别分数按降序进行排序,并选择前h个分数对应的类别构建候选匹配集合,集合中的每个元素是实例图节点允许匹配的语义类别标签。定义RBF-SVM分类器,如(6)式:
Figure BDA0001495535210000111
其中,ck是权重,
Figure BDA0001495535210000112
是第k个长方体的特征向量,n是训练集中长方体的总数,yk∈{1,-1}用来指示
Figure BDA0001495535210000113
所属的类别,b是偏移,
Figure BDA0001495535210000114
5.子图匹配
子图匹配的数学基础是图论中经典的子图同构问题,一个著名的NP问题。本发明基于子图同构算法为分割对象分配标签,子图同构定义如下:
令Gp=(Vp,Eppp),Gt=(Vt,Ettt)分别表示模式图和目标图,其中V是图中的顶点集,E是顶点之间的边集。如果存在一个双射函数f满足Vp→Vt
Figure BDA0001495535210000115
Vpp(v)=αt(f(v));
Figure BDA0001495535210000116
βp((u,v))=βt((f(u),f(v))),则称Gp子图同构于Gt
本发明中,基于单个待标注场景构建的实例图即为模式图,节点是依据步骤1计算得到的拟合长方体,每个节点有h个依据SVM分类计算得到的候选语义标签,且每个标签关联一个分值,图中边的标记函数值
Figure BDA0001495535210000117
是依据步骤2计算得到的上下文。目标图则是基于训练集中全部样本构建的知识图。
本发明改进子图同构Ullmann算法,修改Ullmann算法的限制条件,允许匹配自环;由于场景中上下文关系的出现存在一定的随机性,本发明定义(9)式放宽Ullmann算法中边匹配的约束条件。最后,基于打分函数选择得分最高的子图作为实例图的最佳匹配,将知识图子图中对象节点的标签分配给对应的实例图对象节点,使得αp(v)=αt(f(v)),得到最终的语义标注。特别地,本算法的实现基于搜索树,如图4所示。
本发明的输入是有n个对象节点的实例图Gp和有m个对象节点的知识图Gt,输出是实例图的节点语义标签集合L(Gp)={l1,l2,…,ln},具体的语义标注步骤如下:
Step1:设置矩阵Mn×m,如果图Gp第i个对象节点的候选匹配集合中存在图Gt第j个对象节点相应的语义类别标签,并且第i个对象节点的度小于等于图Gt中第j个对象节点的度,则令Mij=1,反之Mij=0。
Step2:从n×m维矩阵M中生成
Figure BDA0001495535210000121
个二维矩阵M′n×m,其中
Figure BDA0001495535210000122
M′ij=1→Mij=1,且‖M′i1=1。每个M′表示实例图对象节点和知识图对象节点的一种映射关系。以上‖·‖1表示向量的1范数,即向量非零元素的个数。
Step3:令矩阵Pn×n和Tm×m分别表示实例图和知识图的邻接矩阵。矩阵Q=M′(M′T)T,如果对于任意i、j有Pij=1→Qij=1,则M′是图Gp和图Gt的一个子图同构映射矩阵,Q是与图Gp同构的一个知识图子图的邻接矩阵。因此,每一个Q对应一个同构于实例图的知识图子图。
Step4:对每个同构于实例图的知识图子图,按照(7)式进行打分评价其与实例图的匹配关系:
Figure BDA0001495535210000123
其中,
Figure BDA0001495535210000124
表示实例图中节点vi与知识图中节点vj的匹配分数,即,实例图中节点vi利用步骤4的RBF-SVM分类器计算得到的相应于知识图中节点vj语义类别的分数。
Figure BDA0001495535210000125
表示实例图中边ex与知识图中边ey的匹配分数。
边匹配分数定义如(8)式:
Figure BDA0001495535210000126
这里C是上下文的数目,本发明中C=4;wi是第i类上下文的权重。
Figure BDA0001495535210000127
表示第i类上下文的匹配分数:
Figure BDA0001495535210000128
这里
Figure BDA0001495535210000129
分别表示实例图中边ex和知识图中边ey的标签向量的第i个分量,对应于第i类上下文。τi是常数,用来惩罚实例图中存在第i类上下文而知识图中不存在第i类上下文的情况。其中,
Figure BDA0001495535210000131
是步骤3构建知识图时计算的对应于四类上下文关系的统计概率。
Step5:对Step4计算得到的所有分数进行排序,评分值最高的知识图子图即是实例图的最佳匹配,则实例图节点的标签
L(Gp)={αp(v)|αp(v)=αt(f(v))}。
表1本发明与CRF算法在NYU v2数据集上的比较结果
base(不加上下文) CRF Ours
geometry only 42.85% - -
Segmentation only 54.46% - -
seg.+geo. 59.02% - -
geo.+obj-obj - 44.52% 44.92%
geo.+obj-spa - 44.61% 45.02%
geo.+obj-obj+obj-spa - 44.43% 45.97%
seg.+obj-obj - 54.49% 55.34%
seg.+obj-spa - 55.57% 56.30%
seg.+obj-obj+obj-spa - 55.34% 56.82%
unaries+obj-obj - 58.92% 59.28%
unaries+obj-spa - 59.41% 59.64%
unaries+obj-obj+obj-spa - 59.28% 59.87%

Claims (3)

1.一种基于子图匹配的室内场景对象语义标注方法,其特征在于,包括以下步骤:
步骤1、在CPMC(Constrained Parametric Min-Cuts)算法的基础上,根据深度和外观线索,自底而上地生成独立的对象候选区域,然后拟合候选区域,生成长方体;
步骤1具体为:
步骤1.1、自底而上生成三维区域候选
CPMC采用参数化最小分割方法从等间隔的种子中产生多个前景候选变量,总的目标是最小化能量函数,求得对应的像素标签,如(1)式:
arg minXu∈PCλ(xu)+∑(u,v)∈εVuv(xu,xv) (1)
其中,X={x1,…,xN}是像素标签,xi∈{0,1},xi=1表示像素i是前景像素,xi=0则表示像素i是背景像素,N是总的像素数量,P是包含全部像素的集合,ε是邻接像素之间的边;(1)式中的Cλ定义单一势能:
Figure FDA0003127254060000011
其中,
Figure FDA0003127254060000012
是偏移,Vb是背景像素,Vf是前景像素,函数f定义为f(xu)=ln pf(xu)-lnpb(xu),pf表示像素u属于前景的概率分布,pb表示像素u属于背景的概率分布,(1)式中的成对项Vuv用来惩罚分配不同标签给相似邻接节点的情况:
Figure FDA0003127254060000021
两个邻接像素之间的相似性:
Figure FDA0003127254060000022
Figure FDA0003127254060000023
gPb(u)是像素u属于对象分割边界的概率;
步骤1.2、拟合长方体
首先对CMPC算法得到的对象分数进行排序,非极大值抑制处理后,选择前k个候选区域,然后在每个候选区域上拟合三维长方体,生成候选长方体;
步骤2、根据步骤1确定的训练集中的拟合长方体及其标注信息,统计对象级上下文语义,即“共现”、“邻近”、“之上”;
步骤3、构建知识图/实例图
所述知识图/实例图是无向图G=(V,E,α,β),V={v|v是场景中的拟合长方体},
Figure FDA0003127254060000024
Figure FDA0003127254060000025
α:V→LV是节点标记函数,LV是语义类别标签,β:E→LE是边标记函数,LE是包含4个元素的向量,
Figure FDA0003127254060000026
分别表示对象间的“共现”、“邻近”、“之上一”、“之上二”四种类型上下文关系;实例图中
Figure FDA0003127254060000027
的取值为1或0,表示存在或不存在相应语义关系;知识图中
Figure FDA0003127254060000028
表示相应语义关系的先验知识,其值是从训练场景集合中统计得到的,分别对应于四类上下文关系的统计概率Pt (i)
步骤4、特征选择与SVM分类器训练
用于描述三维长方体几何性质的参数包括:高度、较长的宽度、较短的宽度、水平纵横比、垂直纵横比、面积、体积、平行于墙、靠近墙和靠近地面;基于以上几何特征训练以RBF核(Radial Basis Function)作为核函数的SVM分类器,然后对类别分数按降序进行排序,并选择前h个分数对应的类别构建候选匹配集合,集合中的每个元素是实例图节点允许匹配的语义类别标签,定义RBF-SVM分类器,如(6)式:
Figure FDA0003127254060000031
其中,ck是权重,
Figure FDA0003127254060000032
是第k个长方体的特征向量,n是训练集中长方体的总数,yk∈{1,-1}用来指示
Figure FDA0003127254060000033
所属的类别,b是偏移,
Figure FDA0003127254060000034
步骤5、子图匹配
基于子图同构算法为分割对象分配标签,子图同构定义如下:
令Gp=(Vp,Ep,αp,βp),Gt=(Vt,Et,αt,βt)分别表示模式图和目标图,其中V是图中的顶点集,E是顶点之间的边集;如果存在一个双射函数f满足Vp→Vt
Figure FDA0003127254060000035
Figure FDA0003127254060000036
Figure FDA0003127254060000037
则称Gp子图同构于Gt
基于单个待标注场景构建的实例图即为模式图,节点是依据步骤1计算得到的拟合长方体,每个节点有h个依据SVM分类计算得到的候选语义标签,且每个标签关联一个分值,图中边的标记函数值
Figure FDA0003127254060000041
是依据步骤2计算得到的上下文;目标图则是基于训练集中全部样本构建的知识图;
修改Ullmann算法的限制条件,允许匹配自环;放宽Ullmann算法中边匹配的约束条件;基于打分函数选择得分最高的子图作为实例图的最佳匹配,将知识图子图中对象节点的标签分配给对应的实例图对象节点,使得αp(v)=αt(f(v)),得到最终的语义标注。
2.如权利要求1所述的基于子图匹配的室内场景对象语义标注方法,其特征在于,步骤2中“共现”关系为两个对象同时出现在一个特定场景内,其具体定义如(5)式:
Figure FDA0003127254060000042
其中
Figure FDA0003127254060000045
表示第j个训练样本中的第i个长方体,Ntr是训练样本的总数,
Figure FDA0003127254060000043
是指示函数,当某个场景同时存在标注为类l和类l′的长方体时,
Figure FDA0003127254060000044
对于类l和类l′的多个实例存在于同一场景的情况,类l和类l′在该场景的共现关系只计数一次;
步骤2中“邻近”和“之上”关系为:
如果两个对象之间的距离小于0.5米,则认为它们是邻近的;如果对象A比对象B高,并且A有80%的地面投影落在B内,则A在B之上。
3.如权利要求1所述的基于子图匹配的室内场景对象语义标注方法,其特征在于,步骤5具体为:
输入是有n个对象节点的实例图Gp和有m个对象节点的知识图Gt,输出是实例图的节点语义标签集合LV={l1,l2,…,ln},具体的语义标注步骤如下:
Step1:设置矩阵Mn×m,如果图Gp第i个对象节点的候选匹配集合中存在图Gt第j个对象节点相应的语义类别标签,并且第i个对象节点的度小于等于图Gt中第j个对象节点的度,则令Mij=1,反之Mij=0;
Step2:从n×m维矩阵M中生成
Figure FDA0003127254060000051
个二维矩阵M′n×m,其中
Figure FDA0003127254060000052
M′ij=1→Mij=1,且||M′i||1=1;每个M′表示实例图对象节点和知识图对象节点的一种映射关系,以上||·||1表示向量的1范数,即向量非零元素的个数;
Step3:令矩阵Pn×n和Tm×m分别表示实例图和知识图的邻接矩阵,矩阵Q=M′(M′T)T,如果对于任意i、j有Pij=1→Qij=1,则M′是图Gp和图Gt的一个子图同构映射矩阵,Q是与图Gp同构的一个知识图子图的邻接矩阵,每一个Q对应一个同构于实例图的知识图子图;
Step4:对每个同构于实例图的知识图子图,按照(7)式进行打分评价其与实例图的匹配关系:
Figure FDA0003127254060000053
其中,
Figure FDA0003127254060000054
表示实例图中节点vi与知识图中节点vj的匹配分数,即,实例图中节点vi利用步骤4的RBF-SVM分类器计算得到的相应于知识图中节点vj语义类别的分数,
Figure FDA0003127254060000055
表示实例图中边ex与知识图中边ey的匹配分数;
边匹配分数定义如(8)式:
Figure FDA0003127254060000056
其中,C是上下文的数目,wi是第i类上下文的权重;
Figure FDA0003127254060000061
表示第i类
上下文的匹配分数:
Figure FDA0003127254060000062
其中,
Figure FDA0003127254060000063
分别表示实例图中边ex和知识图中边ey的标签向量的第i个分量,对应于第i类上下文,τi是常数,用来惩罚实例图中存在第i类上下文而知识图中不存在第i类上下文的情况;
Step5:对Step4计算得到的所有分数进行排序,选出得分最高的匹配,评分值最高的知识图子图即是实例图的最佳匹配,则实例图节点的标签L(Gp)={αp(v)|αp(v)=αt(f(v))}。
CN201711270750.0A 2017-12-05 2017-12-05 一种基于子图匹配的室内场景对象语义标注方法 Active CN108038498B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711270750.0A CN108038498B (zh) 2017-12-05 2017-12-05 一种基于子图匹配的室内场景对象语义标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711270750.0A CN108038498B (zh) 2017-12-05 2017-12-05 一种基于子图匹配的室内场景对象语义标注方法

Publications (2)

Publication Number Publication Date
CN108038498A CN108038498A (zh) 2018-05-15
CN108038498B true CN108038498B (zh) 2021-09-14

Family

ID=62095167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711270750.0A Active CN108038498B (zh) 2017-12-05 2017-12-05 一种基于子图匹配的室内场景对象语义标注方法

Country Status (1)

Country Link
CN (1) CN108038498B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210264226A1 (en) * 2020-02-24 2021-08-26 Thales Canada Inc. Method for semantic object detection with knowledge graph

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934261B (zh) * 2019-01-31 2023-04-07 中山大学 一种知识驱动参数传播模型及其少样本学习方法
CN111160266B (zh) * 2019-12-30 2023-04-18 三一重工股份有限公司 物体跟踪方法和装置
CN111582280B (zh) * 2020-05-11 2023-10-17 吉林省森祥科技有限公司 一种面向多光谱救援机器人的数据深层融合图像分割方法
CN111597404A (zh) * 2020-05-22 2020-08-28 桂林智慧产业园有限公司 一种基于k2-MDD的带标签图的最大公共子图匹配方法
CN111931928B (zh) * 2020-07-16 2022-12-27 成都井之丽科技有限公司 场景图的生成方法、装置和设备
CN111932131B (zh) * 2020-08-12 2024-03-15 上海冰鉴信息科技有限公司 业务数据处理方法及装置
CN113670310B (zh) * 2021-07-27 2024-05-31 际络科技(上海)有限公司 视觉语音导航方法、装置、设备及存储介质
CN113656678B (zh) * 2021-10-19 2022-03-01 杭州电子科技大学 一种基于近邻图的多模态搜索方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809187A (zh) * 2015-04-20 2015-07-29 南京邮电大学 一种基于rgb-d数据的室内场景语义标注方法
US9588990B1 (en) * 2013-01-02 2017-03-07 Google Inc. Performing image similarity operations using semantic classification

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9588990B1 (en) * 2013-01-02 2017-03-07 Google Inc. Performing image similarity operations using semantic classification
CN104809187A (zh) * 2015-04-20 2015-07-29 南京邮电大学 一种基于rgb-d数据的室内场景语义标注方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
使用基于SVM的否定概率和法的图像标注;路晶等;《智能系统学报》;20060228(第01期);全文 *
融合空间上下文的自然场景语义建模;程环环等;《电路与系统学报》;20101215(第06期);全文 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210264226A1 (en) * 2020-02-24 2021-08-26 Thales Canada Inc. Method for semantic object detection with knowledge graph

Also Published As

Publication number Publication date
CN108038498A (zh) 2018-05-15

Similar Documents

Publication Publication Date Title
CN108038498B (zh) 一种基于子图匹配的室内场景对象语义标注方法
Xiang et al. Learning rgb-d feature embeddings for unseen object instance segmentation
Kim et al. Distributed cosegmentation via submodular optimization on anisotropic diffusion
He et al. Dyco3d: Robust instance segmentation of 3d point clouds through dynamic convolution
CN108132968B (zh) 网络文本与图像中关联语义基元的弱监督学习方法
Doersch et al. Mid-level visual element discovery as discriminative mode seeking
Cho et al. Progressive graph matching: Making a move of graphs via probabilistic voting
CN104599275B (zh) 基于概率图模型的非参数化的rgb-d场景理解方法
Zhang et al. Learning semantic scene models by object classification and trajectory clustering
CN106127785B (zh) 基于流形排序和随机游走的图像显著性检测方法
Chibane et al. Box2mask: Weakly supervised 3d semantic instance segmentation using bounding boxes
US10339408B2 (en) Method and device for Quasi-Gibbs structure sampling by deep permutation for person identity inference
Myeong et al. Learning object relationships via graph-based context model
Hussain Raza et al. Geometric context from videos
Liu et al. Fast detection of dense subgraphs with iterative shrinking and expansion
Li et al. A review of object detection techniques
Xu et al. Weakly supervised deep semantic segmentation using CNN and ELM with semantic candidate regions
Yu et al. Scene parsing using graph matching on street-view data
CN103390046A (zh) 潜在狄利克雷模型的多尺度字典自然场景图像分类方法
CN110147841A (zh) 基于弱监督及无监督部件检测和分割的细粒度分类方法
Tung et al. Scene parsing by nonparametric label transfer of content-adaptive windows
Zhang et al. Supervised label transfer for semantic segmentation of street scenes
Wang et al. Density maximization for improving graph matching with its applications
Wang et al. Simultaneously discovering and localizing common objects in wild images
Triebel et al. Parsing outdoor scenes from streamed 3d laser data using online clustering and incremental belief updates

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant