CN108038498B

CN108038498B - 一种基于子图匹配的室内场景对象语义标注方法

Info

Publication number: CN108038498B
Application number: CN201711270750.0A
Authority: CN
Inventors: 李素琴; 王立春; 张勇; 孔德慧; 王玉萍; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-12-05
Filing date: 2017-12-05
Publication date: 2021-09-14
Anticipated expiration: 2037-12-05
Also published as: CN108038498A

Abstract

本发明公开一种基于子图匹配的室内场景对象语义标注方法，利用实例图建模待标注场景中对象间的上下文关系，利用知识图建模语义类别间的上下文关系，通过子图匹配算法寻找实例图对应的知识图子图，实现对象到语义类别的映射，为室内场景中的每一个对象提供语义标签。

Description

一种基于子图匹配的室内场景对象语义标注方法

技术领域

本发明属于多媒体技术领域，尤其涉及一种基于子图匹配的室内场景对象语义标注方法。

背景技术

室内场景对象语义标注是室内场景解析的核心任务之一，其基本目标是为对象层次的分割区域提供语义标签。在语义标注领域，室内场景语义标注因为其内在的固有属性(即，存在大量的语义类别，物体间存在遮挡以及视觉特征缺乏较强辨识能力等问题)，受到了越来越多的关注。与目标识别关注特殊前景对象不同，语义标注需要一次性处理场景中的所有对象，并将对象分成若干类。研究表明在室内场景语义标注中引入对象级别的上下文先验，有助于提高语义标注的准确性。根据是否利用对象级别的上下文先验，室内场景语义标注方法大致可分为两类，一类是上下文无关的语义标注，一类是上下文相关的语义标注。

上下文无关的语义标注方法首先提取待标注区域的特征表示，然后基于特征表示利用分类器计算语义标签。常用分类器包括：决策树、朴素贝叶斯、人工神经网络、KNN(K-Nearest Neighbour)、SVM(support vector machines)等。决策树是非参数的，所以不需要担心离群点和数据是否线性可分，例如，决策树可以轻松处理这种情况：属于A类样本的特征x取值往往非常小或者非常大，而属于B类样本的特征x取值在中间范围。决策树的主要缺点是容易过拟合。朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率，但实际上并非总是如此。这是因为朴素贝叶斯模型假设属性之间相互独立，而这个假设在实际应用中往往是不成立的。人工神经网络虽然具有分类准确度高，并行分布处理能力、学习能力和鲁棒性强等特点，但是需要大量的参数(如，网络拓扑结构、权值和阈值的初始值)，不能观察学习过程，输出结果难以解释。KNN是一种简单有效的分类方法，重新训练的代价较低，该算法适用于样本容量比较大的类域的自动分类，而对于样本容量较小的类域，采用这种算法容易产生误分。相对的，SVM可以解决小样本情况下的机器学习问题，提高泛化性能，解决高维和非线性问题，避免神经网络结构选择和局部极小点问题。关于复杂分类器，Couprie等采用一种多尺度卷积网络，从场景图像中非监督地学习特征描述子。分类器可以为每个像素进行语义标签推断并将推断结果融合至超像素中，获取非监督的图像语义标注结果。该方法的缺点在于需要大量的模型训练时间。关于简单分类器，P Guo等提出一种优化SVM分类器用于图像语义标注，将用于优化训练集的基于近邻传播算法的LVQ(Learning VectorQuantization)技术和用来训练SVM的一些代表性特征向量相结合。该方法不仅满足了SVM的小样本特性，而且大大加快了训练和标注过程。

上下文相关的语义标注在以上方法的基础上兼顾待标注区域间的语义关系，其中有大量的相关研究工作采用了MRF(Markov random field)和CRF(conditional randomfield)概率图模型进行上下文建模。基于MRF，Ren等提出了一种语义标注性能较为优越的室内场景语义标注方法。该方法充分利用超像素区域层次化结构来构建树状模型，并将树状模型与MRF概率图模型结合，使用已训练的1-vs-all线性SVM分类器，为RGB彩色图像中的每一个超像素赋予语义类别标签。MRF是一种生成模型，必须先得出变量的概率模型参数，再进行推断任务。由于需要考虑观察变量y和标签变量x的概率分布问题，这本身就是一个非常困难的问题。当我们的兴趣点在于标签而不是原始像素y的分布时，并没有必要花费资源考虑y的概率分布问题。CRF便是在这一点的基础上提出的一种判别式无向概率图模型。Xiong等扩展传统二维视觉中的网格CRF模型到三维空间，充分挖掘和利用任意三维对象之间的空间上下文信息，如平行、正交、邻接和共面，并根据四类几何标签(墙壁，地板，天花板，杂物)标记室内场景。

上下文无关的分类器不考虑对象实例之间的上下文关系，只能独立预测对象实例的标签。CRF虽然能够编码观测之间的已知关系，并构造一致性解释，但训练代价大，复杂度高。特别的，CRF对特征选择的依赖性较高，当特征的描述能力不符合期望时，其标注性能低于简单的SVM分类器。

发明内容

本发明针对上下文无关标注方法忽略对象间的上下文关系和CRF训练代价大的问题，提出了一种将SVM分类器和子图匹配技术相结合的基于上下文室内场景对象语义标注方法。该方法利用实例图建模待标注场景中对象间的上下文关系，利用知识图建模语义类别间的上下文关系，通过子图匹配算法寻找实例图对应的知识图子图，实现对象到语义类别的映射，为场景中的每一个对象提供语义标签。

为实现上述目的，本发明采用如下的技术方案：

一种基于子图匹配的室内场景对象语义标注方法，包括以下步骤：

步骤1、在CPMC(Constrained Parametric Min-Cuts)算法的基础上，根据深度和外观线索，自底而上地生成独立的对象候选区域，然后拟合候选区域，生成长方体；

步骤2、根据步骤1确定的训练集中的拟合长方体及其标注信息，统计对象级上下文语义，即“共现”、“邻近”、“之上”；

步骤3、构建知识图/实例图

所述知识图/实例图是无向图G＝(V,E,α,β)，V＝{v|v是场景中的拟合长方体}，E＝{(u,v)|u∈V,v∈V},

α:V→L_V是节点标记函数，L_V是语义类别标签，β:E→L_E是边标记函数，L_E是包含4个元素的向量，

分别表示对象间的“共现”、“邻近”、“之上一”、“之上二”四种类型上下文关系；实例图中

的取值为1或0，表示存在或不存在相应语义关系；知识图中

表示相应语义关系的先验知识，其值是从训练场景集合中统计得到的，分别对应于四类上下文关系的统计概率

步骤4、特征选择与SVM分类器训练

用于描述三维长方体几何性质的参数包括：高度、较长的宽度、较短的宽度、水平纵横比、垂直纵横比、面积、体积、平行于墙、靠近墙和靠近地面；基于以上几何特征训练以RBF核(Radial Basis Function)作为核函数的SVM分类器，然后对类别分数按降序进行排序，并选择前h个分数对应的类别构建候选匹配集合，集合中的每个元素是实例图节点允许匹配的语义类别标签，定义RBF-SVM分类器，如(6)式：

其中，c_k是权重，

是第k个长方体的特征向量，n是训练集中长方体的总数，y_k∈{1,-1}用来指示

所属的类别，b是偏移，

步骤5、子图匹配

基于子图同构算法为分割对象分配标签，子图同构定义如下：

令G_p＝(V_p,E_p,α_p,β_p),G_t＝(V_t,E_t,α_t,β_t)分别表示模式图和目标图，其中V是图中的顶点集，E是顶点之间的边集；如果存在一个双射函数f满足V_p→V_t；

α_p(v)＝α_t(f(v))；

β_p((u,v))＝β_t((f(u),f(v)))，则称G_p子图同构于G_t；

基于单个待标注场景构建的实例图即为模式图，节点是依据步骤1计算得到的拟合长方体，每个节点有h个依据SVM分类计算得到的候选语义标签，且每个标签关联一个分值，图中边的标记函数值

是依据步骤2计算得到的上下文；目标图则是基于训练集中全部样本构建的知识图；

修改Ullmann算法的限制条件，允许匹配自环；放宽Ullmann算法中边匹配的约束条件；基于打分函数选择得分最高的子图作为实例图的最佳匹配，将知识图子图中对象节点的标签分配给对应的实例图对象节点，使得α_p(v)＝α_t(f(v))，得到最终的语义标注。

作为优选，步骤1具体为：

步骤1.1、自底而上生成三维区域候选

CPMC采用参数化最小分割方法从等间隔的种子中产生多个前景候选变量，总的目标是最小化能量函数,求得对应的像素标签，如(1)式：

arg min_X∑_u∈PC_λ(x_u)+∑_(u,v)∈εV_uv(x_u,x_v) (1)

其中，X＝{x₁,…,x_N}是像素标签,x_i∈{0,1}，x_i＝1表示像素i是前景像素，x_i＝0则表示像素i是背景像素，N是总的像素数量，P是包含全部像素的集合，ε是邻接像素之间的边；(1)式中的C_λ定义单一势能：

其中，

是偏移，V_b是背景像素，V_f是前景像素，函数f定义为f(x_u)＝ln p_f(x_u)-ln p_b(x_u)，p_f表示像素u属于前景的概率分布,p_b表示像素u属于背景的概率分布，(1)式中的成对项V_uv用来惩罚分配不同标签给相似邻接节点的情况：

两个邻接像素之间的相似性：

gPb(u)是像素u属于对象分割边界的概率。

步骤1.2、拟合长方体

首先对CMPC算法得到的对象分数进行排序，非极大值抑制处理后，选择前k个候选区域，然后在每个候选区域上拟合三维长方体，生成候选长方体。

作为优选，步骤2中“共现”关系为:两个对象同时出现在一个特定场景内，其具体定义如(5)式：

其中

表示第j个训练样本中的第i个长方体，N_tr是训练样本的总数，

是指示函数，当某个场景同时存在标注为类l和类l′的长方体时，

对于类l和类l′的多个实例存在于同一场景的情况，类l和类l′在该场景的共现关系只计数一次；

步骤2中“邻近”和“之上”关系为：

如果两个对象之间的距离小于0.5米，则认为它们是邻近的；如果对象A比对象B高，并且A有80％的地面投影落在B内，则A在B之上。

作为优选，步骤5具体为：

输入是有n个对象节点的实例图G_p和有m个对象节点的知识图G_t，输出是实例图的节点语义标签集合L_V＝{l₁,l₂,…,l_n}，具体的语义标注步骤如下：

Step1：设置矩阵M_n×m，如果图G_p第i个对象节点的候选匹配集合中存在图G_t第j个对象节点相应的语义类别标签，并且第i个对象节点的度小于等于图G_t中第j个对象节点的度，则令M_ij＝1，反之M_ij＝0；

Step2：从n×m维矩阵M中生成

个二维矩阵M′_n×m，其中

M′_ij＝1→M_ij＝1，且‖M′_i‖₁＝1。每个M′表示实例图对象节点和知识图对象节点的一种映射关系，以上‖·‖₁表示向量的1范数，即向量非零元素的个数；

Step3：令矩阵P_n×n和T_m×m分别表示实例图和知识图的邻接矩阵，矩阵Q＝M′(M′T)^T,如果对于任意i、j有P_ij＝1→Q_ij＝1,则M′是图G_p和图G_t的一个子图同构映射矩阵，Q是与图G_p同构的一个知识图子图的邻接矩阵。因此，每一个Q对应一个同构于实例图的知识图子图；

Step4：对每个同构于实例图的知识图子图，按照(7)式进行打分评价其与实例图的匹配关系：

其中，

表示实例图中节点v_i与知识图中节点v_j的匹配分数，即，实例图中节点v_i利用步骤4的RBF-SVM分类器计算得到的相应于知识图中节点v_j语义类别的分数。

表示实例图中边e_x与知识图中边e_y的匹配分数；

边匹配分数定义如(8)式：

其中，C是上下文的数目，w_i是第i类上下文的权重。

表示第i类上下文的匹配分数：

其中，

分别表示实例图中边e_x和知识图中边e_y的标签向量的第i个分量，对应于第i类上下文。τ_i是常数，用来惩罚实例图中存在第i类上下文而知识图中不存在第i类上下文的情况；

Step5：对Step4计算得到的所有分数进行排序，评分值最高的知识图子图即是实例图的最佳匹配，则实例图节点的标签

L(G_p)＝{α_p(v)|α_p(v)＝α_t(f(v))}。

附图说明

图1为本发明的流程示意图；

图2为拟合长方体的示意图；

图3为匹配过程示意图；

图4为搜索树实例图。

具体实施方式

本发明提供一种基于子图匹配的室内场景对象语义标注方法，建立在以下的理论基础之上：室内场景中的对象不是随机散落的，其尺寸、位置，以及附近会出现什么对象都遵循一些基本规律，这些规律被称为上下文。上下文信息可以有效地去除室内场景中不大可能存在的物体或者物体组合方式，约束相似室内场景使其在语义描述上具有较高的一致性。如，某个物体的特征与沙发的特征相似，该物体却出现在浴室场景里时，基于上下文信息可以拒绝标注该物体为沙发，从而提高语义标注的正确率。考虑到图这种数据结构刻画事物联系时的简洁性，本发明以图作为描述上下文的载体。具体来说，本发明基于对象级别的上下文信息构建知识图/实例图，其中，知识图通过统计多个已标注场景中对象的上下文信息构建，实例图基于单个待标注场景构建，并利用子图匹配方法从知识图中搜索源模式(实例图)对应的目标模式(知识图的子图)，将最佳匹配的知识图子图节点标签作为实例图节点的语义标签，从而舍弃CRF复杂的学习推断过程，提高分类效率。

本发明在NYUv2 RGB-D数据集上做测试，该数据集包含1449个室内场景，共894类对象，由于类别过多导致上下文关系过于复杂而难以利用。为解决这个问题，本发明不考虑地板、天花板和墙壁，手工清理类列表，合并类似的类，并丢弃那些偶尔出现的类，得到21类对象。然后在RGB-D图像上检测21类对象的实例，拟合生成6680个ground-truth长方体。最后，将数据集划分为两个不相交的子集，分别用于训练和测试。训练集中包含795个室内场景(3630个对象)，测试集中包含645个室内场景(3050个对象)。

本发明所提出方法的具体步骤如下：

1.RGB-D图像上的三维对象检测

本发明在CPMC(Constrained Parametric Min-Cuts)算法的基础上，根据深度和外观线索，自底而上地生成独立的对象候选区域，然后拟合候选区域，生成长方体。

1.1自底而上生成三维区域候选

arg min_X∑_u∈PC_λ(x_u)+∑_(u,v)∈εV_uv(x_u,x_v) (1)

其中，X＝{x₁,…,x_N}是像素标签,x_i∈{0,1}，x_i＝1表示像素i是前景像素，x_i＝0则表示像素i是背景像素，N是总的像素数量，P是包含全部像素的集合，ε是邻接像素之间的边。(1)式中的C_λ定义单一势能：

这里

是偏移。V_b是背景像素，V_f是前景像素。函数f定义为f(x_u)＝ln p_f(x_u)-ln p_b(x_u)，其中p_f表示像素u属于前景的概率分布,p_b表示像素u属于背景的概率分布。(1)式中的成对项V_uv用来惩罚分配不同标签给相似邻接节点的情况：

两个邻接像素之间的相似性：

gPb(u)是像素u属于对象分割边界的概率。

1.2拟合长方体

本发明从候选区域生成长方体。具体来说，首先对CMPC算法得到的对象分数进行排序，非极大值抑制处理后，选择前k个候选区域，然后在每个候选区域上拟合三维长方体，生成候选长方体。实现这一目标的方法是将给定区域中的像素映射到三维坐标系中，并在它们的周围找到最小的包围长方体,如图2所示。

本发明中，训练集和测试集中的场景图像均依据步骤1.1-1.2计算拟合长方体。其中，对训练集中的拟合长方体手工标注语义类别信息。

2.上下文统计

上下文通常能为对象识别提供有用的信息，例如，桌子上的物体更有可能是鼠标，而不是大象的尾巴。本发明的上下文关系主要考虑对象间的三类语义关系：“共现”关系，“邻近”关系，“之上”关系。

2.1“共现”关系

对象与对象之间的共现关系定义如(5)式：

其中

表示第j个训练样本(每个训练样本是一个RGBD图像对)中的第i个长方体，N_tr是训练样本的总数。

值得注意的是，对于类l和类l′的多个实例存在于同一场景的情况，类l和类l′在该场景的共现关系只计数一次。

2.2“邻近”和“之上”关系

如果两个对象之间的距离小于0.5米，则认为它们是邻近的。如果对象A比对象B高，并且A有80％的地面投影落在B内，则A在B之上。

本发明基于步骤1确定的训练集中的拟合长方体及其标注信息，依据步骤2.1-2.2统计对象级上下文语义(“共现”、“邻近”、“之上”)。

3.知识图/实例图构建

直观上，如图3所示，图中的●节点表示场景中的对象，□节点表示对象存在语义关系，█节点表示语义关系类型。

形式上，本发明的知识图/实例图是无向图G＝(V,E,α,β)，V＝{v|v是场景中的拟合长方体}，E＝{(u,v)|u∈V,v∈V},

α:V→L_V是节点标记函数，L_V是语义类别标签。β:E→L_E是边标记函数，L_E是包含4个元素的向量，

分别表示对象间的“共现”、“邻近”、“之上一”、“之上二”四种类型上下文关系。由于知识图/实例图中的边是无向边，而边所表示的上下文“之上”具有明确的方向指向，因此将对象A和B的“之上”上下文拆分为“之上一”和“之上二”，分别表示A在B之上和B在A之上。实例图中

的取值为1或0，表示存在或不存在相应语义关系；知识图中

4.特征选择与SVM分类器训练

对象的几何属性是与外观和深度特征互补的判别信息。例如，床往往是平坦的，而冰箱通常比较高。本发明用以描述三维长方体几何性质的参数包括：高度、较长的宽度、较短的宽度、水平纵横比、垂直纵横比、面积、体积、平行于墙、靠近墙和靠近地面。这些属性不仅能够捕获对象的内在属性，还能得到其在场景布局中的相对位置。本发明在几何特征上训练以RBF核(Radial Basis Function)作为核函数的SVM分类器，然后对类别分数按降序进行排序，并选择前h个分数对应的类别构建候选匹配集合，集合中的每个元素是实例图节点允许匹配的语义类别标签。定义RBF-SVM分类器，如(6)式：

其中，c_k是权重，

所属的类别，b是偏移，

5.子图匹配

子图匹配的数学基础是图论中经典的子图同构问题，一个著名的NP问题。本发明基于子图同构算法为分割对象分配标签，子图同构定义如下：

令G_p＝(V_p,E_p,α_p,β_p),G_t＝(V_t,E_t,α_t,β_t)分别表示模式图和目标图，其中V是图中的顶点集，E是顶点之间的边集。如果存在一个双射函数f满足V_p→V_t；

V_p,α_p(v)＝α_t(f(v))；

β_p((u,v))＝β_t((f(u),f(v)))，则称G_p子图同构于G_t。

本发明中，基于单个待标注场景构建的实例图即为模式图，节点是依据步骤1计算得到的拟合长方体，每个节点有h个依据SVM分类计算得到的候选语义标签，且每个标签关联一个分值，图中边的标记函数值

是依据步骤2计算得到的上下文。目标图则是基于训练集中全部样本构建的知识图。

本发明改进子图同构Ullmann算法，修改Ullmann算法的限制条件，允许匹配自环；由于场景中上下文关系的出现存在一定的随机性，本发明定义(9)式放宽Ullmann算法中边匹配的约束条件。最后，基于打分函数选择得分最高的子图作为实例图的最佳匹配，将知识图子图中对象节点的标签分配给对应的实例图对象节点，使得α_p(v)＝α_t(f(v))，得到最终的语义标注。特别地，本算法的实现基于搜索树，如图4所示。

本发明的输入是有n个对象节点的实例图G_p和有m个对象节点的知识图G_t，输出是实例图的节点语义标签集合L(G_p)＝{l₁,l₂,…,l_n}，具体的语义标注步骤如下：

Step1：设置矩阵M_n×m，如果图G_p第i个对象节点的候选匹配集合中存在图G_t第j个对象节点相应的语义类别标签，并且第i个对象节点的度小于等于图G_t中第j个对象节点的度，则令M_ij＝1，反之M_ij＝0。

Step2：从n×m维矩阵M中生成

个二维矩阵M′_n×m，其中

M′_ij＝1→M_ij＝1，且‖M′_i‖₁＝1。每个M′表示实例图对象节点和知识图对象节点的一种映射关系。以上‖·‖₁表示向量的1范数，即向量非零元素的个数。

Step3：令矩阵P_n×n和T_m×m分别表示实例图和知识图的邻接矩阵。矩阵Q＝M′(M′T)^T,如果对于任意i、j有P_ij＝1→Q_ij＝1,则M′是图G_p和图G_t的一个子图同构映射矩阵，Q是与图G_p同构的一个知识图子图的邻接矩阵。因此，每一个Q对应一个同构于实例图的知识图子图。

其中，

表示实例图中边e_x与知识图中边e_y的匹配分数。

边匹配分数定义如(8)式：

这里C是上下文的数目，本发明中C＝4；w_i是第i类上下文的权重。

表示第i类上下文的匹配分数：

这里

分别表示实例图中边e_x和知识图中边e_y的标签向量的第i个分量，对应于第i类上下文。τ_i是常数，用来惩罚实例图中存在第i类上下文而知识图中不存在第i类上下文的情况。其中，

是步骤3构建知识图时计算的对应于四类上下文关系的统计概率。

L(G_p)＝{α_p(v)|α_p(v)＝α_t(f(v))}。

表1本发明与CRF算法在NYU v2数据集上的比较结果

	base(不加上下文)	CRF	Ours
				geometry only	42.85％	-	-
Segmentation only	54.46％	-	-
				seg.+geo.	59.02％	-	-
geo.+obj-obj	-	44.52％	44.92％
				geo.+obj-spa	-	44.61％	45.02％
geo.+obj-obj+obj-spa	-	44.43％	45.97％
				seg.+obj-obj	-	54.49％	55.34％
seg.+obj-spa	-	55.57％	56.30％
				seg.+obj-obj+obj-spa	-	55.34％	56.82％
unaries+obj-obj	-	58.92％	59.28％
				unaries+obj-spa	-	59.41％	59.64％
unaries+obj-obj+obj-spa	-	59.28％	59.87％