CN110110578B

CN110110578B - 一种室内场景语义标注方法

Info

Publication number: CN110110578B
Application number: CN201910129531.3A
Authority: CN
Inventors: 王立春; 李玉洁; 王少帆; 孔德慧
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-02-21
Filing date: 2019-02-21
Publication date: 2023-09-29
Anticipated expiration: 2039-02-21
Also published as: CN110110578A

Abstract

公开一种室内场景语义标注方法，包括：输入彩色图片和深度图片；进入神经网络之中，彩色图片和深度图片分别通过conv1和conv2_x；进入第一注意力机制模块ARF_1之中，通过ARF_1的计算，得到特征图；进入conv3_x之中进行卷积计算；进入第二注意力机制模块ARF_2之中，通过ARF_2的计算，得到特征图；进入conv4_x之中进行空洞卷积计算；进入第三注意力机制模块ARF_3之中，通过ARF_3的计算，得到特征图；进入conv5_x之中进行空洞卷积计算；进入注意力机制混合模块ARMF进行计算；进入空间金字塔模块SPP实现多层次上下文信息融合；得到语义标注结果图。

Description

一种室内场景语义标注方法

技术领域

本发明涉及多媒体技术与计算机图形学的技术领域，尤其涉及一种室内场景语义标注方法。

背景技术

场景语义标注(scene labeling)，或者称为场景语义分析(scene parsing)，即对图像中每一个像素用其所属的物体类别标签进行标注。由于场景语义标注是在单一过程中将检测、分割和多标签识别等传统问题结合到了一起，因此场景语义标注是一项具有挑战性的工作。高质量的场景标注有利于机器人任务规划、姿态估计、平面分割、基于上下文的图像检索、自动照片调整等智能任务。

以往的场景标识工作可以根据目标场景分为室内场景和室外场景两大类。与室外场景标注相比，室内场景标注更具挑战性，因为室内场景语义标注的集合更大，物体遮挡更严重，物体外观更加多样化。室内对象如被不同的床单覆盖的床和窗帘等，比室外如道路、建筑和天空等更难以描述。随着商用RGB-D传感器(如Microsoft Kinect)的推出，我们不仅可以得到彩色图像(RGB图像)，还可以得到室内场景的深度图像(Depth图像)，增加的深度信息不依赖于光照，可以显著缓解语义分割的挑战。大量研究表明，利用从深度信息中提取的特征有助于减少物体识别问题的不确定性，提高各类物品的识别率。深度通道可以补充彩色通道缺失的结构化信息。尽管如此，已有的RGB-D场景标注仍然存在两个关键问题。

(一)如何有效地表示和融合深度与RGB信息

关于特征表示，在以前的方法中开发了一些复杂的手工特性，例如梯度、颜色、表面法线等多通道传统特征表示RGB和深度信息。与使用卷积神经网络学习到的RGB-D特征相比，这种手工特征在某种程度上是特设的，没有很强的区分性。也有部分工作致力于研究如何增强深度通道的信息表示例如HHA图像，利用三个通道分别编码水平差异，距地面高度和重力角度。

自2012年以来，卷积神经网络(CNN)在图像分类和图像检测等方面取得了巨大的成就和广泛的应用。CNN的强大之处在于它的多层结构能自动学习多个层次的特征：较浅的卷积层感受野较小，学习局部区域的结构信息特征；较深的卷积层具有较大的感受野，学习更加抽象一些的语义特征，可以很好地判断出一幅图像中包含什么类别的物体，但是这些抽象语义特征对物体的大小、位置和方向等特征敏感性低，丢失了一些细节信息，不能很好地给出物体的具体轮廓、指出每个像素具体属于哪个物体，因此不能做到精确分割。

卷积神经网络中，深度与彩色数据的融合往往被过度简化。大部分融合方法是利用两个独立的CNNs分别从深度数据和彩色数据中提取特征，这些特征在用于最终分类之前只是简单地串联起来。忽视了深度与彩色通道之间的强相关性。

(二)如何在特征学习中捕捉全局场景上下文

目前基于卷积神经网络的场景标注方法只能捕获局部上下文，由于每个像素的感受野受到限制，导致标注结果不佳。值得注意的是，长范围的上下文信息在区分外观相似的不同物体时能起到关键作用。为了克服这个问题，图模型，例如条件随机场或平均场近似等方法，作为后处理步骤被应用于改善预测结果。然而，这些方法将上下文建模与卷积特征学习分离开来，这可能会带来由于特征表示的差别较小而导致求得次优解的问题。另一类方法采用具有门结构的级联递归神经网络，如长短时记忆(LSTM)网络，加强上下文建模，但是基于递归神经网络建立上下文模型的方法，也只是在网络特定层次上融合上下文信息，没有增大特征学习过程中的感受野，也没有改进特征学习过程中的特征表达。

发明内容

为克服现有技术的缺陷，本发明要解决的技术问题是提供了一种室内场景语义标注方法，其能够实现特征选择融合，使网络拥有利用全局上下文信息的能力。

本发明的技术方案是：这种室内场景语义标注方法，包括以下步骤：

(1)输入彩色图片和深度图片；

(2)进入神经网络之中，彩色图片和深度图片分别通过conv1和conv2_x；

(3)进入第一注意力机制模块ARF_1之中，通过ARF_1的计算，得到特征图；

(4)进入conv3_x之中进行卷积计算；

(5)进入第二注意力机制模块ARF_2之中，通过ARF_2的计算，得到特征图；

(6)进入conv4_x之中进行空洞卷积计算；

(7)进入第三注意力机制模块ARF_3之中，通过ARF_3的计算，得到特征图；

(8)进入conv5_x之中进行空洞卷积计算；

(9)进入注意力机制混合模块ARMF进行计算；

(10)进入空间金字塔模块SPP实现多层次上下文信息融合；

(11)得到语义标注结果图；

其中，conv1、conv2_x、conv3_x、conv4_x、conv5_x是卷积计算神经网络层的名字：conv1层的输出尺寸为213*213，参数为7*7，64，stride2；conv2_x层的输出尺寸为106*106，参数为3*3max pool，stride2，

conv3_x层的输出尺寸为53*53，参数为

conv4_x层的输出尺寸为53*53，参数为

conv5_x层的输出尺寸为53*53，参数为

本发明通过注意力机制模块融合RGB信息与深度信息，实现信息挑选，以增强信息的表示；通过空间金字塔模块增强基于不同区域的多尺度上下文信息的聚合，使网络拥有利用全局上下文信息的能力；因此能够实现特征选择融合，使网络拥有利用全局上下文信息的能力。

附图说明

图1是根据本发明的室内场景语义标注方法的网络整体结构图。

图2是根据本发明的室内场景语义标注方法的流程图。

图3是注意力机制模块ARF结构图。

图4是注意力机制混合模块ARMF结构图。

图5是空间金字塔模块SPP结构图。

具体实施方式

如图1、2所示，这种室内场景语义标注方法，包括以下步骤：

(1)输入彩色图片和深度图片；

(4)进入conv3_x之中进行卷积计算；

(6)进入conv4_x之中进行空洞卷积计算；

(8)进入conv5_x之中进行空洞卷积计算；

(9)进入注意力机制混合模块ARMF进行计算；

(10)进入空间金字塔模块SPP实现多层次上下文信息融合；

(11)得到语义标注结果图；

conv3_x层的输出尺寸为53*53，参数为

conv4_x层的输出尺寸为53*53，参数为

conv5_x层的输出尺寸为53*53，参数为

优选地，该方法以空洞全卷积残差50层神经网络为基础，空洞卷积应用在conv4_x层和conv5_x层，空洞系数分别为2，4。

优选地，所述注意力机制模块以网络某层彩色特征图f_RGB和深度特征图f_D为输入，深度通道和彩色通道的输出分别记为f_{RGB_OUT}，f_{D_OUT}；ARF的彩色通道和深度通道的计算公式为公式(2)、(3)

f_{RGB_OUT}＝CNN(CNN((sigmoid(f_D)-sigmoid(f_RGB))×f_RGB)+f_RGB) (2)

f_{D_OUT}＝CNN(CNN((sigmoid(f_RGB)-sigmoid(f_D))×f_D)+f_D) (3)

Sigmoid(*)函数将特征图响应归一化到0至1之间，CNN(*)代表卷积核大小为1*1，步长为1的卷积层运算；以RGB通道来解释ARF模块的功能，假设某一特征在深度通道获得很高的响应值，在RGB通道响应较小，通过ARF模块会增大RGB模态特征图的相应权重值，后续网络会加强对这部分信息的学习，实现对网络中间特征的多模态信息选择。

优选地，所述注意力机制混合模块ARMF用于生成混合特征，其结构为在ARF模块之后，使用一个残差结构。

优选地，所述空间金字塔模块SPP，以高层混合特征(f_{fuse_feat})和ARMF模块中的深度特征(f_{hha_diff})作为输入，用于提取混合特征和深度特征的多尺度上下文信息。

优选地，所述空间金字塔模块在1*1，2*2，3*3，6*6四种尺度下进行信息融合；最高级别(1*1)是全局信息池化，剩余的金字塔层级(2*2，3*3，6*6)将feature map分成不同的子区域，为不同尺度的子区域形成特征表示，作为多尺度上下文信息。

优选地，所述空间金字塔模块将同一尺度不同模态间的特征级联在一起，以此实现多尺度多模态信息间的融合，并将1×1的卷积层应用于级联特征之后，以此降低上下文表示维度，之后通过双线性插值操作，直接上采样不同大小的特征图得到与原始特征大小相同的特征图，最终将不同尺度的信息级联在一起，作为混合特征的多尺度信息补充。

优选地，同一尺度不同模态间的特征为：Res5c_pool1_fuse和Res5c_pool1_hha。

以下详细说明本发明。

本发明在NYU-Depth v2数据集上进行测试，实现37类物品的语义标注。NYU-Depthv2数据集由1449幅室内场景RGB-D图像组成，本发明使用标准的数据集划分，795幅图像训练，654幅图像测试。

本发明的网络输入图像大小为480x640，使用HHA编码图像作为深度通道输入，本发明使用公共的Caffe工具和Nvidia GTX Titan X GPU实现网络，采用了一般的数据扩充方案如随机缩放、随机裁剪和随机翻转。将动量和权值分别设置为0.9和0.0005。使用的初始学习速率为10^-3并将基础ResNet层的学习率乘以0.1。除ResNet网络里面的参数，其余全部网络参数均使用均值为0，方差为10^-2的正态分布初始化。整体结构如附图一所示。

输入彩色图片和深度图片，进入神经网络之中，分别先通过conv1和conv2_x，之后进入注意力机制模块(ARF_1)之中，通过ARF_1的计算，得到的特征图再进入conv3_x之中运算，之后再进入注意力机制模块之后，如此交替进行卷积运算和ARF模块运算，最终在conv5_x运算之后，进入注意力机制混合模块(ARMF)，实现深度信息与彩色信息的混合，进入最终的空间金字塔模块(SPP)实现多层次上下文信息融合，最终得到语义标注结果图。整体流程图如附图2所示。

本发明提出的多策略融合的室内场景RGB-D语义标注网络结构可分为以下几个部分。

1.基础网络结构及参数设计

本发明提出的多策略融合的室内场景RGB-D语义标注神经网络以空洞全卷积残差50层神经网络为基础。各层网络参数如表1所示。

表1

空洞卷积应用在conv4_x层和conv5_x层，空洞系数分别为2，4，其目的在于保持特征图尺度不缩小的同时，增大感受野。空洞卷积的主要思想是在卷积核的值之间插入“空洞”(zeros)来提高图像的分辨率，从而在神经网络中实现密集的特征提取。

2.注意力机制模块的结构与设计

注意力机制通过在feature map上增加权重，增强一些语义信息，同时去除其他不需要的语义信息。本发明提出注意力机制模块(ARF)混合RGB和HHA信息中共有的有效信息，实现逐层信息挑选。

注意力机制模块(ARF)的网络结构如附图3所示。ARF模块以网络某层彩色特征图(f_RGB)和深度特征图(f_D)为输入，深度通道和彩色通道的输出分别记为f_{RGB_OUT}，f_{D_OUT}。ARF模块的彩色通道和深度通道的计算公式如式(2)式(3)所示。

f_{RGB_OUT}＝CNN(CNN((sigmoid(f_D)-sigmoid(f_RGB))×f_RGB)+f_RGB) (2)

f_{D_OUT}＝CNN(CNN((sigmoid(f_RGB)-sigmoid(f_D))×f_D)+f_D) (3)

Sigmoid(*)函数将特征图响应归一化到0至1之间，CNN(*)代表卷积核大小为1*1，步长为1的卷积层运算。以RGB通道来解释ARF模块的功能，假设某一特征在深度通道获得很高的响应值，在RGB通道响应较小，通过ARF模块会增大RGB模态特征图的相应权重值，后续网络会加强对这部分信息的学习，实现对网络中间特征的多模态信息选择。

ARF模块中卷积层参数及设置如表2所示。

表2

层名称	输出尺寸	参数
			conv1_A	53*53	1*1，512，stride1
conv2_A	53*53	1*1，512，stride1
			conv3_A	53*53	1*1，512，stride1
conv4_A	53*53	1*1，512，stride1

注意力机制混合模块(ARMF)用于生成混合特征，其结构与注意力机制模块(ARF)结构类似。如附图4所示。相当于在ARF模块之后，使用了一个残差结构，其结构和参数如表3所示。

表3

层名称	输出尺寸	参数
			conv1_M	53*53	1*1，512，stride1
conv2_M	53*53	1*1，512，stride1
			conv3_M	53*53	1*1，512，stride1
conv4_M	53*53	1*1，512，stride1
			conv5_M	53*53	1*1，512，stride1

3.空间金字塔模块的结构与设计

在神经网络中，感受野的大小可以大致表明上下文信息，室内场景中的对象不是随机散落的，其尺寸、位置，以及附近会出现什么对象都遵循一些基本规律，这些规律被称为上下文。上下文信息可以有效地去除场景中不大可能存在的物体或者物体组合方式，约束相似场景使其在语义描述上具有较高的一致性。本发明借鉴PSPNet的空间金字塔将其扩展并应用于RGB-D信息融合，多尺度逐层提取融合的特征，增强不同区域的上下文信息的聚合，使网络拥有利用全局上下文信息的能力，更加充分地利用深度信息。其结构如附图5所示。本发明提出的用于信息融合的空间金字塔结构及参数如表4所示。

表4

层名称	输出尺寸	参数
			Res5c_pool1_fuse	1*1	Ave pooling 53*53，stride 53
Res5c_pool2_fuse	2*2	Ave pooling 27*27，stride 27
			Res5c_pool3_fuse	3*3	Ave pooling 18*18，stride 18
Res5c_pool4_fuse	6*6	Ave pooling 9*9，stride 9
			Res5c_pool1_hha	1*1	Ave pooling 53*53，stride 53
Res5c_pool2_hha	2*2	Ave pooling 27*27，stride 27
			Res5c_pool3_hha	3*3	Ave pooling 18*18，stride 18
Res5c_pool4_hha	6*6	Ave pooling 9*9，stride 9
			conv1_P	1*1	1*1，512，stride1
conv2_P	2*2	1*1，512，stride1
			conv3_P	3*3	1*1，512，stride1
conv4_P	6*6	1*1，512，stride1

如图5所示，空间金字塔模块，以高层混合特征(f_{fuse_feat})和ARMF模块中的深度特征(f_{hha_diff})作为输入，用于提取混合特征和深度特征的多尺度上下文信息。

空间金字塔模块在1*1，2*2，3*3，6*6四种尺度下进行信息融合。最高级别(1*1)是全局信息池化，剩余的金字塔层级(2*2，3*3，6*6)将feature map分成不同的子区域，为不同尺度的子区域形成特征表示，即多尺度上下文信息。

在这里，本发明将同一尺度不同模态间的特征级联在一起，例如Res5c_pool1_fuse和Res5c_pool1_hha，以此实现多尺度多模态信息间的融合，并将1×1的卷积层应用于级联特征之后，以此降低上下文表示维度，之后通过双线性插值操作，直接上采样(upsample)不同大小的特征图得到与原始特征大小相同的特征图，最终将不同尺度的信息级联在一起，作为混合特征的多尺度信息补充。

表1是本发明与其他方法在NYU v2数据集上的比较结果，由此可见，本发明大大由于其它方法。

表5

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种室内场景语义标注方法，其特征在于：该方法包括以下步骤：

(1)输入彩色图片和深度图片；

(2)进入神经网络之中，彩色图片和深度图片分别通过conv1和

conv2_x；

(4)进入conv3_x之中进行卷积计算；

(6)进入conv4_x之中进行空洞卷积计算；

(8)进入conv5_x之中进行空洞卷积计算；

(9)进入注意力机制混合模块ARMF进行计算；

(10)进入空间金字塔模块SPP实现多层次上下文信息融合；

(11)得到语义标注结果图；

其中，conv1、conv2_x、conv3_x、conv4_x、conv5_x是卷积计算神经网络层的名字：conv1层的输出尺寸为213*213，参数为7*7，64，stride2；

conv2_x层的输出尺寸为106*106，参数为3*3max pool，stride2，

conv3_x层的输出尺寸为53*53，参数为

conv4_x层的输出尺寸为53*53，参数为

conv5_x层的输出尺寸为53*53，参数为

该方法以空洞全卷积残差50层神经网络为基础，空洞卷积应用在conv4_x层和conv5_x层，空洞系数分别为2，4；

所述注意力机制模块以网络某层彩色特征图f_RGB和深度特征图f_D为输入，深度通道和彩色通道的输出分别记为f_{RGB_OUT}，f_{D_OUT}；ARF的彩色通道和深度通道的计算公式为公式(2)、(3)

f_{RGB_OUT}＝CNN(CNN((sigmoid(f_D)-sigmoid(f_RGB))×f_RGB)+f_RGB) (2)

f_{D_OUT}＝CNN(CNN((sigmoid(f_RGB)-sigmoid(f_D))×f_D)+f_D) (3)

Sigmoid(*)函数将特征图响应归一化到0至1之间，CNN(*)代表卷积核大小为1*1，步长为1的卷积层运算；以RGB通道来解释ARF模块的功能，假设某一特征在深度通道获得很高的响应值，在RGB通道响应较小，通过ARF模块会增大RGB模态特征图的相应权重值，

后续网络会加强对这部分信息的学习，实现对网络中间特征的多模态信息选择；

所述注意力机制混合模块ARMF用于生成混合特征，其结构为在ARF模块之后，使用一个残差结构；

所述空间金字塔模块SPP，以高层混合特征(f_{fuse_feat})和ARMF模块中的深度特征(f_{hha_diff})作为输入，用于提取混合特征和深度特征的多尺度上下文信息。

2.根据权利要求1所述的室内场景语义标注方法，其特征在于：所述空间金字塔模块在1*1，2*2，3*3，6*6四种尺度下进行信息融合；最高级别(1*1)是全局信息池化，剩余的金字塔层级(2*2，3*3，6*6)将feature map分成不同的子区域，为不同尺度的子区域形成特征表示，作为多尺度上下文信息。

3.根据权利要求2所述的室内场景语义标注方法，其特征在于：所述空间金字塔模块将同一尺度不同模态间的特征级联在一起，以此实现多尺度多模态信息间的融合，并将1×1的卷积层应用于级联特征之后，以此降低上下文表示维度，之后通过双线性插值操作，直接上采样不同大小的特征图得到与原始特征大小相同的特征图，最终将不同尺度的信息级联在一起，作为混合特征的多尺度信息补充。

4.根据权利要求3所述的室内场景语义标注方法，其特征在于：同一尺度不同模态间的特征为：Res5c_pool1_fuse和Res5c_pool1_hha。