CN111340814A

CN111340814A - 一种基于多模态自适应卷积的rgb-d图像语义分割方法

Info

Publication number: CN111340814A
Application number: CN202010139232.0A
Authority: CN
Inventors: 段立娟; 孙启超; 乔元华
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2020-06-26
Anticipated expiration: 2040-03-03
Also published as: CN111340814B

Abstract

本发明涉及一种基于多模态自适应卷积的RGB‑D图像语义分割方法，包括：编码模块分别提取RGB图像特征和深度图像特征；将RGB特征和深度特征送入融合模块进行融合；其中，首先将多模态特征输入多模态自适应卷积生成模块，计算出两个不同尺度的多模态自适应卷积核；然后，多模态特征融合模块将RGB特征和深度特征分别与自适应卷积核进行深度可分离卷积运算，得到自适应卷积融合特征；将其与RGB特征和深度特征拼接起来得到最终融合特征；解码模块对最终融合特征连续上采样，经过卷积操作得到语义分割结果；本发明使得多模态特征通过自适应卷积协同交互，其卷积核参数根据输入的多模态图像动态调整，相比传统固定参数的卷积核更加灵活。

Description

一种基于多模态自适应卷积的RGB-D图像语义分割方法

技术领域

本发明涉及图像语义分割和深度学习领域，尤其涉及基于卷积神经网络的RGB-D图像语义分割方法。

背景技术

图像语义分割是人工智能和计算机视觉领域的基本任务之一，其目的是根据图像内容识别出图像中每一个像素点的语义类别。作为图像和视频理解的基础，语义分割被广泛应用于自动驾驶，机器人导航等智能领域。

随着深度学习在计算机视觉的广泛应用，深层卷积神经网络已经成为计算机视觉领域最有效的方法。2015年，全卷积神经网络开创性的利用深度学习进行端到端的图像特征提取和像素语义分类，相比传统的语义分割算法在性能和效率上都获得巨大提升。因此，现有的图像语义分割方法均在此算法的基础上进行改进。

然而，图像的语义分割仍然是一个具有挑战性的问题。由于现实场景的复杂性，例如光照的影响和物体间的遮挡，极易导致大量像素点被错误识别。因此，仅靠单一模态RGB图像所提供的外观颜色信息难以对图像进行精确分割。随着深度传感器的普及，人们可以更方便的获得场景的深度图像，它隐含着图像的空间几何信息，而这种空间几何信息很难在RGB特征中获取。因此，很多学者开始展开对RGB-D图像的研究，通过引入图像的深度信息来进一步提升图像语义分割任务的鲁棒性。如何有效地融合多模态RGB特征和深度特征，充分利用多模态特征的互补信息，是提升RGB-D图像语义分割效果的关键因素。

现有基于卷积神经网络的语义分割算法，其卷积核参数在训练之后是固定的，不能根据输入的多模态图像进行自适应调整，并且现有多模态融合方法未能有效挖掘多模态图像的上下文信息，导致RGB-D图像语义分割算法的准确率较低，因此，本发明通过引入多模态自适应卷积操作对多模态特征进行有效融合，更充分地利用多模态图像的上下文信息以提升语义分割精度。

发明内容

本发明的目的在于：为解决现有RGB-D图像语义分割方法准确率较低的问题，提出一种新的基于多模态自适应卷积的RGB-D图像语义分割方法和系统。

为了实现上述目的，本发明实施例采用的技术方案如下：

(1)编码模块分别提取RGB图像的RGB特征F^rgb和深度图像的深度特征F^depth，其中，所述的RGB图和深度图是相同场景的成对图像；

(2)将RGB特征F^rgb和深度特征F^depth送入融合模块进行多模态特征融合，得到融合特征F^last，具体包括：

首先将RGB特征和深度特征输入多模态自适应卷积生成模块生成两个不同尺度的多模态自适应卷积核；

然后，将RGB特征F^rgb、深度特征F^depth、以及两个多模态自适应卷积核输入多模态特征融合模块得到自适应卷积融合特征F^fusion；

最后将RGB特征F^rgb、深度特征F^depth与F^fusion在通道维度进行拼接，得到最终融合特征F^last；

(3)解码模块用于对自适应卷积融合特征进行上采样恢复图像分辨率，得到语义分割概率图：首先使用卷积对最终的融合特征F^last进行降维，然后使用转置卷积逐步上采样恢复尺寸，最后使用卷积和Softmax操作得到语义分割概率图；

(4)训练阶段使用反向传播训练此算法，得到最终的语义分割网络模型；

(5)测试阶段输入新的图像，在已训练好的模型中前向传播输出语义分割结果。

进一步地，所述编码分支优选改进的ResNet50分类网络，改进具体指，去除ResNet50分类网络最后的池化层和所有全连接层，其余各层使用在ImageNet上预训练的权重进行初始化。一个分支网络用来提取RGB图像的RGB特征，将RGB特征记为F^rgb，另一个分支网络用来提取深度图像的深度特征，深度特征记为F^depth，它们的大小为H×W×C，其中H和W为特征图的高和宽，C为特征的通道数。

进一步地，所述多模态自适应卷积生成模块用于生成两个不同尺度的多模态自适应卷积核，所生成的自适应卷积核富含多模态特征的多尺度上下文信息。具体来说，首先将编码模块提取的RGB特征和深度特征在通道维度进行拼接，得到拼接特征，大小为H×W×2C。然后使用两路分支分别计算两个尺度的多模态自适应卷积。其中，第一路分支具体包括：首先对拼接特征使用自适应平均池化将拼接特征池化到3×3×C尺寸，然后经过1×1卷积操作将它们通道个数压缩为原来的四分之一；第二路分支具体包括：首先对拼接特征使用自适应平均池化将拼接特征池化到5×5×C尺寸，然后经过1×1卷积操作将它们通道个数压缩为原来的四分之一；由此得到两个不同尺度的多模态自适应卷积核，其卷积核尺寸大小分别为3×3×1/4C和5×5×1/4C，用于接下来的多模态特征融合操作。

进一步的，所述多模态特征融合模块用于对多模态特征进行自适应融合，从而获取富含多模态上下文信息的融合特征。其输入为编码模块提取的RGB特征、深度特征，以及两个尺度的多模态自适应卷积核。具体来说，首先分别使用1×1卷积操作将两个原始的RGB特征和深度特征的通道个数压缩为原来的四分之一，尺寸大小均改变为H×W×1/4C。然后分别将RGB特征和深度特征与两个尺度的多模态自适应卷积核进行深度可分离卷积运算，共进行4次运算，分别得到4个自适应卷积特征。将4个自适应卷积特征在通道维度拼接，并使用1×1卷积整合其通道维度的信息，得到自适应卷积融合特征。

具体地，所述本文算法模型的训练过程为：

对训练数据集中的图像通过翻转、缩放和旋转的方式进行数据增强，并将输入图像和标签缩放到相同尺寸，作为本发明网络模型的输入；

使用带有动量的随机梯度下降算法进行误差反向传播，更新模型参数，得到训练好的语义分割模型。

有益效果：

(1)本发明采用编码-多模态特征融合-解码式的网络结构，通过逐步恢复多模态融合特征的分辨率得到更精细的语义分割结果。

(2)本发明提出的多模态自适应卷积操作，解决了现有深度学习算法训练后的卷积核参数固定，不能根据输入的图像进行自适应调整的问题，多模态特征通过自适应卷积协同交互，其卷积核参数根据输入的多模态图像动态调整。并且通过多尺度卷积，使得特征在卷积运算过程中有效利用多个尺度的多模态特征上下文信息，相比传统的多尺度卷积核更加灵活，可以自适应捕获输入的RGB图像和深度图像的内部变化，有效提升了最终的语义分割精度。

附图说明

图1为本发明的流程图；

图2为本发明的RGB-D语义分割网络模型整体框架图；

图3为本发明的多模态自适应卷积生成模块结构图；

图4为本发明的多模态特征融合模块结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施与和附图，对本发明作进一步详细说明。

如图1所示，本发明实施例所提供的一种基于多模态自适应卷积的RGB-D图像语义分割方法，图2为了本发明所提出的基于多模态自适应卷积的RGB-D图像语义分割模型具体结构，主要包括如下步骤：

1)将成对的RGB图像和深度图像送入编码模块，使用两个相同的编码分支分别提取图像的RGB特征和深度特征，具体如下：

使用编码模块提取RGB图像的RGB特征和深度图像的深度特征，所述编码模块为双分支网络，每个分支网络为改进后的ResNet50分类网络，改进具体指，去除ResNet50分类网络最后的池化层和所有全连接层，其余各层的权重使用在ImageNet上预训练的权重进行初始化。一个分支网络用来提取RGB图像的RGB特征，将RGB特征记为F^rgb，另一个分支网络用来提取深度图像的深度特征，深度特征记为F^depth，它们的大小为H×W×C，其中H和W为特征图的高和宽，C为特征的通道数。

以提取RGB图像的RGB特征F^rgb为例，将RGB图像输入如表1所示的编码模块的结构。输入RGB图像尺寸为480×640×3，编码模块的第1层首先对输入的RGB图像使用7×7卷积操作，64个卷积核，第2层为残差模块，首先使用3×3最大池化操作，随后经过连续3次相同的1×1和3×3的卷积操作以及1×1批归一化操作，第3层为残差模块，经过连续4次相同1×1和3×3卷积操作以及1×1批归一化操作。第4层为残差模块，经过6次相同的1×1和3×3卷积操作以及1×1批归一化操作，第5层为残差模块，经过3次相同的1×1卷积和膨胀率为2的3×3空洞卷积操作以及1×1批归一化操作，这一层不改变上一层的特征的尺寸，最终得到的RGB特征,其高H和宽W均为原始图像的1/16。每个残差块最后都使用Relu函数激活操作。编码模块得到的最终RGB特征尺寸H×W为30×40，通道数C为2048。另一方面，深度图像经过编码模块提取深度特征F^depth的具体过程同RGB图像。

表1

2)将编码模块提取的RGB特征和深度特征送入融合模块进行多模态特征融合,得到融合特征F^last，具体如下：

第一步：将RGB特征和深度特征输入多模态自适应卷积生成模块生成两个不同尺度的多模态自适应卷积核。

多模态自适应卷积生成模块的工作过程如图3所示，具体为：

首先，将编码模块提取的RGB特征F^rgb和深度特征F^depth送入多模态自适应卷积生成模块，在通道维度拼接RGB特征和深度特征，得到拼接特征F^concat,其尺寸大小为H×W×2C：

F^concat＝Concat(F^rgb,F^depth) (1)

然后，分别使用两个不同的自适应平均池化操作得到两个不同尺寸池化特征P^3×3和P^5×5，尺寸分别为3×3×2C和5×5×2C：

P^3×3＝AvgPool(F^concat) (2)

P^5×5＝AvgPool(F^concat) (3)

最后，对上述两个池化特征分别使用1×1卷积操作，将通道个数减少为原来的四分之一，得到两个不同尺度的多模态自适应卷积核K^3×3和K^5×5：

K^3×3＝Conv1(P^3×3) (4)

K^5×5＝Conv1(P^5×5) (5)

其中，K^3×3和K^5×5尺寸分为3×3×1/4C和5×5×1/4C，多模态自适应卷积核富含多模态特征的上下文信息，将用来进行接下来的多模态特征融合任务，将其和原始的RGB特征和深度特征进行卷积计算。

第二步，通过多模态特征融合模块得到自适应卷积融合特征F^fusion。

如图4所示，多模态特征融合模块的步骤包括：

其输入为原始的RGB特征、深度特征，以及两个多模态自适应卷积核，首先分别使用1×1卷积操作，将RGB特征、深度特征的通道个数减少为原来的四分之一，得到降维后的RGB特征

和深度特征

然后，分别将RGB特征与两个尺度的多模态自适应卷积核K^3×3和K^5×5进行深度分离卷积运算，同样，分别将深度特征与两个尺度的多模态自适应卷积核K^3×3和K^5×5进行深度分离卷积运算，即特征图的每个通道与卷积核的每个通道分别进行卷积，设RGB特征图第i个通道为

深度特征的第i个通道为

两个不同尺度的多模态自适应卷积核的第i个通道表示为

和

则计算过程用公式表示如下：

需要注意的是，此过程在卷积之前首先对特征图外侧进行尺度为1的自适应全0填充，不减少特征图的尺寸和通道个数。最终得到4个多模态特征

和

最后，将得到的4个多模态特征在通道维度拼接起来，并使用1×1卷积操作整合它们在通道维度的信息，得到自适应卷积融合特征F^fusion：

第三步，将原始RGB特征、深度特征与F^fusion在通道维度进行拼接，得到最终融合特征F^last：

F^last＝Concat(F^rgb,F^depth,F^fusion) (13)

3)将F^last送入解码模块，进行连续的上采样逐步恢复图像尺寸，输出语义分割概率图。

解码模块过程包括：

将最终融合特征F^last送入输入如表2所示的解码模块的结构。解码模块的第1层首先对最终的融合特征F^last使用1×1卷积进行通道整合和降维，将特征通道个数减少为2048。第2层首先经过连续2次的3×3的卷积操作，然后使用3×3转置卷积进行上采样，将图像尺寸增大为上一层的的2倍，通道数减少为原来的四分之一。第3层、第4层与第2层操作相同，但特征的通道数减少为上一层的二分之一。需要注意，在第3层时需要使用额外的1×1卷积输出37个通道的特征图，并使用Softmax函数输出中间层的语义分割概率图，用于计算网络的中间层辅助损失。第5层首先经过连续2次的3×3的卷积操作，然后使用3×3转置卷积进行上采样，将图像尺寸继续增大为上一层的2倍，通道数减少为原来的二分之一，最后使用1×1卷积输出37个通道的特征图，并使用Softmax函数输出语义分割概率图，得到最终的语义分割结果。需要注意，每个卷积层后都带有批标准化和ReLU激活操作。

表2

4)模型训练

训练模块和测试模块在所述使用编码模块提取RGB特征和深度特征之前，需要对RGB-D语义分割数据集中的数据进行预处理，包括：

本发明以SUN-RGBD数据集作为训练集，SUN-RGBD数据集是目前最大的RGB-D室内场景语义分割数据集，RGB-D图像中的每个像素属于37个语义类别其中的一类，均为室内场景中常见的物体类别，如桌子、椅子、墙壁和地面等。在本实施例的方法中，使用5285张图片作为训练集，5050张图片作为测试集。

对训练数据集中的RGB图像、深度图像通过随机裁剪、缩放和翻转的方式进行扩增；

将数据集中的RGB图像、深度图像归一化为480×640尺寸作为本实施例的输入；

使用反向传播训练所述语义分割模型，得到训练好的语义分割模型，其中，

首先将标签的尺寸分别缩放为480×640和120×160。损失函数为两部分之和：第一部分是解码模块第3层输出的中间层语义分割概率图与尺寸为120×160标签之间的像素级交叉熵损失，第二部分是解码模块第5层输出的语义分割概率图与尺寸为480×640标签之间的像素级交叉熵损失。训练过程使用带有动量的随机梯度下降算法进行误差反向传播，更新模型参数，得到训练好的语义分割模型。

在本实施例的方法中，初始学习率为0.004，并且每50次迭代将学习率乘以0.8，动量为0.09，权重衰减系数为0.0004。

在测试阶段或者实际使用算法时，只需要输入新的RGB图像和深度图像，即可在已训练好的模型中前向传播输出最终的语义分割结果。

为了评估本发明算法模型的语义分割性能，本发明使用SUN-RGBD语义分割测试数据集进行测试，如表3所示，测试结果平均像素准确率(mean accuracy)为60.8％，平均交并比(mean IoU)为49.3％。相比之前的RGB-D语义分割方法，本发明有效提升最终的语义分割精度。

表3

序号	方法	平均像素准确率	平均交并比
				1	LSTM-F	48.1	-
2	FuseNet-SF5	48.3	37.3
				3	LSD-GF	58.0	-
4	RDFNet	60.1	47.7
				5	RedNet	60.3	47.8
6	本发明的方法	60.8	49.3

Claims

1.一种基于多模态自适应卷积的RGB-D图像语义分割方法，其特征在于，包括：

2.根据权利要求1所述的一种基于多模态自适应卷积的RGB-D图像语义分割方法，其特征在于，所述的编码模块由两个结构相同的编码分支构成，一个编码分支提取RGB图的RGB特征，另一个编码分支提取深度图的深度特征；

3.根据权利要求2所述的一种基于多模态自适应卷积的RGB-D图像语义分割方法，其特征在于，所述的编码分支优选改进的ResNet50分类网络，改进具体指，去除ResNet50分类网络最后的池化层和所有全连接层。

4.如权利要求1所述的一种基于多模态自适应卷积的RGB-D图像的语义分割方法，其特征在于，所述的多模态自适应卷积生成模块包括：

首先将编码模块提取的大小为H×W×C的RGB特征F^rgb，以及大小为H×W×C的深度特征F^depth在通道维度进行拼接，得到大小为H×W×2C的拼接特征F^concat；

然后分别使用两个不同尺度的自适应平均池化操作对拼接特征进行池化，得到两个不同尺度的池化特征；

使用1×1卷积操作分别对两个尺度的池化特征进行卷积，将其在通道维度降维，得到两个不同尺度的多模态自适应卷积核。

5.如权利要求1所述的一种基于多模态自适应卷积的RGB-D图像的语义分割方法，其特征在于，

所述的多模态特征融合模块具体如下：

输入为RGB特征F^rgb、深度特征F^depth，和两个尺度的多模态自适应卷积核；

首先分别使用1×1卷积操作将原始的RGB特征F^rgb和深度特征F^depth的通道个数减少为原来的四分之一，得到降维后的RGB特征

和深度特征

然后，将降维后的RGB特征

分别与两个尺度的自适应卷积核进行深度分离卷积运算，将降维后的深度特征

分别与两个尺度的自适应卷积核进行深度分离卷积运算，共得到4个自适应卷积特征；

最后，将4个自适应卷积特征在通道维度拼接，并使用1×1卷积整合通道维度的信息，得到自适应卷积融合特征F^fusion。