CN112164078B

CN112164078B - 基于编码器-解码器的rgb-d多尺度语义分割方法

Info

Publication number: CN112164078B
Application number: CN202011026414.3A
Authority: CN
Inventors: 刘晋; 谢钰榕; 林芯玥
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2024-03-15
Anticipated expiration: 2040-09-25
Also published as: CN112164078A

Abstract

本发明披露一种基于编码器‑解码器的RGB‑D多尺度语义分割方法。本发明对基本的编码器‑解码器架构进行改进，将编码器部分进行分支并引入RGB图像和深度图像进行特征融合，在根据对象的颜色及纹理属性识别过程中，利用深度信息降低因具有相似外观而产生不确定性的分割。同时，在编码器的RGB部分采用深度可分离卷积替代传统卷积。在解码器部分，通过将相邻层中前一层的输入上采样添加到后一层输入的方式，保留上层中的空间信息，从而解决多尺度特征缺失问题。本发明提出的基于编码器‑解码器的RGB‑D多尺度语义分割方法，有效地提高了语义分割的准确率，且大大减少了训练时的计算量，进一步提高了性能。

Description

基于编码器-解码器的RGB-D多尺度语义分割方法

技术领域

本发明属于计算机视觉，图像语义分割领域，具体涉及一种基于编码器-解码器的RGB-D多尺度语义分割方法。

背景技术

计算机视觉是一门研究如何让计算机从图像和视频中获取高级、抽象的信息的科学。图像语义分割问题是其中一项热门且重大的课题，它是一个将图像中每个像素归于类标签的过程，是图像场景理解的重要基础，具有重要的研究价值和广阔的应用场景，例如自动驾驶、人机交互、图像搜索引擎、增强现实、医疗图像诊断等。

对于图像语义分割的研究，早期的传统语义分割是基于非监督学习的，后来逐步发展成基于机器学习，最终，深度学习正式进入图像语义分割领域。目前，主流的图像语义分割方法是使用全卷积神经网络来提取图像中的像素特征用于标签分类的预测。全卷积神经网络可以接受任意尺寸的输入图像，采用反卷积层对最后一个卷积层的特征图进行上采样，使它恢复到输入图像相同的尺寸。从而可以对每个像素都产生一个预测，同时保留了原始输入图像中的空间信息，最后在上采样的特征图上进行逐像素分类。由于上采样生成与原图一样大小的预测结果，导致很难得到精细化的分割结果。

目前，以全卷积神经网络为基础的框架在图像语义分割任务中存在以下几个固有问题：

1.缺乏上下文关系的推断：上下文关系的推断对于复杂场景的语义分割至关重要，例如漂浮在水面上的大概率是一艘船，而不是一辆汽车。由于缺乏准确的上下文关系，会给出错误的判断。

2.模糊的标签关系：许多标签之间是存在关系的，通过学习这种关系，我们可以对缺失的或者难以预测的标签进行弥补和加强，例如摩天大楼的部分会被识别为建筑物的部分，显而易见这两种是互斥的。

3.预测不连续：不同的场景中包含任意大小的物体，尺寸很小但很重要的物体容易被忽略，而比较大的物体又易超出视野域的接收范围，例如床单上的枕头很容易被忽视。

发明内容

为了解决上述问题，本发明提出了一种基于编码器-解码器的RGB-D多尺度语义分割方法。

本发明对基本的编码器-解码器架构进行改进，将编码器部分进行分支并引入RGB图像和深度图像进行特征融合，在根据对象的颜色及纹理属性识别过程中，利用深度信息降低因具有相似外观而产生不确定性的分割。同时，在编码器的RGB部分采用深度可分离卷积替代传统卷积。在解码器部分，通过将相邻层中前一层的输入上采样添加到后一层输入的方式，保留上层中的空间信息，从而解决多尺度特征缺失问题。本发明提出的基于编码器-解码器的RGB-D多尺度语义分割方法，有效地提高了语义分割的准确率，且大大减少了训练时的计算量，进一步提高了性能。

为了达到上述目的，本发明基于编码器-解码器的RGB-D多尺度语义分割方法通过以下技术方案实现：

一种基于编码器-解码器的RGB-D多尺度语义分割方法，包含以下步骤：

步骤1：构建RGB编码器模块，从RGB图像中进行颜色特征提取。

步骤2：构建Depth编码器模块，从depth图像中进行深度特征提取。

步骤3：对RGB特征和depth特征进行多模态信息融合。

步骤4：RGB编码器轻量化，减少网络的参数量及运算量，提高预测的实时性。

步骤5：构建RGB-D解码器模块，融入多尺度特征融合方法，提高语义分割的精确度。

进一步地，所属步骤1中的RGB编码器模块通过CBR块(Conv，BN，Relu)提取RGB图像不同阶段的特征并进行标准化。

进一步地，所属步骤2中的Depth编码器模块通过CBR块(Conv，BN，Relu)提取深度图像不同阶段的特征并进行标准化。

进一步地，所属步骤3中的融合过程中采用稀疏融合的方式，将每一阶段所提取的深度特征插入到RGB编码器对应阶段的池化层之前进行融合。

进一步地，所属步骤4中的RGB编码器轻量化使用深度可分离卷积代替卷积层中的传统卷积，先卷积空间维度，再卷积通道维度。

进一步地，所属步骤5中的RGB-D解码器模块包括：首先，使用CBR块替代反卷积层作为网络上采样的主要方式，每个CBR块的前面都有一个上采样层，将上层CBR块的输出进行2倍上采样。然后，从倒数第三层的CBR块开始，将相邻层中前一层的输入使用双线性插值进行2倍上采样，与后一层输入相加，从而保留上层中的空间信息。

附图说明

图1为本发明的基于编码器-解码器的RGB-D多尺度语义分割方法的流程图

图2为本发明的基于编码器-解码器的RGB-D多尺度语义分割方法的网络结构图

图3为本发明的基于编码器-解码器的RGB-D多尺度语义分割方法的融合RGB特征和depth特征示意图

图4为本发明的基于编码器-解码器的RGB-D多尺度语义分割方法的融合多尺度特征的示意图

图5为本发明的基于编码器-解码器的RGB-D多尺度语义分割方法的数据集示意图

图6为本发明的基于编码器-解码器的RGB-D多尺度语义分割方法的训练过程的loss收敛图

图7为本发明的基于编码器-解码器的RGB-D多尺度语义分割方法的训练过程的训练精度图

图8为本发明的基于编码器-解码器的RGB-D多尺度语义分割方法的分割效果图

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实例中技术方案进行清楚、完整地描述。本发明包括但不仅限于下述实施例。

如图1所示为本发明的基于编码器-解码器的RGB-D多尺度语义分割方法的整体流程图，具体步骤如下：

步骤1：构建RGB编码器模块，从RGB图像中进行颜色特征提取。

如图2所示，编码器RGB分支采用了除全连接层外的VGG16的网络结构，在此基础上引入BN层，在卷积层和ReLU层之间使用BN层来减少内部协变量偏移，通过归一化激活函数的输入，达到减少可调参数、加快深度学习收敛速度的目的，我们将卷积、BN和ReLU的组合称为CBR块。BN层首先将特征图规格化为零均值和单位方差，然后对其进行缩放和移动，并且在训练期间学习比例和移位参数。这样，RGB特征不但会被深度特征覆盖，而且网络会学习如何以最佳方式将它们组合。本实例中使用224*224的RGB图作为输入，经过5次卷积和池化操作，得到7*7*512的特征图。

如图2所示，编码器depth分支采用了除全连接层外的VGG16的网络结构，在此基础上引入BN层，在卷积层和ReLU层之间使用BN层来减少内部协变量偏移，通过归一化激活函数的输入，达到减少可调参数、加快深度学习收敛速度的目的，我们将卷积、BN和ReLU的组合称为CBR块。本实例中使用224*224的深度图作为输入，经过5次卷积和池化操作，得到7*7*512的特征图。

步骤3：对RGB特征和depth特征进行多模态信息融合。

如图3所示，融合层是该网络体系架构的关键结构，该层融合了深度分支和RGB分支的特征图。其中，融合层的具体实现操作为逐元素求和。在本文提出的网络结构中，我们将融合层插入在CBR块之后。通过融合操作，将由深度图像学习得出的特征图不连续的添加到RGB图像分支中，以补充更多的深度信息。本实例中将每一次卷积后depth特征插入到对应卷积后的RGB编码器模块的池化层之前，采用的是稀疏融合的方式。其融合方法如下：

x_k ^(l+1)＝g_k ^(l)(x^(l)；w_k ^(l))＝σ(<w^(l)，x^(l)>+b_k ^(l))

如果输入是四通道RGB-D图像，我们则可以将特征图分解为x＝[a^T b^T]^T，其中 d₁+d₂＝d∶＝dim(x)是学习到的特征，d₁和d₂分别来自光度通道(RGB)和深度通道。然后我们可以进一步得出：

x_k ^(l+1)＝σ(<u_k ^(l)，a^(l)>+c_k ^(l)+<v_k ^(l)，b^(l)>+d_k ^(l))

＝max(0，<u_k ^(l)，a^(l)>+c_k ^(l)+<v_k ^(l)，b^(l)>+d_k ^(l))

≤max(0，<u_k ^(l)，a^(l)>+c_k ^(l))+max(0，<v_k ^(l)，b^(l)>+d_k ^(l))

其中，σ表示激活函数，我们将w_k ^(l)分解为b_k ^(l)分解为b_k ^(l)＝c_k ^(l)+d_k ^(l)。

为了减少网络的参数量及运算量，使其轻量化，本发明对原编码器的RGB分支做出改进，将卷积层中的传统卷积用深度可分离卷积进行代替。深度可分离卷积将传统的卷积分解为一个深度卷积和一个1×1的卷积。输入的特征映射F尺寸为(D_F，D_F，M)，采用的标准卷积K为(D_K，D_K，M，N)，输出的特征映射G尺寸为(D_G，D_G，N)

标准卷积的卷积计算公式为：

对应的计算量公式为：

Gk_,l,n＝D_K·D_K·M·N·D_F·D_F

若将标准卷积拆分为深度卷积和点卷积，深度卷积的卷积公式为：

其中是深度卷积，卷积核为(D_K，D_K，1，M)，则深度可分离卷积的计算量公式为：

因此我们能够得到深度可分离卷积与原标准卷积的计算量之比，计算公式如下所示：

如图4所示，本实例提出的网络在解码器中使用CBR块(卷积、BN和ReLU的组合)替代反卷积层作为网络上采样的主要手段，每个CBR块的前面都有一层上采样层，将上层CBR块的输出进行2倍上采样。随着卷积层深度的增加，卷积网络提取到的空间信息越来越少，但增加卷积层深度可以有效地提取细节信息；为了同时保留空间和细节信息，本实例引入了双线性插值法作为多尺度融合特征方法。具体地，该方法为将倒数第三层输入通过双线性差值法进行2倍上采样与倒数第二层的输入相加；将倒数第二层的输入通过双线性差值法进行2倍上采样与最后的输入相加。通过将相邻层中前一层的输入上采样后加入后一层输入的方式，保留上层中的空间信息，从而达到多尺度的效果。

假设当前层CBR块的输入为Input_l,输出为map_l；CBR块的上采样算法为maxunpooling，记为mu(x)；双线性插值法bilinear interpolation，记为bi(x)，则

其中为concat操作。

具体地，上述所采用的双线性插值法，又称为双线性内插法，它是一种有两个变量的插值函数的线性拓展。通常来说我们要对图像插值的原因是为了resize它为我们所需要的尺度。双线性插值法的本质就是在两个方向上做线性插值，即为有两个变量的插值函数的线性插值扩展。其核心是在两个方向上分别做一次线性插值。我们的目标是想得到未知函数在点P＝(x,y)的值，假定我们已知函数f在Q₁₁＝(x₁，y₁)、Q₁₂＝(x₁，y₂)、Q₂₁＝(x₂，y₁)及Q₂₂＝(x₂，y₂)四个点的值。f即为一个像素点的像素值，那么我们首先在x方向进行线性插值，得到：

同样地，我们在y方向上进行线性插值得到：

最后我们可以得到双线性插值的结果：

本实例中的双线性插值法采用的是图像中相邻的4个像素点，要通过双线性插值法算出输出尺寸中的每个像素点的像素值，这个操作是通过输出像素点的坐标对应到源图像中的坐标，然后通过双线性插值法计算出源尺寸中相应坐标的像素值坐标对应关系，然后按比例进行对应。

通过多尺度特征融合后，模型可以学习并且利用不同尺度的信息以及特征。不会过多的加大网络的体量以及负担，但是同时也做到了结合局部信息和全局信息。

训练过程中，我们采用了如图5所示的数据集，该数据集包含1449张由微软Kinect设备捕获的室内的RGB-D图像。其给出密集的像素级别的标注(类别级别和实例级别的均有)，训练集795张与测试集654张均有40个室内物体的类，该数据集拥有丰富的刻画室内场景。网络共进行了300轮迭代训练，在训练过程中用pytorch记录神经网络的loss变化，如图5所示。可以由6得出，训练期间达到的最小loss值：seg:0.161 at epoch:287。

表1为本实例中不同网络实验精度比较图

相较于传统的单通道RGB图像模型以及传统的HHA编码的模型，RGB-D图像的模型具有较好的分割性能，全局精度分别提高了14.2％和11.5％；而对于未加入多尺度特征融合处理的RGB-D图像的模型，加入多尺度特征融合处理的模型具有较好的分割效果，全局精度提高了1.1％，平均精度提高了1.2％。

表2为本实例中轻量化后的用时比较图

Model	Time/min
		FuseNet	2008.05
MSCFNet	1446.63

FuseNet(33.46h)明显比本文提出的机遇深度可分离卷积的轻量化RGB-D图像语义分割模型MSCFNet(24.11h)慢，MSCFNet的运行时间较原模型减少了27.9％。

预测得到的语义分割结果如图8所示，图中第一列为输入图像，第二列为groudtruth，第三列为加入多尺度特征融合的结果，最后一列为基于多尺度特征融合加入轻量化模型的M-SCFNet的结果。可以看到在减少了计算量以及参数量的情况下，轻量多尺度的分割效果仍较有竞争性，不仅达到了“轻量”且同时保证了一定的分割性能。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员或一般模型爱好者可以无需创造性劳动或者通过软件编程就可以根据本发明的构思在现有技术的基础上通过逻辑分析，推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于编码器-解码器的RGB-D多尺度语义分割方法，其特征在于包含以下步骤：

步骤1：构建RGB编码器模块，从RGB图像中进行颜色特征提取；

步骤2：构建Depth编码器模块，从depth图像中进行深度特征提取；

步骤3：对RGB特征和depth特征进行多模态信息融合；

步骤4：RGB编码器轻量化，减少网络的参数量及运算量，提高预测的实时性；

步骤5：构建RGB-D解码器模块，融入多尺度特征融合方法，提高语义分割的精确度；

所属步骤1中的RGB编码器模块由CBR块构成，即Conv块、BN块和ReLU块的组合，图片先经过Conv卷积层卷积，然后在BN层中规格化，最后通过ReLU激活函数归一化提取出RGB图像不同阶段的颜色特征；

所属步骤2中的Depth编码器模块统一由CBR块构成：Conv块、BN块和Relu块的组合，图片先经过Conv卷积层卷积，然后在BN层中规格化，最后通过ReLU激活函数归一化提取出RGB图像不同阶段的深度特征；

所属步骤3中的融合过程采用稀疏融合的方式，将每一阶段所提取的深度特征插入到RGB编码器对应阶段的池化层前面进行融合；

所属步骤4中的RGB编码器轻量化使用深度可分离卷积代替卷积层中的传统卷积，先对空间维度进行卷积操作,再对通道维度进行卷积操作；

所属步骤5中的RGB-D解码器模块中首先使用CBR块替代反卷积层作为网络上采样的主要方式，每个CBR块的前面都有一个上采样层，将上层CBR块的输出进行2倍上采样；然后，从倒数第三层的CBR块开始，将相邻层中前一层的输入使用双线性插值进行2倍上采样，与后一层输入相加，从而保留上层中的空间信息，完成多尺度分割。