CN114842216A

CN114842216A - 一种基于小波变换的室内rgb-d图像语义分割方法

Info

Publication number: CN114842216A
Application number: CN202210461039.8A
Authority: CN
Inventors: 张荣芬; 范润泽; 刘宇红; 李景玉
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-08-02

Abstract

本发明公开一种基于小波变换的室内RGB‑D图像语义分割方法,首先构建基于小波变换的卷积神经网络；其次在编码器与解码器的连接处通过小波变换与逆变换结合的模块将原始图像不同频率的图像特征进行多尺度融合；最后通过解码器网络对上述特征进行多次上采样，解码器的每个模块对特征进行两倍的上采样，并通过卷积和编码器的跳连连接更好的进行特征映射，逐步恢复高分辨率的图像，输出语义分割结果；本发明充分利用了过去方法未能利用的高频特征，保留了图像信息中的轮廓细节等信息，有效地提高了室内图像语义分割准确度以及推理速度，并减少了网络的参数量。

Description

一种基于小波变换的室内RGB-D图像语义分割方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于小波变换的室内RGB-D图像语义分割方法。

背景技术

随着计算机视觉领域的发展，针对图片的语义分割成为了该领域的一个重要课题，对图像中的每一个像素进行分类并预测所属标签、位置即组成的形状，通过上述操作来提供对相关场景的完整理解。现在语义分割在自动驾驶、遥感分析、医疗影像处理等都有着广泛的应用。对于室内场景语义分割而言，由于影响室内场景语义分割的因素比较复杂(光照、遮挡等)，在室内场景的研究中减小这些因素的影响从而提高语义分割的准确率就成了主要的问题。以往的深度学习方法通过处理室内场景RGB图像实现端到端的图像语义分割，但由于室内场景复杂、光照不均、色彩纹理重复度高等影响，基于RGB图像的室内场景语义分割存在类别误分类、边缘误分割、鲁棒性和准确度不高等特点。近年来的研究发现，基于RGB-D图像的语义分割可以通过场景中受光照等条件影响小的深度信息提高分割效果，同时深度信息还可以表现出物体之间的位置等前后关系，与RGB彩色图像互补，对语义分割也有一定的辅助作用。

随着TOF(Time-of-flight)、Kinect等深度相机的出现，获取场景的深度信息变得更加容易，然而找到RGB彩色图像与深度信息的有效、高质量的融合方式一直是一个具有挑战性的问题。Jiang等通过并行处理，将编码器部分中间层的RGB和深度信息进行相加融合。Li等认为单层融合不能很好地将彩色图像和深度图进行互补，选择在最终预测之前融合特征。Chang等则在损失函数中加入深度信息，利用深度数值在分类物体边缘的变化来对网络训练进行约束。但上述方法仍存在许多问题：1)单纯的将深度图像作为第四通道与彩色图像融合，没有充分利用RGB彩色信息与深度信息互补性；2)不同方式存在多个尺度信息特征丢失等问题，然而对于室内场景语义分割问题，多尺度特征提取的高效性影响着小目标物体的分割精确度。3)深度图像相对于RGB图像更加稀疏，其代表着RGB图像中每个像素的深度值，从深度图像中能更好的获取边缘轮廓信息，也就是高频信息，但传统卷积、池化等操作往往会损失高频特征。因此，解决这一类的问题显得尤为重要。

发明内容

针对上述问题，本发明提供了一种基于小波变换的室内RGB-D图像语义分割方法，采用ResNet-50为骨架网络，基于小波变换的融合模块，通过小波变换将原始图像分为四个频率子代，并通过小波逆变换实现图像融合，分别用于RGB彩色图像与深度图像的融合以及上下文模块。

为了实现上述技术方案，本发明提供了一种基于小波变换的室内RGB-D图像语义分割方法，包括以下步骤：

步骤一：构建基于小波变换的卷积神经网络，编码器网络采用ResNet-50，并移除全连接层，网络中有两个分支分别提取原始图像中RGB和深度特征信息，同时通过小波变换融合模块进行RGB-D的特征融合；

步骤二：在编码器与解码器的连接处通过小波变换与逆变换结合的模块将原始图像不同频率的图像特征进行多尺度融合；

步骤三：通过解码器网络对上述特征进行多次上采样，解码器的每个模块对特征进行两倍的上采样，并通过卷积和编码器的跳连连接更好的进行特征映射，逐步恢复高分辨率的图像，输出语义分割结果。

进一步改进在于：所述编码器与解码器等网络模型的训练过程如下所示：

步骤一：将原始图像以及对应标签图像输入到卷积神经网络中，原始图像包括三通道的彩色图像以及对应场景的深度图像，标签图像为原始图像中的每个像素对应的标签类别；

步骤二：在编码器中每一个残差模块之前加入小波变换融合模块对RGB彩色信息和深度信息进行融合，两种特征信息首先通过离散小波分解成各不相同的A、V、H、D四个子带，随后将RGB彩色图像和深度图像的对应子带进行加操作，随后通过注意力模块SEModule，最后再由小波逆变换融合输出；本发明设计了离散小波变换模块来代替ResNet中的池化操作，图像进入模块后分解为四个子带，随后将子带进行拼接得到的特征信息分辨率变为输入的一半，通道数为输入的4倍，随后经过1×1的卷积操作将通道数变为与输入的通道数值；

步骤三：在编码器-解码器的连接处设置小波变换连接模块，并与融合模块相同，通过小波变换的方式保留原始输入的不同频率信息特征，同时对多尺度的信息进行融合；输入特征经过离散小波变换后分解成四个子带，随后经过注意力模块再由逆小波变换融合，同时与输入分支跳连，聚合不同尺度的信息；

步骤四：整合深度可分离卷积，来进一步提高语义分割的精度与效率，通过最近邻上采样来增加分辨率，并利用深度可分离卷积整合特征信息。

本发明的有益效果是：

1、本发明通过小波变换和小波逆变换对不同频率的图像信息进行融合，保留了低频信息和图像的高频轮廓细节。

2、通过小波变换代替原始网络的池化操作，以及在编码器解码器的连接处增加了小波变换模块，有效的保留了原始图像细节信息，并减小了参数优化了推理速度。

3、本发明能够在减少参数量和计算量的同时加快了推理速度，保留了图像的细节轮廓信息，能够很好的对大小目标进行语义分割。

附图说明

图1为本发明的的流程图。

图2为本发明的基于小波变换设计的网络模块，其中最上方是注意力模块，图下部中左边为小波变换融合模块(wavelet transform fusion block)，中部为小波变换模块(DWT block),右侧为小波变换连接模块(wavelet transform connect module)。

图3为本发明的解码器模块示意图。

具体实施方式

为了加深对本发明的理解，下面将结合实施例对本发明做进一步详述，本实施例仅用于解释本发明，并不构成对本发明保护范围的限定。

根据图1、2、3所示，本实施例提供了一种基于小波变换的室内RGB-D图像语义分割方法,充分利用了过去方法未能利用的高频特征，保留了图像信息中的轮廓细节等信息，有效地提高了室内图像语义分割准确度以及推理速度，并减少了网络的参数量。

首先构建基于小波变换的卷积神经网络，采用编码器-解码器的结构的网络，其中编码器采用ResNet-50作为骨架网络，并采用设计的小波融合模块与四个卷积模块，选择高效快速的哈尔小波，采用2D哈尔小波变换的离散小波变换(DWT)可以将原始图像x分解成四个子带图像，图像大小即图像分辨率变为原始图像的一半。上述操作可同等于使用四个滤波器(f_LL、f_LH、f_HL、f_HH)对原始图像x进行分解,获得x_LL、x_LH、x_HLx_HH四个子带图像，即A低频图像、V竖直细节图像、H水平细节图像、D对角细节图像，滤波器的参数固定，不随着网络的训练的反向传播进行梯度下降操作更新参数，步幅设置为2。Haar小波的滤波器如式1：

输入图像为x(i，j)，其中i为行，j为列，则2D DWT如式2所示：

其中

表示卷积操作，输入x可通过与不同滤波器进行卷积操作来表示，可以理解为步幅为2的下采样。由于小波变换并不丢失信息，所以小波变换与小波逆变换为可逆操作，对于Haar小波，小波逆变换可表示为式3：

原始图像通过DWT获得四个子带，也可以将四个子带通过IWT得到原始图像。编解码器连接处采用设计的小波变换模块，解码器部分采用深度可分离卷积以及最近邻上采样模块进行上采样，并通过跳连连接防止信息丢失。通过小波变换的方式对图像提取不同频率的特征，保证高频信息的有效利用；

对建立的基于小波变换的卷积神经网络进行端到端的训练，采用Adam优化器并设置初始学习率为0.002，并将解码器中的每一次上采样输出，汇总所有上采样输出与总输出输入到损失函数部分，将得到的损失函数反向传播更新网络参数，损失函数如式(4)所示；

其中，α_t是一个向量，表示每个小类的参数；p_t表示当前样本在标签图像上的预测值；γ表示聚焦参数，聚焦参数设置为2，

上式中p是将预测结果产生的特征图像经过softmax处理后的数值；

将需要预测分割的图像输入已经训练好的网络中得到语义分割的结果。

编码器采用双分支分别提取彩色图像与深度图像的特征信息；其中含有四个卷积模块，并在每个卷积模块后通过设计的小波变换融合模块将彩色图像与深度图像进行融合；小波变换融合模块通过2D离散小波变换将彩色图像与深度图像分别分解成由低频图像、垂直细节图像、水平细节图像及对角细节图像组成的四个子带，将彩色图像与深度图像对应的四个子带分别相加融合后通过注意力模块，最后通过小波逆变换得到融合的图像；

在编码器与解码器的连接处通过小波变换模块将提取的特征分解成四个子带，并通过注意力模块与小波逆变换还原成原始输入大小，聚合不同频率的特征信息；

经过上述步骤后，进入解码器部分，通过整合的可分离卷积模块与最近邻上采样来增加分辨率并整合特征信息；同时利用1×1卷积将编码器与解码器跳连来避免信息丢失；进过三个解码器模块与两个上采样模块后将分辨率恢复成原始图像输入大小。

将上述步骤中得到的预测特征图像输入到预测层中，得到输出结果。

在本实施例中，所述编码器与解码器等网络模型的训练过程如下所示：

步骤一：将原始彩色图像与深度图像以及对应标签输入网络；

步骤二：如图1所示在编码器中每一个残差模块之前加入小波变换融合模块对RGB彩色信息和深度信息进行融合，两种特征信息首先通过离散小波分解成各不相同的A、V、H、D四个子带，随后将RGB彩色图像和深度图像的对应子带进行加操作，随后通过注意力模块SEModule，最后再由小波逆变换融合输出。如图2所示，本发明设计了离散小波变换模块来代替ResNet中的池化操作，图像进入模块后分解为四个子带，随后将子带进行拼接得到的特征信息分辨率变为输入的一半，通道数为输入的4倍，随后经过1×1的卷积操作将通道数变为与输入的通道数值。

步骤三：本发明在编码器-解码器的连接处设计了小波变换连接模块，与融合模块相同，我们希望通过小波变换的方式保留原始输入的不同频率信息特征，同时对多尺度的信息进行融合。输入特征经过离散小波变换后分解成四个子带(A、V、H、D)，随后经过注意力模块再由逆小波变换融合，同时与输入分支跳连，聚合不同尺度的信息。步骤4：解码器部分如图3所示。本发明的解码器有三个解码器模块组成，其中解码器模块通道数由2048随着分辨率上升而通过卷积操作减少。此外，整合了深度可分离卷积。深度可分离卷积可以减少参数量，节约了计算成本，通过这些操作来进一步提高语义分割的精度与效率。最后通过最近邻上采样来增加分辨率，并利用深度可分离卷积整合特征信息。在解码器上采样的过程中难以避免信息丢失，我们利用1×1的卷积操作通过解码器跳连连接将编码器RGB-D融合后的特征整合进来，在3个解码器模块后通过两个上采样模块将将图像分辨率恢复，同时，我们在每一个解码器模块后加入一个输出，不同分辨率的输出和最后结果输入到网络末端并最终得到Loss函数，Loss函数选择交叉熵函数，如下式所示：

其中，class对于像素i上的标签类别,andx表示对于像素i上的模型输出,N表示特定输出的空间分辨率。由于还有三个解码器模块的输出，所以总的损失函数为四部分损失函数的和，且由于不同输出的分辨率不同，我们根据分辨率的大小分配了不同的权重，比例为1:2:3:4。

在两个公开数据集NYUV2和SUN RGB-D数据集进行实验，同时输入RGB彩色图像以及深度图像，整个模型在AMD Ryzen9上训练，使用Adam优化器动态调整学习率，初始学习率设为0.002.同时，我们使用了迁移学习，将imagenet数据集上的ResNet50预训练权重作为初始权重，有效的加速了对整个网络的训练速度。

3种语义分割评价指标用于评价本文的实验结果，具体包括PA、MPA和MIoU。PA为一张图片中分类正确的像素点数和所有像素点数的比值，定义如下式：

其中p_ii表示分类正确的像素数量，p_ij表示本属于类i却被预测为类j的像素数量。

MPA为每个类内分类正确的像素点数和所有像素点数的比值的平均值，定义如下式：

其中k表示类别数。

MIoU为真实值与预测值两个集合的交集和并集的比值的平均值，定义如下式：

将NYUv2与SUNRGBD带入所提算法并与现有算法进行对比。结果显示，本文在像素精度、平均像素精度和平均交并比三种评价指标上都优于现有算法，三个评价指标都有所提升，我们认为这得益于结合了小波变换的RGB-D融合，保留了更多的细节信息，使两者有更好的融合效果。同时虽然只采用了ResNet50的编码结构，而没有使用更深层的编码网络，但通过替换池化层以及设计了编码器-解码器的小波变换连接模块，对目标物体的边缘信息有了更精确的判别，同时是整个网络不用很深层的编码器结构就可得到很好的分割效果。

同时，在NYUv2数据集上测试了模型的参数大小和推理速度。整个实验部署在NVIDIA 1080Ti上，并与现有方法进行比较。从结果中可以看出，我们设计的小波变换模块只需要少量的额外计算，而且可以达到实时推理的速度。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于小波变换的室内RGB-D图像语义分割方法,其特征在于，包括以下步骤：

步骤一：构建基于小波变换的卷积神经网络，编码器网络采用ResNet-50，并移除全连接层，编码器网络中有两个分支分别提取原始图像中RGB和深度特征信息，同时通过小波变换融合模块进行RGB-D的特征融合；

2.根据权利要求1所述的基于小波变换的室内RGB-D图像语义分割方法,其特征在于，所述编码器与解码器网络模型的训练过程如下所示：

步骤二：在编码器中每一个残差模块之前加入小波变换融合模块对RGB彩色信息和深度信息进行融合，两种特征信息首先通过离散小波分解成各不相同的A、V、H、D四个子带，随后将RGB彩色图像和深度图像的对应子带进行加操作，随后通过注意力模块SEModule，最后再由小波逆变换融合输出；