CN114723951A

CN114723951A - 一种用于rgb-d图像分割的方法

Info

Publication number: CN114723951A
Application number: CN202210637616.4A
Authority: CN
Inventors: 许源平; 杨雅丽; 许志杰; 张朝龙; 李婵玉; 曹衍龙; 盖秋艳; 谢攀; 李涂鲲
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-07-08
Anticipated expiration: 2042-06-08
Also published as: CN114723951B

Abstract

本发明公开了一种用于RGB‑D图像分割的方法，本方法基于RGB‑D彩色深度图像进行语义级别分割，提取深度图像中的前景像素信息并以一个权重矩阵作为输出，用来加权辅助RGB图像中的特征信息提取，使得两个模态下的重要特征信息相互补充响应，充分弥补在采样过程中的特征信息损失，无论是在语义上的特征表现还是空间上的精细度都得到了提升，特别是对物体边缘信息具备更强的灵敏性。

Description

一种用于RGB-D图像分割的方法

技术领域

本发明涉及图像分割领域，具体涉及一种用于RGB-D图像分割的方法。

背景技术

虽然卷积神经网络(CNN)在过去十年中已经成为RGB图像处理的主流技术，并取得了巨大的成功，但是由于其局部特性，CNN很难获得全局和远程的语义信息。在传统的语义分割任务中，RGB图像虽然包含丰富的纹理和颜色信息，但缺乏空间深度信息，很难单独从RGB图像中做到精准的像素级分类，进而精细分割出物体边缘，这在面对镜面反射、反光玻璃、强光下的物体等场景时尤其如此。

发明内容

针对现有技术中的上述不足，本发明提供的一种用于RGB-D图像分割的方法解决了现有图像分割方法在部分场景下难以精细分割物体边缘的问题。

为了达到上述发明目的，本发明采用的技术方案为：

提供一种用于RGB-D图像分割的方法，其包括以下步骤：

S1、获取目标图像的RGB图像和深度图像；分别构建RGB图像特征提取与下采样网络、深度图像特征提取与下采样网络；

其中RGB图像特征提取与下采样网络包括依次连接的第一图像切分模块、第一特征提取与下采样模块、第二特征提取与下采样模块、第三特征提取与下采样模块和第四特征提取与下采样模块；

深度图像特征提取与下采样网络包括依次连接的卷积层、第二图像切分模块、第五特征提取与下采样模块、第六特征提取与下采样模块、第七特征提取与下采样模块和第八特征提取与下采样模块；

S2、将第五特征提取与下采样模块的输出通过第一softmax层后的结果与第一特征提取与下采样模块的输出相乘，得到第一矩阵；

S3、将第六特征提取与下采样模块的输出通过第二softmax层后的结果与第二特征提取与下采样模块的输出相乘，得到第二矩阵；

S4、将第七特征提取与下采样模块的输出通过第三softmax层后的结果与第三特征提取与下采样模块的输出相乘，得到第三矩阵；

S5、将第八特征提取与下采样模块的输出通过第四softmax层后的结果与第四特征提取与下采样模块的输出相乘，得到第四矩阵；

S6、将第四特征提取与下采样模块的输出通过瓶颈层后的结果与第四矩阵相加，得到第五矩阵；

S7、通过第一上采样模块对第五矩阵进行上采样处理，将处理结果与第三矩阵相加，得到第六矩阵；

S8、通过第二上采样模块对第六矩阵进行上采样处理，将处理结果与第二矩阵相加，得到第七矩阵；

S9、通过第三上采样模块对第七矩阵进行上采样处理，将处理结果与第一矩阵相加，得到第八矩阵；

S10、通过第四上采样模块对第八矩阵进行上采样处理，将处理结果进行重构，得到图像分割结果。

进一步地，第一图像切分模块和第二图像切分模块均采用Patch Partition层。

进一步地，第一特征提取与下采样模块和第五特征提取与下采样模块结构相同，均包括依次连接的Linear Embedding层和Swin Transformer Block层。

进一步地，第二特征提取与下采样模块、第三特征提取与下采样模块、第四特征提取与下采样模块、第六特征提取与下采样模块、第七特征提取与下采样模块和第八特征提取与下采样模块的结构相同，均包括依次连接的Patch Merging Block层和SwinTransformer层。

进一步地，每个上采样模块均包括依次连接的多层感知机和上采样层。

本发明的有益效果为：

1、本方法基于RGB-D彩色深度图像进行语义级别分割，提取深度图像中的前景像素信息并以一个权重矩阵作为输出，用来加权辅助RGB图像中的特征信息提取，使得两个模态下的重要特征信息相互补充响应，充分弥补在采样过程中的特征信息损失，无论是在语义上的特征表现还是空间上的精细度都得到了提升，特别是对物体边缘信息具备更强的灵敏性。

2、本方法在固定大小的窗口中进行多头自注意力机制操作，同时串联着带有偏移窗口配置的多头自注意力机制模块，巧妙地解决了前者窗口间的像素相互交流和影响问题；随着下采样操作的进行，感受野逐渐扩大，获得了丰富的上下文信息。

3、本方法隔行隔列选取像素拼成一个新的特征图，通过重复操作依次堆叠成多个通道，该方法最大限度地减少了采样过程中造成的特征损失。每个阶段特征图减小2倍，通道数扩增2倍。而在上采样的过程中，Patch Extending层采用的是下采样的逆操作，采样损失的减少，对于小目标和物体边缘的预测与分割具有良好的效果。

附图说明

图1为本方法的流程示意图；

图2为本方法涉及的网络结构框图；

图3为本方法的层级结构示意图；

图4为本方法Swin Transformer层的结构示意图；

图5为多层感知机（MLP）的结构示意图；

图6为上采样层（Patch Extending）中的上采样方法示意图；

图7为本实施例中的效果对比图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，该用于RGB-D图像分割的方法包括以下步骤：

第一图像切分模块和第二图像切分模块均采用Patch Partition层。

第一特征提取与下采样模块和第五特征提取与下采样模块结构相同，均包括依次连接的Linear Embedding层和Swin Transformer Block层。

第二特征提取与下采样模块、第三特征提取与下采样模块、第四特征提取与下采样模块、第六特征提取与下采样模块、第七特征提取与下采样模块和第八特征提取与下采样模块的结构相同，均包括依次连接的Patch Merging层和Swin Transformer Block层。每个上采样模块均包括依次连接的多层感知机和上采样层。

在具体实施过程中，本方法所采用的网络结构如图2所示（图2中H和W为输入图像的尺寸参数，n为输出通道数，output表示输出；stage表示阶段，具体来说表示图中对应的各个模块），Patch Partition层将输入图片切分成等样大小的图块，然后经过LinearEmbedding层进行系列线性变换。Patch Merging层表示下采样层，下采样且经过系列的通道调整，以2倍减少分辨率，2倍增加通道数。MLP Block为多层感知机。Patch Extending层为上采样层，以2倍还原像素，2倍减少通道数。整个网络的主干方法采用了SwinTransformer Block来进行分割任务的上游处理，通过对其的结合具备了既能充分获取丰富的全局信息又能关注细微的局部信息的优点，因此提取出的特征包含更精确的纹理信息。用RGB图像作为主干网络输入的同时，使用深度图像作为分支网络的输入，目的是为主干网络的特征提取起到辅助提升的效果。在主干网络中，首先将输入的每张图片（

）切分多个成4×4像素大小的图像块，再经过一层线性变换成

，往后的每个阶段，

减半，通道数C则增加一倍，逐渐降低分辨率，扩大感受野，但是自注意力机制中的窗口始终保持在7×7大小。

在输入分支网络的第一步，经过一个1×1×3的卷积层，目的是将单通道的深度图像变成3通道的图像，方便后续和RGB图像保持一致的处理。同样，分支网络也采用SwinTransformer Block进行特征提取，不同的是最后经过一个SoftMax层将其提取出的深度特征转换成一个权重矩阵，以此来对主干网络中的特征图像进行加权。最后在上采样的过程中，将其加入到上采样过后的同尺寸大小的特征图中。

图3展示了本方法的层级结构：从原图的逐渐下采样，缩小像素再到右侧完全对称的上采样过程，整个方法呈现出对称的层级结构特性。

图4中W-MSA和SW-MSA分别表示基于常规窗口和偏移窗口配置的多头自注意力机制。基于偏移窗口配置的注意力机制方法在前一层中的相邻非重叠窗口之间引入了连接，增进了窗口间像素的交流和影响，对于密集预测任务来说具有良好的效果。不同于经典的Vision Transformer，对整张图片进行多头自注意力机制操作，本方法的SwinTransformer Block将这项工作限制在一个非重叠且大小固定的窗口之中，充分考虑当前像素点的邻域因素的影响，屏蔽了较远的像素点的影响，同时，这也节省了计算开销。然而，注意力机制并没有牢牢地固定限制在每个固定的窗口之中，Swin通过引入偏移窗口的翻转机制，让每个窗口之中的像素都能够得以交流和影响。在位置编码中，更是在绝对编码的基础上，引入了每个窗口的相对位置偏移量，对每个窗口位置进行相对位置编码。利用的算法公式如公式(1)，(2)，(3)。

⑴

，

，

其中Attention表示自注意力函数，

分别代表 query、key和value矩阵，R表示实数域，SoftMax表示SoftMax函数，

代表窗口的数量，d代表Q和K的维度，QK^T表示QK乘积结果的转置，d _head表示特征图的通道维度，B代表偏移矩阵，

，SW表示偏移窗口，MLP表示多层感知机，MSA表示多头自注意力机制，LN为layer normalization，即层归一化（层标准化），

和

为中间参数，

表示上一层swin transformer blocks的特征输出，

经过常规配置的多头自注意力机制和多层感知机的特征输出，

表示

经过具有偏移配置的多头自注意力机制和多层感知机的特征输出。其中W-MSA代表具有常规配置的多头自注意力机制，SW-MSA代表具有偏移窗口配置的多头自注意力机制。在本发明的一个实施例中，以一张

的彩色图像

为例，模型参数设置为C=96，window=7，layer numbers=[2,2,6,2]，其中C表示模型中第一个stage (见图2)中隐藏层的通道数，window表示Swin TransformerBlock模块中的窗口划分大小，layer numbers表示每个stage重复堆叠的次数。具体实施方式为：输入图像经过块切分层(Patch Partition)将图像首先分割成多个4×4的小块，同时通道数转变为48，其中块切分层的具体实施方式为一个channel为48，kernel为4×4，stride为4的卷积操作；经过块切分层后得出的特征矩阵经过一个块嵌入层(PatchEmbedding)将通道数转变为C，其中块嵌入层的具体实施方式为一个channel为C，kernel为1×1，stride为1的卷积操作，最终输出的特征矩阵维度为

；随后特征矩阵传入到Swin Transformer Block模块中，经过窗口划分之后按顺序依次通过线性层、普通窗口自注意力层、线性层、多层感知机、线性层、偏移窗口自注意力层、线性层、多层感知机，根据layer numbers中该层的堆叠次数循环执行，其中计算过程如公式(1)(2)(3)所示，此时的输出尺寸为

；之后的stage中，上个stage的输出将首先通过块融合层(Patch Merging)进行下采样，具体实施方式为隔行采样，并同时将剩余的像素堆叠到通道中，最终得到的结果为

的特征矩阵，此特征矩阵再次通过Swin TransformerBlock模块，按照设定好的layer numbers堆叠循环次数。以上流程为RGB图像与深度图像在本发明中的编码过程，经过编码器得到的最终输出为

的特征矩阵，在解码器中，本发明将融合RGB图像与深度图像中各层的特征信息，得到最终的分割结果，其具体实施方式为：

的特征矩阵通过瓶颈层(bottleneck)，得到的输出将通过一个多层感知机进行信息收集，并同时融合RGB图像与深度图像对应层数中的特征信息，此时得到的输出结果尺寸仍然为

；之后的stage中，上个stage的输出将首先通过上采样层（Patch Extending）进行上采样，然后通过一个多层感知机对相应层中RGB图像和深度图像的特征信息进行收集、融合，重复此循环最终将得到原始图像尺寸大小的语义分割结果。

图5为MLP（Multi-Layer Perceptron）结构示意图。MLP由两个交替的全连接层（FC）组成，中间由GELU层连接，将数据向前传递，并更新网络参数。

图6为Patch Extending的原理示意图。原理上它是Patch Merging Block的逆运算。它将每个通道上的像素再重新隔行隔列拼回成原来的一张特征图，最大程度还原了下采样之前的上下文像素特征，大大降低了特征信息的损失。随后通过一个MLP，目的是为了使数据向前传播。

图7为本实施例中的效果对比图（添加了仅使用RGB图像作为输入的SwinTransformer Block的可视化效果作为对比）。为了定性分析，本实施例可视化了NYU DepthV2数据集中一些 RGB-D 图像的分割结果。第一列和第二列显示原始 RGB 图像及其对应的深度图像，第三列表示Swin Transformer Block在该数据集上仅用RGB图像作为输入的结果表现，第四列表示本方法的分割结果，第五列表示原始RGB-D图像的标签。将分割结果与标签进行比较，所提出的算法对边缘和精细细节具有较高的敏感性，即使在更复杂的场景中也能获得令人满意的分割结果。

Claims

1.一种用于RGB-D图像分割的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的用于RGB-D图像分割的方法，其特征在于，第一图像切分模块和第二图像切分模块均采用Patch Partition层。

3.根据权利要求1所述的用于RGB-D图像分割的方法，其特征在于，第一特征提取与下采样模块和第五特征提取与下采样模块结构相同，均包括依次连接的Linear Embedding层和Swin Transformer Block层。

4.根据权利要求1所述的用于RGB-D图像分割的方法，其特征在于，第二特征提取与下采样模块、第三特征提取与下采样模块、第四特征提取与下采样模块、第六特征提取与下采样模块、第七特征提取与下采样模块和第八特征提取与下采样模块的结构相同，均包括依次连接的Patch Merging层和Swin Transformer Block层。

5.根据权利要求1所述的用于RGB-D图像分割的方法，其特征在于，每个上采样模块均包括依次连接的多层感知机和上采样层。