CN110298361B

CN110298361B - 一种rgb-d图像的语义分割方法和系统

Info

Publication number: CN110298361B
Application number: CN201910430602.3A
Authority: CN
Inventors: 孙启超; 李宏
Original assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Current assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2021-05-04
Anticipated expiration: 2039-05-22
Also published as: CN110298361A

Abstract

本申请公开了一种RGB‑D图像的语义分割方法和系统，包括：提取RGB‑D图像多个阶段的RGB编码特征和深度编码特征；将多个阶段中每个阶段的RGB编码特征和深度编码特征输入注意力模型，得到与每个阶段对应的各多模态融合特征；使用长短期记忆网络提取第五阶段多模态融合特征的上下文语义信息；拼接第五阶段多模态融合特征和上下文语义信息，得到上下文语义特征；对上下文语义特征进行上采样，使用跳跃连接方式与对应阶段的多模态融合特征融合，得到语义分割图和语义分割模型。通过提取RGB‑D图像多个阶段的RGB编码特征和深度编码特征，有效利用RGB‑D图像的颜色信息和深度信息；使用长短期记忆网络效挖掘图像的上下文语义信息，提高对RGB‑D图像的语义分割准确率。

Description

一种RGB-D图像的语义分割方法和系统

技术领域

本申请涉及深度学习技术领域，尤其涉及一种RGB-D图像的语义分割方法和系统。

背景技术

在计算机智能处理图像的应用中语义分割尤为重要。语义分割过程是根据图像的视觉内容识别图像中每一个像素点类别的过程，可以理解为一幅图像中属于同一类别的像素点的像素值相同，语义分割作为图像场景理解的基础，具有重要的研究价值和广阔的应用前景，例如无人机导航和自动驾驶等。

随着深层卷积神经网络的兴起，深层卷积网络已经成为提取图像特征最有效的方法。2015年，全卷积网络开辟利用深度学习完成语义分割任务的新模式，舍弃了传统的语义分割方法的预处理和后处理的一些复杂辅助过程，成为一种比较有效而且快速的语义分割算法，此后出现的语义分割方案都是以此为基础进行改进。

随着深度传感器的普及，人类对图像的研究已经不再局限于彩色图像，并且已经深入到对含有深度信息的RGB-D图像的研究。深度传感器能够在捕捉彩色图像的同时捕捉深度图像，深度图像中的深度代表的是物体表面和摄像机之间的距离，RGB-D图像的包含信息更丰富，研究RGB-D图像的语义分割问题，通过引入图像的深度信息来提升场景语义分割任务的准确度，对很多智能任务都有帮助，包括机器人任务规划，姿态估计，无人机导航，自动驾驶等。

然而现存的方法由于没能完全有效利用颜色信息和深度信息，同时未能有效挖掘图像的上下文语义信息，导致对RGB-D图像语义分割的准确率还不高。

综上所述，需要提供一种能够有效利用RGB-D图像的颜色信息和深度信息，有效挖掘图像的上下文语义信息，提高对RGB-D图像的语义分割准确率的方法和系统。

发明内容

为解决以上问题，本申请提出了一种RGB-D图像的语义分割方法和系统。

一方面，本申请提出一种RGB-D图像的语义分割方法，包括：

提取RGB-D图像多个阶段的RGB编码特征和深度编码特征；

将多个阶段中每个阶段的RGB编码特征和深度编码特征输入注意力模型，得到与每个阶段对应的各多模态融合特征；

使用长短期记忆网络提取第五阶段多模态融合特征的上下文语义信息；

拼接第五阶段多模态融合特征和上下文语义信息，得到上下文语义特征；

对上下文语义特征进行上采样，使用跳跃连接方式与对应阶段的多模态融合特征融合，得到语义分割图和语义分割模型。

优选地，在所述对上下文语义特征进行上采样，使用跳跃连接方式与对应阶段的多模态融合特征融合，得到语义分割图和语义分割模型之后，还包括：

使用反向传播训练所述语义分割模型，更新所述语义分割模型中的参数，得到训练好的语义分割模型。

优选地，所述多个阶段是根据RGB编码特征和深度编码特征的尺寸分为五个阶段。

优选地，所述将多个阶段中每个阶段的RGB编码特征和深度编码特征输入注意力模型，得到与每个阶段对应的各多模态融合特征，包括：

拼接每个阶段的RGB编码特征和深度编码特征，得到与每个阶段对应的多个特征图集合；

分别对多个特征图集合进行全局平均池化，得到与多个特征图对应的各特征向量；

使用非线性映射计算所述各特征向量，得到多个注意力权重；

分别将每个阶段的特征图集合与注意力权重相乘，得到与各阶段对应的各多模态融合特征。

优选地，所述使用长短期记忆网络提取第五阶段多模态融合特征的上下文语义信息，包括：

使用并行的第一长短期记忆网络和第二长短期记忆网络对第五阶段多模态融合特征在垂直方向扫描，得到第一长短期记忆网络和第二长短期记忆网络的中间隐状态的输出信息；

依据第五阶段多模态融合特征中各特征值的对应位置，对所述第一长短期记忆网络和第二长短期记忆网络的中间隐状态的输出信息进行拼接，得到垂直语义特征图；

使用并行的第三长短期记忆网络和第四长短期记忆网络对垂直语义特征图在水平方向扫描，得到第三长短期记忆网络和第四长短期记忆网络的中间隐状态的输出信息；

依据垂直语义特征图中各特征值的对应位置，对所述第三长短期记忆网络和第四长短期记忆网络的中间隐状态的输出信息进行拼接，得到水平语义特征图；

拼接垂直语义特征图和水平语义特征图，得到上下文语义信息。

优选地，所述拼接第五阶段多模态融合特征和上下文语义信息，得到上下文语义特征，包括：

对第五阶段多模态融合特征和上下文语义信息进行拼接后，经过卷积，得到上下文语义特征。

优选地，所述对上下文语义特征进行上采样，使用跳跃连接方式与对应阶段的多模态融合特征融合，得到语义分割图和语义分割模型，包括：

对上下文语义特征进行上采样，得到第一上采样特征；

将第一上采样特征与第四阶段多模态融合特征融合后，进行上采样，得到第二上采样特征；

将第二上采样特征与第三阶段多模态融合特征融合后，进行上采样，得到第三上采样特征；

将第三上采样特征与第二阶段多模态融合特征融合后，进行上采样，然后经过卷积得到语义分割图和语义分割模型。

优选地，第三阶段RGB编码特征、第四阶段RGB编码特征和第五阶段RGB编码特征为其前一个阶段的RGB编码特征和多模态融合特征的对应位置元素相加后，经过卷积操作得到。

第二方面，本申请提出一种RGB-D图像的语义分割系统，包括：

编码模块，用于提取RGB-D图像各阶段的RGB编码特征和深度编码特征；

特征融合模块，用于将各同一阶段的RGB编码特征和深度编码特征输入注意力模型，得到与各阶段对应的各多模态融合特征；

上下文语义提取模块，用于使用长短期记忆网络提取第五阶段多模态融合特征的上下文语义信息，拼接第五阶段多模态融合特征和上下文语义信息，得到上下文语义特征；

解码模块，用于对上下文语义特征进行上采样，使用跳跃连接方式与对应阶段的多模态融合特征融合，得到语义分割图和语义分割模型。

优选地，还包括训练模块，用于使用反向传播训练所述语义分割模型，更新所述语义分割模型中的参数，得到训练好的语义分割模型。

本申请的优点在于：提取RGB-D图像多个阶段的RGB编码特征和深度编码特征后输入注意力模型，能够有效利用RGB-D图像的颜色信息和深度信息；使用长短期记忆网络提取上下文语义信息后，拼接第五阶段多模态融合特征和上下文语义信息，得到上下文语义特征，有效挖掘图像的上下文语义信息，提高对RGB-D图像的语义分割准确率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选事实方案的目的，而并不认为是对本申请的限制。而且在整个附图中，用同样的参考符号表示相同的部件。在附图中：

图1是本申请提供的一种RGB-D图像的语义分割方法的步骤示意图；

图2是本申请提供的一种RGB-D图像的语义分割方法的获取多模态融合特征的方法示意图；

图3是本申请提供的一种RGB-D图像的语义分割方法的获取上下文语义特征的方法示意图；

图4是本申请提供的一种RGB-D图像的语义分割方法的示意图；

图5是本申请提供的一种RGB-D图像的语义分割系统的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

根据本申请的实施方式，提出一种RGB-D图像的语义分割方法，如图1所示，包括：

S101，提取RGB-D图像多个阶段的RGB编码特征和深度编码特征；

S102，将多个阶段中每个阶段的RGB编码特征和深度编码特征输入注意力模型，得到与每个阶段对应的各多模态融合特征；

S103，使用长短期记忆网络提取第五阶段多模态融合特征的上下文语义信息；

S104，拼接第五阶段多模态融合特征和上下文语义信息，得到上下文语义特征；

S105，对上下文语义特征进行上采样，使用跳跃连接方式与对应阶段的多模态融合特征融合，得到语义分割图和语义分割模型。在所述对上下文语义特征进行上采样，使用跳跃连接方式与对应阶段的多模态融合特征融合，得到语义分割图和语义分割模型之后，还包括：

使用编码模块提取RGB-D图像多个阶段的RGB编码特征和深度编码特征，所述编码模块为图像分类网络Resnet50，去除所有全连接层，其余各层的权重使用在ImageNet分类数据集上预训练好的权重进行微调。编码模块包括：卷积层、池化层、批归一化层和非线性激活Relu层。

根据编码得到的特征尺寸大小，编码特征的提取可分为5个阶段，分别得到5个不同尺寸的编码特征。RGB图像提取的5个编码特征记为RF1，RF2，RF3，RF4，RF5。深度图像提取的5个编码特征记为DF1，DF2，DF3，DF4，DF5。

所述多个阶段是根据RGB编码特征和深度编码特征的尺寸分为五个阶段。

所述五个阶段的处理步骤，包括：

第一阶段，成对的RGB图像和深度图像经过第一层处理后，得到第一RGB编码特征和第一深度编码特征；

第二阶段，成对的RGB图像和深度图像经过第一层和第二层处理后，得到的RGB编码特征和深度编码特征；

第三阶段，成对的RGB图像和深度图像经过第一层至第三层处理后，得到的RGB编码特征和深度编码特征；

第四阶段，成对的RGB图像和深度图像经过第一层至第四层处理后，得到的RGB编码特征和深度编码特征；

第五阶段，成对的RGB图像和深度图像经过第一层至第五层处理后，得到的RGB编码特征和深度编码特征。

以提取深度图像的多个阶段的深度编码特征为例，将深度图像输入如表1所示的编码模块的层结构。编码模块的第一层(conv1)首先对输入的深度图像使用7×7卷积操作，得到的第一特征图(第一阶段深度编码特征)尺寸为原始图像的1/2。第二层为残差块(conv2_x)，首先对第一特征图使用3×3最大池化操作，随后经过连续3次相同的1×1和3×3的卷积操作以及1×1批归一化操作之后，得到的第二特征图(第二阶段深度编码特征)尺寸为原始图像的1/4。第三层为残差块(conv3_x)，经过连续4次相同1×1和3×3卷积操作以及1×1批归一化操作后，得到的第三特征图(第三阶段深度编码特征)尺寸为原始图像的1/8。第四层为残差块(conv4_x)，经过6次相同的1×1和3×3卷积操作以及1×1批归一化操作后，得到的第四特征图(第四阶段深度编码特征)尺寸为原始图像的1/16。第五层为残差块(conv5_x)，经过3次相同的1×1和3×3卷积操作以及1×1批归一化操作后，得到的第五特征图(第五阶段深度编码特征)尺寸为原始图像的1/32。每个残差块最后都使用Relu函数激活操作。编码模块得到的最终编码特征通道数为2048个。

表1

以提取RGB度图像的多个阶段的RGB编码特征为例，将RGB图像输入如表1所示的编码模块的层结构。RGB图像在经过编码模块的第一层和第二层时，编码模块对RGB图像的处理方式同深度图像的处理方式一样，即编码模块的第一层(conv1)首先对输入的RGB图像使用7×7卷积操作，得到的第一阶段RGB编码特征尺寸为原始图像的1/2。第二层为残差块(conv2_x)，首先对第一阶段RGB编码特征使用3×3最大池化操作，随后经过连续3次相同的1×1和3×3的卷积操作以及1×1批归一化操作之后，得到的第二阶段RGB编码特征尺寸为原始图像的1/4。第三阶段RGB编码特征为第二阶段RGB编码特征与第二阶段多模态融合特征的对应位置元素相加后，输入第三层进行处理后得到。第四阶段RGB编码特征为第三阶段RGB编码特征与第三阶段多模态融合特征的对应位置元素相加后，输入第四层进行处理后得到。第五阶段RGB编码特为第四阶段RGB编码特征与第四阶段多模态融合特征的对应位置元素相加后，输入第五层进行处理后得到。

整个编码模块对输入进行连续的下采样，根据编码得到的特征尺寸大小可分为5个阶段，分别得到5个不同尺寸的中间层(五个层)编码特征。

如图2所示，所述将多个阶段中每个阶段(同一阶段)的RGB编码特征和深度编码特征输入注意力模型，得到与每个阶段对应的各多模态融合特征，包括：

将同一阶段的RGB特征和深度(Depth)特征作为输入，以RF3和DF3为例，它们具有相同的尺寸和维数，首先按照通道维度进行拼接，得到拼接特征X，对于拼接后的特征，对每一个特征图使用全局平均池化操作，得到向量p_c，采用sigmoid函数对此向量使用非线性映射计算得到注意力权重w，将得到的权重与原始特征相乘，即得到最终优化后的多模态融合特征

具体公式表示如下：

X＝concat(RF,DF)

w＝σ(f(P,w))

其中RGB图像的编码特征为RF，深度图的编码特征为DF，X为拼接后的特征，p_c为每个特征图的全局平均池化后的向量，H和W为特征的高和宽，i和j为高和宽中的每个点，x_c为特征图中每个位置的像素的值，w为计算出的注意力权重，f为非线性映射，σ为sigmoid函数，P为所有p_c组成的张量，W为1×1卷积核的参数，w_c为w中的每个注意力权重，

为通道注意力优化后的特征。

所述使用长短期记忆网络提取第五阶段多模态融合特征的上下文语义信息，包括：

所述使用并行的第一长短期记忆网络和第二长短期记忆网络对第五阶段多模态融合特征在垂直方向扫描，包括：

S1，将第五阶段多模态融合特征划分成多个块，将每个块拉成一列向量；

S2，各长短期记忆网络每个时刻只输入一列向量进行计算，更新各自的隐藏状态并输出给下一时刻的长短期记忆网络使用，同时输出对应此列向量的中间隐状态的输出信息；

S3，各长短期记忆网络在下一个时刻，使用上一个时刻更新后的隐藏状态计算下一列向量，更新各自的隐藏状态并输出给再下一时刻的长短期记忆网络使用，同时输出对应此列向量的中间隐状态的输出信息；

S4，循环S2-S4，直到获得对应所有列向量的中间隐状态的输出信息。

所述使用并行的第三长短期记忆网络和第四长短期记忆网络对垂直语义特征图在水平方向扫描，包括：

S5，将垂直语义特征图划分成多个块，将每个块拉成一列向量；

S6，各长短期记忆网络每个时刻只输入一列向量进行计算，更新各自的隐藏状态并输出给下一时刻的长短期记忆网络使用，同时输出对应此列向量的中间隐状态的输出信息；

S7，各长短期记忆网络在下一个时刻，使用上一个时刻更新后的隐藏状态计算下一列向量，更新各自的隐藏状态并输出给再下一时刻的长短期记忆网络使用，同时输出对应此列向量的中间隐状态的输出信息；

S8，循环S6-S7，直到获得对应所有列向量的中间隐状态的输出信息。

对编码最后阶段的融合特征(五阶段多模态融合特征)在四个方向使用长短期记忆网络(Long Short-Term Memory，LSTM)模型进行扫描。如图3所示，将图像平均划分成I×J块，每一块尺寸为m×n×C，C为编码特征的通道数。以m和n都设置为1为例，为了编码每个像素与像素之间的上下文信息，将每一块拉直成一列向量送入LSTM，全局上下文是通过四个LSTM层来获取的，前两个LSTM在垂直方向扫描特征，分别从上到下和从下到上扫描，每个LSTM每次接收一块作为一个时刻的输入，并更新其隐藏状态，将每个中间隐状态得到的特征拼接起来得到垂直方向上下文语义特征(垂直语义特征图)，然后将垂直语义特征图送入后两个LSTM，在水平方向扫描特征，分别从左到右从右到左扫描，每个LSTM每次接收一块作为一个时刻的输入，并更新其隐藏状态，将每个中间隐状态得到的特征拼接得到水平方向上下文语义特征(水平语义特征图)，最后将垂直和水平方向的上下文语义特征拼接得到全局的上下文语义特征，即上下文语义信息。

以LSTM在垂直方向扫描图像为例，其具体公式表示如下：

其中，

为自上向下扫描在i，j位置的投影值，

代表上一时刻的隐藏状态，x_i,j代表图像的第i，j块，也就是这一时刻的输入。f^↓代表LSTM单元内部计算操作。

为自下向上扫描在i，j位置的投影值，

代表上一时刻的隐藏状态。水平方向上的操作与此类同。

以在垂直方向进行扫描为例，假设第一长短期记忆网络为自上向下扫描，第二长短期记忆网络为自下向上扫描。如图3所示，输入第一长短期记忆网络的块的顺序为自上而下，即，从第五阶段多模态融合特征的最左端的最上面的块开始，拉直成一列向量送入第一长短期记忆网络，其次为最左端的从上数第二块，将其拉直成一列向量送入第一长短期记忆网络，直到输入完最左端的从上向下数第四块拉直后的向量，下一个送入第一长短期记忆网络的向量为从左数第二列的最上面的块拉直后的向量，以此类推，将块拉直成一列向量送入第一长短期记忆网络。在自上向下扫描时，水平方向的顺序可以改变，即也可以从右向左，但是垂直方向的顺序不能改变，即只能自上向下扫描。

输入第二长短期记忆网络的块的顺序为自下而上，即，从第五阶段多模态融合特征的最左端的最下面的块开始，拉直成一列向量送入第二长短期记忆网络，其次为最左端的从下数第二块，将其拉直成一列向量送入第二长短期记忆网络，直到输入完最左端的从下向上数第四块拉直后的向量，下一个送入第二长短期记忆网络的向量为从左数第二列的最下面的块拉直后的向量，以此类推，将块拉直成一列向量送入第二长短期记忆网络。在自下向上扫描时，水平方向的顺序可以改变，即也可以从右向左，但是垂直方向的顺序不能改变，即只能自下向上扫描。

通过对多模态特征使用双向LSTM模型，可以提升语义分割网络区分具有相似外观的物体的能力，比如“天花板”和“地板”，“书”和“纸张”。明确的增强上下文语义信息获取能力，并可以使整体网络可以端到端训练。

所述拼接第五阶段多模态融合特征和上下文语义信息，得到上下文语义特征，包括：

对经过卷积(1×1卷积)操作降低通道维数后得到的上下文语义特征，连续使用反卷积对上下文语义特征进行上采样。使用跳跃连接的方式将各阶段的多模态融合特征与对应的解码特征进行融合(对应元素相加)，使得网络的深层特征除了结合先验信息外，还结合了网络浅层特征图。因此，网络最终得到的特征同时富含局部位置信息和各类别的语义信息。

所述对上下文语义特征进行上采样，使用跳跃连接方式与对应阶段的多模态融合特征融合，得到语义分割图和语义分割模型，包括：

对上下文语义特征进行上采样，得到第一上采样特征；

第三阶段RGB编码特征、第四阶段RGB编码特征和第五阶段RGB编码特征为其前一个阶段的RGB编码特征和多模态融合特征的对应位置元素相加后，经过卷积操作得到。

所述拼接为在特征的通道维度进行拼接。

在所述提取RGB-D图像多个阶段的RGB编码特征和深度编码特征之前，还包括：收集RGB-D语义分割场景图像。

本实施例的方法中，以SUN-RGBD数据集作为训练集，SUN-RGBD数据集是目前最大的RGB-D室内场景语义分割数据集，RGB-D图像中的每个像素可分为38类中的一类，每一类都是在室内场景中常见的物体类别，如桌子、椅子、墙壁和地面等。在本实施例的方法中，使用5285张图片作为训练集，5050张图片作为测试集。

所述使用反向传播训练所述语义分割模型，更新所述语义分割模型中的参数，得到训练好的语义分割模型，包括：

对训练数据集中的数据通过随机裁剪、缩放和翻转的方式进行扩增；

以每一像素的交叉熵损失的和作为损失函数，再使用带动量的随机梯度下降算法进行误差反向传播，更新模型参数，得到训练好的语义分割模型。

其中，训练阶段使用金字塔监督学习策略，具体实施过程为将标签分别缩放为原始尺寸的1/2，1/4和1/8，对上采样每一阶段不同尺寸的语义分数图输出与对应尺寸的标签使用交叉熵计算损失，根据尺寸不同，得到4个损失(loss)，最终的损失函数为这4个损失的总和。在本实施例的方法中，训练使用的图像的初始尺寸为480×640，初始学习率为0.002，动量为0.09，权重衰减系数为0.0004。

在测试阶段输入新的图像，在已训练好的模型中前向传播输出语义分割结果。本实施例的方法使用SUN-RGBD语义分割测试数据集进行测试，如表2所示，测试结果平均像素准确率(mean accuracy)为60.1％，平均交并比(mean IoU)为47.5％。相比之前的语义分割方法，本实施例的方法得到的分割准确率有很可观的提升。

表2

序号	方法	平均像素准确率	平均交并比
				1	FCN-32s	41.1	29.0
2	LSTM-F	48.1	-
				3	Context	53.4	42.3
4	FuseNet-SF5	48.3	37.3
				5	LSD-GF	58.0	-
6	本实施例的方法	60.1	47.5

其中，第一个方法为J.Long，E.Shelhamer和T.Darrell提出的全卷积网络语义分割(Fully convolutional networks for semantic segmentation)；第二个方法为Z.Li，Y.Gan，X.Liang，Y.Yu，H.Cheng和L.Lin提出的用于RGB-D场景标记的统一上下文建模和与LSTMs融合，(LSTM-CF:UniContext Modeling and Fusion with LSTMs for RGB-D SceneLabeling)；第三个方法为Guosheng Lin，ChunhuaShen，Anton van den Hengel和Ian Reid提出的用于语义分割的上下文探索和深层结构模型(Exploring context with deepstructured models for semantic segmentation)；第四个方法为Caner Hazirbas，Lingni Ma，CsabaDomokos和Daniel Cremers提出的融合网：通过基于融合的CNN架构将深度融入语义分割(FuseNet:Incorporating Depth into Semantic Segmentation viaFusion-Based CNN Architecture)；第五个方法为Yanhua Cheng，RuiCai，Zhiwei Li，XinZhao和Kaiqi Huang提出的用于RGB-D室内语义分割的具有门控融合的局部敏感反卷积网络(Locality-Sensitive Deconvolution Networks with Gated Fusion for RGB-DIndoor Semantic Segmentation)。

如图4所示，RGB图像进入编码模块层结构的第一层，经过7×7卷积操作，得到的第一阶段RGB编码特征；深度图像进入编码模块层结构的第一层，经过7×7卷积操作，得到的第一阶段深度编码特征。第二层对第一阶段RGB编码特征使用3×3最大池化操作，随后经过连续3次相同的1×1和3×3的卷积操作以及1×1批归一化操作之后，得到第二阶段RGB编码特征；第二层对第一阶段深度编码特征使用3×3最大池化操作，随后经过连续3次相同的1×1和3×3的卷积操作以及1×1批归一化操作之后，得到第二阶段深度编码特征。

将第二阶段RGB编码特征和第二阶段深度编码特征输入注意力模型，得到第二阶段多模态融合特征。

第二阶段RGB编码特征与第二阶段多模态融合特征的对应位置元素相加后，输入第三层进行处理，得到第三阶段RGB编码特征；第三层对第二阶段深度编码特征使用连续4次相同1×1和3×3卷积操作以及1×1批归一化操作后，得到第三阶段深度编码特征。

将第三阶段RGB编码特征和第三阶段深度编码特征输入注意力模型，得到第三阶段多模态融合特征。

第三阶段RGB编码特征与第三阶段多模态融合特征的对应位置元素相加后，输入第四层进行处理，得到第四阶段RGB编码特征；第四层对第三阶段深度编码特征使用6次相同的1×1和3×3卷积操作以及1×1批归一化操作后，得到第四阶段深度编码特征。

将第四阶段RGB编码特征和第四阶段深度编码特征输入注意力模型，得到第四阶段多模态融合特征。

第四阶段RGB编码特征与第四阶段多模态融合特征的对应位置元素相加后，输入第五层进行处理，得到第五阶段RGB编码特征；第五层对第四阶段深度编码特征使用3次相同的1×1和3×3卷积操作以及1×1批归一化操作后，得到第五阶段深度编码特征。

将第五阶段RGB编码特征和第五阶段深度编码特征输入注意力模型，得到第五阶段多模态融合特征。

使用长短期记忆网络提取第五阶段多模态融合特征的上下文语义信息，对第五阶段多模态融合特征和上下文语义信息进行拼接后，经过卷积，得到上下文语义特征。

对上下文语义特征进行上采样，得到第一上采样特征。将第一上采样特征与第四阶段多模态融合特征融合(对应元素相加)后，进行采样，得到第二上采样特征。将第二上采样特征与第三阶段多模态融合特征融合(对应元素相加)后，进行采样，得到第三上采样特征。将第三上采样特征与第二阶段多模态融合特征融合(对应元素相加)后，进行上采样，然后经过卷积得到语义分割图和语义分割模型。

根据本申请的实施方式，还提出一种RGB-D图像的语义分割系统，如图5所示，包括：

编码模块101，用于提取RGB-D图像各阶段的RGB编码特征和深度编码特征；

特征融合模块102，用于将各同一阶段的RGB编码特征和深度编码特征输入注意力模型，得到与各阶段对应的各多模态融合特征；

上下文语义提取模块103，用于使用长短期记忆网络提取第五阶段多模态融合特征的上下文语义信息，拼接第五阶段多模态融合特征和上下文语义信息，得到上下文语义特征；

解码模块104，用于对上下文语义特征进行上采样，使用跳跃连接方式与对应阶段的多模态融合特征融合，得到语义分割图和语义分割模型。

所述系统还包括训练模块，用于使用反向传播训练所述语义分割模型，更新所述语义分割模型中的参数，得到训练好的语义分割模型。

所述编码模块包括两个相同的编码单元：RGB编码单元和深度编码单元。

将成对的RGB图像和深度图像分别送入对应的编码单元，即将RGB图像送入RGB编码单元，将深度图像送入深度编码单元。两个编码单元分别提取图像的RGB编码特征和深度编码特征。

所述编码模块中的编码单元为图像分类网络Resnet50，去除所有全连接层，其余各层的权重使用在ImageNet分类数据集上预训练好的权重进行微调。编码单元包括：卷积层、池化层、批归一化层和非线性激活Relu层。

以提取深度图像的多个阶段的深度编码特征为例，将深度图像输入深度编码单元，深度编码单元的结构以表1所示的结构为例。深度图像输入深度编码单元的第一层，经过卷积操作，得到的第一特征图(第一阶段深度编码特征)尺寸为原始图像的1/2。将第一阶段深度编码特征输入第二层进行处理之后，得到的第二特征图(第二阶段深度编码特征)尺寸为原始图像的1/4。将第二阶段深度编码特征输入第三层进行处理之后，得到的第三特征图(第三阶段深度编码特征)尺寸为原始图像的1/8。将第三阶段深度编码特征输入第四层进行处理之后，得到的第四特征图(第四阶段深度编码特征)尺寸为原始图像的1/16。将第四阶段深度编码特征输入第四层进行处理之后，得到的第五特征图(第五阶段深度编码特征)尺寸为原始图像的1/32。每个残差块最后都使用Relu函数激活操作。编码模块得到的最终编码特征通道数为2048个。

以提取RGB度图像的多个阶段的RGB编码特征为例，将RGB图像输入RGB编码单元，RGB编码单元的结构以表1所示的结构为例。RGB图像在经过编码模块的第一层和第二层时，编码模块对RGB图像的处理方式同深度图像的处理方式一样，即编码模块的第一层(conv1)首先对输入的RGB图像使用7×7卷积操作，得到的第一阶段RGB编码特征尺寸为原始图像的1/2。第二层为残差块(conv2_x)，首先对第一阶段RGB编码特征使用3×3最大池化操作，随后经过连续3次相同的1×1和3×3的卷积操作以及1×1批归一化操作之后，得到的第二阶段RGB编码特征尺寸为原始图像的1/4。

编码模块将第二阶段RGB编码特征和第二阶段深度编码特征发送至特征融合模块的注意力模型进行多模态特征融合，得到第二阶段多模态融合特征。

特征融合模块将第二阶段多模态融合特征发送至编码模块。

编码模块将第二阶段RGB编码特征与第二阶段多模态融合特征的对应位置元素相加后，输入RGB编码单元第三层进行处理后得到第三阶段RGB编码特征。

编码模块将第三阶段RGB编码特征和第三阶段深度编码特征发送至特征融合模块的注意力模型进行多模态特征融合，得到第三阶段多模态融合特征。

特征融合模块将第三阶段多模态融合特征发送至编码模块。

编码模块将第三阶段RGB编码特征与第三阶段多模态融合特征的对应位置元素相加后，输入RGB编码单元第四层进行处理后得到第四阶段RGB编码特征。

编码模块将第四阶段RGB编码特征和第四阶段深度编码特征发送至特征融合模块的注意力模型进行多模态特征融合，得到第四阶段多模态融合特征。

特征融合模块将第四阶段多模态融合特征发送至编码模块。

编码模块将第四阶段RGB编码特征与第四阶段多模态融合特征的对应位置元素相加后，输入RGB编码单元第五层进行处理后得到第五阶段RGB编码特征。

编码模块将第四阶段RGB编码特征与第四阶段多模态融合特征的对应位置元素相加后，输入RGB编码单元第五层进行处理后得到第五阶段RGB编码特。

将各编码单元中间层提取的同一尺寸的RGB编码特征和深度编码特征送入特征融合模块提取多模态融合特征。

特征融合模块将第五阶段RGB编码特征和第五阶段深度编码特征送入注意力模型进行多模态特征融合，得到第五阶段多模态融合特征。

特征融合模块将第五阶段多模态融合特征送入上下文语义模块提取上下文语义信息。

特征融合模块还发送第二阶段多模态融合特征、第三阶段多模态融合特征和第四阶段多模态融合特征至解码模块。

所述特征融合模块包括注意力多模态融合单元，用于自动衡量不同模态对于最终语义分割任务的贡献程度。

特征融合模块通过自适应训练注意力权重，来有效地融合不同模态的特征，同时学习各模态特征的相对重要性，得到的多模态融合特征经过卷积操作来降低维数并进一步优化，然后使用跳跃连接方法和对应阶段的解码上采样的特征拼接。

注意力多模态融合单元将同一阶段的RGB特征和深度特征输入注意力模型，以RF3和DF3为例，首先按照通道维度拼接RF3和DF3，对于拼接后的特征，对每一个特征图使用全局平均池化操作，得到一列向量，对此向量使用非线性映射计算得到通道注意力权重，将得到的权重与原始特征作乘法运算，即得到最终优化后的多模态融合特征。

所述上下文语义提取模块用来获取多模态融合特征的上下文语义信息，对编码最后阶段的融合特征在四个方向使用LSTM模型进行扫描。如图3所示，将图像平均划分成I×J块，每一块尺寸为m×n×C，C为编码特征的通道数。以m和n都设置为1为例，为了编码每个像素与像素之间的上下文信息，将每一块拉直成一列向量送入LSTM，全局上下文是通过四个LSTM层来获取的，前两个LSTM在垂直方向扫描特征，分别从上到下和从下到上扫描，每个LSTM每次接收一块作为一个时刻的输入，并更新其隐藏状态，将每个中间隐状态得到的特征拼接起来得到垂直方向上下文语义特征(垂直语义特征图)，然后将垂直语义特征图送入后两个LSTM，在水平方向扫描特征，分别从左到右从右到左扫描，每个LSTM每次接收一块作为一个时刻的输入，并更新其隐藏状态，将每个中间隐状态得到的特征拼接得到水平方向上下文语义特征(水平语义特征图)，最后将垂直和水平方向的上下文语义特征拼接得到全局的上下文语义特征，即上下文语义信息。

上下文语义提取模块对第五阶段多模态融合特征和上下文语义信息进行拼接后，经过卷积，得到上下文语义特征，发送至解码模块。

解码模块包括：反卷积层、池化层、批归一化层和非线性激活Relu层。其结构和编码模块中的编码单元类似，为编码单元的反向操作。

解码模块将上下文语义信息与第五阶段多模态融合特征拼接得到上下文语义特征；对上下文语义特征进行连续的上采样并与对应编码阶段的编码特征融合，经过卷积操作得到语义分数图(语义分割图)。

所述解码模块连续使用反卷积对上下文语义特征进行上采样。并使用跳跃连接的方式将各阶段的多模态融合特征与对应的解码特征进行融合(对应元素相加)，使得网络的深层特征除了结合先验信息外，还结合了网络浅层特征图。因此，网络最终得到的特征同时富含局部位置信息和各类别的语义信息。

解码模块对上下文语义特征进行上采样，得到第一上采样特征。将第一上采样特征与第四阶段多模态融合特征融合(对应元素相加)后，进行采样，得到第二上采样特征。将第二上采样特征与第三阶段多模态融合特征融合(对应元素相加)后，进行采样，得到第三上采样特征。将第三上采样特征与第二阶段多模态融合特征融合(对应元素相加)后，进行上采样，然后经过卷积得到语义分割图和语义分割模型。

训练模块对训练数据集中的数据通过随机裁剪、缩放和翻转的方式进行扩增；以每一像素的交叉熵损失的和作为损失函数，再使用随机梯度下降算法进行误差反向传播，更新模型参数，得到训练好的语义分割模型。

本申请的方法中，提取RGB-D图像多个阶段的RGB编码特征和深度编码特征后输入注意力模型，能够有效利用RGB-D图像的颜色信息和深度信息；使用长短期记忆网络提取上下文语义信息后，拼接第五阶段多模态融合特征和上下文语义信息，得到上下文语义特征，有效挖掘图像的上下文语义信息，提高对RGB-D图像的语义分割准确率。基于卷积的图像特征提取方法只能提取图像的局部上下文信息，但是通过对多模态特征使用双向LSTM模型，可以提升语义分割网络区分具有相似外观的物体的能力，比如“天花板”和“地板”，“书”和“纸张”。明确的增强上下文语义信息获取能力，并可以使整体网络可以端到端训练。使用跳跃连接的方式将各阶段的多模态融合特征与对应的解码特征进行融合(对应元素相加)，使得网络的深层特征除了结合先验信息外，还结合了网络浅层特征图。因此，网络最终得到的特征同时富含局部位置信息和各类别的语义信息。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种RGB－D图像的语义分割方法，其特征在于，包括：

提取RGB－D图像多个阶段的RGB编码特征和深度编码特征；其中，第三阶段RGB编码特征、第四阶段RGB编码特征和第五阶段RGB编码特征为其前一个阶段的RGB编码特征和多模态融合特征的对应位置元素相加后，经过卷积操作得到；

2.如权利要求1所述的一种RGB－D图像的语义分割方法，其特征在于，在所述对上下文语义特征进行上采样，使用跳跃连接方式与对应阶段的多模态融合特征融合，得到语义分割图和语义分割模型之后，还包括：

3.如权利要求1所述的一种RGB－D图像的语义分割方法，其特征在于，所述多个阶段是根据RGB编码特征和深度编码特征的尺寸分为五个阶段。

4.如权利要求1所述的一种RGB－D图像的语义分割方法，其特征在于，所述将多个阶段中每个阶段的RGB编码特征和深度编码特征输入注意力模型，得到与每个阶段对应的各多模态融合特征，包括：

5.如权利要求1所述的一种RGB－D图像的语义分割方法，其特征在于，所述使用长短期记忆网络提取第五阶段多模态融合特征的上下文语义信息，包括：

6.如权利要求1所述的一种RGB－D图像的语义分割方法，其特征在于，所述拼接第五阶段多模态融合特征和上下文语义信息，得到上下文语义特征，包括：

7.如权利要求1所述的一种RGB－D图像的语义分割方法，其特征在于，所述对上下文语义特征进行上采样，使用跳跃连接方式与对应阶段的多模态融合特征融合，得到语义分割图和语义分割模型，包括：

对上下文语义特征进行上采样，得到第一上采样特征；

8.一种RGB－D图像的语义分割系统，其特征在于，包括：

编码模块，用于提取RGB－D图像各阶段的RGB编码特征和深度编码特征；

特征融合模块，用于将各同一阶段的RGB编码特征和深度编码特征输入注意力模型，得到与各阶段对应的各多模态融合特征；其中，第三阶段RGB编码特征、第四阶段RGB编码特征和第五阶段RGB编码特征为其前一个阶段的RGB编码特征和多模态融合特征的对应位置元素相加后，经过卷积操作得到；

9.如权利要求8所述的一种RGB－D图像的语义分割系统，其特征在于，还包括训练模块，用于使用反向传播训练所述语义分割模型，更新所述语义分割模型中的参数，得到训练好的语义分割模型。