CN107403430A

CN107403430A - 一种rgbd图像语义分割方法

Info

Publication number: CN107403430A
Application number: CN201710453788.5A
Authority: CN
Inventors: 林倞; 甘宇康; 李冠彬; 王青
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2017-06-15
Filing date: 2017-06-15
Publication date: 2017-11-28
Anticipated expiration: 2037-06-15
Also published as: CN107403430B

Abstract

本发明提供了一种RGBD图像语义分割方法，包括以下步骤：S1、采集训练样本的数据；S2、构建可配置的深度模型，并将训练样本的数据输入深度模型，以对深度模型进行训练；S3、获取需要进行语义分割的彩色图及其对应的深度图，利用训练后的深度模型对彩色图和深度图进行分析，预测RGBD图像中每个像素所属的物体类别；S4、根据S3的结果，形成并输出预测的图像语义分割图。本发明利用深层次的卷积神经网络和长短时记忆网络以及大数据，能有效地融合彩色图像和深度图像的特征，并且能有效地挖掘图像中的上下文信息，拥有很高的准确率。

Description

一种RGBD图像语义分割方法

技术领域

本发明涉及计算机视觉和模式识别领域，具体涉及一种基于卷积神经网络和长短时记忆网络的RGBD图像语义分割方法。

背景技术

语义分割是计算机视觉研究中的一个重要领域，其主要任务是让计算机能够知道图像中每个像素“是什么”，它的应用包括机器人任务规划，姿态估计以及基于内容的图像检索等。语义分割的目标是希望计算机能自动地预测未知图像中每个像素所属的物体类别，如桌子、路面、墙等。语义分割可以分为基于室外场景图像的语义分割和基于室内场景图像的语义分割两个方向。近年来出现的廉价的深度传感器，如kinect、realsence、xtion等，让基于室内场景图像的语义分割算法多了一个可以利用的数据源。这对提高语义分割算法的识别准确率有非常大的帮助。

但是，目前的基于RGB图像的语义分割算法由于场景图像中物体被遮挡、物体形状外观变化大、物体分布密集以及环境嘈杂等因素，难以做到鲁棒。而基于RGBD图像的语义分割算法不仅要面对RGB图像中存在的挑战，还要面临怎么利用好深度图像提供的信息的问题。

目前基于RGBD图像的语义分割存在以下两个主要的问题：

1)如何更好地表达和融合彩色图像和深度图像的数据。

2)如何在特征学习过程中得到图像全局的上下文信息。

综上，现有的基于RGBD图像的语义分割方法在彩色图和深度图的数据融合上多是简单地层叠卷积网络的特征，这种方法往往不能很好地融合彩色图和深度图的特征，也不具有学习图像全局上下文信息的能力。

发明内容

为了克服上述现有技术的不足，本发明提供了一种基于卷积神经网络和长短时记忆网络的RGBD图像语义分割方法，该方法能够有效地融合彩色图和深度图的信息，同时还能学习到图像的全局上下文信息，提高了对RGBD图像进行语义分割的准确率。

为实现上述目的，本发明采用以下技术方案：

一种RGBD图像语义分割方法，包括以下步骤：

S1、采集训练样本的数据；

S2、构建可配置的深度模型，并将训练样本的数据输入深度模型，以对深度模型进行训练；

S3、获取需要进行语义分割的彩色图及其对应的深度图，利用训练后的深度模型对彩色图和深度图进行分析，预测RGBD图像中每个像素所属的物体类别；

S4、根据S3的结果，形成并输出预测的图像语义分割图；

其中，所述深度模型包括三个依次串联的子网络；

第一子网络用于对彩色图像和深度图像数据的基础表达进行提取和学习，包括用于提取彩色图的特征的第一卷积神经网络，以及用于提取深度图的特征的第二卷积神经网络；

第二子网络用于融合彩色图和深度图的特征以及学习图像的全局上下文信息，包括用于提取彩色图的上下文信息的第一长短时记忆网络，用于提取深度图像的上下文信息的第二长短时记忆网络，以及用于融合彩色图和深度图的上下文信息的第三长短时记忆网络；

第三子网络包括第三卷积神经网络，用于融合局部特征和全局特征，进而预测图像像素所属的物体类别；

彩色图依次经过第一卷积神经网络、第一长短时记忆网络处理后汇入第三长短时记忆网络；深度图依次经过第二卷积神经网络、第二长短时记忆网络处理后汇入第三长短时记忆网络；第三子网络根据第二子网络的输出和第一卷积神经网络的输出层叠得到的特征，输出RGBD图像中每个像素属于每一物体类别的概率值，进而预测RGBD图像像素所属的物体类别，最终输出图像语义分割图。

进一步地，所述S1包括：

S101、分别通过摄像头和深度传感器在同一位置对同一方向的景物进行拍摄，分别得到彩色图及其对应的深度图；

S102、使用标注软件对S101获得图片的每个像素标注其所属类别，获得图像语义分割标注图；

S103、将深度图编码成HHA特征；

所述S2中，对深度模型进行训练的方法包括：

S201、输入训练样本；

S202、初始化各卷积神经网络以及长短时记忆网络及其参数，所述参数包括卷积神经网络和长短时记忆网络中每层的权重和偏置；

S203、采用正向传播算法和后向传播算法，利用训练样本学习出构建深度模型的网络参数，即训练出用于在S3中进行物体类别预测的深度模型。

所述S3包括：

S301、载入训练好的模型；

S302、输入待分析的测试图像，所述测试图像包括彩色图以及用深度传感器拍摄得到的对应的深度图；

S303、利用训练好的模型，预测图像中每个像素所属的物体类别。

进一步地，所述S201中的训练样本所包含的数据包括：包括彩色图像数据、深度图像数据和图像语义分割标注图，其中深度图像被编码成HHA特征。

进一步地，在所述深度模型中，第一卷积神经网络是在海量数据集ImageNet上预先训练好的；第二卷积神经网络的参数是随机初始化的。

进一步地，所述第一至第三卷积神经网络由卷积层、降采样层和矫正线性单元层堆叠而成；

所述卷积层用于对输入的图像或者特征图在二维空间上进行卷积运算，提取层次化特征；

所述降采样层使用没有重叠的max-pooling(对邻域内特征点取最大)操作，用于提取形状和偏移不变的特征，同时减少特征图大小，提高计算效率；

所述矫正线性单元层采用简单的非线性阀值函数，对输入信号进行只允许非负信号通过的变化；

其中，所述第一卷积神经网络包括多个串联的卷积层，其中还穿插有降采样层；所述第二卷积神经网络包括多个串联的卷积层，其中还穿插有降采样层；所述第三卷积神经网络由1个卷积层组成。

进一步地，所述第二子网络包括6个长短时记忆层；

其中，所述第一长短时记忆网络包括1个从下到上扫描的长短时记忆层，以及1个从上到下扫描的长短时记忆层；

所述第二长短时记忆网络包括1个从下到上扫描的长短时记忆层，以及1个从上到下扫描的长短时记忆层；

所述第三长短时记忆网络包括1个从左到右扫描的长短时记忆层，以及1个从右到左扫描的长短时记忆层。

进一步地，每个长短时记忆层包括多个长短时记忆单元，每个长短时记忆单元包括输入门、输出门、忘记门和一个记忆单元，其中忘记门用于选择对记忆单元以前记录的内容进行遗忘。

进一步地，所述第三卷积神经网络用于将第二子网络和第一卷积神经网络的输出映射到一个HxWx38维的实数向量，其中(H,W)为输入图片大小。

进一步地，S203中的后向传播算法需要先求出正向传播算法预测的像素所属类别以及真实的像素所属类别之间的损失函数J(ω)，然后求得其对于神经网络参数ω的梯度，采用随机下降的算法更新ω以最小化损失函数J，损失函数J(ω)定义为：

其中，batch_size为输入的RGBD图像数目，H和W分别是图像的高和宽，gt是真实的像素所属类别，c是预测的像素所属类别，x是输入的RGBD图像。

进一步地，在S3中，预测RGBD图像像素所属物体类别的具体方法为：

将所有图片输入到载入好的模型中，得到预测的每个像素属于每一物体类别的概率，将概率最大的物体类别作为对应像素所属的物体类别。

与现有技术相比，本发明的有益效果是：

第一，本发明利用深度学习，构建深层次的卷积神经网络，来从大量的训练样本(这些训练样本包含了多样的室内场景，如客厅、厨房、办公室、卧室等。)中自动学习出有效的特征，而不在依赖人工设计的先验条件和场景分布的约束。通过学习出的有效特征，直接预测出图像中每个像素所属的物体类别。

第二，本发明用一个模型实现了彩色图像和深度图像数据的融合，以及学习到有效的图像全局上下文信息，充分利用彩色图和深度图融合后得到的有效的局部和全局特征，显著地提高了基于RGBD图像的语义分割算法的准确性。并且本发明具有端对端训练的可微分结构，可以整体优化模型的各个模块。

本发明利用深层次的卷积神经网络和长短时记忆网络以及大数据，能有效地融合彩色图像和深度图像的特征，并且能有效地挖掘图像中的上下文信息，拥有很高的准确率。

附图说明

图1是本发明提供的一种RGBD图像语义分割方法的流程示意图。

图2是本发明中深度模型中各层的分布图。

图3是本发明提供的一种RGBD图像语义分割方法的数据流向图。

具体实施方式

下面将结合附图和具体的实施例，对本发明的技术方案进行详细说明。

如图1所示，本发明提供的一种RGBD图像语义分割方法包括以下步骤：

S1、采集训练样本的数据；

S4、根据S3的结果，形成并输出预测的图像语义分割图；。

具体地，所述S1包括：

S103、将深度图像编码成HHA特征；

进一步地，所述S2中，对深度模型进行训练的方法包括：

S201、输入训练样本；

进一步地，所述S3包括：

S301、载入训练好的模型；

下面将对各步骤的中一些必要的细节进行详细说明。

具体地，所述S201中的训练样本所包含的数据包括：包括彩色图像数据、深度图像数据和图像语义分割标注图，其中深度图像被编码成HHA特征。

进一步地，S203中的后向传播算法具体为：先求出正向传播算法预测的像素所属类别以及真实的像素所属类别之间的损失函数J(ω)，然后求得其对于神经网络参数ω的梯度，采用随机下降的算法更新ω以最小化损失函数J，损失函数J(ω)定义为：

下面将对本发明采用的深度模型的结构进行详细说明。

具体地，所述深度模型包括三个依次串联的子网络；

第三子网络包括第三卷积神经网络，用于融合局部特征和全局特征，进而预测图像像素所属的物体类别；具体地，所述第三卷积神经网络用于将第二子网络和第一卷积神经网络的输出映射到一个HxWx38维的实数向量，其中(H,W)为输入图片大小。

其中，在所述深度模型中，第一卷积神经网络是在海量数据集ImageNet上预先训练好的；由于深度图像没有对应的海量标注数据集，第二卷积神经网络的参数是随机初始化的。

其中，所述第一卷积神经网络包括19个串联的卷积层，其中还穿插有降采样层；所述第二卷积神经网络包括3个串联的卷积层，其中还穿插有降采样层；所述第三卷积神经网络由1个卷积层组成。

进一步地，所述第二子网络包括6个长短时记忆层；

具体地，每个长短时记忆层包括多个长短时记忆单元，每个长短时记忆单元包括输入门、输出门、忘记门和一个记忆单元，其中忘记门用于选择对记忆单元以前记录的内容进行遗忘。

深度模型中各层的具体分布如图2所示，其中，conv为卷积层，pool为降采样层，lstm为长短时记忆层。

所述卷积层为二维卷积层，用于输入的图像或特征在二维空间进行卷积，提取一些重要的特征。假设输入图像的宽度和高度分别为w和h，三维卷积核的大小为W′×h′×m′,其中w′，h′，m′分别表示宽度，高度和通道数。卷积后可以获得一个特征图。其中位于特征图(x,y)位置处的值可以表示成：

其中p_{(x+i)(y+j)(s+k)}表示输入的第(s+k)个通道在(x+i,y+j)位置的像素值，ω_ijk表示卷积核的参数，b表示跟与该特征图相关的偏置。故此我们可以得到一个特征图，每个特征图的大小为(W-W′+1，h-h′+1)。由于单个卷积核只能抽取一种类型的特征，因此我们在每层卷积层中引入了多个卷积核抽取多种不同的特征。

所述降采样层使用max-pooling(对邻域内特征点取最大)操作，用于对特征图按照一定策略(选取最大值)进行降采样。这是一种被广泛应用的有效过程，它能够提取出保持形状和偏移不变性的特征。对于一组特征图，max-pooling操作通过对它们降采样，得到同样数量的一组低分辨率特征图。并且本发明在a₁×a₂大小的特征图上应用2×2的max-pooling操作，抽取2×2不重叠区域上的最大值，得到大小为a₁/2×a₂/2的新特征图。

矫正线性单元层采用简单的非线性阈值函数，对输入进行只允许非负信号通过的变换。矫正线性单元层是神经网络里的一个基本单元层，在所有的卷积单元层后面都会有这一个单元层的存在。假设表示g本层的输出，W表示本层边的权重，a表示本层输入，则我们有：

g＝max(0，W^Ta)；

实验证明在深层卷积神经网络中，使用校正线性单元可使网络的训练收敛速度比使用传统的激励函数更快。

所述长短时记忆层可以看做是一个包含T个长短时记忆单元的小网络，T是输入网络的连续帧数量。长短时记忆单元由输入门i_t，忘记门f_t，输出门o_t和一个记忆单元组成，各门函数的表达形式如下：

i_t＝g(W_xix_t+W_hih_t-1+b_i)；

f_t＝g(W_xfx_t+W_hfh_t-1+b_f)；

o_t＝g(W_xox_t+W_hoh_t-1+b₀)；

其中x_t表示t时刻的外部输入，h_t表示t时刻的长短时记忆单元的输出，g表示sigmoid函数。输入门和记忆单元c_t间的转换关系如下：

c_in_t＝tanh(W_xcx_t+W_hch_t-1+b_{c_in})；

c_t与h_t的状态更新方式如下：

c_t＝f_t·c_t-1+i_t·c_in_t；

h_t＝o_t·tanh(c_t)；

对于整个长短时记忆层，要求的输入时T×N×c_in_t，其中N是同时输入的独立图像序列的数量，c_in_t代表输入为x_t时是否记住x_t-1的内容。

如图3所示，本发明中，在进行模型训练或语义分割时，彩色图依次经过第一卷积神经网络、第一长短时记忆网络处理后汇入第三长短时记忆网络；深度图依次经过第二卷积神经网络、第二长短时记忆网络处理后汇入第三长短时记忆网络；第三子网络根据第二子网络的输出和第一卷积神经网络的输出层叠得到的特征，输出RGBD图像中每个像素属于每一物体类别的概率值，进而预测RGBD图像像素所属的物体类别，最终输出图像语义分割图。

基于以上结构，在本发明实施例中，S2中训练深度模型的过程如下：

假设共有N个训练样本(X₁，y₁)，…(X_N，y_N),其中X_i表示输入的第i幅图像，y_i∈R^H*W表示第i幅图像中每个像素所属的物体类别，其中每个元素的取值范围为0-37。在训练过程，前向传播完成后，后向传播先利用前向传播的结果求出预测的像素所属物体类别与真实的像素所属物体类别的残差J(ω)，然后求得其对于参数ω的梯度并采用SGD优化算法更新ω以最小化残差，残差的损失函数J(ω)定义如下。

其中，batch_size为输入网络图像数目。

另外本发明在实施训练的过程中，第一卷积神经网络采用了预训练的的参数值，使用海量标注的数据集预训练该网络，使其能够抽取出更具有表达性的特征。

进一步地，在本发明实施例中，S303中预测图像中每个像素所属的物体类别的方法如下：

设给定的数据集为{In,Ln},n＝1,……，N，N为数据集样本总数。其中Ii表示第i张图像，Li表示第i张图像对应的真实的语义分割标注，在本模型中，像素所属的类别共有38类(含背景)，标号为0到37。

给定测试图像，输入训练好的模型中，可获得图像对应的语义分割的预测结果，评价标准如下：

其中，C是物体类别的总数，在本模型中是37(不含背景)，l^pred是网络预测的像素所属的物体类别标号，l^gt是真实的像素所属物体类别标号。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种RGBD图像语义分割方法，其特征在于，包括以下步骤：

S1、采集训练样本的数据；

S4、根据S3的结果，形成并输出预测的图像语义分割图；

其中，所述深度模型包括三个依次串联的子网络；

2.根据权利要求1所述的方法，其特征在于，所述S1包括：

S103、将深度图编码成HHA特征；

所述S2中，对深度模型进行训练的方法包括：

S201、输入训练样本；

所述S3包括：

S301、载入训练好的模型；

3.根据权利要求2所述的方法，其特征在于，所述S201中的训练样本所包含的数据包括：包括彩色图像数据、深度图像数据和图像语义分割标注图，其中深度图像被编码成HHA特征。

4.根据权利要求1所述的方法，其特征在于，在所述深度模型中，第一卷积神经网络是在海量数据集ImageNet上预先训练好的；第二卷积神经网络的参数是随机初始化的。

5.根据权利要求1所述的方法，其特征在于，所述第一至第三卷积神经网络由卷积层、降采样层和矫正线性单元层堆叠而成；

6.根据权利要求1所述的方法，其特征在于，所述第二子网络包括6个长短时记忆层；

7.根据权利要求6所述的方法，其特征在于，每个长短时记忆层包括多个长短时记忆单元，每个长短时记忆单元包括输入门、输出门、忘记门和一个记忆单元，其中忘记门用于选择对记忆单元以前记录的内容进行遗忘。

8.根据权利要求1所述的方法，其特征在于，所述第三卷积神经网络用于将第二子网络和第一卷积神经网络的输出映射到一个HxWx38维的实数向量，其中(H,W)为输入图片大小。

9.根据权利要求书2所述的方法，其特征在于，S203中的后向传播算法需要先求出正向传播算法预测的像素所属类别以及真实的像素所属类别之间的损失函数J(ω)，然后求得其对于神经网络参数ω的梯度，采用随机下降的算法更新ω以最小化损失函数J，损失函数J(ω)定义为：

<mrow> <mi>J</mi> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <msub> <mi>batch</mi> <mrow> <mi>s</mi> <mi>i</mi> <mi>z</mi> <mi>e</mi> </mrow> </msub> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>s</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <msub> <mi>batch</mi> <mrow> <mi>s</mi> <mi>i</mi> <mi>z</mi> <mi>e</mi> </mrow> </msub> </mrow> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>H</mi> <mo>*</mo> <mi>W</mi> </mrow> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>c</mi> <mo>=</mo> <mn>0</mn> </mrow> <mn>37</mn> </munderover> <mo>-</mo> <mn>1</mn> <mo>{</mo> <mi>g</mi> <mi>t</mi> <mo>=</mo> <mi>c</mi> <mo>}</mo> <mo>*</mo> <mi>log</mi> <mi> </mi> <mi>p</mi> <mrow> <mo>(</mo> <mi>g</mi> <mi>t</mi> <mo>=</mo> <mi>c</mi> <mo>|</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

10.根据权利要求书2所述的方法，其特征在于，在S3中，预测RGBD图像像素所属物体类别的具体方法为：