CN108664974A

CN108664974A - 一种基于rgbd图像与全残差网络的语义分割方法

Info

Publication number: CN108664974A
Application number: CN201810291496.0A
Authority: CN
Inventors: 张智军; 江锦东; 罗飞
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-04-03
Filing date: 2018-04-03
Publication date: 2018-10-16

Abstract

本发明公开了一种基于RGBD图像与全残差网络的语义分割方法，包括步骤：获取场景的RGB图像及深度图像，并传递到工作站中；在工作站对获取信息进行如下运算：在第一阶段中，把深度信息以及RGB颜色信息分别输入卷积神经网络的两个卷积分支中，进行下采样的卷积操作，并分多次把深度分支信息融合进颜色分支中；在第二阶段中，把第一阶段最后一次融合结果作为输入，进行上采样的卷积运算，同时获取第一阶段中各阶段特征层信息，将其融入上采样的各阶段中，直至输出语义分割结果。本发明中，除模型初始卷积与最后的反卷积外，其余卷积结构皆使用残差模块进行卷积运算；模型对于第一阶段与第二阶段的相同空间尺寸的特征层实行跳跃结构进行信息融合。本发明具有语义分析及边缘分割精确的优点。

Description

一种基于RGBD图像与全残差网络的语义分割方法

技术领域

本发明属于机器视觉中语义分割方法领域，特别是一种基于RGBD图像与全残差网络的语义分割方法。

背景技术

随着基于深度学习等机器学习方法在理论及应用中的不断发展，人工智能这一议题近期引起科学界及社会爆发性的广泛关注。人工智能中最为重要的议题之一就是如何实现机器对外界场景理解的能力。也即需要机器识别出所在场景中拥有什么物体，物体处于什么摆放位置。为实现此场景识别的能力，图像语义分割即被顺应提出。图像语义分割的目标是对图像中具有语义的对象，即特定类别的物体，如人、床、椅等对象进行识别，分割出该物体的所属像素区域。当机器人或智能系统获取到环境的语义分割结果后，能获得对周边环境的理解，从而进行物体抓取、行程规划、人机交互等行为。近年以来，随着Kinect等RGBD图像采集设备的普及，场景的深度信息的获取变得低廉，而场景的深度信息中富含物体的几何结构，可以成为RGB图像一个有力的补充。从这个角度出发，利用RGBD图像进行语义分割成为一个极具研究和实用价值的方向。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于RGBD图像与全残差网络的语义分割方法，该方法能够实现精确的语义分割。

本发明的目的通过以下的技术方案实现：一种基于RGBD图像与全残差网络的语义分割方法，包括步骤：

1)获取场景的RGB图像及相应的深度图像；

2)将步骤1)中获得的深度图像与RGB图像信息传递至拥有图形运算单元GPU的工作站中；

3)工作站把深度信息以及RGB信息分别输入两个基于卷积神经网络的深度学习分支中，分别称为深度分支及主分支，两分支具有相同的下采样结构；随着框架中卷积运算的递进，深度分支独立运算，而主分支在卷积运算的同时，在不同的卷积层中分多次融合深度分支的特征信息；进行下采样卷积运算时，除初始卷积与最后的反卷积外，其余卷积结构皆使用残差模块进行卷积运算；

4)将步骤3)中最后一次融合结果作为步骤3)的输出，获取该输出，在该输出上进行上采样的卷积运算，同时获取步骤3)中各阶段特征层信息，将其融入上采样的各阶段中，直至输出语义分割结果；进行上采样卷积运算时，除了最后一个反卷积层，其余层皆使用残差模块进行卷积运算。

优选的，所述步骤1)中RGB图像及深度图像利用微软Kinect套件获取，其中RGB图像保留原始值，即值域为0-255的RGB三通道灰度值；深度图像再经过等比例缩放，具体是把Kinect输出基于0-65535值域范围的值等比例缩放为0-255使其与RGB图片在同一值域范围中。

优选的，所述步骤3)进行卷积运算的神经网络系统基于Pytorch深度学习库搭建，底层利用CUDA图形软件库进行卷积运算。整套系统运行于Ubuntu操作系统之上。

优选的，所述步骤3)中两个基于卷积神经网络的深度学习分支基于同一卷积神经网络框架，并相继使用卷积结构、池化结构，与残差层结构进行运算，其中，除了两个卷积神经网络的第一卷积层均具有7x7的卷积核外，所有其余卷积层与池化层都具3x3的内核。

进一步的，所述步骤3)中主分支中的特征层Layer1,Layer2,Layer3,Layer4以及相应的深度分支的特征层Layer1_d,Layer2_d,Layer3_d,Layer4_d皆由多个残差模块组成，包括带下采样的残差模块与不带下采样的残差模块，其中不带下采样的残差模块由两个结构相同的卷积操作组成，该卷积操作拥有3x3的卷积核，且步幅与通道系数皆为1，两个残差的运算结果在模型的最后会与输入进行元素相加，形成一个完整的残差模块。而带下采样的残差模块由两部分组成，其中第一部分由两个卷积层组成，第一个拥有3x3的卷积核，且步幅与通道倍数皆为2，即对输入的空间尺寸进行下采样，并获得两倍于输入的特征通道的卷积层，另一个卷积层具有相同卷积核大小，但步幅与通道倍数皆为1。第二部分则为一个卷积核为1x1，步幅为2，通道倍数为2的“旁路卷积”，该旁路卷积对图像直接运算。最后，旁路卷积与上述两个卷积的运算结果相加，成为一个完整的带下采样的残差网络。

更进一步的，所述步骤3)中，卷积神经网络框架的结构为：

a1、主分支第一卷积层Conv1以及深度分支中第一个卷积层Conv1_d，对RGB图像及深度图像进行64个卷积核卷积，即Conv1输出拥有64通道；

b1、Pool1与Pool1_d对Conv1与Conv1_d经过步幅为2的最大化池化操作；

c1、Layer1与Layer1_d对Pool1与Pool1_d的运算结果经过3个不带下采样的残差模块运算；

d1、Layer2与Layer2_d对Layer1与Layer1_d的运算结果经过1个带下采样的残差模块与3个不带下采样的残差模块运算；

e1、Layer3与Layer3_d对Layer2与Layer2_d的运算结果经过1个带下采样的残差模块与5个不带下采样的残差模块运算；

f1、Layer4与Layer4_d对Layer3与Layer3_d的运算结果经过1个带下采样的残差模块与2个不带下采样的残差模块运算。

更进一步的，基于上述的卷积神经网络框架结构，所述步骤3)中主分支在卷积运算的同时，在不同的卷积层中分多次融合深度分支的特征信息，步骤是：

(3-1)深度分支中的Pool1_d运算结果与主分支中Pool1运算结果相加，结果作为主分支中Layer1的输入；

(3-2)深度分支中的Layer1_d运算结果与主分支中Layer1运算结果相加，结果作为主分支中Layer2的输入；

(3-3)深度分支中的Layer2_d运算结果与主分支中Layer2运算结果相加，结果作为主分支中Layer3的输入；

(3-4)深度分支中的Layer3_d运算结果与主分支中Layer3运算结果相加，结果作为主分支中Layer4的输入；

(3-5)深度分支中的Layer4_d运算结果与主分支中Layer4运算结果相加，结果作为模型下采样阶段的输出，并作为上采样阶段的输入。

优选的，步骤4)在步骤3)的输出上进行上采样卷积运算，其中除了最后一个反卷积层Final Trans，其余层皆由带上采样或不带上采样的残差层组成。其中不带下采样的残差模块与步骤3)中完全相同。而带上采样的残差模块则由两部分组成，其中第一部分由两个卷积层组成，第一个拥有3x3的卷积核，且步幅与通道倍数皆为1，另一个卷积层具有相同卷积核大小，但拥有步幅与通道倍数皆为0.5，即对输入的空间尺寸进行上采样，并获得输入的特征通道的一半数量的卷积层。第二部分则为一个卷积核为2x2，步幅为0.5，通道倍数为0.5的“旁路卷积”，该旁路卷积对图像直接运算。最后，旁路卷积与上述两个卷积的运算结果相加，成为一个完整的带上采样的残差网络。

进一步的，基于上述的结构，步骤4)中进行上采样卷积运算时，最后一个反卷积层Final Trans，其余层为Trans1、……Trans5，在步骤3)的输出上进行上采样的卷积运算，步骤是：

a2、Trans1对下采样阶段的运算结果，进行5个不带上采样的残差模块，以及一个带上采样的残差模块的运算；

b2、Trans2对Trans1运算结果，进行3个不带上采样的残差模块，以及一个带上采样的残差模块的运算；

c2、Trans3对Trans2运算结果，进行2个不带上采样的残差模块，以及一个带上采样的残差模块的运算；

d2、Trans4对Trans3运算结果，进行2个不带上采样的残差模块，以及一个带上采样的残差模块的运算；

e2、Trans4对Trans3运算结果，进行2个不带上采样的残差模块，以及一个带上采样的残差模块的运算；

f2、Trans5对Trans4运算结果，进行一个不带上采样的残差模块的运算；

g2、Final Trans对Trans5运算结果，进行一个卷积核为2x2，步幅为0.5的反卷积运算。

更进一步的，基于上述的卷积神经网络框架结构，步骤4)中，获取步骤3)中各阶段特征层信息，将其融入上采样的各阶段，步骤是：

所述步骤4)中的上采样过程分阶段融合下采样阶段的信息，具体步骤是：

(4-1)Trans1运算结果与下采样过程中Layer3_d与Layer3结果的相加结果进行元素相加，结果作为Trans2的输入；

(4-2)Trans2运算结果与下采样过程中Layer2_d与Layer2结果的相加结果进行元素相加，结果作为Trans3的输入；

(4-3)Trans3运算结果与下采样过程中Layer1_d与Layer1结果的相加结果进行元素相加，结果作为Trans4的输入。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明使用RGB-D图像获取设备以及具有图形处理单元的计算机平台，同时结合基于深度融合技术以及全残差模块的卷积神经网络，可以快速精确地完成场景的语义分割，为机器人的场景理解与语义交互实现关键的技术基础。

2、本发明除模型初始卷积与最后的反卷积外，其余卷积结构皆使用残差模块进行卷积运算；同时模型对于第一阶段与第二阶段的相同空间尺寸的特征层实行跳跃结构进行信息融合。由于采用上述特征，可以进一步实现精确的语义分割。

附图说明

图1为本发明整体系统框图；

图2为本发明算法模块总体结构细节图；

图3(a)、(b)分别为本发明算法模块中不带下采样与带下采样的残差模块结构图。

图4(a)、(b)分别为本发明算法模块中不带上采样与带上采样的残差模块结构图。

图5为本发明实验结果演示。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1、2所示，本实施例提供了一种基于RGBD图像与全残差网络的语义分割方法，该方法基于深度融合技术以及全残差模块的卷积神经网络，通过建立模型，可精确实现语义分割。下面结合附图对该方法步骤进行具体说明。

1、利用深度(Depth)图像及RGB图像获取装置，获取场景的RGB图像及Depth信息。

本实施例中，RGB图像及Depth信息利用微软Kinect套件获取，其中RGB图像保留原始值，即值域为0-255的RGB三通道灰度值；Depth信息则经过等比例缩放，具体来说，把Kinect输出基于0-65535值域范围的值等比例缩放为0-255使其与RGB图片在同一值域范围中。

2、将步骤1中获得的Depth图像与RGB图像信息传递至拥有图形运算单元GPU的工作站中。工作站中图形运算单元GPU要求为：(1)内存大于2g；(2)支持CUDA运算库。

3、工作站把深度信息以及RGB信息分别输入两个基于卷积神经网络的深度学习分支中，分别称为深度分支及主分支，两分支具有相同的下采样结构；随着框架中卷积运算的递进，深度分支独立运算，而主分支在卷积运算的同时，在不同的卷积层中分多次融合深度分支的特征信息。

本实施例中，进行卷积运算的神经网络系统基于Pytorch深度学习库搭建，底层利用CUDA图形软件库进行卷积运算。整套系统运行于Ubuntu操作系统之上。

参见图2，本实施例中，在获取Kinect中的RGB图像及深度信息后，RGB及深度信息被输入结构相同的两个卷积神经网络框架中。，除了两个卷积神经网络的第一卷积层均具有7x7的卷积核外，所有其余卷积层与池化层都具有3x3的内核。

主分支中的特征层Layer1,Layer2,Layer3,Layer4以及相应的深度分支的特征层Layer1_d,Layer2_d,Layer3_d,Layer4_d皆由多个残差模块组成，包括带下采样的残差模块与不带下采样的残差模块，其中不带下采样的残差模块如图3(a)所示，由两个结构相同的卷积操作组成，该卷积操作拥有3x3的卷积核，且步幅与通道系数皆为1，两个残差的运算结果在模型的最后会与输入进行元素相加，形成一个完整的残差模块。而带下采样的残差模块如图3(b)所示，由两部分组成，其中第一部分由两个卷积层组成，第一个拥有3x3的卷积核，且步幅与通道倍数皆为2，即对输入的空间尺寸进行下采样，并获得两倍于输入的特征通道的卷积层，另一个卷积层具有相同卷积核大小，但步幅与通道倍数皆为1。第二部分则为一个卷积核为1x1，步幅为2，通道倍数为2的“旁路卷积”，该旁路卷积对图像直接运算。最后，旁路卷积与上述两个卷积的运算结果相加，成为一个完整的带下采样的残差网络。

具体的，图3(a)、(b)中，方块表示单个卷积层，文字表示卷积层的配置，中括号中的文字代表卷积操作的参数，小括号中的两个数值表示卷积核的空间尺寸，随后的数值表示卷积操作的步幅，最后一个数值表示通道倍数，即输出的特征通道与输入的特征通道数量的比例，带除号表示缩减倍数。例如，当方块中的文字为Conv[(3,3),2,2]时表示该卷积操作拥有3x 3的卷积核，卷积步幅为2，即输出空间尺寸长与宽将为原来的二分之一，并且，其输出的特征通道数量将为输入特征通道数量的两倍。

卷积神经网络框架的结构为：

主分支在卷积运算的同时，在不同的卷积层中分多次融合深度分支的特征信息，步骤是：

4、获取步骤3中最后一次融合结果，在该输出上进行上采样的卷积运算，同时获取步骤3)中各阶段特征层信息，将其融入上采样的各阶段中，直至输出语义分割结果。

本实施例中，除了最后一个反卷积层Final Trans，其余层皆由带上采样或不带上采样的残差层组成。不带下采样的残差模块与步骤3中完全相同，如图4(a)所示。其各个符号的含义也参见图3。带上采样的残差模块如图4(b)所示，由两部分组成，其中第一部分由两个卷积层组成，第一个拥有3x3的卷积核，且步幅与通道倍数皆为1，另一个卷积层具有相同卷积核大小，但拥有步幅与通道倍数皆为0.5，即对输入的空间尺寸进行上采样，并获得输入的特征通道的一半数量的卷积层。第二部分则为一个卷积核为2x2，步幅为0.5，通道倍数为0.5的“旁路卷积”，该旁路卷积对图像直接运算。最后，旁路卷积与上述两个卷积的运算结果相加，成为一个完整的带上采样的残差网络。

参见图2，获取步骤3中各阶段特征层信息，将其融入上采样的各阶段，步骤是：

本实施例中，对于第一阶段与第二阶段的相同空间尺寸的特征层实行跳跃结构进行信息融合。具体参见图2,：

图5为本实施例方法针对具体实例的实验分析结果图。从上到下依次是RGB图像、深度图像、数据正确分割结果以及模型的最终输出。为便于展示模型的语义分割效果，这里用不同的灰色深度填充，表示不同物体的分割区域。通过对比正确的图像语义以及模型所输出的分割结果，可以明显地看出，模型的语义分割结果提供了较为精确的语义分析结果，对于物体细节例如窗帘边缘，蹬脚等区域都进行了细致的分割。这些精确的语义分割结果，能为机器人分辨图像中所具有的物体以及物体所在方位提供参考的意义，成为机器人与外界的交互的一项关键技术。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于RGBD图像与全残差网络的语义分割方法，其特征在于，包括步骤：

1)获取场景的RGB图像及相应的深度图像；

3)工作站把深度信息以及RGB信息分别输入两个基于卷积神经网络的深度学习分支中，分别称为深度分支及主分支，两分支具有相同的下采样结构；随着框架中卷积运算的递进，深度分支独立运算，而主分支在卷积运算的同时，在不同的卷积层中分多次融合深度分支的特征信息；两个分支中的特征层皆由残差模块组成，进行下采样卷积运算时，除初始卷积与最后的反卷积外，其余卷积结构皆使用残差模块进行卷积运算；

2.根据权利要求1所述的基于RGBD图像与全残差网络的语义分割方法，其特征在于，所述步骤1)中RGB图像及深度图像利用微软Kinect套件获取，其中RGB图像保留原始值，即值域为0-255的RGB三通道灰度值；深度图像再经过等比例缩放，具体是把Kinect输出基于0-65535值域范围的值等比例缩放为0-255使其与RGB图片在同一值域范围中。

3.根据权利要求1所述的基于RGBD图像与全残差网络的语义分割方法，其特征在于，所述步骤3)进行卷积运算的神经网络系统基于Pytorch深度学习库搭建，底层利用CUDA图形软件库进行卷积运算，整套系统运行于Ubuntu操作系统之上。

4.根据权利要求1所述的基于RGBD图像与全残差网络的语义分割方法，其特征在于，所述步骤3)中两个基于卷积神经网络的深度学习分支基于同一卷积神经网络框架，并相继使用卷积结构、池化结构，与残差层结构进行运算，其中，除了两个卷积神经网络的第一卷积层均具有7x7的卷积核外，所有其余卷积层与池化层都具3x3的内核。

5.根据权利要求4所述的基于RGBD图像与全残差网络的语义分割方法，其特征在于，所述步骤3)中主分支中的特征层Layer1,Layer2,Layer3,Layer4以及相应的深度分支的特征层Layer1_d,Layer2_d,Layer3_d,Layer4_d皆由多个残差模块组成，包括带下采样的残差模块与不带下采样的残差模块，其中：

不带下采样的残差模块，由两个结构相同的卷积操作组成，该卷积操作拥有3x3的卷积核，且步幅与通道系数皆为1，两个残差的运算结果在模型的最后会与输入进行元素相加，形成一个完整的残差模块；

带下采样的残差模块，由两部分组成，其中第一部分由两个卷积层组成，第一个拥有3x3的卷积核，且步幅与通道倍数皆为2，即对输入的空间尺寸进行下采样，并获得两倍于输入的特征通道的卷积层，另一个卷积层具有相同卷积核大小，但步幅与通道倍数皆为1；第二部分则为一个卷积核为1x1，步幅为2，通道倍数为2的“旁路卷积”，该旁路卷积对图像直接运算；最后，旁路卷积与上述两个卷积的运算结果相加，成为一个完整的带下采样的残差网络。

6.根据权利要求5所述的基于RGBD图像与全残差网络的语义分割方法，其特征在于，所述步骤3)中，卷积神经网络框架的结构为：

7.根据权利要求6所述的基于RGBD图像与全残差网络的语义分割方法，其特征在于，基于上述的卷积神经网络框架结构，所述步骤3)中主分支在卷积运算的同时，在不同的卷积层中分多次融合深度分支的特征信息，步骤是：

8.根据权利要求1所述的基于RGBD图像与全残差网络的语义分割方法，其特征在于，步骤4)在步骤3)的输出上进行上采样卷积运算，其中除了最后一个反卷积层Final Trans，其余层皆由带上采样或不带上采样的残差层组成；其中不带下采样的残差模块与步骤3)中完全相同，而带上采样的残差模块则由两部分组成，其中第一部分由两个卷积层组成，第一个拥有3x3的卷积核，且步幅与通道倍数皆为1，另一个卷积层具有相同卷积核大小，但拥有步幅与通道倍数皆为0.5，即对输入的空间尺寸进行上采样，并获得输入的特征通道的一半数量的卷积层，第二部分则为一个卷积核为2x2，步幅为0.5，通道倍数为0.5的“旁路卷积”，该旁路卷积对图像直接运算；最后，旁路卷积与上述两个卷积的运算结果相加，成为一个完整的带上采样的残差网络。

9.根据权利要求7所述的基于RGBD图像与全残差网络的语义分割方法，其特征在于，步骤4)中进行上采样卷积运算时，最后一个反卷积层Final Trans，其余层为Trans1、……Trans5，在步骤3)的输出上进行上采样的卷积运算，步骤是：

10.根据权利要求9所述的基于RGBD图像与全残差网络的语义分割方法，其特征在于，步骤4)中，获取步骤3)中各阶段特征层信息，将其融入上采样的各阶段，步骤是：