CN110728682A

CN110728682A - 一种基于残差金字塔池化神经网络的语义分割方法

Info

Publication number: CN110728682A
Application number: CN201910864969.6A
Authority: CN
Inventors: 周武杰; 吕思嘉; 雷景生; 何成; 王海江
Original assignee: Zhejiang University of Science and Technology ZUST
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd; Zhejiang University of Science and Technology ZUST
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2020-01-24
Anticipated expiration: 2039-09-09
Also published as: CN110728682B

Abstract

本发明公开了一种基于残差金字塔池化神经网络的语义分割方法。首先构建卷积神经网络，其隐层包括10个残差神经网络块、4个Residual ASPP块和5个Basic块；使用原始的室内场景图像输入到卷积神经网络中进行训练，得到对应的语义分割预测图；再通过计算原始的室内场景图像对应的语义分割预测图构成的集合与对应的真实语义分割图像处理成的40幅独热编码图像构成的集合之间的损失函数值，获得卷积神经网络分类训练模型的最优权值矢量和偏置项；在测试阶段，将待语义分割的室内场景图像输入到卷积神经网络分类训练模型中，得到语义分割预测图。本发明提高了室内场景图像的语义分割效率和准确度。

Description

一种基于残差金字塔池化神经网络的语义分割方法

技术领域

本发明是一种基于全卷积神经网络的语义分割方法，特别是对于残差金字塔池化的室内场景语义分割方法。

背景技术

语义分割是许多计算机视觉应用的基本技术，如场景理解、无人驾驶。随着卷积神经网络特别是全卷积神经网络(FCN)的发展，在基准测试中取得了许多有前途的成果。FCN具有典型的编码器-解码器结构——语义信息首先通过编码器嵌入到特征图中，解码器负责生成分割结果。通常，编码器是预先训练的卷积模型来提取图像特征，解码器包含多个上采样组件来恢复分辨率。尽管编码器最重要的特征图可能具有高度的语义性，但由于分辨率不足，它在分割图中重建精确细节的能力有限，这在现代主干模型中非常常见。语义分割既需要丰富的空间信息，又需要相当大的感受野，因此，利用空洞卷积来扩大感受野成为了现代网络的主流思想。现代语义分割框架通常将预先训练的主干卷积模型的低级和高级特征结合起来，以提高性能，通常选择残差块和跳跃连接作为结合方式。除此之外，多尺度信息也为语义分割的精确性提供了有力支撑，金字塔池化通过获取不同尺度的特征图再将其融合这一方法，成为了语义分割最常用的模块之一。今年来，RGB-D的广泛使用为语义分割提供了丰富的辅助信息，将深度图作为第二输入流与原始的RGB输入流相融合，成为了现阶段室内场景分割的主流方法。

发明内容

本发明所要解决的技术问题是提供一种对于深度学习的卷积神经网络做一系列多尺度的对称跳跃式连接融合的室内场景语义分割方法，以提高近年来分割技术领域中的精确度和图像中各类标签的准确度。

本发明解决上述技术问题所采用的技术方案包括以下步骤：

步骤1：选取N幅RGB图像以及RGB图像对应的深度图、独热编码图，将所有RGB图像及其对应的深度图、独热编码图构成训练集；独热编码图是对RGB图像进行真实语义分割处理得到的图像。

步骤2：构建残差金字塔池化神经网络，残差金字塔池化神经网络包括依次设置的输入层、隐藏层和输出层。

步骤3：将训练集中每幅RGB图像以及RGB图像对应的深度图通过输入层输入到隐藏层后再从输出层输出语义分割预测图，计算每幅RGB图像的语义分割预测图和独热编码图之间的损失函数值，损失函数值采用采用Negative Log-liklihood(NLLLoss)获得。

步骤4：重复执行步骤3共V次，并共得到N×V个损失函数值；将N×V个损失函数值中值最小的损失函数值对应的权值矢量和偏置项作为残差金字塔池化神经网络的最优权值矢量和最优偏置项，得到训练好的残差金字塔池化神经网络。

步骤5：采集待语义分割的RGB图像，并将其输入到训练好的残差金字塔池化神经网络中，输出得到待语义分割的RGB图像对应的语义分割预测图。

隐藏层包括五部分，第一部分主要由依次连接的第1个卷积块、第6个残差网络块、第7个残差网络块、第8个残差网络块、第9个残差网络块、第10个残差网络块、第1个残差网络块、第2个反卷积层、第3个反卷积层、第4个反卷积层组成，第二部分主要由依次连接的第1个残差网络块、第2个残差网络块、第3个残差网络块、第4个残差网络块、第5个残差网络块、第5个反卷积层、第6个反卷积层、第7个反卷积层、第8个反卷积层组成，第三部分主要由依次连接的第1个Residual ASPP块、第2个Residual ASPP块、第3个Residual ASPP块、第4个Residual ASPP块、第9个反卷积层、第10个反卷积层、第11个反卷积层组成，第四部分主要由依次连接的第1个Basic块、第2个Basic块、第3个Basic块、第12个反卷积层、第13个反卷积层、第4个Basic块和第5个Basic块组成。

第6个残差网络块、第4个反卷积层、第1个残差网络块和第8个反卷积层的输出均再跳跃连接到第1个Residual ASPP块的输入，第7个残差网络块、第3个反卷积层、第2个残差网络块和第7个反卷积层的输出均再跳跃连接到第2个Residual ASPP块的输入，第8个残差网络块、第2个反卷积层、第3个残差网络块和第6个反卷积层的输出均再跳跃连接到第3个Residual ASPP块的输入，第9个残差网络块、第1个反卷积层、第4个残差网络块和第5反卷积层的输出均再跳跃连接到第4个Residual ASPP块的输入。

第2个Residual ASPP块的输出再跳跃连接到第1个Basic块的输入，第3个Residual ASPP块和第10个反卷积层的输出再连接到第2个Basic块的输入，第4个ResidualASPP块和第9个反卷积层的输出再跳跃连接到第3个Basic块的输入，第2个Basic块的输出再跳跃连接到第4个Basic块的输入，第3个Basic块和第12个反卷积层的输出再跳跃连接到第5个Basic块的输入。

第五部分包括依次连接的第14个反卷积层、第15个反卷积层和第16个反卷积层，第3个Residual ASPP块的输出连接到第14个反卷积层的输入，第1个Residual ASPP块、第4个Basic块和第16个反卷积层的输出融合后作为隐藏层的主要输出，隐藏层还包括三个多尺度输出，第3个Residual ASPP块和第14个反卷积层输出融合后经第2个卷积块输出，第2卷积块的输出作为第一多尺度输出，第2个Residual ASPP块、第5个Basic块和第15个反卷积层输出融合后经第3个卷积块输出，第3卷积块的输出作为第二多尺度输出，第1个Residual ASPP块和第4个Basic块的输出融合后经第4个卷积块输出，第4卷积块的输出作为第三多尺度输出。

每幅RGB图像以及RGB图像对应的深度图经输入层输出到隐藏层，其中，第1个残差网络块接收RGB图像作为输入，第1个卷积块接收深度图作为输入，隐藏层的主要输出和三个多尺度输出经输出层输出，隐藏层输出的均为语义分割预测图，三个多尺度输出用于训练残差金字塔池化神经网络，三个多尺度输出的区别在于语义分割预测图的尺寸大小不同，根据隐藏层的主要输出和三个多尺度输出计算损失函数值。

第1个卷积块、第2卷积块、第3卷积块和第4卷积块的结构均相同，均是由卷积层、批量归一化层、激活层依次连接组成。

所述的各个残差网络块均是由ResNet34中的基本块构成，具体是：第1个残差网络块、第6个残差网络块均由ResNet34网络的第一卷积层、第一批量归一化层和第一激活层组成；第2个残差网络块、第7个残差网络块均由ResNet34网络的第一池化层和layer1结构组成；第3个残差网络块、第8个残差网络块均由ResNet34网络的layer2结构组成；第4个残差网络块、第9个残差网络块均由ResNet34网络的layer3结构组成；第5个残差网络块、第10个残差网络块均由ResNet34网络的layer4结构组成。

所述的各个Residual ASPP块的结构均由并行设置的三个带孔卷积块串行一个卷积块组成，三个带孔卷积块并联的一端作为Residual ASPP块的输入端，并联的另一端经串联的卷积块后的输出作为Residual ASPP块的输出端。

所述的各个Basic块均由三个卷积块依次连接组成，三个卷积块串联一端作为Basic块的输入端，串联的另一端作为Basic块的输出端，每个卷积块均由依次连接的卷积层、批量归一化层、激活层组成。

所述的RGB图像为原始采集的室内场景图像。

与现有技术相比，本发明的优点在于：

1)本发明方法构建了全卷积神经网络，与其他方法相比，本方法的网络结构用步长为2的卷积层取代了现阶段常用的池化层。由于池化层会对图像造成不可逆的特征损失，且语义分割对预测精度的要求很高，因此选择了步长为2的卷积层作为替代方法。该卷积层可以得到与池化层相同的效果，并能保证图片特征不会有过大损失。

2)本发明设置的Residual ASPP块，采用空洞卷积扩大网络感受野。池化层的优点不只是能有效缩减图像尺寸，还可有效扩大感受野以保证提取到更多的全局信息。因此在用步长为2的卷积层替代池化层时，感受野没有得到有效扩充，损失了部分全局信息。因此加入空洞卷积，以保证网络感受野不变甚至增大。空洞卷积与步长为2的卷积层相结合，可以保证网络提取到最多的局部特征与全局特征。

3)本发明方法在搭建卷积网络时采用了跳远连接最为主要的连接方式，以构成全残差网络。残差网络在语义分割方向上一直具有很优秀的表现，因此在本发明中加入跳远连接，可以有效补偿图像在编码过程中的损失，以保证最后的预测精度。

附图说明

图1为残差金字塔池化神经网络的结构框图；

图2a为第1幅原始的室内场景图像；图2b为利用本发明方法对图2a所示的原始的室内场景图像进行预测得到的语义分割预测图；

图3a为第2幅原始的室内场景图像；图3b为利用本发明方法对图3a所示的原始的室内场景图像进行预测得到的语义分割预测图；

图4a为第3幅原始的室内场景图像；图4b为利用本发明方法对图4a所示的原始的室内场景图像进行预测得到的语义分割预测图；

图5a为第4幅原始的室内场景图像；图5b为利用本发明方法对图5a所示的原始的室内场景图像进行预测得到的语义分割预测图。

图6a为第5幅原始的室内场景图像；图6b为利用本发明方法对图6a所示的原始的室内场景图像进行预测得到的语义分割预测图。

具体实施方式

以下结合附图和实施例对本发明作进一步详细描述。

本发明提出的一种基于残差金字塔池化的语义分割方法，其总体实现框图如图1所示，其包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取N幅原始图像的RGB图和深度图构成训练集，将训练集中的第k幅原始图像的RGB图记为

原始图像的深度图记为

对应的独热编码标签图像记为{G^k(x,y)}；其中，k为正整数，1≤k≤N，1≤x≤W，1≤y≤H，W表示原始图像的宽度，H表示原始图像的高度，如取W＝640、H＝480，R^k(x,y)表示中坐标位置为(x,y)的像素点的像素值，表示中坐标位置为(x,y)的像素点的像素值，G^k(x,y)表示{G^k(x,y)}中坐标位置为(x,y)的像素点的像素值；本实验中的数据集直接选用的是NYUD V2中的1449幅图像。

步骤1_2：构建卷积神经网络：卷积神经网络包括输入层、隐藏层和输出层；其中隐层包括第1个残差网络块、第2个残差网络块、第3个残差网络块、第4个残差网络块、第5个残差网络块、第6个残差网络块、第7个残差网络块、第8个残差网络块、第9个残差网络块、第10个残差网络块、第1个Residual ASPP块、第2个Residual ASPP块、第3个Residual ASPP块、第4个Residual ASPP块、第1个Basic块、第2个Basic块、第3个Basic块、第4个Basic块、第5个Basic块、第1个反卷积层、第2个反卷积层、第3个反卷积层、第4个反卷积层、第5个反卷积层、第6个反卷积层、第7个反卷积层、第8个反卷积层、第9个反卷积层、第10个反卷积层、第11个反卷积层、第12个反卷积层、第13个反卷积层、第14个反卷积层、第15个反卷积层、第16个反卷积层。其中，所有反卷积层的卷积核大小均为4x4、补零参数均为1、步长均为2。

对于输入层，输入层的输入端接收原始图像的RGB图和深度图，输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量，输入层的输出量是隐层的输入量；其中，深度图与RGB图一样具有三通道，即经过输入层后也被处理成三个分量，且输入的原始立体图像的宽度为W、高度为H。

对于隐层：其包含的残差网络块都是由ResNet34中的基本块构成；第1个残差网络块由ResNet34网络的第一卷积层、第一批量归一化层和第一激活层组成；第2个残差网络块由ResNet34网络的第一池化层和layer1组成；第3个残差网络块由ResNet34网络的layer2组成；第4个残差网络块由ResNet34网络的layer3组成；第5个残差网络块由ResNet34网络的layer4组成；第6个残差网络块由ResNet34网络的第一卷积层、第一批量归一化层和第一激活层组成；第7个残差网络块由ResNet34网络的第一池化层和layer1组成；第8个残差网络块由ResNet34网络的layer2组成；第9个残差网络块由ResNet34网络的layer3组成；第10个残差网络块由ResNet34网络的layer4组成。

第1个残差网络块的输入是三通道的原始RGB图像，经过第1个残差网络块的处理输出64幅特征图，将64幅特征图构成的集合记为P1，并且P₁中的每幅特征图的宽度为

高度为

第2个残差网络块的输入是第1个残差网络块的输出，经过第2个残差网络块的处理输出64幅特征图，将64幅特征图构成的集合记为P₂，并且P₂中的每幅特征图的宽度为

高度为

第3个残差网络块的输入是第2个残差网络块的输出，经过第3个残差网络块的处理输出408幅特征图，将408幅特征图构成的集合记为P₃，并且P₃中的每幅特征图的宽度为

高度为

第4个残差网络块的输入是第3个残差网络块的输出，经过第4个残差网络块的处理输出256幅特征图，将256幅特征图构成的集合记为P4，并且P4中的每幅特征图的宽度为高度为第5个残差网络块的输入是第4个残差网络块的输出，经过第5个残差网络块的处理输出540幅特征图，将540幅特征图构成的集合记为P₅，并且P₅中的每幅特征图的宽度为

高度为

深度图经第1个卷积块输入到第6个残差网络块中，第1个卷积块由第1个卷积层、第1个批量归一化层、第1个激活层依次连接组成，第1个卷积层的卷积核大小(kernel_size)为1x1、卷积核个数(filters)为3、补零(padding)参数为1、步长(stride)为1；第一激活层的激活方式为“Relu”；第6个残差网络块的输入是第一激活层的输出，经过第6个残差网络块的处理输出64幅特征图，将64幅特征图构成的集合记为P6，并且P6中的每幅特征图的宽度为高度为第7个残差网络块的输入是第6个残差网络块的输出，经过第7个残差网络块的处理输出64幅特征图，将64幅特征图构成的集合记为P₇，并且P₇中的每幅特征图的宽度为

高度为第8个残差网络块的输入是第7个残差网络块的输出，经过第8个残差网络块的处理输出408幅特征图，将408幅特征图构成的集合记为P₈，并且P₈中的每幅特征图的宽度为

高度为

第9个残差网络块的输入是第8个残差网络块的输出，经过第9个残差网络块的处理输出256幅特征图，将256幅特征图构成的集合记为P₉，并且P₉中的每幅特征图的宽度为

高度为第10个残差网络块的输入是第9个残差网络块的输出，经过第10个残差网络块的处理输出540幅特征图，将540幅特征图构成的集合记为P₁₀，并且P₁₀中的每幅特征图的宽度为

高度为

第1个Residual ASPP块由并行设置的三个带孔卷积块并串行一个卷积块组成。三个带孔卷积块依次称为第2、第3、第4带孔卷积块，串行的一个卷积块称为第5串行卷积块，第1、第2、第3带孔卷积块并联后与第4串行卷积块串联连接。第2带孔卷积块包括依次连接的第2卷积层、第2批量归一化层、第2激活层，第3带孔卷积块包括依次连接的第3卷积层、第3批量归一化层、第3激活层，第4带孔卷积块包括依次连接的第4卷积层、第4批量归一化层、第4激活层，第5串行卷积块包括依次连接的第5卷积层、第5批量归一化层、第5激活层，第1个Residual ASPP块的输入端接收第1残差网络块、第6残差网络块、第4反卷积层和第8反卷积层的输出端输出图像的R通道分量、G通道分量和B通道分量，输出端输出64幅特征图，将64幅特征图构成的集合记为Q1。其中，第2卷积层的卷积核大小为3x3、卷积核个数为64、补零参数为1、步长为1、空洞率(dilate rate)为1；第3卷积层的卷积核大小为3x3、卷积核个数为64、补零参数为1、步长为1、空洞率为4；第4卷积层的卷积核大小为3x3、卷积核个数为64、补零参数为1、步长为1、空洞率为8；第5卷积层的卷积核大小为1x1、卷积核个数为64、补零参数为1、步长为1；第2、3、4、5激活层的激活方式为“Relu”；第1、5反卷积层的卷积核个数均为64。Q₁中的每幅特征图的宽度为

高度为

第2个Residual ASPP块由并行设置的三个带孔卷积块串行一个卷积块组成，第2个Residual ASPP块的连接结构与第1个Residual ASPP块相同，具体包括第6卷积层、第6批量归一化层、第6激活层、第7卷积层、第7批量归一化层、第7激活层、第8卷积层、第8批量归一化层、第8激活层、第9卷积层、第9批量归一化层、第9激活层。第2个Residual ASPP块的输入端接收第2残差网络块、第7残差网络块、第1个Residual ASPP块、第3反卷积层和第7反卷积层的输出端输出图像的R通道分量、G通道分量和B通道分量，输出端输出64幅特征图，将64幅特征图构成的集合记为Q₂。其中，第6卷积层的卷积核大小为3x3、卷积核个数为64、补零参数为1、步长为1、空洞率(dilate rate)为1；第7卷积层的卷积核大小为3x3、卷积核个数为64、补零参数为1、步长为1、空洞率为4；第8卷积层的卷积核大小为3x3、卷积核个数为64、补零参数为1、步长为1、空洞率为8；第9卷积层的卷积核大小为1x1、卷积核个数为64、补零参数为1、步长为1；第6、7、8、9激活层的激活方式为“Relu”；第2、6反卷积层的卷积核个数均为64。Q₂中的每幅特征图的宽度为

高度为

第3个Residual ASPP块由并行设置的三个带孔卷积块串行一个卷积块组成。第3个Residual ASPP块的连接结构与第1个Residual ASPP块相同，具体包括第10卷积层、第10批量归一化层、第10激活层、第11卷积层、第11批量归一化层、第11激活层、第40卷积层、第40批量归一化层、第40激活层、第13卷积层、第13批量归一化层、第13激活层。第3个Residual ASPP块的输入端接收第3残差网络块、第8残差网络块、第2个Residual ASPP块、第2反卷积层和第6反卷积层的输出端输出图像的R通道分量、G通道分量和B通道分量，输出端输出408幅特征图，将408幅特征图构成的集合记为Q3。其中，第10卷积层的卷积核大小为3x3、卷积核个数为408、补零参数为1、步长为1、空洞率(dilate rate)为1；第11卷积层的卷积核大小为3x3、卷积核个数为408、补零参数为1、步长为1、空洞率为4；第40卷积层的卷积核大小为3x3、卷积核个数为408、补零参数为1、步长为1、空洞率为8；第13卷积层的卷积核大小为1x1、卷积核个数为408、补零参数为1、步长为1；第10、11、40、13激活层的激活方式为“Relu”；第3、7反卷积层的卷积核个数均为408。Q3中的每幅特征图的宽度为

高度为

第4个Residual ASPP块由并行设置的三个带孔卷积块串行一个卷积块组成。第4个Residual ASPP块的连接结构与第1个Residual ASPP块相同，包括第14卷积层、第14批量归一化层、第14激活层、第15卷积层、第15批量归一化层、第15激活层、第16卷积层、第16批量归一化层、第16激活层、第17卷积层、第17批量归一化层、第17激活层。第4个ResidualASPP块的输入端接收第4残差网络块、第9残差网络块、第3个Residual ASPP块、第1反卷积层和第5反卷积层的输出端输出图像的R通道分量、G通道分量和B通道分量，输出端输出256幅特征图，将256幅特征图构成的集合记为Q4。其中，第14卷积层的卷积核大小为3x3、卷积核个数为256、补零参数为1、步长为1、空洞率(dilate rate)为1；第15卷积层的卷积核大小为3x3、卷积核个数为256、补零参数为1、步长为1、空洞率为4；第16卷积层的卷积核大小为3x3、卷积核个数为256、补零参数为1、步长为1、空洞率为8；第17卷积层的卷积核大小为1x1、卷积核个数为256、补零参数为1、步长为1；第14、15、16、17激活层的激活方式为“Relu”；第4、8反卷积层的卷积核个数均为256。Q4中的每幅特征图的宽度为高度为

第1个Basic块由依次连接的三个卷积块和一个跳跃连接组成。三个卷积块分别命名为第18卷积块、第19卷积块和第20卷积块，每个卷积块均由依次连接的卷积层、批量归一化层和激活层组成，由此有第18卷积层、第18批量归一化层、第18激活层、第19卷积层、第19批量归一化层、第19激活层、第20卷积层、第20批量归一化层、第20激活层。第1个Basic块的输入端接收第2个Residual ASPP块和第11反卷积层的输出端输出图像的R通道分量、G通道分量和B通道分量，输出端输出64幅特征图，将64幅特征图构成的集合记为B₁。其中，第18、19、20卷积层的卷积核大小均为3x3、卷积核个数均为64、补零参数均为1、步长均为1；第18、19、20激活层的激活方式为“Relu”；第9反卷积层的卷积核个数均为64。B₁中的每幅特征图的宽度为

高度为

第2个Basic块由依次设置的三个卷积块和一个跳跃连接组成，包括第21卷积层、第21批量归一化层、第21激活层、第22卷积层、第22批量归一化层、第22激活层、第23卷积层、第23批量归一化层、第23激活层。第2个Basic块的输入端接收第3个Residual ASPP块、第1个Basic块和第10反卷积层的输出端输出图像的R通道分量、G通道分量和B通道分量，输出端输出64幅特征图，将64幅特征图构成的集合记为B₂。其中，第21、22、23卷积层的卷积核大小均为3x3、卷积核个数均为64、补零参数均为1、步长均为1；第21、22、23激活层的激活方式为“Relu”；第10反卷积层的卷积核个数均为64。B₂中的每幅特征图的宽度为

高度为

第3个Basic块由依次设置的三个卷积块和一个跳跃连接组成，包括第24卷积层、第24批量归一化层、第24激活层、第25卷积层、第25批量归一化层、第25激活层、第26卷积层、第26批量归一化层、第26激活层。第3个Basic块的输入端接收第4个Residual ASPP块、第2个Basic块和第9反卷积层的输出端输出图像的R通道分量、G通道分量和B通道分量，输出端输出408幅特征图，将408幅特征图构成的集合记为B₃。其中，第24、25、26卷积层的卷积核大小均为3x3、卷积核个数均为64、补零参数均为1、步长均为1；第24、25、26激活层的激活方式为“Relu”；第11反卷积层的卷积核个数均为408。B₃中的每幅特征图的宽度为高度为

第4个Basic块由依次设置的三个卷积块和一个跳跃连接组成，包括第27卷积层、第27批量归一化层、第27激活层、第28卷积层、第28批量归一化层、第28激活层、第29卷积层、第29批量归一化层、第29激活层。第4个Basic块的输入端接收第2个Basic块和第13反卷积层的输出端输出图像的R通道分量、G通道分量和B通道分量，输出端输出64幅特征图，将64幅特征图构成的集合记为B₄。其中，第27、28、29卷积层的卷积核大小均为3x3、卷积核个数均为64、补零参数均为1、步长均为1；第27、28、29激活层的激活方式为“Relu”；第40反卷积层的卷积核个数均为64。B₄中的每幅特征图的宽度为

高度为

第5个Basic块由依次设置的三个卷积块和一个跳跃连接组成，包括第30卷积层、第30批量归一化层、第30激活层、第31卷积层、第31批量归一化层、第31激活层、第32卷积层、第32批量归一化层、第32激活层。第5个Basic块的输入端接收第3个Basic块、第4个Basic块和第12反卷积层的输出端输出图像的R通道分量、G通道分量和B通道分量，输出端输出64幅特征图，将64幅特征图构成的集合记为B₅。其中，第30、31、32卷积层的卷积核大小均为3x3、卷积核个数均为64、补零参数均为1、步长均为1；第30、31、32激活层的激活方式为“Relu”；第13反卷积层的卷积核个数为64。B4中的每幅特征图的宽度为

高度为

第14反卷积层的输入端接收第3个Residual ASPP块输出端输出图像的R通道分量、G通道分量和B通道分量，输出端输出64幅特征图。第14反卷积层的卷积核个数为408。第15反卷积层的输入端接收第2个Residual ASPP块、第5个Basic块和第14反卷积层输出端输出图像的R通道分量、G通道分量和B通道分量，输出端输出64幅特征图。第15反卷积层的卷积核个数为64。第16反卷积层的输入端接收第1个Residual ASPP块、第4个Basic块和第15反卷积层输出端输出图像的R通道分量、G通道分量和B通道分量，输出端输出40幅特征图。第16反卷积层的卷积核个数为40且每幅特征图的宽度为W、高度为H。

对于输出层，共包含1个主要输出和3个多尺度输出，包括第33卷积层、第33批量归一化层、第33激活层、第34卷积层、第34批量归一化层、第34激活层、第35卷积层、第35批量归一化层、第35激活层。第1个主要输出的输入端接收第1个Residual ASPP块、第4个Basic块和第16个反卷积层的输出融合后的R通道分量、G通道分量和B通道分量，输出端输出40幅特征图。第1个多尺度输出的输入端接收第3个Residual ASPP块和第14个反卷积层输出融合后经第2个卷积块输出端输出图像的R通道分量、G通道分量和B通道分量，输出端输出40幅特征图。第2个多尺度输出的输入端接收第2个Residual ASPP块、第5个Basic块和第15个反卷积层输出融合后经第3个卷积块输出端输出图像的R通道分量、G通道分量和B通道分量，输出端输出40幅特征图。第3个多尺度输出的输入端接收第1个Residual ASPP块和第4个Basic块的输出融合后经第4个卷积块输出端输出图像的R通道分量、G通道分量和B通道分量，输出端输出40幅特征图。其中，第33、34、35卷积层的卷积核大小均为1x1、卷积核个数均为40、补零参数均为1、步长均为1；第33、34、35激活层的激活方式为“Relu”。

步骤1_3：将训练集中每幅原始的室内场景图像作为原始输入图像，输入到卷积神经网络中进行训练，得到训练集中每幅原始的室内场景图像对应的40幅语义分割预测图，将{I^q(i,j)}对应的40幅语义分割预测图构成的集合记为

步骤1_4：计算训练集中的每幅原始的室内场景图像对应的40幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的40幅独热编码图像构成的集合之间的损失函数值，将

与

之间的损失函数值记为

采用Negative Log-liklihood(NLLLoss)获得。

步骤1_5：重复执行步骤1_3和步骤1_4共V次，得到卷积神经网络分类训练模型，并共得到Q×V个损失函数值；然后从Q×V个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，V>1，在本实施例中取V＝2000。

所述的测试阶段过程的具体步骤为：

步骤2_1：令

表示待语义分割的室内场景图像；其中，1≤i'≤W'，1≤j'≤H'，W'表示

的宽度，H'表示的高度，

表示中坐标位置为(i,j)的像素点的像素值。

步骤2_2：将

的R通道分量、G通道分量和B通道分量输入到卷积神经网络分类训练模型中，并利用W^best和b^best进行预测，得到对应的语义分割预测图，记为

其中，表示

中坐标位置为(i',j')的像素点的像素值。

对比图2a和图2b，图3a和图3b，图4a和图4b，图5a和图5b，图6a和图6b可以看出，利用本发明方法得到的语义分割预测图的分割精度较高。

为了进一步验证本发明方法的可行性和有效性，进行实验。

使用基于python的深度学习框架Pytorch0.4.1搭建本发明的全残差空洞卷积神经网络架构。采用室内场景图像数据库NYUD v2测试集来分析利用本发明方法预测得到的室内场景图像(取654幅室内场景图像)的分割效果如何。这里，利用评估语义分割方法的3个常用客观参量作为评价指标，即类精确度(Class Acurracy)、平均像素准确率(MeanPixel Accuracy，MPA)、分割图像与标签图像交集与并集的比值(Mean Intersection overUnion，MIoU)来评价语义分割预测图的分割性能。上述3个评价指标的值越大，代表语义分割预测图的分割性能越好。

表1利用本发明方法在测试集上的评测结果

MPA	73.2％
		CA	56.7％
MIoU	44.1％

利用本发明方法对室内场景图像数据库NYUD v2测试集中的每幅室内场景图像进行预测，得到每幅室内场景图像对应的语义分割预测图，反映本发明方法的语义分割效果的类精确度CA、平均像素准确率MPA、分割图像与标签图像交集与并集的比值MIoU如表1所列。从表1所列的数据可知，按本发明方法得到的室内场景图像的分割结果是较好的，表明利用本发明方法来获取室内场景图像对应的语义分割预测图是可行性且有效的。

表2与其他方法的对比结果

对比表2，与其他现有技术中的语义分割方法的评价指标对比中可以看出，本发明优势明显，达到了非常优秀且具竞争力的技术效果。

Claims

1.一种基于残差金字塔池化神经网络的语义分割方法，其特征在于：

步骤1：选取N幅RGB图像以及RGB图像对应的深度图、独热编码图，将所有RGB图像及其对应的深度图、独热编码图构成训练集；独热编码图是对RGB图像进行真实语义分割处理得到的图像；

步骤2：构建残差金字塔池化神经网络，残差金字塔池化神经网络包括依次设置的输入层、隐藏层和输出层；

步骤3：将训练集中每幅RGB图像以及RGB图像对应的深度图通过输入层输入到隐藏层后再从输出层输出语义分割预测图，计算每幅RGB图像的语义分割预测图和独热编码图之间的损失函数值，损失函数值采用采用Negative Log-liklihood(NLLLoss)获得；

步骤4：重复执行步骤3共V次，并共得到N×V个损失函数值；将N×V个损失函数值中值最小的损失函数值对应的权值矢量和偏置项作为残差金字塔池化神经网络的最优权值矢量和最优偏置项，得到训练好的残差金字塔池化神经网络；

2.根据权利要求1所述的一种基于残差金字塔池化神经网络的语义分割方法，其特征在于：隐藏层包括五部分，第一部分主要由依次连接的第1个卷积块、第6个残差网络块、第7个残差网络块、第8个残差网络块、第9个残差网络块、第10个残差网络块、第1个残差网络块、第2个反卷积层、第3个反卷积层、第4个反卷积层组成，第二部分主要由依次连接的第1个残差网络块、第2个残差网络块、第3个残差网络块、第4个残差网络块、第5个残差网络块、第5个反卷积层、第6个反卷积层、第7个反卷积层、第8个反卷积层组成，第三部分主要由依次连接的第1个Residual ASPP块、第2个Residual ASPP块、第3个Residual ASPP块、第4个Residual ASPP块、第9个反卷积层、第10个反卷积层、第11个反卷积层组成，第四部分主要由依次连接的第1个Basic块、第2个Basic块、第3个Basic块、第12个反卷积层、第13个反卷积层、第4个Basic块和第5个Basic块组成；

第6个残差网络块、第4个反卷积层、第1个残差网络块和第8个反卷积层的输出均再跳跃连接到第1个Residual ASPP块的输入，第7个残差网络块、第3个反卷积层、第2个残差网络块和第7个反卷积层的输出均再跳跃连接到第2个Residual ASPP块的输入，第8个残差网络块、第2个反卷积层、第3个残差网络块和第6个反卷积层的输出均再跳跃连接到第3个Residual ASPP块的输入，第9个残差网络块、第1个反卷积层、第4个残差网络块和第5反卷积层的输出均再跳跃连接到第4个Residual ASPP块的输入，

第2个Residual ASPP块的输出再跳跃连接到第1个Basic块的输入，第3个ResidualASPP块和第10个反卷积层的输出再连接到第2个Basic块的输入，第4个Residual ASPP块和第9个反卷积层的输出再跳跃连接到第3个Basic块的输入，第2个Basic块的输出再跳跃连接到第4个Basic块的输入，第3个Basic块和第12个反卷积层的输出再跳跃连接到第5个Basic块的输入，

第五部分包括依次连接的第14个反卷积层、第15个反卷积层和第16个反卷积层，第3个Residual ASPP块的输出连接到第14个反卷积层的输入，第1个Residual ASPP块、第4个Basic块和第16个反卷积层的输出融合后作为隐藏层的主要输出，隐藏层还包括三个多尺度输出，第3个Residual ASPP块和第14个反卷积层输出融合后经第2个卷积块输出，第2卷积块的输出作为第一多尺度输出，第2个Residual ASPP块、第5个Basic块和第15个反卷积层输出融合后经第3个卷积块输出，第3卷积块的输出作为第二多尺度输出，第1个ResidualASPP块和第4个Basic块的输出融合后经第4个卷积块输出，第4卷积块的输出作为第三多尺度输出；

第1个残差网络块接收RGB图像作为输入，第1个卷积块接收深度图作为输入，隐藏层的主要输出和三个多尺度输出经输出层输出，隐藏层输出的均为语义分割预测图，三个多尺度输出用于训练残差金字塔池化神经网络，三个多尺度输出的区别在于语义分割预测图的尺寸大小不同，根据隐藏层的主要输出和三个多尺度输出计算损失函数值。

3.根据权利要求2所述的一种基于残差金字塔池化神经网络的语义分割方法，其特征在于：所述的各个残差网络块均是由ResNet34中的基本块构成，具体是：第1个残差网络块、第6个残差网络块均由ResNet34网络的第一卷积层、第一批量归一化层和第一激活层组成；第2个残差网络块、第7个残差网络块均由ResNet34网络的第一池化层和layer1结构组成；第3个残差网络块、第8个残差网络块均由ResNet34网络的layer2结构组成；第4个残差网络块、第9个残差网络块均由ResNet34网络的layer3结构组成；第5个残差网络块、第10个残差网络块均由ResNet34网络的layer4结构组成。

4.根据权利要求2所述的一种基于残差金字塔池化神经网络的语义分割方法，其特征在于：所述的各个Residual ASPP块的结构均由并行设置的三个带孔卷积块串行一个卷积块组成，三个带孔卷积块并联的一端作为Residual ASPP块的输入端，并联的另一端经串联的卷积块后的输出作为Residual ASPP块的输出端。

5.根据权利要求2所述的一种基于残差金字塔池化神经网络的语义分割方法，其特征在于：所述的各个Basic块均由三个卷积块依次连接组成，三个卷积块串联一端作为Basic块的输入端，串联的另一端作为Basic块的输出端，每个卷积块均由依次连接的卷积层、批量归一化层、激活层组成。

6.根据权利要求1所述的一种基于残差金字塔池化神经网络的语义分割方法，其特征在于：所述的RGB图像为原始采集的室内场景图像。