CN109509192B

CN109509192B - 融合多尺度特征空间与语义空间的语义分割网络

Info

Publication number: CN109509192B
Application number: CN201811216130.3A
Authority: CN
Inventors: 朱海龙; 庞彦伟
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2023-05-30
Anticipated expiration: 2038-10-18
Also published as: CN109509192A

Abstract

本发明涉及一种融合多尺度特征空间与语义空间的语义分割网络，包括：确定网络编码端的主干网络：VGG16作为编码端网络的主干部分，去掉第五个池化层，减少一次下采样；设计网络解码端的特征空间与语义空间的融合模块；利用多尺度特征空间与语义空间的融合模块进行高分辨率高精度语义分割；输出语义分割结果。

Description

融合多尺度特征空间与语义空间的语义分割网络

技术领域

本发明属于计算机视觉、模式识别、深度学习和人工智能等领域中的场景理解技术，具体而言，特别是涉及在图像或视频中使用深度卷积神经网络对场景进行像素级语义分割的技术。

背景技术

如图1所示，现有的深度卷积神经网络主干部分为了增大深层网络的感受野和减小计算量，通常经过5次1/2倍下采样到输入图像的1/32倍。经过多次下采样之后，小物体和物体的细节部分的特征(比如边缘部分)逐渐被周围的像素区域融合，小物体特征的区分性不断下降。现有的代表性的基于深度神经网络的语义分割方法，比如FCN[1]，在网络最后的预测阶段直接从很小的分辨率放大到原图的尺寸，比如从原图的1/32放大32倍到原图的尺寸。预测阶段过小的分辨率导致小物体和细长的物体部分的特征与周围像素混淆，分类不准，同时在恢复到原图尺寸时在边缘部分出现成片的误分类像素区域。虽然后来改进的工作尝试从网络不同尺度的层进行预测，最后融合不同尺度的预测并放大到原图尺寸。由于网络不同的层的语义级别差异较大，较前的层分类准确度较低，简单的融合多尺度预测带来的提升有限。为了提高预测端特征图的尺度和语义级别，一些编解码结构的网络，比如SegNet[2]和U-net[3]，解码部分采用反卷积网络进行特征图上采样的操作，通过将编码网络部分的多尺度特征直接与解码端对应尺度的特征融合不断提升解码端特征的尺度，同时维持高级语义，获得了更加精细准确的分割结果，增加的计算量取决于解码部分网络的复杂度。另外一些网络在编码部分直接采用膨胀卷积来保持特征图分辨率，比如DeepLab[4]，在维持网络的感受野不断变大的情况下，保持特征图的尺度最小到原图的1/8，带来了一定的提升，但是计算量也同时增加了。为了进一步改善小物体和物体细节部分的分割准确率，一些工作尝试在解码端进行多尺度的渐进式改善工作。在Refinenet[5]中，作者提出了一种refine模块，能够用来改善解码端特征的多尺度融合并提升解码端特征图分辨率，最终在较大尺度的特征图上做像素级的分类，取得了较大的提升。在GCN[6]中，作者采用较大的卷积核以便物体的特征能够被网络相应层级的感受野完整的覆盖，用来改善物体的分类准确度，同时增加边缘修正模块来改善大卷积核带来的边缘语义模糊问题，通过多尺度不断改善预测图的分辨率，取得不错的效果。

但是，现有的大多数工作都只是将图像语义分割当作图像逐像素分类的任务，没有考虑到语义分割对图像中物体的结构性要求和图像中各类像素区域的结构性特征，特别是同类连续像素区域的结构性和相邻不同类像素区域的差异性，导致出现成片的像素区域分类错误和物体边缘分类的模糊性。

参考文献：

[1]Long,J.,Shelhamer,E.,&Darrell,T.(2015).Fully convolutionalnetworks for semantic segmentation.In IEEE Conference on computer vision andpattern recognition(CVPR),3431-3440.

[2]Badrinarayanan,V.,Kendall,A.,&Cipolla,R.(2017).Segnet:A deepconvolutional encoder-decoder architecture for image segmentation.IEEEtransactions on pattern analysis and machine intelligence,39(12),2481-2495.

[3]Ronneberger,O.,Fischer,P.,&Brox,T.(2015).U-Net:ConvolutionalNetworks for Biomedical Image Segmentation.medical image computing andcomputer assisted intervention,234-241.

[4]Chen,L.C.,Papandreou,G.,Kokkinos,I.,Murphy,K.,&Yuille,A.L.(2018).Deeplab:Semantic image segmentation with deep convolutional nets,atrousconvolution,and fully connected crfs.IEEE transactions on pattern analysisand machine intelligence,40(4),834-848.

[5]Lin,G.,Milan,A.,Shen,C.,&Reid,I.(2017,July).Refinenet:Multi-pathrefinement networks for high-resolution semantic segmentation.In IEEEConference on computer vision and pattern recognition.

[6]Peng,C.,Zhang,X.,Yu,G.,Luo,G.,&Sun,J.(2017).Large Kernel Matters--Improve Semantic Segmentation by Global Convolutional Network.arXiv preprintarXiv:1703.02719.

发明内容

本发明的目的是为了克服现有基于逐像素分类语义分割方法未考虑同类连续像素区域的结构性和不同类相邻像素区域的结构差异性的问题，同时为了改善对小物体和物体细节部分的语义分割，提出融合多尺度特征空间与语义空间的语义分割网络。技术方案如下：

一种融合多尺度特征空间与语义空间的语义分割网络，包括：

(1)确定网络编码端的主干网络：VGG16作为编码端网络的主干部分，去掉第五个池化层，减少一次下采样；

(2)设计网络解码端的特征空间与语义空间的融合模块：针对解码端的某一尺度，融合模块将三条支路的输出串联起来，第一条支路是主干网络支路，融合之前网络的最后一层经过1x1卷积做通道间融合和通道方向的降维，再经过一次倍数为2的上采样；第二条支路为跳连接支路，即使用一个或几个卷积层，对编码端相对于当前主干网络最后一层高一个尺度的特征图进行特征融合和通道方向的降维；第三条支路为各类别像素区域的结构化语义生成支路，即对主干网络当前尺度的特征采用1x1卷积做类别预测，得到与数据库标签类别数相同的预测得分图，这一支由真实语义分割标签进行类别独立的监督，监督使用sigmoid交叉熵损失函数，减少多类类间竞争，获得属于各类的二分类预测图，将每一类别区域作为一个整体处理以加强各类的结构化信息，增强同类像素区域的紧凑性，融合之前需要先将预测得分使用sigmoid函数激活后再进行倍数为2的上采样；三部分相连之后使用一个3x3卷积层来融合三部分信息，紧接着使用一个3x3卷积进行降维；

(3)利用多尺度特征空间与语义空间的融合模块进行高分辨率高精度语义分割：在网络的解码端的多个尺度使用特征空间与语义空间的融合模块，通过引入高分辨率编码端更加准确的定位信息，同时利用特征和预测标签之间的相互促进作用，不断地对解码端特征和预测进行改进，直到获得较高分辨率的特征，并利用softmax交叉熵损失作为最后生成的预测的监督，在较小尺度的类别独立的监督强调类内的一致性，在较大尺度的多类竞争的监督加强类间的区分性，从而得到高分辨率高精度的语义分割预测结果；

(4)输出语义分割结果：给定输入图像，经过编码端网络的特征提取，解码端多尺度特征空间与语义空间的融合，得到高分辨率的预测图，预测图经过上采样到与图像一致的尺度，进而得到输入图像的像素级语义分割图。

附图说明

图1表示语义分割常用网络结构

图2表示融合多尺度特征空间与语义空间的语义分割网络架构

图3表示所提方法与FCN实验结果的对比示例

图4表示基于VGG16的融合多尺度特征空间与语义空间的语义分割网络的一个实施案例

具体实施方式

为了改善小物体，物体细节部分和边缘附近像素的语义分割性能，本发明提出了一种融合多尺度特征空间和语义空间的语义分割网络，基于这个网络实现端到端的高性能语义分割系统，由于网络采用全卷积的形式，允许输入图像为任意尺度，只需要在边缘经过适当的补充使得图像的长宽能够被网络最大的下采样倍数整除即可。其中，多尺度特征空间是指网络特征提取部分经过多层卷积和下采样产生的多尺度特征图，多尺度语义空间是指对网络的多个尺度进行监督得到的预测图。网络的主体架构如图2所示。我们所提出的网络主要由编码端和解码端两部分构成。编码端网络实现图像的多级多尺度特征提取。解码端部分用于融合多尺度特征空间和语义空间，以实现对图像的语义分割从粗糙的小尺度到精细的大尺度的不断改善，多尺度特征的不断融合能够改善用于预测的特征图的分辨率同时保持物体细节部分的信息，多尺度语义空间和特征空间的不断融合能够加强同类像素区域的结构紧凑性和不同类像素区域的区分性。其中编码端的网络包含多层卷积和下采样或池化操作，与大多数用于图像分类的网络全连接层之前的部分相似。解码端部分是本技术方案的核心部分，包含多次卷积，上采样或反卷积层以及多个尺度的融合层。在我们的融合层的操作中，融合的信息来源于三个部分：

●主干网络，即融合之前网络的最后一层产生的特征图，融合之前需要进行上采样。

●跳连接，即使用一个或几个卷积层，对编码端相对于当前主干网络最后一层高一个尺度的特征图进行一定的特征融合。

●各类别像素区域的结构化语义图，即对多个尺度特征采用真实语义分割标签进行类别独立的监督，监督使用sigmoid交叉熵损失函数，减少多类类间竞争，获得属于各类的二分类预测图，以加强各类的结构化信息，增强同类像素区域的紧凑性，融合之前需要进行上采样。

在网络经过多个尺度的特征空间与语义空间的融合之后，对最后用于预测的特征图采用多类softmax交叉熵损失函数进行监督，提供多类类间竞争，加强不同类像素区域的区分性。对softmax的输出在每个位置取所有类的最大值即得到最后的语义分割图。

采用本发明所述方法，通过融合多尺度特征空间与语义空间，能够减少小物体和物体细节部分在编码网络前向传播过程中被周围像素混淆的情况，同时能够改善边缘附近像素被成片分错的情况，使得同类像素区域更加紧凑，不同类像素区域区分性更强。相对于Refinenet和GCN方法而言，融合多尺度特征空间与语义空间的语义分割网络，能够同时利用多尺度特征空间的融合改善用于预测端特征图的分辨率和多尺度语义空间的融合改善不同类像素区域的结构化预测和类间区分性。图3展示了我们的方法与FCN的结果的一个对比，图中左边一列是原图，中间一列是FCN的结果，最后一列是我们所提方法的结果，明显看出我们所提的方法在小物体，物体细节部分以及边缘附近像素区域的优势。

本发明的融合多尺度特征空间与语义空间的语义分割网络，可以根据设备的限制调整网络的大小和超参数，以满足性能和效率的平衡。为了证明我们所提出的网络的有效性，我们根据所提技术方案，实现了一个语义分割网络，并在PASCAL VOC2012数据集上进行实验，试验结果表明我们所提出的融合多尺度特征空间与语义空间的语义分割网络能够提升小物体，物体细节部分和边缘附近像素区域语义分割的准确率以及同类像素区域的紧凑性和相邻不同类像素区域的区分性。如图4所示，我们所构造的语义分割网络的具体实施方式如下：

第一步，我们以VGG16作为编码端网络的主干部分，去掉第五个池化层，减少一次下采样。

第二步，网络解码端的特征空间与语义空间的融合模块。针对解码端的某一尺度，融合模块将三条支路的输出串联起来。第一条支路是主干网络支路，融合之前网络的最后一层经过1x1卷积做通道间融合和通道方向的降维，再经过一次倍数为2的上采样。第二条支路为跳连接支路，即使用一个或几个卷积层，对编码端相对于当前主干网络最后一层高一个尺度的特征图进行特征融合和通道方向的降维。第三条支路为各类别像素区域的结构化语义生成支路，即对主干网络当前尺度的特征采用1x1卷积做类别预测，得到与数据库标签类别数相同(Pascal为20类目标加一类背景共21类标签)的预测得分图，这一支由真实语义分割标签进行类别独立的监督，监督使用sigmoid交叉熵损失函数，减少多类类间竞争，获得属于各类的二分类预测图，将每一类别区域作为一个整体处理以加强各类的结构化信息，增强同类像素区域的紧凑性，融合之前需要先将预测得分使用sigmoid函数激活后再进行倍数为2的上采样。三部分相连之后使用一个3x3卷积层来融合三部分信息，紧接着使用一个3x3卷积进行降维。

第三步，利用多尺度特征空间与语义空间的融合模块进行高分辨率高精度语义分割。在网络的解码端的多个尺度使用特征空间与语义空间的融合模块，通过引入高分辨率编码端更加准确的定位信息，同时利用特征和预测标签之间的相互促进作用，不断地对解码端特征和预测进行改进，直到获得较高分辨率的特征，从而得到高分辨率的语义分割预测结果。利用多尺度融合模块直到输出特征图尺寸足够大，这里我们将最后的特征图尺寸定为原图的1/4.

第四步，网络主体构建完成之后为了更好的训练网络，需要选取恰当的损失函数进行监督和训练。我们对于每个融合部分结构化语义预测的监督采用sigmoid交叉熵损失，在提供各类独立的结构预测的同时减少类间竞争，类别独立的监督更加强调类内的一致性。在最后的语义分割预测部分采用softmax交叉熵损失，引入类间竞争，加强类间的区分性，以便得到高分辨率高精度的多分类语义分割图。

第五步，配置训练数据(由Pascal VOC 2012语义分割数据集提供)和训练超参数。网络的训练中我们设置基础学习率为0.0001，每20个循环降为原来的1/10，总循环数为40，batch大小为5，参数正则化权重为1e-5。所有训练均在单卡GTX TITAN X GPU上进行。

第六步，在网络的测试过程不需要训练过程中的监督和损失计算项，可以去掉，简化网络模型用于部署。

本发明的方法与FCN在PascalVOC 2012数据集上的综合性能对比如表1所示，其中32s，16s，8s，4s表示网络最后输出的预测图相对于原图的尺度，4s表示为原图的1/4尺度，其它的可以以此类推，PixelAcc.表示不考虑类别，总体的像素分类的准确率，mIOU表示各类别交并比的平均值，mIOU更能反应语义分割的性能：

表1 Pascal VOC 2012数据集实验对比

Network	PixelAcc.	mIoU
			FCN 32s	90.5	63.6
FCN 16s	91	65
			FCN 8s	91.1	65.4
所提方法16s	91.8	68.2
			所提方法8s	92.6	69.8
所提方法4s	93.2	71.3

Claims

1.一种融合多尺度特征空间与语义空间的语义分割网络，包括：

(3)利用多尺度特征空间与语义空间的融合模块进行高分辨率高精度语义分割：在网络的解码端的多个尺度使用特征空间与语义空间的融合模块，通过引入高分辨率编码端的定位信息，同时利用特征和预测标签之间的关系，获得高分辨率的特征，并利用softmax交叉熵损失作为最后生成的预测的监督，在类别独立的监督强调类内的一致性，在多类竞争的监督加强类间的区分性，从而得到高分辨率高精度的语义分割预测结果；