CN109598269A

CN109598269A - 一种基于多分辨率输入与金字塔膨胀卷积的语义分割方法

Info

Publication number: CN109598269A
Application number: CN201811353131.2A
Authority: CN
Inventors: 庞彦伟; 路文超
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2019-04-09

Abstract

本发明涉及一种基于多分辨率输入与金字塔膨胀卷积的语义分割方法，包括下列步骤：确定基础双支路网络架构，用于从不同分辨率的输入图像中提取不同尺度的特征：该基础双支路网络架构的两个支路的输入图像分辨率不同，均由多个卷积模块和降采样模块组成，卷积模块包含多个卷积层，用于提取特征；降采样模块由池化层组成；输入低分辨率图像的支路的卷积层较多，用于提取特征并进行分类，输出粗糙的预测结果；输入高分辨率图像的支路的卷积层较少，用于优化预测结果的空间位置信息，提升分割结果的像素精度。设计金字塔膨胀卷积模块，用于提取不同尺度的特征；设计两条支路特征融合模块。

Description

一种基于多分辨率输入与金字塔膨胀卷积的语义分割方法

技术领域

本发明涉及计算机视觉、语义分割、深度学习领域，特别涉及一种基于多分辨率输入与金字塔膨胀卷积的语义分割方法。

背景技术

语义分割是图像理解中的重要技术手段，是计算机视觉中的一项重要研究内容。图像是由很多像素组成的，语义分割就是将图像中的所有像素按照其表达的语义含义进行不同的分类分组，也就是像素级分类。相比于目标识别和物体检测，语义分割可以实现对图像更加细致的理解。鉴于语义分割的稠密预测性，语义分割在很多实际应用领域中都有着巨大的作用，比如自动驾驶系统中的路面场景理解，无人机系统中的着陆点判断以及可穿戴设备中的图像理解等。

自深度学习发展以来，基于深度学习的图像算法层出不穷。Long等人提出了全卷积神经网络(FCN)，为将卷积神经网络应用到语义分割领域中打下了基础。FCN提出后，广大研究学者均在此基础上不断改进，发展出一系列基于深度学习的语义分割算法。Badrinarayana等人提出了SegNet，采用对称的编码-解码架构，完善了语义分割中常用的编解码架构；Chen等人提出了DeepLab，利用空洞空间金字塔池化增大卷积核感受野，聚合不同区域的上下文信息，并在网络末端加入全连接条件随机场用于锐化分割结果。Lin等人提出了RefineNet，利用长距离残差连接对不同尺度的特征进行融合，充分利用底层特征的边缘优势和高层特征的语义优势，实现用低层空间信息优化高层语义信息，进而提升网络分割精度。这些语义分割算法在分割精度方面有了较大的进步，但这些算法在分割效率方面依然比较低，而且这些算法对不同尺度目标的分割精度比较差。

输入分辨率是影响网络分割效率的一个重要因素。将输入图像压缩作为网络输入可以大大提高网络的分割效率，但会损失大量的空间细节信息，使网络的分割像素精度降低。用高分辨率图像作为网络输入可以保留所有的空间细节信息，但会大大降低网络的分割效率。同时，固定的卷积层和池化层会使各卷积层的感受野单一，关注的区域单一，这会限制网络对不同尺度目标的分割精度，使网络不能精确地分割不同尺度的目标。

发明内容

针对上述输入分辨率对网络的效率限制问题和固定感受野对网络处理不同尺度目标的精度限制问题，本发明提供一种基于多分辨率输入与金字塔膨胀卷积的语义分割方法。本发吗设计一种基于多分辨率输入的语义分割网络结构，充分利用低分辨率图像处理效率高，高分辨率图像空间细节信息保存好的优点，在保持网络分割精度的同时提升网络分割效率并设计一种金字塔膨胀卷积模块。该模块融合多个不同膨胀率的卷积用于提取不同尺寸区域内的特征，提升网络对不同尺度目标的分割精度。技术方案如下：

第一步：确定基础双支路网络架构，用于从不同分辨率的输入图像中提取不同尺度的特征：该基础双支路网络架构的两个支路的输入图像分辨率不同，均由多个卷积模块和降采样模块组成，卷积模块包含多个卷积层，用于提取特征；降采样模块由池化层组成；输入低分辨率图像的支路的卷积层较多，用于提取特征并进行分类，输出粗糙的预测结果；输入高分辨率图像的支路的卷积层较少，用于优化预测结果的空间位置信息，提升分割结果的像素精度。

第二步：设计金字塔膨胀卷积模块，用于提取不同尺度的特征：利用4个不同膨胀率的卷积核的不同感受野提取不同尺寸区域的特征，然后通过级联操作，融合这4个不同尺寸区域内的特征，从而让网络能提取到多尺度的特征，提升网络对不同尺度目标的分割效果。

第三步：设计两条支路特征融合模块，用于融合低分辨率图像支路提取的特征和高分辨率图像支路提取的特征。高分辨率图像支路得到原始图像1/8大小的特征图，低分辨率图像支路得到原始图像1/16大小的特征图。对低分辨率图像支路的特征图用去卷积操作做上采样，使其分辨率与高分辨率图像支路的特征图大小一致，并通过1×1的卷积将其两支路通道数设为一致。最后将两支路的特征图进行逐通道加和，完成不同支路特征的融合。

第四步：确定网络训练、测试所用的数据集，输入训练、测试图像，输出网络的分割结果。利用原始分辨率的标签进行训练，利用1/4分辨率的标签进行辅助训练，选定一张图像，将其输入网络高分辨率支路；将输入图像压缩为1/2分辨率后输入网络的低分辨率支路，利用两支路提取语义信息和空间位置信息，完成分割。

相比于当前其它的语义分割算法而言，采用本发明提出的基于多分辨率输入的语义分割网络结构可以充分利用低分辨率图像处理效率高的优点和高分辨率图像空间细节信息保存好的优点，让网络在保持较高分割精度的同时，提升网络的分割效率。同时本发明提出的金字塔膨胀卷积模块可以提取不同尺寸区域内的特征并将这些特征进行融合，这能使网络对不同尺度目标的分割精度大大提升，进而提升网络的总体分割精度。

附图说明

图1网络结构

图2金字塔膨胀卷积模块

具体实施方式

通常情况下影响网络分割效率的一个重要因素就是特征图分辨率，据此广大研究学者提出了几种提升网络效率的方法：对输入图像做降采样，对特征图做降采样，对网络模型进行压缩。对输入图像做降采样主要是指对输入图像进行压缩，将其压缩到原来的1/4或1/2大小之后再将其输入到网络结构中；对特征图做降采样主要是指利用卷积或池化操作对特征图进行降采样，不断压缩特征图的分辨率，通常按照1:8、1:16或1:32的比例进行压缩；对网络模型进行压缩主要是指减少网络每一层中滤波器的个数，首先对网络各层中的每个滤波器计算其权重的L1范数，然后按照降序排列这些L1范数，最后只保留一些比较重要(L1范数比较大)的滤波器。

本发明针对输入图像分辨率对网络分割效率的影响，设计了一种基于多分辨率输入的语义分割网络结构，如图1所示。该结构可以结合低分辨率图像处理效率高和高分辨率图像空间细节信息保留好的优点，实现精确高效的语义分割。如图1所示，本发明所提的网络结构分为两个支路，一个支路输入原始分辨率的高分辨率图像，一个支路输入压缩到1/2分辨率的低分辨率图像。两个支路都由多个卷积模块和降采样模块组成。卷积模块包含多个卷积层，用于提取特征；降采样模块由池化层组成，用于降低特征图分辨率。低分辨率图像支路的卷积模块较多(14个)，主要用于提取特征并进行分类，输出粗糙的预测结果。高分辨率图像支路的卷积模块较少(仅3个)，主要用于优化预测结果的空间位置信息，提升分割的像素精度。高分辨率图像仅经过极少层的卷积，大大节省了网络的计算量，使得网络的分割效率比较高。另外，由于用了高分辨率图像支路的空间信息对低分辨率图像支路的预测结果进行优化，网络的分割精度大大提高。具体而言，首先用低分辨率图像作为输入进行分类预测，得到一个原始图像1/16大小的特征图。然后输入高分辨率图像，让其经过比低分辨率图像支路少一些的卷积层，得到一个原始图像1/16大小的特征图。对高分辨率图像支路得到的1/16大小的特征图做上采样并将其与低分辨率图像支路得到的1/8大小的特征图逐通道加和，进行两条支路特征间的融合，得到原始图像1/8大小的融合特征图。用去卷积操作对融合特征图做上采样，得到原始图像1/4大小的特征图，之后用双线性插值将特征图恢复到输入分辨率。为了加强学习过程，本发明额外采用了1/4大小的标签来进行辅助训练。最终本发明设计的语义分割网络可以达到精确高效的语义分割。

一般情况下影响网络对不同尺度目标分割精度的一个重要因素就是卷积核的感受野固定，能感受到的区域固定。为解决该问题，本发明提出了一种金字塔膨胀卷积模块，如图2所示，并将其加入到设计的语义分割网络结构中。该金字塔膨胀卷积模块采用4个不同膨胀率的卷积提取特征，之后对提取的特征进行融合。由于该模块4个卷积核的膨胀率不同，这4个卷积核的感受野也就不同。因为该模块4个卷积核感受到的区域大小不同，所以该模块可以提取到不同尺寸区域的特征并进行融合。利用本发明设计的金字塔膨胀卷积模块可以融合不同尺度的特征，进而解决网络对多尺度目标分割能力弱的问题。

利用本发明提出的基于多分辨输入的语义分割网络结构，并加入提出的金字塔膨胀卷积模块，可以解决当前语义分割算法计算效率低和对不同尺度目标分割精度低的问题，实现精确高效的语义分割。

本方法的具体实施步骤包括训练和测试过程。训练过程可以得到使网络损失函数值最小的网络参数。测试过程可以利用训练得到的网络对新的图像进行语义分割，并可以将其迁移到实际应用中。

训练过程：

步骤1：准备训练要用的语义分割数据集，本发明采用PASCAL VOC 2012数据集对网络进行训练。

步骤2：构建本发明提出的基于多分辨率输入的语义分割网络结构，并在其中加入金字塔膨胀卷积模块。

步骤3：前向传播。用在ImageNet数据集上预训练得到的网络参数对本发明所提网络的所有参数进行初始化。输入训练图像并对网络进行前向计算，得到像素级分类概率预测结果。

步骤4：反向传播。分析前向传播得到的预测结果和输入图像真实标签之间的差别，计算softmax平均交并比损失，并根据链式法则将损失进行反向传播，计算损失函数针对各卷积层参数的梯度。

步骤5：权重更新。采用随机梯度下降法(SGD)对权重进行更新，使得损失函数值逐渐减小。

步骤6：迭代训练。重复执行第3～5步，直至网络最终收敛或达到最大迭代次数。

测试过程：

步骤1：确定需要测试的图像，本发明采用PASCAL VOC 2012数据集的测试集和车载摄像头拍摄的图像进行测试。

步骤2：用训练好的网络对测试所用的图像进行处理。根据单张图像处理时间评价网络分割效率，根据网络预测结果和数据集真实标签之间的差异评价网络分割精度。

Claims

1.一种基于多分辨率输入与金字塔膨胀卷积的语义分割方法，包括下列步骤：

(1)确定基础双支路网络架构，用于从不同分辨率的输入图像中提取不同尺度的特征：该基础双支路网络架构的两个支路的输入图像分辨率不同，均由多个卷积模块和降采样模块组成，卷积模块包含多个卷积层，用于提取特征；降采样模块由池化层组成；输入低分辨率图像的支路的卷积层较多，用于提取特征并进行分类，输出粗糙的预测结果；输入高分辨率图像的支路的卷积层较少，用于优化预测结果的空间位置信息，提升分割结果的像素精度。

(2)设计金字塔膨胀卷积模块，用于提取不同尺度的特征：利用4个不同膨胀率的卷积核的不同感受野提取不同尺寸区域的特征，然后通过级联操作，融合这4个不同尺寸区域内的特征，从而让网络能提取到多尺度的特征，提升网络对不同尺度目标的分割效果；

(3)设计两条支路特征融合模块，用于融合低分辨率图像支路提取的特征和高分辨率图像支路提取的特征；高分辨率图像支路得到原始图像1/8大小的特征图，低分辨率图像支路得到原始图像1/16大小的特征图；对低分辨率图像支路的特征图用去卷积操作做上采样，使其分辨率与高分辨率图像支路的特征图大小一致，并通过1×1的卷积将其两支路通道数设为一致；最后将两支路的特征图进行逐通道加和，完成不同支路特征的融合；

(4)确定网络训练、测试所用的数据集，输入训练、测试图像，输出网络的分割结果；利用原始分辨率的标签进行训练，利用1/4分辨率的标签进行辅助训练，选定一张图像，将其输入网络高分辨率支路；将输入图像压缩为1/2分辨率后输入网络的低分辨率支路，利用两支路提取语义信息和空间位置信息，完成分割。