CN109325534B

CN109325534B - 一种基于双向多尺度金字塔的语义分割方法

Info

Publication number: CN109325534B
Application number: CN201811111230.XA
Authority: CN
Inventors: 庞彦伟; 李亚钊
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-09-22
Filing date: 2018-09-22
Publication date: 2020-03-17
Anticipated expiration: 2038-09-22
Also published as: CN109325534A

Abstract

本发明涉及一种基于双向多尺度金字塔的语义分割方法，包含：收集训练图像；设计基于双向多尺度金字塔的深度卷积神经网络结构以适用于语义分割；设计该网络的主干子网络，用以提取图像的基础特征；设计自下而上的多尺度金字塔模块；设计自上而下的多尺度金字塔模块；将自下而上的多尺度金字塔提取的特征与自上而下的多尺度金字塔提取的特征进行融合；基于融合的特征，卷积得到最终的分割结果。输入数据进行训练；将训练好的模型应用于实际任务中，通过训练好的模型，前向计算预测并输出分割的结果，并辅助实际场景中的决策。

Description

一种基于双向多尺度金字塔的语义分割方法

技术领域

本发明涉及计算机视觉领域中高性能的语义分割方法，特别是涉及采用深度学习方法进行语义分割的方法。

背景技术

作为人工智能中的关键任务，语义分割成为研究的热点。在语义分割任务中，由摄像机所拍摄的周围场景图片中的每一个像素将会通过算法被预测为一个特定的类别，如将该位置判断为车、或人、或道路等类别中的某一类。由于语义分割是对周围视觉场景的一种深度理解，其在场景解析、人机交互、视频监控以及辅助驾驶中有广泛的应用。随着自动驾驶的兴起，通过语义分割实现对场景中的各个物体以及周围环境的感知成为自动驾驶解决方案中的重要一环。因此，提升语义分割的精度至关重要。

以自动驾驶系统为例，如图1所示，在语义分割任务中，首先通过车载相机捕获现实场景中的视频/图像；进一步地，将相机捕获的视频/图像输入到语义分割算法中；通过语义分割算法的运行，输出分割结果图，代表每个像素点所对应的物体的类别；经过决策层，根据所得到的物体信息进行自动驾驶的决策，实现安全的自动驾驶。由于语义分割的结果直接影响到自动驾驶中的行驶决策，因此提升语义分割的精度，能够有效保证自动驾驶的安全性，进一步推动自动驾驶技术的发展。

现有的较优的语义分割算法是基于深度卷积神经网络的语义分割方法。其中，基于膨胀卷积的空间金字塔网络在语义分割中取得了显著效果。Chen等人提出的DeepLab方法[1]中，为保持图像分辨率，同时提升感受野，引入了膨胀卷积构建深度神经网络，以提升语义分割的精度。为进一步提取更加丰富的语义信息，Chen等人[2][3]进一步深化膨胀卷积，设计了一种空洞空间金字塔池化(以下称：空洞金字塔)的模块，通过在同一层中采用不同膨胀率的膨胀卷积，实现丰富语义信息的提取和融合，进一步提升了语义分割的性能，也成为当前一种主流的语义分割方法。Zhao等人[4]提出了一种金字塔场景解析网络，通过在网络最后层引入一种空间池化金字塔模块来增强对场景语义信息的提取。然而，这些方法中，空洞金字塔只用在网络的最后一层上，而忽略了多尺度信息的提取，也忽略了浅层特征对于信息融合和增强的作用。因此，上述的基于空洞金字塔的可以归结为单尺度金字塔方法，如图2所示。

针对单尺度金字塔方法无法有效融合多尺度的特征信息，无法有效提取多尺度的语义信息的缺点，本发明提出一种新型的双向多尺度金字塔语义分割方法。通过在传统的语义分割网络基础上，构建一种自上而下的金字塔和一种自下而上的金字塔，实现多尺度特征的融合，能够有效提取多尺度的语义信息，进而提升语义分割的性能。本发明所提出的语义分割方法可用于上述的相关领域中实现高精度的语义分割和场景理解。

参考文献：

[1]L.-C.Chen,G.Papandreou,I.Kokkinos,et al.Semantic ImageSegmentation with Deep Convolutional Nets and Fully Connected CRFs.arXiv:1412.7062,2014.

[2]L.-C.Chen,G.Papandreou,I.Kokkinos,K.Murphy,and A.L.Yuille.Deeplab:Semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected crfs.TPAMI,2017.

[3]L.-C.Chen,G.Papandreou,F.Schroff,and H.Adam.Rethinking atrousconvolution for semantic image segmentation.arXiv:1706.05587,2017.

[4]H.Zhao,J.Shi,X.Qi,X.Wang,and J.Jia.Pyramid scene parsingnetwork.arXiv:1612.01105,2016.

发明内容

本发明的目的是克服现有的基于深度卷积神经网络的语义分割算法精度较低的问题，提出了一种基于双向多尺度金字塔的语义分割方法，以有效实现多尺度的特征融合和语义信息的提取，能够有效提升语义分割的精度，进一步促进语义分割的实际应用。技术方案如下：

一种基于双向多尺度金字塔的语义分割方法，包含下列步骤：

(1)收集训练图像；确定方法应用场景，收集该场景下的相关图像；对收集的图像进行标注，标注每个像素点的类别，并以其作为训练图像的标签；将训练图像划分为训练集和验证集；训练集用于训练不同的模型，验证集用于选择最佳的训练模型；

(1)设计基于双向多尺度金字塔的深度卷积神经网络结构以适用于语义分割；

1)设计该网络的主干子网络，用以提取图像的基础特征，主干子网络包括卷积层、池化层、归一化层、非线性激活层深度卷积神经网络模块，采用5个卷积块，为保持分割的分辨率，在卷积块4和卷积块5之前未采用池化层，为了避免减少池化层造成的感受野下降问题，在卷积块4和卷积块5中，采用空洞卷积代替传统的池化卷积，能够有效提升感受野；

2)设计自下而上的多尺度金字塔模块，由于卷积块3、4、5三个卷积块的特征图有相同的分辨率，为提取多尺度的特征，进而实现自下而上的多尺度金字塔模块，将卷积块3输出的特征图进行下采样2倍，并经过空洞金字塔模块提升语义层级，进而与卷积块4输出的特征图进行融合，进一步，将融合后的特征经过另一个空洞金字塔模块提升特征语义层级；再将融合的特征上采样2倍，与卷积块5提取的特征上采样2倍后的特征进行融合，再经过另一个空洞金字塔模块得到最后的融合特征；

3)设计自上而下的多尺度金字塔模块，为充分利用不同特征层级的特征信息，将卷积块5输出的特征图进行下采样2倍，并经过空洞金字塔模块的特征提取，进而与卷积块4输出的特征图进行融合；进一步，将融合后的特征经过另一个空洞金字塔模块提升特征语义层级；再将融合的特征上采样2倍，与卷积块3提取的特征上采样2倍后的特征进行融合，再经过另一个空洞金字塔模块得到最后的融合特征；

4)将自下而上的多尺度金字塔提取的特征与自上而下的多尺度金字塔提取的特征进行融合；基于融合的特征，卷积得到最终的分割结果。

(3)输入数据进行训练；通过前向计算预测分割结果，并与对应标签求取损失代价，通过反向传播算法计算参数的梯度并更新参数；迭代训练直至代价函数收敛；

(4)将训练好的模型应用于实际任务中，通过训练好的模型，前向计算预测并输出分割的结果，并辅助实际场景中的决策。

本发明通过设计一种新型的双向多尺度金字塔网络，能够有效的融合多尺度的特征，同时有效提取多尺度的语义信息，以提升语义分割的精度。将该方法应用于实际任务中，能够实现高效的场景感知，进一步促进其在智能监控、辅助驾驶以及自动驾驶等诸多领域的应用。

附图说明

图1中描述了本发明在自动驾驶中实现语义分割的应用示例。

图2中描述了传统的深度卷积神经网络应用于物体检测的方法示例。

图3描述了本发明提出的基于双向多尺度金字塔的深度卷积神经网络应用于语义分割的示例。

具体实施方式

下面结合附图对本发明作进一步的描述。

图2描述了传统的单尺度金字塔的深度卷积神经网络应用于语义分割的示例。具体地，该类方法中的只采用了一个空洞金字塔模块作用于最终尺度的特征上，因而无法有效的利用浅层的特征信息，限制了语义分割的性能。

图3描述了本发明所提出的双向多尺度金字塔网络应用于语义分割的示例。具体地，该网络包含三个主要分支：主干子网络，自下而上金字塔和自上而下金字塔。其中主干网络主要用于提取层次的特征，自下而上金字塔分支实现多尺度特征自下而上的融合，自上而下金字塔分支实现多尺度特征自上而下的融合。最终将双向金字塔融合的特征结果进一步融合，并预测得到最终的分割结果。通过双向金字塔的作用，多尺度的特征得以有效融合，进而提取多尺度的上下文信息以得到更精确的分割结果。

具体地，本发明的具体实施方式包含以下几个步骤：

第一步：准备训练所用数据集

(1)准备标注好的图像。所准备的图像应能包含所应用的实际场景，每张图像应包括所感兴趣的多类物体。由于基于深度神经网络的语义分割方法是一种有监督的学习方法，因此需要对所准备的图像进行标注。具体地，应对感兴趣的物体种类进行编号，并对一张图像中的每一个像素进行类别的标注。

(2)处理数据集。将所准备的数据集划分为训练数据集、验证数据集。训练数据集用于训练模型，验证数据集用于验证并挑选设计的哪种结构为最优。

(3)增强数据。为提升模型的检测精度，应对数据进行增强。增强的方式包括但不限于：随机翻转，随机裁剪，图像缩放，加入随机噪声等。

第二步：设计基于双向多尺度金字塔的深度卷积神经网络结构以适用于语义分割。

(1)设计该网络的主干子网络。主干子网络由卷积层、池化层、归一化层、非线性激活层等常用的深度卷积神经网络模块组成。以图3为例，主干子网络包括卷积块1-5。为保持分割的分辨率，在卷积块4和卷积块5之前未采用池化层。同时，为了避免减少池化层造成的感受野下降问题，在卷积块4和卷积块5中，采用空洞卷积代替传统的池化卷积，能够有效提升感受野。在语义分割中，经常采用ImageNet预训练的网络参数以初始化检测的主干网络，主干网络可以选取ResNet，DenseNet等经过预训练的网络模型用于初始化当前网络参数，用以提取图像的基础特征。

(2)设计自下而上的多尺度金字塔模块。由于卷积块3、4、5三个卷积块的特征图有相同的分辨率，为提取多尺度的特征，进而实现自下而上的多尺度金字塔模块，将卷积块3输出的特征图进行下采样2倍，并经过空洞金字塔模块提升语义层级，进而与卷积块4输出的特征图进行融合。进一步，将融合后的特征经过另一个空洞金字塔模块提升特征语义层级。再将融合的特征上采样2倍，与卷积块5提取的特征上采样2倍后的特征进行融合，再经过另一个空洞金字塔模块得到最后的融合特征。设计自下而上的多尺度金字塔模块，应包含但不限于上述示例模块，具体设计应包括融合的尺度层次，空洞金字塔模块结构配置，上下采样所采用的方法等。经过自下而上的多尺度金字塔特征融合，能够有效的增强最终的预测特征。

(3)设计自上而下的多尺度金字塔模块。传统的单尺度金字塔的语义分割网络只利用深层特征用于预测结果，忽略了浅层特征的细节信息(浅层特征主要包含物体的细节信息，深层特征为更加抽象的语义信息)，而造成分割结果不佳。为充分利用不同特征层级的特征信息，将卷积块5输出的特征图进行下采样2倍，并经过空洞金字塔模块的特征提取，进而与卷积块4输出的特征图进行融合。进一步，将融合后的特征经过另一个空洞金字塔模块提升特征语义层级。再将融合的特征上采样2倍，与卷积块3提取的特征上采样2倍后的特征进行融合，再经过另一个空洞金字塔模块得到最后的融合特征。设计自上而下的多尺度金字塔模块，应包含但不限于上述示例模块，具体设计应包括融合的尺度层次，空洞金字塔模块结构，上下采样所采用的方法等。经过自上而下的多尺度金字塔模块，融合浅层特征的细节信息和深层特征的语义信息，增强特征的表达能力，进而提升分割性能。

(4)将自下而上的多尺度金字塔提取的特征与自上而下的多尺度金字塔提取的特征进行融合。基于融合的特征，卷积得到最终的分割结果。

(5)设计网络训练过程中所需要的损失代价函数，语义分割中常用的代价函数为Softmax交叉熵损失。

(6)初始化网络参数。参数包括卷积层的滤波器参数，归一化层的参数，以及需要手工设定如损失权重、学习率、权重衰减系数等参数。主干网络通常由预训练的权重进行初始化，其他分支中的参数则采用Gaussian、Xavier等方法对其进行随机初始化。

第三步：训练本发明的双向多尺度金字塔网络用语语义分割。

(1)前向计算：(结合图3说明)

a)将训练图像输入网络中，通过主干子网络的各层计算，得到主干网络各卷积块的输出特征。C_i表示第i个卷积块的特征图。

b)计算自下而上的金字塔的融合特征图DT5.具体地，通过C₃计算DT3，将DT3与C₄融合，并计算得到DT4。将DT4与C₅特征进行融合，并计算得到DT5。

c)计算自上而下的金字塔的融合特征图TD3。具体地，通过C₅计算TD5，将TD5与C₄融合，并计算得到TD4。将TD4与C₃特征进行融合，并计算得到TD3。

d)融合TD3与DT5特征，并计算分割结果。

e)根据分割结果，根据分割损失SoftmaxLoss函数，计算分割损失L。

(2)反向传播：

通过反向传播算法，计算每一层待学习参数的梯度，采用批量随机梯度下降法更新参数。

(3)迭代训练：

迭代的进行上述的(1)前向传播和(2)反向传播过程，不断的更新参数。停止标准可以选择损失函数的损失值趋近于收敛(在一个稳定值附近波动，无明显变化)停止迭代信号。

第四步：将上述训练得到的本发明的双向多尺度金字塔网络应用于实际语义分割中。

(1)获取实际应用中采集的相关场景图像。

(2)将输入图像输入已经训练好的模型中得到实际预测结果。

a)将训练图像输入网络中，根据第三步中的a)～d)计算，得到最终的分割结果。

b)分割结果作为对周围场景的感知，及时准确发现周围存在的安全隐患，进一步辅助实际应用中的智能决策。

Claims

1.一种基于双向多尺度金字塔的语义分割方法，包含下列步骤：

(2)设计基于双向多尺度金字塔的深度卷积神经网络结构以适用于语义分割；

4)将自下而上的多尺度金字塔提取的特征与自上而下的多尺度金字塔提取的特征进行融合；基于融合的特征，卷积得到最终的分割结果；