CN112381097A

CN112381097A - 一种基于深度学习的场景语义分割方法

Info

Publication number: CN112381097A
Application number: CN202011279994.7A
Authority: CN
Inventors: 赵成明; 陈金令; 李洁; 何东; 王熙
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-02-19

Abstract

本发明公开了一种基于深度学习的场景语义分割方法。该方法包括了训练阶段和测试阶段，在训练阶段，先使用Resnet101在COCO数据集上预训练得到预训练模型，再将预训练模型加载到构建的卷积神经网络中提取低水平特征图像，之后将低水平特征图像依次通过特征增强网络、自适应可变形空洞空间卷积池化金字塔网络和特征注意力网络进行高水平的特征提取和特征融合，最后通过上采样操作输出语义分割的Mask图，并获得卷积神经网络语义分割模型权重；在测试阶段，将PASCAL VOC 2012或者Cityscapes测试数据集输入到卷积神经网络语义分割模型权重中，得到预测的语义分割Mask图。本发明在上述方法中可以提高目标图像的边界轮廓精度和场景语义分割的准确度。

Description

一种基于深度学习的场景语义分割方法

技术领域

本发明涉及一种计算机视觉技术，涉及图像语义分割领域，特别是涉及一种基于深度学习的场景语义分割方法。

背景技术

Hinton等人在2006年提出了深度学习的基本概念，并逐步应用于计算机视觉领域，例如图像、声音和文本等领域，加快解决了计算机视觉领域复杂任务的步伐并提升了各类任务的准确度。

在图像分类任务中，通过随后几年的发展，提出像AlexNet、VGG、GoogLeNet、Resnet、Inception等一系列的经典网络，这些网络依旧活跃在现在的卷积神经网络中，例如Resnet、Inception会应用于图像分割、目标检测等任务中，以主干网络的方式提取图像的特征，方便应用于下游网络训练，一个好的主干网络也会影响整个任务的精度，因此有必要选择一个符合计算机视觉任务的主干网络。

在图像分割任务中，近几年时间里相继提出了比较经典的深度学习网络架构，例如FCN、Segnet、Unet、DeepLab系列等，这些网络的主要思想都是以一个编码-解码(encoder-decoder)的方式对目标类别进行语义分割。

语义分割是一个较为典型的计算机视觉问题，它涉及到将一些原始数据 (如图像)作为输入，并将图像自动的转换为指定突出显示的感兴趣区域的掩模。通常人们使用术语全像素语义分割(full-pixel semantic segmentation)，其中图像中的每一个像素会根据所属的感兴趣区域而被自动分配到一个类别ID，最终通过设置不同颜色的Mask图呈现出来，并且语义分割可以应用的领域包括自动驾驶、医疗影像分析、服装分类、地质检测-土地使用情况等多种方向，能够提高商业价值。

现有的研究方法能够实现对目标类别的图像分割，但也存在着一些不足点，这些不足点主要体现在目标轮廓不能细致划分和识别，因此，为了对目标场景进行准确的语义分割，需要考虑到不同场景类别会有不同的形变能力，怎样对这些具有多种形变能力的图像进行较好的建模塑造，就是提升深度学习网络对场景分割的精确度的关键。

发明内容

针对现有技术不足的情况，本发明的目的在于提供一种基于深度学习的场景语义分割方法，可以有效的提高目标轮廓的识别的精度。

本发明采用的技术方案为：一种基于深度学习的场景语义分割方法，包括主干网络、特征增强网络(FE)、自适应可变形空洞空间卷积池化金字塔网络 (ADASP)以及特征注意力网络(FAN)；

所述主干网络采用Resnet101在COCO数据集上预训练得到预训练模型，之后将预训练模型加载到主干网络中进行特征提取，得到低水平的特征图像，另外，此预训练模型包括了1个convolution层(conv1_x)、1个maxpool层、4个残差残差连接块，其中第一个残差连接块(conv2_x)包含有3个残差块，6个1 ×1的卷积层和3个3×3的卷积层，第二个残差连接块(conv3_x)包含有4个残差块，8个1×1的卷积层和4个3×3的卷积层，第三个残差连接块(conv4_x) 包含有23个残差块，46个1×1的卷积层和23个3×3的卷积层，第四个残差连接块(conv5_x)包含有3个残差块，6个1×1的卷积层和3个3×3的卷积层，最后通过平均池化层、全连接层以及softmax层输出预训练模型结果，每一个残差连接块都进行了残差连接，这样做的目的在于增强了上下文本信息，若将 Resnet101作为主干网络则去掉最后的平均池化层、全连接层以及softmax层；

所述特征增强网络能够对主干网络提取的低水平特征图像进行一定程度的细化增强，此特征增强网络包含了1个1×1的卷积层、1个3×3的自适应可变形卷积层和1个3×3的卷积层，每个卷积层串联，进一步增强了上下文本信息；

所述自适应可变形空洞空间卷积池化金字塔网络在ASPP的基础上增加了自适应可变形卷积，对特征增强后的特征图像进行自适应可变形的特征提取，然后将提取后的特征图像传送到拥有不同感受野的模块当中，且此模块含有不同空洞卷积率，以便进行多尺度的特征提取，确保融合了上下文本信息，最后通过一个1×1的卷积进行特征融合，并减少融合后的通道数，减小后面网络的计算复杂度，提高计算速度；

所述特征注意力网络是将Resnet101中低水平的特征图与经过ADASP 处理之后的高水平特征图进行逐步特征融合的过程。

为了能够进一步解决上诉的技术问题，本发明提供了一种基于深度学习的场景语义分割方法，所述方法步骤包括：

S1，获取目标图像；

S2，将目标图像送入主干网络Resnet101中，进行低水平特征提取，得到特征图像A₁、A₂、A₃、A₄；

S3，将特征图像A₄送入特征增强网络，细化并增强一部分上下文本信息，得到特征图像B；

S4，将特征图像B送入ADASP中，得到高水平的特征图像C；

S5，将特征图像A₃、B和C送入到FAN中，得到特征图像D₁、D₂；

S6，最后将特征图像进行上采样得到最终的Mask图。

进一步的，所述网络预设训练epoch为100-200次。

进一步的，对于所述步骤S1，有：

将训练数据集图像进行数据预处理，图像随机上下翻转、随机尺寸裁剪等一系列的数据增强操作；

进一步的，对于所述步骤S2，有：

将主干网络Resnet101经过conv2_x得到特征图像A₁，conv3_x得到特征图像A₂，conv4_x得到特征图像A₃，conv5_x得到特征图像A₄；

进一步的，对于所述步骤S3，有：

将主干网络Resnet101最后一层得到的特征图像A₄送入到特征增强网络中，细化并增强一部分上下文本信息，得到特征图像B；

进一步的，对于所述步骤S4，有：

将经过特征增强网络之后的特征图像B送入到ADASP中，得到高水平的特征图像C，其中，自适应可变形卷积(Adaptive deformable convolution)采用的卷积核为：

其中用W代表加权采样之和，网格k定义采样位置，用p_k代表采样点在自适应可变形卷积核中的位置，s_k表示对采样点p_k的学习因子，Δp_k表示可学习偏移量，Δm_k表示可调制量，c_k表示对可调制量Δm_k的学习因子，其中，s_k∈[0，1]，Δm_k∈[0，1]，c_k∈[0，1]，特别地，s_k、c_k、Δp_k和Δm_k来自于

输出通道的单独卷积，其中，2k输出通道模拟空间偏移量Δp_k，连续的k个输出通道对应于调制量Δm_k，用Sigmoid函数激活，剩余的

个通道是s_k和c_k在空间维度上与Δp_k和Δm_k作用的张量，它们的学习率是当前层学习率的0.1倍；

自适应可变形卷积相比于普通卷积的最大不同点在于能以非固定的卷积尺寸大小对特征图像进行采样，这样操作的目的在于能极大的适应目标图像的各种形变能力，还能增强网络的建模能力；

进一步的，对于所述步骤S5，有：

将特征图像A₃、B和C一起送入到第一个FAN中进行低水平特征与高水平特征的融合，最终会得到特征图像D₁、D₂，D₂与C进行相加操作，得到特征图像E₁，特征图像A₂、D₁和E₁经过第二个FAN会得到特征图像D₃、D₄，然后，将D₄和E₁同样进行相加操作得到E₂，最后将A₁、D₃和E₂经过第三个FAN输出较高水平的特征图D₅；

此FAN结构与Global Attention Upsample(GAU)结构相似，最大的不同点在于将GAU中的普通卷积替换成自适应可变形卷积，以获取特征图像的边缘特征，增强了边界的分割能力；

进一步的，对于所述步骤S6，有

将特征图像D₅与E₂进行相加操作之后，通过最后的一个3×3的上采样操作输出Mask图。

进一步的，本发明使用的语义分割数据集为PASCAL VOC 2012和 Cityscapes。

进一步的，针对于所述的自适应可变形空洞空间卷积池化金字塔网络 (ADASP)，其采用了四种不同的空洞卷积分支和一个平均池化层，当网络的 output stride＝16时，四个不同的空洞卷积分支的采样率大小分别为1、6、12、18， output stride＝8时，四个不同的空洞卷积分支的采样率大小分别为1、12、24、36。

进一步的，采用学习率衰减策略对场景分割网络进行训练，随着网络迭代次数的增加，设置的初始学习率会逐步减小，此方法能够保证训练模型的稳定性，从而使模型接近最优解。

进一步的，设置网络的初始学习率lr为0.006，在训练过程中使用公式 (I)对学习率进行衰减，训练过程中采用公式(II)对每个类别计算损失，其损失函数为交叉熵损失函数：

公式(I)中，iter指代当前场景语义分割网络的训练迭代次数，maxiter 指代场景语义分割网络中训练的最大迭代次数；

Loss＝-∑_cly_tlog(y_p) (II)

公式(II)中，y_t代表真实的标签，y_p代表预测的标签，cl代表多个类别数。

进一步的，训练结果通过像素精度(AP)和平均交并比(MIoU)对语义分割网络进行评价，其公式分别为(III)和(IV)：

其中，n_ii代表真实分割标签是第i类，预测也为第i类的正确像素点数， n_ji代表真实分割标签是第i类，但是预测为第j类的错误像素点数，t_i代表真实分割标签是第i类的像素总数，n_cl代表标签类别总数。

本发明的优点：

1)本发明构建了基于深度学习的卷积神经网络，使用了标准的场景数据集PASCALVOC 2012和Cityscapes，可以将图像送到卷积神经网络中进行端到端的训练，并且能够得到场景语义分割训练模型，之后可以将要语义分割的场景图像送入到已训练好的分割模型中，最后输出场景图像对应的预测场景语义分割的Mask图。

2)本发明通过发明了自适应可变形卷积，并将自适应可变形卷积添加到现有的ASPP网络中，构建出了ADASP网络，而自适应可变形卷积相比于普通卷积的最大不同点在于，自适应可变形卷积能以非固定的卷积尺寸大小对特征图像进行采样，这样操作的目的在于能极大的适应目标图像的各种形变能力，还能增强网络的建模能力，针对现有网络对目标物体不能很好的分割出边界轮廓做出提升。

3)本发明融合了不同尺度的特征图像以及高低水平特征图像，这样操作的目的在于可以丰富上下文本信息，对提升训练模型的精度有帮助。

附图说明

图1为本发明方法所提出的总体实现框图；

图2为本发明方法所提出的特征增强网络(FE)；

图3为本发明方法所提出的自适应可变形空洞空间卷积池化金字塔网络(ADASP)；

图4为本发明方法所提出的特征注意力网络(FAN)；

图5为本发明方法所提出的自适应可变形卷积特征提取方法中的采样点分布示意图；

图6为本发明提出的场景语义分割方法在PASCAL VOC 2012数据集中用于语义分割的结果展示图；

图7为本发明提出的场景语义分割方法在Cityscapes数据集中用于语义分割的结果展示图。

具体实施方式

本发明的核心思想是提供一种基于深度学习的场景语义分割方法，该方法可以有效的辨别场景轮廓的识别精度，从而提高MIoU。为了使本发明的目的、技术方案以及优点更加清楚明白，将会结合附图以及实施例，对本发明进一步的详细说明，以下所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明的主要思想。

本发明实施例及其实施过程如下，其卷积神经网络的总体实现框图如图 1所示，其包括了训练阶段和测试阶段两个过程；

步骤1：选择语义分割训练数据集；本实施例中选择的是PASCAL VOC 2012作为训练测试基准。

步骤2：建立特征提取模块。使用Resnet101网络构建特征提取模块，在 Resnet101中，conv1包含了7×7的卷积核，输出通道为64，stride为2；conv2_x 包含了3×3的最大池化层，stride为2，有3个[1×1，64；3×3，64；1×1，256]这样的残差块，且通过跳跃连接；conv3_x包含有4个[1×1，128；3×3，128；1×1， 512]这样的残差块，且通过跳跃连接；conv4_x包含有23个[1×1，256；3×3，256； 1×1，1024]这样的残差块，且通过跳跃连接；conv5_x包含有3个[1×1，512；3×3， 512；1×1，2048]这样的残差块，且通过跳跃连接；最后通过平均池化层、全连接层以及softmax输出结果。

步骤3：使用特征提取模块进行预训练。利用COCO数据集对步骤2构建的特征提取模块进行预训练得到预训练模型，该模型能够得到一个良好的初始值，对加快网络训练以及精度有所帮助。

步骤4：将步骤2中的特征提取模块去掉全连接层和softmax就变成了场景语义分割模型中的主干网络，可将PASCALVOC 2012数据集中原始图像输入其中进行低水平的特征提取，得到特征图像A₁、A₂、A₃、A₄。

步骤5：将特征图像A₄送入特征增强网络，细化并增强一部分上下文本信息，得到特征图像B。

步骤6：将经过特征增强网络之后的特征图像B送入到ADASP中，得到高水平的特征图像C，其中，自适应可变形卷积采用的卷积核为：

自适应可变形卷积相比于普通卷积的最大不同点在于能以非固定的卷积尺寸大小对特征图像进行采样，这样操作的目的在于能极大的适应目标图像的各种形变能力，还能增强网络的建模能力。

步骤7：将特征图像A₃、B和C一起送入到第一个FAN中进行低水平特征与高水平特征的融合，最终会得到特征图像D₁、D₂，D₂与C进行相加操作，得到特征图像E₁，特征图像A₂、D₁和E₁经过第二个FAN会得到特征图像D₃、D₄，然后，将D₄和E₁同样进行相加操作得到E₂，最后将A₁、D₃和E₂经过第三个FAN 输出较高水平的特征图D₅。

步骤8：将特征图像D₅与E₂进行相加操作之后，通过最后的一个3×3的上采样操作输出Mask图。

图2为本发明方法所提出的特征增强网络(FE)，该网络使用了一个1×1 的普通卷积、1个3×3的自适应可变形卷积和1个3×3的普通卷积对特征图像B 进行细化增强操作。

图3为本发明方法所提出的自适应可变形空洞空间卷积池化金字塔网络(ADASP)，在该网络中将自适应可变形卷积添加到各个普通卷积和空洞卷积之前，其它保持不变，这样既能获取多尺度的特征图像，又能保证边缘轮廓被充分采样。

图4为本发明方法所提出的特征注意力网络(FAN)，该注意力网络能够将主干网络中低水平的特征图像和解码结构中的高水平特征图像相互融合在一起，充分利用了图像的上下文本信息，可以使得解码后的Mask图像更加符合原始目标标签。

图5为本发明方法所提出的自适应可变形卷积特征提取方法中的采样点分布示意图，自适应可变形卷积能够以非固定的卷积尺寸大小对特征图像进行采样，这样操作的目的在于能极大的适应目标图像的各种形变能力，还能增强网络的建模能力。

为了进一步验证本发明方法的可行性和有效性，进行了实验。

使用了pytorch框架搭建本发明的卷积神经网络。采用PASCAL VOC 2012测试集来验证本发明的方法预测得到场景语义分割Mask图，通过利用2个常用的客观量作为语义分割方法的评价指标，即像素精度(Pixel Acurracy，PA) 以及平均交并比(MeanIntersection over Union，MIoU)来评价该卷积神经网络的分割性能。

表1利用本发明方法在PASCAL VOC 2012测试集上的评测结果

PA	94.58％
		MIou	79.86％

图6为PASCAL VOC 2012数据集语义分割的结果展示图，其中第一行为原始图像，第二行为本发明方法语义分割Mask图，第三行为原始图像的标准 Mask图。

图7为Cityscapes数据集语义分割的结果展示图，其中第一列为原始图像，第二列为本发明方法语义分割Mask图，第三列为原始图像的标准Mask图。

由上述的实验可知，通过使用本发明方法构建的卷积神经网络得到的预测Mask图，分割的精确度较高，并且取得了较为显著的技术效果。

Claims

1.一种基于深度学习的场景语义分割方法，其特征在于，网络结构包括主干网络、特征增强网络(FE)、自适应可变形空洞空间卷积池化金字塔网络(ADASP)以及特征注意力网络(FAN)；

所述主干网络采用Resnet101在COCO数据集上预训练得到预训练模型，之后将预训练模型加载到主干网络中进行特征提取，得到低水平的特征图像，另外，此预训练模型包括了1个convolution层(conv1_x)、1个maxpool层、4个残差残差连接块，其中第一个残差连接块(conv2_x)包含有3个残差块，6个1×1的卷积层和3个3×3的卷积层，第二个残差连接块(conv3_x)包含有4个残差块，8个1×1的卷积层和4个3×3的卷积层，第三个残差连接块(conv4_x)包含有23个残差块，46个1×1的卷积层和23个3×3的卷积层，第四个残差连接块(conv5_x)包含有3个残差块，6个1×1的卷积层和3个3×3的卷积层，最后通过平均池化层、全连接层以及softmax层输出预训练模型结果，每一个残差连接块都进行了残差连接，这样做的目的在于增强了上下文本信息，若将Resnet101作为主干网络则去掉最后的平均池化层、全连接层以及softmax层；

所述自适应可变形空洞空间卷积池化金字塔网络在ASPP的基础上增加了自适应可变形卷积，对特征增强后的特征图像进行自适应可变形的特征提取，然后将提取后的特征图像传送到拥有不同感受野的模块当中，且此模块含有不同空洞卷积率，以便进行多尺度的特征提取，确保融合了上下文本信息，最后通过一个1×1的卷积进行特征融合，并减少融合后的通道数，减小后面网络的计算复杂度，提高运行速度；

所述特征注意力网络是将Resnet101中低水平的特征图与ADASP之后高水平的特征图进行逐步特征融合的过程。

2.根据权利要求1所述的基于深度学习的场景语义分割方法，其特征在于，所述特征增强网络(FE)、自适应可变形空洞空间卷积池化金字塔网络(ADASP)以及特征注意力网络(FAN)包括一下六个步骤：

S1，获取目标图像；

S4，将特征图像B送入ADASP中，得到高水平的特征图像C；

S6，最后将特征图像进行上采样得到最终的Mask。

3.根据权利要求2所述的基于深度学习的场景语义分割方法，其特征在于，所述具体步骤为：

对于步骤S1，有：

对于步骤S2，有：

对于步骤S3，有：

对于步骤S4，有：

对于步骤S5，有：

对于步骤S6，有：

将特征图像D₅与E₂进行相加操作之后，通过最后的一个3×3的上采样操作输出Mask。

4.根据权利要求3所述的基于深度学习的场景语义分割方法，其特征在于，所述的语义分割数据集为PASCAL VOC 2012、Cityscapes。

5.根据权利要求3所述的基于深度学习的场景语义分割方法，其特征在于，所述的自适应可变形空洞空间卷积池化金字塔网络(ADASP)采用了四种不同的空洞卷积分支和一个平均池化层，当网络的output stride＝16时，四个不同的空洞卷积分支的采样率大小分别为1、6、12、18，output stride＝8时，四个不同的空洞卷积分支的采样率大小分别为1、12、24、36。

6.根据权利要求3所述的基于深度学习的场景语义分割方法，其特征在于，当低水平的特征图像和高水平的特征图像进行特征融合的时候，将会进行双线性插值上采样操作，以确保特征维度的相同。

7.根据权利要求3所述的基于深度学习的场景语义分割方法，其特征在于，在训练过程中，设置网络的初始学习率lr为0.006，在训练过程中使用公式(I)对学习率进行衰减：

公式(I)中，iter指代当前场景语义分割网络的训练迭代次数，maxiter指代场景语义分割网络中训练的最大迭代次数；

训练过程中采用公式(II)对每个类别计算损失，其损失函数为交叉熵损失函数：

Loss＝-∑_cly_tlog(y_p) (II)

公式(II)中，y_t代表真实的标签，y_p代表预测的标签，cl代表多个类别标签数。

8.根据权利要求3所述的基于深度学习的场景语义分割方法，其特征在于，训练结果最终主要通过像素精度(AP)和平均交并比(MIoU)对语义分割网络进行评价，其公式分别为(III)和(IV)：

其中，n_ii代表真实分割标签是第i类，预测也为第i类的正确像素点数，n_ji代表真实分割标签是第i类，但是预测为第j类的错误像素点数，t_i代表真实分割标签是第i类的像素总数，n_cl代表标签类别总数。