CN110175613A

CN110175613A - 基于多尺度特征和编解码器模型的街景图像语义分割方法

Info

Publication number: CN110175613A
Application number: CN201910475662.7A
Authority: CN
Inventors: 龚声蓉; 尚叶欣; 钟珊; 应文豪; 潘威
Original assignee: Changshu Institute of Technology
Current assignee: Changshu Institute of Technology
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2019-08-27
Anticipated expiration: 2039-06-03
Also published as: CN110175613B

Abstract

本发明公开了一种基于多尺度特征和编解码器模型的街景图像语义分割方法，包括以下步骤：原始图像输入深度卷积神经网络提取初始特征图；将初始特征图输入第一多尺度空间金字塔池化模块输出第一特征图；第一特征图输入第二多尺度空间金字塔池化模块输出第二特征图；第二特征图通过然后利用上采样操作和跳跃连接还原为原始图像大小得到最终的预测图；所述第一多尺度空间金字塔池化模块和第二多尺度空间金字塔池化模块输出特征图由通过1×1卷积、通过四个扩张率不同的atrous卷积以及通过平均池化操作提取的六种尺度的特征图级联后输出。本发明方法能够提高语义分割结果的精度，对目标边界的像素进行更准确的分类。

Description

基于多尺度特征和编解码器模型的街景图像语义分割方法

技术领域

本发明涉及一种图像语义分割方法，特别是涉及一种基于多尺度特征和编解码器模型的街景图像语义分割方法。

背景技术

图像分割是图像处理领域中常见的概念，它的目的是将每个像素区域划分给不同的类别。但和语义分割根本的区别在于，图像分割并不知道分割出来的各个类是什么，即只需要分割出不同的区域，大多只是利用像素之间的相似尺度进行划分。而语义分割则是在分割出区域的基础上，对每个区域所属类别进行分类，即实现对一幅图片中的每一个像素点分类。

目前图像语义分割研究都是基于FCN(全卷积神经网络)这种结构，针对FCN存在的问题来进行优化。尽管语义分割的方法不同，但基本研究方向是以下两个方面：第一种，基于特征提取的改进，这类方法通过利用不同的特征提取方法，获取更详细的信息以实现更精确的分类；第二种，基于后处理方法的改进，这类方法通过将前面分类的不准确的预测进行一些后处理操作，使得目标边界更加平滑以获得更好的结果。

针对目前的语义分割方法，当前主要存在两个问题。

1、如何获取有用的多尺度特征。尽管atrous卷积(或dilated卷积)能够在增大感受野的同时，不降低特征图的分辨率，但是简单的将atrous卷积(或dilated卷积)得到的特征图生成一个语义掩码仍然不能很好的提升语义分割的精度。因为，在atrous卷积特征图上的所有神经元拥有同样大小的感受野，这就意味着整个高层语义信息的获取过程只利用了单一尺度的特征。实验表明，多尺度的语义信息有助于解决有歧义的例子并且能够生成比较鲁棒的分类结果。何凯明等人提出了一种空间金字塔池化模块(Spatial PyramidPooling)，通过获得多尺度的特征图来提升分类效果。为了获得多尺度的语义信息，L.-C.Chen等人提出了一种新的空间金字塔池化方法称为Atrous Spatial Pyramid Pooling(ASPP)。ASPP通过将不同atrous率大小的atrous卷积生成的特征图级联在一起，这样就能获得具有不同大小感受野的特征图了，最终获得更好的鲁棒性。但是，这种方法仍然还有缺陷。在自动驾驶中，分割的目标在不同的图片中存在着很大的尺度变化，例如行人、车辆。

2、目标边界的像素分类问题。在街道场景中，当几个行人并排走的时候，由于行人之间靠的很近，所以很难获取各个行人之间的边界。因为行人的移动方向对于自动驾驶的决策很重要，所以语义分割模型需要获得一个较好的目标边界。虽然目前的一些编解码器的语义分割模型，能逐渐恢复较好的目标边界。但是由于一些模型的编码器只获取了单一尺度的高层语义信息，所以在目标边界的像素分类不够准确，最终的语义效果的精度不够高。

发明内容

针对上述现有技术缺陷，本发明的任务在于提供一种基于多尺度特征和编解码器模型的街景图像语义分割方法，通过编码器提取多尺度特征获得较好的分类效果，再利用解码器逐渐将高层特征图还原成与输入图像同样大小的预测图，提高语义分割结果的精度。

本发明技术方案是这样的：一种基于多尺度特征和编解码器模型的街景图像语义分割方法，包括以下步骤：S1、原始图像输入深度卷积神经网络提取初始特征图；S2、将初始特征图输入第一多尺度空间金字塔池化模块输出第一特征图；S3、将第一特征图输入第二多尺度空间金字塔池化模块输出第二特征图；S4、由所述第二特征图通过1×1卷积和第一上采样层与第一特征图1×1卷积后的特征图相连接还原成第一还原图；S5、所述第一还原图通过第二上采样层与所述初始特征图1×1卷积后相连接得到第二还原图；S6、所述第二还原图通过3×3卷积和第三上采样层还原为原始图像大小得到最终的预测图；所述第一多尺度空间金字塔池化模块和第二多尺度空间金字塔池化模块对输入的特征图处理输出特征图的方法为：将输入的特征图分别通过1×1卷积提取第一种尺度的特征图，通过四个扩张率不同的atrous卷积提取四种不同尺度下的特征图，通过平均池化操作提取最后一种尺度的特征图，共获得六种尺度的特征图；将所述六种尺度的特征图级联后得到最终的包含多尺度信息的特征图输出。

进一步地，所述深度卷积神经网络由池化层和卷积层组合而成的。

进一步地，所述四个扩张率不同的atrous卷积的扩张率分别为3、6、12、18。

进一步地，所述第二多尺度空间金字塔池化模块输出第二特征图的步长为16。

进一步地，所述第一上采样层的放大倍数为2，所述第二上采样层的放大倍数为2，所述第三上采样层的放大倍数为4。

本发明与现有技术相比的优点在于：第一多尺度空间金字塔池化模块和第二多尺度空间金字塔池化模块通过将几个atrous卷积后的高层特征和低层的特征级联生成一个高层特征图。高层特征通过利用不同扩张率进行atrous卷积获得不同尺度下的特征，这些特征包含了较多的语义信息。低层的特征保留了大部分的位置信息，因此改善了对于目标边界像素的分类；以去除了全连接层的卷积神经网络和第一多尺度空间金字塔池化模块和第二多尺度空间金字塔池化模块作为编码器，然后利用上采样操作和跳跃连接作为解码器，逐渐对目标边界的像素点作分类，生成最终的预测图，进一步提高语义分割结果的精度，对目标边界的像素进行更准确的分类。

附图说明

图1为本发明方法示意图。

图2为多尺度空间金字塔池化模块结构示意图。

具体实施方式

下面结合实施例对本发明作进一步说明，但不作为对本发明的限定。

请结合图1所示，本实施例涉及的基于多尺度特征和编解码器模型的街景图像语义分割方法，包括以下步骤：S1、原始图像输入由池化层和卷积层组合而成的深度卷积神经网络提取初始特征图；S2、将初始特征图输入第一多尺度空间金字塔池化模块输出第一特征图；S3、将第一特征图输入第二多尺度空间金字塔池化模块输出第二特征图，本发明的最终输出步长为16，即第二特征图是原始图像的1/16；S4、由第二特征图通过1×1卷积和放大倍数为2的第一上采样层与第一特征图1×1卷积后的特征图相连接还原成第一还原图，得到原始图像的1/8；S5、所述第一还原图通过放大倍数为2的第二上采样层与初始特征图1×1卷积后相连接得到第二还原图，得到原始图像的1/4；S6、所述第二还原图通过3×3卷积和放大倍数为4的第三上采样层还原为原始图像大小得到最终的预测图。

上述步骤中，由池化层和卷积层组合而成的深度卷积神经网络、第一多尺度空间金字塔池化模块和第二多尺度空间金字塔池化模块构成编解码器模型，对该模型的训练过程如下：

步骤1：先将所有数据集中的训练集和验证集图像处理成Tensorflow需要的tfrecord格式的文件。训练时，先对训练数据集中的图像进行预处理，将图像裁剪为固定尺寸。

步骤2：将预训练好的深度卷积神经网络的全连接层去掉，保留部分训练好的超参数作为初始值。输入训练数据进行训练，图像经过深度卷积神经网络获得初始特征图；将初始特征图作为输入，经过第一多尺度空间金字塔池化模块处理获得含有多尺度信息的第二特征图；将第二特征图输入进第二多尺度空间金字塔池化模块获得最终的第三特征图；再通过解码器逐步还原成原图像尺寸大小的预测图。

步骤3：在最后的输出前设置平均平方差损失作为模型的损失函数，根据损失函数使用随机梯度下降算法进行误差反向传播，更新模型参数，得到训练好的语义分割的编解码器模型。

请结合图2所示，第一多尺度空间金字塔池化模块和第二多尺度空间金字塔池化模块对输入的特征图处理输出特征图的方法为：将输入的特征图分别通过1×1卷积提取第一种尺度的特征图，通过扩张率分别为3、6、12、18的atrous卷积提取四种不同尺度下的特征图，通过平均池化操作提取最后一种尺度的特征图，共获得六种尺度的特征图；将所述六种尺度的特征图级联后得到最终的包含多尺度信息的特征图输出。该方法在ASPP基础上添加标准的1×1卷积和池化操作，1×1卷积输出特征图保留了大部分原始对象的位置信息。而添加池化操作能够获得低级特征图，其不仅包含更高级别的语义信息，还包含部分的位置信息。由于ASPP中的感受野是金字塔形的，每个特征图包含不同的尺度信息，但最终每个金字塔层输出的特征图的大小是相同的。因此，通过组合上述三个部分，可以得到具有多个维度和更多像素的特征图。

对本发明进行论证实验，使用数据集是：Cityscapes

Cityscapes是由奔驰主推，提供无人驾驶环境下的图像分割数据集。用于评估视觉算法在街道场景下语义理解方面的性能。Cityscapes包含50个城市不同场景、不同背景、不同季节的街景，提供5000张精细标注的图像、20000张粗略标注的图像、30类标注物体。其中本发明的论证实验使用的是其中有精细标注的5000张图像。Cityscapes精细标注的5000张图像包含20个类，其中2975张训练图片，500张验证图片和1525张测试图片。

另外，实验硬件环境：Ubuntu 16.04，Telsa-P100显卡，显存12G，Core(TM)i7处理器，主频为3.4G，内存为16G。

代码运行环境：深度学习框架(Tensorflow-gpu1.6)，python3.6。

选择mIoU作为评价指标来评估实验结果。mIoU为平均交并比，它计算真实值和预测分割的交点和联合之间的比。该比可以重新表示为真阳性(交叉)与真阳性，假阴性和假阳性(并集)之和的数量。公式如下：

其中k+1表示标签类别的总和(包括空类)，而p_ij是推断为属于类j的类i的像素数量。此外，p_ii表示真阳性的数量，而p_ji和p_ij分别被解释为假阴性和假阳性。

对于不同的语义分割方法，都在相同的实验环境下进行训练和评估。使用流行的深度学习框架Tensorflow实现了本发明的方法。Xception作为网络骨干。Xception网络在ImageNet-1k数据集上预先训练。在训练期间，使用Nesterov动量优化器，动量m＝0.9。初始学习率为0.05，重量衰减为4e-5。并且每两个训练周期的速率衰减设置为0.94。实验中应用均方误差作为损失函数，以最大化交并比的得分。训练时，每个GPU的批量大小为2，图像大小裁剪为513×513。

用FCN-8s作为基线模型进行了几次实验，评估Cityscapes数据集验证图像上的所有模型。为了验证atrous卷积(或dilated卷积)的有效性，使用Dilation10模型来训练Cityscapes。为了保证实验的准确性，使用原作者的源代码。实验结果表明，Dilation10模型优于FCN-8s，如表1所示。在这项工作中，采用DeeplabV3+模型作为对比实验。基于DeepLabV3+的代码，将DeepLabV3+的ASPP模块更改为本发明的多尺度空间金字塔池化模块。首先，使用与DeepLabV3+相同的对齐Xception来提取低级功能。然后，使用两个具有不同速率的多尺度空间金字塔池化模块来捕获多尺度上下文信息。最后，通过上采样恢复获得的特征图，并利用跳跃连接操作，以最终生成预测图像。将本发明的方法与Cityscapes上的最新方法进行比较。实验结果表明，在相同条件下，本发明方法比DeepLabV3+更准确。

表1 在Cityscapes数据集上的结果

方法	mIoU(％)
		FCN8s	65.3
Dilation10	67.1
		DeepLabV2-CRF	70.4
FRRN	71.8
		DeepLabV3+	70.89(本地)
本发明方法	72.68

Claims

1.一种基于多尺度特征和编解码器模型的街景图像语义分割方法，其特征在于，包括以下步骤：S1、原始图像输入深度卷积神经网络提取初始特征图；S2、将初始特征图输入第一多尺度空间金字塔池化模块输出第一特征图；S3、将第一特征图输入第二多尺度空间金字塔池化模块输出第二特征图；S4、由所述第二特征图通过1×1卷积和第一上采样层与第一特征图1×1卷积后的特征图相连接还原成第一还原图；S5、所述第一还原图通过第二上采样层与所述初始特征图1×1卷积后相连接得到第二还原图；S6、所述第二还原图通过3×3卷积和第三上采样层还原为原始图像大小得到最终的预测图；所述第一多尺度空间金字塔池化模块和第二多尺度空间金字塔池化模块对输入的特征图处理输出特征图的方法为：将输入的特征图分别通过1×1卷积提取第一种尺度的特征图，通过四个扩张率不同的atrous卷积提取四种不同尺度下的特征图，通过平均池化操作提取最后一种尺度的特征图，共获得六种尺度的特征图；将所述六种尺度的特征图级联后得到最终的包含多尺度信息的特征图输出。

2.根据权利要求1所述的基于多尺度特征和编解码器模型的街景图像语义分割方法，其特征在于，所述深度卷积神经网络由池化层和卷积层组合而成的。

3.根据权利要求1所述的基于多尺度特征和编解码器模型的街景图像语义分割方法，其特征在于，所述四个扩张率不同的atrous卷积的扩张率分别为3、6、12、18。

4.根据权利要求1所述的基于多尺度特征和编解码器模型的街景图像语义分割方法，其特征在于，所述第二多尺度空间金字塔池化模块输出第二特征图的步长为16。

5.根据权利要求4所述的基于多尺度特征和编解码器模型的街景图像语义分割方法，其特征在于，所述第一上采样层的放大倍数为2，所述第二上采样层的放大倍数为2，所述第三上采样层的放大倍数为4。