CN110188817A

CN110188817A - 一种基于深度学习的实时高性能街景图像语义分割方法

Info

Publication number: CN110188817A
Application number: CN201910452356.1A
Authority: CN
Inventors: 严严; 董根顺; 王菡子
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2019-08-30
Anticipated expiration: 2039-05-28
Also published as: CN110188817B

Abstract

一种基于深度学习的实时高性能街景图像语义分割方法。准备街景图像训练、验证和测试数据集；对数据集图像进行下采样，减小图像的分辨率；对现有的轻量级分类网络进行改造作为语义分割的基础特征提取网络；在基础特征提取网络后串联一个鉴别性孔洞空间金字塔池化用于解决语义分割的多尺度问题；将若干个卷积层堆叠，形成浅层的空间信息保存网络；使用特征融合网络将得到的特征图进行融合形成预测结果；将输出图像与数据集中的语义标注图像进行对比，利用反向传播算法进行端到端的训练，得到实时高性能街景图像语义分割网络模型；将待测试的街景图像输入实时高性能街景图像语义分割网络模型中得到街景图像的语义分割结果。

Description

一种基于深度学习的实时高性能街景图像语义分割方法

技术领域

本发明涉及计算机视觉技术，尤其是涉及一种基于深度学习的实时高性能街景图像语义分割方法。

背景技术

语义分割属于场景理解的任务之一，它提供详细的像素级别分类，是计算机视觉领域一个非常基础但是又非常具有挑战性的任务。语义分割可以被广泛的应用在各种现实场景中，比如无人驾驶、机器人或者增强现实等，这些应用对语义分割算法有着强烈的需求。

早期的语义分割使用的是基于手工特征的方法，比如随机森林等，但是这些方法的效果并不理想。近年来，随着深度学习技术的不断发展，深度卷积神经网络被广泛的用于各种计算机视觉任务中，比如图像分类、目标跟踪等，并且取得了非常好的效果。在FCN方法(J.Long,E.Shelhamer,and T.Darrell,“Fully convolutional networks for semanticsegmentation,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2015,3431–3440.)(它将深度卷积神经网络的全连接层全部用卷积层来代替)第一次将深度学习引入到语义分割之后，深度卷积神经网络开始成为解决语义分割问题的首选方法。得益于深度学习技术，语义分割在最近几年取得了非常巨大的进步，它在各大数据集上都达到了非常好的分割效果，比如著名的Deeplabv3+(L.-C.Chen,Y.Zhu,G.Papandreou,F.Schroff,and H.Adam,“Encoder-decoder with atrous separable convolution for semanticimage segmentation,”in Proc.Eur.Conf.Comput.Vis.(ECCV),Sep.2018,pp.833–851.)和PSPNet(H.Zhao,J.Shi,X.Qi,X.Wang,and J.Jia,“Pyramid scene parsing network,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2017,2881–2890.)在街景图像理解数据集Cityscapes上分别达到了82+％和81+％的mIoU。但是这些高性能的语义分割算法是建立在大量的操作、计算量和内存消耗基础上，他们严重依赖于复杂的网络模型，比如VGG(K.Simonyan and A.Zisserman,“Very deep convolutional networks forlarge-scale image recognition,”in Proc.Int.Conf.Learn.Representations,May.2015.)或者Resnet(K.He,X.Zhang,S.Ren,and J.Sun,“Deep residual learning forimage recognition,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2016,770–778)等网络。这些网络往往会产生大量的参数和消耗非常多的运行时间，只考虑分割精度而不考虑时间消耗的做法导致他们缺乏良好的实用性。而许多现实中的实际应用对时间很敏感，他们要求语义分割算法拥有实时的处理速度和快速的交互、响应，对这些应用来说速度和精度是同样重要的，特别是对于计算资源有限的平台或者是像街景这样复杂的应用场景。与单纯追求高精度的语义分割相反，研究怎么样使语义分割运行得更快的同时还不会牺牲太多的精度仍然还很滞后。目前改进计算有效性的工作主要聚焦在图像分类和目标跟踪两个方面，针对快速语义分割的研究还比较少。实时高性能语义分割算法对能否将语义分割真正落地到实际应用上起到了至关重要的作用。

发明内容

本发明的目的在于提供不仅拥有实时的处理速度，还具有比较高的精度，在街景图像语义分割的速度和精度之间达到很好平衡的一种基于深度学习的实时高性能街景图像语义分割方法。

本发明包括以下步骤：

1)准备街景图像训练、验证和测试数据集；

2)对步骤1)中的数据集图像进行下采样，减小图像的分辨率；

3)对现有的轻量级分类网络进行改造作为语义分割的基础特征提取网络；

4)在步骤3)中得到的基础特征提取网络后串联一个鉴别性孔洞空间金字塔池化用于解决语义分割的多尺度问题；

5)将若干个卷积层堆叠，形成一个浅层的空间信息保存网络；

6)使用专门设计的特征融合网络将步骤4)和步骤5)中得到的特征图进行融合形成预测结果；

7)将步骤6)的输出图像与数据集中的语义标注图像进行对比，利用反向传播算法进行端到端的训练，得到实时高性能街景图像语义分割网络模型；

8)将待测试的街景图像输入步骤7)的实时高性能街景图像语义分割网络模型中得到街景图像的语义分割结果。

在步骤1)中，所述数据集可为著名的公开数据集Cityscapes，所述数据集Cityscapes是一个带有逐像素语义标注的大型街景图像理解数据集，标注包含30个语义类；数据集Cityscapes由5000张带有精细标注和20000张带有粗糙标注的高分辨率街景图像组成，每张图像的分辨率为1024×2048，这些图像来自于50个不同的城市，是在不同的季节和变化的场景下拍摄的，使用5000张带有精细标注的街景图像，这部分数据集被划分成训练、验证和测试集三个部分，分别带有2975、500和1525张图片，而且只使用19个常见的语义类作为分割对象，包括road、sidewalk、building、wall、fence、pole、traffic light、traffic sign、vegetation、terrain、sky、person、rider、car、truck、bus、train、motorcycle和bicycle。

在步骤2)中，所述对步骤1)中的数据集图像进行下采样的具体方法可为：Cityscapes数据集的图像分辨率为1024×2048，由于处理大分辨率的图像将严重影响语义分割网络的运行速度，因此首先对输入图像进行下采样来缩小图像的分辨率，从而加速网络的运行速度；但是，图像的分辨率也不能太小，太小的图像会丢失许多细节信息影响语义分割的精度，具体来说，对于训练和验证过程将图像的分辨率缩小到448×896，对于测试过程将图像的分辨率缩小到400×800。

在步骤3)中，所述现有的轻量级分类网络可采用谷歌最新发布的MobilenetV2轻量级分类网络作为改造对象，具有速度快、模型小、精度高等特点，MobilenetV2依次由1个3×3的conv2d操作、17个bottleneck操作、1个1×1的conv2d操作、1个7×7的avgpool操作和1个1×1的conv2d操作组成，其中conv2d表示标准的卷积操作，而bottleneck表示由1个1×1的卷积层、一个3×3的逐深度可分离卷积层和一个1×1的卷积层组成的模块，avgpool表示平均池化操作；因为MobilenetV2是一个图像分类网络，不断地减小特征图的分辨率，最后一个bottleneck块输出的特征图尺寸只有原始输入图像的32分之一，网络的最终输出将是一个概率向量；语义分割是一个图像到图像的过程，需要保证网络的最终输出是一个预测图，所以需要对MobilenetV2的网络结构进行修改才能作为的基础特征提取网络；首先将最后一个bottleneck块后面的所有卷积层和池化层去掉，得到只剩下1个3×3的conv2d和17个bottleneck的简化版MobilenetV2。经过上一步修改后的MobilenetV2可以输出原始输入图像32分之一大小的特征图，为了能够获得更大分辨率的输出特征图，将孔洞卷积和MobilenetV2结合在一起，孔洞卷积的作用就是在加大网络深度的同时不会改变特征图的分辨率，利用孔洞卷积可以获得更大的感受野面积和得到更加稠密的特征图；尽管孔洞卷积需要比较多的运行时间，但是MobilenetV2是一个极其快速的网络，通过将二者结合在一起可以很好的做到速度与精度的平衡；所述MobilenetV2和孔洞卷积的结合方式是：简化版MobilenetV2前面部分的网络配置保持不变，当特征图分辨率下降到原始输入图像的8分之一大小后(也就是第6个bottleneck块之后)，在后面的每个bottleneck块(也就是从第7个bottleneck块到最后一个bottleneck块)的逐深度可分离卷积层中加入带有不同孔洞率的孔洞卷积，同时将逐深度可分离卷积层的stride大小设置为1，通过这种结合方式将特征图的分辨率维持在原始输入图像的8分之一大小上。在第7个到第10个、第11个到第13个、第14个到第16个和第17个bottleneck块中分别使用2,4,8和16的孔洞率；经过上述改造后的MobilenetV2最后几层的特征图分辨率都是原始输入图像的8分之一大小；为了进一步提高网络的精度，还利用密集跳层连接将这些网络层的输出特征图按通道连接在一起得到输出特征图；这里使用密集跳层连接有两个好处，一是将多个网络层的通道连接在一起可以使网络学习到更多的信息，二是它可以有效的缓解语义分割的棋盘问题。

在步骤4)中，所述鉴别性孔洞空间金字塔池化用于解决语义分割的多尺度问题的具体方法可为：在每一个孔洞卷积核前面添加一个不同尺寸的平均池化层；在原来的1×1标准卷积分支中添加另外1个3×3标准卷积来提高该分支的特征提取能力；图像级全局平均池化分支保持不变；鉴别性孔洞空间金字塔池化由下面5个分支组成：1个1×1和1个3×3的标准卷积；三个池化率为3、5和7的池化层，其后分别跟着孔洞率为12、24和36的3×3孔洞卷积；一个图像级全局平均池化；每个分支前还使用一个Batch Normalization层加速网络的训练，同时每个分支均带有256个通道；然后每个分支的输出按通道拼接在一起得到一个1280维的特征图，再经过1个1×1的卷积层来减少特征图的通道数降低计算量；除此之外，还使用一个shortcut连接将上述得到的特征图与孔洞空间金字塔池化的输入特征图按照逐点相加的方式连接在一起，shortcut连接有助于信息的流动和重用。

在步骤5)中，所述将若干个卷积层堆叠，形成一个浅层的空间信息保存网络的具体方法可为：经过步骤3)和步骤4)的基础特征提取网络和鉴别性孔洞空间金字塔池化后得到的特征图中包含丰富的语义信息，但是它含有的空间信息比较少，所以设计一个很浅的空间信息保存网络，这个网络仅仅由三个简单的卷积层堆叠而成，同时在每个卷积层的后面还连接了一个ReLu层和Batch Normalization层，这个简单的空间细节保存网络可以在只消耗很少计算量的情况下编码丰富的空间细节信息。

在步骤6)中，所述使用专门设计的特征融合网络将步骤4)和步骤5)中得到的特征图进行融合形成预测结果的具体方法可为：由于步骤3)和步骤4)中的网络结构是串联关系，而步骤5)中的网络结构与步骤3)和4)是并行关系，因此将步骤4)和步骤5)的输出特征图进行融合，因为这两个特征图是属于不同层级的特征，来自步骤4)的特征图中主要编码了丰富的高级语义信息，而来自步骤5)的特征图中主要提供充足的低级空间信息，为了能够更有效的融合这两个特征，提出一个简单有效的特征融合网络，由于步骤4和5)的两个特征图的分辨率是一样的，因此首先将步骤4和5)的两个特征图按通道连接在一起得到一个特征图，接着，使用一个Batch Normalization层平衡特征之间的尺度和拉近特征之间的距离；然后，利用一个包含孔洞率为2的3×3孔洞卷积层将每个点与周围的一圈信息结合在一起，提高特征融合的鲁棒性；最后，在孔洞卷积层后面连接1个1×1的映射卷积层，将特征图的通道数降低下来(等于语义类别数)，并且使用一个双线性插值将图像的分辨率扩大到原始输入图像的尺寸大小，即得到最终的预测结果。

在步骤7)中，在训练过程中对于数据预处理，只使用随机翻转、随机缩放(0.5～0.8)和随机裁剪(448×896)三个常用的数据增强方法，网络以微调后的ImageNet预训练参数作为初始化开始训练，使用bootstrapping策略作为损失函数，以随机梯度下降作为优化器，其中，初始学习率为0.006，权重衰退参数为0.0005，动量为0.9；对于学习率更新策略，采用流行的“poly”策略，即对于每次迭代lr＝baselr*(1-iter/max_iter)^power，其中，baselr为初始学习率，iter为当前的迭代次数，max_iter为总迭代次数，power为多项式的幂(一般设置为0.9)；每次迭代的mini-batch设置为4，整个网络训练200个周期。

在步骤8)中，输入图像的分辨率下采样到400×800大小，送入到训练好的语义分割网络中，最后对输出预测结果利用双线性插值进行上采样得到最终的语义分割结果。

本发明是在已有的实时图像分类网络和高精度语义分割网络的基础上，提出更加高效和鲁棒的实时高性能语义分割算法，在保持比较高的精度的同时最大化分割的速度。本发明首先将孔洞卷积和密集跳层连接添加到已有的实时轻量级分类网络中，将轻量级分类网络改造为的基础特征提取网络；接着，在得到的基础特征提取网络的后面连接一个改进的孔洞空间金字塔池化来更有效的解决语义分割的多尺度问题；然后，设计一个空间信息保存网络来编码充足的空间细节信息，它平行于上面的两个网络分支；最后，利用一个专门设计的特征融合网络连接以上两个属于不同级别的特征。本发明提出的实时高性能街景图像语义分割方法在当前主流的街景图像理解数据集上取得了具有竞争力的结果。

附图说明

图1为本发明实施例的整个实现流程图。

图2为本发明实施例的整个网络结构图。

具体实施方式

下面结合附图和实施例对本发明的方法作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了实施方式和具体操作过程。

参见图1，本发明实施例包括以下步骤：

A.准备街景图像训练、验证和测试数据集。

使用的数据集为著名的公开数据集Cityscapes，该数据集是一个带有逐像素语义标注的大型街景图像理解数据集，它的标注包含30个语义类。该数据集由5000张带有精细标注和20000张带有粗糙标注的高分辨率街景图像组成，每张图像的分辨率为1024×2048，这些图像来自于50个不同的城市，是在不同的季节和变化的场景下拍摄的。在本发明中只使用5000张带有精细标注的街景图像，这部分数据集被划分成训练、验证和测试集三个部分，分别带有2975、500和1525张图片。而且只使用19个常见的语义类作为分割对象，包括road、sidewalk、building、wall、fence、pole、traffic light、traffic sign、vegetation、terrain、sky、person、rider、car、truck、bus、train、motorcycle和bicycle。

B.对步骤A中的数据集图像进行下采样，减小图像的分辨率。

Cityscapes数据集的图像分辨率为1024×2048，处理这么大分辨率的图像将严重影响语义分割网络的运行速度，所以在本发明中首先对输入图像进行下采样来缩小图像的分辨率，从而加速网络的运行速度。但是，图像的分辨率也不能太小，太小的图像会丢失许多细节信息影响语义分割的精度。具体来说，对于训练和验证过程将图像的分辨率缩小到448×896，对于测试过程将图像的分辨率缩小到400×800。

C.对现有的轻量级分类网络进行改造作为语义分割的基础特征提取网络。

本发明采用谷歌最新发布的MobilenetV2轻量级分类网络作为改造对象，它具有速度快、模型小、精度高等特点。MobilenetV2依次由1个3×3的conv2d操作、17个bottleneck操作、1个1×1的conv2d操作、1个7×7的avgpool操作和1个1×1的conv2d操作组成，其中conv2d表示标准的卷积操作，而bottleneck表示由1个1×1的卷积层、一个3×3的逐深度可分离卷积层和一个1×1的卷积层组成的模块，avgpool表示平均池化操作。因为MobilenetV2是一个图像分类网络，它会不断的减小特征图的分辨率，最后一个bottleneck块输出的特征图尺寸只有原始输入图像的32分之一，网络的最终输出将是一个概率向量。然而，语义分割是一个图像到图像的过程，需要保证网络的最终输出是一个预测图，所以需要对MobilenetV2的网络结构进行修改才能作为的基础特征提取网络。

首先将最后一个bottleneck块后面的所有卷积层和池化层去掉，得到只剩下1个3×3的conv2d和17个bottleneck的简化版MobilenetV2。经过上一步修改后的MobilenetV2可以输出原始输入图像32分之一大小的特征图，为了能够获得更大分辨率的输出特征图，将孔洞卷积和MobilenetV2结合在一起，孔洞卷积的作用就是在加大网络深度的同时不会改变特征图的分辨率，利用孔洞卷积可以获得更大的感受野面积和得到更加稠密的特征图。尽管孔洞卷积需要比较多的运行时间，但是MobilenetV2是一个极其快速的网络，通过将二者结合在一起可以很好的做到速度与精度的平衡。在本发明中MobilenetV2和孔洞卷积的结合方式是：简化版MobilenetV2前面部分的网络配置保持不变，当特征图分辨率下降到原始输入图像的8分之一大小后(也就是第6个bottleneck块之后)，在后面的每个bottleneck块(也就是从第7个bottleneck块到最后一个bottleneck块)的逐深度可分离卷积层中加入带有不同孔洞率的孔洞卷积，同时将逐深度可分离卷积层的stride大小设置为1的stride大小都改为1，通过这种结合方式将特征图的分辨率维持在原始输入图像的8分之一大小上。在第7个到第10个、第11个到第13个、第14个到第16个和第17个bottleneck块中分别使用2,4,8和16的孔洞率。经过上面改造后的MobilenetV2最后几层的特征图分辨率都是原始输入图像的8分之一大小。为了进一步提高网络的精度，还利用密集跳层连接将这些网络层的输出特征图按通道连接在一起得到输出特征图。这里使用密集跳层连接有两个好处，一是将多个网络层的通道连接在一起可以使网络学习到更多的信息，二是它可以有效的缓解语义分割的棋盘问题。

D.在步骤C中得到的基础特征提取网络后面串联一个鉴别性孔洞空间金字塔池化用于解决语义分割的多尺度问题。

利用鉴别性孔洞空间金字塔池化来更有效的解决语义分割的多尺度问题。具体如下：在每一个孔洞卷积核前面添加一个不同尺寸的平均池化层；在原来的1×1标准卷积分支中添加另外1个3×3标准卷积来提高该分支的特征提取能力；图像级全局平均池化分支保持不变。所以，鉴别性孔洞空间金字塔池化由下面5个分支组成：1个1×1和1个3×3的标准卷积；三个池化率为3、5和7的池化层，其后分别跟着孔洞率为12、24和36的3×3孔洞卷积；一个图像级全局平均池化。这里需要注意每个分支前还使用了一个BatchNormalization层来加速网络的训练，同时每个分支都带有256个通道。然后每个分支的输出按通道拼接在一起得到一个1280维的特征图，再经过1个1×1的卷积层来减少特征图的通道数降低计算量。除此之外，还使用了一个shortcut连接将上面得到的特征图与孔洞空间金字塔池化的输入特征图按照逐点相加的方式连接在一起，shortcut连接有助于信息的流动和重用。

E.将若干个卷积层堆叠在一起形成一个浅层的空间信息保存网络。

经过步骤C)和步骤D)的基础特征提取网络和鉴别性孔洞空间金字塔池化后得到的特征图，但是它含有的空间信息比较少，所以设计了一个很浅的空间信息保存网络，这个网络仅仅由三个简单的卷积层堆叠而成，同时在每个卷积层的后面还连接了一个ReLu层和Batch Normalization层，这个简单的空间细节保存网络可以在只消耗很少计算量的情况下编码丰富的空间细节信息。

F.使用专门设计的特征融合网络将步骤D和步骤E中得到的特征图进行融合形成预测结果。

步骤C和步骤D中的网络结构是串联关系，而步骤E中的网络结构和前面两个网络是并行关系，所以这里需要将步骤D和步骤E的输出特征图进行融合。因为这两个特征图是属于不同层级的特征，来自步骤D的特征图中主要编码了丰富的高级语义信息，而来自步骤E的特征图中主要提供了充足的低级空间信息，为了能够更有效的融合这两个特征，本发明提出了一个简单有效的特征融合网络。因为这两个特征图的分辨率是一样的，所以首先将他们按通道连接在一起得到一个特征图。接着，使用一个Batch Normalization层来平衡特征之间的尺度和拉近特征之间的距离。然后，利用一个包含孔洞率为2的3×3孔洞卷积层来将每个点与周围的一圈信息结合在一起，提高了特征融合的鲁棒性。最后，在孔洞卷积层后面连接1个1×1的映射卷积层，它负责将特征图的通道数降低下来(等于语义类别数)，并且使用一个双线性插值将图像的分辨率扩大到原始输入图像的尺寸大小，即得到最终的预测结果。

G.将步骤F的输出图像与数据集中的语义标注图像进行对比，利用反向传播算法进行端到端的训练得到实时高性能街景图像语义分割网络模型。

在训练过程中对于数据预处理，只使用随机翻转、随机缩放(0.5～0.8)和随机裁剪(448×896)三个常用的数据增强方法。网络以微调后的ImageNet预训练参数作为初始化开始训练，使用bootstrapping策略作为损失函数，以随机梯度下降作为优化器，其中初始学习率为0.006，权重衰退参数为0.0005，动量为0.9。对于学习率更新策略，采用流行的“poly”策略，即对于每次迭代lr＝baselr*(1-iter/max_iter)^power，其中baselr为初始学习率，iter为当前的迭代次数，max_iter为总迭代次数，power为多项式的幂(一般设置为0.9)。每次迭代的mini-batch设置为4，整个网络训练200个周期。

H.将待测试的街景图像输入至该实时高性能街景图像语义分割网络模型中得到街景图像的语义分割结果。

输入图像的分辨率下采样到400×800大小，送入到训练好的语义分割网络中，最后对输出预测结果利用双线性插值进行上采样得到最终的语义分割结果。

图2给出本发明实施例的整个网络结构图，在图2中，在(a)基础特征提取网络中B0～B7分别表示3×3的卷积操作、第1个bottleneck操作、第2到第3个bottleneck操作、第4到第6个bottleneck操作、第7到第10个bottleneck操作、第11到第13个bottleneck操作、第14到第16个bottleneck操作和第17个bottleneck操作；在(b)鉴别性孔洞空间金字塔池化中Image Pooling表示图像级平均池化操作，1×1和3×3Conv分别表示1×1和3×3的卷积操作，3×3、5×5和7×7Pooling分别表示3×3、5×5和7×7的平均池化操作，3×3Conv rate＝12、rate＝24和rate＝36分别表示孔洞率为12、24和36的3×3孔洞卷积操作，Concat表示按通道连接，Bn表示Batch Normalization操作；在(c)空间信息保存网络中Conv+Bn+ReLu表示依次相连的卷积操作、Batch Normalization操作和激活函数；在(d)特征融合网络中Upsample表示上采样，Bn表示Batch Normalization操作，Atrous Conv 3×3rate＝2表示孔洞率为2的3×3孔洞卷积操作，Project Conv表示1×1的卷积操作。

表1为本发明与其它几个实时语义分割方法在Cityscapes测试数据集上的性能和速度对比。

表1

方法	精度(mIoU)	时间(ms)	速度(fps)
				SegNet	57.0	60	16.7
ENet	58.3	13	76.9
				SQNet	59.8	60	16.7
CRF-RNN	62.5	700	1.4
				DeepLabv1	63.1	4000	0.25
FCN-8S	65.3	500	2.0
				Adelaide	66.4	35000	0.03
Dilation10	67.1	4000	0.25
				ICNet	69.5	33	30.3
GUNet	70.4	30	33.3
				DeepLabv2-CRF	70.4	n/a	n/a
本发明提出的方法	70.6	28.4	35.2

在表1中，SegNet对应V.Badrinarayanan等人提出的方法(V.Badrinarayanan,A.Kendall,and R.Cipolla,“Segnet:A deep convolutional encoder-decoderarchitecture for image segmentation,”IEEE Trans.Pattern Anal.Mach.Intell.,vol.39,no.12,pp.2481–2495,2017.)；

ENet对应A.Paszke等人提出的方法(A.Paszke,A.Chaurasia,S.Kim,andE.Culurciello.(Jun.2016).“ENet:A deep neural network architecture for real-time semantic segmentation.”[Online].Available:https://arxiv.org/abs/1606.02147)；

SQNet对应M.Treml等人提出的方法(M.Treml et al.,“Speeding up semanticsegmentation for autonomous driving,”in Proc.MLITS,NIPS Workshop,2016,pp.1–7.)；

CRF-RNN对应S.Zheng等人提出的方法(S.Zheng et al.,“Conditional randomfields as recurrent neural networks,”in Proc.IEEE Int.Conf.Comput.Vis.(ICCV),Dec.2015,pp.1529–1537.)；

Deeplabv1对应L.-C.Chen等人提出的方法(L.-C.Chen,G.Papandreou,I.Kokkinos,K.Murphy,and A.L.Yuille,“Semantic image segmentation with deepconvolutional nets and fully connected CRFs,”in Proc.Int.Conf.Learn.Representations,May.2015.)；

FCN-8S对应J.Long等人提出的方法(J.Long,E.Shelhamer,and T.Darrell,“Fully convolutional networks for semantic segmentation,”in Proc.IEEEConf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2015,pp.3431–3440.)；

Adelaide对应G.Lin等人提出的方法(G.Lin,C.Shen,A.Hengel,and I.Reid,“Efficient piecewise training of deep structured models for semanticsegmentation,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2016,pp.3194–3203.)；

Dilation10对应F.Yu等人提出的方法(F.Yu and V.Koltun,”Multi-scalecontext aggregation by dilated convolutions,”in Proc.Int.Conf.Learn.Representations,May.2016.)；

ICNet对应H.Zhao等人提出的方法(H.Zhao,X.Qi,X.Shen,J.Shi,and J.Jia,“ICNet for real-time semantic segmentation on high-resolution images,”inProc.Eur.Conf.Comput.Vis.(ECCV),Sep.2018,pp.418–434.)；

GUNet对应D.Mazzini等人提出的方法(D.Mazzini,“Guided upsampling networkfor real-time semantic segmentation,”in British Machine Vision Conference,Sep.2018,pp.117.)；

DeepLabv2-CRF对应L.-C.Chen等人提出的方法(L.-C.Chen,G.Papandreou,I.Kokkinos,K.Murphy,and A.L.Yuille,“Deeplab:Semantic image segmentation withdeep convolutional nets,atrous convolution,and fully connected crfs,”IEEETrans.Pattern Anal.Mach.Intell.,vol.40,no.4,pp.834–848,2018)。

Claims

1.一种基于深度学习的实时高性能街景图像语义分割方法，其特征在于包括以下步骤：

1)准备街景图像训练、验证和测试数据集；

2)对步骤1)中的数据集图像进行下采样，减小图像的分辨率；

6)使用特征融合网络将步骤4)和步骤5)中得到的特征图进行融合形成预测结果；

2.如权利要求1所述一种基于深度学习的实时高性能街景图像语义分割方法，其特征在于在步骤1)中，所述数据集为公开数据集Cityscapes，所述数据集Cityscapes是一个带有逐像素语义标注的大型街景图像理解数据集，标注包含30个语义类；数据集Cityscapes由5000张带有精细标注和20000张带有粗糙标注的高分辨率街景图像组成，每张图像的分辨率为1024×2048，这些图像来自于50个不同的城市，是在不同的季节和变化的场景下拍摄的，使用5000张带有精细标注的街景图像，这部分数据集被划分成训练、验证和测试集三个部分，分别带有2975、500和1525张图片，而且只使用19个常见的语义类作为分割对象，包括road、sidewalk、building、wall、fence、pole、traffic light、traffic sign、vegetation、terrain、sky、person、rider、car、truck、bus、train、motorcycle和bicycle。

3.如权利要求1所述一种基于深度学习的实时高性能街景图像语义分割方法，其特征在于在步骤2)中，所述对步骤1)中的数据集图像进行下采样的具体方法为：Cityscapes数据集的图像分辨率为1024×2048，由于处理大分辨率的图像将严重影响语义分割网络的运行速度，因此首先对输入图像进行下采样来缩小图像的分辨率，从而加速网络的运行速度；图像的分辨率也不能太小，太小的图像会丢失许多细节信息影响语义分割的精度；对于训练和验证过程将图像的分辨率缩小到448×896，对于测试过程将图像的分辨率缩小到400×800。

4.如权利要求1所述一种基于深度学习的实时高性能街景图像语义分割方法，其特征在于在步骤3)中，所述现有的轻量级分类网络采用谷歌最新发布的MobilenetV2轻量级分类网络作为改造对象，具有速度快、模型小、精度高特点，MobilenetV2依次由1个3×3的conv2d操作、17个bottleneck操作、1个1×1的conv2d操作、1个7×7的avgpool操作和1个1×1的conv2d操作组成，其中conv2d表示标准的卷积操作，而bottleneck表示由1个1×1的卷积层、一个3×3的逐深度可分离卷积层和一个1×1的卷积层组成的模块，avgpool表示平均池化操作；因为MobilenetV2是一个图像分类网络，不断地减小特征图的分辨率，最后一个bottleneck块输出的特征图尺寸只有原始输入图像的32分之一，网络的最终输出将是一个概率向量；语义分割是一个图像到图像的过程，需要保证网络的最终输出是一个预测图，所以需要对MobilenetV2的网络结构进行修改才能作为的基础特征提取网络；首先将最后一个bottleneck块后面的所有卷积层和池化层去掉，得到只剩下1个3×3的conv2d和17个bottleneck的简化版MobilenetV2；经过上一步修改后的MobilenetV2可以输出原始输入图像32分之一大小的特征图，为了能够获得更大分辨率的输出特征图，将孔洞卷积和MobilenetV2结合在一起，孔洞卷积的作用就是在加大网络深度的同时不会改变特征图的分辨率，利用孔洞卷积可以获得更大的感受野面积和得到更加稠密的特征图；尽管孔洞卷积需要比较多的运行时间，但是MobilenetV2是一个极其快速的网络，通过将二者结合在一起可以很好的做到速度与精度的平衡；所述MobilenetV2和孔洞卷积的结合方式是：简化版MobilenetV2前面部分的网络配置保持不变，当特征图分辨率下降到原始输入图像的8分之一大小后，也就是第6个bottleneck块之后，在后面的每个bottleneck块的逐深度可分离卷积层中加入带有不同孔洞率的孔洞卷积，同时将逐深度可分离卷积层的stride大小设置为1，通过这种结合方式将特征图的分辨率维持在原始输入图像的8分之一大小上；在第7个到第10个、第11个到第13个、第14个到第16个和第17个bottleneck块中分别使用2,4,8和16的孔洞率；经过上述改造后的MobilenetV2最后几层的特征图分辨率都是原始输入图像的8分之一大小；为了进一步提高网络的精度，还利用密集跳层连接将这些网络层的输出特征图按通道连接在一起得到输出特征图。

5.如权利要求1所述一种基于深度学习的实时高性能街景图像语义分割方法，其特征在于在步骤4)中，所述鉴别性孔洞空间金字塔池化用于解决语义分割的多尺度问题的具体方法为：在每一个孔洞卷积核前面添加一个不同尺寸的平均池化层；在原来的1×1标准卷积分支中添加另外1个3×3标准卷积来提高该分支的特征提取能力；图像级全局平均池化分支保持不变；鉴别性孔洞空间金字塔池化由下面5个分支组成：1个1×1和1个3×3的标准卷积；三个池化率为3、5和7的池化层，其后分别跟着孔洞率为12、24和36的3×3孔洞卷积；一个图像级全局平均池化；每个分支前还使用一个Batch Normalization层加速网络的训练，同时每个分支均带有256个通道；然后每个分支的输出按通道拼接在一起得到一个1280维的特征图，再经过1个1×1的卷积层来减少特征图的通道数降低计算量；还使用一个shortcut连接将上述得到的特征图与孔洞空间金字塔池化的输入特征图按照逐点相加的方式连接在一起，shortcut连接有助于信息的流动和重用。

6.如权利要求1所述一种基于深度学习的实时高性能街景图像语义分割方法，其特征在于在步骤5)中，所述将若干个卷积层堆叠，形成一个浅层的空间信息保存网络的具体方法为：经过步骤3)和步骤4)的基础特征提取网络和鉴别性孔洞空间金字塔池化后得到的特征图中包含丰富的语义信息，由于含有的空间信息比较少，因此设计一个很浅的空间信息保存网络，网络由三个简单的卷积层堆叠而成，同时在每个卷积层的后面还连接一个ReLu层和Batch Normalization层，这个简单的空间细节保存网络在只消耗很少计算量的情况下编码丰富的空间细节信息。

7.如权利要求1所述一种基于深度学习的实时高性能街景图像语义分割方法，其特征在于在步骤6)中，所述使用特征融合网络将步骤4)和步骤5)中得到的特征图进行融合形成预测结果的具体方法可为：由于步骤3)和步骤4)中的网络结构是串联关系，而步骤5)中的网络结构与步骤3)和4)是并行关系，因此将步骤4)和步骤5)的输出特征图进行融合，因为这两个特征图是属于不同层级的特征，来自步骤4)的特征图中主要编码了丰富的高级语义信息，而来自步骤5)的特征图中主要提供充足的低级空间信息，为了能够更有效的融合这两个特征，提出一个简单有效的特征融合网络，由于步骤4和5)的两个特征图的分辨率是一样的，因此首先将步骤4和5)的两个特征图按通道连接在一起得到一个特征图，接着，使用一个Batch Normalization层平衡特征之间的尺度和拉近特征之间的距离；然后，利用一个包含孔洞率为2的3×3孔洞卷积层将每个点与周围的一圈信息结合在一起，提高特征融合的鲁棒性；最后，在孔洞卷积层后面连接1个1×1的映射卷积层，将特征图的通道数降低下来，并且使用一个双线性插值将图像的分辨率扩大到原始输入图像的尺寸大小，即得到最终的预测结果。

8.如权利要求1所述一种基于深度学习的实时高性能街景图像语义分割方法，其特征在于在步骤7)中，在训练过程中对于数据预处理，只使用随机翻转、随机缩放和随机裁剪三个常用的数据增强方法，网络以微调后的ImageNet预训练参数作为初始化开始训练，使用bootstrapping策略作为损失函数，以随机梯度下降作为优化器，其中，初始学习率为0.006，权重衰退参数为0.0005，动量为0.9；对于学习率更新策略，采用流行的“poly”策略，即对于每次迭代lr＝baselr*(1-iter/max_iter)^power，其中，baselr为初始学习率，iter为当前的迭代次数，max_iter为总迭代次数，power为多项式的幂；每次迭代的mini-batch设置为4，整个网络训练200个周期。

9.如权利要求8所述一种基于深度学习的实时高性能街景图像语义分割方法，其特征在于所述随机缩放为0.5～0.8；所述随机裁剪为448×896。

10.如权利要求1所述一种基于深度学习的实时高性能街景图像语义分割方法，其特征在于在步骤8)中，输入图像的分辨率下采样到400×800大小，送入到训练好的语义分割网络中，最后对输出预测结果利用双线性插值进行上采样得到最终的语义分割结果。