CN111985409A

CN111985409A - 一种用于实时街道场景分割的方法

Info

Publication number: CN111985409A
Application number: CN202010850747.1A
Authority: CN
Inventors: 邵杰; 曹坤涛; 黄茜; 蒋春林
Original assignee: Sichuan Artificial Intelligence Research Institute Yibin
Current assignee: Sichuan Huakun Zhenyu Intelligent Technology Co.,Ltd.
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2020-11-24
Anticipated expiration: 2040-08-21
Also published as: CN111985409B

Abstract

本发明公开了一种用于实时街道场景分割的方法，涉及聚合架构网络模型以及多辅助损失训练方法。该用于实时街道场景分割的方法包括以下步骤：S1、获取已知标签的街道场景图片；S2、建立聚合架构网络模型；S3、基于已知标签的街道场景图片采用多辅助损失训练方法对聚合架构网络模型进行训练，得到训练后的聚合架构网络模型；S4、采用训练后的聚合架构网络模型对街道场景的实时图像进行分割，完成实时街道场景分割。本发明设计了新的聚合架构网络模型来获取更多的语义信息，同时保留特征空间信息，结构更加简单有效，相比于现有技术在相同的条件下可有效提升帧数和mIoU值，可快速高效地实现实时街道场景分割。

Description

一种用于实时街道场景分割的方法

技术领域

本发明归属于计算机视觉领域，具体是一种用于实时街道场景分割的方法，涉及聚合架构网络模型以及多辅助损失训练方法。

背景技术

街道场景下的实时语义分割，是一种追求高分割准确度和分割速度的语义分割任务。其目标是在保证实时的情况下，解析城市复杂街道场景的构成元素，包括行车道、行人、车辆、建筑、交通信号灯、人行道等等。该任务在自动驾驶领域具有极大的应用潜力。

深度学习技术在图像语义分割的领域证明了其出色的高精度分割能力，但是，以往的方法更关注提高精度，而忽视了模型的分割速度，具有巨大计算成本的模型很难满足自动驾驶等应用的实时需求。为了解决这个问题，一些研究人员提出了轻量级的卷积网络结构，以探索如何在确保一定程度的准确性的同时减少网络计算的数量。这些方法可以分为三种主要架构：(1)扩张架构，用扩张卷积代替传统的下采样操作，以生成高分辨率和语义丰富的特征，如“Yu,F.,Koltun,V.:Multi-scale context aggregation by dilatedconvolutions.In:4th International Conference on Learning Representations,ICLR2016,San Juan,Puerto Rico,May 2-4,2016,Conference Track Proceedings(2016)”；(2)编码器-解码器架构，利用自上而下和跳过连接来重用低级别的高分辨率功能，如“Ronneberger,O.,Fischer,P.,Brox,T.:U-net:Convolutional networks forbiomedical image segmentation.In:Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015-18th International Conference Munich,Germany,October 5-9,2015,Proceedings,Part III.pp.234–241(2015)”和“Badrinarayanan,V.,Kendall,A.,Cipolla,R.:Segnet:A deep convolutional encoder-decoder architecture for image segmentation.IEEE Trans.PatternAnal.Mach.Intell.39(12),2481–2495(2017)”；(3)多路径架构，它集成了专注于不同特征的多个路径以确保分割效果，其核心在于分支设计和融合结构设计，如“Zhao,H.,Qi,X.,Shen,X.,Shi,J.,Jia,J.:Icnet for real-time semantic segmentation on high-resolution images.In:Computer Vision-ECCV 2018-15th European Conference,Munich,Germany,September8-14,2018,Proceedings,Part III.pp.418–434(2018)”、“Pohlen,T.,Hermans,A.,Mathias,M.,Leibe,B.:Full-resolution residual networksfor semantic segmentation in street scenes.In:2017IEEE Conference on ComputerVision and Pattern Recognition,CVPR 2017,Honolulu,HI,USA,July 21-26,2017.pp.3309–3318(2017)”和“Wu,Z.,Shen,C.,van den Hengel,A.:Real-time semanticimage segmentation via spatial sparsity.CoRR abs/1712.00213(2017),http://arxiv.org/abs/1712.00213”。但是现有的这些架构方法，依旧存在计算量大、难以兼顾精度与速度的问题。

发明内容

针对现有技术中的上述不足，本发明提供了一种用于实时街道场景分割的方法，涉及聚合架构网络模型及多辅助损失训练方法，解决了现有技术难以兼顾精度与速度的问题。

为了达到上述发明目的，本发明采用的技术方案为：

提供一种用于实时街道场景分割的方法，其包括以下步骤：

S1、获取已知标签的街道场景图片；

S2、建立聚合架构网络模型：采用残差神经网络ResNet-18作为骨干网络，依次串联第一Block模块、第二Block模块、第三Block模块、第四Block模块和金字塔池化模块，在第一Block模块的输出端连接第一上采样模块，在第二Block模块的输出端连接第二上采样模块，在第三Block模块的输出端连接第三上采样模块，在第四Block模块的输出端连接第四上采样模块，在金字塔池化模块的输出端连接第五上采样模块；将第一上采样模块、第二上采样模块、第三上采样模块、第四上采样模块和第五上采样模块的输出端分别与特征求和模块的输入端相连；将特征求和模块的输出端依次连接一个激活函数ReLU、Final模块和seg分割处理模块；将seg分割处理模块的输出端作为聚合架构网络模型的输出端；

S3、基于已知标签的街道场景图片采用多辅助损失训练方法对聚合架构网络模型进行训练，得到训练后的聚合架构网络模型：

S3-1、将骨干网络的学习率设置为0.002，将其余模块的初始学习率设置为0.02；

S3-2、将已知标签的街道场景图片输入聚合架构网络模型，分别通过深度学习框架Pytorch中的交叉熵损失函数CrossEntropyLoss获取第三Block模块输出对应的第一辅助损失、第四Block模块输出对应的第二辅助损失、金字塔池化模块输出对应的第三辅助损失和seg分割处理模块对应的seg分割处理模块中的损失数据；

S3-3、将第一辅助损失、第二辅助损失、第三辅助损失与seg分割处理模块中的损失数据之和作为总的损失；

S3-4、基于总的损失进行反向传播，更新聚合架构网络模型中每个卷积层的参数；

S3-5、根据公式：

更新所有模块的学习率lr；其中lr_min为最小学习率，值为1×10^-8；lr_max为所有模块的初始学习率；T_cur为当前训练轮次；T为总训练次数；π为常数；

S3-6、根据公式：

获取当前聚合架构网络模型的评价值mIoU；其中k+1为数据集类别的总数；p_ij表示第i类被识别为第j类的像素总数；p_ji表示第j类被识别为第i类的像素总数；p_ii表示识别正确的像素总数；

S3-7、判断当前聚合架构网络模型的评价值mIoU是否大于阈值，若是则输出当前聚合架构网络模型，得到训练后的聚合架构网络模型，进入步骤S4；否则返回步骤S3-2；

S4、采用训练后的聚合架构网络模型对街道场景的实时图像进行分割，完成实时街道场景分割。

进一步地，步骤S2中第一Block模块、第二Block模块、第三Block模块、第四Block模块的输出特征尺寸分别为聚合架构网络模型输入图片尺寸的1/4、1/8、1/16和1/32；金字塔池化模块的大小分别为8、4和2，金字塔池化模块的输出特征尺寸为聚合架构网络模型输入图片尺寸的1/32；每个上采样模块均包括相互连接的一个3×3的卷积层和一个批处理BN单元；每个上采样模块的输出特征尺寸均为聚合架构网络模型输入图片尺寸的1/4，通道数均为128；Final模块包括依次连接的一个3×3的卷积层、一个批处理BN单元和一个激活函数ReLU。

进一步地，seg分割处理模块包括依次连接的一个3×3的卷积层、一个批处理BN单元、一个激活函数ReLU、一个随机失活Dropout和一个1×1卷积层；其中随机失活Dropout对每个特征点的随机失活概率为0.1。

提供一种用于实时街道场景分割的聚合架构网络模型，其包括作为骨干网络的残差神经网络ResNet-18，以及依次串联的第一Block模块、第二Block模块、第三Block模块、第四Block模块和金字塔池化模块；连接在第一Block模块输出端的第一上采样模块，连接在第二Block模块输出端的第二上采样模块，连接在第三Block模块输出端的第三上采样模块，连接在第四Block模块输出端的第四上采样模块，连接在金字塔池化模输出端的第五上采样模块；第一上采样模块、第二上采样模块、第三上采样模块、第四上采样模块和第五上采样模块的输出端分别与特征求和模块的输入端相连；特征求和模块的输出端依次连接一个激活函数ReLU、Final模块和seg分割处理模块；其中第一Block模块的输入端为聚合架构网络模型输入端，seg分割处理模块的输出端为聚合架构网络模型的输出端。

进一步地，第一Block模块、第二Block模块、第三Block模块、第四Block模块的输出特征尺寸分别为聚合架构网络模型输入图片尺寸的1/4、1/8、1/16和1/32；金字塔池化模块的大小分别为8、4和2，金字塔池化模块的输出特征尺寸为聚合架构网络模型输入图片尺寸的1/32；每个上采样模块均包括相互连接的一个3×3的卷积层和一个批处理BN单元；每个上采样模块的输出特征尺寸均为聚合架构网络模型输入图片尺寸的1/4，通道数均为128；Final模块包括依次连接的一个3×3的卷积层、一个批处理BN单元和一个激活函数ReLU。

进一步地，seg分割处理模块包括依次连接的一个3×3的卷积层、一个批处理BN单元、一个激活函数ReLU、一个随机失活Dropout和一个1×1卷积层。

进一步地，随机失活Dropout对每个特征点的随机失活概率为0.1。

提供一种用于实时街道场景分割的聚合架构网络模型的多辅助损失训练方法，其包括以下步骤：

A1、将骨干网络的学习率设置为0.002，将其余模块的初始学习率设置为0.02；

A2、将已知标签的街道场景图片输入聚合架构网络模型，分别通过深度学习框架Pytorch中的交叉熵损失函数CrossEntropyLoss获取第三Block模块输出对应的第一辅助损失、第四Block模块输出对应的第二辅助损失、金字塔池化模块输出对应的第三辅助损失和seg分割处理模块对应的seg分割处理模块中的损失数据；

A3、将第一辅助损失、第二辅助损失、第三辅助损失与seg分割处理模块中的损失数据之和作为总的损失；

A4、基于总的损失进行反向传播，更新聚合架构网络模型中每个卷积层的参数；

A5、根据公式：

A6、根据公式：

A7、判断当前聚合架构网络模型的评价值mIoU是否大于阈值，若是则输出当前聚合架构网络模型，完成聚合架构网络模型的训练；否则返回步骤A2。

本发明的有益效果为：

1、本发明设计了新的聚合架构网络模型来获取更多的语义信息，同时保留特征空间信息，结构更加简单有效，相比于现有的编码器-解码器架构模型和多路径架构模型，在相同的条件下可有效提升帧数和mIoU值，可快速高效地实现实时街道场景分割。

2、本发明设计了多辅助损失训练方法来训练模型，可以有效增强模型的分割效果。该方法仅在模型训练阶段引入，保证了在使用阶段不会对模型的分割速度造成影响。

附图说明

图1为本发明的流程示意图；

图2为聚合架构网络模型的结构示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，该用于实时街道场景分割的方法包括以下步骤：

S1、获取已知标签的街道场景图片；

S3-5、根据公式：

S3-6、根据公式：

如图2所示，该用于实时街道场景分割的聚合架构网络模型包括作为骨干网络的残差神经网络ResNet-18，以及依次串联的第一Block模块、第二Block模块、第三Block模块、第四Block模块和金字塔池化模块；连接在第一Block模块输出端的第一上采样模块，连接在第二Block模块输出端的第二上采样模块，连接在第三Block模块输出端的第三上采样模块，连接在第四Block模块输出端的第四上采样模块，连接在金字塔池化模输出端的第五上采样模块；第一上采样模块、第二上采样模块、第三上采样模块、第四上采样模块和第五上采样模块的输出端分别与特征求和模块的输入端相连；特征求和模块的输出端依次连接一个激活函数ReLU、Final模块和seg分割处理模块；其中第一Block模块的输入端为聚合架构网络模型输入端，seg分割处理模块的输出端为聚合架构网络模型的输出端。

第一Block模块、第二Block模块、第三Block模块、第四Block模块的输出特征尺寸分别为聚合架构网络模型输入图片尺寸的1/4、1/8、1/16和1/32；金字塔池化模块的大小分别为8、4和2，金字塔池化模块的输出特征尺寸为聚合架构网络模型输入图片尺寸的1/32；每个上采样模块均包括相互连接的一个3×3的卷积层和一个批处理BN单元；每个上采样模块的输出特征尺寸均为聚合架构网络模型输入图片尺寸的1/4，通道数均为128；Final模块包括依次连接的一个3×3的卷积层、一个批处理BN单元和一个激活函数ReLU。

seg分割处理模块包括依次连接的一个3×3的卷积层、一个批处理BN单元、一个激活函数ReLU、一个随机失活Dropout和一个1×1卷积层。随机失活Dropout对每个特征点的随机失活概率为0.1。

该用于实时街道场景分割的聚合架构网络模型的多辅助损失训练方法包括以下步骤：

A5、根据公式：

A6、根据公式：

步骤S1的具体实现方法可以为：从Cityscapes数据集和/或CamVid道路场景数据集中获取已知标签的街道场景图片。Cityscapes数据集专注于对城市街道场景的语义理解，它由5000个带有精细注释的图像和20000个具有粗糙注释的图像组成，分辨率为2048×1024。对于语义分割任务，将带注释的图像分为训练集、验证集和测试集，分别包含2975、500和1525个图像。此外，该数据集包含30个类别，其中19个类别可被用于训练和测试。在实验中，可以仅使用精细的带注释的图像。

CamVid道路场景数据集包含从分辨率为960×720的视频序列中提取的701个密集注释的图片，其中367张用于训练，101张用于验证，233张用于测试。该数据中11种常见语义类别可被用于语义分割任务。

在具体实施过程中，对于已知标签的街道场景图片，可以先对其进行1.0-2.0的尺度缩放、随机裁剪、随机水平翻转和张量变换等处理，其中Cityscapes和CamVid数据集的裁剪大小分别为：1024×1024和720×720。在Cityscapes和CamVid上分别训练了200epochs和400epochs，训练批处理大小batch size分别设置为4和8。

本发明选取残差神经网络ResNet-18作为骨干网络，用第一Block模块、第二Block模块、第三Block模块和第四Block模块表示其四个主要模块，并进一步利用金字塔池化模块来扩大特征感受野，大小分别被设置为8、4、2。通过上采样模块分别将第三Block模块、第四Block模块和金字塔池化模块的输出特征上采样至原始输入图像的四分之一，并将特征通道的数量处理为128个维度。上采样模块仅包含一个3×3的卷积层和批处理BN，不包括激活函数ReLU。这里采用先对特征求和，再通过激活函数ReLU进行计算的方式，这样对精度的影响不大，但是可以节省计算量，否则5个上采样模块都加上激活函数ReLU的话，再加上后续的ReLU，相当于多进行了5次ReLU的计算，这在一定程度上会降低模型的速度。

3×3卷积、批处理BN、激活函数ReLU、随机失活Dropout和1×1卷积共同构成了seg分割处理模块，该模块将特征通道的数量处理为具体的要识别的类别的数量。随机失活Dropout被用来避免模型过度拟合，将每个特征点随机失活的概率设置为0.1。

获取辅助损失时采用下采样标注图片来计算辅助损耗。在训练阶段，将标注图片下采样到每个模块输出特征的大小，以计算辅助损失。这样做的目的是使网络更加关注主要损失(seg分割处理模块中的损失数据)而不是辅助损失。将每个辅助损失的权重设置为1或0并对标注图片进行下采样的方法可以更好地区分主要损失和辅助损失，并且该方法易于实现。

在本发明的一个实施例中，对聚合架构网络模型的实验结果显示，本发明在Cityscapes测试数据集上取得了74.4％mIoU和每秒42.7帧的效果，且分辨率为超高的2048×1024，在速度上已经满足了实时的要求。在CamVid测试数据集上，模型同样取得了很好的效果，mIoU为70.1％并每秒帧数达到了93.5，分辨率为960×720。

本发明还对多辅助损失训练方法的有效性做了验证实验。在相同的实验条件下(均使用聚合架构网络模型，并在Cityscapes验证数据集上进行验证)。首先，不加入该多辅助训练方法的情况下，模型分割精度mIoU为69.02％；加入该方法对模型进行训练以后，模型分割效果提升了6.56％(从69.02％提升到75.58％)，多辅助损失训练方法给模型带来了可观的效果提升。而且该方法仅在训练阶段使用，不影响使用阶段下模型的处理速度，因此证明了本发明中提出的多辅助损失训练方法是十分有效的。

综上所述，本发明设计了新的聚合架构网络模型来获取更多的语义信息，同时保留特征空间信息，结构更加简单有效，相比于现有技术在相同的条件下可有效提升帧数和mIoU值，可快速高效地实现实时街道场景分割。并且，本发明还设计了多辅助损失训练方法来训练聚合架构网络模型，该方法仅在模型训练阶段引入，保证了在使用阶段不会对模型的分割速度造成影响，可以有效增强模型的分割效果。

Claims

1.一种用于实时街道场景分割的方法，其特征在于，包括以下步骤：

S1、获取已知标签的街道场景图片；

S3-2、将已知标签的街道场景图片输入聚合架构网络模型，分别通过深度学习框架Pytorch中的交叉熵损失函数CrossEntropyLoss获取第三Block模块输出对应的第一辅助损失、第四Block模块输出对应的第二辅助损失、金字塔池化模块输出对应的第三辅助损失和seg分割处理模块中的损失数据；

S3-5、根据公式：

S3-6、根据公式：

2.根据权利要求1所述的用于实时街道场景分割的方法，其特征在于，所述步骤S2中第一Block模块、第二Block模块、第三Block模块、第四Block模块的输出特征尺寸分别为聚合架构网络模型输入图片尺寸的1/4、1/8、1/16和1/32；金字塔池化模块的大小分别为8、4和2，金字塔池化模块的输出特征尺寸为聚合架构网络模型输入图片尺寸的1/32；每个上采样模块均包括相互连接的一个3×3的卷积层和一个批处理BN单元；每个上采样模块的输出特征尺寸均为聚合架构网络模型输入图片尺寸的1/4，通道数均为128；Final模块包括依次连接的一个3×3的卷积层、一个批处理BN单元和一个激活函数ReLU。

3.根据权利要求1所述的用于实时街道场景分割的方法，其特征在于，所述seg分割处理模块包括依次连接的一个3×3的卷积层、一个批处理BN单元、一个激活函数ReLU、一个随机失活Dropout和一个1×1卷积层；其中随机失活Dropout对每个特征点的随机失活概率为0.1。

4.一种用于实时街道场景分割的聚合架构网络模型，其特征在于，包括作为骨干网络的残差神经网络ResNet-18，以及依次串联的第一Block模块、第二Block模块、第三Block模块、第四Block模块和金字塔池化模块；连接在第一Block模块输出端的第一上采样模块，连接在第二Block模块输出端的第二上采样模块，连接在第三Block模块输出端的第三上采样模块，连接在第四Block模块输出端的第四上采样模块，连接在金字塔池化模输出端的第五上采样模块；第一上采样模块、第二上采样模块、第三上采样模块、第四上采样模块和第五上采样模块的输出端分别与特征求和模块的输入端相连；特征求和模块的输出端依次连接一个激活函数ReLU、Final模块和seg分割处理模块；其中第一Block模块的输入端为聚合架构网络模型输入端，seg分割处理模块的输出端为聚合架构网络模型的输出端。

5.根据权利要求4所述的用于实时街道场景分割的聚合架构网络模型，其特征在于，第一Block模块、第二Block模块、第三Block模块、第四Block模块的输出特征尺寸分别为聚合架构网络模型输入图片尺寸的1/4、1/8、1/16和1/32；金字塔池化模块的大小分别为8、4和2，金字塔池化模块的输出特征尺寸为聚合架构网络模型输入图片尺寸的1/32；每个上采样模块均包括相互连接的一个3×3的卷积层和一个批处理BN单元；每个上采样模块的输出特征尺寸均为聚合架构网络模型输入图片尺寸的1/4，通道数均为128；Final模块包括依次连接的一个3×3的卷积层、一个批处理BN单元和一个激活函数ReLU。

6.根据权利要求4所述的用于实时街道场景分割的聚合架构网络模型，其特征在于，所述seg分割处理模块包括依次连接的一个3×3的卷积层、一个批处理BN单元、一个激活函数ReLU、一个随机失活Dropout和一个1×1卷积层。

7.根据权利要求6所述的用于实时街道场景分割的聚合架构网络模型，其特征在于，随机失活Dropout对每个特征点的随机失活概率为0.1。

8.一种用于实时街道场景分割的聚合架构网络模型的多辅助损失训练方法，其特征在于，包括以下步骤：

A5、根据公式：

A6、根据公式：