CN111985409A - 一种用于实时街道场景分割的方法 - Google Patents

一种用于实时街道场景分割的方法 Download PDF

Info

Publication number
CN111985409A
CN111985409A CN202010850747.1A CN202010850747A CN111985409A CN 111985409 A CN111985409 A CN 111985409A CN 202010850747 A CN202010850747 A CN 202010850747A CN 111985409 A CN111985409 A CN 111985409A
Authority
CN
China
Prior art keywords
module
network model
architecture network
aggregation architecture
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010850747.1A
Other languages
English (en)
Other versions
CN111985409B (zh
Inventor
邵杰
曹坤涛
黄茜
蒋春林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Huakun Zhenyu Intelligent Technology Co.,Ltd.
Original Assignee
Sichuan Artificial Intelligence Research Institute Yibin
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Artificial Intelligence Research Institute Yibin filed Critical Sichuan Artificial Intelligence Research Institute Yibin
Priority to CN202010850747.1A priority Critical patent/CN111985409B/zh
Publication of CN111985409A publication Critical patent/CN111985409A/zh
Application granted granted Critical
Publication of CN111985409B publication Critical patent/CN111985409B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/38Outdoor scenes
    • G06V20/39Urban scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用于实时街道场景分割的方法,涉及聚合架构网络模型以及多辅助损失训练方法。该用于实时街道场景分割的方法包括以下步骤:S1、获取已知标签的街道场景图片;S2、建立聚合架构网络模型;S3、基于已知标签的街道场景图片采用多辅助损失训练方法对聚合架构网络模型进行训练,得到训练后的聚合架构网络模型;S4、采用训练后的聚合架构网络模型对街道场景的实时图像进行分割,完成实时街道场景分割。本发明设计了新的聚合架构网络模型来获取更多的语义信息,同时保留特征空间信息,结构更加简单有效,相比于现有技术在相同的条件下可有效提升帧数和mIoU值,可快速高效地实现实时街道场景分割。

Description

一种用于实时街道场景分割的方法
技术领域
本发明归属于计算机视觉领域,具体是一种用于实时街道场景分割的方法,涉及聚合架构网络模型以及多辅助损失训练方法。
背景技术
街道场景下的实时语义分割,是一种追求高分割准确度和分割速度的语义分割任务。其目标是在保证实时的情况下,解析城市复杂街道场景的构成元素,包括行车道、行人、车辆、建筑、交通信号灯、人行道等等。该任务在自动驾驶领域具有极大的应用潜力。
深度学习技术在图像语义分割的领域证明了其出色的高精度分割能力,但是,以往的方法更关注提高精度,而忽视了模型的分割速度,具有巨大计算成本的模型很难满足自动驾驶等应用的实时需求。为了解决这个问题,一些研究人员提出了轻量级的卷积网络结构,以探索如何在确保一定程度的准确性的同时减少网络计算的数量。这些方法可以分为三种主要架构:(1)扩张架构,用扩张卷积代替传统的下采样操作,以生成高分辨率和语义丰富的特征,如“Yu,F.,Koltun,V.:Multi-scale context aggregation by dilatedconvolutions.In:4th International Conference on Learning Representations,ICLR2016,San Juan,Puerto Rico,May 2-4,2016,Conference Track Proceedings(2016)”;(2)编码器-解码器架构,利用自上而下和跳过连接来重用低级别的高分辨率功能,如“Ronneberger,O.,Fischer,P.,Brox,T.:U-net:Convolutional networks forbiomedical image segmentation.In:Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015-18th International Conference Munich,Germany,October 5-9,2015,Proceedings,Part III.pp.234–241(2015)”和“Badrinarayanan,V.,Kendall,A.,Cipolla,R.:Segnet:A deep convolutional encoder-decoder architecture for image segmentation.IEEE Trans.PatternAnal.Mach.Intell.39(12),2481–2495(2017)”;(3)多路径架构,它集成了专注于不同特征的多个路径以确保分割效果,其核心在于分支设计和融合结构设计,如“Zhao,H.,Qi,X.,Shen,X.,Shi,J.,Jia,J.:Icnet for real-time semantic segmentation on high-resolution images.In:Computer Vision-ECCV 2018-15th European Conference,Munich,Germany,September8-14,2018,Proceedings,Part III.pp.418–434(2018)”、“Pohlen,T.,Hermans,A.,Mathias,M.,Leibe,B.:Full-resolution residual networksfor semantic segmentation in street scenes.In:2017IEEE Conference on ComputerVision and Pattern Recognition,CVPR 2017,Honolulu,HI,USA,July 21-26,2017.pp.3309–3318(2017)”和“Wu,Z.,Shen,C.,van den Hengel,A.:Real-time semanticimage segmentation via spatial sparsity.CoRR abs/1712.00213(2017),http://arxiv.org/abs/1712.00213”。但是现有的这些架构方法,依旧存在计算量大、难以兼顾精度与速度的问题。
发明内容
针对现有技术中的上述不足,本发明提供了一种用于实时街道场景分割的方法,涉及聚合架构网络模型及多辅助损失训练方法,解决了现有技术难以兼顾精度与速度的问题。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种用于实时街道场景分割的方法,其包括以下步骤:
S1、获取已知标签的街道场景图片;
S2、建立聚合架构网络模型:采用残差神经网络ResNet-18作为骨干网络,依次串联第一Block模块、第二Block模块、第三Block模块、第四Block模块和金字塔池化模块,在第一Block模块的输出端连接第一上采样模块,在第二Block模块的输出端连接第二上采样模块,在第三Block模块的输出端连接第三上采样模块,在第四Block模块的输出端连接第四上采样模块,在金字塔池化模块的输出端连接第五上采样模块;将第一上采样模块、第二上采样模块、第三上采样模块、第四上采样模块和第五上采样模块的输出端分别与特征求和模块的输入端相连;将特征求和模块的输出端依次连接一个激活函数ReLU、Final模块和seg分割处理模块;将seg分割处理模块的输出端作为聚合架构网络模型的输出端;
S3、基于已知标签的街道场景图片采用多辅助损失训练方法对聚合架构网络模型进行训练,得到训练后的聚合架构网络模型:
S3-1、将骨干网络的学习率设置为0.002,将其余模块的初始学习率设置为0.02;
S3-2、将已知标签的街道场景图片输入聚合架构网络模型,分别通过深度学习框架Pytorch中的交叉熵损失函数CrossEntropyLoss获取第三Block模块输出对应的第一辅助损失、第四Block模块输出对应的第二辅助损失、金字塔池化模块输出对应的第三辅助损失和seg分割处理模块对应的seg分割处理模块中的损失数据;
S3-3、将第一辅助损失、第二辅助损失、第三辅助损失与seg分割处理模块中的损失数据之和作为总的损失;
S3-4、基于总的损失进行反向传播,更新聚合架构网络模型中每个卷积层的参数;
S3-5、根据公式:
Figure BDA0002644641960000031
更新所有模块的学习率lr;其中lrmin为最小学习率,值为1×10-8;lrmax为所有模块的初始学习率;Tcur为当前训练轮次;T为总训练次数;π为常数;
S3-6、根据公式:
Figure BDA0002644641960000041
获取当前聚合架构网络模型的评价值mIoU;其中k+1为数据集类别的总数;pij表示第i类被识别为第j类的像素总数;pji表示第j类被识别为第i类的像素总数;pii表示识别正确的像素总数;
S3-7、判断当前聚合架构网络模型的评价值mIoU是否大于阈值,若是则输出当前聚合架构网络模型,得到训练后的聚合架构网络模型,进入步骤S4;否则返回步骤S3-2;
S4、采用训练后的聚合架构网络模型对街道场景的实时图像进行分割,完成实时街道场景分割。
进一步地,步骤S2中第一Block模块、第二Block模块、第三Block模块、第四Block模块的输出特征尺寸分别为聚合架构网络模型输入图片尺寸的1/4、1/8、1/16和1/32;金字塔池化模块的大小分别为8、4和2,金字塔池化模块的输出特征尺寸为聚合架构网络模型输入图片尺寸的1/32;每个上采样模块均包括相互连接的一个3×3的卷积层和一个批处理BN单元;每个上采样模块的输出特征尺寸均为聚合架构网络模型输入图片尺寸的1/4,通道数均为128;Final模块包括依次连接的一个3×3的卷积层、一个批处理BN单元和一个激活函数ReLU。
进一步地,seg分割处理模块包括依次连接的一个3×3的卷积层、一个批处理BN单元、一个激活函数ReLU、一个随机失活Dropout和一个1×1卷积层;其中随机失活Dropout对每个特征点的随机失活概率为0.1。
提供一种用于实时街道场景分割的聚合架构网络模型,其包括作为骨干网络的残差神经网络ResNet-18,以及依次串联的第一Block模块、第二Block模块、第三Block模块、第四Block模块和金字塔池化模块;连接在第一Block模块输出端的第一上采样模块,连接在第二Block模块输出端的第二上采样模块,连接在第三Block模块输出端的第三上采样模块,连接在第四Block模块输出端的第四上采样模块,连接在金字塔池化模输出端的第五上采样模块;第一上采样模块、第二上采样模块、第三上采样模块、第四上采样模块和第五上采样模块的输出端分别与特征求和模块的输入端相连;特征求和模块的输出端依次连接一个激活函数ReLU、Final模块和seg分割处理模块;其中第一Block模块的输入端为聚合架构网络模型输入端,seg分割处理模块的输出端为聚合架构网络模型的输出端。
进一步地,第一Block模块、第二Block模块、第三Block模块、第四Block模块的输出特征尺寸分别为聚合架构网络模型输入图片尺寸的1/4、1/8、1/16和1/32;金字塔池化模块的大小分别为8、4和2,金字塔池化模块的输出特征尺寸为聚合架构网络模型输入图片尺寸的1/32;每个上采样模块均包括相互连接的一个3×3的卷积层和一个批处理BN单元;每个上采样模块的输出特征尺寸均为聚合架构网络模型输入图片尺寸的1/4,通道数均为128;Final模块包括依次连接的一个3×3的卷积层、一个批处理BN单元和一个激活函数ReLU。
进一步地,seg分割处理模块包括依次连接的一个3×3的卷积层、一个批处理BN单元、一个激活函数ReLU、一个随机失活Dropout和一个1×1卷积层。
进一步地,随机失活Dropout对每个特征点的随机失活概率为0.1。
提供一种用于实时街道场景分割的聚合架构网络模型的多辅助损失训练方法,其包括以下步骤:
A1、将骨干网络的学习率设置为0.002,将其余模块的初始学习率设置为0.02;
A2、将已知标签的街道场景图片输入聚合架构网络模型,分别通过深度学习框架Pytorch中的交叉熵损失函数CrossEntropyLoss获取第三Block模块输出对应的第一辅助损失、第四Block模块输出对应的第二辅助损失、金字塔池化模块输出对应的第三辅助损失和seg分割处理模块对应的seg分割处理模块中的损失数据;
A3、将第一辅助损失、第二辅助损失、第三辅助损失与seg分割处理模块中的损失数据之和作为总的损失;
A4、基于总的损失进行反向传播,更新聚合架构网络模型中每个卷积层的参数;
A5、根据公式:
Figure BDA0002644641960000061
更新所有模块的学习率lr;其中lrmin为最小学习率,值为1×10-8;lrmax为所有模块的初始学习率;Tcur为当前训练轮次;T为总训练次数;π为常数;
A6、根据公式:
Figure BDA0002644641960000062
获取当前聚合架构网络模型的评价值mIoU;其中k+1为数据集类别的总数;pij表示第i类被识别为第j类的像素总数;pji表示第j类被识别为第i类的像素总数;pii表示识别正确的像素总数;
A7、判断当前聚合架构网络模型的评价值mIoU是否大于阈值,若是则输出当前聚合架构网络模型,完成聚合架构网络模型的训练;否则返回步骤A2。
本发明的有益效果为:
1、本发明设计了新的聚合架构网络模型来获取更多的语义信息,同时保留特征空间信息,结构更加简单有效,相比于现有的编码器-解码器架构模型和多路径架构模型,在相同的条件下可有效提升帧数和mIoU值,可快速高效地实现实时街道场景分割。
2、本发明设计了多辅助损失训练方法来训练模型,可以有效增强模型的分割效果。该方法仅在模型训练阶段引入,保证了在使用阶段不会对模型的分割速度造成影响。
附图说明
图1为本发明的流程示意图;
图2为聚合架构网络模型的结构示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,该用于实时街道场景分割的方法包括以下步骤:
S1、获取已知标签的街道场景图片;
S2、建立聚合架构网络模型:采用残差神经网络ResNet-18作为骨干网络,依次串联第一Block模块、第二Block模块、第三Block模块、第四Block模块和金字塔池化模块,在第一Block模块的输出端连接第一上采样模块,在第二Block模块的输出端连接第二上采样模块,在第三Block模块的输出端连接第三上采样模块,在第四Block模块的输出端连接第四上采样模块,在金字塔池化模块的输出端连接第五上采样模块;将第一上采样模块、第二上采样模块、第三上采样模块、第四上采样模块和第五上采样模块的输出端分别与特征求和模块的输入端相连;将特征求和模块的输出端依次连接一个激活函数ReLU、Final模块和seg分割处理模块;将seg分割处理模块的输出端作为聚合架构网络模型的输出端;
S3、基于已知标签的街道场景图片采用多辅助损失训练方法对聚合架构网络模型进行训练,得到训练后的聚合架构网络模型:
S3-1、将骨干网络的学习率设置为0.002,将其余模块的初始学习率设置为0.02;
S3-2、将已知标签的街道场景图片输入聚合架构网络模型,分别通过深度学习框架Pytorch中的交叉熵损失函数CrossEntropyLoss获取第三Block模块输出对应的第一辅助损失、第四Block模块输出对应的第二辅助损失、金字塔池化模块输出对应的第三辅助损失和seg分割处理模块对应的seg分割处理模块中的损失数据;
S3-3、将第一辅助损失、第二辅助损失、第三辅助损失与seg分割处理模块中的损失数据之和作为总的损失;
S3-4、基于总的损失进行反向传播,更新聚合架构网络模型中每个卷积层的参数;
S3-5、根据公式:
Figure BDA0002644641960000081
更新所有模块的学习率lr;其中lrmin为最小学习率,值为1×10-8;lrmax为所有模块的初始学习率;Tcur为当前训练轮次;T为总训练次数;π为常数;
S3-6、根据公式:
Figure BDA0002644641960000091
获取当前聚合架构网络模型的评价值mIoU;其中k+1为数据集类别的总数;pij表示第i类被识别为第j类的像素总数;pji表示第j类被识别为第i类的像素总数;pii表示识别正确的像素总数;
S3-7、判断当前聚合架构网络模型的评价值mIoU是否大于阈值,若是则输出当前聚合架构网络模型,得到训练后的聚合架构网络模型,进入步骤S4;否则返回步骤S3-2;
S4、采用训练后的聚合架构网络模型对街道场景的实时图像进行分割,完成实时街道场景分割。
如图2所示,该用于实时街道场景分割的聚合架构网络模型包括作为骨干网络的残差神经网络ResNet-18,以及依次串联的第一Block模块、第二Block模块、第三Block模块、第四Block模块和金字塔池化模块;连接在第一Block模块输出端的第一上采样模块,连接在第二Block模块输出端的第二上采样模块,连接在第三Block模块输出端的第三上采样模块,连接在第四Block模块输出端的第四上采样模块,连接在金字塔池化模输出端的第五上采样模块;第一上采样模块、第二上采样模块、第三上采样模块、第四上采样模块和第五上采样模块的输出端分别与特征求和模块的输入端相连;特征求和模块的输出端依次连接一个激活函数ReLU、Final模块和seg分割处理模块;其中第一Block模块的输入端为聚合架构网络模型输入端,seg分割处理模块的输出端为聚合架构网络模型的输出端。
第一Block模块、第二Block模块、第三Block模块、第四Block模块的输出特征尺寸分别为聚合架构网络模型输入图片尺寸的1/4、1/8、1/16和1/32;金字塔池化模块的大小分别为8、4和2,金字塔池化模块的输出特征尺寸为聚合架构网络模型输入图片尺寸的1/32;每个上采样模块均包括相互连接的一个3×3的卷积层和一个批处理BN单元;每个上采样模块的输出特征尺寸均为聚合架构网络模型输入图片尺寸的1/4,通道数均为128;Final模块包括依次连接的一个3×3的卷积层、一个批处理BN单元和一个激活函数ReLU。
seg分割处理模块包括依次连接的一个3×3的卷积层、一个批处理BN单元、一个激活函数ReLU、一个随机失活Dropout和一个1×1卷积层。随机失活Dropout对每个特征点的随机失活概率为0.1。
该用于实时街道场景分割的聚合架构网络模型的多辅助损失训练方法包括以下步骤:
A1、将骨干网络的学习率设置为0.002,将其余模块的初始学习率设置为0.02;
A2、将已知标签的街道场景图片输入聚合架构网络模型,分别通过深度学习框架Pytorch中的交叉熵损失函数CrossEntropyLoss获取第三Block模块输出对应的第一辅助损失、第四Block模块输出对应的第二辅助损失、金字塔池化模块输出对应的第三辅助损失和seg分割处理模块对应的seg分割处理模块中的损失数据;
A3、将第一辅助损失、第二辅助损失、第三辅助损失与seg分割处理模块中的损失数据之和作为总的损失;
A4、基于总的损失进行反向传播,更新聚合架构网络模型中每个卷积层的参数;
A5、根据公式:
Figure BDA0002644641960000111
更新所有模块的学习率lr;其中lrmin为最小学习率,值为1×10-8;lrmax为所有模块的初始学习率;Tcur为当前训练轮次;T为总训练次数;π为常数;
A6、根据公式:
Figure BDA0002644641960000112
获取当前聚合架构网络模型的评价值mIoU;其中k+1为数据集类别的总数;pij表示第i类被识别为第j类的像素总数;pji表示第j类被识别为第i类的像素总数;pii表示识别正确的像素总数;
A7、判断当前聚合架构网络模型的评价值mIoU是否大于阈值,若是则输出当前聚合架构网络模型,完成聚合架构网络模型的训练;否则返回步骤A2。
步骤S1的具体实现方法可以为:从Cityscapes数据集和/或CamVid道路场景数据集中获取已知标签的街道场景图片。Cityscapes数据集专注于对城市街道场景的语义理解,它由5000个带有精细注释的图像和20000个具有粗糙注释的图像组成,分辨率为2048×1024。对于语义分割任务,将带注释的图像分为训练集、验证集和测试集,分别包含2975、500和1525个图像。此外,该数据集包含30个类别,其中19个类别可被用于训练和测试。在实验中,可以仅使用精细的带注释的图像。
CamVid道路场景数据集包含从分辨率为960×720的视频序列中提取的701个密集注释的图片,其中367张用于训练,101张用于验证,233张用于测试。该数据中11种常见语义类别可被用于语义分割任务。
在具体实施过程中,对于已知标签的街道场景图片,可以先对其进行1.0-2.0的尺度缩放、随机裁剪、随机水平翻转和张量变换等处理,其中Cityscapes和CamVid数据集的裁剪大小分别为:1024×1024和720×720。在Cityscapes和CamVid上分别训练了200epochs和400epochs,训练批处理大小batch size分别设置为4和8。
本发明选取残差神经网络ResNet-18作为骨干网络,用第一Block模块、第二Block模块、第三Block模块和第四Block模块表示其四个主要模块,并进一步利用金字塔池化模块来扩大特征感受野,大小分别被设置为8、4、2。通过上采样模块分别将第三Block模块、第四Block模块和金字塔池化模块的输出特征上采样至原始输入图像的四分之一,并将特征通道的数量处理为128个维度。上采样模块仅包含一个3×3的卷积层和批处理BN,不包括激活函数ReLU。这里采用先对特征求和,再通过激活函数ReLU进行计算的方式,这样对精度的影响不大,但是可以节省计算量,否则5个上采样模块都加上激活函数ReLU的话,再加上后续的ReLU,相当于多进行了5次ReLU的计算,这在一定程度上会降低模型的速度。
3×3卷积、批处理BN、激活函数ReLU、随机失活Dropout和1×1卷积共同构成了seg分割处理模块,该模块将特征通道的数量处理为具体的要识别的类别的数量。随机失活Dropout被用来避免模型过度拟合,将每个特征点随机失活的概率设置为0.1。
获取辅助损失时采用下采样标注图片来计算辅助损耗。在训练阶段,将标注图片下采样到每个模块输出特征的大小,以计算辅助损失。这样做的目的是使网络更加关注主要损失(seg分割处理模块中的损失数据)而不是辅助损失。将每个辅助损失的权重设置为1或0并对标注图片进行下采样的方法可以更好地区分主要损失和辅助损失,并且该方法易于实现。
在本发明的一个实施例中,对聚合架构网络模型的实验结果显示,本发明在Cityscapes测试数据集上取得了74.4%mIoU和每秒42.7帧的效果,且分辨率为超高的2048×1024,在速度上已经满足了实时的要求。在CamVid测试数据集上,模型同样取得了很好的效果,mIoU为70.1%并每秒帧数达到了93.5,分辨率为960×720。
本发明还对多辅助损失训练方法的有效性做了验证实验。在相同的实验条件下(均使用聚合架构网络模型,并在Cityscapes验证数据集上进行验证)。首先,不加入该多辅助训练方法的情况下,模型分割精度mIoU为69.02%;加入该方法对模型进行训练以后,模型分割效果提升了6.56%(从69.02%提升到75.58%),多辅助损失训练方法给模型带来了可观的效果提升。而且该方法仅在训练阶段使用,不影响使用阶段下模型的处理速度,因此证明了本发明中提出的多辅助损失训练方法是十分有效的。
综上所述,本发明设计了新的聚合架构网络模型来获取更多的语义信息,同时保留特征空间信息,结构更加简单有效,相比于现有技术在相同的条件下可有效提升帧数和mIoU值,可快速高效地实现实时街道场景分割。并且,本发明还设计了多辅助损失训练方法来训练聚合架构网络模型,该方法仅在模型训练阶段引入,保证了在使用阶段不会对模型的分割速度造成影响,可以有效增强模型的分割效果。

Claims (8)

1.一种用于实时街道场景分割的方法,其特征在于,包括以下步骤:
S1、获取已知标签的街道场景图片;
S2、建立聚合架构网络模型:采用残差神经网络ResNet-18作为骨干网络,依次串联第一Block模块、第二Block模块、第三Block模块、第四Block模块和金字塔池化模块,在第一Block模块的输出端连接第一上采样模块,在第二Block模块的输出端连接第二上采样模块,在第三Block模块的输出端连接第三上采样模块,在第四Block模块的输出端连接第四上采样模块,在金字塔池化模块的输出端连接第五上采样模块;将第一上采样模块、第二上采样模块、第三上采样模块、第四上采样模块和第五上采样模块的输出端分别与特征求和模块的输入端相连;将特征求和模块的输出端依次连接一个激活函数ReLU、Final模块和seg分割处理模块;将seg分割处理模块的输出端作为聚合架构网络模型的输出端;
S3、基于已知标签的街道场景图片采用多辅助损失训练方法对聚合架构网络模型进行训练,得到训练后的聚合架构网络模型:
S3-1、将骨干网络的学习率设置为0.002,将其余模块的初始学习率设置为0.02;
S3-2、将已知标签的街道场景图片输入聚合架构网络模型,分别通过深度学习框架Pytorch中的交叉熵损失函数CrossEntropyLoss获取第三Block模块输出对应的第一辅助损失、第四Block模块输出对应的第二辅助损失、金字塔池化模块输出对应的第三辅助损失和seg分割处理模块中的损失数据;
S3-3、将第一辅助损失、第二辅助损失、第三辅助损失与seg分割处理模块中的损失数据之和作为总的损失;
S3-4、基于总的损失进行反向传播,更新聚合架构网络模型中每个卷积层的参数;
S3-5、根据公式:
Figure FDA0002644641950000021
更新所有模块的学习率lr;其中lrmin为最小学习率,值为1×10-8;lrmax为所有模块的初始学习率;Tcur为当前训练轮次;T为总训练次数;π为常数;
S3-6、根据公式:
Figure FDA0002644641950000022
获取当前聚合架构网络模型的评价值mIoU;其中k+1为数据集类别的总数;pij表示第i类被识别为第j类的像素总数;pji表示第j类被识别为第i类的像素总数;pii表示识别正确的像素总数;
S3-7、判断当前聚合架构网络模型的评价值mIoU是否大于阈值,若是则输出当前聚合架构网络模型,得到训练后的聚合架构网络模型,进入步骤S4;否则返回步骤S3-2;
S4、采用训练后的聚合架构网络模型对街道场景的实时图像进行分割,完成实时街道场景分割。
2.根据权利要求1所述的用于实时街道场景分割的方法,其特征在于,所述步骤S2中第一Block模块、第二Block模块、第三Block模块、第四Block模块的输出特征尺寸分别为聚合架构网络模型输入图片尺寸的1/4、1/8、1/16和1/32;金字塔池化模块的大小分别为8、4和2,金字塔池化模块的输出特征尺寸为聚合架构网络模型输入图片尺寸的1/32;每个上采样模块均包括相互连接的一个3×3的卷积层和一个批处理BN单元;每个上采样模块的输出特征尺寸均为聚合架构网络模型输入图片尺寸的1/4,通道数均为128;Final模块包括依次连接的一个3×3的卷积层、一个批处理BN单元和一个激活函数ReLU。
3.根据权利要求1所述的用于实时街道场景分割的方法,其特征在于,所述seg分割处理模块包括依次连接的一个3×3的卷积层、一个批处理BN单元、一个激活函数ReLU、一个随机失活Dropout和一个1×1卷积层;其中随机失活Dropout对每个特征点的随机失活概率为0.1。
4.一种用于实时街道场景分割的聚合架构网络模型,其特征在于,包括作为骨干网络的残差神经网络ResNet-18,以及依次串联的第一Block模块、第二Block模块、第三Block模块、第四Block模块和金字塔池化模块;连接在第一Block模块输出端的第一上采样模块,连接在第二Block模块输出端的第二上采样模块,连接在第三Block模块输出端的第三上采样模块,连接在第四Block模块输出端的第四上采样模块,连接在金字塔池化模输出端的第五上采样模块;第一上采样模块、第二上采样模块、第三上采样模块、第四上采样模块和第五上采样模块的输出端分别与特征求和模块的输入端相连;特征求和模块的输出端依次连接一个激活函数ReLU、Final模块和seg分割处理模块;其中第一Block模块的输入端为聚合架构网络模型输入端,seg分割处理模块的输出端为聚合架构网络模型的输出端。
5.根据权利要求4所述的用于实时街道场景分割的聚合架构网络模型,其特征在于,第一Block模块、第二Block模块、第三Block模块、第四Block模块的输出特征尺寸分别为聚合架构网络模型输入图片尺寸的1/4、1/8、1/16和1/32;金字塔池化模块的大小分别为8、4和2,金字塔池化模块的输出特征尺寸为聚合架构网络模型输入图片尺寸的1/32;每个上采样模块均包括相互连接的一个3×3的卷积层和一个批处理BN单元;每个上采样模块的输出特征尺寸均为聚合架构网络模型输入图片尺寸的1/4,通道数均为128;Final模块包括依次连接的一个3×3的卷积层、一个批处理BN单元和一个激活函数ReLU。
6.根据权利要求4所述的用于实时街道场景分割的聚合架构网络模型,其特征在于,所述seg分割处理模块包括依次连接的一个3×3的卷积层、一个批处理BN单元、一个激活函数ReLU、一个随机失活Dropout和一个1×1卷积层。
7.根据权利要求6所述的用于实时街道场景分割的聚合架构网络模型,其特征在于,随机失活Dropout对每个特征点的随机失活概率为0.1。
8.一种用于实时街道场景分割的聚合架构网络模型的多辅助损失训练方法,其特征在于,包括以下步骤:
A1、将骨干网络的学习率设置为0.002,将其余模块的初始学习率设置为0.02;
A2、将已知标签的街道场景图片输入聚合架构网络模型,分别通过深度学习框架Pytorch中的交叉熵损失函数CrossEntropyLoss获取第三Block模块输出对应的第一辅助损失、第四Block模块输出对应的第二辅助损失、金字塔池化模块输出对应的第三辅助损失和seg分割处理模块对应的seg分割处理模块中的损失数据;
A3、将第一辅助损失、第二辅助损失、第三辅助损失与seg分割处理模块中的损失数据之和作为总的损失;
A4、基于总的损失进行反向传播,更新聚合架构网络模型中每个卷积层的参数;
A5、根据公式:
Figure FDA0002644641950000041
更新所有模块的学习率lr;其中lrmin为最小学习率,值为1×10-8;lrmax为所有模块的初始学习率;Tcur为当前训练轮次;T为总训练次数;π为常数;
A6、根据公式:
Figure FDA0002644641950000051
获取当前聚合架构网络模型的评价值mIoU;其中k+1为数据集类别的总数;pij表示第i类被识别为第j类的像素总数;pji表示第j类被识别为第i类的像素总数;pii表示识别正确的像素总数;
A7、判断当前聚合架构网络模型的评价值mIoU是否大于阈值,若是则输出当前聚合架构网络模型,完成聚合架构网络模型的训练;否则返回步骤A2。
CN202010850747.1A 2020-08-21 2020-08-21 一种用于实时街道场景分割的方法 Active CN111985409B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010850747.1A CN111985409B (zh) 2020-08-21 2020-08-21 一种用于实时街道场景分割的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010850747.1A CN111985409B (zh) 2020-08-21 2020-08-21 一种用于实时街道场景分割的方法

Publications (2)

Publication Number Publication Date
CN111985409A true CN111985409A (zh) 2020-11-24
CN111985409B CN111985409B (zh) 2021-03-16

Family

ID=73442974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010850747.1A Active CN111985409B (zh) 2020-08-21 2020-08-21 一种用于实时街道场景分割的方法

Country Status (1)

Country Link
CN (1) CN111985409B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115294412A (zh) * 2022-10-10 2022-11-04 临沂大学 基于深度学习的实时煤岩分割网络生成方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326893A (zh) * 2016-08-25 2017-01-11 安徽水滴科技有限责任公司 一种基于区域辨别的车辆颜色识别方法
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
US20190094875A1 (en) * 2017-09-28 2019-03-28 Nec Laboratories America, Inc. Generating occlusion-aware bird eye view representations of complex road scenes
CN109784386A (zh) * 2018-12-29 2019-05-21 天津大学 一种用语义分割辅助物体检测的方法
CN109919948A (zh) * 2019-02-26 2019-06-21 华南理工大学 基于深度学习的鼻咽癌病灶分割模型训练方法及分割方法
CN110147794A (zh) * 2019-05-21 2019-08-20 东北大学 一种基于深度学习的无人车室外场景实时分割方法
CN110310227A (zh) * 2019-06-27 2019-10-08 电子科技大学 一种基于高低频信息分解的图像超分辨率重建方法
CN110378985A (zh) * 2019-07-19 2019-10-25 中国传媒大学 一种基于gan的动漫绘画辅助创作方法
CN110795821A (zh) * 2019-09-25 2020-02-14 的卢技术有限公司 一种基于场景区分的深度强化学习训练方法及系统
CN110969626A (zh) * 2019-11-27 2020-04-07 西南交通大学 基于3d神经网络的人脑核磁共振影像的海马体提取方法
CN110992382A (zh) * 2019-12-30 2020-04-10 四川大学 用于辅助青光眼筛查的眼底图像视杯视盘分割方法及系统
CN111079649A (zh) * 2019-12-17 2020-04-28 西安电子科技大学 基于轻量化语义分割网络的遥感图像地物分类方法
US20200218948A1 (en) * 2019-01-03 2020-07-09 Beijing Jingdong Shangke Information Technology Co., Ltd. Thundernet: a turbo unified network for real-time semantic segmentation
CN111429459A (zh) * 2020-04-07 2020-07-17 上海极链网络科技有限公司 一种端到端的联合分类的医学图像分割方法及系统
CN111476249A (zh) * 2020-03-20 2020-07-31 华东师范大学 多尺度大感受野卷积神经网络的构建方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326893A (zh) * 2016-08-25 2017-01-11 安徽水滴科技有限责任公司 一种基于区域辨别的车辆颜色识别方法
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
US20190094875A1 (en) * 2017-09-28 2019-03-28 Nec Laboratories America, Inc. Generating occlusion-aware bird eye view representations of complex road scenes
CN109784386A (zh) * 2018-12-29 2019-05-21 天津大学 一种用语义分割辅助物体检测的方法
US20200218948A1 (en) * 2019-01-03 2020-07-09 Beijing Jingdong Shangke Information Technology Co., Ltd. Thundernet: a turbo unified network for real-time semantic segmentation
CN109919948A (zh) * 2019-02-26 2019-06-21 华南理工大学 基于深度学习的鼻咽癌病灶分割模型训练方法及分割方法
CN110147794A (zh) * 2019-05-21 2019-08-20 东北大学 一种基于深度学习的无人车室外场景实时分割方法
CN110310227A (zh) * 2019-06-27 2019-10-08 电子科技大学 一种基于高低频信息分解的图像超分辨率重建方法
CN110378985A (zh) * 2019-07-19 2019-10-25 中国传媒大学 一种基于gan的动漫绘画辅助创作方法
CN110795821A (zh) * 2019-09-25 2020-02-14 的卢技术有限公司 一种基于场景区分的深度强化学习训练方法及系统
CN110969626A (zh) * 2019-11-27 2020-04-07 西南交通大学 基于3d神经网络的人脑核磁共振影像的海马体提取方法
CN111079649A (zh) * 2019-12-17 2020-04-28 西安电子科技大学 基于轻量化语义分割网络的遥感图像地物分类方法
CN110992382A (zh) * 2019-12-30 2020-04-10 四川大学 用于辅助青光眼筛查的眼底图像视杯视盘分割方法及系统
CN111476249A (zh) * 2020-03-20 2020-07-31 华东师范大学 多尺度大感受野卷积神经网络的构建方法
CN111429459A (zh) * 2020-04-07 2020-07-17 上海极链网络科技有限公司 一种端到端的联合分类的医学图像分割方法及系统

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
ALEXEY BOKHOVKIN ET AL: "Boundary Loss for Remote Sensing Imagery Semantic Segmentation", 《ISNN 2019: ADVANCES IN NEURAL NETWORKS》 *
GARCIA-GARCIA ET AL: "A Review on Deep Learning Techniques Applied to Semantic Segmentation", 《COMPUTER VISION AND PATTERN RECOGNITION》 *
YOUNGEUN KIM ET AL: "CNN-Based Semantic Segmentation Using Level Set Loss", 《2019 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION (WACV)》 *
刘亚玲: "基于深度学习的手势分割和识别方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
文宏雕: "基于深度学习的图像语义分割技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
程博: "基于深度学习的图像语义分割算法研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
郭荣幸等: "一种引入聚焦机制的静态图像人体分割方法", 《电视技术》 *
黄龙等: "结合全卷积神经网络的室内场景分割", 《中国图象图形学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115294412A (zh) * 2022-10-10 2022-11-04 临沂大学 基于深度学习的实时煤岩分割网络生成方法

Also Published As

Publication number Publication date
CN111985409B (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN111563508A (zh) 一种基于空间信息融合的语义分割方法
CN111563909B (zh) 一种复杂街景图像语义分割方法
Wu et al. FPANet: Feature pyramid aggregation network for real-time semantic segmentation
CN110276354B (zh) 一种高分辨率街景图片语义分割训练与实时分割方法
Sun et al. Multi-feature fusion network for road scene semantic segmentation
WO2022237139A1 (zh) 一种基于LaneSegNet的车道线检测方法及系统
CN113688836A (zh) 一种基于深度学习的实时性道路图像语义分割方法及系统
CN112183203A (zh) 一种基于多尺度像素特征融合的实时交通标志检测方法
CN110781850A (zh) 道路识别的语义分割系统和方法、计算机存储介质
Zhang et al. Lightweight and efficient asymmetric network design for real-time semantic segmentation
CN109753959B (zh) 基于自适应多尺度特征融合的路面交通标志检测方法
CN110781744A (zh) 一种基于多层次特征融合的小尺度行人检测方法
CN111310766A (zh) 基于编解码和二维注意力机制的车牌识别方法
CN114202743A (zh) 自动驾驶场景下基于改进faster-RCNN的小目标检测方法
CN115131797A (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN114119993A (zh) 一种基于自注意力机制的显著目标检测方法
Muthalagu et al. Vehicle lane markings segmentation and keypoint determination using deep convolutional neural networks
Wu et al. Real-time semantic segmentation via sequential knowledge distillation
CN111046738B (zh) 针对指静脉分割的轻量化u-net的精度提升方法
CN111985409B (zh) 一种用于实时街道场景分割的方法
Liu et al. Multi-stage context refinement network for semantic segmentation
CN116071748A (zh) 一种基于频域全局滤波的无监督视频目标分割方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN115115831A (zh) 基于注意力引导的多尺度上下文信息交互的语义分割方法
Cervera-Uribe et al. U19-Net: a deep learning approach for obstacle detection in self-driving cars

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210513

Address after: 610000 China (Sichuan) pilot Free Trade Zone, Chengdu, Sichuan

Patentee after: Sichuan Huakun Zhenyu Intelligent Technology Co.,Ltd.

Address before: No. 430, Section 2, west section of North Changjiang Road, Lingang Economic and Technological Development Zone, Yibin, Sichuan, 644000

Patentee before: Sichuan Artificial Intelligence Research Institute (Yibin)

TR01 Transfer of patent right