CN107704866A

CN107704866A - 基于新型神经网络的多任务场景语义理解模型及其应用

Info

Publication number: CN107704866A
Application number: CN201710453745.7A
Authority: CN
Inventors: 马惠敏; 陈晓智; 郭寒冰; 唐锐; 王凡
Original assignee: Tsinghua University; Zongmu Technology Shanghai Co Ltd
Current assignee: Tsinghua University; Zongmu Technology Shanghai Co Ltd
Priority date: 2017-06-15
Filing date: 2017-06-15
Publication date: 2018-02-16
Anticipated expiration: 2037-06-15
Also published as: CN107704866B

Abstract

本发明提供了轻量、高效的神经网络模型，并基于该模型设计了多任务场景语义理解模型。神经网络包括五个阶段：阶段一采用mC.ReLU模块；阶段二先采用Max‑Pooling进行下采样，后采用多个Block‑B模块；阶段三采用多个Block‑B模块和多个Block‑D模块；阶段四采用多个Block‑A模块和多个Block‑C模块；阶段五采用多个Block‑A模块。多任务场景语义理解模型包括：神经网络模型、多级融合网络、多任务语义预测网络，神经网络模型和多级融合网络对不同的任务共享以作为共有的特征提取器。本发明可应用于自动驾驶场景感知领域，有助于实现道路障碍物检测、场景语义分割、实时多任务语义预测。

Description

基于新型神经网络的多任务场景语义理解模型及其应用

技术领域

本发明涉及场景语义理解领域，特别是涉及基于新型神经网络的多任务场景语义理解模型及其在自动驾驶系统中的应用。

背景技术

自动驾驶是三维场景理解的一个重要应用领域。三维场景理解技术应用在自动驾驶系统中，能够实现物体检测和场景语义分割等任务。基于神经网络的视觉识别模型已经在大量已有工作中被证明其具有优异的性能。然而，将神经网络应用于移动平台的视觉感知计算，目前仍然具有很大的挑战。

一方面，由于神经网络计算复杂度较高，流行的VGG、GoogleNet、ResNet-50等网络难以在嵌入式设备上实现实时的计算；另一方面，不同计算机视觉任务的训练数据和输出往往不同，在通常的做法中，需要对不同的任务分别设计不同的模型，例如：对于物体检测任务，有FasterR-CNN、R-FCN、SSD等代表模型；对于语义分割任务，有FCN等常用的网络模型。

然而，在实际的自动驾驶系统中，由于硬件计算资源有限，同时应用多个算法模型必定会带来过大的资源开销。因此，为了将三维场景理解方法应用于自动驾驶系统中，还需要进一步研究：如何设计能够满足移动平台的计算要求的、轻量且高效的网络模型，以及如何设计能够同时实现多个视觉感知任务的场景语义理解的算法模型。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于新型神经网络的多任务场景语义理解模型，用于解决现有技术中的上述问题。

为实现上述目的及其他相关目的，本发明提供一种神经网络模型，所述神经网络模型包括五个阶段：第一阶段采用mC.ReLU模块；第二阶段首先采用Max-Pooling进行第二次下采样，然后采用多个Block-B模块，其中，每个所述Block-B模块为采用对称卷积的mC.ReLU瓶颈结构；第三阶段采用多个Block-B模块和多个Block-D模块，其中，每个所述Block-D模块为采用非对称卷积的mC.ReLU瓶颈结构；第四阶段采用多个Block-A模块和多个Block-C模块，其中，每个所述Block-A模块为采用对称卷积的瓶颈结构，每个所述Block-C模块为采用非对称卷积的瓶颈结构；第五阶段采用多个Block-A模块。

为实现上述目的及其他相关目的，本发明提供一种多任务场景语义理解模型，包括：基础网络、多级融合网络、及多任务语义预测网络，其中，所述基础网络和所述多级融合网络对不同的任务共享，以作为共有的特征提取器；所述基础网络为如上所述的神经网络模型；所述多级融合网络连接所述基础网络，用于将所述基础网络不同阶段输出的不同分辨率的特征进行融合；所述多任务语义预测网络连接所述多级融合网络，包括：似物性预测子网络RPN、物体检测子网络、及语义分割子网络。

为实现上述目的及其他相关目的，本发明提供一种自动驾驶场景感知的方法，包括：利用如上所述的多任务场景语义理解模型实现道路障碍物检测、场景语义分割、及实时多任务语义预测。

如上所述，为了实现高效的、统一的实时视觉数据处理，本发明从结构设计和特征变换的角度总结了神经网络设计的若干要素，由此设计出一种轻量级的、高效的基础网络FastNet。该FastNet网络在ImageNet图像分类中以最小的计算量达到了和GoogleNet、PVANet相近的准确率。除此之外，本发明基于该FastNet网络设计了一种多任务场景语义理解模型。该多任务统一网络模型除了FastNet基础网络，还包括多级融合网络和多任务语义预测网络，能够同时实现似物性区域提取、物体检测和场景语义分割，在Cityscapes数据集上512x1024的图像上达到了实时的处理速度。

附图说明

图1a～1e显示为本发明一实施例中的神经网络模型结构示意图。

图2显示为本发明一实施例中的多任务场景语义理解模型的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

为了提高模型的计算效率，本发明对基础网络结构的设计进行了深入研究，从结构设计和特征变换两大方面提出了高效模型设计的若干关键要素，并基于这些关键要素设计了一种轻量级的、高效的神经网络结构：FastNet。该网络特征提取部分只含1.75M参数，对512x1024的输入图像只需要3.8GMAC(multiply-accumulations)的计算量。

基于FastNet网络，本发明还提出了一种多任务统一网络模型，通过共享基础网络和多级融合网络的通用特征，以轻量级的多路高层分支实现丰富的语义预测。本发明将该模型应用于自动驾驶场景的感知，实现了实时的联合物体检测与场景语义分割。通过在ImageNet数据集和Cityscapes数据集上的实验表明了该模型的有效性：

(1)FastNet在ImageNet2012数据集上取得了和GoogleNet、PVANet相当的准确率，而计算复杂度只有它们的25％和62％；

(2)基于FastNet的检测模型在Cityscapes数据集上比之前最高效的PVANet模型提升了约8％的准确率，且运算时间更快(33FPS vs 20FPS)，参数量更小(4.5M vs 19M)；

(3)在输入512x1024图像的条件下，基于FastNet的多任务统一网络模型以33ms的处理时间同时实现了物体检测与场景语义分割。

以下将分别对本发明的FastNet网络和多任务场景语义理解模型做详细说明：

1、FastNet网络模型

不同于现有的神经网络加速方式，本发明着重于网络模型本身的设计，旨在通过提升网络本身的结构表达能力和特征提取能力来提高网络的效率。从而，本发明提出了设计高效神经网络的若干要素，包括：使用残差连接、瓶颈结构、增加信息传输路径、采用多尺度特征融合等的高效结构设计，以及使用对称激活函数、非对称卷积、扩张卷积等操作的高效特征变换。基于这些要素提出了计算复杂度低、参数量少的基础网络结构，并在ImageNet图像分类上和已有网络的性能进行对比。实验证明，本发明的FastNet网络模型无论在运算速度方面，还是运算准确率等方面均表现出优良的优越性。

1.1 设计FastNet网络模型的若干要素

从结构设计的角度，我们认为最核心的设计原则就是增加网络层间的信息流动、减小监督信号回传的阻碍。基于此原则，本发明采用以下几点要素来提高网络的表达能力：

·残差连接

残差连接(He K,Zhang X,Ren S,et al.Deep residual learning for imagerecognition.Proceedings of IEEE Conference on Computer Vision and PatternRecognition(CVPR),2016.770–778.)通过增加层间的短连接(short-cut)将传统神经网络直接学习特征响应H(x；θ)的做法转换成学习残差响应F(x；θ)＝H(x；θ)-x。残差连接可以有效缩短监督信号反传到每一层的实际路径长度，因而避免了深度神经网络训练时存在的梯度弥散(vanishing)问题或膨胀(exploding)问题。ResNet也因此成为2016年ImageNet图像识别比赛中最重要的突破性工作。对于残差连接的具体设计，本发明采用前激活(pre-activation)的结构(He K,Zhang X,Ren S,et al.Identity mappings in deep residualnetworks.Proceedings of European Conference on Computer Vision(ECCV),2016.630–645.)，该结构减小了层间信息流动的阻碍。

·瓶颈结构

瓶颈结构在进行卷积核大于1的卷积操作之前，先使用1x1的卷积将输入的通道数减少，然后在较低维的特征图上做变换，输出再通过1x1卷积进行升维。这种结构的好处有两点：第一，通过降维有利于提取更抽象的特征表示；第二，可以显著减小计算量。瓶颈结构在Inception网络和ResNet网络中都有应用。

·分组卷积

分组卷积(grouped convolution)和普通卷积的区别在于，每个输出神经元只和输入特征图的部分通道有连接。Xie等在ResNet的改进(Xie S,Girshick R B,Dollár P,etal.Aggregated residual transformations for deep neural networks.Proceedingsof IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2017.)中指出，分组卷积可以有效增加信息流动的有效路径数。有效路径数被认为是神经网络除了“宽度”和“深度”以外的第三个重要维度。一般而言，有效路径数越多，特征可能的组合就越多，因此网络表达能力越强。

·多级特征融合

神经网络不同层级特征通常具有不同的抽象程度和空间分辨率。一般而言，越接近输入层的特征，分辨率会越高，语义抽象程度会越低；相反，越接近输出层的特征，分辨率会越低，语义抽象程度会越高。在ImageNet训练的图像分类模型通常只基于最后输入的高层特征进行分类预测。然而，对于物体检测和语义分割任务，多级特征融合才能获得更好的性能。这是因为不同的物体/区域的尺存大小不一样。小物体需要更高分辨率的特征，而大物体可以使用小分辨率的特征。因此，将不同分辨率的特征进行融合，可以有效提升特征的表达能力。

从特征变换的角度来看，神经网络的两个主要运算是线性变换(卷积或全连接层)和非线性激活函数。下面从卷积运算的感受野和激活函数的特点，总结几个提高特征表达能力或计算效率的方法：

·非对称卷积

感受野是设计神经网络需要注意的一个重要因素，因为它决定了神经元所能接受的信息区域的范围。使用大的卷积核可以获得大的感受野，但带来的代价就是计算复杂度也大大提高。因此，Simonyan等(Simonyan K,Zisserman A.Very deep convolutionalnetworks for large-scale image recognition.arXiv:1409.1556,2014.)在设计VGG网络时提出通过叠加多个3x3卷积实现和大卷积核同样的感受野，且计算量也相应减小。除此之外，采用非对称卷积往往能实现更高的效率。例如，5x5、3x3-3x3、1x5-5x1这三种方式可以获得相同的5x5的感受野大小，而1x5-5x1的方式参数量和计算复杂度是最小的。参数量小的另一个好处就是不易过拟合。

·混合扩张卷积

扩大感受野的另一个方法就是使用扩张卷积技巧。扩张卷积通过设置卷积核连接的步长来设置感受野大小，可以在几乎不增加计算量的情况下扩大感受野。那么，如何设置扩张系数也是一个需要考虑的问题。Wang等(Wang P,Chen P,Yuan Y,et al.Understanding convolution for semantic segmentation.arXiv:1702.08502,2017.)发现，采用固定的大于1的扩张系数(例如：连续多个卷积扩张系数为2)容易带来网格效应，导致语义分割输出不平滑。因此，在使用扩张卷积的时候，应该采用多种不同的扩张系数组合，即混合扩张卷积的方式实现。

·C.ReLU激活

对于激活函数，ReLU(Krizhevsky A,Sutskever I,Hinton G.Imagenetclassification with deep convolutional neural networks.Proceedings of AnnualConference on Neural Information Processing Systems(NIPS),2012.)作为一种分段线性函数，不仅易于优化，计算量小，且在实践中被证明多数情况下效果最好。Shang等(Shang W,Sohn K,Almeida D,et al.Understanding and improving convolutionalneural networks via concatenated rectified linear units.Proceedings ofInternational Conference on Machine Learning(ICML),2016.)发现神经网络接近输入的中低层的输出往往具有近似对称的取值，即神经元响应是成对出现，一个正响应往往意味着有一个响应的负响应出现。于是，他们提出了C.ReLU(Concatenated ReLU)激活的单元，即只对一半通道的输入进行卷积运算，然后通过取反得到另一半的响应，将两者拼接后经过一个ReLU激活函数得到该层的最终输出。很显然，C.ReLU可以减少接近一半的计算量，因此可以应用于网络的中低层模块来提升效率。

1.2 FastNet模型结构

基于以上设计原则，本发明提出FastNet基础网络模型。如图1a～1e所示，该模型包含五个阶段，每个阶段将特征图分辨率降低一半，曲线框中的1x1卷积在输入输出通道数不一致时使用。前三个阶段采用了Hong等提出的mC.ReLU单元来提升计算效率(Hong S,RohB,Kim K H,et al.PVANet:Lightweight deep neural networks for real-time objectdetection.arXiv:1611.08588,2016.)，其结构如图1a所示。mC.ReLU和原始C.ReLU的区别是增加了一个额外的放缩/平移操作，使得每个神经元的响应有独立的调整。第一阶段是一个卷积核大小为7x7，步长为2的mC.ReLU模块，输出特征分辨率减半，通道数为32。第二阶段首先通过3x3的Max-Pooling进行第二次下采样，然后接3个block-B模块。

第二～五阶段包含四种基本结构，如图所示。Block-A和ResNet中使用的瓶颈结构类似，包含三层卷积变换。第一层使用1x1卷积将特征通道数减小，第二层采用3x3群组卷积进行特征变换，最后通过1x1卷积增加输出的通道数。本发明将瓶颈层(即第一～二层)的通道数设为输出通道数的一半，其中3x3群组卷积的group值设为8。Block-B和Block-A的区别是采用了mC.ReLU模块，且group值相应减半，即取4。Block-C和Block-D是采用非对称卷积的瓶颈结构，将3x3群组卷积改成1x5-5x1两次非对称群组卷积，其中，Block-D采用mC.ReLU模块。非对称卷积模块的作用是通过很小的计算代价获得更大的感受野。在模型的每个下采样阶段，本发明采用Block-A/B结构，并将3x3卷积的步长设为2。此外，本发明还将扩张卷积技巧应用于Block-A/B中的3x3卷积，通过增加dilation的值适当增加某些层的感受野。本发明采用逐渐递增的方式来设置dilation系数，这种方式可以避免采用统一系数带来的网格效应。

表1详细列出了网络每一层的结构和参数设置(stride、dilation和group默认取值为1)。FastNet网络参数量只有1.75M。在输入图像为512x1024的条件下，FastNet计算复杂度只有3.8GMAC。

表1

1.3 FastNet表达能力评测

为了评测FastNet基础网络的特征表达能力，本发明在已有的最大规模的图像数据集ImageNet上进行1000类图像分类评测。我们在ImageNet2012训练集(1.2M张图片)上训练FastNet基础网络。每次迭代的batch大小为256，使用4块Titan X GPU进行训练(每块GPU包含64张图片)。本发明采用随机梯度下降(SGD)进行优化，初始学习率设为0.1，每经过100K次迭代就降为原来的1/10，总共迭代450K次。我们将图片统一放缩至256x256大小，然后采用随机裁剪(crop)方式获得224x224的图片作为输入。本发明只采用了随机镜像(mirror)的方式进行数据增强，如果采用其它更多的数据增强方式(例如：颜色变换、尺度变换等)，训练结果往往会更好。

本发明在ImageNet 2012图像分类的验证集上进行评测，和流行VGG-16、GoogleNet、ResNet以及最近提出的深度优化的SqueezeNet、ENet和PVANet等网络进行比较。表2展示了FastNet和其它模型在ImageNet 2012验证集上的分类性能、参数量和计算复杂度。除了VGG-16采用10-crop方式进行测试，其它模型采用single-crop测试，输入图像大小为224x224。

表2

由表2可以看出，本发明提出的FastNet的top-1和top-5分类错误率分别为32.95％和11.18％，接近VGG-16、GoogleNet和ResNet-18的性能，但计算复杂度不到它们的25％。和已有最高效的PVANet模型相比，两者的分类性能相当，但FastNet的计算复杂度只有PVANet的62％。在模型大小方面，ENet的参数量最少，只有0.37M，但其计算量是FastNet的4.3倍。FastNet网络参数也只有1.7M，适合应用于嵌入式平台。值得一提的是，在比较的网络中，GoogleNet、ResNet-18、ENet的训练采用了更复杂的数据增强手段，而FastNet的训练只用了最简单的随机镜像技巧。如果结合更多的数据增强手段，FastNet网络有望达到更高的分类性能。

2、多任务场景语义理解模型

为了避免采用多个特定的网络来实现不同的任务，本发明设计了一种多任务统一网络模型。该模型的设计思想是通过共享不同任务的特征提取部分来减少计算量。图2展示了整个模型的结构，该模型分为基础网络、多级融合网络和多任务语义预测网络三个部分，其中，基础网络和多级融合网络对不同任务是共享的，作为共有的特征提取器。

·基础网络

采用前述提出的FastNet网络，具有非常小的计算量。

·多级融合网络

由于基础网络输出的特征分辨率较小，只有输入图像的1/32，不适用于小物体的识别，因此，本发明设计了多级融合网络，将基础网络不同阶段输出的不同分辨率的特征进行融合。具体而言，我们对stage 3-5的输出分别采用1x1卷积将通道数降为128。然后，从高层特征stage5开始，采用解卷积(双线性插值上采样)逐渐将高层的特征图上采样到下一层的特征图的大小，并将它们级联起来。级联后的特征再经过1x1卷积进行平滑，最终输出的特征的分辨率为输入图像的1/8。这种多级特征融合的方式在已有工作中有一些应用。然而，为了实现较低的计算代价，我们避免采用3x3卷积，只采用1x1卷积进行特征变换，且将通道数降为128。因此，多级特征融合网络带来的计算量只有0.44GMAC(输入图像大小为512x1024)。我们在实验中也发现，增加通道数会采用更多的3x3卷积并不会带来太显著的性能提升，但计算量却会显著增加。

·多任务语义预测网络

多任务语义预测网络包含了三个子网络：似物性预测网络RPN、物体检测网络和语义分割网络。在实际中我们可以增加更多的子网络(例如：车道线分割)。这三个子网络的计算量都非常小。

对于RPN网络，本发明采用了一个瓶颈结构来提取RPN特定的特征。我们希望特征图上每个位置的特征向量维度为256(太低表达能力不足，太高计算量太大)。而共享网络输入的特征维度为128，如果采用RPN原始的设计，直接通过3x3卷积获得256维的特征，需要2.4GMAC的计算量，复杂度较高。因此，本发明先采用瓶颈结构和群组卷积技巧来减少计算量。具体而言，给定共享网络输入的128的特征图，我们首先采用3x3的群组卷积进行特征变换，特征维度不变，卷积核组数group设为8。然后，我们采用1x1卷积将特征维度提升到256。最后，我们基于该特征图对参考框(anchors)进行二分类(前景/背景)和坐标回归。基于这种设计的RPN只需要0.53GMAC的计算量。

检测网络部分采用Fast R-CNN(Ren S,He K,Girshick R,et al.Faster R-CNN:Towards real-time object detection with region proposal networks.Proceedingsof Annual Conference on Neural Information Processing Systems(NIPS),2015.91–99.以及Girshick R.Fast r-cnn. Proceedings of IEEE International Conference onComputer Vision(ICCV),2015.1440–1448.)作为检测器。为了编码上下文信息，本发明在原始ROI pooling的基础上加入了上下文ROI pooling。上下文ROI通过将原始ROI扩大1.5倍得到。我们采用6x6的网格大小进行ROI pooling。Pooling后得到的特征拼接起来，经过1x1卷积将特征维度降为128，然后经过512-1024两个全连接得到最终特征。由于我们采用的全连接维度较小，检测器网络的计算量只需要1.1GMAC。

语义分割网络的特征提取采用了和RPN网络的相同的瓶颈结构和群组卷积，输入特征经过一个1x1卷积得到C+1维的特征图，最终通过一个8倍的双线性插值恢复到原图大小。为了保证模型的简洁和高效，我们没有采用复杂的结构设计。语义分割网络的计算复杂度只需要0.42GMAC。

表3列出了每个多任务统一网络各模块的参数量和计算复杂度。front-end部分即为FastNet网络，检测子网络采用300个ROI区域。当输入图像大小为512x1024时，整个模型只需要6.3GMAC即可实现多任务语义预测。

表3

·端到端训练

本发明采用端到端的方式训练整个网络模型。给定输入图像x、物体框标签b*和像素级的语义分割标注s*，网络优化以下多任务损失函数：

L(x，b^*，s^*)＝L_rpn(x，b^*)+λL_det(x，b^*)+βL_seg(x，s^*)

其中，L_rpn是RPN分支的损失项，包含了交叉熵损失函数和平滑l₁损失函数，分别用于前景/背景二分类和物体坐标回归；L_det是检测器分支的损失项，同样包含了交叉熵和平滑l₁损失函数，分别用于多分类和物体坐标回归；L_seg是语义分割分支的损失项，采用交叉熵损失函数对输出的像素类别进行监督。λ和β用于调整不同任务之间的损失权重。在实验中我们将λ和β分别设为1和2。

3、多任务场景语义理解模型在自动驾驶感知系统中的应用

数据集：本发明将基于FastNet的多任务统一网络模型应用于自动驾驶场景感知，在Cityscapes上进行评测。Cityscapes数据集包含了像素级别的语义标注和实例标签，是已有公开的最大规模的具有像素级标注的自动驾驶场景的数据集。Cityscapes数据集包含了2975张训练图片、500张验证图片和1525张测试图片。为了获得物体框的标签，我们根据实例标签自动生成最小外接矩形作为该物体的真实框。由于测试集的标签不公开，因此我们在验证集上进行算法评测。Cityscapes的原始图像具有非常高的分辨率：1024x2048。因此我们将图片尺寸缩小一半，即归一化到512x1024。相应的，分割和物体检测标签也归一化到该大小。本实施例所有实验均在此分辨率的图像上进行模型训练和评测。

实现细节：本发明使用ImageNet预训练得到的FastNet基础模型的权重对多任务统一模型进行参数初始化。新增加的层采用随机方式进行初始化。我们采用SGD在Cityscapes的2975张训练图片上进行微调。初始的学习率设为0.001，经过100K次迭代后降为0.0001再继续迭代40K次。每次迭代随机采样2张图片和256个ROI区域。本实施例所有实验在Titan X GPU上进行。

3.1 道路障碍物检测

本发明将基于FastNet实现的多任务统一网络模型应用于自动驾驶场景下的障碍物检测，在Cityscapes验证集上进行评测。我们将Cityscapes的物体类别按照大类进行划分，即分为human、vehicle、cycle三类。每个类别下面包含了若干子类(例如：vehicle包含car、bus等)。但由于表观相似，我们不进行细分。Cityscapes数据集的特点是涵盖了多样的复杂的交通场景，包含了大量的小物体。在评测过程中，我们只考虑高度超过10像素的物体，即忽略小于10像素的物体。该标准比KITTI的最小25像素的标准更严格。我们采用平均准确率(AP)作为评价指标，IoU阈值设为0.5。此外，我们还评价似物性预测模型RPN的召回率和平均召回率(AR)，召回率和平均召回率是取300个ROI的条件下评测得到，检测结果如表4所示：

表4

可以看到，FastNet的mAP比PVANet高出了8％左右，召回率则提高了约4.5％。表5对比了FastNet和PVANet的参数量、计算复杂度和准确率：

表5

可以看到，FastNet不仅在共享的基础网络部分具有更低的计算复杂度，且在RPN和预测部分也更加高效，总的计算复杂度仅为5.6GMAC，在Titan X GPU上达到33FPS的实时处理速度。相比之下，PVANet的计算复杂度为接近FastNet的2倍，且参数量更大。需要说明的是，由于PVANet只用于物体检测任务，因此在评测中FastNet未包含分割网络分支。mAP在Cityscapes检测任务上评测，输入图片大小为512x1024。

3.2 场景语义分割

我们将FastNet应用于场景语义分割，在Cityscapes验证集上进行评测。图像中的语义可以分为物体(例如：车辆、行人)和背景(例如：道路、建筑)两大类。由于物体具有明确的规则的轮廓，因此在实际应用中适用于物体检测方法来实现定位。相反的，背景语义通常适用于语义分割方法来获得。因此，在本实施例的场景语义分割应用中，我们只考虑背景语义。具体而言，我们从Cityscapes数据集的标注中选出11个类别(如表6所示)作为预测目标。

表6

这11个类别又归属于5个大类：flat、construction、object、nature和sky。我们采用Cityscapes的评价指标IoU来评价分割的性能。表6列出了FastNet的三个变种模型，前两个是单任务输出的模型(SEG-A/SEG-B)，第三个是联合物体检测与语义分割的多任务输出模型(DET+SEG-B)，SEG-A和SEG-B的区别是后者在分割子网络中使用了瓶颈结构和群组卷积，而前者没有。在单任务模型中，使用(3x3,16x8d)-(1x1,256)的瓶颈结构和群组卷积代替普通的(3x3,256)的结构不仅显著减少了计算量(6.68GMAC vs 4.69GMAC)，而且在分割性能上还略有提升。

在自动驾驶应用中，场景语义分割的结果可用于可行驶区域估计。从表6的结果来看，FastNet的路面(road)分割的IoU准确率高达97.3％。

3.3 实时多任务语义预测

在实际应用中，采用多个独立的模型实现多任务语义预测难以满足实时性的要求。本发明提出的基于FastNet的多任务语义预测通过共享通用特征提取模块，以极小的计算复杂度实现了实时的处理。我们对多任务模型和单任务模型的性能和计算复杂度进行对比，表4和表6分别列出了详细的物体检测和语义分割的准确率，表7对比了总体的性能和运行时间：

表7

可以看到，多任务模型的检测准确率非常接近单任务检测模型的准确率，而语义分割的IoU得分还稍微优于单任务分割模型的得分。这表明我们设计的多任务模型有效兼顾了区域级别和像素级别的语义预测的准确率。从计算复杂度来看，单任务输出的检测模型和分割模型需要30ms左右的运行时间，而我们的多任务模型也只需要33ms，以极小的计算代价实现了丰富的语义输出。我们的方法对运动物体输出区域级的检测结果，对不规则的背景语义输出像素级的分割结果，可应用于自动驾驶系统中。

需要说明的是，本发明提出的模型框架还可以扩展到更多的高层语义预测任务，例如：在多任务语义预测网络中增加车道线检测、图像深度估计、场景分类等。由于已有的数据集通常只提供单一类型的标注，因此本发明只显示了联合物体检测与场景语义分割两大任务的实现方法。

综上所述，本发明提出了一种轻量级的神经网络模型，并基于该神经网络模型设计了一种多任务感知模型，通过单一的高效的网络模型，同时实现自动驾驶系统的似物性预测任务、物体检测任务与场景语义分割任务，有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种神经网络模型，其特征在于，所述神经网络模型包括五个阶段：

第一阶段采用mC.ReLU模块；

第二阶段首先采用Max-Pooling进行下采样，然后采用多个Block-B模块，其中，每个所述Block-B模块为采用对称卷积的mC.ReLU瓶颈结构；

第三阶段采用多个Block-B模块和多个Block-D模块，其中，每个所述Block-D模块为采用非对称卷积的mC.ReLU瓶颈结构；

第四阶段采用多个Block-A模块和多个Block-C模块，其中，每个所述Block-A模块为采用对称卷积的瓶颈结构，每个所述Block-C模块为采用非对称卷积的瓶颈结构；

第五阶段采用多个Block-A模块。

2.根据权利要求1所述的神经网络模型，其特征在于，所述mC.ReLU模块的卷积核大小为7x7，步长为2，所述第一阶段输出特征图的分辨率减半，通道数为32。

3.根据权利要求1所述的神经网络模型，其特征在于，每个所述Block-A模块为采用3x3卷积的瓶颈结构，其包含三层卷积变换：第一层使用1x1卷积将特征通道数减小，第二层采用3x3群组卷积进行特征变换，第三层通过1x1卷积增加输出的通道数，其中，第一层和第二层的通道数设为输出通道数的一半，3x3群组卷积的group值设为8。

4.根据权利要求1所述的神经网络模型，其特征在于，每个所述Block-B模块为采用3x3卷积的mC.ReLU瓶颈结构，其包含三层卷积变换：第一层使用1x1卷积将特征通道数减小，第二层采用3x3群组卷积进行特征变换并采用mC.ReLU模块提升效率，第三层通过1x1卷积增加输出的通道数，其中，第一层和第二层的通道数设为输出通道数的一半，3x3群组卷积的group值设为4。

5.根据权利要求1所述的神经网络模型，其特征在于，每个所述Block-C模块为采用1x5-5x1两次非对称群组卷积的瓶颈结构，其包含三层卷积变换：第一层使用1x1卷积将特征通道数减小，第二层采用1x5-5x1两次非对称群组卷积进行特征变换，第三层通过1x1卷积增加输出的通道数，其中，第一层和第二层的通道数设为输出通道数的一半，1x5-5x1两次非对称群组卷积的group值设为8。

6.根据权利要求1所述的神经网络模型，其特征在于，每个所述Block-D模块为采用1x5-5x1两次非对称群组卷积的mC.ReLU瓶颈结构，其包含三层卷积变换：第一层使用1x1卷积将特征通道数减小，第二层采用1x5-5x1两次非对称群组卷积进行特征变换并采用mC.ReLU模块提升效率，第三层通过1x1卷积增加输出的通道数，其中，第一层和第二层的通道数设为输出通道数的一半，1x5-5x1两次非对称群组卷积的group值设为4。

7.根据权利要求1所述的神经网络模型，其特征在于，所述神经网络模型在各下采样阶段采用Block-A/Block-B结构，并将3x3卷积的步长设为2。

8.根据权利要求7所述的神经网络模型，其特征在于，根据扩张卷积算法，以逐渐递增的方式设置所述Block-A/Block-B结构中的3x3卷积的扩张系数值以增加某些层的感受野。

9.一种多任务场景语义理解模型，其特征在于，包括：基础网络、多级融合网络、及多任务语义预测网络，其中，所述基础网络和所述多级融合网络对不同的任务共享，以作为共有的特征提取器；

所述基础网络为如权利要求1至8中任一所述的神经网络模型；

所述多级融合网络连接所述基础网络，用于将所述基础网络不同阶段输出的不同分辨率的特征进行融合；

所述多任务语义预测网络连接所述多级融合网络，包括：似物性预测子网络RPN、物体检测子网络、及语义分割子网络。

10.根据权利要求9所述的多任务场景语义理解模型，其特征在于，所述多级融合网络将所述基础网络不同阶段输出的不同分辨率的特征进行融合，包括如下步骤：

对所述第三阶段至所述第五阶段的输出分别采用1x1卷积将通道数降为128；

从所述第五阶段开始，采用双线性插值上采样逐渐将高层的特征图上采样到下一层的特征图的大小，并将它们级联起来；

令级联后的特征经过1x1卷积进行平滑，最终输出的特征的分辨率为输入图像的1/8。

11.根据权利要求9所述的多任务场景语义理解模型，其特征在于，所述似物性预测子网络RPN执行如下步骤：

通过3x3群组卷积对共享网络输入的特征图进行特征变换，特征维度不变，卷积核组数group设为8；

采用1x1卷积将特种功能维度提升到256；

基于所述特征图对参考框进行前景/背景二分类和坐标回归。

12.根据权利要求9所述的多任务场景语义理解模型，其特征在于，所述物体检测子网络：

采用Fast R-CNN作为检测器，并在其原始ROI pooling的基础上加入上下文ROIpooling，其中，所述上下文ROI pooling通过将所述原始ROI pooling扩大到1.5倍得到；

采用6x6的网格大小进行ROI pooling，并将得到的特征拼接起来，经过1x1卷积将特征维度降为128；

采用512全连接层和1024全连接层输出最终特征。

13.根据权利要求9所述的多任务场景语义理解模型，其特征在于，所述语义分割子网络执行如下步骤：

采用1x1卷积将特种功能维度提升到256；

令输入特征经过1x1卷积得到C+1维的特征图；

通过一个8倍的双线性插值恢复到原图大小。

14.一种自动驾驶场景感知的方法，其特征在于，包括：利用如权利要求9至13中任一所述的多任务场景语义理解模型实现道路障碍物检测、场景语义分割、及实时多任务语义预测。

15.根据权利要求14所述的自动驾驶场景感知的方法，其特征在于，在利用所述多任务场景语义理解模型之前，采用端到端的方式训练所述神经网络模型，包括：给定输入图像x、物体框标签b*和像素级的语义分割标注s*，网络优化以下多任务损失函数：

L(x，b^*，s^*)＝L_rpn(x，b^*)+λL_det(x，b^*)+βL_seg(x，s^*)

其中，L_rpn是RPN分支的损失项，包含了交叉熵损失函数和平滑损失函数，分别用于前景/背景二分类和物体坐标回归；L_det是检测器分支的损失项，包含了交叉熵损失函数和平滑损失函数，分别用于多分类和物体坐标回归；L_seg是语义分割分支的损失项，采用交叉熵损失函数对输出的像素类别进行监督；λ和β为常数，用于调整不同任务之间的损失权重。