CN113011336A

CN113011336A - 一种基于深度多分支聚合的实时街景图像语义分割方法

Info

Publication number: CN113011336A
Application number: CN202110297170.0A
Authority: CN
Inventors: 严严; 翁熙; 王菡子
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-06-22
Anticipated expiration: 2041-03-19
Also published as: CN113011336B

Abstract

一种基于深度多分支聚合的实时街景图像语义分割方法，涉及计算机视觉技术。采用流行的编码器‑解码器结构；首先采用轻量级的图像分类网络作为基础，将其改造作为编码器；然后将编码器分为不同的子网络，并将各子网络中的特征分别送入设计的多分支特征聚合网络中和全局上下文模块；接着在多分支特征聚合网络中利用格型增强残差模块和特征变换模块对需要聚合的特征进行空间细节和语义信息上的增强；最后按照特征图的大小，从小到大逐级聚合全局上下文模块的输出特征图和多分支特征聚合网络的输出特征图，以得到最终的语义分割结果图。在处理较大分辨率的街景图像的同时，保持较高的街景图像语义分割精度和实时的预测速度。

Description

一种基于深度多分支聚合的实时街景图像语义分割方法

技术领域

本发明涉及计算机视觉技术，尤其是涉及一种基于深度多分支聚合的实时街景图像语义分割方法。

背景技术

语义分割需要为目标图像赋予像素级的语义可解释类别，对实现完全场景理解具有至关重要的作用，是计算机视觉中一项非常基础但又富有挑战性的任务。在过去几年里，由于自动驾驶系统与智能交通系统的兴起，街景图像语义分割吸引越来越多计算机视觉领域的专家学者的关注。一般来说，这些应用需要快速的交互和响应速度，因此对于实时街景图像语义分割算法有着强烈的需求。

传统的语义分割方法多依赖于人工设计的特征，如基于阈值的分割算法、基于边缘检测的分割算法和基于特征空间聚类算法等多种算法。这些算法虽然能维持较低的计算成本和较快的预测速度，但有限且不全面的手工特征也使得它们无法取得令人满意的准确度。近年来，得益于深度学习技术的出色表现，大量基于深度神经网络的语义分割算法被相继提出，并在各大街景数据集上取得优异的分割结果。例如，DeepLabv3+(L.C.Chen,Y.Zhu,G.Papandreou,F.Schroff,and H.Adam,“Encoder-decoder with atrous separableconvolution for semantic image segmenta-tion,”in Proc.Eur.Conf.Comput.Vis.(ECCV),Sep.2018,pp.801–818.)和DANet(J.Fu et al.,“Dual attention network forscene segmentation,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2019,pp.3146–3154.)分别在Cityscapes街景数据集上取得82.1％和81.5％mIoU。然而，这些方法的成功很大程度上依赖于复杂的深度神经网络模型(如Xception(F.Chollet,“Xception:Deep learning with depthwise separable convolutions,”in Proc.IEEEConf.Comput.Vis.Pattern Recognit.(CVPR),Jul.2017,pp.1251–1258.)或ResNet-101(K.He,X.Zhang,S.Ren,and J.Sun,“Deep residual learning for image recognition,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2016,pp.770–778.))。这些复杂的深度神经网络通常需要大量的计算操作和内存消耗。因此，尽管这些方法已经取得显著的进展，但它们的高计算成本和内存需求也使其难以在计算资源有限的现实应用中得以运用(如自动驾驶系统和驾驶员辅助系统)。

当下，许多的街景图像实时语义分割方法为获得快速的预测速度，通常牺牲大量的空间细节或上下文信息，导致分割精度难以让人接受。显然，与快速发展的追求高分割精度的街景图像语义分割方法不同，对不降低太多准确率的同时满足实时性需求的街景图像语义分割方法的研究还很滞后。而如何保持较高的准确率与快速的预测速度对于以实用化，走出实验室为目的的街景图像语义分割来说是至关重要的。基于此技术背景，提出一种基于深度多分支聚合的实时街景图像语义分割方法。

发明内容

本发明的目的在于针对现有技术存在的上述难题，提供准确率高、预测速度快，分割精度高的一种基于深度多分支聚合的实时街景图像语义分割方法。

本发明包括以下步骤：

A.收集街景图像的语义分割数据集，并划分为训练子集、验证子集和测试子集；

B.选择满足实时需求的轻量级图像分类网络，将其改造作为语义分割的基础特征编码网络；

C.对步骤B中所得到的基础特征编码网络中的网络层进行进一步的划分，获得不同分辨率的特征图；

D.将全局上下文模块用于编码特征图中的深层语义信息；

E.将步骤C得到的特征图输入到一个专门设计的多分支特征聚合网络的不同分支中，以构成深度多分支网络；

F.在每条分支上使用格型增强残差模块对该分支上的特征进行语义信息和空间细节信息的增强；

G.将步骤D和步骤F得到的特征图，利用特征变换模块，对特征图中的重要信息进一步增强以促进特征间的相互聚合，并按照尺度从小到大逐级聚合以得到最终的预测分割图；

H.数据增强后，将预测分割图和数据集中的真实分割图进行对比，同时利用反向传播算法更新优化整体网络，并将测试子集中的图像输入至训练好的语义分割模型中以获得相应的街景图像的语义分割结果；

在步骤A中，所述街景图像的语义分割数据集可采用公开数据集Cityscapes,该数据集是街景语义分割任务中最具影响力与挑战性的大型数据集之一；该数据集主要包含有收集自德国五十个不同城市的25000张高分辨率(每张图像的分辨率大小为1024×2048)街景图像，包括5000张带有精细语义标注的图像和20000张带有粗糙语义标注的图像；标注共含有30个不同的语义类别。使用5000张精细标注的图像，并将这部分图像划分为训练子集(2975张图像)、验证子集(500张图像)和测试子集(1525张图像)；且只使用19个常见的语义类别作为分割对象，分别为道路(road)、人行道(sidewalk)、建筑(building)、墙壁(wall)、栅栏(fence)、柱子(pole)、红绿灯(traffic light)、交通标志(traffic sign)、植被(vegetation)、地形(terrain)、天空(sky)、人(person)、骑手(rider)、汽车(car)、卡车(truck)、公共汽车(bus)、火车(train)、摩托车(motorcycle)和自行车(bicycle)。

在步骤B中，所述基础特征编码网络可采用Kaiming He在2015年提出的ResNet-18图像分类网络进行改造；作为ResNet分类网络中一员，ResNet-18具有速度快、模型小等特点，且保持出色的特征提取能力；ResNet-18由一个7×7的标准卷积操作、一个3×3的最大池化操作、八个3×3的残差模块、一个平均池化操作和一个全连接操作组成；但不同于图像分类任务，语义分割任务是像素级分类任务；语义分割任务，移除ResNet-18最后的平均池化操作与全连接操作，使其改造作为语义分割任务的基础特征编码网络；经此改造所得的基础特征编码网络，不仅可以继续沿用原ResNet-18分类网络在ImageNet数据集经过训练得到的预训练网络参数，且维持速度快、模型小的特点和出色的特征提取能力；该基础特征编码网络使得语义分割方法得以在精度和速度之间做到很好的平衡。

在步骤C中，所述对步骤B)中所得到的基础特征编码网络中的网络层进行进一步的划分的具体方法为：基础特征编码网络可根据其内部各网络层中所得到的特征图的大小粗略划分为四个子网络(子网络-1至子网络-4)；原始输入图像在经过基础特征编码网络的7×7的标准卷积操作和3×3的最大池化操作后，大小缩减为原分辨率的一半；之后再依次通过以上四个子网络，每通过一个子网络，其特征图大小再次缩减为原先的一半；通过这四个子网络，可以分别获得原输入图像分辨率1/4，1/8，1/16和1/32的特征图。

在步骤D中，所述全局上下文模块用于编码特征图中的深层语义信息是将一个全局上下文模块作用于步骤C中的最后一个子网络得到的特征图，以进一步编码特征图中的深层语义信息；其具体方法为：首先将步骤C)中最后一个子网络(子网络-4)所得到的特征图输入一个全局平均池化操作中，以编码特征图中含有的全局深层语义信息；接着将含有全局深层语义信息的特征图再经过一个CBR模块以降低特征图的通道数，该模块由一个3×3的标准卷积操作、一个归一化操作(Batch Normalization)和一个ReLU激活函数组成；最后使用最近邻插值法将获得的含有全局深层语义信息的特征图放大至原输入图像分辨率1/32的大小。

在步骤E中，所述将步骤C得到的特征图输入到一个专门设计的多分支特征聚合网络的不同分支中的具体方法为：在基础特征编码网络的各子网络后端插入额外的分支路径，使得各子网络的输出特征图能够同时并行地输入设计的多分支特征聚合网络进行进一步的特征处理，以供后续聚合操作；其中在每个分支的开头处使用两个CBR模块降低特征的通道数量，以减低网络的计算成本；从而使得网络在使用多分支、多特征图的情况下，依旧能够维持较快的预测速度。

在步骤F中，所述格型增强残差模块主要含有两个子分支与两个格型结构(Lattice Structure)；其中两个子分支为上下文子分支与空间子分支，分别用以增强特征图中的深层语义信息和浅层空间细节信息；所述在每条分支上使用格型增强残差模块对该分支上的特征进行语义信息和空间细节信息的增强的具体方法可为：输入特征图首先通过上下文子分支的增强模块，其中包括两个3×3的孔洞卷积操作和两个归一化操作；每个归一化操作都紧跟在孔洞卷积操作之后，这些操作通过串联方式连接；其中，两个孔洞卷积操作的孔洞率分别被设置为2和4来扩大网络在特征图上的感受野，以提高捕获的深层语义信息；同时，输入特征还被送入一个注意力模块中学习两种不同权重的注意力张量；之后输入的特征图，上下文分支增强模块的输出特征图以及两个不同的注意力张量被同时输入第一个格型结构中，以交叉聚合的方式高效地获得两种不同线性编码的中间输出特征图；并通过逐元素相加的方式将两个中间输出特征图进行相加以获得语义信息增强后的特征图；接着，得到语义信息增强的特征图再次被输入至类似的空间子分支和第二个格型结构中以增强空间细节信息；空间子分支与语义子分支的操作几乎相同，不同的地方在于空间子分支的增强模块利用步骤B)中子网络-1的输出特征，该特征首先和得到语义信息增强的特征图进行一个通道拼接操作，之后依次通过一个3×3的标准卷积操作和一个归一化操作以增强特征图中的空间细节信息；最后两个格型结构的输出通过通道拼接操作聚合在一起；格型增强残差模块不仅能够同时提高深层语义信息和浅层空间细节信息，而且拥有有更大的特征表示空间和较低的计算成本。

在步骤G中，所述特征变换模块主要含有空间子分支与通道子分支，两个分支分别沿着沿着特征图空间与通道维度执行注意力机制生成相应的注意力权重张量；并使用权重学习模块学习两个分支转化特征的权重值以高效地组合两个子分支得到的注意力权重特征来获得最终的特征转化张量；具体来说，空间子分支包含一个1×1的标准卷积操作和Sigmoid激活函数；通道子分支包含有1×1的标准卷积操作、一个归一化操作、一个ReLU激活函数和一个线性变换操作；权重学习模块则包含有一个线性变换操作与一个Softmax激活函数；特征变化模块还含有一个全局平均池化操作，特征图在进入通道子分支与权重学习模块前需要先经过此操作以沿着通道维度捕获特征的全局信息；利用特征转化张量，即可根据输入特征图的各个位置不同的重要性赋予不同的权重值，对聚合前的特征图进行一个有效的变换。

在步骤H中，所述数据增强可对训练过程中的数据预处理只采用随机翻转、随机缩放(缩放区间为0.5～2.0)和随机裁剪(768×1536)三个常用的数据增强方法；将网络的初始学习率设置为0.005，权重衰退参数为0.0005，以随机梯度下降(SGD)作为优化器；并利用“poly”学习策略和在线困难样本发掘(ohem)方法来更新整个网络参数；其中“poly”学习策略的多项式幂(power)被设置为0.9；网络的每次迭代样本数量为16，整个训练过程含有60000次迭代；此外，在训练阶段，步骤G中不同阶段的聚合结果被用以和最终输出的预测分割图一同计算损失函数和共同更新网络参数，以解决街景图像分割中的目标多尺度问题；而测试阶段，不对图像的尺寸做任何处理，直接使用原始分辨率来得到最终的语义分割结果图。

本发明采用流行的编码器-解码器结构；首先采用轻量级的图像分类网络作为基础，将其改造作为编码器；然后将编码器分别不同的子网络，并将各子网络中的特征分别送入设计的多分支特征聚合网络中和全局上下文模块；接着在多分支特征聚合网络中利用格型增强残差模块和特征变换模块对需要聚合的特征进行空间细节和语义信息上的增强；最后按照特征图的大小，从小到大逐级聚合全局上下文模块的输出特征图和多分支特征聚合网络的输出特征图，以得到最终的语义分割结果图。本发明能够在处理较大分辨率的街景图像的同时，保持较高的街景图像语义分割精度和实时的预测速度。具体来说，在面对高分辨率(1024×2048)的街景图像时，本发明能够在不降低图像分辨率的情况下，以实时的速率进行图像分割处理，并且拥有较高的语义分割精度。本发明有效地缓解了语义分割方法中速度与精度的矛盾问题，在分割准确度和预测速度之间取得了较好的平衡，

附图说明

图1为本发明实施例的整个实现流程图。

图2为本发明实施例的整个网络结构图。

图3为本发明实施例的格型增强残差模块网络结构图(a)，与格型增强残差模块中所用的注意力模块网络结构图(b)。

图4为本发明实施例的特征变换模块网络结构图。

具体实施方式

以下实施例将结合附图对本发明作进一步的说明，本实施例在以本发明技术方案为前提下进行实施，给出实施方式和具体操作过程，但本发明的保护范围不限于下述的实施例。

参见图1，本发明实施例的实施方式包括以下步骤：

A、收集街景图像的语义分割数据集，并划分为训练子集、验证子集和测试子集。

所用的数据集为公开数据集Cityscapes,该数据集是街景语义分割任务中最具影响力与挑战性的大型数据集之一。其主要包含有收集自德国五十个不同城市的25000张高分辨率(每张图像的分辨率大小为1024×2048)街景图像，包括5000张带有精细语义标注的图像和20000张带有粗糙语义标注的图像。标注共含有30个不同的语义类别。使用5000张精细标注的图像，并将这部分图像划分为训练子集(2975张图像)、验证子集(500张图像)和测试子集(1525张图像)。且只使用19个常见的语义类别作为分割对象，分别为道路(road)、人行道(sidewalk)、建筑(building)、墙壁(wall)、栅栏(fence)、柱子(pole)、红绿灯(traffic light)、交通标志(traffic sign)、植被(vegetation)、地形(terrain)、天空(sky)、人(person)、骑手(rider)、汽车(car)、卡车(truck)、公共汽车(bus)、火车(train)、摩托车(motorcycle)和自行车(bicycle)。

B、选择满足实时需求的轻量级图像分类网络，将其改造作为语义分割的基础特征编码网络。

基础特征编码网络采用Kaiming He在2015年提出的ResNet-18图像分类网络进行改造。作为ResNet分类网络中一员，ResNet-18具有速度快、模型小等特点，且保持出色的特征提取能力。ResNet-18由一个7×7的标准卷积操作、一个3×3的最大池化操作、八个3×3的残差模块、一个平均池化操作和一个全连接操作组成。但不同于图像分类任务，语义分割任务是像素级分类任务。为了使其适用于语义分割任务，移除ResNet-18最后的平均池化操作与全连接操作，使其改造作为语义分割任务的基础特征编码网络。经此改造所得的基础特征编码网络，不仅可以继续沿用原ResNet-18分类网络在ImageNet数据集经过训练得到的预训练网络参数，且维持速度快、模型小的特点和出色的特征提取能力。因此，该基础特征编码网络使得语义分割方法得以在精度和速度之间做到很好的平衡。

C、将步骤B得到的基础特征编码网络，依据其各卷积层中特征图的大小，划分为4个不同的子网络，每个子网络中特征图的大小分别为原始输入图像分辨率的1/4，1/8，1/16和1/32。

所述对步骤B中所得到的基础特征编码网络中的网络层进行进一步的划分。具体方法为：基础特征编码网络可以根据其内部各网络层中所得到的特征图的大小粗略划分为四个子网络(子网络-1至子网络-4)。原始输入图像在经过基础特征编码网络的7×7的标准卷积操作和3×3的最大池化操作后，大小缩减为原分辨率的一半。之后再依次通过以上四个子网络，每通过一个子网络，其特征图大小再次缩减为原先的一半。因此，通过这四个子网络，可以分别获得原输入图像分辨率1/4，1/8，1/16和1/32的特征图。

D、将一个全局上下文模块作用于步骤C中的最后一个子网络得到的特征图，以进一步编码特征图中的深层语义信息。

发明中的全局上下文模块编码特征图中的深层语义信息的具体方法为：首先将步骤C)中最后一个子网络(子网络-4)所得到的特征图输入一个全局平均池化操作中，以编码特征图中含有的全局深层语义信息。接着将含有全局深层语义信息的特征图再经过一个CBR模块以降低特征图的通道数，该模块由一个3×3的标准卷积操作、一个归一化操作(Batch Normalization)和一个ReLU激活函数组成。最后使用最近邻插值法将获得的含有全局深层语义信息的特征图放大至原输入图像分辨率1/32的大小。通过这种方式，使得网络能够在几乎不增加计算成本的情况下增强全局上下文信息，使得本发明得以在精度和速度之间做到很好的平衡。

E、将步骤C得到的特征图输入到一个专门设计的多分支特征聚合网络的不同分支中，以构成深度多分支网络。

步骤C中得到的特征图在语义信息和空间细节上存在极大的差距，拥有较大尺寸的特征图中存在有更多的空间细节信息，而较小尺寸的特征图则蕴含更丰富的语义信息。因此基于这些差距，本发明设计了多分支特征聚合网络，网络中不同的分支处理不同的特征图，以根据特征图自身侧重的信息的特点进一步对信息进行有针对性地加强，以提高特征图的表示能力。

将步骤C得到的特征图得到的特征图输入到一个专门设计的多分支特征聚合网络的不同分支中，以构成深度多分支网络的具体方法为：在基础特征编码网络的各子网络后端插入额外的分支路径，使得各子网络的输出特征图能够同时并行地输入专门设计的多分支特征聚合网络进行进一步的特征处理，以供后续聚合操作。其中在每个分支的开头处使用两个CBR模块降低特征的通道数量，以减低网络的计算成本。从而使得网络在使用多分支、多特征图的情况下，依旧能够维持较快的预测速度。

F、在每条分支上使用格型增强残差模块对该分支上的特征进行语义信息和空间细节信息的增强。

格型增强残差模块主要用以增强在步骤E中各分支特征图的语义信息和空间细节信息。该模块具体的网络结构参见图3，格型增强残差模块主要含有两个子分支与两个格型结构(Lattice Structure)。其中两个子分支为：上下文子分支与空间子分支，他们分别用以增强特征图中的深层语义信息和浅层空间细节信息。具体实现方法为：输入特征图首先通过上下文子分支的增强模块，其中包括两个3×3的孔洞卷积操作和两个归一化操作。每个归一化操作都紧跟在孔洞卷积操作之后，这些操作通过串联方式连接。其中，两个孔洞卷积操作的孔洞率分别被设置为2和4来扩大网络在特征图上的感受野，以提高捕获的深层语义信息。同时，输入特征还被送入一个注意力模块中学习两种不同权重的注意力张量。之后输入的特征图，上下文分支增强模块的输出特征图以及两个不同的注意力张量被同时输入第一个格型结构中，以交叉聚合的方式高效地获得两种不同线性编码的中间输出特征图。并通过逐元素相加的方式将两个中间输出特征图进行相加以获得语义信息增强后的特征图。接着，得到语义信息增强的特征图再次被输入至类似的空间子分支和第二个格型结构中以增强空间细节信息。空间子分支与语义子分支的操作几乎相同，不同的地方在于空间子分支的增强模块利用步骤B中子网络-1的输出特征，该特征首先和得到语义信息增强的特征图进行一个通道拼接操作，之后依次通过一个3×3的标准卷积操作和一个归一化操作以增强特征图中的空间细节信息。最后两个格型结构的输出通过通道拼接操作聚合在一起。与普通的残差模块相比，格型增强残差模块不仅能够同时提高深层语义信息和浅层空间细节信息，而且拥有有更大的特征表示空间和较低的计算成本。

G、将步骤D和步骤F得到的特征图，利用特征变换模块，对特征图中的重要信息进一步增强以促进特征间的相互聚合。并按照尺度从小到大逐级聚合以得到最终的预测分割图。

参见图4，特征变换模块主要含有空间子分支与通道子分支，两个分支分别沿着沿着特征图空间与通道维度执行注意力机制生成相应的注意力权重张量。并使用权重学习模块学习两个分支转化特征的权重值以高效地组合两个子分支得到的注意力权重特征来获得最终的特征转化张量。具体来说，空间子分支包含一个1×1的标准卷积操作和Sigmoid激活函数；通道子分支包含有1×1的标准卷积操作、一个归一化操作、一个ReLU激活函数和一个线性变换操作。权重学习模块则包含有一个线性变换操作与一个Softmax激活函数。此外，特征变化模块还含有一个全局平均池化操作，特征图在进入通道子分支与权重学习模块前需要先经过此操作以沿着通道维度捕获特征的全局信息。利用特征转化张量，即可根据输入特征图的各个位置不同的重要性赋予不同的权重值，对聚合前的特征图进行一个有效的变换。

H.将步骤G中得到的预测分割图和数据集中的真实分割图进行对比，同时利用反向传播算法更新优化整体网络。并将测试子集中的图像输入至训练好的语义分割模型中以获得相应的街景图像的语义分割结果。

对训练过程中的数据预处理只采用随机翻转、随机缩放(缩放区间为0.5～2.0)和随机裁剪(768×1536)三个常用的数据增强方法。将网络的初始学习率设置为0.005，权重衰退参数为0.0005，以随机梯度下降(SGD)作为优化器。并利用“poly”学习策略和在线困难样本发掘(ohem)方法来更新整个网络参数。其中“poly”学习策略的多项式幂(power)被设置为0.9。网络的每次迭代样本数量为16，整个训练过程含有60000次迭代。此外，在训练阶段，步骤G中不同阶段的聚合结果被用以和最终输出的预测分割图一同计算损失函数和共同更新网络参数，以解决街景图像分割中的目标多尺度问题。本发明所述的语义分割网络模型的网络结构图参加图2。其中Pri Loss为最终输出预测分割图所计算的损失函数，AuxLoss为其他阶段特征聚合结果所计算的损失函数。

而测试阶段，不对图像的尺寸做任何处理，直接使用原始分辨率来得到最终的语义分割结果图。

表1

方法	输入尺寸	FLOPs	Params	速度(fps)	精度(mIoU)
						DeepLab	512×1024	457.8	262.1	0.25	63.1
PSPNet	713×713	412.2	250.8	0.78	78.4
						SegNet	640×360	286	29.5	14.6	56.1
ENet	640×360	4.4	0.4	76.9	58.3
						ESPNet	512×1024	4.7	0.4	112	60.3
SQNet	1024×2048	270	-	16.7	59.8
						CRF-RNN	512×1024	-	-	1.4	62.5
FCN-8S	512×1024	136.2	-	2.0	65.3
						FRRN	512×1024	235	-	2.1	71.8
ERFNet	512×1024	-	2.1	41.7	68.0
						ICNet	1024×2048	29.8	26.5	30.3	69.5
TwoColumn	512×1024	57.2	-	14.7	72.9
						SwiftNet	1024×2048	104.0	11.8	39.9	75.5
LEDNet	512×1024	-	0.94	71	70.6
						RTHP	448×896	49.5	6.2	51.0	73.6
BiSeNet1	768×1536	14.8	5.8	72.3	68.4
						BiSeNet2	768×1536	55.3	49	45.7	74.7
DFANet	1024×1024	3.4	7.8	100.0	71.3
						本发明方法	1024×2048	94.2	14.60	46.7	77.1

表1为本发明与其它一些语义分割方法在Cityscapes的测试数据集上的性能和速度对比。从表1可以看出，本发明在处理输入尺寸为1024×2048分辨率的Cityscapes数据集图像时，不仅维持了实时的预测速度(46.7fps)，并且取得了最高的分割精度。即使与追求精度为主的PSPNet方法相比，本发明也能维持相近的分割精度，且提高了约60倍的推理速度。

DeepLab对应L.C.Chen等人提出的方法(L.C.Chen,G.Papandreou,I.Kokkinos,K.Murphy,and A.L.Yuille,“Semantic image segmentation with deep convolutionalnets and fully connected CRFs,”in Proc.Int.Conf.Learn.Represent.(ICLR),May2015.)；

PSPNet对应H.Zhao等人提出的方法(H.Zhao,J.Shi,X.Qi,X.Wang,and J.Jia,“Pyramid scene parsing network,”in Proc.IEEE Conf.Comput.Vis.PatternRecognit.(CVPR),Jul.2017,pp.2881–2890.)；

SegNet对应V.Badrinarayanan等人提出的方法(V.Badrinarayanan,A.Kendall,and R.Cipolla,“SegNet:A deep convolutional encoder-decoder architecture forimage segmentation,”IEEE Trans.Pattern Anal.Mach.Intell.,vol.39,no.12,pp.2481–2495,Dec.2017.)；

ENet对应A.Paszke等人提出的方法(A.Paszke,A.Chaurasia,S.Kim,andE.Culurciello,“ENet:A deep neural network architecture for real-time semanticsegmentation,”Jun.2016,arXiv:1606.02147.[Online].Available:https://arxiv.org/abs/1606.02147)；

ESPNet对应S.Mehta等人提出的方法(S.Mehta,M.Rastegari,A.Caspi,L.Shapiro,and H.Hajishirzi,“ESPNet:Efficient spatial pyramid of dilatedconvolutions for semantic segmentation,”in Proc.Eur.Conf.Comput.Vis.(ECCV),Sep.2018,pp.552–568.)；

SQNet对应M.Treml等人提出的方法(M.Treml et al.,“Speeding up semanticsegmentation for autonomous driving,”in Proc.MLITS,NIPS Workshop,2016,pp.1–7.)；

CRF-RNN对应S.Zheng等人提出的方法(S.Zheng et al.,“Conditional randomfields as recurrent neural networks,”in Proc.IEEE Int.Conf.Comput.Vis.(ICCV),Dec.2015,pp.1529–1537.)；

FCN-8S对应J.Long等人提出的方法(J.Long,E.Shelhamer,and T.Darrell,“Fully convolutional networks for semantic segmentation,”in Proc.IEEEConf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2015,pp.3431–3440.)；

FRRN对应T.Pohlen等人提出的方法(T.Pohlen,A.Hermans,M.Mathias,andB.Leibe,“Full-resolution residual networks for semantic segmentation instreet scenes,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jul.2017,pp.4151–4160.)；

ERFNet对应E.Romera等人提出的方法(E.Romera,J.M.lvarez,L.M.Bergasa,andR.Arroyo,“ERFNet:Efficient residual factorized ConvNet for real-time semanticsegmentation,”IEEE Trans.Intell.Transp.Syst.,vol.19,no.1,pp.263–272,Jan.2018.)；

ICNet对应T.Pohlen等人提出的方法(H.Zhao,X.Qi,X.Shen,J.Shi,andJ.Jia,“ICNetforreal-timesemantic segmentation on high-resolution images,”inProc.Eur.Conf.Comput.Vis.(ECCV),Sep.2018,pp.405–420.)；

TwoColumn对应T.Pohlen等人提出的方法(Z.Wu,C.Shen,andA.vandenHengel,“Real-timesemanticimagesegmentation via spatial sparsity,”Dec.2017,arXiv:1712.00213.[Online].Available:https://arxiv.org/abs/1712.00213)；

SwiftNet对应M.Orsic等人提出的方法(M.Orsic,I.Kreso,P.Bevandic,andS.Segvic,“In defense of pretrained ImageNet architectures for real-timesemantic segmentation of road-driving images,”in Proc.IEEEConf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2019,pp.12 607–12616.)；

LEDNet对应Y.Wang等人提出的方法(Y.Wang et al.,“LEDNet:A lightweightencoder-decoder network for real-time semantic segmentation,”2019,arXiv:1905.02423.[Online].Available:https://arxiv.org/abs/1905.02423)；

RTHP对应G.Dong等人提出的方法(G.Dong,Y.Yan,C.Shen,and H.Wang,“Real-time high-performance semantic image segmentation of urban street scenes,”IEEE Trans.Intell.Transp.Syst.,pp.1–17,Jan.2020.)；

BiSeNet1对应C.Yu等人提出的方法(C.Yu,J.Wang,C.Peng,C.Gao,G.Yu,andN.Sang,“BiSeNet:Bilateral segmentation network for real-time semanticsegmentation,”in Proc.Eur.Conf.Comput.Vis.(ECCV),Sep.2018,pp.325–341.)；

BiSeNet2对应C.Yu等人提出的方法(C.Yu,J.Wang,C.Peng,C.Gao,G.Yu,andN.Sang,“BiSeNet:Bilateral segmentation network for real-time semanticsegmentation,”in Proc.Eur.Conf.Comput.Vis.(ECCV),Sep.2018,pp.325–341.)；

DFANet对应H.Li等人提出的方法(H.Li,P.Xiong,H.Fan,andJ.Sun,“DFANet:Deepfeatureaggregation for real-time semantic segmentation,”in Proc.IEEEConf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2019,pp.9522–9531.)。

Claims

1.一种基于深度多分支聚合的实时街景图像语义分割方法，其特征在于包括以下步骤：

D.将全局上下文模块用于编码特征图中的深层语义信息；

H.数据增强后，将预测分割图和数据集中的真实分割图进行对比，同时利用反向传播算法更新优化整体网络，并将测试子集中的图像输入至训练好的语义分割模型中以获得相应的街景图像的语义分割结果。

2.如权利要求1所述一种基于深度多分支聚合的实时街景图像语义分割方法，其特征在于在步骤A中，所述街景图像的语义分割数据集采用公开数据集Cityscapes，该数据集主要包含有收集自德国五十个不同城市的25000张高分辨率街景图像，包括5000张带有精细语义标注的图像和20000张带有粗糙语义标注的图像；标注共含有30个不同的语义类别；使用5000张精细标注的图像，并将这部分图像划分为训练子集、验证子集和测试子集；且只使用19个常见的语义类别作为分割对象。

3.如权利要求1所述一种基于深度多分支聚合的实时街景图像语义分割方法，其特征在于在步骤B中，所述基础特征编码网络采用ResNet-18图像分类网络进行改造；ResNet-18由一个7×7的标准卷积操作、一个3×3的最大池化操作、八个3×3的残差模块、一个平均池化操作和一个全连接操作组成；但不同于图像分类任务，语义分割任务是像素级分类任务；为使其适用于语义分割任务，移除ResNet-18最后的平均池化操作与全连接操作，使其改造作为语义分割任务的基础特征编码网络。

4.如权利要求1所述一种基于深度多分支聚合的实时街景图像语义分割方法，其特征在于在步骤C中，所述对步骤B中所得到的基础特征编码网络中的网络层进行进一步的划分是依据其各卷积层中特征图的大小，划分为4个不同的子网络，每个子网络中特征图的大小分别为原始输入图像分辨率的1/4，1/8，1/16和1/32。

5.如权利要求1所述一种基于深度多分支聚合的实时街景图像语义分割方法，其特征在于在步骤C中，所述对步骤B中所得到的基础特征编码网络中的网络层进行进一步的划分的具体方法为：基础特征编码网络根据其内部各网络层中所得到的特征图的大小粗略划分为四个子网络，子网络-1至子网络-4；原始输入图像在经过基础特征编码网络的7×7的标准卷积操作和3×3的最大池化操作后，大小缩减为原分辨率的一半；之后再依次通过以上四个子网络，每通过一个子网络，其特征图大小再次缩减为原先的一半；通过四个子网络分别获得原输入图像分辨率1/4，1/8，1/16和1/32的特征图。

6.如权利要求1所述一种基于深度多分支聚合的实时街景图像语义分割方法，其特征在于在步骤D中，所述全局上下文模块用于编码特征图中的深层语义信息是的具体方法为：首先将步骤C中最后一个子网络，即子网络-4所得到的特征图输入一个全局平均池化操作中，以编码特征图中含有的全局深层语义信息；接着将含有全局深层语义信息的特征图再经过一个CBR模块以降低特征图的通道数，该模块由一个3×3的标准卷积操作、一个归一化操作和一个ReLU激活函数组成；最后使用最近邻插值法将获得的含有全局深层语义信息的特征图放大至原输入图像分辨率1/32的大小。

7.如权利要求1所述一种基于深度多分支聚合的实时街景图像语义分割方法，其特征在于在步骤E中，所述将步骤C得到的特征图输入到一个专门设计的多分支特征聚合网络的不同分支中的具体方法为：在基础特征编码网络的各子网络后端插入额外的分支路径，使得各子网络的输出特征图能够同时并行地输入多分支特征聚合网络进行进一步的特征处理，以供后续聚合操作；其中在每个分支的开头处使用两个CBR模块降低特征的通道数量，以减低网络的计算成本，使网络在使用多分支、多特征图的情况下，仍维持较快的预测速度。

8.如权利要求1所述一种基于深度多分支聚合的实时街景图像语义分割方法，其特征在于在步骤F中，所述格型增强残差模块主要含有两个子分支与两个格型结构；其中两个子分支为上下文子分支与空间子分支，他们分别用以增强特征图中的深层语义信息和浅层空间细节信息；所述在每条分支上使用格型增强残差模块对该分支上的特征进行语义信息和空间细节信息的增强的具体方法可为：输入特征图首先通过上下文子分支的增强模块，其中包括两个3×3的孔洞卷积操作和两个归一化操作；每个归一化操作都紧跟在孔洞卷积操作之后，这些操作通过串联方式连接；其中，两个孔洞卷积操作的孔洞率分别被设置为2和4来扩大网络在特征图上的感受野，以提高捕获的深层语义信息；同时，输入特征还被送入一个注意力模块中学习两种不同权重的注意力张量；之后输入的特征图，上下文分支增强模块的输出特征图以及两个不同的注意力张量被同时输入第一个格型结构中，以交叉聚合的方式高效地获得两种不同线性编码的中间输出特征图；并通过逐元素相加的方式将两个中间输出特征图进行相加以获得语义信息增强后的特征图；接着，得到语义信息增强的特征图再次被输入至类似的空间子分支和第二个格型结构中以增强空间细节信息；空间子分支与语义子分支的操作几乎相同，不同的地方在于空间子分支的增强模块利用步骤B)中子网络-1的输出特征，该特征首先和得到语义信息增强的特征图进行一个通道拼接操作，之后依次通过一个3×3的标准卷积操作和一个归一化操作以增强特征图中的空间细节信息；最后两个格型结构的输出通过通道拼接操作聚合在一起；与普通的残差模块相比，格型增强残差模块不仅能够同时提高深层语义信息和浅层空间细节信息，而且拥有有更大的特征表示空间和较低的计算成本。

9.如权利要求1所述一种基于深度多分支聚合的实时街景图像语义分割方法，其特征在于在步骤G中，所述特征变换模块主要含有空间子分支与通道子分支，两个分支分别沿着沿着特征图空间与通道维度执行注意力机制生成相应的注意力权重张量；并使用权重学习模块学习两个分支转化特征的权重值以高效地组合两个子分支得到的注意力权重特征来获得最终的特征转化张量；具体来说，空间子分支包含一个1×1的标准卷积操作和Sigmoid激活函数；通道子分支包含有1×1的标准卷积操作、一个归一化操作、一个ReLU激活函数和一个线性变换操作；权重学习模块则包含有一个线性变换操作与一个Softmax激活函数；此外，特征变化模块还含有一个全局平均池化操作，特征图在进入通道子分支与权重学习模块前需要先经过此操作以沿着通道维度捕获特征的全局信息；利用特征转化张量，即可根据输入特征图的各个位置不同的重要性赋予不同的权重值，对聚合前的特征图进行一个有效的变换。

10.如权利要求1所述一种基于深度多分支聚合的实时街景图像语义分割方法，其特征在于在步骤H中，所述数据增强包括随机翻转、随机缩放和随机裁剪；将网络的初始学习率设置为0.005，权重衰退参数为0.0005，以随机梯度下降作为优化器；并利用“poly”学习策略和在线困难样本发掘方法来更新整个网络参数；其中“poly”学习策略的多项式幂设置为0.9；网络的每次迭代样本数量为16，整个训练过程含有60000次迭代；在训练阶段，步骤G中不同阶段的聚合结果被用以和最终输出的预测分割图一同计算损失函数和共同更新网络参数，以解决街景图像分割中的目标多尺度问题；而测试阶段，不对图像的尺寸做任何处理，直接使用原始分辨率来得到最终的语义分割结果图。