CN110188768B

CN110188768B - 实时图像语义分割方法及系统

Info

Publication number: CN110188768B
Application number: CN201910384869.3A
Authority: CN
Inventors: 周全; 王雨; 从德春; 卢竞男; 刘嘉
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2022-10-14
Anticipated expiration: 2039-05-09
Also published as: CN110188768A

Abstract

一种实时图像语义分割方法及系统，所述方法包括：编码器基于分解卷积操作和并行分解卷积操作提取输入图像的图像特征，得到低分辨率的深层语义特征图并输出至解码器；所述解码器基于分解卷积操作和并行分解卷积操作对所述低分辨率的深层语义特征图进行细节精调，并将细节精调后的低分辨率的深层语义特征图上采样到所述输入图像大小，恢复输入图像的空间信息并向分割类别映射，最终生成与输入图像具有相同分辨率的语义分割结果图。上述的方案，可以在使用有限的计算资源进行实时图像语义分割时，提高分割的准确性。

Description

实时图像语义分割方法及系统

技术领域

本发明属于图像处理技术领域，特别是涉及一种实时图像语义分割方法及系统。

背景技术

语义分割在图像理解中起着重要作用。从计算机视觉的角度来看，其目标是为图像中的每个像素分配语义类别标签，因此也可以将其视为密集预测问题。与通过设计手工特征来处理这一富有挑战任务的传统方法不同，深度卷积神经网络(DCNNs，DeepConvolutional Neural Networks)已经在全图像分辨率的端到端分割方面展示了其令人印象深刻的能力。这个领域的第一个突出的工作是全卷积网络(FCN，Fully ConvolutionalNetworks)，它由一系列卷积层和池化层组成。在此之后，提出了大量基于FCN的网络架构，并且在分割精度方面取得了显著进步。然而，在卷积神经网络(CNNs，ConvolutionalNeural Networks)中，池化层和步长大于1的卷积层的多阶段使用显著地降低了特征表示的空间维度，从而丢失了图像的位置信息和细节信息。为了解决这一问题，一种更深层次的网络架构，称为编码器—解码器网络(Encoder-Decoder Network)，已经成为一种趋势，其中编码器模块逐渐降低特征图(feature map)的分辨率并捕获高级的语义信息，即用于特征抽象，解码器用于对深层的特征图进行上采样以匹配输入图像分辨率，恢复图像的空间信息并向分割类别映射，最终生成与编码器输入图像相同分辨率的语义分割结果图。例如，反卷积网络(Deconvolution Network)在解码器中采用反卷积来对低分辨率特征图进行上采样；SegNet(Segmentation Network)重新使用编码器中记录的池化索引以上采样特征图，并学习额外的反卷积层以使特征响应密集化；UNet(U-shape Network)设计了一个优雅的对称网络架构，通过添加跳跃连接，将编码器端的浅层卷积特征与解码器端深层特征相堆叠。在网络架构的设计中，近年来普遍采用了残差网(ResNet，Residual Network)的思想，其中残差层的设计允许堆叠大量卷积层，从而大大改善了诸如图像分类和图像语义分割的性能。例如RefineNet(Refinement Network)在编码器—解码器架构中采用ResNet作为其主干以更好的提取图像深层特征，并且在多个语义分割基准上获得了证明。

虽然，使用DCNNs进行语义分割已经取得了很大进展，然而，网络中大量的卷积层和特征通道使得语义分割成为计算繁重的任务，这些高精度的DCNNs忽略了实施效率，而这对于资源有限的场景是非常不利的。考虑到在移动平台(例如无人机、机器人和智能手机)上运行DCNNs，设计的网络不仅要求可靠(稳定)，还要求快速(实时)，适用于具有空间和存储器限制(紧凑性)的嵌入式设备，并且由于有限的能量开销(节能)，设计的网络还应具有低功耗特性。考虑到这一点，已经有一些初步的研究工作提出设计轻量级网络，旨在开发用于实时语义分割的高效架构。例如，ENet(Efficient Neural Network)是语义分割中考虑实现效率的第一项工作，其采用瓶颈结构的残差块进行有效的推理；最近的一些工作利用卷积分解原理，将标准的2D卷积替换为深度可分离卷积、分组卷积等，极大地减少了卷积运算参数量；ICNet(Image Cascade Network)提出图像级联框架来逐步细化分割预测等。然而，这些方法通常侧重于通过积极地减少网络参数来加快推理速度，这极大地损害了语义分割性能。因此，追求分割准确性和效率之间的最佳平衡，即如何在非常有限的计算预算中追求最佳准确性仍然是实时图像语义分割任务的一个开放性研究问题，这也是当前利用DCNNs解决图像语义分割任务亟待解决的问题。

发明内容

本发明解决的技术问题是如何在使用有限的计算资源进行实时图像语义分割时，提高分割的准确性。

为了达到上述目的，本发明提供了一种实时图像语义分割方法，所述方法包括：

编码器基于分解卷积操作和并行分解卷积操作提取输入图像的图像特征，得到低分辨率的深层语义特征图并输出至解码器；

所述解码器基于分解卷积操作和并行分解卷积操作对所述低分辨率的深层语义特征图进行细节精调，并将细节精调后的低分辨率的深层语义特征图上采样到所述输入图像大小，恢复输入图像的空间信息并向分割类别映射，最终生成与输入图像具有相同分辨率的语义分割结果图。

可选地，所述编码器基于分解卷积操作和并行分解卷积操作提取输入图像的图像特征，包括：

获取分辨率为原始图像一半的降采样图像，作为所述编码器的输入图像；

采用由两个并行分支组成的下采样单元对所述降采样图像进行两倍下采样操作，并将两并行分支得到的特征图进行通道叠加，得到对应的第一特征图像；所述并行分支中的第一分支采用的卷积核大小为3×3，卷积核个数为所述第一特征图像的通道数减去下采样图像的通道数，卷积核步长为2的卷积层对所述下采样图像进行下采样操作；第二分支对所述下采样图像进行最大池化操作；

对所述第一特征图像依次执行三次分解卷积操作，得到第二特征图像；所述第二特征图像的分辨率与特征通道数与所述第一特征图像相同；

对所述第二特征图像，再次采用由所述两个并行分支组成的下采样单元以执行两倍下采样操作，得到第三特征图像；所述第三特征图像的特征通道数为所述第二特征图像的两倍；

对所述第三特征图像执行两次所述分解卷积操作，得到第四特征图像；所述第四特征图像的分辨率和特征通道数与所述第三特征图像相同；

对所述第四特征图像采用所述由两个并行分支组成的下采样单元以执行两倍下采样操作，得到第五特征图像；所述第五特征图像的特征通道数为所述第四特征图像的两倍；

对所述第五特征图像依次执行三次并行分解卷积操作，且三次并行分解卷积操作中的扩张系数依次为2-5-9，输出分辨率不变，卷积核个数为128，最后得到特征通道数为128的第六特征图像，作为所述编码器的输出。

可选地，所述解码器基于分解卷积操作和并行分解卷积操作对所述低分辨率的深层语义特征图进行细节精调，并将细节精调后的低分辨率的深层语义特征图上采样到所述输入图像大小，包括：

对所述第六特征图像进行两倍的上采样操作，得到通道数为第六特征图像一半的第七特征图像；所述上采样操作由顺序执行的反卷积操作、激活操作和批量归一化操作构成；

对得到的第七特征图依次执行两次分解卷积操作，得到第八特征图像；所述第八特征图像的分辨率和特征通道数与第七特征图像相同；

对所述第八特征图像进行所述两倍的上采样操作，得到第九特征图像；所述第九特征图像的特征通道数为所述第八特征图像的四分之一；

对所述第九特征图依次执行两次所述分解卷积操作，得到第十特征图像；所述第十特征图像的分辨率和特征通道数与第九特征图相同；

对所述第十特征图执行两倍的上采样，并向分割类别映射，得到通道数为分割类别数的特征图，即所述解码器的输出图像；其中，所述上采样操作包括由反卷积层执行的反卷积操作。

可选地，所述分解卷积操作，包括：

对输入的特征图像依次执行采用Kx1的卷积核进行的卷积操作和激活操作，得到第一中间特征图像；

对所得到的第一中间特征图像依次执行采用1xK的卷积核进行的卷积操作、激活操作和批量归一化操作，得到第二中间特征图像；

对所述第二中间特征图像依次执行采用Kx1的卷积核进行的卷积操作和激活操作，得到第三中间特征图像

对所得到的第三中间特征图像依次执行采用1xK的卷积核进行的卷积操作和批量归一化操作，得到第四中间特征图像；

将所得到的第四中间特征图像与输入的特征图像进行逐像素点相加并执行激活操作，作为所述分解卷积操作的输出图像。

可选地，所述并行分解卷积操作，包括：

对输入特征图像依次执行采用3x1的卷积核进行的卷积操作和激活操作，得到第一中间特征图；

对所述第一中间特征图依次执行采用1x3的卷积核进行的卷积操作、激活操作和批量归一化操作，得到第二中间特征图；

分别采用三条分支对所述第二特征图执行1D的3x1的扩张卷积操作、激活操作、1x3扩张卷积操作和批量归一化操作，分别得到第一分支特征图、第二分支特征图和第三分支特征图；所述三条分支的扩张卷积操作的扩张率分别为r1、r2和r3；

将所述第一分支特征图、第二分支特征图和第三分支特征图和所述输入特征图像进行逐像素点相加并执行激活操作，得到所述并行分解卷积操作的输出图像。

本发明实施例还提供了一种实时图像语义分割系统，所述系统包括依次耦接的编码器和解码器：

所述编码器，适于基于分解卷积操作和并行分解卷积操作提取输入图像的图像特征，得到低分辨率的深层语义特征图并输出至解码器；

所述解码器，适于基于分解卷积操作和并行分解卷积操作对所述低分辨率的深层语义特征图进行细节精调，并将细节精调后的低分辨率的深层语义特征图上采样到所述输入图像大小，恢复输入图像的空间信息并向分割类别映射，最终生成与输入图像具有相同分辨率的语义分割结果图。

可选地，所述编码器，适于获取分辨率为原始图像一半的降采样图像，作为所述编码器的输入图像；采用由两个并行分支组成的下采样单元对所述降采样图像进行两倍下采样操作，并将两并行分支得到的特征图进行通道叠加，得到对应的第一特征图像；所述并行分支中的第一分支采用的卷积核大小为3×3，卷积核个数为所述第一特征图像的通道数减去下采样图像的通道数，卷积核步长为2的卷积层对所述下采样图像进行下采样操作；第二分支对所述下采样图像进行最大池化操作；对所述第一特征图像依次执行三次分解卷积操作，得到第二特征图像；所述第二特征图像的分辨率与特征通道数与所述第一特征图像相同；对所述第二特征图像，再次采用由所述两个并行分支组成的下采样单元以执行两倍下采样操作，得到第三特征图像；所述第三特征图像的特征通道数为所述第二特征图像的两倍；对所述第三特征图像执行两次所述分解卷积操作，得到第四特征图像；所述第四特征图像的分辨率和特征通道数与所述第三特征图像相同；对所述第四特征图像采用所述由两个并行分支组成的下采样单元以执行两倍下采样操作，得到第五特征图像；所述第五特征图像的特征通道数为所述第四特征图像的两倍；对所述第五特征图像依次执行三次并行分解卷积操作，且三次并行分解卷积操作中的扩张系数依次为2-5-9，输出分辨率不变，卷积核个数为128，最后得到特征通道数为128的第六特征图像，作为所述编码器的输出。

可选地，所述解码器，适于对所述第六特征图像进行两倍的上采样操作，得到通道数为第六特征图像一半的第七特征图像；所述上采样操作由顺序执行的反卷积操作、激活操作和批量归一化操作构成；对得到的第七特征图依次执行两次分解卷积操作，得到第八特征图像；所述第八特征图像的分辨率和特征通道数与第七特征图像相同；对所述第八特征图像进行所述两倍的上采样操作，得到第九特征图像；所述第九特征图像的特征通道数为所述第八特征图像的四分之一；对所述第九特征图依次执行两次所述分解卷积操作，得到第十特征图像；所述第十特征图像的分辨率和特征通道数与第九特征图相同；对所述第十特征图执行两倍的上采样，并向分割类别映射，得到通道数为分割类别数的特征图，即所述解码器的输出图像；其中，所述上采样操作包括由反卷积层执行的反卷积操作。

可选地，所述编码器或解码器，适于对输入的特征图像依次执行采用Kx1的卷积核进行的卷积操作和激活操作，得到第一中间特征图像；对所得到的第一中间特征图像依次执行采用1xK的卷积核进行的卷积操作、激活操作和批量归一化操作，得到第二中间特征图像；对所述第二中间特征图像依次执行采用Kx1的卷积核进行的卷积操作和激活操作，得到第三中间特征图像；对所得到的第三中间特征图像依次执行采用1xK的卷积核进行的卷积操作和批量归一化操作，得到第四中间特征图像；将所得到的第四中间特征图像与输入的特征图像进行逐像素点相加并执行激活操作，作为所述分解卷积操作的输出图像。

可选地，所述编码器或解码器，适于对输入特征图像依次执行采用3x1的卷积核进行的卷积操作和激活操作，得到第一中间特征图；对所述第一中间特征图依次执行采用1x3的卷积核进行的卷积操作、激活操作和批量归一化操作，得到第二中间特征图；分别采用三条分支对所述第二特征图执行1D的3x1的扩张卷积操作、激活操作、1x3扩张卷积操作和批量归一化操作，分别得到第一分支特征图、第二分支特征图和第三分支特征图；所述三条分支的扩张卷积操作的扩张率分别为r1、r2和r3；将所述第一分支特征图、第二分支特征图和第三分支特征图和所述输入特征图像进行逐像素点相加并执行激活操作，得到所述并行分解卷积操作的输出图像。

与现有技术相比，本发明的有益效果为：

上述的方案，采用编码器基于分解卷积操作和并行分解卷积操作提取输入图像的图像特征，得到低分辨率的深层语义特征图并输出至解码器，再采用所述解码器基于分解卷积操作和并行分解卷积操作对所述低分辨率的深层语义特征图进行细节精调，并将细节精调后的低分辨率的深层语义特征图上采样到所述输入图像大小，恢复输入图像的空间信息并向分割类别映射，最终生成与输入图像具有相同分辨率的语义分割结果图，通过将分解卷积操作和并行分解卷积操作对称的进行堆叠，可以在使用有限的计算资源进行实时图像语义分割时，提高分割的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中的一种实时图像语义分割系统的结构示意图；

图2是本发明实施例中的一种实时图像语义分割方法的流程示意图；

图3是本发明实施例中的另一种实时图像语义分割方法的流程示意图；

图4是本发明实施例中的一种分解卷积操作的流程示意图；

图5是现有技术中的残差网中一种非瓶颈残差块所执行的卷积操作的流程示意图；

图6是现有技术中的残差网中一种瓶颈残差块所执行的卷积操作的流程示意图；

图7是现有技术中的残差网中一种一维的非瓶颈残差块所执行的卷积操作的流程示意图；

图8是本发明实施例中的一种分解卷积操作的流程示意图；

图9是本发明实施例中的一种实时图像语义分割方法实例的示意图

图10是本发明实施例中的一种实时图像语义分割方法与现有的其他方法的性能比较示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。本发明实施例中有关方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

如背景技术所述，虽然使用DCNNs进行语义分割已经取得了很大进展，然而，网络中大量的卷积层和特征通道使得语义分割成为计算繁重的任务，这些高精度的DCNNs忽略了实施效率，而这对于资源有限的场景是非常不利的。考虑到在移动平台(例如无人机、机器人和智能手机)上运行DCNNs，设计的网络不仅要求可靠(稳定)，还要求快速(实时)，适用于具有空间和存储器限制(紧凑性)的嵌入式设备，并且由于有限的能量开销(节能)，设计的网络还应具有低功耗特性。考虑到这一点，已经有一些初步的研究工作提出设计轻量级网络，旨在开发用于实时语义分割的高效架构。例如，ENet(Efficient Neural Network)是语义分割中考虑实现效率的第一项工作，其采用瓶颈结构的残差块进行有效的推理；最近的一些工作利用卷积分解原理，将标准的2D卷积替换为深度可分离卷积、分组卷积等，极大地减少了卷积运算参数量；ICNet(Image Cascade Network)提出图像级联框架来逐步细化分割预测等。然而，这些方法通常侧重于通过积极地减少网络参数来加快推理速度，这极大地损害了语义分割性能。因此，追求分割准确性和效率之间的最佳平衡，即如何在非常有限的计算预算中追求最佳准确性仍然是实时图像语义分割任务的一个开放性研究问题，这也是当前利用DCNNs解决图像语义分割任务亟待解决的问题。

本发明的技术方案通过采用编码器基于分解卷积操作和并行分解卷积操作提取输入图像的图像特征，得到低分辨率的深层语义特征图并输出至解码器，再采用所述解码器基于分解卷积操作和并行分解卷积操作对所述低分辨率的深层语义特征图进行细节精调，并将细节精调后的低分辨率的深层语义特征图上采样到所述输入图像大小，恢复输入图像的空间信息并向分割类别映射，最终生成与输入图像具有相同分辨率的语义分割结果图，通过将分解卷积操作和并行分解卷积操作对称的进行堆叠，可以在使用有限的计算资源进行实时图像语义分割时，提高分割的准确性。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

为了便于理解，下面首先对本发明实施例中的实时图像语义分割系统进行介绍。

图1是本发明实施例的一种实时图像语义分割系统的结构示意图。参见图1，一种实时图像语义分割系统，可以包括编码器101和解码器102。其中，编码器101与解码器102相互耦接。

下面将对图1所示的实时图像语义分割系统的工作原理进行介绍。

图2是本发明实施例的一种实时图像语义分割方法的流程示意图。参见图2，一种实时图像语义分割方法，具体可以包括如下的步骤：

步骤S201：编码器基于分解卷积操作和并行分解卷积操作提取输入图像的图像特征，得到低分辨率的深层语义特征图并输出至解码器。

步骤S202：所述解码器基于分解卷积操作和并行分解卷积操作对所述低分辨率的深层语义特征图进行细节精调，并将细节精调后的低分辨率的深层语义特征图上采样到所述输入图像大小，恢复输入图像的空间信息并向分割类别映射，最终生成与输入图像具有相同分辨率的语义分割结果图。

上述的方案，通过采用编码器基于分解卷积操作和并行分解卷积操作提取输入图像的图像特征，得到低分辨率的深层语义特征图并输出至解码器，再采用所述解码器基于分解卷积操作和并行分解卷积操作对所述低分辨率的深层语义特征图进行细节精调，并将细节精调后的低分辨率的深层语义特征图上采样到所述输入图像大小，恢复输入图像的空间信息并向分割类别映射，最终生成与输入图像具有相同分辨率的语义分割结果图，通过将分解卷积操作和并行分解卷积操作对称的进行堆叠，可以在使用有限的计算资源进行实时图像语义分割时，提高分割的准确性。

下面将结合图3，对本发明实施例中的一种实时图像语义分割方法进行详细的介绍。

图3是本发明实施例的另一种实时图像语义分割方法的流程示意图。参见图3，一种实时图像语义分割方法，具体可以包括如下的步骤：

步骤S301：所述编码器获取分辨率为原始图像一半的降采样图像，作为所述编码器的输入图像。

具体实施中，获取的分辨率为原始图像一半的降采样图像的处理过程具体可以包括：首先，将原始图像缩放到原来大小的一半，然后对缩放后的图像进行左右翻转，再对其进行随机平移(0-2个像素点)，再从平移后的图像中裁剪出大小是原始图像一半的图像，该降采样图像即为编码器的输入图像。

步骤S302：所述编码器采用由两个并行分支组成的下采样单元对所述降采样图像进行两倍下采样操作，并将两并行分支得到的特征图进行通道叠加，得到对应的第一特征图像。

在本发明一实施例中，所述并行分支中的第一分支采用的卷积核大小为3×3，卷积核个数为所述第一特征图像的通道数减去下采样图像的通道数，卷积核步长为2的卷积层对所述下采样图像进行下采样操作；第二分支对所述下采样图像进行最大池化操作(Max-Pooling)，该侧分支输出特征图通道数为下采样单元输入通道数，即为3，然后将两个分支得到的特征图在通道上做连接，即通道叠加，作为下采样单元输出。

步骤S303：所述编码器对所述第一特征图像依次执行三次分解卷积操作，得到第二特征图像；所述第二特征图像的特征通道数与所述第一特征图像相同。

参见图4，在本发明一实施例中，在执行每次分解卷积操作时，首先，对输入的特征图像依次执行采用Kx1的卷积核进行的卷积操作(如图中所示的Kx1 Conv)和激活操作(如图中所示的ReLU)，得到第一中间特征图像；接着，对所得到的第一中间特征图像依次执行采用1xK的卷积核进行的卷积操作(如图中所示的1xK Conv)、激活操作(如图中所示的ReLU)和批量归一化操作(如图中所示的BN)，得到第二中间特征图像；之后，对所述第二中间特征图像依次执行采用Kx1的卷积核进行的卷积操作(如图中所示的Kx1 Conv)和激活操作(如图中所示的ReLU)，得到第三中间特征图像；之后，对所得到的第三中间特征图像依次执行采用1xK的卷积核进行的卷积操作(如图中所示的1xK Conv)和批量归一化操作(如图中所示的BN)，得到第四中间特征图像；最后，将所得到的第四中间特征图像与输入的特征图像进行逐像素点相加并执行激活操作(如图中所示的ReLU)，作为所述分解卷积操作的输出图像。

图5至图7示出现有技术中的三种不同的残差模块，其中：

图5是残差网(ResNet)中一种非瓶颈残差块(Non-bottleneck Block)所执行的卷积操作的示意图。这种普通的残差块在执行卷积操作时，特点在于主分支由二层3x3卷积层组成，并且在卷积层之间加入了激活函数进行激活操作，如采用图中所示的修正线性单元(ReLU，Rectified Linear Unit)，以及批量归一化层(BN)所执行的激活操作。对于边侧分支采用了捷径连接(Shortcut Connections)，直接将残差块的输入和主分支输出做逐像素点相加。其中，两个3x3卷积层的输入输出通道维度与进入普通残差块的通道数保持相同。捷径连接的引入，使得利用该残差模块构建的卷积神经网络更易于训练，同时避免了卷积神经网络参数更新过程中出现的梯度消失和梯度爆炸的问题，使得较深层数的网络训练成为可能。

图6是残差网中的另一种残差模块，也被称为瓶颈残差块(Bottleneck Block)，其特点在于主分支三层结构分别是1x1、3x3、1x1卷积层，其中两个1x1卷积层(1x1卷积也常被称为点卷积)用来降低和增加通道维度，并且在卷积层之间加入了激活函数，批量归一化层。对于边侧分支采用了捷径连接，直接和主分支输出做逐像素点相加。由于主分支呈沙漏型或者瓶颈状，所以称这种构建模块为瓶颈残差块。这种残差模块好处在于1x1结构增降维度有利于减少模型参数，使得可以构建更为紧凑的网络结构，减少了特征通道的冗余信息，使得网络可以变得更深，解决了利用图5中非瓶颈残差块构建深层网络性能变差的问题。

图7是残差网中的普通残差模块，为对图5的残差模块的改进，也被称为一维的非瓶颈残差块(Non-bottleneck-1D)，其将普通的3x3卷积利用卷积分解原理拆分成了3x1和1x3卷积，可以大幅减少构建块参数，特别是当利用这种残差模块来搭建深层网络时，可以大幅减少网络参数。这种设计的内在原因是，深入分析残差块的使用过程发现网络中存在着大量的冗余通道信息，为网络参数压缩提供了依据，于是这种设计采用了卷积分解原理对普通卷积进行了拆分，使得2D卷积核降到了1D卷积核。但是，其缺点是固定的卷积核大小如3x3，限制了卷积核的局部感受野范围，特征表达能力不足。

而如图4所示为本发明实施例中的一种分解卷积操作，将执行本发明实施例中的分解卷积操作的模块称为分解卷积单元(FCU)，它是图7所示的一维非瓶颈残差块的改进，即将3x3卷积扩展到了一般情况的KxK卷积核(K取值为3、5、7等)，并同样利用卷积分解原理拆分成了Kx1和1xK卷积。这种设计，在卷积神经网络中不同大小的卷积核，可以捕获不同尺度的信息。在卷积神经网络的不同层对卷积核的大小也有其适应性，如在编码器的浅层更喜欢用较小的卷积核来提取低级图像特征，而在编码器的深层更喜欢用较大的卷积核来捕获大范围的上下文信息。图7中的卷积核大小是固定的，因此其抽象特征的表达能力不足，本发明实施例中的分解卷积操作采用具有不同卷积核大小的1D分解卷积，更适应于捕获具有不同尺度的对象实例，且通过调节K的大小，在网络的不同层次，可适应性的做相应调整。

步骤S304：所述编码器对所述第二特征图像，再次采用由所述两个并行分支组成的下采样单元以执行两倍下采样操作，得到第三特征图像。

在具体实施中，所述由两个并行分支所组成的下采样单元执行的两倍下采样操作请参照步骤S302中的操作执行。

在具体实施中，由所述两个并行分支组成的下采样单元以执行两倍下采样操作所得到的第三特征图像的特征通道数为所述第二特征图像的两倍。

步骤S305：所述编码器对所述第三特征图像执行两次所述分解卷积操作，得到第四特征图像。

在具体实施中，所述第四特征图像的分辨率和特征通道数与所述第三特征图像相同。其中，分解卷积的操作请参见图4及步骤S303的详细描述，在此不再赘述。

步骤S306：所述编码器对所述第四特征图像采用所述由两个并行分支组成的下采样单元以执行两倍下采样操作，得到第五特征图像。

在具体实施中，所述由两个并行分子所组成的下采样单元执行的两倍下采样操作请参照步骤S302中的该操作进行执行，不再赘述。

在具体实施中，由所述两个并行分支组成的下采样单元以执行两倍下采样操作所得到的第五特征图像的特征通道数为所述第四特征图像的两倍。

步骤S307：所述编码器对所述第五特征图像依次执行三次并行分解卷积操作，且三次并行分解卷积操作中的扩张系数依次为2-5-9，输出分辨率不变，卷积核个数为128，最后得到特征通道数为128的第六特征图像，作为所述编码器的输出。

在本发明一实施例中，参见图8，所述编码器对所述第五特征图像每次所执行的并行分解卷积操作时，首先，对输入特征图像依次执行采用3x1的卷积核进行的卷积操作(如图中所示的3x1Conv)和激活操作(如图中所示的ReLU)，得到第一中间特征图；至此，为并行分解卷积操作的变换过程(transform process)。然后，将其分裂为三个支路(即分裂过程，split process)，每个分支分别对所述第一中间特征图依次执行采用1x3的卷积核进行的卷积操作(如图中所示的1x3Conv)、激活操作(如图中所示的ReLU)和批量归一化操作(如图中所示的BN)，得到第二中间特征图；随后，分别采用三条分支对所述第二特征图执行1D的3x1的扩张卷积操作(如图中所示的3x1DConv)、激活操作(如图中所示的ReLU)、1x3扩张卷积操作(如图中所示的1x3DConv)和批量归一化操作(如图中所示的BN)，分别得到第一分支特征图、第二分支特征图和第三分支特征图，其中，三个分支中的3x1，1x3卷积采用了扩张卷积的策略，三个支路的扩张率分别设置为r1、r2、r3，以扩大感受野，提高网络的容量和特征表达能力；所述三条分支的扩张卷积操作的扩张率分别为r1、r2和r3；最后，将所述第一分支特征图、第二分支特征图和第三分支特征图进行逐像素点相加(如图中所示的Add)，即合并过程(merge process)，同样为了使得网络更易于训练，引入了捷径连接，即将PFCU模块的输入特征图与分裂分支的输出特征图进行逐像素点相加并执行激活操作(如图中所示的ReLU)，得到所述并行分解卷积操作的输出图像。整个“变换—分裂—变换—合并”(transform-split-transform-merge)过程中通道数或者卷积核个数保持相同。这里需要注意的是，本文中的扩张卷积，也常称作带孔卷积(Dilated Convolution)或带洞卷积(Atrous Convolution)，目的是为了扩大神经元的感受野。值得注意的是，当扩张卷积的扩张率dilation rate为1时，扩张卷积方式和普通卷积没有区别，当扩张率dilation rate大于1时，扩张卷积是在普通卷积的卷积核的每个值(神经元)之间引入了间隔，即相邻两个神经元之间插入(dilation rate–1)个零值，在相同的计算复杂度下，扩张卷积提供了更大的感受野。

在图8的本发明实施例中的一种并行分解卷积操作，是本发明设计的网络架构的核心组成部分，其为对并行对应结构的改进，在将普通的3x3卷积利用卷积分解原理拆分成了3x1和1x3卷积的基础上，采用了一种“变换—分裂—变换—合并”(transform-split-transform-merge)策略，其中分裂分支采用了具有不同扩张率的扩张卷积以扩大感受野，在本文中将执行该并行分解卷积操作的残差模块称为并行分解卷积单元(PFCU)。这种设计的内在原因是，受到网络中的网络(Network In Network)以及Inception结构的启发，多路径的结构设计可以增加网络的容量，提高网络的性能。PFCU模块的好处在于，PFCU接近大和密集层的表示能力。与完全并行的FCU结构相比较，可以将PFCU结构中分裂之前的变换部分作为三个支路共享的卷积特征映射，这可以视为是一种特征重用，没有显著增加复杂度，提高了网络的特征表达能力。

步骤S308：所述解码器对所述第六特征图像进行两倍的上采样操作，得到通道数为第六特征图像一半的第七特征图像。

在具体实施中，所述解码器在对所述第六特征图像进行两倍的上采样操作时，所述上采样操作由顺序执行的反卷积操作、激活操作(如采用修正线性单元(ReLU，RectifiedLinear Unit)进行激活操作)和批量归一化(BN，Batch Normalization)操作构成。

步骤S309：所述解码器对得到的第七特征图依次执行两次分解卷积操作，得到第八特征图像。

在具体实施中，所述编码器所执行的分解卷积操作请参照步骤S302和图4中的详细介绍，不再赘述。其中，所述第八特征图像的分辨率和特征通道数与第七特征图像相同。

步骤S310：所述解码器对所述第八特征图像进行所述两倍的上采样操作，得到第九特征图像。

在具体实施中，所述上采样操作请参照步骤S308中的上采样操作执行，不再赘述。其中，所得到的第九特征图像的特征通道数为所述第八特征图像的四分之一。

步骤S311：所述解码器对所述第九特征图依次执行两次所述分解卷积操作，得到第十特征图像。

在具体实施中，所述解码器对所述第九特征图所执行的分解卷积操作请参见图4和步骤S302中的详细描述，不再赘述。其中，所得到的第十特征图像的分辨率和特征通道数与第九特征图相同。

步骤S312：所述解码器对所述第十特征图执行两倍的上采样，并向分割类别映射，得到通道数为分割类别数的特征图，即所述解码器的输出图像。

在具体实施中，所述上采样操作请与步骤S308中的上采样操作不同，其直接由反卷积层执行的反卷积操作构成，无需激活层、批量归一化层。

下面将结合具体的实例对本发明实施例中的实时图像语义分割方法做介绍。

参见图9，以输入的原始图像的大小1024*512*3为例，在执行本发明实施例中的实时图像语义分割时，具体可以执行如下的步骤：

S1、对输入的原始图像进行预处理，获得分辨率为原始图像一半的降采样图像Y，该降采样图像作为编码器的输入图像。

S2、利用下采样单元对步骤S1中编码器的输入图像进行两倍的下采样，得到通道数为16的第一特征图91；

S3、利用分解卷积单元(FCU，K＝3)对步骤S2得到的第一特征图91进行卷积操作，重复该卷积操作三次，每一次卷积中卷积核个数均为16，最后得到通道数为16的第二特征图92，第二特征图的分辨率和特征通道数与第一特征图91相同；

S4、利用下采样单元对步骤S3得到的第二特征图进行两倍的下采样，得到通道数为64的第三特征图93；

S5、利用分解卷积单元(FCU，K＝5)对步骤S4得到的第三特征图94进行分解卷积操作，并重复该分解卷积操作两次，每一次分解卷积中卷积核个数均为64，最后得到通道数为64的第四特征图94，第四特征图94的分辨率和特征通道数与第三特征图93相同；

S6、利用下采样单元对步骤S5得到的第四特征图94进行两倍的下采样，得到通道数为128的第五特征图95；

S7、利用并行分解卷积单元(PFCU)对步骤S6得到的第五特征图95进行并行分解卷积操作，并重复该卷积操作三次。具体地，逐层堆叠并行分解卷积单元，一共三个，每个并行分解卷积单元中的卷积层都是由大小为3x1、1x3的卷积核组成，它采用了一种新颖的“变换—分裂—变换—合并”(transform-split-transform-merge)策略，其中每个分支采用不同的扩张率dilated ratio，or atrous ratio，分别设置为2—5—9)，每一次卷积中卷积核个数均为128，最后得到通道数为128的第六特征图96，即编码器的输出。

S8、解码器利用上采样单元对步骤S7得到的第六特征图96进行两倍的上采样，得到通道数为64的第七特征图97。具体地，该上采样单元由反卷积层、激活层(ReLU，Rectified Linear Unit)、批量归一化层(BN，Batch Normalization)顺序堆叠构成；

S9、解码器利用分解卷积单元(FCU，K＝5)对步骤S8得到的第七特征图进行并行分解卷积操作，并重复该卷积操作两次。其中，每一次并行分解卷积中卷积核个数均为64，最后得到通道数为64的第八特征图98，第八特征图98的分辨率和特征通道数与第七特征图97相同；

S10、利用上采样单元对步骤S9得到的第八特征图98进行两倍的上采样，得到通道数为16的第九特征图99。具体地，该上采样单元由反卷积层、激活层、批量归一化层顺序堆叠构成；

S11、利用分解卷积单元(FCU，K＝3)对步骤S10得到的第九特征图99进行分解卷积操作，且共重复该分解卷积操作两次。其中每一次分解卷积中卷积核个数均为16，最后得到通道数为16的第十特征图90，第十特征图90的分辨率和特征通道数与第九特征图99相同；

S12、利用上采样单元对步骤S11得到的第十特征图90进行两倍的上采样，并向分割类别映射，得到通道数为分割类别数C(如，在使用Cityscapes数据集时，设定C＝20，包括一个背景类别)的特征图Z，即解码器的输出，作为整个编码器—解码器网络最终的分割结果图，其分辨率与编码器的输入图像一致。需要说明的是，最后一个上采样单元直接由反卷积层构成，无需激活层、批量归一化层。

特别说明的是，需要指明，本发明所设计的整体网络是在图像语义分割公共基准Cityscapes数据集上进行测试的，所以附图9中标识的参数，即(宽x高x通道数)中的宽、高和通道数目需要针对使用的不同数据集来做相应的变动。

图10为本发明设计网络与多个轻量级网络在Cityscapes数据集上的分割结果定性比较图。为了验证本发明设计网络的准确性和实施效率，在广泛使用的Cityscapes数据集上对模型进行了训练、评估与预测。Cityscapes包含一个带有精细标注(gtFine，groundtruth Fine annotation)的数据集，其中训练集/验证集/测试集分别包含图像数目为2975/500/1525张，它还包含一个带有粗略标注(gtCoarse，ground truth Coarseannotation)的数据集，其包含20k张粗略标注的图像。在训练时设定分割类别数为20，即19个目标类别和1个背景类别，训练后，与多个轻量级网络输出的分割结果定性比较，在图10中选择了6个最先进的轻量级网络作为基线，包括SegNet、ENet、ERFNet(EfficientResidual Factorized Network)、ICNet、CGNet(Context Guided Network)和ESPNet(Efficient Spatial Pyramid Network)。为了评估分割性能，评估指标采用标准的杰卡德系数(Jaccard Index)，通常也被称为PASCAL VOC交叉联合(或交并比)度量，下面为IoU(Intersection-over-Union)的计算公式：

其中，TP、FP、FN分别代表在整个Cityscapes测试集上确定的真正类(TruePositive)、假正类(False Positive)、假负类(False Negative)像素点的个数。本发明设计的模型ESNet在仅使用Fine Annotation训练情况下，在测试集上的IoU_class和IoU_category分别为69.1％、86.8％；在同时使用Fine和Coarse的Cityscapes标注数据条件下，所设计的ESNet在测试集上的IoU_class和IoU_category分别为70.7％、87.4％，其中19个类别中的16个获得了最佳得分值。同时运行时间，模型推理速度和模型大小指标用于衡量所设计的模型实施效率。实验结果表明，所设计的高效对称网络实现了分割精度和实施效率之间的最佳平衡，其性能在很大程度上已经超过了很多先进的模型。从图中可以看出ESNet相比于SegNet，ENet，ERFNet，ESPNet，ICNet及CGNet的分割结果，前者在分割的准确性和效率之间实现了最优折中。在效率方面，ESNet模型大小比SegNet小18倍多且速度快4倍多，在分割精度方面，尽管ENet是比较高效的网络，但分割精度比我们低12％。实验结果表明，与多个轻量级基准网络相比，本发明设计的ESNet不仅可以正确地对不同尺度的物体进行像素级别的分类，而且可以为所有类别生成一致的定性结果。无论从定量还是定性的结果进行比较，都充分说明了本发明的高效对称网络在实时图像语义分割任务中的优越性。

采用本发明实施例中的上述方案，编码器对输入的原始图像利用基于分解卷积操作和并行分解卷积操作提取输入图像的图像特征，得到低分辨率的深层语义特征图并输出至解码器，并由解码器基于分解卷积操作和并行分解卷积操作对所述低分辨率的深层语义特征图进行细节精调，并将细节精调后的低分辨率的深层语义特征图上采样到所述输入图像大小，恢复输入图像的空间信息并向分割类别映射，最终生成与输入图像具有相同分辨率的语义分割结果图。本发明设计的ESNet是一种高效的对称编码器-解码器结构，没有使用额外的上下文模块，后处理策略，预训练模型。实验结果表明，与目前最先进的轻量级网络模型相比，本发明提出的网络架构实现了分割精度和效率之间的最佳平衡，可以在使用有限的计算资源进行实时图像语义分割，提高分割的准确性。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，本发明要求保护范围由所附的权利要求书、说明书及其等效物界定。

Claims

1.一种实时图像语义分割方法，其特征在于，包括：

所述解码器基于分解卷积操作和并行分解卷积操作对所述低分辨率的深层语义特征图进行细节精调，并将细节精调后的低分辨率的深层语义特征图上采样到输入图像大小，恢复输入图像的空间信息并向分割类别映射，最终生成与输入图像具有相同分辨率的语义分割结果图。

2.根据权利要求1所述的实时图像语义分割方法，其特征在于，所述编码器基于分解卷积操作和并行分解卷积操作提取输入图像的图像特征，包括：获取分辨率为原始图像一半的降采样图像，作为所述编码器的输入图像；采用由两个并行分支组成的下采样单元对所述降采样图像进行两倍下采样操作，并将两并行分支得到的特征图进行通道叠加，得到对应的第一特征图像；所述并行分支中的第一分支采用的卷积核大小为3×3，卷积核个数为所述第一特征图像的通道数减去下采样图像的通道数，卷积核步长为2的卷积层对所述下采样图像进行下采样操作；第二分支对所述下采样图像进行最大池化操作；

3.根据权利要求2所述的实时图像语义分割方法，其特征在于，所述解码器基于分解卷积操作和并行分解卷积操作对所述低分辨率的深层语义特征图进行细节精调，并将细节精调后的低分辨率的深层语义特征图上采样到所述输入图像大小，包括：

4.根据权利要求2或3所述的实时图像语义分割方法，其特征在于，所述分解卷积操作，包括：

5.根据权利要求4所述的实时图像语义分割方法，其特征在于，所述并行分解卷积操作，包括：

6.一种实时图像语义分割系统，其特征在于，包括依次耦接的编码器和解码器：

所述解码器，适于基于分解卷积操作和并行分解卷积操作对所述低分辨率的深层语义特征图进行细节精调，并将细节精调后的低分辨率的深层语义特征图上采样到输入图像大小，恢复输入图像的空间信息并向分割类别映射，最终生成与输入图像具有相同分辨率的语义分割结果图。

7.根据权利要求6所述的实时图像语义分割系统，其特征在于，所述编码器，适于获取分辨率为原始图像一半的降采样图像，作为所述编码器的输入图像；采用由两个并行分支组成的下采样单元对所述降采样图像进行两倍下采样操作，并将两并行分支得到的特征图进行通道叠加，得到对应的第一特征图像；所述并行分支中的第一分支采用的卷积核大小为3×3，卷积核个数为所述第一特征图像的通道数减去下采样图像的通道数，卷积核步长为2的卷积层对所述下采样图像进行下采样操作；第二分支对所述下采样图像进行最大池化操作；对所述第一特征图像依次执行三次分解卷积操作，得到第二特征图像；所述第二特征图像的分辨率与特征通道数与所述第一特征图像相同；对所述第二特征图像，再次采用由所述两个并行分支组成的下采样单元以执行两倍下采样操作，得到第三特征图像；所述第三特征图像的特征通道数为所述第二特征图像的两倍；对所述第三特征图像执行两次所述分解卷积操作，得到第四特征图像；所述第四特征图像的分辨率和特征通道数与所述第三特征图像相同；对所述第四特征图像采用所述由两个并行分支组成的下采样单元以执行两倍下采样操作，得到第五特征图像；所述第五特征图像的特征通道数为所述第四特征图像的两倍；对所述第五特征图像依次执行三次并行分解卷积操作，且三次并行分解卷积操作中的扩张系数依次为2-5-9，输出分辨率不变，卷积核个数为128，最后得到特征通道数为128的第六特征图像，作为所述编码器的输出。

8.根据权利要求7所述的实时图像语义分割系统，其特征在于，所述解码器，适于对所述第六特征图像进行两倍的上采样操作，得到通道数为第六特征图像一半的第七特征图像；所述上采样操作由顺序执行的反卷积操作、激活操作和批量归一化操作构成；对得到的第七特征图依次执行两次分解卷积操作，得到第八特征图像；所述第八特征图像的分辨率和特征通道数与第七特征图像相同；对所述第八特征图像进行所述两倍的上采样操作，得到第九特征图像；所述第九特征图像的特征通道数为所述第八特征图像的四分之一；对所述第九特征图依次执行两次所述分解卷积操作，得到第十特征图像；所述第十特征图像的分辨率和特征通道数与第九特征图相同；对所述第十特征图执行两倍的上采样，并向分割类别映射，得到通道数为分割类别数的特征图，即所述解码器的输出图像；其中，所述上采样操作仅包括由反卷积层执行的反卷积操作。

9.根据权利要求7或8所述的实时图像语义分割系统，其特征在于，所述编码器或解码器，适于对输入的特征图像依次执行采用Kx1的卷积核进行的卷积操作和激活操作，得到第一中间特征图像；对所得到的第一中间特征图像依次执行采用1xK的卷积核进行的卷积操作、激活操作和批量归一化操作，得到第二中间特征图像；对所述第二中间特征图像依次执行采用Kx1的卷积核进行的卷积操作和激活操作，得到第三中间特征图像；对所得到的第三中间特征图像依次执行采用1xK的卷积核进行的卷积操作和批量归一化操作，得到第四中间特征图像；将所得到的第四中间特征图像与输入的特征图像进行逐像素点相加并执行激活操作，作为所述分解卷积操作的输出图像。

10.根据权利要求9所述的实时图像语义分割系统，其特征在于，所述编码器或解码器，适于对输入特征图像依次执行采用3x1的卷积核进行的卷积操作和激活操作，得到第一中间特征图；对所述第一中间特征图依次执行采用1x3的卷积核进行的卷积操作、激活操作和批量归一化操作，得到第二中间特征图；分别采用三条分支对所述第二特征图执行1D的3x1的扩张卷积操作、激活操作、1x3扩张卷积操作和批量归一化操作，分别得到第一分支特征图、第二分支特征图和第三分支特征图；所述三条分支的扩张卷积操作的扩张率分别为r1、r2和r3；将所述第一分支特征图、第二分支特征图和第三分支特征图和所述输入特征图像进行逐像素点相加并执行激活操作，得到所述并行分解卷积操作的输出图像。