CN111209910A

CN111209910A - 用于语义分割的系统、方法和非暂时性计算机可读介质

Info

Publication number: CN111209910A
Application number: CN202010004326.7A
Authority: CN
Inventors: 毛红达; 项伟
Original assignee: Beijing Jingdong Shangke Information Technology Co Ltd; JD com American Technologies Corp
Current assignee: Beijing Jingdong Shangke Information Technology Co Ltd; JD com American Technologies Corp
Priority date: 2019-01-03
Filing date: 2020-01-02
Publication date: 2020-05-29
Also published as: US20200218948A1; US10977530B2

Abstract

用于语义分割的系统、方法和非暂时性计算机可读介质。该系统包括计算设备。该计算设备具有处理器和存储计算机可执行代码的非易失性存储器。计算机可执行代码当在处理器处执行时被配置为：接收场景的图像；由编码器处理图像以形成编码器特征图；由金字塔池化模块(PPM)处理编码器特征图以形成PPM特征图；并且由解码器处理PPM特征图以形成分割特征图。

Description

用于语义分割的系统、方法和非暂时性计算机可读介质

交叉引用

在本发明的描述中引用并讨论了一些参考文献，这些参考文献可以包括专利、专利申请和各种出版物。之所以引用和/或讨论这些参考文献仅仅是为了阐明本发明的描述，而不是承认任何这样的参考文献是本文所述的发明的“现有技术”。所有在本说明书中引用并讨论的参考文献均通过引用的方式整体并入本文中，其程度与每个参考文献通过引用的方式单独地并入的程度相同。

技术领域

本发明总体上涉及计算机视觉，并且更具体地涉及使用ThunderNet实现实时语义分割的系统和方法，其中ThunderNet包含经截取的编码器、金字塔池化模块(PPM)和定制的解码器。

背景技术

本文提供的背景描述是为了在总体上呈现本发明的上下文。当前署名的发明人在此背景技术部分中所描述的范围内的工作，以及在申请时可能无法以其他方式视为现有技术的说明书各方面，均未明确地或隐含地承认为本发明的现有技术。

作为计算机视觉领域的一项基础性问题，图像语义分割的主要任务是对所有像素和属于每个像素的输出类别执行稠密预测。从长远来看，语义分割已经被视为是实现对图像的深入理解的一个关键性部分，主题包括但不限于：实例分割、场景解析以及人与物体的交互等[12、17、25]。在过去几年，随着卷积神经网络(CNN)以及与其相关的许多新兴技术的发展，深度学习法[1、3、14、16、18、28]已经在语义分割方面取得了丰硕的成果。

但是，在使用CNN进行语义分割方面，最新的进展很大程度上是取决于那些深度及广义主干网，以及各种瓶颈和许多其他元架构的专用设计。采用那些复杂的设计会导致大量的与进行稠密预测的操作数量有关的冗余开销。在图6F中，我们展示了最新的方法在Cityscapes数据集[7]上的精度及其运行速度。由于增大了网络复杂性，过去几年内的大多数研究[1、3、4、14、16、18、28、30]都着重关注高质量预测的生成，因而不可避免地会极大地降低推理速度。为了克服这种速度问题，已经在文献中提出了许多研究成果，包括SQ[26]、ENet[19]、ICNet[29]和最近的ERFNet[21]。这些研究成果旨在提高推理速度，同时尝试维持同等的精度。然而，如图6F所示，这些方法中很少有方法能以令人满意的性能(即，Cityscapes上大约65％或以上的mIoU)来达到实时速度。在这种情况下，嵌入式系统(移动平台、NVIDIA Jetson TX1/TX2等)上的实时语义分割就成为了一项至关重要但却极具挑战性的任务。

因此，本领域亟需解决上述缺陷和不足。

发明内容

在某些方面，本发明涉及一种用于语义分割的系统。在某些实施例中，该系统包括计算设备，并且该计算设备具有处理器和存储计算机可执行代码的非易失性存储器。当在处理器处执行时，计算机可执行代码配置为：接收场景的图像；由编码器处理图像以形成编码器特征图；由金字塔池化模块(PPM)处理编码器特征图以形成PPM特征图；并且由解码器处理PPM特征图以形成分割特征图。

在某些实施例中，编码器包括ResNet18主干网，所述ResNet18主干网的第四块被截去。在某些实施例中，编码器顺序地由以下组成：具有两个单元的根、第一块、第二块和第三块。每个块具有第一重复单元、第二重复单元、第三重复单元和第四重复单元，对第一单元进行卷积并添加到第二单元的输出，对第三单元进行卷积并添加到第四单元的输出，并且根和块中的每个单元由3×3卷积层、批量归一化(BN)层和整流线性单元(ReLU)组成。在某些实施例中，根的两层、第一块、第二块和第三块的高度、宽度和通道尺寸分别为256×512×64、128×256×64、128×256×64、64×128×128和32×64×256。

在某些实施例中，PPM包括：不同大小的金字塔池化特征；双线性上采样层；1×1卷积层；以及ReLU层。在某些实施例中，金字塔池化特征包括1×1×512特征、2×2×512特征、3×3×256特征和6×6×256特征。在某些实施例中，双线性上采样层具有32×64×1536的尺寸，并且1×1卷积层和ReLU层中的每一个具有32×64×256的尺寸。

在某些实施例中，解码器顺序地包括：第一级反卷积上采样块、第二级反卷积上采样块和双线性上采样块。在某些实施例中，第一级反卷积上采样块包括第一卷积层、第一反卷积上采样层、第一BN层、第二卷积层、第二BN层和第一ReLU层；第二级反卷积上采样块包括第三卷积层、第二反卷积上采样层、第三BN层、第四卷积层、第四BN层和第二ReLU层；双线性上采样块包括双线性上采样层和第五卷积层；对第一卷积层进行卷积并添加到第二BN层，并对第三卷积层进行卷积并添加到第四BN层。在某些实施例中，第一反卷积层的尺寸为32×64×256；第一反卷积上采样层和第一BN层的尺寸为64×128×256；第二卷积层、第二BN层、第一ReLU层和第三卷积层的尺寸为64×128×128；第二反卷积上采样层和第三BN层的尺寸为128×256×128；第四卷积层、第四BN层和第二ReLU层的尺寸为128×256×64；双线性上采样层的尺寸为512×1024×64；并且第五卷积层的尺寸为512×1024×20。在某些实施例中，对第一卷积层进行卷积并添加到第二BN层，并对第三卷积层进行卷积并添加到第四BN层。

在某些实施例中，计算机可执行代码还配置为基于分割图来控制场景中的操作设备。在某些实施例中，操作设备是自动驾驶车辆。

在某些方面，本发明涉及一种用于语义分割的方法。在某些实施例中，该方法包括：由计算设备接收场景的图像；由计算设备处理图像以形成编码器特征图；由计算设备处理编码器特征图以形成金字塔池化模块(PPM)特征图；并且由计算设备处理PPM特征图以形成分割特征图。

在某些实施例中，处理图像以形成编码器特征图的步骤由编码器执行，并且编码器包括ResNet 18主干网，所述ResNet 18主干网的第4块被截去。

在某些实施例中，处理编码器特征图以形成PPM特征图的步骤由PPM执行，并且PPM包括：不同大小的金字塔池化特征；双线性上采样层；1×1卷积层；以及ReLU层。

在某些实施例中，处理PPM特征图以形成分割特征图的步骤由解码器执行，并且解码器包括第一级反卷积上采样块、第二级反卷积上采样块和双线性上采样块。在某些实施例中，第一级反卷积上采样块包括第一卷积层、第一反卷积上采样层、第一BN层、第二卷积层、第二BN层和第一ReLU层；第二级反卷积上采样块包括第三卷积层、第二反卷积上采样层、第三BN层、第四卷积层、第四BN层和第二ReLU层；并且双线性上采样块包括双线性上采样层和第五卷积层。在某些实施例中，对第一卷积层进行卷积并添加到第二BN层，并对第三卷积层进行卷积并添加到第四BN层。

在某些实施例中，该方法还包括：基于分割图来控制场景中的操作设备。

在某些方面，本发明涉及一种存储计算机可执行代码的非暂时性计算机可读介质。当在计算设备的处理器处执行时，计算机可执行代码配置为执行上述方法。

结合以下附图及其标题，通过以下对优选实施例的描述，本发明的这些及其他方面将变得显而易见，但是，在不脱离本发明的新颖概念的精神和范围的前提下，可以在其中实现变化和修改。

附图说明

通过详细描述和附图，将更加全面地理解本发明。这些附图示出了本发明的一个或多个实施例，并且与书面描述一起用于解释本发明的原理。在任何可能的情况下，在所有附图中使用相同的附图标记来表示实施例中相同或相似的元素，并且其中：

图1示意性地描绘了根据本公开的某些实施例的ThunderNet结构。

图2示意性地描绘了根据本公开的某些实施例的用于语义分割的系统。

图3A示意性地描绘了根据本公开的某些实施例的编码器的结构。

图3B示意性地描绘了根据本公开的某些实施例的金字塔池化模块(PPM)的结构。

图3C示意性地描绘了根据本公开的某些实施例的解码器的结构。

图3D示意性地描绘了根据本公开的某些实施例的场景的图像。

图3E示意性地描绘了根据本公开的某些实施例的由ThunderNet生成的图3D中的图像的分割结果。

图4示意性地描绘了根据本公开的某些实施例的使用ThunderNet来处理图像的方法。

图5示意性地描绘了根据本公开的某些实施例的ThunderNet的训练方法。

图6A示意性地示出了根据本公开的某些实施例的表1，其中比较了目前可用的最快模型的推理速度。

图6B示意性地示出了根据本公开的某些实施例的表2，其中比较了不同模型在Cityscapes测试集上的最终精度和速度。

图6C示意性地示出了根据本公开的某些实施例的表3，其中比较了不同模型在不同输入大小下的推理速度。

图6D示意性地示出了根据本公开的某些实施例的表4，其中比较了不同模型在Cityscapes验证集上的不同输入大小下的实验结果。

图6E示意性地示出了根据本公开的某些实施例的表5，其中比较了在Cityscapes验证集上添加PPM和解码器的消融研究。

图6F示意性地描绘了根据本公开的某些实施例的不同模型的精度和推理速度。

图7示意性地描绘了根据本公开的某些实施例的ThunderNet的示例性分割结果。

具体实施方式

在以下示例中更具体地描述本发明，这些示例仅旨在是说明性的，因为其中的许多修改和变化对于本领域技术人员而言是显而易见的。现将详细描述本发明的各种实施例。参考附图，相同的数字(如果存在的话)在所有视图中表示相同的组件。另外，在下文中更具体地定义本说明书中使用的一些术语。

本说明书中使用的术语通常具有其在本领域中、在本发明的上下文内以及在使用每个术语的具体上下文中的普通含义。在下文或说明书的其他地方讨论了用于描述本发明的某些术语，以便为从业人员提供关于本发明描述的附加指导。应当理解，可以以一种以上的方式来叙述相同的内容。因此，替代性语言和同义词可以用于本文讨论的任何一个或多个术语，也不会针对术语是否在本文中进行了阐述或讨论表现出任何特殊意义。提供了某些术语的同义词。一个或多个同义词的叙述并不排除使用其他同义词。在本说明书中任何地方使用示例(包括本文讨论的任何术语的示例)仅是说明性的，绝不限制本发明或任何示例性术语的范围和含义。同样，本发明并不局限于本说明书中给出的各种实施例。

除非另有定义，否则本文使用的所有技术术语和科学术语都具有与本发明所属领域的普通技术人员通常所理解的相同含义。在发生冲突的情况下，以包括定义的本文件为准。

如本文的说明书和随后的整个权利要求书中所用，除非上下文另有明确指出，否则“一个(a)”、“一个(an)”和“该”的含义包括复数形式。而且，如本文的说明书和随后的整个权利要求书中所用，除非上下文另有明确指出，否则“在…中”的含义包括“在…中”和“在…上”。此外，为了方便读者，可以在说明书中使用标题或副标题，这不会影响本发明的范围。

如本文所用，“多个”是指两个或更多个。如本文所用，术语“包括”、“包含”、“携带”、“具有”、“含有”、“涉及”等应理解为开放式的，即意指包括但不限于。

如本文所用，短语A、B和C中的至少一个应被解释为表示使用非排他性逻辑“或”的逻辑(A或B或C)。应当理解的是，在不改变本发明的原理的情况下，可以以不同的顺序(或同时)执行方法中的一个或多个步骤。

如本文所用，术语“模块”可以指代如下内容，可以是如下内容的一部分，或者可以包括如下内容：专用集成电路(ASIC)；电子电路；组合逻辑电路；现场可编程门阵列(FPGA)；执行代码的处理器(共享、专用或群组)；提供上述功能的其他合适的硬件组件；或者上述内容的一些或全部的组合，例如在片上系统中。术语模块可以包括存储由处理器执行的代码的存储器(共享、专用或群组)。

如本文所用，术语“代码”可以包括软件、固件和/或微代码，并且可以指代程序、例程、功能、类和/或对象。如上文所用，术语共享是指可以使用单个(共享)处理器来执行来自多个模块的一些或全部代码。另外，来自多个模块的一些或全部代码可以由单个(共享)存储器存储。如上文所用，术语群组是指可以使用一组处理器来执行来自单个模块的一些或全部代码。另外，可以使用一组存储器来存储来自单个模块的一些或全部代码。

如本文所用，术语“接口”通常是指在组件之间的交互点处用于执行组件之间的数据通信的通信工具或装置。通常，接口可以在硬件层级和软件层级这两者上都适用，并且可以是单向或双向接口。物理硬件接口的示例可以包括电连接器、总线、端口、电缆、终端和其他I/O设备或组件。与接口进行通信的组件可以是例如计算机系统的多个组件或外围设备。

本发明涉及计算机系统。如图所示，计算机组件可以包括物理硬件组件和虚拟软件组件，物理硬件组件被示出为实线框，而虚拟软件组件被示出为虚线框。本领域的普通技术人员将理解的是，除非另有指出，否则可以按照(但不限于)软件、固件或硬件组件或其组合的形式来实现这些计算机组件。

本文描述的装置、系统和方法可以由一个或多个处理器所执行的一个或多个计算机程序来实现。计算机程序包括存储在非暂时性有形计算机可读介质上的处理器可执行指令。计算机程序还可以包括所存储的数据。非暂时性有形计算机可读介质的非限制性示例是非易失性存储器、磁性存储装置和光学存储装置。

现在将在下文中参考示出了本发明的实施例的附图来更全面地描述本发明。然而，本发明可以以许多不同的形式来体现，并且不应被解释为局限于在此阐述的实施例。相反，提供这些实施例是为了使本发明更加透彻和完整，并将本发明的范围充分传达给本领域技术人员。

如上所述，以有限的计算资源进行实时语义分割是存在挑战性的。在某些方面，本公开提供了一种快速且高效的轻量级网络，这种网络以每秒96.2帧(fps)的速率在Cityscapes上实现了64％的mIoU，这极大地改进了之前在精度与运行速度之间采取折衷处理的方法。在某些实施例中，该方法被称为Turbo联合网络(ThunderNet)，其将金字塔池化模块[30]和解码器结构联合起来并建立在从ResNet18[8]截取的最小主干网上。本公开的某些实施例尤其具有以下有利优点：

(1)新颖且极其轻量化的网络(ThunderNet)通过单尺度测试在Cityscapes1上实现了64％mIoU的高精度，此外，推理速度也得到明显提高(在Titan XP上为96.2fps，输入大小512×1024)。

(2)与文献中的目前可用的实时方法相比，ThunderNet没有采用任何瓶颈模块，因而能够以轻松且灵活的方式与许多流行的元架构和设计进行组合。在某些实施例中，通过直接合并那些元架构，本公开进一步改进了模型，但是根据偏好和选择，运行速度在一定程度上受到了不利影响。

(3)ThunderNet遵循编码器-解码器架构[1]，这种架构能以端到端的方式完成训练。ThunderNet抛弃了花哨的东西(那些非平凡的训练技术，例如，迁移学习、替代训练和辅助损失)，能够在简单的环境中进行训练，并且仅几个小时即可收敛。

(4)在NVIDIA Jetson T×2上测试ThunderNet，可以达到20.9fps(输入大小256×512)，大大加快了嵌入式系统上的推理时间(分别高达ENet[19]的1.2倍和ERFNet[21]的1.8倍)。

根据本文所体现并广泛描述的本公开目的，在某些方面，本公开涉及一种用于实时语义分割的系统。图1示意性地描绘了根据本公开的某些实施例的用于实时语义分割的ThunderNet的框架。在某些实施例中，如图1所示，ThunderNet主要由编码器、金字塔池化模块和定制解码器组成。编码器使用ResNet18[8]网络，ResNet18[8]网络的第四块已被截去。对于金字塔池化模块而言，设置与PSPNet[30]相同，但是瓶颈卷积层(双线性上采样后的那一层)进一步减少为256通道的1×1卷积(而不是[30]中的512通道的3×3卷积)。对于解码器，定制解码器由两个连续的反卷积上采样组成，这两个反卷积上采样都附加到1×1卷积层上，并位于其前方。

尽管ThunderNet很简单，但它对于图像语义分割任务而言却异常有效。首先，与类似于VGG16的那些网络相比，为了使网络具备更快的推理速度，轻量化编码器由较少的卷积层组成，使用跳过连接并具有较少的输出通道。根据一项在线研究[https://towardsdatascience.com/neural-network-architectures-156e5bad51ba]，就执行的操作数量与在ImageNet上的性能而言，ResNet18是相当高效的主干网之一。如表4(图6D)所示，通过将本公开的经截取的ResNet18(ResNet18-3b)与原始ResNet18(ResNet18-4b)的性能进行比较，本公开的三块结构优于原始ResNet18，特别是在当图像的分辨率相当高时在图像处理速度方面。

其次，如表5(图6E)所示，PPM的加入不仅有助于在视觉上增强对象几何形状的平滑度，而且还可以改善定量分割结果。通过附上类似FPN的解码器，可以更多地获知边界细节，由此进一步改进分割结果。

第三，ThunderNet中使用的所有卷积层包含纯标准卷积运算，即1×1或3×3。网络的这种简易实现方式能实现快速的原型化和与其他元架构及设计的灵活组合。

最后但并不是最不重要的一点在于，由于在Titan X/XP之类的台式机级GPU下利用标准卷积进行了完全优化的矩阵加/乘，因此，ThunderNet的使用纯标准卷积层的专用设计比起使用瓶颈模块的那些网络(例如，ENet[19]和ERFNet[21])来说明显受益更多。ThunderNet的这种优势使其成为了非常快的网络。与目前最快的网络ENet[19]相比，在Titan XP的情况下，推理速度可以高达2倍。

图2示意性地示出了根据本公开的某些实施例的用于实时语义分割的系统。如图2所示，该系统包括计算设备210、图像捕获设备250和操作设备270。图像捕获设备250和操作设备270经由例如相同或不同的系统接口或网络240与计算设备210进行通信。

在某些实施例中，计算设备210可以是通用计算机、专用计算机、智能电话、平板电脑、控制器、集群或基于云的设备。计算设备210提供实时语义分割服务。

在某些实施例中，系统接口240可以是各种总线、存储设备、其他I/O设备或USB接口。当接口是网络时，网络240可以是有线或无线网络，并且可以具有各种形式。网络的示例可以包括但不限于局域网(LAN)、包括互联网在内的广域网(WAN)或者任何其他类型的网络。在某些实施例中，系统接口240可以是用于通信地连接计算设备210与图像捕获设备250和操作设备270的任何其他类型的接口。

在某些实施例中，图像捕获设备250可以是摄像机、灰度级相机、RGB相机、RGB深度相机、深度相机、LIDAR或其组合。图像捕获设备250配置为捕获环境或场景的图像，并且优选地以视频格式连续地捕获图像。

在某些实施例中，操作设备270可以是自动驾驶车辆、医学成像设备、工业检查机器或者需要基于语义分割信息的指令的任何其他设备。当计算设备210从图像捕获设备240接收图像或视频并执行实时语义分割时，计算设备210可以使用所获得的实时语义分割来指示操作设备270的操作。在某些实施例中，操作设备270可以由除计算设备210之外的控制器控制，并且该控制器配置为从计算设备210接收语义分割信息，并使用该信息来指示操作设备270工作。

在某些实施例中，如图2所示，计算设备210可以包括但不限于处理器212、存储器214和存储设备216。在某些实施例中，计算设备210可以包括其他硬件组件和软件组件(未示出)，以便执行其相应的任务。这些硬件组件和软件组件的示例可以包括但不限于其他所需的存储器、接口、总线、输入/输出(I/O)模块或设备、网络接口和外围设备。

处理器212可以是配置为控制计算设备210的操作的中央处理单元(CPU)。处理器212可以执行计算设备210的操作系统(OS)或其他应用程序。在一些实施例中，服务器计算设备210可以具有一个以上的CPU作为处理器，比如，两个CPU、四个CPU、八个CPU或任何合适数量的CPU。

存储器214可以是用于在计算设备210的操作期间存储数据和信息的易失性存储器，如随机存取存储器(RAM)。在某些实施例中，存储器214可以是易失性存储器阵列。在某些实施例中，计算设备210可以在一个以上的存储器214上运行。

存储设备216是用于存储库存分配计算设备210的OS(未示出)和其他应用程序的非易失性数据存储介质。存储设备216的示例可以包括非易失性存储器，比如，闪存、存储卡、USB驱动器、硬盘驱动器、软盘、光盘驱动器或任何其他类型的数据存储设备。在某些实施例中，计算设备210可以具有多个存储设备216，这些存储设备216可以是相同的存储设备或不同类型的存储设备，并且计算设备210的应用程序可以存储在计算设备210的一个或多个存储设备216中。

存储设备216包括ThunderNet语义分割应用程序218和训练数据236。ThunderNet语义分割应用程序218配置为处理所捕获的图像以获得分割图，该分割图具有标有相应类别的所有像素。训练数据236被ThunderNet语义分割应用程序218用来训练ThunderNet模型。在某些实施例中，ThunderNet语义分割应用程序的ThunderNet模型可以在安装到存储设备216中之前被预先训练，并且存储设备216不需要具有训练数据236。在某些实施例中，存储设备216可以包括训练和执行语义分割所必需的其他模块。

如图2所示，ThunderNet语义分割应用程序218包括ThunderNet模型220、图像捕获模块230以及可选地训练模块232和控制模块234。ThunderNet模型220包括编码器222、金字塔池化模块(PPM)224和解码器226。在某些实施例中，实时地执行ThunderNet语义分割应用程序218，并且实时地将分割图或特征图用来控制操作设备270。在某些实施例中，ThunderNet语义分割应用程序218可以不包括图像捕获模块220、训练模块232和控制模块228中的一个或多个，但至少包括ThunderNet模型220，其中ThunderNet模型220配置为接收图像，执行所接收图像的语义分割，并且输出分割图或特征图。

图像捕获模块230配置为指示图像捕获设备250实时地捕获场景或环境的图像或视频。在某些实施例中，图像捕获模块230还可以被动地接收由图像捕获设备250捕获的图像。在获得了图像之后，图像捕获模块230可以进一步对图像进行预处理。这种预处理可以尤其包括使来自不同源(比如，图像捕获设备250的多个相机)的图像同步，调整图像的光平衡，将图像重新格式化以及调整图像的大小。然后，图像捕获模块230将处理后的图像发送到ThunderNet模型220，具体地ThunderNet模型220的编码器222。

图3A至图3C示意性地示出了根据本公开的某些实施例的ThunderNet模型的模块结构。ThunderNet模型220包括编码器222、PPM224和解码器226。编码器222配置为接收并处理原始图像221以获取编码器特征图223，并将编码器特征图223发送到PPM 224。PPM 224配置为接收编码器特征图223，处理编码器特征图223以获得PPM特征图225，并且将PPM特征图225发送到解码器226。解码器226配置为接收PPM特征图225，并处理PPM特征图225以获得分割图229。编码器226还配置为将分割图229发送到其他相关模块或应用程序(如控制模块234)，或者使得分割图229可以由其他相关模块或应用程序访问。

如图3A所示，编码器222包括ResNet根2220、第一块2221、第二块2222和第三块2223。编码器222仅包括三个块，而不是由标准ResNet18提供的四个块。换句话说，通过截取ResNet18的第四块来形成编码器222。ResNet根2220和三个块2221-2223各自的尺寸分别为H×W×C，其中H表示高度，W表示宽度，C表示图像数据的通道。

ResNet根2220配置为从图像捕获模块220接收原始图像221，从原始图像221提取基本特征以获得特征图，并将特征图输入到第一块2221。原始图像221可以具有512×256、1024×512或2048×1024的分辨率。ResNet根2220是ResNet18主干网的一部分，其配置为对原始图像221进行预处理。在预处理之后所获得的特征图包括像素，每个像素具有代表该像素的特征的值或向量。每个向量的长度或尺寸为C。在ThunderNet模型的训练期间学习C的值。如图3A所示，ResNet根2220的两个单元分别具有256×512×64和128×256×64的大小。在某些实施例中，通过最大池化将图从256×512×64缩小到128×256×64。通过最大池化，缩小的尺寸与第一块2221的尺寸相同。ResNet根目录2220的每个单元都包括卷积层、批量归一化(BN)层和整流线性单元(ReLU)。

第一块2221配置为从ResNet根2220接收特征图，对特征图执行卷积，并且将卷积后的特征图传递到第二块2222。第一块2221包括两个部分(残差块)，每个部分具有两个单元，每个单元包括3×3卷积层、BN层和ReLU层。在每个部分中，如箭头所示，来自前一单元的信息以卷积的方式添加到紧随其后的单元的输出，这使得后面层的信息增多。通过最大池化对第一块2221输出的特征图进行处理，使得第一块2221输出的特征图的H尺寸和W尺寸与第二块2222的H尺寸和W尺寸相同。

第二块2222配置为在从第一块2221接收到特征图之后对该特征图执行卷积，并将卷积后的特征图传递到第三块2223。第二块2222的结构与第一块2221的结构相似。但是，第二块2222的各层具有64×128的更小尺寸。利用特征图的较低分辨率，第二块2222配置为将通道从64增加到128，从而使得可以以较低分辨率添加更多的信息。

第三块2223配置为在从第二块2222接收到特征图之后对该特征图执行卷积，并将卷积后的特征图传递到PPM 224。第三块2223的结构与第二块2222的结构相似。但是，第三块2223的各层具有64×128的更小尺寸。第三块2223的结构与第二块2222的结构相似。但是，第三块2223的各层具有32×64的更小尺寸。利用特征图的较低分辨率，第三块2223配置为将通道从128增加到256，从而使得可以以较低分辨率添加更多的信息。第三块2223的输出是传递到PPM 224的编码器特征图223。

在编码器222中，第一块2221具有比第二块2222更高的分辨率，第二块2222具有比第三块2223更高的分辨率，并且三个块2221、2222和2223的通道从64增加到128再到256。第一块2221具有高分辨率，其配置为提取更详细的特征，并且为了节省计算资源，使用较少数量的内核或通道。第二块2222具有比第一块2221更低的分辨率，其配置为提取不那么详细的特征，并且使用更多数量的内核或通道。第三块2223具有比第二块2222更低的分辨率，其配置为提取不如第二块2222详细的特征，并且使用更多数量的内核或通道。

给出块2221-2223的尺寸是为了说明根据某些实施例的策略，而不是为了限制本公开的范围。例如，第一块2221、第二块2222和第三块2223的大小128×256×64、64×128×128和32×64×256可以改变，其中从第一块2221到第二块2222和第三块2223，H和W变小，而C变大。在训练期间，编码器222的参数是变量。在训练之后，参数是固定的，因此该模型可用于在实际应用中生成语义分割。

PPM 224配置为在从编码器222接收到编码器特征图223之后处理编码器特征图223以获得PPM特征图224。在某些实施例中，PPM 224具有与PSPNet[30]相同的设置，但却将瓶颈卷积层(双线性上采样之后的卷积层)进一步减小到256通道的1×1卷积(而不是[30]中512通道的3×3卷积)。如图3B所示，PPM 224包括四个块2241-2244、双线性上采样层2245、卷积层2246和平均池化层2247。这四个块是第一块2241、第二块2242、第三块2243和第四块2244，它们表示不同大小的金字塔池化特征。PPM 224配置为从编码器特征图223提取多尺度特征。在某些实施例中，使用平均池化来执行从编码器特征图223到不同大小的四个特征图的特征提取。在图3B所示的实施例中，多尺度的第一块、第二块、第三块和第四块的尺寸分别是1×1×512、2×2×512、3×3×256和6×6×256。然后，PPM 224配置为在获得不同大小的特征图之后调整四个特征图的大小并将其连结到双线性上采样层2245中。对H尺寸和W尺寸执行大小调整，并且将四个特征图(或四个块2242-2244)的C尺寸加在一起以形成双线性上采样层2245(512+512+256+256＝1536)。PPM 224还配置为通过1×1卷积层2246处理双线性上采样层2245，以获得ReLU层2247。卷积层2246和ReLU层2247的尺寸为32×64×256。ReLU层2247配置为提供输出(也就是PPM特征图225)，并且将PPM特征图传递给解码器226。

解码器226配置为在从PPM 224接收到PPM特征图225之后对PPM特征图225进行解码以获得分割图227。解码器226是定制的，其包括两个连续的反卷积上采样，这两个反卷积上采样都附加到1×1卷积层并位于其前方。具体地，如图3C所示，解码器226顺序地包括：第一卷积层2261、第一反卷积上采样层2262、第一BN层2263、第二卷积层2264、第二BN层2265、第一ReLU层2266、第三卷积层2271、第二反卷积上采样层2272、第三BN层2273、第四卷积层2274、第四BN层2275、第二ReLU层2276、双线性上采样层2278和第五卷积层2279。在某些实施例中，层2261-2266、2271-2276、2278和2279的尺寸分别为32×64×256、64×128×256、64×128×256、64×128×128、64×128×128、64×128×128、64×128×128、128×256×128、128×256×128、128×256×64、128×256×64、128×256×64、512×1024×64和512×1024×20。第一卷积层2261、第二卷积层2264、第三卷积层2271和第四卷积层2274是1×1卷积层。箭头2267指示通过将来自第一卷积层2261的输入的信息添加到第一ReLU层2266的特征金字塔架构，而箭头2277指示通过将来自第三卷积层2271的信息添加到第二ReLU2276的另一特征金字塔架构。第二ReLU层2276的H和W尺寸增加4倍以形成双线性上采样层2278，并且尺寸为512×1024×64的双线性上采样层2278的H和W尺寸为1×1倍，而C尺寸减小，从而形成尺寸为512×1024×20的第三ReLU层2279。解码器226的输出是作为特征图的分割图229，并且解码器226还配置为将分割图229发送到控制模块234。

训练模块232配置为检索训练数据236并使用训练数据236来训练ThunderNet模型220。在某些实施例中，ThunderNet模型220可以在安装到存储设备216之前预先进行训练，无需具有训练模块232和训练数据236，并且可以从外部资源更新训练后的ThunderNet模型220的参数。

训练数据236包括训练图像以及训练图像的标签。当训练模块232配置为使用训练数据232来训练ThunderNet模型220时，ThunderNet模型220的操作与以上结合编码器222、PPM 224和解码器226的说明所描述的操作几乎是相同的。但是，当解码器226还配置为使用argmax将分割图228转换为标签时，将转换后的标签与训练图像的标签进行比较，以知晓转换后的标签与原始标签之间的差异(或误差)。误差通过ThunderNet模型220的解码器226、PPM 224和编码器222反向传播，以优化ThunderNet模型220的参数。

控制模块234配置为在从解码器226接收到分割图229之后基于分割图229、分割图229的标签和操作指令来控制操作设备270的操作。

图3D和图3E示意性地示出了原始图像以及由ThunderNet模型220使用原始图像生成的特征图。

如图3A至图3C所示的ThunderNet结构的尺寸仅用于说明，无意限制本公开的范围。可以基于待处理数据的类型来采用各种各样的H、W和C尺寸大小，只要编码器缩小H和W大小并增大C大小，并且只有三个ResNet18块，PPM具有不同的池化大小来提取多尺度下的特征，并且解码器使得H大小和W大小增大并缩小C大小。利用截取的ResNet18主干网，与VGG16或ResNet50和ResNet100之类的常规主干网相比，我们模型的参数要少得多。而且，通过在解码器中使用特征金字塔结构，我们的模型不会增加额外的参数，而是会获得额外的信息。

在某些方面，本公开涉及一种用于实时语义分割的方法。图4示意性地描绘了根据本公开的某些实施例的实时语义分割方法。在某些实施例中，如图4所示的方法可以在如图2所示的系统上实现。需要特别注意的是，除非在本发明中另有说明，否则该方法的步骤可以按照不同的顺序进行排列，因而并不局限于图4所示的顺序。

如图4所示，在过程402中，图像捕获设备250拍摄场景的图像221，并将图像221发送到图像捕获模块230，图像捕获模块230接收图像221并将图像221发送到ThunderNet模型220的编码器222。在某些实施例中，在将图像221发送到编码器222之前，图像捕获模块230可以对图像221进行预处理，比如，将图像重新格式化或调整图像的尺寸以满足编码器222的要求。在某些实施例中，预处理功能也可以由编码器222执行。

在过程404中，在接收到所捕获的图像221后，编码器222使用ResNet18的三块结构来处理图像221，获得编码器特征图223，并将编码器特征图223发送到PPM 224。返回参考图3A，ResNet根2220的第二层的尺寸与第一块2221的尺寸相同，并且块2221-2223中的每一个块的各层是相同的。编码器222在处理期间缩小特征图的H尺寸和W尺寸并增大C尺寸。具体地，编码器222具有两个ResNet层2220，编码器222使用第一ResNet根层从原始图像221获得基本特征，其中特征图的尺寸为256×512×64，然后，编码器222使用最大池化将256×512×64特征图转换为128×256×64特征图。在此之后，编码器222使用三个块2221-2223来处理128×256×64特征图。三个块中的每一个块具有四个单元，每个单元包括3×3卷积层、BN层和ReLU层。在每个块的四个单元中，将第一单元的卷积添加到第二单元并将第三单元的卷积添加到第四单元，以增加第二单元和第四单元的信息。在某些实施例中，编码器222通过最大池化从第一块2221到第二块2222以及从第二块2222到第三块2223缩小H尺寸和W尺寸，并且从第一块2221到第二块2222以及从第二块2222到第三块2223增大C尺寸。在某些实施例中，编码器222从第一ResNet根层到第二ResNet根层将H尺寸和W尺寸均减半，而保持通道相同。此外，编码器222从第一块2221到第二块2222以及从第二块2222到第三块2223将H尺寸和W尺寸均减半，并从第一块2221到第二块2222以及从第二块2222到第三块2223将C尺寸加倍。第三块2223的输出是编码器特征图223，并且编码器222将编码器特征图223发送到PPM 224。

在过程406中，在接收到编码器特征图223后，PPM 224处理编码器特征图223以获得PPM特征图225，并将PPM特征图225发送到解码器226。参考图3B，PPM 224首先对编码器特征图223进行解析，分别获得1×1×512、2×2×512、3×3×256和6×6×256的表示。然后，PPM 224连结这四个表示以获得双线性上采样层2245。然后，双线性上采样层2245与1×1卷积层2246进行卷积，并获得ReLU层2247。ReLU层2247的输出是PPM特征图225。PPM 224随后将PPM特征图225发送到解码器226。

在过程408中，在接收到PPM特征图225后，解码器226对PPM特征图225进行解码以获得分割图227。参考图3C，解码器226经过第一1×1卷积层2261，并由第一卷积层2262将特征图升级(upscale)。以第一BN层2263、第二卷积层2264、第二BN层2265和第一ReLU层2266继续进行解析。在此之后，解码器226使特征图经过第三卷积层2271，将特征图升级到第二反卷积上采样层2272，并经过第三BN层2273、第四卷积层2274、第四BN层2275和第二ReLU层2276。解码器226通过在双线性上采样层2278将其H尺寸和W尺寸加倍并处保持C尺寸相同来进一步升级特征图，然后再在第三ReLU层2279处缩小C尺寸。另外，第一1×1卷积层2261将其信息添加到第一ReLU层2266并且第三1×1卷积层2271将其信息添加到第二ReLU层2276，从而增加所传递的信息。第三ReLU层2279的输出(或解码器226的输出)是分割图229。在某些实施例中，解码器226将分割图229发送到控制模块234。

在过程410中，在接收到特征图229后，控制模块234配置为基于特征图229来控制操作设备270的操作。

在某些方面，本公开涉及一种用于语义分割的训练的方法。图5示意性地描绘了根据本公开的某些实施例的用于语义分割的训练方法。在某些实施例中，如图5所示的方法可以在如图2所示的系统上实现。需要特别指出的是，除非在本发明中另有说明，否则该方法的步骤可以按照不同的顺序进行排列，因而并不局限于图5所示的顺序。

图5所示的方法类似于图4所示的方法。区别在于：将输入图像标记为训练图像，而不是实时捕获图像；并且，将解码器226生成的标签与来自训练数据的标签进行比较，并使用反向传播将差值用于调整ThunderNet模型的参数。

具体地，在过程502中，训练模块232检索训练数据236并将训练图像发送到编码器222。在过程504中，在接收到训练图像之后，编码器222使用三块结构来处理每一个训练图像以获得编码器特征图223，并将编码器特征图223发送到PPM224。在过程506中，在接收到编码器特征图223之后，PPM 224处理编码器特征图223以获得PPM特征图225，并将PPM特征图225发送到解码器226。在过程508中，在接收到PPM特征图225之后，解码器226对PPM特征图225进行解码以获得分割图227，并获得训练图像的标签。在过程510中，解码器226将所生成的用于训练图像的标签与检索到的训练图像的原始标签进行比较，并通过从解码器226回到PPM224再回到编码器222的反向传播将差值用于调整ThunderNet模型220的参数。

在某些方面，本发明涉及一种存储计算机可执行代码的非暂时性计算机可读介质。在某些实施例中，计算机可执行代码可以是如上所述地存储在非易失性存储设备216中的软件。计算机可执行代码在被执行时可以执行上述方法中的一种。在某些实施例中，非暂时性计算机可读介质可以包括但不限于：如上所述的计算设备210的存储设备216，或者计算设备210的任何其他存储介质。

在某些实施例中，根据本公开的ThunderNet模型用于分析Cityscapes数据，并在以下部分中进行描述：实现、Cityscapes上的结果、性能分析、消融研究和可视化。

实现：在一个实施例中，我们使用PyTorch轻松地对我们的模型进行原型化，并借助于与Caffe5中实现的完全相同的模型来测定推理速度。我们遵循与ERFNet[21]类似的训练策略，使用学习速率为5e^-4、动量为0.9且权重衰减为1e^-4的Adam优化器。对于所有实验，我们将ResNet18的预先经过训练的ImageNet模型直接加载到ThunderNet中，从而在其第四块处放弃了所有层的权重。为了克服Cityscapes上的类不平衡问题，我们在训练ERFNet的解码器部分时使用与[21]相同的类权重，即，权重2.81、6.98、3.78、9.94、9.77、9.51、10.31、10.02、4.63、9.56、7.86、9.51、10.37、6.66、10.26、10.28、10.28、10.40、10.13，所有19个类都为0g。此外，在ThunderNet的解码器中采用的反卷积层被实现为内核大小3、跨度1以及填充1，然后是围绕特征图输出的显式填充1。最后，我们注意到所有结果都使用的是单尺度测试，这使得我们的评估在真实情况下无偏。此外，我们仅报告所有训练模型的最佳结果，Cityscapes上的批次大小48，最大训练时期150。

Cityscapes上的结果：我们在Cityscapes数据集[7]上对所提出的ThunderNet进行了评估，该数据集共有19个类，并包含2975个图像的训练集和500个图像的验证集(二者的地面实况都可以公开下载)，此外还有1525张图像的测试集(其地面实况数据是不可用的)。为了在测试集上评估我们的模型，我们必须将结果提交到在线测试服务器。因此，通过比较我们在验证集和测试集上的结果，可以使得本实施例中存在的模型表现出明显的过拟合/欠拟合迹象。注意，对于本实施例中存在的所有实验，我们没有将Cityscapes的任何其他粗略注释用于我们的训练。

在本实施例中报告的所有精度均使用通用的交并比(IoU)度量：

其中，TP、FP、FN分别表示真正例、假正例和假负例像素级预测的数量。IoU度量是为特定类设计的。在对所有类的IoU进行平均后，我们将获得一个公平的评估度量，即按类别IoU的平均值(mIoU)，它表示我们模型的整体性能。在本公开中出现的另一度量是像素级精度(Pixel Acc)，其对于所有像素考虑了额外的TN(真负例)：

我们在表2中给出了Cityscapes测试集上的最终结果(图6B)。表2示出了Cityscapes测试集上的最终精度(mIoU)和速度对比。如表2所示，ThunderNet已经是最快的网络，其精度与大多数基准测试方法相当。与文献ENet[19]中目前最快的网络相比，我们的模型实现了mIoU超过5.7％的更出色的结果。当利用那些针对高质量预测的方法(包括SegNet[1]、CRF-RNN[31]和DeepLabv2[3])进行基准测试时，我们的方法不仅表现出更出色的精度，而且还是在明显更快的推理速度下运行。

性能分析：与[29]相同，为了对Jetson TX2和Titan XP下的推理速度测试进行公平评估，我们使用Caffe的时间测量工具Caffe time，并重复进行100次向前-向后操作来减少测试期间的差异。值得注意的是，由于ENet最初在PyTorch中发布了其代码，因此，我们使用其Caffe版本，该版本可从https://github.com/TimoSaemann/ENet上公开获得，并且已被标记为ENet*。如表1(图6A)和表3(图6C)所示，我们的实验结果表明，ThunderNet在各种输入分辨率下的表现都优于ENet(分辨率1280x720除外，其中ThunderNet仅比ENet慢6.6微秒(ms))。ThunderNet的运行速度比ENet快得多(在所有分辨率下都快约1.5倍)，尤其是在Titan XP的情况下。这是因为ThunderNet仅执行了已利用Titan-XP之类的台式机级GPU完全优化的标准卷积运算，而不是ENet中使用的瓶颈，这些瓶颈在转发过程中必须迅速地扩展(因此，就那些矩阵优化而言，其受益更少)。因此，在NVIDIAJetson TX2等嵌入式平台下，那些功能强大的GPU中所采用的优化必须被降级。在Jetson TX2的情况下，我们提出的ThunderNet可获得更优秀的结果(64％比58.7％)，并且仍比ENet快1倍至1.2倍。对于基于深度学习的语义分割模型的实时应用来说，在嵌入式系统下，ThunderNet的速度可高达20.9fps，输入大小为256x512。Thunder-Net在640x360(nHD)分辨率下以12.1fps的速率运行，即使在自动驾驶领域，这种速率对于大多数应用而言都是足够快的。此外，即使在考虑全尺寸(1024x2048)Cityspaces输入图像的情况下，ThunderNet通过利用Titan XP之类的GPU也达到了33.3fps的实时要求。

消融研究：在表1(图6A)和表3(图6C)中，我们将ThunderNet与文献中目前可用的最快网络进行了比较。表1示出了分别在480×320(HVGA)、640×360(nHD)和1280×720(HD)的给定不同输入大小下目前可用的最快模型的推理速度对比。ENet表示其在[19]中报告的原始性能分析，而ENet*表示已经在与本公开的ThunderNet相同的环境中测试过的Caffe实现。表3示出了分别在512×256、1024×512和2048×1024的给定不同输入大小下ENet、ERFNet、ICNet和ThunderNet的推理速度对比。

与[21]相比，我们在NVIDIA Jetson TX2平台和Titan XP GPU上额外测试了ENet、ICNet和我们的ThunderNet，使得实验内容变得更丰富。我们在Caffe中针对上述所有三种方法进行了实验，分别是在Titan XP下使用CUDA 8.0和cuDNN 7.0以及在Jetson TX2下使用CUDA 9.0和cuDNN7.0(使用JetPack 3.2，L4T R28.2)。

对于主干网选择，我们从表4(图6D)中的ResNet18主干网测试开始我们的工作。表4示出了在Cityscapes验证集上使用不同输入大小的ReNet18主干网的实验结果。我们仅通过将双线性上采样层附加到我们的Resnet18经截取的主干网(ResNet18-3b)和原始主干网(ResNet18-4b)来验证我们主干网的有效性，其中原始主干网的输出最终将被转换为logits。这些结果表明，与所有其他选项相比，在给定输入大小512x512的情况下，ResNet18-3b主干网达到了最佳的速度与精度折衷效果。与其他实验不同的是，在本实验中我们使用TensorFlow测量fps，并采用与PSPNet[30]类似的数据增强方法，即，随机镜像以及在保留宽高比的大小调整之后的固定大小裁剪，其中利用Cityscapes输入图像(～1500)的裁剪大小(384/512/783)与1.5x更小大小之间随机采样较小的边长来进行所述保留宽高比的大小调整。为了确保我们测试模型的收敛性，我们使用学习速率为0.01且批次大小为8的随机梯度下降(SGD)。所有结果都是以在足够大的训练迭代～100k下收敛的模型进行报告。

对于PPM和解码器联合，按照上述训练配置，我们通过分别添加PPM和解码器来执行基本的消融研究。表5(图6E)示出了分别在Cityscapes验证集上添加PPM和解码器的消融研究。结果表明，PPM和解码器的添加可以在某种程度上(分别为1.1％和2.3％)改善我们的ResNet18-3b主干网，同时，将两个元架构联合可以将性能提高4∶75％。

图6F示意性地示出了根据本公开的某些实施例的ThunderNet模型与本领域中的其他模型相比的精度和速度。本领域的其他模型包括：Seg-Net[1]、FCN-8s[16]、Dilation10[28]、SQ[26]、Deeplabv2[3]、PSPNet[30]、ENet[19]、ICNet[29]、ERFNet[21]。我们提出的ThunderNet是最快的，并且已经达到了与大多数方法相当的精度。

可视化：图7示出了使用ThunderNet的定性分割结果。从这些可视化结果中我们可以看出，尽管ThunderNet是由极小的主干网和解码器结构组成，但它仍可以针对远处的那些对象完成出色的预测。尽管在诸如墙壁、电线杆和卡车等不平衡类方面的精度较低，但该网络对包括道路、行人和车辆在内的那些常见类实现了精确的像素级预测，这对自动驾驶应用而言是完全足够的(就其已经实现的速度与精度之间的折衷效果而言)。

在某些实施例中，ThunderNet具有确切的分层结构和尺寸，如图1和图3A至图3C所示。在某些实施例中，ThunderNet具有如图1和图3A至图3C所示的确切分层结构，但是，尺寸H和W的大小可以变化，或者可以成比例地改变(保持尺寸C不变)。在某些实施例中，ThunderNet具有如图1和图3A至图3C所示的确切分层结构，但是，尺寸H和W的大小可以发生变化，或者可以成比例地改变(尺寸C可以变化，但却没有与H和W的变化成比例)。在某些实施例中，ThunderNet具有如图1和图3A至图3C所示的确切分层结构，但是，尺寸H、W和C的大小可以变化，或者可以成比例地改变。

本公开的某些实施例尤其提供了一种用于语义分割的快速且高效的网络，其被称为ThunderNet，即Turbo联合网络的简写。ThunderNet建立在从常见ResNet18模型截取的极度轻量化主干网上，并联合了金字塔池化模块和定制的两级连续上采样解码器结构。我们在Cityscapes上的实验结果表明，就精度和推理速度这两者而言，ThunderNet已经明显超过了文献ENet中的目前最快的网络。即使是在由GPU驱动的嵌入式系统(如NVIDIAJetsonTX2)的情况下，ThunderNet仍可实现高达1.2倍的加速。与其他为了在速度与精度之间取得出色的折衷效果而提出的方法相比，ThunderNet仍表现出了其速度方面的优势，这是因为它的设计是仅使用标准卷积的专门设计。ThunderNet可以轻松地进行训练并且在仅数小时内收敛，无需任何其他重要的实现细节和训练策略。

上述对本公开的示例性实施例的描述仅仅是出于说明和描述的目的而呈现，并不旨在是穷举性的或者将本发明局限为所公开的精确形式。根据以上教导，许多修改和变化都是可能的。

选择并描述实施例是为了解释本发明的原理及其实际应用，以便使本领域的其他技术人员能够利用本发明和各种实施例并作出各种修改，以适合于预期的特定用途。在不脱离本发明的精神和范围的前提下，替代实施例对于本发明所属领域的技术人员而言将是显而易见的。因此，本发明的范围是由所附权利要求而不是上述描述和其中所述的示例性实施例来限定。

参考文献：

[1]V.Badrinarayanan，A.Kendall，and R.Cipolla.Segnet：A deepconvolutional encoder-decoder architecture for image segmentation.IEEEtransactions on pattern analysis and machine intelligence，39(12)：2481-2495，2017.

[2]L.-C.Chen，G.Papandreou，I.Kokkinos，K.Murphy，and A.L.Yuille.Semanticimage segmentation with deep convolutional nets and fully connected crfs.InICLR，2015.

[3]L.-C.Chen，G.Papandreou，I.Kokkinos，K.Murphy，andA.L.Yuille.Deeplab：Semantic image segmentation with deep convolutional nets，atrous convolution，and fully connected crfs.arXiv preprint arXiv：1606.00915，2016.

[4]L.-C.Chen，G.Papandreou，F.Schroff，and H.Adam.Rethinking atrousconvolution for semantic image segmentation.arXiv preprint arXiv：1706.05587，2017.

[5]L.-C.Chen，Y.Zhu，G.Papandreou，F.Schroff，and H.Adam.Encoder-decoderwith atrous separable convolution for semantic image segmentation.arXivpreprint arXiv：1802.02611，2018.

[6]F.Chollet.Xception：Deep learning with depthwise separableconvolutions.arXiv preprint，2016.

[7]M.Cordts，M.Omran，S.Ramos，T.Rehfeld，M.Enzweiler，R.Benenson，U.Franke，S.Roth，and B.Schiele.The cityscapes datasetfor semantic urban sceneunderstanding.In Proceedings of the IEEE conference on computer vision andpattern recognition，pages 3213-3223，2016.

[8]K.He，X.Zhang，S.Ren，and J.Sun.Deep residual learningfor imagerecognition.In Proceedings of the IEEE conference on computer vision andpattern recognition，pages 770-778，2016.

[9]K.-H.Kim，S.Hong，B.Roh，Y.Cheon，and M.Park.Pvanet：deep butlightweight neural networks for real-time object detection.arXiv preprintarXiv：1608.08021，2016.

[10]D.P.Kingma and J.Ba.Adam：A method for stochasticoptimization.arXiv preprint arXiv：1412.6980，2014.

[11]A.Krizhevsky，I.Sutskever，and G.E.Hinton.Imagenet classificationwith deep convolutional neural networks.In Advances in neural informationprocessing systems，pages 1097-1105，2012.

[12]L.-J.Li，R.Socher，and L.Fei-Fei.Towards total scene understanding：Classification，annotation and segmentation in an automatic framework.InComputer Vision and Pattern Recognition，2009.CVPR 2009.IEEE Conference on，pages 2036-2043.IEEE，2009.

[13]G.Lin，A.Milan，C.Shen，and I.Reid.Refinenet：Multi-path refinementnetworks for high-resolution semantic segmentation.In IEEE Conferencc onComputer Vision and Pattern Recognition(CVPR)，2017.

[14]G.Lin，C.Shen，A.Van Den Hengel，and I.Reid.Efficient piecewisetraining of deep structured models for semantic segmentation.In Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition，pages 3194-3203，2016.

[15]T.-Y.Lin，P.Doll′ar，R.Girshick，K.He，B.Hariharan，andS.Belongie.Feature pyramid networks for object detection.In CVPR，volume 1，page 4，2017.

[16]J.Long，E.Shelhamer，and T.Darrell.Fully convolutional networks forsemantic segmentation.In Proceedings of the IEEE conference on computervision and pattern recognition，pages 3431-3440，2015.

[17]A.Mallya and S.Lazebnik.Learning models for actions and person-object interactions with transfer to question answering.In EuropeanConference on Computer Vision，pages 414-428.Springer，2016.

[18]H.Noh，S.Hong，and B.Han.Learning deconvolution network forsemantic segmentation.In Proceedings of the IEEE International Conference onComputer Vision，pages 1520-1528，2015.

[19]A.Paszke，A.Chaurasia，S.Kim，and E.Culurciello.Enet：A deep neuralnetwork architecture for real-time semantic segmentation.arXiv preprintarXiv：1606.02147，2016.

[20]C.Peng，X.Zhang，G.Yu，G.Luo，and J.Sun.Large kernel matters-improvesemantic segmentation by global convolutional network.arXiv preprint arXiv：1703.02719，2017.

[21]E.Romera，J.M.Alvarez，L.M.Bergasa，and R.Arroyo.Erfnet：Efficientresidual factorized convnet for real-time semantic segmentation.IEEETransactions on Intelligent Transportation Systems，19(1)：263-272，2018.

[22]O.Ronneberger，P.Fischer，and T.Brox.U-net：Convolutional networksfor biomedical image segmentation.In International Conference on Medicalimage computing and computer-assisted intervention，pages 234-241.Springer，2015.

[23]O.Russakovsky，J.Deng，H.Su，J.Krause，S.Satheesh，S.Ma，Z.Huang，A.Karpathy，A.Khosla，M.Bemstein，et al.Imagenet large scale visual recognitionchallenge.International Journal of Computer Vision，115(3)：211-252，2015.

[24]K.Simonyan and A.Zisserman.Very deep convolutional networks forlarge-scale image recognition.arXiv preprint arXiv：1409.1556，2014.

[25]R.Socher，C.C.Lin，C.Manning，and A.Y.Ng.Parsing natural scenes andnatural language with recursive neural networks.In Proceedings of the 28thinternational conference on machine learning(ICML-11)，pages129-136，2011.

[26]M.Treml，J.Arjona-Medina，T.Unterthiner，R.Durgesh，F.Friedmann，P.Schuberth，A.Mayr，M.Heusel，M.Hofmarcher，M.Widrich，et al.Speeding up semanticsegmentation for autonomous driving.In MLITS，NIPS Workshop，2016.

[27]P.Wang，P.Chen，Y.Yuan，D.Liu，Z.Huang，X.Hou，andG.Cottrell.Understanding convolution for semantic segmentation.arXiv preprintarXiv：1702.08502，2017.

[28]F.Yu and V.Koltun.Multi-scale context aggregation by dilatedconvolutions.arXiv preprint arXiv：1511.07122，2015.

[29]H.Zhao，X.Qi，X.Shen，J.Shi，and J.Jia.Icnet for real-time semanticsegmentation on high-resolution images.arXiv preprint arXiv：1704.08545，2017.

[30]H.Zhao，J.Shi，X.Qi，X.Wang，and J.Jia.Pyramid scene parsingnetwork.In IEEE Conf.on Computer Vision and Pattern Recognition(CVPR)，pages2881-2890，2017.

[31]S.Zheng，S.Jayasumana，B.Romera-Paredes，V.Vineet，Z.Su，D.Du，C.Huang，and P.H.Torr.Conditional random fields as recurrent neural networks.InProceedings of the IEEE International Conference on Computer Vision，pages1529-1537，2015。

Claims

1.一种用于语义分割的系统，所述系统包括计算设备，所述计算设备包括处理器和存储计算机可执行代码的非易失性存储器，其中所述计算机可执行代码当在所述处理器处执行时被配置为：

接收场景的图像；

由编码器处理所述图像以形成编码器特征图；

由金字塔池化模块PPM处理所述编码器特征图以形成PPM特征图；并且

由解码器处理所述PPM特征图以形成分割特征图。

2.根据权利要求1所述的系统，其中所述编码器包括ResNet18主干网，所述ResNet18主干网的第四块被截去。

3.根据权利要求2所述的系统，其中所述编码器顺序地由以下组成：

具有两个层的根、第一块、第二块和第三块，

其中所述块中的每一个具有第一重复单元、第二重复单元、第三重复单元和第四重复单元，所述第一重复单元被卷积并添加到所述第二重复单元的输出，所述第三重复单元被卷积并添加到所述第四重复单元的输出，并且所述根的所述两个层中的每一个和所述第一块、第二块和第三块中的每个重复单元由3×3卷积层、批量归一化BN层和整流线性单元ReLU组成。

4.根据权利要求3所述的系统，其中所述根的两层、所述第一块、所述第二块和所述第三块的高度、宽度和通道尺寸分别为256×512×64、128×256×64、128×256×64、64×128×128和32×64×256。

5.根据权利要求1所述的系统，其中所述PPM包括：

不同大小的金字塔池化特征；

双线性上采样层；

1×1卷积层；以及

ReLU层。

6.根据权利要求5所述的系统，其中所述金字塔池化特征包括1×1×512特征、2×2×512特征、3×3×256特征和6×6×256特征。

7.根据权利要求6所述的系统，其中所述双线性上采样层的尺寸为32×64×1536，并且所述1×1卷积层和所述ReLU层中的每一个的尺寸为32×64×256。

8.根据权利要求1所述的系统，其中所述解码器顺序地包括：

第一级反卷积上采样块；

第二级反卷积上采样块；以及

双线性上采样块。

9.根据权利要求8所述的系统，其中：

所述第一级反卷积上采样块包括第一卷积层、第一反卷积上采样层、第一BN层、第二卷积层、第二BN层和第一ReLU层；

所述第二级反卷积上采样块包括第三卷积层、第二反卷积上采样层、第三BN层、第四卷积层、第四BN层和第二ReLU层；

所述双线性上采样块包括双线性上采样层和第五卷积层；并且

所述第一卷积层被卷积并添加到所述第二BN层，并且所述第三卷积层被卷积并添加到所述第四BN层。

10.根据权利要求9所述的系统，其中：

所述第一反卷积层的尺寸为32×64×256；

所述第一反卷积上采样层和所述第一BN层的尺寸为64×128×256；

所述第二卷积层、所述第二BN层、所述第一ReLU层和所述第三卷积层的尺寸为64×128×128；

所述第二反卷积上采样层和所述第三BN层的尺寸为128×256×128；

所述第四卷积层、所述第四BN层和所述第二ReLU层的尺寸为128×256×64；

所述双线性上采样层的尺寸为512×1024×64；并且

所述第五卷积层的尺寸为512×1024×20。

11.根据权利要求1所述的系统，其中所述计算机可执行代码还被配置为基于所述分割图来控制所述场景中的操作设备。

12.一种用于语义分割的方法，包括：

由计算设备接收场景的图像；

由所述计算设备处理所述图像以形成编码器特征图；

由所述计算设备处理所述编码器特征图以形成金字塔池化模块PPM特征图；并且

由所述计算设备处理所述PPM特征图以形成分割特征图。

13.根据权利要求12所述的方法，其中处理所述图像以形成编码器特征图的步骤由编码器执行，并且所述编码器包括ResNet18主干网，所述ResNet18主干网第四块被截去。

14.根据权利要求13所述的方法，其中处理所述编码器特征图以形成所述PPM特征图的步骤由PPM执行，并且所述PPM包括：

不同大小的金字塔池化特征；

双线性上采样层；

1×1卷积层；以及

ReLU层。

15.根据权利要求14所述的方法，其中处理所述PPM特征图以形成分割特征图的步骤由解码器执行，并且所述解码器包括：

第一级反卷积上采样块；

第二级反卷积上采样块；以及

双线性上采样块。

16.根据权利要求15所述的方法，其中：

17.根据权利要求12所述的方法，还包括：

基于所述分割图来控制所述场景中的操作设备。

18.一种存储计算机可执行代码的非暂时性计算机可读介质，其中所述计算机可执行代码当在计算设备的处理器处执行时被配置为：

接收场景的图像；

由编码器处理所述图像以形成编码器特征图；

由解码器处理所述PPM特征图以形成分割特征图。

19.根据权利要求18所述的非暂时性计算机可读介质，

其中所述编码器包括ResNet18主干网，所述ResNet18主干网第四块被截去；

其中所述PPM包括1×1卷积层；并且

其中所述解码器顺序地包括：第一级反卷积上采样块、第二级反卷积上采样块以及双线性上采样块。

20.根据权利要求18所述的非暂时性计算机可读介质，其中所述计算机可执行代码还被配置为基于所述分割图来控制所述场景中的操作设备。