CN114514535A

CN114514535A - 基于语义分割的实例分割系统和方法

Info

Publication number: CN114514535A
Application number: CN201980101244.XA
Authority: CN
Inventors: 唐剑; 尹程翔; 伍堃; 车正平
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2022-05-17
Also published as: US20220172369A1; US12183010B2; WO2021068182A1

Abstract

本发明涉及一种基于语义分割执行实例分割的系统和方法。该系统和方法能够(1)在给定语义分割的情况下实时处理高清图像；(2)当与广泛使用的语义分割方法(如密集预测单元)结合时，在准确性方面可提供与Mask R‑CNN相当的性能，同时始终优于最先进的实时解决方案；(3)灵活地与任何语义分割模型一起进行实例分割；(4)如果给定的语义分割足够好，则优于Mask R‑CNN；(5)易于扩展到全景分割。

Description

基于语义分割的实例分割系统和方法

技术领域

本申请一般涉及基于语义分割的实例系统和方法，在一些实施例中，涉及自动驾驶系统和方法。

背景技术

实例分割可以被认为是对象检测的扩展任务。实例分割的常用的检测和分割方法，例如Mask R-CNN，首先使用边界框进行对象检测以定位每个单独的对象，然后为框中的每个像素分配一个二进制标签。尽管此类方法因精度高而广受欢迎，但由于模型复杂度高和处理对象建议的延迟时间长，它们通常较慢。然而，推理延迟对于自动驾驶等许多实时应用来说至关重要。仍然需要避免上面提到的高复杂性和长延迟，尤其是在自动驾驶等实时应用中。

发明内容

根据本申请的第一方面，公开了一种基于语义分割获得图像的实例分割或全景分割的系统。该系统包括存储指令集的存储介质和处理器。处理器与存储介质通信以执行指令集以：使用经过训练的语义分割模型对输入图像进行语义分割，以获得具有特定类别集的语义标签图；基于获得的与输入图像连接的语义标签图，使用经过训练的生成器生成边界图；以及使用后处理步骤处理边界图，以区分特定类别集的对象，以获得输入图像的实例分割或全景分割。

在一些实施例中，经过训练的语义分割模型是DeepLabv3+或密集预测单元(DensePrediction Cell，DPC)。在一些实施例中，经过训练的生成器包括与深度监督以及加权融合层相结合的条件生成式对抗网络(Generative Adversarial Networks，GANs)。在一些实施例中，该系统能够实时获得实例分割或全景分割。在一些实施例中，后处理步骤包括对语义标签图的每个封闭区域执行广度优先搜索，以获得每个封闭区域的掩码，该掩码的类别基于其语义标签图确定。在一些实施例中，指令集进一步指示处理器为thing类别和stuff类别中的至少一个生成掩码。在一些实施例中，该系统还包括鉴别器，该鉴别器与生成器进行极小极大博弈，以形成经过训练的生成器。该鉴别器区分由经过训练的生成器生成的边界图和对应的地面实况边界图。

根据本申请的第二方面，公开了一种在计算设备上基于语义分割获得图像的实例分割或全景分割的方法。计算设备包括存储指令集的存储介质和与存储介质通信以执行指令集的处理器。该方法包括以下步骤：使用经过训练的语义分割模型对输入图像进行语义分割，以获得具有特定类别集的语义标签图；基于获得的与输入图像连接的语义标签图，使用经过训练的生成器生成边界图；使用后处理步骤处理边界图，以区分特定类集的对象以获得图像的实例分割或全景分割。

在一些实施例中，经过训练的语义分割模型是DeepLabv3+或密集预测单元(DPC)。在一些实施例中，经过训练的生成器包括与深度监督以及加权融合层相结合的条件生成式对抗网络(GANs)。在一些实施例中，该方法能够实时获得实例分割或全景分割。在一些实施例中，后处理步骤包括对语义标签图的每个封闭区域执行广度优先搜索，以获得每个封闭区域的掩码，该掩码的类别基于其语义标签图确定。在一些实施例中，指令集进一步指示处理器为thing类别和stuff类别中的至少一个生成掩码。在一些实施例中，该方法还包括鉴别器，该鉴别器与生成器进行极小极大博弈以形成经过训练的生成器。该鉴别器区分经过训练的生成器生成的边界图和对应的地面实况边界图。

根据本申请的第三方面，公开了一种非暂时性可读介质。该非暂时性可读介质存储用于基于语义分割获得图像的实例分割或全景分割的指令集。当该指令集由电子设备的处理器执行时，电子设备执行方法。该方法包括：使用经过训练的语义分割模型对输入图像进行语义分割，以获得具有特定类别集的语义标签图；基于获得的与输入图像连接的语义标签图，使用经过训练的生成器生成边界图；以及使用后处理步骤处理边界图，以区分特定类集的对象以获得图像的实例分割或全景分割。实例分割或全景分割被实时获得。

在一些实施例中，经过训练的语义分割模型是DeepLabv3+或密集预测单元(DPC)。在一些实施例中，经过训练的生成器包括与深度监督以及加权融合层相结合的条件生成式对抗网络。在一些实施例中，该设备能够实时获得实例分割或全景分割。在一些实施例中，后处理步骤包括对语义标签图的每个封闭区域执行广度优先搜索，以获得每个封闭区域的掩码，该掩码的类别基于其语义标签图来确定。在一些实施例中，指令集进一步指示处理器为thing类别和sthff类别中的至少一个生成掩码。在一些实施例中，该设备还包括鉴别器，该鉴别器与生成器进行极小极大博弈以形成经过训练的生成器。该鉴别器区分经过训练的生成器生成的边界图和对应的地面实况边界图。

本申请的一部分附加特征可以在以下描述中进行说明。通过对以下描述和相应附图的研究或者对实施例的生产或操作的了解，本申请的一部分附加特征对于本领域技术人员是明显的。本申请的特征可以通过下面讨论的详细示例中阐述的方法、手段和组合的各个方面的实践或使用来实现和获得。

附图说明

本申请将通过示例性实施例进行进一步描述。这些示例性实施例将通过附图进行详细描述。附图未按比例绘制。这些实施例是非限制性的示例性实施例，在这些实施例中，各图中相同的编号表示相似的结构。

图1是根据本申请的一些实施例所示的集成到自动驾驶车辆服务系统中的本申请公开的系统和方法的示意图；

图2是根据本申请的一些实施例所示的计算设备的组件的示意图；

图3是根据本申请的一些实施例所示的图1的算法和控制单元(Arithmetic AndControl Unit，ACU)的示例的硬件和/或软件组件的示意图；

图4是根据本申请的一些实施例所示的基于语义分割过程的实例分割的流程图；

图5是根据本申请的一些实施例所示的用于从语义分割产生相应的实例分割和全景分割的Sem2Ins模型的示意图；

图6是根据本申请的一些实施例所示的Sem2Ins的训练和推断的示意图；

图7是根据本申请的一些实施例所示的Sem2Ins的模型架构的示意图；

图8是Cityscapes验证集上的实例分割和全景分割的视觉示例；

图9是Cityscapes验证集上的实例分割和全景分割的附加视觉示例；

图10是根据本申请的一些实施例所示的实例分割方法在Cityscapes数据集上的速度精度权衡的示意图；

图11示出了在两个条件下测试的Cityscapes验证集的两个示例。

具体实施方式

提出以下描述以使本领域技术人员能够制造和使用本申请，并且在特定应用及其要求的上下文中提供。对于本领域的普通技术人员来讲，显然可以对所披露的实施例作出各种改变，并且在不偏离本申请的原则和范围的情况下，本申请中所定义的普遍原则可以适用于其他实施例和应用场景。因此，本申请不限于所示的实施例，而是符合与权利要求一致的最宽的范围。

本申请中所使用的术语仅出于描述特定示例实施例的目的，而非限制性的。如本申请使用的单数形式“一”、“一个”及“该”同样可以包括复数形式，除非上下文明确提示例外情形。还应当理解，如在本申请说明书中使用的术语“包括”、“包含”仅提示存在所述特征、整数、步骤、操作、组件和/或部件，但并不排除存在或添加一个或以上其它特征、整数、步骤、操作、组件、部件和/或其组合的情况。

通常，这里使用的词语“模块”、“单元”或“块”是指体现在硬件或固件中的逻辑，或者是软件指令的集合。本文描述的模块，单位或块可以被实现为软件和/或硬件，并且可以存储在任何类型的非暂时性计算机可读介质或其他存储设备中。在一些实施例中，可以编译软件模块/单元/块并将其链接到可执行程序中。应当理解，软件模块可以从其他模块/单元/块或从它们自身调用，和/或可以响应检测到的事件或中断来调用。配置用于在计算设备上执行的软件模块/单元/块可以在计算机可读介质上提供，例如光盘、数字视频光盘、闪存驱动器、磁盘或任何其他有形介质，或者作为数字下载(并且最初可以以压缩或可安装的格式存储，在执行之前需要安装、解压缩或解密)。这里的软件代码可以被部分的或全部的储存在执行操作的计算设备的存储设备中，并应用在计算设备的操作之中。软件说明可以嵌入固件中，例如可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)。还应当理解，硬件模块/单元/块可以包括在连接的逻辑组件中，例如门和触发器，和/或可以包括可编程单元，例如可编程门阵列或处理器。本文描述的模块/单位/块或计算设备功能可以实现为软件模块/单位/块，但可以用硬件或固件表示。通常，这里描述的模块/单元/块指的是逻辑模块/单元/块，其可以与其他模块/单元/块组合或者分成子模块/子单元/子块，尽管它们是物理组织或存储器件。该描述可适用于系统、引擎或其一部分。

可以理解的是，除非上下文另有明确说明，当单元、引擎、模块或块被称为在另一单元、引擎、模块或块“上”、“连接”或“耦合至”另一单元、引擎、模块或块时，其可以直接在其它单元、引擎、模块或块上，与其连接或耦合或与之通信，或者可能存在中间单元、引擎、模块或块。在本申请中，术语“和/或”可包括任何一个或以上相关所列条目或其组合。

根据以下对附图的描述，本申请的这些和其它的特征、特点以及相关结构元件的功能和操作方法，以及部件组合和制造经济性，可以变得更加显而易见，这些附图都构成本申请说明书的一部分。然而，应当理解的是，附图仅仅是为了说明和描述的目的，并不旨在限制本申请的范围。应当理解的是，附图并不是按比例绘制的。

本申请使用的流程图示出了根据本申请公开的一些实施例所示的系统所执行的操作。应当理解的是，流程图中的操作可以不按顺序执行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将一个或以上其他操作添加到这些流程图中。也可以从流程图中删除一个或以上操作。

本申请的实施例可以应用于不同的运输系统，包括但不限于陆路运输、海运、空运、空间运输等或其任何组合。运输系统的车辆可包括人力车、旅行工具、出租车、曾冒险的汽车、搭桥、公共汽车、铁路运输(例如，火车、子弹火车、高速铁路和地铁)、船舶、飞机、宇宙飞船、热气球、无人驾驶车辆等，或其任何组合。运输系统还可以包括应用管理和/或配送的任何运输系统，例如，用于发送和/或接收快递的系统。

本申请的一些实施例涉及基于语义分割的实例分割系统和方法。与语义分割相比，细粒度实例分割更为复杂和具有挑战性。大多数现有的实例分割方法只关注准确性，不关注推理延迟。然而，推理延迟对于自动驾驶等实时应用至关重要。本申请公开了通过利用语义分割和实例分割之间的复杂相关性并从语义分割有效地生成对应的实例分割来弥合语义分割和实例分割之间差距的系统和方法。本申请公开了一种用于实时实例分割的新模型Sem2Ins。该模型通过利用与深度监督以及加权融合层相结合的条件生成式对抗网络(Generative Adversarial Networks，GANs)，根据语义分割生成实例边界。Sem2Ins通过对广泛使用的Cityscapes基准的广泛实验得到进一步验证。实验结果表明：1)Sem2Ins能够在给定语义分割的情况下实时处理高清图像，例如，Sem2Ins能在2048×1024图像上以超过25fps运行；2)当与广泛使用的语义分割方法(如密集预测单元)结合时，Sem2Ins在准确性方面可提供与Mask R-CNN相当的性能，同时始终优于最先进的实时解决方案；3)Sem2Ins灵活地与任何语义分割模型一起进行实例分割；4)如果给定的语义分割足够好，Sem2Ins则优于Mask R-CNN；5)Sem2Ins易于扩展到全景分割任务。

本申请的各种实施例可应用于包括自动驾驶系统的自动驾驶车辆。自动驾驶系统可用于控制车辆的自动驾驶。自动驾驶车辆的算法和控制单元(Arithmetic And ControlUnit，ACU)可以接收和处理来自自动驾驶车辆的相机系统的诸如图像数据的实时传感器数据。图像数据由本申请公开的系统和方法实时处理，以生成一个或多个实时车辆控制(Vehicle Control，VC)命令。一个或多个实时车辆控制命令可包括但不限于加速、减速、转弯、切换车道等，或其任何组合。应该理解，本申请公开的系统和方法的应用场景仅是一些示例或实施例。在本领域中具有普通技能的人，无需进一步创造努力，可以将这些附图应用于其他应用场景，例如另一个类似的运输系统。

图1是根据本申请的一些实施例所示的自动驾驶车辆服务系统的示意图。在一些实施例中，自动驾驶车辆服务系统100可以是包括服务器110、存储设备120、网络130、自动驾驶车辆140的物联网(Internet of Things，IoT)平台。服务器110还可以包括处理设备112。

在一些实施例中，服务器110可以是单个服务器或服务器组。服务器组可以是集中式的或分布式的(例如，服务器110可以是分布式系统)。在一些实施例中，服务器110可以是本地的或远程的。例如，服务器110可以经由网络130访问存储在自动驾驶车辆140和存储设备120中的至少一个中的信息和数据中的至少一个。又例如，服务器110可以直接连接到自动驾驶车辆140和存储设备120中的至少一个，以访问存储的信息和数据中的至少一个。在一些实施例中，服务器110可以在云平台上实施。仅作为示例，该云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。

在一些实施例中，服务器110可以包括处理设备112。处理设备112可以处理来自自动驾驶车辆140的信息和数据中的至少一个。例如，处理设备112可以从用户(例如，驾驶员或乘客)接收服务请求。在一些实施例中，服务请求可以包括上车位置和下车位置中的至少一个。处理设备112可以提供从上车位置到下车位置的一条或多条路线。处理设备112可以经由网络130将一个或多个路线发送到自动驾驶车辆140。在一些实施例中，服务请求可包括来自用户的娱乐需求(例如，音乐需求、无线电需求、电影需求、阅读需求等)，处理设备112可响应于服务请求提供满足用户的娱乐需求的资源。在一些实施例中，服务请求可以包括一个或多个用于操作自动驾驶车辆140的命令，例如，停车、减速、加速、控制车内温度等。处理设备112可以响应于一个或多个命令，经由内置的自动驾驶系统远程操作自动驾驶车辆140。在一些实施例中，处理设备112可以包括一个或多个处理引擎(例如，单核处理器或多核处理器)。仅作为示例，处理设备112可以包括中央处理单元(Central ProcessingUnit，CPU)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用指令集处理器(Application Specific Instruction Set Processor，ASIP)、图形处理单元(Graphics processing Unit，GPU)、物理处理单元(Physics Processing Unit，PPU)、数字信号处理器(Digital Signal Processor，DSP)、现场可编程门阵列(Field ProgrammableGate Array，FPGA)、可编程逻辑设备(Programmable Logic Device，PLD)、控制器、微控制器单元、精简指令集计算机(Reduced Instruction-Set Computer，RISC)、微处理器等或其任何组合。

存储设备120可以存储数据和指令中的至少一个。在一些实施例中，存储设备120可以存储从自动驾驶车辆140获得的数据。在一些实施例中，存储设备120可以存储服务器110可以执行或使用以执行本申请中描述的示例方法的数据和指令中的至少一个。在一些实施例中，存储设备120可以包括大容量存储器、可移动存储器、易失性读写内存、只读存储器(Read-Only Memory，ROM)等或其任何组合。实例性大容量存储器可包括磁盘、光盘、固态驱动器等。实例性可移动存储器可以包括闪存驱动器、软盘、光盘、内存卡、压缩盘、磁带等。实例性易失性读写内存可包括随机存取内存(Random Access Memory，RAM)。示例性RAM可包括动态随机存取内存(Dynamic RAM，DRAM)、双倍数据速率同步动态随机存取内存(Double Date Rate Synchronous Dynamic RAM，DDRSDRAM)、静态随机存取内存(StaticRAM，SRAM)、晶闸管随机存取内存(Thyristor RAM，T-RAM)和零电容随机存取内存(Zero-Capacitor RAM，Z-RAM)等。示例性ROM可包括掩模ROM(Mask ROM，MROM)、可编程ROM(Programmable ROM，PROM)、可擦除可编程ROM(Erasable Programmable ROM，EPROM)、电可擦除可编程ROM(Electrically Erasable Programmable ROM，EEPROM)、光盘ROM(CompactDisk ROM，CD-ROM)和数字多功能磁盘ROM等。在一些实施例中，存储设备可以在云平台上实现。仅作为示例，该云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。

在一些实施例中，存储设备120可以连接到网络130以与自动驾驶车辆服务系统100的一个或多个组件(例如，服务器110、自动驾驶车辆140)通信。自动驾驶车辆服务系统100中的一个或多个组件可以经由网络130访问存储在存储设备120中的数据或指令。在一些实施例中，存储设备120可以直接连接到自动驾驶车辆服务系统100中的一个或多个组件(例如，服务器110、自动驾驶车辆140)或与之通信。在一些实施例中，存储设备120可以是服务器110的一部分。

网络130可以促进信息和数据中的至少一个的交换。在一些实施例中，自动驾驶车辆服务系统100中的一个或多个组件(例如，服务器110、存储设备120和自动驾驶车辆140)可以通过网络130向自动驾驶车辆服务系统100中的其他组件发送信息和数据中的至少一个。例如，服务器110可以经由网络130获得/获取车辆周围的信息和环境信息中的至少一个。在一些实施例中，网络130可以是任何类型的有线或无线网络，或其组合。仅作为示例，网络130可以包括电缆网络、有线网络、光纤网络、电信网络、内部网、因特网、局域网(LocalArea Network，LAN)、广域网(Wide Area Network，WAN)、无线局域网(Wireless LocalArea Network，WLAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide AreaNetwork，WAN)，公共电话交换网络(Public Telephone Switched Network，PSTN)、蓝牙网络、紫蜂网络、近场通信(Near Field Communication，NFC)网络等，或其任何组合。在一些实施例中，网络130可以包括一个或多个网络接入点。例如，网络130可以包括有线或无线网络接入点，例如基站和互联网交换点130-1、130-2，…，中的至少一个，通过它们，自动驾驶车辆服务系统100的一个或多个组件可以连接到网络130以交换数据和信息中的至少一个。

在一些实施例中，自动驾驶车辆140可以包括传统车辆的结构，例如，底盘、悬架、转向、制动、动力传动系统部件、发动机等。在一些实施例中，自动驾驶车辆140可包括具有各种自动驾驶级别的车辆，例如0级(即，无自动化，在0级，驾驶员执行所有操作任务，如转向、制动、加速或减速等)，1级(即驾驶员辅助，在1级，车辆可以辅助某些功能，但驾驶员仍处理所有加速、制动和对周围环境的监控)，2级(即部分自动化，在2级，车辆可以辅助转向或加速功能，并允许驾驶员脱离某些任务，但驾驶员必须随时准备好控制车辆，并仍负责大多数安全关键功能和环境的所有监控)，3级(即条件自动化，在3级，车辆本身控制环境的所有监控，驾驶员的注意力在这一级仍然至关重要，但可以脱离如制动等“安全关键”功能，并在条件安全时将其留给技术)，4级(即高度自动化，在4级，车辆能够转向、制动、加速、监控车辆和道路，以及响应事件，确定何时改变车道、转弯和使用信号。然而，当条件安全时，自动驾驶系统将首先通知驾驶员，然后驾驶员才会将车辆切换到自动驾驶模式，或5级(例如，完全自动化，在5级，这种级别的自动驾驶完全不需要人的注意。无需踏板、制动器或方向盘，自动驾驶系统控制所有关键任务、环境监控和识别如交通堵塞等独特驾驶条件)。

在一些实施例中，自动驾驶车辆140可以配置有一个或多个传感器，例如摄像头，用于检测车辆周围的内部信息和外部信息中的至少一个。例如，外部信息可以包括车辆周围的环境信息，例如天气信息、道路状况信息、交通灯信息、障碍物信息、行人信息等。内部信息可以包括用户姿势信息、用户交互信息等。在一些实施例中，自动驾驶车辆140可以配置有计算设备150，用于根据内部信息和外部信息中的至少一个实时或接近实时地控制自动驾驶车辆。如这里所使用的，计算设备150可以指算法和控制单元(ACU)。算法和控制单元150可以是各种形式的。例如，算法和控制单元150可以包括移动设备、平板电脑、物理显示屏(例如，液晶显示器(Liquid Crystal Display，LCD)、电子墨水显示器(Electronic InkDisplay，E-Ink)、弧形显示器、电视设备、触摸屏等)等或其任何组合。在一些实施例中，移动设备可以包括可穿戴设备、移动设备、虚拟现实设备、增强现实设备等或其任何组合。在一些实施例中，可穿戴装置可包括手镯、鞋袜、眼镜、头盔、手表、衣服、背包、智能配饰等或其任何组合。在一些实施例中，移动设备可以包括移动电话、个人数字助理(PersonalDigital Assistance，PDA)、笔记本电脑、平板电脑、台式机等或其任何组合。在一些实施例中，虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔、虚拟现实眼镜、虚拟现实眼罩、增强现实头盔、增强现实眼镜、增强现实眼罩等，或其任意组合。例如，虚拟现实设备和/或增强现实设备可以包括GoogleGlass^TM，Oculus Rift^TM，Hololens^TM，Gear VR^TM等。

在一些实施例中，算法和控制单元可配置有用于控制自动驾驶车辆的自动驾驶系统。算法和控制单元可以包括用于处理来自自动驾驶系统的一个或多个任务的多核处理器。在一些实施例中，算法和控制单元的至少一个专用处理核心可专用于处理一个或多个实时车辆控制(VC)任务，以根据实时传感器数据生成一个或多个实时车辆控制命令。在一些实施例中，实时车辆控制命令和非实时车辆控制命令中的至少一个可以被发送到车辆控制单元(Vehicle Controlling Unit，VCU)以操作车辆。算法和控制单元可包括自动驾驶车辆的一个或多个控制器，例如，一个或多个油门控制器、一个或多个火花控制器、一个或多个制动控制器、一个或多个转向控制器、废气再循环(Exhaust Gas Recycling，EGR)控制器、废气门控制器等。

应当注意，为了说明的目的，提供了上述关于算法和控制单元150的描述，而不是为了限制本申请的范围。对于本领域的普通技术人员，可以在本申请的指导下进行各种变化和修改。然而，这些变化和修改不脱离本申请的范围。在一些实施例中，算法和控制单元150可包括一个或多个其他子单元。例如，算法和控制单元150可以包括存储子单元，用于存储由算法和控制单元150中的子单元生成的数据。在一些实施例中，任意两个子单元可以组合为单个单元。

在一些实施例中，自动驾驶车辆140可以经由网络130与自动驾驶车辆服务系统100的一个或多个组件(例如，服务器110，存储设备120)通信。在一些实施例中，自动驾驶车辆140可以与车辆本身周围的其他车辆(图1中未示出)通信。例如，第一车辆可以获得关于第二车辆的距离信息和速度信息中的至少一个。当第二辆车与第一辆车特别接近(例如，两辆车之间的距离小于或等于距离阈值)时，第一辆车可以向第二辆车发送警报信息，这可以避免潜在的车辆事故。

在一些实施例中，自动驾驶车辆140可以是电动车辆、燃料电池车辆、混合动力车辆或传统的内燃机车辆。自动驾驶车辆140可包括车身142和至少一个轮144。车身142可以包括各种车身类型，例如跑车、双门轿车、轿车、皮卡车、旅行车、运动型多功能车(SportsUtility Vehicle，SUV)、小型货车或改装货车。在一些实施例中，自动驾驶车辆140可包括如图1所示的一对前轮和一对后轮。在一些实施例中，自动驾驶车辆140可具有或多或少的车轮或等效结构，使车辆140能够四处移动。自动驾驶车辆140可以配置为全轮驱动(AllWheel Drive，AWD)、前轮驱动(Front Wheel Drive，FWR)或后轮驱动(Rear Wheel Drive，RWD)。在一些实施例中，自动驾驶车辆140可配置为由占用该车辆的操作员、远程控制和自动控制中的至少一种操作。

结合图1所述，自动驾驶车辆140可配备有自动驾驶系统，该自动驾驶系统被配置为控制自动驾驶车辆140。自动驾驶系统可由算法和控制单元(ACU)实现。自动驾驶系统可配置为自动操作车辆。在一些实施例中，自动驾驶系统可以从车辆的一个或多个传感器获取数据和信息中的至少一个。在一些实施例中，自动驾驶系统可被分为感知、规划和控制三个层次。自动驾驶系统可以执行关于感知、规划和控制中的至少一个的一个或多个操作。例如，在感知层次，自动驾驶系统可以基于例如天气检测、车内温度检测、车道检测、自由驾驶区域检测、行人检测、障碍物检测、交通标志检测等传感器数据执行环境感知和定位中的至少一个。又例如，在规划层次，自动驾驶系统可以根据环境感知和定位的至少一个执行任务规划、行为规划和运动规划中的至少一个。再例如，在控制层次，自动驾驶系统可以根据感知层次和规划层次的结果生成一个或多个实时车辆控制命令。具体地，自动驾驶系统可以基于反馈控制和模型预测控制中的至少一个生成一个或多个实时车辆控制命令。关于感知层次、规划层次和控制层次的实施例的更多描述可以在例如Pendleton、Scott Drew等人的论文《对自动驾驶车辆的感知、规划、控制和协调》(Machines 5.1(2017)：6)中找到，其内容通过引用并入本文。

自动驾驶车辆140可包括一个或多个传感器，以提供用于自动操作车辆的信息。诸如一个或多个摄像头的一个或多个传感器可以实时或接近实时检测关于自动驾驶车辆的内部信息和外部信息中的至少一个。例如，外部信息可以包括车辆周围的环境信息，例如天气信息、道路状况信息、交通灯信息、障碍物信息、行人信息等。内部信息可以包括用户姿势信息、用户交互信息等。应当理解，一个或多个传感器还可以包括各种类型的传感器，例如视觉传感系统、激光感测系统、红外传感系统、声学传感系统、热敏系统等或任何其组合。

在一些实施例中，自动驾驶车辆140至少可以配置有定位系统。定位系统可以为自动驾驶车辆140提供导航信息。导航信息可以包括车辆的当前位置，车辆的目的地、速度、加速度、当前时间等或其任何组合。该位置可以是坐标的形式，例如纬度坐标和经度坐标。定位系统可以包括但不限于罗盘导航系统(Compass Navigation System，COMPASS)，全球定位系统(Global Positioning System，GPS)，北斗导航卫星系统，伽利略定位系统，准天顶卫星系统(Quasi-Zenith Satellite System，QZSS)等。

在一些实施例中，视觉传感系统包括视频或图像捕获系统或图像源170。图像源170包括被配置为获取由多个图像(也称为“视频帧”)或静态图像组成的视频的摄像机172和174。

摄像机172或174能够捕获一个或多个图像。如在本申请中所使用的，图像可以是静态图像、视频、流视频或从视频获得的视频帧。在一些实施例中，摄像机172或174可以是数字摄像机、摄影机、安全摄像机、网络摄像机、智能手机、平板电脑、笔记本电脑、装有网络摄像头的视频游戏控制台、具有多个镜头的摄像机等。

摄像机172或174可以包括镜头、快门、传感器、处理设备和存储设备。镜头可以是通过折射聚焦光束以形成图像的光学装置。在一些实施例中，镜头可以包括一个或多个镜头。镜头可以被配置为拍摄场景。镜头的光圈可以指光线通过以到达传感器的孔的大小。光圈可以调整，以调整通过镜头的光量。镜头的焦距可以调整，以调整摄像机的拍摄范围。

当拍摄图像时，快门可以打开以允许光通过镜头。快门可以手动或由处理设备自动控制。

传感器可被配置为接收通过镜头的光，并将接收到的光的光信号转换为电子信号。传感器可以包括电荷耦合器件(Charge Coupled Device，CCD)和互补金属氧化物半导体(Complementary Metal-Oxide Semiconductor，CMOS)。传感器可以与逻辑电路通信，并且可以被配置检测来自镜头的场景并将场景转换为电子信号。

由视频或图像捕获系统或图像源170提供的“视频”可包括多个帧，其也可被称为视频帧。帧可以是构成完整视频的多个静态图像中的一个。以称为帧速率的速率捕获视频的帧，例如每秒24帧(24fps)、每秒30帧(30fps)、每秒60帧(60fps)等。

要传输的视频帧可以以视频帧缓冲队列的形式存储在算法和控制单元150中的缓冲器中，该视频帧缓冲队列可以由缓冲器管理。缓冲器可以使用基于队列的数据结构来缓冲要传输的视频。

缓冲器可以是用于缓冲要传输的视频的存储设备。缓冲器可以包括大容量存储器、可移动存储器、易失性读写内存、只读存储器(ROM)等或其任何组合。实例性大容量存储器可包括磁盘、光盘、固态驱动器等。实例性可移动存储器可以包括闪存驱动器、软盘、光盘、内存卡、压缩盘、磁带等。实例性易失性读写内存可包括随机存取内存(RAM)。示例性RAM可包括动态随机存取内存(DRAM)、双倍数据速率同步动态随机存取内存(DDRSDRAM)、静态随机存取内存(SRAM)、晶闸管随机存取内存(T-RAM)和零电容随机存取内存(Z-RAM)等。示例性ROM可包括掩模ROM(MROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、光盘ROM(CD-ROM)和数字多功能磁盘ROM等。

图2是根据本申请的一些实施例所示的计算设备150的示例200的示例的硬件和/或软件组件的示意图。例如，计算设备200可以是显示控制设备或其的一部分。如图2所示，计算设备200可以包括处理器222、存储器227、输入/输出(Input/Output，I/O)226和通信端口225。

处理器222(例如，逻辑电路)可以执行计算机指令(例如，程序代码)并根据本申请描述的技术执行功能。例如，处理器222可以包括接口电路和处理电路。接口电路可被配置为从总线221接收电子信号。电子信号对处理电路要处理的结构化数据和/或指令进行编码。处理电路可以进行逻辑运算，然后确定结论、结果和/或编码为电子信号的指令。然后，接口电路可以通过总线221从处理电路发送电子信号。

计算机指令可以包括，例如，执行本申请描述的特定功能的例程、程序、对象、组件、数据结构、过程、模块和功能。在一些实施例中，处理器222可以包括一个或多个硬件处理器，例如微控制器、微处理器、精简指令集计算机(RISC)、专用集成电路(ASIC)、专用指令集处理器(ASIP)、中央处理单元(CPU)、图形处理单元(GPU)、物理处理单元(PPU)、微控制器单元、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、高级RISC机(Advanced RISCMachine，ARM)、可编程逻辑设备(PLD)、能够执行一个或多个功能的任何电路或处理器，等或其任何组合。

仅作为说明，在计算设备200中仅描述了一个处理器。然而，应当注意，本申请中的计算设备200还可以包括多个处理器，因此本申请中所述的一个处理器执行的操作和/或方法步骤也可以由多个处理器联合或单独执行。例如，如果在本申请中，计算设备200的处理器执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由计算设备200中的两个或更多个不同的处理器联合或单独地执行(例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一和第二处理器联合执行步骤A和B)。

存储器227可以存储从图像源170和/或算法和控制单元160获得的数据/信息。在一些实施例中，存储器222可以包括大容量存储、可移动存储器、易失性读写内存、只读存储器(ROM)等或其任何组合。例如，大容量存储器可包括磁盘、光盘、固态驱动器等。可移动存储器可以包括闪存驱动器、软盘、光盘、内存卡、压缩盘、磁带等。易失性读写内存可包括随机存取内存(RAM)。RAM可包括动态随机存取内存(DRAM)、双倍数据速率同步动态随机存取内存(DDRSDRAM)、静态随机存取内存(SRAM)、晶闸管随机存取内存(T-RAM)和零电容随机存取内存(Z-RAM)等。ROM可包括掩模ROM(MROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、光盘ROM(CD-ROM)和数字多功能磁盘ROM等。在一些实施例中，存储器222可以存储一个或多个程序和/或指令以执行本申请中描述的示例方法。例如，存储器222可以为处理引擎(例如，服务器103)存储用于确定正则化项的程序。

输入/输出226可以输入和/或输出信号、数据、信息等。在一些实施例中，输入/输出226可以包括一个或多个输入端口和一个或多个输出端口。一个或多个输入端口(也称为数据获取端口)可以被配置为获取数据/信息，例如视频信号的信道。

通信端口225可以连接到网络以便于数据通信。通信端口225可以在图像源170和/或算法和控制单元150之间建立连接。该连接可以是有线连接、无线连接、可以实现数据传输和/或接收的任何其他通信连接、和/或这些连接的任何组合。有线连接可以包括例如电缆、光缆、电话线等或其任何组合。无线连接可以包括例如Bluetooth^TM链路，Wi-Fi^TM链路，WiMax^TM链路、WLAN链路、ZigBee链路、移动网络链路(例如3G、4G、5G)等，或其组合。在一些实施例中，通信端口225可以是和/或包括标准化通信端口，例如RS-232，RS-485等。在一些实施例中，通信端口225可以是专门设计的通信端口。

图3是根据本申请的一些实施例所示的算法和控制单元150的示例300的硬件和/或软件组件的示意图。如图3所示，算法和控制单元的示例300包括通信平台310、显示器320、图形处理单元(GPU)330、中央处理单元(CPU)340、输入/输出350、内存360、移动操作系统(Operating System，OS)370和存储器390。在一些实施例中，任何其他合适的组件，包括但不限于系统总线或控制器(未示出)，也可以包括在算法和控制单元300中。

在一些实施例中，操作系统370和一个或多个应用380可以从存储器390加载到内存360中，以便由中央处理单元340执行。应用380可以包括用于从处理设备112接收和呈现与定位相关的信息或其他信息的浏览器或任何其他合适的应用。与信息流的用户交互可经由输入/输出350实现，并经由网络130提供给处理设备112和/或自动驾驶车辆服务系统100的其他组件。

为了实施本申请描述的各种模块、单元及其功能，计算机硬件平台可用作本申请中描述的一个或以上元素的硬件平台。具有用户界面元素的计算机可用于实现个人计算机(Personal Computer，PC)或任何其他类型的工作站或终端设备。若经过适当的编程，计算机也可用作服务器。

本申请公开的系统和方法旨在通过将实例分割视为其粗粒度对应物，语义分割的扩展任务，从新的角度处理实例分割。与语义分割相比，细粒度实例分割更加复杂和具有挑战性，因为它们之间存在很大的差距。为了从语义分割中获得相应的实例分割，需要区分公共语义掩码区域内的实例。

本申请公开的系统和方法通过利用语义分割和实例分割之间的复杂相关性并生成实例之间的边界以用公共语义掩码分割实例，从而弥合语义分割和实例分割之间的差距。具体地，名为Sem2Ins的新模型，如图5所示，从语义分割中生成相应的实例分割或全景分割。Sem2Ins利用了基于与用于生成实例边界的最小二乘损失(如毛等人在《最小二乘生成式对抗网络》(2017.Proceedings of the IEEE ICCV，2794–2802)中披露的)相结合的条件生成式对抗网络(cGANs)(如Mirza和Osindero在《条件生成式对抗网络》(2014.arXiv预印本：1411.1784)中披露的)的轻量级生成器。该条件生成式对抗网络通过深度监督(如Lee等人在《深度监督网络》(2015.Artificial Intelligence and Statistics，562–570)中披露的)以及加权融合层进一步增强。在广泛使用的Cityscapes基准上进行的大量实验表明，Sem2Ins是一种快速、有效和灵活的模型。首先，Sem2Ins引入了较小的计算开销和推理延迟，使得它能够在给定语义分割的情况下实时处理高清图像，例如，Sem2Ins能在2048×1024图像上以超过25fps运行。其次，当与广泛使用的语义分割方法(如密集预测单元)相结合时，Sem2Ins在准确性方面可提供与Mask R-CNN相当的性能，同时始终优于最先进的实时解决方案，例如Uhrig等人在《Box2pix：通过为对象框指定像素进行单镜头实例分割》(2018IEEE Intelligent Vehicles Symposium(IV)，292-299.IEEE)中披露的。此外，Sem2Ins可以灵活地与任何语义分割模型一起进行实例分割。另外，Sem2Ins在生成精确的实例分割方面显示出巨大的潜力，因为如果给定的语义分割足够好，Sem2Ins在准确性方面优于Mask R-CNN。最后，Sem2Ins可以很容易地扩展到全景分割任务。

可用于进行Sem2Ins模型的代表性语义分割方法包括PSPNet、AdaptNet++、Deeplabv3+。例如赵等人在《金字塔场景解析网络》(2017.Proceedings of the IEEECVPR，2881-2890)中公开的PSPNet。PSPNet专为场景解析的像素级预测而设计，它通过不同的基于区域的上下文聚合来利用全局上下文信息的能力。例如Valada，Mohan和Burgard等人在《多模态语义分割的自我监督模型自适应》(2018.ARXIV预印本：1808.03833)中披露的AdaptNet++，它使用了名为AdaptNet++的计算效率高的单峰分割架构，该架构结合了具有多尺度残差单元的编码器。例如陈等人在《用于语义图像分割的具有多孔可分离卷积的编解码器》(2018B.Proceedings of the ECCV，801-818)中所公开的Deeplabv3+，它通过在DeepLabv3上添加有效解码器来细化分割结果，尤其是对象边界。例如陈等人在《寻找用于密集图像预测的高效多尺度架构》(2018A.NIPS，8699-8710)中公开的密集预测单元(DPC)，它构建了递归搜索空间以编码用于密集预测的多尺度上下文信息。

最近关于实例分割的工作可以分类为三种路线之一。最通用的实例分割路线是基于提案的，首先确定提案，然后进行分类步骤。名为Mask R-CNN的著名工作通过添加用于掩码预测的分支来扩展Faster R-CNN。另一种工作路线是基于循环网络顺序生成实例，例如，具有卷积长短期记忆(Long Short-Term Memory，LSTM)的端到端循环网络以顺序输出实例。实例分割的最后一个路线是侧重于将图像转换为合适的表示，该表示通过后处理聚类成实例。上面列出的所有即时分割工作都以图像作为输入。然而，本申请公开的系统和方法选择了完全不同的方式，即从语义分割开始。

语义分割和实例分割都旨在理解像素级的图像。然而，前者侧重于具有相似的纹理或材料的不可数对象的无定形区域，即stuff类别，而后者侧重于分割可数对象，即thing类别。全景分割，图像分割的统一视图，将语义分割(每像素类标签)和实例分割(每对象掩码和类标签)集成到一个统一的任务中，以定义一个简单但通用的输出格式，包括thing类(例如人、车)和stuff类(例如道路、天空)。基于语义分割的实例分割和全景分割尚未得到解决。

图4是根据本申请的一些实施例所示的实例分割到语义分割过程400的流程图。具体地，当在步骤410首次获得输入图像时，Sem2Ins基于其语义分割区分属于特定类别集合的所有对象。为了实现这一目标，Sem2Ins分为三个步骤：步骤420处的语义分割、步骤430处的边界图生成和步骤440处的后处理。为了对输入图像进行语义分割，以获得具有特定类别集的语义标签图，经过训练的语义分割模型被使用。为了生成边界图，基于获得的与输入图像连接的语义标签图，经过训练的生成器被使用。为了处理边界图，以区分特定类别集的对象，以获得输入图像的实例分割或全景分割，后处理步骤被使用。

过程和方法400中的至少一个可由自动驾驶车辆中的至少一个计算设备(例如，算法和控制单元150或计算设备200)执行。例如，过程和方法400中的至少一个可以实施为存储在非暂时性计算机可读存储介质(例如，存储设备227)中的指令集(例如，应用程序)。计算设备的至少一个处理器(例如，计算设备200的处理器222)可以执行该指令集，并且可以相应地被指导通过接收和发送电子信号中的至少一个来执行过程和方法400中的至少一个。

应当注意的是，上述描述仅为说明的目的而提供，并不打算限制本申请的范围。对于本领域的普通技术人员来说，可以根据本申请的描述，做出各种各样的变化和修改。然而，这些变化和修改不脱离本申请的范围。

在开始步骤中，使用经过训练的语义分割模型，例如DeepLabv3+，获得输入图像的语义分割。然后，将获得的语义分割和输入图像作为输入，通过经过训练的生成器生成边界图。最后，在后处理步骤中，通过处理边界图来区分特定类别集的对象。对于全景分割，thing类别和stuff类别的掩码被生成。对于实例分割，仅thing类别的掩码被生成。

Sem2Ins的训练和推理设置如图6所示。如图6所示，对于训练，系统学习具有鉴别器D的映射G:(S；X)→G(S；X)。鉴别器D试图区分“真”图像对((S；X)；Y)和“假”图像对((S；X)；G(S；X))。对于推理，使用经过训练的语义分割模型Q:X’→S’获得语义标签图，该语义标签图与输入图像连接，并传递到经过训练的映射G以生成边界图。实例分割I'和全景分割P'通过后处理步骤B生成。

给定来自训练集的图像X，根据其实例标签图计算其地面实况语义标签图S和地面实况边界图Y。请注意，此处使用的语义标签图和实例标签图包含thing类别和stuff类别的地面实况标签。在训练过程中，生成器G以(S,X)为输入，学习以生成边界图G(S,X)。(S,X)表示地面实况语义标签图和训练图像的连接。鉴别器D试图区分“真”图像对((S,X),Y)和“假”图像对((S,X),G(S,X))。通过对抗训练，生成的边界图G(S,X)被优化为类似于地面实况边界图Y。

对于图6所示的推理过程，与训练相反，测试图像X’的语义标签图S’只能通过经过训练的语义分割模型Q获得。类似于训练，语义标签图S'和测试图像X'被连接并传输到经过训练的生成器G中以生成边界图G(S’,X’)。实例分割I'和全景分割P'可以通过在步骤B中处理生成的边界图G(S’,X’)来生成。对每个封闭区域执行广度优先搜索以获得掩码，掩码的类别基于其语义标签图S'确定。请注意，后处理的时间复杂度为O(|B|)，其中|B|表示生成的边界图中的像素数，且可以忽略，尤其是当由于较小的图像尺寸|B|较小时。步骤B的算法如下表1和2所示。

表1：实例/全景分割的后处理算法

表2：边界图上的广度优先搜索(Breath First Search，BFS)的算法(阐明表1算法的第15行中的BFS)

Sem2Ins基于用于将语义分割转换为边界图的条件生成式对抗网络(cGANs)，其由生成器G和参与极大极小博弈的鉴别器D组成。生成器的任务是生成边界图以误导鉴别器，而鉴别器侧重于区分生成器生成的“假”边界图和相应的地面真实的“真”边界图。Sem2Ins的目标函数采用以下形式：

其中L_GAN(G,D)为对抗性损失：

L_GAN(G,D)＝E_((S,X),Y)[log D((S,X),Y)]+E_(S,X)[log(1-D((S,X),G(S,X)))](2)

其中(S,X)作为生成器的输入，用于生成边界图，并作为参考，帮助鉴别器区分生成的边界图G(S,X)和地面实况Y。L_FM是pix2pixHD(例如王等人在《条件GAN的高分辨率图像合成和语义操纵》(2018.Proceedings of the IEEE CVPR，8798-8807)中公布的)提出的用于训练过程稳定的特征匹配损失。pix2pixHD中提出的多尺度鉴别器D＝(D₁,D₂,…,D_k)旨在提高鉴别器以高分辨率区分真实图像和合成图像的能力。在我们的实现中，根据PatchGAN架构(例如Isola等人在《使用条件对抗网络的图像到图像转换》(2017.Proceedings ofthe IEEE CVPR，1125-1134)中公开的)实现了具有相同网络结构的三尺度鉴别器(即，D＝(D₁,D₂,D))。

(S,X)表示第n侧输出层的输出。G_f(S,X)，加权融合层的输出，表示生成的边界图。L_side以及每个侧输出层的类平衡交叉熵损失函数如下进一步定义。

如图7所示，生成器由4个组件组成：卷积前端G₁、残差块集G₂、转置卷积后端G₃和侧输出层集G₄、G₁、G₂和G₃，它们组合在一起形成基本生成器(如Johnson、Alahi和FeiFei在《实时风格转移和超分辨率的感知损失》(2016.ECCV，694-711.Springer)中公开的)。然而，仅基于基本生成器，下面披露的实验结果证明，生成的边界图对于示例分割不够好，这被认为是由于G₃的更高层对全局信息的监督不足而造成的不良影响，并且可以通过隐藏层监管来缓解，如Lee等人2015年公开的。

为了在不增加太多额外计算或过度增加模型复杂度的情况下提高生成边界图的质量，采用了整体嵌套架构的设计理念，如谢和涂在《整体嵌套边缘检测》(2015.Proceedings of the IEEE ICCV，1395–1403)中公开的设计理念，它继承了Lee等人2015年的思想。然而，不是在G1中的每个卷积层之后插入侧输出层，而是在G3中的每个转置卷积层之后插入侧输出层，这些插入层形成组件G4。与具有相同目的的其他深度学习架构相比，整体嵌套架构在多尺度和多层次学习的表示和计算复杂度方面已被证明具有优势，并且通过在每个侧输出层上施加深度监督(即，图7中的红色虚线710)将侧输出引导至所需的边界预测。此外，加权融合层，即图7中的蓝色虚线720，被合并以将更高层中的粗略全局信息与较低层中的精细局部信息相结合，这与跳跃层架构(例如Long、Shelhamer和Darrell在《用于语义分割的完全卷积网络》(2015.In Proceedings of the IEEE CVPR，3431-3440)中公开的)类似。

按照谢和涂在2015年的定义，G₁、G₂和G₃的参数集合表示为W G₁，G₄中N个侧输出层的权重表示为W＝(w¹，…，w^N)。在本申请公开的实施方式中，N等于4。每侧输出(S,X)的类平衡交叉熵损失在((S,X),Y)的所有像素上计算，如等式3所示。

其中S＝(s_j,j＝1,...,|S|)，X＝(x_j,j＝1,...,|X|)，Y＝(y_j,j＝1,...,|Y|，y_j∈{0,1}。|S|、|X|和|Y|共享相同的值，表示图像中的像素数，|Y|为表示符号简单性，随后使用。β＝|Y_|/|Y|，1-β＝|Y₊|/|Y|，|Y₊|和|Y_|分别表示在地面实况边界图中的边界上和边界外的像素数。在图7中，每个侧输出层包含1×1卷积层，后跟上采样层和激活函数。第n个侧输出层的输出如等式4所示。

其中，图7中所示的

是1x1卷积层的直接输出，

是

的双线性上采样。然后，使用sigmoid激活函数在

上计算

最后，加权融合层的输出可根据等式5获得，融合权重定义为h＝(h₁，…，h_N)。

示例

实验装置

实施细节：在训练中，特征匹配损失的权重λ_FM＝10，类平衡交叉熵损失的权重λ_side＝5。LSGANs(如毛等人2017年披露的)，用于稳定训练过程。Adam算法(如Kingma和Ba在《Adam：一种随机优化方法》(2014.arXiv预印本:1412.6980)披露的)，初始学习率为0.0002，动量为0.5，用于优化生成器和鉴别器。

数据集：Cityscapes数据集侧重于对城市街景的语义理解。如本申请所公开的，实例级语义标记任务的目标是使用5000张精细标注图像，这些图像被分为2975张训练图像、500张验证图像和1525张测试图像。每张图像的分辨率为2048×1024，并为每个像素保存完整的语义和实例分割的地面实况。本申请公开的Sem3Ins模型在训练集上进行训练，并在验证集和测试集上进行评估。报告了平均精度(Average Precision，AP)和平均精度为50％(AP0.5)的重叠值的结果，这两个指标都针对8个thing类别(人、骑手、汽车、卡车、公交车、火车、摩托车和自行车)的实例分割。

基准：众所周知的实例分割模型，Mask R-CNN(如何等人在《Mask R-CNN》(2017.Proceedings of the IEEE ICCV，2961–2969)中披露的)，基于Cityscapes数据集的验证集和测试集，在AP、AP0、每个thing类别的AP、每帧推理时间(即s/帧)和每秒帧数(即FPS(总体上))方面与Sem2Ins进行了比较。如2017年Facebook Research披露的Mask R-CNN的官方实施被用于比较。在Cityscapes排行榜上报告的其他具有官方结果的工作(如何等人2017年披露的；刘等人在《SGN：用于实例分割的顺序分组网络》(2017.Proceedings ofthe IEEE ICCV，3496-3504)在披露的；Arnab和Torr在《使用动态实例化网络的逐像素实例分割》(2017.Proceedings of the IEEE CVPR，441-450)中披露的；Bai和Urtasun在《实例分割的深分水岭变换》(2017.Proceedings of the IEEE CVPR，5221-5229)中披露的；DeBrabandere、Neven和VanGool在《具有辨别损失函数的语义实例分割》(2017.Arxiv预印本：1708.02551)中披露的；Hayder、He和Salzmann在2017；Kirillov等人在《边界感知实例分割》(2017.Proceedings of the IEEE CVPR，5696–5704)中披露的)在测试集上与Sem2Ins进行了比较。

如表3所示，Sem2Ins与测试集上的表现与一些有代表性的方法相当，并在Cityscape排行榜上的实例级语义标签任务中获得了有竞争力的结果。

表3：排行榜上正式报告的Cityscapes测试集的实例分割性能(于2019年9月收集的Cityscapes数据集)

请注意，Mask R-CNN模型应用ResNet-FPN-50作为主干，并遵循何等人提出的训练和测试规则。2017年，它采用尺度抖动数据增强进行训练，从[800，1024]中随机采样图像尺度(较短边)以减少过拟合；推理是在没有任何测试技巧的情况下进行的。“仅精细”意味着MaskR-CNN仅在Cityscapes的精细标注图像上进行训练。为了公平比较，Sem2Ins遵循相同的规则以在测试集获得最终结果，例如陈等人2018年披露的密集预测单元在这里用于语义分割。具体而言，Sem2Ins在准确性方面可提供与Mask R-CNN相当的性能。此外，Sem2Ins的表现优于De Brabandere、Neven和Van Gool在2017年的实时实例分割的工作。另外，在DeBrabandere、Neven和Van Gool在2017的工作中，一次只能区分一个thing类的实例。但是，Sem2Ins可以一次区分属于8个thing类的所有实例。

图8展示了验证集上5个样本的视觉结果，这表明Sem2Ins成功处理了包括各种类别的大多数情况，即使对于汽车或行人拥挤的困难情况，例如第一、第三和第四个样本。此外，Sem2Ins仍然可以为某些单独的实例提供正确的分割，即使它们没有在地面实况中标记或分割。以第一个样本为例，图片右侧的汽车，位于摩托车后面，没有在地面实况中标记；然而，它仍然可以被Sem2Ins识别。对于第二个样本，图像左侧伞下的人群在地面实况中没有被分割，但可以被Sem2Ins成功区分。失败案例主要涉及错误地合并具有相似颜色或模糊边界的相邻实例，或者由于前面的遮挡物而将单个对象分割为多个实例。例如，第三个样本右侧的一辆车被广告牌挡住了一部分，然后Sem2Ins错误地将其分成两部分，右侧部分被错误地识别为附近另一辆车的后视镜，因为它们之间的边界不明显。另一个常见的失败来自不准确的语义分割，因为Sem2Ins将语义分割作为边界图生成的基础。在第五个样本的右侧，两个相邻的人被区分为一个实例，这是由错误的语义分割造成的，附近的椅子和桌子被识别为人体的一部分。

图9是Cityscapes验证集上实例分割(第4列和第5列)和全景分割(第6列和第7列)的另外的视觉示例。密集预测单元(陈等人2018年披露的)应用于语义分割，对应的数据列于下表4。

表4：Cityscapes验证集的语义和全景分割性能。Sem-AP代表语义分割的平均精度，PQ代表Cityscapes数据集的公共评估工具(Cordts2016)计算的全景分割质量。

Sem2Ins可以与任何用于实例分割的语义分割方法一起工作，并且弄清楚语义分割的质量和实例分割的性能之间的关系是必要的，也是有指导意义的。在表4中，在线训练好的模型，如Nabavi在2018年披露的模型、DeepSceneSeg 2018、Tensorflow 2018的4个语义分割方法、PSP-Net、AdaptNet++、Deeplabv3+和DPC，分别应用于语义分割，然后Sem2Ins得到实例分割。

表5：Cityscapes验证集的语义和实例分割性能。Sem-AP和Ins-AP分别代表语义和实例分割的平均精度，由Cityscapes数据集的公共评估工具(Cordts2016)计算得到。

虽然这4种语义分割方法的计算的平均精度与他们论文中报道的并不完全一致，但它们都在合理的范围内。根据表5第2列和第3列的第4-7行，使用Sem2Ins的实例分割(即Ins-AP)的性能随着语义分割(即Sem-AP)的质量而增长。

为了进一步验证，将语义分割的地面实况输入到Sem2Ins中进行实例分割，得到一个近乎完美的平均精度(如第3列第8行所示)，它高于MaskR-CNN的平均精度(第3行)，即使Mask R-CNN是从在MS-COCO数据集上预训练的模型(如Lin等人在《Microsoft Coco：上下文中的常见对象》(2014.ECCV，740–755.Springer)披露的)中训练出来的(第2行)。此外，对于一些实例总是稀疏的类(例如，骑手、卡车、摩托车)，与Mask R-CNN相比，Sem2Ins表现出了很大的性能提升，这可以通过以下事实来解释：作为Sem2Ins基础的语义分割，在针对单实例对象分割时，与常见的实例分割方法(如Mask R-CNN)相比，可以提供更好的性能。即使对于一些实例总是很拥挤的类(例如，人、自行车、公交车)，Sem2Ins仍然可以提供可比较的结果。显然，实例分割的性能可以通过更好的语义分割来提高，如果语义分割足够好，Sem2Ins能够提供最先进的性能。

表6：Cityscapes验证集的速度和精度分析。最后三列中列出的结果(即秒/帧、FPS(总体)和FPS(Sem2Ins))是在NVIDIA Tesla P100 GPU上计算的。秒/帧列中列出的时间以“A”或“B+A”的形式书写，其中“B”和“A”分别表示语义和实例分割所消耗的时间。

根据表6，Sem2Ins只引入了较小的计算开销和推理延迟(即秒/帧列中的“A”)，因此它能够在给定语义分割的情况下实时处理高清图像，例如，能在2048×1024图像上以超过25fps(即FPS(Sem2Ins))运行。在这里，Sem2Ins为快速实例分割提供了一种新颖和实用的方法。当已经获得了语义分割结果时，可以基于语义分割在非常短的时间内获得其实例分割，而不是从原始图像开始。此外，当与速度更快的语义分割方法(如PSPNet)相结合时，Sem2Ins可以实现实时实例分割(即20FPS)，在2048×1024图像上其速度比Mask R-CNN(即<2FPS)快10倍以上。

结合3种语义分割方法：Adapt-Net++、DeepLabv3+和DPC，使用Sem2Ins对3种不同分辨率(即768×384、1024×512和2048×1024)的输入图像执行实例分割。请注意，当输入Sem2Ins时，语义分割结果将调整为2048×1024。根据表6，即使对于分辨率较低(即768×384)的图像，语义分割的质量(即Sem-AP)下降很多，实例分割的退化也相对较小。以Sem2Ins结合DeepLabv3+为例，当输入图像的分辨率从2048×1024变为768×384时，语义分割平均精度从78.56降到69.14，甚至低于PSPNet(即74.97)。然而，实例分割平均精度从17.9降低到15.2，高于PSPNet(即14.7)，总体速度(即FPS(总体))从0.9FPS提高到4.9FPS，超过5倍。因此，与语义分割相比，Sem2Ins对分辨率降低的鲁棒性更强。因此，当Sem2Ins与具有更高质量(即Sem-AP)但较低速度的语义分割方法相结合用于实例分割时，通过降低输入图像的分辨率来牺牲少量精度(即Ins-AP)以换取更高的速度(即FPS(总体))可能是一种适当的方式。

图10是实例分割方法在Cityscapes数据集上的速度精度权衡的示意图。PSPNet+Sem2Ins在速度和准确性方面优于声称是SOTA实时方法的Box2Pix(Uhrig等人2018年披露的)。

为了说明深度监管如何帮助边界图生成，图11示出了两个条件下两个示例的每个侧输出层(即，

)的输出和生成的边界图(即G_f)。两个条件为：1)使用加权融合层(即图7中的蓝色虚线720)和深度监督(即图7中的红色虚线710)进行训练，2)仅使用加权融合层进行训练。对于这两个条件，从第4层到第1层的侧输出逐渐变得更精细，更“局部”。条件1的边界响应明显强于条件2，尤其是在第2层和第3层具有相同类别(如汽车)的相邻实例之间的边界。对于生成的边界图(即G_f)，在条件1中生成的边界清晰且连续，从而导致实例分割具有高性能；在条件2中生成的边界不完整、不清晰，甚至不存在，尤其是用于划分具有相同类相邻实例的关键边界，这会导致第4.2节中提到的常见故障(即不正确地合并相邻实例)。因此，深度监督指导Sem2Ins生成更高质量的边界，并进一步有助于实例分割。

Sem2Ins可以很容易地扩展到全景分割任务，其视觉结果显示在图8和图9中。基于全景质量(Panoptic Quality，PQ)度量(Kirillov等人2019披露的)，全景分割的实验结果见补充资料。与语义分割不同，全景分割需要区分单个对象实例，这可以通过Sem2Ins通过使用边界在公共语义掩码内分离实例来解决，如图8和图9所示。与实例分割不同，全景分割的对象段必须是非重叠的；然而，基于提案的实例分割方法很容易导致掩码重叠。Sem2Ins通过基于边界图执行分割巧妙地避免该问题。与最近使用并行结构网络通过处理不同分支中的stuff和thing类别来解决全景分割的工作相比，Sem2Ins提供了一种从语义分割开始的级联方法，以边界图为桥梁，可以进一步一次生成用于全景分割的stuff类别和thing类别的非重叠对象段。

为了弥合语义分割和实例分割之间的差距，提出了一种称为Sem2Ins的新型实时模型，用于通过基于与深度监督以及加权融合层相结合的条件生成式对抗网络(cGANs)的实例边界生成，从语义分割到有效实例分割。已在广泛使用的Cityscapes基准上进行了综合实验。大量的实验结果表明：1)Sem2Ins能够在给定语义分割的情况下实时处理高清图像；2)当与广泛使用的语义分割方法(如密集预测单元)相结合时，Sem2Ins在准确性方面可提供与Mask R-CNN相当的性能，同时始终优于最先进的实时解决方案；3)Sem2Ins可以灵活地与任何语义分割模型一起进行实例分割；4)如果给定的语义分割足够好，Sem2Ins可以优于Mask R-CNN；5)Sem2Ins可易于扩展到全景分割。

应当注意，上面的描述仅用于说明的目的，而不是旨在限制本申请的范围。对于本领域的普通技术人员来说，可以根据本申请的描述，做出各种各样的变化和修改。然而，这些变化和修改不脱离本申请的范围。

上文已对基本概念做了描述，显然，对于阅读此申请后的本领域的普通技术人员来说，上述发明披露仅作为示例，并不构成对本申请的限制。虽然此处并未明确说明，但本领域的普通技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。例如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特性。因此，应当强调并注意的是，本说明书中在不同位置两次或以上提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或以上实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域的普通技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的过程、机器、产品或物质的组合，或对其任何新的和有用的改进。因此，本发明的各个方面可以完全由硬件、软件(包括固件、驻留软件、微代码等)或结合软件和硬件实现来实现，它们在本文中通常被称为“单元”、“模块”或“系统”。此外，本发明的各个方面可以采取计算机程序产品的形式，该计算机程序产品体现在一个或多个计算机可读介质中，其上体现有计算机可读程序代码。

计算机可读信号介质可以包含一个内含有计算机程序代码的传播数据信号，例如，在基带上或作为载波的一部分。此类传播信号可以有多种形式，包括电磁形式、光形式等或任何合适的组合。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通信、传播或传输供使用的程序。位于计算机可读信号介质上的程序代码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF等，或任何上述介质的组合。

用于执行本公开的方面的操作的计算机程序代码可以以一种或多种编程语言的任何组合来编写，包括面向对象的编程语言，如java、斯卡拉、SimalTalk、Effele、Ju玉、埃默拉尔德、C++、Cype、VB。NET、Python等，传统的过程编程语言，如“C”编程语言、VisualBasic、Fortran2003、Perl、COBOL2002、PHP、ABAP，动态编程语言，如Python、Ruby和Groovy，或其他编程语言。该程序代码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者可以与外部计算机建立连接(例如，通过使用网络服务提供商的网络)或在云计算环境中或作为服务提供，例如，软件服务(SaaS)。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其它名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，尽管上述各种组件的实现可以体现在硬件设备中，但也可以实现为纯软件解决方案，例如，在现有服务器或移动设备上的安装。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或以上发明实施例的理解，前文对本申请的实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。然而，本申请的该方法不应被解释为反映所声称的待扫描对象物质需要比每个权利要求中明确记载的更多特征的意图。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

在一些实施例中，用于描述和要求保护本申请的某些实施例的表示量、特性等的数字应理解为在某些情况下由术语“大约”、“近似”或“实质上”修改例如，“大约”、“近似”或“实质上”可能表示其描述的值的±20％变化，除非另有说明。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

本文中提及的所有专利、专利申请、专利申请公布和其他材料(如论文、书籍、说明书、出版物、记录、事物和/或类似的东西)均在此通过引用的方式全部并入本文以达到所有目的，与上述文件相关的任何起诉文档记录、与本文件不一致或冲突的任何上述文件或对迟早与本文件相关的权利要求书的广泛范畴有限定作用的任何上述文件除外。举例来说，如果在描述、定义和/或与任何所结合的材料相关联的术语的使用和与本文件相关联的术语之间存在任何不一致或冲突，则描述、定义和/或在本文件中使用的术语以本文件为准。

最后，应当理解的是，本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此，作为示例而非限制，本申请实施例的替代配置可视为与本申请的教导一致。相应地，本申请的实施例不仅限于本申请明确介绍和描述的实施例。

Claims

1.一种基于语义分割获得图像的实例分割或全景分割的系统，所述系统包括：

存储介质，存储指令集；以及

处理器，与所述存储介质通信以执行所述指令集以：

使用经过训练的语义分割模型对输入图像进行语义分割，以获得具有特定类别集的语义标签图；

基于获得的与所述输入图像连接的所述语义标签图，使用经过训练的生成器生成边界图；以及

使用后处理步骤处理所述边界图，以区分所述特定类别集的对象，以获得所述输入图像的所述实例分割或所述全景分割。

2.根据权利要求1所述的系统，其中所述经过训练的语义分割模型是DeepLabv3+。

3.根据权利要求1所述的系统，其中所述经过训练的语义分割模型是密集预测单元(Dense Prediction Cell，DPC)。

4.根据权利要求1-3中任一项所述的系统，其中所述经过训练的生成器包括与深度监督以及加权融合层相结合的条件生成式对抗网络(Generative Adversarial Networks，GANs)。

5.根据权利要求1-4中任一项所述的系统，其中所述系统能够实时获得所述实例分割或所述全景分割。

6.根据权利要求1-5中任一项所述的系统，其中所述后处理步骤包括对所述语义标签图的每个封闭区域执行广度优先搜索，以获得所述每个封闭区域的掩码，所述掩码的类别基于其语义标签图确定。

7.根据权利要求1-5中任一项所述的系统，其中所述指令集进一步指示所述处理器为thing类别和stuff类别中的至少一个生成掩码。

8.根据权利要求1-7中任一项所述的系统，还包括鉴别器，所述鉴别器与生成器进行极小极大博弈，以形成所述经过训练的生成器，所述鉴别器区分由所述经过训练的生成器生成的边界图和对应的地面实况边界图。

9.一种在计算设备上基于语义分割获得图像的实例分割或全景分割的方法，所述计算设备包括存储指令集的存储介质和与所述存储介质通信以执行所述指令集的处理器，所述方法包括：

使用后处理步骤处理所述边界图，以区分所述特定类别集的对象，以获得所述图像的所述实例分割或所述全景分割。

10.根据权利要求9所述的方法，其中，所述经过训练的语义分割模型是DPC。

11.根据权利要求9或10所述的方法，其中，所述经过训练的生成器包括与深度监督以及加权融合层相结合的条件生成式对抗网络(GANs)。

12.根据权利要求9-11中任一项所述的方法，其中所述实例分割或所述全景分割被实时获得。

13.根据权利要求9-12中任一项所述的方法，其中所述后处理步骤包括：对所述语义标签图的每个封闭区域执行广度优先搜索，以获得所述每个封闭区域的掩码，所述掩码的类别基于其语义标签图确定。

14.根据权利要求9-12中任一项所述的方法，还包括为thing类别和stuff类别中的至少一个生成掩码。

15.根据权利要求9-14中任一项所述的方法，进一步包括使用鉴别器区分由所述经过训练的生成器生成的边界图和对应的地面实况边界图，以与生成器进行极小极大博弈，以形成所述经过训练的生成器。

16.一种非暂时性可读介质，存储用于基于语义分割获得图像的实例分割或全景分割的指令集，当所述指令集由电子设备的处理器执行时，所述电子设备执行方法，包括：

基于获得的与所述输入图像连接的语义标签图，使用经过训练的生成器生成边界图；以及

使用后处理步骤处理所述边界图，以区分所述特定类集的对象，以获得所述图像的所述实例分割或所述全景分割，

其中所述实例分割或所述全景分割被实时获得。

17.根据权利要求16所述的介质，其中所述经过训练的语义分割模型是DPC，所述经过训练的生成器包括与深度监督以及加权融合层相结合的条件生成式对抗网络(GANs)。

18.根据权利要求16和17所述的介质，其中所述后处理步骤包括：对所述语义标签图的每个封闭区域执行广度优先搜索，以获得所述每个封闭区域的掩码，所述掩码的类别基于其语义标签图来确定。

19.根据权利要求16-18中任一项所述的介质，进一步包括为thing类别和sthff类别中的至少一个生成掩码。

20.根据权利要求16-19中任一项所述的介质，还包括使用鉴别器区分由所述经过训练的生成器生成的边界图和对应的面实况边界图，以与生成器进行极小极大博弈，以形成所述经过训练的生成器。