CN113056769B

CN113056769B - 利用软交叉熵损失的语义分段

Info

Publication number: CN113056769B
Application number: CN201980073301.8A
Authority: CN
Inventors: 儿嶋环
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2018-11-12
Filing date: 2019-10-10
Publication date: 2024-03-22
Anticipated expiration: 2039-10-10
Also published as: US11188799B2; CN113056769A; KR102529574B1; EP3861526A1; US20200151497A1; JP7218805B2; KR20210066889A; WO2020099957A1; JP2022518322A

Abstract

提供了一种用于利用软交叉熵损失进行语义分段的系统和方法。该系统将第一彩色图像输入到用于多类分类任务的语义分段网络的输入层。语义分段网络基于输入的第一彩色图像以辅助步幅生成第一特征图，作为语义分段网络的辅助层的输出。该系统从辅助层提取生成的第一特征图，并基于提取出的第一特征图将概率图计算为多类分类任务的类集合上的软标签的集合。该系统还针对辅助步幅计算该计算出的概率图与地面真实概率图之间的辅助交叉熵损失，并基于计算出的辅助交叉熵损失来训练用于多类分类任务的语义分段网络。

Description

利用软交叉熵损失的语义分段

相关申请的交叉引用/通过引用合并

本申请要求于2018年11月12日提交的美国临时专利申请序列No.62/758,781的优先权，其全部内容通过引用并入本文。

技术领域

本公开的各种实施例涉及机器学习和计算机视觉。更具体而言，本公开的各种实施例涉及用于利用软交叉熵损失进行语义分段的系统和方法。

背景技术

语义分段是场景理解的关键组成部分之一，这是将语义标签指派给各个像素的任务。自主移动代理的应用领域非常广泛，诸如自动驾驶汽车、无人机和娱乐机器人、以及增强现实设备和监控。这些应用领域要求高效的推理速度和处理高分辨率图像的能力。语义分段的最新进展显示出在视觉感知任务中的重大进展。但是，获得能够在资源受限的计算环境(尤其是以有限的存储器和计算资源操作的移动环境)中运行高分辨率图像的高效的多合一模型仍然是个挑战。为了在高分辨率图像上获得期望级别的分类准确度，用于语义分段的常规模型创建大参数尺寸并在训练时间期间占用显著大量存储器，这对于像自主车辆这样的移动训练环境不太有用。

如本申请的其余部分以及参考附图所阐述的，通过将所描述的系统与本公开的一些方面进行比较，常规和传统方法的其它限制和缺点对于本领域技术人员将变得明显。

发明内容

如在权利要求中更完整阐述的，基本如至少一个图所示和/或结合至少一个图所描述的，提供了用于利用软交叉熵损失进行语义分段的系统和方法。

可以通过阅读以下对本公开的详细描述以及附图来理解本公开的这些和其它特征以及优点，在附图中，相同的参考标记始终表示相同的部分。

附图说明

图1是图示根据本公开的实施例的用于对输入的图像帧进行语义分段的环境的图。

图2是根据本公开的实施例的用于对输入的图像帧进行语义分段的示例性系统的框图。

图3是根据本公开的实施例的用于对输入的图像帧进行语义分段的示例性电子设备的框图。

图4是图示根据本公开的实施例的用于训练用于多类分类任务的语义分段网络的示例性操作的图。

图5A是图示根据本公开的实施例的语义分段网络的示例性体系架构的图。

图5B、5C和5D是图示根据本公开的实施例的图5A的示例性体系架构中的分支块和上采样层的图。

图6是图示根据本公开的实施例的语义分段网络的另一个示例性体系架构的图。

图7是图示根据本公开的实施例的在图3的电子设备上的图4的语义分段网络的示例性实施方式的图。

图8是图示根据本公开的实施例的用于利用软交叉熵损失进行语义分段的示例性方法的流程图。

具体实施方式

可以在所公开的用于利用软交叉熵损失进行语义分段的系统和方法中找到以下描述的实施方式。本公开的示例性方面提供了一种系统，该系统训练语义分段网络以适合于实时推理，同时维持语义分段网络的分类准确度和紧凑性之间的平衡。所公开的系统利用软交叉熵(CE)损失作为辅助损失来规范化语义分段网络的训练并减少训练时间期间的存储器使用情况。与用于分类任务的常规硬标签指派相反，所公开的系统在每个辅助步幅(stride)上生成软指派的标签作为概率分布，并且在软目标上应用交叉熵作为辅助损失函数。在此，软指派可以不同于典型的硬指派，在典型的硬指派中，将二进制值之一(0或1)指派给特征图的每个值。在软指派中，每个软指派的标签是0和1之间的浮点值，并为特征图的相应值编码类概率。所有软指派的标签都可以被称为在多类分类任务的类集合上的概率图或概率分布。

通过使用Soft-CE损失作为辅助损失，可以在训练时间期间大幅减少用于梯度计算的存储器使用情况。由于Soft-CE辅助损失节省存储器，因此甚至可以提供高分辨率图像作为训练语义分段网络的输入。这可以有助于获得高分辨率的语义分段的图像，尤其是当常规方法尝试裁剪输入的图像以在批尺寸与存储器空间之间保持平衡时。Soft-CE损失的使用可以避免按比例放大可能被要求将梯度存储在高分辨率空间中的分数图的需要，从而可以利用更多可用的辅助损失步幅来确保轻量级的存储器使用情况。此外，Soft-CE损失的使用可以避免将标签下采样到具有最近邻的辅助步幅的需要，从而可以防止语义上下文信息的损失。语义分段网络的轻量级训练可以产生多合一模型，该模型能够在高分辨率图像输入上运行并且适合于实时推理和多类分类任务，尤其是将语义分段和实例分段组合在一起的全景分段任务。

图1是图示根据本公开的实施例的用于对输入的图像帧进行语义分段的环境的图。参考图1，示出了环境100。环境100包括系统102、图像捕获设备104、电子设备106和通信网络108。系统102可以经由通信网络108通信地耦合到图像捕获设备104和电子设备106。系统102可以包括语义分段网络110，例如，作为存储在系统102的存储器中的应用的一部分。

系统102可以包括合适的逻辑、电路系统、接口和/或代码，其可以被配置为训练语义分段网络110以进行多类分类任务。一旦经过训练，语义分段网络110就可以将输入的图像帧的每个像素分类为多类分类任务的类集合中的一类。此外，语义分段网络110一旦经过训练就可以可部署用于可能要求语义分段的图像帧来采取动作或生成实时或近实时推理的应用。举例来说，可以通过使用本领域技术人员众所周知的几种技术将系统102实现为多个基于分布式云的资源。系统102的实施方式的其它示例可以包括但不限于车载电子控制单元(ECU)、车载服务器、web/云服务器、应用服务器、媒体服务器、消费电子(CE)设备、相机和车辆。

图像捕获设备104可以包括合适的逻辑、电路系统、接口和/或代码，其可以被配置为捕获图像捕获设备104的视场(FOV)区域的彩色图像帧序列。捕获的彩色图像帧序列可以被用于例如训练语义分段网络110，或者在测试环境中(例如，用于基准测试)或在特定于应用的部署(例如，与自动驾驶车辆相关的应用)中用作经训练的语义分段网络110的输入。

通过示例而非限制的方式，图像捕获设备104可以具有合适的光学仪器，诸如透镜和用于透镜的致动器，以聚焦在场景和/或场景中感兴趣物体上。图像捕获设备104的实施方式的示例可以包括但不限于数码相机、车辆相机、摄像机、数字单镜反光(DSLR)相机、专业摄像机和行车记录仪。虽然在图1中系统102和图像捕获设备104被示为两个单独的实体，但是本公开不限于此。因而，在一些实施例中，图像捕获设备104的整个功能可以包括在系统102中，而不背离本公开的范围。

电子设备106可以包括适当的逻辑、电路系统、接口和/或代码，其可以被配置为部署语义分段网络110，作为可以使用语义分段网络110的输出来生成实时或近实时推理、做出决定或输出预测结果的应用引擎的一部分。一旦在系统102上针对多类分类任务训练了语义分段网络110，就可以将语义分段网络110部署在电子设备106上。

电子设备106的功能可以在诸如高速计算设备或相机之类的便携式设备和/或诸如服务器之类的非便携式设备中实现。电子设备106的示例可以包括但不限于车载ECU、车辆相机、数码相机、数码摄录机、相机电话、智能电话、虚拟现实设备、游戏控制台、移动设备或硬件视频播放器。电子设备106的其它示例可以包括但不限于电视、家庭娱乐系统、增强现实设备和智能可穿戴设备(诸如智能眼镜)。

通信网络108可以包括通信介质，系统102、图像捕获设备104和电子设备106可以通过该通信介质彼此通信。通信网络108的示例可以包括但不限于互联网、云网络、无线保真(Wi-Fi)网络、个人局域网(PAN)、局域网(LAN)或城域网(MAN)。根据各种有线和无线通信协议，环境100中的各种设备可以被配置为连接到通信网络108。这种有线和无线通信协议的示例可以包括但不限于传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、文件传输协议(FTP)、Zig Bee、EDGE、IEEE 802.11、光保真(Li-Fi)、802.16、IEEE 802.11s、IEEE 802.11g、多跳通信、无线接入点(AP)、设备到设备通信、蜂窝通信协议和蓝牙(BT)通信协议。

语义分段网络110可以是具有编码器-解码器体系架构的多级神经网络(NN)。语义分段网络110可以包括编码器网络112。编码器网络112可以包括可以将输入的彩色图像中的场景的空间和语义上下文信息编码成特征图的多个NN层112a…112n。编码器网络112可以以初始步幅处接收输入的彩色图像，并且可以以可以是初始步幅的倍数的第一步幅输出特征图。在本文中，步幅可以指输出步幅，其表示特征图的尺寸相对于输入的彩色图像的尺寸的比率。例如，以初始步幅1向编码器网络112提供分辨率为1024×1024像素的输入的彩色图像。以32的步幅，编码器网络112可以输出针对输入的彩色图像的特征图。特征图可以编码输入的彩色图像中的空间和语义上下文信息。以32的步幅，特征图的尺寸可以是输入的彩色图像的尺寸的1/32(即，1/32)。

语义分段网络110还可以包括解码器网络114，其可以连接到编码器网络112的输出端112n。解码器网络114可以以第一步幅从编码器网络112的输出端112n接收特征图作为输入，并且可以以初始步幅输出回去最终分数图。具体而言，解码器网络114可以将特征图上采样回到初始步幅，使得最终分数图的尺寸与输入的彩色图像的尺寸相同。在这一点上，输入的彩色图像中的每个像素与最终分数图中的分数值对应。解码器网络114可以包括可以对输出特征图进行解码以输出最终分数图的多个NN层114a…114n。最终分数图可以包括基于多类分类任务的不同类针对输入的彩色图像的每个像素的分数。

语义分段网络110可以被称为计算网络或人工神经元的系统，其中语义分段网络110的每个NN层包括人工神经元作为节点。语义分段网络110中所有节点的输出端可以耦合到语义分段网络110的(一个或多个)前或后NN层的至少一个节点。类似地，语义分段网络110中所有节点的输入端可以耦合到语义分段网络110的(一个或多个)前或后NN层的至少一个节点。语义分段网络110的最终层中的(一个或多个)节点可以从至少一个先前层接收输入。可以根据语义分段网络110的超参数来确定NN层的数量和每个NN层中的节点的数量。可以在彩色图像帧的训练数据集上训练语义分段网络110之前或同时设置这样的超参数。

语义分段网络110中的每个节点可以与具有参数集的数学函数对应，这些参数在训练语义分段网络110时是可调的。这些参数可以包括例如权重参数、规范化参数等。每个节点可以使用数学函数基于来自语义分段网络110的(一个或多个)其它层(例如，(一个或多个)先前层)中节点的一个或多个输入来计算输出。

语义分段网络110可以包括电子数据，诸如例如软件程序、软件程序的代码、库、应用、脚本或其它逻辑/指令，以供诸如系统102和电子设备106之类的处理设备执行。附加地，或可替代地，可以使用硬件来实现语义分段网络110，所述硬件诸如处理器、微处理器(例如，以执行或控制一个或多个操作的执行)、现场可编程门阵列(FPGA)或专用集成电路(ASIC)。在一些实施例中，可以使用硬件和软件程序两者的组合来实现语义分段网络110。

在操作中，可以对过程进行初始化以对语义分段网络110进行多类分类任务(例如，语义或全景图像分段)的训练。在训练语义分段网络110时，可以更新用于语义分段网络110的每个节点的参数集中的一个或多个。一些训练方法的示例可以包括但不限于梯度下降、随机梯度下降、批量梯度下降、梯度提升、Adam和元启发法。

作为该过程的一部分，系统102可以将第一彩色图像输入到语义分段网络110的输入层112a。举例来说，可以对语义分段网络110进行训练以理解用于不同复杂情况下的自主车辆控制的场景的复杂语义结构。其中一种复杂情况可以与在道路上寻找可驾驶区域或在人行道、地形、障碍物、其它汽车、墙壁、电线杆等之间进行区分的任务相关。

语义分段网络110可以包括例如分开的路径，以从输入的第一彩色图像提取空间信息和语义上下文信息。在语义分段网络110生成最终分数图之前，空间信息和上下文信息两者可以随后被融合。以辅助步幅，基于输入的第一彩色图像，语义分段网络110可以生成第一特征图作为语义分段网络110的辅助层116的输出。系统102然后可以从辅助层116提取生成的第一特征图，并且基于提取出的第一特征图，将概率图计算为在多类分类任务的类集合上的软标签集合。与包括二进制数字(0和1)作为类标签的硬指派标签相反，这些软标签集合可以包括表示0和1之间的概率值的浮点数。

通常，可以要求将提取出的第一特征图上采样到输入的第一彩色图像的原始步幅，并使用辅助交叉熵(CE)损失，以便保留以原始步幅存储的所有语义上下文信息。但是，如果按比例放大提取出的第一特征图，那么可以要求将梯度存储在高分辨率空间中，这对于训练而言可能不是存储器高效的并且会限制使用辅助CE损失的步幅的数量。另一方面，如果最终分数图被下采样到辅助步幅，那么语义上下文信息的一部分会丢失。为了解决以上问题，系统102可以以辅助步幅计算该计算出的概率图与地面真实概率图之间的辅助CE损失(也称为软CE损失)。辅助CE损失可以被计算为训练语义分段网络110的过程的一部分，并且可以帮助以原始步幅保留被存储在输入的第一彩色图像中的所有语义上下文信息。系统102然后可以基于计算出的辅助交叉熵损失来训练语义分段网络110以用于多类分类任务。

此外，或可替代地，系统102可以从语义分段网络110的输出层114n提取最终分数图，并基于提取出的最终分数图来计算最终交叉熵损失。最终分数图可以与语义分段网络110的针对输入的彩色图像的输出对应。计算出的最终交叉熵损失可以是例如直方图加权的soft-max交叉熵损失。系统102可以基于计算出的辅助交叉熵损失和计算出的最终交叉熵损失来估计语义分段网络110的全局损失度量。可以基于估计出的全局损失度量来训练语义分段网络110。更具体而言，语义分段网络110的训练可以对应于更新针对语义分段网络110的不同层的权重，直到估计出的全局损失度量最小为止。

一旦经过训练，语义分段网络110就也可以被称为经训练的语义分段网络110，准备好被部署在合适的设备上。在训练之后，可能不需要执行与概率图的计算和辅助CE损失的计算相关的操作，并且可以仅使用语义分段网络110生成彩色图像的分类结果作为语义分段网络110的输入。系统102可以将经训练的语义分段网络110部署在其自己的网络上并且用于其自己的应用。附加地，或可替代地，系统102可以在其它外部设备(诸如电子设备106)上部署经训练的语义分段网络。

例如，在本文中描述使用经训练的语义分段网络110进行语义图像分段的示例性场景。系统102可以将第二彩色图像输入到经训练的语义分段网络110，然后从经训练的语义分段网络110的输出层114n提取针对输入的第二彩色图像的每个像素的分类结果。作为示例而非限制，分类结果可以包括类的最大分数索引。换句话说，对于第二彩色图像的每个像素，最大评分索引可以表示(分类任务的类ID集合/标签集合中的)最终类ID，其对于相应像素具有最大分数(概率)。由于经训练的语义分段网络110本身可以输出用于第二彩色图像的概率图，因此可以基于类的最大评分索引的计算来获得分类结果。例如，经训练的语义分段网络110的输出可以由体积张量(以[num_class×高度×宽度]为单位)表示。为了获得2D的最终的类ID图或最终分数图，可能需要将输出重整为输入的彩色图像的尺寸(即，高度×宽度(以像素为单位))，其中每个像素被指派给某个类ID和颜色值。为此，系统102可以在体积张量上应用argmax运算以提取类通道的最大评分索引。

基于分类结果，系统102可以生成语义上分段的图像，其包括填充有对应的颜色集合的区域集合。区域集合中的每个区域与类集合中的特定类对应。例如，对于城市街道图像作为输入，语义上分段的图像可以包括不同的区域，其相应像素根据其被指派的类(例如，汽车、建筑物、道路等)被不同地着色。

图2是根据本公开的实施例的用于对输入的图像帧进行语义分段的示例性系统的框图。结合图1中的元素对图2进行解释。参考图2，示出了系统102的框图200。系统102可以包括电路系统202、存储器204、输入/输出(I/O)设备206、网络接口208、应用接口210和持久数据存储装置212。系统102还可以包括语义分段网络110，作为例如用于半自主或自主车辆中基于图像的决策的软件应用的一部分。电路系统202可以通信地耦合到存储器204、I/O设备206、网络接口208、应用接口210和持久数据存储装置212。在一个或多个实施例中，系统102还可以包括经由一个或多个图像捕获设备(例如，图像捕获设备104)捕获图像/视频的提供/功能。

电路系统202可以包括合适的逻辑、电路系统、接口和/或代码，其可以被配置为针对输入的彩色图像帧上的多类分类任务训练语义分段网络110。一旦经过训练，语义分段网络110就可以被部署在其它电子设备(例如，电子设备106)上或者被部署在系统102上，以用于实况/预捕获的视频馈送的图像帧的实时语义/全景图像分段。可以基于多种处理器技术来实现电路系统202，这些对于本领域普通技术人员来说可以是已知的。电路系统202的实施方式的示例可以是图形处理单元(GPU)、精简指令集计算(RISC)处理器、专用集成电路(ASIC)处理器、复杂指令集计算(CISC)处理器、微控制器、人工智能(AI)加速器芯片、协处理器、中央处理器(CPU)和/或其组合。

存储器204可以包括合适的逻辑、电路系统和/或接口，其可以被配置为存储可由电路系统202执行的指令。此外，存储器204可以被配置为存储语义分段网络110的程序代码和/或可以结合语义分段网络110的程序代码的软件应用。存储器204的实施方式的示例可以包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、硬盘驱动器(HDD)、固态驱动器(SSD)、CPU高速缓存和/或安全数字(SD)卡。

I/O设备206可以包括合适的逻辑、电路系统和/或接口，其可以被配置为充当用户和系统102之间的I/O接口。I/O设备206可以包括各种输入和输出设备，其可以被配置为与系统102的不同操作组件通信。I/O设备206的示例可以包括但不限于触摸屏、键盘、鼠标、操纵杆、麦克风和显示屏。

网络接口208可以包括合适的逻辑、电路系统、接口和/或代码，其可以被配置为促进系统102的不同组件经由通信网络108与环境100中的其它设备(诸如电子设备106)通信。网络接口208可以被配置为实现已知技术以支持有线或无线通信。网络接口208的组件可以包括但不限于天线、射频(RF)收发器、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、编码器-解码器(CODEC)芯片组、身份模块和/或本地缓冲区。

网络接口208可以被配置为经由离线和在线无线通信与诸如互联网、内联网和/或无线网络(诸如蜂窝电话网络、无线局域网(WLAN)、个人局域网和/或城域网(MAN))通信。无线通信可以使用多种通信标准、协议和技术中的任何一种，诸如全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、宽带码分多址(W-CDMA)、码分多址(CDMA)、LTE、时分多址(TDMA)、蓝牙、无线保真(Wi-Fi)(例如，IEEE 802.11、IEEE 802.11b、IEEE 802.11g、IEEE802.11n和/或任何其它IEEE 802.11协议)、互联网协议语音(VoIP)、Wi-MAX、物联网(IoT)技术、机器类型通信(MTC)技术，用于电子邮件、即时消息和/或短消息服务(SMS)的协议。

应用接口210可以被配置为供用户与系统102交互的媒介。应用接口210可以被配置为具有动态接口，该动态接口可以根据用户设置的偏好和系统102的配置而改变。在一些实施例中，应用接口210可以与安装在系统102上的一个或多个应用的用户接口对应。

持久数据存储装置212可以包括合适的逻辑、电路系统和/或接口，其可以被配置为存储可由电路系统202执行的程序指令、操作系统和/或特定于应用的信息(诸如日志和特定于应用的数据库)。持久数据存储装置212可以包括计算机可读存储介质，用于携带或具有存储在其上的计算机可执行指令或数据结构。这样的计算机可读存储介质可以包括可由通用或专用计算机(诸如电路系统202)访问的任何可用介质。

通过示例而非限制的方式，此类计算机可读存储介质可以包括有形或非暂态计算机可读存储介质，包括但不限于光盘只读存储器(CD-ROM)或其它光盘存储装置、磁盘存储装置或其它磁性存储设备(例如，硬盘驱动器(HDD))、闪存设备(例如，固态驱动器(SSD)、安全数字(SD)卡、其它固态存储器设备)，或可以被用于以计算机可执行指令或数据结构的形式携带或存储特定程序代码并且可以由通用或专用计算机访问的任何其它存储介质。上述的组合也可以包括在计算机可读存储介质的范围内。

计算机可执行指令可以包括例如被配置为使电路系统202执行与系统102相关联的特定操作或操作集的指令和数据。如图1中所描述的，由系统102执行的功能或操作可以由电路系统202执行。电路系统202的操作例如在图4、5A、5B、5C和5D中详细描述。

图3是根据本公开的实施例的用于对输入的图像帧进行语义分段的示例性电子设备的框图。参考图3，示出了电子设备106的框图300。电子设备106可以包括电路系统302、存储器304、I/O设备306、网络接口308和应用接口310。语义分段网络110一旦经过训练就可以被部署在电子设备106上，作为例如用于半自主或自主车辆的另一个软件应用的一部分。电路系统302可以通信地耦合到存储器304、I/O设备306、网络接口308和应用接口310。在至少一个实施例中，电子设备106还可以包括经由一个或多个图像捕获设备(例如，图像捕获设备104)捕获图像/视频的提供/功能。

电路系统302可以包括合适的逻辑、电路系统、接口和/或代码，其可以被配置为在针对输入的彩色图像帧(例如，来自实况视频馈送)上的多类分类任务训练语义分段网络110之后实现语义分段网络110。可以基于多种处理器技术来实现电路系统302，这对于本领域普通技术人员来说是已知的。电路系统302的示例性实施方式可以是车载ECU的(一个或多个)处理器。电路系统302的另外的示例实施方式可以是图形处理单元(GPU)、精简指令集计算(RISC)处理器、专用集成电路(ASIC)处理器、复杂指令集计算(CISC)处理器、微控制器、人工智能(AI)加速器芯片、协处理器、中央处理器(CPU)和/或其组合。

存储器304可以包括合适的逻辑、电路系统和/或接口，其可以被配置为存储可由电路系统302执行的指令。此外，存储器304可以被配置为存储基于语义分段网络110的(一个或多个)辅助层的辅助交叉熵(CE)损失而预训练的语义分段网络110。存储器304还可以存储语义分段网络110的程序代码和/或可以结合语义分段网络110的程序代码的软件应用。存储器304的实施方式的示例可以包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、硬盘驱动器(HDD)、固态驱动器(SSD)、CPU高速缓存和/或安全数字(SD)卡。

I/O设备306可以包括合适的逻辑、电路系统和/或接口，其可以被配置为充当用户和电子设备106之间的I/O接口。I/O设备306可以包括各种输入和输出设备，其可以被配置为与电子设备106的不同操作组件通信。I/O设备306的示例可以包括但不限于触摸屏、键盘、鼠标、操纵杆、麦克风和显示屏。

网络接口308可以包括合适的逻辑、电路系统、接口和/或代码，其可以被配置为促进电子设备106的不同组件经由通信网络108与环境100中的其它设备通信。网络接口308可以被配置为实现已知技术以支持有线或无线通信。网络接口308的组件可以包括但不限于天线、射频(RF)收发器、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、编码器-解码器(CODEC)芯片组、身份模块和/或本地缓冲区。

网络接口308可以被配置为经由离线和在线无线通信与诸如互联网、内联网和/或无线网络(诸如蜂窝电话网络、无线局域网(WLAN)、个人局域网和/或城域网(MAN))通信。无线通信可以使用多种通信标准、协议和技术中的任何一种，诸诸如全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、宽带码分多址(W-CDMA)、码分多址(CDMA)、LTE、时分多址(TDMA)、蓝牙、无线保真(Wi-Fi)(例如，IEEE 802.11、IEEE 802.11b、IEEE 802.11g、IEEE802.11n和/或任何其它IEEE 802.11协议)、互联网协议语音(VoIP)、Wi-MAX、物联网(IoT)技术、机器类型通信(MTC)技术，用于电子邮件、即时消息和/或短消息服务(SMS)的协议。

应用接口310可以被配置为供用户与电子设备106交互的媒介。应用接口310可以被配置为具有动态接口，该动态接口可以根据用户设置的偏好和电子设备106的配置而改变。在一些实施例中，应用接口310可以与安装在电子设备106上的一个或多个应用的用户接口对应。例如，应用接口可以被显示在自动驾驶车辆的多信息显示器(MID)上，并且可以允许用户可视化由电子设备106处理的信息。如图1中所示，由电子设备106执行的功能或操作可以由电路系统302执行。电路系统302的操作例如在图7中详细描述。

图4是图示根据本公开的实施例的用于训练用于多类分类任务的语义分段网络的示例性操作的图。结合图1、图2和图3中的元素来解释图4。参考图4，示出了图示如本文所述用于训练用于多类分类任务的语义分段网络402的操作集合的图400。在本文中，多类分类任务可以是用于输入的图像帧的语义分段的密集分类任务和将类别标签指派给输入的图像帧的各个像素的任务。语义分段网络402可以与图1的语义分段网络402对应，并且可以例如在具有多级的全卷积网络(FCN)体系架构上建模。以下从404到418的示例性操作强调语义分段网络402的训练过程的细节。以下示例性操作还示例了在语义分段网络402的训练中以辅助步幅的辅助损失(例如，在用于语义分段网络402的辅助层的特征图的被软指派的标签上的辅助交叉熵损失)的应用。

在404处，可以执行数据获取操作。在数据获取操作中，电路系统202可以获取可以包括彩色图像序列的训练数据集。训练数据集的示例可以是城市街道图像的数据集，其可以被用于训练深度神经网络以进行语义图像分段、理解城市街道场景，以及对经训练的深度神经网络的相对性能和准确性进行基准测试。如图所示，例如，训练数据集中的彩色图像序列包括城市街道场景的第一彩色图像404a，该第一彩色图像404a可以包括城市结构和物体，诸如车辆、道路、行人、人行道、标牌和照明器材。

如本文所示，语义分段网络402可以基于编码器-解码器体系架构，并且可以包括编码器网络402a和连接到编码器网络402a的输出端的解码器网络402b。例如，在图5中提供了语义分段网络402的示例性块级体系架构。例如，在图5A、5B、5C和5D中也详细地覆盖了上面提到的层/块的细节。

电路系统202可以将第一彩色图像404a输入到用于多类分类任务(例如，语义图像分段任务)的语义分段网络402的输入层。编码器网络402a可以初始步幅接收第一彩色图像404a作为输入，并且可以输出特征图。输出的特征图可以是以第一步幅的，该第一步幅可以是初始步幅的倍数。在本文中，步幅可以指表示特征图的尺寸相对于第一彩色图像404a的尺寸的比率的输出步幅。例如，如果尺寸为2048×1024像素的第一彩色图像404a的初始步幅为“1”，那么在编码器网络402a的输出端处的步幅为32可以表示输出的特征图的尺寸为64×32(即，第一彩色图像404a的尺寸的1/32)。

电路系统202可以从语义分段网络402中选择辅助层。选择的辅助层可以与辅助步幅(例如，1和32之间)对应，以该辅助步幅，可以在训练语义分段网络402中应用辅助损失(即，辅助交叉熵(CE)损失)，从而实现最优参数尺寸和降低的存储器利用。在至少一个实施例中，可以基于语义分段网络402的性能度量从语义分段网络402的解码器网络402b中选择辅助层。例如，如表1中所示，性能度量可以基于在语义分段网络402的训练中以不同步幅计算出的参数的存储器使用情况。基于表1，辅助CE损失可以更优选，以便以[8，16，32]的步幅训练语义分段网络402，而上采样的分数上的Hard-CE损失可能仅保持在32的步幅。这可以指示辅助CE损失可以支持用于语义分段网络402的大输入尺寸。

在表1中，Soft-CE损失可以是指用于语义分段网络402的辅助层的特征图/分数图的软指派的标签(即0和1之间的概率分布)上的CE损失。Hard-CE损失是指用于语义分段网络402的辅助层的特征图/分数图的硬指派的标签(即二进制标签0和1)上的CE损失。

表1：在训练语义分段网络402时辅助损失存储器使用情况的消融研究

方法	mloU(％)
		无辅助损失	70.70
以步幅32的Hard-CE下采样	71.10
		以步幅32的Soft-CE	71.40
以步幅4、8、16、32的Soft-CE	72.60

表2：具有影响验证集性能的不同辅助损失策略的消融研究

此处应当注意的是，表1和表2中提供的数据应当仅用作实验数据，而不应当视为对本公开的限制。例如，如表2中所示，性能度量可以基于验证数据集上的％百万联合路口(IoU)。表2示出了辅助损失类型如何可以影响验证数据集上的语义分段网络402的性能。如表2中进一步所示，应用于多个辅助步幅的Soft-CE辅助损失可以执行得最好。语义分段网络402可以基于输入的第一彩色图像404a以辅助步幅生成第一特征图，作为语义分段网络402的辅助层(或(一个或多个)选择的辅助层)的输出。

在406处，可以执行特征图提取操作。在特征图提取操作中，电路系统202可以从语义分段网络402的辅助层提取生成的第一特征图。例如，基于表1和表2，可以选择步幅为[4，8，16，32]的辅助层，并且可以提取来自辅助层的相应特征图，以便可以将辅助损失应用于此类辅助层，作为语义分段网络402训练的一部分。

通常，在训练过程中，辅助损失常常被用于规范网络，以学习在大步幅特征上被编码的更好的语义上下文。但是，有许多辅助损失会消耗训练用的存储器(例如，GPU存储器)并且会将批尺寸和输入分辨率限制在有限的范围内(即，需要裁剪输入)。这也从表1中所示的数据中得到了例证。通常，在大步幅(例如，16/32)上，使用地面真实概率图来计算辅助损失。在地面真实概率图被下采样(例如，输入分辨率的1/32)的情况下，地面真实概率图的空间信息会被截断，并且丰富的空间上下文信息会损失。典型的方案可以是将辅助步幅的特征图上采样到初始步幅(即，上采样到第一彩色图像404a的输入分辨率/尺寸)并计算辅助损失，但是这会牺牲存储器。因此，代替其中特征图被指派二进制值(0或1)的硬指派，其中特征图被指派软标签(即，具有在0和1之间的浮点值的概率分布)的软指派可以是优选的。

在408处，可以执行概率图计算操作。在概率图计算操作中，电路系统202可以基于提取出的第一特征图将概率图计算为多类分类任务的类集合上的软标签集合。软标签集合可以包括0和1之间的浮点值，并且可以表示在多类分类任务的类集合上的概率分布。例如，对于从语义分段网络402的辅助层提取出的第一特征图中的每个值，可以计算并指派相应的软标签。相应地软标签可以是具有0和1的浮点值，并且可以表示类集合(例如，类0，1…24)中的特定类(例如，类ID)。例如，在表3中提供了用于城市街道场景的8个类和8个类ID的列表。

/>

表3：城市街道场景的类和类ID

软指派可以与典型的硬指派不同，后者将二进制值之一指派给特征图的每个值。具有用于辅助步幅的所有软标签的所得矩阵可以被称为在多类分类任务的类集合上的概率图或概率分布。

在可以计算辅助损失之前，电路系统202还可以以辅助步幅将地面真实概率图408a计算为类集合上的多标签概率分布。获得以辅助步幅的地面真实概率图408a的常规方法可以是将初始步幅(例如，1)的地面真实图下采样到辅助步幅(例如，32)。但是，它可能截断最初存在于第一彩色图像404a中的空间信息，并且这种丰富的空间上下文信息会损失。因此，可以基于语义分段网络402的在辅助层之前的一层或多层的概率图来计算地面真实概率图408a。例如，可以平均池化辅助层之前的一个或多个层的概率图，以生成地面真实概率图408a。类似于用于辅助层的概率图，地面真实概率图408a也可以包括软标签，并且地面真实概率的尺寸可以与针对该辅助步幅的概率图的尺寸相同。

在410处，可以执行辅助损失计算操作。在辅助损失计算操作中，电路系统202可以计算以辅助步幅计算的概率图与以辅助步幅计算的地面真实概率图408a之间的辅助CE损失。在本文中，辅助CE损失也可以被称为Soft-CE损失，以便将该术语与具有硬标签指派的CE损失(Hard-CE)区分开来，这通常是分类任务的情况。例如，可以通过等式(1)给出soft-CE损失，如下所示：

其中q_i,c∈Q_j是由辅助层生成的概率图，

p_i,c∈P_j是以步幅j的平均池化的地面真实概率图，c∈K是类，i∈N是以该步幅的像素。

使用等式(1)进行的计算可以等同于对成本量p、q进行Kullback-Leibler(KL)发散，其中q对步幅内驻留的类间概率进行编码。在此应当注意的是，每个p_i,c可以不是独热(one-hot)二进制图。即使对于大步幅，Soft-CE损失也可以学习位于每个步幅之间的语义上下文信息。以步幅1的概率图可以通过标签的独热编码制成，然后平均池化到每个辅助步幅。在池化之后，概率图可以包含可以被用于计算Soft-CE损失的多标签分布。这样，可以在训练语义分段网络402的同时以存储器高效的方式保留空间和语义上下文信息。通过应用Soft-CE损失，梯度计算可以在训练时间期间充分利用更少的存储器。由于Soft-CE损失可以是存储器高效的，因此有可能提供具有大尺寸(例如，2048像素×1024像素)的图像作为训练语义分段网络402的输入。相反，许多常规训练方法试图裁剪输入的图像，以在批尺寸与存储器空间之间保持平衡。而且，参考表1和表2，使用Soft-CE损失可以帮助抑制存储器使用情况，尤其是对于在语义分段网络402的训练中的反向传播方法(例如，具有减少的尺寸的梯度参数)。而且，在语义分段网络402的训练中，soft-CE损失可以允许具有较大输入分辨率(例如，高清晰度(HD)、全高清或4K分辨率)的输入并且允许较大的最小批尺寸，这导致更好的IoU性能。

在412处，可以执行最终分数图提取。在最终分数图提取中，电路系统202可以从语义分段网络402的输出层提取最终分数图。最终分数图可以与语义分段网络402的针对输入的第一彩色图像404a的输出对应，并且可以由解码器网络402b以编码器网络402a的初始步幅生成。

在至少一个实施例中，可以由解码器网络402b的评分层(例如，图5A的评分层526或图6的评分层622)计算以辅助步幅(例如，“4”)的初始分数图。在这种情况下，评分层可以在语义分段网络402的输出层之前。由于初始分数图的尺寸小于输入地彩色图像(即，第一彩色图像404a)的尺寸；因此，对于逐像素分类，需要将初始分数图上采样到初始步幅(例如，1)。因此，在输出层处，解码器网络402b可以以比如说“1”的初始步幅将初始分数图上采样到最终分数图。

通过示例而非限制的方式，解码器网络402b可以以第一步幅(例如，32)接收来自编码器网络402a的特征图，并可以以初始步幅(例如，1)将最终分数图输出回去。在本文中，最终分数图的分辨率可以与作为输入提供给语义分段网络402的第一彩色图像404a的分辨率相同。换句话说，对于第一彩色图像404a中的每个像素，对应的分数值可以存在于最终分数图中。

在414处，可以执行最终损失计算。在最终损失计算中，电路系统202可以基于提取出的最终分数图来计算最终CE损失。最终CE损失可以是例如在以初始步幅(即，1)的提取出的最终分数图与地面真实概率图之间计算出的直方图加权soft-max交叉熵损失。

在416处，可以执行全局损失度量估计。在全局损失度量估计中，电路系统202可以基于计算出的辅助交叉熵损失和计算出的最终交叉熵损失来估计语义分段网络402的全局损失度量。例如，为了训练语义分段网络402，可以使用等式(2)来估计作为混合损失函数的值的全局损失度量，如下：

其中L可以是混合损失函数，

L_Hard-CE可以是在412处在最终分数图上计算出的直方图加权Soft-max CE损失，

L_Soft-CEj可以是在每个辅助步幅上的辅助损失(在410)，并且α可以是线性组合的系数参数。

在418处，可以执行网络训练操作。在网络训练操作中，电路系统202可以基于辅助CE损失(在410处估计的)训练用于多分类任务的语义分段网络402。此外，在某些实施例中，可以基于估计出的全局损失度量来进一步训练语义分段网络402。例如，在语义分段网络402的训练中，可以迭代地更新语义分段网络402的不同层中的节点/神经元的权重，直到估计出的全局损失度量最小为止。这可以意味着可以迭代地计算辅助CE损失和最终CE损失两者，并且可以基于合适的优化方法来更新权重。例如，可以使用具有beta＝[0.9，0.999]和初始学习率为1e^3、最小批尺寸为18的Adam优化方法。此外，可以使用每50个时代(epoch)0.5的逐步学习速率衰减因子。

与常规的基于FCN的网络相反，语义分段网络402一旦经过训练就可以在语义分段网络402的输出中提供降低的计算复杂度，降低的参数尺寸以及输入的图像帧的语义上下文和空间上下文之间的平衡。相比之下，常规的基于FCN的网络具有更高的计算复杂度(例如，就千兆浮点运算(GFLOPS)或百万IoU而言)，由于训练中梯度计算的数量更多而具有更大的参数尺寸，并且在常规的语义分段网络的更深层中具有语义上下文和空间上下文的更大损失。一旦经过训练，语义分段网络402就可以适合于理解彩色图像中捕获的场景的复杂语义结构并且尤其是对于那些使用语义分段网络402的输出来在复杂情况下产生实时推理并做出合适决定的应用。例如，实时应用之一可以与自动驾驶车辆(SDV)相关。SDV可以部署经训练的语义分段网络402并将周围环境的实时视频馈送提供给已部署的语义分段网络402，以了解多种情况下进行自主控制的场景。所部署的语义分段网络402的输出可以被用于识别可驾驶区域(占用图)或在人行道、地形、障碍物、行人、其它车辆、墙壁、电线杆等之间进行区分。虽然在图4中描述了从404到418的离散操作，但是本公开可以不限于此。因而，在某些实施例中，取决于特定的实施方式，在不背离所公开的实施例的本质的情况下，可以将这种离散操作进一步划分为附加的操作、组合为较少的操作或消除。

在训练之后，可能不需要执行与概率图的计算(在408处)和辅助CE损失的计算(在410处)相关的操作，因此可以在部署经训练的语义分段网络402时修剪掉该操作集合。在这样的情况下，可以仅使用经训练的语义分段网络402来生成彩色图像的分类结果，作为到经训练的语义分段网络402的输入。

图5A是图示根据本公开的实施例的语义分段网络的示例性体系架构的图。参考图5，示出了语义分段网络500的示例性体系架构。语义分段网络500可以是图1的语义分段网络500和图4的语义分段网络402的示例。

在示例性体系架构中，示出了输入层502、卷积层504、包括多个骨干块的骨干层506。骨干层506之后可以是空间金字塔池化层508和1×1卷积/ReLU层510、第一上采样层512和第一池化层514。第一池化层514之后可以是ReLU6 516、1×1卷积/批归一化层518、第二上采样层520和第二池化层522。第二池化层522之后还可以是ReLU6 524、评分层526和输出层528。此外，示例性体系架构可以包括第一分支530和第二分支532。第一分支530和第二分支532都可以从骨干层506的不同块中拆分出来，并且分别在第二池化层522和第一池化层514处合并。

输入层502可以接收彩色图像作为输入，并且可以将输入传递到卷积层504。卷积层504可以包括卷积函数、ReLU和批归一化函数。卷积层504的输出可以是可以传递到骨干层506的特征图。

骨干层506的多个骨干块可以包括块1&2、块3、块4、块5、块6和块7。多个骨干块基于密集连接的卷积神经网络(下文中称为密集网)。每个骨干块可以包括至少一个密集块，该密集块包括一组卷积层，其中该组卷积层中的每个卷积层可以连接到所有先前的卷积层。而且，在每个卷积层处，可以将来自先前层的特征图进行级联。密集块还可以在一个或多个卷积层之间包括一个或多个过渡层。每个过渡层可以在骨干层506的它们各自的密集块中对来自(一个或多个)先前层的激活/特征映射进行下采样，并且可以包括合适的激活函数(例如，ReLU)和批归一化函数。

在本文中，语义分段网络500可以分支出去成空间路径534和上下文路径536。可以池化回去空间路径和上下文路径。在训练语义分段网络500的同时，空间路径534可以以语义分段网络500的每个步幅保留输入的彩色图像的空间信息。类似地，在训练语义分段网络500的同时，上下文路径536可以以每个步幅保留输入的彩色图像的语义上下文信息。

空间特征分支：块1&2的第一卷积块的输出可以沿着第一分支530被拆分以提取空间特征。在此，第一分支530可以形成语义分段网络500的空间路径534。由于第一卷积块可以倾向于学习以便从输入的彩色图像捕获基元形状信息，因此第一分支530可以例如以8的步幅提取空间特征，以便随后将第二池化层522融合在一起。

上下文提取：为了降低大部分来自输入的彩色图像的空间分辨率的计算复杂度，在将(一个或多个)特征图提供给骨干层506的第一密集块之前，密集块中的(一个或多个)过渡层可以将(一个或多个)特征图下采样到更高的步幅(例如，8)。在此，多个骨干块可以形成语义分段网络500的上下文路径536。在每个密集块内，可以将多个下采样级(即，过渡层)减少至两倍，而不是三倍，并且可以将扩张卷积应用于密集块的密集层内的特征图以增加接收场尺寸，而不牺牲参数尺寸和计算复杂度。

空间金字塔池化：空间金字塔池化层508可以采用动态空间池化方法，该方法可以在给定输入特征空间的尺寸的情况下自动地在多个尺度上对来自骨干层506的(一个或多个)输出特征图执行平均池化。例如，首先，可以执行全局平均池化，其中特征高度和宽度[h0，w0]可以等于在空间金字塔池化层508中使用的过滤器内核的尺寸[kh₀，kw₀]。全局平均池化之后可以是尺寸减小操作，其中过滤器内核的尺寸可以通过比如说0.5的因子来减小，而过滤器内核的任一侧[khj，kwj]可以等于或大于4，即，khj＝4或kwj＝4。这可以被称为动态金字塔空间池化(DPSP)。在DPSP之后，可以将来自DPSP的输出特征图提供给1×1卷积/ReLU层510，以应用1×1卷积，随后进行批归一化和ReLU功能。空间金字塔池化层508的输出可以包括输入的彩色图像的语义上下文信息。

融合和上采样：在第二池化层522处，可以将语义上下文信息(来自第二分支532和空间金字塔池化层508)融合在一起。类似地，在第一池化层514处，来自第二池化层522的语义上下文信息可以与空间信息(或来自第一分支530的空间特征)融合在一起。用于第一分支530和第二分支532的融合可以利用逐元素求和后面跟着ReLU函数来执行。在第一池化层514之前，第一上采样层512可以被用于对空间金字塔池化层508的输出进行上采样。类似地，在第二池化层522之前，第二上采样层520可以被用于进一步对第一池化层514的输出进行上采样。仅在第一分支530之后，可以将附加1×1卷积与批归一化应用于第一池化层514的输出，以将特征尺寸对准下一个步幅级别。第一上采样层512的输出特征图尺寸可以是例如168，而用于第二上采样层520的输出特征图尺寸是128。在将空间信息与语义上下文信息融合的第二池化层522之后，可以将放大到8的步幅的第二池化层522的输出特征图传递到评分层526，评分层526可以输出针对输入的彩色图像的最终分数图。

在此应当注意的是，图5中提供的示例性体系架构仅作为用于训练Soft-CE损失的示例而提供，并且不应当被解释为限制本公开的范围。所公开的用于训练语义分段网络500的操作(在图1和4中)也适用于具有编码器-解码器类型体系架构的任何任意语义分段网络。

图5B、5C和5D是图示根据本公开的实施例的图5A的示例性体系架构中的分支块和上采样层的图。结合图1、2、3、4和5A的元素来解释图5B、5C和5D。参考图5B、5C和5D，示出了图5A的语义分段网络的第一分支530、第二分支532和上采样层538。

第一分支530可以包括3×3卷积，然后是具有6的上限的批归一化/ReLU激活、1×1卷积和批归一化。在此，ReLU是指整流的线性函数。第一分支530可以提取输入的彩色图像的空间特征作为沿着语义分段网络500的空间路径534的空间信息。在语义分段网络500的整个训练持续时间内，空间路径534可以帮助保留输入的彩色图像中的空间信息。

第二分支532可以包括1×1卷积和批归一化。上采样层538可以包括双线性上采样函数、3×3逐深度卷积、1×1逐点卷积和批归一化。上采样层538可以适用于第一上采样层512和第二上采样层520两者，这两者都被用于以适当的步幅上对特征图进行按比例放大。

图6是图示根据本公开的实施例的语义分段网络的另一个示例性体系架构的图。结合图1、图2、图3、图4、图5A以及图5B、5C和5D的元素来解释图6。参考图6，示出了语义分段网络600的示例性体系架构。语义分段网络600可以是图1的语义分段网络110和图4的语义分段网络402的示例。

在示例性体系架构中，语义分段网络600可以包括编码器网络602和连接到编码器网络602的输出端的解码器网络604。编码器网络602可以包括输入层606、密集块的序列608和过渡层的序列610。编码器网络602还可以包括金字塔空间池化层612和空间路径块614。

解码器网络604可以包括上采样层616、卷积层618、池化层620、评分层622和输出层624。空间路径块614(与第一分支530相同)可以从密集块的序列608之一分支出来，并且可以利用解码器网络604的池化层620合并回去。密集块的序列608中的每个密集块可以包括第一批归一化层608a、1×1卷积层608b、第二批归一化层608c、3×3逐深度(DW)可分离卷积层608d，1×1逐点(PW)可分离卷积层608e以及级联层608f。语义分段网络的块/层的细节已经在图1和图5A、5B、5C和5D中提供，因此为了简洁起见从本公开中省略。

图7是图示根据本公开的实施例的在图3的电子设备上的图4的语义分段网络的示例性实施方式的图。结合图1、3、4、5A、5B、5C、5D和6的元素来解释图7。参考图7，示出了图示在电子设备106上的语义分段网络402的实施方式的流程图700。一旦基于图4的从404到418的操作在系统102上训练了语义分段网络402，就可以准备将语义分段网络402部署在不同的设备(诸如电子设备106)上。

一旦部署在电子设备106上，存储器304就可以存储语义分段网络402并将语义分段网络402的功能与可能需要语义分段网络402的输出的应用的程序代码集成。示例应用可以是自动驾驶车辆中的自主控制应用。自主控制应用可以依靠语义分段网络402的输出来区分其相机传感器的FOV中的各种物体类型，并实时/近实时地做出适当的驾驶决策或推理。

在电子设备106上，电路系统302可以将彩色图像702输入到语义分段网络402的输入层。例如，输入的彩色图像702可以与包括汽车、建筑物、照明器材、标牌、道路、行人等的城市街道场景相关联。一旦接收到输入的彩色图像702，语义分段网络402就可以执行分类结果计算704，这可以包括以初始步幅(即，1)的分数图。由于分数图的尺寸可以与输入的彩色图像702的尺寸相同，因此分数图中的每个点可以表示输入的彩色图像702的对应像素的类标签。

分类结果的计算可以包括类的最大分数索引。由于经训练的语义分段网络402本身可以输出用于输入的彩色图像702的概率图，因此可以基于类的最大评分索引的计算来获得分类结果。例如，经训练的语义分段网络402的输出可以由体积张量(以[num_class×高度×宽度]为单位)表示。为了获得2D的最终的类ID图或最终分数图，可能需要将输出调整为输入的彩色图像的尺寸(即，高度×宽度(以像素为单位))，其中每个像素被指派给某个类ID和颜色值。为此，电子设备106可以在体积张量上应用argmax运算以提取类通道的最大评分索引。此后，电路系统302可以从语义分段网络402的输出层提取输入的彩色图像702的每个像素的分类结果。分类结果可以包括例如具有等于输入的彩色图像702的分辨率的分辨率的分数图。分数图的每个值可以为输入的彩色图像702的每个像素预测类标签的集合当中的类标签。

然后，电路系统302可以基于分类结果来生成语义上分段的图像706。语义上分段的图像706可以包括填充有对应的颜色集合的区域集合708，并且区域集合708中的每个区域可以与多类分类任务的特定类对应。例如，语义上分段的图像706通过一种颜色指示属于树标签的像素，通过另一种颜色指示属于汽车标签的像素，以及通过再一种颜色指示属于建筑物标签的像素。

图8是图示根据本公开的实施例的用于利用软交叉熵损失进行语义分段的示例性方法的流程图。参考图8，示出了流程图800。该示例性方法的操作可以由任何计算系统执行，例如，由图2的系统102执行。流程图800的操作可以在802处开始并且前进到804。

在804处，可以将第一彩色图像输入到语义分段网络110的输入层。在至少一个实施例中，电路系统202可以将第一彩色图像输入到语义分段网络110的输入层。语义分段网络110可以基于输入的第一彩色图像以辅助步幅生成第一特征图，作为语义分段网络110的辅助层的输出。

在806处，可以从语义分段网络110的辅助层提取第一特征图。在至少一个实施例中，电路系统202可以从语义分段网络110的辅助层提取第一特征图。

在808处，可以基于提取出的第一特征图将概率图计算为多类分类任务的类集合上的软标签的集合。在至少一个实施例中，电路系统202可以基于提取出的第一特征图将概率图计算为多类分类任务的类集合上的软标签的集合。

在810处，可以以辅助步幅计算该计算出的概率图与地面真实概率图之间的辅助CE损失。在至少一个实施例中，电路系统202可以以辅助步幅计算该计算出的概率图与地面真实概率图之间的辅助CE损失。

在812处，可以基于计算出的辅助CE损失训练用于多类分类任务的语义分段网络110。在至少一个实施例中，电路系统202可以基于计算出的辅助CE损失训练用于多类分类任务的语义分段网络110。控制可以结束。

本公开的各种实施例可以提供一种在其上存储有非暂态计算机可读介质和/或存储介质的指令，该指令可由机器和/或计算机执行以操作用于利用软交叉熵损失进行语义分段的系统。指令可以使机器和/或计算机执行包括将第一彩色图像输入到用于多类分类任务的语义分段网络的输入层的操作。多类分类任务可以与将第一彩色图像的每个像素分类为类集合之一对应。操作还可以包括：基于输入的第一彩色图像，由语义分段网络以辅助步幅生成第一特征图，作为语义分段网络的辅助层的输出。操作还可以包括：从辅助层提取生成的第一特征图，并且基于提取出的第一特征图，将概率图计算为多类分类任务的类集合上的软标签的集合。操作还可以包括：以辅助步幅计算该计算出的概率图与地面真实概率图之间的辅助交叉熵损失，并且基于计算出的辅助交叉熵损失来训练用于多类分类任务的语义分段网络。

本公开的各种实施例可以提供其上存储有指令的，非暂态计算机可读介质和/或存储介质，指令可由机器和/或计算机执行以操作电子设备以利用软交叉熵损失进行语义分段。指令可以使机器和/或计算机执行包括存储基于用于语义分段网络的辅助层的辅助交叉熵损失而预先训练的语义分段网络的操作。操作还可以包括将彩色图像输入到语义分段网络的输入层，并从语义分段网络的输出层提取用于输入的彩色图像的每个像素的分类结果。操作还可以包括基于提取出的最终分数图来生成语义分段的图像。语义分段的图像可以包括填充有对应的颜色集合的区域集合，并且区域集合中的每个区域可以与多类分类任务的类对应。

本公开的某些实施例可以在用于利用软交叉熵损失进行语义分段的系统和方法中找到。本公开的各种实施例可以提供可以包括电路系统202(图2)的系统102(图1)。电路系统202可以被配置为将第一彩色图像输入到用于多类分类任务的语义分段网络110的输入层110a。多类分类任务可以与将第一彩色图像的每个像素分类为类集合之一对应。语义分段网络110可以基于输入的第一彩色图像以辅助步幅生成第一特征图，作为语义分段网络110的辅助层116的输出。电路系统202还可以被配置为从辅助层116提取生成的第一特征图，并且基于提取出的第一特征图，将概率图计算为多类分类任务的类集合上的软标签的集合。此后，电路系统202还可以被配置为针对辅助步幅计算该计算出的概率图与地面真实概率图之间的辅助交叉熵损失，并且基于计算出的辅助交叉熵损失来训练用于多类分类任务的语义分段网络。

根据实施例，语义分段网络110可以包括编码器网络112和连接到编码器网络112的输出端112n的解码器网络114。编码器网络112可以以初始步幅接收第一彩色图像作为输入，并且可以以第一步幅输出第二特征图。第一步幅可以是初始步幅的倍数。解码器网络114可以以第一步幅接收第二特征图，并且可以以初始步幅输出回去最终分数图。

根据实施例，电路系统202还可以被配置为基于语义分段网络110的性能度量从语义分段网络110的解码器网络114中选择辅助层116。

根据实施例，辅助步幅可以对应于第一特征图的尺寸与第一彩色图像的尺寸的比率。类似地，第一步幅可以对应于第二特征图的尺寸与第一彩色图像的尺寸的比率。

根据实施例，语义分段网络110可以分支成空间路径534和上下文路径536，可以稍后在语义分段网络110的输出层528之前将其池化回去。在本文中，在训练语义分段网络110的同时，空间路径534可以以语义分段网络110的每个步幅保留第一彩色图像的空间信息。类似地，在训练语义分段网络110的同时，上下文路径536可以以每个步幅保留第一彩色图像的语义上下文信息。

根据实施例，编码器网络602可以包括输入层606、密集块的序列608、过渡层的序列610、金字塔空间池化层612以及空间路径块614。类似地，解码器网络604可以包括上采样层616、卷积层618、池化层620和评分层622。空间路径块614可以从密集块的序列608之一分支出来，并利用解码器网络114的池化层620合并回去。根据实施例，密集块的序列608中的每个密集块可以包括第一批归一化层608a、1×1卷积层608b、第二批归一化层608c、3×3逐深度(DW)可分离卷积层608d、1×1逐点(PW)可分离卷积层608e以及级联层608f。

根据实施例，电路系统202还可以被配置为基于语义分段网络110的在辅助层116之前的一个或多个层的概率图以辅助步幅将地面真实概率图408a计算为类集合上的多标签概率分布。

根据实施例，电路系统202还可以被配置为从语义分段网络110的输出层114n提取最终分数图。最终分数图可以与语义分段网络110的针对输入的彩色图像的输出对应。电路系统202还可以被配置为基于提取出的最终分数图来计算最终交叉熵损失。计算出的最终交叉熵损失可以是例如直方图加权的soft-max交叉熵损失。电路系统202还可以被配置为基于计算出的辅助交叉熵损失和计算出的最终交叉熵损失来估计语义分段网络110的全局损失度量，并且进一步基于估计出的全局损失度量来训练语义分段网络110。语义分段网络110的训练可以对应于更新针对语义分段网络110的不同层的权重，直到估计出的全局损失度量最小为止。

根据实施例，电路系统202还可以被配置为将第二彩色图像输入到经训练的语义分段网络110，并从经训练的语义分段网络110的输出层114n提取针对输入的第二彩色图像的每个像素的分类结果。此后，基于分类结果，电路系统202还可以被配置为生成被语义分段的图像，该图像包括被填充有对应的颜色集合的区域集合。区域集合中的每个区域可以与类集合中的类对应。

本公开可以用硬件或硬件和软件的组合来实现。本公开可以以集中式方式、以至少一个计算机系统或以分布式的方式来实现，其中不同的元件可以分布在多个互连的计算机系统上。适于执行本文描述的方法的计算机系统或其它装置可能是合适的。硬件和软件的组合可以是具有计算机程序的通用计算机系统，该计算机程序在被加载和执行时可以控制计算机系统，以使其执行本文描述的方法。本公开可以用包括还执行其它功能的集成电路的一部分的硬件来实现。

本公开还可以被嵌入计算机程序产品中，该计算机程序产品包括使得能够实现本文描述的方法的所有特征，并且当其被加载到计算机系统中时，能够执行这些方法。在本文中，计算机程序是指以任何语言、代码或符号表示的指令集的任何表达，这些指令旨在使具有信息处理能力的系统直接执行特定功能，或者在以下中的一个或两者之后执行特定功能：a)转换成另一种语言、代码或符号；b)以不同的物质形式复制。

虽然已经参考某些实施例描述了本公开，但是本领域技术人员将理解，在不偏离本公开的范围的情况下，可以进行各种改变并且可以替换等同物。另外，在不偏离本公开的范围的情况下，可以做出许多修改以使特定情况或材料适于本公开的教导。因此，意图是本公开不限于所公开的特定实施例，而是本公开将包括落入所附权利要求的范围内的所有实施例。

Claims

1.一种用于语义分段的系统，包括：

电路系统，被配置为：

将第一彩色图像输入到用于多类分类任务的语义分段网络的输入层，

其中语义分段网络基于输入的第一彩色图像以辅助步幅生成第一特征图，作为语义分段网络的辅助层的输出，

从辅助层提取生成的第一特征图；

基于提取出的第一特征图，将概率图计算为多类分类任务的类集合上的软标签的集合；

针对所述辅助步幅计算该计算出的概率图与地面真实概率图之间的辅助交叉熵损失；

从语义分段网络的输出层提取最终分数图，其中最终分数图与语义分段网络的针对输入的彩色图像的输出对应；

基于提取出的最终分数图来计算最终交叉熵损失；以及

基于计算出的辅助交叉熵损失和计算出的最终交叉熵损失来训练用于多类分类任务的语义分段网络。

2.根据权利要求1所述的系统，其中语义分段网络包括编码器网络和连接到编码器网络的输出端的解码器网络，

编码器网络以初始步幅接收第一彩色图像作为输入，并且以第一步幅输出第二特征图，

第一步幅是初始步幅的倍数，以及

解码器网络以第一步幅接收第二特征图，并且以初始步幅输出回去最终分数图。

3.根据权利要求2所述的系统，其中电路系统还被配置为基于语义分段网络的性能度量从语义分段网络的解码器网络中选择辅助层。

4.根据权利要求2所述的系统，其中辅助步幅对应于第一特征图的尺寸与第一彩色图像的尺寸的比率，以及

第一步幅对应于第二特征图的尺寸与第一彩色图像的尺寸的比率。

5.根据权利要求2所述的系统，其中编码器网络包括输入层、密集块的序列、过渡层的序列、金字塔空间池化层和空间路径块，

解码器网络包括上采样层、卷积层、池化层、评分层和输出层，并且

空间路径块从密集块的序列之一分支出来，并利用解码器网络的池化层合并回去。

6.根据权利要求5所述的系统，其中密集块的序列中的每个密集块包括第一批归一化层、1×1卷积层、第二批归一化层、3×3逐深度(DW)可分离卷积层、1×1逐点(PW)可分离卷积层以及级联层。

7.根据权利要求1所述的系统，其中语义分段网络分支成空间路径和上下文路径，

在语义分段网络的输出层之前将空间路径和上下文路径池化回去，

在训练语义分段网络的同时，空间路径以语义分段网络的每个步幅保留第一彩色图像的空间信息，以及

在训练语义分段网络的同时，上下文路径以每个步幅保留第一彩色图像的语义上下文信息。

8.根据权利要求1所述的系统，其中电路系统还被配置为基于语义分段网络的辅助层之前的一个或多个层的概率图，以辅助步幅将地面真实概率图计算为所述类集合上的多标签概率分布。

9.根据权利要求1所述的系统，其中计算出的最终交叉熵损失是直方图加权的soft-max交叉熵损失。

10.根据权利要求1所述的系统，其中电路系统还被配置为：

基于计算出的辅助交叉熵损失和计算出的最终交叉熵损失来估计语义分段网络的全局损失度量；以及

基于估计出的全局损失度量来训练语义分段网络。

11.根据权利要求10所述的系统，其中语义分段网络的训练对应于更新用于语义分段网络的不同层的权重直到估计出的全局损失度量最小为止。

12.根据权利要求1所述的系统，其中多类分类任务对应于将第一彩色图像的每个像素分类为所述类集合之一。

13.根据权利要求1所述的系统，其中电路系统还被配置为：

将第二彩色图像输入到经训练的语义分段网络；

从经训练的语义分段网络的输出层提取针对输入的第二彩色图像的每个像素的分类结果；以及

基于分类结果，生成被语义分段的图像，该被语义分段的图像包括被填充有对应的颜色集合的区域集合，

其中所述区域集合中的每个区域与所述类集合中的特定类对应。

14.一种电子设备，包括：

存储器，被配置为存储语义分段网络，该语义分段网络基于针对语义分段网络的辅助层的辅助交叉熵损失和最终交叉熵损失而被预训练，其中所述最终交叉熵损失是基于从语义分段网络的输出层提取出的最终分数图而计算的，并且其中最终分数图与语义分段网络的针对彩色图像的输出对应；以及

电路系统，被配置为：

将所述彩色图像输入到语义分段网络的输入层；

从语义分段网络的输出层提取针对输入的彩色图像的每个像素的分类结果；以及

基于提取出的分类结果，生成被语义分段的图像，其中

被语义分段的图像包括填充有对应的颜色集合的区域集合，以及

所述区域集合中的每个区域与多类分类任务的特定类对应。

15.一种用于语义分段的方法，包括：

从辅助层提取第一特征图；

针对辅助步幅计算该计算出的概率图与地面真实概率图之间的辅助交叉熵损失；

从语义分段网络的输出层提取最终分数图，其中最终分数图与语义分段网络的针对输入的第一彩色图像的输出对应；

基于提取出的最终分数图来计算最终交叉熵损失；以及

16.根据权利要求15所述的方法，还包括：基于语义分段网络的辅助层之前的一个或多个层的概率图，以辅助步幅将地面真实概率图计算为所述类集合上的多标签概率分布。

17.根据权利要求15所述的方法，还包括：

进一步基于估计出的全局损失度量在多类分类任务上训练语义分段网络。

18.根据权利要求15所述的方法，还包括：

将第二彩色图像输入到经训练的语义分段网络；

从经训练的语义分段网络的输出层提取最终分数图，作为针对输入的第二彩色图像的每个像素的分类结果；以及

基于提取出的最终分数图，生成被语义分段的图像，该被语义分段的图像包括被填充有对应的颜色集合的区域集合，

其中所述区域集合中的每个区域与类集合中的特定类对应。