CN115485741A

CN115485741A - 用于图像分割的神经网络模型

Info

Publication number: CN115485741A
Application number: CN202180031634.1A
Authority: CN
Inventors: C·努古特伦; E·卡萨皮斯; G·迪科夫
Original assignee: TomTom Global Content BV
Current assignee: TomTom Global Content BV
Priority date: 2020-05-27
Filing date: 2021-05-27
Publication date: 2022-12-16
Also published as: EP4158535A1; WO2021239858A1; GB202007918D0; US20230186100A1

Abstract

一种计算机处理系统经配置以训练用于在语义图像分割中使用的模型。所述模型包括细化神经网络、鉴别器神经网络。所述细化神经网络经配置以接收图像的经预测标签分布，从随机或伪随机噪声源获得一或多个随机值，使用所述一或多个随机值从所述所接收的经预测标签分布生成多个经预测分割图，及将所述多个经预测分割图输出到所述鉴别器神经网络。所述计算机处理系统经配置以使用目标函数来训练所述细化神经网络，所述目标函数是所述鉴别器神经网络的输出的函数，且进一步包含表示所述经预测标签分布与由所述细化神经网络针对所述经预测标签分布输出的所述多个经预测分割图的平均值之间的差的项。

Description

用于图像分割的神经网络模型

背景技术

本发明涉及用于在语义图像分割中使用的神经网络。

通过将各种计算机视觉问题视为图像分割问题，卷积神经网络(CNN)已成功地应用于各种计算机视觉问题。实例包含用于自动驾驶的道路场景理解及解释医学成像。针对此类应用，网络通常使用多类别每像素标签进行训练，所述标签一起形成图像大小的分割图(本文也称为“标签”)。此类网络的输出接着又是一个图像大小的图，表示每像素类别概率。

在基于似然的语义分割中，神经网络可通过针对由图像对(例如照片)及对应的人类标记分割图组成的训练数据训练它而经训练以执行语义分割。随后，通过沿预测概率的类别维度应用argmax函数(即，针对每一像素，选择最可能的分类)，可从经训练的网络获得给定输入图像的最终分割图。例如，此分割图可在使自动驾驶汽车确定视野中的物体可能是另一辆车还是行人时有用。

然而，基于似然的语义分割的一个缺点是其可生成不连贯的语义图。这背后的根本原因是训练损失被公式化的方式(例如，使用每像素交叉熵)，使得分割图中的每一输出像素独立于其它所有像素被考虑—即，不强制执行明确的像素间一致性。特定来说，针对有噪声的真实世界数据集，最大化因子化似然会导致标签相关不一致区域的不确信预测。

生成性对抗网络(GAN)已应用于语义分割问题，以尝试解决前述提及的每像素损失问题。GAN通过在极小极大博弈中以交替方式训练两个网络来工作：生成器神经网络经训练以产生语义分割图，而二进制鉴别器神经网络经训练以区分经生成(经预测)分割图数据(“假”)与地面真值(ground truth)标签(“真”)。在训练期间，生成器产生语义分割图，而鉴别器交替地观察地面真值标签及经预测分割图。在训练完成之后，可使用经训练的生成器网络的副本对所接收的图像执行语义分割—例如，以解释自动驾驶汽车中的街道场景的实况视频。

然而，在实际中，GAN模型会导致语义图像分割中的分类结果不佳。

在WO 2019/238560中，本申请人提出训练生成器网络，以使用包含对抗损失项及像素级交叉熵损失项的目标函数执行图像分割。此类方法可帮助稳定对抗训练的动态，但仍并不总是理想的，尤其是当训练数据有噪声时。

然而，申请人现在已设计一种不同的方法，即使在针对有噪声的数据进行训练时，其仍可提供良好的图像分割性能。

发明内容

从第一方面，本发明提供一种计算机处理系统，其经配置以训练用于在语义图像分割中使用的模型，其中所述模型包括：

细化神经网络；

鉴别器神经网络，

其中所述细化神经网络经配置以：

接收图像的经预测标签分布；

从随机或伪随机噪声源获得一或多个随机值；

使用所述一或多个随机值从所述所接收的经预测标签分布生成多个经预测分割图；及

将所述多个经预测分割图输出到所述鉴别器神经网络，且

其中所述计算机处理系统经配置以使用目标函数来训练所述细化神经网络，所述目标函数是所述鉴别器神经网络的输出的函数，且进一步包含表示所述经预测标签分布与由所述细化神经网络针对所述经预测标签分布输出的所述多个经预测分割图的平均值之间的差的项。

所述计算机处理系统可进一步经配置以实施所述细化神经网络及/或所述鉴别器神经网络。

从第二方面，本发明提供一种训练用于在语义图像分割中使用的模型的方法，其中所述模型包括：

细化神经网络；及

鉴别器神经网络，

其中所述细化神经网络经配置以：

接收图像的经预测标签分布；

从随机或伪随机噪声源获得一或多个随机值；

将所述多个经预测分割图输出到所述鉴别器神经网络，且

其中所述方法包括使用目标函数来训练所述细化神经网络，所述目标函数是所述鉴别器神经网络的输出的函数，且进一步包含表示所述经预测标签分布与由所述细化神经网络针对所述经预测标签分布输出的所述多个经预测分割图的平均值之间的差的项。

从第三方面，本发明提供一种包括指令的计算机软件，当在计算机处理系统上执行时，所述指令使所述计算机处理系统训练用于在语义图像分割中使用的模型，其中所述模型包括：

细化神经网络；

鉴别器神经网络，

其中所述细化神经网络经配置以：

接收图像的经预测标签分布；

从随机或伪随机噪声源获得一或多个随机值；

将所述多个经预测分割图输出到所述鉴别器神经网络，且

其中所述指令使所述计算机处理系统使用目标函数来训练所述细化神经网络，所述目标函数是所述鉴别器神经网络的输出的函数，且进一步包含表示所述经预测标签分布与由所述细化神经网络针对所述经预测标签分布输出的所述多个经预测分割图的平均值之间的差的项。

所述计算机软件可存储在非瞬态存储媒体(例如磁性或固态存储器)上，或可承载在瞬态信号(例如电信号或电磁信号)上。所述计算机软件可进一步包括使所述计算机处理系统实施所述细化神经网络及/或所述鉴别器神经网络的指令。

从第四方面，本发明提供一种实施用于在语义图像分割中使用的经训练模型的计算机软件或计算机处理系统，所述经训练模型包括经训练细化神经网络，其经配置以：

接收图像的经预测标签分布；

从随机或伪随机噪声源获得一或多个随机值；

输出所述多个经预测分割图。

所述经训练细化神经网络可能已如本文所公开般进行训练—即，使用作为鉴别器神经网络的输出的函数且进一步包含表示经预测标签分布与由所述细化神经网络针对所述经预测标签分布输出的多个经预测分割图的平均值之间的差的项的目标函数。

在一些实施例中，所述经训练模型经进一步配置以计算所述多个经预测分割图的平均值。其可经配置以输出或进一步处理平均化经预测分割图。其可经配置以将argmax运算应用于所述平均化经预测分割图。

因此应看出，根据本发明，语义图像分割在多个阶段中执行，其中经预测标签分布在第一阶段产生，且其中第二阶段经训练以细化这些经预测分布，其使用生成性对抗方法，通过针对每一经预测标签分布生成多个分割图，使用鼓励所述多个经预测图的平均值朝向相应经预测标签分布的分类分布的目标函数。

此类方法在架构上不同于WO 2019/238560中公开的方法，后者使用生成器网络在单个步骤中执行从输入图像到分割图的完整分割，且无需从每一输入图像创建多个预测。

其中经预测标签分布而不是原始图像被提供作为用于训练生成性对抗阶段的输入的本方法的多阶段方法已被发现在至少一些例子中导致特别快的收敛。

合并随机性以从生成性细化网络生成多个合理的输出分割图允许模型很好地处理输入数据中的不确定性。本方法已被发现产生高模式覆盖率(即，跨越整个空间产生输出，几乎没有缺失的模式)。同时，限制多个输出标签的平均值以与经预测标签分布一致，使提议能够准确地反映基础数据分布。

经预测标签分布可为图像的一组标签上的图像大小的逐像素分布。其可为经校准分布。其可为图像的似然或概率图。

所述细化神经网络可经配置以从“校准”神经网络接收经预测标签分布。在一些实施例中，模型可另外包括此校准神经网络。所述校准神经网络可经配置以接收输入图像并输出每一输入图像的相应经预测标签分布。其可将每一输入图像映射到每像素分类分布。特定来说，其可预测输入图像的一组标签上的图像大小的经校准的逐像素分布。其可执行基于似然的语义分割。其可使用交叉熵损失函数。其可为经良好校准的神经网络。这可如本文所描述般通过使用经校准的校准神经网络来校准所述细化神经网络而使整个模型能变得经良好校准。

所述训练可通过所述软件或计算机处理系统中的训练逻辑来实施。

所述校准神经网络可针对与所述细化及鉴别器网络相同的训练数据进行训练。其可由所述处理系统训练。

然而，这不是必需的，且在一些实施例中，所述细化网络可从校准神经网络接收经预测标签分布，所述校准神经网络已例如在不同的系统上或在不同的时间段内经独立地训练。在一些实施例中，所述校准网络可在细化网络被训练的同时以推理模式实施或执行(即，未被训练)。这可有利地使模型能够以减小的峰值计算负载进行训练。

处理系统可经配置以训练鉴别器神经网络。鉴别器可使用一组经预测分割图，且然后使用一或多个地面真值分割图(其可为对应于分割图的地面真值分割图，或其可为不同的地面真值分割图)交替训练。细化神经网络及鉴别器神经网络可形成生成性对抗网络(GAN)。其可一起被训练。处理系统可经配置以使用鉴别器交替地训练细化网络。

细化及鉴别器神经网络可针对包括一组经预测标签分布及一组地面真值(例如，人类标记)分割图的训练数据进行训练。所述训练数据可另外包含对应的输入图像(例如，照片或视频帧)。在一些实施例中，细化及/或鉴别器神经网络可针对输入图像进行调节；这可能会改进分割结果的质量。可使用相同的训练数据(例如，输入图像及对应的地面真值分割图)来训练校准神经网络，但这并非必需，因为校准网络可使用不同的训练数据独立地训练。

用于训练细化神经网络的目标函数可为损失函数。其可为第一目标项第二目标项的函数(例如，包括加权和)。第一目标项可取决于鉴别器网络的输出。第二目标项(本文也称为校准项)可取决于经预测标签分布与由细化网络生成的分割图的平均值之间的差。第一目标项可增加经预测分割图与地面真值图无法通过鉴别器网络区分的概率。第二目标项可最小化经预测标签分布与平均分割图之间的差。

目标函数可包括用于相对于第二项对第一目标项加权的加权参数λ。这可使其相对影响能够被调整。所述系统可包括用于接收加权参数的值的输入—例如，来自用户。

在一些实施例中，分割图的平均值可通过计算多个分割图的逐像素算术平均值来确定。然而，其它实施例可使用其它类型的平均值，例如加权平均值。

经预测标签分布与平均分割图之间的差可以任何适当的方式表达。然而，在一些实施例中，差可能表示经预测标签分布与平均分割图之间的交叉熵。差可为库尔贝克-莱伯勒(Kullback-Leibler)散度(正向或反向)。

鉴别器网络可经训练以最小化其在由细化网络输出的经预测分割图与地面真值标签数据之间的鉴别的损失。

神经网络中的任一者的训练可包括梯度下降过程。

所述模型可针对多个输入图像进行训练，所述输入图像可包括100、1000、10000或更多个图像。

在一些实施例中，输入图像可为来自摄像机的摄影图像—例如，来自视频流的一帧。其可为街道场景的图像。地面真值标签数据可包括表示图像的一或多个对象类别的数据。

在一些实施例中，每一分割图具有共同的大小，其可为作为输入图像的像素的数量及/或经预测标签分布。经预测标签分布可为图的每一像素分配一组似然值，表示所述像素具有相应标签(即，属于相应类别)的可能性。可能存在任意数量的标签—例如，5、10、50或100或更多。在一些实施例中，标签与街道场景中的类别相关，且可包含“车辆”、“人”、“建筑物”等。每一分割图可将这些标签中的经预测一者分配给每一像素。

模型可具有训练模式及经训练(推理)模式。训练可在训练阶段期间发生。在训练阶段之后，网络可经配置以接收输入图像并分割所述输入图像。在一些实施例中，权重可从经训练细化神经网络提取并用于创建经训练模型；这些可能是不包含鉴别器神经网络或任何训练逻辑的独立推理模型。经训练模型可经配置以输出图像的一或多个经预测分割图—例如，多个分割图，或其平均值，或这些中的任一者的argmax或其它函数。

计算机处理系统可包括用于从摄像机接收图像数据的输入。其可为车载计算机处理系统。其可经配置以将分割数据输出—例如，到自动驾驶系统。

图像、经预测标签分布及分割图可以任何适当的方式表示及编码。数据(包含训练数据)可存储在数据库或其它数据检索系统中并从数据库或其它数据检索系统存取。神经网络的权重可作为值存储在数字存储器中。

校准神经网络及/或细化神经网络及/或鉴别器神经网络可各自包括任意数量的卷积层、密集块及其它处理层。模型及/或训练逻辑可包括一或多个处理器的软件指令，或可包括专用硬件逻辑，或可使用软件及专用硬件的组合来实施。软件可包括存储在计算机处理系统的存储器中的指令。所述计算机处理系统可包括以下一或多者：CPU、DSP、GPU、FPGA、ASIC、易失性存储器、非易失性存储器、输入、输出、显示器、网络连接、电源、无线电、时钟及任何其它适当组件。其可包括一或多个服务器或超级计算机。其可包括微控制器或片上系统(例如，当实施用于推理操作的经训练模型时)。其可经配置以存储或显示或输出经预测分割图或其它分割数据。

本文所描述的任何方面或实施例的特征可在适当的情况下应用于本文所描述的其它任何方面或实施例。在参考不同的实施例或实施例组的情况下，应理解，这些实施例不一定是不同的，而可能重合。

附图说明

现在将参考附图仅以实例的方式描述本发明的某些优选实施例，其中：

图1是体现本发明的语义分割模型的示意图；

图2是用于训练模型的伪代码；

图3是用于在推理模式下运行模型的伪代码；

图4是体现本发明的模型的实例简单实施方案的数据对数似然的曲线图；

图5是当使用校准损失项时从实例简单实施方案提取的各种输出的图表；

图6是当未使用校准损失项时从实例简单实施方案提取的各种输出的图表；

图7展示来自城市景观(Cityscapes)数据集的三个街道场景，其具有增加的模糊度；

图8展示由体现本发明的模型生成的三个街道场景中的每一者的四个经预测分割图；和

图9是体现本发明的计算机系统的示意图。

具体实施方式

下面描述体现本发明的某些示范性神经网络，其使用对抗训练以执行语义图像分割。本文所公开的技术已在由汽车上的摄像机获取的街道场景的分割上进行测试，并已被发现在此任务中特别有效，尤其是在输入数据含有噪声或模糊度的情况下。然而，应理解，这些网络可应用于不同领域的许多其它图像分割任务。

给定高度H、宽度W及色彩空间C的输入图像

语义分割是预测逐像素类别标签的任务y∈{1,…,K}^HxW。在一些应用中，图像x可为街道场景的RGB图像，且K类别可包含“道路”、“人行道”、“建筑物”、“墙”、“人”、“车”等。

为了针对描述及下文使用的术语提供上下文，首先将描述两种常规的语义分割方法。

基于似然的语义分割

在基于似然的语义分割中，神经网络可通过针对由图像对(例如照片)及对应的人类标记分割图组成的训练数据训练它而经训练以执行语义分割。

针对N个图像及标签对的数据集

条件分布

由神经网络F用权重θ及softmax输出激活函数参数化的似然q_θ(y|x)来明确建模。

供神经网络学习类别概率的一种简单而有效的方式是将训练标签y∈{0,1}^HxWxK表达为独热编码标签图，并将q_θ设置为逐像素因式化分类分布，其通过softmax矢量实现。q_θ的概率质量接着给定如下：

由于关于θ最小化正向库尔贝克-莱伯勒散度

等同于最小化

与q_θ之间的交叉熵，因此针对等式(1)中的q_θ的选择，损失函数简化为：

通常，F_θ经实施为卷积神经网络(CNN)，且其权重使用随机梯度下降(SGD)或其变体进行优化。

通过沿经预测概率的类别维度应用argmax函数(即，针对每一像素，选择最可能的分类)，可获得给定输入图像的最终分割图。

此方法的缺点在于其生成不连贯的语义图。针对有噪声的真实世界数据集，最大化因子化似然导致标签相关不一致区域中的不确信预测。

对抗语义分割

已知尝试通过使用生成性对抗网络(GAN)执行条件语义分割来缓解此问题。

在典型的对抗训练情况下，鉴别器网络学习鉴别人工标注的地面真值分割(即“真”标签)及由生成器网络提供的预测(即“假”标签)。通过使生成器(或分割器)及鉴别器参与交替的极小极大训练博弈，生成器面临以下挑战：改进其预测以提供逼真的分割预测来欺骗鉴别器，理想地以一种引导生成器学习产生所期望的高级结构质量，例如连通性、像素间一致性及平滑度的方式，而无需明确地制定这些属性。

形式上，这涉及训练二进制鉴别器网络D_ψ，以最佳地区分地面真值与经预测语义标签，同时训练分割网络G_φ以最大化预测样本G_φ(x_i)被D_ψ感知为真实的概率。

为了考虑标签中的模糊度，分割网络也可针对外在噪声变量(例如高斯噪声∈～N(0,1))进行调节。

生成器的非饱和损失函数可表达为：

而鉴别器的非饱和损失函数可表达为：

本质上，GAN方法利用最大似然学习范式以针对训练数据定制由D参数化的自适应损失函数。与显式逐像素似然最大化相比，这种对抗设置通过G学习隐式采样器，所述G具有对合成标签的联合像素配置进行建模，并捕获由地面真值显示的局部及全局一致性的潜力。

实际上，简单地使用噪声矢量作为G的额外输入不产生不同的输出。缺乏噪声矢量与输出之间的正则化是模式崩溃背后的主要驱动力，且已提出各种策略(例如周期一致性)以缓解这种情况。

此外，由于损失函数是一个移动目标，因此对抗训练的动态不稳定是众所周知的。因此，已知用来自等式2的像素级交叉熵损失来补充对抗损失项。

对抗及交叉熵损失的混合监督可导致改进的经验结果。然而，在存在有噪声数据的情况下，所述两种损失可能有相反的目标，且因此在同一组参数上强制执行它们，在这种情况下φ可能是次优的。分类交叉熵损失恢复基础概率

可能在数据的有噪声区域具有高熵；然而，对抗项针对低熵、类样本输出优化。

经校准多模式对抗语义分割

与常规方法相反，本实施例在两阶段、级联架构中解耦两个冲突的损失，所述架构由以下组成：

-第一阶段基于似然的“校准”网络F_θ，用

优化(如上面的等式1中)；及

-第二阶段生成性“细化”网络G_φ与对抗“鉴别器”网络D_ψ配对，其分别使用目标项

及

进行优化，类似于等式3及4中的那些。

有利的是，将交叉熵优化与对抗优化解耦的这种方法允许两种损失的互补优势被利用，同时避免在其被线性组合时可能发生的其之间的不利相互作用。

此外，此方法使F_θ能够为G_φ提供良好的初始表示，以提取最终的细化预测。这可导致采样标签提议更好地反映基础数据分布。

同样有利的是，通过F_θ进行的经良好校准的预测为G_φ的预测分布提供目标。这已被发现导致高的整体模式覆盖率，具有稳定的训练及快速收敛。

直观地说，细化网络G_φ可被视为来自由校准网络建模的显式似然的采样器，使得逐像素类别概率及对象相干性被保留。

图1展示整体机器学习模型1，其包括校准网络2，F_θ；细化网络3，G_φ；及鉴别器网络4，D_ψ。图1还展示训练数据通过F_θ、G_φ及D_ψ的正向流，以及各种损失函数项

及

的输入。

校准网络2接收输入图像5并输出图像大小的逐像素的经校准的经预测标签分布6。

细化网络3从校准网络2接收经预测标签分布6，并从随机噪声生成器7接收高斯噪声变量∈～N(0,1)。其针对大于1的N的期望值输出N个经预测分割图的集合8，

因此，其可支持多模式分类，其中单个输入图像可对应于多个有效输出。

鉴别器网络4接收N个分割图的集合8，以及输入图像5的地面真值分割图9。

交叉熵损失函数

是经预测标签分布6与地面真值标签9的函数。

二进制鉴别器网络4的输出在生成器损失项

及鉴别器损失函数

中使用。

校准损失项

是经预测标签分布6与平均经预测分割图10的函数，所述平均经预测分割图10是N个分割图的集合8的逐像素算术平均值。

G_φ及D_ψ的目标与等式(3)及(4)中的那些不同以适应校准网络F_θ的预处理。

细化网络G_φ经训练以最小化包含损失项的损失函数：

鉴别器网络D_ψ经训练以最小化损失函数：

细化网络G_φ的完整损失函数

还包含校准损失项

如下：

其中λ是可变加权因子。

针对最佳交叉熵权重

模型分布的熵

等于数据分布的熵

因此，为了校准预测分布，通过鼓励样本平均值

匹配由F_θ(x)预测的基础类别概率而对细化网络G_φ施加多样性正则化。也就是说，校准网络被用作由G_φ生成的样本多样性的目标。

为此，可定义辅助的完全因子化分类似然q_φ：

且可优化反向库尔贝克-莱伯勒散度KL(q_φ||q_θ)。由于q_θ及q_φ两者是分类分布，因此可精确计算散度。

因此，校准损失项可给定如下：

实施方案细节

损失分解的结果是θ可保持固定，同时学习φ及ψ。这允许一些实施例仅在推理模式下使用经预训练的校准网络F_θ，因此降低整体峰值计算负担。

使用蒙特卡洛(Monte Carlo)估计计算。实际上，已发现良好性能所必需的集合8中的经预测样本的数量至少在某些情况下可能为10的数量级—例如N＝10。

可使用深度学习框架，其允许样本被纳入批次维度中，且因此可在GPU上有效地计算。

图2概述使用学习率η及校准权重λ的模型的示范性训练过程。在此实例中，经训练的模型包含校准网络F_θ。然而，在其它实施例中，可单独训练校准网络，例如，使用不同的训练数据。

图3概述模型在推理模式下(即，在训练之后)的示范性使用。

尽管非必需，但针对输入图像调节细化网络及鉴别器网络已被发现至少在某些情况下改进结果的质量。

更一般来说，本方法的调节灵活性使任何现有的黑箱语义分割模型B(其可能无法为输入图像提供多个分割图)能够通过针对B的输出调节F_θ进行扩展。

实例I-合成数据集

通过以下简单的一维回归任务提供对当前校准损失的机制的直观了解。

使用以下随机关系将输入x∈[0,1]映射到

我们通过改变模式偏差的程度π∈{0,0.1,0.4}以及模式噪声σ∈{0.01,0.02,0.03}而生成而九种不同的场景。

针对每一配置，我们分别针对F、G及D训练三个4层多层感知器(MLP)，其中校准损失系数λ＝1且学习率为η＝0.0001。然后我们将结果与其中λ＝0(即细化损失函数没有校准损失项)的情况比较。

为了统计显着性，每一实验重复五次。注意，与语义分割任务中使用的分类似然不同，我们采用固定尺度参数为1的高斯似然。这将等式(2)及(8)的表达式改为均方误差损失。

图4、5及6展示数据配置以及收敛的校准网络输出、针对λ＝1及λ＝0的随时间变化的数据似然以及来自背景中具有鉴别器概率的GAN的样本。

图4展示在所有90次实验内平均化的数据对数似然。

图5表示来自具有校准损失的高偏压及噪声配置(π＝0.4,σ＝0.03)的结果。地面真值数据以弥漫黑色展示，且细化(生成器)网络的输出预测展示为圆点(原件中为浅蓝色)。校准目标(由较粗的线表示，原件中为红色)紧接其后的是来自细化网络的平均输出(由较细的线表示—原件中为蓝色)。鉴别器输出以背景阴影表示，其中“假”位于从x＝0,y＝0向右扩展的区域中(原件中为蓝色)，且“真”位于曲线图的顶部、右侧及底部边缘周围的较暗区域中(原件中为红色)。

图6展示与图5相同的实验，但没有校准损失项。这通常导致模式崩溃。“假”鉴别器输出位于图表的右上半部分中，而“真”鉴别器输出位于左下半部分中。

结果展示当使用校准损失时更快的收敛以及更小的模式振荡。样本图表展示，在这种情况下，模式崩溃也不太明显。

实例I—经修改的城市景观

此实验遵循以下评估方案：其中城市景观数据集(www.cityscapes-dataset.com)的19类别版本增补五个额外的类别，其模糊地补充对应的城市景观分类：(道路,道路2)，(人行道,人行道2)，(汽车,汽车2)、(植被,植被2)及(人,人2)。

在地面真值分割图中，针对这些原始的五个类别中的每一者，属于所述类别的像素的随机子集根据固定概率与对应类别(例如道路2而不是道路)交换。

我们分别使用8/17、7/17、6/17、5/17、4/17的类别翻转概率，并按照西蒙·科尔(Simon Kohl)等人的论文“模糊图像分割的概率u-net(A probabilistic u-net forsegmentation of ambiguous images)”，《神经信息处理系统进展》，2018年，第6965到6975页的规定，使用平均GED指标测量样本的质量。

图7展示叠加对应标签的三种不同的街道场景。

图8展示针对三个街道场景(垂直堆叠)中的每一者从细化网络获得的沿每一行水平布置的四个不同预测。

可看出，细化网络已学习生成与输入图像一致并由于输入图像中的模糊度而出现的多样化、连贯的分割图。

图9展示可在其上实施实施例的示范性计算机处理系统。计算机100包括处理器101(例如，Intel^TM处理器)，其经布置以执行存储在存储器102中的软件。处理器101还使用存储器102用于读取及写入数据，例如输入数据、中间计算结果及输出数据。软件可控制处理器101以实施本文所公开的方法中的任一者。计算机100具有输入/输出外围设备—例如用于接收训练数据及/或用于输出对经训练网络进行编码的数据。

模型可经集中训练(例如，在基于GPU的超级计算机上)，且经训练模型可被复制并安装在其它装置上，例如汽车引导或警告系统或自动驾驶车辆中。替代地，训练可在现场进行，例如，作为自动车辆的控制系统内的持续学习。

所属领域的技术人员将了解，本发明已通过描述其一或多个具体实施例来说明，但不限于这些实施例；在所附权利要求书的范围内，许多变更及修改是可能的。

Claims

1.一种计算机处理系统，其经配置以训练用于在语义图像分割中使用的模型，其中所述模型包括：

细化神经网络；

鉴别器神经网络，

其中所述细化神经网络经配置以：

接收图像的经预测标签分布；

从随机或伪随机噪声源获得一或多个随机值；

将所述多个经预测分割图输出到所述鉴别器神经网络，且

2.根据权利要求1所述的计算机处理系统，其经配置以实施所述模型。

3.根据权利要求1或2所述的计算机处理系统，其中所述细化神经网络经配置以从校准神经网络接收所述经预测标签分布，且其中所述模型进一步包括所述校准神经网络。

4.根据权利要求3所述的计算机处理系统，其中所述校准神经网络经配置以通过执行基于似然的语义分割来接收输入图像并输出所述输入图像的相应经预测标签分布。

5.根据权利要求3或4所述的计算机处理系统，其经进一步配置以训练所述校准神经网络及所述鉴别器神经网络。

6.根据前述权利要求中任一权利要求所述的计算机处理系统，其经配置以使用生成性对抗网络训练过程训练所述细化神经网络及所述鉴别器神经网络。

7.根据权利要求6所述的计算机处理系统，其经配置以针对所述输入图像调节所述细化及鉴别器神经网络。

8.根据前述权利要求中任一权利要求所述的计算机处理系统，其经配置以使用与鉴别神经网络鉴别由所述细化网络输出的经预测分割图与地面真值标签数据的能力有关的损失函数来训练所述鉴别神经网络。

9.根据前述权利要求中任一权利要求所述的计算机处理系统，其中用于训练所述细化神经网络的所述目标函数包括取决于所述鉴别器网络的输出的第一目标与取决于所述经预测标签分布与由所述细化网络生成的所述经预测分割图的所述平均值之间的所述差的第二目标项的和。

10.根据前述权利要求中任一权利要求所述的计算机处理系统，其经配置以通过计算所述多个经预测分割图的逐像素算术平均值来计算所述经预测分割图的所述平均值。

11.根据前述权利要求中任一权利要求所述的计算机处理系统，其经配置以通过确定所述经预测标签分布的正向或反向库尔贝克-莱伯勒散度及所述经预测分割图的所述平均值来确定所述经预测标签分布与所述经预测分割图的所述平均值之间的所述差。

12.根据前述权利要求中任一权利要求所述的计算机处理系统，其经配置以使用梯度下降过程训练所述神经网络中的任一者。

13.一种训练用于在语义图像分割中使用的模型的方法，其中所述模型包括：

细化神经网络；及

鉴别器神经网络，

其中所述细化神经网络经配置以：

接收图像的经预测标签分布；

从随机或伪随机噪声源获得一或多个随机值；

将所述多个经预测分割图输出到所述鉴别器神经网络，且

14.根据权利要求13所述的方法，其中所述图像是街道场景。

15.一种包括指令的计算机软件，当在计算机处理系统上执行时，所述指令使所述计算机处理系统训练用于在语义图像分割中使用的模型，其中所述模型包括：

细化神经网络；

鉴别器神经网络，

其中所述细化神经网络经配置以：

接收图像的经预测标签分布；

从随机或伪随机噪声源获得一或多个随机值；

将所述多个经预测分割图输出到所述鉴别器神经网络，且

16.根据权利要求15所述的计算机软件，其进一步包括使所述计算机处理系统实施所述细化神经网络及所述鉴别器神经网络的指令。

17.一种包括指令的计算机软件，当在计算机处理系统上执行时，所述指令使所述计算机处理系统实施用于在语义图像分割中使用的经训练模型，所述经训练模型包括经训练细化神经网络，其经配置以：

接收图像的经预测标签分布；

从随机或伪随机噪声源获得一或多个随机值；

输出所述多个经预测分割图。

18.根据权利要求17所述的计算机软件，其中所述经训练细化神经网络已根据权利要求1所述的方法训练。

19.根据权利要求17或18所述的计算机软件，其中所述经训练模型经进一步配置以计算及输出所述多个经预测分割图的平均值。

20.根据权利要求17到19中任一权利要求所述的计算机软件，其进一步包括用于使用经训练校准神经网络从输入图像产生所述经预测标签分布的指令。