CN115481724A

CN115481724A - 用于训练用于语义图像分割的神经网络的方法

Info

Publication number: CN115481724A
Application number: CN202210605809.1A
Authority: CN
Inventors: S·瓦尔盖塞; F·胡格; Y·拜兹迪; S·古贾马加迪
Original assignee: Volkswagen AG
Current assignee: Volkswagen AG
Priority date: 2021-05-31
Filing date: 2022-05-31
Publication date: 2022-12-16
Also published as: EP4099210A1; US20220383510A1

Abstract

本发明涉及用于训练用于语义图像分割的神经网络的方法、计算机程序和设备。本发明进一步涉及利用这种方法或设备的车内控制单元或后端系统，以及包括这种车内控制单元的交通工具。在第一步骤，接收（10）图像帧序列的图像数据。然后，执行（11）各个图像帧中的一个或多个对象的语义分割预测的基于帧的评估。更进一步，执行（12）至少两个图像帧中的所述一个或多个对象的语义分割预测的时间特性的基于序列的评估。组合（13）基于帧的评估和基于序列的评估的结果。

Description

用于训练用于语义图像分割的神经网络的方法

技术领域

本发明涉及一种用于训练用于语义图像分割的神经网络的方法、计算机程序和设备，并且特别地，涉及改进用于自动驾驶功能的基于神经网络的环境感知预测的稳定性。本发明进一步涉及利用这种方法或设备的车内控制单元或后端系统，以及包括这种车内控制单元的交通工具。

背景技术

深度神经网络（在下文中缩写为DNN）在感知相关的任务（诸如图像分类、对象检测和语义分割）方面具有超越经典的基于计算机视觉的方法的潜力。因此，DNN具有各种各样的潜在应用，包括高自动驾驶感知系统。

这些神经网络是在庞大而变化的数据集上训练的。数据集是变化的，以确保DNN对变化的对象、场景和环境条件的一般化。数据集中的变化包括各种域改变，例如，对于自动驾驶感知系统，会对由诸如摄像机的交通工具传感器捕获的数据有影响并使其失真的交通工具周围环境的不同参数。这种不同参数的示例是不同的天气条件，诸如雨、雾或晴朗的天气，或者与高速公路形成对比的市中心区域的不同道路条件。

通过优化损失函数以最小化函数在训练集上的误差来在选择的数据集上训练DNN。对应地，当目标域与训练域一致时，这些DNN执行良好。然而，研究已经示出DNN对输入域的变化不鲁棒。这已经导致了具有扰动的训练方法，诸如所谓的对抗性训练，这是一种机器学习技术，其尝试通过供应欺骗性输入或具有附加损失函数的训练来愚弄模型。

然而，当在实时应用中使用DNN时，输入通常是来自摄像机的图像序列。这致使必须对神经网络的附加特性进行评估以确保鲁棒的预测。不仅神经网络的预测准确是重要的，而且这些预测还应该随时间稳定，其中术语稳定性指代网络预测是一致的，并且不随时间波动。

尤其是在诸如高自动驾驶的应用中，极重要的是，DNN的预测稳定，并且它们在输入视频序列的两个连续帧之间没有大的矛盾预测。在自动驾驶感知系统中应该避免的不稳定预测的典型示例是在一帧中检测到行人，而在下一帧中未检测到这个人，尽管输入没有显著改变。从这个示例中显而易见，稳定的预测是这种应用中基于神经网络的环境感知的重要安全标准。

在这种情况下，已知有不同的方法来改进稳定性。在对抗性或强化训练的情况下，作为第一步骤，识别对神经网络性能有负面影响的输入改变，诸如对抗性扰动或噪声/天气破坏。在下一步骤，将这些图像添加到训练集，并重新训练神经网络。这允许通过在其中发现时间稳定性低的序列上训练神经网络来扩展稳定性。然而，这种方法有几个缺点。例如，由于附加图像的必要标记和增加的训练时间，存在附加的成本，这与训练集中的图像数量成正比。

同样，已经提出了所谓的标签传播技术，它们使用来自图像序列的运动信息来创建附加标签。这些附加标签以及它们对应的图像被添加到训练集。之后，神经网络被重新训练。然而，尽管由于用于训练的图像数量增加，标签传播方法允许神经网络显示出改进的准确性，但是在网络的时间稳定性方面没有显著差异。更进一步，类似于对抗性/强化训练，这伴随着训练时间的大量增加。

另一种方法，如Liu等人在“Efficient Semantic Video Segmentation WithPer-Frame Inference”（Proc. of ECCV，第1-22页，英国格拉斯哥，2020年8月）中所描述的，使用像素级时间损失函数来加强语义分割网络的时间一致性。

一种基于平均时间一致性度量来测量语义分割模型的预测的时间稳定性的方式由S.Varghese等人在“Unsupervised Temporal Consistency Metric for VideoSegmentation in Highly-Automated Driving”（Proc. of CVPR -Workshops，第336-337页，美国华盛顿州西雅图，2020年6月）中描述。

更进一步，US 2021/0073589 A1公开了一种用于改进深度神经网络的时间一致性的方法。在那种情况下，用于具有时间一致性的图像处理的网络的训练包括从视频馈送中获得未注释的帧。将预训练的网络应用于多个帧以获得预测，并且确定内容损失项。还基于帧集合的每个帧内的像素的确定的一致性来确定时间一致性损失项。基于内容损失项和时间一致性损失项，预训练的网络可以被改善。

US 2020/0327334 A1描述了一种用于视频帧分割的设备，其包括接收要分割的当前视频帧的接收器。该设备还包括分割神经网络，以接收包括对应于先前帧的分割掩码的先前掩码，并基于先前掩码和视频帧生成当前帧的分割掩码。

DE 10 2017 130 194 A1涉及在可穿戴装置中使用的基于时间一致性的自我监督学习。安装在可穿戴装置中的分类装置从传感器集接收传感器数据，并且使用具有分类器模型参数集的上下文分类器，基于所接收的传感器数据生成原始预测集。时间滤波和启发式滤波被应用于原始预测，产生滤波的预测。从滤波的预测中生成预测误差，并且基于所述预测误差更新分类器模型参数集的模型参数。

发明内容

本发明的一个目的是提供用于训练用于语义图像分割的神经网络的改进的解决方案。

该目的通过根据权利要求1的方法、根据权利要求9的实现此方法的计算机程序以及根据权利要求10的设备来实现。该目的进一步通过根据权利要求13的车内控制单元、根据权利要求14的后端系统和根据权利要求15的交通工具来实现。

从属权利要求包括如下所述的本原理的有利的进一步发展和改进。

根据第一方面，一种用于训练用于语义图像分割的神经网络的方法包括：

-接收图像帧序列的图像数据；

-执行各个图像帧中的一个或多个对象的语义分割预测的基于帧的评估;

-执行至少两个图像帧中的所述一个或多个对象的语义分割预测的时间特性的基于序列的评估；以及

-组合基于帧的评估和基于序列的评估的结果。

因此，一种计算机程序包括指令，所述指令当由计算机执行时，促使计算机执行用于训练用于语义图像分割的神经网络的以下步骤：

-接收图像帧序列的图像数据；

-组合基于帧的评估和基于序列的评估的结果。

术语计算机必须被广义地理解。特别地，它还包括工作站、分布式系统、嵌入式装置和其他基于处理器的数据处理装置。

例如，计算机程序能用于电子检索，或存储在计算机可读存储介质上。

根据另一方面，一种用于训练用于语义图像分割的神经网络的设备包括：

-输入端，被配置成接收两个顺序图像帧的图像数据；

-用于执行各个图像帧中的一个或多个对象的语义分割预测的基于帧的评估的部件；

-用于执行至少两个图像帧中的所述一个或多个对象的语义分割预测的时间特性的基于序列的评估的部件；以及

-用于组合基于帧的评估和基于序列的评估的结果的部件。

根据本发明的解决方案提供用于视频序列的基于对象的训练方案，其允许联合优化语义分割预测的准确性及其时间一致性两者。更进一步，本解决方案可以与现有的感知模块并行地实时运行，以检测不稳定情形。这对于诸如高自动驾驶等安全关键型应用特别有帮助。

在有利的实施例中，执行基于序列的评估包括：确定对于至少两个顺序图像帧的每一个中的所述一个或多个对象的语义分割预测；估计至少两个顺序图像帧中的一个或多个对象之间的位移；将所估计的位移应用于至少两个顺序图像帧的第一个中的所述一个或多个对象的语义分割预测，以生成两个顺序图像帧的第二个中的所述一个或多个对象的预期语义分割预测；以及基于对于两个顺序图像帧的第二个中的一个或多个对象的预期语义分割预测，评估两个顺序图像帧的第二个中的一个或多个对象的语义分割预测。

在有利的实施例中，确定时间一致性损失以用于评估语义分割预测。

在有利的实施例中，执行各个图像帧中的一个或多个对象的语义分割预测的基于帧的评估包括：确定对于两个顺序图像帧之一的语义分割预测；以及确定对于两个顺序图像帧中的所述一个的语义分割预测的交叉熵损失。

在有利的实施例中，通过组合基于帧的评估和基于序列的评估的结果来确定总损失。

在有利的实施例中，总损失是交叉熵损失和时间一致性损失的加权和。

在有利的实施例中，总损失由

给出，其中

对应于总损失，参数α是控制各个损失的影响的损失权重，

是交叉熵损失，而

是时间一致性损失。

在有利的实施例中，损失权重参数α是可变的，并且可以适用于解决基于序列的评估和基于帧的评估之间的权衡。

有利地，车内控制单元可以包括根据本发明的设备，或者可以被配置成执行根据本发明的方法。这种系统可以优选地被用在交通工具中，特别是自主或半自主交通工具中。交通工具可以是任何类型的交通工具，例如汽车、公共汽车、摩托车、商用交通工具，特别是卡车、农业机械、建筑机械、轨道交通工具等。更一般地，本发明能够用在陆地交通工具、轨道交通工具、船舶和飞机中。

更进一步，后端系统可以包括根据本发明的设备，或者可以被配置成执行根据本发明的方法。

附图说明

结合附图，从以下描述和所附权利要求书中，本发明的进一步特征将变得显而易见。

图1示意性地示出根据本发明的用于训练用于语义图像分割的神经网络的方法；

图2示意性地示出根据本发明的实现本发明训练策略的设备的框图；

图3示意性地示出使用本发明的交通工具的框图。

具体实施方式

本描述示出本公开的原理。从而将领会，本领域技术人员将能够想出尽管本文未明确描述或示出但体现本公开的原理的各种布置。

本文阐述的所有示例和有条件语言旨在用于教育目的，以帮助读者理解本公开的原理，以及由发明人为了推进本领域而贡献的概念，并且要被解释为不限于这种具体阐述的示例和条件。

此外，本文阐述本公开的原理、方面和实施例的所有陈述以及其特定示例旨在涵盖其结构和功能等同物两者。此外，这样的等同物旨在包括当前已知的等同物以及将来开发的等同物两者，即，开发的执行相同功能的任何元件，不管结构如何。

从而，例如，本领域技术人员将领会，本文中呈现的示图表示体现本公开原理的说明性电路的概念视图。

附图中所示的各种元件的功能可以通过使用专用硬件以及能够与适当软件关联地执行软件的硬件来提供。所述功能当由处理器提供时，可以由单个专用处理器、由单个共享处理器或者由多个单独的处理器（其中的一些处理器可以是共享的）来提供。此外，术语“处理器”或“控制器”的明确使用不应被解释为排他地指能够执行软件的硬件，并且可以隐含地包括但不限于数字信号处理器（DSP）硬件、用于存储软件的只读存储器（ROM）、随机存取存储器（RAM）和非易失性存储装置。

还可以包括常规的和/或定制的其他硬件。类似地，附图中所示的任何开关仅是概念性的。它们的功能可以通过程序逻辑的操作、通过专用逻辑、通过程序控制和专用逻辑的交互或者甚至手动来实行，可由实现者如从上下文中更具体理解的那样选择特定技术。

在本文的权利要求书中，表述为用于执行所规定功能的部件的任何元件旨在涵盖执行该功能的任何方式，包括例如执行该功能的电路元件的组合或者以任何形式的软件，因此包括固件、微代码等，该软件与用于执行要执行该功能的软件的适当电路组合。由这样的权利要求书所定义的本公开在于这样的事实，即由各种所阐述的部件提供的功能性以权利要求书所要求的方式被组合和集合在一起。从而认为，能够提供那些功能性的任何部件都等同于本文所示的那些部件。

图1示意性地示出根据本发明用于基于用于图像序列的基于对象的训练方案来训练神经网络的方法。特别地，图像序列的图像可以对应于由视频摄像机捕获的视频序列的图像。然而，图像也可以对应于使用紫外、可见或近红外光对对象进行成像的LiDAR传感器的连续图像，或者对应于由另一图像生成传感器提供的图像。

最初，在该方法的第一步骤10中接收图像数据。特别地，由摄像机捕获的视频序列的顺序图像帧可能在视频预处理（以去除伪像、抑制噪声等）之后可以被提供给本发明方法的进一步的步骤。不同种类的摄像机可以用于捕获视频序列，诸如2D或3D摄像机或使用光谱不同部分的摄像机，只要所使用的摄像机的帧速率足够高即可。对于足够高的帧速率，只有连续的并且因此有限的对象跨帧移动。因此，不太可能，对象在一帧中存在，然后在下一帧中不存在，并且然后在下一帧中突然再次存在。

在实时处理的情况下，例如当在具有自动驾驶功能的交通工具的感知模块中实现该方法时，可以将捕获的并且可能预处理的图像帧直接提供给进一步的步骤。然而，在离线模式下，捕获的图像帧也可以被存储在数据库中，并且稍后从该数据库中检索，用于本发明的数据处理。

在步骤11，执行各个图像帧中的一个或多个对象的语义分割预测的基于帧的评估。这是作为监督训练完成的，该训练涉及损失函数，该损失函数在与地面实况标签比较时惩罚网络的不正确预测。对于图像帧的标记的数据集，对于各个图像帧确定语义分割预测，并且使用交叉熵（CE）损失来优化语义分割网络。

在步骤12，执行至少两个图像帧中的对象的语义分割预测的时间特性的基于序列的评估。为了这个目的，对于两个连续的顺序图像帧确定语义分割预测。估计两个顺序图像帧的图像数据之间的位移。为了这个目的，可以使用光流方法来准确地对两个图像帧之间的对象移动建模。这映射了视频中对象的移动和摄像机的移动两者。

将估计的位移应用于两个顺序图像帧中的第一个的语义分割预测，以生成对于两个顺序图像帧中的第二个的预期语义分割预测。基于对于两个顺序图像帧中的第二个的预期语义分割预测，评估两个顺序图像帧中的第二个的语义分割预测。特别地，计算语义分割预测的时间一致性TC，其能被用作优化目标以改进分割预测的稳定性。时间上一致的、或者换句话说稳定的语义分割网络的预测意味着所检测的对象的移动是有限的。

最后，在步骤14，组合基于帧的评估和基于序列的评估的结果。

在下文中，将更详细地描述本发明方法的细节和理论背景。

受监督的语义分割训练：

如上所述，受监督的语义分割训练涉及损失函数，该损失函数在与地面实况标签比较时惩罚网络的不正确预测。这种受监督的训练对于确保在训练过程的第二步骤中维持语义分割的准确性是必要的。在时间t的网络预测的分割掩码

由以下元素组成：

其中类s∈S被指配给类分数y_t中的每个像素i。令

是对应于图像x _t的数据集

中的被标记的地面实况，具有与分割掩码m _t相同的维度。同样，

是三维张量格式的独热编码向量地面实况。对于监督训练，使用网络的后验概率y _t和标签

之间的交叉熵（CE）损失来优化网络。在所有像素上取平均，图像的后验概率

的损失函数被定义为：

其中

是像素的数量，而w _s和是在训练期间指配给每个类的权重。

无监督的时间一致性（TC）损失：

定义了具有视频序列

的顺序且未标记的数据集

，该视频序列包含在离散时刻t∈T={1，2，…，T}的图像帧

。光流函数被用于捕获网络预测稳定性的概念，并估计视频序列内的表观运动。光流估计连续帧

和

之间的每个像素的位移。在

和

之间计算的光流被定义为张量

，其中U是二维逐像素位移的集合

，表示每个像素从

和

的逐坐标移位。

使用由光流块生成的光流张量

，语义分割网络的预测

从时间t-1扭曲到时间t。为了这么做，图像的像素坐标被定义为张量

，其中P=（h，w）是具有h∈{1，…，H}和w∈{1，…，W}的索引对。张量p从而仅包含图像中像素的逐像素坐标，而不携带关于像素强度值的任何信息。

逐像素位移向量

可以被加到原始像素位置p _t-1上以接收张量：

其提供了投影像素坐标

。随后，分割输出

被移位到像素位置

。由于像素坐标

为非整数，近邻取样nearest（）可用于获得网格状结构中的有效整数坐标，与p _t中一样。即，对于

到基于流的估计

的映射被获得为：

因而，

是基于光流在时间t的预期预测，以输入对

和

的改变为条件，这补偿了连续帧中摄像机和对象的移动。理想上，对于好的语义分割模型，网络输出

和基于光流的预测

之间的距离应该是小的。为了加强这一点，应用S.Varghese等人在“Unsupervised Temporal Consistency Metric for Video Segmentation in Highly-Automated Driving”（Proc. of CVPR -Workshops，第336–337页，美国华盛顿州西雅图，2020年6月）中所描述的时间一致性度量解释，将时间一致性定义为两个预测

和

的平均交集（mIoU）。

按照定义，分割掩码

和

之间的mIoU被给出为：

其中

、

和

分别是类特定的真阳性、假阳性和假阴性，它们是针对

计算的，考虑

为参考。

值

指示两者完美重叠，并且网络的预测完全稳定。然而，mIoU度量不能通过梯度下降来优化，因为集合运算是不可微的。为了仍然能够将其用作损失函数的一部分，近似mIoU以确保梯度下降的可微性。使用类概率

和

来对mIoU进行近似，并且该近似由下式给出：

其中

并且

。

向量

包含语义分割网络的预测的逐类稳定性。这可以被想象为在彼此之间进行比较的相同语义类的连通成分。因此，这种损失基于各个类或对象来加强时间稳定性，而不是聚焦于忽略这种基于类的依赖性的像素级。

在时间t的预测和从时间t-1的扭曲预测之间的时间一致性（TC）损失然后被定义为：

注意，由于对于稳定预测，

较大，因此需要最小化损失。

因此，时间一致性损失

通过运动流计算来加强语义分割模型的预测的稳定性，以自我监督的方式给定顺序图像，即不需要标签。

最后，交叉熵损失和时间一致性损失被组合为：

其中，α是控制各个损失影响的损失权重，并且

在数据集X上计算，同时

在数据集

上计算。损失权重α=0指示仅使用

，而α=1指示仅使用

。

以这种方式，针对第二阶段训练，即用于神经网络训练的微调过程，确定总损失

。

图2示意性地示出根据本发明的设备20的框图，其实现本发明的训练策略，用于以自我监督的方式为语义分割网络加强时间一致性。图中所示的独立模块可以由未描绘的控制器控制，并且能被体现为专用硬件单元。当然，它们同样可以完全或部分地组合成单个单元，或者实现为在处理器（例如CPU或GPU）上运行的软件。

数据源21包括具有包含图像帧的视频序列的顺序且未标记的数据集。例如，图像帧可能已经由未示出的视频摄像机生成，该摄像机针对道路景色捕获图像帧的视频序列。数据源可能是本地数据库的一部分。

为了计算时间一致性（TC）损失，从数据源21提供分别对应于离散时刻t-1和t的一对顺序图像帧22。更详细地，两个图像帧都被馈送到光流模块23和语义分割模块24。光流模块23计算对应于这些图像帧中的对象像素的位移的一对顺序图像帧22之间的光流25，并将所计算的光流张量提供给随后的预测扭曲模块26。

在语义分割模块24中，对于两个顺序图像帧确定语义分割预测。从语义分割模块24，第一图像帧在时刻t-1的语义分割预测27被馈送到预测扭曲模块26，而第二图像帧在时刻t的语义分割预测被馈送到时间一致性（TC）损失模块28。

在预测扭曲模块26中，在两个顺序图像帧之间计算的光流张量被用于扭曲从时间t-1到时间t的语义分割的预测，致使预期的分割输出，该输出也被馈送到时间一致性（TC）损失模块28。在时间一致性（TC）损失模块28中，然后计算在时间t的预测和从时间t-1的扭曲预测之间的时间一致性（TC）损失，并且如果期望，对所考虑的视频序列中的所有连续图像对进行平均，以获得平均时间一致性的值。所计算的时间一致性（TC）损失被提供给总损失模块29，并且然后与交叉熵损失一起用在训练过程中。

交叉熵损失是在监督训练过程中确定的。图像帧和用于这些图像帧的地面实况标签分别从数据源30和31提供。数据源30和31还有数据源21可能是独立的，或者例如集成到单个数据库中。

在语义分割模块24中，对图像帧执行语义分割预测，该图像帧被馈送到交叉熵损失模块32。在交叉熵损失模块32中，语义分割预测与地面实况标签相比较，这允许使用交叉熵（CE）损失函数来优化网络，该交叉熵损失函数在与地面实况标签相比较时惩罚网络的不正确预测。交叉熵（CE）损失然后也被提供给总损失模块29，并与时间一致性损失组合以确定总损失。

图3示意性地示出交通工具40的俯视图，其中自动驾驶或驾驶员辅助功能可以使用根据本发明的所谓观察者的感知系统中的经训练的语义图像分割网络。交通工具40特别地可以是客车或卡车。

交通工具包括用于训练如上所述的语义图像分割网络的设备20，该设备能被设计为例如交通工具40的控制单元，并且能具有一个或多个微控制器或微处理器。

此外，交通工具包括捕获交通工具的交通工具周围环境的至少一个交通工具摄像机41，例如前摄像机、后摄像机和/或侧摄像机。由一个或多个交通工具摄像机生成的图像或视频数据经由交通工具中的数字数据总线42被馈送到设备20，该设备如上所述处理图像帧的图像数据。

更进一步，交通工具还可以具有至少一个另外的传感器43，诸如雷达或 LiDAR传感器，其允许检测交通工具周围环境并确定交通工具与交通工具周围环境中的对象之间的距离。为了定位交通工具，导航单元44可以接收GPS信号，并且可能还分析高精度地图数据和传感器支持的交通工具周围环境的地标检测。

在交通工具40中，还提供了感知模块45，其基于所获得的分割数据、传感器数据和位置数据来检测、分类和跟踪交通工具周围环境中的对象，并将对象信息提供给辅助单元46。

辅助单元46基于该信息和交通工具的其他数据和参数，诸如交通工具的当前位置、速度和加速度，提供诸如交通工具的自动化纵向和横向引导之类的辅助功能。

更进一步，还可以考虑关于当前天气或天气条件的数据，这些数据可以由交通工具中的适当传感器记录或者也能从外部提供给交通工具。例如，当前的外部温度可以用交通工具中的外部温度传感器来确定，而关于当前风力条件的数据经由移动数据无线电链路来接收。

此外，交通工具可以具有图3中未示出的其他组件。例如，交通工具还能被配备有车载连接模块，该模块能被用于与后端服务器进行移动通信以交换数据。

附图标记

10接收两个顺序图像帧的图像数据

11执行语义分割预测的基于帧的评估

12执行语义分割预测的时间特征的基于序列的评估

13组合基于帧的评估和基于序列的评估的结果

20设备

21数据源

22顺序图像帧

23光流模块

24语义分割模块

25光流

26预测扭曲模块

27语义分割预测

28时间一致性损失模块

29总损失模块

30，31数据源

32交叉熵损失模块

40交通工具

41摄像机

42数字数据总线

43另外的传感器

44导航单元

45感知模块

46辅助单元

Claims

1.一种用于训练用于语义图像分割的神经网络的方法，所述方法包括：

-接收（10）图像帧序列的图像数据；

-执行（11）各个图像帧中的一个或多个对象的语义分割预测的基于帧的评估;

-执行（12）至少两个图像帧中的所述一个或多个对象的语义分割预测的时间特性的基于序列的评估；以及

-组合（13）所述基于帧的评估和所述基于序列的评估的结果。

2.根据权利要求1所述的方法，其中，执行（12）所述基于序列的评估包括：

-确定对于至少两个顺序图像帧的每一个中的所述一个或多个对象的语义分割预测；

-估计至少两个顺序图像帧中的所述一个或多个对象之间的位移；

-将所估计的位移应用于所述至少两个顺序图像帧的第一个中的所述一个或多个对象的所述语义分割预测，以生成所述两个顺序图像帧的第二个中的所述一个或多个对象的预期语义分割预测；以及

-基于对于所述两个顺序图像帧的第二个中的所述一个或多个对象的所述预期语义分割预测，评估所述两个顺序图像帧的第二个中的所述一个或多个对象的所述语义分割预测。

3.根据权利要求2所述的方法，其中，确定时间一致性损失以用于评估所述语义分割预测。

4.根据权利要求2或3所述的方法，其中，执行各个图像帧中的一个或多个对象的语义分割预测的基于帧的评估包括：

-确定对于所述两个顺序图像帧之一的语义分割预测；以及

-确定对于所述两个顺序图像帧中的所述一个的所述语义分割预测的交叉熵损失。

5.根据权利要求4所述的方法，其中，通过组合（13）所述基于帧的评估和所述基于序列的评估的结果来确定总损失。

6.根据权利要求5所述的方法，其中，所述总损失是所述交叉熵损失和所述时间一致性损失的加权和。

7.根据权利要求6所述的方法，其中，所述总损失由下式给出：

其中，

对应于所述总损失，参数α是控制各个损失的影响的损失权重，

是所述交叉熵损失，而

是所述时间一致性损失。

8.根据权利要求7所述的方法，其中，损失权重参数α是可变的，并且可以适用于解决所述基于序列的评估和所述基于帧的评估之间的权衡。

9.一种包括指令的计算机程序，所述指令当由计算机执行时，促使所述计算机执行根据权利要求1至8中任一项所述的方法。

10.一种用于训练用于语义图像分割的神经网络的设备（20），所述设备（20）包括：

-输入端，被配置成接收两个顺序图像帧的图像数据；

-用于执行（24，32）各个图像帧中的一个或多个对象的语义分割预测的基于帧的评估的部件；

-用于执行（23，24，26，28）至少两个图像帧中的所述一个或多个对象的语义分割预测的时间特性的基于序列的评估的部件；以及

-用于组合（29）所述基于帧的评估和所述基于序列的评估的结果的部件。

11.根据权利要求10所述的设备（20），其中，用于执行所述基于序列的评估的所述部件包括：

-语义分割模块（24），用于确定对于至少两个顺序图像帧的每一个中的所述一个或多个对象的语义分割预测；

-光流模块（23），用于估计至少两个顺序图像帧中的所述一个或多个对象之间的位移；

-预测扭曲模块（26），用于将所估计的位移应用于所述至少两个顺序图像帧的第一个中的所述一个或多个对象的所述语义分割预测，以生成所述两个顺序图像帧的第二个中的所述一个或多个对象的预期语义分割预测；以及

-时间一致性损失模块（28），用于基于对于所述两个顺序图像帧的第二个中的所述一个或多个对象的所述预期语义分割预测，评估所述两个顺序图像帧的第二个中的所述一个或多个对象的所述语义分割预测。

12.根据权利要求10或11所述的设备（20），其中，用于执行对各个图像帧中的一个或多个对象的语义分割预测的基于帧的评估的所述部件包括：

-语义分割模块（24），用于确定对于所述两个顺序图像帧之一的语义分割预测；以及

-交叉熵损失模块（32），用于确定对于所述两个顺序图像帧中的所述一个的所述语义分割预测的交叉熵损失。

13.一种车内控制单元，其中，所述车内控制单元包括根据权利要求10所述的设备，或者被配置成执行根据权利要求1至8中任一项所述的方法。

14.一种后端系统，其中，所述后端系统包括根据权利要求10所述的设备，或者被配置成执行根据权利要求1至8中任一项所述的方法。

15.一种交通工具（40），其中，所述交通工具（40）包括根据权利要求13的车内控制单元。