CN113450360A

CN113450360A - 基于点云的3d语义分割

Info

Publication number: CN113450360A
Application number: CN202011566096.XA
Authority: CN
Inventors: 余坤; Y·郝; L·李; Z·朱
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2020-03-25
Filing date: 2020-12-25
Publication date: 2021-09-28
Also published as: EP3886043A1; US20210303912A1; US11380086B2

Abstract

提供了用于三维(3D)语义分割的系统和技术。一种用于3D语义分割的设备包括：接口，该接口用于获得3D帧的时间排序序列的点云数据集，3D帧包括当前3D帧和在当前3D帧之前的一个或多个历史3D帧；以及处理电路系统，该处理电路系统用于：调用第一人工神经网络(ANN)以通过将当前3D帧作为参考帧来估计一个或多个历史3D帧中的每一者的3D场景流场；以及调用第二ANN以：基于一个或多个历史3D帧中的每一者的估计的3D场景流场和参考帧来产生经聚合特征图；以及基于经聚合特征图执行3D语义分割。

Description

基于点云的3D语义分割

技术领域

本文描述的实施例总体上涉及计算机视觉技术，并且更具体地，涉及基于点云的三维(3D)语义分割。

背景技术

自主或半自主机动车技术(通常被称为汽车中的“自动驾驶”或“辅助驾驶”操作)正在商用级和消费级车辆中快速发展和部署。这些系统使用传感器阵列来连续地观察车辆的运动和周围环境。常见的传感器技术之一是光检测和测距(LiDAR)。LiDAR是一种系统，其组合激光、全球定位系统(GPS)和惯性导航系统(INS)技术以获得点云并生成准确的地面数字高程模型(DEM)。

在自主或半自主机动车技术中，语义分割可用于提供关于道路上的其他车辆、行人和其他物体的信息，以及关于车道标志、路缘和其他相关物品。准确的语义分割在自动驾驶的安全性中起着重要作用。

附图说明

在不一定按比例绘制的附图中，相同标号可以描述不同视图中的类似组件。具有不同字母后缀的相同标号可以表示类似组件的不同实例。附图总体上通过示例而非限制的方式示出了本文档中讨论的各种实施例。

图1示出了根据本公开的实施例的点云数据中的部分遮挡障碍物的示例情形。

图2示出了根据本公开的实施例的图解二维(2D)光流和对应的3D场景流之间的关系的示例情形。

图3示出了根据本公开的实施例的用于基于点云的3D语义分割以及说明性处理流程的示例系统。

图4示出了根据本公开的实施例的具有安装在其上的LiDAR的车辆。

图5示出了使用图3的示例系统基于图1的示例情形的点云数据来执行3D语义分割的说明性处理流程。

图6示出了根据本公开的实施例的用于基于点云的3D语义分割的神经网络的示意图。

图7示出了图6的神经网络的示例工作流。

图8示出了根据本公开的实施例的用于基于点云的3D语义分割的训练神经网络的示意图。

图9是示出根据本公开的实施例的用于基于点云的3D语义分割的方法的示例的流程图。

图10是示出根据本公开的实施例的用于训练用于基于点云的3D语义分割的神经网络的方法的示例的流程图。

图11是示出根据本公开的实施例的用于基于点云的3D语义分割的方法的示例的流程图。

图12是示出可以在其上实现一个或多个实施例的机器的示例的框图。

图13是示出根据本公开的实施例的计算设备的示例性硬件和软件架构的图形。

图14是示出根据本公开的实施例的可使用的处理设备的框图。

图15是示出根据本公开的实施例的中央处理单元(CPU)的示例组件的框图。

具体实施方式

将使用本领域技术人员通常采用的术语来描述说明性实施例的各个方面，以将本公开的实质传达给本领域的其他技术人员。然而，对本领域技术人员将显而易见的是，可以使用所描述的各方面中的部分来实践许多替代实施例。出于解释的目的，阐述了具体的数字、材料和配置以提供对说明性实施例的透彻理解。然而，对本领域技术人员将显而易见的是，可在没有这些具体细节的情况下实践替代实施例。在其他实例中，可能已经省略或简化了公知的特征以便避免模糊说明性实施例。

进一步地，将按在理解说明性实施例时最有帮助的方式轮流地将各种操作描述为多个分立操作；然而，不应将描述的次序解释为暗示这些操作必然依赖于次序。特别地，不需要按照呈现的次序执行这些操作。

短语“在实施例中”、“在一个实施例中”和“在一些实施例中”在本文中被反复地使用。该短语通常不指代同一实施例；但它可以指代同一实施例。术语“包括(comprising)”、“具有”和“包括(including)”是同义词，除非上下文另有规定。短语“A或B”和“A/B”意味着“(A)、(B)、或(A和B)”。

各种语义分割技术可以基于由各种传感器提供的数据。当使用LiDAR来观察车辆的周围环境时，数据被提供为点云数据，也可被称为LiDAR点云。基于点云数据的语义分割几乎是自动驾驶的感知模块中最重要的功能。语义分割的常规方法是将点云数据的维数减少到2D，然后执行2D语义分割。语义分割的另一方法是基于当前帧的点云数据。然而，这些方法仅聚焦于单帧分割，并且没有考虑历史帧的点云数据，使得这些方法容易受到LiDAR数据噪声的影响。当处理部分遮挡障碍物(这在点云数据中是常见的)的情形时，这些方法尤其低效。图1示出了根据本公开的实施例的点云数据中的部分遮挡障碍物的示例情形100。如在图1中可以看出，由箭头110指示的车辆被由箭头120指示的另一车辆遮挡。图1的情形是示例并且不意味着限制本公开。可能有其他情形，例如，行人可被车辆、树木或其他物体遮挡。

本申请的实施例提供了用于基于3D帧的时间排序序列的点云数据集执行3D语义分割的架构，该3D帧的时间排序序列包括当前3D帧和在当前3D帧之前的一个或多个历史3D帧。3D帧的时间排序序列的点云数据集可由安装在车辆上的LiDAR捕获。

如本文所使用的，短语“当前3D帧”意指当前感兴趣的3D帧或要对其执行3D语义分割的3D帧；并且短语“历史3D帧”意指在当前3D帧之前发生的3D帧。

如本文所使用的，术语“3D场景流”意指在场景中的点的3D运动场。本文使用的“3D场景流”可以与“3D光流”、“3D流”、“距离流”、“场景流”等互换。

如本文所使用的，术语“2D光流”意指对应的3D场景流的透视投影。图2示出了根据本公开的实施例的图解2D光流和对应的3D场景流之间的关系的示例情形。如图2所示，

是3D点

的3D速度，并且

是

的2D图像，即，

是

的透视投影。当

从时间t到时间t’以位移

移动到

时，其图像

以位移

δt移动到

其中δt＝t’-t和f是用于成像的传感器的焦距。在该情形中，

被称为图像速度或2D光流。

如本文所使用的，术语“流网(FlowNet)3D”是指用于3D场景流估计的端对端(EPE)深度学习架构。

如本文所使用的，术语“EPE损失函数”通常是指端对端点误差。具体而言，端对端点误差测量估计的流向量(其包括2D和3D版本)到地面真值(ground truth)流向量之间的平均欧几里得距离(即，L2距离)。EPE损失函数用于训练人工神经网络(ANN)，诸如众所周知的流网/流网2.0和流网3D等。

接下来，为了简单起见，将2D RGB图像用于解释特征扭曲(warping)。例如，被表示为f₀的帧包括像素p₀(x₀,y₀)。像素p₀(x₀,y₀)在紧接在帧f₀之后的被表示为f₁的帧中具有新位置p₁(x₁,y₁)。可将流估计网络(例如，流网或流网2.0)用于估计帧f₀中的p₀的速度(u,v)。随后，可通过(x₀,y₀)+(u,v)δt＝(x₁,y₁)来估计帧f₁中的新位置p₁，其中δt是两个帧之间的时间差。可在帧f₀中的所有像素上执行上述操作，以便获得被表示为帧f₁’的预测的帧。从帧f₀到f₁’的过程被称为原始图像扭曲。对于由深度学习优化算法产生的特征图，该过程是类似的。假设基于参考帧I_i和在参考帧之前的帧I_j由流网络F(例如，流网)产生流场M_i->j＝F(I_i,I_j)。根据流场M_i->j，可以通过扭曲函数将与帧I_j相关联的特征图扭曲到参考值I_i。扭曲函数被定义为f_j->i＝W(f_j,M_i->j)＝W(f_j,F(I_i,I_j))，其中W(.)是应用于特征图中的每个通道的所有位置上的双线性扭曲函数，f_j->i表示从帧I_j扭曲到帧I_i的特征图，并且f_j表示在没有任何特征扭曲操作的情况下的帧I_j的特征图。

如本文所使用的，术语“特征聚合”是指将参考帧的特征图与和参考帧相邻的一个或多个帧的经扭曲特征图(包括历史帧或未来帧)组合成较小的特征图集。一般而言，可以将和参考帧相邻的一个或多个帧与参考帧聚合以获得经聚合的帧。

如本文所使用的，术语“语义分割”可包括“2D语义分割”和“3D语义分割”。2D语义分割是指将图像中每个像素链接到类别标签的过程，所述类别标签例如可包括人、车辆、自行车、树木、路缘、路面等。3D语义分割与2D语义分割类似，除了操作对象是红绿蓝深度(RGBD)图像或点云集而不是2D图像。

如本文所使用的，术语“人工神经网络(ANN)”是神经网络的统称，其可以与神经网络、深度神经网络(DNN)、深度学习网络等等互换。

如本文所使用的，术语“全卷积网络(full convolution network，FCN)”是指著名的端对端2D语义分割深度学习架构，并且术语“U网(U-net)”是指另一个著名的端对端2D语义分割深度学习架构。

如本文所使用的，术语“点网(PointNet)”是指端对端3D语义分割深度学习架构。

如本文所使用的，术语“Softmax”是指损失函数，该损失函数将K个实数的向量作为输入，并且将该向量归一化成概率分布，该概率分布由和该K个实数的指数成比例的K个概率组成。在本文中，Softmax损失函数用于训练2D或3D语义分割网络。

图3示出了根据本公开的实施例的用于基于点云的3D语义分割以及说明性处理流程的示例系统300。如图所示，系统由多个子系统、组件、电路、模块或引擎组成，为了简洁和一致性起见，它们被称为引擎，尽管将理解这些术语可以互换地使用。在硬件或在由软件或固件控制的硬件中实现引擎。因此，引擎是专门用于执行指定操作的有形实体并且以某种方式进行构造。

在示例中，电路系统可以以指定方式(例如，内部地或关于外部实体(诸如其他电路))布置为引擎。在示例中，一个或多个硬件处理器的全部或部分可由固件或软件(例如，指令、应用部分、或应用)配置为操作来执行指定操作的引擎。在示例中，软件可以驻留在有形机器可读存储介质上。在示例中，软件在由引擎的底层硬件执行时使硬件执行指定操作。因此，引擎被物理地构造、或具体地配置(例如，硬连线)、或临时地配置(例如，被编程)为以指定方式操作或执行本文描述的任何操作中的部分或全部。

考虑其中引擎被临时地配置的示例，不需要在任何一个时刻处实例化每个引擎。例如，在引擎包括使用软件配置的通用硬件处理器核的情况下；通用硬件处理器核可以在不同时间被配置为相应的不同引擎。例如，软件可以相应地配置硬件处理器核以在一个时间实例处构成特定引擎并且在不同的时间实例处构成不同的引擎。

在实施例中，系统300可被安装在具有LiDAR的车辆上，如图4所示的。系统300可用于提供沿车辆路线的周围环境的3D语义分割结果，以用于与自动车辆控制系统一起使用。在另一实施例中，系统300可以实现在与车辆通信地连接的远程服务器上。

如图所示，系统300可包括输入接口310以从LiDAR、网络或本地存储器接收点云数据集。在实施例中，点云数据集包括3D帧的时间排序序列的点云数据。如在分界线右侧上所示的，3D帧的时间排序序列可包括帧_i、帧_i-1、……、帧_i-k，其中i和k是正整数并且k<i。如本文所使用的，帧_i是当前3D帧，并且帧_i-1、……、帧_i-k是历史3D帧。应该针对在帧_i中所示的点(例如，汽车尾部的点云数据)执行3D语义分割。可以看出，因为如图1所示的部分遮挡，所以对于仅基于当前帧执行语义分割的传统语义分割架构，这些点不足以正确地执行语义分割。

系统300可包括场景流估计引擎320以执行针对以帧_i作为参考帧的帧_i-1、……、帧_i-k的3D场景流估计。可基于3D场景流估计来预测帧_i-1、……、帧_i-k上的每个点的速度。如在分界线右侧上所示的，在帧_i-1、……、帧_i-k上的“箭头(→)”模拟每个点的速度。

系统300可包括特征扭曲引擎330以基于针对帧的3D场景流估计来获得对应于帧_i-1、……、帧_i-k中的每一个帧的经扭曲特征图。例如，帧_i-1、……、帧_i-k上的每个点的位移可以根据预测的速度和在包括该点的帧与参考帧之间的对应的时间差来预测。对应于帧_i-1、……、帧_i-k中的每一者的经扭曲3D帧可以基于帧_i-1、……、帧_i-k中的每一者上的每个点的预测位移和该点在历史3D帧中的初始位置(例如，坐标)来获得。对应于帧_i-1、……、帧_i-k中的每一者的经扭曲特征图可以基于对应于帧_i-1、……、帧_i-k中的每一者的经扭曲3D帧来获得。作为另一示例，对应于帧_i-1、……、帧_i-k中的每一者的经扭曲特征图可以通过基于帧_i-1、……、帧_i-k中的每一者的估计的3D场景流场对帧_i-1、……、帧_i-k中的每一者的原始特征图进行扭曲来获得。

系统300可包括特征聚合引擎340以将对应于帧_i-1、……、帧_i-k的经扭曲特征图与参考帧(即，帧_i)的原始特征图聚合，从而产生经聚合特征图。

系统300可进一步包括语义分割引擎350以基于经聚合特征图来执行针对帧_i中所示的点的3D语义分割。如由说明性处理流程所示，语义分割引擎350根据由帧_i-1、……、帧_i-k提供的历史信息来正确地标识：帧_i上的点属于汽车。

将针对在当前帧中的所有点类似地执行上述过程。随后，语义分割引擎350可以获得并输出3D语义分割的结果。如图所示，可将3D语义分割的结果呈现为具有不同标签的3D图以标识不同的物体。

系统300还可包括输出接口360以输出3D语义分割的结果。在实施例中，输出接口360可以被连接到屏幕以显示3D语义分割的结果。在另一实施例中，输出接口360可被连接到收发器以用于将3D语义分割的结果传输到与系统300通信地连接的设备。可以由自主车辆控制系统使用3D语义分割的结果来做出关于驾驶策略的决定。

在实施例中，可以通过ANN和支持ANN的处理电路系统来实现场景流估计引擎320、特征扭曲引擎330、特征聚合引擎340和语义分割引擎350。例如，可以通过如上所述的流网3D来实现场景流估计引擎320，并且可以通过如上所述的点网来实现特征扭曲引擎330、特征聚合引擎340和语义分割引擎350。

图4示出了根据本公开的实施例的具有安装在其上的LiDAR410的车辆400。例如，车辆400可以是自主车辆。当车辆沿道路行驶时，LiDAR410可用于连续地捕获车辆的周围环境的点云数据。随后，LiDAR 410可以向图3的系统300提供捕获的点云数据以用于周围环境的3D语义分割。在示例中，可以在车辆400上安装多于一个LiDAR 410。例如，车辆400可具有指向不同方向的多个LiDAR 410。车辆400还可具有指向相对于车辆的相同或相似方向、但安装在不同位置处的多个LiDAR 410。虽然本文讨论的是单LiDAR车辆，但是也可以使用多LiDAR车辆，其中可由不同LiDAR捕获点云数据中的一些或全部、或可以从自多个LiDAR捕获的点云数据的合成创建点云数据中的一些或全部。在本上下文中，实时操作以不可感知的或标称的处理延迟操作，使得以与捕获周围环境的3D点云数据的速率一致的速率来获得周围环境的3D语义分割。

图5示出了使用图3的示例系统300基于图1的示例情形100的点云数据来执行3D语义分割的说明性处理流程。如上所述，在图1中，由箭头110指示的车辆被由箭头120指示的车辆遮挡。

在510处，将原始3D帧(包括帧_i、帧_i-1、……、帧_i-k(其中i和k是正整数并且k<i))的时间排序序列的点云数据集输入到系统300中。在520处，由场景流估计引擎320处理点云数据集，以参考帧_i估计帧_i-1、……、帧_i-k中的每一者的3D场景流场。在530处，对应于帧_i-1、……、帧_i-k中的每一者的经扭曲特征图由特征扭曲引擎330基于该对应帧的估计的3D场景流场来获得。在540处，通过特征聚合引擎340将对应于帧_i-1、……、帧_i-k的经扭曲特征图与帧_i的原始特征图聚合，以产生经聚合特征图。例如，可以由3D特征提取引擎(其可以是ANN的子网络)从帧_i提取帧_i的原始特征图。在550处，由语义分割引擎350基于经聚合特征图执行3D语义分割。

对于在520处的3D场景流场估计，可将帧_j(j＝i-1、……、i-k)的3D场景流场定义为

在530处，根据每个历史3D帧的3D场景流场将历史3D帧的原始特征图扭曲到参考帧。原始特征图可以是表示用于为每个帧提取原始特征图的3D特征提取子网络的N_特征的输出。扭曲函数可被定义为：

其中W(.)是应用于特征图中的每个通道的所有位置上的三线性扭曲函数，并且f_j->i表示从历史3D帧(帧_j)扭曲到参考帧(帧_i)的特征图，并且f_j表示在没有任何特征扭曲操作的情况下的帧_j的特征图。

对于在530处的特征扭曲，在实施例中，对应于帧_i-1、……、帧_i-k中的每一者的经扭曲3D特征图可以通过以下方式来获得：基于对应帧的估计的3D场景流场和该帧与帧_i之间的相应时间差预测帧_i-1、……、帧_i-k中的每一者上的每个点的位移；基于帧_i-1、……、帧_i-k中的每一者上的每个点的预测位移和该点在历史3D帧中的初始坐标获得对应于帧_i-1、……、帧_i-k中的每一者的经扭曲3D帧；以及获得对应于帧_i-1、……、帧_i-k中的每一者的经扭曲3D帧的特征图。在实施例中，在540处，可以将对应于帧_i-1、……、帧_i-k中的每一者的经扭曲3D帧的特征图与帧_i的原始特征图进行聚合以产生经聚合特征图。

对于在530处的特征扭曲，在另一实施例中，对应于帧_i-1、……、帧_i-k中的每一者的经扭曲特征图可以通过基于帧_i-1、……、帧_i-k中的每一者的估计的3D场景流场对帧_i-1、……、帧_i-k中的每一者的原始特征图进行扭曲来获得。在实施例中，在540处，可以将帧_i-1、……、帧_i-k中的每一者的经扭曲特征图与帧_i的原始特征图进行聚合以产生经聚合特征图。该方法往往达到更好的结果，因为ANN的端对端训练过程中将涉及特征图的选择。

也就是说，在540处的特征聚合期间，参考帧(即，帧_i)的原始特征图累积来自历史3D帧(即，帧_i-1、……、帧_i-k)的多个特征图。这些特征图提供用于3D语义分割的丰富且多样的信息，尤其是针对如由图1所示的部分遮挡障碍物情形的。

在实施例中，在特征聚合过程期间，可以对不同的历史3D帧(即，帧_i-1、……、帧_i-k)应用不同权重。例如，可以为不同空间位置分配不同权重，并且在相同空间位置处的所有特征通道可以共享同一权重。作为结果，帧_i-1、……、帧_i-k中的每一者的权重可以基于该帧的空间位置。特别地，帧_i-1、……、帧_i-k中的每一者的权重可以是基于该帧到帧_i的时间上的接近度。在上下文中，从帧_i-1、……、帧_i-k中的每一者到帧_i的特征扭曲可被表示为f_j->i，j＝i-1、……、i-k，并且要应用于经扭曲特征图的对应权重可被表示为w_j->i。随后，在参考帧(帧_i)处的经聚合特征图

可被表示为：

可以看出，k定义了用于聚合的历史帧的范围。

作为另一示例，可以将自适应权重应用于帧_i-1、……、帧_i-k中的每一者。自适应权重指示对应的历史3D帧对于参考帧(帧_i)的重要性。在一方面，如果在位置p处的经扭曲特征图f_j->i(p)在时间上接近帧_i的原始特征图(即，f_i(p))，则它将被分配较大的权重；否则，它将被分配较小的权重。本文中使用余弦相似度度量来测量经扭曲特征图与参考帧的原始特征图之间的相似度。将微小网络Γ(.)应用于特征图f_i and f_j->i，以将特征图投影到新的嵌入物以用于相似度测量，类似于如由Xizhou Zhu等在他们的文章“Flow-GuidedFeatureAggregation for Video Object Detection(用于视频物体检测的流引导的特征聚合)”(arXiv预印本arXiv:1703.10025,2017)中描述的，该文献通过引用以其整体并入本文。作为结果，到用于计算权重的层的输入是Γ(N_特征)而不是N_特征本身。要应用于经扭曲特征图f_j->i(p)的对应权重可以被表示为w_j->i(p)，可通过以下公式来估计w_j->i(p)：

其中3Df^e＝Γ(N_特征)表示用于相似度测量的3D嵌入特征图。可通过针对在历史3D帧上的每个空间位置p归一化w_j→i(p)来获得权重w_j→i。在另一方面，可通过历史3D帧到参考帧的(例如，在时间上的)接近度和在历史3D帧中的感兴趣的物体的遮挡程度来确定对应的历史3D帧对于参考帧的重要性。

在550处，可将经聚合特征图

馈送到语义分割引擎350中以获得结果：

其中N_分割表示3D语义分割子网络。

图6示出了根据本公开的实施例的用于基于点云的3D语义分割的神经网络600的示意图。已经训练神经网络600用于直接从3D帧的时间排序序列的点云数据产生3D语义分割结果。因此，神经网络600能够快速响应并且没有可感知的延迟。3D语义分割结果可用于辅助自主车辆控制系统确定驾驶策略。

将3D帧的时间排序序列的点云数据集作为输入提供给神经网络600。3D帧可包括当前3D帧(表示为帧_i)和在当前3D帧之前的一个或多个历史3D帧(表示为帧_i-k、帧_i-(k-1)、……、帧_i-1，其中i和k是正整数并且k<i)。神经网络600产生3D语义分割的结果作为输出。例如，3D语义分割的结果可呈现为具有不同标签以标识不同物体的3D图、或任何其他格式以向自主车辆控制系统发信号。

神经网络600可包括用于处理帧_i-k、帧_i-(k-1)、……、帧_i-1和帧_i中的每一者的架构。能够由神经网络600处理的历史3D帧的数量可能受支持该神经网络的硬件的性能限制。用于历史3D帧(即，帧_i-k、帧_i-(k-1)、……、帧_i-1)的架构是类似的，在本文中该架构被称为架构-H。在本文中，用于当前3D帧(帧_i)的架构被称为架构-R，因为在整个过程期间将帧_i作为参考帧。

将用于帧_i-k的架构-H作为示例，如图所示，架构-H可包括场景流估计子网络610以估计帧_i-k的3D场景流场。3D场景流场为稍后的特征扭曲提供了基础。例如，场景流估计子网络610可以是流网3D或能够实现类似操作的任何其他网络。

架构-H可包括特征提取子网络620以产生帧_i-k的原始特征图。原始特征图是特征扭曲的操作对象。例如，特征提取子网络620可以是点网的一部分，该部分可被称为“点网特征(PointNetFeat)”。

架构-H可包括特征扭曲层630，以基于由场景流估计子网络610估计的3D场景流场并且参考帧_i、对由特征提取子网络620产生的原始特征图进行扭曲。特征扭曲层630可以产生帧_i-k的经扭曲特征图并且获得伴随该经扭曲特征图的自适应权重。经扭曲特征图和自适应权重两者都将参与稍后的特征聚合。特征扭曲层630也可以是点网的一部分。

对于另一个历史3D帧，架构-H可包括类似组件以实现与帧_i-k类似的操作。在架构-H的处理之后，可以获得所有历史3D帧的经扭曲特征图和对应的自适应权重。经扭曲特征图和对应的自适应权重提供特征聚合的操作对象。

如上所述，架构-R用于处理参考帧：帧_i。架构-R可包括特征提取子网络620以产生帧_i的原始特征图。帧_i的原始特征图提供特征聚合的另一个操作对象。例如，特征提取子网络620可以是点网的一部分，该部分可被称作“点网特征”。

接下来，神经网络600可包括特征聚合层640。特征聚合层640可以将帧_i-k、帧_i-(k-1)、……、帧_i-1中的每一者的经扭曲特征图以及对应的自适应权重聚合到帧_i的原始特征图以获得经聚合特征图，该经聚合特征图累积来自历史3D帧的丰富且多样的信息。例如，特征聚合层640也可以是点网的一部分。

神经网络600可包括3D语义分割子网络650。3D语义分割子网络650基于来自特征聚合层640的经聚合特征图执行3D语义分割，以输出3D语义分割的结果。例如，3D语义分割子网络650也可以是点网的一部分，该部分可被称作“点网分割(PointNetSeg)”。

应注意，为了执行特征扭曲，应将帧_i-k、帧_i-(k-1)、……、帧_i-1中的每一者的3D场景流场的特征图大小与同一帧的原始特征图的特征图大小对齐。进一步地，为了执行特征聚合，应将帧_i-k、帧_i-(k-1)、……、帧_i-1中的每一者的经扭曲特征图的特征图大小与帧_i的原始特征图的特征图大小对齐。在实施例中，用于帧_i-k、帧_i-(k-1)、……、帧_i-1中的每一者的场景流估计子网络610可包括对齐层(未示出)以将帧_i-k、帧_i-(k-1)、……、帧_i-1中的每一者的3D场景流场的特征图大小与同一帧的原始特征图的特征图大小对齐。在另一实施例中，用于帧_i-k、帧_i-(k-1)、……、帧_i-1和帧_i中的每一者的特征提取子网络620可包括对齐层(未示出)以将帧_i-k、帧_i-(k-1)、……、帧_i-1中的每一者的原始特征图的特征图大小与同一帧的3D场景流场的特征图大小对齐，并且将帧_i的原始特征图的特征图大小与帧_i-k、帧_i-(k-1)、……、帧_i-1中的任一者的原始特征图的特征图大小对齐。

图7示出了图6的神经网络600的示例工作流。

图8示出了根据本公开的实施例的用于基于点云的3D语义分割的训练神经网络800的示意图。训练神经网络800可用于训练图6的神经网络600的每个层的可训练参数。

如图所示，将3D帧的时间排序序列的点云数据集作为输入提供给训练神经网络800。3D帧可包括当前3D帧(表示为帧_i)和在当前3D帧之前的一个或多个历史3D帧(表示为帧_i-k、帧_i-(k-1)、……、帧_i-1，其中i和k是正整数并且k<i)。训练神经网络800使用损失函数(例如，Softmax)来评估网络的性能。

与神经网络600不同，训练神经网络800可包括丢弃(dropout)层810以从k个历史3D帧中随机选择一个。如图8所示，所选择的历史3D帧被表示为帧_x，其中x＝i-k、i-(k-1)、……、i-1。丢弃层810可防止训练神经网络800过度拟合。

训练神经网络800可包括场景流估计子网络820以估计帧_x的3D场景流场。例如，场景流估计子网络820可以是流网3D或能够实现类似操作的任何其他网络。

训练神经网络800可包括特征提取子网络830以产生帧_x的原始特征图。例如，特征提取子网络830可以是点网的一部分，该部分可被称为“点网特征”。

训练神经网络800可包括特征扭曲层840，以基于由场景流估计子网络820估计的3D场景流场并且参考帧_i、对由特征提取子网络830产生的原始特征图进行扭曲。特征扭曲层840可以产生帧_x的经扭曲特征图并且获得伴随该经扭曲特征图的自适应权重。经扭曲特征图和自适应权重两者都将参与稍后的特征聚合。特征扭曲层840也可以是点网的一部分。

训练神经网络800可包括特征提取子网络850以产生帧_i的原始特征图。例如，特征提取子网络850可以是点网的一部分，该部分可被称为“点网特征”。

接下来，训练神经网络800可包括特征聚合层860。特征聚合层860可以将帧_x的经扭曲特征图以及对应的自适应权重聚合到帧_i的原始特征图以获得经聚合特征图。例如，特征聚合层860也可以是点网的一部分。

训练神经网络800可包括3D语义分割子网络870。3D语义分割子网络870基于来自特征聚合层860的经聚合特征图来执行3D语义分割。例如，3D语义分割子网络870也可以是点网的一部分。

如上所述，可基于损失函数880来评估训练神经网络800的性能。当损失函数880的结果足够小(诸如，在预定义的阈值之下)时，获得可适用的神经网络。训练神经网络800将重复运行以训练在场景流估计子网络820、特征提取子网络830、特征扭曲层840、特征提取子网络850、特征聚合层860以及3D语义分割子网络870(它们被统称为点网)的各层之间的可训练参数。训练点网的各层之间的可训练参数的过程可以被称为“反向传播”。

在神经网络的训练期间，也可以通过重复运行训练神经网络800来训练伴随历史3D帧中的每一者的经扭曲特征图的自适应权重。经训练的自适应权重将与经训练的神经网络一起应用在图6的神经网络600中。

图9是示出根据本公开的实施例的用于基于点云的3D语义分割的方法900的示例的流程图。使用计算硬件(诸如上文或下文描述的计算硬件(例如，处理电路系统))来执行方法的操作。在一些方面中，可以由图6的神经网络600来执行方法900。在其他方面中，机器可读存储介质可以存储与方法900相关联的指令，该指令在被执行时可使机器执行方法900。

在910处，方法900包括获得3D帧的时间排序序列的点云数据集。3D帧包括当前3D帧和在当前3D帧之前的一个或多个历史3D帧。举例而言，可从车载式LiDAR获得点云数据集。也可从存储点云数据集的本地或远程数据库获得点云数据集。

在920处，参考当前3D帧估计一个或多个历史3D帧中的每一者的3D场景流场。

在930处，产生一个或多个历史3D帧中的每一者的原始特征图。应注意，操作930可以与操作920同步地或异步地发生，本公开中对此没有限制。

在940处，通过基于对应的历史3D帧的3D场景流场对对应的历史3D帧的原始特征图进行扭曲来产生一个或多个历史3D帧中的每一者的经扭曲特征图以及自适应权重。稍后在960处的特征聚合操作中可以考虑到自适应权重。

在950处，产生当前3D帧的原始特征图。应注意，操作950可以与操作920到940中的任一者同时发生，本公开中对此没有限制。

在960处，通过将一个或多个历史3D帧中的每一者的经扭曲特征图与当前3D帧的原始特征图进行聚合来产生经聚合特征图。

在970处，基于经聚合特征图来执行3D语义分割。

尽管一些操作是按顺序示出的，但是并不意味着限制这些操作必须根据所示次序来执行。例如，一些操作可以同时发生，或者一些操作的次序可以颠倒。

图10是示出根据本公开的实施例的用于训练用于基于点云的3D语义分割的神经网络的方法1000的示例的流程图。使用计算硬件(诸如上文或下文描述的计算硬件(例如，处理电路系统))来执行方法的操作。在一些方面中，可以由图8的训练神经网络800来执行方法1000。在其他方面中，机器可读存储介质可以存储与方法1000相关联的指令，该指令在被执行时可使机器执行方法1000。

在1010处，方法1000包括获得3D帧的时间排序序列的点云数据集。3D帧包括当前3D帧和在当前3D帧之前的一个或多个历史3D帧。举例而言，可从车载式LiDAR获得点云数据集。也可从存储点云数据集的本地或远程数据库获得点云数据集。

在1020处，从一个或多个历史3D帧中随机选择历史3D帧。

在1030处，通过训练神经网络(诸如图8的训练神经网络800)基于所选择的历史3D帧的前向传播处理来产生测试结果。

在1040处，应用损失函数来评估测试结果，以产生损失值。例如，损失函数可以是Softmax。

在1050处，通过训练神经网络经由基于损失函数的反向传播细化训练神经网络的可训练参数来降低损失值。

在1060处，提供经细化的可训练参数以配置用于推理的神经网络(诸如图6的神经网络600)。

在1030处的所选择的历史3D帧的前向传播处理可包括：在1031处估计所选择的历史3D帧的3D场景流场；以及在1032处产生所选择的历史3D帧的原始特征图。应注意，操作1031可以与操作1032同步地或异步地发生，本公开中对此没有限制。

在1030处的所选择的历史3D帧的前向传播处理可进一步包括：在1033处，通过基于所选择的历史3D帧的3D场景流场对所选择的历史3D帧的原始特征图进行扭曲来产生所选择的历史3D帧的经扭曲特征图以及自适应权重。

在1030处的所选择的历史3D帧的前向传播处理可进一步包括：在1034处，产生当前3D帧的原始特征图。应注意，操作1034可以与操作1031到1033中的任一者同时发生，本公开中对此没有限制。

在1030处的所选择的历史3D帧的前向传播处理可进一步包括：在1035处，通过将所选择的历史3D帧的经扭曲特征图与当前3D帧的原始特征图进行聚合来产生经聚合特征图。

在1030处的所选择的历史3D帧的前向传播处理可进一步包括：在1036处，基于经聚合特征图来执行3D语义分割。测试结果包括3D语义分割的结果。

图11是示出根据本公开的实施例的用于基于点云的3D语义分割的方法1100的示例的流程图。使用计算硬件(诸如上文或下文描述的计算硬件(例如，处理电路系统))来执行方法的操作。在一些方面中，可由图3的系统300或图4的车辆400中的计算设备来执行方法1100。在其他方面中，机器可读存储介质可以存储与方法1100相关联的指令，该指令在被执行时可使机器执行方法1100。

在1110处，方法1100包括获得3D帧的时间排序序列的点云数据集。3D帧包括当前3D帧和在当前3D帧之前的一个或多个历史3D帧。举例而言，可从车载式LiDAR获得点云数据集。也可从存储点云数据集的本地或远程数据库获得点云数据集。

在1120处，调用第一人工神经网络(ANN)以通过将当前3D帧作为参考帧来估计一个或多个历史3D帧中的每一者的3D场景流场。

在1130处，调用第二ANN以基于一个或多个历史3D帧中的每一者的估计的3D场景流场和参考帧来产生经聚合特征图，并基于该经聚合特征图执行3D语义分割。

在一些实施例中，可将第一ANN和第二ANN集成到单个ANN中，诸如图6中所描述的神经网络600。可以结合地或分开地训练第一ANN和第二ANN，本公开中对此没有限制。

图12示出了可以在其上执行在本文所讨论的技术(例如，方法论)中的任何一者或多者的示例机器1200的框图。如本文所描述的示例可以包括机器1200中的逻辑或多个组件或机制或者可以通过所述逻辑或多个组件或机制操作。电路系统(例如，处理电路系统)是在包括硬件(例如，简单电路、门、逻辑等)的机器1200的有形实体中实现的电路的集合。电路系统成员身份随时间可以是灵活的。电路系统包括可以单独或组合地在操作时执行指定操作的成员。在示例中，电路系统的硬件可以被永恒地设计成执行特定操作(例如，硬连线的)。在示例中，电路系统的硬件可以包括可变地连接的物理组件(例如，执行单元、晶体管、简单电路等)，所述物理组件包括被物理地修改(例如，对不变的大量粒子的磁性地、电气地、可移动地进行放置等)以对特定操作的指令进行编码的机器可读介质。在连接物理组件时，硬件组分的底层电气性质被改变，例如从绝缘体变成导体或反之亦然。所述指令使得嵌入式硬件(例如，执行单元或加载机制)能够通过可变连接在硬件中创建电路系统的成员，从而在操作中时执行特定操作的部分。因此，在示例中，机器可读介质元件是电路系统的一部分或在设备正操作时通信地耦合到电路系统的其他组件。在示例中，物理组件中的任一者可以用在多于一个电路系统的多于一个的成员中。例如，在运行时，执行单元可以在一个时间点处用在第一电路系统的第一电路中，并在不同的时间处由第一电路系统中的第二电路、或由第二电路系统中的第三电路重新使用。以下是关于机器1200的这些组件的附加示例。

在示例中，机器1200可作为独立设备进行操作或者可以连接(例如，联网)到其他机器。在联网部署中，机器1200在服务器-客户端网络环境中可以以服务器机器、客户端机器或两者的能力进行操作。在示例中，机器1200可以充当对等(P2P)(或其他分布式)网络环境中的对等机器。机器1200可以是个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、移动电话、web电器、网络路由器、交换机或桥、或能够执行指定要由所述机器采取的动作的(顺序或以其他方式)指令的任何机器。此外，尽管仅示出了单个机器，但术语“机器”还应被认为包括机器的任何集合，其可独立地或结合地执行一组(或多组)指令来执行本文所讨论的方法中的任何一项或多项方法(诸如云计算、软件即服务(SaaS)或其他计算机集群配置)。

机器(例如，计算机系统)1200可包括：硬件处理器1202(例如，中央处理单元(CPU)、图形处理单元(GPU)、硬件处理器核、或它们的任何组合)、主存储器1204、静态存储器(例如，用于固件、微代码、基本输入输出(BIOS)、统一可扩展固件接口(UEFI)等的存储器或存储)1206、以及大容量存储1208(例如，硬盘驱动器、磁带驱动器、闪存、或其他块设备)，所述组件中的一些或全部组件可以经由互链路(例如，总线)1230彼此通信。机器1200可以进一步包括显示单元1210、字母数字输入设备1212(例如，键盘)和用户界面(UI)导航设备1214(例如，鼠标)。在示例中，显示单元1210、输入设备1212和UI导航设备1214可以是触摸屏显示器。机器1200可以附加地包括存储设备(例如，驱动单元)1208、信号生成设备1218(例如，扬声器)、网络接口设备1220、以及一个或多个传感器1216(诸如，LiDAR、全球定位系统(GPS)传感器、指南针、加速度计或其他传感器)。机器1200可以包括输出控制器1228，诸如串行(例如，通用串行总线(USB))、并行或其他有线或无线(例如，红外(IR)、近场通信(NFC)等)连接以便通信或控制一个或多个外围设备(例如，打印机、读卡器等)。

处理器1202的寄存器、主存储器1204、静态存储器1206或大容量存储1208可以是或可包括机器可读介质1222，其上存储有一组或多组数据结构或指令1224(例如，软件)，所述一组或多组数据结构或指令1224体现本文所描述的技术或功能中的任何一种或多种或由本文所描述的技术或功能中的任何一种或多种来利用。指令1224还可以在机器1200执行它们期间完全地或至少部分地驻留在处理器1202的寄存器内、主存储器1204内、静态存储器1206内或大容量存储1208内。在示例中，硬件处理器1202、主存储器1204、静态存储器1206或大容量存储1208中的一者或任何组合可以构成机器可读介质1222。虽然机器可读介质1222被示出为单个介质，但是术语“机器可读介质”可以包括被配置成用于存储一个或多个指令1224的单个介质或多个介质(例如，集中式或分布式数据库，和/或相关联的高速缓存和服务器)。

术语“机器可读介质”可以包括能够存储、编码或承载用于由机器1200执行的指令且使机器1200执行本公开的技术中的任何一种或多种的任何介质或能够存储、编码或承载由此类指令使用或与此类指令相关联的数据结构的任何介质。非限制性机器可读介质示例可以包括固态存储器、光介质、磁介质和信号(例如，射频信号、其他基于光子的信号、声音信号等)。在示例中，非瞬态机器可读介质包括具有多个粒子的机器可读介质，这些粒子具有不变(例如，静止)质量并且因此是物质的组成。因此，非瞬态机器可读介质是不包括瞬态传播信号的机器可读介质。非瞬态机器可读介质的具体示例可包括：非易失性存储器，诸如半导体存储器设备(例如，电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM))和闪存设备；磁盘，诸如内置硬盘和可移动盘；磁光盘；以及CD-ROM和DVD-ROM盘。

在示例中，存储在机器可读介质1222上或以其他方式提供在机器可读介质1222上的信息可以表示指令1224，诸如指令1224本身或可从中导出指令1224的格式。可以从中导出指令1224的格式可包括：源代码、(例如，以压缩或加密形式的)经编码指令、经封包指令(例如，分成多个包)等等。在机器可读介质1222中的表示指令1224的信息可由处理电路系统处理成指令以实现本文中讨论的操作中的任一者。例如，从(例如由处理电路系统处理的)信息中导出指令1224可包括：(例如，从源代码、目标代码等)编译、解释、加载、组织(例如，动态地或静态地链接)、编码、解码、加密、解密、打包、拆包、或以其他方式将信息操纵为指令1224。

在示例中，指令1224的导出可包括(例如，通过处理电路系统)对信息的汇编、编译或解释，以从由机器可读介质1222提供的一些中间或预处理格式来创建指令1224。当信息以多个部分提供时，可以将其组合、拆包和修改以创建指令1224。例如，信息可以位于一个或若干个远程服务器上的多个压缩的源代码包(或目标代码、或二进制可执行代码等)中。可以在通过网络进行传输时对源代码包进行加密，并且在本地机器处对其进行解密、解压缩、(如果需要的话)汇编(例如，进行链接)、以及编译或解释(例如，成为库、独立可执行文件等)，并由本地机器执行。

可以利用多种传输协议(例如，帧中继、互联网协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP)、超文本传输协议(HTTP)等)中的任何一种协议经由网络接口设备1220使用传输介质通过通信网络1226来进一步传送或接收指令1224。示例通信网络可以包括：局域网(LAN)、广域网(WAN)、分组数据网络(例如，因特网)、移动电话网络(例如，蜂窝网络)、普通老式电话(POTS)网络、以及无线数据网络(例如，被称为

的电气与电子工程师协会(IEEE)802.11标准系列、被称为

的IEEE 802.16标准系列)、IEEE802.15.4标准系列、对等(P2P)网络等等。在示例中，网络接口设备1220可以包括一个或多个物理插孔(例如，以太网、同轴或电话插孔)或一个或多个天线以用于连接到通信网络1226。在示例中，网络接口设备1220可以包括多个天线以用于使用单输入多输出(SIMO)、多输入多输出(MIMO)或多输入单输出(MISO)技术中的至少一种技术来进行无线通信。术语“传输介质”应被视为包括能够存储、编码或承载用于由机器1200执行的指令的任何无形介质，并且包括数字或模拟通信信号或用于促进此类软件的通信的其他无形介质。传输介质是机器可读介质。

图13是示出计算设备的示例性硬件和软件架构的图形，其中示出了硬件组件和软件组件之间的各种接口。如由HW所指示的，硬件组件被表示在分界线下方，而由SW所标示的软件组件驻留在分界线上方。在硬件侧上，处理设备1302(其可包括一个或多个微处理器、数字信号处理器等，每一者具有一个或多个处理器核)与存储器管理设备1304和系统互连1306相对接。存储器管理设备1304提供由正在执行的进程使用的虚拟存储器和物理存储器之间的映射。存储器管理设备1304可以是中央处理单元的组成部分，该中央处理单元还包括处理设备1302。

互连1306包括背板(诸如存储器线、数据线和控制线)以及与输入/输出设备的接口(例如，PCI、USB等)。存储器1308(例如，动态随机存取存储器，DRAM)和非易失性存储器1309(诸如闪存(例如，电可擦除只读存储器(EEPROM)、NAND闪存、NOR闪存等))经由存储器控制器1310与存储器管理设备1304和互连1306相对接。在示例中，该架构可以支持外围设备的直接存储器访问(DMA)。包括视频和音频适配器，非易失性存储、外部外围设备链接(诸如USB、蓝牙等)、以及网络接口设备(诸如经由Wi-Fi或LTE系列接口通信的那些网络接口设备)的I/O设备被集体地表示为I/O设备和联网1312，I/O设备和联网1312经由对应的I/O控制器1314与互连1306相对接。

在软件侧上，在初始系统启动时执行预操作系统(预OS)环境1316，并且预操作系统(预OS)环境1316负责发起操作系统的开机。预OS环境1316的一个传统示例是系统的基本输入/输出系统(BIOS)。在当今系统中，实现了统一可扩展固件接口(UEFI)。预OS环境1316负责发起操作系统的启动，但是还提供根据本发明的某些方面的用于嵌入式应用的执行环境。

操作系统(OS)1318提供核，该核控制硬件设备、管理存储器中的程序的存储器访问、协调任务并促进多任务执行、组织要存储的数据、分配存储器空间和其他资源、将程序二进制代码加载到存储器中、发起应用程序的执行(其随后与用户和硬件设备交互)、以及检测并响应于各种定义的中断。此外，操作系统1318提供设备驱动器以及各种公共服务(诸如促进与外围设备和联网的对接的那些服务)，设备驱动器以及各种公共服务为应用程序提供抽象，使得应用不需要负责处理此类公共操作的细节。操作系统1318附加地提供图形用户界面(GUI)，图形用户界面经由外围设备(诸如监视器、键盘、鼠标、麦克风、视频相机、触摸屏等)促进与用户的交互。

运行时(runtime)系统1320实现执行模块的诸部分，包括诸如在函数调取之前将参放到堆栈上、盘输入/输出(I/O)行为、以及与并行执行相关的行为之类的操作。运行时系统1320还可以执行诸如类型检查、调试或代码生成和优化之类的支持服务。

库1322包括提供针对应用程序的进一步抽象的程序函数的集合。这些包括共享的库，例如，动态链接库(DLL)。库1322可以被集成到操作系统1318、运行时系统1320，或者可以是附加特征，或者甚至可以是远程托管的。库1322定义应用程序接口(API)，应用程序1324可以通过应用程序接口进行各种功能调取以调用由操作系统1318提供的服务。应用程序1324是执行超出由低级系统程序执行的协调计算机设备本身的基础可操作性的任务的、对用户有用的任务的那些程序。

图14是示出根据本公开的实施例的可使用的处理设备1402的框图。在示例中，所描绘的处理设备1402中的两个或更多个处理设备1402形成在公共的半导体基板上CPU1440可包含一个或多个处理核1442，根据处理器的具体架构，每个处理核1442具有一个或多个算术逻辑单元(ALU)、指令取出单元、指令解码单元、控制单元、寄存器、数据堆栈指针、程序计数器、和其他必要的组件。作为说明性示例，CPU 1440可以是x86类型的处理器。处理设备1402还可以包括图形处理单元(GPU)1444。在示例中，GPU 1444可以是专用协处理器，专用协处理器从CPU 1440中转移某些计算密集型操作，尤其是与图形渲染相关联的那些计算密集型操作。值得注意的是，CPU 1440和GPU 1444通常协作地工作，共享对存储器资源、I/O通道等的访问。

在示例中，处理设备1402还可包括看守(caretaker)处理器1446。看守处理器1446通常不像CPU 1440和GPU 1444那样参与处理工作以执行软件代码。在示例中，看守处理器1446不与CPU 1440和GPU 1444共享存储器空间，并且因此未被布置成执行操作系统或应用程序。替代地，看守处理器1446可以执行支持CPU 1440、GPU 1444以及计算机系统的其他组件的技术工作的专用固件。在示例中，看守处理器被实现为微控制器设备，微控制器设备可以在物理上存在于与CPU 1440相同的集成电路管芯上，或者可存在于不同的集成电路管芯上。看守处理器1446还可包括一组专用I/O设施以使其能够与外部实体通信。在一种类型的实施例中，使用可管理性引擎(ME)或平台安全处理器(PSP)来实现看守处理器1446。输入/输出(I/O)控制器1448协调各种处理设备1440、1444、1446之间的信息流，以及与外部电路系统(诸如系统互连)的信息流。

图15是示出根据本公开的实施例的CPU 1540的示例组件的框图。如图所示，CPU1540包括一个或多个核1552、高速缓存1554以及CPU控制器1556，CPU控制器1556协调核1552的互操作和任务执行、以及提供接口以促进CPU 1540的各种内部组件之间的数据流以及与外部组件(诸如存储器总线或系统互连)的数据流。在一个实施例中，CPU 1540的所有示例组件形成在公共的半导体基板上。

CPU 1540包括非易失性存储器1558(例如，闪存、EEPROM等)以用于存储基础代码的某些部分(诸如初始化引擎)和微代码。此外，CPU1540可以与外部(例如，形成在分开的IC上)非易失性存储器设备1560相对接，外部非易失性存储器设备1560存储由初始化引擎启动的基础代码(诸如系统BIOS或UEFI代码)。

以下提供一些非限制性示例。示例中的每一者本身是单独的实施例。

示例1是一种用于三维(3D)语义分割的设备，包括：接口，该接口用于获得3D帧的时间排序序列的点云数据集，该3D帧包括当前3D帧和在当前3D帧之前的一个或多个历史3D帧；以及处理电路系统，该处理电路系统用于：调用第一人工神经网络(ANN)以通过将当前3D帧作为参考帧来估计一个或多个历史3D帧中的每一者的3D场景流场；以及调用第二ANN以：基于一个或多个历史3D帧中的每一者的估计的3D场景流场和参考帧来产生经聚合特征图；以及基于经聚合特征图执行3D语义分割。

在示例2中，示例1的主题包括，其中第一ANN包括用于一个或多个历史3D帧中的每一者的场景流估计子网络。

在示例3中，示例2的主题包括，其中场景流估计子网络包括流网3D。

在示例4中，示例1-3的主题包括，其中第二ANN包括点网。

在示例5中，示例1-4的主题包括，其中第二ANN包括用于一个或多个历史3D帧中的每一者的特征提取子网络和用于当前3D帧的特征提取子网络，以生成一个或多个历史3D帧中的每一者的原始特征图和当前3D帧的原始特征图。

在示例6中，示例5的主题包括，其中第二ANN包括用于一个或多个历史3D帧中的每一者的对齐层，以将一个或多个历史3D帧中的每一者的原始特征图与3D场景流场对齐。

在示例7中，示例5的主题包括，其中第一ANN包括用于一个或多个历史3D帧中的每一者的对齐层，以将一个或多个历史3D帧中的每一者的3D场景流场与原始特征图对齐。

在示例8中，示例1-7的主题包括，其中第二ANN包括用于一个或多个历史3D帧中的每一者的特征扭曲层，以通过基于一个或多个历史3D帧中的每一者的3D场景流场对一个或多个历史3D帧中的每一者的原始特征图进行扭曲来获得一个或多个历史3D帧中的每一者的经扭曲特征图。

在示例9中，示例8的主题包括，其中第二ANN包括用于当前3D帧的对齐层，以将当前3D帧的原始特征图与一个或多个历史3D帧中的每一者的经扭曲特征图对齐。

在示例10中，示例8-9的主题包括，其中第二ANN包括特征聚合层，以将一个或多个历史3D帧中的每一者的经扭曲特征图与当前3D帧的原始特征图进行聚合，从而产生经聚合特征图。

在示例11中，示例8-10的主题包括，其中特征扭曲层用于产生一个或多个历史3D帧中的每一者的经扭曲特征图以及自适应权重；并且特征聚合层用于将一个或多个历史3D帧中的每一者的经扭曲特征图乘以自适应权重的结果与当前3D帧的原始特征图进行聚合，从而产生经聚合特征图。

在示例12中，示例11的主题包括，其中一个或多个历史3D帧中的每一者的经扭曲特征图的自适应权重由对应的历史3D帧到参考帧的接近度和在对应的历史3D帧中的感兴趣的物体的遮挡程度的组合来确定。

在示例13中，示例1-3的主题包括，其中第二ANN被配置成通过以下方式产生经聚合特征图：基于一个或多个历史3D帧中的每一者的估计的3D场景流场来预测在一个或多个历史3D帧的点云数据中的每个点的位移；基于在一个或多个历史3D帧的点云数据中的每个点的预测的位移以及该点在对应的历史3D帧中的初始位置来获得一个或多个历史3D帧中的每一者的经扭曲3D帧；从历史3D帧的经扭曲3D帧中获得一个或多个历史3D帧中的每一者的经扭曲特征图；以及将一个或多个历史3D帧中的每一者的经扭曲特征图聚合到当前3D帧的原始特征图。

在示例14中，示例1-13的主题包括，其中第二ANN包括3D语义分割子网络，以基于经聚合特征图执行3D语义分割。

在示例15中，示例14的主题包括，其中3D语义分割子网络包括点网分割。

在示例16中，示例1-15的主题包括，其中第一ANN和第二ANN被集成到单个ANN中。

示例17是一种用于三维(3D)语义分割的方法，包括：获得3D帧的时间排序序列的点云数据集，该3D帧包括当前3D帧和在当前3D帧之前的一个或多个历史3D帧；调用第一人工神经网络(ANN)以通过将当前3D帧作为参考帧来估计一个或多个历史3D帧中的每一者的3D场景流场；以及调用第二ANN以：基于一个或多个历史3D帧中的每一者的估计的3D场景流场和参考帧来产生经聚合特征图；以及基于经聚合特征图执行3D语义分割。

在示例18中，示例17的主题包括，其中第一ANN包括用于一个或多个历史3D帧中的每一者的场景流估计子网络。

在示例19中，示例18的主题包括，其中场景流估计子网络包括流网3D。

在示例20中，示例17-19的主题包括，其中第二ANN包括点网。

在示例21中，示例17-20的主题包括，其中第二ANN包括用于一个或多个历史3D帧中的每一者的特征提取子网络和用于当前3D帧的特征提取子网络，以生成一个或多个历史3D帧中的每一者的原始特征图和当前3D帧的原始特征图。

在示例22中，示例21的主题包括，其中第二ANN包括用于一个或多个历史3D帧中的每一者的对齐层，以将一个或多个历史3D帧中的每一者的原始特征图与3D场景流场对齐。

在示例23中，示例21的主题包括，其中第一ANN包括用于一个或多个历史3D帧中的每一者的对齐层，以将一个或多个历史3D帧中的每一者的3D场景流场与原始特征图对齐。

在示例24中，示例17-23的主题包括，其中第二ANN包括用于一个或多个历史3D帧中的每一者的特征扭曲层，以通过基于一个或多个历史3D帧中的每一者的3D场景流场对一个或多个历史3D帧中的每一者的原始特征图进行扭曲来获得一个或多个历史3D帧中的每一者的经扭曲特征图。

在示例25中，示例24的主题包括，其中第二ANN包括用于当前3D帧的对齐层，以将当前3D帧的原始特征图与一个或多个历史3D帧中的每一者的经扭曲特征图对齐。

在示例26中，示例24-25的主题包括，其中第二ANN包括特征聚合层，以将一个或多个历史3D帧中的每一者的经扭曲特征图与当前3D帧的原始特征图进行聚合，从而产生经聚合特征图。

在示例27中，示例24-25的主题包括，其中特征扭曲层用于产生一个或多个历史3D帧中的每一者的经扭曲特征图以及自适应权重；并且特征聚合层用于将一个或多个历史3D帧中的每一者的经扭曲特征图乘以自适应权重的结果与当前3D帧的原始特征图进行聚合，从而产生经聚合特征图。

在示例28中，示例27的主题包括，其中一个或多个历史3D帧中的每一者的经扭曲特征图的自适应权重由对应的历史3D帧到参考帧的接近度和在对应的历史3D帧中的感兴趣的物体的遮挡程度的组合来确定。

在示例29中，示例17-19的主题包括，其中第二ANN被配置成通过以下方式产生经聚合特征图：基于一个或多个历史3D帧中的每一者的估计的3D场景流场来预测在一个或多个历史3D帧的点云数据中的每个点的位移；基于在一个或多个历史3D帧的点云数据中的每个点的预测的位移以及该点在对应的历史3D帧中的初始位置来获得一个或多个历史3D帧中的每一者的经扭曲3D帧；从历史3D帧的经扭曲3D帧中获得一个或多个历史3D帧中的每一者的经扭曲特征图；以及将一个或多个历史3D帧中的每一者的经扭曲特征图聚合到当前3D帧的原始特征图。

在示例30中，示例17-29的主题包括，其中第二ANN包括3D语义分割子网络，以基于经聚合特征图执行3D语义分割。

在示例31中，示例30的主题包括，其中3D语义分割子网络包括点网分割。

在示例32中，示例17-31的主题包括，其中第一ANN和第二ANN被集成到单个ANN中。

示例33是一种机器可读存储介质，具有存储在其上的指令，该指令在由处理器执行时使处理器执行用于三维(3D)语义分割的操作，所述操作包括：获得3D帧的时间排序序列的点云数据集，该3D帧包括当前3D帧和在当前3D帧之前的一个或多个历史3D帧；调用第一人工神经网络(ANN)以通过将当前3D帧作为参考帧来估计一个或多个历史3D帧中的每一者的3D场景流场；以及调用第二ANN以：基于一个或多个历史3D帧中的每一者的估计的3D场景流场和参考帧来产生经聚合特征图；以及基于经聚合特征图执行3D语义分割。

在示例34中，示例33的主题包括，其中第一ANN包括用于一个或多个历史3D帧中的每一者的场景流估计子网络。

在示例35中，示例34的主题包括，其中场景流估计子网络包括流网3D。

在示例36中，示例33-35的主题包括，其中第二ANN包括点网。

在示例37中，示例33-36的主题包括，其中第二ANN包括用于一个或多个历史3D帧中的每一者的特征提取子网络和用于当前3D帧的特征提取子网络，以生成一个或多个历史3D帧中的每一者的原始特征图和当前3D帧的原始特征图。

在示例38中，示例37的主题包括，其中第二ANN包括用于一个或多个历史3D帧中的每一者的对齐层，以将一个或多个历史3D帧中的每一者的原始特征图与3D场景流场对齐。

在示例39中，示例37的主题包括，其中第一ANN包括用于一个或多个历史3D帧中的每一者的对齐层，以将一个或多个历史3D帧中的每一者的3D场景流场与原始特征图对齐。

在示例40中，示例33-39的主题包括，其中第二ANN包括用于一个或多个历史3D帧中的每一者的特征扭曲层，以通过基于一个或多个历史3D帧中的每一者的3D场景流场对一个或多个历史3D帧中的每一者的原始特征图进行扭曲来获得一个或多个历史3D帧中的每一者的经扭曲特征图。

在示例41中，示例40的主题包括，其中第二ANN包括用于当前3D帧的对齐层，以将当前3D帧的原始特征图与一个或多个历史3D帧中的每一者的经扭曲特征图对齐。

在示例42中，示例40-41的主题包括，其中第二ANN包括特征聚合层，以将一个或多个历史3D帧中的每一者的经扭曲特征图与当前3D帧的原始特征图进行聚合，从而产生经聚合特征图。

在示例43中，示例40-41的主题包括，其中特征扭曲层用于产生一个或多个历史3D帧中的每一者的经扭曲特征图以及自适应权重；并且特征聚合层用于将一个或多个历史3D帧中的每一者的经扭曲特征图乘以自适应权重的结果与当前3D帧的原始特征图进行聚合，从而产生经聚合特征图。

在示例44中，示例43的主题包括，其中一个或多个历史3D帧中的每一者的经扭曲特征图的自适应权重由对应的历史3D帧到参考帧的接近度和在对应的历史3D帧中的感兴趣的物体的遮挡程度的组合来确定。

在示例45中，示例33-35的主题包括，其中第二ANN被配置成通过以下方式产生经聚合特征图：基于一个或多个历史3D帧中的每一者的估计的3D场景流场来预测在一个或多个历史3D帧的点云数据中的每个点的位移；基于在一个或多个历史3D帧的点云数据中的每个点的预测的位移以及该点在对应的历史3D帧中的初始位置来获得一个或多个历史3D帧中的每一者的经扭曲3D帧；从历史3D帧的经扭曲3D帧中获得一个或多个历史3D帧中的每一者的经扭曲特征图；以及将一个或多个历史3D帧中的每一者的经扭曲特征图聚合到当前3D帧的原始特征图。

在示例46中，示例33-45的主题包括，其中第二ANN包括3D语义分割子网络，以基于经聚合特征图执行3D语义分割。

在示例47中，示例46的主题包括，其中3D语义分割子网络包括点网分割。

在示例48中，示例33-47的主题包括，其中第一ANN和第二ANN被集成到单个ANN中。

示例49是一种系统，包括根据示例1-17中任一者所述的用于3D语义分割的设备。

示例50是一种用于三维(3D)语义分割的设备，包括：用于获得3D帧的时间排序序列的点云数据集的装置，该3D帧包括当前3D帧和在当前3D帧之前的一个或多个历史3D帧；用于调用第一人工神经网络(ANN)以通过将当前3D帧作为参考帧来估计一个或多个历史3D帧中的每一者的3D场景流场的装置；以及用于调用第二ANN的装置以用于：基于一个或多个历史3D帧中的每一者的估计的3D场景流场和参考帧来产生经聚合特征图，以及基于经聚合特征图执行3D语义分割。

在示例51中，示例50的主题包括，其中第一ANN包括用于一个或多个历史3D帧中的每一者的场景流估计子网络。

在示例52中，示例51的主题包括，其中场景流估计子网络包括流网3D。

在示例53中，示例50-52的主题包括，其中第二ANN包括点网。

在示例54中，示例50-53的主题包括，其中第二ANN包括用于一个或多个历史3D帧中的每一者的特征提取子网络和用于当前3D帧的特征提取子网络，以生成一个或多个历史3D帧中的每一者的原始特征图和当前3D帧的原始特征图。

在示例55中，示例54的主题包括，其中第二ANN包括用于一个或多个历史3D帧中的每一者的对齐层，以将一个或多个历史3D帧中的每一者的原始特征图与3D场景流场对齐。

在示例56中，示例54的主题包括，其中第一ANN包括用于一个或多个历史3D帧中的每一者的对齐层，以将一个或多个历史3D帧中的每一者的3D场景流场与原始特征图对齐。

在示例57中，示例50-56的主题包括，其中第二ANN包括用于一个或多个历史3D帧中的每一者的特征扭曲层，以通过基于一个或多个历史3D帧中的每一者的3D场景流场对一个或多个历史3D帧中的每一者的原始特征图进行扭曲来获得一个或多个历史3D帧中的每一者的经扭曲特征图。

在示例58中，示例57的主题包括，其中第二ANN包括用于当前3D帧的对齐层，以将当前3D帧的原始特征图与一个或多个历史3D帧中的每一者的经扭曲特征图对齐。

在示例59中，示例57-58的主题包括，其中第二ANN包括特征聚合层，以将一个或多个历史3D帧中的每一者的经扭曲特征图与当前3D帧的原始特征图进行聚合，从而产生经聚合特征图。

在示例60中，示例57-58的主题包括，其中特征扭曲层用于产生一个或多个历史3D帧中的每一者的经扭曲特征图以及自适应权重；并且特征聚合层用于将一个或多个历史3D帧中的每一者的经扭曲特征图乘以自适应权重的结果与当前3D帧的原始特征图进行聚合，从而产生经聚合特征图。

在示例61中，示例60的主题包括，其中一个或多个历史3D帧中的每一者的经扭曲特征图的自适应权重由对应的历史3D帧到参考帧的接近度和在对应的历史3D帧中的感兴趣的物体的遮挡程度的组合来确定。

在示例62中，示例50-52的主题包括，其中第二ANN被配置成通过以下方式产生经聚合特征图：基于一个或多个历史3D帧中的每一者的估计的3D场景流场来预测在一个或多个历史3D帧的点云数据中的每个点的位移；基于在一个或多个历史3D帧的点云数据中的每个点的预测的位移以及该点在对应的历史3D帧中的初始位置来获得一个或多个历史3D帧中的每一者的经扭曲3D帧；从历史3D帧的经扭曲3D帧中获得一个或多个历史3D帧中的每一者的经扭曲特征图；以及将一个或多个历史3D帧中的每一者的经扭曲特征图聚合到当前3D帧的原始特征图。

在示例63中，示例50-62的主题包括，其中第二ANN包括3D语义分割子网络，以基于经聚合特征图执行3D语义分割。

在示例64中，示例63的主题包括，其中3D语义分割子网络包括点网分割。

在示例65中，示例50-64的主题包括，其中第一ANN和第二ANN被集成到单个ANN中。

示例66是一种对用于三维(3D)语义分割的神经网络进行训练的装置，包括：接口，该接口用于获得3D帧的时间排序序列的点云数据集，3D帧包括当前3D帧和在当前3D帧之前的一个或多个历史3D帧；以及处理电路系统，该处理电路系统用于：从一个或多个历史3D帧中随机选择历史3D帧；通过训练神经网络基于所选择的历史3D帧的前向传播处理来产生测试结果；应用损失函数来评估测试结果以产生损失值；通过训练神经网络经由基于损失函数的反向传播来细化训练神经网络的可训练参数来降低损失值；以及提供经细化的可训练参数以配置用于3D语义分割的神经网络。

在示例67中，示例66的主题包括，其中测试结果包括基于经聚合特征图的3D语义分割的结果。

在示例68中，示例67-68的主题包括，其中训练神经网络将包括场景流估计子网络，以估计所选择的历史3D帧的3D场景流场。

在示例69中，示例68的主题包括，其中训练神经网络将包括用于所选择的历史3D帧的特征提取子网络，以产生所选择的历史3D帧的原始特征图。

在示例70中，示例69的主题包括，其中训练神经网络将包括定位在场景流估计子网络之后的对齐层，以将所选择的历史3D帧的3D场景流场与原始特征图对齐。

在示例71中，示例69-70的主题包括，其中训练神经网络将包括特征扭曲层，以通过基于所选择的历史3D帧的3D场景流场对所选择的历史3D帧的原始特征图进行扭曲来获得所选择的历史3D帧的经扭曲特征图。

在示例72中，示例68-71的主题包括，其中场景流估计子网络包括流网3D。

在示例73中，示例69-72的主题包括，其中特征提取子网络包括点网特征。

在示例74中，示例69-73的主题包括，其中训练神经网络将包括用于当前3D帧的特征提取子网络，以产生当前3D帧的原始特征图。

在示例75中，示例74的主题包括，其中训练神经网络将包括：定位在用于所选择的历史3D帧的特征提取子网络之后的对齐层，以将所选择的历史3D帧的原始特征图与3D场景流场对齐；以及定位在用于当前3D帧的特征提取子网络之后的对齐层，以将当前3D帧的原始特征图与所选择的历史3D帧的经扭曲特征图对齐。

在示例76中，示例73-75的主题包括，其中训练神经网络将包括特征聚合层，以将所选择的历史3D帧的经扭曲特征图与当前3D帧的原始特征图进行聚合，从而产生经聚合特征图。

在示例77中，示例76的主题包括，其中特征扭曲层用于产生所选择的历史3D帧的经扭曲特征图以及自适应权重；并且特征聚合层用于将所选择的历史3D帧的经扭曲特征图乘以自适应权重的结果与当前3D帧的原始特征图进行聚合，从而产生经聚合特征图。

在示例78中，示例77的主题包括，其中经扭曲特征图的自适应权重由所选择的历史3D帧到当前3D帧的接近度和在所选择的历史3D帧中的感兴趣的物体的遮挡程度的组合来确定。

在示例79中，示例77的主题包括，其中经扭曲特征图的自适应权重是可训练的。

在示例80中，示例77的主题包括，其中训练神经网络将包括3D语义分割子网络，以基于经聚合特征图执行3D语义分割并且提供测试结果。

在示例81中，示例80的主题包括，其中训练神经网络的可训练参数将被包括在所选择的历史3D帧的特征提取子网络和特征扭曲层、当前3D帧的特征提取子网络、特征聚合层、以及3D语义分割子网络中的任一者中。

示例82是一种对用于三维(3D)语义分割的神经网络进行训练的方法，包括：获得3D帧的时间排序序列的点云数据集，该3D帧包括当前3D帧和在当前3D帧之前的一个或多个历史3D帧；从一个或多个历史3D帧中随机选择历史3D帧；通过训练神经网络基于所选择的历史3D帧的前向传播处理来产生测试结果；应用损失函数来评估测试结果以产生损失值；通过训练神经网络经由基于损失函数的反向传播细化训练神经网络的可训练参数来降低损失值；以及提供经细化的可训练参数以配置用于3D语义分割的神经网络。

在示例83中，示例82的主题包括，其中测试结果包括基于经聚合特征图的3D语义分割的结果。

在示例84中，示例81-82的主题包括，其中训练神经网络将包括场景流估计子网络，以估计所选择的历史3D帧的3D场景流场。

在示例85中，示例84的主题包括，其中训练神经网络将包括用于所选择的历史3D帧的特征提取子网络，以产生所选择的历史3D帧的原始特征图。

在示例86中，示例84的主题包括，其中训练神经网络将包括定位在场景流估计子网络之后的对齐层，以将所选择的历史3D帧的3D场景流场与原始特征图对齐。

在示例87中，示例84-86的主题包括，其中训练神经网络将包括特征扭曲层，以通过基于所选择的历史3D帧的3D场景流场对所选择的历史3D帧的原始特征图进行扭曲来获得所选择的历史3D帧的经扭曲特征图。

在示例88中，示例84-87的主题包括，其中场景流估计子网络包括流网3D。

在示例89中，示例84-88的主题包括，其中特征提取子网络包括点网特征。

在示例90中，示例85-89的主题包括，其中训练神经网络将包括用于当前3D帧的特征提取子网络，以产生当前3D帧的原始特征图。

在示例91中，示例90的主题包括，其中训练神经网络将包括：定位在用于所选择的历史3D帧的特征提取子网络之后的对齐层，以将所选择的历史3D帧的原始特征图与3D场景流场对齐；以及定位在用于当前3D帧的特征提取子网络之后的对齐层，以将当前3D帧的原始特征图与所选择的历史3D帧的经扭曲特征图对齐。

在示例92中，示例89-91的主题包括，其中训练神经网络将包括特征聚合层，以将所选择的历史3D帧的经扭曲特征图与当前3D帧的原始特征图进行聚合，从而产生经聚合特征图。

在示例93中，示例92的主题包括，其中特征扭曲层用于产生所选择的历史3D帧的经扭曲特征图以及自适应权重；并且特征聚合层用于将所选择的历史3D帧的经扭曲特征图乘以自适应权重的结果与当前3D帧的原始特征图进行聚合，从而产生经聚合特征图。

在示例94中，示例93的主题包括，其中经扭曲特征图的自适应权重由所选择的历史3D帧到当前3D帧的接近度和在所选择的历史3D帧中的感兴趣的物体的遮挡程度的组合来确定。

在示例95中，示例93的主题包括，其中经扭曲特征图的自适应权重是可训练的。

在示例96中，示例93的主题包括，其中训练神经网络将包括3D语义分割子网络，以基于经聚合特征图执行3D语义分割并且提供测试结果。

在示例97中，示例96的主题包括，其中训练神经网络的可训练参数将被包括在所选择的历史3D帧的特征提取子网络和特征扭曲层、当前3D帧的特征提取子网络、特征聚合层、以及3D语义分割子网络中的任一者中。

示例98是一种机器可读存储介质，具有存储在其上的指令，该指令在由处理器执行时使处理器执行对用于三维(3D)语义分割的神经网络进行训练的操作，所述操作包括：获得3D帧的时间排序序列的点云数据集，该3D帧包括当前3D帧和在当前3D帧之前的一个或多个历史3D帧；从一个或多个历史3D帧中随机选择历史3D帧；通过训练神经网络基于所选择的历史3D帧的前向传播处理来产生测试结果；应用损失函数来评估测试结果以产生损失值；通过训练神经网络经由基于损失函数的反向传播细化训练神经网络的可训练参数来降低损失值；以及提供经细化的可训练参数以配置用于3D语义分割的神经网络。

在示例99中，示例98的主题包括，其中测试结果包括基于经聚合特征图的3D语义分割的结果。

在示例100中，示例98-99的主题包括，其中训练神经网络将包括场景流估计子网络，以估计所选择的历史3D帧的3D场景流场。

在示例101中，示例100的主题包括，其中训练神经网络将包括用于所选择的历史3D帧的特征提取子网络，以产生所选择的历史3D帧的原始特征图。

在示例102中，示例100的主题包括，其中训练神经网络将包括定位在场景流估计子网络之后的对齐层，以将所选择的历史3D帧的3D场景流场与原始特征图对齐。

在示例103中，示例100-102的主题包括，其中训练神经网络将包括特征扭曲层，以通过基于所选择的历史3D帧的3D场景流场对所选择的历史3D帧的原始特征图进行扭曲来获得所选择的历史3D帧的经扭曲特征图。

在示例104中，示例100-103的主题包括，其中场景流估计子网络包括流网3D。

在示例105中，示例100-104的主题包括，其中特征提取子网络包括点网特征。

在示例106中，示例100-105的主题包括，其中训练神经网络将包括用于当前3D帧的特征提取子网络，以产生当前3D帧的原始特征图。

在示例107中，示例106的主题包括，其中训练神经网络将包括：定位在用于所选择的历史3D帧的特征提取子网络之后的对齐层，以将所选择的历史3D帧的原始特征图与3D场景流场对齐；以及定位在用于当前3D帧的特征提取子网络之后的对齐层，以将当前3D帧的原始特征图与所选择的历史3D帧的经扭曲特征图对齐。

在示例108中，示例105-107的主题包括，其中训练神经网络将包括特征聚合层，以将所选择的历史3D帧的经扭曲特征图与当前3D帧的原始特征图进行聚合，从而产生经聚合特征图。

在示例109中，示例108的主题包括，其中特征扭曲层用于产生所选择的历史3D帧的经扭曲特征图以及自适应权重；并且特征聚合层用于将所选择的历史3D帧的经扭曲特征图乘以自适应权重的结果与当前3D帧的原始特征图进行聚合，从而产生经聚合特征图。

在示例110中，示例109的主题包括，其中经扭曲特征图的自适应权重由所选择的历史3D帧到当前3D帧的接近度和在所选择的历史3D帧中的感兴趣的物体的遮挡程度的组合来确定。

在示例111中，示例109的主题包括，其中经扭曲特征图的自适应权重是可训练的。

在示例112中，示例109的主题包括，其中训练神经网络将包括3D语义分割子网络，以基于经聚合特征图执行3D语义分割并且提供测试结果。

在示例113中，示例112的主题包括，其中训练神经网络的可训练参数将被包括在所选择的历史3D帧的特征提取子网络和特征扭曲层、当前3D帧的特征提取子网络、特征聚合层、以及3D语义分割子网络中的任一者中。

示例114是一种对用于三维(3D)语义分割的神经网络进行训练的设备，包括：用于获得3D帧的时间排序序列的点云数据集的装置，该3D帧包括当前3D帧和在当前3D帧之前的一个或多个历史3D帧；用于从一个或多个历史3D帧中随机选择历史3D帧的装置；用于基于所选择的历史3D帧通过训练神经网络的前向传播处理来产生测试结果的装置；用于应用损失函数来评估测试结果以产生损失值的装置；用于基于损失函数通过训练神经网络的反向传播来细化训练神经网络的可训练参数、从而降低损失值的装置；以及用于提供经细化的可训练参数以配置用于3D语义分割的神经网络的装置。

在示例115中，示例114的主题包括，其中测试结果包括基于经聚合特征图的3D语义分割的结果。

在示例116中，示例114-115的主题包括，其中训练神经网络将包括场景流估计子网络，以估计所选择的历史3D帧的3D场景流场。

在示例117中，示例116的主题包括，其中训练神经网络将包括用于所选择的历史3D帧的特征提取子网络，以产生所选择的历史3D帧的原始特征图。

在示例118中，示例116的主题包括，其中训练神经网络将包括定位在场景流估计子网络之后的对齐层，以将所选择的历史3D帧的3D场景流场与原始特征图对齐。

在示例119中，示例116-118的主题包括，其中训练神经网络将包括特征扭曲层，以通过基于所选择的历史3D帧的3D场景流场对所选择的历史3D帧的原始特征图进行扭曲来获得所选择的历史3D帧的经扭曲特征图。

在示例120中，示例116-119的主题包括，其中场景流估计子网络包括流网3D。

在示例121中，示例116-120的主题包括，其中特征提取子网络包括点网特征。

在示例122中，示例117-121的主题包括，其中训练神经网络将包括用于当前3D帧的特征提取子网络，以产生当前3D帧的原始特征图。

在示例123中，示例122的主题包括，其中训练神经网络将包括：定位在用于所选择的历史3D帧的特征提取子网络之后的对齐层，以将所选择的历史3D帧的原始特征图与3D场景流场对齐；以及定位在用于当前3D帧的特征提取子网络之后的对齐层，以将当前3D帧的原始特征图与所选择的历史3D帧的经扭曲特征图对齐。

在示例124中，示例121-123的主题包括，其中训练神经网络将包括特征聚合层，以将所选择的历史3D帧的经扭曲特征图与当前3D帧的原始特征图进行聚合，从而产生经聚合特征图。

在示例125中，示例124的主题包括，其中特征扭曲层用于产生所选择的历史3D帧的经扭曲特征图以及自适应权重；并且特征聚合层用于将所选择的历史3D帧的经扭曲特征图乘以自适应权重的结果、与当前3D帧的原始特征图进行聚合，从而产生经聚合特征图。

在示例126中，示例125的主题包括，其中经扭曲特征图的自适应权重由所选择的历史3D帧到当前3D帧的接近度和在所选择的历史3D帧中的感兴趣的物体的遮挡程度的组合来确定。

在示例127中，示例125的主题包括，其中经扭曲特征图的自适应权重是可训练的。

在示例128中，示例125的主题包括，其中训练神经网络将包括3D语义分割子网络，以基于经聚合特征图执行3D语义分割并且提供测试结果。

在示例129中，示例128的主题包括，其中训练神经网络的可训练参数将被包括在所选择的历史3D帧的特征提取子网络和特征扭曲层、当前3D帧的特征提取子网络、特征聚合层、以及3D语义分割子网络中的任一者中。

示例130是一种车辆，包括：传感器，该传感器用于捕获车辆的周围环境的点云数据；以及根据示例1-16中的任一者所述的用于三维(3D)语义分割的设备。

以上具体实施方式包括对附图的引用，附图形成具体实施方式的部分。附图通过说明的方式示出可被实践的具体实施例。这些实施例在本文中也被称为“示例”。这类示例可以包括除了所示出或所描述的那些要素之外的要素。然而，本发明人还考虑到仅提供了所示出或所描绘的那些要素的示例。此外，或者针对本文中所示出或所描述的具体示例(或者其一个或多个方面)，或者针对本文中所示出或所描述的其他示例(或者其一个或多个方面)，本发明人还考虑到使用所示出或所描述的那些要素的任何组合或排列(或者其一个或多个方面)的示例。

在本文档中提及的所有出版物、专利和专利文献通过引用以其整体结合于此，如同通过引用单独结合于此。在本文档与通过引用所结合的那些文档之间不一致的用法的情况下，在所结合的(多个)引用文档中的用法应被认为是对此文档的用法的补充；对于不可调和的不一致性，以此文档中的用法为准。

在本文档中，如在专利文档中是普遍的，术语“一个(a)”或“一个(an)”被用于包括一个或多个，独立于“至少一个”或者“一个或多个”的任何其他实例或用法。在本文中，除非另外指明，否则术语“或”被用来指非排他性的“或”，使得“A或B”包括“A但非B”、“B但非A”以及“A和B”。在所附权利要求中，术语“包括(including)”和“其中(in which)”被用作相应的术语“包括(comprising)”和“其中(wherein)”的简明英语对等词。此外，在以下权利要求书中，术语“包括(including)”和“包括(comprising)”是开放式的，即，除了在权利要求中列在此类术语之后的那些元素之外，包括元素的系统、设备、制品或过程仍被视为落入该权利要求的范围内。此外，在所附权利要求中，术语“第一”、“第二”和“第三”等仅用作标记，并且不旨在对其对象强加数字要求。

以上描述旨在是说明性而非限制性的。例如，以上所描述的示例(或其一个或多个方面)可彼此组合使用。诸如在由本领域的普通技术人员在审阅上述说明后可以使用其他实施例。摘要将允许读者快速确定本技术公开的性质，并且在提交所述摘要时应当理解的是所述摘要将不用于解释或限制权利要求的范围或含义。而且，在以上具体实施方式中，各种特征可分组在一起以使本公开精简。这不应当被解释为意图指未要求保护的公开的特征对于任何权利要求是必需的。相反，发明性主题可在于比特定的公开实施例的所有特征要少的特征。因此，所附权利要求在此被合并到具体实施方式中，其中每项权利要求作为单独的实施例而独立存在。这些实施例的范围应当参考所附权利要求书、连同这样的权利要求书有权获得的等效物的全部范围来确定。

Claims

1.一种用于三维(3D)语义分割的设备，包括：

接口，所述接口用于获得3D帧的时间排序序列的点云数据集，所述3D帧包括当前3D帧和在所述当前3D帧之前的一个或多个历史3D帧；以及

处理电路系统，所述处理电路系统用于：

调用第一人工神经网络(ANN)以通过将所述当前3D帧作为参考帧来估计所述一个或多个历史3D帧中的每一者的3D场景流场；以及

调用第二ANN以：

基于所述一个或多个历史3D帧中的每一者的估计的3D场景流场和所述参考帧来产生经聚合特征图；以及

基于所述经聚合特征图来执行所述3D语义分割。

2.如权利要求1所述的设备，其特征在于，所述第一ANN包括用于所述一个或多个历史3D帧中的每一者的场景流估计子网络。

3.如权利要求1所述的设备，其特征在于，所述第二ANN包括用于所述一个或多个历史3D帧中的每一者的特征提取子网络和用于所述当前3D帧的特征提取子网络，以生成所述一个或多个历史3D帧中的每一者的原始特征图和所述当前3D帧的原始特征图。

4.如权利要求3所述的设备，其特征在于，所述第二ANN包括用于所述一个或多个历史3D帧中的每一者的对齐层，以将所述一个或多个历史3D帧中的每一者的所述原始特征图与所述3D场景流场对齐。

5.如权利要求3所述的设备，其特征在于，所述第一ANN包括用于所述一个或多个历史3D帧中的每一者的对齐层，以将所述一个或多个历史3D帧中的每一者的所述3D场景流场与所述原始特征图对齐。

6.如权利要求3所述的设备，其特征在于，所述第二ANN包括用于所述一个或多个历史3D帧中的每一者的特征扭曲层，以通过基于所述一个或多个历史3D帧中的每一者的3D场景流场对所述一个或多个历史3D帧中的每一者的原始特征图进行扭曲来获得所述一个或多个历史3D帧中的每一者的经扭曲特征图。

7.如权利要求6所述的设备，其特征在于，所述第二ANN包括用于所述当前3D帧的对齐层，以将所述当前3D帧的原始特征图与所述一个或多个历史3D帧中的每一者的经扭曲特征图对齐。

8.如权利要求6所述的设备，其特征在于，所述第二ANN包括特征聚合层，以将所述一个或多个历史3D帧中的每一者的经扭曲特征图与所述当前3D帧的原始特征图进行聚合，从而产生所述经聚合特征图。

9.如权利要求8所述的设备，其特征在于，所述特征扭曲层用于产生所述一个或多个历史3D帧中的每一者的经扭曲特征图以及自适应权重；并且

所述特征聚合层用于将所述一个或多个历史3D帧中的每一者的所述经扭曲特征图乘以所述自适应权重的结果与所述当前3D帧的原始特征图进行聚合，从而产生所述经聚合特征图。

10.如权利要求9所述的设备，其特征在于，所述一个或多个历史3D帧中的每一者的经扭曲特征图的自适应权重由对应的历史3D帧到所述参考帧的接近度和在所述对应的历史3D帧中的感兴趣的物体的遮挡程度的组合来确定。

11.如权利要求1所述的设备，其特征在于，所述第二ANN被配置成通过以下方式产生所述经聚合特征图：

基于所述一个或多个历史3D帧中的每一者的所述估计的3D场景流场来预测在所述一个或多个历史3D帧的点云数据中的每个点的位移；

基于在所述一个或多个历史3D帧的点云数据中的每个点的所预测的位移以及所述点在对应的历史3D帧中的初始位置来获得所述一个或多个历史3D帧中的每一者的经扭曲3D帧；

从所述历史3D帧的经扭曲3D帧中获得所述一个或多个历史3D帧中的每一者的经扭曲特征图；以及

将所述一个或多个历史3D帧中的每一者的经扭曲特征图聚合到所述当前3D帧的原始特征图。

12.如权利要求1所述的设备，其特征在于，所述第二ANN包括3D语义分割子网络，以基于所述经聚合特征图执行所述3D语义分割。

13.如权利要求1所述的设备，其特征在于，所述第一ANN和所述第二ANN被集成到单个ANN中。

14.一种用于三维(3D)语义分割的方法，包括：

获得3D帧的时间排序序列的点云数据集，所述3D帧包括当前3D帧和在所述当前3D帧之前的一个或多个历史3D帧；以及

基于所述一个或多个历史3D帧中的每一者的估计的3D场景流场和所述参考帧来产生经聚合特征图，以及基于所述经聚合特征图执行所述3D语义分割。

15.如权利要求14所述的方法，其特征在于，所述第一ANN包括用于所述一个或多个历史3D帧中的每一者的场景流估计子网络。

16.如权利要求14所述的方法，其特征在于，所述第二ANN包括用于所述一个或多个历史3D帧中的每一者的特征提取子网络和用于所述当前3D帧的特征提取子网络，以生成所述一个或多个历史3D帧中的每一者的原始特征图和所述当前3D帧的原始特征图。

17.如权利要求16所述的方法，其特征在于，所述第二ANN包括用于所述一个或多个历史3D帧中的每一者的对齐层，以将所述一个或多个历史3D帧中的每一者的所述原始特征图与所述3D场景流场对齐。

18.如权利要求16所述的方法，其特征在于，所述第一ANN包括用于所述一个或多个历史3D帧中的每一者的对齐层，以将所述一个或多个历史3D帧中的每一者的所述3D场景流场与所述原始特征图对齐。

19.如权利要求16所述的方法，其特征在于，所述第二ANN包括用于所述一个或多个历史3D帧中的每一者的特征扭曲层，以通过基于所述一个或多个历史3D帧中的每一者的3D场景流场对所述一个或多个历史3D帧中的每一者的原始特征图进行扭曲来获得所述一个或多个历史3D帧中的每一者的经扭曲特征图。

20.如权利要求19所述的方法，其特征在于，所述第二ANN包括用于所述当前3D帧的对齐层，以将所述当前3D帧的原始特征图与所述一个或多个历史3D帧中的每一者的经扭曲特征图对齐。

21.如权利要求19所述的方法，其特征在于，所述第二ANN包括特征聚合层，以将所述一个或多个历史3D帧中的每一者的经扭曲特征图与所述当前3D帧的原始特征图进行聚合，从而产生所述经聚合特征图。

22.如权利要求21所述的方法，其特征在于，所述特征扭曲层用于产生所述一个或多个历史3D帧中的每一者的经扭曲特征图以及自适应权重；并且

23.如权利要求21所述的方法，其特征在于，所述一个或多个历史3D帧中的每一者的经扭曲特征图的自适应权重由对应的历史3D帧到所述参考帧的接近度和在所述对应的历史3D帧中的感兴趣的物体的遮挡程度的组合来确定。

24.一种机器可读存储介质，具有存储在其上的指令，所述指令在由处理器执行时使所述处理器执行对用于三维(3D)语义分割的神经网络进行训练的操作，所述操作包括：

获得3D帧的时间排序序列的点云数据集，所述3D帧包括当前3D帧和在所述当前3D帧之前的一个或多个历史3D帧；

从所述一个或多个历史3D帧中随机选择历史3D帧；

通过训练神经网络基于所选择的历史3D帧的前向传播处理来产生测试结果；

应用损失函数来评估所述测试结果以产生损失值；

通过所述训练神经网络经由基于所述损失函数的反向传播细化所述训练神经网络的可训练参数来降低所述损失值；以及

提供经细化的参数以配置所述用于3D语义分割的神经网络。

25.如权利要求24所述的机器可读存储介质，其特征在于，所述测试结果包括基于经聚合特征图的3D语义分割的结果。