CN116597122A

CN116597122A - 数据标注方法、装置、电子设备及存储介质

Info

Publication number: CN116597122A
Application number: CN202310559454.1A
Authority: CN
Inventors: 黄浴; 杨子江
Original assignee: Xi'an Xinxin Information Technology Co ltd
Current assignee: Xi'an Xinxin Information Technology Co ltd
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-08-15

Abstract

本申请提供了一种数据标注方法、装置、电子设备及存储介质，具体实现方案为：对目标车辆采集的场景源数据进行特征提取处理，并基于提取得到的数据特征，获取与所述场景源数据对应的地图信息和障碍物信息；其中，所述场景源数据包括三维点云数据和图像数据序列中的至少一项；根据提取得到的所述数据特征或所述障碍物信息进行表面重建，得到三维场景；利用三维场景、地图信息和障碍物信息，对目标车辆的驾驶场景进行数据标注，得到对应的标注结果。根据本申请的技术方案，能够有效提升数据标注结果的准确率。

Description

数据标注方法、装置、电子设备及存储介质

技术领域

本申请涉及自动驾驶技术领域，尤其涉及一种数据标注方法、装置、电子设备及存储介质。

背景技术

对于无人驾驶平台及高级辅助驾驶系统而言，环境感知系统是智能车辆平台与周围交通场景的交互端口，也是智能车辆平台运动决策、规划控制系统的前端输入。而目前绝大部分数据驱动的感知算法需要事先标注好的真值数据对模型训练过程进行监督，真值数据的标注数量、标注质量以及标注场景的多样性也直接决定了模型的预测性能和泛化能力。

目前对于自动驾驶技术中的标注数据，一般是基于图像数据或激光点云数据进行标注静态背景以及动态的车辆、行人等，但是，由于静态背景以及动态的车辆的标注存在偏差，仍需要人为对标注结果进行校准，使得标注结果的精度差，且标注效率低下。

发明内容

为了解决上述问题，本申请提出一种数据标注方法、装置、电子设备及存储介质，能够显著提高数据标注结果的准确率。

根据本申请实施例的第一方面，提供了一种数据标注方法，包括：

对目标车辆采集的场景源数据进行特征提取处理，并基于提取得到的数据特征，获取与所述场景源数据对应的地图信息和障碍物信息；其中，所述场景源数据包括三维点云数据和图像数据序列中的至少一项；

根据提取得到的所述数据特征或所述障碍物信息进行表面重建，得到三维场景；

利用三维场景、地图信息和障碍物信息，对所述目标车辆的驾驶场景进行数据标注，得到对应的标注结果。

根据本申请实施例的第二方面，提供了一种数据标注装置，包括：

处理模块，用于对目标车辆采集的场景源数据进行特征提取处理，并基于提取得到的数据特征，获取与所述场景源数据对应的地图信息和障碍物信息；其中，所述场景源数据包括三维点云数据和图像数据序列中的至少一项；

重建模块，用于根据提取得到的所述数据特征或所述障碍物信息进行表面重建，得到三维场景；

标注模块，用于利用三维场景、地图信息和障碍物信息，对所述目标车辆的驾驶场景进行数据标注，得到对应的标注结果。

本申请第三方面提供了一种电子设备，包括：

存储器和处理器；

所述存储器与所述处理器连接，用于存储程序；

所述处理器，通过运行所述存储器中的程序，实现上述的数据标注方法。

本申请第四方面提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现上述的数据标注方法。

上述申请中的一个实施例具有如下优点或有益效果：

对目标车辆采集的场景源数据进行特征提取处理，并基于提取得到的数据特征，获取与场景源数据对应的地图信息和障碍物信息，根据提取得到的数据特征或障碍物信息进行表面重建，得到三维场景，最后利用三维场景、地图信息和障碍物信息，对目标车辆的驾驶场景进行数据标注，得到对应的标注结果。这样，通过三维场景确定整个场景中各个物体的位置，结合障碍物信息和地图信息，能够在目标车辆的驾驶场景下准确地对各个目标进行标注，从而无需人为对标注结果校准，提升标注效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种数据标注方法的流程示意图；

图2为本申请实施例提供的在场景源数据是三维点云数据的情况下的一种数据标注方法的示意图；

图3为本申请实施例提供的在场景源数据是三维点云数据的情况下的另一种数据标注方法的示意图；

图4为本申请实施例提供的在场景源数据是图像数据序列的情况下的另一种数据标注方法的示意图；

图5为本申请实施例提供的在场景源数据是三维点云数据和图像数据序列的情况下的一种数据标注方法的示意图；

图6为本申请实施例提供的在场景源数据是图像数据序列的情况下的另一种数据标注方法的示意图；

图7为本申请实施例提供的在场景源数据是三维点云数据和图像数据序列的情况下的另一种数据标注方法的示意图；

图8为本申请实施例提供的激光雷达与IMU联合的SLAM的示意图；

图9为本申请实施例提供的多摄像头的SLAM/SFM的示意图；

图10为本申请实施例提供的多摄像头与IMU联合的SLAM的示意图；

图11为本申请实施例提供的激光雷达、多摄像头和IMU联合的SLAM的示意图；

图12为本申请实施例提供的在场景源数据是三维点云数据的情况下的又一种数据标注方法的示意图；

图13为本申请实施例提供的在场景源数据是图像数据序列的情况下的又一种数据标注方法的示意图；

图14为本申请实施例提供的在场景源数据是三维点云数据和图像数据序列的情况下的又一种数据标注方法的示意图；

图15为本申请实施例提供的一种数据标注装置的结构示意图；

图16为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

本申请实施例技术方案适用于应用在各种数据标注的场景中，例如，深度学习场景、自动驾驶场景等。采用本申请实施例技术方案，能够提升语音转写文本的准确性。

本申请实施例技术方案可示例性地应用于处理器、电子设备、服务器(包括云服务器)等硬件设备，或包装成软件程序被运行，当硬件设备执行本申请实施例技术方案的处理过程，或上述软件程序被运行时，可以通过三维场景确定整个场景的中各个物体的位置，结合障碍物信息和地图信息，实现在目标车辆的驾驶场景下准确地对各个目标进行标注的目的。本申请实施例只对本申请技术方案的具体处理过程进行示例性介绍，并不对本申请技术方案的具体实现形式进行限定，任意的可以执行本申请技术方案处理过程的技术实现形式，都可以被本申请实施例所采用。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

示例性方法

图1是根据本申请一实施例的数据标注方法的流程图。在一示例性实施例中，提供了一种数据标注方法，包括：

S110、对目标车辆采集的场景源数据进行特征提取处理，并基于提取得到的数据特征，获取与所述场景源数据对应的地图信息和障碍物信息；其中，所述场景源数据包括三维点云数据和图像数据序列中的至少一项；

S120、根据提取得到的所述数据特征或所述障碍物信息进行表面重建，得到三维场景；

S130、利用三维场景、地图信息和障碍物信息，对目标车辆的驾驶场景进行数据标注，得到对应的标注结果。

在步骤S110中，示例性地，目标车辆可以是指定的车辆，也可以是任意车辆，在此不作限定。目标车辆上至少设置有激光雷达或视觉传感器。场景源数据表示目标车辆上的传感器采集到的周围环境数据。其中，传感器可以是激光雷达、视觉传感器、惯性传感器等，例如，视觉传感器可以是车载摄像头。具体地，车辆上可以包括多个摄像头和/或多个激光雷达。例如，前向雷达、左前向雷达、右前向雷达、左后向雷达、右后向雷达、前摄像头、后摄像头、左前摄像头、右前摄像头、左后摄像头、右后摄像头。激光雷达可以是毫米波雷达和/或360度扫描的激光雷达。

可选地，在车辆上存在激光雷达的情况下，场景源数据可以是激光雷达采集的三维点云数据；在车辆上存在摄像头的情况下，场景源数据还可以是摄像头拍摄的图像数据序列；在车辆上存在激光雷达和摄像头的情况下，场景源数据还可以是激光雷达采集的三维点云数据和摄像头拍摄的图像数据序列。可见，数据标注方法可以适应于不同的情况的车辆，例如，量产阶段多是乘用车辆(即只有摄像头)、研发团队的专用车(只有激光雷达或同时包含摄像头和激光雷达)等。

可选地，地图信息表示车辆周围环境中的地面情况，例如，道路路面、交通标记(如车道线、斑马线和人行道线等)等。障碍物信息表示车辆周围环境中所有的障碍物，障碍物信息可以包括：交通锥、树木、岩石、栏栅、车辆、行人、动物等。其中，车辆包括轿车、公交汽车、自行车、摩托车等。

具体地，在场景源信息是三维点云数据的情况下，可以先对三维点云数据进行预处理，即先对三维点云数据进行坐标转换(比如极坐标表示、距离图像或者鸟瞰图像)，然后对转换后的数据进行去噪滤波和采样处理，得到预处理后的三维点云数据。再对预处理后的三维点云数据进行分割，提取得到数据特征。然后对提取得到数据特征进行聚类，得到地图信息和障碍物信息。

在场景源信息是图像数据序列的情况下，可以对图像数据序列进行点云重建(例如采用多摄像头视觉-惯导里程计)，再对重建得到的三维点云数据进行分割，提取得到数据特征。然后对提取得到数据特征进行聚类，得到地图信息和障碍物信息。

在场景源信息是三维点云数据和图像数据序列的情况下，利用基于深度学习的目标检测网络识别图像数据序列中物体，将检测到的物体投影到三维的点云空间，将投影结果与三维点云数据结合，并对结合的结果进行聚类，得到地图信息和障碍物信息。

在步骤S120中，示例性地，表面重建表示根据输入的多个特征点生成表面。可选地，表面重建算法包括：泊松曲面重建(PSR，Poisson Surface Reconstruction)、推进前表面重建(AF，Advancing Front Surface Reconstruction)、尺度空间表面重建(SS，ScaleSpace Surface Reconstruction)、明暗恢复形状算法(SFS，shape from shading)。

可选地，对场景源数据进行特征提取处理，得到的数据特征，利用表面重建算法数据特征进行计算，得到三维场景。还可以是利用表面重建算法对障碍物信息进行计算，得到三维场景。例如，每一个障碍物信息对应的三维点云数据进行表面重建，形成对应的闭合表面。

在步骤S130中，示例性地，目标车辆的驾驶场景表示目标车辆当前的驾驶环境。可以理解的是，还可以根据三维场景、地图信息和障碍物信息在仿真系统中建立驾驶场景的数字孪生环境。具体地，可以是将三维场景、地图信息和障碍物信息分别投射到目标车辆的单帧的车体坐标系下，得到标注结果。还可以是将三维场景、地图信息和障碍物信息进行融合，将融合得到的结果投射到目标车辆的单帧的车体坐标系下，得到标注结果。其中，车体坐标系用来描述车辆周围的物体和目标车辆之间的相对位置关系。

在本申请的技术方案中，对目标车辆采集的场景源数据进行特征提取处理，并基于提取得到的数据特征，获取与场景源数据对应的地图信息和障碍物信息，根据提取得到的数据特征或障碍物信息进行表面重建，得到三维场景，最后利用三维场景、地图信息和障碍物信息，对目标车辆的驾驶场景进行数据标注，得到对应的标注结果。这样，通过三维场景确定整个场景中各个物体的位置，结合障碍物信息和地图信息，能够在目标车辆的驾驶场景下准确地对各个目标进行标注，从而无需人为对标注结果校准，提升标注效率。

本申请一实施例还提供了一种数据标注方法，在目标车辆采集的场景源数据是三维点云数据的情况下，该方法可以包括：

S210、对所述三维点云数据进行特征提取，得到静态特征数据和动态特征数据；

S220、根据所述静态特征数据中的路面数据确定所述地图信息；

S230、根据所述静态特征数据中的非路面数据和所述动态特征数据确定障碍物信息；

S240、根据所述障碍物信息进行表面重建，得到三维场景；

S250、利用三维场景、地图信息和障碍物信息，对目标车辆的驾驶场景进行数据标注，得到对应的标注结果。

示例性地，在场景数据源是三维点云数据的情况下，静态特征可以表示为静态三维点云数据。动态特征数据表示为动态三维点云数据。

可选地，步骤S210可以包括：通过对比前后帧的点云数据，以此区分点云数据是静态三维点云数据还是动态三维点云数据。

优选地，步骤S210还可以包括：对所述场景源数据进行定位与地图构建计算，得到静态三维点云数据；利用所述静态三维点云数据，对所述场景源数据进行运动分割得到所述动态三维点云数据。

具体地，如图2所示，可以采用针对激光雷达的SLAM(Simultaneous Localizationand Mapping，同时定位与建图)算法，如激光雷达-惯导里程计、LIMO、LINS、LVI-SAM，对三维点云数据进行计算，得到静态三维点云数据，利用静态点云数据辅助三维点云数据进行运动分割，得到动态点云数据(即分割出每帧不同于背景运动的点云数据)。

可以直接在静态点云数据中根据点云分割算法确定其中的地面点，将所有地面点作为路面数据。还可以先根据预先选择的感兴趣区域对三维点云数据进行筛选，利用筛选后的点云数据和静态点云数据相结合，能够避免激光雷达每次采集的视角不同，坐标变化较大，障碍点过多影响目标框提取的问题，从而更准确地确定静态点云中的路面数据和非路面数据。具体地，可以采用分段的平面拟合方法，点云沿x轴方向划分为多个片段，然后在每个片段应用RANSAC平面拟合方法来提取地面点。进一步地，为了检测道路边界，设定距离阈值(如15-30厘米)确保地面点包含所有道路边界点。采用路面数据的反射值进行滤波，即设置路面门限值，根据路面门限值对路面数据进行筛选，消除路面无标记点云，剩下的点进行聚类得到连接团簇，并给出车道线和斑马线等交通标记的相应类别。为了进一步筛选路面数据中的道路边界，在路面数据中提取道路点云特征，如相邻点的高度差、平滑度和水平距离等。然后，设置道路边界门限值，根据道路边界门限值对道路点云特征进行筛选，得到道路边界候选点。其中，路面门限值、道路边界门限值可以是根据实际需要进行设置的，在此不作限定。最后，对道路边界候选点进行分段近似拟合并给出拟合后的道路边界的类别。如此对交通标记和道路边界及其类别融合得到地图信息。进一步地，地图信息可以进行分段折线标注，以得到地图信息的矢量表示。

然后，分别对静态三维点云数据中的非路面数据和动态三维点云数据进行聚类处理确定出静态三维点云数据中的非路面数据对应的静态障碍物，和动态三维点云数据对应的动态障碍物，再根据目标识别算法分别对静态障碍物和动态障碍物进行识别，得到静态障碍物对应的类别和动态障碍物对应的类别，将静态障碍物及其类别作为静态障碍物信息，动态障碍物及其类别作为动态障碍物信息，从而根据静态障碍物信息和动态障碍物信息得到障碍物信息。利用表面重建算法对障碍物信息中的动态障碍物和静态障碍物进行处理，得到三维场景。将三维场景、地图信息和障碍物信息分别投射到单帧的车体坐标系下，得到标注结果。

在一种实施方式中，步骤S230，可以包括：对所述动态特征数据进行分类处理，得到动态障碍物信息；对所述静态特征数据中的非路面数据进行目标识别，得到静态障碍物信息；根据所述动态障碍物信息和所述静态障碍物信息，得到所述障碍物信息。

一示例性地，对动态三维点云数据进行聚类，得到多个团簇，每个团簇则表示一个动态障碍物。进一步地，可以采用滤波算法(如三维卡尔曼滤波算法)对动态障碍物进行处理，即确定动态障碍物在其前后帧的点云数据关联和轨迹，得到更平滑的三维框位置和姿态，同时基于动态障碍物的运动可以对齐多帧点云，如此，使得输出的过滤后的动态障碍物的点云数据更加致密。在静态点云数据中对路面数据进行过滤，则可以得到非路面数据。将非路面数据进行聚类得到静态障碍物。可选地，可以采用无监督的聚类方法(如欧式距离进行聚类、K-means、DBSCAN等)形成多个团簇，每个团簇则表示一个静态障碍物(如交通锥和静止的车辆)。

采用分类器对动态障碍物和静态障碍物分别进行识别，得到动态障碍物对应的类别和静态障碍物对应的类别，将静态障碍物及其类别作为静态障碍物信息，动态障碍物及其类别作为动态障碍物信息，将动态障碍物信息和静态障碍物信息作为障碍物信息。进一步地，可以对每一个团簇做3D立方体框拟合，计算团簇属性，团簇属性包括中心点，质心点，长宽高等。这样可以根据团簇属性辅助分类器对动态障碍物和静态障碍物进行分类，从而得到更准确地障碍物信息。

另一示例性地，如图3所示，利用实例分割(如PointNet、PointPillar)对动态三维点云数据进行处理，得到多个分割目标，每个分割目标则表示一个动态障碍物，并输出每个分割目标(即动态障碍物)的类别。进一步地，可以采用滤波算法(如三维卡尔曼滤波算法)对动态障碍物进行处理，即确定动态障碍物在其前后帧的点云数据关联和轨迹，得到更平滑的三维框位置和姿态，同时基于动态障碍物的运动可以对齐多帧点云，如此，使得输出的过滤后的动态障碍物的点云数据更加致密。再利用实例分割对过滤后的动态障碍物的点云数据进行识别，得到动态障碍物对应的类别(即得到动态目标框的标注)，将动态障碍物及其类别作为动态障碍物信息。如此，通过深度学习模型(如实例分割、语义分割)能够提升标注的效率，同时适应更多的标注场景，稳定性更高。

对静态点云数据中的路面数据进行语义分割处理，得到交通标记(车道线、斑马线等)道路区域和道路边界，最后，对道路边界候选点进行分段近似拟合并给出拟合后的道路边界的类别。如此对交通标记、道路区域和道路边界其类别进行融合得到地图信息。进一步地，地图信息可以进行分段折线标注，以得到地图信息的矢量表示。

在静态点云数据中对路面数据进行过滤，则可以得到非路面数据。利用实例分割对非路面数据进行处理得到多个分割目标，每个分割目标则表示一个静态障碍物，并输出每个分割目标(即静态障碍物)的类别(即得到静态目标框的标注)，将静态障碍物及其类别作为静态障碍物信息。最后根据静态障碍物信息和动态障碍物信息组合生成障碍物信息。

本申请一实施例还提供了一种数据标注方法，在目标车辆采集的场景源数据是图像数据序列的情况下，该方法可以包括：

S310、对图像序列数据进行特征提取，得到静态特征数据和动态特征数据；

S320、根据所述静态特征数据中的路面数据确定所述地图信息；

S330、根据所述静态特征数据中的非路面数据和所述动态特征数据确定障碍物信息。

S340、根据所述障碍物信息进行表面重建，得到三维场景；

S350、利用三维场景、地图信息和障碍物信息，对目标车辆的驾驶场景进行数据标注，得到对应的标注结果。

示例性地，在场景数据源是图像数据序列的情况下，静态特征数据可以表示为静态三维点云数据。动态特征数据可以表示动态三维点云数据或图像序列中的运动特征点。

可选地，步骤S310可以包括：通过对比前后帧的图像数据，标注图像数据序列中的静态目标和动态目标，将动态目标和静态目标进行三维转换，得到对应的静态三维点云数据和动态三维点云数据。

优选地，步骤S310还可以包括：对所述场景源数据进行定位与地图构建计算，得到静态三维点云数据；利用所述静态三维点云数据，对所述场景源数据进行运动分割得到所述动态特征。

具体地，如图4所示，可以是采用视觉SLAM算法(如多摄像头视觉-惯导里程计)对图像数据序列进行三维重建，得到静态三维点云数。同时，利用静态三维点云数据对应的背景特征点辅助图像数据序列进行运动分割，得到区别于背景特征点的运动特征点。例如，由于运动的物体是由多个特征点组成，所以运动分割时可以将一起运动的特征点作为运动特征点对。进一步地，在得到运动特征点对之后，可以过滤掉其中的孤立点对，使得识别出的目标更加准确。

在图像数据序列中提取感兴趣区域图像，其中，感兴趣区域可以是根据车辆的运动轨迹确定的。再将静态点云数据做路面拟合得到路面点云数据投影到感兴趣区域图像中，并对投影后的图像进行区域增长(region growing)处理得到路面区域图像。例如，区域增长处理可以是采用泛洪(flood fill)算法。

根据路面点云数据得到路面方程，然后处理路面标记得到地图信息。进一步地，地图信息可以进行分段折线标注，以得到地图信息的矢量表示。

可选地，先对路面区域图像做灰度门限二值化(如Otsu方法)、边缘检测(如Canny算子)和直线拟合(如Hough变换)等操作，得到检测的车道线、斑马线和道路边界等之后再逆投射到路面，得到地图信息。

可选地，先对路面区域图像逐像素先做反投影映射(inverse projectivemapping，IPM)，然后对反投影映射后的图像做做灰度门限二值化、边缘检测和直线拟合等操作，得到检测的车道线、斑马线和道路边界，得到地图信息。

可以将运动特征点进行三维转换，得到对应的动态点云数据。再分别对静态三维点云数据中的非路面数据和动态三维点云数据进行聚类处理确定出静态三维点云数据中的非路面数据中的静态障碍物，和动态三维点云数据中的动态障碍物。根据目标识别算法分别对静态障碍物和动态障碍物进行识别，得到静态障碍物对应的类别和动态障碍物对应的类别，将静态障碍物及其类别作为静态障碍物信息，动态障碍物及其类别作为动态障碍物信息，从而根据静态障碍物信息和动态障碍物信息得到障碍物信息。利用表面重建算法对障碍物信息中的动态障碍物和静态障碍物进行处理，得到三维场景。将三维场景、地图信息和障碍物信息分别投射到单帧的车体坐标系下，得到标注结果。

在一种实施方式中，步骤S330，可以包括：

S3310、将所述运动特征点转换为目标动态三维点云数据，并基于所述目标动态三维点云数据确定动态障碍物信息；

S3320、对所述静态三维点云数据中的非路面数据进行目标识别，得到静态障碍物信息；

S3330、根据所述动态障碍物信息和所述静态障碍物信息，得到所述障碍物信息。

可选地，步骤S3310可以包括：将运动特征点对进行聚类，得到动态聚类结果。将聚类后的特征点进行三维转换，得到对应的目标动态点云数据。将每一个聚类后的特征点对应的目标动态点云数据作为一个动态障碍物。然后可以采用分类器对目标动态点云数据进行分类，得到目标动态点云数据对应的类别，从而根据目标动态点云数据及其类别得到动态障碍物信息。

优选地，步骤S3310可以包括：将所述运动特征点进行聚类处理，得到至少一个动态聚类结果；针对每一个动态聚类结果，分别进行定位与地图构建计算，得到每一个动态聚类结果对应的动态点云集合；对所述动态点云集合进行分类处理，得到动态障碍物信息。

具体地，针对每组运动特征点对进行聚类，得到对应的动态聚类结果。由于SLAM只能重建静态场景，因此针对每一个动态聚类结果分别做一次三维重建。即，利用视觉SLAM算法分别对每一个动态聚类结果进行计算，得到每一个动态聚类结果对应的动态点云集合(点云团簇)。然后将动态点云集合拟合为三维目标(CAD模型或者长方体框)，根据分类器(如支持向量机、多层感知器)对其进行识别得到对应的类别，从而输出动态障碍物信息。

进一步地，为避免图像数据序列中的障碍物中无图像特征点对的部分丢失，对所述动态点云集合进行分类处理，得到动态障碍物信息，包括：

利用图像像素特征的相似度，对所述图像数据序列进行特征提取，得到图像序列特征；将所述动态点云集合与所述图像序列特征进行特征融合，并基于融合结果识别出动态障碍物信息。

示例性地，图像像素特征表示像素点的位置、颜色、亮度、纹理等特征。可选地，图像像素特征的相似度是通过分别判断像素点之间位置、颜色、亮度、纹理的相似度确定的。

具体地，对图像数据序列进行超像素分割处理(即将一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成小区域)，将图像数据序列分为多个子区域，每个子区域作为图像序列特征。在多个图像序列特征中查找存在动态点云集合的图像序列特征，将存在动态点云集合的图像序列特征分别反投影到三维空间，得到优化后的动态点云集合，如此可以构成更致密的重建点云。再将优化后的动态点云集合拟合为三维目标(CAD模型或者长方体框)，根据分类器(如支持向量机、多层感知器)对其进行识别得到对应的类别，从而将优化后的动态点云集合及其类别作为动态障碍物信息。如此能够更准确地确定动态障碍物信息其中，分类器可以是基于超像素构成的RGB特征训练得到的。

优选地，步骤S3320可以包括：将所述静态三维点云数据进行聚类处理，得到至少一个静态聚类结果；将所述至少一个静态聚类结果与所述图像序列特征进行特征融合，并基于融合结果识别出静态障碍物信息。

具体地，根据路面点云数据对静态三维点云数据进行筛选，得到非路面数据。将非路面数据进行聚类形成多个团簇，每个团簇则表示一个静态障碍物(如交通锥和静止的车辆)。

在多个图像序列特征中查找存在静态障碍物的图像序列特征，将存在静态障碍物的图像序列特征分别反投影到三维空间，得到优化后的静态点云团簇，如此可以构成更致密的重建点云。再将优化后的静态点云团簇拟合为三维目标(CAD模型或者长方体框)，根据分类器(如支持向量机、多层感知器)对其进行识别得到对应的类别，从而将优化后的静态点云团簇及其类别作为静态障碍物信息。其中，分类器可以是基于超像素构成的RGB特征训练得到的。如此能够更准确地确定静态障碍物信息。最后将动态障碍物信息和静态障碍物信息组合生成障碍物信息。

本申请一实施例还提供了一种数据标注方法，在目标车辆采集的场景源数据是三维点云数据和图像数据序列的情况下，该方法可以包括：

S410、对三维点云数据和图像序列数据进行特征提取，得到静态特征数据和动态特征数据；

S420、根据所述静态特征数据中的路面数据确定所述地图信息；

S430、根据所述静态特征数据中的非路面数据和所述动态三维点云数据确定障碍物信息。

S440、根据所述障碍物信息进行表面重建，得到三维场景；

S450、利用三维场景、地图信息和障碍物信息，对目标车辆的驾驶场景进行数据标注，得到对应的标注结果。

示例性地，在场景数据源是三维点云数据和图像数据序列的情况下，静态特征可以表示为静态三维点云数据。动态特征数据表示为动态三维点云数据。

可选地，步骤S410可以包括：通过对比前后帧的点云数据和图像数据序列，以此区分点云数据是静态三维点云数据还是动态三维点云数据。

优选地，步骤S410还可以包括：对所述场景源数据进行定位与地图构建计算，得到静态三维点云数据；利用所述静态三维点云数据，对所述场景源数据进行运动分割得到所述动态三维点云数据。

具体地，如图5所示，可以采用针对激光雷达和摄像头的SLAM算法，如R³LIVE、LIC-FUSION，对三维点云数据进行计算，得到静态三维点云数据，利用静态点云数据辅助三维点云数据进行运动分割，得到动态点云数据(即分割出每帧不同于背景运动的点云数据)。

然后，可以分别对静态三维点云数据中的非路面数据和动态三维点云数据进行聚类处理确定出静态三维点云数据中的非路面数据中的静态障碍物，和动态三维点云数据中的动态障碍物，再根据目标识别算法分别对静态障碍物和动态障碍物进行识别，得到静态障碍物对应的类别和动态障碍物对应的类别，将静态障碍物及其类别作为静态障碍物信息，动态障碍物及其类别作为动态障碍物信息，从而根据静态障碍物信息和动态障碍物信息得到障碍物信息。利用表面重建算法对障碍物信息中的动态障碍物和静态障碍物进行处理，得到三维场景。将三维场景、地图信息和障碍物信息分别投射到单帧的车体坐标系下，得到标注结果。

在一种实施方式中，步骤S430，可以包括：对所述动态三维点云数据进行分类处理，得到动态障碍物信息；对所述静态三维点云数据中的非路面数据进行目标识别，得到静态障碍物信息；根据所述动态障碍物信息和所述静态障碍物信息，得到所述障碍物信息。

具体地，对动态三维点云数据进行聚类，得到多个团簇，每个团簇则表示一个动态障碍物。进一步地，可以采用滤波算法(如三维卡尔曼滤波算法)对动态障碍物进行处理，即确定动态障碍物在其前后帧的点云数据关联和轨迹，得到更平滑的三维框位置和姿态，同时基于动态障碍物的运动可以对齐多帧点云，如此，使得输出的过滤后的动态障碍物的点云数据更加致密。在静态点云数据中对路面数据进行过滤，则可以得到非路面数据。将非路面数据进行聚类得到静态障碍物，可选地，可以采用无监督的聚类方法(如欧式距离进行聚类、K-means、DBSCAN等)形成多个团簇，每个团簇则表示一个静态障碍物(如交通锥和静止的车辆)。

S510、对图像序列数据进行特征提取，得到静态特征数据和动态特征数据；

S520、根据所述静态特征数据中的路面数据确定所述地图信息；

S530、根据所述静态特征数据中的非路面数据和所述动态三维点云数据确定障碍物信息。

S540、根据所述障碍物信息进行表面重建，得到三维场景；

可选地，步骤S510可以包括：通过对比前后帧的图像数据，标注图像数据序列中的静态目标和动态目标，将动态目标和静态目标进行三维转换，得到对应的静态三维点云数据和动态三维点云数据。

优选地，步骤S510还可以包括：对所述场景源数据进行定位与地图构建计算，得到静态三维点云数据；利用所述静态三维点云数据，对所述场景源数据进行运动分割得到所述动态特征。

具体地，如图6所示，可以是采用视觉SLAM算法(如多摄像头视觉-惯导里程计)对图像数据序列进行三维重建，得到静态三维点云数。同时，利用静态点云数据对应的背景特征点辅助图像数据序列进行运动分割，得到区别于背景特征点的运动特征点。例如，由于运动的物体是由多个特征点组成，所以运动分割时可以将一起运动的特征点作为运动特征点对。进一步地，在得到运动特征点对之后，可以过滤掉其中的孤立点对，使得识别出的目标更加准确。

在一种实施方式中，对所述场景源数据进行定位与地图构建计算，得到静态三维点云数据，包括：

对所述图像数据序列进行类别标注，得到标注后的图像数据序列；

根据图像数据序列中每个像素相对拍摄源的距离，生成深度图；

利用所述标注后的图像数据序列和所述深度图，对所述场景源数据进行定位与地图构建计算，得到所述静态三维点云数据。

具体地，利用实例分割对图像数据序列进行处理，以对图像数据序列中的分割目标的进行标注，得到标注后的图像数据序列，即对图像数据序列中的障碍物、道路区域均进行标注。将图像数据序列输入深度估计模型，输出对应的深度图，其中，深度估计模型可以是单目深度估计模型。然后可以在标注后的图像序列中去除运动的物体，得到静态图像，利用第一SLAM框架对深度图和静态图像进行三维重建，得到静态三维点云数据。其中，第一SLAM框架是在激光雷达、摄像头和IMU(惯性测量单元)联合的SLAM框架中去掉激光雷达的部分(省略了一个激光雷达点云投影到图像平面的步骤)。这样，通过预先对图像数据序列进行处理，使得依据图像数据序列得到的结果更加准确，能够适用于复杂的场景。

在一种实施方式中，所述利用所述静态三维点云数据，对所述场景源数据进行运动分割得到动态特征数据，包括：

对所述图像数据序列进行光流估计，得到对应的光流值；

利用所述静态三维点云数据和所述光流值，对所述场景源数据进行运动分割得到运动特征点。

具体地，根据光流估计算法(如FlowNet)对图像数据序列进行计算的得到光流值，即推理图像数据序列中前后帧的像素运动。通过光流值能够确定图像数据序列中的运动物体，因此利用静态三维点云数据和光流值辅助图像数据序列进行运动分割，得到运动特征点对。

在一种实施方式中，步骤S530，包括：

S5310、将所述运动特征点转换为目标动态三维点云数据，并基于所述目标动态三维点云数据确定动态障碍物信息；

S5320、对所述静态三维点云数据中的非路面数据进行目标识别，得到静态障碍物信息；

S5330、根据所述动态障碍物信息和所述静态障碍物信息，得到所述障碍物信息。

可选地，步骤S5310可以包括：将运动特征点对进行聚类，得到动态聚类结果。将聚类后的特征点进行三维转换，得到对应的目标动态点云数据。将每一个聚类后的特征点对应的目标动态点云数据作为一个动态障碍物。然后可以采用分类器对目标动态点云数据进行分类，得到目标动态点云数据对应的类别，从而根据目标动态点云数据及其类别得到动态障碍物信息。

优选地，步骤5310可以包括：将所述运动特征点进行聚类处理，得到至少一个动态聚类结果；针对每一个动态聚类结果，分别进行定位与地图构建计算，得到每一个动态聚类结果对应的动态点云集合；对所述动态点云集合进行分类处理，得到动态障碍物信息。

具体地，针对每组运动特征点对进行聚类，得到对应的动态聚类结果。由于SLAM只能重建静态场景，因此针对每一个动态聚类结果分别做一次三维重建。即，利用视觉SLAM算法分别对每一个动态聚类结果进行计算，得到每一个动态聚类结果对应的动态点云集合(点云团簇)。然后将动态点云集合拟合为三维目标(CAD模型或者长方体框)。然后利用实例分割得到的标注后的图像数据序列对三维目标的类别进行标注，得到动态障碍物信息(即动态目标框的标注)。

由于对图像数据序列进行实例分割能够分割出道路区域，因此，先对静态点云数据中的路面数据进行拟合得到拟合路面，将拟合路面与道路区域进行拼接处理，得到拼接路面图像。再对拼接路面图像进行语义分割处理，得到交通标记(车道线、斑马线等)道路区域和道路边界，最后，对道路边界候选点进行分段近似拟合并给出拟合后的道路边界的类别。如此对交通标记、道路区域和道路边界其类别进行融合得到地图信息。进一步地，地图信息可以进行分段折线标注，以得到地图信息的矢量表示。

在静态点云数据中对路面数据进行过滤，则可以得到非路面数据。实例分割得到的标注后的图像数据序列对非路面数据的类别进行标注，得到静态障碍物信息(即静态目标框的标注)。

最后，对动态点云集合和非路面数据进行表面重建，得到三维场景。再将三维场景、地图信息和障碍物信息分别投射到单帧的车体坐标系下，得到标注结果。

S610、对三维点云数据和图像数据序列进行特征提取，得到静态特征数据和动态特征数据；

S620、根据所述静态特征数据中的路面数据确定所述地图信息；

S630、根据所述静态特征数据中的非路面数据和所述动态三维点云数据确定障碍物信息。

S640、根据所述障碍物信息进行表面重建，得到三维场景；

S650、利用三维场景、地图信息和障碍物信息，对目标车辆的驾驶场景进行数据标注，得到对应的标注结果。

示例性地，在场景数据源是图像数据序列的情况下，静态特征数据可以表示为静态三维点云数据。动态特征数据可以表示动态三维点云数据。

可选地，步骤S610可以包括：通过对比前后帧的图像数据，标注图像数据序列中的静态目标和动态目标，将动态目标和静态目标进行三维转换，得到对应的静态三维点云数据和动态三维点云数据。

优选地，步骤S610还可以包括：对所述场景源数据进行定位与地图构建计算，得到静态三维点云数据；利用所述静态三维点云数据，对所述场景源数据进行运动分割得到所述动态特征。

具体地，如图7所示，可以是采用视觉SLAM算法(如多摄像头视觉-惯导里程计)对图像数据序列进行三维重建，得到静态三维点云数。同时，利用静态点云数据对应的背景特征点辅助图像数据序列进行运动分割，得到区别于背景特征点的运动特征点。例如，由于运动的物体是由多个特征点组成，所以运动分割时可以将一起运动的特征点作为运动特征点对。进一步地，在得到运动特征点对之后，可以过滤掉其中的孤立点对，使得识别出的目标更加准确。

将所述三维点云数据进行投影得到投影图像；

对所述投影图像进行深度补全处理，得到补全图像；

对所述补全图像进行三维投影，并对投影得到的点云数据进行类别标注，得到第一目标点云数据；

对所述第一目标点云数据进行定位与地图构建计算，得到所述静态三维点云数据。

具体地，先将三维点云数据投影至二维的投影图像，利用深度补全算法对投影图像进行处理，即可以将三维点云数据投影到图像生成的深度补全(内插和“填洞”)，得到补全图像。然后再将补全图像反投至三维空间，对投影得到的点云数据进行语义分割，以对投影得到的点云数据的类别进行标注得到第一目标点云数据。再将第一目标点云数据和IMU数据输入激光雷达与惯导里程计(FAST-LIO2)，被标记为动态障碍物(车辆和行人)的点云数据会被挑选出来，得到静态三维点云数据。如此，对图像深度补全，使得图像中的信息更加全面，从而能够获得更加全面的静态三维点云数据。

对所述图像数据序列和所述三维点云数据进行场景流估计，得到场景流值；

利用所述静态三维点云数据和所述场景流值，对所述场景源数据进行运动分割得到动态三维点云数据。

示例性地，场景流表示三维点云的运动情况。利用双向融合pipeline对图像数据序列和三维点云数据进行处理，输出对应的场景流值。这样能够利用摄像头和激光雷达之间的互补性来进行特征融合。利用场景流值辅助三维点云数据的运动分割得到动态三维点云数据，如此，有助于进一步地区分了动态三维点云数据和静态三维点云数据。

在一种实施方式中，步骤S630，包括：

S6310、将所述运动特征点转换为目标动态三维点云数据，并基于所述目标动态三维点云数据确定动态障碍物信息；

S6320、对所述静态三维点云数据中的非路面数据进行目标识别，得到静态障碍物信息；

S6330、根据所述动态障碍物信息和所述静态障碍物信息，得到所述障碍物信息。

具体地，利用实例分割(如PointNet、PointPillar)对动态三维点云数据进行处理，得到多个分割目标，每个分割目标则表示一个动态障碍物，并输出每个分割目标(即动态障碍物)的类别。进一步地，可以采用滤波算法(如三维卡尔曼滤波算法)对动态障碍物进行处理，即确定动态障碍物在其前后帧的点云数据关联和轨迹，得到更平滑的三维框位置和姿态，同时基于动态障碍物的运动可以对齐多帧点云，如此，使得输出的过滤后的动态障碍物的点云数据更加致密。再利用实例分割对过滤后的动态障碍物的点云数据进行识别，得到动态障碍物对应的类别(即得到动态目标框的标注)，将动态障碍物及其类别作为动态障碍物信息。如此，利用深度学习模型(如实例分割、语义分割)对数据进行处理，使得分割出的障碍物、地图信息更加准确，从而使得标注结果更加准确。

需要说明的是，如图8所示，激光雷达与IMU联合的SLAM的原理如下：激光雷达原始点在10ms(对于IMU的100Hz更新)和100ms(对于激光雷达的10Hz更新)之间的时间段内进行累积，累积的点云称为扫描数据；为了状态估计，新扫描的点云通过紧耦合迭代卡尔曼滤波框架(IEKF)配准到大型局部地图中维护的地图点(即里程计)；地图采用增量式ikd-tree存储；观测方程是点云和地图直接匹配；除了最近邻搜索(k-NN)外，还支持增量地图更新(即点插入、下采样、点删除)；如果当前激光雷达的FoV范围越过地图边界，则距离激光雷达姿态最远的地图历史点将从ikd-tree中删除；优化后的姿态将新扫描中的点配准到全局坐标系，并以里程计的速率插入ikd-tree(即制图)合并到地图中。

如图9所示，多摄像头的SLAM/SFM(即视觉SLAM)的原理如下：包括三个模块，即多摄像机视觉定位、全景制图和闭环校正。多摄像机视觉定位的目标是实时获取车辆的6D姿态，基于多摄像机空间感知模型，通过多摄像机的图像帧可快速估计姿态，其中定位过程可以分为三种状态：初始化、跟踪和重定位。制图系统从匹配特征点构建稀疏点云作为地图，每个地图点都有特征点描述，这使地图可以重复使用。为了避免地图过大，只为满足特定条件的关键帧构建地图。关键帧是由多摄像头图像中提取的特征组成的。为了表示关键帧之间的共视性信息，将关键帧作为节点，然后将两帧的共享地图点的数量作为边的权重来构建共视图(co-visibility graph)。可以理解的是，更大的权重意味着帧共享更多的观测值。制图过程包括同步和异步两种。可选地，同步制图使用任意一对摄像头来参与3D构建过程；异步制图利用共视图中的当前关键帧和先前关键帧来生成地图点。闭环检测是系统检测是否返回到先前场景的能力，基于闭环检测的校正可以极大地提高系统的全局一致性。基于闭环信息，可同时校正轨迹和地图。

如图10所示，多摄像头与IMU联合的SLAM的原理如下：由三个阶段组成，前两个阶段旨在以线性方式初始化估计器，以及在没有先验知识的情况下获得摄像头IMU标定的初始值；在第三阶段，利用前两个阶段的初始值，用非线性优化进行紧耦合状态估计器。初始化的架构基本是单目摄像头+IMU的VINS系统多次运行得到，假设多摄像头之间还没有标定(如果摄像头已经标定，可以直接提供初值)，所以初始阶段不考虑摄像头之间的特征匹配。其中，旋转标定类似手-眼标定过程，平移标定会将VINS的滑行窗估计器技术推广到多摄像头。基于初始化步骤，根据摄像头之间的相对姿态，建立摄像头内(时间)和摄像头之间(空间)的特征跟踪。直观地说，具有重叠视场的摄像头可以实现特征的空间三角测量。另一方面，如果摄像头之间没有重叠的视场，或者特征点太远，系统将退化为多个单目VINS配置。

如图11所示，激光雷达、多摄像头和IMU联合的SLAM原理如下：激光雷达点云投影到各个摄像头构成深度网格，在各个图像进行特征检测跟踪，得到初始化姿态；深度网格和二维特征位置可计算二维特征的深度(即这里每个摄像头和激光雷达分别构成SLAM流水线)；然后，特征跟踪数据和IMU数据来执行估计器的初始化，IMU预积分的IMU姿态、速度和偏移以及摄像头帧的特征创建滑动窗口，使用非线性优化过程执行状态估计；一旦获得滑动窗的估计状态，就与闭环检测(位置识别)模块一起执行全局姿态图优化，最后输出三维点云地图。

需要说明的是，在数据标注过程可以根据采用的传感器类型选择中适用的SLAM算法。例如，通过多个摄像头获取图像数据，则可以采用多个摄像头的SLAM算法或多摄像头和IMU联合的SLAM算法。在此不作限定。

本申请一实施例还提供了一种数据标注方法，在目标车辆采集的场景源数据是三维点云数据的情况下，提取得到的数据特征为特征编码。该方法可以包括：

S710、对所述三维点云数据进行编码得到特征编码，并基于所述特征编码构建鸟瞰图特征；

S720、对所述鸟瞰图特征进行障碍物检测，得到所述障碍物信息；

S730、对所述鸟瞰图特征进行地图元素检测，得到所述地图信息；

S740、根据特征编码进行表面重建，得到三维场景；

S750、利用三维场景、地图信息和障碍物信息，对目标车辆的驾驶场景进行数据标注，得到对应的标注结果。

示例性地，鸟瞰图特征(Bird's Eye View，BEV)表示点云在垂直于高度方向的平面上的投影。

具体地，如图12所示，首先，将三维点云数据体素化，形成多个三维点云数据对应一个体素的形式。其中，体素化的典型方法包括：VoxelNet(Voxel Network)、Voxel-FPN(Voxel-Feature Pyramid Network)等。将体素化后的三维点云数据输入编码器进行编码，得到三维点云特征编码。再将特征编码投影到BEV空间(即鸟瞰视角的三维空间)，转化为BEV点云数据，根据组合特征聚合器和BEV编码器对BEV点云数据进行编码得到鸟瞰图特征(即BEV特征)。

其次，采用地图元素检测模块(Map Element Detector)对鸟瞰图特征进行检测，以定位每一个地图元素的位置，大致形状以及所属类别，如此得到地图信息，如，车道线、斑马线和路沿(道路边界)等的关键点和类别(即回归和分类)。在本实施例中，地图元素检测模块的结构类似于基于transformer的DETR模型，同样采用deformable attention模块，输出是关键点的位置和所属元素ID。进一步地，利用折线生成器对上述关键点和鸟瞰图特征进行处理，生成折线的顶点(vertex)，得到地图信息的几何表征。其中，折线生成器采用transformer模型。利用目标检测模型对鸟瞰图特征进行目标检测，得到鸟瞰图特征中的障碍物及其类别。将障碍物及其类别作为障碍物信息。其中，目标检测模型是预先根据驾驶场景中的各种障碍物图像进行训练得到的。即目标检测模型能够识别出驾驶场景下的障碍物及其类别。

在一种实施方式中，对场景源数据进行特征提取处理，包括：对所述三维点云数据进行编码得到三维点云特征编码。

相应地，步骤S740，包括：对所述三维点云特征编码进行解码，并基于预设的占用网络对解码结果进行分析，得到三维场景。

示例性地，预设的占用网络(Occupancy Network)，是将世界划分为一系列网格单元，定义哪个单元被占用，哪个单元是空闲的。通过预测3D空间中的占据概率来获得3D空间表示。

具体地，将三维点云数据体素化，将体素化后的三维点云数据输入编码器进行编码，得到三维点云特征编码。通过3D解码器对三维点云特征编码进行解码，得到多尺度的体素特征。再根据占用网络对多尺度的体素特征进行上采样处理，占用网络在每个尺度上都会输出一个占据预测结果，如此可以确定表面被障碍物占据的区域，生成对应的三维场景。进一步地，可以使用NN算法搜索每个体素最近的稀疏体素，并将其语义标签分配给该体素，生成体素的语义分割。这样得到的密集体素提供了更加真实的占据标签和清晰的语义边界。

最后，将三维场景、地图信息和障碍物信息分别投射到车体坐标系下，得到标注结果。如此，基于全深度学习模型来标注激光雷达采集的三维点云数据，不再受限与SLAM算法，也可以准确地对标注三维点云数据。

本申请一实施例还提供了一种数据标注方法，在目标车辆采集的场景源数据是图像数据序列的情况下，提取得到的数据特征为特征编码。该方法可以包括：

S810、对所述图像数据序列进行编码得到特征编码，并基于所述特征编码构建鸟瞰图特征；

S820、对所述鸟瞰图特征进行障碍物检测，得到所述障碍物信息；

S830、对所述鸟瞰图特征进行地图元素检测，得到所述地图信息；

S840、根据特征编码进行表面重建，得到三维场景；

S850、利用三维场景、地图信息和障碍物信息，对目标车辆的驾驶场景进行数据标注，得到对应的标注结果。

具体地，如图13所示，首先，根据编码器对图像数据序列进行图像编码得到图像特征编码，其中，编码器可以是EfficientNet、RegNet和FPN/Bi-FPN。

可以根据基于查询的transformation方法对图像特征编码进行处理构建鸟瞰图特征，还可以基于深度的方法通过计算2D特征和预测深度的外积来获得BEV特征(即鸟瞰图特征)。

其次，采用地图元素检测模块(Map Element Detector)对鸟瞰图特征进行检测，以定位每一个地图元素的位置，大致形状以及所属类别，如此得到地图信息，如，车道线、斑马线和路沿等的关键点和类别(即回归和分类)。在本实施例中，地图元素检测模块的结构类似于基于transformer的DETR模型，同样采用deformable attention模块，输出是关键点的位置和所属元素ID。进一步地，利用折线生成器对上述关键点和鸟瞰图特征进行处理，生成折线的顶点(vertex)，得到地图信息的几何表征。其中，折线生成器采用transformer模型。利用目标检测模型对鸟瞰图特征进行目标检测，得到鸟瞰图特征中的障碍物及其类别。将障碍物及其类别作为障碍物信息。其中，目标检测模型是预先根据驾驶场景中的各种障碍物图像进行训练得到的，可以采用Transformer架构或类似PointPillar架构。即目标检测模型能够识别出驾驶场景下的障碍物及其类别。

在一种实施方式中，对场景源数据进行特征提取处理，包括：对所述图像数据序列进行编码得到图像特征编码。

相应地，步骤S840，包括：基于得到的图像序列编码转换为三维点云投影编码；对所述三维点云投影编码进行解码，并基于预设的占用网络对解码结果进行分析，得到三维场景。

具体地，基于深度的方法通过计算2D特征和预测深度的外积来得到3D坐标，这样使得高度信息得到保留。将3D坐标输入编码器进行编码，得到三维点云投影编码。通过3D解码器对三维点云投影编码进行解码，得到多尺度的体素特征。再根据占用网络对多尺度的体素特征进行处理，占用网络在每个尺度上都会输出一个占据预测结果，如此可以确定表面被障碍物占据的区域，生成对应的三维场景。进一步地，可以使用NN算法搜索每个体素最近的稀疏体素，并将其语义标签分配给该体素，生成体素的语义分割。这样得到的密集体素提供了更加真实的占据标签和清晰的语义边界。

最后，将三维场景、地图信息和障碍物信息分别投射到车体坐标系下，得到标注结果。如此，基于全深度学习模型来标注摄像头采集的图像数据，不再受限与SLAM算法，也可以准确地对标注图像数据。

本申请一实施例还提供了一种数据标注方法，在目标车辆采集的场景源数据是三维点云数据和图像数据序列的情况下，提取得到的数据特征为特征编码。该方法可以包括：

S910、对所述三维点云数据和图像数据序列进行编码得到特征编码，并基于所述特征编码构建鸟瞰图特征；

S920、对所述鸟瞰图特征进行障碍物检测，得到所述障碍物信息；

S930、对所述鸟瞰图特征进行地图元素检测，得到所述地图信息；

S940、根据特征编码进行表面重建，得到三维场景；

S950、利用三维场景、地图信息和障碍物信息，对目标车辆的驾驶场景进行数据标注，得到对应的标注结果。

优选地，步骤S910，包括：对所述图像序列进行编码得到图像特征编码，并将所述图像特征编码转换至鸟瞰视角的三维空间，得到第一鸟瞰图特征；对所述三维点云数据进行特征编码得到三维点云特征编码，并将所述三维点云特征编码转换至所述鸟瞰视角的三维空间，得到第二鸟瞰图特征；根据所述第一鸟瞰图特征和所述第二鸟瞰图特征构建所述鸟瞰图特征。

具体地，如图14所示，首先，根据编码器对图像数据序列进行图像编码得到图像特征编码，其中，编码器可以是EfficientNet、RegNet和FPN/Bi-FPN。可以根据基于查询的transformation方法对图像特征编码进行处理构建鸟瞰图特征，还可以基于深度的方法通过计算2D特征和预测深度的外积来获得第一鸟瞰图特征(即BEV特征)。

将三维点云数据体素化，形成多个三维点云数据对应一个体素的形式。将体素化后的三维点云数据输入编码器进行编码，得到三维点云特征编码。再将特征编码投影到BEV空间(即鸟瞰视角的三维空间)，转化为BEV点云数据。根据组合特征聚合器和BEV编码器对BEV点云数据进行编码得到第二鸟瞰图特征。然后，将第一鸟瞰图特征与第二鸟瞰特征图合并生成目标鸟瞰特征图。

在一种实施方式中，步骤S940，包括：对所述图像序列进行编码转换，得到三维点云投影编码；对所述三维点云特征编码和所述三维点云投影编码进行解码，并基于预设的占用网络对解码结果进行分析，得到三维场景。

具体地，基于深度的方法通过计算2D特征和预测深度的外积来得到3D坐标，这样使得高度信息得到保留。将3D坐标输入编码器进行编码，得到三维点云投影编码。将三维点云数据体素化，将体素化后的三维点云数据输入编码器进行编码，得到三维点云特征编码。根据三维点云投影编码和三维点云特征编码合并生成目标三维点云特征编码(即体素特征)，通过3D解码器对目标三维点云特征编码进行解码，得到多尺度的体素特征。

再根据占用网络对多尺度的体素特征进行处理，占用网络在每个尺度上都会输出一个占据预测结果，如此可以确定表面被障碍物占据的区域，生成对应的三维场景。进一步地，可以使用NN算法搜索每个体素最近的稀疏体素，并将其语义标签分配给该体素，生成体素的语义分割。这样得到的密集体素提供了更加真实的占据标签和清晰的语义边界。

最后，将三维场景、地图信息和障碍物信息分别投射到车体坐标系下，得到标注结果。如此，基于全深度学习模型来标注摄像头采集的图像数据和激光雷达采集的三维点云数据，两种数据相结合，信息互补，进一步保证了特征标注的准确性。

示例性装置

相应的，图15是根据本申请一实施例的数据标注装置的结构示意图。在一示例性实施例中，提供了一种数据标注装置，包括：

处理模块1510，用于对目标车辆采集的场景源数据进行特征提取处理，并基于提取得到的数据特征，获取与所述场景源数据对应的地图信息和障碍物信息；其中，所述场景源数据包括三维点云数据和图像数据序列中的至少一项；

重建模块1520，用于根据提取得到的所述数据特征或所述障碍物信息进行表面重建，得到三维场景；

标注模块1530，用于利用三维场景、地图信息和障碍物信息，对目标车辆的驾驶场景进行数据标注，得到对应的标注结果。

在一种实施方式中，处理模块1510，包括：

提取模块，用于对所述场景源数据进行特征提取，得到静态特征数据和动态特征数据；

第一确定模块，用于根据所述静态特征数据中的路面数据确定所述地图信息；

第二确定模块，用于根据所述静态特征数据中的非路面数据和所述动态特征数据确定障碍物信息。

在一种实施方式中，提取模块，包括：

计算模块，用于对所述场景源数据进行定位与地图构建计算，得到静态三维点云数据；

分割模块，用于利用所述静态三维点云数据，对所述场景源数据进行运动分割得到所述动态特征数据。

在一种实施方式中，在所述场景源数据是图像数据序列的情况下，计算模块，还用于：

在一种实施方式中，在所述场景源数据是三维点云数据和图像数据序列的情况下，计算模块，还用于：

将所述三维点云数据进行投影得到投影图像；

对所述投影图像进行深度补全处理，得到补全图像；

在一种实施方式中，在所述场景源数据是图像数据序列的情况下，所述动态特征数据是运动特征点；

相应地，分割模块，还用于：对所述图像数据序列进行光流估计，得到对应的光流值；利用所述静态三维点云数据和所述光流值，对所述场景源数据进行运动分割得到运动特征点。

在一种实施方式中，在所述场景源数据是三维点云数据和图像数据序列的情况下，所述动态特征数据是动态三维点云数据；

相应地，分割模块，还用于：对所述图像数据序列和所述三维点云数据进行场景流估计，得到场景流值；利用所述静态三维点云数据和所述场景流值，对所述场景源数据进行运动分割得到动态三维点云数据。

相应地，所述根据所述静态特征数据中的非路面数据和所述动态特征数据确定障碍物信息，包括：

将所述运动特征点转换为目标动态三维点云数据，并基于所述目标动态三维点云数据确定动态障碍物信息；

对所述静态三维点云数据中的非路面数据进行目标识别，得到静态障碍物信息；

根据所述动态障碍物信息和所述静态障碍物信息，得到所述障碍物信息。

在一种实施方式中，在所述场景源数据是三维点云数据，或所述场景源数据是三维点云数据和图像数据序列的情况下，所述根据所述静态三维点云数据中的非路面数据和所述动态三维点云数据确定障碍物信息，包括：

对所述动态三维点云数据进行分类处理，得到动态障碍物信息；

在一种实施方式中，所述将所述运动特征点转换为目标动态三维点云数据，并基于所述目标动态三维点云数据确定动态障碍物信息，包括：

将所述运动特征点进行聚类处理，得到至少一个动态聚类结果；

针对每一个动态聚类结果，分别进行定位与地图构建计算，得到每一个动态聚类结果对应的动态点云集合；

对所述动态点云集合进行分类处理，得到动态障碍物信息。

在一种实施方式中，所述对所述动态点云集合进行分类处理，得到动态障碍物信息，包括：

利用图像像素特征的相似度，对所述图像数据序列进行特征提取，得到图像序列特征；

将所述动态点云集合与所述图像序列特征进行特征融合，并基于融合结果识别出动态障碍物信息。

在一种实施方式中，所述对所述静态三维点云数据中的非路面数据进行目标识别，得到静态障碍物信息，包括：

将所述静态三维点云数据进行聚类处理，得到至少一个静态聚类结果；

将所述至少一个静态聚类结果与所述图像序列特征进行特征融合，并基于融合结果识别出静态障碍物信息。

在一种实施方式中，处理模块1510，包括：

构建模块，用于对所述场景源数据进行编码得到特征编码，并基于所述特征编码构建鸟瞰图特征；

第一检测模块，用于对所述鸟瞰图特征进行障碍物检测，得到所述障碍物信息；

第二检测模块，用于对所述鸟瞰图特征进行地图元素检测，得到所述地图信息。

在一种实施方式中，在所述场景源数据是三维点云数据和图像序列的情况下，构建模块，还用于：

对所述图像序列进行编码得到图像特征编码，并将所述图像特征编码转换至鸟瞰视角的三维空间，得到第一鸟瞰图特征；

对所述三维点云数据进行特征编码得到三维点云特征编码，并将所述三维点云特征编码转换至所述鸟瞰视角的三维空间，得到第二鸟瞰图特征；

根据所述第一鸟瞰图特征和所述第二鸟瞰图特征构建所述鸟瞰图特征。

在一种实施方式中，在所述场景源数据是三维点云数据和图像序列的情况下，重建模块1520，还用于：对所述图像序列进行编码转换，得到三维点云投影编码；对所述三维点云特征编码和所述三维点云投影编码进行解码，并基于预设的占用网络对解码结果进行分析，得到三维场景。

在一种实施方式中，在所述场景源数据是三维点云数据的情况下，对场景源数据进行特征提取处理，包括：对所述三维点云数据进行编码得到三维点云特征编码；

相应地，重建模块1520，还用于：对所述三维点云特征编码进行解码，并基于预设的占用网络对解码结果进行分析，得到三维场景。

在一种实施方式中，在所述场景源数据是图像数据序列的情况下，对场景源数据进行特征提取处理，包括：对所述图像数据序列进行编码得到图像特征编码；

相应地，重建模块1520，还用于：基于得到的图像特征编码转换为三维点云投影编码；对所述三维点云投影编码进行解码，并基于预设的占用网络对解码结果进行分析，得到三维场景。

本实施例提供的数据标注装置，与本申请上述实施例所提供的数据标注方法属于同一申请构思，可执行本申请上述任意实施例所提供的数据标注方法，具备执行数据标注方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请上述实施例提供的数据标注方法的具体处理内容，此处不再加以赘述。

示例性电子设备

本申请另一实施例还提出一种电子设备，参见图16所示，该设备包括：

存储器1600和处理器1610；

其中，所述存储器1600与所述处理器1610连接，用于存储程序；

所述处理器1610，用于通过运行所述存储器1600中存储的程序，实现上述任一实施例公开的数据标注方法。

具体的，上述电子设备还可以包括：总线、通信接口1620、输入设备1630和输出设备1640。

处理器1610、存储器1600、通信接口1620、输入设备1630和输出设备1640通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器1610可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器1610可包括主处理器，还可包括基带芯片、调制解调器等。

存储器1600中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器1600可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备1630可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备1640可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口1620可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器1610执行存储器1600中所存放的程序，以及调用其他设备，可用于实现本申请上述实施例所提供的任意一种数据标注方法的各个步骤。

示例性计算机程序产品和存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的数据标注方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是存储介质，其上存储有计算机程序，计算机程序被处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的数据标注方法中的步骤，上述的电子设备的具体工作内容，以及上述的计算机程序产品和存储介质上的计算机程序被处理器运行时的具体工作内容，均可以参见上述的方法实施例的内容，此处不再赘述。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据标注方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对目标车辆采集的场景源数据进行特征提取处理，并基于提取得到的数据特征，获取与所述场景源数据对应的地图信息和障碍物信息，包括：

对所述场景源数据进行特征提取，得到静态特征数据和动态特征数据；

根据所述静态特征数据中的路面数据确定所述地图信息；

根据所述静态特征数据中的非路面数据和所述动态特征数据确定障碍物信息。

3.根据权利要求2所述的方法，其特征在于，所述对所述场景源数据进行特征提取，得到静态特征数据和动态特征数据，包括：

对所述场景源数据进行定位与地图构建计算，得到静态三维点云数据；

利用所述静态三维点云数据，对所述场景源数据进行运动分割得到所述动态特征数据。

4.根据权利要求3所述的方法，其特征在于，在所述场景源数据是图像数据序列的情况下，所述对所述场景源数据进行定位与地图构建计算，得到静态三维点云数据，包括：

5.根据权利要求3所述的方法，其特征在于，在所述场景源数据是三维点云数据和图像数据序列的情况下，所述对所述场景源数据进行定位与地图构建计算，得到静态三维点云数据，包括：

将所述三维点云数据进行投影得到投影图像；

对所述投影图像进行深度补全处理，得到补全图像；

6.根据权利要求3所述的方法，其特征在于，在所述场景源数据是图像数据序列的情况下，所述动态特征数据是运动特征点；

相应地，所述利用所述静态三维点云数据，对所述场景源数据进行运动分割得到动态特征数据，包括：

对所述图像数据序列进行光流估计，得到对应的光流值；

7.根据权利要求3所述的方法，其特征在于，在所述场景源数据是三维点云数据和图像数据序列的情况下，所述动态特征数据是动态三维点云数据；

8.根据权利要求3所述的方法，其特征在于，在所述场景源数据是图像数据序列的情况下，所述动态特征数据是运动特征点；

9.根据权利要求3所述的方法，其特征在于，在所述场景源数据是三维点云数据，或所述场景源数据是三维点云数据和图像数据序列的情况下，所述动态特征数据是动态三维点云数据；

10.根据权利要求8所述的方法，其特征在于，所述将所述运动特征点转换为目标动态三维点云数据，并基于所述目标动态三维点云数据确定动态障碍物信息，包括：

对所述动态点云集合进行分类处理，得到动态障碍物信息。

11.根据权利要求10所述的方法，其特征在于，所述对所述动态点云集合进行分类处理，得到动态障碍物信息，包括：

12.根据权利要求10所述的方法，其特征在于，所述对所述静态特征数据中的非路面数据进行目标识别，得到静态障碍物信息，包括：

13.根据权利要求1所述的方法，其特征在于，所述对目标车辆采集的场景源数据进行特征提取处理，并基于提取得到的数据特征，获取与所述场景源数据对应的地图信息和障碍物信息，包括：

对所述场景源数据进行编码得到特征编码，并基于所述特征编码构建鸟瞰图特征；

对所述鸟瞰图特征进行障碍物检测，得到所述障碍物信息；

对所述鸟瞰图特征进行地图元素检测，得到所述地图信息。

14.根据权利要求13所述的方法，其特征在于，在所述场景源数据是三维点云数据和图像序列的情况下，所述对所述场景源数据进行编码得到特征编码，并基于所述特征编码构建鸟瞰图特征，包括：

15.根据权利要求14所述的方法，其特征在于，在所述场景源数据是三维点云数据和图像序列的情况下，所述根据提取得到的所述数据特征进行表面重建，得到三维场景，包括：

对所述图像序列进行编码转换，得到三维点云投影编码；

对所述三维点云特征编码和所述三维点云投影编码进行解码，并基于预设的占用网络对解码结果进行分析，得到三维场景。

16.根据权利要求1所述的方法，其特征在于，在所述场景源数据是三维点云数据的情况下，对场景源数据进行特征提取处理，包括：

对所述三维点云数据进行编码得到三维点云特征编码；

相应地，根据提取得到的所述数据特征进行表面重建，得到三维场景，包括：

对所述三维点云特征编码进行解码，并基于预设的占用网络对解码结果进行分析，得到三维场景。

17.根据权利要求1所述的方法，其特征在于，在所述场景源数据是图像数据序列的情况下，对场景源数据进行特征提取处理，包括：对所述图像数据序列进行编码得到图像特征编码；

相应地，所述根据提取得到的所述数据特征进行表面重建，得到三维场景，包括：

基于得到的图像特征编码转换为三维点云投影编码；

对所述三维点云投影编码进行解码，并基于预设的占用网络对解码结果进行分析，得到三维场景。

18.一种数据标注装置，其特征在于，包括：

19.一种电子设备，其特征在于，包括：

存储器和处理器；

所述存储器与所述处理器连接，用于存储程序；

所述处理器，通过运行所述存储器中的程序，实现如权利要求1至17中任意一项数据标注方法。

20.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现如权利要求1至17中任意一项数据标注方法。