CN117252992A

CN117252992A - 基于时序数据的4d道路场景标注方法及装置、电子设备

Info

Publication number: CN117252992A
Application number: CN202311497951.XA
Authority: CN
Inventors: 林群书; 刘明皓; 祁士刚; 吴欣骏; 杨易; 张超; 赵子健; 彭昊龙; 邵琪钧
Original assignee: Integer Intelligence Information Technology Hangzhou Co ltd
Current assignee: Integer Intelligence Information Technology Hangzhou Co ltd
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2023-12-19
Anticipated expiration: 2043-11-13
Also published as: US12198447B1; CN117252992B

Abstract

本申请公开了一种基于时序数据的4D道路场景标注方法及装置、电子设备，包括：获取同一道路场景同一时间序列下的点云数据和多视角2D图像数据以及通过传感器获取的旋转矩阵和平移向量；利用旋转矩阵和平移向量将所有点云数据合并成一帧联合点云；在4D道路场景中对联合点云进行动静态物标注和车道线标注；根据相机参数信息，将4D道路场景中的标注信息映射到时间序列下的所有2D图像数据上，得到在2D图像上的标注信息。通过本发明的方法，充分利用时序信息，避免掉了重要信息丢失等，同时在4D道路场景中标注后的结果也能逆向返回到时序空间下每一帧或者每一张图片的标注结果，能够有效减少标注耗费的时间，大大提升了标注的效率。

Description

基于时序数据的4D道路场景标注方法及装置、电子设备

技术领域

本申请涉及数据标注技术领域，尤其涉及一种基于时序数据的4D道路场景标注方法及装置、电子设备。

背景技术

数据标注是对计算机视觉或自然语言处理 (NLP)可识别的材料内容进行标记的过程。得益于数据标注，人工智能 (AI) 或机器学习模型可以解释高质量图像和视频以及文本中的数据。数据标注使自动驾驶汽车等机器学习项目能够成功地将我们带到目的地。而4D道路场景是在3D空间内引入了时间的概念，将4D融入3D空间乃至2D空间的标注工作是一个全新的场景。

目前而言，最为基础的标注软件如LabelMe、LabelImg等方法，用户对数据采集后上传到标注软件，输出标注格式后还需要根据训练的情况做修改，面对时序相关的数据则束手无策，依然只能按部就班的一张图片一张图片进行标注，诸多的时序信息无法被充分利用，在标注过程中面临着极大的时间浪费问题。

发明内容

本发明的目的是提供一种基于时序数据的4D道路场景标注方法及装置、电子设备，以解决人工完成标注效率低下、时序信息没有被有效利用的问题。

根据本申请实施例的第一方面，提供一种基于时序数据的4D道路场景标注方法，包括：

获取同一道路场景同一时间序列下的点云数据和多视角2D图像数据以及通过传感器获取的旋转矩阵R和平移向量t；

利用所述旋转矩阵R和平移向量t将所有点云数据合并成一帧统一坐标系下的联合点云，完成4D道路场景的构建；

在4D道路场景中对所述统一坐标系下的联合点云进行动静态物标注和车道线标注，所述动静态物标注包括利用3D目标检测器对4D道路场景间中的目标进行检测，得到多个检测框，再利用双向多目标跟踪方法优化所述检测框的生成；所述车道线标注包括通过法向量提取4D道路场景中地面信息，再提取车道线点集，从而拟合出车道线曲线；

根据相机参数信息，将4D道路场景中的标注信息映射到时间序列下的所有2D图像数据上，得到在2D图像上的标注信息。

根据本申请实施例的第二方面，提供一种基于时序数据的4D道路场景构建及预标注装置，包括：

获取模块，用于获取同一道路场景同一时间序列下的点云数据和多视角2D图像数据以及通过传感器获取的旋转矩阵R和平移向量t；

合并模块，用于利用所述旋转矩阵R和平移向量t将所有点云数据合并成一帧统一坐标系下的联合点云，完成4D道路场景的构建；

标注模块，用于在4D道路场景中对所述统一坐标系下的联合点云进行动静态物标注和车道线标注，所述动静态物标注包括利用3D目标检测器对4D道路场景间中的目标进行检测，得到多个检测框，再利用双向多目标跟踪方法优化所述检测框的生成；所述车道线标注包括通过法向量提取4D道路场景中地面信息，再提取车道线点集，从而拟合出车道线曲线；

映射模块，用于根据相机参数信息，将4D道路场景中的标注信息映射到时间序列下的所有2D图像数据上，得到在2D图像上的标注信息。

根据本申请实施例的第三方面，提供一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的方法。

根据本申请实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第一方面所述方法的步骤。

与现有技术相比，本发明的实施例至少具有以下有益效果：

本申请针对时序相关的一连串数据标注优秀，充分利用时序信息，同时针对时序数据进行标注，在构建后的4D道路场景中用户能够获得更多的信息表示，避免掉了重要信息丢失等问题，同时在4D道路场景中标注后的结果也能逆向返回到时序空间下每一帧或者每一张图片的标注结果，能够有效减少标注耗费的时间，大大提升了标注的效率。解决了人工完成标注效率低下、时序信息没有被有效利用的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种基于时序数据的4D道路场景标注方法的流程图。

图2是根据一示例性实施例示出的4D场景效果图。

图3是根据一示例性实施例示出的动静态物检测框生成效果图。

图4是根据一示例性实施例示出的拟合出的车道线效果图。

图5是根据一示例性实施例示出的映射的效果图。

图6是根据一示例性实施例示出的一种基于时序数据的4D道路场景标注装置的框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

图1是根据一示例性实施例示出的一种基于时序数据的4D道路场景标注方法的流程图。参考图1，本发明实施例提供的一种基于时序数据的4D道路场景标注方法可以包括：

S1：获取同一道路场景同一时间序列下的点云数据和多视角2D图像数据以及通过传感器获取的旋转矩阵R和平移向量t；

具体地，获取同一道路场景同一时间序列下的点云数据和多视角2D图像数据有以下两种方式：

（1）在同一道路场景同一时间序列下，获取相机拍摄的多视角2D图像数据和获取雷达拍摄的点云数据；

具体地，在同一道路场景同一时间序列下是指在同一个具体的道路环境里，在相同的一段时间段（如十秒、三十秒或一分钟）内进行连续观测或收集数据。这里连续观测或收集的多帧图像和点云数据组成一个时间序列下的时序信息，便于后续4D场景的构建。

获取相机拍摄的多视角2D图像数据是指在不同的角度使用摄像头捕捉到的二维平面视觉信息。这种方法能够提供周围环境的全面视觉信息，但因为缺乏高度信息，因此对于距离以及物体体积的判断会有所限制。

而获取雷达拍摄的点云数据则是通过发射激光束并接收反射回来的信号来构建周围的三维模型。这种方式可以获得更准确的距离信息和相对位置关系，但由于受到光束分布密度的影响，对于细节描绘能力相对较弱。

所以，综合来看，这两种方式各有优缺点，经常被结合起来使用以获得更丰富和全面的信息。在自动驾驶汽车中，摄像头和雷达常常会被一起使用，以获得最佳的道路识别效果。

（2）在同一道路场景同一时间序列下，获取相机拍摄的多视角2D图像数据；针对不同角度下的图片数据，从所述图像数据中推算3D信息，得到点云数据。

在一实施例中，从所述图像数据中推算3D信息，得到点云数据，可以包括：

A1：使用具有尺度和旋转不变性的SIFT描述子来提取所述图像数据的特征点；

具体地，本发明使用的是具有尺度和旋转不变性的SIFT描述子，其鲁棒性较强，适合用来提取尺度变换和旋转角度的各种图片特征点信息。比如，在一个特征点周围4*4的方格直方图中，每一个直方图包含8个bin的梯度方向，即得到一个4*4*8=128维的特征向量。

A2：对所述图像数据两两之间的特征点进行匹配计算，得到旋转矩阵R’和平移向量t’；

具体地，一旦每个图片的特征点被提出来以后，就需要进行图片两两之间的特征点匹配，为了去除噪声，本发明采用了随机抽样一致性RASNSAC算法进行滤波。利用表示图像I周围的特征点，对于每一个图像I和J，考虑每一个特征，找到最邻近的特征向量，其中：

；

为了获得图像相对变换的旋转矩阵R’和平移向量t’，可通过奇异值分解得到，即对本质矩阵E进行SVD分解：

；

其中和/>表示相机的参数，同时设置常量矩阵W：

W =；

最终我们可以得到如下的R’和t’的解析式：

；

上面总共存在4组可能的解(, )、(, )、(, )、(, )，在这4组解中，仅有一组满足所有投影点在两个相机中都为正深度，因此代入匹配点计算出坐标，即可选出正确的一组R’和t’。

A3：根据所述旋转矩阵R’、平移向量t’以及相机内参，恢复出物体的稀疏点云结构，将各部分稀疏点云结构变换到同一基准下进行点云融合，得到点云数据；

具体地，由步骤A2计算出来R’和t’，结合相机内参，可以恢复出物体的稀疏点云结构，直接将各部分点云通过变换到同一基准下就可以完成融合的过程，为了减少点云融合产生的误差，继续利用BA优化算法减少误差。

假设第一张图有m个特征点，第二张图有n个特征点，完成匹配后将所有重建误差利用最小二乘法优化得到优化函数：

；

其中表示位姿在处观测路标产生的数据。

最终得到融合后的点云数据。

S1中提及的通过传感器获取的旋转矩阵R和平移向量t是指可以通过INS/GNSS融合系统获取数据采集车的位置和角度信息，利用INS计算出旋转矩阵R，并利用GNSS数据进行纠正和校准获取平移向量t，以得到厘米级误差的旋转矩阵R和平移向量t。

S2：利用所述旋转矩阵R和平移向量t将所有点云数据合并成一帧统一坐标系下的联合点云，完成4D道路场景的构建；

具体地，每一帧对应的旋转矩阵R和平移向量t组成4x4的齐次变换矩阵:

；

对于每一帧点云，与其对应的齐次变换矩阵相乘得到变换后的点云。

最后，将每一帧变换后的点云根据时间顺序拼接得到最终的一帧统一坐标系下的联合点云，完成4D道路场景的构建。该4D道路场景的构建过程简单高效，能够快速处理大量的点云数据，最终重建的4D场景效果如附图2所示。

S3：在4D道路场景中对所述统一坐标系下的联合点云进行动静态物标注和车道线标注，所述动静态物标注包括利用3D目标检测器对4D道路场景间中的目标进行检测，得到多个检测框，再利用双向多目标跟踪方法优化所述检测框的生成；所述车道线标注包括通过法向量提取4D道路场景中地面信息，再提取车道线点集，从而拟合出车道线曲线；

具体地，3D目标检测器是利用深度学习模型，此类模型可以接受3D点云数据作为输入，并输出每个点云区域可能存在的对象类别及其置信度得分。经过训练后，此类模型能够自动地提取出图像中重要的特征，并预测出相应的对象类别标签。

对于每张点云图像，我们将会得到一系列的检测结果，包括目标的位置、大小、形状以及对象分类信息。为了进一步可视化结果，我们通常会在原点云图像上绘制出多个边界框来表示每个检测到的对象。

最后，通过对大量场景进行不断的检测和标注，我们可以积累大量的带有对象标记的3D数据，这些数据可以用于训练更强大的深度学习模型或者提供给相关应用使用。

所述双向多目标跟踪方法可以包括：

（1）前向跟踪：使用运动模型和物体关联算法来跟踪物体运动轨迹上从近到远的特征点，给特征点组成的物体设置检测框，并为同一轨迹上的所有检测框关联相同的编号；

具体地，运动模型使用3D卡尔曼滤波器，我们定义了三维空间中的卡尔曼滤波器：

；

表示检测框的位置，表示检测框的速度，表示检测框的大小，表示检测框的方向。

其中物体关联算法通过TIoU关联物体，TIoU是每对检测框的平均IoU除以两条轨道的并集长度，可表示为：

；

Sa和Sb分别为轨迹Ga和Gb的时间步长指标，Bi为两条轨迹重叠部分的第i个方格。

（2）回溯跟踪：估算被追踪物体的运动状态，并将轨迹延伸到物体运动轨迹从远到近的特征点，给特征点组成的物体设置检测框，并为同一轨迹上的所有检测框关联相同的编号。

具体地，回溯跟踪估算被追踪物体的运动状态，并将轨迹延伸到物体运动轨迹从坐标轴x方向上从远到近的特征点，给特征点组成的物体设置检测框，并为同一轨迹上的所有检测框关联相同的编号。

最终动静态物检测框生成效果如附图3所示。

所述通过法向量提取4D道路场景中地面信息，再提取车道线点集，从而拟合出车道线曲线，可以包括以下子步骤：

B1：通过法向量提取4D道路场景中地面信息，得到4D道路场景中的地面点；

具体地，由数据采集设备在每一帧的坐标位置（x，y，z）和旋转角度欧拉角（r，p，y）或四元数（x，y，z，w）组成每一帧的位姿，根据位姿筛选出固定半径长度的点云作为一个处理单位。

对于每一个处理单位，设置坐标系中垂直向上的法向量，将处理单位中与法向量垂直的平面拟合为地面，最后把所有单位的地面组合，得到4D场景中的地面点。

B2：在所述地面点中对强度在预定范围内的点做聚类，得到多组地面车道线线段点集；

具体地，设定强度阈值为20-100，选取强度阈值范围内的点作为聚类样本点，将这些样本点传入DBSCAN密度聚类算法进行聚类，该算法在进行聚类前设领域半径（eps）和最小点数（MinPts），在一个对象的eps邻域内至少有MinPts个点，这个区域的所有直接密度可达的点组成一个簇，并且可以继续寻找这个簇的密度可达的点，直到找不到新的密度可达的点为止置，最终得到多组地面车道线线段点集。

B3：沿坐标轴x轴正方向上关联同一车道线上的线段点集，使用线性回归得到同一车道线上的点集的拟合曲线，该拟合曲线作为最终的车道线。

具体地，车道线是延坐标轴x轴方向上延伸的结构化数据，选取x值最小的车道线线段点集作为初始车道线线段，在该点集中选取x最大和最小两点做x正方向上的射线，对于该条射线，查找所有车道线线段点集中距离该射线距离最近的点集视为与初始车道线线段属于同一车道线，加入到初始车道线线段中继续查找下一条同属于一条车道线的车道线线段，直到没有新的车道线线段加入为止。

关联所有车道线点集后，分别将每一个点集输入XGBoost算法，拟合出对应点集上的曲线，得到最终的车道线。该算法引入正则项有效避免了过拟合，且支持并行处理大大提高了计算速度，最终拟合出的车道线如附图4所示。

S4：根据相机参数信息，将4D道路场景中的标注信息映射到时间序列下的所有2D图像数据上，得到在2D图像上的标注信息；该步骤可以包括以下子步骤：

S41：给定当前4D道路场景中的任意一点，通过所述旋转矩阵R和平移向量t变换到局部坐标系下，得到局部坐标系下的点坐标；

具体地，全局坐标系（4D道路场景内）到局部坐标系，给定当前全局坐标系下的任意一点, 通过旋转矩阵 R, 和平移向量t变换到局部坐标系下，表示为：

其中是将点从全局坐标系变换到局部坐标系的齐次变换矩阵，是M的逆矩阵；

S42：将局部坐标系下的点坐标通过相机外参矩阵转换到相机坐标系下，得到相机坐标系下的点坐标；

具体地，相机外参矩阵通过标定得到，利用传感器外参将数据转换到传感器坐标系，在局部坐标系下的任意一点，通过相机外参数的矩阵转换到传感器坐标系下，表示为：

；

其中是将点从全局坐标系变换到传感器坐标系的齐次变换矩阵；

所述相机的参数信息一般包括：相机内参数据和相机外参数据，所述相机内参数据一般包括焦距、光心、像素尺寸、径向和切向畸变参数；所述相机外参数据一般包括标定得到的旋转矩阵和平移向量。

S42：利用相机内参和畸变参数，将相机坐标系下的点转换到像素坐标系下，得到像素坐标系下的点坐标，即得到2D图像上的标注信息。

具体地，相机内参为3x3矩阵：

；

利用传感器内参和畸变参数将点转换到像素坐标系下，表示为：

；

其中u和v是变换后的像素坐标，和是相机焦距，和是相机畸变系数。

所得到的结果会逆向映射回该时间序列下的所有图片，即：标注4D道路场景下的一个场景即可标注完成整个时间序列下的所有图片。映射的效果如附图5所示。

与前述的基于时序数据的4D道路场景标注方法的实施例相对应，本申请还提供了基于时序数据的4D道路场景构建及预标注装置的实施例。

图6是根据一示例性实施例示出的一种基于时序数据的4D道路场景构建及预标注装置框图。参照图6，该装置包括：

获取模块1，用于获取同一道路场景同一时间序列下的点云数据和多视角2D图像数据以及通过传感器获取的旋转矩阵R和平移向量t；

合并模块2，用于利用所述旋转矩阵R和平移向量t将所有点云数据合并成一帧统一坐标系下的联合点云，完成4D道路场景的构建；

标注模块3，用于在4D道路场景中对所述统一坐标系下的联合点云进行动静态物标注和车道线标注，所述动静态物标注包括利用3D目标检测器对4D道路场景间中的目标进行检测，得到多个检测框，再利用双向多目标跟踪方法优化所述检测框的生成；所述车道线标注包括通过法向量提取4D道路场景中地面信息，再提取车道线点集，从而拟合出车道线曲线；

映射模块4，用于根据相机参数信息，将4D道路场景中的标注信息映射到时间序列下的所有2D图像数据上，得到在2D图像上的标注信息。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的基于时序数据的4D道路场景标注方法。如图7所示，为本发明实施例提供的一种基于时序数据的4D道路场景标注装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图7所示的处理器、内存之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述的基于时序数据的4D道路场景标注方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种基于时序数据的4D道路场景标注方法，其特征在于，包括：

2.根据权利要求1所述的4D道路场景标注方法，其特征在于，获取同一道路场景同一时间序列下的点云数据和多视角2D图像数据，包括：

在同一道路场景同一时间序列下，获取相机拍摄的多视角2D图像数据和获取雷达拍摄的点云数据；

或，在同一道路场景同一时间序列下，获取相机拍摄的多视角2D图像数据；针对不同角度下的图片数据，从所述图像数据中推算3D信息，得到点云数据。

3.根据权利要求2所述的4D道路场景标注方法，其特征在于，从所述图像数据中推算3D信息，得到点云数据，包括：

使用具有尺度和旋转不变性的SIFT描述子来提取所述图像数据的特征点；

对所述图像数据两两之间的特征点进行匹配计算，得到旋转矩阵R’和平移向量t’；

根据所述旋转矩阵R’、平移向量t’以及相机内参，恢复出物体的稀疏点云结构，将各部分稀疏点云结构变换到同一基准下进行点云融合，得到点云数据。

4.根据权利要求1所述的4D道路场景标注方法，其特征在于，所述双向多目标跟踪方法，包括：

前向跟踪：使用运动模型和物体关联算法来跟踪物体运动轨迹上从近到远的特征点，给特征点组成的物体设置检测框，并为同一轨迹上的所有检测框关联相同的编号；

回溯跟踪：估算被追踪物体的运动状态，并将轨迹延伸到物体运动轨迹从远到近的特征点，给特征点组成的物体设置检测框，并为同一轨迹上的所有检测框关联相同的编号。

5.根据权利要求1所述的4D道路场景标注方法，其特征在于，通过法向量提取4D道路场景中地面信息，再提取车道线点集，从而拟合出车道线曲线，包括：

通过法向量提取4D道路场景中地面信息，得到4D道路场景中的地面点；

在所述地面点中对强度在预定范围内的点做聚类，得到多组地面车道线线段点集；

沿坐标轴x轴正方向上关联同一车道线上的线段点集，使用线性回归得到同一车道线上的点集的拟合曲线，该拟合曲线作为最终的车道线。

6.根据权利要求1所述的4D道路场景标注方法，其特征在于，根据相机参数，将点云数据的标注信息映射到时间序列下的所有2D图像数据上，得到在2D图像上的标注信息，包括：

给定当前4D道路场景中的任意一点，通过所述旋转矩阵R和平移向量t变换到局部坐标系下，得到局部坐标系下的点坐标；

将局部坐标系下的点坐标通过相机外参矩阵转换到相机坐标系下，得到相机坐标系下的点坐标；

利用相机内参和畸变参数，将相机坐标系下的点转换到像素坐标系下，得到像素坐标系下的点坐标，即得到2D图像上的标注信息。

7.根据权利要求1所述的4D道路场景标注方法，其特征在于，所述相机的参数信息，包括：

相机内参数据，包括焦距、光心、像素尺寸、径向和切向畸变参数；

相机外参数据，包括旋转矩阵和平移向量。

8.一种基于时序数据的4D道路场景构建及预标注装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。