CN117274670A

CN117274670A - 点云标注方法及装置、计算机可读存储介质、终端

Info

Publication number: CN117274670A
Application number: CN202311114945.1A
Authority: CN
Inventors: 黄超; 何泽颖
Original assignee: Shanghai Xiantu Intelligent Technology Co Ltd
Current assignee: Shanghai Xiantu Intelligent Technology Co Ltd
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2023-12-22

Abstract

一种点云标注方法及装置、计算机可读存储介质、终端，方法包括：确定同一时刻针对同一场景采集的场景点云和多帧具有不同拍摄角度的场景图像；对场景点云进行目标检测，以确定至少一个初步检测框，然后将所述初步检测框分别投影至多帧场景图像，得到多个图像投影框；在每帧场景图像中确定与所述图像投影框相匹配的图像标注框；计算各对相匹配的图像标注框与图像投影框的重叠度并进行加权运算；如果加权运算结果大于等于第一预设阈值，则将各个相匹配的图像标注框指示的目标类别作为所述初步检测框指示的待标注目标的类别，并根据各个相匹配的图像标注框，在所述场景点云中确定所述待标注目标的实际标注框。上述方案有助于提高点云标注的准确度。

Description

点云标注方法及装置、计算机可读存储介质、终端

技术领域

本发明涉及点云目标检测技术领域，尤其涉及一种点云标注方法及装置、计算机可读存储介质、终端。

背景技术

在自动驾驶领域，常常需要对激光雷达采集的场景点云进行目标检测或标注。通过标注场景点云中的目标对象(例如，行人、车辆、建筑物、交通标志等障碍物)，自动驾驶系统可以精确地定位和感知周围行驶环境，并做出相应的决策，例如，规划合适的行驶路径、避让障碍物等。研究如何提高点云中目标标注的准确度，对于提升自动驾驶的安全性至关重要。

当前，在对点云数据进行标注时，受限于采集环境、传感器硬件配置、光成像特性等因素影响，所采集的场景点云可能会具有下述问题：(1)数据稀疏。这会导致无法准确地捕捉到目标的细节信息，特别是对于较小的物体或低反射率的表面；(2)噪声和离群点干扰。由于激光雷达可能会产生拖点、吸点、镜像反射等现象，产生异常的干扰数据；(3)物体遮挡或部分区域重叠问题。上述问题均会降低点云数据质量，进而影响后续基于点云的目标标注结果的准确度。

考虑到点云数据的上述局限性，而图像中包含丰富的纹理和色彩，容易对目标种类和边界进行判断，但其缺少深度信息；点云数据中则包含丰富的空间信息，在对物体的三维形状、姿态等判断上具有优势。因此，现有技术中已有相关研究提出图像与点云的联合标注方法。

但是现有的图像和点云联合标注方案，往往过分依赖于对单帧场景图像进行目标识别的结果。例如，直接基于单帧场景图像的目标检测框投影至点云中，以获得点云中的目标标注框。又如，基于单帧场景图像的目标检测框对点云初步标注的点云标注框进行修正。然而，由于场景图像本身的二维平面特性，其不包含现实场景中的深度信息，并且图像中目标识别(包括目标的类别和实际尺寸的确定)的准确度还很大程度受相机拍摄角度的影响。例如，如果建筑物上设有大型海报或大型屏幕，从相机正对建筑物拍摄获得的图像中将很难识别出建筑物这一目标。因此，上述这些因素都会影响到后续点云标注结果的准确度。

发明内容

本发明实施例解决的技术问题是如何提高对场景点云中的目标进行标注的准确度。

为解决上述技术问题，本发明实施例提供一种点云标注方法，包括以下步骤：确定同一时刻针对同一场景采集的场景点云和多帧场景图像，其中，每帧场景图像具有不同的拍摄角度；对所述场景点云进行目标检测，以确定至少一个初步检测框，然后将所述初步检测框分别投影至所述多帧场景图像，得到所述初步检测框在所述多帧场景图像的多个图像投影框；对于所述初步检测框的每个图像投影框，在所属场景图像中确定与所述图像投影框相匹配的图像标注框，以得到多对相匹配的图像标注框与图像投影框，其中，各个相匹配的图像标注框指示同一目标类别；确定所述初步检测框的每对相匹配的图像标注框与图像投影框之间的重叠度，并对所得到的多个重叠度进行加权运算；如果加权运算结果大于或等于第一预设阈值，则将各个相匹配的图像标注框指示的目标类别作为所述初步检测框指示的待标注目标的类别，并根据各个相匹配的图像标注框，在所述场景点云中确定所述待标注目标的实际标注框。

可选的，对于所述初步检测框的每个图像投影框，在所属场景图像中确定与所述图像投影框相匹配的图像标注框，以得到多对相匹配的图像标注框与图像投影框，包括：对每帧场景图像进行目标标注，以得到所述场景图像中的至少一个图像标注框及其指示的目标类别；对于所述初步检测框的每个图像投影框，在所属场景图像中确定与所述图像投影框距离最近的图像标注框；从与所述初步检测框的各个图像投影框距离最近的图像标注框中，确定多个指示同一目标类别的图像标注框；将每个指示同一目标类别的图像标注框及其距离最近的图像投影框，作为单对相匹配的图像标注框与图像投影框。

可选的，所述多帧场景图像采集自安装于自车车体的多个摄像机，每帧场景图像的拍摄角度用于指示采集该场景图像的摄像机的镜头朝向与自车车体朝向之间的夹角；其中，所述多帧场景图像中至少包含一对拍摄角度之和为90°的场景图像。

可选的，所述初步检测框的每对相匹配的图像标注框与图像投影框之间的重叠度的权重，是根据所属场景图像的拍摄角度确定的；其中，所属场景图像的拍摄角度越小，在该场景图像中的图像投影框与相匹配的图像标注框之间的重叠度的权重越大。

可选的，所述根据各个相匹配的图像标注框，在所述场景点云中确定所述待标注目标的实际标注框，包括：从各个相匹配的图像标注框中，选取与图像投影框之间的重叠度最大的图像标注框；将该重叠度最大的图像标注框投影至所述场景点云中，得到第一点云投影框，该第一点云投影框作为所述待标注目标的实际标注框。

可选的，所述根据各个相匹配的图像标注框，在所述场景点云中确定所述待标注目标的实际标注框，包括：从各个相匹配的图像标注框中，选取至少一部分图像标注框；将所述至少一部分图像标注框投影至所述场景点云中，得到每个图像标注框对应的第二点云投影框；对各个第二点云投影框的点云进行累加，并根据点云累加结果确定所述待标注目标的实际标注框。

可选的，所述从各个相匹配的图像标注框中，选取至少一部分图像标注框，包括：选取全部所述相匹配的图像标注框；或者，从各个相匹配的图像标注框中，选取与图像投影框之间的重叠度大于等于第二预设阈值的图像标注框。

可选的，所述方法还包括：如果所述加权运算结果小于所述第一预设阈值，则确认所述初步检测框指示的待标注目标的类别与各个相匹配的图像标注框指示的目标类别不同。

可选的，对所述场景点云进行目标检测，以确定至少一个初步检测框，包括：对所述场景点云进行kd树结构转换，以得到kd树结构；基于所述kd树结构进行目标检测，以确定至少一组检测参数，所述检测参数至少包含目标中心点位置、尺寸以及朝向；对于每组检测参数，根据所述目标中心点位置、尺寸以及朝向，确定多个顶点位置；基于所述多个顶点位置，确定该组检测参数对应的初步检测框。

可选的，将所述初步检测框分别投影至所述多帧场景图像，包括：将所述初步检测框从激光雷达坐标系投影至世界坐标系，以得到位于世界坐标系的第一投影检测框；将所述第一投影检测框从世界坐标系投影至自车坐标系，以得到位于自车坐标系的第二投影检测框；将所述第二投影检测框从自车坐标系投影至采集所述多帧场景图像的多个相机所在的相机坐标系，以得到位于每个相机坐标系的第三投影检测框；将每个第三投影检测框从所属的相机坐标系投影至对应场景图像所在的图像坐标系。

本发明实施例还提供一种点云标注装置，包括：点云和图像确定模块，用于确定同一时刻针对同一场景采集的场景点云和多帧场景图像，其中，每帧场景图像具有不同的拍摄角度；点云初步检测与投影模块，用于对所述场景点云进行目标检测，以确定至少一个初步检测框，然后将所述初步检测框分别投影至所述多帧场景图像，得到所述初步检测框在所述多帧场景图像的多个图像投影框；目标框匹配模块，用于对于所述初步检测框的每个图像投影框，在所属场景图像中确定与所述图像投影框相匹配的图像标注框，以得到多对相匹配的图像标注框与图像投影框，其中，各个相匹配的图像标注框指示同一目标类别；重叠度计算模块，用于确定所述初步检测框的每对相匹配的图像标注框与图像投影框之间的重叠度，并对所得到的多个重叠度进行加权运算；点云标注结果确定模块，用于如果加权运算结果大于或等于第一预设阈值，则将各个相匹配的图像标注框指示的目标类别作为所述初步检测框指示的待标注目标的类别，并根据各个相匹配的图像标注框，在所述场景点云中确定所述待标注目标的实际标注框。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述点云标注方法的步骤。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述点云标注方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

在本发明实施例中，先确定同一时刻针对同一场景采集的场景点云和多帧具有不同拍摄角度的场景图像；然后对所述场景点云进行目标检测，以确定至少一个初步检测框，并将所述初步检测框分别投影至所述多帧场景图像，得到所述初步检测框在所述多帧场景图像的多个图像投影框；接着执行“两轮的目标匹配方案”。

具体而言，在第一轮的目标匹配中，从所述多帧场景图像中筛选出与所述初步检测框对应的图像投影框相匹配的且指示同一目标类别的多个图像标注框(其中，每帧场景图像中的图像标注框可以是预先标注好的)，目的在于初步确定所述初步检测框可能指示的目标。在第二轮的目标匹配中，通过对第一轮中确定的每对相匹配图像投影框与图像标注框之间的重叠度，并进行加权运算，以验证第一轮确定的各个相匹配的图像标注框指示的目标，是否实际上就是场景点云的所述初步检测框指示的待标注目标。具体地，如果加权运算结果大于或等于第一预设阈值，则可以将各个相匹配的图像标注框指示的目标类别作为所述初步检测框指示的待标注目标的类别，并根据各个相匹配的图像标注框，在所述场景点云中确定所述待标注目标的实际标注框。

由上，在本发明实施例中，一方面，相较于现有技术往往依赖于单帧场景图像(仅具有单个拍摄角度)的目标检测结果无法准确获得点云目标标注结果，本实施方案考虑到场景图像本身的二维平面特性，可能无法准确识别出具有三维特性的目标。因此，通过联合具有多个不同拍摄角度的多帧场景图像，在场景图像中的图像标注框确定阶段，针对遮挡或重叠情形(例如，小型车被大型车遮挡、建筑物被大型屏幕或海报覆盖)，可以有效避免遮挡、重叠带来的漏检、误检问题。在后续联合场景点云和场景图像的目标匹配阶段，均有助于进行多方向、多角度的目标识别和匹配。由此，可以有效提高目标识别准确度和匹配的准确度。

另一方面，相较于单轮目标匹配方案，本实施方案通过两轮目标匹配方案，对场景点云的初步检测结果(即，所述初步检测框)对应的图像投影框与场景图像中的目标检测结果(即，所述图像标注框)进行匹配。由此，有助于更加准确地确定所述初步检测框指示的待标注目标的类别。进一步，可以获得更加准确的点云标注结果。

进一步，所述多帧场景图像采集自安装于自车车体的多个摄像机，每帧场景图像的拍摄角度用于指示采集该场景图像的摄像机的镜头朝向与自车车体朝向之间的夹角；其中，所述多帧场景图像中至少包含一对拍摄角度之和为90°的场景图像。在摄像机成像技术中，通过采用多角度拍摄方式，并设计至少一对摄像机的拍摄角度之和为90°，有助于获得拍摄目标的三维特征(或称为立体特征或深度特征)。而这种重要的物理特征正是单角度拍摄得到的单帧二维场景图像中所欠缺的信息。由此，可以进一步提高对场景图像进行目标标注确定图像标注框的准确度，以及后续在多个不同角度将场景点云中的图像投影框与图像标注框进行匹配的准确度。最终有助于提高点云标注结果的准确度。

进一步，所述初步检测框的每对相匹配的图像标注框与图像投影框之间的重叠度的权重，是根据所属场景图像的拍摄角度确定的；其中，所属场景图像的拍摄角度越小，在该场景图像中的图像投影框与相匹配的图像标注框之间的重叠度的权重越大。由于在实际应用中，拍摄角度越小，通常意味着摄像机镜头越接近与车头朝向一致，而车头朝向的目标与驾驶安全性的相关程度更高；或者，拍摄角度越小，意味着摄像机越可能朝向目标的正中位置，拍摄得到的场景图像中包含的目标特征相对更全面。因此，在本发明实施例中，对于拍摄角度越小的场景图像，在计算重叠度时可设置相对较大的权重，使其对后续重叠度加权运算结果及目标类别判定的作用更大。这既有助于提高目标类别判定及点云目标标注的准确度，也符合实际中自动驾驶的安全性需求。

附图说明

图1是本发明实施例中一种点云标注方法的流程图；

图2是图1中步骤S13的一种具体实施方式的流程图；

图3是图1中步骤S15的第一种具体实施方式的流程图；

图4是图1中步骤S15的第二种具体实施方式的流程图；

图5是本发明实施例中一种点云标注装置的结构示意图。

具体实施方式

如背景技术所言，为提高点云中目标标注的准确度，现有技术中已有相关研究提出图像与点云的联合标注方法。

例如，现有方案一：先对场景图像进行目标识别和标注，得到图像标注框；然后将图像标注框投影到场景点云中，得到对应的点云投影框；直接采用点云投影框作为点云标注结果。

又如，现有方案二：先对场景点云进行初步标注得到初步点云标注框；将初步点云标注框投影到场景图像中，得到对应的图像投影框；对所述图像投影框和场景图像中预先标注的图像标注框进行人工分析和比对，利用图像中的图像标注框对场景点云中对应的初步点云标注框进行修正处理。

然而，发明人经研究发现，上述现有的图像和点云的联合标注方案，过度依赖于对单帧场景图像进行目标识别的结果。而由于场景图像本身的二维平面特性，其不包含现实场景中的深度信息，并且图像中目标识别(包括目标的类别和实际尺寸的确定)的准确度还很大程度受相机拍摄角度的影响。因此，现有方案仍无法有效解决存在的物体遮挡、大面积重叠等问题，所获得的点云标注结果的准确度无法满足要求。

具体而言，例如在上述现有方案一中，如果拍摄场景图像时小型车辆A被大型车辆B完全遮挡，则在场景图像中仅能识别到大型车辆B，因此依赖于场景图像的目标检测结果将，导致无法在点云中获得小型车辆A的点云标注结果。即，导致点云中的目标遗漏标注的问题。

在上述现有方案二中，如果建筑物C上设有覆盖度很大的大型海报或大型屏幕，而相机正对建筑物C上的海报进行拍摄获得场景图像。由于图像的平面特性，点云中对建筑物C的初步点云标注框投影到场景图像中得到的图像投影框，很大可能会与图像中识别到的海报或海报中的虚拟目标的标注框重叠，从而导致后续对点云进行标注或修正时，可能会误将建筑物C标注为海报或者海报中的虚拟目标等。即，导致点云中的目标错误标注的问题。

为解决上述技术问题，本发明实施例提供一种点云标注方法，先确定同一时刻针对同一场景采集的场景点云和多帧具有不同拍摄角度的场景图像；然后对所述场景点云进行目标检测，以确定至少一个初步检测框，并将所述初步检测框分别投影至所述多帧场景图像，得到所述初步检测框在所述多帧场景图像的多个图像投影框；接着执行“两轮的目标匹配方案”。

由上，在本发明实施例中，一方面，相较于现有技术往往依赖于单帧场景图像(仅具有单个拍摄角度)的目标检测结果无法准确获得点云目标标注结果，本实施方案考虑到场景图像本身的二维平面特性，可能无法准确识别出具有三维特性的目标。因此，通过联合具有多个不同拍摄角度的多帧场景图像，在场景图像中的图像标注框确定阶段，以及后续联合场景点云和场景图像的目标匹配阶段，均有助于进行多方向、多角度的目标识别和匹配。由此，可以有效解决实际应用中因目标遮挡、重叠等导致的场景点云中的目标漏标注、误标注问题。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细说明。

参照图1，图1是本发明实施例中一种点云标注方法的流程图。所述方法可以包括步骤S11至步骤S15：

步骤S11：确定同一时刻针对同一场景采集的场景点云和多帧场景图像，其中，每帧场景图像具有不同的拍摄角度；

步骤S12：对所述场景点云进行目标检测，以确定至少一个初步检测框，然后将所述初步检测框分别投影至所述多帧场景图像，得到所述初步检测框在所述多帧场景图像的多个图像投影框；

步骤S13：对于所述初步检测框的每个图像投影框，在所属场景图像中确定与所述图像投影框相匹配的图像标注框，以得到多对相匹配的图像标注框与图像投影框，其中，各个相匹配的图像标注框指示同一目标类别；

步骤S14：确定所述初步检测框的每对相匹配的图像标注框与图像投影框之间的重叠度，并对所得到的多个重叠度进行加权运算；

步骤S15：如果加权运算结果大于或等于第一预设阈值，则将各个相匹配的图像标注框指示的目标类别作为所述初步检测框指示的待标注目标的类别，并根据各个相匹配的图像标注框，在所述场景点云中确定所述待标注目标的实际标注框。

在步骤S11的具体实施中，所述场景点云以及场景图像针对的场景例如可以是车辆(例如，自动驾驶清扫车)的常规驾驶场景。所述驾驶场景可以选自但不限于：城区或郊区道路、公园、小区、停车场等。

在采集过程中，所针对的采集区域可以是自车前方和/或侧方和/或后方指定范围内的实际场景区域。所述采集区域中通常包含一种或多种类别的目标。所述目标的类别可以选自但不限于：机动车(包括大型车辆和中小型车辆)、非机动车、人物(或行人)、建筑物、动物等。

在具体实施中，所述场景图像的帧数可以结合实际应用场景需要进行适当设置。例如，可以综合考虑采集的成本、对场景图像进行目标标注的准确度、联合场景图像进行目标匹配的准确度、运算开销等因素进行设置。

非限制性地，所述场景图像的帧数可以选自区间[3，8]之间，例如，设置为5帧。

在一种具体实施方式中，所述多帧场景图像采集自安装于自车车体的多个摄像机，每帧场景图像的拍摄角度可以用于指示采集该场景图像的摄像机的镜头朝向与自车车体朝向之间的夹角；其中，所述多帧场景图像中至少包含一对拍摄角度之和为90°的场景图像。

其中，所述自车车体朝向，例如可以指车体的几何中心或质心指向车头的方向；又如，可以指车体的几何中心或质心指向车尾的方向。所述多个摄像机的安装位置，可以结合实际场景需要设置，例如可以选自但不限于自车车体的顶部、车头位置、车尾位置、车体左侧身、车体右侧身的适当位置。

可以理解的是，在摄像机成像技术中，通过采用多角度拍摄方式，并设计至少一对摄像机的拍摄角度之和为90°，有助于获得拍摄目标的三维特征(或称为立体特征或深度特征)。而这种重要的物理特征正是单角度拍摄得到的单帧二维场景图像中所欠缺的信息。

因此，在本发明实施例中，采用上述成像方案，一方面在对场景图像进行目标标注确定图像标注框的阶段，可以针对同一目标进行多角度识别和检测，尤其针对遮挡或重叠情形(例如，小型车被大型车遮挡、建筑物被大型屏幕或海报覆盖)，有效避免遮挡、重叠带来的漏检、误检问题。另一方面，在联合场景点云和场景图像进行目标匹配(包括相匹配的图像标注框以及重叠度的确定)阶段，可以在多个不同角度将场景点云中的初步检测框投影至图像得到对应角度的图像投影框，并分别从不同的角度对图像投影框和场景图像中的图像标注框进行匹配，提高匹配的准确度，进而提高后续确定所初步检测框指示的待标注目标的实际类别的准确度。

更进一步地，在拍摄角度之和为90°的每对(即，两帧)场景图像中，其中之一的场景图像的拍摄角度大于另一场景图像拍摄角度。

非限制性地，在某对拍摄角度之和为90°的每对场景图像中，其中之一的场景图像的拍摄角度为60°，另一场景图像的拍摄角度为30°。

在本发明实施例中，采用上述方式设计拍摄角度，相较于两帧场景图像采用相同的拍摄角度，有助于进一步增强目标的3D感和距离感，从而获得目标的更加立体、丰富的信息。由此，可以提高场景图像的目标标注、场景图像联合场景点云的目标匹配的准确度，最终获得更加准确的点云标注结果。

在另一种具体实施方式中，自车车体具有一个或多个安装平面，所述多帧场景图像采集自安装于至少一个所述安装平面的多个摄像机，所述拍摄角度可以用于指示采集场景图像的摄像机的镜头朝向与该摄像机所属的安装平面之间的夹角(也可称为安装夹角)；其中，采集所述多帧场景图像的多个摄像机中，至少包含一对拍摄角度(即，安装夹角)之和为90°的摄像机。

具体地，以摄像机安装于车体的前后左右中的一处或多处为例，则车体的顶部平面可视为一个安装平面、车体的正前方垂直于地面的平面可以视为一个安装平面，车头顶部的曲面或弧面可视为一个安装平面，同理，车体的正后方垂直于地面的平面、车体后备箱顶部的曲面或弧面、车身左侧平面、车身右侧平面等均可以视为各自的安装平面。

采集所述多帧场景图像的摄像机可以安装于一个或多个安装平面。可以在其中至少一个安装平面上安装一对或多对镜头朝向不同且安装夹角之和为90°的摄像机。

例如，位于车体正前方平面的成对摄像机，其中之一可以安装于车体正前方平面的左侧并朝向右前方，另一可以安装于车体正前方平面的右侧并朝向左前方。又如，位于车身左侧/右侧平面的成对摄像机，其中之一可以安装于前侧(例如，可以位于自车前座车窗下方位置)并朝向车体的斜后方，另一可以安装于后侧(例如，可以位于自车后座车窗下方位置)并朝向车体的斜前方。再如，位于车体正后方平面的成对摄像机，其中之一可以安装于车体正后方平面的左侧并朝向右后方，另一可以安装于车体正后方平面的右侧并朝向左后方。

在一种具体应用中，可以设置成对摄像机的其中之一的安装夹角为30°，另一为60°，相比于两个对称设置(均为45°)可以进一步提高获取到的拍摄目标的三维特征。

在本发明实施例中，采用上述方式设计拍摄角度，可以增强目标的3D感和距离感，从而获得目标的更加立体、丰富的信息。

在步骤S12的具体实施中，对所述场景点云进行目标检测，以确定至少一个初步检测框，然后将所述初步检测框分别投影至所述多帧场景图像，得到所述初步检测框在所述多帧场景图像的多个图像投影框。

进一步地，对所述场景点云进行目标检测，以确定至少一个初步检测框，包括：对所述场景点云进行kd树结构转换，以得到kd树结构；基于所述kd树结构进行目标检测，以确定至少一组检测参数，所述检测参数至少包含目标中心点位置、尺寸以及朝向；对于每组检测参数，根据所述目标中心点位置、尺寸以及朝向，确定多个顶点位置；基于所述多个顶点位置，确定该组检测参数对应的初步检测框。

其中，基于k维空间树(k-dimensional树，简称kd树)结构进行目标检测，以确定至少一组检测参数，具体可以包括：采用基于kd树的物体长宽优化与边缘检测算法以及基于kd树的高度差寻找算法，确定目标的中心点位置、尺寸以及朝向。其中，对于实际中常用的正方体或长方体检测框，所述尺寸参数可以包括长度、宽度和高度。

关于进行kd树结构转换以及基于kd树结构进行目标检测的具体实施方案，参照现有技术基于kd树的点云处理方法进行执行，此处不进行赘述。需要指出的是，受限于采集环境、传感器硬件配置、光成像特性等因素影响，所采集的场景点云可能会存在数据稀疏、噪声干扰以及物体遮挡或重叠问题等，这些都会影响对场景点云进行目标检测的准确度。因此，所述步骤S12中获得的所述初步检测框，通常不能作为点云的最终标注结果。并且，所述初步检测框指示的点云目标类别，也可能并非待标注目标的实际类别。例如，一种可能出现的误检情形是：场景点云中检测得到的目标类别为小型车辆，实际目标类别却是大型车辆。

进一步地，将所述初步检测框分别投影至所述多帧场景图像，包括：将所述初步检测框从激光雷达坐标系投影至世界坐标系，以得到位于世界坐标系的第一投影检测框；将所述第一投影检测框从世界坐标系投影至自车坐标系，以得到位于自车坐标系的第二投影检测框；将所述第二投影检测框从自车坐标系投影至采集所述多帧场景图像的多个相机所在的相机坐标系，以得到位于每个相机坐标系的第三投影检测框；将每个第三投影检测框从所属的相机坐标系投影至对应场景图像所在的图像坐标系。

需要指出的是，在具体实施中，将所述初步检测框从激光雷达坐标系投影至自车坐标系的常规方法是：直接确定激光雷达坐标系与自车坐标系之间的变换矩阵并进行投影变换，但是这种方式需要关注激光雷达和自车之间的相对位置关系、激光雷达朝向角以及自车的朝向角等多项参数，转换复杂度更高，且转换准确度受到相对位置确定准确度的影响。相较而言，本发明实施例引入世界坐标系作为“中间坐标系”，无需关注自车与激光雷达之间的相对位置关系，转换复杂度更低且有助于提高变换准确度。进一步，有助于提高后续基于场景图像中的投影图像框进行目标匹配的准确度。

在步骤S13的具体实施中，对于所述初步检测框的每个图像投影框，在所属场景图像中确定与所述图像投影框相匹配的图像标注框。需要指出的是，在实际应用中，由于“各个相匹配的图像标注框指示同一目标类别”这一限制条件，对于所述图像投影框，在所属场景图像中有可能无法找到与其相匹配的图像标注框。因此，与所述初步检测框的多个图像投影框相匹配的图像标注框的总数量，小于或等于所述多个图像投影框的总数量。

参照图2，图2是图1中步骤S13的一种具体实施方式的流程图。所述步骤S13具体可以包括步骤S21至步骤S24。

在步骤S21中，对每帧场景图像进行目标标注，以得到所述场景图像中的至少一个图像标注框及其指示的目标类别。

在具体实施中，对每帧场景图像进行目标标注的方法，可以是人工标注方法，也可以采用图像识别或图像目标检测的算法、预训练的模型进行自动化的目标标注。

在步骤S22中，对于所述初步检测框的每个图像投影框，在所属场景图像中确定与所述图像投影框距离最近的图像标注框。

其中，图像投影框与图像标注框之间的距离，可以采用各个框的中心点之间的距离。

需要指出的是，由于本实施例的匹配方案，是基于“距离最近”这一条件在场景图像中寻找与图像投影框相匹配的图像标注框，因此，为了避免将所述图像投影框周围完全不相干的图像标注框，确定为相匹配的图像标注框，影响后续重叠度的加权运算结果。本发明实施例中，可以尽可能对所述场景图像中出现的多数或全部目标进行标注。

在步骤S23中，从与所述初步检测框的各个图像投影框距离最近的图像标注框中，确定多个指示同一目标类别的图像标注框。

在一种具体实施方式中，与所述初步检测框的各个图像投影框距离最近的图像标注框中，全部的图像标注框均指示同一目标类别，则可以将全部图像标注框，作为所述步骤S23中的多个指示同一目标类别的图像标注框。

在另一种具体实施方式中，与所述初步检测框的各个图像投影框距离最近的图像标注框中，一部分图像标注框(例如，数量为M)指示第一目标类别，另一部分图像标注框(例如，数量为N)指示第二目标类别；则可以选取指示同一目标类别且包含最多数量的图像标注框，作为所述步骤S23中的多个指示同一目标类别的图像标注框。例如，M>N，则可以将M个图像标注框作为所述多个指示同一目标类别的图像标注框。

下面以具体示例对上述实施方式进行说明。

对所述场景点云进行目标检测，得到至少一个初步检测框A；将所述初步检测框A分别投影至5帧场景图像，得到所述初步检测框A在所述每帧场景图像中对应的图像投影框。具体地，可以采用A1’、A2’、A3’、A4’、A5’分别表示对应的各个图像投影框。其中：图像投影框A1’所属场景图像中，与A1’距离最近的图像标注框为B1’；图像投影框A2’所属场景图像中，与A2’距离最近的图像标注框为B2’……图像投影框A5’所属场景图像中，与A5’距离最近的图像标注框为B5’。

第一种可能的情形，上述B1’～B5’中，B1’～B4’指示小型车辆，B5’指示人物，因此，所述步骤S23中的多个指示同一目标类别的图像标注框为B1’～B4’。

第二种可能的情形，上述B1’～B5’中，B1’～B3’指示小型车辆，B4’～B5’指示人物，由于指示小型车辆和任务的图像标注框均至少有两个，此种情况下，可以将指示同一类别的且包含最多数量的图像标注框(即，B1’～B3’)，作为所述步骤S23中的多个指示同一目标类别的图像标注框。

在步骤S24中，将每个指示同一目标类别的图像标注框及其距离最近的图像投影框，作为单对相匹配的图像标注框与图像投影框。

在上述示例中，将B1’～B3’作为所述多个指示同一目标类别的图像标注框，因此，可以确定多对相匹配的图像标注框与图像投影框，分别为：A1’-B1’、A2’-B2’、A3’-B3’。

需要指出的是，在具体实施中，还可以采用其他适当方式，在所属场景图像中确定与所述图像投影框相匹配的图像标注框。

例如，对于所述初步检测框的每个图像投影框，可以在所属场景图像中采用与所述图像投影框的重叠度大于等于预设重叠度阈值的图像标注框，作为与所述图像投影框相匹配的图像标注框。

又如，对于所述初步检测框的每个图像投影框，可以在所属场景图像中采用与所述图像投影框的相似度大于等于预设相似度阈值的图像标注框，作为与所述图像投影框相匹配的图像标注框。

继续参照图1，在步骤S14的具体实施中，确定所述初步检测框的每对相匹配的图像标注框与图像投影框之间的重叠度，并对所得到的多个重叠度进行加权运算。

其中，所述重叠度可以采用相匹配的图像标注框与图像投影框之间的重叠区域的面积表示，或者，采用重叠区域的面积与其中一个框的面积之间的比值表示。

进一步地，所述初步检测框的每对相匹配的图像标注框与图像投影框之间的重叠度的权重，是根据所属场景图像的拍摄角度确定的；其中，所属场景图像的拍摄角度越小，在该场景图像中的图像投影框与相匹配的图像标注框之间的重叠度的权重越大。

如前所述的具体实施方式中，每帧场景图像的拍摄角度可以用于指示采集该场景图像的摄像机的镜头朝向与自车车体朝向之间的夹角，或者，可以用于指示采集所述场景图像的摄像机的镜头朝向与该摄像机所属的安装平面之间的安装夹角。

可以理解的是，实际应用中，拍摄角度越小，通常意味着摄像机镜头越接近与车头朝向一致，而车头朝向的目标与驾驶安全性的相关程度更高；或者，拍摄角度越小，意味着摄像机越可能朝向目标的正中位置，拍摄得到的场景图像中包含的目标特征相对更全面。因此，在本发明实施例中，对于拍摄角度越小的场景图像，在计算重叠度时可设置相对较大的权重，使其对后续重叠度加权运算结果及目标类别判定的作用更大。这既有助于提高目标类别判定及点云目标标注的准确度，也符合实际中自动驾驶的安全性需求。

在步骤S15的具体实施中，如果加权运算结果大于或等于第一预设阈值，则意味着各对相匹配的图像标注框与图像投影框之间的整体重叠度较高。因此，可以确认各个相匹配的图像标注框指示的目标类别，与所述初步检测框指示的待标注目标的类别是一致的。从而可以将各个相匹配的图像标注框指示的目标类别作为所述初步检测框指示的待标注目标的类别，并进一步根据各个相匹配的图像标注框，在所述场景点云中确定所述待标注目标的实际标注框。

其中，所述第一预设阈值可以根据实际应用场景需要进行适当设置。例如，对于采取面积比值表示重叠度的情形，可以在区间[0.8，1]中选取适当数值。

参照图3，图3是图1中步骤S15的第一种具体实施方式的流程图。在第一种具体实施方式中，所述步骤S15具体可以包括步骤S31至步骤S32。

在步骤S31中，从各个相匹配的图像标注框中，选取与图像投影框之间的重叠度最大的图像标注框。

在步骤S32中，将该重叠度最大的图像标注框投影至所述场景点云中，得到第一点云投影框，该第一点云投影框作为所述待标注目标的实际标注框。

在本发明实施例中，在已确认各个相匹配的图像标注框指示的目标类别，与所述初步检测框指示的待标注目标的类别一致的前提下，与相匹配的图像标注框之间的重叠度越大，意味着该相匹配图像标注框的可信度越高。因此，采用重叠度最大的图像标注框投影至所述场景点云，有助于在场景点云中获得更加能够反映真实目标形状、尺寸、朝向等特征实际标注框。

参照图4，图4是图1中步骤S15的第二种具体实施方式的流程图。在第二种具体实施方式中，所述步骤S15具体可以包括步骤S41至步骤S43。

在步骤S41中，从各个相匹配的图像标注框中，选取至少一部分图像标注框。

进一步地，所述步骤S41中选取至少一部分图像标注框，包括：选取全部所述相匹配的图像标注框；或者，从各个相匹配的图像标注框中，选取与图像投影框之间的重叠度大于等于第二预设阈值的图像标注框。

在步骤S42中，将所述至少一部分图像标注框投影至所述场景点云中，得到每个图像标注框对应的第二点云投影框。

在步骤S43中，对各个第二点云投影框的点云进行累加，并根据点云累加结果确定所述待标注目标的实际标注框。

在具体实施中，可以对点云累加结果进行边缘检测和提取，或者其他常规方式，确定所述待标注目标的实际标注框。

进一步地，所述从各个相匹配的图像标注框中，选取至少一部分图像标注框，包括：选取全部所述相匹配的图像标注框；或者，从各个相匹配的图像标注框中，选取与图像投影框之间的重叠度大于等于第二预设阈值的图像标注框。

在本发明实施例中，在已确认各个相匹配的图像标注框指示的目标类别，与所述初步检测框指示的待标注目标的类别一致的前提下，可以选取全部相匹配的图像标注框进行投影，然后基于各个点云投影框的点云累加的结果确定所述待标注目标的实际标注框。由此，基于数量更多、更丰富的点云数据，有助于获得所述待标注目标的更加准确的实际标注框。

进一步地，所述方法还包括：如果所述加权运算结果小于所述第一预设阈值，则确认所述初步检测框指示的待标注目标的类别与各个相匹配的图像标注框指示的目标类别不同。

参照图5，图5是本发明实施例中一种点云标注装置的结构示意图。所述点云标注装置可以包括：

点云和图像确定模块51，用于确定同一时刻针对同一场景采集的场景点云和多帧场景图像，其中，每帧场景图像具有不同的拍摄角度；

点云初步检测与投影模块52，用于对所述场景点云进行目标检测，以确定至少一个初步检测框，然后将所述初步检测框分别投影至所述多帧场景图像，得到所述初步检测框在所述多帧场景图像的多个图像投影框；

目标框匹配模块53，用于对于所述初步检测框的每个图像投影框，在所属场景图像中确定与所述图像投影框相匹配的图像标注框，以得到多对相匹配的图像标注框与图像投影框，其中，各个相匹配的图像标注框指示同一目标类别；

重叠度计算模块54，用于确定所述初步检测框的每对相匹配的图像标注框与图像投影框之间的重叠度，并对所得到的多个重叠度进行加权运算；

点云标注结果确定模块55，用于如果加权运算结果大于或等于第一预设阈值，则将各个相匹配的图像标注框指示的目标类别作为所述初步检测框指示的待标注目标的类别，并根据各个相匹配的图像标注框，在所述场景点云中确定所述待标注目标的实际标注框。

关于该点云标注装置的原理、具体实现和有益效果请参照前文及图1至图4示出的关于点云标注方法的相关描述，此处不再赘述。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述图1至图4所示的点云标注方法的步骤。所述计算机可读存储介质可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器，还可以包括光盘、机械硬盘、固态硬盘等。

具体地，在本发明实施例中，所述处理器可以为中央处理单元(centralprocessing unit，简称CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，简称DSP)、专用集成电路(application specificintegrated circuit，简称ASIC)、现成可编程门阵列(field programmable gate array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，简称ROM)、可编程只读存储器(programmable ROM，简称PROM)、可擦除可编程只读存储器(erasable PROM，简称EPROM)、电可擦除可编程只读存储器(electricallyEPROM，简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(random accessmemory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，简称RAM)可用，例如静态随机存取存储器(staticRAM，简称SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronousDRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(doubledata rate SDRAM，简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，简称ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，简称DR RAM)。

本发明实施例还提供了一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述图1至图4所示的点云标注方法的步骤。所述终端可以包括但不限于手机、计算机、平板电脑等终端设备，还可以为服务器、云平台等。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。

本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。

需要指出的是，本实施例中各个步骤的序号并不代表对各个步骤的执行顺序的限定。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种点云标注方法，其特征在于，包括：

确定同一时刻针对同一场景采集的场景点云和多帧场景图像，其中，每帧场景图像具有不同的拍摄角度；

对所述场景点云进行目标检测，以确定至少一个初步检测框，然后将所述初步检测框分别投影至所述多帧场景图像，得到所述初步检测框在所述多帧场景图像的多个图像投影框；

对于所述初步检测框的每个图像投影框，在所属场景图像中确定与所述图像投影框相匹配的图像标注框，以得到多对相匹配的图像标注框与图像投影框，其中，各个相匹配的图像标注框指示同一目标类别；

确定所述初步检测框的每对相匹配的图像标注框与图像投影框之间的重叠度，并对所得到的多个重叠度进行加权运算；

如果加权运算结果大于或等于第一预设阈值，则将各个相匹配的图像标注框指示的目标类别作为所述初步检测框指示的待标注目标的类别，并根据各个相匹配的图像标注框，在所述场景点云中确定所述待标注目标的实际标注框。

2.根据权利要求1所述的方法，其特征在于，对于所述初步检测框的每个图像投影框，在所属场景图像中确定与所述图像投影框相匹配的图像标注框，以得到多对相匹配的图像标注框与图像投影框，包括：

对每帧场景图像进行目标标注，以确定所述场景图像中的至少一个图像标注框及其指示的目标类别；

对于所述初步检测框的每个图像投影框，在所属场景图像中确定与所述图像投影框距离最近的图像标注框；

从与所述初步检测框的各个图像投影框距离最近的图像标注框中，确定多个指示同一目标类别的图像标注框；

将每个指示同一目标类别的图像标注框及其距离最近的图像投影框，作为单对相匹配的图像标注框与图像投影框。

3.根据权利要求1或2所述的方法，其特征在于，所述多帧场景图像采集自安装于自车车体的多个摄像机，每帧场景图像的拍摄角度用于指示采集该场景图像的摄像机的镜头朝向与自车车体朝向之间的夹角；

其中，所述多帧场景图像中至少包含一对拍摄角度之和为90°的场景图像。

4.根据权利要求1所述的方法，其特征在于，所述初步检测框的每对相匹配的图像标注框与图像投影框之间的重叠度的权重，是根据所属场景图像的拍摄角度确定的；

其中，所属场景图像的拍摄角度越小，在该场景图像中的图像投影框与相匹配的图像标注框之间的重叠度的权重越大。

5.根据权利要求1所述的方法，其特征在于，所述根据各个相匹配的图像标注框，在所述场景点云中确定所述待标注目标的实际标注框，包括：

从各个相匹配的图像标注框中，选取与图像投影框之间的重叠度最大的图像标注框；

将该重叠度最大的图像标注框投影至所述场景点云中，得到第一点云投影框，该第一点云投影框作为所述待标注目标的实际标注框。

6.根据权利要求1所述的方法，其特征在于，所述根据各个相匹配的图像标注框，在所述场景点云中确定所述待标注目标的实际标注框，包括：

从各个相匹配的图像标注框中，选取至少一部分图像标注框；

将所述至少一部分图像标注框投影至所述场景点云中，得到每个图像标注框对应的第二点云投影框；

对各个第二点云投影框的点云进行累加，并根据点云累加结果确定所述待标注目标的实际标注框。

7.根据权利要求6所述的方法，其特征在于，所述从各个相匹配的图像标注框中，选取至少一部分图像标注框，包括：

选取全部所述相匹配的图像标注框；

或者，

从各个相匹配的图像标注框中，选取与图像投影框之间的重叠度大于等于第二预设阈值的图像标注框。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

如果所述加权运算结果小于所述第一预设阈值，则确认所述初步检测框指示的待标注目标的类别与各个相匹配的图像标注框指示的目标类别不同。

9.根据权利要求1所述的方法，其特征在于，对所述场景点云进行目标检测，以确定至少一个初步检测框，包括：

对所述场景点云进行kd树结构转换，以得到kd树结构；

基于所述kd树结构进行目标检测，以确定至少一组检测参数，所述检测参数至少包含目标中心点位置、尺寸以及朝向；

对于每组检测参数，根据所述目标中心点位置、尺寸以及朝向，确定多个顶点位置；

基于所述多个顶点位置，确定该组检测参数对应的初步检测框。

10.根据权利要求1所述的方法，其特征在于，将所述初步检测框分别投影至所述多帧场景图像，包括：

将所述初步检测框从激光雷达坐标系投影至世界坐标系，以得到位于世界坐标系的第一投影检测框；

将所述第一投影检测框从世界坐标系投影至自车坐标系，以得到位于自车坐标系的第二投影检测框；

将所述第二投影检测框从自车坐标系投影至采集所述多帧场景图像的多个相机所在的相机坐标系，以得到位于每个相机坐标系的第三投影检测框；将每个第三投影检测框从所属的相机坐标系投影至对应场景图像所在的图像坐标系。

11.一种点云标注装置，其特征在于，包括：

点云和图像确定模块，用于确定同一时刻针对同一场景采集的场景点云和多帧场景图像，其中，每帧场景图像具有不同的拍摄角度；

点云初步检测与投影模块，用于对所述场景点云进行目标检测，以确定至少一个初步检测框，然后将所述初步检测框分别投影至所述多帧场景图像，得到所述初步检测框在所述多帧场景图像的多个图像投影框；

目标框匹配模块，用于对于所述初步检测框的每个图像投影框，在所属场景图像中确定与所述图像投影框相匹配的图像标注框，以得到多对相匹配的图像标注框与图像投影框，其中，各个相匹配的图像标注框指示同一目标类别；

重叠度计算模块，用于确定所述初步检测框的每对相匹配的图像标注框与图像投影框之间的重叠度，并对所得到的多个重叠度进行加权运算；

点云标注结果确定模块，用于如果加权运算结果大于或等于第一预设阈值，则将各个相匹配的图像标注框指示的目标类别作为所述初步检测框指示的待标注目标的类别，并根据各个相匹配的图像标注框，在所述场景点云中确定所述待标注目标的实际标注框。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1至10任一项所述点云标注方法的步骤。

13.一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至10任一项所述点云标注方法的步骤。