CN110991468A

CN110991468A - 三维目标检测和智能行驶方法、装置、设备

Info

Publication number: CN110991468A
Application number: CN201911285258.XA
Authority: CN
Inventors: 史少帅; 郭超旭; 王哲; 石建萍; 李鸿升
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-04-10
Anticipated expiration: 2039-12-13
Also published as: CN110991468B; JP2022538927A; WO2021115081A1; US20220130156A1

Abstract

公开了一种三维目标检测和智能行驶方法、装置、设备，该方法包括：对三维点云数据进行体素化，获得体素化点云数据；对所述体素化点云数据进行特征提取，获得体素对应的第一特征信息，以及获得初始三维检测框；通过对所述三维点云数据进行采样获得多个关键点，根据所述关键点的位置信息以及所述体素对应的第一特征信息，确定所述关键点对应的第二特征信息；根据所述初始三维检测框所包围的关键点的第二特征信息，从所述初始三维检测框中确定目标三维检测框，所述目标三维检测框中包括待检测的三维目标。

Description

三维目标检测和智能行驶方法、装置、设备

技术领域

本公开涉及计算机视觉技术，具体涉及一种三维目标检测方法、装置、设备及计算机可读存储介质，以及智能行驶方法、装置、设备及计算机可读存储介质。

背景技术

雷达是三维目标检测中重要的传感器之一，其能够产生稀疏的雷达点云，从而能够很好地捕捉周围的场景结构。基于雷达点云的三维目标检测在实际场景应用，例如自动驾驶、机器人导航过程中，具有十分重要的应用价值。

发明内容

本公开实施例提供一种三维目标检测方案以及智能行驶方案。

根据本公开的一方面，提供一种三维目标检测方法。所述方法包括：对三维点云数据进行体素化，获得体素化点云数据；对所述体素化点云数据进行特征提取，获得体素对应的第一特征信息，以及获得初始三维检测框；通过对所述三维点云数据进行采样获得多个关键点，根据所述关键点的位置信息以及所述体素对应的第一特征信息，确定所述关键点对应的第二特征信息；根据所述初始三维检测框所包围的关键点的第二特征信息，从所述初始三维检测框中确定目标三维检测框，所述目标三维检测框中包括待检测的三维目标。

结合本公开提出的任一实施方式，所述对所述体素化点云数据进行特征提取，获得体素对应的第一特征信息，包括：利用预先训练的三维卷积网络对所述体素化点云数据进行三维卷积运算，其中，所述三维卷积网络包括多个依次连接的卷积块，每个卷积块对输入数据进行三维卷积运算；获得每个卷积块输出的三维语义特征体，所述三维语义特征体包含各个体素对应的三维语义特征；根据各个卷积块输出的三维语义特征体，获得体素对应的第一特征信息。

结合本公开提出的任一实施方式，所述获得初始三维检测框，包括：将所述三维卷积网络中最后一个卷积块输出的三维语义特征体沿俯视视角投影得到俯视图，获得所述俯视图中每个像素对应的第三特征信息；以每个像素为三维锚点框的中心设置一个或多个三维锚点框；根据位于所述三维锚点框的边框上的像素的第三特征信息，确定所述三维锚点框的置信度得分；根据各个三维锚点框的置信度得分，确定初始三维检测框。

结合本公开提出的任一实施方式，所述通过对所述三维点云数据进行采样获得多个关键点，包括：利用最远点采样方法，从所述三维点云数据中采样得到多个关键点。

结合本公开提出的任一实施方式，所述三维卷积网络中的多个卷积块输出不同尺度的三维语义特征体；

所述根据所述关键点的位置信息以及所述体素对应的第一特征信息，确定所述关键点对应的第二特征信息，包括：将每个卷积块输出的三维语义特征体分别与所述多个关键点转换至同一坐标系下；在转换后的坐标系中，针对每个卷积块，根据该卷积块输出的三维语义特征体确定每个关键点的第一设定范围内的非空体素对应的三维语义特征，并根据所述非空体素对应的三维语义特征确定所述关键点对应的第一语义特征向量；将同一个关键点在各个卷积块对应的第一语义特征向量依次连接，获得所述关键点对应的第二语义特征向量；将所述关键点对应的第二语义特征向量作为所述关键点对应的第二特征信息。

结合本公开提出的任一实施方式，所述三维卷积网络中的多个卷积块输出不同尺度的三维语义特征体；所述根据所述关键点的位置信息以及所述体素对应的第一特征信息，确定所述关键点对应的第二特征信息，包括：将每个卷积块输出的三维语义特征体分别与所述多个关键点转换至同一坐标系下；在转换后的坐标系中，针对每个卷积块，根据该卷积块输出的三维语义特征体确定每个关键点的第一设定范围内的非空体素对应的三维语义特征，并根据所述非空体素对应的三维语义特征确定所述关键点对应的第一语义特征向量；将同一个关键点在各个卷积块对应的第一语义特征向量依次连接，获得所述关键点对应的第二语义特征向量；获取所述关键点在所述三维点云数据中的点云特征向量；将所述关键点投影到俯视特征图中，获得所述关键点的俯视特征向量，其中，所述俯视特征图是通过将所述三维卷积网络中最后一个卷积块输出的三维语义特征体沿俯视视角投影获得的；将所述第二语义特征向量、所述点云特征向量和所述俯视特征向量进行连接，获得所述关键点的目标特征向量；将所述关键点的目标特征向量作为所述关键点对应的第二特征信息。

结合本公开提出的任一实施方式，所述三维卷积网络中的多个卷积块输出不同尺度的三维语义特征体；所述根据所述关键点的位置信息以及所述体素对应的第一特征信息，确定所述关键点对应的第二特征信息，包括：将每个卷积块输出的三维语义特征体分别与所述多个关键点转换至同一坐标系下；在转换后的坐标系中，针对每个卷积块，根据该卷积块输出的三维语义特征体确定每个关键点的第一设定范围内的非空体素对应的三维语义特征，并根据所述非空体素对应的三维语义特征确定所述关键点对应的第一语义特征向量；将同一个关键点在各个卷积块对应的第一语义特征向量依次连接，获得所述关键点对应的第二语义特征向量；获取所述关键点在所述三维点云数据中的点云特征向量；将所述关键点投影到俯视特征图中，获得所述关键点的俯视特征向量，其中，所述俯视特征图是通过将所述三维卷积网络中最后一个卷积块输出的三维语义特征体沿俯视视角投影获得的；将所述第二语义特征向量、所述点云特征向量和所述俯视特征向量进行连接，获得所述关键点的目标特征向量；预测所述关键点为前景点的概率；将所述关键点为前景点的概率与所述关键点的目标特征向量相乘，获得所述关键点的加权特征向量；将所述关键点的加权特征向量作为所述关键点对应的第二特征信息。

结合本公开提出的任一实施方式，每个关键点的第一设定范围有多个；针对一个卷积块，根据该卷积块输出的三维语义特征体确定一个关键点的第一设定范围内的非空体素对应的三维语义特征，包括：根据该卷积块输出的三维语义特征体确定该关键点的各个第一设定范围内的非空体素对应的三维语义特征；根据所述非空体素对应的三维语义特征确定所述关键点对应的第一语义特征向量，包括：根据该关键点的一个第一设定范围内的非空体素对应的三维语义特征，确定该关键点对应的一个初始第一语义特征向量；将该关键点对应的各个初始第一语义特征向量加权平均，得到该关键点对应的第一语义特征向量。

结合本公开提出的任一实施方式，所述根据所述初始三维检测框所包围的关键点的第二特征信息，从所述初始三维检测框中确定目标三维检测框，包括：根据所述初始三维检测框进行网格化所得到的格点，确定多个采样点；获得每个采样点的第二设定范围内的关键点，并根据所述第二设定范围内的关键点的第二特征信息确定所述采样点的第四特征信息；根据所述采样点的顺序将所述采样点的第四特征信息依次连接，获得所述初始三维检测框的目标特征向量；根据所述初始三维检测框的目标特征向量，对所述初始三维检测框进行修正，获得修正后的三维检测框；根据所述修正后的三维检测框的置信度评分，从所述修正后的三维检测框中确定目标三维检测框。

结合本公开提出的任一实施方式，每个采样点的第二设定范围有多个；根据一个采样点的第二设定范围内的关键点的第二特征信息确定该采样点的第四特征信息，包括：根据该采样点的一个第二设定范围内的关键点的第二特征信息确定一个初始第四特征信息；将该采样点的各个初始第四特征信息加权平均，得到该采样点的第四特征信息。

本公开实施例还提供一种智能行驶方法，包括：获取智能行驶设备所在的场景中三维点云数据；采用本公开实施例提供的任一种三维目标检测方法，根据所述三维点云数据对所述场景进行三维目标检测；根据确定的三维目标检测框控制所述智能行驶设备行驶。

根据本公开的一方面，提供一种三维目标检测装置。所述装置包括：第一获得单元，用于对三维点云数据进行体素化，获得体素化点云数据；第二获得单元，用于对所述体素化点云数据进行特征提取，获得体素对应的第一特征信息，以及获得初始三维检测框；第一确定单元，用于通过对所述三维点云数据进行采样获得多个关键点，根据所述关键点的位置信息以及所述体素对应的第一特征信息，确定所述关键点对应的第二特征信息；第二确定单元，用于根据所述初始三维检测框所包围的关键点的第二特征信息，从所述初始三维检测框中确定目标三维检测框，所述目标三维检测框中包括待检测的三维目标。

结合本公开提出的任一实施方式，所述第二获得单元在用于对所述体素化点云数据进行特征提取，获得体素对应的第一特征信息，具体用于，利用预先训练的三维卷积网络对所述体素化点云数据进行三维卷积运算，其中，所述三维卷积网络包括多个依次连接的卷积块，每个卷积块对输入数据进行三维卷积运算；获得每个卷积块输出的三维语义特征体，所述三维语义特征体包含各个体素对应的三维语义特征；根据各个卷积块输出的三维语义特征体，获得体素对应的第一特征信息。

结合本公开提出的任一实施方式，所述第二获得单元在用于获得初始三维检测框时，具体用于：将所述三维卷积网络中最后一个卷积块输出的三维语义特征体沿俯视视角投影得到俯视图，获得所述俯视图中每个像素对应的第三特征信息；以每个像素为三维锚点框的中心设置一个或多个三维锚点框；根据位于所述三维锚点框的边框上的像素的第三特征信息，确定所述三维锚点框的置信度得分；根据各个三维锚点框的置信度得分，确定初始三维检测框。

结合本公开提出的任一实施方式，所述第一确定单元在用于通过对所述三维点云数据进行采样获得多个关键点时，具体用于：利用最远点采样方法，从所述三维点云数据中采样得到多个关键点。

结合本公开提出的任一实施方式，所述三维卷积网络中的多个卷积块输出不同尺度的三维语义特征体；所述第一确定单元在用于根据所述关键点的位置信息以及所述体素对应的第一特征信息，确定所述关键点对应的第二特征信息，具体用于：将每个卷积块输出的三维语义特征体分别与所述多个关键点转换至同一坐标系下；在转换后的坐标系中，针对每个卷积块，根据该卷积块输出的三维语义特征体确定每个关键点的第一设定范围内的非空体素对应的三维语义特征，并根据所述非空体素对应的三维语义特征确定所述关键点对应的第一语义特征向量；将同一个关键点在各个卷积块对应的第一语义特征向量依次连接，获得所述关键点对应的第二语义特征向量；将所述关键点对应的第二语义特征向量作为所述关键点对应的第二特征信息。

结合本公开提出的任一实施方式，所述三维卷积网络中的多个卷积块输出不同尺度的三维语义特征体；所述第一确定单元在用于根据所述关键点的位置信息以及所述体素对应的第一特征信息，确定所述关键点对应的第二特征信息，具体用于：将每个卷积块输出的三维语义特征体分别与所述多个关键点转换至同一坐标系下；在转换后的坐标系中，针对每个卷积块，根据该卷积块输出的三维语义特征体确定每个关键点的第一设定范围内的非空体素对应的三维语义特征，并根据所述非空体素对应的三维语义特征确定所述关键点对应的第一语义特征向量；将同一个关键点在各个卷积块对应的第一语义特征向量依次连接，获得所述关键点对应的第二语义特征向量；获取所述关键点在所述三维点云数据中的点云特征向量；将所述关键点投影到俯视特征图中，获得所述关键点的俯视特征向量，其中，所述俯视特征图是通过将所述三维卷积网络中最后一个卷积块输出的三维语义特征体沿俯视视角投影获得的；将所述第二语义特征向量、所述点云特征向量和所述俯视特征向量进行连接，获得所述关键点的目标特征向量；将所述关键点的目标特征向量作为所述关键点对应的第二特征信息。

结合本公开提出的任一实施方式，所述三维卷积网络中的多个卷积块输出不同尺度的三维语义特征体；所述第一确定单元在用于根据所述关键点的位置信息以及所述体素对应的第一特征信息，确定所述关键点对应的第二特征信息，具体用于：将每个卷积块输出的三维语义特征体分别与所述多个关键点转换至同一坐标系下；在转换后的坐标系中，针对每个卷积块，根据该卷积块输出的三维语义特征体确定每个关键点的第一设定范围内的非空体素对应的三维语义特征，并根据所述非空体素对应的三维语义特征确定所述关键点对应的第一语义特征向量；将同一个关键点在各个卷积块对应的第一语义特征向量依次连接，获得所述关键点对应的第二语义特征向量；获取所述关键点在所述三维点云数据中的点云特征向量；将所述关键点投影到俯视特征图中，获得所述关键点的俯视特征向量，其中，所述俯视特征图是通过将所述三维卷积网络中最后一个卷积块输出的三维语义特征体沿俯视视角投影获得的；将所述第二语义特征向量、所述点云特征向量和所述俯视特征向量进行连接，获得所述关键点的目标特征向量；预测所述关键点为前景点的概率；将所述关键点为前景点的概率与所述关键点的目标特征向量相乘，获得所述关键点的加权特征向量；将所述关键点的加权特征向量作为所述关键点对应的第二特征信息。

结合本公开提出的任一实施方式，每个关键点的第一设定范围有多个；所述第一确定单元在用于针对一个卷积块，根据该卷积块输出的三维语义特征体确定一个关键点的第一设定范围内的非空体素对应的三维语义特征时，具体用于：根据该卷积块输出的三维语义特征体确定该关键点的各个第一设定范围内的非空体素对应的三维语义特征；根据所述非空体素对应的三维语义特征确定所述关键点对应的第一语义特征向量，包括：根据该关键点的一个第一设定范围内的非空体素对应的三维语义特征，确定该关键点对应的一个初始第一语义特征向量；将该关键点对应的各个初始第一语义特征向量加权平均，得到该关键点对应的第一语义特征向量。

结合本公开提出的任一实施方式，所述第二确定单元具体用于：根据所述初始三维检测框进行网格化所得到的格点，确定多个采样点；获得每个采样点的第二设定范围内的关键点，并根据所述第二设定范围内的关键点的第二特征信息确定所述采样点的第四特征信息；根据所述采样点的顺序将所述采样点的第四特征信息依次连接，获得所述初始三维检测框的目标特征向量；根据所述初始三维检测框的目标特征向量，对所述初始三维检测框进行修正，获得修正后的三维检测框；根据所述修正后的三维检测框的置信度评分，从所述修正后的三维检测框中确定目标三维检测框。

结合本公开提出的任一实施方式，每个采样点的第二设定范围有多个；所述第二确定单元在用于根据一个采样点的第二设定范围内的关键点的第二特征信息确定该采样点的第四特征信息时，具体用于：根据该采样点的一个第二设定范围内的关键点的第二特征信息确定一个初始第四特征信息；将该采样点的各个初始第四特征信息加权平均，得到该采样点的第四特征信息。

本公开实施例还提供一种智能行驶装置，包括：获取模块，用于获取智能行驶设备所在的场景中三维点云数据；检测模块，用于采用本公开实施例提供的任一种三维目标检测方法，根据所述三维点云数据对所述场景进行三维目标检测；控制模块，用于根据确定的三维目标检测框控制所述智能行驶设备行驶。

根据本公开的一方面，提供一种电子设备，包括：处理器和用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行本公开提出的任一实施方式所述的三维目标检测方法或者执行本公开实施例提供的智能行驶方法。

根据本公开的一方面，提供一种存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现本公开提出的任一实施方式所述的三维目标检测方法或者执行本公开实施例提供的智能行驶方法。

本公开一个或多个实施例的三维目标检测方法、装置、设备及存储介质，通过对体素化点云数据进行特征提取获得体素的第一特征信息，以及获得包含目标对象的初始三维检测框，并通过对三维点云数据进行采样获得多个关键点并获得关键点对应的第二特征信息，根据所述初始三维检测框所包围的关键点的第二特征信息，能够从所述初始三维检测框中确定目标三维检测框。本公开利用从三维点云数据采样得到的关键点来表征整个三维场景，通过获取关键点对应的第二特征信息来确定目标三维检测框，相较于利用原始点云中的各个点云数据的特征信息来确定三维目标检测框，提高了三维目标检测的效率；在通过体素的特征获得的初始三维检测框的基础上，通过关键点在三维点云数据中的位置信息和体素对应的第一特征信息，从初始三维检测框中确定出目标三维检测框，从而将体素的特征与点云特征(即关键点的位置信息)相结合从初始三位检测框中确定出目标三维检测框，更充分地利用了点云的信息，因此，可以提高三维目标检测的准确度。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开至少一个实施例提供的一种三维目标检测方法的流程图；

图2为本公开至少一个实施例提供的关键点获取示意图；

图3本公开至少一个实施例提供的三维卷积网络的结构示意图；

图4示出本公开至少一个实施例提供的获取关键点的第二特征信息方法的流程图；

图5示出本公开至少一个实施例提供的获得关键点的第二特征信息的示意图；

图6为本公开至少一个实施例提供的从所述初始三维检测框确定目标三维检测框的方法流程；

图7为本公开至少一个实施例提供的三维目标检测装置的结构示意图；

图8为本公开至少一个实施例提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

图1为本公开至少一个实施例提供的一种三维目标检测方法的流程图，如图1所示，该方法包括步骤101～步骤104。

在步骤101中，对三维点云数据进行体素化，获得体素化点云数据。

点云为场景或目标表面特征的点集合，三维点云数据可以包含点的位置信息，如三维坐标，还可以包含反射强度信息。其中，场景可以包括多种，例如，自动驾驶中的道路场景、机器人导航中的道路场景、飞行器飞行中的航空场景等等。

在本公开实施例中，场景的三维点云数据可以由执行三维目标检测方法的电子设备自身进行采集，也可以从其他设备，例如，激光雷达、深度相机或其他传感器中获取，还可以从网络数据库中搜索得到。

对三维点云数据进行体素化，是指将整个场景的点云映射到三维体素表示，例如，将点云所处的空间均等地划分为体素，并且以体素为单位表示所述点云的参数。每个体素中可能包含所述点云中的一个点，也可能包含所述点云中的多个点，还可能没有包含所述点云中的任何点。对于包含了点云的体素，可以称为非空体素；对于没有包含点云的体素，可以称为空体素。对于包含大量空体素的体素化点云数据，可以将体素化的过程称为稀疏体素化或稀疏网格化，体素化的结果可称为稀疏体素化点云数据。

在一个示例中，可以通过以下方式对三维点云数据进行体素化：将三维点云数据划分成等间距的体素v，相当于将点云分组到了其所在的体素v内，体素v的大小例如可以表示为(v_w,v_l,v_h)，其中，v_w、v_l、v_h分别表示体素v的宽度、长度和高度。通过将每个体素v内的雷达点云的平均参数作为该体素的参数，可以获得体素化点云。其中，可以在每个体素v内随机采样固定数量的雷达点，以节省计算以及减少体素之间的雷达点的不平衡性。

在步骤102中，对所述体素化点云数据进行特征提取，获得体素对应的第一特征信息，以及获得初始三维检测框。

在本公开实施例中，可以利用预先训练的三维卷积网络对所述体素化点云数据进行特征提取，获得体素对应的第一特征信息，其中，所述第一特征信息为三维卷积特征信息。

在一些实施例中，可以利用候选区域网络(Region Proposal Network，RPN)，根据基于所述体素化云数据所提取的特征，获得包含目标对象的初始三维检测框，也即初始检测结果。其中，所述初始检测结果包括初始三维检测框的定位信息以及分类信息。

利用预先训练的三维卷积网络对所述体素化点云数据进行特征提出，以及利用获得初始三维检测框的具体步骤容后详述。

在步骤103中，通过对所述三维点云数据进行采样获得多个关键点，根据所述关键点的位置信息以及所述体素对应的第一特征信息，获取与所述关键点对应的第二特征信息。

在本公开实施例中，可以利用最远点采样(Farthest Point Sampling，FPS)方法，从所述三维点云数据中采样得到多个关键点。该方法包括：假设点云为C，采样点集为S，S初始为空集；首先在点云中随机选择一个点放入集合S，接下来，在集合C-S(即从C中去除S中包括的点之后的集合)中寻找距离集合S最远的点，加入集合S，然后继续迭代，直到选出需要个数的点为止。利用最远点采样方法从三维点云数据中获取的多个关键点，选出的这些关键点散布在整个原始点云所在的三维空间中，这些关键点是围绕非空体素均匀分布的，能够表示出整个场景，如图2所示，原始的三维点云数据210通过最远采样方法，获得关键点数据220。

根据所述多个关键点在原始点云空间中的位置信息，以及在步骤102中所获得的各个体素对应的第一特征信息，可以确定与所述关键点对应的第二特征信息。也即是说，通过将原始场景的三维特征信息编码到所述多个关键点上，使得所述多个关键点对应的第二特征信息能够表示整个场景的三维特征信息。

在步骤104中，根据所述初始三维检测框所包围的关键点的第二特征信息，从所述初始三维检测框中确定目标三维检测框。

对于步骤102中所获得的包含目标对象的一个或多个初始三维检测框，根据各个初始三维检测框所包含的关键点的第二特征信息，可以获得各个初始三维检测框的置信度得分，从而进一步筛选出最终的目标三维检测框。

本公开实施例利用从三维点云数据采样得到的关键点来表征整个三维场景，通过获取关键点对应的第二特征信息来确定目标三维检测框，相较于利用原始点云中的各个点云数据的特征信息来确定三维目标检测框，提高了三维目标检测的效率；在通过体素的特征获得的初始三维检测框的基础上，通过关键点在三维点云数据中的位置信息和体素对应的第一特征信息，从初始三维检测框中确定出目标三维检测框，从而将体素的特征与点云特征(即关键点的位置信息)相结合从初始三位检测框中确定出目标三维检测框，相较于直接根据体素的特征来确定三维检测框来说，能够更充分地利用点云的信息，因此提高了三维目标检测的准确度。

在一些实施例中，可以利用以下方法对所述体素化点云数据进行特征提取，获得体素对应的第一特征信息：首先，利用预先训练的三维卷积网络对所述体素化点云数据进行三维卷积运算，其中，所述三维卷积网络包括多个依次连接的卷积块，每个卷积块对输入数据进行三维卷积运算；获得每个卷积块输出的三维语义特征体，所述三维语义特征体包含各个体素对应的三维语义特征；最后，根据各个卷积块输出的三维语义特征体，获得体素对应的第一特征信息。也就是说，各个体素对应的第一特征信息可以由各个体素对应的三维语义特征来确定。

图3示出本公开至少一个实施例提出的三维卷积网络的结构示意图。如图3所示，所述三维卷积网络包括四个依次连接的卷积块310、320、330、340，每个卷积块对输入数据进行三维卷积运算，输出三维语义特征体(3D feature volume)，例如，卷积块310对于输入的体素化点云数据进行三维卷积运算，输出三维语义特征体fv1，卷积块320对三维语义特征体fv1进行三维卷积运算，输出三维语义特征体fv2，以此类推，最后一个卷积块340输出三维语义特征体fv4，作为该三维卷积网络的输出结果。其中，每个卷积块输出的三维语义特征体，包括各个体素对应的三维语义特征，也即其是多个非空体素对应的特征向量的集合。

每个卷积块可以包括多个卷积层，可以通过针对各个卷积块中最后一个卷积层设置不同的步长，以使每个卷积块输出的三维语义特征体具有不同的尺度。例如，可以通过将四个卷积块310、320、330、340中最后一个卷积层的步长(stride)分别设置为1、2、4、8，可以实现将体素化点云依次下采样到1倍、2倍、4倍、8倍的三维语义特征体上。针对每一个卷积块输出的三维语义特征体，都可以确定非空体素对应的特征向量，根据四个卷积块310、320、330、340分别输出的不同尺度的三维语义特征体，可以共同确定每一个非空体素所对应的第一特征信息。

在一些实施例中，可以通过RPN网络获得包含目标对象的初始三维检测框。

首先，将所述三维卷积网络中最后一个卷积块输出的三维语义特征体投影到俯视图中，获得所述俯视图中每个像素对应的第三特征信息。

对于图3所示的三维卷积网络，即将卷积块340输出的8倍下采样的三维语义特征体沿着俯视视角投影，得到一个8倍下采样的俯视(鸟瞰)语义特征图，并且可以获得该俯视语义特征图中的每个像素对应的第三语义特征。其中，对卷积块340输出的8倍下采样的三维语义特征体进行投影例如可以通过在高度方向(对应于图5所示的虚线箭头方向)上堆叠不同体素来获得俯视语义特征图。

接下来，在所述俯视语义特征图的每个像素上设置一个或多个三维锚点框，也即以各个像素为三维锚点框的中心设置三维锚点框，其中，所述三维锚点框可以由在所述俯视语义特征图的平面上的二维锚点框构成，该二维锚点框的每个点包含高度信息。

根据位于所述三维锚点框的边框上的像素的第三特征信息，可以确定所述三维锚点框的置信度得分。

最后，根据各个三维锚点框的置信度得分，可以从多个三维锚点框中确定包含目标对象的初始三维检测框；同时，可以获得所述初始三维检框的分类，例如所述初始三维检框中的目标为汽车、行人等等，并且可以对所述初始三维检测框的位置进行修正，获得所述初始检测框的位置信息。

接下来，对于根据所述关键点的位置信息以及所述体素对应的第一特征信息，确定所述关键点对应的第二特征信息的过程进行具体描述。

在一些实施例中，可以根据所述关键点的位置信息，将所述不同尺度的三维语义特征体编码至所述多个关键点，获得与所述多个关键点对应的第二特征信息。

图4示出本公开至少一个实施例提供的三维目标检测方法中获取关键点的第二特征信息方法的流程图。如图4所示，该方法包括步骤401～404。

在步骤401中，将每个卷积块输出的三维语义特征体分别与所述多个关键点转换至同一坐标系下。

参考图5所示的获得关键点的第二特征信息的示意图，其中，对点云510进行体素化获得体素化点云数据，通过对所述体素化点云数据进行三维卷积运算，获得三维语义特征体fv1、fv2、fv3、fv4；将所述三维语义特征体fv1、fv2、fv3、fv4分别与关键点520转换至同一坐标系下，如图5中的虚线框所示，分别得到转换后的三维语义特征体fv1’、fv2’、fv3’、fv4’。其中，所述关键点是通过最远点采样方法从原始三维点云数据中得到的，因此关键点520初始所在的坐标与原始点云510是相同的。

在步骤402中，在转换得到的坐标系中，针对每个卷积块，确定每个关键点的第一设定范围内的非空体素对应的三维语义特征体，并根据所述非空体素对应的三维语义特征体确定所述关键点对应的第一语义特征向量。

以图5中三维语义特征体fv1为例，在将三维语义特征体fv1与关键点520转换至同一坐标系，得到转换后的三维语义特征体fv1’。对于每个关键点，可以根据其所在的位置确定第一设定范围，该第一设定范围优选为球形设定范围，也即以所述关键点为球心确定一个球形区域，并将所述球形区域所包围的非空体素作为所述关键点的第一设定范围内的非空体素。例如对于关键点520中的一个关键点521，其在进行坐标系变换后得到对应的关键点522，以关键点522为球心，将在如图5所示的球形设定范围内的非空体素作为关键点521的第一设定范围内的非空体素。

根据这些非空体素所对应的三维语义特征体，可以确定针对卷积块210，所述关键点对应的第一语义特征向量。例如，可以对设定范围内的非空体素的三维语义特征体进行最大值池化操作，得到所述关键点针对卷积块310的唯一特征向量，也即第一语义特征向量。

本领域技术人员应当理解，也可以确定其他形状的区域作为关键点的设定范围，本公开实施例对此不进行限制；设定范围的具体大小可以需要具体设置，本公开实施例对此不进行限制。

在一些实施例中，可以针对每个关键点设置多个第一设定范围，根据该卷积块输出的三维语义特征体确定该关键点的各个第一设定范围的非空体素对应的三维语义特征，之后根据该关键点的一个第一设定范围内的非空体素对应的三维语义特征，确定该关键点对应的一个初始第一语义特征向量，并将该关键点对应的各个初始第一语义特征向量加权平均，得到该关键点对应的第一语义特征向量。

通过设置不同的第一设定范围，来整合关键点在不同范围内的上下文语义信息，可以提取更多的有效的上下文语义信息，有利于提高目标检测的准确率。

对于三维语义特征体fv2、fv3、fv4，可以根据相似的方法获得相对应的第一语义特征向量，在此不再赘述。

在步骤403中，将同一个关键点在各个卷积块对应的第一语义特征向量依次连接，获得所述关键点对应的第二语义特征向量。

以图3所示的三维卷积网络为例，将卷积块310、320、330、340对应的第一语义特征向量依次连接，对应于图5，则为将三维语义特征体fv1、fv2、fv3、fv4与关键点转换至同一坐标系下时，分别所对应的第一语义特征向量依次连接，来获得所述关键点对应的第二语义特征向量。

在步骤404中，将所述关键点对应的第二语义特征向量作为所述关键点对应的第二特征信息。

在本公开实施例中，每个关键点的第二特征信息集合了通过三维卷积网络获得的语义信息，同时在关键点设定范围内，基于点的方式获得了关键点的特征向量，结合了点云特征，从而更充分地利用了点云数据中的信息，进而使关键点的第二特征信息更加准确并且更具有代表性。

在一些实施例中，还可以通过以下方法获得所述关键点的第二特征信息。

首先，根据以上所述的方法，将每个卷积块输出的三维语义特征体分别与所述多个关键点转换至同一坐标系下；在转换后的坐标系中，针对每个卷积块，根据该卷积块输出的三维语义特征体确定每个关键点的第一设定范围内的非空体素对应的三维语义特征，并根据所述非空体素对应的三维语义特征确定所述关键点对应的第一语义特征向量；将同一个关键点在各个卷积块对应的第一语义特征向量依次连接，获得所述关键点对应的第二语义特征向量。

在获得了关键点对应的第二语义特征向量之后，获取所述关键点在所述三维点云数据中的点云特征向量。

在一个示例中，可以通过以下方法确定所关键点所对应的点云特征向量：在原始三维点云数据所对应的坐标系中，以其中一个关键点为中心，确定一个球形区域，获得所述球形区域内的点云与所述关键点的特征向量；并对所有球形区域内的点云的特征向量进行全连接编码，并且进行最大值池化后，获得所述关键点在三维点云数据中对应的点云特征向量。本领域技术人员应当理解，也可以通过其他方法获得关键点对应的点云特征向量，本公开对此不进行限制。

接下来，将所述关键点投影到俯视特征图中，获得所述关键点的俯视特征向量。

在本公开实施例中，所述俯视特征图是通过将所述三维卷积网络中最后一个卷积块输出的三维语义特征体沿俯视视角投影获得的。

以图3所示的三维卷积网络为例，俯视特征图是将卷积块340输出的，8倍下采样的三维语义特征体沿俯视视角投影所获得。

在一个示例中，针对投影到俯视特征图中的每个关键点，可以通过双线性插值方法确定所述关键点所对应的俯视特征向量。本领域技术人员应当理解，也可以通过其他方法获得关键点对应的俯视特征向量，本公开对此不进行限制。

接着，将所述第二语义特征向量、所述点云特征向量和所述俯视特征向量进行连接，获得所述关键点的目标特征向量，将所述关键点的目标特征向量作为所述关键点对应的第二特征信息。在本公开实施例中，每个关键点的第二特征信息在集合了语义信息外，还结合了关键点在三维点云数据中的位置信息，以及所述关键点在俯视特征图中的特征信息，从而使关键点的第二特征信息更加准确并且更具有代表性。

首先，根据以上所述的方法，将每个卷积块输出的三维语义特征体分别与所述多个关键点转换至同一坐标系下；在转换后的坐标系中，针对每个卷积块，根据该卷积块输出的三维语义特征体确定每个关键点的第一设定范围内的非空体素对应的三维语义特征，并根据所述非空体素对应的三维语义特征确定所述关键点对应的第一语义特征向量；将同一个关键点在各个卷积块对应的第一语义特征向量依次连接，获得所述关键点对应的第二语义特征向量。在获得了关键点对应的第二语义特征向量之后，获取所述关键点在所述三维点云数据中的点云特征向量。接下来，将所述关键点投影到俯视特征图中，获得所述关键点的俯视特征向量。将所述第二语义特征向量、所述点云特征向量和所述俯视特征向量进行连接，获得所述关键点的目标特征向量。

在获得所述关键点的目标特征向量之后，对所述关键点预测所述关键点为前景点的概率，也即预测关键点为前景点的置信度；将所述关键点为前景点的概率与所述关键点的目标特征向量相乘，获得所述关键点的加权特征向量，并将所述关键点的加权特征向量作为所述关键点对应的第二特征信息。

在本公开实施例中，通过预测关键点为前景点的置信度，对关键点的目标特征向量进行加权，使得前景关键点的特征更加凸显，有助于提高三维目标检测的准确性。

在确定关键点对应的第二特征信息后，接下来可以根据所述初始三维检测框、所述关键点对应的第二特征信息来确定目标三维检测框。

图6为本公开至少一个实施例提供的三维目标检测方法中确定目标三维检测框的方法流程图。如图6所示，该方法包括步骤601～605。

在步骤601中，根据所述初始三维检测框进行网格化所得到的格点，确定多个采样点。其中，所述格点是指网格化之后的网格上的顶点。

在公开实施例中，对于每个初始三维检则框进行网格化。例如，得到6x6x6个采样点。

在步骤602中，获得每个采样点的第二设定范围内的关键点，并根据所述第二设定范围内的关键点的第二特征信息确定所述采样点的第四特征信息。

在一个示例中，针对每个采样点，以所述采样点作为球心，根据预先设定的半径找到球内的所有关键点。将球内所有关键点的第二语义特征进行全连接编码，并且进行最大值池化后，获得所述采样点对应的特征信息，将其作为所述采样点所对应的第四特征信息。

在一个示例中，针对每个采样点，可以设置多个第二设定范围，根据该采样点的一个第二设定范围内的关键点的第二特征信息确定一个初始第四特征信息，并将该采样点的各个初始第四特征信息加权平均，得到该采样点的第四特征信息，从而提取不同局部区域范围内的采样点的上下文语义，并将不同半径对应的特征信息进行连接，作为所述采样点对应的第四特征信息，以使所述采样点对应的特征信息更加有效，有助于提高三维目标检测的准确性。

在步骤603中，根据所述采样点的顺序将所述采样点的第四特征信息依次连接，获得所述初始三维检测框的目标特征向量。

通过将所述初始三维检测框对应的采样点的第四特征信息依次进行连接，获得所述三维检测框的目标特征向量，也即所述初始三维检测框的语义特征。

在步骤604中，根据所述初始三维检测框的目标特征向量，对所述初始三维检测框进行修正，获得修正后的三维检测框。

在本公开实施例中，通过两层的MLP(Multiple Layer Perceptron，多层感知器)网络对所述目标特征向量降维，根据降维后的特征向量，例如通过全连接处理，可以确定所述初始三维检测框的置信度评分。

另外，根据降维后的特征向量，可以对所述初始三维检测框的位置、大小、方向进行修正，从而得到修正后的三维检测框。所述修正后的三维检测框的位置、大小、方向相较于初始三维检测框更加准确。

在步骤605中，根据所述修正后的三维检测框的置信度评分，从所述修正后的三维检测框中确定目标三维检测框。

在本公开实施例中，对于所获得的修正后的三维检测框，可以通过设置置信度阈值，将大于所述置信度阈值的修正后的三维检测框确定目标三维检测框，从而在多个修正后的三维检测框中筛选出最终的目标三维检测框。

本公开实施例还提供一种智能行驶方法，包括：

获取智能行驶设备所在的场景中三维点云数据；

采用本公开实施例提供的任一种三维目标检测方法，根据所述三维点云数据对所述场景进行三维目标检测；

根据确定的三维目标检测框控制所述智能行驶设备行驶。

其中，智能行驶设备包括自动驾驶车辆、装有高级辅助驾驶系统(ADAS)的车辆、机器人等。对于自动驾驶车辆或者机器人，控制智能行驶设备行驶包括根据检测到的三维目标控制智能行驶设备加速、减速、转向、刹车或者保持速度和方向不变等；对于装有ADAS的车辆，控制智能行驶设备行驶包括根据检测到的三维目标提醒驾驶员控制车辆加速、减速、转向、刹车或者保持速度和方向不变等，并持续监测车辆状态，以在确定车辆状态与预测状态不同时，发出告警，甚至在必要时接管车辆驾驶权。

图7为本公开至少一个实施例提供的三维目标检测装置的结构示意图。如图7所示，所述装置包括：第一获得单元701，用于对三维点云数据进行体素化，获得体素化点云数据；第二获得单元702，用于对所述体素化点云数据进行特征提取，获得体素对应的第一特征信息，以及获得初始三维检测框；第一确定单元703，用于通过对所述三维点云数据进行采样获得多个关键点，根据所述关键点的位置信息以及所述体素对应的第一特征信息，确定所述关键点对应的第二特征信息；第二确定单元704，用于根据所述初始三维检测框所包围的关键点的第二特征信息，从所述初始三维检测框中确定目标三维检测框，所述目标三维检测框中包括待检测的三维目标。

在一些实施例中，所述第二获得单元在用于对所述体素化点云数据进行特征提取，获得体素对应的第一特征信息，具体用于，利用预先训练的三维卷积网络对所述体素化点云数据进行三维卷积运算，其中，所述三维卷积网络包括多个依次连接的卷积块，每个卷积块对输入数据进行三维卷积运算；获得每个卷积块输出的三维语义特征体，所述三维语义特征体包含各个体素对应的三维语义特征；根据各个卷积块输出的三维语义特征体，获得体素对应的第一特征信息。

在一些实施例中，所述第二获得单元在用于获得初始三维检测框时，具体用于：将所述三维卷积网络中最后一个卷积块输出的三维语义特征体沿俯视视角投影得到俯视图，获得所述俯视图中每个像素对应的第三特征信息；以每个像素为三维锚点框的中心设置一个或多个三维锚点框；根据位于所述三维锚点框的边框上的像素的第三特征信息，确定所述三维锚点框的置信度得分；根据各个三维锚点框的置信度得分，确定初始三维检测框。

在一些实施例中，所述第一确定单元在用于通过对所述三维点云数据进行采样获得多个关键点时，具体用于：利用最远点采样方法，从所述三维点云数据中采样得到多个关键点。

在一些实施例中，所述三维卷积网络中的多个卷积块输出不同尺度的三维语义特征体；所述第一确定单元在用于根据所述关键点的位置信息以及所述体素对应的第一特征信息，确定所述关键点对应的第二特征信息，具体用于：将每个卷积块输出的三维语义特征体分别与所述多个关键点转换至同一坐标系下；在转换后的坐标系中，针对每个卷积块，根据该卷积块输出的三维语义特征体确定每个关键点的第一设定范围内的非空体素对应的三维语义特征，并根据所述非空体素对应的三维语义特征确定所述关键点对应的第一语义特征向量；将同一个关键点在各个卷积块对应的第一语义特征向量依次连接，获得所述关键点对应的第二语义特征向量；将所述关键点对应的第二语义特征向量作为所述关键点对应的第二特征信息。

在一些实施例中，所述三维卷积网络中的多个卷积块输出不同尺度的三维语义特征体；所述第一确定单元在用于根据所述关键点的位置信息以及所述体素对应的第一特征信息，确定所述关键点对应的第二特征信息，具体用于：将每个卷积块输出的三维语义特征体分别与所述多个关键点转换至同一坐标系下；在转换后的坐标系中，针对每个卷积块，根据该卷积块输出的三维语义特征体确定每个关键点的第一设定范围内的非空体素对应的三维语义特征，并根据所述非空体素对应的三维语义特征确定所述关键点对应的第一语义特征向量；将同一个关键点在各个卷积块对应的第一语义特征向量依次连接，获得所述关键点对应的第二语义特征向量；获取所述关键点在所述三维点云数据中的点云特征向量；将所述关键点投影到俯视特征图中，获得所述关键点的俯视特征向量，其中，所述俯视特征图是通过将所述三维卷积网络中最后一个卷积块输出的三维语义特征体沿俯视视角投影获得的；将所述第二语义特征向量、所述点云特征向量和所述俯视特征向量进行连接，获得所述关键点的目标特征向量；将所述关键点的目标特征向量作为所述关键点对应的第二特征信息。

在一些实施例中，所述三维卷积网络中的多个卷积块输出不同尺度的三维语义特征体；所述第一确定单元在用于根据所述关键点的位置信息以及所述体素对应的第一特征信息，确定所述关键点对应的第二特征信息，具体用于：将每个卷积块输出的三维语义特征体分别与所述多个关键点转换至同一坐标系下；在转换后的坐标系中，针对每个卷积块，根据该卷积块输出的三维语义特征体确定每个关键点的第一设定范围内的非空体素对应的三维语义特征，并根据所述非空体素对应的三维语义特征确定所述关键点对应的第一语义特征向量；将同一个关键点在各个卷积块对应的第一语义特征向量依次连接，获得所述关键点对应的第二语义特征向量；获取所述关键点在所述三维点云数据中的点云特征向量；将所述关键点投影到俯视特征图中，获得所述关键点的俯视特征向量，其中，所述俯视特征图是通过将所述三维卷积网络中最后一个卷积块输出的三维语义特征体沿俯视视角投影获得的；将所述第二语义特征向量、所述点云特征向量和所述俯视特征向量进行连接，获得所述关键点的目标特征向量；预测所述关键点为前景点的概率；将所述关键点为前景点的概率与所述关键点的目标特征向量相乘，获得所述关键点的加权特征向量；将所述关键点的加权特征向量作为所述关键点对应的第二特征信息。

在一些实施例中，每个关键点的第一设定范围有多个；所述第一确定单元在用于针对一个卷积块，根据该卷积块输出的三维语义特征体确定一个关键点的第一设定范围内的非空体素对应的三维语义特征时，具体用于：根据该卷积块输出的三维语义特征体确定该关键点的各个第一设定范围内的非空体素对应的三维语义特征；根据所述非空体素对应的三维语义特征确定所述关键点对应的第一语义特征向量，包括：根据该关键点的一个第一设定范围内的非空体素对应的三维语义特征，确定该关键点对应的一个初始第一语义特征向量；将该关键点对应的各个初始第一语义特征向量加权平均，得到该关键点对应的第一语义特征向量。

在一些实施例中，所述第二确定单元具体用于：根据所述初始三维检测框进行网格化所得到的格点，确定多个采样点；获得每个采样点的第二设定范围内的关键点，并根据所述第二设定范围内的关键点的第二特征信息确定所述采样点的第四特征信息；根据所述采样点的顺序将所述采样点的第四特征信息依次连接，获得所述初始三维检测框的目标特征向量；根据所述初始三维检测框的目标特征向量，对所述初始三维检测框进行修正，获得修正后的三维检测框；根据所述修正后的三维检测框的置信度评分，从所述修正后的三维检测框中确定目标三维检测框。

在一些实施例中，每个采样点的第二设定范围有多个；所述第二确定单元在用于根据一个采样点的第二设定范围内的关键点的第二特征信息确定该采样点的第四特征信息时，具体用于：根据该采样点的一个第二设定范围内的关键点的第二特征信息确定一个初始第四特征信息；

将该采样点的各个初始第四特征信息加权平均，得到该采样点的第四特征信息。

图8为本公开至少一个实施例提供的电子设备的结构示意图。所述设备包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行至少一个实施例所述的三维目标检测方法或者执行本公开实施例提供的智能行驶方法。

本公开还提出了一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现至少一个实施例所述的三维目标检测方法或者执行本公开实施例提供的智能行驶方法。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种三维目标检测方法，其特征在于，所述方法包括：

对三维点云数据进行体素化，获得体素化点云数据；

对所述体素化点云数据进行特征提取，获得体素对应的第一特征信息，以及获得初始三维检测框；

通过对所述三维点云数据进行采样获得多个关键点，根据所述关键点的位置信息以及所述体素对应的第一特征信息，确定所述关键点对应的第二特征信息；

根据所述初始三维检测框所包围的关键点的第二特征信息，从所述初始三维检测框中确定目标三维检测框，所述目标三维检测框中包括待检测的三维目标。

2.根据权利要求1所述的方法，其特征在于，所述对所述体素化点云数据进行特征提取，获得体素对应的第一特征信息，包括：

利用预先训练的三维卷积网络对所述体素化点云数据进行三维卷积运算，其中，所述三维卷积网络包括多个依次连接的卷积块，每个卷积块对输入数据进行三维卷积运算；

获得每个卷积块输出的三维语义特征体，所述三维语义特征体包含各个体素对应的三维语义特征；

根据各个卷积块输出的三维语义特征体，获得体素对应的第一特征信息。

3.根据权利要求2所述的方法，其特征在于，所述获得初始三维检测框，包括：

将所述三维卷积网络中最后一个卷积块输出的三维语义特征体沿俯视视角投影得到俯视图，获得所述俯视图中每个像素对应的第三特征信息；

以每个像素为三维锚点框的中心设置一个或多个三维锚点框；

根据位于所述三维锚点框的边框上的像素的第三特征信息，确定所述三维锚点框的置信度得分；

根据各个三维锚点框的置信度得分，确定初始三维检测框。

4.根据权利要求1所述的方法，其特征在于，所述通过对所述三维点云数据进行采样获得多个关键点，包括：

利用最远点采样方法，从所述三维点云数据中采样得到多个关键点。

5.根据权利要求2至4任一项所述的方法，其特征在于，所述三维卷积网络中的多个卷积块输出不同尺度的三维语义特征体；

所述根据所述关键点的位置信息以及所述体素对应的第一特征信息，确定所述关键点对应的第二特征信息，包括：

将每个卷积块输出的三维语义特征体分别与所述多个关键点转换至同一坐标系下；

在转换后的坐标系中，针对每个卷积块，根据该卷积块输出的三维语义特征体确定每个关键点的第一设定范围内的非空体素对应的三维语义特征，并根据所述非空体素对应的三维语义特征确定所述关键点对应的第一语义特征向量；

将同一个关键点在各个卷积块对应的第一语义特征向量依次连接，获得所述关键点对应的第二语义特征向量；

将所述关键点对应的第二语义特征向量作为所述关键点对应的第二特征信息。

6.根据权利要求2至4任一项所述的方法，其特征在于，所述三维卷积网络中的多个卷积块输出不同尺度的三维语义特征体；

获取所述关键点在所述三维点云数据中的点云特征向量；

将所述关键点投影到俯视特征图中，获得所述关键点的俯视特征向量，其中，所述俯视特征图是通过将所述三维卷积网络中最后一个卷积块输出的三维语义特征体沿俯视视角投影获得的；

将所述第二语义特征向量、所述点云特征向量和所述俯视特征向量进行连接，获得所述关键点的目标特征向量；

将所述关键点的目标特征向量作为所述关键点对应的第二特征信息。

7.根据权利要求2至4任一项所述的方法，其特征在于，所述三维卷积网络中的多个卷积块输出不同尺度的三维语义特征体；

获取所述关键点在所述三维点云数据中的点云特征向量；

预测所述关键点为前景点的概率；

将所述关键点为前景点的概率与所述关键点的目标特征向量相乘，获得所述关键点的加权特征向量；

将所述关键点的加权特征向量作为所述关键点对应的第二特征信息。

8.根据权利要求5至7任一项所述的方法，其特征在于，每个关键点的第一设定范围有多个；

针对一个卷积块，根据该卷积块输出的三维语义特征体确定一个关键点的第一设定范围内的非空体素对应的三维语义特征，包括：

根据该卷积块输出的三维语义特征体确定该关键点的各个第一设定范围内的非空体素对应的三维语义特征；

根据所述非空体素对应的三维语义特征确定所述关键点对应的第一语义特征向量，包括：

根据该关键点的一个第一设定范围内的非空体素对应的三维语义特征，确定该关键点对应的一个初始第一语义特征向量；

将该关键点对应的各个初始第一语义特征向量加权平均，得到该关键点对应的第一语义特征向量。

9.根据权利要求1至8任一项所述的方法，其特征在于，所述根据所述初始三维检测框所包围的关键点的第二特征信息，从所述初始三维检测框中确定目标三维检测框，包括：

根据所述初始三维检测框进行网格化所得到的格点，确定多个采样点；

获得每个采样点的第二设定范围内的关键点，并根据所述第二设定范围内的关键点的第二特征信息确定所述采样点的第四特征信息；

根据所述采样点的顺序将所述采样点的第四特征信息依次连接，获得所述初始三维检测框的目标特征向量；

根据所述初始三维检测框的目标特征向量，对所述初始三维检测框进行修正，获得修正后的三维检测框；

根据所述修正后的三维检测框的置信度评分，从所述修正后的三维检测框中确定目标三维检测框。

10.根据权利要求9所述的方法，其特征在于，每个采样点的第二设定范围有多个；

根据一个采样点的第二设定范围内的关键点的第二特征信息确定该采样点的第四特征信息，包括：

根据该采样点的一个第二设定范围内的关键点的第二特征信息确定一个初始第四特征信息；

11.一种智能行驶方法，其特征在于，包括：

获取智能行驶设备所在的场景中三维点云数据；

采用权利要求1-10任一所述的三维目标检测方法，根据所述三维点云数据对所述场景进行三维目标检测；

根据确定的三维目标检测框控制所述智能行驶设备行驶。

12.一种三维目标检测装置，其特征在于，所述装置包括：

第一获得单元，用于对三维点云数据进行体素化，获得体素化点云数据；

第二获得单元，用于对所述体素化点云数据进行特征提取，获得体素对应的第一特征信息，以及获得初始三维检测框；

第一确定单元，用于通过对所述三维点云数据进行采样获得多个关键点，根据所述关键点的位置信息以及所述体素对应的第一特征信息，确定所述关键点对应的第二特征信息；

第二确定单元，用于根据所述初始三维检测框所包围的关键点的第二特征信息，从所述初始三维检测框中确定目标三维检测框，所述目标三维检测框中包括待检测的三维目标。

13.一种智能行驶装置，其特征在于，包括：

获取模块，用于获取智能行驶设备所在的场景中三维点云数据；

检测模块，用于采用权利要求1-10任一所述的三维目标检测方法，根据所述三维点云数据对所述场景进行三维目标检测；

控制模块，用于根据确定的三维目标检测框控制所述智能行驶设备行驶。

14.一种电子设备，其特征在于，所述设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1至11任一项所述的方法。

15.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至11任一项所述的方法。