CN117853707A

CN117853707A - 三维目标检测及模型训练方法、装置、设备和车辆

Info

Publication number: CN117853707A
Application number: CN202311753327.1A
Authority: CN
Inventors: 王国军
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-12-19
Filing date: 2023-12-19
Publication date: 2024-04-09

Abstract

本公开提供了一种三维目标检测及模型训练方法、装置、设备和车辆，涉及人工智能技术领域，具体涉及自动驾驶、目标检测等技术领域。三维目标检测方法包括：基于原始点云，获取三维目标的提议框，所述提议框用于表征所述三维目标的候选检测结果；基于所述提议框的属性信息确定所述提议框对应的点数阈值，并基于所述点数阈值在所述原始点云中获取所述提议框对应的关键点；基于所述关键点的逐点特征和所述提议框的提议框标识，获取所述提议框的提议框特征；基于所述提议框特征，获取所述三维目标的目标检测结果。本公开可以提高三维目标检测的精准度。

Description

三维目标检测及模型训练方法、装置、设备和车辆

技术领域

本公开涉及人工智能技术领域，具体涉及自动驾驶、目标检测等技术领域，尤其涉及一种三维目标检测及模型训练方法、装置、设备和车辆。

背景技术

自动驾驶车辆又称无人驾驶车辆、电脑驾驶车辆或轮式移动机器人，是一种通过电脑系统实现无人驾驶的智能车辆。

基于点云的三维(3D)目标检测是自动驾驶车辆的重要功能模块，基于三维目标检测可以及时准确地发现障碍物。

发明内容

本公开提供了一种三维目标检测及模型训练方法、装置和车辆。

根据本公开的一方面，提供了一种三维目标检测方法，包括：基于原始点云，获取三维目标的提议框，所述提议框用于表征所述三维目标的候选检测结果；基于所述提议框的属性信息确定所述提议框对应的点数阈值，并基于所述点数阈值在所述原始点云中获取所述提议框对应的关键点；基于所述关键点的逐点特征和所述提议框的提议框标识，获取所述提议框的提议框特征；基于所述提议框特征，获取所述三维目标的目标检测结果。

根据本公开的另一方面，提供了一种三维目标检测模型训练方法，所述三维目标检测模型包括：第一检测模型和第二检测模型，所述方法包括：采用所述第一检测模型，基于原始点云样本，获取三维目标样本的样本提议框，所述样本提议框用于表征所述三维目标样本的候选检测结果；采用所述第二检测模型，基于所述样本提议框的属性信息确定所述样本提议框对应的样本点数阈值，并基于所述样本点数阈值，在所述原始点云样本中获取所述样本提议框对应的样本关键点；采用所述第二检测模型，基于所述样本关键点的逐点特征和所述样本提议框的提议框标识，获取所述样本提议框的样本提议框特征；采用所述第二检测模型，基于所述样本提议框特征，获取所述三维目标样本的预测检测结果；基于所述预测检测结果和所述三维目标样本的真实检测结果，构建损失函数；基于所述损失函数，调整所述第一检测模型的模型参数和所述第二检测模型的模型参数。

根据本公开的另一方面，提供了一种三维目标检测装置，包括：第一获取模块，用于基于原始点云，获取三维目标的提议框，所述提议框用于表征所述三维目标的候选检测结果；第二获取模块，用于基于所述提议框的属性信息确定所述提议框对应的点数阈值，并基于所述点数阈值在所述原始点云中获取所述提议框对应的关键点；第三获取模块，用于基于所述关键点的逐点特征和所述提议框的提议框标识，获取所述提议框的提议框特征；第四获取模块，用于基于所述提议框特征，获取所述三维目标的目标检测结果。

根据本公开的另一方面，提供了一种三维目标检测模型训练装置，所述三维目标检测模型包括：第一检测模型和第二检测模型，所述装置包括：第一获取模块，用于采用所述第一检测模型，基于原始点云样本，获取三维目标样本的样本提议框，所述样本提议框用于表征所述三维目标样本的候选检测结果；第二获取模块，用于采用所述第二检测模型，基于所述样本提议框的属性信息确定所述样本提议框对应的样本点数阈值，并基于所述样本点数阈值，在所述原始点云样本中获取所述样本提议框对应的样本关键点；第三获取模块，用于采用所述第二检测模型，基于所述样本关键点的逐点特征和所述样本提议框的提议框标识，获取所述样本提议框的样本提议框特征；第四获取模块，用于采用所述第二检测模型，基于所述样本提议框特征，获取所述三维目标样本的预测检测结果；构建模块，用于基于所述预测检测结果和所述三维目标样本的真实检测结果，构建损失函数；调整模块，用于基于所述损失函数，调整所述第一检测模型的模型参数和所述第二检测模型的模型参数。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种车辆，包括上述任一方面的任一项所述的电子设备。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是用来实现本公开实施例的应用场景的示意图；

图3是根据本公开实施例提供的两阶段的3D目标检测过程的示意图；

图4是根据本公开实施例提供的第二阶段的检测模型的示意图；

图5是根据本公开第二实施例的示意图；

图6是根据本公开实施例提供的将提议框划分为网格的示意图；

图7是根据本公开实施例提供的针对当前点和当前提议框的处理流程示意图；

图8是根据本公开实施例提供的动态主干网的示意图；

图9是根据本公开实施例提供的动态编码层的示意图；

图10是根据本公开实施例提供的解耦检测头的示意图；

图11是根据本公开第三实施例的示意图；

图12是根据本公开第四实施例的示意图；

图13是根据本公开第五实施例的示意图；

图14是根据本公开第六实施例的示意图；

图15是用来实现本公开实施例的三维目标检测方法或三维目标检测模型训练方法的电子设备的示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

相关技术中，存在一些基于点云的3D目标检测方案，但都存在一定问题。例如，可以对点云进行体素化或栅格化，将点云转换为规整的张量，进而对该张量进行处理得到目标检测结果。但是，由于体素化或栅格化会带来量化误差，损失了原始几何信息，会严重降低模型性能。尤其在自动驾驶场景中会面临水雾误检，绿植误检以及点云膨胀导致的道钉等误检，从可视化来看，水雾，绿植以及点云膨胀的道钉与常规的行人以及机动车目标的原始点云存在明显的几何差异。为了利用几何信息，可以利用自定义算子进行点云分组和最远点采样，再采用基于点的神经网络实现逐点的特征提取，但是这些自定义算子计算复杂度高，效率较低，这对于实时性要求很高的自动驾驶场景来说难以应用，而且这些方法通常会采样固定个数的关键点，这不利于大型目标的检测。

为了提高三维目标检测效果，本公开提供如下实施例。

图1是根据本公开第一实施例的示意图，本实施例提供一种三维目标检测方法，该方法包括：

101、基于原始点云，获取三维目标的提议框，所述提议框用于表征所述三维目标的候选检测结果。

102、基于所述提议框的属性信息确定所述提议框对应的点数阈值，并基于所述点数阈值，在所述原始点云中获取所述提议框对应的关键点。

103、基于所述关键点的逐点特征和所述提议框的提议框标识，获取所述提议框的提议框特征。

104、基于所述提议框特征，获取所述三维目标的目标检测结果。

其中，原始点云，可以是由车辆(如，自动驾驶车辆)的激光雷达(Lidar)或深度摄像头等传感器采集的，其代表了周围环境中的三维目标(或称为障碍物)的表面形状和位置信息，可以用于识别三维目标。

提议框(proposal)，用于表征三维目标的候选检测结果，具体可以包括三维目标的类别信息、中心点位置信息、尺寸信息、朝向信息等。提议框的数量可以为一个或多个，通常为多个。

三维目标的最终检测结果可以称为目标检测结果，目标检测结果可以基于候选检测结果确定。

可以采用各种相关技术获取提议框，例如，可以将原始点云输入到PointPillars模型，或者CenterPoint模型中，经过模型处理后得到提议框。PointPillars和CenterPoint均是基于点云的目标检测算法。以PointPillars算法为例，将原始点云输入到PointPillars模型中后，PointPillars模型输出三维(3D)目标的提议框。

提议框的属性信息，可以包括提议框的类别信息和/或尺寸信息。经过上述的目标检测模型(如PointPillars模型)处理后，可以获得提议框的属性信息，如类别信息和/或尺寸信息。另外，还可以预先配置属性信息与点数阈值的对应关系，基于该对应关系以及获取的提议框的属性信息，可以确定提议框对应的点数阈值。一般来讲，尺寸越大的目标对应的点数阈值越大。

获取提议框后，还可以获取每个提议框对应的关键点，关键点的数量小于或等于点数阈值。例如，针对提议框A，其点数阈值是第一数量，则提议框A对应的关键点的点数不大于第一数量。

获取每个提议框对应的关键点后，可以获取每个关键点的逐点特征。逐点特征可以基于关键点的原始坐标、关键点的点特征和关键点的局部坐标获得。关键点的原始坐标，是指关键点在原始点云中的坐标；在采用模型(如PointPillars模型)对原始点云进行处理得到提议框时，还可以获取原始点云中每个点的点特征，从而可以在这些点的点特征中获取关键点的点特征；获取提议框后，可以以提议框的中心点作为坐标原点建立局部坐标系，局部坐标是关键点在该局部坐标系内的局部坐标。获取关键点的原始坐标、点特征和局部坐标后，可以将这三种特征进行拼接后，得到关键点的逐点特征。

获取提议框后，还可以为提议框分配标识(id)，不同提议框具有不同的提议框id。

之后，可以基于提议框id，以及关键点的逐点特征获取各个提议框的提议框特征，进而基于提议框特征获取3D目标的目标检测结果。

本实施例中，基于原始点云获取提议框，由于是基于原始点云的处理，并未体素化或栅格化处理，相对于体素化或栅格化的方式，可以考虑到目标的几何信息，提升目标检测的精准度；另外，基于提议框标识和关键点的逐点特征获取提议框特征，不需要引入复杂的自定义算子，可以降低实现复杂度，提高目标检测效率；并且，基于提议框的属性信息确定点数阈值，可以兼顾不同尺寸的目标，进一步提高目标检测精准度。

为了更好地理解本公开实施例，对本公开实施例的应用场景进行说明。本实施例以自动驾驶场景为例。

图2是用来实现本公开实施例的应用场景的示意图。如图2所示，自动驾驶车辆201在行驶过程中可以与服务器202进行通信。服务器可以是车企本地服务器或云端服务器，可以是单一服务器或服务器集群。自动驾驶车辆可以通过移动通信网络和/或卫星通信网络与服务器进行通信。

针对3D目标检测，自动驾驶车辆201在行驶过程中，可以利用激光雷达或深度摄像头等传感器采集点云(该点云可以称为原始点云)，并将采集的点云发送至服务器，服务器预先配置有3D目标检测模型，采用该模型对输入的原始点云进行处理，得到目标检测结果。上述以服务器进行3D目标检测为例，可以理解的是，如果自动驾驶车辆具有相关能力，也可以由自动驾驶车辆离线进行3D目标检测。

在具体实现上，可以采用两阶段的检测方式，如图3所示，在第一阶段，采用第一阶段的检测模型(该模型可以称为第一检测模型)301对原始点云进行处理，以确定3D目标的提议框和原始点云中点的点特征；在第二阶段，采用第二阶段的检测模型(该模型可以称为第二检测模型)302对输入信息进行处理，得到3D目标的目标检测结果。第二阶段的输入信息包括：第一阶段得到的提议框和点特征，原始点云中点的坐标(表示为点的原始坐标)，原始点云数据中会记录其中点的坐标，因此可以从原始点云数据中获取点的原始坐标。

第一检测模型可以采用基于点云的目标检测模型，如PointPillars模型，或者CenterPoint模型等，基于这些模型可以获取3D目标的提议框以及原始点云中点的点特征。

相关技术中，针对每个提议框采集固定点数的关键点，但是，由于目标大小不一，这种固定点数的方式无法兼顾尺寸不同的目标，影响目标检测效果。

为此，本实施例中，基于提议框的属性信息确定点数阈值，这样可以根据提议框对应目标的尺寸不同而采用不同的点数阈值，从而兼顾尺寸不同的目标。

相关技术中，可以采用自定义算子对点进行分组，但是这种方式实现复杂，效率差。

为此，本实施例中，可以为不同提议框分配不同的提议框id，在确定点属于的提议框后，还可以获取该点所在提议框的提议框id，基于提议框id对点进行分组，如可以将同一个提议框id对应的点作为一个分组的点，进而对同一个分组内的点(即同一个提议框对应的关键点)进行后续处理，如最大池化处理。

相关技术中，3D目标的类别信息及其置信度，通常是采用同一分支获取的，即类别信息和置信度是不解耦的，这样目标检测效果不佳。

为此，本实施例中，针对类别信息和置信度进行解耦处理，具体可以采用两个不同分支分别获取类别信息和置信度，从而提高目标检测效果。

基于上述构思，本实施例主要对第二检测模型进行改进，如图4所示，第二检测模型包括：动态网格点云池化层，动态主干网络和解耦检测头。

动态网格点云池化层，主要为第一检测模型得到的各个提议框分配提议框id，获取各个提议框对应的关键点，以及获取这些关键点的逐点特征。

动态主干网络，主要根据各个提议框id，以及各个提议框对应的关键点的逐点特征，获取各个提议框的提议框特征。

解耦检测头，主要根据各个提议框的提议框特征获得目标检测结果。

结合上述的应用场景，本公开还提供一种三维目标检测方法。

图5是根据本公开第二实施例的示意图，本实施例提供一种三维目标检测方法，该方法包括：

501、基于原始点云，获取三维目标的提议框和所述原始点云中点的点特征，所述提议框用于表征所述三维目标的候选检测结果。

其中，结合图3，可以将原始点云输入到第一检测模型(如PointPillars模型)中，第一检测模型可以输出3D目标的提议框和原始点云中点的点特征。

502、基于所述提议框的属性信息确定所述提议框对应的点数阈值，并基于所述点数阈值在所述原始点云中获取所述提议框对应的关键点。

其中，结合图4，可以由第二检测模型中的动态网格点云池化层，确定上述的点数阈值，以及获取提议框对应的关键点，另外，动态网格点云池化层还可以为各个提议框分配提议框id。

针对点数阈值：可以预先配置提议框的属性信息与点数阈值的对应关系，第一检测模型输出提议框时，具体是输出提议框信息，该提议框信息中包括提议框的属性信息，因此，基于第一检测模型输出的提议框的属性信息，以及该预先配置的对应关系，可以确定提议框对应的点数阈值。

针对提议框对应的关键点：可以在所述原始点云中，选择位于所述提议框内，且数量小于或等于所述点数阈值的点，作为所述关键点。

具体地，第一检测模型输出的提议框信息中包括提议框的区域信息(如中心点的位置坐标，以及长宽高这些尺寸信息)，针对某一提议框，可以根据原始点云中点的原始坐标以及该提议框的区域信息，判断该点是否位于该提议框内。之后，将位于该提议框内，且数量不超过对应点数阈值的点，作为该提议框对应的关键点。

本实施例中，通过选择位于所述提议框内，且数量小于或等于对应点数阈值的点，作为提议框对应的关键点，可以准确地获取关键点，且关键点的数量不超过对应阈值，这样可以选择数量合理且准确的关键点，提高处理精准度。

进一步地，针对所述原始点云中的当前点，可以执行：若所述当前点位于所述提议框内，确定所述当前点所属的所述提议框内的当前网格；若属于所述当前网格的点的数量小于或等于预设阈值，且属于所述提议框的点的数量小于或等于所述点数阈值，将所述当前点作为所述关键点；所述预设阈值小于所述点数阈值。

其中，可以将原始点云中每个点分别作为当前点，依次判断每个点是否作为某个提议框对应的关键点。例如，原始点云中包括点A、点B和点C，针对提议框X，则可以分别判断点A是否作为该提议框X对应的关键点，点B是否作为该提议框X对应的关键点，点C是否作为该提议框X对应的关键点。

本实施例中，不仅考虑每个提议框对应的点数阈值，还考虑提议框内每个网格对应的点数阈值，这样可以保证关键点均匀分布，提高目标检测效果。

例如，如图6所示，针对某个提议框X，可以将其分为多个网格，图6中以分为15个网格(分别用编号0～14表示)为例，针对当前点，可以基于该当前点的原始坐标以及各个网格的区域信息，确定当前点所在的当前网格，假设当前点是点A，假设其所在的当前网格是编号6的网格，若该编号6的网格内的点的数量不超过该网格对应的预设阈值，且属于该提议框X的点的数量不超过该提议框对应的点数阈值，则将该点A作为该提议框X对应的关键点；其中，每个网格对应的预设阈值小于该网格所在的提议框对应的点数阈值。进一步地，同一个提议框内的全部网格对应的预设阈值之和可以等于该提议框对应的点数阈值。另外，由于点A属于该提议框X内的该编号6的网格，则将属于该编号6的网格的点的数量增加1，以及，属于该提议框X的点的数量增加1；每个网格内点的数量的初始值以及每个提议框内点的数量的初始值均可以设置为0，这样后续针对新的当前点(如点B)，可以重新判断属于某个网格的点的数量是否超出对应网格的预设阈值，以及，属于某个提议框的点的数量是否超过对应的点数阈值。

本实施例中，基于提议框的属性信息确定点数阈值，可以兼顾不同尺寸的目标(如锥桶，行人，机动车，大型公交车等)，此外，针对大型目标(如大型公交车)，为了防止关键点无法满足覆盖全面性的要求，限定了网格的点数，通过将不超过网格对应的预设阈值的点作为关键点，可以使得采样的关键点尽可能的覆盖提议框的各个部分，这样可以显著提升目标检测性能。

503、获取所述关键点的逐点特征，以及所述提议框的提议框id。

其中，结合图4，可以由第二检测模型中的动态网格点云池化层，为各个提议框分配提议框id，以及获取该逐点特征。

针对逐点特征：可以获取关键点在原始点云中的原始坐标，以及基于第一检测模型得到的原始点云中点的点特征，获取关键点的点特征；另外，还可以获取关键点的局部坐标；之后，将关键点的原始坐标、点特征和局部坐标进行拼接后，得到该关键点的逐点特征。

本实施例中，通过对所述关键点的点特征、所述局部坐标和所述原始坐标进行拼接处理，以获得所述关键点的逐点特征，可以获取包含多种信息的逐点特征，可以提升目标检测的精准度。

其中，局部坐标具体可以是：关键点在对应的提议框所在的局部坐标系下的局部坐标。

具体地，针对某个提议框X，可以以其中心点建立局部坐标系，假设点A属于该提议框X，可以获得点A在该局部坐标系下的局部坐标，例如，将点A在原始点云中的原始坐标与该提议框X的中心点的坐标的差值，作为局部坐标，将该局部坐标作为该点A的局部坐标。

结合502～503，针对当前点和当前提议框(如提议框X)的处理流程可以如图7所示。

如图7所示，假设当前点用点A表示，当前提议框用提议框X表示，可以执行：

701、基于点A的原始坐标，以及提议框X的区域信息，判断点A是否位于提议框X内，若是执行702，否则执行707。

702、确定点A所属的提议框X内的当前网格。

其中，可以基于预设的切分规则(如均匀切分)将提议框X分为多个网格，基于切分规则和提议框X的区域信息可以获得每个网格的区域信息，基于点A的原始坐标和每个网格的区域信息，可以确定点A所属的提议框内的当前网格。

703、判断属于该当前网格的点的数量是否小于预设阈值，若是执行704，否则执行707。

704、判断位于该提议框X内的点的数量是否小于提议框X对应的点数阈值，若是执行705，否则执行707。

705、将点A作为提议框X对应的关键点。

706、获取点A在提议框X内的局部坐标。

之后，将属于该当前网格的点的数量增加1，以及，将位于该提议框X内的点的数量增加1。其中，属于每个网格的点的数据，以及，位于每个提议框内点的数量的初始值均可以预设为0。另外，还可以选择原始点云中的下一个点作为新的当前点，重新执行701及其后续步骤，直至原始点云中全部点均被处理。

707、确定点A不属于提议框X对应的关键点。

基于图7所示的流程，可以获取各个提议框对应的关键点，以及关键点的局部坐标。

之后，可以对关键点的原始坐标、点特征和局部坐标进行拼接后，得到关键点的逐点特征。

504、基于所述关键点的逐点特征和所述提议框的提议框标识，获取所述提议框的提议框特征。

结合图4，可以由第二检测模型中的动态主干网络，基于关键点的逐点特征和提议框id，获取提议框特征。

具体可以包括：对所述关键点的逐点特征进行全连接处理，以获得处理后的逐点特征；基于所述提议框标识，对同一个提议框对应的关键点的处理后的逐点特征进行最大池化处理，以获得池化特征；对所述同一个提议框对应的关键点的处理后的逐点特征，以及所述池化特征进行拼接处理，以获得拼接特征；基于所述拼接特征获取所述提议框特征。

本实施例中，基于提议框标识确定同一个提议框对应的关键点，实现基于提议框标识对关键点进行分组，相对于自定义算子分组的方式，可以降低实现复杂度，提高处理效率。

如图8所示，动态主干网络可以包括至少一层的动态编码层，每个动态编码层的输入包括处理前的逐点特征和提议框id，输出是处理后的逐点特征，其中，第一个编码层输入的处理前的逐点特征是上述的动态网格点云池化层得到的拼接后的逐点特征，最后一个编码层输出的处理后的逐点特征作为提议框特征。

进一步地，如图9所示，针对每个动态编码层，包括全连接层和动态最大池化层。

全连接层，用于对输入的逐点特征进行全连接处理，得到处理后的逐点特征；

动态最大池化层，用于基于所述提议框标识，对同一个提议框对应的关键点的处理后的逐点特征进行最大池化处理，以获得池化特征；

之后，对所述同一个提议框对应的关键点的处理后的逐点特征，以及所述池化特征进行拼接处理，以获得拼接特征。

其中，每个动态编码层得到拼接特征后，可以输出该拼接特征。若某个动态编码层不是最后一个动态编码层，则该动态编码层输出的拼接特征作为下一个动态编码层输入的逐点特征，若该动态编码层是最后一个动态编码层，则该动态编码层输出的拼接特征作为提议框特征。

505、基于所述提议框特征，获取所述三维目标的目标检测结果。

结合图4，可以由第二检测模型中的解耦检测头，基于提议框特征获取目标检测结果。

具体地，所述目标检测结果包括：类别信息及其置信度，以及位姿信息；相应地，可以对所述提议框特征进行分类处理，以获得所述三维目标的所述类别信息及其置信度；以及，对所述提议框特征进行回归处理，以获得所述三维目标的所述位姿信息。

本实施例中，通过对提议框特征进行分类处理和回归处理，可以得到全面准确的目标检测结果。

针对分类处理，进一步地，可以采用第一分类支路，对所述提议框特征进行分类处理，以获得所述三维目标的所述类别信息；采用第二分类支路，对所述提议框特征进行分类处理，以获得所述三维目标的所述置信度；所述第一分类支路与所述第二分类支路不同。

本实施例中，通过不同的分类支路分别获得类别信息和置信度，可以对分类侧的两种信息(类别信息、置信度)进行解耦处理，这样可以提升模型的识别精确率和召回率以及分类性能，进而提高目标检测性能。

一些实施例中，所述分类处理是采用分类支路处理的，所述回归支路是采用回归支路处理的；所述分类支路和/或所述回归支路包括：全连接层。

本实施例中，采用全连接层进行分类和/或回归处理，可以简化模型结构，这样计算量小，易于部署，可以节省资源并提高处理效率。

针对解耦检测头：3D目标的位姿信息包括：中心位置信息、尺寸信息和朝向信息，如图10所示，解耦检测头包括多个全连接层，以通过全连接层获得3D目标的类别信息、置信度、中心位置信息、尺寸信息和朝向信息，且上述5种信息采用5个支路获得，这样解耦的结构可以提高目标检测性能。

图11是根据本公开第三实施例的示意图，本实施例提供一种三维目标检测模型训练方法，该三维目标检测模型包括：第一检测模型和第二检测模型，该方法包括：

1101、采用所述第一检测模型，基于原始点云样本，获取三维目标样本的样本提议框，所述样本提议框用于表征所述三维目标样本的候选检测结果。

1102、采用所述第二检测模块，基于所述样本提议框的属性信息确定所述样本提议框对应的样本点数阈值，并基于所述样本点数阈值，在所述原始点云样本中获取所述样本提议框对应的样本关键点。

1103、采用所述第二检测模块，基于所述样本关键点的逐点特征和所述样本提议框的提议框标识，获取所述样本提议框的样本提议框特征。

1104、采用所述第二检测模块，基于所述样本提议框特征，获取所述三维目标样本的预测检测结果。

1105、基于所述预测检测结果和所述三维目标样本的真实检测结果，构建损失函数。

1106、基于所述损失函数，调整所述第一检测模型的模型参数和所述第二检测模型的模型参数。

其中，本实施例中，模型训练阶段的模型结构与模型应用阶段(如上述的目标检测过程)的模型结构相同，因此，在训练阶段，关于模型内部的具体处理内容与模型应用阶段的相关内容是一致的，具体可以参见上述目标检测过程的说明。

本实施例中，基于原始点云样本获取提议框，由于是基于原始点云样本的处理，并未体素化或栅格化处理，相对于体素化或栅格化的方式，可以考虑到目标的几何信息，提升模型精准度，进而提升目标检测的精准度；另外，基于提议框标识和关键点的逐点特征获取提议框特征，不需要引入复杂的自定义算子，可以降低实现复杂度，简化模型结构，进而提升目标检测效率；并且，基于提议框的属性信息确定点数阈值，可以兼顾不同尺寸的目标，进一步提高模型精度，进而提升目标检测精准度。

进一步地，构建损失函数时，可以区分正负样本关键点对应的预测检测结果及其真实检测结果，例如，具体可以包括：基于正样本关键点对应的预测检测结果和真实检测结果，以及负样本关键点对应的预测检测结果和真实检测结果，构建损失函数。

相应地，可以区分关键点中的正样本关键点和负样本关键点。

相关技术中，正负样本通常是基于框交并比确定的。

而本实施例中，可以获取所述样本关键点所在的样本真值框；确定所述样本提议框与所述样本真值框之间的点交并比；基于所述点交并比，确定所述样本关键点是正样本关键点或者负样本关键点。

即，本实施例可以基于点交并比确定正负样本。

具体地，可以将上述的点交并比大于或等于预设值的样本关键点作为正样本关键点，否则作为负样本关键点。

其中，样本提议框是通过第一检测模型确定的；样本真值框是样本关键点对应的真实检测框，可以在已有数据集中获得或者通过人工标注等方式获得。

样本提议框与样本真值框的点交并比是指：样本提议框与样本真值框的交集点的数量，与样本提议框与样本真值框的并集点的数量的比值。例如，样本提议框对应的样本关键点包括第一点集和第二点集，样本真值框对应的样本关键点包括第二点集和第三点集，其中，第二点集是指样本提议框与样本真值框的交集点，假设第一点集内点的数量是第一数量，第二点集内点的数量是第二数量，第三点集内点的数量是第三数量，则对应的点交并比＝第二数量/(第一数量+第二数量+第三数量)。

本实施例中，基于点交并比确定正负样本关键点，有利于基于点的特征提取处理，这样可以提高样本提议框特征的精准度，进一步缓解了不同大小提议框包含相同的点导致的歧异性，进而提高模型和目标检测效果。

另外，结合图10所示的解耦检测头，不同信息可以采用不同的损失函数，例如，类别信息采用多分类的交叉熵损失函数；置信度采用二分类的交叉熵损失函数；中心位置信息、尺寸信息和朝向信息采用平滑L1(smooth L1)损失函数。

图12是根据本公开第四实施例的示意图，本实施例提供一种三维目标检测装置，该装置1200包括：第一获取模块1201、第二获取模块1202、第三获取模块1203和第四获取模块1204。

第一获取模块1201用于基于原始点云，获取三维目标的提议框，所述提议框用于表征所述三维目标的候选检测结果；第二获取模块1202用于基于所述提议框的属性信息确定所述提议框对应的点数阈值，并基于所述点数阈值在所述原始点云中获取所述提议框对应的关键点；第三获取模块1203用于基于所述关键点的逐点特征和所述提议框的提议框标识，获取所述提议框的提议框特征；第四获取模块1204用于基于所述提议框特征，获取所述三维目标的目标检测结果。

本实施例中，基于原始点云获取提议框，由于是基于原始点云的处理，相对于体素化或栅格化的方式，可以考虑到目标的几何信息，提升目标检测的精准度；另外，基于提议框标识和关键点的逐点特征获取提议框特征，不需要引入复杂的自定义算子，可以降低实现复杂度，提高目标检测效率；并且，基于提议框的属性信息确定点数阈值，可以兼顾不同尺寸的目标，进一步提高目标检测精准度。

一些实施例中，所述第二获取模块1202进一步用于：在所述原始点云中，选择位于所述提议框内，且数量小于或等于所述点数阈值的点，作为所述关键点。

一些实施例中，所述第二获取模块1202进一步用于：

针对所述原始点云中的当前点，执行：

若所述当前点位于所述提议框内，确定所述当前点所属的所述提议框内的当前网格；

若属于所述当前网格的点的数量小于或等于预设阈值，且属于所述提议框的点的数量小于或等于所述点数阈值，将所述当前点作为所述关键点；所述预设阈值小于所述点数阈值。

一些实施例中，该装置1200还包括：

第五获取模块，用于获取所述关键点的点特征；获取所述关键点在对应的提议框内的局部坐标；获取所述关键点在所述原始点云中的原始坐标；以及，对所述关键点的点特征、所述局部坐标和所述原始坐标进行拼接处理，以获得所述关键点的逐点特征。

一些实施例中，所述第三获取模块1203进一步用于：

对所述关键点的逐点特征进行全连接处理，以获得处理后的逐点特征；基于所述提议框标识，对同一个提议框对应的关键点的处理后的逐点特征进行最大池化处理，以获得池化特征；对所述同一个提议框对应的关键点的处理后的逐点特征，以及所述池化特征进行拼接处理，以获得拼接特征；基于所述拼接特征获取所述提议框特征。

一些实施例中，所述目标检测结果包括：类别信息及其置信度，以及位姿信息；所述第四获取模块1204进一步用于：对所述提议框特征进行分类处理，以获得所述三维目标的所述类别信息及其置信度；对所述提议框特征进行回归处理，以获得所述三维目标的所述位姿信息。

一些实施例中，所述第四获取模块1204进一步用于：

采用第一分类支路，对所述提议框特征进行分类处理，以获得所述三维目标的所述类别信息；

采用第二分类支路，对所述提议框特征进行分类处理，以获得所述三维目标的所述置信度；所述第一分类支路与所述第二分类支路不同。

一些实施例中，所述第四获取模块1204进一步用于：

采用分类支路进行分类处理的，采用回归支路进行回归处理；

所述分类支路和/或所述回归支路包括：全连接层。

图13是根据本公开第五实施例的示意图，本实施例提供一种三维目标检测模型训练装置，该三维目标检测模型包括：第一检测模型和第二检测模型，该装置1300包括：第一获取模块1301、第二获取模块1302、第三获取模块1303、第四获取模块1304、构建模块1305和调整模块1306。

第一获取模块1301用于采用所述第一检测模型，基于原始点云样本，获取三维目标样本的样本提议框，所述样本提议框用于表征所述三维目标样本的候选检测结果；第二获取模块1302用于采用所述第二检测模型，基于所述样本提议框的属性信息确定所述样本提议框对应的样本点数阈值，并基于所述样本点数阈值，在所述原始点云样本中获取所述样本提议框对应的样本关键点；第三获取模块1303用于采用所述第二检测模型，基于所述样本关键点的逐点特征和所述样本提议框的提议框标识，获取所述样本提议框的样本提议框特征；第四获取模块1304用于采用所述第二检测模型，基于所述样本提议框特征，获取所述三维目标样本的预测检测结果；构建模块1305用于基于所述预测检测结果和所述三维目标样本的真实检测结果，构建损失函数；调整模块1306用于基于所述损失函数，调整所述第一检测模型的模型参数和所述第二检测模型的模型参数。

本实施例中，基于原始点云样本获取提议框，由于是基于原始点云样本的处理，相对于体素化或栅格化的方式，可以考虑到目标的几何信息，提升模型精准度，进而提升目标检测的精准度；另外，基于提议框标识和关键点的逐点特征获取提议框特征，不需要引入复杂的自定义算子，可以降低实现复杂度，简化模型结构，进而提升目标检测效率；并且，基于提议框的属性信息确定点数阈值，可以兼顾不同尺寸的目标，进一步提高模型精度，进而提升目标检测精准度。

一些实施例中，所述样本关键点包括：正样本关键点和负样本关键点；

所述装置还包括：确定模块，用于获取所述样本关键点所在的样本真值框；确定所述样本提议框与所述样本真值框之间的点交并比；以及，基于所述点交并比，确定所述样本关键点是正样本关键点或者负样本关键点。

可以理解的是，本公开实施例中，不同实施例中的相同或相似内容可以相互参考。

可以理解的是，本公开实施例中的“第一”、“第二”等只是用于区分，不表示重要程度高低、时序先后等。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，如图14所示，本公开还提供了一种车辆1400，如自动驾驶车辆，该车辆1400包括电子设备1401。关于电子设备1401的说明可以参见后续实施例。具体地，该电子设备1401可以具体执行三维目标检测操作。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图15示出了可以用来实施本公开的实施例的示例电子设备1500的示意性框图。电子设备1500旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备1500还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图15所示，电子设备1500包括计算单元1501，其可以根据存储在只读存储器(ROM)1502中的计算机程序或者从存储单元1508加载到随机访问存储器(RAM)1503中的计算机程序，来执行各种适当的动作和处理。在RAM 1503中，还可存储电子设备1500操作所需的各种程序和数据。计算单元1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出(I/O)接口1505也连接至总线1504。

电子设备1500中的多个部件连接至I/O接口1505，包括：输入单元1506，例如键盘、鼠标等；输出单元1507，例如各种类型的显示器、扬声器等；存储单元1508，例如磁盘、光盘等；以及通信单元1509，例如网卡、调制解调器、无线通信收发机等。通信单元1509允许电子设备1500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1501执行上文所描述的各个方法和处理，例如三维目标检测方法或三维目标检测模型训练方法。例如，在一些实施例中，三维目标检测方法或三维目标检测模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1502和/或通信单元1509而被载入和/或安装到电子设备1500上。当计算机程序加载到RAM 1503并由计算单元1501执行时，可以执行上文描述的三维目标检测方法或三维目标检测模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行三维目标检测方法或三维目标检测模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程负载均衡装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种三维目标检测方法，包括：

基于原始点云，获取三维目标的提议框，所述提议框用于表征所述三维目标的候选检测结果；

基于所述提议框的属性信息确定所述提议框对应的点数阈值，并基于所述点数阈值在所述原始点云中获取所述提议框对应的关键点；

基于所述关键点的逐点特征和所述提议框的提议框标识，获取所述提议框的提议框特征；

基于所述提议框特征，获取所述三维目标的目标检测结果。

2.根据权利要求1所述的方法，其中，所述基于所述点数阈值，在所述原始点云中获取所述提议框对应的关键点，包括：

在所述原始点云中，选择位于所述提议框内，且数量小于或等于所述点数阈值的点，作为所述关键点。

3.根据权利要求2所述的方法，其中，所述在所述原始点云中，选择位于所述提议框内，且数量小于或等于所述点数阈值的点，作为所述关键点，包括：

针对所述原始点云中的当前点，执行：

4.根据权利要求1所述的方法，还包括：

获取所述关键点的点特征；

获取所述关键点在对应的提议框内的局部坐标；

获取所述关键点在所述原始点云中的原始坐标；

对所述关键点的点特征、所述局部坐标和所述原始坐标进行拼接处理，以获得所述关键点的逐点特征。

5.根据权利要求1所述的方法，其中，所述基于所述关键点的逐点特征和所述提议框的提议框标识，获取所述提议框的提议框特征，包括：

对所述关键点的逐点特征进行全连接处理，以获得处理后的逐点特征；

基于所述提议框标识，对同一个提议框对应的关键点的处理后的逐点特征进行最大池化处理，以获得池化特征；

对所述同一个提议框对应的关键点的处理后的逐点特征，以及所述池化特征进行拼接处理，以获得拼接特征；

基于所述拼接特征获取所述提议框特征。

6.根据权利要求1所述的方法，其中，

所述目标检测结果包括：类别信息及其置信度，以及位姿信息；

所述基于所述提议框特征，获取所述三维目标的目标检测结果，包括：

对所述提议框特征进行分类处理，以获得所述三维目标的所述类别信息及其置信度；

对所述提议框特征进行回归处理，以获得所述三维目标的所述位姿信息。

7.根据权利要求6所述的方法，其中，所述对所述提议框特征进行分类处理，以获得所述三维目标的所述类别信息及其置信度，包括：

8.根据权利要求6所述的方法，其中，

所述分类处理是采用分类支路处理的，所述回归处理是采用回归支路处理的；

所述分类支路和/或所述回归支路包括：全连接层。

9.一种三维目标检测模型训练方法，所述三维目标检测模型包括：第一检测模型和第二检测模型，所述方法包括：

采用所述第一检测模型，基于原始点云样本，获取三维目标样本的样本提议框，所述样本提议框用于表征所述三维目标样本的候选检测结果；

采用所述第二检测模型，基于所述样本提议框的属性信息确定所述样本提议框对应的样本点数阈值，并基于所述样本点数阈值，在所述原始点云样本中获取所述样本提议框对应的样本关键点；

采用所述第二检测模型，基于所述样本关键点的逐点特征和所述样本提议框的提议框标识，获取所述样本提议框的样本提议框特征；

采用所述第二检测模型，基于所述样本提议框特征，获取所述三维目标样本的预测检测结果；

基于所述预测检测结果和所述三维目标样本的真实检测结果，构建损失函数；

基于所述损失函数，调整所述第一检测模型的模型参数和所述第二检测模型的模型参数。

10.根据权利要求9所述的方法，其中，

所述样本关键点包括：正样本关键点和负样本关键点；

所述方法还包括：

获取所述样本关键点所在的样本真值框；

确定所述样本提议框与所述样本真值框之间的点交并比；

基于所述点交并比，确定所述样本关键点是正样本关键点或者负样本关键点。

11.一种三维目标检测装置，包括：

第一获取模块，用于基于原始点云，获取三维目标的提议框，所述提议框用于表征所述三维目标的候选检测结果；

第二获取模块，用于基于所述提议框的属性信息确定所述提议框对应的点数阈值，并基于所述点数阈值在所述原始点云中获取所述提议框对应的关键点；

第三获取模块，用于基于所述关键点的逐点特征和所述提议框的提议框标识，获取所述提议框的提议框特征；

第四获取模块，用于基于所述提议框特征，获取所述三维目标的目标检测结果。

12.根据权利要求11所述的装置，其中，所述第二获取模块进一步用于：

13.根据权利要求12所述的装置，其中，所述第二获取模块进一步用于：

针对所述原始点云中的当前点，执行：

14.根据权利要求11所述的装置，还包括：

15.根据权利要求11所述的装置，其中，所述第三获取模块进一步用于：

基于所述拼接特征获取所述提议框特征。

16.根据权利要求11所述的装置，其中，

所述第四获取模块进一步用于：

17.根据权利要求16所述的装置，其中，所述第四获取模块进一步用于：

18.根据权利要求16所述的装置，其中，所述第四获取模块进一步用于：

所述分类支路和/或所述回归支路包括：全连接层。

19.一种三维目标检测模型训练装置，所述三维目标检测模型包括：第一检测模型和第二检测模型，所述装置包括：

第一获取模块，用于采用所述第一检测模型，基于原始点云样本，获取三维目标样本的样本提议框，所述样本提议框用于表征所述三维目标样本的候选检测结果；

第二获取模块，用于采用所述第二检测模型，基于所述样本提议框的属性信息确定所述样本提议框对应的样本点数阈值，并基于所述样本点数阈值，在所述原始点云样本中获取所述样本提议框对应的样本关键点；

第三获取模块，用于采用所述第二检测模型，基于所述样本关键点的逐点特征和所述样本提议框的提议框标识，获取所述样本提议框的样本提议框特征；

第四获取模块，用于采用所述第二检测模型，基于所述样本提议框特征，获取所述三维目标样本的预测检测结果；

构建模块，用于基于所述预测检测结果和所述三维目标样本的真实检测结果，构建损失函数；

调整模块，用于基于所述损失函数，调整所述第一检测模型的模型参数和所述第二检测模型的模型参数。

20.根据权利要求19所述的装置，其中，

所述样本关键点包括：正样本关键点和负样本关键点；

所述装置还包括：

确定模块，用于获取所述样本关键点所在的真值框；确定所述样本提议框与所述真值框之间的点交并比；以及，基于所述点交并比，确定所述样本关键点是正样本关键点或者负样本关键点。

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。

24.一种车辆，包括：如权利要求21所述的电子设备。