CN113658100A

CN113658100A - 三维目标物体检测方法、装置、电子设备及存储介质

Info

Publication number: CN113658100A
Application number: CN202110807099.6A
Authority: CN
Inventors: 张明; 张泽瀚; 梁志栋
Original assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Current assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2021-11-16
Anticipated expiration: 2041-07-16
Also published as: CN113658100B

Abstract

本发明提供一种三维目标物体检测方法、装置、电子设备及存储介质，属于点云数据处理技术领域，所述方法包括：获取与至少一个三维目标物体相关联的三维点云数据；对三维点云数据进行特征提取以得到原始特征数据，并对三维点云数据进行位置编码以得到位置编码信息；将位置编码信息和所述原始特征数据相融合以得到点云特征，并将点云特征输入基于自注意力机制的神经网络模型以获得其输出的第一特征数据；将第一特征数据输入前馈神经网络模型以获得其输出的第二特征数据，第二特征数据指示检测出的所述至少一个三维目标物体的属性信息。本发明所公开的三维目标检测方法、装置、存储介质及电子设备实现简便同时具有良好的检测性能。

Description

三维目标物体检测方法、装置、电子设备及存储介质

技术领域

本发明涉及点云数据处理技术领域，尤其涉及一种三维目标物体检测方法、装置、电子设备及存储介质。

背景技术

随着三维数据采集技术的发展，通过三维传感器采集到的三维数据可以提供丰富的几何、形状和比例信息。三维数据通常使用不同的格式来表示，例如，激光雷达输出的点云数据保留了目标物体在三维空间的原始几何信息及位置信息，不需要任何离散处理，因此点云数据是首选的三维数据表示格式。

在目前的三维物体检测方法中，现有技术一般是采用纯点云鸟瞰图(BEV)的方法，即基于点云数据生成鸟瞰图BEV，然后在BEV的基础上通过特征提取的方式对目标物体进行检测。然而，上述现有技术方案存在以下问题：

(1)基于点云数据生成BEV会有数据损失，导致检测性能降低；

(2)没有考虑点云数据的原始特性，如旋转不变性、无序性等；

(3)需要预先设置anchor(即候选框)，这导致后续处理耗时严重，并且影响多类别的检测性能。

发明内容

本发明提供一种三维目标物体检测方法、装置、电子设备及存储介质，用以解决现有技术中采用纯点云鸟瞰图方法存在的问题，其实现了三维目标物体检测的简便实施并且具有良好的检测性能。

本发明提供了一种三维目标物体检测方法，包括：

获取与至少一个三维目标物体相关联的三维点云数据；

对所述三维点云数据进行特征提取以得到原始特征数据，并对所述三维点云数据进行位置编码以得到位置编码信息；

将所述位置编码信息和所述原始特征数据相融合以得到点云特征，并将所述点云特征输入基于自注意力机制的神经网络模型以获得其输出的第一特征数据，所述第一特征数据用于表示与所述点云数据对应的目标物体的特征；

将所述第一特征数据输入前馈神经网络模型以获得其输出的第二特征数据，所述第二特征数据指示检测出的所述至少一个三维目标物体的属性信息。

示例性地，在本发明所述的三维目标物体检测方法中，所述三维点云数据是激光雷达输出的点云数据，并且所述三维目标物体的属性信息至少包括所述三维目标物体的空间大小以及位置信息。

示例性地，在本发明所述的三维目标物体检测方法中，所述对所述三维点云数据进行特征提取以得到原始特征数据的步骤包括：

将所述三维点云数据的全集作为初始输入的特征点集执行多级特征提取操作，并将最后一级特征提取操作输出的特征点集作为所述原始特征数据，其中，上一级特征提取操作输出的特征点集是下一级特征提取操作的输入，每级特征提取操作包括：

从输入的特征点集的全集中选择多个点，每个所述点定义了该点所在的局部区域的质心；

针对每个所述质心，基于该质心附近的相邻点构建局部区域点集；

将每个所述局部区域点集进行编码，得到与每个局部区域点集对应的特征点，所有所述特征点构成输出的特征点集。

示例性地，在本发明所述的三维目标物体检测方法中，所述从输入的特征点集的全集中选择多个点的步骤包括：

通过使用迭代最远点采样算法从输入的特征点集的全集{x₁,x₂,...,x_n}中选择一组子集

其中，

是距集合

最远的点。

示例性地，在根据本发明所述的三维目标物体检测方法中，所述针对每个所述质心，基于该质心附近的相邻点构建局部区域点集的步骤包括：

基于输入的大小为N×(d+C)的所述特征点集与大小为N'×d的质心集，得到N'×K×(d+C)个特征点，所述特征点构成N'个局部区域点集；

其中，N表示点云数据的数量，N'表示局部区域个数，C表示特征维度，d表示坐标维度，每个局部区域点集对应一个局部区域，K表示每个质心点的相邻点的点数。

示例性地，在本发明所述的三维目标物体检测方法中，所述将每个所述局部区域点集进行编码，得到与每个局部区域点集对应的特征点的步骤包括：

基于输入的包含N'×K×(d+C)个特征点的N'个局部区域点集并通过对每个局部区域点集所包含的质心和质心的相邻点进行编码以抽象出该局部区域点集指示的局部区域的局部特征，得到包含N'×(d+C')个特征点的输出特征点集；

其中，N'表示局部区域个数，K表示每个质心点的相邻点的点数，d表示坐标维度，C表示特征维度，C'表示新的局部特征维度，C'>C。

示例性地，在本发明所述的三维目标物体检测方法中，所述对所述三维点云数据进行位置编码以得到位置编码信息的步骤包括：

获取预设的关键点的坐标；

将所述三维点云数据的每个点的位置坐标减去所述预设的关键点的坐标，得到所述三维点云数据的每个点的相对坐标；

基于所述相对坐标，生成所述位置编码信息。

示例性地，在本发明所述的三维目标物体检测方法中，所述将所述位置编码信息和所述原始特征数据相融合以得到点云特征的步骤包括：

将所述三维点云数据的每个点的坐标映射到所述原始特征数据的特征维度上；

通过前馈全连接神经网络将生成的所述位置编码信息添加至所述原始特征数据，以得到所述点云特征。

示例性地，在本发明所述的三维目标物体检测方法中，所述将所述点云特征输入基于自注意力机制的神经网络模型以获得其输出的第一特征数据的步骤包括：

将所述点云特征输入至所述基于自注意力机制的神经网络模型的编码器的多头自注意力层，并由所述多头自注意力层中设置的多头自注意力函数进行处理，以得到自注意力特征；

将所述自注意力特征输入至所述基于自注意力机制的神经网络模型的解码器进行解码以输出所述第一特征数据；

其中，所述基于自注意力机制的神经网络模型包括编码器和解码器，所述编码器包括多个编码器层，每个编码器层包括第一子层和第二子层，每个所述第一子层为多头自注意力层，每个所述第二子层为前馈全连接神经网络，每个编码层并行编码所述点云特征。

示例性地，在本发明所述的三维目标物体检测方法中，所述将所述点云特征输入基于自注意力机制的神经网络模型以获得其输出的第一特征数据的步骤还包括：

所述基于自注意力机制的神经网络模型的解码器的多头注意力层接收所述自注意力特征和所述位置编码信息；以及

基于所述自注意力特征以及所述位置编码信息对所述自注意力特征进行解码以输出所述第一特征数据；

其中，所述解码器包括多个解码器层，每个解码器层包括第一子层、第二子层以及第三子层，所述第一子层为多头自注意力层，所述第二子层为多头注意力层，所述第三子层为前馈全连接神经网络，每个解码层并行解码所述自注意力特征。

示例性地，在本发明所述的三维目标物体检测方法中，所述将所述第一特征数据输入前馈神经网络模型以获得其输出的第二特征数据的步骤包括：

根据输入的所述第一特征数据，经由所述前馈神经网络模型确定与所述第一特征数据相关联的预测框的中心坐标、长、宽、高和角度参数；

基于所述预测框的中心坐标、长、宽、高和角度参数，使用预设函数确定与所述预测框相关联的三维目标物体的类别标签，并输出每个预测框的大小、位置及类别标签；

其中，所述每个预测框的大小、位置及类别标签构成所述第二特征数据，并且所述类别标签包括表示未检测到任何三维目标物体的特殊类别标签。

示例性地，本发明所述的三维目标物体检测方法还包括：在所述基于自注意力机制的神经网络模型和所述前馈神经网络模型实施三维目标物体检测之前使用已知的三维目标物体的三维点云数据训练所述第一神经网络模型和所述第二神经网络模型。

示例性地，本发明所述的三维目标物体检测方法还包括：

在所述基于自注意力机制的神经网络模型的解码器的多头注意力层接收所述自注意力特征和所述位置编码信息之前，所述基于自注意力机制的神经网络模型的解码器的多头自注意力接收输入的预设目标参数，所述预设目标参数用于限制输出所述第二特征数据的数量。

本发明还提供了一种三维目标物体检测装置，包括：

特征提取与位置编码模块，用于获取与至少一个三维目标物体相关联的三维点云数据，随之对所述三维点云数据进行特征提取以得到原始特征数据，并对所述三维点云数据进行位置编码以得到位置编码信息，以及将所述位置编码信息和所述原始特征数据相融合以得到点云特征；

第一处理模块，用于将所述点云特征输入基于自注意力机制的神经网络模型以获得其输出的第一特征数据，所述第一特征数据用于表示与所述点云数据对应的目标物体的特征；

第二处理模块，用于将所述第一特征数据输入前馈神经网络模型以获得其输出的第二特征数据，所述第二特征数据指示检测出的所述至少一个三维目标物体的属性信息。

本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种三维目标物体检测方法的步骤。

本发明还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种三维目标物体检测方法的步骤。

本发明提供的三维目标物体检测方法、装置、电子设备及存储介质，通过点云特征网络处理点云，考虑了点云的位置信息，通过引入的自注意力网络对点云特征进行编码和解码，最后通过前馈神经网络(FFN)输出每个目标物体的位置与类别的检测信息以确定最终的预测目标，避免了anchor(候选框)的设计，并且本发明所述的三维目标物体检测方法、装置、电子设备及存储介质实现简便同时具有良好的检测性能。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的三维目标物体检测方法的流程示意图；

图2是本发明提供的对点云进行特征提取的流程示意图；

图3是本发明所提出的特征提取方法的原理示意图；

图4是本发明提供的对点云进行位置编码的流程示意图；

图5是本发明提供的对点云特征进行编码的流程示意图；

图6是本发明提供的对点云特征进行解码的流程示意图；

图7是本发明提供的自注意力网络的结构示意图；

图8是本发明提供的多头自注意力机制的结构示意图；

图9是本发明提供的将第一特征数据输入第二神经网络模型以获得第二特征数据的步骤的流程示意图；

图10是本发明提供的三维目标物体检测装置的结构示意图；

图11是本发明提供的一示例的三维目标物体检测架构的示意图；

图12是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。

现有技术的三维目标物体检测方法是基于纯点云BEV(鸟瞰图)的方法，比如VoxelNet(体素3D检测网络)、SECOND(采用稀疏卷积的体素3D检测网络)、PointPillars(只进行2D网格划分的体素3D检测网络)等，这些方法均是采用将点云生成鸟瞰图BEV的形式，再在BEV的表示形式下设计深度学习网络，最后对目标进行检测或预测。

为了解决现有技术由于采用纯点云鸟瞰图方法而存在的数据损失、检测性能较低以及没有考虑点云的原始特征(如旋转不变性、无序性)等问题，本发明提供了一种三维目标物体检测方法、装置、电子设备及存储介质，利用本发明提出的深度学习网络架构直接处理原始点云，并且本发明所提出的深度学习网络架构充分考虑了点云的原始特征与位置信息，并引入自注意力机制，实现对三维目标物体的有效检测，同时可避免anchor的预先设置。

下面结合图1-图12描述本发明所提出的三维目标物体检测方法、装置、电子设备及存储介质。

图1是本发明提供的三维目标物体检测方法的流程示意图，如图1所示，所述三维目标物体检测方法包括：

步骤101，获取与至少一个三维目标物体相关联的三维点云数据。

可选地，所述三维点云数据是激光雷达输出的点云数据。

步骤102，对所述三维点云数据进行特征提取以得到原始特征数据，并对所述三维点云数据进行位置编码以得到位置编码信息。

步骤103，将所述位置编码信息和所述原始特征数据相融合以得到点云特征，并将所述点云特征输入第一神经网络模型以获得所述第一神经网络模型输出的第一特征数据，所述第一特征数据用于表示所述点云数据对应的目标物体的特征。

可选地，所述第一神经网络模型是基于自注意力机制的神经网络模型。

步骤104，将所述第一特征数据输入第二神经网络模型以获得所述第二神经网络模型输出的第二特征数据，所述第二特征数据指示检测出的所述至少一个三维目标物体的属性信息。

可选地，所述第二神经网络模型是前馈神经网络模型。

可选地，所述三维目标物体的属性信息至少包括所述三维目标物体的空间大小以及位置信息。

以下对上述步骤102～104进行具体描述。

图2是本发明提供的对点云进行特征提取的流程示意图，图3是本发明所提出的特征提取方法的原理示意图，如图2，图3所示，在本发明所提出的三维目标物体检测方法中，采用pointnet++网络模型进行特征提取。pointnet++网络模型使用了分层抽取特征的思想，该特征提取网络模型由一系列点集提取层(set abstraction)组成，而每一个点集提取层又由三个关键层组成：采样层(sampling layer)、分组层(Grouping layer)以及特征提取层(PointNet)。

例如，若一个点集提取层的输入是大小为N×(d+C)的特征点集(该特征点集表示具有N个点，每个点带有d个维度的坐标和C个维度的点特征)，则该点集提取层的输出是大小为N'×(d+C')的特征点集，其中，d所代表的坐标维度不变。

具体地，在所述步骤102中，所述对所述三维点云数据进行特征提取以得到原始特征数据的步骤包括：

步骤201，从输入的特征点集的全集中选择多个点，每个所述点定义了该点所在的局部区域的质心。

具体地，通过使用迭代最远点采样算法(farthest point sampling，FPS)从输入的特征点集的全集{x₁,x₂,...,x_n}中选择一组子集

其中，

是相对于其余点云而言距集合

最远的点。

上述FPS算法是一种采样算法，能够保证对样本的均匀采样，即能够更好地覆盖整个采样空间。

FPS算法的原理是：先随机选一个点，然后选择离这个点距离最远的点加入起点，然后继续迭代，直到选出需要的个数为止。

步骤202，针对每个所述质心，基于该质心附近的相邻点构建局部区域点集。

具体地，基于输入的大小为N×(d+C)的所述特征点集与大小为N'×d的质心集，得到N'×K×(d+C)个特征点，所述特征点构成N'个局部区域点集。

可选地，点云数据的采样是使用质心作为代表性样本，所述质心被计算为同一簇中所有数据点的平均值。

步骤203，将每个所述局部区域点集进行编码，得到与每个局部区域点集对应的特征点，所有所述特征点构成输出的特征点集。

具体地，基于输入的包含N'×K×(d+C)个特征点的N'个局部区域点集并通过对每个局部区域点集所包含的质心和质心的相邻点进行编码以抽象出该局部区域点集指示的局部区域的局部特征，得到包含N'×(d+C')个特征点的输出特征点集。上述N'对应图2中的N1。

其中，N'表示局部区域个数，K表示每个质心点的相邻点的点数，d表示坐标维度，C表示特征维度，C'表示新的局部特征维度。

其中，C'表示新的局部特征维度(C'>C)，每个局部区域均通过其质心和对质心的相邻点进行编码的局部特征来抽象。基于上述K在各个组之间的变化，特征提取层能够将灵活数量的点转换为固定长度的局部区域特征的向量。上述C'对应图2中的C1。

具体地，步骤203是将K个局部区域内的点的坐标转换为相对该区域中心点的坐标，并作为特征提取层PointNet(如图3所述)的输入，得到局部特征。

本发明采用如图3所示的特征提取方法，具有能够提取无序点云特征，效率高的优点。通过从稠密的点云数据中抽取比较重要的点作为每个局部区域的中心点，这样每一层得到的中心点都是上一层中心点的子集，并且随着层数加深，中心点的个数越来越少，但是每个中心点包含的信息越来越多，这样可防止对点云数据进行采样而造成信息缺失。并且，通过确定每一个中心点的邻域范围(即局部区域)可解决采集点云数据时会出现采样密度不均的问题。

图4是本发明提供的对点云进行位置编码的流程示意图，如图所示。上述步骤102中，所述对所述三维点云数据进行位置编码以得到位置编码信息的步骤包括：

步骤401，获取预设的关键点的坐标。

步骤402，将所述三维点云数据的每个点的位置坐标减去所述预设的关键点的坐标，得到所述三维点云数据的每个点的相对坐标。

步骤403，基于所述相对坐标，生成所述位置编码信息。

可选地，本发明可通过前馈神经网络(FFN)将每个点的相对坐标映射到原始特征数据上，然后将生成的位置编码信息添加至点云特征中。

进一步地，上述步骤103中，所述将所述位置编码信息和所述原始特征数据相融合，得到点云特征，包括：

本发明采取上述所述的位置编码方式，具有简单、有效的优点。即只需将每个点的坐标映射到特征维度，然后将生成的位置编码添加至点云特征中，并且对于所有的位置编码，首先先减去关键点的坐标，然后使用相对位置作为位置编码的输入，再利用一个简单的全连接网络将相对坐标映射到特征维度。

图5是本发明提供的对点云特征进行编码的流程示意图，如图5所示。上述所示步骤103中，所述将所述点云特征输入第一神经网络模型以获得所述第一神经网络模型输出的第一特征数据的步骤包括：

步骤501，将所述点云特征输入至所述基于自注意力机制的神经网络模型的编码器的多头自注意力层，并由所述多头自注意力层中设置的多头自注意力函数进行处理，以得到自注意力特征。

步骤502，将所述自注意力特征输入至所述基于自注意力机制的神经网络模型的解码器进行解码以输出所述第一特征数据。

可选地，多头自注意力层包括多个单头自注意力结构，每个单头自注意力结构对应的自注意力函数可以描述为将查询(query)和一组键值(key-value)对映射到输出，其中query，key，value和输出都是向量。示例性地，将输出计算为value的加权总和，其中分配给每个value的权重是通过query与相应key的兼容性函数来计算的。一个单头自注意力结构对应的自注意力函数由下式计算：

其中，Q，K，V分别是query，key，value的矩阵，d_k是key的维度。

自注意力的得分是通过query与每个key结果相乘，预设函数(比如softmax函数)是对自注意力得分做归一化处理，得到每个得分值，然后将每个的得分值与自身的value直接相乘，然后再求和得到第一个输出值。

由于使用不同的线性投影将查询、键和值线性投影h次，比使用单个自注意力函数要有效，所以本发明使用多头自注意力机制。在查询、键和值的每个投影版本上，并行执行自注意力函数，产生d_v维输出值。它们被连接起来并再次投影，从而得到最终值，其中，多头自注意力函数由下式计算：

MuultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O

具体地，多头自注意力机制如图8所示。从图中可以看出V、K、Q是固定的单个值，而Linear(线性)层有3个，Scaled Dot-Product Attention(多头自注意力层)有3个，即h等于3个多头；最后cancat(拼接)在一起，然后Linear层转换变成一个和单头一样的输出值；类似于集成。多头和单头的区别在于复制多个单头，但权重系数是不一样的；类比于一个神经网络模型与多个一样的神经网络模型，由于初始化不一样，会导致权重不一样，然后将结果集成。

从上述的多头自注意力函数看出：attention函数的输入由原来的Q，K，V变成了

即3个W都不相同；将Q，K，V由原来的512维度变成了64维度(假设采取了8个多头)；然后再拼接在一起变成512维，通过W^O进行线性转换；得到最终的多头自注意力值，即多头自注意力是由多个独立的attention计算而得。

需要说明的是，所述多头自注意力层(self attention)是对自身输入的操作，并且所述多头自注意力层(attention)由其他输入作为权重影响。

图7示出了本发明在每个多头自注意力层传递位置编码信息。示例性地，来自特征提取网络模型的点云特征通过所述自注意力编码器进行编码，同时位置编码信息也被添加至每个多头自注意力层的keys(键)和queries(查询)中。

可选地，每个多头自注意力层的每个子层的每一层级采用残差连接(skipconnect)，然后进行特征相加和层归一化(Layer Norm)处理，即每个子层的输出是LayerNorm(x+Sublayer(x))，其中Sublayer(x)是由该子层本身实现的功能。

应该理解的是，残差连接的思想是将输出表述为输入和输入的一个非线性变换的线性叠加。比如，使用一个非线性变化函数来描述一个网络的输入输出，即输入为X，输出为F(x)，F包括了卷积，激活等操作。将一个输入添加到函数的输出的时候，仍可以用G(x)来描述输入输出的关系，但是G(x)可以拆分为F(x)和X的线性叠加。

其中，深度学习中常用的四种归一化：GroupNorm(GN)、LayerNorm(LN)、InstanceNorm(IN)以及BatchNorm(BN)。本发明所采用的基于自注意力机制的神经网络模型采用的是层归一化LayerNorm(LN)方式。

可选地，本发明所采用的基于自注意力机制的神经网络模型也可以采用其他归一化方式。其中，批量归一化BN是不同待处理数据之间对单个神经元的归一化，层归一化LN是单个待处理数据对某一层所有神经元之间的归一化，即层归一化LN是对一个中间层的所有神经元进行归一化。层归一化LN的优点是使得网络中每层输入数据的分布相对稳定，加速模型处理或学习速度。

可选地，层归一化LN的计算流程，包括：首先，计算出均值；然后，计算出方差；之后再做归一化处理到均值为0，方差为1；最后进行变化重构，恢复出这一层网络所要学到的分布。

图6是本发明提供的对点云特征进行解码的流程示意图，如图6所示。上述步骤103中，所述将所述点云特征输入第一神经网络模型以获得所述第一神经网络模型输出的第一特征数据的步骤还包括：

步骤601，在所述基于自注意力机制的神经网络模型的解码器的多头注意力层接收所述自注意力特征和所述位置编码信息之前，所述基于自注意力机制的神经网络模型的解码器的多头自注意力层接收输入的预设目标参数，所述预设目标参数用于限制输出所述第二特征数据的数量。

其中，所述预设目标参数用于限定输出的类别预测的数量。根据输入的点云数据，输出预测目标，而输出的预测目标或许很多，但不一定全是用户所必须的，因此可通过设置输入的预设目标参数来限定前馈神经网络(FFN)输出的类别预测的数量。

步骤602，所述基于自注意力机制的神经网络模型的解码器的多头注意力接收所述自注意力特征和所述位置编码信息，并基于所述自注意力特征以及所述位置编码信息对所述自注意力特征进行解码以输出所述第一特征数据。

其中，如图7所示，所述自注意力解码器包括多个解码器层，每个解码器层包括三个子层，即第一子层、第二子层以及第三子层，所述第一子层为多头自注意力层，所述第二子层为多头注意力层，所述第三子层为前馈神经网络(FFN)，每个解码层可以并行解码多个目标对象。

也就是说，所述自注意力解码器除了包括与每个编码器层具有的两个子层相同的两个子层之外，还另外设置了一个子层，即多头注意力层，所述多头注意力层对编码器堆栈的输出执行多头注意力操作。与自注意力编码器类似，在自注意力解码器的每个子层也是采用残差连接，然后进行特征相加和层归一化处理，本发明设置的所述自注意力解码器的每个解码器层可并行解码N个目标对象。

需要说明的是，为了使得在所述自注意力编码器和所述自注意力解码器都有对应的位置编码信息，从位置编码模块输出的位置编码信息也可作为所述自注意力解码器的输入。

综上所述，本发明采用基于自注意力机制的编码器进行编码以输出第一特征数据，以及采用基于自注意力机制的解码器进行解码以输出第二特征数据，并且在所述编码器和解码器中使用了多头自注意力机制，使得本发明所述基于自注意力机制的神经网络模型的训练速度比现有技术的其他神经网络模型更快。

图9是本发明提供的将第一特征数据输入第二神经网络模型以获得第二特征数据的步骤的流程示意图，如图9所示。上述步骤104中，所述将所述第一特征数据输入前馈神经网络模型以获得其输出的第二特征数据的步骤包括：

步骤901，根据输入的所述第一特征数据，经由所述前馈神经网络模型确定与所述第一特征数据相关联的预测框的中心坐标、长、宽、高和角度参数。

可选地，所述前馈神经网络(FFN)是由隐藏层尺寸为d的三层感知器、ReLU(激活)层以及线性投影层组成。

步骤902，基于所述预测框的中心坐标、长、宽、高和角度参数，使用预设函数(例如，softmax函数)确定与所述预测框相关联的三维目标物体的类别标签，并输出每个预测框的大小、位置及类别标签。

可选地，所述预测框(为图1所示的“预测3D框”)的尺度由以下参数定义(x,y,z,w,l,h,θ)，其中(x,y,z)表示框中心点坐标，(w,l,h,θ)表示框的宽、长、高和角度。也就是说，使用向量来表示每个目标物体对应的预测框的(x,y,z,w,l,h,θ)等参数。

虽然本发明预测了一组固定大小的N个边界框，但是N通常比实际感兴趣的对象的数量大得多，因此需要附加的特殊类标签，用于表示未检测到任何目标。此类与标准目标检测方法中的背景类具有相似的作用。

综上所述，本发明采用所述前馈神经网络模型输出每个目标的位置预测与类别预测，最后通过分数阈值确定最终的预测目标，由于所述前馈神经网络模型结构简单(即其相邻层之间全连接，不存在同层连接与跨层连接)，不需要预先设置anchor(候选框)，具有很好的检测性能。

具体地，本发明所公开的三维目标物体检测方法还包括：在所述基于自注意力机制的神经网络模型和所述前馈神经网络模型实施三维目标物体检测之前使用已知的三维目标物体的三维点云数据训练所述基于自注意力机制的神经网络模型和所述前馈神经网络模型。下面对本发明提供的三维目标物体检测装置进行描述，下文描述的三维目标物体检测装置与上文描述的三维目标物体检测方法可相互对应参照。

图10是本发明提供的三维目标物体检测装置的结构示意图，如图10所示。本发明所述三维目标物体检测装置1000，包括特征提取与位置编码模块1010、第一处理模块1020以及第二处理模块1030，其中，

特征提取与位置编码模块1010，用于获取与至少一个三维目标物体相关联的三维点云数据，随之对所述三维点云数据进行特征提取以得到原始特征数据，并对所述三维点云数据进行位置编码以得到位置编码信息，以及将所述位置编码信息和所述原始特征数据相融合以得到点云特征。

第一处理模块1020，用于将所述点云特征输入第一神经网络模型以获得所述第一神经网络模型输出的第一特征数据。

第二处理模块1030，用于将所述第一特征数据输入第二神经网络模型以获得所述第二神经网络模型输出的第二特征数据，所述第二特征数据指示检测出的所述至少一个三维目标物体的属性信息。

以下通过一示例对本发明所述三维目标物体检测装置进行具体描述。

图11是本发明提供的一示例的三维目标物体检测架构的示意图，如图11所示。本发明所提出的三维目标物体检测装置，包括：特征提取与位置编码模块、第一处理模块以及第二处理模块。

应理解的是，三维数据的表述形式一般分为四种：(1)点云：由N个D维的点组成，当这个D＝3的时候一般代表着(x,y,z)的坐标，当然也可以包括一些法向量、强度等别的特征。(2)Mesh：由三角面片和正方形面片组成。(3)体素：由三维栅格将物体用0和1表征。(4)多角度的RGB图像或者RGB-D图像。由于点云更接近于物体的原始表征(例如，雷达扫描物体直接产生点云)，而且点云的表达方式更加简单，一个物体仅用一个N×D的矩阵表示。

其中，可通过三维激光雷达进行数据采集获取到点云，或者通过二维影像进行三维重建，在重建过程中获取点云，或者也可以通过三维模型来计算获取点云。点云是某个坐标系下的点的数据集。点包含了丰富的信息，包括三维坐标X、Y、Z、颜色、分类值、强度值、时间等等。

可选地，本发明所述的三维点云数据是激光雷达输出的点云数据，并且所述三维目标物体的属性信息至少包括所述三维目标物体的空间大小以及位置信息。

其中，所述特征提取与位置编码模块，包括特征提取单元与位置编码单元，用于获取与至少一个三维目标物体相关联的三维点云数据，随之对所述三维点云数据进行特征提取以得到原始特征数据，并对所述三维点云数据进行位置编码以得到位置编码信息，以及将所述位置编码信息和所述原始特征数据相融合以得到点云特征。

其中，所述第一处理模块，包括自注意力编码器和自注意力解码器，用于将所述点云特征输入第一神经网络模型以获得所述第一神经网络模型输出的第一特征数据。

可选地，所述第一神经网络模型是基于自注意力机制的神经网络模型。具体地，所述第一神经网络模型包括编码器与解码器。所述编码器用于对点云特征进行处理以得到自注意力特征。所述解码器的输入包括两部分，一部分是编码器输出的自注意力特征；另一部分是预设目标参数，所述预设目标参数用于限定输出的类别预测的数量。

进一步地，所述解码器根据所述自注意力特征和输入的预设目标参数，输出每个目标物体的解码特征(即所述第一特征数据)。

其中，所述第二处理模块，包括前馈全连接神经网络，用于将所述第一特征数据输入第二神经网络模型以获得所述第二神经网络模型输出的第二特征数据，所述第二特征数据指示检测出的所述至少一个三维目标物体的属性信息。

可选地，所述第二神经网络模型是前馈神经网络模型。

所述第二神经网络模型根据每个目标物体的解码特征(即所述第一特征数据)，通过前馈神经网络(FFN)输出每个目标物体的位置预测与类别预测，然后通过预设阈值确定最终的预测目标(即所述第二特征数据，如图1中“预测3D框”显示的物体)。所述预设阈值(或称置信度)是用于过滤目标，不同置信度输出不同，例如可以设置低置信度进行目标过滤。

可选地，前馈神经网络(FFN)的分类器能够给出预测类别的概率，并且分类器本身的结果是否可靠是根据置信度来评价。假设有多个分类器进行决策融合，则需要通过置信度对每个分类器给出的结果(该结果可以是概率，也可以是类别标签)进行加权。然后再通过不同的决策准则(比如DS、LOP、LOGP)将这些加权后的单一分类器结果融合后，给出最终的分类检测结果。

所述第二神经网络模型可为传统的前馈神经网络(Feedforward NeuralNetwork,FNN)模型，当然也可以是其他结构的神经网络模型，本发明对此不做限定。

本发明所提出的三维目标物体检测装置的其他方面与前面所描述的三维目标物体检测方法相同或相似，在此不再赘述。

综上所述，本发明提供的三维目标物体检测装置，结构简单并能有效地提升三维目标检测的性能。

如图12所示，本发明还提出了一种电子设备，该电子设备包括：处理器(processor)1210、通信接口(Communications Interface)1220、存储器(memory)1230和通信总线1240，其中，处理器1210，通信接口1220，存储器1230通过通信总线1240完成相互间的通信。处理器1210可以调用存储器1230中的逻辑指令，以执行如前面所述的任何一种三维目标物体检测方法。

示例性地，上述的存储器1230中的逻辑指令可以通过软件功能单元的形式实现，并且在作为独立的产品销售或使用时，其可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前面所描述的任一种三维目标物体检测方法。

综上所述，本发明提供的三维目标物体检测方法、装置、电子设备及存储介质，能直接对点云数据进行处理，不需要设计任何额外的候选框，适合预测多种尺度的目标，而且本发明使用注意力网络进行三维目标检测，能有效提升对三维目标的检测性能。此外，本发明基于自注意力网络的三维检测，没有复杂的数据处理操作，可基于传统的前馈神经网络(FFN)实现目标物体的检测。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种三维目标物体检测方法，其特征在于，包括：

获取与至少一个三维目标物体相关联的三维点云数据；

2.根据权利要求1所述的三维物体目标检测方法，其特征在于，所述对所述三维点云数据进行特征提取以得到原始特征数据的步骤包括：

3.根据权利要求2所述的三维目标物体检测方法，其特征在于，所述从输入的特征点集的全集中选择多个点的步骤包括：

其中，

是距集合

最远的点。

4.根据权利要求2所述的三维目标物体检测方法，其特征在于，所述针对每个所述质心，基于该质心附近的相邻点构建局部区域点集的步骤包括：

5.根据权利要求2所述的三维目标物体检测方法，其特征在于，所述将每个所述局部区域点集进行编码，得到与每个局部区域点集对应的特征点的步骤包括：

6.根据权利要求1所述的三维目标物体检测方法，其特征在于，所述对所述三维点云数据进行位置编码以得到位置编码信息的步骤包括：

获取预设的关键点的坐标；

将所述三维点云数据的每个点的位置坐标减去所述预设关键点的坐标，得到所述三维点云数据的每个点的相对坐标；

基于所述相对坐标，生成所述位置编码信息。

7.根据权利要求1所述的三维目标物体检测方法，其特征在于，所述将所述位置编码信息和所述原始特征数据相融合以得到点云特征的步骤包括：

8.根据权利要求2所述的三维目标物体检测方法，其特征在于，所述将所述点云特征输入基于自注意力机制的神经网络模型以获得其输出的第一特征数据的步骤包括：

9.根据权利要求8所述的三维目标物体检测方法，其特征在于，所述将所述点云特征输入基于自注意力机制的神经网络模型以获得其输出的第一特征数据的步骤还包括：

10.根据权利要求1所述的三维目标物体检测方法，其特征在于，所述将所述第一特征数据输入前馈神经网络模型以获得其输出的第二特征数据的步骤包括：

11.根据权利要求1所述的三维目标物体检测方法，其特征在于，所述方法还包括：

在所述基于自注意力机制的神经网络模型和所述前馈神经网络模型实施三维目标物体检测之前使用已知的三维目标物体的三维点云数据训练所述基于自注意力机制的神经网络模型和所述前馈神经网络模型。

12.根据权利要求8所述的三维目标物体检测方法，其特征在于，所述方法还包括：

在所述基于自注意力机制的神经网络模型的解码器的多头注意力层接收所述自注意力特征和所述位置编码信息之前，所述基于自注意力机制的神经网络模型的解码器的多头自注意力层接收输入的预设目标参数，所述预设目标参数用于限制输出的所述第二特征数据的数量。

13.一种三维目标物体检测装置，其特征在于，包括：

第一处理模块，用于将所述点云特征输入基于自注意力机制的神经网络模型以获得其输出的第一特征数据，所述第一特征数据用于表示与所述点云数据对应的目标的特征；

14.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至12任一项所述三维目标物体检测方法的步骤。

15.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至12任一项所述三维目标物体检测方法的步骤。