CN114494609B

CN114494609B - 一种3d目标检测模型的构建方法、装置和电子设备

Info

Publication number: CN114494609B
Application number: CN202210340988.0A
Authority: CN
Inventors: 张天柱; 张哲�; 邓嘉诚; 王楚鑫; 张勇东; 吴枫
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2022-09-06
Anticipated expiration: 2042-04-02
Also published as: CN114494609A

Abstract

本申请公开了一种3D目标检测模型的构建方法、装置和电子设备，该方法和装置具体为对输入的点云场景进行处理，得到点云场景的多个点云特征；对多个点云特征进行采样处理，得到点云场景的多个关键点；基于多个关键点进行模型构建，得到3D目标检测模型。本方案根据具体点云场景中特定的信息自适应地进行关键点的采样，从而实现对前景物体更完整的覆盖和更准确且鲁棒的定位和识别。

Description

一种3D目标检测模型的构建方法、装置和电子设备

技术领域

本申请涉及计算机视觉技术领域，更具体地说，涉及一种3D目标检测模型的构建方法、装置和电子设备。

背景技术

3D目标检测用于在3D场景中进行定位和目标物体的识别，是3D场景感知的必要技术，同时在机器人抓取、增强现实和自动驾驶等领域有着广泛的实际应用。

3D目标检测技术根据输入数据的不同，分为单目3D目标检测方法和点云3D目标检测方法。单目3D目标检测方法利用有3D建议框标注的单目图像数据来训练模型，然后进行3D场景中物体的定位和识别。然而在现实场景中物体布局复杂、光线变化大，基于单目图像进行3D目标检测很难稳定地预测出物体的准确位置，这限制了单目3D目标检测的拓展性和实用性。点云3D目标检测方法利用点云数据实现3D目标检测，相比于单目图像，点云数据具有稀疏、无序、不规则的特点，它提供了精确的几何信息，不受光线变化的影响。

目前点云3D目标检测方法可以归为两类，分别为基于手工体素化的方法和利用点云数据的方法。点云3D目标检测方法目的是定位和识别前景物体，然而由于没有动态地适应不同点云场景和缺乏对物体语义信息的考虑，这些方法在关键点采样过程中很容易引入大量对前景物体检测没有意义的背景点或者只能关注到部分物体，从而对前景物体的完整定位和准确识别造成影响。

发明内容

有鉴于此，本申请提供一种3D目标检测模型的构建方法、装置和电子设备，用于构建3D目标检测模型，以实现对前景物体更完整的覆盖和更准确且鲁棒的定位和识别。

为了实现上述目的，现提出的方案如下：

一种3D目标检测模型的构建方法，应用于电子设备，所述构建方法包括步骤：

对输入的点云场景进行处理，得到所述点云场景的多个点云特征；

对所述多个点云特征进行采样处理，得到所述点云场景的多个关键点；

基于所述多个关键点进行模型构建，得到3D目标检测模型。

可选的，所述对输入的点云场景进行处理，得到所述点云场景的多个点云特征，包括步骤：

捕获所述点云场景的远距离语义信息；

捕获所述点云场景的局部结构信息；

将所述远距离语义信息和所述局部结构信息沿通道维度进行拼接处理，得到所述多个点云特征。

可选的，所述3D目标检测模型的损失函数包括建议框的第一约束损失函数、点云前背景点的第二约束损失函数和每个所述关键点的初始预测框的第三约束损失函数。

一种3D目标检测模型的构建装置，应用于电子设备，所述构建装置包括：

Transformer编码器模块，被配置为对输入的点云场景进行处理，得到所述点云场景的多个点云特征；

关键点动态采样模块，被配置为对所述多个点云特征进行采样处理，得到所述点云场景的多个关键点；

动态Transformer解码器模块，被配置为基于所述多个关键点进行模型构建，得到3D目标检测模型。

可选的，所述Transformer编码器模块包括：

第一捕获单元，被配置为捕获所述点云场景的远距离语义信息；

第二捕获单元，被配置为捕获所述点云场景的局部结构信息；

拼接处理单元，被配置为将所述远距离语义信息和所述局部结构信息沿通道维度进行拼接处理，得到所述多个点云特征。

一种电子设备，其特征在于，设置有如上所述的3D目标检测模型的构建装置。

一种电子设备，包括至少一个处理器和与所述处理器连接的存储器，其中：

所述存储器用于存储计算机程序或指令；

所述处理器用于执行所述计算机程序或指令，以使所述电子设备实现如上所述的3D目标检测方法。

从上述的技术方案可以看出，本申请公开了一种3D目标检测模型的构建方法、装置和电子设备，该方法和装置具体为对输入的点云场景进行处理，得到点云场景的多个点云特征；对多个点云特征进行采样处理，得到点云场景的多个关键点；基于多个关键点进行模型构建，得到3D目标检测模型。本方案根据具体点云场景中特定的信息自适应地进行关键点的采样，从而实现对前景物体更完整的覆盖和更准确且鲁棒的定位和识别。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的一种3D目标检测模型的构建方法的流程图；

图2为本身亲实施例的对点云场景的处理的流程图；

图3为本申请实施例的一种3D目标检测模型的构建装置的框图；

图4为本申请实施例的一种3D目标检测模型的构建装置的框图；

图5为本申请实施例的一种电子设备的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

图1为本申请实施例的一种3D目标检测模型的构建方法的流程图。

如图1所示，本实施例提供的构建方法应用于电子设备，用于基于电子设备构建能够检测3D物体的3D目标检测模型，该电子设备可以理解为具有数据计算和信息处理能力的计算机或服务器，该构建方法具体包括如下步骤：

S1、对输入的点云场景进行处理，得到点云场景的多个点云特征。

具体来说，对于输入的点云场景，通过PointNet++网络下采样点云到2048个点并提取特征。 PointNet++网络是点云场景3D目标检测任务中常用的点云下采样方法，它的主要目的是减少网络需要处理的点云数量，提高网络的推理速度。此外，它也会保持点云的大致结构，提取出较为粗糙的点云局部结构特征。

本申请中具体采用如下方案实现点云场景的处理，如图2所示。

S11、捕获点云场景的远距离语义信息。

具体实施时，本申请的方案使用多头自注意力机制，使得每个点都能捕获场景远距离语义信息：

其中，F是多头自注意力机制的输入特征，

分别是查询、键和值的变换矩阵，C是输入特征通道维度，Softmax是神经网络输出层的激励函数，同时我们将多头自注意力机制的输出记为

。

S12、捕获点云场景的局部结构信息。

在具体实施时，本申请的技术方案使用点云核心点卷积：

其中，K是设置的核心点个数，

是核心点，

是相关权重矩阵，

表示线性相关函数，

,其中r是手动设置的核半径，f_i是x_i所对应的特征，g是核函数，

表示核心点卷积。

S13、将远距离语义信息和局部结构信息进行拼接。

在得到上述远距离语义信息和备结构特征的基础上，将两者沿特征通道维度直接拼接在一起，从而得到点云场景的点云特征。

S2、对多个点云特征进行采样处理，得到多个关键点。

为了让最终得到的关键点可以均匀覆盖到场景中每一个前景物体，且能够根据不同场景动态地更新原型以关注到前景物体上更具代表性的部位，本申请引入了可学习的关键点采样原型

，并根据具体场景进行自适应的更新：

其中，

是可学习的关键点采样原型，

是输入的点云特征，W^Q、W^K、W^V分别是查询、键和值的变换矩阵，C是输入特征通道维度，Softmax是神经网络输出层的激励函数，

是场景自适应更新后的关键点采样原型。

另外，本申请选用一个关键点采样层，利用这些更新后的原型通过余弦相似性来动态捕获和自己相似的关键点：

其中，

为预测的质量分数，

表示余弦相似度计算函数，Max表示最大值函数，

是采样原型，

是场景点云中的第i个点。我们选取质量分数最高的K个点作为我们的关键点，在我们的方法中K的值设为256。

S3、基于多个关键点进行模型构建，得到3D目标检测模型。

本申请的方案中引入了一个动态的高斯权重图：

其中

是关键点的空间3D坐标，

是聚集强度的超参数，（

，

，

）和（

，

，

）分别是关键点预测得到的3D建议框中心点的3D坐标和3D建议框的长宽高尺寸。动态的高斯权重图会帮助关键点在交叉注意力机制中更加关注预测区域附近的点云特征，最终动态的交叉注意力机制可被形式化为:

其中，

是关键点的特征，

是点云的特征，

、

、

分别是查询、键和值的变换矩阵，C是输入特征通道维度，G是动态的高斯权重图，Softmax是神经网络输出层的激励函数，将关键点特征经过交叉注意力机制的输出值记为O。通过上述具体方案最终得到3D目标检测模型。

本申请中3D目标检测模型的损失函数由三部分组成，分别为：

1）建议框预测的第一约束损失

：

其中，θ_i为权重参数，

为该模型预测的建议框中心、尺寸、方向和类别，

表示Huber损失函数；

2）点云前背景点的第二约束损失

：为了让网络学习到更多能区分前背景的特征从而帮助网络更高质量地采样前景点，我们为每个点设置了交叉熵损失来约束；

3）每个关键点初始预测框的第三约束损失

：我们对每个关键点的初始预测框也设置了与

类似的损失约束网络更好地动态采样关键点。

最终模型的损失函数定义为：

从上述技术方案可以看出，本申请提供了一种3D目标检测模型的构建方法，该方法应用于电子设备，具体为对输入的点云场景进行处理，得到点云场景的多个点云特征；对多个点云特征进行采样处理，得到点云场景的多个关键点；基于多个关键点进行模型构建，得到3D目标检测模型。本方案根据具体点云场景中特定的信息自适应地进行关键点的采样，从而实现对前景物体更完整的覆盖和更准确且鲁棒的定位和识别。

实施例二

图3为本申请实施例的一种3D目标检测模型的构建装置的框图。

如图3所示，本实施例提供的构建装置应用于电子设备，用于基于电子设备构建能够检测3D物体的3D目标检测模型，该电子设备可以理解为具有数据计算和信息处理能力的计算机或服务器，该构建装置具体包括Transformer编码器10、关键点动态采样模块20和动态Transformer解码器30。

Transformer编码器用于对输入的点云场景进行处理，得到点云场景的多个点云特征。

具体来说，对于输入的点云场景，通过PointNet++网络下采样点云到2048个点并提取特征。 PointNet++网络是点云场景3D目标检测任务中常用的点云下采样方法，它的主要目的是减少网络需要处理的点云数量，提高网络的推理速度。此外，它也会保持点云的大致结构，提取出较为粗糙的点云局部结构特征。该模块包括第一捕获单元11、第二捕获单元12和拼接处理单元13，如图4所示。

第一捕获单元用于捕获点云场景的远距离语义信息。

其中，F是多头自注意力机制的输入特征，

、

、

。

第二捕获单元用于捕获点云场景的局部结构信息。

在具体实施时，本申请的技术方案使用点云核心点卷积：

其中，K是设置的核心点个数

是核心点，

是相关权重矩阵,

表示线性相关函数，

其中

是手动设置的核半径，f_i是x_i所对应的特征，g是核函数，

表示核心点卷积。

拼接处理单元用于将远距离语义信息和局部结构信息进行拼接。

在得到上述远距离语义信息和具备结构特征的基础上，将两者沿特征通道维度直接拼接在一起，从而得到点云场景的点云特征。

关键点动态采样模块用于对多个点云特征进行采样处理，得到多个关键点。

，并根据具体场景进行自适应的更新：

其中，

是可学习的关键点采样原型，F是输入的点云特征，

、

、

分别是查询、键和值的变换矩阵，

是输入特征通道维度，Softmax是神经网络输出层的激励函数，

是场景自适应更新后的关键点采样原型。

动态Transformer解码器用于基于多个关键点进行模型构建，得到3D目标检测模型。

本申请的方案中引入了一个动态的高斯权重图：

其中

是关键点的空间3D坐标，

是聚集强度的超参数，（

，

，

）和（

，

，

其中，

是关键点的特征，

是点云的特征，

、

、

分别是查询、键和值的变换矩阵，

是输入特征通道维度，

是动态的高斯权重图，Softmax是神经网络输出层的激励函数，将关键点特征经过交叉注意力机制的输出值记为

。通过上述具体方案最终得到3D目标检测模型。

从上述技术方案可以看出，本申请提供了一种3D目标检测模型的构建装置，该装置应用于电子设备，具体用于对输入的点云场景进行处理，得到点云场景的多个点云特征；对多个点云特征进行采样处理，得到点云场景的多个关键点；基于多个关键点进行模型构建，得到3D目标检测模型。本方案根据具体点云场景中特定的信息自适应地进行关键点的采样，从而实现对前景物体更完整的覆盖和更准确且鲁棒的定位和识别。

实施例三

本实施例提供了一种电子设备，该电子设备可以理解为具有数据计算和信息处理能力的计算机或服务器，该电子设备设置有上一实施例提供的3D目标检测模型的构建装置。该装置用于对输入的点云场景进行处理，得到点云场景的多个点云特征；对多个点云特征进行采样处理，得到点云场景的多个关键点；基于多个关键点进行模型构建，得到3D目标检测模型。本方案根据具体点云场景中特定的信息自适应地进行关键点的采样，从而实现对前景物体更完整的覆盖和更准确且鲁棒的定位和识别。

实施例四

图5为本申请实施例的一种电子设备的框图。

如图5所示，本实施例提供的电子设备可以理解为具有数据计算和信息处理能力的计算机或服务器，该电子设备包括至少一个处理器101和存储器102，两者通过数据总线103连接。该存储器用于存储计算机程序或指令，该处理器用于执行相应计算机程序或指令，以使该电子设备能够实现实施例一中的3D目标检测模型的构建方法。

该构建方法具体为对输入的点云场景进行处理，得到点云场景的多个点云特征；对多个点云特征进行采样处理，得到点云场景的多个关键点；基于多个关键点进行模型构建，得到3D目标检测模型。本方案根据具体点云场景中特定的信息自适应地进行关键点的采样，从而实现对前景物体更完整的覆盖和更准确且鲁棒的定位和识别。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的技术方案进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种3D目标检测模型的构建方法，应用于电子设备，其特征在于，所述构建方法包括步骤：

对输入的点云场景进行处理，得到所述点云场景的多个点云特征，包括：捕获所述点云场景的远距离语义信息，捕获所述点云场景的局部结构信息，将所述远距离语义信息和所述局部结构信息沿通道维度进行拼接处理，得到所述多个点云特征；

基于所述多个关键点进行模型构建，得到3D目标检测模型；

所述捕获所述点云场景的远距离语义信息包括：通过多头自注意力机制

捕获所述点云场景的远距离语义信息；其中，

，F₁是多头自注意力机制的输入特征，W^Q、W^K、W^V分别是查询、键和值的变换矩阵，C是输入特征通道维度，Softmax是神经网络输出层的激励函数，H为多头自注意力机制的输出；

所述捕获所述点云场景的局部结构信息包括：通过点云核心点卷积

捕获点云场景的局部结构信息；其中，K是设置的核心点个数，

是核心点，

是相关权重矩阵，

表示线性相关函数，

表示核心点卷积；

所述对所述多个点云特征进行采样处理，得到所述点云场景的多个关键点包括：根据点云场景对可学习的关键点采样原型进行自适应更新，并基于更新后的关键点采样原型通过余弦相似性捕获与更新后的原型相似的关键点；

所述更新后的关键点采样原型为：

；

其中，

，P是可学习的关键点采样原型，F₂是输入的点云特征，W^Q、W^K、W^V分别是查询、键和值的变换矩阵，C是输入特征通道维度，Softmax是神经网络输出层的激励函数，

是场景自适应更新后的关键点采样原型。

2.如权利要求1所述的构建方法，其特征在于，所述3D目标检测模型的损失函数包括建议框的第一约束损失函数、点云前背景点的第二约束损失函数和每个所述关键点的初始预测框的第三约束损失函数。

3.一种3D目标检测模型的构建装置，应用于电子设备，其特征在于，所述构建装置包括：

Transformer编码器模块，被配置为对输入的点云场景进行处理，得到所述点云场景的多个点云特征，所述Transformer编码器模块包括第一捕获单元、第二捕获单元和拼接处理单元，第一捕获单元被配置为捕获所述点云场景的远距离语义信息，所述第二捕获单元被配置为捕获所述点云场景的局部结构信息，所述拼接处理单元被配置为将所述远距离语义信息和所述局部结构信息沿通道维度进行拼接处理，得到所述多个点云特征；

动态Transformer解码器模块，被配置为基于所述多个关键点进行模型构建，得到3D目标检测模型；