CN113379709B

CN113379709B - 一种基于稀疏多尺度体素特征融合的三维目标检测方法

Info

Publication number: CN113379709B
Application number: CN202110667132.XA
Authority: CN
Inventors: 刘盛; 黄文豪; 李丁达; 曹益峰
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2024-03-08
Anticipated expiration: 2041-06-16
Also published as: CN113379709A

Abstract

本发明公开了一种基于稀疏多尺度体素特征融合的三维目标检测方法，将原始点云采用三种不同尺度的体素进行体素化，获得三种不同尺度的体素化三维模型，分别对三种不同尺度的体素化三维模型进行注意力特征提取和平均特征提取，将注意力特征和平均特征进行联接操作融合为三维稀疏特征图；将三种不同尺度的三维稀疏特征图进行多尺度特征融合并压缩至鸟瞰图，得到多尺度融合的伪图像特征图，采用训练好的由浅至深回归网络对所述多尺度融合的伪图像特征图进行多重聚合，输出目标检测结果。本发明提高了定位和三维框估计的准确性，消耗了更少的资源开销。

Description

一种基于稀疏多尺度体素特征融合的三维目标检测方法

技术领域

本发明属于目标检测技术领域，尤其涉及一种基于稀疏多尺度体素特征融合的三维目标检测方法。

背景技术

随着现代计算机视觉工业应用特别是自动驾驶的高速发展，基于点云数据的三维物体目标检测在工业和学术领域受到了极大的关注。点云数据和来自摄像机的RGB图像不同，它有着独特的属性。点云数据可以提供用于描述物体几何特征的相对位置结构信息和深度信息。另外，由于点云数据在鸟瞰图中固有的尺度不变性，它可以自然的对物体进行分离。但是，点云的固有性质——稀疏性，无序性以及不均匀分布性对三维目标检测中的场景感知带来了困难。

为了克服点云数据固有特性的这些挑战，目前有三种不同的点云表示方法。点表示方法使用原始点作为输入来保存最详细的几何结构信息，这在所有表示方法中实现了网络的最小输入信息损失。但是，与CNN相比，基于点的方法感知能力较弱，并且在结构采样上耗费大量时间。体素表示方法将稀疏的和不规则的点云转换成规则大小的体素，这可以被卷积神经网络更好地感知。通常来说，基于体素的方法具有极好的精度和相当快的速度，但是对参数非常敏感。而图表示方法不仅提取点之间的信息，而且基于点端信息提取更多的局部细节。图表示方法建立的一个更易感知的结构，但是需要付出过多的前馈时间。

由于现实应用中对于实时性和高效性的要求，所以目前的技术方案采用基于体素的表示方法。但是，在体素表示方法中，对于关键参数的选择是一个敏感的问题。较小的体素可以实现更精细的几何特征和更好的定位精度，但需要大量的计算开销。较大的体素会减少推理时间，但会失去准确性，尤其是对于小对象来说。

发明内容

本申请提出了一种基于稀疏多尺度体素特征融合的三维目标检测方法，来缓解关键参数选择导致的精度和速度之间的矛盾问题。

为了实现上述目的，本申请技术方案如下：

一种基于稀疏多尺度体素特征融合的三维目标检测方法，包括：

将原始点云采用三种不同尺度的体素进行体素化，获得三种不同尺度的体素化三维模型；

分别对三种不同尺度的体素化三维模型进行注意力特征提取和平均特征提取，将注意力特征和平均特征进行联接操作融合为三维稀疏特征图；

将三种不同尺度的三维稀疏特征图进行多尺度特征融合并压缩至鸟瞰图，得到多尺度融合的伪图像特征图；

采用训练好的由浅至深回归网络对所述多尺度融合的伪图像特征图进行多重聚合，输出目标检测结果。

进一步的，所述注意力特征提取包括：

提取感知注意力特征和通道注意力特征，将感知注意力特征和通道注意力特征通过乘法操作融合在一起，并经过激活函数输出注意力特征；

其中，所述感知注意力特征提取包括：在横向结构上对体素化三维模型的体素进行最大池化操作，最大池化操作后接着两个全连接层，输出感知注意力特征；

所述通道注意力特征提取包括：在纵向结构上对体素化三维模型的体素进行最大池化操作，最大池化操作后接着两个全连接层，输出通道注意力特征。

进一步的，所述将注意力特征和平均特征进行联接操作融合为三维稀疏特征图，包括：

将所述注意力特征与体素进行乘法操作，然后与平均特征进行联接操作，输出三维稀疏特征图。

进一步的，所述三种不同尺度的三维稀疏特征图分别为第一特征图、第二特征图和第三特征图，所述将三种不同尺度的三维稀疏特征图进行多尺度特征融合并压缩至鸟瞰图，得到多尺度融合的伪图像特征图包括：

将第一特征图做2倍下采样操作，与第二特征图联结，得到2倍下采样的融合特征；

对所述2倍下采样的融合特征再做2倍下采样操作，与第三特征图联结，得到4倍下采样的融合特征；

将4倍下采样的融合特征做一次2倍下采样操作，得到8倍下采样的融合特征，再通过一次下采样操作得到16倍下采样的融合特征；

对所述16倍下采样的融合特征进行稀疏上采样和优化操作，生成新的8倍下采样特征，将所述新的8倍下采样特征与所述8倍下采样的融合特征联结，得到最终的8倍下采样的融合特征；

将所述最终的8倍下采样的融合特征压缩至鸟瞰图，得到伪图像特征图。

进一步的，所述由浅至深回归网络包括浅层回归和深度回归。

进一步的，所述由浅至深回归网络采用焦点损失函数来构建浅层回归损失函数和深度回归损失函数，采用所述的浅层回归损失函数和深度回归损失函数来构建由浅至深回归网络的整体损失函数。

进一步的，所述的焦点损失函数为：

其中p^a代表了锚点的类概率，α_a是一个0-1之间的固定权重值，γ是一个大于0的固定权重值。

所述的浅层回归损失函数和深层回归损失函数为：

其中上标S和D表示浅层回归和深层回归，smoothL1损失函数用于三维包围框回归，/>和Δres代表预测残差和回归地面真值，δ和β分别代表损失权重，N_pos代表正样本的数量；

所述的整体损失函数为：

其中加权参数λ用于确定浅层回归和深层回归的相对重要性。

本申请提出的一种基于稀疏多尺度体素特征融合的三维目标检测方法，将原始点云划分为不同尺度的体素，构建多样的三维稀疏特征图。然后，利用注意力机制在三维特征图层面融合了多尺度的特征信息，来获得更多的细粒度的形状信息。此外，通过在特征图层面的多次聚合来提高定位和三维框估计的准确性，消耗了更少的资源开销。

附图说明

图1为基于稀疏多尺度体素特征融合的三维目标检测方法流程图；

图2为融合注意力机制的体素特征提取示意图；

图3为多尺度特征融合示意图；

图4为由浅至深回归网络图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于稀疏多尺度体素特征融合的三维目标检测方法，包括：

步骤S1、将原始点云采用三种不同尺度的体素进行体素化，获得三种不同尺度的体素化三维模型。

本实施例将将原始点云进行体素化，采用三种不同尺度(Sv1,Sv2,Sv3)的立方体体素来进行体素化，尺度为Sv2的体素长宽高是尺度为Sv1的体素的两倍，尺度为Sv3的体素长宽高是尺度为Sv2的体素的两倍。

在经过体素化后，得到三种不同尺度体素化后的点云三维数据，即三种不同尺度的体素化三维模型，关于点云体素化，已经是比较成熟的技术，这里不再赘述。

步骤S2、分别对三种不同尺度的体素化三维模型进行注意力特征提取和平均特征提取，将注意力特征和平均特征进行联接操作融合为三维稀疏特征图。

具体的，本实施例采用了融合注意力机制的体素特征提取方法，包括注意力特征提取和平均特征提取。

注意力特征提取，包括提取感知注意力特征和通道注意力特征，将感知注意力特征和通道注意力特征通过乘法操作融合在一起，并经过激活函数输出注意力特征；

所述感知注意力特征提取包括：在横向结构上对体素化三维模型的体素进行最大池化操作，最大池化操作后接着两个全连接层，输出感知注意力特征；

如图2所示，本申请在横向结构上进行对体素V进行最大池化操作，最大池化操作后接着两个全连接层，输出的感知注意力特征S。在纵向结构上对体素V进行最大池化操作，最大池化操作之后接着两个全连接层，输出是通道注意力特征T。所述的感知注意力特征S和通道注意力特征T通过乘法操作融合在一起，所述的乘法操作后加sigmoid激活函数，输出注意力特征M。

本实施例中，所述将注意力特征和平均特征进行联接操作融合为三维稀疏特征图，包括：

如图2所示，具体的，所述的注意力特征M再与所述的体素特征V进行乘法操作，输出T₁。平均特征提取，输入是体素化三维模型，对其进行平均特征提取，输出为T₂。所述的T₁和平均特征提取的输出T₂通过联接操作融合起来，输出三维稀疏特征图。

本实施例对于三种不同尺度的体素，输出三种不同尺度的三维稀疏特征图。其中(L，W，H)为特征图的尺寸，也就是各个方向体素的个数。

步骤S3、将三种不同尺度的三维稀疏特征图进行多尺度特征融合并压缩至鸟瞰图，得到多尺度融合的伪图像特征图。

在本实施例中，所述三种不同尺度的三维稀疏特征图分别为第一特征图、第二特征图和第三特征图，所述将三种不同尺度的三维稀疏特征图进行多尺度特征融合并压缩至鸟瞰图，得到多尺度融合的伪图像特征图包括：

需要说明的是，上述采用下采样并进行联结的方法进行特征融合，只是一种示例，本领域技术人员还可以采用不同倍数下采样来进行联结，获得融合特征，这里不再赘述。

如图3所示，所述的三个不同尺度三维稀疏特征图分别为的三维稀疏特征图。本申请采用一系列的三维稀疏卷积操作(降采样)，在每个下采样的过程中，采用子流形稀疏卷积来克服稀疏卷积中的膨胀性质，并在一定程度上保持其更重要的几何性质。对(L，W，H)进行2×下采样得到2×的下采样特征图，/>的特征图与2×的下采样特征图联接起来，得到了融合特征的2×下采样特征图。所述的融合特征的2×下采样特征图经过降采样操作得到4×的下采样特征图。同样的，/>的特征图与所述的4×的下采样特征图联接起来，得到了融合特征的4×下采样特征图，输出是/>尺寸的融合特征的4×下采样特征图。

接下来，通过一次将采样操作将上述的4×下采样特征图变为8×下采样特征图，再通过一次降采样操作将其变为16×下采样特征图，采用稀疏上采样和优化操作从上述的16×下采样特征图生成新的8×下采样特征图，然后将所述新的8×特征图与所述的8×下采样特征图联接在一起，来获得更加丰富的多尺度信息，输出是尺寸为的特征图。其中优化操作包括三次卷积核为3×3，padding为1的三维稀疏卷积和一次1×1的卷积操作来保证尺寸不变的情况下改变通道数。

接下来，采用压缩至鸟瞰图方法采用Z轴向压缩方法，输入是所述的的特征图，输出/>的伪图像特征图。

步骤S4、采用训练好的由浅至深回归网络对所述多尺度融合的伪图像特征图进行多重聚合，输出目标检测结果。

如图4所示，本实施例由浅至深回归网络包括浅层回归和深度回归，所述的浅层回归的输入是伪图像特征图，所述的浅层回归采用三个块Block₁，Block₂，Block₃从上到下对输入的伪图像特征图进行下采样。所述的块Block₁，Block₂，Block₃包含多个2维卷积层，卷积层之后是一个批量正则化操作和ReLU激活函数。所述的三个块的输出B₁，B₂，B₃分别是尺寸为和/>的特征图。

所述的浅层回归通过三个不同分辨率特征图B₁，B₂，B₃的联接，生成了新的尺寸为的混合特征图F_C。所述的/>的混合特征图F_C通过分类和回归分支，为所述的深度回归提供浅层的三维包围框。采用1×1的卷积操作将所述的混合特征图F_C转换成F_B用于深度特征提取。

所述的深度回归在小的感受野上将所述的尺寸为的特征图B₃进行2×上采样得到B_3-UP，并将其与尺寸为/>的特征图B₂在/>尺度层面联接，得到输出B_2-UP。然后对所述的输出B_3-UP进行一次卷积和一次上采样操作，得到特征图F₃。然后同理对所述的输出B_2-UP进行两次卷积和一次上采样操作，得到特征图F₂。同样的，所述的深度回归在/>尺度层面将尺寸/>的特征图B₁和F₂进行多尺度的联接，然后通过三次卷积操作和一次上采样操作，输出特征图F₁。

通过一系列的卷积和上采样操作，得到了更深层的特征图F＝{F₁，F₂，F₃}。为了从所述的浅层回归中提取浅层语义信息，所述的深层回归通过元素相加的方式将F和所述的浅层特征图F_B结合起来。最后经过3×3×3的卷积运算后，所述的深度回归联接浅层到深层的特征图获得输出特征图F_R，再将所述的输出特征图F_R进行分类分支和三维包围框回归分支，最后输出的就是三维目标检测预测结果。

在一个实施例中，本申请由浅至深回归网络采用焦点损失函数来构建浅层回归损失函数和深度回归损失函数，采用所述的浅层回归损失函数和深度回归损失函数来构建由浅至深回归网络的整体损失函数。

其中，所述的焦点损失函数为：

其中p^a代表了锚点的类概率。α_a是一个0-1之间的固定权重值，本申请中取0.25，不参与训练。同样的γ是一个大于0的固定权重值，本申请中取2，不参与训练。

所述的浅层回归损失函数和深层回归损失函数为：

其中上标S和D表示浅层回归和深层回归，smoothL1损失函数用于三维包围框回归，/>和Δres代表预测残差和回归地面真值，δ和β分别代表损失权重，N_pos代表正样本的数量。

所述的整体损失函数为：

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于稀疏多尺度体素特征融合的三维目标检测方法，其特征在于，所述的基于稀疏多尺度体素特征融合的三维目标检测方法，包括：

采用训练好的由浅至深回归网络对所述多尺度融合的伪图像特征图进行多重聚合，输出目标检测结果；

其中，所述由浅至深回归网络包括浅层回归和深度回归；

所述由浅至深回归网络采用焦点损失函数来构建浅层回归损失函数和深度回归损失函数，采用所述的浅层回归损失函数和深度回归损失函数来构建由浅至深回归网络的整体损失函数；

所述的焦点损失函数为：

其中p^a代表了锚点的类概率，α_a是一个0-1之间的固定权重值，γ是一个大于0的固定权重值；

所述的浅层回归损失函数和深层回归损失函数为：

所述的整体损失函数为：

2.根据权利要求1所述的基于稀疏多尺度体素特征融合的三维目标检测方法，其特征在于，所述注意力特征提取包括：

3.根据权利要求1所述的基于稀疏多尺度体素特征融合的三维目标检测方法，其特征在于，所述将注意力特征和平均特征进行联接操作融合为三维稀疏特征图，包括：

4.根据权利要求1所述的基于稀疏多尺度体素特征融合的三维目标检测方法，其特征在于，所述三种不同尺度的三维稀疏特征图分别为第一特征图、第二特征图和第三特征图，所述将三种不同尺度的三维稀疏特征图进行多尺度特征融合并压缩至鸟瞰图，得到多尺度融合的伪图像特征图包括：