CN116703996A

CN116703996A - 基于实例级自适应深度估计的单目三维目标检测算法

Info

Publication number: CN116703996A
Application number: CN202310517996.2A
Authority: CN
Inventors: 夏晨星; 赵文俊; 葛斌; 高修菊; 崔建华; 陶展鹏; 段秀真; 王晶晶
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2023-05-09
Filing date: 2023-05-09
Publication date: 2023-09-05

Abstract

本发明属于计算机视觉领域领域，提供了一种基于实例级自适应深度估计的单目三维目标检测算法，包括以下步骤：首先利用从ImageNet中训练好的DLA‑34主干网络，作为编码器从输入图像中编码初始多层次特征；然后，利用全局的特征表示，将预测最终深度值作为离散深度区间中心值和实例特征概率表示的线性组合，结合二维目标检测区域分布获得实例级的稀疏深度图，并得到隐含的深度空间线索特征信息；之后，利用空间增强注意力模块将深度线索特征信息引入三维目标检测分支，并通过金字塔池化操作学习不同尺度下的目标空间特征表示；最后，利用多个损失函数分层优化多个检测任务的监督学习，并利用混合损失函数训练此模型。

Description

基于实例级自适应深度估计的单目三维目标检测算法

技术领域：

本发明涉及计算机视觉领域和自动驾驶领域，具体来说，涉及了基于实例级自适应深度估计的单目三维目标检测算法。

背景技术：

本部分的陈述仅仅是涉及到了与本发明相关的背景技术，并不必然构成现有技术。

三维目标检测是一项重要的计算机视觉任务，它从图像中提取关键的三维信息，如物体的位置、大小和方向。目前，许多方法利用激光雷达、立体相机和深度相机等传感器，以点云、立体图像和深度图像的形式获取数据，有效地提高了三维目标检测的精度。然而，这些传感器的成本和复杂性给下游任务带来了挑战。相比之下，单目三维目标检测只需要二维图像和摄像机校准信息就可以实现三维目标检测。由于其简单性和成本效益，单目三维目标检测在自动驾驶、视觉导航和机器人等领域获得了越来越多的关注。

目前，基于单目方法和基于激光雷达方法之间存在着很大的性能差异。这可以归因于激光雷达能够提供更准确和更密集的点云数据，而单目图像则产生有限和模糊的深度线索。其固有的挑战主要来自于单目图像中存在的有限空间信息，以及不同场景中物体大小、形状和纹理的多样性。因此，单目三维目标检测的精度仍受到一定的局限性。事实上，从输入的二维图像中估计缺失的深度信息，长期以来一直是计算机视觉领域内的一个重大挑战。

受益于当前基于激光雷达技术的单目深度估计和三维物体检测方法的研究，许多研究人员正在将他们的努力转向单目三维物体检测领域。某些方法基于从图像平面中提取对象的想法，并将2D检测提升到3D空间。最简单和最直接的方法是利用预训练的单目深度估计模型从RGB图像预测密集深度图，然后使用预校准的内部相机参数重建伪点云，最后通过基于激光的三维物体检测框架实现检测。上述方法存在相同的问题，即由于深度预测不准确、缺乏RGB上下文信息和真实与伪LIDAR数据之间固有的差异而导致性能有限。此外，某些其他研究方法将深度估计作为辅助任务，引导单目三维物体检测模型进行深度感知特征学习，从而在模型推理速度和准确性方面取得显著的改进。然而，这些上述方法不可避免地容易受到深度估计误差的影响，从而导致特征模糊和次优预测。

考虑到下游任务的实际要求，模型需要满足实时和轻量级处理的限制。某些研究方法在二维物体检测框架中增加了额外的任务分支，以学习检测到的物体的三维空间信息。这通过预测检测到的物体的中心位置(通常通过选择三维包围盒的中心投影坐标到图像平面)以及与该中心位置相关联的深度信息和其他三维属性来实现。然而，一些基于中心的方法严重依赖于直接回归深度精度，这对于提高单目三维物体检测的性能构成了瓶颈。为了充分利用先验知识，一些方法通过构建更多关键点信息来解决深度，并引入更多的空间几何约束。然而，可见关键点的遮挡和截断经常导致性能下降，这取决于可用约束的数量和质量，因为这些因素很大程度上影响准确性。此外，在2D图像中投影的3D包围盒顶点没有明确的语义含义，这使得精确定位这些顶点变得困难。此外，仅依靠对象的内部关键点将失去与其他对象或环境对应的几何线索。此外，考虑到局部空间信息预测的限制，这种方法没有考虑到目标的全局语义空间位置信息。

发明内容

为了解决上述问题，我们提出了一个基于实例级自适应深度估计的单目三维目标检测框架。该框架引入了一种新的深度求解方法，将分类和回归相结合，用于单目三维目标检测任务。首先，基于场景级全局上下文信息，我们自适应地估计每个场景的深度分布，以获得不同图像场景的最佳深度离散分布。最后，我们将其与高级局部对象语义特征的概率分布表示进行线性结合，充分探索了全局线索和局部线索之间的空间相关性。我们设计了一个自适应箱-宽度估计(ABWE)模块来解决这个问题，该模块通过三种不同的膨胀率的膨胀卷积，在全局空间背景下学习多个不同尺度上的自适应深度分布箱。为了关注实例级特征信息，我们使用RoIAlign提取局部对象概率表示，并将箱子中心线性组合。此外，为了提高该模型的三维感知能力，我们设计了一种新的空间感知增强注意(SPEA)模块。具体来说，我们通过金字塔池化层融合不同尺度的空间注意力图，增强模型的多尺度空间感知能力，并隐含地引入了深度线索，提高模型的深度特征表征能力。

本项目提供了基于实例级自适应深度估计的单眼三维目标检测算法，该方法包括以下步骤:

1.如图1所示，此单目三维目标检测算法利用从ImageNet中训练好的DLA-34主干网络，作为编码器从输入图像中编码初始多层次特征；

1.1)在开始之前，我们收集图像三维目标检测领域相关开源数据集，包括KITTI数据集，ScanNetV2数据集，Waymo数据集，SUN RGB-D数据集和Lyft L5数据集。

1.2)此发明，利用具有80256个目标标记的KITTI数据集训练数据集用于训练模型；利用KITTI数据集中的测试数据集，用于检测模型泛化性能。另外我们采取了与之前相同的测试方式，将训练集拆分3712个训练集和3349个验证集，用于本地测试验证我们的模型有效性。另外，我们还在数据增强部分采用了归一化、随机水平反转、随机水平移动、随机放大裁剪等系列的数据增强操作，这些操作有效的提高模型的检测性能和模型泛化性能。由于数据集存在的图片样本的分辨率存在不一致性，因此在后续的网络训练中，我们统一的将图片填充的(1280x342)的分辨率。

1.3)收集整理完成后，首先我们利用预训练好的DLA-34主干网络提取分辨率为(1280x342)的RGB图片，这里为了提升算法的计算效率，我们移除网络中可变形卷积部分。从主干网络中提取多层特征，并将这些特征送入Neck网络部分，为了提高模型的局部和全局的特征表示，我们分别提取了两种不同尺度的特征。

2.如图2所示，利用全局特征表示，将预测最终深度值作为离散深度区间中心值和实例特征概率表示的线性组合。首先，自适应地生成自适应的箱子宽度。然后，对局部的RoI区域生成实例级的概率分布。最后，线性组合计算最终的深度值；

2.1)首先，选择骨干网络的第4层深度的特征图作为输入。随后，为了逐步扩展接受域，增强网络从局部到全局的特征提取能力，采用三个不同扩张率的非对称卷积(空洞卷积)层提取三组相同大小的上下文特征。然后，通过元素级逐级相加来整合上下文信息，实现了这些特征与不同尺度的融合。随后，通过通道注意模块进一步增强融合区域的特征，增强关键区域的信息，同时抑制不重要区域的干扰。最后，该模块产生了两个输出：一个是空间注意力处理后的特征图，另一个是通过全局平均池化操作应用于融合的特征图得到的n维向量b。将向量b归一化，求和为1，得到箱宽向量b，如下式所示：

其中的∈＝10^-3确保每个箱子的宽度大小是严格为正数。

2.2)利用DLA34的第5层深度的特征图作为输入，该特性表示高分辨率和局部像素级信息。将其输入一个3×3卷积层，并利用自适应箱宽度估计模块的特征映射进行元素添加，以更好地补充全局和细粒度信息。然后，通过1×1的卷积层，将特征通道添加到N中，这需要与向量b维度保持一致。为了指导模型聚焦于局部对象特征，我们使用RoIAlign来裁剪和调整RoI特征的大小。RoI特征只包含对象级特征，而不包括背景噪声。最后，我们通过全局平均池化(GAP)为每个对象在进行池化为大小7×7×N的RoI特征，并通过Softmax计算得到一个P∈R^1x1xN概率分布。

2.3)最后，给定自适应箱子宽度测试模块中预测的箱子长度b，它首先通过一个简单的后处理过程将它们转换为箱子中心，具体如下式所示：

其中c(b_i)是i^th箱的中心深度。d_max和d_min最小值是最大值和数据集的最小有效深度值。最后通过下面公式线性组合得到最终深度值：

3.如图3所示，利用空间增强注意力模块将深度线索特征信息引入三维目标检测分支，并通过金字塔池化操作学习不同尺度下的目标空间特征表示，提高模型的空间感知能力，更好地捕获目标的三维属性信息；

3.1)首先在特征X上应用两个带有1×1滤波器的卷积层，生成两个新的特征图Query(Q)和Key(K)，其中{Q，K}是新特征图的降低通道数。然后将Q和K在它们的空间维度上重塑为R^C′×N，其中N＝H×W。同时，另一个卷积层也使用1×1滤波器与Y特征图相连，生成Value(V)。

3.2)利用金字塔的多尺度采样，并在特征图K和V上应用核大小为{8,6,3,2}的金字塔池化层。通过融合模块，我们将特征图Q、池化后的K和V在通道维度上分成n个块，每个块都利用不同通道的信息，从而使每个注意力头可以在注意力图中学习不同的信息。最后，我们在特征S上应用一个SoftMax层来计算空间注意图a＝N×N'。然后我对S应用SoftMax层，计算空间注意力图。接下来对块A和合并后的V的转置进行矩阵乘法。将所有结果连接起来并重塑为R^H×W×C。

3.3)在不同比例的K和V上重复所有过程并求和以得到结果M。最后，通过元素级加法操作X和来自多个尺度的求和结果来收集上下文信息。具体如下式所示：

O_i＝γM_i+X_i, (4)

其中i是X中的每个位置，γ是一个可学习的尺度参数。它被初始化为0，并逐渐学会分配更多的权重。

4.利用多个联合损失函数优化多个任务监督学习，主要分为二维目标检测任务损失和三维目标检测任务损失；

4.1)二维目标检测任务损失函数包含：物体中心位置的关键点热力图的焦点损失函数(L_heatmap)、二维检测框大小损失函数(L_{size_2d})和二维中心偏移损失函数(L_{offset_2d})。具体如下式所示：

L_2d＝L_heatmap+L_{size_2d}+L_{offset_2d}， (5)

4.2)三维目标检测任务损失函数包含：三维中心偏移损失函数(L_{offset_3d})、三维检测框损失函数(L_dimension)、偏航角损失函数(L_head)和深度估计损失函数(L_depth)，具体如下式所示：

L_3d＝L_head+L_dimension+L_{offset_3d}+L_depth， (6)

其中深度损失函数如下式所示：

4.3)联合两个任务的损失函数，具体如下式所示：

L_total＝L_2d+L_3d，(8)

本发明的优势在于缓解目前基于中心引导的单目三维目标检测框架严重依赖于直接回归深度精度，这对于提高单目三维物体检测的性能构成了瓶颈。此外，在2D图像中投影的3D包围盒顶点没有明确的语义含义，这使得精确定位这些顶点变得困难。此外，仅依靠对象的内部关键点将失去与其他对象或环境对应的几何线索。我们引入了一种新的深度求解方法，将分类和回归相结合，用于单目三维目标检测任务。首先，基于场景级全局上下文信息，我们自适应地估计每个场景的深度分布，以获得不同图像场景的最佳深度离散分布。最后，我们将其与高级局部对象语义特征的概率分布表示进行线性结合，充分探索了全局线索和局部线索之间的空间相关性。

附图说明

图1实例级自适应深度估计的单目三维目标检测流程图

图2自适应的实例级深度宽度估计模块

图3空间感知增强注意力模块

图4“汽车”类别的算法定量比较表

图5“行人”和“骑自行车的人”类别的算法定量比较表

图6验证集算法定性比较图

图7测试集算法定性比较图

具体实施方式

下面将结合基于实例级自适应深度估计的单目三维目标检测算法发明实例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，此外，所叙述的实施例仅仅是本发明一部分实施例，而不是所有的实施例。基于本发明中的实施例，本研究方向普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护范围。

本发明的流程图框架如图1所示，本发明基于实例级自适应深度估计的单目三维目标检测算法，其具体操作说明如下：

1.如图1所示，此单目三维目标检测算法利用从ImageNet中训练好的

DLA-34主干网络，作为编码器从输入图像中编码初始多层次特征。

2.如图2所示，利用全局特征表示，将预测最终深度值作为离散深度区间中心值和实例特征概率表示的线性组合。首先，自适应地生成自适应的箱子宽度。然后，对局部的RoI区域生成实例级的概率分布。最后，线性组合计算最终的深度值。

其中∈＝10^-3的确保每个箱子的宽度大小是严格为正数。

2.2)利用DLA-34主干网络的第5层深度的特征图作为输入，该特性表示高分辨率和局部像素级信息。将其输入一个3x3卷积层，并利用自适应箱宽度估计模块的特征映射进行元素添加，以更好地补充全局和细粒度信息。然后，通过1×1的卷积层，将特征通道添加到N中，这需要与向量b维度保持一致。为了指导模型聚焦于局部对象特征，我们使用RoIAlign来裁剪和调整RoI特征的大小。RoI特征只包含对象级特征，而不包括背景噪声。最后，我们通过全局平均池化(GAP)为每个对象在进行池化为大小7×7×N的RoI特征，并通过Softmax计算得到一个P∈R^1x1xN概率分布。

3.如图3所示，利用空间增强注意力模块将深度线索特征信息引入三维目标检测分支，并通过金字塔池化操作学习不同尺度下的目标空间特征表示，提高模型的空间感知能力，更好地捕获目标的三维属性信息。

O_i＝γM_i+X_i, (4)

4.利用多个联合损失函数优化多个任务监督学习，主要分为二维目标检测任务损失和三维目标检测任务损失。

L_2d＝L_heatmap+L_{size_2d}+L_{offset_2d}， (5)

L_3d＝L_head+L_dimension+L_{offset_3d}+L_depth， (6)

其中深度损失函数如下式所示：

4.3)联合两个任务的损失函数，具体如下式所示：

L_total＝L_2d+L_3d， (8)

以上所述为本申请优选实施而以，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本申请的保护范围内。

Claims

1.基于实例级自适应深度估计的单目三维目标检测算法，其特征在于，该方法包括以下步骤：

1.1)利用从ImageNet中训练好的DLA-34主干网络，作为编码器从输入图像中编码初始多层次特征；

1.2)利用全局的特征表示，将预测最终深度值作为离散深度区间中心值和实例特征概率表示的线性组合，结合二维目标检测区域分布获得实例级的稀疏深度图，并得到隐含的深度空间线索特征信息；

1.3)利用空间增强注意力模块将深度线索特征信息引入三维目标检测分支，并通过金字塔池化操作学习不同尺度下的目标空间特征表示，提高模型的空间感知能力，利用其融合后的特征作为检测头部的特征输入；

1.4)利用多个损失函数分层优化多个检测任务的监督学习，主要分为二维目标检测任务损失和三维目标检测任务损失，并利用混合损失函数训练此模型。

2.根据权利要求1所述的基于实例级自适应深度估计的单目三维目标检测算法，其特征在于：所述步骤1.1)具体方法是：

2.1)在开始之前，我们收集图像三维目标检测领域相关开源数据集，包括KITTI数据集，ScanNetV2数据集，Waymo数据集，SUN RGB-D数据集和Lyft L5数据集。

2.2)此发明，利用具有80256个目标标记的KITTI数据集训练数据集用于训练模型；利用KITTI数据集中的测试数据集，用于检测模型泛化性能。另外我们采取了与之前相同的测试方式，将训练集拆分3712个训练集和3349个验证集，用于本地测试验证我们的模型有效性。另外，我们还在数据增强部分采用了归一化、随机水平反转、随机水平移动、随机放大裁剪等系列的数据增强操作，这些操作有效的提高模型的检测性能和模型泛化性能。由于数据集存在的图片样本的分辨率存在不一致性，因此在后续的网络训练中，我们统一的将图片填充的(1280x342)的分辨率。

2.3)收集整理完成后，首先我们利用预训练好的DLA-34主干网络提取分辨率为(1280x342)的RGB图片，这里为了提升算法的计算效率，我们移除网络中可变形卷积部分(Deformable Convolutional Networks)。从主干网络中提取多层特征，并将这些特征送入Neck网络部分，为了提高模型的局部和全局的特征表示，我们分别提取了两种不同尺度的特征。

3.根据权利要求1所述的基于实例级自适应深度估计的单目三维目标检测算法，其特征在于：所述步骤1.2)具体方法是：

3.1)首先，选择骨干网络的第4层深度的特征图作为输入。随后，为了逐步扩展接受域，增强网络从局部到全局的特征提取能力，采用三个不同扩张率的非对称卷积(空洞卷积)层提取三组相同大小的上下文特征。然后，通过元素级逐级相加来整合上下文信息，实现这些特征与不同尺度的融合。利用通道注意模块进一步增强融合区域的特征，增强关键区域的信息，同时抑制不重要区域的干扰。最后，该模块产生了两个特征输出：一个是空间注意力处理后的特征图，另一个是通过全局平均池化操作应用于融合的特征图得到的n维向量b。将向量b归一化，求和为1，得到箱宽向量b，如下式所示：

其中∈＝10^-3的确保每个箱子的宽度大小是严格为正数。

3.2)利用DLA-34主干网络的第5层深度的特征图作为输入，该特性表示高分辨率和局部像素级信息。将其输入一个3×3卷积层，并利用自适应箱宽度估计模块的特征映射进行元素添加，以更好地补充全局和细粒度信息。然后，通过1×1的卷积层，将特征通道添加到N中，这需要与向量b维度保持一致。为了指导模型聚焦于局部对象特征，我们使用RoIAlign来裁剪和调整RoI特征的大小。RoI特征只包含对象级特征，而不包括背景噪声。最后，我们通过全局平均池化(GAP)为每个对象在进行池化为大小7×7×N的RoI特征，并通过Softmax计算得到一个P∈R^1x1xN概率分布。

3.3)最后，给定自适应箱子宽度测试模块中预测的箱子长度b，它首先通过一个简单的后处理过程将它们转换为箱子中心，具体如下式所示：

4.根据权利要求1所述的基于实例级自适应深度估计的单目三维目标检测算法，其特征在于：所述步骤1.3)具体方法是：

4.1)首先在特征X上应用两个带有1×1滤波器的卷积层，生成两个新的特征图Query(Q)和Key(K)，其中{Q，K}是新特征图的降低通道数。然后将Q和K在它们的空间维度上重塑为R^C′×N，其中N＝H×W。同时，另一个卷积层也使用1×1滤波器与Y特征图相连，生成Value(V)。

4.2)利用金字塔的多尺度采样，并在特征图K和V上应用核大小为{8,6,3,2}的金字塔池化层。通过融合模块，我们将特征图Q、池化后的K和V在通道维度上分成n个块，每个块都利用不同通道的信息，从而使每个注意力头可以在注意力图中学习不同的信息。最后，我们在特征S上应用一个SoftMax层来计算空间注意图a＝N×N'。然后我对S应用SoftMax层，计算空间注意力图。接下来对块A和合并后的V的转置进行矩阵乘法。将所有结果连接起来并重塑为R^H×W×C。

4.3)在不同比例的K和V上重复所有过程并求和以得到结果M。最后，通过元素级加法操作X和来自多个尺度的求和结果来收集上下文信息。具体如下式所示：

O_i＝γM_i+X_i， (4)

5.根据权利要求1所述的基于实例级自适应深度估计的单目三维目标检测算法，其特征在于：所述步骤1.4)具体方法是：

5.1)二维目标检测任务损失函数包含：物体中心位置的关键点热力图的焦点损失函数(L_heatmap)、二维检测框大小损失函数(L_{size_2d})和二维中心偏移损失函数(L_{offset_2d})。具体如下式所示：

L_2d＝L_heatmap+L_{size_2d}+L_{offset_2d}， (5)

5.2)三维目标检测任务损失函数包含：三维中心偏移损失函数(L_{offset_3d})、三维检测框损失函数(L_dimension)、偏航角损失函数(L_head)和深度估计损失函数(L_depth)，具体如下式所示：

L_3d＝L_head+L_dimension+L_{offset_3d}+L_depth， (6)

其中深度损失函数如下式所示：

5.3)联合两个任务的损失函数，具体如下式所示：

L_total＝L_2d+L_3d， (8)。