CN117351450B

CN117351450B - 一种单目3d检测方法、装置、电子设备及存储介质

Info

Publication number: CN117351450B
Application number: CN202311658590.2A
Authority: CN
Inventors: 朱菲婷
Original assignee: Jika Intelligent Robot Co ltd
Current assignee: Jika Intelligent Robot Co ltd
Priority date: 2023-12-06
Filing date: 2023-12-06
Publication date: 2024-02-27
Anticipated expiration: 2043-12-06
Also published as: CN117351450A

Abstract

本发明实施例公开了一种单目3D检测方法、装置、电子设备及存储介质。该方法包括：对单目图像进行特征提取，确定单目图像的检测损失函数；对所述单目图像进行深度估计预训练得到深度估计预训练权重，并对所述深度估计预训练权重进行密集深度估计得到深度损失函数；确定采用点云BEV特征对图像BEV特征进行特征蒸馏得到的BEV特征蒸馏损失函数；依据所述检测损失函数、深度损失函数以及BEV特征蒸馏损失函数确定单目3D检测模型的整体损失函数，并依据所述整体损失函数确定目标单目3D检测模型；采用所述目标单目3D检测模型对待检测目标进行单目3D检测。本方案可有效提高模型检测效果以及模型检测速度。

Description

一种单目3D检测方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及自动驾驶技术领域，尤其涉及一种单目3D检测方法、装置、电子设备及存储介质。

背景技术

在自动驾驶中，三维目标检测可分为基于LiDAR点云的方法、基于立体图像的方法、基于单目图像的方法和基于多模态的方法。与激光雷达传感器相比，单目摄像机具有价格低廉、信息色彩丰富、感知密集等独特优势。

然而，由于单目图像缺乏精确的三维信息，基于LiDAR的三维探测器与单目三维探测器之间存在很大的性能差距。截断目标预测的解耦方法，虽能够提高截断物体的检测效果，但会加长后处理时间从而影响推理速度。单目3D检测的跨模态知识蒸馏网络（CMKD，Cross-Modality Knowledge Distillation），能将特征和响应的知识从激光雷达模态转移到图像模态，但是该模型对硬件要求较高，加大了部署成本和难度。

发明内容

本发明实施例提供一种单目3D检测方法、装置、电子设备及存储介质，以实现充分利用跨模态知识蒸馏方案带来的精度收益，提高单目3D模型检测效果，又可以提高单目3D模型检测速度。

第一方面，本发明实施例提供了一种单目3D检测方法，包括：

对单目图像进行特征提取，确定单目图像的检测损失函数；

对所述单目图像进行深度估计预训练得到深度估计预训练权重，并对所述深度估计预训练权重进行密集深度估计得到深度损失函数；

确定采用点云BEV特征对图像BEV特征进行特征蒸馏得到的BEV特征蒸馏损失函数；

依据所述检测损失函数、深度损失函数以及BEV特征蒸馏损失函数确定单目3D检测模型的整体损失函数，并依据所述整体损失函数训练所述目标单目3D检测模型；

采用所述目标单目3D检测模型对待检测目标进行单目3D检测。

第二方面，本发明实施例还提供了一种单目3D检测装置，包括：

检测损失函数确定模块，用于对单目图像进行特征提取，确定单目图像的检测损失函数；

深度损失函数确定模块，用于对所述单目图像进行深度估计预训练得到深度估计预训练权重，通过对深度估计预训练权重进行密集深度估计得到深度损失函数；

BEV特征蒸馏损失函数确定模块，用于确定采用点云BEV特征对图像BEV特征进行特征蒸馏得到的BEV特征蒸馏损失函数；

目标单目3D检测模型训练模块，用于依据所述检测损失函数、深度损失函数以及BEV特征蒸馏损失函数确定单目3D检测模型的整体损失函数，并依据所述整体损失函数训练所述目标单目3D检测模型；

单目3D检测模块，用于采用所述目标单目3D检测模型对待检测目标进行单目3D检测。

第三方面，本发明实施例还提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所述的单目3D检测方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所述的单目3D检测方法。

本发明实施例提供了一种单目3D检测方法、装置、电子设备和存储介质，通过对单目图像进行特征提取，确定单目图像的检测损失函数；对所述单目图像进行深度估计预训练得到深度估计预训练权重，通过对深度估计预训练权重进行密集深度估计得到深度损失函数；确定采用点云BEV特征对图像BEV特征进行特征蒸馏得到的BEV特征蒸馏损失函数；依据所述检测损失函数、深度损失函数以及BEV特征蒸馏损失函数确定单目3D检测模型的整体损失函数，并依据所述整体损失函数确定目标单目3D检测模型；采用所述目标单目3D检测模型对待检测目标进行单目3D检测。采用本发明实施例的技术方案，首先使用深度估计预训练进行全图的密集深度估计，得到深度估计预训练权重，在训练阶段加载深度估计预训练权重，将深度估计解码头权重冻结后，训练其他两个模块。第一个模块是采用截断目标解偶后的热点估计来定位目标的伪2D投影中心点，然后使用不同的分支来预测物体的其他属性，例如物体的维度、深度、方向等。第二个模块为辅助模块，首先通过深度估计得到图像的密集深度表示，然后将深度特征进行相机内外参变换后进行体素采样提取图像BEV特征，使用点云BEV特征对图像BEV特征进行跨模态知识蒸馏。所述单目3D检测方法不仅能充分利用到跨模态知识蒸馏方案带来的精度收益，提高模型检测效果，又可以提高模型检测速度；同时，该方案的框架具有很广泛的适用性，辅助模块可以替换成多种先进的模型组合以达到理想的检测效果。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例中提供的一种单目3D检测方法的流程图；

图2是本发明实施例中提供的一种基于BEV特征蒸馏的单目3D检测方法整体框架示意图；

图3是本发明实施例中提供的一种截断目标中心点示意图；

图4是本发明实施例中提供的一种截断和非截断目标的热力示意图；

图5是本发明实施例中提供的一种深度估计预训练模块的结构示意图；

图6是本发明实施例中提供的一种特征视图转换及共享的结构示意图；

图7是本发明实施例中提供的一种特征蒸馏时特征通道对齐的结构示意图；

图8是本发明实施例中提供的一种单目3D检测装置的结构示意图；

图9是本发明实施例中提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前，应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作（或步骤）描述成顺序的处理，但是其中的许多操作（或步骤）可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

其中，本申请技术方案中对数据的获取、存储、使用以及处理等均符合国家法律法规的相关规定。

图1是本发明实施例中提供的一种单目3D检测方法的流程图，本实施例可适用于单目3D检测的情况，本实施例的方法可以由单目3D检测装置来执行，该装置可以采用硬件和/或软件的方式来实现。该装置可以配置于单目3D检测的服务器中。该方法具体包括如下步骤：

S110、对单目图像进行特征提取，确定单目图像的检测损失函数。

三维物体检测是许多计算机视觉应用的关键组成部分，如自动驾驶和机器人导航，但现有技术中的方案都无法提供一个既能提高检测效果又易于在低算力平台部署的方案。因此，本发明实施例提供了一种基于BEV特征蒸馏的单目3D检测方法。参见图2，一方面，通过对单目图像进行特征提取确定检测损失函数；另一方面，对单目图像进行密集深度估计确定深度损失函数，并通过特征蒸馏确定BEV特征蒸馏损失函数。将获取的各损失函数进行叠加，确定整体损失函数以对单目3D检测模型进行训练。本发明实施例提供的单目3D检测方法，不仅能充分利用跨模态知识蒸馏方案带来的精度收益，提高模型检测效果，又可以提高模型检测速度。

作为一种可选的但非限定性的实现方式，所述对单目图像进行特征提取，确定单目图像的检测损失函数，包括但不限于步骤A1-A3：

步骤A1：对单目图像进行特征提取，并确定特征提取后的目标单目图像。

步骤A2：采用截断目标解偶后的热点估计对目标物体的伪2D投影中心点进行定位，并确定所述目标物体的至少两个属性信息；其中，所述目标单目图像中包括目标物体，所述目标物体的至少两个属性信息包括目标物体的中心点偏移量、深度、长宽高以及方向。

步骤A3：依据所述目标物体的中心点定位信息以及目标物体的至少两个属性信息确定单目图像的检测损失函数。

其中，首先对单目图像进行特征提取，确定单目图像的检测损失函数。例如，本发明实施例中给定一个尺寸为3×H×W的RGB单目图像作为输入，经过特征骨干网络提取特征后，获得输出特征图F_feat，该特征图进入两个模块，第一模块是检测模块，第二模块是辅助模块。

本发明实施例中通过检测模块获取单目图像中目标物体的属性信息，并依据属性信息确定单目图像的检测损失函数。其中，检测模块一共有六个不同的检测头（head），分别为截断解耦的热图头 (heatmap head)、中心点偏移量（offsets head）、深度（depthhead）、目标长宽高（dims head）以及目标方向（alpha head）。其中，通过截断接偶的热图头进行中心点预测和类别预测；中心点偏移量可以是指目标真实中心点和经过截断解偶后的投影中心点之间的偏移量；深度可以是指目标实际距离。本发明实施例中通过提取目标物体的截断接偶的热力图、中心点偏移量、深度、目标长宽高以及目标方向等特征，确定单目图像的检测损失函数。

作为一种可选的但非限定性的实现方式，所述采用截断目标解偶后的热点估计对目标物体的伪2D投影中心点进行定位，包括但不限于步骤B1-B4：

步骤B1：确定目标物体在二维检测框中的二维中心点。

步骤B2：确定目标物体三维中心点在目标单目图像上的投影中心点。

步骤B3：若投影中心点未处于目标单目图像中，则将二维中心点与投影中心点进行连线，并将连线与目标单目图像边缘的交点作为目标物体的伪2D投影中心点回归真值。

步骤B4：若投影中心点处于目标单目图像中，则将投影中心点作为目标物体的伪2D投影中心点回归真值。

其中，本发明实施例中采用截断解耦的方式对目标物体的伪2D投影中心点回归真值进行定位。参见图3，截断解耦的热力图中X_2d是指目标物体的2D框中心点，X_c是目标物体3D中心点投影在单目图像上的投影中心点。参见图4，当X_c落在目标单目图像外时，将X_2d与X_c进行连线，将连线与目标单目图像边缘的交点作为目标物体的伪2D投影中心点回归真值，在该中心点位置使用椭圆高斯核生成热力图（heatmap）。当X_c落在目标单目图像内时，将X_c作为目标物体的伪2D投影中心点回归真值，在该中心点位置使用椭圆高斯核生成热力图。

在本发明实施例的一种可选方案中，在确定目标物体的伪2D投影中心点回归真值后，再确定中心点偏移分支预测的偏移量，即该投影点到真实投影中心点的偏移量；将伪2D投影中心点回归真值与投影点到真实投影中心点的偏移量相加，得到目标物体实际的中心点坐标。

S120、对所述单目图像进行深度估计预训练得到深度估计预训练权重，并对所述深度估计预训练权重进行密集深度估计得到深度损失函数。

其中，在单目图像经过特征骨干网络提取特征后，获得输出特征图F_feat，该特征图进入两个模块，第二模块是辅助模块。所述辅助模型用于对单目图像进行深度估计以及特征蒸馏，以辅助检测模块对目标物体进行单目3D检测。

在辅助模块中，首先对目标单目图像进行深度估计预训练得到深度估计预训练权重，再对所述深度估计预训练权重进行密集深度估计得到深度损失函数。所述深度估计预训练的整体框架分为特征提取和解码头两部分，参见图5，特征提取部分的网络结构和单目3D检测模型使用相同结构，以便共享权重；解码头（decode head）模块包括3×3卷积、1×1卷积以及sigmoid层。深度估计预训练模型将深度分为D个均分离散值，其中每个D代表的实际深度为：

S130、确定采用点云BEV特征对图像BEV特征进行特征蒸馏得到的BEV特征蒸馏损失函数。

其中，在目标单目图像进行深度估计预训练后，确定图像BEV特征；确定经点云特征提取后的点云BEV特征；采用点云BEV特征对图像BEV特征进行特征蒸馏得到的BEV特征蒸馏损失函数。

作为一种可选的但非限定性的实现方式，所述确定采用点云BEV特征对图像BEV特征进行特征蒸馏得到的BEV特征蒸馏损失函数，包括但不限于步骤C1-C3：

步骤C1：采用激光点云模型结构进行点云特征提取，确定点云BEV特征。

步骤C2：将经深度估计预训练后的深度分布特征以及经特征提取后的图像特征进行视图转换以及共享，确定图像BEV特征。

步骤C3：采用点云BEV特征对图像BEV特征进行跨模态特征蒸馏，确定BEV特征蒸馏损失函数。

其中，参见图2，特征F_feat经过冻结的密集深度估计head（不冻结backbone和neck）得到深度分布D_depth，特征F_feat和深度分布D_depth通过视图变换（view transform）和共享（pooling）的处理后得到了BEVcamera特征图；与此同时，当前帧的LiDAR点云也经过特征提取得到了BEVLidar特征图，该过程可以采用多种先进的激光点云模型结构；然后利用BEVLidar特征来对BEVcamera特征进行知识蒸馏，确定BEV特征蒸馏损失函数。采用BEVLidar特征来对BEVcamera特征进行知识蒸馏，能够利用激光点云的丰富语义信息去辅助图像特征的学习。

在本发明实施例的一种可选方案中，将已获取的特征F_feat和深度分布D_depth进行视图转换以及共享，确定图像BEV特征。参见图6，F_feat是图像特征提取模块的输出，即目标单目图像的特征；D_depth是深度估计模块的输出，两者经过view transform模块得到F_feat ^3d，具体表现为：

预定义一个视锥空间，大小为B×h×w×D×3，其中B表示batch大小，D表示深度分布离散值，h、w分别表示输入图像经过4倍下采样后的图像高度、宽度，3表示该视锥空间点在输入图像上的像素位置索引值(u，v，d)。P为相机校准矩阵，将视锥空间中的每个像素坐标点与P相乘，即可得到视锥空间点在自车（ego）坐标系下对应的坐标位置索引值（x，y，z），记为Frustum。同时预定义一个特征全为0的Voxel空间，Voxel空间大小设为B×C×X×Y×Z，其中C为特征通道数，X×Y×Z和BEV空间大小一致，例如若将BEV空间的单位大小定义为（0.8m，0.8m，8m），即可表示一个实际空间为（0.5Xm，0.5Ym，1.5Zm）大小的BEV范围。根据Voxel空间的设定大小，将Frustum上点的位置索引值（x，y，z）分配到Voxel空间。接着将F_feat ^3d和Voxel空间一同输入pooling模块，该模块从F_feat ^3d中根据计算的Voxel空间点对应的索引值提取特征填充到Voxel空间对应点的特征；由于Voxel空间中每个网格可能会包含多个Frustm上的索引值，需要进行特征池化，得到Voxel特征；最后将Voxel特征进行reshape得到B×C^’×X×Y大小的BEVcamera特征图，其中C^’=C×Z。

作为一种可选的但非限定性的实现方式，所述采用点云BEV特征对图像BEV特征进行跨模态特征蒸馏，确定BEV特征蒸馏损失函数，包括但不限于步骤D1-D3：

步骤D1：确定点云BEV特征的第一特征通道数以及图像BEV特征的第二特征通道数；其中，第一特征通道数大于第二特征通道数。

步骤D2：采用特征对齐模块将点云BEV特征的第一特征通道数与图像BEV特征的第二特征通道数进行特征通道对齐处理；其中，所述特征对齐模块的输入为第二特征通道数，输出为第一特征通道数。

步骤D3：将经特征通道对齐处理后的点云BEV特征以及图像BEV特征进行跨模态特征蒸馏，确定BEV特征蒸馏损失函数。

其中，特征蒸馏模块的输入分为教师特征以及学生特征，其中教师特征可以是指BEVLidar特征，学生特征可以是指BEVcamera特征。通常情况下，教师特征图的通道数大于学生通道数即C₁>C₂，二者无法完全对齐。为解决该问题，参见图7，在学生特征图后增加特征对齐模块，该特征对齐模块采用输入为C₂，输出为C₁，卷积核大小为1×1的卷积层。将学生特征图通道数与教师特征图通道数对齐，从而实现特征点的一一对应，以便计算BEV特征蒸馏损失函数。

S140、依据所述检测损失函数、深度损失函数以及BEV特征蒸馏损失函数确定单目3D检测模型的整体损失函数，并依据所述整体损失函数训练所述目标单目3D检测模型。

其中，在训练过程中，所述单目3D检测模型的整体损失函数为：

其中，Loss表征单目3D检测模型的整体损失函数，Loss_Depth表征深度损失函数，Loss_BEV表征BEV特征蒸馏损失函数，Loss_Det表征检测损失函数。

作为一种可选的但非限定性的实现方式，所述依据所述检测损失函数、深度损失函数以及BEV特征蒸馏损失函数确定单目3D检测模型的整体损失函数，并依据所述整体损失函数确定目标单目3D检测模型，包括但不限于步骤E1-E2：

步骤E1：将所述检测损失函数、深度损失函数以及BEV特征蒸馏损失函数进行相加，得到所述单目3D检测模型的整体损失函数。

步骤E2：依据所述整体损失函数对单目3D检测模型进行训练，确定目标单目3D检测模型；其中，所述深度估计预训练权重包括解码头权重，在对所述单目3D检测模型进行训练时，将深度估计解码头权重进行冻结。

其中，将所述检测损失函数、深度损失函数以及BEV特征蒸馏损失函数进行相加，得到所述单目3D检测模型的整体损失函数；依据所述整体损失函数对单目3D检测模型进行训练，确定目标单目3D检测模型。其中，在整体损失函数最小时，训练得到的单目3D检测模型最好，能更准确的对目标物体进行单目3D检测。

经过深度估计预训练后的模型具有了感知图像深度的能力，当进行单目3D检测模型训练时，模型加载预训练权重；所述深度估计预训练权重包括但不限于深度估计解码头权重，为了去除深度估计解码头对单目检测模块的影响，冻结深度估计解码头权重，以保证特征提取部分和检测模块的检测头正常梯度回传。

S150、采用所述目标单目3D检测模型对待检测目标进行单目3D检测。

其中，在确定目标单目3D检测模型后，采用所述目标单目3D检测模型对待检测目标图像中的目标物体进行单目3D检测，包括但不限于确定目标物体的中心点、中心点偏移量、深度、长宽高以及方向。

作为一种可选的但非限定性的实现方式，所述采用所述目标单目3D检测模型对待检测目标进行单目3D检测，包括但不限于步骤F1-F3：

步骤F1：确定包括待检测目标的待检测图像。

步骤F2：将所述待检测图像输入至所述目标单目3D检测模型中，确定待检测目标的中心点、中心点偏移量、深度、长宽高以及方向。

步骤F3：依据待检测目标的中心点、中心点偏移量、深度、长宽高以及方向，对待检测目标进行单目3D检测。

其中，将待检测图像输入至所述目标单目3D检测模型中，对所述待检测图像中包括的待检测目标的中心点、中心点偏移量、深度、长宽高以及方向进行检测；依据所述待检测目标的中心点、中心点偏移量、深度、长宽高以及方向，对待检测图像进行单目3D检测。

本发明实施例提供了一种单目3D检测方法，通过对单目图像进行特征提取，确定单目图像的检测损失函数；对所述单目图像进行深度估计预训练得到深度估计预训练权重，并对所述深度估计预训练权重进行密集深度估计得到深度损失函数；确定采用点云BEV特征对图像BEV特征进行特征蒸馏得到的BEV特征蒸馏损失函数；依据所述检测损失函数、深度损失函数以及BEV特征蒸馏损失函数确定单目3D检测模型的整体损失函数，并依据所述整体损失函数确定目标单目3D检测模型；采用所述目标单目3D检测模型对待检测目标进行单目3D检测。采用本发明实施例的技术方案，首先使用深度估计预训练进行全图的密集深度估计，得到深度估计预训练权重，在训练阶段加载深度估计预训练权重，将深度估计解码头权重冻结后，训练其他两个模块。第一个模块是采用截断目标解偶后的热点估计来定位目标的伪2D投影中心点回归真值，然后使用不同的分支来预测物体的其他属性，例如物体的维度、深度、方向等。第二个模块为辅助模块，首先通过深度估计得到图像的密集深度表示，然后将深度特征进行相机内外参变换后进行体素采样提取图像BEV特征，使用点云BEV特征对图像BEV特征进行跨模态知识蒸馏。所述单目3D检测方法不仅能充分利用到跨模态知识蒸馏方案带来的精度收益，提高模型检测效果，又可以提高模型检测速度；同时，该方案的框架具有很广泛的适用性，辅助模块可以替换成多种先进的模型组合以达到理想的检测效果。

图8是本发明实施例中提供的一种单目3D检测装置的结构示意图，本实施例的技术方案可适用于单目3D检测的情况，该装置可由软件和/或硬件实现，并一般集成在任何具有网络通信功能的电子设备上，该电子设备包括但不限于：服务器、电脑、个人数字助理等设备。如图8所示，本实施例中提供的单目3D检测装置，可包括：检测损失函数确定模块810、深度损失函数确定模块820、BEV特征蒸馏损失函数确定模块830、目标单目3D检测模型训练模块840以及单目3D检测模块850；其中，

检测损失函数确定模块810，用于对单目图像进行特征提取，确定单目图像的检测损失函数；

深度损失函数确定模块820，用于对所述单目图像进行深度估计预训练得到深度估计预训练权重，并对所述深度估计预训练权重进行密集深度估计得到深度损失函数；

BEV特征蒸馏损失函数确定模块830，用于确定采用点云BEV特征对图像BEV特征进行特征蒸馏得到的BEV特征蒸馏损失函数；

目标单目3D检测模型训练模块840，用于依据所述检测损失函数、深度损失函数以及BEV特征蒸馏损失函数确定单目3D检测模型的整体损失函数，并依据所述整体损失函数确定目标单目3D检测模型；

单目3D检测模块850，用于采用所述目标单目3D检测模型对待检测目标进行单目3D检测。

在上述实施例的基础上，可选的，所述检测损失函数确定模块，具体用于：

对单目图像进行特征提取，并确定特征提取后的目标单目图像；

采用截断目标解偶后的热点估计对目标物体的伪2D投影中心点进行定位，并确定所述目标物体的至少两个属性信息；其中，所述目标单目图像中包括目标物体，所述目标物体的至少两个属性信息包括目标物体的中心点偏移量、深度、长宽高以及方向；

依据所述目标物体的中心点定位信息以及目标物体的至少两个属性信息确定单目图像的检测损失函数。

在上述实施例的基础上，可选的，所述检测损失函数确定模块，还具体用于：

确定目标物体在二维检测框中的二维中心点；

确定目标物体三维中心点在目标单目图像上的投影中心点；

若投影中心点未处于目标单目图像中，则将二维中心点与投影中心点进行连线，并将连线与目标单目图像边缘的交点作为目标物体的伪2D投影中心点回归真值；

若投影中心点处于目标单目图像中，则将投影中心点作为目标物体的伪2D投影中心点回归真值。

在上述实施例的基础上，可选的，所述BEV特征蒸馏损失函数确定模块，具体用于：

采用激光点云模型结构进行点云特征提取，确定点云BEV特征；

将经深度估计预训练后的深度分布特征以及经特征提取后的图像特征进行视图转换以及共享，确定图像BEV特征；

采用点云BEV特征对图像BEV特征进行跨模态特征蒸馏，确定BEV特征蒸馏损失函数。

在上述实施例的基础上，可选的，所述BEV特征蒸馏损失函数确定模块，还具体用于：

确定点云BEV特征的第一特征通道数以及图像BEV特征的第二特征通道数；其中，第一特征通道数大于第二特征通道数；

采用特征对齐模块将点云BEV特征的第一特征通道数与图像BEV特征的第二特征通道数进行特征通道对齐处理；其中，所述特征对齐模块的输入为第二特征通道数，输出为第一特征通道数；

将经特征通道对齐处理后的点云BEV特征以及图像BEV特征进行跨模态特征蒸馏，确定BEV特征蒸馏损失函数。

在上述实施例的基础上，可选的，所述目标单目3D检测模型训练模块，具体用于：

将所述检测损失函数、深度损失函数以及BEV特征蒸馏损失函数进行相加，得到所述单目3D检测模型的整体损失函数；

依据所述整体损失函数对单目3D检测模型进行训练，确定目标单目3D检测模型；其中，所述深度估计预训练权重包括解码头权重，在对所述单目3D检测模型进行训练时，将深度估计解码头权重进行冻结。

在上述实施例的基础上，可选的，所述单目3D检测模块，具体用于：

确定包括待检测目标的待检测图像；

将所述待检测图像输入至所述目标单目3D检测模型中，确定待检测目标的中心点、中心点偏移量、深度、长宽高以及方向；

依据待检测目标的中心点、中心点偏移量、深度、长宽高以及方向，对待检测目标进行单目3D检测。

本发明实施例中所提供的单目3D检测装置可执行上述本发明任意实施例中所提供的单目3D检测方法，具备执行该单目3D检测方法相应的功能和有益效果，详细过程参见前述实施例中单目3D检测方法的相关操作。

图9是本发明实施例中提供的一种电子设备的结构示意图。电子设备10旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备（如头盔、眼镜、手表等）和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图9所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器（ROM）12、随机访问存储器（RAM）13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器（ROM）12中的计算机程序或者从存储单元18加载到随机访问存储器（RAM）13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出（I/O）接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如单目3D检测方法。

在一些实施例中，单目3D检测方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM13并由处理器11执行时，可以执行上文描述的单目3D检测方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行单目3D检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种单目3D检测方法，其特征在于，所述方法包括：

对单目图像进行特征提取，确定单目图像的检测损失函数；

依据所述检测损失函数、深度损失函数以及BEV特征蒸馏损失函数确定单目3D检测模型的整体损失函数，并依据所述整体损失函数确定目标单目3D检测模型；

采用所述目标单目3D检测模型对待检测目标进行单目3D检测；

其中，所述对单目图像进行特征提取，确定单目图像的检测损失函数，包括：

对单目图像进行特征提取，并确定特征提取后的目标单目图像；采用截断目标解偶后的热点估计对目标物体的伪2D投影中心点进行定位，并确定所述目标物体的至少两个属性信息；其中，所述目标单目图像中包括目标物体，所述目标物体的至少两个属性信息包括目标物体的中心点偏移量、深度、长宽高以及方向；依据所述目标物体的中心点定位信息以及目标物体的至少两个属性信息确定单目图像的检测损失函数；

相应的，所述采用截断目标解偶后的热点估计对目标物体的伪2D投影中心点进行定位，包括：

确定目标物体在二维检测框中的二维中心点；确定目标物体三维中心点在目标单目图像上的投影中心点；若投影中心点未处于目标单目图像中，则将二维中心点与投影中心点进行连线，并将连线与目标单目图像边缘的交点作为目标物体的伪2D投影中心点回归真值；若投影中心点处于目标单目图像中，则将投影中心点作为目标物体的伪2D投影中心点回归真值。

2.根据权利要求1所述的方法，其特征在于，所述确定采用点云BEV特征对图像BEV特征进行特征蒸馏得到的BEV特征蒸馏损失函数，包括：

3.根据权利要求2所述的方法，其特征在于，所述采用点云BEV特征对图像BEV特征进行跨模态特征蒸馏，确定BEV特征蒸馏损失函数，包括：

4.根据权利要求1所述的方法，其特征在于，所述依据所述检测损失函数、深度损失函数以及BEV特征蒸馏损失函数确定单目3D检测模型的整体损失函数，并依据所述整体损失函数确定目标单目3D检测模型，包括：

5.根据权利要求1所述的方法，其特征在于，所述采用所述目标单目3D检测模型对待检测目标进行单目3D检测，包括：

确定包括待检测目标的待检测图像；

6.一种单目3D检测装置，其特征在于，所述装置包括：

深度损失函数确定模块，用于对所述单目图像进行深度估计预训练得到深度估计预训练权重，并对所述深度估计预训练权重进行密集深度估计得到深度损失函数；

目标单目3D检测模型训练模块，用于依据所述检测损失函数、深度损失函数以及BEV特征蒸馏损失函数确定单目3D检测模型的整体损失函数，并依据所述整体损失函数确定目标单目3D检测模型；

单目3D检测模块，用于采用所述目标单目3D检测模型对待检测目标进行单目3D检测；

其中，所述检测损失函数确定模块，具体用于：

相应的，所述检测损失函数确定模块，还具体用于：

7.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现权利要求1-5中任一所述的单目3D检测方法。

8.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-5中任一所述的单目3D检测方法。