CN116129422A

CN116129422A - 单目3d目标检测方法、装置、电子设备和存储介质

Info

Publication number: CN116129422A
Application number: CN202211612974.6A
Authority: CN
Inventors: 吴家豪; 赖志林; 杨晓东
Original assignee: Guangzhou Saite Intelligent Technology Co Ltd
Current assignee: Guangzhou Saite Intelligent Technology Co Ltd
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-05-16

Abstract

本发明公开了一种单目3D目标检测方法、装置、电子设备和存储介质，包括：获取待检测图像；将待检测图像输入目标检测模型中，得到待检测图像中目标的检测数据，检测数据包括目标的深度补偿值、3D尺寸补偿值、3D角度、目标在待检测图像中的2D检测框以及类别；根据目标的检测数据、预设的背景深度图、以及预设的3D平均尺寸生成目标的3D检测框，以作为3D目标检测结果。目标检测模型无需直接回归目标的深度，使得目标检测模型训练简单、稳定性高，预测的数据准确，并且能够预测目标的3D角度，对单目相机的安装角度无要求，单目相机可以应用于各种安装位置需求。

Description

单目3D目标检测方法、装置、电子设备和存储介质

技术领域

本发明涉及图像识别技术领域，尤其涉及一种单目3D目标检测方法、装置、电子设备和存储介质。

背景技术

随着自动驾驶技术的迅速发展，视觉感知在自动驾驶领域的需求也越来越高，传统用于自动驾驶的3D目标检测多为视觉激光结合、激光感知或双目目标检测等。

但是由于激光雷达价格比较昂贵，导致一些算法不适合大量推广，为了减轻造价成本以及随着神经网络算法的推出，很多单目相机的深度估计及3D检测算法也逐渐推出，但是效果都不太理想，不适合实际应用落地，比如目前基于单目相机的3D目标检测通常要求单目相机安装后光心与地面平行，并且通过神经网络直接回归目标的深度值，导致网络训练慢和目标检测效果不佳，无法应用到自动驾驶技术中。

发明内容

本发明提供了一种单目3D目标检测方法、装置、电子设备和存储介质，以解决目前单目3D目标检测对单目相机安装有要求，并且网络训练慢和检测效果不佳的问题。

第一方面，本发明提供了一种单目3D目标检测方法，包括：

获取待检测图像，所述待检测图像为单目相机对检测区域所采集的图像；

将所述待检测图像输入目标检测模型中，得到所述待检测图像中目标的检测数据，所述检测数据包括所述目标的深度补偿值、3D尺寸补偿值、3D角度、所述目标在所述待检测图像中的2D检测框以及类别；

根据所述目标的所述检测数据、预设的背景深度图、以及预设的3D平均尺寸生成所述目标的3D检测框，以作为3D目标检测结果。

第二方面，本发明提供了一种单目3D目标检测装置，包括：

待检测图像获取模块，用于获取待检测图像，所述待检测图像为单目相机对检测区域所采集的图像；

检测数据获取模块，用于将所述待检测图像输入目标检测模型中，得到所述待检测图像中目标的检测数据，所述检测数据包括所述目标的深度补偿值、3D尺寸补偿值、3D角度、所述目标在所述待检测图像中的2D检测框以及类别；

3D检测框生成模块，用于根据所述目标的所述检测数据、预设的背景深度图、以及预设的3D平均尺寸生成所述目标的3D检测框，以作为3D目标检测结果。

第三方面，本发明提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明第一方面所述的单目3D目标检测方法。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明第一方面所述的单目3D目标检测方法。

本发明获取单目相机对检测区域所采集的待检测图像后，将待检测图像输入目标检测模型中，得到待检测图像中目标的检测数据，其中，检测数据包括目标的深度补偿值、3D尺寸补偿值、3D角度、目标在待检测图像中的2D检测框以及类别，然后通过目标的上述检测数据、预设的背景深度图、以及预设的3D平均尺寸生成目标的3D检测框，以作为3D目标检测结果，本发明的通过目标检测模型预测目标的深度补偿值、3D尺寸补偿值、3D角度、目标在待检测图像中的2D检测框以及类别，并通过预测的数据结合预设的背景深度图、以及预设的3D平均尺寸生成目标的3D检测框，目标检测模型无需直接回归目标的深度，使得目标检测模型训练简单，目标检测模型稳定性高，预测的数据准确，并且能够预测目标的3D角度，对单目相机的安装角度无要求，单目相机可以应用于各种安装位置需求。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种单目3D目标检测方法的流程图；

图2A是本发明实施例二提供的一种单目3D目标检测方法的流程图；

图2B为本发明实施例的目标检测场景的示意图；

图3是本发明实施例三提供的一种单目3D目标检测装置的结构示意图；

图4是本发明实施例四提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

实施例一

图1为本发明实施例一提供的一种单目3D目标检测方法的流程图，本实施例可适用于检测目标并输出目标的3D数据的情况，该方法可以由单目3D目标检测装置来执行，该单目3D目标检测装置可以采用硬件和/或软件的形式实现，该单目3D目标检测装置可配置于电子设备中，如配置在与自动驾驶车辆通信的后台服务器等。如图1所示，该单目3D目标检测方法包括：

S101、获取待检测图像，待检测图像为单目相机对检测区域所采集的图像。

本实施例中，单目相机可以是设置有一个摄像头的相机，该摄像头可以是RGB摄像头，单目相机可以安装在路侧设备上，示例性地，可以安装在自动驾驶系统的路侧设备的支撑杆上，以在距离地面一定高度的位置采集图像，其中，检测区域可以是指自动驾驶中所关注的道路的区域，如路口区域等。

路侧的单目相机采集到图像后，可以将图像传输到后台服务器，后台服务器可以获取到单目相机实时采集的图像，并将当前所接收到的图像确定为待检测图像，以通过该待检测图像检测出目标相对于单目相机的3D数据，比如检测出目标相对于单目相机的三维坐标、外形尺寸、方向等，其中，目标可以是行人、车辆等。

S102、将待检测图像输入目标检测模型中，得到待检测图像中目标的检测数据，检测数据包括目标的深度补偿值、3D尺寸补偿值、3D角度、目标在待检测图像中的2D检测框以及类别。

本实施例中，目标检测模型包括特征提取网络、2D检测框提取网络、3D角度提取网络、深度补偿值提取网络以及3D尺寸补偿值提取网络，特征提取网络的输出端分别与2D检测框提取网络、3D角度提取网络、深度补偿值提取网络以及3D尺寸补偿值提取网络的输入端连接。

其中，特征提取网络用于提取待检测图像的图像特征，示例性地，特征提取网络可以是卷积神经网络，以对待检测图像进行卷积处理得到图像特征，2D检测框提取网络用于在输入图像特征时输出目标在待检测图像中的检测框以及目标的类别，类别可以表示目标为行人、车辆等，3D角度提取网络用于在输入图像特征时提取所检测到的目标的3D角度，该3D角度可以是目标的移动方向与单目相机的x轴的夹角，深度补偿值提取网络用于根据所输入的图像特征，预测目标的深度补偿值，3D尺寸补偿值提取网络用于根据所输入的图像特征，预测目标的外形尺寸的补偿值。

上述各个网络可以通过现有神经网络的有监督、无监督等训练方法所训练，在此不再详述。

S103、根据目标的检测数据、预设的背景深度图、以及预设的3D平均尺寸生成目标的3D检测框，以作为3D目标检测结果。

背景深度图可以是表示单目相机安装固定之后，在检测区域无目标时地面上各个点到单目相机的距离的深度图，即背景深度图中的每个像素点表示地面上的点到单目相机的距离。3D平均尺寸可以是不同类别的目标的平均外形尺寸，例如目标为车辆时，类别可以包括小型车辆、中型车辆以及大型车辆，不同类别的车辆具有不同的3D平均尺寸。

在一个可选实施例中，获取到目标的深度补偿值、3D尺寸补偿值、3D角度、目标在待检测图像中的2D检测框以及类别之后，可以确定与目标的类别对应的3D平均尺寸，并计算3D平均尺寸与3D尺寸补偿值的和值得到目标的3D尺寸，进一步在预设的背景深度图中确定2D检测框的中心对应的目标像素，并从背景深度图中获取目标像素关联的深度值，计算目标像素关联的深度值与深度补偿值的和值得到目标的深度值，最后采用单目相机的标定参数将2D检测框的中心位置转换为相机坐标系下的位置，得到目标的3D中心位置，其中，标定参数为待检测图像的图像坐标系到单目相机的坐标系的转换参数，根据目标的3D中心位置、3D尺寸、3D角度以及深度值生成目标的3D检测框，该3D检测框为立方体，3D检测框的中心为上述计算所得的3D中心位置，3D检测框的外形尺寸等于所计算的3D尺寸，3D检测框与单目相机的x坐标的夹角等于上述的3D夹角。

在生成3D检测框之后，可以将该3D检测框发送到自动驾驶车辆，以使得自动驾驶车辆根据自身的位置和路侧的单目相机的位置，计算检测区域中各个目标与自动驾驶车辆的相对位置关系，并进行控制决策。

实施例二

图2A为本发明实施例二提供的一种单目3D目标检测方法的流程图，本发明实施例在上述实施例一的基础上进行优化，如图2A所示，该单目3D目标检测方法包括：

S201、获取待检测图像，待检测图像为单目相机对检测区域所采集的图像。

本实施例可以通过通信网络从路侧安装的单目相机接收图像，并将当前接收到的图像确定为待检测图像。

如图2B所示为本实施例的一个场景中待检测图像的示意图，在该场景中单目相机安装在道路上方，以对道路所在的区域采集图像，其中的检测区域可以是单目相机的视角所能覆盖的区域，在该检测区域内包括道路以及在道路上行驶的车辆，当然还可以包括行人等目标。

S202、将待检测图像输入特征提取网络得到图像特征。

其中，特征提取网络为整个目标检测模型的输入层，特征提取网络可以是各种神经网络，比如可以是卷积神经网络，待检测图像经裁剪到预设的尺寸后输入到特征提取网络后提取出待检测图像的图像特征。

S203、将图像特征分别输入2D检测框提取网络、3D角度提取网络、深度补偿值提取网络以及3D尺寸补偿值，得到目标的2D检测框和类别、3D角度、深度补偿值以及3D尺寸补偿值。

本实施例中，2D检测框提取网络用于在输入图像特征时输出目标在待检测图像中的检测框以及目标的类别，类别可以表示目标为行人、车辆等，3D角度提取网络用于在输入图像特征时提取所检测到的目标的3D角度，该3D角度可以是目标的移动方向与单目相机的x轴的夹角，深度补偿值提取网络用于根据所输入的图像特征，预测目标的深度补偿值，3D尺寸补偿值提取网络用于根据所输入的图像特征，预测目标的外形尺寸的补偿值。

2D检测框提取网络可以采用标注有目标的2D检测框和类别的图像集来训练，使得2D检测框提取网络可以学习到输入图像的图像特征后输出目标的类别和2D检测框的能力。

3D角度提取网络可以采用标注有目标的3D角度的图像集来训练，使得3D角度提取网络可以学习到输入图像的图像特征后输出目标的3D角度的能力。

在训练深度补偿值提取网络时，可以采集包含不同类别、位置的目标的图像，并对不同类别、位置的目标标注深度补偿值，进一步采用标注深度补偿值之后的图像训练深度补偿值提取网络，使得该深度补偿值提取网络学习到针对不同类别、位置的目标预测深度补偿值的能力。

在训练3D尺寸补偿值提取网络时，可以采集包含不同类别、位置的目标的图像，并对不同类别、位置的目标标注3D尺寸补偿值，进一步采用标注3D尺寸补偿值之后的图像训练深度补偿值提取网络，使得该3D尺寸补偿值提取网络学习到针对不同类别、位置的目标预测3D尺寸补偿值的能力。

上述各个神经网络的训练方法可以参考现有技术的有监督神经网络训练方法，本实施例在此不再详述。

如图2B所示，通过2D检测框提取网络可以在待检测图像中确定出目标(车辆)的2D检测框A，以及确定目标的类别为小型车辆，目标的3D角度可以是目标的移动方向F与单目相机的x轴的夹角C。其中，在图2B中，单目相机的坐标系中，x轴为待检测图像的长度方向，y轴为待检测图像的高度方向，z轴为垂直于待检测图像并指向待检测图像的方向。

S204、确定与类别匹配的3D平均尺寸，并计算3D平均尺寸与3D尺寸补偿值的和值，得到目标的3D尺寸。

本实施例可以通过数据统计确定不同类别的目标的3D平均尺寸，该3D平均尺寸为目标的外形尺寸，即包络目标的最小外接立方体。在通过2D检测框提取网络预测目标的类别后，可以获取该类别预先关联的3D平均尺寸，计算该3D平均尺寸与3D尺寸补偿值的和值，得到目标的真实的3D尺寸。

以目标为小型车辆作为示例，获取为小型车辆预先设置的3D平均尺寸，在通过3D尺寸补偿值提取网络预测小型车辆的3D尺寸补偿值，计算3D平均尺寸与3D尺寸补偿值的和值即为所检测到的小型车辆的3D尺寸。

S205、在预设的背景深度图中确定2D检测框的中心对应的目标像素，并从背景深度图中获取目标像素关联的深度值，其中，预设的深度图像为单目相机标定后对检测区域采集图像所得到的、以检测区域的路面为背景的深度图像。

本实施例中，2D检测框为在待检测图像中提取的检测框，背景深度图为单目相机安装后检测区域中地面上各个点到单目相机的距离的深度图，背景深度图与待检测深度图像的尺寸相同，在提取出2D检测框之后，可以在背景深度图中确定出该2D检测框对应的目标像素，该目标像素在背景深度图关联有深度值。其中，2D检测框的中心可以是2D检测框的对角连接线的交点。

如图2B所示，2D检测框A的中心为点P，点P在待检测图像中的坐标为(x1，y1)，可以将背景深度图中坐标为(x1，y1)的像素作为目标像素，并读取该目标像素所关联的深度值，该深度值为目标的2D检测框A的中心对应的地面的点到单目相机的距离。

S206、计算深度值与深度补偿值的和值，得到目标的深度值。

深度补偿值可以是小于0或大于0的数值，深度补偿值可以与目标的类别、目标在待检测图像中的位置等因素相关，可以计算深度值和深度补偿值的和值，即得到目标的真实的深度值，即目标到单目相机的距离，亦即目标到单目相机的坐标系的z坐标值。

S207、采用单目相机的标定参数将2D检测框的中心位置转换为相机坐标系下的位置，得到目标的3D中心位置，其中，标定参数为待检测图像的图像坐标系到单目相机的坐标系的转换参数。

由于2D检测框的中心位置点P为待检测图像的坐标系下的位置，表示的是2D检测框的中心位置点P在待检测图像中所在的行像素和列像素位置，需要将点P的位置从待检测图像的坐标系下的位置转换到单目相机坐标系下的位置，并且由于前述在S206得到了目标的深度值，从而得到目标的中心在单目相机坐标系的位置，即目标的3D中心位置。

具体地，在单目相机安装后，可以对单目相机进行标定，得到单目相机的标定参数，该标定参数为待检测图像的图像坐标系到单目相机的坐标系的转换参数，比如可以是待检测图像的图像坐标系到单目相机的坐标系的平移旋转矩阵，计算2D检测框的中心位置与平移旋转矩阵的乘积，即可以得到目标的3D中心位置，其中，对单目相机标定可以通过张正友标定法进行标定，也可以采用其他方式标定。

S208、根据目标的3D中心位置、3D尺寸、3D角度以及深度值生成目标的3D检测框。

在一个可选实施例中，通过上述步骤之后确定了目标的3D中心位置、3D尺寸、3D角度以及深度值，则可以以3D中心位置为3D检测框的中心，以3D角度所指的方向为3D检测框的方向，根据3D尺寸、3D检测框的中心以及3D检测框的方向的角点，连接角点生成目标的3D检测框。

如图2B所示，在单目相机的坐标系下，可以以3D中心位置P为3D检测框B的中心，以3D角度C所指的方向F为3D检测框B的一条边的方向，以3D中心位置P为中心对称平分3D尺寸得到3D检测框B的8个角点的坐标，连接8个角点即可以得到3D检测框，输出该3D检测框以表示检测到的目标的中心的三维坐标、外形尺寸、方向，以用于自动驾驶车辆控制决策。

本发明的目标检测模型包括特征提取网络、2D检测框提取网络、3D角度提取网络、深度补偿值提取网络以及3D尺寸补偿值提取网络，特征提取网络的输出端分别与2D检测框提取网络、3D角度提取网络、深度补偿值提取网络以及3D尺寸补偿值提取网络的输入端连接，将待检测图像输入目标检测模型后得到目标的2D检测框和类别、3D角度、深度补偿值以及3D尺寸补偿值，确定与类别匹配的3D平均尺寸，并计算3D平均尺寸与3D尺寸补偿值的和值得到目标的3D尺寸，以及在预设的背景深度图中确定2D检测框的中心对应的目标像素所关联的深度值，计算该深度值与深度补偿值的和值得到目标的深度值，将2D检测框的中心位置转换为相机坐标系下的位置，得到目标的3D中心位置，从而根据目标的3D中心位置、3D尺寸、3D角度以及深度值生成目标的3D检测框，目标检测模型无需直接回归目标的深度，使得目标检测模型训练简单，目标检测模型稳定性高，预测的数据准确，并且能够预测目标的3D角度，对单目相机的安装角度无要求，单目相机可以应用于各种安装位置需求。

实施例三

图3为本发明实施例三提供的一种单目3D目标检测装置的结构示意图。如图3所示，该单目3D目标检测装置包括：

待检测图像获取模块301，用于获取待检测图像，所述待检测图像为单目相机对检测区域所采集的图像；

检测数据获取模块302，用于将所述待检测图像输入目标检测模型中，得到所述待检测图像中目标的检测数据，所述检测数据包括所述目标的深度补偿值、3D尺寸补偿值、3D角度、所述目标在所述待检测图像中的2D检测框以及类别；

3D检测框生成模块303，用于根据所述目标的所述检测数据、预设的背景深度图、以及预设的3D平均尺寸生成所述目标的3D检测框，以作为3D目标检测结果。

在一个实施例中，所述目标检测模型包括特征提取网络、2D检测框提取网络、3D角度提取网络、深度补偿值提取网络以及3D尺寸补偿值提取网络，所述特征提取网络的输出端分别与所述2D检测框提取网络、3D角度提取网络、深度补偿值提取网络以及3D尺寸补偿值提取网络的输入端连接。

在一个实施例中，还包括：

图像裁剪模块，用于对所述待检测图像进行裁剪，得到裁剪后的待检测图像。

在一个实施例中，所述检测数据获取模块302包括：

图像特征提取单元，用于将所述待检测图像输入所述特征提取网络得到图像特征；

数据提取单元，用于将所述图像特征分别输入所述2D检测框提取网络、3D角度提取网络、深度补偿值提取网络以及3D尺寸补偿值，得到目标的2D检测框和类别、3D角度、深度补偿值以及3D尺寸补偿值。

在一个实施例中，所述3D检测框生成模块303包括：

目标3D尺寸确定单元，用于确定与所述类别匹配的3D平均尺寸，并计算所述3D平均尺寸与所述3D尺寸补偿值的和值，得到所述目标的3D尺寸；

背景深度值确定单元，用于在预设的背景深度图中确定所述2D检测框的中心对应的目标像素，并从所述背景深度图中获取所述目标像素关联的深度值，其中，所述预设的深度图像为所述单目相机标定后对所述检测区域采集图像所得到的、以所述检测区域的路面为背景的深度图像；

目标深度值计算单元，用于计算所述深度值与所述深度补偿值的和值，得到所述目标的深度值；

目标中心位置确定单元，用于采用所述单目相机的标定参数将所述2D检测框的中心位置转换为相机坐标系下的位置，得到所述目标的3D中心位置，其中，所述标定参数为待检测图像的图像坐标系到所述单目相机的坐标系的转换参数；

目标3D检测框生成单元，用于根据所述目标的3D中心位置、所述3D尺寸、所述3D角度以及所述深度值生成所述目标的3D检测框。

在一个实施中，所述目标3D检测框生成单元包括：

中心确定子单元，用于以所述3D中心位置为3D检测框的中心；

检测框方向确定子单元，用于以所述3D角度所指的方向为所述3D检测框的方向；

检测框角点确定子单元，用于根据所述3D尺寸、所述3D检测框的中心以及所述3D检测框的方向的角点；

3D检测框生成子单元，用于连接所述角点生成所述目标的3D检测框。

在一个实施例中，还包括：

单目相机标定模块，用于对所述单目相机进行标定，得到所述单目相机的标定参数。

本发明实施例所提供的单目3D目标检测装置可执行本发明实施例一、实施例二所提供的单目3D目标检测方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4示出了可以用来实施本发明的实施例的电子设备40的结构示意图。电子设备40旨在表示各种形式的数字计算机，诸如台式计算机、工作台、服务器、刀片式服务器、大型计算机等。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图4所示，电子设备40包括至少一个处理器41，以及与至少一个处理器41通信连接的存储器，如只读存储器(ROM)42、随机访问存储器(RAM)43等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器41可以根据存储在只读存储器(ROM)42中的计算机程序或者从存储单元48加载到随机访问存储器(RAM)43中的计算机程序，来执行各种适当的动作和处理。在RAM43中，还可存储电子设备40操作所需的各种程序和数据。处理器41、ROM42以及RAM43通过总线44彼此相连。输入/输出(I/O)接口45也连接至总线44。

电子设备40中的多个部件连接至I/O接口45，包括：输入单元46，例如键盘、鼠标、传感器等；输出单元47，例如各种类型的显示器、扬声器等；存储单元48，例如磁盘、光盘等；以及通信单元49，例如网卡、调制解调器、无线通信收发机等。通信单元49允许电子设备40通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器41可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器41的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器41执行上文所描述的各个方法和处理，例如单目3D目标检测方法。

在一些实施例中，单目3D目标检测方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元48。在一些实施例中，计算机程序的部分或者全部可以经由ROM42和/或通信单元49而被载入和/或安装到电子设备40上。当计算机程序加载到RAM43并由处理器41执行时，可以执行上文描述的单目3D目标检测方法的一个或多个步骤。备选地，在其他实施例中，处理器41可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行单目3D目标检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种单目3D目标检测方法，其特征在于，包括：

2.如权利要求1所述的单目3D目标检测方法，其特征在于，所述目标检测模型包括特征提取网络、2D检测框提取网络、3D角度提取网络、深度补偿值提取网络以及3D尺寸补偿值提取网络，所述特征提取网络的输出端分别与所述2D检测框提取网络、3D角度提取网络、深度补偿值提取网络以及3D尺寸补偿值提取网络的输入端连接。

3.如权利要求1所述的方法，其特征在于，在将所述待检测图像输入目标检测模型中，得到所述待检测图像中目标的检测数据之前，还包括：

对所述待检测图像进行裁剪，得到裁剪后的待检测图像。

4.如权利要求2所述的单目3D目标检测方法，其特征在于，所述将所述待检测图像输入目标检测模型中，得到所述待检测图像中目标的检测数据，包括：

将所述待检测图像输入所述特征提取网络得到图像特征；

将所述图像特征分别输入所述2D检测框提取网络、3D角度提取网络、深度补偿值提取网络以及3D尺寸补偿值，得到目标的2D检测框和类别、3D角度、深度补偿值以及3D尺寸补偿值。

5.如权利要求1所述的单目3D目标检测方法，其特征在于，所述根据所述目标的所述检测数据、预设的背景深度图以及预设的3D平均尺寸生成所述目标的3D检测框，以作为3D目标检测结果，包括：

确定与所述类别匹配的3D平均尺寸，并计算所述3D平均尺寸与所述3D尺寸补偿值的和值，得到所述目标的3D尺寸；

在预设的背景深度图中确定所述2D检测框的中心对应的目标像素，并从所述背景深度图中获取所述目标像素关联的深度值，其中，所述预设的深度图像为所述单目相机标定后对所述检测区域采集图像所得到的、以所述检测区域的路面为背景的深度图像；

计算所述深度值与所述深度补偿值的和值，得到所述目标的深度值；

采用所述单目相机的标定参数将所述2D检测框的中心位置转换为相机坐标系下的位置，得到所述目标的3D中心位置，其中，所述标定参数为待检测图像的图像坐标系到所述单目相机的坐标系的转换参数；

根据所述目标的3D中心位置、所述3D尺寸、所述3D角度以及所述深度值生成所述目标的3D检测框。

6.如权利要求5所述的单目3D目标检测方法，其特征在于，所述根据所述目标的3D中心位置、所述3D尺寸、所述3D角度以及所述深度值生成所述目标的3D检测框，包括：

以所述3D中心位置为3D检测框的中心；

以所述3D角度所指的方向为所述3D检测框的方向；

根据所述3D尺寸、所述3D检测框的中心以及所述3D检测框的方向的角点；

连接所述角点生成所述目标的3D检测框。

7.如权利要求1-6任一项所述的单目3D目标检测方法，其特征在于，在根据所述目标的所述检测数据、预设的背景深度图、以及预设的3D平均尺寸生成所述目标的3D检测框，以作为3D目标检测结果之前，还包括：

对所述单目相机进行标定，得到所述单目相机的标定参数。

8.一种单目3D目标检测装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的单目3D目标检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的单目3D目标检测方法。