CN115019273A

CN115019273A - 一种目标检测方法、装置、汽车及存储介质

Info

Publication number: CN115019273A
Application number: CN202210633691.3A
Authority: CN
Inventors: 吕颖; 厉健峰; 杨斯琦; 崔茂源
Original assignee: FAW Group Corp
Current assignee: FAW Group Corp
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2022-09-06

Abstract

本发明实施例公开了一种目标检测方法、装置、汽车及存储介质，该方法包括：通过单目摄像头拍摄待检测图像，并将待检测图像输入至预训练的目标特征提取网络，获取与待检测图像对应的图像特征；根据与待检测图像对应的图像特征，以及预定义的二维目标的锚点模板和三维目标的锚点模板，获取多个二维预测框和三维预测框；通过预设边框转换方法，根据与待检测图像对应的各二维预测框和各三维预测框，获取与待检测图像对应的二维目标检测框和三维目标检测框，以实现对待检测图像的目标检测。本实施例的技术方案，通过采用目标特征提取网络对待检测图像进行深度特征提取，可以提升深度特征的提取准确度，从而可以提升目标检测的准确度。

Description

一种目标检测方法、装置、汽车及存储介质

技术领域

本发明实施例涉及自动驾驶技术领域，尤其涉及一种目标检测方法、装置、汽车及存储介质。

背景技术

在自动驾驶领域中，通过单目摄像头采集单目图像，并基于单目图像进行三维目标检测，对提升自动驾驶系统的视觉感知能力具有重要意义。

目前，现有的基于单目图像的三维目标检测方法，通常利用深度感知卷积网络对单目图像进行深度特征提取，以获取单目图像各部分的深度信息，并基于获取的深度信息进行三维目标检测。然而，在现有技术中，对单目图像的深度特征提取不够充分，故无法有效地提取单目图像的深度信息，导致针对单目图像的三维目标检测的准确度较低。

发明内容

本发明实施例提供一种目标检测方法、装置、汽车及存储介质，可以实现在对单目图像进行三维目标检测时，提升深度特征的提取准确度，从而可以提升目标检测的准确度。

第一方面，本发明实施例提供了一种目标检测方法，包括：

通过车辆上预先部署的单目摄像头拍摄待检测图像，并将所述待检测图像输入至预训练的目标特征提取网络，获取所述目标特征提取网络输出的与所述待检测图像对应的图像特征；

根据与所述待检测图像对应的图像特征，以及预定义的二维目标的锚点模板和三维目标的锚点模板，获取与所述待检测图像对应的至少一个二维预测框和三维预测框；

通过预设边框转换方法，根据与所述待检测图像对应的各二维预测框和各三维预测框，获取与所述待检测图像对应的二维目标检测框和三维目标检测框，以实现对所述待检测图像的目标检测。

第二方面，本发明实施例还提供了一种目标检测装置，包括：

图像特征获取模块，用于通过车辆上预先部署的单目摄像头拍摄待检测图像，并将所述待检测图像输入至预训练的目标特征提取网络，获取所述目标特征提取网络输出的与所述待检测图像对应的图像特征；

第一预测框获取模块，用于根据与所述待检测图像对应的图像特征，以及预定义的二维目标的锚点模板和三维目标的锚点模板，获取与所述待检测图像对应的至少一个二维预测框和三维预测框；

检测框获取模块，用于通过预设边框转换方法，根据与所述待检测图像对应的各二维预测框和各三维预测框，获取与所述待检测图像对应的二维目标检测框和三维目标检测框，以实现对所述待检测图像的目标检测。

第三方面，本发明实施例还提供了一种汽车，包括：

单目摄像头，用于对车辆周围环境进行拍摄，获取待检测图像；

车机设备，包括一个或多个处理器和存储装置；

存储装置，用于存储一个或多个计算机程序；

当所述一个或多个计算机程序被所述一个或多个处理器执行，使得所述一个或多个处理器执行所述计算机程序时实现本发明任意实施例提供的目标检测方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，该存储介质上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例提供的目标检测方法。

本发明实施例提供的技术方案，通过车辆上预先部署的单目摄像头拍摄待检测图像，并将待检测图像输入至预训练的目标特征提取网络，获取目标特征提取网络输出的与待检测图像对应的图像特征；进而根据与待检测图像对应的图像特征，以及预定义的二维目标的锚点模板和三维目标的锚点模板，获取与待检测图像对应的多个二维预测框和三维预测框；然后通过预设边框转换方法，根据与待检测图像对应的各二维预测框和各三维预测框，获取与待检测图像对应的二维目标检测框和三维目标检测框，以实现对待检测图像的目标检测。通过采用目标特征提取网络对待检测图像进行深度特征提取，可以提升深度特征的提取准确度，从而可以提升目标检测的准确度。

附图说明

图1A是本发明一实施例中的一种目标检测方法的流程图；

图1B是本发明一实施例中的图像中位置与摄像头之间的距离示意图；

图1C是本发明一实施例中的单目图像和对应的深度示意图；

图1D是本发明一实施例中的局部非均匀分割深度感知卷积网络的卷积过程示意图；

图1E是本发明一实施例中的锚点模板示意图；

图1F是本发明一实施例中的目标自知识蒸馏网络的结构示意图；

图2A是本发明另一实施例中的一种目标检测方法的流程图；

图2B是本发明另一实施例中的一种方向参数的优化过程示意图；

图2C是本发明另一实施例中的一种单目图像的三维目标检测流程示意图；

图2D是本发明另一实施例中的一种目标检测方法的流程示意图；

图3是本发明另一实施例中的一种目标检测装置的结构示意图；

图4是本发明另一实施例中的一种汽车的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的实施例。虽然附图中显示了本发明的某些实施例，然而应当理解的是，本发明可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是，本发明的附图及实施例仅用于示例性作用，并非用于限制本发明的保护范围。

图1A为本发明一实施例提供的一种目标检测方法的流程图，本发明实施例可适用于在自动驾驶过程中，基于拍摄的单目图像进行三维目标检测的情况；该方法可以由目标检测装置来执行，该装置可由硬件和/或软件组成，并一般可集成在汽车中。如图1A所示，该方法具体包括如下步骤：

S110、通过车辆上预先部署的单目摄像头拍摄待检测图像，并将所述待检测图像输入至预训练的目标特征提取网络，获取所述目标特征提取网络输出的与所述待检测图像对应的图像特征。

其中，单目摄像头，在进行拍照时，通过在相机的成像平面生成投影，以实现基于二维形式反映三维世界；具有结构简单、成本低的特点，被广泛应用于自动驾驶系统。在本实施例中，对于单目摄像头在车辆上的部署位置不作具体限定。对应的，待检测图像，可以是由单目摄像头拍摄的单目图像。

其中，预训练的目标特征提取网络，可以是预先训练得到的图像深度特征提取网络；通过将采集的单目图像输入至该目标特征提取网络，可以获取与该单目图像对应的图像特征，即图像深度特征。在本实施例中，目标特征提取网络可以基于卷积神经网络方法构建，并通过具有深度信息标签的样本图像训练得到，例如，目标特征提取网络基于的卷积神经网络方法，可以包括横向非对称分割深度感知卷积网络。

在一个具体的实施方式中，预训练的目标特征提取网络，可以包括主干特征提取网络和分支特征提取网络，分支特征提取网络可以包括全局卷积网络和局部非均匀分割深度感知卷积网络；其中，主干特征提取网络，可以包括密集卷积网络(DenseNet)，用于对待检测图像的基础特征进行提取；分支特征提取网络，用于在主干特征提取网络提取的基础特征的基础上，进一步提取局部特征。

分支特征提取网络，可以包括两个分支网络，分别为全局卷积网络和局部非均匀分割深度感知卷积网络。其中，全局卷积网络，用于进行全局特征提取；局部非均匀分割深度感知卷积网络，用于进行局部深度特征提取。目标特征提取网络最终的输出，可以是对全局卷积网络提取的全局特征和局部非均匀分割深度感知卷积网络提取的局部深度特征进行加权求和后得到的图像特征。

其中，局部非均匀分割深度感知卷积网络，可以提高对高阶特征的空间感知性能。例如，在单目图像中，图像中的各个位置与摄像头之间的基本距离关系可以如图1B所示。根据图1B中给出的由相机系统的X-Z轴构成的中心平面，可以得知：单目图像上越靠近中心水平线的目标，在实际场景中离相机越远，且具有更深的深度。

如图1C所示的单目图像和对应的深度图，图中标注为“最远”的区域反映在真实世界中位于地平线附近。其次，单目图像中越靠近中心水平线的目标，在单目图像中的分辨率越小，水平或者垂直线上占据比例越小；例如，图1C中标注为“最远”的区域反映在图像上宽度最窄。因此，可以得知单目图像中物体的深度分布并不是均匀的。实际上，越远即深度越深的目标物体所占的区域在整幅单目图像中的宽度越窄；因此，在进行深度特征提取时，如果不考虑深度信息分布的规律性，仍然按照均匀的分割模式划分图像，就无法有效地学习到空间感知特征，提取出的深度特征信息的精度也会下降。

针对上述问题，由于单目图像的中心水平线附近的目标分辨率较小，故对特征图这一部分划分较窄的条带；而离中心水平线越远，目标分辨率逐渐增大，故对特征图划分逐渐加宽的条带。在本实施例中，局部非均匀分割深度感知卷积网络的卷积过程可以如图1D所示，通过对特征图的不同位置进行不同比例的分割，并采用不同尺寸的卷积算子，可以实现对单目图像中深度特征信息的高效和准确提取。

对应的，将所述待检测图像输入至预训练的目标特征提取网络，获取所述目标特征提取网络输出的与所述待检测图像对应的图像特征，可以包括：

将所述待检测图像输入至所述主干特征提取网络，获取所述主干特征提取网络输出的与所述待检测图像对应的基础特征；将与所述待检测图像对应的基础特征，分别输入至所述全局卷积网络和所述局部非均匀分割深度感知卷积网络，获取与所述待检测图像对应的全局特征和局部深度特征；根据与所述待检测图像对应的全局特征和局部深度特征，获取与所述待检测图像对应的图像特征。

在本实施例中，主干特征提取网络的输出端分别和两个分支特征提取网络的输入端连接。因此，在通过主干特征提取网络提取到与待检测图像对应的基础特征之后，将该基础特征分别输入至全局卷积网络和局部非均匀分割深度感知卷积网络，以获取与待检测图像对应的全局特征和局部深度特征；最终，对全局特征和局部深度特征进行加权求和，以获取待检测图像对应的图像特征。其中，加权求和的权重可以根据任务需求进行自适应设置。

S120、根据与所述待检测图像对应的图像特征，以及预定义的二维目标的锚点模板和三维目标的锚点模板，获取与所述待检测图像对应的至少一个二维预测框和三维预测框。

其中，预定义的二维目标的锚点模板和三维目标的锚点模板，用于定义最终生成的二预测框和三维预测框的边框参数，例如，预测框的长度、宽度等。例如，预定义的二维目标的锚点模板和三维目标的锚点模板可以如图1E所示。其中，二维目标的锚点模板参数可以包括[w,h]_2D，三维目标的锚点模板参数可以包括[w,h,l,θ]_3D，[x,y,z]_3D表示在相机坐标系下的中心位置，即锚点的位置坐标。其中，2D表示的参数按照像素坐标表示，w、h和l分别表示目标检测物体的宽度、高度和长度。θ_3D表示观察视角，即绕着相机坐标系下Y轴旋转，表示物体相对于相机视角的相对方位。

需要说明的是，要想放置锚点并定义完整的二维或者三维边界框，必须指定共享的中心像素位置[x,y]_P，并引入深度信息参数Z_P。在本实施例中，可以将相机坐标系下的三维中心位置[x,y,z]_3D投影到设定投影矩阵P的图像中，并对深度信息参数进行编码。其中，可视化锚点可以基于下述公式生成；

具体的，首先利用设定投影矩阵P，计算得到深度信息参数Z_P；然后，基于深度信息参数Z_P和共享的中心像素位置[x,y]_P，得到锚点坐标。

在本实施例中，可以根据预定义的二维目标的锚点模板和三维目标的锚点模板、待检测图像对应的图像特征和可视化锚点的生成方式，通过预测框提取(Region ProposalNetwork，RPN)网络获取二维预测框和三维预测框。可以理解的是，获取的二维预测框或者三维预测框，与预定义的二维目标的锚点模板或者三维目标的锚点模板的模板参数对应。

其中，RPN网络，其输入为任意尺度的图像，输出为一系列矩形候选区域(与预定义的锚点模板相关)；通过在每一个滑窗内，给出前景得分和背景得分，以确定当前滑窗是否覆盖有检测目标，从而实现对候选区域的确定。

需要说明的是，获取的二维预测框和三维预测框的参数包括每个锚点的c,[t_x,t_y,t_w,t_h]_2D,[t_x,t_y,t_z]_P,[t_w,t_h,t_l,t_θ]_3D；其中，c表示维度为n_a×n_c×h×w的预测分类结果，n_a表示每个像素对应的锚点数量，n_c表示分类数量，每个分类的输出维度为n_a×h×w，h×w表示特征图的分辨率，预测框的总数为n_b＝w×h×n_a；[t_x,t_y,t_w,t_h]_2D表示二维预测框的参数，可以记作b_2D；[t_x,t_y,t_z]_P表示投影中心，[t_w,t_h,t_l]_3D表示三维预测框的尺寸信息，

表示方向，上述七个参数可以统记作b_3D，代表三维预测框的参数。

S130、通过预设边框转换方法，根据与所述待检测图像对应的各二维预测框和各三维预测框，获取与所述待检测图像对应的二维目标检测框和三维目标检测框，以实现对所述待检测图像的目标检测。

其中，预设边框转换方法，为预先定义的由预测框转换至检测框的方法。在本实施例中，可以基于下述公式将待检测图像对应的各二维预测框，转换为待检测图像对应的二维目标检测框；

其中，[w,h]_2D表示二维预测框的宽度和高度，[x,y]_P表示二维预测框的中心位置坐标，[x,y,w,h]′_2D表示转换后的二维目标检测框的参数，可以记作b′_2D。

此外，可以基于下述公式将三维预测框转换为三维目标检测框；

其中，[x,y,z]′_P和[w,h,l,θ]′_3D，为转换得到的三维目标检测框的参数，可以记为b′_3D。

在本实施例中，通过获取与待检测图像对应的二维目标检测框和三维检测框，可以在待检测图像上对预设的检测目标进行框定，同时可以给出各目标检测框对应的目标分类和分类概率，从而可以实现对待检测图像的三维目标检测。其中，预设的检测目标，可以是车辆、行人等。

在本实施例的一个可选的实施方式中，在通过预设边框转换方法，根据与所述待检测图像对应的各二维预测框和各三维预测框，获取与所述待检测图像对应的二维目标检测框和三维目标检测框之后，还可以包括：获取所述待检测图像对应的分类结果、二维目标检测框对应的二维检测框参数和三维目标检测框对应的三维检测框参数；将所述待检测图像对应的分类结果、二维目标检测框对应的二维检测框参数和三维目标检测框对应的三维检测框参数，输入至预训练的目标自知识蒸馏网络，并获取所述目标自知识蒸馏网络输出的与所述待检测图像对应的更新分类结果、更新二维检测框参数和更新三维检测框参数。

其中，待检测图像对应的分类结果，可以包括各检测目标对应的分类和概率。

在本实施例中，在获取到待检测图像对应的二维目标检测框和三维目标检测框之后，还可以通过预训练的目标自知识蒸馏网络，对二维检测框参数和三维检测框参数进行蒸馏学习，以通过底层特征模仿深层特征，使得浅层输出不断接近深层输出，从而实现知识迁移。需要说明的是，在整个知识蒸馏过程中，输入输出的格式不发生改变，因此可以将目标自知识蒸馏网络的输出，作为最终的目标检测结果。通过上述设置，可以提升浅层block的特征表达，从而也可以提升高层block的特征表达。

其中，目标自知识蒸馏网络的结构可以如图1F所示。“PA-GEN”表示深层网络和浅层网络中的输出参数。对于目标自知识蒸馏网络，其输入为目标检测网络的输出(即目标检测框参数)，输出为优化后的目标检测框参数。在本实施例中，自知识蒸馏部分N₁可以使用单层全局卷积和单层局部非均匀分割深度感知卷积的联合模块。

上述设置的好处在于：通过引入自知识蒸馏网络，可以在不增加整个目标检测过程的计算量的同时，加快目标检测的收敛速度，从而可以在相同的迭代次数中获取更加准确的目标检测结果。

图2A为本发明另一实施例提供的一种目标方法的流程图，本实施例是对上述技术方案的进一步细化，本实施例中的技术方案可以与上述一个或者多个实施方式结合。具体的，参考图2A，该方法具体包括如下步骤：

S210、通过车辆上预先部署的单目摄像头拍摄待检测图像。

S220、基于预设卷积神经网络方法构建初始特征提取网络，并获取样本图像。

其中，预设卷积神经网络方法，可以包括密集卷积网络、全局卷积网络和局部非均匀分割深度感知卷积网络；初始特征提取网络，是指未经过样本训练的特征提取网络。在本实施例中，可以基于预设卷积神经网络方法，构建包括一个主干特征提取网络和两个分支特征提取网络的初始特征提取网络。

其中，样本图像，可以是具有真实检测框标签和目标分类标签的图像。可以理解的是，一张样本图像中可以包括多个目标(例如，车辆、行人等)，对应的，一张样本图像可以对应多个真实检测框标签和多个目标分类标签。

S230、将所述样本图像输入至所述初始特征提取网络，并获取所述初始特征提取网络输出的与所述样本图像对应的样本特征。

具体的，首先，采用主干特征提取网络对该样本图像进行基础特征提取；然后，采用两个分支特征提取网络，分别对样本图像对应的基础特征进行全局特征提取和局部深度特征提取；最终，对两个分支特征提取网络分别提取的全局特征和局部深度特征进行加权求和，以获取样本图像对应的样本特征。

S240、根据所述样本图像对应的样本特征，以及预定义的二维目标的锚点模板和三维目标的锚点模板，获取与所述样本图像对应的至少一个二维预测框和三维预测框。

S250、通过预设边框转换方法，根据所述样本图像对应的各二维预测框和各三维预测框，获取与所述样本图像对应的二维边界框和三维边界框。

S260、获取与所述样本图像对应的分类结果、二维边界框对应的二维边界框参数和三维边界框对应的三维边界框参数。

S270、将与所述样本图像对应的分类结果、二维边界框对应的二维边界框参数和三维边界框对应的三维边界框参数，输入至预训练的目标自知识蒸馏网络，并获取所述目标自知识蒸馏网络输出的与所述样本图像对应的更新分类结果、更新二维边界框参数和更新三维边界框参数。

具体的，对于样本图像，在获取到与其对应的样本特征之后，可以根据预定义的二维目标的锚点模板和三维目标的锚点模板，通过RPN网络获取与该样本图像对应的多个二维预测框和三维预测框；然后，通过预设边框转换方法，获取与各二维预测框对应的二维边界框，以及与各三维预测框对应的三维边界框。最终，可以采用目标自知识蒸馏网络对样本图像对应的分类结果、二维边界框对应的二维边界框参数和三维边界框对应的三维边界框参数进行优化，以获取最终的输出结果，即更新分类结果、更新二维边界框参数和更新三维边界框参数。

S280、根据所述样本图像对应的更新分类结果、更新二维边界框参数和更新三维边界框参数，以及预设损失函数，对所述初始特征提取网络的网络参数进行优化，并将优化后的初始特征提取网络确定为目标特征提取网络。

在本实施例中，在获取到样本图像对应的更新分类结果、更新二维边界框参数和更新三维边界框参数之后，可以基于上述参数和预设损失函数，计算初始特征提取网络的当前网络参数对应的目标检测损失值。之后，可以对初始特征提取网络的当前网络参数进行调整，并重新执行上述步骤，以获取调整后的网络参数对应的目标检测损失值。重复上述过程，直至获取的目标检测损失值小于预设损失值阈值，或者达到预设迭代次数，获取训练后的初始特征提取网络作为目标特征提取网络。

在本实施例的一个可选的实施方式中，根据所述样本图像对应的更新分类结果、更新二维边界框参数和更新三维边界框参数，以及预设损失函数，对所述初始特征提取网络的网络参数进行优化，可以包括：

根据所述样本图像对应的更新分类结果和预设多项逻辑损失函数，计算得到分类损失；根据所述样本图像对应的更新二维边界框参数和二维真实框参数，计算得到二维边框回归损失；基于预设回归损失函数，对所述样本图像对应的更新三维边界框参数进行优化，计算得到三维边框回归损失；

获取所述目标自知识蒸馏网络对应的损失，并根据所述分类损失、二维边框回归损失、三维边框回归损失和所述目标自知识蒸馏网络对应的损失，获取所述样本图像对应的目标检测总损失；根据所述样本图像对应的目标检测总损失，对所述初始特征提取网络的网络参数进行优化。

在本实施例中，目标检测的损失可以包括分类损失、二维边框回归损失、三维边框回归损失和目标自知识蒸馏网络对应的损失四部分。其中，对于分类损失，可以采用预设多项逻辑损失函数，例如，基于softmax的多项式逻辑损失函数计算得到。具体的，可以基于下述公式计算得到分类损失L_c；

其中，n_c表示分类的数量，c_i表示第i个分类的得分，c_τ表示当前分类的得分。

对于二维边框回归损失

可以基于下述公式计算得到；

其中，IOU(A,B)表示A和B的交并比，b′_2D表示更新二维边界框参数，

表示二维真实框参数。

对于三维边框回归损失，首先对样本图像对应的更新三维边界框参数和三维真实框参数，基于预设边框转换方法进行逆转换，然后基于SmoothL₁回归损失函数对逆转换后的每一项参数进行优化。具体的，可以基于下述公式计算得到三维边框回归损失

其中，b_3D表示更新三维边界框参数逆转换后的参数，

表示三维真实框参数逆转换后的参数。

对于目标自知识蒸馏网络对应的损失，其目的是使N₁与N_Input的差值平方和的均值达到最小化，N₁-N_Input联合表示一阶“教师-学生对”。具体的，可以基于下述公式计算得到目标自知识蒸馏网络对应的损失L_distill；

L_distill＝L₂(N₁,N_Input)

进一步的，可以基于下述公式计算得到样本图像对应的目标检测总损失L_final；

其中，λ₁和λ₂表示正则化权重系数，用于体现不同目标检测部分的重要程度。由此，基于上述过程可以获取样本图像对应的目标检测总损失。进一步的，可以对初始特征提取网络的各项网络参数进行调整，以获取不断更新的目标检测总损失，直至达到预设目标检测终止条件，例如，达到预设迭代次数，或者目标检测总损失小于预设损失阈值。

S290、将所述待检测图像输入至预训练的目标特征提取网络，获取所述目标特征提取网络输出的与所述待检测图像对应的图像特征。

S2100、根据与所述待检测图像对应的图像特征，以及预定义的二维目标的锚点模板和三维目标的锚点模板，获取与所述待检测图像对应的至少一个二维预测框和三维预测框。

S2110、通过预设边框转换方法，根据与所述待检测图像对应的各二维预测框和各三维预测框，获取与所述待检测图像对应的二维目标检测框和三维目标检测框，以实现对所述待检测图像的目标检测。

在本实施例的另一个可选的实施方式中，在通过预设边框转换方法，根据与所述待检测图像对应的各二维预测框和各三维预测框，获取与所述待检测图像对应的二维目标检测框和三维目标检测框之后，还可以包括：根据设定投影矩阵，获取与所述三维目标检测框对应的二维投影框；根据所述二维投影框对应的二维投影框参数和所述二维目标检测框对应的二维检测框参数，计算得到投影损失；根据所述投影损失、设定步长系数、设定终止系数和设定衰变系数，对所述三维目标检测框对应的三维检测框参数中的方向参数进行优化。

在本实施例中，设定投影矩阵可以定义为：

γ_P＝P·γ_3D,γ_2D＝γ_P/γ_P[φ_z],

x_min＝min(γ_2D[φ_x]),y_min＝min(γ_2D[φ_y]),

x_max＝max(γ_2D[φ_x]),y_max＝max(γ_2D[φ_y]).

其中，φ表示轴[x,y,z]的索引，γ₀等式右边的l,h,w表示三维目标检测框参数b′_3D中的长度、高度和宽度。γ_3D等式右边中的θ为偏转角，P为相机坐标系投影矩阵，[x_min,y_min,x_max,y_max]表示对三维目标检测框进行投影后，获取的二维投影框的二维投影框参数。

在本实施例中，可以基于SmoothL₁回归损失函数，根据二维投影框参数和维检测框参数，计算投影损失。然后可以根据设定步长系数，对三维检测框参数中的方向参数进行调整，并基于调整后的方向参数重新计算投影损失，同时根据设定衰变系数对设定步长系数进行调整，直至检测到调整后的设定步长系数小于设定终止系数，完成对方向参数的优化。

其中，根据所述投影损失、设定步长系数、设定终止系数和设定衰变系数，对所述三维目标检测框对应的三维检测框参数中的方向参数进行优化，可以包括：根据所述三维检测框参数中的方向参数和所述设定步长系数，获取方向参数范围；当检测到所述三维检测框参数中的方向参数在所述方向参数范围内变化时，所述投影损失均大于预设投影损失阈值，则根据所述设定步长系数，获取更新方向参数，并根据所述设定衰变系数，获取更新设定步长系数；根据所述更新方向参数和所述更新设定步长系数，重新判断投影损失是否大于预设投影损失阈值，直至检测到所述更新设定步长系数小于所述设定终止系数。

在一个具体的例子中，方向参数的优化过程可以如图2B所示。具体的，首先，基于三维检测框参数中的方向参数θ进行边框投影，获取对应的二维投影框ρ。然后基于二维投影框ρ和二维目标检测框对应的二维检测框参数b′_2D，计算投影损失η。此时，若设定步长系数σ大于或者等于设定终止系数β，则计算方向参数分别减去设定步长系数和增加设定步长系数时的二维投影框ρ^-和ρ⁺，并分别计算对应的投影损失loss^-和loss⁺。此时，若loss^-和loss⁺中的最小值大于投影损失η，则将设定步长系数与设定衰变系数进行相乘，以获取更新设定步长系数，并基于更新设定步长系数，重新计算投影损失。

而若投影损失loss^-和loss⁺中的最小值小于或者等于投影损失η，进一步判断loss^-是否小于loss⁺，若确定loss^-小于loss⁺，则将方向参数减去设定步长系数，以获取更新方向参数，并将loss^-作为新的投影损失η，然后基于更新后方向参数和更新η，重新进行判断。而若确定loss^-大于或者等于loss⁺，则将方向参数加上设定步长系数，以获取更新方向参数，并将loss⁺作为新的投影损失η。重复上述过程，直至检测到更新设定步长系数σ小于设定终止系数β，以最终实现对方向参数θ的优化。

本发明实施例提供的技术方案，通过基于预设卷积神经网络方法构建初始特征提取网络，并获取样本图像；进而将样本图像输入至初始特征提取网络，以获取初始特征提取网络输出的与样本图像对应的样本特征；之后根据样本图像对应的样本特征，以及预定义的二维目标的锚点模板和三维目标的锚点模板，获取与样本图像对应的至少一个二维预测框和三维预测框；其次，通过预设边框转换方法，根据样本图像对应的各二维预测框和各三维预测框，获取与样本图像对应的二维边界框和三维边界框；然后，获取与样本图像对应的分类结果、二维边界框对应的二维边界框参数和三维边界框对应的三维边界框参数；并将与样本图像对应的分类结果、二维边界框对应的二维边界框参数和三维边界框对应的三维边界框参数，输入至预训练的目标自知识蒸馏网络，以获取目标自知识蒸馏网络输出的与样本图像对应的更新分类结果、更新二维边界框参数和更新三维边界框参数；最终，根据样本图像对应的更新分类结果、更新二维边界框参数和更新三维边界框参数，以及预设损失函数，对初始特征提取网络的网络参数进行优化，并将优化后的初始特征提取网络确定为目标特征提取网络。通过预先训练得到包括目标自知识蒸馏网络，且具有深度特征提取能力的目标特征提取网络，可以实现对待检测图像对应的深度信息的高效和准确获取，从而可以实现对待检测图像更加准确地的三维目标检测。

在本实施例的一个具体的实施方式中，对单目图像的三维目标检测流程可以如图2C所示。具体的，首先将单目图像输入至DenseNet，以获取单目图像对应的基础特征，然后将提取的基础特征分别输入至局部非均匀分割深度感知卷积(ASD-Conv)网络和全局卷积网络，以获取局部深度特征和全局特征。之后，对局部深度特征(对应权重1-α)和全局特征(对应权重α)进行加权求和，以获取单目图像对应的图像特征。然后基于图像特征，以及预定义的二维目标的锚点模板和三维目标的锚点模板，确定单目图像对应的二维预测框和三维预测框；并通过预设边框转换方法，将二维预测框转换为二维目标检测框，以及将三维预测框转换为三维目标检测框。

进一步的，采用自知识蒸馏网络对二维检测框参数和三维检测框参数进行蒸馏学习，以获取更新二维检测框参数和更新三维检测框参数。最终，对三维检测框进行边框投影，并对更新三维检测框参数中的方向参数θ进行优化，进而对最终的目标检测参数进行可视化输出。

在一个具体的例子中，目标检测方法的流程可以如图2D所示。该方法具体包括以下步骤：首先，定义锚点模板(包括二维目标的锚点模板和三维目标的锚点模板)；其次，进行深度信息编码；再次，进行模型预测，以输出锚点相关参数c、b_2D(二维预测框)和b_3D(三维预测框)；然后，对二维预测框和三维预测框分别进行边框转换，以获取对应的二维目标检测框和三维目标检测框；之后，对图像空间进行反投影，以获取对应的相机坐标，并对方向参数θ进行优化；最终，计算目标检测的损失函数，并输出目标检测参数c、[x,y,w,h]′_2D、[x,y,z]′_P和[w,h,l,θ]′_3D。

图3为本发明另一实施例提供的一种目标检测装置的结构示意图。如图3所示，该装置包括：图像特征获取模块310、第一预测框获取模块320和检测框获取模块330。其中，

图像特征获取模块310，用于通过车辆上预先部署的单目摄像头拍摄待检测图像，并将所述待检测图像输入至预训练的目标特征提取网络，获取所述目标特征提取网络输出的与所述待检测图像对应的图像特征；

第一预测框获取模块320，用于根据与所述待检测图像对应的图像特征，以及预定义的二维目标的锚点模板和三维目标的锚点模板，获取与所述待检测图像对应的至少一个二维预测框和三维预测框；

检测框获取模块330，用于通过预设边框转换方法，根据与所述待检测图像对应的各二维预测框和各三维预测框，获取与所述待检测图像对应的二维目标检测框和三维目标检测框，以实现对所述待检测图像的目标检测。

可选的，在上述技术方案的基础上，所述预训练的目标特征提取网络，包括主干特征提取网络和分支特征提取网络，所述分支特征提取网络包括全局卷积网络和局部非均匀分割深度感知卷积网络；

图像特征获取模块310，包括：

基础特征获取单元，用于将所述待检测图像输入至所述主干特征提取网络，获取所述主干特征提取网络输出的与所述待检测图像对应的基础特征；

局部深度特征获取单元，用于将与所述待检测图像对应的基础特征，分别输入至所述全局卷积网络和所述局部非均匀分割深度感知卷积网络，获取与所述待检测图像对应的全局特征和局部深度特征；

图像特征获取单元，用于根据与所述待检测图像对应的全局特征和局部深度特征，获取与所述待检测图像对应的图像特征。

可选的，在上述技术方案的基础上，所述目标检测装置，还包括：

参数获取模块，用于获取所述待检测图像对应的分类结果、二维目标检测框对应的二维检测框参数和三维目标检测框对应的三维检测框参数；

更新参数获取模块，用于将所述待检测图像对应的分类结果、二维目标检测框对应的二维检测框参数和三维目标检测框对应的三维检测框参数，输入至预训练的目标自知识蒸馏网络，并获取所述目标自知识蒸馏网络输出的与所述待检测图像对应的更新分类结果、更新二维检测框参数和更新三维检测框参数。

初始特征提取网络构建模块，用于基于预设卷积神经网络方法构建初始特征提取网络，并获取样本图像；

样本特征获取模块，用于将所述样本图像输入至所述初始特征提取网络，并获取所述初始特征提取网络输出的与所述样本图像对应的样本特征；

第二预测框获取模块，用于根据所述样本图像对应的样本特征，以及预定义的二维目标的锚点模板和三维目标的锚点模板，获取与所述样本图像对应的至少一个二维预测框和三维预测框；

边界框获取模块，用于通过预设边框转换方法，根据所述样本图像对应的各二维预测框和各三维预测框，获取与所述样本图像对应的二维边界框和三维边界框；

边界框参数获取模块，用于获取与所述样本图像对应的分类结果、二维边界框对应的二维边界框参数和三维边界框对应的三维边界框参数；

更新边界框参数获取模块，用于将与所述样本图像对应的分类结果、二维边界框对应的二维边界框参数和三维边界框对应的三维边界框参数，输入至预训练的目标自知识蒸馏网络，并获取所述目标自知识蒸馏网络输出的与所述样本图像对应的更新分类结果、更新二维边界框参数和更新三维边界框参数；

目标特征提取网络获取模块，用于根据所述样本图像对应的更新分类结果、更新二维边界框参数和更新三维边界框参数，以及预设损失函数，对所述初始特征提取网络的网络参数进行优化，并将优化后的初始特征提取网络确定为目标特征提取网络。

可选的，在上述技术方案的基础上，目标特征提取网络获取模块，包括：

分类损失计算单元，用于根据所述样本图像对应的更新分类结果和预设多项逻辑损失函数，计算得到分类损失；

二维边框回归损失计算单元，用于根据所述样本图像对应的更新二维边界框参数和二维真实框参数，计算得到二维边框回归损失；

三维边框回归损失计算单元，用于基于预设回归损失函数，对所述样本图像对应的更新三维边界框参数进行优化，计算得到三维边框回归损失；

目标检测总损失获取单元，用于获取所述目标自知识蒸馏网络对应的损失，并根据所述分类损失、二维边框回归损失、三维边框回归损失和所述目标自知识蒸馏网络对应的损失，获取所述样本图像对应的目标检测总损失；

网络参数优化单元，用于根据所述样本图像对应的目标检测总损失，对所述初始特征提取网络的网络参数进行优化。

二维投影框获取模块，用于根据设定投影矩阵，获取与所述三维目标检测框对应的二维投影框；

投影损失计算模块，用于根据所述二维投影框对应的二维投影框参数和所述二维目标检测框对应的二维检测框参数，计算得到投影损失；

方向参数优化模块，用于根据所述投影损失、设定步长系数、设定终止系数和设定衰变系数，对所述三维目标检测框对应的三维检测框参数中的方向参数进行优化。

可选的，在上述技术方案的基础上，方向参数优化模块，包括：

方向参数范围获取单元，用于根据所述三维检测框参数中的方向参数和所述设定步长系数，获取方向参数范围；

更新设定步长系数获取单元，用于当检测到所述三维检测框参数中的方向参数在所述方向参数范围内变化时，所述投影损失均大于预设投影损失阈值，则根据所述设定步长系数，获取更新方向参数，并根据所述设定衰变系数，获取更新设定步长系数；

优化终止单元，用于根据所述更新方向参数和所述更新设定步长系数，重新判断投影损失是否大于预设投影损失阈值，直至检测到所述更新设定步长系数小于所述设定终止系数。

上述装置可执行本发明前述实施例所提供的目标检测方法，具备执行上述方法相应的功能模块和有益效果。未在本发明实施例中详尽描述的技术细节，可参见本发明前述实施例所提供的目标检测方法。

需要说明的是，本实施例的技术方案中，所涉及的用户个人信息的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

图4为本发明另一实施例提供的一种汽车的结构示意图，如图4所示，该汽车包括单目摄像头410和车机设备420。其中，单目摄像头410，用于对车辆周围环境进行拍摄，获取待检测图像。

车机设备420包括处理器421、存储器422、输入装置423和输出装置424；车机设备420中处理器421的数量可以是一个或多个，图4中以一个处理器421为例；车机设备420中的处理器421、存储器422、输入装置423和输出装置424可以通过总线或其他方式连接，图4中以通过总线连接为例。存储器422作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明任意实施例中的一种目标检测方法对应的程序指令/模块(例如，一种目标检测装置中的图像特征获取模块310、第一预测框获取模块320和检测框获取模块330)。处理器421通过运行存储在存储器422中的软件程序、指令以及模块，从而执行车机设备420的各种功能应用以及数据处理，即实现上述的一种目标检测方法。也即，该程序被处理器421执行时实现：

存储器422可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器422可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器422可进一步包括相对于处理器421远程设置的存储器，这些远程存储器可以通过网络连接至车机设备420。上述网络的实例包括但不限于互联网、局域网、移动通信网及其组合。

输入装置423可用于接收输入的数字或字符信息，以及产生与汽车的用户设置以及功能控制有关的键信号输入。输出装置424可包括显示屏等显示设备。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所述方法。当然，本发明实施例所提供的一种计算机可读存储介质，其可以执行本发明任意实施例所提供的一种目标检测方法中的相关操作。也即，该程序被处理器执行时实现：

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台汽车的车机设备执行本发明各个实施例所述的方法。

值得注意的是，上述目标检测装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种目标检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预训练的目标特征提取网络，包括主干特征提取网络和分支特征提取网络，所述分支特征提取网络包括全局卷积网络和局部非均匀分割深度感知卷积网络；

将所述待检测图像输入至预训练的目标特征提取网络，获取所述目标特征提取网络输出的与所述待检测图像对应的图像特征，包括：

将所述待检测图像输入至所述主干特征提取网络，获取所述主干特征提取网络输出的与所述待检测图像对应的基础特征；

将与所述待检测图像对应的基础特征，分别输入至所述全局卷积网络和所述局部非均匀分割深度感知卷积网络，获取与所述待检测图像对应的全局特征和局部深度特征；

根据与所述待检测图像对应的全局特征和局部深度特征，获取与所述待检测图像对应的图像特征。

3.根据权利要求1所述的方法，其特征在于，在通过预设边框转换方法，根据与所述待检测图像对应的各二维预测框和各三维预测框，获取与所述待检测图像对应的二维目标检测框和三维目标检测框之后，还包括：

获取所述待检测图像对应的分类结果、二维目标检测框对应的二维检测框参数和三维目标检测框对应的三维检测框参数；

将所述待检测图像对应的分类结果、二维目标检测框对应的二维检测框参数和三维目标检测框对应的三维检测框参数，输入至预训练的目标自知识蒸馏网络，并获取所述目标自知识蒸馏网络输出的与所述待检测图像对应的更新分类结果、更新二维检测框参数和更新三维检测框参数。

4.根据权利要求1所述的方法，其特征在于，在将所述待检测图像输入至预训练的目标特征提取网络，获取所述目标特征提取网络输出的与所述待检测图像对应的图像特征之前，还包括：

基于预设卷积神经网络方法构建初始特征提取网络，并获取样本图像；

将所述样本图像输入至所述初始特征提取网络，并获取所述初始特征提取网络输出的与所述样本图像对应的样本特征；

根据所述样本图像对应的样本特征，以及预定义的二维目标的锚点模板和三维目标的锚点模板，获取与所述样本图像对应的至少一个二维预测框和三维预测框；

通过预设边框转换方法，根据所述样本图像对应的各二维预测框和各三维预测框，获取与所述样本图像对应的二维边界框和三维边界框；

获取与所述样本图像对应的分类结果、二维边界框对应的二维边界框参数和三维边界框对应的三维边界框参数；

将与所述样本图像对应的分类结果、二维边界框对应的二维边界框参数和三维边界框对应的三维边界框参数，输入至预训练的目标自知识蒸馏网络，并获取所述目标自知识蒸馏网络输出的与所述样本图像对应的更新分类结果、更新二维边界框参数和更新三维边界框参数；

根据所述样本图像对应的更新分类结果、更新二维边界框参数和更新三维边界框参数，以及预设损失函数，对所述初始特征提取网络的网络参数进行优化，并将优化后的初始特征提取网络确定为目标特征提取网络。

5.根据权利要求4所述的方法，其特征在于，根据所述样本图像对应的更新分类结果、更新二维边界框参数和更新三维边界框参数，以及预设损失函数，对所述初始特征提取网络的网络参数进行优化，包括：

根据所述样本图像对应的更新分类结果和预设多项逻辑损失函数，计算得到分类损失；

根据所述样本图像对应的更新二维边界框参数和二维真实框参数，计算得到二维边框回归损失；

基于预设回归损失函数，对所述样本图像对应的更新三维边界框参数进行优化，计算得到三维边框回归损失；

获取所述目标自知识蒸馏网络对应的损失，并根据所述分类损失、二维边框回归损失、三维边框回归损失和所述目标自知识蒸馏网络对应的损失，获取所述样本图像对应的目标检测总损失；

根据所述样本图像对应的目标检测总损失，对所述初始特征提取网络的网络参数进行优化。

6.根据权利要求3所述的方法，其特征在于，在通过预设边框转换方法，根据与所述待检测图像对应的各二维预测框和各三维预测框，获取与所述待检测图像对应的二维目标检测框和三维目标检测框之后，还包括：

根据设定投影矩阵，获取与所述三维目标检测框对应的二维投影框；

根据所述二维投影框对应的二维投影框参数和所述二维目标检测框对应的二维检测框参数，计算得到投影损失；

根据所述投影损失、设定步长系数、设定终止系数和设定衰变系数，对所述三维目标检测框对应的三维检测框参数中的方向参数进行优化。

7.根据权利要求6所述的方法，其特征在于，根据所述投影损失、设定步长系数、设定终止系数和设定衰变系数，对所述三维目标检测框对应的三维检测框参数中的方向参数进行优化，包括：

根据所述三维检测框参数中的方向参数和所述设定步长系数，获取方向参数范围；

当检测到所述三维检测框参数中的方向参数在所述方向参数范围内变化时，所述投影损失均大于预设投影损失阈值，则根据所述设定步长系数，获取更新方向参数，并根据所述设定衰变系数，获取更新设定步长系数；

根据所述更新方向参数和所述更新设定步长系数，重新判断投影损失是否大于预设投影损失阈值，直至检测到所述更新设定步长系数小于所述设定终止系数。

8.一种目标检测装置，其特征在于，包括：

9.一种汽车，其特征在于，包括：

车机设备，包括一个或多个处理器和存储装置；

所述存储装置，用于存储一个或多个计算机程序；

当所述一个或多个计算机程序被所述一个或多个处理器执行，使得所述一个或多个处理器执行所述计算机程序时实现如权利要求1-7中任一所述的目标检测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7中任一所述的目标检测方法。