CN116229448A

CN116229448A - 三维目标检测方法、装置、设备及可读存储介质

Info

Publication number: CN116229448A
Application number: CN202211733172.0A
Authority: CN
Inventors: 晏萌; 郭启翔; 何薇; 陈晖�; 刘磊; 胡博伦; 高宠智; 屈紫君; 李嫩; 付浩
Original assignee: Dongfeng Automobile Co Ltd
Current assignee: Dongfeng Automobile Co Ltd
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-06-06

Abstract

本申请涉及一种三维目标检测方法、装置、设备及可读存储介质，包括基于DORN算法对RGB图像进行处理得到深度估计图及其预测目标中心点深度值；通过RGB图像、深度估计图以及预测目标中心点深度值对预设神经网络模型进行训练生成目标检测模型，目标检测模型中的局部卷积核基于深度估计图生成，目标检测模型中的损失函数用于约束回归二维包围框与三维框的关系；将待检测图像输入至目标检测模型得到目标三维框。本申请结合图像的深度估计图生成自适应于目标样本位置的局部卷积核，以有效捕获上下文信息，提高三维目标检测算法的鲁棒性和准确性；同时利用深度估计图的目标中心深度值来构建二维框与三维框的几何约束监督，以有效提升算法性能。

Description

三维目标检测方法、装置、设备及可读存储介质

技术领域

本申请涉及自动驾驶目标检测技术领域，特别涉及一种三维目标检测方法、装置、设备及可读存储介质。

背景技术

自动驾驶主要由三大核心系统构成，分别是环境感知系统、行为决策系统以及运动控制系统。其中，环境感知系统主要是通过传感器感知周围的环境状况以及采集对应数据；行为决策系统主要是处理实时输入的数据，并及时地生成合理可执行的规划路径；运动控制系统则根据当前决策路径发出控车指令，引导汽车安全行驶。由此可见，环境感知系统是自动驾驶前提，其采集数据的精度和效率直接影响行为决策系统和运动控制系统的操作。在物理世界里，物体往往包含有长度、宽度、高度以及朝向角度等几何信息，因此3D目标检测旨在2D目标检测的基础上提供目标在三维空间里的尺寸、姿态等真实信息。于是，为保证自动驾驶的安全行驶，环境感知层的目标检测将获取周围环境的位置信息，同时环境感知层将向行为决策层提供目标物体在路面上的真实情况。

相关技术中，在实现3D目标检测时，往往通过深度信息的辅助来克服传统二维卷积的局限性，不过由于传统目标检测模型中的卷积核是标准的3×3，以致深度引导的局部扩张卷积核在针对半遮挡物时无法对样本目标的上下文信息进行有效地捕获，进而导致算法模型鲁棒性较差且正确性较低，从而造成感知结果特别是针对于远处目标以及小目标(行人或骑车的人)的检测结果表现较差。

发明内容

本申请提供一种三维目标检测方法、装置、设备及可读存储介质，以解决相关技术中3D目标检测算法模型鲁棒性差且正确性低的问题。

第一方面，提供了一种三维目标检测方法，包括以下步骤：

基于DORN算法对RGB图像进行处理，得到深度估计图及其预测目标中心点深度值；

通过RGB图像、深度估计图以及预测目标中心点深度值对预设神经网络模型进行训练，生成目标检测模型，所述目标检测模型中的局部卷积核基于深度估计图生成，所述目标检测模型中的损失函数用于约束回归二维包围框与三维框的关系；

将待检测图像输入至所述目标检测模型，得到目标三维框。

一些实施例中，所述预设神经网络模型包括上支特征提取网络和下支卷积核生成网络，所述上支特征提取网络包括改进后的ResNet-50网络、RPN网络和深度引导卷积模块。

一些实施例中，所述改进后的ResNet-50网络包括由残差模块构成的4个卷积模块，所述下支卷积核生成网络包括由残差模块构成的3个卷积模块。

一些实施例中，所述通过RGB图像、深度估计图以及预测目标中心点深度值对预设神经网络模型进行训练，生成目标检测模型，包括：

将所述深度估计图作为下支卷积核生成网络的输入，得到深度特征图；

将所述RGB图像作为改进后的ResNet-50网络的输入，改进后的ResNet-50网络中的卷积模块基于所述RGB图像和所述深度特征图生成上支特征图；

所述深度引导卷积模块对所述深度特征图和所述上支特征图进行融合，得到融合特征图；

基于所述融合特征图和所述预测目标中心点深度值对所述RPN网络进行三维目标检测训练，生成目标检测模型。

一些实施例中，所述损失函数L_total为：

L_total＝(1-S_t)^γ(L_cls+L_2D+L_3D+L_depth)

式中，S_t表示目标分类的得分，γ表示损失函数的聚焦参数，L_cls表示分类损失，L_2D表示二维边界框的回归损失，L_3D表示三维边界框的回归损失，L_depth表示深度估计图的预测损失，λ表示权重，

表示SmoothL1损失函数，[z′]_depth表示预测目标中心点深度值，[z]_3D表示真实目标中心点深度值。

第二方面，提供了一种三维目标检测装置，包括：

处理单元，其用于基于DORN算法对RGB图像进行处理，得到深度估计图及其预测目标中心点深度值；

训练单元，其用于通过RGB图像、深度估计图以及预测目标中心点深度值对预设神经网络模型进行训练，生成目标检测模型，所述目标检测模型中的局部卷积核基于深度估计图生成，所述目标检测模型中的损失函数用于约束回归二维包围框与三维框的关系；

检测单元，其用于将待检测图像输入至所述目标检测模型，得到目标三维框。

一些实施例中，所述损失函数L_total为：

L_total＝(1-S_t)^γ(L_cls+L_2D+L_3D+L_depth)

第三方面，提供了一种三维目标检测设备，包括：存储器和处理器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以实现前述的三维目标检测方法。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，以实现前述的三维目标检测方法。

本申请提供了一种三维目标检测方法、装置、设备及可读存储介质，包括基于DORN算法对RGB图像进行处理，得到深度估计图及其预测目标中心点深度值；通过RGB图像、深度估计图以及预测目标中心点深度值对预设神经网络模型进行训练，生成目标检测模型，所述目标检测模型中的局部卷积核基于深度估计图生成，所述目标检测模型中的损失函数用于约束回归二维包围框与三维框的关系；将待检测图像输入至所述目标检测模型，得到目标三维框。本申请结合图像的深度估计图生成自适应于目标样本位置的局部卷积核，以有效地捕获上下文信息，进而提高三维目标检测算法的鲁棒性和准确性；同时利用深度估计图的目标中心深度值来构建二维框与三维框的几何约束监督，从而有效提升算法性能。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种三维目标检测方法的流程示意图；

图2为本申请实施例提供的图像数据处理流程示意图；

图3为本申请实施例提供的一种三维目标检测装置的结构示意图；

图4为本申请实施例提供的一种三维目标检测设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种三维目标检测方法、装置、设备及可读存储介质，其能解决相关技术中3D目标检测算法模型鲁棒性差且正确性低的问题。

图1是本申请实施例提供的一种三维目标检测方法，包括以下步骤：

步骤S10：基于DORN算法(深度序列回归网络)对RGB图像进行处理，得到深度估计图及其预测目标中心点深度值；

示范性的，在本实施例中，使用DORN算法(即单目图像的深度估计算法)对相应的单目图像(即RGB图像)进行处理，生成深度估计图以及从该深度估计图中预测得到的目标中心深度值。需要说明的是，不仅可以使用DORN算法对RGB图像进行处理，也可以通过其他单目图像深度估计算法来对RGB图像进行处理，具体采用哪种算法，可根据实际需求确定，在此不作限定。

应当理解的是，本实施例所得到的深度估计图是用于引导生成卷积核的。与深度估计图对应的二维图像中每个像素都有个对应的深度估计值，由于回归三维包围框的难度主要在于单目图像缺失准确的深度值，因此本实施例将利用DORN算法生成目标样本中心的深度值。

需要说明的是，在本实施例中，将使用KITTI数据集和NuScenes数据集实现模型的训练、验证以及测试。其中，NuScenes数据集收集了1000个驾驶场景，其包括约40万个关键帧中的140万个摄像机图像、39万个LIDAR扫描数据、1.4M个RADAR扫描数据和1.4万个对象边界框，其扩展包nuScenes-lidarseg中的40000个点云和1000个场景(即包括用于训练和验证的850个场景以及用于测试的150个场景)中包含了14亿个标注点；而KITTI数据集是一个用于自动驾驶场景下的计算机视觉算法测评数据集，该数据集包含市区、乡村和高速公路等多个场景，整个数据集由389对立体图像和光流图、39.2km视觉测距序列以及超过200k3D标注物体的图像组成，对于3D目标检测，标签细分为car、van、truck、pedestrian、pedestrian(sitting)、cyclist、tram以及misc组成。上述两个数据集已经标注和划分好训练、验证以及测试数据集。

步骤S20：通过RGB图像、深度估计图以及预测目标中心点深度值对预设神经网络模型进行训练，生成目标检测模型，所述目标检测模型中的局部卷积核基于深度估计图生成，所述目标检测模型中的损失函数用于约束回归二维包围框与三维框的关系；

进一步的，所述预设神经网络模型包括上支特征提取网络和下支卷积核生成网络，所述上支特征提取网络包括改进后的ResNet-50网络、RPN网络和深度引导卷积模块。其中，所述改进后的ResNet-50网络包括由残差模块构成的4个卷积模块，所述下支卷积核生成网络包括由残差模块构成的3个卷积模块。

示范性的，在本实施例中，预设神经网络模型中的backbone(即骨干网络)主要包括上支特征提取网络和下支卷积核生成网络，而上支特征提取网络主要包括改进后的ResNet-50网络、RPN网络和深度引导卷积模块。其中，改进后的ResNet-50网络部分主要用于提取有关特征，而RPN网络是对生成的锚框进行进一步精细处理，深度引导卷积模块引导生成卷积核，以用于特征提取网络，该卷积核可选用空洞卷积，其感受野可由自适应权重函数分配，以使得能够更有效地提取不同尺度目标的特征信息，进而有效地解决不同尺度的特征提取问题。

可以理解的是，当模型所搭建的网络层数过深时，将导致计算开销增大且神经网络模型的准确率也会下降，因此为避免上述现象，本实施例中的改进后的ResNet-50网络舍弃了原ResNet-50网络中最后的全卷积层和池化层，即改进后的ResNet-50网络共分为五个阶段以及四个卷积模块：第一个阶段是对输入图像进行卷积和最大池化操作；而后续每个阶段是由多个Bottleneck(即瓶颈层)结构的残差模块构成，且每个卷积模块都是为了提取样本有效信息的卷积层。需要说明的是，网络中各层参数权重可从ImageNet分类数据集预训练得到。

应当理解的是，为减少计算量，本实施例将ResNet-50的前三个卷积模块所构成的网络作为下支卷积核生成网络，且不同图像的不同像素和通道的卷积核及其感受野是不同的，其可基于深度图学习得到。

进一步的，所述通过RGB图像、深度估计图以及预测目标中心点深度值对预设神经网络模型进行训练，生成目标检测模型，包括：

示范性的，在本实施例中，参见图2所示，将深度估计图作为下支卷积核生成网络的输入，经过下支卷积核生成网络中的残差模块处理后，分别得到宽度为w1、高度为h1、通道为c1的深度特征图H1、宽度为w2、高度为h2、通道为c2的深度特征图H2以及宽度为w3、高度为h3、通道为c3的深度特征图H3。

将RGB图像作为改进后的ResNet-50网络的输入，经过改进后的ResNet-50网络处理后，得到宽度为w1、高度为h1、通道为c1的上支特征图F1；将上支特征图F1和深度特征图H1输入至改进后的ResNet-50网络的残差模块进行融合后，输出宽度为w2、高度为h2、通道为c2的上支特征图F2；然后再将上支特征图F2和深度特征图H2输入至改进后的ResNet-50网络中的下一残差模块进行融合后，输出宽度为w3、高度为h3、通道为c3的上支特征图F3。

将上支特征图F3和深度特征图H3输入至深度引导卷积模块进行融合，得到宽度为w4、高度为h4、通道为c4的融合特征图。

然后将预测目标中心点深度值作为深度损失分支以及融合特征图输入至RPN网络，以通过RPN网络构建新的损失函数，进而约束回归二维包围框与三维框的关系。

本实施例将faster_RCNN的2D-3D单级检测作为检测头，对RPN网络所输出的特征图进行检测，即可输出可视化三维框，进而完成预设神经网络的训练并生成目标检测模型。

由此可见，本实施例中的预设网络模型在训练时，模型的输入是RGB图像和深度估计图，而模型的输出是图像中目标的三维位置坐标点。其中，本实施例模型利用前向网络传播，后向网络反馈，并基于随机梯度下降(SGD)进行模型的优化迭代。

进一步的，所述损失函数L_total为：

L_total＝(1-S_t)^γ(L_cls+L_2D+L_3D+L_depth)

示范性的，可以理解的是，二维图像与深度图中对应的像素语义信息往往存在一些约束条件，但现有的目标检测网络中并未充分利用该约束条件。而在本实施例中，充分考虑实例目标3D信息与图像中二维包围框之间存在的几何约束关系，为提高RPN网络对3D候选框的正确率，将利用下支卷积核生成网络中的深度图实例目标中心点Z值输入RPN网络中，以构建新的损失函数，进而约束回归二维包围框与三维框的关系，该方法加强在训练过程中对正样本目标的深度感知特征学习。

需要说明的是，二维包围框的检测率通常是很高的，于是大多数三维包围框是在二维包围框的基础上利用透视几何关系回归得到。而本实施例将添加新的损失函数，即在总损失的基础上，使得二维包围框能够更准确的回归三维框。具体的，本实施例中的损失函数包含了分类损失、二维边界框的回归损失、三维边界框的回归损失以及基于深度估计图的目标中心损失，即总损失函数L_total如下所示：

L_total＝(1-S_t)^γ(L_cls+L_2D+L_3D+L_depth)

式中，S_t表示目标分类的得分，γ表示损失函数的聚焦参数，L_cls表示分类损失，L_2D表示二维边界框的回归损失，L_3D表示三维边界框的回归损失，L_depth表示深度估计图的预测损失。

其中，对于基于深度估计图的目标中心的损失，本实施例将采用SmoothL1损失函数，具体公式如下：

式中，λ表示权重，λ∈[0,1]，

表示SmoothL1损失函数，[z′]_depth表示从深度估计图中预测得到的目标中心点深度值，[z]_3D表示目标中心点深度值的真值。

应当理解的是，深度估计图在小距离和中等距离的深度预测是准确的，而远距离的深度预测则是合理估计。因此，本实施例将用一个反向S函数来定义不同距离的权重λ，如下公式所示：

式中，s为距离阈值，其对应函数的中心对称点，T为函数弯曲度，dep_i为RPN网络预测得到的深度。

步骤S30：将待检测图像输入至所述目标检测模型，得到目标三维框。

示范性的，本实施例结合图像的深度估计图生成自适应于目标样本位置的局部卷积核，以有效地捕获上下文信息，进而提高三维目标检测算法的鲁棒性和准确性；同时利用深度估计图的目标中心深度值来构建二维框与三维框的几何约束监督，从而有效提升算法性能。因此，当待检测图像输入至目标检测模型后，将可输出准确的目标三维框及其对应的三维位置坐标点。此外，实验表明，本实施例对于半遮挡物体的三维目标检测的结果准确性有了明显提升，其中，对于三维目标检测汽车AP|R40各类型大约提升5％，而行人等各类型大约提升1％。

参见图3所示，本申请实施例还提供了一种三维目标检测装置，包括：

进一步的，所述预设神经网络模型包括上支特征提取网络和下支卷积核生成网络，所述上支特征提取网络包括改进后的ResNet-50网络、RPN网络和深度引导卷积模块。

进一步的，所述改进后的ResNet-50网络包括由残差模块构成的4个卷积模块，所述下支卷积核生成网络包括由残差模块构成的3个卷积模块。

进一步的，所述训练单元具体用于：

进一步的，所述损失函数L_total为：

L_total＝(1-S_t)^γ(L_cls+L_2D+L_3D+L_depth)

需要说明的是，所属本领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各单元的具体工作过程，可以参考前述三维目标检测方法实施例中的对应过程，在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图4所示的三维目标检测设备上运行。

本申请实施例还提供了一种三维目标检测设备，包括：通过系统总线连接的存储器、处理器和网络接口，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行，以实现前述的三维目标检测方法的全部步骤或部分步骤。

其中，网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

处理器可以是CPU，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程逻辑门阵列(FieldProgrammable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件分立硬件组件等。通用处理器可以是微处理器，或者该处理器也可以是任何常规的处理器等，处理器是计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如视频播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如视频数据、图像数据等)等。此外，存储器可以包括高速随存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘、智能存储卡(SmartMedia Card，SMC)、安全数字(Secure digital，SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件或其他易失性固态存储器件。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时，实现前述的三维目标检测方法的全部步骤或部分步骤。

本申请实施例实现前述的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Onlymemory，ROM)、随机存取存储器(RandomAccessmemory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、服务器或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种三维目标检测方法，其特征在于，包括以下步骤：

将待检测图像输入至所述目标检测模型，得到目标三维框。

2.如权利要求1所述的三维目标检测方法，其特征在于：所述预设神经网络模型包括上支特征提取网络和下支卷积核生成网络，所述上支特征提取网络包括改进后的ResNet-50网络、RPN网络和深度引导卷积模块。

3.如权利要求2所述的三维目标检测方法，其特征在于：所述改进后的ResNet-50网络包括由残差模块构成的4个卷积模块，所述下支卷积核生成网络包括由残差模块构成的3个卷积模块。

4.如权利要求3所述的三维目标检测方法，其特征在于，所述通过RGB图像、深度估计图以及预测目标中心点深度值对预设神经网络模型进行训练，生成目标检测模型，包括：

5.如权利要求1所述的三维目标检测方法，其特征在于：所述损失函数L_total为：

L_total＝(1-S_t)^γ(L_cls+L_2D+L_3D+L_depth)

表示SmoothL1损失函数，/>

表示预测目标中心点深度值，[z]_3D表示真实目标中心点深度值。

6.一种三维目标检测装置，其特征在于，包括：

7.如权利要求6所述的三维目标检测装置，其特征在于：所述预设神经网络模型包括上支特征提取网络和下支卷积核生成网络，所述上支特征提取网络包括改进后的ResNet-50网络、RPN网络和深度引导卷积模块。

8.如权利要求6所述的三维目标检测装置，其特征在于：所述损失函数L_total为：

L_total＝(1-S_t)^γ(L_cls+L_2D+L_3D+L_depth)

9.一种三维目标检测设备，其特征在于，包括：存储器和处理器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以实现权利要求1至5中任一项所述的三维目标检测方法。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，以实现权利要求1至5中任一项所述的三维目标检测方法。