CN110689008A

CN110689008A - 一种面向单目图像的基于三维重建的三维物体检测方法

Info

Publication number: CN110689008A
Application number: CN201910877786.8A
Authority: CN
Inventors: 李豪杰; 王智慧; 马新柱; 欧阳万里; 方欣瑞
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2020-01-14

Abstract

本发明公开了一种面向单目图像的基于三维重建的三维物体检测方法，属于图像处理和计算机视觉领域。本发明首先利用一个独立的模块将输入数据从二维图像平面转换为三维点云空间，以获得更好的输入表示；然后使用PointNet网络作为主干网络进行三维检测，以获得对象的三维位置、尺寸和方向；为了提高点云的识别能力，本发明提出了一个多模态特征融合模块，将点的RGB信息以及ROI的RGB特征补充嵌入到生成的点云表示中。同二维图像相比，本发明的这种从三维场景推出三维边界框的方法更为高效；和类似的基于单目相机的三维物体检测方法相比，本发明的方法更加高效。

Description

一种面向单目图像的基于三维重建的三维物体检测方法

技术领域

本发明属于图像处理和计算机视觉领域，涉及室外场景中基于单目图像的三维目标检测。具体涉及一种面向单目图像的基于三维重建的三维物体检测方法，是一种以单目图像为输入，输出图像中的感兴趣目标(如车辆，行人等)的真实三维坐标、大小、朝向等信息的三维检测方法。

背景技术

近年来，随着深度学习和计算机视觉的发展，大量的二维目标检测算法被提出并且广泛应用于各种视觉产品中。然而对于无人驾驶，移动机器人和虚拟现实等应用，二维检测技术远远不能满足实际需求。为了提供更精确的目标位置以及几何信息，三维目标检测技术已经成为不可缺少的重要研究热点，其目的是在真实三维场景中捕捉感兴趣的目标，并且给出其在真实世界坐标系下的绝对位置、大小以及朝向等信息。现在这个问题受到越来越多的学者的关注，因为雷达提供的可靠的深度信息可以用于精确地定位物体并且确定它们的形状。通常来说，根据所依赖的数据类型不同，可以分为基于雷达数据的三维检测方法和基于图像数据的三维检测方法。基于雷达点云数据的方法能够实现较高精度的三维目标检测任务，但是这类方法的存在明显的缺点：过度依赖硬件设备。造价昂贵且不具备便携性的雷达设备严重限制了此类方法的应用场景。然而基于图像数据的三维检测算法由于其数据采集方便且来源广泛，基于单目相机的三维目标检测研究更加具有应用前景。

传统的基于图像数据的三维检测方法采用和二维检测器相似的方法，主要关注从二维图片中提取RGB特征然而这些RGB特征并不适用于三维相关的任务因为这些特征缺少空间信息，这也是该方法很难取得好的表现效果的主要原因。一种新的解决思路是，在没有可用的深度数据时可以使用CNN来预测深度并作为输入。虽然深度信息对三维场景的理解非常有帮助，但是如果只是简单地将深度信息作为RGB图像的一个额外通道，并不能弥补基于图像数据的方法和基于雷达数据的方法二者之间的差距。毫无疑问的是雷达数据相较于使用CNN估计的深度信息有更高的准确度。

目前基于雷达数据的三维检测方法和基于图像数据的三维检测方法的发展情况如下：在早期的基于图像数据的三维检测方法中，基于单目的方法使用的是二维检测的框架，但是检测三维物体中心的坐标值更为复杂，因为单纯的图像信息无法确定物体的物理位置。Mono3D和3DOP利用之前的知识从单目相机或Stereo图像生成三维物体候选框。Deep3DBox引入了几何约束，基于作者的观察需要将3D边界框应与二维检测边界框紧密配合。Deep MANTA使用关键点对3D车辆信息进行编码，因为它们是具有几何信息的刚体。然后可以将Deep MANTA中的车辆识别看作额外的关键点检测。尽管这些方法提出了一些有效的先验知识或合理的约束条件，但由于空间信息的缺乏，它们很难获得很好的表现。

同时，介绍几种基于雷达数据的三维检测方法，MV3D将三维点云和多视角的特征图混合编码，支持基于区域的多模型融合表示。随着用深度学习处理原始点云数据的发展，一些基于原始点云的检测方式也陆续被提出。Qi等人通过提取对应于其二维检测的截锥点云将PointNet扩展到三维检测任务。VoxelNet将点云划分为均匀的三维体素网格空间并将体素网格内的点转化为体素网格的固有特征表示。最后，在这些高维度体素特征上使用二维卷积层来获取空间特征并给出预测结果。尽管这两种方法可以得到有保证的检测结果，它们并不能很好地利用到RGB信息。

发明内容

本发明旨在克服现有技术的不足，提供了一种基于单目相机的更准确的三维物体检测方法，解决了重建三维空间的问题，可以很好地提取三维语义，为此，首先利用一个独立的模块将输入数据从二维图像平面转换为三维点云空间，以获得更好的输入表示；为了提高点云的识别能力，本发明提出了一个多模态特征融合模块，将RGB特征补充嵌入到生成的点云表示中；然后使用PointNet网络进行三维检测，以获得对象的三维位置、尺寸和方向。同平面图像相比，从三维场景推出三维边界框更为高效。

本发明的具体技术方案：

一种面向单目图像的基于三维重建的三维物体检测方法，能够得到用以表示物体位置、大小、姿态的三维边框，其过程包括如下步骤：

1)三维数据生成：利用两个深度卷积神经网络实现二维检测和深度估计任务，得到位置以及深度信息，利用二维检测技术生成二维边界框，并将生成的深度图信息转化为点云。

2)二维图像平面转换为三维点云空间：利用步骤1)中得到的深度图和二维边界框计算得到每个二维边界框的深度的均值，从而得到ROI(感兴趣区域)区域的位置信息，提取每个ROI区域的点作为输入数据，依次去除背景信息，并进行更新。

3)RGB信息聚合，三维边界框预测：利用注意力机制，为每个点增加其RGB信息，同时，增加区域特征融合，将ROI区域内的图像进行放缩，利用卷积神经网络提取特征后，同点的特征作concatenate运算得到最后的特征图，之后使用PointNet网络预测三维物体区域的边界框。

所述的步骤1)的三维数据生成，具体包括以下步骤：

1-1)中间任务，训练两个深度卷积神经网络来生成深度图以及二维边界框以提供深度信息以及位置预测；中间任务通过DORN算法和FPN算法实现。

1-2)结合步骤1-1)中得到的深度信息，利用KITTI数据集中提供的相机坐标转换文件将深度图信息转化为点云，然后将点云作为数据输入格式；给定深度图像的像素坐标(u，v)和深度d，相机坐标系下的点云坐标(x，y，z)可通过如下公式得到：

其中，f是相机的焦距，(C_x,C_y)是坐标系原点。

1-3)点云S通过深度图和二维边界框B按下式得到：

S＝{p|p←F(v),v∈B}

其中，v是步骤1-2)中深度图中的像素，F(·)指代步骤1-2)中的公式的转换函数，p代表每一个点。

所述的步骤2)的二维图像平面转换为三维点云空间，具体包括以下步骤：

2-1)通过步骤1)中的深度图和二维边界框计算得到每个二维边界框的深度的均值，从而得到ROI区域的位置，并将其作为阈值；对于ROI区域中所有的点，如果一个点的Z通道的值大于阈值，该点将被视为背景点，将点云S去背景点得到点云S′，去背景点处理方式如下：

其中，p_v代表每个点Z通道的值，即深度的值，r是用于修正阈值的偏置。

2-2)利用轻量网络预测ROI区域的中点δ，并用中点δ更新点云S′得到点云S″：

S″＝{p|p-δ,p∈S′}

所述的步骤3)的RGB信息聚合、三维边界框预测，具体包括以下步骤：

3-1)将RGB信息增加到生成的点云中，将步骤1-3)中S的表达式替换如下：

S＝{p|p←[F(v),D(v)],v∈B}

其中，D是一个输出每个点对应RGB值的函数，通过这种方式所有S中的点被编码为6维的向量：[x,y,z,r,g,b]。

3-2)在步骤3-1)的基础上，将RGB信息添加到步骤2-2)中更新后的点云S″中每一个点，使用注意力机制引导信息从空间特征到RGB特征的传导；当将RGB信息传递到对应的点云时，从三维物体的xyz信息生成注意力图G：

其中，f是通过卷积层学习到的非线性函数，σ是为特征图做标准化的sigmoid函数，

和分别表示用最大池化和均值池化对网络输出的特征图进行操作提取到的xyz特征。

3-3)利用步骤3-2)中得到的注意力图G，信息在特征图进行传递，传递过程如下：

其中，

表示矩阵中元素的乘积，F^xyz和F^rgb分别表示网络分别在点云数据和图像数据中提取到的关于xyz和关于rgb的特征图。

3-4)物体RGB信息的特征融合：首先从RGB图像提取ROI区域并将该区域放缩至像素128*128，然后使用卷积神经网络提取物体的特征图F^obj。

3-5)用于估计三维物体的特征图集F通过融合模型获得，并利用特征图获得三维检测框，融合模型如下：

F←CONCAT(F^xyz,F^obj)

其中，CONCAT表示concatenate操作。

3-6)利用PointNet网络，结合三维物体的特征图集F，计算三维物体最终的中心点的坐标(X，Y，Z)、尺寸(h，w，l)和朝向θ，从而预测物体的三维边界框，其中，h是三维物体的高，w是三维物体的宽，l是三维物体的长度。

本发明的有益效果是：

本发明结合二维检测和卷积神经网络深度推断的融合方法进行三维点云重建，在此基础上，通过融合点点云的RGB特征以及区域的RGB特征来实现三维检测任务，具有以下特点：

1、将二维图像转化为三维点云，可以高效地实现三维检测。

2、利用一种特征融合策略，充分利用RGB信息和点云的优势，提高检测性能，同时这种融合策略也可以应用于其他场景，如基于激光雷达的三维检测等。

3、利用KITTI数据集进行评估显示本发明的方法比目前最好的基于单目相机的方法在三维定位任务和三维检测任务的AP值分别高15％和11％。

本发明充分的利用了CNN二维检测网络和CNN预测的深度图，实现了基于单目相机的三维场景的点云重建，同时利用多特征融合模型将RGB信息嵌入点云特诊，更高效地实现三维检测任务，所提的方法具有很好的可扩展性，并可直接用于LiDAR数据。

附图说明

图1是本发明方法的流程示意图。

图2是三维边界框预测(Det-Net)网络结构图；其中：点的特征是特征的主干，RGB特征附加到点的特征后和区域特征作连接(concatenate)运算。

图3是三维物体检测结果图；其中：深色的检测框是真值检测框，白色的检测框是本发明嵌入RGB信息后的模型检测得到的结果。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

本发明以单目相机为传感器获取的图片为数据，在此基础上，利用二维检测器以及CNN的深度预测与特征法推断的稀疏深度图进行深度信息恢复，建立三维点云数据。整个方法的实施流程如图1所示，所述方法包括下列步骤：

1)首先采用两个CNN网络分别对RGB图像做卷积得到物体的大概位置以及深度信息。

1-1)二维检测器，使用CNN二维检测器检测并定为RGB图像中的物体，分别输出检测物体类别的分数(Class Score)以及二维边界框B的坐标。

1-2)深度生成器，同样使用现有的CNN网络学习并生成待检测RGB图片的深度信息。

1-3)如果只是单纯地用卷积神经网络从深度图提取有效的特征并不是最好的解决方法。为了更好地利用深度信息，利用KITTI数据集提供的坐标转换文件将预测的深度信息转化为点云数据并将点云作为模型进一步的输入。给定深度图像的像素坐标(u，v)和深度d，相机中的三维坐标(x，y，z)可以通过以下公式得到：

其中，f是相机的焦距，(C_x,C_y)是坐标原点。

1-4)点云S可以通过深度图和二维边界框B按下式得到：

S＝{p|p←F(v),v∈B}

其中，v是1-2)中深度图中的像素，F指代步骤1-2)中的公式的转换函数，p代表每一个点。

1-5)需要注意的是，实际上使用了一个编码-解码网络来学习从(u，v，d)到(x，y，z)的映射，因此在测试阶段不需要相机。实际上，点云生成阶段产生的误差相较于深度图本身包含的误差是可以忽略不计的。

2)二维图像平面转换为三维点云空间：

2-1)虽然在步骤1)中生成了点云，但是在点云数据中存在大量无用的背景信息，为了精确估计目标的位置，需要去除这些无用的点。通过步骤1)中的深度图和二维边界框计算得到每个二维边界框的深度的均值来得到ROI(感兴趣区域)的大致位置，并将其作为阈值。对于所有的点，如果一个点的Z通道的值大于这个阈值，这个点将被视为背景点，点云S′去背景点处理方式如下：

其中，p_v代表每个点Z通道的值(即深度的值)，r是用来修正阈值的偏置。

2-2)使用步骤2-1)中得到的点集，在每个点集中随机选取固定数量的点作为模型的输出来确保每个序列的点云数量是固定的大小。

2-3)使用已有的轻量级网络预测ROI区域的中点δ，并用δ更新点云：

S″＝{p|p-δ,p∈S′}

3)RGB信息聚合，三维边界框预测：为了进一步提升模型的表现以及鲁棒性，本发明提出将RGB信息添加到点云数据中，RGB信息分为两部分，一部分是每个点的RGB信息，另一部分是每个ROI区域的RGB信息。

3-1)将通过下式将RGB信息添加到点云上：

S＝{p|p←[F(v),D(v)],v∈B}

其中，D是一个输出每个点对应RGB值的函数，通过这种方式所有S中的点被编码为6维的向量：[x,y,z,r,g,b]。然而，如果仅依赖这种简单的方法来添加RGB信息是不可行的。添加如图2的注意力机制来实现融合RGB的任务。

3-2)在3-1)的基础上，使用注意力机制指导信息从空间特征到RGB特征的传递。注意力可以让网络自动关注或者忽略其他特征的信息。当将RGB信息传递到对应的点时，从三维物体的xyz信息生成注意力图G：

3-3)利用3-2)中得到的G，信息通过以下控制从特征图进行传递：

其中，

3-4)本发明除了融合点的RGB信息之外，也会融合ROI物体层面的RGB信息。首先从RGB图像中裁剪ROI区域并将其放缩到固定大小128×128。

3-5)使用卷积神经网络提取物理层面的特征图F^obj，从而融合模型中得到的最终特征图F：

F←CONCAT(F^xyz,F^obj)

其中，CONCAT表示concatenate操作。

3-6)利用PointNet网络，通过三维物体的中心点的坐标(X，Y，Z)、尺寸(h，w，l)，和朝向θ来预测三维边界框，其中h是三维物体的高，w是三维物体的宽，l是三维物体的长度。同其他方法一样，只考虑了一个朝向因为假设路面是水平的并且另外两个角度是不可能得到的。三维边界框估计网络的架构如图2所示。

3-7)另外一点需要注意的是此处估计的中心点C是“冗余中心点”，换句话说C是实际中心点C+δ。最后将每个二维检测框的置信度(confidence score)添加到对应的三维检测结果。

4)实现细节：本实施例用多任务损失函数对两个三维物体检测的网络进行优化，同时将实现细节描写如下：

4-1)多任务损失函数如下所示：

L＝L_loc+L_det+λL_corner,

其中，L_loc是轻量的定位网络的损失函数，L_det是三维物体检测网络的损失函数，L_corner为边界框坐标的损失函数，λ为权重调整因子。

在训练模型时使用Adam优化，训练200个epoch，同时batch size的大小是32。学习速率初始化为0.001，然后每20个epoch降低一半。所有的训练进程可以在一天以内完成。

4-2)提出的融合模型在PyTorch上运行，GPU为Nvidia 1080Ti。两个中间任务网络适用于所有的网络结构。对于三维检测网络，使用PointNet作为的主干网络并通过随机初始化从零开始训练它们。除最后一层外，其余各层均采用保持率为0.7的Dropout策略。对于RGB的值，首先在(0，1)的区间内对它们做标准化并划分为255份，然后将每个颜色通道的数据分布规律化为标准正态分布。对于RGB功能融合模块中的区域分支，使用一半通道的ResNet-34网络以及全局池化操作来得到1*1*256的特征图。

5)图3是模型预测的三维边界框和ground truth的三位边界框的比较，将三维边界框分别投影到图像平面，深色框来自用RGB特征融合模块训练的模型，白色框是groundtruth提供的三维边界框。尤其是物体在遮挡/截断情况下，本发明提出的RGB融合方法可以提高三维检测的精度。