CN113221744A

CN113221744A - 一种基于深度学习的单目图像3d物体检测方法

Info

Publication number: CN113221744A
Application number: CN202110519164.5A
Authority: CN
Inventors: 雷建军; 郭亭佚; 彭勃; 于传波; 刘秉正; 王梦园
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2021-08-06
Anticipated expiration: 2041-05-12
Also published as: CN113221744B

Abstract

本发明公开了一种基于深度学习的单目图像3D物体检测方法，包括：基于彩色图特征和深度图特征提取网络，分别学习彩色图和深度图的三维特征表示；将学习的彩色图和深度图的三维特征分别送入图像流和深度流检测头中，以联合预测所有先验框的分类得分以及正先验框相比于匹配真实框的回归偏移量；在图像流和深度流检测输出间引入对预测旋转角和中心深度的一致性约束；定义旋转角置信度表示该预测框的输出旋转角的准确度，在图像流检测头增加旋转角置信度预测分支以直接输出该预测框的旋转角置信度；构建网络优化的联合检测损失函数。本发明联合优化彩色图特征和深度图特征的学习过程，保留方向预测更加准确的预测框，从而提升单目图像3D物体的检测性能。

Description

一种基于深度学习的单目图像3D物体检测方法

技术领域

本发明涉及计算机视觉、3D物体检测领域，尤其涉及一种基于深度学习的单目图像3D物体检测方法。

背景技术

3D物体检测旨在分类和定位真实三维空间中存在的物体，目前已广泛应用于自动驾驶、智能机器人等领域。现有的3D物体检测方法大多利用诸如激光雷达扫描仪、双目相机等三维传感器来感知物体的几何结构信息。相比于三维传感器，单目相机成本低廉，在实际场景中具有更为广泛的应用。因此，如何提高基于单目图像的3D物体检测性能，受到了研究人员的广泛关注。

为了有效地感知单目图像中的三维物体，现有的单目图像3D物体检测方法通常从原始图像中估计深度图来挖掘深度信息。例如，Wang等人提出了一种基于伪点云的方法，该方法将深度图转换为伪点云数据，并将其送入基于点云的检测器来生成检测结果。然而这类方法在后续检测过程中缺乏对图像信息的充分利用，其性能很大程度上取决于深度图的质量。与这类方法不同，Manhardt等人融合了二维感兴趣区域内的深度特征和图像特征，并基于融合特征生成最终的检测结果。Ding等人提出了深度引导的动态卷积方法，用于提取准确的特征表示。然而上述方法只是将深度图作为补充信息来辅助单目图像进行3D物体检测，存在以下不足：1)深度特征提取过程缺乏检测相关的监督信号，难以获取适用3D检测的深度特征；2)仅融合深度特征的方法忽略了深度图检测结果中的定位信息对图像检测的辅助作用。

深度图反映了物体与相机之间的距离，其预测的物体中心深度相比于图像更为准确。此外，与主要包含颜色纹理信息的彩色图不同，深度图中深度值的变化趋势能够表征物体的方向信息。因此，深度图在预测物体的旋转角和中心深度方面具有一定的优势。有效地利用深度图所隐含的定位信息是提高3D物体检测性能的关键手段。在后处理过程中，现有的3D物体检测方法利用非极大值抑制算法(NMS)来保留分类置信度较高的预测框。然而，传统的NMS仅仅利用分类置信度来衡量三维预测框的定位质量，忽略了物体方向这一重要属性，所保留的预测框很难准确地表征物体的位姿信息。因此，研究如何利用方向信息提高预测框的定位质量是至关重要的。

发明内容

为了充分挖掘深度图潜在的定位信息，并有效利用方向信息来准确衡量预测框质量，本发明提出了一种基于深度学习的单目图像3D物体检测方法，联合优化彩色图特征和深度图特征的学习过程，保留方向预测更加准确的预测框，从而提升单目图像3D物体的检测性能，详见下文描述：

一种基于深度学习的单目图像3D物体检测方法，所述方法包括：

基于彩色图特征和深度图特征提取网络，分别学习彩色图和深度图的三维特征表示；

将学习的彩色图和深度图的三维特征分别送入图像流和深度流检测头中，以联合预测所有先验框的分类得分以及正先验框相比于匹配真实框的回归偏移量；

在图像流和深度流检测输出间引入对预测旋转角和中心深度的一致性约束；

定义旋转角置信度表示该预测框的输出旋转角的准确度，在图像流检测头增加旋转角置信度预测分支以直接输出该预测框的旋转角置信度；

构建网络优化的联合检测损失函数。

其中，所述在图像流和深度流检测输出间引入对预测旋转角和中心深度的一致性约束为：

针对同一先验框的两种不同预测结果，使用平滑L1损失函数来分别计算旋转角和中心深度的一致性损失。

进一步地，所述方法还包括：

在测试阶段，利用旋转角置信度对分类置信度进行加权，得到综合考虑二维定位信息和方向信息的联合置信度，用于非极大值抑制算法中置信度的排序。

进一步地，所述方法还包括设计能够表征旋转角准确度的动态标签对旋转角置信度预测分支进行约束。

其中，在计算动态标签

时引入余弦函数来预测旋转角αⁱ和真实旋转角α^gt所反映的预测框和真实框的方向差异。

进一步地，所述方法还包括：将动态标签作为旋转角置信度预测分支的回归目标。

其中，所述构建网络优化的联合检测损失函数包括：

对图像流和深度流预测的成对旋转角和成对中心深度，使用一致性损失来联合训练两种预测分支。

本发明提供的技术方案的有益效果是：

1、本发明通过探索深度图潜在的定位信息，以及彩色图和深度图间的定位相关性，对彩色图和深度图进行联合检测的同时利用深度图预测的旋转角和中心深度来辅助彩色图像进行3D物体检测；

2、在后处理阶段，考虑到仅仅利用分类置信度很难准确地衡量三维框的定位质量，导致依赖于置信度排序的非极大值抑制算法不能很好地滤除重复框，本发明将用于衡量方向预测精度的旋转角置信度嵌入到非极大值抑制算法中，以保留定位更为准确的三维检测框。

附图说明

图1为一种基于深度学习的单目图像3D物体检测方法的流程图；

图2为一种基于深度学习的单目图像3D物体检测方法的网络结构示意图；

图3为一种基于深度学习的单目图像3D物体检测方法的联合检测损失函数示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

一、获取深度图

对原始彩色图像I，使用单目深度估计网络从原始彩色图像I中学习对应的深度图D。将成对的彩色图I和深度图D共同送入后续特征提取网络。

二、构建双流特征提取网络

构建结构相同的双流特征提取网络，包括：彩色图特征提取网络和深度图特征提取网络，以分别学习彩色图和深度图的三维特征表示F_I和F_D。

其中，两种特征提取网络均采用ResNet-50网络结构(该网络结构为本领域技术人员所公知，本发明实施例对此不做赘述)。双流网络间引入基于深度特征F_D的卷积模块来引导图像流挖掘更为准确的定位特征。

三、构建一致性感知的联合检测机制

首先，预先定义一系列先验框作为网络预测的初始框，并根据先验框与真实框的二维交并比得分进行正负样本划分，其中被划分为正样本的先验框用于回归真实物体。然后，将学习的图像特征F_I和深度特征F_D分别送入各自的检测头(检测领域公知)中，以联合预测所有先验框的分类得分以及正先验框相比于匹配真实框的回归偏移量。

参见图2，对于图像流和深度流检测头来说，分类得分预测分支输出每个先验框属于每个类别的概率值，概率最大的类别即为先验框对应的预测类别。三维框偏移量预测分支输出结果包含，每个正先验框相比于匹配真实框在中心坐标、长、宽、高以及旋转角这几种属性上的预测偏移量。二维框偏移量预测分支输出结果包含，每个正先验框投影至图像平面上的二维框相比于真实框的投影二维框在中心坐标、长、宽这几种属性上的预测偏移量。所有属性的预测偏移量经叠加先验框初始属性值后，能够用于表征该预测框的位置和方向。

此外，考虑到彩色图和深度图间的定位相关性，为了充分利用深度图预测的旋转角和中心深度来辅助图像流实现更为精确的检测，在两流检测输出间引入对预测旋转角和中心深度的一致性约束。具体来说，针对每个正先验框B^pr，图像流检测头输出其相比于匹配真实框B^gt的旋转角偏移量Δαⁱ、中心深度偏移量Δzⁱ，深度流检测头输出另一组旋转角偏移量Δα^d和中心深度偏移量Δz^d。

针对同一先验框的两种不同预测结果[Δαⁱ,Δα^d]和[Δzⁱ,Δz^d]，引入一致性损失函数进行联合优化。具体来说，使用鲁棒性较好的平滑L1(SmoothL1)损失函数来分别计算旋转角和中心深度的一致性损失：

L_con＝SmoothL1(Δαⁱ,Δα^d)+SmoothL1(Δzⁱ,Δz^d) (1)

四、构建旋转角置信度嵌入的非极大值抑制算法

经过联合检测，网络预测了一系列密集的三维框。在后处理阶段，使用非极大值抑制算法进行稀疏化处理，保留置信度较高的预测框，滤除置信度较低且重叠的预测框。在使用非极大值抑制算法进行置信度排序之前，首先需要获取能够准确衡量三维框质量的置信度。

参见图2，对于图像检测流，使用分类得分预测分支输出的分类得分的最大值来表征预测框包含某一物体的最大概率，记为分类置信度C_cls。同时，定义旋转角置信度表示该预测框的输出旋转角的准确度。然而，由于测试阶段缺乏物体的真实旋转角，无法衡量网络预测的旋转角的准确度，因此在图像流检测头增加旋转角置信度预测分支以直接输出该预测框的旋转角置信度C_α。在测试阶段，利用旋转角置信度C_α对分类置信度C_cls进行加权，得到综合考虑了二维定位信息和方向信息的联合置信度C，用于非极大值抑制算法中置信度的排序，从而达到更为有效地滤除重复框、保留准确框的目的。

在训练阶段，为了确保网络直接输出的旋转角置信度C_α实时地表征每个预测框的旋转角准确度，设计能够有效表征旋转角准确度的动态标签

对旋转角置信度预测分支进行约束。

具体来说，考虑到旋转角度具有周期性的特点，旋转角准确并不是预测角度和真实角度完全一致，而是预测框和真实框平行即可。

因此，在计算动态标签

时引入余弦函数cos(·)来自然地建模预测旋转角αⁱ和真实旋转角α^gt所反映的预测框和真实框的方向差异：

其中，α^gt表示物体的真实旋转角。αⁱ表示网络预测的旋转角，由图像流检测头中的三维框偏移量预测分支输出的旋转角偏移量Δαⁱ叠加预先定义的先验值A_α转换而来：

αⁱ＝Δαⁱ+A_α (3)

在公式(2)中，

取得最大值1时表示预测框与真实框平行，此时预测旋转角的准确度最高；

取得最小值0时代表预测框与真实框垂直，此时预测旋转角的准确度最低。

将动态标签

作为旋转角置信度预测分支的回归目标，引导网络在训练过程中逐渐具备直接预测旋转角准确度的能力。采用SmoothL1损失函数进行约束，其公式表达如下：

其中，L_αc为旋转角置信度的回归损失，SmoothL1(·)为平滑L1损失函数；C_α为旋转角置信度预测分支输出的旋转角置信度；

为设计的动态标签。

五、构建网络优化的联合检测损失函数

联合检测损失函数旨在鼓励网络学习适合于3D物体检测的特征表示。参见图3，对于图像检测流，使用包含车、行人和骑自行车的人这三类的分类损失

来训练分类得分预测分支，使用回归损失

来训练二维框和三维框的偏移量预测分支，使用L_αc来训练设计的旋转角置信度预测分支。

对于深度检测流，使用只包含前景和背景两类的分类损失

来训练分类得分预测分支，使用回归损失

来训练二维框和三维框的偏移量预测分支。此外，对于两流预测的成对旋转角[Δαⁱ,Δα^d]和成对中心深度[Δzⁱ,Δz^d]，使用一致性损失L_con来联合训练两种预测分支。对于分类损失，具体采用标准交叉熵损失函数进行优化；对于其余参数的回归，具体采用SmoothL1损失函数。

最终训练整个网络的联合检测损失函数L_total公式表示如下：

其中，λ，β和γ分别表示不同损失函数的权重，分别为{0.5，0.5，1}。

最后，通过总体损失函数L_total来训练网络，充分挖掘深度图所蕴含的定位信息，以鼓励网络学习更具辨析力的三维特征表示，从而实现更为精确的单目图像3D物体检测。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。