CN113221744A - 一种基于深度学习的单目图像3d物体检测方法 - Google Patents
一种基于深度学习的单目图像3d物体检测方法 Download PDFInfo
- Publication number
- CN113221744A CN113221744A CN202110519164.5A CN202110519164A CN113221744A CN 113221744 A CN113221744 A CN 113221744A CN 202110519164 A CN202110519164 A CN 202110519164A CN 113221744 A CN113221744 A CN 113221744A
- Authority
- CN
- China
- Prior art keywords
- image
- rotation angle
- depth
- prediction
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Abstract
本发明公开了一种基于深度学习的单目图像3D物体检测方法,包括:基于彩色图特征和深度图特征提取网络,分别学习彩色图和深度图的三维特征表示;将学习的彩色图和深度图的三维特征分别送入图像流和深度流检测头中,以联合预测所有先验框的分类得分以及正先验框相比于匹配真实框的回归偏移量;在图像流和深度流检测输出间引入对预测旋转角和中心深度的一致性约束;定义旋转角置信度表示该预测框的输出旋转角的准确度,在图像流检测头增加旋转角置信度预测分支以直接输出该预测框的旋转角置信度;构建网络优化的联合检测损失函数。本发明联合优化彩色图特征和深度图特征的学习过程,保留方向预测更加准确的预测框,从而提升单目图像3D物体的检测性能。
Description
技术领域
本发明涉及计算机视觉、3D物体检测领域,尤其涉及一种基于深度学习的单目图像3D物体检测方法。
背景技术
3D物体检测旨在分类和定位真实三维空间中存在的物体,目前已广泛应用于自动驾驶、智能机器人等领域。现有的3D物体检测方法大多利用诸如激光雷达扫描仪、双目相机等三维传感器来感知物体的几何结构信息。相比于三维传感器,单目相机成本低廉,在实际场景中具有更为广泛的应用。因此,如何提高基于单目图像的3D物体检测性能,受到了研究人员的广泛关注。
为了有效地感知单目图像中的三维物体,现有的单目图像3D物体检测方法通常从原始图像中估计深度图来挖掘深度信息。例如,Wang等人提出了一种基于伪点云的方法,该方法将深度图转换为伪点云数据,并将其送入基于点云的检测器来生成检测结果。然而这类方法在后续检测过程中缺乏对图像信息的充分利用,其性能很大程度上取决于深度图的质量。与这类方法不同,Manhardt等人融合了二维感兴趣区域内的深度特征和图像特征,并基于融合特征生成最终的检测结果。Ding等人提出了深度引导的动态卷积方法,用于提取准确的特征表示。然而上述方法只是将深度图作为补充信息来辅助单目图像进行3D物体检测,存在以下不足:1)深度特征提取过程缺乏检测相关的监督信号,难以获取适用3D检测的深度特征;2)仅融合深度特征的方法忽略了深度图检测结果中的定位信息对图像检测的辅助作用。
深度图反映了物体与相机之间的距离,其预测的物体中心深度相比于图像更为准确。此外,与主要包含颜色纹理信息的彩色图不同,深度图中深度值的变化趋势能够表征物体的方向信息。因此,深度图在预测物体的旋转角和中心深度方面具有一定的优势。有效地利用深度图所隐含的定位信息是提高3D物体检测性能的关键手段。在后处理过程中,现有的3D物体检测方法利用非极大值抑制算法(NMS)来保留分类置信度较高的预测框。然而,传统的NMS仅仅利用分类置信度来衡量三维预测框的定位质量,忽略了物体方向这一重要属性,所保留的预测框很难准确地表征物体的位姿信息。因此,研究如何利用方向信息提高预测框的定位质量是至关重要的。
发明内容
为了充分挖掘深度图潜在的定位信息,并有效利用方向信息来准确衡量预测框质量,本发明提出了一种基于深度学习的单目图像3D物体检测方法,联合优化彩色图特征和深度图特征的学习过程,保留方向预测更加准确的预测框,从而提升单目图像3D物体的检测性能,详见下文描述:
一种基于深度学习的单目图像3D物体检测方法,所述方法包括:
基于彩色图特征和深度图特征提取网络,分别学习彩色图和深度图的三维特征表示;
将学习的彩色图和深度图的三维特征分别送入图像流和深度流检测头中,以联合预测所有先验框的分类得分以及正先验框相比于匹配真实框的回归偏移量;
在图像流和深度流检测输出间引入对预测旋转角和中心深度的一致性约束;
定义旋转角置信度表示该预测框的输出旋转角的准确度,在图像流检测头增加旋转角置信度预测分支以直接输出该预测框的旋转角置信度;
构建网络优化的联合检测损失函数。
其中,所述在图像流和深度流检测输出间引入对预测旋转角和中心深度的一致性约束为:
针对同一先验框的两种不同预测结果,使用平滑L1损失函数来分别计算旋转角和中心深度的一致性损失。
进一步地,所述方法还包括:
在测试阶段,利用旋转角置信度对分类置信度进行加权,得到综合考虑二维定位信息和方向信息的联合置信度,用于非极大值抑制算法中置信度的排序。
进一步地,所述方法还包括设计能够表征旋转角准确度的动态标签对旋转角置信度预测分支进行约束。
进一步地,所述方法还包括:将动态标签作为旋转角置信度预测分支的回归目标。
其中,所述构建网络优化的联合检测损失函数包括:
对图像流和深度流预测的成对旋转角和成对中心深度,使用一致性损失来联合训练两种预测分支。
本发明提供的技术方案的有益效果是:
1、本发明通过探索深度图潜在的定位信息,以及彩色图和深度图间的定位相关性,对彩色图和深度图进行联合检测的同时利用深度图预测的旋转角和中心深度来辅助彩色图像进行3D物体检测;
2、在后处理阶段,考虑到仅仅利用分类置信度很难准确地衡量三维框的定位质量,导致依赖于置信度排序的非极大值抑制算法不能很好地滤除重复框,本发明将用于衡量方向预测精度的旋转角置信度嵌入到非极大值抑制算法中,以保留定位更为准确的三维检测框。
附图说明
图1为一种基于深度学习的单目图像3D物体检测方法的流程图;
图2为一种基于深度学习的单目图像3D物体检测方法的网络结构示意图;
图3为一种基于深度学习的单目图像3D物体检测方法的联合检测损失函数示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
一、获取深度图
对原始彩色图像I,使用单目深度估计网络从原始彩色图像I中学习对应的深度图D。将成对的彩色图I和深度图D共同送入后续特征提取网络。
二、构建双流特征提取网络
构建结构相同的双流特征提取网络,包括:彩色图特征提取网络和深度图特征提取网络,以分别学习彩色图和深度图的三维特征表示FI和FD。
其中,两种特征提取网络均采用ResNet-50网络结构(该网络结构为本领域技术人员所公知,本发明实施例对此不做赘述)。双流网络间引入基于深度特征FD的卷积模块来引导图像流挖掘更为准确的定位特征。
三、构建一致性感知的联合检测机制
首先,预先定义一系列先验框作为网络预测的初始框,并根据先验框与真实框的二维交并比得分进行正负样本划分,其中被划分为正样本的先验框用于回归真实物体。然后,将学习的图像特征FI和深度特征FD分别送入各自的检测头(检测领域公知)中,以联合预测所有先验框的分类得分以及正先验框相比于匹配真实框的回归偏移量。
参见图2,对于图像流和深度流检测头来说,分类得分预测分支输出每个先验框属于每个类别的概率值,概率最大的类别即为先验框对应的预测类别。三维框偏移量预测分支输出结果包含,每个正先验框相比于匹配真实框在中心坐标、长、宽、高以及旋转角这几种属性上的预测偏移量。二维框偏移量预测分支输出结果包含,每个正先验框投影至图像平面上的二维框相比于真实框的投影二维框在中心坐标、长、宽这几种属性上的预测偏移量。所有属性的预测偏移量经叠加先验框初始属性值后,能够用于表征该预测框的位置和方向。
此外,考虑到彩色图和深度图间的定位相关性,为了充分利用深度图预测的旋转角和中心深度来辅助图像流实现更为精确的检测,在两流检测输出间引入对预测旋转角和中心深度的一致性约束。具体来说,针对每个正先验框Bpr,图像流检测头输出其相比于匹配真实框Bgt的旋转角偏移量Δαi、中心深度偏移量Δzi,深度流检测头输出另一组旋转角偏移量Δαd和中心深度偏移量Δzd。
针对同一先验框的两种不同预测结果[Δαi,Δαd]和[Δzi,Δzd],引入一致性损失函数进行联合优化。具体来说,使用鲁棒性较好的平滑L1(SmoothL1)损失函数来分别计算旋转角和中心深度的一致性损失:
Lcon=SmoothL1(Δαi,Δαd)+SmoothL1(Δzi,Δzd) (1)
四、构建旋转角置信度嵌入的非极大值抑制算法
经过联合检测,网络预测了一系列密集的三维框。在后处理阶段,使用非极大值抑制算法进行稀疏化处理,保留置信度较高的预测框,滤除置信度较低且重叠的预测框。在使用非极大值抑制算法进行置信度排序之前,首先需要获取能够准确衡量三维框质量的置信度。
参见图2,对于图像检测流,使用分类得分预测分支输出的分类得分的最大值来表征预测框包含某一物体的最大概率,记为分类置信度Ccls。同时,定义旋转角置信度表示该预测框的输出旋转角的准确度。然而,由于测试阶段缺乏物体的真实旋转角,无法衡量网络预测的旋转角的准确度,因此在图像流检测头增加旋转角置信度预测分支以直接输出该预测框的旋转角置信度Cα。在测试阶段,利用旋转角置信度Cα对分类置信度Ccls进行加权,得到综合考虑了二维定位信息和方向信息的联合置信度C,用于非极大值抑制算法中置信度的排序,从而达到更为有效地滤除重复框、保留准确框的目的。
具体来说,考虑到旋转角度具有周期性的特点,旋转角准确并不是预测角度和真实角度完全一致,而是预测框和真实框平行即可。
其中,αgt表示物体的真实旋转角。αi表示网络预测的旋转角,由图像流检测头中的三维框偏移量预测分支输出的旋转角偏移量Δαi叠加预先定义的先验值Aα转换而来:
αi=Δαi+Aα (3)
五、构建网络优化的联合检测损失函数
联合检测损失函数旨在鼓励网络学习适合于3D物体检测的特征表示。参见图3,对于图像检测流,使用包含车、行人和骑自行车的人这三类的分类损失来训练分类得分预测分支,使用回归损失来训练二维框和三维框的偏移量预测分支,使用Lαc来训练设计的旋转角置信度预测分支。
对于深度检测流,使用只包含前景和背景两类的分类损失来训练分类得分预测分支,使用回归损失来训练二维框和三维框的偏移量预测分支。此外,对于两流预测的成对旋转角[Δαi,Δαd]和成对中心深度[Δzi,Δzd],使用一致性损失Lcon来联合训练两种预测分支。对于分类损失,具体采用标准交叉熵损失函数进行优化;对于其余参数的回归,具体采用SmoothL1损失函数。
最终训练整个网络的联合检测损失函数Ltotal公式表示如下:
其中,λ,β和γ分别表示不同损失函数的权重,分别为{0.5,0.5,1}。
最后,通过总体损失函数Ltotal来训练网络,充分挖掘深度图所蕴含的定位信息,以鼓励网络学习更具辨析力的三维特征表示,从而实现更为精确的单目图像3D物体检测。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于深度学习的单目图像3D物体检测方法,其特征在于,所述方法包括:
基于彩色图特征和深度图特征提取网络,分别学习彩色图和深度图的三维特征表示;
将学习的彩色图和深度图的三维特征分别送入图像流和深度流检测头中,以联合预测所有先验框的分类得分以及正先验框相比于匹配真实框的回归偏移量;
在图像流和深度流检测输出间引入对预测旋转角和中心深度的一致性约束;
定义旋转角置信度表示该预测框的输出旋转角的准确度,在图像流检测头增加旋转角置信度预测分支以直接输出该预测框的旋转角置信度;
构建网络优化的联合检测损失函数。
2.根据权利要求1所述的一种基于深度学习的单目图像3D物体检测方法,其特征在于,所述在图像流和深度流检测输出间引入对预测旋转角和中心深度的一致性约束为:
针对同一先验框的两种不同预测结果,使用平滑L1损失函数来分别计算旋转角和中心深度的一致性损失。
3.根据权利要求1所述的一种基于深度学习的单目图像3D物体检测方法,其特征在于,所述方法还包括:
在测试阶段,利用旋转角置信度对分类置信度进行加权,得到综合考虑二维定位信息和方向信息的联合置信度,用于非极大值抑制算法中置信度的排序。
4.根据权利要求1所述的一种基于深度学习的单目图像3D物体检测方法,其特征在于,所述方法还包括设计能够表征旋转角准确度的动态标签对旋转角置信度预测分支进行约束。
6.根据权利要求4或5所述的一种基于深度学习的单目图像3D物体检测方法,其特征在于,所述方法还包括:将动态标签作为旋转角置信度预测分支的回归目标。
7.根据权利要求1所述的一种基于深度学习的单目图像3D物体检测方法,其特征在于,所述构建网络优化的联合检测损失函数包括:
对图像流和深度流预测的成对旋转角和成对中心深度,使用一致性损失来联合训练两种预测分支。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110519164.5A CN113221744B (zh) | 2021-05-12 | 2021-05-12 | 一种基于深度学习的单目图像3d物体检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110519164.5A CN113221744B (zh) | 2021-05-12 | 2021-05-12 | 一种基于深度学习的单目图像3d物体检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113221744A true CN113221744A (zh) | 2021-08-06 |
CN113221744B CN113221744B (zh) | 2022-10-04 |
Family
ID=77095241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110519164.5A Active CN113221744B (zh) | 2021-05-12 | 2021-05-12 | 一种基于深度学习的单目图像3d物体检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221744B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114842287A (zh) * | 2022-03-25 | 2022-08-02 | 中国科学院自动化研究所 | 深度引导变形器的单目三维目标检测模型训练方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150160343A1 (en) * | 2012-10-05 | 2015-06-11 | Faro Technologies, Inc. | Using depth-camera images to speed registration of three-dimensional scans |
US20190058887A1 (en) * | 2017-08-21 | 2019-02-21 | Nokia Technologies Oy | Method, an apparatus and a computer program product for object detection |
CN109657545A (zh) * | 2018-11-10 | 2019-04-19 | 天津大学 | 一种基于多任务学习的行人检测方法 |
CN110796018A (zh) * | 2019-09-30 | 2020-02-14 | 武汉科技大学 | 一种基于深度图像和彩色图像的手部运动识别方法 |
CN111191535A (zh) * | 2019-12-18 | 2020-05-22 | 南京理工大学 | 基于深度学习的行人检测模型构建方法及行人检测方法 |
CN111524095A (zh) * | 2020-03-24 | 2020-08-11 | 西安交通大学 | 一种用于旋转物体的目标检测方法 |
CN112052768A (zh) * | 2020-08-28 | 2020-12-08 | 五邑大学 | 基于无人机的城市违章停车检测方法、装置及存储介质 |
CN112561979A (zh) * | 2020-12-25 | 2021-03-26 | 天津大学 | 一种基于深度学习的自监督单目深度估计方法 |
-
2021
- 2021-05-12 CN CN202110519164.5A patent/CN113221744B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150160343A1 (en) * | 2012-10-05 | 2015-06-11 | Faro Technologies, Inc. | Using depth-camera images to speed registration of three-dimensional scans |
US20190058887A1 (en) * | 2017-08-21 | 2019-02-21 | Nokia Technologies Oy | Method, an apparatus and a computer program product for object detection |
CN109657545A (zh) * | 2018-11-10 | 2019-04-19 | 天津大学 | 一种基于多任务学习的行人检测方法 |
CN110796018A (zh) * | 2019-09-30 | 2020-02-14 | 武汉科技大学 | 一种基于深度图像和彩色图像的手部运动识别方法 |
CN111191535A (zh) * | 2019-12-18 | 2020-05-22 | 南京理工大学 | 基于深度学习的行人检测模型构建方法及行人检测方法 |
CN111524095A (zh) * | 2020-03-24 | 2020-08-11 | 西安交通大学 | 一种用于旋转物体的目标检测方法 |
CN112052768A (zh) * | 2020-08-28 | 2020-12-08 | 五邑大学 | 基于无人机的城市违章停车检测方法、装置及存储介质 |
CN112561979A (zh) * | 2020-12-25 | 2021-03-26 | 天津大学 | 一种基于深度学习的自监督单目深度估计方法 |
Non-Patent Citations (4)
Title |
---|
RUNMIN CONG等: ""Going from RGB to RGBD saliency: A depth-guided transformation model"", 《IEEE TRANSACTIONS ON CYBERNETICS》 * |
江士雄等: ""面向机器人抓取的双目视觉系统标定与目标位姿估计算法"", 《仪表技术与传感器》 * |
葛明进等: "基于anchor-free的交通场景目标检测技术", 《计算机工程与科学》 * |
蒋叶华: ""基于SSD-Mobilenet网络和RGB-D相机的工件检测与定位系统研究 "", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114842287A (zh) * | 2022-03-25 | 2022-08-02 | 中国科学院自动化研究所 | 深度引导变形器的单目三维目标检测模型训练方法及装置 |
CN114842287B (zh) * | 2022-03-25 | 2022-12-06 | 中国科学院自动化研究所 | 深度引导变形器的单目三维目标检测模型训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113221744B (zh) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110675418B (zh) | 一种基于ds证据理论的目标轨迹优化方法 | |
CN110686677B (zh) | 一种基于几何信息的全局定位方法 | |
CN111340797A (zh) | 一种激光雷达与双目相机数据融合检测方法及系统 | |
CN106780631B (zh) | 一种基于深度学习的机器人闭环检测方法 | |
CN108229416B (zh) | 基于语义分割技术的机器人slam方法 | |
CN102036094B (zh) | 一种基于数字分数延时技术的立体匹配方法 | |
CN111781608A (zh) | 一种基于fmcw激光雷达的运动目标检测方法及系统 | |
CN108305277A (zh) | 一种基于直线段的异源图像匹配方法 | |
CN115115859A (zh) | 基于无人机航拍的长线性工程施工进度智能识别与分析方法 | |
CN116449384A (zh) | 基于固态激光雷达的雷达惯性紧耦合定位建图方法 | |
CN111998862A (zh) | 一种基于bnn的稠密双目slam方法 | |
CN115685185A (zh) | 一种4d毫米波雷达与视觉融合感知方法 | |
CN114140539A (zh) | 一种室内物体的位置获取方法和装置 | |
CN116772820A (zh) | 一种基于slam和语义分割的局部细化建图系统及方法 | |
CN113221744B (zh) | 一种基于深度学习的单目图像3d物体检测方法 | |
CN117213470B (zh) | 一种多机碎片地图聚合更新方法及系统 | |
Tosi et al. | How NeRFs and 3D Gaussian Splatting are Reshaping SLAM: a Survey | |
CN113920254B (zh) | 一种基于单目rgb的室内三维重建方法及其系统 | |
CN115937520A (zh) | 基于语义信息引导的点云运动目标分割方法 | |
CN115731545A (zh) | 一种基于融合感知的电缆隧道巡检方法及装置 | |
Ding et al. | Animation design of multisensor data fusion based on optimized AVOD algorithm | |
Liu et al. | DS Augmentation: Density-semantics augmentation for 3-D object detection | |
Chen et al. | The obstacles detection for outdoor robot based on computer vision in deep learning | |
Vismaya et al. | Fuzzy c-means algorithm based depth estimation in single image | |
CN115170745B (zh) | 一种基于立体视觉的无人机测距方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |