CN113706599A - 一种基于伪标签融合的双目深度估计方法 - Google Patents
一种基于伪标签融合的双目深度估计方法 Download PDFInfo
- Publication number
- CN113706599A CN113706599A CN202111266794.2A CN202111266794A CN113706599A CN 113706599 A CN113706599 A CN 113706599A CN 202111266794 A CN202111266794 A CN 202111266794A CN 113706599 A CN113706599 A CN 113706599A
- Authority
- CN
- China
- Prior art keywords
- depth map
- depth
- image
- map
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及自动驾驶技术领域,具体来说是一种基于伪标签融合的双目深度估计方法,包括通过双目相机获得左右图;对左右图进行立体匹配,计算出深度图作为伪标签;还包括:通过深度图和置信度网络对左右图进行训练,获得深度图与置信度图;将深度图、置信度图和立体匹配的深度图结合,放入融合网络;获取融合后的深度图,并与真值计算损失函数,反向传播训练模型。本发明所提供的一种基于伪标签融合的双目深度估计方法,既能保留深度学习方法泛化能力强的优势,又能结合传统方法精度高的优点,使本发明的深度图系统在各场景环境下均能保持良好的精度与鲁棒性。
Description
技术领域
本发明涉及自动驾驶技术领域,具体来说是一种基于伪标签融合的双目深度估计方法。
背景技术
NHTSA将无人驾驶技术分为6个等级,分别是0-5,其中L0为全人工控制的一般车辆,L1级别又称辅助驾驶,可以实现简单的加减速,L2级别又称部分自动驾驶,可以实现L1级别的所有内容的同时还能实现自动泊车,而L4、L5级别都能实现全自动驾驶,区别在于L4级别只能在特定的道路和天气下实现全自动驾驶而L5级别可以适应全地形和全气候。深度估计是无人驾驶的重要技术,在自动驾驶过程中的障碍物检测,测距,三维目标检测都有着重要的应用。获取障碍物的距离信息,可以通过激光雷达,红外,单目相机,双目相机等多种传感器。相机是自动驾驶中最常见的传感器,单目相机进行深度估计很难获得尺度信息,且动态物体会对单目深度估计造成很大的挑战,双目相机可以利用左右目的基线信息恢复尺度,但现有技术中,由于光线和场景影响,基于视觉的双目深度图估计不够往往鲁棒。
传统方法通过寻找双目图像左右帧匹配点,计算匹配点数视差,再根据视差和基线距离来获得深度,比如专利号:TW1069348288B,将双目图像提取匹配点,之后计算视差,从而恢复出深度图,但这种方法对光照和场景纹理比较敏感,在光照条件差或者纹理稀缺的场景中不够鲁棒;基于深度学习的双目深度估计主要通过神经网络获取左图的视差图,再将左图通过视差图投影到右图并与真实右图做差来训练模型,但是这种方案对于一些不在训练数据中的场景不够鲁棒,且由于投影误差的存在,会导致深度图精度存在误差。因此需要在现有技术的基础上,提出一种能结合传统方法的精度与深度学习方法鲁棒性的方法。
发明内容
本发明的目的在于解决现有技术的不足,提供一种基于伪标签融合的双目深度估计方法,并将传统方法与深度学习结合,提高深度图的精度与鲁棒性。
为了实现上述目的,设计一种基于伪标签融合的双目深度估计方法,包括以下步骤,通过双目相机获得左右图;对左右图进行立体匹配,计算出深度图作为伪标签;
所述方法还包括:通过深度图和置信度网络对左右图进行训练,获得深度图与置信度图;将深度图、置信度图和立体匹配的深度图结合,放入融合网络;获取融合后的深度图,并与真值计算损失函数,反向传播训练模型。
本发明还具有如下优选的技术方案:
进一步的,所述方法具体如下:
步骤a.获得双目相机采集的左右视图;步骤b.深度学习神经网络包括获得深度图模型与置信度模型,输入左右图并通过深度图模型获得图像中每个像素点的深度,利用该深度与深度图真值构建损失函数;步骤c.将左右视图用双目立体匹配的方法获得深度图;步骤d.将深度学习的深度图、传统方法深度图、置信度图进行叠加,并放入融合网络,得到融合后的深度图,并将融合后的结果与真值构建损失函数;步骤e.将两个损失函数进行加权,反向传播训练模型,多轮训练反向传播后得到最终输出模型;步骤f.在推理阶段,通过训练好的模型预测深度图与置信度,同时计算传统深度图,进行融合得到最后结果。
进一步的,所述步骤b包括如下步骤:通过深度学习训练得到深度图模型与置信度模型后,输入左右图给深度图模型并获得当前帧左图的深度图D1,以及该深度图对应的置信度图,然后将深度图与真实深度图构建损失函数:loss1=L1(D1,Dgt),其中,L1()表示L1loss ,Dgt表示该帧图像对应的深度图真值,D1表示深度图模型得到的深度图。
进一步的,所述的步骤d包括如下步骤:将步骤b得到的深度图D1和步骤c得到深度图D2及置信度网络得到的置信度图C1在通道方向进行叠加,并将叠加后的图像放入融合网络,得到融合后的深度图D3,并将该深度图与真值求loss,构建有监督损失函数:loss2=L1(D3,Dgt),其中,L1()表示L1 loss ,Dgt表示该帧图像对应的深度图真值,D3表示融合后的深度图。
发明的有益效果
本发明所提供的一种基于伪标签融合的双目深度估计方法的优点在于:对于双目相机获得的左右图,通过深度图/置信度网络对左右图进行训练,获得深度图与置信度图;并利用传统方法对左右图进行立体匹配,计算出深度图作为伪标签;然后将深度学习的深度图与置信度图和立体匹配的深度图结合,放入融合网络,获取融合后的深度图,并与真值计算损失函数,反向传播训练模型,既能保留深度学习方法泛化能力强的优势,又能结合传统方法精度高的优点,使本发明的深度图系统在各场景环境下均能保持良好的精度与鲁棒性。
附图说明
图1示例性示出了本发明的一种基于伪标签融合的双目深度估计方法;
图2示例性示出了在一实施例中拍摄的车辆上匝道情景示意图;
图3示例性示出了对图2使用传统立体匹配方法所获得的深度图结果;
图4示例性示出了对图2使用本发明所述方法得到的深度图结果。
具体实施方式
下面结合附图对本发明进一步说明,参见图1,所述的一种基于伪标签融合的双目深度估计方法具体包括以下步骤:
步骤a.获得双目相机采集的左右视图;
步骤b.深度学习神经网络包括获得深度图模型与置信度模型,输入左右图并通过深度图模型获得图像中每个像素点的深度,利用该深度与深度图真值构建损失函数;
步骤c.将左右视图用双目立体匹配的方法获得深度图;
步骤d.将深度学习的深度图、传统方法深度图、置信度图进行叠加,并放入融合网络,得到融合后的深度图,并将融合后的结果与真值构建损失函数;
步骤e.将两个损失函数进行加权,反向传播训练模型,多轮训练反向传播后得到最终输出模型;
步骤f.在推理阶段,通过训练好的模型预测深度图与置信度,同时计算传统深度图,进行融合得到最后结果。
在上述步骤中,所述的步骤b包括如下步骤:通过深度学习训练得到深度图模型与置信度模型后,输入左右图给深度图模型并获得当前帧左图的深度图D1,以及该深度图对应的置信度图,然后将深度图与真实深度图构建损失函数:loss1=L1(D1,Dgt),其中,L1()表示L1 loss ,Dgt表示该帧图像对应的深度图真值,D1表示深度图模型得到的深度图。
所述的步骤c包括如下步骤:首先提取左图中像素梯度值大于一定阈值的像素点,然后在右图同一y值的基线上遍历搜索像素点,计算左右像素点周围一定区域的SAD值,从而找到对应的匹配点。然后根据匹配点得到像素视差d’=x2-x1,其中x2是左图中像素点的x坐标,x1是右图中对应点的x坐标,d’是视差值,最后根据视差值和相机参数求出像素点的深度值,得到深度图D2。
所述的步骤d包括如下步骤:将步骤b得到的深度图D1和步骤c得到深度图D2及置信度网络得到的置信度图C1在通道方向进行叠加,并将叠加后的图像放入融合网络,得到融合后的深度图D3,并将该深度图与真值求loss,构建有监督损失函数:loss2=L1(D3,Dgt),其中,L1()表示L1 loss ,Dgt表示该帧图像对应的深度图真值,D3表示融合后的深度图。
下面通过具体实施例,对本发明所采用的一种基于伪标签融合的双目深度估计方法做具体的说明,在本实施例中,通过本发明所提供的技术方案,具体实施在某一路段上。
步骤a.使用带32线激光雷达和双目摄像头的采集车在该路段随机采集约20万带激光点云信号的视频序列图片作为有监督训练数据使用,由于激光雷达的误差在厘米级,远小于视觉测距误差(米级),可以作为训练真值使用。
步骤b.使用具备大显存的gpu服务器进行有监督训练,其中模型结构和loss设计在上述技术方案中已做详细介绍,训练过程中batch size设为64,优化器使用SGD,初始learning rate为0.01并在第60 epoch时调整为0.001,一共训练120个 epoch 后loss完成收敛产出模型。
步骤c.使用带32线激光雷达和双目摄像头的采集车在该路段随机采集约1万带激光点云信号的视频序列图,该数据作为带深度真值的测试数据用来检验算法效果。
步骤d.使用步骤b中训练出的模型在服务器中对测试数据进行推理并得到每张测试图片的深度图。
步骤e.效果展示和模型性能统计,参见图2,是该路段上的上匝道场景,图4是使用本方法产生的深度图结果,可以看出车辆和路面的深度信息还原较好。图3是使用传统立体匹配方法得到的深度图,车辆和路面深度信息失真和丢失严重。最后在测试数据中的综合评估结果,传统立体匹配方法的深度平均误差超过15%,基于深度学习的双目深度图方法平均误差>8%,而使用本方法深度平均误差<6%。
以上所述,仅为此发明的具体实施方式,但本发明的保护范围不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案和新型的构思加于等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (4)
1.一种基于伪标签融合的双目深度估计方法,包括 通过双目相机获得左右图; 对左右图进行立体匹配,计算出深度图作为伪标签; 其特征在于所述方法还包括: 通过深度图和置信度网络对左右图进行训练,获得深度图与置信度图; 将深度图、置信度图和立体匹配的深度图结合,放入融合网络; 获取融合后的深度图,并与真值计算损失函数,反向传播训练模型。
2.如权利要求1所述的一种基于伪标签融合的双目深度估计方法,其特征在于所述方法具体如下: 步骤a.获得双目相机采集的左右视图; 步骤b.深度学习神经网络包括获得深度图模型与置信度模型,输入左右图并通过深度图模型获得图像中每个像素点的深度,利用该深度与深度图真值构建损失函数; 步骤c.将左右视图用双目立体匹配的方法获得深度图; 步骤d.将深度学习的深度图、传统方法深度图、置信度图进行叠加,并放入融合网络,得到融合后的深度图,并将融合后的结果与真值构建损失函数; 步骤e.将两个损失函数进行加权,反向传播训练模型,多轮训练反向传播后得到最终输出模型; 步骤f.在推理阶段,通过训练好的模型预测深度图与置信度,同时计算传统深度图,进行融合得到最后结果。
3.如权利要求2所述的一种基于伪标签融合的双目深度估计方法,其特征在于所述步骤b包括如下步骤:通过深度学习训练得到深度图模型与置信度模型后,输入左右图给深度图模型并获得当前帧左图的深度图D1,以及该深度图对应的置信度图,然后将深度图与真实深度图构建损失函数:loss1=L1(D1,Dgt),其中,L1()表示L1 loss ,Dgt表示该帧图像对应的深度图真值,D1表示深度图模型得到的深度图。
4.如权利要求2所述的一种基于伪标签融合的双目深度估计方法,其特征在于所述的步骤d包括如下步骤:将步骤b得到的深度图D1和步骤c得到深度图D2及置信度网络得到的置信度图C1在通道方向进行叠加,并将叠加后的图像放入融合网络,得到融合后的深度图D3,并将该深度图与真值求loss,构建有监督损失函数:loss2=L1(D3,Dgt),其中,L1()表示L1 loss ,Dgt表示该帧图像对应的深度图真值,D3表示融合后的深度图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111266794.2A CN113706599B (zh) | 2021-10-29 | 2021-10-29 | 一种基于伪标签融合的双目深度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111266794.2A CN113706599B (zh) | 2021-10-29 | 2021-10-29 | 一种基于伪标签融合的双目深度估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113706599A true CN113706599A (zh) | 2021-11-26 |
CN113706599B CN113706599B (zh) | 2022-01-21 |
Family
ID=78647407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111266794.2A Active CN113706599B (zh) | 2021-10-29 | 2021-10-29 | 一种基于伪标签融合的双目深度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113706599B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115830408A (zh) * | 2022-10-22 | 2023-03-21 | 北京百度网讯科技有限公司 | 伪标签生成方法、装置、设备以及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103900494A (zh) * | 2014-03-31 | 2014-07-02 | 中国科学院上海光学精密机械研究所 | 用于双目视觉三维测量的同源点快速匹配方法 |
CN106709948A (zh) * | 2016-12-21 | 2017-05-24 | 浙江大学 | 一种基于超像素分割的快速双目立体匹配方法 |
CN109191512A (zh) * | 2018-07-27 | 2019-01-11 | 深圳市商汤科技有限公司 | 双目图像的深度估计方法及装置、设备、程序及介质 |
CN109377530A (zh) * | 2018-11-30 | 2019-02-22 | 天津大学 | 一种基于深度神经网络的双目深度估计方法 |
CN109598754A (zh) * | 2018-09-29 | 2019-04-09 | 天津大学 | 一种基于深度卷积网络的双目深度估计方法 |
CN110021043A (zh) * | 2019-02-28 | 2019-07-16 | 浙江大学 | 一种基于立体匹配和置信度传播的场景深度获取方法 |
CN111028285A (zh) * | 2019-12-03 | 2020-04-17 | 浙江大学 | 基于双目视觉和激光雷达融合的深度估计方法 |
CN112927281A (zh) * | 2021-04-06 | 2021-06-08 | Oppo广东移动通信有限公司 | 深度检测方法、深度检测装置、存储介质与电子设备 |
-
2021
- 2021-10-29 CN CN202111266794.2A patent/CN113706599B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103900494A (zh) * | 2014-03-31 | 2014-07-02 | 中国科学院上海光学精密机械研究所 | 用于双目视觉三维测量的同源点快速匹配方法 |
CN106709948A (zh) * | 2016-12-21 | 2017-05-24 | 浙江大学 | 一种基于超像素分割的快速双目立体匹配方法 |
CN109191512A (zh) * | 2018-07-27 | 2019-01-11 | 深圳市商汤科技有限公司 | 双目图像的深度估计方法及装置、设备、程序及介质 |
CN109598754A (zh) * | 2018-09-29 | 2019-04-09 | 天津大学 | 一种基于深度卷积网络的双目深度估计方法 |
CN109377530A (zh) * | 2018-11-30 | 2019-02-22 | 天津大学 | 一种基于深度神经网络的双目深度估计方法 |
CN110021043A (zh) * | 2019-02-28 | 2019-07-16 | 浙江大学 | 一种基于立体匹配和置信度传播的场景深度获取方法 |
CN111028285A (zh) * | 2019-12-03 | 2020-04-17 | 浙江大学 | 基于双目视觉和激光雷达融合的深度估计方法 |
CN112927281A (zh) * | 2021-04-06 | 2021-06-08 | Oppo广东移动通信有限公司 | 深度检测方法、深度检测装置、存储介质与电子设备 |
Non-Patent Citations (2)
Title |
---|
FANGZHENG TIAN等: "《Depth Estimation Using A Self-Supervised Network based on Cross-layer Feature Fusion and the Quadtree Constraint》", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 * |
孙哲等: "《基于置信度的TOF与双目系统深度数据融合》", 《北京航空航天大学学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115830408A (zh) * | 2022-10-22 | 2023-03-21 | 北京百度网讯科技有限公司 | 伪标签生成方法、装置、设备以及存储介质 |
CN115830408B (zh) * | 2022-10-22 | 2024-03-08 | 北京百度网讯科技有限公司 | 伪标签生成方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113706599B (zh) | 2022-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110942449B (zh) | 一种基于激光与视觉融合的车辆检测方法 | |
CN110569704B (zh) | 一种基于立体视觉的多策略自适应车道线检测方法 | |
Vaudrey et al. | Differences between stereo and motion behaviour on synthetic and real-world stereo sequences | |
WO2020097840A1 (en) | Systems and methods for correcting a high-definition map based on detection of obstructing objects | |
CN105225482A (zh) | 基于双目立体视觉的车辆检测系统和方法 | |
CN104835158B (zh) | 基于格雷码结构光与极线约束的三维点云获取方法 | |
CN110738121A (zh) | 一种前方车辆检测方法及检测系统 | |
KR101285106B1 (ko) | 영상 데이터 융합 기반의 장애물체 검출 방법 및 장치 | |
CN111028285A (zh) | 基于双目视觉和激光雷达融合的深度估计方法 | |
CN104318561A (zh) | 基于双目立体视觉与光流融合的车辆运动信息检测方法 | |
CN111369617B (zh) | 一种基于卷积神经网络的单目视图的3d目标检测方法 | |
CN111209770A (zh) | 一种车道线识别方法及装置 | |
CN112115889B (zh) | 基于视觉的智能车运动目标检测方法 | |
CN115032651A (zh) | 一种基于激光雷达与机器视觉融合的目标检测方法 | |
CN113160327A (zh) | 一种点云补全的实现方法和系统 | |
AU2021103300A4 (en) | Unsupervised Monocular Depth Estimation Method Based On Multi- Scale Unification | |
CN109214331B (zh) | 一种基于图像频谱的交通雾霾能见度检测方法 | |
CN102982334A (zh) | 基于目标边缘特征与灰度相似性的稀疏视差获取方法 | |
CN114495064A (zh) | 一种基于单目深度估计的车辆周围障碍物预警方法 | |
CN106446785A (zh) | 基于双目视觉的可行道路检测方法 | |
CN113706599B (zh) | 一种基于伪标签融合的双目深度估计方法 | |
Li et al. | Durlar: A high-fidelity 128-channel lidar dataset with panoramic ambient and reflectivity imagery for multi-modal autonomous driving applications | |
CN114842340A (zh) | 一种机器人双目立体视觉障碍物感知方法与系统 | |
KR20100066952A (ko) | 스테레오 비전을 이용하여 장애물을 추적하는 장치 및 방법 | |
CN116630528A (zh) | 基于神经网络的静态场景重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |