CN112598721A - 基于归一化回归函数单目深度估计系统训练方法和网络 - Google Patents
基于归一化回归函数单目深度估计系统训练方法和网络 Download PDFInfo
- Publication number
- CN112598721A CN112598721A CN202011532878.1A CN202011532878A CN112598721A CN 112598721 A CN112598721 A CN 112598721A CN 202011532878 A CN202011532878 A CN 202011532878A CN 112598721 A CN112598721 A CN 112598721A
- Authority
- CN
- China
- Prior art keywords
- depth
- target image
- network
- image
- depth map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012549 training Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000005070 sampling Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims abstract description 3
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 3
- 238000010606 normalization Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 abstract 1
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10012—Stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20228—Disparity calculation for image-based rendering
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
一种基于归一化回归函数的单目深度估计系统训练方法,包括以下步骤:从数据集中读取双目图像,利用立体匹配算法处理出深度图,从数据集的双目图像中选取目标图像输入训练网络,输出预测深度图,利用回归函数对预测深度图以及代理深度标签进行回归监督,将目标图像的像素点投影到参考图像中,再从参考图像中的投影位置采样合成新像素,生成重建图片,通过光度误差损失函数计算目标图像和重建图片之间的图像相似误差,通过深度连续性损失函数计算预测深度图的光滑误差,迭代优化,直至光度误差损失函数、深度连续性损失函数以及回归函数达到收敛,完成训练。
Description
技术领域
本发明属于计算机视觉领域中的深度估计领域,特别是基于归一化回归函数单目深度估计系统训练方法和网络。
背景技术
单目深度估计是计算机视觉领域的重要研究课题,其在机器人、自动驾驶、增强现实等领域拥有诸多广泛的应用。近年来出现了一些用无监督方法进行单目深度估计的系统,输入双目图像对,这些方法首先利用深度神经网络对目标图像预测深度,并利用该预测出来的深度图和另外一个参考图片重建出一个新的目标图像。重建出来的图片和原图片之间的光度误差用来优化整个深度神经网络。另外也有一些工作利用传统的立体匹配算法提前对输入的双目图像对进行预处理,得到粗糙的深度图,并利用该粗糙的深度图在系统训练中进行弱监督。
但是,这些具有两种损失函数的单目深度估计系统存在一个问题,这两种损失函数形成的训练损失并不平衡,具体表现为,基于光度误差的损失函数会随着系统预测深度的变大而增大,基于回归误差的损失函数会随着系统预测深度的增大而减小,因此,在系统预测大深度值时,回归损失误差会远远超过光度损失误差,因此造成损失误差的不平衡从而降低整个系统的性能。
发明内容:
本发明要解决的技术问题是现有单目深度估计系统训练损失不平衡。
本发明提出一种基于归一化回归函数单目深度估计系统训练方法。包括以下步骤:
一种基于归一化回归函数单目深度估计系统训练方法,其特征在于,包括以下步骤:
S1,选取数据集,从数据集中读取双目图像,双目图像包括目标图像和参考图像,利用立体匹配算法处理出深度图,作为代理深度标签;
S2,从数据集的双目图像中选取目标图像输入训练网络,输出预测深度图;
S3,利用回归函数对预测深度图以及代理深度标签进行回归监督,得到弱监督训练误差;
S4,利用预测深度图和双目图像之间的基线距离,先将目标图像的像素点投影到参考图像中,再从参考图像中的投影位置采样合成新像素,生成重建图片;
S5,通过光度误差损失函数计算目标图像和重建图片之间的图像相似误差,通过深度连续性损失函数计算预测深度图的光滑误差;
S6,重复S1至S5,直至光度误差损失函数、深度连续性损失函数以及回归函数达到收敛,完成训练。
进一步的,所述S2中的立体匹配算法以左图为基准,计算出左图的视差图z后,利用已知的相机焦距f和双目基线距离b将左眼图像的视差图转换成深度图d′l,公式为:d′l=f*b/z。
进一步的,所述S2的预测深度图与目标图像的尺寸相同。
进一步的,所述S2中训练网络包括编码网络和解码网络,对编码网络进行预训练,解码网络进行初始化。
进一步的,所述S3中回归函数公式为:
其中为dij为预测深度图在像素位置处的深度大小,d′ij为立体匹配算法计算出的深度图在像素位置处的深度大小。
进一步的,所述S4中目标图像向参考图像的投影方法为:
pr~KBD(pl)K-1pl
其中,pl表示目标图像中的像素点坐标,K、B表示已知的双目相机内参和基线距离,pr表示投影在目标图像中的位置坐标。
进一步的,所述S5中的光度误差损失函数为:
其中,p表示目标图像中的像素,SSIM表示结构相似性误差函数。
进一步的,所述S5中的深度连续性损失函数为:
其中,p表示目标图像中的像素,d表示预测深度图,I表示与深度图对应的图像。
一种基于归一化回归函数单目深度估计系统训练网络,包括编码网络、解码网络和归一化模块,编码网络通过卷积和池化操作将目标图像变成高维度特征,解码网络对该高维度特征进行反卷积将特征尺寸扩大并生成和目标图像尺寸一样的深度图,归一化模块采用log函数对解码网络生成的深度图与目标图像经立体匹配计算出的深度图两者间的误差值进行映射。
进一步的,所述编码网络的结构与解码网络相同,但两者的排列相反。
本发明同现有技术相比具有以下优点及效果:
1、本发明在训练过程中通过使用归一化回归函数对网络输出的深度图以及粗糙的代理标签进行回归监督,使得回归误差值不会随着网络预测深度的上升而剧烈变化,从而维系回归误差和光度误差的平衡,使得整个深度估计系统更加稳定和鲁棒,并且大大增强系统性能。
2、本发明的归一化回归函数的对深度图间的误差值采用log函数进行映射,利用log函数的性质将较大误差拉小。此外,对计算出的误差值进行归一化,其目的同样是降低大误差的影响。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明的总流程图;
图2为本发明深度预测精度和其它方法的对比图;
图3为本发明预测出的深度图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1:
如图1所示,一种基于归一化回归损失函数的单目深度估计系统训练方法。
步骤1,对训练数据进行预处理。选取训练所需数据集,例如KITTI无人驾驶数据集、Cityscape无人驾驶数据集等公开的数据集,本实施例选用KITTI无人驾驶数据集,该数据集内的图像分辨率可以为任意分辨率,例如1024×960、1080×600、960×480等,本实施例中选用1024×320分辨的图像。随机的从数据集当中读取一对或多对双目图像(Il,Ir),利用立体匹配SGBM算法对双目图像对进行预处理,得到左眼图像视差图zl,接着利用视差深度转换公式将视差图zl转换成深度图d′l,视差深度转换公式如下:
其中f为相机内参,b为双目相机的基线距离。这样,通过立体匹配SGBM算法对KITTI数据集进行了预处理,得到了一系列的粗糙深度图d′l,这些深度图将会作为我们后面的代理标签。
步骤2,对整个深度估计系统的神经网络进行初始化。整个深度估计系统采用编码网络和解码网络结合的方式实现,解码网络结构与编码网络相同但排列相反。编码网络和解码网络有多种选择,例如Resnet18、Resnet50、Resnet128。本实施例中,选用Resnet50作为编码网络,解码网络采用U-NET结构。网络的初始参数优选其它模型预训练后的参数,例如ResNet50读取ImageNet上的预训练模型进行初始化,而解码网络则进行随机初始化。
步骤3,随机选取KITTI数据集中的图像Il,将Il输入到深度估计系统的编码网络中,编码网络通过层层的卷积操作,将输入的分辨率为1024×320的目标图像编码成一个维度为2048×10×32的特征z。将特征z输入到解码网络当中,通过上采样和反卷积,输出分辨率为1024×320的目标图像的深度图dl。
步骤4,利用归一化回归函数Lours对网络输出的深度图dl以及立体匹配生成的粗糙的代理标签d′l进行归一化回归监督,得到网络训练所需的弱监督训练误差ls,归一化回归函数Lours公式如下:
其中dij为网络预测的深度图在像素位置i,j处的深度大小,d′ij为立体匹配算法计算出的深度图在像素位置i,j处的深度大小。整个归一化回归函数的关键在于对|dij-d′ij|误差值采用log函数进行映射,利用log函数的性质将较大误差拉小。此外,对计算出的误差值利用d′ij进行归一化,其目的同样是降低大误差的影响。通过这样两种方式,使得弱监督误差值不会随着网络预测深度dij的上升而剧烈变化,从而维系回弱监督误差和光度误差的平衡,使得整个深度估计系统更加稳定和鲁棒,并且大大增强系统性能。
通过目标图像的深度图和双目摄像头之间的基线距离,先将Il中的像素点投影到Ir中,再从参考图像Ir中的投影位置进行非线性插值采样,重建出对比图像I′r。
计算原目标图像Il与对比图像I′r之间的图像重建L1误差和结构相似性误差之和,误差函数如下:
上式中的p表示图像Il中的像素,SSIM表示结构相似性误差函数。
计算输出深度图的深度连续性误差,误差函数如下:
上式中p表示图像中的像素,d表示网络预测出的深度图,I表示与深度图对应的图像。求出L1误差、结构相似性误差和深度连续性误差后,对深度连续性误差、L1误差、结构相似性误差以及弱监督归一化回归误差ls求和得到总误差。
步骤5:用总误差优化整个深度估计系统,重复步骤1至4,例如在KITTI数据集上迭代100个周期、150个周期、200个周期等,直至光度误差损失函数、深度连续性损失函数以及回归函数的输出不再有明显下降,得到收敛后的网络参数,此时完成整个深度估计系统的训练。
如图2所示,本发明和其它算法深度图预测精度的对比,加粗的数值表示最优的结果,可以看到,本发明的精度超过了现有算法。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于归一化回归函数单目深度估计系统训练方法,其特征在于,包括以下步骤:
S1,选取数据集,从数据集中读取双目图像,双目图像包括目标图像和参考图像,利用立体匹配算法处理出深度图,作为代理深度标签;
S2,从数据集的双目图像中选取目标图像输入训练网络,输出预测深度图;
S3,利用回归函数对预测深度图以及代理深度标签进行回归监督;
S4,利用预测深度图和双目图像之间的基线距离,先将目标图像的像素点投影到参考图像中,再从参考图像中的投影位置采样合成新像素,生成重建图片;
S5,通过光度误差损失函数计算目标图像和重建图片之间的图像相似误差,通过深度连续性损失函数计算预测深度图的光滑误差;
S6,重复S1至S5,直至光度误差损失函数、深度连续性损失函数以及回归函数达到收敛,完成训练。
2.根据权利要求1所述的基于归一化回归函数单目深度估计系统训练方法,其特征在于,所述S2中的立体匹配算法以左图为基准,计算出左图的视差图z后,利用已知的相机焦距f和双目基线距离b将左眼图像的视差图转换成深度图d′l,公式为:d′l=f*b/z。
3.根据权利要求1所述的基于归一化回归函数单目深度估计系统训练方法,其特征在于,所述S2的预测深度图与目标图像的尺寸相同。
4.根据权利要求1所述的基于归一化回归函数单目深度估计系统训练方法,其特征在于,所述S2中训练网络包括编码网络和解码网络,对编码网络进行预训练,解码网络进行初始化。
6.根据权利要求1所述的基于归一化回归函数单目深度估计系统训练方法,其特征在于,所述S4中目标图像向参考图像的投影方法为:
pr~KBD(pl)K-1pl
其中,pl表示目标图像中的像素点坐标,K、B表示已知的双目相机内参和基线距离,pr表示投影在目标图像中的位置坐标。
9.一种基于归一化回归函数单目深度估计系统训练网络,其特征在于,包括编码网络、解码网络和归一化模块,编码网络通过卷积和池化操作将目标图像变成高维度特征,解码网络对该高维度特征进行反卷积将特征尺寸扩大并生成和目标图像尺寸一样的深度图,归一化模块采用log函数对解码网络生成的深度图与目标图像经立体匹配计算出的深度图两者间的误差值进行映射。
10.根据权利要求9所述的基于归一化回归函数单目深度估计系统训练网络,其特征在于,所述编码网络的结构与解码网络相同,但两者的排列相反。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011532878.1A CN112598721A (zh) | 2020-12-22 | 2020-12-22 | 基于归一化回归函数单目深度估计系统训练方法和网络 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011532878.1A CN112598721A (zh) | 2020-12-22 | 2020-12-22 | 基于归一化回归函数单目深度估计系统训练方法和网络 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112598721A true CN112598721A (zh) | 2021-04-02 |
Family
ID=75200730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011532878.1A Withdrawn CN112598721A (zh) | 2020-12-22 | 2020-12-22 | 基于归一化回归函数单目深度估计系统训练方法和网络 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112598721A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113393522A (zh) * | 2021-05-27 | 2021-09-14 | 湖南大学 | 一种基于单目rgb相机回归深度信息的6d位姿估计方法 |
CN113516698A (zh) * | 2021-07-23 | 2021-10-19 | 香港中文大学(深圳) | 一种室内空间深度估计方法、装置、设备及存储介质 |
CN113724155A (zh) * | 2021-08-05 | 2021-11-30 | 中山大学 | 用于自监督单目深度估计的自提升学习方法、装置及设备 |
CN115830408A (zh) * | 2022-10-22 | 2023-03-21 | 北京百度网讯科技有限公司 | 伪标签生成方法、装置、设备以及存储介质 |
TWI803328B (zh) * | 2022-05-24 | 2023-05-21 | 鴻海精密工業股份有限公司 | 深度圖像生成方法、系統、電子設備及可讀存儲介質 |
WO2023168815A1 (zh) * | 2022-03-09 | 2023-09-14 | 平安科技(深圳)有限公司 | 单目深度估计模型的训练方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110490919A (zh) * | 2019-07-05 | 2019-11-22 | 天津大学 | 一种基于深度神经网络的单目视觉的深度估计方法 |
CN111310916A (zh) * | 2020-01-22 | 2020-06-19 | 浙江省北大信息技术高等研究院 | 一种区分左右眼图片的深度系统训练方法及系统 |
-
2020
- 2020-12-22 CN CN202011532878.1A patent/CN112598721A/zh not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110490919A (zh) * | 2019-07-05 | 2019-11-22 | 天津大学 | 一种基于深度神经网络的单目视觉的深度估计方法 |
CN111310916A (zh) * | 2020-01-22 | 2020-06-19 | 浙江省北大信息技术高等研究院 | 一种区分左右眼图片的深度系统训练方法及系统 |
Non-Patent Citations (1)
Title |
---|
CHENGYUAN LI ET AL.: "Towards Loss Balance and Consistent Model in Self-supervised Monocular Depth Estimation", 《2020 IEEE 32ND INTERNATIONAL CONFERENCE ON TOOLS WITH ARTIFICIAL INTELLIGENCE (ICTAI)》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113393522A (zh) * | 2021-05-27 | 2021-09-14 | 湖南大学 | 一种基于单目rgb相机回归深度信息的6d位姿估计方法 |
CN113516698A (zh) * | 2021-07-23 | 2021-10-19 | 香港中文大学(深圳) | 一种室内空间深度估计方法、装置、设备及存储介质 |
CN113516698B (zh) * | 2021-07-23 | 2023-11-17 | 香港中文大学(深圳) | 一种室内空间深度估计方法、装置、设备及存储介质 |
CN113724155A (zh) * | 2021-08-05 | 2021-11-30 | 中山大学 | 用于自监督单目深度估计的自提升学习方法、装置及设备 |
CN113724155B (zh) * | 2021-08-05 | 2023-09-05 | 中山大学 | 用于自监督单目深度估计的自提升学习方法、装置及设备 |
WO2023168815A1 (zh) * | 2022-03-09 | 2023-09-14 | 平安科技(深圳)有限公司 | 单目深度估计模型的训练方法、装置、设备及存储介质 |
TWI803328B (zh) * | 2022-05-24 | 2023-05-21 | 鴻海精密工業股份有限公司 | 深度圖像生成方法、系統、電子設備及可讀存儲介質 |
CN115830408A (zh) * | 2022-10-22 | 2023-03-21 | 北京百度网讯科技有限公司 | 伪标签生成方法、装置、设备以及存储介质 |
CN115830408B (zh) * | 2022-10-22 | 2024-03-08 | 北京百度网讯科技有限公司 | 伪标签生成方法、装置、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112598721A (zh) | 基于归一化回归函数单目深度估计系统训练方法和网络 | |
CN111798400B (zh) | 基于生成对抗网络的无参考低光照图像增强方法及系统 | |
CN112001914B (zh) | 深度图像补全的方法和装置 | |
JP7373554B2 (ja) | クロスドメイン画像変換 | |
US11232286B2 (en) | Method and apparatus for generating face rotation image | |
CN111445476B (zh) | 基于多模态无监督图像内容解耦的单目深度估计方法 | |
CN110009674B (zh) | 基于无监督深度学习的单目图像景深实时计算方法 | |
US11348270B2 (en) | Method for stereo matching using end-to-end convolutional neural network | |
US8406512B2 (en) | Stereo matching method based on image intensity quantization | |
EP3872760A2 (en) | Method and apparatus of training depth estimation network, and method and apparatus of estimating depth of image | |
CN113610172B (zh) | 神经网络模型训练方法和装置、传感数据融合方法和装置 | |
CN113762358A (zh) | 一种基于相对深度训练的半监督学习三维重建方法 | |
CN113076957A (zh) | 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 | |
CN113962858A (zh) | 一种多视角深度获取方法 | |
CN110517309A (zh) | 一种基于卷积神经网络的单目深度信息获取方法 | |
CN112435193A (zh) | 一种点云数据去噪的方法、装置、存储介质和电子设备 | |
CN115330935A (zh) | 一种基于深度学习的三维重建方法及系统 | |
CN114519731A (zh) | 深度图像补全的方法和装置 | |
CN115984349A (zh) | 一种基于中心像素梯度融合和全局代价聚合的深度立体匹配算法 | |
CN115375838A (zh) | 一种基于无人机的双目灰度图像的三维重建方法 | |
Kim et al. | Adversarial confidence estimation networks for robust stereo matching | |
CN118096961A (zh) | 图像处理方法和装置 | |
CN110390336B (zh) | 一种提高特征点匹配精度的方法 | |
CN117036436A (zh) | 一种基于双编码器-解码器的单目深度估计方法及系统 | |
CN111310916B (zh) | 一种区分左右眼图片的深度系统训练方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210402 |
|
WW01 | Invention patent application withdrawn after publication |