CN111310916B - 一种区分左右眼图片的深度系统训练方法及系统 - Google Patents
一种区分左右眼图片的深度系统训练方法及系统 Download PDFInfo
- Publication number
- CN111310916B CN111310916B CN202010075224.4A CN202010075224A CN111310916B CN 111310916 B CN111310916 B CN 111310916B CN 202010075224 A CN202010075224 A CN 202010075224A CN 111310916 B CN111310916 B CN 111310916B
- Authority
- CN
- China
- Prior art keywords
- depth
- image
- network
- right eye
- depth map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 title claims abstract description 30
- 239000013598 vector Substances 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 2
- 230000007306 turnover Effects 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 8
- 230000008569 process Effects 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 14
- 238000012360 testing method Methods 0.000 description 8
- 238000012805 post-processing Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种区分左右眼图片的深度系统训练方法及系统,对于输入的图像Il、Ir、m(Ir)和m(Il),随机选取一对图像Ix和Iy,将Ix输入到编码器当中,编码形成特征Z,根据特征z是来自于左眼图(Il,m(Ir))还是右眼图(Ir,m(Il)),分别添加A和B两个不同的指导向量指导训练过程,特征z因此变成z′并将其输入到解码器当中,最终输出深度图dx,dx和参考图像Iy经过投影插值形成I′x,最终利用I′x和Ix之间的L1误差和结构相似性误差以及dx的深度连续性误差优化整个深度神经网络。
Description
技术领域
本发明属于计算机视觉领域的视觉里程计领域,特别是一种区分左右眼图片的深度系统训练方法及系统。
背景技术
单目深度估计是计算机视觉领域的重要研究课题,其在机器人、自动驾驶、增强现实等领域拥有诸多广泛的应用。近些年来,基于深度神经网络的有监督单目深度估计方法取得了重大的进展,这些方法使用激光雷达计算出的深度值作为监督信号去训练神经网络。最终,深度神经网络能够根据输入的彩色图片生成与之对应的稠密深度图。但是,这些有监督深度学习方法存在一个问题,在复杂的室外场景中,往往难以用激光雷达获得足量的深度值进行训练,因此也限制了这些有监督深度估计系统的应用场景。
为了解决这些问题,近年来出现了一些用无监督方法进行单目深度估计的系统。输入双目图像对,这些方法首先利用深度神经网络对目标图像预测深度,并利用该预测出来的深度图和另外一个参考图片重建出一个新的目标图像。重建出来的图片和原图片之间的光度误差用来优化整个深度神经网络。
但是,这些基于双目图像对的无监督单目深度估计方法存在一个问题,这些方法使用左眼图片和右眼图片去优化同一个网络,可事实上,左眼图片和右眼图片由于其对应的相机位置的不同,其数据分布是不一样的,并且左眼图片和右眼图片会存在不同的边缘伪影现象。因此,用左右眼图片去优化同一个网络会造成网络性能的下降。
总而言之,需要发展一种新的系统,能够在训练的过程中将左右眼图像区分开,从而减少两种图片之间的相互影响,提升网络性能。
发明内容
本发明的工作原理为:对于输入的图像Il、Ir、m(Ir)和m(Il),随机选取一对图像Ix和Iy,将Ix输入到编码器当中,编码形成特征z,根据特征z是来自于左眼图(Il,m(Ir))还是右眼图(Ir,m(Il)),分别添加A和B两个不同的指导向量指导训练过程,特征z因此变成z'并将其输入到解码器当中,最终输出深度图dx,dx和参考图像Iy经过投影插值形成I′x,最终利用I′x和Ix之间的L1误差和结构相似性误差以及dx的深度连续性误差优化整个深度神经网络。
为了解决上述问题,本发明提出一种区分左右眼图片的深度系统训练方法及系统。
本发明所采用的技术方案是:
一种区分左右眼图片的深度系统训练方法,包括以下步骤:
S1,从数据集当中取双目图像对,对双目图像对(Il,Ir)镜像翻转,形成翻转图像对(m(Il),m(Ir));
S2,从双目图像对及翻转图像对中取一张,为目标图像Ix,则图像对中的另外一张为参考图像Iy,将目标图像输入编码网络,生成特征z;
S3,在特征z后增加指导向量生成特征z′:如果是Il或m(Il)生成的特征z,在其后添加指导向量A,如果是Ir或m(Ir)生成的特征z,在其后添加指导向量B,指导向量A和指导向量B不同;
S4,将特征z′输入解码网络,生成与目标图像分辨率相同的深度图dx。
S5,利用深度图dx和双目图像之间的基线距离,先将Ix中的像素点投影到Iy中,再从参考图像Iy中的投影位置采样合成新像素,生成对比图片I'x;
S6,利用Ix和I'x构建光度误差损失函数和深度连续性损失函数,通过光度误差损失函数计算Ix和I'x之间的图像相似程度,通过深度连续性损失函数计算dx的深度图光滑程度,将光度误差损失函数和深度连续性函数的输出结果求和得到总误差;
S7,通过总误差对解码网络和编码网络进行迭代优化,直至网络达到收敛。
在训练过程中通过添加两个不同的指导向量A和B去分别指导左右眼图片的训练过程,通过这样的训练方式,减少左右眼图片之间的相互影响,可以消除现有方法存在的边缘伪影现象,提升网络精度。
进一步的,所述S1中的双目图像对沿垂直中轴线镜像翻转。
进一步的,所述S3中的指导向量A或指导向量B的长宽与特征z的长宽相同。
进一步的,S5中目标图像Ix向参考图像Iy的投影方法为:
py~KBD(px)K-1px
其中,px表示目标图像Ix中的像素点坐标,K、B表示已知的双目相机内参和基线距离,py表示投影在目标图像Iy中的位置坐标。
进一步的,所述S6中的光度损失函数为:
其中,p表示图像Ix中的像素,SSIM表示结构相似性误差函数。
进一步的,所述S6中的深度连续性函数为:
其中,p表示图像中的像素,d表示网络预测出的深度图,I表示与深度图对应的图像。
优选的,所述S4中,解码网络通过上采样和反卷积生成深度图dx。
优选的,所述S2中的编码网络进行预训练,解码网络进行初始化,编码网络的结构与解码网络相同,但两者的排列相反。
一种区分左右眼图片的深度系统的训练系统,包含编码网络、解码网络和处理模块,编码网络用于提取图像特征,处理模块用于在特征的末端分别针对左右眼图片添加不同的指导向量,解码网络用于生成深度图
本发明同现有技术相比具有以下优点及效果:
1、本发明在训练过程中通过添加两个不同的指导向量A和B去分别指导左右眼图片的训练过程,通过这样的训练方式,减少左右眼图片之间的相互影响,可以消除现有方法存在的边缘伪影现象,提升网络精度。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明的总流程图;
图2为本方法预测阶段后处理的流程图;
图3为本发明预测出的深度图;
图4为本发明深度预测精度和其它方法的对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1:
如图1-4所示,一种区分左右眼图片的深度系统训练方法,深度系统由编码网络和解码网络构成,解码网络结构与编码网络相同但排列相反。ResNet50使用预训练模型初始化,比如使用在ImageNet上预训练好的网络参数进行初始化。整个网络的训练过程在数据集上进行训练,比如使用KITTI数据集训练。
步骤1,选取网络中的数据集,例如KITTI无人驾驶数据集、Cityscape无人驾驶数据集等网络中公开的数据集,本实施例选用KITTI无人驾驶数据集,该数据集内的图像分辨率可以为任意分辨率,例如1024×960、1080×600、960×480等,本实施例中选用1024×320分辨的图像。随机的从数据集当中读取一对或多对双目图像(Il,Ir),并将该同一对的双目图像沿垂直中轴线进行镜像翻转,对于一对双目图像,经翻转后会形成4个图像(Il,Ir,m(Il),m(Ir))。其中Il和m(Ir)同为左眼图片(因为镜像翻转,m(Ir)在m(Il)的左边),Ir和m(Il)同为右眼图片。
步骤2,从步骤1中的翻转后的图像中随机选取一个图像,定为目标图像Ix,则与该图像同属于一对的另一个图像,定为参考图像Iy。例如选取一个双目图像对中的Il,则Il为目标图像Ix,Ir为参考图像Iy;又如选取一个翻转图像对中的m(Ir),则m(Ir)为目标图像Ix,m(Il)为参考图像Iy。随后将将目标图像输入网络。编码网络和解码网络优选预训练过的网络,例如ResNet50读取ImageNet上的预训练模型进行初始化,解码网络进行随机初始化。编码网络通过层层的卷积操作,将输入的分辨率为1024×320的目标图像编码成一个维度为2048×10×32的特征z。
步骤3:对输入的特征z进行处理。由于目标图像分为左眼图(Il或m(Il))或右眼图(Ir或m(Ir)),针对左眼图生成的特征z,我们向特征添加训练指导向量A,针对右眼图生成的特征z,我们向特征添加训练指导向量B,其中,训练指导向量A和B为不同的指导向量。例如0、1或者01、10或者3、5或者01、05等,训练指导向量A的维度为2×10×32。向量B的维度为2×10×32。添加完指导向量后,维度为2048×10×32特征z变成了维度为2050×10×32的特征z′。
步骤4:将特征z′输入到解码网络当中,通过上采样和反卷积,输出分辨率为1024×320的目标图像的深度图dx。
步骤5:通过目标图像的深度图和双目摄像头之间的基线距离,先将Ix中的像素点投影到Iy中,再从参考图像Iy中的投影位置进行非线性插值采样,重建出对比图像I′x。
步骤6:计算原目标图像Ix与对比图像I′x之间的L1误差和结构相似性误差之和,误差函数如下:
上式中的p表示图像Ix中的像素,SSIM表示结构相似性误差函数。
计算输出深度图的深度连续性误差,误差函数如下:
上式中p表示图像中的像素,d表示网络预测出的深度图,I表示与深度图对应的图像。
求出L1误差、结构相似性误差和深度连续性误差后,对深度连续性误差、L1误差和结构相似性误差求和得到总误差。
步骤7:用总误差优化整个深度神经网络,重复步骤1至6,例如在KITTI数据集上迭代100个周期、150个周期、200个周期等,直至光度误差损失函数和深度连续性损失函数的输出不再有明显下降,得到收敛后的网络参数。
最终可以通过测试该参数来满足不同的网络需要,例如,在KITTI数据集中的测试集上测试,依次向网络输入697张测试图像,在输入网络时将测试图像沿着垂直中轴线镜像翻转,将测试图像和镜像翻转后的测试图像一起输入网络。对这两个图像同时使用A指导向量(维度为2×10×32),最终得到两种深度图,并对翻转后的深度图再次翻转回来,对输出的两个深度图取平均,便得到了最终的深度图。
如图2所示,在预测阶段同时向网络输入Il和m(Il),并共同使用A指导向量,对最终输出的m(dl)再进行翻转得到对dl和取加权平均得到最终的深度图,可以看到这种后处理的方式可以消除现有方法存在的边缘伪影现象。
如图3所示,本发明得到的深度图结果,可以看到我们方法可以得到高质量的深度预测结果。
如图4所示,本发明和其它算法深度图预测精度的对比,加粗的数值表示最优的结果,可以看到,本发明的精度超过了现有算法。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种区分左右眼图片的深度系统训练方法,其特征在于,包括以下步骤:
S1,从数据集当中取双目图像对,对双目图像对(Il,Ir)镜像翻转,形成翻转图像对(m(Il),m(Ir));
S2,从双目图像对及翻转图像对中取一张,为目标图像Ix,则图像对中的另外一张为参考图像Iy,将目标图像输入编码网络,生成特征z;
S3,在特征z后增加指导向量生成特征z′:如果是Il或m(Il)生成的特征z,在其后添加指导向量A,如果是Ir或m(Ir)生成的特征z,在其后添加指导向量B,指导向量A和指导向量B不同;
S4,将特征z′输入解码网络,生成与目标图像分辨率相同的深度图dx;
S5,利用深度图dx和双目图像之间的基线距离,先将Ix中的像素点投影到Iy中,再从参考图像Iy中的投影位置采样合成新像素,生成对比图片I′x;
S6,利用Ix和I′x构建光度误差损失函数和深度连续性损失函数,光度损失函数为:
其中,p表示图像Ix中的像素,SSIM表示结构相似性误差函数,
深度连续性函数为:
其中,p表示图像中的像素,d表示网络预测出的深度图,I表示与深度图对应的图像,通过光度误差损失函数计算Ix和I′x之间的图像相似程度,通过深度连续性损失函数计算dx的深度图光滑程度,将光度误差损失函数和深度连续性函数的输出结果求和得到总误差;
S7,通过总误差对解码网络和编码网络进行迭代优化,直至网络达到收敛。
2.根据权利要求1所述的区分左右眼图片的深度系统训练方法,其特征在与,所述S1中的双目图像对沿垂直中轴线镜像翻转。
3.根据权利要求1所述的区分左右眼图片的深度系统训练方法,其特征在与,所述S3中的指导向量A或指导向量B的长宽与特征z的长宽相同。
5.根据权利要求1-4任一项所述的区分左右眼图片的深度系统训练方法,其特征在于,所述S4中,解码网络通过上采样和反卷积生成深度图dx。
6.根据权利要求5所述的区分左右眼图片的深度系统训练方法,其特征在与,所述S2中的编码网络进行预训练,解码网络进行初始化,编码网络的结构与解码网络相同,但两者的排列相反。
7.一种区分左右眼图片的深度系统的训练系统,该系统实现权利要求1-6任一项所述的区分左右眼图片的深度系统训练方法,其特征在于,包含编码网络、解码网络和处理模块,编码网络用于提取图像特征,处理模块用于在特征的末端分别针对左右眼图片添加不同的指导向量,解码网络用于生成深度图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010075224.4A CN111310916B (zh) | 2020-01-22 | 2020-01-22 | 一种区分左右眼图片的深度系统训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010075224.4A CN111310916B (zh) | 2020-01-22 | 2020-01-22 | 一种区分左右眼图片的深度系统训练方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111310916A CN111310916A (zh) | 2020-06-19 |
CN111310916B true CN111310916B (zh) | 2022-10-25 |
Family
ID=71147002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010075224.4A Active CN111310916B (zh) | 2020-01-22 | 2020-01-22 | 一种区分左右眼图片的深度系统训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111310916B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112598721A (zh) * | 2020-12-22 | 2021-04-02 | 绍兴市北大信息技术科创中心 | 基于归一化回归函数单目深度估计系统训练方法和网络 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110335222A (zh) * | 2019-06-18 | 2019-10-15 | 清华大学 | 基于神经网络的自修正弱监督双目视差提取方法及装置 |
CN110490919A (zh) * | 2019-07-05 | 2019-11-22 | 天津大学 | 一种基于深度神经网络的单目视觉的深度估计方法 |
CN110517306A (zh) * | 2019-08-30 | 2019-11-29 | 的卢技术有限公司 | 一种基于深度学习的双目深度视觉估计的方法和系统 |
US10503966B1 (en) * | 2018-10-11 | 2019-12-10 | Tindei Network Technology (Shanghai) Co., Ltd. | Binocular pedestrian detection system having dual-stream deep learning neural network and the methods of using the same |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2553782B (en) * | 2016-09-12 | 2021-10-20 | Niantic Inc | Predicting depth from image data using a statistical model |
-
2020
- 2020-01-22 CN CN202010075224.4A patent/CN111310916B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10503966B1 (en) * | 2018-10-11 | 2019-12-10 | Tindei Network Technology (Shanghai) Co., Ltd. | Binocular pedestrian detection system having dual-stream deep learning neural network and the methods of using the same |
CN110335222A (zh) * | 2019-06-18 | 2019-10-15 | 清华大学 | 基于神经网络的自修正弱监督双目视差提取方法及装置 |
CN110490919A (zh) * | 2019-07-05 | 2019-11-22 | 天津大学 | 一种基于深度神经网络的单目视觉的深度估计方法 |
CN110517306A (zh) * | 2019-08-30 | 2019-11-29 | 的卢技术有限公司 | 一种基于深度学习的双目深度视觉估计的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111310916A (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2698402C1 (ru) | Способ обучения сверточной нейронной сети для восстановления изображения и система для формирования карты глубины изображения (варианты) | |
CN111445476B (zh) | 基于多模态无监督图像内容解耦的单目深度估计方法 | |
CN108876814B (zh) | 一种生成姿态流图像的方法 | |
US20130321393A1 (en) | Smoothing and robust normal estimation for 3d point clouds | |
CN112598721A (zh) | 基于归一化回归函数单目深度估计系统训练方法和网络 | |
CN113160068B (zh) | 基于图像的点云补全方法及系统 | |
CN113610172B (zh) | 神经网络模型训练方法和装置、传感数据融合方法和装置 | |
CN113284251B (zh) | 一种自适应视角的级联网络三维重建方法及系统 | |
CN113724155B (zh) | 用于自监督单目深度估计的自提升学习方法、装置及设备 | |
CN115035171B (zh) | 基于自注意力导向特征融合的自监督单目深度估计方法 | |
CN113962858A (zh) | 一种多视角深度获取方法 | |
Li et al. | Coarse-to-fine PatchMatch for dense correspondence | |
CN110942484A (zh) | 基于遮挡感知和特征金字塔匹配的相机自运动估计方法 | |
Spencer et al. | Deconstructing self-supervised monocular reconstruction: The design decisions that matter | |
Nakashima et al. | Learning to drop points for lidar scan synthesis | |
CN111310916B (zh) | 一种区分左右眼图片的深度系统训练方法及系统 | |
CN117252987B (zh) | 一种基于显式和隐式混合编码的动态场景重建方法 | |
Peng et al. | PDRF: progressively deblurring radiance field for fast scene reconstruction from blurry images | |
CN112785517B (zh) | 一种基于高分辨率表征的图像去雾方法和装置 | |
CN117036442A (zh) | 一种鲁棒单目深度补全方法、系统及储存介质 | |
Jeong et al. | Fast stereo matching using constraints in discrete space | |
KR102057395B1 (ko) | 기계학습 기반 비디오 보외법을 이용한 영상 생성 방법 | |
CN110738699A (zh) | 一种无监督绝对尺度计算方法及系统 | |
CN108600762B (zh) | 结合运动补偿和神经网络算法的递进式视频帧生成方法 | |
CN103618904B (zh) | 基于像素的运动估计方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |