CN110969653A - 一种基于深度学习和傅里叶域分析的图像深度估计算法 - Google Patents

一种基于深度学习和傅里叶域分析的图像深度估计算法 Download PDF

Info

Publication number
CN110969653A
CN110969653A CN201911392507.5A CN201911392507A CN110969653A CN 110969653 A CN110969653 A CN 110969653A CN 201911392507 A CN201911392507 A CN 201911392507A CN 110969653 A CN110969653 A CN 110969653A
Authority
CN
China
Prior art keywords
image
view
reconstructed
depth
network architecture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911392507.5A
Other languages
English (en)
Other versions
CN110969653B (zh
Inventor
唐晓娇
陈丽芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Publication of CN110969653A publication Critical patent/CN110969653A/zh
Application granted granted Critical
Publication of CN110969653B publication Critical patent/CN110969653B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于深度学习和傅里叶域分析的图像深度估计算法,其包括,读取数据集里的图像对,将图像对输入提出的网络架构中获取重建视图;将图像对和重建视图带入损失函数,训练并确认网络架构,得到最初视差图;带入以裁剪比λ裁剪的图像对至确认的网络架构,获取视差映射候选对象;以及,融合视差映射候选对象,估计深度并显示于显示设备上;其中,所述图像对区分为左视图和右视图,所述重建视图区分为重建左视图和重建右视图;本发明基于深度学习的网络架构和傅里叶域分析无监督单目图像估计深度学习算法,有效提高了深度图精度和运动图像深度估计的精度,改进的网络架构,提升算法准确度和鲁棒性。

Description

一种基于深度学习和傅里叶域分析的图像深度估计算法
技术领域
本发明涉及的计算机视觉技术领域,尤其涉及一种基于深度学习和傅里叶域分析的图像深度估计算法。
背景技术
近年来,深度信息在传感器中获得了越来越多的应用。获取深度信息的技术主要有双目立体匹配,TOF(Time of Flight,飞行时间),单目结构光,激光雷达等技术,这些技术可以为传感器增加额外的深度信息,随着深度学习的发展,学者们开始大量地尝试运用卷积神经网络(CNN)来研究单目图像的深度估计问题,语义分割与深度估计都是像素级标签任务,最初用来研究语义分割问题的全卷积网络(FCN)可以有效地保留空间信息,因此一些学者同样用FCN来研究。然而大部分现有的方法将深度估计问题看作有监督的回归问题,因此需要大量相应的ground truth深度数据进行训练,在各种场景中记录有质量的深度数据是一个有挑战性的问题。
Hinton提出了一种深度信念网络模型可以使用一种叫做贪婪逐层训练策略的算法来进行有效的训练,这很快引起了人们对神经网络的研究热情,随后,加拿大高等研究院提出这种训练方法也适用于其他不同类型的深度神经网络,并且能够系统的提高网络模型在测试样本上的泛化能力,美国Stanford大学计算机系教授开发出新的机器视觉算法,利用马尔科夫场训练的模型,在单目深度估计上取得了突破性的的进展,在一副静止的画面中,机器人能通过该算法大致地估计出障碍物的大概距离,Karsch等人进了深度融合的方式,并引入了时域上的约束条件,然而,基于采样的深度估计算法依赖于大型的图像深度数据库,在运算时存储和计算效率较低,并且很有可能出现数据库中无法找到与测试图像相似图像的情况,使得深度恢复精度很低,2014年,Eigen等人,率先尝试使用CNN来进行图像的深度估计工作,他们使用多尺度CNN模型,通过优化像素最小二乘损失,从图像直接回归出深度值,Li等人提出了在超像素级进行学习的方法,并引入了条件随机场对CNN网络的输出结果进行约束,使其深度值在空间上更加平滑;Liu等将CNN和CRF合并到同一个网络,以端到端的方式进行训练,CNN特征由此能够与CRF深度估计模型更好地结合,由此进一步带来了深度估计准确率的提升,虽然深度学习在诸如无人驾驶、目标识别与追踪、语音识别等领域取得了成果,然而要将单张图像深度估计应用在深度学习中时降低其功耗并且效率大大降低,不能满足使用需求。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有基于深度学习和傅里叶域分析的单目图像深度估计算法存在的问题,提出了本发明。
因此,本发明目的是提供一种基于深度学习和傅里叶域分析的单目图像深度估计算法,其基于深度学习的网络架构和傅里叶域分析无监督单目图像估计深度学习算法,有效提高了深度图精度和运动图像深度估计的精度,改进的网络架构,提升算法准确度和鲁棒性。
为解决上述技术问题,本发明提供如下技术方案:一种基于深度学习和傅里叶域分析的图像深度估计算法,其包括,
读取数据集里的图像对,将图像对输入提出的网络架构中获取重建视图;
将图像对和重建视图带入损失函数,训练并确认网络架构,得到最初视差图;
带入以裁剪比λ裁剪的图像对至确认的网络架构,获取视差映射候选对象;以及,
融合视差映射候选对象,估计深度并显示于显示设备上;
其中,所述图像对区分为左视图和右视图,所述重建视图区分为重建左视图和重建右视图。
作为本发明所述基于深度学习和傅里叶域分析的图像深度估计算法的一种优选方案,其中:所述读取数据集里的图像对,将图像对输入提出的网络架构中获取重建右视图的步骤包括:
读取数据集;
获取右视图Ir和左视图Il
左视图Il作为输入图像,右视图Ir作为目标图像带入网络架构内,获得右视差dr
利用左视图Il和右视差dr获得重建右视图
Figure BDA0002345379550000031
其中,重建右视图
Figure BDA0002345379550000032
采用如下公式:
Figure BDA0002345379550000033
作为本发明所述基于深度学习和傅里叶域分析的图像深度估计算法的一种优选方案,其中:所述读取数据集里的图像对,将图像对输入提出的网络架构中获取重建左视图的步骤包括:
读取数据集;
获取右视图Ir和左视图Il
右视图Ir作为输入图像,左视图Il作为目标图像带入网络架构内,获得左视差dl
利用右视图Ir和左视差dl获得重建左视图
Figure BDA0002345379550000034
其中,重建右视图
Figure BDA0002345379550000035
采用如下公式:
Figure BDA0002345379550000036
作为本发明所述基于深度学习和傅里叶域分析的图像深度估计算法的一种优选方案,其中:所述将图像对和重建视图带入损失函数,训练并确认网络架构,得到最初视差图的步骤包括:
将右视图Ir、左视图Il、重建右视图
Figure BDA0002345379550000037
和重建左视图
Figure BDA0002345379550000038
带入损失函数;
通过损失函数训练网络架构;
不断迭代,确认网络架构;
获得最初视差图。
作为本发明所述基于深度学习和傅里叶域分析的图像深度估计算法的一种优选方案,其中:所述损失函数Ls采用如下公式:
Figure BDA0002345379550000039
其中,Lam是重建损失函数,重建损失函数Lam区分为重建左视图损失函数
Figure BDA00023453795500000310
和重建右视图损失函数
Figure BDA00023453795500000311
Lds是训练视差图的平滑性,Lds区分为右视差平滑度损失函数
Figure BDA00023453795500000312
和左视差平滑度损失函数
Figure BDA00023453795500000313
αam为1,αds为0.1。
作为本发明所述基于深度学习和傅里叶域分析的图像深度估计算法的一种优选方案,其中:所述重建左视图损失函数
Figure BDA00023453795500000314
采用如下公式:
Figure BDA00023453795500000315
其中,α设置为0.84,M设置为5,表示输入图像以2M-1为因子进行缩小,,
Figure BDA0002345379550000041
为高斯滤波器,
Figure BDA0002345379550000042
N为像素个数,i和j分别为像素坐标,
Figure BDA0002345379550000043
为左视图和重建左视图结构相似性;
其中,左视图和右视图结构相似性
Figure BDA0002345379550000044
采用如下公式:
Figure BDA0002345379550000045
其中,β1=0.0448,β2=0.2856,β3=0.3001,β4=0.2363,γ=β5=0.1333,
Figure BDA0002345379550000046
是亮度对比因子,
Figure BDA0002345379550000047
是对比度因子,
Figure BDA0002345379550000048
是结构对比因子
所述左视差平滑度损失函数
Figure BDA0002345379550000049
采用如下公式:
Figure BDA00023453795500000410
其中,
Figure BDA00023453795500000411
表示左视差图像素点(i,j)在水平方向的梯度,
Figure BDA00023453795500000412
表示左视差图像素点(i,j)在垂直方向的梯度,ε=10-8,N表示像素点个数。
作为本发明所述基于深度学习和傅里叶域分析的图像深度估计算法的一种优选方案,其中:所述带入以裁剪比λ裁剪的图像对至确认的网络架构,获取视差映射候选对象的步骤包括:
将输入的左视图和右视图分别按照裁剪比λ裁剪到四个角;
确认的网络架构处理每个裁剪图像,得到相应的视差图;
将相应的视差图映射合并成视差映射候选对象;
其中,λ为0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95或1。
作为本发明所述基于深度学习和傅里叶域分析的图像深度估计算法的一种优选方案,其中:所述将相应的视差图映射合并成视差映射候选对象的步骤包括:
相应视差图的视差值按1/λ的倍数缩放;
将部分视差图转换至原位置并叠加,对重叠区域进行平均;
水平翻转输入的左右视图,得到裁剪比为λ的视差映射候选对象,并翻转视差映射候选对象。
作为本发明所述基于深度学习和傅里叶域分析的图像深度估计算法的一种优选方案,其中:所述融合视差映射候选对象采用傅里叶频域分析方法进行融合,所述估计深度
Figure BDA0002345379550000051
采用如下公式:
Figure BDA0002345379550000052
其中,f为相机的焦距,b为给定相机间的基线,d为估计视差图。
本发明的有益效果:本发明基于深度学习的网络架构和傅里叶域分析无监督单目图像估计深度学习算法,有效提高了深度图精度和运动图像深度估计的精度,改进的网络架构,提升算法准确度和鲁棒性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明基于深度学习和傅里叶域分析的图像深度估计算法第一个实施例的整体流程示意图。
图2为本发明基于深度学习和傅里叶域分析的图像深度估计算法第一个实施例的图像深度估计结构示意图。
图3为本发明基于深度学习和傅里叶域分析的图像深度估计算法第一个实施例的B'C块和BC块结构示意图。
图4为本发明基于深度学习和傅里叶域分析的图像深度估计算法第二个实施例的网络架构示意图。
图5为本发明基于深度学习和傅里叶域分析的图像深度估计算法第二个实施例的重建右视流程示意图。
图6为本发明基于深度学习和傅里叶域分析的图像深度估计算法第二个实施例的重建左视流程示意图。
图7为本发明基于深度学习和傅里叶域分析的图像深度估计算法第二个实施例的深度和视差示意图。
图8为本发明基于深度学习和傅里叶域分析的图像深度估计算法第三个实施例的S2流程示意图。
图9为本发明基于深度学习和傅里叶域分析的图像深度估计算法第四个实施例的S3流程示意图。
图10为本发明基于深度学习和傅里叶域分析的图像深度估计算法的第六个实施例的可视化实验结果对比图。
图11为本发明基于深度学习和傅里叶域分析的图像深度估计算法的第六个实施例的Cityscapes数据集图像深度预测结果图。
图12为本发明基于深度学习和傅里叶域分析的图像深度估计算法的第六实施例的NYUDv2室内图像深度预测结果图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
再其次,本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
实施例1
参照图1,为本发明第一个实施例,提供了一种基于深度学习和傅里叶域分析的图像深度估计算法的整体结构示意图,如图1,一种基于深度学习和傅里叶域分析的图像深度估计算法包括S1:读取数据集里的图像对,将图像对输入提出的网络架构中获取重建视图;S2:将图像对和重建视图带入损失函数,训练并确认网络架构,得到最初视差图;S3:带入以裁剪比λ裁剪的图像对至确认的网络架构,获取视差映射候选对象;以及,S4:融合视差映射候选对象,估计深度并显示于显示设备上。
具体的,本发明包括,S1:读取数据集里的图像对,将图像对输入提出的网络架构中获取重建视图,其中,数据集采用KITTI和Cityscapes数据集,而图像对区分为左视图Il和右视图Ir,左视图Il和右视图Ir为同一时间摄像头捕获的校正后的立体图像对的左右视图,对于的重建视图区分为重建左视图和重建右视图;S2:将图像对和重建视图带入损失函数,得到的损坏函数值大,修改损失函数参数,不断训练,得到最小的损坏函数值,即确认网络架构,得到最初视差图;S3:带入以裁剪比λ裁剪的图像对至确认的网络架构,获取视差映射候选对象;S4:融合通过傅里叶域分析傅里叶域分析得到视差映射候选对象,估计深度并显示于显示设备上,其中,显示设备为显示屏、平板、电脑等具有显示功能的设备,通过上述步骤,可知本发明基于深度学习的网络架构和傅里叶域分析无监督单目图像估计深度学习算法,其有效提高了深度图精度和运动图像深度估计的精度,改进的网络架构,实现了在无监督的情况下只需要输入单张图像就可预测出图像深度图,大大提升算法准确度和鲁棒性实现。
进一步的,提出的网络架构是基于Resnet-152改进而来(参考图2),其中ResNet-152包括151个卷积层和1个全连接层,该网络被分成更小的块,每个块有三个卷积层,最后是批规格化层和线性单元修正层,在图3中,BC表示的虚线框块内C是输出特征图中的通道数,原ResNet-152包含50个这样的区块,在此,修改了3个块,图3显示了修改后块的结构,其有一个用于中间特征提取的额外路径,用B'C虚线框表示修改的块,其中C′是输出特征图中的通道数。
其中,KITTI数据集是国际上最大的自动驾驶场景下的计算机视觉算法评测数据集,该数据集用于评测立体图像(stereo)、光流(optical flow)、视觉测距(visualodometry)、3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能,KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,还有各种程度的遮挡与截断,整个数据集由389对立体图像和光流图,39.2km视觉测距序列以及超过200k 3D标注物体的图像组成,以10Hz的频率采样及同步。
实施例2
参照图4,该实施例不同于第一个实施例的是:将图像对输入提出的网络架构中分别获取重建左视图和重建右视图。具体的,参见图1,其主体包括S1:读取数据集里的图像对,将图像对输入提出的网络架构中获取重建视图,其中,数据集采用KITTI和Cityscapes数据集,而图像对区分为左视图Il和右视图Ir,左视图Il和右视图Ir为同一时间摄像头捕获的校正后的立体图像对的左右视图,对于的重建视图区分为重建左视图和重建右视图;S2:将图像对和重建视图带入损失函数,得到的损坏函数值大,修改损失函数参数,不断训练,得到最小的损坏函数值,即确认网络架构,得到最初视差图;S3:带入以裁剪比λ裁剪的图像对至确认的网络架构,获取视差映射候选对象;S4:融合通过傅里叶域分析傅里叶域分析得到视差映射候选对象,估计深度并显示于显示设备上,其中,显示设备为显示屏、平板、电脑等具有显示功能的设备,通过上述步骤,可知本发明基于深度学习的网络架构和傅里叶域分析无监督单目图像估计深度学习算法,其有效提高了深度图精度和运动图像深度估计的精度,改进的网络架构,实现了在无监督的情况下只需要输入单张图像就可预测出图像深度图的作用,大大提升算法准确度和鲁棒性实现。
进一步的,提出的网络架构是基于Resnet-152改进而来(参考图2),其中ResNet-152包括151个卷积层和1个全连接层,该网络被分成更小的块,每个块有三个卷积层,最后是批规格化层和线性单元修正层,在图3中,BC表示的虚线框块内C是输出特征图中的通道数,原Resnet-152包含50个这样的区块,在此,修改了3个块,图3显示了修改后块的结构,其有一个用于中间特征提取的额外路径,用B'C虚线框表示修改的块,其中C′是输出特征图中的通道数。
参考图5,读取数据集里的图像对,将图像对输入提出的网络架构中获取重建视图的步骤包括:S111:读取数据集;S112:在数据集中获取右视图Ir和左视图Il;S113:将左视图Il作为输入图像,右视图Ir作为目标图像带入提出的网络架构内,获得右视差dr;S114:利用左视图Il和右视差dr获得重建右视图
Figure BDA0002345379550000081
其中,重建右视图
Figure BDA0002345379550000082
采用如下公式:
Figure BDA0002345379550000083
其中,参考图6,读取数据集里的图像对,将图像对输入提出的网络架构中获取重建左视图的步骤包括:S121:读取数据集;S122:在数据集中获取右视图Ir和左视图Il;S123:将右视图Ir作为输入图像,左视图Il作为目标图像带入提出的网络架构内,获得左视差dl;S124:利用右视图Ir和左视差dl获得重建左视图
Figure BDA0002345379550000084
其中,重建右视图
Figure BDA0002345379550000091
采用如下公式:
Figure BDA0002345379550000092
需说明的是,视差就是从有一定距离的两个点上观察同一个目标所产生的方向差异,图像的深度和视差之间呈反比关系,参考图7,具体推算过程如下:
由相似三角形得:
Figure BDA0002345379550000093
其中,(1)
Figure BDA0002345379550000094
其,f表示焦距,L表示像平面长,B表示基线,Z表示深度,Ol,Or表示左右相机,D=(xl-xr)表示视差。
由(1)和(2)得,
Figure BDA0002345379550000095
由此可得,图像的深度和视差之间呈反比关系。
实施例3
参照图8,该实施例不同于以上实施例的是:将图像对和重建视图带入损失函数,训练并确认网络架构,得到最初视差图的步骤包括:S201:将右视图Ir、左视图Il、重建右视图
Figure BDA0002345379550000096
和重建左视图
Figure BDA0002345379550000097
带入损失函数;S202:通过损失函数训练网络架构;S203:不断迭代,确认网络架构;S204:获得最初视差图。具体的,参见图1,其主体步骤重复实施2,将图像对和重建视图带入损失函数,训练并确认网络架构,得到最初视差图的步骤包括:S201:将右视图Ir、左视图Il、重建右视图
Figure BDA0002345379550000098
和重建左视图
Figure BDA0002345379550000099
带入损失函数;S202:通过损失函数训练网络架构;S203:不断迭代,确认网络架构;S204:获得最初视差图。
进一步的,损失函数Ls采用如下公式:
Figure BDA00023453795500000910
其中,Lam是重建损失函数,用来训练图像重建损失,重建损失函数Lam区分为重建左视图损失函数
Figure BDA00023453795500000911
和重建右视图损失函数
Figure BDA00023453795500000912
Lds是训练视差图的平滑性,每一项都包含左右图损失函数,将其一同纳入误差计算,Lds区分为右视差平滑度损失函数
Figure BDA00023453795500000913
和左视差平滑度损失函数
Figure BDA00023453795500000914
αam为1,αds为0.1。
而重建左视图损失函数
Figure BDA00023453795500000915
采用如下公式:
Figure BDA0002345379550000101
其中,α设置为0.84,M设置为5,表示输入图像以2M-1为因子进行缩小,,
Figure BDA0002345379550000102
为高斯滤波器,
Figure BDA0002345379550000103
N为像素个数,i和j分别为像素坐标,
Figure BDA0002345379550000104
为左视图和重建左视图结构相似性;
其中,左视图和右视图结构相似性
Figure BDA0002345379550000105
采用如下公式:
Figure BDA0002345379550000106
其中,β1=0.0448,β2=0.2856,β3=0.3001,β4=0.2363,γ=β5=0.1333,
Figure BDA0002345379550000107
是亮度对比因子,
Figure BDA0002345379550000108
是对比度因子,
Figure BDA0002345379550000109
是结构对比因子;类似的,重建右视图损失函数
Figure BDA00023453795500001010
和重建左视图损失函数
Figure BDA00023453795500001011
求取方式相同,在此不再重复叙述。
而左视差平滑度损失函数
Figure BDA00023453795500001012
采用如下公式:
Figure BDA00023453795500001013
其中,
Figure BDA00023453795500001014
表示左视差图像素点(i,j)在水平方向的梯度,
Figure BDA00023453795500001015
表示左视差图像素点(i,j)在垂直方向的梯度,ε=10-8,N表示像素点个数;类似的,右视差平滑度损失函数
Figure BDA00023453795500001016
和左视差平滑度损失函数
Figure BDA00023453795500001017
求取方式相同,在此不再重复叙述。
实施例4
参照图9,该实施例不同于以上实施例的是:带入以裁剪比λ裁剪的图像对至确认的网络架构,获取视差映射候选对象的步骤包括:S301:将输入的左视图和右视图分别按照裁剪比λ裁剪到四个角;S302:确认的网络架构处理每个裁剪图像,得到相应的视差图;S303:将相应的视差图映射合并成视差映射候选对象。具体的,参见图1,其主体步骤重复实施3,而带入以裁剪比λ裁剪的图像对至确认的网络架构,获取视差映射候选对象的步骤包括:S310:将输入的左视图和右视图分别按照裁剪比λ裁剪到四个角,其中,裁剪比定义为裁剪后的图像与整个图像的大小比,而λ可为0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95和1,即左视图和右视图被分别裁剪成9张不同裁剪比的图像;S320:确认的网络架构处理每个裁剪图像,得到相应的视差图;S330:将相应的视差图映射合并成视差映射候选对象。
其中,将相应的视差图映射合并成视差映射候选对象的步骤包括:S331:相应视差图的视差值按1/λ的倍数缩放,以补偿裁剪后的图像中物体看起来更近的缩放效果;S332:将部分视差图转换至原位置并叠加,对重叠区域进行平均;S333:水平翻转输入的左右视图,得到裁剪比为λ的视差映射候选对象,并翻转视差映射候选对象,其中,让
Figure BDA0002345379550000111
表示合成左、右视差图的候选,当λ=1,
Figure BDA0002345379550000112
的获得仅仅是通过CNN处理整个输入左、右视图,由于CNN参数不是对称的,翻转后的图像不会产生翻转后的视差图,因此,水平翻转输入的左右视图,得到裁剪比为λ的视差映射候选对象,并翻转视差映射候选对象,分别用
Figure BDA0002345379550000113
表示。
实施例5
该实施例不同于以上实施例的是:融合视差映射候选对象采用傅里叶频域分析方法进行融合。具体的,参见图1,其主体步骤重复实施4,而融合视差映射候选对象采用傅里叶频域分析方法进行融合,估计深度
Figure BDA0002345379550000114
采用如下公式:
Figure BDA0002345379550000115
其中,f为相机的焦距,b为给定相机间的基线,d为估计视差图。
进一步的,深度映射
Figure BDA0002345379550000116
的剪切比λ越大,它的整幅图的视差分布就越可靠,而小λ评估局部细节则更准确,利用这些互补性质,在傅里叶频域中结合了视差映射候选项,需注意,总体分布和局部细节分别对应于低频和高频系数,一个大小为M×N的输入信号I(x,y)的离散傅里叶变换(DFT)y为:
Figure BDA0002345379550000117
其中u和v是水平频率和垂直频率,对每个视差映射候选项进行变换,并将2D-DFT系数重新排列成列向量,在重排过程中,去掉了两种冗余,首先,DFT是周期性的,F(u,v)=F(u+Nk,v+Ml),k,l∈Z;第二,由于视差图是真实的,其的DFT共轭对称的,例如,F(u,v)=F(-u,-v),让
Figure BDA0002345379550000121
Figure BDA0002345379550000122
分别表示第m个左视差映射候选重排DFT矢量和重建左视差映射候选重排DFT矢量,其中,
Figure BDA0002345379550000123
的计算公式为
Figure BDA0002345379550000124
Figure BDA0002345379550000125
表示利用第m个右视差得出第m个重建左视差图,计算公式为
Figure BDA0002345379550000126
Figure BDA0002345379550000127
代表所有候选综合的左视差映射的DFT向量,
Figure BDA0002345379550000128
分别代表
Figure BDA0002345379550000129
中的第k个系数,用如下的式子来获取:
Figure BDA00023453795500001210
其中
Figure BDA00023453795500001211
为加权参数,
Figure BDA00023453795500001212
为偏差,M为左视图映射候选的个数。
首先,
Figure BDA00023453795500001213
偏差定义为左右视差一致性检测的平均偏差,因此,使用训练数据集来决定偏差:
Figure BDA00023453795500001214
其中t为训练图像的索引,T为训练数据集中的图像总数,同时,
Figure BDA00023453795500001215
Figure BDA00023453795500001216
分别表示对于第t个图像的
Figure BDA00023453795500001217
Figure BDA00023453795500001218
其次,确定权重参数
Figure BDA00023453795500001219
以减小
Figure BDA00023453795500001220
Figure BDA00023453795500001221
之间的均方误差(MSE),然后,均方误差最小化问题是找到最优权向量
Figure BDA00023453795500001222
对所有k重复这个过程以确定所有的权值和偏置参数。
在测试中,把多个视差候选图的DFT向量通过式(3)结合到最终评估的
Figure BDA00023453795500001223
然后,通过傅里叶反变换生成最终值得指出的是由于Parseval定理,在频域减小均方误差相当于在空间域减小均方误差。
本发明利用物理方法与深度学习相结合,改进出一个网络架构;分别输入左右视图,在训练时把预测图像深度过程看成一个图像重建的问题;本文提出的卷积网络不需要深度数据,而是用合成深度作为一个中间产物,进而实现了无监督单目图像深度估计算法。
实施例6
对本方法中采用的技术效果加以验证说明,本实施例选择的不同方法和采用本方法进行对比测试,以科学论证的手段对比试验结果,以验证本方法所具有的真实效果。
传统的技术方案:这些方法都需要大量的且有高质量,像素对齐的地面真实深度图,存在高成本,长耗时以及预测精度较低的问题。
为验证本方法相对传统方法具有较高深度图预测精度,且不需要高成本的真实深度图,本模型可以很好地捕获图像中的总体场景布局和对象,例如汽车,道路标志和行人。
本实施例中将采用传统的有监督单目图像深度预测和无监督视频深度预测方法和本方法分别对预测图片深度值的预测准确率和误差进行实时测量对比。
测试环境:将室外场景图片运行在本方法实验训练出的卷积神经网络模型进行测试,采用Eigen等人提出的KITTI数据集697幅图像的测试分割测试样本,总共覆盖了29个场景,剩下的32个场景包含23488张图像,分别利用传统方法的人工操作进行转向角测试并获得测试结果数据;采用本方法,则开启自动化测试设备并运用Linux+CUDA9.0+CUDNN7.0+Tensorflow1.8.0的搭建环境实现本方法的仿真测试,根据实验结果得到仿真数据。
每种方法各测试5组数据,计算获得每组数据图片的预测深度值,与仿真模拟输入的实际地面真实深度值进行对比计算误差,结果如下表所示。
Figure BDA0002345379550000131
通过实验数据的对比证明本方法的预测图像深度图的准确度最高,各项误差最小,从定量和定性两方面对所提出的模型进行验证。
在地面真实深度图(GT)已插值为可视化,可视化对比结果如图10所示,结果显示,本方法对车辆、行人,草木和交通标志等对象的预测更清晰;本网络架构不需要任何的地面真实深度数据,而是将深度作为一个中间值进行迭代训练,它学会预测具有已知相机基线的校正立体图像对之间的像素对的视差关系。
为了证明提出方法的有效性,在KITTI数据集上训练得到的模型用来测试其他数据集;图11显示了本方法在Cityscapes数据集上用于单眼深度估计的模型的定性结果;本方法的模型可以很好地捕获图像中的总体场景布局和对象,例如汽车,道路标志和行人;对来自NYUDv2室内数据集的图像的结果(见图12),图中表明我们的模型能够较好地捕捉到桌子,椅子和床等物体。
重要的是,应注意,在多个不同示例性实施方案中示出的本申请的构造和布置仅是例示性的。尽管在此公开内容中仅详细描述了几个实施方案,但参阅此公开内容的人员应容易理解,在实质上不偏离该申请中所描述的主题的新颖教导和优点的前提下,许多改型是可能的(例如,各种元件的尺寸、尺度、结构、形状和比例、以及参数值(例如,温度、压力等)、安装布置、材料的使用、颜色、定向的变化等)。例如,示出为整体成形的元件可以由多个部分或元件构成,元件的位置可被倒置或以其它方式改变,并且分立元件的性质或数目或位置可被更改或改变。因此,所有这样的改型旨在被包含在本发明的范围内。可以根据替代的实施方案改变或重新排序任何过程或方法步骤的次序或顺序。在权利要求中,任何“装置加功能”的条款都旨在覆盖在本文中所描述的执行所述功能的结构,且不仅是结构等同而且还是等同结构。在不背离本发明的范围的前提下,可以在示例性实施方案的设计、运行状况和布置中做出其他替换、改型、改变和省略。因此,本发明不限制于特定的实施方案,而是扩展至仍落在所附的权利要求书的范围内的多种改型。
此外,为了提供示例性实施方案的简练描述,可以不描述实际实施方案的所有特征(即,与当前考虑的执行本发明的最佳模式不相关的那些特征,或于实现本发明不相关的那些特征)。
应理解的是,在任何实际实施方式的开发过程中,如在任何工程或设计项目中,可做出大量的具体实施方式决定。这样的开发努力可能是复杂的且耗时的,但对于那些得益于此公开内容的普通技术人员来说,不需要过多实验,所述开发努力将是一个设计、制造和生产的常规工作。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于深度学习和傅里叶域分析的图像深度估计算法,其特征在于:包括,
读取数据集里的图像对,将图像对输入提出的网络架构中获取重建视图;
将图像对和重建视图带入损失函数,训练并确认网络架构,得到最初视差图;
带入以裁剪比λ裁剪的图像对至确认的网络架构,获取视差映射候选对象;以及,
融合视差映射候选对象,估计深度并显示于显示设备上;
其中,所述图像对区分为左视图和右视图,所述重建视图区分为重建左视图和重建右视图。
2.如权利要求1所述的基于深度学习和傅里叶域分析的图像深度估计算法,其特征在于:所述读取数据集里的图像对,将图像对输入提出的网络架构中获取重建右视图的步骤包括:
读取数据集;
获取右视图Ir和左视图Il
左视图Il作为输入图像,右视图Ir作为目标图像带入网络架构内,获得右视差dr
利用左视图Il和右视差dr获得重建右视图
Figure FDA0002345379540000011
其中,重建右视图
Figure FDA0002345379540000012
采用如下公式:
Figure FDA0002345379540000013
3.如权利要求1或2所述的基于深度学习和傅里叶域分析的图像深度估计算法,其特征在于:所述读取数据集里的图像对,将图像对输入提出的网络架构中获取重建左视图的步骤包括:
读取数据集;
获取右视图Ir和左视图Il
右视图Ir作为输入图像,左视图Il作为目标图像带入网络架构内,获得左视差dl
利用右视图Ir和左视差dl获得重建左视图
Figure FDA0002345379540000014
其中,重建右视图
Figure FDA0002345379540000015
采用如下公式:
Figure FDA0002345379540000021
4.如权利要求3所述的基于深度学习和傅里叶域分析的图像深度估计算法,其特征在于:所述将图像对和重建视图带入损失函数,训练并确认网络架构,得到最初视差图的步骤包括:
将右视图Ir、左视图Il、重建右视图
Figure FDA0002345379540000022
和重建左视图
Figure FDA0002345379540000023
带入损失函数;
通过损失函数训练网络架构;
不断迭代,确认网络架构;
获得最初视差图。
5.如权利要求4所述的基于深度学习和傅里叶域分析的图像深度估计算法,其特征在于:所述损失函数Ls采用如下公式:
Figure FDA0002345379540000024
其中,Lam是重建损失函数,重建损失函数Lam区分为重建左视图损失函数
Figure FDA0002345379540000025
和重建右视图损失函数
Figure FDA0002345379540000026
Lds是训练视差图的平滑性,Lds区分为右视差平滑度损失函数
Figure FDA0002345379540000027
和左视差平滑度损失函数
Figure FDA0002345379540000028
αam为1,αds为0.1。
6.如权利要求5所述的基于深度学习和傅里叶域分析的图像深度估计算法,其特征在于:所述重建左视图损失函数
Figure FDA0002345379540000029
采用如下公式:
Figure FDA00023453795400000210
其中,α设置为0.84,M设置为5,表示输入图像以2M-1为因子进行缩小,,
Figure FDA00023453795400000211
为高斯滤波器,
Figure FDA00023453795400000212
N为像素个数,i和j分别为像素坐标,
Figure FDA00023453795400000213
为左视图和重建左视图结构相似性;
其中,左视图和右视图结构相似性
Figure FDA00023453795400000214
采用如下公式:
Figure FDA00023453795400000215
其中,β1=0.0448,β2=0.2856,β3=0.3001,β4=0.2363,γ=β5=0.1333,
Figure FDA00023453795400000216
是亮度对比因子,
Figure FDA00023453795400000217
是对比度因子,
Figure FDA00023453795400000218
是结构对比因子。
7.如权利要求5或6所述的基于深度学习和傅里叶域分析的图像深度估计算法,其特征在于:所述左视差平滑度损失函数
Figure FDA0002345379540000031
采用如下公式:
Figure FDA0002345379540000032
其中,
Figure FDA0002345379540000033
表示左视差图像素点(i,j)在水平方向的梯度,
Figure FDA0002345379540000034
表示左视差图像素点(i,j)在垂直方向的梯度,ε=10-8,N表示像素点个数。
8.如权利要求7所述的基于深度学习和傅里叶域分析的图像深度估计算法,其特征在于:所述带入以裁剪比λ裁剪的图像对至确认的网络架构,获取视差映射候选对象的步骤包括:
将输入的左视图和右视图分别按照裁剪比λ裁剪到四个角;
确认的网络架构处理每个裁剪图像,得到相应的视差图;
将相应的视差图映射合并成视差映射候选对象;
其中,λ为0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95或1。
9.如权利要求8所述的基于深度学习和傅里叶域分析的图像深度估计算法,其特征在于:所述将相应的视差图映射合并成视差映射候选对象的步骤包括:
相应视差图的视差值按1/λ的倍数缩放;
将部分视差图转换至原位置并叠加,对重叠区域进行平均;
水平翻转输入的左右视图,得到裁剪比为λ的视差映射候选对象,并翻转视差映射候选对象。
10.如权利要求9所述的基于深度学习和傅里叶域分析的图像深度估计算法,其特征在于:所述融合视差映射候选对象采用傅里叶频域分析方法进行融合,所述估计深度
Figure FDA0002345379540000035
采用如下公式:
Figure FDA0002345379540000036
其中,f为相机的焦距,b为给定相机间的基线,d为估计视差图。
CN201911392507.5A 2019-03-28 2019-12-30 一种基于深度学习和傅里叶域分析的图像深度估计方法 Active CN110969653B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910242784.1A CN109978935A (zh) 2019-03-28 2019-03-28 一种基于深度学习和傅里叶域分析的图像深度估计算法
CN2019102427841 2019-03-28

Publications (2)

Publication Number Publication Date
CN110969653A true CN110969653A (zh) 2020-04-07
CN110969653B CN110969653B (zh) 2023-08-15

Family

ID=67081185

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910242784.1A Pending CN109978935A (zh) 2019-03-28 2019-03-28 一种基于深度学习和傅里叶域分析的图像深度估计算法
CN201911392507.5A Active CN110969653B (zh) 2019-03-28 2019-12-30 一种基于深度学习和傅里叶域分析的图像深度估计方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201910242784.1A Pending CN109978935A (zh) 2019-03-28 2019-03-28 一种基于深度学习和傅里叶域分析的图像深度估计算法

Country Status (1)

Country Link
CN (2) CN109978935A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112561980A (zh) * 2020-12-16 2021-03-26 北京航空航天大学 一种基于循环一致性的单目深度估计方法
KR20220097629A (ko) * 2020-12-30 2022-07-08 한국기술교육대학교 산학협력단 비지도 학습 기반의 깊이 예측 방법 및 이를 이용하는 시스템

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110850386B (zh) * 2019-11-20 2023-04-18 中北大学 一种基于分数阶域特征的旋翼类无人机深度学习识别方法
CN113393510B (zh) * 2020-03-12 2023-05-12 武汉Tcl集团工业研究院有限公司 一种图像处理方法、智能终端及存储介质
CN113158874B (zh) * 2021-04-16 2022-07-08 杭州像素元科技有限公司 一种基于深度学习的高速公路团雾自适应检测方法
CN114782911B (zh) * 2022-06-20 2022-09-16 小米汽车科技有限公司 图像处理的方法、装置、设备、介质、芯片及车辆

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107204010A (zh) * 2017-04-28 2017-09-26 中国科学院计算技术研究所 一种单目图像深度估计方法与系统
US20180231871A1 (en) * 2016-06-27 2018-08-16 Zhejiang Gongshang University Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
CN108564611A (zh) * 2018-03-09 2018-09-21 天津大学 一种基于条件生成对抗网络的单目图像深度估计方法
CN109101983A (zh) * 2018-08-02 2018-12-28 大连恒锐科技股份有限公司 一种基于深度学习的鞋样及足迹关键点检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180231871A1 (en) * 2016-06-27 2018-08-16 Zhejiang Gongshang University Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
CN107204010A (zh) * 2017-04-28 2017-09-26 中国科学院计算技术研究所 一种单目图像深度估计方法与系统
CN108564611A (zh) * 2018-03-09 2018-09-21 天津大学 一种基于条件生成对抗网络的单目图像深度估计方法
CN109101983A (zh) * 2018-08-02 2018-12-28 大连恒锐科技股份有限公司 一种基于深度学习的鞋样及足迹关键点检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112561980A (zh) * 2020-12-16 2021-03-26 北京航空航天大学 一种基于循环一致性的单目深度估计方法
KR20220097629A (ko) * 2020-12-30 2022-07-08 한국기술교육대학교 산학협력단 비지도 학습 기반의 깊이 예측 방법 및 이를 이용하는 시스템
KR102617344B1 (ko) 2020-12-30 2023-12-28 한국기술교육대학교 산학협력단 비지도 학습 기반의 깊이 예측 방법 및 이를 이용하는 시스템

Also Published As

Publication number Publication date
CN110969653B (zh) 2023-08-15
CN109978935A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN110969653B (zh) 一种基于深度学习和傅里叶域分析的图像深度估计方法
Wang et al. NeRF--: Neural radiance fields without known camera parameters
CN111462329B (zh) 一种基于深度学习的无人机航拍影像的三维重建方法
EP3822910A1 (en) Depth image generation method and device
Vaudrey et al. Differences between stereo and motion behaviour on synthetic and real-world stereo sequences
CN109472819B (zh) 一种基于级联几何上下文神经网络的双目视差估计方法
CN110009674B (zh) 基于无监督深度学习的单目图像景深实时计算方法
CN111127538B (zh) 一种基于卷积循环编码-解码结构的多视影像三维重建方法
CN113762358B (zh) 一种基于相对深度训练的半监督学习三维重建方法
CN107204010A (zh) 一种单目图像深度估计方法与系统
KR20000068660A (ko) 3차원 장면 재구성 방법과 재구성 장치 및 디코딩 시스템
CN113160068B (zh) 基于图像的点云补全方法及系统
KR20210058683A (ko) 깊이 맵 생성 방법 및 장치
CN110197505A (zh) 基于深度网络及语义信息的遥感图像双目立体匹配方法
CN114429555A (zh) 由粗到细的图像稠密匹配方法、系统、设备及存储介质
CN112288788A (zh) 单目图像深度估计方法
CN113538243A (zh) 基于多视差注意力模块组合的超分辨图像重建方法
CN117456136A (zh) 一种基于多模态视觉识别的数字孪生场景智能生成方法
CN116188550A (zh) 一种基于几何约束的自监督深度视觉里程计
CN112116646B (zh) 一种基于深度卷积神经网络的光场图像深度估计方法
CN111260712B (zh) 一种基于重聚焦极线图邻域分布的深度估计方法和装置
CN114119704A (zh) 一种基于空间金字塔池化的光场图像深度估计方法
Kang et al. Underwater Monocular Vision 3D Reconstruction Based on Cascaded Epipolar
CN115035545B (zh) 一种基于改进自注意力机制的目标检测方法及装置
CN114266900B (zh) 一种基于动态卷积的单目3d目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant