CN109978935A - 一种基于深度学习和傅里叶域分析的图像深度估计算法 - Google Patents

一种基于深度学习和傅里叶域分析的图像深度估计算法 Download PDF

Info

Publication number
CN109978935A
CN109978935A CN201910242784.1A CN201910242784A CN109978935A CN 109978935 A CN109978935 A CN 109978935A CN 201910242784 A CN201910242784 A CN 201910242784A CN 109978935 A CN109978935 A CN 109978935A
Authority
CN
China
Prior art keywords
image
view
left view
estimating
network architecture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910242784.1A
Other languages
English (en)
Inventor
唐晓娇
陈丽芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN201910242784.1A priority Critical patent/CN109978935A/zh
Publication of CN109978935A publication Critical patent/CN109978935A/zh
Priority to CN201911392507.5A priority patent/CN110969653B/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于深度学习和傅里叶域分析的图像深度估计算法,其包括,读取数据集里的图像对,将图像对输入提出的网络架构中获取重建视图;将图像对和重建视图带入损失函数,训练并确认网络架构,得到最初视差图;带入以裁剪比λ裁剪的图像对至确认的网络架构,获取视差映射候选对象;以及,融合视差映射候选对象,估计深度并显示于显示设备上;其中,所述图像对区分为左视图和右视图,所述重建视图区分为重建左视图和重建右视图;本发明基于深度学习的网络架构和傅里叶域分析无监督单目图像估计深度学习算法,有效提高了深度图精度和运动图像深度估计的精度,改进的网络架构,提升算法准确度和鲁棒性。

Description

一种基于深度学习和傅里叶域分析的图像深度估计算法
技术领域
本发明涉及的计算机视觉技术领域,尤其涉及一种基于深度学习和傅里叶域分析的图像深度估计算法。
背景技术
近年来,深度信息在传感器中获得了越来越多的应用。获取深度信息的技术主要有双目立体匹配,TOF(Time of Flight,飞行时间),单目结构光,激光雷达等技术,这些技术可以为传感器增加额外的深度信息,随着深度学习的发展,学者们开始大量地尝试运用卷积神经网络(CNN)来研究单目图像的深度估计问题,语义分割与深度估计都是像素级标签任务,最初用来研究语义分割问题的全卷积网络(FCN)可以有效地保留空间信息,因此一些学者同样用FCN来研究。然而大部分现有的方法将深度估计问题看作有监督的回归问题,因此需要大量相应的ground truth深度数据进行训练,在各种场景中记录有质量的深度数据是一个有挑战性的问题。
Hinton提出了一种深度信念网络模型可以使用一种叫做贪婪逐层训练策略的算法来进行有效的训练,这很快引起了人们对神经网络的研究热情,随后,加拿大高等研究院提出这种训练方法也适用于其他不同类型的深度神经网络,并且能够系统的提高网络模型在测试样本上的泛化能力,美国Stanford大学计算机系教授开发出新的机器视觉算法,利用马尔科夫场训练的模型,在单目深度估计上取得了突破性的的进展,在一副静止的画面中,机器人能通过该算法大致地估计出障碍物的大概距离,Karsch等人进了深度融合的方式,并引入了时域上的约束条件,然而,基于采样的深度估计算法依赖于大型的图像深度数据库,在运算时存储和计算效率较低,并且很有可能出现数据库中无法找到与测试图像相似图像的情况,使得深度恢复精度很低,2014年,Eign等人,率先尝试使用CNN来进行图像的深度估计工作,他们使用多尺度CNN模型,通过优化像素最小二乘损失,从图像直接回归出深度值,Li等人提出了在超像素级进行学习的方法,并引入了条件随机场对CNN网络的输出结果进行约束,使其深度值在空间上更加平滑;Liu等将CNN和CRF合并到同一个网络,以端到端的方式进行训练,CNN特征由此能够与CRF深度估计模型更好地结合,由此进一步带来了深度估计准确率的提升,虽然深度学习在诸如无人驾驶、目标识别与追踪、语音识别等领域取得了成果,然而要将单张图像深度估计应用在深度学习中时降低其功耗并且效率大大降低,不能满足使用需求。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有基于深度学习和傅里叶域分析的单目图像深度估计算法存在的问题,提出了本发明。
因此,本发明目的是提供一种基于深度学习和傅里叶域分析的单目图像深度估计算法,其基于深度学习的网络架构和傅里叶域分析无监督单目图像估计深度学习算法,有效提高了深度图精度和运动图像深度估计的精度,改进的网络架构,提升算法准确度和鲁棒性。
为解决上述技术问题,本发明提供如下技术方案:一种基于深度学习和傅里叶域分析的图像深度估计算法,其包括,
读取数据集里的图像对,将图像对输入提出的网络架构中获取重建视图;
将图像对和重建视图带入损失函数,训练并确认网络架构,得到最初视差图;
带入以裁剪比λ裁剪的图像对至确认的网络架构,获取视差映射候选对象;以及,
融合视差映射候选对象,估计深度并显示于显示设备上;
其中,所述图像对区分为左视图和右视图,所述重建视图区分为重建左视图和重建右视图。
作为本发明所述基于深度学习和傅里叶域分析的图像深度估计算法的一种优选方案,其中:所述读取数据集里的图像对,将图像对输入提出的网络架构中获取重建右视图的步骤包括:
读取数据集;
获取右视图Ir和左视图Il
左视图Il作为输入图像,右视图Ir作为目标图像带入网络架构内,获得右视差dr
利用左视图Il和右视差dr获得重建右视图
其中,重建右视图采用如下公式:
作为本发明所述基于深度学习和傅里叶域分析的图像深度估计算法的一种优选方案,其中:所述读取数据集里的图像对,将图像对输入提出的网络架构中获取重建左视图的步骤包括:
读取数据集;
获取右视图Ir和左视图Il
右视图Ir作为输入图像,左视图Il作为目标图像带入网络架构内,获得左视差dl
利用右视图Ir和左视差dl获得重建左视图
其中,重建右视图采用如下公式:
作为本发明所述基于深度学习和傅里叶域分析的图像深度估计算法的一种优选方案,其中:所述将图像对和重建视图带入损失函数,训练并确认网络架构,得到最初视差图的步骤包括:
将右视图Ir、左视图Il、重建右视图和重建左视图带入损失函数;
通过损失函数训练网络架构;
不断迭代,确认网络架构;
获得最初视差图。
作为本发明所述基于深度学习和傅里叶域分析的图像深度估计算法的一种优选方案,其中:所述损失函数Ls采用如下公式:
其中,Lam是重建损失函数,重建损失函数Lam区分为重建左视图损失函数和重建右视图损失函数Lds是训练视差图的平滑性,Lds区分为右视差平滑度损失函数和左视差平滑度损失函数αam为1,αds为0.1。
作为本发明所述基于深度学习和傅里叶域分析的图像深度估计算法的一种优选方案,其中:所述重建左视图损失函数采用如下公式:
其中,α设置为0.84,M设置为5,表示输入图像以2M-1为因子进行缩小,,为高斯滤波器,N为像素个数,i和j分别为像素坐标,为左视图和重建左视图结构相似性;
其中,左视图和右视图结构相似性采用如下公式:
其中,β1=0.0448,β2=0.2856,β3=0.3001,β4=0.2363,γ=β5=0.1333,是亮度对比因子,是对比度因子,是结构对比因子
所述左视差平滑度损失函数采用如下公式:
其中,表示左视差图像素点(i,j)在水平方向的梯度,表示左视差图像素点(i,j)在垂直方向的梯度,ε=10-8,N表示像素点个数。
作为本发明所述基于深度学习和傅里叶域分析的图像深度估计算法的一种优选方案,其中:所述带入以裁剪比λ裁剪的图像对至确认的网络架构,获取视差映射候选对象的步骤包括:
将输入的左视图和右视图分别按照裁剪比λ裁剪到四个角;
确认的网络架构处理每个裁剪图像,得到相应的视差图;
将相应的视差图映射合并成视差映射候选对象;
其中,λ为0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95或/和1。
作为本发明所述基于深度学习和傅里叶域分析的图像深度估计算法的一种优选方案,其中:所述将相应的视差图映射合并成视差映射候选对象的步骤包括:
相应视差图的视差值按1/λ的倍数缩放;
将部分视差图转换至原位置并叠加,对重叠区域进行平均;
水平翻转输入的左右视图,得到裁剪比为λ的视差映射候选对象,并翻转视差映射候选对象。
作为本发明所述基于深度学习和傅里叶域分析的图像深度估计算法的一种优选方案,其中:所述融合视差映射候选对象采用傅里叶频域分析方法进行融合,所述估计深度采用如下公式:
其中,f为相机的焦距,b为给定相机间的基线,d为估计视差图。
本发明的有益效果:本发明基于深度学习的网络架构和傅里叶域分析无监督单目图像估计深度学习算法,有效提高了深度图精度和运动图像深度估计的精度,改进的网络架构,提升算法准确度和鲁棒性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明基于深度学习和傅里叶域分析的图像深度估计算法第一个实施例的整体流程示意图。
图2为本发明基于深度学习和傅里叶域分析的图像深度估计算法第一个实施例的图像深度估计结构示意图。
图3为本发明基于深度学习和傅里叶域分析的图像深度估计算法第一个实施例的B'C块和BC块结构示意图。
图4为本发明基于深度学习和傅里叶域分析的图像深度估计算法第二个实施例的网络架构示意图。
图5为本发明基于深度学习和傅里叶域分析的图像深度估计算法第二个实施例的重建右视流程示意图。
图6为本发明基于深度学习和傅里叶域分析的图像深度估计算法第二个实施例的重建左视流程示意图。
图7为本发明基于深度学习和傅里叶域分析的图像深度估计算法第二个实施例的深度和视差示意图。
图8为本发明基于深度学习和傅里叶域分析的图像深度估计算法第三个实施例的S2流程示意图。
图9为本发明基于深度学习和傅里叶域分析的图像深度估计算法第四个实施例的S3流程示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
再其次,本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
实施例1
参照图1,为本发明第一个实施例,提供了一种基于深度学习和傅里叶域分析的图像深度估计算法的整体结构示意图,如图1,一种基于深度学习和傅里叶域分析的图像深度估计算法包括S1:读取数据集里的图像对,将图像对输入提出的网络架构中获取重建视图;S2:将图像对和重建视图带入损失函数,训练并确认网络架构,得到最初视差图;S3:带入以裁剪比λ裁剪的图像对至确认的网络架构,获取视差映射候选对象;以及,S4:融合视差映射候选对象,估计深度并显示于显示设备上。
具体的,本发明包括,S1:读取数据集里的图像对,将图像对输入提出的网络架构中获取重建视图,其中,数据集采用kitti和cityscapes数据集,而图像对区分为左视图Il和右视图Ir,左视图Il和右视图Ir为同一时间摄像头捕获的校正后的立体图像对的左右视图,对于的重建视图区分为重建左视图和重建右视图;S2:将图像对和重建视图带入损失函数,得到的损坏函数值大,修改损失函数参数,不断训练,得到最小的损坏函数值,即确认网络架构,得到最初视差图;S3:带入以裁剪比λ裁剪的图像对至确认的网络架构,获取视差映射候选对象;S4:融合通过傅里叶域分析傅里叶域分析得到视差映射候选对象,估计深度并显示于显示设备上,其中,显示设备为显示屏、平板、电脑等具有显示功能的设备,通过上述步骤,可知本发明基于深度学习的网络架构和傅里叶域分析无监督单目图像估计深度学习算法,其有效提高了深度图精度和运动图像深度估计的精度,改进的网络架构,实现了在无监督的情况下只需要输入单张图像就可预测出图像深度图,大大提升算法准确度和鲁棒性实现。
进一步的,提出的网络架构是基于Resnet-152改进而来(参考图2),其中ResNet-152包括151个卷积层和1个全连接层,该网络被分成更小的块,每个块有三个卷积层,最后是批规格化层和线性单元修正层,在图3中,BC表示的虚线框块内C是输出特征图中的通道数,原ResNet-152包含50个这样的区块,在此,修改了3个块,图3显示了修改后块的结构,其有一个用于中间特征提取的额外路径,用B'C虚线框表示修改的块,其中C′是输出特征图中的通道数。
其中,kitti数据集是国际上最大的自动驾驶场景下的计算机视觉算法评测数据集,该数据集用于评测立体图像(stereo)、光流(optical flow)、视觉测距(visualodometry)、3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能,KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,还有各种程度的遮挡与截断,整个数据集由389对立体图像和光流图,39.2km视觉测距序列以及超过200k3D标注物体的图像组成,以10Hz的频率采样及同步。
实施例2
参照图4,该实施例不同于第一个实施例的是:将图像对输入提出的网络架构中分别获取重建左视图和重建右视图。具体的,参见图1,其主体包括S1:读取数据集里的图像对,将图像对输入提出的网络架构中获取重建视图,其中,数据集采用kitti和cityscapes数据集,而图像对区分为左视图Il和右视图Ir,左视图Il和右视图Ir为同一时间摄像头捕获的校正后的立体图像对的左右视图,对于的重建视图区分为重建左视图和重建右视图;S2:将图像对和重建视图带入损失函数,得到的损坏函数值大,修改损失函数参数,不断训练,得到最小的损坏函数值,即确认网络架构,得到最初视差图;S3:带入以裁剪比λ裁剪的图像对至确认的网络架构,获取视差映射候选对象;S4:融合通过傅里叶域分析傅里叶域分析得到视差映射候选对象,估计深度并显示于显示设备上,其中,显示设备为显示屏、平板、电脑等具有显示功能的设备,通过上述步骤,可知本发明基于深度学习的网络架构和傅里叶域分析无监督单目图像估计深度学习算法,其有效提高了深度图精度和运动图像深度估计的精度,改进的网络架构,实现了在无监督的情况下只需要输入单张图像就可预测出图像深度图的作用,大大提升算法准确度和鲁棒性实现。
进一步的,提出的网络架构是基于Resnet-152改进而来(参考图2),其中ResNet-152包括151个卷积层和1个全连接层,该网络被分成更小的块,每个块有三个卷积层,最后是批规格化层和线性单元修正层,在图3中,BC表示的虚线框块内C是输出特征图中的通道数,原ResNet-152包含50个这样的区块,在此,修改了3个块,图3显示了修改后块的结构,其有一个用于中间特征提取的额外路径,用B'C虚线框表示修改的块,其中C′是输出特征图中的通道数。
参考图5,读取数据集里的图像对,将图像对输入提出的网络架构中获取重建视图的步骤包括:S111:读取数据集;S112:在数据集中获取右视图Ir和左视图Il;S113:将左视图Il作为输入图像,右视图Ir作为目标图像带入提出的网络架构内,获得右视差dr;S114:利用左视图Il和右视差dr获得重建右视图
其中,重建右视图采用如下公式:
其中,参考图6,读取数据集里的图像对,将图像对输入提出的网络架构中获取重建左视图的步骤包括:S121:读取数据集;S122:在数据集中获取右视图Ir和左视图Il;S123:将右视图Ir作为输入图像,左视图Il作为目标图像带入提出的网络架构内,获得左视差dl;S124:利用右视图Ir和左视差dl获得重建左视图
其中,重建右视图采用如下公式:
需说明的是,视差就是从有一定距离的两个点上观察同一个目标所产生的方向差异,图像的深度和视差之间呈反比关系,参考图7,具体推算过程如下:
由相似三角形得:
其中,(1)
其,f表示焦距,L表示像平面长,B表示基线,Z表示深度,Ol,Or表示左右相机,D=(xl-xr)表示视差。
由(1)和(2)得,
由此可得,图像的深度和视差之间呈反比关系。
实施例3
参照图8,该实施例不同于以上实施例的是:将图像对和重建视图带入损失函数,训练并确认网络架构,得到最初视差图的步骤包括:S201:将右视图Ir、左视图Il、重建右视图和重建左视图带入损失函数;S202:通过损失函数训练网络架构;S203:不断迭代,确认网络架构;S204:获得最初视差图。具体的,参见图1,其主体步骤重复实施2,将图像对和重建视图带入损失函数,训练并确认网络架构,得到最初视差图的步骤包括:S201:将右视图Ir、左视图Il、重建右视图和重建左视图带入损失函数;S202:通过损失函数训练网络架构;S203:不断迭代,确认网络架构;S204:获得最初视差图。
进一步的,损失函数Ls采用如下公式:
其中,Lam是重建损失函数,用来训练图像重建损失,重建损失函数Lam区分为重建左视图损失函数和重建右视图损失函数Lds是训练视差图的平滑性,每一项都包含左右图损失函数,将其一同纳入误差计算,Lds区分为右视差平滑度损失函数和左视差平滑度损失函数αam为1,αds为0.1。
而重建左视图损失函数采用如下公式:
其中,α设置为0.84,M设置为5,表示输入图像以2M-1为因子进行缩小,,为高斯滤波器,N为像素个数,i和j分别为像素坐标,为左视图和重建左视图结构相似性;
其中,左视图和右视图结构相似性采用如下公式:
其中,β1=0.0448,β2=0.2856,β3=0.3001,β4=0.2363,γ=β5=0.1333,是亮度对比因子,是对比度因子,是结构对比因子;类似的,重建右视图损失函数和重建左视图损失函数求取方式相同,在此不再重复叙述。
而左视差平滑度损失函数采用如下公式:
其中,表示左视差图像素点(i,j)在水平方向的梯度,表示左视差图像素点(i,j)在垂直方向的梯度,ε=10-8,N表示像素点个数;类似的,右视差平滑度损失函数和左视差平滑度损失函数求取方式相同,在此不再重复叙述。
实施例4
参照图9,该实施例不同于以上实施例的是:带入以裁剪比λ裁剪的图像对至确认的网络架构,获取视差映射候选对象的步骤包括:S301:将输入的左视图和右视图分别按照裁剪比λ裁剪到四个角;S302:确认的网络架构处理每个裁剪图像,得到相应的视差图;S303:将相应的视差图映射合并成视差映射候选对象。具体的,参见图1,其主体步骤重复实施3,而带入以裁剪比λ裁剪的图像对至确认的网络架构,获取视差映射候选对象的步骤包括:S310:将输入的左视图和右视图分别按照裁剪比λ裁剪到四个角,其中,裁剪比定义为裁剪后的图像与整个图像的大小比,而λ可为0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95或/和1,即左视图和右视图被分别裁剪成9张不同裁剪比的图像;S320:确认的网络架构处理每个裁剪图像,得到相应的视差图;S330:将相应的视差图映射合并成视差映射候选对象。
其中,将相应的视差图映射合并成视差映射候选对象的步骤包括:S331:相应视差图的视差值按1/λ的倍数缩放,以补偿裁剪后的图像中物体看起来更近的缩放效果;S332:将部分视差图转换至原位置并叠加,对重叠区域进行平均;S333:水平翻转输入的左右视图,得到裁剪比为λ的视差映射候选对象,并翻转视差映射候选对象,其中,让表示合成左、右视差图的候选,当λ=1,的获得仅仅是通过CNN处理整个输入左、右视图,由于CNN参数不是对称的,翻转后的图像不会产生翻转后的视差图,因此,水平翻转输入的左右视图,得到裁剪比为λ的视差映射候选对象,并翻转视差映射候选对象,分别用表示。
实施例5
该实施例不同于以上实施例的是:融合视差映射候选对象采用傅里叶频域分析方法进行融合。具体的,参见图1,其主体步骤重复实施4,而融合视差映射候选对象采用傅里叶频域分析方法进行融合,估计深度采用如下公式:
其中,f为相机的焦距,b为给定相机间的基线,d为估计视差图。
进一步的,深度映射的剪切比λ越大,它的整幅图的视差分布就越可靠,而小λ评估局部细节则更准确,利用这些互补性质,在傅里叶频域中结合了视差映射候选项,需注意,总体分布和局部细节分别对应于低频和高频系数,一个大小为M×N的输入信号I(x,y)的离散傅里叶变换(DFT)y为:
其中u和v是水平频率和垂直频率,对每个视差映射候选项进行变换,并将2D-DFT系数重新排列成列向量,在重排过程中,去掉了两种冗余,首先,DFT是周期性的,F(u,v)=F(u+Nk,v+Ml),k,l∈Z;第二,由于视差图是真实的,其的DFT共轭对称的,例如,F(u,v)=F*(-u,-v),让分别表示第m个左视差映射候选重排DFT矢量和重建左视差映射候选重排DFT矢量,其中,的计算公式为 表示利用第m个右视差得出第m个重建左视差图,计算公式为代表所有候选综合的左视差映射的DFT向量,分别代表中的第k个系数,用如下的式子来获取:
其中为加权参数,为偏差,M为左视图映射候选的个数。
首先,偏差定义为左右视差一致性检测的平均偏差,因此,使用训练数据集来决定偏差:
其中t为训练图像的索引,T为训练数据集中的图像总数,同时,分别表示对于第t个图像的
其次,确定权重参数以减小之间的均方误差(MSE),然后,均方误差最小化问题是找到最优权向量对所有k重复这个过程以确定所有的权值和偏置参数。
在测试中,把多个视差候选图的DFT向量通过式(3)结合到最终评估的然后,通过傅里叶反变换生成最终值得指出的是由于Parseval定理,在频域减小均方误差相当于在空间域减小均方误差。
本发明利用物理方法与深度学习相结合,改进出一个网络架构;分别输入左右视图,在训练时把预测图像深度过程看成一个图像重建的问题;本文提出的卷积网络不需要深度数据,而是用合成深度作为一个中间产物,进而实现了无监督单目图像深度估计算法
重要的是,应注意,在多个不同示例性实施方案中示出的本申请的构造和布置仅是例示性的。尽管在此公开内容中仅详细描述了几个实施方案,但参阅此公开内容的人员应容易理解,在实质上不偏离该申请中所描述的主题的新颖教导和优点的前提下,许多改型是可能的(例如,各种元件的尺寸、尺度、结构、形状和比例、以及参数值(例如,温度、压力等)、安装布置、材料的使用、颜色、定向的变化等)。例如,示出为整体成形的元件可以由多个部分或元件构成,元件的位置可被倒置或以其它方式改变,并且分立元件的性质或数目或位置可被更改或改变。因此,所有这样的改型旨在被包含在本发明的范围内。可以根据替代的实施方案改变或重新排序任何过程或方法步骤的次序或顺序。在权利要求中,任何“装置加功能”的条款都旨在覆盖在本文中所描述的执行所述功能的结构,且不仅是结构等同而且还是等同结构。在不背离本发明的范围的前提下,可以在示例性实施方案的设计、运行状况和布置中做出其他替换、改型、改变和省略。因此,本发明不限制于特定的实施方案,而是扩展至仍落在所附的权利要求书的范围内的多种改型。
此外,为了提供示例性实施方案的简练描述,可以不描述实际实施方案的所有特征(即,与当前考虑的执行本发明的最佳模式不相关的那些特征,或于实现本发明不相关的那些特征)。
应理解的是,在任何实际实施方式的开发过程中,如在任何工程或设计项目中,可做出大量的具体实施方式决定。这样的开发努力可能是复杂的且耗时的,但对于那些得益于此公开内容的普通技术人员来说,不需要过多实验,所述开发努力将是一个设计、制造和生产的常规工作。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于深度学习和傅里叶域分析的图像深度估计算法,其特征在于:包括,
读取数据集里的图像对,将图像对输入提出的网络架构中获取重建视图;
将图像对和重建视图带入损失函数,训练并确认网络架构,得到最初视差图;
带入以裁剪比λ裁剪的图像对至确认的网络架构,获取视差映射候选对象;以及,
融合视差映射候选对象,估计深度并显示于显示设备上;
其中,所述图像对区分为左视图和右视图,所述重建视图区分为重建左视图和重建右视图。
2.如权利要求1所述的基于深度学习和傅里叶域分析的图像深度估计算法,其特征在于:所述读取数据集里的图像对,将图像对输入提出的网络架构中获取重建右视图的步骤包括:
读取数据集;
获取右视图Ir和左视图Il
左视图Il作为输入图像,右视图Ir作为目标图像带入网络架构内,获得右视差dr
利用左视图Il和右视差dr获得重建右视图
其中,重建右视图采用如下公式:
3.如权利要求1或2所述的基于深度学习和傅里叶域分析的图像深度估计算法,其特征在于:所述读取数据集里的图像对,将图像对输入提出的网络架构中获取重建左视图的步骤包括:
读取数据集;
获取右视图Ir和左视图Il
右视图Ir作为输入图像,左视图Il作为目标图像带入网络架构内,获得左视差dl
利用右视图Ir和左视差dl获得重建左视图
其中,重建右视图采用如下公式:
4.如权利要求3所述的基于深度学习和傅里叶域分析的图像深度估计算法,其特征在于:所述将图像对和重建视图带入损失函数,训练并确认网络架构,得到最初视差图的步骤包括:
将右视图Ir、左视图Il、重建右视图和重建左视图带入损失函数;
通过损失函数训练网络架构;
不断迭代,确认网络架构;
获得最初视差图。
5.如权利要求4所述的基于深度学习和傅里叶域分析的图像深度估计算法,其特征在于:所述损失函数Ls采用如下公式:
其中,Lam是重建损失函数,重建损失函数Lam区分为重建左视图损失函数和重建右视图损失函数Lds是训练视差图的平滑性,Lds区分为右视差平滑度损失函数和左视差平滑度损失函数αam为1,αds为0.1。
6.如权利要求5所述的基于深度学习和傅里叶域分析的图像深度估计算法,其特征在于:所述重建左视图损失函数采用如下公式:
其中,α设置为0.84,M设置为5,表示输入图像以2M-1为因子进行缩小,,为高斯滤波器,N为像素个数,i和j分别为像素坐标,为左视图和重建左视图结构相似性;
其中,左视图和右视图结构相似性采用如下公式:
其中,β1=0.0448,β2=0.2856,β3=0.3001,β4=0.2363,γ=β5=0.1333,是亮度对比因子,是对比度因子,是结构对比因子。
7.如权利要求5或6所述的基于深度学习和傅里叶域分析的图像深度估计算法,其特征在于:所述左视差平滑度损失函数采用如下公式:
其中,表示左视差图像素点(i,j)在水平方向的梯度,表示左视差图像素点(i,j)在垂直方向的梯度,ε=10-8,N表示像素点个数。
8.如权利要求7所述的基于深度学习和傅里叶域分析的图像深度估计算法,其特征在于:所述带入以裁剪比λ裁剪的图像对至确认的网络架构,获取视差映射候选对象的步骤包括:
将输入的左视图和右视图分别按照裁剪比λ裁剪到四个角;
确认的网络架构处理每个裁剪图像,得到相应的视差图;
将相应的视差图映射合并成视差映射候选对象;
其中,λ为0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95或/和1。
9.如权利要求8所述的基于深度学习和傅里叶域分析的图像深度估计算法,其特征在于:所述将相应的视差图映射合并成视差映射候选对象的步骤包括:
相应视差图的视差值按1/λ的倍数缩放;
将部分视差图转换至原位置并叠加,对重叠区域进行平均;
水平翻转输入的左右视图,得到裁剪比为λ的视差映射候选对象,并翻转视差映射候选对象。
10.如权利要求9所述的基于深度学习和傅里叶域分析的图像深度估计算法,其特征在于:所述融合视差映射候选对象采用傅里叶频域分析方法进行融合,所述估计深度采用如下公式:
其中,f为相机的焦距,b为给定相机间的基线,d为估计视差图。
CN201910242784.1A 2019-03-28 2019-03-28 一种基于深度学习和傅里叶域分析的图像深度估计算法 Pending CN109978935A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910242784.1A CN109978935A (zh) 2019-03-28 2019-03-28 一种基于深度学习和傅里叶域分析的图像深度估计算法
CN201911392507.5A CN110969653B (zh) 2019-03-28 2019-12-30 一种基于深度学习和傅里叶域分析的图像深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910242784.1A CN109978935A (zh) 2019-03-28 2019-03-28 一种基于深度学习和傅里叶域分析的图像深度估计算法

Publications (1)

Publication Number Publication Date
CN109978935A true CN109978935A (zh) 2019-07-05

Family

ID=67081185

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910242784.1A Pending CN109978935A (zh) 2019-03-28 2019-03-28 一种基于深度学习和傅里叶域分析的图像深度估计算法
CN201911392507.5A Active CN110969653B (zh) 2019-03-28 2019-12-30 一种基于深度学习和傅里叶域分析的图像深度估计方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201911392507.5A Active CN110969653B (zh) 2019-03-28 2019-12-30 一种基于深度学习和傅里叶域分析的图像深度估计方法

Country Status (1)

Country Link
CN (2) CN109978935A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110850386A (zh) * 2019-11-20 2020-02-28 中北大学 一种基于分数阶域特征的旋翼类无人机深度学习识别方法
CN113158874A (zh) * 2021-04-16 2021-07-23 杭州像素元科技有限公司 一种基于傅里叶变换自适应深度学习算法的高速公路团雾检测方法
CN113393510A (zh) * 2020-03-12 2021-09-14 武汉Tcl集团工业研究院有限公司 一种图像处理方法、智能终端及存储介质
CN114782911A (zh) * 2022-06-20 2022-07-22 小米汽车科技有限公司 图像处理的方法、装置、设备、介质、芯片及车辆

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112561980A (zh) * 2020-12-16 2021-03-26 北京航空航天大学 一种基于循环一致性的单目深度估计方法
KR102617344B1 (ko) * 2020-12-30 2023-12-28 한국기술교육대학교 산학협력단 비지도 학습 기반의 깊이 예측 방법 및 이를 이용하는 시스템

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157307B (zh) * 2016-06-27 2018-09-11 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN107204010B (zh) * 2017-04-28 2019-11-19 中国科学院计算技术研究所 一种单目图像深度估计方法与系统
CN108564611A (zh) * 2018-03-09 2018-09-21 天津大学 一种基于条件生成对抗网络的单目图像深度估计方法
CN109101983B (zh) * 2018-08-02 2020-10-30 大连恒锐科技股份有限公司 一种基于深度学习的鞋样及足迹关键点检测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110850386A (zh) * 2019-11-20 2020-02-28 中北大学 一种基于分数阶域特征的旋翼类无人机深度学习识别方法
CN110850386B (zh) * 2019-11-20 2023-04-18 中北大学 一种基于分数阶域特征的旋翼类无人机深度学习识别方法
CN113393510A (zh) * 2020-03-12 2021-09-14 武汉Tcl集团工业研究院有限公司 一种图像处理方法、智能终端及存储介质
CN113158874A (zh) * 2021-04-16 2021-07-23 杭州像素元科技有限公司 一种基于傅里叶变换自适应深度学习算法的高速公路团雾检测方法
CN114782911A (zh) * 2022-06-20 2022-07-22 小米汽车科技有限公司 图像处理的方法、装置、设备、介质、芯片及车辆
CN114782911B (zh) * 2022-06-20 2022-09-16 小米汽车科技有限公司 图像处理的方法、装置、设备、介质、芯片及车辆

Also Published As

Publication number Publication date
CN110969653B (zh) 2023-08-15
CN110969653A (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
CN109978935A (zh) 一种基于深度学习和傅里叶域分析的图像深度估计算法
Piasco et al. A survey on visual-based localization: On the benefit of heterogeneous data
CN110956651B (zh) 一种基于视觉和振动触觉融合的地形语义感知方法
Wei et al. Deepsfm: Structure from motion via deep bundle adjustment
CN107204010B (zh) 一种单目图像深度估计方法与系统
Fan et al. Point spatio-temporal transformer networks for point cloud video modeling
CN108986136A (zh) 一种基于语义分割的双目场景流确定方法及系统
CN108242079A (zh) 一种基于多特征视觉里程计和图优化模型的vslam方法
CN105869178A (zh) 一种基于多尺度组合特征凸优化的复杂目标动态场景无监督分割方法
Paz et al. Probabilistic semantic mapping for urban autonomous driving applications
CN101976461A (zh) 一种新的户外增强现实无标跟踪注册算法
CN110009674A (zh) 基于无监督深度学习的单目图像景深实时计算方法
CN103020963B (zh) 一种基于自适应分水岭的图割的多目立体匹配方法
CN109063549A (zh) 基于深度神经网络的高分辨率航拍视频运动目标检测方法
Yin et al. Automerge: A framework for map assembling and smoothing in city-scale environments
CN117456136A (zh) 一种基于多模态视觉识别的数字孪生场景智能生成方法
Astrid et al. For safer navigation: Pedestrian-view intersection classification
CN103020964A (zh) 一种基于自适应分水岭的图割的双目立体匹配方法
Huang et al. Overview of LiDAR point cloud target detection methods based on deep learning
CN116824433A (zh) 基于自监督神经网络的视觉-惯导-雷达融合自定位方法
Brebion et al. Learning to estimate two dense depths from lidar and event data
Dong et al. YH-Pose: Human pose estimation in complex coal mine scenarios
Hou et al. Forest: A lightweight semantic image descriptor for robust visual place recognition
Yang et al. ALeader-following Method Based on Binocular Stereo Vision For Quadruped Robots
Cadena et al. Recursive inference for prediction of objects in urban environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190705

WD01 Invention patent application deemed withdrawn after publication