CN110969653B

CN110969653B - 一种基于深度学习和傅里叶域分析的图像深度估计方法

Info

Publication number: CN110969653B
Application number: CN201911392507.5A
Authority: CN
Inventors: 唐晓娇; 陈丽芳
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2019-03-28
Filing date: 2019-12-30
Publication date: 2023-08-15
Anticipated expiration: 2039-12-30
Also published as: CN109978935A; CN110969653A

Abstract

本发明公开了一种基于深度学习和傅里叶域分析的图像深度估计方法，其包括，读取数据集里的图像对，将图像对输入提出的网络架构中获取重建视图；将图像对和重建视图带入损失函数，训练并确认网络架构，得到最初视差图；带入以裁剪比λ裁剪的图像对至确认的网络架构，获取视差映射候选对象；以及，融合视差映射候选对象，估计深度并显示于显示设备上；其中，所述图像对区分为左视图和右视图，所述重建视图区分为重建左视图和重建右视图；本发明基于深度学习的网络架构和傅里叶域分析无监督单目图像估计深度学习算法，有效提高了深度图精度和运动图像深度估计的精度，改进的网络架构，提升算法准确度和鲁棒性。

Description

一种基于深度学习和傅里叶域分析的图像深度估计方法

技术领域

本发明涉及的计算机视觉技术领域，尤其涉及一种基于深度学习和傅里叶域分析的图像深度估计方法。

背景技术

近年来，深度信息在传感器中获得了越来越多的应用。获取深度信息的技术主要有双目立体匹配，TOF(Time ofFlight，飞行时间)，单目结构光，激光雷达等技术，这些技术可以为传感器增加额外的深度信息，随着深度学习的发展，学者们开始大量地尝试运用卷积神经网络(CNN)来研究单目图像的深度估计问题，语义分割与深度估计都是像素级标签任务，最初用来研究语义分割问题的全卷积网络(FCN)可以有效地保留空间信息，因此一些学者同样用FCN来研究。然而大部分现有的方法将深度估计问题看作有监督的回归问题，因此需要大量相应的ground truth深度数据进行训练，在各种场景中记录有质量的深度数据是一个有挑战性的问题。

Hinton提出了一种深度信念网络模型可以使用一种叫做贪婪逐层训练策略的算法来进行有效的训练，这很快引起了人们对神经网络的研究热情，随后，加拿大高等研究院提出这种训练方法也适用于其他不同类型的深度神经网络，并且能够系统的提高网络模型在测试样本上的泛化能力，美国Stanford大学计算机系教授开发出新的机器视觉算法，利用马尔科夫场训练的模型，在单目深度估计上取得了突破性的的进展，在一副静止的画面中，机器人能通过该算法大致地估计出障碍物的大概距离，Karsch等人进了深度融合的方式，并引入了时域上的约束条件，然而，基于采样的深度估计算法依赖于大型的图像深度数据库，在运算时存储和计算效率较低，并且很有可能出现数据库中无法找到与测试图像相似图像的情况，使得深度恢复精度很低，2014年，Eigen等人，率先尝试使用CNN来进行图像的深度估计工作，他们使用多尺度CNN模型，通过优化像素最小二乘损失，从图像直接回归出深度值，Li等人提出了在超像素级进行学习的方法，并引入了条件随机场对CNN网络的输出结果进行约束，使其深度值在空间上更加平滑；Liu等将CNN和CRF合并到同一个网络，以端到端的方式进行训练，CNN特征由此能够与CRF深度估计模型更好地结合，由此进一步带来了深度估计准确率的提升，虽然深度学习在诸如无人驾驶、目标识别与追踪、语音识别等领域取得了成果，然而要将单张图像深度估计应用在深度学习中时降低其功耗并且效率大大降低，不能满足使用需求。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有基于深度学习和傅里叶域分析的单目图像深度估计算法存在的问题，提出了本发明。

因此，本发明目的是提供一种基于深度学习和傅里叶域分析的单目图像深度估计算法，其基于深度学习的网络架构和傅里叶域分析无监督单目图像估计深度学习算法，有效提高了深度图精度和运动图像深度估计的精度，改进的网络架构，提升算法准确度和鲁棒性。

为解决上述技术问题，本发明提供如下技术方案：一种基于深度学习和傅里叶域分析的图像深度估计方法，其包括，

读取数据集里的图像对，将图像对输入提出的网络架构中获取重建视图；

将图像对和重建视图带入损失函数，训练并确认网络架构，得到最初视差图；

带入以裁剪比λ裁剪的图像对至确认的网络架构，获取视差映射候选对象；以及，

融合视差映射候选对象，估计深度并显示于显示设备上；

其中，所述图像对区分为左视图和右视图，所述重建视图区分为重建左视图和重建右视图。

作为本发明所述基于深度学习和傅里叶域分析的图像深度估计方法的一种优选方案，其中：所述读取数据集里的图像对，将图像对输入提出的网络架构中获取重建右视图的步骤包括：

读取数据集；

获取右视图I^r和左视图I^l；

左视图I^l作为输入图像，右视图I^r作为目标图像带入网络架构内，获得右视差d^r；

利用左视图I^l和右视差d^r获得重建右视图

其中，重建右视图采用如下公式：

作为本发明所述基于深度学习和傅里叶域分析的图像深度估计方法的一种优选方案，其中：所述读取数据集里的图像对，将图像对输入提出的网络架构中获取重建左视图的步骤包括：

读取数据集；

获取右视图I^r和左视图I^l；

右视图I^r作为输入图像，左视图I^l作为目标图像带入网络架构内，获得左视差d^l；

利用右视图I^r和左视差d^l获得重建左视图

其中，重建右视图采用如下公式：

作为本发明所述基于深度学习和傅里叶域分析的图像深度估计方法的一种优选方案，其中：所述将图像对和重建视图带入损失函数，训练并确认网络架构，得到最初视差图的步骤包括：

将右视图I^r、左视图I^l、重建右视图和重建左视图/>带入损失函数；

通过损失函数训练网络架构；

不断迭代，确认网络架构；

获得最初视差图。

作为本发明所述基于深度学习和傅里叶域分析的图像深度估计方法的一种优选方案，其中：所述损失函数L_s采用如下公式：

其中，L_am是重建损失函数，重建损失函数L_am区分为重建左视图损失函数和重建右视图损失函数/>L_ds是训练视差图的平滑性，L_ds区分为右视差平滑度损失函数/>和左视差平滑度损失函数/>α_am为1，α_ds为0.1。

作为本发明所述基于深度学习和傅里叶域分析的图像深度估计方法的一种优选方案，其中：所述重建左视图损失函数采用如下公式：

其中，α设置为0.84，M设置为5，表示输入图像以2^M-1为因子进行缩小，为高斯滤波器，/>N为像素个数，i和j分别为像素坐标，/>为左视图和重建左视图结构相似性；

其中，左视图和右视图结构相似性采用如下公式：

其中，β₁＝0.0448，β₂＝0.2856，β₃＝0.3001，β₄＝0.2363，γ＝β₅＝0.1333，是亮度对比因子，/>是对比度因子，/>是结构对比因子。

作为本发明所述基于深度学习和傅里叶域分析的图像深度估计方法的一种优选方案，其中：所述左视差平滑度损失函数采用如下公式：

其中，表示左视差图像素点(i，j)在水平方向的梯度，/>表示左视差图像素点(i，j)在垂直方向的梯度，ε＝10^-8，N表示像素点个数。

作为本发明所述基于深度学习和傅里叶域分析的图像深度估计方法的一种优选方案，其中：所述带入以裁剪比λ裁剪的图像对至确认的网络架构，获取视差映射候选对象的步骤包括：

将输入的左视图和右视图分别按照裁剪比λ裁剪到四个角；

确认的网络架构处理每个裁剪图像，得到相应的视差图；

将相应的视差图映射合并成视差映射候选对象；

其中，λ为0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95或1。

作为本发明所述基于深度学习和傅里叶域分析的图像深度估计方法的一种优选方案，其中：所述将相应的视差图映射合并成视差映射候选对象的步骤包括：

相应视差图的视差值按1/λ的倍数缩放；

将部分视差图转换至原位置并叠加，对重叠区域进行平均；

水平翻转输入的左右视图，得到裁剪比为λ的视差映射候选对象，并翻转视差映射候选对象。

作为本发明所述基于深度学习和傅里叶域分析的图像深度估计方法的一种优选方案，其中：所述融合视差映射候选对象采用傅里叶频域分析方法进行融合，所述估计深度采用如下公式：

其中，f为相机的焦距，b为给定相机间的基线，d为估计视差图。

本发明的有益效果：本发明基于深度学习的网络架构和傅里叶域分析无监督单目图像估计深度学习算法，有效提高了深度图精度和运动图像深度估计的精度，改进的网络架构，提升算法准确度和鲁棒性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明基于深度学习和傅里叶域分析的图像深度估计方法第一个实施例的整体流程示意图。

图2为本发明基于深度学习和傅里叶域分析的图像深度估计方法第一个实施例的图像深度估计结构示意图。

图3为本发明基于深度学习和傅里叶域分析的图像深度估计方法第一个实施例的B'_C块和B_C块结构示意图。

图4为本发明基于深度学习和傅里叶域分析的图像深度估计方法第二个实施例的网络架构示意图。

图5为本发明基于深度学习和傅里叶域分析的图像深度估计方法第二个实施例的重建右视流程示意图。

图6为本发明基于深度学习和傅里叶域分析的图像深度估计方法第二个实施例的重建左视流程示意图。

图7为本发明基于深度学习和傅里叶域分析的图像深度估计方法第二个实施例的深度和视差示意图。

图8为本发明基于深度学习和傅里叶域分析的图像深度估计方法第三个实施例的S2流程示意图。

图9为本发明基于深度学习和傅里叶域分析的图像深度估计方法第四个实施例的S3流程示意图。

图10为本发明基于深度学习和傅里叶域分析的图像深度估计方法的第六个实施例的可视化实验结果对比图。

图11为本发明基于深度学习和傅里叶域分析的图像深度估计方法的第六个实施例的Cityscapes数据集图像深度预测结果图。

图12为本发明基于深度学习和傅里叶域分析的图像深度估计方法的第六实施例的NYUDv2室内图像深度预测结果图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

再其次，本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

实施例1

参照图1，为本发明第一个实施例，提供了一种基于深度学习和傅里叶域分析的图像深度估计方法的整体结构示意图，如图1，一种基于深度学习和傅里叶域分析的图像深度估计方法包括，S1：读取数据集里的图像对，将图像对输入提出的网络架构中获取重建视图；S2：将图像对和重建视图带入损失函数，训练并确认网络架构，得到最初视差图；S3：带入以裁剪比λ裁剪的图像对至确认的网络架构，获取视差映射候选对象；以及，S4：融合视差映射候选对象，估计深度并显示于显示设备上；

具体的，本发明包括，S1：读取数据集里的图像对，将图像对输入提出的网络架构中获取重建视图，其中，数据集采用KITTI和Cityscapes数据集，而图像对区分为左视图I^l和右视图I^r，左视图I^l和右视图I^r为同一时间摄像头捕获的校正后的立体图像对的左右视图，对于的重建视图区分为重建左视图和重建右视图；S2：将图像对和重建视图带入损失函数，得到的损坏函数值大，修改损失函数参数，不断训练，得到最小的损坏函数值，即确认网络架构，得到最初视差图；S3：带入以裁剪比λ裁剪的图像对至确认的网络架构，获取视差映射候选对象；S4：融合通过傅里叶域分析傅里叶域分析得到视差映射候选对象，估计深度并显示于显示设备上，其中，显示设备为显示屏、平板、电脑等具有显示功能的设备，通过上述步骤，可知本发明基于深度学习的网络架构和傅里叶域分析无监督单目图像估计深度学习算法，其有效提高了深度图精度和运动图像深度估计的精度，改进的网络架构，实现了在无监督的情况下只需要输入单张图像就可预测出图像深度图，提升了算法准确度和鲁棒性实现；

进一步的，提出的网络架构是基于Resnet-152改进而来(参考图2)，其中ResNet-152包括151个卷积层和1个全连接层，该网络被分成更小的块，每个块有三个卷积层，最后是批规格化层和线性单元修正层，在图3中，B_C表示的虚线框块内C是输出特征图中的通道数，原ResNet-152包含50个这样的区块，在此，修改了3个块，图3显示了修改后块的结构，其有一个用于中间特征提取的额外路径，用B'_C虚线框表示修改的块，其中C′是输出特征图中的通道数；

其中，KITTI数据集是国际上最大的自动驾驶场景下的计算机视觉算法评测数据集，该数据集用于评测立体图像(stereo)、光流(optical flow)、视觉测距(visualodometry)、3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能，KITTI包含市区、乡村和高速公路等场景采集的真实图像数据，每张图像中最多达15辆车和30个行人，还有各种程度的遮挡与截断，整个数据集由389对立体图像和光流图，39.2km视觉测距序列以及超过200k 3D标注物体的图像组成，以10Hz的频率采样及同步。

实施例2

参照图4，该实施例不同于第一个实施例的是：将图像对输入提出的网络架构中分别获取重建左视图和重建右视图；具体的，参见图1，其主体包括，S1：读取数据集里的图像对，将图像对输入提出的网络架构中获取重建视图，其中，数据集采用KITTI和Cityscapes数据集，而图像对区分为左视图I^l和右视图I^r，左视图I^l和右视图I^r为同一时间摄像头捕获的校正后的立体图像对的左右视图，对于的重建视图区分为重建左视图和重建右视图；S2：将图像对和重建视图带入损失函数，得到的损坏函数值大，修改损失函数参数，不断训练，得到最小的损坏函数值，即确认网络架构，得到最初视差图；S3：带入以裁剪比λ裁剪的图像对至确认的网络架构，获取视差映射候选对象；S4：融合通过傅里叶域分析傅里叶域分析得到视差映射候选对象，估计深度并显示于显示设备上，其中，显示设备为显示屏、平板、电脑等具有显示功能的设备，通过上述步骤，可知本发明基于深度学习的网络架构和傅里叶域分析无监督单目图像估计深度学习算法，其有效提高了深度图精度和运动图像深度估计的精度，改进的网络架构，实现了在无监督的情况下只需要输入单张图像就可预测出图像深度图的作用，大大提升算法准确度和鲁棒性实现；

参考图5，读取数据集里的图像对，将图像对输入提出的网络架构中获取重建视图的步骤包括：S111：读取数据集；S112：在数据集中获取右视图I^r和左视图I^l；S113：将左视图I^l作为输入图像，右视图I^r作为目标图像带入提出的网络架构内，获得右视差d^r；S114：利用左视图I^l和右视差d^r获得重建右视图

其中，重建右视图采用如下公式：

其中，参考图6，读取数据集里的图像对，将图像对输入提出的网络架构中获取重建左视图的步骤包括：S121：读取数据集；S122：在数据集中获取右视图I^r和左视图I^l；S123：将右视图I^r作为输入图像，左视图I^l作为目标图像带入提出的网络架构内，获得左视差d^l；S124：利用右视图I^r和左视差d^l获得重建左视图

其中，重建右视图采用如下公式：

需说明的是，视差就是从有一定距离的两个点上观察同一个目标所产生的方向差异，图像的深度和视差之间呈反比关系，参考图7，具体推算过程如下：

由相似三角形得：

其中，f表示焦距，L表示像平面长，B表示基线，Z表示深度，O^l，O^r表示左右相机，D＝(x^l-x^r)表示视差；

由(1)和(2)得，

由此可得，图像的深度和视差之间呈反比关系。

实施例3

参照图8，该实施例不同于以上实施例的是：将图像对和重建视图带入损失函数，训练并确认网络架构，得到最初视差图的步骤包括：S201：将右视图I^r、左视图I^l、重建右视图和重建左视图/>带入损失函数；S202：通过损失函数训练网络架构；S203：不断迭代，确认网络架构；S204：获得最初视差图。具体的，参见图1，其主体步骤重复实施2，将图像对和重建视图带入损失函数，训练并确认网络架构，得到最初视差图的步骤包括：S201：将右视图I^r、左视图I^l、重建右视图/>和重建左视图/>带入损失函数；S202：通过损失函数训练网络架构；S203：不断迭代，确认网络架构；S204：获得最初视差图；

进一步的，损失函数L_s采用如下公式：

其中，L_am是重建损失函数，用来训练图像重建损失，重建损失函数L_am区分为重建左视图损失函数和重建右视图损失函数/>L_ds是训练视差图的平滑性，每一项都包含左右图损失函数，将其一同纳入误差计算，L_ds区分为右视差平滑度损失函数/>和左视差平滑度损失函数/>α_am为1，α_ds为0.1；

而重建左视图损失函数采用如下公式：

其中，左视图和右视图结构相似性采用如下公式：

其中，β₁＝0.0448，β₂＝0.2856，β₃＝0.3001，β₄＝0.2363，γ＝β₅＝0.1333，是亮度对比因子，/>是对比度因子，/>是结构对比因子；类似的，重建右视图损失函数/>和重建左视图损失函数/>求取方式相同，在此不再重复叙述；

而左视差平滑度损失函数采用如下公式：

其中，表示左视差图像素点(i，j)在水平方向的梯度，/>表示左视差图像素点(i，j)在垂直方向的梯度，ε＝10^-8，N表示像素点个数；类似的，右视差平滑度损失函数/>和左视差平滑度损失函数/>求取方式相同，在此不再重复叙述。

实施例4

参照图9，该实施例不同于以上实施例的是：带入以裁剪比λ裁剪的图像对至确认的网络架构，获取视差映射候选对象的步骤包括，S301：将输入的左视图和右视图分别按照裁剪比λ裁剪到四个角；S302：确认的网络架构处理每个裁剪图像，得到相应的视差图；S303：将相应的视差图映射合并成视差映射候选对象；具体的，参见图1，其主体步骤重复实施3，而带入以裁剪比λ裁剪的图像对至确认的网络架构，获取视差映射候选对象的步骤包括，S310：将输入的左视图和右视图分别按照裁剪比λ裁剪到四个角，其中，裁剪比定义为裁剪后的图像与整个图像的大小比，而λ可为0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95和1，即左视图和右视图被分别裁剪成9张不同裁剪比的图像；S320：确认的网络架构处理每个裁剪图像，得到相应的视差图；S330：将相应的视差图映射合并成视差映射候选对象；

其中，将相应的视差图映射合并成视差映射候选对象的步骤包括：S331：相应视差图的视差值按1/λ的倍数缩放，以补偿裁剪后的图像中物体看起来更近的缩放效果；S332：将部分视差图转换至原位置并叠加，对重叠区域进行平均；S333：水平翻转输入的左右视图，得到裁剪比为λ的视差映射候选对象，并翻转视差映射候选对象，其中，让表示合成左、右视差图的候选，当λ＝1,/>的获得仅仅是通过CNN处理整个输入左、右视图，由于CNN参数不是对称的，翻转后的图像不会产生翻转后的视差图，因此，水平翻转输入的左右视图，得到裁剪比为λ的视差映射候选对象，并翻转视差映射候选对象，分别用表示。

实施例5

该实施例不同于以上实施例的是：融合视差映射候选对象采用傅里叶频域分析方法进行融合；具体的，参见图1，其主体步骤重复实施4，而融合视差映射候选对象采用傅里叶频域分析方法进行融合，估计深度采用如下公式：

其中，f为相机的焦距，b为给定相机间的基线，d为估计视差图；

进一步的，深度映射的剪切比λ越大，它的整幅图的视差分布就越可靠，而小λ评估局部细节则更准确，利用这些互补性质，在傅里叶频域中结合了视差映射候选项，需注意，总体分布和局部细节分别对应于低频和高频系数，一个大小为M×N的输入信号I(x,y)的离散傅里叶变换(DFT)y为：

其中，u和v是水平频率和垂直频率，对每个视差映射候选项进行变换，并将2D-DFT系数重新排列成列向量，在重排过程中，去掉了两种冗余，首先，DFT是周期性的，F(u,v)＝F(u+Nk,v+Ml)，k,l∈Z；第二，由于视差图是真实的，其的DFT共轭对称的，例如，F(u,v)＝F*(-u,-v)，让和/>分别表示第m个左视差映射候选重排DFT矢量和重建左视差映射候选重排DFT矢量，其中，/>的计算公式为/> 表示利用第m个右视差得出第m个重建左视差图，计算公式为/>让/>代表所有候选综合的左视差映射的DFT向量，/>分别代表/>中的第k个系数，用如下的式子来获取：

其中为加权参数，/>为偏差，M为左视图映射候选的个数；

首先，偏差定义为左右视差一致性检测的平均偏差，因此，使用训练数据集来决定偏差：

其中，t为训练图像的索引，T为训练数据集中的图像总数，同时,和/>分别表示对于第t个图像的/>和/>

其次，确定权重参数以减小/>和/>之间的均方误差(MSE)，然后，均方误差最小化问题是找到最优权向量/>对所有k重复这个过程以确定所有的权值和偏置参数；

在测试中，把多个视差候选图的DFT向量通过式(3)结合到最终评估的然后，通过傅里叶反变换生成最终值得指出的是由于Parseval定理，在频域减小均方误差相当于在空间域减小均方误差；

本发明利用物理方法与深度学习相结合，改进出一个网络架构；分别输入左右视图，在训练时把预测图像深度过程看成一个图像重建的问题；本文提出的卷积网络不需要深度数据，而是用合成深度作为一个中间产物，进而实现了无监督单目图像深度估计算法。

实施例6

对本方法中采用的技术效果加以验证说明，本实施例选择的不同方法和采用本方法进行对比测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果；

传统的技术方案：这些方法都需要大量的且有高质量，像素对齐的地面真实深度图，存在高成本，长耗时以及预测精度较低的问题；

为验证本方法相对传统方法具有较高深度图预测精度，且不需要高成本的真实深度图，本模型可以很好地捕获图像中的总体场景布局和对象，例如汽车，道路标志和行人；

本实施例中将采用传统的有监督单目图像深度预测和无监督视频深度预测方法和本方法分别对预测图片深度值的预测准确率和误差进行实时测量对比；

测试环境：将室外场景图片运行在本方法实验训练出的卷积神经网络模型进行测试，采用Eigen等人提出的KITTI数据集697幅图像的测试分割测试样本，总共覆盖了29个场景，剩下的32个场景包含23488张图像，分别利用传统方法的人工操作进行转向角测试并获得测试结果数据；采用本方法，则开启自动化测试设备并运用Linux+CUDA9.0+CUDNN7.0+Tensorflow1.8.0的搭建环境实现本方法的仿真测试，根据实验结果得到仿真数据；

每种方法各测试5组数据，计算获得每组数据图片的预测深度值，与仿真模拟输入的实际地面真实深度值进行对比计算误差，结果如下表所示；

通过实验数据的对比证明本方法的预测图像深度图的准确度最高，各项误差最小，从定量和定性两方面对所提出的模型进行验证；

在地面真实深度图(GT)已插值为可视化，可视化对比结果如图10所示，结果显示，本方法对车辆、行人，草木和交通标志等对象的预测更清晰；本网

络架构不需要任何的地面真实深度数据，而是将深度作为一个中间值进行迭代训练，它学会预测具有已知相机基线的校正立体图像对之间的像素对的视差关系；

为了证明提出方法的有效性，在KITTI数据集上训练得到的模型用来测试其他数据集；图11显示了本方法在Cityscapes数据集上用于单眼深度估计的模型的定性结果；本方法的模型可以很好地捕获图像中的总体场景布局和对象，例如汽车，道路标志和行人；对来自NYUDv2室内数据集的图像的结果(见图12)，图中表明我们的模型能够较好地捕捉到桌子，椅子和床等物体。

重要的是，应注意，在多个不同示例性实施方案中示出的本申请的构造和布置仅是例示性的。尽管在此公开内容中仅详细描述了几个实施方案，但参阅此公开内容的人员应容易理解，在实质上不偏离该申请中所描述的主题的新颖教导和优点的前提下，许多改型是可能的(例如，各种元件的尺寸、尺度、结构、形状和比例、以及参数值(例如，温度、压力等)、安装布置、材料的使用、颜色、定向的变化等)。例如，示出为整体成形的元件可以由多个部分或元件构成，元件的位置可被倒置或以其它方式改变，并且分立元件的性质或数目或位置可被更改或改变。因此，所有这样的改型旨在被包含在本发明的范围内。可以根据替代的实施方案改变或重新排序任何过程或方法步骤的次序或顺序。在权利要求中，任何“装置加功能”的条款都旨在覆盖在本文中所描述的执行所述功能的结构，且不仅是结构等同而且还是等同结构。在不背离本发明的范围的前提下，可以在示例性实施方案的设计、运行状况和布置中做出其他替换、改型、改变和省略。因此，本发明不限制于特定的实施方案，而是扩展至仍落在所附的权利要求书的范围内的多种改型。

此外，为了提供示例性实施方案的简练描述，可以不描述实际实施方案的所有特征(即，与当前考虑的执行本发明的最佳模式不相关的那些特征，或于实现本发明不相关的那些特征)。

应理解的是，在任何实际实施方式的开发过程中，如在任何工程或设计项目中，可做出大量的具体实施方式决定。这样的开发努力可能是复杂的且耗时的，但对于那些得益于此公开内容的普通技术人员来说，不需要过多实验，所述开发努力将是一个设计、制造和生产的常规工作。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度学习和傅里叶域分析的图像深度估计方法，其特征在于，包括：

带入以裁剪比λ裁剪的图像对至确认的网络架构，获取视差映射候选对象；以及，融合视差映射候选对象，估计深度并显示于显示设备上；

其中，所述图像对区分为左视图和右视图，所述重建视图区分为重建左视图和重建右视图；

所述读取数据集里的图像对，将图像对输入提出的网络架构中获取重建右视图的步骤包括：

读取数据集；

获取右视图I^r和左视图I^l；

利用左视图I^l和右视差d^r获得重建右视图

其中，重建右视图采用如下公式：

所述读取数据集里的图像对，将图像对输入提出的网络架构中获取重建左视图的步骤包括：

读取数据集；

获取右视图I^r和左视图I^l；

利用右视图I^r和左视差d^l获得重建左视图

其中，重建右视图采用如下公式：

所述将图像对和重建视图带入损失函数，训练并确认网络架构，得到最初视差图的步骤包括：

通过损失函数训练网络架构；

不断迭代，确认网络架构；

获得最初视差图；

所述损失函数L_s采用如下公式：

其中，L_am是重建损失函数，重建损失函数L_am区分为重建左视图损失函数和重建右视图损失函数/>L_ds是训练视差图的平滑性，L_ds区分为右视差平滑度损失函数/>和左视差平滑度损失函数/>α_am为1，α_ds为0.1；

所述重建左视图损失函数采用如下公式：

其中，左视图和右视图结构相似性采用如下公式：

2.如权利要求1所述的基于深度学习和傅里叶域分析的图像深度估计方法，其特征在于：左视差平滑度损失函数采用如下公式：

3.如权利要求2所述的基于深度学习和傅里叶域分析的图像深度估计方法，其特征在于：带入以裁剪比λ裁剪的图像对至确认的网络架构，获取视差映射候选对象的步骤包括：

将输入的左视图和右视图分别按照裁剪比λ裁剪到四个角；

确认的网络架构处理每个裁剪图像，得到相应的视差图；

将相应的视差图映射合并成视差映射候选对象；

其中，λ为0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95或1。

4.如权利要求3所述的基于深度学习和傅里叶域分析的图像深度估计方法，其特征在于：所述将相应的视差图映射合并成视差映射候选对象的步骤包括：

相应视差图的视差值按1/λ的倍数缩放；

将部分视差图转换至原位置并叠加，对重叠区域进行平均；

5.如权利要求4所述的基于深度学习和傅里叶域分析的图像深度估计方法，其特征在于：融合视差映射候选对象采用傅里叶频域分析方法进行融合，所述估计深度采用如下公式：