CN111833390B - 一种基于无监督深度学习的光场深度估计方法 - Google Patents

一种基于无监督深度学习的光场深度估计方法 Download PDF

Info

Publication number
CN111833390B
CN111833390B CN202010581570.XA CN202010581570A CN111833390B CN 111833390 B CN111833390 B CN 111833390B CN 202010581570 A CN202010581570 A CN 202010581570A CN 111833390 B CN111833390 B CN 111833390B
Authority
CN
China
Prior art keywords
sub
light field
aperture image
image
aperture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010581570.XA
Other languages
English (en)
Other versions
CN111833390A (zh
Inventor
周文晖
燕雨祥
洪勇杰
张桦
戴国骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202010581570.XA priority Critical patent/CN111833390B/zh
Publication of CN111833390A publication Critical patent/CN111833390A/zh
Application granted granted Critical
Publication of CN111833390B publication Critical patent/CN111833390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10052Images from lightfield camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于无监督深度学习的光场深度估计方法。本发明设计了无监督损失函数;同时从光场图像中提取一组3×3排列的子光圈图像作为光场深度估计网络的输入,输出中心子光圈图像的视差图,实现端到端的训练。步骤S1.准备光场数据集,制作训练集和测试集;步骤S2.搭建无监督光场深度估计网络;步骤S3.设计无监督光场深度估计损失函数;步骤S4.使用训练集训练无监督光场深度估计网络;本发明通过使用本发明自主搭建的网络结构以及损失函数,在海德堡图像处理实验室提供的4D光场数据集评测网站上,可以获得优于其它无监督深度估计方法的精度。

Description

一种基于无监督深度学习的光场深度估计方法
技术领域
本发明属于深度学习和计算摄影学领域,特别涉及基于无监督深度学习的光场深度估计方法。
背景技术
深度学习是近年来人工智能领域中的热点技术,已在图像处理、计算机视觉、自然语言处理等多个方向取得了突破性进展。卷积神经网络是深度学习网络的主要结构之一,它利用卷积层从输入数据中提取低层到高层的语义特征,然后利用这些特征完成分类、回归等任务。相比于传统机器学习方法。深度学习的主要步骤包括:构建训练数据集、设计卷积层、全连接层、激活函数等深度学习网络结构和参数,定义损失函数;利用误差反向传播机制和梯度下降优化算法更新神经网络的权重值,从而实现深度学习网络的训练过程。训练完成的深度学习网络模型可以拟合出某个高维复杂函数,可实现从输入到输出的映射;利用训练完成的深度学习网络模型在测试数据集上进行预测。
与此同时,光场成像与计算是近年来计算摄影学领域中的一门新兴技术。光场相机通过在相机主透镜和图像传感器之间增加一个微透镜阵列,可记录汇聚在图像传感器像素上各入射方向的光线强度,形成四维光场成像。光场成像为突破传统成像模型的维度局限提供了新思路和新方法。利用四维光场提供的空间-时间信息,可实现单帧光场恢复场景结构(深度)信息。光场深度估计研究已获得了越来越多的关注。利用光场成像几何中的外极线图,焦距栈以及角度信息等特性,已提出了许多基于光场几何特性的光场深度估计方法。这些方法通常基于光度一致性、外极线线性约束等假定,但在真实光场成像中不可避免地受到畸变、噪声等各种因素影响。
利用深度学习提取深度线索和深度特征具有更好的鲁棒性,近年来基于有监督深度学习的光场深度估计方法取得了显著成功。但是有监督深度学习方法的性能严重依赖于已知真实深度图的光场数据集质量和数量。由于光场成像的复杂性,光场成像时的已知真实深度信息获取困难,尤其是真实场景下的光场成像。用于光场深度估计的现有光场数据集都是由三维绘制软件合成得到。在合成的光场数据集下完成的深度学习模型,在真实场景下的泛化表现难以令人满意。针对上述问题,我们提出了一种基于无监督深度学习的光场深度估计方法,它能够在不提供真实深度信息的情况下进行无监督学习。
发明内容
本发明的目的是针对现有技术的不足,设计了一种基于无监督深度学习的光场深度估计方法,同时设计了无监督损失函数。从光场图像中提取一组3×3排列的子光圈图像作为光场深度估计网络的输入,输出中心子光圈图像的视差图,实现端到端的训练。
进一步的,该方法需准备光场数据集,制作训练集和测试集,具体实现如下:
步骤S1-1:根据双平面表示方法,光场图像定义为LF(u,v,s,t,c),其中(u,v)为光场角度坐标,(s,t)是光场空间坐标,c为颜色通道,u的取值范围为[-U,U],v的取值范围为[-V,V],s的取值范围为[0,W-1],t的取值范围为[0,H-1],则光场图像包含了一组(2U+1)×(2V+1)排列的子光圈图像阵列;光场角度坐标为(u,v)的子光圈图像表示为LF(u,v)(s,t,c),中心子光圈图像表示为LF(0,0)(s,t,c),每个子光圈图像大小为W×H;
步骤S1-2:使用海德堡图像处理实验室提供的4D光场数据集作为实验数据集,该数据集包含28个场景的光场图像,并提供了高精度的视差和性能评估指标;将其中16幅光场图像用于制作训练集,剩余12幅光场图像用于制作测试集;
步骤S1-3:从光场图像的子光圈图像阵列中提取0°、45°、90°、135°、180°、225°、270°和315°方向的最外圈子光圈图像,与中心子光圈图像一起构成一个3×3排列的稀疏子光圈图像阵列;具体如图2所示,所提取子光圈图像为LF(0,0)(s,t,c)、LF(-U,-V)(s,t,c)、LF(0,-V)(s,t,c)、LF(U,-V)(s,t,c)、LF(-U,0)(s,t,c)、LF(U,0)(s,t,c)、LF(-U,V)(s,t,c)、LF(0,V)(s,t,c)和LF(U,V)(s,t,c)。
进一步的,该方法需搭建无监督光场深度估计网络,所述的无监督光场深度估计网络由两个子网络组成,分别是视差估计子网络和视差优化子网络:
步骤S2-1:所述的视差估计子网络采用与UnsupervisedNet相同的网络结构;所述的视差估计子网络以步骤1-3中提取的3×3排列的稀疏子光圈图像阵列作为输入,输出为中心子光圈图像的初始视差图disp0
步骤S2-2:所述的视差优化子网络以初始视差图disp0和中心子光圈图像的灰度图作为输入,输出优化后的中心子光圈图像视差图disp1
优化后的中心子光圈图像视差图disp1计算公式为:
disp1=disp0disp (1)
进一步的,所述的视差优化子网络,具体如下:
首先将disp0和中心子光圈图像的灰度图在深度通道上进行堆叠,得到大小为2×W×H×1的张量,作为视差优化子网络中第1个卷积层的输入;
第1个卷积层使用1个卷积核为2×3×3,步长为1×1×1的卷积,对输入进行特征提取,再使用ReLU函数对提取的特征图进行激活;第1个卷积层的输出为2×W×H×1的特征图Ⅰ;
第2个卷积层使用16个卷积核为2×3×3,步长为1×1×1的卷积,对第1个卷积层的输出特征图Ⅰ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第2个卷积层的输出为2×W×H×16的特征图Ⅱ;
第3个卷积层使用32个卷积核为2×3×3,步长为1×1×1的卷积,对第2个卷积层的输出特征图Ⅱ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第3个卷积层的输出为2×W×H×32的特征图Ⅲ;
第4卷积层使用16个卷积核为2×3×3,步长为1×1×1的卷积,对第3个卷积层的输出特征图Ⅲ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第4个卷积层的输出为2×W×H×16的特征图Ⅳ;
第5卷积层使用16个卷积核为2×3×3,步长为2×1×1的卷积,对第4个卷积层的输出特征图Ⅳ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第5个卷积层的输出为1×W×H×16的特征图Ⅴ;
第6卷积层使用1个卷积核为3×3,步长为1×1的卷积,对第5个卷积层的输出特征图Ⅴ进行特征提取,再使用Sigmoid函数对提取特征图进行激活;第6个卷积层的输出为视差残差图δdisp,大小为W×H×1。
进一步的,无监督光场深度估计损失函数由光度一致性损失、角度熵损失和散焦损失三部分构成;具体实现如下:
步骤S3-1:根据视差估计子网络的输出初始视差图disp0,将光场图像中的所有子光圈图像分别投影到中心子光圈,合成一组新的中心子光圈图像;所述的投影过程具体为:
对于一幅子光圈图像LF(u,v)(s,t,c),根据投影公式合成出一幅新的中心子光圈图像LF′(u,v)(s,t,c);所述的投影公式为:
LF′(u,v)(s,t,c)=LF(u,v)(s+u·disp0,t+v·disp0,c) (2)
步骤S3-2:根据视差优化子网络的输出disp1,将光场图像中的子光圈图像投影到中心子光圈,合成一组新的中心子光圈图像;所述的投影过程具体为:
对于一幅子光圈图像LF(u,v)(s,t,c),根据投影公式合成出一幅新的中心子光圈图像LF″(u,v)(s,t,c);所述的投影公式为:
LF″(u,v)(s,t,c)=LF(u,v)(s+u·disp1,t+v·disp1,c) (3)
步骤S3-3:根据合成的中心子光圈图像LF′(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算光度一致性损失Lp0,具体公式为:
Figure BDA0002552502440000051
其中β为权重,通常取值为0.8;SSIM(·)为两幅图像的结构相似性计算函数,其计算方法为成熟方法;L′SSIM(u,v)是指投影后的中心子光圈图像LF′(u,v)(s,t,c)与中心子光圈图像之间的结构相似度差异;L′SAD(u,v)是指投影后的中心子光圈图像LF′(u,v)(s,t,c)与中心子光圈图像之间的L1距离;
步骤S3-4:根据合成的中心子光圈图像LF″(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算光度一致性损失Lp1,具体公式为:
Figure BDA0002552502440000052
步骤S3-5:根据合成的中心子光圈图像LF′(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算角度熵损失Le0,具体公式为:
Figure BDA0002552502440000053
其中w为常数,通常取值0.5;σ为常数,通常取值0.5;h′(u,v)(s,t,c),g′(u,v)(s,t,c)和L′e(u,v)为计算角度熵损失Le0的中间结果;
步骤S3-6:根据合成的中心子光圈图像LF″(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算角度熵损失Le1,具体公式为:
Figure BDA0002552502440000061
其中w为常数通常取值0.5,σ为常数,通常取值0.5;h″(u,v)(s,t,c),g″(u,v)(s,t,c)和L″e(u,v)为计算角度熵损失Le1的中间结果;
步骤S3-7:根据合成的中心子光圈图像LF′(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算散焦损失Ld0,具体公式为:
Figure BDA0002552502440000062
其中d′(u,v)和L′d(u,v)为计算散焦损失Ld0的中间结果;
步骤S3-8:根据合成的中心子光圈图像LF″(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算散焦损失Ld1,具体公式为:
Figure BDA0002552502440000063
其中d″(u,v)和L″d(u,v)为计算散焦损失Ld1的中间结果;
步骤S3-9:无监督光场深度估计损失函数为:
Ltotal=Lp0+Lp1+Le0+Le1+Ld0+Ld1 (10)
进一步的,该方法需要使用训练集训练无监督光场深度估计网络,具体:通过步骤S1得到的训练集,送入步骤S2中搭建的无监督光场深度估计网络,根据步骤S3中设计的无监督光场深度估计损失函数Ltotal,采用Adam优化算法进行无监督光场深度估计网络的无监督训练,网络迭代优化70000次,获取到最终的模型结果;并使用测试集对模型结果进行测试。本发明有益效果如下:
本发明提出了一个用于多视点无监督深度估计的解决方案。
通过使用本发明自主搭建的网络结构以及损失函数,在海德堡图像处理实验室提供的4D光场数据集评测网站上,可以获得优于其它无监督深度估计方法的精度。
附图说明
图1为本发明采取的技术方案流程示意图。
图2为从光场图像中提取一个3×3排列的稀疏子光圈图像阵列
图3为本发明的网络流程图及损失函数结构示意图;
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
如图1-3所示,一种基于无监督深度学习的光场深度估计方法,设计了无监督损失函数。从光场图像中提取一组3×3排列的子光圈图像作为光场深度估计网络的输入,输出中心子光圈图像的视差图,实现端到端的训练。
本发明采取的技术方案具体如图1所示,包括如下步骤:
步骤S1.准备光场数据集,制作训练集和测试集;
步骤S2.搭建无监督光场深度估计网络;
步骤S3.设计无监督光场深度估计损失函数;
步骤S4.使用训练集训练无监督光场深度估计网络;
所述步骤S1具体包括下述步骤:
步骤S1-1:根据双平面表示方法,光场图像定义为LF(u,v,s,t,c),其中(u,v)为光场角度坐标,(s,t)是光场空间坐标,c为颜色通道,u的取值范围为[-U,U],v的取值范围为[-V,V],s的取值范围为[0,W-1],t的取值范围为[0,H-1],则光场图像包含了一组(2U+1)×(2V+1)排列的子光圈图像阵列。光场角度坐标为(u,v)的子光圈图像表示为LF(u,v)(s,t,c),中心子光圈图像表示为LF(0,0)(s,t,c),每个子光圈图像大小为W×H。
步骤S1-2:使用海德堡图像处理实验室提供的4D光场数据集作为实验数据集,该数据集包含28个场景的光场图像,并提供了高精度的视差和性能评估指标。将其中16幅光场图像用于制作训练集,剩余12幅光场图像用于制作测试集。
步骤S1-3:从光场图像的子光圈图像阵列中提取0°、45°、90°、135°、180°、225°、270°和315°方向的最外圈子光圈图像,与中心子光圈图像一起构成一个3×3排列的稀疏子光圈图像阵列。具体如图2所示,所提取子光圈图像为LF(0,0)(s,t,c)、LF(-U,-V)(s,t,c)、LF(0,-V)(s,t,c)、LF(U,-V)(s,t,c)、LF(-U,0)(s,t,c)、LF(U,0)(s,t,c)、LF(-U,V)(s,t,c)、LF(0,V)(s,t,c)和LF(U,V)(s,t,c)。
所述步骤S2具体实现如下:
所述的无监督光场深度估计网络由两个子网络组成,分别是视差估计子网络和视差优化子网络,具体如图3所示。
步骤S2-1:所述的视差估计子网络采用与UnsupervisedNet相同的网络结构。所述的视差估计子网络以步骤1-3中提取的3×3排列的稀疏子光圈图像阵列作为输入,输出为中心子光圈图像的初始视差图disp0
步骤S2-2:所述的视差优化子网络以初始视差图disp0和中心子光圈图像的灰度图作为输入,输出优化后的中心子光圈图像视差图disp1
所述视差优化子网络由6个卷积层组成,具体如表1:
Figure BDA0002552502440000081
Figure BDA0002552502440000091
所述的视差优化子网络,具体如下:
首先将disp0和中心子光圈图像的灰度图在深度通道上进行堆叠,得到大小为2×W×H×1的张量,作为视差优化子网络中第1个卷积层的输入。
第1个卷积层使用1个卷积核为2×3×3,步长为1×1×1的卷积,对输入进行特征提取,再使用ReLU函数对提取的特征图进行激活;第1个卷积层的输出为2×W×H×1的特征图Ⅰ。
第2个卷积层使用16个卷积核为2×3×3,步长为1×1×1的卷积,对第1个卷积层的输出特征图Ⅰ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第2个卷积层的输出为2×W×H×16的特征图Ⅱ。
第3个卷积层使用32个卷积核为2×3×3,步长为1×1×1的卷积,对第2个卷积层的输出特征图Ⅱ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第3个卷积层的输出为2×W×H×32的特征图Ⅲ。
第4卷积层使用16个卷积核为2×3×3,步长为1×1×1的卷积,对第3个卷积层的输出特征图Ⅲ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第4个卷积层的输出为2×W×H×16的特征图Ⅳ。
第5卷积层使用16个卷积核为2×3×3,步长为2×1×1的卷积,对第4个卷积层的输出特征图Ⅳ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第5个卷积层的输出为1×W×H×16的特征图Ⅴ。
第6卷积层使用1个卷积核为3×3,步长为1×1的卷积,对第5个卷积层的输出特征图Ⅴ进行特征提取,再使用Sigmoid函数对提取特征图进行激活;第6个卷积层的输出为视差残差图δdisp,大小为W×H×1。
优化后的中心子光圈图像视差图disp1计算公式为:
disp1=disp0disp (1)
所述步骤S3中的无监督光场深度估计损失函数由光度一致性损失、角度熵损失和散焦损失三部分构成。具体实现如下:
步骤S3-1:根据视差估计子网络的输出初始视差图disp0,将光场图像中的所有子光圈图像分别投影到中心子光圈,合成一组新的中心子光圈图像。所述的投影过程具体为:
对于一幅子光圈图像LF(u,v)(s,t,c),根据投影公式合成出一幅新的中心子光圈图像LF′(u,v)(s,t,c)。所述的投影公式为:
LF′(u,v)(s,t,c)=LF(u,v)(s+u·disp0,t+v·disp0,c) (2)
步骤S3-2:根据视差优化子网络的输出disp1,将光场图像中的子光圈图像投影到中心子光圈,合成一组新的中心子光圈图像。所述的投影过程具体为:
对于一幅子光圈图像LF(u,v)(s,t,c),根据投影公式合成出一幅新的中心子光圈图像LF″(u,v)(s,t,c)。所述的投影公式为:
LF″(u,v)(s,t,c)=LF(u,v)(s+u·disp1,t+v·disp1,c) (3)
步骤S3-3:根据合成的中心子光圈图像LF′(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算光度一致性损失Lp0,具体公式为:
Figure BDA0002552502440000101
其中β为权重,通常取值为0.8。SSIM(·)为两幅图像的结构相似性计算函数,其计算方法为成熟方法;L′SSIM(u,v)是指投影后的中心子光圈图像LF′(u,v)(s,t,c)与中心子光圈图像之间的结构相似度差异;L′SAD(u,v)是指投影后的中心子光圈图像LF′(u,v)(s,t,c)与中心子光圈图像之间的L1距离。
步骤S3-4:根据合成的中心子光圈图像LF″(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算光度一致性损失Lp1,具体公式为:
Figure BDA0002552502440000111
步骤S3-5:根据合成的中心子光圈图像LF′(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算角度熵损失Le0,具体公式为:
Figure BDA0002552502440000112
其中w为常数,通常取值0.5;σ为常数,通常取值0.5。h′(u,v)(s,t,c),g′(u,v)(s,t,c)和L′e(u,v)为计算角度熵损失Le0的中间结果。
步骤S3-6:根据合成的中心子光圈图像LF″(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算角度熵损失Le1,具体公式为:
Figure BDA0002552502440000113
其中w为常数通常取值0.5,σ为常数,通常取值0.5。h″(u,v)(s,t,c),g″(u,v)(s,t,c)和L″e(u,v)为计算角度熵损失Le1的中间结果。
步骤S3-7:根据合成的中心子光圈图像LF′(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算散焦损失Ld0,具体公式为:
Figure BDA0002552502440000121
其中d′(u,v)和L′d(u,v)为计算散焦损失Ld0的中间结果。
步骤S3-8:根据合成的中心子光圈图像LF″(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算散焦损失Ld1,具体公式为:
Figure BDA0002552502440000122
其中d″(u,v)和L″d(u,v)为计算散焦损失Ld1的中间结果。
步骤S3-9:无监督光场深度估计损失函数为:
Ltotal=Lp0+Lp1+Le0+Le1+Ld0+Ld1 (10)
所述步骤S4具体如下所示:
通过步骤S1得到的训练集,送入步骤S2中搭建的无监督光场深度估计网络,根据步骤S3中设计的无监督光场深度估计损失函数Ltotal,采用Adam优化算法进行无监督光场深度估计网络的无监督训练,网络迭代优化70000次,获取到最终的模型结果。并使用测试集对模型结果进行测试
所述Adam优化算法为成熟算法。

Claims (2)

1.一种基于无监督深度学习的光场深度估计方法,其特征在于设计了无监督损失函数;同时从光场图像中提取一组3×3排列的子光圈图像作为光场深度估计网络的输入,输出中心子光圈图像的视差图,实现端到端的训练;
该方法需准备光场数据集,制作训练集和测试集,具体实现如下:
步骤S1-1:根据双平面表示方法,光场图像定义为LF(u,v,s,t,c),其中(u,v)为光场角度坐标,(s,t)是光场空间坐标,c为颜色通道,u的取值范围为[-U,U],v的取值范围为[-V,V],s的取值范围为[0,W-1],t的取值范围为[0,H-1],则光场图像包含了一组(2U+1)×(2V+1)排列的子光圈图像阵列;光场角度坐标为(u,v)的子光圈图像表示为LF(u,v)(s,t,c),中心子光圈图像表示为LF(0,0)(s,t,c),每个子光圈图像大小为W×H;
步骤S1-2:使用海德堡图像处理实验室提供的4D光场数据集作为实验数据集,该数据集包含28个场景的光场图像,并提供了高精度的视差和性能评估指标;将其中16幅光场图像用于制作训练集,剩余12幅光场图像用于制作测试集;
步骤S1-3:从光场图像的子光圈图像阵列中提取0°、45°、90°、135°、180°、225°、270°和315°方向的最外圈子光圈图像,与中心子光圈图像一起构成一个3×3排列的稀疏子光圈图像阵列;所提取子光圈图像为LF(0,0)(s,t,c)、LF(-U,-V)(s,t,c)、LF(0,-V)(s,t,c)、LF(U,-V)(s,t,c)、LF(-U,0)(s,t,c)、LF(U,0)(s,t,c)、LF(-U,V)(s,t,c)、LF(0,V)(s,t,c)和LF(U,V)(s,t,c);
该方法需搭建无监督光场深度估计网络,所述的无监督光场深度估计网络由两个子网络组成,分别是视差估计子网络和视差优化子网络:
步骤S2-1:所述的视差估计子网络采用与UnsupervisedNet相同的网络结构;所述的视差估计子网络以步骤1-3中提取的3×3排列的稀疏子光圈图像阵列作为输入,输出为中心子光圈图像的初始视差图disp0
步骤S2-2:所述的视差优化子网络以初始视差图disp0和中心子光圈图像的灰度图作为输入,输出优化后的中心子光圈图像视差图disp1
优化后的中心子光圈图像视差图disp1计算公式为:
disp1=disp0disp (1)
所述的视差优化子网络,具体如下:
首先将disp0和中心子光圈图像的灰度图在深度通道上进行堆叠,得到大小为2×W×H×1的张量,作为视差优化子网络中第1个卷积层的输入;
第1个卷积层使用1个卷积核为2×3×3,步长为1×1×1的卷积,对输入进行特征提取,再使用ReLU函数对提取的特征图进行激活;第1个卷积层的输出为2×W×H×1的特征图Ⅰ;
第2个卷积层使用16个卷积核为2×3×3,步长为1×1×1的卷积,对第1个卷积层的输出特征图Ⅰ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第2个卷积层的输出为2×W×H×16的特征图Ⅱ;
第3个卷积层使用32个卷积核为2×3×3,步长为1×1×1的卷积,对第2个卷积层的输出特征图Ⅱ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第3个卷积层的输出为2×W×H×32的特征图Ⅲ;
第4卷积层使用16个卷积核为2×3×3,步长为1×1×1的卷积,对第3个卷积层的输出特征图Ⅲ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第4个卷积层的输出为2×W×H×16的特征图Ⅳ;
第5卷积层使用16个卷积核为2×3×3,步长为2×1×1的卷积,对第4个卷积层的输出特征图Ⅳ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第5个卷积层的输出为1×W×H×16的特征图Ⅴ;
第6卷积层使用1个卷积核为3×3,步长为1×1的卷积,对第5个卷积层的输出特征图Ⅴ进行特征提取,再使用Sigmoid函数对提取特征图进行激活;第6个卷积层的输出为视差残差图δdisp,大小为W×H×1;
无监督光场深度估计损失函数由光度一致性损失、角度熵损失和散焦损失三部分构成;具体实现如下:
步骤S3-1:根据视差估计子网络的输出初始视差图disp0,将光场图像中的所有子光圈图像分别投影到中心子光圈,合成一组新的中心子光圈图像;所述的投影过程具体为:
对于一幅子光圈图像LF(u,v)(s,t,c),根据投影公式合成出一幅新的中心子光圈图像LF′(u,v)(s,t,c);所述的投影公式为:
LF′(u,v)(s,t,c)=LF(u,v)(s+u·disp0,t+v·disp0,c) (2)
步骤S3-2:根据视差优化子网络的输出disp1,将光场图像中的子光圈图像投影到中心子光圈,合成一组新的中心子光圈图像;所述的投影过程具体为:
对于一幅子光圈图像LF(u,v)(s,t,c),根据投影公式合成出一幅新的中心子光圈图像LF″(u,v)(s,t,c);所述的投影公式为:
LF″(u,v)(s,t,c)=LF(u,v)(s+u·disp1,t+v·disp1,c) (3)
步骤S3-3:根据合成的中心子光圈图像LF′(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算光度一致性损失Lp0,具体公式为:
Figure FDA0004143169770000031
其中β为权重,取值为0.8;SSIM(·)为两幅图像的结构相似性计算函数,其计算方法为成熟方法;L′SSIM(u,v)是指投影后的中心子光圈图像LF′(u,v)(s,t,c)与中心子光圈图像之间的结构相似度差异;L′SAD(u,v)是指投影后的中心子光圈图像LF′(u,v)(s,t,c)与中心子光圈图像之间的L1距离;
步骤S3-4:根据合成的中心子光圈图像LF″(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算光度一致性损失Lp1,具体公式为:
Figure FDA0004143169770000041
步骤S3-5:根据合成的中心子光圈图像LF′(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算角度熵损失Le0,具体公式为:
Figure FDA0004143169770000042
其中w为常数,取值0.5;σ为常数,取值0.5;h′(u,v)(s,t,c),g′(u,v)(s,t,c)和L′e(u,v)为计算角度熵损失Le0的中间结果;
步骤S3-6:根据合成的中心子光圈图像LF″(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算角度熵损失Le1,具体公式为:
Figure FDA0004143169770000043
其中w为常数,取值0.5,σ为常数,取值0.5;h″(u,v)(s,t,c),g″(u,v)(s,t,c)和L″e(u,v)为计算角度熵损失Le1的中间结果;
步骤S3-7:根据合成的中心子光圈图像LF′(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算散焦损失Ld0,具体公式为:
Figure FDA0004143169770000051
其中d′(u,v)和L′d(u,v)为计算散焦损失Ld0的中间结果;
步骤S3-8:根据合成的中心子光圈图像LF″(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算散焦损失Ld1,具体公式为:
Figure FDA0004143169770000052
其中d″(u,v)和L″d(u,v)为计算散焦损失Ld1的中间结果;
步骤S3-9:无监督光场深度估计损失函数为:
Ltotal=Lp0+Lp1+Le0+Le1+Ld0+Ld1 (10)。
2.根据权利要求1所述的一种基于无监督深度学习的光场深度估计方法,其特征在于该方法需要使用训练集训练无监督光场深度估计网络,具体:通过步骤S1得到的训练集,送入步骤S2中搭建的无监督光场深度估计网络,根据步骤S3中设计的无监督光场深度估计损失函数Ltotal,采用Adam优化算法进行无监督光场深度估计网络的无监督训练,网络迭代优化70000次,获取到最终的模型结果;并使用测试集对模型结果进行测试。
CN202010581570.XA 2020-06-23 2020-06-23 一种基于无监督深度学习的光场深度估计方法 Active CN111833390B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010581570.XA CN111833390B (zh) 2020-06-23 2020-06-23 一种基于无监督深度学习的光场深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010581570.XA CN111833390B (zh) 2020-06-23 2020-06-23 一种基于无监督深度学习的光场深度估计方法

Publications (2)

Publication Number Publication Date
CN111833390A CN111833390A (zh) 2020-10-27
CN111833390B true CN111833390B (zh) 2023-06-20

Family

ID=72898021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010581570.XA Active CN111833390B (zh) 2020-06-23 2020-06-23 一种基于无监督深度学习的光场深度估计方法

Country Status (1)

Country Link
CN (1) CN111833390B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117409058B (zh) * 2023-12-14 2024-03-26 浙江优众新材料科技有限公司 一种基于自监督的深度估计匹配代价预估方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846473B (zh) * 2018-04-10 2022-03-01 杭州电子科技大学 基于方向和尺度自适应卷积神经网络的光场深度估计方法
CN108961327B (zh) * 2018-05-22 2021-03-30 深圳市商汤科技有限公司 一种单目深度估计方法及其装置、设备和存储介质
CN110163246B (zh) * 2019-04-08 2021-03-30 杭州电子科技大学 基于卷积神经网络的单目光场图像无监督深度估计方法

Also Published As

Publication number Publication date
CN111833390A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
Lee et al. From big to small: Multi-scale local planar guidance for monocular depth estimation
CN111739078B (zh) 一种基于上下文注意力机制的单目无监督深度估计方法
CN108520535B (zh) 基于深度恢复信息的物体分类方法
Fu et al. Deep ordinal regression network for monocular depth estimation
CN106846463B (zh) 基于深度学习神经网络的显微图像三维重建方法及系统
US10353271B2 (en) Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
WO2019174378A1 (zh) 一种基于深度预测和增强子网络的高质量深度估计方法
Chen et al. Visibility-aware point-based multi-view stereo network
CN110458765B (zh) 基于感知保持卷积网络的图像质量增强方法
CN110689008A (zh) 一种面向单目图像的基于三维重建的三维物体检测方法
CN115690324A (zh) 一种基于点云的神经辐射场重建优化方法及装置
CN104899921B (zh) 基于多模态自编码模型的单视角视频人体姿态恢复方法
CN112308918B (zh) 一种基于位姿解耦估计的无监督单目视觉里程计方法
CN111783582A (zh) 一种基于深度学习的无监督单目深度估计算法
CN112734915A (zh) 一种基于深度学习的多视角立体视觉三维场景重建方法
CN110363068A (zh) 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法
CN112509021B (zh) 一种基于注意力机制的视差优化方法
Luo et al. Wavelet synthesis net for disparity estimation to synthesize dslr calibre bokeh effect on smartphones
CN113793261A (zh) 一种基于3d注意力机制全通道融合网络的光谱重建方法
Dong et al. Mobilexnet: An efficient convolutional neural network for monocular depth estimation
CN111833390B (zh) 一种基于无监督深度学习的光场深度估计方法
CN112634184A (zh) 基于融合性卷积神经网络的rgb图像光谱反射率重建方法
CN116109689A (zh) 基于引导优化聚合的边缘保持立体匹配方法
CN104036242A (zh) 基于Centering Trick卷积限制玻尔兹曼机的物体识别方法
CN116912405A (zh) 一种基于改进MVSNet的三维重建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant