CN111833390B - 一种基于无监督深度学习的光场深度估计方法 - Google Patents
一种基于无监督深度学习的光场深度估计方法 Download PDFInfo
- Publication number
- CN111833390B CN111833390B CN202010581570.XA CN202010581570A CN111833390B CN 111833390 B CN111833390 B CN 111833390B CN 202010581570 A CN202010581570 A CN 202010581570A CN 111833390 B CN111833390 B CN 111833390B
- Authority
- CN
- China
- Prior art keywords
- sub
- light field
- aperture image
- image
- aperture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013135 deep learning Methods 0.000 title claims abstract description 19
- 230000006870 function Effects 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000004519 manufacturing process Methods 0.000 claims abstract 3
- 238000005457 optimization Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 11
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000003491 array Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims 2
- 230000035800 maturation Effects 0.000 claims 1
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 238000011156 evaluation Methods 0.000 abstract description 4
- 238000013461 design Methods 0.000 abstract description 3
- 238000003384 imaging method Methods 0.000 description 9
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10052—Images from lightfield camera
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于无监督深度学习的光场深度估计方法。本发明设计了无监督损失函数;同时从光场图像中提取一组3×3排列的子光圈图像作为光场深度估计网络的输入,输出中心子光圈图像的视差图,实现端到端的训练。步骤S1.准备光场数据集,制作训练集和测试集;步骤S2.搭建无监督光场深度估计网络;步骤S3.设计无监督光场深度估计损失函数;步骤S4.使用训练集训练无监督光场深度估计网络;本发明通过使用本发明自主搭建的网络结构以及损失函数,在海德堡图像处理实验室提供的4D光场数据集评测网站上,可以获得优于其它无监督深度估计方法的精度。
Description
技术领域
本发明属于深度学习和计算摄影学领域,特别涉及基于无监督深度学习的光场深度估计方法。
背景技术
深度学习是近年来人工智能领域中的热点技术,已在图像处理、计算机视觉、自然语言处理等多个方向取得了突破性进展。卷积神经网络是深度学习网络的主要结构之一,它利用卷积层从输入数据中提取低层到高层的语义特征,然后利用这些特征完成分类、回归等任务。相比于传统机器学习方法。深度学习的主要步骤包括:构建训练数据集、设计卷积层、全连接层、激活函数等深度学习网络结构和参数,定义损失函数;利用误差反向传播机制和梯度下降优化算法更新神经网络的权重值,从而实现深度学习网络的训练过程。训练完成的深度学习网络模型可以拟合出某个高维复杂函数,可实现从输入到输出的映射;利用训练完成的深度学习网络模型在测试数据集上进行预测。
与此同时,光场成像与计算是近年来计算摄影学领域中的一门新兴技术。光场相机通过在相机主透镜和图像传感器之间增加一个微透镜阵列,可记录汇聚在图像传感器像素上各入射方向的光线强度,形成四维光场成像。光场成像为突破传统成像模型的维度局限提供了新思路和新方法。利用四维光场提供的空间-时间信息,可实现单帧光场恢复场景结构(深度)信息。光场深度估计研究已获得了越来越多的关注。利用光场成像几何中的外极线图,焦距栈以及角度信息等特性,已提出了许多基于光场几何特性的光场深度估计方法。这些方法通常基于光度一致性、外极线线性约束等假定,但在真实光场成像中不可避免地受到畸变、噪声等各种因素影响。
利用深度学习提取深度线索和深度特征具有更好的鲁棒性,近年来基于有监督深度学习的光场深度估计方法取得了显著成功。但是有监督深度学习方法的性能严重依赖于已知真实深度图的光场数据集质量和数量。由于光场成像的复杂性,光场成像时的已知真实深度信息获取困难,尤其是真实场景下的光场成像。用于光场深度估计的现有光场数据集都是由三维绘制软件合成得到。在合成的光场数据集下完成的深度学习模型,在真实场景下的泛化表现难以令人满意。针对上述问题,我们提出了一种基于无监督深度学习的光场深度估计方法,它能够在不提供真实深度信息的情况下进行无监督学习。
发明内容
本发明的目的是针对现有技术的不足,设计了一种基于无监督深度学习的光场深度估计方法,同时设计了无监督损失函数。从光场图像中提取一组3×3排列的子光圈图像作为光场深度估计网络的输入,输出中心子光圈图像的视差图,实现端到端的训练。
进一步的,该方法需准备光场数据集,制作训练集和测试集,具体实现如下:
步骤S1-1:根据双平面表示方法,光场图像定义为LF(u,v,s,t,c),其中(u,v)为光场角度坐标,(s,t)是光场空间坐标,c为颜色通道,u的取值范围为[-U,U],v的取值范围为[-V,V],s的取值范围为[0,W-1],t的取值范围为[0,H-1],则光场图像包含了一组(2U+1)×(2V+1)排列的子光圈图像阵列;光场角度坐标为(u,v)的子光圈图像表示为LF(u,v)(s,t,c),中心子光圈图像表示为LF(0,0)(s,t,c),每个子光圈图像大小为W×H;
步骤S1-2:使用海德堡图像处理实验室提供的4D光场数据集作为实验数据集,该数据集包含28个场景的光场图像,并提供了高精度的视差和性能评估指标;将其中16幅光场图像用于制作训练集,剩余12幅光场图像用于制作测试集;
步骤S1-3:从光场图像的子光圈图像阵列中提取0°、45°、90°、135°、180°、225°、270°和315°方向的最外圈子光圈图像,与中心子光圈图像一起构成一个3×3排列的稀疏子光圈图像阵列;具体如图2所示,所提取子光圈图像为LF(0,0)(s,t,c)、LF(-U,-V)(s,t,c)、LF(0,-V)(s,t,c)、LF(U,-V)(s,t,c)、LF(-U,0)(s,t,c)、LF(U,0)(s,t,c)、LF(-U,V)(s,t,c)、LF(0,V)(s,t,c)和LF(U,V)(s,t,c)。
进一步的,该方法需搭建无监督光场深度估计网络,所述的无监督光场深度估计网络由两个子网络组成,分别是视差估计子网络和视差优化子网络:
步骤S2-1:所述的视差估计子网络采用与UnsupervisedNet相同的网络结构;所述的视差估计子网络以步骤1-3中提取的3×3排列的稀疏子光圈图像阵列作为输入,输出为中心子光圈图像的初始视差图disp0;
步骤S2-2:所述的视差优化子网络以初始视差图disp0和中心子光圈图像的灰度图作为输入,输出优化后的中心子光圈图像视差图disp1;
优化后的中心子光圈图像视差图disp1计算公式为:
disp1=disp0+δdisp (1)
进一步的,所述的视差优化子网络,具体如下:
首先将disp0和中心子光圈图像的灰度图在深度通道上进行堆叠,得到大小为2×W×H×1的张量,作为视差优化子网络中第1个卷积层的输入;
第1个卷积层使用1个卷积核为2×3×3,步长为1×1×1的卷积,对输入进行特征提取,再使用ReLU函数对提取的特征图进行激活;第1个卷积层的输出为2×W×H×1的特征图Ⅰ;
第2个卷积层使用16个卷积核为2×3×3,步长为1×1×1的卷积,对第1个卷积层的输出特征图Ⅰ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第2个卷积层的输出为2×W×H×16的特征图Ⅱ;
第3个卷积层使用32个卷积核为2×3×3,步长为1×1×1的卷积,对第2个卷积层的输出特征图Ⅱ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第3个卷积层的输出为2×W×H×32的特征图Ⅲ;
第4卷积层使用16个卷积核为2×3×3,步长为1×1×1的卷积,对第3个卷积层的输出特征图Ⅲ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第4个卷积层的输出为2×W×H×16的特征图Ⅳ;
第5卷积层使用16个卷积核为2×3×3,步长为2×1×1的卷积,对第4个卷积层的输出特征图Ⅳ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第5个卷积层的输出为1×W×H×16的特征图Ⅴ;
第6卷积层使用1个卷积核为3×3,步长为1×1的卷积,对第5个卷积层的输出特征图Ⅴ进行特征提取,再使用Sigmoid函数对提取特征图进行激活;第6个卷积层的输出为视差残差图δdisp,大小为W×H×1。
进一步的,无监督光场深度估计损失函数由光度一致性损失、角度熵损失和散焦损失三部分构成;具体实现如下:
步骤S3-1:根据视差估计子网络的输出初始视差图disp0,将光场图像中的所有子光圈图像分别投影到中心子光圈,合成一组新的中心子光圈图像;所述的投影过程具体为:
对于一幅子光圈图像LF(u,v)(s,t,c),根据投影公式合成出一幅新的中心子光圈图像LF′(u,v)(s,t,c);所述的投影公式为:
LF′(u,v)(s,t,c)=LF(u,v)(s+u·disp0,t+v·disp0,c) (2)
步骤S3-2:根据视差优化子网络的输出disp1,将光场图像中的子光圈图像投影到中心子光圈,合成一组新的中心子光圈图像;所述的投影过程具体为:
对于一幅子光圈图像LF(u,v)(s,t,c),根据投影公式合成出一幅新的中心子光圈图像LF″(u,v)(s,t,c);所述的投影公式为:
LF″(u,v)(s,t,c)=LF(u,v)(s+u·disp1,t+v·disp1,c) (3)
步骤S3-3:根据合成的中心子光圈图像LF′(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算光度一致性损失Lp0,具体公式为:
其中β为权重,通常取值为0.8;SSIM(·)为两幅图像的结构相似性计算函数,其计算方法为成熟方法;L′SSIM(u,v)是指投影后的中心子光圈图像LF′(u,v)(s,t,c)与中心子光圈图像之间的结构相似度差异;L′SAD(u,v)是指投影后的中心子光圈图像LF′(u,v)(s,t,c)与中心子光圈图像之间的L1距离;
步骤S3-4:根据合成的中心子光圈图像LF″(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算光度一致性损失Lp1,具体公式为:
步骤S3-5:根据合成的中心子光圈图像LF′(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算角度熵损失Le0,具体公式为:
其中w为常数,通常取值0.5;σ为常数,通常取值0.5;h′(u,v)(s,t,c),g′(u,v)(s,t,c)和L′e(u,v)为计算角度熵损失Le0的中间结果;
步骤S3-6:根据合成的中心子光圈图像LF″(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算角度熵损失Le1,具体公式为:
其中w为常数通常取值0.5,σ为常数,通常取值0.5;h″(u,v)(s,t,c),g″(u,v)(s,t,c)和L″e(u,v)为计算角度熵损失Le1的中间结果;
步骤S3-7:根据合成的中心子光圈图像LF′(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算散焦损失Ld0,具体公式为:
其中d′(u,v)和L′d(u,v)为计算散焦损失Ld0的中间结果;
步骤S3-8:根据合成的中心子光圈图像LF″(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算散焦损失Ld1,具体公式为:
其中d″(u,v)和L″d(u,v)为计算散焦损失Ld1的中间结果;
步骤S3-9:无监督光场深度估计损失函数为:
Ltotal=Lp0+Lp1+Le0+Le1+Ld0+Ld1 (10)
进一步的,该方法需要使用训练集训练无监督光场深度估计网络,具体:通过步骤S1得到的训练集,送入步骤S2中搭建的无监督光场深度估计网络,根据步骤S3中设计的无监督光场深度估计损失函数Ltotal,采用Adam优化算法进行无监督光场深度估计网络的无监督训练,网络迭代优化70000次,获取到最终的模型结果;并使用测试集对模型结果进行测试。本发明有益效果如下:
本发明提出了一个用于多视点无监督深度估计的解决方案。
通过使用本发明自主搭建的网络结构以及损失函数,在海德堡图像处理实验室提供的4D光场数据集评测网站上,可以获得优于其它无监督深度估计方法的精度。
附图说明
图1为本发明采取的技术方案流程示意图。
图2为从光场图像中提取一个3×3排列的稀疏子光圈图像阵列
图3为本发明的网络流程图及损失函数结构示意图;
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
如图1-3所示,一种基于无监督深度学习的光场深度估计方法,设计了无监督损失函数。从光场图像中提取一组3×3排列的子光圈图像作为光场深度估计网络的输入,输出中心子光圈图像的视差图,实现端到端的训练。
本发明采取的技术方案具体如图1所示,包括如下步骤:
步骤S1.准备光场数据集,制作训练集和测试集;
步骤S2.搭建无监督光场深度估计网络;
步骤S3.设计无监督光场深度估计损失函数;
步骤S4.使用训练集训练无监督光场深度估计网络;
所述步骤S1具体包括下述步骤:
步骤S1-1:根据双平面表示方法,光场图像定义为LF(u,v,s,t,c),其中(u,v)为光场角度坐标,(s,t)是光场空间坐标,c为颜色通道,u的取值范围为[-U,U],v的取值范围为[-V,V],s的取值范围为[0,W-1],t的取值范围为[0,H-1],则光场图像包含了一组(2U+1)×(2V+1)排列的子光圈图像阵列。光场角度坐标为(u,v)的子光圈图像表示为LF(u,v)(s,t,c),中心子光圈图像表示为LF(0,0)(s,t,c),每个子光圈图像大小为W×H。
步骤S1-2:使用海德堡图像处理实验室提供的4D光场数据集作为实验数据集,该数据集包含28个场景的光场图像,并提供了高精度的视差和性能评估指标。将其中16幅光场图像用于制作训练集,剩余12幅光场图像用于制作测试集。
步骤S1-3:从光场图像的子光圈图像阵列中提取0°、45°、90°、135°、180°、225°、270°和315°方向的最外圈子光圈图像,与中心子光圈图像一起构成一个3×3排列的稀疏子光圈图像阵列。具体如图2所示,所提取子光圈图像为LF(0,0)(s,t,c)、LF(-U,-V)(s,t,c)、LF(0,-V)(s,t,c)、LF(U,-V)(s,t,c)、LF(-U,0)(s,t,c)、LF(U,0)(s,t,c)、LF(-U,V)(s,t,c)、LF(0,V)(s,t,c)和LF(U,V)(s,t,c)。
所述步骤S2具体实现如下:
所述的无监督光场深度估计网络由两个子网络组成,分别是视差估计子网络和视差优化子网络,具体如图3所示。
步骤S2-1:所述的视差估计子网络采用与UnsupervisedNet相同的网络结构。所述的视差估计子网络以步骤1-3中提取的3×3排列的稀疏子光圈图像阵列作为输入,输出为中心子光圈图像的初始视差图disp0。
步骤S2-2:所述的视差优化子网络以初始视差图disp0和中心子光圈图像的灰度图作为输入,输出优化后的中心子光圈图像视差图disp1。
所述视差优化子网络由6个卷积层组成,具体如表1:
所述的视差优化子网络,具体如下:
首先将disp0和中心子光圈图像的灰度图在深度通道上进行堆叠,得到大小为2×W×H×1的张量,作为视差优化子网络中第1个卷积层的输入。
第1个卷积层使用1个卷积核为2×3×3,步长为1×1×1的卷积,对输入进行特征提取,再使用ReLU函数对提取的特征图进行激活;第1个卷积层的输出为2×W×H×1的特征图Ⅰ。
第2个卷积层使用16个卷积核为2×3×3,步长为1×1×1的卷积,对第1个卷积层的输出特征图Ⅰ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第2个卷积层的输出为2×W×H×16的特征图Ⅱ。
第3个卷积层使用32个卷积核为2×3×3,步长为1×1×1的卷积,对第2个卷积层的输出特征图Ⅱ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第3个卷积层的输出为2×W×H×32的特征图Ⅲ。
第4卷积层使用16个卷积核为2×3×3,步长为1×1×1的卷积,对第3个卷积层的输出特征图Ⅲ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第4个卷积层的输出为2×W×H×16的特征图Ⅳ。
第5卷积层使用16个卷积核为2×3×3,步长为2×1×1的卷积,对第4个卷积层的输出特征图Ⅳ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第5个卷积层的输出为1×W×H×16的特征图Ⅴ。
第6卷积层使用1个卷积核为3×3,步长为1×1的卷积,对第5个卷积层的输出特征图Ⅴ进行特征提取,再使用Sigmoid函数对提取特征图进行激活;第6个卷积层的输出为视差残差图δdisp,大小为W×H×1。
优化后的中心子光圈图像视差图disp1计算公式为:
disp1=disp0+δdisp (1)
所述步骤S3中的无监督光场深度估计损失函数由光度一致性损失、角度熵损失和散焦损失三部分构成。具体实现如下:
步骤S3-1:根据视差估计子网络的输出初始视差图disp0,将光场图像中的所有子光圈图像分别投影到中心子光圈,合成一组新的中心子光圈图像。所述的投影过程具体为:
对于一幅子光圈图像LF(u,v)(s,t,c),根据投影公式合成出一幅新的中心子光圈图像LF′(u,v)(s,t,c)。所述的投影公式为:
LF′(u,v)(s,t,c)=LF(u,v)(s+u·disp0,t+v·disp0,c) (2)
步骤S3-2:根据视差优化子网络的输出disp1,将光场图像中的子光圈图像投影到中心子光圈,合成一组新的中心子光圈图像。所述的投影过程具体为:
对于一幅子光圈图像LF(u,v)(s,t,c),根据投影公式合成出一幅新的中心子光圈图像LF″(u,v)(s,t,c)。所述的投影公式为:
LF″(u,v)(s,t,c)=LF(u,v)(s+u·disp1,t+v·disp1,c) (3)
步骤S3-3:根据合成的中心子光圈图像LF′(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算光度一致性损失Lp0,具体公式为:
其中β为权重,通常取值为0.8。SSIM(·)为两幅图像的结构相似性计算函数,其计算方法为成熟方法;L′SSIM(u,v)是指投影后的中心子光圈图像LF′(u,v)(s,t,c)与中心子光圈图像之间的结构相似度差异;L′SAD(u,v)是指投影后的中心子光圈图像LF′(u,v)(s,t,c)与中心子光圈图像之间的L1距离。
步骤S3-4:根据合成的中心子光圈图像LF″(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算光度一致性损失Lp1,具体公式为:
步骤S3-5:根据合成的中心子光圈图像LF′(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算角度熵损失Le0,具体公式为:
其中w为常数,通常取值0.5;σ为常数,通常取值0.5。h′(u,v)(s,t,c),g′(u,v)(s,t,c)和L′e(u,v)为计算角度熵损失Le0的中间结果。
步骤S3-6:根据合成的中心子光圈图像LF″(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算角度熵损失Le1,具体公式为:
其中w为常数通常取值0.5,σ为常数,通常取值0.5。h″(u,v)(s,t,c),g″(u,v)(s,t,c)和L″e(u,v)为计算角度熵损失Le1的中间结果。
步骤S3-7:根据合成的中心子光圈图像LF′(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算散焦损失Ld0,具体公式为:
其中d′(u,v)和L′d(u,v)为计算散焦损失Ld0的中间结果。
步骤S3-8:根据合成的中心子光圈图像LF″(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算散焦损失Ld1,具体公式为:
其中d″(u,v)和L″d(u,v)为计算散焦损失Ld1的中间结果。
步骤S3-9:无监督光场深度估计损失函数为:
Ltotal=Lp0+Lp1+Le0+Le1+Ld0+Ld1 (10)
所述步骤S4具体如下所示:
通过步骤S1得到的训练集,送入步骤S2中搭建的无监督光场深度估计网络,根据步骤S3中设计的无监督光场深度估计损失函数Ltotal,采用Adam优化算法进行无监督光场深度估计网络的无监督训练,网络迭代优化70000次,获取到最终的模型结果。并使用测试集对模型结果进行测试
所述Adam优化算法为成熟算法。
Claims (2)
1.一种基于无监督深度学习的光场深度估计方法,其特征在于设计了无监督损失函数;同时从光场图像中提取一组3×3排列的子光圈图像作为光场深度估计网络的输入,输出中心子光圈图像的视差图,实现端到端的训练;
该方法需准备光场数据集,制作训练集和测试集,具体实现如下:
步骤S1-1:根据双平面表示方法,光场图像定义为LF(u,v,s,t,c),其中(u,v)为光场角度坐标,(s,t)是光场空间坐标,c为颜色通道,u的取值范围为[-U,U],v的取值范围为[-V,V],s的取值范围为[0,W-1],t的取值范围为[0,H-1],则光场图像包含了一组(2U+1)×(2V+1)排列的子光圈图像阵列;光场角度坐标为(u,v)的子光圈图像表示为LF(u,v)(s,t,c),中心子光圈图像表示为LF(0,0)(s,t,c),每个子光圈图像大小为W×H;
步骤S1-2:使用海德堡图像处理实验室提供的4D光场数据集作为实验数据集,该数据集包含28个场景的光场图像,并提供了高精度的视差和性能评估指标;将其中16幅光场图像用于制作训练集,剩余12幅光场图像用于制作测试集;
步骤S1-3:从光场图像的子光圈图像阵列中提取0°、45°、90°、135°、180°、225°、270°和315°方向的最外圈子光圈图像,与中心子光圈图像一起构成一个3×3排列的稀疏子光圈图像阵列;所提取子光圈图像为LF(0,0)(s,t,c)、LF(-U,-V)(s,t,c)、LF(0,-V)(s,t,c)、LF(U,-V)(s,t,c)、LF(-U,0)(s,t,c)、LF(U,0)(s,t,c)、LF(-U,V)(s,t,c)、LF(0,V)(s,t,c)和LF(U,V)(s,t,c);
该方法需搭建无监督光场深度估计网络,所述的无监督光场深度估计网络由两个子网络组成,分别是视差估计子网络和视差优化子网络:
步骤S2-1:所述的视差估计子网络采用与UnsupervisedNet相同的网络结构;所述的视差估计子网络以步骤1-3中提取的3×3排列的稀疏子光圈图像阵列作为输入,输出为中心子光圈图像的初始视差图disp0;
步骤S2-2:所述的视差优化子网络以初始视差图disp0和中心子光圈图像的灰度图作为输入,输出优化后的中心子光圈图像视差图disp1;
优化后的中心子光圈图像视差图disp1计算公式为:
disp1=disp0+δdisp (1)
所述的视差优化子网络,具体如下:
首先将disp0和中心子光圈图像的灰度图在深度通道上进行堆叠,得到大小为2×W×H×1的张量,作为视差优化子网络中第1个卷积层的输入;
第1个卷积层使用1个卷积核为2×3×3,步长为1×1×1的卷积,对输入进行特征提取,再使用ReLU函数对提取的特征图进行激活;第1个卷积层的输出为2×W×H×1的特征图Ⅰ;
第2个卷积层使用16个卷积核为2×3×3,步长为1×1×1的卷积,对第1个卷积层的输出特征图Ⅰ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第2个卷积层的输出为2×W×H×16的特征图Ⅱ;
第3个卷积层使用32个卷积核为2×3×3,步长为1×1×1的卷积,对第2个卷积层的输出特征图Ⅱ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第3个卷积层的输出为2×W×H×32的特征图Ⅲ;
第4卷积层使用16个卷积核为2×3×3,步长为1×1×1的卷积,对第3个卷积层的输出特征图Ⅲ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第4个卷积层的输出为2×W×H×16的特征图Ⅳ;
第5卷积层使用16个卷积核为2×3×3,步长为2×1×1的卷积,对第4个卷积层的输出特征图Ⅳ进行特征提取,再使用ReLU函数对提取的特征图进行激活;第5个卷积层的输出为1×W×H×16的特征图Ⅴ;
第6卷积层使用1个卷积核为3×3,步长为1×1的卷积,对第5个卷积层的输出特征图Ⅴ进行特征提取,再使用Sigmoid函数对提取特征图进行激活;第6个卷积层的输出为视差残差图δdisp,大小为W×H×1;
无监督光场深度估计损失函数由光度一致性损失、角度熵损失和散焦损失三部分构成;具体实现如下:
步骤S3-1:根据视差估计子网络的输出初始视差图disp0,将光场图像中的所有子光圈图像分别投影到中心子光圈,合成一组新的中心子光圈图像;所述的投影过程具体为:
对于一幅子光圈图像LF(u,v)(s,t,c),根据投影公式合成出一幅新的中心子光圈图像LF′(u,v)(s,t,c);所述的投影公式为:
LF′(u,v)(s,t,c)=LF(u,v)(s+u·disp0,t+v·disp0,c) (2)
步骤S3-2:根据视差优化子网络的输出disp1,将光场图像中的子光圈图像投影到中心子光圈,合成一组新的中心子光圈图像;所述的投影过程具体为:
对于一幅子光圈图像LF(u,v)(s,t,c),根据投影公式合成出一幅新的中心子光圈图像LF″(u,v)(s,t,c);所述的投影公式为:
LF″(u′,v)(s,t,c)=LF(u,v)(s+u·disp1,t+v·disp1,c) (3)
步骤S3-3:根据合成的中心子光圈图像LF′(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算光度一致性损失Lp0,具体公式为:
其中β为权重,取值为0.8;SSIM(·)为两幅图像的结构相似性计算函数,其计算方法为成熟方法;L′SSIM(u,v)是指投影后的中心子光圈图像LF′(u,v)(s,t,c)与中心子光圈图像之间的结构相似度差异;L′SAD(u,v)是指投影后的中心子光圈图像LF′(u,v)(s,t,c)与中心子光圈图像之间的L1距离;
步骤S3-4:根据合成的中心子光圈图像LF″(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算光度一致性损失Lp1,具体公式为:
步骤S3-5:根据合成的中心子光圈图像LF′(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算角度熵损失Le0,具体公式为:
其中w为常数,取值0.5;σ为常数,取值0.5;h′(u,v)(s,t,c),g′(u,v)(s,t,c)和L′e(u,v)为计算角度熵损失Le0的中间结果;
步骤S3-6:根据合成的中心子光圈图像LF″(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算角度熵损失Le1,具体公式为:
其中w为常数,取值0.5,σ为常数,取值0.5;h″(u,v)(s,t,c),g″(u,v)(s,t,c)和L″e(u,v)为计算角度熵损失Le1的中间结果;
步骤S3-7:根据合成的中心子光圈图像LF′(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算散焦损失Ld0,具体公式为:
其中d′(u,v)和L′d(u,v)为计算散焦损失Ld0的中间结果;
步骤S3-8:根据合成的中心子光圈图像LF″(u,v)(s,t,c)和中心子光圈图像LF(0,0)(s,t,c),计算散焦损失Ld1,具体公式为:
其中d″(u,v)和L″d(u,v)为计算散焦损失Ld1的中间结果;
步骤S3-9:无监督光场深度估计损失函数为:
Ltotal=Lp0+Lp1+Le0+Le1+Ld0+Ld1 (10)。
2.根据权利要求1所述的一种基于无监督深度学习的光场深度估计方法,其特征在于该方法需要使用训练集训练无监督光场深度估计网络,具体:通过步骤S1得到的训练集,送入步骤S2中搭建的无监督光场深度估计网络,根据步骤S3中设计的无监督光场深度估计损失函数Ltotal,采用Adam优化算法进行无监督光场深度估计网络的无监督训练,网络迭代优化70000次,获取到最终的模型结果;并使用测试集对模型结果进行测试。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010581570.XA CN111833390B (zh) | 2020-06-23 | 2020-06-23 | 一种基于无监督深度学习的光场深度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010581570.XA CN111833390B (zh) | 2020-06-23 | 2020-06-23 | 一种基于无监督深度学习的光场深度估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111833390A CN111833390A (zh) | 2020-10-27 |
CN111833390B true CN111833390B (zh) | 2023-06-20 |
Family
ID=72898021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010581570.XA Active CN111833390B (zh) | 2020-06-23 | 2020-06-23 | 一种基于无监督深度学习的光场深度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111833390B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117409058B (zh) * | 2023-12-14 | 2024-03-26 | 浙江优众新材料科技有限公司 | 一种基于自监督的深度估计匹配代价预估方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846473B (zh) * | 2018-04-10 | 2022-03-01 | 杭州电子科技大学 | 基于方向和尺度自适应卷积神经网络的光场深度估计方法 |
CN108961327B (zh) * | 2018-05-22 | 2021-03-30 | 深圳市商汤科技有限公司 | 一种单目深度估计方法及其装置、设备和存储介质 |
CN110163246B (zh) * | 2019-04-08 | 2021-03-30 | 杭州电子科技大学 | 基于卷积神经网络的单目光场图像无监督深度估计方法 |
-
2020
- 2020-06-23 CN CN202010581570.XA patent/CN111833390B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111833390A (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255831B (zh) | 基于多任务学习的单视图人脸三维重建及纹理生成的方法 | |
Lee et al. | From big to small: Multi-scale local planar guidance for monocular depth estimation | |
CN108520535B (zh) | 基于深度恢复信息的物体分类方法 | |
CN110287849B (zh) | 一种适用于树莓派的轻量化深度网络图像目标检测方法 | |
CN109410307B (zh) | 一种场景点云语义分割方法 | |
CN109035251B (zh) | 一种基于多尺度特征解码的图像轮廓检测方法 | |
CN111783582A (zh) | 一种基于深度学习的无监督单目深度估计算法 | |
CN111986108A (zh) | 一种基于生成对抗网络的复杂海空场景图像去雾方法 | |
CN115170746B (zh) | 一种基于深度学习的多视图三维重建方法、系统及设备 | |
CN112560865B (zh) | 一种室外大场景下点云的语义分割方法 | |
CN116934972B (zh) | 一种基于双流网络的三维人体重建方法 | |
CN114612660A (zh) | 一种基于多特征融合点云分割的三维建模方法 | |
CN111354030A (zh) | 嵌入SENet单元的无监督单目图像深度图生成方法 | |
CN116030537B (zh) | 基于多分支注意力图卷积的三维人体姿态估计方法 | |
CN111402403A (zh) | 高精度三维人脸重建方法 | |
CN104036242B (zh) | 基于Centering Trick卷积限制玻尔兹曼机的物体识别方法 | |
CN114820323A (zh) | 一种基于立体注意力机制的多尺度残差双目图像超分辨率方法 | |
CN110288603B (zh) | 基于高效卷积网络和卷积条件随机场的语义分割方法 | |
CN116310219A (zh) | 一种基于条件扩散模型的三维脚型生成方法 | |
CN114882524A (zh) | 一种基于全卷积神经网络的单目三维手势估计方法 | |
CN111582437B (zh) | 一种视差回归深度神经网络的构造方法 | |
CN117635989A (zh) | 基于改进CFNet的双目立体匹配方法 | |
CN115527159B (zh) | 一种基于跨模态间尺度注意聚合特征的计数系统及方法 | |
CN111833390B (zh) | 一种基于无监督深度学习的光场深度估计方法 | |
CN115482268A (zh) | 一种基于散斑匹配网络的高精度三维形貌测量方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |