CN112288789A - 基于遮挡区域迭代优化的光场深度自监督学习方法 - Google Patents
基于遮挡区域迭代优化的光场深度自监督学习方法 Download PDFInfo
- Publication number
- CN112288789A CN112288789A CN202011151995.3A CN202011151995A CN112288789A CN 112288789 A CN112288789 A CN 112288789A CN 202011151995 A CN202011151995 A CN 202011151995A CN 112288789 A CN112288789 A CN 112288789A
- Authority
- CN
- China
- Prior art keywords
- sub
- aperture
- light field
- pixel
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000005457 optimization Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000003491 array Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 230000003287 optical effect Effects 0.000 description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 241000276495 Melanogrammus aeglefinus Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/557—Depth or shape recovery from multiple images from light fields, e.g. from plenoptic cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10052—Images from lightfield camera
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20228—Disparity calculation for image-based rendering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于遮挡区域迭代优化的光场深度自监督学习方法。本发明步骤如下:S1:从光场图像中提取网络输入;S2:搭建自监督光场深度估计网络,网络输出为中心子光圈图像的视差图。S3:设计基于遮挡掩模的自监督学习损失函数,设定初始遮挡掩模为无遮挡情况。S4:优化基于遮挡掩模的自监督学习损失函数,训练自监督光场深度估计网络。S5:利用步骤S4中训练完成的自监督光场深度估计网络预测得到中心子光圈图像的视差图,计算中心子光圈图像的遮挡区域,更新遮挡掩模。S6:若更新前和更新后遮挡掩模的差异小于设定阈值,则退出迭代优化;否则返回步骤S4。本发明实现遮挡区域的迭代优化,同时优化光场深度估计结果。
Description
技术领域
本发明是关于计算摄影学和计算机视觉技术领域,尤其涉及到了一种基于遮挡区域迭代优化的光场深度自监督学习方法。
背景技术
光场相机通过在传统相机的图像传感器和主镜头间增加一个微透镜阵列,从而可以记录下入射光线的四维光场图像(二维空间信息和二维角度信息)。经过维度重排列后,四维光场图像可看作为一组多视点的子光圈图像阵列。由于光场图像中包含了丰富的光线信息,以及具有数字重对焦等特性,近年来基于光场图像的场景深度估计研究获得了越来越多的关注。
从光场图像中估计场景深度主要可分为两类:传统方法和基于深度学习的方法。传统方法通常都是利用光场图像中的几何一致性、光度一致性、深度线索、散焦线索等光场成像几何特性或假定,将深度估计问题转换为某个目标函数的最优问题,然后采用传统优化算法估计出光场深度。基于深度学习的光场深度估计方法是通过设计一个从端到端的深度神经网络,并采用卷积操作从光场图像中提取深层语义特征,然后设定一组有监督或无监督损失函数,进而预测出光场深度信息。近年来,基于有监督深度学习的光场深度估计方法已取得了显著成功,但这些方法的性能往往依赖于具有真实场景深度信息的光场数据集的质量和数量。由于获取具有真实场景深度信息的光场数据集非常困难,因此基于自监督学习的光场深度估计方法越来越受关注。自监督学习方法的主要优点在于它能在缺少真实场景深度信息的情况下,利用光场几何特性和约束实现自监督学习,可有效克服训练数据集不足的问题。
现有自监督学习方法中的损失函数设计通常都是基于光场图像的几何特性和约束,缺少对深度不连续和遮挡区域的考虑。本发明根据光场子光圈图像排列的对称性,利用光场子光圈之间的遮挡区域互补特性,提出了基于遮挡区域迭代优化的光场深度自监督学习方法。该方法先采用自监督深度学习网络进行一次预训练,计算出遮挡区域掩模;然后在下一次训练过程中加入上一次的遮挡区域掩模,以优化光场深度估计结果,更新遮挡区域并送入下一次训练过程;进而实现遮挡区域的迭代优化,同时优化光场深度估计结果。
发明内容
本发明的目的是为克服上述现有自监督学习方法存在的不足,利用子光圈图像之间的遮挡区域互补特性,提供一种基于遮挡区域迭代优化的光场深度自监督学习方法。
本发明所采用的技术步骤如下:
步骤S1:从光场图像中提取网络输入。
步骤S2:搭建自监督光场深度估计网络,网络输出为中心子光圈图像的视差图。
步骤S3:设计基于遮挡掩模的自监督学习损失函数,设定初始遮挡掩模为无遮挡情况。
步骤S4:优化基于遮挡掩模的自监督学习损失函数,训练自监督光场深度估计网络。
步骤S5:利用步骤S4中训练完成的自监督光场深度估计网络预测得到中心子光圈图像的视差图,计算中心子光圈图像的遮挡区域,更新遮挡掩模。
步骤S6:若更新前和更新后遮挡掩模的差异小于设定阈值,则退出迭代优化;否则返回步骤S4。
所述步骤S1具体包括:
步骤S1-1:使用海德堡图像处理实验室提供的4D光场数据集作为实验数据集,该数据集包含28个场景,并提供了中心子光圈图像的高精度视差图,以及视差估计的性能评估指标。采用光场双平面表示方法,将光场图像定义为LF(u,v,x,y,c),其中(u,v)为光场角度坐标,(x,y)是光场空间坐标,c为颜色通道,u的取值范围为[-U,U],v的取值范围为[-V,V],x的取值范围为[0,W-1],y的取值范围为[0,H-1],则光场图像包含了一组(2U+1)×(2V+1)的子光圈图像阵列;中心子光圈图像I0(x,y,c)表示为光场角度坐标为(0,0)的子光圈图像LF(0,0,x,y,c);光场角度坐标为(ui,vi)的子光圈图像记作为I(ui,vi)(x,y,c)=LF(ui,vi,x,y,c),每个子光圈图像大小为W×H;通常U=V=3,W=H=512。
步骤S1-2:以光场图像的中心子光圈图像为中心,提取一个米字型子光圈图像阵列作为自监督光场深度估计网络的输入,所提取的米字型子光圈图像阵列包含了子光圈图像为:水平方向子光圈图像I(u,0)(x,y,c)、垂直方向子光圈图像I(0,v)(x,y,c)、45度方向子光圈图像I(u,u)(x,y,c)和135度方向子光圈图像I(u,-u)(x,y,c),其中u的取值范围为[-U,U],v的取值范围为[-V,V],具体如图1所示。
步骤S1-3:对N×N的米字型子光圈图像阵列中的子光圈图像做归一化处理,并做随机数据增强,包括子光圈图像的左右翻转、上下翻转、亮度值改变。所述的归一化处理和随机数据增强为成熟技术。
所述步骤S2具体包括:
所述的自监督光场深度估计网络为一个包含了编码子网和解码子网的U型网络。编码子网通过卷积和下采样提取光场的深层特征信息,解码子网通过卷积和上采样将深层特征信息图尺寸恢复到输入图像尺寸,并得到中心子光圈图像的视差图。
所述步骤S3具体包括:
步骤S3-1:根据自监督光场深度估计网络输出的中心子光圈视差图d,将步骤S1-2中米字型子光圈图像阵列中每个子光圈图像投影到中心子光圈图像,组成一组中心子光圈投影图像。所述的投影过程具体为:
对于米字型子光圈图像阵列中水平方向子光圈图像I(u,0)(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出水平方向的中心子光圈投影图像I′(u,0)(x,y,c):
I′(u,0)(x,y,c)=I(u,0)(x-u·d,y,c) (1)
对于米字型子光圈图像阵列中垂直方向子光圈图像I(0,v)(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出垂直方向的中心子光圈投影图像I′(0,v)(x,y,c):
I′(0,v)(x,y,c)=I(0,v)(x,y-v·d,c) (2)
对于米字型子光圈图像阵列中45度方向子光圈图像I(u,u)(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出45度方向的中心子光圈投影图像I′(u,u)(x,y,c):
I′(u,u)(x,y,c)=I(u,u)(x-u·d,y-u·d,c) (3)
对于米字型子光圈图像阵列中135度方向子光圈图像I(u,-u)(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出135度方向的中心子光圈投影图像I′(u,-u)(x,y,c):
I′(u,-u)(x,y,c)=I(u,-u)(x-u·d,y+u·d,c) (4)
步骤S3-2:根据步骤S3-1中得到的中心子光圈投影图像和中心子光圈图像,计算光度一致性损失Lp,具体公式为:
其中Lp(u,v)为中心子光圈投影图像I′(u,v)(x,y,c)和中心子光圈图像I0(x,y,c)的光度一致性损失,具体公式为:
其中m(u,v)(x,y)为中心子光圈投影图像I′(u,v)(x,y,c)的遮挡掩模;β为权重,通常取值为0.85;SSIM(·)为两幅图像的结构相似性计算函数,其计算方法为成熟方法。
所述的遮挡掩模m(u,v)(x,y)是一个与中心子光圈投影图像I′(u,v)(x,y,c)尺寸相同的二值图像。遮挡掩模m(u,v)(x,y)中每个像素取值0或1。对于中心子光圈投影图像I′(u,v)(x,y,c)中像素(x,y),设定m(u,v)(x,y)=1表示像素(x,y)在子光圈图像I(u,v)(x,y,c)中可见(无遮挡);设定m(u,v)(x,y)=0表示像素(x,y)在子光圈图像I(u,v)(x,y,c)中不可见(存在遮挡)。设定初始时所有遮挡掩模m(u,v)(x,y)中的所有像素都为1。
所述步骤S4具体包括:
从4D光场数据集中随机选取一组(2U+1)×(2V+1)的米字型子光圈图像阵列,送到自监督光场深度估计网络;网络预测出中心子光圈视差图;计算光度一致性损失,通过误差反向传播和Adam优化算法,更新和优化自监督光场深度估计网络参数;经过一定的训练迭代次数后,得到一次训练完成的自监督光场深度估计网络模型。所述的误差反向传播和Adam优化算法为成熟技术。
所述步骤S5具体包括:
根据自监督光场深度估计网络输出的中心子光圈视差图d,为每个中心子光圈投影图像计算遮挡掩模。具体如图2所示,根据自监督光场深度估计网络输出的中心子光圈视差图d,为每个中心子光圈投影图像计算遮挡掩模,掩膜中黑色区域代表被遮挡的像素,白色区域代表未被遮挡的像素。
具体的遮挡掩模计算方法为:
对于中心子光圈图像中的每个像素(x,y),根据其视差值d(x,y),分别判断像素(x,y)在水平方向的遮挡情况,垂直方向的遮挡情况,45度方向的遮挡情况和135度方向的遮挡情况,从而更新遮挡掩模。
所述的水平方向遮挡情况判断方法具体为:对于中心子光圈图像中第y行像素(x+i,y),其视差值为d(x+i,y);若d(x+i,y)≤d(x,y),则像素(x,y)不会被像素(x+i,y)遮挡;若d(x+i,y)>d(x,y),则计算像素(x,y)和像素(x+i,y)的水平EPI交点u′,若-U≤u′≤U,则设置水平方向遮挡掩模的像素(x,y)值为1,即m(u′,0)(x,y)=1;遍历中心子光圈图像中第y行的所有像素,更新水平方向的遮挡掩模;所述的水平EPI交点u′计算公式为:
所述的垂直方向遮挡情况判断方法具体为:对于中心子光圈图像中第x列像素(x,y+i),其视差值为d(x,y+i);若d(x,y+i)≤d(x,y),则像素(x,y)不会被像素(x,y+i)遮挡;若d(x,y+i)>d(x,y),则计算像素(x,y)和像素(x,y+i)的垂直EPI交点v′,若-V≤v′≤V,则设置垂直方向遮挡掩模的像素(x,y)值为1,即m(0,v′)(x,y)=1;遍历中心子光圈图像中第x列的所有像素,更新垂直方向的遮挡掩模;所述的垂直EPI交点v′计算公式为:
所述的45度方向遮挡情况判断方法具体为:对于中心子光圈图像中45度方向像素(x+i,y+i),其视差值为d(x+i,y+i);若d(x+i,y+i)≤d(x,y),则像素(x,y)不会被像素(x+i,y+i)遮挡;若d(x+i,y+i)>d(x,y),则计算像素(x,y)和像素(x+i,y+i)的45度EPI交点u″,若-U≤u″≤U,则设置45度方向遮挡掩模的像素(x,y)值为1,即m(u″,u″)(x,y)=1;遍历中心子光圈图像中45度方向的所有像素,更新45度方向的遮挡掩模;所述的45度EPI交点u″计算公式为:
所述的135度方向遮挡情况判断方法具体为:对于中心子光圈图像中135度方向像素(x+i,y-i),其视差值为d(x+i,y-i);若d(x+i,y-i)≤d(x,y),则像素(x,y)不会被像素(x+i,y-i)遮挡;若d(x+i,y-i)>d(x,y),则计算像素(x,y)和像素(x+i,y-i)的135度EPI交点u″′,若-U≤u″′≤U,则设置135度方向遮挡掩模的像素(x,y)值为1,即m(u″′,-u″′)(x,y)=1;遍历中心子光圈图像中135度方向的所有像素,更新135度方向的遮挡掩模;所述的135度EPI交点u″′计算公式为:
所述步骤S6具体包括:
若遮挡掩模在步骤S5有更新,则将更新后的遮挡掩模代入到公式(5)和公式(6)中,并返回到步骤S4重新训练自监督光场深度估计网络。若遮挡掩模在步骤S5无更新,则退出迭代训练。
本发明有益效果如下:
本发明根据光场子光圈图像排列的对称性,利用光场子光圈之间的遮挡区域互补特性,提出了基于遮挡区域迭代优化的光场深度自监督学习方法。该方法先采用自监督深度学习网络进行一次预训练,计算出遮挡区域掩模;然后在下一次训练过程中加入上一次的遮挡区域掩模,以优化光场深度估计结果,更新遮挡区域并送入下一次训练过程;进而实现遮挡区域的迭代优化,同时优化光场深度估计结果。
附图说明
图1为7×7米字型子光圈图像阵列示意图。
图2为遮挡mask示意图。
图3为本发明的主要步骤流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
一种基于遮挡区域迭代优化的光场深度自监督学习方法。
本发明所采用的技术步骤如下:
步骤S1:从光场图像中提取网络输入。
步骤S2:搭建自监督光场深度估计网络,网络输出为中心子光圈图像的视差图。
步骤S3:设计基于遮挡掩模的自监督学习损失函数,设定初始遮挡掩模为无遮挡情况。
步骤S4:优化基于遮挡掩模的自监督学习损失函数,训练自监督光场深度估计网络。
步骤S5:利用步骤S4中训练完成的自监督光场深度估计网络预测得到中心子光圈图像的视差图,计算中心子光圈图像的遮挡区域,更新遮挡掩模。
步骤S6:若更新前和更新后遮挡掩模的差异小于设定阈值,则退出迭代优化;否则返回步骤S4。
所述步骤S1具体包括:
步骤S1-1:使用海德堡图像处理实验室提供的4D光场数据集(K.Honauer,O.Johannsen,D.Kondermann,and B.Goldluecke,“A dataset and evaluationmethodology for depth estimation on 4D light fields,”in Asian Conference onComputer Vision,2016.)作为实验数据集,该数据集包含28个场景,并提供了中心子光圈图像的高精度视差图,以及视差估计的性能评估指标。采用光场双平面表示方法,将光场图像定义为LF(u,v,x,y,c),其中(u,v)为光场角度坐标,(x,y)是光场空间坐标,c为颜色通道,u的取值范围为[-U,U],v的取值范围为[-V,V],x的取值范围为[0,W-1],y的取值范围为[0,H-1],则光场图像包含了一组(2U+1)×(2V+1)的子光圈图像阵列;中心子光圈图像I0(x,y,c)表示为光场角度坐标为(0,0)的子光圈图像LF(0,0,x,y,c);光场角度坐标为(ui,vi)的子光圈图像记作为I(ui,vi)(x,y,c)=LF(ui,vi,x,y,c),每个子光圈图像大小为W×H;通常U=V=3,W=H=512。
步骤S1-2:以光场图像的中心子光圈图像为中心,提取一个米字型子光圈图像阵列作为自监督光场深度估计网络的输入,所提取的米字型子光圈图像阵列包含了子光圈图像为:水平方向子光圈图像I(u,0)(x,y,c)、垂直方向子光圈图像I(0,v)(x,y,c)、45度方向子光圈图像I(u,u)(x,y,c)和135度方向子光圈图像I(u,-u)(x,y,c),其中u的取值范围为[-U,U],v的取值范围为[-V,V],具体如图1所示。
步骤S1-3:对N×N的米字型子光圈图像阵列中的子光圈图像做归一化处理,并做随机数据增强,包括子光圈图像的左右翻转、上下翻转、亮度值改变。所述的归一化处理和随机数据增强为成熟技术。
所述步骤S2具体包括:
所述的自监督光场深度估计网络为一个包含了编码子网和解码子网的U型网络。编码子网通过卷积和下采样提取光场的深层特征信息,解码子网通过卷积和上采样将深层特征信息图尺寸恢复到输入图像尺寸,并得到中心子光圈图像的视差图。所述的编码子网和解码子网采用与UnsupervisedNet(Wenhui Zhou,Enci Zhou,Gaoming Liu,Lili Lin,Andrew Lumsdaine.“Unsupervised Monocular Depth Estimation from Light FieldImage”.IEEE Transactions on Image Processing,2020,29:1606-1617.)相同的网络结构。
所述步骤S3具体包括:
步骤S3-1:根据自监督光场深度估计网络输出的中心子光圈视差图d,将步骤S1-2中米字型子光圈图像阵列中每个子光圈图像投影到中心子光圈图像,组成一组中心子光圈投影图像。所述的投影过程具体为:
对于米字型子光圈图像阵列中水平方向子光圈图像I(u,0)(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出水平方向的中心子光圈投影图像I′(u,0)(x,y,c):
I′(u,0)(x,y,c)=I(u,0)(x-u·d,y,c) (1)
对于米字型子光圈图像阵列中垂直方向子光圈图像I(0,v)(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出垂直方向的中心子光圈投影图像I′(0,v)(x,y,c):
I′(0,v)(x,y,c)=I(0,v)(x,y-v·d,c) (2)
对于米字型子光圈图像阵列中45度方向子光圈图像I(u,u)(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出45度方向的中心子光圈投影图像I′(u,u)(x,y,c):
I′(u,u)(x,y,c)=I(u,u)(x-u·d,y-u·d,c) (3)
对于米字型子光圈图像阵列中135度方向子光圈图像I(u,-u)(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出135度方向的中心子光圈投影图像I′(u,-u)(x,y,c):
I′(u,-u)(x,y,c)=I(u,-u)(x-u·d,y+u·d,c) (4)
步骤S3-2:根据步骤S3-1中得到的中心子光圈投影图像和中心子光圈图像,计算光度一致性损失Lp,具体公式为:
其中Lp(u,v)为中心子光圈投影图像I′(u,v)(x,y,c)和中心子光圈图像I0(x,y,c)的光度一致性损失,具体公式为:
其中m(u,v)(x,y)为中心子光圈投影图像I′(u,v)(x,y,c)的遮挡掩模;β为权重,通常取值为0.85;SSIM(·)为两幅图像的结构相似性计算函数,其计算方法为成熟方法。
所述的遮挡掩模m(u,v)(x,y)是一个与中心子光圈投影图像I′(u,v)(x,y,c)尺寸相同的二值图像。遮挡掩模m(u,v)(x,y)中每个像素取值0或1。对于中心子光圈投影图像I′(u,v)(x,y,c)中像素(x,y),设定m(u,v)(x,y)=1表示像素(x,y)在子光圈图像I(u,v)(x,y,c)中可见(无遮挡);设定m(u,v)(x,y)=0表示像素(x,y)在子光圈图像I(u,v)(x,y,c)中不可见(存在遮挡)。设定初始时所有遮挡掩模m(u,v)(x,y)中的所有像素都为1。
所述步骤S4具体包括:
从4D光场数据集中随机选取一组(2U+1)×(2V+1)的米字型子光圈图像阵列,送到自监督光场深度估计网络;网络预测出中心子光圈视差图;计算光度一致性损失,通过误差反向传播和Adam优化算法,更新和优化自监督光场深度估计网络参数;经过一定的训练迭代次数后,得到一次训练完成的自监督光场深度估计网络模型。所述的误差反向传播和Adam优化算法为成熟技术。
所述步骤S5具体包括:
根据自监督光场深度估计网络输出的中心子光圈视差图d,为每个中心子光圈投影图像计算遮挡掩模。具体如图2所示,根据自监督光场深度估计网络输出的中心子光圈视差图d,为每个中心子光圈投影图像计算遮挡掩模,掩膜中黑色区域代表被遮挡的像素,白色区域代表未被遮挡的像素。
具体的遮挡掩模计算方法为:
对于中心子光圈图像中的每个像素(x,y),根据其视差值d(x,y),分别判断像素(x,y)在水平方向的遮挡情况,垂直方向的遮挡情况,45度方向的遮挡情况和135度方向的遮挡情况,从而更新遮挡掩模。
所述的水平方向遮挡情况判断方法具体为:对于中心子光圈图像中第y行像素(x+i,y),其视差值为d(x+i,y);若d(x+i,y)≤d(x,y),则像素(x,y)不会被像素(x+i,y)遮挡;若d(x+i,y)>d(x,y),则计算像素(x,y)和像素(x+i,y)的水平EPI交点u′,若-U≤u′≤U,则设置水平方向遮挡掩模的像素(x,y)值为1,即m(u′,0)(x,y)=1;遍历中心子光圈图像中第y行的所有像素,更新水平方向的遮挡掩模;所述的水平EPI交点u′计算公式为:
所述的垂直方向遮挡情况判断方法具体为:对于中心子光圈图像中第x列像素(x,y+i),其视差值为d(x,y+i);若d(x,y+i)≤d(x,y),则像素(x,y)不会被像素(x,y+i)遮挡;若d(x,y+i)>d(x,y),则计算像素(x,y)和像素(x,y+i)的垂直EPI交点v′,若-V≤v′≤V,则设置垂直方向遮挡掩模的像素(x,y)值为1,即m(0,v′)(x,y)=1;遍历中心子光圈图像中第x列的所有像素,更新垂直方向的遮挡掩模;所述的垂直EPI交点v′计算公式为:
所述的45度方向遮挡情况判断方法具体为:对于中心子光圈图像中45度方向像素(x+i,y+i),其视差值为d(x+i,y+i);若d(x+i,y+i)≤d(x,y),则像素(x,y)不会被像素(x+i,y+i)遮挡;若d(x+i,y+i)>d(x,y),则计算像素(x,y)和像素(x+i,y+i)的45度EPI交点u″,若-U≤u″≤U,则设置45度方向遮挡掩模的像素(x,y)值为1,即m(u″,u″)(x,y)=1;遍历中心子光圈图像中45度方向的所有像素,更新45度方向的遮挡掩模;所述的45度EPI交点u″计算公式为:
所述的135度方向遮挡情况判断方法具体为:对于中心子光圈图像中135度方向像素(x+i,y-i),其视差值为d(x+i,y-i);若d(x+i,y-i)≤d(x,y),则像素(x,y)不会被像素(x+i,y-i)遮挡;若d(x+i,y-i)>d(x,y),则计算像素(x,y)和像素(x+i,y-i)的135度EPI交点u″′,若-U≤u″′≤U,则设置135度方向遮挡掩模的像素(x,y)值为1,即m(u″′,-u″′)(x,y)=1;遍历中心子光圈图像中135度方向的所有像素,更新135度方向的遮挡掩模;所述的135度EPI交点u″′计算公式为:
所述步骤S6具体包括:
若遮挡掩模在步骤S5有更新,则将更新后的遮挡掩模代入到公式(5)和公式(6)中,并返回到步骤S4重新训练自监督光场深度估计网络。若遮挡掩模在步骤S5无更新,则退出迭代训练。
Claims (10)
1.基于遮挡区域迭代优化的光场深度自监督学习方法,其特征在于包括如下步骤:
步骤S1:从光场图像中提取网络输入;
步骤S2:搭建自监督光场深度估计网络,网络输出为中心子光圈图像的视差图;
步骤S3:设计基于遮挡掩模的自监督学习损失函数,设定初始遮挡掩模为无遮挡情况;
步骤S4:优化基于遮挡掩模的自监督学习损失函数,训练自监督光场深度估计网络;
步骤S5:利用步骤S4中训练完成的自监督光场深度估计网络预测得到中心子光圈图像的视差图,计算中心子光圈图像的遮挡区域,更新遮挡掩模;
步骤S6:若更新前和更新后遮挡掩模的差异小于设定阈值,则退出迭代优化;否则返回步骤S4。
2.根据权利要求1所述的基于遮挡区域迭代优化的光场深度自监督学习方法,其特征在于所述步骤S1具体包括:
步骤S1-1:使用海德堡图像处理实验室提供的4D光场数据集作为实验数据集,该数据集包含28个场景,并提供了中心子光圈图像的高精度视差图,以及视差估计的性能评估指标;采用光场双平面表示方法,将光场图像定义为LF(u,v,x,y,c),其中(u,v)为光场角度坐标,(x,y)是光场空间坐标,c为颜色通道,u的取值范围为[-U,U],v的取值范围为[-V,V],x的取值范围为[0,W-1],y的取值范围为[0,H-1],则光场图像包含了一组(2U+1)×(2V+1)的子光圈图像阵列;中心子光圈图像I0(x,y,c)表示为光场角度坐标为(0,0)的子光圈图像LF(0,0,x,y,c);光场角度坐标为(ui,vi)的子光圈图像记作为每个子光圈图像大小为W×H;通常U=V=3,W=H=512;
步骤S1-2:以光场图像的中心子光圈图像为中心,提取一个米字型子光圈图像阵列作为自监督光场深度估计网络的输入,所提取的米字型子光圈图像阵列包含了子光圈图像为:水平方向子光圈图像I(u,0)(x,y,c)、垂直方向子光圈图像I(0,v)(x,y,c)、45度方向子光圈图像I(u,u)(x,y,c)和135度方向子光圈图像I(u,-u)(x,y,c),其中u的取值范围为[-U,U],v的取值范围为[-V,V];
步骤S1-3:对N×N的米字型子光圈图像阵列中的子光圈图像做归一化处理,并做随机数据增强,包括子光圈图像的左右翻转、上下翻转、亮度值改变。
3.根据权利要求1所述的基于遮挡区域迭代优化的光场深度自监督学习方法,其特征在于步骤S2所述的自监督光场深度估计网络包含了编码子网和解码子网的U型网络。
4.根据权利要求1或2或3所述的基于遮挡区域迭代优化的光场深度自监督学习方法,其特征在于所述步骤S3具体包括:
步骤S3-1:根据自监督光场深度估计网络输出的中心子光圈视差图d,将步骤S1-2中米字型子光圈图像阵列中每个子光圈图像投影到中心子光圈图像,组成一组中心子光圈投影图像;所述的投影过程具体为:
对于米字型子光圈图像阵列中水平方向子光圈图像I(u,0)(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出水平方向的中心子光圈投影图像I′(u,0)(x,y,c):
I′(u,0)(x,y,c)=I(u,0)(x-u·d,y,c) (1)
对于米字型子光圈图像阵列中垂直方向子光圈图像I(0,v)(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出垂直方向的中心子光圈投影图像I′(0,v)(x,y,c):
I′(0,v)(x,y,c)=I(0,v)(x,y-v·d,c) (2)
对于米字型子光圈图像阵列中45度方向子光圈图像I(u,u)(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出45度方向的中心子光圈投影图像I′(u,u)(x,y,c):
I′(u,u)(x,y,c)=I(u,u)(x-u·d,y-u·d,c) (3)
对于米字型子光圈图像阵列中135度方向子光圈图像I(u,-u)(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出135度方向的中心子光圈投影图像I′(u,-u)(x,y,c):
I′(u,-u)(x,y,c)=I(u,-u)(x-u·d,y+u·d,c) (4)
步骤S3-2:根据步骤S3-1中得到的中心子光圈投影图像和中心子光圈图像,计算光度一致性损失Lp,具体公式为:
其中Lp(u,v)为中心子光圈投影图像I′(u,v)(x,y,c)和中心子光圈图像I0(x,y,c)的光度一致性损失,具体公式为:
其中m(u,v)(x,y)为中心子光圈投影图像I′(u,v)(x,y,c)的遮挡掩模;β为权重,通常取值为0.85;SSIM(·)为两幅图像的结构相似性计算函数。
5.根据权利要求4所述的基于遮挡区域迭代优化的光场深度自监督学习方法,其特征在于所述的遮挡掩模m(u,v)(x,y)是一个与中心子光圈投影图像I′(u,v)(x,y,c)尺寸相同的二值图像;遮挡掩模m(u,v)(x,y)中每个像素取值0或1;对于中心子光圈投影图像I′(u,v)(x,y,c)中像素(x,y),设定m(u,v)(x,y)=1表示像素(x,y)在子光圈图像I(u,v)(x,y,c)中可见;设定m(u,v)(x,y)=0表示像素(x,y)在子光圈图像I(u,v)(x,y,c)中不可见;设定初始时所有遮挡掩模m(u,v)(x,y)中的所有像素都为1。
6.根据权利要求5所述的基于遮挡区域迭代优化的光场深度自监督学习方法,其特征在于所述步骤S5具体包括:
根据自监督光场深度估计网络输出的中心子光圈视差图d,为每个中心子光圈投影图像计算遮挡掩模,具体的遮挡掩模计算方法为:
对于中心子光圈图像中的每个像素(x,y),根据其视差值d(x,y),分别判断像素(x,y)在水平方向的遮挡情况,垂直方向的遮挡情况,45度方向的遮挡情况和135度方向的遮挡情况,从而更新遮挡掩模。
9.根据权利要求8所述的基于遮挡区域迭代优化的光场深度自监督学习方法,其特征在于所述的45度方向遮挡情况判断方法具体为:对于中心子光圈图像中45度方向像素(x+i,y+i),其视差值为d(x+i,y+i);若d(x+i,y+i)≤d(x,y),则像素(x,y)不会被像素(x+i,y+i)遮挡;若d(x+i,y+i)>d(x,y),则计算像素(x,y)和像素(x+i,y+i)的45度EPI交点u″,若-U≤u″≤U,则设置45度方向遮挡掩模的像素(x,y)值为1,即m(u″,u″)(x,y)=1;遍历中心子光圈图像中45度方向的所有像素,更新45度方向的遮挡掩模;所述的45度EPI交点u″计算公式为:
10.根据权利要求9所述的基于遮挡区域迭代优化的光场深度自监督学习方法,其特征在于所述的135度方向遮挡情况判断方法具体为:对于中心子光圈图像中135度方向像素(x+i,y-i),其视差值为d(x+i,y-i);若d(x+i,y-i)≤d(x,y),则像素(x,y)不会被像素(x+i,y-i)遮挡;若d(x+i,y-i)>d(x,y),则计算像素(x,y)和像素(x+i,y-i)的135度EPI交点u″′,若-U≤u″′≤U,则设置135度方向遮挡掩模的像素(x,y)值为1,即m(u″′,-u″′)(x,y)=1;遍历中心子光圈图像中135度方向的所有像素,更新135度方向的遮挡掩模;所述的135度EPI交点u″′计算公式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011151995.3A CN112288789B (zh) | 2020-10-26 | 2020-10-26 | 基于遮挡区域迭代优化的光场深度自监督学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011151995.3A CN112288789B (zh) | 2020-10-26 | 2020-10-26 | 基于遮挡区域迭代优化的光场深度自监督学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112288789A true CN112288789A (zh) | 2021-01-29 |
CN112288789B CN112288789B (zh) | 2024-03-29 |
Family
ID=74424876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011151995.3A Active CN112288789B (zh) | 2020-10-26 | 2020-10-26 | 基于遮挡区域迭代优化的光场深度自监督学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112288789B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114972517A (zh) * | 2022-06-10 | 2022-08-30 | 上海人工智能创新中心 | 一种基于raft的自监督深度估计方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180114328A1 (en) * | 2015-05-15 | 2018-04-26 | Graduate School At Shenzhen, Tsinghua University | Depth estimation method based on light-field data distribution |
CN108320020A (zh) * | 2018-02-07 | 2018-07-24 | 深圳市唯特视科技有限公司 | 一种基于双向光流的端到端无监督学习方法 |
CN110163246A (zh) * | 2019-04-08 | 2019-08-23 | 杭州电子科技大学 | 基于卷积神经网络的单目光场图像无监督深度估计方法 |
CN111325794A (zh) * | 2020-02-23 | 2020-06-23 | 哈尔滨工业大学 | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 |
-
2020
- 2020-10-26 CN CN202011151995.3A patent/CN112288789B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180114328A1 (en) * | 2015-05-15 | 2018-04-26 | Graduate School At Shenzhen, Tsinghua University | Depth estimation method based on light-field data distribution |
CN108320020A (zh) * | 2018-02-07 | 2018-07-24 | 深圳市唯特视科技有限公司 | 一种基于双向光流的端到端无监督学习方法 |
CN110163246A (zh) * | 2019-04-08 | 2019-08-23 | 杭州电子科技大学 | 基于卷积神经网络的单目光场图像无监督深度估计方法 |
CN111325794A (zh) * | 2020-02-23 | 2020-06-23 | 哈尔滨工业大学 | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114972517A (zh) * | 2022-06-10 | 2022-08-30 | 上海人工智能创新中心 | 一种基于raft的自监督深度估计方法 |
CN114972517B (zh) * | 2022-06-10 | 2024-05-31 | 上海人工智能创新中心 | 一种基于raft的自监督深度估计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112288789B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111739078B (zh) | 一种基于上下文注意力机制的单目无监督深度估计方法 | |
CN110324664B (zh) | 一种基于神经网络的视频补帧方法及其模型的训练方法 | |
CN110363716B (zh) | 一种基于条件生成对抗网络复合降质图像高质量重建方法 | |
CN111028150B (zh) | 一种快速时空残差注意力视频超分辨率重建方法 | |
CN111508013B (zh) | 立体匹配方法 | |
CN108376392B (zh) | 一种基于卷积神经网络的图像运动模糊去除方法 | |
CN111259945B (zh) | 引入注意力图谱的双目视差估计方法 | |
WO2018000752A1 (zh) | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 | |
CN111986084B (zh) | 一种基于多任务融合的多相机低光照图像质量增强方法 | |
CN110896467B (zh) | 用于恢复图像的方法和设备 | |
WO2018082185A1 (zh) | 图像处理方法和装置 | |
CN111524068A (zh) | 一种基于深度学习的变长输入超分辨率视频重建方法 | |
CN115393410A (zh) | 一种基于神经辐射场和语义分割的单目视图深度估计方法 | |
CN114897752A (zh) | 一种基于深度学习的单透镜大景深计算成像系统及方法 | |
CN112750092A (zh) | 训练数据获取方法、像质增强模型与方法及电子设备 | |
CN106257537A (zh) | 一种基于光场信息的空间深度提取方法 | |
CN115209119A (zh) | 一种基于深度神经网络的视频自动着色方法 | |
Dong et al. | A colorization framework for monochrome-color dual-lens systems using a deep convolutional network | |
Chandramouli et al. | A generative model for generic light field reconstruction | |
CN112288789B (zh) | 基于遮挡区域迭代优化的光场深度自监督学习方法 | |
CN117115058A (zh) | 基于轻量特征提取和颜色恢复的弱光图像融合方法 | |
CN111951159B (zh) | 一种强噪声条件下光场epi图像超分辨率的处理方法 | |
CN109934863B (zh) | 一种基于密集连接型卷积神经网络的光场深度信息估计方法 | |
CN114339064A (zh) | 一种基于熵权图像梯度的贝叶斯优化曝光控制方法 | |
CN116711295A (zh) | 图像处理方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |