CN112288789B - 基于遮挡区域迭代优化的光场深度自监督学习方法 - Google Patents

基于遮挡区域迭代优化的光场深度自监督学习方法 Download PDF

Info

Publication number
CN112288789B
CN112288789B CN202011151995.3A CN202011151995A CN112288789B CN 112288789 B CN112288789 B CN 112288789B CN 202011151995 A CN202011151995 A CN 202011151995A CN 112288789 B CN112288789 B CN 112288789B
Authority
CN
China
Prior art keywords
sub
aperture
image
light field
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011151995.3A
Other languages
English (en)
Other versions
CN112288789A (zh
Inventor
周文晖
洪勇杰
莫良言
张桦
戴国骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011151995.3A priority Critical patent/CN112288789B/zh
Publication of CN112288789A publication Critical patent/CN112288789A/zh
Application granted granted Critical
Publication of CN112288789B publication Critical patent/CN112288789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/557Depth or shape recovery from multiple images from light fields, e.g. from plenoptic cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10052Images from lightfield camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20228Disparity calculation for image-based rendering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于遮挡区域迭代优化的光场深度自监督学习方法。本发明步骤如下:S1:从光场图像中提取网络输入;S2:搭建自监督光场深度估计网络,网络输出为中心子光圈图像的视差图。S3:设计基于遮挡掩模的自监督学习损失函数,设定初始遮挡掩模为无遮挡情况。S4:优化基于遮挡掩模的自监督学习损失函数,训练自监督光场深度估计网络。S5:利用步骤S4中训练完成的自监督光场深度估计网络预测得到中心子光圈图像的视差图,计算中心子光圈图像的遮挡区域,更新遮挡掩模。S6:若更新前和更新后遮挡掩模的差异小于设定阈值,则退出迭代优化;否则返回步骤S4。本发明实现遮挡区域的迭代优化,同时优化光场深度估计结果。

Description

基于遮挡区域迭代优化的光场深度自监督学习方法
技术领域
本发明是关于计算摄影学和计算机视觉技术领域,尤其涉及到了一种基于遮挡区域迭代优化的光场深度自监督学习方法。
背景技术
光场相机通过在传统相机的图像传感器和主镜头间增加一个微透镜阵列,从而可以记录下入射光线的四维光场图像(二维空间信息和二维角度信息)。经过维度重排列后,四维光场图像可看作为一组多视点的子光圈图像阵列。由于光场图像中包含了丰富的光线信息,以及具有数字重对焦等特性,近年来基于光场图像的场景深度估计研究获得了越来越多的关注。
从光场图像中估计场景深度主要可分为两类:传统方法和基于深度学习的方法。传统方法通常都是利用光场图像中的几何一致性、光度一致性、深度线索、散焦线索等光场成像几何特性或假定,将深度估计问题转换为某个目标函数的最优问题,然后采用传统优化算法估计出光场深度。基于深度学习的光场深度估计方法是通过设计一个从端到端的深度神经网络,并采用卷积操作从光场图像中提取深层语义特征,然后设定一组有监督或无监督损失函数,进而预测出光场深度信息。近年来,基于有监督深度学习的光场深度估计方法已取得了显著成功,但这些方法的性能往往依赖于具有真实场景深度信息的光场数据集的质量和数量。由于获取具有真实场景深度信息的光场数据集非常困难,因此基于自监督学习的光场深度估计方法越来越受关注。自监督学习方法的主要优点在于它能在缺少真实场景深度信息的情况下,利用光场几何特性和约束实现自监督学习,可有效克服训练数据集不足的问题。
现有自监督学习方法中的损失函数设计通常都是基于光场图像的几何特性和约束,缺少对深度不连续和遮挡区域的考虑。本发明根据光场子光圈图像排列的对称性,利用光场子光圈之间的遮挡区域互补特性,提出了基于遮挡区域迭代优化的光场深度自监督学习方法。该方法先采用自监督深度学习网络进行一次预训练,计算出遮挡区域掩模;然后在下一次训练过程中加入上一次的遮挡区域掩模,以优化光场深度估计结果,更新遮挡区域并送入下一次训练过程;进而实现遮挡区域的迭代优化,同时优化光场深度估计结果。
发明内容
本发明的目的是为克服上述现有自监督学习方法存在的不足,利用子光圈图像之间的遮挡区域互补特性,提供一种基于遮挡区域迭代优化的光场深度自监督学习方法。
本发明所采用的技术步骤如下:
步骤S1:从光场图像中提取网络输入。
步骤S2:搭建自监督光场深度估计网络,网络输出为中心子光圈图像的视差图。
步骤S3:设计基于遮挡掩模的自监督学习损失函数,设定初始遮挡掩模为无遮挡情况。
步骤S4:优化基于遮挡掩模的自监督学习损失函数,训练自监督光场深度估计网络。
步骤S5:利用步骤S4中训练完成的自监督光场深度估计网络预测得到中心子光圈图像的视差图,计算中心子光圈图像的遮挡区域,更新遮挡掩模。
步骤S6:若更新前和更新后遮挡掩模的差异小于设定阈值,则退出迭代优化;否则返回步骤S4。
所述步骤S1具体包括:
步骤S1-1:使用海德堡图像处理实验室提供的4D光场数据集作为实验数据集,该数据集包含28个场景,并提供了中心子光圈图像的高精度视差图,以及视差估计的性能评估指标。采用光场双平面表示方法,将光场图像定义为LF(u,v,x,y,c),其中(u,v)为光场角度坐标,(x,y)是光场空间坐标,c为颜色通道,u的取值范围为[-U,U],v的取值范围为[-V,V],x的取值范围为[0,W-1],y的取值范围为[0,H-1],则光场图像包含了一组(2U+1)×(2V+1)的子光圈图像阵列;中心子光圈图像I0(x,y,c)表示为光场角度坐标为(0,0)的子光圈图像LF(0,0,x,y,c);光场角度坐标为(ui,vi)的子光圈图像记作为I(ui,vi)(x,y,c)=LF(ui,vi,x,y,c),每个子光圈图像大小为W×H;通常U=V=3,W=H=512。
步骤S1-2:以光场图像的中心子光圈图像为中心,提取一个米字型子光圈图像阵列作为自监督光场深度估计网络的输入,所提取的米字型子光圈图像阵列包含了子光圈图像为:水平方向子光圈图像I(u,0)(x,y,c)、垂直方向子光圈图像I(0,v)(x,y,c)、45度方向子光圈图像I(u,u)(x,y,c)和135度方向子光圈图像I(u,-u)(x,y,c),其中u的取值范围为[-U,U],v的取值范围为[-V,V],具体如图1所示。
步骤S1-3:对N×N的米字型子光圈图像阵列中的子光圈图像做归一化处理,并做随机数据增强,包括子光圈图像的左右翻转、上下翻转、亮度值改变。所述的归一化处理和随机数据增强为成熟技术。
所述步骤S2具体包括:
所述的自监督光场深度估计网络为一个包含了编码子网和解码子网的U型网络。编码子网通过卷积和下采样提取光场的深层特征信息,解码子网通过卷积和上采样将深层特征信息图尺寸恢复到输入图像尺寸,并得到中心子光圈图像的视差图。
所述步骤S3具体包括:
步骤S3-1:根据自监督光场深度估计网络输出的中心子光圈视差图d,将步骤S1-2中米字型子光圈图像阵列中每个子光圈图像投影到中心子光圈图像,组成一组中心子光圈投影图像。所述的投影过程具体为:
对于米字型子光圈图像阵列中水平方向子光圈图像I(u,0)(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出水平方向的中心子光圈投影图像I′(u,0)(x,y,c):
I′(u,0)(x,y,c)=I(u,0)(x-u·d,y,c) (1)
对于米字型子光圈图像阵列中垂直方向子光圈图像I(0,v)(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出垂直方向的中心子光圈投影图像I′(0,v)(x,y,c):
I′(0,v)(x,y,c)=I(0,v)(x,y-v·d,c) (2)
对于米字型子光圈图像阵列中45度方向子光圈图像I(u,u)(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出45度方向的中心子光圈投影图像I′(u,u)(x,y,c):
I′(u,u)(x,y,c)=I(u,u)(x-u·d,y-u·d,c) (3)
对于米字型子光圈图像阵列中135度方向子光圈图像I(u,-u)(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出135度方向的中心子光圈投影图像I′(u,-u)(x,y,c):
I′(u,-u)(x,y,c)=I(u,-u)(x-u·d,y+u·d,c) (4)
步骤S3-2:根据步骤S3-1中得到的中心子光圈投影图像和中心子光圈图像,计算光度一致性损失Lp,具体公式为:
其中Lp(u,v)为中心子光圈投影图像I′(u,v)(x,y,c)和中心子光圈图像I0(x,y,c)的光度一致性损失,具体公式为:
其中m(u,v)(x,y)为中心子光圈投影图像I′(u,v)(x,y,c)的遮挡掩模;β为权重,通常取值为0.85;SSIM(·)为两幅图像的结构相似性计算函数,其计算方法为成熟方法。
所述的遮挡掩模m(u,v)(x,y)是一个与中心子光圈投影图像I′(u,v)(x,y,c)尺寸相同的二值图像。遮挡掩模m(u,v)(x,y)中每个像素取值0或1。对于中心子光圈投影图像I′(u,v)(x,y,c)中像素(x,y),设定m(u,v)(x,y)=1表示像素(x,y)在子光圈图像I(u,v)(x,y,c)中可见(无遮挡);设定m(u,v)(x,y)=0表示像素(x,y)在子光圈图像I(u,v)(x,y,c)中不可见(存在遮挡)。设定初始时所有遮挡掩模m(u,v)(x,y)中的所有像素都为1。
所述步骤S4具体包括:
从4D光场数据集中随机选取一组(2U+1)×(2V+1)的米字型子光圈图像阵列,送到自监督光场深度估计网络;网络预测出中心子光圈视差图;计算光度一致性损失,通过误差反向传播和Adam优化算法,更新和优化自监督光场深度估计网络参数;经过一定的训练迭代次数后,得到一次训练完成的自监督光场深度估计网络模型。所述的误差反向传播和Adam优化算法为成熟技术。
所述步骤S5具体包括:
根据自监督光场深度估计网络输出的中心子光圈视差图d,为每个中心子光圈投影图像计算遮挡掩模。具体如图2所示,根据自监督光场深度估计网络输出的中心子光圈视差图d,为每个中心子光圈投影图像计算遮挡掩模,掩膜中黑色区域代表被遮挡的像素,白色区域代表未被遮挡的像素。
具体的遮挡掩模计算方法为:
对于中心子光圈图像中的每个像素(x,y),根据其视差值d(x,y),分别判断像素(x,y)在水平方向的遮挡情况,垂直方向的遮挡情况,45度方向的遮挡情况和135度方向的遮挡情况,从而更新遮挡掩模。
所述的水平方向遮挡情况判断方法具体为:对于中心子光圈图像中第y行像素(x+i,y),其视差值为d(x+i,y);若d(x+i,y)≤d(x,y),则像素(x,y)不会被像素(x+i,y)遮挡;若d(x+i,y)>d(x,y),则计算像素(x,y)和像素(x+i,y)的水平EPI交点u′,若-U≤u′≤U,则设置水平方向遮挡掩模的像素(x,y)值为1,即m(u′,0)(x,y)=1;遍历中心子光圈图像中第y行的所有像素,更新水平方向的遮挡掩模;所述的水平EPI交点u′计算公式为:
所述的垂直方向遮挡情况判断方法具体为:对于中心子光圈图像中第x列像素(x,y+i),其视差值为d(x,y+i);若d(x,y+i)≤d(x,y),则像素(x,y)不会被像素(x,y+i)遮挡;若d(x,y+i)>d(x,y),则计算像素(x,y)和像素(x,y+i)的垂直EPI交点v′,若-V≤v′≤V,则设置垂直方向遮挡掩模的像素(x,y)值为1,即m(0,v′)(x,y)=1;遍历中心子光圈图像中第x列的所有像素,更新垂直方向的遮挡掩模;所述的垂直EPI交点v′计算公式为:
所述的45度方向遮挡情况判断方法具体为:对于中心子光圈图像中45度方向像素(x+i,y+i),其视差值为d(x+i,y+i);若d(x+i,y+i)≤d(x,y),则像素(x,y)不会被像素(x+i,y+i)遮挡;若d(x+i,y+i)>d(x,y),则计算像素(x,y)和像素(x+i,y+i)的45度EPI交点u″,若-U≤u″≤U,则设置45度方向遮挡掩模的像素(x,y)值为1,即m(u″,u″)(x,y)=1;遍历中心子光圈图像中45度方向的所有像素,更新45度方向的遮挡掩模;所述的45度EPI交点u″计算公式为:
所述的135度方向遮挡情况判断方法具体为:对于中心子光圈图像中135度方向像素(x+i,y-i),其视差值为d(x+i,y-i);若d(x+i,y-i)≤d(x,y),则像素(x,y)不会被像素(x+i,y-i)遮挡;若d(x+i,y-i)>d(x,y),则计算像素(x,y)和像素(x+i,y-i)的135度EPI交点u″′,若-U≤u″′≤U,则设置135度方向遮挡掩模的像素(x,y)值为1,即m(u″′,-u″′)(x,y)=1;遍历中心子光圈图像中135度方向的所有像素,更新135度方向的遮挡掩模;所述的135度EPI交点u″′计算公式为:
所述步骤S6具体包括:
若遮挡掩模在步骤S5有更新,则将更新后的遮挡掩模代入到公式(5)和公式(6)中,并返回到步骤S4重新训练自监督光场深度估计网络。若遮挡掩模在步骤S5无更新,则退出迭代训练。
本发明有益效果如下:
本发明根据光场子光圈图像排列的对称性,利用光场子光圈之间的遮挡区域互补特性,提出了基于遮挡区域迭代优化的光场深度自监督学习方法。该方法先采用自监督深度学习网络进行一次预训练,计算出遮挡区域掩模;然后在下一次训练过程中加入上一次的遮挡区域掩模,以优化光场深度估计结果,更新遮挡区域并送入下一次训练过程;进而实现遮挡区域的迭代优化,同时优化光场深度估计结果。
附图说明
图1为7×7米字型子光圈图像阵列示意图。
图2为遮挡mask示意图。
图3为本发明的主要步骤流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
一种基于遮挡区域迭代优化的光场深度自监督学习方法。
本发明所采用的技术步骤如下:
步骤S1:从光场图像中提取网络输入。
步骤S2:搭建自监督光场深度估计网络,网络输出为中心子光圈图像的视差图。
步骤S3:设计基于遮挡掩模的自监督学习损失函数,设定初始遮挡掩模为无遮挡情况。
步骤S4:优化基于遮挡掩模的自监督学习损失函数,训练自监督光场深度估计网络。
步骤S5:利用步骤S4中训练完成的自监督光场深度估计网络预测得到中心子光圈图像的视差图,计算中心子光圈图像的遮挡区域,更新遮挡掩模。
步骤S6:若更新前和更新后遮挡掩模的差异小于设定阈值,则退出迭代优化;否则返回步骤S4。
所述步骤S1具体包括:
步骤S1-1:使用海德堡图像处理实验室提供的4D光场数据集(K.Honauer,O.Johannsen,D.Kondermann,and B.Goldluecke,“A dataset and evaluationmethodology for depth estimation on 4D light fields,”in Asian Conference onComputer Vision,2016.)作为实验数据集,该数据集包含28个场景,并提供了中心子光圈图像的高精度视差图,以及视差估计的性能评估指标。采用光场双平面表示方法,将光场图像定义为LF(u,v,x,y,c),其中(u,v)为光场角度坐标,(x,y)是光场空间坐标,c为颜色通道,u的取值范围为[-U,U],v的取值范围为[-V,V],x的取值范围为[0,W-1],y的取值范围为[0,H-1],则光场图像包含了一组(2U+1)×(2V+1)的子光圈图像阵列;中心子光圈图像I0(x,y,c)表示为光场角度坐标为(0,0)的子光圈图像LF(0,0,x,y,c);光场角度坐标为(ui,vi)的子光圈图像记作为I(ui,vi)(x,y,c)=LF(ui,vi,x,y,c),每个子光圈图像大小为W×H;通常U=V=3,W=H=512。
步骤S1-2:以光场图像的中心子光圈图像为中心,提取一个米字型子光圈图像阵列作为自监督光场深度估计网络的输入,所提取的米字型子光圈图像阵列包含了子光圈图像为:水平方向子光圈图像I(u,0)(x,y,c)、垂直方向子光圈图像I(0,v)(x,y,c)、45度方向子光圈图像I(u,u)(x,y,c)和135度方向子光圈图像I(u,-u)(x,y,c),其中u的取值范围为[-U,U],v的取值范围为[-V,V],具体如图1所示。
步骤S1-3:对N×N的米字型子光圈图像阵列中的子光圈图像做归一化处理,并做随机数据增强,包括子光圈图像的左右翻转、上下翻转、亮度值改变。所述的归一化处理和随机数据增强为成熟技术。
所述步骤S2具体包括:
所述的自监督光场深度估计网络为一个包含了编码子网和解码子网的U型网络。编码子网通过卷积和下采样提取光场的深层特征信息,解码子网通过卷积和上采样将深层特征信息图尺寸恢复到输入图像尺寸,并得到中心子光圈图像的视差图。所述的编码子网和解码子网采用与UnsupervisedNet(Wenhui Zhou,Enci Zhou,Gaoming Liu,Lili Lin,Andrew Lumsdaine.“Unsupervised Monocular Depth Estimation from Light FieldImage”.IEEE Transactions on Image Processing,2020,29:1606-1617.)相同的网络结构。
所述步骤S3具体包括:
步骤S3-1:根据自监督光场深度估计网络输出的中心子光圈视差图d,将步骤S1-2中米字型子光圈图像阵列中每个子光圈图像投影到中心子光圈图像,组成一组中心子光圈投影图像。所述的投影过程具体为:
对于米字型子光圈图像阵列中水平方向子光圈图像I(u,0)(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出水平方向的中心子光圈投影图像I′(u,0)(x,y,c):
I′(u,0)(x,y,c)=I(u,0)(x-u·d,y,c) (1)
对于米字型子光圈图像阵列中垂直方向子光圈图像I(0,v)(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出垂直方向的中心子光圈投影图像I′(0,v)(x,y,c):
I′(0,v)(x,y,c)=I(0,v)(x,y-v·d,c) (2)
对于米字型子光圈图像阵列中45度方向子光圈图像I(u,u)(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出45度方向的中心子光圈投影图像I′(u,u)(x,y,c):
I′(u,u)(x,y,c)=I(u,u)(x-u·d,y-u·d,c) (3)
对于米字型子光圈图像阵列中135度方向子光圈图像I(u,-u)(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出135度方向的中心子光圈投影图像I′(u,-u)(x,y,c):
I′(u,-u)(x,y,c)=I(u,-u)(x-u·d,y+u·d,c) (4)
步骤S3-2:根据步骤S3-1中得到的中心子光圈投影图像和中心子光圈图像,计算光度一致性损失Lp,具体公式为:
其中Lp(u,v)为中心子光圈投影图像I′(u,v)(x,y,c)和中心子光圈图像I0(x,y,c)的光度一致性损失,具体公式为:
其中m(u,v)(x,y)为中心子光圈投影图像I′(u,v)(x,y,c)的遮挡掩模;β为权重,通常取值为0.85;SSIM(·)为两幅图像的结构相似性计算函数,其计算方法为成熟方法。
所述的遮挡掩模m(u,v)(x,y)是一个与中心子光圈投影图像I′(u,v)(x,y,c)尺寸相同的二值图像。遮挡掩模m(u,v)(x,y)中每个像素取值0或1。对于中心子光圈投影图像I′(u,v)(x,y,c)中像素(x,y),设定m(u,v)(x,y)=1表示像素(x,y)在子光圈图像I(u,v)(x,y,c)中可见(无遮挡);设定m(u,v)(x,y)=0表示像素(x,y)在子光圈图像I(u,v)(x,y,c)中不可见(存在遮挡)。设定初始时所有遮挡掩模m(u,v)(x,y)中的所有像素都为1。
所述步骤S4具体包括:
从4D光场数据集中随机选取一组(2U+1)×(2V+1)的米字型子光圈图像阵列,送到自监督光场深度估计网络;网络预测出中心子光圈视差图;计算光度一致性损失,通过误差反向传播和Adam优化算法,更新和优化自监督光场深度估计网络参数;经过一定的训练迭代次数后,得到一次训练完成的自监督光场深度估计网络模型。所述的误差反向传播和Adam优化算法为成熟技术。
所述步骤S5具体包括:
根据自监督光场深度估计网络输出的中心子光圈视差图d,为每个中心子光圈投影图像计算遮挡掩模。具体如图2所示,根据自监督光场深度估计网络输出的中心子光圈视差图d,为每个中心子光圈投影图像计算遮挡掩模,掩膜中黑色区域代表被遮挡的像素,白色区域代表未被遮挡的像素。
具体的遮挡掩模计算方法为:
对于中心子光圈图像中的每个像素(x,y),根据其视差值d(x,y),分别判断像素(x,y)在水平方向的遮挡情况,垂直方向的遮挡情况,45度方向的遮挡情况和135度方向的遮挡情况,从而更新遮挡掩模。
所述的水平方向遮挡情况判断方法具体为:对于中心子光圈图像中第y行像素(x+i,y),其视差值为d(x+i,y);若d(x+i,y)≤d(x,y),则像素(x,y)不会被像素(x+i,y)遮挡;若d(x+i,y)>d(x,y),则计算像素(x,y)和像素(x+i,y)的水平EPI交点u′,若-U≤u′≤U,则设置水平方向遮挡掩模的像素(x,y)值为1,即m(u′,0)(x,y)=1;遍历中心子光圈图像中第y行的所有像素,更新水平方向的遮挡掩模;所述的水平EPI交点u′计算公式为:
所述的垂直方向遮挡情况判断方法具体为:对于中心子光圈图像中第x列像素(x,y+i),其视差值为d(x,y+i);若d(x,y+i)≤d(x,y),则像素(x,y)不会被像素(x,y+i)遮挡;若d(x,y+i)>d(x,y),则计算像素(x,y)和像素(x,y+i)的垂直EPI交点v′,若-V≤v′≤V,则设置垂直方向遮挡掩模的像素(x,y)值为1,即m(0,v′)(x,y)=1;遍历中心子光圈图像中第x列的所有像素,更新垂直方向的遮挡掩模;所述的垂直EPI交点v′计算公式为:
所述的45度方向遮挡情况判断方法具体为:对于中心子光圈图像中45度方向像素(x+i,y+i),其视差值为d(x+i,y+i);若d(x+i,y+i)≤d(x,y),则像素(x,y)不会被像素(x+i,y+i)遮挡;若d(x+i,y+i)>d(x,y),则计算像素(x,y)和像素(x+i,y+i)的45度EPI交点u″,若-U≤u″≤U,则设置45度方向遮挡掩模的像素(x,y)值为1,即m(u″,u″)(x,y)=1;遍历中心子光圈图像中45度方向的所有像素,更新45度方向的遮挡掩模;所述的45度EPI交点u″计算公式为:
所述的135度方向遮挡情况判断方法具体为:对于中心子光圈图像中135度方向像素(x+i,y-i),其视差值为d(x+i,y-i);若d(x+i,y-i)≤d(x,y),则像素(x,y)不会被像素(x+i,y-i)遮挡;若d(x+i,y-i)>d(x,y),则计算像素(x,y)和像素(x+i,y-i)的135度EPI交点u″′,若-U≤u″′≤U,则设置135度方向遮挡掩模的像素(x,y)值为1,即m(u″′,-u″′)(x,y)=1;遍历中心子光圈图像中135度方向的所有像素,更新135度方向的遮挡掩模;所述的135度EPI交点u″′计算公式为:
所述步骤S6具体包括:
若遮挡掩模在步骤S5有更新,则将更新后的遮挡掩模代入到公式(5)和公式(6)中,并返回到步骤S4重新训练自监督光场深度估计网络。若遮挡掩模在步骤S5无更新,则退出迭代训练。

Claims (8)

1.基于遮挡区域迭代优化的光场深度自监督学习方法,其特征在于包括如下步骤:
步骤S1:从光场图像中提取网络输入;
步骤S2:搭建自监督光场深度估计网络,网络输出为中心子光圈图像的视差图;
步骤S3:设计基于遮挡掩模的自监督学习损失函数,设定初始遮挡掩模为无遮挡情况;
步骤S4:优化基于遮挡掩模的自监督学习损失函数,训练自监督光场深度估计网络;
步骤S5:利用步骤S4中训练完成的自监督光场深度估计网络预测得到中心子光圈图像的视差图,计算中心子光圈图像的遮挡区域,更新遮挡掩模;
步骤S6:若更新前和更新后遮挡掩模的差异小于设定阈值,则退出迭代优化;否则返回步骤S4;
所述步骤S1具体包括:
步骤S1-1:使用海德堡图像处理实验室提供的4D光场数据集作为实验数据集,该数据集包含28个场景,并提供了中心子光圈图像的高精度视差图,以及视差估计的性能评估指标;采用光场双平面表示方法,将光场图像定义为LF(u,v,x,y,c),其中(u,v)为光场角度坐标,(x,y)是光场空间坐标,c为颜色通道,u的取值范围为[-U,U],v的取值范围为[-V,V],x的取值范围为[0,W-1],y的取值范围为[0,H-1],则光场图像包含了一组(2U+1)×(2V+1)的子光圈图像阵列;中心子光圈图像I0(x,y,c)表示为光场角度坐标为(0,0)的子光圈图像LF(0,0,x,y,c);光场角度坐标为(ui,vi)的子光圈图像记作为每个子光圈图像大小为W×H;通常U=V=3,W=H=512;
步骤S1-2:以光场图像的中心子光圈图像为中心,提取一个米字型子光圈图像阵列作为自监督光场深度估计网络的输入,所提取的米字型子光圈图像阵列包含了子光圈图像为:水平方向子光圈图像I(u,0)(x,y,c)、垂直方向子光圈图像I(0,v)(x,y,c)、45度方向子光圈图像I(u,u)(x,y,c)和135度方向子光圈图像I(u,-u)(x,y,c),其中u的取值范围为[-U,U],v的取值范围为[-V,V];
步骤S1-3:对N×N的米字型子光圈图像阵列中的子光圈图像做归一化处理,并做随机数据增强,包括子光圈图像的左右翻转、上下翻转、亮度值改变;
所述步骤S3具体包括:
步骤S3-1:根据自监督光场深度估计网络输出的中心子光圈视差图d,将步骤S1-2中米字型子光圈图像阵列中每个子光圈图像投影到中心子光圈图像,组成一组中心子光圈投影图像;投影过程具体为:
对于米字型子光圈图像阵列中水平方向子光圈图像I(u,0)(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出水平方向的中心子光圈投影图像I′(u,0)(x,y,c):
I′(u,0)(x,y,c)=I(u,0)(x-u·d,y,c) (1)
对于米字型子光圈图像阵列中垂直方向子光圈图像I(0,v)(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出垂直方向的中心子光圈投影图像I′(0,v)(x,y,c):
I′(0,v)(x,y,c)=I(0,v)(x,y-v·d,c) (2)
对于米字型子光圈图像阵列中45度方向子光圈图像I(u,u)(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出45度方向的中心子光圈投影图像I′(u,u)(x,y,c):
I′(u,u)(x,y,c)=I(u,u)(x-u·d,y-u·d,c) (3)
对于米字型子光圈图像阵列中135度方向子光圈图像I(u,-u)(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出135度方向的中心子光圈投影图像I′(u,-u)(x,y,c):
I′(u,-u)(x,y,c)=I(u,-u)(x-u·d,y+u·d,c) (4)
步骤S3-2:根据步骤S3-1中得到的中心子光圈投影图像和中心子光圈图像,计算光度一致性损失Lp,具体公式为:
其中Lp(u,v)为中心子光圈投影图像I′(u,v)(x,y,c)和中心子光圈图像I0(x,y,c)的光度一致性损失,具体公式为:
其中m(u,v)(x,y)为中心子光圈投影图像I′(u,v)(x,y,c)的遮挡掩模;β为权重,通常取值为0.85;SSIM(·)为两幅图像的结构相似性计算函数。
2.根据权利要求1所述的基于遮挡区域迭代优化的光场深度自监督学习方法,其特征在于步骤S2所述的自监督光场深度估计网络包含了编码子网和解码子网的U型网络。
3.根据权利要求1所述的基于遮挡区域迭代优化的光场深度自监督学习方法,其特征在于所述的遮挡掩模m(u,v)(x,y)是一个与中心子光圈投影图像I′(u,v)(x,y,c)尺寸相同的二值图像;遮挡掩模m(u,v)(x,y)中每个像素取值0或1;对于中心子光圈投影图像I′(u,v)(x,y,c)中像素(x,y),设定m(u,v)(x,y)=1表示像素(x,y)在子光圈图像I(u,v)(x,y,c)中可见;设定m(u,v)(x,y)=0表示像素(x,y)在子光圈图像I(u,v)(x,y,c)中不可见;设定初始时所有遮挡掩模m(u,v)(x,y)中的所有像素都为1。
4.根据权利要求3所述的基于遮挡区域迭代优化的光场深度自监督学习方法,其特征在于所述步骤S5具体包括:
根据自监督光场深度估计网络输出的中心子光圈视差图d,为每个中心子光圈投影图像计算遮挡掩模,具体的遮挡掩模计算方法为:
对于中心子光圈图像中的每个像素(x,y),根据其视差值d(x,y),分别判断像素(x,y)在水平方向的遮挡情况,垂直方向的遮挡情况,45度方向的遮挡情况和135度方向的遮挡情况,从而更新遮挡掩模。
5.根据权利要求4所述的基于遮挡区域迭代优化的光场深度自监督学习方法,其特征在于所述的水平方向遮挡情况判断方法具体为:对于中心子光圈图像中第y行像素(x+i,y),其视差值为d(x+i,y);若d(x+i,y)≤d(x,y),则像素(x,y)不会被像素(x+i,y)遮挡;若d(x+i,y)>d(x,y),则计算像素(x,y)和像素(x+i,y)的水平EPI交点u′,若-U≤u′≤U,则设置水平方向遮挡掩模的像素(x,y)值为1,即m(u′,0)(x,y)=1;遍历中心子光圈图像中第y行的所有像素,更新水平方向的遮挡掩模;所述的水平EPI交点u′计算公式为:
6.根据权利要求5所述的基于遮挡区域迭代优化的光场深度自监督学习方法,其特征在于所述的垂直方向遮挡情况判断方法具体为:对于中心子光圈图像中第x列像素(x,y+i),其视差值为d(x,y+i);若d(x,y+i)≤d(x,y),则像素(x,y)不会被像素(x,y+i)遮挡;若d(x,y+i)>d(x,y),则计算像素(x,y)和像素(x,y+i)的垂直EPI交点v′,若-V≤v′≤V,则设置垂直方向遮挡掩模的像素(x,y)值为1,即m(0,v′)(x,y)=1;遍历中心子光圈图像中第x列的所有像素,更新垂直方向的遮挡掩模;所述的垂直EPI交点v′计算公式为:
7.根据权利要求6所述的基于遮挡区域迭代优化的光场深度自监督学习方法,其特征在于所述的45度方向遮挡情况判断方法具体为:对于中心子光圈图像中45度方向像素(x+i,y+i),其视差值为d(x+i,y+i);若d(x+i,y+i)≤d(x,y),则像素(x,y)不会被像素(x+i,y+i)遮挡;若d(x+i,y+i)>d(x,y),则计算像素(x,y)和像素(x+i,y+i)的45度EPI交点u″,若-U≤u″≤U,则设置45度方向遮挡掩模的像素(x,y)值为1,即m(u″,u″)(x,y)=1;遍历中心子光圈图像中45度方向的所有像素,更新45度方向的遮挡掩模;所述的45度EPI交点u″计算公式为:
8.根据权利要求7所述的基于遮挡区域迭代优化的光场深度自监督学习方法,其特征在于所述的135度方向遮挡情况判断方法具体为:对于中心子光圈图像中135度方向像素(x+i,y-i),其视差值为d(x+i,y-i);若d(x+i,y-i)≤d(x,y),则像素(x,y)不会被像素(x+i,y-i)遮挡;若d(x+i,y-i)>d(x,y),则计算像素(x,y)和像素(x+i,y-i)的135度EPI交点u″′,若-U≤u″′≤U,则设置135度方向遮挡掩模的像素(x,y)值为1,即m(u″′,-u″′)(x,y)=1;遍历中心子光圈图像中135度方向的所有像素,更新135度方向的遮挡掩模;所述的135度EPI交点u″′计算公式为:
CN202011151995.3A 2020-10-26 2020-10-26 基于遮挡区域迭代优化的光场深度自监督学习方法 Active CN112288789B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011151995.3A CN112288789B (zh) 2020-10-26 2020-10-26 基于遮挡区域迭代优化的光场深度自监督学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011151995.3A CN112288789B (zh) 2020-10-26 2020-10-26 基于遮挡区域迭代优化的光场深度自监督学习方法

Publications (2)

Publication Number Publication Date
CN112288789A CN112288789A (zh) 2021-01-29
CN112288789B true CN112288789B (zh) 2024-03-29

Family

ID=74424876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011151995.3A Active CN112288789B (zh) 2020-10-26 2020-10-26 基于遮挡区域迭代优化的光场深度自监督学习方法

Country Status (1)

Country Link
CN (1) CN112288789B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108320020A (zh) * 2018-02-07 2018-07-24 深圳市唯特视科技有限公司 一种基于双向光流的端到端无监督学习方法
CN110163246A (zh) * 2019-04-08 2019-08-23 杭州电子科技大学 基于卷积神经网络的单目光场图像无监督深度估计方法
CN111325794A (zh) * 2020-02-23 2020-06-23 哈尔滨工业大学 一种基于深度卷积自编码器的视觉同时定位与地图构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899870B (zh) * 2015-05-15 2017-08-25 清华大学深圳研究生院 基于光场数据分布的深度估计方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108320020A (zh) * 2018-02-07 2018-07-24 深圳市唯特视科技有限公司 一种基于双向光流的端到端无监督学习方法
CN110163246A (zh) * 2019-04-08 2019-08-23 杭州电子科技大学 基于卷积神经网络的单目光场图像无监督深度估计方法
CN111325794A (zh) * 2020-02-23 2020-06-23 哈尔滨工业大学 一种基于深度卷积自编码器的视觉同时定位与地图构建方法

Also Published As

Publication number Publication date
CN112288789A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN111739078B (zh) 一种基于上下文注意力机制的单目无监督深度估计方法
US10353271B2 (en) Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
CN111259945B (zh) 引入注意力图谱的双目视差估计方法
CN111915531B (zh) 一种多层次特征融合和注意力引导的神经网络图像去雾方法
CN111508013B (zh) 立体匹配方法
KR20170106931A (ko) 광 필드 데이터 처리 방법 및 디바이스
CN111861880B (zh) 基于区域信息增强与块自注意力的图像超分与融合方法
CN112634341A (zh) 多视觉任务协同的深度估计模型的构建方法
CN115393410A (zh) 一种基于神经辐射场和语义分割的单目视图深度估计方法
CN114897752A (zh) 一种基于深度学习的单透镜大景深计算成像系统及方法
CN113592913A (zh) 一种消除自监督三维重建不确定性的方法
CN111553862A (zh) 一种海天背景图像去雾和双目立体视觉定位方法
CN115511759A (zh) 一种基于级联特征交互的点云图像深度补全方法
CN113436254B (zh) 一种级联解耦的位姿估计方法
CN112288789B (zh) 基于遮挡区域迭代优化的光场深度自监督学习方法
CN114945943A (zh) 基于虹膜大小估计深度
EP4055556B1 (en) Defocus blur removal and depth estimation using dual-pixel image data
CN109934863B (zh) 一种基于密集连接型卷积神经网络的光场深度信息估计方法
CN111951159B (zh) 一种强噪声条件下光场epi图像超分辨率的处理方法
Shi et al. Stereo waterdrop removal with row-wise dilated attention
Haji-Esmaeili et al. Large-scale Monocular Depth Estimation in the Wild
CN114119704A (zh) 一种基于空间金字塔池化的光场图像深度估计方法
CN108460747B (zh) 一种光场相机的子孔径合成去遮挡方法
CN112634139B (zh) 光场超分辨成像方法、装置及设备
CN117726549B (zh) 基于事件引导的图像去模糊方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant