CN112288789A

CN112288789A - 基于遮挡区域迭代优化的光场深度自监督学习方法

Info

Publication number: CN112288789A
Application number: CN202011151995.3A
Authority: CN
Inventors: 周文晖; 洪勇杰; 莫良言; 张桦; 戴国骏
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-01-29
Anticipated expiration: 2040-10-26
Also published as: CN112288789B

Abstract

本发明公开了一种基于遮挡区域迭代优化的光场深度自监督学习方法。本发明步骤如下：S1：从光场图像中提取网络输入；S2：搭建自监督光场深度估计网络，网络输出为中心子光圈图像的视差图。S3：设计基于遮挡掩模的自监督学习损失函数，设定初始遮挡掩模为无遮挡情况。S4：优化基于遮挡掩模的自监督学习损失函数，训练自监督光场深度估计网络。S5：利用步骤S4中训练完成的自监督光场深度估计网络预测得到中心子光圈图像的视差图，计算中心子光圈图像的遮挡区域，更新遮挡掩模。S6：若更新前和更新后遮挡掩模的差异小于设定阈值，则退出迭代优化；否则返回步骤S4。本发明实现遮挡区域的迭代优化，同时优化光场深度估计结果。

Description

基于遮挡区域迭代优化的光场深度自监督学习方法

技术领域

本发明是关于计算摄影学和计算机视觉技术领域，尤其涉及到了一种基于遮挡区域迭代优化的光场深度自监督学习方法。

背景技术

光场相机通过在传统相机的图像传感器和主镜头间增加一个微透镜阵列，从而可以记录下入射光线的四维光场图像(二维空间信息和二维角度信息)。经过维度重排列后，四维光场图像可看作为一组多视点的子光圈图像阵列。由于光场图像中包含了丰富的光线信息，以及具有数字重对焦等特性，近年来基于光场图像的场景深度估计研究获得了越来越多的关注。

从光场图像中估计场景深度主要可分为两类：传统方法和基于深度学习的方法。传统方法通常都是利用光场图像中的几何一致性、光度一致性、深度线索、散焦线索等光场成像几何特性或假定，将深度估计问题转换为某个目标函数的最优问题，然后采用传统优化算法估计出光场深度。基于深度学习的光场深度估计方法是通过设计一个从端到端的深度神经网络，并采用卷积操作从光场图像中提取深层语义特征，然后设定一组有监督或无监督损失函数，进而预测出光场深度信息。近年来，基于有监督深度学习的光场深度估计方法已取得了显著成功，但这些方法的性能往往依赖于具有真实场景深度信息的光场数据集的质量和数量。由于获取具有真实场景深度信息的光场数据集非常困难，因此基于自监督学习的光场深度估计方法越来越受关注。自监督学习方法的主要优点在于它能在缺少真实场景深度信息的情况下，利用光场几何特性和约束实现自监督学习，可有效克服训练数据集不足的问题。

现有自监督学习方法中的损失函数设计通常都是基于光场图像的几何特性和约束，缺少对深度不连续和遮挡区域的考虑。本发明根据光场子光圈图像排列的对称性，利用光场子光圈之间的遮挡区域互补特性，提出了基于遮挡区域迭代优化的光场深度自监督学习方法。该方法先采用自监督深度学习网络进行一次预训练，计算出遮挡区域掩模；然后在下一次训练过程中加入上一次的遮挡区域掩模，以优化光场深度估计结果，更新遮挡区域并送入下一次训练过程；进而实现遮挡区域的迭代优化，同时优化光场深度估计结果。

发明内容

本发明的目的是为克服上述现有自监督学习方法存在的不足，利用子光圈图像之间的遮挡区域互补特性，提供一种基于遮挡区域迭代优化的光场深度自监督学习方法。

本发明所采用的技术步骤如下：

步骤S1：从光场图像中提取网络输入。

步骤S2：搭建自监督光场深度估计网络，网络输出为中心子光圈图像的视差图。

步骤S3：设计基于遮挡掩模的自监督学习损失函数，设定初始遮挡掩模为无遮挡情况。

步骤S4：优化基于遮挡掩模的自监督学习损失函数，训练自监督光场深度估计网络。

步骤S5：利用步骤S4中训练完成的自监督光场深度估计网络预测得到中心子光圈图像的视差图，计算中心子光圈图像的遮挡区域，更新遮挡掩模。

步骤S6：若更新前和更新后遮挡掩模的差异小于设定阈值，则退出迭代优化；否则返回步骤S4。

所述步骤S1具体包括：

步骤S1-1：使用海德堡图像处理实验室提供的4D光场数据集作为实验数据集，该数据集包含28个场景，并提供了中心子光圈图像的高精度视差图，以及视差估计的性能评估指标。采用光场双平面表示方法，将光场图像定义为LF(u,v,x,y,c)，其中(u,v)为光场角度坐标，(x,y)是光场空间坐标，c为颜色通道，u的取值范围为[-U,U]，v的取值范围为[-V,V]，x的取值范围为[0,W-1]，y的取值范围为[0,H-1]，则光场图像包含了一组(2U+1)×(2V+1)的子光圈图像阵列；中心子光圈图像I₀(x,y,c)表示为光场角度坐标为(0,0)的子光圈图像LF(0,0,x,y,c)；光场角度坐标为(u_i,v_i)的子光圈图像记作为I_(ui,vi)(x,y,c)＝LF(u_i,v_i,x,y,c)，每个子光圈图像大小为W×H；通常U＝V＝3，W＝H＝512。

步骤S1-2：以光场图像的中心子光圈图像为中心，提取一个米字型子光圈图像阵列作为自监督光场深度估计网络的输入，所提取的米字型子光圈图像阵列包含了子光圈图像为：水平方向子光圈图像I_(u,0)(x,y,c)、垂直方向子光圈图像I_(0,v)(x,y,c)、45度方向子光圈图像I_(u,u)(x,y,c)和135度方向子光圈图像I_(u,-u)(x,y,c)，其中u的取值范围为[-U,U]，v的取值范围为[-V,V]，具体如图1所示。

步骤S1-3：对N×N的米字型子光圈图像阵列中的子光圈图像做归一化处理，并做随机数据增强，包括子光圈图像的左右翻转、上下翻转、亮度值改变。所述的归一化处理和随机数据增强为成熟技术。

所述步骤S2具体包括：

所述的自监督光场深度估计网络为一个包含了编码子网和解码子网的U型网络。编码子网通过卷积和下采样提取光场的深层特征信息，解码子网通过卷积和上采样将深层特征信息图尺寸恢复到输入图像尺寸，并得到中心子光圈图像的视差图。

所述步骤S3具体包括：

步骤S3-1：根据自监督光场深度估计网络输出的中心子光圈视差图d，将步骤S1-2中米字型子光圈图像阵列中每个子光圈图像投影到中心子光圈图像，组成一组中心子光圈投影图像。所述的投影过程具体为：

对于米字型子光圈图像阵列中水平方向子光圈图像I_(u,0)(x,y,c)，根据中心子光圈视差图d，采用双线性插值方法生成出水平方向的中心子光圈投影图像I′_(u,0)(x,y,c)：

I′_(u,0)(x,y,c)＝I_(u,0)(x-u·d,y,c) (1)

对于米字型子光圈图像阵列中垂直方向子光圈图像I_(0,v)(x,y,c)，根据中心子光圈视差图d，采用双线性插值方法生成出垂直方向的中心子光圈投影图像I′_(0,v)(x,y,c)：

I′_(0,v)(x,y,c)＝I_(0,v)(x,y-v·d,c) (2)

对于米字型子光圈图像阵列中45度方向子光圈图像I_(u,u)(x,y,c)，根据中心子光圈视差图d，采用双线性插值方法生成出45度方向的中心子光圈投影图像I′_(u,u)(x,y,c)：

I′_(u,u)(x,y,c)＝I_(u,u)(x-u·d,y-u·d,c) (3)

对于米字型子光圈图像阵列中135度方向子光圈图像I_(u,-u)(x,y,c)，根据中心子光圈视差图d，采用双线性插值方法生成出135度方向的中心子光圈投影图像I′_(u,-u)(x,y,c)：

I′_(u,-u)(x,y,c)＝I_(u,-u)(x-u·d,y+u·d,c) (4)

步骤S3-2：根据步骤S3-1中得到的中心子光圈投影图像和中心子光圈图像，计算光度一致性损失L_p，具体公式为：

其中L_p(u,v)为中心子光圈投影图像I′_(u,v)(x,y,c)和中心子光圈图像I₀(x,y,c)的光度一致性损失，具体公式为：

其中m_(u,v)(x,y)为中心子光圈投影图像I′_(u,v)(x,y,c)的遮挡掩模；β为权重，通常取值为0.85；SSIM(·)为两幅图像的结构相似性计算函数，其计算方法为成熟方法。

所述的遮挡掩模m_(u,v)(x,y)是一个与中心子光圈投影图像I′_(u,v)(x,y,c)尺寸相同的二值图像。遮挡掩模m_(u,v)(x,y)中每个像素取值0或1。对于中心子光圈投影图像I′_(u,v)(x,y,c)中像素(x,y)，设定m_(u,v)(x,y)＝1表示像素(x,y)在子光圈图像I_(u,v)(x,y,c)中可见(无遮挡)；设定m_(u,v)(x,y)＝0表示像素(x,y)在子光圈图像I_(u,v)(x,y,c)中不可见(存在遮挡)。设定初始时所有遮挡掩模m_(u,v)(x,y)中的所有像素都为1。

所述步骤S4具体包括：

从4D光场数据集中随机选取一组(2U+1)×(2V+1)的米字型子光圈图像阵列，送到自监督光场深度估计网络；网络预测出中心子光圈视差图；计算光度一致性损失，通过误差反向传播和Adam优化算法，更新和优化自监督光场深度估计网络参数；经过一定的训练迭代次数后，得到一次训练完成的自监督光场深度估计网络模型。所述的误差反向传播和Adam优化算法为成熟技术。

所述步骤S5具体包括：

根据自监督光场深度估计网络输出的中心子光圈视差图d，为每个中心子光圈投影图像计算遮挡掩模。具体如图2所示，根据自监督光场深度估计网络输出的中心子光圈视差图d，为每个中心子光圈投影图像计算遮挡掩模，掩膜中黑色区域代表被遮挡的像素，白色区域代表未被遮挡的像素。

具体的遮挡掩模计算方法为：

对于中心子光圈图像中的每个像素(x,y)，根据其视差值d(x,y)，分别判断像素(x,y)在水平方向的遮挡情况，垂直方向的遮挡情况，45度方向的遮挡情况和135度方向的遮挡情况，从而更新遮挡掩模。

所述的水平方向遮挡情况判断方法具体为：对于中心子光圈图像中第y行像素(x+i,y)，其视差值为d(x+i,y)；若d(x+i,y)≤d(x,y)，则像素(x,y)不会被像素(x+i,y)遮挡；若d(x+i,y)＞d(x,y)，则计算像素(x,y)和像素(x+i,y)的水平EPI交点u′，若-U≤u′≤U，则设置水平方向遮挡掩模的像素(x,y)值为1，即m_(u′,0)(x,y)＝1；遍历中心子光圈图像中第y行的所有像素，更新水平方向的遮挡掩模；所述的水平EPI交点u′计算公式为：

所述的垂直方向遮挡情况判断方法具体为：对于中心子光圈图像中第x列像素(x,y+i)，其视差值为d(x,y+i)；若d(x,y+i)≤d(x,y)，则像素(x,y)不会被像素(x,y+i)遮挡；若d(x,y+i)＞d(x,y)，则计算像素(x,y)和像素(x,y+i)的垂直EPI交点v′，若-V≤v′≤V，则设置垂直方向遮挡掩模的像素(x,y)值为1，即m_(0,v′)(x,y)＝1；遍历中心子光圈图像中第x列的所有像素，更新垂直方向的遮挡掩模；所述的垂直EPI交点v′计算公式为：

所述的45度方向遮挡情况判断方法具体为：对于中心子光圈图像中45度方向像素(x+i,y+i)，其视差值为d(x+i,y+i)；若d(x+i,y+i)≤d(x,y)，则像素(x,y)不会被像素(x+i,y+i)遮挡；若d(x+i,y+i)＞d(x,y)，则计算像素(x,y)和像素(x+i,y+i)的45度EPI交点u″，若-U≤u″≤U，则设置45度方向遮挡掩模的像素(x,y)值为1，即m_(u″,u″)(x,y)＝1；遍历中心子光圈图像中45度方向的所有像素，更新45度方向的遮挡掩模；所述的45度EPI交点u″计算公式为：

所述的135度方向遮挡情况判断方法具体为：对于中心子光圈图像中135度方向像素(x+i,y-i)，其视差值为d(x+i,y-i)；若d(x+i,y-i)≤d(x,y)，则像素(x,y)不会被像素(x+i,y-i)遮挡；若d(x+i,y-i)＞d(x,y)，则计算像素(x,y)和像素(x+i,y-i)的135度EPI交点u″′，若-U≤u″′≤U，则设置135度方向遮挡掩模的像素(x,y)值为1，即m_{(u″′,-u″′)}(x,y)＝1；遍历中心子光圈图像中135度方向的所有像素，更新135度方向的遮挡掩模；所述的135度EPI交点u″′计算公式为：

所述步骤S6具体包括：

若遮挡掩模在步骤S5有更新，则将更新后的遮挡掩模代入到公式(5)和公式(6)中，并返回到步骤S4重新训练自监督光场深度估计网络。若遮挡掩模在步骤S5无更新，则退出迭代训练。

本发明有益效果如下：

本发明根据光场子光圈图像排列的对称性，利用光场子光圈之间的遮挡区域互补特性，提出了基于遮挡区域迭代优化的光场深度自监督学习方法。该方法先采用自监督深度学习网络进行一次预训练，计算出遮挡区域掩模；然后在下一次训练过程中加入上一次的遮挡区域掩模，以优化光场深度估计结果，更新遮挡区域并送入下一次训练过程；进而实现遮挡区域的迭代优化，同时优化光场深度估计结果。

附图说明

图1为7×7米字型子光圈图像阵列示意图。

图2为遮挡mask示意图。

图3为本发明的主要步骤流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

一种基于遮挡区域迭代优化的光场深度自监督学习方法。

本发明所采用的技术步骤如下：

步骤S1：从光场图像中提取网络输入。

所述步骤S1具体包括：

步骤S1-1：使用海德堡图像处理实验室提供的4D光场数据集(K.Honauer,O.Johannsen,D.Kondermann,and B.Goldluecke,“A dataset and evaluationmethodology for depth estimation on 4D light fields,”in Asian Conference onComputer Vision,2016.)作为实验数据集，该数据集包含28个场景，并提供了中心子光圈图像的高精度视差图，以及视差估计的性能评估指标。采用光场双平面表示方法，将光场图像定义为LF(u,v,x,y,c)，其中(u,v)为光场角度坐标，(x,y)是光场空间坐标，c为颜色通道，u的取值范围为[-U,U]，v的取值范围为[-V,V]，x的取值范围为[0,W-1]，y的取值范围为[0,H-1]，则光场图像包含了一组(2U+1)×(2V+1)的子光圈图像阵列；中心子光圈图像I₀(x,y,c)表示为光场角度坐标为(0,0)的子光圈图像LF(0,0,x,y,c)；光场角度坐标为(u_i,v_i)的子光圈图像记作为I_(ui,vi)(x,y,c)＝LF(u_i,v_i,x,y,c)，每个子光圈图像大小为W×H；通常U＝V＝3，W＝H＝512。

所述步骤S2具体包括：

所述的自监督光场深度估计网络为一个包含了编码子网和解码子网的U型网络。编码子网通过卷积和下采样提取光场的深层特征信息，解码子网通过卷积和上采样将深层特征信息图尺寸恢复到输入图像尺寸，并得到中心子光圈图像的视差图。所述的编码子网和解码子网采用与UnsupervisedNet(Wenhui Zhou,Enci Zhou,Gaoming Liu,Lili Lin,Andrew Lumsdaine.“Unsupervised Monocular Depth Estimation from Light FieldImage”.IEEE Transactions on Image Processing,2020,29:1606-1617.)相同的网络结构。

所述步骤S3具体包括：

I′_(u,0)(x,y,c)＝I_(u,0)(x-u·d,y,c) (1)

I′_(0,v)(x,y,c)＝I_(0,v)(x,y-v·d,c) (2)

I′_(u,u)(x,y,c)＝I_(u,u)(x-u·d,y-u·d,c) (3)

I′_(u,-u)(x,y,c)＝I_(u,-u)(x-u·d,y+u·d,c) (4)

所述步骤S4具体包括：

所述步骤S5具体包括：

具体的遮挡掩模计算方法为：

所述步骤S6具体包括：

Claims

1.基于遮挡区域迭代优化的光场深度自监督学习方法，其特征在于包括如下步骤：

步骤S1：从光场图像中提取网络输入；

步骤S2：搭建自监督光场深度估计网络，网络输出为中心子光圈图像的视差图；

步骤S3：设计基于遮挡掩模的自监督学习损失函数，设定初始遮挡掩模为无遮挡情况；

步骤S4：优化基于遮挡掩模的自监督学习损失函数，训练自监督光场深度估计网络；

步骤S5：利用步骤S4中训练完成的自监督光场深度估计网络预测得到中心子光圈图像的视差图，计算中心子光圈图像的遮挡区域，更新遮挡掩模；

2.根据权利要求1所述的基于遮挡区域迭代优化的光场深度自监督学习方法，其特征在于所述步骤S1具体包括：

步骤S1-1：使用海德堡图像处理实验室提供的4D光场数据集作为实验数据集，该数据集包含28个场景，并提供了中心子光圈图像的高精度视差图，以及视差估计的性能评估指标；采用光场双平面表示方法，将光场图像定义为LF(u,v,x,y,c)，其中(u,v)为光场角度坐标，(x,y)是光场空间坐标，c为颜色通道，u的取值范围为[-U,U]，v的取值范围为[-V,V]，x的取值范围为[0,W-1]，y的取值范围为[0,H-1]，则光场图像包含了一组(2U+1)×(2V+1)的子光圈图像阵列；中心子光圈图像I₀(x,y,c)表示为光场角度坐标为(0,0)的子光圈图像LF(0,0,x,y,c)；光场角度坐标为(u_i,v_i)的子光圈图像记作为

每个子光圈图像大小为W×H；通常U＝V＝3，W＝H＝512；

步骤S1-2：以光场图像的中心子光圈图像为中心，提取一个米字型子光圈图像阵列作为自监督光场深度估计网络的输入，所提取的米字型子光圈图像阵列包含了子光圈图像为：水平方向子光圈图像I_(u,0)(x,y,c)、垂直方向子光圈图像I_(0,v)(x,y,c)、45度方向子光圈图像I_(u,u)(x,y,c)和135度方向子光圈图像I_(u,-u)(x,y,c)，其中u的取值范围为[-U,U]，v的取值范围为[-V,V]；

步骤S1-3：对N×N的米字型子光圈图像阵列中的子光圈图像做归一化处理，并做随机数据增强，包括子光圈图像的左右翻转、上下翻转、亮度值改变。

3.根据权利要求1所述的基于遮挡区域迭代优化的光场深度自监督学习方法，其特征在于步骤S2所述的自监督光场深度估计网络包含了编码子网和解码子网的U型网络。

4.根据权利要求1或2或3所述的基于遮挡区域迭代优化的光场深度自监督学习方法，其特征在于所述步骤S3具体包括：

步骤S3-1：根据自监督光场深度估计网络输出的中心子光圈视差图d，将步骤S1-2中米字型子光圈图像阵列中每个子光圈图像投影到中心子光圈图像，组成一组中心子光圈投影图像；所述的投影过程具体为：

I′_(u,0)(x,y,c)＝I_(u,0)(x-u·d,y,c) (1)

I′_(0,v)(x,y,c)＝I_(0,v)(x,y-v·d,c) (2)

I′_(u,u)(x,y,c)＝I_(u,u)(x-u·d,y-u·d,c) (3)

I′_(u,-u)(x,y,c)＝I_(u,-u)(x-u·d,y+u·d,c) (4)

其中m_(u,v)(x,y)为中心子光圈投影图像I′_(u,v)(x,y,c)的遮挡掩模；β为权重，通常取值为0.85；SSIM(·)为两幅图像的结构相似性计算函数。

5.根据权利要求4所述的基于遮挡区域迭代优化的光场深度自监督学习方法，其特征在于所述的遮挡掩模m_(u,v)(x,y)是一个与中心子光圈投影图像I′_(u,v)(x,y,c)尺寸相同的二值图像；遮挡掩模m_(u,v)(x,y)中每个像素取值0或1；对于中心子光圈投影图像I′_(u,v)(x,y,c)中像素(x,y)，设定m_(u,v)(x,y)＝1表示像素(x,y)在子光圈图像I_(u,v)(x,y,c)中可见；设定m_(u,v)(x,y)＝0表示像素(x,y)在子光圈图像I_(u,v)(x,y,c)中不可见；设定初始时所有遮挡掩模m_(u,v)(x,y)中的所有像素都为1。

6.根据权利要求5所述的基于遮挡区域迭代优化的光场深度自监督学习方法，其特征在于所述步骤S5具体包括：

根据自监督光场深度估计网络输出的中心子光圈视差图d，为每个中心子光圈投影图像计算遮挡掩模，具体的遮挡掩模计算方法为：

7.根据权利要求6所述的基于遮挡区域迭代优化的光场深度自监督学习方法，其特征在于所述的水平方向遮挡情况判断方法具体为：对于中心子光圈图像中第y行像素(x+i,y)，其视差值为d(x+i,y)；若d(x+i,y)≤d(x,y)，则像素(x,y)不会被像素(x+i,y)遮挡；若d(x+i,y)＞d(x,y)，则计算像素(x,y)和像素(x+i,y)的水平EPI交点u′，若-U≤u′≤U，则设置水平方向遮挡掩模的像素(x,y)值为1，即m_(u′,0)(x,y)＝1；遍历中心子光圈图像中第y行的所有像素，更新水平方向的遮挡掩模；所述的水平EPI交点u′计算公式为：

8.根据权利要求6或7所述的基于遮挡区域迭代优化的光场深度自监督学习方法，其特征在于所述的垂直方向遮挡情况判断方法具体为：对于中心子光圈图像中第x列像素(x,y+i)，其视差值为d(x,y+i)；若d(x,y+i)≤d(x,y)，则像素(x,y)不会被像素(x,y+i)遮挡；若d(x,y+i)＞d(x,y)，则计算像素(x,y)和像素(x,y+i)的垂直EPI交点v′，若-V≤v′≤V，则设置垂直方向遮挡掩模的像素(x,y)值为1，即m_(0,v′)(x,y)＝1；遍历中心子光圈图像中第x列的所有像素，更新垂直方向的遮挡掩模；所述的垂直EPI交点v′计算公式为：

9.根据权利要求8所述的基于遮挡区域迭代优化的光场深度自监督学习方法，其特征在于所述的45度方向遮挡情况判断方法具体为：对于中心子光圈图像中45度方向像素(x+i,y+i)，其视差值为d(x+i,y+i)；若d(x+i,y+i)≤d(x,y)，则像素(x,y)不会被像素(x+i,y+i)遮挡；若d(x+i,y+i)＞d(x,y)，则计算像素(x,y)和像素(x+i,y+i)的45度EPI交点u″，若-U≤u″≤U，则设置45度方向遮挡掩模的像素(x,y)值为1，即m_(u″,u″)(x,y)＝1；遍历中心子光圈图像中45度方向的所有像素，更新45度方向的遮挡掩模；所述的45度EPI交点u″计算公式为：

10.根据权利要求9所述的基于遮挡区域迭代优化的光场深度自监督学习方法，其特征在于所述的135度方向遮挡情况判断方法具体为：对于中心子光圈图像中135度方向像素(x+i,y-i)，其视差值为d(x+i,y-i)；若d(x+i,y-i)≤d(x,y)，则像素(x,y)不会被像素(x+i,y-i)遮挡；若d(x+i,y-i)＞d(x,y)，则计算像素(x,y)和像素(x+i,y-i)的135度EPI交点u″′，若-U≤u″′≤U，则设置135度方向遮挡掩模的像素(x,y)值为1，即m_{(u″′,-u″′)}(x,y)＝1；遍历中心子光圈图像中135度方向的所有像素，更新135度方向的遮挡掩模；所述的135度EPI交点u″′计算公式为：