CN115830406A

CN115830406A - 一种基于多视差尺度的快速光场深度估计方法

Info

Publication number: CN115830406A
Application number: CN202111078555.4A
Authority: CN
Inventors: 岳涛; 黄志聪; 胡雪梅; 徐伟祝
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2023-03-21

Abstract

本发明公开了一种基于多视差尺度的快速光场深度估计方法。具体步骤为：(1)构造数据库；(2)将光场图像输入神经网络，神经网络提取出特征向量，同时与边缘增强模块交互进行边缘特性增强，并根据得到的特征向量构建不同视差尺度的匹配代价，通过代价聚合模块进行匹配代价正则化，最终通过视差回归得到光场视差图；(3)构建神经网络的损失函数，该损失函数包括绝对值损失函数和加权二分类交叉熵损失函数；(4)根据光场相机参数，得到相邻光场图像对应的相机焦距与基线长度，进而根据光场视差图，转换成光场深度图；(5)将测试集的光场图像输入已训练的神经网络中，得到光场深度图。本发明的方法可以通过光场图像直接求出其精确的深度图。

Description

一种基于多视差尺度的快速光场深度估计方法

技术领域

本发明涉及图像处理以及深度学习技术领域，特别涉及一种基于多视差尺度的针对光场图像的快速深度估计方法。

背景技术

传统相机拍摄得到的是二维图像，并不能反映场景的三维空间结构。光场成像具备其特殊的成像原理，光场图像记录了空间中光线传播的方向与位置，可以同时包含光线的空间信息与角度信息，描述的是一个四维光场。光场相机主要是通过微透镜阵列来获取拍摄场景的光线信息，进而还原场景的三维信息。图像的深度是指被拍摄物体到相机的距离，图像的深度估计是计算机视觉热门研究方向，如果能从拍摄的二维图像恢复场景的三维信息，即深度，则有利于许多计算机视觉的应用。因此，对于光场图像进行深度估计具有重要的理论研究和实际应用价值。

目前已有一些光场深度估计方法被提出，取得了较好的效果，但是也存在一些问题。这些光场图像深度估计方法主要分为两类：(1)用对极平面图(Epipolar Plane Image，EPI)获取深度信息；(2)基于立体匹配方法求深度。使用EPI的方法，其优势在于理论简单，使用神经网络优化速度快，但是其对于噪声不鲁棒，并且对于大基线的光场图像，估计得到的深度信息精度低，误差大。而基于立体匹配的方法，在使用神经网络优化时，常常要构建一个4D的匹配代价(Cost Volume)，并使用3D卷积来处理。虽然可以得到非常精确的深度图像，但是需要付出高计算量的代价，导致运行时间长，并且GPU显存占用量高。因此，针对于不同类型的光场图像的深度估计，提供一种鲁棒性高，计算量小，同时能够保证高精度的深度估计方法是亟待解决的问题。

发明内容

本发明提供了一种快速光场图像深度估计方法，本发明考虑了光场的特殊物理结构，设计了一种光场图像深度估计的神经网络模型，在保证了模型轻量化的同时，能够对光场图像进行精确深度估计，实现快速且精确的光场深度估计。

本发明采用的技术方案如下：

一种基于多视差尺度的快速光场深度估计方法，包括以下步骤：

步骤1，构造数据库，包括训练集和测试集；所述数据库中包括虚拟合成与真实世界的光场图像，并同时具有小基线与大基线两种光场图像类型；

步骤2，将训练集中的光场图像输入神经网络，神经网络包括特征提取模块、匹配代价构建模块、代价聚合模块、视差回归模块与边缘增强模块，其中，特征提取模块、匹配代价构建模块、代价聚合模块以及视差回归模块构成主网络；所述神经网络通过特征提取模块提取出特征向量，同时与边缘增强模块交互进行边缘特性增强，并根据得到的特征向量构建不同视差尺度的匹配代价，通过代价聚合模块进行匹配代价正则化，最终通过视差回归模块得到光场视差图；

步骤3，构建所述神经网络的损失函数，该损失函数包括绝对值损失函数和加权二分类交叉熵损失函数；对所述神经网络进行训练；

步骤4，根据光场相机参数，得到相邻光场图像对应的相机焦距与基线长度，进而根据步骤2得到的光场视差图，转换成光场深度图；

步骤5，在测试阶段，将测试集的光场图像输入已训练的神经网络中，通过特征提取、边缘增强、匹配代价构建、代价聚合与视差回归的步骤，得到光场视差图，并通过转换最终得到光场深度图。

进一步地，所述步骤1中，构造数据库时，还需构建通过索贝尔算子提取的二值视差边缘图。

进一步地，所述步骤2中，特征提取模块使用基本残差块提取可靠特征，深度卷积时设置步长为2进行下采样，采用空间金字塔池化机制融合不同尺度特征，最后通过一个瓶颈注意力增强模块增强重要特征的注意力，得到用于构建匹配代价的有效特征表示。

进一步地，所述步骤2中，匹配代价构建模块构建不同视差尺度的匹配代价时，采用不同特征向量求相关的操作，减少原本匹配代价维度，使得代价聚合网络可以使用2D卷积处理。

进一步地，所述步骤2中，代价聚合模块采用多视差尺度聚合方法，利用由光场特殊物理结构得到的不同尺度的匹配代价，从粗尺度到细尺度，逐层进行上采样-融合的操作，将包含不同尺度信息的匹配代价聚合为一体，并通过4层瓶颈残差块进行正则化，提升所得光场视差图的准确性。

进一步地，所述步骤2中，代价聚合模块还包括边缘特征融合模块，所述边缘特征融合模块根据边缘增强模块提供的中间边缘特征，利用边缘注意力引导机制，来引导匹配代价中的每个像素，进行边缘区域的特征增强。

进一步地，所述步骤2中，边缘增强模块与主网络进行特征共享，并输送边缘特征给主网络利用，提升估计的光场视差图在边缘与遮挡区域的精度与效果。

进一步地，所述步骤3中，在训练神经网络时采用三步训练策略，先训练主网络得到初始光场视差图，再训练边缘增强模块使之可以输出光场视差边缘图，最后两部分联合训练，得到最终优化的光场视差图。

相较于现有技术，本发明具有以下优点：

(1)本发明的图像处理方法可以通过光场图像直接求出其精确的深度图，从而恢复场景的三维信息，增加了场景三维重建的多样性。

(2)在进行光场图像匹配构建匹配代价时，通过特征求相关的操作减少匹配代价维度，并将代价聚合网络中的3D卷积替换为2D，大大减少计算量，使得本发明实现轻量化，可以进行快速的光场深度估计。

(3)本发明提出的边缘增强模块与多视差尺度代价聚合模块，提升了光场视差图在边缘、遮挡区域的精度以及整体估计结果的准确度，保证最终所得光场深度图的高精度与低误差。

(4)对不同基线大小的光场数据集的训练增加了本发明对不同类型光场图像的普适性，在测试过程中，本方法在保证快速、轻量化的同时，在虚拟合成与真实世界的光场图像上均实现了精确的光场深度估计，进一步验证了本发明方法的泛化性与有效性。

附图说明

图1是本发明方法的流程示意图；

图2是本发明方法的整体网络结构图；

图3是本发明网络模型中边缘增强模块的结构图；

图4是本发明网络模型中多视差尺度代价聚合模块的结构图；

图5是本发明方法在小基线虚拟合成数据集4D Light Field上的视差估计实验结果图；

图6是本发明方法在大基线虚拟合成数据集Sparse Light Field上的视差估计实验结果图；

图7是本发明方法在真实世界数据集上的视差估计实验结果图。

具体实施方式

本实施例提供一种基于多视差尺度的快速光场深度估计方法，如图1所示，包括以下步骤：

(1)构造数据库，包括训练集和测试集，数据库中包含虚拟合成与真实世界的光场图像，存在小基线与大基线两种光场图像类型，同时具备真实光场视差图的边缘图。

(2)将训练集中的光场图像输入神经网络模型，通过特征提取模块提取出特征向量，边缘增强模块对特征向量进行边缘特性增强，并根据所得的特征向量构建不同视差尺度的匹配代价，通过代价聚合模块进行匹配代价正则化，最终通过视差回归模块得到光场视差图。

(3)构建神经网络模型的损失函数，该损失函数包括绝对值损失函数和加权二分类交叉熵损失函数；其中，构建绝对值损失函数以减少输出视差图的绝对误差，构建加权二分类交叉熵损失函数使得边缘增强模块输出视差边缘图；然后对神经网络进行训练。

(4)利用相邻光场图像对应的相机焦距与基线长度，将已估计得到的光场视差图转换成光场深度图。

(5)在测试阶段，将各种不同类型的测试集的光场图像输入已训练的神经网络中，输出得到光场视差图，并通过转换最终得到光场深度图。

1、对步骤(1)中所涉及的数据库构造部分进行详细描述：

本实施例主要用到三个数据集，分别是小基线虚拟合成数据集4D Light Field、大基线虚拟合成数据集Sparse Light Field以及真实世界数据集。同时根据神经网络模型中边缘增强模块的需要，构建光场视差边缘图。数据集中包含真实光场视差图，本方法采用索贝尔算子对真实光场视差图进行处理，求解初始视差边缘图，边缘图不同的灰度值代表了物体边缘的梯度。另外，采用人工设定阈值的方法，对于每幅光场图像，将其初始视差边缘图灰度值大于或等于阈值的部分置为1，而将边缘图灰度值小于阈值的部分置为0，得到光场图像的二值视差边缘图。

2、本实施例的整体网络结构如图2所示，下面对步骤(2)中所涉及的特征提取、边缘增强、匹配代价构建、代价聚合以及视差回归模块部分分别进行详细描述，其中特征提取模块、匹配代价构建模块、代价聚合模块以及视差回归模块构成主网络。

2.1特征提取模块，用于提取输入光场图像的特征向量，得到有效的特征表示。

表1 特征提取模块的具体结构

本方法使用基本残差块提取可靠特征，并在深度卷积时设置步长为2来进行下采样。采用空间金字塔池化机制，经过下采样后得到4个不同尺度的特征向量，通过双线性插值上采样到同一尺度，这些不同卷积层输出的特征向量连接合并，并通过卷积进行融合。最后通过一个瓶颈注意力增强模块(Bottleneck Attention Module，BAM)，增强重要特征的注意力，得到用于构建匹配代价的有效特征表示。

2.2边缘增强模块，如图3所示，输入经过索贝尔算子处理后的光场边缘图，输出光场视差的边缘图。

表2 边缘增强模块的具体结构

本模块与主网络中的特征提取模块交互，并利用特征提取模块的中间特征向量进行特征融合，两者联合训练相互影响，进而对特征向量的边缘特性进行增强。同时该模块还能向边缘特征融合模块提供中间边缘特征，进一步增强边缘特征特性，提升光场视差图在边缘、遮挡区域的精确度。

2.3匹配代价构建模块，基于光场的特殊物理结构，对不同角度分辨率的光场图像，构建不同视差尺度的匹配代价。本方法利用经过特征提取后得到的有效特征表示，采用特征向量求相关的操作，构建3D的匹配代价：

其中f_warp[.,.]表示在给定视差d时将周边特征F_s弯曲(warp)到中心特征F_c，<.,.>表示在特征维度上对不同特征做点乘运算(求相关)，来度量两个特征之间的相似度。(h,w)与c分别表示提取特征的空间与通道维度，N表示通道维度数目。此方法可以得到一个3D的匹配代价C(d,h,w)，进而能够使用2D卷积进行处理，相比于3D卷积的方法，大大减少了计算时间以及GPU显存占用。

2.4多视差尺度代价聚合模块，网络结构如图4所示，用于对构建好的金字塔状的匹配代价进行聚合并正则化。本发明提出一种逐层多视差尺度代价聚合网络结构，从粗尺度到细尺度，逐层进行上采样-融合的操作，将包含不同尺度信息的匹配代价聚合为一体，并通过4层瓶颈残差块进行正则化，提升整体视差估计结果的准确度。同时，该模块还包含一个边缘特征融合模块，利用一种边缘注意力引导机制，结合边缘增强模块中所提供的中间边缘特征，来引导匹配代价中的每个像素，进行边缘区域的特征增强，进一步提升本方法在边缘区域的视差估计性能。

2.5视差回归模块，用于将已聚合并正则化后的匹配代价进行视差回归，输出估计的光场视差图。本方法采用一种soft argmin的操作来进行视差回归，估计出连续且精确的视差图。此操作是对在视差d下的匹配代价C_d进行softmax操作σ(.)来计算得到一个概率体素，并对其在视差范围内(-D_max到D_max)进行视差加权求和，得到最终估计视差

3、对步骤(3)中所涉及的训练神经网络部分进行详细描述：

为了使模型同时进行边缘增强与视差估计，本方法提出一种三步训练策略。

首先在不使用边缘增强模块的情况下，训练神经网络模型并使之收敛，神经网络能够估计得到初始粗略的光场视差图。在这一步里，本方法使用的是绝对值损失函数来对神经网络进行监督，降低输出视差图的误差。

第二步，训练边缘增强模块，此时将神经网络其他部分进行冻结，网络参数固定不变化。输入光场图像并使用索贝尔算子提取边缘，边缘增强模块可以输出光场视差图的边缘图，采用加权二分类交叉熵损失函数来对输出结果进行监督，使神经网络能够准确估计光场视差边缘图。加权二分类交叉熵损失函数的类平衡权重公式为：

其中，α与β分别表示对于负、正样本的权重，|Y⁺|与|Y^-|分别表示正、负样本集数目，而λ则控制正样本相对于负样本的权重。

第三步，则将整个神经网络模型联合起来进行训练。此时除了第一步对光场视差图进行绝对值损失监督，以及第二步对估计的光场视差边缘图进行加权二分类交叉熵损失监督，还要对最终模型的光场视差图的边缘进行绝对值损失监督。具体地，就是用索贝尔算子对估计视差图与真实视差图分别求出边缘图，再将两者的边缘图求绝对值误差来进行绝对值损失监督，优化整个神经网络模型。

本发明神经网络模型采用Adam优化器，学习速率初始化为0.001，每一步训练分别进行40000次迭代，其中第一步与第三步训练使用8的批量大小(Batchsize)，第二步使用16的批量大小。训练时每10000次迭代学习率除以2，加权二分类交叉熵损失函数的参数λ设置为1.1。

4、对步骤(4)中所涉及的光场视差图与深度图的转换进行详细描述：

光场图像是一个四维的数据，记录了光线入射的方向与位置，可以用一个4D的坐标形式(u,v,x,y)表示。其中(u,v)表示光场图像的角度分辨率，类似于普通相机从不同视角拍摄同一个场景；(x,y)表示光场图像的空间分辨率，类似于一个二维平面图像的图像分辨率。从不同的角度分辨率(u,v)中观察(x,y)构成的图像，会有视角上的像素差异，即为本方法估计得到的光场视差。

本方法估计得到的光场视差，是针对于相邻角度分辨率的视图。根据光场相机的相机参数，可以得到相邻角度分辨率视图的相对位置Δu或Δv，即光场相机的基线B(单位mm)。同时还可以获取光场相机中微透镜阵列与成像面的距离f(单位mm)，即物理焦距。根据相机传感器每个像素的物理尺寸d_x(单位mm/pixel)，可以得到光场相机的像素焦距f_x(单位pixel)：f_x＝f/d_x，进而根据成像几何关系，推出视差图Disparity到深度图Depth的转换公式，求出场景的光场深度图：

5、对步骤(5)中所涉及的神经网络模型测试部分进行详细描述：

在测试阶段，首先使神经网络模型加载已训练好的网络参数，接着输入测试光场图到神经网络中，通过步骤(2)所描述的网络模块，最终输出精确的光场视差图。在获取光场相机的基线B与像素焦距f_x后，利用步骤(4)所推出的视差图到深度图的转换公式，求出场景的精确光场深度图。

如图5所示，本发明在小基线虚拟合成数据集4D Light Field上，进行模型训练并测试，输出得到光场视差图。从图5可以看到，本发明方法计算得到的视差图非常精确，尤其是本发明提出的边缘增强模块与多视差尺度代价聚合模块，提升了光场视差图整体的估计效果，尤其是图中一些边缘区域与小物体结构，精度非常高，进而可以增强所获立体图像的清晰度及深度感。

如图6所示，本发明在大基线虚拟合成数据集Sparse Light Field上，进行模型训练并测试，输出得到光场视差图。从图6可以看到，对于大基线光场数据，本发明方法同样能够取得非常精确的效果，边缘与遮挡区域的视差估计都非常正确，光场视差估计的结果非常准确。

如图7所示，本发明在真实世界数据集上进行测试，输出得到光场视差图。此真实世界数据集为小基线光场数据，因此在加载网络模型参数时，使用4D Light Field上预训练好的模型，进行真实世界光场数据的测试。从图7可以看到，对于真实世界光场数据，本发明方法同样能够估计出非常精确的光场视差图。利用估计得到的真实世界图像及光场视差图，可以恢复场景的三维信息，进而可以对真实世界的三维场景进行感知与渲染。

Claims

1.一种基于多视差尺度的快速光场深度估计方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于多视差尺度的快速光场深度估计方法，其特征在于，所述步骤1中，构造数据库时，还需构建通过索贝尔算子提取的二值视差边缘图。

3.根据权利要求1所述的一种基于多视差尺度的快速光场深度估计方法，其特征在于，所述步骤2中，特征提取模块使用基本残差块提取可靠特征，深度卷积时设置步长为2进行下采样，采用空间金字塔池化机制融合不同尺度特征，最后通过一个瓶颈注意力增强模块增强重要特征的注意力，得到用于构建匹配代价的有效特征表示。

4.根据权利要求1所述的一种基于多视差尺度的快速光场深度估计方法，其特征在于，所述步骤2中，匹配代价构建模块构建不同视差尺度的匹配代价时，采用不同特征向量求相关的操作，减少原本匹配代价维度，使得代价聚合网络可以使用2D卷积处理。

5.根据权利要求1所述的一种基于多视差尺度的快速光场深度估计方法，其特征在于，所述步骤2中，代价聚合模块采用多视差尺度聚合方法，利用由光场特殊物理结构得到的不同尺度的匹配代价，从粗尺度到细尺度，逐层进行上采样-融合的操作，将包含不同尺度信息的匹配代价聚合为一体，并通过4层瓶颈残差块进行正则化，提升所得光场视差图的准确性。

6.根据权利要求5所述的一种基于多视差尺度的快速光场深度估计方法，其特征在于，所述步骤2中，代价聚合模块还包括边缘特征融合模块，所述边缘特征融合模块根据边缘增强模块提供的中间边缘特征，利用边缘注意力引导机制，来引导匹配代价中的每个像素，进行边缘区域的特征增强。

7.根据权利要求1所述的一种基于多视差尺度的快速光场深度估计方法，其特征在于，所述步骤2中，边缘增强模块与主网络进行特征共享，并输送边缘特征给主网络利用，提升估计的光场视差图在边缘与遮挡区域的精度与效果。

8.根据权利要求1所述的一种基于多视差尺度的快速光场深度估计方法，其特征在于，所述步骤3中，在训练神经网络时采用三步训练策略，先训练主网络得到初始光场视差图，再训练边缘增强模块使之可以输出光场视差边缘图，最后两部分联合训练，得到最终优化的光场视差图。