CN111260707B

CN111260707B - 一种基于光场epi图像的深度估计方法

Info

Publication number: CN111260707B
Application number: CN202010107015.3A
Authority: CN
Inventors: 张骏; 李坤袁; 郑阳; 蔡洪艳; 张旭东; 孙锐; 高隽
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2022-03-15
Anticipated expiration: 2040-02-21
Also published as: CN111260707A

Abstract

本发明公开了一种基于光场EPI图像的深度估计方法，其步骤包括：1、对光场数据进行重聚焦，获取不同聚焦参数下的光场数据；2、从重聚焦后的光场数据中提取水平和垂直视角的子孔径图像；3、从子孔径图像中提取水平和垂直方向的光场EPI图像；4、搭建基于光场EPI图像关联推理的双支路深度估计模型，用所提取的水平和垂直方向EPI图像进行训练；5、利用训练好的深度估计模型对待处理的光场数据进行深度估计。本发明能充分利用EPI图像中心像素与邻域的关联性，并能利用光场重聚焦原理实现数据增强，从而能有效提高光场EPI图像深度估计的准确性。

Description

一种基于光场EPI图像的深度估计方法

技术领域

本发明属于计算机视觉、图像处理和分析领域，具体的说是一种基于光场EPI图像的深度估计方法。

背景技术

深度估计在立体匹配、三维重建等计算机视觉领域应用广泛，立体视觉技术和三维重建技术往往都需要获取场景的三维信息，因此需要用到深度估计技术去获取场景中物体的深度信息，即空间中某一点到相机平面的距离。通过获取场景中物体的深度信息，可以恢复三维场景。通过传统二维图像的纹理、形状等信息可以恢复场景的深度信息，但单张的二维图像只包含场景的空间位置信息，会导致深度估计精度偏低。

光场相机经过单次曝光可以获取场景的空间和多视角信息，并且可以实现不同深度处场景的重聚焦。通过对单个场景进行多视角密集采样，光场成像使得高精度深度信息的挖掘成为可能。因此，利用光场相机获取的光场数据进行深度估计比传统二维平面图像具有更广泛的应用前景。

光场深度信息提取方法主要通过计算视差来实现。视差的计算主要分为两种方法，一种是对不同视点的图像进行像素匹配，和传统的双目匹配类似；另一类方法主要通过极线图(Epipolar Image，EPI)的结构信息来预测视差。

基于像素匹配的光场深度估计方法，一般利用多视角图像进行立体匹配，通过中心视角图像与相邻视角的差异，构建不同的损失函数，获取匹配量；还可以对聚焦在不同深度处的微透镜图像的像素一致性构建成本量，进而估计深度。

基于EPI图像深度估计方法主要包括直接提取EPI斜率信息的方法和深度学习的方法。传统的直接提取EPI图像斜率信息的方法如计算光场数据结构张量以及基于稀疏分解等方法，对EPI图像进行处理，获取EPI斜线斜率。基于深度学习的方法一般提取以待估计的像素点为中心的EPI图像作为输入，利用卷积神经网络进行特征提取，估计中心像素点的视差值。

虽然在计算机视觉领域中，已经出现了一些性能出色的深度估计方法，但这些方法依然存在着不足之处：

1、传统的基于像素匹配的深度估计方法一般要利用光场数据的全部视角图像，需要的计算量较大，实现方式较为复杂，并且对于一些特定区域需要进行后续优化。

2、根据光场EPI图像斜率和视差之间关系，直接提取EPI图像斜率的方法，算法复杂度较高、运算时间较长，估计精度不高，并且对于不同场景需要进行后续调参。

3、基于深度学习的光场EPI图像深度估计方法需要较多的数据集进行训练，而现有的数据集较少，并且二维EPI图像只包含某一方向的空间信息，对不同方向的二维EPI图像进行处理时，结果常会出现条纹效应，影响估计精度。同时，现有的方法未能充分利用EPI图像中心像素点斜线斜率同相邻区域之间的关联性，导致预测精度不高。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于光场EPI图像的深度估计方法，以期能充分利用EPI图像中心像素与邻域的关联性，并能利用光场重聚焦原理实现数据增强，从而能有效提高光场EPI图像深度估计的准确性。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于光场EPI图像的深度估计方法的特点是按如下步骤进行：

步骤1、对光场数据进行重聚焦，获取重聚焦后的光场数据；

步骤1.1、将第n个场景的光场数据记为Lⁿ(u，v，x，y)，其中，u和v分别表示视角维度中任一水平视角和竖直视角，且u，

M表示水平和垂直方向的最大视角数，且为奇数，x和y分别表示空间维度中任一水平方向和垂直方向的像素坐标，且x∈[1，X]，y∈[1，Y]，X，Y分别表示不同视角图像的宽和高，n∈[1，N]，N表示光场数据的总数；

步骤1.2、将第n个场景的光场数据Lⁿ(u，v，x，y)对应的中心视角的视差图记为Gⁿ(x，y)，且Gⁿ(x，y)∈[a_n，b_n]，a_n表示视差范围的最小值，b_n表示视差范围的最大值；

对第n个场景的光场数据Lⁿ(u，v，x，y)重聚焦r次，从而对第n个场景Lⁿ(u，v，x，y)的视差范围[a_n，b_n]进行r等分，并得到第n个场景的单位视差间隔

进而得到第n个场景下第i次重聚焦对应的视差偏移值

其中，i∈[1，r]；

步骤1.3、从空间维度的像素坐标(x，y)中选择任意像素坐标作为第i次重聚焦之前的像素坐标，记为(x_i，y_i)，相对应第i次重聚焦后的像素坐标记为(x′_i，y′_i)，则

步骤1.4、利用式(1)和式(2)分别得到双线性插值四周的空间坐标x_1i，x_2i，y_1i，y_2i：

式(1)和式(2)中，

表示向下取整符号；

步骤1.5、利用式(3)得到双线性插值四周的空间坐标x_1i，x_2i，y_1i，y_2i的权重

步骤1.6、遍历视角维度中的全部视角，从而利用式(4)得到第n个场景下第i次重聚焦后的光场数据

步骤2、重复步骤1.3至步骤1.6，从而遍历空间维度中的全部像素坐标，并得到相应像素坐标下的全部视角的光场数据，其中，第n个场景下第i次重聚焦后所对应的光场数据

其对应的第i次重聚焦后的中心视角的视差图

步骤3、提取重聚焦后的水平和垂直方向的光场EPI图像；

步骤3.1、取v＝0，从而固定第n个场景下第i次重聚焦后的光场数据

的水平方向视角，并利用式(5)获得第n个场景下第i次重聚焦后的水平方向视角的子孔径图像集合

式(5)中，

表示第n个场景下第i次重聚焦后水平方向第u列子孔径图像，且高和宽分别为Y和X；

进一步从子孔径图像集合

中提取以任意一像素坐标

为中心，且高和宽分别为M和W的水平方向EPI图像

其中，

W为奇数：

步骤3.2、同理取u＝0，从而固定第n个场景下第i次重聚焦后光场数据

的垂直方向视角，并利用式(6)获得第n个场景下第i次重聚焦后的垂直方向视角的子孔径图像集合

式(6)中，

表示第n个场景下第i次重聚焦后垂直方向第v行子孔径图像，且高和宽分别为Y和X；

进一步从子孔径图像集合

中提取以所述像素坐标

为中心，且高和宽分别为M和W的垂直方向EPI图像

其中，

步骤4、以像素坐标

为中心，重复步骤3.1至步骤3.2，从而遍历空间维度中的所有像素坐标，且

提取第n个场景下第i次重聚焦后的水平和垂直方向的EPI图像对的集合为：

相应提取的水平方向和垂直方向EPI图像中心像素点对应视差值的集合为：

其中

为第n个场景下第i次重聚焦后中心像素坐标

对应的视差值；

步骤5、构建光场EPI图像的深度估计模型；

步骤5.1、构建深度估计模型为双支路并行的孪生网络结构，且每个支路前端设置有关联模块；

所述关联模块依次由两路多层感知器模块、变换和转置操作模块、点乘运算模块、转置和变换模块、ReLU激活函数和特征串接模块组成；

步骤5.2、在每个支路上的关联模块之后，依次连接有s个卷积核大小为m×m的卷积模块，每个卷积模块依次由卷积核大小为m×m的第一卷积层、ReLU激活层、卷积核大小为m×m的第二卷积层、第一批归一化层和第一ReLU激活层组成；

第s个卷积模块之后再连接有t个卷积核大小为1×m的卷积模块，每个1×m的卷积模块依次由卷积核大小为1×m的第一卷积层、第二ReLU激活层、卷积核大小为1×m的第二卷积层、第二批归一化层和第三ReLU激活层组成；

在第t个1×m的卷积模块之后再连接所述关联模块后分出两条支路，其中，一条支路由第t+1个卷积核大小为1×m的卷积模块，以及卷积核大小为1×m的第一单层卷积层、第四ReLU激活层和卷积核大小为1×m的第二单层卷积层组成；

另一支路和残差模块相连，所述残差模块的基础模块是由卷积核大小为1×m的卷积模块组成，并采用跳跃连接的方式进行连接；从而构成所述孪生网络结构中的单个支路结构；

所述孪生网络结构中的双支路并行的两个残差模块分别与所述特征串接模块相连，所述特征串接模块再与第t+2个卷积核大小为1×m的卷积模块连接，从而构成所述深度估计模型；

步骤5.3、以像素坐标

为中心，并以所述第n个场景下第i次重聚焦后的水平和垂直方向EPI图像对

作为所述深度估计模型的输入，从而利用所述深度估计模型进行回归预测，输出第n个场景下第i次重聚焦后的单个像素点的视差值，记为

并作为像素坐标

的视差估计值；

以所述第n个场景下第i次重聚焦后的水平和垂直方向EPI图像对

的中心像素坐标

对应的视差值

作为光场数据视差的真实值，使用平均绝对误差作为损失函数，并利用梯度下降算法对所述深度估计网络模型进行训练，从而得到训练后的光场EPI图像深度估计模型，进而利用所述光场EPI深度估计模型实现对光场EPI数据的深度估计。

与现有技术相比，本发明的有益效果在于：

1、从整体上讲，本发明设计了一种基于EPI图像相关性的网络结构，建立了中心像素点斜线斜率同空间邻域像素点之间的关系，提升了网络性能，同时，通过光场重聚焦的数据增强方法，扩充了数据集，提升了网络训练效果。因此，本发明比以往基于光场水平和垂直EPI图像深度估计方法的精度更高，是一种有效的深度估计方法。

2、本发明采用光场重聚焦的方法提取不同聚焦深度处的光场EPI图像，获取相同位置点不同斜率的EPI图像，实现了光场EPI图像数据集的扩充，提高了训练效果，从而提高了估计准确度。

3、本发明针对光场EPI图像自身的特征，充分利用了与EPI图像的中心像素点相邻的区域信息，建立了中心像素点与相邻区域斜线斜率的关联性，有效改善了网络性能，提升了深度估计精度。

附图说明

图1为本发明的深度估计方法工作流程图；

图2为本发明使用的数据集部分场景和真实视差图；

图3为本发明的光场重聚焦示意图；

图4为本发明方法获取的水平和垂直方向EPI图像；

图5为本发明方法提取的不同次重聚焦下的EPI图像；

图6为本发明方法的网络结构图；

图7为本发明方法的关联模块原理图；

图8为本发明方法和其他光场深度估计方法在4D Light Field Benchmark数据集training场景上的深度估计结果；

图9为本发明方法和其他光场深度估计方法在4D Light Field Benchmark数据集stratified场景上的深度估计结果。

具体实施方式

本实施例中，一种基于光场EPI图像的深度估计方法，如图1所示，是按如下步骤进行：

步骤1、对光场数据进行重聚焦，获取重聚焦后的光场数据；

步骤1.1、将不同场景的光场数据用L(u，v，x，y)进行表示，u和v分别表示视角维度中任一水平视角和竖直视角，且u，

M表示水平和垂直方向的最大视角数，且为奇数，x和y分别表示空间维度中任一水平方向和垂直方向的像素坐标，且x∈[1，X]，y∈[1，Y]，X，Y分别表示不同视角图像的宽和高，并将第n个场景的光场数据，记为Lⁿ(u，v，x，y)，n∈[1，N]，N表示光场数据的总数；本发明中使用4D Light Field Benchmark数据集进行训练和测试，使用该数据集additional的16个场景进行训练，因此训练集场景总数N＝16，水平和垂直方向最大视角数M＝9，不同视角图像的高Y＝512，宽X＝512。

步骤1.2、将不同场景的光场数据对应的中心视角的视差图用G(x，y)进行表示，如图2所示，第一行和第三行表示待估计的场景图像，第二行和第四行表示对应的视差图。并将第n个场景的光场数据Lⁿ(u，v，x，y)对应的中心视角的视差图记为Gⁿ(x，y)，且Gⁿ(x，y)∈[a_n，b_n]，a_n表示视差范围的最小值，b_n表示视差范围的最大值；

进而得到第n个场景下第i次重聚焦对应的视差偏移值

其中，i∈[1，r]，本发明中每个场景的重聚焦次数为10，因此r＝10；

式(1)和式(2)中，

表示向下取整符号；

其对应的第i次重聚焦后的中心视角的视差图

光场重聚焦利用不同深度的物体在多视角图像中对应的视差不同，将不同视角图像即子孔径图像，按规律进行平移并叠加，可以获取聚焦在不同深度处的重聚焦图像。如图3所示，将光场不同视角图像阵列中的某一行或某一列的若干张图像堆叠在一起，用不同颜色的直线从纵向穿过不同深度的物体的同一点，则处于聚焦深度的物体对应的直线应当为竖直状态，而处于其他深度的物体对应的直线应当为倾斜状态，且直线越倾斜，对应的物体所经历的离焦就越严重。当子孔径图像经过移位后，各直线的倾斜程度会发生变化，对应于不同深度的聚焦状态发生改变。

步骤3、提取重聚焦后的水平和垂直方向的光场EPI图像；

式(5)中，

进一步从子孔径图像集合

中提取以任意一像素坐标

为中心，且高和宽分别为M和W的水平方向EPI图像

其中，

W为奇数；

式(6)中，

进一步从子孔径图像集合

中提取以像素坐标

为中心，且高和宽分别为M和W的垂直方向EPI图像

其中，

图4表示提取以像素坐标

为中心的水平和垂直方向EPI图像，图5表示多次重聚焦后的EPI图像，可以看到相同位置处不同次重聚焦下的EPI图像斜线斜率是不同的。EPI图像的宽度要根据场景的视差或深度范围来确定，根据数据集的视差范围，本发明中W＝29，因此水平和垂直方向EPI图像的高为9，宽为29。

步骤4、以像素坐标

其中

为第n个场景下第i次重聚焦后中心像素坐标

对应的视差值。本发明中，根据实际提取的EPI图像尺寸，则每个场景所能提取的EPI图像的总数为(X-W-1)(Y-W-1)＝232324。

步骤5、构建光场EPI图像的深度估计模型；

步骤5.1、如图6所示，构建深度估计模型为双支路并行的孪生网络结构，且每个支路前端设置有关联模块，关联模块结构如图7所示；

关联模块依次由两路多层感知器模块、变换和转置操作模块、点乘运算模块、转置和变换模块、ReLU激活函数和特征串接模块组成。其中，多层感知器模块在实际操作中用卷积核大小为1×1卷积层进行替代，便于实现。图7中，输入关联模块的EPI图像尺寸为(M，W，C)，M和W表示图像的高和宽，分别为9和29，表示图像的高和宽，C＝3表示输入图像的通道数。通过点乘运算模块可以建立EPI图像不同像素点之间的关联，只有中间尺寸为(W，M×W)的区域表示EPI图像中心像素点和邻域像素之间的关联性特征，因此只将这部分特征通过特征串接模块与EPI图像串接。

步骤5.2、在每个支路上的关联模块之后，依次连接有s个卷积核大小为m×m的卷积模块，实际操作时s＝4，m＝2，每个卷积模块依次由卷积核大小为m×m的第一卷积层、ReLU激活层、卷积核大小为m×m的第二卷积层、第一批归一化层和第一ReLU激活层组成，这里卷积核的移动步长均为1；

第s个卷积模块之后再连接有t个卷积核大小为1×m的卷积模块，实际操作时t取3，每个1×m的卷积模块依次由卷积核大小为1×m的第一卷积层、第二ReLU激活层、卷积核大小为1×m的第二卷积层、第二批归一化层和第三ReLU激活层组成；

在第t个1×m的卷积模块之后再连接关联模块，这里关联模块中的特征串接模块直接对图7中尺寸为(M×W，M×W)的特征进行操作，关联模块之后分出两条支路，其中，一条支路由第t+1个卷积核大小为1×m的卷积模块，以及卷积核大小为1×m的第一单层卷积层、第四ReLU激活层和卷积核大小为1×m的第二单层卷积层组成，这一支路是为了加快网络收敛；

另一支路和残差模块相连，残差模块的基础模块是由卷积核大小为1×m的卷积模块组成，并采用跳跃连接的方式进行连接；从而构成孪生网络结构中的单个支路结构；

孪生网络结构中的双支路并行的两个残差模块分别与特征串接模块相连，特征串接模块再与第t+2个卷积核大小为1×m的卷积模块连接，从而构成深度估计模型；

步骤5.3、以像素坐标

为中心，并以第n个场景下第i次重聚焦后的水平和垂直方向EPI图像对

作为深度估计模型的输入，从而利用深度估计模型进行回归预测，输出第n个场景下第i次重聚焦后的单个像素点的视差值，记为

并作为像素坐标

的视差估计值；

以第n个场景下第i次重聚焦后的水平和垂直方向EPI图像对

的中心像素坐标

对应的视差值

作为光场数据视差的真实值，使用平均绝对误差作为损失函数，并利用梯度下降算法对深度估计网络模型进行训练，从而得到训练后的光场EPI图像深度估计模型，进而利用光场EPI深度估计模型实现对光场EPI数据的深度估计。

按照步骤4，对training和stratified共8个场景的测试集进行测试，获取测试集场景的水平和垂直方向的EPI图像，将测试集的EPI图像送入深度估计模型中，估计每个像素点的视差值，之后再按原图像的像素位置进行排列，获取整张视差图。

图8和图9为本发明的基于光场EPI图像的深度估计方法与当前其他光场深度估计方法深度估计的结果。其中，Ours表示本发明的基于EPI图像的深度估计方法；CAE表示基于像素匹配的光场深度估计方法，利用信息熵衡量微透镜图像的一致性估计深度；LF_OCC表示利用不同聚焦参数下EPI图像的变化，提取散焦和相关性线索，估计深度的方法；SPO表示利用算子直接计算EPI图像斜线斜率的深度估计方法；EPN+OS+GC表示基于深度学习的EPI图像深度估计方法，利用水平和垂直方向的EPI图像作为输入。上述方法均在本发明使用的4D Light Field Benchmark数据集上进行测试。

表1和表2为本发明基于光场EPI图像的深度估计方法分别以“BP(0.07)”、和“均方差MSE”为度量标准，并利用4D Light Field Benchmark数据集，与当前其他光场深度估计方法进行量化对比的分析表，“BP(0.07)”是平均坏像素率的统计指标，用于度量深度估计结果与真实结果的差值大于0.07的像素占总像素的比率，其值越小，表明深度估计的效果越好；“均方差MSE”是图像平滑度的统计指标，其值越小，表明深度估计的效果越好。

表1实验结果在BP(0.07)评估标准下的对比

scenes	CAE	LF_OCC	SPO	EPN+OS+GC	Ours
						boxes	17.885	24.526	15.889	15.304	13.373
cotton	3.369	6.548	2.594	2.060	0.869
						dina	4.968	15.466	2.184	2.877	2.814
sideboard	9.845	17.923	9.297	7.997	5.580
						backgammon	3.924	18.061	3.781	3.328	2.511
dots	12.401	5.109	16.274	39.248	25.930
						pyramids	1.681	2.830	0.861	0.242	0.326
stripes	7.872	17.558	14.987	18.545	5.893

表2实验结果在MSE评估标准下的对比

scenes	CAE	LF_OCC	SPO	EPN+OS+GC	Ours
						boxes	8.424	9.095	9.107	9.314	4.189
cotton	1.506	1.103	1.313	1.406	0.313
						dino	0.382	1.077	0.310	0.565	0.336
sideboard	0.876	2.158	1.024	1.744	0.733
						backgammon	6.074	20.962	4.587	3.699	1.403
dots	5.082	2.731	5.238	22.369	6.754
						pyramids	0.048	0.098	0.043	0.018	0.016
stripes	3.556	7.646	6.955	8.731	1.263

根据表1和表2定量分析结果，本发明的“BP(0.07)”、和“均方差MSE”整体优于其他深度估计方法。