CN111260707B - 一种基于光场epi图像的深度估计方法 - Google Patents

一种基于光场epi图像的深度估计方法 Download PDF

Info

Publication number
CN111260707B
CN111260707B CN202010107015.3A CN202010107015A CN111260707B CN 111260707 B CN111260707 B CN 111260707B CN 202010107015 A CN202010107015 A CN 202010107015A CN 111260707 B CN111260707 B CN 111260707B
Authority
CN
China
Prior art keywords
light field
refocusing
module
convolution
depth estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010107015.3A
Other languages
English (en)
Other versions
CN111260707A (zh
Inventor
张骏
李坤袁
郑阳
蔡洪艳
张旭东
孙锐
高隽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202010107015.3A priority Critical patent/CN111260707B/zh
Publication of CN111260707A publication Critical patent/CN111260707A/zh
Application granted granted Critical
Publication of CN111260707B publication Critical patent/CN111260707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10052Images from lightfield camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于光场EPI图像的深度估计方法,其步骤包括:1、对光场数据进行重聚焦,获取不同聚焦参数下的光场数据;2、从重聚焦后的光场数据中提取水平和垂直视角的子孔径图像;3、从子孔径图像中提取水平和垂直方向的光场EPI图像;4、搭建基于光场EPI图像关联推理的双支路深度估计模型,用所提取的水平和垂直方向EPI图像进行训练;5、利用训练好的深度估计模型对待处理的光场数据进行深度估计。本发明能充分利用EPI图像中心像素与邻域的关联性,并能利用光场重聚焦原理实现数据增强,从而能有效提高光场EPI图像深度估计的准确性。

Description

一种基于光场EPI图像的深度估计方法
技术领域
本发明属于计算机视觉、图像处理和分析领域,具体的说是一种基于光场EPI图像的深度估计方法。
背景技术
深度估计在立体匹配、三维重建等计算机视觉领域应用广泛,立体视觉技术和三维重建技术往往都需要获取场景的三维信息,因此需要用到深度估计技术去获取场景中物体的深度信息,即空间中某一点到相机平面的距离。通过获取场景中物体的深度信息,可以恢复三维场景。通过传统二维图像的纹理、形状等信息可以恢复场景的深度信息,但单张的二维图像只包含场景的空间位置信息,会导致深度估计精度偏低。
光场相机经过单次曝光可以获取场景的空间和多视角信息,并且可以实现不同深度处场景的重聚焦。通过对单个场景进行多视角密集采样,光场成像使得高精度深度信息的挖掘成为可能。因此,利用光场相机获取的光场数据进行深度估计比传统二维平面图像具有更广泛的应用前景。
光场深度信息提取方法主要通过计算视差来实现。视差的计算主要分为两种方法,一种是对不同视点的图像进行像素匹配,和传统的双目匹配类似;另一类方法主要通过极线图(Epipolar Image,EPI)的结构信息来预测视差。
基于像素匹配的光场深度估计方法,一般利用多视角图像进行立体匹配,通过中心视角图像与相邻视角的差异,构建不同的损失函数,获取匹配量;还可以对聚焦在不同深度处的微透镜图像的像素一致性构建成本量,进而估计深度。
基于EPI图像深度估计方法主要包括直接提取EPI斜率信息的方法和深度学习的方法。传统的直接提取EPI图像斜率信息的方法如计算光场数据结构张量以及基于稀疏分解等方法,对EPI图像进行处理,获取EPI斜线斜率。基于深度学习的方法一般提取以待估计的像素点为中心的EPI图像作为输入,利用卷积神经网络进行特征提取,估计中心像素点的视差值。
虽然在计算机视觉领域中,已经出现了一些性能出色的深度估计方法,但这些方法依然存在着不足之处:
1、传统的基于像素匹配的深度估计方法一般要利用光场数据的全部视角图像,需要的计算量较大,实现方式较为复杂,并且对于一些特定区域需要进行后续优化。
2、根据光场EPI图像斜率和视差之间关系,直接提取EPI图像斜率的方法,算法复杂度较高、运算时间较长,估计精度不高,并且对于不同场景需要进行后续调参。
3、基于深度学习的光场EPI图像深度估计方法需要较多的数据集进行训练,而现有的数据集较少,并且二维EPI图像只包含某一方向的空间信息,对不同方向的二维EPI图像进行处理时,结果常会出现条纹效应,影响估计精度。同时,现有的方法未能充分利用EPI图像中心像素点斜线斜率同相邻区域之间的关联性,导致预测精度不高。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于光场EPI图像的深度估计方法,以期能充分利用EPI图像中心像素与邻域的关联性,并能利用光场重聚焦原理实现数据增强,从而能有效提高光场EPI图像深度估计的准确性。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于光场EPI图像的深度估计方法的特点是按如下步骤进行:
步骤1、对光场数据进行重聚焦,获取重聚焦后的光场数据;
步骤1.1、将第n个场景的光场数据记为Ln(u,v,x,y),其中,u和v分别表示视角维度中任一水平视角和竖直视角,且u,
Figure GDA0003333557530000024
M表示水平和垂直方向的最大视角数,且为奇数,x和y分别表示空间维度中任一水平方向和垂直方向的像素坐标,且x∈[1,X],y∈[1,Y],X,Y分别表示不同视角图像的宽和高,n∈[1,N],N表示光场数据的总数;
步骤1.2、将第n个场景的光场数据Ln(u,v,x,y)对应的中心视角的视差图记为Gn(x,y),且Gn(x,y)∈[an,bn],an表示视差范围的最小值,bn表示视差范围的最大值;
对第n个场景的光场数据Ln(u,v,x,y)重聚焦r次,从而对第n个场景Ln(u,v,x,y)的视差范围[an,bn]进行r等分,并得到第n个场景的单位视差间隔
Figure GDA0003333557530000021
进而得到第n个场景下第i次重聚焦对应的视差偏移值
Figure GDA0003333557530000022
其中,i∈[1,r];
步骤1.3、从空间维度的像素坐标(x,y)中选择任意像素坐标作为第i次重聚焦之前的像素坐标,记为(xi,yi),相对应第i次重聚焦后的像素坐标记为(x′i,y′i),则
Figure GDA0003333557530000023
步骤1.4、利用式(1)和式(2)分别得到双线性插值四周的空间坐标x1i,x2i,y1i,y2i
Figure GDA0003333557530000031
Figure GDA0003333557530000032
式(1)和式(2)中,
Figure GDA0003333557530000033
表示向下取整符号;
步骤1.5、利用式(3)得到双线性插值四周的空间坐标x1i,x2i,y1i,y2i的权重
Figure GDA0003333557530000034
Figure GDA0003333557530000035
步骤1.6、遍历视角维度中的全部视角,从而利用式(4)得到第n个场景下第i次重聚焦后的光场数据
Figure GDA0003333557530000036
Figure GDA0003333557530000037
步骤2、重复步骤1.3至步骤1.6,从而遍历空间维度中的全部像素坐标,并得到相应像素坐标下的全部视角的光场数据,其中,第n个场景下第i次重聚焦后所对应的光场数据
Figure GDA0003333557530000038
其对应的第i次重聚焦后的中心视角的视差图
Figure GDA0003333557530000039
步骤3、提取重聚焦后的水平和垂直方向的光场EPI图像;
步骤3.1、取v=0,从而固定第n个场景下第i次重聚焦后的光场数据
Figure GDA00033335575300000310
的水平方向视角,并利用式(5)获得第n个场景下第i次重聚焦后的水平方向视角的子孔径图像集合
Figure GDA00033335575300000311
Figure GDA00033335575300000312
式(5)中,
Figure GDA00033335575300000313
表示第n个场景下第i次重聚焦后水平方向第u列子孔径图像,且高和宽分别为Y和X;
进一步从子孔径图像集合
Figure GDA0003333557530000041
中提取以任意一像素坐标
Figure GDA0003333557530000042
为中心,且高和宽分别为M和W的水平方向EPI图像
Figure GDA0003333557530000043
其中,
Figure GDA0003333557530000044
W为奇数:
步骤3.2、同理取u=0,从而固定第n个场景下第i次重聚焦后光场数据
Figure GDA0003333557530000045
的垂直方向视角,并利用式(6)获得第n个场景下第i次重聚焦后的垂直方向视角的子孔径图像集合
Figure GDA0003333557530000046
Figure GDA0003333557530000047
式(6)中,
Figure GDA0003333557530000048
表示第n个场景下第i次重聚焦后垂直方向第v行子孔径图像,且高和宽分别为Y和X;
进一步从子孔径图像集合
Figure GDA0003333557530000049
中提取以所述像素坐标
Figure GDA00033335575300000410
为中心,且高和宽分别为M和W的垂直方向EPI图像
Figure GDA00033335575300000411
其中,
Figure GDA00033335575300000418
步骤4、以像素坐标
Figure GDA00033335575300000412
为中心,重复步骤3.1至步骤3.2,从而遍历空间维度中的所有像素坐标,且
Figure GDA00033335575300000413
提取第n个场景下第i次重聚焦后的水平和垂直方向的EPI图像对的集合为:
Figure GDA00033335575300000414
相应提取的水平方向和垂直方向EPI图像中心像素点对应视差值的集合为:
Figure GDA00033335575300000415
其中
Figure GDA00033335575300000416
为第n个场景下第i次重聚焦后中心像素坐标
Figure GDA00033335575300000417
对应的视差值;
步骤5、构建光场EPI图像的深度估计模型;
步骤5.1、构建深度估计模型为双支路并行的孪生网络结构,且每个支路前端设置有关联模块;
所述关联模块依次由两路多层感知器模块、变换和转置操作模块、点乘运算模块、转置和变换模块、ReLU激活函数和特征串接模块组成;
步骤5.2、在每个支路上的关联模块之后,依次连接有s个卷积核大小为m×m的卷积模块,每个卷积模块依次由卷积核大小为m×m的第一卷积层、ReLU激活层、卷积核大小为m×m的第二卷积层、第一批归一化层和第一ReLU激活层组成;
第s个卷积模块之后再连接有t个卷积核大小为1×m的卷积模块,每个1×m的卷积模块依次由卷积核大小为1×m的第一卷积层、第二ReLU激活层、卷积核大小为1×m的第二卷积层、第二批归一化层和第三ReLU激活层组成;
在第t个1×m的卷积模块之后再连接所述关联模块后分出两条支路,其中,一条支路由第t+1个卷积核大小为1×m的卷积模块,以及卷积核大小为1×m的第一单层卷积层、第四ReLU激活层和卷积核大小为1×m的第二单层卷积层组成;
另一支路和残差模块相连,所述残差模块的基础模块是由卷积核大小为1×m的卷积模块组成,并采用跳跃连接的方式进行连接;从而构成所述孪生网络结构中的单个支路结构;
所述孪生网络结构中的双支路并行的两个残差模块分别与所述特征串接模块相连,所述特征串接模块再与第t+2个卷积核大小为1×m的卷积模块连接,从而构成所述深度估计模型;
步骤5.3、以像素坐标
Figure GDA0003333557530000051
为中心,并以所述第n个场景下第i次重聚焦后的水平和垂直方向EPI图像对
Figure GDA0003333557530000052
作为所述深度估计模型的输入,从而利用所述深度估计模型进行回归预测,输出第n个场景下第i次重聚焦后的单个像素点的视差值,记为
Figure GDA0003333557530000057
并作为像素坐标
Figure GDA0003333557530000053
的视差估计值;
以所述第n个场景下第i次重聚焦后的水平和垂直方向EPI图像对
Figure GDA0003333557530000054
的中心像素坐标
Figure GDA0003333557530000055
对应的视差值
Figure GDA0003333557530000056
作为光场数据视差的真实值,使用平均绝对误差作为损失函数,并利用梯度下降算法对所述深度估计网络模型进行训练,从而得到训练后的光场EPI图像深度估计模型,进而利用所述光场EPI深度估计模型实现对光场EPI数据的深度估计。
与现有技术相比,本发明的有益效果在于:
1、从整体上讲,本发明设计了一种基于EPI图像相关性的网络结构,建立了中心像素点斜线斜率同空间邻域像素点之间的关系,提升了网络性能,同时,通过光场重聚焦的数据增强方法,扩充了数据集,提升了网络训练效果。因此,本发明比以往基于光场水平和垂直EPI图像深度估计方法的精度更高,是一种有效的深度估计方法。
2、本发明采用光场重聚焦的方法提取不同聚焦深度处的光场EPI图像,获取相同位置点不同斜率的EPI图像,实现了光场EPI图像数据集的扩充,提高了训练效果,从而提高了估计准确度。
3、本发明针对光场EPI图像自身的特征,充分利用了与EPI图像的中心像素点相邻的区域信息,建立了中心像素点与相邻区域斜线斜率的关联性,有效改善了网络性能,提升了深度估计精度。
附图说明
图1为本发明的深度估计方法工作流程图;
图2为本发明使用的数据集部分场景和真实视差图;
图3为本发明的光场重聚焦示意图;
图4为本发明方法获取的水平和垂直方向EPI图像;
图5为本发明方法提取的不同次重聚焦下的EPI图像;
图6为本发明方法的网络结构图;
图7为本发明方法的关联模块原理图;
图8为本发明方法和其他光场深度估计方法在4D Light Field Benchmark数据集training场景上的深度估计结果;
图9为本发明方法和其他光场深度估计方法在4D Light Field Benchmark数据集stratified场景上的深度估计结果。
具体实施方式
本实施例中,一种基于光场EPI图像的深度估计方法,如图1所示,是按如下步骤进行:
步骤1、对光场数据进行重聚焦,获取重聚焦后的光场数据;
步骤1.1、将不同场景的光场数据用L(u,v,x,y)进行表示,u和v分别表示视角维度中任一水平视角和竖直视角,且u,
Figure GDA0003333557530000061
M表示水平和垂直方向的最大视角数,且为奇数,x和y分别表示空间维度中任一水平方向和垂直方向的像素坐标,且x∈[1,X],y∈[1,Y],X,Y分别表示不同视角图像的宽和高,并将第n个场景的光场数据,记为Ln(u,v,x,y),n∈[1,N],N表示光场数据的总数;本发明中使用4D Light Field Benchmark数据集进行训练和测试,使用该数据集additional的16个场景进行训练,因此训练集场景总数N=16,水平和垂直方向最大视角数M=9,不同视角图像的高Y=512,宽X=512。
步骤1.2、将不同场景的光场数据对应的中心视角的视差图用G(x,y)进行表示,如图2所示,第一行和第三行表示待估计的场景图像,第二行和第四行表示对应的视差图。并将第n个场景的光场数据Ln(u,v,x,y)对应的中心视角的视差图记为Gn(x,y),且Gn(x,y)∈[an,bn],an表示视差范围的最小值,bn表示视差范围的最大值;
对第n个场景的光场数据Ln(u,v,x,y)重聚焦r次,从而对第n个场景Ln(u,v,x,y)的视差范围[an,bn]进行r等分,并得到第n个场景的单位视差间隔
Figure GDA0003333557530000071
进而得到第n个场景下第i次重聚焦对应的视差偏移值
Figure GDA0003333557530000072
其中,i∈[1,r],本发明中每个场景的重聚焦次数为10,因此r=10;
步骤1.3、从空间维度的像素坐标(x,y)中选择任意像素坐标作为第i次重聚焦之前的像素坐标,记为(xi,yi),相对应第i次重聚焦后的像素坐标记为(x′i,y′i),则
Figure GDA0003333557530000073
步骤1.4、利用式(1)和式(2)分别得到双线性插值四周的空间坐标x1i,x2i,y1i,y2i
Figure GDA0003333557530000074
Figure GDA0003333557530000075
式(1)和式(2)中,
Figure GDA0003333557530000076
表示向下取整符号;
步骤1.5、利用式(3)得到双线性插值四周的空间坐标x1i,x2i,y1i,y2i的权重
Figure GDA0003333557530000077
Figure GDA0003333557530000078
步骤1.6、遍历视角维度中的全部视角,从而利用式(4)得到第n个场景下第i次重聚焦后的光场数据
Figure GDA0003333557530000079
Figure GDA00033335575300000710
步骤2、重复步骤1.3至步骤1.6,从而遍历空间维度中的全部像素坐标,并得到相应像素坐标下的全部视角的光场数据,其中,第n个场景下第i次重聚焦后所对应的光场数据
Figure GDA0003333557530000081
其对应的第i次重聚焦后的中心视角的视差图
Figure GDA0003333557530000082
光场重聚焦利用不同深度的物体在多视角图像中对应的视差不同,将不同视角图像即子孔径图像,按规律进行平移并叠加,可以获取聚焦在不同深度处的重聚焦图像。如图3所示,将光场不同视角图像阵列中的某一行或某一列的若干张图像堆叠在一起,用不同颜色的直线从纵向穿过不同深度的物体的同一点,则处于聚焦深度的物体对应的直线应当为竖直状态,而处于其他深度的物体对应的直线应当为倾斜状态,且直线越倾斜,对应的物体所经历的离焦就越严重。当子孔径图像经过移位后,各直线的倾斜程度会发生变化,对应于不同深度的聚焦状态发生改变。
步骤3、提取重聚焦后的水平和垂直方向的光场EPI图像;
步骤3.1、取v=0,从而固定第n个场景下第i次重聚焦后的光场数据
Figure GDA0003333557530000083
的水平方向视角,并利用式(5)获得第n个场景下第i次重聚焦后的水平方向视角的子孔径图像集合
Figure GDA0003333557530000084
Figure GDA0003333557530000085
式(5)中,
Figure GDA0003333557530000086
表示第n个场景下第i次重聚焦后水平方向第u列子孔径图像,且高和宽分别为Y和X;
进一步从子孔径图像集合
Figure GDA0003333557530000087
中提取以任意一像素坐标
Figure GDA0003333557530000088
为中心,且高和宽分别为M和W的水平方向EPI图像
Figure GDA0003333557530000089
其中,
Figure GDA00033335575300000810
W为奇数;
步骤3.2、同理取u=0,从而固定第n个场景下第i次重聚焦后光场数据
Figure GDA00033335575300000811
的垂直方向视角,并利用式(6)获得第n个场景下第i次重聚焦后的垂直方向视角的子孔径图像集合
Figure GDA00033335575300000812
Figure GDA00033335575300000813
式(6)中,
Figure GDA00033335575300000814
表示第n个场景下第i次重聚焦后垂直方向第v行子孔径图像,且高和宽分别为Y和X;
进一步从子孔径图像集合
Figure GDA00033335575300000815
中提取以像素坐标
Figure GDA00033335575300000816
为中心,且高和宽分别为M和W的垂直方向EPI图像
Figure GDA00033335575300000817
其中,
Figure GDA00033335575300000818
图4表示提取以像素坐标
Figure GDA00033335575300000819
为中心的水平和垂直方向EPI图像,图5表示多次重聚焦后的EPI图像,可以看到相同位置处不同次重聚焦下的EPI图像斜线斜率是不同的。EPI图像的宽度要根据场景的视差或深度范围来确定,根据数据集的视差范围,本发明中W=29,因此水平和垂直方向EPI图像的高为9,宽为29。
步骤4、以像素坐标
Figure GDA0003333557530000096
为中心,重复步骤3.1至步骤3.2,从而遍历空间维度中的所有像素坐标,且
Figure GDA0003333557530000091
提取第n个场景下第i次重聚焦后的水平和垂直方向的EPI图像对的集合为:
Figure GDA0003333557530000092
相应提取的水平方向和垂直方向EPI图像中心像素点对应视差值的集合为:
Figure GDA0003333557530000093
其中
Figure GDA0003333557530000094
为第n个场景下第i次重聚焦后中心像素坐标
Figure GDA0003333557530000095
对应的视差值。本发明中,根据实际提取的EPI图像尺寸,则每个场景所能提取的EPI图像的总数为(X-W-1)(Y-W-1)=232324。
步骤5、构建光场EPI图像的深度估计模型;
步骤5.1、如图6所示,构建深度估计模型为双支路并行的孪生网络结构,且每个支路前端设置有关联模块,关联模块结构如图7所示;
关联模块依次由两路多层感知器模块、变换和转置操作模块、点乘运算模块、转置和变换模块、ReLU激活函数和特征串接模块组成。其中,多层感知器模块在实际操作中用卷积核大小为1×1卷积层进行替代,便于实现。图7中,输入关联模块的EPI图像尺寸为(M,W,C),M和W表示图像的高和宽,分别为9和29,表示图像的高和宽,C=3表示输入图像的通道数。通过点乘运算模块可以建立EPI图像不同像素点之间的关联,只有中间尺寸为(W,M×W)的区域表示EPI图像中心像素点和邻域像素之间的关联性特征,因此只将这部分特征通过特征串接模块与EPI图像串接。
步骤5.2、在每个支路上的关联模块之后,依次连接有s个卷积核大小为m×m的卷积模块,实际操作时s=4,m=2,每个卷积模块依次由卷积核大小为m×m的第一卷积层、ReLU激活层、卷积核大小为m×m的第二卷积层、第一批归一化层和第一ReLU激活层组成,这里卷积核的移动步长均为1;
第s个卷积模块之后再连接有t个卷积核大小为1×m的卷积模块,实际操作时t取3,每个1×m的卷积模块依次由卷积核大小为1×m的第一卷积层、第二ReLU激活层、卷积核大小为1×m的第二卷积层、第二批归一化层和第三ReLU激活层组成;
在第t个1×m的卷积模块之后再连接关联模块,这里关联模块中的特征串接模块直接对图7中尺寸为(M×W,M×W)的特征进行操作,关联模块之后分出两条支路,其中,一条支路由第t+1个卷积核大小为1×m的卷积模块,以及卷积核大小为1×m的第一单层卷积层、第四ReLU激活层和卷积核大小为1×m的第二单层卷积层组成,这一支路是为了加快网络收敛;
另一支路和残差模块相连,残差模块的基础模块是由卷积核大小为1×m的卷积模块组成,并采用跳跃连接的方式进行连接;从而构成孪生网络结构中的单个支路结构;
孪生网络结构中的双支路并行的两个残差模块分别与特征串接模块相连,特征串接模块再与第t+2个卷积核大小为1×m的卷积模块连接,从而构成深度估计模型;
步骤5.3、以像素坐标
Figure GDA0003333557530000101
为中心,并以第n个场景下第i次重聚焦后的水平和垂直方向EPI图像对
Figure GDA0003333557530000102
作为深度估计模型的输入,从而利用深度估计模型进行回归预测,输出第n个场景下第i次重聚焦后的单个像素点的视差值,记为
Figure GDA0003333557530000103
并作为像素坐标
Figure GDA0003333557530000104
的视差估计值;
以第n个场景下第i次重聚焦后的水平和垂直方向EPI图像对
Figure GDA0003333557530000105
的中心像素坐标
Figure GDA0003333557530000106
对应的视差值
Figure GDA0003333557530000107
作为光场数据视差的真实值,使用平均绝对误差作为损失函数,并利用梯度下降算法对深度估计网络模型进行训练,从而得到训练后的光场EPI图像深度估计模型,进而利用光场EPI深度估计模型实现对光场EPI数据的深度估计。
按照步骤4,对training和stratified共8个场景的测试集进行测试,获取测试集场景的水平和垂直方向的EPI图像,将测试集的EPI图像送入深度估计模型中,估计每个像素点的视差值,之后再按原图像的像素位置进行排列,获取整张视差图。
图8和图9为本发明的基于光场EPI图像的深度估计方法与当前其他光场深度估计方法深度估计的结果。其中,Ours表示本发明的基于EPI图像的深度估计方法;CAE表示基于像素匹配的光场深度估计方法,利用信息熵衡量微透镜图像的一致性估计深度;LF_OCC表示利用不同聚焦参数下EPI图像的变化,提取散焦和相关性线索,估计深度的方法;SPO表示利用算子直接计算EPI图像斜线斜率的深度估计方法;EPN+OS+GC表示基于深度学习的EPI图像深度估计方法,利用水平和垂直方向的EPI图像作为输入。上述方法均在本发明使用的4D Light Field Benchmark数据集上进行测试。
表1和表2为本发明基于光场EPI图像的深度估计方法分别以“BP(0.07)”、和“均方差MSE”为度量标准,并利用4D Light Field Benchmark数据集,与当前其他光场深度估计方法进行量化对比的分析表,“BP(0.07)”是平均坏像素率的统计指标,用于度量深度估计结果与真实结果的差值大于0.07的像素占总像素的比率,其值越小,表明深度估计的效果越好;“均方差MSE”是图像平滑度的统计指标,其值越小,表明深度估计的效果越好。
表1实验结果在BP(0.07)评估标准下的对比
scenes CAE LF_OCC SPO EPN+OS+GC Ours
boxes 17.885 24.526 15.889 15.304 13.373
cotton 3.369 6.548 2.594 2.060 0.869
dina 4.968 15.466 2.184 2.877 2.814
sideboard 9.845 17.923 9.297 7.997 5.580
backgammon 3.924 18.061 3.781 3.328 2.511
dots 12.401 5.109 16.274 39.248 25.930
pyramids 1.681 2.830 0.861 0.242 0.326
stripes 7.872 17.558 14.987 18.545 5.893
表2实验结果在MSE评估标准下的对比
scenes CAE LF_OCC SPO EPN+OS+GC Ours
boxes 8.424 9.095 9.107 9.314 4.189
cotton 1.506 1.103 1.313 1.406 0.313
dino 0.382 1.077 0.310 0.565 0.336
sideboard 0.876 2.158 1.024 1.744 0.733
backgammon 6.074 20.962 4.587 3.699 1.403
dots 5.082 2.731 5.238 22.369 6.754
pyramids 0.048 0.098 0.043 0.018 0.016
stripes 3.556 7.646 6.955 8.731 1.263
根据表1和表2定量分析结果,本发明的“BP(0.07)”、和“均方差MSE”整体优于其他深度估计方法。

Claims (1)

1.一种基于光场EPI图像的深度估计方法,其特征是按如下步骤进行:
步骤1、对光场数据进行重聚焦,获取重聚焦后的光场数据;
步骤1.1、将第n个场景的光场数据记为Ln(u,v,x,y),其中,u和v分别表示视角维度中任一水平视角和竖直视角,且
Figure FDA0003467150750000011
M表示水平和垂直方向的最大视角数,且为奇数,x和y分别表示空间维度中任一水平方向和垂直方向的像素坐标,且x∈[1,X],y∈[1,Y],X,Y分别表示不同视角图像的宽和高,n∈[1,N],N表示光场数据的总数;
步骤1.2、将第n个场景的光场数据Ln(u,v,x,y)对应的中心视角的视差图记为Gn(x,y),且Gn(x,y)∈[an,bn],an表示视差范围的最小值,bn表示视差范围的最大值;
对第n个场景的光场数据Ln(u,v,x,y)重聚焦r次,从而对第n个场景Ln(u,v,x,y)的视差范围[an,bn]进行r等分,并得到第n个场景的单位视差间隔
Figure FDA0003467150750000012
进而得到第n个场景下第i次重聚焦对应的视差偏移值
Figure FDA0003467150750000013
其中,i∈[1,r];
步骤1.3、从空间维度的像素坐标(x,y)中选择任意像素坐标作为第i次重聚焦之前的像素坐标,记为(xi,yi),相对应第i次重聚焦后的像素坐标记为(xi′,yi′),则
Figure FDA0003467150750000014
步骤1.4、利用式(1)和式(2)分别得到双线性插值四周的空间坐标x1i,x2i,y1i,y2i
Figure FDA0003467150750000015
Figure FDA0003467150750000016
式(1)和式(2)中,
Figure FDA0003467150750000017
表示向下取整符号;
步骤1.5、利用式(3)得到双线性插值四周的空间坐标x1i,x2i,y1i,y2i的权重
Figure FDA0003467150750000018
Figure FDA0003467150750000021
步骤1.6、遍历视角维度中的全部视角,从而利用式(4)得到第n个场景下第i次重聚焦后的光场数据
Figure FDA0003467150750000022
Figure FDA0003467150750000023
步骤2、重复步骤1.3至步骤1.6,从而遍历空间维度中的全部像素坐标,并得到相应像素坐标下的全部视角的光场数据,其中,第n个场景下第i次重聚焦后所对应的光场数据
Figure FDA0003467150750000024
其对应的第i次重聚焦后的中心视角的视差图
Figure FDA0003467150750000025
步骤3、提取重聚焦后的水平和垂直方向的光场EPI图像;
步骤3.1、取v=0,从而固定第n个场景下第i次重聚焦后的光场数据
Figure FDA0003467150750000026
的水平方向视角,并利用式(5)获得第n个场景下第i次重聚焦后的水平方向视角的子孔径图像集合
Figure FDA0003467150750000027
Figure FDA0003467150750000028
式(5)中,
Figure FDA0003467150750000029
表示第n个场景下第i次重聚焦后水平方向第u列子孔径图像,且高和宽分别为Y和X;
进一步从子孔径图像集合
Figure FDA00034671507500000210
中提取以任意一像素坐标
Figure FDA00034671507500000211
为中心,且高和宽分别为M和W的水平方向EPI图像
Figure FDA00034671507500000212
其中,
Figure FDA00034671507500000213
W为奇数;
步骤3.2、同理取u=0,从而固定第n个场景下第i次重聚焦后光场数据
Figure FDA00034671507500000214
的垂直方向视角,并利用式(6)获得第n个场景下第i次重聚焦后的垂直方向视角的子孔径图像集合
Figure FDA00034671507500000215
Figure FDA00034671507500000216
式(6)中,
Figure FDA00034671507500000217
表示第n个场景下第i次重聚焦后垂直方向第v行子孔径图像,且高和宽分别为Y和X;
进一步从子孔径图像集合
Figure FDA00034671507500000218
中提取以所述像素坐标
Figure FDA00034671507500000219
为中心,且高和宽分别为M和W的垂直方向EPI图像
Figure FDA0003467150750000031
其中,
Figure FDA0003467150750000032
步骤4、以像素坐标
Figure FDA0003467150750000033
为中心,重复步骤3.1至步骤3.2,从而遍历空间维度中的所有像素坐标,且
Figure FDA0003467150750000034
提取第n个场景下第i次重聚焦后的水平和垂直方向的EPI图像对的集合为:
Figure FDA0003467150750000035
相应提取的水平方向和垂直方向EPI图像中心像素点对应视差值的集合为:
Figure FDA0003467150750000036
其中
Figure FDA0003467150750000037
为第n个场景下第i次重聚焦后中心像素坐标
Figure FDA0003467150750000038
对应的视差值;
步骤5、构建光场EPI图像的深度估计模型;
步骤5.1、构建深度估计模型为双支路并行的孪生网络结构,且每个支路前端设置有关联模块;
所述关联模块依次由两路多层感知器模块、变换和转置操作模块、点乘运算模块、转置和变换模块、ReLU激活函数和特征串接模块组成;
步骤5.2、在每个支路上的关联模块之后,依次连接有s个卷积核大小为m×m的卷积模块,每个卷积模块依次由卷积核大小为m×m的第一卷积层、ReLU激活层、卷积核大小为m×m的第二卷积层、第一批归一化层和第一ReLU激活层组成;
第s个卷积模块之后再连接有t个卷积核大小为1×m的卷积模块,每个1×m的卷积模块依次由卷积核大小为1×m的第一卷积层、第二ReLU激活层、卷积核大小为1×m的第二卷积层、第二批归一化层和第三ReLU激活层组成;
在第t个1×m的卷积模块之后再连接所述关联模块后分出两条支路,其中,一条支路由第t+1个卷积核大小为1×m的卷积模块,以及卷积核大小为1×m的第一单层卷积层、第四ReLU激活层和卷积核大小为1×m的第二单层卷积层组成;
另一支路和残差模块相连,所述残差模块的基础模块是由卷积核大小为1×m的卷积模块组成,并采用跳跃连接的方式进行连接;从而构成所述孪生网络结构中的单个支路结构;
所述孪生网络结构中的双支路并行的两个残差模块分别与所述特征串接模块相连,所述特征串接模块再与第t+2个卷积核大小为1×m的卷积模块连接,从而构成所述深度估计模型;
步骤5.3、以像素坐标
Figure FDA0003467150750000039
为中心,并以所述第n个场景下第i次重聚焦后的水平和垂直方向EPI图像对
Figure FDA0003467150750000041
作为所述深度估计模型的输入,从而利用所述深度估计模型进行回归预测,输出第n个场景下第i次重聚焦后的单个像素点的视差值,记为
Figure FDA0003467150750000042
并作为像素坐标
Figure FDA0003467150750000043
的视差估计值;
以所述第n个场景下第i次重聚焦后的水平和垂直方向EPI图像对
Figure FDA0003467150750000044
的中心像素坐标
Figure FDA0003467150750000045
对应的视差值
Figure FDA0003467150750000046
作为光场数据视差的真实值,使用平均绝对误差作为损失函数,并利用梯度下降算法对所述深度估计网络模型进行训练,从而得到训练后的光场EPI图像深度估计模型,进而利用所述光场EPI图像深度估计模型实现对光场EPI数据的深度估计。
CN202010107015.3A 2020-02-21 2020-02-21 一种基于光场epi图像的深度估计方法 Active CN111260707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010107015.3A CN111260707B (zh) 2020-02-21 2020-02-21 一种基于光场epi图像的深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010107015.3A CN111260707B (zh) 2020-02-21 2020-02-21 一种基于光场epi图像的深度估计方法

Publications (2)

Publication Number Publication Date
CN111260707A CN111260707A (zh) 2020-06-09
CN111260707B true CN111260707B (zh) 2022-03-15

Family

ID=70947353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010107015.3A Active CN111260707B (zh) 2020-02-21 2020-02-21 一种基于光场epi图像的深度估计方法

Country Status (1)

Country Link
CN (1) CN111260707B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112116646B (zh) * 2020-09-23 2023-11-24 南京工程学院 一种基于深度卷积神经网络的光场图像深度估计方法
CN112967242B (zh) * 2021-02-26 2023-07-04 北京信息科技大学 一种基于视觉特征聚合的光场质量评价方法
CN113610961B (zh) * 2021-08-05 2022-12-09 北京信息科技大学 一种基于卡尔曼滤波的由光场epi重建稠密深度方法
CN113705796B (zh) * 2021-09-28 2024-01-02 太原科技大学 基于epi特征强化的光场深度获取卷积神经网络
CN114897952B (zh) * 2022-05-30 2023-04-04 中国测绘科学研究院 一种自适应遮挡的单张光场影像准确深度估计方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110120071A (zh) * 2019-05-15 2019-08-13 南京工程学院 一种面向光场图像的深度估计方法
CN110276795A (zh) * 2019-06-24 2019-09-24 大连理工大学 一种基于分裂迭代算法的光场深度估计方法
CN110580481A (zh) * 2019-08-09 2019-12-17 西安理工大学 一种基于epi的光场图像关键位置检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9786062B2 (en) * 2013-05-06 2017-10-10 Disney Enterprises, Inc. Scene reconstruction from high spatio-angular resolution light fields
CN108846473B (zh) * 2018-04-10 2022-03-01 杭州电子科技大学 基于方向和尺度自适应卷积神经网络的光场深度估计方法
US10931956B2 (en) * 2018-04-12 2021-02-23 Ostendo Technologies, Inc. Methods for MR-DIBR disparity map merging and disparity threshold determination

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110120071A (zh) * 2019-05-15 2019-08-13 南京工程学院 一种面向光场图像的深度估计方法
CN110276795A (zh) * 2019-06-24 2019-09-24 大连理工大学 一种基于分裂迭代算法的光场深度估计方法
CN110580481A (zh) * 2019-08-09 2019-12-17 西安理工大学 一种基于epi的光场图像关键位置检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
EPI-Patch Based Convolutional Neural Network for Depth Estimation on 4D Light Field;Yaoxiang Luo等;《International Conference on Neural Information Processing ICONIP 2017: Neural Information Processing》;20171028;第642-652页 *
Light-Field Depth Estimation via Epipolar Plane Image Analysis and Locally Linear Embedding;Yongbing Zhang等;《IEEE Transactions on Circuits and Systems for Video Technology》;20160421;第29卷(第4期);第739-747页 *
光场深度估计方法的对比研究;高隽等;《模式识别与人工智能》;20160930;第29卷(第9期);第769-779页 *
基于EPI的光场深度估计方法研究;宁琪琦;《万方数据库》;20190827;第1-59页 *

Also Published As

Publication number Publication date
CN111260707A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN111260707B (zh) 一种基于光场epi图像的深度估计方法
CN109472819B (zh) 一种基于级联几何上下文神经网络的双目视差估计方法
CN101877143B (zh) 一种二维图像组的三维场景重建方法
CN101938668B (zh) 对多级透镜多视角场景的三维重建的方法
Hua et al. Holopix50k: A large-scale in-the-wild stereo image dataset
CN108648161A (zh) 非对称核卷积神经网络的双目视觉障碍物检测系统及方法
CN106023230B (zh) 一种适合变形图像的稠密匹配方法
CN111985551B (zh) 一种基于多重注意力网络的立体匹配算法
CN113592026A (zh) 一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法
CN111583313A (zh) 一种基于PSMNet改进的双目立体匹配方法
CN111028273B (zh) 一种基于多流卷积神经网络的光场深度估计方法及其实现系统
CN103310421A (zh) 针对高清图像对的快速立体匹配方法及视差图获取方法
CN113538243B (zh) 基于多视差注意力模块组合的超分辨图像重建方法
CN113705796B (zh) 基于epi特征强化的光场深度获取卷积神经网络
CN109801323A (zh) 具有自我提升能力的金字塔双目深度估计模型
CN115830406A (zh) 一种基于多视差尺度的快速光场深度估计方法
JP6285686B2 (ja) 視差画像生成装置
WO2018133027A1 (zh) 基于灰度约束的三维数字散斑的整像素搜索方法及装置
CN113313740B (zh) 一种基于平面连续性的视差图和表面法向量联合学习方法
CN112116646B (zh) 一种基于深度卷积神经网络的光场图像深度估计方法
WO2009099117A1 (ja) 平面パラメータ推定装置、平面パラメータ推定方法及び平面パラメータ推定プログラム
CN116630388A (zh) 基于深度学习的热成像图像双目视差估计方法及系统
CN115731345A (zh) 基于双目视觉的人体三维重建方法
CN115601423A (zh) 一种双目视觉场景下基于边缘增强的圆孔位姿测量方法
da Silva Vieira et al. Stereo vision methods: from development to the evaluation of disparity maps

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant