CN110276795A

CN110276795A - 一种基于分裂迭代算法的光场深度估计方法

Info

Publication number: CN110276795A
Application number: CN201910549437.3A
Authority: CN
Inventors: 张淼; 朴永日; 刘美月
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2019-09-24
Anticipated expiration: 2039-06-24
Also published as: CN110276795B

Abstract

本发明公开了一种基于分裂迭代算法的光场深度估计方法，属于计算机视觉、光场领域，包括如下步骤：A、对输入的光场图像进行校正，得到校正后光场图像；B、基于傅立叶相移定理求得所述校正后光场图像的某一个视角子孔径图像I(x)在发生位移Δx后的另一视角的子孔径图像I(x+Δx)；C、对所有子孔径图像进行立体匹配，构建能量函数得到初始深度图；D、通过对初始深度图进行置信度计算，找到初始深度图中不准确的像素点并对其进行优化；E、得到优化深度图。本发明有效的解决了子孔径图像之间基线过窄的问题，提高匹配质量，在初始深度图的计算过程中尽可能地保证深度图的准确程度。

Description

一种基于分裂迭代算法的光场深度估计方法

技术领域

本发明涉及计算机视觉、光场技术领域，是一种深度估计方法，具体地说是一种基于分裂迭代算法的光场深度估计方法。

背景技术

自1981年以来，光场技术就开始逐渐受到世界各大顶级科研机构的关注，并展开了许多持续性的研究。随着计算机技术的飞速发展以及微透镜制作工艺的逐步提高，使得光场与计算机视觉的结合成为可能。1992年，Adelson提出了七维全光函数理论，利用七维函数来表示物体表面反射的光线，描述了观察者在任意空间和任何时间点的任何可用的信息。1996年，Levoy进一步提出了四维光场理论，将光场进行参数化降维表示。通过光线与任意位置的两个平面的交点来对光线进行参数化表示。

基于光场四维双平面参数化模型，斯坦福大学Levoy团队先后研制出能够记录光场信息的单相机扫描台和阵列式光场相机。与普通相机相比，光场相机能够捕获场景发出的光场四维信息，包括光线强度，以及光线在空间中传播的方向，这与仅能记录光强度的传统相机形成对比。

第一台光场相机是由Gabriel Lippmann在1908年提出的，他将他的概念称为“整体摄影”。Gabriel Lippmann的实验结果包括使用压印有规则阵列微透镜的塑料片制成的粗整体照片，或者通过将非常小的玻璃珠以随机图案紧密堆积，部分嵌入到照相机的表面中。1992年，Adelson和Wang提出了全光相机的设计，可以显著减少立体匹配中的对应问题。与传统相机相比，光场相机做出了很大的改进，减小了镜头孔径的大小，减小了景深，通过微镜阵列来捕获各个方向的光线，再将微透镜阵列得到的影像投射到传感器平面，能够保持传统相机的大孔径所具有的优势，也不用牺牲景深，同时还能保证图像的清晰度。光场相机成功的关键在于采样光场的方式，权衡空间分辨率和角度分辨率，以及混叠对光场的影响。此外，与传统相机相比，最大的区别就是在光场相机在主透镜与传感器之间放置一个微透镜阵列。使用这样的图像，可以分析各微透镜采集的子孔径图像之间的位移并且可以提取深度信息。使用这样的图像，可以分析未聚焦的图像部分的位移并且可以提取深度信息。然而，受到基线长度、各视角图像之间像素点匹配精确度等限制，导致获取的深度图的范围与精度存在一定的误差。对此，Jeon提出了等人提出通过傅里叶相移定理来计算各视角的子孔镜图像之间的亚像素移位，然后再基于立体匹配技术，将中心视角图像作为参考图像与其它各个视角图像进行匹配运算，构建能量函数，并使用多标签优化。此方法可以取得亚像素位移，提高匹配的精度。然而，由于能量函数并不能全面地对匹配进行约束，该方法得到的深度图仍然存在部分像素点深度信息不准确的问题，尤其是在边缘部分。因此，通过四维光场图像进行准确的深度估计仍然是一个很大的挑战。

发明内容

根据上述提出的技术问题，而提供一种基于分裂迭代算法的光场深度估计方法。本发明采用的技术手段如下：

一种基于分裂迭代算法的光场深度估计方法，包括以下步骤：

A、对输入的光场图像进行校正，得到校正后光场图像，其包括如下步骤：

A1、从输入的四维光场数据中得到EPI，所述EPI表示对极平面图像，对极平面图像包括水平对极平面图像和垂直对极平面图像，从输入的四维光场数据中的四维光场图像阵列中抽离多个水平视角图像和多个垂直视角图像，将多个所述水平视角图像中行号相同的像素按视角顺序组合得到所述水平对极平面图像，将多个所述垂直视角图像中列号相同的像素按视角顺序组合得到所述垂直对极平面图像；且将所述四维光场图像阵列中最中心的一个图像作为中心视角图像；

A2、捕捉标准对极平面图像；捕捉国际象棋棋盘作为标准图像，并将标准图像提取为标准对极平面图像，标准对极平面图像包括了标准水平对极平面图像和标准垂直对极平面图像；

使用θ_o ³来与EPI的倾斜程度进行比较，选择EPI梯度大处所对应的点带入如下公式：

其中，θ_o代表标准水平对极平面的无畸变的倾斜程度，G(x)表示畸变点的数量；A表示校正前的某一视角子孔径图像，其中x表示在空间直角坐标系(X，Y，Z)下坐标x处的像素点；

A3、选取四维光场数据中的中心视角图像作为参考视图，同时作为旋转的枢轴，将EPI上每一个点所对应的斜率均经过旋转校正得到校正后光场图像。因为EPI包括水平对极平面图像和垂直对极平面图像，所以在计算时需要对水平对极平面图像和垂直对极平面图像分别求解。

B、定位子孔径图像；

基于傅立叶相移定理求得所述校正后光场图像的中心视角子孔径图像I(x)在发生位移Δx后的另一视角的子孔径图像I(x+Δx)；

F{I(x+Δx)}＝F{I(x)}exp^2πiΔx (1)

I(x+Δx)＝F^-1{F{I(x)}^exp2πiΔx} (2)

其中x表示在空间直角坐标系(x，y，z)下坐标x处的像素点，Δx表示所述中心视角子孔径图像I(x)与所述位移后子孔径图像I(x+Δx)之间的位移，且Δx∈R²，R²表示二维；i表示虚数；F表示离散二维傅里叶变换；

C、对所有子孔径图像进行立体匹配，构建能量函数得到初始深度图，包括如下步骤：

C1、构建能量函数C；

能量函数C定义为坐标x处的像素点及深度标签l的函数：

C(x,l)＝ωC_A(x,l)+(1-ω)C_G(x,l) (3)

其中，C_A表示SAD(绝对和之差)，C_G表示GRAD(梯度差之和)；ω∈[0,1]，其用于调节成本C_A和成本C_G之间的相对重要程度；

Δx(s,l)＝lk(s-s_c) (5)

R_x是一个以在空间直角坐标系(x，y，z)下位置坐标为x的像素点为中心的小矩形区域；τ₁为截断值；V表示在角度坐标系(s，t)下除中心视角s_c外的各视角角度坐标s；k是深度标签l的像素级单位；

其中，Diff_x(s_c,s,x,l)＝|I_x(s_c,x)-I_x(s,x+Δx(s,l))|表示子孔径图像之间在空间直角坐标系下X轴方向上的梯度差异，Diff_y(s_c,s,x,l)＝|I_y(s_c，y)-I_y(s,y+Δx(s,l))|表示子孔径图像之间在空间直角坐标系下Y轴方向上的梯度差异，τ₂为截断常数，其用于抑制异常值；其中y表示空间直角坐标系下另一像素点；

在等式(6)中ψ(s)用于控制基于相对角度坐标系(s，t)的两个方向梯度差的相对重要程度，ψ(s)定义如下：

其中s_c,t_c为中心视角子孔径图像的角度坐标，s，t为其他视角子孔径图像的角度坐标；

C2、能量函数的优化；

使用SIFT算法提取各视角子孔径图像的特征点，对这些特征点进行匹配，可求得特征像素点对应的深度l_c，将其用于能量函数的优化，得到的优化后的能量函数C’表示为：

其中，Mc表示具有可靠匹配对应关系的像素点，l_c为特征像素点对应的深度；

使用SIFT算法提取各视角子孔径图像的特征点，对这些特征点进行匹配，从一对匹配的特征位置中，计算出X,Y坐标下的位置偏差Δf∈R²。如果偏移量||Δf||超出了光场摄像机的最大视差范围，则将它作为异常值剔除。对于每组互相匹配的像素点来说，给定s,s_c,Δf,和k，就可以通过一个线性方程Δf＝lk(s-s_c)求解得出该位置所对应的深度标签l。这个线性方程就是基于等式(5)所描述的线性关系得出来的。由于中心视图中得到的的特征点需要与各个视角图像的特征点进行匹配，因此它将产生多个待定的视差。因此，首先得到它们的中值，并用中值来计算得到可靠的视差l_c。

C3、利用图割法将优化后的能量函数C’最小化，得到各像素点对应深度标签l，即得到初始深度图；

D、通过对初始深度图进行置信度计算，找到初始深度图中不准确的像素点并对其进行优化，置信度计算分为两部分，全局置信度下降与边缘置信度的下降，具体包括以下步骤：

D1、全局置信度下降；

通过使用阈值来计算初始深度图的置信度：

其中，d_min和d_max分别是优化后的能量函数C’中一个像素能量函数的最小值和最大值，σ为一常量，τ是确定初始深度图精度水平的阈值；若c<τ,则此像素位置处的置信度降低；

通过公式(9)可以找到深度估计不准确的像素点，将这些像素位置处的置信度降低；

D2、边缘置信度的下降；

因初始深度图的边缘部分总是不准确且不平滑，因此对D1中置信度降低后的结果进一步采用边缘检测，计算得到初始深度图的边缘信息，并降低边缘区域的置信度，与D1中所得置信度融合，作为掩模M；

D3、根据初始深度图和掩模M得到损失图像d；

E、根据掩模M和损失图像d得到优化深度图d’；

优化深度图d’稀疏表示为：

其中D为字典，α为稀疏系数，α的优化问题表示为：

其中，α’为所求优化系数，γ为常量；

根据SBI算法，将公式(12)重新写成如下形式：

将上式(13)分为两个子问题：

其中，j代表迭代次数，通过SBI算法分别对公式(13)公式(14)迭代计算，得到α并将其带回公式(10)即可得到优化的深度图d’。

步骤C中所述的ω取值为0～1，k取值为0.02～0.05。

步骤C中所述的l取0～80。

所述四维光场图像包括光场图像以及合成光场图像。

本发明具有以下优点：

本发明首先对多视角图像进行了矫正工作，以保证后续工作的有效性。在各视角的图像都经过了矫正之后，我们采用了傅里叶相移定理，将空间域中子孔径图像之间的位移问题转化到了频域进行计算，该方式能够有效解决基线过窄的问题，准确获取亚像素位移。本发明利用准确的亚像素位移，可以精准的定位到各视角的子孔径图像，然后将各视角图像分别与中心视角图像进行像素级的全局匹配，通过数据项与平滑项构建能量函数，既约束了匹配的准确性，也约束了匹配过程中像素点之间的平滑程度。再使用图割法对能量函数进行最小化，从而找到各像素点所对应的深度信息，得到初始深度图。然而初始深度图中仍然存在一些不准确的地方，尤其是在边缘部分。于是我们对初始深度图进行进一步的优化。首先找到在初始深度图中哪些像素是不准确的，以避免对我们的优化工作造成干扰。通过置信度计算得到掩模，建立初始深度图与优化深度图之间的函数关系，得到优化深度图。

本文所使用的深度估计方法中，有效的解决了子孔径图像之间基线过窄的问题，提高匹配质量，在初始深度图的计算过程中尽可能地保证深度图的准确程度。在对初始深度图进行优化的过程中，我们找到所有不准确的点，避免了这些点对于优化工作的干扰。建立初始深度图与优化深度图之间的函数关系，有效的对初始深度图起到优化作用。

基于上述理由本发明可在深度估计等领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明具体实施方式中一种基于分裂迭代算法的光场深度估计方法流程图。

图2是本发明具体实施方式中中心视角图像。

图3是本发明具体实施方式中用于能量函数最小化的图割法示意图。

图4是本发明具体实施方式中得到的初始深度图。

图5是本发明具体实施方式全局置信度下降得到的结果图。

图6是本发明具体实施方式中边缘置信度下降的结果图。

图7是本发明具体实施方式中对光场图像进行深度估计结果之一。

图8是本发明具体实施方式中对光场图像进行深度估计结果之二

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-图8所示，一种基于分裂迭代算法的光场深度估计方法，包括以下步骤：

A1、从输入的四维光场数据中得到EPI，所述EPI表示对极平面图像，对极平面图像包括水平对极平面图像和垂直对极平面图像，从输入的四维光场数据中的四维光场图像阵列中抽离多个中心水平视角图像和多个中心垂直视角图像，将多个所述水平视角图像中行号相同的像素按视角顺序组合得到所述水平对极平面图像，将多个所述垂直视角图像中列号相同的像素按视角顺序组合得到所述垂直对极平面图像；且将所述四维光场图像阵列中最中心的一个图像作为中心视角图像；

B、基于傅立叶相移定理求得所述校正后光场图像的中心视角子孔径图像I(x)在发生位移Δx后的另一视角的子孔径图像I(x+Δx)；

F{I(x+Δx)}＝F{I(x)}exp^2πiΔx (1)

I(x+Δx)＝F^-1{F{I(x)}^exp2πiΔx} (2)

C、对所有子孔径图像进行立体匹配，构建能量函数得到初始深度图，将图像进行校正之后，需要根据B中所求的亚像素位移对多视角图像进行匹配计算，以中心视角图像为参考图像(如图2)，将各视角图像与参考图像之间进行匹配，构建能量函数，通过对能量函数最小化，求得初始深度图。具体步骤如下：

C1、构建能量函数C；

能量函数C定义为坐标x处的像素点及深度标签l的函数：

C(x,l)＝ωC_A(x,l)+(1-ω)C_G(x,l) (3)

Δx(s,l)＝lk(s-s_c) (5)

C2、能量函数的优化；

C3、利用图割法Graph Cuts将优化后的能量函数C’最小化，得到各像素点对应深度标签l，即得到初始深度图；

Graph Cuts用于解决能量函数的优化过程如图3所示。

和都属于L，L表示深度标签的集合。考虑L中只有两个视差的最简单的情况。图中，p,q,m,n均表示像素点，a和b是辅助节点。r表示t-links边，e表示n-links边。此时，r的权重可以表示为E_data，e的权重可以表示为E_smooth。当两个相邻像素的视差不同时，就在两个像素之间构造一个辅助节点，这个辅助节点只与sink节点相连。因此增加一个辅助点，会增加两条n-links和一条t-links。例如p和q之间插入a点，会增加e{p,a}，e{a,q}，三条边。对该图通过Graph cuts算法找最小割，就可以为每个像素分配一个视差。得到的初始深度图如图4所示。

D1、全局置信度下降；

通过使用阈值来计算初始深度图的置信度：

通过公式(9)可以找到深度估计不准确的像素点，将这些像素位置处的置信度降低；经全局置信度降低后的效果如图5所示；

D2、边缘置信度的下降；

因初始深度图的边缘部分总是不准确且不平滑，因此对D1中置信度降低后的结果进一步采用边缘检测，计算得到初始深度图的边缘信息，并降低边缘区域的置信度(如图6)，与D1中所得置信度融合，作为掩模M；

D3、根据初始深度图和掩模M得到损失图像d；

E、根据掩模M和损失图像d得到优化深度图d’；

优化深度图d’稀疏表示为：

其中D为字典，α为稀疏系数，α的优化问题表示为：

其中，α’为所求优化系数，γ为常量；

根据SBI算法，将公式(12)重新写成如下形式：

将上式(13)分为两个子问题：

其中，j代表迭代次数，通过SBI算法分别对公式(13)公式(14)迭代计算，得到α并将其带回公式(10)即可得到优化的深度图d’，如图7、8所示。

步骤C中所述的ω取值为0～1，k取值为0.02～0.05。

步骤C中所述的l取0～80。

所述四维光场图像包括光场图像以及合成光场图像。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于分裂迭代算法的光场深度估计方法，其特征在于，包括以下步骤：

A、对输入的光场图像进行校正，得到校正后光场图像；

B、基于傅立叶相移定理求得所述校正后光场图像的某一个视角子孔径图像I(x)在发生位移Δx后的另一视角的子孔径图像I(x+Δx)；

F{I(x+Δx)}＝F{I(x)}exp^2πiΔx (1)

I(x+Δx)＝F^-1{F{I(x)}^exp2πiΔx} (2)

其中x表示在空间直角坐标系(X，Y，Z)下像素点，Δx表示所述子孔径图像I(x)与所述位移后子孔径图像I(x+Δx)之间的位移，且Δx∈R²，R²表示二维；i表示虚数；F表示离散二维傅里叶变换；

C1、构建能量函数C；

能量函数C定义为像素点x及深度标签l的函数：

C(x,l)＝ωC_A(x,l)+(1-ω)C_G(x,l) (3)

Δx(s,l)＝lk(s-s_c) (5)

R_x是一个以在空间直角坐标系(X，Y，Z)下像素点x为中心的小矩形区域；τ₁为截断值；V表示在角度坐标系(s，t)下除中心视角s_c外的各视角角度坐标；k是深度标签l的像素级单位；

C2、能量函数的优化；

D1、全局置信度下降；

通过使用阈值来计算初始深度图的置信度：

其中，d_min和d_max分别是优化后的能量函数C’中一个像素能量函数的最小值和最大值，σ为一常量，τ是确定初始深度图精度水平的阈值；

D2、边缘置信度的下降；

对D1中置信度降低后的结果进一步采用边缘检测，计算得到初始深度图的边缘信息，并降低边缘区域的置信度，与D1中所得置信度融合，作为掩模M；

D3、根据初始深度图和掩模M得到损失图像d；

E、根据掩模M和损失图像d得到优化深度图d’；

优化深度图d’稀疏表示为：

其中D为字典，α为稀疏系数，α的优化问题表示为：

其中，α’为所求优化系数，γ为常量；

根据SBI算法，将公式(12)重新写成如下形式：

将上式(13)分为两个子问题：

2.根据权利要求1所述的一种基于分裂迭代算法的光场深度估计方法，其特征在于：

A1、从输入的四维光场数据中得到EPI(对极平面图像)；

A2、捕捉标准对极平面图像；

其中，θ_o代表标准水平对极平面的无畸变的倾斜程度，G(x)表示畸变点的数量；A表示校正前的某一视角子孔径图像，其中x表示在空间直角坐标系(X，Y，Z)下某一像素点；

A3、选取四维光场数据中的中心视角图像作为参考视图，同时作为旋转的枢轴，将EPI上每一个点所对应的斜率均经过旋转校正得到校正后光场图像。

3.根据权利要求1所述的一种基于分裂迭代算法的光场深度估计方法，其特征在于：步骤C中所述的ω取值为0～1，k取值为0.02～0.05。

4.根据权利要求1所述的一种基于分裂迭代算法的光场深度估计方法，其特征在于：步骤C中所述l取0～80。