CN109993764B

CN109993764B - 一种基于频域能量分布的光场深度估计方法

Info

Publication number: CN109993764B
Application number: CN201910266825.0A
Authority: CN
Inventors: 金欣; 李俊科; 戴琼海
Original assignee: Shenzhen Graduate School Tsinghua University
Current assignee: Shenzhen Graduate School Tsinghua University
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2021-02-19
Anticipated expiration: 2039-04-03
Also published as: CN109993764A

Abstract

本发明公开了基于频域能量分布的光场深度估计方法，包括：提取光场图的中心子孔径图像，划分为空间块进行频域变换；针对每一空间块，从频域分布提取一致性描述子和方向性描述子；根据每个空间块的一致性描述子来判断空间块为遮挡区域或非遮挡区域，并将判断结果应用于空间块对应的角度块；对于遮挡区域，结合角度块的中心角像素、空间块的边缘像素和方向性描述子选择符合一致性描述的子角度块；针对非遮挡区域，提取整个角度块的聚焦张量；针对遮挡区域，提取子角度块的聚焦张量；建立代价方程；最大化代价方程实现光场深度估计。本发明在保证非遮挡区域深度准确性的同时提高了遮挡区域的深度准确性，使深度突变处的细节更加丰富。

Description

一种基于频域能量分布的光场深度估计方法

技术领域

本发明涉及计算机视觉与数字图像处理领域，具体涉及一种基于频域能量分布的光场深度估计方法。

背景技术

光场成像理论以其能够同时记录光线空间信息和角度信息的特点引发了研究界与工业界的广泛关注，基于该理论发布的光场相机(如Lytro，Illum和Raytrix等)获得了巨大的商业成功，不仅便携性强，而且可一次曝光记录四维光场，实现多视角转换、先拍照后对焦等功能，展现出其在计算机视觉领域的优势，尤其丰富了该领域中深度估计的算法，提高了效率，对于基于深度的三维重建等应用具有重大意义。

现有的基于光场图像的深度估计方法大体可分为五类：极面图像(EpipolarPlane Image)算法，立体匹配算法，散焦分析算法，立体匹配与散焦分析融合算法以及机器学习算法。以上五大类算法各有相应的优势与劣势，平均深度估计结果图大致呈现一致水平。然而对于所有以上算法而言，如果单纯地对所有区域采用统一聚焦线索分析，遮挡区域(即深度发生突变)导致的同一视角前后景混杂会直接引起张量计算错误，导致大多数深度估计算法在深度突变处存在前景蔓延趋势，其结果表现为变化平缓有毛刺，从而降低了算法的准确度，使得所求得的结果图质量较差，环境适应性低。

以上背景技术内容的公开仅用于辅助理解本发明的发明构思及技术方案，其并不必然属于本专利申请的现有技术，在没有明确的证据表明上述内容在本专利申请的申请日前已经公开的情况下，上述背景技术不应当用于评价本申请的新颖性和创造性。

发明内容

本发明的主要目的在于克服现有技术的不足，提出一种基于频域能量分布的光场深度估计方法，在保持非遮挡区域估计准确度的同时，提高遮挡区域的估计准确度，从而提升深度图质量。

本发明为达上述目的提出以下技术方案：

一种基于频域能量分布的光场深度估计方法，包括：

A1、提取光场图像的中心子孔径图像，并划分为空间块分别进行频域变换；

A2、针对每一个空间块，从频域分布提取一致性描述子和方向性描述子；

A3、根据每个空间块的一致性描述子来判断空间块为遮挡区域或非遮挡区域，并将判断结果应用于空间块对应的角度块；

A4、对于遮挡区域，结合角度块的中心角像素、空间块的边缘像素和所述方向性描述子选择符合一致性描述的子角度块；

A5、针对非遮挡区域，提取整个角度块的聚焦张量；针对遮挡区域，提取所述子角度块的聚焦张量；从而建立代价方程；

A6、通过最大化代价方程实现光场深度估计。

本发明基于散焦分析法，首先根据中心子孔径图像的特征对整张光场图像划分为非遮挡与遮挡区域，在对光场图像进行数字重聚焦的过程中，对不同区域分析其在聚焦和散焦状态下表现的不同特点，选择能够准确描述该特点的深度线索，并定义代价方程，通过最值化代价方程的形式来获取深度图，可获取准确性与一致性高、遮挡边缘锐利清晰的结果。

附图说明

图1为本发明提出的基于频域能量分布的光场深度估计方法的流程图。

具体实施方式

下面结合附图和具体的实施方式对本发明作进一步说明。

本发明的具体实施方式提出一种基于频域能量分布的光场深度估计方法，主要思路为：首先利用光场图像的中心子孔径图像的特定像素点所在空间块的一致性，区分非遮挡区域与遮挡区域；针对遮挡区域，在空间块中计算其边缘的斜率并判断前后景信息；提出一种与聚焦程度具有强相关性的新张量，对于非遮挡区域计算整个角度块的聚焦程度，对于遮挡区域，则通过前述前后景信息的分析找到相应的聚焦子角度块，计算子角度块的聚焦程度，从而建立分区域的代价方程，最后通过最大化代价方程实现光场图像的深度估计。

参考图1，本发明的基于频域能量分布的光场深度估计方法具体包括如下步骤A1～A6：

A1、提取光场图像的中心子孔径图像，并划分为空间块分别进行频域变换。

首先，对输入的光场图像固定视角后，提取其中心子孔径图像I_c(x,y)：

其中，L_F(x,y,u,v)表示输入的光场图像，(x,y)、(u,v)分别表示空间坐标和角度坐标，N_u、N_v分别为水平视角数和垂直视角数，

为上取整操作，

为中心位置的角度坐标。

然后，将所述中心子孔径图像划分为空间块，对每个空间块采用离散余弦变换(DCT)将空域信息映射到频域，即完成所述频域变换，具体公式如下：

其中，I_xy(x',y')代表以坐标(x,y)为中心选取的尺寸为M·M空间块，(x',y')为空间块中的坐标，空间块尺寸的变化范围为0～M-1，F_xy(m₁,m₂)即为对空间像素(x,y)进行M·M尺寸的离散余弦变换后的频域块，(m₁,m₂)为(x,y)在频域的相应坐标。

A2、针对每一个空间块，从频域分布提取一致性描述子和方向性描述子。由于频域信息便于同时表达某个空间块的多种性质，因此一致性描述子和方向性描述子均定义在频域，一致性描述子CFD(x,y)和方向性描述子OFD(x,y)分别为：

其中，F_xy(0,0)表示频域分布中的直流分量，F_xy(0,1)、F_xy(1,0)分别表示竖直方向与水平方向距离低频最近的交流分量。因此，一致性描述子即为低频能量占比，方向性描述子即为通过图像竖直方向与水平方向变化求得的遮挡边缘方向。

A3、根据每个空间块的一致性描述子来判断空间块为遮挡区域或非遮挡区域，并将判断结果应用于空间块对应的角度块。通过分析光场图成像原理可知，在光场相机成像范围内，某个特定像素对应的宏像素(又称“角度块”)与其对应的空间块内容相似，即同时呈现遮挡状态或非遮挡状态。特别地，像素遮挡存在的情况下，该范围内角度块中遮挡像素的方向与空间块中遮挡物边界方向相同。基于此，本发明利用该性质进行区域划分，通过空间块中的内容预测角度块中的内容。

当某像素对应的空间块变化缓慢或无变化时，表示该像素所在区域无遮挡，此特点在频域中的表现即为：DC(直流分量)幅值占据总能量较高比例，AC(交流分量)幅值占据总能量很低比例，空间块一致性较高。故，区分遮挡区域和非遮挡区域的判别条件设置为：

其中，τ表示预设的阈值；当一空间块的一致性描述子CFD(x,y)≥τ时，R(x,y)＝0表示该空间块为非遮挡区域；当一空间块的一致性描述子CFD(x,y)＜τ时，R(x,y)＝1表示该空间块为遮挡区域。

A4、对于遮挡区域，结合角度块的中心角像素、空间块的边缘像素和所述方向性描述子选择符合一致性描述的子角度块。对于遮挡区域，由于聚焦时其角像素对应的整个角度块不再满足一致性条件，故本发明提出通过寻找其角度块中符合一致性的子角度块来进行一致性判断，以进行后续的深度估计。

具体而言，对于属于遮挡区域的空间块，其方向性描述子已知时，符合一致性描述的子角度块位于遮挡边缘的法向量方向：

其中，x_j、y_j表示第j个边缘像素的坐标。选取属于遮挡区域的空间块的中心像素(相当于对应的角度块的中心角像素)与所有边缘像素建立以下等式：

(x_j-x)·cosθ+(y_j-y)·sinθ＝0 (8)

其中，θ表示由所述方向性描述子OFD(x,y)求得的遮挡边缘角度；通过求解式(8)，可以得到两个与所述中心像素连接且指向所述法向量方向的边缘像素，记为(x₁,y₁)、(x₂,y₂)；从而，所述法向量的正方向表示为：

其中，L(x_j,y_j)、L(x,y)分别表示边缘像素和中心像素的像素值。这样一来，就可以找到符合一致性描述的子角度块。

A5、针对非遮挡区域，提取整个角度块的聚焦张量；针对遮挡区域，提取所述子角度块的聚焦张量，以建立代价方程。根据光场重聚焦能力，生成焦栈，即一系列聚焦平面由近及远变化的光场图像。场景点在图像平面投影所对应角度块中的频域特征也随聚焦平面的变化而变化。因此，本发明提取并分析频域特征，获得能够用数学方式明显表现聚焦平面位置变化的张量，从而对场景深度信息进行计算。当场景点聚焦在准确深度时，对于非遮挡区域而言同一角度块中不同视角的角像素来自于同一场景点，因此具有相等的强度；对于遮挡区域也可根据步骤A4找到其满足一致性的子角度块，其一致性表述由步骤A2中的一致性描述子CFD(x,y)表述。从而，本发明的代价方程如下：

其中，CFD_α(x,y)表示属于非遮挡区域的一个完整的角度块的聚焦张量，

表示遮挡区域的所述子角度块的聚焦张量；CFD_α(x,y)、

的求解采用前述的公式(4)，其中α表示相应的深度层，

表示选取的子角度块所在的方向。

A6、通过最大化代价方程实现光场深度估计。根据光场成像原理，当场景点被准确聚焦时，其对应角度块的一致性最高，相应的一致性描述子CFD(x,y)最大，场景深度估计为：

对于光场图像的每个场景点而言，都可以根据式(11)找到一个最大值，从而取这个最大值对应的深度作为最终的深度估计结果。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种基于频域能量分布的光场深度估计方法，其特征在于，包括：

A5、针对非遮挡区域，提取整个角度块的聚焦张量；针对遮挡区域，提取所述子角度块的聚焦张量；从而建立代价方程；所述聚焦张量是通过提取频域特征并进行分析而获得的用数学方式表征聚焦平面位置变化的张量；所述代价方程为：

其中，R(x,y)＝0表示空间块为非遮挡区域，CFD_α(x,y)表示属于非遮挡区域的一个完整的角度块的聚焦张量，R(x,y)＝1表示空间块为遮挡区域，

表示遮挡区域的所述子角度块的聚焦张量，α表示相应的深度层，

表示选取的子角度块所在的方向；在某一深度层，属于非遮挡区域的一个完整的角度块或者遮挡区域的子角度块的聚焦张量可采用一致性描述子CFD(x,y)来计算：

其中，F_xy(0,0)表示频域分布中的直流分量，F_xy(m₁,m₂)为步骤A1中对空间块进行频域变换时对空间像素(x,y)进行M·M尺寸的离散余弦变换后的频域块，(m₁,m₂)为(x,y)在频域的相应坐标；

A6、通过最大化代价方程实现光场深度估计。

2.如权利要求1所述的基于频域能量分布的光场深度估计方法，其特征在于，步骤A1包括：

A11、对输入的光场图像，固定视角后提取其中心子孔径图像；

A12、将所述中心子孔径图像划分为空间块，对每个空间块采用离散余弦变换将空域信息映射到频域，完成所述频域变换。

3.如权利要求2所述的基于频域能量分布的光场深度估计方法，其特征在于，步骤A11中提取中心子孔径图像的方法如下：

其中，I_c(x,y)即为所提取的中心子孔径图像，L_F(x,y,u,v)表示输入的光场图像，(x,y)、(u,v)分别表示空间坐标和角度坐标，N_u、N_v分别为水平视角数和垂直视角数，

为上取整操作，

为中心位置的角度坐标。

4.如权利要求3所述的基于频域能量分布的光场深度估计方法，其特征在于，步骤A12中对所述空间块进行离散余弦变换的方法如下：

其中，I_xy(x',y')代表以坐标(x,y)为中心选取的尺寸为M·M空间块，(x',y')为空间块中的坐标，空间块尺寸的变化范围为0～M-1。

5.如权利要求4所述的基于频域能量分布的光场深度估计方法，其特征在于，步骤A2中的方向性描述子OFD(x,y)为：

其中，F_xy(0,1)、F_xy(1,0)分别表示竖直方向与水平方向距离低频最近的交流分量。

6.如权利要求5所述的基于频域能量分布的光场深度估计方法，其特征在于，步骤A3中判断空间块为遮挡区域或非遮挡区域的条件为：

其中，τ表示预设的阈值；当一空间块的一致性描述子CFD(x,y)≥τ时，R(x,y)＝0，表示该空间块为非遮挡区域；当一空间块的一致性描述子CFD(x,y)＜τ时，R(x,y)＝1，表示该空间块为遮挡区域。

7.如权利要求6所述的基于频域能量分布的光场深度估计方法，其特征在于，步骤A4具体包括：

A41、对于属于遮挡区域的空间块，其方向性描述子已知时，符合一致性描述的子角度块位于遮挡边缘的法向量方向

x_j、y_j表示第j个边缘像素的坐标；

A42、选取属于遮挡区域的空间块的中心像素与所有边缘像素建立等式(x_j-x)·cosθ+(y_j-y)·sinθ＝0并求解，得到两个与所述中心像素连接且指向所述法向量方向的边缘像素，记为(x₁,y₁)、(x₂,y₂)；θ表示由所述方向性描述子OFD(x,y)求得的遮挡边缘角度；从而，所述法向量的正方向表示为：

其中，L(x_j,y_j)、L(x,y)分别表示边缘像素和中心像素的像素值；

A43、选择位于所述法向量的正方向上的子角度块。

8.如权利要求5所述的基于频域能量分布的光场深度估计方法，其特征在于，步骤A6具体包括：

根据光场成像原理，当场景点被准确聚焦时，其对应角度块的一致性最高，相应的一致性描述子CFD(x,y)最大，场景深度估计为：