CN108242063A

CN108242063A - 一种基于gpu加速的光场图像深度估计方法

Info

Publication number: CN108242063A
Application number: CN201810119147.0A
Authority: CN
Inventors: 金欣; 秦延文; 戴琼海
Original assignee: Shenzhen Graduate School Tsinghua University
Current assignee: Shenzhen Graduate School Tsinghua University
Priority date: 2018-02-06
Filing date: 2018-02-06
Publication date: 2018-07-03
Anticipated expiration: 2038-02-06
Also published as: CN108242063B

Abstract

本发明公开了一种基于GPU加速的光场图像深度估计方法，包括：将光场图像从CPU传输到GPU，将GPU的线程映射到光场图像的光场角度域像素，为每一个线程t_i分配一个光场角度域像素A(p,α)工作范围；对各个线程不同深度区间进行缓存更新以对光场图像进行重聚焦，每个线程t_i分别计算对应的光场角度域像素A(p,α)的CMR，计算得到所有剪切参数α下的CMR以得到深度张量，其中CMR表示像素强度的变化范围；通过线程t_i提取深度张量中属于同一像素的CMR，构建出CMRs集合，找到该CMRs集合中最小值对应的深度层次，提取出该点对应的深度值，得到光场图像的深度值，并将光场图像的深度值从GPU传输到CPU。本发明的方法在保证深度图像高质量的情况下，能够加速整个图像的深度估计过程。

Description

一种基于GPU加速的光场图像深度估计方法

技术领域

本发明涉及计算机视觉与数字图像处理领域，尤其涉及一种基于GPU加速的光场图像深度估计方法。

背景技术

现如今，诸如Lytro以及Raytrix等光场采集设备越发普及。这些设备就是所谓的光场相机，它们能够在一次拍照中得到场景的中光线的强度信息以及方向信息；利用现有深度估计算法能够对这些设备采集的图像进行深度信息恢复。现有的深度估计方式多种多样，有的是利用多视角立体匹配的方式，其中用到了信息熵、方差等构造损失函数；也有的方法利用了散焦的方式寻找对应像素点在某个焦平面上的聚焦度等。但是由于光场记录了丰富的信息的代价就是数据量颇为庞大，一张光场图像动辄几十兆到上百兆。如果在CPU平台下进行深度图像的恢复，如此巨大的数据量会导致CPU计算资源紧缺，无法快速实时地实现光场深度图像的恢复，这对于实时性要求比较高的应用而言是极大的限制。

以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案，其并不必然属于本专利申请的现有技术，在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下，上述背景技术不应当用于评价本申请的新颖性和创造性。

发明内容

为了解决上述技术问题，本发明提出一种基于GPU加速的光场图像深度估计方法，该方法降低了GPU与CPU之间的数据交换频率，将最繁重的深度估计过程转移到GPU平台上；在保证深度图像高质量的情况下，能够加速整个图像的深度估计过程。

为了实现上述目的，本发明采用以下技术方案：

本发明公开了一种基于GPU加速的光场图像深度估计方法，包括以下步骤：

A1：将光场图像从CPU传输到GPU，将GPU的线程映射到光场图像的光场角度域像素，为每一个线程t_i分配一个光场角度域像素A(p,α)工作范围；

A2：对各个线程不同深度区间进行缓存更新以对光场图像进行重聚焦，每个线程t_i分别计算对应的光场角度域像素A(p,α)的CMR(Consistency Metric Range,一致性度量范围)，计算得到所有剪切参数α下的CMR以得到深度张量，其中CMR表示像素强度的变化范围；

A3：通过线程t_i提取深度张量中属于同一像素的CMR，构建出CMRs集合，找到该CMRs集合中最小值对应的深度层次，提取出该点对应的深度值，得到光场图像的深度值，并将光场图像的深度值从GPU传输到CPU。

优选地，步骤A1中将GPU的线程映射到光场图像的光场角度域像素的映射关系为：

idx＝blockDim.x*blockIdx.x+threadIdx.x；

idy＝blockDim.y*blockIdx.y+threadIdx.y；

tid＝idy+idx*blockDim.y*gridDim.y；

其中，blockDim.x与blockDim.y分别表示线程块在x和y方向的维度，blockIdx.x与blockIdx.y分别表示线程块在线程网格中x和y方向的索引；threadIdx.x与threadIdx.y分别表示线程在线程块中x和y方向的索引；gridDim.y是线程网格在y方向上的维度；

通过上式能够定位任意一个线程所处的位置(idx,idy)以及该线程的绝对位置tid。

优选地，步骤A2中对各个线程不同深度区间进行缓存更新具体包括：对每个光场角度域像素A(p,α)的重聚焦范围进行窗口检测，对窗口不变区只进行一次加载数据，对窗口变化区数据区域进行增减更新。

优选地，步骤A2中对光场图像进行重聚焦的公式为：

其中，L₀为原始的焦距为F处的光场的参数化表示，L_α为在焦距αF处的光场参数化表示，α是剪切参数。

优选地，步骤A2中每个线程t_i计算对应的光场角度域像素A(p,α)的CMR包括：计算光场角度域像素A(p,α)中的每个点在剪切参数为α时的像素强度值。

优选地，计算光场角度域像素A(p,α)中的任意一点C在剪切参数为α时的像素强度值包括：设定C点的位置为(x,y,u,v)，通过重聚焦的公式计算得到R、D、L、U四个像素点的位置分别为(x_ind,y_ind,u,v)、(x_ind,y_ind+1,u,v)、(x_ind+1,y_ind,u,v)、(x_ind+1,y_ind+1,u,v)；其中，为下取整符号；R、D、L、U四个像素点的强度组成像素强度向量I＝[I_R,I_L,I_D,I_U]^T；然后根据R、D、L、U四个像素点与C点之间的位置关系来确定四个权重并组成权重向量W＝[w_R,w_L,w_D,w_U]^T；计算得到C点在剪切参数为α时的像素强度值为I_C＝W^TI。

优选地，步骤A2中计算光场角度域像素A(p,α)的CMR的公式为：

C(p,α)＝βR_max(p,α)+(1-β)R_avg(p,α) (2)

C(p,α)表示光场角度域像素A(p,α)的CMR，β表示加权系数，0≤β≤1；R_max表示R、G、B三个颜色通道像素强度值的最大值，R_max(p,α)＝max(R_R(p,α),R_G(p,α),R_B(p,α))；R_avg表示R、G、B三个颜色通道强度的平方平均值，其中，R_i(p,α)＝max(I_i(q))-min(I_i(q))，i表示R、G、B，q∈A(p,α)，q表示位于光场角度域像素A(p,α)内的像素。

优选地，步骤A3中得到光场图像的深度值D_raw的公式为：

D_raw＝∑_pD_raw(p) (3)

其中，

本发明还公开了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行以实现上述的光场图像深度估计方法。

本发明另外还公开了一种终端设备，包括处理器和存储器；所述存储器存储有计算机程序，所述处理器加载所述计算机程序以执行上述的光场图像深度估计方法。

与现有技术相比，本发明的有益效果在于：通过本发明提出的基于GPU加速的光场图像深度估计方法对光场采集的原始光场图像进行处理，降低了GPU与CPU之间的数据交换频率，仅需要在加载光场数据到GPU以及回传深度图到CPU时需要数据交换；将最繁重的深度估计过程转移到GPU平台上，其中包括：光场重聚焦、张量提取以及深度估计；在保证深度图像高质量的情况下，能够极大地加速整个基于光场图像的深度估计过程。

附图说明

图1是本发明优选实施例的基于GPU加速的光场图像深度估计方法的流程示意图；

图2是本发明优选实施例中CPU与GPU数据流向与操作的过程示意图；

图3a为本发明优选实施例中GPU硬件结构图；

图3b为本发明优选实施例中GPU软件结构图；

图4为本发明优选实施例中光场图像与其光场角度域像素；

图5为本发明优选实施例中整张光场图像与线程网格以及图像块与线程块的对应示意图；

图6a为本发明优选实施例光场角度域像素与重聚焦某个像素需要像素点的位置关系；

图6b为本发明优选实施例光场角度域像素与重聚焦该宏像素需要像素点的位置关系；

图7为本发明优选实施例中所用像素窗口随剪切参数变化而变化的图像；

图8a为本发明优选实施例中重聚焦过程中像素复用图；

图8b为本发明优选实施例中重聚焦过程中像素复用更新图；

图9为本发明优选实施例中张量提取过程；

图10为本发明优选实施例中多线程深度提取过程图。

具体实施方式

下面对照附图并结合优选的实施方式对本发明作进一步详细说明，应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

如图1和图2所示，本发明优选实施例公开了一种基于GPU加速的光场图像深度估计方法，包括以下步骤：

A1：输入光场图像作为原始输入，将光场图像从CPU传输到GPU；为每一个线程t_i分配一个光场角度域像素A(p,α)工作范围，建立起基于角度域像素块的多线程分配算法，初始化GPU；其中p为光场角度域像素在光场图像中的位置，α为剪切参数。

在本实施例中，光场图像的获取借助手持式光场相机如Lytro、Illum或者Raytrix等设备；其中由Lytro或者Illum得到的原始光场图像格式为lfp或者lfr，借助MATLAB光场工具包(不限于此方式)对数据进行解码，从而获得原始场景图像，但此时的图像一般是灰度图，将恢复图进行Demosaic操作，从而将原始的图像转化成为原始输入光场图像。

将光场图像作为原始输入，将数据从CPU传输到GPU；为每一个线程t_i分配一个光场角度域像素A(p,α)工作范围，将GPU的线程映射到光场图像的光场角度域像素位置，建立起基于角度域角像素块的多线程分配算法。

步骤A1中的GPU架构如图3a所示，其中GPU是由几大关键模块构成，包括内存(全局、常量、纹理、共享)，流处理器(SP:Stream Processor)以及流多处理器(SM:StreamMultiprocessor)组成；图3b是GPU的软件架构。计算统一设备架构(CUDA:Compute UnifiedDevice Architecture)是一种易用的GPU编程接口；该架构将复杂的GPU底层实现隐藏起来，在顶层对GPU抽象出线程块(thread block)以及线程网格(thread grid)这些概念；特别指出，一个线程网格由若干个线程块组成，每个线程块是二维的，有X轴和Y轴，就像二维数组一样，可以对线程块进行索引，即给每个线程块进行编号。

然后对光场图像进行多线程的映射。如图4所示，左图为光场图像，右图为其中的一个光场角度域像素。在本实施例中，光场测试场景的分辨率是(768*9)*(768*9)，其中768*768表示每个视角图像的方向分辨率，9*9表示每个内的像素个数。按照线程块与图像之间的位置对应关系，可以申请768*768光场角度域像素个线程以便于每个线程能够处理一个光场角度域像素。按照线程块的布局方式，总共有96*96个线程块，每个线程块里有8*8个线程，其中每个线程块里不限于8*8个线程，只要每个线程块内部的线程数为32的倍数即可，同时保证其与线程块数量的乘积为图像中总的光场角度域像素数目。也即，在优选实施例中，只需要按照如下映射，线程与图像位置就一一对应起来。

idx＝blockDim.x*blockIdx.x+threadIdx.x；

idy＝blockDim.y*blockIdx.y+threadIdx.y；

tid＝idy+idx*blockDim.y*gridDim.y；

其中，blockDim.x与blockDim.y分别代表了线程块在x和y方向的维度，这两个数均是用户指定的值，在上述实例中blockDim.x＝blockDim.y＝96。blockIdx.x与blockIdx.y表示的是线程块在线程网格中x和y方向的索引，在上述实例中blockIdx.x和blockIdx.y的变化范围是从1～96；threadIdx.x与threadIdx.y分别表示线程在线程块中x和y方向的索引，在上述实例中threadIdx.x和threadIdx.y变化范围都是从1～8；gridDim.y是线程网格在y方向上的维度。通过以上三个公式可以定位任意一个线程所处的位置(idx,idy)以及该线程的绝对位置tid。

与线程对应的是光场相机的光场角度域像素，如图5所示，左图为光场图像被线程块划分后的结果，每一个块就是一个线程块；右图表示其中每个线程块中线程的排布，每个块表示一个线程；其中每一个线程负责一个光场角度域像素的后续运算(重聚焦中的插值)。如上处理，将像素位置与线程位置有效地对应起来。

A2：对光场重聚焦过程中像素位置复用规律的进行像素窗口检测：对窗口不变区只进行一次加载数据，对窗口变化区数据区域进行增减更新；为线程不同深度区间进行缓存更新机制完成光场图像的重聚焦以得到聚焦栈；在得到聚焦栈的同时每个线程计算其负责的角度域的CMR，循环此过程完成在所有聚焦层次上(所有剪切参数α)的CMR计算，得到深度张量，其中CMR(Consistency Metric Range,一致性度量范围)表示像素强度的变化范围。

其中，光场重聚焦过程由如下公式定义：

其中，L₀表示原始的焦距为F处的光场的参数化表示，L_α表示在焦距αF处的光场参数化表示，α是一个比例因子又被叫做剪切参数，它决定重聚焦后像的位置；其中在式(1)的等式右边的u(1-1/α)表示在剪切参数为α时，在图像的x方向上的位移，同理v(1-1/α)表示在剪切参数为α，图像在y方向上的位移。式(1)中表示了原始光场图像在x和y方向上做相应的位移，然后构成重聚焦后的图像；其中x和y这两个方向上相应的位移量越大的话，表示中心孔径图像与其他视角图像的距离越大。

具体地，如图6a中表示了如何从原始光场图像(α＝1)重聚焦在其他剪切参数α处；对于光场角度域像素A(p,α)内的任意一点C点而言，需要求得该像素在当前参数α处时的像素强度值；根据C点的位置结合式(1)可以得到R、D、L和U四个像素点：C点位置可以通过(x,y,u,v)来确定，可以表示为：C＝(x,y,u,v)，根据公式(1)，首先可以得到一个新的位置(x_shift,y_shift)，其中x_shift＝(1-1/α)u+x、y_shift＝(1-1/α)v+y。由于这个位置可能非整数点，要对其进行取整操作：其中表示下取整符号；于是R、D、L、U这四个像素可以分别表示为：R＝(x_ind,y_ind,u,v)，D＝(x_ind,y_ind+1,u,v)，L＝(x_ind+1,y_ind,u,v)，U＝(x_ind+1,y_ind+1,u,v)；其像素强度组成一个像素强度向量I＝[I_R,I_L,I_D,I_U]^T；然后根据这四个点与C点之间的位置关系来确定四个权重量并组成权重向量W＝[w_R,w_L,w_D,w_U]^T(采用类似于双线性差值方法)；最后就能够得到C点在剪切参数为α时的像素强度值：I_C＝W^TI。另外图6a中的斜线填充的像素以及交叉线填充的像素同样可以根据同样的方式得到相应的像素强度值。最后，对于整个光场角度域像素A(p,α)的所有像素而言，均可以获得其在剪切参数为α时的像素强度值。

如图6b所示，将需要的所有像素点的位置标记出，并将这些像素最外部轮廓标注出来形成一个矩形框，其长宽分别为M和N；考虑一般情况光场角度域像素位置不在边界处，此时M＝N＝win_size。对于不同的剪切参数α，win_size的大小可能会发生一定的变化。如图7所示，是剪切参数α从0.2到2时win_size的变化趋势。其中win_size首先是呈阶梯下降之后又有小幅度上升，可以看到其变化有很大一部分是停滞的，即重聚焦所需要的像素的位置点是不变的；发生变动的时win_size仅仅有小幅度的变动。基于此，如图8a所示，对于剪切参数从α₁到α₂，可以仅仅加载在α₁时的数据，从而减少在从α₁到α₂的重复的数据加载；对于剪切参数从α₂到α₃，win_size有了一定变化，但是可以从图8b看到仍有很多像素是重叠着的，因此可以更新一遍在α₁时加载的数据：保留重复的数据，删除α₁数据中不重复的部分并且添加α₃时新进的数据。

综上，重聚焦以及张量提取可以分成两种模式进行：第一种模式对应着剪切参数较小时，如图9中α₀层，此时的win_size较大并且没有win_size阶梯(重叠)现象发生；此时的一个线程的工作是处理一个光场角度域像素，即需要从原始光场图像的相应位置获取信息然后得到剪切参数为α₀时的光场角度域像素(图9中的浅灰色方形区域)，同时得到对应的图9中灰色点所示的CMR值。第二种模式是针对win_size中有连续重复的区域而言，当剪切参数从α₁变化到α₂时，win_size是不变化的，单线程的工作就是处理在图9中黑色斜线填充的矩形围起的区域的数据，同时得到图9中的黑色斜线区域的CMRs；同理对于剪切参数从α₂变化到α₃时，该线程负责更新一遍在α₁时加载的数据：保留重复的数据，删除α₁数据中不重复的部分并且添加α₃时新进的数据，计算出黑色交叉线填充的光场角度域像素在该剪切参数下的像素强度，同时得到其CMR值。对于其他剪切参数下的重聚焦以及张量提取，也是同上处理。

其中，CMR的计算公式为：

C(p,α)＝βR_max(p,α)+(1-β)R_avg(p,α) (2)

C(p,α)表示角度域像素p在剪切参数为α(光场角度域像素A(p,α))的CMR，β表示加权系数，0≤β≤1；R_max表示R、G、B三个颜色通道强度的最大值，R_max(p,α)＝max(R_R(p,α),R_G(p,α),R_B(p,α))；R_avg表示R、G、B三个颜色通道强度的平方平均值，其中，R_i(p,α)＝max(I_i(q))-min(I_i(q))，i表示R、G、B，q∈A(p,α)，q表示位于光场角度域像素A(p,α)内的像素。

A3.通过线程t_i提取深度张量中属于同一像素的CMR，构建出CMRs集合，通过寻找这个CMRs集合中最小值对应的深度层次，提取出该点对应的深度值；得到光场图像的深度值，最后再将光场图像的深度值从GPU传输到CPU。

在步骤A2中已经提取了原始的深度张量数据，接下来要调整深度张量的存储结构以适应GPU多线程工作特点。通过线程t_i提取深度张量中属于同一像素的CMR，构建出CMRs集合，通过寻找这个CMRs集合中最小值对应的深度层次，提取出该点对应的深度值，其示意图如图10所示。

由于深度张量提取后的张量在GPU上的存储结构是线性的，如图10最上端的CMRs所示，每一个层的数据对应着图10中横向切面的全部数据。对于线程t_i而言，它要从原始的CMRs中获得某个像素位置对应在所有剪切参数下的CMRs，所需要的数据如浅灰色矩形所示；当完成获取CMRs数据后，就构成了中排中浅灰色数据的集合；最后采用下式从该集合中提取出光场图像的深度值D_raw：

D_raw＝∑_pD_raw(p) (3)

其中，

本发明提出的基于GPU加速的光场图像深度估计方法可处理任何以光场相机拍摄的图像，其图像可以通过位置的重新排列得到该方法所需要的输入。

通过本发明提出的基于GPU加速的光场图像深度估计方法对光场采集的原始光场图像进行处理，降低了GPU与CPU之间的数据交换频率，仅需要在加载光场数据到GPU以及回传深度图到CPU时需要数据交换；将最繁重的深度估计过程转移到GPU平台上，其中包括：光场重聚焦、张量提取以及深度估计；在保证深度图像高质量的情况下，能够极大地加速整个基于光场图像的深度估计过程。

本发明的另一个实施例还公开了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行以实现上述的光场图像深度估计方法。

本发明的另一个实施例还公开了一种终端设备，包括处理器和存储器；所述存储器存储有计算机程序，所述处理器加载所述计算机程序以执行上述的光场图像深度估计方法。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种基于GPU加速的光场图像深度估计方法，其特征在于，包括以下步骤：

A2：对各个线程不同深度区间进行缓存更新以对光场图像进行重聚焦，每个线程t_i分别计算对应的光场角度域像素A(p,α)的CMR，计算得到所有剪切参数α下的CMR以得到深度张量，其中CMR表示像素强度的变化范围；

2.根据权利要求1所述的光场图像深度估计方法，其特征在于，步骤A1中将GPU的线程映射到光场图像的光场角度域像素的映射关系为：

idx＝blockDim.x*blockIdx.x+threadIdx.x；

idy＝blockDim.y*blockIdx.y+threadIdx.y；

tid＝idy+idx*blockDim.y*gridDim.y；

3.根据权利要求1所述的光场图像深度估计方法，其特征在于，步骤A2中对各个线程不同深度区间进行缓存更新具体包括：对每个光场角度域像素A(p,α)的重聚焦范围进行窗口检测，对窗口不变区只进行一次加载数据，对窗口变化区数据区域进行增减更新。

4.根据权利要求1所述的光场图像深度估计方法，其特征在于，步骤A2中对光场图像进行重聚焦的公式为：

5.根据权利要求4所述的光场图像深度估计方法，其特征在于，步骤A2中每个线程t_i计算对应的光场角度域像素A(p,α)的CMR包括：计算光场角度域像素A(p,α)中的每个点在剪切参数为α时的像素强度值。

6.根据权利要求5所述的光场图像深度估计方法，其特征在于，计算光场角度域像素A(p,α)中的任意一点C在剪切参数为α时的像素强度值包括：设定C点的位置为(x,y,u,v)，通过重聚焦的公式计算得到R、D、L、U四个像素点的位置分别为(x_ind,y_ind,u,v)、(x_ind,y_ind+1,u,v)、(x_ind+1,y_ind,u,v)、(x_ind+1,y_ind+1,u,v)；其中，为下取整符号；R、D、L、U四个像素点的强度组成像素强度向量I＝[I_R,I_L,I_D,I_U]^T；然后根据R、D、L、U四个像素点与C点之间的位置关系来确定四个权重并组成权重向量W＝[w_R,w_L,w_D,w_U]^T；计算得到C点在剪切参数为α时的像素强度值为I_C＝W^TI。

7.根据权利要求1所述的光场图像深度估计方法，其特征在于，步骤A2中计算光场角度域像素A(p,α)的CMR的公式为：

C(p,α)＝βR_max(p,α)+(1-β)R_avg(p,α) (2)

8.根据权利要求1至7任一项所述的光场图像深度估计方法，其特征在于，步骤A3中得到光场图像的深度值D_raw的公式为：

D_raw＝∑_pD_raw(p) (3)

其中，

9.一种计算机可读存储介质，其特征在于：其存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1至8任一项所述的光场图像深度估计方法。

10.一种终端设备，包括处理器和存储器；其特征在于：所述存储器存储有计算机程序，所述处理器加载所述计算机程序以执行权利要求1至8任一项所述的光场图像深度估计方法。