CN104966314B

CN104966314B - 基于压缩感知的光场相机的膜优化方法及字典训练方法

Info

Publication number: CN104966314B
Application number: CN201510249390.0A
Authority: CN
Inventors: 施云惠; 姚张钰; 丁文鹏; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2015-05-15
Filing date: 2015-05-15
Publication date: 2019-02-12
Anticipated expiration: 2035-05-15
Also published as: CN104966314A

Abstract

本发明公开了一种基于压缩感知的光场相机的膜优化和字典优化训练方法，包括步骤：(1)利用KSVD算法从样本库进行字典训练；(2)利用观测P和字典D非相关性，以及观测的特定结构，计算出优化的膜；(3)用膜对四维光场数据进行观测采样；(4)从观测到的二维图像的数据中重建四维光场数据；(5)由稀疏系数重建四维光场数据。而字典优化方法，包括步骤：(1)采用随机的膜，并根据此膜生成特定结构的观测矩阵；(2)利用观测P和字典D非相关性，训练出优化的字典；(3)用膜对四维光场数据进行观测采样；(4)从观测到的二维图像的数据中重建四维光场数据；(5)由稀疏系数重建四维光场数据。

Description

基于压缩感知的光场相机的膜优化方法及字典训练方法

技术领域

本发明属于优化光场获取和重建的技术领域，具体地涉及一种基于压缩感知的光场相机的膜优化方法，以及其训练字典方法。

背景技术

随着光场研究的展开和应用，光场成为继声音、图像、视频之后的一种新型多媒体数据。由于光场数据规模和复杂程度的急剧增长，给光场的获取、存储、处理带来很大压力。因此，有效的获取与存储手段对光场有着深远的意义。

光场是四维光辐射场的参数化表示，同时包含了位置和方向信息。100多年前Ives在双目视差显示系统中运用的针孔成像技术Lippman的集成照相术都是光场成像的雏形。Gershun于1936年提出了光场的概念，将其定义为光辐射在空间各个位置向各个方向的传播，并认为可以通过计算得出像平面上每点的光辐射量。由于计算量大而计算机技术还不成熟，所以当时未能验证其理论。1948年，Gabor获得了第一张全息图，这可以看作一张特殊的光场图像。随着计算机技术的不断发展，Adelson于1992年将光场理论成功运用到计算机视觉，并提出了全光场理论(plenoptic theory)。Levoy在1996年提出的关于光场渲染理论(light field rendering,LFR),通过将光场进行参数化表示，并提出计算成像公式。在此基础上，Ng于2005年发明了第一台手持式光场相机，并推广到了商业领域。紧接着Levoy于2006年将LFR理论运用于显微成像，并研制出光场显微镜，一次曝光能得到最大景深的显微图片，并可进行三维重建。光场实质上就是空间中所有光线光辐射函数的总体。光线携带二维位置信息(u,v)和二维方向信息在光场中传递。根据Levoy的光场渲染理论，空间中携带强度和方向信息的任意光线，都可以用2个平行平面来进行参数化表示，光线与这2个平面相交于2点，形成一个四维光场函数L(u,v,x,y)(图1)。

光场的获取方式主要分为三种：微透镜阵列(Ng的手持光场相机)，相机阵列(斯坦福大学的128相机阵列)和掩膜(Veeraraghavan的光场相机)。Marwah等于2013年在掩膜基础上，将压缩感知运用到光场的获取中。将掩膜置于透镜和成像平面之间，不同视点的视图将被掩膜的不同部分进行调制后再叠加成为一副像平面上的图像。然后再通过稀疏重建恢复所有的不同视点的视图。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提供一种基于压缩感知的光场相机的膜优化方法，其减小了光场的存储空间且采集设备简单，优化了观测从而获得更好的重建质量。

本发明的技术解决方案是：这种基于压缩感知的光场相机的膜优化方法，包括以下步骤：

(1)利用KSVD算法从样本库进行字典训练；

(2)利用观测P和字典D非相关性，以及观测的特定结构，计算出优化的膜；

(3)用膜对四维光场数据进行观测采样；

(4)从观测到的二维图像的数据中重建稀疏系数；

(5)由稀疏系数重建四维光场数据。

本发明设计了对在固定膜的情况下，通过优化训练字典，增大观测和字典之间的非相关性，减小了光场的存储空间且采集设备简单，优化了观测从而获得更好的重建质量。

还提供了基于压缩感知的光场相机的训练字典方法，包括以下步骤：

(I)随机生成膜，并得出其对应的观测矩阵；

(II)结合观测矩阵和非相关性训练优化字典；

(III)用膜对四维光场数据进行观测采样；

(IV)从观测得到的二维图像重建稀疏系数；

(V)由稀疏系数和字典重建原始四维光场数据。

附图说明

图1示出了光场的四维参数化。

图2a示出了两个平面间的光线分布的一种方式；图2b示出了两个平面间的光线分布的另一种方式。

图3示出了在透镜和成像平面间插入膜，光线集得到了部分膜的调制。

图4示出了一个虚拟的拥有16值的膜。

图5示出了膜贴在感知面上的情况。

图6示出了当膜贴在感知面上时，不同的视图将会被完整的膜的相同部分调制。

图7是本发明优化膜实施例的流程图。

图8是本发明优化字典训练实施例的流程图。

具体实施方式

如图7所示，这种基于压缩感知的光场相机的膜优化方法，包括以下步骤：

(1)利用KSVD算法从样本库进行字典训练；

(3)用膜对四维光场数据进行观测采样；

(4)从观测到的二维图像的数据中重建稀疏系数；

(5)由稀疏系数重建四维光场数据。

如图8所示，还提供了基于压缩感知的光场相机的训练字典方法，包括以下步骤：

(I)随机生成膜，并得出其对应的观测矩阵；

(II)结合观测矩阵和非相关性训练优化字典；

(III)用膜对四维光场数据进行观测采样；

(IV)从观测得到的二维图像重建稀疏系数；

(V)由稀疏系数和字典重建原始四维光场数据。

以下更具体地说明本发明：

压缩感知于2006年正式提出后得到了广泛的理论研究和应用。该理论认为大部分的自然信号x∈Rⁿ都可以在一个合适的字典D∈R^n×k下表达为一个稀疏系数α。

x＝Dα，||α||₀＜＜n (1)

用观测矩阵P∈R^m×n(m＜＜n)和原信号x作乘积表示在以低于奈奎斯特采样率的情形下进行采样，得到采样信号y

y＝Px

由(1)得：

y＝PDα (2)

理论研究表明，当信号足够稀疏时通过凸优化等逼近算法，算出的最稀疏的信号是非常逼近原稀疏信号的。所以只要求解：

然后再由(1)式得出初始信号。

在用(3)式进行稀疏重建时，观测P和字典D的非相关性将影响稀疏系数的重建质量。Elad给出了测量非相关性的定义：

这里A＝PD，a_i,a_j是A的不同列。μ值是用来度量P和D的非相关性的，μ越小，P和D的非相关性越强。

在透镜和成像平面间，可以有两种方式看待光线的分布。如果用(u,v)平面表示透镜平面，(s,t)平面表示成像平面，则从(u,v)上的一个点有到(s,t)平面上每个点的光线集，也有从(u,v)上的每个点到(s,t)上一个点的光线集，如图2a、2b所示。

当在透镜平面和成像平面之间插入一个膜后的示意图如图3：

假设每个视图的大小为3*3，我们采样4个视图，让膜的密度大小为4*4。则可示意如图4所示。

图4是一个虚拟的拥有16值的膜。虚实两格子部分分别表示两个光线集被调制的部分。

我们将视图拉成列向量形式，得

而对应的观测矩阵可表示为：

由上，对于一般的情况，光场视图的采样可表达为：

为了简化后面的计算，我们可以重定义

和

可见

以图4中为例，

而膜可以用一个向量表示为

m＝(a₁ a₂ a₃ a₄ b₁ b₂ b₃ b₄ c₁ c₂ c₃ c₄ d₁ d₂ d₃ d₄) (5)

令则有

这里的A如下：

1.膜优化

为了让膜能更好的调制各视图，从而从单幅图像中恢复出多个视图，我们需要对膜进行优化设计。在压缩感知的理论研究中，已有关于优化观测矩阵的研究。而由于压缩感知光场相机的特殊性，其由膜及其位置所决定的观测矩阵具有特定的结构。将此结构考虑进去，并设计合理的算法是解决此问题的关键。

1.1已知字典优化观测矩阵

前面(4)式给出了测量非相关性的μ(A)的定义。格拉姆矩阵G＝A^TA是理解该定义的另一种有效方式。由定义和公式可知，μ(A)的大小等于矩阵G的非对角线上的最大元素。依此，Duarte-Carvajalino和Sapiro提出了让G≈I的优化方法，进而让μ(A)的值尽可能的小，减小观测P和字典D之间的相关性，从而获得更好的重建质量。

由G≈I，G＝A^TA和A＝PD得

等号两边分别左乘D右乘D^T可得

而DD^T将会是一个实对称矩阵。QΛQ^T是对其进行特征值分解的结果。Q将是一个正交矩阵而对角阵Λ的元素是DD^T的特征值。式(7)可写成

等价于，让

得

ΛΓ^TΓΛ≈Λ。

需要求出合适的(因为)来最小化

Λ中的特征值λ₁,...,λ_n是以降序排列的，记

式(9)成为

记是其特征值分解。

这样，我们就有其中ξ_1,j是Η_j的最大特征值而s_1,j是对应的特征向量。为了消除最大的误差部分,我们令等价于Λ，ξ_1,j和s_1,j都是已知的，我们可以算得由式(8)我们能算得优化观测矩阵。

1.2计算优化膜

为了便于描述，我们还是用图4中的简单例子以及等式(5)(6)描述。结合式(8)可知

让我们得到

这里Ω_i＝A_iO_i。现在我们可以通过凸优化解下面的优化方程

(γ₁,γ₂,...γ₉)＝m(Ω₁,Ω₂,…Ω₉)s.t.0≤m_i≤1 (11)

来确定优化的膜m。

更一般的情形下，优化的方程为

(γ₁,γ₂,...γ_w)＝m(Ω₁,Ω₂,…Ω_w)s.t.0≤m_i≤1。

我们讨论一种特定的情况，当膜贴在感知平面上时，如图5所示。

这时各个不同的视图将会被膜的同一部分调制，如图6所示。

此时，观测矩阵——等式将成为

膜依然用向量表示为

m＝(a₁ a₂ a₃ a₄ b₁ b₂ b₃ b₄ c₁ c₂ c₃ c₄ d₁ d₂ d₃ d₄)

而A为：

通过式(10)和(11)即可计算出优化的膜。

当我们进行实验时，由于计算机的计算能力和存储能力的限制，无法对完整的视图进行观测重建，所以我们采用了按分块进行观测和重建。在此种情形下，每个块都对应着一个小的膜。在此种情形下，若仍将膜置于透镜和感知面之间。不同的小块对应的小膜将会有互相交集的部分。如此一来，在计算优化的膜时，将会在膜的同一部分有不同的最佳值。这是与事实不符的。所以，当我们实施按块计算的实验时，将膜贴在了感知面上。如图5所示。

2.字典优化

通过实验，优化膜对多视图的重建有着显著效果。但是在实际用光场相机去进行摄影时，针对不同的景物(预先训练的字典也将不同)更换不同的优化膜是很不方便的。因此，在固定观测的情形下，训练优化字典是很有意义的。

前面的优化观测是基于观测P和字典D的的非相关性μ{A}的。由公式(4)，我们有

由式(1)和(2)，当我们固定了观测矩阵P后，可以用

来训练优化的字典。

β和λ₁是比例系数，为了清晰计算步骤，我们用B来表示则有

我们分三步解决这个优化问题

我们可以用OMP，来解式(12)。

对问题(13)，可以用对B一阶导数为零来求，得

重新整理得

由于向量α维度很高，(αα^T+λ₂I)的求逆将会给计算机的计算带来很大负担。由此我们借用公式(A-BD^-1C)^-1＝A^-1+A^-1B(D-CA^-1B)^-1CA^-1，令A＝λ₂I，D＝I，B＝-α，C＝α^T。然后(16)转化为

至于问题(14)，我们可以用

来逼近最优解。整理得

接下来，我们可以用算法1来求解最优字典。

算法1优化字典

输入：

D^n×n-初始字典，

P-固定的随机观测矩阵，

Iter-循环次数，

B-初始的B，

λ₁,λ₂,λ₃-比例系数。

输出：

1：for k＝1 to Iter do

2:用OMP解(12)得α。

3：用(17)解得B。

4：用(18)解得D。

5:end for

为了验证所提优化方案的有效性，我们在MATLAB R2012a下进行了基于压缩感知的光场视图的获取与重建的模拟实验。我们对在KSVD字典下采用随机的膜(RNP),KSVD字典下采用优化的膜(OPP)和在随机的膜下采用优化的字典(OPD)三种方案进行了比较。实验结果的客观评价采用峰值信噪比(Peak Signal to Noise Ratio，PSNR)度量，单位为分贝(dB)。

我们采用了两个光场数据库car和dragon进行实验。结果如表1所示。

表1三种方案的实验结果比较

数据库	OPP	OPD	RNP
				car	33.1782	31.5040	30.6921
dragon	43.1402	45.6002	41.2650

实验结果表明，与直接用KSVD和随机膜相比，采用本文提出的优化膜和优化字典方案，光场视图的重建质量有了明显的提高。相对而言，膜优化带来的提升比较稳定，而优化字典带来的效果提升则有较大的起伏。本文所提出的优化膜和优化训练字典方案，重建出的视图纹理更细致和清晰，和原始视图更接近。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.基于压缩感知的光场相机的训练字典方法，其特征在于，包括以下步骤：

(I)随机生成膜，并得出其对应的观测矩阵；

(II)结合观测矩阵和非相关性训练优化字典；

(III)用膜对四维光场数据进行观测采样；

(IV)从观测得到的二维图像重建稀疏系数；

(V)由稀疏系数和字典重建原始四维光场数据；

其中步骤(II)通过以下步骤求解最优字典：

(1)输入：

D^n×n-初始字典，

P-固定的随机观测矩阵，

Iter-循环次数，

B-初始的B，

λ₁,λ₂,λ₃-比例系数；

(2)对以下通过从1迭代到Iter

首先，根据以下公式来训练优化的字典

α是稀疏系数，x是原信号，y是采样信号，D是字典，β和λ₁是比例系数，μ值是用来度量P和D的非相关性的，μ越小，P和D的非相关性越强，用B来表示则有以下公式

根据公式(12)、(13)、(14)，分三步解决这个优化问题

用OMP，来解公式(12)

对公式(13)，用对B一阶导数为零来求，变换后得到公式(16)

借用公式(A-BD^-1C)^-1＝A^-1+A^-1B(D-CA^-1B)^-1CA^-1，令A＝λ₂I，D＝I，B＝-α，C＝α^T，然后(16)转化为

至于公式(14)，用以下公式

来逼近最优解，整理得公式(18)

从而获得D。