CN103559701A

CN103559701A - 基于dct系数熵的二维单视图像深度估计方法

Info

Publication number: CN103559701A
Application number: CN201310444856.3A
Authority: CN
Inventors: 孙华东; 金雪松; 赵志杰; 潘庆和; 牛连丁; 陈铭; 张立志; 范智鹏
Original assignee: Harbin University of Commerce
Current assignee: Harbin University of Commerce
Priority date: 2013-09-26
Filing date: 2013-09-26
Publication date: 2014-02-05

Abstract

基于DCT系数熵的二维单视图像深度估计方法，涉及一种二维单视图像深度估计方法。它解决了现有二维单视图像深度估计方法准确度低的问题。其方法：对于待处理图像中的每个像素(i，j)，以该像素为中心选取N×N大小的窗口作为子图像；N为正整数；i和j均为正整数；然后并对该子图像做DCT变换；设定量化步长，然后对子图像DCT系数进行量化，然后计算其系数熵，并将该熵作为像素点(i，j)的模糊程度的度量；采用步骤一和步骤二的方法遍历图像中的每个像素点，得到每个像素点所对应的小波系数熵，然后通过线性映射把熵值映射到8bit的深度值域，得到像素级的深度图，完成基于DCT系数熵的二维单视图像深度估计。本发明适用于二维单视图像深度估计。

Description

基于DCT系数熵的二维单视图像深度估计方法

技术领域

本发明涉及一种二维单视图像深度估计方法。

背景技术

三维显示是未来图像信息的一种重要表现形式。相比二维图像，三维图像具有层次分明、色彩鲜艳、驻景时间长、印象深刻的特点。三维图像携带的信息量要远远超过二维图像，其视觉冲击力强、艺术欣赏价值高，能够使受众产生更强的视觉体验。

随着三维显示器的出现，消费者面临着一个严重的问题，即当前三维媒体资源的稀缺。由于三维显示刚刚进入普及阶段，目前人们观看的三维媒体资源由专用的立体拍摄设备获取，或者是3D工作室精心制作而成。因此，三维片源因其制作成本高，拍摄困难等原因严重匮乏。这一问题不但影响人们的三维体验效果，而且制约了三维显示设备的普及。因为当前三维显示设备的推广所面临的主要问题是片源素材的问题，市场中三维片源的数量远远少于传统二维片源，这将导致消费者需求的下降。针对这一现状，若能够利用计算机视觉等技术将现有的二维图像资源转换为三维，不但可以解决三维片源匮乏的问题，更因为三维资源的增加有利于三维显示设备的普及和发展，具有非常重要的应用价值。

二维图像转三维的关键在于深度信息的获取。2003年，Christoph Fehn提出了基于深度的三维图像生成方式DIBR。根据光学与相机成像原理，阐述了如何根据二维图像的深度信息生成其三维图像。因此，深度信息提取方法的研究也成为热点。针对深度估计，国内外学者做了大量的研究，提出了很多算法。这些方法大体上分为两类：其一，基于帧间运动视差的方法；其二，基于帧内线索的方法。第一类方法主要应用于视频序列(动态图像)的深度提取，该类方法利用帧间的运动信息，提取出运动视差并映射到深度。这类算法具体有块匹配法，像素递归法，光流法等等。但是，这类算法的适用条件是相机运动而场景静止，并且帧间要存在视差。第二类方法，并没有考虑帧间的信息，而主要考虑帧内的各种信息和线索。例如，基于几何线索的线性透视法和纹理梯度法，基于颜色和亮度线索的大气散射法和轮廓场景感知法等等。在第二类方法中，散焦和模糊作为重要的帧内线索，也被越来越多的学者所关注。

利用散焦模糊线索提取深度，主要是依据照相机光学成像中远离成像聚焦平面的物体会发生散焦模糊现象，且离成像平面越远，物体的模糊越严重。1987年，A.P. Pentland提出了频域解卷积的方法，开创了利用散焦模糊线索提取深度信息的先河。随后，很多学者提出了各种深度提取算法。主要分为两类。

第一类：对同一场景采用不同聚焦条件成像，结合照相机参数，利用各个图像模糊程度的不同提取深度信息。例如，Gokstorp.M在1994年提出了多分辨率局部频率算法(multiresolution local frequency)，该方法利用子采样尺度空间的金字塔结构和局部频率表示两个图像，并计算两个图像之间的模糊差异从而估计深度信息。2001年，Rayala.J和Gupta.S提出了基于多项式拟合的传导函数法，该算法认为散焦现象可以用线性系统来模拟，并且采用了一种二元方程误差算法来计算传导函数的多项式系数。Mendapara.P和Minhas.R在2009年提出了基于SUSAN算子的指数衰减测度算法。2012年，Paramanand.C和Rajagopalan.A.N.通过设计卡尔曼滤波器来检测深度，该算法不但适用于散焦模糊情况，也适用于运动模糊情况，此外，该算法并不要求点扩散函数(PSF)约束为高斯形式。尽管这些方法深度估计的效果较好，但必须利用同场景不同散焦情况的多幅图像，而满足这种条件的片源十分缺乏，限制了这类算法的应用。

第二类：对单幅图像的各个像素的模糊程度测量，提出模糊信息，建立像素深度到模糊程度的一个映射。这种方式提取的深度信息一般为场景中各个目标的相对深度(relative depth)。尽管目标的实际深度(ground depth)信息无法恢复，但相对深度信息对于二维图像的三维渲染而言已经是足够的了。比较第一类方式，第二类方式因为具有更强的适应性而得到更多的关注。1993年，Ens.J和Lawrence.P发展了频域解卷积算法，并揭示了一些逆滤波的基本问题。同年，Xiong.Y和Shafer S.A提出了结合Fibonacci搜索和曲线拟合的深度估计算法；该算法建立的模型不但考虑了图像模糊，同时也考虑了几何模糊。1994年，Jahne.B和Geissler.P进一步证明了从单幅图像中利用散焦模糊线索提取深度的可行性，他们提出的方法基于两点：一、精确已知的三维点扩散函数；二、场景中目标的亮度均匀并且具有简单形状。2003年，S.A.Valenecia等提出了基于宏块级小波分解的深度估计方法；但是，该方法生成的深度图存在横条纹噪声。2006年，Wong E把尺度空间理论引入到深度提取中来。2007年，MalikA.S等利用具有带通特性的光学传递函数来估计模糊程度。2008年，Huei-Yung Lin和Kai-Da Gu提出利用图像灰度直方图分析度量模糊程度的方法。同年，北京大学的Guo等将S.A.Valenecia于2003年提出的算法进行改进，并结合边缘增强和色彩分割得到了更为精细的深度图。同年，Namboodiri.V.P提出了不均匀逆向热传导方程的模型来模拟散焦模糊现象，并采用逆向热扩散参数来度量模糊和深度。以上文献中所提的方法，都试图建立某种数学模型或物理模型，并利用相应的模型参数来度量模糊和深度，很明显，这些算法深度估计的准确性直接取决于模型的准确性。2011年，Cheng-Wei Chen等提出利用阶梯边缘处的点扩散函数频谱能量来估计深度的方法。同年，Shaojie Zhuo等对散焦图像利用已知的高斯函数进行再模糊，并利用再模糊图像和原图像在边缘处的梯度比率来度量边缘处的模糊。这两种方法都能得到图像边缘处的稀疏深度图，尽管这两种方法无需估计点扩散函数的具体参数，但仍建立在点扩散函数是高斯形式的基础之上。对比前面的方法，这两种方法在边缘处理效果以及场景深度估计准确度方面有所提高，但对不同的边缘类型泛化能力较差。

发明内容

本发明是为了解决现有的二维单视图像深度估计方法的准确度低的问题，从而提供一种基于DCT系数熵的二维单视图像深度估计方法。

基于DCT系数熵的二维单视图像深度估计方法，它由以下步骤实现：

步骤一、对于待处理图像中的每个像素(i，j)，以该像素为中心选取N×N大小的窗口作为子图像；N为正整数；i和j均为正整数；然后并对该子图像做DCT变换；

步骤二、设定量化步长，然后对子图像DCT系数进行量化，然后计算其系数熵，并将该熵作为像素点(i，j)的模糊程度的度量；

步骤三、采用步骤一和步骤二的方法遍历图像中的每个像素点，得到每个像素点所对应的小波系数熵，然后通过线性映射把熵值映射到8bit的深度值域，得到像素级的深度图，完成基于DCT系数熵的二维单视图像深度估计。

本发明的二维单视图像深度估计方法的准确度高。

附图说明

图1是本发明中相机所用透镜的光学成像模型示意图；

图2是具体实施方式一中lena图像的原始图像；

图3是具体实施方式一中lena图像在s_s为1.5时的模糊图像；

图4是具体实施方式一中lena图像在s_s为3时的模糊图像；

图5是具体实施方式一中DCT系数的熵和点扩散函数的均方差s_s之间的关系图；

图6是具体实施方式一的实验用的原始图像；

图7是分块级小波方法获得的初始深度图像；

图8是现有像素级方法获得的初始深度图像；

图9是本发明获得的深度图；

图10是其它图像和本发明的方法获得的深度图对比示意图。

具体实施方式

具体实施方式一、基于DCT系数熵的二维单视图像深度估计方法，它由以下步骤实现：

步骤一、对于待处理图像中的每个像素(i，j)，以该像素为中心选取N×N大小的窗口作为子图像；N为正整数；i和j均为正整数；然后对该子图像做type-II型DCT变换；

N=9。步骤二设定的量化步长为1。

原理：模糊与深度的关系：

散焦模糊现象是从单视图像提取深度信息的重要线索。一般来讲，当物体不处在场景的聚焦平面(DoF)时，散焦现象就会发生。物体偏离DoF越远，模糊就越严重。可见，模糊的程度与物体的深度是有关联的。模糊的程度可以用模糊直径来度量。通过透镜成像模型，以下将首先分析模糊直径与物体深度的关系。

相机所用透镜的光学成像模型如图1所示，此时散焦物体的距离比场景聚焦平面大。这里L为透镜孔径，f为透镜焦距，p为场景聚焦平面与透镜的物距，q为成像平面与透镜的距离，z为物体的物距(等价于深度)，v为物体的像距。很明显，处于p的点目标，在成像平面聚焦为一点；而在u处的点目标，将会在成像平面产生一个直径为d的模糊光圈。由透镜光学成像原理和几何关系，可得如下关系式：

\frac{1}{p} + \frac{1}{q} = \frac{1}{f}, \frac{1}{z} + \frac{1}{v} = \frac{1}{f}, \frac{d}{L} = \frac{q - v}{v}

将以上等式联立，整理得：

d = \frac{Lpf}{p - f} (\frac{1}{p} - \frac{1}{z})

很明显，随着深度z的增大，模糊光圈的直径d也变大。

当物体的距离小于场景聚焦平面的距离，即z<p时，通过类似的分析，可得：

\frac{Lpf}{p - f} (\frac{1}{z} - \frac{1}{p})

此时，随着深度u的减小，即物体与DoF平面越远，模糊光圈的直径d越大。当照片未标定时，此时参数L f p都未知，尽管无法得到场景的真实深度z，但可以得到场景中各个目标的相对深度。

2D图像上的每个点可以认为是拍摄3D场景中对应点的附近区域所有反射到相机光线的叠加合成，这一过程可以用二维卷积模型来描述，即观测的散焦图像是聚焦良好的理想清晰图像和点扩散函数卷积而得。即：

I(x，y)=I(x，y) h(x，y)

点扩散函数一般可以认为是二维矩形窗或二维的高斯函数。这里采用二维高斯函数的表达形式，即：

h (x, y) = \frac{1}{2 {ps}_{s}^{2}} \exp (- \frac{x^{2} + y^{2}}{2 s_{s}^{2}})

高斯函数的均方差s_s正比于模糊直径d，即s_s=kd，k是与相机参数有关的常量。通过以上分析可知，不同目标(或区域)的模糊程度可以通过点扩散函数的均方差s_s来度量，因此s_s可以反应场景中各个目标的相对深度。

DCT系数与模糊程度的关系：

离散余弦变换，尤其是它的第二种类型，经常被信号处理和图像处理使用，用于对信号和图像(包括静止图像和运动图像)进行有损数据压缩。这是由于离散余弦变换具有很强的″能量集中″特性：大多数的自然信号(包括声音和图像)的能量都集中在离散余弦变换后的低频部分，而且当信号具有接近马尔可夫过程的统计特性时，离散余弦变换的去相关性接近于K-L变换(Karhunen-Loève变换——它具有最优的去相关性)的性能。

type-II型DCT变换定义为：

A (k, l) = Σ_{m = 0}^{N - 1} Σ_{n = 0}^{N - 1} f (m, n) [a (m) \cos \frac{π (2 m + 1) k}{2 N}] [a (n) \cos \frac{π (2 n + 1) l}{2 N}]

其中

a (n) = \{\begin{matrix} \sqrt{\frac{1}{N}}, & n = 0 \\ \sqrt{\frac{2}{N}}, & 1 \leq n \leq N - 1 \end{matrix},

这里f(m，n)代表原始二维图像，其大小为N×N。

随着k，l的增加，图像的DCT变换可以当做原始图像在频率不断增长的余弦基上的投影。因此其DCT系数能够反映从低频到高频的图像频谱。

直观上地感觉，对于同一纹理的图像，图像越模糊其对应频谱中所含的低频信息就越多、高频信息就越少。DCT系数能够在离散余弦域反映图像从低频到高频的频谱，因此，这里可以用DCT系数的信息量，即DCT系数熵来评价其所含的高、低频信息。一般地，熵越大，高频信息多而低频信息少，图像相对清晰；而熵越小，高频信息少而低频信息多，图像相对模糊。

以下以lena图像为例，来验证DCT系数的熵和模糊程度的关系。这里图2为原始的清晰图像，把图像与二维高斯形式的点扩散函数卷积可得到模糊的图像，图3和图4分别是s_s为1.5和3时的模糊图像。图5是DCT系数的熵和点扩散函数的均方差s_s之间的关系曲线。可见，随着s_s增大，图像越模糊，DCT系数的熵就越少。从以上分析可知，图像DCT系数的熵能够反映图像的模糊程度。

DCT系数的熵与点扩散函数的均方差s_s的关系：散焦前后，图像DCT系数的熵将变小；且散焦越严重(等价于点扩散函数均方差s_s越大)，图像DCT系数的熵将越小。s_s可以反应场景中各个目标的相对深度，因此，场景中各个目标的相对深度，可以通过各个目标所在子图像的DCT系数的熵来评价。

以下通过实验验证本发明的效果：

图6是原始图像，图7是分块级小波方法获得的初始深度图，图8是现有像素级方法获得的初始深度图，图9是本文方法的深度图。图7中白色的块代表前面，黑色的块代表后面，所以其生成深度图的块效应很明显，其细节丢失严重。相比较而言，图8和本发明的方法都属于像素级的方法，因此深度图的细节保留较多。进一步比较图8和图9，可发现本方法获取的深度图要比图8的方法得到的深度图更清晰，尤其是边缘处更为明显。另外，考虑8bit深度图所占据的灰度比例，图8使用了206个灰度级，其对应的灰度占据比例为206／256≈80.5％，图9使用了252个灰度级，其对应的灰度占据比例为252／256≈98.4％；越高的占据比例意味着越多的深度图像细节。

为了验证本文方法的鲁棒性，图10给出了其他测试图像和其对应生成的深度图。

Claims

1.基于DCT系数熵的二维单视图像深度估计方法，它由以下步骤实现：

2.根据权利要求1所述的基于DCT系数熵的二维单视图像深度估计方法，其特征在于N=9。

3.根据权利要求1所述的基于DCT系数熵的二维单视图像深度估计方法，其特征在于步骤二设定的量化步长为1。