CN101557534A

CN101557534A - 一种从视频相近帧中生成视差图的方法

Info

Publication number: CN101557534A
Application number: CNA2009100277121A
Authority: CN
Inventors: 徐秀兵
Original assignee: Wuxi Jingxiang Digital Technology Co Ltd
Current assignee: Wuxi Jingxiang Digital Technology Co Ltd
Priority date: 2009-05-19
Filing date: 2009-05-19
Publication date: 2009-10-14
Anticipated expiration: 2029-05-19
Also published as: CN101557534B

Abstract

本发明涉及一种面向双目及多视点立体应用的从视频相近帧中生成视差图的方法。首先，对待处理视频的每一幅图像进行灰度化预处理；然后利用得到的视频中距离相近的灰度图像来计算视差空间图像；最后对视差空间图像进行二维高斯平滑滤波得到所求的视差图像。本发明可以快速有效地从普通单视点视频中生成视差图，结合基于视差图的渲染技术，可以将现有大量平面视频高效地转换为立体视频，从而缓解当前立体视频片源极度缺乏的现状。

Description

一种从视频相近帧中生成视差图的方法

技术领域

本发明涉及一种从视频相近帧中生成视差图的方法，尤其是一种面向双目及多视点立体应用的从视频相近帧中生成视差图的方法。

背景技术

视差(Disparity)：视差在人类进行立体感知中扮演着重要的角色。从欧几里德时期开始，人们就认识到，人类之所以能够进行立体感知，主要是因为左右眼所看到的图像有差异，对这种差异进行量化称为视差。

视差图(Disparity Image/Map)：视差图中的每个点的像素值代表着源图上对应位置像素点的视差值。

深度(Depth)：某物体的深度是指物体到摄像机成像平面的距离。深度与视差成反比，因此与视差在本质上是一致的，很多时候也经常混用，但深度不等于视差。

深度图(Depth Image/Map)：深度图中的每个点的像素值代表着源图上对应位置像素点的深度值。

视差空间图像(Disparity Space Image，DSI)：给定左右视点灰度图像I_l，I_r，假定它们均经过校正(Rectification)，并且在不考虑遮挡的情况下两图像中像素一一对应。在只考虑水平视差的情况下，针对任意视差d，采用平方差(Square Difference，SD)或绝对差(Absolute Difference，AD)方法计算得到的左视点视差空间图像DSI_l如下：

所述SD方法计算公式为DSI_l(x，y，d)＝||I_l(x，y)-I_r(x-d，y)||²

所述AD方法计算公式为DSI_l(x，y，d)＝||I_l(x，y)-I_r(x-d，y)||

其中，d均为正整数，1＜d＜W，W为待处理视频的宽度；I_l(x，y)为左视点图像(x，y)处像素的灰度值；I_r(x，y)为右视点图像(x，y)处像素的灰度值；DSI_l(x，y，d)为视差为d时左视点图像对应的视差空间图像(x，y)处像素的灰度值。

在双目立体(Stereoscopic)及多视点立体(Multi-view auto-stereoscopic)应用中，为实现虚拟视点图像绘制，除光场渲染(Light Field Rendering，LFR)技术以及基于模型的渲染(Model-based Rendering，MBR)技术等等之外，大部分需要以视差/深度图(Disparity/Depth Image)为中介，如基于视差/深度图像的渲染技术(Disparity/Depth Image Based Rendering，DIBR)、基于视频的渲染技术(Video Based Rendering，VBR)等等。

现有的视差图生成技术根据输入的不同大致可以分为两类：

1.基于双目或多视点图像/视频；

2.基于单幅图像或单视点视频。

其中第1类技术以N个视点(N≥2)同步采集的图像/视频为输入，然后根据外极约束、一致性约束、顺序约束等一系列约束来进行双目立体匹配(Stereo Matching)或多视点立体重建(Multi-View Stereo Reconstruction)来得到稠密的视差图(Dense Disparity Image)。该方法具有较好的理论基础，可以得到较为准确的结果。然而，就目前而言，多视点图像/视频资源仍然相当缺乏；另一方面，现有的绝大部分图像和视频均是通过单个相机拍摄的。因此，该方法在实际应用中具有很大的局限性。

第2类技术以单幅图像或者单个视频为输入，根据图像或者视频中的信息来恢复出场景的三维结构，也称2D转3D技术。由于场景三维信息的缺失，该问题实际上是一个病态问题，一般很难求出其精确解。

基于单幅图像的视差图生成技术由于信息有限，在不经过人工干预的情况下一般很难得到精确的结果。现有的技术主要根据一些预先设定的条件来进行推理，如聚焦法(Depth from Focus)、散焦法(Depth from Defocus)、线性透视(Linear Perspective)等等。这些方法对预设条件依赖性较高，在不满足预设条件的场合，性能急剧下降。而实际场景千变万化，大部分情况下这些预设条件并不适用。以聚焦法为例，该方法通过分析图像的模糊度来推测其视差，而实际中拍摄的图像的模糊往往不是很明显，该方法很难奏效。

基于单视点视频的视差图生成技术不仅含有单幅图像的纹理信息和结构信息，还含有视频中帧与帧之间的运动信息，因此具有更高的可行性。典型的方法如帧移位法(Frame delay)、运动法(Structure From Motion，SFM)等等。

帧移位法的主要思想是用源视频序列的运动场(Motion Field，MF)图像来替代视差图。在实际操作中并不求出视差图，而是直接将源视频序列延时一定的帧数从而得到新的视频序列，从而实现虚拟视点图像绘制。这种方法简单易行，但是由于它没有对场景的三维结构进行严格分析，因而适用性较差，效果并不理想。

SFM法首先假设源视频序列中的运动为刚体运动，然后根据该运动情况来分析场景的三维结构以及摄像机的运动情况。甚至摄像机的参数。这种方法较之帧位移法更有说服力，能够得到更加准确的结果，缺点是算法复杂，计算上非常耗时。

综上所述，基于多视点图像/视频的视差图生成技术应用受限；基于单幅图像的视差图生成技术依赖于预设条件和具体场景；基于单视点视频的视差图生成技术能够克服二者的缺点，但现有的方法要么过于简单，难以保证效果；要么过于复杂，计算上极为耗时。因此，为推广双目和多视点立体应用，急需一种简单有效，计算量适中的基于单视点视频的视差图生成方法。

发明内容

本发明的目的是克服现有技术中存在的不足，如应用受限、依赖具体场景、难以保证效果和计算复杂等等，提供一种从视频相近帧中生成视差图的方法，可以快速有效地从普通单视点视频中生成视差图，结合基于视差图的渲染技术，可以快速生成虚拟视点图像，从而将现有大量平面视频高效地转换为立体视频，缓解当前立体视频片源极度缺乏的现状。

按照本发明提供的技术方案，一种从视频相近帧中生成视差图的方法包括如下步骤：

(1)检查待处理视频经过解码后的每一幅图像是否为灰度图像，否则对所述每一幅图像进行灰度化预处理，获取每一幅图像对应的灰度图像；

(2)计算视差空间图像：

除第N-k，N-k+1，...N幅灰度图像外，计算每一幅灰度图像对应的视差空间图像，其中N为待处理视频中所含图像数目；

针对第i，i+k幅灰度图像G_i，G_i+k以及任意视差d，采用SD或者AD方法计算第i帧的视差空间图像DSI_i：

所述SD方法计算公式为DSI_i(x，y，d)＝||G_i(x，y)-G_i+k(x-d，y)||²

所述AD方法计算公式为DSI_i(x，y，d)＝||G_i(x，y)-G_i+k(x-d，y)||

其中，i，k，d均为正整数，1＜i＜N-k，1＜k＜N，1＜d＜W，W为待处理视频的宽度；

(3)计算二维高斯卷积模板：

根据二维高斯滤波公式计算(2w+1)×(2h+1)大小的二维高斯卷积模板g(x，y)：

g (x, y) = \frac{1}{2 π σ_{u} σ_{v}} e^{- (\frac{x^{2}}{{2 σ}_{u}^{2}} + \frac{y^{2}}{{2 σ}_{v}^{2}})}

-w≤x≤w，-h≤y≤h

其中w，h分别决定滤波窗口的宽和高，σ_u，σ_v分别决定水平和垂直方向上的滤波强度；

(4)使用得到的二维高斯卷积模板对所述视差空间图像进行二维高斯平滑滤波：

将所述二维高斯卷积模板与视差空间图像进行卷积，设卷积之前第i幅视差空间图像DSI_i中(x，y)处的像素值为DSI_i(x，y)，那么进行二维高斯滤波之后该像素的值为

{\hat{DSI}}_{i} (x, y) = \frac{Σ_{v = - h}^{h} {Σ_{u = - w}^{w} {DSI}_{i} (x - u, y - v) g (u, σ_{u}) g (v, σ_{v})}}{Σ_{v = - h}^{h} {Σ_{u = - w}^{w} g (u, σ_{u}) g (v, σ_{v})}}

其中，w，h均为正整数并且

w < \frac{W}{2},

h < \frac{H}{2},

W，H分别为待处理视频的宽度和高度；进行二维高斯平滑滤波后所得图像即为所求的第i幅图像对应的视差图。

所述灰度化预处理的灰度转换公式为

Y＝0.299R+0.587G+0.114B或

Y = \frac{1}{3} R + \frac{1}{3} G + \frac{1}{3} B

其中，Y代表图像每个像素转换后的灰度值，R，G，B分别代表图像每个像素转换前的R，G，B分量值。

本发明通过计算视差空间图像来抽取图像的纹理结构信息和运动信息，通过二维高斯滤波来对视差空间图像进行高斯平滑，其优点如下：

1.同时抽取场景的纹理结构信息和运动信息，即使在静止的场景下也同样有效。

2.通过对视差空间图像的二维高斯滤波，减少虚拟视点绘制时遮挡区域的失真。

3.无需摄像机参数及校准校正等操作，整个过程全自动生成，方便应用。

4.计算量小，尤其符合一些硬件配置较低或者对速度要求较高的场合。

附图说明

图1为本发明所述方法的流程图。

图2为实施案例的流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图1所示，本发明主要包括三个步骤：

1.对待处理视频的每一幅图像进行灰度化预处理

2.利用得到的视频中距离相近的灰度图像来计算视差空间图像

3.对视差空间图像进行二维高斯平滑滤波以得到所求的视差图像。

实施案例中，输入为一段经过压缩的彩色视频序列，输出为与源视频中图像对应的视差图像序列，如图2所示。具体处理步骤如下：

步骤1)视频文件读取与视频解码

读取待处理视频文件，并利用DirectShow来对视频进行如下处理：智能构建滤波图(filter graph)；同时调用ffdshow视频解码器对视频进行解码；最终将待处理视频数据处理为压缩前视频数据。

步骤2)灰度化预处理

利用下面的灰度化转换公式对原始视频进行灰度化预处理，获取与原始视频序列对应的灰度图像序列。

Y＝0.299R+0.587G+0.114B

步骤3)计算视差空间图像(Disparity Space Image，DSI)

所述SD方法计算公式为DSI_i(x，y，d)＝||G_i(x，y)-G_i+k(x-d，y)||²

所述AD方法计算公式为DSI_i(x，y，d)＝||G_i(x，y)-G_i+k(x-d，y)||

其中，i，k，d均为正整数，1≤i≤N-k，1≤k≤N-1，1≤d≤W-1，W为待处理视频的宽度，i初始值为1；G_i(x，y)为第i幅灰度图像(x，y)处像素的灰度值；G_i+1(x，y)为第i+1幅灰度图像(x，y)处像素的灰度值；DSI_i(x，y，d)为视差为d时第i幅灰度图像对应视差空间图像(x，y)处的像素值。在本实施案例中，k取值为4，d取值为15。

步骤4)计算二维高斯卷积模板

g (x, y) = \frac{1}{2 π σ_{u} σ_{v}} e^{- (\frac{x^{2}}{{2 σ}_{u}^{2}} + \frac{y^{2}}{{2 σ}_{v}^{2}})}

-w≤x≤w，-h≤y≤h

其中w，h分别决定滤波窗口的宽和高，σ_u，σ_v分别决定水平和垂直方向上的滤波强度；在本实施案例中，w取值为10，h取值为20，σ_u取值为5，σ_v取值为10。

步骤5)使用得到的二维高斯卷积模板对所述视差空间图像进行二维高斯平滑滤波

将所述二维高斯卷积模板与视差空间图像进行卷积，设卷积之前视差为d时，第i幅视差空间图像DSI_i中(x，y)处的像素值为DSI_i(x，y，d)，那么进行二维高斯滤波之后该像素的值为

{\hat{DSI}}_{i} (x, y, d) = \frac{Σ_{v = - h}^{h} {Σ_{u = - w}^{w} {DSI}_{i} (x - u, y - v, d) g (u, σ_{u}) g (v, σ_{v})}}{Σ_{v = - h}^{h} {Σ_{u = - w}^{w} g (u, σ_{u}) g (v, σ_{v})}}

其中，w，h均为正整数并且

w < \frac{W}{2},

h < \frac{H}{2},

步骤6)若i＝N-k，处理结束，得到所需的视差图序列；否则i加1，并转到步骤3。

所述步骤4和5是对视差空间图像进行二维高斯滤波。

Claims

1、一种从视频相近帧中生成视差图的方法，其特征是，所述方法包括如下步骤：

(2)计算视差空间图像：

所述SD方法计算公式为DSI_i(x，y，d)＝||G_i(x，y)-G_i+k(x-d，y)||²

所述AD方法计算公式为DSI_i(x，y，d)＝||G_i(x，y)-G_i+k(x-d，y)||

(3)计算二维高斯卷积模板：

g (x, y) = \frac{1}{2 π σ_{u} σ_{v}} e^{- (\frac{x^{2}}{2 σ_{u}^{2}} + \frac{y^{2}}{2 σ_{v}^{2}})}

-w≤x≤w，-h≤y≤h

\hat{{DSI}_{i}} (x, y) = \frac{Σ_{v = - h}^{h} {Σ_{u = - w}^{w} {DSI}_{i} (x - u, y - v) g (u, σ_{u}) g (v, σ_{v})}}{Σ_{v = - h}^{h} {Σ_{u = - w}^{w} g (u, σ_{u}) g (v, σ_{v})}}

其中，w，h均为正整数并且

w < \frac{W}{2},

h < \frac{H}{2},

2、如权利要求1所述的一种从视频相近帧中生成视差图的方法，其特征是：所述灰度化预处理的灰度转换公式为

Y＝0.299R+0.587G+0.114B或

Y = \frac{1}{3} R + \frac{1}{3} G + \frac{1}{3} B