CN103248909B

CN103248909B - 平面视频转化为立体视频的方法及系统

Info

Publication number: CN103248909B
Application number: CN201310190585.3A
Authority: CN
Inventors: 戴琼海; 柯家琪
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2013-05-21
Filing date: 2013-05-21
Publication date: 2015-05-20
Anticipated expiration: 2033-05-21
Also published as: CN103248909A

Abstract

本发明提出一种基于图像颜色特征的平面视频转化为立体视频的方法，包括以下步骤：提供平面视频序列，并获取其中每一帧平面图像的初始深度图；将平面视频序列中的每一帧平面图像变换至灰度空间中；根据变换的灰度图像对初始深度图像的空洞像素点进行深度填补；根据每一帧平面图像的RGB三通道的色差对填补后的初始深度图进行联合双边滤波处理，以得到平滑的深度图；根据平面视频序列中每一帧平面图像的平滑的深度图将平面视频序列转换为立体图像序列。本发明的实施例无需人工参与，能够实现全自动的平面视频到立体视频的转换，且处理简单快捷，具有良好的整体立体显示效果。本发明还提出一种基于图像颜色特征的平面视频转化为立体视频的系统。

Description

平面视频转化为立体视频的方法及系统

技术领域

本发明涉及计算机多媒体技术领域，特别涉及一种基于图像特征的平面视频转化为立体视频的方法及系统。

背景技术

立体视频是影视行业的未来主要发展方向。立体视频的显示效果层次分明、色彩鲜艳，具有很强的视觉冲击力，给观众留下深刻的印象。但是，一个阻碍立体产业推广的关键问题是立体视频的缺乏。现有的各种视频媒介一般是以平面的形式存在的，这些视频媒介在获取的同时已经损失掉了具体场景的深度信息。而采用平面视频立体化技术，直接将平面视频转换为立体视频的制作成本比直接拍摄立体视频要低很多，而且可以将任何一组现有的平面视频转换为对应的立体视频，其中的一项关键技术是深度图生成，深度图的质量对于3D场景的重建起着至关重要的作用。现有的各种深度提取方法很多，但是都存在一些计算复杂度高，计算耗时,有些还需要人工操作等特点。

发明内容

本发明旨在至少解决上述技术问题之一。

为此，本发明的一个目的在于提出一种基于图像颜色特征的平面视频转化为立体视频的方法，该方法无需人工参与，能够实现全自动的平面视频到立体视频的转换，且处理简单快捷，具有良好的整体立体显示效果。

本发明的另一个目的在与提出一种基于图像颜色特征的平面视频转化为立体视频的系统。

为了实现上述目的，本发明第一方面的实施例提出了一种基于图像颜色特征的平面视频转化为立体视频的方法，包括以下步骤：提供平面视频序列，并获取所述平面视频序列中每一帧平面图像的初始深度图；将所述平面视频序列中的每一帧平面图像变换至灰度空间中；根据变换的灰度图对所述初始深度图的空洞像素点进行深度填补；根据所述每一帧平面图像的RGB三通道的色差对填补后的初始深度图进行联合双边滤波处理，以得到平滑的深度图；以及根据所述平面视频序列中每一帧平面图像的平滑的深度图将所述平面视频序列转换为立体图像序列。

根据本发明实施例的基于图像颜色特征的平面视频转化为立体视频的方法，不需要任何人工参与，能够实现全自动的平面视频到立体视频的转换，且其处理过程简单快捷，具有良好的整体立体显示效果。

另外，根据本发明上述实施例的基于图像颜色特征的平面视频转化为立体视频的方法还可以具有如下附加的技术特征：

在本发明的实施例中，所述平面视频为RGB格式的视频帧格式。

在本发明的实施例中，所述初始深度图的深度图值通过如下公式计算：其中，p为所述平面视频序列中任意一个像素点，V(p)为匹配值，Z(p)为将匹配值归一化到[0，255]范围内的深度值。

在本发明的实施例中，所述每一帧平面图像的RGB三通道的色差，通过如下公式得到：V′=min(127,max(-127,V))+128，其中，V为定义的图像色差量，V′为将V限制在[0，255]范围内的图像色差量。

在本发明的实施例中，所述平滑的深度图的深度值通过如下公式计算：其中，w（p，q）为像素点p和q之间的双边滤波权重因子，Np为以p点为中心的大小为w×w的窗口的像素中所有像素，Z(q)为像素点q的深度值。

在本发明的实施例中，在所述根据所述平面视频序列中每一帧平面图像的平滑的深度图将所述平面视频序列转换为立体图像序列之后，进一步包括：输出所述立体图像序列。

本发明第二方面的实施例提出了一种基于图像颜色特征的平面视频转化为立体视频的系统，包括：视频输入模块，所述视频输入模块用于输入所述平面视频序列；深度图获取模块，所述深度图获取模块用于获取所述平面视频序列中每一帧平面图像的初始深度图；变换模块，所述准化模块用于将所述平面视频序列中每一帧平面图像变换至灰度空间中；填补模块，所述填补理模块用于根据变换的灰度图对所述初始深度图的空洞像素点进行深度填补；处理模块，所述处理模块用于根据所述每一帧平面图像的RGB三通道的色差对填补后的初始深度图像进行联合双边滤波处理，以得到平滑的深度图；以及转换模块，所述转换模块用于根据所述平面视频序列中每一帧平面图像的平滑的深度图将所述平面视频序列转换为立体图像序列；输出模块，所述输出模块用于输出所述立体图像序列。

根据本发明实施例的基于图像颜色特征的平面视频转化为立体视频的系统，不需要任何人工参与，能够实现全自动的平面视频到立体视频的转换，且其处理过程简单快捷，具有良好的整体立体显示效果。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于图像颜色特征的平面视频转化为立体视频的方法的流程图；

图2为根据本发明另一个实施例的基于图像颜色特征的平面视频转化为立体视频的方法的流程图；和

图3为根据本发明一个实施例的基于图像颜色特征的平面视频转化为立体视频的系统的结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

以下结合附图详细描述根据本发明实施例的基于图像颜色特征的平面视频转化为立体视频的方法及系统。

图1为根据本发明一个实施例的基于图像颜色特征的平面视频转化为立体视频的方法的流程图。

如图1所示，根据本发明一个实施例的基于图像颜色特征的平面视频转化为立体视频的方法，包括以下步骤：

步骤S101，提供平面视频序列，并获取平面视频序列中每一帧平面图像的初始深度图。其中，该平面视频序列为RGB格式的视频帧格式。

具体地，对于双目立体采集与立体播放系统，将拍摄端采集到的两路视频作为输入；对于全自动2D视频转3D视频系统，则直接将2D视频中的时间轴上的前后两帧作为输入。这一阶段涉及到视频的解码处理，基于不同的视频压缩格式有不同的视频解码方法，视频的解码实现从已知的视频中读取数据流再转换为合适的视频帧格式，如果解码输出的视频帧格式与后面的深度图求取接口不符，还需要进行视频帧格式的转换操作。本发明一个实施例采用的是比较常用的RGB格式的视频帧格式，并且能够处理绝大多数常见的视频格式。

在本发明一个优选实施例中，初始深度图的生成方法是基于块匹配算法的运动视差估计的方法，对于全自动2D视频转3D视频系统，输入是单路2D视频，将单路视频在时间轴上的当前帧称为当前帧，时间轴上的后一帧称为参考帧，在当前帧通过块匹配的方法搜索出其在参考帧中的位置，将块偏移量变换到合理范围作为其深度值。

首先，对于任意一个像素点p，以其为中心像素点选择n×n大小的矩阵分块。一般来说，合适的分块大小依赖于场景的复杂度，对于细节比较少的场景区域一般采用较大的块尺寸，相应细节丰富的区域则适合采用较小的块尺寸。分块的大小可以预先设定，也可以自适应的调节。由于进行块匹配的时候会考虑图像的梯度值，因此可以利用图像梯度调节分块大小，设定最大块大小以及最小块大小，然后通过计算块区域中像素梯度之和来调节分块大小。

其次，计算出当前帧分块p与参考帧对应分块q的匹配值V(p,q)，通常的块算法一般用两个图像块中所有像素的灰度值差的绝对值和作为代价匹配函数，但其缺陷也很明显，灰度值接近的不同图像块很容易误匹配。为了使匹配效果更加精确，本发明一个实施例使用的区域的代价匹配函数不仅利用前后帧的RGB三通道的颜色信息，还考虑了图像灰度的在水平梯度和垂直梯度信息。水平梯度和垂直梯度分别用Sobel算子计算得到，其掩膜分别如下所示：

G_{x} = [\begin{matrix} - 1 & 0 & 1 \\ - 2 & 0 & 2 \\ - 1 & 0 & 1 \end{matrix}]

G_{y} = [\begin{matrix} - 1 & - 2 & - 1 \\ 0 & 0 & 0 \\ 1 & 2 & 1 \end{matrix}],

块大小设定为N，则代价匹配函数如下所示：

V (p, q) = Σ_{i = - (N - 1) / 2}^{(N - 1) / 2} Σ_{j = - (N - 1) / 2}^{(N - 1) / 2} \cos t (V (x_{p} + i, x_{q} + j), V (x_{c} + i, x_{q} + j)),

+k_x|G_x(p)-G_x(q)|+k_y|G_y(p)-G_y(q)|

其中，cost(p,q)计算像素点p和像素点q之间的相似度，式中，R,G,B,G_x,G_y分别表示图像的三个颜色通道以及图像在x，y方向上的梯度，k_r,k_g,k_b,k_x,k_y分别表示这些通道相应的加权系数。V(p,q)则计算了当前帧和参考帧中分别以像素点p和q为中心的N×N大小的图像块之间的代价函数。

在参考帧中进行最佳匹配块搜索时，定义一个最大的搜素范围以提高匹配效率，因而分块的水平偏移量和垂直偏移量都不应超过该值。此外，在实现时还设定一个匹配阈值T，当找到两个分块的匹配代价小于该阈值时，则停止搜索。按照允许每个像素平均有两个灰度值的误差的，阈值设定为T=10N²。

最后，得到参考帧搜索范围内匹配代价最小的块的水平偏移量Mx和垂直偏移量My。相应的运动向量则可以表示为：

V (x, y) = \sqrt{M_{x}^{2} + M_{y}^{2}} \cdot

如果要求一定的匹配的精度，则设定一个匹配的阈值，当最小匹配代价大于该阈值时则认为是失配，未匹配上的区域需要进行一定后处理。然后进行归一化处理后得到初始的深度图。即对运动向量图一个比例因子转换，让最终的深度值范围控制在[0,255]的区间内，具体计算公式如下：

Z (p) = \min (\frac{V (p)}{Average (V (p))} * 128,255),

其中，p为平面视频序列中任意一个像素点，V(p)为匹配值，Z(p)为将匹配值归一化到[0，255]范围内的深度值。

步骤S102，将平面视频序列中的每一帧平面图像变换至灰度空间中。

步骤S103，根据变换的灰度图对初始灰度图的空洞像素点进行深度填补。

步骤S104，根据每一帧平面图像的RGB三通道的色差对填补后的初始深度图进行联合双边滤波处理，以得到平滑的深度图。

综合步骤S102、步骤S103和步骤S104，具体地，在上述步骤S101中得到的初始深度图可能由于失配和场景相对静止的情况无法得到相应的深度信息，因此需要将初始深度图中的未定义视差的像素点进行赋值。

首先，将原图像变换到另一个颜色空间中作为参考图像，本发明一个实施例按照下式计算图像RGB三通道的色差来描述像素的颜色信息，既能够较好的表示图像的颜色特征，转换的计算又不复杂。

V′=min(127,max(-127,V))+128，

其中，V为定义的图像色差量，V′为将V限制在[0，255]范围内的图像色差量。

其次，对于初始深度图的空洞像素点p，找到距离其最近的非空洞区域的八邻域像素作为候选点q。比较各个候选点和像素p在参考图像中相应的灰度之差|V(p)-V(q)|，选择最接近的像素p的候选点的深度值作为填补值。同时考虑多个候选点都比较接近的情况，计算候选点和待求点之间的距离加权，在这种情况下选择距离较近的候选点。此外，由于块匹配算法在图像边缘处易出现误匹配，因而空洞边缘的匹配像素点的深度往往可信度不高，因此在本发明一个实施例中，在确定候选点时从空洞边缘处向非空洞区域移动一定数量的像素，使得其相应的水平梯度或垂直梯度小于一定的阈值，确保其深度值的可信度。

最后，使用前述得到的色差图像作为参考图像，对填补后的深度图像进行联合双边滤波处理，并且采用了横向和纵向的两次一维双边滤波来代替普通二维高斯滤波，能够大大提高运行的速度，得到平滑的深度图。具体地，假设处理输入图像中的像素p，该点在参考图像中对应的灰度值为V(p)，以p点为中心的大小为W×W的窗口的像素中所有像素为Np，对于其中任意一点q，其与p点的双边滤波权重因子表示为：

w (p, q) = \exp (- \frac{{| | p - q | |}^{2}}{2 σ_{d}^{2}}) \times \exp (- \frac{{[V (p) - V (q)]}^{2}}{2 σ_{r}^{2}}),

上式中，σ_d和σ_r分别是表示空域滤波和值域滤波的高斯核宽度，σ_d越大，则滤波效果越明显，使得图像更加平滑；σ_r越大，则通过颜色域加权的保边效果越明显。待滤波图像中像素p的深度值为Z(p)，则经过联合双边滤波后的输出深度值可以表示为：

\overset{&OverBar;}{Z} (p) = \frac{Σ_{q &Element; N_{p}} w (p, q) Z (q)}{Σ_{q &Element; N_{p}} w (p, q)},

其中，w（p，q）为像素点p和q之间的双边滤波权重因子，Np为以p点为中心的大小为w×w的窗口的像素中所有像素，Z(q)为像素点q的深度值。

步骤S105，根据平面视频序列中每一帧平面图像的平滑的深度图将平面视频序列转换为立体图像序列。

具体地，在本发明一个优选实施例中，利用得到的平滑的深度图计算每个像素在虚拟左（右）图中的水平偏移量，通过偏移因子dscale和零视差平面Zc确定偏移量：

d=dscale×(Z-Z_c)，

其中，零视差平面Zc是预先设定的参数，dscale是控制偏移量大小的因子，Z是前述步骤计算得到的某一个像素点的深度，此式计算得到的d是该像素在虚拟左（右）视图中的水平偏移量。

上述计算结果对于虚拟左视图，正偏移值向左偏移，对于虚拟右视图，正偏移值向右偏移。由原始坐标和偏移量得到虚拟视图中的位置，然后选择该位置的最邻近像素作为映射后的像素坐标。并且每行按照生成虚拟左视图从右向左、生成虚拟右视图从左向右的顺序进行逐像素的计算，发生遮挡时后处理像素必为前景，直接将先处理的背景覆盖即可。

本发明另一个实施例中，填补虚拟视点产生的空洞时综合考虑图像的细节，使得渲染得到的虚拟图像没有明显的边缘错位现象，具体做法如下：

如果计算出像素p相对前像素q在虚拟视图中的坐标产生空洞，若两者虚拟坐标差值大于两个像素，则计算像素p与q的R、G、B三通道分量差值的绝对和S1，并与像素q和其下个要处理的像素r的R、G、B三通道分量差值的绝对和S2比较，当满足S1<2.5×S2时，则认为像素p是前景边缘，将其映射坐标设定为紧接着前一个像素，否则认为像素p是背景边缘，仍然设定为计算的坐标不变。然后，使用像素p及其后的背景部分整体平移填充，并且设定最大的整体平移填充块大小为5，其余未填充部分直接使用像素p的值进行填充。

进一步地，根据平面视频序列中每一帧平面图像的平滑的深度图将平面视频序列转换为立体图像序列之后，输出该立体图像序列。换言之，即上述步骤S105后，将渲染得到的虚拟左右图像直接作为两路视频进行编码输出，或者将左右图像交织成立体图像后的视频编码输出，借助立体播放设备便可观看到立体视频。

图2为根据本发明另一个实施例的基于图像颜色特征的平面视频转化为立体视频的方法的流程图。

如图2所示，根据本发明另一个实施例的基于图像颜色特征的平面视频转化为立体视频的方法，包括以下步骤：

步骤S201，单路平面视频的输入。具体而言，对于全自动2D视频转3D视频系统，则直接将2D视频中的时间轴上的前后两帧作为输入。

步骤S202，运动时差快匹配得到初始深度图。在本发明一个实施例中，初始深度图的生成方法是基于块匹配算法的运动视差估计的方法，对于全自动2D视频转3D视频系统，输入是单路2D视频，将单路视频在时间轴上的当前帧称为当前帧，时间轴上的后一帧称为参考帧，在当前帧通过块匹配的方法搜索出其在参考帧中的位置，将块偏移量变换到合理范围作为其深度值。

步骤S203，深度图中空洞的填补。初始深度图由于失配和场景相对静止的情况无法得到相应的深度信息，因此需要将初始深度图中的未定义视差的像素点进行赋值。

步骤S204，深度图滤波后处理。即对填补后的深度图像进行联合双边滤波处理，并且采用了横向和纵向的两次一维双边滤波来代替普通二维高斯滤波，能够大大提高运行的速度，得到平滑的深度图。

步骤S205，对左右虚拟视点图像的渲染。

步骤S206，双目立体视频的输出。将渲染得到的虚拟左右图像直接作为两路视频进行编码输出，或者将左右图像交织成立体图像后的视频编码输出。

步骤S207，双目采集视频的输入。对于双目立体采集与立体播放系统，将拍摄端采集到的两路视频作为输入。

步骤S208，双目时差匹配等方法得初始视差图，并进一步执行步骤S203。

本发明实施例采用的深度图生成算法是比较简单的基于块匹配的运动视差计算，利用运动视差能够得到相对精确的符合实际的深度线索。在进行块匹配的时候还考虑了图像的像素梯度，得到的深度图能够更好的保留边缘信息。另外，本发明只需要求出大致的深度图，然后利用图像的颜色特征对其进行处理即可得到比较精确合理的深度图，避免了复杂繁琐的深度计算。同时，该深度图后处理方法也可以用于双目采集系统中由双目视差匹配得到的视差图生成精确深度图。进一步地，利用原图像作为参考图像对深度图进行联合双边滤波能够最大程度地保留深度图像的边缘细节，并且在滤波之前先对初始深度图中的空洞进行填补，避免滤波后的深度图在局部出现大块的模糊。而一般的简单插值填补方法无法很好的处理较大的空洞，尤其是无法体现出边缘的变化。本发明采用基于图像颜色信息的近邻插值填补，关键在于利用空洞附近能够确定视差的像素点，结合场景中的物体的层次关系和颜色信息，使得图像中的边缘能够尽可能的保留。另一方面，基于平行相机模型的虚拟视点渲染采用线性化的视差偏移计算方法，避免复杂运算，并且巧妙处理了可能出现的遮挡、空洞与边缘问题，正确处理了场景深度变化时产生前景和后景相互遮挡，或者产生空洞的情况，此外也能够使得虚拟视点图像的边缘细节正确合理，得到的虚拟视点图像具有舒适的观看度。

如图3所示，根据本发明一个实施例的基于图像颜色特征的平面视频转化为立体视频的系统300，包括：视频输入模块310、深度图获取模块320、变换模块330、填补模块340、处理模块350、转换模块360和输出模块370。

具体地，视频输入模块310用于输入平面视频序列。深度图获取模块320用于获取平面视频序列中每一帧平面图像的初始深度图。变换模块330用于将平面视频序列中每一帧平面图像变换至灰度空间中。填补模块340用于根据变换的灰度图对初始深度图的空洞像素点进行深度填补。处理模块350用于根据每一帧平面图像的RGB三通道色差对填补后的初始深度图像进行联合双边滤波处理，以得到平滑的深度图。转换模块360用于根据平面视频序列中每一帧平面图像的平滑的深度图将平面视频序列转换为立体图像序列。输出模块370用于输出最终的立体图像序列。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同限定。

Claims

1.一种基于图像颜色特征的平面视频转化为立体视频的方法，其特征在于，包括以下步骤：

提供平面视频序列，并获取所述平面视频序列中每一帧平面图像的初始深度图；

将所述平面视频序列中的每一帧平面图像变换至灰度空间中，具体包括：将原图像变换到另一个颜色空间中作为参考图像，具体按照下式计算图像RGB三通道的色差来描述像素的颜色信息：

V = \frac{(R - G) + (R - B)}{2},

V′＝min(127,max(-127,V))+128，

其中，V为定义的图像色差量，V′为将V限制在[0，255]范围内的图像色差量；

根据变换的灰度图对所述初始深度图的空洞像素点进行深度填补，具体包括：如果计算出像素p相对前像素q在虚拟视图中的坐标产生空洞，若两者虚拟坐标差值大于两个像素，则计算像素p与q的R、G、B三通道分量差值的绝对和S1，并与像素q和其下个要处理的像素r的R、G、B三通道分量差值的绝对和S2比较，当满足S1<2.5×S2时，则认为像素p是前景边缘，将其映射坐标设定为紧接着前一个像素，否则认为像素p是背景边缘，仍然设定为计算的坐标不变，然后，使用像素p及其后的背景部分整体平移填充，并且设定最大的整体平移填充块大小为5，其余未填充部分直接使用像素p的值进行填充；

根据所述每一帧平面图像的RGB三通道的色差图像对填补后的初始深度图进行联合双边滤波处理，以得到平滑的深度图，即：使用前述得到的色差图像作为参考图像，对填补后的深度图像进行联合双边滤波处理，并且采用了横向和纵向的两次一维双边滤波来代替普通二维高斯滤波，以得到平滑的深度图，具体包括：假设处理输入图像中的像素p，该像素p在参考图像中对应的灰度值为V(p)，以p点为中心的大小为W×W的窗口的像素中所有像素为Np，对于其中任意一点q，其与p点的双边滤波权重因子表示为：

w (p, q) = \exp (- \frac{{| | p - q | |}^{2}}{2 σ_{d}^{2}}) \times \exp (- \frac{{[V (p) - V (q)]}^{2}}{2 σ_{r}^{2}}),

其中，σ_d和σ_r分别是表示空域滤波和值域滤波的高斯核宽度，σ_d越大，则滤波效果越明显，使得图像更加平滑，σ_r越大，则通过颜色域加权的保边效果越明显，待滤波图像中像素p的深度值为Z(p)，则经过联合双边滤波后的输出深度值可以表示为：

\overset{&OverBar;}{Z} (p) = \frac{Σ_{q &Element; N_{p}} w (p, q) Z (q)}{Σ_{q &Element; N_{p}} w (p, q)},

其中，w(p，q)为像素点p和q之间的双边滤波权重因子，Np为以p点为中心的大小为w×w的窗口的像素中所有像素，Z(q)为像素点q的深度值；

根据所述平面视频序列中每一帧平面图像的平滑的深度图将所述平面视频序列转换为立体图像序列，具体包括：利用得到的平滑的深度图计算每个像素在虚拟左视图或右视图中的水平偏移量，通过偏移因子dscale和零视差平面Zc确定偏移量：

d＝dscale×(Z-Z_c)，

其中，零视差平面Zc是预先设定的参数，dscale是控制偏移量大小的因子，Z是前述步骤计算得到的某一个像素点的深度，此式计算得到的d是该像素p在虚拟左视图或右视图中的水平偏移量。

2.如权利要求1所述的基于图像颜色特征的平面视频转化为立体视频的方法，其特征在于，所述平面视频为RGB格式的视频帧格式。

3.如权利要求1所述的基于图像颜色特征的平面视频转化为立体视频的方法，其特征在于，所述初始深度图的深度图值通过如下公式计算：

Z (p) = \min (\frac{V (p)}{Average (V (p))} * 128,255),

其中，p为所述平面视频序列中任意一个像素点，V(p)为匹配值，Z(p)为将匹配值归一化到[0，255]范围内的深度值。

4.如权利要求1所述的基于图像颜色特征的平面视频转化为立体视频的方法，其特征在于，在所述根据所述平面视频序列中每一帧平面图像的平滑的深度图将所述平面视频序列转换为立体图像序列之后，进一步包括：

输出所述立体图像序列。

5.一种基于图像颜色特征的平面视频转化为立体视频的系统，其特征在于，包括：

视频输入模块，所述视频输入模块用于输入所述平面视频序列；

深度图获取模块，所述深度图获取模块用于获取所述平面视频序列中每一帧平面图像的初始深度图；

变换模块，所述变换模块用于将所述平面视频序列中每一帧平面图像变换至灰度空间中，具体包括：将原图像变换到另一个颜色空间中作为参考图像，具体按照下式计算图像RGB三通道的色差来描述像素的颜色信息：

V = \frac{(R - G) + (R - B)}{2},

V′＝min(127,max(-127,V))+128，

填补模块，所述填补理模块用于根据变换的灰度图对所述初始深度图的空洞像素点进行深度填补，具体包括：如果计算出像素p相对前像素q在虚拟视图中的坐标产生空洞，若两者虚拟坐标差值大于两个像素，则计算像素p与q的R、G、B三通道分量差值的绝对和S1，并与像素q和其下个要处理的像素r的R、G、B三通道分量差值的绝对和S2比较，当满足S1<2.5×S2时，则认为像素p是前景边缘，将其映射坐标设定为紧接着前一个像素，否则认为像素p是背景边缘，仍然设定为计算的坐标不变，然后，使用像素p及其后的背景部分整体平移填充，并且设定最大的整体平移填充块大小为5，其余未填充部分直接使用像素p的值进行填充；

处理模块，所述处理模块用于根据所述每一帧平面图像的RGB三通道的色差图像对填补后的初始深度图像进行联合双边滤波处理，以得到平滑的深度图，即：使用前述得到的色差图像作为参考图像，对填补后的深度图像进行联合双边滤波处理，并且采用了横向和纵向的两次一维双边滤波来代替普通二维高斯滤波，以得到平滑的深度图，具体包括：假设处理输入图像中的像素p，该像素p在参考图像中对应的灰度值为V(p)，以p点为中心的大小为W×W的窗口的像素中所有像素为Np，对于其中任意一点q，其与p点的双边滤波权重因子表示为：

w (p, q) = \exp (- \frac{{| | p - q | |}^{2}}{2 σ_{d}^{2}}) \times \exp (- \frac{{[V (p) - V (q)]}^{2}}{2 σ_{r}^{2}}),

\overset{&OverBar;}{Z} (p) = \frac{Σ_{q &Element; N_{p}} w (p, q) Z (q)}{Σ_{q &Element; N_{p}} w (p, q)},

其中，w(p，q)为像素点p和q之间的双边滤波权重因子，Np为以p点为中心的大小为w×w的窗口的像素中所有像素，Z(q)为像素点q的深度值；以及

转换模块，所述转换模块用于根据所述平面视频序列中每一帧平面图像的平滑的深度图将所述平面视频序列转换为立体图像序列，具体包括：利用得到的平滑的深度图计算每个像素在虚拟左视图或右视图中的水平偏移量，通过偏移因子dscale和零视差平面Zc确定偏移量：

d＝dscale×(Z-Z_c)，

其中，零视差平面Zc是预先设定的参数，dscale是控制偏移量大小的因子，Z是处理模块计算得到的某一个像素点的深度，此式计算得到的d是该像素p在虚拟左视图或右视图中的水平偏移量；

输出模块，所述输出模块用于输出所述立体图像序列。