CN102196292B

CN102196292B - 基于人机交互生成视频深度图序列的方法及系统

Info

Publication number: CN102196292B
Application number: CN 201110174037
Authority: CN
Inventors: 戴琼海; 晏希
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2011-06-24
Filing date: 2011-06-24
Publication date: 2013-03-06
Anticipated expiration: 2031-06-24
Also published as: CN102196292A

Abstract

本发明提出一种基于人机交互生成视频深度图序列的方法和系统，其中，方法包括以下步骤：从视频帧序列中提取出关键帧和非关键帧；对视频帧序列的每一帧进行图像过分割以获得多个过分割块；设置关键帧中的部分过分割块的深度值；根据部分过分割块的深度值获取其余过分割块的深度值，从而获得关键帧的深度图；将关键帧和关键帧对应的深度图作为训练样本，通过机器学习算法获取非关键帧的深度图；以及对关键帧和非关键帧的深度图进行后处理，以获得最终的视频深度图序列。根据本发明实施例的基于人机交互生成视频深度图序列的方法和系统，既能保证生成的视频深度图序列具有较高质量，又不需要用户进行太多的额外操作，所有的用户操作简单而高效。

Description

基于人机交互生成视频深度图序列的方法及系统

技术领域

本发明涉及计算机多媒体技术领域，特别涉及一种基于人机交互生成视频深度图序列的方法及系统。

背景技术

立体视频能够给人们带来更真实的视觉体验，被越来越广泛地应用在家庭娱乐、影视制作、虚拟现实等诸多领域。虽然我们可以借助立体摄像机来直接拍摄新的立体视频，但对于现有的众多平面视频资源，无法都通过重新拍摄来获取其相应的立体版本。在这种情况下，将平面视频转为立体视频就成为立体内容生成的一个极其重要的途径。

其中，深度图的获取是平面视频转立体视频中必不可少的部分，而深度图的质量也直接决定了观众所能感受到的立体效果。

目前，有许多种不需要用户干预，由计算机自动生成视频深度图序列的方法，这些方法存在的问题是，由于没有任何先验信息，很难直接从原视频帧序列中提取出相应的深度线索并生成正确的深度图。针对上述问题，也有人提出了一些需要用户干预的半自动的深度图生成方法，这些方法通常能够生成更高质量的视频深度图序列，和完全通过图像编辑软件逐帧制作深度图的方法相比也提高了不少效率，但它们所带来的额外的用户操作依然很多、很繁琐。

发明内容

本发明的目的旨在至少解决上述技术缺陷之一。

为此，本发明的一个目的在于提出一种基于人机交互生成视频深度图序列的方法，该方法既能保证生成的视频深度图序列具有较高质量，又不需要用户进行太多的额外操作，所有的用户操作简单而高效。

本发明的另一个目的在于提出一种基于人机交互生成视频深度图序列的系统，该系统既能保证生成的视频深度图序列具有较高质量，又不需要用户进行太多的额外操作，所有的用户操作简单而高效。

根据本发明的一方面，提出了一种基于人机交互生成视频深度图序列的方法，包括以下步骤：A1：从视频帧序列中提取出关键帧和非关键帧；A2：对所述视频帧序列的每一帧进行图像过分割以获得多个过分割块；A3：设置所述关键帧中的部分过分割块的深度值；A4：根据所述部分过分割块的深度值获取所述关键帧的其余过分割块的深度值，从而获得所述关键帧的深度图；A5：根据所述关键帧和所述关键帧对应的深度图获取所述非关键帧的深度图；以及A6：对所述关键帧的深度图和所述非关键帧的深度图进行后处理，以获得最终的视频深度图序列。

根据本发明实施例的基于人机交互生成视频深度图序列的方法，通过用户对关键帧的检测结果进行修正，并为关键帧中的部分过分割块指定深度值，再借助深度扩散算法及机器学习算法获得关键帧及非关键帧的深度图，能够同时满足精度和效率上的要求，较好地完成将平面视频转为立体视频的任务。

本发明另一方面还提供一种基于人机交互生成视频深度图序列的系统，包括：检测模块，用于从平面视频帧序列中检测出镜头变化帧以作为关键帧，其中所述镜头变化帧包括镜头切变帧和镜头渐变帧；过分割模块，用于对所述视频帧序列的每一帧进行图像过分割；人机交互模块，用于提供用户操作界面以便用户对所述检测模块的检测结果进行修正，并对所述关键帧对应的部分过分割块设置深度值；关键帧深度图生成模块，用于根据所述关键帧对应的部分过分割块的深度值生成关键帧的深度图；非关键帧深度图生成模块，用于根据所述关键帧的深度图，通过机器学习算法生成非关键帧的深度图；以及后处理模块，用于对所述关键帧和非关键帧的深度图进行后处理，得到最终的视频深度图序列。

根据本发明实施例的基于人机交互生成视频深度图序列的系统，既能保证生成的视频深度图序列具有较高质量，又不需要用户进行太多的额外操作，所有的用户操作简单而高效。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明一个实施例的基于人机交互生成视频深度图序列的方法的流程示意图；

图2为本发明一个实施例的基于人机交互生成视频深度图序列的方法中的步骤101的流程图；

图3为本发明一个实施例的基于人机交互生成视频深度图序列的方法中的步骤102的流程图；

图4为本发明一个实施例的用户为关键帧中部分过分割块指定深度值的示意图；

图5为本发明一个实施例的基于人机交互生成视频深度图序列的方法中的步骤104的流程图；

图6为本发明一个实施例的基于人机交互生成视频深度图序列的方法中的步骤105的流程图；以及

图7为本发明一个实施例的基于人机交互生成视频深度图序列的系统的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

如图1所示，根据本发明实施例的基于人机交互生成视频深度图序列的方法，包括以下步骤：

步骤101，从平面视频帧序列中提取出关键帧和非关键帧。

步骤102，对关键帧中的每一帧进行图像过分割以获得多个过分割块。

步骤103，设置关键帧中的部分过分割块的深度值。

步骤104，根据部分过分割块的深度值获取其余过分割块的深度值，从而获得关键帧的深度图。

步骤105，将关键帧和关键帧对应的深度图作为训练样本，通过机器学习算法获取非关键帧的深度图。

步骤106，对关键帧的深度图和非关键帧的深度图进行后处理，以获得最终的视频深度图序列。

下面将结合附图详细说明本发明实施例的方法中的各个步骤的具体实现方式。

如图2所示为步骤101的流程图，具体包括以下步骤：

步骤201，读取当前帧。

步骤202，判断当前帧是否为镜头变化帧。

具体地，采用镜头检测算法中的双阈值法，由计算机自动判断当前帧是否为镜头变化帧。在本发明的一个实施例中，镜头变化帧包括镜头切变帧和镜头渐变帧。

步骤203，如果当前帧为镜头变化帧，则将当前帧作为关键帧。

步骤204，如果当前帧不为镜头变化帧，则将当前帧作为非关键帧。

步骤205，如果当前帧不为视频帧序列中的最后一帧，则继续读取当前帧的下一帧，重复执行步骤202-204。

步骤206，由用户通过人机交互对当前帧检测结果进行修正。

具体地，对于冗余或错误检测出的镜头变化帧，由用户将其人工标定为非关键帧；对于未检测出的镜头变化帧，由用户将其人工标定为关键帧。

在本发明的一个实施例中，采用基于K均值聚类的方法对视频的每一帧进行图像分割，如图3所示，具体包括以下步骤：

步骤301，将原图划分为多个大小和形状相同的矩形块，这些矩形块被当作原图中所有像素点的初始聚类。

例如，可选矩形块的大小为16×16。

步骤302，执行K均值算法，获得原图中所有像素点的最终聚类。

步骤303，执行区域连通算法，将属于同一聚类的像素点所构成的一个连通区域划分成一个过分割块。

步骤304，对步骤303的划分结果进行拆分和/或合并，以得到原图像的最终分割结果。

具体地，可将面积大于第一给定阈值的过分割块进行拆分，将面积小于第二给定阈值的分割块进行合并。其中，例如将第一给定阈值设置为600，将第二给定阈值设置为100。

图4示出了步骤103中用户通过人机交互为关键帧对应的部分过分割块指定深度值的一个例子。用户通过计算机屏幕，利用自编软件或其他图像编辑软件提供的图形界面，在原图像上勾划出7条灰度曲线。其中，3条曲线的灰度值为255，1条曲线的灰度值为180，3条曲线的灰度为0，它们分别代表了每条曲线所经过的过分割块的深度值。深度值为255的过分割块在场景中距离观测者最近，深度值为0的过分割块在场景中距离观测者最远，而深度值为180的过分割块居于两者之间。应理解，图4所示的仅为示意性的例子，并不用于限制本发明，用户可改变勾划曲线的条数和位置等。

在本发明的一个实施例中，采用深度扩散算法获取其余过分割块的深度值，如图5所示，具体包括以下步骤：

步骤501：迭代开始前的初始化。

在本发明的一个实施例中，对于已指定了深度值的过分割块，初始深度值即为其被指定的深度，深度值的置信度设为1；对于其余过分割块，初始深度值都设为0，深度值的置信度也设为0。

步骤502：针对每两个相邻的过分割块，计算它们在颜色、纹理上的相似性度量。

具体地，首先分别计算这两个过分割块中所有像素点的RGB(红绿蓝)颜色平均值，进而求取这两个颜色平均值在颜色空间中的欧式距离D_colour。

然后，分别统计这两个过分割块的RGB颜色直方图，进而求取这两个颜色直方图的Bhattacharyya距离D_B。

接着，利用六个方向上的边缘滤波器以及Laws纹理模板对原图像进行滤波，分别计算这两个过分割块中所有像素点针对不同滤波器的响应平均值，每个过分割块的响应平均值各自构成一个矢量；进而求取这两个矢量之间的欧式距离D_texture；

最后，根据公式S＝exp(-αD_color-βD_B-γD_textrue)计算这两个过分割块在颜色、纹理上的相似性度量，其中，D_colour、D_B和D_texture均被事先归一化到0～255之间，α、β、γ可取为0.2。

步骤503：开始进行迭代，在每轮迭代中，更新其余每个过分割块的深度值。

具体地，对于其余的一个过分割块i，它在第t+1轮迭代后的深度值D^t+1(i)由如下公式决定：

D^{t + 1} (i) = \frac{\underset{j &Element; N (i)}{Σ} w_{ji}^{t} D^{t} (j)}{\underset{j &Element; N (i)}{Σ} w_{ji}^{t}}

其中，N(i)表示由过分割块i以及所有和它相邻的过分割块所构成的集合，D^t(j)表示分割块j在第t轮迭代后的深度值，权重

由过分割块i和过分割块j在颜色、纹理上的相似性度量S_ji以及过分割块j在第t轮迭代后的深度值的置信度共同决定。在本发明的一个示例中，可按照

来计算权重

对于每一轮迭代，在更新完过分割块i的深度值后，同时更新过分割块i的深度值的置信度c_i，将其设定为此轮迭代中权重w_ji的最大值，即

重复上述迭代更新过程，直到其余过分割块的深度值均不发生变化，或者迭代次数达到了给定的阈值。在本发明的一个示例中，可将阈值设定为200。

图6显示了步骤105中通过机器学习算法获得非关键帧的深度图的方法的流程，该方法具体包括以下步骤：

步骤601：对于某一个非关键帧，寻找在此之前的与它距离最近的关键帧。

步骤602：针对此关键帧中的每个过分割块，计算过分割块的特征向量。

在本发明的一个实施例中，过分割块的特征向量包括：过分割块中所有像素点在R、G、B颜色通道上的平均值、过分割块中所有像素点针对9个不同的Laws纹理模板的响应平均值、过分割块中光流大小的平均值、过分割块重心的横坐标及纵坐标、过分割块到图像上、下、左、右四个边缘的最短路径距离。由此，可获得1个19维的特征向量，代表了过分割块在颜色、纹理、位置、运动、遮挡上的特征。

步骤603：根据关键帧中所有过分割块的特征向量及深度值，训练SVM多分类器。

具体地，将过分割块的深度值作为类别标签，和步骤602中所求得的特征向量一起作为训练样本，采取“一类对其余”或者“一对一”的方法，训练SVM多分类器。

步骤604：计算非关键帧中每个过分割块所对应的特征向量。

具体地，可采取和步骤602相同的方法，也获取19维的特征向量。

步骤605：利用训练好的SVM多分类器对非关键帧中的过分割块进行分类，从而得到它们各自所对应的深度值。

步骤106中对求得的每一帧深度图进行后处理具体包括以下步骤：

1)按照“之”字形的顺序遍历深度图中的每个像素，若前后两个属于不同过分割块的像素在深度值上的差异小于给定阈值，则将后一个像素所属的过分割块的深度值设置为和前一个像素的深度值相等。例如，可将阈值设定为30；

2)对整个深度图使用中等强度的高斯滤波，例如，可将滤波窗口设置9×9的大小。

综上所述，本发明实施例提供的基于人机交互生成视频深度图序列的方法，由用户对关键帧的检测结果进行修正，并为关键帧中的部分过分割块指定深度值，再借助深度扩散算法及机器学习算法获得关键帧及非关键帧的深度图。该方法能够同时满足精度和效率上的要求，较好地完成将平面视频转为立体视频的任务。

为实现上述实施例，本发明另一方面还提出一种基于人机交互生成视频深度图序列的系统，参见图7，该系统包括：检测模块701、过分割模块702、人机交互模块703、关键帧深度图生成模块704、非关键帧深度图生成模块705和后处理模块706。

检测模块701用于从平面视频帧序列中检测出镜头变化帧以作为关键帧，其中所述镜头变化帧包括镜头切变帧和镜头渐变帧。过分割模块702用于对平面视频帧序列中的每一帧进行图像过分割以获得多个过分割块。人机交互模块703用于提供用户操作界面，使用户能够对检测模块701的检测结果进行修正，并对关键帧中的部分过分割块指定深度值。关键帧深度图生成模块704用于根据关键帧中部的部分过分割块的深度值获得其余过分割块的深度值，并根据关键帧中的所有过分割块的深度值生成关键帧的深度图。非键帧深度图生成模块705用于以关键帧和关键帧的深度图为训练样本，通过机器学习算法生成非关键帧的深度图。后处理模块706用于对所述关键帧深度图生成模块及非键帧深度图生成模块生成的深度图进行后处理，得到最终的视频深度图序列。

其中，人机交互模块703可包括关键帧标注单元和深度值赋值单元。关键帧标注单元用于对检测模块701的检测结果进行修正，将未检测出的镜头变化帧标注为关键帧，将冗余的或错误检测出的镜头变化帧标注为非关键帧。深度值赋值单元用于向用户提供图形编辑界面，使用户能够在原图像上勾划出多条灰度曲线，其中每条曲线的灰度值代表该条曲线所经过的过分割块的深度值。

此外，本领域技术人员可以理解实施例中的系统中的模块可以按照实施例描述分布于实施例的系统中，也可以进行相应变化位于不同于本实施例的一个或多个系统中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同限定。

Claims

1.一种基于人机交互生成视频深度图序列的方法，其特征在于，包括以下步骤：

A1：从视频帧序列中提取出关键帧和非关键帧；

A2：对所述视频帧序列的每一帧进行图像过分割以获得多个过分割块；

A3：设置所述关键帧中的部分过分割块的深度值；

A4：根据所述部分过分割块的深度值获取所述关键帧的其余过分割块的深度值，从而获得所述关键帧的深度图；

A5：将所述关键帧和所述关键帧对应的深度图作为训练样本，通过机器学习算法获取所述非关键帧的深度图；以及

A6：对所述关键帧的深度图和所述非关键帧的深度图进行后处理，以获得最终的视频深度图序列，

其中，所述步骤A1具体包括：

A11：通过采用镜头检测算法中的双阈值法，检测出所述视频帧序列中的镜头切换帧和镜头渐变帧，并将所述镜头切换帧和所述镜头渐变帧作为关键帧，其余帧作为非关键帧；以及

A12：对步骤A11的检测结果进行人工修正，

其中，所述步骤A2具体包括：

A21：将原图划分为多个大小和形状相同的矩形块，所述多个矩形块被当做所述原图中所有像素点的初始聚类；

A22：执行K均值算法，获得所述原图中所有像素点的最终聚类；

A23：执行区域连通算法，将属于同一聚类的像素点所构成的一个连通区域划分成一个过分割块；以及

A24：对所述步骤A23的划分结果进行拆分和/或合并，以得到所述原图的最终分割结果，

其中，所述步骤A3具体包括：用户在原图上勾划出多条灰度曲线，其中每条曲线的灰度值代表该条曲线所经过的过分割块的深度值，

其中，所述步骤A4具体包括：

A41：将已指定深度值的过分割块的深度值的置信度设为1，将其余过分割块的深度值以及深度值的置信度均设为0；

A42：计算每两个相邻的过分割块在颜色和纹理上的相似性度量；

A43：开始进行迭代，在每轮迭代中，根据以下的公式更新过分割块i的深度值，

D^{t + 1} (i) = \frac{\underset{j &Element; N (i)}{Σ} w_{ji}^{t} D^{t} (j)}{\underset{j &Element; N (i)}{Σ} w_{ji}^{t}}

其中，Dⁱ⁺¹(i)表示分割块i在第t+1轮迭代后的深度值，N(i)表示由过分割块i以及所有和它相邻的过分割块所构成的集合，D^t(j)表示分割块j在第t轮迭代后的深度值，权重

其中S_ji为过分割块i和过分割块j在颜色和纹理上的相似性度量，

为过分割块j在第t轮迭代后的深度值的置信度；

A44：在每轮迭代后，将过分割块i的深度值的置信度c_i更新为此轮迭代中权重w_ji的最大值；以及

A45：重复步骤A43和A44，直至过分割块的深度值不发生变化或者迭代次数达到了给定的阈值；以及

A46：根据所述关键帧中所有过分割块的深度值生成关键帧的深度图，其中，所述步骤A42具体包括：

A421：分别计算所述两个相邻的过分割块中所有像素点的RGB颜色平均值，并获取两个所述RGB颜色平均值在颜色空间中的欧式距离D_colour；

A422：分别统计所述两个相邻的过分割块的RGB颜色直方图，并获取两个所述颜色直方图的Bhattacharyya距离D_B；

A423：利用边缘滤波器及laws纹理模板对所述原图像进行滤波，分别计算所述两个相邻的过分割块中所有像素点针对不同滤波器的响应平均值，其中每个过分割块的响应平均值构成一个矢量，获取两个所述矢量之间的欧式距离D_texture；以及

A424：通过以下的公式获取所述两个相邻的过分割块i和j在颜色和纹理上的相似性度量S_ji，

S_ji=exp(-αD_color-βD_B-γD_texture)，

其中，α、β、γ为0至1之间的常数，

其中，所述步骤A5具体包括：

A51：寻找在所述非关键帧之前的与其距离最近的关键帧；

A52：获取所述关键帧中每个过分割块的特征向量；

A53：根据所述关键帧中所有过分割块的特征向量及深度值，训练SVM多分类器；以及

A54：利用所述SVM多分类器对所述非关键帧中的过分割块进行分类，以获取所述非关键帧中的每个过分割块的深度值，

其中，所述步骤A6具体包括：

按照“之”字形的顺序遍历深度图中的每个像素，若前后两个属于不同过分割块的像素在深度值上的差异小于给定阈值，则将后一个像素所属的过分割块的深度值设置为和前一个像素的深度值相等；以及

对整个深度图进行高斯滤波。

2.根据权利要求1所述的方法，其特征在于，所述过分割块的特征向量包括：

过分割块中所有像素点在红、绿、蓝三个颜色通道上的平均值；

过分割块中所有像素点针对9个Laws纹理模板的响应平均值；

过分割块重心的横坐标和纵坐标；

过分割块中光流大小的平均值；以及

过分割块与图像的上、下、左、右四个边缘之间的最短路径距离。