CN101951511A

CN101951511A - 一种通过分析深度进行视频场景分层的方法

Info

Publication number: CN101951511A
Application number: CN 201010257401
Authority: CN
Inventors: 杨抒; 周忠; 李艳丽; 杜超; 吴威
Original assignee: SHENZHEN BRIGHTCOM TECHNOLOGY Co Ltd; Beihang University
Current assignee: SHENZHEN BRIGHTCOM TECHNOLOGY Co Ltd; Beihang University
Priority date: 2010-08-19
Filing date: 2010-08-19
Publication date: 2011-01-19
Anticipated expiration: 2030-08-19
Also published as: CN101951511B

Abstract

一种通过分析深度进行视频场景分层的方法，主要实现手持相机拍摄视频中不同深度层下的物体提取，步骤为：(1)对视频帧进行自适应采样，抽取视频帧中的关键帧；(2)对关键帧进行过分割并获取关键帧的深度图，以过分割块为结点构建关键帧的无向带权图；(3)建立相邻关键帧间的结点匹配权图；(4)依次对关键帧中的过分割块进行合并，并将合并结果传递给邻居关键帧，实现关键帧的同步分层；(5)获取原始视频帧的深度信息，将关键帧的分层结果传递给中间帧并优化分层结果。本方法可以有效的全自动的实现手持相机拍摄视频的场景分层，提高视频场景分层的精度和速度。

Description

一种通过分析深度进行视频场景分层的方法

技术领域

本发明属于视频场景分层技术领域，具体的说是基于深度信息对手持相机拍摄视频进行场景分层，从而获取视频中不同深度层下各个物体的掩码序列，用于视频场景理解和基于内容的视频压缩等领域。

背景技术

视频场景分层的目的是从视频中分解出不同的场景层，具有重要的理论意义和应用价值。在理论意义上，分解出视频层有助于基于视频的场景理解，或构建2.5维场景模型，或实现基于内容的视频压缩，或完成新视频的合成制作；在应用价值上，视频场景分层功能是视频编辑软件的理论基础，从视频中抽取的前景物体可组建出对象库，方便各种虚实混合项目的应用等。

视频场景分层是对每个视频帧进行0-1标注或者多标注的问题。相比于图像分割而言，视频场景分层要满足时空一致性，视频的时空信息包括光流场和深度图，光流场记录了视频帧中像素的运动向量，深度图记录了视频帧中像素的深度值，在多视图几何理论下，深度值就等同于视频帧间像素的匹配关系。在本发明前，文献1-S.Khan and M.Shah，Object Based Segmentation of Video Using Color，Motion and Spatial Information，Proceedings of Computer Vision and Pattern Recognition，2001提出一种基于光流场对视频进行场景分层的方法，首先提取视频帧的光流场，然后对起始帧进行分层，最后，最大化一个融合光流信息、颜色信息的贝叶斯模型得到模型参数，从而实现后续帧的分层，但该方法存在很多噪声点，特别是遮挡边缘处，主要原因是遮挡处的光流信息不稳定。文献2-J.Xiao and M.Shah，Motion Layer Extraction in the Presence of Occlusion using Graph Cut，Proceeding of Computer Vision and Pattern Recognition，2004提出了一种利用种子点扩散对视频进行场景分层的方法，该方法假设场景是有多个平面空间组成的，首先，在两个视频帧间找一些种子点区域，其次，这些种子点区域通过层次集和图割算法不断地扩展和求解，然后，根据运动相似性融合成几个初始层，最后，由一个马尔科夫模型获取鲁棒的运动层，由于该方法仅用到了运动深度信息，没有考虑颜色纹理信息，因此分解的场景层不精细，不能实现同一深度层上不同物体的分层。文献3-N.Apostoloff and A.Fitzgibbon，Automatic Video Segmentation using Spatiotemporal T-junction，Proceeding of British Machine Vision Conference，2007提出了一种基于时空T-结点的视频场景分层方法，该方法将视频看成一个带有时间轴的三维空间X-Y-T，其中的T为时间轴，X，Y分别为视频帧的纵横轴，用监督学习法在X-T切片中找T-结点，即遮挡边缘点，然后根据遮挡边缘点分离前景和背景层，该方法也不能分离同一深度层上的不同物体，并且难以实现复杂边缘的分层，例如树杈。类似的，文献4-A.N.Stein，T.S.Stepletion and M.Hebert，Towards Unsupervised Whole-Object Segmentation-Combining Automatic Matting with Boundary Detection，Proceeding of Computer Vision and Pattern Recognition，2008提出一种基于遮挡边缘的多前景物体的分层，首先实现视频帧中遮挡边缘的检测，然后在每段遮挡边缘两侧用抠图技术分离前景和背景，并在序列图中构建出一个对称相似矩阵，分解该矩阵的主特征完成了前景物体的抽取，由于该方法也基于遮挡边缘实现的前景物体的提取，因此也难以完成分离同一深度层上的不同物体，此外，该方法局限于短基线视频下的场景分层。文献5-P.Bhat，et al.，Piecewise Image Registration in the Presence of Multiple Large Motion，，Proceeding of Computer Vision and Pattern Recognition，2006实现了宽基线的视频场景分层，该方法假设场景模型都是平面物体，首先提取图像中的稀疏特征点，根据对极点完成局部空间聚类，进而获取平面运动模型，然后用一个多标识的马尔科夫模型优化标注每个像素，但该方法分层出的场景模型的边缘区域不精细。

此外，中国专利“基于H.264压缩域运动对象实时分割方法”，申请号为200610116363，该专利从H.264视频提取出的基于4×4块均匀采样的运动矢量场，将该矢量场作为运动向量，然后采用快速的统计区域生长算法按照运动相似性将其分层成多个区域，该方法同样仅仅用运动信息进行分层，难于实现同一运动场下多物体的分层。美国专利“Automatic Video Image Segmentation”，申请号为US 2010/0046830 A1，该专利首先在用户交互下分层出关键帧中的前景物体，然后将分层结果传递给后续帧中，该方法可以鲁棒的完成视频中前景物体的提取，但要对整个视频进行分层，用户需要在初始帧中手动分离开各个场景层，因此操纵复杂，另外，由于该技术通过跟踪边缘完成后续帧中前景分层，因此难于实现受遮挡背景层的分层。

发明内容

本发明为了克服现有技术的不足，提出一种通过分析深度进行视频场景分层的方法。该方法同时考虑了场景点的深度信息和颜色信息，可全自动的实现手持相机拍摄视频场景分层的目的，提高场景分层的精度。另外，相比于固定采样的、以像素点为计算单元的方法，该方法自适应的选取关键帧，并且以过分割块为计算单元来分割关键帧，因此提高了计算效率。

为了取得上述技术效果，本发明所采用的技术方案是基于视频帧的深度信息和过分割块对视频图像进行分层。深度信息代表了场景点距离采集相机的远近，从多视图几何理论下，从深度信息可直接获取同一场景点在多视图中的投影点，即建立了多视图间的匹配关系。过分割块是图像中局部小范围像素的聚类块，相比于图像/视频的分割块，过分割块仅包括少量同样颜色的像素点并且没有语义信息，块内像素往往都属于同一场景层。本发明具体包含的步骤如下：

(1)对视频帧进行自适应采样，抽取视频帧中的关键帧；

(2)对关键帧进行过分割并获取关键帧的深度图，以过分割块为结点构建关键帧内的无向带权图；

(3)建立相邻关键帧间的结点匹配权图；

(4)依次对关键帧中的过分割块进行合并，并将合并结果传递给邻居关键帧，实现关键帧的同步分层；

(5)获取原始视频帧的深度信息，将关键帧的分层结果传递给中间帧并优化分层结果。

本发明的原理是：由于手持相机拍摄视频具有很大灵活性，视频帧间往往有很高的冗余度，因此，首先从原始视频帧中采样出一组关键帧，先对关键帧进行分层，再将关键帧分层结果传递给中间帧。在关键帧分层过程中，本发明以过分割块为计算单元来提高计算效率，将关键帧分层问题抽象成一个以过分割块为结点的带权无向图结点聚类过程，结合了颜色纹理信息、深度信息和聚类块大小来定义边权值；在结点聚类过程中，本发明采用一种时空空间上的快速贪婪的聚类法，优先聚类权值最大的边连接的结点，由于相邻关键帧间的过分割块具有配准关系，本发明建立了帧间匹配权图，保证每次的聚类结果都会传递给左右关键帧，从而实现关键帧结点的同步聚类；在中间帧分层过程中，由于中间帧分层结果仅跟左右关键帧分层结果相关，因此，用关键帧将原始视频帧切成片段来独立计算，先根据深度信息将关键帧分层结果传递给中间帧，考虑到存在一些被错误分层或者未被分层的像素点，最后通过一个全局目标优化函数来优化分层结果。

本发明与现有技术相比的优点在于：相比于固定采样的方法，本方法自适应的采样出关键帧，提高了整体视频场景分层的效率和鲁棒性；相比于以像素为计算单元的方法，本方法充分利用了过分割块来分层关键帧，提高了分层效率；在关键帧分层过程中，本方法用过分割块聚合局部小像素点，同时考虑了深度信息和颜色信息，相比于基于单一运动信息的分层方法，提高了场景分层的精度。

附图说明：

图1为本发明分析深度进行视频场景分层的方法的主要流程图；

图2为本发明在关键帧分层步骤的过程流程图；

图3两个关键帧的无向带权图和帧间结点匹配权图的构建示意图，其中，图3A，3B分别为左，右关键帧和其上的过分割块，图3C为以过分割块为结点构建的帧内无向带权图和帧间匹配权图；

图4为从一组原始视频帧中采样的关键帧序列；

图5为该关键帧序列对应的过分割结果；

图6为该关键帧序列对应的深度图结果；

图7为在5个不同阈值下对一幅关键帧做过分割块聚类的结果；

图8A，8B，8C为提取的三个不同场景层的视频序列。

具体实施方法：

结合附图1-8，具体阐述本发明的实施方法。定义视频帧序列为

本发明的视频场景分层方法如图1所示，其步骤如下：

(1)抽取关键帧：对视频帧进行自适应采样，抽取视频帧序列

中的关键帧，组成关键帧序列

首先，提取视频帧序列中每帧的SIFT特征点；

其次，对两两个视频帧进行特征点匹配，并计算匹配权值：

W (i, j) = w * \frac{N_{inlier} (i, j)}{N_{total} (i)} + (1 - w) * \exp (- \frac{{(D_{avg} (i, j) - T_{dis})}^{2}}{σ_{dis}}) - - - (1)

其中，w为加权值，w∈[0，1]，经验值设为0.3；N_total(i)是帧I_i的总特征点数，N(i，j)_inner为帧I_i和帧I_j的总匹配点数；T_dis和σ_dis为常量，代表期望的基线长度和方差；为平均的偏移量，其中的p_k(·)为SIFT特征点位置；

最后，令第一个视频帧I₀为起始关键帧KI₀，令每个关键帧的后续权值最大的帧为其后续关键帧，即KI_i+1＝max_j W(KI_i，j)，从而得到一组关键帧序列

(2)构建关键帧的无向带权图：获取关键帧的深度图并对关键帧进行过分割，以过分割块为结点构建无向带权图(如图3)。

首先，用Meanshift分割法对关键帧(如图4)进行过分割(如图5)，用多视图立体匹配法获取关键帧的深度图(如图6)；

其次，对每个关键帧，以过分割块为结点单元v_i∈V，以相邻结点为边(v_i，v_j)∈E，构造无向带权图G＝<V，E>，定义边权值为：

w_in(i，j)＝γ₁*w_c(i，j)+γ₂*w_d(i，j)+γ₃*w_z(i，j) (2)

其中，γ₁，γ₂，γ₃为加权项，满足γ_i∈[0，1]，γ₁+γ₂+γ₃＝1；

w_c(i，j)为颜色差值，定义为：

w_d(i，j)为深度差值，定义为：

w_s(i，j)为分割块大小值，定义为：

其中的μ_c(·)，μ_d(·)分别为平均颜色和深度均值，T_c，T_d分别为颜色和深度截断值，σ_c＝255，σ_d为最大深度值，μ_s(·)为区域面积，S为图像面积。

(3)构建关键帧间的结点匹配图，根据深度图将对相邻关键帧进行结点匹配，得到双向的带权匹配图。

依次将关键帧序列

中的每个关键帧KI_i的每个过分割块(即无向图结点)v_j∈C_Ki投影到左右邻域帧KI_i-1和KI_i+1上，用

表示所涵盖的过分割块集合(这里以左邻居帧KI_i-1为例，对右邻居帧KI_i+1的处理亦同)，计算结点v_j和v_t的匹配权值：

w_out(j，t)＝α*w_c(j，t)+(1-α)*w_z(j，t) (6)

w_c(i，j)为颜色差值，定义为：

w_s(i，j)为重叠区比，定义为：

其中，α为加权项，α∈[0，1]；μ_c(·)为颜色均值，T_c为颜色截断值，σ_c＝255；μ_s(·)为过分割块区域面积，O(·)为重叠区域面积。

依照公式(6)依次对相邻关键帧间的结点进行匹配计算，从而建立起每两个相邻关键帧间的双向带权匹配图。

(4)关键帧的分层：根据边权值依次对无向带权图中的结点进行合并，实现关键帧的同步分层。

首先，按照权值将关键帧序列的无向带权图中的所有边从大到小排序得到边序列E；

其次，依次从边集合E中找出权值最大的边进行结点合并，直到边集合E的边权值均小于阈值T，具体过程(如图2)为：

(4.1)从边集合E中找出权值最大的边；

(4.2)假设该边所在关键帧为KI_i，该边连接的两个结点为(v_p，v_q)∈E，合并这两个结点；

(4.3)找出v_p和v_q在左邻居图(以左邻居帧KI_i-1为例，右邻居帧亦同)中匹配结点的集合，设为和

(4.4)从这两集合中找相邻的结点，选取权值w_in(·)最大并且w_in(·)＞T的结点进行合并；

(4.5)修改帧内带无向权图中的边权值，修改帧间带权匹配图的边权值，重新排序边权值集合E中的边序列。

(5)中间帧的分层：获取原始视频帧的深度信息，将关键帧的分层结果传递给中间帧并优化分层结果

根据关键帧序列

将整个视频序列

截取成一些片段序列，每个片段序列的前后帧分别为两个相邻的关键帧，中间帧是关键帧之间的帧。下面以其中一段片段序列

为例对中间帧分层过程进行阐述。

首先，用双视图立体匹配法获取原始视频帧的深度信息，用

表示片段序列

的深度序列，因为深度信息记录了像素点的匹配关系，因此，直接将两关键帧的标注结果向内迭代传递到相邻帧。

然后，建立一个全局能量函数来优化标注结果，即：

E＝wE_d+α(1-w)E_s (9)

该能量函数E包括数据项E_d和平滑项E_s，数据项E_d定义为：

E_{d} (l (x)) = \max_{k} {| | I (x) - C_{k} (l (x)) | |}_{2} / Σ_{i = 0}^{L} \max_{k} {| | I (x) - C_{k} (i) | |}_{2} - - - (10)

其中的l(·)是对像素点的分层标注，I(·)为像素点的颜色值，C_k(i)为第i个标注区域的第k个分量的颜色均值，该值由K-Means法对关键帧中已知分层区域的像素做空间聚类获取的，设定K-Means的聚类数为5，即k＝1…5，标注区域数L为两关键帧的标注区域之并；

E_s为平滑项，定义为：

其中的ε为控制参数，δ(·)定义为：

l(·)是对像素点的分层标注，I(·)为像素点的颜色值。

用Graphcut求解该目标函数完成中间帧的分层，图8A、8B、8C分别为所提取的三个不同场景层的视频序列。

Claims

1.一种通过分析深度进行视频场景分层的方法，其特征在于：从原始视频帧中采样关键帧，先对所述关键帧进行分层，再根据深度信息将所述关键帧的分层结果传递给中间帧，具体包含步骤如下：

(1)对视频帧进行自适应采样，抽取视频帧中的关键帧；

(3)建立相邻关键帧间的结点匹配权图；

2.根据权利要求1所述的方法，其特征在于：所述步骤(1)中的抽取关键帧具体为：

提取每个视频帧的特征点，对每两个视频帧进行特征点匹配并计算匹配权值，定义匹配权值为：

W (i, j) = w * \frac{N_{inlier} (i, j)}{N_{total} (i)} + (1 - w) * \exp (- \frac{{(D_{avg} (i, j) - T_{dis})}^{2}}{σ_{dis}})

其中，w为加权值，w∈[0，1]；N_total(i)是帧I_i的总特征点数，N(i，j)_inner为帧I_i和帧I_j的总匹配点数；T_dis和σ_dis为常量，代表期望的基线长度和方差；为平均的偏移量，其中的p_k(·)为特征点位置；

以第一个视频帧为起始关键帧，迭代选取后续的关键帧，从而完成关键帧的采样，其中，对于当前关键帧，其后续关键帧为其后续帧中具有最大匹配权值的帧。

3.根据权利要求1所述的方法，其特征在于：所述步骤(2)中构建无向带权图具体为：

用图像过分割法对关键帧进行过分割，用多视图立体匹配法获取关键帧的深度信息；

以过分割块为结点单元，在相邻结点单元间搭建一条带权的边，从而构建出无向带权图，定义边权值为：

w_in(i，j)＝γ₁*w_c(i，j)+γ₂*w_d(i，j)+γ₃*w_z(i，j)

w_c(i，j)为颜色差值，定义为：

w_d(i，j)为深度差值，定义为：

w_s(i，j)为分割块大小值，定义为：

其中的μ_c(·)，μ_d(·)分别为平均颜色和深度均值，T_c，T_d分别为颜色和深度截断值，σ_c为最大颜色值，σ_d为最大深度值，μ_s(·)为区域面积，S为图像面积。

4.根据权利要求1所述的方法，其特征在于：所述步骤(3)建立相邻关键帧间的结点匹配权图具体为：对于当前关键帧，根据深度信息将每个过分割块即无向图的结点投影到左右相邻视频帧，获取投影区域所涵盖的左/右帧中过分割块即左右关键帧无向图的结点，在该过分割块代表的结点和所涵盖过分割块代表的结点间搭建一条边，定义边权值为：

w_out(j，t)＝α*w_c(j，t)+(1-α)*w_z(j，t)

w_c(i，j)为颜色差值，定义为：

w_s(i，j)为重叠区比，定义为：

其中，α为加权项，α∈[0，1]；μ_c(·)为颜色均值，T_c为颜色截断值，σ_c为最大颜色值；μ_s(·)为过分割块区域面积，O(·)为重叠区域面积。

5.根据权利要求1所述的方法，其特征在于：所述步骤(4)中合并过分割块具体为：

按照权值将所有无向带权图中的边从大到小排序，得到一个边序列集合；

依次从边序列集合中取出最大权值的边进行结点合并，直到边序列中的边权值均小于阈值T；其中，在结点合并过程中，先合并所选边的两个结点，再根据帧间结点匹配权图将合并结果传递给左右帧对其中的相关结点也进行合并，同时，修改无向带权图和帧间结点匹配权图的边权值，并重新排序边序列集合。

6.根据权利要求1所述的方法，其特征在于：所述步骤(5)中分层结果的传递和优化方法为：对每段关键帧和其中间帧组成的序列独立进行分层结果的传递和优化，该传递过程建立在像素级别上；

根据深度信息即像素点匹配关系将两关键帧的分层结果映射到中间帧上；

建立全局能量函数来优化分层，完成中间帧的分层标注，定义全局能量函数为：

E＝wE_d+α(1-w)E_s

该能量函数E包括数据项E_d和平滑项E_s，数据项E_d定义为：

E_{d} (l (x)) = \max_{k} {| | I (x) - C_{k} (l (x)) | |}_{2} / Σ_{i = 0}^{L} \max_{k} {| | I (x) - C_{k} (i) | |}_{2}

E_s为平滑项，定义为：

E_{s} (l (x), l (y)) = \frac{{| | I (x) - I (y) | |}_{2} δ (l (x), l (y))}{(ϵ + 1)}

其中的ε为控制参数，δ(·)定义为：

l(·)是对像素点的分层标注，I(·)为像素点的颜色值。