CN103237228B

CN103237228B - 双目立体视频的时空一致性分割方法

Info

Publication number: CN103237228B
Application number: CN201310157313.3A
Authority: CN
Inventors: 戴琼海; 赵昱; 邵航
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2013-04-28
Filing date: 2013-04-28
Publication date: 2015-08-12
Anticipated expiration: 2033-04-28
Also published as: CN103237228A

Abstract

本发明提出一种双目立体视频的时空一致性分割方法，包括：视频预处理，获得视频片段及相应的初始光流图序列和视差图序列；根据初始光流图序列和视差图序列，对视频片段进行基于像素的分割，获得第一层分割结果；根据第一层分割结果对初始光流图序列和视差图序列进行平滑处理，获得优化的光流图序列和视差图序列；以及根据优化的光流图序列和视差图序列及第一层分割结果，对视频片段进行基于超像素的分割，获得多层分割结果。本发明通过引入双目立体视频的视差信息，结合纹理、运动等信息，可以得到更有语义性的时空一致性分割，多层分割结果提供了从过分割到接近语义表达的稀疏分割等多个分割等级，为不同的后期视频处理应用提供基础。

Description

双目立体视频的时空一致性分割方法

技术领域

本发明涉及图像视频处理技术领域，特别涉及一种双目立体视频的时空一致性分割方法。

背景技术

图像分割是计算机视觉领域的基本问题，旨在将图像空域上相似的像素进行聚类分析，而视频分割是图像分割在时域上的扩展，这种分割能保持图像分割在时域上的一致性和连贯性，可用于更高级别的视觉任务，如物体识别，目标跟踪，基于内容的检索等。最简单的视频分割方法是对视频序列中的视频帧分别进行图像分割，这种方法简单高效，但是由于缺乏时域信息，会产生帧间的抖动。目前更主流的方法是时空联合分割方法，即同时利用图像的空间相关性和视频的时间相关性，以获得更好的分割效果，根据是否利用后续视频帧信息可以分为在线分割方法和离线分割方法。在线分割方法只利用前帧的信息，可达到实时的速度，而离线分割方法综合考虑了前后帧的信息，通常可以获得更稳定的结果，但计算量较大。另外，借助于人工输入和半监督学习的方法，可以使视频获得更有语义性的分割，在物体识别与跟踪领域应用较多。

双目立体视频是两个处在不同位置的摄像机同时拍摄同一场景获得的图像序列，不仅包含了单路视频具有的灰度、纹理、颜色、运动等信息，而且包含了场景的深度信息，使得位于同一深度层面的目标对象的分割更为有效，从而更容易实现全自动的视频语义分割。此外，时空一致的双目立体视频分割也为后续的视频分析研究提供了有效的信息，如获取物体的空间关系及视差求取等。

现有的双目立体视频分割方法主要存在以下不足：首先，由于数据量大，视频分割算法往往速度很慢，而且占用很大的内存，因此只能处理较短的视频序列或者将长视频分成多个短视频处理，这将难以保持帧间的一致性；其次，较少考虑场景的深度信息，因此分割的语义性较差；最后，分割等级固定，对于一组参数只能输出一种分割结果，灵活性较差。

发明内容

本发明的目的旨在至少解决上述技术缺陷之一。

为达到上述目的，本发明提出一种双目立体视频的时空一致性分割方法，包括以下步骤：A：视频预处理，获得视频片段及相应的初始光流图序列和视差图序列；B：根据所述初始光流图序列和视差图序列，对所述视频片段进行基于像素的分割，获得第一层分割结果；C：根据所述第一层分割结果对初始光流图序列和视差图序列进行平滑处理，获得优化的光流图序列和视差图序列；以及D：根据所述优化的光流图序列和视差图序列及第一层分割结果，对所述视频片段进行基于超像素的分割，获得多层分割结果。

根据本发明实施例的双目立体视频的时空一致性方法，本发明通过引入双目立体视频的视差信息，结合纹理、运动等信息，可以得到更有语义性的时空一致性分割，多层分割结果提供了从过分割到接近语义表达的稀疏分割等多个分割等级，为不同的后期视频处理应用提供基础。

在本发明的一个实施例中，所述步骤A进一步包括：A1：对输入的双目立体视频进行分段，每N帧分为一段，相邻两段有M帧的重叠区域，可以得到多个视频片段，每个视频片段包含左右两路图像序列，其中第k个视频片段的左右两路图像序列用，表示，第k个视频片段中的第t帧左右图像分别为，，其中1≤t≤N；A2：对所述当前待处理的第k个视频片段，分别求取左右两路视频片段中各帧与后一帧的光流，可以得到前向光流图序列，，分别求取左右两路视频片段中各帧与前一帧的光流，可以得到后向光流图序列，，这些光流图序列构成当前视频片段的初始光流图序列，，，；以及A3：对所述当前待处理的第k个视频片段，以左路视频片段各帧图像为目标视图，右路视频片段对应图像为参考视图，进行立体匹配，可以得到左路视频片段的初始视差图序列，反过来，以右路视频片段各帧图像为目标视图，左路视频片段对应图像为参考视图，进行立体匹配，可以得到右路视频片段的初始视差图序列，这些视差图序列构成当前视频片段的初始视差图序列，。

在本发明的一个实施例中，所述步骤B进一步包括：B1：根据所述初始光流图序列和视差图序列，以当前视频片段包含的所有像素为节点建立图模型，确定图中节点之间的边及边的权重；B2：根据所述图模型对图中所有的边按权重从小到大排序；B3：依次遍历所述排序后的边，按照合并准则确定是否对每条边连接的两个像素进行合并操作，得到初始分割结果；以及B4：根据所述初始分割结果，遍历所有的分割块，对于包含像素数小于尺寸阈值的分割块，与周围颜色最近的分割块进行合并，得到第一层分割结果。

在本发明的一个实施例中，所述步骤B1中边的权重为：

其中ω(e)表示边e的权重值，e_p和e_q分别表示边e连接的两个像素端点，L(p)表示p点所属的分割块标号，如果e_p,e_q属于相邻视频片段的同一重叠帧，t表示该帧在当前视频片段中的序号，M表示重叠帧数，在上一个视频片段处理后，e_p,e_q分别有一个分割块标号L(e_p),L(e_q)，diff(p,q)表示点p与点q的差异性度量，I(p)表示点p的颜色特征，F(p)表示点p的光流特征，D(p)表示点p的视差特征，所有特征分别进行归一化处理，λ₁,λ₂,λ₃是相应的比例系数，满足λ₁+λ₂+λ₃=1且0≤λ₁≤1,0≤λ₂≤1,0≤λ₃≤1。

在本发明的一个实施例中，所述步骤B3中的合并准则为：ω(e)≤τ其中ω(e)表示边e的权重值，τ表示设定的阈值。

在本发明的一个实施例中，所述步骤C进一步包括：C1：按照所述第一层分割结果，对视频片段中的每一张图像的前向光流和后向光流按照平面运动模板进行拟合，得到优化的光流图序列；以及C2：按照所述第一层分割结果，对视频片段中的每一张图像的视差按照平面视差模板进行拟合，得到优化的视差图序列。

在本发明的一个实施例中，所述步骤C1中的平面运动模板为：

c [\begin{matrix} x^{'} \\ y^{'} \\ 1 \end{matrix}] = H [\begin{matrix} x \\ y \\ 1 \end{matrix}]

其中[x,y,1]^T表示像素(x,y)的齐次坐标，[x',y',1]^T表示像素(x,y)通过初始光流求得的在相邻帧中的像素(x’,y’)的齐次坐标，H为3*3的映射矩阵，c是比例因子。

在本发明的一个实施例中，所述步骤C2中的平面视差模板为：ax+by+c=d其中x和y分别表示像素(x,y)的横向坐标和纵向坐标，d表示像素(x,y)的初始视差，a,b,c表示平面视差模板的参数。

在本发明的一个实施例中，所述步骤D进一步包括：D1：根据所述第h层分割结果，属于同一分割块的像素构成一个超像素，统计超像素的纹理特征、运动特征、视差特征；D2：以所述超像素为节点建立图模型，确定图模型中节点之间的边及边的权重；D3：对图中的超像素进行聚类，得到第h+1层分割结果；以及D4：重复D1～D3步骤，执行H-1次，获得多层分割结果L_h，其中，1≤h≤H，L_h(p)表示像素p在第h层分割结果中的标号。

在本发明的一个实施例中，所述步骤D1中的超像素的纹理特征为：

E_T(a)=[his₁(a),his₂(a),his₃(a)]^T

其中E_T(a)表示在处理第k段视频片段时超像素a的纹理特征，his₁(a),his₂(a),his₃(a)分别表示超像素a包含的所有像素在三个颜色分量上的直方图统计向量，每一个直方图统计向量是一个行向量。

在本发明的一个实施例中，所述步骤D1中的超像素的运动特征为：

E_{M} (a) = {[{\overset{&OverBar;}{F}}_{k, 1} (a), {\overset{&OverBar;}{F}}_{k, 2} (a), . . ., {\overset{&OverBar;}{F}}_{k, N} (a)]}^{T}

其中E_M(a)表示在处理第k段视频片段时超像素a的运动特征，表示超像素a在第k个视频片段中第t帧的运动统计特征，和分别表示第t帧左右两图中像素p的前向光流向量，是一个行向量，和分别表示超像素a在第t帧左右图像的区域，和分别表示相应区域包含的像素个数。

在本发明的一个实施例中，所述步骤D1中的超像素的视差特征为：

E_{D} (a) = {[{\overset{&OverBar;}{D}}_{k, 1} (a), {\overset{&OverBar;}{D}}_{k, 2} (a), . . ., {\overset{&OverBar;}{D}}_{k, N} (a)]}^{T}

其中E_D(a)表示在处理第k段视频片段时超像素a的视差特征，表示超像素a在第k个视频片段中第t帧的视差统计特征，和分别表示第t帧左右两图中像素p的视差值，和分别表示超像素a在第t帧左右图像的区域，和分别表示相应区域包含的像素个数。

在本发明的一个实施例中，所述步骤D2中的边的权重为：

ω(e)=exp(-α₁||E_T(e_a)-E_T(e_b)||-α₂||E_M(e_a)-E_M(e_b)||-α₁||E_D(e_a)-E_D(e_b)||)

其中ω(e)表示边e的权重值，e_a和e_b分别表示边e连接的两个超像素，E_T(a),E_M(a),E_D(a)分别表示超像素a的纹理特征、运动特征和视差特征，所有特征分别进行归一化处理，α₁,α₂,α₃是相应的比例系数。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例的双目立体视频的时空一致性分割方法的流程图；

图2为本发明一个实施例的视频分段的示意图；

图3为本发明一个实施例的求取初始光流图序列的示意图；

图4为本发明一个实施例的求取初始视差图序列的示意图；以及

图5为本发明一个实施例的像素间边的连接示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方，或仅仅表示第一特征水平高度小于第二特征。

如图1所示，根据本发明实施例的双目立体视频的时空一致性分割方法，包括以下步骤：

步骤A，视频预处理，获得视频片段及相应的初始光流图序列和视差图序列。

下面结合图2详细描述如何对原视频进行分段。

由于整段视频的数据量太大，难以同时进行处理，因此需要对输入的双目立体视频进行分段，每N帧分为一段，为了保证时域上的连贯性，相邻两段有M帧的重叠区域，由此可以得到多个视频片段，每个视频片段包含左右两路图像序列，其中第k个视频片段的左右两路图像序列用，表示，第k个视频片段中的第t（1≤t≤N）帧左右图像分别为，。

具体地，N可以根据输入视频的分辨率及运行平台的内存容量进行选择，一般对于普通的视频，可取N=10～15，M可根据N的值进行选择，一般应使重叠率M/N=1/3～1/4。

下面结合图3详细描述如何获取视频片段的初始光流图序列。

光流表明了相邻帧间的相关性，是保证时域一致性的基础，因此需要求取任意相邻两帧的光流图。对当前待处理的第k个视频片段，分别求取左右两路视频片段中各帧与后一帧的光流，可以得到前向光流图序列，，分别求取左右两路视频片段中各帧与前一帧的光流，可以得到后向光流图序列，。这些光流图序列构成当前视频片段的初始光流图序列，，，。

具体地，可采用任何一种现有的光流算法进行初始光流图的计算，由于后期还会对光流图进行优化，考虑到算法的效率，在能保证大部分光流计算正确的基础上，推荐使用速度较快的方法。对于图像中的每一个像素点，光流图给出该点的二维运动向量，以第k段视频片段左路第t帧图像为例，由前向光流图可以得到像素(x,y)在第t+1帧的位置为由后向光流图可以得到像素(x,y)在第t-1帧的位置为

(x^{-}, y^{-}) = (x, y) + B_{k, t}^{l} (x, y) .

下面结合图4详细描述如何获取视频片段的初始视差图序列。

视差表明了同一帧左右图像的相关性，是保证两路视频分割一致性的基础，因此需要求取任意左右帧对的视差图。对当前待处理的第k个视频片段，以左路视频片段各帧图像（1≤t≤N）为目标视图，右路视频片段对应图像（1≤t≤N）为参考视图，进行立体匹配，可以得到左路视频片段的初始视差图序列，反过来，以右路视频片段各帧图像（1≤t≤N）为目标视图，左路视频片段对应图像（1≤t≤N）为参考视图，进行立体匹配，可以得到右路视频片段的初始视差图序列，这些视差图序列构成当前视频片段的初始视差图序列，。

具体地，可采用任何一种现有的立体匹配算法进行初始视差图的计算，由于后期还会对视差图进行优化，考虑到算法的效率，可以使用局部匹配算法。对于图像中的每一个像素点，视差图给出该点的视差值，以第k段视频片段第t帧图像对为例，由视差图可以得到左图像素(x,y)在右图的位置为由视差图可以得到右图像素(x,y)在左图的位置为

步骤B，根据初始光流图序列和视差图序列，对视频片段进行基于像素的分割，获得第一层分割结果。

具体地，在本发明的一个实施例中，通过以下的步骤B1-B4获得第一层分割结果。

步骤B1，根据初始光流图序列和视差图序列，以当前视频片段包含的所有像素为节点建立图模型，确定图中节点之间的边及边的权重。

下面根据图5详细描述如何确定节点之间的边。

对于任意两个在时域或空域上有联系的像素节点都应连接一条边，以第k段视频片段的第t帧左路图像为例，与该图上像素(x,y)相连的像素有：(1)在本图中的邻域像素；(2)由前向光流图得到的在第t+1帧的对应点(x⁺,y⁺)及其邻域像素；(3)由后向光流图得到的在第t-1帧的对应点(x^-,y^-)及其邻域像素；(4)由视差图得到的在右图的对应点(x^→,y^→)及其邻域像素。其中，邻域像素指四邻域或八邻域，为了节省存储空间和降低计算量，在(2)(3)(4)中也可只连接对应点而不连接其邻域像素。

确定了边的连接之后，按如下公式计算边的权重：

其中ω(e)表示边e的权重值，e_p和e_q分别表示边e连接的两个像素端点，L(p)表示p点所属的分割块标号，如果e_p,e_q属于相邻视频片段的同一重叠帧，t表示该帧在当前视频片段中的序号，M表示重叠帧数，在上一个视频片段处理后，e_p,e_q分别有一个分割块标号L(e_p),L(e_q)。diff(p,q)表示点p与点q的差异性度量，I(p)表示点p的颜色特征，F(p)表示点p的光流特征，D(p)表示点p的视差特征，所有特征分别进行归一化处理，λ₁,λ₂,λ₃是相应的比例系数，满足λ₁+λ₂+λ₃=1且0≤λ₁≤1,0≤λ₂≤1,0≤λ₃≤1。计算时，如果x为向量，则||x||表示的二范数，如果x为数值，则||x||表示x的绝对值。

步骤B2，根据图模型对图中所有的边按权重从小到大排序。

步骤B3，依次遍历排序后的边，按照合并准则确定是否对每条边连接的两个像素进行合并操作，得到初始分割结果。

初始化图中的每个像素节点分别为一个分割块，从小到大依次访问图中的所有边，如果该边连接的两个像素节点不属于同一分割块且边的权重满足合并准则，则将这两个像素所属的分割块合并为一个分割块，否则不进行任何处理。其中合并准则为：

ω(e)≤τ

其中ω(e)表示边e的权重值，τ表示设定的阈值。

步骤B4，根据初始分割结果，遍历所有的分割块，对于包含像素数小于尺寸阈值的分割块，与周围颜色最近的分割块进行合并，得到第一层分割结果。

具体地，尺寸阈值可根据视频片段的帧数N进行选择，例如期望分割块在每张图像中包含的像素数不少于100，则可令尺寸阈值=100*2*N。

步骤C，根据第一层分割结果对初始光流图序列和视差图序列进行平滑处理，获得优化的光流图序列和视差图序列。

具体地，在本发明的一个实施例中，通过以下的步骤C1-C2获得优化的光流图序列和视差图序列。

步骤C1，按照第一层分割结果，对视频片段中的每一张图像的前向光流和后向光流按照平面运动模板进行拟合，得到优化的光流图序列。

根据第一层分割结果，在每张图像上可找到标号相同的像素组，对每组像素使用RANSAC方法拟合平面运动模板，对每组像素中像素(x,y)按照对应的平面运动模板计算新的位置(x’’,y’’)，以(x’’-x,y’’-y)作为(x,y)新的光流，对初始光流图进行更新。其中平面运动模板的定义如下：

c [\begin{matrix} x^{'} \\ y^{'} \\ 1 \end{matrix}] = H [\begin{matrix} x \\ y \\ 1 \end{matrix}]

步骤C2，按照第一层分割结果，对视频片段中的每一张图像的视差按照平面视差模板进行拟合，得到优化的视差图序列。

根据第一层分割结果，在每张图像上可找到标号相同的像素组，对每组像素使用RANSAC方法拟合平面视差模板，对每组像素中像素(x,y)按照对应的平面视差模板计算新的视差d’，对初始视差图进行更新。其中平面视差模板的定义如下：

ax+by+c=d

其中x和y分别表示像素(x,y)的横向坐标和纵向坐标，d表示像素(x,y)的初始视差，a,b,c表示平面视差模板的参数。

步骤D，根据优化的光流图序列和视差图序列及第一层分割结果，对视频片段进行基于超像素的分割，获得多层分割结果。

具体地，在本发明的一个实施例中，通过以下的步骤D1-D4获得多层分割结果。

步骤D1，根据第h层分割结果，属于同一分割块的像素构成一个超像素，统计超像素的纹理特征、运动特征、视差特征。

其中三种特征的计算公式如下：

(1)纹理特征

E_T(a)=[his₁(a),his₂(a),his₃(a)]^T

(2)运动特征

E_{M} (a) = {[{\overset{&OverBar;}{F}}_{k, 1} (a), {\overset{&OverBar;}{F}}_{k, 2} (a), . . ., {\overset{&OverBar;}{F}}_{k, N} (a)]}^{T}

(3)视差特征

E_{D} (a) = {[{\overset{&OverBar;}{D}}_{k, 1} (a), {\overset{&OverBar;}{D}}_{k, 2} (a), . . ., {\overset{&OverBar;}{D}}_{k, N} (a)]}^{T}

步骤D2，以超像素为节点建立图模型，确定图模型中节点之间的边及边的权重。

对于任意两个边界相连的超像素都应连接一条边，以标号为a的超像素为例，遍历a包含的所有像素的邻域像素，其中邻域像素可取四邻域或八邻域，如果该像素所属的超像素标号与a不同，设为b，则超像素a与超像素b之间连接一条边。

确定了边的连接之后，按如下公式计算边的权重：

其中ω(e)表示边e的权重值，e_a和e_b分别表示边e连接的两个超像素，E_T(a),E_M(a),E_D(a)分别表示超像素a的纹理特征、运动特征和视差特征，所有特征分别进行归一化处理，α₁,α₂,α₃是相应的比例系数。计算时，如果x为矩阵，则||x||表示先对矩阵的每一行求二范数，然后再将所有行的值相加，如果x为向量，则||x||表示的二范数，如果x为数值，则||x||表示x的绝对值。

步骤D3，对图中的超像素进行聚类，得到第h+1层分割结果。

按照步骤D2建立的图模型可建立超像素间的相似度矩阵，使用谱聚类方法对超像素进行聚类，聚类数随着分割层数的增加而减小。

步骤D4，重复D1～D3步骤，执行H-1次，获得多层分割结果L_h(1≤h≤H)，其中L_h(p)表示像素p在第h层分割结果中的标号。

综上，根据本发明实施例的双目立体视频的时空一致性分割方法，通过引入双目立体视频的视差信息，结合纹理、运动等信息，可以得到更有语义性的时空一致性分割，多层分割结果提供了从过分割到接近语义表达的稀疏分割等多个分割等级，为不同的后期视频处理应用提供基础。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种双目立体视频的时空一致性分割方法，其特征在于，包括以下步骤：

A：视频预处理，获得视频片段及相应的初始光流图序列和视差图序列；

B：根据所述初始光流图序列和视差图序列，对所述视频片段进行基于像素的分割，获得第一层分割结果；

C：根据所述第一层分割结果对初始光流图序列和视差图序列进行平滑处理，获得优化的光流图序列和视差图序列；以及

D：根据所述优化的光流图序列和视差图序列及第一层分割结果，对所述视频片段进行基于超像素的分割，获得多层分割结果，

其中，所述步骤A进一步包括：

A1：对输入的双目立体视频进行分段，每N帧分为一段，相邻两段有M帧的重叠区域，可以得到多个视频片段，每个视频片段包含左右两路图像序列，其中第k个视频片段的左右两路图像序列用表示，第k个视频片段中的第t帧左右图像分别为其中1≤t≤N；

A2：对当前待处理的第k个视频片段，分别求取左右两路视频片段中各帧与后一帧的光流，可以得到前向光流图序列分别求取左右两路视频片段中各帧与前一帧的光流，可以得到后向光流图序列这些光流图序列构成当前视频片段的初始光流图序列以及

A3：对所述当前待处理的第k个视频片段，以左路视频片段各帧图像为目标视图，右路视频片段对应图像为参考视图，进行立体匹配，可以得到左路视频片段的初始视差图序列反过来，以右路视频片段各帧图像为目标视图，左路视频片段对应图像为参考视图，进行立体匹配，可以得到右路视频片段的初始视差图序列这些视差图序列构成当前视频片段的初始视差图序列

其中，所述步骤B进一步包括：

B1：根据所述初始光流图序列和视差图序列，以当前视频片段包含的所有像素为节点建立图模型，确定图中节点之间的边及边的权重；

B2：根据所述图模型对图中所有的边按权重从小到大排序；

B3：依次遍历所述排序后的边，按照合并准则确定是否对每条边连接的两个像素进行合并操作，得到初始分割结果；以及

B4：根据所述初始分割结果，遍历所有的分割块，对于包含像素数小于尺寸阈值的分割块，与周围颜色最近的分割块进行合并，得到第一层分割结果，

其中，所述步骤C进一步包括：

C1：按照所述第一层分割结果，对视频片段中的每一张图像的前向光流和后向光流按照平面运动模板进行拟合，得到优化的光流图序列；以及

C2：按照所述第一层分割结果，对视频片段中的每一张图像的视差按照平面视差模板进行拟合，得到优化的视差图序列，

其中，所述步骤D进一步包括：

D1：根据第h层分割结果，属于同一分割块的像素构成一个超像素，统计超像素的纹理特征、运动特征、视差特征；

D2：以所述超像素为节点建立图模型，确定图模型中节点之间的边及边的权重；

D3：对图中的超像素进行聚类，得到第h+1层分割结果；以及

D4：重复D1～D3步骤，执行H-1次，获得多层分割结果L_h，其中，1≤h≤H，L_h(p)表示像素p在第h层分割结果中的标号。

2.根据权利要求1所述的双目立体视频的时空一致性分割方法，其特征在于，所述步骤B1中边的权重为：

其中ω(e)表示边e的权重值，e_p和e_q分别表示边e连接的两个像素端点，L(p)表示p点所属的分割块标号，如果e_p,e_q属于相邻视频片段的同一重叠帧，t表示该帧在当前视频片段中的序号，M表示重叠帧数，在上一个视频片段处理后，e_p,e_q分别有一个分割块标号L(e_p),L(e_q)，diff(p,q)表示点p与点q的差异性度量，I(p)表示点p的颜色特征，F(p)表示点p的光流特征，D(p)表示点p的视差特征，所有特征分别进行归一化处理，λ₁,λ₂,λ₃是相应的比例系数，满足λ₁+λ₂+λ₃＝1且0≤λ₁≤1,0≤λ₂≤1,0≤λ₃≤1。

3.根据权利要求1所述的双目立体视频的时空一致性分割方法，其特征在于，所述步骤B3中的合并准则为：

ω(e)≤τ

其中ω(e)表示边e的权重值，τ表示设定的阈值。

4.根据权利要求1所述的双目立体视频的时空一致性分割方法，其特征在于，所述步骤C1中的平面运动模板为：

c [\begin{matrix} x^{'} \\ y^{'} \\ 1 \end{matrix}] = H [\begin{matrix} x \\ y \\ 1 \end{matrix}]

其中[x,y,1]^T表示像素(x,y)的齐次坐标，[x',y',1]^T表示像素(x,y)通过初始光流求得的在相邻帧中的像素(x’,y’)的齐次坐标，H为3*3的映射矩阵，c为比例因子。

5.根据权利要求1所述的双目立体视频的时空一致性分割方法，其特征在于，所述步骤C2中的平面视差模板为：

ax+by+c＝d

6.根据权利要求1所述的双目立体视频的时空一致性分割方法，其特征在于，所述步骤D1中的超像素的纹理特征为：

E_T(a)＝[his₁(a),his₂(a),his₃(a)]^T

7.根据权利要求1所述的双目立体视频的时空一致性分割方法，其特征在于，所述步骤D1中的超像素的运动特征为：

E_{M} (a) = [{\overset{&OverBar;}{F}}_{k, 1} (a), {\overset{&OverBar;}{F}}_{k, 2} (a), . . ., {\overset{&OverBar;}{F}}_{k, N} (a)]^{T}

8.根据权利要求1所述的双目立体视频的时空一致性分割方法，其特征在于，所述步骤D1中的超像素的视差特征为：

E_{D} (a) = [{\overset{&OverBar;}{D}}_{k, 1} (a), {\overset{&OverBar;}{D}}_{k, 2} (a), . . ., {\overset{&OverBar;}{D}}_{k, N} (a)]^{T}

9.根据权利要求1所述的双目立体视频的时空一致性分割方法，其特征在于，所述步骤D2中的边的权重为：

ω(e)＝exp(-α₁||E_T(e_a)-E_T(e_b)||-α₂||E_M(e_a)-E_M(e_b)||-α₁||E_D(e_a)-E_D(e_b)||)