CN103279961A

CN103279961A - 基于深度恢复和运动估计的视频分割方法

Info

Publication number: CN103279961A
Application number: CN201310197108XA
Authority: CN
Inventors: 章国锋; 鲍虎军; 孙佰贵; 熊君君
Original assignee: Zhejiang University ZJU; Beijing Samsung Telecommunications Technology Research Co Ltd
Current assignee: Zhejiang University ZJU; Beijing Samsung Telecommunications Technology Research Co Ltd
Priority date: 2013-05-22
Filing date: 2013-05-22
Publication date: 2013-09-04

Abstract

本发明公开了一种基于深度恢复和运动估计的视频分割方法。它的步骤如下：1）通过用单应性矩阵估计或利用视频序列一致性深度恢复方法恢复出的相机运动以及稠密深度图获得背景相减量度；2）稠密运动估计，为连续的两帧图像估计其稠密运动场d和遮挡图o；3）根据交互制定的多个量度的结合策略来计算视频分割结果；4）重复步骤3)两遍以上后结束。首先，本发明能够通过运动、深度和分割信息的迭代优化，对视频进行分割。其次，本发明无须估计摄像机参数和深度信息，就能对背景做平面运动的视频进行分割。最后，本发明是多量度结合的视频分割方法，能对各种量度的准确率进行衡量，筛选出可靠的量度参加视频分割计算。

Description

基于深度恢复和运动估计的视频分割方法

技术领域

本发明涉及视频分割方法，尤其涉及一种基于深度恢复和运动估计的视频分割方法。

背景技术

视频分割是指按一定规则将视频中每一帧分割成若干区域，它在模式识别、计算机视觉、视频检索、场景识别等领域有着广泛的应用。视频分割是在图像分割的基础上发展而来的，传统的图像分割算法一般基于图像的颜色、边缘、纹理等量度进行分割。视频分割中一个难点就是相机和物体都可能运动，而且运动组成比较复杂（可能既有平移也有旋转）。双层视频分割是将视频中每帧的图像划分为前景和背景两块区域的视频分割。

对于相机几乎是静止的或者背景是已知或可以容易建模的情况，已经有不少自动双层分割的工作，比如A.Criminisi,G.Cross,A.Blake,and V.Kolmogorov,“Bilayer Segmentation ofLive Video,”Proc.IEEE CS Conf.Computer Vision and Pattern Recognition,vol.1,pp.53-60,2006.和A.M.Elgammal,D.Harwood,and L.S.Davis,“Non-Parametric Model for BackgroundSubtraction,”Proc.European Conf.Computer Vision,vol.2,pp.751-767,2000.还有J.Sun,W.Zhang,X.Tang,and H.-Y.Shum,“Background Cut,”Proc.European Conf.Computer Vision,vol.2,pp.628-641,2006。A.Criminisi等人和J.Sun等人提出了两种利用不同的空间以及时域先验对网络视频进行前景估计的方法。然而，以上这些方法都不能处理相机运动是任意的或者背景几何复杂的情况。为了获得高质量的前景抽取，一些学者提出了若干基于交互的图像/视频分割技术，如Y.-Y.Chuang,A.Agarwala,B.Curless,D.Salesin,and R.Szeliski,“Video Matting ofComplex Scenes,”ACM Trans.Graphics,vol.21,no.3,pp.243-248,2002，Y.Li,J.Sun,and H.-Y.Shum,“Video Object Cut and Paste,”ACM Trans.Graphics,vol.24,no.3,pp.595-600,2005，还有X.Bai,J.Wang,D.Simons,and G.Saprio,“Video Snapcut:Robust Video Object Cutout UsingLocalized Classifiers,”ACM Trans.Graphics,vol.28,no.3,2009和Brian L.Price,Bryan S.Morse,and Scott Cohen,“LIVEcut:Learning-based interactive video segmentation by evaluation ofmultiple propagated cues,”ICCV2009:779-786等。大部分分割技术只利用了颜色和对比度信息，而且往往假设拍摄相机基本静止不动。对于一些具有挑战性的视频序列，往往需要频繁的用户交互。在Z.Dong,L.Jiang,G.Zhang,Q.Wang,and H.Bao,“Live Video Montage with aRotating Camera,”Computer Graphics Forum,vol.28,no.7,pp.1745-1753,2009.中董等人提出了一种快速的双层分割方法，它能有效的将动态物体提取出来，但是这个方法要求相机必须是旋转的。章国锋等人提出了一个自动的视频分割方法，通过鲁棒的运动和深度估计，可以将运动的物体从手持摄像机拍摄的视频序列中高质量地抽取出来。该方法可以适用于各种相机运动类型的视频，背景场景的几何很复杂。但是对于前景运动幅度不大的情况，由于背景信息难以可靠地估计，因此该方法无法有效地提取出运动物体。

发明内容

本发明目的是克服现有技术的不足，提供一种基于深度恢复和运动估计的视频分割方法。

基于深度恢复和运动估计的视频分割方法步骤如下：

1）通过用视频序列一致性深度恢复方法恢复出的视频序列的相机运动及稠密深度图或单应性矩阵估计来获得任意两帧之间的映射关系，对于任意一个视频序列，如果背景场景是平面运动，那么将用单应性矩阵变换来表示图像变换，如果背景场景不是平面运动，利用视频序列一致性深度恢复方法恢复出的视频序列的相机运动及稠密深度图，将任意一帧Iⁱ图像中的像素投到I^j图像上，进行包括背景相减量度在内的多种量度的计算；

2）稠密运动估计，为连续的两帧图像估计其稠密运动场d和遮挡图o。

3）根据交互制定的包括形状先验在内的多个量度的结合策略来计算能量函数中的数据项并计算空间平滑项

以及时域平滑项

通过GraphCut方法求解能量函数

E_{B} (α) = Σ_{t = 1}^{n} \underset{x &Element; I^{t}}{Σ} (E_{d} (α_{x}^{t}) + λ_{S} \underset{y &Element; N (x)}{Σ} E_{s} (α_{x}^{t}, α_{y}^{t}) + λ_{T} G (α_{x}^{t}))

获得分割结果，其中λ_s和λ_T为权重系数，取值为λ_s=0.5，λ_T=0.3；

4）重复步骤3)两遍以上后结束。

步骤1）中的单应性矩阵变换为：

1）如果视频中，背景的运动是平面运动，那么就求得任意两帧之间的单应性矩阵变换H_i,j，它是一个3x3的矩阵，利用单应性矩阵进行映射如下所示：

[\begin{matrix} x^{'} \\ y^{'} \\ 1 \end{matrix}] ~ [\begin{matrix} h_{11} & h_{12} & h_{13} \\ h_{21} & h_{22} & h_{23} \\ h_{31} & h_{32} & h_{33} \end{matrix}] [\begin{matrix} x \\ y \\ 1 \end{matrix}]

即将第i帧图像上的(x,y)点映射到第j帧图像上的(x’,y’)点；

2）根据两帧之间的单应性矩阵H_i,j，将任意一帧Iⁱ图像中的像素投到I^j图像上，进行包括运动一致性量度、背景相减量度、局部颜色概率统计量度、局部颜色概率统计量度的计算，然后通过GraphCut方法求解如下能量函数：

E_{B} (α) = Σ_{t = 1}^{n} \underset{x &Element; I^{t}}{Σ} (E_{d} (α_{x}^{t}) + λ_{S} \underset{y &Element; N (x)}{Σ} E_{s} (α_{x}^{t}, α_{y}^{t}) + λ_{T} G (α_{x}^{t}))

来获得分割结果。

步骤3）中的形状先验为：

1）利用SnapCut中的方法将某一帧图像上的前景蒙版传递到其它帧图像上，同时在前景轮廓边界区域生成一组局部分类器，将初始前景蒙版以及局部分类器也传播到其它帧图像上，计算其概率图，在前景非边界区域，没有被局部分类器覆盖到的，但有被前景蒙版传播到的区域，其概率值直接取为1.0；在前景边界区域，其概率值根据如下公式：

p_{boundaryF} (x) = \frac{Σ_{k} p_{ClassifierF}^{k} (x) {(| x - c_{k} | + ϵ)}^{- 1}}{Σ_{k} {(| x - c_{k} | + ϵ)}^{- 1}}

计算得到，其中，

和SnapCut方法中的公式5的定义一致，k是局部分类器的的编号，对于像素点x来讲，k的取值范围是所有覆盖该像素点的局部分类器，ε是一个小值常量，取为0.1，c_k是第k个局部分类器的窗口中心，|x-c_k|代表像素点x到该窗口中心的距离，由任意一帧i图像上的形状先验传播到帧j图像上后得到的概率，如下公式所述：

p_{F}^{i - j} (x) = \{\begin{matrix} p_{boundaryF} (x), if x belongs to foreground boundary area . \\ 1, if x belongs to foreground but not boundary area . \\ 0, if x belongs to background area . \end{matrix}

如果在该帧图像上有多个形状先验传播过来，那么其最终概率公式为：

p_{F}^{j} (x) = \frac{Σ_{i} p_{F}^{i - j} (x)}{n},

其中n为传播到该帧的形状先验的数量，

为i帧图像传播到该帧j图像上的形状先验，对于前景运动幅度比较小的情况，将第一帧，即有正确前景蒙版的那一帧图像上的形状先验和前一帧图像上的形状先验传递到当前帧图像上来计算当前帧图像上的形状先验概率。

步骤3）中基于包括形状先验量度、运动一致性量度、背景相减量度、局部颜色概率统计量度、局部颜色概率统计量度，多量度结合的视频分割方法：

根据图像之间的映射关系，将任意一帧I^t图像的相邻2l帧图像，也就是{I^t-l,...,I^t+l}投射到I^t帧图像上，利用手持摄像机拍摄视频的运动/深度估计以及分割中的方法求得背景相减量度L_c，局部颜色概率统计量度L_lg，运动一致性量度L_m；另外，还计算了全局颜色统计概率统计量度L_gg以及形状先验量度L_s，其中，

1）背景相减量度：将I^t帧图像的相邻2l帧{I^t-l,...,I^t+l}图像投射到I^t帧图像上来，那么对于I^t帧图像上的任意一像素点x，得到一系列外观一致性误差

和视差一致性误差

，根据公式：

{\overset{&OverBar;}{A}}^{t} (x) = median {A^{t - l, t} (x), . . ., A^{t + l, t} (x)} .

{\overset{&OverBar;}{D}}^{t} (x) = median {D^{t - l, t} (x), . . ., D^{t + l, t} (x)} .

利用中值滤波得到滤波后的外观一致性误差

和视差一致性误差

，基于公式：

L_{c} (α_{x}^{t} = 0) = \frac{{\overset{&OverBar;}{A}}^{t} (x)}{{\overset{&OverBar;}{A}}^{t} (x) + δ_{c}},

L_{c} (α_{x}^{t} = 1) = \frac{δ_{c}}{{\overset{&OverBar;}{A}}^{t} (x) + δ_{c}},

计算得到背景相减量度，其中δ_c是控制其被标记为前景还是背景的标记阀值，当

时就会有

这表示x像素点更有可能是动态前景像素点，δ_c的取值为5～13。

2）局部颜色概率统计量度之背景高斯混合模型建模：通过将相邻帧图像投影过来并采用中值滤波估计出背景图像，并采用快速数字图像补全方法将其补全，用MeanShift算法对其进行分割，在每个分割块S_k上估计得到一个高斯分布

3）运动一致性量度：利用手持摄像机拍摄视频的运动/深度估计以及分割中方法得到的光流信息，计算得到任意一个像素点的前向跟踪轨迹

和后向跟踪轨迹

另外，利用深度或单应性矩阵信息，同样得到对应的前向跟踪轨迹

和后向跟踪轨迹

然后用公式：

M^t(x)=min(f(X^F,X'^F),f(X^B,X'^B))

计算得到前景/背景可信度，其中

f (X^{F}, X^{' F}) = \max_{t = i + 1, . . ., r} | | x^{t} - x^{' t} | |, f (X^{B}, X^{' B}) = \max_{t = l, . . ., i - 1} | | x^{t} - x^{' t} | |,

将运动一致性误差M和视差一致性误差

结合起来，用公式：

L_{m} (α_{x}^{t} = 0) = \max {\frac{M^{t} (x)}{M^{t} (x) + δ_{m}}, \frac{{\overset{&OverBar;}{D}}^{t} (x)}{{\overset{&OverBar;}{D}}^{t} (x) + δ_{d}}},

L_{m} (α_{x}^{t} = 1) = 1 - L_{m}^{t} (α_{x}^{t} = 0) .

来计算基于运动一致性量度，其中，δ_d和δ_m是两个阀值，δ_d=0.2(D_max-D_min)，δ_m=8～10，D_max和D_min分别为最大视差值和最小视差值。从以上公式看出，只有当M和同时都小的时候，更偏向于将该像素点划分到背景层。

4）全局颜色概率统计量度：假设视频序列中的第一帧图像有正确的前景蒙版，根据第一帧图像提供的前景蒙版，求得第一帧图像背景蒙版，根据第一帧图像的两个蒙版直接求得前景混合高斯模型以及背景高斯混合模型，其中全局前景高斯混合模型跟局部颜色概率统计量度中的前景高斯混合模型一致；

5）基于多量度结合的数据项计算：为了计算各种量度的准确率，以鲁棒地剔除不可靠量度，从中筛选出最可靠的量度进行分割计算。利用各个量度在第一帧图像生成的结果与真实结果进行对比，以此作为各个量度的准确率，在一开始的一些帧的图像上，对于画面运动比较大的序列为10帧，画面基本静止的序列更多一些，选择准确率最高的量度作为数据项，而对于后续帧的图像，则采用投票的方式，即中值滤波，选出最可靠的量度来作为数据项。

6）时空一致性分割优化：根据计算得到的数据项E_d，并结合手持摄像机拍摄视频的运动/深度估计以及分割中提出的空域平滑项E_s和时域平滑项G，构造出如下能量函数：

E_{B} (α) = Σ_{t = 1}^{n} \underset{x &Element; I^{t}}{Σ} (E_{d} (α_{x}^{t}) + λ_{S} \underset{y &Element; N (x)}{Σ} E_{s} (α_{x}^{t}, α_{y}^{t}) + λ_{T} G (α_{x}^{t})),

其中λ_s和λ_T为权重系数，取值为λ_s=0.5，λ_T=0.3。用GraphCut方法来求解该能量方程，得到分割结果。

本发明首先能够通过运动、深度和分割信息的迭代优化，对视频进行分割。其次，无须估计摄像机参数和深度信息，就能对背景做平面运动的视频进行分割。最后，是多量度结合的视频分割方法，能对各种量度的准确率进行衡量，筛选出可靠的量度参加视频分割计算。

附图说明

图1(a)是形状先验传播中的第一帧图像的前景模板；

图1(b)是根据图1(a)生成的前景轮廓；

图1(c)是根据图1(b)在轮廓周围前景边界区域生成的局部分类器；

图1(d)是传播到下一帧的局部分类器；

图1(e)传播到下一帧的前景蒙版；

图1(f)结合图1(d)和图1(e)计算得到的概率图；

图2(a)是“IronMan-Stark_Phone”视频中提取出的一张图像；

图2(b)是“IronMan-Stark_Phone”视频中提取出的一张图像；

图2(c)是“IronMan-Stark_Phone”视频中提取出的一张图像；

图2(d)是手持摄像机拍摄视频的运动/深度估计以及分割方法的分割结果；

图2(e)是手持摄像机拍摄视频的运动/深度估计以及分割方法的分割结果；

图2(f)是手持摄像机拍摄视频的运动/深度估计以及分割方法的分割结果；

图2(g)是图2(a)在本发明中得到的分割结果，采用了背景相减，单形状先验，全局颜色概率统计这三个量度；

图2(h)是图2(b)在本发明中得到的分割结果，采用了背景相减，单形状先验，全局颜色概率统计这三个量度；

图2(i)是图2(c)在本发明中得到的分割结果，采用了背景相减，单形状先验，全局颜色概率统计这三个量度；

图3(a)是“Tranformers-Planes”视频中提取出的一张图像；

图3(b)是“Tranformers-Planes”视频中提取出的一张图像；

图3(c)是“Tranformers-Planes”视频中提取出的一张图像；

图3(d)是图3(a)在本发明中得到的分割结果，使用单应性矩阵变换来求解映射关系，并采用了背景相减，单形状先验，局部颜色概率统计这三个量度；；

图3(e)是图3(b)在本发明中得到的分割结果，使用单应性矩阵变换来求解映射关系，并采用了背景相减，单形状先验，局部颜色概率统计这三个量度；

图3(f)是图3(c)在本发明中得到的分割结果，使用单应性矩阵变换来求解映射关系，并采用了背景相减，单形状先验，局部颜色概率统计这三个量度。

具体实施方式

本发明提出了一种基于运动和深度估计的视频分割框架，通过运动、深度和分割信息的迭代优化，实现了鲁棒的运动物体抽取。特别针对背景做平面运动的视频序列，提出了一种基于单应性矩阵计算的视频分割算法，无须估计摄像机参数和深度信息，就能将运动的物体准确地分割出来。最后，本发明提出了一种基于包括形状先验、运动一致性、背景相减、局部颜色概率统计、全局颜色概率统计等多量度结合的视频分割算法，能够对各种量度的准确率进行衡量，鲁棒地剔除不可靠量度，以筛选出最可靠的量度进行分割计算。拍摄的相机可以任意运动。本发明能处理各种相机运动类型的序列，甚至前景运动幅度很小的情况也能有效地处理。

基于深度恢复和运动估计的视频分割方法步骤如下：

3）根据交互制定的包括形状先验在内的多个量度的结合策略来计算能量函数中的数据项

并计算空间平滑项

以及时域平滑项

，通过GraphCut方法求解能量函数

E_{B} (α) = Σ_{t = 1}^{n} \underset{x &Element; I^{t}}{Σ} (E_{d} (α_{x}^{t}) + λ_{S} \underset{y &Element; N (x)}{Σ} E_{s} (α_{x}^{t}, α_{y}^{t}) + λ_{T} G (α_{x}^{t}))

4）重复步骤3)两遍以上后结束。

步骤1）中的单应性矩阵变换为：

[\begin{matrix} x^{'} \\ y^{'} \\ 1 \end{matrix}] ~ [\begin{matrix} h_{11} & h_{12} & h_{13} \\ h_{21} & h_{22} & h_{23} \\ h_{31} & h_{32} & h_{33} \end{matrix}] [\begin{matrix} x \\ y \\ 1 \end{matrix}]

即将第i帧图像上的(x,y)点映射到第j帧图像上的(x’,y’)点；

E_{B} (α) = Σ_{t = 1}^{n} \underset{x &Element; I^{t}}{Σ} (E_{d} (α_{x}^{t}) + λ_{S} \underset{y &Element; N (x)}{Σ} E_{s} (α_{x}^{t}, α_{y}^{t}) + λ_{T} G (α_{x}^{t}))

来获得分割结果。

步骤3）中的形状先验为：

p_{boundaryF} (x) = \frac{Σ_{k} p_{ClassifierF}^{k} (x) {(| x - c_{k} | + ϵ)}^{- 1}}{Σ_{k} {(| x - c_{k} | + ϵ)}^{- 1}}

计算得到，其中，

p_{F}^{i - j} (x) = \{\begin{matrix} p_{boundaryF} (x), if x belongs to foreground boundary area . \\ 1, if x belongs to foreground but not boundary area . \\ 0, if x belongs to background area . \end{matrix}

p_{F}^{j} (x) = \frac{Σ_{i} p_{F}^{i - j} (x)}{n},

其中n为传播到该帧的形状先验的数量，

和视差一致性误差

，根据公式：

{\overset{&OverBar;}{A}}^{t} (x) = median {A^{t - l, t} (x), . . ., A^{t + l, t} (x)} .

{\overset{&OverBar;}{D}}^{t} (x) = median {D^{t - l, t} (x), . . ., D^{t + l, t} (x)} .

利用中值滤波得到滤波后的外观一致性误差

和视差一致性误差

，基于公式：

L_{c} (α_{x}^{t} = 0) = \frac{{\overset{&OverBar;}{A}}^{t} (x)}{{\overset{&OverBar;}{A}}^{t} (x) + δ_{c}},

L_{c} (α_{x}^{t} = 1) = \frac{δ_{c}}{{\overset{&OverBar;}{A}}^{t} (x) + δ_{c}},

计算得到背景相减量度，其中δ_c是控制其被标记为前景还是背景的标记阀值，当时就会有

和后向跟踪轨迹

和后向跟踪轨迹

然后用公式：

M^t(x)=min{f(X^F，X'^F)，f(X^B，X'^B)}

计算得到前景/背景可信度，其中

f (X^{F}, X^{' F}) = \max_{t = i + 1, . . ., r} | | x^{t} - x^{' t} | |, f (X^{B}, X^{' B}) = \max_{t = l, . . ., i - 1} | | x^{t} - x^{' t} | |,

将运动一致性误差M和视差一致性误差

结合起来，用公式：

L_{m} (α_{x}^{t} = 0) = \max {\frac{M^{t} (x)}{M^{t} (x) + δ_{m}}, \frac{{\overset{&OverBar;}{D}}^{t} (x)}{{\overset{&OverBar;}{D}}^{t} (x) + δ_{d}}},

L_{m} (α_{x}^{t} = 1) = 1 - L_{m}^{t} (α_{x}^{t} = 0) .

来计算基于运动一致性量度，其中，δ_d和δ_m是两个阀值，δ_d=0.2(D_max-D_min)，δ_m=8～10，D_max和D_min分别为最大视差值和最小视差值。从以上公式看出，只有当M和

同时都小的时候，更偏向于将该像素点划分到背景层。

E_{B} (α) = Σ_{t = 1}^{n} \underset{x &Element; I^{t}}{Σ} (E_{d} (α_{x}^{t}) + λ_{S} \underset{y &Element; N (x)}{Σ} E_{s} (α_{x}^{t}, α_{y}^{t}) + λ_{T} G (α_{x}^{t})),

实施例

1.求解映射关系

为了将任意一帧图像Iⁱ映射到另一帧图像I^j上，必须求解出图像Iⁱ和图像I^j之间的变换关系。本发明针对视频序列背景场景运动的不同情况提出了两种不同的算法。当场景不是平面运动的时候，利用视频序列一致性深度恢复的方法估计出每一帧图像的相机运动及其稠密深度图，然后根据相机参数和深度信息可以将任意一帧Iⁱ中的像素投到I^j图像上。当背景场景做平面运动的时候，我们通过估计图像之间的单应性矩阵来进行图像之间的映射。先估计连续帧之间的单应性矩阵。采用KLT方法为连续帧抽取特征点并进行匹配，并根据初始的分割结果尽可能排除运动物体上的匹配点，以避免对背景运动的估算进行干扰。对于任意两帧i和j，只要有不少于3个匹配点，就可以估计出它们之间的单应性矩阵变换H_i,j。在求得单应性变换矩阵之后，不用相机参数以及深度信息我们就可以将Iⁱ帧映射到I^j帧，有单应性矩阵变换参与的分割结果如图3所示。

2.稠密运动估计

采用手持摄像机拍摄视频的运动/深度估计以及分割方法或其它可替代光流算法为连续的两帧图像估计其稠密运动场和遮挡图。

3.双层分割（Bilayer Segmentation）

根据章节1中求得的映射关系，将任意一帧I^t的相邻2l帧，也就是{I^t-l,...,I^t+l}映射到I^t帧，然后利用手持摄像机拍摄视频的运动/深度估计以及分割中方法求得背景相减量度L_c，局部颜色概率统计量度L_lg，以及运动一致性量度L_m。另外再计算全局颜色统计概率统计量度L_gg以及形状先验量度L_s，与之前方法的比较结果如图2-3所示。

3.1.背景相减量度

用

表示I^t帧的任意相邻帧

映射到I^t帧之后的图像。对I^t帧任意位置上的像素x，它跟

帧的外观一致性误差可以定义为公式：

A^{t^{'}, t} (x) = \frac{1}{| W |} \min_{x^{'}} \underset{y &Element; W}{Σ} | | I^{t} (x + y) - {\hat{I}}^{t^{'}, t} (x^{'} + y) | |,

其中，W是一个3×3的窗口用于块匹配，x′是在帧上找到的与x距离在r之内的最佳块匹配的中心位置，一般r取为3。视差一致性误差可以类似地定义如下：

D^{t^{'}, t} (x) = \frac{1}{| W |} \min_{x^{'}} \underset{y &Element; W}{Σ} | D^{t} (x + y) - {\hat{D}}^{t^{'}, t} (x^{'} + y) | .

如果将I^t帧的相邻2l帧{I^t-l,...,I^t+l}映射到I^t帧上来，那么对于I^t帧上的任意一个像素x，可以得到其一系列外观一致性误差

和视差一致性误差

。然后进行中值滤波：

{\overset{&OverBar;}{A}}^{t} (x) = median {A^{t - l, t} (x), . . ., A^{t + l, t} (x)} .

{\overset{&OverBar;}{D}}^{t} (x) = median {D^{t - l, t} (x), . . ., D^{t + l, t} (x)} .

基于滤波后的外观一致性误差和视差一致性误差

，定义层概率如下：

L_{c} (α_{x}^{t} = 0) = \frac{{\overset{&OverBar;}{A}}^{t} (x)}{{\overset{&OverBar;}{A}}^{t} (x) + δ_{c}},

L_{c} (α_{x}^{t} = 1) = \frac{δ_{c}}{{\overset{&OverBar;}{A}}^{t} (x) + δ_{c}},

其中δ_c是控制其被标记为前景还是背景的阀值，当时就会有

这表示x像素点更有可能是动态前景像素点，δ_c=5～13。

3.2.局部颜色概率统计量度

对于每一个参考帧t，将其若干相邻帧，剔除前景像素点后的图像，映射到t帧上，那么对于t帧上的任意一个像素点，得到多个投影点。用中值滤波法估计得到一张背景图

。对于被遮挡而在背景估计图

上丢失的区域，利用简单的补全方法快速数字图像补全方法将其补全。然后，利用MeanShift算法对这张补全后的背景估计图进行过分割（Over Segmentation），之后在每一个分割块S_k上估计得到一个高斯分布

对于每一个像素点，在它的局部窗口中去搜索适用与它的一个颜色分布，然后根据公式：

p (α_{x}^{t} = 0) = \max_{j = 1}^{l} N (I^{t} (x) | μ_{m_{j}}^{b}, Σ_{m_{j}}^{b}),

计算其背景颜色概率。其中l是其局部窗口中背景样本点的个数，m_j表示每个样本点对应的高斯簇。

根据第一帧提供的前景蒙版，对其建立一个前景颜色高斯混合模型。然后对于任意一个像素点，根据公式：

p (α_{x}^{t} = 1) = Σ_{k = 1}^{K_{f}} w_{k}^{f} N (I_{x}^{t} | μ_{k}^{f}, Σ_{k}^{f}),

计算得到其前景概率。其中，

是高斯混合模型中的第k个组件（component），是该组件的相应权重，K_f是该高斯混合模型组件的个数取为7。

最后，根据以下公式：

L_{g} (α_{x}^{t}) = \frac{\log p (α_{x}^{t})}{\log p (α_{x}^{t} = 0) + \log p (α_{x}^{t} = 1)},

得到基于局部颜色概率统计量度的层概率。

3.3.运动一致性量度

有了估计得到的光流图，对t帧中的每一个像素点x，对其在相邻帧中进行前向以及后向链接，最终对每一个像素点x可以得到一个运动轨迹。为了减少在这个过程中形成的累积误差，将跟踪帧数设置为前后各10帧。在跟踪过程中，当像素点x被遮挡或是其光流一致性误差超过了一定的阀值，也就是

τ取为2～3。那么在像素点x和x'之间断掉其链接。这里，像素点x'是像素点x在t+1帧里的对应点，其关系可以表示为x′=x+d^t,t+1(x)，d^t,t+1(x)表示点x的光流，t到t+1帧。任意帧t上的任意像素点x的前向以及后向跟踪可以各自表示为和

此外，根据恢复的深度图或单应性矩阵，通过投影每个像素点到其它帧上的方式来得到对应的前向跟踪

和后向跟踪

如果像素点x是一个静态点，那么根据深度或单应性矩阵和光流两个不同的量度计算得到的在相邻帧上的两个对应点应该非常接近。通过比较两者各自生成的前向跟踪和后向跟踪，选择出具有最小差别的一个跟踪来测量其前景/背景可信度，如公式：

M^t(x)=min(f(X^F,X'^F),f(X^B,X'^B))，

其中

f (X^{F}, X^{' F}) = \max_{t = i + 1, . . ., r} | | x^{t} - x^{' t} | |, f (X^{B}, X^{' B}) = \max_{t = l, . . ., i - 1} | | x^{t} - x^{' t} | | .

如果M^t(x)比较大，则它可能就是前景像素点。

将运动一致性误差M和在3.1节中计算得到视差一致性误差

结合起来，然后用公式：

L_{m} (α_{x}^{t} = 0) = \max {\frac{M^{t} (x)}{M^{t} (x) + δ_{m}}, \frac{{\overset{&OverBar;}{D}}^{t} (x)}{{\overset{&OverBar;}{D}}^{t} (x) + δ_{d}}},

L_{m} (α_{x}^{t} = 1) = 1 - L_{m}^{t} (α_{x}^{t} = 0) .

来计算基于运动一致性量度的层概率。其中，δ_d和δ_m是两个阀值。δ_d=0.2(D_max-D_min)，δ_m=8～10。D_max和D_min分别为最大视差值和最小视差值。从以上公式可以看出，只有当M和

同时都小的时候，才更偏向于将该像素点划分到背景层。

3.4.全局颜色概率统计量度

对于很多序列，背景往往变化很小，因此对背景估计一个全局高斯混合模型。此外，局部的背景高斯混合模型由于运动或深度估计有时候不可靠可能会出现较大的偏差。相比而言，全局的背景高斯混合模型由于不受运动和深度估计影响，要稳定很多。根据第一帧已有的分割结果，采用3.2节中的方法分别估计出前景和背景的高斯混合模型，然后计算像素的层概率：

p_{g} (α_{x}^{t} = 1) = Σ_{k = 1}^{K_{f}} w_{k}^{f} N (I_{x}^{t} | μ_{k}^{f}, Σ_{k}^{f}),

p_{g} (α_{x}^{t} = 0) = Σ_{k = 1}^{K_{b}} w_{k}^{b} N (I_{x}^{t} | μ_{k}^{b}, Σ_{k}^{b}) .

其中，

是前景高斯混合模型中的第k个组件，

是该组件的相应权重，K_f是该高斯混合模型组件的个数取为7；

是背景高斯混合模型中的第k个组件，

是该组件的相应权重，K_b是该背景高斯混合模型组件的个数取为7。

最后，根据以下公式进行归一化：

L_{gg} (α_{x}^{t}) = \frac{\log p_{g} (α_{x}^{t})}{\log p_{g} (α_{x}^{t} = 0) + \log p_{g} (α_{x}^{t} = 1)},

从而得到基于全局颜色概率统计量度的层概率

3.5.形状先验量度

由于已经知道了第一帧的前景蒙版，将该蒙版生成的形状先验传播到其它帧，以改善分割结果。跟SnapCut方法类似，形状先验传播包括以下四个步骤：

1.根据初始蒙版得到前景轮廓；

2.在前景边界区域生成一组局部分类器；

3.将初始蒙版以及局部分类器传播到其它帧；

4.计算概率图。

第一帧的前景蒙版见图1(a)，生成的前景轮廓以及局部分类器见图1(b)(c)。和SnapCut方法相似，首先先进行光流计算，然后在前景内对每个前景像素点计算局部窗口内的光流均值，然后将蒙版以及边界区域的局部分类器传播到其它帧去。图1(e)(d)分别为传播后的前景蒙版和局部分类器。

根据SnapCut方法中的公式(1)-(3)，计算得到在前景非边界区域（在图1(d)中局部分类器里的像素）的概率，计算公式如下：

p_{boundaryF} (x) = \frac{Σ_{k} p_{ClassifierF}^{k} (x) {(| x - c_{k} | + ϵ)}^{- 1}}{Σ_{k} {(| x - c_{k} | + ϵ)}^{- 1}}

其中，

和SnapCut方法中的公式3的定义一致（可以由其公式1-3推导得到），k是局部分类器的的编号（对于像素点x来讲，k的取值范围是所有覆盖该像素点的局部分类器），ε是一个小值常量取为0.1，c_k是第k个局部分类器的窗口中心（|x-c_k|代表像素点x到该窗口中心的距离）。另外，在非边界区域我们根据传播得到的前景蒙版来将其概率设为1或者0。最后，得到由任意一帧i的形状先验传播到帧j后得到的概率，如下公式所述：

在计算当前帧的形状先验的时候，将多帧的形状先验传递过来，以增强计算的形状先验的可靠性。如果对某一帧有多个形状先验传播过来，那么其最终概率公式为：

p_{F}^{j} (x) = \frac{Σ_{i} p_{F}^{i - j} (x)}{n}

其中n为传播到该帧的形状先验的数量，

为i帧直接传播到该帧j的形状先验。最后我们就可以得到基于形状先验量度的层概率了。通常情况下，只使用前一帧传播过来的形状先验。对于某些序列，由于前景的运动幅度很小，直接把第一帧的形状先验传播过来和前一帧的形状先验求平均。这可以显著改善分割结果，避免形状先验的误差累积，如图3所示。

3.6.多量度结合

尽管有五个对前景概率的不同量度，然而怎么去把它们综合起来仍然是一个非常具有挑战性的问题。因为，根据不同量度计算得到的量度对于不同的情况会表现出不同的准确率和可靠度，甚至某些量度在某些极端情况下会很不准确。因此，直接把这五个量度相加求平均是很不可靠的。事实上，并不是每个序列都需要用到这五个量度。比如，如果前景不怎么运动的情况下，背景无法准确估计，这时候背景相减量度和局部颜色概率统计就很不可靠。因此，拟采用用户手工选择的方式来选择使用全部量度或其中的几项，然后基于投票（即中值滤波）的方式选出最可靠的量度来生成分割数据项。如果只选用偶数项量度，那么系统会自动添加一个量度（前景概率和背景概率一致，即都是0.3），使得总数为奇数以方便投票。如果3个量度全用，那么用下面的公式，即中值滤波来生成数据项:

E_{d} (α_{x}^{t}) = median {L_{c} (α_{x}^{t}), L_{g} (α_{x}^{t}), L_{m} (α_{x}^{t}), L_{s} (α_{x}^{t}), L_{gg} (α_{x}^{t})}

此外，由于这些量度在同一个序列的不同帧中表现出不同的可靠性和准确率，因而如何去预测以及度量一个量度的准确率是至关重要的。因为第一帧已经有真实的分割结果，所以简单地利用各个量度在第一帧的结果与真实结果进行一个比较，然后给每个局部分类器所在的窗口赋予各个量度的准确率，其公式为

其中

代表第j个量度在第i个窗口中的准确率，

代表该窗口大小，

代表该量度在窗口w_i中预测正确的像素个数，将大于0.3的设置为前景，小于等于0.3的设置为背景。

在第一帧中，将各个局部窗口的形状先验量度的准确率都赋为1.0。随着它们传播到下一帧，预测得到下一帧各个局部分类器所在窗口内的各个量度的准确率了。由于这样的预测可能只在前面几帧内是准确的，因而设置一个整型变量N，用户可以根据需要调整其值：在前面N帧内，直接取准确率最高的量度来计算该像素点的数据项；对于后续的帧，则采用中值滤波的方式来计算每个像素点数据项。

下面是其它一些实现细节：

1)虽然在有些具有很大挑战性的视频序列中，很难得到非常鲁棒的运动一致性量度，但是一个像素点x，如果

很大的话，它极有可能就是前景像素点。因此设置一个阀值参数τ取值为0.7，如果

就直接认为这是一个前景像素点。当然这只作为一个可选功能，用户可以自主选择是否触发该功能。

2)在形状先验传播的过程中，在前景的边界周围可能会产生一些孤立的前景噪点。一旦出现这样的噪声区域，形状传播的准确率将会大受影响。通常情况下，在每个局部分类器所在的窗口内不能同时存在多块独立的前景区域。因此，如果出现这样的情况，就选择其中最大的一块区域作为前景而将其它的都设为背景。实验表明，这样的处理往往会使得分割的结果更加鲁棒。

3.7.构造能量方程求解

构造计算能量函数：

E_{B} (α) = Σ_{t = 1}^{n} \underset{x &Element; I^{t}}{Σ} (E_{d} (α_{x}^{t}) + λ_{S} \underset{y &Element; N (x)}{Σ} E_{s} (α_{x}^{t}, α_{y}^{t}) + λ_{T} G (α_{x}^{t})),

其中为3.3节中定义的数据项，

为空间平滑项，

为时域平滑项。

和

与手持摄像机拍摄视频的运动/深度估计以及分割方法中的定义是一样的。λ_S和λ_T为权重系数，一般λ_S＝0.5，λ_T＝0.3。由于

是一个二元值，采用GraphCut方法来求解这个能量函数。为了在有限的内存下能求解，同时求解3～10帧。比如先求解0-3帧，然后固定第3帧的α，求解3-10帧，一直到所有帧的α都求解完毕。解完一遍后，根据更新的α重新计算数据项和平滑项，然后重新求解α。

4.方法引用说明

视频序列一致性深度恢复：G.Zhang,J.Jia,T.-T.Wong,and H.Bao.Consistent depth mapsrecovery from a video sequence.IEEE Transactions on Pattern Analysis and Machine Intelligence,31(6):974–988,2009.

手持摄像机拍摄视频的运动/深度估计以及分割：Guofeng Zhang,Jiaya Jia,Wei Hua,and HujunBao.Robust Bilayer Segmentation and Motion/Depth Estimation with a Handheld Camera.IEEETransactions on Pattern Analysis and Machine Intelligence(TPAMI),33(3):603-617,2011.

快速数字图像补全：M.M.Oliveira,B.Bowen,R.McKenna,and Y.-S.Chang,“Fast Digital ImageInpainting,”Proc.Int’l Conf.Visualization Imaging and Image Processing,pp.261-266,2001.

GraphCut：Y.Boykov,O.Veksler,and R.Zabih,“Fast Approximate Energy Minimization viaGraph Cuts,”IEEE Trans.Pattern Analysis and Machine Intelligence,vol.23,no.11,pp.1222-1239,Nov.2001.

SnapCut：X.Bai,J.Wang,D.Simons,and G.Saprio,“Video Snapcut:Robust Video Object CutoutUsing Localized Classifiers,”ACM Trans.Graphics,vol.28,no.3,2009.

MeanShift：D.Comaniciu and P.Meer,“Mean Shift:A Robust Approach Toward Feature SpaceAnalysis,”IEEE Trans.Pattern Analysis and Machine Intelligence,vol.24,no.5,pp.603-619,May2002.

KLT：http://www.ces.clemson.edu/～stb/klt/.