CN103337082B

CN103337082B - 基于统计形状先验的视频分割方法

Info

Publication number: CN103337082B
Application number: CN201310197100.3A
Authority: CN
Inventors: 章国锋; 鲍虎军; 孙佰贵; 熊君君
Original assignee: Zhejiang University ZJU; Beijing Samsung Telecommunications Technology Research Co Ltd
Current assignee: Zhejiang University ZJU; Beijing Samsung Telecommunications Technology Research Co Ltd
Priority date: 2013-05-22
Filing date: 2013-05-22
Publication date: 2016-08-31
Anticipated expiration: 2033-05-22
Also published as: CN103337082A

Abstract

本发明公开了一种基于统计形状先验的视频分割方法。它的步骤如下：1）视频分割初始化；2）前景形状匹配以及对齐，并计算统计形状先验量度；3）基于统计形状先验量度，优化视频分割；4）重复步骤2)、步骤3)两遍以上后结束。本发明提出了一种全新的前景形状匹配以及对齐方法，它能够有效的抽取出视频中正确的前景局部相似形状以及前景整体相似形状。其次，本发明提出了一种全新的形状先验的统计方法，它可以被应用在任一视频分割方法中，以提高分割质量。最后，本发明还提出了一种基于结合包括统计形状先验量度、全局颜色概率统计量度、背景相减量度的视频分割算法，能够在前背景颜色相近的地方鲁棒的分割出前背景。

Description

基于统计形状先验的视频分割方法

技术领域

本发明涉及视频分割方法，尤其涉及一种基于统计形状先验的视频分割方法。

背景技术

视频分割是指按一定规则将视频中每一帧分割成若干区域，它在模式识别、计算机视觉、视频检索、场景识别等领域有着广泛的应用。视频分割是在图像分割的基础上发展而来的，传统的图像分割算法一般基于图像的颜色、边缘、纹理等量度进行分割。视频分割中一个难点就是相机和物体都可能运动，而且运动组成比较复杂（可能既有平移也有旋转）。双层视频分割是将视频中每帧的图像划分为前景和背景两块区域的视频分割。

Liu和Gleicher等人提出了一种利用运动信息估计出运动的子物体，然后利用这些检测出的子物体来建立前景颜色模型，从而帮助运动物体的分割。Sheikh等人提出了一种首先将得到的特征点跟踪轨迹分类成前景的以及背景的，然后可以根据稀疏的分类好的特征点跟踪轨迹来学习出外观颜色模型，来帮助运动物体的分割。章国锋等人提出了一个自动的视频分割方法，通过鲁棒的运动和深度估计，可以将运动的物体从手持摄像机拍摄的视频序列中高质量地抽取出来。该方法可以适用于各种相机运动类型的视频，背景场景的几何可以很复杂。很显然，以上提到的这些方法在分割运动物体与被遮挡的背景有相似颜色的区域的时候都会出现问题。Bai等人提出结合进形状先验来减少这样的分割二义性，但这种传播形状先验很容易会受到遮挡的影响。近来，章国峰等人提出了一种定向分类器来处理遮挡和时域不连贯性。在这些方法中，形状先验都是直接由时域上的上一帧或者下一帧产生的，在这种方式下形状信息随着一次次的传递将会变的越来越不可靠。一种解决方案是引入不可预期量的用户交互，显然这种解决方案非常耗时而且需要大量的人工劳动。

发明内容

本发明目的是克服现有技术的不足，提供一种基于统计形状先验的分割方法。

基于统计形状先验的视频分割方法步骤如下：

1）视频分割初始化；

2）前景形状匹配以及对齐，并计算统计形状先验量度；

3）基于统计形状先验量度，优化视频分割；

4）重复步骤2)、3)两遍以上后结束。

步骤2）中的前景形状匹配以及对齐，并计算统计形状先验量度为：

1）统计的全局形状先验

首先，在每一帧的前景蒙版轮廓上均匀采样轮廓点，称采样到的这些点为“关键点集”，对于每一个关键点p，分别用基于形状上下文进行形状匹配以及物体识别方法以及颜色直方图方法计算它的形状特征F_s(p)和外观特征h_p，

对任意两个关键点p和q，它们的特征距离根据如下公式计算：

D(p,q)＝||F_s(p)-F_s(q)||+λ₁d_int(h_p-h_q)

其中，||||表示欧几里得距离运算，λ₁表示权重取为10～20，d_int(h_p-h_q)是直方图相交距离，定义如下：

d_{int} (h_{p} - h_{q}) = \frac{\underset{R}{Σ} \underset{G}{Σ} \underset{B}{Σ} \min (h_{p} (r, g, b), h_{q} (r, g, b))}{\min (| h_{p} |, | h_{q} |)}

其中|h_p|和|h_q|分别是直方图向量h_p和h_q的大小；

给定t和t'帧中的两个轮廓C_t和C_t'，匹配关键点，将轮廓C_t和C_t'中采样得到的关键点集分别定义为V_t和V_t'，对于V_t中的点x，即x∈V_t，找到在V_t'中的最佳对应点，匹配关键点转化成在吉布斯能量函数上求解标定问题，公式如下：

E (L) = \underset{x &Element; V_{t}}{Σ} E_{1} (l (x)) + λ_{2} \underset{(x, y) &Element; ϵ}{Σ} E_{2} (l (x), l (y))

其中L表示标定集合{l(x)}，λ₂是一个权重取为5～10，每一个l(x)都是x像素点在t'帧中的最佳对应点，ε表示为相关关键点之间的连接集合，E₁(l(x))是数据项，其定义如下：

E₁(l(x))＝D(x,l(x))

其中E₂(l(x),l(y))是连续标定平滑项，定义如下：

E₂(l(x),l(y))＝|(Ind_x-Ind_y)%K-(Ind_l(x)-Ind_l(y))%K|

其中，Ind_x表示关键点x在V_t中的索引号，K是该关键点集的大小；

关键点集在边界上是呈现链状结构的，用动态规划来快速求解E(L)的最小化以求得最佳L，采用RANSAC方法计算得到t帧图像与t'帧图像之间的最佳前景单应性矩阵H_t,t'，就将任意一帧的前景轮廓精确的对齐到另一帧上去；

将从前景区域S_t'对齐到前景区域S_t后的前景区域定义为S_t'-＞t，相似度按如下公式计算：

S(t,t')＝S_t∩S_t'-＞t/max(S_t,S_t'-＞t)

其中S_t∩S_t'-＞t是S_t和S_t'-＞t之间的共同区域，max(S_t,S_t'-＞t)用作归一化处理，如果S(t,t')＞τ，τ取为0.75～0.95，那么S_t和S_t'就足够相似；

对任意一帧t，从其他帧中选出足够相似的前景区域，将这些前景区域统统对齐到t帧上，由如下公式计算出对齐得到的前景概率，定义如下：

p_{t^{'} - > t}^{g} = \{\begin{matrix} 1, x &Element; S_{t^{'} - > t} \\ 0.5, x &NotElement; S_{t^{'} - > t}^{*} \\ 0, otherwise \end{matrix}

其中，表示S_t'-＞t区域扩张r个像素点后的区域，将形状先验限制在区域内；对于之外其他的区域，其形状先验是无效的，将其设为0.5，再基于一个常识来处理颜色相似的问题：若边界附近的像素点越相似，其颜色对照就越小；由此，基于颜色对照的概率可信度定义如下：

w_{t^{'} - > t} (x) = \frac{1}{Z} \underset{p &Element; C_{t^{'} - > t}}{Σ} \frac{1}{{| | x - p | |}^{2}} (1 - \exp (- \frac{Δ I_{t^{'} - > t} {(p)}^{2}}{2 σ_{c}^{2}}))

其中，C_t'-＞t和I_t'-＞t分别表示从t'图像对齐到t图像的轮廓和整张图像，Z＝Σ||x-p||^-2是归一化项，Δ是拉普拉斯算子，σ_c是一个参数取为5～15；

通过自适应的置信度将相似的对齐形状结合起来后，得到统计的全局形状先验，t帧的全局形状先验定义如下：

p_{t}^{g} (x) = \frac{1}{\underset{t^{'}}{Σ} w_{t^{'} - > t} (x)} \underset{t^{'}}{Σ} w_{t^{'} - > t} (x) p_{t^{'} - > t}^{g} (x)

最终，通过高斯滤波将形状先验边界附近平滑一下；

2）统计的局部形状先验

对任意的帧图像对(t,t')，经过全局匹配后，帧图像t'上的邻接关键点匹配到了帧图像t上的连续对应点，也就是：

(Ind_x-Ind_y)%K≈(Ind_l(x)-Ind_l(y))%K

其中，K是关键点的个数，将具有相似平面变化的邻接轮廓段合并起来，对于t'帧图像上的每两个前景子轮廓和，合并后的子轮廓定义为，在t帧图像上对应的子轮廓为，假设包含K个关键点，其集合定义为{x_k}，和之间平均的对齐错误根据如下公式计算得到：

ϵ_{c_{t^{'}}^{i, i + 1} - > c_{t}^{i, i + 1}} = \sqrt{\frac{1}{K} Σ_{k = 1}^{K} {| | x_{k} - H_{c_{t^{'}}^{i, i + 1} - > c_{t}^{i, i + 1}} x_{k}^{'} | |}^{2}}

其中x'_k是x_k的对应点，是最小化后得到的最优单应性矩阵，如果τ_ε取为1～3，那么合并两个子轮廓，一直执行直到没有邻接的子轮廓再可以合并了为止；

对于任意一个子轮廓，它的单应性矩阵以及平均对齐误差分别为H_i和ε_i，如果，有另外一个子轮廓，使得和之间的关键点个数小于阀值取为5～10，根据在中所有被匹配到的关键点估计得到单应性矩阵H'，其平均的对齐误差为ε'，如果对齐误差ε'＜max{ε_i,ε_j}，那么和之间的非连续性就是由于偶然的分割误差导致的，在这种情况下将，以及它们之间的关键点合并起来；

对于每一个合并后留下的子轮廓，用Graham Scan方法在子轮廓上计算得到最小的凸包U，通过求交操作使得U＝S_t'∩U，这样U就是S_t'的子区域了，将U按r个像素点扩张，得到最终的用来映射的子区域U^*，将它映射到其他帧上，用来计算统计的局部形状先验；

得到在每一帧t'的可匹配的局部区域U^*后，将它映射到t帧上，那么对应的局部形状先验根据如下公式计算得到：

通过匹配相似的局部形状以及将它们用自适应的权重结合起来；

基于从其他帧对齐过来的局部形状，t帧上的统计局部形状先验按如下公式计算：

p_{t}^{l} (x) = \frac{1}{\underset{t^{'}}{Σ} w_{t^{'} - > t} (x)} \underset{t^{'}}{Σ} w_{t^{'} - > t} (x) p_{t^{'} - > t}^{l} (x)

在形状边界上用高斯滤波平滑下；

步骤3）中的基于统计形状先验量度，优化视频分割：

首先通过权重将全局以及局部形状先验结合起来，按如下公式结合：

p_{t}^{c} = λ_{sh} * p_{t}^{g} + (1 - λ_{sh}) p_{t}^{l}

其中，λ_sh是权重一般取为5～10，那么统计形状先验量度按如下公式计算：

其中，w_s是自适应的权重，定义如下：

w_{s} = \{\begin{matrix} \frac{1}{| W (x) |} \underset{y &Element; W (x)}{Σ} \exp (- \frac{{| | Δ I_{t} (y) | |}^{2}}{2 σ_{c}^{2}}), x &Element; Ω (C_{t}) \\ 1, x &NotElement; Ω (C_{t}) \end{matrix}

其中，W(x)是以像素点x为中心的小窗口，σ_c是参数一般取为5～15，Ω(C_t)表示分割边界附近的狭窄区域，那么最后的数据项定义如下：

E'_d(α_t(x))＝median{L_s,L_g,L_sh}

通过用E'_d(α_t(x))替换掉之前的数据项，求解新的能量方程，得到更好的分割结果，利用这个结果来更新形状先验，重复以上过程两遍以上。

本发明提出了一种全新的前景形状匹配以及对齐方法，它能够有效的抽取出视频中正确的前景局部相似形状以及前景整体相似形状。其次，本发明提出了一种全新的形状先验的统计方法，它可以被应用在任一视频分割方法中，以提高分割质量。最后，本发明还提出了一种基于结合包括统计形状先验量度、全局颜色概率统计量度、背景相减量度的视频分割算法，能够在前背景颜色相近的地方鲁棒的分割出前背景。

附图说明

图1(a)是序列中抽出的三张原始图像；

图1(b)是三张对应的初始的分割结果；

图1(c)是三张对应的结合统计的形状先验后得到的优化的分割结果；

图1(a)中上面是一张原图，下面是对应的分割结果；

图1(b)中上面是前背景及其相似的一张原图，下面的对应的分割结果；

图1(c)是图1(b)的放大效果图；

图2(a)中上面是一张原图，下面是对应的分割结果；

图2(b)中上面是前背景及其相似的一张原图，下面的对应的分割结果；

图2(c)是图2(b)的放大效果图。

具体实施方式

首先，本发明提出了一种全新的前景形状匹配以及对齐方法，它能够有效的抽取出视频中正确的前景局部相似形状以及前景整体相似形状。其次，本发明提出了一种全新的形状先验的统计方法，它可以被应用在任一视频分割方法中，以提高分割质量。最后，本发明还提出了一种基于结合包括统计形状先验量度、全局颜色概率统计量度、背景相减量度的视频分割算法，能够在前背景颜色相近的地方鲁棒的分割出前背景。

基于统计形状先验的视频分割方法步骤如下：

1）视频分割初始化；

2）前景形状匹配以及对齐，并计算统计形状先验量度；

3）基于统计形状先验量度，优化视频分割；

4）重复步骤2)、3)两遍以上后结束。

1）统计的全局形状先验

D(p,q)＝||F_s(p)-F_s(q)||+λ₁d_int(h_p-h_q)

d_{int} (h_{p} - h_{q}) = \frac{\underset{R}{Σ} \underset{G}{Σ} \underset{B}{Σ} \min (h_{p} (r, g, b), h_{q} (r, g, b))}{\min (| h_{p} |, | h_{q} |)}

其中|h_p|和|h_q|分别是直方图向量h_p和h_q的大小；

E (L) = \underset{x &Element; V_{t}}{Σ} E_{1} (l (x)) + λ_{2} \underset{(x, y) &Element; ϵ}{Σ} E_{2} (l (x), l (y))

E₁(l(x))＝D(x,l(x))

其中E₂(l(x),l(y))是连续标定平滑项，定义如下：

E₂(l(x),l(y))＝|(Ind_x-Ind_y)%K-(Ind_l(x)-Ind_l(y))%K|

S(t,t')＝S_t∩S_t'-＞t/max(S_t,S_t'-＞t)

p_{t^{'} - > t}^{g} = \{\begin{matrix} 1, x &Element; S_{t^{'} - > t} \\ 0.5, x &NotElement; S_{t^{'} - > t}^{*} \\ 0, otherwise \end{matrix}

w_{t^{'} - > t} (x) = \frac{1}{Z} \underset{p &Element; C_{t^{'} - > t}}{Σ} \frac{1}{{| | x - p | |}^{2}} (1 - \exp (- \frac{Δ I_{t^{'} - > t} {(p)}^{2}}{2 σ_{c}^{2}}))

p_{t}^{g} (x) = \frac{1}{\underset{t^{'}}{Σ} w_{t^{'} - > t} (x)} \underset{t^{'}}{Σ} w_{t^{'} - > t} (x) p_{t^{'} - > t}^{g} (x)

最终，通过高斯滤波将形状先验边界附近平滑一下；

2）统计的局部形状先验

(Ind_x-Ind_y)%K≈(Ind_l(x)-Ind_l(y))%K

其中，K是关键点的个数，将具有相似平面变化的邻接轮廓段合并起来，对于t'帧图像上的每两个前景子轮廓和，合并后的子轮廓定义为，在t 帧图像上对应的子轮廓为，假设包含K个关键点，其集合定义为{x_k}，和之间平均的对齐错误根据如下公式计算得到：

ϵ_{c_{t^{'}}^{i, i + 1} - > c_{t}^{i, i + 1}} = \sqrt{\frac{1}{K} Σ_{k = 1}^{K} {| | x_{k} - H_{c_{t^{'}}^{i, i + 1} - > c_{t}^{i, i + 1}} x_{k}^{'} | |}^{2}}

p_{t}^{l} (x) = \frac{1}{\underset{t^{'}}{Σ} w_{t^{'} - > t} (x)} \underset{t^{'}}{Σ} w_{t^{'} - > t} (x) p_{t^{'} - > t}^{l} (x)

在形状边界上用高斯滤波平滑下；

步骤3）中的基于统计形状先验量度，优化视频分割：

p_{t}^{c} = λ_{sh} * p_{t}^{g} + (1 - λ_{sh}) p_{t}^{l}

其中，w_s是自适应的权重，定义如下：

w_{s} = \{\begin{matrix} \frac{1}{| W (x) |} \underset{y &Element; W (x)}{Σ} \exp (- \frac{{| | Δ I_{t} (y) | |}^{2}}{2 σ_{c}^{2}}), x &Element; Ω (C_{t}) \\ 1, x &NotElement; Ω (C_{t}) \end{matrix}

E'_d(α_t(x))＝median{L_s,L_g,L_sh}

实施例

1.分割初始化

首先获得每一帧图像的背景，当处理完一帧图像后，再处理下一帧图像，将它当作参考帧图像。若相机是静止或者纯旋转的，那么通过估计两帧图像中的旋转矩阵或者单应性矩阵来将一帧图像投影或者对齐到另一帧的图像上。对于参考帧图像，将若干其他帧图像投影或对齐到当前参考帧图像上，对任意一个像素采用中值滤波得到当前帧图像的估计背景图像；若相机是运动的或者背景场景是非平面的复杂情景，那么用视频序列一致性深度恢复方法去得到每一帧图像的深度图，基于深度关系以及3D Warping方法，将相邻帧图像投影或对齐到当前参考帧图像上来，运动的前景区域在背景几何下通常会投影到不同的位置上，相似地应用中值滤波方法能有效的去掉这些前景像素点。将t帧图像估计得到的背景图像表示为

1.1数据项定义

与手持摄像机拍摄视频的运动/深度估计以及分割方法相似，本发明也需要一个预处理步骤来粗略的从一帧图像中抽取出前景区域，利用它来构造一个全局前景颜色高斯混合模型定义如下：

p_{g} (I_{t} (x) | α_{t} (x) = 1) = Σ_{k = 1}^{K_{f}} w_{k}^{f} N (I_{i} | μ_{k}^{f}, Σ_{k}^{f})

其中，和分别代表GMM第k^th个组件的平均颜色和协方差矩阵，是相应的权重。

不同帧图像中的背景图像有相似的外观以及全局结构，那么背景颜色高斯混合模型定义如下：

p_{g} (I_{t} (x) | α_{t} (x) = 0) = Σ_{k = 1}^{K_{b}} w_{k}^{b} N (I_{i} | μ_{k}^{b}, Σ_{k}^{b})

其中，N(·)表示高斯分布，和分别代表GMM第k^th个组件的平均颜色和协方差矩阵，是相应的权重。

颜色统计量度定义如下：

L_{g} (α_{t} (x)) = \frac{\log p_{g} (α_{t} (x))}{\log p_{g} (α_{t} (x) = 0) + \log p_{g} (α_{t} (x) = 1)}

其中分母用作归一化处理。

参考帧图像上的颜色差可以按如下公式计算：

D_{I} (x) = \min_{y &Element; W (x)} | | I_{t} (y) - I_{t}^{B} (y) | |_{1}

其中，为了避免噪点以及轻微的错误对齐从而达到鲁棒估计，W(x)是以像素点x为中心的小窗口。

背景相减量度定义如下：

L_{s} (α_{t} (x) = 0) = \frac{D_{I} (x)}{D_{I} (x) + δ_{s}}

L_s(α_t(x)＝1)＝1-L_s(α_t(x)＝0)

其中δ_s是一个参数，取为20～30。若D_I(x)＞δ_s，那么像素点x更有可能是前景像素点。

结合L_s和L_g后，新的数据项定义如下：

E_d(α_t(x))＝median{L_s,L_g,0.5}

这个数据项支持用中立值0.5来温和的限制这个数据项的值。当L_s和L_g给出了矛盾的分割置信度时，有了0.5这一项后，将这个决定留给其他的归一项能得到更好的指导。

1.2平滑项定义

跟背景分割中的方法类似，根据下列公式获得减轻背景对照后的平滑项：

E_s(α_t(x),α_t(y))＝|α_t(x)-α_t(y)|·exp(-β·d_xy)

其中，β＝(2<||I_r-I_s||²>)^-1是参数与基于迭代图割的交互前景分割方法中的一样，d_xy跟背景分割方法中的公式9一样。

由刘彻光流方法估计得到光流，利用它得到时域平滑项，它的定义如下：

其中，d_t,t+1(x)代表t帧图像上x像素点到对应的t+1帧图像上的x'像素点的运动向

量，d_t,t+1(x)代表x'像素点到x像素点的运动向量，δ_flow是常量取为5～10。

1.3初始的分割

用Graph Cut方法来求解以下的吉布斯能量函数来得到初始的分割：

E_{B} (α) = Σ_{t = 1}^{n} \underset{x &Element; I_{t}}{Σ} (E_{d} (α_{t} (x)) + λ_{s} \underset{y &Element; N (x)}{Σ} E_{s} (α_{t} (x), α_{t} (y))) + λ_{T} Σ_{t = 1}^{n - 1} \underset{x &Element; I_{t}}{Σ} R_{T}^{t, t + 1} (x)

其中，λ_s和λ_T分别是空间和时域平滑项权重，λ_S＝0.5，λ_T＝0.3。N(x)代表像素点x的邻居像素点集合，求解上述公式后可以得到每一帧粗糙的分割，根据初始的分割再次估计得到新的背景图像，接着得到更新后的L_s，再一次求解上述公式后完成分割初始化。

2.统计的全局形状先验

由于初始的分割在前景边界上仍然有很多错误，并且它们在不同帧中是不连续的，将前景区域抽取出来，然后将它们对齐可以收集到正确的形状先验，这些形状先验会帮助纠正不正确的前景蒙版。

在每一帧的前景蒙版轮廓上均匀采样轮廓点，称采样到的这些点为“关键点集”，对于每一个关键点p，分别用基于形状上下文进行形状匹配以及物体识别方法以及颜色直方图方法计算它的形状特征F_s(p)和外观特征h_p。

在计算形状特征F_s(p)的时候，对于每一个关键点，构造一个12x5的格子，让它们均匀的落在极角空间中，极角空间的半径设置为前景区域面积平方的1/3，计算落在每一个格子内的关键点数，然后将它们连接成一个特征向量。在计算外观特征h_p的时候，首先将RGB各通道分成8份后形成8x8x8个格子，对于每一个关键点，根据前景区域大小得到调整后的局部区域大小，然后在这个局部区域中采样所有前景像素点，接着再计算所有这些像素点落在哪个格子里面，最后外观特征h_p表示为8x8x8维度的归一化后的向量。

D(p,q)＝||F_s(p)-F_s(q)||+λ₁d_int(h_p-h_q)

其中，||||表示欧几里得距离运算符，λ₁表示权重取为10～20，d_int(h_p-h_q)是直方图相交距离，定义如下：

d_{int} (h_{p} - h_{q}) = \frac{\underset{R}{Σ} \underset{G}{Σ} \underset{B}{Σ} \min (h_{p} (r, g, b), h_{q} (r, g, b))}{\min (| h_{p} |, | h_{q} |)}

其中|h_p|和|h_q|分别是直方图向量h_p和h_q的大小。

E (L) = \underset{x &Element; V_{t}}{Σ} E_{1} (l (x)) + λ_{2} \underset{(x, y) &Element; ϵ}{Σ} E_{2} (l (x), l (y))

E₁(l(x))＝D(x,l(x))

其中E₂(l(x),l(y))是连续标定平滑项，定义如下：

E₂(l(x),l(y))＝|(Ind_x-Ind_y)%K-(Ind_l(x)-Ind_l(y))%K|

S(t,t')＝S_t∩S_t'-＞t/max(S_t,S_t'-＞t)

p_{t^{'} - > t}^{g} = \{\begin{matrix} 1, x &Element; S_{t^{'} - > t} \\ 0.5, x &NotElement; S_{t^{'} - > t}^{*} \\ 0, otherwise \end{matrix}

其中，表示S_t'-＞t区域扩张r个像素点后的区域，为了鲁棒性，将形状先验限制在区域内；对于之外其他的区域，其形状先验是无效的，将其设为0.5。

2.1颜色对照线索

基于一个常识来处理颜色相似的问题，那就是如果边界附近的像素点越相似，那么其颜色对照就越小。这个线索非常简单，但是从来没有被之前的方法用到过，它对前景边界的高质量分割有着奇效。由此，基于颜色对照的概率可信度定义如下：

w_{t^{'} - > t} (x) = \frac{1}{Z} \underset{p &Element; C_{t^{'} - > t}}{Σ} \frac{1}{{| | x - p | |}^{2}} (1 - \exp (- \frac{Δ I_{t^{'} - > t} {(p)}^{2}}{2 σ_{c}^{2}}))

其中，C_t'-＞t和I_t'-＞t分别表示从t'图像对齐到t图像的轮廓和整张图像，Z＝Σ||x-p||^-2是归一化项，Δ是拉普拉斯算子，σ_c是一个参数取为5～15。这条公式的直观理解是低颜色对照边界的概率置信度更小。

p_{t}^{g} (x) = \frac{1}{\underset{t^{'}}{Σ} w_{t^{'} - > t} (x)} \underset{t^{'}}{Σ} w_{t^{'} - > t} (x) p_{t^{'} - > t}^{g} (x)

最终，通过高斯滤波将形状先验边界附近平滑一下，通过这个公式从其他帧收集得到的统计信息可以用来提高分割的质量。

3.统计的局部形状先验

对于包含重复前景运动以及姿势的序列，全局的形状先验已经可以很显著的修正分割错误了，因为它充分利用了全局轮廓的相似性。然而，如果前景物体在形状上连续变动，那么这时的前背景颜色相似问题通过统计的全局形状先验是解决不了的。在这种情况下，局部形状先验可以更加有效的收集到形状信息来达到改善前背景颜色相似区域的分割效果。

3.1轮廓对齐

(Ind_x-Ind_y)%K≈(Ind_l(x)-Ind_l(y))%K

其中，K是关键点的个数。接着，将具有相似平面变化的邻接轮廓段合并起来，举个例子，对于t'帧图像上的每两个前景子轮廓和，合并后的子轮廓定义为，它在t帧图像上对应的子轮廓为。假设包含K个关键点，其集合定义为{x_k}。和之间平均的对齐错误可根据如下公式计算得到：

ϵ_{c_{t^{'}}^{i, i + 1} - > c_{t}^{i, i + 1}} = \sqrt{\frac{1}{K} Σ_{k = 1}^{K} {| | x_{k} - H_{c_{t^{'}}^{i, i + 1} - > c_{t}^{i, i + 1}} x_{k}^{'} | |}^{2}}

其中x'_k是x_k的对应点，是最小化后得到的最优单应性矩阵，如果τ_ε取为1～3，那么合并两个子轮廓，这个步骤一直执行直到没有邻接的子轮廓再可以合并了为止。

由于前景轮廓形状在不同帧之间的变化，那么很自然的会有一些子轮廓和关键点是找不到好的对应子轮廓以及关键点来合并的。对于任意一个子轮廓，它的单应性矩阵以及平均对齐误差分别为H_i和ε_i。如果，有另外一个子轮廓使得和之间的关键点个数小于阀值取为5～10，根据在中所有被匹配到的关键点估计得到单应性矩阵H'，其平均的对齐误差为ε'，如果对齐误差ε'＜max{ε_i,ε_j}，那么和之间的非连续性就非常可能是由于偶然的分割误差导致的，在这种情况下将以及它们之间的关键点合并起来。这个步骤非常重要，因为如果不合并这些段，有可能就会失去纠正某些局部分割错误的唯一机会。

然后，对于每一个合并后留下的子轮廓，用Graham Scan方法在子轮廓上计算得到最小的凸包U，然后通过求交操作使得U＝S_t'∩U，这样U就是S_t'的子区域了。接着，将U按r个像素点扩张，得到最终的用来映射的子区域U^*，然后将它映射到其他帧上，用来计算统计的局部形状先验。

3.2局部形状先验

通过匹配相似的局部形状以及将它们用自适应的权重结合起来，甚至能够处理前景形状有变化的例子。

有了从其他帧对齐过来的局部形状后，t帧上的统计局部形状先验按如下公式计算：

p_{t}^{l} (x) = \frac{1}{\underset{t^{'}}{Σ} w_{t^{'} - > t} (x)} \underset{t^{'}}{Σ} w_{t^{'} - > t} (x) p_{t^{'} - > t}^{l} (x)

然后再形状边界上用高斯滤波平滑下。

4.结合统计形状先验的分割

本发明提出的局部以及全局形状先验能够有效地提高双层分割的质量，将它们结合进目标函数然后更新数据项。首先通过权重将全局以及局部形状先验结合起来，按如下公式结合：

p_{t}^{c} = λ_{sh} * p_{t}^{g} + (1 - λ_{sh}) p_{t}^{l}

其中，w_s是自适应的权重，定义如下：

w_{s} = \{\begin{matrix} \frac{1}{| W (x) |} \underset{y &Element; W (x)}{Σ} \exp (- \frac{{| | Δ I_{t} (y) | |}^{2}}{2 σ_{c}^{2}}), x &Element; Ω (C_{t}) \\ 1, x &NotElement; Ω (C_{t}) \end{matrix}

其中，W(x)是以像素点x为中心的小窗口，σ_c是参数一般取为5～15，Ω(C_t)表示分割边界附近的狭窄区域。那么最后的数据项定义如下：

E'_d(α_t(x))＝median{L_s,L_g,L_sh}

通过用E'_d(α_t(x))替换掉之前的数据项，然后求解新的能量方程，可以得到更好的分割结果，然后又可以利用这个结果来更新形状先验，重复以上过程两遍以上。

5.方法引用说明

视频序列一致性深度恢复：G.Zhang,J.Jia,T.‐T.Wong,and H.Bao.Consistentdepth maps recovery from a video sequence.IEEE Transactions on PatternAnalysis and Machine Intelligence,31(6):974–988,2009.

手持摄像机拍摄视频的运动/深度估计以及分割：Guofeng Zhang,Jiaya Jia,WeiHua,and Hujun Bao.Robust Bilayer Segmentation and Motion/Depth Estimationwith a Handheld Camera.IEEE Transactions on Pattern Analysis and MachineIntelligence(TPAMI),33(3):603‐617,2011.

基于迭代图割的交互式前景分割：C.Rother,V.Kolmogorov,and A.Blake.”grabcut”: interactive foreground extraction using iterated graph cuts.ACMTrans.Graph.,23(3):309–314,2004.

基于形状上下文进行形状匹配以及物体识别：S.Belongie,J.Malik,andJ.Puzicha.Shape matching and object recognition using shape contexts.IEEETrans.Pattern Anal.Mach.Intell.,24(4):509–522,2002.

背景分割：J.Sun,W.Zhang,X.Tang,and H.‐Y.Shum.Background cut.In ECCV(2),pages628–641,2006.

刘彻光流：C.Liu.Beyond pixels:exploring new representations andapplications for motion analysis.PhD thesis,Massachusetts Institute ofTechnology,May2009.

GraphCut：Y.Boykov,O.Veksler,and R.Zabih,“Fast Approximate EnergyMinimization via Graph Cuts,”IEEE Trans.Pattern Analysis and MachineIntelligence,vol.23,no.11,pp.1222‐1239,Nov.2001.

RANSAC：M.A.Fischler and R.C.Bolles.Random sample consensus:A paradigmfor model fitting with applications to image analysis and automatedcartography.Commun.ACM,24(6):381–395,1981.

Graham Scan：R.L.Graham.An efficient algorithm for determining theconvex hull of a finite planar set.Inf.Process.Lett.,1(4):132–133,1972.

3D Warping：W.R.Mark,L.McMillan,and G.Bishop.Post-rendering 3Dwarping.In SI3D,pages7–16,180,1997.

Claims

1.一种基于统计形状先验的视频分割方法，其特征在于它的步骤如下：

1)视频分割初始化；

2)前景形状匹配以及对齐，并计算统计形状先验量度；

3)基于统计形状先验量度，优化视频分割；

4)重复步骤2)、3)两遍以上后结束；

所述的步骤2)中的前景形状匹配以及对齐，并计算统计形状先验量度为：

1)统计的全局形状先验

D(p,q)＝||F_s(p)-F_s(q)||+λ₁d_int(h_p-h_q)

d_{i n t} (h_{p} - h_{q}) = \frac{\underset{R}{Σ} \underset{G}{Σ} \underset{B}{Σ} m i n (h_{p} (r, g, b), h_{q} (r, g, b))}{\min (| h_{p} |, | h_{q} |)}

其中|h_p|和|h_q|分别是直方图向量h_p和h_q的大小；

E (L) = \underset{x &Element; V_{t}}{Σ} E_{1} (l (x)) + λ_{2} \underset{(x, y) &Element; ϵ}{Σ} E_{2} (l (x), l (y))

E₁(l(x))＝D(x,l(x))

其中E₂(l(x),l(y))是连续标定平滑项，定义如下：

E₂(l(x),l(y))＝|(Ind_x-Ind_y)％K-(Ind_l(x)-Ind_l(y))％K|

将从前景区域S_t'对齐到前景区域S_t后的前景区域定义为S_t'->t，相似度按如下公式计算：

S(t,t')＝S_t∩S_t'->t/max(S_t,S_t'->t)

其中S_t∩S_t'->t是S_t和S_t'->t之间的共同区域，max(S_t,S_t'->t)用作归一化处理，如果S(t,t')>τ，τ取为0.75～0.95，那么S_t和S_t'就足够相似；

p_{t^{'} - > t}^{g} = \{\begin{matrix} 1, x &Element; S_{t^{'} - > t} \\ 0.5, x &NotElement; S_{t^{'} - > t}^{*} \\ 0, o t h e r w i s e \end{matrix}

其中，表示S_t'->t区域扩张r个像素点后的区域，将形状先验限制在区域内；对于之外其他的区域，其形状先验是无效的，将其设为0.5，再基于一个常识来处理颜色相似的问题：若边界附近的像素点越相似，其颜色对照就越小；由此，基于颜色对照的概率可信度定义如下：

w_{t^{'} - > t} (x) = \frac{1}{Z} \underset{p &Element; C_{t^{'} - > t}}{Σ} \frac{1}{| | x - p | |^{2}} (1 - \exp (- \frac{{ΔI}_{t^{'} - > t} {(p)}^{2}}{2 σ_{c}^{2}}))

其中，C_t'->t和I_t'->t分别表示从t'图像对齐到t图像的轮廓和整张图像，Z＝Σ||x-p||^-2是归一化项，Δ是拉普拉斯算子，σ_c是一个参数取为5～15；

p_{t}^{g} (x) = \frac{1}{\underset{t^{'}}{Σ} w_{t^{'} - > t} (x)} \underset{t^{'}}{Σ} w_{t^{'} - > t} (x) p_{t^{'} - > t}^{g} (x)

最终，通过高斯滤波将形状先验边界附近平滑一下；

2)统计的局部形状先验

(Ind_x-Ind_y)％K≈(Ind_l(x)-Ind_l(y))％K

其中，K是关键点的个数，将具有相似平面变化的邻接轮廓段合并起来，对于t'帧图像上的每两个前景子轮廓和合并后的子轮廓定义为在t帧图像上对应的子轮廓为假设包含K个关键点，其集合定义为{x_k}，和之间平均的对齐错误根据如下公式计算得到：

ϵ_{c_{t^{'}}^{i, i + 1} - > c_{t}^{i, i + 1}} = \sqrt{\frac{1}{K} Σ_{k = 1}^{K} | | x_{k} - H_{c_{t^{'}}^{i, i + 1} - > c_{t}^{i, i + 1}} x_{k}^{'} | |^{2}}

对于任意一个子轮廓，它的单应性矩阵以及平均对齐误差分别为H_i和ε_i，如果，有另外一个子轮廓使得和之间的关键点个数小于阈值取为5～10，根据在中所有被匹配到的关键点估计得到单应性矩阵H'，其平均的对齐误差为ε'，如果对齐误差ε'<max{ε_i,ε_j}，那么和之间的非连续性就是由于偶然的分割误差导致的，在这种情况下将以及它们之间的关键点合并起来；

p_{t}^{l} (x) = \frac{1}{\underset{t^{'}}{Σ} w_{t^{'} - > t} (x)} \underset{t^{'}}{Σ} w_{t^{'} - > t} (x) p_{t^{'} - > t}^{l} (x)

在形状边界上用高斯滤波平滑下。

2.根据权利要求1所述的一种基于统计形状先验的视频分割方法，其特征在于所述步骤3)中的基于统计形状先验量度，优化视频分割：

p_{t}^{c} = λ_{s h} * p_{t}^{g} + (1 - λ_{s h}) p_{t}^{l}

其中，λ_sh是权重取为5～10，那么统计形状先验量度按如下公式计算：

L_{s h} = w_{s} p_{t}^{c} + (1 - w_{s}) \cdot 0.5

其中，w_s是自适应的权重，定义如下：

w_{s} = \{\begin{matrix} \frac{1}{| W (x) |} \underset{y &Element; W (x)}{Σ} \exp (- \frac{| | {ΔI}_{t} (y) | |^{2}}{2 σ_{c}^{2}}), x &Element; Ω (C_{t}) \\ 1, x &NotElement; Ω (C_{t}) \end{matrix}

其中，W(x)是以像素点x为中心的小窗口，σ_c是参数取为5～15，Ω(C_t)表示分割边界附近的狭窄区域，那么最后的数据项定义如下：

E'_d(α_t(x))＝median{L_s,L_g,L_sh}