CN104159098B

CN104159098B - 一种视频的时域一致性半透明边缘提取方法

Info

Publication number: CN104159098B
Application number: CN201410437346.8A
Authority: CN
Inventors: 董子龙
Original assignee: HANGZHOU DAOXUAN TELEVISION TECHNOLOGY Co Ltd
Current assignee: HANGZHOU DAOXUAN TELEVISION TECHNOLOGY Co Ltd
Priority date: 2014-08-29
Filing date: 2014-08-29
Publication date: 2016-06-01
Anticipated expiration: 2034-08-29
Also published as: CN104159098A

Abstract

本发明公开了一种视频的时域一致性半透明边缘提取方法。对视频的图像帧进行逐帧半交互式分割，然后进行优化完成视频时域一致性分割；根据视频的时域一致性分割结果，在自适应边缘的图像颜色复杂度的前提下自动膨胀分割边缘生成三色图；利用三色图和视频像素在时域上的光流信息进行时域一致性抠图。本发明能够提取视频物体的时域一致性半透明边缘，还能够得到时域一致性分割结果，在影视2D转3D制作中合成立体新视图时避免边缘的抖动和黑边现象，保证了立体视频的高质量转制。

Description

一种视频的时域一致性半透明边缘提取方法

技术领域

本发明涉及一种视频提取方法，特别是涉及3D立体影视转制技术领域的一种视频的时域一致性半透明边缘提取方法。

背景技术

自2009年《阿凡达3D》上映以来，3D立体影视成为电影制作的主流，但是用立体摄像机直接拍摄3D立体影视的成本高、时间长、立体效果调整难度大，因此如何将2D影视转制成3D立体影视成为3D立体影视制作领域的研究热点。

2D影视转制成3D立体影视的基础技术流程包括：1、镜头分解；2、深度反求；3、立体合成。其中最关键的是深度反求技术，即直接恢复视频图像上每一个像素到摄像机的距离。由于视频图像是一个2D平面，而且影视场景中的物体复杂多变，视频深度的反求是很困难的技术问题。很多研究者提出了机器学习方法恢复单目视频深度，从而实现立体化[K.Karsch,C.LiuandS.B.Kang.DepthExtractionfromVideoUsingNon-parametricSampling.EuropeanConferenceonComputerVision(ECCV),2012.]，该方法虽然有较高的自动化，但得到的3D立体影视的质量无法保证。另外一种基于视频分割的3D立体视频转制方法虽然需要较多的人工交互，但是能够得到更好的立体效果。

基于视频分割的3D立体视频转制流程细化如下：1、镜头分解；2、图层预置；3、图层分割；4、图层深度反求；5、图层立体合成；6、视频立体合成。其中，图层就是视频分割的结果，根据后期制作人员的需求，将视频中的物体分割成独立的图层，然后分别对每一个图层进行立体化。对于边缘比较锐利、明显的物体，简单的分割前景背景就可以做到无缝的立体化，但是在出现毛发、运动模糊等半透明边缘时，简单的分割往往会在图层背景上残留前景，或者前景上残留背景，导致立体效果大打折扣。因此3D立体影视转制必须采用半透明边缘提取方法，将半透明区域的前景和背景彻底分离，才能避免立体视觉上的明显瑕疵。

现有的视频分割方法一般采用半交互半自动的方式，如用户在第一帧交互分割，然后将分割结果传递到下一帧，并根据分割结果继续交互优化。为了得到更好的效果，在最后分割完成之后，现有技术还在分割结果的边缘上计算半透明边缘，如[XueBai,JueWang,DavidSimons,andGuillermoSapiro.VideoSnapCut:RobustVideoObjectCutoutUsingLocalizedClassifiers.ACMSIGGRAPH2009.]和[FanZhong,XueyingQin,QunshengPeng,andXiangxuMeng:Discontinuity-AwareVideoObjectCutout,ACMTransactionsonGraphics,2012,VOL.31(6),pp175:1-175:10]，但是现有技术都没有充分考虑时域上的一致性，而是直接逐帧进行抠图，因此无法保证半透明边缘在时域上的一致性。而如何使半透明边缘求解结果在时域上具有高度的一致性，视觉上不会闪烁，在3D立体影视制作中是至关重要的。目前的视频半透明边缘方法在时域的一致性上做得还不够理想，普遍存在严重的抖动现象，亟待进一步突破。

总而言之，现有的方法无法很好地对毛发等半透明物体进行时域一致性抠图，导致3D立体影视的转制效果很差。因此，需要一种视频的时域一致性半透明边缘提取方法，解决以上问题。

发明内容

为了克服上述现有技术的不足，本发明提供了一种视频的时域一致性半透明边缘提取方法，以在影视2D转3D制作过程中实现时域一致性视频图层分割，并能够提取视频的时域一致性半透明边缘。

本发明采用的技术方案包括：

A)对视频的图像帧进行逐帧半交互式分割，然后进行优化完成视频时域一致性分割；

B)根据视频的时域一致性分割结果，在自适应边缘的图像颜色复杂度的前提下自动膨胀分割边缘生成三色图；

C)利用三色图和视频像素在时域上的光流信息进行时域一致性抠图。

所述的步骤A)具体包括：

a1)对视频的图像帧进行逐帧半交互式分割，生成前景视频图像和背景视频图像；

a2)由以上步骤得到的半交互式分割结果通过优化进行视频时域一致性分割。

所述的步骤a2)中半交互式分割结果通过以下分割目标函数E(α,z)进行优化，完成视频时域一致性分割：

E(α,z)＝λ₁D(α,z)+λ₂V(α,z)+λ₃T(α,z)

式中，z表示视频图像的所有像素的颜色集合，α为视频分割标记，λ₁,λ₂,λ₃分别为数据项权重、控制空域平滑权重和控制时域平滑权重，D(α,z)为分割数据项，V(α,z)为分割空域平滑项，T(α,z)为分割时域平滑项。

所述的分割数据项D(α,z)采用以下公式计算：

D (α, z) = Σ_{t = 1}^{K} \underset{x &Element; I^{t}}{Σ} (p^{t} (z_{x}) \cdot (1 - α_{x}) + (1 - p^{t} (z_{x}) α_{x}))

式中，p^t(z_x)是像素点x在第t帧背景视频图像的概率函数，z_x为像素点x的颜色值，其定义为RGB的颜色空间，α_x为像素点x的视频分割标记，I^t为第t帧视频图像，K为视频图像的总帧数。

所述的分割空域平滑项V(α,z)采用以下公式计算：

V (α, z) = \underset{(m, n) &Element; C}{Σ} d {(m, n)}^{- 1} | α_{n} - α_{m} |

式中，C是视频图像中以两个相邻像素为一组组成的所有像素组集合，相邻像素定义为像素的四邻域上，(m,n)为所有像素组集合C中的一组像素组，m、n表示像素组(m,n)中的两个像素点，α_m、α_n分别为像素点m和像素点n的视频分割标记，|.|表示绝对值函数，d(.)是像素在图像上的位置之间的欧拉距离函数。

所述的分割时域平滑项T(α,z)采用以下公式计算：

T (α, z) = Σ_{t = 1}^{K} \underset{x &Element; I^{t}}{Σ} Σ_{k = t - n}^{t + n} \underset{y &Element; W (x)}{Σ} (\exp (- {| α_{x} - α_{y^{k}} |}^{2}) \cdot w_{flow}^{y, y^{k}} \cdot \exp (- d {(x, y)}^{2} / T_{1}) \cdot \frac{T_{2}}{T_{2} + {| | z_{x} - z_{y} | |}_{2}})

式中，n表示时域平滑项要往前和往后计算的n帧相邻图像，W(x)是以像素点x为中心的3×3局部窗口中的9个像素集合，y为局部窗口W(x)中的任一像素点，为像素点y在第k帧的对应像素点y^k的光流置信度，分别表示位置、颜色的控制系数，k为像素点y^k所在的图像帧，是第k帧图像在像素点y^k的分割标记，exp()是以自然常数e为底的指数函数。

所述的步骤C)中时域一致性抠图具体采用以下抠图目标函数F(β,z)进行抠图：

F (β, z) = Σ_{t = 1}^{K} \underset{x &Element; U (I^{t})}{Σ} (λ_{Q} | Q (β, z, x) | + λ_{P} | p^{t, t + 1} (β, z, x) | + λ_{P} | P^{t, t + 1} (β, z, x) | + λ_{H} H (β, z, x)) + λ_{G} G (β, z)

式中，β表示像素点的半透明值集合，U(I^t)表示图像I^t的三色图中待求解的未知区域包含的像素集合，λ_Q,λ_P,λ_H,λ_G为抠图数据项权重、控制抠图时域平滑权重、控制抠图空域局部平滑权重和控制抠图空域平滑权重，Q(β,z,x)为抠图数据项，G(β,z)为抠图空域平滑项，H(β,z,x)为抠图空域局部平滑项，P^t,t+1(β,z,x)为第t帧视频图像到后一帧视频图像的正向抠图时域平滑项，P^t,t-1(β,z,x)为第t帧视频图像到前一帧视频图像的反向抠图时域平滑项。

所述的抠图数据项Q(β,z,x)表示为：

Q(β,z,x)＝p^t(z_x)·(1-β_x)+(1-p^t(z_x))β_x

式中，p^t(z_x)是像素点x在第t帧背景视频图像的概率函数，z_x为像素点x的颜色值，其定义为RGB的颜色空间，β_x为像素点x的半透明值。

所述的抠图空域平滑项G(β,z)表示为：

G (β, z) = \underset{(m, n) &Element; C}{Σ} d {(m, n)}^{- 1} | β_{m} - β_{n} |

式中，C是视频图像中以两个相邻像素为一组组成的所有像素组集合，(m,n)为所有像素组集合C中的一组像素组，m、n表示像素组(m,n)中的两个像素点，βm、βn分别为像素点m和像素点n的半透明值，|.|表示绝对值函数，d(.)是像素在图像上位置之间的欧拉距离函数。

所述的抠图空域局部平滑项H(β,z,x)表示为：

H (β, z, x) = \underset{y &Element; W (x)}{Σ} {| β_{x} - β_{y} |}^{2} Σ_{i}^{(x, y) &Element; M_{i}} \frac{1}{| M_{i} |} (1 + (z_{x} - μ_{i}) {({Cov}_{i} + \frac{ϵ}{| M_{i}} B)}^{- 1} (z_{y} - μ_{i}))

式中，W(x)是以像素点x为中心的3×3局部窗口中的9个像素的集合，β_x、βy分别为像素点x和像素点y的半透明值，M是视频图像中包含像素点x,y的3×3局部窗口的集合，i是从M中取一个局部窗口的下标指示，μ_i、Cov_i分别为局部窗口M_i内颜色的期望和协方差，ε为规范化系数，B为3×3单位矩阵，z_x为像素点x的颜色值，z_y为像素点y的颜色值。

所述的正向抠图时域平滑项P^t,t+1(β,z,x)对于每个像素点x表示为以下公式：

P^{t, t + 1} (β, z, x) = w_{flow}^{x, x^{'}} | β_{x} - β_{x^{'}} |

其中，x'为像素点x在后一帧视频图像中的光流对应像素点，为像素点x和像素点x'的光流置信度，β_x为像素点x的半透明值，β_x'为像素点x'的半透明值；

所述的反向抠图时域平滑项P^t,t-1(β,z,x)对于每个像素点x表示为以下公式：

P^{t, t + 1} (β, z, x) = w_{flow}^{x, x^{''}} | β_{x} - β_{x^{''}} |

其中，x″为像素点x在前一帧视频图像中的光流对应像素点，为像素点x和像素点x″的光流置信度，β_x为像素点x的半透明值，β_x″为像素点x″的半透明值。

所述的光流置信度光流置信度和光流置信度均采用以下计算方式：通过计算视频运动信息生成光流，获得光流误差，由光流误差采用以下公式得到置信度：

w_{flow}^{r, s} = \exp (- \frac{f_{err} (r, s)}{2 δ_{flow}^{2}}) \cdot \exp (- \frac{| | z_{r} - z_{s} | |}{2 δ_{color}^{2}})

其中，r为视频图像中的任意像素点，s为像素点r的光流对应像素点，为像素点r和像素点s的光流置信度，exp是以自然常数e为底的指数函数，f_err(r,s)为像素点r和像素点s的光流误差，z_r为像素点r的颜色值，z_s为像素点s的颜色值，δ_flow为光流控制系数，δ_color为颜色控制系数。

与现有技术相比，本发明的有益效果是：

本发明可半交互地提取视频物体的半透明边缘，在影视2D转3D制作中合成立体新视图时避免边缘的抖动和黑边现象，保证了立体视频的高质量转制。

本发明能够提取视频的时域一致性半透明边缘，还能够得到时域一致性分割结果。

附图说明

图1为本发明方法的流程图。

图2为待处理的输入视频序列，分别为视频的第33,50,68,107帧。

图3为输入视频序列的分割结果，分别为视频的第33,50,68,107帧的分割结果。

图4为输入视频序列的三色图，分别为视频的第33,50,68,107帧的三色图。

图5为输入视频序列的抠图结果，分别为视频的第33,50,68,107帧的抠图结果。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细说明。

如图1所示，本发明方法包括：

利用视频运动信息和视频的半交互式分割结果进行时域一致性分割；在视频连续帧间传递分割结果，实现基于半交互的视频分割。

B)根据视频的时域一致性分割结果，在自适应边缘的图像颜色复杂度的前提下自动膨胀分割边缘生成三色图。由于分割结果已经保证时域一致性，因此自动生成的三色图也保持时域一致性。

C)利用三色图和视频像素在时域上的光流信息进行时域一致性抠图，提取半透明边缘。

上述的步骤A)具体包括：

a1)对视频的图像帧进行逐帧半交互式分割，交互信息和分割结果从当前帧传递到下一帧，生成前景视频图像和背景视频图像；

逐帧半交互式分割可采用XueBai等提出半交互式视频分割方法：XueBai,JueWang,DavidSimons,andGuillermoSapiro.VideoSnapCut:RobustVideoObjectCutoutUsingLocalizedClassifiers.ACMSIGGRAPH2009。

上述步骤a2)中半交互式分割结果通过以下分割目标函数E(α,z)进行优化，完成视频时域一致性分割：

E(α,z)＝λ₁D(α,z)+λ₂V(α,z)+λ₃T(α,z)

式中，z表示视频图像的所有像素的颜色集合，α为视频分割标记，前景视频图像的视频分割标记α为1，背景视频图像的视频分割标记α为0，λ₁,λ₂,λ₃分别为数据项权重、控制空域平滑权重和控制时域平滑权重，D(α,z)为分割数据项，采用高斯混合模型估计颜色的分布概率，V(α,z)为分割空域平滑项，采用相邻像素颜色的L2范式进行估计计算，T(α,z)为分割时域平滑项，采用光流信息优化分割时域一致性。

分割目标函数E(α,z)可通过以下GraphCuts优化方法进行求解：YuriBoykov,OlgaVekslerandRaminZabih.FastApproximateEnergyMinimizationviaGraphCuts.IEEETransactionsonPatternAnalysisandMachineIntelligence,23(11):1222–1239,2001。

上述分割数据项D(α,z)采用高斯混合模型计算颜色的分布概率，采用以下公式计算：

D (α, z) = Σ_{t = 1}^{K} \underset{x &Element; I^{t}}{Σ} (p^{t} (z_{x}) \cdot (1 - α_{x}) + (1 - p^{t} (z_{x}) α_{x}))

式中，p^t(z_x)是像素点x在第t帧背景视频图像的概率函数，是根据像素点x所在的视频帧t的背景颜色估计高斯混合模型计算得到，z_x为像素点x的颜色值，其定义为RGB的颜色空间，α_x为像素点x的视频分割标记，I^t为第t帧视频图像，K为视频图像的总帧数，输入视频共有K帧图像。

上述分割空域平滑项V(α,z)约束相邻像素间的平滑信息，即为保证分割结果的空间一致性所添加的惩罚项，采用以下公式计算：

V (α, z) = \underset{(m, n) &Element; C}{Σ} d {(m, n)}^{- 1} | α_{n} - α_{m} |

式中，C是视频图像中以两个横向或者纵向相邻像素为一组组成的所有像素组集合，相邻像素定义为像素的四邻域上，(m,n)为所有像素组集合C中的一组像素组，m、n表示像素组(m,n)中的两个像素点，α_m、α_n分别为像素点m和像素点n的视频分割标记，|.|表示绝对值函数，d(.)是像素在图像上的位置之间的欧拉距离函数。

上述分割时域平滑项T(α,z)采用以下公式计算：

T (α, z) = Σ_{t = 1}^{K} \underset{x &Element; I^{t}}{Σ} Σ_{k = t - n}^{t + n} \underset{y &Element; W (x)}{Σ} (\exp (- {| α_{x} - α_{y^{k}} |}^{2}) \cdot w_{flow}^{y, y^{k}} \cdot \exp (- d {(x, y)}^{2} / T_{1}) \cdot \frac{T_{2}}{T_{2} + {| | z_{x} - z_{y} | |}_{2}})

式中，n表示时域平滑项要往前和往后考虑计算的n帧相邻图像，总共2n+1帧，W(x)是以像素点x为中心的3×3局部窗口中的9个像素集合，y为局部窗口W(x)中的任一像素点，为像素点y在第k帧的对应像素点y^k的光流置信度，T₁,T₂分别表示位置、颜色的控制系数，k为像素点y^k所在的图像帧，是第k帧图像在像素点y^k的分割标记，exp()是以自然常数e为底的指数函数。

上述步骤B)生成三色图的过程可采用JueWang等提出根据边缘复杂度生成三色图的方法：JueWang,ManeeshAgrawala,andMichaelCohen.SoftScissors:AnInteractiveToolforRealtimeHighQualityMatting.ACMSIGGRAPH2007。

在分割结果的边缘上，如果边缘是清晰明确的，那么分割的结果已经足够好，只需要生成细窄的未知区域就可以进行高质量半透明边缘提取；而如果边缘是毛发、运动模糊等复杂的情形，就需要比较宽长的未知区域才可以覆盖整个半透明边缘；本发明沿着分割边缘，自动适应边缘的复杂度生成不同宽度的未知区域。

上述步骤C)中时域一致性抠图具体采用以下抠图目标函数F(β,z)进行抠图：

F (β, z) = Σ_{t = 1}^{K} \underset{x &Element; U (I^{t})}{Σ} (λ_{Q} | Q (β, z, x) | + λ_{P} | p^{t, t + 1} (β, z, x) | + λ_{P} | P^{t, t + 1} (β, z, x) | + λ_{H} H (β, z, x)) + λ_{G} G (β, z)

上述抠图目标函数的优化计算使用了Levenberg-Marquardt非线性最小二乘优化方法：http://users.ics.forth.gr/～lourakis/levmar/。

抠图数据项利用三色图中的背景像素的颜色，统计出图像背景的颜色模型，根据颜色模型可以得到每一个像素点x的抠图数据项Q(β,z,x)，上述抠图数据项Q(β,z,x)表示为：

Q(β,z,x)＝p^t(z_x)·(1-β_x)+(1-p^t(z_x))β_x

式中，p^t(z_x)是像素点x在第t帧背景视频图像的概率函数，根据所在的视频帧t的背景颜色估计高斯混合模型计算得到，z_x为像素点x的颜色值，其定义为RGB的颜色空间，β_x为像素点x的半透明值。

上述抠图空域平滑项G(β,z)表示为：

G (β, z) = \underset{(m, n) &Element; C}{Σ} d {(m, n)}^{- 1} | β_{m} - β_{n} |

式中，C是视频图像中以两个横向或者纵向相邻像素为一组组成的所有像素组集合，(m,n)为所有像素组集合C中的一组像素组，m、n表示像素组(m,n)中的两个像素点，β_m、β_n分别为像素点m和像素点n的半透明值，|.|表示绝对值函数，d(.)是像素在图像上位置之间的欧拉距离函数。

上述抠图空域局部平滑项H(β,z,x)表示为：

H (β, z, x) = \underset{y &Element; W (x)}{Σ} {| β_{x} - β_{y} |}^{2} Σ_{i}^{(x, y) &Element; M_{i}} \frac{1}{| M_{i} |} (1 + (z_{x} - μ_{i}) {({Cov}_{i} + \frac{ϵ}{| M_{i}} B)}^{- 1} (z_{y} - μ_{i}))

本发明使用了更加准确的抠图时域平滑项，对于视频帧t不仅添加了到后一帧t+1的正向抠图时域平滑项P^t,t+1(β,z,x)，还使用了由视频帧t到前一帧t-1的反向抠图时域平滑项P^t,t-1(β,z,x)。

上述正向抠图时域平滑项P^t,t+1(β,z,x)对于每个像素点x表示为以下公式：

P^{t, t + 1} (β, z, x) = w_{flow}^{x, x^{'}} | β_{x} - β_{x^{'}} |

其中，x'为像素点x在后一帧视频图像中的光流对应像素点，为像素点x和像素点x'的光流置信度，β_x为像素点x的半透明值，β_x'为像素点x'的半透明值。

上述反向抠图时域平滑项P^t,t-1(β,z,x)对于每个像素点x表示为以下公式：

P^{t, t + 1} (β, z, x) = w_{flow}^{x, x^{''}} | β_{x} - β_{x^{''}} |

上述光流置信度光流置信度和光流置信度均采用以下计算方式：通过计算视频运动信息生成光流，获得光流误差，由光流误差采用以下公式得到置信度：

w_{flow}^{r, s} = \exp (- \frac{f_{err} (r, s)}{2 δ_{flow}^{2}}) \cdot \exp (- \frac{| | z_{r} - z_{s} | |}{2 δ_{color}^{2}})

上述光流计算时，可使用LiXu等提出的保细节光流计算方法：LiXu,JiayaJia,andYasuyukiMatsushita.MotionDetailPreservingOpticalFlowEstimation.IEEETransactionsonPatternAnalysisandMachineIntelligence,34(9):1744-1756,2012.

本发明上述涉及的部分专业术语解释如下：

视频分割：根据用户交互指定的初始信息，将视频分割为前景图层或背景图层，分割结果是对应每一帧视频图像，都会输出一个前景遮罩，属于前景的内容标记为1，属于背景的内容标记为0；因此，分割问题也是一个标记问题。

时域一致性：视频中同一个物体在每一帧上对应的像素都是相同或相似的标记，视觉上表现为分割出来的前景物体在时域上不存在抖动现象。

半透明边缘：当物体的边缘颜色是由前景颜色和背景颜色混合而成时，即是半透明边缘；半透明边缘提取的结果是半透明遮罩，像素的标记在[0,1]区间内；为了与分割技术区分，半透明边缘的提取技术称为抠图。

三色图：三色图是一种特殊的遮罩，由三种颜色：黑色、灰色、白色构成，黑色区域标记为0，表示绝对的背景，白色区域标记为1，表示绝对的前景，灰色区域标记为0.5，表示需要求解提取的半透明的未知区域。

目标函数：半透明边缘的提取问题会转化成一个数值优化问题，目标函数定义了边缘像素标记为不同的值时产生的误差，优化的目标即是使这个误差函数最小，优化的方法一般采用非线性优化方法。

光流：视频运动信息分析的重要方法，因为当物体在运动时，它在视频上对应像素在图像上的位置也会发生变化，光流即是跟踪并记录这种变化。每一个视频帧对应一帧2维向量场，每一个2维向量对应当前像素位置在下一帧的u，v方向上的偏移量，u方向为横轴方向，v方向为纵轴方向。

因此为了实现从视频中提取时域一致性半透明边缘，本发明满足以下条件：包含半透明边缘为未知区域的时域一致性三色图。人工自动三色图的结果在时域上往往很难保持一致，难以避免前后帧之间的三色图跳动现象，如果输入的三色图不一致，则抠图的结构会有比较大的差异；在本发明方法中，三色图是基于分割结果自动生成，并且在分割时我们保证了分割结果的时域一致性，因此本发明方法可以保持三色图在时域上基本一致。

优化目标函数考虑时域运动约束误差。通过光流计算可以得到运动物体在视频时域上的运动轨迹，分割或抠图要保证轨迹上的像素点有相同或相似的标记，需要在目标函数加入时域约束。优化结果同时使得时域运动约束误差最小，保证像素标记在时域上的一致性。

本发明的具体实施例如下：

输入如图2为例的视频图像序列，其中的左上图像、右上图像、左下图像和右下图像分别为视频图像序列中的第33,50,68,107帧图像。视频中的女孩的头发随着镜头的运动和风的吹动，呈现出不规律的飘动变化，由于发丝很细、背景的模糊程度高，半透明边缘的提取难度很大。

首先采用本发明方法进行一致性视频分割，计算过程中，数据项权重、控制空域平滑权重和控制时域平滑权重分别取λ₁＝1,λ₂＝0.5,λ₃＝0.01，位置、颜色的控制系数分别取值为T₁＝5,T₂＝30，分割得到的结果如图3所示，对应位置的图像帧数与图2中的相同。图3中女孩头发的边缘是分割的硬边，一些半透明结构和细发都无法在分割结果上呈现，但是分割结果在时域上是一致的。

然后生成一致性三色图，生成结果如图4所示，对应位置的图像帧数与图2中的相同。图4的三色图在毛发存在半透明结构的地方会比较粗，在一般的清晰边缘上比较细，而且在时域上也保持了一致性。

最后进行抠图，抠图数据项权重、控制抠图时域平滑权重、控制抠图空域局部平滑权重和控制抠图空域平滑权重的值分别取λ_Q＝1,λ_P＝0.001,λ_H＝0.05,λ_G＝0.03，规范化系数ε取值为ε＝0.001，抠图结果如图5所示，对应位置的图像帧数与图2中的相同。从图5中可以看出，分割结果中丢失的半透明结构和细发在抠图结果中已经恢复出来，呈现完成的半透明边缘，而且在时域上也保持了一致性。

本发明实施例中的光流平滑项的光流控制系数取δ_flow＝0.5，颜色控制系数取δ_color＝10。

上述具体实施方式用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种视频的时域一致性半透明边缘提取方法，其特征在于，包括以下步骤：

a2)由以上步骤得到的半交互式分割结果通过优化进行视频时域一致性分割；

所述的半交互式分割结果通过以下分割目标函数E(α,z)进行优化，完成视频时域一致性分割：

E(α,z)＝λ₁D(α,z)+λ₂V(α,z)+λ₃T(α,z)

式中，z表示视频图像的所有像素的颜色集合，α为视频分割标记，λ₁,λ₂,λ₃分别为数据项权重、控制空域平滑权重和控制时域平滑权重，D(α,z)为分割数据项，V(α,z)为分割空域平滑项，T(α,z)为分割时域平滑项；

C)利用三色图和视频像素在时域上的光流信息进行时域一致性抠图；

所述的时域一致性抠图具体采用以下抠图目标函数F(β,z)进行抠图：

F (β, z) = Σ_{t = 1}^{K} \underset{x &Element; U (I^{t})}{Σ} (λ_{Q} | Q (β, z, x) | + λ_{P} | P^{t, t + 1} (β, z, x) | + λ_{P} | P^{t, t - 1} (β, z, x) | + λ_{H} H (β, z, x)) + λ_{G} G (β, z)

式中，β表示像素点的半透明值集合，U(I^t)表示图像I^t的三色图中待求解的未知区域包含的像素集合，λ_Q,λ_P,λ_H,λ_G为抠图数据项权重、控制抠图时域平滑权重、控制抠图空域局部平滑权重和控制抠图空域平滑权重，Q(β,z,x)为抠图数据项，G(β,z)为抠图空域平滑项，H(β,z,x)为抠图空域局部平滑项，P^t,t+1(β,z,x)为第t帧视频图像到后一帧视频图像的正向抠图时域平滑项，P^t,t-1(β,z,x)为第t帧视频图像到前一帧视频图像的反向抠图时域平滑项；

所述的分割数据项D(α,z)采用以下公式计算：

D (α, z) = Σ_{t = 1}^{K} \underset{x &Element; I^{t}}{Σ} (p^{t} (z_{x}) \cdot (1 - α_{x}) + (1 - p^{t} (z_{x})) α_{x})

式中，p^t(z_x)是像素点x在第t帧背景视频图像的概率函数，z_x为像素点x的颜色值，其定义为RGB的颜色空间，α_x为像素点x的视频分割标记，I^t为第t帧视频图像，K为视频图像的总帧数；

所述的分割空域平滑项V(α,z)采用以下公式计算：

V (α, z) = \underset{(m, n) &Element; C}{Σ} d {(m, n)}^{- 1} | α_{m} - α_{n} |

式中，C是视频图像中以两个相邻像素为一组组成的所有像素组集合，相邻像素定义为像素的四邻域上，(m,n)为所有像素组集合C中的一组像素组，m、n表示像素组(m,n)中的两个像素点，α_m、α_n分别为像素点m和像素点n的视频分割标记，|.|表示绝对值函数，d(.)是像素在图像上的位置之间的欧拉距离函数；

所述的分割时域平滑项T(α,z)采用以下公式计算：

T (α, z) = Σ_{t = 1}^{K} \underset{x &Element; I^{t}}{Σ} Σ_{k = t - n}^{t + n} \underset{y &Element; W (x)}{Σ} (\exp (- | α_{x} - α_{y^{k}} |^{2}) \cdot w_{f l o w}^{y, y^{k}} \cdot \exp (- d {(x, y)}^{2} / T_{1}) \cdot \frac{T_{2}}{T_{2} + | | z_{x} - z_{y} | |_{2}})

式中，n表示时域平滑项要往前和往后计算的n帧相邻图像，W(x)是以像素点x为中心的3×3局部窗口中的9个像素集合，y为局部窗口W(x)中的任一像素点，为像素点y在第k帧的对应像素点y^k的光流置信度，k为像素点y^k所在的图像帧，是第k帧图像在像素点y^k的分割标记，exp()是以自然常数e为底的指数函数；T₁、T₂分别表示位置、颜色的控制系数；

所述的抠图数据项Q(β,z,x)表示为：

Q(β,z,x)＝p^t(z_x)·(1-β_x)+(1-p^t(z_x))β_x

式中，p^t(z_x)是像素点x在第t帧背景视频图像的概率函数，z_x为像素点x的颜色值，其定义为RGB的颜色空间，β_x为像素点x的半透明值；

所述的抠图空域平滑项G(β,z)表示为：

G (β, z) = \underset{(m, n) &Element; C}{Σ} d {(m, n)}^{- 1} | β_{m} - β_{n} |

式中，C是视频图像中以两个相邻像素为一组组成的所有像素组集合，(m,n)为所有像素组集合C中的一组像素组，m、n表示像素组(m,n)中的两个像素点，β_m、β_n分别为像素点m和像素点n的半透明值，|.|表示绝对值函数，d(.)是像素在图像上位置之间的欧拉距离函数；

所述的抠图空域局部平滑项H(β,z,x)表示为：

H (β, z, x) = \underset{y &Element; W (x)}{Σ} | β_{x} - β_{y} |^{2} Σ_{i}^{(x, y) &Element; M_{i}} \frac{1}{| M_{i} |} (1 + (z_{x} - μ_{i}) {({Cov}_{i} + \frac{ϵ}{| M_{i} |} B)}^{- 1} (z_{y} - μ_{i}))

式中，W(x)是以像素点x为中心的3×3局部窗口中的9个像素的集合，β_x、β_y分别为像素点x和像素点y的半透明值，M是视频图像中包含像素点x,y的3×3局部窗口的集合，i是从M中取一个局部窗口的下标指示，μ_i、Cov_i分别为局部窗口M_i内颜色的期望和协方差，ε为规范化系数，B为3×3单位矩阵，z_x为像素点x的颜色值，z_y为像素点y的颜色值；

P^{t, t + 1} (β, z, x) = w_{f l o w}^{x, x^{'}} | β_{x} - β_{x^{'}} |

P^{t, t + 1} (β, z, x) = w_{f l o w}^{x, x^{''}} | β_{x} - β_{x^{''}} |

其中，x”为像素点x在前一帧视频图像中的光流对应像素点，为像素点x和像素点x”的光流置信度，β_x为像素点x的半透明值，β_x”为像素点x”的半透明值；

w_{f l o w}^{r, s} = \exp (- \frac{f_{e r r} (r, s)}{2 δ_{f l o w}^{2}}) \cdot \exp (- \frac{| | z_{r} - z_{s} | |}{2 δ_{c o l o r}^{2}})