CN102270346B

CN102270346B - 一种交互式视频中的目标对象的提取方法

Info

Publication number: CN102270346B
Application number: CN2011102120540A
Authority: CN
Inventors: 赵杰煜; 刘定鸣; 任振华; 秦配伟
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2011-07-27
Filing date: 2011-07-27
Publication date: 2013-05-01
Anticipated expiration: 2031-07-27
Also published as: CN102270346A

Abstract

本发明公开了一种交互式视频中的目标对象的提取方法，利用帧差法获取前后三帧图像的帧差图像作为确定目标对象的一种粗略估计，然后结合前一帧图像的矩形区域的坐标位置，确定当前帧图像中包含目标对象的矩形区域，再构建原始视频中的每帧图像的能量函数，实现目标对象的精确提取，在确定帧图像中包含目标对象的矩形区域的过程中，充分利用了前一帧图像的矩形区域的坐标位置，这样即使针对目标对象突然静止或者背景晃动等情况都能够精确确定当前帧的目标对象区域，最后对确定目标区域的每帧图像分别建立分割模型，通过图割方法能够精确提取目标对象，从而大大改善了提取精度。

Description

一种交互式视频中的目标对象的提取方法

技术领域

本发明涉及一种视频分割技术，尤其是涉及一种交互式视频中的目标对象的提取方法。

背景技术

视频分割就是把视频中重要或者人们感兴趣的物体与背景分割开，或者说就是要划分出具有一致属性的一个个区域，同时区分背景区域和前景区域。从空间分割的角度看，视频目标对象的提取主要是利用时域信息和空域信息检测视频中每帧图像独立运动的区域，从而实现视频目标对象的提取。

视频分割作为计算机视觉研究中的一项重要内容，在模式识别和机器视觉等领域中都有着广泛的应用，但是，由于视频信息的复杂性以及计算机本身的局限性，直到现在，视频目标对象的提取仍然没有得到很好的解决。这是因为：一方面，要想得到好的目标对象提取效果，必须要求视频分割算法具备一定的分析和理解能力，这一技术难题直到目前仍未解决；另一方面，在计算机视觉领域中，视频分割是一个介于底层视觉和中层视觉之间的问题，许多其它问题都是以目标对象提取作为输入，视频分割的好坏直接影响着其它问题能否成功解决，基于这些原因，视频分割一直是人们研究的热点。

视频目标对象的提取技术是在图像分割技术的基础上发展起来的，按照分割过程中所用信息不同可分为：空间分割、时间分割和时空分割。其中，空间分割和时间分割分别利用了视频的帧内信息和帧间信息。基于帧内的空间分割采用的是传统的图像分割技术，按照一定的空间信息（如颜色、灰度、边沿、纹理等）、变换域信息（如DCT（DiscreteCosine Transform，离散余弦变换）、DWT（Discrete Wavelet Transformation，离散小波变换））、统计信息、模型和先验知识（对特殊类图像）等对图像中的一致性区域进行分割，然后在帧间进行运动对象的跟踪；基于帧间的时间分割技术不仅可利用上述图像分割技术所用的信息，还可利用运动对象的时间相关性和多视点信息来进行分割。由于运动信息是运动对象的一个重要特征，因此常常根据运动的一致性来分割各个运动对象，也可以结合颜色、纹理、边沿等特征。对一个完整的视频序列来说，空间分割和时间分割用到的仅仅是部分信息，反映了视频场景的部分特征，存在一定的局限性。例如：空间分割能准确反映目标对象的边界信息，但由于缺少运动信息，无法从视频场景中单独分割提取出目标对象，而仅仅利用运动信息来分割目标区域往往不是很精确，存在分割区域的边界不准确、目标区域不连续、目标区域内部存在空洞、存在孤立的噪声区域等问题。因而，要准确地分割视频运动对象，必须充分利用帧内空间信息和帧间时间信息。

经文献检索发现，International Journal of Signal Processing,Image Processing andPattern Recognition（图像处理和模式识别）（2009，2(4)：154-168）中公开的《An EfficientVideo Segmentation Algorithm with Real time Adaptive Threshold Technique》（《一种有效的自适应阈值视频分割算法》，作者：Yasira Beevi C P）提出了一种基于运动检测的时空法，该方法依赖于视频的帧间差异获取运动信息，从而将视频中运动对象提取出来，但由于分割精度依赖于获取的运动信息的准确度，且运动信息容易受到噪声的影响，因此分割效果往往不够理想。

发明内容

本发明所要解决的技术问题是提供一种提取准确度高，且计算复杂度低的目标对象的提取方法。

本发明解决上述技术问题所采用的技术方案为：一种交互式视频中的目标对象的提取方法，其特征在于包括以下步骤：

①选取场景固定且包含有运动目标对象的视频作为待处理的原始视频；

②逐帧观察原始视频中的帧图像中是否存在目标对象，将存在目标对象的第一帧图像定义为初始帧图像，然后在初始帧图像中划定一个包含目标对象的矩形区域，并记录矩形区域的坐标位置；

③将初始帧图像之后的需处理的后续帧图像定义为当前帧图像，利用最大帧差分量的三帧差法计算当前帧图像与其前一帧图像的帧差图像及当前帧图像与其后一帧图像的帧差图像，然后计算两幅帧差图像各自对应的二值图像的公共区域及公共区域的最小外接矩形，再根据公共区域的最小外接矩形对应的矩形区域结合当前帧图像的前一帧图像的矩形区域的坐标位置，确定当前帧图像中包含目标对象的矩形区域；

④首先利用马尔可夫随机场建立原始视频中的每帧图像的图像分割模型，根据原始视频中的每帧图像的图像分割模型分别构造每帧图像的能量函数；然后采用基于颜色特征的k-means聚类方法分别对每帧图像中的包含目标对象的矩形区域和矩形区域外的背景区域进行聚类，总共得到2k个类，将2k个类表示为2k个高斯模型，将帧图像表示为由2k个高斯模型组成的高斯混合模型，再利用EM算法计算每帧图像对应的高斯混合模型的参数，最后通过计算每帧图像中的各个像素点属于不同的高斯模型时每帧图像的能量函数，确定每帧图像中的各个像素点的标记对应的最小能量值，得到每帧图像中的各个像素点的标记，实现目标对象的提取。

所述的步骤②中在初始帧图像中划定包含目标对象的矩形区域时采用人工交互方式；在记录矩形区域的坐标位置时仅记录矩形区域的左上角坐标和右下角坐标，或仅记录矩形区域的左下角坐标和右上角坐标，或记录矩形区域的左上角坐标、左下角坐标、右上角坐标和右下角坐标。

所述的步骤③的具体过程为：

③-1、设初始帧图像之后的第一帧图像为原始视频中的第t帧图像，并定义其为当前帧图像，2≤t≤M，t的初始值为2，M表示原始视频中包含的帧图像的帧数；

③-2、判断当前帧图像是否为原始视频中的最后一帧图像，如果是，则结束，否则，继续执行步骤③-3；

③-3、计算当前帧图像与其前一帧图像的帧差图像，将当前帧图像与其前一帧图像的帧差图像中坐标位置为(x,y)的像素点的像素值记为dif_pre(x,y,t)，dif_pre(x,y,t)=max{dif_pre-R(x,y,t),dif_pre-G(x,y,t),dif_pre-B(x,y,t)}，dif_pre-R(x,y,t)=|I_R(x,y,t)-I_R(x,y,t-1)|，dif_pre-G(x,y,t)=|I_G(x,y,t)-I_G(x,y,t-1)|，dif_pre-B(x,y,t)=|I_B(x,y,t)-I_B(x,y,t-1)|，其中，dif_pre-R(x,y,t)表示当前帧图像与其前一帧图像的帧差图像中坐标位置为(x,y)的像素点的红色分量的值，dif_pre-G(x,y,t)表示当前帧图像与其前一帧图像的帧差图像中坐标位置为(x,y)的像素点的绿色分量的值，dif_pre-B(x,y,t)表示当前帧图像与其前一帧图像的帧差图像中坐标位置为(x,y)的像素点的蓝色分量的值，max()为取最大值函数，“||”为绝对值符号，I_R(x,y,t)、I_G(x,y,t)和I_B(x,y,t)分别表示当前帧图像中坐标位置为(x,y)的像素点的红色分量的值、绿色分量的值和蓝色分量的值，I_R(x,y,t-1)、I_G(x,y,t-1)和I_B(x,y,t-1)分别表示当前帧图像的前一帧图像中坐标位置为(x,y)的像素点的红色分量的值、绿色分量的值和蓝色分量的值；

计算当前帧图像与其后一帧图像的帧差图像，将当前帧图像与其后一帧图像的帧差图像中坐标位置为(x,y)的像素点的像素值记为dif_aft(x,y,t)，dif_aft(x,y,t)=max{dif_aft-R(x,y,t),dif_aft-G(x,y,t),dif_aft-B(x,y,t)}，dif_aft-R(x,y,t)=|I_R(x,y,t)-I_R(x,y,t+1)|，dif_aft-G(x,y,t)=|I_G(x,y,t)-I_G(x,y,t+1)|，dif_aft-B(x,y,t)=|I_B(x,y,t)-I_B(x,y,t+1)|，其中，dif_aft-R(x,y,t)表示当前帧图像与其后一帧图像的帧差图像中坐标位置为(x,y)的像素点的红色分量的值，dif_aft-G(x,y,t)表示当前帧图像与其后一帧图像的帧差图像中坐标位置为(x,y)的像素点的绿色分量的值，dif_aft-B(x,y,t)表示当前帧图像与其后一帧图像的帧差图像中坐标位置为(x,y)的像素点的蓝色分量的值，max()为取最大值函数，“||”为绝对值符号，I_B(x,y,t)、I_G(x,y,t)和I_B(x,y,t)分别表示当前帧图像中坐标位置为(x,y)的像素点的红色分量的值、绿色分量的值和蓝色分量的值，I_R(x,y,t+1)、I_G(x,y,t+1)和I_B(x,y,t+1)分别表示当前帧图像的前一帧图像中坐标位置为(x,y)的像素点的红色分量的值、绿色分量的值和蓝色分量的值；

③-4、先后对当前帧图像与其前一帧图像的帧差图像进行腐蚀处理和二值化处理，得到当前帧图像与其前一帧图像的帧差图像对应的二值图像，将当前帧图像与其前一帧图像的帧差图像对应的二值图像中坐标位置为(x,y)的像素点的像素值记为Mov_pre(x,y,t)，

{Mov}_{pre} (x, y, t) = \{\begin{matrix} 1 & {dif}_{pre} (x, y, t) > TH \\ 0 & {dif}_{pre} (x, y, t) \leq TH \end{matrix},

其中，TH为设定的二值化阈值；

先后对当前帧图像与其后一帧图像的帧差图像进行腐蚀处理和二值化处理，得到当前帧图像与其后一帧图像的帧差图像对应的二值图像，将当前帧图像与其后一帧图像的帧差图像对应的二值图像中坐标位置为(x,y)的像素点的像素值记为Mov_aft(x,y,t)，

{Mov}_{aft} (x, y, t) = \{\begin{matrix} 1 & {dif}_{aft} (x, y, t) > TH \\ 0 & {dif}_{aft} (x, y, t) \leq TH \end{matrix},

其中，TH为设定的区域判定阈值；

③-5、计算当前帧图像与其前一帧图像的帧差图像对应的二值图像和当前帧图像与其后一帧图像的帧差图像对应的二值图像的公共区域，该公共区域为当前帧图像中的目标对象的所在区域，将公共区域中坐标位置为(x,y)的像素点的像素值记为And(x,y,t)，And(x,y,t)=Mov_pre(x,y,t)∩Mov_aft(x,y,t)，其中，“∩”表示求取公共部分的运算；然后求取公共区域的最小外接矩形，该最小外接矩形对应的矩形区域为包含目标对象的矩形区域；

③-6、根据公共区域的最小外接矩形对应的矩形区域及当前帧图像的前一帧图像的矩形区域的坐标位置，确定当前帧图像中包含目标对象的矩形区域，令表示当前帧图像的矩形区域的左上角坐标，令

表示当前帧图像的矩形区域的右下角坐标，

i_{t, L}^{'} = \{\begin{matrix} \min (i_{t - 1, L}^{'}, i_{t, L}) & | i_{t - 1, L}^{'} - i_{t, L} | \leq th \\ i_{t - 1, L}^{'} & | i_{t - 1, L}^{'} - i_{t, L} | > th \end{matrix},

j_{t, L}^{'} = \{\begin{matrix} \min (j_{t - 1, L}^{'}, j_{t, L}) & | j_{t - 1, L}^{'} - j_{t, L} | \leq th \\ j_{t - 1, L}^{'} & | j_{t - 1, L}^{'} - j_{t, L}^{'} | > th \end{matrix},

i_{t, R}^{'} = \{\begin{matrix} \min (i_{t - 1, R}^{'}, i_{t, R}) & | i_{t - 1, R}^{'} - i_{t, R} | \leq th \\ i_{t - 1, R}^{'} & | i_{t - 1, R}^{'} - i_{t, R} | > th \end{matrix},

j_{t, R}^{'} = \{\begin{matrix} \min (j_{t - 1, R}^{'}, i_{t, R}) & | j_{t - 1, R}^{'} - j_{t, R} | \leq th \\ j_{t - 1, R}^{'} & | j_{t - 1, R}^{'} - j_{t, R} | > th \end{matrix},

其中，min()为取最小值函数，

表示当前帧图像的前一帧图像的矩形区域的左上角坐标，

表示当前帧图像的前一帧图像的矩形区域的右下角坐标，(i_t，L，j_t,L)表示公共区域的最小外接矩形对应的矩形区域的左上角坐标，(i_t，R，j_t,R)表示公共区域的最小外接矩形对应的矩形区域的右下角坐标，th为设定的坐标判定阈值；

③-7、令t=t+1，将该帧图像作为当前帧图像，并返回步骤③-2继续执行。

所述的步骤③-4中对帧差图像进行腐蚀处理时采用3×3的方形结构单元或采用5×5的方形结构单元。

所述的步骤③-4中TH=100，所述的步骤③-6中th=10。

所述的步骤④的具体过程为：

④-1、利用马尔可夫随机场建立原始视频中的每帧图像的图像分割模型，再根据原始视频中的每帧图像的图像分割模型分别构造原始视频中的每帧图像的能量函数，记为E(α，K，θ，Z)，E(α，K，θ，Z)＝U(α，K,θ，Z)+V(α，Z)

D(α_n,k_n,θ，z_n)=-logp(z_n|α_n,k_n,θ)-logπ(α_n,k_n)，

其中，U(α,K,θ，Z)为用于表示帧图像中的像素点的标记为0或1的匹配程度的数据项，V(α,Z)为用于表示相邻的像素点的标记不同的惩罚代价的平滑项，m≠n，N′表示4×4邻域，Z=(z₁,...,z_n,...,z_N)表示帧图像中的N个像素点的像素值的集合，z₁表示帧图像中的第1个像素点的像素值，z_n表示帧图像中的第n个像素点的像素值，z_N表示帧图像中的第N个像素点的像素值，z_m表示帧图像中的第m个像素点的像素值，α=(α₁,...,α_n，...,α_N)表示帧图像中的N个像素点的标记的集合，α₁表示帧图像中的第1个像素点的标记，α_n表示帧图像中的第n个像素点的标记，α_N表示帧图像中的第N个像素点的标记，α_n∈{0,1}，α_n=0时表示帧图像中的第n个像素点为背景像素点，标记为背景，α_n=1时表示帧图像中的第n个像素点为前景像素点即目标对象像素点，标记为前景，α_m表示帧图像中的第m个像素点的标记，K=(1,2,...,k)，k表示高斯模型的个数，3≤k≤5，k_n表示帧图像中的第n个像素点属于第k个高斯模型，θ表示高斯混合模型的参数，p(z_n|α_n,k_n,θ)服从高斯分布，表示帧图像中的像素点属于前景和背景的概率，当像素点属于前景的概率大于像素点属于背景的概率时，该像素点属于前景，该像素点的标记为1，当像素点属于背景的概率大于像素点属于前景的概率时，该像素点属于背景，该像素点的标记为0，π(α_n,k_n)表示帧图像的高斯混合模型之间的权重，exp(-β(z_n-z_m)²)表示z_n和z_m之间的差异，exp{}表示以e为底的指数函数，e=2.71828183，λ为用于平衡数据项和平滑项的平衡参数，β＝(2<(z_m-z_n)²>)^-1表示z_n和z_m之间的差异的均值；

④-2、对于原始视频中当前正在处理的帧图像，定义其为当前帧图像，将当前帧图像的矩形区域外的区域定义为背景，记为T_B，并初始化背景T_B中的所有像素点的像素值为0，将当前帧图像的矩形区域内的区域定义为前景即目标对象区域，记为T_U，并初始化前景T_U中的所有像素点的像素值为1；

④-3、采用基于颜色特征的k-means聚类方法分别对当前帧图像的前景T_U和背景T_B进行聚类，总共得到2k个类，将2k个类表示为2k个高斯模型，对于当前帧图像中的第n个像素点，其唯一属于第k个高斯模型k_n，

其中，3≤k≤5，“:=”为定义符号，“arg”为求取下标的符号，

表示通过比较当前帧图像中的第n个像素点的标记为α_n时在不同高斯模型中的能量项D_n(α_n,k_n,θ，z_n)，取使得能量最小化时对应的第k个高斯模型；

④-4、利用EM算法计算的高斯混合模型的参数θ，

其中，“arg”为求取下标的符号，表示通过比较当前帧图像中的像素点的不同标记对应的能量项U(α,K,θ，Z)，取使得能量最小化时对应的高斯模型的参数；

④-5、计算当前帧图像中的各个像素点属于不同的高斯模型时当前帧图像的能量函数，对于当前帧图像中当前正在处理的像素点，定义其为当前像素点，将当前像素点分别代入不同的高斯模型中并计算当前像素点属于不同的高斯模型时对应的能量值；

④-6、判断当前帧图像的能量函数是否减少，如果是，则选取最小能量项对应的高斯模型和标记，更新当前像素点所属的高斯模型和标记，然后返回步骤④-4继续执行，直至当前帧图像的能量函数收敛，实现目标对象的提取，否则，不作任何处理。

所述的步骤④-1中λ=0.5。

与现有技术相比，本发明的优点在于利用帧差法获取前后三帧图像的帧差图像作为确定目标对象的一种粗略估计，然后结合前一帧图像的矩形区域的坐标位置，确定当前帧图像中包含目标对象的矩形区域，再构建原始视频中的每帧图像的能量函数，实现目标对象的精确提取，在确定帧图像中包含目标对象的矩形区域的过程中，充分利用了前一帧图像的矩形区域的坐标位置，这样即使针对目标对象突然静止或者背景晃动等情况都能够精确确定当前帧的目标对象区域，最后对确定目标区域的每帧图像分别建立分割模型，通过图割方法能够精确提取目标对象，从而大大改善了提取精度。

此外，本发明方法还可通过对连续三帧的RGB三通道求取最大帧差分量，精确的确定目标对象区域。

附图说明

图1为本发明方法的基本流程框图；

图2a为“Silent”标准测试视频序列中的第51帧图像；

图2b为“Silent”标准测试视频序列中的第81帧图像；

图2c为“Silent”标准测试视频序列中的第111帧图像；

图3为对“Silent”标准测试视频序列中的初始帧图像进行人工交互后确定的包含目标对象的矩形区域；

图4a为“Silent”标准测试视频序列中的第51帧图像与其前后两帧图像的帧差图像对应的二值图像的公共区域的最小外接矩形对应的矩形区域；

图4b为“Silent”标准测试视频序列中的第81帧图像与其前后两帧图像的帧差图像对应的二值图像的公共区域的最小外接矩形对应的矩形区域；

图4c为“Silent”标准测试视频序列中的第111帧图像与其前后两帧图像的帧差图像对应的二值图像的公共区域的最小外接矩形对应的矩形区域；

图5a为“Silent”标准测试视频序列中的第51帧图像的包含目标对象的矩形区域；

图5b为“Silent”标准测试视频序列中的第81帧图像的包含目标对象的矩形区域；

图5c为“Silent”标准测试视频序列中的第111帧图像的包含目标对象的矩形区域；

图6a为从“Silent”标准测试视频序列中的第51帧图像中提取的目标对象；

图6b为从“Silent”标准测试视频序列中的第81帧图像中提取的目标对象；

图6c为从“Silent”标准测试视频序列中的第111帧图像中提取的目标对象。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种交互式视频中的目标对象的提取方法，其基本流程框图如图1所示，其主要包括以下步骤：

①选取场景固定且包含有运动目标对象的一段视频作为待处理的原始视频。

在此，采用标准测试视频序列Silent作为原始视频，Silent中每帧图像的分辨率都为352×288，帧率为30帧每秒，即30fps，图2a、图2b和图2c分别给出了“Silent”标准测试视频序列中的第51、81、111帧图像。

②逐帧观察原始视频中的帧图像中是否存在目标对象，将存在目标对象的第一帧图像定义为初始帧图像，然后在初始帧图像中划定一个包含目标对象的矩形区域，并记录矩形区域的坐标位置。

在此具体实施例中，在初始帧图像中划定包含目标对象的矩形区域可采用人工交互方式；在记录矩形区域的坐标位置时可仅记录矩形区域的左上角坐标和右下角坐标，也可仅记录矩形区域的左下角坐标和右上角坐标，或还可记录下矩形区域的左上角坐标、左下角坐标、右上角坐标和右下角坐标。

在此，例如对“Silent”标准测试视频序列中的初始帧图像通过人工交互方式确定一个包含目标对象的矩形区域，如图3所示。

③将初始帧图像之后的需处理的后续帧图像定义为当前帧图像，利用最大帧差分量的三帧差法计算当前帧图像与其前一帧图像的帧差图像及当前帧图像与其后一帧图像的帧差图像，然后计算两幅帧差图像各自对应的二值图像的公共区域及公共区域的最小外接矩形，再根据公共区域的最小外接矩形对应的矩形区域结合当前帧图像的前一帧图像的矩形区域的坐标位置，确定当前帧图像中包含目标对象的矩形区域。

在此具体实施例中，步骤③的具体过程为：

③-1、设初始帧图像之后的第一帧图像为原始视频中的第t帧图像，并定义其为当前帧图像，2≤t≤M，t的初始值为2，M表示原始视频中包含的帧图像的帧数。

③-2、判断当前帧图像是否为原始视频中的最后一帧图像，如果是，则结束，否则，继续执行步骤③-3。

③-3、计算当前帧图像与其前一帧图像的帧差图像，将当前帧图像与其前一帧图像的帧差图像中坐标位置为(x,y)的像素点的像素值记为dif_pre(x,y,t)，dif_pre(x,y,t)=max{dif_pre-R(x,y,t),dif_pre-G(x,y,t),dif_pre-B(x,y,t)}，dif_pre-R(x,y,t)=|I_R(x,y,t)-I_R(x,y,t-1)|，dif_pre-G(x,y,t)=|I_G(x,y,t)-I_G(x,y,t-1)|，dif_pre-B(x,y,t)=|I_B(x,y,t)-I_B(x,y,t-1)|，其中，dif_pre-R(x,y,t)表示当前帧图像与其前一帧图像的帧差图像中坐标位置为(x,y)的像素点的红色分量的值，dif_pre-G(x,y,t)表示当前帧图像与其前一帧图像的帧差图像中坐标位置为(x,y)的像素点的绿色分量的值，dif_pre-B(x,y,t)表示当前帧图像与其前一帧图像的帧差图像中坐标位置为(x,y)的像素点的蓝色分量的值，max()为取最大值函数，“||”为绝对值符号，I_R(x,y,t)、I_G(x,y,t)和I_B(x,y,t)分别表示当前帧图像中坐标位置为(x,y)的像素点的红色分量的值、绿色分量的值和蓝色分量的值，I_R(x,y,t-1)、I_G(x,y,t-1)和I_B(x,y,t-1)分别表示当前帧图像的前一帧图像中坐标位置为(x,y)的像素点的红色分量的值、绿色分量的值和蓝色分量的值。

计算当前帧图像与其后一帧图像的帧差图像，将当前帧图像与其后一帧图像的帧差图像中坐标位置为(x,y)的像素点的像素值记为dif_aft(x,y,t)，dif_aft(x,y,t)=max{dif_aft-R(x,y,t),dif_aft-G(x,y,t),dif_aft-B(x,y,t)}，dif_aft-R(x,y,t)=|I_R(x,y,t)-I_R(x,y,t+1)|，dif_aft-G(x,y,t)=|I_G(x,y,t)-I_G(x,y,t+1)|，dif_aft-B(x,y,t)=|I_B(x,y,t)-I_B(x,y,t+1)|，其中，dif_aft-R(x,y,t)表示当前帧图像与其后一帧图像的帧差图像中坐标位置为(x,y)的像素点的红色分量的值，dif_aft-G(x,y,t)表示当前帧图像与其后一帧图像的帧差图像中坐标位置为(x,y)的像素点的绿色分量的值，dif_aft-B(x,y,t)表示当前帧图像与其后一帧图像的帧差图像中坐标位置为(x,y)的像素点的蓝色分量的值，max()为取最大值函数，“||”为绝对值符号，I_R(x,y,t)、I_G(x,y,t)和I_B(x,y,t)分别表示当前帧图像中坐标位置为(x,y)的像素点的红色分量的值、绿色分量的值和蓝色分量的值，I_R(x,y,t+1)、I_G(x,y,t+1)和I_B(x,y,t+1)分别表示当前帧图像的前一帧图像中坐标位置为(x,y)的像素点的红色分量的值、绿色分量的值和蓝色分量的值。

在此具体实施例中，本发明方法为了精确地得到帧差图像，对彩色图像RGB三通道分别做帧差从而确定最大帧差分量。

{Mov}_{pre} (x, y, t) = \{\begin{matrix} 1 & {dif}_{pre} (x, y, t) > TH \\ 0 & {dif}_{pre} (x, y, t) \leq TH \end{matrix},

其中，TH为设定的二值化阈值。

{Mov}_{aft} (x, y, t) = \{\begin{matrix} 1 & {dif}_{aft} (x, y, t) > TH \\ 0 & {dif}_{aft} (x, y, t) \leq TH \end{matrix},

其中，TH为设定的区域判定阈值。

在此具体实施例中，对帧差图像进行腐蚀处理时可采用3×3的方形结构腐蚀单元或采用5×5的方形结构腐蚀单元，在实际处理过程中也可根据实际情况选择大小不同的腐蚀单元对帧差图像进行腐蚀处理，在此对帧差图像进行腐蚀处理目的是为了减少噪声的影响；在此，取TH=100，该值是通过多次实验结果比较得到的，实验表明TH取100时能够很好地获得包含有运动区域的二值图像。

③-5、计算当前帧图像与其前一帧图像的帧差图像对应的二值图像和当前帧图像与其后一帧图像的帧差图像对应的二值图像的公共区域，该公共区域为当前帧图像中的目标对象的所在区域即运动区域，将公共区域中坐标位置为(x,y)的像素点的像素值记为And(x,y,t)，And(x,y,t)=Mov_pre(x,y,t)∩Mov_aft(x,y,t)，其中，“∩”表示求取公共部分的运算；然后求取公共区域的最小外接矩形，该最小外接矩形对应的矩形区域为包含目标对象的矩形区域。

在此，公共区域的最小外接矩形可通过现有技术求取，如采用常见的行列扫描方式。

图4a给出了图2a所示的帧图像与其前后两帧图像的帧差图像对应的二值图像的公共区域的最小外接矩形对应的矩形区域，图4b给出了图2b所示的帧图像与其前后两帧图像的帧差图像对应的二值图像的公共区域的最小外接矩形对应的矩形区域，图4c给出了图2c所示的帧图像与其前后两帧图像的帧差图像对应的二值图像的公共区域的最小外接矩形对应的矩形区域。

③-6、针对原始视频中的目标对象可能出现静止或部分静止的情况，仅仅通过检测运动区域是无法提取目标对象的，因此本发明方法根据公共区域的最小外接矩形对应的矩形区域及当前帧图像的前一帧图像的矩形区域的坐标位置，确定当前帧图像中包含目标对象的矩形区域，令

表示当前帧图像的矩形区域的左上角坐标，令

表示当前帧图像的矩形区域的右下角坐标，

i_{t, L}^{'} = \{\begin{matrix} \min (i_{t - 1, L}^{'}, i_{t, L}) & | i_{t - 1, L}^{'} - i_{t, L} | \leq th \\ i_{t - 1, L}^{'} & | i_{t - 1, L}^{'} - i_{t, L} | > th \end{matrix},

j_{t, L}^{'} = \{\begin{matrix} \min (j_{t - 1, L}^{'}, j_{t, L}) & | j_{t - 1, L}^{'} - j_{t, L} | \leq th \\ j_{t - 1, L}^{'} & | j_{t - 1, L}^{'} - j_{t, L}^{'} | > th \end{matrix},

i_{t, R}^{'} = \{\begin{matrix} \min (i_{t - 1, R}^{'}, i_{t, R}) & | i_{t - 1, R}^{'} - i_{t, R} | \leq th \\ i_{t - 1, R}^{'} & | i_{t - 1, R}^{'} - i_{t, R} | > th \end{matrix},

j_{t, R}^{'} = \{\begin{matrix} \min (j_{t - 1, R}^{'}, i_{t, R}) & | j_{t - 1, R}^{'} - j_{t, R} | \leq th \\ j_{t - 1, R}^{'} & | j_{t - 1, R}^{'} - j_{t, R} | > th \end{matrix},

其中，min()为取最小值函数，表示当前帧图像的前一帧图像的矩形区域的左上角坐标，

表示当前帧图像的前一帧图像的矩形区域的右下角坐标，(i_t，L，j_t,L)表示公共区域的最小外接矩形对应的矩形区域的左上角坐标，(i_t，R，j_t,R)表示公共区域的最小外接矩形对应的矩形区域的右下角坐标，th为设定的坐标判定阈值。

在此，取th=10，该值是通过多次实验结果比较得到的经验阈值，实验结果表明th取10个像素点时，效果最理想。

图5a、5b和图5c分别给出了图2a、图2b和图2c所示的帧图像的包含目标对象的矩形区域，该包含目标对象的矩形区域并不全是帧图像的前景，只是帧图像的可能的前景。

④首先利用马尔可夫随机场建立原始视频中的每帧图像的图像分割模型，根据原始视频中的每帧图像的图像分割模型分别构造每帧图像的能量函数；然后采用基于颜色特征的k-means聚类方法分别对每帧图像中的包含目标对象的矩形区域和矩形区域外的背景区域进行聚类，总共得到2k个类（帧图像中的包含目标对象的矩形区域对应k个类，帧图像中的矩形区域外的背景区域对应k个类），每个类用一个高斯模型表示，2k个类用2k个高斯模型表示，即每帧图像可以表示为由2k个高斯模型组成的高斯混合模型，再利用EM算法计算每帧图像对应的高斯混合模型的参数，最后通过计算每帧图像中的各个像素点属于不同的高斯模型时帧图像的能量函数，比较得到每帧图像中的各个像素点的标记对应的最小能量值，从而确定每帧图像中的各个像素点的标记，实现目标对象的提取。

在此具体实施例中，步骤④的具体过程为：

④-1、利用马尔可夫随机场（MRF）建立原始视频中的每帧图像的图像分割模型，即构建原始视频中的每帧图像的图模型，具体过程为：将原始视频中的每帧图像用二维网格表示为：S={s|s=(i,j),i∈{1,2,...,W},j∈{1,2,...,H}}，其中，W和H分别表示帧图像的宽度和高度，这样W×H大小的帧图像中任意一个像素点就同二维空间网格位置(i,j)一一对应，这样的二维网格也可以看作一个图，记为G(v,ε)，其中v对应二维网格中的节点，ε表示连接相邻节点的边，图像分割过程就可以看出是对每个节点的标记过程，标签可以用0和1表示，0表示背景像素点，1表示前景像素点，为图模型G(v,ε)中的节点赋值为：

为图模型G(v,ε)中的边赋值为：再根据原始视频中的每帧图像的图像分割模型构造原始视频中的每帧图像的能量函数，记为E(α,K,θ，Z)，E(α,K,θ，Z)=U(α,K,θ，Z)+V(α,Z)，

D(α_n,k_n,θ，z_n)=-log p(z_n|α_n,k_n,θ)-logπ(α_n,k_n)，

V (\underset{&OverBar;}{α}, Z) = λ \underset{(m, n) &Element; N^{'}}{Σ} | α_{n} - α_{m} | \exp (- β {(z_{n} - z_{m})}^{2}),

其中，U(α,K,θ，Z)为用于表示帧图像中的像素点的标记为0或1的匹配程度的数据项，V(α,Z)为用于表示相邻的像素点的标记不同的惩罚代价的平滑项，m≠n，N′表示4×4邻域，Z=(z₁，...,z_n,...,z_N)表示帧图像中的N个像素点的像素值的集合，z₁表示帧图像中的第1个像素点的像素值，z_n表示帧图像中的第n个像素点的像素值，z_N表示帧图像中的第N个像素点的像素值，z_m表示帧图像中的第m个像素点的像素值，α=(α₁,...,α_n，...,α_N)表示帧图像中的N个像素点的标记的集合，α₁表示帧图像中的第1个像素点的标记，α_n表示帧图像中的第n个像素点的标记，α_N表示帧图像中的第N个像素点的标记，α_n∈{0,1}，α_n=0时表示帧图像中的第n个像素点为背景像素点，标记为背景，α_n=1时表示帧图像中的第n个像素点为前景像素点即目标对象像素点，标记为前景，α_m表示帧图像中的第m个像素点的标记，K=(1,2,...,k)，k表示高斯模型的个数，3≤k≤5，k_n表示帧图像中的第n个像素点属于第k个高斯模型，θ表示高斯混合模型的参数，也是一个向量，包含有期望和协方差，p(z_n|α_n,k_n,θ)服从高斯分布，表示帧图像中的像素点属于前景和背景的概率，当像素点属于前景的概率大于像素点属于背景的概率时，该像素点属于前景，该像素点的标记为1，当像素点属于背景的概率大于像素点属于前景的概率时，该像素点属于背景，该像素点的标记为0，π(α_n,k_n)表示帧图像的高斯混合模型之间的权重，exp(-β(z_n-z_m)²)表示z_n和z_m之间的差异，exp{}表示以e为底的指数函数，e=2.71828183，λ为用于平衡数据项和平滑项的平衡参数，β＝(2<(z_m-z_n)²>)^-1表示z_n和z_m之间的差异的均值，是为了使得相邻像素点的像素值差异越大时对应的平滑项能量越大，相邻像素点的像素值差异越小时对应的平滑项能量越小。

在此具体实施例中，λ=0.5。

④-2、对于原始视频中当前正在处理的帧图像，定义其为当前帧图像，将当前帧图像的矩形区域外的区域定义为背景，记为T_B，并初始化背景T_B中的所有像素点的像素值为0，将当前帧图像的矩形区域内的区域定义为前景即目标对象区域，记为T_U，并初始化前景T_U中的所有像素点的像素值为1。

④-3、采用基于颜色特征的k-means聚类方法分别对当前帧图像的前景T_U和背景T_B进行聚类，总共得到2k个类，一个类可用一个高斯模型表示，2k个类可用2k个高斯模型表示，即可将当前帧图像表示为2k个高斯模型组成的高斯混合模型，对于当前帧图像中的第n个像素点，其唯一属于第k（3≤k≤5）个高斯模型，可表示成k_n，

其中，“:=”为定义符号，“arg”为求取下标的符号，

表示通过比较当前帧图像中的第n个像素点的标记为α_n时在不同高斯模型中的能量项D_n(α_n,k_n,θ，z_n)，取使得能量最小化时对应的第k个高斯模型。

④-4、利用EM算法分别计算表示当前帧图像的高斯混合模型的参数θ，

其中，“arg”为求取下标的符号，

表示通过比较当前帧图像中的像素点的不同标记对应的能量项U(α,K,θ，Z)，取使得能量最小化时对应的高斯模型的参数。

④-5、计算当前帧图像中的各个像素点属于不同的高斯模型时当前帧图像的能量函数，对于当前帧图像中当前正在处理的像素点，定义其为当前像素点，将其分别代入不同的高斯模型中，并计算当前像素点属于不同的高斯模型时对应的能量值；

图6a、6b和6c分别给出了从图2a、2b和2c所示的帧图像中提取得到的目标对象。

Claims

1.一种交互式视频中的目标对象的提取方法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种交互式视频中的目标对象的提取方法，其特征在于所述的步骤②中在初始帧图像中划定包含目标对象的矩形区域时采用人工交互方式；在记录矩形区域的坐标位置时仅记录矩形区域的左上角坐标和右下角坐标，或仅记录矩形区域的左下角坐标和右上角坐标，或记录矩形区域的左上角坐标、左下角坐标、右上角坐标和右下角坐标。

3.根据权利要求1或2所述的一种交互式视频中的目标对象的提取方法，其特征在于所述的步骤③的具体过程为：

计算当前帧图像与其后一帧图像的帧差图像，将当前帧图像与其后一帧图像的帧差图像中坐标位置为(x,y)的像素点的像素值记为dif_aft(x,y,t)，dif_aft(x,y,t)=max{dif_aft-R(x,y,t),dif_aft-G(x,y,t),dif_aft-B(x,y,t)}，dif_aft-R(x,y,t)=|I_R(x,y,t)-I_R(x,y,t+1)|，dif_aft-G(x,y,t)=|I_G(x,y,t)-I_G(x,y,t+1)|，dif_aft-B(x,y,t)=|I_B(x,y,t)-I_B(x,y,t+1)|，其中，dif_aft-R(x,y,t)表示当前帧图像与其后一帧图像的帧差图像中坐标位置为(x,y)的像素点的红色分量的值，dif_aft-G(x,y,t)表示当前帧图像与其后一帧图像的帧差图像中坐标位置为(x,y)的像素点的绿色分量的值，dif_aft-B(x,y,t)表示当前帧图像与其后一帧图像的帧差图像中坐标位置为(x,y)的像素点的蓝色分量的值，max()为取最大值函数，“||”为绝对值符号，I_R(x,y,t)、I_G(x,y,t)和I_B(x,y,t)分别表示当前帧图像中坐标位置为(x,y)的像素点的红色分量的值、绿色分量的值和蓝色分量的值，I_R(x,y,t+1)、I_G(x,y,t+1)和I_B(x,y,t+1)分别表示当前帧图像的前一帧图像中坐标位置为(x,y)的像素点的红色分量的值、绿色分量的值和蓝色分量的值；

{Mov}_{pre} (x, y, t) = \{\begin{matrix} 1 & {dif}_{pre} (x, y, t) > TH \\ 0 & {dif}_{pre} (x, y, t) \leq TH \end{matrix},

其中，TH为设定的二值化阈值；

{Mov}_{aft} (x, y, t) = \{\begin{matrix} 1 & {dif}_{aft} (x, y, t) > TH \\ 0 & {dif}_{aft} (x, y, t) \leq TH \end{matrix},

其中，TH为设定的区域判定阈值；

③-6、根据公共区域的最小外接矩形对应的矩形区域及当前帧图像的前一帧图像的矩形区域的坐标位置，确定当前帧图像中包含目标对象的矩形区域，令

表示当前帧图像的矩形区域的左上角坐标，令

表示当前帧图像的矩形区域的右下角坐标，

i_{t, L}^{'} = \{\begin{matrix} \min (i_{t - 1, L}^{'}, i_{t, L}) & | i_{t - 1, L}^{'} - i_{t, L} | \leq th \\ i_{t - 1, L}^{'} & | i_{t - 1, L}^{'} - i_{t, L} | > th \end{matrix},

j_{t, L}^{'} = \{\begin{matrix} \min (j_{t - 1, L}^{'}, j_{t, L}) & | j_{t - 1, L}^{'} - j_{t, L} | \leq th \\ j_{t - 1, L}^{'} & | j_{t - 1, L}^{'} - j_{t, L}^{'} | > th \end{matrix},

i_{t, R}^{'} = \{\begin{matrix} \min (i_{t - 1, R}^{'}, i_{t, R}) & | i_{t - 1, R}^{'} - i_{t, R} | \leq th \\ i_{t - 1, R}^{'} & | i_{t - 1, R}^{'} - i_{t, R} | > th \end{matrix},

j_{t, R}^{'} = \{\begin{matrix} \min (j_{t - 1, R}^{'}, i_{t, R}) & | j_{t - 1, R}^{'} - j_{t, R} | \leq th \\ j_{t - 1, R}^{'} & | j_{t - 1, R}^{'} - j_{t, R} | > th \end{matrix},

其中，min()为取最小值函数，

表示当前帧图像的前一帧图像的矩形区域的左上角坐标，

4.根据权利要求3所述的一种交互式视频中的目标对象的提取方法，其特征在于所述的步骤③-4中对帧差图像进行腐蚀处理时采用3×3的方形结构单元或采用5×5的方形结构单元。

5.根据权利要求4所述的一种交互式视频中的目标对象的提取方法，其特征在于所述的步骤③-4中TH=100，所述的步骤③-6中th=10。

6.根据权利要求5所述的一种交互式视频中的目标对象的提取方法，其特征在于所述的步骤④的具体过程为：

④-1、利用马尔可夫随机场建立原始视频中的每帧图像的图像分割模型，再根据原始视频中的每帧图像的图像分割模型分别构造原始视频中的每帧图像的能量函数，记为E(α,K,θ，Z)，E(α,K,θ，Z)=U(α,K,θ，Z)+V(α,Z)，D(α_n,k_n,θ，z_n)=-logp(z_n|α_n,k_n,θ)-logπ(α_n,k_n)，

其中，U(α,K,θ，Z)为用于表示帧图像中的像素点的标记为0或1的匹配程度的数据项，V(α,Z)为用于表示相邻的像素点的标记不同的惩罚代价的平滑项，m≠n，N′表示4×4邻域，Z=(z₁，...,z_n,...,z_N)表示帧图像中的N个像素点的像素值的集合，z₁表示帧图像中的第1个像素点的像素值，z_n表示帧图像中的第n个像素点的像素值，z_N表示帧图像中的第N个像素点的像素值，z_m表示帧图像中的第m个像素点的像素值，α=(α₁,...,α_n，...,α_N)表示帧图像中的N个像素点的标记的集合，α₁表示帧图像中的第1个像素点的标记，α_n表示帧图像中的第n个像素点的标记，α_N表示帧图像中的第N个像素点的标记，α_n∈{0,1}，α_n=0时表示帧图像中的第n个像素点为背景像素点，标记为背景，α_n=1时表示帧图像中的第n个像素点为前景像素点即目标对象像素点，标记为前景，α_m表示帧图像中的第m个像素点的标记，K=(1,2,...,k)，k表示高斯模型的个数，3≤k≤5，k_n表示帧图像中的第n个像素点属于第k个高斯模型，θ表示高斯混合模型的参数，p(z_n|α_n,k_n,θ)服从高斯分布，表示帧图像中的像素点属于前景和背景的概率，当像素点属于前景的概率大于像素点属于背景的概率时，该像素点属于前景，该像素点的标记为1，当像素点属于背景的概率大于像素点属于前景的概率时，该像素点属于背景，该像素点的标记为0，π(α_n,k_n)表示帧图像的高斯混合模型之间的权重，exp(-β(z_n-z_m)²)表示z_n和z_m之间的差异，exp{}表示以e为底的指数函数，e=2.71828183，λ为用于平衡数据项和平滑项的平衡参数，β＝(2<(z_m-z_n)²>)^-1表示z_n和z_m之间的差异的均值；

④-3、采用基于颜色特征的k-means聚类方法分别对当前帧图像的前景T_U和背景T_B进行聚类，总共得到2k个类，将2k个类表示为2k个高斯模型，对于当前帧图像中的第n个像素点，其唯一属于第k个高斯模型kn，

④-4、利用EM算法计算的高斯混合模型的参数θ，

其中，“arg”为求取下标的符号，

表示通过比较当前帧图像中的像素点的不同标记对应的能量项U(α,K,θ，Z)，取使得能量最小化时对应的高斯模型的参数；

7.根据权利要求6所述的一种交互式视频中的目标对象的提取方法，其特征在于所述的步骤④-1中λ=0.5。