CN102270346B - 一种交互式视频中的目标对象的提取方法 - Google Patents

一种交互式视频中的目标对象的提取方法 Download PDF

Info

Publication number
CN102270346B
CN102270346B CN2011102120540A CN201110212054A CN102270346B CN 102270346 B CN102270346 B CN 102270346B CN 2011102120540 A CN2011102120540 A CN 2011102120540A CN 201110212054 A CN201110212054 A CN 201110212054A CN 102270346 B CN102270346 B CN 102270346B
Authority
CN
China
Prior art keywords
pixel
frame image
image
field picture
current frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2011102120540A
Other languages
English (en)
Other versions
CN102270346A (zh
Inventor
赵杰煜
刘定鸣
任振华
秦配伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo University
Original Assignee
Ningbo University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo University filed Critical Ningbo University
Priority to CN2011102120540A priority Critical patent/CN102270346B/zh
Publication of CN102270346A publication Critical patent/CN102270346A/zh
Application granted granted Critical
Publication of CN102270346B publication Critical patent/CN102270346B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种交互式视频中的目标对象的提取方法,利用帧差法获取前后三帧图像的帧差图像作为确定目标对象的一种粗略估计,然后结合前一帧图像的矩形区域的坐标位置,确定当前帧图像中包含目标对象的矩形区域,再构建原始视频中的每帧图像的能量函数,实现目标对象的精确提取,在确定帧图像中包含目标对象的矩形区域的过程中,充分利用了前一帧图像的矩形区域的坐标位置,这样即使针对目标对象突然静止或者背景晃动等情况都能够精确确定当前帧的目标对象区域,最后对确定目标区域的每帧图像分别建立分割模型,通过图割方法能够精确提取目标对象,从而大大改善了提取精度。

Description

一种交互式视频中的目标对象的提取方法
技术领域
本发明涉及一种视频分割技术,尤其是涉及一种交互式视频中的目标对象的提取方法。
背景技术
视频分割就是把视频中重要或者人们感兴趣的物体与背景分割开,或者说就是要划分出具有一致属性的一个个区域,同时区分背景区域和前景区域。从空间分割的角度看,视频目标对象的提取主要是利用时域信息和空域信息检测视频中每帧图像独立运动的区域,从而实现视频目标对象的提取。
视频分割作为计算机视觉研究中的一项重要内容,在模式识别和机器视觉等领域中都有着广泛的应用,但是,由于视频信息的复杂性以及计算机本身的局限性,直到现在,视频目标对象的提取仍然没有得到很好的解决。这是因为:一方面,要想得到好的目标对象提取效果,必须要求视频分割算法具备一定的分析和理解能力,这一技术难题直到目前仍未解决;另一方面,在计算机视觉领域中,视频分割是一个介于底层视觉和中层视觉之间的问题,许多其它问题都是以目标对象提取作为输入,视频分割的好坏直接影响着其它问题能否成功解决,基于这些原因,视频分割一直是人们研究的热点。
视频目标对象的提取技术是在图像分割技术的基础上发展起来的,按照分割过程中所用信息不同可分为:空间分割、时间分割和时空分割。其中,空间分割和时间分割分别利用了视频的帧内信息和帧间信息。基于帧内的空间分割采用的是传统的图像分割技术,按照一定的空间信息(如颜色、灰度、边沿、纹理等)、变换域信息(如DCT(DiscreteCosine Transform,离散余弦变换)、DWT(Discrete Wavelet Transformation,离散小波变换))、统计信息、模型和先验知识(对特殊类图像)等对图像中的一致性区域进行分割,然后在帧间进行运动对象的跟踪;基于帧间的时间分割技术不仅可利用上述图像分割技术所用的信息,还可利用运动对象的时间相关性和多视点信息来进行分割。由于运动信息是运动对象的一个重要特征,因此常常根据运动的一致性来分割各个运动对象,也可以结合颜色、纹理、边沿等特征。对一个完整的视频序列来说,空间分割和时间分割用到的仅仅是部分信息,反映了视频场景的部分特征,存在一定的局限性。例如:空间分割能准确反映目标对象的边界信息,但由于缺少运动信息,无法从视频场景中单独分割提取出目标对象,而仅仅利用运动信息来分割目标区域往往不是很精确,存在分割区域的边界不准确、目标区域不连续、目标区域内部存在空洞、存在孤立的噪声区域等问题。因而,要准确地分割视频运动对象,必须充分利用帧内空间信息和帧间时间信息。
经文献检索发现,International Journal of Signal Processing,Image Processing andPattern Recognition(图像处理和模式识别)(2009,2(4):154-168)中公开的《An EfficientVideo Segmentation Algorithm with Real time Adaptive Threshold Technique》(《一种有效的自适应阈值视频分割算法》,作者:Yasira Beevi C P)提出了一种基于运动检测的时空法,该方法依赖于视频的帧间差异获取运动信息,从而将视频中运动对象提取出来,但由于分割精度依赖于获取的运动信息的准确度,且运动信息容易受到噪声的影响,因此分割效果往往不够理想。
发明内容
本发明所要解决的技术问题是提供一种提取准确度高,且计算复杂度低的目标对象的提取方法。
本发明解决上述技术问题所采用的技术方案为:一种交互式视频中的目标对象的提取方法,其特征在于包括以下步骤:
①选取场景固定且包含有运动目标对象的视频作为待处理的原始视频;
②逐帧观察原始视频中的帧图像中是否存在目标对象,将存在目标对象的第一帧图像定义为初始帧图像,然后在初始帧图像中划定一个包含目标对象的矩形区域,并记录矩形区域的坐标位置;
③将初始帧图像之后的需处理的后续帧图像定义为当前帧图像,利用最大帧差分量的三帧差法计算当前帧图像与其前一帧图像的帧差图像及当前帧图像与其后一帧图像的帧差图像,然后计算两幅帧差图像各自对应的二值图像的公共区域及公共区域的最小外接矩形,再根据公共区域的最小外接矩形对应的矩形区域结合当前帧图像的前一帧图像的矩形区域的坐标位置,确定当前帧图像中包含目标对象的矩形区域;
④首先利用马尔可夫随机场建立原始视频中的每帧图像的图像分割模型,根据原始视频中的每帧图像的图像分割模型分别构造每帧图像的能量函数;然后采用基于颜色特征的k-means聚类方法分别对每帧图像中的包含目标对象的矩形区域和矩形区域外的背景区域进行聚类,总共得到2k个类,将2k个类表示为2k个高斯模型,将帧图像表示为由2k个高斯模型组成的高斯混合模型,再利用EM算法计算每帧图像对应的高斯混合模型的参数,最后通过计算每帧图像中的各个像素点属于不同的高斯模型时每帧图像的能量函数,确定每帧图像中的各个像素点的标记对应的最小能量值,得到每帧图像中的各个像素点的标记,实现目标对象的提取。
所述的步骤②中在初始帧图像中划定包含目标对象的矩形区域时采用人工交互方式;在记录矩形区域的坐标位置时仅记录矩形区域的左上角坐标和右下角坐标,或仅记录矩形区域的左下角坐标和右上角坐标,或记录矩形区域的左上角坐标、左下角坐标、右上角坐标和右下角坐标。
所述的步骤③的具体过程为:
③-1、设初始帧图像之后的第一帧图像为原始视频中的第t帧图像,并定义其为当前帧图像,2≤t≤M,t的初始值为2,M表示原始视频中包含的帧图像的帧数;
③-2、判断当前帧图像是否为原始视频中的最后一帧图像,如果是,则结束,否则,继续执行步骤③-3;
③-3、计算当前帧图像与其前一帧图像的帧差图像,将当前帧图像与其前一帧图像的帧差图像中坐标位置为(x,y)的像素点的像素值记为difpre(x,y,t),difpre(x,y,t)=max{difpre-R(x,y,t),difpre-G(x,y,t),difpre-B(x,y,t)},difpre-R(x,y,t)=|IR(x,y,t)-IR(x,y,t-1)|,difpre-G(x,y,t)=|IG(x,y,t)-IG(x,y,t-1)|,difpre-B(x,y,t)=|IB(x,y,t)-IB(x,y,t-1)|,其中,difpre-R(x,y,t)表示当前帧图像与其前一帧图像的帧差图像中坐标位置为(x,y)的像素点的红色分量的值,difpre-G(x,y,t)表示当前帧图像与其前一帧图像的帧差图像中坐标位置为(x,y)的像素点的绿色分量的值,difpre-B(x,y,t)表示当前帧图像与其前一帧图像的帧差图像中坐标位置为(x,y)的像素点的蓝色分量的值,max()为取最大值函数,“||”为绝对值符号,IR(x,y,t)、IG(x,y,t)和IB(x,y,t)分别表示当前帧图像中坐标位置为(x,y)的像素点的红色分量的值、绿色分量的值和蓝色分量的值,IR(x,y,t-1)、IG(x,y,t-1)和IB(x,y,t-1)分别表示当前帧图像的前一帧图像中坐标位置为(x,y)的像素点的红色分量的值、绿色分量的值和蓝色分量的值;
计算当前帧图像与其后一帧图像的帧差图像,将当前帧图像与其后一帧图像的帧差图像中坐标位置为(x,y)的像素点的像素值记为difaft(x,y,t),difaft(x,y,t)=max{difaft-R(x,y,t),difaft-G(x,y,t),difaft-B(x,y,t)},difaft-R(x,y,t)=|IR(x,y,t)-IR(x,y,t+1)|,difaft-G(x,y,t)=|IG(x,y,t)-IG(x,y,t+1)|,difaft-B(x,y,t)=|IB(x,y,t)-IB(x,y,t+1)|,其中,difaft-R(x,y,t)表示当前帧图像与其后一帧图像的帧差图像中坐标位置为(x,y)的像素点的红色分量的值,difaft-G(x,y,t)表示当前帧图像与其后一帧图像的帧差图像中坐标位置为(x,y)的像素点的绿色分量的值,difaft-B(x,y,t)表示当前帧图像与其后一帧图像的帧差图像中坐标位置为(x,y)的像素点的蓝色分量的值,max()为取最大值函数,“||”为绝对值符号,IB(x,y,t)、IG(x,y,t)和IB(x,y,t)分别表示当前帧图像中坐标位置为(x,y)的像素点的红色分量的值、绿色分量的值和蓝色分量的值,IR(x,y,t+1)、IG(x,y,t+1)和IB(x,y,t+1)分别表示当前帧图像的前一帧图像中坐标位置为(x,y)的像素点的红色分量的值、绿色分量的值和蓝色分量的值;
③-4、先后对当前帧图像与其前一帧图像的帧差图像进行腐蚀处理和二值化处理,得到当前帧图像与其前一帧图像的帧差图像对应的二值图像,将当前帧图像与其前一帧图像的帧差图像对应的二值图像中坐标位置为(x,y)的像素点的像素值记为Movpre(x,y,t), Mov pre ( x , y , t ) = 1 dif pre ( x , y , t ) > TH 0 dif pre ( x , y , t ) ≤ TH , 其中,TH为设定的二值化阈值;
先后对当前帧图像与其后一帧图像的帧差图像进行腐蚀处理和二值化处理,得到当前帧图像与其后一帧图像的帧差图像对应的二值图像,将当前帧图像与其后一帧图像的帧差图像对应的二值图像中坐标位置为(x,y)的像素点的像素值记为Movaft(x,y,t), Mov aft ( x , y , t ) = 1 dif aft ( x , y , t ) > TH 0 dif aft ( x , y , t ) ≤ TH , 其中,TH为设定的区域判定阈值;
③-5、计算当前帧图像与其前一帧图像的帧差图像对应的二值图像和当前帧图像与其后一帧图像的帧差图像对应的二值图像的公共区域,该公共区域为当前帧图像中的目标对象的所在区域,将公共区域中坐标位置为(x,y)的像素点的像素值记为And(x,y,t),And(x,y,t)=Movpre(x,y,t)∩Movaft(x,y,t),其中,“∩”表示求取公共部分的运算;然后求取公共区域的最小外接矩形,该最小外接矩形对应的矩形区域为包含目标对象的矩形区域;
③-6、根据公共区域的最小外接矩形对应的矩形区域及当前帧图像的前一帧图像的矩形区域的坐标位置,确定当前帧图像中包含目标对象的矩形区域,令表示当前帧图像的矩形区域的左上角坐标,令
Figure GDA00002392305400052
表示当前帧图像的矩形区域的右下角坐标, i t , L ′ = min ( i t - 1 , L ′ , i t , L ) | i t - 1 , L ′ - i t , L | ≤ th i t - 1 , L ′ | i t - 1 , L ′ - i t , L | > th , j t , L ′ = min ( j t - 1 , L ′ , j t , L ) | j t - 1 , L ′ - j t , L | ≤ th j t - 1 , L ′ | j t - 1 , L ′ - j t , L ′ | > th , i t , R ′ = min ( i t - 1 , R ′ , i t , R ) | i t - 1 , R ′ - i t , R | ≤ th i t - 1 , R ′ | i t - 1 , R ′ - i t , R | > th , j t , R ′ = min ( j t - 1 , R ′ , i t , R ) | j t - 1 , R ′ - j t , R | ≤ th j t - 1 , R ′ | j t - 1 , R ′ - j t , R | > th , 其中,min()为取最小值函数,
Figure GDA00002392305400057
表示当前帧图像的前一帧图像的矩形区域的左上角坐标,
Figure GDA00002392305400058
表示当前帧图像的前一帧图像的矩形区域的右下角坐标,(it,L,jt,L)表示公共区域的最小外接矩形对应的矩形区域的左上角坐标,(it,R,jt,R)表示公共区域的最小外接矩形对应的矩形区域的右下角坐标,th为设定的坐标判定阈值;
③-7、令t=t+1,将该帧图像作为当前帧图像,并返回步骤③-2继续执行。
所述的步骤③-4中对帧差图像进行腐蚀处理时采用3×3的方形结构单元或采用5×5的方形结构单元。
所述的步骤③-4中TH=100,所述的步骤③-6中th=10。
所述的步骤④的具体过程为:
④-1、利用马尔可夫随机场建立原始视频中的每帧图像的图像分割模型,再根据原始视频中的每帧图像的图像分割模型分别构造原始视频中的每帧图像的能量函数,记为E(α,K,θ,Z),E(α,K,θ,Z)=U(α,K,θ,Z)+V(α,Z)
Figure GDA000023923054000510
D(αn,kn,θ,zn)=-logp(znn,kn,θ)-logπ(αn,kn),
Figure GDA000023923054000511
其中,U(α,K,θ,Z)为用于表示帧图像中的像素点的标记为0或1的匹配程度的数据项,V(α,Z)为用于表示相邻的像素点的标记不同的惩罚代价的平滑项,m≠n,N′表示4×4邻域,Z=(z1,...,zn,...,zN)表示帧图像中的N个像素点的像素值的集合,z1表示帧图像中的第1个像素点的像素值,zn表示帧图像中的第n个像素点的像素值,zN表示帧图像中的第N个像素点的像素值,zm表示帧图像中的第m个像素点的像素值,α=(α1,...,αn,...,αN)表示帧图像中的N个像素点的标记的集合,α1表示帧图像中的第1个像素点的标记,αn表示帧图像中的第n个像素点的标记,αN表示帧图像中的第N个像素点的标记,αn∈{0,1},αn=0时表示帧图像中的第n个像素点为背景像素点,标记为背景,αn=1时表示帧图像中的第n个像素点为前景像素点即目标对象像素点,标记为前景,αm表示帧图像中的第m个像素点的标记,K=(1,2,...,k),k表示高斯模型的个数,3≤k≤5,kn表示帧图像中的第n个像素点属于第k个高斯模型,θ表示高斯混合模型的参数,p(znn,kn,θ)服从高斯分布,表示帧图像中的像素点属于前景和背景的概率,当像素点属于前景的概率大于像素点属于背景的概率时,该像素点属于前景,该像素点的标记为1,当像素点属于背景的概率大于像素点属于前景的概率时,该像素点属于背景,该像素点的标记为0,π(αn,kn)表示帧图像的高斯混合模型之间的权重,exp(-β(zn-zm)2)表示zn和zm之间的差异,exp{}表示以e为底的指数函数,e=2.71828183,λ为用于平衡数据项和平滑项的平衡参数,β=(2<(zm-zn)2>)-1表示zn和zm之间的差异的均值;
④-2、对于原始视频中当前正在处理的帧图像,定义其为当前帧图像,将当前帧图像的矩形区域外的区域定义为背景,记为TB,并初始化背景TB中的所有像素点的像素值为0,将当前帧图像的矩形区域内的区域定义为前景即目标对象区域,记为TU,并初始化前景TU中的所有像素点的像素值为1;
④-3、采用基于颜色特征的k-means聚类方法分别对当前帧图像的前景TU和背景TB进行聚类,总共得到2k个类,将2k个类表示为2k个高斯模型,对于当前帧图像中的第n个像素点,其唯一属于第k个高斯模型kn
Figure GDA00002392305400061
其中,3≤k≤5,“:=”为定义符号,“arg”为求取下标的符号,
Figure GDA00002392305400071
表示通过比较当前帧图像中的第n个像素点的标记为αn时在不同高斯模型中的能量项Dnn,kn,θ,zn),取使得能量最小化时对应的第k个高斯模型;
④-4、利用EM算法计算的高斯混合模型的参数θ
Figure GDA00002392305400072
其中,“arg”为求取下标的符号,表示通过比较当前帧图像中的像素点的不同标记对应的能量项U(α,K,θ,Z),取使得能量最小化时对应的高斯模型的参数;
④-5、计算当前帧图像中的各个像素点属于不同的高斯模型时当前帧图像的能量函数,对于当前帧图像中当前正在处理的像素点,定义其为当前像素点,将当前像素点分别代入不同的高斯模型中并计算当前像素点属于不同的高斯模型时对应的能量值;
④-6、判断当前帧图像的能量函数是否减少,如果是,则选取最小能量项对应的高斯模型和标记,更新当前像素点所属的高斯模型和标记,然后返回步骤④-4继续执行,直至当前帧图像的能量函数收敛,实现目标对象的提取,否则,不作任何处理。
所述的步骤④-1中λ=0.5。
与现有技术相比,本发明的优点在于利用帧差法获取前后三帧图像的帧差图像作为确定目标对象的一种粗略估计,然后结合前一帧图像的矩形区域的坐标位置,确定当前帧图像中包含目标对象的矩形区域,再构建原始视频中的每帧图像的能量函数,实现目标对象的精确提取,在确定帧图像中包含目标对象的矩形区域的过程中,充分利用了前一帧图像的矩形区域的坐标位置,这样即使针对目标对象突然静止或者背景晃动等情况都能够精确确定当前帧的目标对象区域,最后对确定目标区域的每帧图像分别建立分割模型,通过图割方法能够精确提取目标对象,从而大大改善了提取精度。
此外,本发明方法还可通过对连续三帧的RGB三通道求取最大帧差分量,精确的确定目标对象区域。
附图说明
图1为本发明方法的基本流程框图;
图2a为“Silent”标准测试视频序列中的第51帧图像;
图2b为“Silent”标准测试视频序列中的第81帧图像;
图2c为“Silent”标准测试视频序列中的第111帧图像;
图3为对“Silent”标准测试视频序列中的初始帧图像进行人工交互后确定的包含目标对象的矩形区域;
图4a为“Silent”标准测试视频序列中的第51帧图像与其前后两帧图像的帧差图像对应的二值图像的公共区域的最小外接矩形对应的矩形区域;
图4b为“Silent”标准测试视频序列中的第81帧图像与其前后两帧图像的帧差图像对应的二值图像的公共区域的最小外接矩形对应的矩形区域;
图4c为“Silent”标准测试视频序列中的第111帧图像与其前后两帧图像的帧差图像对应的二值图像的公共区域的最小外接矩形对应的矩形区域;
图5a为“Silent”标准测试视频序列中的第51帧图像的包含目标对象的矩形区域;
图5b为“Silent”标准测试视频序列中的第81帧图像的包含目标对象的矩形区域;
图5c为“Silent”标准测试视频序列中的第111帧图像的包含目标对象的矩形区域;
图6a为从“Silent”标准测试视频序列中的第51帧图像中提取的目标对象;
图6b为从“Silent”标准测试视频序列中的第81帧图像中提取的目标对象;
图6c为从“Silent”标准测试视频序列中的第111帧图像中提取的目标对象。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种交互式视频中的目标对象的提取方法,其基本流程框图如图1所示,其主要包括以下步骤:
①选取场景固定且包含有运动目标对象的一段视频作为待处理的原始视频。
在此,采用标准测试视频序列Silent作为原始视频,Silent中每帧图像的分辨率都为352×288,帧率为30帧每秒,即30fps,图2a、图2b和图2c分别给出了“Silent”标准测试视频序列中的第51、81、111帧图像。
②逐帧观察原始视频中的帧图像中是否存在目标对象,将存在目标对象的第一帧图像定义为初始帧图像,然后在初始帧图像中划定一个包含目标对象的矩形区域,并记录矩形区域的坐标位置。
在此具体实施例中,在初始帧图像中划定包含目标对象的矩形区域可采用人工交互方式;在记录矩形区域的坐标位置时可仅记录矩形区域的左上角坐标和右下角坐标,也可仅记录矩形区域的左下角坐标和右上角坐标,或还可记录下矩形区域的左上角坐标、左下角坐标、右上角坐标和右下角坐标。
在此,例如对“Silent”标准测试视频序列中的初始帧图像通过人工交互方式确定一个包含目标对象的矩形区域,如图3所示。
③将初始帧图像之后的需处理的后续帧图像定义为当前帧图像,利用最大帧差分量的三帧差法计算当前帧图像与其前一帧图像的帧差图像及当前帧图像与其后一帧图像的帧差图像,然后计算两幅帧差图像各自对应的二值图像的公共区域及公共区域的最小外接矩形,再根据公共区域的最小外接矩形对应的矩形区域结合当前帧图像的前一帧图像的矩形区域的坐标位置,确定当前帧图像中包含目标对象的矩形区域。
在此具体实施例中,步骤③的具体过程为:
③-1、设初始帧图像之后的第一帧图像为原始视频中的第t帧图像,并定义其为当前帧图像,2≤t≤M,t的初始值为2,M表示原始视频中包含的帧图像的帧数。
③-2、判断当前帧图像是否为原始视频中的最后一帧图像,如果是,则结束,否则,继续执行步骤③-3。
③-3、计算当前帧图像与其前一帧图像的帧差图像,将当前帧图像与其前一帧图像的帧差图像中坐标位置为(x,y)的像素点的像素值记为difpre(x,y,t),difpre(x,y,t)=max{difpre-R(x,y,t),difpre-G(x,y,t),difpre-B(x,y,t)},difpre-R(x,y,t)=|IR(x,y,t)-IR(x,y,t-1)|,difpre-G(x,y,t)=|IG(x,y,t)-IG(x,y,t-1)|,difpre-B(x,y,t)=|IB(x,y,t)-IB(x,y,t-1)|,其中,difpre-R(x,y,t)表示当前帧图像与其前一帧图像的帧差图像中坐标位置为(x,y)的像素点的红色分量的值,difpre-G(x,y,t)表示当前帧图像与其前一帧图像的帧差图像中坐标位置为(x,y)的像素点的绿色分量的值,difpre-B(x,y,t)表示当前帧图像与其前一帧图像的帧差图像中坐标位置为(x,y)的像素点的蓝色分量的值,max()为取最大值函数,“||”为绝对值符号,IR(x,y,t)、IG(x,y,t)和IB(x,y,t)分别表示当前帧图像中坐标位置为(x,y)的像素点的红色分量的值、绿色分量的值和蓝色分量的值,IR(x,y,t-1)、IG(x,y,t-1)和IB(x,y,t-1)分别表示当前帧图像的前一帧图像中坐标位置为(x,y)的像素点的红色分量的值、绿色分量的值和蓝色分量的值。
计算当前帧图像与其后一帧图像的帧差图像,将当前帧图像与其后一帧图像的帧差图像中坐标位置为(x,y)的像素点的像素值记为difaft(x,y,t),difaft(x,y,t)=max{difaft-R(x,y,t),difaft-G(x,y,t),difaft-B(x,y,t)},difaft-R(x,y,t)=|IR(x,y,t)-IR(x,y,t+1)|,difaft-G(x,y,t)=|IG(x,y,t)-IG(x,y,t+1)|,difaft-B(x,y,t)=|IB(x,y,t)-IB(x,y,t+1)|,其中,difaft-R(x,y,t)表示当前帧图像与其后一帧图像的帧差图像中坐标位置为(x,y)的像素点的红色分量的值,difaft-G(x,y,t)表示当前帧图像与其后一帧图像的帧差图像中坐标位置为(x,y)的像素点的绿色分量的值,difaft-B(x,y,t)表示当前帧图像与其后一帧图像的帧差图像中坐标位置为(x,y)的像素点的蓝色分量的值,max()为取最大值函数,“||”为绝对值符号,IR(x,y,t)、IG(x,y,t)和IB(x,y,t)分别表示当前帧图像中坐标位置为(x,y)的像素点的红色分量的值、绿色分量的值和蓝色分量的值,IR(x,y,t+1)、IG(x,y,t+1)和IB(x,y,t+1)分别表示当前帧图像的前一帧图像中坐标位置为(x,y)的像素点的红色分量的值、绿色分量的值和蓝色分量的值。
在此具体实施例中,本发明方法为了精确地得到帧差图像,对彩色图像RGB三通道分别做帧差从而确定最大帧差分量。
③-4、先后对当前帧图像与其前一帧图像的帧差图像进行腐蚀处理和二值化处理,得到当前帧图像与其前一帧图像的帧差图像对应的二值图像,将当前帧图像与其前一帧图像的帧差图像对应的二值图像中坐标位置为(x,y)的像素点的像素值记为Movpre(x,y,t), Mov pre ( x , y , t ) = 1 dif pre ( x , y , t ) > TH 0 dif pre ( x , y , t ) &le; TH , 其中,TH为设定的二值化阈值。
先后对当前帧图像与其后一帧图像的帧差图像进行腐蚀处理和二值化处理,得到当前帧图像与其后一帧图像的帧差图像对应的二值图像,将当前帧图像与其后一帧图像的帧差图像对应的二值图像中坐标位置为(x,y)的像素点的像素值记为Movaft(x,y,t), Mov aft ( x , y , t ) = 1 dif aft ( x , y , t ) > TH 0 dif aft ( x , y , t ) &le; TH , 其中,TH为设定的区域判定阈值。
在此具体实施例中,对帧差图像进行腐蚀处理时可采用3×3的方形结构腐蚀单元或采用5×5的方形结构腐蚀单元,在实际处理过程中也可根据实际情况选择大小不同的腐蚀单元对帧差图像进行腐蚀处理,在此对帧差图像进行腐蚀处理目的是为了减少噪声的影响;在此,取TH=100,该值是通过多次实验结果比较得到的,实验表明TH取100时能够很好地获得包含有运动区域的二值图像。
③-5、计算当前帧图像与其前一帧图像的帧差图像对应的二值图像和当前帧图像与其后一帧图像的帧差图像对应的二值图像的公共区域,该公共区域为当前帧图像中的目标对象的所在区域即运动区域,将公共区域中坐标位置为(x,y)的像素点的像素值记为And(x,y,t),And(x,y,t)=Movpre(x,y,t)∩Movaft(x,y,t),其中,“∩”表示求取公共部分的运算;然后求取公共区域的最小外接矩形,该最小外接矩形对应的矩形区域为包含目标对象的矩形区域。
在此,公共区域的最小外接矩形可通过现有技术求取,如采用常见的行列扫描方式。
图4a给出了图2a所示的帧图像与其前后两帧图像的帧差图像对应的二值图像的公共区域的最小外接矩形对应的矩形区域,图4b给出了图2b所示的帧图像与其前后两帧图像的帧差图像对应的二值图像的公共区域的最小外接矩形对应的矩形区域,图4c给出了图2c所示的帧图像与其前后两帧图像的帧差图像对应的二值图像的公共区域的最小外接矩形对应的矩形区域。
③-6、针对原始视频中的目标对象可能出现静止或部分静止的情况,仅仅通过检测运动区域是无法提取目标对象的,因此本发明方法根据公共区域的最小外接矩形对应的矩形区域及当前帧图像的前一帧图像的矩形区域的坐标位置,确定当前帧图像中包含目标对象的矩形区域,令
Figure GDA00002392305400111
表示当前帧图像的矩形区域的左上角坐标,令
Figure GDA00002392305400112
表示当前帧图像的矩形区域的右下角坐标, i t , L &prime; = min ( i t - 1 , L &prime; , i t , L ) | i t - 1 , L &prime; - i t , L | &le; th i t - 1 , L &prime; | i t - 1 , L &prime; - i t , L | > th , j t , L &prime; = min ( j t - 1 , L &prime; , j t , L ) | j t - 1 , L &prime; - j t , L | &le; th j t - 1 , L &prime; | j t - 1 , L &prime; - j t , L &prime; | > th , i t , R &prime; = min ( i t - 1 , R &prime; , i t , R ) | i t - 1 , R &prime; - i t , R | &le; th i t - 1 , R &prime; | i t - 1 , R &prime; - i t , R | > th , j t , R &prime; = min ( j t - 1 , R &prime; , i t , R ) | j t - 1 , R &prime; - j t , R | &le; th j t - 1 , R &prime; | j t - 1 , R &prime; - j t , R | > th , 其中,min()为取最小值函数,表示当前帧图像的前一帧图像的矩形区域的左上角坐标,
Figure GDA00002392305400118
表示当前帧图像的前一帧图像的矩形区域的右下角坐标,(it,L,jt,L)表示公共区域的最小外接矩形对应的矩形区域的左上角坐标,(it,R,jt,R)表示公共区域的最小外接矩形对应的矩形区域的右下角坐标,th为设定的坐标判定阈值。
在此,取th=10,该值是通过多次实验结果比较得到的经验阈值,实验结果表明th取10个像素点时,效果最理想。
图5a、5b和图5c分别给出了图2a、图2b和图2c所示的帧图像的包含目标对象的矩形区域,该包含目标对象的矩形区域并不全是帧图像的前景,只是帧图像的可能的前景。
③-7、令t=t+1,将该帧图像作为当前帧图像,并返回步骤③-2继续执行。
④首先利用马尔可夫随机场建立原始视频中的每帧图像的图像分割模型,根据原始视频中的每帧图像的图像分割模型分别构造每帧图像的能量函数;然后采用基于颜色特征的k-means聚类方法分别对每帧图像中的包含目标对象的矩形区域和矩形区域外的背景区域进行聚类,总共得到2k个类(帧图像中的包含目标对象的矩形区域对应k个类,帧图像中的矩形区域外的背景区域对应k个类),每个类用一个高斯模型表示,2k个类用2k个高斯模型表示,即每帧图像可以表示为由2k个高斯模型组成的高斯混合模型,再利用EM算法计算每帧图像对应的高斯混合模型的参数,最后通过计算每帧图像中的各个像素点属于不同的高斯模型时帧图像的能量函数,比较得到每帧图像中的各个像素点的标记对应的最小能量值,从而确定每帧图像中的各个像素点的标记,实现目标对象的提取。
在此具体实施例中,步骤④的具体过程为:
④-1、利用马尔可夫随机场(MRF)建立原始视频中的每帧图像的图像分割模型,即构建原始视频中的每帧图像的图模型,具体过程为:将原始视频中的每帧图像用二维网格表示为:S={s|s=(i,j),i∈{1,2,...,W},j∈{1,2,...,H}},其中,W和H分别表示帧图像的宽度和高度,这样W×H大小的帧图像中任意一个像素点就同二维空间网格位置(i,j)一一对应,这样的二维网格也可以看作一个图,记为G(v,ε),其中v对应二维网格中的节点,ε表示连接相邻节点的边,图像分割过程就可以看出是对每个节点的标记过程,标签可以用0和1表示,0表示背景像素点,1表示前景像素点,为图模型G(v,ε)中的节点赋值为:
Figure GDA00002392305400121
为图模型G(v,ε)中的边赋值为:再根据原始视频中的每帧图像的图像分割模型构造原始视频中的每帧图像的能量函数,记为E(α,K,θ,Z),E(α,K,θ,Z)=U(α,K,θ,Z)+V(α,Z),
Figure GDA00002392305400123
D(αn,kn,θ,zn)=-log p(znn,kn,θ)-logπ(αn,kn), V ( &alpha; &OverBar; , Z ) = &lambda; &Sigma; ( m , n ) &Element; N &prime; | &alpha; n - &alpha; m | exp ( - &beta; ( z n - z m ) 2 ) , 其中,U(α,K,θ,Z)为用于表示帧图像中的像素点的标记为0或1的匹配程度的数据项,V(α,Z)为用于表示相邻的像素点的标记不同的惩罚代价的平滑项,m≠n,N′表示4×4邻域,Z=(z1,...,zn,...,zN)表示帧图像中的N个像素点的像素值的集合,z1表示帧图像中的第1个像素点的像素值,zn表示帧图像中的第n个像素点的像素值,zN表示帧图像中的第N个像素点的像素值,zm表示帧图像中的第m个像素点的像素值,α=(α1,...,αn,...,αN)表示帧图像中的N个像素点的标记的集合,α1表示帧图像中的第1个像素点的标记,αn表示帧图像中的第n个像素点的标记,αN表示帧图像中的第N个像素点的标记,αn∈{0,1},αn=0时表示帧图像中的第n个像素点为背景像素点,标记为背景,αn=1时表示帧图像中的第n个像素点为前景像素点即目标对象像素点,标记为前景,αm表示帧图像中的第m个像素点的标记,K=(1,2,...,k),k表示高斯模型的个数,3≤k≤5,kn表示帧图像中的第n个像素点属于第k个高斯模型,θ表示高斯混合模型的参数,也是一个向量,包含有期望和协方差,p(znn,kn,θ)服从高斯分布,表示帧图像中的像素点属于前景和背景的概率,当像素点属于前景的概率大于像素点属于背景的概率时,该像素点属于前景,该像素点的标记为1,当像素点属于背景的概率大于像素点属于前景的概率时,该像素点属于背景,该像素点的标记为0,π(αn,kn)表示帧图像的高斯混合模型之间的权重,exp(-β(zn-zm)2)表示zn和zm之间的差异,exp{}表示以e为底的指数函数,e=2.71828183,λ为用于平衡数据项和平滑项的平衡参数,β=(2<(zm-zn)2>)-1表示zn和zm之间的差异的均值,是为了使得相邻像素点的像素值差异越大时对应的平滑项能量越大,相邻像素点的像素值差异越小时对应的平滑项能量越小。
在此具体实施例中,λ=0.5。
④-2、对于原始视频中当前正在处理的帧图像,定义其为当前帧图像,将当前帧图像的矩形区域外的区域定义为背景,记为TB,并初始化背景TB中的所有像素点的像素值为0,将当前帧图像的矩形区域内的区域定义为前景即目标对象区域,记为TU,并初始化前景TU中的所有像素点的像素值为1。
④-3、采用基于颜色特征的k-means聚类方法分别对当前帧图像的前景TU和背景TB进行聚类,总共得到2k个类,一个类可用一个高斯模型表示,2k个类可用2k个高斯模型表示,即可将当前帧图像表示为2k个高斯模型组成的高斯混合模型,对于当前帧图像中的第n个像素点,其唯一属于第k(3≤k≤5)个高斯模型,可表示成kn
Figure GDA00002392305400141
其中,“:=”为定义符号,“arg”为求取下标的符号,
Figure GDA00002392305400142
表示通过比较当前帧图像中的第n个像素点的标记为αn时在不同高斯模型中的能量项Dnn,kn,θ,zn),取使得能量最小化时对应的第k个高斯模型。
④-4、利用EM算法分别计算表示当前帧图像的高斯混合模型的参数θ
Figure GDA00002392305400143
其中,“arg”为求取下标的符号,
Figure GDA00002392305400144
表示通过比较当前帧图像中的像素点的不同标记对应的能量项U(α,K,θ,Z),取使得能量最小化时对应的高斯模型的参数。
④-5、计算当前帧图像中的各个像素点属于不同的高斯模型时当前帧图像的能量函数,对于当前帧图像中当前正在处理的像素点,定义其为当前像素点,将其分别代入不同的高斯模型中,并计算当前像素点属于不同的高斯模型时对应的能量值;
④-6、判断当前帧图像的能量函数是否减少,如果是,则选取最小能量项对应的高斯模型和标记,更新当前像素点所属的高斯模型和标记,然后返回步骤④-4继续执行,直至当前帧图像的能量函数收敛,实现目标对象的提取,否则,不作任何处理。
图6a、6b和6c分别给出了从图2a、2b和2c所示的帧图像中提取得到的目标对象。

Claims (7)

1.一种交互式视频中的目标对象的提取方法,其特征在于包括以下步骤:
①选取场景固定且包含有运动目标对象的视频作为待处理的原始视频;
②逐帧观察原始视频中的帧图像中是否存在目标对象,将存在目标对象的第一帧图像定义为初始帧图像,然后在初始帧图像中划定一个包含目标对象的矩形区域,并记录矩形区域的坐标位置;
③将初始帧图像之后的需处理的后续帧图像定义为当前帧图像,利用最大帧差分量的三帧差法计算当前帧图像与其前一帧图像的帧差图像及当前帧图像与其后一帧图像的帧差图像,然后计算两幅帧差图像各自对应的二值图像的公共区域及公共区域的最小外接矩形,再根据公共区域的最小外接矩形对应的矩形区域结合当前帧图像的前一帧图像的矩形区域的坐标位置,确定当前帧图像中包含目标对象的矩形区域;
④首先利用马尔可夫随机场建立原始视频中的每帧图像的图像分割模型,根据原始视频中的每帧图像的图像分割模型分别构造每帧图像的能量函数;然后采用基于颜色特征的k-means聚类方法分别对每帧图像中的包含目标对象的矩形区域和矩形区域外的背景区域进行聚类,总共得到2k个类,将2k个类表示为2k个高斯模型,将帧图像表示为由2k个高斯模型组成的高斯混合模型,再利用EM算法计算每帧图像对应的高斯混合模型的参数,最后通过计算每帧图像中的各个像素点属于不同的高斯模型时每帧图像的能量函数,确定每帧图像中的各个像素点的标记对应的最小能量值,得到每帧图像中的各个像素点的标记,实现目标对象的提取。
2.根据权利要求1所述的一种交互式视频中的目标对象的提取方法,其特征在于所述的步骤②中在初始帧图像中划定包含目标对象的矩形区域时采用人工交互方式;在记录矩形区域的坐标位置时仅记录矩形区域的左上角坐标和右下角坐标,或仅记录矩形区域的左下角坐标和右上角坐标,或记录矩形区域的左上角坐标、左下角坐标、右上角坐标和右下角坐标。
3.根据权利要求1或2所述的一种交互式视频中的目标对象的提取方法,其特征在于所述的步骤③的具体过程为:
③-1、设初始帧图像之后的第一帧图像为原始视频中的第t帧图像,并定义其为当前帧图像,2≤t≤M,t的初始值为2,M表示原始视频中包含的帧图像的帧数;
③-2、判断当前帧图像是否为原始视频中的最后一帧图像,如果是,则结束,否则,继续执行步骤③-3;
③-3、计算当前帧图像与其前一帧图像的帧差图像,将当前帧图像与其前一帧图像的帧差图像中坐标位置为(x,y)的像素点的像素值记为difpre(x,y,t),difpre(x,y,t)=max{difpre-R(x,y,t),difpre-G(x,y,t),difpre-B(x,y,t)},difpre-R(x,y,t)=|IR(x,y,t)-IR(x,y,t-1)|,difpre-G(x,y,t)=|IG(x,y,t)-IG(x,y,t-1)|,difpre-B(x,y,t)=|IB(x,y,t)-IB(x,y,t-1)|,其中,difpre-R(x,y,t)表示当前帧图像与其前一帧图像的帧差图像中坐标位置为(x,y)的像素点的红色分量的值,difpre-G(x,y,t)表示当前帧图像与其前一帧图像的帧差图像中坐标位置为(x,y)的像素点的绿色分量的值,difpre-B(x,y,t)表示当前帧图像与其前一帧图像的帧差图像中坐标位置为(x,y)的像素点的蓝色分量的值,max()为取最大值函数,“||”为绝对值符号,IR(x,y,t)、IG(x,y,t)和IB(x,y,t)分别表示当前帧图像中坐标位置为(x,y)的像素点的红色分量的值、绿色分量的值和蓝色分量的值,IR(x,y,t-1)、IG(x,y,t-1)和IB(x,y,t-1)分别表示当前帧图像的前一帧图像中坐标位置为(x,y)的像素点的红色分量的值、绿色分量的值和蓝色分量的值;
计算当前帧图像与其后一帧图像的帧差图像,将当前帧图像与其后一帧图像的帧差图像中坐标位置为(x,y)的像素点的像素值记为difaft(x,y,t),difaft(x,y,t)=max{difaft-R(x,y,t),difaft-G(x,y,t),difaft-B(x,y,t)},difaft-R(x,y,t)=|IR(x,y,t)-IR(x,y,t+1)|,difaft-G(x,y,t)=|IG(x,y,t)-IG(x,y,t+1)|,difaft-B(x,y,t)=|IB(x,y,t)-IB(x,y,t+1)|,其中,difaft-R(x,y,t)表示当前帧图像与其后一帧图像的帧差图像中坐标位置为(x,y)的像素点的红色分量的值,difaft-G(x,y,t)表示当前帧图像与其后一帧图像的帧差图像中坐标位置为(x,y)的像素点的绿色分量的值,difaft-B(x,y,t)表示当前帧图像与其后一帧图像的帧差图像中坐标位置为(x,y)的像素点的蓝色分量的值,max()为取最大值函数,“||”为绝对值符号,IR(x,y,t)、IG(x,y,t)和IB(x,y,t)分别表示当前帧图像中坐标位置为(x,y)的像素点的红色分量的值、绿色分量的值和蓝色分量的值,IR(x,y,t+1)、IG(x,y,t+1)和IB(x,y,t+1)分别表示当前帧图像的前一帧图像中坐标位置为(x,y)的像素点的红色分量的值、绿色分量的值和蓝色分量的值;
③-4、先后对当前帧图像与其前一帧图像的帧差图像进行腐蚀处理和二值化处理,得到当前帧图像与其前一帧图像的帧差图像对应的二值图像,将当前帧图像与其前一帧图像的帧差图像对应的二值图像中坐标位置为(x,y)的像素点的像素值记为Movpre(x,y,t), Mov pre ( x , y , t ) = 1 dif pre ( x , y , t ) > TH 0 dif pre ( x , y , t ) &le; TH , 其中,TH为设定的二值化阈值;
先后对当前帧图像与其后一帧图像的帧差图像进行腐蚀处理和二值化处理,得到当前帧图像与其后一帧图像的帧差图像对应的二值图像,将当前帧图像与其后一帧图像的帧差图像对应的二值图像中坐标位置为(x,y)的像素点的像素值记为Movaft(x,y,t), Mov aft ( x , y , t ) = 1 dif aft ( x , y , t ) > TH 0 dif aft ( x , y , t ) &le; TH , 其中,TH为设定的区域判定阈值;
③-5、计算当前帧图像与其前一帧图像的帧差图像对应的二值图像和当前帧图像与其后一帧图像的帧差图像对应的二值图像的公共区域,该公共区域为当前帧图像中的目标对象的所在区域,将公共区域中坐标位置为(x,y)的像素点的像素值记为And(x,y,t),And(x,y,t)=Movpre(x,y,t)∩Movaft(x,y,t),其中,“∩”表示求取公共部分的运算;然后求取公共区域的最小外接矩形,该最小外接矩形对应的矩形区域为包含目标对象的矩形区域;
③-6、根据公共区域的最小外接矩形对应的矩形区域及当前帧图像的前一帧图像的矩形区域的坐标位置,确定当前帧图像中包含目标对象的矩形区域,令
Figure FDA00002392305300033
表示当前帧图像的矩形区域的左上角坐标,令
Figure FDA00002392305300034
表示当前帧图像的矩形区域的右下角坐标, i t , L &prime; = min ( i t - 1 , L &prime; , i t , L ) | i t - 1 , L &prime; - i t , L | &le; th i t - 1 , L &prime; | i t - 1 , L &prime; - i t , L | > th , j t , L &prime; = min ( j t - 1 , L &prime; , j t , L ) | j t - 1 , L &prime; - j t , L | &le; th j t - 1 , L &prime; | j t - 1 , L &prime; - j t , L &prime; | > th , i t , R &prime; = min ( i t - 1 , R &prime; , i t , R ) | i t - 1 , R &prime; - i t , R | &le; th i t - 1 , R &prime; | i t - 1 , R &prime; - i t , R | > th , j t , R &prime; = min ( j t - 1 , R &prime; , i t , R ) | j t - 1 , R &prime; - j t , R | &le; th j t - 1 , R &prime; | j t - 1 , R &prime; - j t , R | > th , 其中,min()为取最小值函数,
Figure FDA00002392305300039
表示当前帧图像的前一帧图像的矩形区域的左上角坐标,
Figure FDA00002392305300041
表示当前帧图像的前一帧图像的矩形区域的右下角坐标,(it,L,jt,L)表示公共区域的最小外接矩形对应的矩形区域的左上角坐标,(it,R,jt,R)表示公共区域的最小外接矩形对应的矩形区域的右下角坐标,th为设定的坐标判定阈值;
③-7、令t=t+1,将该帧图像作为当前帧图像,并返回步骤③-2继续执行。
4.根据权利要求3所述的一种交互式视频中的目标对象的提取方法,其特征在于所述的步骤③-4中对帧差图像进行腐蚀处理时采用3×3的方形结构单元或采用5×5的方形结构单元。
5.根据权利要求4所述的一种交互式视频中的目标对象的提取方法,其特征在于所述的步骤③-4中TH=100,所述的步骤③-6中th=10。
6.根据权利要求5所述的一种交互式视频中的目标对象的提取方法,其特征在于所述的步骤④的具体过程为:
④-1、利用马尔可夫随机场建立原始视频中的每帧图像的图像分割模型,再根据原始视频中的每帧图像的图像分割模型分别构造原始视频中的每帧图像的能量函数,记为E(α,K,θ,Z),E(α,K,θ,Z)=U(α,K,θ,Z)+V(α,Z),D(αn,kn,θ,zn)=-logp(znn,kn,θ)-logπ(αn,kn),
Figure FDA00002392305300043
其中,U(α,K,θ,Z)为用于表示帧图像中的像素点的标记为0或1的匹配程度的数据项,V(α,Z)为用于表示相邻的像素点的标记不同的惩罚代价的平滑项,m≠n,N′表示4×4邻域,Z=(z1,...,zn,...,zN)表示帧图像中的N个像素点的像素值的集合,z1表示帧图像中的第1个像素点的像素值,zn表示帧图像中的第n个像素点的像素值,zN表示帧图像中的第N个像素点的像素值,zm表示帧图像中的第m个像素点的像素值,α=(α1,...,αn,...,αN)表示帧图像中的N个像素点的标记的集合,α1表示帧图像中的第1个像素点的标记,αn表示帧图像中的第n个像素点的标记,αN表示帧图像中的第N个像素点的标记,αn∈{0,1},αn=0时表示帧图像中的第n个像素点为背景像素点,标记为背景,αn=1时表示帧图像中的第n个像素点为前景像素点即目标对象像素点,标记为前景,αm表示帧图像中的第m个像素点的标记,K=(1,2,...,k),k表示高斯模型的个数,3≤k≤5,kn表示帧图像中的第n个像素点属于第k个高斯模型,θ表示高斯混合模型的参数,p(znn,kn,θ)服从高斯分布,表示帧图像中的像素点属于前景和背景的概率,当像素点属于前景的概率大于像素点属于背景的概率时,该像素点属于前景,该像素点的标记为1,当像素点属于背景的概率大于像素点属于前景的概率时,该像素点属于背景,该像素点的标记为0,π(αn,kn)表示帧图像的高斯混合模型之间的权重,exp(-β(zn-zm)2)表示zn和zm之间的差异,exp{}表示以e为底的指数函数,e=2.71828183,λ为用于平衡数据项和平滑项的平衡参数,β=(2<(zm-zn)2>)-1表示zn和zm之间的差异的均值;
④-2、对于原始视频中当前正在处理的帧图像,定义其为当前帧图像,将当前帧图像的矩形区域外的区域定义为背景,记为TB,并初始化背景TB中的所有像素点的像素值为0,将当前帧图像的矩形区域内的区域定义为前景即目标对象区域,记为TU,并初始化前景TU中的所有像素点的像素值为1;
④-3、采用基于颜色特征的k-means聚类方法分别对当前帧图像的前景TU和背景TB进行聚类,总共得到2k个类,将2k个类表示为2k个高斯模型,对于当前帧图像中的第n个像素点,其唯一属于第k个高斯模型kn,
Figure FDA00002392305300051
其中,3≤k≤5,“:=”为定义符号,“arg”为求取下标的符号,
Figure FDA00002392305300052
表示通过比较当前帧图像中的第n个像素点的标记为αn时在不同高斯模型中的能量项Dnn,kn,θ,zn),取使得能量最小化时对应的第k个高斯模型;
④-4、利用EM算法计算的高斯混合模型的参数θ
Figure FDA00002392305300053
其中,“arg”为求取下标的符号,
Figure FDA00002392305300054
表示通过比较当前帧图像中的像素点的不同标记对应的能量项U(α,K,θ,Z),取使得能量最小化时对应的高斯模型的参数;
④-5、计算当前帧图像中的各个像素点属于不同的高斯模型时当前帧图像的能量函数,对于当前帧图像中当前正在处理的像素点,定义其为当前像素点,将当前像素点分别代入不同的高斯模型中并计算当前像素点属于不同的高斯模型时对应的能量值;
④-6、判断当前帧图像的能量函数是否减少,如果是,则选取最小能量项对应的高斯模型和标记,更新当前像素点所属的高斯模型和标记,然后返回步骤④-4继续执行,直至当前帧图像的能量函数收敛,实现目标对象的提取,否则,不作任何处理。
7.根据权利要求6所述的一种交互式视频中的目标对象的提取方法,其特征在于所述的步骤④-1中λ=0.5。
CN2011102120540A 2011-07-27 2011-07-27 一种交互式视频中的目标对象的提取方法 Active CN102270346B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011102120540A CN102270346B (zh) 2011-07-27 2011-07-27 一种交互式视频中的目标对象的提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102120540A CN102270346B (zh) 2011-07-27 2011-07-27 一种交互式视频中的目标对象的提取方法

Publications (2)

Publication Number Publication Date
CN102270346A CN102270346A (zh) 2011-12-07
CN102270346B true CN102270346B (zh) 2013-05-01

Family

ID=45052643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102120540A Active CN102270346B (zh) 2011-07-27 2011-07-27 一种交互式视频中的目标对象的提取方法

Country Status (1)

Country Link
CN (1) CN102270346B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102881025A (zh) * 2012-09-17 2013-01-16 天津工业大学 一种多运动目标的检测方法
CN102917223B (zh) * 2012-10-18 2015-06-24 北京航空航天大学 基于增强型菱形搜索及三帧背景对齐的动背景视频对象提取
CN103514610B (zh) * 2013-09-17 2016-01-06 四川虹微技术有限公司 一种背景静止的运动目标分割方法
CN104166983A (zh) * 2014-06-30 2014-11-26 中国传媒大学 基于结合图割(Graph Cut)的Vibe改进算法的运动目标实时提取方法
CN104574379B (zh) * 2014-12-24 2017-08-25 中国科学院自动化研究所 一种基于目标多部件学习的视频分割方法
CN104657741B (zh) * 2015-01-09 2017-11-03 北京环境特性研究所 一种基于视频图像的目标分类方法
CN104820995A (zh) * 2015-04-21 2015-08-05 重庆大学 一种面向大型公共场所的人流密度监测预警方法
CN106898001B (zh) * 2017-01-04 2020-04-14 努比亚技术有限公司 一种实现交互式图像分割的方法、装置及终端
CN106803259B (zh) * 2017-01-19 2019-07-05 电子科技大学 一种流水作业平台烟条自动视觉检测与计数方法
CN107392936B (zh) * 2017-06-09 2020-06-05 广东光阵光电科技有限公司 一种基于meanshift的目标跟踪方法
CN108072385A (zh) * 2017-12-06 2018-05-25 爱易成技术(天津)有限公司 移动目标的空间坐标定位方法、装置及电子设备
CN108171716B (zh) * 2017-12-25 2021-11-26 北京奇虎科技有限公司 基于自适应跟踪框分割的视频人物装扮方法及装置
CN108171719B (zh) * 2017-12-25 2021-07-23 北京奇虎科技有限公司 基于自适应跟踪框分割的视频穿越处理方法及装置
CN108062761A (zh) * 2017-12-25 2018-05-22 北京奇虎科技有限公司 基于自适应跟踪框的图像分割方法、装置及计算设备
CN109915888B (zh) * 2018-06-04 2021-04-27 新昌县馁侃农业开发有限公司 电油汀型取暖器
WO2019232707A1 (zh) * 2018-06-06 2019-12-12 上海交通大学 一种弱监督视频物体分割方法及装置
CN110879948B (zh) * 2018-09-06 2022-10-18 华为技术有限公司 图像处理方法、装置及存储介质
CN111275036A (zh) * 2018-12-04 2020-06-12 北京嘀嘀无限科技发展有限公司 目标检测方法、装置、电子设备及计算机可读存储介质
CN111539993B (zh) * 2020-04-13 2021-10-19 中国人民解放军军事科学院国防科技创新研究院 基于分割的空间目标视觉跟踪方法
CN112634311B (zh) * 2020-12-28 2023-12-05 中国科学院半导体研究所 一种基于二值图的特征提取的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7336803B2 (en) * 2002-10-17 2008-02-26 Siemens Corporate Research, Inc. Method for scene modeling and change detection
CN101470809A (zh) * 2007-12-26 2009-07-01 中国科学院自动化研究所 一种基于扩展混合高斯模型的运动目标检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7336803B2 (en) * 2002-10-17 2008-02-26 Siemens Corporate Research, Inc. Method for scene modeling and change detection
CN101470809A (zh) * 2007-12-26 2009-07-01 中国科学院自动化研究所 一种基于扩展混合高斯模型的运动目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
An efficient Video Segmentation Algorithm with Real time Adaptive Threshold Technique;Yasira Beevi C P et al.;《International Journal of Signal Processing, Image Processing and Pattern Recognition》;20091231;第2卷(第4期);13-28 *
Yasira Beevi C P et al..An efficient Video Segmentation Algorithm with Real time Adaptive Threshold Technique.《International Journal of Signal Processing, Image Processing and Pattern Recognition》.2009,第2卷(第4期),13-28.
仲兴荣等.基于高斯-马尔可夫随机场模型的运动目标自动分割.《苏州大学学报(自然科学版)》.2003,第19卷(第3期),78-83. *

Also Published As

Publication number Publication date
CN102270346A (zh) 2011-12-07

Similar Documents

Publication Publication Date Title
CN102270346B (zh) 一种交互式视频中的目标对象的提取方法
Wang et al. Saliency-aware video object segmentation
Nouar et al. Improved object tracking with camshift algorithm
CN110111338B (zh) 一种基于超像素时空显著性分割的视觉跟踪方法
Li et al. Saliency model-based face segmentation and tracking in head-and-shoulder video sequences
CN106570486A (zh) 基于特征融合和贝叶斯分类的核相关滤波目标跟踪方法
CN102999901A (zh) 基于深度传感器的在线视频分割后的处理方法及系统
CN103871076A (zh) 基于光流法和超像素分割的运动目标提取方法
CN106611427A (zh) 基于候选区域融合的视频显著性检测方法
CN102156995A (zh) 一种运动相机下的视频运动前景分割方法
CN102915544A (zh) 基于纹理检测和颜色分割的视频图像运动目标提取方法
CN109146925B (zh) 一种动态场景下显著性目标检测方法
CN111208479B (zh) 一种降低深度网络检测中虚警概率的方法
CN106991686A (zh) 一种基于超像素光流场的水平集轮廓跟踪方法
Chen et al. Research on moving object detection based on improved mixture Gaussian model
CN106570885A (zh) 基于亮度和纹理融合阈值的背景建模方法
CN107609571A (zh) 一种基于lark特征的自适应目标跟踪方法
Xiao et al. Vehicle and person tracking in aerial videos
Dou et al. Moving object detection based on improved VIBE and graph cut optimization
Zhu et al. A hybrid algorithm for automatic segmentation of slowly moving objects
CN111414938A (zh) 一种板式换热器内气泡的目标检测方法
CN102509308A (zh) 基于混合动态纹理空时显著性检测的运动分割方法
Qi et al. High-speed video salient object detection with temporal propagation using correlation filter
Yuan et al. Scene segmentation based on IPCA for visual surveillance
Duan et al. An approach to dynamic hand gesture modeling and real-time extraction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant