CN103337082B - 基于统计形状先验的视频分割方法 - Google Patents

基于统计形状先验的视频分割方法 Download PDF

Info

Publication number
CN103337082B
CN103337082B CN201310197100.3A CN201310197100A CN103337082B CN 103337082 B CN103337082 B CN 103337082B CN 201310197100 A CN201310197100 A CN 201310197100A CN 103337082 B CN103337082 B CN 103337082B
Authority
CN
China
Prior art keywords
prime
shape
sigma
follows
profile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310197100.3A
Other languages
English (en)
Other versions
CN103337082A (zh
Inventor
章国锋
鲍虎军
孙佰贵
熊君君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Beijing Samsung Telecommunications Technology Research Co Ltd
Original Assignee
Zhejiang University ZJU
Beijing Samsung Telecommunications Technology Research Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU, Beijing Samsung Telecommunications Technology Research Co Ltd filed Critical Zhejiang University ZJU
Priority to CN201310197100.3A priority Critical patent/CN103337082B/zh
Publication of CN103337082A publication Critical patent/CN103337082A/zh
Application granted granted Critical
Publication of CN103337082B publication Critical patent/CN103337082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于统计形状先验的视频分割方法。它的步骤如下:1)视频分割初始化;2)前景形状匹配以及对齐,并计算统计形状先验量度;3)基于统计形状先验量度,优化视频分割;4)重复步骤2)、步骤3)两遍以上后结束。本发明提出了一种全新的前景形状匹配以及对齐方法,它能够有效的抽取出视频中正确的前景局部相似形状以及前景整体相似形状。其次,本发明提出了一种全新的形状先验的统计方法,它可以被应用在任一视频分割方法中,以提高分割质量。最后,本发明还提出了一种基于结合包括统计形状先验量度、全局颜色概率统计量度、背景相减量度的视频分割算法,能够在前背景颜色相近的地方鲁棒的分割出前背景。

Description

基于统计形状先验的视频分割方法
技术领域
本发明涉及视频分割方法,尤其涉及一种基于统计形状先验的视频分割方法。
背景技术
视频分割是指按一定规则将视频中每一帧分割成若干区域,它在模式识别、计算机视觉、视频检索、场景识别等领域有着广泛的应用。视频分割是在图像分割的基础上发展而来的,传统的图像分割算法一般基于图像的颜色、边缘、纹理等量度进行分割。视频分割中一个难点就是相机和物体都可能运动,而且运动组成比较复杂(可能既有平移也有旋转)。双层视频分割是将视频中每帧的图像划分为前景和背景两块区域的视频分割。
Liu和Gleicher等人提出了一种利用运动信息估计出运动的子物体,然后利用这些检测出的子物体来建立前景颜色模型,从而帮助运动物体的分割。Sheikh等人提出了一种首先将得到的特征点跟踪轨迹分类成前景的以及背景的,然后可以根据稀疏的分类好的特征点跟踪轨迹来学习出外观颜色模型,来帮助运动物体的分割。章国锋等人提出了一个自动的视频分割方法,通过鲁棒的运动和深度估计,可以将运动的物体从手持摄像机拍摄的视频序列中高质量地抽取出来。该方法可以适用于各种相机运动类型的视频,背景场景的几何可以很复杂。很显然,以上提到的这些方法在分割运动物体与被遮挡的背景有相似颜色的区域的时候都会出现问题。Bai等人提出结合进形状先验来减少这样的分割二义性,但这种传播形状先验很容易会受到遮挡的影响。近来,章国峰等人提出了一种定向分类器来处理遮挡和时域不连贯性。在这些方法中,形状先验都是直接由时域上的上一帧或者下一帧产生的,在这种方式下形状信息随着一次次的传递将会变的越来越不可靠。一种解决方案是引入不可预期量的用户交互,显然这种解决方案非常耗时而且需要大量的人工劳动。
发明内容
本发明目的是克服现有技术的不足,提供一种基于统计形状先验的分割方法。
基于统计形状先验的视频分割方法步骤如下:
1)视频分割初始化;
2)前景形状匹配以及对齐,并计算统计形状先验量度;
3)基于统计形状先验量度,优化视频分割;
4)重复步骤2)、3)两遍以上后结束。
步骤2)中的前景形状匹配以及对齐,并计算统计形状先验量度为:
1)统计的全局形状先验
首先,在每一帧的前景蒙版轮廓上均匀采样轮廓点,称采样到的这些点为“关键点集”,对于每一个关键点p,分别用基于形状上下文进行形状匹配以及物体识别方法以及颜色直方图方法计算它的形状特征Fs(p)和外观特征hp
对任意两个关键点p和q,它们的特征距离根据如下公式计算:
D(p,q)=||Fs(p)-Fs(q)||+λ1dint(hp-hq)
其中,||||表示欧几里得距离运算,λ1表示权重取为10~20,dint(hp-hq)是直方图相交距离,定义如下:
d int ( h p - h q ) = Σ R Σ G Σ B min ( h p ( r , g , b ) , h q ( r , g , b ) ) min ( | h p | , | h q | )
其中|hp|和|hq|分别是直方图向量hp和hq的大小;
给定t和t'帧中的两个轮廓Ct和Ct',匹配关键点,将轮廓Ct和Ct'中采样得到的关键点集分别定义为Vt和Vt',对于Vt中的点x,即x∈Vt,找到在Vt'中的最佳对应点,匹配关键点转化成在吉布斯能量函数上求解标定问题,公式如下:
E ( L ) = Σ x ∈ V t E 1 ( l ( x ) ) + λ 2 Σ ( x , y ) ∈ ϵ E 2 ( l ( x ) , l ( y ) )
其中L表示标定集合{l(x)},λ2是一个权重取为5~10,每一个l(x)都是x像素点在t'帧中的最佳对应点,ε表示为相关关键点之间的连接集合,E1(l(x))是数据项,其定义如下:
E1(l(x))=D(x,l(x))
其中E2(l(x),l(y))是连续标定平滑项,定义如下:
E2(l(x),l(y))=|(Indx-Indy)%K-(Indl(x)-Indl(y))%K|
其中,Indx表示关键点x在Vt中的索引号,K是该关键点集的大小;
关键点集在边界上是呈现链状结构的,用动态规划来快速求解E(L)的最小化 以求得最佳L,采用RANSAC方法计算得到t帧图像与t'帧图像之间的最佳前景单应性矩阵Ht,t',就将任意一帧的前景轮廓精确的对齐到另一帧上去;
将从前景区域St'对齐到前景区域St后的前景区域定义为St'->t,相似度按如下公式计算:
S(t,t')=St∩St'->t/max(St,St'->t)
其中St∩St'->t是St和St'->t之间的共同区域,max(St,St'->t)用作归一化处理,如果S(t,t')>τ,τ取为0.75~0.95,那么St和St'就足够相似;
对任意一帧t,从其他帧中选出足够相似的前景区域,将这些前景区域统统对齐到t帧上,由如下公式计算出对齐得到的前景概率,定义如下:
p t ′ - > t g = 1 , x ∈ S t ′ - > t 0.5 , x ∉ S t ′ - > t * 0 , otherwise
其中,表示St'->t区域扩张r个像素点后的区域,将形状先验限制在区域内;对于之外其他的区域,其形状先验是无效的,将其设为0.5,再基于一个常识来处理颜色相似的问题:若边界附近的像素点越相似,其颜色对照就越小;由此,基于颜色对照的概率可信度定义如下:
w t ′ - > t ( x ) = 1 Z Σ p ∈ C t ′ - > t 1 | | x - p | | 2 ( 1 - exp ( - Δ I t ′ - > t ( p ) 2 2 σ c 2 ) )
其中,Ct'->t和It'->t分别表示从t'图像对齐到t图像的轮廓和整张图像,Z=Σ||x-p||-2是归一化项,Δ是拉普拉斯算子,σc是一个参数取为5~15;
通过自适应的置信度将相似的对齐形状结合起来后,得到统计的全局形状先验,t帧的全局形状先验定义如下:
p t g ( x ) = 1 Σ t ′ w t ′ - > t ( x ) Σ t ′ w t ′ - > t ( x ) p t ′ - > t g ( x )
最终,通过高斯滤波将形状先验边界附近平滑一下;
2)统计的局部形状先验
对任意的帧图像对(t,t'),经过全局匹配后,帧图像t'上的邻接关键点匹配到了帧图像t上的连续对应点,也就是:
(Indx-Indy)%K≈(Indl(x)-Indl(y))%K
其中,K是关键点的个数,将具有相似平面变化的邻接轮廓段合并起来,对于t'帧图像上的每两个前景子轮廓,合并后的子轮廓定义为,在t帧图像上对应的子轮廓为,假设包含K个关键点,其集合定义为{xk},之间平均的对齐错误根据如下公式计算得到:
ϵ c t ′ i , i + 1 - > c t i , i + 1 = 1 K Σ k = 1 K | | x k - H c t ′ i , i + 1 - > c t i , i + 1 x k ′ | | 2
其中x'k是xk的对应点,是最小化后得到的最优单应性矩阵,如果τε取为1~3,那么合并两个子轮廓,一直执行直到没有邻接的子轮廓再可以合并了为止;
对于任意一个子轮廓,它的单应性矩阵以及平均对齐误差分别为Hi和εi,如果,有另外一个子轮廓,使得之间的关键点个数小于阀值取为5~10,根据在中所有被匹配到的关键点估计得到单应性矩阵H',其平均的对齐误差为ε',如果对齐误差ε'<max{εij},那么之间的非连续性就是由于偶然的分割误差导致的,在这种情况下将,以及它们之间的关键点合并起来;
对于每一个合并后留下的子轮廓,用Graham Scan方法在子轮廓上计算得到最小的凸包U,通过求交操作使得U=St'∩U,这样U就是St'的子区域了,将U按r个像素点扩张,得到最终的用来映射的子区域U*,将它映射到其他帧上,用来计算统计的局部形状先验;
得到在每一帧t'的可匹配的局部区域U*后,将它映射到t帧上,那么对应的局部形状先验根据如下公式计算得到:
通过匹配相似的局部形状以及将它们用自适应的权重结合起来;
基于从其他帧对齐过来的局部形状,t帧上的统计局部形状先验按如下公式计算:
p t l ( x ) = 1 Σ t ′ w t ′ - > t ( x ) Σ t ′ w t ′ - > t ( x ) p t ′ - > t l ( x )
在形状边界上用高斯滤波平滑下;
步骤3)中的基于统计形状先验量度,优化视频分割:
首先通过权重将全局以及局部形状先验结合起来,按如下公式结合:
p t c = λ sh * p t g + ( 1 - λ sh ) p t l
其中,λsh是权重一般取为5~10,那么统计形状先验量度按如下公式计算:
其中,ws是自适应的权重,定义如下:
w s = 1 | W ( x ) | Σ y ∈ W ( x ) exp ( - | | Δ I t ( y ) | | 2 2 σ c 2 ) , x ∈ Ω ( C t ) 1 , x ∉ Ω ( C t )
其中,W(x)是以像素点x为中心的小窗口,σc是参数一般取为5~15,Ω(Ct)表示分割边界附近的狭窄区域,那么最后的数据项定义如下:
E'dt(x))=median{Ls,Lg,Lsh}
通过用E'dt(x))替换掉之前的数据项,求解新的能量方程,得到更好的分割结果,利用这个结果来更新形状先验,重复以上过程两遍以上。
本发明提出了一种全新的前景形状匹配以及对齐方法,它能够有效的抽取出视频中正确的前景局部相似形状以及前景整体相似形状。其次,本发明提出了一种全新的形状先验的统计方法,它可以被应用在任一视频分割方法中,以 提高分割质量。最后,本发明还提出了一种基于结合包括统计形状先验量度、全局颜色概率统计量度、背景相减量度的视频分割算法,能够在前背景颜色相近的地方鲁棒的分割出前背景。
附图说明
图1(a)是序列中抽出的三张原始图像;
图1(b)是三张对应的初始的分割结果;
图1(c)是三张对应的结合统计的形状先验后得到的优化的分割结果;
图1(a)中上面是一张原图,下面是对应的分割结果;
图1(b)中上面是前背景及其相似的一张原图,下面的对应的分割结果;
图1(c)是图1(b)的放大效果图;
图2(a)中上面是一张原图,下面是对应的分割结果;
图2(b)中上面是前背景及其相似的一张原图,下面的对应的分割结果;
图2(c)是图2(b)的放大效果图。
具体实施方式
首先,本发明提出了一种全新的前景形状匹配以及对齐方法,它能够有效的抽取出视频中正确的前景局部相似形状以及前景整体相似形状。其次,本发明提出了一种全新的形状先验的统计方法,它可以被应用在任一视频分割方法中,以提高分割质量。最后,本发明还提出了一种基于结合包括统计形状先验量度、全局颜色概率统计量度、背景相减量度的视频分割算法,能够在前背景颜色相近的地方鲁棒的分割出前背景。
基于统计形状先验的视频分割方法步骤如下:
1)视频分割初始化;
2)前景形状匹配以及对齐,并计算统计形状先验量度;
3)基于统计形状先验量度,优化视频分割;
4)重复步骤2)、3)两遍以上后结束。
步骤2)中的前景形状匹配以及对齐,并计算统计形状先验量度为:
1)统计的全局形状先验
首先,在每一帧的前景蒙版轮廓上均匀采样轮廓点,称采样到的这些点为“关键点集”,对于每一个关键点p,分别用基于形状上下文进行形状匹配以及物体识别方法以及颜色直方图方法计算它的形状特征Fs(p)和外观特征hp
对任意两个关键点p和q,它们的特征距离根据如下公式计算:
D(p,q)=||Fs(p)-Fs(q)||+λ1dint(hp-hq)
其中,||||表示欧几里得距离运算,λ1表示权重取为10~20,dint(hp-hq)是直方图相交距离,定义如下:
d int ( h p - h q ) = Σ R Σ G Σ B min ( h p ( r , g , b ) , h q ( r , g , b ) ) min ( | h p | , | h q | )
其中|hp|和|hq|分别是直方图向量hp和hq的大小;
给定t和t'帧中的两个轮廓Ct和Ct',匹配关键点,将轮廓Ct和Ct'中采样得到的关键点集分别定义为Vt和Vt',对于Vt中的点x,即x∈Vt,找到在Vt'中的最佳对应点,匹配关键点转化成在吉布斯能量函数上求解标定问题,公式如下:
E ( L ) = Σ x ∈ V t E 1 ( l ( x ) ) + λ 2 Σ ( x , y ) ∈ ϵ E 2 ( l ( x ) , l ( y ) )
其中L表示标定集合{l(x)},λ2是一个权重取为5~10,每一个l(x)都是x像素点在t'帧中的最佳对应点,ε表示为相关关键点之间的连接集合,E1(l(x))是数据项,其定义如下:
E1(l(x))=D(x,l(x))
其中E2(l(x),l(y))是连续标定平滑项,定义如下:
E2(l(x),l(y))=|(Indx-Indy)%K-(Indl(x)-Indl(y))%K|
其中,Indx表示关键点x在Vt中的索引号,K是该关键点集的大小;
关键点集在边界上是呈现链状结构的,用动态规划来快速求解E(L)的最小化以求得最佳L,采用RANSAC方法计算得到t帧图像与t'帧图像之间的最佳前景单应性矩阵Ht,t',就将任意一帧的前景轮廓精确的对齐到另一帧上去;
将从前景区域St'对齐到前景区域St后的前景区域定义为St'->t,相似度按如下公式计算:
S(t,t')=St∩St'->t/max(St,St'->t)
其中St∩St'->t是St和St'->t之间的共同区域,max(St,St'->t)用作归一化处理,如果S(t,t')>τ,τ取为0.75~0.95,那么St和St'就足够相似;
对任意一帧t,从其他帧中选出足够相似的前景区域,将这些前景区域统统对齐到t帧上,由如下公式计算出对齐得到的前景概率,定义如下:
p t ′ - > t g = 1 , x ∈ S t ′ - > t 0.5 , x ∉ S t ′ - > t * 0 , otherwise
其中,表示St'->t区域扩张r个像素点后的区域,将形状先验限制在区域内;对于之外其他的区域,其形状先验是无效的,将其设为0.5,再基于一个常识来处理颜色相似的问题:若边界附近的像素点越相似,其颜色对照就越小;由此,基于颜色对照的概率可信度定义如下:
w t ′ - > t ( x ) = 1 Z Σ p ∈ C t ′ - > t 1 | | x - p | | 2 ( 1 - exp ( - Δ I t ′ - > t ( p ) 2 2 σ c 2 ) )
其中,Ct'->t和It'->t分别表示从t'图像对齐到t图像的轮廓和整张图像,Z=Σ||x-p||-2是归一化项,Δ是拉普拉斯算子,σc是一个参数取为5~15;
通过自适应的置信度将相似的对齐形状结合起来后,得到统计的全局形状先验,t帧的全局形状先验定义如下:
p t g ( x ) = 1 Σ t ′ w t ′ - > t ( x ) Σ t ′ w t ′ - > t ( x ) p t ′ - > t g ( x )
最终,通过高斯滤波将形状先验边界附近平滑一下;
2)统计的局部形状先验
对任意的帧图像对(t,t'),经过全局匹配后,帧图像t'上的邻接关键点匹配到了帧图像t上的连续对应点,也就是:
(Indx-Indy)%K≈(Indl(x)-Indl(y))%K
其中,K是关键点的个数,将具有相似平面变化的邻接轮廓段合并起来,对于t'帧图像上的每两个前景子轮廓,合并后的子轮廓定义为,在t 帧图像上对应的子轮廓为,假设包含K个关键点,其集合定义为{xk},之间平均的对齐错误根据如下公式计算得到:
ϵ c t ′ i , i + 1 - > c t i , i + 1 = 1 K Σ k = 1 K | | x k - H c t ′ i , i + 1 - > c t i , i + 1 x k ′ | | 2
其中x'k是xk的对应点,是最小化后得到的最优单应性矩阵,如果τε取为1~3,那么合并两个子轮廓,一直执行直到没有邻接的子轮廓再可以合并了为止;
对于任意一个子轮廓,它的单应性矩阵以及平均对齐误差分别为Hi和εi,如果,有另外一个子轮廓,使得之间的关键点个数小于阀值取为5~10,根据在中所有被匹配到的关键点估计得到单应性矩阵H',其平均的对齐误差为ε',如果对齐误差ε'<max{εij},那么之间的非连续性就是由于偶然的分割误差导致的,在这种情况下将,以及它们之间的关键点合并起来;
对于每一个合并后留下的子轮廓,用Graham Scan方法在子轮廓上计算得到最小的凸包U,通过求交操作使得U=St'∩U,这样U就是St'的子区域了,将U按r个像素点扩张,得到最终的用来映射的子区域U*,将它映射到其他帧上,用来计算统计的局部形状先验;
得到在每一帧t'的可匹配的局部区域U*后,将它映射到t帧上,那么对应的局部形状先验根据如下公式计算得到:
通过匹配相似的局部形状以及将它们用自适应的权重结合起来;
基于从其他帧对齐过来的局部形状,t帧上的统计局部形状先验按如下公式计算:
p t l ( x ) = 1 Σ t ′ w t ′ - > t ( x ) Σ t ′ w t ′ - > t ( x ) p t ′ - > t l ( x )
在形状边界上用高斯滤波平滑下;
步骤3)中的基于统计形状先验量度,优化视频分割:
首先通过权重将全局以及局部形状先验结合起来,按如下公式结合:
p t c = λ sh * p t g + ( 1 - λ sh ) p t l
其中,λsh是权重一般取为5~10,那么统计形状先验量度按如下公式计算:
其中,ws是自适应的权重,定义如下:
w s = 1 | W ( x ) | Σ y ∈ W ( x ) exp ( - | | Δ I t ( y ) | | 2 2 σ c 2 ) , x ∈ Ω ( C t ) 1 , x ∉ Ω ( C t )
其中,W(x)是以像素点x为中心的小窗口,σc是参数一般取为5~15,Ω(Ct)表示分割边界附近的狭窄区域,那么最后的数据项定义如下:
E'dt(x))=median{Ls,Lg,Lsh}
通过用E'dt(x))替换掉之前的数据项,求解新的能量方程,得到更好的分割结果,利用这个结果来更新形状先验,重复以上过程两遍以上。
实施例
1.分割初始化
首先获得每一帧图像的背景,当处理完一帧图像后,再处理下一帧图像,将它当作参考帧图像。若相机是静止或者纯旋转的,那么通过估计两帧图像中的旋转矩阵或者单应性矩阵来将一帧图像投影或者对齐到另一帧的图像上。对于参考帧图像,将若干其他帧图像投影或对齐到当前参考帧图像上,对任意一个像素采用中值滤波得到当前帧图像的估计背景图像;若相机是运动的或者背景场景是非平面的复杂情景,那么用视频序列一致性深度恢复方法去得到每一帧图像的深度图,基于深度关系以及3D Warping方法,将相邻帧图像投影或对齐到当前参考帧图像上来,运动的前景区域在背景几何下通常会投影到不同的位置上,相似地应用中值滤波方法能有效的去掉这些前景像素点。将t帧图像估计 得到的背景图像表示为
1.1数据项定义
与手持摄像机拍摄视频的运动/深度估计以及分割方法相似,本发明也需要一个预处理步骤来粗略的从一帧图像中抽取出前景区域,利用它来构造一个全局前景颜色高斯混合模型定义如下:
p g ( I t ( x ) | α t ( x ) = 1 ) = Σ k = 1 K f w k f N ( I i | μ k f , Σ k f )
其中,分别代表GMM第kth个组件的平均颜色和协方差矩阵,是相应的权重。
不同帧图像中的背景图像有相似的外观以及全局结构,那么背景颜色高斯混合模型定义如下:
p g ( I t ( x ) | α t ( x ) = 0 ) = Σ k = 1 K b w k b N ( I i | μ k b , Σ k b )
其中,N(·)表示高斯分布,分别代表GMM第kth个组件的平均颜色和协方差矩阵,是相应的权重。
颜色统计量度定义如下:
L g ( α t ( x ) ) = log p g ( α t ( x ) ) log p g ( α t ( x ) = 0 ) + log p g ( α t ( x ) = 1 )
其中分母用作归一化处理。
参考帧图像上的颜色差可以按如下公式计算:
D I ( x ) = min y ∈ W ( x ) | | I t ( y ) - I t B ( y ) | | 1
其中,为了避免噪点以及轻微的错误对齐从而达到鲁棒估计,W(x)是以像素点x为中心的小窗口。
背景相减量度定义如下:
L s ( α t ( x ) = 0 ) = D I ( x ) D I ( x ) + δ s
Lst(x)=1)=1-Lst(x)=0)
其中δs是一个参数,取为20~30。若DI(x)>δs,那么像素点x更有可能是前景像素点。
结合Ls和Lg后,新的数据项定义如下:
Edt(x))=median{Ls,Lg,0.5}
这个数据项支持用中立值0.5来温和的限制这个数据项的值。当Ls和Lg给出了矛盾的分割置信度时,有了0.5这一项后,将这个决定留给其他的归一项能得到更好的指导。
1.2平滑项定义
跟背景分割中的方法类似,根据下列公式获得减轻背景对照后的平滑项:
Est(x),αt(y))=|αt(x)-αt(y)|·exp(-β·dxy)
其中,β=(2<||Ir-Is||2>)-1是参数与基于迭代图割的交互前景分割方法中的一样,dxy跟背景分割方法中的公式9一样。
由刘彻光流方法估计得到光流,利用它得到时域平滑项,它的定义如下:
其中,dt,t+1(x)代表t帧图像上x像素点到对应的t+1帧图像上的x'像素点的运动向
量,dt,t+1(x)代表x'像素点到x像素点的运动向量,δflow是常量取为5~10。
1.3初始的分割
用Graph Cut方法来求解以下的吉布斯能量函数来得到初始的分割:
E B ( &alpha; ) = &Sigma; t = 1 n &Sigma; x &Element; I t ( E d ( &alpha; t ( x ) ) + &lambda; s &Sigma; y &Element; N ( x ) E s ( &alpha; t ( x ) , &alpha; t ( y ) ) ) + &lambda; T &Sigma; t = 1 n - 1 &Sigma; x &Element; I t R T t , t + 1 ( x )
其中,λs和λT分别是空间和时域平滑项权重,λS=0.5,λT=0.3。N(x)代表像素 点x的邻居像素点集合,求解上述公式后可以得到每一帧粗糙的分割,根据初始的分割再次估计得到新的背景图像,接着得到更新后的Ls,再一次求解上述公式后完成分割初始化。
2.统计的全局形状先验
由于初始的分割在前景边界上仍然有很多错误,并且它们在不同帧中是不连续的,将前景区域抽取出来,然后将它们对齐可以收集到正确的形状先验,这些形状先验会帮助纠正不正确的前景蒙版。
在每一帧的前景蒙版轮廓上均匀采样轮廓点,称采样到的这些点为“关键点集”,对于每一个关键点p,分别用基于形状上下文进行形状匹配以及物体识别方法以及颜色直方图方法计算它的形状特征Fs(p)和外观特征hp
在计算形状特征Fs(p)的时候,对于每一个关键点,构造一个12x5的格子,让它们均匀的落在极角空间中,极角空间的半径设置为前景区域面积平方的1/3,计算落在每一个格子内的关键点数,然后将它们连接成一个特征向量。在计算外观特征hp的时候,首先将RGB各通道分成8份后形成8x8x8个格子,对于每一个关键点,根据前景区域大小得到调整后的局部区域大小,然后在这个局部区域中采样所有前景像素点,接着再计算所有这些像素点落在哪个格子里面,最后外观特征hp表示为8x8x8维度的归一化后的向量。
对任意两个关键点p和q,它们的特征距离根据如下公式计算:
D(p,q)=||Fs(p)-Fs(q)||+λ1dint(hp-hq)
其中,||||表示欧几里得距离运算符,λ1表示权重取为10~20,dint(hp-hq)是直方图相交距离,定义如下:
d int ( h p - h q ) = &Sigma; R &Sigma; G &Sigma; B min ( h p ( r , g , b ) , h q ( r , g , b ) ) min ( | h p | , | h q | )
其中|hp|和|hq|分别是直方图向量hp和hq的大小。
给定t和t'帧中的两个轮廓Ct和Ct',匹配关键点,将轮廓Ct和Ct'中采样得到的关键点集分别定义为Vt和Vt',对于Vt中的点x,即x∈Vt,找到在Vt'中的最佳对应点,匹配关键点转化成在吉布斯能量函数上求解标定问题,公式如下:
E ( L ) = &Sigma; x &Element; V t E 1 ( l ( x ) ) + &lambda; 2 &Sigma; ( x , y ) &Element; &epsiv; E 2 ( l ( x ) , l ( y ) )
其中L表示标定集合{l(x)},λ2是一个权重取为5~10,每一个l(x)都是x像素点在t'帧中的最佳对应点,ε表示为相关关键点之间的连接集合,E1(l(x))是数据项,其定义如下:
E1(l(x))=D(x,l(x))
其中E2(l(x),l(y))是连续标定平滑项,定义如下:
E2(l(x),l(y))=|(Indx-Indy)%K-(Indl(x)-Indl(y))%K|
其中,Indx表示关键点x在Vt中的索引号,K是该关键点集的大小;
关键点集在边界上是呈现链状结构的,用动态规划来快速求解E(L)的最小化以求得最佳L,采用RANSAC方法计算得到t帧图像与t'帧图像之间的最佳前景单应性矩阵Ht,t',就将任意一帧的前景轮廓精确的对齐到另一帧上去;
将从前景区域St'对齐到前景区域St后的前景区域定义为St'->t,相似度按如下公式计算:
S(t,t')=St∩St'->t/max(St,St'->t)
其中St∩St'->t是St和St'->t之间的共同区域,max(St,St'->t)用作归一化处理,如果S(t,t')>τ,τ取为0.75~0.95,那么St和St'就足够相似;
对任意一帧t,从其他帧中选出足够相似的前景区域,将这些前景区域统统对齐到t帧上,由如下公式计算出对齐得到的前景概率,定义如下:
p t &prime; - > t g = 1 , x &Element; S t &prime; - > t 0.5 , x &NotElement; S t &prime; - > t * 0 , otherwise
其中,表示St'->t区域扩张r个像素点后的区域,为了鲁棒性,将形状先验限制在区域内;对于之外其他的区域,其形状先验是无效的,将其设为0.5。
2.1颜色对照线索
基于一个常识来处理颜色相似的问题,那就是如果边界附近的像素点越相似,那么其颜色对照就越小。这个线索非常简单,但是从来没有被之前的方法 用到过,它对前景边界的高质量分割有着奇效。由此,基于颜色对照的概率可信度定义如下:
w t &prime; - > t ( x ) = 1 Z &Sigma; p &Element; C t &prime; - > t 1 | | x - p | | 2 ( 1 - exp ( - &Delta; I t &prime; - > t ( p ) 2 2 &sigma; c 2 ) )
其中,Ct'->t和It'->t分别表示从t'图像对齐到t图像的轮廓和整张图像,Z=Σ||x-p||-2是归一化项,Δ是拉普拉斯算子,σc是一个参数取为5~15。这条公式的直观理解是低颜色对照边界的概率置信度更小。
通过自适应的置信度将相似的对齐形状结合起来后,得到统计的全局形状先验,t帧的全局形状先验定义如下:
p t g ( x ) = 1 &Sigma; t &prime; w t &prime; - > t ( x ) &Sigma; t &prime; w t &prime; - > t ( x ) p t &prime; - > t g ( x )
最终,通过高斯滤波将形状先验边界附近平滑一下,通过这个公式从其他帧收集得到的统计信息可以用来提高分割的质量。
3.统计的局部形状先验
对于包含重复前景运动以及姿势的序列,全局的形状先验已经可以很显著的修正分割错误了,因为它充分利用了全局轮廓的相似性。然而,如果前景物体在形状上连续变动,那么这时的前背景颜色相似问题通过统计的全局形状先验是解决不了的。在这种情况下,局部形状先验可以更加有效的收集到形状信息来达到改善前背景颜色相似区域的分割效果。
3.1轮廓对齐
对任意的帧图像对(t,t'),经过全局匹配后,帧图像t'上的邻接关键点匹配到了帧图像t上的连续对应点,也就是:
(Indx-Indy)%K≈(Indl(x)-Indl(y))%K
其中,K是关键点的个数。接着,将具有相似平面变化的邻接轮廓段合并起来,举个例子,对于t'帧图像上的每两个前景子轮廓,合并后的子轮廓定义为,它在t帧图像上对应的子轮廓为。假设包含K个关键点,其集合定义为{xk}。之间平均的对齐错误可根据如下公式计算得到:
&epsiv; c t &prime; i , i + 1 - > c t i , i + 1 = 1 K &Sigma; k = 1 K | | x k - H c t &prime; i , i + 1 - > c t i , i + 1 x k &prime; | | 2
其中x'k是xk的对应点,是最小化后得到的最优单应性矩阵,如果τε取为1~3,那么合并两个子轮廓,这个步骤一直执行直到没有邻接的子轮廓再可以合并了为止。
由于前景轮廓形状在不同帧之间的变化,那么很自然的会有一些子轮廓和关键点是找不到好的对应子轮廓以及关键点来合并的。对于任意一个子轮廓,它的单应性矩阵以及平均对齐误差分别为Hi和εi。如果,有另外一个子轮廓使得之间的关键点个数小于阀值取为5~10,根据在中所有被匹配到的关键点估计得到单应性矩阵H',其平均的对齐误差为ε',如果对齐误差ε'<max{εij},那么之间的非连续性就非常可能是由于偶然的分割误差导致的,在这种情况下将以及它们之间的关键点合并起来。这个步骤非常重要,因为如果不合并这些段,有可能就会失去纠正某些局部分割错误的唯一机会。
然后,对于每一个合并后留下的子轮廓,用Graham Scan方法在子轮廓上计算得到最小的凸包U,然后通过求交操作使得U=St'∩U,这样U就是St'的子区域了。接着,将U按r个像素点扩张,得到最终的用来映射的子区域U*,然后将它映射到其他帧上,用来计算统计的局部形状先验。
3.2局部形状先验
得到在每一帧t'的可匹配的局部区域U*后,将它映射到t帧上,那么对应的局部形状先验根据如下公式计算得到:
通过匹配相似的局部形状以及将它们用自适应的权重结合起来,甚至能够处理前景形状有变化的例子。
有了从其他帧对齐过来的局部形状后,t帧上的统计局部形状先验按如下公式计算:
p t l ( x ) = 1 &Sigma; t &prime; w t &prime; - > t ( x ) &Sigma; t &prime; w t &prime; - > t ( x ) p t &prime; - > t l ( x )
然后再形状边界上用高斯滤波平滑下。
4.结合统计形状先验的分割
本发明提出的局部以及全局形状先验能够有效地提高双层分割的质量,将它们结合进目标函数然后更新数据项。首先通过权重将全局以及局部形状先验结合起来,按如下公式结合:
p t c = &lambda; sh * p t g + ( 1 - &lambda; sh ) p t l
其中,λsh是权重一般取为5~10,那么统计形状先验量度按如下公式计算:
其中,ws是自适应的权重,定义如下:
w s = 1 | W ( x ) | &Sigma; y &Element; W ( x ) exp ( - | | &Delta; I t ( y ) | | 2 2 &sigma; c 2 ) , x &Element; &Omega; ( C t ) 1 , x &NotElement; &Omega; ( C t )
其中,W(x)是以像素点x为中心的小窗口,σc是参数一般取为5~15,Ω(Ct)表示分割边界附近的狭窄区域。那么最后的数据项定义如下:
E'dt(x))=median{Ls,Lg,Lsh}
通过用E'dt(x))替换掉之前的数据项,然后求解新的能量方程,可以得到更好的分割结果,然后又可以利用这个结果来更新形状先验,重复以上过程两遍以上。
5.方法引用说明
视频序列一致性深度恢复:G.Zhang,J.Jia,T.‐T.Wong,and H.Bao.Consistentdepth maps recovery from a video sequence.IEEE Transactions on PatternAnalysis and Machine Intelligence,31(6):974–988,2009.
手持摄像机拍摄视频的运动/深度估计以及分割:Guofeng Zhang,Jiaya Jia,WeiHua,and Hujun Bao.Robust Bilayer Segmentation and Motion/Depth Estimationwith a Handheld Camera.IEEE Transactions on Pattern Analysis and MachineIntelligence(TPAMI),33(3):603‐617,2011.
基于迭代图割的交互式前景分割:C.Rother,V.Kolmogorov,and A.Blake.”grabcut”: interactive foreground extraction using iterated graph cuts.ACMTrans.Graph.,23(3):309–314,2004.
基于形状上下文进行形状匹配以及物体识别:S.Belongie,J.Malik,andJ.Puzicha.Shape matching and object recognition using shape contexts.IEEETrans.Pattern Anal.Mach.Intell.,24(4):509–522,2002.
背景分割:J.Sun,W.Zhang,X.Tang,and H.‐Y.Shum.Background cut.In ECCV(2),pages628–641,2006.
刘彻光流:C.Liu.Beyond pixels:exploring new representations andapplications for motion analysis.PhD thesis,Massachusetts Institute ofTechnology,May2009.
GraphCut:Y.Boykov,O.Veksler,and R.Zabih,“Fast Approximate EnergyMinimization via Graph Cuts,”IEEE Trans.Pattern Analysis and MachineIntelligence,vol.23,no.11,pp.1222‐1239,Nov.2001.
RANSAC:M.A.Fischler and R.C.Bolles.Random sample consensus:A paradigmfor model fitting with applications to image analysis and automatedcartography.Commun.ACM,24(6):381–395,1981.
Graham Scan:R.L.Graham.An efficient algorithm for determining theconvex hull of a finite planar set.Inf.Process.Lett.,1(4):132–133,1972.
3D Warping:W.R.Mark,L.McMillan,and G.Bishop.Post-rendering 3Dwarping.In SI3D,pages7–16,180,1997.

Claims (2)

1.一种基于统计形状先验的视频分割方法,其特征在于它的步骤如下:
1)视频分割初始化;
2)前景形状匹配以及对齐,并计算统计形状先验量度;
3)基于统计形状先验量度,优化视频分割;
4)重复步骤2)、3)两遍以上后结束;
所述的步骤2)中的前景形状匹配以及对齐,并计算统计形状先验量度为:
1)统计的全局形状先验
首先,在每一帧的前景蒙版轮廓上均匀采样轮廓点,称采样到的这些点为“关键点集”,对于每一个关键点p,分别用基于形状上下文进行形状匹配以及物体识别方法以及颜色直方图方法计算它的形状特征Fs(p)和外观特征hp
对任意两个关键点p和q,它们的特征距离根据如下公式计算:
D(p,q)=||Fs(p)-Fs(q)||+λ1dint(hp-hq)
其中,||||表示欧几里得距离运算,λ1表示权重取为10~20,dint(hp-hq)是直方图相交距离,定义如下:
d i n t ( h p - h q ) = &Sigma; R &Sigma; G &Sigma; B m i n ( h p ( r , g , b ) , h q ( r , g , b ) ) min ( | h p | , | h q | )
其中|hp|和|hq|分别是直方图向量hp和hq的大小;
给定t和t'帧中的两个轮廓Ct和Ct',匹配关键点,将轮廓Ct和Ct'中采样得到的关键点集分别定义为Vt和Vt',对于Vt中的点x,即x∈Vt,找到在Vt'中的最佳对应点,匹配关键点转化成在吉布斯能量函数上求解标定问题,公式如下:
E ( L ) = &Sigma; x &Element; V t E 1 ( l ( x ) ) + &lambda; 2 &Sigma; ( x , y ) &Element; &epsiv; E 2 ( l ( x ) , l ( y ) )
其中L表示标定集合{l(x)},λ2是一个权重取为5~10,每一个l(x)都是x像素点在t'帧中的最佳对应点,ε表示为相关关键点之间的连接集合,E1(l(x))是数据项,其定义如下:
E1(l(x))=D(x,l(x))
其中E2(l(x),l(y))是连续标定平滑项,定义如下:
E2(l(x),l(y))=|(Indx-Indy)%K-(Indl(x)-Indl(y))%K|
其中,Indx表示关键点x在Vt中的索引号,K是该关键点集的大小;
关键点集在边界上是呈现链状结构的,用动态规划来快速求解E(L)的最小化以求得最佳L,采用RANSAC方法计算得到t帧图像与t'帧图像之间的最佳前景单应性矩阵Ht,t',就将任意一帧的前景轮廓精确的对齐到另一帧上去;
将从前景区域St'对齐到前景区域St后的前景区域定义为St'->t,相似度按如下公式计算:
S(t,t')=St∩St'->t/max(St,St'->t)
其中St∩St'->t是St和St'->t之间的共同区域,max(St,St'->t)用作归一化处理,如果S(t,t')>τ,τ取为0.75~0.95,那么St和St'就足够相似;
对任意一帧t,从其他帧中选出足够相似的前景区域,将这些前景区域统统对齐到t帧上,由如下公式计算出对齐得到的前景概率,定义如下:
p t &prime; - > t g = 1 , x &Element; S t &prime; - > t 0.5 , x &NotElement; S t &prime; - > t * 0 , o t h e r w i s e
其中,表示St'->t区域扩张r个像素点后的区域,将形状先验限制在区域内;对于之外其他的区域,其形状先验是无效的,将其设为0.5,再基于一个常识来处理颜色相似的问题:若边界附近的像素点越相似,其颜色对照就越小;由此,基于颜色对照的概率可信度定义如下:
w t &prime; - > t ( x ) = 1 Z &Sigma; p &Element; C t &prime; - > t 1 | | x - p | | 2 ( 1 - exp ( - &Delta;I t &prime; - > t ( p ) 2 2 &sigma; c 2 ) )
其中,Ct'->t和It'->t分别表示从t'图像对齐到t图像的轮廓和整张图像,Z=Σ||x-p||-2是归一化项,Δ是拉普拉斯算子,σc是一个参数取为5~15;
通过自适应的置信度将相似的对齐形状结合起来后,得到统计的全局形状先验,t帧的全局形状先验定义如下:
p t g ( x ) = 1 &Sigma; t &prime; w t &prime; - > t ( x ) &Sigma; t &prime; w t &prime; - > t ( x ) p t &prime; - > t g ( x )
最终,通过高斯滤波将形状先验边界附近平滑一下;
2)统计的局部形状先验
对任意的帧图像对(t,t'),经过全局匹配后,帧图像t'上的邻接关键点匹配到了帧图像t上的连续对应点,也就是:
(Indx-Indy)%K≈(Indl(x)-Indl(y))%K
其中,K是关键点的个数,将具有相似平面变化的邻接轮廓段合并起来,对于t'帧图像上的每两个前景子轮廓合并后的子轮廓定义为在t帧图像上对应的子轮廓为假设包含K个关键点,其集合定义为{xk},之间平均的对齐错误根据如下公式计算得到:
&epsiv; c t &prime; i , i + 1 - > c t i , i + 1 = 1 K &Sigma; k = 1 K | | x k - H c t &prime; i , i + 1 - > c t i , i + 1 x k &prime; | | 2
其中x'k是xk的对应点,是最小化后得到的最优单应性矩阵,如果τε取为1~3,那么合并两个子轮廓,一直执行直到没有邻接的子轮廓再可以合并了为止;
对于任意一个子轮廓,它的单应性矩阵以及平均对齐误差分别为Hi和εi,如果,有另外一个子轮廓使得之间的关键点个数小于阈值取为5~10,根据在中所有被匹配到的关键点估计得到单应性矩阵H',其平均的对齐误差为ε',如果对齐误差ε'<max{εij},那么之间的非连续性就是由于偶然的分割误差导致的,在这种情况下将以及它们之间的关键点合并起来;
对于每一个合并后留下的子轮廓,用Graham Scan方法在子轮廓上计算得到最小的凸包U,通过求交操作使得U=St'∩U,这样U就是St'的子区域了,将U按r个像素点扩张,得到最终的用来映射的子区域U*,将它映射到其他帧上,用来计算统计的局部形状先验;
得到在每一帧t'的可匹配的局部区域U*后,将它映射到t帧上,那么对应的局部形状先验根据如下公式计算得到:
通过匹配相似的局部形状以及将它们用自适应的权重结合起来;
基于从其他帧对齐过来的局部形状,t帧上的统计局部形状先验按如下公式计算:
p t l ( x ) = 1 &Sigma; t &prime; w t &prime; - > t ( x ) &Sigma; t &prime; w t &prime; - > t ( x ) p t &prime; - > t l ( x )
在形状边界上用高斯滤波平滑下。
2.根据权利要求1所述的一种基于统计形状先验的视频分割方法,其特征在于所述步骤3)中的基于统计形状先验量度,优化视频分割:
首先通过权重将全局以及局部形状先验结合起来,按如下公式结合:
p t c = &lambda; s h * p t g + ( 1 - &lambda; s h ) p t l
其中,λsh是权重取为5~10,那么统计形状先验量度按如下公式计算:
L s h = w s p t c + ( 1 - w s ) &CenterDot; 0.5
其中,ws是自适应的权重,定义如下:
w s = 1 | W ( x ) | &Sigma; y &Element; W ( x ) exp ( - | | &Delta;I t ( y ) | | 2 2 &sigma; c 2 ) , x &Element; &Omega; ( C t ) 1 , x &NotElement; &Omega; ( C t )
其中,W(x)是以像素点x为中心的小窗口,σc是参数取为5~15,Ω(Ct)表示分割边界附近的狭窄区域,那么最后的数据项定义如下:
E'dt(x))=median{Ls,Lg,Lsh}
通过用E'dt(x))替换掉之前的数据项,求解新的能量方程,得到更好的分割结果,利用这个结果来更新形状先验,重复以上过程两遍以上。
CN201310197100.3A 2013-05-22 2013-05-22 基于统计形状先验的视频分割方法 Active CN103337082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310197100.3A CN103337082B (zh) 2013-05-22 2013-05-22 基于统计形状先验的视频分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310197100.3A CN103337082B (zh) 2013-05-22 2013-05-22 基于统计形状先验的视频分割方法

Publications (2)

Publication Number Publication Date
CN103337082A CN103337082A (zh) 2013-10-02
CN103337082B true CN103337082B (zh) 2016-08-31

Family

ID=49245230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310197100.3A Active CN103337082B (zh) 2013-05-22 2013-05-22 基于统计形状先验的视频分割方法

Country Status (1)

Country Link
CN (1) CN103337082B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700432B (zh) * 2015-03-24 2017-11-03 银江股份有限公司 一种自适应的粘连车辆分割方法
CN107316313B (zh) * 2016-04-15 2020-12-11 株式会社理光 场景分割方法及设备
CN109509193B (zh) * 2018-10-19 2020-08-25 中南民族大学 一种基于高精度配准的肝脏ct图谱分割方法及系统
CN110992371B (zh) * 2019-11-20 2023-10-27 北京奇艺世纪科技有限公司 一种基于先验信息的人像分割方法、装置及电子设备
CN113223084B (zh) * 2021-05-27 2024-03-01 北京奇艺世纪科技有限公司 一种位置确定方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101686338B (zh) * 2008-09-26 2013-12-25 索尼株式会社 分割视频中的前景和背景的系统和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于先验形状信息和水平集方法的车辆检测;赵璐;《浙江大学学报(工学版)》;20100131;第44卷(第1期);124-130 *

Also Published As

Publication number Publication date
CN103337082A (zh) 2013-10-02

Similar Documents

Publication Publication Date Title
US11763485B1 (en) Deep learning based robot target recognition and motion detection method, storage medium and apparatus
US9105093B2 (en) Method and apparatus for bi-layer segmentation
US20200218929A1 (en) Visual slam method and apparatus based on point and line features
Bugeau et al. Detection and segmentation of moving objects in highly dynamic scenes
Boykov et al. Graph cuts and efficient ND image segmentation
US8027513B2 (en) Bitmap tracker for visual tracking under very general conditions
Zhao et al. Rectilinear parsing of architecture in urban environment
Delmerico et al. Building facade detection, segmentation, and parameter estimation for mobile robot localization and guidance
CN103337082B (zh) 基于统计形状先验的视频分割方法
Ngo et al. Dense image registration and deformable surface reconstruction in presence of occlusions and minimal texture
CN103279961A (zh) 基于深度恢复和运动估计的视频分割方法
Zamalieva et al. A multi-transformational model for background subtraction with moving cameras
Bai et al. Dynamic color flow: A motion-adaptive color model for object segmentation in video
Zhang et al. Simultaneous multi-body stereo and segmentation
CN101765019A (zh) 一种用于运动模糊和光照变化图像的立体匹配方法
Zhang et al. Multi-view video based multiple objects segmentation using graph cut and spatiotemporal projections
Bellavia et al. Image orientation with a hybrid pipeline robust to rotations and wide-baselines
Sunkara et al. Object tracking techniques and performance measures—A conceptual survey
CN107657628A (zh) 一种实时彩色目标跟踪方法
Kim et al. Multi-view object extraction with fractional boundaries
CN105975918B (zh) 基于多模型估计的面向移动摄像机的运动目标检测方法
Leichter et al. Bittracker—a bitmap tracker for visual tracking under very general conditions
Xu et al. Occlusion-aware motion layer extraction under large interframe motions
Allili et al. A robust video object tracking by using active contours
Prada et al. Improving object extraction with depth-based methods

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant