一种基于低秩稀疏表达的目标精细轮廓跟踪方法
技术领域
本发明属于计算机视觉领域,具体涉及智能监控领域。
背景技术
基于视频的目标精细轮廓跟踪技术在计算机视觉领域中是一个备受关注且发展迅速的领域,该技术是计算机视觉领域最基础的技术之一,可以得到目标轮廓的跟踪结果。上层算法进一步根据目标轮廓跟踪结果进行分析和处理,来实现对场景的理解、对目标动作的识别以及对人体行为的识别等应用。该技术的广泛的应用前景和很高的研究价值激发了国内外研究人员的浓厚兴趣。
对视频中目标的精细轮廓跟踪被认为是一个二分类的问题,目前国内外已经出现了很多相关的算法,比如基于水平集的方法,该方法将运动的估计和目标的分割分成了两个单独的阶段,但是在很多摄像头运动的视频中,对运动的估计很难得到好的跟踪效果。为了解决有摄像头运动的情况,人们提出来一种基于图割的方法,该方法将多个线索函数融合到一起,目标的运动信息通常是其中一个重要的线索函数,然而背景的运动场通常会干扰目标的运动信息,使得跟踪的目标轮廓不准确。还有一些半自动的分割方法,这些方法需要人为的标定一些目标和背景区域,这就在很大程度上限制了其应用领域。
目前已知的各种对目标精细轮廓的跟踪算法现在仍然存在很多缺陷,这些算法都是针对某种特定的场景,还没有一种通用的算法能够在大多数场景下适用。
发明内容
本发明所要解决的技术问题是,提供一种具有普适性的高效准确的目标精细轮廓跟踪方法。
本发明为解决上述技术问题所采用的技术方案是,一种基于低秩稀疏表达的目标精细轮廓跟踪方法,其特征在于,包括以下步骤:
1)初始化步骤:
1-1)将视频的第1帧图像将分割成超像素;
1-2)对分割成超像素后的图像提取局部对数欧式距离协方差矩阵L2ECM特征X;
1-3)将第1帧图像的L2ECM特征进行目标与背景的区分,从而得到模板D,之后进入步骤2);D=[DO,DB],其中DO表示模板D的目标特征,DB表示模板D的背景特征;
2)跟踪步骤:
2-1)对视频中第t帧图像分割成超像素并提取L2ECM特征得到图像的特征矩阵X,t=2,3,...,求解第t帧图像的低秩稀疏系数矩阵Z:
argminZ,E(||Z||*+β||Z||1+γ||E||1)
s.t.X=Dt-1*Z+E
其中,argminZ,E表示取使目标函数最小时的Z与E,s.t.表示约束条件,Dt-1表示第t-1帧的模板D,E为图像噪声;β、γ是经验常数,分别表示矩阵Z和矩阵E的稀疏性的权重,||||*表示核范数,|| ||1表示一范数;Z=[ZO,ZB],其中ZO表示模板D的目标特征低秩稀疏系数矩阵,ZB表示模板D的背景特征的低秩稀疏系数矩阵;
2-2)求视频中第t帧图像的目标显著性特征和目标表观特征
2-3)求视频中第t帧图像中像素之间的相关性ψ(ui,uj,Ii,Ij):
其中,Ii,Ij表示第t帧图像中的第i、j个原始像素点,ui,uj表示第t帧图像中的第i、j个原始像素点对应的类别,1表示类别为目标,0表示类别为背景;
ε为拉普拉斯平滑系数,exp为指数函数,|| ||2为二范数的平方,μ表示第t帧图像中第i个像素点四邻域像素值的平均值;
冲激函数
2-4)利用标显著性特征、目标表观特征和像素之间的相关性构造能量函数模型E(u),再使用最大流-最小割算法求解能量函数模型E(u)得到目标区域和背景区域分割结果u*:
u*=argminE(u)
I为第t帧图像,Ii,Ij表示第t帧图像中的第i、j个原始像素点,Ω表示第i个像素点的四邻域;表示目标显著性特征或目标表观特征,k=1或2,表示特征类别,当k=1,为目标显著性特征,当k=2,为目标表观特征;λk为经验权重;
2-5)利用目标区域和背景区域分割结果u*更新第t帧图像的模板D,更新t=t+1,返回步骤2-1)处理视频中的下一帧图像。
本发明从视频中目标的本质特性去分析,得到了视频前后两帧之间目标和背景的关系,所以能够应用在大多数场景下,此方法的创新之处在于:在目标精细跟踪的问题中使用超像素对含有跟踪目标的图像进行分块,每一个超像素被看做一个点,这降低了计算的复杂度;将对目标的跟踪问题建模为矩阵的低秩稀疏表达的问题,得到稀疏表达的系数之后,利用能量最小化的方法来分割目标和背景,提出新的能量函数模型的决策函数,在能量最小化方法中使用该决策函数作为目标和背景分割结果的依据。
本发明的有益效果是,计算复杂度低,具有普适性实现目标精细轮廓跟踪。
附图说明
图1为超像素示意图;
图2为低秩稀疏表达示意图。
具体实施方式
1:超像素,超像素的分割和特征的提取为现有成熟算法。超像素是指在图像中由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域,这些小区域大多保留了进一步进行图像分割的有效信息,且一般不会破坏图像中物体的边界信息。在我们的算法中用于对图像进行分块,使得一团位置相邻且特征相似的像素可以用一个超像素来表示。本文中使用的超像素分割方法SLIC算法详见“SLIC Superpixels Compared to State-of-the-art Superpixel Methods”一文。
2:L2ECM特征,局部对数欧式距离协方差矩阵Local Log-Euclidean CovarianceMatrix,该特征的提取为现有成熟算法。对于一幅图像,使用它的原始特征构造成公式1所示的形式,其中I(x,y)表示图像I中(x,y)位置的像素值,|·|表示绝对值,Ix(x,y)和Iy(x,y)分别表示对x和y方向的一阶偏导数,Ixx(x,y)和Iyy(x,y)分别表示对x和y方向的二阶偏导数。对于一个超像素s,令其中(xi,yi)∈s,d表示原始特征的长度,表示d维空间,Ns表示超像素s中包含的像素的个数,那么Gs是一个大小为dxNs的矩阵,Gs的每一列是一个原始特征计算Gs的协方差矩阵Cs,那么Cs是一个d×d的矩阵,它的纬度和Ns无关。为了避免计算协方差矩阵之间在黎曼空间中的测地线距离,我们将Cs转换为欧式空间中的log(Cs),由于log(Cs)矩阵的对称性,我们取log(Cs)矩阵的一半(上三角矩阵)排列成一个向量就构成了L2ECM特征,那么一个超像素对应的L2ECM特征的长度为
3:低秩稀疏表达。低秩稀疏表达是指用一个低秩的并且稀疏的矩阵来表示一个目标。在视频中,当前帧中的一个超像素可以用上一帧中的超像素的线性组合来表示。
我们用ft表示当前帧图像,即待跟踪的图像,用ft-1表示视频中的上一帧图像,利用ft-1中目标的分割的结果,构建一个模板集D。D是一个ds×Nt-1的矩阵,其中ds代表一个超像素的特征维度,Nt-1为ft-1中超像素的个数。为了更清晰的表达,我们将D的所有列进行重新组合,使得D=[DO,DB],其中DO表示所有的目标的特征,DB表示所有的背景的特征。
将ft中所有的超元素构成样本集则X是一个ds×Nt的矩阵,其中Nt为ft中超像素的个数。在不考虑噪声的情况下,X中的任意一列xi都可以用D的线性组合来表示,即X=D*Z。加上噪声E之后,我们可以将这种关系写成矩阵的形式如下:
X=D*Z+E
Z的每一列表示X的对应的一列用D的线性组合进行表示的系数,低秩稀疏系数矩阵Z称之为表达子。对应于D被分解成DO和DB,表达子Z也被分解成ZO和ZB,如图2所示。
1)根据视频中图像的连续性可知,ft中很多元素具有很大的相似性,也就是说,样本集中的很多元素都可以用模板集进行相同的表达,因此最终的表达子Z应为低秩矩阵。
2)为了尽可能用最相似的模板来表达ft中的各个元素,即Z的每一列中不为0的元素尽可能少,因此最终的表达子Z应为稀疏矩阵。
3)图像中的噪声可以用稀疏模型进行拟合,因此E也应为稀疏矩阵。
超像素的低秩稀疏表达是本算法的关键步骤,我们利用这个低秩稀疏的矩阵来作为分割目标区域和背景区域的依据。
采用增广拉格朗日乘数法即可求解得到表达子Z与噪声E:
argminZ,E(||Z||*+β||Z||1+γ||E||1)
s.t.X=Dt-1*Z+E
其中β、γ是常数,分别表示矩阵Z和矩阵E的稀疏性的权重,β=2,γ=2,||Z||*表示矩阵Z的核范数,||Z||1表示矩阵Z的一范数,||E||1表示矩阵E的一范数。argminZ,E表示取使目标函数最小时的Z与E,s.t.表示约束条件,Dt-1表示第t-1帧的模板D。
4:目标显著性特征,该特征的计算也有成熟算法。本发明为了更好的准确性,适应更多更复杂的场景,提出一种新的目标显著性特征算法。稀疏低秩这个模型的物理意义是对于当前帧图像中的一个超像素,到上一帧的所有超像素中去找到最相似的一个超像素,稀疏和低秩能保证找到的是最相似的那一个。
我们需要利用Z来建立当前帧图像中每个超像素的概率模型,使得当前帧图像中的目标对应的超像素能够具有较大的概率,背景对应的超像素具有较小的概率。
图像中目标显著性特征中第i个超像素的显著性特征Ti的计算方法是:
表示模板D的背景特征的低秩稀疏系数矩阵ZB的第i列,对应第i个超像素,表示模板D的目标特征的低秩稀疏系数矩阵ZO的第i列,max为取最大值。Ti表示X中第i列对应的超像素属于目标的概率,超像素中的每一个原始像素属于目标的概率等于这个超像素属于目标的概率,每一个超像素中的原始像素属于目标的概率等于Ti。Ti表示一个超像素的显著性,一个超像素里面每一个原始像素的显著性等于这个超像素的显著性。
5:目标表观特征,该特征的计算也有成熟算法。基于目标与背景的直方图为图像中每个像素建立颜色的概率分布。我们根据上一帧分割的结果,在YUV空间中分别建立目标与背景的颜色直方图,并且将此直方图通过高斯滤波器进行平滑。
6:能量函数模型。对于一个输入图像I,{Ii}和{ui}分别表示原始像素和类别标签的集合,如果Ii属于目标区域则ui=1,反之ui=0。目标的精细分割结合了目标显著性特征和目标表观特征这两个线索函数,这样可得到分割结果。
其中,表示目标的显著性特征和表观特征两个线索函数,k=1或2,表示特征类别,当k=1,为目标显著性特征,当k=2,为目标表观特征;λk为经验权重;I为当前图像,Ii,Ij表示当前图像中的第i、j个原始像素点,Ω表示第i个像素点的四邻域;ψ(ui,uj,Ii,Ij)表示像素之间的相关性:
Ii,Ij表示第t帧图像中的第i、j个原始像素点,ui,uj表示第t帧图像中的第i、j个原始像素点对应的类别,1表示类别为目标,0表示类别为背景;
ε为拉普拉斯平滑系数,ε=1,exp为指数函数,|| ||2为二范数的平方,μ表示第t帧图像中第i个像素点四邻域像素值的平均值;四邻域是数字图像中的一个概念,表示一个像素周围的上下左右四个像素。
利用标显著性特征、目标表观特征和像素之间的相关性构造能量函数模型E(u),再使用最大流-最小割算法求解能量函数模型E(u)得到目标区域和背景区域分割结果u*。
本发明具体操作步骤如下:
首先是初始化步骤:
步骤1、对于视频的第1帧图像,使用SLIC算法将图像分割成超像素,设置超像素的最大个数为200。
步骤2、对分割成超像素后的图像提取L2ECM特征,对于彩色图像,有RGB三个通道,所以每一个超像素对应的L2ECM特征是一个120维的列向量。假设整幅图像分割成N个超像素,则图像对应的特征是120xN的矩阵。
步骤3、对第1帧图像的进行前景与背景划分,初始化步骤中的前景与背景划分可以使用现有已公开的所有前景提取方法,将这个120xN的矩阵按照目标特征DO与背景特征DB进行排列,得到模板D。
至此初始化结束,下面开始跟踪的步骤:
步骤4、从视频的第2帧图像开始,和步骤1、2一样得到图像对应的L2ECM特征,求解低秩稀疏系数矩阵Z。
步骤5、求得目标显著性特征和目标表观特征
步骤6、求得像素之间的相关性ψ(ui,uj,Ii,Ij)。
步骤7、利用和ψ(ui,u,Ii,Ij)构造能量函数模型,并使用最大流-最小割算法求解该模型,得到目标区域和背景区域的分割结果
步骤8、利用得到的目标区域和背景区域来更新模板D,然后回到步骤4,处理视频中的下一帧图像。