发明内容
本发明的目的在于针对上述技术存在的缺陷,提供了一种基于外观模型的学习型视觉追踪方法,该方法首先把图像帧划分成若干超像素区域,然后把分割后的超像素区域聚为正包集和负包集;最后使用一个贪心搜索算法来学习每个包的分布。本发明的建模方法在学习过程中没有使用迭代,而是通过一种多示例的学习任务对外观模型进行了建模,克服了基于边界框建模方法自身的局限性,提高了计算效率,能够适用于实时的目标追踪应用;此外,提出了一个两步的过程来进行置信度的划分,保证了置信度划分的有效性,从而大大提高了目标追踪的准确性。
本发明是通过如下技术方案实现的,一种基于外观模型的学习型视觉追踪方法,其特征在于:该方法包括以下步骤:
步骤1:学习前景背景集:对训练中的帧进行过分割,整个过程符合(MIL)范式,使用正包来对边界框内部的目标进行建模,同时用负包集来表示背景;采用净化后的包来学习目标中的每一块,使得外观模型获得更准确的前景划分结果;
步骤2:学习包集分布:采用贪心搜索算法获取正包集和负包集的数目,并分别对获取到的每个正包集和负包集进行学习;
步骤3:学习每个包集的权重:给更有辨识度的块分配更大的权重,使正包集和负包集的边缘得到最大化;
步骤4:对后续的帧进行判断:
步骤4.1:对于一个新的帧,首先获取搜索区域并抽取出搜索区域内的N个超像素;
步骤4.2:然后为上述每个超像素分配一个超像素值,进而获得每个超像素的置信度;
步骤4.3:根据公式生成一些候选的目标状态,已知,目标状态与目标区域相对应,把候选的目标区域归一化成相同的尺寸;
步骤4.4:当对该新的帧追踪完之后,把追踪完的该新的帧的信息加到训练集中,去掉最老的信息;每U帧更新一次外观模型。
其中,所述步骤2中的贪心搜索算法过程为:首先,进行初始化,把训练集第一帧目标区域中的每一个像素当成一个独立的包;然后,把后续帧中的超像素划分给最近的包;接着,对含有冗余信息的多余的包集进行合并、优化;最后,得到正包集的高斯分布和负包集的分布。
所述步骤4.2中为每个超像素分配一个超像素值得过程为:首先为每个超像素分配二进制类标签,然后对二进制类标签进行定义,使得每一个超像素被分配了正标签或负标签。
本发明有益效果是:
1、本发明提出了一种基外观模型的学习型新颖的目标建模方法,把已知图像分解成一些互相不遮挡的超像素区域之后,把边界框内部的超像素标定为正包,把边界外部的超像素标定为负包,克服了基于边界框建模方法自身的局限性。
2、通过在模板学习的过程中寻找一种贪心算法舍弃迭代,适用于实时目标追踪应用,提高了计算效率。
3、提出了一个两步的过程来进行置信度的划分,避免了不可靠的划分,提高了追踪的性能,从而达到比之前的方法计算起来更快,而且实验效果优于平均水平的效果,大大提高了目标追踪的准确性。
具体实施方式
下面结合附图1对本发明做进一步说明。
一种基于外观模型的学习型视觉追踪方法,其特征在于,该方法包括以下步骤:
步骤1:学习前景背景集:对训练中的帧进行过分割,整个过程符合(MIL)范式,使用正包来对边界框内部的目标进行建模,同时用负包集来表示背景;通过正负包的信息,可以估计目标的位置;
假设正的包集跟负的包集是独立的,置信度的划分可以用下面的方法来判定:
C(ri)=p(l(ri)=1|B+)p(l(ri)=1|B-),其中,B+和B-代表正包集和负包集;
为了去掉边界框中的负超像素集,需要计算边界框中的超像素是背景的可能性,超像素对之间的距离可以定义如下:其中,代表边界框内的第i个超像素的特征向量,代表边界框外的第j个超像素的特征向量;
使用一个预先定义的阈值λd,特征之间的距离可以被量化为一个二值问题,公式如下: 其中,1代表着两个超像素很相似;
根据下面的公式来判定当前的超像素是否因为从正样本中移除:其中,Ni代表与边界框内部的超像素相似的数目,No代表与边界框外部的超像素相似的数目;当ρr大于λr的时候,当前的超像素就会被移除,进入负包集中;
最后,采用净化后的包来学习目标中的每一块,使得外观模型获得更准确的前景划分结果。
步骤2:学习包集分布:采用贪心搜索算法获取正/负包集的数目并对给定的正/负包集B+/B-进行学习,具体过程为:首先,进行初始化,把训练集第一帧目标区域中的每一个像素当成一个独立的包,然后,把后续帧中的超像素划分给最近的包,计算公式如下:其中,indi代表第i个超像素属于的包,代表第一帧中的的第j个超像素,这样就可以获得正包集和负包集接着,计算正包集中的第i个元素bi的平均值和个数其中代表平均值;
假设两帧之间没有突变,则可以确定每一个包集都含有一定成分的目标或背景,然而,因为第一帧的超像素跟别的帧的超像素在特征空间中是相似的,所以包集存在冗余信息,这会导致目标区域被划分成到几个包集中,因此,需要对多余的包进行合并,矩阵M+用来代表两个包合并的可能性,公式如下:
其中,1代表这两个帧可以合并,0代表不可以;在合并之前,初始的正包集是其中是初始集中的第i个正包;我们试图找到的子集来覆盖所有的包,该子集定义为其中包含中的一个或多个包,指代M+,根据变量y来进行该优化过程,公式如下:
最优解满足如下的约束条件:
该约束条件能够确保每个包至少能包括的一个子集,上面的公式是典型的集和覆盖问题,存在多项式难度。因此,为了寻找一个可行解,采用了一种集覆盖贪心算法来求解,该贪心算法的计算复杂度是O(lnn+1),其中n是原始集中的包数;
最后,获得了正包集的高斯分布和负包集的分布,参数(μ,σ)可以在每个集合中进行更新。
步骤3:学习每个包集的权重:给更有辨识度的块分配更大的权重,使正包集和负包集的边缘得到最大化;计算包的区分度公式如下:
使用来表示特征和所有的负特征的最小聚类,并利用下面的公式来分配权重:
类似地,负包的权重可以用下面的公式获得:
该权重的分配过程能够最大化正包和负包的边缘。
步骤4:对后续的帧进行判断:
步骤4.1:对于一个新的帧It+1,首先获取搜索区域Rt+1={ct+1,lt+1},其中,ct+1=(xt,yt),lt+1=λlmax(ht,wt),(ht,wt)表示帧It中目标的高和宽;然后抽取出Rt+1内的N个超像素
步骤4.2:为上述每个超像素分配一个超像素值,首先为每个超像素分配二进制类标签,获得正包集B+和负包集B-,定义这意味着和B+的距离;类似地,定义
然后,对二进制类标签进行定义,公式为: 基于该公式,每一个超像素被分配了正标签或负标签;
最后,求取每个超像素的置信度,置信度公式如下: 其中,n,wi,μi和σi是正特征分布或是负特征分布的参数,因为超像素之间是互不遮挡的,可以获得搜索区域Rt+1中的置信度图并且让ct+1(i,j)代表位置(i,j)的置信度,本实施例中,假设搜索区域外的置信度是-1;
步骤4.3:根据公式高斯分布的运动模型,生成一些候选的目标状态已知,其中状态与候选图像区域对应,把候选的目标区域归一化成相同的尺寸;
状态的置信度公式为:为了处理尺度变换,对Ck进行加权,可以获得其中,代表候选区域的尺寸;
状态可以通过如下公式计算:最大化该公式,可以获得最优解;
步骤4.4:当对该新的帧It+1追踪完之后,把追踪完的该新的帧的信息加到训练集中,去掉最老的信息;每U帧更新一次外观模型,本实施例中训练集的长度是L。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内的所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。