CN108776975A

CN108776975A - 一种基于半监督特征和滤波器联合学习的视觉跟踪方法

Info

Publication number: CN108776975A
Application number: CN201810531415.XA
Authority: CN
Inventors: 李成龙; 梁欣妍; 汤进
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2018-11-09
Anticipated expiration: 2038-05-29
Also published as: CN108776975B

Abstract

本发明公开了一种基于半监督特征和滤波器联合学习的视觉跟踪方法，根据t‑1帧的目标位置提取训练样本并提取方向梯度直方图特征、灰度特征和颜色特征，然后以像素点的特征为节点，两个像素点属于同一类的概率值为边权去构建8邻域图，根据像素点所处的位置计算初始权重向量，最终构建模型联合求解滤波器和权重向量，在第t帧图像上，根据t‑1帧目标位置设置搜索区域并提取特征，使用权重向量对特征进行加权。最终和滤波器相卷积得到响应图并确定目标的中心点。本发明使用半监督的方式在一个统一的优化框架内联合学习特征可靠性和相关滤波器。来抑制在跟踪过程中背景区域对跟踪的干扰，使得跟踪器对跟踪目标有着更加鲁棒的效果。

Description

一种基于半监督特征和滤波器联合学习的视觉跟踪方法

技术领域

本发明涉及一种视觉跟踪的方法，尤其涉及的是一种基于半监督特征和滤波器联合学习的视觉跟踪方法。

背景技术

视觉跟踪是计算机视觉领域的重要研究课题之一。视频跟踪的定义是：给定视频序列初始帧中目标的状态信息，包括目标位置和尺寸，然后在接下来的视频序列中预测出目标运动状态的过程。视觉跟踪在视频监控、人机交互、机器人等领域有着非常广泛的应用。

近年来，基于相关滤波的视觉跟踪算法由于在精度和效率上的优秀性能受到广泛关注，其初衷是设计一个对目标高响应、同时对背景低响应的滤波器，由此实现对目标模式的快速检测。该方法本身可以有效实现对目标定位，但是对训练样本提出了数量要求。直至Bolme在2010年提出了最小平方误差输出总和滤波器(MOSSE)，该状况得以改善，利用自适应训练框架，MOSSE实现了鲁棒高效的跟踪模式，Visual Object Tracking usingAdaptive Correlation Filters.基于自适应相关滤波器的视觉跟踪。在MOSSE基础上，出现了大量改进算法。Henriques等人于2015年提出基于核化的相关滤波器算法(KCF)，High-Speed Tracking withKernelized Correlation Filters.核相关滤波器的高速跟踪。Danelljan等人在2014年提出了基于相关滤波器的多尺度算法(DSST)，该算法通过构建一个独立的尺度滤波器来计算不同尺度的输入样本响应，Accurate Scale Estimation forRobust Visual Tracking.稳健视觉跟踪的精确尺度估计。为了解决边界效应的问题，Danelljan等人在2015年提出了基于空间正则化项的相关滤波器算法(SRDCF)，LearningSpatially Regularized Correlation Filters for Visual Tracking.用于视觉跟踪的空间正则化相关滤波器的学习。Danelljan等人在SRDCF的基础上，提出了使用深度特征的算法(C-COT)，可以融合不同分辨率的图片并且使用插值运算转换到连续域可以实现亚像素级的定位，Beyond Correlation Filters:Learning Continuous ConvolutionOperators for Visual Tracking.基于相关滤波器：学习连续卷积算子用于视觉跟踪。Danelljan等人在C-COT的基础上提出了ECO算法，使用因式分解的卷积操作和生成样本空间模型达到减少计算复杂度和解决过拟合的问题，ECO:Efficient ConvolutionOperators for Tracking.ECO:高效的卷积操作的跟踪。Jack Valmadre等人提出了一个端到端的跟踪框架(CFnet)，成功地把滤波器和深度网络框架相结合，End-to-endrepresentation learning for Correlation Filter based tracking.基于相关滤波跟踪的端到端表示学习。

尽管基于相关滤波器的视觉跟踪算法在鲁棒性和计算复杂度上已经取得非常好的效果，但是仍然存在一些问题。在视觉跟踪领域里，背景干扰一直是影响跟踪性能的一大挑战因素。因为相关滤波器把整张图片当成正样本而循环移位得到的样本为负样本，所以学习到的滤波器很容易被背景的信息所干扰。Matthias Mueller等人提出了把空间上下文信息嵌入到相关滤波中的跟踪算法，通过加入空间上下文信息去影响滤波器来抑制跟踪中背景的干扰，Context-Aware Correlation Filter Tracking.上下文相关滤波器跟踪。Alan Lukezic等人通过提取前景和背景的颜色直方图去计算特征的空间可靠性图，并把空间可靠性图加入到模型求解中，通过空间可靠性图去抑制背景的干扰，更加突出目标区域的影响，Discriminative Correlation Filter with Channel and SpatialReliability.基于信道和空间可靠性的判别相关滤波器。卢湖川教授等人提出一个基于图像块的二值模板去联合优化求解滤波器和可靠性权重图。这可以使学到的滤波器更加具有判别性和可靠性，可以使学到的滤波器更加关注目标区域而忽视背景的干扰，CorrelationTracking via Joint Discrimination and Reliability Learning.基于联合判别和可靠性学习的相关跟踪。

发明内容

本发明所要解决的技术问题在于：如何抑制背景对跟踪的干扰，提供了一种基于半监督特征和滤波器联合学习的视觉跟踪方法。

本发明是通过以下技术方案解决上述技术问题的，本发明包括训练阶段和定位阶段；

所述训练阶段包括以下步骤：

(1)根据t-1帧目标的位置，在t-1帧图像中提取训练样本，用来训练滤波器，1≤t-1≤T；

(2)提取t-1帧训练样本的方向梯度直方图特征HOG、灰度特征和颜色特征ColorName特征，得到训练样本的特征x_t-1；

(3)对训练样本构建8邻域图，根据t-1帧的训练样本计算亲和性矩阵A和初始权重向量q；

(4)构建模型并联合求解相关滤波器和特征权重向量w＝[w₁，w₂，...，w_n]^T，其中w_i表示第i个像素点的权重，n为像素点的个数，将t-1帧训练样本的特征x_t-1、亲和性矩阵A和初始权重向量q＝[q₁，q₂，...，q_n]^T作为模型的输入，联合求解出相关滤波器以及特征加权向量w；

(5)训练出尺度滤波器

所述定位阶段包括以下步骤：

(6)根据t-1帧目标的位置，确定t帧目标的搜索区域；

(7)然后提取搜索区域的方向梯度直方图特征HOG、灰度特征和颜色特征ColorName特征，得到t帧搜索区域的特征x_t；

(8)使用特征加权向量w对t帧提取的特征进行加权，然后与更新后的滤波器进行卷积操作，进而得到t帧目标的特征响应图，找到响应图中的最大值位置，作为t帧跟踪目标的中心点C_t，根据在t-1帧定位阶段得到尺度，确定t帧目标的大小；

(9)基于t帧的中心点C_t，选取适当的尺度个数，分别提取方向梯度直方图特征，然后和尺度滤波器进行卷积得到尺度响应图，根据尺度响应图确定目标的尺度，令t+1，返回步骤(1)继续下一帧的跟踪，直到整个视频序列跟踪结束。

所述步骤(1)中，给定一个视频序列，t-1帧图像上目标的状态表示为：[cx，cy，width，height]，其中(cx，cy)是目标区域中心点C_t-1的位置，(width，height))分别是目标区域的宽和高，在t-1帧图像上提取训练样本O_t-1用来训练相关滤波器，训练样本的大小为：以第t-1帧目标的中心点(cx，cy)为中心点，宽和高等于t-1帧目标的宽，高加上目标区域面积平方的k倍，k的取值大于1，1≤t-1≤T。

所述步骤(3)中，亲和性矩阵A的计算方法如下：

其中：和分别是像素点i和j在t-1帧的特征，参数σ是调节参数，||d||₂是向量d的2范数，计算方法为：向量的每个元素的平方和再开平方根。

所述步骤(3)中，通过半监督的方法进行初始权重向量q的计算：

首先计算初始权重向量q＝[q₁，q₂，...，q_n]^T，其中q_i＝{0，1}，n是像素点的总数；

如果q_i＝1，说明q_i是对应前景像素点的；如果q_i＝0，说明q_i是对应背景像素点的；

初始权重矩阵q通常由第一帧的真值或者后续帧的跟踪结果计算得到，对于第i个像素点，如果这个像素点是属于目标框的缩小框，即目标框缩小一定倍数得到的，那么q_i＝1,否则q_i＝0；

特征权重w＝[w₁，w₂，...，w_n]^T的计算方式如下所示：

其中α和β为平衡参数，第一项是平滑约束，第二项是拟合约束，上述的公式根据图的拉普拉斯矩阵的定义，等价转换为下面的公式：

其中：L_A是亲和性矩阵A的拉普拉斯矩阵，L_A＝D_A-A，D_A是矩阵A的度矩阵，其中

所述步骤(4)中，联合求解滤波器f和特征权重w的公式如下：

使用交替方向乘子法Alternating Direction Methods of Multipliers求解模型，引入附属变量

其中表示对w⊙x做离散傅里叶变换，标签y是由高斯分布得到的，λ为归一化参数，操作⊙表示点乘；

上述模型的增广拉格朗日函数为：

其中，μ＞0是惩罚参数，是拉格朗日乘子，交替方向乘子法更新一个变量，通过固定其他变量最小化函数L，交替方向乘子法通过不断地迭代求解直到模型收敛，确定最终变量的值；

模型收敛的条件是：变量在连续两次迭代中最大元素的变化值低于阈值或者到达设置的最大迭代次数，其中变量通过求导子问题使导数为0得到。

所述步骤(4)中，使用插值法更新滤波器：

其中η为学习率，是之前学到的滤波器。

所述步骤(5)中，基于t-1目标的中心点位置C_t-1，设置了33个尺度，并分别提取33个尺度的HOG特征，根据下面的公式求解出尺度滤波器

其中λ取值为1e-2。

所述步骤(8)中，特征向量x_t乘上特征权重w，做DFT变换得到然后使求解得到的滤波器作用到上，得到最终的响应图r：

其中F^-1为反离散傅里叶变换，real()是对复数取实部，最后在响应图上找到响应最大的位置，作为t帧目标的中心点C_t，然后根据在t-1帧得到尺度，确定t帧目标的大小。

本发明根据t-1帧的目标位置提取训练样本并提取方向梯度直方图特征、灰度特征和颜色特征特征，然后以像素点的特征为节点，两个像素点属于同一类的概率值为边权去构建8邻域图，根据像素点所处的位置计算初始权重向量，最终构建模型联合求解滤波器和权重向量，在第t帧图像上，根据t-1帧目标位置设置搜索区域并提取特征，使用权重向量对特征进行加权。最终和滤波器相卷积得到响应图并确定目标的中心点。

本发明相比现有技术具有以下优点：本发明是第一次对特征进行处理在基于相关滤波器的视觉跟踪方法上，使用半监督的方式在一个统一的优化框架内联合学习特征可靠性和相关滤波器。本发明通过对目标区域构图并和相关滤波器进行联合求解，得到特征加权向量以及相关滤波器。通过对空间特征加权，通过计算得到的特征可靠性图来抑制在跟踪过程中背景区域对跟踪的干扰。在特征提取方面，采用了方向梯度直方图特征HOG、灰度特征和颜色特征Color Name特征进行特征提取，使得跟踪器对跟踪目标有着更加鲁棒的效果。

附图说明

图1是本发明的流程示意图；

图2是设置初始权重矩阵的示意图，黑色框框为目标框，白色的框为缩小框即目标框缩小相应倍数得到；

图3是对样本8邻域构图的示意图；

图4是计算特征权重的示意图，其中(a)是原始图像，(b)是构图的过程，(c)是计算初始权重的过程，(d)是计算得到的权重的显示图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本实施例包括以下步骤：

首先，训练相关滤波器：

(1)给定一个视频序列，t-1帧图像上目标的状态表示为：[cx，cy，width，height]，其中(cx，cy)是目标区域中心点C_t-1的位置，(width，height)分别是目标区域的宽和高，在t-1帧图像上提取训练样本O_t-1用来训练相关滤波器，训练样本的大小为：以第t-1帧目标的中心点(cx，cy)为中心点，宽和高等于t-1帧目标的宽，高加上目标区域面积平方的k倍，k的取值大于1，1≤t-1≤T。

(2)分别提取训练样本O_t-1的方向梯度直方图特征HOG、灰度特征和颜色特征ColorName特征，得到训练样本的特征x_t-1；

使用Object detection with discriminatively trained part-based models.基于判别性训练的部件模型的目标检测，这篇文章中的方法去提取训练样本O_t-1的方向梯度直方图特征(HOG)，得到18维的HOG特征x_h。

灰度特征的提取过程为：首先把目标区域O_t-1转为灰度区域，然后提取1维的灰度特征x_g。

颜色特征的提取过程按照Learning color names for real-worldapplications.学习现实世界的颜色名称，这篇论文的流程去提取10维的颜色特征x_c；

然后把提取到的方向梯度直方图HOG特征x_h，灰度特征x_g，颜色特征x_c连接成29维的特征x_t-1。

(3)如图3所示，对t-1帧的训练样本O_t-1构建8邻域图，以每个像素点的特征值作为图的节点，边权为两个像素点属于同一类的概率值，存储在亲和性矩阵A中，然后去计算出邻域图的亲和性矩阵A。亲和性矩阵A的计算方法如下所示：

其中和分别是像素点i和j在t-1帧的特征，参数σ是调节参数，||d||₂是向量d的2范数，计算方法为：向量的每个元素的平方和再开平方根。

得到亲和性矩阵A之后，再用半监督的方式去计算每个像素点特征的权重：

首先计算初始权重向量q＝[q₁，q₂，...，q_n]^T，其中q_i＝{0，1},n是像素点的总数。

如果q_i＝1，说明q_i是对应前景像素点的；如果q_i＝0，说明q_i是对应背景像素点的。

初始权重矩阵q通常由第一帧的真值或者后续帧的跟踪结果计算得到，如图2所示。

对于第i个像素点，如果这个像素点是属于目标框的缩小框(图2的白色框)即目标框缩小一定倍数得到的，那么q_i＝1,否则q_i＝0。

如图4所示，特征权重w＝[w₁，w₂，...，w_n]^T的计算方式如下所示：

其中α和β为平衡参数，第一项是平滑约束，第二项是拟合约束，上述的公式根据图的拉普拉斯矩阵的定义，可以等价转换为下面的公式：

其中L_A是亲和性矩阵A的拉普拉斯矩阵：L_A＝D_A-A，D_A是矩阵A的度矩阵，其中

(4)求解相关滤波器f和特征权重w：

为了减轻由于边界移位导致图像不光滑的问题，对特征向量x_t-1乘上余弦窗。

求解相关滤波器的模型如下所示：

其中标签y是由高斯分布得到的，λ为归一化参数。根据帕塞瓦尔定理(Parseval’stheorem),上述公式可以转到傅里叶域：

其中表示对x做离散傅里叶变换(DFT)变换，操作⊙表示点乘操作。

因为每个像素点的特征对于表达目标有不同的贡献值，所以为每个像素点的特征分配一个权重，用来衡量这个像素点的特征对于表达目标的贡献值。所以把求解相关滤波器的公式与求解权重的公式相结合，得到最终的公式，可以联合求解滤波器f和特征权重w:

其中表示对w⊙x_t-1做离散傅里叶变换。

尽管模型的所有变量不是联合凸的，但是固定其他变量，每一个变量的子问题是凸的而且有闭合解。所以可以使用交替方向乘子法(Alternating Direction Methods ofMultipliers)优化模型。为了使用交替方向乘子法(Alternating Direction Methods ofMultipliers)求解模型，引入附属变量

上述模型的增广拉格朗日函数为：

其中μ＞0是惩罚参数，是拉格朗日乘子。交替方向乘子法(AlternatingDirection Methods of Multipliers)更新一个变量，通过固定其他变量最小化函数L。交替方向乘子法(Alternating Direction Methods of Multipliers)通过不断地迭代求解直到模型收敛，确定最终变量的值。模型收敛的条件是：变量在连续两次迭代中最大元素的变化值低于阈值或者到达设置的最大迭代次数。其中变量都可以通过求导子问题使导数为0得到。

然后使用插值法更新滤波器：

其中η为学习率，是之前学到的滤波器。

(5)借鉴Accurate Scale Estimation for Robust Visual Tracking.稳健视觉跟踪的精确尺度估计，尺度处理的方法做尺度处理，训练出尺度滤波器

基于t-1目标的中心点位置C_t-1，设置了33个尺度，并分别提取33个尺度的HOG特征，根据下面的公式求解出尺度滤波器

其中λ取值为1e-2。

所述定位阶段包括以下步骤：

(6)根据t-1帧目标的位置，确定t帧目标的搜索区域，t-1帧图像上目标的状态表示为：[cx，cy，width，height]，其中(cx，cy)是目标区域中心点的位置，(width，height)分是目标区域的宽和高，根据t-1帧目标的状态在t帧图像上设置搜索区域O_t去定位目标的位置，搜索区域的大小为：以t-1帧目标的中心点(cx，cy)为中心点，宽和高等于t-1帧目标的宽和高加上目标区域面积平方的k倍，k的取值大于1；

(7)和步骤(2)类似，提取搜索区域的方向梯度直方图特征(HOG)、灰度特征和颜色特征(Color Name)特征，组成29维的特征向量x_t；

(8)特征向量x_t乘上特征权重w，做DFT变换得到然后使求解得到的滤波器作用到上，得到最终的响应图r。

(9)以C_t中心点，设置33个尺度，然后分别提取33个尺度的方向梯度直方图特征，然后和上一帧t-1得到的尺度滤波器进行卷积得到尺度响应图。根据尺度响应图，最大值对应的尺度即为目标的尺度。

(10)令t+1，返回步骤(1)继续下一帧的跟踪，直到整个视频序列跟踪结束。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于半监督特征和滤波器联合学习的视觉跟踪方法，其特征在于，包括训练阶段和定位阶段；

所述训练阶段包括以下步骤：

(2)提取t-1帧训练样本的方向梯度直方图特征HOG、灰度特征和颜色特征Color Name特征，得到训练样本的特征x_t-1；

(5)训练出尺度滤波器

所述定位阶段包括以下步骤：

(6)根据t-1帧目标的位置，确定t帧目标的搜索区域；

(7)然后提取搜索区域的方向梯度直方图特征HOG、灰度特征和颜色特征Color Name特征，得到t帧搜索区域的特征x_t；

2.根据权利要求1所述的一种基于半监督特征和滤波器联合学习的视觉跟踪方法，其特征在于，所述步骤(1)中，给定一个视频序列，t-1帧图像上目标的状态表示为：[cx，cy，width，height]，其中(cx，cy)是目标区域中心点C_t-1的位置，(width，height)分别是目标区域的宽和高，在t-1帧图像上提取训练样本O_t-1用来训练相关滤波器，训练样本的大小为：以第t-1帧目标的中心点(cx，cy)为中心点，宽和高等于t-1帧目标的宽，高加上目标区域面积平方的k倍，k的取值大于1，1≤t-1≤T。

3.根据权利要求1所述的一种基于半监督特征和滤波器联合学习的视觉跟踪方法，其特征在于，所述步骤(3)中，亲和性矩阵A的计算方法如下：

4.根据权利要求3所述的一种基于半监督特征和滤波器联合学习的视觉跟踪方法，其特征在于，所述步骤(3)中，通过半监督的方法进行初始权重向量q的计算：

特征权重w＝[w₁，w₂，...，w_n]^T的计算方式如下所示：

5.根据权利要求4所述的一种基于半监督特征和滤波器联合学习的视觉跟踪方法，其特征在于，所述步骤(4)中，联合求解滤波器f和特征权重w的公式如下：

上述模型的增广拉格朗日函数为：

其中，μ＞0是惩罚参数，是拉格朗日乘子，交替方向乘子法更新一个变量，通过固定其他变量最小化函数L，交替方向乘子法通过不断地迭代求解直到模型收敛，确定最终变量w的值；

模型收敛的条件是：变量w在连续两次迭代中最大元素的变化值低于阈值或者到达设置的最大迭代次数，其中变量w通过求导子问题使导数为0得到。

6.根据权利要求5所述的一种基于半监督特征和滤波器联合学习的视觉跟踪方法，其特征在于，所述步骤(4)中，使用插值法更新滤波器：

其中η为学习率，是之前学到的滤波器。

7.根据权利要求5所述的一种基于半监督特征和滤波器联合学习的视觉跟踪方法，其特征在于，所述步骤(5)中，基于t-1目标的中心点位置C_t-1，设置了33个尺度，并分别提取33个尺度的HOG特征，根据下面的公式求解出尺度滤波器

其中λ取值为1e-2。

8.根据权利要求5所述的一种基于半监督特征和滤波器联合学习的视觉跟踪方法，其特征在于，所述步骤(8)中，特征向量x_t乘上特征权重w，做DFT变换得到然后使求解得到的滤波器作用到上，得到最终的响应图r：