CN109859244B

CN109859244B - 一种基于卷积稀疏滤波的视觉跟踪方法

Info

Publication number: CN109859244B
Application number: CN201910058846.3A
Authority: CN
Inventors: 毕瑞星; 马钟
Original assignee: Xian Microelectronics Technology Institute
Current assignee: Xian Microelectronics Technology Institute
Priority date: 2019-01-22
Filing date: 2019-01-22
Publication date: 2022-07-08
Anticipated expiration: 2039-01-22
Also published as: CN109859244A

Abstract

本发明公开了一种基于卷积稀疏滤波的视觉跟踪方法，包括以下步骤：1)采用卷积稀疏滤波方法进行离线训练，在跟踪视频序列上进行无监督特征学习，以得到一组卷积核；2)以此卷积核组成卷积神经网络进行在线跟踪，从而对输入图像进行特征提取；3)结合核化相关滤波跟踪框架，实现对目标的跟踪。发明的基于卷积稀疏滤波的视觉跟踪方法，该方法基于深度学习原理，自动学习待跟踪目标的特征，从而可以利用大数据的优势，获得更稳定、更有区分力的特征，进而实现高精度、高鲁棒性的跟踪效果。本发明基于卷积稀疏滤波跟踪方法，具有准确率高、速度快及跟踪效果稳健的特点。

Description

一种基于卷积稀疏滤波的视觉跟踪方法

技术领域

本发明属于视觉跟踪技术领域，尤其是一种基于卷积稀疏滤波的视觉跟踪方法。

背景技术

视觉跟踪是计算机视觉研究领域中的热点，有着广泛的应用。而跟踪技术对运算速度的要求很高，无法达到实时即意味着难以实用。目前跟踪效果最好的方法均为基于深度学习的方法。其中效果最好的跟踪算法是韩国浦项工科大学的Hyeonseob Nam和BohyungHan提出的MDNet，该方法基于卷积神经网络(CNN)的多域学习框架，将域无关信息从特定域信息中分离出来，以获取有效的表示。首次实现了直接使用视频序列作为训练数据。此外，他们还将难样本挖掘技术整合进在线学习中，成为提升该算法性能的一个关键。但由于在跟踪过程中还需要利用跟踪时的数据对模型进行fine-tune训练，导致该算法速度很慢。在普通PC机上处理1帧就需要3～5秒，难以实用。另外，他们的目标位置预测是通过随机裁框，对这些框进行分类，最后再对分类出的框进行框回归(bounding box regression)以得到精确的目标位置。该策略显然不是目标位置预测的最优策略，且同样运算速度较慢。因此，为将此类高性能算法实用化，可以从两个方面进行改进：一是仅离线训练，跟踪过程中只进行预测，避免运算量巨大的训练部分，从而提高跟踪速度；另一方面是直接采用框回归以得到目标的位置。

根据此思路，斯坦福大学的David Held等人提出了一种叫做GOTURN的跟踪算法。他们的模型仅进行离线训练，在跟踪过程中不进行训练，并且他们的目标位置预测是通过bounding box regression直接得到，这些做法大大提高了算法速度。他们报告该算法可达到100fps，但这些措施了降低了算法的跟踪性能，根据他们报告的跟踪效果，其跟踪性能与传统的DSST，SAMF，KCF算法近似。而且，其报告的速度是在GPU平台上得到的，如该算法在Titan X GPU上可以达到165fps，在GTX 680GPU上可以达到100fps，但在cpu上只能达到2.7fps，同样难以实用。从现有算法的分析可以看出，基于深度学习的方法采用跟踪视频序列进行训练，获取了数据的有效表示，从而得到了较好的跟踪效果，但较深的网络深度带来了大的计算量，难以满足实时跟踪的效果，使得此类算法难以在工程实践中应用。

在视觉系统目标跟踪时，要求跟踪实时性强，并且跟踪结果精度高，鲁棒性强，所以如何在保证跟踪实时性的前提下，提高跟踪的精度和鲁棒性是一个非常亟待解决的问题。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供一种基于卷积稀疏滤波的视觉跟踪方法。

为达到上述目的，本发明采用以下技术方案予以实现：

一种基于卷积稀疏滤波的视觉跟踪方法，包括以下步骤：

1)采用卷积稀疏滤波方法对目标特征提取矩阵进行离线训练，在跟踪视频序列上进行无监督特征学习，得到最优特征提取矩阵；

2)在线跟踪过程中初始化跟踪器，用最优特征提取矩阵卷积得到初始模板特征和岭回归解；

3)利用最优特征提取矩阵对测试图像提取特征得到的测试样本特征，利用核函数计算测试样本特征与初始模板特征的相关性，而后卷积岭回归解，得到预测目标位置，更新跟踪器，实现对目标的跟踪。

进一步的，步骤1)具体包括步骤：

101)获取训练数据集；

102)在多组图像序列中随机选择目标矩形内的多个子块图像，将每个子块图像排列成列向量形式作为目标训练样本，记作e＝{e¹,e²,...eⁿ}；

103)用随机数初始化权值矩阵，得到初始化后的权值矩阵W＝{w_i,j}∈R^m×n，随机数取值范围为0到样本数目之间的任意值，权值矩阵维度与目标训练样本维度相同；

104)将初始化后权值矩阵W与目标训练样本e线性运算，得到G＝W·e，其中G＝{g_i}；

105)将激活函数h(g)对G逐元素运算，得到激活后的特征矩阵F＝{f_j ⁽ⁱ⁾}∈R^m，其中，激活函数h(g)为非线性函数；

106)对激活后的特征矩阵F行规范化得到

其中，

|| ||₁和|| ||₂分别表示向量的1范数和2范数；

107)对矩阵

列规范化得到

其中

108)对矩阵

先行后列求取梯度

109)更新网络权重

将更新后的W′替换步骤104)中的W；

110)重复步骤104)～109)，直至矩阵

的1范数收敛，此时的W即为最优的特征提取矩阵。

进一步的，步骤110)中的矩阵

的1范数为

当其取得最小值时得到的W为最优的特征提取矩阵。

进一步的，步骤2)具体包括以下步骤：

201)在输入的图像序列或视频中，获取初始帧图像信息I_R(i,j)，选择待跟踪的目标R₀；

202)创建跟踪器T，对跟踪器进行初始化，设置搜索范围t_pad、学习率t_Lr、模块大小t_tmsz、高斯带宽σ和正则项λ；

203)以目标框中心位置为搜索框中心，R₀×t_tmsz为大小的区域图像，作为初始模板图像；

204)用最优特征提取矩阵W，对初始帧图像

卷积提取特征

作为初始模板特征，

205)生成中心对称的高斯权重窗

其中m、n是高斯窗大小；

206)用高斯核函数计算样本间的相关性，

在初始化跟踪中x'＝x，exp()表示自然常数e为底的指数函数，σ表示高斯带宽，是初始化参数；

207)求解核函数矩阵在带二范数惩罚的最小二乘回归下的特征解α＝(K+λI)^-1y，其中I表示单位矩阵，λ表示10^-5的正则项，是初始化参数，y表示以m、n为宽、高的二维高斯矩阵。

进一步的，步骤207)中，当K是循环矩阵时，

进一步的，步骤3)具体包括以下步骤：

301)在当前帧I_R(i,j)，记作t帧，R_t-1是上一帧目标位置，外扩t_pad×R_t-1，测试图像

在上一帧目标位置的R_t-1周围外扩t_pad×R_t-1×S_c，作为放大的测试图像；

在上一帧目标位置R_t-1周围外扩

倍，作为缩小的测试图像；

302)用最优特征提取矩阵W，对测试图像

提取特征

得到测试样本特征z；

303)计算测试样本特征z与初始模板特征x的高斯核相关K^z＝C(k^xz)，对核相关矩阵与岭回归解α卷积运算，得到f(z)＝(K^z)^Tα，变换到傅里叶域，得到响应矩阵

响应矩阵中最大值为

此时响应矩阵中的位置O_s＝1(i,j)为相同尺度下预测目标位置；

将放大的测试图像做与测试图像

相同的运算，得到最大响应值

最大响应值在图像中的位置

记放大尺度下的预测目标位置；

将缩小的测试图像做与测试图像

相同的运算，得到最大响应值

最大响应值在图像中的位置

记缩小尺度下的预测目标位置；

304)将步骤303)得到的响应分别与其对应的缩放尺度乘积，其中最大值

为最终预测目标置信度P_t，其对应的尺度为预测目标缩放的尺度S，其对应的位置即为预测目标对应位置R_t；

305)对预测目标对应位置R_t特征提取，以学习率t_Lr为频率更新训练模板特征x和特征解α_t；

306)重复步骤301)-步骤305)，直至跟踪结束。

与现有技术相比，本发明具有以下有益效果：

本发明的一种基于卷积稀疏滤波的视觉跟踪方法，与传统的跟踪算法一般采用手动设计的特征提取方法相比，该方法基于深度学习原理，自动学习待跟踪目标的特征，从而可以利用大数据的优势，获得更稳定、更有区分力的特征，进而实现高精度、高鲁棒性的跟踪效果。同时，跟踪算法采用核相关框架，使用目标及周围区域的循环矩阵采集正负样本，利用岭回归训练目标检测器，并利用循环矩阵在傅里叶空间对角化性质，将矩阵运算转化为元素点乘，大幅度降低运算量，提高了运算速度，使算法满足实时性要求。综上，本发明基于卷积稀疏滤波跟踪方法，具有准确率高、速度快及跟踪效果稳健的特点。

附图说明

图1为本发明基于卷积稀疏滤波跟踪方法中稀疏滤波训练特征提取矩阵流程图；

图2为本发明基于卷积稀疏滤波跟踪方法中跟踪器初始化流程示意图；

图3为本发明基于卷积稀疏滤波跟踪方法中跟踪器更新目标位置流程示意图；

图4为VOT数据集上训练得到的特征；

图5为初始标注目标和利用本发明跟踪目标实际效果图，其中，a为初始标注目标，b为利用本发明跟踪目标实际效果图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

参见图1，图1为本发明基于卷积稀疏滤波跟踪方法中稀疏滤波训练特征提取矩阵流程图，包括以下步骤：

101)获取适合图像目标跟踪的图像数据集，可选择国际上公开的数据集，如VOT，OTB等，这里以VOT数据集为例进行说明；

102)在整个数据集n个图像序列上，在标注的目标图像内随机选择m个5×5子块图像，作为目标训练样本e＝{e¹,e²,...eⁿ}；

103)用0到样本数n之间的随机数初始化权重矩阵得到初始化之后的权重矩阵W，其维度与目标训练样本e维度相同；

105)选择非线性函数

对y逐元素运算，得到特征矩阵F＝h(g)，其中F＝{f_i,j}；

106)对矩阵F行规范化得到

其中

其中|| ||₁和|| ||₂表示向量的1范数和2范数；

107)对矩阵

列规范化得到

其中

108)以上运算保证提取矩阵具有种群稀疏性、高散度性，求矩阵

的1范数，即

109)对矩阵

先行后列求取梯度

110)更新网络权重

将更新后的W′替换步骤104)中的W；

111)重复步骤104)～110)，直到L(W)收敛，此时的W即为最优的特征提取矩阵。

参见图4，图4为VOT数据集上训练得到的特征，特征具有显著的梯度纹理信息，与其他HOG特征、Haar特征相比，是从被跟踪目标统计学习得到的特征，并不是人为设定的方法提取特征，具有更好的鉴别性和更高的准确性。

参见图2，图2为本发明基于卷积稀疏滤波跟踪方法中跟踪器初始化流程示意图，包括以下步骤：

201)获取图像信息I_R(i,j)，选择被跟踪的目标R₀；

202)创建跟踪器T，跟踪器为结构体，包括多个跟踪过程中用到的变量。对跟踪器进行初始化，设置搜索范围t_pad＝2.5、学习率t_Lr＝0.85模板大小t_tmsz＝96，模板更新阈值0.1，线性插值因子0.012，正则化参数0.0001，高斯核带宽0.6，高斯核目标带宽0.125，等参数；

203)以目标框中心为搜索框中心，round(R₀×t_pad/t_tmsz)×t_tmsz大小创建滑动窗(round()表示向下取整)，保持目标窗口比例，在初始图像中截取包含目标及周围的图像，并做缩放，与滑动窗大小保持一致，再次将目标图像缩放，与特征提取矩阵W大小一致，作为训练样本；

204)用离线训练得到的特征提取矩阵W，对训练样本图像

卷积提取特征

作为初始模板特征

即初始模板特征；

205)生成中标准高斯权重窗

(方差为1，均值为0)，其中m、n是高斯窗大小，与目标窗一致；

206)计算样本间的高斯核函数相关性K＝k(x,x)，此时x即时训练样本又是测试样本，得到特征投影K；

207)求解核函数矩阵在岭回归下的特征解α＝(K+λI)^-1y，其中()^-1表示逆矩阵；当K是循环矩阵时，

参见图3，图3为本发明基于卷积稀疏滤波跟踪方法中跟踪器更新目标位置流程示意图，包括以下步骤：

在上一帧目标位置R_t-1周围外扩

倍，作为缩小的测试图像；

302)用最优特征提取矩阵W，对测试图像

提取特征

得到测试样本特征z；

响应矩阵中最大值为

将放大的测试图像做与测试图像

相同的运算，得到最大响应值

最大响应值在图像中的位置

记放大尺度下的预测目标位置；

将缩小的测试图像做与测试图像

相同的运算，得到最大响应值

最大响应值在图像中的位置

记缩小尺度下的预测目标位置；

306)重复步骤301)-步骤305)，直至跟踪结束。

参见图5，图5为初始标注目标和本发明跟踪目标实际效果图，说明利用本发明的跟踪方法能够有效的跟踪目标。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于卷积稀疏滤波的视觉跟踪方法，其特征在于，包括以下步骤：

步骤1)具体包括步骤：

101)获取训练数据集；

105)将激活函数h(g)对G逐元素运算，得到激活后的特征矩阵

其中，激活函数h(g)为非线性函数；

106)对激活后的特征矩阵F行规范化得到

其中，

|| ||₁和|| ||₂分别表示向量的1范数和2范数；

107)对矩阵

列规范化得到

其中

108)对矩阵

先行后列求取梯度

109)更新网络权重

将更新后的W′替换步骤104)中的W；

110)重复步骤104)～109)，直至矩阵

的1范数收敛，此时的W即为最优的特征提取矩阵；

2.根据权利要求1所述的基于卷积稀疏滤波的视觉跟踪方法，其特征在于，步骤110)中的矩阵

的1范数为

当其取得最小值时得到的W为最优的特征提取矩阵。

3.根据权利要求1所述的基于卷积稀疏滤波的视觉跟踪方法，其特征在于，步骤2)具体包括以下步骤：

204)用最优特征提取矩阵W，对初始帧图像

卷积提取特征

作为初始模板特征，

205)生成中心对称的高斯权重窗

其中m、n是高斯窗大小；

206)用高斯核函数计算样本间的相关性，

4.根据权利要求3所述的基于卷积稀疏滤波的视觉跟踪方法，其特征在于，步骤207)中，当K是循环矩阵时，

5.根据权利要求3或4所述的基于卷积稀疏滤波的视觉跟踪方法，其特征在于，步骤3)具体包括以下步骤：

在上一帧目标位置R_t-1周围外扩

倍，作为缩小的测试图像；

302)用最优特征提取矩阵W，对测试图像

提取特征

得到测试样本特征z；

响应矩阵中最大值为

将放大的测试图像做与测试图像

相同的运算，得到最大响应值

最大响应值在图像中的位置

记放大尺度下的预测目标位置；

将缩小的测试图像做与测试图像

相同的运算，得到最大响应值

最大响应值在图像中的位置

记缩小尺度下的预测目标位置；

306)重复步骤301)-步骤305)，直至跟踪结束。