CN110889864B

CN110889864B - 一种基于双层深度特征感知的目标跟踪方法

Info

Publication number: CN110889864B
Application number: CN201910825052.5A
Authority: CN
Inventors: 赵运基; 周梦林; 刘晓光; 钱伟; 魏胜强; 孔军伟
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2019-09-03
Filing date: 2019-09-03
Publication date: 2023-04-18
Anticipated expiration: 2039-09-03
Also published as: CN110889864A

Abstract

本发明公开了一种基于双层深度特征感知的目标跟踪方法，其包括以下步骤：步骤1、确定跟踪目标及Padding窗；步骤2、提取目标区域深度特征并加窗处理，进行第一层特征感知；步骤3、依据第一层感知特征创建特征感知相关滤波器；步骤4、计算特征感知相关滤波器的梯度图均值，选择L个较大值通道特征，完成第二层特征感知；步骤5、依据上一帧目标位置确定搜索区域尺度图像集合，提取第二层感知特征；步骤6、应用相关滤波确定目标位置及尺度；步骤7、应用跟踪结果的第一层感知特征更新特征感知相关滤波器；步骤8、循环执行步骤4、5、6、7。本发明可以解决基于像素点误差的目标感知效率较低的问题。

Description

一种基于双层深度特征感知的目标跟踪方法

技术领域

本发明涉及一种基于双层深度特征感知的目标跟踪方法，尤其涉及多通道深度特征的自动感知，基于判别相关滤波的目标跟踪方法。

背景技术

基于视觉的目标跟踪是计算机视觉领域内的研究热点之一。近年来，随着深度学习相关理论及应用研究的逐步深入，在模式识别领域涌现了大量的高效的应用算法。在目标跟踪领域尤其如此。基于深度学习的目标跟踪算法在目标跟踪领域占据主导地位。基于深度学习的特征提取方法由于需要用到相关的深度网络，因此需要事先对相关的深度特征提取网络进行训练，训练深度网络不可避免需要大量的样本数据，虽然目标跟踪领域中存在大量的助于OTB50，OTB100，以及VOT(Visual Object Tracking)竞赛相关的数据集等，但是对于深度特征网络的训练显得杯水车薪。尤其是在VOT竞赛中，竞赛组织不仅仅提供公开序列的视频，还提供隐藏序列的视频，因此在跟踪过程中，即使拥有足够的样本对深度网络进行有效的训练，获得了最优的深度网络模型，应用此模型对隐藏序列的视频跟踪目标进行多层的特征提取也会存在通道信息冗余。目标跟踪领域中，鉴于相关滤波算法的速度优势，以及深度特征提取网络提取到的深度特征的鲁棒性描述能力，在相关滤波框架下基于深度特征的目标跟踪算法大量涌现，性能方面遥遥领先与其他相关算法，例如SiamFC、SiamRPN、DaSiam、DCFNet和TADT(Target Aware Deep Tracking)等。TADT中指出，应用分类网络对跟踪目标进行深度特征提取，提取结果为多通道的深度特征，针对不同的跟踪目标，多通道的深度特征对跟踪目标描述的贡献度必然不尽相同，因此，TADT方法给出了一种目标感知方法。通过循环迭代的方法构建跟踪目标的最优逼近，通过最优逼近与跟踪目标的高斯标签之间求解逐像素点之间的误差，然后应用GAP(General Average Pooling)确定各个通道的权重，最终完成多通道深度特征的有效选择，最终实现目标感知的过程，整个跟踪算法在DCF框架下实现。由于目标感知需要在初始时计算每个通道的深度特征所对应的权重矩阵，权重矩阵的求解通过循环迭代的方式实现，同时需要求解逐像素点误差，过程耗时，无法进行在线的通道选择更新；同时该算法获得的通道的权重与跟踪目标的背景存在关联，不同的背景将导致部分权重出现较大的变化，因此，该算法中固定的权重不能有效的应对跟踪目标背景的变化。

发明内容

为了克服TADT算法中存在的缺陷，本发明的目的在于提供一种基于双层深度特征感知的目标跟踪方法，其在于通过初始VGGNet-16提取跟踪目标区域的深度特征，通过循环迭代的方式确定拟合矩阵，然后进行逐像素点求损失，以此损失确定通道的权重，最终实现通道的选择，也即是第一层的目标感知；应用第一层的目标感知特征创建相关滤波器，求解滤波器的GAP并排序，选择GAP较大值对应的通道特征作为第二层目标感知的特征，完成深度目标特征的二次选择；将跟踪目标的第二层感知特征与候选目标区域集合的第二层感知特征在DCF框架下进行运算，最终获得跟踪目标的位置和对应的尺度；应用跟踪结果目标的第一层感知特征对相关滤波器进行在线更新，最终完成第二层感知特征对应滤波器的在线更新机制。

为实现上述目的，本发明提供如下技术方案：

一种基于双层深度特征感知的目标跟踪方法，包括以下步骤：

步骤1、确定跟踪目标区域，创建初始跟踪窗口及Padding窗；

步骤2、提取目标区域深度特征并加窗处理，进行第一层特征感知，得到第一层感知特征；

步骤3、依据第一层感知特征创建特征感知相关滤波器；

步骤4、计算特征感知相关滤波器的梯度图均值，在梯度图均值中选择L个较大值通道特征，完成第二层特征感知，L为正整数；

步骤5、依据上一帧目标位置确定搜索区域尺度图像集合，提取第二层感知特征；

步骤6、应用相关滤波确定目标位置及尺度；

步骤7、应用跟踪结果的第一层感知特征更新第二层特征感知相关滤波器；

步骤8、循环执行步骤4、5、6、7，实现对跟踪目标的连续跟踪。

进一步地，步骤1中，确定跟踪目标区域，创建初始跟踪窗口及Padding窗，包括：

依据标准的跟踪视频库中groundtruth_rect.txt中相关的信息确定跟踪目标的位置和大小，为了能够有效的实现深度网络的特征提取，依据跟踪目标的大小对跟踪目标进行强制转换，同时对跟踪图像做相应的尺度变换，并构建Padding窗。

进一步地，步骤2中，提取目标区域深度特征并加窗处理，进行第一层特征感知，包括：

提取Padding区域图像，并将提取结果图像输入VGGNet-16深度网络模型，提取卷积层4-1和卷积层4-3的深度特征，依据跟踪目标的深度特征和Padding区域图像的深度特征构建高斯标签，如式(1)所示，其中，i，j表示像素点位置相对于目标中点的偏移量；卷积层4-1的深度特征用作尺度敏感的计算，卷积层4-3的深度特征用作目标位置的确定计算；二维的脊回归损失计算如式(2)所示，其中，*表示相关运算；根据式(2)采用循环迭代的方式求解的最小值L_reg来最终确定W的值；

L_reg＝||Y-W*X||²+λ||W||² (2)

针对通过VGGNet-16网络获得的深度特征χ；通过特征感知确定深度特征的子集

为最终的感知特征，其中，

为通道的选择函数，第d个通道的权重系数Δ_d通过公式(3)进行计算,GAP为全局均值池化，z_d表示第d个通道的滤波输出的深度特征；

由公式(4)计算获得，其中，X_in为深度特征，X_o(i,j)为滤波器最终拟合的特征，W为对应通道的滤波器，Y(i,j)为样本的高斯标签；通过对公式(2)进行迭代获得W，进而获得通过滤波后的输出结果X_o(i,j)，通过公式(3)和公式(4)的运算最终获得通道d所确定的权重：

通过对权重矩阵的平均值池化最终获得对应通道权重，完成底层的特征感知。

进一步地，步骤3中，依据第一层感知特征创建特征感知相关滤波器，包括：

将通过第一层特征感知获得的深度特征X′构建相关滤波器；其中w^k表示与第k个通道对应的相关滤波器,X′_k表示X′中第k个通道的深度特征；经过第一层深度特征感知，将原始深度特征由X降维为X′，D个通道的深度特征将用于第二层深度特征感知的相关滤波器的构建，如式(5)所示，其中，w^k为第一层深度感知获得的第k个通道对应的滤波器，Y为目标区域的高斯标签，X′_k为第k个通道对应的深度特征，★表示循环卷积，通过公式(5)获得最终的相关滤波器w；依据循环卷积等价于通过构建循环矩阵，然后进行相关运算，循环矩阵能够在傅里叶空间中使用离散傅里叶矩阵进行对角化以及二维脊回归理论，最终获得相关滤波器，最终的求解结果如式(6)所示：

其中，

为X′_k的傅里叶变换形式，⊙表示矩阵的相关运算，

表示

的复数共轭矩阵，

为高斯标签的傅里叶变换形式；最终获得的相关滤波器

为傅里叶变换的形式，因此，需要将

进行傅里叶逆变换，并求取傅里叶逆变换结果的实部，以此作为通道的权重描述矩阵；最终获得实型相关滤波器w。

进一步地，步骤4中，计算特征感知相关滤波器的梯度图均值，在梯度图均值中选择L个较大值通道特征，完成第二层特征感知，包括：

针对相关滤波器w，通过全局均值池化的方式进行处理，并依照处理的结果选择均值池化结果最大的L个滤波器；与L个滤波器所对应的通道的深度特征即为第二层特征感知的结果。

进一步地，步骤5中，依据上一帧目标位置确定搜索区域尺度图像集合，提取第二层感知特征，包括：

针对上一帧中确定的目标位置和大小，为了适应跟踪目标的尺度变化，通过设定尺度变换因子确定跟踪目标候选尺度图像的大小，进而确定跟踪目标的搜索区域集合；针对不同的搜索区域，通过深度网络VGGNet-16提取卷积层4-1和卷积层4-3的深度特征，通过第一层的特征感知最终获得D个通道的深度特征，经过第二层的特征感知最终由D个通道的深度特征中提取出其中的全局均值池化值最大的L个通道特征，最终构建出双层感知的深度特征。

进一步地，步骤6中，应用相关滤波确定目标位置及尺度，包括：

在获得了跟踪目标的第二层感知深度特征，候选目标区域的多尺度集合图像的第二层感知深度特征后，在DCF框架下确定尺度候选目标区域多尺度图像集合对应的响应图像；在响应图像集合中确定最大响应值的位置和最大响应值对应的尺度，最大响应值对应的位置即为候选区域中的跟踪目标相对于上一帧中的跟踪目标的中心点位置偏移，最大响应值所在的尺度图像即为最终跟踪目标对应的尺度。

8.根据权利要求7所述的一种基于双层特征感知的目标跟踪方法，其特征在于，步骤7中，应用跟踪结果的第一层感知特征更新第二层特征感知相关滤波器，包括：

当确定了跟踪目标的位置和尺度后，选择与跟踪结果对应的第一层获得的深度感知特征，依据公式(7)对第二层感知特征提取的相关滤波器进行更新：

β_t为第t帧中跟踪结果对应的第一层感知特征所对应的权重，将傅里叶空间中的

进行傅里叶逆变换，然后提取变换结果的实部，最终获得更新后的第二层特征感知相关滤波器。

本发明还可以将相关滤波的基本概念引入到目标感知中，通过构建基于深度特征的相关滤波器，最终确定各个深度通道对应的相关滤波器，在相关滤波过程中，滤波器的GAP值能够反映出滤波器对构建目标区域的高斯标签的贡献能力，因此，通过计算相关滤波器中各个通道对应的滤波器的GAP值，最终确定GAP值较大的通道即为最终选择的通道；由于跟踪过程中，目标背景的变换造成通道权重的变化，因此通过在线更新相关滤波权重的方法实现通道选择的在线更新。通过实验证明该方法能够有效的完成通道的感知和通道选择的在线更新。

具体地，步骤2中，还包括构建迭代网络确定拟合的权重：

为了实现公式2中的最终误差最小，因此通过迭代的过程确定最终的权重W，在不降低准确度的前提下，为了提高计算效率，将迭代网络设置为两层，输入为通过网络提取4-1层和4-3层的深度特征，4-1层提取的深度特征用于确定对目标尺度较为敏感的通道，也即是完成尺度感知的过程。4-3层输出的深度特征通过拟合结果与高斯标签之间的像素点误差实现目标特征通道的感知，完成跟踪目标深度特征稳定通道的确定；通过尺度感知和目标稳定特征通道的感知最终实现目标的第一层感知，确定4-1层和4-3层最终筛选出的深度通道特征即为第一层的目标感知，最终确定的深度特征的维度为D维。

进一步地，步骤7中，还包括第二层特征感知相关滤波器的在线更新：

在当前帧中确定了跟踪目标后，通过深度网络进行特征提取获得4-1层和4-3层的深度特征，通过第一层的深度感知获得D个通道的深度特征。通过D个通道的深度特征以及对应的跟踪目标的高斯标签创建相关滤波器，在获得相关滤波器对应的参数矩阵后，将之前的n-1个滤波器依据当前滤波器的尺度进行尺度变换，变换为统一尺度，然后依据滤波器更新公式对滤波器进行更新。更新滤波器的结果作为第二层感知的参考矩阵。

附图说明

图1为本发明实施例一种基于双层深度特征感知的目标跟踪方法流程图；

图2为双层深度特征感知的目标跟踪方法示意图。

具体实施方式

下面，结合附图以及具体实施的方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

实施例一

为了克服传统的TADT算法中通道感知效率较低，在线更新影响跟踪算法效率的问题，本发明提供一种双层深度特征感知的目标跟踪方法，其通过在DCF框架下，通道逐像素点求损失的方法实现对稳定通道特征的感知，通过构建尺度变化样本组合的方式确定深度特征的尺度敏感通道，最终构建出对跟踪目标进行完备描述的深度特征，也即是第一层深度特征感知；依据第一层深度特征感知的结果特征构建相关滤波器，依据相关滤波器的GAP值进第二层深度特征感知；在DCF框架下，依据双层深度特征感知的特征提取方法进行跟踪目标位置的确定，尺度的确定。确定跟踪目标后，提取跟踪结果的第一层深度特征感知结果特征，依据此特征构建相关滤波器，依据线性求和的方式进行滤波器的在线更新，最终完成第二层深度特征感知的在线更新。系统整体流程如图1所示，包括以下步骤：

110、确定跟踪目标区域，创建初始跟踪窗口及Padding窗，依据跟踪目标尺寸和Padding窗构建高斯窗，构建跟踪目标区域的高斯标签；

依据标准的跟踪视频库中groundtruth_rect.txt中相关的信息确定跟踪目标的位置和大小，为了确保跟踪目标在深度网络进行特征提取过程中的有效性，对跟踪目标的大小进行强制的转换，将跟踪目标的宽、高强制转换至45～60个像素之间，原始图像帧的大小依据相同的尺度进行转换。Padding窗大小设置为180*180。

120、提取目标区域深度特征并加窗处理，进行第一层特征感知；

请参照图2所示，在经过处理的图像中，依据Padding窗的大小提取搜素区域图像，将此图像区域输入VGGNet-16网络，提取4-1层和4-3层的深度网络特征；依据目标的尺度在搜素区域的深度特征中提取跟踪目标对应的深度特征；依据搜素区域深度特征的尺度和跟踪目标的尺度创建高斯标签，如式1所示，其中，i，j表示像素点位置相对于目标中点的偏移量；创建深度迭代网络，寻求最优的W，使得式2最终的误差最小，其中，*表示相关运算，Y为高斯标签，X为深度网络获得的4-3层深度特征；确定最优的W后，依据式3、4确定各通道的全局均值池化值，也即是Δ_d，式3和式4中，X_in为深度特征，X_o(i,j)为滤波器最终拟合的特征，W为对应通道的拟合结果系数矩阵，Y(i,j)为样本的高斯标签，，通过特征感知可以确定深度特征的子集

为最终的感知特征，其中，

为通道选择的阈值处理函数。最终在深度网络获得的4-3层的512个通道中选择出300个通道的深度特征。

L_reg＝||Y-W*X||²+λ||W||² (2)

针对4-1层512个通道的深度特征，从其中提取出对尺度最为敏感的特征，整个提取过程通过构建循环迭代的网络实现。为了计算尺度敏感的通道特征，首先构建训练样本对。依据原始跟踪目标的大小进行尺度为0.5～1.5之间进行变换，在搜索区域的深度图像中提取对应尺度的深度特征，最终构建出样本，样本的标签为对应样本与跟踪目标区域的重叠率。依据样本数目和样本尺度的数目构建训练样本对，同时构建训练样本标签对。样本标签的计算如式5所示，其中，O_i表示第i个样本图像区域与原始搜索区域的重叠率。定义排序损失函数如式6所示，其中，Ω表示训练样本对的集合，x_i和x_j表示样本对，样本对之间的尺度变化较小，f(x_i,ω)表示预测模型。f(x)对排序损失造成的影响可以通过公式7计算获得，其中，Δz_i,j＝z_i-z_j，z_i表示样本i对应的位置1其余位置为零的向量。通过反向传播，基于梯度下降法的排序损失可以通过式8计算获得，其中，ω为迭代网络中的卷积层的滤波权重。通过对公式8的最终结果求取全局均值池化对应的值，通过对各个通道的权值均值池化结果排序，选择对跟踪目标尺度变化敏感的通道作为最终的尺度敏感通道。

T_i＝1-(O_i-1)² (5)

通过以上处理，最终完成深度特征的提取，加窗处理，完成第一层特征感知，在4-1层和4-3层中最终提取出80+300个通道的深度特征。

130、构建特征感知相关滤波器；

通过第一层特征感知获得的380个通道的深度特征X′构建相关滤波器；其中，w^k表示与第k个通道对应的相关滤波器，X′_k表示X′中第k个通道的深度特征；经过第一层深度特征感知，将原始深度特征由X降维为X′，D个通道的深度特征将用于第二层深度特征感知的相关滤波器的构建，如式9所示，其中，w^k为第一层深度感知获得的第k个通道对应的滤波器，Y为目标区域的高斯标签，X′_k为第k个通道对应的深度特征，★表示循环卷积，通过最小化公式9获得最终的相关滤波器w；依据循环卷积等价于通过构建循环矩阵，然后进行相关运算，循环矩阵能够在傅里叶空间中使用离散傅里叶矩阵进行对角化以及二维脊回归理论，最终获得相关滤波器，最终的求解结果如式10所示，其中，

为X′_k的傅里叶变换形式，⊙表示矩阵的相关运算，

表示

的复数共轭矩阵，

为高斯标签的傅里叶变换形式；最终获得的相关滤波器

为傅里叶变换的形式，因此，需要将

140、计算滤波器全局均值，实现第二层特征感知；

针对相关滤波器中的380个通道对应的滤波器w，通过全局均值池化的方式进行处理，并依照处理的结果选择均值池化结果最大的L个滤波器(L可选择为150+50，也可以根据最终结果进行调整)；与L个滤波器所对应的通道的深度特征即为第二层特征感知的结果，最终实现第二层特征感知。

150、确定搜索区域集合，二层感知特征提取；

针对上一帧中确定的目标位置和大小，为了适应跟踪目标的尺度变化，通过设定尺度变换因子确定跟踪目标候选尺度图像的大小，进而确定跟踪目标的搜索区域集合；针对不同的搜索区域，通过深度网络VGGNet-16提取卷积层4-1和卷积层4-3的深度特征，通过第一层的特征感知最终获得D个通道的深度特征(D＝380)，经过第二层的特征感知最终由D个通道的深度特征中提取出其中的全局均值池化值最大的L个通道特征(L＝200)，最获得双层感知的深度特征。

160、相关滤波确定跟踪目标位置、尺度；

170、提取第一层感知特征，更新特征感知相关滤波器；

当确定了跟踪目标的位置和大小后，选择与跟踪结果对应的第一层获得的深度感知特征，依据公式11对第二层感知特征提取的相关滤波器进行更新，β_t为第t帧中跟踪结果对应的第一层感知特征所对应的权重，将傅里叶空间中的

最后、循环执行140～170，最终实现自适应尺度调整的目标跟踪。

本发明提出的目标跟踪方法，经过视频跟踪实验，在不影响跟踪精度的前提下，可以提高跟踪方法的跟踪帧率。

上述的实施方式仅为本发明的优选实施方式，不能以此限定本发明的保护范围，本领域的相关技术人员在本发明的基础上所做的非实质性的变换及替换均属于本发明所要求的保护范围。

Claims

1.一种基于双层特征感知的目标跟踪方法，其特征在于，包括以下步骤：

步骤1、确定跟踪目标区域，创建初始跟踪窗口及Padding窗；

步骤3、依据第一层感知特征创建特征感知相关滤波器，最终获得实型相关滤波器w；

步骤4、计算特征感知相关滤波器的梯度图均值，在梯度图均值中选择L个较大值通道特征，完成第二层特征感知，L为正整数；其具体包括：针对相关滤波器w，通过全局均值池化的方式进行处理，并依照处理的结果选择均值池化结果最大的L个滤波器；与L个滤波器所对应的通道的深度特征即为第二层特征感知的结果；

步骤5、依据上一帧目标位置确定搜索区域尺度图像集合，提取第二层感知特征；其具体包括：针对上一帧中确定的目标位置和大小，为了适应跟踪目标的尺度变化，通过设定尺度变换因子确定跟踪目标候选尺度图像的大小，进而确定跟踪目标的搜索区域集合；针对不同的搜索区域，通过深度网络VGGNet-16提取卷积层4-1和卷积层4-3的深度特征，通过第一层的特征感知最终获得D个通道的深度特征，经过第二层的特征感知最终由D个通道的深度特征中提取出其中的全局均值池化值最大的L个通道特征，最终构建出双层感知的深度特征；

步骤6、应用相关滤波确定目标位置及尺度；其具体包括：在获得了跟踪目标的第二层感知深度特征，候选目标区域的多尺度集合图像的第二层感知深度特征后，在DCF(Discriminant Correlation Filters)框架下确定尺度候选目标区域多尺度图像集合对应的响应图像；在响应图像集合中确定最大响应值的位置和最大响应值对应的尺度，最大响应值对应的位置即为候选区域中的跟踪目标相对于上一帧中的跟踪目标的中心点位置偏移，最大响应值所在的尺度图像即为最终跟踪目标对应的尺度；

步骤7、应用跟踪结果的第一层感知特征更新第二层特征感知相关滤波器；其具体包括：当确定了跟踪目标的位置和尺度后，选择与跟踪结果对应的第一层获得的深度感知特征，依据公式(7)对第二层感知特征提取的相关滤波器进行更新：

进行傅里叶逆变换，然后提取变换结果的实部，最终获得更新后的第二层特征感知相关滤波器；

2.根据权利要求1所述的一种基于双层特征感知的目标跟踪方法，其特征在于，步骤1中，确定跟踪目标区域，创建初始跟踪窗口及Padding窗，包括：

3.根据权利要求1所述的一种基于双层特征感知的目标跟踪方法，其特征在于，步骤2中，提取目标区域深度特征并加窗处理，进行第一层特征感知，包括：

L_reg＝||Y-W*X||²+λ||W||² (2)

为最终的感知特征，其中，

为通道的选择函数，第i个通道的权重系数Δ_d通过公式(3)进行计算,GAP为全局均值池化，z_d表示第d个通道的滤波输出的深度特征；

4.根据权利要求3所述的一种基于双层特征感知的目标跟踪方法，其特征在于，步骤3中，依据第一层感知特征创建特征感知相关滤波器，包括：

将通过第一层特征感知获得的深度特征X′构建相关滤波器；其中w^k表示与第k个通道对应的相关滤波器,X_k′表示X′中第k个通道的深度特征；经过第一层深度特征感知，将原始深度特征由X降维为X′，D个通道的深度特征将用于第二层深度特征感知的相关滤波器的构建，如式(5)所示，其中，w^k为第一层深度感知获得的第k个通道对应的滤波器，Y为目标区域的高斯标签，X′_k为第k个通道对应的深度特征，★表示循环卷积，通过公式(5)获得最终的相关滤波器w；依据循环卷积等价于通过构建循环矩阵，然后进行相关运算，循环矩阵能够在傅里叶空间中使用离散傅里叶矩阵进行对角化以及二维脊回归理论，最终获得相关滤波器，最终的求解结果如式(6)所示：

其中，

为X′_k的傅里叶变换形式，⊙表示矩阵的相关运算，

表示

的复数共轭矩阵，

为高斯标签的傅里叶变换形式；最终获得的相关滤波器

为傅里叶变换的形式，因此，需要将