CN114926498A

CN114926498A - 一种基于时空约束与可学习特征匹配的快速目标跟踪方法

Info

Publication number: CN114926498A
Application number: CN202210451117.6A
Authority: CN
Inventors: 刘启和; 武哲纬; 周世杰; 邱士林; 张准
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-08-19
Anticipated expiration: 2042-04-26
Also published as: CN114926498B

Abstract

本发明公开了一种基于时空约束与可学习特征匹配的快速目标跟踪方法，公开了一种基于孪生网络结构，采用时空约束机制与可学习特征匹配策略的快速目标跟踪方法。通过设置时序约束分支与空间约束分支分别捕捉并融合随时序变化的目标外观高维特征表示与限制空间搜索尺度，降低跟踪算法计算量并缓解目标因自身运动与环境变化所导致的自身视觉特征的变化。本发明通过设置可学习特征匹配模块完成特征匹配任务，相比于主流的无参互相关方法能够更好地从训练数据中学习正负样本分布并提升跟踪效果。本发明提出的跟踪方法具有良好的跟踪准确度与较高的运算速度，能够部署在运算资源受限的嵌入式平台，能完成准确的视觉目标跟踪任务。

Description

一种基于时空约束与可学习特征匹配的快速目标跟踪方法

技术领域

本发明涉及计算机视觉目标跟踪技术领域，具体涉及一种基于时空约束与可学习特征匹配的快速目标跟踪方法。

背景技术

目标跟踪方法旨在在连续的视频帧序列中，依据在初始帧中指定目标区域，提取目标视觉特征，并在后续帧序列对标定目标的位置、形状、大小等外观状态做出预测。

现有技术中曾提出了一种新的全卷积孪生网络作为基本结构的目标跟踪算法。在siamFC的网络结构中，具有两个权值共享的分支。在此将resize后的原图像成为x，搜索目标称为z，将他们分别输入两个分支，经过同样的特征提取计算操作

分别生成22x22x128与6x6x128的特征图。再将后者在前者中做卷积运算生成响应图，其标定了目标在原始图像x中的位置。

现有技术中还有采用GradNet网络的方法，GradNet方法是基于SiamFC所衍生出来的孪生跟踪网络，都需要采用模板帧来进行跟踪。模板的一个坏处就是一旦目标发生了很大的形变或严重遮挡，这个时候仍借助模板去跟踪目标的精度会大大降低。如果恰好出现了和目标相似类别的另一个背景目标出现，网络很可能出现误差漂移现象。

然而，现有技术中的方法存在着以下缺陷：1)跟踪速度相对较低的缺陷，随着网络模型的加深，算法的跟踪精度得到了较大提升，但在速度方面的表现却不尽人意。运算资源受限的设备在网络中往往扮演数据采集、初步分析的底层角色，故其对于跟踪速度的要求更高；2)已有的特征匹配方法不具备学习能力：互相关操作的核心是通过卷积以计算模板与搜索区域之间的相似性得分。究其原因，是因为互相关类方法均为非参数化方法，无法从数据中学习样本的正负分布，这会导致语义信息的丢失并进一步导致跟踪效果的不佳；3)无法动态捕捉目标变化：当前的基于孪生网络的目标跟踪方法通过提取首帧标注的目标特征，在后续的搜索图像特征序列中进行匹配。这样的工作方式单纯把跟踪任务考虑为单帧图像中的位置匹配过程，不仅忽略了帧与帧之间的联系，也同样没有考虑目标在后续帧中出现变动、遮挡的可能性。尽管有部分工作开始探索目标模板的更新，但大多数方法都采用恒定的更新速率——即固定一个间隔进行模板更新。此种更新方法的缺点不能准确捕捉目标的动态变化，并且在目标特征受到污染的情况下，将不准确的特征更新至已有模板中。

因此，亟需一种能解决嵌入式平台下目标跟踪算法速度慢、准确度低、进一步提高跟踪准确度的视觉目标跟踪方法。

发明内容

为解决现有技术中存在的问题，本发明提供了一种基于时空约束与可学习特征匹配的快速目标跟踪方法，解决嵌入式平台下目标跟踪算法速度慢、准确度低的缺点，提出的特征匹配方法为有参方法，可以通过训练数据集学习数据分布，具有更强的鲁棒性，提出的时空约束分支可以捕捉目标特征变化至跟踪模板，并能够滤除干扰性强的污染特征，解决了上述背景技术中提到的问题。

为实现上述目的，本发明提供如下技术方案：一种基于时空约束与可学习特征匹配的快速目标跟踪方法，包括如下步骤：

S1、特征提取：在初始帧中给定目标初始位置Loc₁，根据目标初始位置Loc₁裁剪出目标区域Z₁，并通过共享权重的骨干网络MobileNetv2分别提取搜索图像X₁与跟踪目标Z₁的深度特征，得到搜索区域融合特征图F_X1和跟踪目标Z₁的融合特征向量F_Z1；

S2、可学习特征匹配：将搜索区域融合特征图F_X1和跟踪目标Z₁的融合特征向量F_Z1分别输入至两个独立的卷积层进行特征映射，并在通道维度拼接，得到的中间相似图SimilarMap_concat，将中间相似图输入至降维层，输出得到最终的相似图SimilarMap；

S3、注意力提取：包括空间注意力提取和通道注意力提取，具体为使用一张掩码Mask完成，通过学习训练，让深度神经网络学习到需要关注的区域与通道，得到带有空间、通道注意力的相似图SM_att；

S4、位置预测：根据带有空间、通道注意力的相似图SM_att，采用分类分支与回归分支网络分别计算目标-背景的前后景分类概率以及回归计算目标所处位置的边框；

S5、采用时空约束分支并更新模板直至跟踪结束：时空约束包括时序约束分支与空间约束分支；具体是采用时序约束分支捕捉并融合随时序变化的目标外观高维特征表示，采用空间约束分支根据前序跟踪结果约束空间层面的搜索尺度，更新模板直至跟踪结束。

优选的，所述步骤S1特征提取的具体步骤包括如下：

S11、尺寸调整：调整搜索图像X₁与跟踪目标Z₁的尺寸大小，使其能够被输入进网络，调整后的X₁与Z₁尺寸分别为255×255×3与127×127×3；

S12、多尺度特征图尺寸平衡：通过控制骨干网络MobileNetv2中的卷积参数，将不同尺度的规范为同一尺寸的中间特征图输出，输出搜索图像X₁与跟踪目标Z₁在骨干网络卷积层第3、5、7层的中间特征图集分别为M_X＝{M_X1,M_X2,M_X3}和M_Z＝{M_Z1,M_Z2,M_Z3}，每个特征图集中的中间特征图具有相同的尺寸；

S13、多尺度特征图融合：将步骤S12中输出的特征图集M_X与M_Z分别进行融合，分别得到搜索区域融合特征图F_X1和跟踪目标Z₁的融合特征向量F_Z1。

优选的，所述步骤S13多尺度特征图融合的具体步骤包括：

S131、对于特征图集M_X，首先将其在通道维度上进行拼接，拼接后的特征图记作F_{X_concat}，尺寸为31×31×768，再将F_{X_concat}输入进反卷积层进行降维，然后通过批量归一化与Relu层，得到降维后的搜索区域融合特征图F_X1，尺寸为31×31×256；

S132、对于特征图集M_Z，首先将其在通道维度上进行拼接，拼接后的特征图记作F_{Z_concat}，尺寸为15×15×768，再将F_{Z_concat}输入进反卷积层进行降维，然后通过批量归一化与激活层，得到降维后的搜索区域融合特征图F_{Z_fusion}，该特征图尺寸为15×15×256；

随后将F_{Z_fusion}依次输入进特征编码器、ROI_Align层与空间调整层，最后得到表征跟踪目标Z₁的融合特征向量F_Z1，向量尺寸为1×1×256。

优选的，所述步骤S2中两个独立的卷积层和降维层都具有256个1x1大小的卷积核；所述中间相似图SimilarMap_concat的尺寸为31×31×512，所述最终相似图SimilarMap的尺寸为31×31×256。

优选的，所述步骤S3注意力提取的具体步骤包括：

S31、空间注意力提取：采用非局部操作算子Non-Local Layer，Non-Local Layer通过非局部均值滤波操作用以捕捉空间、序列以及通道层面的长距离依赖，并保持输入与输出尺度的一致，输出空间注意力掩码；

S32、通道注意力提取：采用SEModule压缩-激励模块网络，通过Squeeze压缩和Excitation激励操作获得表示各通道的全局空间特征的表示向量，并通过训练数据的学习对各通道的依赖程度进行调整，输出通道注意力权重向量；

S33、将输出的空间注意力掩码与通道注意力权重向量与步骤S2得到的相似图SimilarMap进行融合，得到带有空间、通道注意力的相似图SM_att。

优选的，所述步骤S4位置预测中，分类分支与回归分支网络分别采用不同的损失函数，分类分支采用交叉熵损失函数CrossEntropyLoss，回归分支采用Linear-IoU损失函数LinearIoULoss，两个损失函数的输入均为两个四元组(l,r,t,b)与

分别代表真实位置边框与预测位置边框，通过计算二者的交集与并集来评估网络的总损失TotalLoss。

优选的，所述网络的总损失TotalLoss具体计算如下：

gt_area＝(l+r)*(t+b)

area_union＝pred_area+gt_area-area_inter

TotalLoss＝CrossEntropyLoss+LinearIoULoss；

其中，pred_area为本网络预测的目标区域；gt_area为目标真实区域；area_inter为pred_area与gt_area的交集区域；area_union为pred_area与gt_area的并集区域；

优选的，所述步骤S5采用时空约束分支并更新模板直至跟踪结束具体包括：

将当前帧的跟踪原始画面以及前序帧跟踪结果作为空间约束分支的输入，前序帧跟踪结果为一四元向量[x,y,w,h]，分别代表目标位置边框左上角点的坐标以及边框的宽高，跟踪模型通过边框宽高以及人工设定的搜索区域缩放因子c计算当前帧搜索区域的裁剪尺寸size_x；

设当前帧的跟踪结果为

在本网络配置文件中将阈值区间[a,b]与更新间隔ξ作为超参数，将当前帧的跟踪结果

作为时序约束分支的输入，若

的特征融合向量

与初始目标区域的特征融合向量

余弦相似度处于阈值区间[a,b]中，则将

的多尺度融合特征

更新至跟踪模板中。

优选的，所述跟踪模板更新的表达式如下：

其中，当i＝1时，template_i为在初始帧中人为指定的目标位置。

为实现上述目的，本发明提供如下技术方案：一种基于时空约束与可学习特征匹配的快速目标跟踪系统，所述跟踪系统包括如下模块：

特征提取模块：用于通过共享权重的骨干网络MobileNetv2分别提取搜索图像X₁与跟踪目标Z₁的深度特征，得到搜索区域融合特征图F_X1和跟踪目标Z₁的融合特征向量F_Z1；

可学习特征匹配模块：用于将搜索区域融合特征图F_X1和跟踪目标Z₁的融合特征向量F_Z1分别输入至两个独立的卷积层进行特征映射，并在通道维度拼接，得到的中间相似图SimilarMap_concat，将中间相似图输入至降维层，输出得到最终的相似图SimilarMap；

注意力提取模块：包括空间注意力提取模块和通道注意力提取模块，具体为使用一张掩码Mask完成，通过学习训练，让深度神经网络学习到需要关注的区域与通道，得到带有空间、通道注意力的相似图SM_att；

位置预测模块：用于根据带有空间、通道注意力的相似图SM_att，采用分类分支与回归分支网络分别计算目标-背景的前后景分类概率以及回归计算目标所处位置的边框；

时空约束分支模块和模板更新模块：时空约束分支模块包括时序约束分支模块与空间约束分支模块；

时序约束分支模块用于捕捉并融合随时序变化的目标外观高维特征表示；

空间约束分支模块用于根据前序跟踪结果约束空间层面的搜索尺度；

模板更新模块用于更新跟踪模板。

本发明的有益效果是：

1)本专利公开了一种基于孪生网络结构的，采用时空约束机制与可学习特征匹配策略的快速目标跟踪方法，该方法属于计算机视觉领域中的视觉单目标跟踪方向；

2)本方法通过设置时序约束分支与空间约束分支分别捕捉并融合随时序变化的目标外观高维特征表示与限制空间搜索尺度，降低跟踪算法计算量并缓解目标因自身运动与环境变化所导致的自身视觉特征的变化；本方法通过设置可学习特征匹配模块完成特征匹配任务，相比于主流的无参互相关方法能够更好地从训练数据中学习正负样本分布并提升跟踪效果；

3)本专利提出的跟踪方法具有良好的跟踪准确度与较高的运算速度，能够部署在运算资源受限的嵌入式平台，完成准确的视觉目标跟踪任务。

附图说明

图1为特征拼接示意图；

图2为可学习特征匹配方法示意图；

图3为Non-local Layer结构示意图；

图4为SEModule结构示意图；

图5为位置预测模块结构图；

图6为本发明目标跟踪网络整体结构图；

图7为本发明目标跟踪方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

孪生神经网络是基于两个人工神经网络建立的耦合架构，以两个样本为输入，输出两个样本嵌入高维度空间的特征表示，以比较两个样本的相似程度。

特征匹配模块通过特定的方式或策略，根据从特征提取模块获取的目标特征在搜索图像中找到目标的位置。

目标模板更新也是重要的研究方向。此前的跟踪方法都是在视频首帧指定目标位置，此后目标特征则不再更新，但随着外界条件的变化或受目标自身运动的影响，目标的视觉特征也可能发生相应的变化。在此情况下根据第一帧的目标特征进行搜索将会导致不可避免的错误。

实施例1

基于上述特点，以及其中的缺陷问题，请参阅图6，本发明提供一种基于时空约束与可学习特征匹配的快速目标跟踪系统，本发明提出的跟踪网络整体结构分为5个部分：特征提取模块、可学习特征匹配模块、注意力提取模块、位置预测模块、时空约束分支模块和模板更新模块，具体结构如图6所示。

特征提取模块：用于通过共享权重的骨干网络MobileNetv2分别提取搜索图像X₁与跟踪目标Z₁的深度特征，得到搜索区域融合特征图F_X1和跟踪目标Z₁的融合特征向量F_Z1。

可学习特征匹配模块：用于将搜索区域融合特征图F_X1和跟踪目标Z₁的融合特征向量F_Z1分别输入至两个独立的卷积层进行特征映射，并在通道维度拼接，得到的中间相似图SimilarMap_concat，将中间相似图输入至降维层，输出得到最终的相似图SimilarMap。

注意力提取模块：包括空间注意力提取模块和通道注意力提取模块，具体为使用一张掩码Mask完成，通过学习训练，让深度神经网络学习到需要关注的区域与通道，得到带有空间、通道注意力的相似图SM_att。

位置预测模块：用于根据带有空间、通道注意力的相似图SM_att，采用分类分支与回归分支网络分别计算目标-背景的前后景分类概率以及回归计算目标所处位置的边框。

时空约束分支模块和模板更新模块：时空约束分支模块包括时序约束分支模块与空间约束分支模块。

模板更新模块用于更新跟踪模板。

实施例2

基于实施例1中的跟踪系统，本发明还提供一种基于时空约束与可学习特征匹配的快速目标跟踪方法，流程如图7所示，包括如下步骤：

步骤S1、特征提取：网络的输入为连续的视频帧序列X＝{X_i,i＝1,2,3…}，在初始帧中给定目标初始位置Loc₁，跟踪方法依次给出目标在后续帧序列中的位置{Loc_i,i＝2,3…}，根据目标初始位置Loc₁裁剪出目标区域Z₁，并通过共享权重的骨干网络MobileNetv2分别提取搜索图像X₁与跟踪目标Z₁的深度特征，得到搜索区域融合特征图F_X1和跟踪目标Z₁的融合特征向量F_Z1；

进一步的，步骤S1特征提取的具体步骤包括如下：

S12、多尺度特征图尺寸平衡：由于在原生的骨干网络中，不同尺度下的特征图的尺寸与维度往往各不相同，通过控制骨干网络MobileNetv2中的卷积参数(填充参数padding、卷积核大小kernel_size、步长stride以及空洞卷积参数dilation)，将不同尺度的规范为同一尺寸的中间特征图输出。本步骤分别输出搜索图像X₁与跟踪目标Z₁在骨干网络卷积层第3、5、7层的中间特征图集分别为M_X＝{M_X1,M_X2,M_X3}和M_Z＝{M_Z1,M_Z2,M_Z3}，每个特征图集中的中间特征图具有相同的尺寸；特征图集M_X的尺寸为分别为31×31×256，特征图集M_Z的尺寸为分别为15×15×256。

进一步的，步骤S13多尺度特征图融合的具体步骤包括：

S131、对于特征图集M_X，首先将其在通道维度上进行拼接，拼接示意图如图1所示，拼接后的特征图记作F_{X_concat}，尺寸为31×31×768，再将F_{X_concat}输入进反卷积层进行降维(反卷积层具有256个1x1大小的卷积核)，然后通过批量归一化与Relu层，得到降维后的搜索区域融合特征图F_X1，尺寸为31×31×256；第n帧的搜索区域融合特征图记作F_Xn；

S132、对于特征图集M_Z，首先将其在通道维度上进行拼接，拼接后的特征图记作F_{Z_concat}，尺寸为15×15×768，再将F_{Z_concat}输入进反卷积层进行降维(反卷积层具有256个1x1大小的卷积核)，然后通过批量归一化与激活层，得到降维后的搜索区域融合特征图F_{Z_fusion}，该特征图尺寸为15×15×256；

随后将F_{Z_fusion}依次输入进特征编码器(该编码器由2个卷积层、归一化层与LeakyRelu层组成)、ROI_Align层与空间调整层(由1个卷积层、归一化层与LeakyRelu层)，最后得到表征跟踪目标Z₁的融合特征向量F_Z1，向量尺寸为1×1×256。

步骤S2、可学习特征匹配：本步骤的输入为输入步骤S131输出的搜索区域融合特征图F_X1与步骤S132输出的搜索目标融合特征向量F_Z1，二者的尺寸分别为31×31×256与1×1×256；

将搜索区域融合特征图F_X1和跟踪目标Z₁的融合特征向量F_Z1分别输入至两个独立的卷积层进行特征映射(该卷积层均含有256个1x1大小的卷积核)，并在通道维度拼接，将映射后的F_Z逐元素在通道维度拼接至映射后的F_X后，具体示意图如图2所示，然后得到的中间相似图SimilarMap_concat，将中间相似图输入至降维层(降维层具有256个1x1大小的卷积核)，输出得到最终的相似图SimilarMap；SimilarMap的尺寸为31×31×256。

步骤S3、注意力提取：包括空间注意力提取和通道注意力提取，具体为使用一张掩码Mask完成，掩码的原理在于通过另一层新的权重，将空间或通道中关键的特征标识出来，通过学习训练，让深度神经网络学习到需要关注的区域与通道，得到带有空间、通道注意力的相似图SM_att。

进一步的，步骤S3注意力提取的具体步骤包括：

S31、空间注意力提取：采用非局部操作算子Non-Local Layer，Non-Local Layer是一个可以直接嵌入到任意网络的一个非局部操作算子，Non-Local Layer通过非局部均值滤波操作用以捕捉空间、序列以及通道层面的长距离依赖，并保持输入与输出尺度的一致，输出空间注意力掩码；Non-Local Layer公式表达如下：

其中，x为输入信号，在本网络中为相似图；i与j代表特征图x在空间位置上的索引，函数f(·)为计算x_i与x_j的相似度量的函数，函数g(·)计算相似图在j位置的表示，最后通过响应因子C(x)对所有位置进行加和的特征结果进行标准化处理得到带有注意力的特征y_i。

Non-local Layer的网络结构如图3所示。

S32、通道注意力提取：采用SEModule压缩-激励模块网络，通过Squeeze压缩和Excitation激励操作获得表示各通道的全局空间特征的表示向量，并通过训练数据的学习对各通道的依赖程度进行调整，输出通道注意力权重向量；通道注意力机制让模型可以更加关注信息量最大的通道中的特征，并抑制不重要的通道特征。另外一点是SEModule与Non-Local Layer一样，可以作为独立的模块嵌入到现有的网络架构中。

设给定的输入特征图x，通过F_tr()将x的调整为尺寸为C×H×W的特征图U，经过Squeeze操作(F_sq(·))，将U调整为尺寸为1×1×C的特征向量，再经过Excitation操作(F_ex(·,W))，得到代表U各个通道注意力权重的权重向量，并与U加权获取到最终特征，SEModule的网络结构如图4所示。

S33、注意力融合：将步骤S31输出的空间注意力掩码与步骤S32通道注意力权重向量与步骤S2得到的相似图SimilarMap进行融合，不改变其相似图的尺寸，发掘其在空间与通道层面的注意力信息，得到带有空间、通道注意力的相似图SM_att。

步骤S4、位置预测：根据带有空间、通道注意力的相似图SM_att，采用分类分支与回归分支网络分别计算目标-背景的前后景分类概率以及回归计算目标所处位置的边框；网络结构如图5所示。

分类分支：分类分支对于输入的相似图，首先输入分组卷积参数设置为32的卷积层Conv_cls，该卷积层用于从相似图中进一步提取不同层次间用于前-后景分类的特征，最后输入预测层logit_cls，进行最终的分类与预测，该层输出一张尺寸H×W×2的分类图，两个通道分别代表搜索区域中每个像素属于目标与背景的概率，

回归分支：对于回归分支，该分支输出一张H×W×4的回归图，可理解为一四维向量，向量的每个元素分别代表搜索区域中每个像素距离回归边框的距离。

进一步的，所述步骤S4位置预测中，分类分支与回归分支网络分别采用不同的损失函数，分类分支采用交叉熵损失函数CrossEntropyLoss，回归分支采用Linear-IoU损失函数LinearIoULoss，两个损失函数的输入均为两个四元组(l,r,t,b)与

所述网络的总损失TotalLoss具体计算如下：

gt_area＝(l+r)*(t+b)

area_union＝pred_area+gt_area-area_inter

跟踪网络的总损失由上述两损失函数的加和，表达如下：

TotalLoss＝CrossEntropyLoss+LinearIoULoss；

其中，pred_area为本网络预测的目标区域；gt_erea为目标真实区域；area_inter为pred_erea与gt_erea的交集区域；erea_union为pred_area与gt_area的并集区域。

步骤S5、采用时空约束分支并更新模板直至跟踪结束：时空约束包括时序约束分支与空间约束分支；具体是采用时序约束分支捕捉并融合随时序变化的目标外观高维特征表示，采用空间约束分支根据前序跟踪结果约束空间层面的搜索尺度，更新模板直至跟踪结束。

所述步骤S5采用时空约束分支并更新模板直至跟踪结束具体包括：

将当前帧的跟踪原始画面以及前序帧跟踪结果作为空间约束分支的输入，该分支旨在根据前序帧跟踪结果动态调整搜索图像在跟踪原始画面中所处的区域，前序帧跟踪结果为一四元向量[x,y,w,h]，分别代表目标位置边框左上角点的坐标以及边框的宽高，跟踪模型通过边框宽高以及人工设定的搜索区域缩放因子c计算当前帧搜索区域的裁剪尺寸size_x；具体计算方法如下所示：

width_z＝w+c(w+h)

height_z＝h+c(w+h)

size_x＝size_z×2。

设当前帧的跟踪结果为

在本网络配置文件中将阈值区间[a,b]与更新间隔ξ作为超参数，在训练后的调整阶段通过超参数搜索策略进行进一步优化，阈值区间与ξ的初始设定为[0.6,0.9]与70，设置阈值区间的动机是为了排除目标外观特征变化不大与目标外观特征受到污染的不良情况，为保证时序约束分支的运行效率，该分支只在固定间隔ξ后运行。

将当前帧的跟踪结果

作为时序约束分支的输入，若

的特征融合向量

与初始目标区域的特征融合向量

余弦相似度处于阈值区间[a,b]中，则将

的多尺度融合特征

更新至跟踪模板中。

所述跟踪模板更新的表达式如下：

实施例3

对比实验1

实验对比了近年来优秀的目标跟踪，主要对跟踪精度指标(SUC与PRE得分)与跟踪速度指标(FPS)进行测试与评估。其详细结果如表1所示。

表1

跟踪精度方面，本专利提出的基于时空约束的快速目标跟踪方法对比近年来的优秀跟踪模型在OTB100数据集上的跟踪精度能够大致持平，对比GradNet方法，本文提出的方法在跟踪精度方面存在2％至3％的精度降低。在所有疑难场景的测试中也没有出现明显的偏向性。值得注意的是，本文提出的方法在低分辨率(LR)与尺度变化(SV)场景中能够具有更好地表现。

跟踪速度方面，以GradNet方法为例，本专利提出的方法在Nvidia GTX 1050平台上能够达到124FPS的处理速度，而GradNet方法在Nvidia GTX 1080ti平台上仅能达到80FPS。本方法通过2％至3％的精度损失获得了50％的速度提升。对比SiamRPN++方法与STARK方法，本专利提出的方法依旧能够以8％至9％的性能损失带来354％的跟踪速度提升。

本专利提出的跟踪方法也被部署在Nvidia AGX Xavier嵌入式开发平台上，在运行过程中，本方法依旧可以保持62FPS的跟踪速度，能够实现实时跟踪的任务要求。

对比实验2

时空约束分支效果

本质上，时序约束分支是作为网络的辅助模块添加在跟踪预测的前处理与后处理的操作过程中，脱离时序约束分支，网络模型仍可以正常工作。故本部分实验主要探究并讨论时序约束分支对跟踪网络性能带来的贡献与影响。

使用与未使用时序约束分支的结果在OTB100数据集上的跟踪精度指标(SUC与PRE得分)如表2所示，(二者分别以Ours-withTS以Ours-noTS标注)。

表2

由表2可知可得，在性能方面，时序约束分支的引入会对跟踪网络带来5FPS左右的性能损失；，在准确度方面，时空约束分支可以为跟踪模型带至多6.8％的准确率提升。并且，在绝大多数疑难场景中，跟踪模型的跟踪效果都可以获取到时空约束分支带来的准确度增益，尤其是在光照变化(IV)、背景干扰(BC)等场景下，目标约束分支带来的准确度提升更加显著。本专利采用额外的时序约束分支更新目标外观特征的变化，对长时跟踪更具有鲁棒性。

本发明提供了一种基于时空约束与可学习特征匹配的快速目标跟踪方法，提出的特征匹配方法为有参方法，可以通过训练数据集学习数据分布，具有更强的鲁棒性，提出的时空约束分支可以捕捉目标特征变化至跟踪模板，并能够滤除干扰性强的污染特征，解决嵌入式平台下目标跟踪算法速度慢、准确度低的缺点。

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于时空约束与可学习特征匹配的快速目标跟踪方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于时空约束与可学习特征匹配的快速目标跟踪方法，其特征在于：所述步骤S1特征提取的具体步骤包括如下：

S12、多尺度特征图尺寸平衡：通过控制骨干网络MobileNetv2中的卷积参数，将不同尺度的规范为同一尺寸的中间特征图输出，输出搜索图像X₁与跟踪目标Z₁在骨干网络卷积层第3、5、7层的中间特征图集分别为M_X＝{M_X1，M_X2，M_X3}和M_Z＝{M_Z1，M_Z2，M_Z3}，每个特征图集中的中间特征图具有相同的尺寸；

3.根据权利要求2所述的基于时空约束与可学习特征匹配的快速目标跟踪方法，其特征在于：所述步骤S13多尺度特征图融合的具体步骤包括：

4.根据权利要求1所述的基于时空约束与可学习特征匹配的快速目标跟踪方法，其特征在于：所述步骤S2中两个独立的卷积层和降维层都具有256个1x1大小的卷积核；所述中间相似图SimilarMap_concat的尺寸为31×31×512，所述最终相似图SimilarMap的尺寸为31×31×256。

5.根据权利要求1所述的基于时空约束与可学习特征匹配的快速目标跟踪方法，其特征在于：所述步骤S3注意力提取的具体步骤包括：

S32、通道注意力提取：采用SEModule网络，通过Squeeze和Excitation操作获得表示各通道的全局空间特征的表示向量，并通过训练数据的学习对各通道的依赖程度进行调整，输出通道注意力权重向量；

6.根据权利要求1所述的基于时空约束与可学习特征匹配的快速目标跟踪方法，其特征在于：所述步骤S4位置预测中，分类分支与回归分支网络分别采用不同的损失函数，分类分支采用交叉熵损失函数CrossEntropyLoss，回归分支采用Linear-IoU损失函数LinearIoULoss，两个损失函数的输入均为两个四元组(l，r，t，b)与