CN114972426A

CN114972426A - 一种基于注意力和卷积的单目标跟踪方法

Info

Publication number: CN114972426A
Application number: CN202210547650.2A
Authority: CN
Inventors: 闫莉萍; 王宇轩; 夏元清; 张金会; 邹伟东; 孙中奇
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-08-30

Abstract

本发明属于计算机视觉方面单目标在线跟踪技术领域，涉及一种基于注意力和卷积的单目标跟踪方法，本发明采用一种多尺度解码策略，使用多尺度模板特征在解码器中逐层解码搜索帧特征，基于不同尺度特征下的语义线索和细节信息逐渐做出更精确的预测。能够有效解决跟踪中出现的大部分调整问题，如小目标，相似目标以及目标尺度变化等，具有很好的抗噪、抗干扰能力。

Description

一种基于注意力和卷积的单目标跟踪方法

技术领域

本发明属于计算机视觉方面单目标在线跟踪技术领域，涉及一种基于注意力和卷积的单目标跟踪方法，具体涉及一种对给定目标矩形框精确鲁棒的单目标跟踪方法。

背景技术

视觉目标跟踪在计算机视觉任务中应用广泛，在机器人视觉和自动驾驶、运动和生物医药的视觉测量、人机交互、视频内容信息分析和检索、动作捕捉、影视制作、增强现实等任务中都扮演重要的角色。设计者通常将设计的跟踪算法嵌入到系统中，首先通过检测算法或人为选定需要跟踪的目标，从而使系统完成对后续每一帧对目标的跟踪任务。视觉跟踪的研究对于计算机视觉智能的发展有着重要意义。

单目标跟踪任务中的主要挑战在于不断运动的目标以及复杂多变的场景，如相似目标，快速运动，模糊等。基于互相关的孪生神经网络跟踪算法逐渐成为主流的跟踪方法，其核心思想是训练一个端到端的孪生深度网络模型。给定跟踪目标作为模板，通过互相关计算模板目标在当前图像帧上的匹配相似度从而在视频序列中的每帧进行目标的定位与边界框的标定。然而，互相关运算本质是使用目标特征去局部线性匹配搜索区域，这种方法不能有效利用全局上下文信息，甚至造成目标特征信息的丢失，导致跟踪器精确度与成功度较差。现有的孪生网络跟踪器大都利用互相关来进行相似度计算，随着视频帧数的增长，跟踪出现错误的概率就越大，另外边界框的标定也不够准确。

发明内容

鉴于此，本发明提出一种基于注意力和卷积的单目标跟踪方法，能够通过注意力机制有效利用图像特征的全局上下文信息，更好的关注目标边缘信，同时充分探索了模板和搜索区域间的相关性。此外，提出了一个使用多尺度编码-解码策略的全新跟踪框架。

为实现上述目的，本发明技术方案如下：

本发明的一种基于注意力和卷积的单目标跟踪方法，包括如下步骤：

步骤1、向训练好的跟踪器模型中输入待跟踪的目标在初始图像帧的边界框数据b＝[x,y,w,h]以及超参数；

其中x,y代表待跟踪的目标中心点在视频中图片平面直角坐标系的坐标，w,h代表目标边界框的长度和宽度；

所述超参数包括模板帧上下文信息量factor_z、搜索帧上下文信息量factor_x、输入模板图像长度和宽度H_z0,W_z0、输入搜索图像的长度和宽度H_x0,W_x0、图像正则化预处理均值mean与方差std和hanning窗权重ω，上述参数均为标量；

步骤2、向训练好的跟踪器模型中输入待跟踪的目标的初始帧图像，根据步骤1输入的初始边界框数据初始化模板图像初始化完成后输入到网络模型特征提取器中，模板图像初始尺寸

其中

根据初始尺寸对初始帧图像进行裁剪和填充，并调整模板图像尺寸至H_z0,W_z0，通过特征提取器提取多尺度模板帧特征

并保存在模型中，H_z,W_z代表模板帧特征尺寸，i＝1,2，…n，n代表尺度的个数，C代表特征通道数；

步骤3、将步骤2提取的多尺度模板帧特征

输入到多尺度模板特征编码器中，通过多尺度模板特征编码器中的FPN子网络进行多尺度信息交流，得到新的多尺度模板特征

如下式：

FTC代表fine-to-coarse运算，使用卷积完成，CTF代表coarse-to-fine运算，使用最邻近插值和卷积共同完成运算，Conv代表一个卷积变换；

得到的新的多尺度模板特征

被送入对应的多尺度模板特征编码器中，多尺度模板特征编码器对新的多尺度模板特征

进行编码后得到多尺度模板特征

按照下式进行计算：

式中Norm代表正则化运算，DW表示深度可分离卷积运算，FFN(x)＝max(0,xW₁+b₁)W₂+b₂；

步骤4、根据输入的边界框数据初始化搜索图像，初始化完成后输入到网络模型中，搜索图像初始尺寸s_x计算公式为：

搜索图像初始尺寸

其中

根据初始尺寸对搜索图像进行裁剪和填充，调整搜索图像尺寸至H_x0,W_x0，搜索图像被送入特征提取器，进行特征提取，对于搜索图像提取搜索特征

H_x,W_x代表搜索帧特征尺寸；

步骤5、编码后的多尺度模板特征

与搜索特征

共同输入解码器进行如下式的解码运算：

F_xs＝MAtt(F_x+pos_x,F_x+pos_x,F_x)

其中

代表卷积变换，

为对应搜索特征的空间位置编码，Norm为规范化运算，

为对应多尺度模板特征的空间位置编码。

代表第i个解码器层的输出。MAtt(Q,K,V)为多头注意力运算，如下式：

MAtt(Q,K,V)＝Concat(h₁,...,h_n)W^O

Mod(A,B)代表调制运算，如下式：

Mod(A,B)＝B+ω(A,B)A

式中λ₁代表权重参数，

代表卷积和池化运算。

代表一个单独的卷积变换。Cat表示一个通道级特征连接。GAP代表全局平均池化。

步骤6、解码器输出的最终特征

将送入预测头，产生分类特征向量

与边框回归向量

步骤7、根据产生的分类特征向量V_c中最大值的位置确定跟踪目标中心在图像中的位置坐标(x,y)，位置坐标(x,y)在V_b中对应的位置为预测的目标边框(w,h)。

步骤8、传入下一帧图像作为搜索帧，以步骤7的预测结果作为新的输入b＝[x,y,w,h]，重复步骤4-7。即可得视频序列每帧中跟踪目标的位置边框。

本发明具有以下优点：

(1)本发明基于Transformer注意力机制代替互相关设计了新的匹配算子去整合模板特征与搜索区域特征。能够充分使用特征全局上下文信息进行跟踪，确保了更长时稳定的跟踪。调制方法的使用使注意力机制更适合跟踪。

(2)本发明采用无锚框设计，模型最终直接输出分类和回归向量，从而确定目标位置和边框。避免了以往跟踪器大量超参数的设定，设计更方便，在保证精确度的情况下有效提升了跟踪速度。

(3)本发明模型中采用基于深度可分离卷积设计了并行的多尺度编码器，并没有采用学习力很强的自注意力运算，其目的是更好的泛化模板特征来应对跟踪任务中出现的各种各样的目标，使跟踪器的应用领域更广泛，更稳定。

(4)本发明采用一种多尺度解码策略，使用多尺度模板特征在解码器中逐层解码搜索帧特征，基于不同尺度特征下的语义线索和细节信息逐渐做出更精确的预测。能够有效解决跟踪中出现的大部分调整问题，如小目标，相似目标以及目标尺度变化等，具有很好的抗噪、抗干扰能力。

(5)本发明可直接用于给定简单矩形框后的目标跟踪，并且方法实施简单，易于推广。能够以实时速度跟踪同时有着优秀的性能。在目标跟踪、视频压缩、人机交互、影视制作、视频监控等许多应用领域都有潜在价值。

(6)本发明的方法采用Transformer的注意力机制和相关卷积运算构建的编码器-解码器结构跟踪器；运用深度可分离卷积的多尺度模板特征编码器和引入调制运算的解码器进行目标预测的一种单目标跟踪方法，使用的多尺度模板特征编码器聚合了类特征金字塔子网络与深度可分离卷积编码器层，使用的解码器在Transformer解码器的基础上引入了设计的调制运算融合模板特征与搜索特征。所述方法采用了多尺度编码解码策略来连接多尺度编码器与解码器。

附图说明

图1为本发明所述基于Transformer注意力机制和卷积的单目标跟踪方法的计算机流程框图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面举例说明本发明：

硬件环境：计算机；相关器

软件配置：Linux；Anaconda。

下面通过附图和实例对本发明的技术方案作进一步的详细说明。

基于Transformer注意力机制和卷积的单目标跟踪方法的方框图如图1所示。

单目标跟踪问题描述为，给定某一时刻的图片与需要跟踪的目标，系统将在该时刻之后的某一帧确定跟踪目标的中心位置x,y和边框w,h。

基于Transformer注意力机制和卷积的单目标跟踪方法的具体实现如下：

依次按以下步骤进行实现：

步骤1、向训练好的跟踪器模型输入目标在初始图像帧的边界框数据b＝[x,y,w,h]以及超参数；

其中x,y代表目标中心点在视频中图片平面直角坐标系的坐标，w,h代表目标边界框的长度和宽度。所述超参数包括模板帧上下文信息量factor_z，搜索帧上下文信息量factor_x。输入模板图像长度和宽度H_z0,W_z0，输入搜索图像的长度和宽度H_x0,W_x0，图像正则化预处理均值mean与方差std，hanning窗权重ω，上述参数均为标量。

步骤2、输入初始帧图像，根据输入的初始边界框数据初始化模板图像并输入网络模型特征提取器。模板图像初始尺寸

其中

根据初始尺寸对图像进行裁剪和填充，并调整模板图像尺寸至H_z0,W_z0。通过特征提取器，多尺度模板帧特征

被提取并保存在模型中。H_z,W_z代表模板帧特征尺寸，i代表第i个尺度。C代表特征通道数。

步骤3、将多尺度模板帧特征

输入多尺度模板特征编码器，首先通过FPN子网络进行多尺度信息交流。如下式：

FTC代表fine-to-coarse运算，使用常规卷积完成。CTF代表coarse-to-fine运算，使用最邻近插值和卷积共同完成运算。Conv代表一个卷积变换。

新的多尺度模板特征

被送入对应的编码器，编码后的多尺度模板特征

按照下式进行计算：

式中Norm代表正则化运算，DW表示深度可分离卷积运算，FFN(x)＝max(0,xW₁+b₁)W₂+b₂。

步骤4、根据输入的边界框数据初始化搜索图像并输入网络模型，搜索图像初始尺寸s_x同样采用步骤2公式计算获得，不同的是采用factor_x来进行计算，调整搜索图像尺寸至H_x0,W_x0。搜索图像被送入特征提取器，进行特征提取。对于搜索图像提取搜索帧特征

H_x,W_x代表搜索帧特征尺寸。

步骤5、编码后的多尺度模板特征

与搜索特征

共同输入解码器进行如下式的解码运算：

F_xs＝MAtt(F_x+pos_x,F_x+pos_x,F_x)

其中

代表卷积变换，

为对应搜索特征的空间位置编码，

为对应多尺度模板特征的空间位置编码。

MAtt(Q,K,V)＝Concat(h₁,...,h_n)W^O

Mod(A,B)代表调制运算，如下式：

Mod(A,B)＝B+ω(A,B)A

式中λ₁代表权重参数，

代表卷积和池化运算。

步骤6、解码器输出的最终特征

将送入预测头，产生分类特征向量

与边框回归向量

步骤7、根据V_c向量中最大值的位置确定跟踪目标中心在图像中的位置坐标(x,y)，其坐标在V_b中对应的位置为预测的目标边框(w,h)。

步骤8、传入下一帧图像作为搜索帧，以步骤7的预测结果作为新的输入b＝[x,y,w,h]，重复步骤4-7。即可的视频序列每帧中跟踪目标的位置边框。

下面将通过仿真实验测试本发明方法的有效性。

本发明在6个公开跟踪数据集上进行测试评估，包括LaSOT，GOT-10k，TrackingNet，UAV123，DTB70，NFS。在每个视频序列的第一帧作为初始帧，根据数据集对其标定的边框初始化模板帧和搜索帧，并输入随后的每一帧做出预测。

实验使用的超参数如下：n＝4，模板帧上下文信息量factor_z＝2，搜索帧上下文信息量factor_x＝4。输入模板图像长度和宽度H_z0,W_z0＝128,128，输入搜索图像的长度和宽度H_x0,W_x0＝256,256，图像正则化预处理均值mean＝[0.485,0.456,0.406]与方差std＝[0.229,0.224,0.225]，hanning窗权重ω＝0.49。

表1展示了跟踪器在LaSOT，GOT-10k和TrackingNet上的测评结果并与其它算法进行比较。所对比的跟踪器均是近几年最先进的跟踪器。LaSOT和TrackingNet使用相同评价指标，AUC代表成功率，基边框覆盖率，P和N.P代表精确度。GOT-10k中的AO代表平均覆盖率，SR_0.5代表0.5阈值下的成功率，SR_0.75代表0.75阈值下的成功率。可以发现我们的跟踪在这三个评估基准上都获得了最先进的效果。值得一提的是20年的SiamR-CNN几乎仅次于我们的方法，但是其运行速度只在4fps左右，我们的方法能达到30fps。

表2和表3展示了跟踪器在DTB70和NFS上的测评结果并与其它算法进行比较。所对比的跟踪器均是近几年最先进的跟踪器。Prec.代表精确度，Succ.代表成功率。两个数据集上都包含大量剧烈运动的场景，且外观形变严重，所提出的方法超过目前最先进的跟踪器。表明所提出的方法有着很好的稳定性。

本发明提出的基于注意力和卷积的单目标跟踪算法有很好的跟踪效果。

表1在LaSOT，GOT-10k，TrackingNet上的比较结果

表2在DTB70上的比较结果

表3在NFS上的比较结果