CN117011342A

CN117011342A - 一种注意力增强的时空Transformer视觉单目标跟踪方法

Info

Publication number: CN117011342A
Application number: CN202311030290.XA
Authority: CN
Inventors: 徐晗; 郑钰辉
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-10-07
Filing date: 2023-10-07
Publication date: 2023-11-07
Anticipated expiration: 2043-10-07
Also published as: CN117011342B

Abstract

本发明公开了一种注意力增强的时空Transformer单目标跟踪方法，首先，使用主干网络提取图像特征；而后将提取的特征进行预处理，并输入到编码增强层，通过增强的自注意力机制来强化原始的特征信息；接着，解码器层会使用目标定位和编码增强层的输出作为输入，计算特征的相似度分数，并输出关联概率图；接着使用多步动态更新策略，判断是否更新动态模板与源域模板图像；最后预测头通过计算角点概率分布的期望得到预测框坐标，画出目标位置。本发明使用的网络完全基于Transformer架构，并对编码层的自注意力机制进行了增强，抑制关联计算导致的噪声和模糊；使用位置嵌入编码和动态更新模板分别提供全局的时间、空间线索。

Description

一种注意力增强的时空Transformer视觉单目标跟踪方法

技术领域

本发明属于计算机视觉、深度学习领域，尤其涉及一种注意力增强的时空Transformer视觉单目标跟踪方法。

背景技术

视觉目标跟踪是计算机视觉领域的一个基础而又具有挑战性的研究方向，是指在视频序列第一帧指定目标后，在后续帧中持续跟踪目标。视觉单目标跟踪是指对图像序列中的运动目标进行检测、提取、识别和跟踪，获得运动目标的运动参数，如位置、速度、加速度和运动轨迹等，从而进行下一步的处理与分析，实现对运动目标的行为理解。视觉目标跟踪技术被广泛用于视频监控、自动驾驶、人机交互、无人机等领域。

现有目标跟踪算法包括基于相关滤波算法和基于深度学习算法。其中相关滤波算法的目标跟踪算法，由于受到目标噪声和干扰的影响，难以保证跟踪的精确性，容易导致跟踪失败。基于深度学习的算法目前相比于前者，具有较高的性能。主要由于深度学习模型可以自动从大量的数据中学习到更具有判别性和表达能力的特征表示，从而提高了目标跟踪的准确性和鲁棒性。尤其是Transformer模型被引入目标跟踪领域后，它具有注意力机制和局部、全局特征捕获能力使得跟踪性能及速度得到了进一步的提升。但在注意机制中，独立关联计算会导致注意权重的噪声和模糊，从而抑制了性能的提高。

发明内容

发明目的：本发明的目的在于提供一种注意力增强的时空Transformer视觉单目标跟踪方法，从而有效缓解注意力机制中的噪声和模糊，抑制错误的相关性，并利用时空大幅提升跟踪算法的精确性。

技术方案：本发明的一种注意力增强的时空Transformer视觉单目标跟踪方法，包括以下步骤：

S1：输入视频序列中的三幅图像，分别为源域模板图像、搜索图像与动态模板图像，并使用主干网络SwinTrans进行特征提取；

S2：将主干网络SwinTrans提取的特征向量进行预处理得到融合序列以及定位向量序列，并输入到Transformer架构中的编码注意增强层，编码注意增强层捕获融合序列和定位向量序列中所有元素之间的特征依赖关系，并用全局上下文信息强化原始特征，从而使跟踪器够学习用于对象定位的判别特征，计算得到特征增强序列；在解码层以定位向量序列与特征增强序列作为输入，进一步进行特征序列融合计算；

S3：将特征序列输入预测头模块进行序列重构，并输出到全卷积网络FCN中，继而通过计算角点概率分布的期望得到预测框坐标，其中预测头模块采用三层感知器来预测目标预测框坐标；

S4：预测头模块根据预测框坐标得到所需跟踪单个目标的矩形框，若满足多步动态更新策略，则使用预测头输出的目标位置的图像去更新动态模板图像，并将动态模板图像替换源域模板图像；若不满足多步动态更新策略，则维持动态模板图像与源域模板图像，继续沿用上一帧图像；除了来自初始模板的空间信息外，多步动态模板还可以捕获目标外观随时间的变化，提供额外的时间信息线索，最终实现对视频序列中单目标的跟踪。

进一步的，步骤1具体为：

S1.1：所述搜索图像的尺寸为模板图像的4倍，动态模板图像的尺寸与模板图像相同；如果当前帧为视频的第一帧，则目标的位置为已知的，即人为指定目标在第一帧中的位置，则为模板图像与动态模板图像；

S1.2：如果当前帧不是视频的第一帧，则以上一帧目标的位置为中心点，裁剪出图像块，其大小为目标大小的4倍；

S1.3：SwinTrans主干网络分为三层Trans以及一层多层感知神经网络MLP，首先将图像大小都调整为，并相继输入到Trans-1块，Trans-2块、Trans-3块中进行跨尺度特征融合得到/>大小的自适应融合纹理特征序列，然后再输入到MLP中。

进一步的，步骤2具体为：

S2.1：预处理：使用MLP瓶颈层将通道数从C降低到D，并将特征映射沿空间维度进行平面化和连接，从而产生一个长度为，维度为D的特征序列，其中HW为宽高，z为模板区域，x为搜索区域，s为通道层数；计算公式如下：

；

其中是Trans-2块、Trans-3块输出的特征维度序列分别为， />；

S2.2：将上述得到的序列作为编码注意增强层的输入，编码注意增强层由N层编码器组成，每层编码器由一个带有前馈网络的多头自注意增强模块组成；

S2.3：多头自注意增强模块：该模块接受一个查询向量组和一对键值向量组作为输入，分别为；该模块是在传统注意力模块中引入另一个注意模块来提高相关映射M的质量；公式如下：

；

其中W为线性变换权重，Softmax为矩阵点积操作；再通过外注意模块进行计算，公式如下：；

S2.4：解码层将定位向量Query以及编码注意增强层计算出的特征增强序列作为输入，经过计算得到特征融合向量；解码器堆叠M个解码器层，每个解码器层由自注意、编码器-解码器注意和前馈网络组成。

进一步的，步骤3具体为：

S3.1：首先从编码注意增强层的输出序列中提取搜索区域特征，然后计算搜索区域特征与解码层的输出特征融合向量之间的相似度；

S3.2：将相似度分数与搜索区域特征进行元素相乘得到一个新特征序列，将它重构为特征映射，并将其输入到全卷积网络FCN中；

S3.3：全卷积网络FCN将输出边界框的左上角和右下角输出两个概率图、/>；最后通过计算角点概率分布的期望得到预测框坐标，计算公式如下：

；

S3.4：跟踪器以端到端方式进行训练，并结合了Loss和广义IoU Loss损失函数计算公式如下：

；

其中分别表示真实值和预测值，/>为训练时需要调整的超参数；在整个跟踪过程的每一帧中，网络架构从当前帧中选取一个搜索区域作为输入，并返回预测框作为最终结果。

进一步的，步骤4具体为：

S4.1：在预测头前添加分数预测判，如果得出相似度分数高于阈值，则启用多步动态更新策略，否则不启用；

S4.2：启用多步动态更新策略指使用本次预测图像替换掉动态模板图像，并使用动态模板组中相似度分数最高的图像替换源域模板图像，最后将此次的预测图像存入动态模板组。动态模板组设定保存最近三十帧的图像以及其相似度分数，用以保证图像中目标形变不会发生较大变化。

S4.3：进行动态模板图像的更新替换时，动态模板图像需要将预测图像进行裁剪，符合动态模板图像输入的需求。若未启用多步动态更新策略，则动态模板与源域模板图像均不发生改变。

一种计算机存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现注意力增强的时空Transformer视觉单目标跟踪方法。

一种计算机设备，包括储存器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现注意力增强的时空Transformer视觉单目标跟踪方法。

有益效果：与现有技术相比，本发明具有如下显著优点：

1、本方法使用完全基于Transformer网络架构来捕获视频序列中空间和时间信息的全局特征依赖关系。

2、使用注意力增强模块，减轻传统注意机制中的噪声和模糊性，并显著提高跟踪性能。

3、使用多步动态更新策略，优化短时间内目标发生形变而导致跟踪器漂移的问题。

4、本方法主要应用于视觉单目标跟踪场景，在时空Transformer机制下对单目标进行跟踪的效果会更精确、更具有鲁棒性。

附图说明

图1为本发明目标跟踪方法的流程图；

图2为本发明自注意力增强模块工作流程图；

图3为本发明预测头模块工作流程图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

如图1所示，一种注意力增强的时空Transformer单目标跟踪方法，包括以下步骤：

（1）输入三幅图像，分别为源域模板图像、搜索图像与动态模板图像，搜索图像为模板图像的4倍大小，动态模板图像与模板图像一样大，并使用主干网络SwinTrans进行特征提取。

（1.1）如果当前帧为视频的第一帧，则目标的位置为已知的，即人为指定目标在第一帧中的位置，则为模板图像与动态模板图像；

（1.2）如果当前帧不是视频的第一帧，则以上一帧目标的位置为中心点，裁剪出图像块，其大小为目标大小的4倍。

（2）将主干网络提取的特征向量进行预处理得到融合序列以及定位向量序列，并输入到Transformer架构中的编码注意增强层计算得到特征增强序列。编码注意增强层捕获序列中所有元素之间的特征依赖关系，并用全局上下文信息强化原始特征，从而使模型能够学习用于对象定位的判别特征。解码层使用定位向量序列与编码层的输出作为输入，进一步进行特征序列融合计算。

（2.1）SwinTrans主干网络分为三层Trans以及一层多层感知神经网络MLP。首先将图像大小都调整为，并相继输入到Trans-1块，Trans-2块、Trans-3块中进行跨尺度特征融合得到/>大小的自适应融合纹理特征序列，然后再输入到MLP中。

（2.2）预处理：使用MLP瓶颈层将通道数从C降低到D，并将特征映射沿空间维度进行平面化和连接，从而产生一个长度为，维度为D的特征序列,其中HW为宽高，z为模板区域，x为搜索区域，s为通道层数；计算公式如下：

其中是Trans-2块、Trans-3块输出的特征维度序列分别为， />。

（2.2）将上述得到的序列作为编码注意增强层的输入，编码注意增强层由N层编码器组成，每层编码器由一个带有前馈网络的多头自注意增强模块组成.；

（2.3）多头自注意增强模块：该模块接受一个查询向量组和一对键值向量组作为输入，分别为。该模块是在传统注意力模块中引入另一个注意模块来提高相关映射M的质量。公式如下：

其中W为线性变换权重，Softmax为矩阵点积操作。而后再通过外注意模块进行计算，公式如下：

框架如图2所示。

（2.4）解码层将定位向量Query以及编码注意增强层计算出的特征增强序列作为输入，经过计算得到特征融合向量。解码器堆叠M个解码器层，每个解码器层由自注意、编码器-解码器注意和前馈网络组成。

（3）预测头模块采用三层感知器来预测目标外接框坐标。将编、解码层输出的序列重构，并输出到全卷积网络FCN中，继而通过计算角点概率分布的期望得到预测框坐标，如图3所示。

（3.1）首先从编码注意增强层的输出序列中提取搜索区域特征，然后计算搜索区域特征与解码层的输出特征融合向量之间的相似度；

（3.2）将相似度分数与搜索区域特征进行元素相乘得到一个新特征序列，将它重构为特征映射，并将其输入到FCN中；

（3.3）FCN将输出边界框的左上角和右下角输出两个概率图、。最后通过计算角点概率分布的期望得到预测框坐标/>，计算公式如下：

（3.4）本跟踪器是以端到端方式进行训练，并结合了Loss和广义IoU Loss损失函数计算公式如下：

；

（4）边界框预测头会根据（3.3）中得到的左上、右下两个坐标画出所需跟踪单个目标的矩形框。此时，若满足多步动态更新策略，则使用预测头输出的目标位置的图片去更新动态模板图像，并将原本的动态模板图像替换掉源域模板图像。若不满足，动态模板图像与源域模板图像不做更新，继续沿用上一帧图像。除了来自初始模板的空间信息外，多步动态模板还可以捕获目标外观随时间的变化，提供额外的时间信息线索。

（4.1）在预测头前添加分数预测判，如果得出相似度分数高于阈值，则启用多步动态更新策略，否则不启用。

（4.2）启用多步动态更新策略指使用本次预测图像替换掉动态模板图像，并使用动态模板组中相似度分数最高的图像替换源域模板图像，最后将此次的预测图像存入动态模板组。动态模板组设定保存最近三十帧的图像以及其相似度分数，用以保证图像中目标形变不会发生较大变化。

（4.3）进行动态模板图像的更新替换时，动态模板图像需要将预测图像进行裁剪，符合动态模板图像输入的需求。若未启用多步动态更新策略，则动态模板与源域模板图像均不发生改变。

为进一步验证本目标跟踪方法的效果，对本实施例的目标跟踪方法的准确率和成功率进行模拟，结果如表1所示。本实验训练集只使用GOT-10K单数据集进行500轮次训练，并在GOT-10K在线评估系统上进行了模型评估。并同样对Stark跟踪方法进行单数据集训练及评估，得到的结果与本方法进行比较。为了保持一致，本方法训练时未开启多步更新策略。其中AO 是平均重叠度，表示所有基本事实和估计边界框之间重叠的平均值。SR是测量重叠超过阈值(例如，0.5)的成功跟踪帧的百分比。从表1可以得出，本发明的平均重叠度、SR和速率均超过了Stark跟踪方法。

表1本发明实验结果统计表

Claims

1.一种注意力增强的时空Transformer视觉单目标跟踪方法，其特征在于，包括以下步骤：

S2：将主干网络SwinTrans提取的特征向量进行预处理得到融合序列以及定位向量序列，并输入到Transformer架构中的编码注意增强层，编码注意增强层捕获融合序列和定位向量序列中所有元素之间的特征依赖关系，并用全局上下文信息强化原始特征，利用跟踪器学习用于对象定位的判别特征，计算得到特征增强序列；在解码层以定位向量序列与特征增强序列作为输入，进一步进行特征序列融合计算；

S4：预测头模块根据预测框坐标得到所需跟踪单个目标的矩形框，若满足多步动态更新策略，则使用预测头输出的目标位置的图像去更新动态模板图像，并将动态模板图像替换源域模板图像；若不满足多步动态更新策略，则维持动态模板图像与源域模板图像，继续沿用上一帧图像；最终实现对视频序列中单目标的跟踪。

2.根据权利要求1所述的一种注意力增强的时空Transformer视觉单目标跟踪方法，其特征在于，步骤1具体为：

3.根据权利要求1所述的一种注意力增强的时空Transformer视觉单目标跟踪方法，其特征在于，步骤2具体为：

；

其中是Trans-2块、Trans-3块输出的特征维度序列分别为/>，；

；

4.根据权利要求1所述的一种注意力增强的时空Transformer视觉单目标跟踪方法，其特征在于，步骤3具体为：

S3.3：全卷积网络FCN将输出边界框的左上角和右下角输出两个概率图、；最后通过计算角点概率分布的期望得到预测框坐标，计算公式如下：

；

5.根据权利要求1所述的一种注意力增强的时空Transformer视觉单目标跟踪方法，其特征在于，步骤4具体为：

S4.2：启用多步动态更新策略指使用本次预测图像替换掉动态模板图像，并使用动态模板组中相似度分数最高的图像替换源域模板图像，最后将此次的预测图像存入动态模板组；动态模板组设定保存最近三十帧的图像以及其相似度分数，用以保证图像中目标形变不会发生较大变化；

S4.3：进行动态模板图像的更新替换时，动态模板图像需要将预测图像进行裁剪，符合动态模板图像输入的需求；若未启用多步动态更新策略，则动态模板与源域模板图像均不发生改变。

6.一种计算机存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-5中任一项所述的注意力增强的时空Transformer视觉单目标跟踪方法。

7.一种计算机设备，包括储存器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的注意力增强的时空Transformer视觉单目标跟踪方法。