CN116403006B

CN116403006B - 实时视觉目标跟踪方法、装置、及存储介质

Info

Publication number: CN116403006B
Application number: CN202310664980.4A
Authority: CN
Inventors: 祁燕; 吴洋
Original assignee: Nanjing Juntuo Information Technology Co ltd
Current assignee: Nanjing Juntuo Information Technology Co ltd
Priority date: 2023-06-07
Filing date: 2023-06-07
Publication date: 2023-08-29
Anticipated expiration: 2043-06-07
Also published as: CN116403006A

Abstract

本发明提供了一种实时视觉目标跟踪方法、装置、及存储介质，将探测范围广且捕获信息量丰富的可见光相机作为传感器，获取视野中指定的任意目标的信息。该方法能够在姿态变化、尺度变化、运动模糊等各种复杂场景下提取具有强辨别性的目标特征信息，快速定位目标的准确位置从而实现高鲁棒实时的跟踪效果。此外，该方法所涉及的跟踪框架实现对模板图像和搜索图像特征信息的有效提取和关系建模，使模板和搜索区域在特征提取阶段实现多层次和更全面的信息交互，利用模板的目标特征信息增强跟踪器的判别能力，降低非目标区域的噪声干扰，提高推理效率，进而构建具有高鲁棒性实时的跟踪模型，实现对指定的任意目标进行准确且稳定的跟踪。

Description

实时视觉目标跟踪方法、装置、及存储介质

技术领域

本发明涉及计算机视觉目标跟踪技术领域，尤其涉及一种实时视觉目标跟踪方法、装置、及存储介质。

背景技术

近年来，随着计算机视觉技术和深度学习技术的发展，目标跟踪技术在军用领域和民用领域都愈发重要，对于应用需求也在不断增加。目标跟踪技术在战场侦查、低空防御、交通监控以及国土安全等方面有着广泛的应用，在复杂多变的实际作战场景中，可以利用该技术实现对指定的任意目标进行准确稳定的跟踪。然而现实复杂环境中存在光照变化、运动模糊、目标遮挡、目标的非刚性形变以及背景中相似物体的噪声干扰等多种因素，给跟踪目标带来了巨大的挑战。

同时，在面对快速运动和运动模糊、目标外观变形、背景相似干扰、光照变化、平面内外旋转、尺度变化、遮挡和未在视野内等复杂情况，目前现有的目标跟踪方法大多数适合某种特定的单一场景，构建高鲁棒实时的跟踪目标的方法鲜有研究。为了满足战场侦查、导弹制导等现实复杂的应用场景下跟踪指定的任意目标的需求，必须准确定位目标位置从而实现鲁棒性高和实时性强的跟踪的效果。如何有效地构建具备高鲁棒性和实时性的目标跟踪方法，以实现精准且快速的目标跟踪是本发明重点关注的问题。

发明内容

发明目的：提出一种实时视觉目标跟踪方法、装置、及存储介质，以解决现有技术存在的上述问题。

第一方面，提出一种实时视觉目标跟踪方法，步骤如下：

S1、对视频图像当前帧进行目标检测，生成被检测目标的目标框；

S2、将带有目标框的当前帧裁剪为模板图像，除当前帧外的所有后续帧作为搜索图像；

S3、将所述模板图像和所述搜索图像分别经过分割、扁平化以及线性投影后，共同组成一系列图像tokens；

S4、将所述图像tokens共同输入至由若干个编码器层组成的主干中对模板与搜索区域，同时进行特征提取和关系建模；

S5、将经过特征提取和关系建模后的信息流输入至定位头，采用全卷积的角点定位头估算被检测目标的边界框，最终确定被检测目标最终的位置。

在第一方面进一步的实施例中，步骤S3进一步包括：

S3-1、分别对所述模板图像z和所述搜索图像x重塑形成扁平化的二维模板图像块、二维搜索图像块；

S3-2、将所述二维模板图像块和二维搜索图像块展平，利用可训练线性投影层将所述二维模板图像块和二维搜索图像块投影到D维空间中，分别形成模板区域 patch嵌入和搜索区域patch嵌入；

S3-3、将可学习的一维位置嵌入添加到模板区域patch嵌入中，将可学习的一维位置嵌入添加到搜索区域patch嵌入中，分别生成最终的模板token嵌入和搜索区域token嵌入。

在第一方面进一步的实施例中，步骤S4包括：将所述模板token嵌入和搜索区域 token嵌入连接到矢量，然后送入由若干个编码器层组成的主干中对模板与搜索区域同时进行特征提取和关系建模。

在第一方面进一步的实施例中，步骤S4进一步包括：

S4-1、经过模板token嵌入和搜索区域token嵌入连接后的矢量被送到主干的焦点自注意力层中；

S4-2、矢量在所述焦点自注意力层中被窗口池化和线性映射后并进一步转换为查询矩阵Q=、键矩阵K=和值矩阵V=，以计算模板token与搜索区域 token之间的注意力权重，进而获取每个搜索区域块与目标的相似程度；

S4-3、经过焦点自注意力层输出的tokens先送入提出的自适应强相似度注意力先验模块中，将弱注意力token进行融合以减少与目标无关的tokens的数量；

S4-4、焦点自注意力层中，计算得到注意力向量；

S4-5、通过使用注意力值作为标准来划分前m个为强注意力token，剩下的token将被作为弱注意力token重新进行融合，m属于超参数在训练时进行设置；

S4-6、根据相似度对token注意力值降序排序，前m相似度高于预定值的作为强注意力token，剩下的token作为弱注意力token进行融合操作；

S4-7、融合后的token与前m注意值高于预定值的搜索区域token和模板token一起送入前馈神经网络层；然后传递到由两个完全连接层和一个GELU激活层组成的前馈神经网络中，以获取序列中所有token之间的特征相关性，并利用全局上下文信息来增强搜索区域的原始特征；

S4-8、前馈神经网络输出的结果采用多层采样算子进行计算，降低空间维数，促进模板与搜索区域的通道间的依赖性建模。

在第一方面进一步的实施例中，采用多层采样算子进行计算的过程进一步包括：

根据在自适应强相似度注意力先验模块中记录和保存的token融合前后的映射关系，将融合后的特征赋值给对应的融合前的token；

多层采样算子从最后一层开始降采样token特征，将其与前一层的token特征相加，然后再与前一层相邻的前一层token特征相加，不断重复多轮，直到所有层的特征都汇集到第一层的token中时结束；

将经过多层采样算子的token转换为高质量的特征图输出，进入下个阶段的处理。

在第一方面进一步的实施例中，步骤S5进一步包括：

S5-1、将经过主干获得与目标相关的搜索区域tokens特征序列重新转换为二维空间特征图，然后将其输入到由角点预测器中，输出目标框的左上角和右下角的两个概率图；

S5-2、在离线训练期间，将随机选择视频序列中预定义帧范围内的一对图像作为模板和搜索区域；

S5-3、结合搜索图像获得的预测框和真实框b，构建整体损失函数对整个网络进行训练，整体损失函数如下：

；

式中，和作为实验中的损失权重，为广义损失函数，为损失函数。

第二方面，提出一种实时视觉目标跟踪装置，该视觉目标跟踪装置包括输入单元、主干部分、目标定位头三个组成部分。其中，输入单元用于将由模板图像和搜索图像共同形成的双向信息流输入至主干部分。主干部分用于接收来自所述输入单元的双向信息流，进行特征提取与关系建模。目标定位头用于接收经过特征提取和关系建模后的信息流，确定目标最终的位置。

在第二方面进一步的实施例中，所述输入单元对视频图像当前帧进行目标检测，生成被检测目标的目标框；将带有目标框的当前帧裁剪为模板图像，除当前帧外的所有后续帧作为搜索图像；将所述模板图像和所述搜索图像分别经过分割、扁平化以及线性投影后，共同组成一系列图像tokens；

所述主干部分包括焦点自注意力层，连接于所述焦点自注意力层之后的自适应强相似度注意力先验模块，以及连接于所述自适应强相似度注意力先验模块之后的前馈神经网络层。

在第二方面进一步的实施例中，经过焦点自注意力层输出的tokens先送入自适应强相似度注意力先验模块中，将弱注意力token进行融合以减少与目标无关的tokens的数量；接着传入所述前馈神经网络层以获取序列中所有token之间的特征相关性，并利用全局上下文信息来增强搜索区域的原始特征。

第三方面，提出一种存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令在电子设备上运行时，使得电子设备执行如第一方面所述视觉目标跟踪方法的操作。

有益效果：

（1）本发明提出了一种新的高鲁棒实时的视觉跟踪算法，构建了一种简单高效的联合特征提取和关系建模的统一框架，通过改进的Vision Transformer跟踪框架实现了对模板图像和搜索图像的特征提取和关系建模同步执行，能够动态提取对具有较强判别性的面向目标的特征，进一步实现了模板与搜索区域之间的信息交互，使整个框架具有强大的辨别能力与快速并行计算能力。

（2）本发明利用自注意力机制的特性，提出了一种自适应强相似度注意力先验模块ADSAP，当跟踪的目标在搜索区域占据较大面积时，ADSAP能够保留与目标相关的边缘部分的token信息，使模型更加准确预测目标的边界框，并降低了计算成本，提高了推理速度。

（3）在（2）的基础上，本发明为了进一步实现高质量的token聚合，提出了多层采样算子MSO，有效地降低了搜索区域的空间维数，减少了背景区域的噪声干扰，大大提高了推理效率，使构建的跟踪模型具备的鲁棒性和实时性更高，实现了对指定的任意目标进行准确且稳定的跟踪，在准确率和推理速度之间取得了很好的平衡。

附图说明

图1是一个实施例中实时视觉目标跟踪装置的架构图。

图2是实时视觉目标跟踪装置中焦点自注意力层的可视化示意图。

图3是实时视觉目标跟踪装置中自适应强相似度注意力先验模块示意图。

图4是多层采样算子示意图。

图5是一个实施例中实时视觉目标跟踪方法的流程图。

具体实施方式

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

申请人研究发现，在面对快速运动和运动模糊、目标外观变形、背景相似干扰、光照变化、平面内外旋转、尺度变化、遮挡和未在视野内等复杂情况，目前现有的目标跟踪方法大多数适合某种特定的单一场景，构建高鲁棒实时的跟踪目标的方法鲜有研究。为了满足战场侦查、导弹制导等现实复杂的应用场景下跟踪指定的任意目标的需求，必须准确定位目标位置从而实现鲁棒性高和实时性强的跟踪的效果。

为此，本实施例提出一种新的高鲁棒实时的视觉目标跟踪方法，将探测范围广且捕获信息量丰富的可见光相机作为传感器，获取视野中指定的任意目标的信息，该方法能够在姿态变化、尺度变化、运动模糊等各种复杂场景下提取具有强辨别性的目标特征信息，快速定位目标的准确位置从而实现高鲁棒实时的跟踪效果。

见图5，本实施例提出实时视觉目标跟踪方法的流程，主要步骤如下：

S1、对视频图像当前帧进行目标检测，生成被检测目标的目标框。

S2、将带有目标框的当前帧裁剪为模板图像，除当前帧外的所有后续帧作为搜索图像。

S3、将所述模板图像和所述搜索图像分别经过分割、扁平化以及线性投影后，共同组成一系列图像tokens。

S4、将所述图像tokens共同输入至由若干个编码器层组成的主干中对模板与搜索区域，同时进行特征提取和关系建模。

下面结合一种本发明的跟踪方法的总体跟踪框架对实时视觉目标跟踪方法的流程做出具体阐述。

如图1所示，整体由Vision Transformer主干和目标定位头两部分组成。使用模板图像和搜索图像作为双向信息流输入，输入到由Transformer改进后的主干，将焦点自注意力层引入基于Transformer的跟踪框架中，替换原始Transformer中的多头注意力层，同时在主干中设计了自适应强相似度注意力先验模块（Adaptive Strong SimilarityAttention Prior module，ADSAP，见图3）和多层采样算子（Multilayer SamplingOperator，MSO，见图4），同步实现对模板和搜索区域的特征提取与关系建模，并通过定位头来确定目标最终的位置。

下面分别从输入部分、主干部分、定位头三个方面展开阐述本技术方案。

输入部分：

该方法的输入是由模板图像和搜索图像被分割、扁平化以及线性投影后共同组成的一系列图像tokens。在一个视频序列中，将带有目标框的第一帧裁剪为模板图像，除第一帧外的所有后续帧将作为搜索图像,其中（）和）分别表示z和对应的分辨率，C=3为图像的通道数。在ViT中指出了标准 Transformer的输入应为一维token嵌入序列，因此需要对二维图像z和重塑为一系列扁平化的二维图像块和，其中为每个小块的分辨率。, 分别为模板和搜索区域生成的小块数量，为主干的有效输入序列长度。

然后将图像块展平，利用参数为的可训练线性投影层将和投影到D维空间中，投影后的结果通常被称为patch嵌入。最后将可学习的一维位置嵌入和添加到模板和搜索区域的patch嵌入中以保留序列内部各个位置之间的顺序信息，生成最终的模板token嵌入和搜索区域token嵌入。将token序列和连接得到矢量，然后被送入由几个Vision Transformer编码器层组成的主干中对模板与搜索区域同时进行特征提取和关系建模。

主干部分：

由于原始Vision Transformer编码器中的多头注意力层在对处理图像时需要较大的计算成本，本发明对主干进行改进，将多头注意力层替换为焦点自注意力层。如图2所示，借助焦点自注意力层本身具有高效捕获短期和长期视觉依赖关系的特点，能够通过图像块token化和焦点自注意力机制建立用于模板与搜索区域的全局与局部特征的交互学习，同时进行特征提取和关系建模，从而生成具有强大辨别能力和自适应性的搜索区域的特征。

经过模板token嵌入和搜索区域token嵌入连接后的被送到主干的焦点自注意力层(Focal Self-Attention, FSA)中。在FSA中被窗口池化和线性映射后并进一步转换为查询矩阵Q=、键矩阵K=和值矩阵V=，以计算模板token与搜索区域token之间的注意力权重进而获取每个搜索区域块与目标的相似程度。

经过焦点自注意力层FSA输出的tokens先送入提出的自适应强相似度注意力先验模块（Adaptive Strong Similarity Attention Prior module，ADSAP）中将弱注意力token进行融合以减少与目标无关的tokens的数量，提高推理速度，自适应强相似度注意力先验模块ADSAP具体实现如下：

自适应强相似度注意力先验模块ADSAP位于焦点自注意力层（Focal Self-Attention layer，FSA）和前馈神经网络层（Feed Forward Neural Network layer，FFN）之间，用于分层减少主干中注意力token数目从而降低计算量提高模型的推理速度。

焦点自注意力层中，计算得到注意力向量。然后通过使用注意力值作为标准来划分前m个为强注意力token，剩下的token将被作为弱注意力token重新进行融合，m属于超参数在训练时进行设置。

然后根据相似度对token注意力值降序排序，前m相似度较高的作为强注意力 token，剩下的token将被作为弱注意力token进行融合操作，融合后的token用表示，的计算：

其中M为经过焦点自注意力层输出的token的总长度。然后与前m注意值较高的搜索区域token和模板token一起送入前馈神经网络FFN层。通过多次迭代保留强注意力token、融合弱注意力token，降低计算量，提高推理速度，减少非目标区域对特征学习的干扰。

然后传递到由两个完全连接层和一个GELU激活层组成的前馈神经网络FFN中，以获取序列中所有token之间的特征相关性，并利用全局上下文信息来增强搜索区域的原始特征。在前馈神经网络第层的计算为：

其中和分别表示模板和搜索区域的第层对应的第个token，。

经过前馈神经网络FFN后紧接着会与本发明提出的多层采样算子进行计算，降低空间维数，促进模板与搜索区域的通道间的依赖性建模，多层采样算子具体实现如下：

本文提出的多层采样算子（Multilayer Sampling Operator，MSO）位于整个改进后的Transformer层的末端，用于处理前馈神经网络FFN输出的结果，进一步实现融合高质量的token聚合，降低搜索区域的空间维数，从而提高模板与搜索区域之间关系建模的可靠性。

为了在视觉任务中保留token的细节信息，通常会把token转换成不同分辨率的特征图，再对特征图进行融合。然而对特征图的分辨率的要求过于严格，特征图的分辨率越大，空间复杂度就越大，所需要的计算成本就越大；而特征图的分辨率越小，又会丢失细节信息。

在保证效率的前提下，本文设计了多层采样算子，如图5所示，根据在自适应强相似度注意力先验模块中记录和保存的token融合前后的映射关系，将融合后的特征赋值给对应的融合前的token，多层采样算子从最后一层开始降采样token特征，将其与前一层的token特征相加，然后再与前一层相邻的前一层token特征相加，不断重复多轮，直到所有层的特征都汇集到第一层的token中时结束。最后将经过多层采样算子的token转换为高质量的特征图输出，进入下个阶段的处理。

定位头：

采用全卷积的角点定位头来估计目标的边界框。首先将经过主干获得与目标相关的搜索区域tokens特征序列重新转换为二维空间特征图，然后将其输入到由角点预测器中，输出目标框的左上角和右下角的两个概率图。在离线训练期间，将随机选择视频序列中预定义帧范围内的一对图像作为模板和搜索区域。

结合搜索图像获得的预测框和真实框b，通过损失函数和广义损失函数对整个网络进行训练。整体损失函数：

其中，本发明将和作为实验中的损失权重，为广义损失函数，为损失函数。

综上，本发明提供一种新的高鲁棒实时的视觉目标跟踪方法，该方法所设计的跟踪框架实现对模板图像和搜索图像特征信息的有效提取和关系建模，使模板和搜索区域在特征提取阶段实现多层次和更全面的信息交互，利用模板的目标特征信息增强跟踪器的判别能力，降低非目标区域的噪声干扰，提高推理效率，进而构建具有高鲁棒性实时的跟踪模型，实现对指定的任意目标进行准确且稳定的跟踪。

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上做出各种变化。

Claims

1.一种实时视觉目标跟踪方法，其特征在于，包括如下步骤：

S3-1、分别对所述模板图像z和所述搜索图像x重塑形成扁平化的二维模板图像块、二维搜索图像块/>；

S3-2、将所述二维模板图像块和二维搜索图像块/>展平，利用可训练线性投影层将所述二维模板图像块/>和二维搜索图像块/>投影到D维空间中，分别形成模板区域patch嵌入和搜索区域patch嵌入；

S3-3、将可学习的一维位置嵌入添加到模板区域patch嵌入中，将可学习的一维位置嵌入/>添加到搜索区域patch嵌入中，分别生成最终的模板token嵌入/>和搜索区域token嵌入/>；

将所述模板token嵌入和搜索区域token嵌入/>连接到矢量/>，然后送入由若干个编码器层组成的主干中对模板与搜索区域同时进行特征提取和关系建模；

S4-1、经过模板token嵌入和搜索区域token嵌入/>连接后的矢量/>被送到主干的焦点自注意力层中；

S4-2、矢量在所述焦点自注意力层中被窗口池化和线性映射后并进一步转换为查询矩阵Q=/>、键矩阵K=/>和值矩阵V=/>，以计算模板token与搜索区域token之间的注意力权重，进而获取每个搜索区域块与目标的相似程度；

S4-3、经过焦点自注意力层输出的tokens先送入自适应强相似度注意力先验模块中，将弱注意力token进行融合以减少与目标无关的tokens的数量；自适应强相似度注意力先验模块位于焦点自注意力层和前馈神经网络层之间；

S4-4、焦点自注意力层中，计算得到注意力向量；

S4-6、根据相似度对token注意力值降序排序，前m相似度高于预定值的作为强注意力token，剩下的token作为弱注意力token进行融合操作；融合后的token用/>表示，/>的计算：

；

其中M为经过焦点自注意力层输出的token的总长度；

S4-7、融合后的token与前m注意值高于预定值的搜索区域token和模板token一起送入前馈神经网络层；然后传递到由两个完全连接层和一个GELU激活层组成的前馈神经网络中，以获取序列中所有token之间的特征相关性，并利用全局上下文信息来增强搜索区域的原始特征；在前馈神经网络第层的计算为：

；

其中和/>分别表示模板和搜索区域的第/>层对应的第/>个token，/>；

S4-8、前馈神经网络输出的结果采用多层采样算子进行计算，降低空间维数，促进模板与搜索区域的通道间的依赖性建模；

将经过多层采样算子的token转换为高质量的特征图输出，进入下个阶段的处理；

2.根据权利要求1所述的实时视觉目标跟踪方法，其特征在于，步骤S5进一步包括：

S5-1、将经过主干获得与目标相关的搜索区域tokens特征序列重新转换为二维空间特征图，然后将二维空间特征图输入到由角点预测器中，输出目标框的左上角和右下角的两个概率图；

；

式中，和/>作为实验中的损失权重，/>为广义/>损失函数，/>用于衡量模型预测的值与真实值之间的差距。

3.一种实时视觉目标跟踪装置，适用于如权利要求1-2任一项所述的实时视觉目标跟踪方法，其特征在于，包括：

输入单元，用于将由模板图像和搜索图像共同形成的双向信息流输入至主干部分；

主干部分，用于接收来自所述输入单元的双向信息流，进行特征提取与关系建模；

目标定位头，用于接收经过特征提取和关系建模后的信息流，确定目标最终的位置。

4.根据权利要求3所述的实时视觉目标跟踪装置，其特征在于：所述输入单元对视频图像当前帧进行目标检测，生成被检测目标的目标框；将带有目标框的当前帧裁剪为模板图像，除当前帧外的所有后续帧作为搜索图像；将所述模板图像和所述搜索图像分别经过分割、扁平化以及线性投影后，共同组成一系列图像tokens；

5.根据权利要求4所述的实时视觉目标跟踪装置，其特征在于：经过焦点自注意力层输出的tokens先送入自适应强相似度注意力先验模块中，将弱注意力token进行融合以减少与目标无关的tokens的数量；接着传入所述前馈神经网络层以获取序列中所有token之间的特征相关性，并利用全局上下文信息来增强搜索区域的原始特征。

6.一种存储介质，其特征在于，所述存储介质中存储有至少一可执行指令，所述可执行指令在电子设备上运行时，使得电子设备执行如权利要求1-2任一项所述的实时视觉目标跟踪方法的操作。