CN117011655A

CN117011655A - 基于自适应区域选择特征融合方法、目标跟踪方法及系统

Info

Publication number: CN117011655A
Application number: CN202310706424.9A
Authority: CN
Inventors: 马昕; 于江磊; 魏子重; 段强; 李锐; 姜凯
Original assignee: Shandong University; Shandong Inspur Science Research Institute Co Ltd
Current assignee: Shandong University; Shandong Inspur Science Research Institute Co Ltd
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-11-07

Abstract

本公开涉及目标跟踪技术领域，提出了基于自适应区域选择特征融合方法、目标跟踪方法及系统，针对模板特征和搜索特征分别设计了两组区域预测器，提取模板前景区域特征与搜索目标潜在区域特征，并提出了特征提取与自适应区域选择特征融合网络，在特征提取过程中将复杂的注意力机制限制在两组特征图的目标区域范围内，提升Transformer目标跟踪网络的跟踪效率，并且保持了优秀的跟踪性能。

Description

基于自适应区域选择特征融合方法、目标跟踪方法及系统

技术领域

本公开涉及目标跟踪相关技术领域，具体的说，是涉及一种基于自适应区域选择特征融合方法、目标跟踪方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，并不必然构成在先技术。

Transformer网络在计算机视觉任务中的初期应用主要以插入模块的形式进行辅助，与卷积神经网络相结合，用以补充图像特征的全局信息。然而，随着视觉Transformer架构的不断研究，越来越多的工作开始探索Transformer代替卷积神经网络成为计算机视觉任务通用骨干网络的可能性，并且展现了不错的效果，其在图像分类等基础任务中表现优异。在目标跟踪领域中也已经涌现出基于Transformer重新搭建骨干网络进行特征提取，在特征提取阶段引入模板特征和搜索特征之间的相关性计算，这种方法能够提取特定于相应的跟踪目标的特征图，捕获更多属于目标的判别性信息，因此取得了出色的跟踪效果。

发明人发现，在目标跟踪领域，采用Transformer进行特征提取过程中产生了多层次和多尺度的特征图，在多层特征图之间引入基于注意力机制的相关性计算时，注意力模块的计算开销较大，导致网络的参数量变大和运行速度变慢，大大降低了目标跟踪的实时性。

发明内容

本公开为了解决上述问题，提出了一种基于自适应区域选择特征融合方法、目标跟踪方法及系统，通过深度可分离卷积重新组合模板特征序列和搜索特征序列，针对不同特征设计了不同的注意力计算方式，并提取两组特征中目标对应特征子图，实现了精准的目标信息集成，实现了高效精准的目标跟踪。

为了实现上述目的，本公开采用如下技术方案：

一个或多个实施例提供了基于自适应区域选择特征融合方法，包括如下步骤：

获取待处理的模板特征图，采用自适应前景区域选择与池化方法，提取模板前景目标区域特征；

获取待处理的搜索特征图，采用搜索特征自适应目标潜在区域选择方法，得到搜索目标潜在区域特征；

针对模板前景目标区域特征和搜索目标潜在区域特征，对模板特征和搜索特征进行特征提取过程中，在模板特征图和搜索特征图的目标区域范围内进行双重注意力操作，得到融合后的特征。

一个或多个实施例提供了基于自适应区域选择特征融合系统，包括：模板特征前景区域预测器、搜索特征目标潜在区域预测器以及自适应区域选择特征融合模块；

模板特征前景区域预测器，被配置为获取待处理的模板特征图，采用自适应前景区域选择与池化方法，提取模板前景目标区域特征；

搜索特征目标潜在区域预测器，被配置为获取待处理的搜索特征图，采用搜索特征自适应目标潜在区域选择方法，得到搜索目标潜在区域特征；

自适应区域选择特征融合模块，被配置为针对模板前景目标区域特征和搜索目标潜在区域特征，对模板特征和搜索特征进行特征提取过程中，在模板特征图和搜索特征图的目标区域范围内进行双重注意力操作，得到融合后的特征。

一个或多个实施例提供了基于自适应区域选择特征融合的目标跟踪方法，采用多阶段架构级联网络进行逐级特征提取和特征融合，包括如下步骤：

在第一特征处理阶段，对获取模板图片和搜索图片进行卷积嵌入，采用无目标区域预测的特征融合，进行两组特征之间的融合；

在第一特征处理阶段之后的特征处理阶段，接收上一级特征处理阶段输出的融合特征，进行卷积嵌入后，采用上述的基于自适应区域选择特征融合方法，进行特征融合；

将最后一级特征处理阶段输出的融合特征进行全卷积操作，定位角点位置，得到目标跟踪的边界框。

一个或多个实施例提供了基于自适应区域选择特征融合的目标跟踪系统，构建自适应区域选择特征融合的Transformer目标跟踪网络，包括：

第一特征处理阶段网络，用于对获取模板图片和搜索图片进行卷积嵌入，采用无目标区域预测的特征融合，进行两组特征之间的融合；

高层特征处理阶段网络，用于接收上一级特征处理阶段网络输出的融合特征，进行卷积嵌入后，采用实施例1中所述的基于自适应区域选择特征融合方法，进行特征融合。

全卷积角点定位头部网络，用于将最后一级特征处理阶段输出的融合特征进行全卷积操作，定位角点位置，得到目标跟踪的边界框。

与现有技术相比，本公开的有益效果为：

本公开中，分别针对模板特征和搜索特征分别进行了目标区域预测，提取模板前景区域特征与搜索目标潜在区域特征，并提出了特征提取与自适应区域选择特征融合网络，在特征提取过程中将复杂的注意力机制限制在两组特征图的目标区域范围内，通过融合后的特征进行目标跟踪，能够提升目标跟踪网络的跟踪效率，并且保持了优秀的跟踪性能，尤其适用于提升Transformer目标跟踪网络的跟踪效率。

本公开的优点以及附加方面的优点将在下面的具体实施例中进行详细说明。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的限定。

图1是本公开实施例1的模板特征前景区域预测器的结构示意图；

图2是本公开实施例1的自适应池化比例效果比较图；

图3是本公开实施例1的搜索特征目标潜在区域预测器结构示意图；

图4是本公开实施例1的自适应区域选择特征融合模块(ARSFM)结构示意图；

图5是本公开实施例3的基于自适应区域选择特征融合的Transformer目标跟踪网络框架图；

图6是本公开实施例3的第一特征处理阶段网络中无区域自适应特征选择的特征融合模块结构图；

图7(a)本公开实施例4的ARSformer网络与现有跟踪算法在视频属性为低分辨率情况下的比较结果；

图7(b)本公开实施例4的ARSformer网络与现有跟踪算法在视频属性为不在视野中情况下的比较结果；

图7(c)本公开实施例4的ARSformer网络与现有跟踪算法在视频属性为运动模糊下的比较结果；

图7(d)本公开实施例4的ARSformer网络与现有跟踪算法在视频属性为快速运动情况下的比较结果；

图7(e)本公开实施例4的ARSformer网络与现有跟踪算法在视频属性为形变情况下的比较结果；

图7(f)本公开实施例4的ARSformer网络与现有跟踪算法在视频属性为光照变化情况下的比较结果；

图7(g)本公开实施例4的ARSformer网络与现有跟踪算法在视频属性为尺度变化情况下的比较结果；

图7(h)本公开实施例4的ARSformer网络与现有跟踪算法在视频属性为遮挡情况下的比较结果；

图8本公开实施例4的ARSformer网络注意力机制可视化结果。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是，在不冲突的情况下，本公开中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。

技术术语解释

Transformer：是一种用于处理序列数据的神经网络模型。它是在2017年由Vaswani等人在论文"Attention is All You Need"中提出的。Transformer的核心思想是使用注意力机制来计算序列中每个位置对其他位置的影响。传统的循环神经网络(如RNN或LSTM)通常会将序列中每个位置的输入与上一个位置的隐藏状态进行结合，Transformer可以直接考虑所有位置的输入。

实施例1

在一个或多个实施方式公开的技术方案中，如图1至图4所示，基于自适应区域选择特征融合方法，包括如下步骤：

步骤1、获取待处理的模板特征图，采用自适应前景区域选择与池化方法，提取模板前景目标区域特征；

步骤2、获取待处理的搜索特征图，采用搜索特征自适应目标潜在区域选择方法，得到搜索目标潜在区域特征；

步骤3、针对模板前景目标区域特征和搜索目标潜在区域特征，对模板特征和搜索特征进行特征提取过程中，在模板特征图和搜索特征图的目标区域范围内进行双重注意力操作，得到融合后的特征。

本实施例中，分别针对模板特征和搜索特征分别进行了目标区域预测，提取模板前景区域特征与搜索目标潜在区域特征，并提出了特征提取与自适应区域选择特征融合网络，在特征提取过程中将复杂的注意力机制限制在两组特征图的目标区域范围内，通过融合后的特征进行目标跟踪，能够提升目标跟踪网络的跟踪效率，并且保持了优秀的跟踪性能，尤其适用于提升Transformer目标跟踪网络的跟踪效率。

本实施例中，模板特征图是基于模板图像进行特征提取后的图像，搜索特征图是基于搜索图像进行特征提取后的图像；模板图像中是包含目标对象的图像，针对模板图像中的目标在搜索图像中识别是否有目标对象以及目标对象的位置。

可选的，步骤1中，模板特征自适应前景区域选择与池化，包括如下步骤：

步骤11、通过设置角点预测网络预测模板区域中的目标边界框的左上和右下两个角点，获得目标前景区域范围；

步骤12、通过预测边框的长宽比自适应调节池化比例，采用积分均值池化操作，提取设定数量和大小的前景区域模板特征。

其中，模板前景区域特征即为模板特征中属于模板区域目标范围的特征子图。

本实施例中，针对目标外观长宽比变化带来的池化不均衡问题，提出长宽比自适应池化方法，通过预测边框的长宽比调节池化比例，更好的提取目标区域特征。

在一些实施例中，可以通过构建的模板特征前景区域预测器，实现步骤1中的模板特征自适应前景区域选择与池化的方法，网络结构具体如图1所示，包括角点预测器以及池化模块；角点预测器包括全卷积网络conv、空间维度归一化模块以及角点坐标计算模块；

可选的，通过全卷积网络conv提取模板特征图的空间信息，通过设置的多层卷积层逐层降低特征图的维度，得到单通道一维模板特征图；

为了预测目标的左上和右下两个角点，实现全卷积网络conv对模板特征图提取空间信息，设计了两组5层卷积模块逐层降低特征图的维度，最终得到两张单通道一维模板特征图分别预测左上和右下两个角点。

空间维度归一化模块，用于对得到的一维特征图进行空间维度归一化，生成目标包围框角点热力图P(x,y)，归一化计算公式为：

角点坐标计算模块，通过计算热力图的概率分布期望值，预测角点坐标(corner_x,corner_y)，其计算公式表示为：

其中，H和W为特征图的宽和高，两张特征图分别得到一组角点坐标。该角点预测器是一个完全卷积的网络，结构简洁，没有任何后处理过程。

池化模块，用于根据预测角点得到的目标区域对模板特征进行池化提取。

可选的，可以根据模板区域大小和目标范围大小的关系，确定每层特征图池化得到的前景区域特征的数量。

例如，如果模板区域的范围是目标范围的四倍，每层特征图池化得到的前景区域特征的数量也是模板特征数量的四分之一。

本实施例中，采用积分均值池化方法对模板特征进行池化，该池化方法能够避免坐标的量化，在边界框上的坐标具有连续的梯度。

具体的，给定模板特征图，设w_i,j为特征图上一个离散位置(i,j)处的特征。通过双线性插值的方法，计算得出离散特征图F上任意连续坐标(x,y)处的特征值f(x,y)，其计算公式表示为：

其中，IC(x,y,i,j)＝max(0,1-|x-i|)×max(0,1-|y-i|)为双线性插值计算的系数。

预测得到的前景区域(Foreground Region)表示为FR＝{(x₁,y₁),(x₂,y₂)}，其中(x₁,y₁)和(x₂,y₂)分别为左上和右下的连续坐标点。通过计算二阶积分对特征F进行平均池化，积分均值池化的公式为：

感兴趣区域池化方法(简称为Rol Pooling方法)需要对连续坐标进行离散化并加权计算，容易导致量化误差，而本实施例中所采用的积分均值池化方法能根据前景区域的尺寸，直接计算连续特征映射的二阶积分，避免了量化误差。

进一步地，本实施例中提出了自适应目标长宽比的池化比例选择方法，自适应选择的方法为：预设多个池化比例，根据前景区域长宽比，选择与前景区域长宽比的比例最接近的池化比例。

具体的，预设的池化比例可以为三个，如1:1、1:4和4:1；分别包含了长宽相近，宽是长的倍数，长是宽的倍数。

当池化比例简单的设置为1:1，即输出特征图为正方形尺寸时，由于待跟踪目标的长宽比不定，有些目标较长或较宽，此时1:1池化的池化结果分布不均匀。如图2所示，鲨鱼的边界框较宽，当采取1:1池化比例时，采样点主要集中在中间密集区域，获取的目标前景区域特征分布不均匀，图2中黑色圆点为采样点，固定比例时采样点是四行四列点阵。本实施例根据模板特征图尺寸预设三种池化比例：1:1、1:4和4:1，通过预测得到的前景区域长宽比自适应选择对应的池化比例进行池化映射，如图2所示，当池化比例变为长宽比4:1时，采样点均匀分布，保证池化数量不变的同时得到更加均匀的池化映射特征。

在基于Transformer搭建目标跟踪特征提取与融合骨干网络时，在提取特征的同时引入模板特征和搜索特征之间的相关性计算能够获得更加关注待跟踪目标精细信息的特征图。然而，搜索区域由于需要尽可能包含目标下一帧可能移动到的范围，因此范围通常较大，导致搜索特征的尺寸也较大，而注意力机制的全局计算范式使得输入特征图尺寸过大会显著增加计算负担，降低运行速度。

为了降低注意力机制的计算开销，提升Transformer目标跟踪网络精度的同时保证网络的运行速度，本实施例提出搜索特征自适应目标潜在区域选择方法，具体的，可以通过构建搜索特征目标潜在区域预测器实现，结构示意图如图3所示。

可选的，步骤2中，搜索特征自适应目标潜在区域选择方法，包括如下步骤：

步骤21、通过全卷积网络对搜索特征图上目标可能存在的位置进行预测；

本步骤中的位置预测网络与步骤1中的角点预测器结构一致，通过构建全卷积网络压缩搜索特征维度，得到包含搜索特征空间信息的一维特征图，然后计算归一化特征图的概率分布期望，得到特征图上的最大响应位置作为预测目标可能位置。

步骤22、根据预测目标位置，对目标位置坐标取整，按照目标位置在搜索特征图的上的位置，自适应设定目标潜在范围，选择搜索特征子图。

本实施例中，将预测位置取整，并以预测的目标潜在位置为中心选取预设目标潜在范围大小的特征子图。

预测的目标潜在位置通常为连续值，并不是特征图上的离散点位置，对位置取整能够保证特征子图的完整性，避免特征映射过程的误差。

可选的，自适应设定目标潜在范围的方法为：当目标位置位于图片中心位置时，特征子图可以直接选取；当目标位置处于图片边缘处时，周围区域不满足预设目标潜在范围的大小，以目标靠近的图片边界为起点，按照预设范围大小选取目标潜在区域范围。

进一步的技术方案，采用搜索特征自适应目标潜在区域选择方法，提取搜索目标潜在区域，设置在多层级联特征提取网络的高层特征提取层。

具体的，在Transformer目标跟踪网络，特征提取过程中预测搜索区域上的目标位置时，级联网络的浅层网络预测误差较大，随着网络的不断深度融合，预测的目标位置越来越精准，在三层级联特征提取与融合网络中的第二层网络和第三层网络中，插入了两次搜索特征潜在目标位置预测过程，并结合不同深度网络的预测能力，分别设计了不同范围的特征子图选取尺寸，并以预测位置为中心进行选取。其中，第二层网络的范围较大，第三层网络的范围适当缩小。目标潜在范围的大小对最终目标跟踪精度的影响较大，可以通过针对潜在范围大小的设定值进行多次消融实验对比，最终达到精度和速度的平衡。

Transformer网络包括多层的提取特征层，本实施例中，在网络逐层提取特征的过程中预测搜索特征中目标的潜在范围，然后根据预测范围选取搜索特征子图，将搜索特征子图与模板特征进行相关性计算。在级联特征提取网络的不断加深下，预测目标潜在范围也不断缩小，搜索特征子图的尺寸也不断缩小。该方法在保持网络跟踪精度的同时显著降低注意力计算复杂度，提高了网络运行速度。

可选的，步骤3中，双重注意力操作为：针对模板前景目标区域特征和搜索目标潜在区域特征两组特征图，分别基于自我注意力进行自身目标信息关注的同时，将两组特征图的嵌入特征序列进行交叉注意力操作。

步骤3中，可以通过构建自适应区域选择特征融合模块(Adaptive RegionSelection Fusion Module,ARSFM)实现，ARSFM的输入为模板区域和搜索区域的映射嵌入特征序列，可以同时对它们进行不同维度的特征映射，并分别提取模板特征图和搜索特征图中不同的目标区域特征并融合它们之间的信息。

与现有基于注意力机制的目标跟踪特征融合网络相比，ARSFM通过模板区域中目标区域的范围和搜索区域中的目标潜在区域范围，提取两组特定区域的特征子图进行交叉注意力操作，将复杂的注意力计算集中在目标范围内，实现了精准的特征融合。

可选的，如图4所示，ARSFM包括依次连接的输入特征分组模块、卷积映射模块、特征池化及展平模块、拼接模块、注意力模块与线性映射模块；其中，模板特征前景区域预测器以及模板特征前景区域预测器连接特征展平及划分模块。模板特征前景区域预测器连接输入特征分组模块与特征池化及展平模块，搜索特征目标潜在区域预测器连接输入特征分组模块与特征池化及展平模块。

步骤3中针对模板前景目标区域特征和搜索目标潜在区域特征，在两组特征图的目标区域范围内进行双重注意力操作，得到融合后的特征，其中，特征融合的方法，即在ARSFM中实现融合，包括如下步骤：

步骤31、输入特征分组模块：用于将模板特征图和搜索特征图进行卷积嵌入，得到嵌入序列，将获取的嵌入序列特征重新分为两组特征，并重塑为2D特征图。

具体的，通过ARSFM首先将获取的序列特征重新分为两组特征，并将其重塑为2D特征图；

步骤32、卷积映射模块：为了引入对局部空间上下文信息的额外建模，在重塑后的每组2D特征图上在不同的维度空间进行深度可分离卷积，获得不同维度空间的特征映射矩阵；

具体的，不同维度空间分别对应于注意力机制的查询Q(query)，键K(key)和值V(value)；

针对key矩阵和value矩阵进行下采样，对键K(key)和值V(value)的进行降维，得到更新后的键K(key)矩阵和值V(value)矩阵，降低矩阵的维度可以减少计算量。

步骤33、特征池化及展平模块：将卷积映射模块得到的不同维度空间对应的查询Q(query)，键K(key)和值V(value)特征映射矩阵进行在模板前景目标区域特征子图以及搜索目标潜在区域特征子图的目标区域范围内，进行池化并展平；

在目标范围内进行池化选择，具体的，对于模板特征图，池化过程中，在模板特征前景区域预测器得到的模板前景目标区域特征子图范围内，将模板特征图对应的键K(key)特征映射矩阵和值V(value)特征映射矩阵，进行池化并选择，提取模板特征前景模板区域的键K(key)矩阵和值V(value)矩阵；

对于搜索特征图，在搜索特征目标潜在区域预测器得到的搜索目标潜在区域特征子图范围内，对搜索特征图对应的键K(key)特征映射矩阵和值V(value)特征映射矩阵进行选择，提取搜索特征目标潜在区域的键K(key)矩阵和值V(value)矩阵。

具体的，用q_t、k_t和v_t表示模板特征序列的投影，k_t-sub和v_t-sub表示模板目标区域特征子图的键值投影，q_s、k_s和v_s表示搜索特征序列的投影，k_s-sub和v_s-sub表示搜索区域目标潜在范围的特征子图键值投影。首先根据目标预测范围分别提取两组特征子图的键值投影，其计算公式表示为：

k_t-sub＝PrPool(TR,k_t)，v_t-sub＝PrPool(TR,v_t)

k_s-sub＝select(SR,k_s)，v_s-sub＝select(SR,v_s) (1.5)

其中，select(·)表示搜索特征目标潜在区域子图选取模块。

步骤34、拼接模块：对模板前景目标区域特征子图和搜索目标潜在区域特征子图的键值投影(即key键投影和value值投影)分别进行拼接。

拼接计算公式表示为：

k_m＝Concat(k_t-sub,k_s-sub)

v_m＝Concat(v_t-sub,v_s-sub) (1.6)

其中，Concat(·)为在通道维度对特征拼接。

步骤35、注意力模块：对模板特征图展平后的特征计算全部自我注意力；对搜索特征，计算模板前景目标区域特征子图和搜索目标潜在区域特征子图拼接后的特征与搜索特征展平后特征之间的交叉注意力；

步骤36、线性映射模块：通过线性投影将模板注意力结果和搜索注意力结果进行残差连接，得到最终融合后的特征，即为输出特征序列。

注意力计算公式表示为：

其中，d为value矩阵的维度，Attention_t为模板特征注意力图，Attention_s为搜索特征的注意力图。

本实施例中，对模板特征计算全部自我注意力，目的在于提取模板特征的空间信息，更好的提取目标前景区域范围，且保证模板信息不受跟踪过程中搜索特征信息的干扰。而对搜索特征，采取计算两组特征子图与搜索特征之间的交叉注意力，更加精准的集成目标信息。

通过线性投影将模板注意力结果和搜索注意力结果进行残差连接。

本实施例中，提出的区域特征融合方法通过深度可分离卷积重新组合模板特征序列和搜索特征序列，针对不同特征设计了不同的注意力计算方式，并提取两组特征中目标对应特征子图，实现了精准的目标信息集成。

实施例2

基于实施例1，本实施例中提供基于自适应区域选择特征融合系统，包括：模板特征前景区域预测器、搜索特征目标潜在区域预测器以及自适应区域选择特征融合模块；

可选的，模板特征前景区域预测器，网络结构具体如图1所示，包括角点预测器以及池化模块；角点预测器包括全卷积网络conv、空间维度归一化模块以及角点坐标计算模块；

全卷积网络conv，用于提取模板特征图的空间信息，通过设置的多层卷积层逐层降低特征图的维度，得到单通道一维模板特征图；

空间维度归一化模块，用于对得到的一维特征图进行空间维度归一化，生成目标包围框角点热力图；

角点坐标计算模块，通过计算热力图的概率分布期望值，预测角点坐标；

可选的，搜索特征目标潜在区域预测器，结构示意图如图4所示，包括位置预测网络以及自适应目标设定模块；

位置预测网络，用于通过全卷积网络对搜索特征图上目标可能存在的位置进行预测；

自适应目标设定模块，用于根据预测目标位置，对目标位置坐标取整，按照目标位置在搜索特征图的上的位置，自适应设定目标潜在范围，选择搜索特征子图。

可选的，自适应区域选择特征融合模块，包括依次连接的输入特征分组模块、卷积映射模块、特征池化及展平模块、拼接模块、注意力模块与线性映射模块；其中，模板特征前景区域预测器以及模板特征前景区域预测器连接特征展平及划分模块。模板特征前景区域预测器连接输入特征分组模块与特征池化及展平模块，搜索特征目标潜在区域预测器连接输入特征分组模块与特征池化及展平模块。

此处需要说明的是，本实施例中的各个模块与实施例1中的各个步骤或模块一一对应，其具体实施过程相同，此处不再累述。

实施例3

基于实施例1，本实施例中提供基于自适应区域选择特征融合的目标跟踪方法，如图5所示，构建基于自适应区域选择特征融合的Transformer目标跟踪网络框架，采用多阶段架构级联网络进行逐级特征提取和特征融合，包括如下步骤：

步骤1、在第一特征处理阶段，对获取模板图片和搜索图片进行卷积嵌入，采用无目标区域预测的特征融合，进行两组特征之间的融合；

级联网络的第一层由于是网络的第一次信息集成，两组特征中目标表示信息较少，因此采用无区域选择的特征融合模块进行两组特征之间的信息交互，该模块如图6所示，与自适应区域特征融合模块相比去掉了目标区域预测模块，两组特征直接进行融合。

在级联网络的开始，给定模板图片(大小为H_t×W_t×3)和搜索图片(大小为H_s×W_s×3)，步长为4、卷积核大小为7的卷积嵌入模块将两组图片分别映射为重叠的图像嵌入图f_t∈H_t/4×W_t/4×C和f_s∈H_s/4×W_s/4×C，C在本实施例中为64。然后图像嵌入图经过空间维度展开和在通道维度上拼接后，组成一个大小为(H_t/4×W_t/4+H_s/4×W_s/4)×C的融合特征序列，进入基于注意力机制的特征融合网络进行目标信息集合。

步骤2、在第一特征处理阶段之后的特征处理阶段，接收上一级特征处理阶段输出的融合特征，进行卷积嵌入后，采用实施例1中所述的基于自适应区域选择特征融合方法，进行特征融合。

步骤3、将最后一级特征处理阶段输出的融合特征进行全卷积操作，定位角点位置，得到目标跟踪的边界框。

本实施例中，如图5所示，采用三阶段处理网络，在级联网络的第二层和第三层中采用自适应区域特征融合模块进行融合，融合前采用步长为2的卷积嵌入层，使得网络的不断加深的过程中特征图的空间尺寸也不断减少，特征图的深度增加，其中第二层的特征图维度为3C，第三层为6C。最后得到了大小为(H_t/16×W_t/16+H_s/16×W_s/16)×6C的搜索特征图。进入全卷积角点预测网络进行目标跟踪框的回归。

步骤3中，可以通过构建全卷积角点定位头部网络对特征提取与自适应区域选择融合网络的最终输出搜索特征图进行跟踪目标边界框回归。

全卷积角点定位头部网络与模板特征前景区域预测器的结构基本一致，通过五层卷积网络层处理模板特征图得到概率映射图，然后计算两个角点的概率分布上的期望得到预测角点位置，得到边界框。该头部网络是一个完全卷积的头部网络。

实施例4

基于实施例1和实施例3，本实施例提供基于自适应区域选择特征融合的目标跟踪系统，即为于自适应区域选择特征融合的Transformer目标跟踪网络(ARSformer网络)，如图5所示，包括：

ARSformer网络框架如图5所示。ARSFormer能够逐步提取模板区域和搜索区域的特征，并对两者之间的信息进行自适应区域选择的深度集成。

本实施例基于目前流行的基于Transformer骨干网络的跟踪器的框架，该跟踪器通过自适应区域预测模块，选取合适的模板区域特征和搜索区域特征进行融合，且无需任何后处理模块，形成了更加紧凑且精准的跟踪框架。

具体的，高层特征处理阶段网络设置有两层，与第一特征处理阶段网络构成三级的级联网络，包括stage1、stage2和stage3，每个阶段网络包括特征提取模块和N层区域选择融合模块组合而成，其中图5中的N1设置为1，N2和N3分别为4和16。各阶段的体系结构大致相同，但是每个阶段的区域选择融合模块的层数不同。

ARSFormer的训练过程与Transformer跟踪器的标准训练方法相同，损失函数主要由三个回归任务组成：模板特征前景区域预测任务、搜索特征目标潜在范围区域预测任务和搜索特征目标边界框预测任务。本实施例采用采用l₁范数损失函数L₁(.,.)和广义IoU损失函数L_GIoU(.,.)的线性组合组成ARSFormer训练的损失函数，其计算公式表示为：

其中，b_t为预测的模板区域目标边界框，为真实的模板区域目标边界框，b_s为预测的搜索区域目标边界框，/>为真实的搜索区域目标边界框，c_s为预测的搜素区域目标中心点坐标值，/>为真实的搜索区域目标中心点坐标值，λ₁和λ_G为两部分损失线性组合的权值，分别设置为5和2。

下面通过实验对ARSformer的有效性进行验证与分析。首先针对ARSformer的各个模块进行消融实验分析，然后在四个短时测试集(GOT-10K、TrackingNet、OTB100和UAV123)和一个长时测试集(LaSOT)上与现有先进算法性能进行对比，验证ARSformer的先进性能。

1.1实验设置

ARSformer使用1.7.1版本的Pytorch工具箱和3.6版本的Python实现的，并在单张Geforce RTX 3090GPU上训练。

(1)模型

ARSformer的特征提取与自适应区域选择特征融合网络采用ImageNet数据集预选的21层Cvt网络进行初始化，其他网络参数是采用Xavier初始化方法进行初始化。特征提取与自适应区域选择特征融合网络由三个阶段组成，每阶段自适应区域选择特征融合层的层数依次设置为1、4和16。整个网络的Dropout值设置为0.1。在搜索特征自适应目标潜在区域选择模块中，级联网络中第二个阶段的区域范围设置为32×32，第三个阶段的区域范围设置为12×12。

(2)训练阶段

训练数据集包括LaSOT、GOT-10K、COCO2017和TrackingNet四个数据集，而在GOT-10k数据集上测试时所使用的模型只在GOT-10k训练集上进行训练得到。ARSformer的整个训练过程包括500个轮次，优化器使用AdamW，在训练400个轮次后衰减10％。骨干网络参数的初始学习率为1e-5，其他参数为1e-4。模板图像和搜索图像的尺寸分别为320×320像素和128×128像素。在单张Geforce RTX 3090GPU上训练时批处理大小设置为32，训练数据采取水平翻转和亮度抖动的数据增强方式。

(3)测试阶段

在测试阶段中，ARSformer的输入为第一张图片确定的模板图片和当前跟踪图片确定的搜索图片。搜索图片范围根据上一帧跟踪结果选取。

1.2消融对比实验结果分析。

为了验证所提出的ARSformer网络的有效性，进行详细的消融实验验证并分析各个模块的作用，验证的数据集为长时间跟踪数据集LaSOT。

(1)统一特征提取与特征融合网络框架。

ARSformer基于Transformer统一了特征提取与特征融合的框架，将信息集成的过程加入了特征提取的过程。Cvt为预训练特征提取网络，Ex为特征提取的简写，Fu为特征融合的简写，本文所提算法的框架是集成了特征提取与特征融合为一个整体的框架，网络中特征提取与特征融合交替进行。

为了体现统一特征提取与特征融合网络的有效性，设计了三组网络架构，分别为Cvt特征提取网络加交叉注意力机制特征融合网络(Cvt+Cross-Attention,Cvt+CA)、Cvt特征提取网络加实施例1步骤3所提出的特征融合方法(Cvt+Fusion,Cvt+Fu)，本公开提出的统一特征提取与特征融合网络(Features Extraction+Features Fusion,Ex+Fu)。三组网络都采用全部模板特征与搜索特征进行信息交互。结果如表1所示，表中报告了不同组合网络的参数量(Params)，计算量(FLOPs)和精度(AUC)。结果表明，统一特征提取与融合网络在LaSOT数据集上取得了67.6％的精度，分别超过另外两组网络7.1％和1.4％，且参数量和计算量更低。这说明了统一特征提取与特征融合的有效性，本文所提出的统一特征提取与特征融合的骨干网络能够提取更加关注目标信息的特征，从而获得更优的跟踪效果。

表1

(2)搜索特征目标潜在区域预测器的目标区域尺寸。

在搜索特征自适应目标潜在区域选择模块中，预定义潜在区域范围的尺寸同样对跟踪效果有较大影响。原始搜索特征图在第二阶段和第三阶段的尺寸分别为40×40和20×20，而预测的目标潜在区域范围尺寸越大，跟踪精度越好，但是网络速度变慢；范围越小时，网络计算量下降，速度提升，但是跟踪精度有所下降。为了选择一个平衡精度与速度的目标潜在区域范围，本节设计了三组不同的目标潜在区域范围组合，第二阶段和第三阶段的预测目标潜在区域范围尺寸分别为：36×36和16×16、32×32和12×12以及28×28和10×10，并与全部搜索特征参与特征融合的网络进行对比。

最终跟踪结果如表2所示，表中报告了不同目标潜在区域范围组合对应的网络参数量、计算量、网络运行速度和跟踪精度，其中速度为在GTX 1080Ti设备上的运行速度。结果表明，当加入搜索特征目标潜在区域预测器后，网络的参数量有所上升，但是参与融合过程的搜索特征范围的缩小使得网络的计算量显著下降，而速度也大幅提升，当然跟踪精度有所下降，与全部搜索特征相比，选取目标潜在区域范围为36×36和16×16的网络精度下降0.8％，而32×32和12×12下降1.9％，28×28和10×10网络下降最多，为5.4％。因此，最终选取的目标潜在区域范围尺寸为32×32和12×12，该尺寸基本能够保持跟踪精度的同时显著降低网络的计算量。

表2LaSOT数据集上的不同目标潜在区域范围组合的结果

(3)模板特征前景区域预测器：模板特征自适应前景区域选择与池化。

针对模板特征自适应前景区域选择与池化进行消融实验分析。为了验证所提模板特征自适应前景区域选择与池化模块的优越性，本节设计了三组不同的网络，区别在于特征提取与特征融合网络中参与融合的模板特征分别为全部模板特征(Full TemplateFeatures,Full-TF)、无长宽比自适应池化的模板前景区域特征(Template Featurescorresponding to Foreground Region based on Adaptive Pooling,TFFR-Adapool)和长宽比自适应池化的模板前景区域特征(Template Features corresponding toForeground Region based on Adaptive Pooling with Aspect Ratio,TFFR-Adapool-AR)。参与融合的搜素特征的范围为32×32和12×12。三组网络的参数量、计算量、速度和跟踪精度如表3所示。当加入模板特征自适应前景区域选择与池化模块后，网络的参数量同样有所增加，但是计算量并没有增加很多，这是因为参与特征融合网络的模板特征数量减少，注意力机制的开销也降低了。而经过该模块提取前景区域特征进行融合时，无长宽比自适应的网络的跟踪精度提升了0.9％，而加入长宽比自适应池化的网络精度提升了0.4％，这验证了前景区域特征对网络跟踪精度提升的有效性，也验证了所提长宽比自适应模板前景区域特征池化能提取分布更加均匀的模板前景区域特征，充分包含模板目标信息。

表3LaSOT数据集上的不同模板特征参与融合的网络结果

1.3、在不同数据集上的实验结果

为了验证ARSformer的先进性能，本节与主流的多种目标跟踪算法在五个个大型目标跟踪公开数据集上进行实验结果比较。

(1)TrackingNet数据集

ARSformer在TrackingNet测试集上的表现如表4所示，其中“-”表示原始论文中未给出相关结果。结果表明，ARSformer跟踪成功率、归一化跟踪精度和精度分别达到了83.2％、87.9％和81.9％，均超过了SwinTrack-B达到了现有最优水平，且优于其他基于Transformer跟踪算法。该大规模数据集上的优秀测试结果体现了ARSformer具有强大的跟踪性能。

表4在TrackingNet数据集上ARSformer与最优跟踪器的比较结果

其中，SwinTrack-B为：2022年NIPS会议论文提出的移位窗口Transformer跟踪网络；STARK为：2021年CVPR会议论文提出的时空Transformer网络；DTT为2021年ICCV会议论文提出的基于Transformer的判别式跟踪网络；TREG为2021年CoRR会议论文提出的目标转换回归网络；DualTFR为2021年ICCV会议论文提出的双流Transformer网络；TransT为2021年CVPR会议论文提出的Transformer跟踪网络；TrDIMP和TrSiam为2021年CVPR会议论文提出的基于Transformer的相关滤波网络和孪生跟踪网络；AutoMatch为2021年ICCV会议论文提出的自动匹配跟踪网络；STMtracker为2021年CVPR会议论文提出的基于时空记忆网络的无模板跟踪网络；SiamR-CNN为2020年CVPR会议论文提出的基于重检测的跟踪网络；KYS为2020年ECCV会议论文提出的基于环境信息的目标跟踪网络；PrDiMP为2020年CVPR提出的基于概率回归的目标跟踪网络；SiamAtnn为2020年CVPR会议论文提出的可变形连体注意力网络；SiamRPN++为2019年CVPR会议论文提出的改进的基于感兴趣区域预测网络的跟踪网络；SiamFC为2016年ECCV会议论文提出的全卷积孪生神经网络。

(2)GOT-10k数据集

在GOT-10k数据集上进行测试的ARSformer模型。将ARSformer在测试集上的结果提交至官方网站进行验证，结果表明，ARSformer的跟踪框平均重合度达到70.2％，超过了现有最优跟踪器SBT-base 0.3％，达到了最先进的性能。而且ARSformer在阈值为0.75时的跟踪准确度达到了67.2％，大幅度优于其他目标跟踪算法，这说明了ARSformer的跟踪框非常精准，体现了本文提出的自适应区域选择特征融合网络仍然保持了特征的深层次信息交互。

(3)UAV123数据集

该数据集为无人机在高空情况下拍摄的地面场景，视角变化较大，对跟踪器提出了新的挑战。ARSformer与现有最优跟踪器在UAV123数据集上的AUC精度对比结果标明，ARSformer取得了现有最优水平，成功率突破70％，且精度达到了91.5％。

(4)OTB100数据集

ARSformer在OTB100数据集上与现有跟踪器的跟踪成功率对比结果表明，ARSformer的跟踪成功率达到了69.8％，达到了目前先进目标跟踪算法的水平。此外，为了进一步分析ARSformer在不同场景下的性能表现，在OTB100数据集上的8个视频属性下分别进行了对比实验，成功率曲线图如图7(a)至图7(h)所示，测试的8个视频属性分别为低分辨率(low resolution)、不在视野中(out of view)、运动模糊(motion blur)、快速运动(fast motion)、形变(deformation)、光照变化(illumination variation)、尺度变化(scale variation)和遮挡(occlusion)。该结果显示ARSformer在多种困难场景下都保持了较好的鲁棒性，在运动造成的目标模糊时ARSformer的表现良好，这体现了特征提取与自适应区域选择特征融合网络对目标外观优秀的判别能力。

1.4跟踪效果可视化

为了观察提出特征提取与自适应区域选择特征融合网络中不同层之间注意力机制的关注信息，在GOT-10k测试集上选择了两个视频序列进行注意力权值可视化，可视化结果如图8所示。图中可视化了两组GOT-10k测试集视频序列的第40帧的模板-搜索交叉注意力和搜索区域自注意力的权重，其中模板-搜索交叉注意力的key和value为模板图片，query为搜索图片；而搜索区域自注意力的query,key和value均为搜索图片。S2-B0表示第二阶段(Stage 2)的第0层(Block 0)自适应特征融合层的注意力可视化结果，图8从下到上依次显示网络加深过程中注意力机制效果。具体选择了第0、2、4、6、8、10、12、14和15层的注意力进行可视化。可以看到，模板-搜索交叉注意力在网络的不断加深中逐渐消除背景，并最终在第14、15层完成目标前景位置的确定，而搜索区域自注意力则随着网络的不断加深逐渐关注目标的边界信息，更有利于后续定位头部网络对目标边界框的回归。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.基于自适应区域选择特征融合方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于自适应区域选择特征融合方法，其特征在于，模板特征自适应前景区域选择与池化，包括如下步骤：

通过设置角点预测网络预测模板区域中的目标边界框的左上和右下两个角点，获得目标前景区域范围；

通过预测边框的长宽比自适应调节池化比例，采用积分均值池化操作，提取设定数量和大小的前景区域模板特征。

3.如权利要求2所述的基于自适应区域选择特征融合方法，其特征在于：实现模板特征自适应前景区域选择与池化的方法，具体包括如下步骤：

通过全卷积网络conv提取模板特征图的空间信息，通过设置的多层卷积层逐层降低特征图的维度，得到单通道一维模板特征图；

对得到的一维特征图进行空间维度归一化，生成目标包围框角点热力图；

通过计算热力图的概率分布期望值，预测角点坐标；

根据预测角点得到的目标区域对模板特征，采用积分均值池化操作进行池化提取；

或者，自适应目标长宽比的池化比例选择方法：预设多个池化比例，根据前景区域长宽比，选择与前景区域长宽比的比例最接近的池化比例。

4.如权利要求1所述的基于自适应区域选择特征融合方法，其特征在于：搜索特征自适应目标潜在区域选择方法，包括如下步骤：

通过全卷积网络对搜索特征图上目标可能存在的位置进行预测；

根据预测目标位置，对目标位置坐标取整，按照目标位置在搜索特征图的上的位置，自适应设定目标潜在范围，选择搜索特征子图。

5.如权利要求1所述的基于自适应区域选择特征融合方法，其特征在于，双重注意力操作为：针对模板前景目标区域特征和搜索目标潜在区域特征两组特征图，分别基于自我注意力进行自身目标信息关注的同时，将两组特征图的嵌入特征序列进行交叉注意力操作。

6.如权利要求1所述的基于自适应区域选择特征融合方法，其特征在于，针对模板前景目标区域特征和搜索目标潜在区域特征，在两组特征图的目标区域范围内进行双重注意力操作，得到融合后的特征，其中，特征融合的方法步骤如下：

获取将模板特征图和搜索特征图进行卷积嵌入提取特征后的嵌入序列，将获取的序列特征重新分为两组特征，并重塑为2D特征图；

在重塑后的每组2D特征图上在不同的维度空间进行深度可分离卷积，获得不同维度空间的特征映射矩阵：query矩阵、key矩阵和value矩阵，其中针对key矩阵和value矩阵进行下采样；

将卷积映射模块得到的不同维度空间对应的查询query矩阵、key矩阵和value矩阵，在模板前景目标区域特征子图以及搜索目标潜在区域特征子图的目标区域范围内，进行池化并展平；

对模板前景目标区域特征子图和搜索目标潜在区域特征子图的键值投影分别进行拼接；

对模板特征图展平后的特征计算全部自我注意力；对搜索特征，计算模板前景目标区域特征子图和搜索目标潜在区域特征子图拼接后的特征与搜索特征展平后特征之间的交叉注意力；

通过线性投影将模板注意力结果和搜索注意力结果进行残差连接，得到最终融合后的特征。

7.基于自适应区域选择特征融合系统，其特征在于，包括：模板特征前景区域预测器、搜索特征目标潜在区域预测器以及自适应区域选择特征融合模块；

8.基于自适应区域选择特征融合的目标跟踪方法，采用多阶段架构级联网络进行逐级特征提取和特征融合，其特征在于，包括如下步骤：

在第一特征处理阶段之后的特征处理阶段，接收上一级特征处理阶段输出的融合特征，进行卷积嵌入后，采用权利要求1-6任一项所述的基于自适应区域选择特征融合方法，进行特征融合；

9.基于自适应区域选择特征融合的目标跟踪系统，其特征在于，构建自适应区域选择特征融合的Transformer目标跟踪网络，包括：

高层特征处理阶段网络，用于接收上一级特征处理阶段网络输出的融合特征，进行卷积嵌入后，采用权利要求1-6任一项所述的基于自适应区域选择特征融合方法，进行特征融合；

10.如权利要求9所述的基于自适应区域选择特征融合的目标跟踪系统，其特征在于，对自适应区域选择特征融合的Transformer目标跟踪网络训练的损失函数采用采用l₁范数损失函数和广义IoU损失函数的线性组合。