CN117274883B

CN117274883B - 基于多头注意力优化特征融合网络的目标跟踪方法与系统

Info

Publication number: CN117274883B
Application number: CN202311543165.9A
Authority: CN
Inventors: 王员云; 谷庚; 赖昌旺; 邓承志; 王军
Original assignee: Nanchang Institute of Technology
Current assignee: Nanchang Institute of Technology
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2024-01-26
Anticipated expiration: 2043-11-20
Also published as: CN117274883A

Abstract

本发明提出一种基于多头注意力优化特征融合网络的目标跟踪方法与系统，该方法包括:在孪生网络框架下构建特征提取网络和特征融合网络模型并进行训练，利用特征提取网络分别对模板图像和搜索图像进行特征提取，得到模板图像特征和搜索区域特征，采用缩小模板图像特征在空间维度上尺度的方式进行多头自注意力计算，得到编码后模板特征，采用搜索区域特征降维的方式进行多头自注意力计算，得到局部特征增强的搜索区域特征，再将二者进行特征融合，将融合结果送入分类分支和回归分支上获取目标在搜索区域的最大响应位置以进行目标跟踪。本发明利用高效自注意力和高效空间约简注意力构建了特征融合网络，有效地提高了目标跟踪的准确性和鲁棒性。

Description

基于多头注意力优化特征融合网络的目标跟踪方法与系统

技术领域

本发明涉及计算机视觉与图像处理技术领域，特别涉及一种基于多头注意力优化特征融合网络的目标跟踪方法与系统。

背景技术

目标跟踪是计算机视觉领域中的主要研究方向之一，在给定视频序列中目标的初始状态后，在后续视频帧中利用边界框标定目标的位置，实现对目标的持续定位以及状态估计。目前，目标跟踪被广泛应用于公共安防、自动驾驶、智能机器人、人机智能交互、医学诊断等领域。

在真实场景的目标跟踪中，目标受到各种挑战因素的影响，主要表现为跟踪目标为非特定物体，目标跟踪器无法预先对跟踪目标进行预先训练或建模。而且，在跟踪过程中目标会发生各种变化、并受到周围环境的干扰，如目标消失、外观变化、背景干扰、快速移动等。这些因素对跟踪算法提出了很大的挑战。

近年来，基于Transformer的跟踪器取得了令人鼓舞的跟踪性能。Transformer可用于对各种基本视觉元素(包括像素-像素、对象-像素和对象-对象)之间的关系进行建模。卷积是一种局部运算，一个卷积层通常只对相邻像素之间的关系进行建模。Transformer是一个全局操作，Transformer层可以对所有像素之间的关系进行建模，并且两者可以很好地互补。卷积可以看作是一种模板匹配，使用相同的模板来过滤图像中的不同位置。Transformer中的注意单元是一个自适应滤波器，该自适应计算模块具有较强的建模能力。与CNN相比，Transformer在一些视觉任务上更具竞争力，表现出更好的性能。

然而，基于变压器的跟踪器的跟踪精度和速度可以进一步提高。在特征融合阶段，特征融合网络将特征映射分割成多个图像块作为其输入，并对其进行直接处理。一方面，不可避免地要处理大量的背景特征。另一方面，它可能会影响多头注意力的计算效率，导致计算成本和内存成本随着通道数量的增加呈二次增长。

如何能够在不丢失局部信息的情况下过滤掉大量背景信息，并有效降低计算量，成为提升Transformer跟踪器的关键因素。

发明内容

鉴于上述状况，本发明的主要目的是为了提出一种基于多头注意力优化特征融合网络的目标跟踪方法与系统，以解决上述技术问题。

本发明提出了一种基于多头注意力优化特征融合网络的目标跟踪方法，所述方法包括如下步骤：

步骤1、在孪生网络框架下，基于ResNet骨干网络构建特征提取网络，基于高效多头自注意力构建Transformer编码器，基于高效多头空间简约自注意力构建Transformer解码器，Transformer编码器和Transformer解码器构成特征融合网络模型；

步骤2、利用大规模数据集，对特征融合网络模型进行预训练，并在训练过程中调整特征融合网络模型中的参数，以得到训练后的特征融合网络模型；

步骤3、初始化第一帧的模板图像以及后续搜索帧的搜索图像，利用特征提取网络分别对模板图像和搜索图像进行特征提取，得到模板图像特征和搜索区域特征；

步骤4、将模板图像特征输入Transformer编码器中，采用缩小模板图像特征在空间维度上尺度的方式进行多头自注意力计算，以对模板特征图中的特征进行学习，得到包含更少背景信息且特征表示能力更强的编码后模板特征；

将搜索区域特征输入Transformer解码器中，采用搜索区域特征降维的方式进行多头自注意力计算，以对搜索区域特征图中的特征进行学习，得到局部特征增强的搜索区域特征；

步骤5、通过多头交叉注意力对编码后模板特征和局部特征增强的搜索区域特征进行特征融合，以得到包含大量全局上下文信息的融合特征；

步骤6、将融合特征送入分类分支和回归分支上获取目标在搜索区域的最大响应位置以进行目标跟踪。

本发明还提出了一种基于多头注意力优化特征融合网络的目标跟踪系统，所述系统应用上述基于多头注意力优化特征融合网络的目标跟踪方法，所述系统包括：

构建模块，用于：

在孪生网络框架下，基于ResNet骨干网络构建特征提取网络，基于高效多头自注意力构建Transformer编码器，基于高效多头空间简约自注意力构建Transformer解码器，Transformer编码器和Transformer解码器构成特征融合网络模型；

预训练模块，用于：

用大规模数据集，对特征融合网络模型进行预训练，并在训练过程中调整特征融合网络模型中的参数，以得到训练后的特征融合网络模型；

提取模块，用于：

初始化第一帧的模板图像以及后续搜索帧的搜索图像，利用特征提取网络分别对模板图像和搜索图像进行特征提取，得到模板图像特征和搜索区域特征；

学习模块，用于：

将模板图像特征输入Transformer编码器中，采用缩小模板图像特征在空间维度上尺度的方式进行多头自注意力计算，以对模板特征图中的特征进行学习，得到包含更少背景信息且特征表示能力更强的编码后模板特征；

计算模块，用于：

通过多头交叉注意力对编码后模板特征和局部特征增强的搜索区域特征进行特征融合，以得到包含大量全局上下文信息的融合特征；

跟踪模块，用于：

将融合特征送入分类分支和回归分支上获取目标在搜索区域的最大响应位置以进行目标跟踪。

相较于现有技术，本发明的有益效果如下：

1、利用高效多头自注意力和高效空间约简注意力对提取到的模板特征和搜索区域特征进行特征增强。增强后的特征不仅降低输入到特征融合网络的特征的空间维度，还过滤掉大量的背景信息，在很大程度上提高了多头注意力的计算效率。

2、利用深度可分离卷积对模板特征进行空间降维，经过空间降维后的模板特征图不仅包含更少的背景特征，也具备更强的特征表示。此外，该方法可以让多头自注意力的内存和计算成本大大降低，使得编码器可以并行处理更高分辨率的模板特征，这不仅提高了多头自注意力的特征表示多样性的能力，而且进一步增强了特征融合网络的性能。

本发明的附加方面与优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明提出的基于多头注意力优化特征融合网络的目标跟踪方法的流程图；

图2为本发明提出的基于多头注意力优化特征融合网络的目标跟踪方法的总体框架；

图3为本发明提出的基于多头注意力优化特征融合网络的目标跟踪方法系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。

请参阅图1和图2，本发明提出一种基于多头注意力优化特征融合网络的目标跟踪方法，其中，所述方法包括如下步骤：

该方案的具体步骤如下：

将二维的模板图像特征沿着空间维度重塑为三维输入标记/>，其中，/>，，/>表示空间维度，/>表示模板特征图的通道数，/>表示模板特征图的高度，/>表示模板特征图的宽度；

将三维输入标记输入深度可分离卷积进行空间约简，将高度和宽度尺寸缩小/>倍，得到三维特征序列/>其中，/>，/>表示约简后的模板特征图的高度，/>表示约简后的模板特征图的宽度，其中填充大小、核大小、步长分别为/>；

将三维特征序列再沿着空间维度重塑，获得新的二维特征/>，其中，/>，/>重塑后的空间维度；

对二维的模板图像特征采用线性投影得到第一查询/>，对新的二维模板特征/>进行线性投影得到重塑后的第一键/>和第一值/>；

将重塑后的第一键和第一值与第一查询进行多头自注意力计算，得到每个头的输出，将每个头的输出串联，再进行线性投影，得到编码后的特征模板。

在本方案中，倍率由特征图大小自适应设置，倍率/>与特征图大小之间存在如下关系式：

；

其中，，/>表示键向量/>的维度；

在本方案中，将重塑后的第一键和第一值与第一查询进行多头自注意力计算，得到每个头的输出，将每个头的输出串联的过程存在如下关系式：

；

其中，分别表示第一查询、第一键和第一值，/>表示第/>个注意力头，/>表示编码部分的多头自注意力的计算，/>表示编码过程中所聚合/>个头所输出的特征图的结果，/>表示编码过程中第/>个注意力头的输出。

其中，本发明中的每个头的输出的计算过程存在如下关系式：

；

其中，表示编码部分的单头自注意力的计算，/>表示归一化函数，/>表示实例归一化操作，/>表示矩阵转置，/>表示键向量/>的维度，/>表示/>卷积运算。

上述表达式模拟了不同头之间的相互作用，因此每个头部的注意力都能依赖于所有的键和查询。然而，这将削弱多头自注意力在不同位置共同处理来自不同表示子集的信息的能力。为了恢复这种多样性能力，在操作之后在进行实例规范化操作。

在本方案中，所使用的方法优化了自注意力的计算方式，先使用深度可分离卷积降低键和值的维度，但这会削弱多头自注意力的特征表示多样性的能力。为了解决这一问题，随后使用卷积和实例归一化操作进行优化，优化后所得降维后的模板特征图不仅包含更少的背景特征，而且具有更强的特征表示能力。此外，由于键和值的维度降低，编码器可以并行处理具有更高分辨率的特征图。此方法不仅提高了多头自注意力的特征表示多样性能力，而且大大增强了特征融合网络的性能。

将搜索区域特征输入Transformer解码器中，采用搜索区域特征降维的方式进行多头自注意力计算，以对搜索区域特征图中的特征进行学习，得到局部特征增强的搜索区域特征。

该方案的具体步骤如下：

对提取到的搜索区域特征进行线性投影得到第二查询、键向量和值向量；

降低键向量和值向量的空间尺度，得到空间尺度约简的第二键和第二值；

将空间尺度约简的第二键和第二值与第二查询进行多头自注意力计算，得到每个头的输出，将每个头的输出串联，再进行线性投影，得到局部特征增强的搜索区域特征。

在本发明中，降低键向量和值向量的空间尺度的计算过程存在如下关系式：

；

其中，表示空间简约函数，/>表示搜索区域特征，/>，/>分别表示搜索区域特征图的高度，搜索区域特征图的宽度和搜索区域特征图的通道数，/>表示空间尺度约简因子，/>表示层归一化，/>表示将输入的搜索区域特征重塑为/>，/>表示将重塑后的特征序列维度经过投影再度缩减到/>。

在本方案中，将空间尺度约简的第二键和第二值与第二查询进行多头自注意力计算，得到每个头的输出，将每个头的输出串联的过程存在如下关系式：

；

其中，分别表示第二查询、第二键和第二值，/>表示解码部分的多头自注意力计算，/>表示解码过程中第/>个注意力头的输出，/>表示解码过程中所聚合/>个头所输出的特征图的结果。

；

其中，表示深度可分离卷积运算，/>表示解码部分的单头自注意力计算。

请参照图3，本发明还提出一种基于多头注意力优化特征融合网络的目标跟踪系统，其中，所述系统应用如上所述的基于多头注意力优化特征融合网络的目标跟踪方法，所述系统包括：

构建模块，用于：

预训练模块，用于：

提取模块，用于：

学习模块，用于：

计算模块，用于：

跟踪模块，用于：

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多头注意力优化特征融合网络的目标跟踪方法，其特征在于，所述方法包括如下步骤：

步骤1、在孪生网络框架下，基于ResNet骨干网络构建特征提取网络，基于高效多头自注意力构建Transformer编码器，基于高效多头空间约简自注意力构建Transformer解码器，Transformer编码器和Transformer解码器构成特征融合网络模型；

步骤6、将融合特征送入分类分支和回归分支上获取目标在搜索区域的最大响应位置以进行目标跟踪；

其中，采用缩小模板图像特征在空间维度上尺度的方式进行多头自注意力计算，以对模板特征图中的特征进行学习，得到包含更少背景信息且特征表示能力更强的编码后模板特征的方法具体包括如下步骤：

将三维输入标记输入深度可分离卷积进行空间约简，将高度和宽度尺寸缩小/>倍，得到三维特征序列/>，其中，/>，/>表示约简后的模板特征图的高度，/>表示约简后的模板特征图的宽度，其中填充大小、核大小、步长分别为/>；

将三维特征序列再沿着空间维度重塑，获得新的二维特征/>，其中，/>，/>表示重塑后的空间维度；

2.根据权利要求1所述的基于多头注意力优化特征融合网络的目标跟踪方法，其特征在于，倍率由特征图大小自适应设置，倍率/>与特征图大小之间存在如下关系式：

；

其中，，/>表示键向量/>的维。

3.根据权利要求2所述的基于多头注意力优化特征融合网络的目标跟踪方法，其特征在于，将重塑后的第一键和第一值与第一查询进行多头自注意力计算，得到每个头的输出，将每个头的输出串联的过程存在如下关系式：

；

4.根据权利要求3所述的基于多头注意力优化特征融合网络的目标跟踪方法，其特征在于，将重塑后的第一键和第一值与第一查询进行多头自注意力计算，得到每个头的输出，每个头的输出的计算过程存在如下关系式：

；

5.根据权利要求4所述的基于多头注意力优化特征融合网络的目标跟踪方法，其特征在于，在所述步骤4中，将搜索区域特征输入Transformer解码器中，采用搜索区域特征降维的方式进行多头自注意力计算，以对搜索区域特征图中的特征进行学习，得到局部特征增强的搜索区域特征的方法具体包括如下步骤：

6.根据权利要求5所述的基于多头注意力优化特征融合网络的目标跟踪方法，其特征在于，降低键向量和值向量的空间尺度的计算过程存在如下关系式：

；

7.根据权利要求6所述的基于多头注意力优化特征融合网络的目标跟踪方法，其特征在于，将空间尺度约简的第二键和第二值与第二查询进行多头自注意力计算，得到每个头的输出，将每个头的输出串联的过程存在如下关系式：

；

8.根据权利要求7所述的基于多头注意力优化特征融合网络的目标跟踪方法，其特征在于，将空间尺度约简的第二键和第二值与第二查询进行多头自注意力计算，得到每个头的输出，每个头的输出的计算过程存在如下关系式：

；

9.一种基于多头注意力优化特征融合网络的目标跟踪系统，其特征在于，所述系统应用权利要求1至8任一项所述的基于多头注意力优化特征融合网络的目标跟踪方法，所述系统包括：

构建模块，用于：

预训练模块，用于：

提取模块，用于：

学习模块，用于：

计算模块，用于：

跟踪模块，用于：