CN116703980A

CN116703980A - 基于金字塔池化Transformer主干网络的目标跟踪方法与系统

Info

Publication number: CN116703980A
Application number: CN202310974990.8A
Authority: CN
Inventors: 王军; 杨帅; 王员云
Original assignee: Nanchang Institute of Technology
Current assignee: Nanchang Institute of Technology
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2023-09-05
Anticipated expiration: 2043-08-04
Also published as: CN116703980B

Abstract

本发明提出一种基于金字塔池化Transformer主干网络的目标跟踪方法与系统，该方法包括：在孪生网络框架下，构建基于金字塔池化Transformer特征提取主干网络，基于标准Transformer的编码器和解码器模型，构建得到目标模型预测器；模型预测器和该特征提取主干网络构成目标跟踪模型，通过特征提取主干网络对训练模板以及测试模板进行特征提取；通过模型预测器，利用提取出的训练模板特征以及测试模板特征进行目标模型预测；通过目标模型对跟踪对象进行分类和边界框回归从而实现目标跟踪。本发明可有效减低多头自注意力机制的计算复杂度，最终实现更加高效且准确的目标跟踪。

Description

基于金字塔池化Transformer主干网络的目标跟踪方法与系统

技术领域

本发明涉及计算机视觉与图像处理技术领域，特别涉及一种基于金字塔池化Transformer主干的目标跟踪方法与系统。

背景技术

在计算机视觉领域中，目标跟踪一直都是一个重要研究课题。目标跟踪通过在连续的视频图像序列中估计跟踪目标的位置、形状或所占区域，确定目标的运动速度、方向及轨迹等运动信息，实现对运动目标行为的分析和理解，以便完成更高级的任务。

目标跟踪无论在军事国防还是民用安全方面都具有重要的研究意义和广阔的应用前景，主要包括自动驾驶、视频监控、人机交互、医学诊断、机器人应用等领域。经过几十年的发展，目标跟踪技术已取得了较好的跟踪效果和实时性。

近年来，卷积神经网络根据强大的特征建模能力，在目标跟踪领域得到广泛运用，如vgg、resnet网络。但是，卷积神经网络致力于探究特征之间的局部关系，无法对全局依赖性进行有效建模。来自自然语言处理的Transformer架构，利用强大的注意力机制可以对序列数据进行全局建模，从而被广泛应用的目标跟踪领域中。Transformer可以对序列图像块进行全局依赖性建模，但伴随而来的是超高的计算复杂度和空间利用率，这个缺点使得Transformer框架不能满足实时性的要求。基于此，有必要研究出一种既可以全局建模又高效实行的目标跟踪算法。

发明内容

本发明提供了一种基于金字塔池化Transformer主干网络的目标跟踪方法，其中，所述方法包括如下步骤：

步骤1、在孪生网络框架下，基于金字塔池化Transformer模型构建基于金字塔池化Transformer特征提取主干网络，基于金字塔池化Transformer特征提取主干网络包括有两个提取支路；基于标准Transformer的编码器和解码器构成模型预测器，模型预测器和基于金字塔池化Transformer的特征提取主干网络构成目标跟踪模型；

步骤2、获取跟踪数据集，从跟踪数据集中采样获取训练模板和测试模板，测试模板中包含视频序列中要跟踪的下一帧图像，训练模板中包含视频序列中标有真实值的第一帧以及最近跟踪的帧；

采用上一阶段输出作为下一阶段输入的方式，以训练模板和测试模板作为初始输入，利用两个提取支路分别多次提取测试模板以及训练模板的特征，以获得对应的全局上下文信息，将两个提取支路的最终输出分别进行信息编码，以添加目标位置和尺度信息；

步骤3、将两个信息编码后的最终输出进行拼接操作，再利用编码器模块进行充分融合，将融合后的特征采用解码器模块预测出一个目标模型，将融合后的特征进行分离，得到便于后续目标分类和边界框回归的加强后的测试模板特征；

步骤4、计算所述目标模型和加强后的测试模板特征，得出目标位置以及尺度大小；

步骤5、以跟踪数据集作为训练数据重复步骤3至步骤4对目标跟踪模型进行端到端的离线训练；

步骤6、利用训练好的目标跟踪模型对视频序列进行目标跟踪。

本发明依据金字塔池化Transformer模型充分提取输入图像块的全局依赖关系以及上下文信息，并且缩减输入特征的序列长度，从而有效减低多头自注意力机制的计算复杂度，最终实现更加高效且准确的目标跟踪。

本发明还提供一种基于金字塔池化Transformer主干网络的目标跟踪系统，所述系统包括：

网络构建模块，用于在孪生网络框架下，基于金字塔池化Transformer模型构建基于金字塔池化Transformer特征提取主干网络，基于金字塔池化Transformer特征提取主干网络包括有两个提取支路；基于标准Transformer的编码器和解码器构成模型预测器，模型预测器和基于金字塔池化Transformer的特征提取主干网络构成目标跟踪模型；

特征提取模块，用于获取跟踪数据集，并从跟踪数据集中采样获取训练模板和测试模板，测试模板中包含视频序列中要跟踪的下一帧图像，训练模板中包含视频序列中标有真实值的第一帧以及最近跟踪的帧；

其中，金字塔池化可以充分探索上下文信息且可以减低特征的序列长度，经过金字塔池化后的特征进行自注意力计算，从而加强特征之间的全局依赖性。最后对测试模板和训练模板特征添加目标的位置和尺度信息，从而实现尺度自适应；

模型预测模块，用于将两个信息编码后的最终输出进行拼接操作，再利用编码器模块进行充分融合，将融合后的特征采用解码器模块预测出一个目标模型，将融合后的特征进行分离，得到便于后续目标分类和边界框回归的加强后的测试模板特征；

定位回归模块，用于计算所述目标模型和加强后的测试模板特征，得出目标位置以及尺度大小；

离线训练模块，用于以跟踪数据集作为训练数据重复目标跟踪模型进行端到端的离线训练；

其中，利用大规模目标跟踪数据集对所述整个目标跟踪网络进行端到端的离线训练，得出一个可以适用于各种跟踪挑战的网络模型，进而加强跟踪网络的泛化及实用能力；

目标跟踪模块，用于利用训练好的目标跟踪模型对视频序列进行目标跟踪。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图 1为本发明提出的基于金字塔池化Transformer主干网络的目标跟踪方法的流程图；

图2为本发明提出的基于金字塔池化Transformer主干的目标跟踪方法的结构图；

图3为本发明提出的金字塔池化Transformer主干网络的结构图

图4为本发明中金字塔池化Transformer主干网络提取特征的原理图；

图5为本发明中金字塔池化的原理示意图；

图6为本发明提出的基于金字塔池化Tranformer主干的目标跟踪系统的结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

请参阅图1至图5，本发明实施例提供一种基于金字塔池化Transformer主干网络的目标跟踪方法，其中，所述方法包括如下步骤：

步骤1、在孪生网络框架下，基于金字塔池化Transformer模型构建基于金字塔池化Transformer特征提取主干网络，基于金字塔池化Transformer特征提取主干网络包括有两个提取支路；基于标准Transformer的编码器和解码器构成模型预测器，模型预测器和基于金字塔池化Transformer的特征提取主干网络构成目标跟踪模型。

在本步骤中，构建基于金字塔池化的Transformer特征提取主干网络分别提取测试模板特征以及训练模板特征。再次需要说明的是，如图3所示，基于金字塔池化的Transformer特征提取主干网络包含三个阶段，每个阶段由堆叠了不同块数的金字塔池化Transformer计算模块组成。在第三个阶段后构建信息编码模块用于添加跟踪目标的空间信息。

在本步骤中，利用Transformer的编码器和解码器模块构建模型预测器用于预测目标模型。编码器模块用于融合测试模板及训练模板的特征，解码器模块利用编码器模块融合后的特征预测出一个目标模型，最后利用解码器预测出的目标模型进行目标分类及边界框回归。

需要特别指出的是，模型预测器采用的是标准的注意力计算方式，而特征提取网络采用的经过金字塔池化后的注意力计算方式。后者可以基于金字塔池化充分提取特征之间的上下文信息，并且减少注意力机制的计算复杂度和空间利用率。

采用上一阶段输出作为下一阶段输入的方式，以训练模板和测试模板作为初始输入，利用两个提取支路分别多次提取测试模板以及训练模板的特征，以获得对应的全局上下文信息，将两个提取支路的最终输出分别进行信息编码，以添加目标位置和尺度信息。

在本步骤中，上述被构建得到的基于金字塔池化的Transformer特征提取网络模型，采用三阶段金字塔架构特征提取方式，每一阶段都堆叠了不同层数的金字塔池化Transformer，金字塔池化Transformer的结构如图4所示。首先，输入图像块经过PatchEmbed操作进行空间相对位置学习及维度调整；接着，PatchEmbed操作输出的特征映射将进行金字塔池化操作，金字塔池化的具体原理如图5所示；最后，经过金字塔池化后的特征映射进行平铺级联后进行Transformer自注意力计算。每一阶段计算方式都与此相同，不再赘述。

需要特别指出的是，经过金字塔池化后的特征映射包含了丰富的空间上下文信息，从而加强了特征的语义表示。其次，特征在进行自注意力计算时，由于经过金字塔池化下采样后其序列长度将大大缩减，所以在充分探索数据的全局依赖性的同时，自注意力的计算复杂度和空间利用率也会有效减低。

具体而言，从图4中可以看出本发明中金字塔池化Transformer的生成原理。在本实施例中，该金字塔池化Transformer模块的生成方法包括如下步骤：

步骤2.1、所述测试模板与所述训练模板分别经过PatchEmbed操作进行空间相对位置学习及维度调整，输出为一维序列特征。

PatchEmbed由卷积层和正则化层组成。首先，输入测试模板与所述训练模板的图像块(H×W×3)被分割成16(4×4)个patches，其空间尺度变为原始的四分之一，将patches进行平铺，变为具有48(4×4×3)个元素的一维序列特征。最后将所述序列特征输入到PatchEmbed操作进行相对位置学习，生成一维序列特征/>。在此期间，一维序列特征/>的空间维度由48变为C，这里的C等于64。

步骤2.2、将PatchEmbed操作输出的一维序列特征重塑为二维特征映射后进行金字塔池化操作。

在本步骤中，首先将所述PatchEmbed操作输出的一维序列特征进行展开操作，重新变为二维特征映射/>。接着，对所述二维特征映射/>进行具有不同池化比率的平均池化操作，如图5所示，该过程可以用如下公式表示：

；

其中，、/>和/>分别表示采用三个不同池化比率的平均池化操作，三个不同池化比率为分别为（6，8，10）、（4，5 ，6）以及（2，3，4），/>分别表示三个不同池化比率的平均池化后对应的二维特征映射。最后，将所述平均池化后的特征/>进行平铺后再级联起来，得到池化后的序列特征/>。对应公式为：

；

其中，表示平铺及级联操作，/>表示LayerNorm正则化。需要特别指出的是，所述池化后的序列特征/>经过金字塔平均池化下采样后，其序列长度比序列特征/>要短很多。

步骤2.3、根据经过金字塔平均池化后的序列特征进行自注意力计算。

在本步骤中，采用线性投影方式，利用一维序列特征生成/>，利用所述池化后的序列特征/>生成/>(key)和/>(value)，/>，/>，/>的生成表达式为：

；

其中，、/>、/>分别表示生成/>、/>、/>的线性投影的权重矩阵，/>、/>、/>分别表示查询点、关键点以及价值点，主要用于注意力计算模块的输入。与传统注意力不同的是，本实施例利用所述序列特征/>生成/>，利用所述经过金字塔平均池化后的序列特征/>生成/>和/>。接着，利用/>，/>，/>进行自注意力计算，得到注意力特征映射/>，自注意力计算存在如下关系式：

；

其中，表示/>的空间维度，/>表示转置操作，/>表示归一化指数激活函数，/>表示注意力特征映射。式中，首先，/>和/>做矩阵乘法，然后除以/>进行归一化。接着进行/>操作。最后乘以/>得到注意力特征映射/>。需要特别说明的是，由于所述/>和/>序列长度比/>短，因此做矩阵乘法时，其计算复杂度将大幅度缩减。

最后所述注意力特征映射与所述二维特征映射/>进行残差连接，并经过正则化，得到正则化后的特征映射/>。

步骤2.4、将正则化后的特征映射输入到前馈神经网络中，得到当前阶段输出。

具体的，使用倒置瓶颈块(Inverted Bottleneck Block)作为前馈神经网络，前馈计算存在如下关系式：

；

其中，表示一维序列特征转变为二维图像特征，/>表示二维图像特征转变为一维序列特征，/>表示Hardswish激活函数，/>表示深度可分离卷积，/>表示前馈计算时产生的中间变量，/>表示前馈神经网络的输出，倒置瓶颈块可以对特征映射进行局部增强，从而使得所述特征提取网络更加鲁棒。最后，基于金字塔池化Transformer主干网络在每个阶段的特征提取过程可以用如下公式表示：

；

其中，表示当前阶段的输出，/>，1、2、3分别表示三个阶段，/>表示LayerNorm正则化，/>表示正则化后的特征映射，/>表示金字塔池化操作，/>表示注意力计算，/>表示前馈神经网络。首先，二维特征映射/>经过金字塔池化后生成池化后的特征/>。然后，/>进行注意力计算，接着与/>进行残差连接，再通过LayerNorm正则化后生成正则化后的特征映射/>。最后，正则化后的特征映射/>输入到前馈神经网络中进行计算，再与正则化后的特征映射/>进行残差连接，经过正则化后得到当前阶段的输出。

在此需要补充说明的是，在本实施例中，基于金字塔池化的Transformer特征提取主干网络的三个阶段堆叠的金字塔池化Transformer计算模块的块数分别为{2，9，3}。每个阶段采用3层平均池化，且每阶段的池化比率分别为{[6,8,10]，[4,5,6]，[2,3,4],}。每个阶段输出的特征空间维度为，/>，/>。

将两个提取支路的最终输出分别进行信息编码，以添加目标位置和尺度信息。

在本实施例中，利用目标中心的高斯函数与目标的前景信息/>逐元素相乘得到跟踪目标的位置信息/>，位置信息/>存在如下关系式：

；

跟踪目标的尺度信息采用ltrb表示，将最终输出的每一处的空间位置/>映射回原始图像空间尺度中，最终输出和空间位置之间的映射关系存在如下关系式：

；

其中，表示主干网络的步长，/>表示最终输出/>在原始图像空间中所对应的位置。然后，计算每个/>到目标边界框/>的正则化距离，每个/>到目标边界框的正则化距离存在如下关系式：

；

其中，H，W分别表示原始图像的长和宽。

将边界框表示输入到多层感知器/>中，从而得到目标边界框的密集表示，进而获得尺度信息；

将目标的位置和尺度信息添加到最终输出中，得到最终的特征映射，如以下公式：

。

步骤3、将两个信息编码后的最终输出进行拼接操作，再利用编码器模块进行充分融合，将融合后的特征采用解码器模块预测出一个目标模型，将融合后的特征进行分离，得到便于后续目标分类和边界框回归的加强后的测试模板特征。

在本步骤中，将所述添加了目标信息的测试模板特征以及训练模板特征进行级联，经过线性投影后得到，/>，/>，然后输入到所述编码器模块中，进而实现特征融合。接着，编码器模块输出的融合特征经过线性投影得到/>和/>，从目标的前景信息中线性投影得到/>，然后输入到所述解码器模块中，从而预测出目标模型/>。其中，从编码器模块输出的融合特征中分离出加强后的测试模板特征/>，用于后续的目标分类以及边界框回归。

在此需要补充说明的是，所述编码器和解码器模块采用的是标准的注意力计算方式，而不是本实施例提出的基于金字塔池化的注意力计算方式。

步骤4、计算所述目标模型和加强后的测试模板特征，得出目标位置以及尺度大小。

在本步骤中，首先将所述目标模型经过线性投影得到用于目标定位的/>和用于边界框回归的/>。在本实施例中，采用了两个不同的网络分别进行目标分类和边界框回归。

以为卷积核对所述加强后的测试模板特征/>进行卷积运算，从而得到目标分类得分/>，目标分类得分存在如下关系式：

；

其中，表示卷积运算。

目标得分中最大值所在的位置索引即为目标所在的中心位置。

以为卷积核对所述加强后的测试模板特征/>进行卷积运算，将卷积运算结果与所述加强后的测试模板特征/>进行逐元素相乘，然后再输入到5层卷积神经网络中，得到关于跟踪目标的密集边界框表示/>，关于跟踪目标的密集边界框表示存在如下关系式：

；

其中，表示卷积运算，/>表示逐元素相乘，/>表示5层卷积神经网络。最终，所述密集边界框表示/>与跟踪目标的地面真值进行交并比(IOU)计算，其中，IOU最大值所对应的边界框即为跟踪目标的边界框。

步骤5、以跟踪数据集作为训练数据重复步骤3至步骤4对目标跟踪模型进行端到端的离线训练，进而加强跟踪网络的泛化能力。

请参阅图6，本发明实施例还提供了一种基于金字塔池化Transformer主干网络的目标跟踪系统，所述系统包括：

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于金字塔池化Transformer主干网络的目标跟踪方法，其特征在于，所述方法包括如下步骤：

步骤2、获取跟踪数据集，从跟踪数据集中采样获取训练模板和测试模板，测试模板中包含视频序列中要跟踪的下一帧图像，训练模板中包含视频序列中标有真实值的第一帧以及被跟踪过目标的帧；

2.根据权利要求1所述的基于金字塔池化Transformer主干网络的目标跟踪方法，其特征在于，在所述步骤2中，利用两个提取支路分别多次提取测试模板以及训练模板的特征方法具体包括如下步骤：

步骤2.1、所述测试模板与所述训练模板的图像块分别经过PatchEmbed操作进行空间相对位置学习及维度调整，输出为一维序列特征；

步骤2.2、将一维序列特征重塑为二维特征映射，再进行金字塔池化操作；

步骤2.3、经过金字塔平均池化后的序列特征进行自注意力计算；

步骤2.4、将经过注意力计算的特征映射输入到前馈神经网络中，得到当前阶段输出；

采用上一阶段输出作为下一阶段输入的方式循环步骤2.1至步骤2.4两次，以得到最终输出。

3.根据权利要求2所述的基于金字塔池化Transformer主干网络的目标跟踪方法，其特征在于，每个阶段的特征提取过程存在如下关系式：

；

其中，表示当前阶段的输出，/>，1、2、3分别表示三个阶段，/>表示LayerNorm正则化，/>表示前馈神经网络，/>表示正则化后的特征映射。

4.根据权利要求3所述的基于金字塔池化Transformer主干网络的目标跟踪方法，其特征在于，表示正则化的特征映射存在如下关系式：

；

其中，表示金字塔池化操作，/>表示注意力计算，/>表示池化后的序列特征。

5.根据权利要求2所述的基于金字塔池化Transformer主干网络的目标跟踪方法，其特征在于，所述金字塔池化的运算方法具体包括如下步骤：

对所述二维特征映射进行具有不同池化比率的平均池化操作，不同池化比率的平均池化操作存在如下关系式：

；

其中，、/>和/>分别表示采用三个不同池化比率的平均池化操作，三个不同池化比率为分别为（6，8，10）、（4，5 ，6）以及（2，3，4），/>分别表示三个不同池化比率的平均池化后对应的二维特征映射；

对平均池化后的特征平铺后再进行级联，得到池化后的序列特征/>，池化后的序列特征/>存在如下关系式：

；

其中，表示平铺及级联操作，/>表示LayerNorm正则化。

6.根据权利要求2所述的基于金字塔池化Transformer主干网络的目标跟踪方法，其特征在于，所述自注意力的计算方法具体如下：采用线性投影方式，利用所述一维序列特征生成/>，利用所述池化后的序列特征/>生成/>和/>，/>，/>，/>的生成表达式为：

；

其中，、/>、/>分别表示生成/>、/>、/>的线性投影的权重矩阵，/>、/>、/>分别表示查询点、关键点以及价值点；

利用，/>和/>进行自注意力计算得到注意力特征映射/>，自注意力计算存在如下关系式：

；

其中，表示/>的空间维度，/>表示转置操作，/>表示归一化指数激活函数，表示注意力特征映射；

将所述注意力特征映射与所述二维特征映射/>进行残差连接，再经过正则化，得到正则化后的特征映射/>。

7.根据权利要求2所述的基于金字塔池化Transformer主干网络的目标跟踪方法，其特征在于，在利用前馈神经网络进行前馈计算时，采用倒置瓶颈块进行前馈计算，前馈计算存在如下关系式：

；

其中，表示一维序列特征转变为二维图像特征，/>表示二维图像特征转变为一维序列特征，/>表示Hardswish激活函数，/>表示深度可分离卷积，/>表示前馈计算时产生的中间变量，/>表示前馈神经网络的输出；

将所得再与正则化后的特征映射/>进行残差连接，经过正则化后得到当前阶段的输出/>。

8.根据权利要求1所述的基于金字塔池化Transformer主干网络的目标跟踪方法，其特征在于，在步骤2中，将金字塔池化后的测试模板和训练模板特征进行信息编码的方法具体包括如下步骤：

利用目标中心的高斯函数与目标的前景信息/>逐元素相乘得到跟踪目标的位置信息/>，位置信息/>存在如下关系式：

；

将最终输出的每一处的空间位置/>映射回原始图像空间尺度中，最终输出和空间位置之间的映射关系存在如下关系式：

；

其中，表示主干网络的步长，/>表示最终输出/>在原始图像空间中所对应的位置；

跟踪目标的尺度信息采用ltrb表示，计算每个到目标边界框/>的正则化距离，每个/>到目标边界框的正则化距离存在如下关系式：

；

其中，H，W分别表示原始图像的长和宽；

将边界框表示输入到多层感知器/>中，得到目标边界框的密集表示，进而获得尺度信息；

将目标的位置和尺度信息添加到最终输出中，得到最终的特征映射，最终的特征映射存在如下关系式：

。

9.根据权利要求1所述的基于金字塔池化Transformer主干网络的目标跟踪方法，其特征在于，在所述步骤4中，计算所述目标模型和加强后的测试模板特征，得出目标位置以及尺度大小的方法具体包括如下步骤：

将所述目标模型经过线性投影得到用于目标定位的/>和用于边界框回归的/>；

；

其中，表示卷积运算；

目标得分中最大值所在的位置索引即为目标位置的中心位置；

；

其中，表示卷积运算，/>表示逐元素相乘，/>表示5层卷积神经网络；

将所述密集边界框表示与跟踪目标的地面真值进行交并比IOU计算，其中，IOU最大值所对应的边界框即为跟踪目标的边界框，边界框的宽度和高度则代表了目标的尺度大小。

10.一种基于金字塔池化Transformer主干网络的目标跟踪系统，其特征在于，所述系统包括：