CN116797799A

CN116797799A - 一种基于通道注意力和时空感知的单目标跟踪方法及跟踪系统

Info

Publication number: CN116797799A
Application number: CN202310701383.4A
Authority: CN
Inventors: 钱小燕; 朱新瑞; 陶旭东; 马英洲; 李智昱; 杨镇源; 施俞洲
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-09-22

Abstract

本发明公开了一种基于通道注意力和时空感知的单目标跟踪方法及跟踪系统，方法包括如下步骤：输入模板图像与搜索区域图像，通过两支权值共享的RepVGG骨干网络分别提取两者的分层特征；通过基于通道注意力机制的融合模型对两特征图进行自注意力和交叉注意力的特征交融；通过分类分支、边框回归分支以及中心度回归分支完成对目标的跟踪预测；通过阈值判断完成模板的实时更新，将后续帧的时间信息加入到融合网络中，从而实现完整的目标跟踪；展示跟踪性能。系统包括：特征提取模块、特征融合模块、跟踪预测模块和性能展示模块；本发明让模版特征随时空变化自适应地增强其完备性，从而提高跟踪的鲁棒性。

Description

一种基于通道注意力和时空感知的单目标跟踪方法及跟踪系统

技术领域

本发明涉及深度学习目标跟踪技术领域，尤其是一种基于通道注意力和时空感知的单目标跟踪方法及跟踪系统。

背景技术

单目标视频跟踪是计算机视觉领域的重要研究内容，在视频监控、智慧交通、机场场面监视等应用领域中扮演着非常重要的角色。目标跟踪会将跟踪物的初始位置状态作为参考，旨在后续帧中准确的预测出目标的状态参数。在实际场景中，由于目标运动、背景和光照变化以及遮挡等因素的影响，目标跟踪的性能会受到限制。

现有方法中基于注意力机制的融合方法通过模板与搜索区域特征图之间的自注意力和交叉注意力机制有效提升了两者之间的语义相关性，但不同通道特征往往对特征通道赋予相同的权重，没有充分考虑不同通道对跟踪任务不同的贡献度。

现有工作大多未采用在线更新模版策略。但在实际跟踪任务中，目标外观变化通常比较明显，且在运动过程中会存在干扰物遮挡，光照变化，甚至目标消失又在后续的视频帧中出现等等复杂情况，仅仅使用单一的初始帧作为模版，则无法很好地应对以上复杂的变化，从而可能导致目标跟踪的漂移甚至丢失。

发明内容

本发明所要解决的技术问题在于，提供一种基于通道注意力和时空感知的单目标跟踪方法及跟踪系统，让模版特征随时空变化自适应地增强其完备性，从而提高跟踪的鲁棒性。

为解决上述技术问题，本发明提供一种基于通道注意力和时空感知的单目标跟踪方法，包括如下步骤：

步骤1、输入模板图像与搜索区域图像，通过两支权值共享的RepVGG骨干网络分别提取两者的分层特征；

步骤2、通过基于通道注意力机制的融合模型对两特征图进行自注意力和交叉注意力的特征交融；

步骤3、通过分类分支、边框回归分支以及中心度回归分支完成对目标的跟踪预测；

步骤4、通过阈值判断完成模板的实时更新，将后续帧的时间信息加入到融合网络中，从而实现完整的目标跟踪；

步骤5、展示跟踪性能。

优选的，步骤1中，通过两支权值共享的RepVGG骨干网络分别提取两者的分层特征，首先将模板图像与搜索区域图像对送入RepVGG骨干网络提取特征，分别在第三层输出模板特征、在第五层输出搜索区域特征以保证其尺度相同，再将两组输出经1×1卷积核将通道数调整为256。

优选的，步骤2中，通过基于通道注意力机制的融合模型对两特征图进行自注意力和交叉注意力的特征交融具体包括如下步骤：

步骤21、输入序列模板特征，通过自注意力模块进行特征增强，以充分将模板特征的各部分像素进行关联；

步骤22、接收搜索特征作为一部分的输入，接收来自模板特征部分的输出作为另一部分的输入，通过交叉注意力模块计算两部分的交叉注意力，交叉注意力模块与自注意力模块的计算公式相同，只是输入不同；

步骤23、将交叉注意力模块的结果输入给在长、宽两个维度的全局最大池化层和平均池化层，之后将两个池化输出再送入一个参数共享的MLP层进行通道之间的关系学习，得到的结果相加之后送入sigmoid函数激活，就能得到通道注意力权值。

优选的，步骤21中，充分将模板特征的各部分像素进行关联：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

MultiHead(Q,K,V)＝Concat(head₁,head₂…head_n)W^o

其中head_i代表第i个多头注意力输出，W_i ^Q,W_i ^K,W_i ^V分别代表第i个头的查询、键、值变化矩阵，Q,K,V分别代表第i个头的查询、键、值矩阵，将多个多头注意力结果进行拼接，再进行一次线性变换W^o得到最后的输出结果。

优选的，步骤23中，再将特征图尺寸还原以保持尺寸匹配，通道注意力模块的计算表达为：

Chn＝δ(MLP(AvgPool(M))+MLP(MaxPool(M)))

＝δ(w₁(w₀M_avg))+w₁(w₀(M_max)))

其中，δ代表sigmoid激活函数，AvgPool代表平均池化操作，平均池化输出结果用M_avg表示，MaxPool代表最大池化操作，输出结果用M_max表示，w₁,w₀分别代表MLP中的两层卷积层。

优选的，步骤3中，通过分类分支、边框回归分支以及中心度回归分支完成对目标的跟踪预测具体包括如下步骤：

步骤31、预测头通过不同卷积层将信息交融后特征图映射到预测头网络中的分类分支Cls、中心度分支Ctr、回归分支Reg三个不同空间进而实现精准预测；

步骤32、计算目标总损失。

优选的，步骤32中，L_cls为分类损失，L_ctr为中心度损失，L_reg为回归损失，N为样本数目，N_pos为正样本数量，x和y表示输出特征图坐标，p_x,y与为正负样本标签和预测值，c_x,y与/>为中心度标签和预测值，g_x,y与/>分别表示真实边框位置和预测边框位置，分类损失采用二分类Focal-Loss，中心度分支采用交叉熵损失，回归分支采用GIoU-Loss，总损失计算表达为：

优选的，步骤4中，通过阈值判断完成模板的实时更新，将后续帧的时间信息加入到融合网络中，从而实现完整的目标跟踪具体包括如下步骤：

步骤41、引入置信度τ和置信度阈值S，当目前帧序列序号k和更新区间T满足判断条件：

τ＞S∩T|k

即当置信度τ大于置信度阈值S，并且当前的图片序号k能够整除更新区间T时，则更新模板，反之则不更新模板，更新表达式为：

其中的输入特征均为满足Transformer条件的序列特征，假设满足条件更新，则需要更新的模板为当前帧特征T_i与之前累积的特征直接相加所得，当没有累积特征时，/>就是第一帧的模板特征T₀；

步骤42、将更新后的模板序列化后加入到融合网络中，从而实现完整的目标跟踪。

优选的，步骤41中，对于置信度阈值S取0.7，且更新间隔T取120帧时，跟踪器性能达到最优。

相应的，一种基于通道注意力和时空感知的单目标跟踪系统，包括：特征提取模块、特征融合模块、跟踪预测模块和性能展示模块；特征提取模块通过两支权值共享的RepVGG骨干网络分别提取输入模板图像和搜索区域图像的分层特征，特征融合模块通过基于通道注意力机制的融合模型对两特征图进行自注意力和交叉注意力的特征交融，跟踪预测模块通过分类分支、边框回归分支以及中心度回归分支完成对目标的跟踪预测，通过阈值判断完成模板的实时更新，将后续帧的时间信息加入到融合网络中，从而实现完整的目标跟踪，性能展示模块展示跟踪性能。

本发明的有益效果为：(1)本发明提出的基于通道注意力的融合网络，在模板特征和搜索区域特征进行自注意力和交叉注意力学习后增加通道注意力模块，进一步强化不同通道特征对跟踪任务的贡献度，在特征融合部分对感兴趣通道赋予更高权重，降低了冗余通道的影响；(2)本发明提出的基于时空感知的模板更新模块，引入在线模板更新模块，通过阈值控制模板更新频率，同时为了保证模板的多样性，通过累积合并的方式不断丰富模板序列，从而增强跟踪的鲁棒性；(3)本发明提出的跟踪网络模型在跟踪成功率和精确度上有较大提升，可以很好地应对遮挡和形变等挑战，提升跟踪器鲁棒性。

附图说明

图1为本发明的跟踪网络结构示意图。

图2为本发明的融合网络示意图。

图3为本发明的通道注意力模块示意图。

图4为本发明的预测头网络原理示意图。

图5为本发明在LaSOT数据集中应对“尺度变化”的对比实验结果示意图。

图6为本发明在LaSOT数据集中应对“完全遮挡”的对比实验结果示意图。

图7为本发明在LaSOT数据集中应对“目标形变”的对比实验结果示意图。

具体实施方式

如图1所示，本发明提供一种基于通道注意力和时空感知的单目标跟踪方法，其设计原理为：首先将模板图片与搜索图片一起输入给RepVGG主干网络进行特征提取，取主干网络的第三层与第五层的输出，分别送入上下两个分支的Transformer进行特征融合，将两个Transformer的信息进行合并之后再送入分类定位网络，以实现目标位置的确定；最后通过阈值判断完成模板的实时更新，更新模板之后，就能将后续帧的时间信息加入到网络中，与Transformer结合之后，就能将时空信息用于目标跟踪当中。

为了使本发明的目的、技术方案及优点更加清楚，以下结合具体实施例，并参照附图，对本发明进行进一步详细说明。

本实施例中基于通道注意力和时空感知的单目标跟踪方法的详细步骤如下：

S1：输入模板图像与搜索区域图像，通过两支权值共享的RepVGG骨干网络分别提取两者的分层特征；

S2：通过基于通道注意力机制的融合模型对两特征图进行自注意力和交叉注意力的特征交融；

S3：通过分类分支、边框回归分支以及中心度回归分支完成对目标的跟踪预测；

S4：通过阈值判断完成模板的实时更新，将后续帧的时间信息加入到融合网络中，从而实现完整的目标跟踪。

S5：展示在面对比如物体形变和目标遮挡等种挑战性的问题时本实施例的跟踪性能。

下面对各个步骤进行详细叙述。

在步骤S1中，输入模板图像与搜索区域图像，通过两支权值共享的RepVGG骨干网络分别提取两者的分层特征。具体步骤为：

S101：将模板图像与搜索图像对送入骨干网络提取特征，设置127×127×3的模板图像和303×303×3的搜索图像作为输入。

S102：通过RepVGG网络对输入进行训练和推理，本实例设计五层RepVGG神经网络作为特征提取主干网络，每层分别包含RepVGG block的个数为1，4，6，16，1。练过程包含三个分支，分别是3×3卷积与BN层，1×1卷积与BN层，然后是输入单独经过BN层的分支，相加融合之后再加上ReLU激活函数。1×1卷积可以看成是在卷积核中心有一个参数的3×3卷积，而没有卷积的分支则可以看成是卷积核中心为参数1的3×3卷积，因此1×1卷积与不含卷积的分支均可以转化成3×3卷积，RepVGG训练过程的计算公式为：

Y＝BN(x*W₀)+BN(x*W₁)+BN(x)

其中Y为最后的输出，x为一开始的输入，W₀为3×3卷积，W₁为1×1卷积。

RepVGG融合过程的计算公式如式2所示，以1×1卷积分支为例，μ，σ，γ，β是BN层的参数。μ代表均值，σ代表方差，γ，β为两个可学习的参数。

合并完成后，卷积变成了新的3×3卷积卷积参数变成了W'和b'。对于不含卷积的分支也能够同理完成转化，最终推理过程的三个不同的分支均变成了只含3×3卷积的推理过程结构。

S103：将骨干网络的第3层和第5层输出进行结合，增强模型的特征表达能力。将卷积神经网络的第三层与第五层的输出特征图分别定义为R₃,R₅，在通道维度上进行特征图的叠加后得到新的特征图R^～，计算公式为：

R^～＝Concat(R₃,R₅)

其中Concat为在通道维度上的堆叠操作，使通道数变为512，这样R^～就包含了浅层与深层的特征信息。

S104：两组输出经1×1卷积核将通道数调整为256，使上下两个分支能够分别得到一组尺寸相同的模板特征与搜索区域特征。

在步骤S2中，通过基于通道注意力机制的融合模型对两特征图进行自注意力和交叉注意力的特征交融。如图2所示，具体步骤为：

S201：输入序列模板特征，通过自注意力模块进行特征增强，以充分将模板特征的各部分像素进行关联：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

MultiHead(Q,K,V)＝Concat(head₁,head₂…head_n)W^o

S202：接收搜索特征作为一部分的输入，接收来自模板特征部分的输出作为另一部分的输入，通过交叉注意力模块计算两部分的交叉注意力。交叉注意力模块与自注意力模块的计算公式相同，只是输入不同。

S203：将交叉注意力模块的结果输入给在长、宽两个维度的全局最大池化层和平均池化层，之后将两个池化输出再送入一个参数共享的MLP层进行通道之间的关系学习，得到的结果相加之后送入sigmoid函数激活，就能得到通道注意力权值。再将特征图尺寸还原以保持尺寸匹配。如图3所示，通道注意力模块的计算表达为：

Chn＝δ(MLP(AvgPool(M))+MLP(MaxPool(M)))

＝δ(w₁(w₀M_avg))+w₁(w₀(M_max)))

其中，δ代表sigmoid激活函数，AvgPool代表平均池化操作，平均池化输出结果用M_avg表示，MaxPool代表最大池化操作，输出结果用M_max表示。w₁,w₀分别代表MLP中的两层卷积层。

另外，本实施例在GOT-10k数据集的比较结果如表1所示，实验证明加入通道注意力的跟踪方法性能在多个方面都有所提升。

表1加入通道注意力前后的跟踪性能对比

在步骤S3中，通过分类分支、边框回归分支以及中心度回归分支完成对目标的跟踪预测。如图4所示，具体步骤为：

S301：预测头通过不同卷积层将信息交融后特征图映射到预测头网络中的分类分支Cls、中心度分支Ctr、回归分支Reg三个不同空间进而实现精准预测。

S302：计算目标总损失，其中L_cls为分类损失,L_ctr为中心度损失,L_reg为回归损失,N为样本数目，N_pos为正样本数量。x和y表示输出特征图坐标,p_x,y与为正负样本标签和预测值，c_x,y与/>为中心度标签和预测值,g_x,y与/>分别表示真实边框位置和预测边框位置。分类损失采用二分类Focal-Loss,中心度分支采用交叉熵损失,回归分支采用GIoU-Loss。总损失计算表达为：

在步骤S4中，通过阈值判断完成模板的实时更新，将后续帧的时间信息加入到融合网络中，从而实现完整的目标跟踪。具体步骤为：

S401：引入置信度τ和置信度阈值S，当目前帧序列序号k和更新区间T满足如下判断条件：

τ＞S∩T|k

即当置信度τ大于置信度阈值S，并且当前的图片序号k能够整除更新区间T时，则更新模板，反之则不更新模板。置信度阈值S取0.7，且更新间隔T取120帧。最终更新表达式为：

其中的输入特征均为满足Transformer条件的序列特征。假设满足条件更新，则需要更新的模板为当前帧特征T_i与之前累积的特征直接相加所得。当没有累积特征时，/>就是第一帧的模板特征T₀。

S402：将更新后的模板序列化后加入到融合网络中，从而实现完整的目标跟踪。为了验证模板更新方法的有效性，在GOT-10k上进行了消融实验，结果如表2所示。其中a方法为不加入模板更新模块的跟踪方法，b方法为加入模板更新模块的跟踪方法。实验证明加入模板更模块后跟踪方法性能有所提升。

表2加入模板更新前后的跟踪性能对比

在步骤S5中，将展示本实施例的跟踪算法在LaSOT数据集上面对挑战性问题的对比实验结果，包括目标尺度变化、完全遮挡和目标形变，具体如图5、图6和图7所示。结果显示，本发明可以很好的应对这些属性挑战。

综上，本发明提供一种基于通道注意力和时空感知的单目标跟踪方法，其设计原理为：首先将模板图片与搜索图片一起输入给RepVGG主干网络进行特征提取，取主干网络的第三层与第五层的输出，分别送入上下两个分支的Transformer进行特征融合，将两个Transformer的信息进行合并之后再送入分类定位网络，以实现目标位置的确定；最后通过阈值判断完成模板的实时更新，更新模板之后，就能将后续帧的时间信息加入到网络中，与Transformer结合之后，就能将时空信息用于目标跟踪当中。由于RepVGG的轻量简洁推理过程，本发明可以广泛应用于视频监控、自动驾驶、人机交互等场景中。也可以部署于大型计算服务器中，为用户提供目标高精度的跟踪服务。

Claims

1.一种基于通道注意力和时空感知的单目标跟踪方法，其特征在于，包括如下步骤：

步骤5、展示跟踪性能。

2.如权利要求1所述的基于通道注意力和时空感知的单目标跟踪方法，其特征在于，步骤1中，通过两支权值共享的RepVGG骨干网络分别提取两者的分层特征，首先将模板图像与搜索区域图像对送入RepVGG骨干网络提取特征，分别在第三层输出模板特征、在第五层输出搜索区域特征以保证其尺度相同，再将两组输出经1×1卷积核将通道数调整为256。

3.如权利要求1所述的基于通道注意力和时空感知的单目标跟踪方法，其特征在于，步骤2中，通过基于通道注意力机制的融合模型对两特征图进行自注意力和交叉注意力的特征交融具体包括如下步骤：

4.如权利要求3所述的基于通道注意力和时空感知的单目标跟踪方法，其特征在于，步骤21中，充分将模板特征的各部分像素进行关联：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

MultiHead(Q,K,V)＝Concat(head₁,head₂…head_n)W^o

5.如权利要求3所述的基于通道注意力和时空感知的单目标跟踪方法，其特征在于，步骤23中，再将特征图尺寸还原以保持尺寸匹配，通道注意力模块的计算表达为：

Chn＝δ(MLP(AvgPool(M))+MLP(MaxPool(M)))

＝δ(w₁(w₀M_avg))+w₁(w₀(M_max)))

6.如权利要求1所述的基于通道注意力和时空感知的单目标跟踪方法，其特征在于，步骤3中，通过分类分支、边框回归分支以及中心度回归分支完成对目标的跟踪预测具体包括如下步骤：

步骤32、计算目标总损失。

7.如权利要求6所述的基于通道注意力和时空感知的单目标跟踪方法，其特征在于，步骤32中，L_cls为分类损失，L_ctr为中心度损失，L_reg为回归损失，N为样本数目，N_pos为正样本数量，x和y表示输出特征图坐标，p_x,y与为正负样本标签和预测值，c_x,y与/>为中心度标签和预测值，g_x,y与/>分别表示真实边框位置和预测边框位置，分类损失采用二分类Focal-Loss，中心度分支采用交叉熵损失，回归分支采用GIoU-Loss，总损失计算表达为：

8.如权利要求1所述的基于通道注意力和时空感知的单目标跟踪方法，其特征在于，步骤4中，通过阈值判断完成模板的实时更新，将后续帧的时间信息加入到融合网络中，从而实现完整的目标跟踪具体包括如下步骤：

τ＞S∩T|k

9.如权利要求8所述的基于通道注意力和时空感知的单目标跟踪方法，其特征在于，步骤41中，对于置信度阈值S取0.7，且更新间隔T取120帧时，跟踪器性能达到最优。

10.一种如权利要求1所述的基于通道注意力和时空感知的单目标跟踪方法的跟踪系统，其特征在于，包括：特征提取模块、特征融合模块、跟踪预测模块和性能展示模块；特征提取模块通过两支权值共享的RepVGG骨干网络分别提取输入模板图像和搜索区域图像的分层特征，特征融合模块通过基于通道注意力机制的融合模型对两特征图进行自注意力和交叉注意力的特征交融，跟踪预测模块通过分类分支、边框回归分支以及中心度回归分支完成对目标的跟踪预测，通过阈值判断完成模板的实时更新，将后续帧的时间信息加入到融合网络中，从而实现完整的目标跟踪，性能展示模块展示跟踪性能。