CN116563337A

CN116563337A - 基于双注意力机制的目标跟踪方法

Info

Publication number: CN116563337A
Application number: CN202310399300.0A
Authority: CN
Inventors: 李晶; 朱海; 廉乐知; 刘天鹏; 宋北航; 王明锋
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2023-08-08

Abstract

本发明公开了一种基于双注意力机制的目标跟踪方法，包括：构建主干网络模型，所述主干网络模型包括检测分支和模板分支，对于给定的若干组模板帧和搜索帧，分别采用模板分支对模板帧、检测分支对搜索帧提取深度特征；将步骤1提取到的深度特征通过可变形注意力机制进行有选择性的增强；将步骤2中增强后的特征通过稀疏注意力进行权重再分配的分层交叉融合，最终得到融合特征；将步骤3中得到的融合特征通过多层感知机预测获得目标的位置和尺度；多层感知机输出每一个检测帧的目标位置信息即完成跟踪。本发明能够减少对背景的关注权重，增加对搜索区域潜在目标的关注权重，并且能够增强网络的鲁棒性，最终克服背景对跟踪器的干扰。

Description

基于双注意力机制的目标跟踪方法

技术领域

本发明属于计算机视觉的技术领域，具体涉及一种基于双注意力机制的目标跟踪方法。

背景技术

目标跟踪计算机视觉领域极其重要的部分，它的主要任务是在给定的连续视频序列中，根据初始帧给出的目标位置，在后续帧中对目标进行连续跟踪定位。目标跟踪需要解决两个主要问题：1.挖掘有关感兴趣对象的特征；2.建立帧与帧之间的对象对应关系。研究目标跟踪对视频分析、场景理解等领域都有着很大的帮助。目标跟踪在现实生活中有着巨大的应用价值，例如智能监控、人机交互、自动驾驶和医疗诊断等领域。

基于孪生网络的跟踪器在跟踪精度上有着很大的优势，且由于它们通常都是高速的端到端网络，它们将目标跟踪问题转换为模板帧和搜索帧的匹配问题。SiamRPN借鉴了目标检测领域中取得成功的区域候选网络，将目标跟踪任务拆分成分类和回归两个子任务。SiamRPN++为解决孪生网络较浅和中心偏好问题，使用ResNet50作为特征提取网络和深度互相关操作。目前基于Transformer的跟踪器因注意力机制对特征之间和对全局的优秀的建模能力备受欢迎。TransT利用自注意力增强模板帧和搜索帧自身的特征、交叉注意力建模模板帧和搜索帧的空间依赖关系。Stark将时空信息引入到了基于Transformer的跟踪器。

目标在跟踪过程中由于受到背景的干扰，跟踪器会使次要信息(背景)占据过大比重，容易被背景分散注意力，这一定程度上削弱了目标，使前景和背景的区分变得模糊，即跟踪器缺乏对搜索区域最相关信息的关注，从而使跟踪精度下降。尽管现有的基于孪生网络和基于Transformer的深度跟踪器在跟踪精度上具有良好的性能，但我们注意到大多跟踪器依然无法解决目标在背景干扰的复杂场景下的跟踪难题。

发明内容

本发明的目的在于针对现有技术的不足之处，提供一种基于双注意力机制的目标跟踪方法，该方法能够减少对背景的关注权重，增加对搜索区域潜在目标的关注权重，并且能够增强网络的鲁棒性，最终克服背景对跟踪器的干扰。

为解决上述技术问题，本发明采用如下技术方案：

一种基于双注意力机制的目标跟踪方法，包括如下步骤：

步骤1、构建主干网络模型，所述主干网络模型包括检测分支和模板分支，对于给定的若干组模板帧和搜索帧，分别采用模板分支对模板帧、检测分支对搜索帧提取深度特征；

步骤2、将步骤1提取到的模板帧和搜索帧的深度特征分别通过可变形注意力进行有选择性的增强；

步骤3，将步骤2中增强后的模板帧和搜索帧的特征分别通过稀疏注意力进行权重再分配的分层交叉融合，最终得到融合特征；

步骤4，将步骤3中得到的融合特征通过多层感知机预测获得目标的位置和尺度；

步骤5，多层感知机输出每一个检测帧的目标位置信息即完成跟踪。

进一步地，检测分支和模板分支均包括4个卷积层，后一个卷积层的输入为前一个卷积层的输出，通过多层卷积层对输入图像进行特征提取以捕获到更丰富的特征。

进一步地，步骤2中对特征进行有选择性增强的方法为：

对输入的特征图生成均匀网格然后根据网格大小生成参考点；

构建轻量级子网络，将特征图线性投影到query标记为q＝xW_q，然后馈送到轻量级子网络θ_offset(·)以生成参考点的偏移量Δp＝θ_offset(q)；

根据参考点及其偏移量得到变形点，对变形点采用双线性插值从特征映射中采样特征，然后将采样的特征馈送到key和value投影以获得可变形的key和value，最后对可变形的key和value执行多头注意力获得增强特征图。

进一步地，步骤2中参考点的生成方法为：

给定输入特征x∈R^H×W×C，生成一个由点组成的统一网格作为参考；具体来说，从输入特征图大小下采样一个因子r，H_G＝H/r，W_G＝W/r，其中，H表示输入特征图的高，W表示输入特张图的宽，参考点的值是线性间隔的二维坐标{(0,0),…,(H_G-1,W_G-1)}，然后根据网格大小H_G×W_G将其归一化到范围[-1,1]，其中(-1,-1)表示网格左上角，(1,1)表示网格右下角，这样就获得了参考点的坐标。

进一步地，轻量级子网络包括两个具有非线性激活的卷积模块，在轻量级子网络中，输入特征首先通过5×5深度卷积层来捕获局部特征，然后采用GELU激活和1×1卷积层获得参考点的偏移量。

进一步地，根据变形点获得特征增强图的方法为：

在变形点的位置对特征进行采样作为key和value，得到投影矩阵：

q＝xW_q,

withΔp＝θ_offset(q),

式中，分别表示变形后的key、value，W_k表示线性映射，W_v表示线性映射，φ(·；·)为采样函数；其中，采样函数φ(·；·)设置为：

在获得变形的key和value后，对q、k、v执行多头注意力，并采用相对位置偏移R获得增强特征图，注意力头的输出公式为：

式中，m表示注意力头数，z表示输出，σ表示softmax操作，T表示转置操作，d表示维度。

进一步地，步骤3中稀疏注意力模块工作机制为：

首先，对步骤2得到的增强特征计算query和key的相似度矩阵，然后采用softmax函数对相似度矩阵每行的K个最大元素进行归一化，其他元素置0；最后将相似度矩阵和value相乘，得到最终融合结果；其中，softmax函数为：

SMHA＝SoftMax(TopK(QK^T))V^T；

式中，TopK表示只对QK^T的每行取K个最大值进行归一化，其余置0。

进一步地，在步骤3中在得到融合特征钱，先将步骤2中的可变形注意力和步骤3中的稀疏注意力组成跟踪器的特征融合网络，其中，特征融合网络描述为：

F_ZD ^m＝DFA(F_ZS ^m-1,F_XS ^m-1,F_XS ^m-1)；

F_ZS ^m＝SFA(F_ZD ^m,F_XD ^m-1,F_XD ^m-1)；

F_XD ^m＝DFA(F_XS ^M,F_ZS ^m-1,F_ZS ^m-1)；

F_XS ^m＝SFA(F_XD ^m,F_ZD ^m,F_ZD ^m)；

其中，m表示当前特征融合层，m-1表示上一层，ZD表示模板分支的基于可变形注意力的DFA模块，ZS表示模板分支的基于稀疏注意力的SFA模块，XD表示搜索分支的基于可变形注意力的DFA模块，XS表示搜索分支的基于稀疏注意力的SFA模块。

进一步地，步骤4中的多层感知机包括两个分支：回归分支和分类分支；选择响应于标签的特征向量的预测为正样本，其余为负样本，对多层感知机进行训练；其中，所有样本都有助于分类损失，而只有正样本有助于回归损失；采样上述的分类损失和回归损失作为多层感知机的损失函数对多层感知机进行训练；最后，通过若干层的特征融合层得到融合特征向量输入到训练后的多层感知机中得到目标的位置和尺度信息。

进一步地，使用标准的二元交叉熵损失作为分类损失，其定义为：

ζ_cls＝-∑_j[y_jlog(p(y_j))+(1-y_j)log(1-p(y_j))]；

其中，y_j表示第j个样本的真实标签，y_j＝1时表示前景，y_j＝0时表示背景，p(y_j)表示第j个样本的预测标签是真实标签的概率；

对于回归损失，采用了L₁范数损失ζ₁和广义交并比损失ζ_GIoU，具体为：

式中，表示只关注样本中属于目标的点，b_j表示算法结果的第j个回归框，/>表示Ground-truth的回归框，采用了l_GIOU损失和常用的l₁损失，λ_G和λ₁是超参数。

与现有技术相比，本发明的有益效果为：本发明提出了基于可变形注意力和稀疏注意力的特征融合网络，确保网络在提取模板帧和搜索帧深度特征之后，能够通过可变形注意力使网络聚焦最关注信息；并通过稀疏注意力对模板帧和搜索帧增强后的特征进行融合，减少对背景的关注权重，相对的增加对搜索区域潜在目标的关注权重。经过这两次的操作从而增强网络的鲁棒性，最终克服背景对跟踪器的干扰。

附图说明

图1是本发明实施例基于双注意力机制的目标跟踪方法的整体框架图；

图2是本发明实施例可变形注意力网络结构图；

图3是本发明实施例稀疏注意力网络结构图。

具体实施方式

下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合具体实施例对本发明作进一步说明，但不作为本发明的限定。

本发明实施例提供一种基于双注意力机制的目标跟踪方法，其主要思想是：通过可变形注意力使网络聚焦最关注信息；并通过稀疏注意力对模板帧和搜索帧增强后的特征进行融合，减少对背景的关注权重，相对的增加对搜索区域潜在目标的关注权重。经过这两次的操作从而增强网络的鲁棒性，最终克服背景对跟踪器的干扰。如图1所示，本发明实施例具体包括如下步骤：

步骤1，构建主干网络模型，该主干网络模型包括两个分支，分别为检测分支和模板分支，如图1所示。对于给定的若干组模板帧和搜索帧，采用模板分支对模板帧、检测分支对搜索帧提取深度特征；步骤1中对模板帧和搜索帧的特征提取的具体过程如下：

模板帧和搜索帧特征提取过程完全一致，下面以模板帧为例进行说明。模板帧包括4个卷积模块，其中第2、3、4个卷积模块使用到了相同的结构-残差块(由三个卷积层组成，首先通过1×1卷积压缩通道(4倍)，然后3×3卷积，1×1卷积还原到原来的维度，最后还有个1×1卷积从输入直接连接到输出，实现残差相加。如果卷积过程中进行下采样(第一个步长不等于1)或者通道数要发生变化(输入不等于输出)时，残差的1×1卷积的步长变成能够与输出分辨率匹配的大小(如stride＝2))。在本实施例中，第一个卷积模块包括64个7×7卷积核的卷积层和3×3的最大池化层，其步长都为2。第二个卷积模块包括64个1×1卷积核的卷积层、64个3×3卷积核的卷积层、256个1×1卷积核的卷积层，步长都为1。第三个卷积模块包括128个1×1卷积核的卷积层、128个3×3卷积核的卷积层、512个1×1卷积核的卷积层，步长都为2。第四个卷积模块包括256个1×1卷积核的卷积层、256个3×3卷积核的卷积层、1024个1×1卷积核的卷积层，步长都为2。其中，前一个卷积模块的输出为后一个卷积模块的输入，通过这4个卷积模块的特征提取，后面的每一个卷积模块都可以输出比上一个卷积模块更多有效信息，这样得到的模板帧和搜索帧深度特征会更加丰富，为后面的特征融合和目标定位提供更加鲁棒性的特征。

步骤2，将步骤1提取到的模板帧和搜索帧的深度特征分别通过可变形注意力进行有选择性的增强；

在该步骤中提出可变形注意力机制，以在特征图中重要区域的指导下有效地对标记之间的关系进行建模。这些聚焦区域由多组变形采样点确定，这些变形采样点是通过偏移网络从query中学习到的。本实施例采用双线性插值从特征映射中采样特征，然后将采样的特征馈送到key和value投影以获得可变形的key和value。最后，应用标准的多头注意力得到增强的特征图。此外，变形点的位置提供了更强大的相对位置偏差，以促进可变形注意的学习。如图2所示，给定输入特征图生成点的均匀网格作为参考。具体来说，网格大小从输入特征图大小下采样一个因子r，H_G＝H/r，W_G＝W/r，其中，H表示输入特征图的高，W表示输入特征图的宽，参考点的值是线性间隔的二维坐标{(0,0),…,(H_G-1,W_G-1)}，然后根据网格形状H_G×W_G将它们归一化到范围[-1,1]，其中(-1,-1)表示左上角(1,1)表示右下角，这样就获得了参考点。为了获得每个参考点的偏移量，将特征图线性投影到query标记为q＝xW_q，然后馈送到轻量级子网络θ_offset(·)以生成偏移量Δp＝θ_offset(q)。使用query特征设计的子网络用于生成偏移量并分别输出参考点的偏移值。考虑到每个参考点覆盖一个局部s×s区域(s是偏移量的最大值)，生成网络也应该具有局部特征的感知，以学习合理的偏移量。因此，在本实施例中将轻量级子网络设置为两个具有非线性激活的卷积模块。在轻量级子网络中，输入特征首先通过5×5深度卷积来捕获局部特征；然后，采用GELU激活和1×1卷积来获得2D偏移量。同样值得注意的是，1×1卷积中的偏差被降低以减轻所有位置的强制偏移。

在获得参考点以及其对应的偏移量后将两者相加获得变形点。在变形点的位置对特征进行采样作为key和value，得到投影矩阵：

其中，分别表示变形后的key、value，W_k表示线性映射、W_v表示线性映射具体来说，在本实施例中将采样函数φ(·；·)设置为双线性插值以使其可微分：

式中，(r_x，r_y)表示特征图上的整数像素点，(p_x，p_y)表示要进行插值的点，x表示整个特征图。g(a,b)＝max(0,1-|a-b|)和(r_x,r_y)索引中所有位置。由于g仅在最接近(p_x,p_y)的4个积分点上非零，因此它简化了公式(3)为4个位置的加权平均值。在获得变形后的key和value，对q、k、v执行多头注意力，并采用相对位置偏移R，其中，注意力头的输出公式为：

为了促进变形点的多样性，本实施例在多头自注意力中遵循类似的范例，并将特征通道分成G组。来自每个组的特征使用共享轻量级子网络分别生成相应的偏移量。在实践中，注意模块的头数M设置为偏移组G大小的倍数，以确保将多个注意头分配给一组变形的key和value。

步骤3，将步骤2中增强后的模板帧和搜索帧特征分别通过稀疏注意力进行权重再分配的分层交叉融合，最终得到融合特征；

在经过步骤2的处理后，每个注意力特征的每个像素值都是由输入特征的所有像素值来计算的，这使得前景边缘区域变得模糊。为此，本实施例还提出了稀疏注意力方法，在稀疏注意力方法中，注意力特征的每个像素值都只由与其最相似的K个像素值决定，这使得前景更加集中，前景边缘区域更加具有分辨力。具体如图3所示，首先，对步骤2得到的增强特征图计算query和key的相似度矩阵，然后仅使用softmax函数对相似矩阵每行的K个最大元素进行归一化，其他元素置0；最后将相似度矩阵和value相乘，得到最终结果；其中，softmax函数为：

SMHA＝SoftMax(TopK(QK^T))V^T； (5)

图3右侧展示了两种注意力归一化的区别，原始注意力放大了相对较小的相似权重，这使得输出特征容易受到噪声和背景干扰的影响。然而，稀疏注意力可以显著缓解这个问题。

为了减少对背景的关注权重，相对的增加对搜索区域潜在目标的关注权重，本实施例将结合步骤2的可变形注意力和步骤3的稀疏注意力组成跟踪器的特征融合网络，该特征融合网络首先使可变形注意力聚焦最关注信息，然后采用稀疏注意力减少对背景的关注，两者一起克服目标背景对跟踪的影响。具体地，该特征融合网络可以用如下公式描述：

F_ZD ^M＝DFA(F_ZS ^M-1,F_XS ^m-1,F_XS ^m-1)； (6)

F_ZS ^m＝SFA(F_ZD ^m,F_XD ^m-1,F_XD ^m-1) ； (7)

F_XD ^m＝DFA(F_XS ^m,F_ZS ^m-1,F_ZS ^m-1)； (8)

F_XS ^m＝SFA(F_XD ^m,F_ZD ^m,F_ZD ^m)； (9)

式中，m表示当前特征融合层，m-1表示上一层，ZD表示模板分支的基于可变形注意力的DFA模块，ZS表示模板分支的基于稀疏注意力的SFA模块，XD表示搜索分支的基于可变形注意力的DFA模块，XS表示搜索分支的基于稀疏注意力的SFA模块。

采用该特征融合网络对输入的特征图进行特征融合得到融合特征。

步骤4，将步骤3中得到的融合特征通过多层感知机预测目标的位置和尺度；

通过若干层的特征融合层得到融合特征向量并将其输入到预测头(多层感知机)中就能够得到目标的位置和尺度信息。多层感知机包括两个分支：回归分支和分类分支。在本实施例中，选择响应于标签的特征向量的预测为正样本，其余为负样本，对多层感知机进行训练。在训练过程中，所有样本都有助于分类损失，而只有正样本有助于回归损失。本实施例使用标准的二元交叉熵损失作为分类损失，其定义为：

其中，y_j表示第j个样本的真实标签，y_j＝1时表示前景，y_j＝0时表示背景。p(y_j)表示第j个样本的预测标签是真实标签的概率；

对于回归损失，本实施例采用了L₁范数损失ζ₁和广义交并比损失ζ_GIoU，具体为：

将上述的分类损失和回归损失作为多层感知机的损失函数，对其进行训练得到训练后的多层感知机。之后，将通过若干层的特征融合层得到融合特征向量输入到训练后的多层感知机中就能够得到目标的位置和尺度信息。

本实施例还提供了在数据集OTB100(OTB2015)中采用本实施例的方法与其他先进算法的定量比较表，具体如表1(删除线是排名第一、下划线是排名第二)所示，本实施例提出的算法在尺度变化和遮挡的跟踪环境下取得了排名第二的成绩，在快速运动、背景杂乱和运动模糊的跟踪环境下取得了排名第一的成绩，并且排名第二的尺度变化和遮挡与排名第一的差距不大，这正证明了本实施例提出的方法的有效性。

表1 10种跟踪器在OTB数据集上的不同跟踪挑战的成功率

以上仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种基于双注意力机制的目标跟踪方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于双注意力机制的目标跟踪方法，其特征在于，检测分支和模板分支均包括4个卷积层，后一个卷积层的输入为前一个卷积层的输出，通过多层卷积层对输入图像进行特征提取以捕获到更丰富的特征。

3.根据权利要求1所述的基于双注意力机制的目标跟踪方法，其特征在于，步骤2中对特征进行有选择性增强的方法为：

4.根据权利要求3所述的基于双注意力机制的目标跟踪方法，其特征在于，步骤2中参考点的生成方法为：

给定输入特征x∈R^H×W×C，生成一个由点组成的统一网格作为参考。具体来说，从输入特征图大小下采样一个因子r，H_G＝H/r，W_G＝W/r，其中，H表示输入特征图的高，W表示输入特征图的宽，参考点的值是线性间隔的二维坐标{(0,0),…,(H_G-1,W_G-1)}，然后根据网格大小H_G×W_G将其归一化到范围[-1,1]，其中(-1,-1)表示网格左上角，(1,1)表示网格右下角，这样就获得了参考点的坐标。

5.根据权利要求3所述的基于双注意力机制的目标跟踪方法，其特征在于，轻量级子网络包括两个具有非线性激活的卷积模块，在轻量级子网络中，输入特征首先通过5×5深度卷积层来捕获局部特征，然后采用GELU激活和1×1卷积层获得参考点的偏移量。

6.根据权利要求3所述的基于双注意力机制的目标跟踪方法，其特征在于，根据变形点获得特征增强图的方法为：

7.根据权利要求1所述的基于双注意力机制的目标跟踪方法，其特征在于，步骤3中稀疏注意力模块工作机制为：

SMHA＝SoftMax(TopK(QK^T))V^T；

8.根据权利要求1所述的基于双注意力机制的目标跟踪方法，其特征在于，在步骤3中在得到融合特征钱，先将步骤2中的可变形注意力和步骤3中的稀疏注意力组成跟踪器的特征融合网络，其中，特征融合网络描述为：

F_ZD ^m＝DFA(F_ZS ^m-1，F_XS ^m-1，F_XS ^m-1)；

F_ZS ^m＝SFA(F_ZD ^m，F_XD ^m-1，F_XD ^m-1)；

F_XD ^m＝DFA(F_XS ^m，F_ZS ^m-1，F_ZS ^m-1)；

F_XS ^m＝SFA(F_XD ^m，F_XD ^m，F_ZD ^m)；

9.根据权利要求1所述的基于双注意力机制的目标跟踪方法，其特征在于，步骤4中的多层感知机包括两个分支：回归分支和分类分支；选择响应于标签的特征向量的预测为正样本，其余为负样本，对多层感知机进行训练；其中，所有样本都有助于分类损失，而只有正样本有助于回归损失；采样上述的分类损失和回归损失作为多层感知机的损失函数对多层感知机进行训练；最后，通过若干层的特征融合层得到融合特征向量输入到训练后的多层感知机中得到目标的位置和尺度信息。

10.根据权利要求9所述的基于双注意力机制的目标跟踪方法，其特征在于，使用标准的二元交叉熵损失作为分类损失，其定义为：

ζ_cls＝-∑_j[y_jlog(p(y_j))+(1-y_j)log(1-p(y_j))]；