CN116645625A

CN116645625A - 基于卷积Transformer联合的目标跟踪方法

Info

Publication number: CN116645625A
Application number: CN202310250878.XA
Authority: CN
Inventors: 程杰标; 吴文娟; 邹远炳
Original assignee: Yunjing Technology Co ltd
Current assignee: Yunjing Technology Co ltd
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-08-25

Abstract

本发明公开了一种基于卷积Transformer联合的目标跟踪方法，包括以下步骤：S1：获取训练视频集和测试视频集；S2：构建CTFormer骨干网络，将视频送入构建网络中；S3:采用CAM模块对两分支特征进行增强；S4：自适应动态调整搜索区域的跟踪；S5：将特征响应图送入目标跟踪网络中，完成目标分类定位。本发明提取响应图中高于一定阈值的响应点，得到包含目标信息的候选图像，并放入训练好的回归模型进行位置预测，能够在不损失过多性能下降低算法复杂度，提升算法效率，同时还能提升目标位置准确性，能够获得更好的跟踪效果和更快的跟踪速度。

Description

基于卷积Transformer联合的目标跟踪方法

技术领域

本发明属于模式识别与智能计算、图像处理的技术领域，特别涉及一种基于卷积Transformer联合的目标跟踪方法。

背景技术

视频目标跟踪是计算机视觉领域中一个重要的方向，在军事、医学、安防、无人驾驶等领域有广泛的应用。但是在实际工程中经常存在目标姿态变化、背景干扰、遮挡、尺度变化等情况影响跟踪效果。此外，算法是否满足实时性也是评价跟踪算法是否能够应用的重要指标。因此在满足实时性的前提下，提高算法在复杂场景中的跟踪精度具有重要意义。

近年来基于孪生网络的跟踪方法因其具有精度高、速度快的特点成为目标跟踪算法的主流方向。SiamFC全面完整地将孪生网络引入目标跟踪中，将目标跟踪看作为简单的相似性度量问题。使用浅层网络AlexNet提取特征，使用卷积度量两分支的相似性，为后续的发展提供了一个新的方向。SiamRPN将检测领域中的区域提议网络引入到跟踪算法中，一定程度上解决了SiamFC的尺度问题，跟踪精度和速度有了一定的提高，但是RPN的引入带来了部分超参，使得网络对于超参过于敏感。SiamRPN++和SiamDW通过深度分析孪生网络跟踪算法的特点，将骨干网络从浅层的AlexNet、GoogleNet等推广到了深层的ResNet，为后续的发展提供了扎实的基础。2020年同时期提出的SiamFC++和SiamCAR算法再一次将目标检测中的Anchor-Free的策略引入到跟踪领域中，缓解了超参敏感的问题，提升了跟踪精度。2021年流行的TransT、STARK、TrDiMP等方法在孪生网路上引入了Transformer进行特征的增强和融合，对算法的跟踪效果带来了较大幅度的提升。

然而，基于Siamese网络的跟踪算法仅仅考虑响应图中最大响应点，而忽略了其他响应点重要性，没有对其进行综合考虑，这样可能会降低对目标位置预测的精确性。同时在尺度方面，大多数算法只取几个不同的系数对目标尺度进行预测或借鉴R-CNN中的回归思想对目标周围截取大量图像进行回归预测来定位目标的精确位置。前者算法只是对目标尺度乘以不同的尺度系数，并找出响应值最高的尺度框作为目标的最终位置，当目标发生较大尺度变化时缺少相应的尺度系数，预测能力显著降低；后者算法在回归预测环节提取大量图像样本特征，增加算法的运算量，降低算法效率。

虽然当前基于Transformer的目标跟踪方法性能获得了极大的提高，但是目前为止其本质上只是简单使用Transformer进行特征的增强和融合，没有充分利用Transformer的长距离依赖属性，无法完全发挥出Transformer的优势。此外Transformer相对于卷积神经网络具有更高的计算量，导致相关算法的网络过于臃肿难以真正投入使用，而且因其长距离依赖属性导致在提取视觉特征时有天然的缺陷无法获取丰富的局部信息,而卷积神经网络恰好在此方面有一定优势。

发明内容

基于此，因此本发明的首要目地是提供一种基于卷积Transformer联合的目标跟踪方法，该方法能够获得更好的跟踪效果和更快的跟踪速度。

本发明的另一个目地在于提供一种人基于卷积Transformer联合的目标跟踪方法，该方法以卷积和窗口注意力串联的方式和层次化的结构构建了一个通用的目标跟踪骨干网络CTFormer，利用互注意力机制构建了特征互增强与聚合网络简化了网络结构，降低计算量并提高跟踪速度；同时，结合目标运动速度估计提出自适应调整搜索区域的跟踪策略，进一步提高跟踪精度。

为实现上述目的，本发明的技术方案为：

一种基于卷积Transformer联合的目标跟踪方法，其特征在于包括以下步骤：

S1：获取训练视频集和测试视频集；

S2：构建CTFormer骨干网络，将视频送入构建网络中；

S3:采用CAM模块对两分支特征进行增强；

S4：自适应动态调整搜索区域的跟踪；

S5：将特征响应图送入目标跟踪网络中，完成目标分类定位。

本发明采用一种基于区域建议的回归模型，提取响应图中高于一定阈值的响应点，得到包含目标信息的候选图像，并放入训练好的回归模型进行位置预测，能够在不损失过多性能下降低算法复杂度，提升算法效率，同时还能提升目标位置准确性，能够获得更好的跟踪效果和更快的跟踪速度。

其中，S1步骤中：获取训练视频集和测试视频集；所述训练视频集和测试视频集从无人机目标跟踪视频数据集中获得。

S2步骤中：构建CTFormer骨干网络，整个网络由浅层特征提取层、CTFromer模块、池化层组成，分为4个阶段,各个阶段的CTFromer模块数量设置为{2，2，8，2}；其中浅层特征提取层直接使用EfficientNetV2网络的前三个阶段来提取底层特征，同时调整该层输出通道数为96，总步长为4，特征图分辨率降低4倍；池化层为简单的2倍下采样并调整输出通道数为输入的2倍。

其中，卷积Transformer结合的模块命名为CTFromer，所述CTFromer模块由归一化层(LN)、卷积层(Conv)、多层感知器层(MLP)、窗口注意力层(WMSA)组成，其中x^l为第l层的输入，x^l+1为第l+1层输入也为第l层的输出，x^l+2为第l+1层输出；具体计算过程如下所示：

使用窗口注意力代替原Transformer中计算量庞大的全局自注意力。其中窗口注意力层仅在固定尺寸为8的窗口内计算局部注意力，相对于全局注意力具有更小的计算量，虽然无法像全局注意力一样建模全局特性，但使用局部注意力相对全局注意力在实际跟踪任务中仅有细微的精度损失。为了弥补精度的损失，在前端接入了一个同样以卷积代替全局注意力的类Transformer模块，二者串联成对出现组成CTFromer模块。

S3步骤中：采用CAM模块对两分支特征进行增强；所述CAM模块采用残差网络的思想结合多头互注意、归一化、前馈神经网络设计而成，整个CAM模块的计算过程可以描述为如下所示：

其中X_q为本分支的输入，P_q为X_q的空间位置编码，X_kv为另一分支的输入，P_kv为X_kv的空间位置编码，位置编码均由正弦函数生成。进而可以通过多头互注意力(MHCA)获得两分支的相似性后结合残差连接及归一化获得初步聚合增强后的本分支特征然后经过由两个线性变换和一个ReLU激活函数组成的前馈神经网络进行空间变换增加模型的表现能力、最终通过残差连接和归一化获得聚合增强后本分支特征X_CAM。

CAM模块交叉使用，分别对两分支的特征进行增强，组成特征互增强与聚合网络。对其重复多次获取更具有判别性的特征，同时也可借助CAM模块度量两分支的相似性，获得相应图。

S4步骤中：自适应动态调整搜索区域的跟踪；

首先设置初始搜索区域放大倍数为3，进行跟踪获取连续5帧的目标中心点位置(x_i,y_i)、(x_i+1,y_i+1)、(x_i+2,y_i+2)、(x_i+3,y_i+3)，计算相邻两帧的中心点偏差如下式所示：

(△x₁,△y₁)＝(|x_i+1-x_i|,|y_i+1-y_i|)

(△x₂,△y₂)＝(|x_i+2-x_i+1|,|y_i+2-y_i+1|)

(△x₃,△y₃)＝(|x_i+3-x_i+2|,|y_i+3-y_i+2|)

(△x₄,△y₁)＝(|x_i+4-x_i+2|,|y_i+4-y_i+3|)

并计算相对于x轴和y轴运动距离的最大值如下式所示：

d₁＝max(△x₁,△y₁)；d₂＝max(△x₂,△y₂)

d₃＝max(△x₃,△y₃)；d₄＝max(△x₄,△y₄)

根据4个相邻两帧运动距离的最大值d₁,d₂,d₃,d₄调整搜索区域的放大倍数s。设置搜索区域放大倍数s和d₁,d₂,d₃,d₄的关系如下式所示：

该策略相对于固定搜索区域放大倍数的策略具有更好的性能，而且能够减少大尺寸目标图像不必要的Padding操作，提高推理速度。

与现有技术相比，本发明的有益效果如下：

本发明充分利用卷积神经网络与Transfomer的特性，在特征提取方面，利用卷积丰富的局部信息和Transformer的长距离依赖属性，以卷积和窗口注意力串联的方式和层次化的结构构建了一个通用的目标跟踪骨干网络CTFormer；在特征融合方面，仅利用互注意力机制构建了特征互增强与聚合网络简化了网络结构，抛弃了繁琐的编码-解码过程，降低计算量并提高跟踪速度；在搜索区域选择方面，结合目标运动速度估计提出自适应调整搜索区域的跟踪策略，进一步提高跟踪精度。

实验表明本发明提高了特征提取的能力，增强了复杂环境下的跟踪效果，有效的提高了无人机跟踪准确率，具有良好的泛化能力和适用范围。

附图说明

图1为本发明实施例的基于卷积Transformer联合的目标跟踪算法方法的流程图。

图2为CTTrack网络结构的示意图。

图3为CTFormer网络的示意图。

图4为CAM模块的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明所实现的本发明基于卷积Transformer联合的目标跟踪算法方法，包括以下步骤：

S1：获取训练视频集和测试视频集；

训练视频集和测试视频集从无人机目标跟踪视频数据集中获得。

S2：构建CTFormer骨干网络，将视频送入构建网络中；

本发明为了充分结合卷积和Transformer优势，设计了卷积Transformer结合的模块命名为CTFromer。该模块由归一化层(LN)、卷积层(Conv)、多层感知器层(MLP)、窗口注意力层(WMSA)组成，其中x^l为第l层的输入，x^l+1为第l+1层输入也为第l层的输出，x^l+2为第l+1层输出。具体计算过程如下所示：

使用窗口注意力代替原Transformer中计算量庞大的全局自注意力。其中窗口注意力层仅在固定尺寸为8的窗口内计算局部注意力，相对于全局注意力具有更小的计算量，虽然无法像全局注意力一样建模全局特性，但使用局部注意力相对全局注意力在实际跟踪任务中仅有细微的精度损失。为了弥补精度的损失，在前端接入了一个同样以卷积代替全局注意力的类Transformer模块，二者串联成对出现组成CTFromer模块。卷积的添加使不同的窗口间有了一定的信息交互，使得窗口注意力不单局限于某个窗口内，能够获得更加鲁棒的图像特征。

整个网络由浅层特征提取层、CTFromer模块、池化层组成，分为4个阶段,各个阶段的CTFromer模块数量设置为{2，2，8，2}。其中浅层特征提取层直接使用EfficientNetV2网络的前三个阶段来提取底层特征，同时调整该层输出通道数为96，总步长为4，特征图分辨率降低4倍。池化层为简单的2倍下采样并调整输出通道数为输入的2倍。这样便构成了典型的金字塔结构，特征图的分辨率随着不同阶段的深入逐渐减小，通道数逐渐增大。

S3：采用CAM模块对两分支特征进行增强；

CAM模块采用残差网络的思想结合多头互注意、归一化、前馈神经网络设计而成，整个CAM模块的计算过程可以描述为如下所示：

CAM交叉使用，分别对两分支的特征进行增强，组成特征互增强与聚合网络。对其重复多次获取更具有判别性的特征，同时也可借助CAM模块度量两分支的相似性，获得相应图。使用此结构，相对于STARK、TrDiMP重复6次繁琐的编码-解码的结构有更低的计算量，不需要额外的计算各个分支自注意力进行自增强的过程，维持性能不降低的同时提高了跟踪速度。

S4：自适应动态调整搜索区域的跟踪；

固定放大倍数的搜索区域无法处理跟踪中的复杂情况，跟踪任务中目标的运动是不均匀的，而且存在较大的视角变化，搜索区域选择过大，搜索区域中可能包含过多干扰物导致跟踪漂移；搜索区域选择过小，当目标快速运动时，目标可能会离开视野无法跟踪。针对这一问题，本发明提出了一个简单的通过运动估计动态调整搜索区域的跟踪策略。首先设置初始搜索区域放大倍数为3，进行跟踪获取连续5帧的目标中心点位置(x_i,y_i)、(x_i+1,y_i+1)、(x_i+2,y_i+2)、(x_i+3,y_i+3)，计算相邻两帧的中心点偏差如下式所示：

(△x₁,△y₁)＝(|x_i+1-x_i|,|y_i+1-y_i|)

(△x₂,△y₂)＝(|x_i+2-x_i+1|,|y_i+2-y_i+1|)

(△x₃,△y₃)＝(|x_i+3-x_i+2|,|y_i+3-y_i+2|)

(△x₄,△y₁)＝(|x_i+4-x_i+2|,|y_i+4-y_i+3|)

并计算相对于x轴和y轴运动距离的最大值如下式所示：

d₁＝max(△x₁,△y₁)；d₂＝max(△x₂,△y₂)

d₃＝max(△x₃,△y₃)；d₄＝max(△x₄,△y₄)

S5：将特征响应图送入目标跟踪网络中，完成目标定位。

总之，本发明采用一种基于区域建议的回归模型，提取响应图中高于一定阈值的响应点，得到包含目标信息的候选图像，并放入训练好的回归模型进行位置预测，能够在不损失过多性能下降低算法复杂度，提升算法效率，同时还能提升目标位置准确性。

提取响应图中高于阈值的响应点作为待预测的目标中心点，根据上一帧的目标尺度大小得到每个中心点的目标框，之后把每个目标框内的图像送入回归模型进行预测，最终得到目标的精确位置信息。此模型与传统回归模型中在预测环节提取目标周围大量的样本图像相比，降低了预测环节中输入图像的数量，降低了算法的计算量，在不损失过多性能的条件下提升了算法效率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于卷积Transformer联合的目标跟踪方法，其特征在于包括以下步骤：

S1：获取训练视频集和测试视频集；

S2：构建CTFormer骨干网络，将视频送入构建网络中；

S3:采用CAM模块对两分支特征进行增强；

S4：自适应动态调整搜索区域的跟踪；

2.如权利要求1所述的基于卷积Transformer联合的目标跟踪方法，其特征在于S1步骤中：获取训练视频集和测试视频集；所述训练视频集和测试视频集从无人机目标跟踪视频数据集中获得。

3.如权利要求1所述的基于卷积Transformer联合的目标跟踪方法，其特征在于S2步骤中：构建CTFormer骨干网络，整个网络由浅层特征提取层、CTFromer模块、池化层组成，分为4个阶段,各个阶段的CTFromer模块数量设置为{2，2，8，2}；其中浅层特征提取层直接使用EfficientNetV2网络的前三个阶段来提取底层特征，同时调整该层输出通道数为96，总步长为4，特征图分辨率降低4倍；池化层为简单的2倍下采样并调整输出通道数为输入的2倍；

使用窗口注意力代替原Transformer中计算量庞大的全局自注意力。

4.如权利要求3所述的基于卷积Transformer联合的目标跟踪方法，其特征在于为了弥补精度的损失，在前端接入了一个同样以卷积代替全局注意力的类Transformer模块，二者串联成对出现组成CTFromer模块。

5.如权利要求1所述的基于卷积Transformer联合的目标跟踪方法，其特征在于S3步骤中：采用CAM模块对两分支特征进行增强；所述CAM模块采用残差网络的思想结合多头互注意、归一化、前馈神经网络设计而成，CAM模块的计算过程可以描述为如下所示：

其中X_q为本分支的输入，P_q为X_q的空间位置编码，X_kv为另一分支的输入，P_kv为X_kv的空间位置编码，位置编码均由正弦函数生成；通过多头互注意力(MHCA)获得两分支的相似性后结合残差连接及归一化获得初步聚合增强后的本分支特征然后经过由两个线性变换和一个ReLU激活函数组成的前馈神经网络进行空间变换增加模型的表现能力、最终通过残差连接和归一化获得聚合增强后本分支特征X_CAM。

6.如权利要求1所述的基于卷积Transformer联合的目标跟踪方法，其特征在于S4步骤中：自适应动态调整搜索区域的跟踪；

(△x₁,△y₁)＝(|x_i+1-x_i|,|y_i+1-y_i|)

(△x₂,△y₂)＝(|x_i+2-x_i+1|,|y_i+2-y_i+1|)

(△x₃,△y₃)＝(|x_i+3-x_i+2|,|y_i+3-y_i+2|)

(△x₄,△y₁)＝(|x_i+4-x_i+2|,|y_i+4-y_i+3|)

并计算相对于x轴和y轴运动距离的最大值如下式所示：

d₁＝max(△x₁,△y₁)；d₂＝max(△x₂,△y₂)

d₃＝max(△x₃,△y₃)；d₄＝max(△x₄,△y₄)

根据4个相邻两帧运动距离的最大值d₁,d₂,d₃,d₄调整搜索区域的放大倍数s；

设置搜索区域放大倍数s和d₁,d₂,d₃,d₄的关系如下式所示：