CN116188528A

CN116188528A - 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统

Info

Publication number: CN116188528A
Application number: CN202310035520.5A
Authority: CN
Inventors: 张志豪; 王珺; 赵健; 张博; 戴华东
Original assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2023-01-10
Filing date: 2023-01-10
Publication date: 2023-05-30
Anticipated expiration: 2043-01-10
Also published as: CN116188528B

Abstract

本发明公开了一种基于多阶段注意力机制的RGBT无人机目标跟踪方法及系统，具体为：步骤S1：构建训练、评估数据集，选取公开的GOT10K、OTB100和Anti‑UAV中划分数据，用于模型训练和测试；步骤S2：构建目标跟踪模型；步骤S3：训练离线模型，加载预训练模型swin‑transformer，使用AdamW算法训练目标跟踪模型，直至损失收敛；步骤S4：执行在线跟踪，读取视频序列并获取视频中的第一帧作为模板图像，对标注区域进行裁剪获取初始目标，对后续序列，进行步骤S2中目标跟踪模型，最终完成整个序列跟踪。本发明使用多模态无人机信息，弥补了可见光与红外模态各自的缺陷，使用自注意力机制加强了模型对无人机目标的特征识别能力，使用互注意力机制加强对搜索区域的相似目标判定能力。

Description

基于多阶段注意力机制的RGBT无人机目标跟踪方法及系统

技术领域

本发明涉及计算机视觉目标跟踪技术领域，尤其是一种基于多阶段注意力机制的RGBT无人机目标跟踪方法及系统。

背景技术

目标跟踪旨在一视频序列中定位目标位置，是计算机视觉领域中的一个关键任务，其广泛应用于自动驾驶、环境监测、安保监控等。当前随着无人机的广泛使用，通过目标跟踪实现对无人机状态的感知也变得愈发重要。目前大部分目标跟踪器和目标跟踪数据集大多聚焦于通用物体的目标跟踪，如人体、汽车等大尺度目标上。以孪生模型为基础的跟踪方法，以共享权重的方式将模板图像和待跟踪图像建立联系。它通常包含三个主要步骤：首先我们对输入的两张图像（模板图像和搜索图像）进行特征提取操作，使用共享权重的骨干模型来提取他们各自的特征。由于骨干模型是共享权重的，因此两张图像的相同目标将会产生相似的响应。随后，使用相关操作在搜索帧中定位和模板帧目标相似的区域。

而无人机由于目标运动模糊、快速运动、低分辨率以及背景复杂等因素，倘若单一模态（可见光或红外）将通用目标跟踪方法迁移到无人机跟踪任务中则不可避免地会出现目标丢失、跟踪漂移等现象，因此设计一个高性能的无人机目标跟踪器依然是一个具有挑战性的问题。

与单模态的目标跟踪相反，利用多个模态的互补性能在一定程度上缓解无人机跟踪难题，然而在多模融合问题上又易出现信息冗余、错误信息累积等难题，因此在多模融合算法设计上仍然存在一定的提升空间。

发明内容

针对现有技术存在的问题，本发明的目的在于提供一种基于多阶段注意力机制的RGBT无人机目标跟踪方法，该方法加强了模型对无人机目标的特征识别能力，使用互注意力机制加强对搜索区域的相似目标判定能力。本发明的另一目的在于提供一种实施上述方法的基于多阶段注意力机制的RGBT无人机目标跟踪系统。

为实现上述目的，本发明基于多阶段注意力机制的RGBT无人机目标跟踪方法，具体为：

步骤S1：构建训练、评估数据集，选取公开的GOT10K、OTB100和Anti-UAV中划分数据，用于模型训练和测试；

步骤S2：构建目标跟踪模型；

步骤S3：训练离线模型，加载预训练模型swin-transformer，使用AdamW算法训练目标跟踪模型，直至损失收敛；

步骤S4：执行在线跟踪，读取视频序列并获取视频中的第一帧作为模板图像，对标注区域进行裁剪获取初始目标，对后续序列，进行步骤S2中目标跟踪模型，最终完成整个序列跟踪。

进一步，所述步骤S2中，目标跟踪模型包括特征提取模块、多层次特征融合模块、互相关模块、目标分类器、目标定位器，具体如下：

步骤S2.1：构建共享权重的双分支特征提取模块，利用swin-transformer作为预训练主干模型，输出其最后一层特征；

步骤S2.2：构建多层次特征融合模块，针对步骤S2.1所提取的特征图，以双分支三阶段来进行特征融合，以交叉查询的方式提高模型对多模态之间的信息的利用，引导一个模态向另一个模态查询隐含特征；

步骤S2.3：构建互相关模块，利用注意力机制，实现模板图像与搜索图像之间的交叉感知；

步骤S2.4：构建目标分类器，目标分类器由三层全连接层构成，最终输出为一个维度为1024*2的向量；

步骤S2.5：构建目标定位器，目标定位器由三层全连接组成，输出维度为1024*4，分别目标框的归一化坐标。

进一步，所述步骤S2.2中，在特征融合的第一个阶段，使用自注意力机制以增强模型对目标区域的感知能力，公式如下：

上式中，X表示由特征提取模块之后所得到的特征，

表示特征经嵌入层的输出，FFN表示三层带残差的全连接函数，/>

表示第一阶段的输出，/>

表示中间特征；

MultiHead函数表示多头注意力函数，公式如下：

在上式的Q，K和V分别表示查询、键和值，均经过1×1卷积进行变维，

表示尺度因子，/>

表示第i个单个注意力函数输出，/>

表示多头注意力拼接的权重矩阵，n表示注意力头的个数，T表示转置，Concat表示级联操作，/>

表示查询向量的权重系数矩阵，/>

表示键向量的权重系数矩阵，/>

表示值向量的权重系数矩阵；

进一步，所述步骤S2.2中，在特征融合的第二个阶段，使用互注意力机制将两个模态的特征进行融合交互，使两个模态的特征分别作为查询向量交叉使用注意力机制，公式如下：

/>

上式中，

表示上一个阶段红外分支的输出，/>

表示上一阶段可见光模态的输出，

与/>

分别表示本阶段两个分支的输出，/>

表示经过融合之后的此阶段的输出,Concat表示级联操作；

进一步，所述步骤S2.2中，在特征融合的第三个阶段，再次使用与第一阶段相同的操作，使用自注意力机制以增强模型对目标区域的感知能力。

进一步，所述步骤S2.3包含两个步骤：

第一步：通过互注意力机制实现不同向量之间的交叉查询，将搜索特征作为key和value,将模板特征作为query，FFN表示三层带残差的全连接函数，如下公式所示：

上式中，

表示搜索特征，/>

表示模板特征，/>

表示融合之后的特征,/>

表示融合之后的特征；

第二步：通过自注意力机制增强模型对无人机目标的特征感知，加强对目标的定位能力，进而提高目标的识别准确度，具体如公式所示：

表示第一阶段的融合之后的特征，/>

表示最终输出，FFN表示三层带残差的全连接函数，/>

表示中间特征。

进一步，所述步骤S3中，在ImageNet上加载预训练模型Swin-transformer，重复步骤S2.1-S2.5，并使用AdamW算法训练模型直至损失下降收敛，设计迭代次数为100，除backbone模型外，其他层的学习率设置为1e-5，batchsize设置为32，根据目标所在图像的位置与大小生成目标大小两倍的正样本，其他区域均为负样本。

进一步，所述步骤S3中，模型在大规模目标跟踪数据集上进行训练，在训练至20轮后，再使用Anti-UAV数据集进行训练。

一种基于多阶段注意力机制的RGBT无人机目标跟踪系统，该系统用于实施上述基于多阶段注意力机制的RGBT无人机目标跟踪方法。

本发明一种基于多阶段注意力机制的RGBT无人机目标跟踪方法及系统，使用多模态无人机信息，弥补了可见光与红外模态各自的缺陷，使用自注意力机制加强了模型对无人机目标的特征识别能力，使用互注意力机制加强对搜索区域的相似目标判定能力。

附图说明

图1为本发明总体框架图；

图2为多层次特征融合模块示意图；

图3为本发明中反无人机数据集中的测试结果图。

具体实施方式

下面将结合附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以下结合图1-图3对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

本发明基于多阶段注意力机制的RGBT无人机目标跟踪方法，基于红外模态和可见光模态的特征融合交互，构建一个目标跟踪模型，图1为本发明提出的基于多阶段注意力机制的RGBT目标跟踪的总体框架图，图2为发明中基于多层次注意力机制特征融合框架示意图。本发明中，首先利用已有的反无人机RGBT目标跟踪数据集与通用目标跟踪数据集对模型进行离线训练，在线跟踪时根据模板帧对跟踪模型进行初始化，提取其模板特征，而后根据视频序列依次进行跟踪；所述目标跟踪方法包含特征提取模块、多层次多模态融合模块、互相关模块、目标分类器、目标定位器。

本发明基于多阶段注意力机制的RGBT无人机目标跟踪方法，包括如下步骤：

步骤S1：构建训练、评估数据集，从公开的反无人可见光目标跟踪数据集中划分用于训练、验证、测试的数据集，并分析每个视频序列，将数据集划分成不同难度等级。选取公开的GOT10K、OTB100和Anti-UAV中划分数据，用于模型训练和测试。具体地，为了使得模型具有更高的适应性，本发明首先将传统可见光数据集作为预训练数据集，而后针对无人机这一特定目标，将使用Anti-UAV数据集进行更进一步的训练。将热成像和可见光图像两种模态的无人机图像作为本目标跟踪方法的输入。

步骤S2：构建目标跟踪模型，包括特征提取模块、多层次特征融合模块、互相关模块、目标分类器、目标定位器，具体如下：

步骤S2.1：构建共享权重的双分支特征提取模块，利用swin-transformer作为预训练主干模型，输出其最后一层特征，特别地，本发明特征提取模块包含两个分支，分别用于提取不同模态的深度特征，不同分支之间的权重不共享，从而避免了不同模态之间的信息干扰，在一定程度上减少了错误累计与信息冗余。

步骤S2.2：构建多层次特征融合模块，如图2所示，针对步骤S2.1所提取的特征图，以双分支三阶段来进行特征融合，以交叉查询的方式提高模型对多模态之间的信息的利用，引导一个模态向另一个模态查询隐含特征。

对步骤S2.1所得的两个模态的特征进行特征级融合交互，计算多模态融合特征图，所述多模态特征融合模块利用自注意力机制与互注意力机制，并以多阶段的方式进行多层次的特征融合交互。

在特征融合的第一个阶段，使用自注意力机制以增强每个模态自身的上下文特征，使用自注意力机制以增强模型对目标区域的感知能力，公式如下：

上式中，X表示由特征提取模块之后所得到的特征，

表示第一阶段的输出，/>

表示中间特征，MultiHead函数表示多头注意力函数，公式如下：

表示尺度因子，公式中的/>

表示查询向量的权重系数矩阵，/>

表示键向量的权重系数矩阵，

表示值向量的权重系数矩阵；

在特征融合的第二个阶段，使用互注意力机制将两个模态的特征进行融合交互，使两个模态的特征分别作为查询向量交叉使用注意力机制，公式如下：

上式中，

表示上一个阶段红外分支的输出，/>

表示上一阶段可见光模态的输出，

与/>

分别表示本阶段两个分支的输出，/>

表示经过融合之后的此阶段的输出,Concat表示级联操作；

在特征融合的第三个阶段，再次使用与第一阶段相同的操作，使用自注意力机制以增强融合后的特征，使用自注意力机制以增强模型对目标区域的感知能力。

步骤S2.3：构建互相关模块，包含两层基于注意力机制的互相关子网络，通过注意力机制使网络更关注与目标特征减少干扰物对跟踪的影响。本文利用注意力机制，实现模板图像与搜索图像之间的交叉感知，将所得的基于搜索的多模态融合特征图与基于模板的多模态融合特征图以注意力机制为基础，进行相关操作。

具体包含两个步骤，第一步通过互注意力机制实现不同向量之间的交叉查询，将搜索特征作为key和value,将模板特征作为query，如下公式所示：

上式中，

表示搜索特征，/>

表示模板特征，/>

表示中间特征,/>

表示融合之后的特征，FFN表示三层带残差的全连接函数。

在构建互相关模块的第二步，本发明通过自注意力机制，增强模型对无人机目标的特征感知，加强对目标的定位能力，进而提高目标的识别准确度，具体如公式所示：

表示第一阶段的融合输出，/>

表示最终输出，FFN表示三层带残差的全连接函数，/>

为中间特征。

步骤S2.4构建目标分类器，所述目标分类器由三层全连接层构成，用于判定图片对应位置是否存在目标，并使用softmax函数计算二分类损失。最终输出为一个维度为1024*2的向量，分别对应原始图像中的像素块，其输出值0,1分别代表像素块中是否包含目标。

步骤S2.5构建目标定位器，所述目标定位器由三层全连接组成，输出目标对应包围盒坐标位置信息。输出维度为1024*4，分别目标框的归一化坐标。

步骤S3：构建离线模型训练，在ImageNet上加载预训练模型Swin-transformer，重复步骤S2.1-S2.5，并使用AdamW算法训练模型直至损失下降收敛，设计迭代次数为100，除backbone模型外，其他层的学习率设置为1e-5，batchsize设置为32，根据目标所在图像的位置与大小生成目标大小两倍的正样本，其他区域均为负样本；模型在大规模目标跟踪数据集上进行训练，在训练至20轮后，再使用Anti-UAV数据集进行训练。

步骤S4：执行在线跟踪，读取视频序列并获取视频中的第一帧作为模板图像，将第一帧作为模板帧，对目标跟踪模型进行初始化，得到模板特征。将搜索图像输入到目标跟踪模型中，对标注区域进行裁剪获取初始目标，对后续序列，依次进行S2中所列步骤，选取置信度得分最高的区域作为初步结果，最终完成整个序列跟踪。

为了验证跟踪模型的有效性，本发明提供一实施例并在反无人机数据集上进行了对比实验，与目前先进的多模态跟踪方法相比，如图3所示，本发明SiamSTA在遮挡、小目标、视野丢失、尺寸变换等挑战性问题上均具有突出表现，具体参数设置与步骤如下：

1、请参照图1与步骤步骤S2.1，构建特征提取器，该特征提取器由swin-transformer骨干网络构成，其WindowSize为12，PatchSize为4，嵌入层维度为128，最终输出维度为256，注意力头的个数为8，具体计算如下：

/>

其中swin表示骨干网络，

表示红外模态下的经裁剪后的搜索图像，/>

表示红外模态下的经裁剪后的模板图像，/>

表示红外模态下搜索图像的特征输出，/>

表示红外模态下模板图像的特征输出，/>

表示可见光模态下的经裁剪后的搜索图像，/>

表示可见光模态下的经裁剪后的模板图像，/>

表示可见光模态下搜索图像的特征输出，/>

表示可见光模态下模板图像的特征输出。

2、请参照图2与步骤S2.2，构建多层次特征融合模块，该模块共三个阶段，每个阶段多注意力头的个数为8，前馈网络隐藏层维度为2048，dropout参数设置为0.1，第一个阶段的输出维度固定为256，经第二阶段的拼接操作使其输出维度增加至512，经第三阶段，输出为512，具体计算如下：

上式中，

表示特征融合的第一个阶段所进行的操作，/>

表示特征融合的第二个阶段所进行的操作，/>

3表示特征融合的第三个阶段所进行的操作，/>

表示红外模态下经裁剪后的输入图像，/>

表示可见光模态下经裁剪后的输入图像，/>

表示位置编码，/>

表示第一阶段红外分支下的输出，/>

表示第一阶段可见光分支下的输出，/>

表示第二阶段下输出的融合向量，/>

表示多层次特征融合模块最终输出。

3、请参照图1与步骤S2.3，构建互相关模块，该模块可分为两层，每层均包含注意力函数，其注意力头的个数设置为8，dropout参数设置为0.1，前馈网络输出维度为2048，具体如下所示：

上式中，

表示搜索特征，/>

表示模板特征，/>

与/>

表示中间特征,/>

表示第一层融合之后的特征，FFN表示三层带残差的全连接函数，/>

表示最终输出，FFN表示三层带残差的全连接函数，/>

表示多头注意力。

4、请参照图1、步骤S2.3与步骤S2.4，构建目标定位器与目标分类器，目标分类器为三层全连接网络，隐藏层维度为256，最终输出的通道数为2用于表示前景与背景，目标定位器也设计为三层全连接网络，隐藏层维度为256，最终输出的通道数为4用于表示归一化的目标框坐标。

5、请参照步骤S3进行离线训练，将损失函数设计为分类损失与回归损失，其中分类损失为交叉熵损失，回归损失包含目标框与预测框的L1损失与IOU损失；而后使用AdamW算法训练模型直至损失下降收敛，学习率设置为1e-5，batchsize设置为32，模型在大规模目标跟踪数据集上进行训练，在训练至20轮后，再使用Anti-UAV数据集进行训练。

本发明中，还提供一种基于多阶段注意力机制的RGBT无人机目标跟踪系统，该系统用于实施上述基于多阶段注意力机制的RGBT无人机目标跟踪方法。

本发明提出的一种基于多阶段注意力机制的RGBT无人机目标跟踪方法及系统，使用多模态无人机信息，弥补了可见光与红外模态各自的缺陷，使用自注意力机制加强了网络对无人机目标的特征识别能力，使用互注意力机制加强对搜索区域的相似目标判定能力。本发明属于深度学习领域，目标跟踪方法包含特征提取步骤、多模态特征融合步骤与互相关步骤，特征提取步骤用以对输入数据进行特征提取以得到对应的模板特征和搜索特征，多模态特征融合步骤利用注意力机制将两个模态的特征进行交互融合，实现两种模态的互补增强，互相关步骤将对搜索特征与模板特征进行互相关操作以确定目标所在位置。

Claims

1.基于多阶段注意力机制的RGBT无人机目标跟踪方法，其特征在于，该方法具体为：

步骤S2：构建目标跟踪模型；

2.如权利要求1所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法，其特征在于，所述步骤S1中，将传统可见光数据集作为预训练数据集，针对无人机特定目标，使用Anti-UAV数据集进行更进一步的训练；将热成像和可见光图像两种模态的无人机图像作为所述方法的输入。

3.如权利要求1所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法，其特征在于，所述步骤S2中，目标跟踪模型包括特征提取模块、多层次特征融合模块、互相关模块、目标分类器、目标定位器，具体如下：

4.如权利要求3所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法，其特征在于，所述步骤S2.2中，在特征融合的第一个阶段，使用自注意力机制以增强模型对目标区域的感知能力，公式如下：

上式中，X表示由特征提取模块之后所得到的特征，

表示第一阶段的输出；

MultiHead函数表示多头注意力函数，公式如下：

/>

表示尺度因子，

表示第i个单个注意力函数输出，/>

表示查询向量的权重系数矩阵，/>

表示键向量的权重系数矩阵，/>

表示值向量的权重系数矩阵。

5.如权利要求4所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法，其特征在于，所述步骤S2.2中，在特征融合的第二个阶段，使用互注意力机制将两个模态的特征进行融合交互，使两个模态的特征分别作为查询向量交叉使用注意力机制，公式如下：

上式中，

表示上一个阶段红外分支的输出，/>

表示上一阶段可见光模态的输出，/>

与

分别表示本阶段两个分支的输出，/>

表示经过融合之后的此阶段的输出,Concat表示级联操作。

6.如权利要求5所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法，其特征在于，所述步骤S2.2中，在特征融合的第三个阶段，再次使用与第一阶段相同的操作，使用自注意力机制以增强模型对目标区域的感知能力。

7.如权利要求3所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法，其特征在于，所述步骤S2.3包含两个步骤：

第一步：通过互注意力机制实现不同向量之间的交叉查询，将搜索特征作为key和value,将模板特征作为query，如下公式所示：

上式中，

表示搜索特征，/>

表示模板特征，/>

表示融合之后的特征,/>

表示最终互注意力函数输出；

表示第一阶段的融合之后的特征，/>

表示最终输出，/>

表示中间特征。

8.如权利要求1所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法，其特征在于，所述步骤S3中，在ImageNet上加载预训练模型Swin-transformer，重复步骤S2.1-S2.5，并使用AdamW算法训练模型直至损失下降收敛，设计迭代次数为100，除backbone模型外，其他层的学习率设置为1e-5，batchsize设置为32，根据目标所在图像的位置与大小生成目标大小两倍的正样本，其他区域均为负样本。

9.如权利要求1所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法，其特征在于，所述步骤S3中，模型在大规模目标跟踪数据集上进行训练，在训练至20轮后，再使用Anti-UAV数据集进行训练。

10.基于多阶段注意力机制的RGBT无人机目标跟踪系统，其特征在于，该系统用于实施如权利要求1-9中任一项所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法。