CN116168322A

CN116168322A - 一种基于多模态融合的无人机长时跟踪方法及系统

Info

Publication number: CN116168322A
Application number: CN202310035531.3A
Authority: CN
Inventors: 张志豪; 王珺; 赵健; 张博; 戴华东
Original assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2023-01-10
Filing date: 2023-01-10
Publication date: 2023-05-26
Anticipated expiration: 2043-01-10
Also published as: CN116168322B

Abstract

本发明公开了一种基于多模态融合的无人机长时跟踪方法及系统，包括局部跟踪器、全局重检测器以及局部‑全局转换器；本发明构建基于多模态特征交互融合的局部跟踪器，利用交叉注意力增强多模态特征表达，改善跨模态特征之间的交互查询，通过引入特征自相关与互相关增强搜索特征与模板特征之间的交叉感知，有效消除干扰物对无人机目标的影响；构建基于多模态的全局重检测器，增强网络对无人机目标的空间上下文的全局感知；构建局部‑全局转换器，加强网络对跟踪结果的判别能力，有效缓解了相机移动、目标丢失等因素造成的影响，提升了无人机跟踪模型的鲁棒性。

Description

一种基于多模态融合的无人机长时跟踪方法及系统

技术领域

本发明涉及计算机视觉目标跟踪技术领域，尤其是一种基于多模态融合的无人机长时跟踪方法及系统。

背景技术

目标跟踪旨在利用视频或图像序列的上下文信息，对目标的外观和运动信息进行建模，从而对目标运动状态进行预测并标定目标的位置。一般而言，现有的跟踪方法可分为两条路径：基于传统的相关滤波方法与基于孪生网络的特征匹配方法。

一般而言，基于孪生网络的特征匹配方法通常以单模态为基础，通过共享权重的方式将模板特征与搜索特征相关联，随后使用相关操作在搜索帧中定位和模板帧目标相似的区域，最后执行分类和回归操作来准确定位目标的位置。但这种目标跟踪方法难以获取目标的全局上下文信息。与单模态相对应，基于多模态的跟踪方法通过扩充数据维度，以更全面的视角对目标进行建模，在面临背景噪声大、遮挡效应严重的情况下能够取得较好的效果，但一旦目标丢失或目标出现不平滑移动时，上述方法易陷入空间局部最优解从而导致目标丢失后依然难以再次定位目标。

与上述的短时跟踪方法相反，长时跟踪方法能够能更好的利用目标的空间全局特征，通过局部-全局转换器与重检测器来应对目标丢失、不平滑移动等情况。但这些方法大多仅使用单模态，网络获取的信息有限，在面临背景环境复杂、相似干扰严重时依然存在目标丢失、跟踪失败的现象。

发明内容

针对现有技术存在的问题，本发明的目的在于提供一种基于多模态融合的无人机长时跟踪方法，该方法有效地减弱了背景噪声对跟踪性能所带来的影响，以较低的时间成本换取了高水平的跟踪准确度。本发明的另一目的在于提供一种实施上述方法的基于多模态融合的无人机长时跟踪系统。

为实现上述目的，本发明提供一种基于多模态融合的无人机长时跟踪方法，具体为：

步骤S1：构建数据集，从通用的目标跟踪数据集与RGBT无人机目标跟踪数据集中划分出相应数据用以模型训练与测试；

步骤S2：构建局部跟踪器、全局重检测器、局部-全局转换器；

步骤S3：离线训练局部跟踪器，加载预训练模型swin-transformer，使用AdamW算法训练目标跟踪模型，直至损失收敛，获取训练好的模型参数；

步骤S4：离线训练全局重检测器，加载预训练模型resnet，使用AdamW算法训练检测器，得到优化好的全局重检测器；

步骤S5：在线跟踪，首先获取视频序列第一帧的标签作为初始跟踪目标，然后根据跟踪头的目标分类器与目标定位器选取置信度得分最高的区域，获取初步的跟踪结果，而后，根据两个模态的跟踪结果与历史跟踪信息进行分析，由局部-全局转换器决定是否激活重检测器；

步骤S6：逐步计算每一帧目标跟踪结果，从而实现整个无人机RGBT序列的目标跟踪。

进一步，所述局部跟踪器，将非完全对齐的热红外图像和可见光图像作为目标跟踪模型的输入。

进一步，所述局部跟踪器，基于红外光和可见光两种模态交互，构建短时目标跟踪模型，包括步骤：

步骤1)构建共享权重的双流特征提取模块，利用预训练的swin-transformer骨干网络对可见光图像信息与热成像信息分别进行特征提取，选取其第三个阶段作为特征输出，得到对应的可见光特征图与红外热成像特征图；

步骤2)构建多模态的特征交叉感知模块，对提取的多模态深度特征，通过双分支交叉注意力感知计算融合特征图；

步骤3：构建多模态跟踪头，利用基于注意力机制的解码器，使用多模态模板特征对搜索特征进行查询，获得与搜索图片相匹配的特征向量，而后使用目标分类器与目标回归器对特征向量进行分类回归以获得局部跟踪结果。

进一步，所述步骤2)中，所述双分支交叉注意力感知包括三个阶段：Ego-EnhanceStage，Fusion Stage，Ego-Enhance Stage。

进一步，阶段1：对每个模态分别计算多头自注意力特征头，用以加强无人机自身特征，增强网络对无人机目标特征的感知能力，公式如下：

F_X＝MultiHeadAttention(Q,K^T,V^T)＝Concat(H₁,H₂,…H_n)W^O

其中，Q，K，V分别表示注意力机制的查询、健、值；W^O表示多头注意力的权重矩阵，Concat表示特征拼接操作，最终将上述输出与初始特征进行残差连接，得到基于注意力的单模态残差输出，H_i表示单个注意力头的输出，T表示转置。

进一步，H_i表示单个注意力头的输出，公式如下：

其中，Q，K，V分别表示注意力机制的查询、健、值，其经过1*1的卷积变换输入到上述公式当中，d_k表示尺度因子，在计算过程中，Q和K将先建立关联而后通过softmax函数生成注意力矩阵，T表示转置。

进一步，阶段2：对阶段1输出的两个模态特征向量，通过互换查询向量的方式进行交叉注意力感知，得到两个特征融合向量F₁，F₂，进而拼接两向量得到多模态融合向量F_M，公式如下：

F₁＝MultiHeadAttention(F_IR,F_RGB,F_RGB)

F₂＝MultiHeadAttention(F_RGB,F_IR,F_IR)

F_c＝Concat(F₁,F₂)

上式中F₁与F₂分别表示双向融合向量，F_M表示经拼接后的融合向量，F_IR与F_RGB分别表示上一阶段红外模态与可见光模态的输出特征。

进一步，阶段3：重复阶段1，得到第二次特征加强后的双模融合特征图。

进一步，将Faster-RCNN作为全局重检测器，在整个图像上对无人机目标进行搜索，对所述图像进行特征提取、RPN网络、ROI Pooling以及分类器，得到全局检测结果，并作为最终的跟踪结果。

一种基于多模态融合的无人机长时跟踪系统，该系统用于实施上述基于多模态融合的无人机长时跟踪方法。

本发明构建基于多模态特征交互融合的局部跟踪器，利用交叉注意力增强多模态特征表达，改善跨模态特征之间的交互查询，通过引入特征自相关与互相关增强搜索特征与模板特征之间的交叉感知，有效消除干扰物对无人机目标的影响；构建基于多模态的全局重检测器，增强网络对无人机目标的空间上下文的全局感知；构建局部-全局转换器，加强网络对跟踪结果的判别能力，有效缓解了相机移动、目标丢失等因素造成的影响，提升了无人机跟踪模型的鲁棒性。

附图说明

图1是依照本发明的整体流程图；

图2是依照本发明的多模态的特征交叉感知模块示意图；

图3是在代表性的挑战场景下，选取2帧图像展示可见光跟踪能结果和红外跟踪结果；

图4是在公开的反无人机数据集Anti-UAV数据上进行对比实验结果指标图。

具体实施方式

下面将结合附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以下结合图1-图4对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

本发明一种基于多模态融合的无人机长时跟踪方法，构建一个无人机目标跟踪模型，首先利用已有的RGBT无人机目标跟踪数据集进行离线训练，得到一个基于多模融合的局部跟踪器与一个全局检测器。在线跟踪时，根据模板帧所确定的待跟踪目标对可见光与红外热成像两个模态的视频数据进行跟踪，得到局部跟踪结果；而后局部-全局转换器将当前跟踪结果与历史跟踪结果相结合，从而对跟踪结果的正确性进行判定；若转换器认为当前跟踪结果发生错误，则会激活全局重检测器，从而对整个图像进行全局搜索以得到最终结果。

其中，局部跟踪器：将热成像图像与可见光图像作为模型输入，在受限区域内根据模板图像对搜索图像进行交互查询，得到局部跟踪结果。

全局重检测器：在全局范围内，使用无人机检测器对输入图像对进行检测，得到全局跟踪结果。

局部-全局转换器：根据局部跟踪结果与历史结果，利用启发式的局部-全局转换算法对局部跟踪结果进行判定，而后根据判定结果来选择是否激活全局重检测器进行全局重检测。

本发明一种基于多模态融合的无人机长时跟踪方法，包括如下步骤：

步骤S1：构建数据集，从公开的反无人机数据集Anti-UAV、RGBT无人机目标跟踪数据集、通用目标跟踪数据集中划分出训练集与测试集，划分出相应数据用以模型训练与测试。

步骤S2：构建局部跟踪器、全局跟踪器、局部-全局转换器，所述局部跟踪器、局部-全局转换器、全局重检测器，具体如下：

步骤S2.1：利用已有的无人机视频序列，将半配准(非完全对齐)的可见光与红外热成像图像作为本方法的输入，按照视频序列成对地输入至目标跟踪模型。

步骤S2.2：构建基于共享权重的双流特征提取模块，利用预训练的swin-transformer骨干网络对RGB图像信息与热成像信息分别进行特征提取，选取其第三个阶段作为特征输出，得到对应的RGB特征图与红外热成像特征图。

步骤S2.3：构建多模态的特征交叉感知模块，如图2所示，针对步骤S2.2所提取的特征，通过双分支交叉注意力感知计算融合特征图，以利用多模态之间的互补性，提高多模态信息利用率，增强多模态融合质量。

所述双分支交叉注意力感知包括三个阶段：Ego-Enhance Stage，Fusion Stage，Ego-Enhance Stage，具体如下：

阶段1：对每个模态分别计算多头自注意力特征头，用以加强无人机自身特征，增强网络对无人机目标特征的感知能力，公式如下：

F_X＝MultiHeadAttention(Q,K^T,V^T)＝Concat(H₁,H₂,…H_n)W^O

上式中，W^O表示多头注意力的权重矩阵，Concat表示特征拼接操作，Q，K，V分别表示注意力机制的查询、健、值，T表示转置，最终将上述输出与初始特征进行残差连接，得到基于注意力的单模态残差输出，H_i表示单个注意力头的输出，公式如下：

/>

上式中，Q，K，V分别表示注意力机制的查询、健、值，T表示转置，其经过1*1的卷积变换输入到上述公式当中，d_k表示尺度因子，在计算过程中，Q和K将先建立关联而后通过softmax函数生成注意力矩阵。

阶段2：对阶段1输出的两个模态特征向量，通过互换查询向量的方式进行交叉注意力感知，得到两个特征融合向量F₁，F₂，进而拼接两向量得到多模态融合向量F_M，公式如下所示：

F₁＝MultiHeadAttention(F_IR,F_RGB,F_RGB)

F₂＝MultiHeadAttention(F_RGB,F_IR,F_IR)

F_M＝Concat(F₁,F₂)

上式中F₁与F₂分别表示双向融合向量，F_M表示经拼接后的融合向量，F_IR与F_RGB分别表示上一阶段红外模态与可见光模态的输出特征，Concat表示拼接。

阶段3：重复阶段1，得到第二次特征加强后的双模融合特征图。

步骤S2.4：构建多模态跟踪头，所述多模态跟踪头包括三个部分：基于注意力机制的特征交互融合模块、目标分类器与目标回归器。其中,搜索图像与模板图像经骨干网络与多模态特征融合网络得到相应搜索特征与模板特征，通过构建基于注意力机制的特征交互融合模块，基于注意力机制的特征交互融合模块将搜索特征与模板特征相融合从而代替传统的相关操作。

在此过程中，本发明将模板特征作为查询向量，将搜索特征作为健和值，得到第一阶段融合后的向量，随后使用多头自相关模块对融合后的特征增强无人机的特征表示。

而目标分类器与目标回归器以多层感知机的方式，构建目标分类器与目标回归器，以判定目标在图像指定区域内是否存在以及其相应的坐标位置信息。

步骤S2.5构建局部-全局转换器，所述局部-全局转换器利用多模态先验知识，将特征融合与决策融合两种策略相结合，既能解决目标不平滑移动又能兼顾到复杂背景所导致的跟踪失败。局部-全局转换器利用多模态信息与历史跟踪结果对当前的跟踪结果的正确性进行判定，若转换器认为当前跟踪结果出现偏差，则激活全局检测器对当前帧进行重检测，以获得更精确的跟踪结果。所述局部-全局转化器以多模态跟踪先验知识为基础，构建启发式的局部-全局转换算法，对局部跟踪结果进行判定，为全局重检测器提供先决保证，为保证所述方法对跟踪错误有着较好的识别准确率，为了更全面得对跟踪错误进行识别，本发明考虑如下三种情形：

1、本发明为局部跟踪结果设定置信度阈值，若局部跟踪结果置信度低于指定阈值，本方法将该跟踪结果判定为跟踪失败；

2、若步骤1判定为成功，而后本发明将基于多模态先验知识，对局部跟踪结果进行判定，若发现可见光模态下的目标与红外热成像模态下的目标距离相距过远，则将该跟踪结果判定为跟踪失败；

3、若以上两个跟踪失败条件均未触发，本发明将根据历史跟踪结果与当前跟踪结果相结合，若两者相差过远，则该跟踪结果将被判定为失败。

步骤S2.6：构建全局重检测器，根据公开的无人机目标图像进行离线训练以得到经优化的目标检测器，在整个图像上对无人机目标进行搜索，本发明将Faster-RCNN作为全局重检测器，对所述图像进行特征提取、RPN网络、ROI Pooling以及分类器，得到全局检测结果，并作为最终的跟踪结果。

步骤S3：模型训练，离线训练局部跟踪器，加载预训练模型swin-transformer至局部跟踪器，遵循多域学习策略，将损失函数Loss分为可见光模态损失与红外模态损失两个部分，而其中每个模态又可以细分为分类损失与回归损失，公式如下：

Loss＝λ₁L_RGB+λ₂L_IR

其中参数λ₁表示可见光模态下的所占的损失权重，λ₂表示红外模态下的所占的损失权重平衡两个模态的训练损失，L_RGB与L_IR分别表示可见光损失与红外热成像损失，每个模态具体包含回归损失与分类损失，公式如下：

上式中，L_cls表示分类损失如上为交叉熵损失，p_i表示样本的真实分布，q_i表示模型所预测的分布，L_reg表示回归损失，b_p表示预测框，b_gt表示ground-truth，

表示分类损失所占的权重系数，/>

表示回归损失所占的权重系数，L₁表示预测框与真实框之间的损失，L_giou表示IOU损失。使用AdamW算法训练目标跟踪模型，直至损失收敛，获取训练好的模型参数。

步骤S4：离线训练全局重检测器，加载预训练模型resnet，使用AdamW算法训练检测器，得到优化好的全局重检测器。

步骤S5：在线跟踪，首先获取视频序列第一帧的标签作为初始跟踪目标，然后根据跟踪头的目标分类器与目标定位器选取置信度得分最高的区域，获取初步的跟踪结果，而后：根据两个模态的跟踪结果与历史跟踪信息进行分析，由局部-全局转换器决定是否激活重检测器。

为了验证跟踪模型的有效性，在公开的反无人机数据集Anti-UAV数据上进行对比实验并提供了一个典型的实施例，请参照图1与上述步骤搭建局部跟踪器与全局重检测器，具体步骤与参数如下：

1、构建基于共享权重的双流特征提取模块，采用swin-transformer384作为骨干网络，将裁剪后的图像经swin-transformer网络处理得到特征图，随后通过卷积操作使其输出维度固定为256，并将三维特征resize成二维，具体计算如下：

其中swin表示骨干网络，

表示红外模态下的经裁剪后的搜索图像，/>

表示红外模态下的经裁剪后的模板图像，/>

表示红外模态下搜索图像的特征输出，/>

表示红外模态下模板图像的特征输出，/>

表示可见光模态下的经裁剪后的搜索图像，/>

表示可见光模态下的经裁剪后的模板图像，/>

表示可见光模态下搜索图像的特征输出，/>

表示可见光模态下模板图像的特征输出。

2、构建多模态的特征交叉感知模块，请参照图2与步骤S2.3，本实施例将多头注意力函数的head设置为8，3、dropout参数设置为0.1，前馈网络输出维度为2048，第一个阶段的输出维度固定为256，经第二阶段的拼接操作使其输出维度增加至512，经最终的Ego-Enhance阶段，输出维度为512；具体计算如下：

F_IR＝MultiHeadAttention(Q,K^T,V^T)

F_RGB＝MultiHeadAttention(Q,K^T,V^T)

F₁＝MultiHeadAttention(F_IR,F_RGB,F_RGB)

F₂＝MultiHeadAttention(F_RGB,F_IR,F_IR)

F_M＝Concat(F₁,F₂)

F_out＝MultiHeadAttention(F_M,F_M,F_M)

其中Concat表示特征拼接操作，MultiHeadAttention表示多头注意力函数Q，K，V分别表示注意力机制的查询、健、值，T表示转置，F_IR与F_RGB分别表示所提取的特征经阶段1操作下两个模态的特征输出，F₁与F₂分别表示双向融合向量，F_M表示经拼接后的融合向量，F_out表示多模态的特征交叉感知模块的输出。

3、构建多模态跟踪头，其中基于注意力机制的特征交互融合模块中的注意力头的个数设置为8，dropout参数设置为0.1，前馈网络输出维度为2048；每个模态均设置独立的目标分类器与目标定位器，目标分类器为三层全连接网络，隐藏层维度为256，最终输出的通道数为2用于表示前景与背景，目标定位器也设计为三层全连接网络，隐藏层维度为256，最终输出的通道数为4用于表示归一化的目标框坐标，具体如下：

reg＝FFN(F)

cls＝FFN(F)

上式中，MultiHeadAttention表示多头注意力函数，

表示多模融合后的模板特征，/>

表示多模融合后的搜索特征，F表示注意力输出，FFN

表示前馈网络，reg表示目标坐标值，cls表示目标背景与前景分类结果。

4、参照步骤S2.5与图1，构建局部-全局转换器，对于步骤S2.5中的条件一，将置信度阈值设定为0.65，若局部跟踪器输出置信度低于0.65，则判定为跟踪失败；对于步骤S2.5中的条件二，若两模态的当前跟踪结果的归一化中心坐标相差0.3，则判定为跟踪失败；对于步骤S2.5中的条件三，若前一帧与当前帧归一化坐标与归一化面积相差0.3，则判定为跟踪失败。

5、参照步骤S2.6与图1，构建全局重检测器，以Faster-CNN为检测模型搭建重检测器。

上述实施例在反无人机数据集上的测试结果及各项指标如图4所示。与目前最先进的多模态跟踪方法相比，本发明的在Anti-UAV数据集上的准确度与成功率均有显著提升。图4中(a)、(c)为红外模态下与可见光模态下的成功率图，success plot横坐标为重叠阈值，纵坐标为最大成功率；(b)、(d)为红外模态下与可见光模态下的准确率数据图，precision plot横坐标表示定位错误阈值，纵坐标为最大准确率，准确率分数和成功率分数分别如图所示，本发明方法为SiamFusion，SiamRPN、Stark、TransT、DiaSiamRPN为现有其他同类跟踪方法。

最后，选取具有代表性的挑战场景作为示例用于定性分析跟踪性能，选取其中2帧图像展示，如图3所示，上排可见光跟踪能结果，下排位红外跟踪结果。可以看到，本发明方法在复杂的环境下，包括建筑物遮挡与极端照明环境以及视野丢失等各种挑战情形下都能取得良好的效果。

本发明的有益效果是：提供了高效的准确地RGBT无人机跟踪技术，相比现有技术具有如下优势：

(1)本发明提供了多模态特征融合模块，通过结合可见光模态与红外热成像模态的相关性，从数据层面出发对无人机特征进行了扩充，弥补了单模态目标跟踪的缺陷，利用多头使网络更关注与无人机自身特征，有效地减弱了背景噪声对跟踪性能所带来的影响。

(2)本发明提出了基于多模态的长时跟踪框架，通过设计启发式的局部-全局转换器，利用重检测机制有效地避免了由于目标不平滑移动所带来的的挑战，以较低的时间成本换取了高水平的跟踪准确度。

Claims

1.一种基于多模态融合的无人机长时跟踪方法，其特征在于，该方法具体为：

2.如权利要求1所述的基于多模态融合的无人机长时跟踪方法，其特征在于，所述局部跟踪器，将非完全对齐的热红外图像和可见光图像作为目标跟踪模型的输入。

3.如权利要求2所述的基于多模态融合的无人机长时跟踪方法，其特征在于，所述局部跟踪器，基于红外光和可见光两种模态交互，构建短时目标跟踪模型，包括步骤：

步骤1）构建共享权重的双流特征提取模块，利用预训练的swin-transformer骨干网络对可见光图像信息与热成像信息分别进行特征提取，选取其第三个阶段作为特征输出，得到对应的可见光特征图与红外热成像特征图；

步骤2）构建多模态的特征交叉感知模块，对提取的多模态深度特征，通过双分支交叉注意力感知计算融合特征图；

4.如权利要求1所述的基于多模态融合的无人机长时跟踪方法，其特征在于，所述步骤2）中，所述双分支交叉注意力感知包括三个阶段：Ego-Enhance Stage，Fusion Stage，Ego-Enhance Stage。

5.如权利要求4所述的基于多模态融合的无人机长时跟踪方法，其特征在于，阶段1：对每个模态分别计算多头自注意力特征头，用以加强无人机自身特征，增强网络对无人机目标特征的感知能力，公式如下：

其中，Q，K，V分别表示注意力机制的查询、健、值；

表示多头注意力的权重矩阵，Concat表示特征拼接操作，最终将上述输出与初始特征进行残差连接，得到基于注意力的单模态残差输出，/>

表示单个注意力头的输出，T表示转置。

6.如权利要求5所述的基于多模态融合的无人机长时跟踪方法，其特征在于，

表示单个注意力头的输出，公式如下：/>

其中，Q，K，V分别表示注意力机制的查询、健、值，其经过1*1的卷积变换输入到上述公式当中，

表示尺度因子，在计算过程中，Q和K将先建立关联而后通过softmax函数生成注意力矩阵，T表示转置。

7.如权利要求5所述的基于多模态融合的无人机长时跟踪方法，其特征在于，阶段2：对阶段1输出的两个模态特征向量，通过互换查询向量的方式进行交叉注意力感知，得到两个特征融合向量

，/>

，进而拼接两向量得到多模态融合向量/>

，公式如下：

上式中

与/>

分别表示双向融合向量，/>

表示经拼接后的融合向量，/>

与/>

分别表示上一阶段红外模态与可见光模态的输出特征。

8.如权利要求7所述的基于多模态融合的无人机长时跟踪方法，其特征在于，阶段3：重复阶段1，得到第二次特征加强后的双模融合特征图。

9.如权利要求1所述的基于多模态融合的无人机长时跟踪方法，其特征在于，将Faster-RCNN作为全局重检测器，在整个图像上对无人机目标进行搜索，对所述图像进行特征提取、RPN网络、ROI Pooling以及分类器，得到全局检测结果，并作为最终的跟踪结果。

10.一种基于多模态融合的无人机长时跟踪系统，其特征在于，该系统用于实施权利要求1-9中任一项所述的基于多模态融合的无人机长时跟踪方法。