CN116168322A - 一种基于多模态融合的无人机长时跟踪方法及系统 - Google Patents

一种基于多模态融合的无人机长时跟踪方法及系统 Download PDF

Info

Publication number
CN116168322A
CN116168322A CN202310035531.3A CN202310035531A CN116168322A CN 116168322 A CN116168322 A CN 116168322A CN 202310035531 A CN202310035531 A CN 202310035531A CN 116168322 A CN116168322 A CN 116168322A
Authority
CN
China
Prior art keywords
tracking
aerial vehicle
unmanned aerial
mode
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310035531.3A
Other languages
English (en)
Other versions
CN116168322B (zh
Inventor
张志豪
王珺
赵健
张博
戴华东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Defense Technology Innovation Institute PLA Academy of Military Science
Original Assignee
National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Defense Technology Innovation Institute PLA Academy of Military Science filed Critical National Defense Technology Innovation Institute PLA Academy of Military Science
Priority to CN202310035531.3A priority Critical patent/CN116168322B/zh
Publication of CN116168322A publication Critical patent/CN116168322A/zh
Application granted granted Critical
Publication of CN116168322B publication Critical patent/CN116168322B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于多模态融合的无人机长时跟踪方法及系统,包括局部跟踪器、全局重检测器以及局部‑全局转换器;本发明构建基于多模态特征交互融合的局部跟踪器,利用交叉注意力增强多模态特征表达,改善跨模态特征之间的交互查询,通过引入特征自相关与互相关增强搜索特征与模板特征之间的交叉感知,有效消除干扰物对无人机目标的影响;构建基于多模态的全局重检测器,增强网络对无人机目标的空间上下文的全局感知;构建局部‑全局转换器,加强网络对跟踪结果的判别能力,有效缓解了相机移动、目标丢失等因素造成的影响,提升了无人机跟踪模型的鲁棒性。

Description

一种基于多模态融合的无人机长时跟踪方法及系统
技术领域
本发明涉及计算机视觉目标跟踪技术领域,尤其是一种基于多模态融合的无人机长时跟踪方法及系统。
背景技术
目标跟踪旨在利用视频或图像序列的上下文信息,对目标的外观和运动信息进行建模,从而对目标运动状态进行预测并标定目标的位置。一般而言,现有的跟踪方法可分为两条路径:基于传统的相关滤波方法与基于孪生网络的特征匹配方法。
一般而言,基于孪生网络的特征匹配方法通常以单模态为基础,通过共享权重的方式将模板特征与搜索特征相关联,随后使用相关操作在搜索帧中定位和模板帧目标相似的区域,最后执行分类和回归操作来准确定位目标的位置。但这种目标跟踪方法难以获取目标的全局上下文信息。与单模态相对应,基于多模态的跟踪方法通过扩充数据维度,以更全面的视角对目标进行建模,在面临背景噪声大、遮挡效应严重的情况下能够取得较好的效果,但一旦目标丢失或目标出现不平滑移动时,上述方法易陷入空间局部最优解从而导致目标丢失后依然难以再次定位目标。
与上述的短时跟踪方法相反,长时跟踪方法能够能更好的利用目标的空间全局特征,通过局部-全局转换器与重检测器来应对目标丢失、不平滑移动等情况。但这些方法大多仅使用单模态,网络获取的信息有限,在面临背景环境复杂、相似干扰严重时依然存在目标丢失、跟踪失败的现象。
发明内容
针对现有技术存在的问题,本发明的目的在于提供一种基于多模态融合的无人机长时跟踪方法,该方法有效地减弱了背景噪声对跟踪性能所带来的影响,以较低的时间成本换取了高水平的跟踪准确度。本发明的另一目的在于提供一种实施上述方法的基于多模态融合的无人机长时跟踪系统。
为实现上述目的,本发明提供一种基于多模态融合的无人机长时跟踪方法,具体为:
步骤S1:构建数据集,从通用的目标跟踪数据集与RGBT无人机目标跟踪数据集中划分出相应数据用以模型训练与测试;
步骤S2:构建局部跟踪器、全局重检测器、局部-全局转换器;
步骤S3:离线训练局部跟踪器,加载预训练模型swin-transformer,使用AdamW算法训练目标跟踪模型,直至损失收敛,获取训练好的模型参数;
步骤S4:离线训练全局重检测器,加载预训练模型resnet,使用AdamW算法训练检测器,得到优化好的全局重检测器;
步骤S5:在线跟踪,首先获取视频序列第一帧的标签作为初始跟踪目标,然后根据跟踪头的目标分类器与目标定位器选取置信度得分最高的区域,获取初步的跟踪结果,而后,根据两个模态的跟踪结果与历史跟踪信息进行分析,由局部-全局转换器决定是否激活重检测器;
步骤S6:逐步计算每一帧目标跟踪结果,从而实现整个无人机RGBT序列的目标跟踪。
进一步,所述局部跟踪器,将非完全对齐的热红外图像和可见光图像作为目标跟踪模型的输入。
进一步,所述局部跟踪器,基于红外光和可见光两种模态交互,构建短时目标跟踪模型,包括步骤:
步骤1)构建共享权重的双流特征提取模块,利用预训练的swin-transformer骨干网络对可见光图像信息与热成像信息分别进行特征提取,选取其第三个阶段作为特征输出,得到对应的可见光特征图与红外热成像特征图;
步骤2)构建多模态的特征交叉感知模块,对提取的多模态深度特征,通过双分支交叉注意力感知计算融合特征图;
步骤3:构建多模态跟踪头,利用基于注意力机制的解码器,使用多模态模板特征对搜索特征进行查询,获得与搜索图片相匹配的特征向量,而后使用目标分类器与目标回归器对特征向量进行分类回归以获得局部跟踪结果。
进一步,所述步骤2)中,所述双分支交叉注意力感知包括三个阶段:Ego-EnhanceStage,Fusion Stage,Ego-Enhance Stage。
进一步,阶段1:对每个模态分别计算多头自注意力特征头,用以加强无人机自身特征,增强网络对无人机目标特征的感知能力,公式如下:
FX=MultiHeadAttention(Q,KT,VT)=Concat(H1,H2,…Hn)WO
其中,Q,K,V分别表示注意力机制的查询、健、值;WO表示多头注意力的权重矩阵,Concat表示特征拼接操作,最终将上述输出与初始特征进行残差连接,得到基于注意力的单模态残差输出,Hi表示单个注意力头的输出,T表示转置。
进一步,Hi表示单个注意力头的输出,公式如下:
Figure SMS_1
其中,Q,K,V分别表示注意力机制的查询、健、值,其经过1*1的卷积变换输入到上述公式当中,dk表示尺度因子,在计算过程中,Q和K将先建立关联而后通过softmax函数生成注意力矩阵,T表示转置。
进一步,阶段2:对阶段1输出的两个模态特征向量,通过互换查询向量的方式进行交叉注意力感知,得到两个特征融合向量F1,F2,进而拼接两向量得到多模态融合向量FM,公式如下:
F1=MultiHeadAttention(FIR,FRGB,FRGB)
F2=MultiHeadAttention(FRGB,FIR,FIR)
Fc=Concat(F1,F2)
上式中F1与F2分别表示双向融合向量,FM表示经拼接后的融合向量,FIR与FRGB分别表示上一阶段红外模态与可见光模态的输出特征。
进一步,阶段3:重复阶段1,得到第二次特征加强后的双模融合特征图。
进一步,将Faster-RCNN作为全局重检测器,在整个图像上对无人机目标进行搜索,对所述图像进行特征提取、RPN网络、ROI Pooling以及分类器,得到全局检测结果,并作为最终的跟踪结果。
一种基于多模态融合的无人机长时跟踪系统,该系统用于实施上述基于多模态融合的无人机长时跟踪方法。
本发明构建基于多模态特征交互融合的局部跟踪器,利用交叉注意力增强多模态特征表达,改善跨模态特征之间的交互查询,通过引入特征自相关与互相关增强搜索特征与模板特征之间的交叉感知,有效消除干扰物对无人机目标的影响;构建基于多模态的全局重检测器,增强网络对无人机目标的空间上下文的全局感知;构建局部-全局转换器,加强网络对跟踪结果的判别能力,有效缓解了相机移动、目标丢失等因素造成的影响,提升了无人机跟踪模型的鲁棒性。
附图说明
图1是依照本发明的整体流程图;
图2是依照本发明的多模态的特征交叉感知模块示意图;
图3是在代表性的挑战场景下,选取2帧图像展示可见光跟踪能结果和红外跟踪结果;
图4是在公开的反无人机数据集Anti-UAV数据上进行对比实验结果指标图。
具体实施方式
下面将结合附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以下结合图1-图4对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明一种基于多模态融合的无人机长时跟踪方法,构建一个无人机目标跟踪模型,首先利用已有的RGBT无人机目标跟踪数据集进行离线训练,得到一个基于多模融合的局部跟踪器与一个全局检测器。在线跟踪时,根据模板帧所确定的待跟踪目标对可见光与红外热成像两个模态的视频数据进行跟踪,得到局部跟踪结果;而后局部-全局转换器将当前跟踪结果与历史跟踪结果相结合,从而对跟踪结果的正确性进行判定;若转换器认为当前跟踪结果发生错误,则会激活全局重检测器,从而对整个图像进行全局搜索以得到最终结果。
其中,局部跟踪器:将热成像图像与可见光图像作为模型输入,在受限区域内根据模板图像对搜索图像进行交互查询,得到局部跟踪结果。
全局重检测器:在全局范围内,使用无人机检测器对输入图像对进行检测,得到全局跟踪结果。
局部-全局转换器:根据局部跟踪结果与历史结果,利用启发式的局部-全局转换算法对局部跟踪结果进行判定,而后根据判定结果来选择是否激活全局重检测器进行全局重检测。
本发明一种基于多模态融合的无人机长时跟踪方法,包括如下步骤:
步骤S1:构建数据集,从公开的反无人机数据集Anti-UAV、RGBT无人机目标跟踪数据集、通用目标跟踪数据集中划分出训练集与测试集,划分出相应数据用以模型训练与测试。
步骤S2:构建局部跟踪器、全局跟踪器、局部-全局转换器,所述局部跟踪器、局部-全局转换器、全局重检测器,具体如下:
步骤S2.1:利用已有的无人机视频序列,将半配准(非完全对齐)的可见光与红外热成像图像作为本方法的输入,按照视频序列成对地输入至目标跟踪模型。
步骤S2.2:构建基于共享权重的双流特征提取模块,利用预训练的swin-transformer骨干网络对RGB图像信息与热成像信息分别进行特征提取,选取其第三个阶段作为特征输出,得到对应的RGB特征图与红外热成像特征图。
步骤S2.3:构建多模态的特征交叉感知模块,如图2所示,针对步骤S2.2所提取的特征,通过双分支交叉注意力感知计算融合特征图,以利用多模态之间的互补性,提高多模态信息利用率,增强多模态融合质量。
所述双分支交叉注意力感知包括三个阶段:Ego-Enhance Stage,Fusion Stage,Ego-Enhance Stage,具体如下:
阶段1:对每个模态分别计算多头自注意力特征头,用以加强无人机自身特征,增强网络对无人机目标特征的感知能力,公式如下:
FX=MultiHeadAttention(Q,KT,VT)=Concat(H1,H2,…Hn)WO
上式中,WO表示多头注意力的权重矩阵,Concat表示特征拼接操作,Q,K,V分别表示注意力机制的查询、健、值,T表示转置,最终将上述输出与初始特征进行残差连接,得到基于注意力的单模态残差输出,Hi表示单个注意力头的输出,公式如下:
Figure SMS_2
/>
上式中,Q,K,V分别表示注意力机制的查询、健、值,T表示转置,其经过1*1的卷积变换输入到上述公式当中,dk表示尺度因子,在计算过程中,Q和K将先建立关联而后通过softmax函数生成注意力矩阵。
阶段2:对阶段1输出的两个模态特征向量,通过互换查询向量的方式进行交叉注意力感知,得到两个特征融合向量F1,F2,进而拼接两向量得到多模态融合向量FM,公式如下所示:
F1=MultiHeadAttention(FIR,FRGB,FRGB)
F2=MultiHeadAttention(FRGB,FIR,FIR)
FM=Concat(F1,F2)
上式中F1与F2分别表示双向融合向量,FM表示经拼接后的融合向量,FIR与FRGB分别表示上一阶段红外模态与可见光模态的输出特征,Concat表示拼接。
阶段3:重复阶段1,得到第二次特征加强后的双模融合特征图。
步骤S2.4:构建多模态跟踪头,所述多模态跟踪头包括三个部分:基于注意力机制的特征交互融合模块、目标分类器与目标回归器。其中,搜索图像与模板图像经骨干网络与多模态特征融合网络得到相应搜索特征与模板特征,通过构建基于注意力机制的特征交互融合模块,基于注意力机制的特征交互融合模块将搜索特征与模板特征相融合从而代替传统的相关操作。
在此过程中,本发明将模板特征作为查询向量,将搜索特征作为健和值,得到第一阶段融合后的向量,随后使用多头自相关模块对融合后的特征增强无人机的特征表示。
而目标分类器与目标回归器以多层感知机的方式,构建目标分类器与目标回归器,以判定目标在图像指定区域内是否存在以及其相应的坐标位置信息。
步骤S2.5构建局部-全局转换器,所述局部-全局转换器利用多模态先验知识,将特征融合与决策融合两种策略相结合,既能解决目标不平滑移动又能兼顾到复杂背景所导致的跟踪失败。局部-全局转换器利用多模态信息与历史跟踪结果对当前的跟踪结果的正确性进行判定,若转换器认为当前跟踪结果出现偏差,则激活全局检测器对当前帧进行重检测,以获得更精确的跟踪结果。所述局部-全局转化器以多模态跟踪先验知识为基础,构建启发式的局部-全局转换算法,对局部跟踪结果进行判定,为全局重检测器提供先决保证,为保证所述方法对跟踪错误有着较好的识别准确率,为了更全面得对跟踪错误进行识别,本发明考虑如下三种情形:
1、本发明为局部跟踪结果设定置信度阈值,若局部跟踪结果置信度低于指定阈值,本方法将该跟踪结果判定为跟踪失败;
2、若步骤1判定为成功,而后本发明将基于多模态先验知识,对局部跟踪结果进行判定,若发现可见光模态下的目标与红外热成像模态下的目标距离相距过远,则将该跟踪结果判定为跟踪失败;
3、若以上两个跟踪失败条件均未触发,本发明将根据历史跟踪结果与当前跟踪结果相结合,若两者相差过远,则该跟踪结果将被判定为失败。
步骤S2.6:构建全局重检测器,根据公开的无人机目标图像进行离线训练以得到经优化的目标检测器,在整个图像上对无人机目标进行搜索,本发明将Faster-RCNN作为全局重检测器,对所述图像进行特征提取、RPN网络、ROI Pooling以及分类器,得到全局检测结果,并作为最终的跟踪结果。
步骤S3:模型训练,离线训练局部跟踪器,加载预训练模型swin-transformer至局部跟踪器,遵循多域学习策略,将损失函数Loss分为可见光模态损失与红外模态损失两个部分,而其中每个模态又可以细分为分类损失与回归损失,公式如下:
Loss=λ1LRGB2LIR
其中参数λ1表示可见光模态下的所占的损失权重,λ2表示红外模态下的所占的损失权重平衡两个模态的训练损失,LRGB与LIR分别表示可见光损失与红外热成像损失,每个模态具体包含回归损失与分类损失,公式如下:
Figure SMS_3
Figure SMS_4
Figure SMS_5
上式中,Lcls表示分类损失如上为交叉熵损失,pi表示样本的真实分布,qi表示模型所预测的分布,Lreg表示回归损失,bp表示预测框,bgt表示ground-truth,
Figure SMS_6
表示分类损失所占的权重系数,/>
Figure SMS_7
表示回归损失所占的权重系数,L1表示预测框与真实框之间的损失,Lgiou表示IOU损失。使用AdamW算法训练目标跟踪模型,直至损失收敛,获取训练好的模型参数。
步骤S4:离线训练全局重检测器,加载预训练模型resnet,使用AdamW算法训练检测器,得到优化好的全局重检测器。
步骤S5:在线跟踪,首先获取视频序列第一帧的标签作为初始跟踪目标,然后根据跟踪头的目标分类器与目标定位器选取置信度得分最高的区域,获取初步的跟踪结果,而后:根据两个模态的跟踪结果与历史跟踪信息进行分析,由局部-全局转换器决定是否激活重检测器。
步骤S6:逐步计算每一帧目标跟踪结果,从而实现整个无人机RGBT序列的目标跟踪。
为了验证跟踪模型的有效性,在公开的反无人机数据集Anti-UAV数据上进行对比实验并提供了一个典型的实施例,请参照图1与上述步骤搭建局部跟踪器与全局重检测器,具体步骤与参数如下:
1、构建基于共享权重的双流特征提取模块,采用swin-transformer384作为骨干网络,将裁剪后的图像经swin-transformer网络处理得到特征图,随后通过卷积操作使其输出维度固定为256,并将三维特征resize成二维,具体计算如下:
Figure SMS_8
Figure SMS_9
其中swin表示骨干网络,
Figure SMS_12
表示红外模态下的经裁剪后的搜索图像,/>
Figure SMS_13
表示红外模态下的经裁剪后的模板图像,/>
Figure SMS_15
表示红外模态下搜索图像的特征输出,/>
Figure SMS_11
表示红外模态下模板图像的特征输出,/>
Figure SMS_14
表示可见光模态下的经裁剪后的搜索图像,/>
Figure SMS_16
表示可见光模态下的经裁剪后的模板图像,/>
Figure SMS_17
表示可见光模态下搜索图像的特征输出,/>
Figure SMS_10
表示可见光模态下模板图像的特征输出。
2、构建多模态的特征交叉感知模块,请参照图2与步骤S2.3,本实施例将多头注意力函数的head设置为8,3、dropout参数设置为0.1,前馈网络输出维度为2048,第一个阶段的输出维度固定为256,经第二阶段的拼接操作使其输出维度增加至512,经最终的Ego-Enhance阶段,输出维度为512;具体计算如下:
FIR=MultiHeadAttention(Q,KT,VT)
FRGB=MultiHeadAttention(Q,KT,VT)
F1=MultiHeadAttention(FIR,FRGB,FRGB)
F2=MultiHeadAttention(FRGB,FIR,FIR)
FM=Concat(F1,F2)
Fout=MultiHeadAttention(FM,FM,FM)
其中Concat表示特征拼接操作,MultiHeadAttention表示多头注意力函数Q,K,V分别表示注意力机制的查询、健、值,T表示转置,FIR与FRGB分别表示所提取的特征经阶段1操作下两个模态的特征输出,F1与F2分别表示双向融合向量,FM表示经拼接后的融合向量,Fout表示多模态的特征交叉感知模块的输出。
3、构建多模态跟踪头,其中基于注意力机制的特征交互融合模块中的注意力头的个数设置为8,dropout参数设置为0.1,前馈网络输出维度为2048;每个模态均设置独立的目标分类器与目标定位器,目标分类器为三层全连接网络,隐藏层维度为256,最终输出的通道数为2用于表示前景与背景,目标定位器也设计为三层全连接网络,隐藏层维度为256,最终输出的通道数为4用于表示归一化的目标框坐标,具体如下:
Figure SMS_18
reg=FFN(F)
cls=FFN(F)
上式中,MultiHeadAttention表示多头注意力函数,
Figure SMS_19
表示多模融合后的模板特征,/>
Figure SMS_20
表示多模融合后的搜索特征,F表示注意力输出,FFN
表示前馈网络,reg表示目标坐标值,cls表示目标背景与前景分类结果。
4、参照步骤S2.5与图1,构建局部-全局转换器,对于步骤S2.5中的条件一,将置信度阈值设定为0.65,若局部跟踪器输出置信度低于0.65,则判定为跟踪失败;对于步骤S2.5中的条件二,若两模态的当前跟踪结果的归一化中心坐标相差0.3,则判定为跟踪失败;对于步骤S2.5中的条件三,若前一帧与当前帧归一化坐标与归一化面积相差0.3,则判定为跟踪失败。
5、参照步骤S2.6与图1,构建全局重检测器,以Faster-CNN为检测模型搭建重检测器。
上述实施例在反无人机数据集上的测试结果及各项指标如图4所示。与目前最先进的多模态跟踪方法相比,本发明的在Anti-UAV数据集上的准确度与成功率均有显著提升。图4中(a)、(c)为红外模态下与可见光模态下的成功率图,success plot横坐标为重叠阈值,纵坐标为最大成功率;(b)、(d)为红外模态下与可见光模态下的准确率数据图,precision plot横坐标表示定位错误阈值,纵坐标为最大准确率,准确率分数和成功率分数分别如图所示,本发明方法为SiamFusion,SiamRPN、Stark、TransT、DiaSiamRPN为现有其他同类跟踪方法。
最后,选取具有代表性的挑战场景作为示例用于定性分析跟踪性能,选取其中2帧图像展示,如图3所示,上排可见光跟踪能结果,下排位红外跟踪结果。可以看到,本发明方法在复杂的环境下,包括建筑物遮挡与极端照明环境以及视野丢失等各种挑战情形下都能取得良好的效果。
本发明的有益效果是:提供了高效的准确地RGBT无人机跟踪技术,相比现有技术具有如下优势:
(1)本发明提供了多模态特征融合模块,通过结合可见光模态与红外热成像模态的相关性,从数据层面出发对无人机特征进行了扩充,弥补了单模态目标跟踪的缺陷,利用多头使网络更关注与无人机自身特征,有效地减弱了背景噪声对跟踪性能所带来的影响。
(2)本发明提出了基于多模态的长时跟踪框架,通过设计启发式的局部-全局转换器,利用重检测机制有效地避免了由于目标不平滑移动所带来的的挑战,以较低的时间成本换取了高水平的跟踪准确度。

Claims (10)

1.一种基于多模态融合的无人机长时跟踪方法,其特征在于,该方法具体为:
步骤S1:构建数据集,从通用的目标跟踪数据集与RGBT无人机目标跟踪数据集中划分出相应数据用以模型训练与测试;
步骤S2:构建局部跟踪器、全局重检测器、局部-全局转换器;
步骤S3:离线训练局部跟踪器,加载预训练模型swin-transformer,使用AdamW算法训练目标跟踪模型,直至损失收敛,获取训练好的模型参数;
步骤S4:离线训练全局重检测器,加载预训练模型resnet,使用AdamW算法训练检测器,得到优化好的全局重检测器;
步骤S5:在线跟踪,首先获取视频序列第一帧的标签作为初始跟踪目标,然后根据跟踪头的目标分类器与目标定位器选取置信度得分最高的区域,获取初步的跟踪结果,而后,根据两个模态的跟踪结果与历史跟踪信息进行分析,由局部-全局转换器决定是否激活重检测器;
步骤S6:逐步计算每一帧目标跟踪结果,从而实现整个无人机RGBT序列的目标跟踪。
2.如权利要求1所述的基于多模态融合的无人机长时跟踪方法,其特征在于,所述局部跟踪器,将非完全对齐的热红外图像和可见光图像作为目标跟踪模型的输入。
3.如权利要求2所述的基于多模态融合的无人机长时跟踪方法,其特征在于,所述局部跟踪器,基于红外光和可见光两种模态交互,构建短时目标跟踪模型,包括步骤:
步骤1)构建共享权重的双流特征提取模块,利用预训练的swin-transformer骨干网络对可见光图像信息与热成像信息分别进行特征提取,选取其第三个阶段作为特征输出,得到对应的可见光特征图与红外热成像特征图;
步骤2)构建多模态的特征交叉感知模块,对提取的多模态深度特征,通过双分支交叉注意力感知计算融合特征图;
步骤3:构建多模态跟踪头,利用基于注意力机制的解码器,使用多模态模板特征对搜索特征进行查询,获得与搜索图片相匹配的特征向量,而后使用目标分类器与目标回归器对特征向量进行分类回归以获得局部跟踪结果。
4.如权利要求1所述的基于多模态融合的无人机长时跟踪方法,其特征在于,所述步骤2)中,所述双分支交叉注意力感知包括三个阶段:Ego-Enhance Stage,Fusion Stage,Ego-Enhance Stage。
5.如权利要求4所述的基于多模态融合的无人机长时跟踪方法,其特征在于,阶段1:对每个模态分别计算多头自注意力特征头,用以加强无人机自身特征,增强网络对无人机目标特征的感知能力,公式如下:
Figure DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE002
其中,Q,K,V分别表示注意力机制的查询、健、值;
Figure DEST_PATH_IMAGE003
表示多头注意力的权重矩阵,Concat表示特征拼接操作,最终将上述输出与初始特征进行残差连接,得到基于注意力的单模态残差输出,/>
Figure DEST_PATH_IMAGE004
表示单个注意力头的输出,T表示转置。
6.如权利要求5所述的基于多模态融合的无人机长时跟踪方法,其特征在于,
Figure 299389DEST_PATH_IMAGE004
表示单个注意力头的输出,公式如下:/>
Figure DEST_PATH_IMAGE005
Figure DEST_PATH_IMAGE006
其中,Q,K,V分别表示注意力机制的查询、健、值,其经过1*1的卷积变换输入到上述公式当中,
Figure DEST_PATH_IMAGE007
表示尺度因子,在计算过程中,Q和K将先建立关联而后通过softmax函数生成注意力矩阵,T表示转置。
7.如权利要求5所述的基于多模态融合的无人机长时跟踪方法,其特征在于,阶段2:对阶段1输出的两个模态特征向量,通过互换查询向量的方式进行交叉注意力感知,得到两个特征融合向量
Figure DEST_PATH_IMAGE008
,/>
Figure DEST_PATH_IMAGE009
,进而拼接两向量得到多模态融合向量/>
Figure DEST_PATH_IMAGE010
,公式如下:
Figure DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
上式中
Figure DEST_PATH_IMAGE014
与/>
Figure DEST_PATH_IMAGE015
分别表示双向融合向量,/>
Figure DEST_PATH_IMAGE016
表示经拼接后的融合向量,/>
Figure DEST_PATH_IMAGE017
与/>
Figure DEST_PATH_IMAGE018
分别表示上一阶段红外模态与可见光模态的输出特征。
8.如权利要求7所述的基于多模态融合的无人机长时跟踪方法,其特征在于,阶段3:重复阶段1,得到第二次特征加强后的双模融合特征图。
9.如权利要求1所述的基于多模态融合的无人机长时跟踪方法,其特征在于,将Faster-RCNN作为全局重检测器,在整个图像上对无人机目标进行搜索,对所述图像进行特征提取、RPN网络、ROI Pooling以及分类器,得到全局检测结果,并作为最终的跟踪结果。
10.一种基于多模态融合的无人机长时跟踪系统,其特征在于,该系统用于实施权利要求1-9中任一项所述的基于多模态融合的无人机长时跟踪方法。
CN202310035531.3A 2023-01-10 2023-01-10 一种基于多模态融合的无人机长时跟踪方法及系统 Active CN116168322B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310035531.3A CN116168322B (zh) 2023-01-10 2023-01-10 一种基于多模态融合的无人机长时跟踪方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310035531.3A CN116168322B (zh) 2023-01-10 2023-01-10 一种基于多模态融合的无人机长时跟踪方法及系统

Publications (2)

Publication Number Publication Date
CN116168322A true CN116168322A (zh) 2023-05-26
CN116168322B CN116168322B (zh) 2024-02-23

Family

ID=86419431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310035531.3A Active CN116168322B (zh) 2023-01-10 2023-01-10 一种基于多模态融合的无人机长时跟踪方法及系统

Country Status (1)

Country Link
CN (1) CN116168322B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912649A (zh) * 2023-09-14 2023-10-20 武汉大学 基于相关注意力引导的红外与可见光图像融合方法及系统
CN117572885A (zh) * 2023-11-20 2024-02-20 鸣飞伟业技术有限公司 基于无人机热红外相机的夜间追踪方法、系统及相关装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190147602A1 (en) * 2017-11-13 2019-05-16 Qualcomm Technologies, Inc. Hybrid and self-aware long-term object tracking
KR20210096473A (ko) * 2020-01-28 2021-08-05 인하대학교 산학협력단 신뢰도 추정을 통한 글로벌 및 로컬 검색을 기반으로 한 견고한 시각적 물체 추적
CN113989331A (zh) * 2021-11-12 2022-01-28 山西大学 基于上下文多线索信息和自适应响应的长时目标跟踪方法
CN114049381A (zh) * 2021-12-21 2022-02-15 重庆大学 一种融合多层语义信息的孪生交叉目标跟踪方法
CN115100235A (zh) * 2022-08-18 2022-09-23 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种目标跟踪方法、系统及存储介质
CN115170605A (zh) * 2022-06-15 2022-10-11 南京大学 基于多模态交互和多阶段优化的实时rgbt目标跟踪方法
CN115187799A (zh) * 2022-07-04 2022-10-14 河南工业大学 一种单目标长时跟踪方法
CN115205730A (zh) * 2022-06-10 2022-10-18 西安工业大学 一种结合特征增强与模板更新的目标跟踪方法
CN115205326A (zh) * 2022-05-16 2022-10-18 新驱动重庆智能汽车有限公司 结合全局和局部的目标跟踪方法、系统、设备、存储介质
CN115294176A (zh) * 2022-09-27 2022-11-04 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种双光多模型长时间目标跟踪方法、系统及存储介质
CN115375948A (zh) * 2022-09-14 2022-11-22 中国矿业大学 基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络
CN115457417A (zh) * 2022-09-23 2022-12-09 北京理工大学重庆创新中心 一种基于时空注意力知识的长时反无人机视觉跟踪方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190147602A1 (en) * 2017-11-13 2019-05-16 Qualcomm Technologies, Inc. Hybrid and self-aware long-term object tracking
KR20210096473A (ko) * 2020-01-28 2021-08-05 인하대학교 산학협력단 신뢰도 추정을 통한 글로벌 및 로컬 검색을 기반으로 한 견고한 시각적 물체 추적
CN113989331A (zh) * 2021-11-12 2022-01-28 山西大学 基于上下文多线索信息和自适应响应的长时目标跟踪方法
CN114049381A (zh) * 2021-12-21 2022-02-15 重庆大学 一种融合多层语义信息的孪生交叉目标跟踪方法
CN115205326A (zh) * 2022-05-16 2022-10-18 新驱动重庆智能汽车有限公司 结合全局和局部的目标跟踪方法、系统、设备、存储介质
CN115205730A (zh) * 2022-06-10 2022-10-18 西安工业大学 一种结合特征增强与模板更新的目标跟踪方法
CN115170605A (zh) * 2022-06-15 2022-10-11 南京大学 基于多模态交互和多阶段优化的实时rgbt目标跟踪方法
CN115187799A (zh) * 2022-07-04 2022-10-14 河南工业大学 一种单目标长时跟踪方法
CN115100235A (zh) * 2022-08-18 2022-09-23 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种目标跟踪方法、系统及存储介质
CN115375948A (zh) * 2022-09-14 2022-11-22 中国矿业大学 基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络
CN115457417A (zh) * 2022-09-23 2022-12-09 北京理工大学重庆创新中心 一种基于时空注意力知识的长时反无人机视觉跟踪方法
CN115294176A (zh) * 2022-09-27 2022-11-04 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种双光多模型长时间目标跟踪方法、系统及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
PAUL VOIGTLAENDER等: "Siam R-CNN: Visual Tracking by Re-Detection", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
ZHANGYONG TANG等: "Temporal Aggregation for Adaptive RGBT Tracking", 《ARXIV》 *
董美宝;杨涵文;郭文;马思源;郑创;: "多特征重检测的相关滤波无人机视觉跟踪", 图学学报, no. 06, 15 December 2019 (2019-12-15) *
赵世博: "面向挑战性环境的鲁棒位姿估计技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912649A (zh) * 2023-09-14 2023-10-20 武汉大学 基于相关注意力引导的红外与可见光图像融合方法及系统
CN116912649B (zh) * 2023-09-14 2023-11-28 武汉大学 基于相关注意力引导的红外与可见光图像融合方法及系统
CN117572885A (zh) * 2023-11-20 2024-02-20 鸣飞伟业技术有限公司 基于无人机热红外相机的夜间追踪方法、系统及相关装置

Also Published As

Publication number Publication date
CN116168322B (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
CN116168322B (zh) 一种基于多模态融合的无人机长时跟踪方法及系统
US10832432B2 (en) Method for training convolutional neural network to reconstruct an image and system for depth map generation from an image
KR102661954B1 (ko) 이미지 처리 방법 및 이를 수행하는 장치들
US6686844B2 (en) Human interface system using a plurality of sensors
US8917346B2 (en) Focus error estimation in images
KR101781757B1 (ko) 객체 인식을 위한 수중 이미지 처리장치 및 그 방법
CN116188528B (zh) 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统
US10373323B1 (en) Method and device for merging object detection information detected by each of object detectors corresponding to each camera nearby for the purpose of collaborative driving by using V2X-enabled applications, sensor fusion via multiple vehicles
CN111813113B (zh) 仿生视觉自运动感知地图绘制方法、存储介质及设备
CN112464912B (zh) 基于YOLO-RGGNet的机器人端人脸检测方法
CN113936198A (zh) 低线束激光雷达与相机融合方法、存储介质及装置
CN112801051A (zh) 一种基于多任务学习的遮挡行人重识别方法
CN110705566A (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN114170537A (zh) 一种多模态三维视觉注意力预测方法及其应用
CN113327271B (zh) 基于双光孪生网络决策级目标跟踪方法、系统及存储介质
CN108664918B (zh) 基于背景感知相关滤波器的智能车辆前方行人跟踪方法
CN117520589B (zh) 一种局部特征与全局特征融合的跨模态遥感图文检索方法
CN112926557B (zh) 一种训练多模态人脸识别模型的方法以及多模态人脸识别方法
CN114266805A (zh) 一种用于无人机目标跟踪的孪生区域建议网络模型
CN116543283B (zh) 一种考虑模态不确定性的多模态目标检测方法
CN116052108A (zh) 基于Transformer的交通场景小样本目标检测方法及装置
Shahbazi et al. Visual–inertial object tracking: Incorporating camera pose into motion models
CN115601674A (zh) 一种输电工程烟雾隐患识别方法、装置及存储介质
CN115018787A (zh) 一种基于梯度增强的异常检测方法和系统
CN113984055A (zh) 室内导航定位方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant