CN116188528A - 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统 - Google Patents

基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统 Download PDF

Info

Publication number
CN116188528A
CN116188528A CN202310035520.5A CN202310035520A CN116188528A CN 116188528 A CN116188528 A CN 116188528A CN 202310035520 A CN202310035520 A CN 202310035520A CN 116188528 A CN116188528 A CN 116188528A
Authority
CN
China
Prior art keywords
target
model
representing
stage
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310035520.5A
Other languages
English (en)
Other versions
CN116188528B (zh
Inventor
张志豪
王珺
赵健
张博
戴华东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Defense Technology Innovation Institute PLA Academy of Military Science
Original Assignee
National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Defense Technology Innovation Institute PLA Academy of Military Science filed Critical National Defense Technology Innovation Institute PLA Academy of Military Science
Priority to CN202310035520.5A priority Critical patent/CN116188528B/zh
Publication of CN116188528A publication Critical patent/CN116188528A/zh
Application granted granted Critical
Publication of CN116188528B publication Critical patent/CN116188528B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Aiming, Guidance, Guns With A Light Source, Armor, Camouflage, And Targets (AREA)

Abstract

本发明公开了一种基于多阶段注意力机制的RGBT无人机目标跟踪方法及系统,具体为:步骤S1:构建训练、评估数据集,选取公开的GOT10K、OTB100和Anti‑UAV中划分数据,用于模型训练和测试;步骤S2:构建目标跟踪模型;步骤S3:训练离线模型,加载预训练模型swin‑transformer,使用AdamW算法训练目标跟踪模型,直至损失收敛;步骤S4:执行在线跟踪,读取视频序列并获取视频中的第一帧作为模板图像,对标注区域进行裁剪获取初始目标,对后续序列,进行步骤S2中目标跟踪模型,最终完成整个序列跟踪。本发明使用多模态无人机信息,弥补了可见光与红外模态各自的缺陷,使用自注意力机制加强了模型对无人机目标的特征识别能力,使用互注意力机制加强对搜索区域的相似目标判定能力。

Description

基于多阶段注意力机制的RGBT无人机目标跟踪方法及系统
技术领域
本发明涉及计算机视觉目标跟踪技术领域,尤其是一种基于多阶段注意力机制的RGBT无人机目标跟踪方法及系统。
背景技术
目标跟踪旨在一视频序列中定位目标位置,是计算机视觉领域中的一个关键任务,其广泛应用于自动驾驶、环境监测、安保监控等。当前随着无人机的广泛使用,通过目标跟踪实现对无人机状态的感知也变得愈发重要。目前大部分目标跟踪器和目标跟踪数据集大多聚焦于通用物体的目标跟踪,如人体、汽车等大尺度目标上。以孪生模型为基础的跟踪方法,以共享权重的方式将模板图像和待跟踪图像建立联系。它通常包含三个主要步骤:首先我们对输入的两张图像(模板图像和搜索图像)进行特征提取操作,使用共享权重的骨干模型来提取他们各自的特征。由于骨干模型是共享权重的,因此两张图像的相同目标将会产生相似的响应。随后,使用相关操作在搜索帧中定位和模板帧目标相似的区域。
而无人机由于目标运动模糊、快速运动、低分辨率以及背景复杂等因素,倘若单一模态(可见光或红外)将通用目标跟踪方法迁移到无人机跟踪任务中则不可避免地会出现目标丢失、跟踪漂移等现象,因此设计一个高性能的无人机目标跟踪器依然是一个具有挑战性的问题。
与单模态的目标跟踪相反,利用多个模态的互补性能在一定程度上缓解无人机跟踪难题,然而在多模融合问题上又易出现信息冗余、错误信息累积等难题,因此在多模融合算法设计上仍然存在一定的提升空间。
发明内容
针对现有技术存在的问题,本发明的目的在于提供一种基于多阶段注意力机制的RGBT无人机目标跟踪方法,该方法加强了模型对无人机目标的特征识别能力,使用互注意力机制加强对搜索区域的相似目标判定能力。本发明的另一目的在于提供一种实施上述方法的基于多阶段注意力机制的RGBT无人机目标跟踪系统。
为实现上述目的,本发明基于多阶段注意力机制的RGBT无人机目标跟踪方法,具体为:
步骤S1:构建训练、评估数据集,选取公开的GOT10K、OTB100和Anti-UAV中划分数据,用于模型训练和测试;
步骤S2:构建目标跟踪模型;
步骤S3:训练离线模型,加载预训练模型swin-transformer,使用AdamW算法训练目标跟踪模型,直至损失收敛;
步骤S4:执行在线跟踪,读取视频序列并获取视频中的第一帧作为模板图像,对标注区域进行裁剪获取初始目标,对后续序列,进行步骤S2中目标跟踪模型,最终完成整个序列跟踪。
进一步,所述步骤S2中,目标跟踪模型包括特征提取模块、多层次特征融合模块、互相关模块、目标分类器、目标定位器,具体如下:
步骤S2.1:构建共享权重的双分支特征提取模块,利用swin-transformer作为预训练主干模型,输出其最后一层特征;
步骤S2.2:构建多层次特征融合模块,针对步骤S2.1所提取的特征图,以双分支三阶段来进行特征融合,以交叉查询的方式提高模型对多模态之间的信息的利用,引导一个模态向另一个模态查询隐含特征;
步骤S2.3:构建互相关模块,利用注意力机制,实现模板图像与搜索图像之间的交叉感知;
步骤S2.4:构建目标分类器,目标分类器由三层全连接层构成,最终输出为一个维度为1024*2的向量;
步骤S2.5:构建目标定位器,目标定位器由三层全连接组成,输出维度为1024*4,分别目标框的归一化坐标。
进一步,所述步骤S2.2中,在特征融合的第一个阶段,使用自注意力机制以增强模型对目标区域的感知能力,公式如下:
Figure 580047DEST_PATH_IMAGE001
Figure 427917DEST_PATH_IMAGE002
上式中,X表示由特征提取模块之后所得到的特征,
Figure 946623DEST_PATH_IMAGE003
表示特征经嵌入层的输出,FFN表示三层带残差的全连接函数,/>
Figure 905352DEST_PATH_IMAGE004
表示第一阶段的输出,/>
Figure 560324DEST_PATH_IMAGE005
表示中间特征;
MultiHead函数表示多头注意力函数,公式如下:
Figure 579095DEST_PATH_IMAGE006
Figure 815124DEST_PATH_IMAGE007
Figure 311964DEST_PATH_IMAGE008
在上式的Q,K和V分别表示查询、键和值,均经过1×1卷积进行变维,
Figure 87022DEST_PATH_IMAGE009
表示尺度因子,/>
Figure 11116DEST_PATH_IMAGE010
表示第i个单个注意力函数输出,/>
Figure 100002_DEST_PATH_IMAGE011
表示多头注意力拼接的权重矩阵,n表示注意力头的个数,T表示转置,Concat表示级联操作,/>
Figure 238835DEST_PATH_IMAGE012
表示查询向量的权重系数矩阵,/>
Figure 100002_DEST_PATH_IMAGE013
表示键向量的权重系数矩阵,/>
Figure 601683DEST_PATH_IMAGE014
表示值向量的权重系数矩阵;
进一步,所述步骤S2.2中,在特征融合的第二个阶段,使用互注意力机制将两个模态的特征进行融合交互,使两个模态的特征分别作为查询向量交叉使用注意力机制,公式如下:
Figure 372193DEST_PATH_IMAGE015
Figure 827707DEST_PATH_IMAGE016
Figure 949247DEST_PATH_IMAGE017
/>
上式中,
Figure 53469DEST_PATH_IMAGE018
表示上一个阶段红外分支的输出,/>
Figure 803120DEST_PATH_IMAGE019
表示上一阶段可见光模态的输出,
Figure 69016DEST_PATH_IMAGE020
与/>
Figure 412273DEST_PATH_IMAGE021
分别表示本阶段两个分支的输出,/>
Figure 444819DEST_PATH_IMAGE022
表示经过融合之后的此阶段的输出,Concat表示级联操作;
进一步,所述步骤S2.2中,在特征融合的第三个阶段,再次使用与第一阶段相同的操作,使用自注意力机制以增强模型对目标区域的感知能力。
进一步,所述步骤S2.3包含两个步骤:
第一步:通过互注意力机制实现不同向量之间的交叉查询,将搜索特征作为key和value,将模板特征作为query,FFN表示三层带残差的全连接函数,如下公式所示:
Figure 924342DEST_PATH_IMAGE023
Figure 626719DEST_PATH_IMAGE024
上式中,
Figure 316326DEST_PATH_IMAGE025
表示搜索特征,/>
Figure 762351DEST_PATH_IMAGE026
表示模板特征,/>
Figure 722479DEST_PATH_IMAGE027
表示融合之后的特征,/>
Figure 330178DEST_PATH_IMAGE028
表示融合之后的特征;
第二步:通过自注意力机制增强模型对无人机目标的特征感知,加强对目标的定位能力,进而提高目标的识别准确度,具体如公式所示:
Figure 648027DEST_PATH_IMAGE029
Figure 756797DEST_PATH_IMAGE030
Figure 476492DEST_PATH_IMAGE028
表示第一阶段的融合之后的特征,/>
Figure 520671DEST_PATH_IMAGE031
表示最终输出,FFN表示三层带残差的全连接函数,/>
Figure 325816DEST_PATH_IMAGE032
表示中间特征。
进一步,所述步骤S3中,在ImageNet上加载预训练模型Swin-transformer,重复步骤S2.1-S2.5,并使用AdamW算法训练模型直至损失下降收敛,设计迭代次数为100,除backbone模型外,其他层的学习率设置为1e-5,batchsize设置为32,根据目标所在图像的位置与大小生成目标大小两倍的正样本,其他区域均为负样本。
进一步,所述步骤S3中,模型在大规模目标跟踪数据集上进行训练,在训练至20轮后,再使用Anti-UAV数据集进行训练。
一种基于多阶段注意力机制的RGBT无人机目标跟踪系统,该系统用于实施上述基于多阶段注意力机制的RGBT无人机目标跟踪方法。
本发明一种基于多阶段注意力机制的RGBT无人机目标跟踪方法及系统,使用多模态无人机信息,弥补了可见光与红外模态各自的缺陷,使用自注意力机制加强了模型对无人机目标的特征识别能力,使用互注意力机制加强对搜索区域的相似目标判定能力。
附图说明
图1为本发明总体框架图;
图2为多层次特征融合模块示意图;
图3为本发明中反无人机数据集中的测试结果图。
具体实施方式
下面将结合附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以下结合图1-图3对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明基于多阶段注意力机制的RGBT无人机目标跟踪方法,基于红外模态和可见光模态的特征融合交互,构建一个目标跟踪模型,图1为本发明提出的基于多阶段注意力机制的RGBT目标跟踪的总体框架图,图2为发明中基于多层次注意力机制特征融合框架示意图。本发明中,首先利用已有的反无人机RGBT目标跟踪数据集与通用目标跟踪数据集对模型进行离线训练,在线跟踪时根据模板帧对跟踪模型进行初始化,提取其模板特征,而后根据视频序列依次进行跟踪;所述目标跟踪方法包含特征提取模块、多层次多模态融合模块、互相关模块、目标分类器、目标定位器。
本发明基于多阶段注意力机制的RGBT无人机目标跟踪方法,包括如下步骤:
步骤S1:构建训练、评估数据集,从公开的反无人可见光目标跟踪数据集中划分用于训练、验证、测试的数据集,并分析每个视频序列,将数据集划分成不同难度等级。选取公开的GOT10K、OTB100和Anti-UAV中划分数据,用于模型训练和测试。具体地,为了使得模型具有更高的适应性,本发明首先将传统可见光数据集作为预训练数据集,而后针对无人机这一特定目标,将使用Anti-UAV数据集进行更进一步的训练。将热成像和可见光图像两种模态的无人机图像作为本目标跟踪方法的输入。
步骤S2:构建目标跟踪模型,包括特征提取模块、多层次特征融合模块、互相关模块、目标分类器、目标定位器,具体如下:
步骤S2.1:构建共享权重的双分支特征提取模块,利用swin-transformer作为预训练主干模型,输出其最后一层特征,特别地,本发明特征提取模块包含两个分支,分别用于提取不同模态的深度特征,不同分支之间的权重不共享,从而避免了不同模态之间的信息干扰,在一定程度上减少了错误累计与信息冗余。
步骤S2.2:构建多层次特征融合模块,如图2所示,针对步骤S2.1所提取的特征图,以双分支三阶段来进行特征融合,以交叉查询的方式提高模型对多模态之间的信息的利用,引导一个模态向另一个模态查询隐含特征。
对步骤S2.1所得的两个模态的特征进行特征级融合交互,计算多模态融合特征图,所述多模态特征融合模块利用自注意力机制与互注意力机制,并以多阶段的方式进行多层次的特征融合交互。
在特征融合的第一个阶段,使用自注意力机制以增强每个模态自身的上下文特征,使用自注意力机制以增强模型对目标区域的感知能力,公式如下:
Figure 972698DEST_PATH_IMAGE033
Figure 281320DEST_PATH_IMAGE034
上式中,X表示由特征提取模块之后所得到的特征,
Figure 355455DEST_PATH_IMAGE035
表示特征经嵌入层的输出,FFN表示三层带残差的全连接函数,/>
Figure 382317DEST_PATH_IMAGE036
表示第一阶段的输出,/>
Figure 334354DEST_PATH_IMAGE005
表示中间特征,MultiHead函数表示多头注意力函数,公式如下:
Figure 497482DEST_PATH_IMAGE037
Figure 742519DEST_PATH_IMAGE038
Figure 256677DEST_PATH_IMAGE008
在上式的Q,K和V分别表示查询、键和值,均经过1×1卷积进行变维,
Figure 386307DEST_PATH_IMAGE009
表示尺度因子,公式中的/>
Figure 528575DEST_PATH_IMAGE011
表示多头注意力拼接的权重矩阵,n表示注意力头的个数,T表示转置,Concat表示级联操作,/>
Figure 85459DEST_PATH_IMAGE012
表示查询向量的权重系数矩阵,/>
Figure 945967DEST_PATH_IMAGE013
表示键向量的权重系数矩阵,
Figure 613709DEST_PATH_IMAGE014
表示值向量的权重系数矩阵;
在特征融合的第二个阶段,使用互注意力机制将两个模态的特征进行融合交互,使两个模态的特征分别作为查询向量交叉使用注意力机制,公式如下:
Figure 129527DEST_PATH_IMAGE039
Figure 122891DEST_PATH_IMAGE016
Figure 205116DEST_PATH_IMAGE017
上式中,
Figure 676549DEST_PATH_IMAGE018
表示上一个阶段红外分支的输出,/>
Figure 793409DEST_PATH_IMAGE019
表示上一阶段可见光模态的输出,
Figure 692095DEST_PATH_IMAGE020
与/>
Figure 402562DEST_PATH_IMAGE021
分别表示本阶段两个分支的输出,/>
Figure 536740DEST_PATH_IMAGE022
表示经过融合之后的此阶段的输出,Concat表示级联操作;
在特征融合的第三个阶段,再次使用与第一阶段相同的操作,使用自注意力机制以增强融合后的特征,使用自注意力机制以增强模型对目标区域的感知能力。
步骤S2.3:构建互相关模块,包含两层基于注意力机制的互相关子网络,通过注意力机制使网络更关注与目标特征减少干扰物对跟踪的影响。本文利用注意力机制,实现模板图像与搜索图像之间的交叉感知,将所得的基于搜索的多模态融合特征图与基于模板的多模态融合特征图以注意力机制为基础,进行相关操作。
具体包含两个步骤,第一步通过互注意力机制实现不同向量之间的交叉查询,将搜索特征作为key和value,将模板特征作为query,如下公式所示:
Figure 649053DEST_PATH_IMAGE023
Figure 79159DEST_PATH_IMAGE040
上式中,
Figure 276923DEST_PATH_IMAGE025
表示搜索特征,/>
Figure 949212DEST_PATH_IMAGE026
表示模板特征,/>
Figure 916031DEST_PATH_IMAGE027
表示中间特征,/>
Figure 15574DEST_PATH_IMAGE028
表示融合之后的特征,FFN表示三层带残差的全连接函数。
在构建互相关模块的第二步,本发明通过自注意力机制,增强模型对无人机目标的特征感知,加强对目标的定位能力,进而提高目标的识别准确度,具体如公式所示:
Figure 966213DEST_PATH_IMAGE029
Figure 442194DEST_PATH_IMAGE041
Figure 263519DEST_PATH_IMAGE028
表示第一阶段的融合输出,/>
Figure 301007DEST_PATH_IMAGE031
表示最终输出,FFN表示三层带残差的全连接函数,/>
Figure 207784DEST_PATH_IMAGE032
为中间特征。
步骤S2.4构建目标分类器,所述目标分类器由三层全连接层构成,用于判定图片对应位置是否存在目标,并使用softmax函数计算二分类损失。最终输出为一个维度为1024*2的向量,分别对应原始图像中的像素块,其输出值0,1分别代表像素块中是否包含目标。
步骤S2.5构建目标定位器,所述目标定位器由三层全连接组成,输出目标对应包围盒坐标位置信息。输出维度为1024*4,分别目标框的归一化坐标。
步骤S3:构建离线模型训练,在ImageNet上加载预训练模型Swin-transformer,重复步骤S2.1-S2.5,并使用AdamW算法训练模型直至损失下降收敛,设计迭代次数为100,除backbone模型外,其他层的学习率设置为1e-5,batchsize设置为32,根据目标所在图像的位置与大小生成目标大小两倍的正样本,其他区域均为负样本;模型在大规模目标跟踪数据集上进行训练,在训练至20轮后,再使用Anti-UAV数据集进行训练。
步骤S4:执行在线跟踪,读取视频序列并获取视频中的第一帧作为模板图像,将第一帧作为模板帧,对目标跟踪模型进行初始化,得到模板特征。将搜索图像输入到目标跟踪模型中,对标注区域进行裁剪获取初始目标,对后续序列,依次进行S2中所列步骤,选取置信度得分最高的区域作为初步结果,最终完成整个序列跟踪。
为了验证跟踪模型的有效性,本发明提供一实施例并在反无人机数据集上进行了对比实验,与目前先进的多模态跟踪方法相比,如图3所示,本发明SiamSTA在遮挡、小目标、视野丢失、尺寸变换等挑战性问题上均具有突出表现,具体参数设置与步骤如下:
1、请参照图1与步骤步骤S2.1,构建特征提取器,该特征提取器由swin-transformer骨干网络构成,其WindowSize为12,PatchSize为4,嵌入层维度为128,最终输出维度为256,注意力头的个数为8,具体计算如下:
Figure 362821DEST_PATH_IMAGE042
/>
Figure 428866DEST_PATH_IMAGE043
其中swin表示骨干网络,
Figure 807895DEST_PATH_IMAGE044
表示红外模态下的经裁剪后的搜索图像,/>
Figure 326601DEST_PATH_IMAGE045
表示红外模态下的经裁剪后的模板图像,/>
Figure 19751DEST_PATH_IMAGE046
表示红外模态下搜索图像的特征输出,/>
Figure 441767DEST_PATH_IMAGE047
表示红外模态下模板图像的特征输出,/>
Figure 460539DEST_PATH_IMAGE048
表示可见光模态下的经裁剪后的搜索图像,/>
Figure 466541DEST_PATH_IMAGE049
表示可见光模态下的经裁剪后的模板图像,/>
Figure 697802DEST_PATH_IMAGE050
表示可见光模态下搜索图像的特征输出,/>
Figure 472860DEST_PATH_IMAGE051
表示可见光模态下模板图像的特征输出。
2、请参照图2与步骤S2.2,构建多层次特征融合模块,该模块共三个阶段,每个阶段多注意力头的个数为8,前馈网络隐藏层维度为2048,dropout参数设置为0.1,第一个阶段的输出维度固定为256,经第二阶段的拼接操作使其输出维度增加至512,经第三阶段,输出为512,具体计算如下:
Figure 396953DEST_PATH_IMAGE052
Figure 890252DEST_PATH_IMAGE053
Figure 925204DEST_PATH_IMAGE055
Figure 695714DEST_PATH_IMAGE056
上式中,
Figure 410948DEST_PATH_IMAGE057
表示特征融合的第一个阶段所进行的操作,/>
Figure 266908DEST_PATH_IMAGE058
表示特征融合的第二个阶段所进行的操作,/>
Figure 964606DEST_PATH_IMAGE059
3表示特征融合的第三个阶段所进行的操作,/>
Figure 589622DEST_PATH_IMAGE060
表示红外模态下经裁剪后的输入图像,/>
Figure 245732DEST_PATH_IMAGE061
表示可见光模态下经裁剪后的输入图像,/>
Figure 323409DEST_PATH_IMAGE062
表示位置编码,/>
Figure 824798DEST_PATH_IMAGE063
表示第一阶段红外分支下的输出,/>
Figure 304321DEST_PATH_IMAGE064
表示第一阶段可见光分支下的输出,/>
Figure 367217DEST_PATH_IMAGE022
表示第二阶段下输出的融合向量,/>
Figure 932190DEST_PATH_IMAGE065
表示多层次特征融合模块最终输出。
3、请参照图1与步骤S2.3,构建互相关模块,该模块可分为两层,每层均包含注意力函数,其注意力头的个数设置为8,dropout参数设置为0.1,前馈网络输出维度为2048,具体如下所示:
Figure 706111DEST_PATH_IMAGE066
Figure 430354DEST_PATH_IMAGE067
Figure 38052DEST_PATH_IMAGE029
Figure 214956DEST_PATH_IMAGE068
上式中,
Figure 667934DEST_PATH_IMAGE025
表示搜索特征,/>
Figure 748148DEST_PATH_IMAGE026
表示模板特征,/>
Figure 385802DEST_PATH_IMAGE027
与/>
Figure 925368DEST_PATH_IMAGE032
表示中间特征,/>
Figure 572250DEST_PATH_IMAGE028
表示第一层融合之后的特征,FFN表示三层带残差的全连接函数,/>
Figure 880872DEST_PATH_IMAGE031
表示最终输出,FFN表示三层带残差的全连接函数,/>
Figure 955007DEST_PATH_IMAGE069
表示多头注意力。
4、请参照图1、步骤S2.3与步骤S2.4,构建目标定位器与目标分类器,目标分类器为三层全连接网络,隐藏层维度为256,最终输出的通道数为2用于表示前景与背景,目标定位器也设计为三层全连接网络,隐藏层维度为256,最终输出的通道数为4用于表示归一化的目标框坐标。
5、请参照步骤S3进行离线训练,将损失函数设计为分类损失与回归损失,其中分类损失为交叉熵损失,回归损失包含目标框与预测框的L1损失与IOU损失;而后使用AdamW算法训练模型直至损失下降收敛,学习率设置为1e-5,batchsize设置为32,模型在大规模目标跟踪数据集上进行训练,在训练至20轮后,再使用Anti-UAV数据集进行训练。
本发明中,还提供一种基于多阶段注意力机制的RGBT无人机目标跟踪系统,该系统用于实施上述基于多阶段注意力机制的RGBT无人机目标跟踪方法。
本发明提出的一种基于多阶段注意力机制的RGBT无人机目标跟踪方法及系统,使用多模态无人机信息,弥补了可见光与红外模态各自的缺陷,使用自注意力机制加强了网络对无人机目标的特征识别能力,使用互注意力机制加强对搜索区域的相似目标判定能力。本发明属于深度学习领域,目标跟踪方法包含特征提取步骤、多模态特征融合步骤与互相关步骤,特征提取步骤用以对输入数据进行特征提取以得到对应的模板特征和搜索特征,多模态特征融合步骤利用注意力机制将两个模态的特征进行交互融合,实现两种模态的互补增强,互相关步骤将对搜索特征与模板特征进行互相关操作以确定目标所在位置。

Claims (10)

1.基于多阶段注意力机制的RGBT无人机目标跟踪方法,其特征在于,该方法具体为:
步骤S1:构建训练、评估数据集,选取公开的GOT10K、OTB100和Anti-UAV中划分数据,用于模型训练和测试;
步骤S2:构建目标跟踪模型;
步骤S3:训练离线模型,加载预训练模型swin-transformer,使用AdamW算法训练目标跟踪模型,直至损失收敛;
步骤S4:执行在线跟踪,读取视频序列并获取视频中的第一帧作为模板图像,对标注区域进行裁剪获取初始目标,对后续序列,进行步骤S2中目标跟踪模型,最终完成整个序列跟踪。
2.如权利要求1所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法,其特征在于,所述步骤S1中,将传统可见光数据集作为预训练数据集,针对无人机特定目标,使用Anti-UAV数据集进行更进一步的训练;将热成像和可见光图像两种模态的无人机图像作为所述方法的输入。
3.如权利要求1所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法,其特征在于,所述步骤S2中,目标跟踪模型包括特征提取模块、多层次特征融合模块、互相关模块、目标分类器、目标定位器,具体如下:
步骤S2.1:构建共享权重的双分支特征提取模块,利用swin-transformer作为预训练主干模型,输出其最后一层特征;
步骤S2.2:构建多层次特征融合模块,针对步骤S2.1所提取的特征图,以双分支三阶段来进行特征融合,以交叉查询的方式提高模型对多模态之间的信息的利用,引导一个模态向另一个模态查询隐含特征;
步骤S2.3:构建互相关模块,利用注意力机制,实现模板图像与搜索图像之间的交叉感知;
步骤S2.4:构建目标分类器,目标分类器由三层全连接层构成,最终输出为一个维度为1024*2的向量;
步骤S2.5:构建目标定位器,目标定位器由三层全连接组成,输出维度为1024*4,分别目标框的归一化坐标。
4.如权利要求3所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法,其特征在于,所述步骤S2.2中,在特征融合的第一个阶段,使用自注意力机制以增强模型对目标区域的感知能力,公式如下:
Figure DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE002
上式中,X表示由特征提取模块之后所得到的特征,
Figure DEST_PATH_IMAGE003
表示特征经嵌入层的输出,FFN表示三层带残差的全连接函数,/>
Figure DEST_PATH_IMAGE004
表示第一阶段的输出;
MultiHead函数表示多头注意力函数,公式如下:
Figure DEST_PATH_IMAGE005
Figure DEST_PATH_IMAGE006
/>
Figure 97683DEST_PATH_IMAGE007
在上式的Q,K和V分别表示查询、键和值,均经过1×1卷积进行变维,
Figure DEST_PATH_IMAGE008
表示尺度因子,
Figure DEST_PATH_IMAGE009
表示第i个单个注意力函数输出,/>
Figure DEST_PATH_IMAGE010
表示多头注意力拼接的权重矩阵,n表示注意力头的个数,T表示转置,Concat表示级联操作,/>
Figure DEST_PATH_IMAGE011
表示查询向量的权重系数矩阵,/>
Figure DEST_PATH_IMAGE012
表示键向量的权重系数矩阵,/>
Figure DEST_PATH_IMAGE013
表示值向量的权重系数矩阵。
5.如权利要求4所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法,其特征在于,所述步骤S2.2中,在特征融合的第二个阶段,使用互注意力机制将两个模态的特征进行融合交互,使两个模态的特征分别作为查询向量交叉使用注意力机制,公式如下:
Figure DEST_PATH_IMAGE014
Figure 17753DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE016
上式中,
Figure 751485DEST_PATH_IMAGE017
表示上一个阶段红外分支的输出,/>
Figure DEST_PATH_IMAGE018
表示上一阶段可见光模态的输出,/>
Figure 377987DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE020
分别表示本阶段两个分支的输出,/>
Figure DEST_PATH_IMAGE021
表示经过融合之后的此阶段的输出,Concat表示级联操作。
6.如权利要求5所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法,其特征在于,所述步骤S2.2中,在特征融合的第三个阶段,再次使用与第一阶段相同的操作,使用自注意力机制以增强模型对目标区域的感知能力。
7.如权利要求3所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法,其特征在于,所述步骤S2.3包含两个步骤:
第一步:通过互注意力机制实现不同向量之间的交叉查询,将搜索特征作为key和value,将模板特征作为query,如下公式所示:
Figure DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
上式中,
Figure DEST_PATH_IMAGE024
表示搜索特征,/>
Figure DEST_PATH_IMAGE025
表示模板特征,/>
Figure DEST_PATH_IMAGE026
表示融合之后的特征,/>
Figure DEST_PATH_IMAGE027
表示最终互注意力函数输出;
第二步:通过自注意力机制增强模型对无人机目标的特征感知,加强对目标的定位能力,进而提高目标的识别准确度,具体如公式所示:
Figure DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
Figure 710136DEST_PATH_IMAGE027
表示第一阶段的融合之后的特征,/>
Figure DEST_PATH_IMAGE030
表示最终输出,/>
Figure DEST_PATH_IMAGE031
表示中间特征。
8.如权利要求1所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法,其特征在于,所述步骤S3中,在ImageNet上加载预训练模型Swin-transformer,重复步骤S2.1-S2.5,并使用AdamW算法训练模型直至损失下降收敛,设计迭代次数为100,除backbone模型外,其他层的学习率设置为1e-5,batchsize设置为32,根据目标所在图像的位置与大小生成目标大小两倍的正样本,其他区域均为负样本。
9.如权利要求1所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法,其特征在于,所述步骤S3中,模型在大规模目标跟踪数据集上进行训练,在训练至20轮后,再使用Anti-UAV数据集进行训练。
10.基于多阶段注意力机制的RGBT无人机目标跟踪系统,其特征在于,该系统用于实施如权利要求1-9中任一项所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法。
CN202310035520.5A 2023-01-10 2023-01-10 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统 Active CN116188528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310035520.5A CN116188528B (zh) 2023-01-10 2023-01-10 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310035520.5A CN116188528B (zh) 2023-01-10 2023-01-10 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统

Publications (2)

Publication Number Publication Date
CN116188528A true CN116188528A (zh) 2023-05-30
CN116188528B CN116188528B (zh) 2024-03-15

Family

ID=86443683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310035520.5A Active CN116188528B (zh) 2023-01-10 2023-01-10 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统

Country Status (1)

Country Link
CN (1) CN116188528B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116977615A (zh) * 2023-07-27 2023-10-31 广东技术师范大学 荔枝果梗识别定位方法及装置
CN117406780A (zh) * 2023-11-20 2024-01-16 鸣飞伟业技术有限公司 一种无人机追逃方法及系统
CN117537929A (zh) * 2023-10-27 2024-02-09 大湾区大学(筹) 基于红外热成像的无人机检测方法、系统、设备及介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476823A (zh) * 2020-05-09 2020-07-31 安徽大学 基于多挑战交互学习的实时rgbt跟踪方法及装置
CN112949458A (zh) * 2021-02-26 2021-06-11 北京达佳互联信息技术有限公司 目标跟踪分割模型的训练方法和目标跟踪分割方法及装置
CN112949451A (zh) * 2021-02-24 2021-06-11 安徽大学 通过模态感知特征学习的跨模态目标跟踪方法及系统
CN113077491A (zh) * 2021-04-02 2021-07-06 安徽大学 基于跨模态共享和特定表示形式的rgbt目标跟踪方法
CN113628249A (zh) * 2021-08-16 2021-11-09 电子科技大学 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法
CN114092521A (zh) * 2021-11-26 2022-02-25 厦门理工学院 基于多阶段自适应网络的鲁棒目标跟踪方法及系统
CN114399533A (zh) * 2022-01-17 2022-04-26 中南大学 一种基于多层次注意力机制的单目标追踪方法
CN114937239A (zh) * 2022-05-25 2022-08-23 青岛科技大学 行人多目标跟踪识别方法及跟踪识别装置
CN114998601A (zh) * 2022-06-29 2022-09-02 齐鲁工业大学 基于Transformer的在线更新目标跟踪方法及系统
CN115100246A (zh) * 2022-07-14 2022-09-23 中国科学技术大学 一种用于语言-视觉目标跟踪的跨模态检索方法及系统
CN115170605A (zh) * 2022-06-15 2022-10-11 南京大学 基于多模态交互和多阶段优化的实时rgbt目标跟踪方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476823A (zh) * 2020-05-09 2020-07-31 安徽大学 基于多挑战交互学习的实时rgbt跟踪方法及装置
CN112949451A (zh) * 2021-02-24 2021-06-11 安徽大学 通过模态感知特征学习的跨模态目标跟踪方法及系统
CN112949458A (zh) * 2021-02-26 2021-06-11 北京达佳互联信息技术有限公司 目标跟踪分割模型的训练方法和目标跟踪分割方法及装置
CN113077491A (zh) * 2021-04-02 2021-07-06 安徽大学 基于跨模态共享和特定表示形式的rgbt目标跟踪方法
CN113628249A (zh) * 2021-08-16 2021-11-09 电子科技大学 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法
CN114092521A (zh) * 2021-11-26 2022-02-25 厦门理工学院 基于多阶段自适应网络的鲁棒目标跟踪方法及系统
CN114399533A (zh) * 2022-01-17 2022-04-26 中南大学 一种基于多层次注意力机制的单目标追踪方法
CN114937239A (zh) * 2022-05-25 2022-08-23 青岛科技大学 行人多目标跟踪识别方法及跟踪识别装置
CN115170605A (zh) * 2022-06-15 2022-10-11 南京大学 基于多模态交互和多阶段优化的实时rgbt目标跟踪方法
CN114998601A (zh) * 2022-06-29 2022-09-02 齐鲁工业大学 基于Transformer的在线更新目标跟踪方法及系统
CN115100246A (zh) * 2022-07-14 2022-09-23 中国科学技术大学 一种用于语言-视觉目标跟踪的跨模态检索方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIACHEN LI等: "Spatio-Temporal Graph Dual-Attention Network for Multi-Agent Prediction and Tracking", 《IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS》, vol. 23, no. 8, 31 August 2022 (2022-08-31), pages 10556, XP093140522, DOI: 10.1109/TITS.2021.3094821 *
PEIZE SUN等: "TransTrack: Multiple Object Tracking with Transformer", 《HTTPS://ARXIV.ORG/ABS/2012.15460》, 31 December 2021 (2021-12-31), pages 1 - 11 *
江英杰 等: "基于视觉Transformer的双流目标跟踪算法", 《计算机工程与应用》, vol. 58, no. 12, 31 December 2022 (2022-12-31), pages 183 - 190 *
涂晓波: "多层次深度特征融合的目标检测方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 02, 15 February 2021 (2021-02-15), pages 138 - 932 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116977615A (zh) * 2023-07-27 2023-10-31 广东技术师范大学 荔枝果梗识别定位方法及装置
CN116977615B (zh) * 2023-07-27 2024-04-30 广东技术师范大学 荔枝果梗识别定位方法及装置
CN117537929A (zh) * 2023-10-27 2024-02-09 大湾区大学(筹) 基于红外热成像的无人机检测方法、系统、设备及介质
CN117406780A (zh) * 2023-11-20 2024-01-16 鸣飞伟业技术有限公司 一种无人机追逃方法及系统
CN117406780B (zh) * 2023-11-20 2024-05-31 鸣飞伟业技术有限公司 一种无人机追逃方法及系统

Also Published As

Publication number Publication date
CN116188528B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN116188528B (zh) 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统
Chandio et al. Precise single-stage detector
US11804036B2 (en) Person re-identification method based on perspective-guided multi-adversarial attention
CN112651262B (zh) 一种基于自适应行人对齐的跨模态行人重识别方法
CN116168322B (zh) 一种基于多模态融合的无人机长时跟踪方法及系统
CN117079139B (zh) 一种基于多尺度语义特征的遥感图像目标检测方法及系统
CN115170605A (zh) 基于多模态交互和多阶段优化的实时rgbt目标跟踪方法
CN115908517B (zh) 一种基于对应点匹配矩阵优化的低重叠点云配准方法
CN113361636A (zh) 一种图像分类方法、系统、介质及电子设备
Wang et al. Plug-and-play: Improve depth prediction via sparse data propagation
CN114445461A (zh) 基于非配对数据的可见光红外目标跟踪训练方法及装置
CN116862949A (zh) 基于对称交叉注意力和位置信息增强的Transformer目标跟踪方法及跟踪器
CN112084895A (zh) 一种基于深度学习的行人重识别方法
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN116994164A (zh) 一种多模态航拍图像融合与目标检测联合学习方法
CN116311504A (zh) 一种小样本行为识别方法、系统及设备
CN115359294A (zh) 一种基于相似性正则化类内挖掘的跨粒度小样本学习方法
CN115098646A (zh) 一种图文数据的多级关系分析与挖掘方法
CN114581353A (zh) 一种红外图像的处理方法、装置、介质及电子设备
CN113642498A (zh) 一种基于多层次时空特征融合的视频目标检测系统及方法
CN113052875A (zh) 一种基于状态感知模板更新的目标跟踪算法
CN117649582B (zh) 基于级联注意力的单流单阶段网络目标跟踪方法与系统
CN117994822B (zh) 一种基于辅助模态增强和多尺度特征融合的跨模态行人重识别方法
CN114757970B (zh) 一种基于样本平衡的多层级回归目标跟踪方法和跟踪系统
CN116310676A (zh) 基于多模态信息融合的动态目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant