CN116188528A - 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统 - Google Patents
基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统 Download PDFInfo
- Publication number
- CN116188528A CN116188528A CN202310035520.5A CN202310035520A CN116188528A CN 116188528 A CN116188528 A CN 116188528A CN 202310035520 A CN202310035520 A CN 202310035520A CN 116188528 A CN116188528 A CN 116188528A
- Authority
- CN
- China
- Prior art keywords
- target
- model
- representing
- stage
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000012360 testing method Methods 0.000 claims abstract description 6
- 230000004927 fusion Effects 0.000 claims description 50
- 230000006870 function Effects 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 9
- 230000008447 perception Effects 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000001931 thermography Methods 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Aiming, Guidance, Guns With A Light Source, Armor, Camouflage, And Targets (AREA)
Abstract
本发明公开了一种基于多阶段注意力机制的RGBT无人机目标跟踪方法及系统,具体为:步骤S1:构建训练、评估数据集,选取公开的GOT10K、OTB100和Anti‑UAV中划分数据,用于模型训练和测试;步骤S2:构建目标跟踪模型;步骤S3:训练离线模型,加载预训练模型swin‑transformer,使用AdamW算法训练目标跟踪模型,直至损失收敛;步骤S4:执行在线跟踪,读取视频序列并获取视频中的第一帧作为模板图像,对标注区域进行裁剪获取初始目标,对后续序列,进行步骤S2中目标跟踪模型,最终完成整个序列跟踪。本发明使用多模态无人机信息,弥补了可见光与红外模态各自的缺陷,使用自注意力机制加强了模型对无人机目标的特征识别能力,使用互注意力机制加强对搜索区域的相似目标判定能力。
Description
技术领域
本发明涉及计算机视觉目标跟踪技术领域,尤其是一种基于多阶段注意力机制的RGBT无人机目标跟踪方法及系统。
背景技术
目标跟踪旨在一视频序列中定位目标位置,是计算机视觉领域中的一个关键任务,其广泛应用于自动驾驶、环境监测、安保监控等。当前随着无人机的广泛使用,通过目标跟踪实现对无人机状态的感知也变得愈发重要。目前大部分目标跟踪器和目标跟踪数据集大多聚焦于通用物体的目标跟踪,如人体、汽车等大尺度目标上。以孪生模型为基础的跟踪方法,以共享权重的方式将模板图像和待跟踪图像建立联系。它通常包含三个主要步骤:首先我们对输入的两张图像(模板图像和搜索图像)进行特征提取操作,使用共享权重的骨干模型来提取他们各自的特征。由于骨干模型是共享权重的,因此两张图像的相同目标将会产生相似的响应。随后,使用相关操作在搜索帧中定位和模板帧目标相似的区域。
而无人机由于目标运动模糊、快速运动、低分辨率以及背景复杂等因素,倘若单一模态(可见光或红外)将通用目标跟踪方法迁移到无人机跟踪任务中则不可避免地会出现目标丢失、跟踪漂移等现象,因此设计一个高性能的无人机目标跟踪器依然是一个具有挑战性的问题。
与单模态的目标跟踪相反,利用多个模态的互补性能在一定程度上缓解无人机跟踪难题,然而在多模融合问题上又易出现信息冗余、错误信息累积等难题,因此在多模融合算法设计上仍然存在一定的提升空间。
发明内容
针对现有技术存在的问题,本发明的目的在于提供一种基于多阶段注意力机制的RGBT无人机目标跟踪方法,该方法加强了模型对无人机目标的特征识别能力,使用互注意力机制加强对搜索区域的相似目标判定能力。本发明的另一目的在于提供一种实施上述方法的基于多阶段注意力机制的RGBT无人机目标跟踪系统。
为实现上述目的,本发明基于多阶段注意力机制的RGBT无人机目标跟踪方法,具体为:
步骤S1:构建训练、评估数据集,选取公开的GOT10K、OTB100和Anti-UAV中划分数据,用于模型训练和测试;
步骤S2:构建目标跟踪模型;
步骤S3:训练离线模型,加载预训练模型swin-transformer,使用AdamW算法训练目标跟踪模型,直至损失收敛;
步骤S4:执行在线跟踪,读取视频序列并获取视频中的第一帧作为模板图像,对标注区域进行裁剪获取初始目标,对后续序列,进行步骤S2中目标跟踪模型,最终完成整个序列跟踪。
进一步,所述步骤S2中,目标跟踪模型包括特征提取模块、多层次特征融合模块、互相关模块、目标分类器、目标定位器,具体如下:
步骤S2.1:构建共享权重的双分支特征提取模块,利用swin-transformer作为预训练主干模型,输出其最后一层特征;
步骤S2.2:构建多层次特征融合模块,针对步骤S2.1所提取的特征图,以双分支三阶段来进行特征融合,以交叉查询的方式提高模型对多模态之间的信息的利用,引导一个模态向另一个模态查询隐含特征;
步骤S2.3:构建互相关模块,利用注意力机制,实现模板图像与搜索图像之间的交叉感知;
步骤S2.4:构建目标分类器,目标分类器由三层全连接层构成,最终输出为一个维度为1024*2的向量;
步骤S2.5:构建目标定位器,目标定位器由三层全连接组成,输出维度为1024*4,分别目标框的归一化坐标。
进一步,所述步骤S2.2中,在特征融合的第一个阶段,使用自注意力机制以增强模型对目标区域的感知能力,公式如下:
MultiHead函数表示多头注意力函数,公式如下:
在上式的Q,K和V分别表示查询、键和值,均经过1×1卷积进行变维,表示尺度因子,/>表示第i个单个注意力函数输出,/>表示多头注意力拼接的权重矩阵,n表示注意力头的个数,T表示转置,Concat表示级联操作,/>表示查询向量的权重系数矩阵,/>表示键向量的权重系数矩阵,/>表示值向量的权重系数矩阵;
进一步,所述步骤S2.2中,在特征融合的第二个阶段,使用互注意力机制将两个模态的特征进行融合交互,使两个模态的特征分别作为查询向量交叉使用注意力机制,公式如下:
进一步,所述步骤S2.2中,在特征融合的第三个阶段,再次使用与第一阶段相同的操作,使用自注意力机制以增强模型对目标区域的感知能力。
进一步,所述步骤S2.3包含两个步骤:
第一步:通过互注意力机制实现不同向量之间的交叉查询,将搜索特征作为key和value,将模板特征作为query,FFN表示三层带残差的全连接函数,如下公式所示:
第二步:通过自注意力机制增强模型对无人机目标的特征感知,加强对目标的定位能力,进而提高目标的识别准确度,具体如公式所示:
进一步,所述步骤S3中,在ImageNet上加载预训练模型Swin-transformer,重复步骤S2.1-S2.5,并使用AdamW算法训练模型直至损失下降收敛,设计迭代次数为100,除backbone模型外,其他层的学习率设置为1e-5,batchsize设置为32,根据目标所在图像的位置与大小生成目标大小两倍的正样本,其他区域均为负样本。
进一步,所述步骤S3中,模型在大规模目标跟踪数据集上进行训练,在训练至20轮后,再使用Anti-UAV数据集进行训练。
一种基于多阶段注意力机制的RGBT无人机目标跟踪系统,该系统用于实施上述基于多阶段注意力机制的RGBT无人机目标跟踪方法。
本发明一种基于多阶段注意力机制的RGBT无人机目标跟踪方法及系统,使用多模态无人机信息,弥补了可见光与红外模态各自的缺陷,使用自注意力机制加强了模型对无人机目标的特征识别能力,使用互注意力机制加强对搜索区域的相似目标判定能力。
附图说明
图1为本发明总体框架图;
图2为多层次特征融合模块示意图;
图3为本发明中反无人机数据集中的测试结果图。
具体实施方式
下面将结合附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以下结合图1-图3对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明基于多阶段注意力机制的RGBT无人机目标跟踪方法,基于红外模态和可见光模态的特征融合交互,构建一个目标跟踪模型,图1为本发明提出的基于多阶段注意力机制的RGBT目标跟踪的总体框架图,图2为发明中基于多层次注意力机制特征融合框架示意图。本发明中,首先利用已有的反无人机RGBT目标跟踪数据集与通用目标跟踪数据集对模型进行离线训练,在线跟踪时根据模板帧对跟踪模型进行初始化,提取其模板特征,而后根据视频序列依次进行跟踪;所述目标跟踪方法包含特征提取模块、多层次多模态融合模块、互相关模块、目标分类器、目标定位器。
本发明基于多阶段注意力机制的RGBT无人机目标跟踪方法,包括如下步骤:
步骤S1:构建训练、评估数据集,从公开的反无人可见光目标跟踪数据集中划分用于训练、验证、测试的数据集,并分析每个视频序列,将数据集划分成不同难度等级。选取公开的GOT10K、OTB100和Anti-UAV中划分数据,用于模型训练和测试。具体地,为了使得模型具有更高的适应性,本发明首先将传统可见光数据集作为预训练数据集,而后针对无人机这一特定目标,将使用Anti-UAV数据集进行更进一步的训练。将热成像和可见光图像两种模态的无人机图像作为本目标跟踪方法的输入。
步骤S2:构建目标跟踪模型,包括特征提取模块、多层次特征融合模块、互相关模块、目标分类器、目标定位器,具体如下:
步骤S2.1:构建共享权重的双分支特征提取模块,利用swin-transformer作为预训练主干模型,输出其最后一层特征,特别地,本发明特征提取模块包含两个分支,分别用于提取不同模态的深度特征,不同分支之间的权重不共享,从而避免了不同模态之间的信息干扰,在一定程度上减少了错误累计与信息冗余。
步骤S2.2:构建多层次特征融合模块,如图2所示,针对步骤S2.1所提取的特征图,以双分支三阶段来进行特征融合,以交叉查询的方式提高模型对多模态之间的信息的利用,引导一个模态向另一个模态查询隐含特征。
对步骤S2.1所得的两个模态的特征进行特征级融合交互,计算多模态融合特征图,所述多模态特征融合模块利用自注意力机制与互注意力机制,并以多阶段的方式进行多层次的特征融合交互。
在特征融合的第一个阶段,使用自注意力机制以增强每个模态自身的上下文特征,使用自注意力机制以增强模型对目标区域的感知能力,公式如下:
在上式的Q,K和V分别表示查询、键和值,均经过1×1卷积进行变维,表示尺度因子,公式中的/>表示多头注意力拼接的权重矩阵,n表示注意力头的个数,T表示转置,Concat表示级联操作,/>表示查询向量的权重系数矩阵,/>表示键向量的权重系数矩阵,表示值向量的权重系数矩阵;
在特征融合的第二个阶段,使用互注意力机制将两个模态的特征进行融合交互,使两个模态的特征分别作为查询向量交叉使用注意力机制,公式如下:
在特征融合的第三个阶段,再次使用与第一阶段相同的操作,使用自注意力机制以增强融合后的特征,使用自注意力机制以增强模型对目标区域的感知能力。
步骤S2.3:构建互相关模块,包含两层基于注意力机制的互相关子网络,通过注意力机制使网络更关注与目标特征减少干扰物对跟踪的影响。本文利用注意力机制,实现模板图像与搜索图像之间的交叉感知,将所得的基于搜索的多模态融合特征图与基于模板的多模态融合特征图以注意力机制为基础,进行相关操作。
具体包含两个步骤,第一步通过互注意力机制实现不同向量之间的交叉查询,将搜索特征作为key和value,将模板特征作为query,如下公式所示:
在构建互相关模块的第二步,本发明通过自注意力机制,增强模型对无人机目标的特征感知,加强对目标的定位能力,进而提高目标的识别准确度,具体如公式所示:
步骤S2.4构建目标分类器,所述目标分类器由三层全连接层构成,用于判定图片对应位置是否存在目标,并使用softmax函数计算二分类损失。最终输出为一个维度为1024*2的向量,分别对应原始图像中的像素块,其输出值0,1分别代表像素块中是否包含目标。
步骤S2.5构建目标定位器,所述目标定位器由三层全连接组成,输出目标对应包围盒坐标位置信息。输出维度为1024*4,分别目标框的归一化坐标。
步骤S3:构建离线模型训练,在ImageNet上加载预训练模型Swin-transformer,重复步骤S2.1-S2.5,并使用AdamW算法训练模型直至损失下降收敛,设计迭代次数为100,除backbone模型外,其他层的学习率设置为1e-5,batchsize设置为32,根据目标所在图像的位置与大小生成目标大小两倍的正样本,其他区域均为负样本;模型在大规模目标跟踪数据集上进行训练,在训练至20轮后,再使用Anti-UAV数据集进行训练。
步骤S4:执行在线跟踪,读取视频序列并获取视频中的第一帧作为模板图像,将第一帧作为模板帧,对目标跟踪模型进行初始化,得到模板特征。将搜索图像输入到目标跟踪模型中,对标注区域进行裁剪获取初始目标,对后续序列,依次进行S2中所列步骤,选取置信度得分最高的区域作为初步结果,最终完成整个序列跟踪。
为了验证跟踪模型的有效性,本发明提供一实施例并在反无人机数据集上进行了对比实验,与目前先进的多模态跟踪方法相比,如图3所示,本发明SiamSTA在遮挡、小目标、视野丢失、尺寸变换等挑战性问题上均具有突出表现,具体参数设置与步骤如下:
1、请参照图1与步骤步骤S2.1,构建特征提取器,该特征提取器由swin-transformer骨干网络构成,其WindowSize为12,PatchSize为4,嵌入层维度为128,最终输出维度为256,注意力头的个数为8,具体计算如下:
其中swin表示骨干网络,表示红外模态下的经裁剪后的搜索图像,/>表示红外模态下的经裁剪后的模板图像,/>表示红外模态下搜索图像的特征输出,/>表示红外模态下模板图像的特征输出,/>表示可见光模态下的经裁剪后的搜索图像,/>表示可见光模态下的经裁剪后的模板图像,/>表示可见光模态下搜索图像的特征输出,/>表示可见光模态下模板图像的特征输出。
2、请参照图2与步骤S2.2,构建多层次特征融合模块,该模块共三个阶段,每个阶段多注意力头的个数为8,前馈网络隐藏层维度为2048,dropout参数设置为0.1,第一个阶段的输出维度固定为256,经第二阶段的拼接操作使其输出维度增加至512,经第三阶段,输出为512,具体计算如下:
上式中,表示特征融合的第一个阶段所进行的操作,/>表示特征融合的第二个阶段所进行的操作,/>3表示特征融合的第三个阶段所进行的操作,/>表示红外模态下经裁剪后的输入图像,/>表示可见光模态下经裁剪后的输入图像,/>表示位置编码,/>表示第一阶段红外分支下的输出,/>表示第一阶段可见光分支下的输出,/>表示第二阶段下输出的融合向量,/>表示多层次特征融合模块最终输出。
3、请参照图1与步骤S2.3,构建互相关模块,该模块可分为两层,每层均包含注意力函数,其注意力头的个数设置为8,dropout参数设置为0.1,前馈网络输出维度为2048,具体如下所示:
上式中,表示搜索特征,/>表示模板特征,/>与/>表示中间特征,/>表示第一层融合之后的特征,FFN表示三层带残差的全连接函数,/>表示最终输出,FFN表示三层带残差的全连接函数,/>表示多头注意力。
4、请参照图1、步骤S2.3与步骤S2.4,构建目标定位器与目标分类器,目标分类器为三层全连接网络,隐藏层维度为256,最终输出的通道数为2用于表示前景与背景,目标定位器也设计为三层全连接网络,隐藏层维度为256,最终输出的通道数为4用于表示归一化的目标框坐标。
5、请参照步骤S3进行离线训练,将损失函数设计为分类损失与回归损失,其中分类损失为交叉熵损失,回归损失包含目标框与预测框的L1损失与IOU损失;而后使用AdamW算法训练模型直至损失下降收敛,学习率设置为1e-5,batchsize设置为32,模型在大规模目标跟踪数据集上进行训练,在训练至20轮后,再使用Anti-UAV数据集进行训练。
本发明中,还提供一种基于多阶段注意力机制的RGBT无人机目标跟踪系统,该系统用于实施上述基于多阶段注意力机制的RGBT无人机目标跟踪方法。
本发明提出的一种基于多阶段注意力机制的RGBT无人机目标跟踪方法及系统,使用多模态无人机信息,弥补了可见光与红外模态各自的缺陷,使用自注意力机制加强了网络对无人机目标的特征识别能力,使用互注意力机制加强对搜索区域的相似目标判定能力。本发明属于深度学习领域,目标跟踪方法包含特征提取步骤、多模态特征融合步骤与互相关步骤,特征提取步骤用以对输入数据进行特征提取以得到对应的模板特征和搜索特征,多模态特征融合步骤利用注意力机制将两个模态的特征进行交互融合,实现两种模态的互补增强,互相关步骤将对搜索特征与模板特征进行互相关操作以确定目标所在位置。
Claims (10)
1.基于多阶段注意力机制的RGBT无人机目标跟踪方法,其特征在于,该方法具体为:
步骤S1:构建训练、评估数据集,选取公开的GOT10K、OTB100和Anti-UAV中划分数据,用于模型训练和测试;
步骤S2:构建目标跟踪模型;
步骤S3:训练离线模型,加载预训练模型swin-transformer,使用AdamW算法训练目标跟踪模型,直至损失收敛;
步骤S4:执行在线跟踪,读取视频序列并获取视频中的第一帧作为模板图像,对标注区域进行裁剪获取初始目标,对后续序列,进行步骤S2中目标跟踪模型,最终完成整个序列跟踪。
2.如权利要求1所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法,其特征在于,所述步骤S1中,将传统可见光数据集作为预训练数据集,针对无人机特定目标,使用Anti-UAV数据集进行更进一步的训练;将热成像和可见光图像两种模态的无人机图像作为所述方法的输入。
3.如权利要求1所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法,其特征在于,所述步骤S2中,目标跟踪模型包括特征提取模块、多层次特征融合模块、互相关模块、目标分类器、目标定位器,具体如下:
步骤S2.1:构建共享权重的双分支特征提取模块,利用swin-transformer作为预训练主干模型,输出其最后一层特征;
步骤S2.2:构建多层次特征融合模块,针对步骤S2.1所提取的特征图,以双分支三阶段来进行特征融合,以交叉查询的方式提高模型对多模态之间的信息的利用,引导一个模态向另一个模态查询隐含特征;
步骤S2.3:构建互相关模块,利用注意力机制,实现模板图像与搜索图像之间的交叉感知;
步骤S2.4:构建目标分类器,目标分类器由三层全连接层构成,最终输出为一个维度为1024*2的向量;
步骤S2.5:构建目标定位器,目标定位器由三层全连接组成,输出维度为1024*4,分别目标框的归一化坐标。
4.如权利要求3所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法,其特征在于,所述步骤S2.2中,在特征融合的第一个阶段,使用自注意力机制以增强模型对目标区域的感知能力,公式如下:
MultiHead函数表示多头注意力函数,公式如下:
6.如权利要求5所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法,其特征在于,所述步骤S2.2中,在特征融合的第三个阶段,再次使用与第一阶段相同的操作,使用自注意力机制以增强模型对目标区域的感知能力。
8.如权利要求1所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法,其特征在于,所述步骤S3中,在ImageNet上加载预训练模型Swin-transformer,重复步骤S2.1-S2.5,并使用AdamW算法训练模型直至损失下降收敛,设计迭代次数为100,除backbone模型外,其他层的学习率设置为1e-5,batchsize设置为32,根据目标所在图像的位置与大小生成目标大小两倍的正样本,其他区域均为负样本。
9.如权利要求1所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法,其特征在于,所述步骤S3中,模型在大规模目标跟踪数据集上进行训练,在训练至20轮后,再使用Anti-UAV数据集进行训练。
10.基于多阶段注意力机制的RGBT无人机目标跟踪系统,其特征在于,该系统用于实施如权利要求1-9中任一项所述的基于多阶段注意力机制的RGBT无人机目标跟踪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310035520.5A CN116188528B (zh) | 2023-01-10 | 2023-01-10 | 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310035520.5A CN116188528B (zh) | 2023-01-10 | 2023-01-10 | 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116188528A true CN116188528A (zh) | 2023-05-30 |
CN116188528B CN116188528B (zh) | 2024-03-15 |
Family
ID=86443683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310035520.5A Active CN116188528B (zh) | 2023-01-10 | 2023-01-10 | 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116188528B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116977615A (zh) * | 2023-07-27 | 2023-10-31 | 广东技术师范大学 | 荔枝果梗识别定位方法及装置 |
CN117406780A (zh) * | 2023-11-20 | 2024-01-16 | 鸣飞伟业技术有限公司 | 一种无人机追逃方法及系统 |
CN117537929A (zh) * | 2023-10-27 | 2024-02-09 | 大湾区大学(筹) | 基于红外热成像的无人机检测方法、系统、设备及介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476823A (zh) * | 2020-05-09 | 2020-07-31 | 安徽大学 | 基于多挑战交互学习的实时rgbt跟踪方法及装置 |
CN112949458A (zh) * | 2021-02-26 | 2021-06-11 | 北京达佳互联信息技术有限公司 | 目标跟踪分割模型的训练方法和目标跟踪分割方法及装置 |
CN112949451A (zh) * | 2021-02-24 | 2021-06-11 | 安徽大学 | 通过模态感知特征学习的跨模态目标跟踪方法及系统 |
CN113077491A (zh) * | 2021-04-02 | 2021-07-06 | 安徽大学 | 基于跨模态共享和特定表示形式的rgbt目标跟踪方法 |
CN113628249A (zh) * | 2021-08-16 | 2021-11-09 | 电子科技大学 | 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法 |
CN114092521A (zh) * | 2021-11-26 | 2022-02-25 | 厦门理工学院 | 基于多阶段自适应网络的鲁棒目标跟踪方法及系统 |
CN114399533A (zh) * | 2022-01-17 | 2022-04-26 | 中南大学 | 一种基于多层次注意力机制的单目标追踪方法 |
CN114937239A (zh) * | 2022-05-25 | 2022-08-23 | 青岛科技大学 | 行人多目标跟踪识别方法及跟踪识别装置 |
CN114998601A (zh) * | 2022-06-29 | 2022-09-02 | 齐鲁工业大学 | 基于Transformer的在线更新目标跟踪方法及系统 |
CN115100246A (zh) * | 2022-07-14 | 2022-09-23 | 中国科学技术大学 | 一种用于语言-视觉目标跟踪的跨模态检索方法及系统 |
CN115170605A (zh) * | 2022-06-15 | 2022-10-11 | 南京大学 | 基于多模态交互和多阶段优化的实时rgbt目标跟踪方法 |
-
2023
- 2023-01-10 CN CN202310035520.5A patent/CN116188528B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476823A (zh) * | 2020-05-09 | 2020-07-31 | 安徽大学 | 基于多挑战交互学习的实时rgbt跟踪方法及装置 |
CN112949451A (zh) * | 2021-02-24 | 2021-06-11 | 安徽大学 | 通过模态感知特征学习的跨模态目标跟踪方法及系统 |
CN112949458A (zh) * | 2021-02-26 | 2021-06-11 | 北京达佳互联信息技术有限公司 | 目标跟踪分割模型的训练方法和目标跟踪分割方法及装置 |
CN113077491A (zh) * | 2021-04-02 | 2021-07-06 | 安徽大学 | 基于跨模态共享和特定表示形式的rgbt目标跟踪方法 |
CN113628249A (zh) * | 2021-08-16 | 2021-11-09 | 电子科技大学 | 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法 |
CN114092521A (zh) * | 2021-11-26 | 2022-02-25 | 厦门理工学院 | 基于多阶段自适应网络的鲁棒目标跟踪方法及系统 |
CN114399533A (zh) * | 2022-01-17 | 2022-04-26 | 中南大学 | 一种基于多层次注意力机制的单目标追踪方法 |
CN114937239A (zh) * | 2022-05-25 | 2022-08-23 | 青岛科技大学 | 行人多目标跟踪识别方法及跟踪识别装置 |
CN115170605A (zh) * | 2022-06-15 | 2022-10-11 | 南京大学 | 基于多模态交互和多阶段优化的实时rgbt目标跟踪方法 |
CN114998601A (zh) * | 2022-06-29 | 2022-09-02 | 齐鲁工业大学 | 基于Transformer的在线更新目标跟踪方法及系统 |
CN115100246A (zh) * | 2022-07-14 | 2022-09-23 | 中国科学技术大学 | 一种用于语言-视觉目标跟踪的跨模态检索方法及系统 |
Non-Patent Citations (4)
Title |
---|
JIACHEN LI等: "Spatio-Temporal Graph Dual-Attention Network for Multi-Agent Prediction and Tracking", 《IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS》, vol. 23, no. 8, 31 August 2022 (2022-08-31), pages 10556, XP093140522, DOI: 10.1109/TITS.2021.3094821 * |
PEIZE SUN等: "TransTrack: Multiple Object Tracking with Transformer", 《HTTPS://ARXIV.ORG/ABS/2012.15460》, 31 December 2021 (2021-12-31), pages 1 - 11 * |
江英杰 等: "基于视觉Transformer的双流目标跟踪算法", 《计算机工程与应用》, vol. 58, no. 12, 31 December 2022 (2022-12-31), pages 183 - 190 * |
涂晓波: "多层次深度特征融合的目标检测方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 02, 15 February 2021 (2021-02-15), pages 138 - 932 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116977615A (zh) * | 2023-07-27 | 2023-10-31 | 广东技术师范大学 | 荔枝果梗识别定位方法及装置 |
CN116977615B (zh) * | 2023-07-27 | 2024-04-30 | 广东技术师范大学 | 荔枝果梗识别定位方法及装置 |
CN117537929A (zh) * | 2023-10-27 | 2024-02-09 | 大湾区大学(筹) | 基于红外热成像的无人机检测方法、系统、设备及介质 |
CN117406780A (zh) * | 2023-11-20 | 2024-01-16 | 鸣飞伟业技术有限公司 | 一种无人机追逃方法及系统 |
CN117406780B (zh) * | 2023-11-20 | 2024-05-31 | 鸣飞伟业技术有限公司 | 一种无人机追逃方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116188528B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116188528B (zh) | 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统 | |
Chandio et al. | Precise single-stage detector | |
US11804036B2 (en) | Person re-identification method based on perspective-guided multi-adversarial attention | |
CN112651262B (zh) | 一种基于自适应行人对齐的跨模态行人重识别方法 | |
CN116168322B (zh) | 一种基于多模态融合的无人机长时跟踪方法及系统 | |
CN117079139B (zh) | 一种基于多尺度语义特征的遥感图像目标检测方法及系统 | |
CN115170605A (zh) | 基于多模态交互和多阶段优化的实时rgbt目标跟踪方法 | |
CN115908517B (zh) | 一种基于对应点匹配矩阵优化的低重叠点云配准方法 | |
CN113361636A (zh) | 一种图像分类方法、系统、介质及电子设备 | |
Wang et al. | Plug-and-play: Improve depth prediction via sparse data propagation | |
CN114445461A (zh) | 基于非配对数据的可见光红外目标跟踪训练方法及装置 | |
CN116862949A (zh) | 基于对称交叉注意力和位置信息增强的Transformer目标跟踪方法及跟踪器 | |
CN112084895A (zh) | 一种基于深度学习的行人重识别方法 | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN116994164A (zh) | 一种多模态航拍图像融合与目标检测联合学习方法 | |
CN116311504A (zh) | 一种小样本行为识别方法、系统及设备 | |
CN115359294A (zh) | 一种基于相似性正则化类内挖掘的跨粒度小样本学习方法 | |
CN115098646A (zh) | 一种图文数据的多级关系分析与挖掘方法 | |
CN114581353A (zh) | 一种红外图像的处理方法、装置、介质及电子设备 | |
CN113642498A (zh) | 一种基于多层次时空特征融合的视频目标检测系统及方法 | |
CN113052875A (zh) | 一种基于状态感知模板更新的目标跟踪算法 | |
CN117649582B (zh) | 基于级联注意力的单流单阶段网络目标跟踪方法与系统 | |
CN117994822B (zh) | 一种基于辅助模态增强和多尺度特征融合的跨模态行人重识别方法 | |
CN114757970B (zh) | 一种基于样本平衡的多层级回归目标跟踪方法和跟踪系统 | |
CN116310676A (zh) | 基于多模态信息融合的动态目标识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |