CN115619829A - 一种无人机目标跟踪方法、系统、介质、设备及终端 - Google Patents
一种无人机目标跟踪方法、系统、介质、设备及终端 Download PDFInfo
- Publication number
- CN115619829A CN115619829A CN202211384704.4A CN202211384704A CN115619829A CN 115619829 A CN115619829 A CN 115619829A CN 202211384704 A CN202211384704 A CN 202211384704A CN 115619829 A CN115619829 A CN 115619829A
- Authority
- CN
- China
- Prior art keywords
- target tracking
- unmanned aerial
- aerial vehicle
- target
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 29
- 230000008447 perception Effects 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims abstract description 13
- 230000004927 fusion Effects 0.000 claims abstract description 8
- 238000010586 diagram Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000004807 localization Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 abstract 1
- 238000004422 calculation algorithm Methods 0.000 description 12
- 230000008901 benefit Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010899 nucleation Methods 0.000 description 2
- 230000008092 positive effect Effects 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉中的目标跟踪技术领域,公开了一种无人机目标跟踪方法、系统、介质、设备及终端,利用ImageNet数据集进行主干网络预训练;创建SiamTCP无人机跟踪模型,并在多个视频数据集上训练SiamTCP无人机跟踪模型。本发明提供的基于目标感知级联像素匹配的无人机目标跟踪方法,通过在多个数据集上进行训练,从而确定神经网络模型的参数,训练完成之后的模型,可以应用于无人机场景的目标跟踪任务。具体而言,本发明提出了逐像素互相关,并进行级联操作,通过部分到部分的匹配操作代替全局到全局的匹配,增强了特征融合的结果。同时本发明提出的目标感知模块可以剔除不必要的背景信息,能够很好地配合级联的像素匹配过程。
Description
技术领域
本发明属于计算机视觉中的目标跟踪技术领域,尤其涉及一种无人机目标跟踪方法、系统、介质、设备及终端。
背景技术
视觉目标跟踪是计算机视觉的一个基础研究课题。视觉目标跟踪的任务通常是在视频的开始选择所感兴趣的物体,并在接下来的序列中定位目标。在日常生活中,视觉目标跟踪有很多应用场景,如视频监控、智能人机交互、自动驾驶等。近年来,随着跟踪算法的进步,目标跟踪领域得到了迅速的发展。然而,由于障碍物的遮挡、跟踪对象的外观变化、目标附近相似性物体的干扰以及跟踪对象的快速运动等原因,跟踪器往往无法稳定跟踪。因此,设计一种速度更快、定位更准确的跟踪算法仍然具有挑战性。
目前,考虑到卷积神经网络优越的跟踪效果,本发明将其应用于目标跟踪领域。其中,基于孪生网络的跟踪算法引起了很大的反响和关注。然而,如果应用于空中无人机视角下的实时目标跟踪,这些算法还存在着一些局限性。因为孪生网络通常直接使用第一帧作为模板图像,所以第一帧的目标信息对后续帧的匹配有很大的影响。不同于一般的孪生网络目标跟踪器,本发明选择对卷积后得到的模板特征进行掩膜处理,只保留目标的特征信息,避免了复杂背景对目标对象的干扰。考虑到空中跟踪的独特性,即出现在场景中的物体通常都比较小,本发明设计更为细粒度的匹配方式,即对模板和搜索区域进行级联式像素相关。因此,本发明旨在提出一种有效的无人机目标跟踪方法。
通过上述分析,现有技术存在的问题及缺陷为:
(1)由于障碍物的遮挡、跟踪对象的外观变化等原因,孪生网络中使用的全局匹配缺少对目标的判别性表示,使得跟踪器往往无法稳定跟踪。
(2)现有基于孪生网络的跟踪算法中,通常采用第一帧目标区域作为模板,然而其中也包含了背景信息,这对无人机跟踪有着一定的负面干扰。
发明内容
针对现有技术存在的问题,本发明提供了一种无人机目标跟踪方法、系统、介质、设备及终端,尤其是涉及一种基于目标感知级联像素匹配的无人机目标跟踪方法、系统、介质、设备及终端。
本发明是这样实现的,一种无人机目标跟踪方法,所述无人机目标跟踪方法包括:利用ImageNet数据集进行主干网络的预训练;基于孪生网络结构,使用深度学习框架PyTorch搭建SiamTCP无人机跟踪模型;在多个视频数据集上训练SiamTCP无人机跟踪模型,通过损失函数更新网络的参数。
进一步,所述无人机目标跟踪方法包括以下步骤:
步骤一,进行主干网络的初始化;
步骤二,构建基于目标感知级联像素匹配的无人机目标跟踪模型;
步骤三,进行无人机目标跟踪模型的训练。
进一步,所述步骤一中的主干网络采用改进的GoogLeNet;将主干网络在ImageNet图像分类数据集上进行预训练,进而初始化主干网络的权重。
进一步,所述步骤二中基于目标感知级联像素匹配的无人机目标跟踪模型的构建包括:使用深度学习框架PyTorch搭建SiamTCP无人机跟踪模型,所述SiamTCP由改进后的主干网络GoogLeNet、像素级相关、目标感知模块、级联像素匹配模块以及全卷积神经网络结构的分类和回归子网络组成。SiamTCP跟踪模型的输入采用双路分支,分别是模板和搜索区域分支,两个分支被送入CNN进行特征提取;目标感知的级联像素匹配模块包括目标感知模块和级联的像素级相关模块,用于特征融合;后续分类回归子网络则用于目标定位。
所述像素级相关,将模板特征分解为多个空间内核以实现高质量特征表示,空间内核大小为1×1;模板特征Tt沿宽度和高度进行划分,得到nt个小内核;
nt=wt×ht;
进一步,所述目标感知模块,通过标记边界框Bt的监督生成变量模板,将Bt投影到模板特征Zt上,得到感兴趣区域Rt,新的模板特征Tt可以表示为:
经过处理过的模板特征Tt被分解成许多大小为1×1×C的核,C是模板特征Tt的通道,利用得到的空间核即可用来计算逐像素的相关性。
所述级联像素匹配模块是对模板区域和搜索区域之间的特征融合进行多次级联,Sf表示经过特征提取后的搜索特征图,Tt表示经过特征提取后的模板特征图,且模板特征图是经过目标感知模块处理后得到的;SiamTCP模型将搜索特征图Sf和模板特征图Tt进行像素级互相关操作得到F1,再将像素级互相关操作得到的F1与搜索特征图Sf进行拼接操作得到F2;通过不断将新得到的特征与模板特征进行像素级互相关操作;将所有像素级相关操作得到的特征进行拼接得到新的特征;SiamTCP模型共将操作重复三次。
进一步,所述步骤三中的无人机目标跟踪模型的训练包括:将构建好的模型COCO、ImageNet DET、ImageNet VID、YouTube-BB和GOT-10k五个数据集上使用随机梯度下降训练20个迭代,将训练批次大小设置为76;在改进后的GoogLeNet中固定前10个迭代的参数,用于训练模型的头部网络。在后10个迭代中,固定主干网络中第1阶段和第2阶段的参数,并对第3阶段和第4阶段的参数进行微调;对于前5个迭代,设置一个从0.005线性增加到0.01的预热学习率;对于最后15个迭代,使用指数衰减至0.0005的学习率;在整个训练过程中,使用127个像素作为模板补丁,使用287个像素作为搜索区域。
本发明的另一目的在于提供一种以上所述基于目标感知级联像素匹配的无人机目标跟踪系统,所述无人机目标跟踪系统包括:将训练好的SiamTCP网络模型,进行测试和部署,用于无人机场景下的目标跟踪任务。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述的无人机目标跟踪方法的步骤。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述的无人机目标跟踪方法的步骤。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的无人机目标跟踪系统。
结合上述的技术方案和解决的技术问题,本发明所要保护的技术方案所具备的优点及积极效果为:
第一,针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:
本发明的目的在于提供一种基于目标感知级联像素匹配的无人机目标跟踪方法,通过在多个数据集上进行训练,从而确定神经网络模型的参数,训练完成之后的模型,可以应用于无人机场景的目标跟踪任务。
大多数基于孪生网络的跟踪器用原始的互相关或深度可分相关操作将双路的特征融合在一起。然而,这种方式模糊了空间和细节信息。因为它们的内核是一个完整的模板补丁,用于与搜索区域进行互相关计算。由于无人机跟踪需要获取尽可能多的空间和详细信息,传统的互相关或深度互相关不适用于航空跟踪场景。因此,本发明提出了逐像素互相关,并进行级联操作,通过部分到部分的匹配操作代替全局到全局的匹配,可以得到更精确的结果。同时,考虑到无人机场景的目标跟踪,周围的干扰信息会比较多,本发明提出的目标感知模块剔除了不必要的背景信息,可以很好地配合级联的像素匹配过程。
第二,把技术方案看做一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:
考虑到空中跟踪的独特特性,即出现在场景中的物体通常都比较小,本发明提供了一种基于目标感知级联像素匹配的无人机目标跟踪模型,采用不同于传统的互相关方法,即级联的像素级相关操作来进行细粒度的匹配过程。
本发明主要提出一个目标感知的级联像素匹配的实时跟踪模型,通过在多个公共视频数据集上进行大规模离线训练,从而确定网络模型的参数;训练完成之后的模型,可以更好地适用于无人机场景的目标跟踪。
第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
(1)本发明的技术方案转化后的预期收益和商业价值为:本发明提出的无人机目标跟踪模型,可以通过目标感知和像素匹配模块,更好地捕获目标的判别性表征,能够完成视角多变的无人机目标跟踪任务,从而更有效地服务于无人机作业(如无人机导航、智慧农业播种等应用场景)。
(2)本发明的技术方案解决了人们一直渴望解决、但始终未能获得成功的技术难题:本发明提出的无人机目标跟踪模型,受益于级联式像素级匹配,可以在一定程度应对复杂场景下的目标部分遮挡、形变等挑战性因素。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的无人机目标跟踪方法流程图;
图2是本发明实施例提供的SiamTCP目标跟踪模型的基本架构图;
图3是本发明实施例提供的像素级相关中模板特征的分解示意图;
图4是本发明实施例提供的像素级相关中相似性匹配示意图;
图5是本发明实施例提供的结合目标感知模块的像素级相关示意图;
图6是本发明实施例提供的级联的像素级匹配过程示意图;
图7是本发明实施例提供的与其它跟踪算法在UAV123数据集上的性能与速度比较示意图;
图8是本发明实施例提供的与其它跟踪算法在OTB100数据集上精确度的比较示意图;
图9是本发明实施例提供的与其它跟踪算法在OTB100数据集上成功度的比较示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种无人机目标跟踪方法、系统、介质、设备及终端,下面结合附图对本发明作详细的描述。
一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现,该部分是对权利要求技术方案进行展开说明的解释说明实施例。
如图1所示,本发明实施例提供的无人机目标跟踪方法包括以下步骤:
S101,利用ImageNet数据集进行主干网络预训练;
S102,创建SiamTCP无人机跟踪模型;
S103,在多个视频数据集上训练SiamTCP模型。
作为优选实施例,本发明实施例提供的无人机目标跟踪方法具体包括以下步骤:
步骤1、主干网络的预训练;
本发明的主干网络采用的是改进过的GoogLeNet(Inception v3),将主干网在ImageNet图像分类数据集上进行预训练来初始化主干网络的权重;
步骤2、构建基于目标感知级联像素匹配的无人机目标跟踪模型;
使用深度学习框架Pytorch搭建SiamTCP模型,该模型由改进的主干网络GoogLeNet(Inception v3)、像素级相关、目标感知模块、级联像素匹配模块、以及分类和回归子网络组成。本发明实施例提供的基本框架如图2所示,该算法输入采用双路分支,分别是模板补丁和搜索区域分支。这两个分支被送到CNN进行特征提取。目标感知的级联像素匹配模块,主要用于特征融合,其中包括目标感知模块和级联的像素级相关模块。而后续的分类回归子网络用于目标的定位。本发明实施例将模板特征分解为多个空间内核以实现高质量的特征表示,空间内核的大小为1×1。如图3所示,模板特征Tt沿宽度和高度进行划分,得到nt个1×1大小的内核。
nt=wt×ht
传统的互相关计算通常在响应图中存在很多背景干扰,因为它们将搜索特征与从模板中心裁剪的目标特征进行匹配。与上述的传统方法不同,本发明实施例通过标记边界框Bt的监督生成一个变量模板,将Bt投影到模板特征Zt上,得到一个感兴趣的区域Rt。通过这个简单的操作,本发明实施例可以得到一个新的模板特征Tt,可以表示为:
这个处理过的模板特征Tt被分解成许多大小为1×1×C的核,C是模板特征Tt的通道。然后,本发明实施例用得到的空间核来计算逐像素的相关性。本发明实施例提出的结合目标感知和像素级相关模块之间的图示如图5所示。
本发明实施例提出的级联像素匹配模块,具体来说,就是级联模板区域和搜索区域之间的特征融合。级联像素匹配模块如图6所示,其中,Sf表示经过特征提取后的搜索特征图,Tt表示经过特征提取后的模板特征图,并且该模板特征图是经过目标感知模块处理后得到的,SiamTCP模型先将搜索特征图Sf和模板特征图Tt进行像素级互相关操作得到F1,再将像素级互相关操作得到的F1与搜索特征图Sf进行拼接操作得到F2,通过不断地将新得到的特征与模板特征进行像素级互相关操作,然后将之前所有像素级相关操作得到的特征进行拼接得到新的特征。SiamTCP模型一共将该操作重复三次,通过这种级联操作,SiamTCP模型可以捕获特征融合的更多细节信息,这对后续的定位有重要意义。
步骤3、模型训练;
将构建好的模型COCO,ImageNet DET,ImageNet VID,YouTube-BB和GOT-10k五个数据集上使用随机梯度下降训练20个迭代。本发明实施例将训练批次大小设置为76。为了训练模型的头部网络,本发明在改进后的GoogLeNet中固定了前10个迭代的参数。在后10个迭代中,本发明固定了主干网络中第1阶段和第2阶段的参数,然后对第3阶段和第4阶段的参数进行了微调。对于前5个迭代,本发明设置了一个从0.005线性增加到0.01的预热学习率。对于最后15个迭代,本发明使用指数衰减至0.0005的学习率。在整个训练过程中,本发明使用127个像素作为模板补丁,使用287个像素作为搜索区域。
本发明实施例提供的处理图像的过程和效果详见图1~图9所示。
本发明实施例提供的无人机目标跟踪系统包括:将训练好的SiamTCP网络模型,进行测试和部署,用于无人机场景下的目标跟踪任务。
二、应用实施例。为了证明本发明的技术方案的创造性和技术价值,该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。
本发明应用实施例提供的无人机目标跟踪模型,能够完成视角多变的无人机目标跟踪任务。受益于级联式像素级匹配,可以在一定程度上应对复杂场景下的目标遮挡、形变、相似物体干扰等挑战性因素。同时,能够更有效地服务于实际的无人机作业,如无人机导航、智慧农业播种等应用场景。
三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果,和现有技术相比的确具备很大的优势,下面内容结合试验过程的数据、图表等进行描述。
表1本发明目标跟踪算法与其他算法在UAV123数据集上的性能比较
为了更好地说明本发明实施例在无人机场景下目标跟踪的有效性,与其他的一些孪生网络的算法在UAV123数据集上进行了性能对比,如表1所示。本发明SiamTCP在精度和准确率指标上均超过了所对比的6个跟踪方法。此外,图7进一步说明了本发明专利在UAV123数据集上性能与速度的优越性,跟踪速度可达50FPS,并且比SiamRPN++的跟踪速度更快、精度更高。
图8和图9进一步分别展示了本发明实施例在OTB100数据集上关于精确度与准确率指标的一次性评估曲线图,本发明SiamTCP表现显著优于SiamRPN、SiamDW等在内的其它目标跟踪方法。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种无人机目标跟踪方法,其特征在于,所述无人机目标跟踪方法包括:利用ImageNet数据集进行主干网络的预训练;基于孪生网络结构,使用深度学习框架PyTorch搭建SiamTCP无人机跟踪模型;在多个视频数据集上训练SiamTCP无人机跟踪模型,通过损失函数更新网络的参数。
2.如权利要求1所述的无人机目标跟踪方法,其特征在于,所述无人机目标跟踪方法包括以下步骤:
步骤一,进行主干网络的初始化;
步骤二,构建基于目标感知级联像素匹配的无人机目标跟踪模型;
步骤三,进行无人机目标跟踪模型的训练。
3.如权利要求2所述的无人机目标跟踪方法,其特征在于,所述步骤一中的主干网络采用改进的GoogLeNet;将主干网络在ImageNet图像分类数据集上进行预训练,进而初始化主干网络的权重。
4.如权利要求2所述的无人机目标跟踪方法,其特征在于,所述步骤二中的基于目标感知级联像素匹配的无人机目标跟踪模型的构建包括:使用深度学习框架PyTorch搭建SiamTCP目标跟踪模型,所述SiamTCP目标跟踪模型由改进后的主干网GoogLeNet、像素级相关、目标感知模块、级联像素匹配模块以及全卷积神经网络结构的分类和回归子网络组成;
所述SiamTCP目标跟踪模型输入采用双路分支,分别是模板和搜索区域分支,两个分支被送入CNN进行特征提取;目标感知的级联像素匹配模块包括目标感知模块和级联的像素级相关模块,用于特征融合;后续分类回归子网络用于目标定位;将模板特征分解为许多空间内核以实现高质量的特征表示,空间内核的大小为1×1;模板特征Tt沿宽度和高度进行划分,得到nt个小内核;
nt=wt×ht;
5.如权利要求4所述的无人机目标跟踪方法,其特征在于,所述目标感知模块,通过标记边界框Bt的监督生成变量模板,将Bt投影到模板特征Zt上,得到感兴趣的区域Rt,并得到新的模板特征Tt,表示为:
经过处理过的模板特征Tt被分解成许多大小为1×1×C的核,C是模板特征Tt的通道,利用得到的空间核来计算逐像素的相关性;
所述级联像素匹配模块是对模板区域和搜索区域之间的特征融合进行多次级联,Sf表示经过特征提取后的搜索特征图,Tt表示经过特征提取后的模板特征图,且模板特征图是经过目标感知模块处理后得到的;SiamTCP模型将搜索特征图Sf和模板特征图Tt进行像素级互相关操作得到F1,再将像素级互相关操作得到的F1与搜索特征图Sf进行拼接操作得到F2;通过不断将新得到的特征与模板特征进行像素级互相关操作;将所有像素级相关操作得到的特征进行拼接得到新的特征;SiamTCP模型共将操作重复三次。
6.如权利要求2所述的无人机目标跟踪方法,其特征在于,所述步骤三中的无人机目标跟踪模型的训练包括:将构建好的模型COCO、ImageNet DET、ImageNet VID、YouTube-BB和GOT-10k五个数据集上使用随机梯度下降训练20个迭代,将训练批次大小设置为76;在改进后的GoogLeNet中固定前10个迭代的参数,用于训练模型的头部网络;在后10个迭代中,固定主干网络中第1阶段和第2阶段的参数,并对第3阶段和第4阶段的参数进行微调;对于前5个迭代,设置一个从0.005线性增加到0.01的预热学习率;对于最后15个迭代,使用指数衰减至0.0005的学习率;在整个训练过程中,使用127个像素作为模板补丁,使用287个像素作为搜索区域。
7.一种应用如权利要求1~6任意一项所述的无人机目标跟踪方法的无人机目标跟踪系统,其特征在于,所述无人机目标跟踪系统包括:对SiamTCP网络模型进行测试和部署,用于无人机场景下的目标跟踪任务。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1~6任意一项所述的无人机目标跟踪方法的步骤。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1~6任意一项所述的无人机目标跟踪方法的步骤。
10.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求7所述的无人机目标跟踪系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211384704.4A CN115619829A (zh) | 2022-11-07 | 2022-11-07 | 一种无人机目标跟踪方法、系统、介质、设备及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211384704.4A CN115619829A (zh) | 2022-11-07 | 2022-11-07 | 一种无人机目标跟踪方法、系统、介质、设备及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115619829A true CN115619829A (zh) | 2023-01-17 |
Family
ID=84877826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211384704.4A Pending CN115619829A (zh) | 2022-11-07 | 2022-11-07 | 一种无人机目标跟踪方法、系统、介质、设备及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115619829A (zh) |
-
2022
- 2022-11-07 CN CN202211384704.4A patent/CN115619829A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mendes et al. | Exploiting fully convolutional neural networks for fast road detection | |
CN110910391B (zh) | 一种双模块神经网络结构视频对象分割方法 | |
US10325179B1 (en) | Learning method and learning device for pooling ROI by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same | |
CN113344932A (zh) | 一种半监督的单目标视频分割方法 | |
Liao et al. | A deep ordinal distortion estimation approach for distortion rectification | |
US20210319578A1 (en) | Unsupervised depth prediction neural networks | |
Jiang et al. | High speed long-term visual object tracking algorithm for real robot systems | |
CN113850136A (zh) | 基于yolov5与BCNN的车辆朝向识别方法及系统 | |
CN115294539A (zh) | 多任务检测方法及装置、存储介质、终端 | |
Elayaperumal et al. | Learning spatial variance-key surrounding-aware tracking via multi-expert deep feature fusion | |
Zhu et al. | Multi-level prediction Siamese network for real-time UAV visual tracking | |
Yuan et al. | Optical flow training under limited label budget via active learning | |
Fan et al. | MP-LN: motion state prediction and localization network for visual object tracking | |
Zhang et al. | Learning target-aware background-suppressed correlation filters with dual regression for real-time UAV tracking | |
Li et al. | Learning target-aware vision transformers for real-time UAV tracking | |
Li et al. | Robust visual tracking with channel attention and focal loss | |
CN110349176A (zh) | 基于三重卷积网络和感知干扰学习的目标跟踪方法和系统 | |
CN111507175A (zh) | 用于虚拟世界中学习的卷积神经网络的方法和装置 | |
CN115619829A (zh) | 一种无人机目标跟踪方法、系统、介质、设备及终端 | |
Shen et al. | A real-time siamese tracker deployed on UAVs | |
Treboux et al. | Towards retraining of machine learning algorithms: an efficiency analysis applied to smart agriculture | |
Riaz et al. | Synthetic Data Generation Framework, Dataset, and Efficient Deep Model for Pedestrian Intention Prediction | |
Yin et al. | Fast scale estimation method in object tracking | |
Hui et al. | Class-agnostic object counting with text-to-image diffusion model | |
CN111862158A (zh) | 一种分阶段目标跟踪方法、装置、终端及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |