CN115393396A - 一种基于掩码预训练的无人机目标跟踪方法 - Google Patents
一种基于掩码预训练的无人机目标跟踪方法 Download PDFInfo
- Publication number
- CN115393396A CN115393396A CN202210994127.4A CN202210994127A CN115393396A CN 115393396 A CN115393396 A CN 115393396A CN 202210994127 A CN202210994127 A CN 202210994127A CN 115393396 A CN115393396 A CN 115393396A
- Authority
- CN
- China
- Prior art keywords
- image
- mask
- training
- aerial vehicle
- unmanned aerial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000005070 sampling Methods 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000000873 masking effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于掩码预训练的无人机目标跟踪方法,包括以下步骤:步骤1,从数据集中采样图像对并进行图像增强构成训练数据集;步骤2,创建基于掩码预训练的无人机目标跟踪网络模型;步骤3,对基于掩码预训练的无人机目标跟踪网络模型进行基于掩码重建的预训练;步骤4,对于步骤3预训练好的基于掩码预训练无人机目标跟踪网络模型,移除解码器和掩码重建任务后进行再训练;步骤5,将待跟踪视频输入到步骤4训练好的基于掩码预训练的无人机目标跟踪网络模型,得到跟踪结果。本发明能够在保持跟踪精度的同时降低模型复杂度,很好地提升跟踪速度。
Description
技术领域
本发明属于无人机目标跟踪技术领域,一种基于掩码预训练的无人机目标跟踪方法。
背景技术
视觉目标跟踪是计算机视觉领域中一个极具吸引力的研究方向,其目的是在给定某视频初始帧中目标位置的情况下,对视频中的目标进行特征提取,根据提取到的目标特征来预测未来时间帧中目标的位置,从而完成对目标的跟踪任务。无人机作为一种新兴的遥感平台,凭借其体积小和操作简单等优势,近年来受到越来越多的关注。在智能化趋势的大背景下,基于无人机的目标跟踪受到人们的青睐,并逐渐应用于民用和军事领域。
无人机目标跟踪与地面目标跟踪相比,无人机视角下的目标主要有尺寸小、背景干扰严重、目标尺度变化大等特点,且无人机在飞行过程中容易出现相机抖动和飞行速度变化,造成目标出现模糊和形变等情况。除此之外,无人机跟踪处理平台大多都是计算资源有限的移动平台,无法完成复杂网络模型的实时处理。因此设计一个网络模型简单且鲁棒的无人机目标跟踪算法具有十分重要的意义。
随着深度学习的发展,目标跟踪领域取得了令人瞩目的进展,涌现出了一批杰出的算法,其中基于Siamese网络的跟踪算法受到了许多学者的青睐。全卷积孪生网络算法(SiamFC)采用AlexNet作为CNN主干网络进行特征提取,然后将目标区域的特征和搜索区域的特征进行互相关运算得到响应图,将响应图的最大值作为目标的位置,有效地将目标跟踪问题转化为了相似度匹配问题。该算法在速度和精度上都取得了不错的效果,但是由于其网络结构简单,一旦目标受到干扰就容易出现漂移现象。为了提高模型的抗干扰能力和泛化能力,后续算法在Siamese网络的基础上采用更深的孪生网络,同时引入注意力机制实现特征加权融合,但是这类算法增加了模型的复杂度,大大降低了模型的跟踪速度,并不适用于无人机目标跟踪的实时性。近年来,Transformer由于在自然语言处理和语音识别等任务中取得了巨大的成功,开始被应用于计算机视觉模型,但其在计算机视觉方面的应用仍然有限,主要与卷积网络结合使用,用于替换卷积网络的某些模块以保持整体结构不变。因此其在提升精度的同时也保留了模型复杂度,无法很好地用于无人机目标跟踪。
通过上述分析,现有方法存在的不足为:
(1)模型结构简单的跟踪算法对于特定的目标跟踪效果很好,而且跟踪速度可以达到实时性,但其不具有很好的泛化性,对于无人机目标跟踪中出现的背景干扰严重、目标尺度变化等问题表现得不理想。
(2)更深或更复杂的网络结构有效的提升了跟踪精度,但因其结构复杂、计算量大,极大地降低了模型跟踪速度。
发明内容
本发明的目的是提供一种基于掩码预训练的无人机目标跟踪方法,能够在保持跟踪精度的同时降低模型复杂度,很好地提升跟踪速度。
本发明所采用的技术方案是:
一种基于掩码预训练的无人机目标跟踪方法,包括以下步骤:
步骤1,从数据集中采样图像对并进行图像增强构成训练数据集;
步骤2,创建基于掩码预训练的无人机目标跟踪网络模型;
步骤3,对基于掩码预训练的无人机目标跟踪网络模型进行基于掩码重建的预训练;
步骤4,对于步骤3预训练好的基于掩码预训练无人机目标跟踪网络模型,移除解码器和掩码重建任务后进行再训练;
步骤5,将待跟踪视频输入到步骤4训练好的基于掩码预训练的无人机目标跟踪网络模型,得到跟踪结果。
本发明的特点还在于:
步骤1中的图像对包括从视频数据集TrackingNet、LaSOT和GOT10k中同一个视频中采样两帧图像构成的图像对,还包括COCO数据集中原始图像采用平移或亮度抖动来生成图像对。
步骤2中基于掩码预训练的无人机目标跟踪网络模型包括利用VisionTransformer构建编码器和解码器,编码器输出与解码器输入连接,解码器输出端连接边界框预测头。
边界框预测头包括依次连接的分类头和回归头,分类头和回归头均由3个卷积块构建而成。
步骤3.1,对训练数据集中的图像对,每个图像对中一个图像作为模板图像,另一个图像作为搜索图像;以目标为中心对两张图像进行一定尺度的裁剪,其中若模板图像裁剪为x*x大小,则搜索图像裁剪为2x*2x大小;
步骤3.2,分别将模板图像和搜索图像分割成不相重叠且大小相同的图像块,得到模板图像块序列ST和搜索图像块序列SS;
步骤3.3,分别对模板图像块序列ST和搜索图像块序列SS进行一定比例的随机掩码,将掩码的图像块从序列中移除,得到掩码后的图像块序列S′T、S′S以及掩码标记masktoken,然后将S′T和S′S拼接在一起得到图像块序列S′x;
步骤3.4,将拼接后的图像块序列S′x送入编码器,通过Transformer中的自注意力机制构建图像块之间的关系,得到编码后的图像块序列Sencoder,其中注意力计算公式如下:
其中,Q、K、V是通过输入进行线性变换得到的矩阵,dk是矩阵Q、K的维度,Softmax()表示归一化指数函数,Attention()为注意力计算公式函数;
步骤3.5,将编码后的图像块序列Sencoder和掩码标记masktoke送入解码器,其中每一个掩码标记都是一个共享的、可学习的向量,表示要预测的缺失图像块,解码器根据输入的信息进行掩码重建,通过预测每个被掩码屏蔽的图像块的像素值来重建输入图像,将输出重塑成重建图像;
步骤3.6,将重建后的图像送入边界框预测头,分别进行分类和回归得到预测的边界框,然后计算重建图像和原始图像以及预测边界框和真实边界框之间的均方误差损失。
步骤4具体的为:
步骤4.1,对训练数据集中的每个图像对中一个图像作为模板图像,另一个图像作为搜索图像;以目标为中心对两张图像进行一定尺度的裁剪,其中若模板图像裁剪为x*x大小,则搜索图像裁剪为2x*2x大小;将其分割成不相重叠且大小相同的图像块,得到模板图像块序列ST和搜索图像块序列SS;
步骤4.2,将模板图像块序列ST和搜索图像块序列SS拼接在一起得到图像块序列Sx;
步骤4.3,对于预训练好的基于掩码预训练无人机目标跟踪网络模型,移除网络中的解码器,同时去掉掩码重建任务,只利用目标检测任务对模型进行部分微调;
步骤4.4,将图像块序列Sx送入编码器对图像块序列进行编码,对编码后的搜索图像特征图分别进行分类和回归得到最后的目标位置预测。
步骤5具体的为:
步骤5.1,在视频序列的第一帧图像中以给定目标的位置为中心裁剪出x*x大小的图像当作模板图像;
步骤5.2,读取下一帧图像并以上一帧预测目标为中心裁剪出大小为2x*2x的图像当作搜索图像,将模板图像和搜索图像裁剪为固定大小的图像块,得到图像块序列ST和SS,将ST和SS拼接在一起同时嵌入位置编码来表示图像块的相对位置得到输入序列Sinpute,将Sinpute送训练好的基于掩码预训练的无人机目标跟踪网络模型,得到当前帧预测的目标位置;
步骤5.3,读取下一帧图像,并重复步骤5.2,直到整个视频序列结束。
本发明的有益效果是:
(1)针对无人机视频中目标背景干扰严重、目标容易出现模糊变形等问题,需要跟踪模型具有很好的泛化性能以供算法预测目标,提出了基于掩码预训练的跟踪方法,利用Vision Transformer对图像块进行掩码重建,以获得较强的表征能力,有效地提升了模型的泛化性。
(2)针对无人机移动平台计算资源有限,无法完成高复杂度模型的实时处理问题,视频跟踪阶段移除了预训练模型中的掩码重建结构,在保证跟踪精度的前提下,降低了模型复杂度,极大提高了跟踪速度。
附图说明
图1:本发明方法的总体框架图;
图2:本发明方法中视频序列跟踪过程的流程图;
图3:本发明实施例1的部分跟踪效果图,(a)、(b)分别为视频第100帧和第300帧的跟踪结果。
图4:本发明在无人机通用数据集UAV123上跟踪效果图,其中(a)为不同位置误差阈值的跟踪精度,(b)为不同重叠率阈值的跟踪成功率;
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
如图1和图2所示,本发明公开了一种基于掩码预训练的无人机目标跟踪方法,方法包括掩码预训练、网络部分微调以及在线跟踪三部分,本发明的具体步骤如下:
步骤1:从数据集TrackingNet、LaSOT、GOT10k和COCO中采样图像对,其中对于视频数据集TrackingNet、LaSOT和GOT10k直接从一个视频中采样两帧图像构成图像对,为了解决视频数据集中样本种类不足的问题增加了COCO数据集,对COCO数据集中原始图像采用平移或亮度抖动来生成图像对,最后对所有图像对进行平移、裁剪、灰度变化等数据增强操作构成训练数据集。
步骤2,创建基于掩码预训练的无人机目标跟踪网络模型,创建基于掩码预训练的无人机目标跟踪网络模型包括利用Vision Transformer构建编码器和解码器,编码器输出与解码器输入连接,解码器输出端连接边界框预测头。
其中边界框预测头包括分类头和回归头,都是由3个卷积块构建而成。
步骤3,利用训练数据集通过掩码重建任务和掩码重建后目标检测任务对基于掩码预训练的无人机目标跟踪网络模型进行预训练,得到预训练的基于掩码预训练无人机目标跟踪网络模型;提升模型表征能力,基于掩码重建的预训练方法为:
步骤3.1,对训练数据集中的每个图像对中一个图像作为模板图像,另一个图像作为搜索图像;以目标为中心对两张图像进行一定尺度的裁剪,其中模板图像裁剪为x*x大小,则搜索图像裁剪为2x*2x大小;
步骤3.2,分别将模板图像和搜索图像分割成不相重叠且大小为16*16的图像块,得到模板图像块序列ST和搜索图像块序列SS;
步骤3.3,分别对模板图像块序列ST和搜索图像块序列SS进行一定比例的随机掩码,将掩码的图像块从序列中移除,得到掩码后的图像块序列S′T、S′S以及掩码标记masktoken,然后将S′T和S′S拼接在一起得到图像块序列S′x;
步骤3.4,将拼接后的图像块序列S′x送入编码器,通过Transformer中的自注意力机制构建图像块之间的关系,得到编码后的图像块序列Sencoder,其中注意力计算公式如下:
其中,Q、K、V是通过输入进行线性变换得到的矩阵,dk是矩阵Q、K的维度,Softmax()表示归一化指数函数,Attention()为注意力计算公式函数。
步骤3.5,与编码器相同,利用Vision Transformer构建对称的解码器,将编码后的图像块序列Sencoder和掩码标记masktoken送入解码器,其中每一个掩码标记都是一个共享的、可学习的向量,表示要预测的缺失图像块,解码器根据输入的信息进行掩码重建,通过预测每个被掩码屏蔽的图像块的像素值来重建输入图像,解码器输出的每个元素都是代表一个图像块的像素值向量,其输出的通道数等于一个图像块中像素值的数量,然后将输出重塑成重建图像;
步骤3.6,将重建后的图像送入边界框预测头,分别进行分类和回归得到预测的边界框,然后计算重建图像和原始图像以及预测边界框和真实边界框之间的均方误差损失,让模型学习强表征能力,提升泛化性能;
步骤4:对预训练的基于掩码预训练无人机目标跟踪网络模型,移除解码器和掩码重建任务,并进行网络模型再训练,得到训练好的基于掩码预训练的无人机目标跟踪网络模型,利用目标检测任务让模型更专注于学习目标特征确保其能更好的应用于无人机目标跟踪任务,再训练的过程为:
步骤4.1,对训练数据集中的每个图像对中一个图像作为模板图像,另一个图像作为搜索图像;以目标为中心对两张图像进行一定尺度的裁剪,其中若模板图像裁剪为x*x大小,则搜索图像裁剪为2x*2x大小;将其分割成不相重叠且大小相同的图像块,得到模板图像块序列ST和搜索图像块序列SS;
步骤4.2,将模板图像块序列ST和搜索图像块序列SS拼接在一起得到图像块序列Sx;
步骤4.3,修改预训练网络结构,移除网络中的解码器,同时去掉掩码重建任务,只利用目标检测任务对模型进行部分微调;
步骤4.4,将图像块序列Sx送入编码器对图像块序列进行编码,对编码后的搜索图像特征图分别进行分类和回归得到最后的目标位置预测。
步骤5:将待跟踪视频输入到步骤4训练好的基于掩码预训练的无人机目标跟踪网络模型,得到跟踪结果。如图2所示,具体过程如下:
步骤5.1,在视频序列的第一帧图像中以给定目标的位置为中心裁剪出x*x大小的图像当作模板图像;
步骤5.2,读取下一帧图像并以上一帧预测目标为中心裁剪出大小为2x*2x的图像当作搜索图像,将模板图像和搜索图像裁剪为固定大小的图像块,得到图像块序列ST和SS,将ST和SS拼接在一起同时嵌入位置编码来表示图像块的相对位置得到输入序列Sinpute,将Sinpute送训练好的基于掩码预训练的无人机目标跟踪网络模型,得到当前帧预测的目标位置;
步骤5.3,读取下一帧图像,并重复步骤5.2,直到整个视频序列结束。
实施例1
本实施例采用无人机通用数据集UAV123上的视频作为带跟踪视频,执行步骤1~步骤5,
其中步骤3.1和步骤4.1中模板图像裁剪为128*128大小,搜索图像裁剪为256*256大小;图像块大小为16*16。
得到的结果为图3,分别为视频第100帧和第300帧的跟踪结果。
其中图4中(a)(b)分别为不同位置误差阈值的跟踪精度和不同重叠率阈值的跟踪成功率,如图可知,本实施的平均跟踪精度达到0.636,在误差阈值为20像素情况下跟踪准确度达到0.834。下面是本实施和目前跟踪算法在无人机通用数据集UAV123上跟踪精度和跟踪速度的比较。
跟踪算法 | 平均精度 | 跟踪速度(FPS) |
ECO | 0.522 | 45 |
MDNet | 0.528 | 5 |
SiamRPN++ | 0.579 | 35 |
SiamBAN | 0.631 | 40 |
本发明跟踪算法 | 0.636 | 85 |
通过上表可知,本发明在无人机通用数据集UAV123上平均跟踪精度可达0.636,平均跟踪速度可达85FPS,相较于之前的无人机目标跟踪算法,在平均跟踪精度和跟踪速度方面都有提升。
Claims (7)
1.一种基于掩码预训练的无人机目标跟踪方法,其特征在于,包括以下步骤:
步骤1,从数据集中采样图像对并进行图像增强构成训练数据集;
步骤2,创建基于掩码预训练的无人机目标跟踪网络模型;
步骤3,对基于掩码预训练的无人机目标跟踪网络模型进行基于掩码重建的预训练;
步骤4,对于步骤3预训练好的基于掩码预训练无人机目标跟踪网络模型,移除解码器和掩码重建任务后进行再训练;
步骤5,将待跟踪视频输入到步骤4训练好的基于掩码预训练的无人机目标跟踪网络模型,得到跟踪结果。
2.如权利要求1所述的一种基于掩码预训练的无人机目标跟踪方法,其特征在于,所述步骤1中的图像对包括从视频数据集TrackingNet、LaSOT和GOT10k中同一个视频中采样两帧图像构成的图像对,还包括COCO数据集中原始图像采用平移或亮度抖动来生成图像对。
3.如权利要求1所述的一种基于掩码预训练的无人机目标跟踪方法,其特征在于,步骤2中所述基于掩码预训练的无人机目标跟踪网络模型包括利用Vision Transformer构建编码器和解码器,所述编码器输出与所述解码器输入连接,所述解码器输出端连接边界框预测头。
4.如权利要求3所述的一种基于掩码预训练的无人机目标跟踪方法,其特征在于,所述边界框预测头包括依次连接的分类头和回归头,所述分类头和回归头均由3个卷积块构建而成。
5.如权利要求3或4所述的一种基于掩码预训练的无人机目标跟踪方法,其特征在于,所述步骤3.1,对训练数据集中的图像对,每个图像对中一个图像作为模板图像,另一个图像作为搜索图像;以目标为中心对两张图像进行一定尺度的裁剪,其中若模板图像裁剪为x*x大小,则搜索图像裁剪为2x*2x大小;
步骤3.2,分别将模板图像和搜索图像分割成不相重叠且大小相同的图像块,得到模板图像块序列ST和搜索图像块序列SS;
步骤3.3,分别对模板图像块序列ST和搜索图像块序列SS进行一定比例的随机掩码,将掩码的图像块从序列中移除,得到掩码后的图像块序列S′T、S′S以及掩码标记masktoken,然后将S′T和S′S拼接在一起得到图像块序列S′x;
步骤3.4,将拼接后的图像块序列S′x送入编码器,通过Transformer中的自注意力机制构建图像块之间的关系,得到编码后的图像块序列Sencoder,其中注意力计算公式如下:
其中,Q、K、V是通过输入进行线性变换得到的矩阵,dk是矩阵Q、K的维度,Softmax()表示归一化指数函数,Attention()为注意力计算公式函数;
步骤3.5,将编码后的图像块序列Sencoder和掩码标记masktoken送入解码器,其中每一个掩码标记都是一个共享的、可学习的向量,表示要预测的缺失图像块,解码器根据输入的信息进行掩码重建,通过预测每个被掩码屏蔽的图像块的像素值来重建输入图像,将输出重塑成重建图像;
步骤3.6,将重建后的图像送入边界框预测头,分别进行分类和回归得到预测的边界框,然后计算重建图像和原始图像以及预测边界框和真实边界框之间的均方误差损失。
6.如权利要求5所述的一种基于掩码预训练的无人机目标跟踪方法,其特征在于,所述步骤4具体的为:
步骤4.1,对训练数据集中的每个图像对中一个图像作为模板图像,另一个图像作为搜索图像;以目标为中心对两张图像进行一定尺度的裁剪,其中若模板图像裁剪为x*x大小,则搜索图像裁剪为2x*2x大小;将其分割成不相重叠且大小相同的图像块,得到模板图像块序列ST和搜索图像块序列SS;
步骤4.2,将模板图像块序列ST和搜索图像块序列SS拼接在一起得到图像块序列Sx;
步骤4.3,对于预训练好的基于掩码预训练无人机目标跟踪网络模型,移除网络中的解码器,同时去掉掩码重建任务,只利用目标检测任务对模型进行部分微调;
步骤4.4,将图像块序列Sx送入编码器对图像块序列进行编码,对编码后的搜索图像特征图分别进行分类和回归得到最后的目标位置预测。
7.如权利要求5所述的一种基于掩码预训练的无人机目标跟踪方法,其特征在于,所述步骤5具体的为:
步骤5.1,在视频序列的第一帧图像中以给定目标的位置为中心裁剪出x*x大小的图像当作模板图像;
步骤5.2,读取下一帧图像并以上一帧预测目标为中心裁剪出大小为2x*2x的图像当作搜索图像,将模板图像和搜索图像裁剪为固定大小的图像块,得到图像块序列ST和SS,将ST和SS拼接在一起同时嵌入位置编码来表示图像块的相对位置得到输入序列Sinpute,将Sinpute送入训练好的基于掩码预训练的无人机目标跟踪网络模型,得到当前帧预测的目标位置;
步骤5.3,读取下一帧图像,并重复步骤5.2,直到整个视频序列结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210994127.4A CN115393396B (zh) | 2022-08-18 | 2022-08-18 | 一种基于掩码预训练的无人机目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210994127.4A CN115393396B (zh) | 2022-08-18 | 2022-08-18 | 一种基于掩码预训练的无人机目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115393396A true CN115393396A (zh) | 2022-11-25 |
CN115393396B CN115393396B (zh) | 2024-02-02 |
Family
ID=84120851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210994127.4A Active CN115393396B (zh) | 2022-08-18 | 2022-08-18 | 一种基于掩码预训练的无人机目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115393396B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116385947A (zh) * | 2023-06-06 | 2023-07-04 | 南京云创大数据科技股份有限公司 | 一种视频目标分割方法、装置、计算机设备及存储介质 |
CN117333514A (zh) * | 2023-12-01 | 2024-01-02 | 科大讯飞股份有限公司 | 一种单目标视频跟踪方法、装置、存储介质及设备 |
CN117392180A (zh) * | 2023-12-12 | 2024-01-12 | 山东建筑大学 | 基于自监督光流学习的交互式视频人物跟踪方法及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805093A (zh) * | 2018-06-19 | 2018-11-13 | 华南理工大学 | 基于深度学习的手扶电梯乘客摔倒检测算法 |
CN109993770A (zh) * | 2019-04-09 | 2019-07-09 | 西南交通大学 | 一种自适应时空学习与状态识别的目标跟踪方法 |
CN111340907A (zh) * | 2020-03-03 | 2020-06-26 | 曲阜师范大学 | 一种自适应属性和实例掩码嵌入图的文本到图像生成方法 |
CN111814878A (zh) * | 2020-07-09 | 2020-10-23 | 仲恺农业工程学院 | 基于ssda-helm-softmax的农业投入品实时分类预测方法 |
CN112164094A (zh) * | 2020-09-22 | 2021-01-01 | 江南大学 | 一种基于孪生网络的快速视频目标跟踪方法 |
CN112986393A (zh) * | 2021-02-22 | 2021-06-18 | 深圳市市政设计研究院有限公司 | 一种桥梁拉索损伤的检测方法和系统 |
CN113298036A (zh) * | 2021-06-17 | 2021-08-24 | 浙江大学 | 一种无监督视频目标分割的方法 |
CN113505610A (zh) * | 2021-07-09 | 2021-10-15 | 中国人民解放军战略支援部队信息工程大学 | 基于模型增强的语音翻译模型训练方法、系统及语音翻译方法和设备 |
US20210397966A1 (en) * | 2020-06-18 | 2021-12-23 | Shanghai United Imaging Intelligence Co., Ltd. | Systems and methods for image segmentation |
CN114399661A (zh) * | 2021-12-31 | 2022-04-26 | 西安工业大学 | 一种实例感知主干网络训练方法 |
CN114821223A (zh) * | 2022-03-30 | 2022-07-29 | 阿里巴巴(中国)有限公司 | 预训练图像文本模型处理方法和图文检索系统 |
CN114882076A (zh) * | 2022-07-11 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于大数据记忆存储的轻量型视频对象分割方法 |
-
2022
- 2022-08-18 CN CN202210994127.4A patent/CN115393396B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805093A (zh) * | 2018-06-19 | 2018-11-13 | 华南理工大学 | 基于深度学习的手扶电梯乘客摔倒检测算法 |
CN109993770A (zh) * | 2019-04-09 | 2019-07-09 | 西南交通大学 | 一种自适应时空学习与状态识别的目标跟踪方法 |
CN111340907A (zh) * | 2020-03-03 | 2020-06-26 | 曲阜师范大学 | 一种自适应属性和实例掩码嵌入图的文本到图像生成方法 |
US20210397966A1 (en) * | 2020-06-18 | 2021-12-23 | Shanghai United Imaging Intelligence Co., Ltd. | Systems and methods for image segmentation |
CN111814878A (zh) * | 2020-07-09 | 2020-10-23 | 仲恺农业工程学院 | 基于ssda-helm-softmax的农业投入品实时分类预测方法 |
CN112164094A (zh) * | 2020-09-22 | 2021-01-01 | 江南大学 | 一种基于孪生网络的快速视频目标跟踪方法 |
CN112986393A (zh) * | 2021-02-22 | 2021-06-18 | 深圳市市政设计研究院有限公司 | 一种桥梁拉索损伤的检测方法和系统 |
CN113298036A (zh) * | 2021-06-17 | 2021-08-24 | 浙江大学 | 一种无监督视频目标分割的方法 |
CN113505610A (zh) * | 2021-07-09 | 2021-10-15 | 中国人民解放军战略支援部队信息工程大学 | 基于模型增强的语音翻译模型训练方法、系统及语音翻译方法和设备 |
CN114399661A (zh) * | 2021-12-31 | 2022-04-26 | 西安工业大学 | 一种实例感知主干网络训练方法 |
CN114821223A (zh) * | 2022-03-30 | 2022-07-29 | 阿里巴巴(中国)有限公司 | 预训练图像文本模型处理方法和图文检索系统 |
CN114882076A (zh) * | 2022-07-11 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于大数据记忆存储的轻量型视频对象分割方法 |
Non-Patent Citations (4)
Title |
---|
KAIMING HE 等: "Masked Autoencoders Are Scalable Vision Learners", ARXIV:2111.06377V3, pages 1 - 6 * |
ZHAN TONG 等: "VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training", ARXIV:2203.12602V1, pages 1 - 5 * |
孙涛: "基于深度视觉注意力机制的显著性检测与跟踪算法研究", 中国优秀硕士学位论文全文数据库信息科技辑, pages 138 - 664 * |
石杰 等: "基于改进Mask RCNN和Kinect 的服务机器人物品识别系统", 仪器仪表学报, vol. 40, no. 4, pages 216 - 228 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116385947A (zh) * | 2023-06-06 | 2023-07-04 | 南京云创大数据科技股份有限公司 | 一种视频目标分割方法、装置、计算机设备及存储介质 |
CN116385947B (zh) * | 2023-06-06 | 2023-08-25 | 南京云创大数据科技股份有限公司 | 一种视频目标分割方法、装置、计算机设备及存储介质 |
CN117333514A (zh) * | 2023-12-01 | 2024-01-02 | 科大讯飞股份有限公司 | 一种单目标视频跟踪方法、装置、存储介质及设备 |
CN117333514B (zh) * | 2023-12-01 | 2024-04-16 | 科大讯飞股份有限公司 | 一种单目标视频跟踪方法、装置、存储介质及设备 |
CN117392180A (zh) * | 2023-12-12 | 2024-01-12 | 山东建筑大学 | 基于自监督光流学习的交互式视频人物跟踪方法及系统 |
CN117392180B (zh) * | 2023-12-12 | 2024-03-26 | 山东建筑大学 | 基于自监督光流学习的交互式视频人物跟踪方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115393396B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11908244B2 (en) | Human posture detection utilizing posture reference maps | |
CN115393396B (zh) | 一种基于掩码预训练的无人机目标跟踪方法 | |
CN113780149A (zh) | 一种基于注意力机制的遥感图像建筑物目标高效提取方法 | |
Tereikovskyi et al. | The method of semantic image segmentation using neural networks | |
CN114821050B (zh) | 一种基于transformer的指称图像分割方法 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN114863539A (zh) | 一种基于特征融合的人像关键点检测方法及系统 | |
CN115731138A (zh) | 一种基于Transformer与卷积神经网络的图像修复方法 | |
CN116630369A (zh) | 基于时空记忆网络的无人机目标跟踪方法 | |
CN113436198A (zh) | 一种协同图像超分辨率重建的遥感图像语义分割方法 | |
CN112785626A (zh) | 一种基于多尺度特征融合的孪生网络小目标跟踪方法 | |
CN115797835A (zh) | 一种基于异构Transformer的无监督视频目标分割算法 | |
CN117173409A (zh) | 一种实时的交互式图像分割方法 | |
CN116363361A (zh) | 基于实时语义分割网络的自动驾驶方法 | |
CN117876793A (zh) | 一种高光谱影像树种分类方法及装置 | |
Yao et al. | SSNet: A novel transformer and CNN hybrid network for remote sensing semantic segmentation | |
Niu et al. | Underwater Waste Recognition and Localization Based on Improved YOLOv5. | |
CN116630482B (zh) | 一种基于多模态检索与轮廓引导的图像生成方法 | |
CN117237623B (zh) | 一种无人机遥感图像语义分割方法及系统 | |
CN115641445B (zh) | 一种非对称内卷积与Transformer相融合的遥感图像阴影检测方法 | |
CN116645625A (zh) | 基于卷积Transformer联合的目标跟踪方法 | |
Zhao et al. | Facial expression recognition based on visual transformers and local attention features network | |
CN112487927A (zh) | 一种基于物体关联注意力的室内场景识别实现方法及系统 | |
Li et al. | Swin Routiformer: Moss classification algorithm based on Swin Transformer with bilevel routing attention | |
CN117593371B (zh) | 一种低帧率水面航行多目标跟踪方法、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |