CN115393396A

CN115393396A - 一种基于掩码预训练的无人机目标跟踪方法

Info

Publication number: CN115393396A
Application number: CN202210994127.4A
Authority: CN
Inventors: 梁继民; 牟剑; 卫晨; 郑洋; 郭开泰
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-08-18
Filing date: 2022-08-18
Publication date: 2022-11-25
Anticipated expiration: 2042-08-18
Also published as: CN115393396B

Abstract

本发明公开一种基于掩码预训练的无人机目标跟踪方法，包括以下步骤：步骤1，从数据集中采样图像对并进行图像增强构成训练数据集；步骤2，创建基于掩码预训练的无人机目标跟踪网络模型；步骤3，对基于掩码预训练的无人机目标跟踪网络模型进行基于掩码重建的预训练；步骤4，对于步骤3预训练好的基于掩码预训练无人机目标跟踪网络模型，移除解码器和掩码重建任务后进行再训练；步骤5，将待跟踪视频输入到步骤4训练好的基于掩码预训练的无人机目标跟踪网络模型，得到跟踪结果。本发明能够在保持跟踪精度的同时降低模型复杂度，很好地提升跟踪速度。

Description

一种基于掩码预训练的无人机目标跟踪方法

技术领域

本发明属于无人机目标跟踪技术领域，一种基于掩码预训练的无人机目标跟踪方法。

背景技术

视觉目标跟踪是计算机视觉领域中一个极具吸引力的研究方向，其目的是在给定某视频初始帧中目标位置的情况下，对视频中的目标进行特征提取，根据提取到的目标特征来预测未来时间帧中目标的位置，从而完成对目标的跟踪任务。无人机作为一种新兴的遥感平台，凭借其体积小和操作简单等优势，近年来受到越来越多的关注。在智能化趋势的大背景下，基于无人机的目标跟踪受到人们的青睐，并逐渐应用于民用和军事领域。

无人机目标跟踪与地面目标跟踪相比，无人机视角下的目标主要有尺寸小、背景干扰严重、目标尺度变化大等特点，且无人机在飞行过程中容易出现相机抖动和飞行速度变化，造成目标出现模糊和形变等情况。除此之外，无人机跟踪处理平台大多都是计算资源有限的移动平台，无法完成复杂网络模型的实时处理。因此设计一个网络模型简单且鲁棒的无人机目标跟踪算法具有十分重要的意义。

随着深度学习的发展，目标跟踪领域取得了令人瞩目的进展，涌现出了一批杰出的算法，其中基于Siamese网络的跟踪算法受到了许多学者的青睐。全卷积孪生网络算法(SiamFC)采用AlexNet作为CNN主干网络进行特征提取，然后将目标区域的特征和搜索区域的特征进行互相关运算得到响应图，将响应图的最大值作为目标的位置，有效地将目标跟踪问题转化为了相似度匹配问题。该算法在速度和精度上都取得了不错的效果，但是由于其网络结构简单，一旦目标受到干扰就容易出现漂移现象。为了提高模型的抗干扰能力和泛化能力，后续算法在Siamese网络的基础上采用更深的孪生网络，同时引入注意力机制实现特征加权融合，但是这类算法增加了模型的复杂度，大大降低了模型的跟踪速度，并不适用于无人机目标跟踪的实时性。近年来，Transformer由于在自然语言处理和语音识别等任务中取得了巨大的成功，开始被应用于计算机视觉模型，但其在计算机视觉方面的应用仍然有限，主要与卷积网络结合使用，用于替换卷积网络的某些模块以保持整体结构不变。因此其在提升精度的同时也保留了模型复杂度，无法很好地用于无人机目标跟踪。

通过上述分析，现有方法存在的不足为：

(1)模型结构简单的跟踪算法对于特定的目标跟踪效果很好，而且跟踪速度可以达到实时性，但其不具有很好的泛化性，对于无人机目标跟踪中出现的背景干扰严重、目标尺度变化等问题表现得不理想。

(2)更深或更复杂的网络结构有效的提升了跟踪精度，但因其结构复杂、计算量大，极大地降低了模型跟踪速度。

发明内容

本发明的目的是提供一种基于掩码预训练的无人机目标跟踪方法，能够在保持跟踪精度的同时降低模型复杂度，很好地提升跟踪速度。

本发明所采用的技术方案是：

一种基于掩码预训练的无人机目标跟踪方法，包括以下步骤：

步骤1，从数据集中采样图像对并进行图像增强构成训练数据集；

步骤2，创建基于掩码预训练的无人机目标跟踪网络模型；

步骤3，对基于掩码预训练的无人机目标跟踪网络模型进行基于掩码重建的预训练；

步骤4，对于步骤3预训练好的基于掩码预训练无人机目标跟踪网络模型，移除解码器和掩码重建任务后进行再训练；

步骤5，将待跟踪视频输入到步骤4训练好的基于掩码预训练的无人机目标跟踪网络模型，得到跟踪结果。

本发明的特点还在于：

步骤1中的图像对包括从视频数据集TrackingNet、LaSOT和GOT10k中同一个视频中采样两帧图像构成的图像对，还包括COCO数据集中原始图像采用平移或亮度抖动来生成图像对。

步骤2中基于掩码预训练的无人机目标跟踪网络模型包括利用VisionTransformer构建编码器和解码器，编码器输出与解码器输入连接，解码器输出端连接边界框预测头。

边界框预测头包括依次连接的分类头和回归头，分类头和回归头均由3个卷积块构建而成。

步骤3.1，对训练数据集中的图像对，每个图像对中一个图像作为模板图像，另一个图像作为搜索图像；以目标为中心对两张图像进行一定尺度的裁剪，其中若模板图像裁剪为x*x大小，则搜索图像裁剪为2x*2x大小；

步骤3.2，分别将模板图像和搜索图像分割成不相重叠且大小相同的图像块，得到模板图像块序列S_T和搜索图像块序列S_S；

步骤3.3，分别对模板图像块序列S_T和搜索图像块序列S_S进行一定比例的随机掩码，将掩码的图像块从序列中移除，得到掩码后的图像块序列S′_T、S′_S以及掩码标记mask_token，然后将S′_T和S′_S拼接在一起得到图像块序列S′_x；

步骤3.4，将拼接后的图像块序列S′_x送入编码器，通过Transformer中的自注意力机制构建图像块之间的关系，得到编码后的图像块序列S_encoder，其中注意力计算公式如下：

其中，Q、K、V是通过输入进行线性变换得到的矩阵，d_k是矩阵Q、K的维度，Softmax()表示归一化指数函数，Attention()为注意力计算公式函数；

步骤3.5，将编码后的图像块序列S_encoder和掩码标记mask_toke送入解码器，其中每一个掩码标记都是一个共享的、可学习的向量，表示要预测的缺失图像块，解码器根据输入的信息进行掩码重建，通过预测每个被掩码屏蔽的图像块的像素值来重建输入图像，将输出重塑成重建图像；

步骤3.6，将重建后的图像送入边界框预测头，分别进行分类和回归得到预测的边界框，然后计算重建图像和原始图像以及预测边界框和真实边界框之间的均方误差损失。

步骤4具体的为：

步骤4.1，对训练数据集中的每个图像对中一个图像作为模板图像，另一个图像作为搜索图像；以目标为中心对两张图像进行一定尺度的裁剪，其中若模板图像裁剪为x*x大小，则搜索图像裁剪为2x*2x大小；将其分割成不相重叠且大小相同的图像块，得到模板图像块序列S_T和搜索图像块序列S_S；

步骤4.2，将模板图像块序列S_T和搜索图像块序列S_S拼接在一起得到图像块序列S_x；

步骤4.3，对于预训练好的基于掩码预训练无人机目标跟踪网络模型，移除网络中的解码器，同时去掉掩码重建任务，只利用目标检测任务对模型进行部分微调；

步骤4.4，将图像块序列S_x送入编码器对图像块序列进行编码，对编码后的搜索图像特征图分别进行分类和回归得到最后的目标位置预测。

步骤5具体的为：

步骤5.1，在视频序列的第一帧图像中以给定目标的位置为中心裁剪出x*x大小的图像当作模板图像；

步骤5.2，读取下一帧图像并以上一帧预测目标为中心裁剪出大小为2x*2x的图像当作搜索图像，将模板图像和搜索图像裁剪为固定大小的图像块，得到图像块序列S_T和S_S，将S_T和S_S拼接在一起同时嵌入位置编码来表示图像块的相对位置得到输入序列S_inpute，将S_inpute送训练好的基于掩码预训练的无人机目标跟踪网络模型，得到当前帧预测的目标位置；

步骤5.3，读取下一帧图像，并重复步骤5.2，直到整个视频序列结束。

本发明的有益效果是：

(1)针对无人机视频中目标背景干扰严重、目标容易出现模糊变形等问题，需要跟踪模型具有很好的泛化性能以供算法预测目标，提出了基于掩码预训练的跟踪方法，利用Vision Transformer对图像块进行掩码重建，以获得较强的表征能力，有效地提升了模型的泛化性。

(2)针对无人机移动平台计算资源有限，无法完成高复杂度模型的实时处理问题，视频跟踪阶段移除了预训练模型中的掩码重建结构，在保证跟踪精度的前提下，降低了模型复杂度，极大提高了跟踪速度。

附图说明

图1：本发明方法的总体框架图；

图2：本发明方法中视频序列跟踪过程的流程图；

图3：本发明实施例1的部分跟踪效果图，(a)、(b)分别为视频第100帧和第300帧的跟踪结果。

图4：本发明在无人机通用数据集UAV123上跟踪效果图，其中(a)为不同位置误差阈值的跟踪精度，(b)为不同重叠率阈值的跟踪成功率；

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

如图1和图2所示，本发明公开了一种基于掩码预训练的无人机目标跟踪方法，方法包括掩码预训练、网络部分微调以及在线跟踪三部分，本发明的具体步骤如下：

步骤1：从数据集TrackingNet、LaSOT、GOT10k和COCO中采样图像对，其中对于视频数据集TrackingNet、LaSOT和GOT10k直接从一个视频中采样两帧图像构成图像对，为了解决视频数据集中样本种类不足的问题增加了COCO数据集，对COCO数据集中原始图像采用平移或亮度抖动来生成图像对，最后对所有图像对进行平移、裁剪、灰度变化等数据增强操作构成训练数据集。

步骤2，创建基于掩码预训练的无人机目标跟踪网络模型，创建基于掩码预训练的无人机目标跟踪网络模型包括利用Vision Transformer构建编码器和解码器，编码器输出与解码器输入连接，解码器输出端连接边界框预测头。

其中边界框预测头包括分类头和回归头，都是由3个卷积块构建而成。

步骤3，利用训练数据集通过掩码重建任务和掩码重建后目标检测任务对基于掩码预训练的无人机目标跟踪网络模型进行预训练，得到预训练的基于掩码预训练无人机目标跟踪网络模型；提升模型表征能力，基于掩码重建的预训练方法为：

步骤3.1，对训练数据集中的每个图像对中一个图像作为模板图像，另一个图像作为搜索图像；以目标为中心对两张图像进行一定尺度的裁剪，其中模板图像裁剪为x*x大小，则搜索图像裁剪为2x*2x大小；

步骤3.2，分别将模板图像和搜索图像分割成不相重叠且大小为16*16的图像块，得到模板图像块序列S_T和搜索图像块序列S_S；

其中，Q、K、V是通过输入进行线性变换得到的矩阵，d_k是矩阵Q、K的维度，Softmax()表示归一化指数函数，Attention()为注意力计算公式函数。

步骤3.5，与编码器相同，利用Vision Transformer构建对称的解码器，将编码后的图像块序列S_encoder和掩码标记mask_token送入解码器，其中每一个掩码标记都是一个共享的、可学习的向量，表示要预测的缺失图像块，解码器根据输入的信息进行掩码重建，通过预测每个被掩码屏蔽的图像块的像素值来重建输入图像，解码器输出的每个元素都是代表一个图像块的像素值向量，其输出的通道数等于一个图像块中像素值的数量，然后将输出重塑成重建图像；

步骤3.6，将重建后的图像送入边界框预测头，分别进行分类和回归得到预测的边界框，然后计算重建图像和原始图像以及预测边界框和真实边界框之间的均方误差损失，让模型学习强表征能力，提升泛化性能；

步骤4：对预训练的基于掩码预训练无人机目标跟踪网络模型，移除解码器和掩码重建任务，并进行网络模型再训练，得到训练好的基于掩码预训练的无人机目标跟踪网络模型，利用目标检测任务让模型更专注于学习目标特征确保其能更好的应用于无人机目标跟踪任务，再训练的过程为：

步骤4.3，修改预训练网络结构，移除网络中的解码器，同时去掉掩码重建任务，只利用目标检测任务对模型进行部分微调；

步骤5：将待跟踪视频输入到步骤4训练好的基于掩码预训练的无人机目标跟踪网络模型，得到跟踪结果。如图2所示，具体过程如下：

实施例1

本实施例采用无人机通用数据集UAV123上的视频作为带跟踪视频，执行步骤1～步骤5，

其中步骤3.1和步骤4.1中模板图像裁剪为128*128大小，搜索图像裁剪为256*256大小；图像块大小为16*16。

得到的结果为图3，分别为视频第100帧和第300帧的跟踪结果。

其中图4中(a)(b)分别为不同位置误差阈值的跟踪精度和不同重叠率阈值的跟踪成功率，如图可知，本实施的平均跟踪精度达到0.636，在误差阈值为20像素情况下跟踪准确度达到0.834。下面是本实施和目前跟踪算法在无人机通用数据集UAV123上跟踪精度和跟踪速度的比较。

跟踪算法	平均精度	跟踪速度(FPS)
			ECO	0.522	45
MDNet	0.528	5
			SiamRPN++	0.579	35
SiamBAN	0.631	40
			本发明跟踪算法	0.636	85

通过上表可知，本发明在无人机通用数据集UAV123上平均跟踪精度可达0.636，平均跟踪速度可达85FPS，相较于之前的无人机目标跟踪算法，在平均跟踪精度和跟踪速度方面都有提升。

Claims

1.一种基于掩码预训练的无人机目标跟踪方法，其特征在于，包括以下步骤：

步骤2，创建基于掩码预训练的无人机目标跟踪网络模型；

2.如权利要求1所述的一种基于掩码预训练的无人机目标跟踪方法，其特征在于，所述步骤1中的图像对包括从视频数据集TrackingNet、LaSOT和GOT10k中同一个视频中采样两帧图像构成的图像对，还包括COCO数据集中原始图像采用平移或亮度抖动来生成图像对。

3.如权利要求1所述的一种基于掩码预训练的无人机目标跟踪方法，其特征在于，步骤2中所述基于掩码预训练的无人机目标跟踪网络模型包括利用Vision Transformer构建编码器和解码器，所述编码器输出与所述解码器输入连接，所述解码器输出端连接边界框预测头。

4.如权利要求3所述的一种基于掩码预训练的无人机目标跟踪方法，其特征在于，所述边界框预测头包括依次连接的分类头和回归头，所述分类头和回归头均由3个卷积块构建而成。

5.如权利要求3或4所述的一种基于掩码预训练的无人机目标跟踪方法，其特征在于，所述步骤3.1，对训练数据集中的图像对，每个图像对中一个图像作为模板图像，另一个图像作为搜索图像；以目标为中心对两张图像进行一定尺度的裁剪，其中若模板图像裁剪为x*x大小，则搜索图像裁剪为2x*2x大小；

步骤3.5，将编码后的图像块序列S_encoder和掩码标记mask_token送入解码器，其中每一个掩码标记都是一个共享的、可学习的向量，表示要预测的缺失图像块，解码器根据输入的信息进行掩码重建，通过预测每个被掩码屏蔽的图像块的像素值来重建输入图像，将输出重塑成重建图像；

6.如权利要求5所述的一种基于掩码预训练的无人机目标跟踪方法，其特征在于，所述步骤4具体的为：

7.如权利要求5所述的一种基于掩码预训练的无人机目标跟踪方法，其特征在于，所述步骤5具体的为：

步骤5.2，读取下一帧图像并以上一帧预测目标为中心裁剪出大小为2x*2x的图像当作搜索图像，将模板图像和搜索图像裁剪为固定大小的图像块，得到图像块序列S_T和S_S，将S_T和S_S拼接在一起同时嵌入位置编码来表示图像块的相对位置得到输入序列S_inpute，将S_inpute送入训练好的基于掩码预训练的无人机目标跟踪网络模型，得到当前帧预测的目标位置；