CN115240084A

CN115240084A - 一种无人机跟踪方法、装置和计算机可读存储介质

Info

Publication number: CN115240084A
Application number: CN202210679206.6A
Authority: CN
Inventors: 付小雁; 刘红红
Original assignee: Capital Normal University
Current assignee: Capital Normal University
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-10-25

Abstract

本发明提供了一种无人机跟踪方法、装置及计算机可读存储介质，包括如下具体步骤：获取训练样本；搭建网络架构；利用训练集训练出最优网络模型，并微调参数；利用最优网络模型对待跟踪视频序列中的目标进行跟踪，获取跟踪结果。本发明以ResNet50为主干网络，利用逐层特征融合网络自上而下地融合深卷积层的语义信息和浅卷积层的结构信息，从而有效应对相似物干扰和目标的外观变化问题，并通过注意力模块提高模型对目标的关注度，削弱模型对背景的关注度，缓解被跟踪目标受到背景干扰的问题，进而提高了无人机跟踪的成功率和准确度。

Description

一种无人机跟踪方法、装置和计算机可读存储介质

技术领域

本发明属于单目标跟踪技术领域，尤其涉及一种无人机跟踪方法、装置和计算机可读存储介质。

背景技术

无人机被广泛应用于视频监控、人机交互、军事行动等领域，无人机跟踪技术的成功可以促进其他图像理解任务的发展。但无人机跟踪也面临着背景杂乱、尺度变化、相似物干扰、低分辨率等严峻挑战。

无人机跟踪算法主要分为两类：一类是基于相关滤波的方法，该类方法具有较高的跟踪效率，但不能有效地应对一些复杂的无人机场景中所面临的挑战；另一类是深度学习领域中基于孪生网络的方法，该类方法将相似性学习的概念引入单目标跟踪领域，它将目标跟踪看成模板匹配的任务而不是传统的分类任务，在目标跟踪过程中不需要更新模板，从而大大提高了跟踪速度，同时采用深度特征代替手工特征，所以基于孪生网络的无人机跟踪方法取得了速度和精度的良好的平衡，该类方法逐渐成为单目标跟踪领域的主流技术。

然而，大部分基于孪生网络的算法都直接利用特征提取网络提取的最后一个卷积层的特征，或者对多个卷积层的特征简单组合。深层特征中包含更多的语义信息，有利于目标的定位，能够自适应目标的外观变化，但对于相似物体的辨别能力较弱，浅层特征中包含更多的颜色、纹理等空间细节信息，有利于将目标从相似物种区分出来，但当目标的外观发生剧烈变化时，容易跟踪失败。因此，有效融合深层特征和浅层特征可以在缓解相似物干扰的同时自适应目标的外观变化。

发明内容

针对以上问题，本发明提供了一种无人机跟踪方法、装置和计算机可读存储介质，通过改进的特征金字塔网络逐层融合深卷积层的语义信息和浅层卷积层的结构信息，从而有效应对相似物干扰和目标的外观变化问题，并通过注意力模块提高模型对目标的关注度，削弱对背景的关注度，防止被跟踪目标受到背景的干扰。

本发明通过以下技术方案来实现上述目的：

第一方面，本发明提供一种无人机跟踪方法，包括：

S1、获取got10K数据集作为训练集，对训练集进行预处理，得到训练样本。

进一步地，S1具体包括：

S11、裁剪数据集，获取图像对：将模板图像和搜索图像分别以目标为中心进行裁剪，接着对图像进行仿射变换得到图像对；

S12、将got10K数据集信息写入json文件：读取got10K的train，val文件夹，将图像尺寸、目标框以及路径等信息嵌入到一个复合字典中，将字典保存为json文件。

S2、搭建网络结构。

进一步地，S2具体包括：

S21、搭建特征提取网络：本发明使用ResNet50作为主干网络；

S22、搭建逐层特征融合网络：逐层融合ResNet50最后三层卷积层的特征；

S23、搭建特征增强网络；

进一步地，S23具体包括包括：

S231、搜索分支的注意力模块包含3个子模块：通道注意力模块、空间注意力模块和交叉注意力模块，采用的结合方式是先将通道注意力模块与空间注意力模块串联再与交叉注意力模块并联；

S232、模板分支的注意力模块包含2个子模块：通道注意力模块和空间注意力模块，这两个模块的作用同搜索分支的一样；

S24、计算模板分支与搜索分支的相似度：将两个分支提取到的第三层、第四层和第五层的卷积特征分别进行深度互相关操作，得到三个互相关响应图，将三个互相关响应图在通道维度上进行拼接，随后利用卷积操作降低响应图的通道数，减小计算量；

S25、搭建分类与回归网络：该网络由分类分支、中心度分支和回归分支组成，分类分支用来预测每个像素点的类别，中心度分支用来剔除远离目标中心的低质量的目标边界框，回归分支用于计算目标边界框。

S3、训练网络模型，优化网络参数，得到最优网络模型。

进一步地，S3具体包括：

S31、将裁剪好的模板分支图像和搜索分支图像输入到搭建好的网络中，获取到分类响应图、中心度响应度和回归响应图，从三个响应图中解码出目标的位置和尺度信息；

S32、计算三个分支的损失函数：分类损失L_cls、中心度损失L_cen、回归损失L_reg；

S33、总的损失函数为三个分支损失函数的加权和：

L＝L_cls+λ₁L_cen+λ₂L_reg；

S34、优化网络参数：采用随机梯度下降法不断地进行反向传播直至损失函数达到最小，从而确定网络模型的最优参数。

S4、利用S3所述最优网络模型对待跟踪视频序列中的目标进行跟踪，预测视频序列中待跟踪目标的位置和尺度信息。

进一步地，S4具体包括：

S41、获取待跟踪的视频序列；

S42、视频序列第一帧中的目标区域作为模板分支的输入，在后续帧中以上一帧预测的目标位置为中心框选搜索区域，并作为搜索分支的输入；

S43、将模板图像和搜索图像输入到搭建好的网络中，并利用训练好的模型进行目标位置信息和尺度信息的预测，获得跟踪结果；

第二方面，本发明提供一种无人机跟踪装置300，所述装置包括：

视频序列获取模块301：用于获取无人机跟踪方法所使用的视频序列；

网络搭建模块302：用于搭建无人机跟踪方法的网络架构；

训练模块303：用于确定无人机跟踪方法的最优网络模型；

跟踪模块304：利用最优网络模型对待跟踪视频序列进行跟踪，确定待跟踪目标的位置信息和尺度信息。

作为一个发明构思，本发明还提供了一种计算机可读存储介质，其存储有程序，该程序被配置为用于执行本发明方法的步骤。

与现有技术相比，本发明的有益效果在于：提出了一个逐层的特征融合模块，使模型集成了深层卷积层的语义和浅层卷积层的结构信息，从而有效应对相似物干扰和目标的外观变化问题；设计了一个有效的注意力模块，该模块使模型能够有效地区分目标和背景，从而更准确地确定目标的中心。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面对实施例中使用的附图作简单地介绍。

图1为本发明实施方式的无人机跟踪方法的流程图；

图2为本发明实施方式的无人机跟踪方法的网络架构图；

图3为本发明实施方式的无人机跟踪装置结构组成示意图。

具体实施方式

以下结合附图对本发明做进一步的解释说明。

图1是本发明的无人机跟踪方法的流程图。

如图1所示，一种无人机跟踪方法，包括：

具体而言，包括：

S11、裁剪数据集，获取图像对，即将模板图像和搜索图像分别以目标为中心裁剪127*127和255*255大小的区域，接着对图像进行仿射变换得到图像对。

S12、将got10K数据集信息写入json文件，即读取got10K的train，val文件夹，将图像尺寸、目标框以及路径等信息嵌入到一个复合字典中，将字典保存为json文件。

S2、搭建网络结构。

具体而言，无人机跟踪方法的网络架构图如图2所示，包括：

S21、搭建特征提取网络：本发明使用ResNet50作为主干网络，并移除了第四和第五个卷积层中的下采样操作，视频序列第一帧中目标区域作为模板分支的输入，视频序列后续帧中搜索区域作为搜索分支的输入，将模板图像和搜索图像利用权重参数共享的特征提取网络提取特征，得到第三层、第四层和第五层的卷积特征。

S22、搭建逐层特征融合网络：经过特征提取网络初步提取特征之后，本发明搭建的逐层特征融合网络自上而下地融合深层特征和浅层特征，使用FPN网络逐层融合ResNet50最后三层卷积层的特征，并删除FPN网络中的上采样操作。

具体地，将ResNet50提取的第三、四、五个卷积层的特征使用1*1的卷积降维到256通道，第五层降维之后得到M5，M5与降维后的第四个卷积层的特征使用Add操作进行融合得到M4，继续将M4与降维后的第三个卷积层的特征进行融合得到M3，然后将M4和M3使用3*3的卷积核进行卷积消除融合的层叠效应，最终得到特征图P3、P4、P5。

S23、搭建特征增强网络。

需要说明的是，特征增强网络利用注意力模块增强特征提取能力，其中搜索分支的注意力模块和模板分支的注意力模块有所不同。

进一步地，S23具体包括：

S231、搜索分支的注意力模块包含3个子模块：通道注意力模块、空间注意力模块和交叉注意力模块，本发明采用的结合方式是先将通道注意力模块与空间注意力模块串联再与交叉注意力模块并联。

需要说明的是，通道注意力对每个通道赋予不同的权重，让模型重点关注权重值比较大的通道，空间注意力让模型关注目标所在的位置，减弱模型对背景的关注度，交叉注意力让搜索分支学习目标的特征，从而使得模型更容易的分辨出目标。

S232、模板分支的注意力模块包含2个子模块：通道注意力模块和空间注意力模块，这两个模块的作用同搜索分支的一样。

S24、计算模板分支与搜索分支的相似度：将两个分支提取到的第三层、第四层和第五层的卷积特征分别进行深度互相关操作，得到三个互相关响应图，将三个互相关响应图在通道维度上进行拼接，随后经过卷积操作将响应图的通道数降为256，减小计算量。

S25、搭建分类与回归网络：该网络又分类分支、中心度分支和回归分支组成，分类分支用来预测每个像素点的类别，中心度分支用来剔除远离目标中心的低质量的目标边界框，回归分支用于计算目标边界框。

S3、训练网络模型，优化网络参数，得到最优网络模型。

具体而言，包括：

S31、将裁剪好的模板分支图像和搜索分支图像输入到搭建好的网络中，获取到分类响应图、中心度响应度和回归响应图，从三个响应图中解码出目标的位置和尺度信息。

S32、计算三个分支的损失函数：分类损失L_cls、中心度损失L_cen、回归损失L_reg，其中分类损失的使用交叉熵损失函数来计算，回归损失使用IOU损失函数进行计算，中心度损失的计算方式如下：

其中，

表示搜索区域内的点到真实目标边界框四个边的距离，

表示中心度特征图中每个像素点的值。

S33、总的损失函数为三个分支损失函数的加权和：

L＝L_cls+λ₁L_cen+λ₂L_reg,

实验中λ₁设置为1，λ₂设置为3；

S4、使用训练好的最优网络模型对待跟踪视频序列中的目标进行跟踪，预测视频序列中待跟踪目标的位置和尺度信息，获取跟踪结果。

具体的跟踪流程包括：

S41、获取待跟踪的视频序列。

S42、视频序列第一帧中的目标区域作为模板分支的输入，在后续帧中以上一帧预测的目标位置为中心框选搜索区域，并作为搜索分支的输入。

S43、将模板图像和搜索图像输入到搭建好的网络中，并利用训练好的模型进行目标的位置信息和尺度信息的预测，获得跟踪结果。

具体而言，包括：

S431、获取裁剪的模板图像和搜索图像作为网络的模板分支和搜索分支的输入。

S432、提取两个分支图像的特征。

S433、计算两个模板特征和搜索特征的相似度，获取响应图。

需要说明的是，相似度的计算是将搜索分支的3个卷积层的特征图与模板分支的3个卷积层的特征图分别进行深度互相关操作。

具体而言，以模板图像的特征图的每个通道作为卷积核在搜索图像的特征图的相对应的通道上以滑动窗口的方式进行卷积计算，最终得到的响应图的通道数与搜索图像的特征图相等。

进一步地，将三个卷积层得到的响应图沿通道方向进行拼接。

进一步地，为减小参数量，将拼接的响应图使用卷积操作降维为256通道，得到最终的响应图。

S434、将响应图送入分类与回归子网解码目标的位置和尺度信息，获得跟踪结果。

需要说明的是，分类与回归子网共分为3个子分支，分别是分类分支，中心度分支，回归分支，分类分支用来预测每个像素点的类别，中心度分支用来剔除远离目标中心的低质量的目标边界框，回归分支用于计算目标边界框。

具体而言，响应图经过卷积计算得到通道数为2的分类特征图，每个像素点表示输入搜索区域中相应位置的前景和背景得分。

进一步地，响应图经过卷积计算得到通道数为1的中心度特征图，每个像素点表示相应位置的中心得分，远离目标中心的位置得分越低。

进一步地，响应图经过卷积计算得到通道数为4的回归特征图，每个像素点表示在输入搜索区域中从相应位置到边界框的四个边的距离。

本发明的无人机跟踪装置结构组成示意图如图3所示，所述装置300包括：

网络搭建模块302：用于搭建无人机跟踪方法的网络架构；

训练模块303：用于确定无人机跟踪方法的最优网络模型；

相应地，本发明还提供了一种计算机可读存储介质，其存储有程序，该程序被配置为用于执行本发明方法的步骤。

Claims

1.一种无人机跟踪方法，其特征在于，包括以下步骤：

S1、获取got10K数据集为训练集，预处理got10K数据集，得到训练样本；

S2、搭建网络结构；

S3、训练网络模型，优化网络参数，得到最优网络模型；

S4、利用S3所述最优网络模型对待跟踪视频序列中的目标进行跟踪，预测视频序列中待跟踪目标的位置和尺度信息，获取跟踪结果。

2.根据权利要求1所述的一种无人机跟踪方法，其特征在于，所述S1具体包括：

S11、裁剪数据集，获取图像对：将模板图像和搜索图像分别以目标为中心进行裁剪，接着对图像进行仿射变换后得到图像对；

S12、将got10K数据集信息写入json文件：读取got10K的train，val文件夹，将图像的尺度、目标框以及路径等信息层层嵌入到一个复合字典中，将字典保存为json文件。

3.根据权利要求1所述的一种无人机跟踪方法，其特征在于，所述S2具体包括：

S21、搭建特征提取网络，本发明使用ResNet50作为主干网络；

S22、搭建逐层特征融合网络：逐层融合ResNet50后三层卷积层的特征；

S23、搭建特征增强网络：包括搭建搜索分支的注意力模块和模板分支的注意力模块，其中搜索分支的注意力模块由通道注意力模块、空间注意力模块和交叉注意力模块组成，模板分支的注意力模块由通道注意力模块和空间注意力模块组成；

S25、搭建分类与回归网络：该网络由分类分支、中心度分支和回归分支组成,分类分支用来预测每个像素点的类别，中心度分支用来剔除远离目标中心的低质量的目标边界框，回归分支用于计算目标边界框。

4.根据权利要求1所述的一种无人机跟踪方法，其特征在于，所述S3具体包括：

S33、总的损失函数为三个分支损失函数的加权和：

L＝L_cls+λ₁L_cen+λ₂L_reg；

5.根据权利要求1所述的一种无人机跟踪方法，其特征在于，所述S4具体包括：

S41、获取待跟踪的视频序列；

S43、将模板图像和搜索图像输入到搭建好的网络中，并使用权利要求4中得到的模型进行目标位置信息和尺度信息的预测，获得跟踪结果。

6.一种无人机跟踪装置300，其特征在于，所述装置包括：

网络搭建模块302：用于搭建无人机跟踪方法的网络架构；

训练模块303：用于确定无人机跟踪方法的最优网络模型；

7.一种计算机可读存储介质，其特征在于，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现权利要求1至5任一项所述的方法步骤。