CN116704385A

CN116704385A - 一种无人机场景下运动物体目标检测与跟踪方法及其模型

Info

Publication number: CN116704385A
Application number: CN202310716561.0A
Authority: CN
Inventors: 魏玲; 胥志伟; 丁来辉; 杨晓刚; 赵天旭; 刘振
Original assignee: Shandong Weiran Intelligent Technology Co ltd
Current assignee: Shandong Weiran Intelligent Technology Co ltd
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-09-05

Abstract

本发明提供了一种无人机场景下运动物体目标检测与跟踪方法及其模型，基于YOLOv5进行改进得到目标检测模型ShuffleNetV2‑YOLOv5s，同时基于TCTrack改进得到目标跟踪模型AiA‑TCTrack，将两个改进模型相串联，将无人机图像输入到ShuffleNetV2‑YOLOv5s模型中，用于检测出一系列物体，同时该检测输出作为AiA‑TCTrack模型的输入，对感兴趣的目标进行追踪。本发明针对无人机场景下的目标检测及目标跟踪算法进行设计，在网络结构轻量化的同时平衡了检测精度，在提升精度的同时使得速度可以达到实时，为无人机场景下的目标检测算法及目标跟踪算法的研究提供了新的思路。

Description

一种无人机场景下运动物体目标检测与跟踪方法及其模型

技术领域

本发明属于无人机图像识别技术领域，尤其涉及一种无人机场景下运动物体目标检测与跟踪方法及其模型。

背景技术

当前流行的目标检测算法在速度方面或者精度方面做得较为优秀，比如FasterR-CNN算法、SSD算法、YOLOv5算法等，但是很少有将速度和精度平衡得很好的算法。如果希望获得更好的精度，就必须使用更复杂的模型，这会导致运行速度变慢。反之亦然，如果希望获得更快的运行速度，就必须使用更简单的模型，这会导致精度下降。由于无人机拍摄视角的特殊性，导致无人机拍摄的图像中的目标多呈现上表面或侧面，从而使得目标检测模型难以提取目标更为丰富的信息，且由于近大远小的关系，导致远处的目标变得非常小，使得目标更加难以被现有的目标检测算法准确检测。

在进行目标跟踪过程中，光照的变化会影响视频中物体的颜色和亮度，这可能会导致跟踪算法在跟踪物体时出现问题。在跟踪时，许多方法都依赖于物体的颜色和亮度来识别物体，而光照变化可能会改变这些特征，从而导致跟踪失败。另一个常见的一个问题是背景干扰，它指的是在视频序列中，由于背景中出现与目标非常相似的物体，导致目标跟踪算法误将这些物体识别为目标的情况。这个问题会对目标跟踪的准确性造成很大的影响。为了应对背景干扰的问题，可以使用更加鲁棒的目标跟踪算法。这种算法能够通过使用更复杂的目标模型、注意力模块、环境信息等方法来提高对背景干扰的适应能力，但会增加计算负担，不适宜搭载在小型边缘设备上进行。

针对无人机具有高空、大范围、高速等特点，可以拍摄到传统拍摄设备难以拍摄到的图像和视频，同时应用计算机视觉技术对这些数据进行分析和处理，实现无人机视野下的目标检测、目标跟踪等功能。但是目前大多数目标检测算法及单目标跟踪算法都是对无人机拍摄的图像和视频进行线下的分析和处理，如何对无人机拍摄的图像及视频进行实时的分析与处理仍然是一个难题，所以需要设计新的实时的目标检测算法及单目标跟踪算法来解决现实场景中的问题。

发明内容

针对上述问题，本发明通过合理规划，设计出一种合理的目标检测模型和目标跟踪模型，并可以将其部署到计算力、显存、内存都十分有限的无人机边缘计算设备上，对无人机拍摄的图像及视频进行实时的分析与处理，在模型速度提升的同时做到拥有不错的精度。

本发明第一方面提供了一种无人机场景下运动物体目标检测与跟踪模型，基于YOLOv5进行改进得到目标检测模型ShuffleNetV2-YOLOv5s，同时基于TCTrack改进得到目标跟踪模型AiA-TCTrack，将两个改进模型相串联，将无人机图像输入到ShuffleNetV2-YOLOv5s模型中，用于检测出一系列物体，同时该检测输出作为AiA-TCTrack模型的输入，对感兴趣的目标进行追踪；

所述ShuffleNetV2-YOLOv5s模型包括主干网络部分、Neck部分和head部分；去除了传统YOLOv5s模型中原始主干网络部分的Focus结构，避免频繁切片操作占用缓存，并在原始主干网络部分用深度可分离卷积及通道混洗组件替换原始的CSP结构，用于提升无人机提取图像信息的速度；

所述AiA-TCTrack模型包括主干网部分、相关性部分、AT-AiA部分和预测部分，所述AT-AiA部分是对传统TCTrack中的AT-Trans模块进行改进，用于提高无人机场景下引入相关性图的质量；首先将AT-encoder编码器的第二个及第三个多头注意力机制替换为了AiA模块，然后将AT-decoder解码器的第一个多头注意力机制替换为了AiA模块，所述AiA模块是在Attention模块中再嵌套一个内部注意力模块Inner Attention。

优选的，所述ShuffleNetV2-YOLOv5s模型将传统YOLOv5中的CSP1_X和CSP2_X结构分别替换为DS1和DS2组件，所述DS1由两个DWB组件、一个CBL组件、一个Concat模块及一个Channel Shuffle模块组成，所述DS2组件在DS1组件基础上添加了一个CBL组件；所述DS1和DS2组件用深度可分离卷积替换了CSP1_X和CSP2_X结构的普通卷积，提升了运行速度，并且加入了Channel Shuffle，使得获取的特征信息更加丰富。

优选的，在DS1和DS2的Channel Shuffle模块之后添加了CA模块，即在DS1与DS2组件中加入了注意力机制成为新的组件CDS1和CDS2；并将CDS1与CDS2组件应用到ShuffleNetV2-YOLOv5s的主干网络部分中，使得模型能够更好地提取无人机视角下的目标特征；

所述CA模块通过两个步骤来编码通道关系和远程依赖，分别为坐标信息的嵌入和坐标注意力的生成；对尺寸为C*C*W输入特征图，然后分别按照X方向和Y方向进行池化，分别生成尺寸为C*C*1和C*1*W的特征图，将生成的C*1*W的特征图进行变换，然后进行concat连接操作生成特征图；然后进行批标准化BN操作和非线性回归Non-linear操作，生成特征图f；最后沿着空间维度，将f进行split切片操作，生成两个特征图，分别利用1×1卷积进行升维度操作，再结合Sigmoid激活函数得到最后的注意力向量。

优选的，所述AiA-TCTrack模型的具体结构为：

所述主干网部分，使用AlexNet作为主干网络并将末尾两个传统卷积层替换为个TAdaConv时序自适应卷积来聚合时间信息，其中AlexNet网络包括1个输入层、5个卷积层、2个全连接层和1个输出层，TAdaConv是将每一帧的卷积核分解为一个基权重和一个校准权重，不同视频帧中使用不同卷积权重，为了更好的进行对目标进行特征的提取；

所述相关性部分是将模板特征和主干网的输出进行一个深度相关操作，然后经过一个卷积；

所述AT-AiA部分是基于TCTrack中的AT-Trans部分进行改进，包含两个部分，分别为AT-Encoder部分与AT-Decoder部分，所述AT-Encoder部分包括多头注意力机制模块、归一化操作模块、AiA模块、卷积操作模块、全局平均池化操作模块和FFN前馈神经网络模块；所述AT-Encoder部分包括多头注意力机制模块、归一化操作模块和FFN前馈神经网络模块；

所述预测部分包括一个并联的分类分支和回归分支，对目标的位置进行预测。

优选的，所述AiA-TCTrack模型在相关性部分引入了卷积注意力模块CBAM，包括通道注意力子模块和空间注意力子模块，采取通道注意力模块在前空间注意力模块在后的顺序将其串行组合，所述通道注意力子模块用于计算通道权重，所述空间注意力子模块用于计算空间权重；

所述通道注意力模块中，输入特征F₀根据宽度和高度进行全局最大池和全局平均池；然后，输出特性被送到多层感知机MLP通道注意特征与输入特征F₀元素相乘，经过加和操作，再经过Sigmoid激活操作，以生成通过空间注意模块所需的特征F_c；

所述空间注意模块将特征F_c作为输入特征；首先，基于通道执行全局最大池和全局平均池，然后基于通道联系两个结果，Sigmoid激活函数生成空间注意特征，然后将这些特征乘以输入特征F_c，得到最终的特征F_s。

优选的，所述AiA模块处理的具体过程为：

给定输入查询Q′、键K′和值V′，Q′与K′经过线性变换将维数降到CW×D以提升计算效率，在归一化之后，与位置编码做相加操作，之后分别通过不同的线性转换得到与与/>进行矩阵相乘，得到的结果经过Softmax激活函数并与/>进行矩阵相乘，最后经过线性转换与相加操作得到残差相关性图，具体计算过程如下式所示：

在加入内部注意力模块Inner Attention之后，整个AiA模块的具体计算过程如下式所示：

其中M代表相关性图，W₀代表输出的线性变换权重。

本发明第二方面提供了一种无人机场景下运动物体目标检测与跟踪方法，包括以下过程：

通过无人机拍摄获取运动物体或行人的图像数据；

将图像数据输入到如第一方面所述的目标检测模型ShuffleNetV2-YOLOv5s中，用于检测出一系列物体；

将目标检测模型的输出作为跟踪模型的输入，输入到如第一方面所述的目标跟踪模型AiA-TCTrack中，用于对特定目标进行跟踪；

通过对图像数据进行实时在线地分析，输出分析并最终完成对特定物体精准的轨迹跟踪。

本发明第三方面提供了一种无人机场景下运动物体目标检测与跟踪设备，所述设备包括至少一个处理器和至少一个存储器；所述存储器中存储有如第一方面所述目标检测与跟踪模型的计算机程序；所述处理器执行所述存储器存储的计算机程序时，可以执行无人机场景下运动物体目标检测与跟踪的方法。

本发明第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有如第一方面所述目标检测与跟踪模型的计算机执行程序，所述计算机执行程序被处理器执行时，可以实执行无人机场景下运动物体目标检测与跟踪的方法。

与现有技术相比，本发明中提出的一种无人机场景下运动物体目标检测与跟踪方法及其模型可以产生如下有益效果：

用无人机对运动物体进行实时目标检测和目标追踪，本发明的目标检测模型速度更快且更容易进行部署，解决了边缘计算设备上对模型的速度及大小要求较高的难点；引入的CA注意力模块解决了无人机特殊拍摄视角所带来的问题；设计的目标跟踪模块不仅很好地解决了背景干扰及光照变化问题，而且在提升精度的同时使得速度仍然可以达到实时。本发明针对无人机场景下的目标检测及目标跟踪算法进行了深入研究，在网络结构轻量化的同时平衡了检测精度，在提升精度的同时使得速度可以达到实时，为无人机场景下的目标检测算法及目标跟踪算法的研究有着重要的应用价值及研究价值。

附图说明

图1为YOLOv5s网络结构图。

图2为本发明的ShuffleNetV2-YOLOv5s网络结构图。

图3为本发明的CA(Coordinate Attention)网络结构图。

图4为本发明的ShuffleNetV2-YOLOv5s加入CA模块的网络结构图。

图5为本发明中AiA-TCTrack的整体框架图。

图6为本发明中CBAM的通道注意力模块结构图。

图7为本发明中CBAM的空间注意力模块结构图。

图8为本发明中传统注意力模块结构图与AiA注意力模块结构图。

图9为本发明的多头注意力模块的结构图。

图10为本发明中AT-AiA模块的结构图。

图11为本发明无人机场景下运动物体目标检测与跟踪设备的简易结构示意图。

具体实施方式

下面结合具体实施例对发明进行进一步说明。

目前的目标检测算法可以分为传统目标检测算法、一阶段目标检测算法、二阶段目标检测算法以及Anchor Free目标检测算法。

传统目标检测算法主要可以分为三大步骤：候选区域选择、特征提取、分类器。各步骤详细介绍如下:(1)候选区域选择：首先通过滑动窗口算法从图像中提取出可能包含目标的区域。(2)特征提取：然后对于每个目标区域，提取一些能够描述目标特征的信息，如颜色、纹理、形状等。传统算法常用的特征有LBP、COG等。(3)分类器：最后将每个目标区域的特征输入到分类器中，分类器输出目标类别和对应的置信度，常用分类器有主要有SVM、Adaboost等。

Region-based Convolutional Neural Network(R-CNN)算法是第一个基于深度学习的目标检测算法，多次在PASCAL VOC目标检测竞赛时表现出色，取得了优秀的成绩。R-CNN诞生之后，又出现了SPPNet、Fast R-CNN、Faster R-CNN、Mask R-CNN等二阶段算法。不同于二阶段算法，一阶段算法没有Region Proposal阶段，而是直接回归目标的位置坐标和分类概率，较为经典的一阶段算法有YOLO系列和SSD算法等。

上述提到的一阶段算法和二阶段算法都是基于检测框进行检测的，随着CornerNet模型出现，目标检测有了Anchor Free算法。与Anchor Based算法不同的是，Anchor Free算法不需要生成候选框，而是基于关键点进行检测，比如CornerNet，或者基于中心点进行检测，比如CenterNet，FCOS等。

目前的单目标跟踪算法主要可以分为基于相关滤波的跟踪算法和基于深度学习的跟踪算法。

基于相关滤波的跟踪算法是一种基于模板匹配的目标跟踪方法，其核心思想是利用目标模板与当前帧图像中的候选区域进行相关计算，得到响应图并选择响应最高的区域作为当前帧中的目标区域。具体来说，该算法首先在初始帧中手动或自动地选择一个目标区域作为模板，并计算该模板的傅里叶变换和其共轭的傅里叶变换，得到模板的相关滤波器。然后，在后续的每一帧中，将模板的相关滤波器应用于当前帧的图像上，计算出响应图。最后，选择响应最高的区域作为当前帧中的目标区域，更新模板并迭代进行跟踪。经典的基于相关滤波的跟踪算法有：MOSSE算法、CSK算法、KCF算法以及DSST算法等。

基于深度学习的单目标跟踪算法主要可以分为基于孪生网络的跟踪算法、在线更新的辨别式跟踪算法、基于Transformer的跟踪算法。其中，基于Transformer的跟踪算法将会是未来一段时间的热点。Transformer具有更少的归纳偏置、远距离关联和聚合全局信息、需要大量数据、巨大计算量(与token数量的平方成正比)等特点。基于Transformer的跟踪方法是Siamese跟踪方法的进化，它能够进行更加有效的特征融合，因此提升了跟踪性能，近两年VOT挑战赛的冠军均为基于Transformer的跟踪方法。2021年，Chen等人受Transformer的启发提出了一种新的基于注意力机制的特征融合网络TransT，用于解决基于Siamese跟踪器中进行特征融合所采用的互相关操作会丢失语义信息，并容易陷入局部最优的问题，TransT的跟踪速度为50FPS，满足了实时，且在大规模数据集LaSOT、TrackingNet、GOT-10k均取得了优异的性能。2021年大连理工大学的严彬等人提出了STARK，STARK的轻量化版本STARK-Lightning在RTX TITAN上的运行速度可达200+FPS，模型大小仅仅8.2MB。2022年，南京大学的崔玉涛等人提出了Mixformer，在目前所有的主流公开数据集中均取得了SOTA的性能，Mixformer提出了一种更加紧凑简洁的跟踪框架，并且提出了一种非对称的MAM模块以及一种新的基于预测得分的在线模板更新策略。

实施例1：

本发明设计出一种合理的目标检测模型和目标跟踪模型，并可以将其部署到计算力、显存、内存都十分有限的无人机边缘计算设备上，对无人机拍摄的图像及视频进行实时的分析与处理，在模型速度提升的同时做到拥有不错的精度。

本发明包括两部分，基于传统YOLOv5进行改进的目标检测模型ShuffleNetV2-YOLOv5s和基于TCTrack进行改进的目标跟踪模型AiA-TCTrack。首先将图像输入到ShuffleNetV2-YOLOv5s模型中，用于检测出一系列物体，同时该检测模型的输出作为AiA-TCTrack模型的输入，对感兴趣的目标进行追踪，最终实现对特定物体的轨迹跟踪。

一、关于目标检测模型ShuffleNetV2-YOLOv5s

本发明针对无人机这类边缘计算设备算力差的特点，设计了一种算法轻量化的目标检测模型ShuffleNetV2-YOLOv5s，通过在其主干网络部分引入CA(CoordinateAttention，坐标注意力)模块，能够更好地提取无人机视野下目标的特征信息。

本发明设计的ShuffleNetV2-YOLOv5s选用目前性能和精度都相当优秀的YOLOv5s作为基础进行优化，YOLOv5s网络结构图如图1所示。ShuffleNetV2-YOLOv5s模型去除了YOLOv5s原始主干网络的Focus结构，并用深度可分离卷积及Channel Shuffle(通道混洗)组件替换CSP结构，得到了ShuffleNetV2-YOLOv5s模型，模型包括三个部分：主干网络、Neck部分和head部分；主干网络包括两个CBL(Conv卷积+Batch Normalization数据归一化+Leaky relu激活函数)结构、两个新设计的DS1(CBL+DWB+Concat连接+Channel Shuffle通道混洗)结构和十个DS2(CBL+CBL+DWB+Concat连接+Channel Shuffle通道混洗)结构，其中DWB由两个CBR(Conv卷积+Batch Normalization数据归一化+Relu激活函数)结构组成，提升了提取无人机图像信息的速度；Neck部分主要由DS2结构、CBL结构、上采样、concat和DWB结构组成，加强了特征融合的能力，提高了模型的鲁棒性；head部分由卷积和输出组成，对Neck部分提取的特征做出预测。

YOLOv5s算法主要耗时部分为其主干网络部分，其主干网络由Focus结构和CSP结构组成。Focus结构的主要功能是进行切片操作，切片操作的作用是在下采样之后不会导致信息的丢失。但是频繁的切片操作会让缓存占用严重，这显然是不适合部署到移动边缘计算设备上的，并且Focus结构不利于模型在边缘计算设备上的部署，因为Focus结构的转换可能会找不到对应的算子实现。故发明所设计的ShuffleNetV2-YOLOv5s去除了YOLOv5原始主干网络的Focus结构。

YOLOv5s中CSP1_X结构应用于主干网络，CSP2_X结构则应用于Neck中。对于无人机边缘计算设备而言，其计算开销较大，因此轻量化改造关键是对主干网络进行轻量化。本发明使用ShuffleNetV2来替代YOLOv5s的主干网络。

本发明对轻量化改造主要是基于深度可分离卷积和ShuffleNetV2。提出了两种新的组件——DS1和DS2。DS1由两个DWB(深度可分离卷积)组件、一个CBL(卷积–BN(BatchNormalization,数据归一化)–Leaky relu激活函数)组件、一个Concat(连接)及一个Channel Shuffle(通道混洗)组成。DS2与DS1类似，只不过DS2比DS1多了一个CBL组件。深度可分离卷积相较于普通卷积有着更快的速度，且Channel Shuffle的加入使得特征图的连接融合次数得到一定的增加，获取的特征信息也更加丰富。在特征融合部分，我们使用深度可分离卷积替代了原来YOLOv5s中的CSP2_1组件，深度可分离卷积相较于CSP2_1组件有着更加简洁的结构与更快的速度，这是使用深度可分离卷积替代CSP2_1组件的主要原因。图2所示为本文提出的轻量化目标检测模型ShuffleNetV2-YOLOv5s的网络结构图。

通道注意力机制对轻量化模型性能的提升是显著的，但是很多注意力模块往往忽略了位置信息，然而位置信息对于生成空间选择性注意力图是非常重要的。CA(CoordinateAttention)坐标注意力机制是一个专门为轻量化网络设计的注意力机制，我们将位置信息嵌入到通道注意中，从而避免了忽略位置信息的问题。

CA模块通过两个步骤来编码通道关系和远程依赖，这两个步骤分别为：坐标信息的嵌入、坐标注意力的生成。CA模块的结构图如图3所示。对尺寸为C*C*W输入特征图，然后分别按照X方向和Y方向进行池化，分别生成尺寸为C*C*1和C*1*W的特征图。将生成的C*1*W的特征图进行变换，然后进行concat连接操作生成特征图。然后进行BN操作(BatchNormalization，批标准化)和Non-linear操作(非线性回归)，生成特征图f。最后沿着空间维度，将f进行split切片操作，生成两个特征图，然后分别利用1×1卷积进行升维度操作，再结合sigmoid激活函数得到最后的注意力向量。

本发明在DS1和DS2的Channel Shuffle模块之后添加了CA模块，即在DS1与DS2组件中加入了注意力机制，将这两个新的组件称为：CDS1、CDS2。并将CDS1与CDS2组件应用到ShuffleNetV2-YOLOv5s的主干网络当中，使得模型能够更好地提取无人机视角下的目标特征。加入CA模块后的目标检测网络的整体结构图如图4所示。

二、关于目标跟踪模型AiA-TCTrack

本发明基于TCTrack作为目标跟踪基本框架进行优化。虽然TCTrack拥有相对不错的精度与非常快的速度，但是由于本发明的应用场景中会出现较多的背景干扰情况和光度变化的问题，故本发明将针对目标跟踪过程中的背景干扰问题以及光照变化问题对TCTrack进行优化，提出了一种新的目标跟踪模型AiA-TCTrack。

如图5所示，AiA-TCTrack算法框架分为四部分：主干网、相关性部分、AT-AiA模块、预测部分。

AiA-TCTrack模型包括四部分：主干网部分、相关性部分、AT-AiA模块和预测部分。

主干网部分，使用AlexNet作为主干网络并将末尾两个传统卷积层替换为个TAdaConv时序自适应卷积来聚合时间信息。其中AlexNet网络包括1个输入层、5个卷积层(C1、C2、C3、C4、C5)、2个全连接层和1个输出层，TAdaConv是将每一帧的卷积核分解为一个基权重和一个校准权重，不同视频帧中使用不同卷积权重，为了更好的进行对目标进行特征的提取。

相关性部分是将模板特征和主干网的输出进行一个深度相关操作，然后经过一个卷积。

AT-AiA部分是基于TCTrack中的AT-Trans部分进行改进，包含两个部分，分别为AT-Encoder部分与AT-Decoder部分，所述AT-Encoder部分包括多头注意力机制模块、归一化操作模块、AiA模块、卷积操作模块、全局平均池化操作模块和FFN前馈神经网络模块；所述AT-Encoder部分包括多头注意力机制模块、归一化操作模块和FFN前馈神经网络模块；极大程度上解决了无人机在目标跟踪过程中的背景干扰问题。

预测部分包括一个并联的分类分支和回归分支，该算法对目标的位置进行预测。

关于CBAM模块：

本发明在相关性部分引入了CBAM(Convolutional Block Attention Module，卷积注意力)模块，该模块在模板帧与当前帧进行相关性操作之前对当前帧进行CBAM操作，并且只在第一次相关性操作之前对模板帧进行CBAM操作，从而使得模型更加关注于目标，减少光照变化带来的问题。

CBAM是一种轻量级的注意力模块。它由两个子模块组成：一个是通道注意力子模块，用于计算通道权重；另一个是空间注意力子模块，用于计算空间权重。这两个子模块的输出分别乘上输入特征图，最后将两个结果相加得到最终输出。本发明采取通道注意力模块在前，空间注意力模块在后的顺序将其串行组合在一起。通道注意力模块结构如图6所示。空间注意力模块结构如图7所示。

在通道注意力模块中，输入特征F₀根据宽度和高度进行全局最大池和全局平均池。然后，输出特性被送到MLP(Multilayer Perceptron,多层感知机)通道注意特征与输入特征F₀元素相乘，经过加和操作，再经过Sigmoid激活操作，以生成通过空间注意模块所需的特征F_c。方程式为：

M_c(F)＝F₀×(σ(MLP(AvgPool(F₀))+MLP(MaxPool(F₀))))

空间注意模块将特征F_c作为输入特征。首先，基于通道执行全局最大池和全局平均池，然后基于通道联系这两个结果。Sigmoid激活函数生成空间注意特征，然后将这些特征乘以输入特征F_c，得到最终的特征F_s。方程式为：

M_s(F)＝F_c×(σ(f^7×7([AvgPool(F_c)；MaxPool(F_c)])))

关于AiA模块：

由于背景干扰等问题的存在，传统注意力模块中相关性的计算方式可能会引入错误的相关性，从而导致跟踪器跟错目标。为了解决该问题，本发明提出了AiA(Attention inAttention)模块。

AiA模块在传统注意力模块上进行改进。如图8(a)所示为传统注意力模块的结构图，传统注意力模块以一个查询(Q)、一个键(K)和一个值(V)作为输入，最终输出为V的加权求和，是Q与当前K的相关程度。具体来说，K和Q分别经过FC(Fully Connected Layer,全连接层)并进行矩阵相乘操作得到相关图M，具体计算过程如式(1)所示，之后，M经过Softmax函数并与做矩阵相乘，最后，上述得到的结果再经过全连接层就得到了最终的输出，具体计算过程如式(2)所示。其中，/> W_q、W_k、W_v和W_o分别表示查询、键、值和输出的线性变换权重。

AiA模块的改进是在Attention模块中再嵌套一个内部注意力模块InnerAttention模块，这样可以提高相关性图M的质量。通常，如果一个键与查询具有高相关性，那么它的一些相邻键也将与该查询具有相对较高的相关性。否则，相关性可能是噪声。受此启发，AiA模块寻求每个键周围的相关性一致，以适当增强键查询对的相关性，并抑制不相关键查询对的错误相关性。

在相关性图M被Softmax函数操作之前，用AiA模块对其进行细化，如图8(b)所示，此时AiA模块也可以被称为Inner Attention模块(内部注意力模块)，内部注意力模块本身是传统注意力模块的变体。内部注意力模块将相关性图M中的列视为一系列相关向量，并将这些向量作为查询Q′、键K′和值V′，以输出残差相关性图。具体来说，给定输入Q′、K′和V′，Q与K′经过线性变换将维数降到CW×D以提升计算效率，在LN(Layer Normalization,归一化)之后，与Pos Enc(Positional Encoding，位置编码)做相加操作，之后分别通过不同的线性转换得到与/>与/>进行矩阵相乘，得到的结果经过Softmax激活函数并与进行矩阵相乘，最后经过线性转换与相加操作得到残差相关性图，以上具体计算过程如式(3)所示。

综上所述，在加入Inner Attention模块之后，整个AiA模块的具体计算过程如式4所示。

关于AT-AiA模块：

AT-AiA部分是对TCTrack中的AT-Trans模块进行改进的。

TCTrack中用到的注意力机制为多头注意力机制(Multi-Cead Attention)，其结构图如图9所示。多头注意力机制拥有多个头，TCTrack中用到了6个头，每个头都是通过传统注意力机制获得的，其具体计算过程与上述传统注意力机制公式相同，最后再将所有的头拼接起来，并通过一个全连接层进行矩阵变换从而得到最终结果，具体计算公式如式(5)所示。

考虑到AiA模块在适当地增强相关性以及适当地抑制错误的相关性方面做得非常出色，所以本文针对目标跟踪过程中的背景干扰问题在TCTrack中引入了AiA模块，并提出了一种新的模块AT-AiA模块。AT-AiA模块既考虑了时间上下文信息，又使用了能够更加完美地细化相关性图的AiA模块。图10所示为AT-AiA模块的结构图。具体来说，本发明将AT-encoder编码器的第二个及第三个多头注意力机制替换为了AiA模块，将AT-decoder解码器的第一个多头注意力机制替换为了AiA模块。

实施例2：

如图11所示，本发明同时提供了一种无人机场景下运动物体目标检测与跟踪设备，所述设备包括至少一个处理器和至少一个存储器，所述处理器和存储器相耦合；所述存储器中存储有如实施例1所述目标检测与跟踪模型的计算机程序；所述处理器执行所述存储器存储的程序时，可以执行无人机场景下运动物体目标检测与跟踪的方法。其中内部总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(XtendedIndustry StandardArchitecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。其中存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。设备可以被提供为终端、服务器或其它形态的设备。

图11是为示例性示出的一种设备的框图。设备可以包括以下一个或多个组件：处理组件，存储器，电源组件，多媒体组件，音频组件，输入/输出(I/O)的接口，传感器组件，以及通信组件。处理组件通常控制电子设备的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件可以包括一个或多个处理器来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件可以包括一个或多个模块，便于处理组件和其他组件之间的交互。例如，处理组件可以包括多媒体模块，以方便多媒体组件和处理组件之间的交互。

存储器被配置为存储各种类型的数据以支持在电子设备的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件为电子设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。多媒体组件包括在所述电子设备和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件包括一个前置摄像头和/或后置摄像头。当电子设备处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。I/O接口为处理组件和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件包括一个或多个传感器，用于为电子设备提供各个方面的状态评估。例如，传感器组件可以检测到电子设备的打开/关闭状态，组件的相对定位，例如所述组件为电子设备的显示器和小键盘，传感器组件还可以检测电子设备或电子设备一个组件的位置改变，用户与电子设备接触的存在或不存在，电子设备方位或加速/减速和电子设备的温度变化。传感器组件可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

实施例3：

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有如实施例1所述目标检测与跟踪模型的计算机程序；所述处理器执行所述存储器存储的程序时，可以执行无人机场景下运动物体目标检测与跟踪的方法。

具体地，可以提供配有可读存储介质的系统、装置或设备，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统、装置或设备的计算机或处理器读出并执行存储在该可读存储介质中的指令。在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘(如CD-ROM、CD-R、CD-RW、DVD-20ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带等。存储介质可以是通用或专用计算机能够存取的任何可用介质。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

应理解存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于终端或服务器中。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种无人机场景下运动物体目标检测与跟踪模型，其特征在于：基于YOLOv5进行改进得到目标检测模型ShuffleNetV2-YOLOv5s，同时基于TCTrack改进得到目标跟踪模型AiA-TCTrack，将两个改进模型相串联，将无人机图像输入到ShuffleNetV2-YOLOv5s模型中，用于检测出一系列物体，同时该检测输出作为AiA-TCTrack模型的输入，对感兴趣的目标进行追踪；

2.如权利要求1所述的一种无人机场景下运动物体目标检测与跟踪模型，其特征在于：所述ShuffleNetV2-YOLOv5s模型将传统YOLOv5中的CSP1_X和CSP2_X结构分别替换为DS1和DS2组件，所述DS1由两个DWB组件、一个CBL组件、一个Concat模块及一个Channel Shuffle模块组成，所述DS2组件在DS1组件基础上添加了一个CBL组件；所述DS1和DS2组件用深度可分离卷积替换了CSP1_X和CSP2_X结构的普通卷积，提升了运行速度，并且加入了ChannelShuffle，使得获取的特征信息更加丰富。

3.如权利要求2所述的一种无人机场景下运动物体目标检测与跟踪模型，其特征在于：在DS1和DS2的Channel Shuffle模块之后添加了CA模块，即在DS1与DS2组件中加入了注意力机制成为新的组件CDS1和CDS2；并将CDS1与CDS2组件应用到ShuffleNetV2-YOLOv5s的主干网络部分中，使得模型能够更好地提取无人机视角下的目标特征；

4.如权利要求1所述的一种无人机场景下运动物体目标检测与跟踪模型，其特征在于，所述AiA-TCTrack模型的具体结构为：

5.如权利要求1所述的一种无人机场景下运动物体目标检测与跟踪模型，其特征在于：所述AiA-TCTrack模型在相关性部分引入了卷积注意力模块CBAM，包括通道注意力子模块和空间注意力子模块，采取通道注意力模块在前空间注意力模块在后的顺序将其串行组合，所述通道注意力子模块用于计算通道权重，所述空间注意力子模块用于计算空间权重；

6.如权利要求1所述的一种无人机场景下运动物体目标检测与跟踪模型，其特征在于，所述AiA模块处理的具体过程为：

给定输入查询Q′、键K′和值V′，Q′与K′经过线性变换将维数降到CW×D以提升计算效率，在归一化之后，与位置编码做相加操作，之后分别通过不同的线性转换得到与/> 与/>进行矩阵相乘，得到的结果经过Softmax激活函数并与/>进行矩阵相乘，最后经过线性转换与相加操作得到残差相关性图，具体计算过程如下式所示：

其中M代表相关性图，W₀代表输出的线性变换权重。

7.一种无人机场景下运动物体目标检测与跟踪方法，其特征在于，包括以下过程：

通过无人机拍摄获取运动物体或行人的图像数据；

将图像数据输入到如权利要求1至6任意一项所述的目标检测模型ShuffleNetV2-YOLOv5s中，用于检测出一系列物体；

将目标检测模型的输出作为跟踪模型的输入，输入到如权利要求1至6任意一项所述的目标跟踪模型AiA-TCTrack中，用于对特定目标进行跟踪；

8.一种无人机场景下运动物体目标检测与跟踪设备，其特征在于：所述设备包括至少一个处理器和至少一个存储器；所述存储器中存储有如权利要求1至6任意一项所述目标检测与跟踪模型的计算机程序；所述处理器执行所述存储器存储的计算机程序时，可以执行无人机场景下运动物体目标检测与跟踪的方法。

9.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有如权利要求1至6任意一项所述目标检测与跟踪模型的计算机执行程序，所述计算机执行程序被处理器执行时，可以实执行无人机场景下运动物体目标检测与跟踪的方法。