CN117333512A

CN117333512A - 基于检测框跟踪的航拍小目标跟踪方法

Info

Publication number: CN117333512A
Application number: CN202311344197.6A
Authority: CN
Inventors: 齐恒; 潘世抱; 周弈志
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2023-10-17
Filing date: 2023-10-17
Publication date: 2024-01-02

Abstract

一种基于检测框跟踪的航拍小目标跟踪方法，属于计算机技术领域，旨在解决航拍小目标跟踪问题，要点是S1：对航拍数据集图像数据预处理；S2：将预处理后的图像数据集输入目标检测网络中训练，得到目标检测网络对应的检测权重；S3：跟踪模型输入目标检测网络检测到的候选框，对航拍小目标测试监测；S4：将测试监测所检测到的航拍小目标的位置信息，经过编号比对，进行可视化处理并进行记录，效果是结合目标检测和目标跟踪两个关键步骤，以提高跟踪的准确性和鲁棒性。

Description

基于检测框跟踪的航拍小目标跟踪方法

技术领域

本发明属于计算机技术领域，具体涉及一种航拍小目标跟踪方法。

背景技术

航拍小目标跟踪是指在航拍视频中，针对尺寸较小的目标进行实时跟踪和定位的技术。这些小目标可能是移动的车辆、行人、动物或其他感兴趣的目标。航拍小目标跟踪在许多应用领域具有重要的价值，如无人机监控、交通管理、环境监测等。

传统的航拍小目标跟踪方法通常采用基于特征的算法，如基于颜色、纹理或运动的特征进行目标检测和跟踪。然而，这些方法在面对复杂背景、光照变化和目标遮挡等挑战时表现不佳。因此，需要一种更为准确和鲁棒的航拍小目标跟踪方法。

在现实航拍环境下，感兴趣的目标在航拍视频中的尺寸通常较小，这增加了目标检测和跟踪的难度。小目标的低分辨率和模糊性可能导致目标难以准确检测和跟踪。此外，航拍视频中的背景通常是复杂多变的，可能包含大量干扰物体、纹理和结构。这些干扰物体可能与目标具有相似的外观特征，导致误检测和错误跟踪。其次，在航拍视频中，小目标可能会被其他物体或场景元素遮挡，例如树木、建筑物或其他运动物体。目标的遮挡会导致目标的部分或完全消失，使得跟踪算法无法准确追踪目标。最后，小目标在光照变化和快速运动以及姿态变化中也增大了跟踪的难度。

对此，中国专利申请CN202211668829.X公开了一种面向无人机航拍视频的在线多目标跟踪方法。通过多尺度像素目标检测网络从视频帧中提取出目标类别与边界框后,进一步通过多粒度融合特征提取网络提取目标的表观特征向量,然后基于时序与检测置信度的加权移动平均方法计算轨迹的表观特征向量,运用表观特征向量与卡尔曼运动模型对轨迹与检测结果进行数据关联,得到多目标跟踪的结果。但是该发明在提升精度的同时，没有考虑模型推理所需要的时间成本，并且训练得到的模型并不具有很好的鲁棒性，无法适应不同环境。因此现有技术需要一种能实时跟踪航拍小目标的算法，该方法精度应更为准确、鲁棒性更强。

发明内容

本发明旨在解决航拍小目标跟踪存在的上述问题，根据本申请的一些实施例的基于检测框跟踪的航拍小目标跟踪方法，具体包括：

S1：对航拍数据集图像数据预处理；

S2：将预处理后的图像数据集输入目标检测网络中训练，得到目标检测网络对应的检测权重；

S3：跟踪模型输入目标检测网络检测到的候选框，对航拍小目标测试监测；

S4：将测试监测所检测到的航拍小目标的位置信息，经过编号比对，进行可视化处理并进行记录。

根据本申请的一些实施例的基于检测框跟踪的航拍小目标跟踪方法，步骤S1具体包括

S1.1：收集公开航拍数据集，将多个数据集进行对比，选择合适的数据集进行数据增强；

S1.2：将得到的公开航拍数据集中含有干扰的数据标注进行清洗；

S1.3：将清洗后的数据划分为训练集、验证集以及测试集。

根据本申请的一些实施例的基于检测框跟踪的航拍小目标跟踪方法，目标检测网络是对航拍视频小目标改进的YOLOv5网络，包括以ResNet为主干的基准网络层、用于输出目标检测结果的Neck网络层、Head层以及经过非极大值抑制处理的输出端，其中：

基准网络层输出特征映射矩阵；

Neck网络层采用FPN与PAN的融合网络结构，其中，FPN表示特征金字塔网络，利用自上而下的上采样提取图像的强语义特征；PAN表示像素聚合网络，利用自下而上的网络提取图像的强定位特征；

输出层采用GIoU_Loss作为Boundingbox的损失函数，输出目标检测结果；

根据目标检测结果，采用非极大值抑制，消除同一个目标上的多个框以及堆叠在一起的输出边界框。

根据本申请的一些实施例的基于检测框跟踪的航拍小目标跟踪方法，步骤S2具体包括

S2.1：将步骤1划分出的数据经过数据增强，输入到目标检测网络的Backbone中，获得不同尺寸的特征图；

S2.2：将不同尺寸的特征图输入到Neck网络层，在Neck网络层中对特征图依次进行上下采样操作，使用融合的BiFPN的连接方式拼接生成多种尺寸的特征图；

S2.3：将生成的多尺寸特征图输入到Head层中；

S2.4：采用多种损失函数结合的方式进行反向传播，并根据梯度变化进行权重更新，得到检测权重。

根据本申请的一些实施例的基于检测框跟踪的航拍小目标跟踪方法，其中，基于如下方式获取GIoU Loss：

假设现在有预测框的Bbox和真实框的Bbox的坐标，分别记为：

式中，B^p表示预测框，表示预测框的左下角横坐标，/>表示预测框的左下角纵坐标，/>表示预测框的右上角横坐标，/>表示预测框的右上角纵坐标，/>表示真实框的左下角横坐标，/>表示真实框的左下角纵坐标，/>表示真实框的右上角横坐标，/>表示真实框的右上角纵坐标；

预测框的Bbox：

计算B^g的面积A^g：

计算B^p的面积A^p：

计算B^g与B^p的重叠面积：

式中，表示重叠框的左下角横坐标，/>表示重叠框的右上角横坐标，/>表示重叠框左下角的纵坐标，/>表示重叠框右上角的纵坐标；

获取包含B^p，B^g的最小框A^c:

式中，表示A^c左下角的横坐标，/>表示A^c右上角的横坐标，/>表示A^c左下角的纵坐标，/>表示A^c右上角的纵坐标；

计算A^c的面积：

计算IoU:

计算GIoU:

得到GIoU Loss:

L_GIoU＝1-GIoU

式中，L_GIoU表示GIoU Loss。

根据本申请的一些实施例的基于检测框跟踪的航拍小目标跟踪方法，在目标检测网络的Neck层特征融合BiFPN的特征图加权连接方式，BiFPN是重复双向跨尺度连接+带权重的特征融合机制，BiFPN用于：

(1)删除只有一条输入边的节点；

(2)如果原始输入节点和输出节点处于同一层，在原始输入节点和输出节点之间添加一条额外的边；

(3)BiFPN处理每个双向路径作为一个特征网络层，并重复同一层多次，使更高层次的特征融合，P6层输出表达式为：

式中，表示是自上而下路径中第P6层的中间特性，Conv表示卷积模型，/>表示自上而下路径中第P6层的输入特性，/>表示自上而下路径中第P7层的输入特性，ε是用于防止分母为零的数，Resize操作是下采样或上采样操作，w是网络学习到的权重参数，用于区分特征融合过程中不同特征的重要程度，w'表示网络中学习到的权重参数，/>是自上而下路径中第P6层的中间特性，/>是上一层特征图输入，/>是P5层的输出作为第P6层的输入。

根据本申请的一些实施例的基于检测框跟踪的航拍小目标跟踪方法，步骤S3具体包括：

第一，ByteTrack的输入是一列的视频流V，一个目标检测器Det，预先设置的目标检测框的置信度阈值τ；

第二，从视频流V中提取视频帧f_k，f_k经过检测器Det的检测，得到视频帧的检测结果D_k，D_k中的一系列检测框的d_kn以及对应的检测框置信度的值与最开始设定的置信度阈值τ比较，高于τ的放入D_high中，低于τ的放入D_low中；

第三，利用卡尔曼滤波器，对轨迹T进行更新，轨迹T与D_high利用IoU进行轨迹的匹配，将匹配到的轨迹进行更新，未匹配上的轨迹保留，分别为D_remain、T_remain；

第四，进行第二次的匹配，使用低分框D_low和第一次没有匹配上高分框的跟踪轨迹T_remain进行匹配；

第五，对于没有匹配上跟踪轨迹，得分超过阈值的检测框D_high，对其新建一个跟踪轨迹，对于没有匹配上检测框的跟踪轨迹，保留30帧，在其再次出现时再进行匹配，输出新的轨迹跟踪结果T。

根据本申请的一些实施例的基于检测框跟踪的航拍小目标跟踪方法，对于相邻视频帧中同一个目标的检测框，其IoU定义如下：

IoU代表真实检测框与预测框重叠的面积和真实检测框与预测框面积综合的比值。

根据本申请的一些实施例的基于检测框跟踪的航拍小目标跟踪方法，边界框建模为二维高斯分布，其中边界框的中心像素具有最高的权重，像素的重要性从中心到边界递减，将边界框视为它的内接椭圆建模，对于边界框A表示为(cx_a,cy_a,w_a,h_a)，预测框B表示为(cx_b,cy_b,w_b,h_b)，得到其内接椭圆方程为：

式中，cx表示目标框中心的横坐标,cy表示目标框中心的纵坐标,w表示目标框的长度,h表示目标框的宽度，(μ_x,μ_y)是椭圆的中心坐标，σ_x，σ_y是沿x，y轴的半轴长度，因此，μ_x＝c_x，μ_x＝c_y，σ_x＝w/2，σ_y＝h/2；

其中二维高斯分布的概率密度函数由下式给出：

其中x、μ和Σ表示高斯分布的坐标(x,y)、均值向量和协方差矩阵；

当三者满足：

(x-μ)^T∑^-1(x-μ)＝1

内接椭圆将是二维高斯分布的密度等值线，因此，一个水平边界框R＝(c_x,c_y,w,h)建模为二维高斯分布N(μ，Σ)：

真实框A和预测框B之间的相似度转换为两个高斯分布之间的分布距离，使用来自最优传输理论的Wasserstein距离计算分布距离；

对于两个二维高斯分布μ₁＝N(m₁,Σ₁)和μ₂＝N(m₂,Σ₂)，μ₁和μ₂之间的二阶Wasserstein距离定义为：

上式简化为：

式中，m₁表示μ₁的均值向量，m₂表示μ₂的均值向量，Tr表示矩阵的迹，||·||_F是Frobenius范数；

对于真实框A＝(cx_a,cy_a,w_a,h_a)和预测框B＝(cx_b,cy_b,w_b,h_b)建模的高斯分布N_a和N_b，上式简化为：

式中，(N_a,N_b)是距离度量，其中cx表示目标框中心的横坐标,cy表示目标框中心的纵坐标,w表示目标框的长度,h表示目标框的宽度，矩阵二范数的平方；

使用指数形式归一化并获得称为归一化Wasserstein距离的新度量：

式中，C表示可调节的超参数。

根据本申请的一些实施例的基于检测框跟踪的航拍小目标跟踪方法，步骤S4具体包括将视频中连续5～10帧物体的ID不发生变化，该ID所属的物体为出现过的小目标，传回其位置信息。

本发明与现有技术相比，具有如下优点和有益效果：

本发明方法结合了目标检测和目标跟踪两个关键步骤，以提高跟踪的准确性和鲁棒性。

本发明相较于IoU只关注重叠区域不同，不仅关注重叠区域，还关注其他的非重合区域，能更好的反映两者的重合度。

本发明在YOLOv5网络中加入BiFPN模块并融合进Concat模块中，实现有效的双向交叉尺度连接和加权特征融合，提高网络的检测效率与精度，本发明神经网络适应更小物体的检测。

本发明在跟踪阶段引入了新的跟踪匹配标准Normalized Wasserstein Distance取代原有的IOU，增强小尺寸FOD跟踪的准确性。克服了跟踪轨迹匹配不上或者导致跟踪轨迹不连贯，跟踪效果降低的现象。

附图说明

图1为本发明实施例提供的一种基于检测框跟踪的机场航拍小物体跟踪方法的流程图。

图2为本发明实施提供的航拍小物体需要清洗样例。

图3为本发明实施提供的改进的YOLOV5模型网络结构图。

图4为本发明实施提供的BiFPN模块网络结构图。

图5为本发明实施提供的目标检测算法目标检测结果可视化图。

图6为本发明实施提供的目标跟踪效果可视化图。

具体实施方式

下面将结合附图和技术方案，对本发明的实施过程进行详细描述。

实施例1：如图1所示，一种基于检测框跟踪的航拍小目标跟踪方法，包括

S1：收集公开航拍数据集图像数据，并对收集到的图像进行预处理，对含有干扰的数据标注进行清洗，比如图像中目标过于密集、数据不清晰等的图片进行删减；

S2：将经过数据清洗和增强后的数据集传入目标检测网络中进行训练，得到对应的检测权重；

S3：将检测到的候选框作为跟踪模型的输入，对航拍小目标进行测试监测；

S4：将测试检测到的航拍小目标的位置信息，经过编号比对，进行可视化处理并进行记录。

具体实现方式如下：

步骤1：收集公开航拍数据集图像数据，并对收集到的图像进行预处理，对含有干扰的数据标注进行清洗，比如图像过于密集、数据不清晰等的目标进行删减；

所述航拍数据集图像数据为实际环境拍摄制作得到的航拍数据；所述预处理操作为对数据进行筛选处理，包括清洗目标不清晰的标注、目标过于密集的标注，由于无人机拍摄有一定的高度，高度太高的视角，拍摄到的目标极其微小，不利于检测，需要对其进行删减，对模糊目标进行重新标注或者直接删除。

采用上述进一步方案的有益效果是：通过删去大量拍摄中的不清晰的数据一方面可以减少对目标检测网络训练的干扰，另一方面能够减小训练时间，防止训练数据大量冗余。

步骤2：将划分后的数据集传入目标检测网络中进行训练，得到对应的检测权重；

所述目标检测网络为针对航拍视频小目标改进的YOLOv5网络，整个改进的YOLOv5网络主干部分由Conv模块、C3模块、SPP模块、Focus模块、以及结合BiFPN的Concat模块组成，产生三种尺度特征图。

采用上述进一步方案的有益效果是：针对航拍小尺寸目标漏检严重问题，采用BiFPN可以是实现有效的双向交叉尺度连接和加权特征融合，对不同分辨率的特征图进行连接融合，检测准确率更高。

步骤3：将检测到的候选框作为跟踪模型的输入，对航拍小目标进行测试监测；

所述跟踪模型采用的改进的ByteTrack算法。整个改进的ByteTrack算法分为4步：首先将YOLOv5检测得到的检测框根据置信度得分，分成高分框与低分框；然后；将高分框与之前的跟踪轨迹进行匹配；接着将低分框与第一次没有匹配上的高分框的跟踪轨迹进行匹配；最后对于没有匹配上跟踪轨迹，得分又足够高的检测框，对其新建一个跟踪轨迹。对于没有匹配上检测框的跟踪轨迹，保留一定时长，再次出现时再进行匹配；

采用上述进一步方案的有益效果是：采用的改进的ByteTrack算法一方面可以解决检测算法得到的小目标检测框置信度较低的问题，提高跟踪的效果与连贯性。另一方面，跟踪的实现方式更加简单高效，不会引入ReID而增加网络的参数。

步骤4：将测试检测到的航拍小目标的位置信息，经过编号比对，进行可视化处理。

将测试视频中连续5帧出现的同一ID航拍小目标设为真实出现过的小目标，并传回其类别位置信息。

本发明与现有技术相比，具有如下优点和有益效果：本发明在YOLOv5网络中加入BiFPN模块并融合进Concat模块中，实现有效的双向交叉尺度连接和加权特征融合；除此之外，在跟踪阶段引入了新的跟踪匹配标准Normalized Wasserstein Distance取代原有的IOU，增强小尺寸FOD跟踪的准确性。

实施例2：如图1所示，为本发明提供的一种基于检测框跟踪的航拍小物体跟踪方法，具体包括：

所述收集的航拍数据集类别包括10个物体类别(即行人、人、汽车、面包车、巴士、卡车、摩托车、自行车、遮阳篷-三轮车和三轮车)。

公开的航拍数据集由各种无人机摄像头捕获，覆盖范围广泛，包括多种多样的位置、密度与环境，对象尺度变化较大，包含有许多的小尺寸目标。

在得到清洗后的数据集后，以8:1:1的比例划分成为训练、验证、测试集。

具体地，本发明所使用的跟踪算法是建立在目标检测算法之上的，结合所用的目标检测算法是YOLOV5模型，YOLOV5模型经过了许多的实验验证，是一个轻量级可以达到实时检测的目标检测算法模型并且可以部署在检测网络设备上，如图3是它的网络模型架构，在YOLOV5的原始模型基础上，本发明通过改进网络架构从而提高了其对航拍数据集小目标的检测精度。具体改进如下。

整个改进的YOLOv5网络是基于YOLOv5s模型，具体包括以ResNet为主干的基准网络层、用于输出目标检测结果的Neck层、Head层、以及经过非极大值抑制处理的输出端。其中，基准网络层输出特征映射矩阵。Neck网络层采用FPN+PAN的结构来提升特征的多样性和鲁棒性，加强网络特征的融合能力。其中，FPN表示特征金字塔网络，利用自上而下的上采样提取图像的强语义特征。PAN表示像素聚合网络，利用自下而上的网络提取图像的强定位特征(即目标物的位置)。FPN与PAN进行融合，能够实现形状与位置特征的聚合。输出层采用GIoU_Loss作为Boundingbox的损失函数，输出目标检测结果。对于GIoU Loss其定义如下,假设现在有预测框(predicate)的Bbox和真实框(groud truth)的Bbox的坐标，分别记为：

式中，B^p表示预测框，表示预测框的左下角横坐标，/>表示预测框的左下角纵坐标，/>表示预测框的右上角横坐标，/>表示预测框的右上角纵坐标，/>表示真实框的左下角横坐标，/>表示真实框的左下角纵坐标，/>表示真实框的右上角横坐标，/>表示真实框的右上角纵坐标。

为了方便对应点之间的关系，规定预测框的Bbox：

计算B^g的面积：

计算B^p的面积：

计算B^g与B^p的重叠面积：

式中，表示重叠框的左下角横坐标，/>表示重叠框的右上角横坐标，/>表示重叠框左下角的纵坐标，/>表示重叠框右上角的纵坐标。

找到可以包含B^p，B^g的最小框A^c:

式中，表示A^c左下角的横坐标，/>表示A^c右上角的横坐标，/>表示A^c左下角的纵坐标，/>表示A^c右上角的纵坐标。

计算A^c的面积：

计算IoU:

计算GIoU:

因此，最终得到GIoU Loss:

L_GIoU＝1-GIoU

与IoU相比，GIoU对目标检测框尺寸不敏感，IoU只关注重叠区域不同，GIoU不仅关注重叠区域，还关注其他的非重合区域，能更好的反映两者的重合度。

得到目标检测结果后，再进行后处理，采用非极大值抑制，以消除同一个目标上的多个框以及堆叠在一起的输出边界框。

为了神经网络适应更小物体的检测，在Neck层特征融合BiFPN的特征图加权连接方式(如图4所示)，BiFPN是新型加强版的PANet(重复双向跨尺度连接)+带权重的特征融合机制，它的具体做法如下：(1)删除那些只有一条输入边的节点。如果一个节点只有一条输入边而没有特征融合，那么它对旨在融合不同特征的特征网络的贡献就会很小。删除它对网络影响不大，同时简化了双向网络。(2)如果原始输入节点和输出节点处于同一层，就在原始输入节点和输出节点之间添加一条额外的边。(3)与只有一个自顶向下和一个自底向上路径的PANet不同，BiFPN在处理每个双向路径(自顶向下和自底而上)路径作为一个特征网络层，并重复同一层多次，以实现更高层次的特征融合。以图4中P6层输出为例，其计算表达式为：

其中，表示是自上而下路径中第P6层的中间特性，Conv表示卷积模型，/>表示自上而下路径中第P6层的输入特性，/>表示自上而下路径中第P7层的输入特性，Resize操作通常是下采样或上采样操作；w是学习到的参数，用于区分特征融合过程中不同特征的重要程度，有点类似于注意力机制；w'表示网络中学习到的权重参数；/>是自上而下路径中第P6层的中间特性,/>是上一层特征图输入，/>是下一层的输出作为第6层的输入；

BiFPN的做法可以简化双向网络以及在不增加太多成本的情况下融合更多的特性，提高网络的检测效率与精度。ε是一个很小的数，为了防止分母为零。

最终的检测效果如图5所示。改进后的检测器可以很好地对航拍小目标进行识别。

步骤3：将检测到的候选框作为跟踪模型的输入，对航拍视频数据进行测试监测；

具体地，基于检测框跟踪的多目标跟踪算法具体如下：

具体地，第一，ByteTrack的输入是一列的视频流V，一个目标检测器Det，预先设置好的目标检测框的置信度阈值τ。

第二，从视频流V中提取视频帧f_k，f_k经过检测器Det的检测，得到视频帧的检测结果D_k，D_k中的一系列检测框的d_kn以及对应的检测框置信度的值与最开始设定的置信度阈值τ比较，高于τ的放入D_high中，低于τ的放入D_low中。

第三，利用卡尔曼滤波器，对轨迹T进行更新，即T与D_high利用IoU进行轨迹的匹配，将匹配到的轨迹进行更新，未匹配上的轨迹保留，分别为D_remain，T_remain。

第四，进行第二次的匹配，使用低分框D_low和第一次没有匹配上高分框的跟踪轨迹T_remain进行匹配。

第五，对于没有匹配上跟踪轨迹，得分又足够高的检测框D_high，对其新建一个跟踪轨迹。对于没有匹配上检测框的跟踪轨迹，会保留30帧，在其再次出现时再进行匹配。最后返回输出新的轨迹跟踪结果T。

原始的ByteTrack应用在车辆，行人等大目标的跟踪，并不适用于机场FOD小目标跟踪，因为IoU并不适用于航拍数据集这种小目标的跟踪。因此需要对其进行改进，具体改进如下：

原始的ByteTrack跟踪匹配标准使用的是IoU，和目标检测中计算IoU一样，对于相邻视频帧中同一个目标的检测框，其IoU定义如下：

其代表的是真实检测框与预测框重叠的面积和真实检测框与预测框面积综合的比值，当IoU应用到小目标上时，其值非常小或者接近于0，就会造成跟踪轨迹匹配不上或者导致跟踪轨迹不连贯，跟踪效果降低，因此引入了新的跟踪匹配标准NormalizedWasserstein Distance(NWD)。对于小物体，它们的边界框中往往会有一些背景像素，因为大多数真实物体不是严格的矩形。在这些边界框中，前景像素和背景像素分别集中在边界框的中心和边界上。为了更好地描述边界框中不同像素的权重，边界框可以建模为二维(2D)高斯分布，其中边界框的中心像素具有最高的权重，像素的重要性从中心到边界递减，因此，具体来说，可以将边界框看成它的内接椭圆建模，对于两个边界框A表示为(cx_a,cy_a,w_a,h_a)，预测框B表示为(cx_b,cy_b,w_b,h_b)，得到其内接椭圆方程为：

其中(μ_x,μ_y)是椭圆的中心坐标，σ_x,σ_y是沿x和y轴的半轴长度。因此，μ_x＝c_x，μ_x＝c_y，σ_x＝w/2，σ_y＝h/2。其中二维高斯分布的概率密度函数由下式给出：

其中x、μ和Σ表示高斯分布的坐标(x,y)、均值向量和协方差矩阵。当三者满足：

(x-μ)^T∑^-1(x-μ)＝1

其内接椭圆将是二维高斯分布的密度等值线。因此，一个水平边界框R＝(c_x,c_y,w,h)可以建模为二维高斯分布N(μ，Σ)：

真实框A和预测框B之间的相似度可以转换为两个高斯分布之间的分布距离。使用来自最优传输理论的Wasserstein距离来计算分布距离。对于两个二维高斯分布μ₁＝N(m₁,Σ₁)和μ₂＝N(m₂,Σ₂)，μ₁和μ₂之间的二阶Wasserstein距离定义为：

上式可以简化为：

其中，m₁表示μ₁的均值向量，m₂表示μ₂的均值向量，Tr表示矩阵的迹，||·||_F是Frobenius范数。

对于真实框A＝(cx_a,cy_a,w_a,h_a)和预测框B＝(cx_b,cy_b,w_b,h_b)建模的高斯分布N_a和N_b，上式可进一步简化为：

但是，(N_a,N_b)是距离度量，不能直接用作相似度度量(即0和1之间的值作为IoU)。因此，使用它的指数形式归一化并获得称为归一化Wasserstein距离(NWD)的新度量：

真实框A＝(cx_a,cy_a,w_a,h_a)，预测框B＝(cx_b,cy_b,w_b,h_b)，各个参数的意义分别为，目标框中心的横坐标、纵坐标，目标框的长度、宽度。C是一个可以调节的超参数，具体值与数据集有关。采用上述的跟踪匹配指标更加适用于小目标的轨迹匹配，并且可以达到连续几帧检测不到对应目标时依然能够在之后的轨迹中匹配到相应的跟踪轨迹。

步骤4：将监测到航拍小目标的位置信息，经过编号比对，进行可视化处理。

图6为航拍小目标跟踪可视化效果图，图中的编号为每个物体的ID。当连续10帧内，某ID不发生变化，则认定该ID物体为确切出现过的小目标，并返回其位置坐标。

本发明提供了一种基于检测框跟踪的航拍小目标跟踪方法，包括步骤S1：收集公开航拍数据集图像数据，并对收集到的图像进行预处理，对含有干扰的数据标注进行清洗，比如图像过于密集、数据不清晰等的目标进行删减；步骤S2：将经过数据清洗和增强后的数据集传入目标检测网络中进行训练，得到对应的检测权重；步骤S3：将检测到的候选框作为跟踪模型的输入，对航拍数据集小目标进行测试监测；步骤S4：将监测到的航拍小目标的位置信息，经过编号比对，进行可视化处理并进行记录。本发明能够准确且快速地将复杂背景下的小尺寸航拍目标检测出来，提高鲁棒性和检测率。并且，本发明可以达到实时跟踪效果，可以用于实际业务当中。

上面对本发明的实施方法做出了详细说明，但本发明不限于上述实施方法。本发明在实现检测步骤上，改进检测网络结构，更加有效的对更小目标的检测，覆盖航拍数据集的更多目标尺寸，提高了目标检测网络的精度，进一步地，在实现目标跟踪上，改进了原来的检测框匹配标准，使得目标跟踪的效果更加连贯，并且ByteTrack算法相比较于其他算法有网络更加简单高效，不会引入额外参数的优势。

本发明实施例还提供一种电子设备，该电子设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例提供的方法中的步骤。本发明实施例提供的电子设备能够实现上述方法实施例中的各个实施方式，以及相应有益效果。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现本发明实施例提供的方法，且能达到相同的技术效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存取存储器(Random Access Memory，简称RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于检测框跟踪的航拍小目标跟踪方法，其特征在于，具体包括：

S1：对航拍数据集图像数据预处理；

2.根据权利要求1所述的基于检测框跟踪的航拍小目标跟踪方法，其特征在于，步骤S1具体包括

S1.3：将清洗后的数据划分为训练集、验证集以及测试集。

3.根据权利要求1所述的基于检测框跟踪的航拍小目标跟踪方法，其特征在于，目标检测网络是对航拍视频小目标改进的YOLOv5网络，包括以ResNet为主干的基准网络层、用于输出目标检测结果的Neck网络层、Head层以及经过非极大值抑制处理的输出端，其中：

基准网络层输出特征映射矩阵；

4.根据权利要求3所述的基于检测框跟踪的航拍小目标跟踪方法，其特征在于，步骤S2具体包括

S2.3：将生成的多尺寸特征图输入到Head层中；

5.根据权利要求3所述的基于检测框跟踪的航拍小目标跟踪方法，其特征在于，其中，基于如下方式获取GIoU Loss：

假设现在有预测框的Bbox和真实框的Bbox的坐标，分别记为：

式中，B^p表示预测框，表示预测框的左下角横坐标，/>表示预测框的左下角纵坐标，表示预测框的右上角横坐标，/>表示预测框的右上角纵坐标，/>表示真实框的左下角横坐标，/>表示真实框的左下角纵坐标，/>表示真实框的右上角横坐标，/>表示真实框的右上角纵坐标；

预测框的Bbox：

计算B^g的面积A^g：

计算B^p的面积A^p：

计算B^g与B^p的重叠面积：

获取包含B^p，B^g的最小框A^c:

式中，表示A^c左下角的横坐标，/>表示A^c右上角的横坐标，/>表示A^c左下角的纵坐标，表示A^c右上角的纵坐标；

计算A^c的面积：

计算IoU:

计算GIoU:

得到GIoU Loss:

L_GIoU＝1-GIoU

式中，L_GIoU表示GIoU Loss。

6.根据权利要求3所述的基于检测框跟踪的航拍小目标跟踪方法，其特征在于，在目标检测网络的Neck层特征融合BiFPN的特征图加权连接方式，BiFPN是重复双向跨尺度连接+带权重的特征融合机制，BiFPN用于：

(1)删除只有一条输入边的节点；

7.根据权利要求1所述的基于检测框跟踪的航拍小目标跟踪方法，其特征在于，步骤S3具体包括：

8.根据权利要求7所述的基于检测框跟踪的航拍小目标跟踪方法，其特征在于，对于相邻视频帧中同一个目标的检测框，其IoU定义如下：

9.根据权利要求8所述的基于检测框跟踪的航拍小目标跟踪方法，其特征在于，边界框建模为二维高斯分布，其中边界框的中心像素具有最高的权重，像素的重要性从中心到边界递减，将边界框视为它的内接椭圆建模，对于边界框A表示为(cx_a，cy_a，w_a，h_a)，预测框B表示为(cx_b，cy_b，w_b，h_b)，得到其内接椭圆方程为：

式中，cx表示目标框中心的横坐标，cy表示目标框中心的纵坐标，w表示目标框的长度，h表示目标框的宽度，(μ_x，μ_y)是椭圆的中心坐标，σ_x，σ_y是沿x，y轴的半轴长度，因此，μ_x＝c_x，μ_x＝c_y，σ_x＝w/2，σ_y＝h/2；

其中二维高斯分布的概率密度函数由下式给出：

其中x、μ和∑表示高斯分布的坐标(x，y)、均值向量和协方差矩阵；

当三者满足：

内接椭圆将是二维高斯分布的密度等值线，因此，一个水平边界框R＝(c_x，c_y，w，h)建模为二维高斯分布N(μ，∑)：

对于两个二维高斯分布μ₁＝N(m₁，∑₁)和μ₂＝N(m₂，∑₂)，μ₁和μ₂之间的二阶Wasserstein距离定义为：

上式简化为：

对于真实框A＝(cx_a，cy_a，w_a，h_a)和预测框B＝(cx_b，cy_b，w_b，h_b)建模的高斯分布N_a和N_h，上式简化为：

式中，(N_a，N_b)是距离度量，其中cx表示目标框中心的横坐标，cy表示目标框中心的纵坐标，w表示目标框的长度，h表示目标框的宽度，矩阵二范数的平方；

式中，C表示可调节的超参数。

10.根据权利要求9所述的基于检测框跟踪的航拍小目标跟踪方法，其特征在于，步骤S4具体包括将视频中连续5～10帧物体的ID不发生变化，该ID所属的物体为出现过的小目标，传回其位置信息。