CN111666871A

CN111666871A - 一种面向无人机的改进yolo与sift相结合的多小目标检测跟踪方法

Info

Publication number: CN111666871A
Application number: CN202010497477.0A
Authority: CN
Inventors: 丁勇; 卢盼成; 汪常建
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2020-09-15
Anticipated expiration: 2040-06-03
Also published as: CN111666871B

Abstract

本发明公布了一种面向无人机的改进YOLO与SIFT相结合的多小目标检测跟踪方法，所述方法首先初始化视频序列，读取视频序列的帧数和标注框真值；其次使用自适应阈值和最小距离约束的方法改进SIFT算法进行特征点检测；接着对改进SIFT算法检测得到的特征点，采用KLT算法对特征点进行匹配和目标定位；然后采用YOLO网络剪枝后的UAV‑YOLO进行目标检测；最后，由目标的尺度信息和位置信息完成目标的数据关联，再使用KLT算法实现多目标跟踪。本发明基于KLT跟踪算法，通过对YOLO算法的网络剪枝和SIFT算法的特征点改进，有效解决了面向无人机的目标检测算法部署和多小目标跟踪问题。

Description

一种面向无人机的改进YOLO与SIFT相结合的多小目标检测跟踪方法

技术领域

本发明属于计算机视觉技术领域，特别是一种面向无人机的改进YOLO与SIFT相结合的多小目标检测跟踪方法。

技术背景

无人机(Unmanned Aerial Vehicle，UAV)因其体积小、隐蔽性强、反应快速、对作战环境要求低和能迅速到达现场等优势，在智能交通、地质勘探、军事制导、航空视觉导航等民用和国防领域发挥着重要的作用。多目标跟踪能够极大增强无人机的自主飞行和监控能力，使得无人机能够适应更复杂多变的环境，完成更多复杂任务，是无人机视觉领域的重要研究内容。

目前，多目标跟踪算法在一般场景中具有较好的跟踪效果，但将其应用到复杂的无人机视频多目标跟踪中仍然存在很多挑战。由于无人机的内存和计算能力有限，算法部署环境具有多样性，基于传统机器学习和手工特征的目标检测和跟踪方法很容易出现漏检或精度不够理想的情况。近年来，基于深度学习的方法成为了无人机目标检测跟踪的研究热点，但由于深度学习的对象检测器需要高性能计算和大的运行内存来保持良好的检测跟踪性能，无人机实现多目标检测和跟踪，首先要解决的是如何部署合适的多目标检测算法。其次，在无人机视频中，由于跟踪画面较大，目标在场景中所占面积较小，且被跟踪目标运动速度很快，无人机实现对小目标和快速运动目标的有效跟踪依然困难。

针对以上无人机多目标跟踪的问题，Xue等人提出了一种融合特征相关滤波器，该滤波器可以直接与多矢量描述算子进行卷积，从而获得目标位置的单通道响应，减少遮挡或背景干扰，提高无人机目标跟踪的鲁棒性，但这种方法并不能从根本上改善模型漂移的问题。Nguyen等人从多目标跟踪的检测环节出发，使用Light Dense YOLO从输入图像中提取训练特征，通过无人机上的可见光摄像机传感器来预测标记的位置，进而实现目标跟踪，该方法提高了无人机对小目标的跟踪精度，但是对多目标的跟踪效果并不理想。Rosario等人提出了一种可用于双目视觉四旋翼的多目标检测跟踪方法，该算法有效降低了形变、遮挡等情况对跟踪性能的影响，但该方法跟踪准确度和成功率较低，满足不了无人机基本的跟踪需要。Zhang等人精简了YOLO v3算法的网络结构，提出了适应于无人机多目标检测的新方法，提高了多目标检测的精度和速度，但以此检测方法为基础的跟踪算法并未得到有效验证。

发明内容

本发明的目的在于提供一种面向无人机的改进YOLO与SIFT相结合的多小目标检测跟踪方法，该方法基于KLT跟踪算法，通过对YOLO网络剪枝和SIFT特征点改进，有效解决了面向无人机的算法中特征点部署和多小目标检测跟踪问题。

为实现上述目的，本发明采用以下技术方案：

一种面向无人机的改进YOLO与SIFT相结合的多小目标检测跟踪方法，包括：

步骤1，读取视频序列帧数N_v和标注框真值BBox_v；

步骤2，使用自适应阈值和最小距离约束的方法改进SIFT算法进行特征点检测；

步骤3，根据改进SIFT算法检测得到的特征点，采用KLT算法对特征点进行匹配和目标区域定位；

步骤4，采用YOLO网络剪枝后的UAV-YOLO进行目标检测，其中YOLO网络的剪枝包括如下步骤：

(4.1)首先对YOLO网络进行基础训练和稀疏训练；

(4.2)在完成YOLO网络基础训练和稀疏训练后，对YOLO网络中的最大池化层、上采样层、卷积层、路由层和直连层进行信道修剪和网络微调整。

步骤5，根据目标的尺度信息和位置信息完成目标的数据关联，再使用KLT算法实现多目标跟踪。

本发明具有以下优点：

1.本发明通过自适应阈值和最小距离约束的方法优化了SIFT特征提取，提高了特征点的提取精度，实现了对小目标的有效检测；根据目标的尺度信息和位置信息，基于KLT跟踪算法，完成数据关联，满足了无人机对快速运动目标的跟踪需要，提高了跟踪的成功率和精度，实现了实时的目标跟踪。

2.本发明考虑面向无人机的目标检测和跟踪需要，将YOLO网络进行剪枝，压缩了该深度学习模型，通过对YOLO网络的基础训练和稀疏训练、信道修剪和网络调整，使得内存和计算能力有限的无人机能够部署目标检测算法，有效解决了多目标检测跟踪算法在无人机上的部署问题。

附图表说明

图1为本发明方法的流程图。

图2为本发明优化的SIFT特征提取方法与传统的SIFT特征提取方法对比。

图3为本发明中YOLO网络剪枝后的UAV-YOLO在COCO数据集上的评测结果。

图4为本发明方法在VisDrone2019 MOT基准数据集上的评测视频序列结果。

具体实施方式

结合所附图表，对本发明的技术方案作具体说明。

如图1所示，本发明的一种面向无人机的改进YOLO与SIFT相结合的多小目标检测跟踪方法，具体包括以下步骤：

步骤1读取视频序列帧数N_v和视频序列的标注框真值BBox_v，具体过程为：

(1.1)读取数据集视频序列，根据视频序列标签对图片进行计数为N_v。

(1.2)读取视频序列的标注框文件，得到标注框真值BBox_v。

步骤2使用自适应阈值和最小距离约束的方法改进SIFT算法进行特征点检测，具体过程为：

(2.1)设D₀为图像中心自适应阈值，λ₀为图像边缘自适应阈值，使用这两个自适应阈值改进SIFT算法进行特征点检测，步骤如下：

(2.1.1)利用不同尺度的高斯差分核与图像卷积生成高斯差分尺度空间(DOGscale-space)函数D(x，y，σ)，表示如下：

式中，

为高斯尺度空间，I(x，y)代表图像，k为比例系数，G(x，y，σ)为尺度可变高斯函数，其表达式为：

将高斯差分尺度空间函数D(x，y，σ)在零点处进行二阶泰勒展开，表示为：

(2.1.2)根据图像样本点，得到图像中心自适应阈值D₀和图像边缘自适应阈值λ₀，步骤如下：

(a)令X＝(x，y，σ)^T为样本点偏移量，取X₀＝(0，0，0)^T，则公式(3)可化简为：

对式(4)求导并令为0，求得函数极值D(X)。

(b)对所有图像中心的特征点，图像中心自适应阈值D₀表示为：

式中，k₁为比例系数，N为待检测图像中SIFT特征点数量，D(X_i)为高斯差分图像中的极值点。

(c)给定2×2的Hessian矩阵H为：

假设α为H矩阵较大的特征值，β为H矩阵较小的特征值，设α与β的比值为λ，则有：

(d)对所有图像边缘的特征点，图像边缘自适应阈值λ₀表示为：

式中，k₂为比例系数，Tr为矩阵H的迹，Det为矩阵H的行列式。

(2.1.3)使用自适应阈值的方法进行特征点检测，具体为：

利用图像中心自适应阈值D₀，来过滤掉|D(X)|＜D₀的图像中心低对比度特征点；利用图像边缘自适应阈值λ₀，当

时，认为该特征点位于边缘而被过滤掉。

(2.2)使用最小距离约束的方法改进SIFT算法进行特征点检测，具体为：

(2.2.1)根据步骤(2.1)的自适应阈值方法得到改进SIFT算法特征点，读取所有特征点的像素位置信息，将所有特征点像素之间的最小距离表示为d_min。

(2.2.2)使用最小距离约束的方法进行特征点检测，原则为：若两个特征点之间距离小于d_min，则去掉其中相对小的特征点。当待处理的目标图像很大，则可将d_min设置大些，以提高特征提取速度，满足跟踪速度的要求；当待处理的目标图像很小，则可将d_min设置小些，以保证在很小的目标上仍然有可靠的特征点。

上述这种通过选取的最小距离d_min过滤掉相对较小的特征点，有效减小了特征点匹配的时间。

步骤3根据改进SIFT算法检测得到的特征点，采用KLT算法对特征点进行匹配和目标区域定位，具体过程为：

(3.1)假设包含特征纹理信息的特征窗口为W，t时刻对应的图像表示为I(x，y，t)，t+τ时刻对应的图像I(x，y，t+τ)表示为：

I(x，y，t+τ)＝I(x-Δx，y-Δy) (9)

式中，(x，y)为特征点，运动量d＝(Δx，Δy)为点X(x，y)的偏移。

对于给定两幅图像I和J，将灰度差平方和用ε表示，定义ε为：

式中，W为给定的特征窗口，w(X)为加权函数。

令w(X)＝1，将J(X+d)进行泰勒展开，去掉高次项，只保留前两项。然后根据公式(10)对d求导，最终化简得到：

Zd＝ε (11)

其中，

对每个点利用公式(11)进行牛顿迭代，直到满足一定精度，就可实现图像特征点的最优匹配，找到可靠的特征点的位置信息。

(3.2)假设整幅图像高度为H，宽度为W，目标区域宽度和高度为w和h，其中，w和h具体计算公式为：

式中，(min(x₁，x₂，...，x_Num)，min(y₁，y₂，...，y_Num))为标注框的左上角坐标，(max(x₁，x₂，...，x_Num)，max(y₁，y₂，...，y_Num))为标注框的右下角坐标，(x_i，y_i)为第i个特征点的坐标，x_i∈[0，W-1]，y_i∈[0，H-1]，i＝(1，2，...，Num)，Num表示特征点的个数。

由于特征点分布在目标及边缘上，因此根据上述方法可确定出目标的位置并能充分反映出目标的实际大小，实现目标区域定位。

步骤4使用YOLO网络修剪后的UAV-YOLO进行目标检测。

YOLO网络的剪枝包括如下(4.1)和(4.2)两个步骤，具体过程为：

(4.1)对YOLO网络进行基础训练和稀疏训练，具体为：

(4.1.1)基础训练是指，采用YOLO网络权重文件进行预训练。在训练的过程中，参考目标检测指标和损失函数，当验证集的损失函数值出现上升时，停止基础训练，防止了训练的过拟合。

(4.1.2)对于稀疏训练，首先对YOLO网络中的BN层进行描述，假设每批次描述的特征用y表示为：

式中，γ为训练的缩放比例因子，x为数据集训练时每批次描述特征，

和σ²为数据集训练时每批次描述特征的均值和方差，ε为数据集训练时每批次描述特征之间的误差，β为训练的误差因子。

其次在BN层描述的基础上，对训练的缩放比例因子γ施加L1正则化来进行信道稀疏性训练，训练的损失函数表示如下：

式中，loss_YOLO表示YOLO网络的初始损失函数，f(γ)＝|γ|表示L1范数，Γ为缩放比例因子γ的约束条件，a表示惩罚因子，用来平衡YOLO网络的初始损失函数项和训练的缩放比例因子γ项，在原损失函数的基础上，实现了对信道重要性的衡量。

(4.2)在稀疏训练后，对YOLO网络中的卷积层、最大池化层、上采样层、路由层和直连层进行信道修剪和网络微调整，具体为：

针对不同网络层的不同特性，执行如下不同操作实现网络信道的修剪。

(4.2.1)对于卷积层，在信道修剪过程中，为防止过度修剪可能导致的网络退化或模型无法恢复，引入全局阈值λ和局部安全阈值θ来确定是否要修剪信道。根据全局安全阈值λ和局部安全阈值θ为所有的卷积层构造一个剪枝掩模，其中，全局阈值λ设为所有卷积层|γ|的n个百分比，将所有|γ|按照全局大小进行排序，把低于n个百分比的信道进行修剪，以控制全局的修剪率。局部安全阈值θ则以分层方式设置为特定卷积层中|γ|的k个百分比，以防止单个卷积层上的过度剪枝，保证网络连接的完整性。

(4.2.2)对于最大池化层和上采样层，它们与信道信号无关，直接裁剪掉了这两个网络层。

(4.2.3)对于路由层选择保留，利用它将卷积层得到的剪枝掩模连接起来。

(4.2.4)对于直连层，由于所有与直连层有连接的网络层必须具有相同的信道号，因此，遍历所有直连层的剪枝掩模，并对这些剪枝掩模执行或操作，生成这些连接层的最终剪枝掩模。

(4.2.5)在信道修剪完成之后，对修剪后的模型执行网络微调操作。在网络微调过程中，使用与YOLO基础训练相同的训练参数直接重新训练UAV-YOLO，以补偿潜在的临时退化。

(4.3)将待检测的目标图像作为UAV-YOLO输入进行目标检测，得到检测集中预测结果(x，y，w，h)的索引标志，其中(x，y)表示以图片左上角为原点的目标检测中心点坐标，w和h为目标检测框的宽和高。

步骤5根据目标的尺度信息和位置信息完成目标的数据关联，再使用KLT算法实现多目标跟踪，具体过程为：

(5.1)首先在目标跟踪过程中得到目标的尺度信息和位置信息。

(5.1.1)假设全局目标尺度信息s_n满足对数正态分布：

式中，μ_p和δ_p ²分别代表全局目标尺度信息s_n的平均值和方差。

将全局目标尺度信息s_n作为先验知识，通过下式预测轨迹中目标尺度信息：

式中，δ_t为检测的帧之间的时差，σ_j ²表示不同轨迹尺度信息的方差，c_j用来区分轨迹的类型，以便于分类。

(5.1.2)假设目标和周围环境都均匀分布在图像中，此时图像区域b上的位置信息x_n的概率密度p(x_n)可表示为：

式中，s_k为被跟踪对象的平均像素大小。

对被跟踪目标建立恒速的运动模型，可表示为：

式中，x_p为根据v_p得到的位置信息，x_n-1为第x_n-1帧目标的预测位置，p为前后帧的时间内累积的位置误差，δ_t为前后帧的时间差，v_p为检测前后帧中KLT跟踪结果，∑v表示被跟踪目标由未知加速度引起的速度变化，包括运动速度和运动方向的变化。

当被跟踪目标作长时间运动时，使用卡尔曼滤波器来估计目标位置上的可能情况，对于每一步KLT运动估计值y，将其考虑到运动模型中，得到目标位置信息x_n为：

式中，I为单位阵，∑klt表示KLT特征跟踪速度累积的随机误差。

(5.2)对于上述得到的跟踪目标的尺度信息s_n和位置信息x_n，采用基于MDL原理的方法找到假设数据集H_i和检测数据集D的最优表示关系。

(5.2.1)由目标尺度信息和位置信息关联到给定精度所需的关联系数L取决于相应的似然函数L(D|H)，似然函数满足：

L(D|H)+L(H)＝-log(p(D|H_i)p(H_i)) (20)

(5.2.2)考虑假设数据集H_i的编码，它要求每个被检测到的目标被分配到一个轨迹，并且每个轨迹被赋予一个类型标签。在多目标跟踪中，如果被跟踪到的目标长度就等于轨迹中的长度，则优先进行关联，此时假设数据集H_i的概率表示为：

式中，c_j为轨迹的类型，p(c_j)为不同轨迹的优先级，|D|表示检测数据集D的基数大小，T_j表示假设数据集H_i中的子集。

在数据关联的过程中，被分解的不同轨迹一定可以进行关联。似然函数L(D|H)分解表示为每一条轨迹的分量，设d_n ^j为轨迹T_j中的第n个检测，其中索引n仅指示轨迹内的顺序，则在假设数据集H_i下，将检测得到的概率表示为：

(5.2.3)对于每一个目标检测的结果，将单个检测轨迹的似然函数用尺度信息s_n和位置信息x_n来表示，具体为：

p(d₁ ^j|c_j)＝p(s₁)p(x₁) (23)

将式(23)和式(24)带入式(22)得到：

由式(20)、式(21)和式(25)联立，可得到假设数据集H_i和检测数据集D的最优表示关系，完成数据关联。

(5.3)数据关联完成后，即可采用步骤3中KLT算法对特征点进行匹配和目标定位，实现多目标跟踪。

为了验证方法的可行性和有效性，下面结合实例对本发明做进一步详细的描述。

为了有效地评估本发明方法的性能，实验中的对比方法均来自相应作者的公开代码。所有实验都在Inter(R)Core(TM)i5-2450MCPU@2.50GHZ、4GB内存、NVIDIA GeForce GTX1660Ti台式机上进行，通过Matlab2018a、VisualStudio2015、PyTorch深度学习框架实现。

表1为本发明中一种面向无人机的改进YOLO与SIFT相结合的多小目标检测跟踪方法中算法的仿真相关初始化参数。

表1算法相关初始化参数

图2为本发明优化的SIFT特征提取方法与传统的SIFT特征提取方法对比。其中图2(a)和图2(b)为采用不同固定阈值方式得到的SIFT特征检测效果，这两组实验阈值分别是D₀＝0.02，λ₀＝8；D₀＝0.04，λ₀＝10。可以看出固定阈值法具有明显的局限性，其中，图2(a)的特征点检测过于密集，无法精确确定目标，图2(b)的特征点检测相比较于图2(a)又稀疏了太多，部分检测的小目标特征点不足。因此，阈值的选取对角点检测的结果有着很大的影响，一旦阈值设置不合理，容易导致提取特征点过于密集或者分布不均匀。图2(c)为采用自适应阈值法提取的特征点的实验结果，可以看出，和固定阈值相比，由于自适应阈值法从整体上考虑了特征点的对比度和主曲率变化情况，得到适应目标变化的阈值，特征点分布相对均匀。另外，由图2(c)也可以看出，在一些小区域中出现了特征点聚集的现象。图2(d)为通过本发明提出的最小距离约束的方法得到的特征点检测效果，可以看出，特征点聚集现象得到了明显地改善。

图3为本发明YOLO网络剪枝后的UAV-YOLO在COCO数据集上的评测结果。由图中可以看出，本发明的UAV-YOLO与YOLO相比，UAV-YOLO在40.1ms的检测时间可完全满足无人机目标跟踪的需要，UAV-YOLO在保持检测精度仅下降3.9mAP的条件下，BFLOPs下降了84.85％，检测运行时间下降了35.84％，UAV-YOLO更易于无人机部署实现；UAV-YOLO与YOLOtiny相比，在计算速度满足实时性要求的前提下，精度mAP提高了49.07％。这说明经过网络剪枝的本发明的UAV-YOLO能很好地平衡跟踪精度和检测速度，可满足无人机多目标检测跟踪的应用要求。

图4为本发明方法在VisDrone2019 MOT基准数据集上的评测视频序列结果。VisDrone20110 MOT基准数据集共有16个视频序列，其中三个常见场景的无人机视频序列多目标跟踪测试结果如图4所示，其中图4(a)为夜间街市的场景，图4(b)和图4(c)为路口及街道的场景，跟踪目标有行人、自行车、汽车、公交车和三轮车等多种类型的场景。从图4(a)中可以看到，对于视频序列近处的跟踪目标，即使在光线不好的情况下，本发明跟踪效果较好。同时，在图4(b)和图4(c)中，对于常见路口的远处小目标和快速运动目标，本发明依然可以准确定位目标并进行跟踪，满足无人机的多目标跟踪需要。综上，本发明算法满足了无人机视角下的多小目标跟踪的要求。