CN114820702A

CN114820702A - 一种基于yolov5的Deepsort无人机视角行人多目标跟踪方法

Info

Publication number: CN114820702A
Application number: CN202210388211.1A
Authority: CN
Inventors: 卢湖川; 刘长青
Original assignee: Dalian Weishi Technology Co ltd; Dalian University of Technology
Current assignee: Dalian Weishi Technology Co ltd; Dalian University of Technology
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-07-29

Abstract

本发明属于机器学习、目标检测、目标跟踪领域，提供了一种基于yolov5的Deepsort无人机视角行人多目标跟踪方法。本发明的目标检测器使用轻量化yolov5检测器，对参数进行int8量化后，在保持较高精度的同时，降低模型的内存大小，提升检测速度。对检测网络部署在AI边缘设备的可行性大大提升。本发明采用DeepSort多目标跟踪跟踪算法，利用卡尔曼滤波、匈牙利算法来解决当前帧检测框与轨迹的关联问题，提高了数据关联的准确性，有效的降低了同类干扰物在跟踪过程中的影响。

Description

一种基于yolov5的Deepsort无人机视角行人多目标跟踪方法

技术领域

本发明属于机器学习、目标检测、目标跟踪领域，涉及轻量化目标检测器yolov5、多目标跟踪算法deepsort、卡尔曼滤波算法以及匈牙利算法。

背景技术

在目标跟踪领域中，视频的处理主要有摄像机视频捕获,视频图像帧的预处理,运动中目标的监测，运动目标的跟踪，运动目标的分类和目标行为描述与理解等步骤。其中，运动目标检测与跟踪是核心内容，主要对运动目标在复杂环境下进行持续的跟踪并以此为基础进行进一步的目标分析。

目标检测(object detection)在计算机视觉中处于核心的地位，伴随中卷积神经网络的发展，目标检测算法取得了极大的成就，Ross Girshick于2014提出的RCNN开辟了two-stage算法的先河，并在该算法的基础上不断完善，提出了fast-RCNN、faster-RCNN。与此同时，one-stage系列的算法也在近几年取得了飞速的发展，代表算法有yolo系列、retinanet等。作为计算机视觉中的核心任务，目前提出的SOTA算法距离落地还有较远的距离，但相比之前的传统算法已经取得了巨大的提升，在发展的过程中，这些算法所提及的一些idea、技巧也陆续辐射到计算机视觉的其他分支并对其产生了巨大影响，目标跟踪便是其中的一支。

目标跟踪(object tracking)是计算机视觉任务的一个分支，对图像序列中的运动目标进行检测、提取、识别和跟踪，获得运动目标的运动参数，如位置、速度、加速度和运动轨迹等，从而进行下一步的处理与分析，实现对运动目标的行为理解，以完成更高一级的检测任务。它和目标检测所要完成的任务有很多相似之处，但也有着很大的区别：

1、两者都要在图像中识别目标，并标注出边界框，但跟踪是以视频流为基础的，跟踪可以看成是一系列的检测；

2、目标检测要对检测目标进行分类，并且检测的目标类别已知；目标跟踪所识别的目标由视频的第一帧获取，并在后续视频流中识别持续跟踪第一帧标注的目标，跟踪器所跟踪的目标种类并未预先定义，可以是任何物体；

3、两者的算法均需要同时考虑速度与精度。

发明内容

本发明旨在提供一种基于轻量化yolov5检测器的DeepSort行人检测跟踪方法，解决现有多目标跟踪算法受到AI边缘运行设备内存容量限制的问题，同时对多目标跟踪过程中的相似目标干扰、ID交换等问题进行一定程度的解决。

本发明所述方法可部署在无人机相关边缘设备充当视觉模块进行行人多目标检测。

本发明的技术方案为：

一种基于yolov5的Deepsort无人机视角行人多目标跟踪方法，步骤如下：

步骤1：借助无人机上的摄像机获得检测区域的连续视频帧；

步骤2：输入连续视频流，通过轻量化的yolov5检测算法获取当前帧的行人目标检测框；具体为：

所述yolov5目标检测算法由特征提取网络和预测网络构成。特征提取网络的基础模块主要参考CSPNet，CPS模块进行堆叠加深网络深度，使用步长为2的卷积层进行下采样，构建起8倍、16倍、32倍下采样的特征金字塔。对特征金字塔的特征，使用FPN与PAN结构进行进一步融合，获得具有深层语义与浅层位置信息的特征。基于融合后的特征，使用预测网络预测置信分数与锚点框回归系数，从而得到当前帧行人目标检测框。

采用模型参数量化方法将yolov5检测器中的参数从float32转化为int8，从而压缩模型参数所占内存大小，达到模型加速与轻量化的目的。

轻量化yolov5检测算法处理视频帧获取目标检测框主要包括以下步骤：

(1)前处理：将输入图像进行补边、裁剪、缩放，使图片尺寸与网络输入尺寸相同。

(2)网络前向推理得到先验锚点的置信分数与回归系数。

(3)后处理：在步骤(2)中得到的所有目标检测框中，删除置信度低于0.3的检测框，并采用非最大值抑制方法删除冗余的检测框，将筛选后的锚点框通过预测回归系数进行解码得到当前帧中的最终目标检测框。

步骤3：对(2)中得到的检测框使用特征提取网络进行特征提取，得到每个行人检测框的256维特征向量。

步骤4：基于视频当前帧的目标检测框采用deepsort多目标跟踪算法，具体为：

(1)将第一帧次检测到的行人检测框并创建其对应的轨迹。将卡尔曼滤波的运动变量初始化，这时候的轨迹是不确认状态的。

用一个8维空间表示轨迹在某时刻的状态：

(u,v,γ,h,x,y,a,b)

其中(u,v)是bounding box的中心坐标，r是长宽比，h表示高度。其余四个变量表示对应的在图像坐标系中的速度信息。

(2)使用卡尔曼滤波算法，对上一帧中的轨迹在当前帧的位置进行预测，得到当前帧的预测框

(3)将当前帧目标检测的检测框和(2)中确认态轨迹的预测框进行级联匹配，使用匈牙利算法进行线性分配。匹配到的轨迹，根据当前帧的检测框对轨迹的状态进行更新。未匹配的检测框则与上一帧通过未确认态轨迹的预测框以及级联匹配未匹配轨迹的预测框进行IOU匹配，未匹配的检测框创建相应的新轨迹，并初始化相应状态以及未确认态；未匹配的轨迹根据其年龄更新内部状态；匹配到的轨迹根据检测框更新其的状态。

Deep sort使用检测框与跟踪器预测框之间的马氏距离来描述运动关联程度。

其中，d_j表示第j个检测框的位置，y_i表示第i个跟踪器对目标的预测位置，S_i表示检测位置与平均跟踪位置之间的协方差矩阵。并对马氏距离进行阈值化处理：

目标外观关联方式为计算第i个跟踪器的最近100个成功关联的特征集与当前帧第j个检测结果的特征向量间的最小余弦距离。

其中，r_j表示第j个检测框提取出的特征向量，

表示第i个轨迹的最近100个成功关联的特征集中的第k个。并通过以从逆χ²分布计算得来的95％置信区间对最小余弦距离进行阈值化处理。

使用两种度量方式的线性加权作为最终的度量：

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j)

(4)在(3)中未匹配的检测框则与(2)中未确认态轨迹的预测框以及级联匹配未匹配轨迹的预测框进行IOU匹配，使用匈牙利算法进行线性分配。未匹配的检测框创建相应的新轨迹，并初始化相应状态以及未确认态；未匹配的轨迹根据其年龄更新内部状态；匹配到的轨迹根据检测框更新其的状态。

(5)根据视频总帧数N，重复上述(2)-(4)，直到获得第N帧下的行人目标跟踪框。

步骤5：根据多目标跟踪算法得到的多个行人轨迹的位置信息，指定相应的飞行策略，将坐标信息传送给无人机的飞行控制端，控制无人机对目标进行飞行跟踪。

本发明的有益效果：

(1)目标检测器使用轻量化yolov5检测器，对参数进行int8量化后，在保持高精度的同时，降低模型的内存大小，提升检测速度。对检测网络部署在AI边缘设备的可行性大大提升。

(2)采用DeepSort多目标跟踪跟踪算法，利用卡尔曼滤波、匈牙利算法来解决当前帧检测框与轨迹的关联问题，提高了数据关联的准确性，有效的降低了同类干扰物在跟踪过程中的影响。

附图说明

图1为yolov5检测器结构示意图。

图2为deepsort多目标跟踪算法流程图。

具体实施方式

下面结合附图和技术方案，进一步说明本发明的具体实施方式。

图1为yolov5检测器结构示意图，网络的基础卷积模块为CBS，由卷积层、BN层、SiLu激活函数组成；基础残差单元ResUnit由两个CBS模块和残差结构组成；基础残差模块C3由ResUnit单元重复构成。网络输入通过步长为2的CBS模块进行特征下采样，最终得到32倍下采样特征图。32倍下采样特征图经过SPPF模块进行进一步特征融合。骨干网络得到的特征金字塔经过FPN与PAN网络结构将浅层位置信息与深层语义信息进行进一步融合，然后经过检测头，得到输入图片锚点框的预测置信得分与回归系数。

图2为deepsort多目标跟踪算法流程图。将当前帧目标检测的检测框和上一帧中确认态轨迹的预测框进行级联匹配，使用匈牙利算法进行线性分配。匹配到的轨迹，根据当前帧的检测框对轨迹的状态进行更新。未匹配的检测框则与上一帧通过未确认态轨迹的预测框以及级联匹配未匹配轨迹的预测框进行IOU匹配，未匹配的检测框创建相应的新轨迹，并初始化相应状态以及未确认态；未匹配的轨迹根据其年龄更新内部状态；匹配到的轨迹根据检测框更新其的状态。

未匹配的检测框则与上一帧中未确认态轨迹的预测框以及级联匹配未匹配轨迹的预测框进行IOU匹配，使用匈牙利算法进行线性分配。未匹配的检测框创建相应的新轨迹，并初始化相应状态以及未确认态；未匹配的轨迹根据其年龄更新内部状态；匹配到的轨迹根据检测框更新其的状态。

Yolov5网络的训练集由MOT训练集、COCO数据集中的行人数据集、UAV行人数据集构成，数据集使用mosaic数据扩充方式进行数据增广。优化方式选择Adam优化方式，初始学习率设置为0.001，训练300个epoch，训练过程学习率逐渐衰减。

推理过程网络输入图片尺寸大小为416×416，置信度得分阈值为0.3，非极大抑制的阈值设置为0.4。

特征提取网络结构如下：

Claims

1.一种基于yolov5的Deepsort无人机视角行人多目标跟踪方法，其特征在于，步骤如下：

步骤1：借助无人机上的摄像机获得检测区域的连续视频帧；

步骤2：输入连续视频流，通过轻量化的yolov5目标检测算法获取当前帧的行人目标检测框；

yolov5目标检测网络主要由特征提取网络和预测网络构成；特征提取网络使用步长为2的卷积模块得到2倍下采样特征，连续使用步长为2的卷积模块和残差模块得到4倍下采样特征、8倍下采样特征、16倍下采样特征，最后使用步长为2的卷积模块、残差模块、池化模块得到32倍下采样特征；使用8倍、16倍、32倍下采样特征构建特征金字塔；

预测网络对32倍下采样特征进行上采样得到16倍下采样特征，与特征金字塔的16倍下采样特征进行拼接，经过残差模块、卷积模块、上采样后，得到8倍下采样特征，与特征金字塔的8倍下采样进行拼接，再经过残差模块、卷积层、检测头部得到8倍下采样的置信分数与回归系数；将8倍下采样拼接后的残差模块的输出经过步长为2的卷积模块与16倍下采样的特征进行拼接，再经过残差模块、卷积层、检测头部得到16倍下采样的置信分数与回归系数；将16倍下采样拼接后的残差模块的输出经过步长为2的卷积模块与32倍下采样特征进行拼接，再次经过残差模块、卷积层、检测头部得到32倍下采样的置信分数与回归系数；

轻量化的yolov5目标检测算法处理视频帧获取行人目标检测框包括以下步骤：

(2.1)前处理：将输入图像进行补边、裁剪、缩放，使图像尺寸与网络输入尺寸相同；

(2.2)特征提取网络、预测前向推理得到先验锚点的置信分数与回归系数，将回归系数进行解码，得到行人目标检测框；

(2.3)后处理：在步骤(2.2)中得到的所有行人目标检测框中，删除置信分数低于0.3的检测框，并采用非最大值抑制方法删除冗余的检测框，筛选后的检测框即为最终的目标检测框；

步骤3：对步骤2中得到的最终目标检测框使用特征提取网络进行特征提取，得到每个行人检测框的256维特征向量；

(4.1)第一帧检测到的行人检测框并创建其对应的轨迹，并将轨迹状态设置为未确认态轨迹，匹配次数为1，将卡尔曼滤波的运动变量初始化，用一个8维空间表示轨迹在某时刻的状态：

(u,v,γ,h,x,y,a,b)

其中，(u,v)是bounding box的中心坐标，r是长宽比，h表示高度；其余四个变量表示对应的在图像坐标系中的速度信息；

(4.2)使用卡尔曼滤波算法，对上一帧中的轨迹在当前帧的位置进行预测，得到当前帧的轨迹；其中，匹配次数达到3次以上的轨迹为确认态轨迹，小于3次的轨迹为未确认态轨迹；

(4.3)将当前帧目标检测的检测框和步骤(4.2)中确认态轨迹使用匈牙利算法进行级联匹配；匹配到的轨迹，根据当前帧的检测框对轨迹状态进行更新，匹配次数加1；未匹配的检测框则与步骤(4.2)未确认态轨迹、级联匹配中的未匹配轨迹进行IOU匹配，未匹配的检测框创建相应的新轨迹，初始化相应状态并设置为未确认态；未匹配的轨迹根据其年龄更新内部状态；匹配到的轨迹根据检测框更新其的状态；

Deep sort使用检测框与跟踪器轨迹之间的马氏距离来描述运动关联程度；

其中，d_j表示第j个检测框的位置，y_i表示轨迹对目标的第i个预测位置，S_i表示检测位置与轨迹位置之间的协方差矩阵；并对马氏距离进行阈值化处理：

目标外观关联方式为计算第i个轨迹的最近100个成功关联的特征集与当前帧第j个检测结果的特征向量间的最小余弦距离；

其中，r_j表示第j个检测框提取出的特征向量，

表示第i个轨迹的最近100个成功关联的特征集中的第k个；并通过以从逆χ²分布计算得来的95％置信区间对最小余弦距离进行阈值化处理；

使用两种度量方式的线性加权作为最终的度量：

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j)

(4.4)根据视频总帧数N，重复上述步骤(4.2)-(4.3)，直到获得第N帧下的行人目标轨迹；