CN112836640B

CN112836640B - 一种单摄像头多目标行人跟踪方法

Info

Publication number: CN112836640B
Application number: CN202110152400.4A
Authority: CN
Inventors: 张江鑫; 徐加斌; 郑天悦; 沈科纳
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2024-04-19
Anticipated expiration: 2041-02-04
Also published as: CN112836640A

Abstract

一种单摄像头多目标行人跟踪方法，首先利用安装于监控区域的摄像头采集行人视频图像，然后对采集到的图像大小进行相应的调整，然后将调整后的图像输入到经训练的改进后的YoloV4‑Tiny行人检测网络中，采用分箱法去除检测结果中的异常行人检测框，然后将筛选后的检测结果输入到DeepSort算法中进行行人的跟踪并记录跟踪信息，最后采用基于行人未匹配帧数和预测位置的矫正算法矫正异常消失的行人目标。本发明基于改进后的YoloV4‑Tiny、分箱法、改进后的DeepSort及行人未匹配帧数和预测位置的矫正方法，实现基本达到适用于现实场景所需的较高性能，具有多目标同时定位、定位准确、实时性强及稳定性高的优点。

Description

一种单摄像头多目标行人跟踪方法

技术领域

本发明涉及计算机视觉领域，具体是一种基于改进后的YoloV4-Tiny、分箱法、改进后的DeepSort及基于行人未匹配帧数和预测位置的矫正算法的单摄像头多目标行人跟踪方法。

背景技术

计算机视觉是指用摄像机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理以获得需要的结果。近年来，随着计算机视觉技术的不断发展，计算机视觉已经是各个应用领域，如制造业、智能监控、虚拟现实、医院诊断和军事等领域中各种智能系统中不可分割的一部分。

行人跟踪作为当前计算机视觉中非刚性运动目标跟踪领域的热点问题,其目的是持续稳定地跟踪视频中的行人。然而，行人跟踪算法面临诸多挑战，如行人目标视点变化、目标尺度变换、目标遮挡、目标姿态多样化及光照条件突变等等，这些难点制约着行人跟踪技术的发展。

单摄像头多目标行人跟踪作为行人跟踪技术的一种具体形式，有着巨大的现实意义。例如，在医院，外科医生在手术前需要对手部进行严格的清洗，而现阶段监督这项工作主要还是靠人眼来判断并追责，通过单摄像头多目标的行人跟踪可以代替人眼锁定监控区域所有目标从而大大解放人的工作量。然而大部分现实应用场景下的行人跟踪需要达到高稳定性、高准确率以及高实时性的水平，因此如何研究出一种高性能的跟踪算法成为当前最为迫切的问题。

发明内容

为了克服已有技术的不足，本发明提供了一种基于改进后的YoloV4-Tiny、分箱法、改进后的DeepSort及基于行人未匹配帧数和预测位置的矫正方法，实现基本达到适用于现实场景所需的较高性能，具有多目标同时定位、定位准确、实时性强及稳定性高的优点。

本发明解决其技术问题所采用的技术方案是：

一种单摄像头多目标行人跟踪方法，所述方法包括以下步骤：

S1，利用安装于监控区域的摄像头采集行人视频图像，采用双三次插值算法调整视频图像大小；

S2，将调整后的行人视频图像输入到经训练后的改进的YoloV4-Tiny行人检测网络，得到每一帧的行人检测结果；

S3，采用分箱法去除YoloV4-Tiny检测到的异常行人检测框；

S4，采用改进后的DeepSort算法对单摄像头下检测到的所有行人目标的跟踪，并记录行人入场、出场时间以及轨迹；

S5，采用基于行人未匹配帧数和预测位置的矫正算法，矫正异常消失的行人目标。

进一步，所述步骤S1的过程为：

将摄像头固定安装于监控区域，确保能够完整拍摄到行人正常活动的区域，同时尽可能避免重叠视角；

根据计算机硬件情况及检测帧率的要求，将摄像头的拍摄帧率进行调整；

对摄像头拍摄到的视频图像采用双三次插值算法调整到416*416大小。

再进一步，所述步骤S2的过程为：

截取VOC2007中包含行人部分的数据集，并去除图片中非行人部分的标注框得到用于训练的数据集；

采用FCM算法对数据集进行候选框聚类，并将得到的6个候选框输入YoloV4-Tiny网络中用于检测模型的训练；

将YoloV4-Tiny中的轻量级激活函数由LeakyReLU改进为无上界有下界、平滑、非单调的hard-swish激活函数，以及将特征融合模块由FPN改进为自适应的ASFF模块；

采用Mosaic算法对数据集进行数据扩展，然后将扩展后的数据集放入YoloV4-Tiny网络中，并采用模拟余弦退火算法控制学习率进行训练，得到训练好的检测模型；

利用训练好的检测模型对处理后的视频图像中的所有行人目标进行检测。

更进一步，所述步骤S3的过程为：

将检测到的视频图像中的所有行人目标按其在图片上的位置等间距划分为3*3共9类，每类记录1000个行人目标检测框；

采用分箱法分别对每类检测框进行计算，得到各类检测框宽高的最大阈值和最小阈值；

去除检测到的行人检测框宽或高大于对应最大阈值或小于对应最小阈值的部分。

所述步骤S4的过程为：

使用卡尔曼滤波器对YoloV4-Tiny模型获取到的当前帧检测结果进行预测，得到下一帧的人物运动信息，并利用训练好的深度特征网络计算当前帧中所有人物的128维深度特征信息；

将DeepSort算法中计算深度特征余弦距离的算法由求当前检测框中人物的128维深度特征信息与跟踪器库中人物的128维深度特征信息之间的最小余弦距离改进为求检测框中人物的128维深度特征信息与跟踪器库中最近添加的人物的128维深度特征信息的余弦距离与最小余弦距离之间的平均值；

利用基于外观信息的马氏距离计算所有跟踪器和检测结果之间的代价矩阵，然后相继进行级联匹配和IOU匹配，最后得到当前帧的所有匹配对、未匹配的跟踪器以及未匹配的检测结果；

记录每个匹配成功的跟踪器的轨迹，用其对应的检测结果更新卡尔曼滤波器，当跟踪器匹配成功次数等于3时，记录该跟踪器所代表的行人编号以及此刻时间。并处理未匹配的跟踪器和检测结果，当跟踪器未匹配次数大于20时，记录该跟踪器所代表的行人编号以及此刻时间。

所述步骤S5的过程为：

记录未成功匹配达到10帧的跟踪器T_miss及其预测的行人位置和代表的行人编号/>同时记录当前帧中小于5帧未成功匹配的跟踪器且该跟踪器预测的位置与/>之间的欧式距离大于所设阈值，记为/>

当所记录的T_miss未成功匹配帧数达到20时，开始计算后续帧中满足未成功匹配帧数小于3且代表的行人编号不在中的跟踪器所预测的位置与/>之间的欧式距离；

若计算得到的欧式距离小于阈值且该跟踪器所代表的行人编号不在中，则将该跟踪器编号替换为已经确定消失的跟踪器T_miss所代表的行人编号/>反之则将T_miss未成功匹配次数加1，当未成功匹配次数达到35时，不再对该跟踪器T_miss进行匹配。

本发明的有益效果主要表现在：通过在YoloV4-Tiny特征融合网络部分加入自适应的ASFF模块，解决FPN多层间不同特征尺度之间的不一致性问题，更好地融合不同尺度的特征；将激活函数由Leakyrule改进为无上界有下界、平滑、非单调的hard-swish激活函数，以提高模型精度；采用FCM算法聚类，从而得到类内距离更小、类间距离更大的候选框；进一步，采用分箱法去除异常行人检测框，从而提高输入DeepSort中数据的准确性；改进DeepSort中深度特征余弦距离的计算方法，从而提高获得的深度特征距离的准确性；采用基于行人未匹配帧数和预测位置的矫正算法矫正异常消失的行人目标，使得行人跟踪具有更高的准确率以及稳定性。

附图说明

图1为本发明所采用的单摄像头多目标行人跟踪方法的整体结构示意图。

图2为本发明所采用的改进后的YoloV4-Tiny行人检测网络训练的流程示意图。

图3为本发明所采用的hard-swish激活函数的曲线图。

图4为本发明所采用的ASFF向上融合部分的网络结构图。

图5为本发明所采用的ASFF向下融合部分的网络结构图。

图6为本发明所采用的分箱法异常数据检测的原理示意图。

图7为本发明所采用的跟踪结果矫正的流程示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图7，一种单摄像头多目标行人跟踪方法，首先利用安装于监控区域的摄像头采集行人视频图像，然后对采集到的图像大小进行相应的调整，然后将调整后的图像输入到经训练的改进后的YoloV4-Tiny行人检测网络中，采用分箱法去除检测结果中的异常行人检测框，然后将筛选后的检测结果输入到DeepSort算法中进行行人的跟踪并记录跟踪信息，最后采用基于行人未匹配帧数和预测位置的矫正算法矫正异常消失的行人目标。

本实施例的单摄像头多目标行人跟踪方法，包括以下步骤：

S3，采用分箱法去除YoloV4-Tiny检测到的异常行人检测框；

本申请实施例中，所述步骤S1中，根据所述利用安装于监控区域的摄像头采集行人视频图像，采用双三次插值算法调整视频图像大小，过程为：

将摄像头固定安装于监控区域，确保能够完整拍摄到行人正常活动的区域，同时尽可能避免重叠视角。

根据计算机硬件情况及检测帧率的要求，将摄像头的拍摄帧率进行适当调整。

对摄像头拍摄到的视频图像采用双三次插值算法调整到416*416大小，双三次插值算法流程如下：

构造BiCubic函数，如式(1)所示：

其中x表示像素点坐标，a取-0.5。

对待插值的像素点，取其附近的4*4邻域点，按式(2)进行插值计算。

其中x、y分别表示待插值像素点的横轴纵坐标，i、j分别表示邻域点距待插值像素点的横轴间隔像素点，w表示BiCubic函数。

本申请实施例中，所述步骤S2中，根据所述将调整后的行人视频图像输入到经训练后的改进的YoloV4-Tiny行人检测网络，得到每一帧的行人检测结果，过程为：

根据VOC2007的xml文件中所标注的类别信息，筛选其中包含行人部分的数据集，并利用labelImg标签制作工具去除筛选得到的图片中非行人部分的标注框得到用于训练的数据集。

采用FCM算法对所有标签文件中的标注框大小进行聚类，得到6个用于YoloV4-Tiny网络检测行人的候选框，实现过程如下所述：

将所有标注框定义为x_j，所需聚类的6个聚类中心为c_i。FCM的目标函数如式(3)所示：

其中，指的就是隶属度值，即标注框x_j对类别c_i的隶属程度，所有标注框x_j对任一类别c_i的隶属度的和总等于1，如式(4)所示；/>表示元素x_j跟聚类中心c_i之间的距离，J表示各个标注框到各个类的加权距离的和,m表示模糊化程度的参数。

聚类要达到的最终效果就是类内相似度最小，类间相似度最大，这个时候点和中心的加权距离之和就是最小的，因此目标函数取最小值，所以最优解的的表达式如式(5)所示：

综合上述约束条件，最后构造拉格朗日函数求极小值，如式(6)所示：

其中F表示约束条件下各个标注框到各个类的加权距离的和，λ_j表示引入的拉格朗日超参数。

对上述拉格朗日函数求偏导，最后得到关于聚类中心位置c_i以及隶属度值u_ij的两个等式，分别如式(7)、式(8)所示：

利用式(7)、式(8)对所有标注框进行多次迭代，最后得到6个候选框。

将YoloV4-Tiny中的激活函数改进为hard-swish激活函数，该函数的曲线图如图3所示，其具体计算方式如式(9)所示。

其中y表示输出，x表示输入，RELU6表示将上限设置为6的RELU激活函数。

hard-swish激活函数相比YoloV4-Tiny采用的LeakyReLU激活函数具有更平滑的曲线，可以进一步的加速模型的训练以及防止模型在训练的过程中产生过拟合现象。

在YoloV4-Tiny特征融合网络部分加入自适应的ASFF模块，其具体网络结构如图4、图5所示，以此解决FPN多层间不同特征尺度之间的不一致性问题，更好地融合不同尺度的特征，其具体原理如式(10)所示：

其中i、j分别表示对应特征图上横纵坐标，l表示特征图的序号，x表示需要融合的特征图，y表示融合后的结果，α和β表示0-1的权重，两者的和为1。

通过对式(10)近似和偏导数的链式法则计算后可以得到训练过程中梯度下降式(11)：

如式(11)所示，ASFF在训练过程对参数进行梯度下降时，有参数α和β来控制下降的方向，以此解决在不同特征图相同位置上表示的样本极性不同而导致梯度下降出现干扰的情况。

采用Mosaic算法对数据集进行扩充，实现思路如下：

首先读取四张图片，接着分别对四张图片进行翻转、缩放、色域变化等，并且按照四个方向位置摆好，最后将处理后的图片和图片中包含的标注框进行组合，从而得到新的图片。

将FCM算法聚类得到的6个候选框以及Mosaic算法扩充后的数据集输入到YoloV4-Tiny网络中进行行人检测模型的训练，训练的Loss函数如式(12)所示。

其中，为预测框坐标误差，/>为预测框与标注框之间的IOU误差，/>为分类误差。

训练过程中采用模拟余弦退火算法对学习率进行动态控制，具体控制方法如式(13)所示：

其中，及/>表示第i次重启后的最小学习率和最大学习率，T_cur表示当前训练epoch中的iteration数，T_i表示第i个epoch中共含有的iteration数，n_t表示当前学习率大小。

利用上述学习率控制算法，首先冻结YoloV4-Tiny网络的前60层，在预训练权重的基础上进行50个epoch的迁移学习，接着在网络的所有层上再进行170个epoch的学习，最后保留验证集上损失最低的训练结果，得到训练好的用于检测行人的模型，具体流程如图2所示。

本申请实施例中，所述步骤S3中，根据所述采用分箱法去除YoloV4-Tiny检测到的异常行人检测框，过程为：

将检测到的视频图像中的所有行人目标按其在图片上的位置等间距划分为3*3共9类，每类记录1000个行人目标检测框。

采用分箱法分别对每类检测框进行计算，得到各类检测框宽高的最大阈值和最小阈值。分箱法的原理如图6所示，其具体策略如下所述：

对所有的数据进行统计，得到上四分位数QU及下四分位数QL，分别表示全部数据中有四分之一的数据取值比它大和全部数据中有四分之一的数据取值比它小。

计算上四分位数QU与下四分位数QL的差值，得到四分位数间距IQR。

最后将上四分位数QU加上1.5倍的四分位数间距IQR即所求最大阈值；将下四分位数QL减去1.5倍的四分位数间距IQR即所求最小阈值。

采用分箱法分别对9类检测框的宽高进行统计，得出对应的最大阈值和最小阈值。

本申请实施例中，所述步骤S4中，根据所述采用改进后的DeepSort算法对单摄像头下检测到的所有行人目标的跟踪，并记录行人入场、出场时间以及轨迹，过程为：

根据处理后的行人检测结果，截取原图中包含行人的部分，然后利用训练好的深度特征网络计算该画面中行人目标的128维深度特征信息。

使用一个基于匀速模型和线性观测模型的标准卡尔曼滤波器进行目标状态的预测，具体预测流程如下所述：

预测指基于跟踪器在视频中前一帧的状态来预测其在当前帧的状态，如式(14)、式(15)所示：

x′_t＝Fx_t-1 (14)

其中x′_t表示跟踪器在t帧的预测均值，x_t-1表示跟踪器在t-1帧中的均值，F表示对应的状态转移矩阵。均值由8维向量表示[cx,cy,r,h,vx,vy,vr,vh]，分别是框中心点x轴大小，框中心点y轴大小，宽高比r，高h，以及各自的速度变化值。

P′_t＝FP_t-1F^T+Q (15)

其中P′_t为跟踪器在第t帧中的预测协方差；P_t-1为跟踪器在第t-1帧中的协方差；Q为系统的噪声矩阵，代表整个系统的可靠程度；

将跟踪器的预测结果与检测结果进行级联匹配，流程如下所述：

首先使用检测框和跟踪器的预测框之间的马氏距离来进行运动信息的关联，如式(16)所示：

其中d_j表示第j个检测框的位置，y_i表示第i个跟踪器的预测框位置，S_i表示检测位置与平均跟踪位置之间的协方差矩阵。

若计算得到的d⁽¹⁾(i,j)小于指定的阈值t⁽¹⁾，则表示运动状态关联成功，一般设阈值为9.4877。

其次计算当前帧第j个检测结果与第i个跟踪器的最近100个成功关联的特征集的特征向量间的最小余弦距离与最新添加进特征集的特征向量间的余弦距离和的平均值，如式(17)所示：

d⁽²⁾(i,j)＝(min{1-r_j ^Tr_k ⁽ⁱ⁾|r_k ⁽ⁱ⁾∈R_i}+1-r_j ^Tr_last ⁽ⁱ⁾)/2 (17)

其中r_j表示第j个检测结果的特征向量，r_k ⁽ⁱ⁾表示第i个跟踪器的第k个特征向量，r_last ⁽ⁱ⁾表示第i个跟踪器最新添加近特征集的特征向量，R_i表示第i个跟踪器的最近100个成功关联的特征集。

若所得平均余弦距离小于设定的阈值，则表示外观信息关联成功。

利用公式(18)将公式(16)与公式(17)通过阈值处理后的计算结果结合起来，即以外观距离为主，将运动距离作为门限矩阵进一步过滤代价矩阵。

其中b_ij ⁽¹⁾表示式(16)通过阈值处理后的门限矩阵，b_ij ⁽²⁾表示式(17)通过阈值处理后的代价矩阵，b_i,j表示通过过滤后的代价矩阵。

为解决由于轨迹被遮挡较长的时间卡尔曼滤波器在不断预测中导致的概率弥散问题，采用级联匹配的思想，即按跟踪器未成功匹配次数从小到大的顺序对过滤后的代价矩阵进行匈牙利匹配。

最后对未匹配上的跟踪器进行基于IOU的匹配，缓解因为表观突变或者部分遮挡导致的较大变化。

IOU匹配即计算未匹配上的跟踪器和检测结果这些框两两之间的iou，再由1-iou得到代价矩阵并作为匈牙利算法输入，得到线性匹配结果。

记录每个匹配成功的跟踪器的轨迹，用其对应的检测结果更新卡尔曼滤波器的参数，当跟踪器匹配成功次数等于3时，记录该跟踪器所代表的行人编号以及此刻时间即入场时间。对于未匹配成功的跟踪器，若其匹配成功次数小于3，直接删去该跟踪器；若其匹配成功次数大于3，将其未匹配成功次数加1，当累计到20时，记录该跟踪器所代表的行人编号以及此刻时间即出场时间。

本申请实施例中，所述步骤S5中，根据所述采用基于行人未匹配帧数和预测位置的矫正算法，矫正异常消失的行人目标，过程为：

需要说明的是，由于行人走动容易产生重叠，从而导致行人跟踪编号丢失、交换，对跟踪结果的矫正可有效解决此类现象从而提高跟踪的稳定性及准确率，跟踪结果的矫正流程如图7所示，其具体策略如下所述：

记录未成功匹配达到10帧的跟踪器T_miss及其预测的行人位置和代表的行人编号/>同时记录当前帧中小于5帧未成功匹配的跟踪器且该跟踪器预测的位置与/>之间的欧式距离大于所设阈值,记为/>

若T_miss在未达到20帧时成功匹配检测到的行人，则将该T_miss删除，不再对其进行后续操作。

当所记录的T_miss未成功匹配帧数达到20时，开始计算后续帧中满足未成功匹配帧数小于3且代表的行人编号不在中的跟踪器所预测的位置与/>之间的欧式距离。

根据上述步骤，即可实现一种单摄像头多目标实时行人跟踪方法。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；对本领域的普通技术人员来说，可以根据上述说明加以改进，或者对其中部分或者全部技术特征进行等同变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种单摄像头多目标行人跟踪方法，其特征在于，所述方法包括以下步骤：

所述步骤S2的过程为：

利用训练好的检测模型对处理后的视频图像中的所有行人目标进行检测；

S3，采用分箱法去除YoloV4-Tiny检测到的异常行人检测框；

所述步骤S4的过程为：

记录每个匹配成功的跟踪器的轨迹，用其对应的检测结果更新卡尔曼滤波器，当跟踪器匹配成功次数等于3时，记录该跟踪器所代表的行人编号以及此刻时间，并处理未匹配的跟踪器和检测结果，当跟踪器未匹配次数大于20时，记录该跟踪器所代表的行人编号以及此刻时间；

2.如权利要求1所述的一种单摄像头多目标行人跟踪方法，其特征在于，所述步骤S1的过程为：

3.如权利要求1或2所述的一种单摄像头多目标行人跟踪方法，其特征在于，所述步骤S3的过程为：

4.如权利要求1或2所述的一种单摄像头多目标行人跟踪方法，其特征在于，所述步骤S5的过程为：

记录未成功匹配达到10帧的跟踪器T_miss及其预测的行人位置和代表的行人编号同时记录当前帧中小于5帧未成功匹配的跟踪器且该跟踪器预测的位置与/>之间的欧式距离大于所设阈值，记为/>