CN116129302A

CN116129302A - 一种基于YOLOV5的Deepsort工地人流统计方法

Info

Publication number: CN116129302A
Application number: CN202211578411.XA
Authority: CN
Inventors: 郑狄; 李晶; 姚涛; 闫连山; 蒲桂东
Original assignee: Aidian Shandong Technology Co ltd; Yantai New Generation Information Technology Research Institute Of Southwest Jiaotong University
Current assignee: Aidian Shandong Technology Co ltd; Yantai New Generation Information Technology Research Institute Of Southwest Jiaotong University
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-05-16

Abstract

本发明涉及行人跟踪技术领域，具体地涉及一种基于YOLOV5的Deepsort工地人流统计方法，所述方法采用YOLOV5作为检测器获取视频场景内的目标检测结果，通过密集卷积网络替换Deepsort原生的表观特征提取网络，实现行人运动特征与表观特征提取，基于相似度计算更新目标轨迹，通过匈牙利匹配与卡尔曼滤波对目标之间的关联程度进行比较，得到连续帧之间目标的正确匹配，DIOU阈值与马氏距离阈值的阶梯性筛选用于实现持续跟踪。其中，人流统计利用单虚拟线结合多帧判向方式实现工地上下行行人计数。本发明在提高跟准精准度的同时降低模型参数量，通过更窄的网络实现更强的表观特征提取能力，改善了现有技术中由于外观特征提取能力不足造成的跟丢、ID跳变问题，提高了跟踪效果。

Description

一种基于YOLOV5的Deepsort工地人流统计方法

技术领域

本发明涉及行人跟踪技术领域，具体地涉及一种基于YOLOV5的Deepsort工地人流统计方法。

背景技术

建筑业是高风险、监管薄弱、信息化程度较低的传统行业，在复杂的施工环境下，行人如果未佩戴安全设备或未经过相关培训很容易导致安全事故，威胁行人生命安全。因此，建筑工地一般设有围板、铁丝网或围墙，限制人员及车辆进出，且有专门物业管理员把守，出入需要等级身份并佩戴安全设备。但人工把守方式无法对建筑工地的人流出入进行实时检测，且易造成非法人员驻留、混入等现象。

近年来，随着计算机视觉技术的不断发展，目标检测及跟踪领域在工业生产中具有广泛应用。早期的人流统计方法主要采用背景差、帧差、光流法、HOG等对行人进行检测，利用颜色、形状等特征对行人进行再识别。随着卷积神经网络的发展，目标检测及跟踪算法也转向了基于深度神经网络的检测算法。目前常用的目标检测及跟踪算法主要包含SSD、YOLO、RCNN、FASTRCNN、Sort、Deepsort、Fairmot等。为进一步提高行人检测及跟踪精度，改善特征网络提取能力不足造成的跟丢、ID跳变现象，防止非法人员混入、驻留等，有必要设计一种基于YOLOV5的Deepsort工地人流统计方法。

发明内容

本发明的目的在于克服传统方法统计工地人流进出的缺陷，提供一种基于YOLOV5的Deepsort工地人流统计方法，能够提高行人检测及跟踪的精度，采集工地人流数据并避免工地人流出入不一致问题。

本发明的目的是通过以下技术方案来实现的：一种基于YOLOV5的Deepsort工地人流统计方法，包括：

步骤1、输入包含行人目标的视频流进行逐帧处理，产生视频帧；

步骤2、将步骤1中生成的连续帧输入到YOLOV5主干网络中提取特征，获得不同尺度的特征图；

步骤3、将步骤2获取的不同尺度特征图送入YOLOV5特征融合网络融合不同尺度的强语义信息与强定位信息；

步骤4、收敛模型获得行人目标的预测位置与置信度信息；

步骤5、将步骤4获得的目标信息输入到跟踪模块，针对检测框分配跟踪器；

步骤6、初始化卡尔曼滤波器，通过卡尔曼滤波预测目标在当前帧的位置；

步骤7、将步骤4获取的行人目标信息与步骤6预测的目标信息进行匹配计算；

步骤8、更新跟踪器与卡尔曼滤波器，输出匹配结果。

进一步的，所述视频流为实时拉流的工地视频监控数据，YOLOV5负责处理采集到的视频监控数据，输出相应目标检测结果，Deepsort用于跟踪所述目标检测结果，根据分配的ID对人流进行统计。

进一步的，步骤2所述的主干网络为融合坐标注意力模块和4尺度输出的YOLOV5主干网络。

进一步的，步骤1产生的视频帧输入到主干网络提取特征的过程中，所述坐标注意力用于捕获跨通道信息、方向感知信息和位置敏感信息，辅助模型精准定位并识别感兴趣对象；所述的4尺度输出用于融合更浅层强定位信息与深层强语义信息，增强模型多尺度检测能力。

进一步的，步骤2输出的输出特征图输入到特征金字塔FPN传递高层语义特征，FPN的输出送到路径聚合结构PAN传递底层的强定位特征，两者对多尺度特征进行融合，产生多尺度特征表示。

进一步的，步骤4所述的收敛模型获得行人目标预测位置与置信度过程中，通过非极大值抑制去除干扰目标吗，得到行人目标的预测位置和置信度信息。其中，YOLOV5目标检测算法得到行人目标坐标信息det＝(x,y,w,h)，x、y、w、h分别代表目标的中心点坐标以及目标在图像中的位置大小。

进一步的，步骤4所述的行人目标送到目标跟踪算法后，得到目标在当前帧的ID，并预测目标在下一帧的位置，当预测的位置与下一帧实际的目标位置的交并比大于最小阈值时，则跟踪成功，为下一帧实际的目标位置分配相同ID。

进一步的，步骤5所述的行人目标与步骤6的预测目标进行匹配计算时，以行人目标的置信度作为分类匹配计算依据，置信度大于0.7时则对行人目标与预测目标进行级联匹配，置信度小于0.7时则对行人目标与预测目标进行IOU匹配。

进一步的，所述的级联匹配采用行人外观的余弦距离和马氏距离作为代价矩阵，外观特征提取部分采用密集卷积DenseNet替代原有的网络架构，所述IOU匹配采用匈牙利算法实现。

进一步的，步骤8所述的更新跟踪器和卡尔曼滤波器的过程中，匹配成功的目标输出预测框和ID，匹配失败的则会删除轨迹。匹配成功的跟踪结果送入计数模块后，利用单虚拟线结合多帧判向方式实现工地上下行行人计数，并在视频帧中绘制结果。

本发明使用单阶段的YOLOV5目标检测模型进行改进实现工地行人检测，配合改进的Deepsort在连续视频帧间跟踪行人，实现了工地人流出入撞线统计，提高跟踪及检测精度，改善了特征网络提取能力不足造成的跟丢、ID跳变现象，以防止非法人员混入、驻留等。

本发明的技术效果：

与现有技术相比，本发明的一种基于YOLOV5的Deepsort工地人流统计方法，通过融入坐标注意力模块和新增检测尺度作为主干网络对行人视频流进行特征提取。在此过程中坐标注意力用于将位置信息嵌入通道注意力，捕获跨通道信息、方向感知信息和位置敏感信息，排除其他信息干扰；采用特征金字塔和路径聚合结构增强网络对不同尺度目标的检测能力。在跟踪阶段，通过密集卷积DenseNet替换Deepsort原有的外观特征提取网络，以更窄的网络层实现更强的外观语义提取能力，改善跟踪及人流统计效果，减少现有技术中由于特征提取能力不足造成的跟丢、ID跳变现象。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于YOLOV5的Deepsort工地人流统计方法的流程图；

图2为本发明的一种基于YOLOV5的Deepsort工地人流统计方法的具体流程图；

图3为本发明的一种基于YOLOV5的Deepsort工地人流统计方法的坐标注意力结构图；

图4为本发明的一种基于YOLOV5的Deepsort工地人流统计方法的新增检测尺度结构图；

图5为本发明的一种基于YOLOV5的Deepsort工地人流统计方法的检测器结构图；

图6为本发明的一种基于YOLOV5的Deepsort工地人流统计方法的密集卷积网络DenseNet结构图；

图7为本发明的一种基于YOLOV5的Deepsort工地人流统计方法的外观特征提取网络改进前后的损耗及训练精度对比。

具体实施方式

下面结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

请参阅图1，本发明的目的在于克服现有技术的不足，提供了一种基于YOLOV5的Deepsort工地人流统计方法，解决施工场景下人流进出统计问题，具体包括以下步骤：

步骤4、收敛模型获得行人目标的预测位置与置信度信息；

步骤8、更新跟踪器与卡尔曼滤波器，输出匹配结果。

其中，所述视频流为实时拉流的工地视频监控数据，YOLOV5负责处理采集到的视频监控数据，输出相应目标检测结果，Deepsort用于跟踪所述目标检测结果，根据分配的ID对人流进行统计。

其中，步骤2所述的主干网络为融合坐标注意力模块和4尺度输出的YOLOV5主干网络。

其中，步骤1所述的视频帧输入到主干网络提取特征的过程中，所述坐标注意力用于捕获跨通道信息、方向感知信息和位置敏感信息，辅助模型精准定位并识别感兴趣对象；所述的4尺度输出用于融合更浅层强定位信息与深层强语义信息，增强模型多尺度检测能力。

其中，步骤2所述的输出特征图输入到特征金字塔FPN传递高层语义特征，FPN的输出送到路径聚合结构PAN传递底层的强定位特征，两者对多尺度特征进行融合，产生多尺度特征表示。

其中，步骤4所述的收敛模型获得行人目标预测位置与置信度过程中，通过非极大值抑制去除干扰目标吗，得到行人目标的预测位置和置信度信息。其中，YOLOV5目标检测算法得到行人目标坐标信息det＝(x,y,w,h)，x、y、w、h分别代表目标的中心点坐标以及目标在图像中的位置大小。

其中，步骤4所述的行人目标送到目标跟踪算法后，得到目标在当前帧的ID，并预测目标在下一帧的位置，当预测的位置与下一帧实际的目标位置的交并比大于最小阈值时，则跟踪成功，为下一帧实际的目标位置分配相同ID。

其中，步骤5所述的行人目标与步骤6的预测目标进行匹配计算时，以行人目标的置信度作为分类匹配计算依据，置信度大于0.7时则对行人目标与预测目标进行级联匹配，置信度小于0.7时则对行人目标与预测目标进行IOU匹配。所述的级联匹配采用行人外观的余弦距离和马氏距离作为代价矩阵，外观特征提取部分采用密集卷积DenseNet替代原有的网络架构，所述IOU匹配采用匈牙利算法实现。

其中，步骤8所述的更新跟踪器和卡尔曼滤波器的过程中，匹配成功的目标输出预测框和ID，匹配失败的则会删除轨迹。匹配成功的跟踪结果会送入计数模块，利用单虚拟线结合多帧判向方式实现工地上下行行人计数，并在视频帧中绘制结果。

所述的一种基于YOLOV5的Deepsort工地人流统计方法具体分为检测和跟踪两个具体步骤，通过检测与跟踪分离策略减少了误报次数，稳定了跟踪框，改善了跟踪效果，具体流程参阅图2。

以下结合附图对本发明进一步详细说明：

一、坐标注意力模块

坐标注意力CA是将位置信息嵌入到通道注意力，增大网络的可注意区域，缓解SENet、CBAM注意力机制等进行二维全局池化造成的位置信息丢失问题。CA注意力机制将通道注意力拆分为平行的两个一维特征，一个方向用于得到远程依赖信息，另一个方向得到准确的位置信息，生成的特征图经过编码形成一对方向感知与位置敏感特征。

如图3，CA通过精准的位置信息编码通道关系和长程依赖关系，实现坐标位置嵌入与坐标注意力生成。对于坐标信息嵌入来说，为了促进注意力模块可以精准获取位置信息的空间长程依赖关系，CA模块将全局池化拆分为两个一维特征编码操作。对于输入的特征图X，维度为C×H×W，先使用大小为(H,1)和(1,W)的池化核分别沿水平坐标与竖直坐标对通道进行编码，也就是高度为h的第c个通道与宽度为w的第c个通道的输出，其生成公式如(1)、(2)所示。

式中，CA模块沿着两个方向进行特征聚合，返回一对方向感知注意力特征z^h和z^w，辅助网络更准确地检测目标。

对于坐标注意力生成来说，级联之前的模块会生成两个特征层，然后使用一个共享的1×1卷积进行变换F₁，其生成公式如(3)所示。

式中，f∈R^C/r×(H+W)是空间信息在水平方向和竖直方向的中间特征图，r表示下采样比例，默认16达到整体性能与计算量平衡，[,]表示沿空间维度的连接操作，δ表示非线性激活函数，沿空间维度f将被切割为两个单独的特征张量f^h∈R^C/r×H和f^w∈R^C/r×W，两个1×1卷积F_h和F_w将特征图f^h和f^w变换到和输入X相同的通道数，生成结构公式如(4)、(5)所示。

g^h＝σ(F_h(f^h)) (4)

g^w＝σ(F_w(f^w)) (5)

最后，对g^h和g^w进行扩展，作为注意力权重，CA模块的最终输出可以表述为公式6所示。

至此就将坐标注意力模块融入到检测网络中，在一定程度上增强网络对行人的目标检测能力。

二、新增检测尺度

原始的YOLOV5网络采用多尺度进行预测，通过特征融合增强不同尺度特征的语义表达能力。其中，深层的feature map携带更强的语义特征，浅层的feature map携带更强的定位信息。在特征融合网络中，FPN就是将深层的语义特征转到浅层，从而增强多个尺度上的语义表达；而PAN则把浅层的定位信息传递到深层，增强多个尺度上的定位能力。若输入图像的尺寸为640×640，则原始的yolov5网络则会使用到P3/8、P4/16、P5/32三层特征，对应的特征图大小分别为80×80、40×40、20×20，用于检测8×8以上、16×16以上、32×32以上的目标。但P3、P4、P5三种尺度的预测最小感受野仅为8。

鉴于此，如图4新增P2检测尺度，将更浅特征图的定位信息与深层特征图的语义信息融合，在牺牲少部分开销的情况下降低最小感受野，提高检测效果。

最终的检测器网络结构如图5所示，添加的CA注意力机制与新增的检测尺度已在结构图中标出。

三、级联匹配的外观描述

Deepsort算法采用马氏距离以及表观特征衡量相似度，表观特征提取网络采用1个卷积层+2×4层残差网络(16个卷积层)进行特征提取，特征维度为512。但由于Deepsort特征提取网络层数较浅，导致特征提取能力较低。因此，特征提取网络替换为语义学习能力更强的DenseNet，提高跟踪效果。DenseNet特征提取网络根据深度可划分为DenseNet-121、DenseNet-161、DenseNet-169、DenseNet-201，它们结构类似，只是Dense Block堆叠层数不同。考虑到跟踪阶段的响应速度，选中深度较少的DenseNet121作为特征提取网络，避免因网络层太深影响跟踪实时性。

如图6，DenseNet主要由DenseBlock组成，通过一种隐式的强监督模式建立层之间的稠密连接，加强层之间的信息流共享。相比于传统的神经网络，Dense Block的稠密连接方式有效减少了参数量。与残差网络相比，若用l表示第l层，x_l表示l层的输出，H(l)表示一个非线性变换，则残差网络第l层的输入等于l-1层的输出与l-1层的非线性变换，其生成公式如(7)所示。

x_l＝H_l(x_l-1)+x_l-1 (7)

但对于DenseNet而言，它采用concat实现不同层特征的短路连接。如果[x₀,x₁,x₂,...x_l-1]表示0到l-1层的输出特征图做通道连接，则其网络第l层输出的生成公式如(8)所示。

x_l＝H_l([x₀,x₁,x₂,...,x_l-1]) (8)

Dense Block中每一层的输入特征是前几层的数量和，为减少参数，引入了ResNet中的瓶颈层结构，即在3*3的卷积提取特征前，通过1*1的卷积压缩特征，减少参数量。由于DenseNet在Dense Block中全局共享特征，即特征维度必须相等，因此DenseBlock中无法对特征下采样。通过Transition层采用1*1的卷积和2*2平均池化作为相邻Dense Block之间的转换层，减少特征数量和维度，使相邻Dense Block中输出的特征维度相同。

至此就将DenseNet密集卷积网络作为外观特征提取网络，通过DenseNet的特征重用的方法提高了隐含信息的利用率，稠密连接使网络层更窄且包含更少参数，同时强大的特征提取能力则可以改善行人跟踪效果，增强人流撞线统计的准确性。其中，特征提取网络改进前后的训练损耗及精度对比如图7所示，从图中可以看出，DenseNet得益于更细的分类信息输出与稠密的前向传播，有效提升了行人重识别精度。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于YOLOV5的Deepsort工地人流统计方法，其特征在于，包括：

步骤2、将步骤1中生成的连续帧输入到YOLOV5主干网络中提取特征，获得不同尺度特征图；

步骤4、收敛模型获得行人目标的预测位置与置信度信息；

步骤5、将步骤4获取的目标信息作为输入，针对检测框分配跟踪器；

步骤8、更新跟踪器与卡尔曼滤波器，输出匹配结果。

2.如权利要求1所述的一种基于YOLOV5的Deepsort工地人流统计方法，其特征在于，所述视频流为实时拉流的工地视频监控数据，所述YOLOV5负责处理采集到的视频监控数据，输出相应的目标检测结果，利用Deepsort跟踪所述目标检测结果，并根据ID结果对人流信息统计。

3.根据权利要求1所述的一种基于YOLOV5的Deepsort工地人流统计方法，其特征在于，所述主干网络为融合坐标注意力模块和4尺度输出的YOLOV5网络。

4.根据权利要求3所述的一种基于YOLOV5的Deepsort工地人流统计方法，其特征在于，将步骤1中产生的视频帧输入到主干网络中提取特征过程中，所述坐标注意力用于捕获跨通道信息、方向感知信息和位置敏感信息，辅助模型精准定位并识别感兴趣对象；所述的4尺度输出融合更浅层强定位信息与深层强语义信息，增强模型的多尺度检测能力。

5.如权利要求1所述的一种基于YOLOV5的Deepsort工地人流统计方法，其特征在于，步骤2输出的特征图输入特征金字塔FPN传递高层语义特征，FPN的输出送到路径聚合结构PAN传递底层的强定位特征，两者对多尺度特征进行融合，产生多尺度特征表示。

6.如权利要求1所述的一种基于YOLOV5的Deepsort工地人流统计方法，其特征在于，在所述收敛模型获得行人目标的预测位置和置信度过程中，通过非极大值抑制去除干扰目标，得到行人目标的预测位置及置信度信息；其中，YOLOV5目标检测算法得到的行人目标坐标信息det＝(x,y,w,h)，x、y、w、h分别代表目标的中心点坐标以及目标在图像中的位置大小。

7.如权利要求1所述的一种基于YOLOV5的Deepsort工地人流统计方法，其特征在于，将步骤4的行人目标输入给目标跟踪算法，得到目标在当前帧的ID，并预测目标在下一帧的位置，当预测的位置与下一帧实际的目标位置的交并比大于最小的阈值时，则跟踪成功，为下一帧实际的目标位置分配相同的ID。

8.如权利要求1所述的一种基于YOLOV5的Deepsort工地人流统计方法，其特征在于，在将步骤5的行人目标与步骤6的预测目标进行匹配计算过程中，以行人目标的置信度作为分类匹配计算依据，置信度大于0.7时对行人目标与预测目标进行级联匹配；否则进行IOU匹配。

9.如权利要求8所述的一种基于YOLOV5的Deepsort工地人流统计方法，其特征在于，所述级联匹配采用行人外观的余弦距离和马氏距离作为代价矩阵，外观特征提取部分采用密集卷积DenseNet。

10.如权利要求1-9任一项所述的一种基于YOLOV5的Deepsort工地人流统计方法，其特征在于，在更新跟踪器和卡尔曼滤波器的过程中，匹配成功的目标输出预测框及ID，匹配失败的删除轨迹；匹配成功的跟踪结果送入计数模块，利用单虚拟线结合多帧判向方式实现工地上下行行人计数，并在视频帧中绘制结果。