CN112001339B

CN112001339B - 一种基于YOLO v4的行人社交距离实时监测方法

Info

Publication number: CN112001339B
Application number: CN202010879084.6A
Authority: CN
Inventors: 姚博; 文成林; 林志鹏
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2024-02-23
Anticipated expiration: 2040-08-27
Also published as: CN112001339A

Abstract

本发明涉及一种基于YOLO v4的行人社交距离实时监测方法。本发明包括：收集整理数据集，网络模型训练，视频图像输入，目标行人预测，根据检测结果遍历目标，计算目标距离和阈值并对其分类，输出分类结果。本发明主要采用了YOLO v4的网络模型，经过参数调整，在VOC2007的验证集下对行人目标的AP达到了87.54%，识别精度较高。本发明的分类阈值根据目标尺度动态变化，实现了多尺度下的行人目标距离度量。

Description

一种基于YOLO v4的行人社交距离实时监测方法

技术领域

本发明属于计算机图像处理领域，尤其涉及一种基于YOLO v4的行人社交距离实时监测方法

背景技术

近年来，深度学习发展迅猛，尤其是深度卷积网络在计算机视觉领域不断实现新的突破。在2012年的ILSVRC比赛中，获得冠军的AlexNet使用的深度卷积网络将top-5的错误率降低至了16.4％，相比第二名的26.2％错误率有了大幅提升。此后，图像分类算法不断改进，2014年的VGGnet使用3×3的小卷积核代替5×5或7×7的大卷积核增加了网络深度，GoogleNet在此基础上又引入了Inception模块，模型性能得到进一步提高。2017年，Jie Hu等人提出的SENet在图像分类任务中的top-5错误率降低到了2.3％，已经远远低于人工标注的错误率5％。卷积网络的运用不只是在图像分类，在目标检测领域同样取得了巨大进步。

目前主流目标检测算法分为One-stage和Two-stage两种，Two-stage的主要代表为R-CNN及其衍生的一系列算法，它首先用选择性搜索或RPN网络生成候选区域，再把候选区域输入卷积网络做分类或者回归，检测一幅图像需要同时运算两个网络，不仅参数众多，运行速度也很难提升；而One-stage只需要一个网络就能够完成端到端的目标的检测任务，其代表就是YOLO网络，它把目标检测问题中的边框定位和分类融合为一个回归问题，只需要将数据送入网络一次，就可以检测出所有物体类别和位置，并且运行速度较快，适合实时监测场景。

YOLO网络最初通过转化网络的损失函数，将目标定位于分类融合为一个回归问题，YOLO v2/YOLO 9000相比最初版本添加了批量归一化(BN)层，取消了全连接层，实现了对任意尺寸图像的检测；YOLO v3相比上一版本，主要改进了特征提取网络，引入残差层，并进行了多层特征融合，实现了对多尺度目标的检测；YOLO v4在特征提取网络中引入了CSPnet结构，修改了激活函数，使用PANet融合了多尺度特征，等等一系列改动，使得网络在速度没有明显降低的情况下，检测精度相比YOLO v3有了大幅提升，因此，YOLO v4网络兼具精度与速度优势。

发明内容

本发明旨在提出一种基于YOLO v4的行人社交距离实时监测方法，实现准确、高效地监测行人社交距离。

本发明具体步骤如下：

步骤1，搜集整理多尺度、多角度、多场景下的包含行人的图片，并使用标注工具对图片中的行人进行数据标注。

步骤2，使用K-means聚类算法生成基于自制数据集的初始锚框。

步骤3，设置YOLO v4的网络参数。

步骤4，在公开的标注数据集上进行网络的预训练，初始化YOLO v4网络。

步骤5，将已标注的数据集进行数据增强后，输入已初始化的YOLO v4网络进行训练直至网络收敛，保存模型与权重文件。

步骤6，读取保存的模型与权重文件，输入待检测视频、图像，网络根据目标是否符合社交距离，绘制对应的检测框。

进一步地，在步骤3中，包括如下子步骤：

3.1YOLO v4的学习率采用余弦退火衰减。在一个重启周期内，学习率会首先线性上升至最大值，然后模拟余弦函数下降。

3.2在余弦退火衰减的基础上，加入warm up预热阶段，使在模型最初训练时的学习率较小，模型趋于稳定后再选用预先设定的学习率。

3.3在YOLO v4中直接采用CIOU与置信度作为Loss函数，删去分类误差项，CIOU将预测框与真实框的距离、重叠度、尺度以及惩罚项都考虑在内。

进一步地，在步骤5中，包括如下子步骤：

5.1采用Mosaic数据增强，每次随机读取四张图片，分别进行镜像翻转、尺度缩放、色域变化等，并按照左上、右上、左下、右下的位置拼接，再对原图中的真实框进行剪裁与组合，形成一张新的图片输入网络进行训练。

5.2采取冻结训练方式，将网络划分为两部分，首先冻结网络前半部分，对未冻结层进行训练，达到冻结训练的最大迭代次数后，对整体解冻的网络再进行训练。

进一步地，步骤6具体如下：

视频、图像经过YOLO v4卷积网络，输出每个行人目标的中心点以及检测框的高度，遍历所有预测框，对每两个中心点计算欧氏距离，根据设定阈值t进行分类。

设定阈值t的计算公式为：

其中a为安全距离系数，是实际安全社交距离与平均身高的比值，h₁,h₂分别为两个中心点对应的检测框的高度。通过比较中心点的欧氏距离与阈值t的大小判别行人是否符合安全社交距离，根据分类结果，在输出图像中绘制对应颜色的检测框，得到最终基于YOLOv4的行人社交距离实时监测的结果。

本发明的有益效果是：

(1)发明基于目标检测的深度卷积网络YOLO v4，在行人识别精确性上优于其他同类型网络，本发明在VOC2007的验证集下对“person”单一目标的AP达到了87.54％，识别精度较高，且拥有较高的识别速度，能够满足实时性要求。

(2)对于行人距离的度量，阈值设定不是固定值，而是根据检测物体的位置与尺度动态变化的，解决不同距离下行人间距尺度不统一的问题。

附图说明

图1是本发明的检测流程图；

图2是YOLO v4的特征提取模型结构；

图3是检测效果图a；

图4是检测效果图b。

具体实施方式

本发明提供了一种基于YOLO v4的行人社交距离实时监测方法，下面结合附图对本发明作进一步说明。

如图1所示，本发明提供了一种基于YOLO v4的行人社交距离实时监测方法，包括：

步骤1制作数据集：

搜集整理多尺度、多角度、多场景下的包含行人的图像，共5011张，并使用标注工具对图像中的行人进行数据标注，生成对应于每一幅图像xml标注文件，整理成为VOC数据集格式。

步骤2生成网络初始锚框：

YOLO v4网络将输入图像划分为19×19、38×38、76×76的网格，每一个网格对应3个不同长宽比例初始锚框用于预测目标位置，对一张图片共需要9个初始锚框。运用K-mean算法将数据集中的真实框聚类为9种，作为网络初始锚框，能够加快网络的收敛，提升训练速度和精度。

K-mean首先随机选取9个任意长宽比例的锚框作为聚类中心，然后计算所有真实框与锚矿的距离，根据距离把真实框分配给聚类中心，当所有真实框都聚类完毕时，重新计算聚类中心，然后重新计算距离并聚类，重复操作直至聚类中心不再变化，输出当前聚类中心。最终得到的9个初始锚框尺寸为(15,27)，(24,73)，(46,133)，(47,43)，(86,89)，(94,206)，(175,298)，(203,153)，(344,329)。

步骤3设置YOLO v4网络参数：

如图2所示，YOLO v4的主干特征提取网络CSPDarknet53在Darknet53的基础上引入了CSPnet结构，在原本的残差块上又引入了一条残差边，提升网络学习能力，与残差模块一同构成Resblock_body。

在特征金字塔部分加入SPP和PANet，增大网络的感受野，首先对输出特征图进行池化、堆叠，然后进行上采样特征融合，再对融合后的特征图利用卷积下采样再次特征融合，最后输出三种尺度的特征图。

本发明基于YOLO v4的特征提取网络结构，对学习率采用余弦退火算法动态实现动态学习率。在一个重启周期内，学习率会首先线性上升至最大值，然后模拟余弦函数下降。在余弦退火算法中设置最大学习率h_max最小学习率h_min以及重启步长T_max，对学习率的衰减实现如下：

其中，T_cur为当前重启周期内的步长，在训练过程中多次执行学习率的余弦退火衰减，避免网络陷入局部极小值。

为了防止模型训练初期由于学习率太大而造成模型不稳定甚至的发散，在余弦退火的基础上加入warm up预热阶段，使在模型最初训练时的学习率较小，模型趋于稳定后再选用预先设定的学习率。

进一步地，YOLO v4损失函数中边框回归使用了CIOU，包括了预测框与真实框的距离、重叠度、尺度以及惩罚项，其中惩罚项将预测框的长宽比拟合真实框也考虑在内，CIOU公式如下：

其中IOU为交并比，为预测框与真实框交集和并集的比值，ρ²(b,b^gt)代表了预测框与真实框的中心点的欧氏距离，c为能够同时包含预测框与真实框的最小闭包区域的对角线距离。αu是惩罚项，公式如下：

w^gt,h^gt,w,h分别为真实框的宽高和预测框的框高，可以得到CIOU对应的Loss如下：

对于单目标检测，分类误差回归是不必要的，因此在原本的Loss函数中删去分类误差项最终网络的Loss函数为：

LOOS＝LOSS_CIOU+LOSS_confidences (6)

置信度损失函数LOSS_confidences仍然采用交叉熵计算。

步骤4模型预训练：

YOLO v4网络结构搭建完成，在公开的标注COCO数据集上进行网络的预训练，初始化YOLO v4网络，获得网络权重用于进一步训练；

步骤5进一步训练：

将步骤1中制作好的VOC格式数据集进行Mosaic数据增强，每次随机读取四张图片，分别进行镜像翻转、尺度缩放、色域变化等，并按照左上、右上、左下、右下的位置拼接，再对原图中的真实框进行剪裁与组合，形成一张新的图片输入网络进行训练，变相增加了训练的batch size，批量归一化也会同时计算四张图片，降低了网络对设备的性能要求。

其中，在网络的训练过程中，Mosai数据增强与原图片直接输入是交替进行的，避免因图片拼接后目标尺度减小，导致网络泛化性能降低的问题。

训练方式采取冻结训练，将网络划分为两部分，首先冻结网络前302层，对未冻结的后68层进行训练，避免训练初期对权值的破坏。达到冻结训练的最大迭代次数后，解冻网络，对整体370层网络再次进行训练。

网络训练达到最大迭代次数或网络收敛后，保存模型与权重文件。

步骤6目标距离度量：

读取网络模型与权重文件，输入待检测视频、图像，得到YOLO v4网络输出的目标信息如下：

(confidences,(x,y,x+w,y+h),centroid,w,h)(7)

其中confidences代表检测目标的置信度，(x,y,x+w,y+h)是预测框的左上角坐标以及右下角坐标，用于在输出图像中绘制检测框，centroid内存放预测框的中心点坐标，w，h分别为预测框的宽高。遍历预测框，对每两个中心点计算欧氏距离，根据设定阈值t进行分类。

设定阈值t的计算公式为：

其中a为安全距离系数，是实际安全社交距离与平均身高的比值，这里设为0.6，h₁,h₂分别为两个中心点对应的检测框的高度。通过比较中心点的欧氏距离与阈值t的大小判别行人是否符合安全社交距离，将预测框分为两类。根据分类结果，在输出图像中将符合安全距离的预测框绘制为绿色，不符合安全距离的预测框绘制为红色，并将红色预测框数量标注在视频图像的左下方，得到最终基于YOLO v4的行人社交距离实时监测的结果，检测结果示意图如图3和图4所示。

本发明的检测视频图像行人安全社交距离方法，主要运用了YOLO v4的特征提取网络，提取视频、图像中的行人目标信息，利用阈值对行人进行分类，达到检测安全社交距离的目的。为了提升YOLO v4的在行人检测场景下的效果，对Loss函数中的边框回归做出改进并删去分类误差项，减少网络参数，提升网络运行速度。训练阶段在Mosaic数据增强的基础下，运用冻结训练和余弦退火衰减学习率增强网络稳定性，提升网络对目标检测的准确性。在目标距离度量中，鉴于行人监测场景下的尺度不统一，本发明根据目标尺度动态变化的阈值，提高距离度量的可靠性。

Claims

1.一种基于YOLO v4的行人社交距离实时监测方法，其特征在于，该方法包括以下步骤：

步骤1，搜集整理多尺度、多角度、多场景下的包含行人的图片，并使用标注工具对图片中的行人进行数据标注；

步骤2，使用K-means聚类算法生成基于自制数据集的初始锚框；

步骤3，设置YOLO v4的网络参数；

步骤4，在公开的标注数据集上进行网络的预训练，初始化YOLO v4网络；

步骤5，将已标注的数据集进行数据增强后，输入已初始化的YOLO v4网络进行训练直至网络收敛，保存模型与权重文件；

步骤6，读取保存的模型与权重文件，输入待检测视频、图像，网络根据目标是否符合社交距离，绘制对应的检测框；具体是：视频、图像经过YOLO v4卷积网络，输出每个行人目标的中心点(x,y)以及检测框的高度h，遍历所有预测框，对每两个中心点计算欧氏距离，根据设定阈值t进行分类；

设定阈值t的计算公式为：

其中a为安全距离系数，是实际安全社交距离与平均身高的比值，h₁,h₂分别为两个中心点对应的检测框的高度；

通过比较中心点的欧氏距离与阈值t的大小判别行人是否符合安全社交距离，根据分类结果，在输出图像中绘制对应颜色的检测框，得到最终基于YOLO v4的行人社交距离实时监测的结果。

2.根据权利要求1所叙述的一种基于YOLO v4的行人社交距离实时监测方法，其特征在于，在步骤3中，YOLO v4的学习率采用余弦退火衰减；在一个重启周期内，学习率首先线性上升至最大值，然后模拟余弦函数下降。

3.根据权利要求2所述的一种基于YOLO v4的行人社交距离实时监测方法，其特征在于，在余弦退火衰减的基础上，加入warm up预热阶段，使在模型最初训练时的学习率较小，模型趋于稳定后再选用预先设定的学习率。

4.根据权利要求1所述的一种基于YOLO v4的行人社交距离实时监测方法，其特征在于，在步骤3中，YOLO v4采用CIOU作为Loss函数，删去分类误差项，CIOU将预测框与真实框的距离、重叠度、尺度以及惩罚项都考虑在内。

5.根据权利要求1所述的一种基于YOLO v4的行人社交距离实时监测方法，其特征在于，在步骤5中，采用Mosaic数据增强，每次读取四张图片，分别进行镜像翻转、尺度缩放、色域变化，并按照左上、右上、左下、右下的位置拼接，再对原图中的真实框进行剪裁与组合，形成一张新的图片输入网络进行训练。

6.根据权利要求5所述的一种基于YOLO v4的行人社交距离实时监测方法，其特征在于，采取冻结训练方式，将网络划分为两部分，首先冻结网络前半部分，对未冻结层进行训练，达到冻结训练的最大迭代次数后，再对整体解冻的网络进行训练。