CN114267052A

CN114267052A - 一种基于yolov5的行人检测方法

Info

Publication number: CN114267052A
Application number: CN202111663929.9A
Authority: CN
Inventors: 朱金荣; 曹海涛; 邓小颖; 张梦; 侯伍岳; 张剑云; 夏长权
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-01

Abstract

本发明公开了一种基于yolov5的行人检测方法，包括，利用主干特征提取网络对输入端输入的数据进行特征提取；将提取的所述特征输入特征加强网络进行加强；结合预测层预测目标框，输出得到检测结果；本发明通过更改网络结构，减少参数，提升运行速度，达到更好的实时性。

Description

一种基于yolov5的行人检测方法

技术领域

本发明涉及行人检测技术领域，尤其是一种基于yolov5的行人检测方法。

背景技术

YOLO(You OnlyLook Once)是Joseph Redmon，Ali Farhadi等人在2015年提出的一种高速目标检测方法，至今已经发展出了YOLOv1，YOLO9000，以及YOLOv3，YOLOv4，YOLOv5等几个版本，而在保持高精度的情况下YOLOv5的检测速度仍可以达到140fps，是相对目前所有方法来说，速度最快的。在YOLO被提出之前，就已经有较成熟的R-CNN系列算法了，这些算法都是基于区域提议和位置回归两个步骤完成的，虽然Faster R-CNN提出使用RPN进行区域提议后，检测的速度提升了不少(可达到5fps)，但仍然无法应用到视频实时检测中。为了提升速度，减少计算量，YOLO使用单步检测法(one stage预测ion)，抛弃了区域提议步骤，将目标检测问题看作是一个回归问题，直接从图像像素信息得到边界框的位置和类别概率。因为没有了区域提议，所以YOLO只需要将原始图片或中间的特征层处理一次即可。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例，在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述和/或现有技术中所存在的问题，提出了本发明。

因此，本发明所要解决的技术问题是现有检测算法存在误检漏检的问题。

为解决上述技术问题，本发明提供如下技术方案：一种基于yolov5的行人检测方法，包括，

利用主干特征提取网络对输入端输入的数据进行特征提取；

将提取的所述特征输入特征加强网络进行加强；

结合预测层预测目标框，输出得到检测结果。

作为本发明所述基于yolov5的行人检测方法的一种优选方案，其中：在特征提取之前需要对数据进行预处理，包括：

利用马赛克数据增强处理图片；

通过Focus对图片进行切片操作；

通道数量乘4。

作为本发明所述基于yolov5的行人检测方法的一种优选方案，其中：所述马赛克数据增强包括，

将四张图片进行随机裁剪；

将裁剪后的图片拼接到一张图上作为训练数据。

作为本发明所述基于yolov5的行人检测方法的一种优选方案，其中：所述切片操作包括，

在一张图片中每隔一个像素拿到一个值，类似于邻近下采样，得到四张图片；

四张图片互补，将W、H信息集中到通道空间；

输入通道扩充了4倍，即拼接起来的图片相对于原先的RGB三通道模式变成了12个通道；

将得到的新图片再经过卷积操作，得到没有信息丢失情况下的二倍下采样特征图。

作为本发明所述基于yolov5的行人检测方法的一种优选方案，其中：所述特征提取包括，

将1×1输出后的特征图按照通道均分n块，每一部分是x_i,i∈{1,2,3,...,n}，每一个x_i对应一个3×3的卷积，由k_i()表示，y_i表示k_i()的输出；

特征子集x_i与k_i-1()的输出相加，送入k_i()；

对特征的重复利用，得到不同数量以及不同感受野大小的输出；

将所有输出进行融合并进行1×1的卷积；

作为本发明所述基于yolov5的行人检测方法的一种优选方案，其中：对所述特征进行加强包括，

FPN高维度向低维度传递语义信息；

PAN低维度向高维度再传递一次语义信息；

深层的特征图携带有更强的语义特征，较弱的定位信息；

浅层的特征图携带有较强的位置信息，和较弱的语义特征。

作为本发明所述基于yolov5的行人检测方法的一种优选方案，其中：还包括，

所述FPN把深层的语义特征传到浅层，增强多个尺度上的语义表达；

所述PAN把浅层的定位信息传导到深层，增强多个尺度上的定位能力。

作为本发明所述基于yolov5的行人检测方法的一种优选方案，其中：所述预测目标框包括，

曼哈顿距离，为两个点之间垂直和水平距离的总和，表示为:

MH_(u,v)＝|(x₁-x₂)|+|y₁-y₂|

其中：(x1,y1)为第一个点的坐标值，(x2,y2)为第二个点的坐标值。

在图像中感兴趣的位置周围形成边界框簇；

在Confluence中，以任意两个边界框的左上角和右下角坐标的曼哈顿距离作为边界框是否为同一簇的判定标准。

作为本发明所述基于yolov5的行人检测方法的一种优选方案，其中：具体包括：

进行归一化操作，将坐标缩小到0到1之间，使图像内通过任意两个大的目标边框和任意小的目标边框的关系相比较来区分内边界框和目标间边界框。

本发明的有益效果：本发明通过更改网络结构，减少参数，提升运行速度，达到更好的实时性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为人物模型不全且存在遮挡的情况下的检测结果对比。

图2为人物模型完全但互相遮挡的情况下的检测结果对比。

图3为人群拥挤的场景下的检测结果对比。

图4为Yolov5原模型与yolov5-r2c训练时mAP值的对比图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

再其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

实施例1

参照图1和2，本实施例提供了一种基于yolov5的行人检测方法，包括，

S1：利用主干特征提取网络(Backbone)对输入端输入的数据进行特征提取，该步骤需要说明的是，在特征提取之前需对图片进行数据进行预处理，具体包括利用马赛克数据增强处理图片，通过Focus对图片进行切片操作，通道数量乘4。

进一步的，马赛克数据增强包括，将四张图片进行随机裁剪；将裁剪后的图片拼接到一张图上作为训练数据，这样做的好处是丰富了图片的背景，并且四张图片拼接在一起变相地提高了batch_size(批数据量)，在进行batch normalization(批标准化)的时候也会计算四张图片。

切片操作包括，在一张图片中每隔一个像素拿到一个值，类似于邻近下采样，得到四张图片；

四张图片互补，将W、H信息集中到通道空间；

进一步的，特征提取包括，

特征子集x_i与k_i-1()的输出相加，送入k_i()；

将所有输出进行融合并进行1×1的卷积；

参照图1展示了resnet残差模块(左)与修改后的res2net模块(2)对比。

S2：将提取的特征输入Neck进行加强，该步骤需要说明的是：

FPN高维度向低维度传递语义信息，PAN低维度向高维度再传递一次语义信息，深层的特征图携带有更强的语义特征，较弱的定位信息，浅层的特征图携带有较强的位置信息，和较弱的语义特征。

FPN把深层的语义特征传到浅层，增强多个尺度上的语义表达，PAN把浅层的定位信息传导到深层，增强多个尺度上的定位能力。

S3：结合预测层预测目标框，输出得到检测结果，该步骤需要说明的是：

Prediction(预测阶段)中采用GIOU_Loss做Boundingbox(目标框)的损失函数，保留了IoU_Loss的原始性质的同时弱化了它的缺点，在此基础上采用Confluence，Confluence是一个2阶段的算法，它保留了最优边界框，并消除了假阳性。第1阶段使用置信加权曼哈顿距离启发接近测量来评估边界框的一致性。第2阶段涉及移除所有与保留的边界框Confluence边界框。得到最终的目标检测框。

曼哈顿距离，是两个点之间垂直和水平距离的总和。可以表示为:

MH_(u,v)＝|(x₁-x₂)|+|y₁-y₂|

其中：(x1,y1)为第一个点的坐标值，(x2,y2)为第二个点的坐标值，u,v分别是目标检测框上的两个点。

现今的目标检测器在检测后都会返回大量检测结果，在图像中感兴趣的位置周围形成边界框簇，而在Confluence中，以任意两个边界框的左上角和右下角坐标的曼哈顿距离作为边界框是否为同一簇的判定标准。

P_(u,v,m,n)＝MH_(u,v)+MH_(m,n)

P_(u,v,m,m)＝|x₁-p₁|+|x₂-p₂|+|y₁-q₁|+|y₂-q₂|

参照图2展示了任意两个边界框曼哈顿距离的计算方法，上述P()函数为任意两个边界框左上角曼哈顿距离与右下角曼哈顿距离之和。

由于目标和其对应的边框是不同大小的，因此需要进行归一化，将坐标缩小到0到1之间。这样就可以使得图像内通过任意两个大的目标边框和任意小的目标边框的关系相比较来区分内边界框和目标间边界框。

X＝{x₁,x₂,p₁,p₂}

Y＝{y₁,y₂,q₁,q₂}

X表示两个边界框的左上角和右下角横坐标，Y表示两个边界框的左上角和右下角纵坐标，max(X),max(Y)表示横坐标和纵坐标中的最大值，min(x),min(y)表示横坐标和纵坐标中的最小值。

由于所有坐标对都归一化在0到1之间，因此任何一对相交的边界框的接近值都小于2。因此，如果任意两个边界框的P值小于2，则假设它们属于同一簇，因此指的是同一对象，或者指一个或多个高密度对象。Confluence通过考虑置信度c和与之竞争的边界框的P值来评估给定边界框的最优性。通过用除以其置信度得分，可以得到加权接近性，递归地重复这个过程，直到处理完所有的边界框。

P为任意两个边界框左上角曼哈顿距离与右下角曼哈顿距离之和，c为边界框的置信度(即该目标是检测目标的可能性)。

更进一步的，本发明改进了yolov5的主干特征提取网络(backbone)与后处理阶段的NMS(非极大值抑制)部分。首先将瓶颈层1×1卷积输出后的特征图按照通道进行均分4块，第一部分直接输出，第二部分在经过一个3×3的卷积后输出，第三部分和第四部分分别与上一层经过3×3卷积后的输出相加，再经过一个3×3的卷积。

最后再将这四部分连接起来进行1×1的卷积。每一个3x3的卷积操作都可以潜在的接受所有其左边的特征信息，每一个输出都能增大感受野，所以每一个Res2Net都能获取不同数量和不同感受野大小的特征组合。

在Res2Net块中，一个单独残差块中的分层的残差连接使感受野在更细粒度级别上的变化能够捕获细节和全局特性。特征提取能力更加强大，因此可以进一步提高网络性能。

在后处理阶段，常规的NMS(非极大值抑制)是依靠分类器得到多个检测框，以及关于检测框中属于类别的置信度，根据分类器得到的类别置信度做排序，将所有框的置信度排序，选中置信度最高的框，遍历其余的框，如果和当前置信度最高的框的IOU(交并比)大于一定阈值，则认为它们属于一个物体，就将框删除。从未处理的框中继续选一个得分最高的，重复上述过程。

NMS(非极大值抑制)算法中的最大问题就是它将相邻低置信度的检测框剔除，这就导致了如果目标比较密集，存在遮挡时，如密集人群，相邻低置信度的检测框会被直接剔除，非常容易产生漏检。而本发明使用的Confluence，不以置信度和IOU作为衡量标准，而是采用曼哈顿距离加权的方法，以任意两个检测框的左上角和右下角归一化后的坐标值的曼哈顿距离判断检测框是否是同一簇，在判定是同一簇后，除以各自置信度，得到最小的值即为最优检测框。

实施例2

本方法用于行人检测，在行人拥挤，人物模型被遮挡的情况下有良好的表现。

具体的，本方法采用平均精度值(mAP)作为算法的评价指标，实验中检测出的结果共包含四类TP(true positive,真阳性)，TN(true negative,真阴性)，FP(falsepositive,假阳性)，FN(false negative,假阴性)，对于本算法检测的类别P(行人)，其在单一图像上的精准率(Precision)为检测出的正确目标数与检测出的目标数之比：

召回率为正确目标数与总样本数之比：

平均精度值(mAP),表示的则是整个数据集所有类识别的精准率的平均值：

yolov5是目标检测中的一种单阶段算法，其性能强，检测速度快且精度高，但是对于目标在遮挡，拥挤的情况下，容易出现漏检，误检。

为验证yolov5-R2C算法较yolov5原模型在行人拥挤，遮挡的情况下能够更加准确的检测出行人。

本实施例中将采用yolov5原模型和本方法yolov5-R2C分别在Wild Person数据集下进行训练比对mAP值，并对人物模型有遮挡、重叠拥挤等情况下的图像进行测量对比。

对比数据如下表：

	Precision(％)	Recall(％)	mAP(％)	mAP@.5:0.95(％)
					Yolov5	94.3	94.1	97.1	81.1
Yolov5-R2C	95.6	95.7	98.5	83.2

其中Precision值表示精准率，Recall值表示召回率，mAP值表示平均精度值，mAP@.5:0.95值表示不同交并比阈值(从0.5到0.95，步长0.05)(0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95)上的平均mAP值，。

结果分别如图3所示，可以看出，yolov5原模型均存在漏检但无误检的情况，即FN(假阴性)数多于yolov5-r2c算法，TP(真阳性)数少于yolov5-r2c算法，所以yolov5-r2c算法的Precision值与Recall值均大于yolov5。

图4为训练阶段yolov5与yolov5-r2c的map值曲线，可以看出，yolov5-r2c的收敛速度快于yolov5原模型，并在map值上也有一定的提升。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于yolov5的行人检测方法，其特征在于：包括，

利用主干特征提取网络对输入端输入的数据进行特征提取；

将提取的所述特征输入特征加强网络进行加强；

结合预测层预测目标框，输出得到检测结果。

2.根据权利要求1所述的基于yolov5的行人检测方法，其特征在于：在特征提取之前需要对数据进行预处理，包括：

利用马赛克数据增强处理图片；

通过Focus对图片进行切片操作；

通道数量乘4。

3.根据权利要求1或2所述的基于yolov5的行人检测方法，其特征在于：所述马赛克数据增强包括，

将四张图片进行随机裁剪；

将裁剪后的图片拼接到一张图上作为训练数据。

4.根据权利要求3所述的基于yolov5的行人检测方法，其特征在于：所述切片操作包括，

四张图片互补，将W、H信息集中到通道空间；

5.根据权利要求4所述的基于yolov5的行人检测方法，其特征在于：所述特征提取包括，

特征子集x_i与k_i-1()的输出相加，送入k_i()；

将所有输出进行融合并进行1×1的卷积；

6.根据权利要求4或5所述的基于yolov5的行人检测方法，其特征在于：对所述特征进行加强包括，

FPN(特征金字塔网络)高维度向低维度传递语义信息；

PAN(路径聚合网络)低维度向高维度再传递一次语义信息；

深层的特征图携带有更强的语义特征，较弱的定位信息；

浅层的特征图携带有较强的位置信息，和较弱的语义特征。

7.根据权利要求6所述的基于yolov5的行人检测方法，其特征在于：还包括，

所述FPN(特征金字塔网络)把深层的语义特征传到浅层，增强多个尺度上的语义表达；

所述PAN(路径聚合网络)把浅层的定位信息传导到深层，增强多个尺度上的定位能力。

8.根据权利要求7所述的基于yolov5的行人检测方法，其特征在于：所述预测目标框包括，

曼哈顿距离，为两个点之间垂直和水平距离的总和，表示为:

MH_(u,v)＝|(x₁-x₂)|+|y₁-y₂|

9.根据权利要求8所述的基于yolov5的行人检测方法，其特征在于：还包括，

在图像中感兴趣的位置周围形成边界框簇；

10.根据权利要求8或9所述的基于yolov5的行人检测方法，其特征在于：

具体包括：