CN115797970A - 基于YOLOv5模型的密集行人目标检测方法及系统 - Google Patents

基于YOLOv5模型的密集行人目标检测方法及系统 Download PDF

Info

Publication number
CN115797970A
CN115797970A CN202211511629.3A CN202211511629A CN115797970A CN 115797970 A CN115797970 A CN 115797970A CN 202211511629 A CN202211511629 A CN 202211511629A CN 115797970 A CN115797970 A CN 115797970A
Authority
CN
China
Prior art keywords
model
training
yolov5 model
yolov5
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211511629.3A
Other languages
English (en)
Other versions
CN115797970B (zh
Inventor
刘晴
汪旭升
杨阿锋
刘兆霆
姚英彪
徐欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202211511629.3A priority Critical patent/CN115797970B/zh
Publication of CN115797970A publication Critical patent/CN115797970A/zh
Application granted granted Critical
Publication of CN115797970B publication Critical patent/CN115797970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本发明属于目标检测技术领域,具体涉及基于YOLOv5模型的密集行人目标检测方法及系统。方法如下:S1,对行人数据进行采集形成数据集,并对数据集进行数据预处理;S2,根据硬件设备的参数以及需要达到的识别效果,配置YOLOv5模型参数;S3,对原YOLOv5模型进行修改,获得修改后的YOLOv5模型;S4,将预处理后的数据集分成训练集,验证集和测试集;使用训练集和验证集对修改后的YOLOv5模型进行训练;S5,训练结束后的YOLOv5模型生成权重文件,导入训练好的权重与待检测的图片,得到检测后的图片,比较识别效果和检测精度是否达到预期要求。本发明具有能增加检测速度,保持检测精度,提升模型泛化力且能解决因密集行人造成的错检漏检问题的特点。

Description

基于YOLOv5模型的密集行人目标检测方法及系统
技术领域
本发明属于目标检测技术领域,具体涉及基于YOLOv5模型的密集行人目标检测方法及系统。
背景技术
目标检测是计算机视觉领域的一个重要分支,同时也是人脸识别,自动驾驶等领域的核心技术,目标检测技术经过这些年不断研究发展,大体上可分为One-stage和Two-stage两类检测算法。这两类算法的检测风格、优点各有不同,One-stage以YOLO、SSD这类算法为主,优点是检测速度快,但精度略有欠缺。Two-stage的算法主要以R-CNN、Fast R-CNN、Faster R-CNN为主,这一类算法的优点在于检测精度优秀,但在检测速度方面并不是很理想。
行人检测一直都是计算机视觉领域的研究热点,有着很强的应用价值,在自动驾驶、智能机器人和视频监控等领域都有着广泛的应用。当检测行人处于密集状态时,会出现人体之间相互遮挡和检测对象尺度相差过大的现象,从而导致出现漏检和错检;一旦出现大量密集和重叠的目标时,现有的行人检测技术无法同时保证检测精度和识别准确率。One-stage里YOLO系列的第五代算法YOLOv5,该算法能够在保持检测精度的同时还有着卓越的检测速度,但针对大量密集和尺度相差过大的目标时,检测效果还有待改进。
因此,设计一种能增加检测速度,保持检测精度,提升模型泛化力且能解决样本不均衡问题的基于YOLOv5模型的密集行人目标检测方法及系统,就显得十分必要。
例如,申请号为CN202010705325.5的中国专利文献描述的一种密集行人检测方法、介质、终端和装置,方法包括以下步骤:对目标图像进行行人检测生成多个第一行人检测框,并对得分高于预设阈值的第一行人检测框进行遮盖;对遮盖后的目标图像再次进行行人检测,生成用于识别被遮挡行人的第二行人检测框;采用非极大值抑制法对第一行人检测框和第二行人检测框进行筛选,并在目标图像中显示筛选结果。虽然通过检测-遮盖-再检测的方式,有效消除人群中未被遮挡人对被遮挡人的检测识别干扰,大幅提升行密集人群中行人检测的召回率和平均精度,从而精确识别视线范围内行人的位置及数量,可以在自动驾驶汽车以及机器人等智能载体上广泛应用,但是其缺点在于,检测过程的步骤较多,导致检测速度较慢。
发明内容
本发明是为了克服现有技术中,现有的行人检测技术无法同时保证检测精度、识别准确率和检测速度的问题,提供了一种能增加检测速度,保持检测精度,提升模型泛化力且能解决样本不均衡问题的基于YOLOv5模型的密集行人目标检测方法及系统。
为了达到上述发明目的,本发明采用以下技术方案:
基于YOLOv5模型的密集行人目标检测方法,其特征在于,包括如下步骤:
S1,对行人数据进行采集,形成数据集,并对数据集进行数据预处理;
S2,根据硬件设备的参数以及需要达到的识别效果,配置YOLOv5模型参数;
S3,对原YOLOv5模型进行修改,获得修改后的YOLOv5模型;
S4,将预处理后的数据集分成训练集,验证集和测试集;使用训练集和验证集对修改后的YOLOv5模型进行训练;
S5,训练结束后的YOLOv5模型生成权重文件,导入训练好的权重与待检测的图片,得到检测后的图片,比较识别效果和检测精度是否达到预期要求。
作为优选,步骤S1中所述数据预处理为采用Mosica-9(马赛克-9)数据增强对对数据集进行数据预处理,具体包括如下步骤:
S11,在总数据集中取一组数据,每次从中随机取出若干个张图片,进行随机位置的剪裁拼接和随机排列操作,组合成一张新的图片;
S12,反复操作步骤S11多次后,将得到的新数据反馈给神经网络进行训练;
S13,将增强后的数据集和对应的图片标签,按照8:2的比例划分训练集和验证集。
作为优选,步骤S2中所述硬件设备的参数包括计算机的内存以及显卡的大小;所述YOLOv5模型参数包括输入图像的尺寸大小、训练的次数和检测对象的类别。
作为优选,步骤S3包括如下步骤:
S31,将原YOLOv5模型中FPN特征金字塔结构的水平轴视为尺度轴,利用3D卷积从FPN中提取尺度不变的特征变量,再将每个金字塔特征图均匀地调整为设定的高分辨率特征金字塔图,最后将高分辨率特征金字塔图与提取的尺度不变的特征变量相连接,用于YOLO模型Head头部部分检测小目标;
S32,在主干网络嵌入坐标注意力机制,所述坐标注意力机制利用两个并行的一维全局池化操作,将垂直和水平两个方向的输入特征聚合为两个独立的方向注意力图,从而将空间坐标信息整合到提取的特征图中;
S33,使用DIOU-NMS基于距离交并比的非极大值抑制算法替换原YOLOv5模型中的NMS非极大值抑制算法;DIOU-NMS算法在原本的IOU loss损失函数的基础上增加了一个惩罚项,作用于最小化两个检测框中心点的距离;
S34,引入focal loss损失函数,通过一个动态缩放因子,降低训练过程中易区分样本的权重,将重心快速聚焦在难区分的正负样本,增大困难样本的损失权重。
作为优选,步骤S32的具体过程如下:
S321,在给定输入的情况下,首先使用尺寸为(H,1)或(1,w)的pooling kernel池化层分别沿着水平坐标和垂直坐标对每个通道进行编码;得到高度为h的第c通道表达式为:
Figure BDA0003969321110000041
同理可得,宽度为w的第c通道的输出可以写成:
Figure BDA0003969321110000042
公式中zC表示第c个通道的输出,H与W分别表示这图像尺寸的高度与宽度,xc(i,j)表示图像的位置信息;
S322,垂直和水平两种变换沿着两个空间方向聚合特征,得到一对方向感知的特征图,同时允许注意力模块捕捉到沿着一个空间方向的精确位置信息;
S323,得到精确编码信息特征后,进行拼接操作,送入1x1卷积F1得到表示编码空间信息的中间特征:
f=δ(F1([zh,zw]))
[zh,zw]表示沿空间维度的串联操作,δ是非线性激活函数,f是中间特征图;
再沿着空间维度拆分:
gh=δ{Fh(fh)}
gω=δ{Fω(fw)}
gh和gω分别为水平和垂直两个方向生成的注意力权重;
最终通过注意力模块输入:
Figure BDA0003969321110000043
Figure BDA0003969321110000044
Figure BDA0003969321110000045
分别表示gh和gω扩展后的权重。
作为优选,步骤S33的具体过程如下:
S331,设定IOU loss损失函数的定义式为下列公式:
Figure BDA0003969321110000046
Figure BDA0003969321110000047
是预测框B和目标框
Figure BDA0003969321110000048
的惩罚项;
DIOU-NMS算法减少两个中心距离的惩罚项,公式如下:
Figure BDA0003969321110000051
其中b和
Figure BDA0003969321110000052
分别是B和
Figure BDA0003969321110000053
的中心点,
Figure BDA0003969321110000054
为欧几里得距离的平方,C是覆盖两个框的最小包围框的对角线长度;最终定义的公式为:
Figure BDA0003969321110000055
作为优选,步骤S34的具体过程如下:
S341,设定Focal Loss损失函数的定义公式如下:
Figure BDA0003969321110000056
S342,将Focal Loss损失函数在平衡交叉熵损失函数的基础上,降低易分类样本权重,聚焦于困难样本的训练,具体定义如下:
FL(pt)=-αt(1-pt)βlog(pt)
公式中p是模型对于标签y=1的估计概率,引入了权重因子αt协调类不平衡的问题;(1-pt)γ表示的调节因子,γ≥0,为可调节的聚焦参数。
作为优选,步骤S4包括如下步骤:
S41,将修改后的YOLOv5模型,放入配置好的计算机环境,同时将步骤S2中配置好的参数添加至YOLOv5模型中;
S42,运用训练集和验证集标记好的图片对修改后的YOLOv5模型进行训练,训练过程中,将测试集里划分好的图片放入计算机中进行测试,获得每一个阶段训练的效果。
本发明还提供了基于YOLOv5模型的密集行人目标检测系统包括:
数据采集与预处理模块,用于对行人数据进行采集,形成数据集,并对数据集进行数据预处理;
参数配置模块,用于根据硬件设备的参数以及需要达到的识别效果,配置YOLOv5模型参数;
模型修改模块,用于对原YOLOv5模型进行修改,获得修改后的YOLOv5模型;
训练模块,用于将预处理后的数据集分成训练集,验证集和测试集;使用训练集和验证集对修改后的YOLOv5模型进行训练;
检测模块,用于使训练结束后的YOLOv5模型生成权重文件,并导入训练好的权重与待检测的图片,得到检测后的图片,最终比较识别效果和检测精度是否达到预期要求。
本发明与现有技术相比,有益效果是:(1)本发明采用了Mosaic-9数据增强,通过随机缩放和随机裁剪等操作,丰富检测行人的背景和小目标,一定程度上增加了检测速度,有效的提升了模型的泛化力;(2)本发明对于检测目标尺度相差过大的问题,通过在主干网络中嵌入坐标注意力机制(Coordinate Attention),增强了感受野,提升了对小目标的检测效果;同时在yolov5中引入了基于高分辨率的金字塔的尺度序列特征,即使图像尺度变化过大,但凸显的图像特征明显,能够轻易的获得目标信息;另外,通过将金字塔特征图调整为统一的分辨率,丰富了小目标信息,有效的增强了小目标特征,改善了小目标的AP值;(3)本发明在针对密集行人遮挡问题上,使用了Focal Loss损失函数来代替YOLOv5原有的损失函数,优化了分类损失,解决了正负样本不均衡的问题;使用DIOU-NMS算法替换NMS算法,在原有的基础上增加了一个惩罚项,优化了两个检测框中心点之间的距离,成功的检测出因密集遮挡的行人。
附图说明
图1为本发明中基于YOLOv5模型的密集行人目标检测方法的一种流程图;
图2为本发明中三种不同的尺度空间的一种示意图;
图3为本发明实施例提供的密集行人部分被遮挡的一种检测效果对比图;
图4为本发明实施例提供的检测对象为小目标的一种检测效果对比图;
图5为图4放大后的一种对比效果图;
图6为本发明实施例提供的一种检测结果图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
实施例:
如图1所示,本发明提供了基于YOLOv5模型的密集行人目标检测方法,其特征在于,包括如下步骤:
S1,对行人数据进行采集,形成数据集,并对数据集进行数据预处理;
S2,根据硬件设备的参数以及需要达到的识别效果,配置YOLOv5模型参数;
S3,对原YOLOv5模型进行修改,获得修改后的YOLOv5模型;
S4,将预处理后的数据集分成训练集,验证集和测试集;使用训练集和验证集对修改后的YOLOv5模型进行训练;
S5,训练结束后的YOLOv5模型生成权重文件,导入训练好的权重与待检测的图片,得到检测后的图片,比较识别效果和检测精度是否达到预期要求。
实际具体应用过程如下:
对于步骤S1:
首先对于行人数据的获取,本发明采用的是Crowded human数据集,可以在人群场景中更好的评估检测模型。Crowded human数据集注释丰富并且包含高度的多样性,原数据集里包含了20000张图像,总共有470K个来自训练和验证子集的人体实例,每个图像包含23个人,数据集中有各种遮挡的人群。将其按照一定的比例用于训练、验证和测试,数据集中的行人都用头部边界框、人体可见边界框和人体全身边界框进行注释。
在采集到足够的数据集后,使用Mosaic-9数据增强来对数据进行处理,如图1所示,具体地操作方法是在总数据集中取一个batch的数据,每次从中随机取出9张图片,进行随机位置的剪裁拼接和随机排列等操作,组合成一张新的图片,反复操作多次后,将得到的新数据反馈给神经网络进行训练。接着将增强后的数据集和对应的body标签按照8:2的比例划分训练集和验证集。
对于步骤S2:
在处理好数据图片后,接着修改网络模型yaml文件,首先将date文件夹下的voc.yaml文件里的标签类别改成body,本发明只使用到了一个标签,故类别数量定为1。接着把model yaml文件下的训练与验证的路径替换为当前数据集下的路径,后续模型训练使用的权重文件是官网下载的YOLOv5s.pt。本次发明的环境是:cuda11.3、深度学习框架pytorch1.12.1、Intel core i5-12450h cpu、16G内存和GPU为NVIDIA GeForce RTX 3060,显存为6G。
对于步骤S3:
1.如图1所示,Neck部分使用3D卷积去提取FPN的尺度序列特征,并与高分辨率的金字塔层相连接作用Head部分,提高小目标的检测效果。金字塔空间的生成是通过高斯滤波对图像进行模糊处理而不是直接调整图像的大小。尺度参数值越大,生成的图像越模糊。在这个理论中,模糊图像失去了细节,但图像的结构特征突出。计算方法如下:
Figure BDA0003969321110000081
fσ(x,y)=gσ(x,y)*f(x,y)
gσ(x,y)是二维高斯滤波器的表达式,(x,y)是以模糊半径为原点的坐标,在给定σ的情况下带入坐标,计算权值,然后用得到的权值和去除以对应的权值做一个归一化处理,得归一化的权值矩阵。而fσ(x,y)是由二维高斯滤波器经过一系列卷积平滑处理得到的。
低层次的金字塔特征图往往都包含着高分辨率与丰富的定位信息,特别是相对于小目标,高层次的金字塔特征图分辨率低,但是语义特征丰富。这样的结构特性十分相似于尺度空间,故本发明中将FPN看作是尺度空间,如图2(a)所示,然后调整金字塔特征图为特定的分辨率,通过连接相同分辨率的特征图生成通用视图(general view),如图2(b)所示,3D卷积在视频识别任务中用于提取视频中运动的物体,如图2(c)所示,本发明中将通用视图中的水平(level)轴类比于视频空间中的time时间轴,然后通过3D卷积去对通用视图做一个特征提取,提取出的这一特征就是所需的尺度序列特征:
Figure BDA0003969321110000091
其中
Figure BDA0003969321110000093
是3D卷积的尺度序列模块,如图1所示,在尺度序列模块中,基于金字塔特征图最高分辨率设计了尺度序列特征,通过将金字塔特征图所有的分辨率都调整为最高的分辨率,使用unsqueeze函数为每个特征图添加水平维度并将他们连接起来,生成通用视图,将其送入3D卷积模块中处理,在其中通过3D卷积、批规范化(batch normalization)和leaky激活函数连接,最后将这一生成的尺度序列特征与金字塔特征中的最高分辨率的一层相结合,作用于YOLOv5的Head部分检测小目标。
2.通过将主干网络(backbone)每个卷积层下都嵌入坐标注意力机制(Coordinateattention),获得增强的感受野,加强对小目标的检测效果。如图1Backbone部分所示,首先通过切片(Focus)模块对图像进行切片操作,接着进入卷积层与CSP-Darknet网络提取图像特征,嵌入的注意力机制能够同时搭建通道相关性和空间的远程依赖性,坐标注意力机制通过两个步骤使用精确的位置信息对通道关系和远程依赖进行编码:坐标信息嵌入和坐标注意生成。
具体的说,在给定输入的情况下,首先使用尺寸为(H,1)或着(1,w)的poolingkernel分别沿着水平坐标和垂直坐标对每个通道进行编码。因此,高度为h的第c通道表达式为:
Figure BDA0003969321110000092
同理可得,宽度为w的第c通道的输出可以写成:
Figure BDA0003969321110000101
公式中zC表示第c个通道的输出,H与W分别表示这图像尺寸的高度与宽度,xc(i,j)表示图像的位置信息。
这两种变换沿着两个空间方向聚合特征,得到一对方向感知的特征图,同时这两种变换也允许注意力模块捕捉到沿着一个空间方向的精确位置信息。得到精确编码信息特征后,进行拼接操作,送入1x1卷积F1得到表示编码空间信息的中间特征:
f=δ(Fi([zh,zW]))
[zh,zw]表示沿空间维度的串联操作,δ是非线性激活函数,f是中间特征图。
再沿着空间维度拆分:
gh=δ{Fh(fh)}
gω=δ{Fω(fw))
gh和gω分别为水平和垂直两个方向生成的注意力权重。
最终通过注意力模块输入:
Figure BDA0003969321110000102
Figure BDA0003969321110000103
Figure BDA0003969321110000104
分别表示gh和gω扩展后的权重。
3.本发明引入了DIOU-NMS算法替代原YOLOv5里的NMS,其在原本的IOU loss的基础上增加了一个惩罚项,作用于最小化两个检测框中心点的距离,DIOU用于NMS的计算中,考虑到重叠区域和中心点之间的距离,收敛的效果与速度都很好。
一般的IOU-based loss的定义式为下列公式:
Figure BDA0003969321110000105
Figure BDA0003969321110000106
是预测框B和目标框
Figure BDA0003969321110000107
的惩罚项,但是DIOU-NMS提出了能减少两个中心距离的惩罚项,公式如下:
Figure BDA0003969321110000111
其中b和
Figure BDA0003969321110000112
分别是B和
Figure BDA0003969321110000113
的中心点,
Figure BDA0003969321110000114
为欧几里得距离的平方,C是覆盖两个框的最小包围框的对角线长度。最终定义的公式:
Figure BDA0003969321110000115
4.本发明用Focal Loss损失函数来代替原有的损失函数来计算,解决样本不均衡的问题,其定义公式如下:
Figure BDA0003969321110000116
易分类的样本的分类错误的损失占了整体损失的绝大部分,并主导梯度,FocalLoss在平衡交叉熵损失函数的基础上,降低易分类样本权重,聚焦于困难样本的训练,其定义如下:
FL(pt)=-αt(1-pt)γlog(pt)
上述公式中p是模型对于标签y=1的估计概率,引入了权重因子αt协调类不平衡的问题。(1-pt)γ表示的调节因子,γ≥0,为可调节的聚焦参数。
对于步骤S4:
按照上文对着YOLOv5里的train.py和yaml修改,将改好的文件放在配置好的计算机的环境中,按照8:2划分的数据集进行训练,本发明设置的训练次数为100轮次,每次训练的图片为16张图片,训练过程时通过tensorboard可视化工具监控观察训练的map值。
对于步骤S5:
训练结束后,保存训练好的best.pt权重,然后修改detect.py里的权重路径和要测试的图片路径,运行程序,在runs文件夹下保存检测图片。
结合附图对本发明达到的效果进行说明,由图3可以看出,在行人处于密集状态下的情况,图3(a)为原YOLOv5算法下检测出来的图片,对于一些相互遮挡的人体,并没有能够识别出来,但在改进后的YOLOv5的模型上,可以看到原本一些检测不出的人体目标,也都成功检测到了。而对于小目标的检测,通过图4可以看出,其中上图(a)为原模型的检测结果,下图(b)为改进后的,而对于图片上较近的目标人体,上图(a)和下图(b)都成功检测到了人体信息,但是对于图片中左上角远处的小目标物体,原YOLOv5的检测未能成功的检测出小目标的人体,经过与改进后的YOLOv5模型比较,可以明显的看出,如图5所示,放大了这两张图片左上角的行人,一些处于分辨率不高且处于小目标状态的人体也能够准确的检测出来。
采用上述方案对不同场景下的人群进行识别,识别结果如附图6所示,一共检测到了226个行人信息,由最终结果可知:采用本发明方法对密集人群数据进行训练,训练得到的模型能够更精确的识别重叠和遮挡的人群和处于小目标下的行人。
本发明还提供了基于YOLOv5模型的密集行人目标检测系统包括:
数据采集与预处理模块,用于对行人数据进行采集,形成数据集,并对数据集进行数据预处理;
参数配置模块,用于根据硬件设备的参数以及需要达到的识别效果,配置YOLOv5模型参数;
模型修改模块,用于对原YOLOv5模型进行修改,获得修改后的YOLOv5模型;
训练模块,用于将预处理后的数据集分成训练集,验证集和测试集;使用训练集和验证集对修改后的YOLOv5模型进行训练;
检测模块,用于使训练结束后的YOLOv5模型生成权重文件,并导入训练好的权重与待检测的图片,得到检测后的图片,最终比较识别效果和检测精度是否达到预期要求。
本发明采用了Mosaic-9数据增强,通过随机缩放和随机裁剪等操作,丰富检测行人的背景和小目标,一定程度上增加了检测速度,有效的提升了模型的泛化力;本发明对于检测目标尺度相差过大的问题,通过在主干网络中嵌入坐标注意力机制(CoordinateAttention),增强了感受野,提升了对小目标的检测效果;同时在yolov5中引入了基于高分辨率的金字塔的尺度序列特征,即使图像尺度变化过大,但凸显的图像特征明显,能够轻易的获得目标信息;另外,通过将金字塔特征图调整为统一的分辨率,丰富了小目标信息,有效的增强了小目标特征,改善了小目标的AP值;本发明在针对密集行人遮挡问题上,使用了Focal Loss损失函数来代替YOLOv5原有的损失函数,优化了分类损失,解决了正负样本不均衡的问题;使用DIOU-NMS算法替换NMS算法,在原有的基础上增加了一个惩罚项,优化了两个检测框中心点之间的距离,成功的检测出因密集遮挡的行人。
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。

Claims (9)

1.基于YOLOv5模型的密集行人目标检测方法,其特征在于,包括如下步骤:
S1,对行人数据进行采集,形成数据集,并对数据集进行数据预处理;
S2,根据硬件设备的参数以及需要达到的识别效果,配置YOLOv5模型参数;
S3,对原YOLOv5模型进行修改,获得修改后的YOLOv5模型;
S4,将预处理后的数据集分成训练集,验证集和测试集;使用训练集和验证集对修改后的YOLOv5模型进行训练;
S5,训练结束后的YOLOv5模型生成权重文件,导入训练好的权重与待检测的图片,得到检测后的图片,比较识别效果和检测精度是否达到预期要求。
2.根据权利要求1所述的基于YOLOv5模型的密集行人目标检测方法,其特征在于,步骤S1中所述数据预处理为采用Mosica-9数据增强对对数据集进行数据预处理,具体包括如下步骤:
S11,在总数据集中取一组数据,每次从中随机取出若干个张图片,进行随机位置的剪裁拼接和随机排列操作,组合成一张新的图片;
S12,反复操作步骤S11多次后,将得到的新数据反馈给神经网络进行训练;
S13,将增强后的数据集和对应的图片标签,按照8:2的比例划分训练集和验证集。
3.根据权利要求1所述的基于YOLOv5模型的密集行人目标检测方法,其特征在于,步骤S2中所述硬件设备的参数包括计算机的内存以及显卡的大小;所述YOLOv5模型参数包括输入图像的尺寸大小、训练的次数和检测对象的类别。
4.根据权利要求1所述的基于YOLOv5模型的密集行人目标检测方法,其特征在于,步骤S3包括如下步骤:
S31,将原YOLOv5模型中FPN特征金字塔结构的水平轴视为尺度轴,利用3D卷积从FPN中提取尺度不变的特征变量,再将每个金字塔特征图均匀地调整为设定的高分辨率特征金字塔图,最后将高分辨率特征金字塔图与提取的尺度不变的特征变量相连接,用于YOLO模型Head头部部分检测小目标;
S32,在主干网络嵌入坐标注意力机制,所述坐标注意力机制利用两个并行的一维全局池化操作,将垂直和水平两个方向的输入特征聚合为两个独立的方向注意力图,从而将空间坐标信息整合到提取的特征图中;
S33,使用DIOU-NMS基于距离交并比的非极大值抑制算法替换原YOLOv5模型中的NMS非极大值抑制算法;DIOU-NMS算法在原本的IOU loss损失函数的基础上增加了一个惩罚项,作用于最小化两个检测框中心点的距离;
S34,引入focal loss损失函数,通过一个动态缩放因子,降低训练过程中易区分样本的权重,将重心快速聚焦在难区分的正负样本,增大困难样本的损失权重。
5.根据权利要求4所述的基于YOLOv5模型的密集行人目标检测方法,其特征在于,步骤S32的具体过程如下:
S321,在给定输入的情况下,首先使用尺寸为(H,1)或(1,w)的pooling kernel池化层分别沿着水平坐标和垂直坐标对每个通道进行编码;得到高度为h的第c通道表达式为:
Figure FDA0003969321100000021
同理可得,宽度为w的第c通道的输出可以写成:
Figure FDA0003969321100000022
公式中zC表示第c个通道的输出,H与W分别表示这图像尺寸的高度与宽度,xc(i,j)表示图像的位置信息;
S322,垂直和水平两种变换沿着两个空间方向聚合特征,得到一对方向感知的特征图,同时允许注意力模块捕捉到沿着一个空间方向的精确位置信息;
S323,得到精确编码信息特征后,进行拼接操作,送入1x1卷积F1得到表示编码空间信息的中间特征:
f=δ(F1([zh,zw]))
[zh,zw]表示沿空间维度的串联操作,δ是非线性激活函数,f是中间特征图;
再沿着空间维度拆分:
gh=δ{Fh(fh)}
gω=δ{Fω(fw)}
gh和gω分别为水平和垂直两个方向生成的注意力权重;
最终通过注意力模块输入:
Figure FDA0003969321100000031
Figure FDA0003969321100000032
Figure FDA0003969321100000033
分别表示gh和gω扩展后的权重。
6.根据权利要求4所述的基于YOLOv5模型的密集行人目标检测方法,其特征在于,步骤S33的具体过程如下:
S331,设定IOUloss损失函数的定义式为下列公式:
Figure FDA0003969321100000034
Figure FDA0003969321100000035
是预测框B和目标框
Figure FDA0003969321100000036
的惩罚项;
DIOU-NMS算法减少两个中心距离的惩罚项,公式如下:
Figure FDA0003969321100000037
其中b和
Figure FDA0003969321100000038
分别是B和
Figure FDA0003969321100000039
的中心点,
Figure FDA00039693211000000310
为欧几里得距离的平方,C是覆盖两个框的最小包围框的对角线长度;最终定义的公式为:
Figure FDA00039693211000000311
7.根据权利要求4所述的基于YOLOv5模型的密集行人目标检测方法,其特征在于,步骤S34的具体过程如下:
S341,设定Focal Loss损失函数的定义公式如下:
Figure FDA0003969321100000041
S342,将Focal Loss损失函数在平衡交叉熵损失函数的基础上,降低易分类样本权重,聚焦于困难样本的训练,具体定义如下:
FL(pt)=-αt(1-pt)γlog(pt)
公式中p是模型对于标签y=1的估计概率,引入了权重因子αt协调类不平衡的问题;(1-pt)γ表示的调节因子,γ≥0,为可调节的聚焦参数。
8.根据权利要求1所述的基于YOLOv5模型的密集行人目标检测方法,其特征在于,步骤S4包括如下步骤:
S41,将修改后的YOLOv5模型,放入配置好的计算机环境,同时将步骤S2中配置好的参数添加至YOLOv5模型中;
S42,运用训练集和验证集标记好的图片对修改后的YOLOv5模型进行训练,训练过程中,将测试集里划分好的图片放入计算机中进行测试,获得每一个阶段训练的效果。
9.基于YOLOv5模型的密集行人目标检测系统,用于实现权利要求1-8任一项所述的基于YOLOv5模型的密集行人目标检测方法,其特征在于,所述基于YOLOv5模型的密集行人目标检测系统包括:
数据采集与预处理模块,用于对行人数据进行采集,形成数据集,并对数据集进行数据预处理;
参数配置模块,用于根据硬件设备的参数以及需要达到的识别效果,配置YOLOv5模型参数;
模型修改模块,用于对原YOLOv5模型进行修改,获得修改后的YOLOv5模型;
训练模块,用于将预处理后的数据集分成训练集,验证集和测试集;使用训练集和验证集对修改后的YOLOv5模型进行训练;
检测模块,用于使训练结束后的YOLOv5模型生成权重文件,并导入训练好的权重与待检测的图片,得到检测后的图片,最终比较识别效果和检测精度是否达到预期要求。
CN202211511629.3A 2022-11-29 2022-11-29 基于YOLOv5模型的密集行人目标检测方法及系统 Active CN115797970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211511629.3A CN115797970B (zh) 2022-11-29 2022-11-29 基于YOLOv5模型的密集行人目标检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211511629.3A CN115797970B (zh) 2022-11-29 2022-11-29 基于YOLOv5模型的密集行人目标检测方法及系统

Publications (2)

Publication Number Publication Date
CN115797970A true CN115797970A (zh) 2023-03-14
CN115797970B CN115797970B (zh) 2023-08-18

Family

ID=85443064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211511629.3A Active CN115797970B (zh) 2022-11-29 2022-11-29 基于YOLOv5模型的密集行人目标检测方法及系统

Country Status (1)

Country Link
CN (1) CN115797970B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152633A (zh) * 2023-04-18 2023-05-23 天津大学 一种基于空间特征表示的目标检测网络的检测方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021139069A1 (zh) * 2020-01-09 2021-07-15 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法
CN113837275A (zh) * 2021-09-24 2021-12-24 南京邮电大学 基于扩张坐标注意力的改进YOLOv3目标检测方法
CN114330529A (zh) * 2021-12-24 2022-04-12 重庆邮电大学 一种基于改进YOLOv4的遮挡行人实时检测方法
CN114387520A (zh) * 2022-01-14 2022-04-22 华南农业大学 一种用于机器人采摘的密集李子精准检测方法及其系统
CN115272828A (zh) * 2022-08-11 2022-11-01 河南省农业科学院农业经济与信息研究所 一种基于注意力机制的密集目标检测模型训练方法
CN115601321A (zh) * 2022-10-11 2023-01-13 河南理工大学(Cn) 基于双向特征融合金字塔ssd的铁矿石异物识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021139069A1 (zh) * 2020-01-09 2021-07-15 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法
CN113837275A (zh) * 2021-09-24 2021-12-24 南京邮电大学 基于扩张坐标注意力的改进YOLOv3目标检测方法
CN114330529A (zh) * 2021-12-24 2022-04-12 重庆邮电大学 一种基于改进YOLOv4的遮挡行人实时检测方法
CN114387520A (zh) * 2022-01-14 2022-04-22 华南农业大学 一种用于机器人采摘的密集李子精准检测方法及其系统
CN115272828A (zh) * 2022-08-11 2022-11-01 河南省农业科学院农业经济与信息研究所 一种基于注意力机制的密集目标检测模型训练方法
CN115601321A (zh) * 2022-10-11 2023-01-13 河南理工大学(Cn) 基于双向特征融合金字塔ssd的铁矿石异物识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丁文杰;苗笛;高宇杭;陈思锦;: "一种基于改进YOLOv3的密集人群检测算法", 科技与创新, no. 18 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152633A (zh) * 2023-04-18 2023-05-23 天津大学 一种基于空间特征表示的目标检测网络的检测方法和系统

Also Published As

Publication number Publication date
CN115797970B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN106874894B (zh) 一种基于区域全卷积神经网络的人体目标检测方法
CN108334848B (zh) 一种基于生成对抗网络的微小人脸识别方法
CN104933414B (zh) 一种基于wld-top的活体人脸检测方法
CN104166841B (zh) 一种视频监控网络中指定行人或车辆的快速检测识别方法
CN108416266B (zh) 一种利用光流提取运动目标的视频行为快速识别方法
CN103824070B (zh) 一种基于计算机视觉的快速行人检测方法
CN111259850A (zh) 一种融合随机批掩膜和多尺度表征学习的行人重识别方法
CN105825183B (zh) 基于部分遮挡图像的人脸表情识别方法
CN110008909B (zh) 一种基于ai的实名制业务实时稽核系统
US20110019920A1 (en) Method, apparatus, and program for detecting object
CN107977656A (zh) 一种行人重识别方法及系统
CN106610969A (zh) 基于多模态信息的视频内容审查系统及方法
CN104008370A (zh) 一种视频人脸识别方法
CN113920107A (zh) 一种基于改进yolov5算法的绝缘子破损检测方法
Yang et al. Spatiotemporal trident networks: detection and localization of object removal tampering in video passive forensics
CN112801037A (zh) 一种基于连续帧间差异的人脸篡改检测方法
CN115797970B (zh) 基于YOLOv5模型的密集行人目标检测方法及系统
CN113486712B (zh) 一种基于深度学习的多人脸识别方法、系统和介质
CN117437691A (zh) 一种基于轻量化网络的实时多人异常行为识别方法及系统
CN112989958A (zh) 基于YOLOv4与显著性检测的安全帽佩戴识别方法
Wang et al. Text detection algorithm based on improved YOLOv3
CN112001448A (zh) 一种形状规则小物体检测方法
CN113537165B (zh) 一种行人打闹的检测方法和系统
CN116259087A (zh) 一种低分辨率人脸识别方法
CN116189286A (zh) 一种视频图像暴力行为检测模型及检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant