CN115375964A - 一种基于YOLOv5模型改进的方法及装置 - Google Patents

一种基于YOLOv5模型改进的方法及装置 Download PDF

Info

Publication number
CN115375964A
CN115375964A CN202210899169.XA CN202210899169A CN115375964A CN 115375964 A CN115375964 A CN 115375964A CN 202210899169 A CN202210899169 A CN 202210899169A CN 115375964 A CN115375964 A CN 115375964A
Authority
CN
China
Prior art keywords
model
data set
yolov5 model
yolov5
improved
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210899169.XA
Other languages
English (en)
Inventor
周翊民
张洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202210899169.XA priority Critical patent/CN115375964A/zh
Publication of CN115375964A publication Critical patent/CN115375964A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉领域,具体涉及一种基于YOLOv5模型改进的方法及装置,针对复杂场景很难获取数据集的问题,本发明通过图像处理方法,根据实际场景的特点构造与实际场景特征分布相近的数据集,获取满足适合模型训练阶段所需的数据。对多种复杂场景特点进行特征提取,并应用于数据集的数据增强当中,使得经过模拟数据集训练后的改进模型可以实现对行人安全的高精度实时自动检测。

Description

一种基于YOLOv5模型改进的方法及装置
技术领域
本发明涉及计算机视觉领域,具体而言,涉及一种基于YOLOv5模型改进的方法及装置。
背景技术
近年来,随着计算机视觉技术的发展,深度学习方法特别是卷积神经网络被引入到人员的安全检测任务中。常见的安全检测任务如口罩检测和安全帽检测已经有一些研究。Wang等人将Faster-RCNN和InceptionV2结构结合起来进行口罩检测任务,并在自建的数据集中进行了验证,取得了不错的结果。Vinh等人设计了一种基于YOLOv3的实时口罩检测器,并结合Haar级联分类器检测人脸,最终在实际办公室应用场景中得到验证。Deng等人将YOLOv4用于安全帽检测任务,使用K-Means算法和多尺度训练策略提升模型性能,并通过施工现场的视频制作数据集,验证了方案的有效性。
常见的有行人安全检测需求的复杂场景有煤矿井下环境等场景,在该场景中,由于容易受到煤矿井下光线不均匀、灰尘密集等影响,上述安全检测方法不能直接引入到煤矿环境中,且目前并没有公开的煤矿数据集可满足矿工安全检测任务的需求。煤炭产业作为一种高危产业,虽然通常在各个巷道安装了大量的摄像头,但目前大多视频图像资源没有被有效的利用。同时,由于中小型煤矿的开采环境十分复杂,采矿人员通常在极端恶劣的条件下开展工作,每年有超过数百名矿工死于煤矿事故,因此有必要将煤矿井下的行人安全检测作为重要的基础设施进行部署,以防止或者减少煤矿事故的发生。针对该环境的检测任务已经有不少学者进行了研究,Zhang和Li等人分别将目前最流行的二阶段目标检测方法Faster-RCNN用于矿井火灾救援和行人检测,虽然精准度较高,但在实时性方面还有所欠缺。Wei提出了基于并行特征传输的PftNet模型,在普通行人检测方面得到了比传统一阶段检测器如YOLOv2和SSD更好的效率以及保持了与两阶段方法如Faster-RCNN相当的精度。
现有的大多数深度学习目标检测模型虽然识别精度较高,但由于模型的复杂度高、体积大及参数多,很多模型的实时性不能满足要求。且传统行人安全检测容易受到复杂环境因素的影响,比如光线昏暗以及粉尘密集等问题。因此有必要设计一种轻量化的适用于复杂场景下的实时行人安全检测方法,在保证识别精度仍然很高的同时,满足实时识别的要求。由于传统深度学习方法需要大量有效数据集进行预训练,但真实场景往往不能提供所需数据集,且由于不同场景的环境以及采集到的图像和视频等数据有可能存在较大的差异,使用普通场景样本去训练模型可能无法逼近其他场景的真实分布,导致模型在测试数据上表现不好。
因此,现有技术还存在缺陷,有待进一步发展。
发明内容
本发明实施例提供了一种基于YOLOv5模型改进的方法及装置,以使经过训练后的改进YOLOv5模型可以实现对人安全的高精度实时自动检测。
根据本发明的一实施例,提供了一种基于YOLOv5模型改进的方法,包括以下步骤:
基于获取的复杂场景的特征图片构建特征数据集;
使用YOLOv5模型作为基础模型,将YOLOv5模型的骨干网络中的最后一层替换为视觉Transformer层,通过视觉Transformer层对特征数据集中的图像进行处理;
将YOLOv5模型中的卷积层内应用的激活函数换做为Meta-AconC激活函数使用;
使用加权非极大值抑制方法加入到YOLOv5模型的后处理阶段,得到改进后的YOLOv5模型;
将构建的特征数据集输入至改进后的YOLOv5模型中进行训练,得到训练后的YOLOv5模型。
进一步地,基于获取的复杂场景的特征构建数据集具体为:
获取欲检测的复杂场景的特征图片;
基于检测需求及安全检测场景,添加真实场景数据及纯背景图片数据以进行数据集扩充;
对数据集设置标签,并对全部数据集进行重新标注,以构建特征数据集。
进一步地,获取欲检测的复杂场景的特征图片具体为:
针对图像特点进行抽象化以完成特定的数据集增强操作;
将数据集增加各种类型不同的噪点;
将较高分辨率的图像和视频数据集图片增加模糊效果;
对数据集使用多图片拼接技术,以使小目标行人更容易被检测获取。
进一步地,对数据集设置标签,并对全部数据集进行重新标注,以构建特征数据集具体包括:
对数据集设置标签类型,标签类型包括行人、安全帽、香烟、口罩、烟雾以及火焰;
将制作完毕的全部数据集进行重新标注,以保证标签类型在每张图片中均被完整标注。
进一步地,加权非极大值抑制方法根据网络预测的置信度进行加权,得到新的矩形框,把矩形框作为最终预测的检测框。
进一步地,在使用加权非极大值抑制方法加入到YOLOv5模型的后处理阶段,得到改进后的YOLOv5模型之后还包括:
在YOLOv5模型测试阶段,使用测试时间增强技术极大的提高对YOLOv5模型的检测精度。
进一步地,将构建的特征数据集输入至改进后的YOLOv5模型中进行训练,得到训练后的YOLOv5模型具体为:
将构建的特征数据集中输入至改进后的YOLOv5模型进行训练,输入的批量大小设置为32-64,训练轮数设置为100-300。
一种基于YOLOv5模型改进的装置,包括:
数据获取模块,用于基于获取的复杂场景的特征图片构建特征数据集;
图像特征提取模块,用于使用YOLOv5模型作为基础模型,将YOLOv5模型的骨干网络中的最后一层替换为视觉Transformer层,通过视觉Transformer层对特征数据集中的图像进行处理;
非线性计算模块,用于将YOLOv5模型中的卷积层内应用的激活函数换做为Meta-AconC激活函数使用;
后处理筛选模块,用于使用加权非极大值抑制方法加入到YOLOv5模型的后处理阶段,得到改进后的YOLOv5模型;
训练模块,用于将构建的特征数据集输入至改进后的YOLOv5模型中进行训练,得到训练后的YOLOv5模型。
一种计算机可读介质,计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现如上述任意一项的基于YOLOv5模型改进的方法中的步骤。
一种终端设备,包括:处理器、存储器及通信总线;存储器上存储有可被处理器执行的计算机可读程序;
通信总线实现处理器和存储器之间的连接通信;
处理器执行计算机可读程序时实现如上述任意一项的基于YOLOv5模型改进的方法中的步骤。
本发明实施例中的基于YOLOv5模型改进的方法及装置,针对复杂场景很难获取数据集的问题,本发明通过图像处理方法,根据实际场景的特点构造与实际场景特征分布相近的数据集,获取满足适合模型训练阶段所需的数据。对多种复杂场景特点进行特征提取,并应用于数据集的数据增强当中,使得经过模拟数据集训练后的改进模型可以实现对行人安全的高精度实时自动检测。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明基于YOLOv5模型改进的方法的流程图;
图2为本发明基于YOLOv5模型改进的装置的原理图;
图3为本发明终端设备原理图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
本发明涉及一种适用于复杂场景下的实时行人安全检测方法,主要针对现有以下技术问题:针对现有的大多数深度学习目标检测模型虽然识别精度较高,但由于模型的复杂度高,体积大,参数多,很多模型的实时性不能满足要求的问题;以及传统行人安全检测容易受到复杂环境因素的影响,比如光线昏暗以及粉尘密集等问题;同时考虑到传统深度学习方法需要大量有效数据集进行预训练,但真实场景往往不能提供所需数据集的问题,设计了一种与真实场景分布接近的数据集制作方案以及一种适用于复杂场景下的实时行人安全检测方法。
基于现有技术问题,根据本发明一实施例,提供了一种基于深度学习的煤矿井下行人安全检测方法,参见图1,包括以下步骤:
S100:基于获取的复杂场景的特征图片构建特征数据集。
S101:获取欲检测的复杂场景的特征图片。
搜集欲检测的复杂场景的特征,本发明以煤矿井下场景为例。煤矿井下的典型场景特征有光线昏暗、亮度和对比度低、空气中弥漫粉尘、成像结果多为低分辨率和较模糊的图像和视频、有大量小目标以及被遮挡的行人目标等。将这些特征抽象化以进行图像处理以及数据增强等操作。
具体地,总结出一些真实煤矿矿井场景的特点,针对这些特点进行抽象化以完成特定的数据增强操作。如为了模拟光线昏暗的场景将数据集亮度和对比度调低;将数据集增加各种类型不同的噪点以模拟粉尘的影响;为模拟真实场景成像多为较高分辨率的图像和视频,将数据集图片增加模糊效果;为使小目标行人更容易被检测,使用多图片拼接技术如Mosaic方法(四张图片随机尺寸比例合成一张图片);对于可能会出现的遮挡或重叠情况,使用Cutout方法和MixUp方法等(两张图片部分区域重叠)。除上述数据增强方法外,常用的图像翻转,旋转和随机裁剪等数据增广方法也会被使用到以扩充数据集的数量,降低过拟合现象的发生概率。
S102:基于检测需求及安全检测场景,添加真实场景数据及纯背景图片数据以进行数据集扩充。
本发明考虑了如有无安全帽、是否产生烟雾或火焰、是否戴口罩或面罩以及是否抽烟等安全检测场景,再配合一些纯背景的图片以及真实的煤矿场景数据集一起进行数据增强以达到数据集的模拟和扩充。
S103:对数据集设置标签,并对全部数据集进行重新标注,以构建特征数据集。
本发明对进行实验的数据集设置了六种标签类型,分别是行人、安全帽、香烟、口罩、烟雾以及火焰。将制作完毕的全部数据集进行重新标注,以保证标签在每张图片中均被完整标注。标注后的数据集即可帮助后续改进算法提升模型性能,充分利用迁移学习的优势对模型进行预训练,使模型初始性能更高,性能提升更快,收敛的能力更好。
S200:使用YOLOv5模型作为基础模型,将YOLOv5模型的骨干网络中的最后一层替换为视觉Transformer层,通过视觉Transformer层对特征数据集中的图像进行处理。
具体地,使用YOLOv5模型作为基础模型,对其进行改进。将模型骨干网络当中的最后一个模块替换为视觉Transformer(ViT)层,可以有效提高检测精度。通过实验发现,将骨干网络最后一层的CSP Bottleneck层替换为ViT可以保证在不需要大量额外计算资源的前提下,提高模型的检测准确性。
为了让ViT模型可以处理图片,首先要把每一张图片划分为很多个类似自然语言处理中的Patches,然后把Patches序列传入ViT。给定一个H×W×C(H、W为高度和宽度,C为图像的通道数,彩色图像的通道数为3)的图像以及Patch大小P,可以把图像划分为N个P×P×C的Patches,其中N=H×W/(P×P)。得到Patch后要使用线性变换将其转为D维特征向量,再加上位置编码向量,最终利用标志位的最终输出特征进行分类。
S300:将YOLOv5模型中的卷积层内应用的激活函数换做为Meta-AconC激活函数使用。
将模型中卷积层内应用的激活函数应用成Meta-AconC激活函数,可以达到在不需要更多的计算资源的情况下,显著的提升模型的性能的效果。
具体地,使用Acon-C和Meta-AconC激活函数应用于模型的各个卷积层中。该激活函数统一了ReLU和Swish激活函数,可以自适应地学习激活与否,简单却十分有效。使用Meta-AconC激活函数可以到在不需要更多的计算资源的情况下,显著的提升模型的性能的效果。MetaAconC借鉴了ReLU和Swish激活函数,它的公式如下所示:
FMeta-AconC(x)=(p1×x-p2×x)×sigmoid(β×(p1×x-p2×x))+p2×x
Figure BDA0003770290320000081
其中x代表输入,pi(i=1,2)是由神经网络学习的超参数(p1≠p2),β是由小网络生成的参数,sigmoid(·)是Sigmoid激活函数,FMeta-AconC(x)为经过激活函数非线性计算之后的输出。ACON激活函数通过β的值来控制是否激活神经元(如果β等于0,则神经元不被激活)。Meta-AconC虽然带来了一定的参数量,但是对大网络和小网络都有一定的提升。
S400:使用加权非极大值抑制方法加入到YOLOv5模型的后处理阶段,得到改进后的YOLOv5模型。
将加权非极大值抑制方法加入到模型的后处理阶段,进一步提升模型的精度。在后处理阶段,本发明使用加权非极大值抑制方法(Merge-NMS)。与传统的非极大值抑制方法(NMS)相比,Merge-NMS在进行筛选检测框的过程中并未将那些与当前检测框类别相同且IoU大于阈值的框直接剔除,而是根据网络预测的置信度进行加权,得到新的矩形框,把该矩形框作为最终预测的检测框,这种做法可以提升模型的精确度。将其替代原模型后处理部分所使用的标准NMS后,在没有产生较多的检测时间的情况下,可以得到更好的检测结果。
步骤S400之后还包括:
在所述YOLOv5模型测试阶段,使用测试时间增强技术极大的提高对所述YOLOv5模型的检测精度。在测试和检测阶段,使用测试时间增强(TTA)技术可以极大的提高检测精度,但该方案会导致模型的实时性能变差,故仅可在追求高检测精度的需求下使用。
在测试和检测阶段,针对具有高性能计算硬件且希望得到更高准确率的无须要求实时性的使用场景,使用测试时间增强(TTA)技术可以极大的提高检测精度,可以在检测静态图片或非实时视频时取得很好的结果。TTA技术会为原始图像造出多个不同的版本,包括不同区域裁剪和更改缩放程度等,并将它们输入到模型中,然后对多个版本进行计算得到平均输出,作为图像的最终输出分数,最终提高模型的准确率。但该方案会导致模型的实时性能变差,故仅可在追求高检测精度的需求下使用。
S500:将构建的特征数据集输入至改进后的YOLOv5模型中进行训练,得到训练后的YOLOv5模型。
基于PyTorch与OpenCV等算法开发环境和工具包,使用在目标检测领域最常用的微软目标检测数据集MS COCO上预训练过的原始YOLOv5模型,经过上述改进后,将改进后的YOLOv5模型在前述构建的数据集中训练,输入的批量大小设置为32-64,训练轮数设置为100-300,优选为批量大小Batch Size设置为32,训练轮数Epoch设置为100,输入图片尺寸设置为640*640。
本发明实施例中的基于YOLOv5模型改进的方法及装置,针对复杂场景很难获取数据集的问题,本发明通过图像处理方法,根据实际场景的特点构造与实际场景特征分布相近的数据集,获取满足适合模型预训练阶段所需的数据。对多种复杂场景特点进行特征提取,并应用于数据集的数据增强当中,使得经过模拟数据集训练后的改进模型可以实现对行人安全的高精度实时自动检测。
本发明以煤矿井下的安全检测为例,针对矿井下图像或视频成像的特点,构建可以模拟不同环境的煤矿井下行人安全检测数据集,并提出一种基于改进的YOLOv5的检测方法,在拥有快速的检测速度的同时还实现了可以比拟二阶段检测器的高检测精度。经过模拟数据集训练后的改进模型可以实现对煤矿井下行人安全的高精度实时自动检测。其余复杂场景均可在总结该场景特点后应用本发明所用方法。
应用上述方法进行模型的改进,该YOLOv5模型在检测精度和速度方面取得了十分理想的结果,可以完成在复杂场景下的实时行人安全检测任务,且可在该场景下获得比同类检测器更好的精度和速度的平衡。
本发明针对复杂场景很难获取深度学习所需要的数据集这一问题,设计了抽象场景特征并对特征在数据集中的体现进行相应数据增强或图像处理操作,以满足深度学习训练数据集缺少问题,减少过拟合情况的发生。
在模型精度和速度方面做到了较好的平衡,通过改进YOLOv5算法,实现了保持原有模型实时性能的同时,大幅提高检测精度。提出了一种针对煤矿井下场景的数据集制作方案,再以真实场景图片作为测试集的测试实验中体现出了其实用性。
和现有的安全检测技术方法相比,本发明的优点主要体现在:
(1)模型的复杂度低,体积小,参数少,但精度高,在满足优秀的检测性能的同时,还满足了实时检测的要求。
(2)针对复杂场景很难获取数据集的问题,本发明通过图像处理等方法,根据实际场景的特点构造与实际场景特征分布相近的数据集,满足适合模型训练阶段所需的数据。
(3)对多种复杂场景特点进行特征提取,并应用于数据集的数据增强当中,如光线昏暗、噪声影响、低分辨率、小目标和遮挡等情况。
实施例2
根据本发明的另一实施例,提供了一种基于YOLOv5模型改进的装置,参见图2,包括:
数据获取模块100,用于基于获取的复杂场景的特征图片构建特征数据集;
图像特征提取模块200,用于使用YOLOv5模型作为基础模型,将YOLOv5模型的骨干网络中的最后一层替换为视觉Transformer层,通过视觉Transformer层对特征数据集中的图像进行处理;
非线性计算模块300,用于将YOLOv5模型中的卷积层内应用的激活函数换做为Meta-AconC激活函数使用;
后处理筛选模块400,用于使用加权非极大值抑制方法加入到YOLOv5模型的后处理阶段,得到改进后的YOLOv5模型;
训练模块500,用于将构建的特征数据集输入至改进后的YOLOv5模型中进行训练,得到训练后的YOLOv5模型。
本发明实施例中的基于YOLOv5模型改进的方法及装置,针对复杂场景很难获取数据集的问题,本发明通过图像处理方法,根据实际场景的特点构造与实际场景特征分布相近的数据集,获取满足适合模型预训练阶段所需的数据。对多种复杂场景特点进行特征提取,并应用于数据集的数据增强当中,使得经过模拟数据集预训练后的改进模型可以实现对行人安全的高精度实时自动检测。
本发明以煤矿井下的安全检测为例,针对矿井下图像或视频成像的特点,构建可以模拟不同环境的煤矿井下行人安全检测数据集,并提出一种基于改进的YOLOv5的检测方法,在拥有快速的检测速度的同时还实现了可以比拟二阶段检测器的高检测精度。经过模拟数据集预训练后的改进模型可以实现对煤矿井下行人安全的高精度实时自动检测。其余复杂场景均可在总结该场景特点后应用本发明所用方法。
实施例3
基于上述基于YOLOv5模型改进的方法,本实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现如上述实施例的基于YOLOv5模型改进的方法中的步骤。
实施例4
一种终端设备,包括:处理器、存储器及通信总线;存储器上存储有可被处理器执行的计算机可读程序;通信总线实现处理器和存储器之间的连接通信;处理器执行计算机可读程序时实现上述的基于YOLOv5模型改进的方法中的步骤。
基于上述基于YOLOv5模型改进的方法,本申请提供了一种终端设备,如图3所示,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(Communications Interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
此外,上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于YOLOv5模型改进的方法,其特征在于,包括以下步骤:
基于获取的复杂场景的特征图片构建特征数据集;
使用所述YOLOv5模型作为基础模型,将所述YOLOv5模型的骨干网络中的最后一层替换为视觉Transformer层,通过所述视觉Transformer层对所述特征数据集中的图像进行处理;
将所述YOLOv5模型中的卷积层内应用的激活函数换做为Meta-AconC激活函数使用;
使用加权非极大值抑制方法加入到所述YOLOv5模型的后处理阶段,得到改进后的所述YOLOv5模型;
将构建的所述特征数据集输入至改进后的所述YOLOv5模型中进行训练,得到训练后的所述YOLOv5模型。
2.根据权利要求1所述的基于YOLOv5模型改进的方法,其特征在于,所述基于获取的复杂场景的特征构建数据集具体为:
获取欲检测的复杂场景的特征图片;
基于检测需求及安全检测场景,添加真实场景数据及纯背景图片数据以进行数据集扩充;
对所述数据集设置标签,并对全部所述数据集进行重新标注,以构建所述特征数据集。
3.根据权利要求1所述的基于YOLOv5模型改进的方法,其特征在于,所述获取欲检测的复杂场景的特征图片具体为:
针对图像特点进行抽象化以完成特定的数据集增强操作;
将所述数据集增加各种类型不同的噪点;
将较高分辨率的图像和视频数据集图片增加模糊效果;
对所述数据集使用多图片拼接技术,以使小目标行人更容易被检测获取。
4.根据权利要求2所述的基于YOLOv5模型改进的方法,其特征在于,所述对所述数据集设置标签,并对全部所述数据集进行重新标注,以构建所述特征数据集具体包括:
对所述数据集设置标签类型,所述标签类型包括行人、安全帽、香烟、口罩、烟雾以及火焰;
将制作完毕的全部所述数据集进行重新标注,以保证所述标签类型在每张图片中均被完整标注。
5.根据权利要求2所述的基于YOLOv5模型改进的方法,其特征在于,所述加权非极大值抑制方法根据网络预测的置信度进行加权,得到新的矩形框,把所述矩形框作为最终预测的检测框。
6.根据权利要求2所述的基于YOLOv5模型改进的方法,其特征在于,在所述使用加权非极大值抑制方法加入到所述YOLOv5模型的后处理阶段,得到改进后的所述YOLOv5模型之后还包括:
在所述YOLOv5模型测试阶段,使用测试时间增强技术极大的提高对所述YOLOv5模型的检测精度。
7.根据权利要求5所述的基于YOLOv5模型改进的方法,其特征在于,所述将构建的所述特征数据集输入至改进后的所述YOLOv5模型中进行训练,得到训练后的所述YOLOv5模型具体为:
将构建的所述特征数据集中输入至改进后的所述YOLOv5模型进行训练,输入的批量大小设置为32-64,训练轮数设置为100-300。
8.一种基于YOLOv5模型改进的装置,其特征在于,包括:
数据获取模块,用于基于获取的复杂场景的特征图片构建特征数据集;
图像特征提取模块,用于使用所述YOLOv5模型作为基础模型,将所述YOLOv5模型的骨干网络中的最后一层替换为视觉Transformer层,通过所述视觉Transformer层对所述特征数据集中的图像进行处理;
非线性计算模块,用于将所述YOLOv5模型中的卷积层内应用的激活函数换做为Meta-AconC激活函数使用;
后处理筛选模块,用于使用加权非极大值抑制方法加入到所述YOLOv5模型的后处理阶段,得到改进后的所述YOLOv5模型;
训练模块,用于将构建的所述特征数据集输入至改进后的所述YOLOv5模型中进行训练,得到训练后的所述YOLOv5模型。
9.一种计算机可读介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-7任意一项所述的基于YOLOv5模型改进的方法中的步骤。
10.一种终端设备,其特征在于,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如权利要求1-7任意一项所述的基于YOLOv5模型改进的方法中的步骤。
CN202210899169.XA 2022-07-28 2022-07-28 一种基于YOLOv5模型改进的方法及装置 Pending CN115375964A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210899169.XA CN115375964A (zh) 2022-07-28 2022-07-28 一种基于YOLOv5模型改进的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210899169.XA CN115375964A (zh) 2022-07-28 2022-07-28 一种基于YOLOv5模型改进的方法及装置

Publications (1)

Publication Number Publication Date
CN115375964A true CN115375964A (zh) 2022-11-22

Family

ID=84064094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210899169.XA Pending CN115375964A (zh) 2022-07-28 2022-07-28 一种基于YOLOv5模型改进的方法及装置

Country Status (1)

Country Link
CN (1) CN115375964A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681644A (zh) * 2023-02-03 2023-09-01 红云红河烟草(集团)有限责任公司 基于变分贝叶斯推理的烟支外观缺陷检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681644A (zh) * 2023-02-03 2023-09-01 红云红河烟草(集团)有限责任公司 基于变分贝叶斯推理的烟支外观缺陷检测方法
CN116681644B (zh) * 2023-02-03 2024-01-12 红云红河烟草(集团)有限责任公司 基于变分贝叶斯推理的烟支外观缺陷检测方法

Similar Documents

Publication Publication Date Title
CN111209810B (zh) 向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构
CN107862270B (zh) 人脸分类器训练方法、人脸检测方法及装置、电子设备
CN111414887B (zh) 基于yolov3算法的二次检测口罩人脸识别方法
US20180114071A1 (en) Method for analysing media content
CN110490136B (zh) 一种基于知识蒸馏的人体行为预测方法
CN110827505A (zh) 一种基于深度学习的烟雾分割方法
Cheng et al. Smoke detection and trend prediction method based on Deeplabv3+ and generative adversarial network
CN108280426B (zh) 基于迁移学习的暗光源表情识别方法及装置
CN111626090B (zh) 一种基于深度帧差卷积神经网络的运动目标检测方法
CN111814638A (zh) 基于深度学习的安防场景火焰检测方法
CN111931719B (zh) 高空抛物检测方法以及装置
CN113052010A (zh) 一种基于深度学习的人员口罩佩戴数据集生成方法
CN113553977A (zh) 一种基于改进yolo v5的安全帽检测方法和系统
CN104484040A (zh) 一种多媒体互动教学控制系统及教学控制方法
CN115375964A (zh) 一种基于YOLOv5模型改进的方法及装置
US20230222841A1 (en) Ensemble Deep Learning Method for Identifying Unsafe Behaviors of Operators in Maritime Working Environment
CN115294528A (zh) 一种行人安全监控方法及装置
CN115577768A (zh) 半监督模型训练方法和装置
CN116310922A (zh) 石化厂区监控视频风险识别方法、系统、电子设备及存储介质
CN113221667A (zh) 一种基于深度学习的人脸口罩属性分类方法及系统
CN117612249A (zh) 一种基于改进OpenPose算法的井下矿工危险行为识别方法和装置
CN117197746A (zh) 基于深度学习的安全监测系统及方法
Anilkumar et al. Imperative Methodology to Detect the Palm Gestures (American Sign Language) using Y010v5 and MediaPipe
CN112487926A (zh) 一种基于时空图卷积网络的景区投喂行为识别方法
CN116543333A (zh) 电力系统的目标识别方法、训练方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination