CN116758477A - 一种基于改进YOLOv7模型的后厨人员着装检测方法 - Google Patents

一种基于改进YOLOv7模型的后厨人员着装检测方法 Download PDF

Info

Publication number
CN116758477A
CN116758477A CN202310731913.XA CN202310731913A CN116758477A CN 116758477 A CN116758477 A CN 116758477A CN 202310731913 A CN202310731913 A CN 202310731913A CN 116758477 A CN116758477 A CN 116758477A
Authority
CN
China
Prior art keywords
yolov7
model
training
improved
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310731913.XA
Other languages
English (en)
Inventor
刘浙东
诸葛松岳
曾长新
李金元
李申
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Yunpeng Technology Co ltd
Original Assignee
Zhejiang Yunpeng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Yunpeng Technology Co ltd filed Critical Zhejiang Yunpeng Technology Co ltd
Priority to CN202310731913.XA priority Critical patent/CN116758477A/zh
Publication of CN116758477A publication Critical patent/CN116758477A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于改进YOLOv7模型的后厨人员着装检测方法,包括以下步骤:步骤一、获取后厨场景下监控图像数据,通过监控图像数据制作后厨着装数据集,所述数据集包括:训练集和测试集;步骤二、使用加载预训练权重的的方式训练YOLOv7网络并对未标注图像进行预测,将预测结果输出并修正后扩充数据集样本数量,进一步提升模型数据样本数量;步骤三、构建YOLOv7网络,对网络结构进行改进,得到改进后YOLOv7模型;步骤四、基于训练集图像训练改进后YOLOv7模型,将测试集图像或未标注图像输入训练好的改进后YOLOv7模型,得到后厨人员的着装识别结果。

Description

一种基于改进YOLOv7模型的后厨人员着装检测方法
技术领域
本发明涉及计算机视觉技术领域,特别是涉及一种基于改进YOLOv7模型的后厨人员着装检测方法。
背景技术
随着信息技术的发展,通过网络传输视频画面的方式,全国各省市逐步建设线上监管平台,对学校食堂、餐饮酒店后厨和外卖商户等后厨进行实时监控,这样的方式打破了传统“明厨亮灶”项目中的空间限制,由传统的线下“明厨亮灶”逐步转变为线上的“明厨亮灶”,实现远程可监督,问题可复查的管理方式,但是线上的“明厨亮灶”依然需要人力来对不同单位或商户的后厨进行监督管理,对历史视频进行回放或长时间在线监督的管理办法也依然费时费力。
目标检测技术在计算机视觉领域中具有广泛应用,并在各个领域中展现出了巨大的潜力。在厨房管理和食品安全领域,准确地识别厨房人员的着装情况对于确保食品卫生和遵守卫生规定也至关重要。
所以通过目标检测技术实现对后厨人员着装进行自动监测的方案自然成为了“明厨亮灶”项目迭代改进过程中恰当的选择。因此本申请提出一种基于改进YOLOv7模型的后厨人员着装检测方法实现对“明厨亮灶”项目的-改进。
发明内容
针对现有技术中存在的问题,本发明的目的在于提供一种基于改进YOLOv7模型的后厨人员着装检测方法,该方法可以实现对后厨场景下的工作人员着装情况进行自动化的检测。
本申请解决其技术问题所采用的技术方案是:一种基于改进YOLOv7模型的后厨人员着装检测方法,包括以下步骤:
步骤一、获取后厨场景下监控图像数据,通过监控图像数据制作后厨着装数据集,所述数据集包括:训练集和测试集;
步骤二、对步骤一所述训练集使用预训练权重在YOLOv7网络上进行迁移学习,得到训练后的所述学习模型,使用该模型对未标注图像进行预测,将预测结果输出并修正后扩充数据集样本数量,进一步扩充数据集中训练集和测试集数据样本数量;
步骤三、构建YOLOv7网络,对网络结构进行改进,得到改进后YOLOv7模型;
步骤四、基于扩充后训练集图像训练改进后YOLOv7模型,将一个新的后厨图像数据输入训练好的改进的YOLOv7模型,得到后厨人员的着装识别结果。
进一步地,对步骤一中的制作过程包括:
选取若干时间范围内的监控图像数据,使用FFmpeg工具库对视频图像进行每1秒抽1帧的方式获取图片数据,并选取抽帧后得到的清晰图片数据进数据标注操作,将标注后图片和相应标注数据按8比2分为训练集和测试集。
进一步地,对步骤二中的扩充方法包括:
使用YOLOv7的ImageNet预训练模型在已有的训练集中进行迁移学习,并将未标注图片输入经过训练集训练的模型进行预测,输出YOLO格式的预测框类别和位置信息,将YOLO格式的预测框类别和位置信息转换为LabelImg可读取的VOC格式数据,通过LabelImg读取VOC格式预测信息并进行修正,以半监督的标注方式减少人力资源花费,以此进一步扩充数据集中训练集和测试集数据样本数量。
进一步地,对步骤三中YOLOv7网络进行的改进包括:
通过MobileOne构建块取代YOLOv7骨干网络尾部的最后一个ELAN结构,将骨干网络的训练和推理结构解耦,在仅增加训练成本的情况下增强模型在推理时的特征提取能力。
进一步地,对步骤三中YOLOv7网络进行的改进还包括:
基于双向加权特征融合网络重构YOLOv7的Head网络,舍弃双向加权特征融合网络中P6和P7层级的特征层,将骨干网络输出至Head的P3、P4、P5层级特征进行加权特征融合,该附加权值为一个可学习的参数,并在P4层级上增加一条额外的连接路径,基于所述改进使得模型可以学习不同特征层对于结果的重要程度。
进一步地,训练改进YOLOv7的过程还包括:
模型训练时将输入图像大小调整为640×640的分辨率,对若干训练图像采取随机翻转、缩放、拼接的数据增强策略,包括将图像训练权利要求6中所述的改进YOLOv7模型,设置批次大小为16,训练迭代次数为100,采用Adam优化器进行训练。
进一步地,在PyTorch平台上实现目标检测网络框架,并使用Nvidia 3090显卡实验。
本申请的有益效果在于:该方法可以实现对后厨场景下的工作人员着装情况进行自动化的检测。本发明通过构建一个后厨着装检测模型来实现自动化的后厨人员着装检测,从而减少明厨亮灶项目中的人力和物力消耗,实现传统人力监管到自动化和智能化的过渡。
附图说明
图1是本发明涉及的一种基于改进YOLOv7模型的后厨人员着装检测方法流程图。
图2是本发明中所使用的MobileOne构建块的模块流程图。
图3是本发明中结合了MobileOne构建块重构骨干网络和加权双向特征融合的改进后完整网络结构流程图。
图4是本发明中所构建的后厨着装数据集样本标签属性信息。
具体实施方式
为了进一步解释本发明的技术方案,下面通过具体实施例来对本发明进行详细阐述。
本实施例公开一种基于改进YOLOv7模型的后厨人员着装检测方法,具体流程如图1所示,包括以下步骤:
获取后厨场景下监控图像数据,通过监控图像数据制作后厨着装数据集,
选取若干时间范围内的监控图像数据,使用FFmpeg工具库对视频图像实现每1秒抽1帧的方式获取图片数据,并选取抽帧后得到的清晰图片数据进数据标注操作,将标注后图片和相应标注数据按8比2分为训练集和测试集。
对于数据集样本扩充:
使用YOLOv7的ImageNet预训练权重在已有的训练集中进行迁移学习,并将未标注图片输入经过训练集训练的模型进行预测,输出YOLO格式的预测框类别和位置信息,将YOLO格式的预测框类别和位置信息转换为LabelImg可读取的VOC格式数据,通过LabelImg读取VOC格式预测信息并进行修正,以半监督的标注方式减少人力资源花费,以此进一步扩充数据集中训练集和测试集数据样本数量。
在读取数据集图像数据后,使用本实施例提出的一种改进YOLOv7模型整体结构进行特征提取:
模型训练时将输入图像大小调整为640×640的分辨率,对若干训练图像采取随机翻转、缩放、拼接的数据增强策略,设置批次大小为16,训练迭代次数为100,采用Adam优化器进行训练。
将输入的RGB图像调整为640×640×3的大小,输入到尾部包含MobileOne构建块的骨干网络中,将骨干网络中P3、P4、P5层级的特征分别输入Head网络中进行加权特征融合,最后在Head网络中分别输出80×80×255、40×40×255和20×20×255三种不同尺寸的特征图。
改进YOLOv7模型骨干网络:
首先通过一个C4结构对输入图像进行4倍的下采样,C4结构由四个串联的CBS结构组成,CBS由一个卷积层(Convolution)、一个BN(Batch Normalization)和一个SiLU(Sigmoid线性整流)激活层组成,四个CBS结构中的卷积层卷积核大小均为3,步距依次为1、2、1、2。
其次将输出输入三个串联ELAN(efficient layer aggregation networks)模块和下采样层中,每次经过下采样层后特征图分辨率减半,通道数维持不变。之后将第三个采样层的输出输入MobileOne构建块中,MobileOne中的过参数化:
其中I表示特征矩阵,K(1)和K(1)是具有兼容尺寸的两个卷积核,⊕表示卷积核在对应位置上的求和操作。即将多个分支的输出先进行相加再输入到激活层,其中Act.表示的是激活层,k表示卷积核的大小,在本申请中k为3。
MobileOne构建块中的重参数化:
Conv(x)=W(x)+b
BN(Conv(x))=Wfused(x)+Bfused
其中W(x)表示卷积运算,b是偏差值(Bias),mean表示输入特征的均值,γ和β是两个可学习的超参数,最终卷积层和BN层融合为一个包含了BN层权重参数的卷积层,实现由训练时的多分支拓扑结构转为推理时的单路模型。
改进YOLOv7的head网络:
如图三所示,在P4层级的特征层中增加一条额外的连接路径,并将head网络中四个特征融合节点全部由PaNET的无差别Concat特征融合转变为BiFPN的加权特征融合:
其中wi表示输入特征Ii的一个可学习的权重,i、j表示在特征融合节点输入特征图的个数,∈=0.0001,归一化的权重值也在0和1之间。
YOLOv7坐标回归:
YOLOv7的坐标回归依然是anchor base的策略,将YOLOv5和YOLOX的正负样本分配策略进行了结合,将YOLOX中simOTA第一步的使用中心先验转换为YOLOv5的由anchors和真实框进行匹配,将特征图的正样本分配给对应的网格。
基于扩充后训练集图像训练改进后YOLOv7模型,将一个新的后厨图像数据输入训练好的改进后YOLOv7模型,得到后厨人员的着装识别结果。
本实施例使用通过本申请中方法扩充后的数据集进行训练和测试,该数据集中共计图片5100张,按训练集80%(4080张),验证集20%(1020张)的比例进行拆分,样本数量及训练集和测试集分配情况如表1所示:
样本属性数据如图四所示,图中各个散点图的x属性表示单个样本标签在整个图片中的横坐标相对位置,0表示在图片的最左侧,1表示在最右侧;y属性表示单个样本标签在整个图片中的纵坐标相对位置,0表示在图片的最上侧,1表示在最下侧;width属性表示样本标签宽度相对于整张图片宽度的比例,height属性表示样本标签高度相对于整张图片高度的比例;柱状图高度表示相应横坐标属性下样本标签的数量。通过图四可以看出,在该后厨场景下,该数据集的样本标签大小和位置分布相对较广,在该场景下具备较高的多样性。
为了验证本申请中改进所使用的各个组件对于YOLOv7网络的改进作用,在上述构建的后厨着装数据集上进行了消融实验,本申请主要有两点改进:通过MobileOne构建块替换骨干网络尾部ELAN模块,将训练和推理过程解耦;基于双向加权特征融合网络的加权思想重构head网络;实验结果如表2所示:
YOLOv7使用MobileOne构建块替换骨干网络尾部ELAN模块的作用在整个网络中最为显著,precision提升了0.5%,mAP@0.5提升了0.4%,在结合MobileOne构建块和BiFPN后准确率和mAP也得到了进一步的提升,precision提升了1.2%,mAP@0.5提升了0.5%,通过消融实验结果可以看出,本申请所提到的改进措施在一定程度上对模型性能均有提升效果,提出的改进在后厨着装检测的应用场景中具有实际效益。

Claims (7)

1.一种基于改进YOLOv7模型的后厨人员着装检测方法,其特征在于,包括以下步骤:
步骤一、获取后厨场景下监控图像数据,通过监控图像数据制作后厨着装数据集,所述数据集包括:训练集和测试集;
步骤二、对步骤一所述训练集使用预训练权重在YOLOv7网络上进行迁移学习,得到训练后的所述学习模型,使用该模型对未标注图像进行预测,将预测结果输出并修正后扩充数据集样本数量,进一步扩充数据集中训练集和测试集数据样本数量;
步骤三、构建YOLOv7网络,对网络结构进行改进,得到改进后YOLOv7模型;
步骤四、基于扩充后训练集图像训练改进后YOLOv7模型,将一个新的后厨图像数据输入训练好的改进的YOLOv7模型,得到后厨人员的着装识别结果。
2.根据权利要求1所述的一种基于改进YOLOv7模型的后厨人员着装检测方法,其特征在于,对步骤一中的制作过程包括:
选取若干时间范围内的监控图像数据,使用FFmpeg工具库对视频图像进行每1秒抽1帧的方式获取图片数据,并选取抽帧后得到的清晰图片数据进数据标注操作,将标注后图片和相应标注数据按8比2分为训练集和测试集。
3.根据权利要求1所述的一种基于改进YOLOv7模型的后厨人员着装检测方法,其特征在于,对步骤二中的扩充方法包括:
使用YOLOv7的ImageNet预训练模型在已有的训练集中进行迁移学习,并将未标注图片输入经过训练集训练的模型进行预测,输出YOLO格式的预测框类别和位置信息,将YOLO格式的预测框类别和位置信息转换为LabelImg可读取的VOC格式数据,通过LabelImg读取VOC格式预测信息并进行修正,以半监督的标注方式减少人力资源花费,以此进一步扩充数据集中训练集和测试集数据样本数量。
4.根据权利要求1所述的一种基于改进YOLOv7模型的后厨人员着装检测方法,其特征在于,对步骤三中YOLOv7网络进行的改进包括:
通过MobileOne构建块取代YOLOv7骨干网络尾部的最后一个ELAN结构,将骨干网络的训练和推理结构解耦,在仅增加训练成本的情况下增强模型在推理时的特征提取能力。
5.根据权利要求4所述的一种基于改进YOLOv7模型的后厨人员着装检测方法,其特征在于,对步骤三中YOLOv7网络进行的改进还包括:
基于双向加权特征融合网络重构YOLOv7的Head网络,舍弃双向加权特征融合网络中P6和P7层级的特征层,将骨干网络输出至Head的P3、P4、P5层级特征进行加权特征融合,该附加权值为一个可学习的参数,并在P4层级上增加一条额外的连接路径,基于所述改进使得模型可以学习不同特征层对于结果的重要程度。
6.根据权利要求5所述的一种基于改进YOLOv7模型的后厨人员着装检测方法,其特征在于,训练改进YOLOv7的过程还包括:
模型训练时将输入图像大小调整为640×640的分辨率,对若干训练图像采取随机翻转、缩放、拼接的数据增强策略,包括将图像训练权利要求6中所述的改进YOLOv7模型,设置批次大小为16,训练迭代次数为100,采用Adam优化器进行训练。
7.根据权利要求1所述的一种基于改进YOLOv7模型的后厨人员着装检测方法,其特征在于:在PyTorch平台上实现目标检测网络框架,并使用Nvidia 3090显卡实验。
CN202310731913.XA 2023-06-20 2023-06-20 一种基于改进YOLOv7模型的后厨人员着装检测方法 Pending CN116758477A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310731913.XA CN116758477A (zh) 2023-06-20 2023-06-20 一种基于改进YOLOv7模型的后厨人员着装检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310731913.XA CN116758477A (zh) 2023-06-20 2023-06-20 一种基于改进YOLOv7模型的后厨人员着装检测方法

Publications (1)

Publication Number Publication Date
CN116758477A true CN116758477A (zh) 2023-09-15

Family

ID=87947516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310731913.XA Pending CN116758477A (zh) 2023-06-20 2023-06-20 一种基于改进YOLOv7模型的后厨人员着装检测方法

Country Status (1)

Country Link
CN (1) CN116758477A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152846A (zh) * 2023-10-30 2023-12-01 云南师范大学 学生行为识别方法、装置、系统及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152846A (zh) * 2023-10-30 2023-12-01 云南师范大学 学生行为识别方法、装置、系统及计算机可读存储介质
CN117152846B (zh) * 2023-10-30 2024-01-26 云南师范大学 学生行为识别方法、装置、系统及计算机可读存储介质

Similar Documents

Publication Publication Date Title
Chen et al. Global context-aware progressive aggregation network for salient object detection
CN106874688B (zh) 基于卷积神经网络的智能化先导化合物发现方法
CN110059620A (zh) 基于时空注意力的骨骼行为识别方法
CN112465111A (zh) 一种基于知识蒸馏和对抗训练的三维体素图像分割方法
CN109840560B (zh) 基于胶囊网络中融入聚类的图像分类方法
CN104462494B (zh) 一种基于无监督特征学习的遥感图像检索方法及系统
CN105825511A (zh) 一种基于深度学习的图片背景清晰度检测方法
CN104933428B (zh) 一种基于张量描述的人脸识别方法及装置
CN110570363A (zh) 基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法
CN112164038A (zh) 一种基于深度卷积神经网络的光伏热斑检测方法
CN111275171B (zh) 一种基于参数共享的多尺度超分重建的小目标检测方法
CN108921830A (zh) 一种基于图像检索的人数统计方法
CN109508675A (zh) 一种针对复杂场景的行人检测方法
CN111563507A (zh) 一种基于卷积神经网络的室内场景语义分割方法
CN115131698B (zh) 视频属性确定方法、装置、设备及存储介质
CN107506792A (zh) 一种半监督的显著对象检测方法
CN116758477A (zh) 一种基于改进YOLOv7模型的后厨人员着装检测方法
CN114120361A (zh) 一种基于编解码结构的人群计数定位方法
CN112164077A (zh) 基于自下而上路径增强的细胞实例分割方法
CN110263855A (zh) 一种利用共基胶囊投影进行图像分类的方法
CN113435254A (zh) 一种基于哨兵二号影像的耕地深度学习提取方法
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
CN115063833A (zh) 一种基于图像分层视觉的机房人员检测方法
Wang et al. Swin transformer based pyramid pooling network for food segmentation
CN113066074A (zh) 一种基于双目视差偏移融合的视觉显著性预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination