CN116758477A

CN116758477A - 一种基于改进YOLOv7模型的后厨人员着装检测方法

Info

Publication number: CN116758477A
Application number: CN202310731913.XA
Authority: CN
Inventors: 刘浙东; 诸葛松岳; 曾长新; 李金元; 李申
Original assignee: Zhejiang Yunpeng Technology Co ltd
Current assignee: Zhejiang Yunpeng Technology Co ltd
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-09-15

Abstract

本发明公开了一种基于改进YOLOv7模型的后厨人员着装检测方法，包括以下步骤：步骤一、获取后厨场景下监控图像数据，通过监控图像数据制作后厨着装数据集，所述数据集包括：训练集和测试集；步骤二、使用加载预训练权重的的方式训练YOLOv7网络并对未标注图像进行预测，将预测结果输出并修正后扩充数据集样本数量，进一步提升模型数据样本数量；步骤三、构建YOLOv7网络，对网络结构进行改进，得到改进后YOLOv7模型；步骤四、基于训练集图像训练改进后YOLOv7模型，将测试集图像或未标注图像输入训练好的改进后YOLOv7模型，得到后厨人员的着装识别结果。

Description

一种基于改进YOLOv7模型的后厨人员着装检测方法

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种基于改进YOLOv7模型的后厨人员着装检测方法。

背景技术

随着信息技术的发展，通过网络传输视频画面的方式，全国各省市逐步建设线上监管平台，对学校食堂、餐饮酒店后厨和外卖商户等后厨进行实时监控，这样的方式打破了传统“明厨亮灶”项目中的空间限制，由传统的线下“明厨亮灶”逐步转变为线上的“明厨亮灶”，实现远程可监督，问题可复查的管理方式，但是线上的“明厨亮灶”依然需要人力来对不同单位或商户的后厨进行监督管理，对历史视频进行回放或长时间在线监督的管理办法也依然费时费力。

目标检测技术在计算机视觉领域中具有广泛应用，并在各个领域中展现出了巨大的潜力。在厨房管理和食品安全领域，准确地识别厨房人员的着装情况对于确保食品卫生和遵守卫生规定也至关重要。

所以通过目标检测技术实现对后厨人员着装进行自动监测的方案自然成为了“明厨亮灶”项目迭代改进过程中恰当的选择。因此本申请提出一种基于改进YOLOv7模型的后厨人员着装检测方法实现对“明厨亮灶”项目的-改进。

发明内容

针对现有技术中存在的问题，本发明的目的在于提供一种基于改进YOLOv7模型的后厨人员着装检测方法，该方法可以实现对后厨场景下的工作人员着装情况进行自动化的检测。

本申请解决其技术问题所采用的技术方案是：一种基于改进YOLOv7模型的后厨人员着装检测方法，包括以下步骤：

步骤一、获取后厨场景下监控图像数据，通过监控图像数据制作后厨着装数据集，所述数据集包括：训练集和测试集；

步骤二、对步骤一所述训练集使用预训练权重在YOLOv7网络上进行迁移学习，得到训练后的所述学习模型，使用该模型对未标注图像进行预测，将预测结果输出并修正后扩充数据集样本数量，进一步扩充数据集中训练集和测试集数据样本数量；

步骤三、构建YOLOv7网络，对网络结构进行改进，得到改进后YOLOv7模型；

步骤四、基于扩充后训练集图像训练改进后YOLOv7模型，将一个新的后厨图像数据输入训练好的改进的YOLOv7模型，得到后厨人员的着装识别结果。

进一步地，对步骤一中的制作过程包括：

选取若干时间范围内的监控图像数据，使用FFmpeg工具库对视频图像进行每1秒抽1帧的方式获取图片数据，并选取抽帧后得到的清晰图片数据进数据标注操作，将标注后图片和相应标注数据按8比2分为训练集和测试集。

进一步地，对步骤二中的扩充方法包括：

使用YOLOv7的ImageNet预训练模型在已有的训练集中进行迁移学习，并将未标注图片输入经过训练集训练的模型进行预测，输出YOLO格式的预测框类别和位置信息，将YOLO格式的预测框类别和位置信息转换为LabelImg可读取的VOC格式数据，通过LabelImg读取VOC格式预测信息并进行修正，以半监督的标注方式减少人力资源花费，以此进一步扩充数据集中训练集和测试集数据样本数量。

进一步地，对步骤三中YOLOv7网络进行的改进包括：

通过MobileOne构建块取代YOLOv7骨干网络尾部的最后一个ELAN结构，将骨干网络的训练和推理结构解耦，在仅增加训练成本的情况下增强模型在推理时的特征提取能力。

进一步地，对步骤三中YOLOv7网络进行的改进还包括：

基于双向加权特征融合网络重构YOLOv7的Head网络，舍弃双向加权特征融合网络中P₆和P₇层级的特征层，将骨干网络输出至Head的P₃、P₄、P₅层级特征进行加权特征融合，该附加权值为一个可学习的参数，并在P₄层级上增加一条额外的连接路径，基于所述改进使得模型可以学习不同特征层对于结果的重要程度。

进一步地，训练改进YOLOv7的过程还包括：

模型训练时将输入图像大小调整为640×640的分辨率，对若干训练图像采取随机翻转、缩放、拼接的数据增强策略，包括将图像训练权利要求6中所述的改进YOLOv7模型，设置批次大小为16，训练迭代次数为100，采用Adam优化器进行训练。

进一步地，在PyTorch平台上实现目标检测网络框架，并使用Nvidia 3090显卡实验。

本申请的有益效果在于：该方法可以实现对后厨场景下的工作人员着装情况进行自动化的检测。本发明通过构建一个后厨着装检测模型来实现自动化的后厨人员着装检测，从而减少明厨亮灶项目中的人力和物力消耗，实现传统人力监管到自动化和智能化的过渡。

附图说明

图1是本发明涉及的一种基于改进YOLOv7模型的后厨人员着装检测方法流程图。

图2是本发明中所使用的MobileOne构建块的模块流程图。

图3是本发明中结合了MobileOne构建块重构骨干网络和加权双向特征融合的改进后完整网络结构流程图。

图4是本发明中所构建的后厨着装数据集样本标签属性信息。

具体实施方式

为了进一步解释本发明的技术方案，下面通过具体实施例来对本发明进行详细阐述。

本实施例公开一种基于改进YOLOv7模型的后厨人员着装检测方法，具体流程如图1所示，包括以下步骤：

获取后厨场景下监控图像数据，通过监控图像数据制作后厨着装数据集，

选取若干时间范围内的监控图像数据，使用FFmpeg工具库对视频图像实现每1秒抽1帧的方式获取图片数据，并选取抽帧后得到的清晰图片数据进数据标注操作，将标注后图片和相应标注数据按8比2分为训练集和测试集。

对于数据集样本扩充：

使用YOLOv7的ImageNet预训练权重在已有的训练集中进行迁移学习，并将未标注图片输入经过训练集训练的模型进行预测，输出YOLO格式的预测框类别和位置信息，将YOLO格式的预测框类别和位置信息转换为LabelImg可读取的VOC格式数据，通过LabelImg读取VOC格式预测信息并进行修正，以半监督的标注方式减少人力资源花费，以此进一步扩充数据集中训练集和测试集数据样本数量。

在读取数据集图像数据后，使用本实施例提出的一种改进YOLOv7模型整体结构进行特征提取：

模型训练时将输入图像大小调整为640×640的分辨率，对若干训练图像采取随机翻转、缩放、拼接的数据增强策略，设置批次大小为16，训练迭代次数为100，采用Adam优化器进行训练。

将输入的RGB图像调整为640×640×3的大小，输入到尾部包含MobileOne构建块的骨干网络中，将骨干网络中P₃、P₄、P₅层级的特征分别输入Head网络中进行加权特征融合，最后在Head网络中分别输出80×80×255、40×40×255和20×20×255三种不同尺寸的特征图。

改进YOLOv7模型骨干网络：

首先通过一个C4结构对输入图像进行4倍的下采样，C4结构由四个串联的CBS结构组成，CBS由一个卷积层(Convolution)、一个BN(Batch Normalization)和一个SiLU(Sigmoid线性整流)激活层组成，四个CBS结构中的卷积层卷积核大小均为3，步距依次为1、2、1、2。

其次将输出输入三个串联ELAN(efficient layer aggregation networks)模块和下采样层中，每次经过下采样层后特征图分辨率减半，通道数维持不变。之后将第三个采样层的输出输入MobileOne构建块中，MobileOne中的过参数化：

其中I表示特征矩阵，K⁽¹⁾和K⁽¹⁾是具有兼容尺寸的两个卷积核，⊕表示卷积核在对应位置上的求和操作。即将多个分支的输出先进行相加再输入到激活层，其中Act.表示的是激活层，k表示卷积核的大小，在本申请中k为3。

MobileOne构建块中的重参数化：

Conv(x)＝W(x)+b

BN(Conv(x))＝W_fused(x)+B_fused

其中W(x)表示卷积运算，b是偏差值(Bias)，mean表示输入特征的均值，γ和β是两个可学习的超参数，最终卷积层和BN层融合为一个包含了BN层权重参数的卷积层，实现由训练时的多分支拓扑结构转为推理时的单路模型。

改进YOLOv7的head网络：

如图三所示，在P₄层级的特征层中增加一条额外的连接路径，并将head网络中四个特征融合节点全部由PaNET的无差别Concat特征融合转变为BiFPN的加权特征融合：

其中w_i表示输入特征I_i的一个可学习的权重，i、j表示在特征融合节点输入特征图的个数，∈＝0.0001，归一化的权重值也在0和1之间。

YOLOv7坐标回归：

YOLOv7的坐标回归依然是anchor base的策略，将YOLOv5和YOLOX的正负样本分配策略进行了结合，将YOLOX中simOTA第一步的使用中心先验转换为YOLOv5的由anchors和真实框进行匹配，将特征图的正样本分配给对应的网格。

基于扩充后训练集图像训练改进后YOLOv7模型，将一个新的后厨图像数据输入训练好的改进后YOLOv7模型，得到后厨人员的着装识别结果。

本实施例使用通过本申请中方法扩充后的数据集进行训练和测试，该数据集中共计图片5100张，按训练集80％(4080张)，验证集20％(1020张)的比例进行拆分，样本数量及训练集和测试集分配情况如表1所示：

样本属性数据如图四所示，图中各个散点图的x属性表示单个样本标签在整个图片中的横坐标相对位置，0表示在图片的最左侧，1表示在最右侧；y属性表示单个样本标签在整个图片中的纵坐标相对位置，0表示在图片的最上侧，1表示在最下侧；width属性表示样本标签宽度相对于整张图片宽度的比例，height属性表示样本标签高度相对于整张图片高度的比例；柱状图高度表示相应横坐标属性下样本标签的数量。通过图四可以看出，在该后厨场景下，该数据集的样本标签大小和位置分布相对较广，在该场景下具备较高的多样性。

为了验证本申请中改进所使用的各个组件对于YOLOv7网络的改进作用，在上述构建的后厨着装数据集上进行了消融实验，本申请主要有两点改进：通过MobileOne构建块替换骨干网络尾部ELAN模块，将训练和推理过程解耦；基于双向加权特征融合网络的加权思想重构head网络；实验结果如表2所示：

YOLOv7使用MobileOne构建块替换骨干网络尾部ELAN模块的作用在整个网络中最为显著，precision提升了0.5％，mAP@0.5提升了0.4％，在结合MobileOne构建块和BiFPN后准确率和mAP也得到了进一步的提升，precision提升了1.2％，mAP@0.5提升了0.5％，通过消融实验结果可以看出，本申请所提到的改进措施在一定程度上对模型性能均有提升效果，提出的改进在后厨着装检测的应用场景中具有实际效益。

Claims

1.一种基于改进YOLOv7模型的后厨人员着装检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于改进YOLOv7模型的后厨人员着装检测方法，其特征在于，对步骤一中的制作过程包括：

3.根据权利要求1所述的一种基于改进YOLOv7模型的后厨人员着装检测方法，其特征在于，对步骤二中的扩充方法包括：

4.根据权利要求1所述的一种基于改进YOLOv7模型的后厨人员着装检测方法，其特征在于，对步骤三中YOLOv7网络进行的改进包括：

5.根据权利要求4所述的一种基于改进YOLOv7模型的后厨人员着装检测方法，其特征在于，对步骤三中YOLOv7网络进行的改进还包括：

6.根据权利要求5所述的一种基于改进YOLOv7模型的后厨人员着装检测方法，其特征在于，训练改进YOLOv7的过程还包括：

7.根据权利要求1所述的一种基于改进YOLOv7模型的后厨人员着装检测方法，其特征在于：在PyTorch平台上实现目标检测网络框架，并使用Nvidia 3090显卡实验。