CN116563913A

CN116563913A - 一种基于多层特征融合的口罩规范佩戴检测方法

Info

Publication number: CN116563913A
Application number: CN202310411996.4A
Authority: CN
Inventors: 刘军清; 张思甜; 康维; 王鹏; 张威威
Original assignee: China Three Gorges University CTGU
Current assignee: China Three Gorges University CTGU
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-08-08

Abstract

本发明公开了一种基于多层特征融合的口罩规范佩戴检测方法,包括：对图像信息进行处理，构建数据集；构建基于多层特征融合的口罩规范佩戴检测网络模型；基于数据集对基于多层特征融合的口罩规范佩戴检测网络模型进行优化训练，获取训练好的口罩规范佩戴检测模型并进行测试，获取测试结果。本发明扩大感受野模块扩大了浅层网络的感受野，增强了对于浅层网络的特征信息提取能力，解决了口罩存在遮挡导致的检测错误问题，同时还保证了速度；对特征金字塔FPN特征融合进行改进，提高了模型的检测能力，尤其提高了检测小目标的性能；将损失函数中的L1loss替换为CIOU loss，提高了预测框回归的速度和精度。

Description

一种基于多层特征融合的口罩规范佩戴检测方法

技术领域

本发明属于目标检测技术领域,尤其涉及一种基于多层特征融合的口罩规范佩戴检测方法。

背景技术

自流行病爆发以来，各大公共出行地点均受到严格管控，严重影响了人类的出行安全与速度。虽然如今病情向着良好的态势发展，只有局部地区零星爆发，但流行病对老人和婴幼儿等群体的身体健康依然有较大的威胁，而规范佩戴口罩可以有效降低流行性病毒的传染性。但是如果在各大公共场所依靠人工检查口罩佩戴是否规范，不仅效率低下还浪费了大量的人力资源。因此，对于口罩规范佩戴检测技术的研究有着非常重要的意义。

近些年来，目标检测算法取得了很大的突破，比较流行的算法可分为单阶段和二阶段两类。二阶段算法主要包括R-CNN系列，此类算法虽然精确度高，但速度较慢。one-stage算法主要包括SSD(Single shot detection),YOLO(You Only Look Once)系列以及RetinaNet算法，此类算法计算效率高，可以实现实时性检测，而其中RetinaNet算法兼具了速度和精度，但是将RetinaNet算法直接应用于公共场所下规范佩戴口罩检测时，并不能满足检测要求，存在以下缺陷：

(1)公共场所场景复杂，人群较为密集，待检测物存在大量遮挡，导致检测难度较大；

(2)口罩目标尺度变化较大，对于较小的口罩目标，网络提取特征困难；

(3)实际应用中，对于口罩规范佩戴检测与识别，在考虑检测精度的同时还得兼顾速度，而现有算法并不能满足对于速度的要求。

发明内容

本发明的目的在于提出一种基于多层特征融合的口罩规范佩戴检测方法，以解决现有RetinaNet算法直接应用于公共场所下规范佩戴口罩检测时，不满足检测要求的问题。

为实现上述目的，本发明提供了一种基于多层特征融合的口罩规范佩戴检测方法，具体包括以下步骤：

获取图像信息，对所述图像信息进行处理，构建数据集；

构建基于多层特征融合的口罩规范佩戴检测网络模型；

基于所述数据集对所述基于多层特征融合的口罩规范佩戴检测网络模型进行优化训练，获取训练好的口罩规范佩戴检测模型并进行测试，获取测试结果。

可选的，对所述图像信息进行处理，构建所述数据集包括：

对所述图像信息进行格式统一并命名，获取命名后的图像；

基于图像标注工具，对所述命名后的图像进行标注，构建所述数据集。

可选的，构建所述基于多层特征融合的口罩规范佩戴检测网络模型包括：

输入所述图像信息，基于特征提取网络获取若干个采样层，若干个所述采样层包括第一采样层、第二采样层、第三采样层、第四采样层和第五采样层；

将所述第二采样层和所述第三采样层通过扩大感受野模块处理后与所述第四采样层、所述第五采样层，基于横向链接和自上而下的路径构建特征金字塔网络，获取多尺度特征图；

将所述多尺度特征图输入所述特征金字塔网络,利用一致性监督算法缩小多尺度特征图之间的语义差距，并基于残差特征增强模块和自适应空间融合模块进行特征融合，获取特征金字塔的输出特征图；

将所述特征金字塔的输出特征图输入分类子网络和框回归子网络，获取检测结果，构建所述基于多层特征融合的口罩规范佩戴检测网络模型。

可选的，所述基于多层特征融合的口罩规范佩戴检测网络模型包括backbone层、neck层和head层；

所述backbone层包括所述特征提取网络；

所述neck层包括所述扩大感受野模块、所述特征金字塔网络、所述残差特征增强模块、所述自适应空间融合模块；

所述head层包括所述分类子网络和所述框回归子网络。

可选的，所述特征提取网络采用残差网络Resnet50；

所述残差网络Resnet50包括若干个所述采样层；

若干个所述采样层包括卷积层、归一化层和激活函数。

可选的，基于所述数据集对所述基于多层特征融合的口罩规范佩戴检测网络模型进行优化训练，获取训练好的口罩规范佩戴检测模型并进行测试，获取测试结果包括：

将所述数据集输入所述基于多层特征融合的口罩规范佩戴检测网络模型，基于训练集、验证集和测试集对所述数据集进行划分，获取划分的训练集和划分的测试集；

基于Adam优化器对所述基于多层特征融合的口罩规范佩戴检测网络模型进行优化，获取优化后的口罩规范佩戴检测模型；

基于所述划分的训练集对所述优化后的口罩规范佩戴检测模型进行训练，获取训练好的口罩规范佩戴检测模型；

基于所述划分的测试集对所述训练好的口罩规范佩戴检测模型进行测试，获取测试结果。

可选的，基于训练集、验证集和测试集对所述数据集进行划分，获取划分的测试集还包括：

所述训练集和所述验证集之和与所述测试集的比为9:1；

所述训练集比所述验证集之比为9:1。

本发明具有以下有益效果：

(1)本发明采用RetinaNet来进行规范佩戴口罩检测任务，结合RFB模块通过扩大浅层网络的感受野，增强浅层网络的特征信息提取能力，从而使得网络获得更好的检测精度，解决了口罩规范佩戴数据集中由于目标遮挡导致的检测错误的问题，保证检测精度的同时保证了检测速度。

(2)在特征金字塔FPN部分通过结合AugFPN的一致性监督算法、Residual FeatureAugmentation(RFA)模块和Adaptive Spatial Fusion(ASF)模块来解决原始特征金字塔在特征融合时所存在的两个问题，提高了模型的检测能力，尤其提升了检测小目标的性能。

(3)将损失函数中的L1 loss函数替换为CIOU loss，使得预测框更加的符合真实框，提高了预测框回归的速度和精度。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例一种基于多层特征融合的口罩规范佩戴检测方法的流程示意图；

图2为本发明实施例提出的RetinaNet网络模型结构图；

图3为本发明实施例提出的Receptive Field Block(RFB)模块的结构图；

图4为本发明实施例提出的Residual Feature Augmentation(RFA)模块的结构图；

图5为本发明实施例提出的Adaptive Spatial Fusion(ASF)模块的结构图；

图6为本发明实施例提出的改进后的网络模型结构图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

如图1所示，本实施例中提供一种基于多层特征融合的口罩规范佩戴检测方法，包括：

步骤一、构建数据集，通过网络搜索、现实拍摄等方法收集公共场所下人群佩戴口罩的相关图像；

由于现有的公开的口罩数据集多为单人图片，且并未对不规范佩戴口罩的情况进行标注，故通过网络搜索与现实拍摄等方式收集符合公共场所密集人群佩戴口罩的图像，从而构建数据集。

步骤二、对图像进行统一命名，修改为统一格式，通过图像标注工具LabelImg对图像进行标注，构建自己的数据集；

将图片格式统一转换为jpg格式，采用数字.jpg的格式对所有图像进行命名，通过LabelImg对图像进行标注，标签分为：未佩戴口罩(no_mask)、规范佩戴口罩(true_mask)、未规范佩戴口罩(wrong_mask)。对于存在遮挡的口罩目标，将遮挡部分忽略，将未遮挡的口罩标注为一个完整的目标。

步骤三、构建基于多层特征融合的口罩规范佩戴检测网络模型；

改进后的网络模型结构为：

输入图像→Conv1→Conv2_x→Conv3_x→Conv4_x→Conv5_x→RFA残差模块→P5→class分类子网络和box回归子网络；

Conv5_x→M5→predict→P5→class分类子网络和box回归子网络；

Conv4_x→M4→predict→M5经过上采样，与M4相加→P4→class分类子网络和box回归子网络；

Conv3_x→RFB→M3→predict→M4经过上采样，与M3相加→P3→class分类子网络和box回归子网络；

Conv2_x→RFB→M2→predict→M3经过上采样，与M2相加→P2→class分类子网络和box回归子网络；

改进后的网络模型结构如图6所示，改进后的网络模型包括backbone层、neck层和head层，其中backbone层采用残差网络Resnet50；neck层包括感受野(Receptive FieldBlock，RFB)模块、特征金字塔(Feature Pyramid Network，FPN)模块、自适应空间融合(Adaptive Spatial Fusion，ASF)模块；head层包括分类子网络和框回归子网络。

对于步骤三包括以下子步骤：

(1)特征提取网络为残差网络Resnet50，该网络包括Conv1、Conv2_x、Conv3_x、Conv4_x、Conv5_x五个不同尺度的采样层，每一个采样层都包括Conv卷积层、归一化层以及激活函数ReLU。将输入backbone的图像大小设置为600*600，通过残差网络Resnet50后，输出的特征图大小为：256*56*56、512*28*28、1024*14*14、2048*7*7。由于分辨率较高的浅层特征图具有丰富的细节信息和较小的感受野，适合用来检测小物体，故对于Conv2_x和Conv3_x浅层网络结合RFB模块，该模块通过获得更大的感受野，从而增强了从特征提取网络中学习到的特征，使其有助于快速而准确地对目标进行检测。对于此实例中检测目标相对较小，通过该模块扩大了浅层网络的卷积感受野，很大程度上增强了对于浅层网络的特征信息提取能力，对于本实例中，RFB模块很好解决了口罩存在遮挡导致的检测错误问题，此外引入RFB模块后在提升检测精度的同时也保证了检测速度。

RFB结构如图3所示，本实例中使用的是由RFB模块改进后的RFB_S模块。该模块由具有不同大小卷积核的卷积层构成的多分枝结构。对于浅层特征图，通过RFB_S模块获得更大的感受野，增强了对于浅层网络的特征信息提取能力，因而获得更具有表达力的特征。RFB_S的第一个分支中第一个卷积核大小为1*1、第二个卷积核大小为3*3空洞率为1，第二个分支中第一个卷积核大小为1*1、第二个卷积核大小为1*3、第三个卷积核大小为3*3空洞率为3，第三个分支中第一个卷积核大小为1*1、第二个卷积核大小为3*1、第三个卷积核大小为3*3空洞率为3，第四个分支中第一个卷积核大小为1*1、第二个卷积核大小为3*3、第三个卷积核大小为3*3空洞率为。最终使用1*1卷积将四个分支连接到一起，第五个分支不经过处理，作为残差边与经过1*1卷积的结果进行堆叠，得到最终的输出。RFB_S是在RFB的基础之上使用1*n和n*1来替换n*n卷积，降低了参数量，在提高检测精度的基础上保证了检测速度。

(2)由于原始特征金字塔FPN存在以下缺陷：一是特征求和前不同层次特征之间存在语义差异，直接融合这些特征会降低多尺度特征表示的能力；二是自上而下的路径传播过程中，由于特征通道减少，导致特征金字塔顶层特征的信息丢失。故通过AugFPN对原始特征金字塔进行改进，AugFPN使用一致性监督算法，通过施加相同的监督信号来保证在特征金字塔的横向连接部分之后的特征图包含相似的语义信息。具体为：特征金字塔在特征混合之前，由于backbone的不同层级学习到的特征都需要先经过1*1卷积进行一个降维，降到通道数相同时才能进行特征相加。然而不同层级学习到的特征感受野是不一样的，包含的语义信息也不同。假如将两个语义信息差距较大的特征直接相加，势必会减弱多尺度特征的表达能力，故根据AugFPN中的一致性监督思想，在特征融合前对多尺度特征图M2-M5做一致性监督算法(Consistent Supervision)来缩小他们之间的语义差距。具体做法是，对特征提取网络输出的每一个候选区域都分别映射到M2-M5上得到相应的特征图，然后直接对这些特征图做分类和回归，可以得到一个辅助损失。将这一损失和网络本身的损失做一个加权求和。由于在测试阶段，这个分支不参与计算，仅使用特征金字塔之后的分支进行最终预测，所以一致性监督对模型没有引入额外的参数和计算，保证了速度。

(3)特征FPN的自上而下的特征融合过程中，将顶层的高级特征和底层的低级特征相融合，这样虽然底层的特征得到了来自顶层的高级特征的加强，然而由于顶层的特征经过1*1降维，势必会造成信息损失。也就是说金字塔顶层层次特征的信息发生了丢失。故通过残差特征增强(Residual Feature Augmentation，RFA)，使用比例不变的自适应池关联上下文信息，来降低高级特征的信息损失。由于Conv5_x的信息没有损失，故对于Conv5_x通过残差特征增强。如图4利用残差分支将不同的空间上下文信息灌输到原始分支中来改进M5中的信息损失，同时提高特征金字塔的性能。具体做法是：对Conv5_x进行比率不变的自适应池化操作，产生具有不同尺度的多个上下文特征，然后对每个上下文特征通过一个独立的1*1卷积层将通道维度降到256，最后通过双线性插值将它们上采样到S的尺度进行后续融合，由于插值容易引起混叠效应，故通过ASF模块来自适应地组合这些上下文特征，而不是进行简单的求和。ASF模块如图5所示，该模块将上采样后的特征作为输入，并且为每一个特征生成一个空间权重，按照权重将上下文特征聚合到M6中，再将M5与M6相加，得到没有损失的新M5并传播，再与较低级别的其他特征进行融合，最后对每一个特征图通过一个3*3卷积层，即可得到一个最终的特征金字塔{P2，P3，P4，P5}。由于Retinanet网络模型不存在RoI的概念，故对原始特征金字塔进行改进时舍弃了AugFPN中的Soft RoI Selection内容。通过解决原始特征金字塔FPN在特征融合时所存在的两个问题，提高了模型的检测能力，尤其提升了检测小目标的性能。

(4)将特征融合后的四个特征图输入至RetinaNet的head模块，如图2所示。该模块包括回归子网络和分类子网络，分别获得检测目标的类别信息以及位置信息。分类子网中对A个边界框，每个边界框中的K个类别，均预测一个概率，对于FPN中的四层输出通过四层3*3*256卷积网络、一次Relu激活函数以及一次3*3*KA卷积网络，最后经过Sigmoid激活函数处理后，可以得到大小为H*W*K的最终输出结果。回归子网络与分类子网络是并行的，对于FPN中的四层输出均通过一个回归子网络，该网络预测的是边界框与跟它对应的真值的偏移量，首先也是通过四层3*3*256卷积、一次Relu激活函数以及一个3*3*4A的卷积网络，最后经过一个Sigmoid激活函数后可以得到网络最后的输出。由于RetinaNet head中回归子网络使用的损失函数L1 loss不考虑方向以及坐标之间的相关性，故使用边界框回归损失函数CIOU loss对其进行改进来进行边界框损失计算，CIOU为Complete-IOU，是IOU的一种优化方式，CIOU不仅将目标与锚框之间的重叠率、惩罚项、尺度、距离、都考虑进去了，而且还着重考虑了边界框宽高比的尺度信息，使得预测框回归的速度和精度有了进一步提高。CIOU中IOU如下式所示：

其中，IOU为预测边界框与真实边界框的交集和并集的比值,A表示真实框，B表示预测框。

CIOU公式如下所示：

其中，b和b^gt分别表示预测框以及真实框的中心点，ρ²(b,b^gt)表示两个框中心点之间的欧式距离，c表示的是能够同时包含预测框和真实框的最小闭包区域的对角线距离,α为权重函数，ν是用来度量长宽比的相似性。

α和ν的公式如下：

其中，W^gt、H^gt分别为预测框的宽和高，W、H分别为真实框的宽和高。

CIOU的损失函数Loss_CIOU如下式所示：

步骤4：使用获得的基于多层特征融合的口罩规范佩戴检测网络模型对自制数据进行训练、检测识别；

将数据集输入到口罩规范佩戴检测网络中存放数据集的文件夹下，然后按照(训练集+验证集)：测试集＝9：1和训练集:验证集＝9:1对数据集进行划分，使用Adam优化器对网络进行优化。共训练200个epoch，使损失函数收敛达到最优，每个epoch得到一个口罩规范佩戴检测模型，共得到200个口罩规范佩戴检测模型；然后使用划分的测试集对200个口罩规范佩戴检测模型进行检测，记录不同学习率下的模型的准确率，选出最佳模型作为最终的口罩规范佩戴检测模型。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于多层特征融合的口罩规范佩戴检测方法，其特征在于，包括：

获取图像信息，对所述图像信息进行处理，构建数据集；

构建基于多层特征融合的口罩规范佩戴检测网络模型；

2.如权利要求1所述的基于多层特征融合的口罩规范佩戴检测方法，其特征在于，对所述图像信息进行处理，构建所述数据集包括：

对所述图像信息进行格式统一并命名，获取命名后的图像；

3.如权利要求1所述的基于多层特征融合的口罩规范佩戴检测方法，其特征在于，构建所述基于多层特征融合的口罩规范佩戴检测网络模型包括：

4.如权利要求3所述的基于多层特征融合的口罩规范佩戴检测方法，其特征在于，所述基于多层特征融合的口罩规范佩戴检测网络模型包括backbone层、neck层和head层；

所述backbone层包括所述特征提取网络；

所述head层包括所述分类子网络和所述框回归子网络。

5.如权利要求4所述的基于多层特征融合的口罩规范佩戴检测方法，其特征在于，所述特征提取网络采用残差网络Resnet50；

所述残差网络Resnet50包括若干个所述采样层；

若干个所述采样层包括卷积层、归一化层和激活函数。

6.如权利要求1所述的基于多层特征融合的口罩规范佩戴检测方法，其特征在于，基于所述数据集对所述基于多层特征融合的口罩规范佩戴检测网络模型进行优化训练，获取训练好的口罩规范佩戴检测模型并进行测试，获取测试结果包括：

7.如权利要求6所述的基于多层特征融合的口罩规范佩戴检测方法，其特征在于，基于训练集、验证集和测试集对所述数据集进行划分，获取划分的测试集还包括：

所述训练集和所述验证集之和与所述测试集的比为9:1；

所述训练集比所述验证集之比为9:1。