CN111507199A

CN111507199A - 一种佩戴口罩行为检测方法及装置

Info

Publication number: CN111507199A
Application number: CN202010220690.7A
Authority: CN
Inventors: 章坚武; 张婷婷
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2020-08-07

Abstract

本发明公开了一种佩戴口罩行为检测方法及装置，采用训练样本对构建的目标检测模型进行训练，在训练时，所述目标检测模型对深度残差网络的残差学习单元中残差模块输出的特征信号进行挤压和激活操作，得到特征信号对应的权重，并通过乘法运算将所述权重与残差模块输出的特征信号进行融合，然后将残差学习单元的输出通过特征金字塔网络获取特征图金字塔；最后对每层特征图金字塔分别进行目标分类和检测框位置回归。本发明在智能监督员工需佩戴口罩才能进入管控区域的基础上有效地达到了小范围内疫情防控的效果，提高了检测精度。

Description

一种佩戴口罩行为检测方法及装置

技术领域

本发明属于行为检测技术领域，它涉及图像目标检测算法，尤其涉及一种佩戴口罩行为检测方法及装置，具体是一种在摄像头下检测出未佩戴口罩行为的方法和装置。

背景技术

在发生病毒疫情时，为了防止聚集传染风险，在复杂环境或无法确定风险的环境下佩戴口罩是非常有必要的，对于复工的场所加强个人防护，杜绝未带口罩，就成为疫情发生情况下急需解决的一个问题。

图像目标检测就是找出图像中感兴趣的目标，并确定它们的类别和位置。近年来基于深度学习以及基于卷积神经网络的图像目标检测技术迅速发展，例如基于候选区域的One-stage系列(R-CNN，SPPNet，Fast R-CNN，Faster R-CNN)目标检测算法，和基于回归方法的Two-stage系列(YOLOv1，SSD，YOLOv2，YOLOv3)目标检测算法相继被提出。One-stage系列算法在检测目标时需要提取上千个候选框并对每一个候选框进行特征计算，所以特征计算复杂，检测速度低，耗费时间长。Two-stage系列目标检测算法虽然检测速度较快但由于类不平衡问题导致检测精度相对One-stage较低，尤其在进行中小目标检测时效果不佳。因此这种检测速度与检测精度不可兼得的局面一直成为目标检测的瓶颈。

针对该问题，有相关文献提出了RetinaNet，如图1所示，该网络的基础网络使用的是深度残差网络Resnet，然后在不同尺度的feature map建立金字塔，也就是FPN网络，这样就获得了丰富且多尺度的卷积特征金字塔，并且在FPN的每个层级连接回归和分类2个子网用于回归和分类预测。RetinaNet虽然通过重塑标准交叉熵损失函数成功解决了类不平衡的问题，但检测精度仍然有待提高。

发明内容

本申请的目的是提供一种佩戴口罩行为检测方法及装置，以提高佩戴口罩行为的检测精度。

为了实现上述目的，本申请技术方案如下：

一种佩戴口罩行为检测方法，包括：

采用训练样本对构建的目标检测模型进行训练，在训练时，所述目标检测模型对深度残差网络的残差学习单元中残差模块输出的特征信号进行挤压和激活操作，得到特征信号对应的权重，并通过乘法运算将所述权重与残差模块输出的特征信号进行融合，然后将残差学习单元的输出通过特征金字塔网络获取特征图金字塔；最后对每层特征图金字塔分别进行目标分类和检测框位置回归；

采集待检测人员的单人脸区域图片，采用训练好的目标检测模型进行佩戴口罩行为检测，并通过软化非极大值抑制法来得到置信度最高的检测结果；

根据多次的检测结果及其置信度，判断待检测人员是否佩戴口罩。

进一步的，所述根据多次的检测结果及其置信度，判断待检测人员是否佩戴口罩，包括：

如果第一张单人脸区域图片的检测结果为是并置信度在第一阈值以上，则判定结果为该待检测人员已佩戴口罩，并为其放行；

如果第一张单人脸区域图片的检测结果为否并置信度在第二阈值以上则继续检测第二张单人脸区域图片；如果第二张单人脸区域图片的检测结果为是并且置信度在第一阈值以上，则继续检测第三张单人脸区域图片；如果第三张单人脸区域图片的检测结果为是并且置信度在第一阈值以上，则判定结果为待检测人员已佩戴口罩，并为其放行；

如果第一张单人脸区域图片的检测结果为否并置信度在第二阈值以上则继续检测第二张和第三张单人脸区域图片，如果第二张和第三张单人脸区域图片的检测结果均为否并且置信度均在第二阈值以上，则判定结果为该待检测人员未佩戴口罩，此时将不会为待检测人员放行并且启动预警。

进一步的，所述挤压操作，包括通过全局平均池化将特征信号每个通道内所有的特征值相加再平均。

进一步的，所述激活操作，包括第一全连接层、ReLU激活函数层、第二全连接层和Sigmoid激活函数层。

本申请还提出了一种佩戴口罩行为检测装置，包括：

训练模块，用于采用训练样本对构建的目标检测模型进行训练，在训练时，所述目标检测模型对深度残差网络的残差学习单元中残差模块输出的特征信号进行挤压和激活操作，得到特征信号对应的权重，并通过乘法运算将所述权重与残差模块输出的特征信号进行融合，然后将残差学习单元的输出通过特征金字塔网络获取特征图金字塔；最后对每层特征图金字塔分别进行目标分类和检测框位置回归；

检测模块，用于采集待检测人员的单人脸区域图片，采用训练好的目标检测模型进行佩戴口罩行为检测，并通过软化非极大值抑制法来得到置信度最高的检测结果；

判定模块，用于根据多次的检测结果及其置信度，判断待检测人员是否佩戴口罩。

进一步的，所述判定模块根据多次的检测结果及其置信度，判断待检测人员是否佩戴口罩，执行如下操作：

进一步的，所述训练模块在进行挤压操作时，通过全局平均池化将特征信号每个通道内所有的特征值相加再平均。

进一步的，所述训练模块在进行激活操作时，所述激活操作包括第一全连接层、ReLU激活函数层、第二全连接层和Sigmoid激活函数层。

本申请提出的一种佩戴口罩行为检测方法及装置，基于一种新的目标检测网络A-RetinaNet用于完成人员是否佩戴口罩行为的检测，并且在检测中加入了软化非极大值抑制算法(Soft NMS算法)，该算法可以有效的找到最佳物体检测位置。本申请采用了基于多帧检测结果判定是否佩戴口罩的方法，对未佩戴口罩人员进行预警提醒并进行二次检测。该方法在智能监督员工需佩戴口罩才能进入管控区域的基础上有效地达到了小范围内疫情防控的效果，提高了检测精度。

附图说明

图1为现有技术RetinaNet网络结构示意图；

图2为本申请佩戴口罩行为检测方法流程图；

图3为本申请目标检测模型网络结构示意图；

图4为残差学习单元结构示意图；

图5为本申请挤压和激活操作网络示意图；

图6为FPN网络结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图2所示，本申请一种佩戴口罩行为检测方法，包括：

具体的，本申请构建的目标检测模型如图3所示，包括改进的深度残差网络(A-ResNet-50)、特征金字塔网络(FPN)、回归和分类子网三个部分。

本申请先要训练目标检测模型，在训练前先搜集佩戴口罩的脸部视频或者帧图像，用libav专用视频处理器将视频以每秒30帧的标准处理成帧图片，生成数据集。

数据集包括训练集、验证集、测试集三个部分，并且训练集中正负样本比例为1：1到1：2之间，也可以是其他比例。在制作数据集的时候，首先将所有帧图片用LabelImg图片标注工具进行人工标注。如果图片中出现的是员工佩戴口罩的脸部图像，则标注出每张图片中整个脸部的最小外接矩形框(宽、高及中心点像素坐标)并为矩形框打上对应的Yes标签(正样本)；如果出现的是员工未佩戴口罩的脸部图像，则矩形框的标签名为No(负样本)。将这些标注好的矩形框保存为xml文件，xml文件数量、名字需与图片一一对应并且将这些数据制作成VOC格式的数据集，最后按照训练集：验证集为8：2，正样本：负样本为1：1的分配比例将处理完的图片和xml文件分为训练集、验证集和测试集。

本申请改进的深度残差网络(A-ResNet-50)是对传统深度残差网络ResNet-50的改进模型，即在ResNet-50中融入了注意力模块，该注意力模块基于全局特征关系可以分析出不同位置特征的重要性，不仅可以在网络中突出有用信息还可以抑制无用信息。本申请A-ResNet-50是ResNet-50嵌入注意力模块之后的网络，A-ResNet-50和FPN作为骨干网进行特征提取，输入图像经过骨干网的特征提取后，可以得到P3-P7的特征图金字塔。在得到特征图金字塔后，对每层特征图金字塔分别使用回归和分类子网进行目标分类和检测框位置回归。

如图4所示，ResNet-50(深度残差网络)的设计就是为了克服由于网络深度加深而产生的学习效率变低，准确率无法有效提升的问题，网络结构如图4中a所示，其中inputstem部分如图4中b所示，在这部分，将由一个7×7的卷积核负责进行特征的抽取，且卷积核的步长为2，所以会使得图像的长宽降低为原先的1/2。随后，再经过一个MaxPool层，进一步降低图像的分辨率。

Stage1部分是由3个残差学习单元组成，残差学习单元如图4中c所示，其中Residual是输入输出间的残差模块，设输入为X，将有参网络层设为H，因此以X为输入的网络层的输出为H(X)，即H(X)-X为有参网络层要学习的输入输出间残差。若输入输出维度相同，则H(X)+X为残差单元的输出；若输入输出维度不同，则H(X)+WX为残差单元的输出，其中W是卷积操作，用来调整通道的维度。Stage2、3、4部分分别是由4、6、3个残差学习单元组成，结构与Stage1类似。关于ResNet-50，是本领域比较成熟的技术，以下不再赘述。

本申请将注意力模块融入到ResNet-50中后得到改进的深度残差网络A-ResNet-50，A-ResNet-50的残差学习单元如图5所示。注意力模块主要有两部分组成，分别是挤压(Squeeze)和激活(Excitation)操作。例如输入图像的维度为224×224×3，经过inputstem部分的输出维度为56×56×64。

Stage1(第一个残差学习单元)：输入特征维度为56×56×64，用U'∈R^H'×W'×C'表示此时的特征信号，其中H'，W'，C'分别为此时图像的高、宽和通道数；经过残差模块后输出特征维度为56×56×256，U∈R^H×W×C表示此时的特征信号。

设Squeeze操作为F_sq，即通过全局平均池化(global average pooling)将特征信号每个通道内所有的特征值相加再平均。全局平均池化函数的表达式为：

其中(i，j)表示的是在大小为H×W的特征图上横纵坐标分别表示为i、j的点。u_c是表示第C个通道的特征信号，z_c是u_c经过Squeeze操作后的结果，U_c表示第C个通道的特征信号。

其次通过Excitation操作，可以获得输入特征图U的各个通道特征信号对应的权重。该操作包含了第一全连接层、ReLU激活函数层、第二全连接层和Sigmoid激活函数层，如图5中FC到Sigmoid的操作。全连接层能够很好的融合全部的输入特征信息，而Sigmoid函数也能够很好的将输入映射到0～1区间。

设Excitation操作为F_ex，公式如下：

s_c＝F_ex(z_c,W)＝σ(g(z_c,W))＝σ(W₂δ(W₁z_c))

其中，σ表示Sigmoid激活函数，δ表示Relu函数，保证输出为正，W₁，W₂为两个全连接层，其中

为全连接层的权重参数，r为降维的比例，当r越小时，可以更好的保留前一层传入的全局信息，但是相对会增加计算量，为了达到传播速度和检测准确率的平衡，参考SENet中的取值r＝16。

Excitation操作后，通过乘法运算将特征信号对应的权重逐通道和残差模块输出的特征信号进行融合，如图5中Scale操作，完成在通道维度上的对原始特征重标定。融合计算如下：

得到重新筛选后的特征向量：

最终残差学习单元的输出为

Stage1中的第二和第三个残差单元以及之后的3个Stage的运算过程均与Stage1的第一个残差单元相似，这里不再赘述。

本申请采用FPN(特征金字塔网络)对残差单元的输出进一步进行处理，得到输入图像的特征图金字塔。其中，FPN构造方式如图6所示，其中Bottom-up路径的特征图是由A-ResNet-50每个stage最后的残差模块的特征激活层的输出生成。在Top-down路径中，M5是输出4通过1x1的卷积核卷积得到，然后再经过3x3的卷积核卷积得到P5；M4是由M5进行2倍上采样与输出3通过1x1卷积核操作的和生成，然后再对M4经过3x3卷积核卷积得到P4；以此类推可以得到P3，P2。最后P6是在C5的基础上通过3x3的卷积核，步长为2的卷积得到的，P7在P6的基础上加了个RELU再通过3x3的卷积核，步长为2的卷积得到的。为了减少计算，本申请选用P3～P7作为特征金字塔进行后续的检测。

本申请对于FPN的每一层输出，采用回归和分类2个子网进行目标分类和检测框位置回归，该两个子网是连接到每个FPN的小型FCN网络。对分类子网来说，加上四层3x3x256卷积的FCN网络，最后一层的卷积稍有不同，用3x3xKA，其中A是锚框，K是预测类别，则最后一层维度变为KA表示，对于每个锚框，都是一个K维向量，表示每一类的概率，选取概率得分最高的设为1，其余k-1为归0。

回归子网与分类子网并行，对每一层FPN的输出接上一个位置回归子网，该子网本质也是FCN网络，预测的是锚框和它对应的一个真实位置的偏移量。首先也是4层256维卷积，最后一层是4A维度，即对每一个锚框，回归一个(x,y,w,h)四维向量。

在具体的实施中，在ubuntu16下用python3编程语言和PyTorch框架搭建环境训练本申请的目标检测模型。将类别数量设置为本发明应用场景的具体的类别数2，训练epoch数为100，初始学习率lr设置为1e-5，batch_size＝2，最终训练出未佩戴口罩行为检测模型。训练步骤如下：

(1)将训练集中的图像通过骨干网络的一系列卷积操作得到整张输入图像的feature map，再通过上采样和侧边连接的FPN结构，产生了多尺度的特征金字塔(P3-P7)。

(2)在FPN的P3-P7中分别设置32x32-512x512尺寸不等的锚框，比例设置为{1:2,1:1,2:1}。

(3)计算每个默认框与实际位置坐标相比存在的位置偏移量，以及预测类别与实际目标类别相同的概率，即类别得分。

(4)根据默认框与实际位置坐标相比存在的位置偏移量计算最终边界框的位置损失函数，然后再根据类别得分计算默认框的分类损失函数，两者的加权和就是最终的总体损失函数。

(5)最后将损失函数反向传播，调整各网络层权值。

需要说明的是，本申请特征金字塔网络(FPN)、以及回归和分类子网都是比较成熟的技术，这里不再赘述。

最终，本申请通过上述训练好的目标检测模型检测未佩戴口罩行为，来判定是否为待检测人员放行。在检测时，先采集待检测人员的单人脸区域图片，采用训练好的目标检测模型进行佩戴口罩行为检测，并通过软化非极大值抑制法来得到置信度最高的检测结果。然后根据多次的检测结果及其置信度，判断待检测人员是否佩戴口罩。

具体检测过程如下：

(1)待检测人员通过门禁闸机验证身份并打开摄像头采集单人脸区域图片；

(2)用训练出的目标检测模型对单人脸区域进行检测，通过Soft NMS算法确定检测结果；

(3)基于多帧图像的检测结果对待检测人员是否佩戴口罩进行判定；

(4)根据判定结果决定是否为待检测人员放行。

在具体的应用中，例如首先在公司入口安装带有身份信息验证模块的门禁闸机，和用于图像采集的摄像头。若员工身份信息验证失败，则不得为其放行。当员工身份信息验证成功后将对其进行单人脸区域图像采集并启动佩戴口罩检测，每张输入到目标检测模型中的图像都会有很多预测框，对于每个预测框首先要确定它的类别和置信度，置信度越高说明预测框越接近期待值。

为了达到每个目标有且只有一个检测结果的目的，本申请融入了软化非极大值抑制算法(Soft NMS算法)，算法原理如下式所示：

其中S_i表示当前检测框的置信度，N_t为IOU的阈值，M为置信度最高的检测框，b_i为当前检测框。

该算法将当前检测框置信度乘以一个权重函数，该函数会衰减与最高置信度检测框M有重叠的相邻检测框b_i的置信度，越是与M框高度重叠的检测框，其置信度衰减越严重。Soft NMS算法在避免盲目删除检测框的基础上去除了同一目标重复的检测边框，在一定程度上降低了误检率。

以下以通过3张单人脸区域检测结果对员工是否佩戴口罩进行判定为例进行说明，本申请不限于具体的检测次数。

在一个实施例中，所述根据多次的检测结果及其置信度，判断待检测人员是否佩戴口罩，包括：

以3张单人脸区域检测为例，如果摄像头获取的第一张单人脸区域检测结果为Yes并置信度在85％以上，则判定结果为该员工已佩戴口罩，并为其放行。

如果摄像头获取的第一张单人脸区域检测结果为No并置信度在50％以上则继续检测第二张图像；如果第二张单人脸区域检测结果为Yes并且置信度在85％以上，则继续检测第三张图像；如果第三张单人脸区域检测结果为Yes并且置信度在85％以上，则判定结果为该员工已佩戴口罩，并为其放行。

如果摄像头获取的第一张单人脸区域检测结果为No并置信度在50％以上则继续检测第二张和第三张图像，如果第二张和第三张单人脸区域检测结果均为No并且置信度均在50％以上，则判定结果为该员工未佩戴口罩，此时将不会为员工放行并且启动预警。

预警是在检测到员工未佩戴口罩时发出的警告，提醒员工需佩戴口罩才能进入公司，预警结束之后将重新启动身份验证，即进行再次检测。

在一个实施例中，本申请还提供了一种佩戴口罩行为检测装置，包括：

关于佩戴口罩行为检测装置的具体限定可以参见上文中对于佩戴口罩行为检测方法的限定，在此不再赘述。上述佩戴口罩行为检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，所述判定模块根据多次的检测结果及其置信度，判断待检测人员是否佩戴口罩，执行如下操作：

在一个实施例中，所述训练模块在进行挤压操作时，通过全局平均池化将特征信号每个通道内所有的特征值相加再平均。

在一个实施例中，所述训练模块在进行激活操作时，所述激活操作包括第一全连接层、ReLU激活函数层、第二全连接层和Sigmoid激活函数层。

本申请通过提出一种新的目标检测网络A-RetinaNet，完成了对进入公司的员工是否佩戴口罩这一行为的检测，实现了在疫情期间员工需佩戴口罩才可进入公司的智能监督，在小范围内达到了疫情防控的效果，为快速战胜疫情奠定了基础。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种佩戴口罩行为检测方法，其特征在于，所述佩戴口罩行为检测方法，包括：

2.根据权利要求1所述的佩戴口罩行为检测方法，其特征在于，所述根据多次的检测结果及其置信度，判断待检测人员是否佩戴口罩，包括：

3.根据权利要求1所述的佩戴口罩行为检测方法，其特征在于，所述挤压操作，包括通过全局平均池化将特征信号每个通道内所有的特征值相加再平均。

4.根据权利要求1所述的佩戴口罩行为检测方法，其特征在于，所述激活操作，包括第一全连接层、ReLU激活函数层、第二全连接层和Sigmoid激活函数层。

5.一种佩戴口罩行为检测装置，其特征在于，所述佩戴口罩行为检测装置，包括：

6.根据权利要求5所述的佩戴口罩行为检测装置，其特征在于，所述判定模块根据多次的检测结果及其置信度，判断待检测人员是否佩戴口罩，执行如下操作：

7.根据权利要求5所述的佩戴口罩行为检测装置，其特征在于，所述训练模块在进行挤压操作时，通过全局平均池化将特征信号每个通道内所有的特征值相加再平均。

8.根据权利要求5所述的佩戴口罩行为检测装置，其特征在于，所述训练模块在进行激活操作时，所述激活操作包括第一全连接层、ReLU激活函数层、第二全连接层和Sigmoid激活函数层。