CN113887455B

CN113887455B - 一种基于改进fcos的人脸口罩检测系统及方法

Info

Publication number: CN113887455B
Application number: CN202111181138.2A
Authority: CN
Inventors: 高天寒; 朱子辰; 江欣蓓
Original assignee: 东北大学
Priority date: 2021-10-11
Filing date: 2021-10-11
Publication date: 2024-05-28
Anticipated expiration: 2041-10-11
Also published as: CN113887455A

Abstract

本发明公开了一种基于改进FCOS的人脸口罩检测系统及方法，涉及目标检测技术领域。系统包括特征提取模块、包括自顶向下特征融合模块和自底向上特征融合模块的特征融合模块、预测模块。方法包括：将捕获的视频流分解成逐张图像输入系统；特征提取模块从输入图像中提取卷积神经网络的至少任意两个阶段输出的特征图；自顶向下特征融合模块使用特征金字塔网络对从骨干网提取的特征图进行自顶向下特征融合；自底向上特征融合模块使用PAN模块对自顶向下特征融合模块输出特征图进行自底向上特征融合；预测模块使用全卷积神经网络在特征融合模块输出的融合特征图上分别进行预测，最后合并预测结果得到输入图像中人脸位置、大小及是否佩戴口罩的分类信息。

Description

一种基于改进FCOS的人脸口罩检测系统及方法

技术领域

本发明涉及目标检测技术领域，具体涉及一种基于改进FCOS的人脸口罩检测系统及方法。

背景技术

目标检测是计算机视觉领域的一项基础研究，该技术目的是从输入图像中找出目标物体的位置并区分出目标物体的类别，目标物体的位置使用包围目标物体的矩形边界框进行表示，该技术主要运用在自动驾驶、工业制造和安全领域。人脸口罩检测是目标检测的一个具体任务，旨在找出图像中的人脸，用边界框标定人脸的位置及大小并对人脸是否正确佩戴口罩进行识别。

目前主流的目标检测方法大多基于卷积神经网络。卷积神经网络具有良好的空间特征抽取能力并能通过共享卷积核权重学习到空间局部特征，非常适用于图像任务。基于卷积神经网络的目标检测器可分为基于锚框机制和无锚框两种。目前人脸口罩检测的研究中，大多使用的是Faster-CNN和YOLOv3等较早期的基于锚框机制的算法框架，比如申请号为CN202011173258.3的中国专利《一种基于图像识别的口罩检测和部署系统及方法》和申请号为CN202010870314.2的中国专利《基于轻量化特征融合SSD的人员是否佩戴口罩检测方法》。然而这些基于锚框的方法无法满足人脸口罩检测高精度、低漏检率、高实时性的要求。基于锚框的方法在训练时需要设置锚框的长宽比、尺寸、交并比阈值等超参数，这些超参数会很大程度地影响模型的训练效果，需要在训练时花费大量时间精力进行调整才能使模型取得良好的性能。为了获取更高的目标召回率，基于锚框的方法需要在输入图像上布置密集的锚框，这些锚框大多数属于背景负例，从而导致训练中出现正负例样本失衡的情况。在引入锚框机制的同时，也引入了诸如交并比的大量复杂运算。此外，基于锚框机制的方法针对不同的检测目标也需要不同的锚框参数设置，因此基于锚框的方法的泛化能力较弱。而无锚框的目标检测方法模型结构简单、相比于基于锚框的目标检测方法减少了大量人工设置的超参数，检测精度和检测速度上有着较好的权衡，能够满足人脸口罩检测的需求。因此，需要提供一种无锚框的人脸口罩检测方法。

发明内容

针对上述现有技术存在的不足，本发明提供了一种基于改进FCOS的人脸口罩检测系统及方法，旨在提供一种无锚框的人脸口罩检测系统及方法，该系统及方法能够实时地找出输入图像中的人脸位置，并对人脸是否佩戴口罩进行准确分类。

为实现上述目的，本发明提供以下的技术方案：

一种基于改进FCOS的人脸口罩检测系统，该系统包括：

特征提取模块，以卷积神经网络为骨干网络，从输入该模块的图像中提取出所述骨干网络的至少任意两个阶段输出的特征图；

特征融合模块，包括自顶向下特征融合模块和自底向上特征融合模块；所述自顶向下特征融合模块用于使用特征金字塔网络对特征提取模块从骨干网络提取的不同阶段的特征图进行自顶向下的特征融合，以将高层语义信息从顶层特征图传递至高分辨率的底层特征图中；所述自底向上特征融合模块用于使用现有的PAN模块对所述自顶向下特征融合模块输出的特征图进行自底向上的特征融合，以将底层图像信息从所述自顶向下特征融合模块输出的底层特征图融合到所述自顶向下特征融合模块输出的高层特征图中；

预测模块，用于使用共享卷积核权重的全卷积神经网络在所述特征融合模块输出的融合特征图上分别进行预测，最后合并预测结果得到输入图像中的人脸位置、大小及是否佩戴口罩的分类信息。

进一步地，根据所述的基于改进FCOS的人脸口罩检测系统，所述卷积神经网络为ResNet-50卷积神经网络。

进一步地，根据所述的基于改进FCOS的人脸口罩检测系统，所述特征提取模块从输入该模块的图像中提取出ResNet-50网络在第三、四、五阶段输出的特征图C₃、C₄、C₅。

进一步地，根据所述的基于改进FCOS的人脸口罩检测系统，对于所述骨干网络不同阶段输出的特征图，较前阶段提取的特征图称为底层特征图，较后阶段提取的特征图称为顶层特征图。

进一步地，根据所述的基于改进FCOS的人脸口罩检测系统，所述预测模块包括两个独立的四层全卷积网络，会产生三个输出结果，其中一个四层全卷积网络用于输出目标分类预测结果，该输出分支简称为目标分类预测分支，另外一个四层全卷积网络同时用于输出中心分数预测结果和边界框回归结果，这两个输出分支分别简称中心分数预测分支和边界框回归分支；针对每个像素位置：目标分类预测分支会输出一个二维向量p＝(p₁,p₂)，p₁为对该像素作出预测的目标已佩戴口罩的概率，p₂为对该像素作出预测的目标未佩戴口罩的概率；边界框回归分支会输出一个四维向量d＝(l,t,r,b)，l、t、r、b分别为该以该像素作出预测的目标的边界框边界距离该像素的左距离、上距离、右距离和下距离；中心分数预测分支会输出一个张量c，以表示该像素与目标中心位置的靠近程度。

进一步地，根据所述的基于改进FCOS的人脸口罩检测系统，所述自顶向下特征融合模块首先使用特征金字塔网络对特征提取模块从骨干网络提取的第五阶段输出的特征图C₅进行自卷积得到特征图P₅，再将P₅与第四阶段输出的特征图C₄进行自顶向下的特征融合得到特征图P₄，将特征图P₄与第三阶段输出的特征图C₃进行自顶向下的特征融合得到特征图P₃，将高层语义信息从顶层特征图传递至高分辨率的底层特征图中，然后再对特征图P₅进行3x3的卷积得到特征图P₆，同样再对特征图P₆进行3x3的卷积得到特征图P₇，这样获得五层特征图；所述自底向上特征融合模块对所述五层特征图进行自底向上的特征融合，获得五层融合特征图。

利用以上任一所述的基于改进FCOS的人脸口罩检测系统的人脸口罩检测方法，该方法包括如下步骤：

将捕获到的视频流分解成逐张图像输入所述系统；

以卷积神经网络为骨干网络的所述特征提取模块从输入的图像中提取出所述骨干网络的至少任意两个阶段输出的特征图；

通过所述自顶向下特征融合模块使用特征金字塔网络对从骨干网提取的特征图进行自顶向下的特征融合；

通过所述自底向上特征融合模块使用现有PAN模块对所述自顶向下特征融合模块输出的特征图进行自底向上的特征融合；

通过所述预测模块使用全卷积神经网络在所述特征融合模块输出的特征融合图上分别进行预测，最后合并预测结果得到输入图像中的人脸位置、大小及是否佩戴口罩的分类信息。

总体而言，通过本发明所构思的以上技术方案较现有技术具有以下有益效果：本发明使用基于全卷积网络结构的目标检测方法可实现实时的人脸口罩检测，相比于基于锚框机制的方法，拥有结构简单、无需对锚框参数调试、检测泛化能力强等优点。本发明在现有基于FCOS(Fully Convolutional One-stage Object Detector，全卷积单阶段目标检测器)的目标检测方法基础上，在网络的颈部添加了PAN模块，并使用特征金字塔网络和PAN模块进行特征融合，对图像特征图进行自底向上的融合，将纹理、边缘等底层特征信息增强到各层特征图中，提升了网络的定位能力，最后使用全卷积结构进行逐像素地预测。训练过程中使用Mosaic进行数据增强，从而增强了FCOS在不同背景下检测目标的能力，此外由于每个训练样本图像中融合了四张图像内容，相当于增加了每一训练批次的样本数量，模型在普通显卡上使用较小的批大小参数进行训练也能取得较好的效果。本发明系统及方法适用于对公共场所出入口出入人员口罩佩戴情况的检测，可以在视频流上进行实时人脸口罩检测，并使用矩形框标出人脸的位置及是否佩戴口罩的分类信息，在预测出口罩佩戴情况后，标定的人脸位置信息可用于视频目标追踪等用例中，例如视频监控、门禁等实际场景。

附图说明

图1为本发明基于改进FCOS的人脸口罩检测系统的结构示意图；

图2为本实施方式训练和验证本发明基于改进FCOS的人脸口罩检测系统的流程示意图；

图3为本实施方式基于改进FCOS的人脸口罩检测系统各部分操作示意图；

图4(a)为本实施方式自顶向下的特征融合操作示意图；(b)为本实施方式自底向上的特征融合操作示意图；

图5为利用本发明基于改进FCOS的人脸口罩检测系统进行人脸口罩检测的方法流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优势更加清晰，下面结合附图和具体实施例对本发明做进一步详细说明。此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

图1是本发明基于改进FCOS的人脸口罩检测系统的结构示意图，其中FCOS是一种基于全卷积神经网络的单阶段的无锚框目标检测方法。如图1所示，所述基于改进FCOS的人脸口罩检测系统包括：

特征提取模块，以卷积神经网络为骨干网络，从输入该模块的图像中提取出所述骨干网络的至少任意两个阶段输出的特征图。所述卷积神经网络可以是ResNet-50、ResNet-101、Darknet-53或者VGG-16。如图1所示，在本实施方式中，以ResNet-50卷积神经网络为骨干网络，从输入该模块的图像中提取出ResNet-50网络在第三、四、五阶段输出的特征图C₃、C₄、C₅；本实施方式中，称ResNet-50卷积神经网络中输出相同长宽大小特征图的网络层为同一阶段的网络层，将第i阶段最后一层输出的特征图C_i称为该阶段提取的特征图。对于骨干网络不同阶段输出的特征图，较前阶段提取的特征图也叫底层特征图，具有分辨率更大、包含着更多诸如边缘、纹理的底层图像信息的特点。较后阶段提取的特征图也叫顶层特征图，具有分辨率更小、包含着更多高层语义信息(诸如人脸、口罩等)的特点。

特征融合模块，包括自顶向下特征融合模块和自底向上特征融合模块；所述自顶向下特征融合模块用于使用特征金字塔网络(Feature PyramidNetworks，FPN)对特征提取模块从骨干网络提取的不同阶段的特征图进行自顶向下的特征融合，以将高层语义信息从顶层特征图传递至高分辨率的底层特征图中；所述自底向上特征融合模块用于使用现有的PAN模块对所述自顶向下特征融合模块输出的特征图进行自底向上的特征融合，以将底层图像信息从所述自顶向下特征融合模块输出的底层特征图融合到所述自顶向下特征融合模块输出的高层特征图中。本实施方式的自顶向下特征融合模块首先使用特征金字塔网络(Feature Pyramid Networks，FPN)对特征提取模块从骨干网络提取的第五阶段输出的特征图C₅进行自卷积得到特征图P₅，再将P₅与第四阶段输出的特征图C₄进行自顶向下的特征融合得到特征图P₄，将特征图P₄与第三阶段输出的特征图C₃进行自顶向下的特征融合得到特征图P₃，将高层语义信息从顶层特征图传递至高分辨率的底层特征图中，然后再对特征图P₅进行3x3的卷积得到特征图P₆，同样再对特征图P₆进行3x3的卷积得到特征图P₇，这样获得五层特征图；所述PAN模块，指的是路径聚合网络(Path Aggregation Network)中采用的一种将图像特征进行自底向上融合的模块，在本实施方式中用于对特征金字塔网络得到的五层特征图进行自底向上的特征融合，以将边缘、纹理等底层图像信息从特征金字塔网络得到的底层特征图融合到特征金字塔网络得到的高层特征图中，获得五层融合特征图。

预测模块，用于使用共享卷积核权重的全卷积神经网络在特征融合模块输出的融合特征图上分别进行预测，最后合并预测结果得到输入图像中的人脸位置、大小及是否佩戴口罩的分类信息。本实施方式的预测模块使用共享卷积核权重的全卷积神经网络在特征融合模块输出的五层融合特征图上分别进行预测并最后合并预测结果，得到输入图像中的人脸位置、大小及是否佩戴口罩的分类信息。本实施方式的预测模块包括两个独立的四层全卷积网络，会产生三个输出结果，其中一个四层全卷积网络用于输出目标分类预测结果，该输出分支简称为目标分类预测分支，另外一个四层全卷积网络同时用于输出中心分数预测结果和边界框回归结果，这两个输出分支分别简称中心分数预测分支和边界框回归分支。针对每个像素位置目标分类预测分支会输出一个二维向量p＝(p₁,p₂)，p₁为对该像素作出预测的目标已佩戴口罩的概率，p₂为对该像素作出预测的目标未佩戴口罩的概率。针对每个像素位置，边界框回归分支会输出一个四维向量d＝(l,t,r,b)，l、t、r、b分别为该以该像素作出预测的目标的边界框边界距离该像素的左距离、上距离、右距离和下距离。针对每个像素位置中心分数预测分支会输出一个张量c，以表示该像素与目标中心位置的靠近程度。

图2是训练和验证本发明基于改进FCOS的人脸口罩检测系统的流程示意图，如图2所示，包括如下步骤：

步骤1：获取实际场景中未佩戴口罩的人脸图像和佩戴口罩的人脸图像，并对每张图像中的人脸位置、大小以及是否佩戴口罩进行标注获得标注信息，由所述标注信息和标注后的图像样本构成人脸口罩数据集，并将该人脸口罩数据集划分为训练集、验证集和测试集三部分；

在本实施方式中，该步骤中的样本图像主要是对通过网络爬取获得的图像和现有公开的图像数据集进行整合的方法获取，并遵循MSCOCO数据集的标注格式。标注信息包括图像中人脸的位置、大小及是否佩戴口罩的分类信息。人脸位置、大小以矩形边界框进行表示，每个矩形边界框以其左边界、右边界、上边界、下边界相对于图像左上角点位置的四个值进行表示；分类信息以整数进行表示，0表示已佩戴口罩，1表示未佩戴口罩。假设所述人脸口罩数据集共包括M张图像，对M张图像中的人脸目标，进行标注后将M张图随机打乱后，按照比例分成训练集、验证集和测试集三个部分。例如人脸口罩数据集包含1236张图像，利用LabelMe软件标注数据集中图像，使用矩形框指定出人脸在图像中的位置，并对是否佩戴口罩即人脸佩戴口罩和未佩戴口罩的类别进行标定。标注完成后，将标注信息导出，生成与每个被标注图像相对应的单独的LabelMe格式的json文件。按照训练集、验证集与测试集8:1:1的比例进行随机分配，最终训练集包含890张图像、验证集包含111张图像、测试集包含111张图像。按照MSCOCO数据集的格式，为训练集构建MSCOCO格式的json文件，使用python提供的json库逐个读取分配给训练集的LabelMe格式的json文件，并将读取到的数据写入上述为训练集所构建的MSCOCO格式json文件中，最终获得训练集的MSCOCO格式的标注json文件。按照相同的方法，分别获得验证集和测试集的MSCOCO格式的标注json文件，从而获得由标注信息、训练集、验证集和测试集构成的人脸口罩数据集。

步骤2：对训练集中的图像样本进行数据增强；所述数据增强的方法包括几何变换、颜色变换与图像混合。所述步骤2具体包括以下步骤：

步骤2.1：对训练集中的图像样本即训练样本的颜色与增强幅度进行随机变换，包括对图像的饱和度、亮度及色调进行随机变换。分别对饱和度、亮度和色调三种颜色变换设置一个增强幅度的最大、最小值。对于每个训练样本，三种颜色变换方法都会按照均匀分布在其增强幅度最小值和增强幅度最大值间进行随机取值，并以该值作为参数对样本进行对应颜色变换。本实施方式中使用的是开源的目标检测框架Detectron2中提供的数据增强接口实现训练样本的颜色变换。

步骤2.2：对训练样本进行几何变换，包括对图像进行旋转、裁剪、翻转等。在进行几何变换时训练图像对应的边界框也进行相同的变换映射，以确保标注的准确性。本方法中使用的是开源的目标检测框架Detectron2中提供的数据增强接口实现训练样本几何变换。

步骤2.3：对经过2.1、2.2步骤增强后的训练样本，进行图像混合。具体使用的增强方法为Mosaic方法，具体操作为：取出一个批次的训练图像，并从该批次的图像中随机取出四张图像，对它们进行位置随机的裁剪拼接，合成新图像。将随机抽取、拼接、合成新图像的操作重复该批次图像样本的个数次，最终得到一个全部为合图像的新的训练样本批次。同几何变换，在图像裁剪拼接时，图像的标注边界框也进行相同的变换映射。

步骤2.4：将步骤2.3增强后得到的图像统一缩放为600*600的大小以加速后续神经网络的处理速度，需要强调的是缩放过程中需确保边界框标注的准确。

步骤3：将步骤2得到的增强后的图像样本输入图1所示的基于改进FCOS的人脸口罩目标检测系统中，对该系统进行训练；

步骤3.1：将步骤2得到的增强后的图像样本输入图1所示的基于改进FCOS的人脸口罩目标检测系统，对所述基于改进FCOS的人脸口罩目标检测系统进行前向传播，得到预测结果；

步骤3.1.1：将步骤2得到的增强后的图像样本输入到以卷积神经网络为骨干网络的特征提取模块，从输入的图像中提取出所述骨干网络的至少任意两个阶段输出的特征图；

本实施方式以ResNet-50卷积神经网络为骨干网络，首先使用在ImageNet上进行预训练后得到的网络权重来进行所述骨干网络的权重初始化，然后将步骤2得到的增强后的图像样本输入到RestNet-50卷积神经网络中，使用RestNet-50卷积神经网络抽取输入图像的特征图，并提取出RestNet-50从输入图像在第三、第四、第五阶段得到的特征图C₃，C₄，C₅。其中特征图C_i的长宽{W_i，H_i}和C_i+1的长宽{W_i+1，H_i+1}的关系为W_i＝2*W_i+1，H_i＝2*H_i+1。

ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库，其中包含超过1400万张手工标注的图像。本实施方式使用的预训练权重是由深度学习框架PyTorch官方提供的ImageNet上预训练的ResNet-50权重。

步骤3.1.2：通过自顶向下特征融合模块使用特征金字塔网络对步骤3.1.1提取的特征图进行自顶向下的特征融合，以将高层语义信息从顶层特征图传递至高分辨率的底层特征图中；

在本实施方式中，将C₃，C₄，C₅特征图输入到自顶向下特征融合模块，在自顶向下特征融合模块中，如图3所示，首先使用特征金字塔网络对特征提取模块从骨干网络提取的第五阶段输出的特征图C₅进行自卷积得到特征图P₅，再将P₅进行两倍上采样后与第四阶段输出的特征图C₄进行自顶向下的特征融合也即进行相加操作得到特征图P₄，也即如图4(a)所示，对于融合特征图P_i，取P_i上一层的融合特征图P_i+1和骨干网络在第i阶段提取的特征图C_i，对C_i进行1x1的卷积后得到特征图C_i’，对P_i+1进行两倍上采样得到特征图P_i+1’，使P_i+1’与C_i的分辨率一致后将特征图P_i+1’与C_i’进行相加操作，得到融合特征图P_i；将特征图P₄与第三阶段输出的特征图C₃进行自顶向下的特征融合得到特征图P₃，将高层语义信息从顶层特征图传递至高分辨率的底层特征图中，然后再对特征图P₅进行3x3的卷积得到特征图P₆，同样再对特征图P₆进行3x3的卷积得到特征图P₇，这样最终输出五层特征图P₃、P₄、P₅、P₆、P₇。

步骤3.1.3：通过自底向上特征融合模块使用PAN模块对所述自顶向下特征融合模块输出的特征图进行自底向上的特征融合，以将底层图像信息从所述自顶向下特征融合模块输出的底层特征图融合到所述自顶向下特征融合模块输出的高层特征图中；

在本实施方式中，将自顶向下特征融合模块输出的五层特征图P₃、P₄、P₅、P₆、P₇输入到自底向上特征融合模块。在自底向上特征融合模块中，如图3和图4(b)所示，首先令特征图N₃＝P₃，然后对于给定特征图P_i+1和融合特征图N_i，将融合特征图N_i进行二倍上采样得到与P_i+1分辨率相同的融合特征图N_i’，再对P_i+1和N_i’进行相加操作得到融合特征图N_i+1。通过上述操作，如图3所示可以得到融合特征图N₄、N₅、N₆、N₇。自底向上特征融合模块最终输出融合特征图N₃、N₄、N₅、N₆、N₇。

步骤3.1.4：通过预测模块使用全卷积神经网络在特征融合模块输出的融合特征图上分别进行预测，最后合并预测结果得到输入图像中的人脸位置、大小及是否佩戴口罩的分类信息。

本实施方式的预测模块包括两个独立的四层全卷积网络，会产生三个输出结果，其中一个四层全卷积网络用于输出目标分类预测结果，该输出分支简称为目标分类预测分支，另外一个四层全卷积网络同时用于输出中心分数预测结果和边界框回归结果，这两个输出分支分别简称中心分数预测分支和边界框回归分支。预测模块使用的卷积核权重是在特征融合模块输出的各层融合特征图上共享的，采用的是全卷积网络结构，最终的输出是特征图上各像素位置的对应预测结果。N₃、N₄、N₅、N₆、N₇融合特征图用于预测输入图像中不同大小的物体。目标分类预测将分类问题视为2个二分类问题(是否佩戴口罩与是否未佩戴口罩)，其中2为训练数据集中类别的总个数。目标分类预测分支输出的是佩戴口罩和未佩戴口罩两个类别的预测结果；边界框回归分支输出四个值l*，t*，r*，b*，分别对应着边界框的左边界、上边界、右边界、下边界到作出预测的像素位置的距离；中心分数预测用于评估作出预测的像素与目标物体中心位置的靠近程度，预测像素越靠近目标物体中心位置中心分数则越高，该分数最终会用于预测分数的计算。一般来说，像素越靠近目标物体的中心，预测结果往往越准确，故中心分数有利于鼓励网络做出更高质量的预测。预测模块会对在N₃、N₄、N₅、N₆、N₇融合特征图上的预测结果进行非极大值抑制操作，并得到各个融合特征图上的检测结果。将各融合特征图上的检测结果进行汇总，即为预测模块的最终输出。

将步骤3.3得到的融合特征图N₃、N₄、N₅、N₆、N₇输入预测模块，得到预测结果。其中，针对每个像素位置目标分类预测分支会输出一个二维向量p＝(p₁,p₂)，p₁为对该像素作出预测的目标已佩戴口罩的概率，p₂为对该像素作出预测的目标未佩戴口罩的概率。针对每个像素位置，边界框回归分支会输出一个四维向量d＝(l,t,r,b)，l、t、r、b分别为该以该像素作出预测的目标的边界框边界距离该像素的左距离、上距离、右距离和下距离。针对每个像素位置中心分数预测分支会输出一个张量c，以表示该像素与目标中心位置的靠近程度。

步骤3.2：通过基于改进FCOS的人脸口罩目标检测系统前向传播得到的预测结果计算损失值，并进行反向传播，对所述基于改进FCOS的人脸口罩目标检测系统进行参数更新。

本实施方式使用随机梯度下降法对所述基于改进FCOS的人脸口罩目标检测系统进行参数更新，训练使用的损失函数公式如下所示：

N_pos是特征图上正例的个数，p_x,y和t_x,y分别是基于改进FCOS的人脸口罩目标检测系统在坐标为(x,y)的像素位置预测的类别分数和边界框回归结果。c^* _x,y和t^* _x,y分别是来自于步骤1的标注信息的真值类别和真值边界框信息。λ用于平衡两个损失项的比例，在本例训练过程中设置为1。是指示函数。当作出的预测被认定为正例时该函数的值为1，当被认定为负例时该函数的值为0。L_cls为分类使用的损失项。分类损失项使用的是FocalLoss计算方法来解决前后景不平衡问题。L_reg为边界框回归损失项。边界框回归损失项使用的是CIoU Loss计算方法，CIoU Loss的损失公式如下所示：

IoU是真值框和预测框的交并比；D₂为预测框和真值框中心点距离，D_C为最小外接矩形的对角线距离。项主要用于中心点距离度量，对真值框和预测框两个框中心距离进行直接优化，有助于快速收敛。αv主要用于优化真值框和预测框之间的长宽比，其中α是一个权重系数，v通过计算真值框和预测框的对角线倾斜角度差值来反应长宽比的差异；w^gt、h^gt分别是真值框的宽度和长度；w、h分别是预测框的宽度和长度。

训练中网络层使用Xavier-Initialization方法进行过网络参数初始化，训练批大小设置为4，初始学习率设置为0.005，训练轮次设置为50000，在40000轮到50000轮之间学习率会衰减到原来的1/10。训练过程中，每1000轮次模型会在验证集上进行测试，测试结果会输出到日志文件中，测试系统的权重会保存到ckpt文件中。

步骤4：以平均检测精度mAP来作为检测性能的衡量指标，利用测试集对训练好的基于改进FCOS的人脸口罩目标检测系统进行测试评估，并根据评估结果对当前系统进行参数调整后按照步骤3的方法重新对该系统进行训练，对经过再次训练的系统再次进行测试评估，这样对该系统重复执行训练与测试评估操作，直至获取达到衡量指标的最优系统为止，并将该系统作为最终的人脸口罩目标检测系统。

mAP(MeanAverage Precision)是目标检测中衡量识别精度的一个指标，在多个类别物体检测中，每一个类别都可以根据召回和精度绘制一条Precision-Recall曲线，AP(Average Precision)就是该曲线下的面积，mAP是所有类别AP的平均值。

使用本发明的基于改进FCOS的人脸口罩目标检测系统时，调用外置摄像头，将捕获到的视频流分解成逐张图像，将图像输入步骤4最终得到的人脸口罩目标检测系统，如图5所示，在系统中按照步骤3.1.1至步骤3.1.4的方法流程，可得到图像中的人脸位置、大小及其是否佩戴口罩的分类信息。

在本实施方式中，使用OpenCV调用外置摄像头，在OpenCV中使用矩形框标出人脸目标在图像中的位置，并在矩形框的下方标出其分类信息，佩戴口罩的人脸用绿色矩形框标出，未佩戴口罩的人脸用红色矩形框标出。

表1为本发明系统与现有基于FCOS的目标检测方法对比评估表，使用在英伟达RTX2070显卡运算环境下的每秒预测数与平均检测精度mAP作为评价指标。相比于现有基于FCOS的目标检测方法，本发明系统在牺牲少量实时性的情况下获得了更高的检测精度。

表1

模型	每秒预测数	mAP
			现有基于FCOS的目标检测方法	21FPS	64.5％
基于FCOS的人脸口罩目标检测系统	20.6FPS	68.8％

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；因而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于改进FCOS的人脸口罩检测系统，其特征在于，该系统包括：

2.根据权利要求1所述的基于改进FCOS的人脸口罩检测系统，其特征在于，所述卷积神经网络为ResNet-50卷积神经网络。

3.根据权利要求2所述的基于改进FCOS的人脸口罩检测系统，其特征在于，所述特征提取模块从输入该模块的图像中提取出ResNet-50网络在第三、四、五阶段输出的特征图C₃、C₄、C₅。

4.根据权利要求1所述的基于改进FCOS的人脸口罩检测系统，其特征在于，对于所述骨干网络不同阶段输出的特征图，较前阶段提取的特征图称为底层特征图，较后阶段提取的特征图称为顶层特征图。

5.根据权利要求1所述的基于改进FCOS的人脸口罩检测系统，其特征在于，所述预测模块包括两个独立的四层全卷积网络，会产生三个输出结果，其中一个四层全卷积网络用于输出目标分类预测结果，该输出分支简称为目标分类预测分支，另外一个四层全卷积网络同时用于输出中心分数预测结果和边界框回归结果，这两个输出分支分别简称中心分数预测分支和边界框回归分支；针对每个像素位置：目标分类预测分支会输出一个二维向量p=(p ₁, p ₂)，p ₁为对该像素作出预测的目标已佩戴口罩的概率，p ₂为对该像素作出预测的目标未佩戴口罩的概率；边界框回归分支会输出一个四维向量d=(l, t, r, b)，l、t、r、b分别为以该像素作出预测的目标的边界框边界距离该像素的左距离、上距离、右距离和下距离；中心分数预测分支会输出一个张量c，以表示该像素与目标中心位置的靠近程度。

6.根据权利要求3所述的基于改进FCOS的人脸口罩检测系统，其特征在于，所述自顶向下特征融合模块首先使用特征金字塔网络对特征提取模块从骨干网络提取的第五阶段输出的特征图C₅进行自卷积得到特征图P₅，再将P₅与第四阶段输出的特征图C₄进行自顶向下的特征融合得到特征图P₄，将特征图P₄与第三阶段输出的特征图C₃进行自顶向下的特征融合得到特征图P₃，将高层语义信息从顶层特征图传递至高分辨率的底层特征图中，然后再对特征图P₅进行3x3的卷积得到特征图P₆，同样再对特征图P₆进行3x3的卷积得到特征图P₇，这样获得五层特征图；所述自底向上特征融合模块对所述五层特征图进行自底向上的特征融合，获得五层融合特征图。

7.利用权利要求1至6中任一项所述的基于改进FCOS的人脸口罩检测系统的人脸口罩检测方法，其特征在于，该方法包括如下步骤：

将捕获到的视频流分解成逐张图像输入所述系统；

通过所述预测模块使用全卷积神经网络在所述特征融合模块输出的融合特征图上分别进行预测，最后合并预测结果得到输入图像中的人脸位置、大小及是否佩戴口罩的分类信息。