CN114783024A

CN114783024A - 基于YOLOv5的公共场所戴口罩的人脸识别系统

Info

Publication number: CN114783024A
Application number: CN202210401918.1A
Authority: CN
Inventors: 陈玫玫; 杨清清; 洪灵; 王国博; 王晨越; 柳逸飞
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-07-22

Abstract

本发明属于人脸识别领域，主要对部分遮挡的人脸进行识别，是一种基于YOLOv5的公共场所戴口罩的人脸识别系统。搭建以YOLOv5为框架的目标检测模块，将轻量级的卷积模块的注意力机制模块加到了YOLOv5的CSPDarknet卷积神经网络部分，将视频流中的人像分割成一组静态的人脸图像，对待检测图像进行预处理，以及判断出人脸是否佩戴口罩；对于未戴口罩目标，直接与数据集比对进行身份识别；对于戴口罩目标，采用注意力机制模块使提取的高层次特征更加丰富，得到特征通道的权重之后，通过乘法逐通道加权到原来的特征上，完成在通道维度上的原始特征重标定；再进行人脸身份识别确认。对源数据的要求不太高，即使使用有口罩面部遮挡的人脸数据训练依然有较高的正确率。

Description

基于YOLOv5的公共场所戴口罩的人脸识别系统

技术领域

本发明属于人脸识别领域，主要对部分遮挡的人脸进行识别，是一种基于YOLOv5的公共场所戴口罩的人脸识别系统。

背景技术

人员在佩戴口罩后，如何实现人脸快速识别并同步检测体温，成为一项全新的技术难题。在发生疫情期间，并没有相应的戴口罩人脸识别系统来侦别并锁定人员身份。原来的人脸识别算法，是根据面部特征关键点来进行识别的，算法纳入的关键点越多，识别的结果也就越精确。但佩戴口罩后，可供识别的“关键点”大幅减少。鼻子以下的面部特征被掩盖，面部特征关键点减少，机器之前学习的特征判别能力随之降低。同时，口罩类型较多且遮挡程度不一，也提升了难度。国内的研究工作主要是集中在三大类方法的研究：基于几何特征的人脸正面自动识别方法、基于代数特征的人脸正面自动识别方法和基于连接机制的人脸正面自动识别方法。目前实现了具有反馈机制的人脸正面识别系统，运用积分投影法提取面部特征的关键点并用于识别，获得了比较满意的效果。之后“特征脸”的方法有了进一步的发展，该方法所用特征数据量小，特征提取运算量也较小，比较好地实现了大量人脸样本的存储和人脸的快速识别。武汉大学国家多媒体软件工程技术研究中心王中元教授带领团队及时启动了口罩人脸识别的应急攻关研究，目前口罩遮挡人脸的识别精度达到90％；同时构建了全球首个公开的真实口罩人脸识别样本集。当前很多国外的很多专家也展开了有关人脸识别的研究，目前的方法主要集中在以下几个方面：模板匹配、示例学习、神经网络、基于隐马尔可夫模型的方法。以色列Corsight公司也开发了在佩戴口罩和护目镜、防护面罩等情况下实现人脸识别的技术。口罩遮挡之下的人脸识别技术，成为疫情期间迫切的需求。佩戴口罩遮挡人脸大部分特征，使得之前的人脸识别技术基本失效。这一问题对人脸识别技术构成严重挑战，受此影响，类似手机解锁、安检验票、闸机通行、安防监控等场景应用的人脸识别准确率均会出现不同程度的下降。如何满足戴口罩人脸识别的需求，已经是工业界和学术界共同面临的技术难题。因此需要设计公共场所口罩人脸识别系统，对人员进行检测和识别。

常用人脸识别算法，是根据面部特征来进行识别的，算法纳入的面部特征越多，识别的结果也就越精确。但佩戴口罩后，可供识别的关键特征大幅减少因此常规算法的识别能力大大降低。受此影响，类似手机解锁、安检验票、闸机通行、安防监控等场景应用的人脸识别准确率均会出现不同程度的下降。如何满足戴口罩人脸识别的需求，已经是工业界和学术界共同面临的技术难题。因此需要设计公共场所口罩人脸识别系统，对人员进行检测和识别。

发明内容

本发明所要解决的技术问题在于提供一种基于YOLOv5的公共场所戴口罩的人脸识别系统，对源数据的要求不太高，即使使用有口罩面部遮挡的人脸数据训练依然有较高的正确率。

本发明是这样实现的，

一种基于YOLOv5的公共场所戴口罩的人脸识别系统，包括：

搭建以YOLOv5为框架的目标检测模块，将轻量级的卷积模块的注意力机制模块加到了YOLOv5的CSPDarknet卷积神经网络部分，将视频流中的人像分割成一组静态的人脸图像，对待检测图像进行预处理，以及判断出人脸是否佩戴口罩；

对于未戴口罩目标，直接与数据集比对进行身份识别；对于戴口罩目标，采用注意力机制模块使提取的高层次特征更加丰富，得到特征通道的权重之后，通过乘法逐通道加权到原来的特征上，完成在通道维度上的原始特征重标定；再进行人脸身份识别确认。

进一步地，所述目标检测模块包括输入端、Backbone主干网络、Neck颈部部分以及预测部分，所述Backbone部分包括多组卷积，在每组卷积中加入CSP结构，CSP结构将特征图拆成两个部分，一部分进行卷积操作，另一部分和上一部分卷积操作的结果进行通道数增加的特征融合。

进一步地，所述Neck颈部部分采用特征金字塔网络+像素聚合网络的结构，通过金字塔结构自顶向下，将高层的强语义特征传递下来，并在每层加入CSP结构对整个金字塔进行增强，CSP结构将特征图拆成两个部分，一部分进行卷积操作，另一部分和上一部分卷积操作的结果进行通道数增加的特征融合，通过像素聚合网络在特征金字塔网络的后面添加一个自底向上的像素聚合网络，将低层的强定位特征传递上去。

进一步地，预测部分的损失函数为：

其中v是衡量长宽比一致性的参数，定义为：

进一步地，所述注意力机制模块通过通道注意力模块，再通过空间注意力模块，所述通道注意力模块将经过之前卷积层得到的特征图，分别经过基于宽和高的最大值池化层和均值池化层，然后使用两层全连接网络，将全连接网络输出的特征进行基于逐元素的加和操作，再经过sigmoid激活函数操作，生成最终的通道注意力特征图。将该特征图和输入特征图做逐元素的乘法操作，生成空间注意力模块需要的输入特征；

所述空间注意力模块输入的是经过通道注意力模块的特征，在通道这个维度上利用了全局平均池化和全局最大池化，即把所有输入通道池化成2个实数，由(h×w×c)形状的输入得到两个(h×w×1)的特征图；接着使用一个7×7的卷积核，卷积后形成新的(h×w×1)的特征图；进行比例缩放操作，注意力模块特征与得到的新特征图相乘得到经过双重注意力调整的特征图。

进一步地，所述输入端随机使用4张图片，随机缩放，再随机分布进行拼接，并进行自适应锚框计算，自适应的计算不同训练集中的最佳锚框值；并自适应图片缩放。

进一步地，所述自适应锚框计算包括：在初始锚框的基础上输出预测框，进而和真实框进行比对，计算两者差距，再反向更新，迭代网络参数。

一种人脸识别系统，树莓派硬件中嵌入软件系统，所述软件系统控制摄像头进行图像采集，还包括：权利要求1-7任意一项所述的基于YOLOv5的公共场所戴口罩的人脸识别系统。

本发明与现有技术相比，有益效果在于：

本发明方法对源数据的要求不太高，即使使用有口罩面部遮挡的人脸数据训练依然有较高的正确率，泛用性佳。为了解决从视频流中获取图像清晰度不高的问题，在处理图像的过程中加入了过滤层，利用卷积网络，将图片中的杂质滤除，使得图片变得清晰，便于进行人脸进行识别。

附图说明

图1是本发明的总体框架图，软件与硬件的结合；

图2是本发明YOLOv5框架中Mosaic数据增强部分；

图3是：本发明YOLOv5框架中的Focus结构的操作流程；

图4是：本发明YOLOv5框架中的BackBone组成结构；

图5是：本发明YOLOv5框架中的Neck组成结构；

图6是：本发明的人脸识别流程图；

图7是：本发明YOLO5除头部的整体框架图。

图8是：本发明中FPN+PAN操作图(a)FPN，(b)自下而上的路径增强。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明参见图1所示，一种基于YOLOv5的公共场所戴口罩的人脸识别系统，包括：

目标检测模块包括输入端、Backbone主干网络、Neck颈部部分以及预测部分，所述Backbone部分包括多组卷积，在每组卷积中加入CSP结构，CSP结构将特征图拆成两个部分，一部分进行卷积操作，另一部分和上一部分卷积操作的结果进行通道数增加的特征融合。

Neck颈部部分采用特征金字塔网络+像素聚合网络的结构，通过金字塔结构自顶向下，将高层的强语义特征传递下来，并在每层加入CSP结构对整个金字塔进行增强，CSP结构将特征图拆成两个部分，一部分进行卷积操作，另一部分和上一部分卷积操作的结果进行通道数增加的特征融合，通过像素聚合网络在特征金字塔网络的后面添加一个自底向上的像素聚合网络，将低层的强定位特征传递上去。

预测部分的损失函数为：

其中v是衡量长宽比一致性的参数，定义为：

本实施例中注意力机制模块通过通道注意力模块，再通过空间注意力模块，所述通道注意力模块将经过之前卷积层得到的特征图，分别经过基于宽和高的最大值池化层和均值池化层，然后使用两层全连接网络，将全连接网络输出的特征进行基于逐元素的加和操作，再经过sigmoid激活函数操作，生成最终的通道注意力特征图。将该特征图和输入特征图做逐元素的乘法操作，生成空间注意力模块需要的输入特征；

空间注意力模块输入的是经过通道注意力模块的特征，在通道这个维度上利用了全局平均池化和全局最大池化，即把所有输入通道池化成2个实数，由(h×w×c)形状的输入得到两个(h×w×1)的特征图；接着使用一个7×7的卷积核，卷积后形成新的(h×w×1)的特征图；进行比例缩放操作，注意力模块特征与得到的新特征图相乘得到经过双重注意力调整的特征图。

本发明，以YOLOv5为主框架构建目标检测模型，对佩戴口罩人脸的视频流进行实时检测，完成身份识别。YOLOv5目标检测模型框架和以往的YOLO框架相比，YOLOv5中设计了两种CSP结构，将他们应用在主干网络和颈部，将注意力机制模块CBAM添加在跨阶段局部网络(Cross Stage Partial DarkNet,CSPDarkNet)部分，可以分析更深的网络卷积层，使对戴口罩的人脸识别准确度得到显著提高。完成搭建戴口罩人脸识别算法后，将其移植到树莓派上，使用树莓派摄像头完成摄取视频流图像，返回终端进行人脸识别操作，最后将识别结果展现在树莓派屏幕上。本发明的总体框架结构图如图1。

本发明特别加入了注意力机制CBAM，增大口罩以上面部特征关键点所占权重，以提高识别的准确率。在这一创新部分，将轻量级的卷积模块的注意力机制模块(Convolutional Block Attention Module，CBAM)加到了YOLOv5的骨干特征提取网络(CSPDarknet)的卷积神经网络部分。轻量的注意力模块CBAM包含2个独立的子模块，通道注意力模块(Channel Attention Module，CAM)和空间注意力模块(Spartial AttentionModule，SAM)，分别进行通道与空间上的Attention。这样不仅节约参数和计算力，并且保证了其能够做为即插即用的模块集成到现有的网络架构中去。

本发明主要包括1.搭建以YOLOv5为框架的深度学习目标检测模型。2.加入注意力机制模块CBAM，提升卷积神经网络的性能，进行口罩与人脸检测。3.将算法移植到树莓派4B上，在硬件上完成图像摄取->人脸识别->人脸身份输出。将以上三个模块组合构成一套软件硬件相结合的设备，实现对公共场所戴口罩的人在不摘口罩的情况下仍然可以完成身份识别的目的。并且本发明结合硬件，将深度学习算法模型移植至树莓派，作为硬件终端，使得开发的戴口罩人脸识别系统同时具备精确性、便携性、实用性，能够满足当下市场需求，具有较高的价值。下面将对三个模块展开详细介绍：

搭建以YOLOv5为框架的深度学习目标检测模型。

步骤一：数据准备。

首先制作数据集。使用labelling标注工具对图片的人脸进行标注并对人脸上的口罩进行标注。继而对人脸图像数据集进行预处理，主要包括消除噪声、灰度归一化、几何校正等,而且由于本发明中主要是动态人脸图像的预处理,需要先将动态人脸图像分割成一组静态人脸图像,然后对人脸进行边缘检测和定位,再做一系列的处理。例如减少图像中的噪声干扰、提高清晰度、还有包括图像滤波、变换、转码、模数转化等。

步骤二：构建YOLOv5目标检测模型，它是一个高效而强大的目标检测网络，它的网络结构一共有四个部分，分别为输入端(input)、网络主干(backbone)、颈部(neck)、预测(prediction)，框架结构如图7，其中conv-卷积层；BN-分批标准化；Leaky Relu-Relu函数的变体；CBL-卷积块，由Conv、Batch Normalization(BN)、leaky relu这三个网络层组成；concat为张量拼接层；resunit为残差模块；Focus为下采样模块；spp为空间金字塔池化结构。以下为本发明YOLOv5框架中的四个部分：

(一)YOLOv5的输入端

1.Mosaic数据增强

YOLOv5中使用的是Mosaic数据增强，这种数据增强方式简单来说就是把4张图片，通过随机缩放、随机裁减、随机排布的方式进行拼接，如图2。优点是丰富数据集：随机使用4张图片，随机缩放，再随机分布进行拼接，大大丰富了检测数据集，特别是随机缩放增加了很多小目标，让网络的鲁棒性更好，并且减少GPU：直接计算4张图片的数据，使得小批(Mini-batch)大小并不需要很大，一个GPU就可以达到比较好的效果。

2.自适应锚框计算

在YOLO算法中，针对不同的数据集，都会有初始设定长宽的锚框。在网络训练中，网络在初始锚框的基础上输出预测框，进而和真实框(groundtruth)进行比对，计算两者差距，再反向更新，迭代网络参数。YOLOv5中将此功能嵌入到代码中，每次训练时，自适应的计算不同训练集中的最佳锚框值。

3.自适应图片缩放

在实际使用时，很多图片的长宽比不同，缩放填充后两端的黑边大小都不同，而如果填充的比较多，则存在信息冗余，影响推理速度。因此在YOLOv5代码中datasets.py的letterbox函数中进行了修改，对原始图像自适应的添加最少的黑边。这使得图像高度上两端的黑边变少了，在推理时，计算量也会减少，即目标检测速度会得到提升。

(二)YOLOv5的Backbone部分，参见图4。

1.Focus结构

Focus结构中最关键的是切片操作。原始608×608×3的图像输入YOLOv5的Focus结构，采用切片操作，先变成304×304×12的特征图，再经过一次32个卷积核的卷积操作，最终变成304×304×32的特征图，如图3。

2.CSP结构

YOLOv5中设计了两种CSP结构分别是：CSP1_X和CSP2_X。其中CSP1_X结构应用于Backbone主干网络中，而另一种CSP2_X结构则应用于Neck部分，由图7表示的YOLOv5的整体框架图可以看出他们在网络中所处的位置。Backbone主干网络中，有多个CSP1_X模块，卷积注意力模块(CBAM)就加在了CSP1_1中的卷积层(conv)中(即第一个卷积层之后，第二个卷积层之前)。采用的CSP模块先将基础层的特征映射划分为两部分，然后通过跨阶段层次结构将它们合并，在减少了计算量的同时保证了准确率。优点有增强卷积神经网络(Convolutional Neural Networks，CNN)的学习能力，使得在轻量化的同时保持准确性，降低计算瓶颈和内存成本。CSPNet通过将梯度的变化从头到尾地集成到特征图中，在减少了计算量的同时保证准确率。CSPNet的思想是将特征图(feature map)拆成两个部分，一部分进行卷积操作，另一部分和上一部分卷积操作的结果进行通道数增加的特征融合(concat)。

(三)YOLOv5的Neck部分，参见图5，

YOLOv5的Neck采用特征金字塔网络(Feature Pyramid Network，FPN)+像素聚合网络(Pixel Aggregation Network，PAN)的结构。YOLOv5的Neck结构中，在图7中可以看到CSP2的网络结构，与CSP1_X相比。不一样的地方只有CSP2_X将Resunit换成了2*X个CBL结构。在CSP2的卷积层(conv)中有FPN+PAN结构，如图8。特征金字塔是多尺度(muiti-scale)目标检测领域中的重要组成部分，它用深度神经网络固有的多尺度、多层级的金字塔结构，使用一种自上而下的侧边连接在所有尺度上构建出高级语义特征图，构造了特征金字塔的结构。其具体做法是把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征自上而下进行融合，使得所有尺度下的特征都有丰富的语义信息。FPN自顶向下将高层的强语义特征传递下来，对整个金字塔进行增强，不过只增强了语义信息，对定位信息没有传递。PAN就是针对这一点，在FPN的后面添加一个自底向上的金字塔，对FPN补充，将低层的强定位特征传递上去，又被称之为“双塔战术”。以上应用加强了网络特征融合的能力。

(四)YOLOv5的预测部分

1.Bounding box损失函数

YOLOv5中采用CIOU_Loss函数做边界框(Bounding box)的损失函数，在DIOU_Loss公式的基础上增加了一个影响因子，将预测框和目标框的长宽比都考虑了进去。

其中v是衡量长宽比一致性的参数，定义为：

CIOU_Loss将目标框回归函数应该考虑三个重要几何因素：重叠面积、中心点距离、长宽比全都考虑进去了，使得预测框回归的速度和精度更高一些。

2.nms非极大值抑制

在目标检测的后处理过程中，针对很多目标框的筛选需要非极大值抑制(Non-Maximum Suppression，NMS)操作，YOLOv5中采用加权nms的方式。因为CIOU_Loss中包含影响因子v，涉及groudtruth(指的是训练集对监督学习技术的分类的准确性)的信息，而测试推理时并没有groundtruth。不同的nms会有不同的效果，在同样的参数情况下，将nms中IOU修改成CIOU_nms，对于一些遮挡重叠的目标会有一些改进。

本发明加入CBAM注意力机制，提升卷积神经网络的性能，进行口罩与人脸检测。

卷积注意力模块(CBAM)是一种用于前馈卷积神经网络的简单而有效的注意力模块。给定一个中间特征图，CBAM模块会沿着两个独立的维度(通道和空间)依次推断注意力图，然后将注意力图与输入特征图相乘以进行自适应特征优化，以此来实现对卷积神经网络的通道和空间区域进行选择的这一能力，提高卷积神经网络的注意力能力，避免背景对识别的影响。CBAM既包含通道的注意力机制，又包含空间的注意力机制，相比于只关注通道的压缩和激励网络(Squeeze-and-Excitation Networks,SENet)，取得了更好的效果。CBAM先通过一个通道注意力模块，得到加权结果之后，再通过空间注意力模块，最终进行加权得到结果。CBAM在S步采取了全局平均池化(Average Pooling)以及全局最大池化(MaxPooling)，两种不同的池化使提取的高层次特征更加丰富。接着在E步同样通过两个全连接层和相应的激活函数建模通道之间的相关性，合并两个输出得到各个特征通道的权重。最后，得到特征通道的权重之后，通过乘法逐通道加权到原来的特征上，完成在通道维度上的原始特征重标定。

1.通道注意力模块

通道注意力模块将经过之前卷积层得到的特征图，分别经过基于宽和高的最大值池化层和均值池化层，然后使用两层全连接网络，将全连接网络输出的特征进行基于逐元素的加和操作，再经过sigmoid激活函数操作，生成最终的通道注意力特征图。将该特征图和输入特征图做逐元素的乘法操作，生成空间注意力模块需要的输入特征。

2.空间注意力模块

空间注意力的本质就是定位目标并进行一些变换或者获取权重。首先输入的是经过通道注意力模块的特征，在通道这个维度上利用了全局平均池化和全局最大池化，即把所有输入通道池化成2个实数，由(h×w×c)形状的输入得到两个(h×w×1)的特征图。接着使用一个7×7的卷积核，卷积后形成新的(h×w×1)的特征图。最后进行比例缩放(Scale)操作，注意力模块特征与得到的新特征图相乘得到经过双重注意力调整的特征图。

移植至树莓派，进行最后的优化与完善工作，完成硬件系统的搭建。

步骤一：硬件准备

1、用Raspberry Pi Imager将系统文件烧录到tf卡中

2、插入tf卡并接通电源，显示器，键鼠

步骤二：模型部署

1、用GPU训练出最佳模型

2、导出模型文件

3、部署自己的模型，安装必要的环境：

Cython

matplotlib>＝3.2.2

numpy>＝1.18.5

opencv-python>＝4.1.2

pillow

PyYAML>＝5.3

scipy>＝1.4.1

tensorboard>＝2.2

torch>＝1.6.0

torchvision>＝0.7.0

tqdm>＝4.41.0

4、部署模型文件和运行模型，最后修改部署代码。

步骤三：启动树莓派，程序运行，摄像头在前端从视频流中采集到图像信息，传递给下一环节由基于开源发行的跨平台计算机视觉库(Open Source Computer VisionLibrary，Opencv)对图像进行预处理，预处理结束后将数据传递进算法模型中对图片进行信息处理，给出图像中的人脸是否佩戴口罩以及识别出的人脸的身份等信息，操作人员收到信息后进行下一步的处理，最后在树莓派的屏幕上输出识别结果。

人脸身份识别的流程图如图6。

第一：人脸数据集的采集与预训练(包含戴口罩和不戴口罩的人脸)，它包含以下步骤：

步骤一：采集数据集，采集不同场景下的人脸数据，不限于是否佩戴口罩。

数据来源主要为公开网络资源以及自建数据集。我们采用的公开数据集，主要为公开的网络图片。同时我们也进一步地创建了我们小组的自建数据集，主要通过自主拍摄的方式，拍摄不同人脸不同佩戴口罩状态以及同一人脸不同角度与场景的图片，包括未带口罩、规范佩戴口罩和不规范佩戴口罩等状态。

步骤二：数据集图像预处理，将步骤一采集图像进行预处理。

对人脸图像的预处理主要包括消除噪声、灰度归一化、几何校正等,而且由于本发明中主要是动态人脸图像的预处理,需要先将动态人脸图像分割成一组静态人脸图像,然后对人脸进行边缘检测和定位,再做一系列的处理，便于后续步骤训练图像。例如减少图像中的噪声干扰、提高清晰度、还有包括图像滤波、变换、转码、模数转化等。

在YOLOv5目标检测模型框架中引入注意力机制模块CABM，实现软件算法模型设计系统搭建。

步骤一：在pycharm中输入代码，建立口罩佩戴检测模型及人脸目标检测模型。

步骤二：将已处理好的待检测图片输入模型进行预训练。

步骤三：在YOLOv5目标检测模型中检测待测目标是否佩戴口罩。

步骤四：对于未佩戴口罩的目标，直接与数据集比对进行人脸识别，辨别目标身份。

步骤五：对于步骤三中规范佩戴口罩目标，引入注意力机制CBAM，提高网络识别能力，对戴口罩的人脸目标进行身份识别。

本发明实现系统的软件移植到树莓派中，完成硬件系统的搭建。

步骤一：将软件算法移植到树莓派中。

步骤二：通过嵌入式系统控制摄像头，对现场进行图像采集，从视频流中截取出图片帧。

步骤三：对识别到的人脸进行图像预处理，建立特征模型，并传输到以YOLOv5为框架的实时人脸识别系统中，通过对图像与目标的特征提取、比较，实现人脸识别。

步骤四：输出人脸图像识别结果：包括人脸受否佩戴口罩以及人脸的身份信息。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于YOLOv5的公共场所戴口罩的人脸识别系统，其特征在于，包括：

2.按照权利要求1所述的人脸识别系统，其特征在于，所述目标检测模块包括输入端、Backbone主干网络、Neck颈部部分以及预测部分，所述Backbone部分包括多组卷积，在每组卷积中加入CSP结构，CSP结构将特征图拆成两个部分，一部分进行卷积操作，另一部分和上一部分卷积操作的结果进行通道数增加的特征融合。

3.按照权利要求2所述的人脸识别系统，其特征在于，所述Neck颈部部分采用特征金字塔网络+像素聚合网络的结构，通过金字塔结构自顶向下，将高层的强语义特征传递下来，并在每层加入CSP结构对整个金字塔进行增强，CSP结构将特征图拆成两个部分，一部分进行卷积操作，另一部分和上一部分卷积操作的结果进行通道数增加的特征融合，通过像素聚合网络在特征金字塔网络的后面添加一个自底向上的像素聚合网络，将低层的强定位特征传递上去。

4.按照权利要求2所述的人脸识别系统，其特征在于，预测部分的损失函数为：

其中v是衡量长宽比一致性的参数，定义为：

5.按照权利要求1所述的人脸识别系统，其特征在于，所述注意力机制模块通过通道注意力模块，再通过空间注意力模块，所述通道注意力模块将经过之前卷积层得到的特征图，分别经过基于宽和高的最大值池化层和均值池化层，然后使用两层全连接网络，将全连接网络输出的特征进行基于逐元素的加和操作，再经过sigmoid激活函数操作，生成最终的通道注意力特征图。将该特征图和输入特征图做逐元素的乘法操作，生成空间注意力模块需要的输入特征；

6.按照权利要求2所述的人脸识别系统，其特征在于，所述输入端随机使用4张图片，随机缩放，再随机分布进行拼接，并进行自适应锚框计算，自适应的计算不同训练集中的最佳锚框值；并自适应图片缩放。

7.按照权利要求6所述的人脸识别系统，其特征在于，所述自适应锚框计算包括：在初始锚框的基础上输出预测框，进而和真实框进行比对，计算两者差距，再反向更新，迭代网络参数。

8.一种人脸识别系统，其特征在于，树莓派硬件中嵌入软件系统，所述软件系统控制摄像头进行图像采集，还包括：权利要求1-7任意一项所述的基于YOLOv5的公共场所戴口罩的人脸识别系统。