CN112861687B

CN112861687B - 用于门禁系统的口罩佩戴检测方法、装置、设备和介质

Info

Publication number: CN112861687B
Application number: CN202110137146.0A
Authority: CN
Inventors: 毛晓波; 徐向阳; 李楠; 魏刘倩; 刘玉玺; 董梦超; 焦淼鑫; 焦义; 姚国梁; 倪金红
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2023-08-08
Anticipated expiration: 2041-02-01
Also published as: CN112861687A

Abstract

本公开的实施例公开了用于门禁系统的口罩佩戴检测方法、装置、设备和介质。该方法的一具体实施方式包括：步骤1，响应于接收到第一光电开关设备或第二光电开关设备发送的光电信号信息，控制摄像设备拍摄门禁系统通道内的图像，得到排队队伍的图像；步骤2，将排队队伍的图像输入至口罩佩戴检测网络，输出图像中包围人脸位置的矩形框及对应的类别；步骤3，确定矩形框的面积，记录人脸面积最大者佩戴口罩的情况；步骤4，将步骤1至步骤3过程循环执行25次得到队首的人是否佩戴口罩的情况，如果有10次均检测到队首的人佩戴口罩，则“放行”，否则，语音提示队首的人“佩戴口罩后通行”。该实施方式降低了口罩佩戴结果的误检率。

Description

用于门禁系统的口罩佩戴检测方法、装置、设备和介质

技术领域

本公开的实施例涉及计算机技术领域，具体涉及用于门禁系统的口罩佩戴检测方法、装置、设备和介质。

背景技术

为了减少疫情期间公共场所由于人们未佩戴口罩而造成的交叉感染问题的出现，在进入门禁系统的小区时，检测人们在通过门禁闸机时是否佩戴口罩成为允许通行的条件。目前，通常利用人工智能算法检测人们是否佩戴口罩。

然而，当采用上述方式检测人们是否佩戴口罩时，经常会存在如下技术问题：

第一，现有的口罩佩戴检测方法通常利用传统的图像处理技术或卷积神经网络和深度学习技术进行检测，然而，这种检测方法得到的口罩佩戴检测结果的精确度往往比较低，从而使得口罩佩戴结果的误检率较高；

第二，现有的口罩佩戴检测方法在生成口罩佩戴检测结果时，占用较多的计算机计算资源，同时，生成口罩佩戴检测结果的时间较长，进而，造成口罩佩戴检测效率较低。

发明内容

本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

本公开的一些实施例提出了用于门禁系统的口罩佩戴检测方法、装置、电子设备和计算机可读介质，来解决以上背景技术部分提到的技术问题中的一项或多项。

第一方面，本公开的一些实施例提供了一种用于门禁系统的口罩佩戴检测方法，上述门禁系统包括第一光电开关设备、第二光电开关设备、摄像设备和语音提示设备，上述方法包括：步骤1，响应于接收到上述第一光电开关设备或上述第二光电开关设备发送的光电信号信息，控制上述摄像设备拍摄门禁系统通道内的图像，得到排队队伍的图像；步骤2，将上述排队队伍的图像输入至口罩佩戴检测网络，输出图像中佩戴口罩或者未佩戴口罩的包围人脸位置的矩形框及对应的类别；步骤3，确定上述包围人脸位置的矩形框的面积，根据人脸面积最大者确定排队队伍的队首，记录人脸面积最大者佩戴口罩的情况；步骤4，将上述步骤1至步骤3循环执行25次得到队首的人是否佩戴口罩的情况，如果有10次均检测到队首的人佩戴口罩，则“放行”，否则，语音提示队首的人“佩戴口罩后通行”。

第二方面，本公开的一些实施例提供了一种用于门禁系统的口罩佩戴检测装置，装置包括：控制单元，被配置成响应于接收到上述第一光电开关设备或上述第二光电开关设备发送的光电信号信息，控制上述摄像设备拍摄门禁系统通道内的图像，得到排队队伍的图像；输入单元，将上述排队队伍的图像输入至口罩佩戴检测网络，输出图像中佩戴口罩或者未佩戴口罩的包围人脸位置的矩形框及对应的类别；确定单元，被配置成确定上述包围人脸位置的矩形框的面积，根据人脸面积最大者确定排队队伍的队首，记录人脸面积最大者佩戴口罩的情况；执行单元，被配置成将上述步骤1至步骤3循环25次得到队首的人是否佩戴口罩的情况，如果有10次均检测到队首的人佩戴口罩，则“放行”，否则，语音提示队首的人“佩戴口罩后通行”。

第三方面，本公开的一些实施例提供了一种电子设备，包括：一个或多个处理器；第一光电开关设备；第二光电开关设备；摄像设备；语音提示设备；存储装置，其上存储有一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。

第四方面，本公开的一些实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。

本公开的上述各个实施例具有如下有益效果：通过本公开的一些实施例的用于门禁系统的口罩佩戴检测方法检测人们是否佩戴口罩，使得口罩佩戴结果的误检率降低。具体来说，造成口罩佩戴结果的误检率较高的原因在于：现有的口罩佩戴检测方法通常利用传统的图像处理技术或卷积神经网络和深度学习技术进行检测，然而，这种检测方法得到的口罩佩戴检测结果的精确度往往比较低。基于此，本公开的一些实施例的用于门禁系统的口罩佩戴检测方法，首先，响应于接收到上述第一光电开关设备或上述第二光电开关设备发送的光电信号信息，控制上述摄像设备拍摄门禁系统通道内的图像，得到排队队伍的图像。当接收到光电信号，对排队队伍的图像进行拍摄，可以获取到用于检测的图像。其次，将上述排队队伍的图像输入至口罩佩戴检测网络，输出图像中佩戴口罩或者未佩戴口罩的包围人脸位置的矩形框及对应的类别。由于引入了深度可分离卷积技术，可以降低计算机的数据计算量和计算资源的占用率，增加门禁系统各个设备的使用寿命。接着，确定上述包围人脸位置的矩形框的面积，根据人脸面积最大者确定排队队伍的队首，记录人脸面积最大者佩戴口罩的情况。由此，可以得到人脸面积最大者是否佩戴口罩的结果。最后，将上述步骤1至步骤3循环执行25次得到队首的人是否佩戴口罩的情况，如果有10次均检测到队首的人佩戴口罩，则“放行”，否则，语音提示队首的人“佩戴口罩后通行”。由此，可以使得口罩佩戴检测结果的精确度提高，从而，降低了口罩佩戴结果的误检率。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，元件和元素不一定按照比例绘制。

图1是根据本公开的一些实施例的用于门禁系统的口罩佩戴检测方法的一个应用场景的示意图；

图2是根据本公开的用于门禁系统的口罩佩戴检测方法的一些实施例的流程图：

图3是根据本公开的一些实施例的用于门禁系统的口罩佩戴检测方法的又一个应用场景的示意图；

图4是根据本公开的用于门禁系统的口罩佩戴检测装置的一些实施例的结构示意图：

图5是根据本公开的用于门禁系统的口罩佩戴检测方法的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下面将参考附图并结合实施例来详细说明本公开。

图1是根据本公开的一些实施例的用于门禁系统的口罩佩戴检测方法的一个应用场景的示意图。

在图1的应用场景中，首先，计算设备101可以响应于接收到上述第一光电开关设备或上述第二光电开关设备发送的光电信号信息，控制上述摄像设备拍摄门禁系统通道内的图像，得到排队队伍的图像102。然后，计算设备101可以将上述排队队伍的图像输入至口罩佩戴检测网络，输出图像中佩戴口罩或者未佩戴口罩的包围人脸位置的矩形框及对应的类别103。之后，计算设备101可以确定上述包围人脸位置的矩形框的面积，根据人脸面积最大者确定排队队伍的队首，记录人脸面积最大者佩戴口罩的情况104。最后，计算设备101可以将上述步骤1至步骤3循环执行25次得到队首的人是否佩戴口罩的情况105，如果有10次均检测到队首的人佩戴口罩，则“放行”，否则，语音提示队首的人“佩戴口罩后通行”。

需要说明的是，上述计算设备101可以是硬件，也可以是软件。当计算设备为硬件时，可以实现成多个服务器或终端设备组成的分布式集群，也可以实现成单个服务器或单个终端设备。当计算设备体现为软件时，可以安装在上述所列举的硬件设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的计算设备的数目仅仅是示意性的。根据实现需要，可以具有任意数目的计算设备。

继续参考图2，示出了根据本公开的用于门禁系统的口罩佩戴检测方法的一些实施例的流程200。该用于门禁系统的口罩佩戴检测方法，包括以下步骤：

步骤201，响应于接收到第一光电开关设备或第二光电开关设备发送的光电信号信息，控制摄像设备拍摄门禁系统通道内的图像，得到排队队伍的图像。

在一些实施例中，用于门禁系统的口罩佩戴检测方法的的执行主体(如图1所示的计算设备101)可以响应于接收到上述第一光电开关设备或上述第二光电开关设备发送的光电信号信息，控制上述摄像设备拍摄门禁系统通道内的图像，得到排队队伍的图像。其中，上述摄像设备可以是摄像机或者能够进行拍照的手机。上述第一光电开关设备和第二光电开关设备可以是一种利用光电效应做成的光电开关设备。光电开关设备是能够产生高电平和低电平的开关设备。上述光电开关设备可以是漫反射型光电开关或镜面反射式光电开关。

步骤202，将排队队伍的图像输入至口罩佩戴检测网络，输出图像中佩戴口罩或者未佩戴口罩的包围人脸位置的矩形框及对应的类别。

在一些实施例中，上述执行主体可以将上述排队队伍的图像输入至口罩佩戴检测网络，输出图像中佩戴口罩或者未佩戴口罩的包围人脸位置的矩形框及对应的类别。其中，上述口罩佩戴检测网络可以是通过卷积神经网络或深度神经网络训练得到的网络。上述类别可以是佩戴口罩或者未佩戴口罩。

步骤203，确定包围人脸位置的矩形框的面积，根据人脸面积最大者确定排队队伍的队首，记录人脸面积最大者佩戴口罩的情况。

在一些实施例中，上述执行主体可以确定上述包围人脸位置的矩形框的面积，根据人脸面积最大者确定排队队伍的队首，记录人脸面积最大者佩戴口罩的情况。

在一些实施例的一些可选的实现方式中，口罩佩戴检测网络通过以下方式训练得到：

首先，获取训练数据集合。其中，训练数据集合中的每张图片均包含佩戴口罩或者未佩戴口罩的人或者人脸的图像。对训练数据集合进行数据标注。可以使用数据标注软件(例如，labelimg软件)进行数据标注。标注格式为PASCAL VOC所使用的标注“.xml”文件，并且规定未戴口罩的图片数据标签为“face”。PASCAL VOC可以是为图像识别和分类提供了一整套标准化的数据集。并且规定未戴口罩的人脸数据标签为“face”。佩戴口罩的人脸数据标签为“face_mask”。大约8000张图片数据，其中训练数据6000余张，测试数据近2000张。

其次，对上述训练数据集合进行数据标注，得到标注框位置信息集合及对应的类别集合。

之后，对上述训练数据集合进行数据增强处理，得到增强数据集合。由于目标检测算法是在预设的6个特征图中划分先验框，要直接面对正负样本不均衡的问题。其中，正样本为与标注框的交并比(IoU，Intersection-over-Union)大于一定值的样本。反之，为负样本。上述一定值可以是0.5。所以，数据增强是目标检测算法(SSD，Single Shot MultiBoxDetector)中非常重要的一个环节，使用数据增强的训练模型明显优于未使用数据增强的模型。目标检测算法的数据增强可以包括但不限于以下几项：随机饱和度变换、随机色相变换、随机光照噪音、随机对比变换、随机亮度变换、随机颜色空间模型(例如，HSV模型和RGB模型)变换、随机颜色通道(例如，RGB通道)顺序变换、随机裁剪、随机扩展、随机左右翻转、调整为固定尺寸等内容。作为示例，随机扩展可以显著提高对小目标的检测能力。其他变换可以应对尺寸变化、光线变化等问题。

接着，设计初始目标检测网络，得到第一目标检测网络。其中，上述第一目标检测网络可以是能够根据样本人脸图像得到与样本人脸图像对应的口罩佩戴结果的各种神经网络。例如，卷积神经网络、深度神经网络等等。

然后，基于上述增强数据集合、上述标注框位置信息集合和上述第一目标检测网络，执行以下训练步骤：首先，将上述增强数据集合输入至上述第一目标检测网络，得到边界框位置信息集合。其中，上述边界框是编码前的框。然后，对上述边界框位置信息集合中的每个边界框位置信息进行编码处理以生成编码后的边界框位置信息，得到编码后的边界框位置信息集合。之后，对上述标注框位置信息集合中的每个标注框位置信息进行编码处理以生成编码后的标注框位置信息，得到编码后的标注框位置信息集合。接着，确定上述编码后的边界框位置信息集合与上述编码后的标注框位置信息集合的损失值。最后，响应于上述损失值收敛于第二预定阈值，将上述第一目标检测网络作为训练完成的口罩佩戴检测网络。另外，响应于确定上述损失值不收敛于上述第二预定阈值，调整上述第一目标检测网络的网络参数，以及使用未用过的训练数据组成训练数据集合，将调整后的第一目标检测网络作为第一目标检测网络，再次执行上述训练步骤。

可选地，上述设计初始目标检测网络，得到第一目标检测网络，可以包括以下步骤：

第一步，获取初始目标检测网络。其中，上述初始目标检测网络包括19层网络。

第二步，对上述初始目标检测网络进行网络增删处理，得到第二目标检测网络。

第三步，对上述第二目标检测网络进行卷积处理和深度可分离卷积处理，得到卷积结果和深度可分离卷积结果。

第四步，将上述卷积结果和上述深度可分离卷积结果进行比对以生成比对结果。上述比对结果可以是上述预设条件可以是上述卷积结果和上述深度可分离卷积结果的比值。

第五步，确定上述比对结果是否满足预设条件，响应于上述比对结果满足预设条件，将上述第二目标检测网络与上述深度可分离卷积处理结合得到第一特征提取网络。上述预设条件可以是上述卷积结果和上述深度可分离卷积结果的比值大于1。

可选地，上述将上述卷积结果和上述深度可分离卷积结果进行比对以生成比对结果，可以包括以下步骤：

第一步，获取卷积核的边长值，特征图的通道数，卷积核的数量和特征图的边长值。

第二步，将上述卷积结果和上述深度可分离卷积结果输入至以下公式以生成比对结果：

其中，G表示上述卷积结果。D_F表示上述卷积核的边长值。M表示上述特征图的通道数。N表示上述卷积核的数量。D₀表示上述特征图的边长值。H表示上述深度可分离卷积结果。P表示上述比对结果。DF²表示上述卷积核的边长值的平方。

由于VGG特征提取网络的卷积层太多，想要实现实时检测人脸是否佩戴口罩的功能，只能在带有GPU(Graphics Processing Unit，图形处理器)的机器上运行才可以。VGG特征提取网络可以是由卷积神经网络训练得到的网络。由于需要的是在移动终端设备上快速运行目标检测网络，因此对初始目标检测网络进行改进，将其替换为适合于移动终端设备运行的特征提取网络MobileNetV3。MobileNetV3主要利用网络架构搜索(NAS，NeuralArchitecture Search)，搜索出的一种算法。特征提取网络MobileNetV3输入图片的尺寸可以为320×320×3。相比于目标检测算法采用的VGG特征提取网络，模型尺寸从201MB减少到29.9MB，模型大小降低了近7倍。MobileNetV3原始模型只有19层，第2到15层均是一个bneck。其中，bneck可以是一个集成的模块。一般按照顺序包含2D卷积、BN层、H-Swish激活函数层、SE(Squeeze-and-Excite)层、2D卷积、BN层。如图3所示。2D卷积可以是处理一张图像的卷积。H-Swish可以是一种激活函数。BN层可以是属于网络中的一层。SE(Squeeze-and-Excite)层可以是一种图像识别结构，SE可以通过对特征通道间的相关性进行建模，把重要的特征进行强化来提升准确率。但是将SE嵌入到目标检测网络中，就需要移除一些只适用于分类任务的层。这里移除MobileNetV3中的第17层及17层以后的层，并在其后添加四层bneck，一共20层。各个层的作用是为目标检测网络提供不同尺度的检测特征图，简称为MobileNetV3-SSD。MobileNetV3-SSD可以是特征提取网络与目标检测算法的组合模型。MobileNetV3-SSD网络结构可以具有相对MobileNetV3原始模型更多的卷积层。MobileNetV3-SSD网络结构加入了深度可分离卷积、倒置的残差结构、轻量级的注意力机制、利用H-Swish代替计算量巨大的Swish激活函数。深度可分离卷积将标准的卷积核进行分解，减少了计算量，提高了训练计算速度。在深度学习中，卷积核的数量可以为32、64、128、256、512、1024等。卷积核的边长值的平方可以为1、4、9。上述比对结果的值远远大于1。即普通卷积的计算量比深度可分离卷积的计算量高的多，这也正是深度可分离卷积的运算速度比普通卷积快得多的原因。

在MobileNetV3-SSD这个网络结构中，选择bneck12、bneck15、bneck16、bneck17、bneck18、bneck19这六个特征图，这六个特征图的尺寸可以为(20、20、112)、(10、10、960)、(5、5、512)、(3、3、256)、(2、2、256)、(1、1、64)。每一层特征图上分别产生20×20、10×10、5×5、3×3、2×2、1×1个中心点，每个中心点上均按照先验框比例(1，1，0.5，2，0.3，3)生成6个先验框，那么每一层上的先验框总数为2400、600、150、54、24、6。先验框一共3234个。很明显先验框数量明显少于原始目标检测算法中的VGG特征提取网络产生的8732个先验框，这就给训练和推理速度的提高提供了良好的理论基础。这六个特征图上的先验框的最小、最大尺寸按照公式计算：

其中，S_k表示第k个特征图上先验框的最大尺寸占原始图像边长的比例。S_min是一个常量，取值可以为0.2。S_max是一个常量，取值可以为0.9。m表示选取的检测特征图的数量减去1。k表示特征图的序号。k的值可以是[1，6]之间的整数，[1，6]之间的整数分别对应第1到第6个特征图。

其中，S_min的值可以是0.2。S_max的值可以是0.9。m的值可以是5。k的值可以是6。随后，将计算得到的S_k乘以输入图片的大小。图片的大小可以是320。但第一个特征图，即bneck12中先验框的最小尺寸默认选择32，最大尺寸可以算出为64，后面特征图中的先验框的最小、最大尺寸可以通过计算得出，分别为(64，109)、(109，154)、(154，198)、(198,243)、(243，332)。

上述公式及其相关内容作为本公开的实施例的一个发明点，解决了背景技术提及的技术问题二“现有的口罩佩戴检测方法在生成口罩佩戴检测结果时，占用较多的计算机计算资源，同时，生成口罩佩戴检测结果的时间较长，进而，造成口罩佩戴检测效率降低”。导致口罩佩戴检测效率降低的因素往往如下：现有的口罩佩戴检测方法在生成口罩佩戴检测结果时，占用较多的计算机计算资源，同时，生成口罩佩戴检测结果的时间较长。如果解决了上述因素，就能达到提高口罩佩戴检测效率的效果。为了达到这一效果，本公开引入了深度可分离卷积。将使用卷积得到的计算机计算量与使用深度可分离卷积得到的计算机计算量进行求比值计算，得到两者的比值。两者的比值远远大于1。说明卷积造成的计算机的计算量比深度可分离卷积的造成的计算机的计算量高的多。由此，本公开引入深度可分离卷积后，可以降低计算机计算资源的占用量，同时，降低了生成口罩佩戴检测结果的时间。进而，提高了口罩佩戴检测效率。

可选地，上述边界框位置信息集合中的预测边界框位置信息包括：预测边界框的中心坐标的横坐标、预测边界框的中心坐标的纵坐标、预测边界框的宽、预测边界框的高；以及上述对上述预测边界框位置信息集合中的每个预测边界框位置信息进行编码处理以生成编码后的预测边界框位置信息，可以包括以下步骤：

第一步，获取先验框位置信息，其中，上述先验框位置信息包括：先验框的中心坐标的横坐标、先验框的中心坐标的纵坐标、先验框的宽和先验框的高。

第二步，基于上述预测边界框位置信息和上述先验框位置信息，利用以下公式，生成编码后的预测边界框位置信息：

其中，l^cx表示上述编码后的边界框位置信息的中心坐标的横坐标。b^cx表示上述边界框的中心坐标的横坐标。d^cx表示上述先验框的中心坐标的横坐标。d^w表示上述先验框的宽。v^w表示第一方差值。l^cy表示上述编码后的边界框位置信息的中心坐标的纵坐标。b^cy表示上述边界框的中心坐标的纵坐标。d^cy表示上述先验框的中心坐标的纵坐标。d^h表示上述先验框的高。v^h表示第二方差值。l^w表示上述编码后的边界框位置信息的宽。b^w表示上述边界框的宽。l^h表示上述编码后的边界框位置信息的高。b^h表示上述边界框的高。L表示上述编码后的边界框位置信息。这里v^w的取值可以是0.2。v^h的取值可以是0.2。

由于网络的训练过程中，网络输出值是编码后的边界框位置信息，因此，在网络预测，即输出时，要进行解码处理。解码公式如下：

其中，b^cx表示上述边界框的中心坐标的横坐标。d^w表示上述先验框的宽。v^cx表示第三方差，为一个常量。l^cx表示上述编码后的边界框位置信息的中心坐标的横坐标。d^cx表示上述先验框的中心坐标的横坐标。b^cy表示上述边界框的中心坐标的纵坐标。v^cy表示第四方差，为一个常量。l^cy表示上述编码后的边界框位置信息的中心坐标的纵坐标。d^cy表示上述先验框的中心坐标的纵坐标。b^w表示上述边界框的宽。v^w表示第一方差值。l^w表示上述编码后的边界框位置信息的宽。l^h表示上述编码后的边界框位置信息的高。b^h表示上述边界框的高。d^h表示上述先验框的高。v^h表示第二方差值。这里v^w的取值可以是0.2。v^h的取值可以是0.2。

可选地，上述确定上述编码后的边界框位置信息集合与上述编码后的标注框位置信息集合的损失值，可以包括以下步骤：

第一步，基于上述编码后的边界框位置信息集合与上述编码后的标注框位置信息集合，生成分类损失值。

作为示例，目标检测算法的损失函数可以是一种联合损失函数，即将分类损失和定位损失求和。然后同时进行反向传播，优化相关参数。由于交叉熵损失函数能够准确刻画两个概率分布之间的关系，因此可以采用交叉熵损失函数，求得分类损失。交叉熵损失函数的计算公式如下：

其中，L_conf(x，c)表示上述交叉熵损失函数。x表示编码后的预测边界框位置信息。c表示编码后的标注框位置信息。Pos表示正样本集合。j表示序号。p表示类别。表示一个因子，取值范围为集合{1，0}，表征的意义是类别p的第j个标注框与第i个先验框的匹配结果，若匹配，则取值为1，不匹配取值为0。i表示正样本的序号，正样本指的是与标注框相匹配的先验框，匹配阈值可以是0.5。/>表示第i个先验框的类别被预测为p的置信度。N表示正样本集合总数量。Neg表示负样本集合。/>表示第i个先验框的类别被预测为背景图像的置信度。

由于正负样本数量相差很大，如果让所有的负样本损失全部参与反向传播，那就不够合理，因为这样淹没了为数很少的正样本损失。因此，目标检测算法采用了难负样本挖掘技术。即将负样本的损失按照大小降序排列，只取一定的负样本。负样本损失个数根据正样本个数来确定，可以选择正样本个数的3倍。其中，正负样本的划分规则为：若先验框与标注框的交并比大于等于0.5，则将此先验框划分为正样本，反之划分为负样本，交并比的计算公式为：

其中，IOU表示交并比。A表示标注框。B表示先验框。

第二步，将上述编码后的边界框位置信息集合与上述编码后的标注框位置信息集合进行求差值处理，生成定位损失值。

作为示例，对于定位损失，可以采用SmothL1函数。SmothL1函数是一种损失函数。将编码后的边界框位置信息集合与上述编码后的标注框位置信息集合作差，将差值作为SmoothL1的自变量，然后输出结果作为定位损失，SmoothL1的计算公式如下：

其中，表示损失函数。X表示差值。不同于分类损失的是，定位损失中不含有负样本定位损失。可以简单理解为负样本损失为0。

第三步，将上述分类损失值与上述定位损失值的和确定为损失值。

步骤204，将步骤201至步骤203循环执行25次得到队首的人是否佩戴口罩的情况，如果有10次均检测到队首的人佩戴口罩，则“放行”，否则，语音提示队首的人“佩戴口罩后通行”。

在一些实施例中，上述执行主体可以将上述步骤201至步骤203循环执行25次得到队首的人是否佩戴口罩的情况，如果有10次均检测到队首的人佩戴口罩，则“放行”，否则，语音提示队首的人“佩戴口罩后通行”。其中，可以在约1秒钟的时间拍摄25帧图像，有10帧均检测到了该目标用户佩戴了口罩。上述第一预定阈值可以是10帧。

可选地，将上述提示信息发送至上述语音提示设备，以供上述语音提示设备发出语音提示上述目标用户佩戴口罩。

作为示例，上述执行主体可以将上述提示信息发送至上述语音提示设备，以供上述语音提示设备可以通过扬声器或者喇叭发出语音提示上述目标用户佩戴口罩。

进一步参考图4，作为对上述各图上述方法的实现，本公开提供了一种信息生成装置的一些实施例，这些装置实施例与图2上述的那些方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，一些实施例的用于门禁系统的口罩佩戴检测装置400包括：控制单元401、输入单元402、确定单元403和执行单元404。其中，控制单元401，被配置成响应于接收到上述第一光电开关设备或上述第二光电开关设备发送的光电信号信息，控制上述摄像设备拍摄门禁系统通道内的图像，得到排队队伍的图像；输入单元402，将上述排队队伍的图像输入至口罩佩戴检测网络，输出图像中佩戴口罩或者未佩戴口罩的包围人脸位置的矩形框及对应的类别；确定单元403，被配置成确定上述包围人脸位置的矩形框的面积，根据人脸面积最大者确定排队队伍的队首，记录人脸面积最大者佩戴口罩的情况；执行单元405，被配置成将上述步骤1至步骤3循环25次得到队首的人是否佩戴口罩的情况，如果有10次均检测到队首的人佩戴口罩，则“放行”，否则，语音提示队首的人“佩戴口罩后通行”。

可以理解的是，该装置400中记载的诸单元与参考图2描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置400及其中包含的单元，在此不再赘述。

下面参考图5，其示出了适于用来实现本公开的一些实施例的电子设备(例如，图1中的计算设备101)500的结构示意图。图5示出的电子设备仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。

如图5所示，电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

通常，以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像设备、麦克风、加速度计、陀螺仪等的输入装置506；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图5中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的一些实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的一些实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从ROM 502被安装。在该计算机程序被处理装置501执行时，执行本公开的一些实施例的方法中限定的上述功能。

需要说明的是，本公开的一些实施例中记载的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述装置中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：步骤1，响应于接收到上述第一光电开关设备或上述第二光电开关设备发送的光电信号信息，控制上述摄像设备拍摄门禁系统通道内的图像，得到排队队伍的图像；步骤2，将上述排队队伍的图像输入至口罩佩戴检测网络，输出图像中佩戴口罩或者未佩戴口罩的包围人脸位置的矩形框及对应的类别；步骤3，确定上述包围人脸位置的矩形框的面积，根据人脸面积最大者确定排队队伍的队首，记录人脸面积最大者佩戴口罩的情况；步骤4，将上述步骤1至步骤3循环执行25次得到队首的人是否佩戴口罩的情况，如果有10次均检测到队首的人佩戴口罩，则“放行”，否则，语音提示队首的人“佩戴口罩后通行”。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开的一些实施例中的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括控制单元、输入单元、确定单元和执行单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，控制单元还可以被描述为“响应于接收到上述第一光电开关设备或上述第二光电开关设备发送的光电信号信息，控制上述摄像设备拍摄门禁系统通道内的图像，得到排队队伍的图像的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于门禁系统的口罩佩戴检测方法，所述门禁系统包括第一光电开关设备、第二光电开关设备、摄像设备和语音提示设备，所述方法包括：

步骤1，响应于接收到所述第一光电开关设备或所述第二光电开关设备发送的光电信号信息，控制所述摄像设备拍摄门禁系统通道内的图像，得到排队队伍的图像；

步骤2，将所述排队队伍的图像输入至口罩佩戴检测网络，输出图像中佩戴口罩或者未佩戴口罩的包围人脸位置的矩形框及对应的类别；

步骤3，确定所述包围人脸位置的矩形框的面积，根据人脸面积最大者确定排队队伍的队首，记录人脸面积最大者佩戴口罩的情况；

步骤4，将所述步骤1至步骤3循环执行25次得到队首的人是否佩戴口罩的情况，如果有10次均检测到队首的人佩戴口罩，则“放行”，否则，语音提示队首的人“佩戴口罩后通行”；

其中，所述口罩佩戴检测网络通过以下方式训练得到：

获取训练数据集合，其中，训练数据集合中的每张图片均包含佩戴口罩或者未佩戴口罩的人或者人脸的图像；

对所述训练数据集合进行数据标注，得到标注框位置信息集合及对应的类别集合；

对所述训练数据集合进行数据增强处理，得到增强数据集合；

设计初始目标检测网络，得到第一目标检测网络；

基于所述增强数据集合、所述标注框位置信息集合和所述第一目标检测网络，执行以下训练步骤：

将所述增强数据集合输入至所述第一目标检测网络，得到边界框位置信息集合；

对所述边界框位置信息集合中的每个边界框位置信息进行编码处理以生成编码后的边界框位置信息，得到编码后的边界框位置信息集合；

对所述标注框位置信息集合中的每个标注框位置信息进行编码处理以生成编码后的标注框位置信息，得到编码后的标注框位置信息集合；

确定所述编码后的边界框位置信息集合与所述编码后的标注框位置信息集合的损失值；

响应于所述损失值收敛于第二预定阈值，将所述第一目标检测网络作为训练完成的口罩佩戴检测网络；

响应于确定所述损失值不收敛于所述第二预定阈值，调整所述第一目标检测网络的网络参数，以及使用未用过的训练数据组成训练数据集合，将调整后的第一目标检测网络作为第一目标检测网络，再次执行所述训练步骤；

其中，所述设计初始目标检测网络，得到第一目标检测网络，包括：

获取初始目标检测网络，其中，所述初始目标检测网络包括19层网络；

对所述初始目标检测网络进行网络增删处理，得到第二目标检测网络；

对所述第二目标检测网络进行卷积处理和深度可分离卷积处理，得到卷积结果和深度可分离卷积结果；

将所述卷积结果和所述深度可分离卷积结果进行比对以生成比对结果；

确定所述比对结果是否满足预设条件，响应于所述比对结果满足预设条件，将所述第二目标检测网络与所述深度可分离卷积处理结合得到第一特征提取网络；

其中，所述对所述初始目标检测网络进行网络增删处理，包括：

移除初始目标检测网络中的第17层及17层以后的层，并在移除后的初始目标检测网络添加四层bneck，得到网络增删处理的目标检测网络，其中，所述网络增删处理的目标检测网络包括20层；

其中，在网络增删处理的目标检测网络的网络结构中，选择bneck12、bneck15、bneck16、bneck17、bneck18、bneck19这六个特征图，这六个特征图的尺寸为(20、20、112)、(10、10、960)、(5、5、512)、(3、3、256)、(2、2、256)、(1、1、64)，每一层特征图上分别产生20×20、10×10、5×5、3×3、2×2、1×1个中心点，每个中心点上均按照先验框比例(1，1，0.5，2，0.3，3)生成6个先验框，这六个特征图上的先验框的最小、最大尺寸按照公式计算：

其中，S_k表示第k个特征图上先验框的最大尺寸占原始图像边长的比例，S_min是一个常量，取值为0.2，S_max是一个常量，取值为0.9，m表示选取的检测特征图的数量减去1，k表示特征图的序号，k的值是[1，6]之间的整数，[1，6]之间的整数分别对应第1到第6个特征图。

2.根据权利要求1所述的方法，其中，所述将所述卷积结果和所述深度可分离卷积结果进行比对以生成比对结果，包括：

获取卷积核的边长值，特征图的通道数，卷积核的数量和特征图的边长值；

将所述卷积结果和所述深度可分离卷积结果输入至以下公式以生成比对结果：

其中，G表示所述卷积结果，D_F表示所述卷积核的边长值，M表示所述特征图的通道数，N表示所述卷积核的数量，D₀表示所述特征图的边长值，H表示所述深度可分离卷积结果，P表示所述比对结果，D_F ²表示所述卷积核的边长值的平方。

3.根据权利要求2所述的方法，其中，所述边界框位置信息集合中的边界框位置信息包括：边界框的中心坐标的横坐标、边界框的中心坐标的纵坐标、边界框的宽、边界框的高；以及

所述对所述边界框位置信息集合中的每个边界框位置信息进行编码处理以生成编码后的边界框位置信息，包括：

获取先验框位置信息，其中，所述先验框位置信息包括：先验框的中心坐标的横坐标、先验框的中心坐标的纵坐标、先验框的宽和先验框的高；

基于所述边界框位置信息和所述先验框位置信息，利用以下公式，生成编码后的边界框位置信息：

其中，l^cx表示所述编码后的边界框位置信息的中心坐标的横坐标，b^cx表示所述边界框的中心坐标的横坐标，d^cx表示所述先验框的中心坐标的横坐标，d^w表示所述先验框的宽，v^w表示第一方差值，l^cy表示所述编码后的边界框位置信息的中心坐标的纵坐标，b^cy表示所述边界框的中心坐标的纵坐标，d^cy表示所述先验框的中心坐标的纵坐标，d^h表示所述先验框的高，v^h表示第二方差值，l^w表示所述编码后的边界框位置信息的宽，b^w表示所述边界框的宽，l^h表示所述编码后的边界框位置信息的高，b^h表示所述边界框的高，L表示所述编码后的边界框位置信息。

4.根据权利要求3所述的方法，其中，所述确定所述编码后的边界框位置信息集合与所述编码后的标注框位置信息集合的损失值，包括：

基于所述编码后的边界框位置信息集合与所述编码后的标注框位置信息集合，生成分类损失值；

将所述编码后的边界框位置信息集合与所述编码后的标注框位置信息集合进行求差值处理，生成定位损失值；

将所述分类损失值与所述定位损失值的和确定为损失值。

5.一种用于门禁系统的口罩佩戴检测装置，包括：

控制单元，被配置成响应于接收到第一光电开关设备或第二光电开关设备发送的光电信号信息，控制摄像设备拍摄门禁系统通道内的图像，得到排队队伍的图像；

输入单元，被配置成将所述排队队伍的图像输入至口罩佩戴检测网络，输出图像中佩戴口罩或者未佩戴口罩的包围人脸位置的矩形框及对应的类别；

确定单元，被配置成确定所述包围人脸位置的矩形框的面积，根据人脸面积最大者确定排队队伍的队首，记录人脸面积最大者佩戴口罩的情况；

执行单元，被配置成将控制单元至确定单元循环25次得到队首的人是否佩戴口罩的情况，如果有10次均检测到队首的人佩戴口罩，则“放行”，否则，语音提示队首的人“佩戴口罩后通行”；

其中，所述口罩佩戴检测网络通过以下方式训练得到：

设计初始目标检测网络，得到第一目标检测网络；

其中，S_k表示第k个特征图上先验框的最大尺寸占原始图像边长的比例，S_min是一个常量，取值为0.2，S_max是一个常量，取值为0.9，m表示选取的检测特征图的数量减去1，k表示特征图的序号，k的值是[1，6]之间的整数，[1，6]之间的整数分别对应第₁到第6个特征图。

6.一种电子设备，包括：

一个或多个处理器；

第一光电开关设备；

第二光电开关设备；

摄像设备；

语音提示设备；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

7.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。