CN112464827A

CN112464827A - 口罩佩戴识别方法、装置、设备及存储介质

Info

Publication number: CN112464827A
Application number: CN202011382227.9A
Authority: CN
Inventors: 黄泽元
Original assignee: Shenzhen Jizhi Digital Technology Co Ltd
Current assignee: Shenzhen Jizhi Digital Technology Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-03-09
Anticipated expiration: 2040-11-30
Also published as: CN112464827B

Abstract

本发明公开了一种口罩佩戴识别方法、装置、设备及存储介质，获取包含人脸区域的待识别图像；利用口罩位置识别模型对待识别图像进行识别；获取口罩位置识别模型输出的待识别图像的口罩信息，口罩信息包括待识别图像是否存在口罩，以及若存在口罩时的口罩位置信息。本发明的口罩位置识别模型为具有口罩位置信息识别能力的机器学习模型，且口罩位置识别模型是由标注有口罩位置的样本人脸图像训练得到的，口罩位置是口罩区域与特定图像特征的位置信息。实现了用定位信息去引导分类任务，让神经网络能够感知边缘特征和口罩范围，从而实现准确判定用户是否正确的佩戴口罩的目的。

Description

口罩佩戴识别方法、装置、设备及存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种口罩佩戴识别方法、装置及存储介质。

背景技术

人脸识别是一种基于人的脸部特征进行身份识别的技术。随着该技术的不断发展，在越来越多的场景被应用。例如，在公共场合中佩戴口罩作为传染病防护方法，因此，可以利用人脸识别技术来识别用户是否佩戴口罩。

现有技术中，通过神经网络在对口罩进行识别的过程中，容易忽略边缘特征使得判别性特征造成过拟合，使得识别结果不准确并且不能识别出口罩是否佩戴正确。

发明内容

针对于上述问题，本发明提供一种口罩佩戴识别方法、装置、设备及存储介质，实现准确判定用户是否正确的佩戴口罩的目的。

为了实现上述目的，本发明提供了如下技术方案：

一种口罩佩戴识别方法，包括：

获取包含人脸区域的待识别图像；

利用口罩位置识别模型对所述待识别图像进行识别，所述口罩位置识别模型为具有口罩位置信息识别能力的机器学习模型，且所述口罩位置识别模型是由标注有口罩位置的样本人脸图像训练得到的，所述口罩位置表征口罩区域与特定图像特征的位置信息；

获取所述口罩位置识别模型输出的所述待识别图像的口罩信息，所述口罩信息包括所述待识别图像是否存在口罩，以及若存在口罩时的口罩位置信息。

可选地，所述方法还包括：

获取训练样本集合，所述训练样本集合包括佩戴有口罩的人脸图像和未佩戴有口罩的人脸图像，所述佩戴有口罩的人脸图像标注有口罩位置信息；

对所述训练样本集合进行特征识别，获得口罩区域特征以及图像特征的关联信息；

利用初始神经网络模型对所述口罩区域特征和所述图像特征的关联信息进行学习，确定损失误差；

通过所述损失误差对所述初始神经网络模型进行训练，得到口罩位置识别模型。

可选地，所述获得口罩区域特征包括：

调用初始神经网络模型，所述初始神经网络模型包括三个卷积层；

通过所述初始神经网络模型对所述训练样本集合进行计算，得到全局特征和口罩区域特征；

对所述全局特征和所述口罩区域特征进行融合，获得口罩区域特征。

可选地，所述方法还包括：

通过所述初始神经网络模型预测训练样本的口罩位置对应的候选框；

预测所述候选框与目标参照物体的交并比，以及所述目标参照物体的类型；

预测所述目标参照物体的预测位置信息以及所述预测位置信息与实际位置信息的交并比；

基于所述交并比确定损失函数，使得通过所述损失函数对所述初始神经网络模型的参数进行调整，获得口罩位置识别模型。

可选地，所述方法还包括：

确定目标参照特征，所述目标参照特征包括鼻子和嘴巴；

若所述待识别图像存在口罩，检测所述口罩是否遮挡鼻子和嘴巴，获得检测信息；

基于所述检测信息，生成佩戴信息，所述佩戴信息用于指示所述口罩是否佩戴正确。

可选地，所述方法还包括：

通过所述口罩位置识别模型获得所述待识别图像的口罩位置信息和所述目标参照特征的位置信息；

基于所述目标参照特征的位置信息和所述口罩位置信息，计算所述目标参照特征是否在所述口罩的范围内；

如果是，通过所述口罩位置识别模型输出所述口罩的佩戴正确的信息。

可选地，所述获取包含人脸区域的待识别图像，包括：

获取人脸图像；

根据所述人脸图像确定人脸检测框；

将根据所述人脸检测框中的图像截取为待识别图像。

一种口罩佩戴识别装置，包括：

第一获取单元，用于获取包含人脸区域的待识别图像；

识别单元，用于利用口罩位置识别模型对所述待识别图像进行识别，所述口罩位置识别模型为具有口罩位置信息识别能力的机器学习模型，且所述口罩位置识别模型是由标注有口罩位置的样本人脸图像训练得到的，所述口罩位置是表征口罩区域与特定图像特征的位置信息；

第二获取单元，用于获取所述口罩位置识别模型输出的所述待识别图像的口罩信息，所述口罩信息包括所述待识别图像是否存在口罩，以及若存在口罩时的口罩位置信息。

一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如上面所述的口罩佩戴识别方法。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上面所述的口罩佩戴识别方法。

相较于现有技术，本发明提供了一种口罩佩戴识别方法、装置、设备及存储介质，获取包含人脸区域的待识别图像；利用口罩位置识别模型对待识别图像进行识别；获取口罩位置识别模型输出的待识别图像的口罩信息，口罩信息包括待识别图像是否存在口罩，以及若存在口罩时的口罩位置信息。本发明的口罩位置识别模型为具有口罩位置信息识别能力的机器学习模型，且口罩位置识别模型是由标注有口罩位置的样本人脸图像训练得到的，口罩位置是口罩区域与特定图像特征的位置信息。实现了用定位信息去引导分类任务，让神经网络能够感知边缘特征和口罩范围，从而实现准确判定用户是否正确的佩戴口罩的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种口罩佩戴识别方法的流程示意图；

图2为本发明实施例提供的一种口罩佩戴识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在本发明实施例中提供了一种口罩佩戴识别方法，参见图1，该方法可以包括以下步骤：

S101、获取包含人脸区域的待识别图像。

人脸区域的区域图像是指包含人脸的图像中人脸对应的区域，也是人脸检测框中对应的图像。人脸检测框是指可提取图像中人脸的区域框，通过在图像上的区域框可以获取每个人脸在图像中的位置及人脸的数量。例如，一张照片上有多个人脸，照片上的每个人脸都标记有人脸检测框，通过人脸检测框来确定人脸的位置和数量。

对应的，包含人脸区域的待识别图像可以由摄像头进行拍取，也可以是其他设备传输给当前处理设备的图像。在一种可能的实现方式中，为了降低图像特征识别过程中的计算量，可以确定一个能够足以进行口罩识别的人脸检测框，使得能够去除掉干扰信息。即获取人脸图像；根据所述人脸图像确定人脸检测框；将根据所述人脸检测框中的图像截取为待识别图像。

S102、利用口罩位置识别模型对所述待识别图像进行识别。

S103、获取所述口罩位置识别模型输出的所述待识别图像的口罩信息。

口罩位置识别模型为具有口罩位置信息识别能力的机器学习模型，且所述口罩位置识别模型是由标注有口罩位置的样本人脸图像训练得到的，所述口罩位置是口罩区域与特定图像特征的位置信息。其中，在本发明实施例中口罩位置识别模型对口罩位置信息进行学习时，不仅需要学习口罩区域的特征，还需要学习口罩区域与特定图像特征的位置信息，该特定图像特征是指人脸区域图像中能够判断口罩位置的人脸特征，如图像中的嘴巴、鼻子的特征，以便于在后续时能够获得口罩是否对嘴巴或者鼻子的覆盖信息，可以用户后续对口罩是否正确佩戴进行识别。需要活命的是，在本发明实施例中特定图像特征是能够与口罩存在位置关系，且能判断口罩是否符合不同场合的正确佩戴的条件的特征，如人的嘴巴、鼻子等人脸特征，也可以是针对佩戴有眼镜的用户的眼镜特征，以获得口罩是否能够使得眼镜的正常使用的佩戴位置的判定。

通过口罩位置识别模型识别获得的口罩信息包括所述待识别图像是否存在口罩，以及若存在口罩时的口罩位置信息。即本申请实施例中的口罩位置识别模型不仅可以识别人脸图像中用户是否佩戴有口罩，以及存在口罩时口罩位置信息，即根据口罩位置信息可以判断口罩是否佩戴正确。

本发明实施例中口罩位置识别模型至少包括一种神经网络层，神经网络层可以是卷积层、批量标准化层、激活函数层和全连接层中的至少一种。对应的，在本发明实施例中还包括一种生成口罩位置识别模型的方法，该方法包括：

在一种可能的实现方式中，初始神经网络模型包括三个卷积层，通过所述初始神经网络模型对所述训练样本集合进行计算，得到全局特征和口罩区域特征；对所述全局特征和所述口罩区域特征进行融合，获得口罩区域特征。使得本发明实施例训练得到的口罩位置识别模型可以捕捉口罩区域的细节和整体与局部区域的关联。

例如，初始神经网络模型为口罩识别神经网络M-Net，将训练样本的图片输入至该神经网络，经过三个卷积层计算，获得特征F1维度是(c，h，w)。将F1分出一个口罩区域的特征图F1′。F1和F1′分别经过三个卷积层计算，得到F1-out和F1′-out，F1′-out做上采样和F1-out做堆叠，经过一次卷积计算得到F2，这里F2再分出一个口罩区域的特征图F2′，并重复上述F1的操作，如此推进，总计4次，得到最后的特征图F4。由于每次计算特征都是全特征计算和口罩区域特征计算，然后两个特征合并，相当于在全特征图中强化了对口罩区域特征的关注，能够捕捉口罩区域的细节和整体与局部区域的关联。

其中，F1、F2、F3和F4都是为了提取口罩特征而进行的三维矩阵计算，三维矩阵中的c代表通道数、h代表高、w代表宽。

在本发明实施例中还提出了口罩定位引导口罩识别的级联架构，在该架构中可以通过所述初始神经网络模型预测训练样本的口罩位置对应的候选框；预测所述候选框与目标参照物体的交并比，以及所述目标参照物体的类型；预测所述目标参照物体的预测位置信息以及所述预测位置信息与实际位置信息的交并比；基于所述交并比确定损失函数，使得通过所述损失函数对所述初始神经网络模型的参数进行调整，获得口罩位置识别模型。

具体的，在上述搭建M-Net后，提取特征F4可以不直接进行识别，而是在图片中口罩可能佩戴的位置先验地放置一个候选框(如Bbox)。在Bbox内，可能出现三种情况：口罩、嘴巴或者其他遮挡物。期望通过识别模型判断口罩处于那种类型，即是否遮挡对应的目标参照物体或者目标参照特征。计算Bbox与目标参照物体(GT)的交并比。其处理流程可以是：第一步，特征F先经过4层卷积计算，分两支，一支预测Bbox与实际物体(即目标参照物体)的交并比，另一支预测实际物体类别。第二步，再进行4层卷积，分两个分支，一个分支预测实际物体位置Pre(需要说明的是，Pre越拟合GT越好)，一个分支预测Pre与实际物体(GT)的交并比，并将这个值作为分类的概率p。这里预测Pre与GT的交并比(IoU)的损失函数为：

Loss＝L(p,IoU(pre，GT))

其中，交并比是指目标检测中预测框和实际框的交集与并集的比值。

这种级联的设计方式，可以每一步都引导算法在预测类别概率时，也在进行空间感知，在估计自己的回归能力与实际的距离。即，算法在识别图像中的人是否佩戴口罩的同时，还在感知这个人口罩的范围。可以让算法在做识别时，除了考虑判别特征，同时也考虑边缘特征，更好地保证算法的鲁棒性。需要说明的是，本发明实施例并不限定级别的次数，可以是上述中的两级，也可以是一级或三级以上。

由于本发明实施例中由于口罩位置识别模型是基于对口罩位置进行学习训练得到的模型，而位置信息是口罩区域与特定图像特征的位置信息，该特定图像特征为人脸区域的特征，位置信息可以是口罩区域是否覆盖该特定图像特征。在不同的应用场景中，可以以不同的目标参照物来体现该特定图像特征，如在疾病预防应用场景中，目标参照物包括鼻子和嘴巴。若所述待识别图像存在口罩，检测所述口罩是否遮挡鼻子和嘴巴，获得检测信息；基于所述检测信息，生成佩戴信息，所述佩戴信息用于指示所述口罩是否佩戴正确。对应的，还可以直接计算鼻子和嘴巴的位置，然后计算其师傅在口罩范围内。即通过所述口罩位置识别模型获得所述待识别图像的口罩位置信息和所述目标参照特征的位置信息；基于所述目标参照特征的位置信息和所述口罩位置信息，计算所述目标参照特征是否在所述口罩的范围内；如果是，通过所述口罩位置识别模型输出所述口罩的佩戴正确的信息。

本发明实施例中对口罩状态进行识别时，为了强化识别任务，不能仅仅判断是否戴口罩，还应该识别口罩是否佩戴正确。因此，在上述架构的第二个级联出，可以有第三个分支，预测两个值，分别是是否遮挡住嘴巴，以及是否遮挡鼻子。

在本发明的口罩佩戴识别方法提出M-Net，多层次融合全图特征与口罩区域特征。提出使用定位任务去引导识别任务，在识别分支中去预测定位位置与实际位置的差异，且构造了级联结构，使识别分支进行两次预测。引入对口罩佩戴是否正确的计算，来完善模型对口罩、鼻子、嘴巴位置关系的感知。

参见图2，其示出了本发明实施例提供的一种口罩佩戴识别装置的结构示意图，该装置包括：

第一获取单元10，用于获取包含人脸区域的待识别图像；

识别单元20，用于利用口罩位置识别模型对所述待识别图像进行识别，所述口罩位置识别模型为具有口罩位置信息识别能力的机器学习模型，且所述口罩位置识别模型是由标注有口罩位置的样本人脸图像训练得到的，所述口罩位置表征口罩区域与特定图像特征的位置信息；

第二获取单元30，用于获取所述口罩位置识别模型输出的所述待识别图像的口罩信息，所述口罩信息包括所述待识别图像是否存在口罩，以及若存在口罩时的口罩位置信息。

在上述实施例的基础上，所述装置还包括：

样本获取单元，用于获取训练样本集合，所述训练样本集合包括佩戴有口罩的人脸图像和未佩戴有口罩的人脸图像，所述佩戴有口罩的人脸图像标注有口罩位置信息；

特征识别单元，用于对所述训练样本集合进行特征识别，获得口罩区域特征以及图像特征的关联信息；

确定单元，用于利用初始神经网络模型对所述口罩区域特征和所述图像特征的关联信息进行学习，确定损失误差；

训练单元，用于通过所述损失误差对所述初始神经网络模型进行训练，得到口罩位置识别模型。

在上述实施例的基础上，所述特征识别单元包括：

调用子单元，用于调用初始神经网络模型，所述初始神经网络模型包括三个卷积层；

计算子单元，用于通过所述初始神经网络模型对所述训练样本集合进行计算，得到全局特征和口罩区域特征；

特征融合子单元，用于对所述全局特征和所述口罩区域特征进行融合，获得口罩区域特征。

在上述实施例的基础上，所述装置还包括：

第一预测单元，用于通过所述初始神经网络模型预测训练样本的口罩位置对应的候选框；

第二预测单元，用于预测所述候选框与目标参照物体的交并比，以及所述目标参照物体的类型；

第三预测单元，用于预测所述目标参照物体的预测位置信息以及所述预测位置信息与实际位置信息的交并比；

调整单元，用于基于所述交并比确定损失函数，使得通过所述损失函数对所述初始神经网络模型的参数进行调整，获得口罩位置识别模型。

在上述实施例的基础上，所述装置还包括：

特征确定单元，用于确定目标参照特征，所述目标参照特征包括鼻子和嘴巴；

检测单元，用于若所述待识别图像存在口罩，检测所述口罩是否遮挡鼻子和嘴巴，获得检测信息；

信息生成单元，用于基于所述检测信息，生成佩戴信息，所述佩戴信息用于指示所述口罩是否佩戴正确。

在上述实施例的基础上，所述装置还包括：

信息获取单元，用于通过所述口罩位置识别模型获得所述待识别图像的口罩位置信息和所述目标参照特征的位置信息；

计算单元，用于基于所述目标参照特征的位置信息和所述口罩位置信息，计算所述目标参照特征是否在所述口罩的范围内；

输出单元，用于如果是，通过所述口罩位置识别模型输出所述口罩的佩戴正确的信息。

在上述实施例的基础上，所述第一获取单元具体用于：

获取人脸图像；

根据所述人脸图像确定人脸检测框；

将根据所述人脸检测框中的图像截取为待识别图像。

本发明提供了一种口罩佩戴识别装置，第一获取单元获取包含人脸区域的待识别图像；识别单元利用口罩位置识别模型对待识别图像进行识别；第二获取单元获取口罩位置识别模型输出的待识别图像的口罩信息，口罩信息包括待识别图像是否存在口罩，以及若存在口罩时的口罩位置信息。本发明的口罩位置识别模型为具有口罩位置信息识别能力的机器学习模型，且口罩位置识别模型是由标注有口罩位置的样本人脸图像训练得到的，口罩位置是口罩区域与特定图像特征的关系信息。实现了用定位信息去引导分类任务，让神经网络能够感知边缘特征和口罩范围，从而实现准确判定用户是否正确的佩戴口罩的目的。

下面是对本申请应用的计算机设备进行说明，该计算机设备可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)播放器。计算机设备还可能被称为用户设备、便携式终端等其他名称。通常，计算机设备包括有：处理器和存储器。处理器可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器可以采用DSP(Digital SignalProcessing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器可以在集成有GPU(GraphicsProcessing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器还可以包括AI(ArtificialIntelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是有形的和非暂态的。存储器还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器所执行以实现本申请中提供的口罩佩戴识别方法。

在一些实施例中，计算机设备还可选包括有：外围设备接口和至少一个外围设备。具体地，外围设备包括：触摸显示屏、摄像头和电源中的至少一种。外围设备接口可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器和存储器。在一些实施例中，处理器、存储器和外围设备接口被集成在同一芯片或电路板上；在一些其他实施例中，处理器、存储器和外围设备接口中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

本申请的实施例还提供了一种计算机设备，该计算手机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的口罩佩戴识别方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述各方法实施例提供的口罩佩戴识别方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种口罩佩戴识别方法，其特征在于，包括：

获取包含人脸区域的待识别图像；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述获得口罩区域特征包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定目标参照特征，所述目标参照特征包括鼻子和嘴巴；

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述获取包含人脸区域的待识别图像，包括：

获取人脸图像；

根据所述人脸图像确定人脸检测框；

将根据所述人脸检测框中的图像截取为待识别图像。

8.一种口罩佩戴识别装置，其特征在于，包括：

第一获取单元，用于获取包含人脸区域的待识别图像；

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至7任一项所述的口罩佩戴识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的口罩佩戴识别方法。