CN113221667A

CN113221667A - 一种基于深度学习的人脸口罩属性分类方法及系统

Info

Publication number: CN113221667A
Application number: CN202110423583.9A
Authority: CN
Inventors: 李阳; 罗鑫
Original assignee: Beijing Ruixin High Throughput Technology Co ltd
Current assignee: Beijing Zhongke Flux Technology Co ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-08-06
Anticipated expiration: 2041-04-20
Also published as: CN113221667B

Abstract

本发明公开一种基于深度学习的人脸口罩属性分类方法及系统，其中方法包括数据集构建过程、模型训练过程及实时检测过程，其中，数据集构建过程为构建用于训练模型的数据集，模型训练过程为通过深度学习算法对构建的数据集中的人脸图像进行训练的过程，实时检测过程为将训练模型部署到监控系统中作为人脸口罩属性分类模块进行实时检测的过程。

Description

一种基于深度学习的人脸口罩属性分类方法及系统

技术领域

本发明涉及视频图像处理技术领域，具体而言，涉及一种基于深度学习的人脸口罩属性分类方法及系统。

背景技术

传染性疾病的大规模流行会给人们的生产生活带来了巨大压力，为了防控疫情、降低感染风险，戴口罩成为了人们必备的防疫措施，特别是在医院、学校、超市等公共场所。目前，大部分公共场所的做法是通过增加工作人员在入口处检查进入人员的口罩佩戴情况，但是这样做就增加了人工成本，加大了工作人员被感染的几率，且工作效率很低。为了减少人员接触、提高通行效率、控制室内空间人流量、降低人工成本，提出了通过监控摄像头统计并检查人群的口罩佩戴情况的人脸口罩属性分类方法。

近年来，随着人工智能的兴起，神经网络、深度学习等方法越来越多地应用于图像、NLP(Natural Language Processing，自然语言处理)、推荐等领域，特别是在图像识别领域，深度学习方法已经超过了大部分传统算法。因此，将深度学习应用在人脸口罩属性检测是一种合理的思路和解决方案。例如，一种基于HOG+SVM的口罩属性分类方法，其利用HOG(Histogram of Oriented Gradient，方向梯度直方图)方法提取人脸特征，然后利用SVM(Support Vector Machine，支持向量机)对所提取的特征分类，从而判断人脸图像是否佩戴口罩。这种方案首先需要在监控视频流中获取包含人脸的图像，然后检测视频流中的人脸图像，并通过预处理方法裁剪出尺寸固定的人脸图像，对裁剪后的人脸图像进行人工标注，将是否佩戴口罩作为标签构建数据集。然后，通过HOG算法提取人脸特征，再利用标记好的标签对SVM分类器进行训练，使得分类器的分类结果与标注的结果尽可能一致。但是，这种方案中HOG特征不能准确地提取人脸图像中的口罩特征，SVM分类器也不能将口罩属性准确地分开，从而导致口罩属性分类的准确度不高，实际应用过程中存在很多错报、漏报。另外，HOG+SVM的计算代价较大，训练和推理速度都很慢。

此外，还有一种基于深度学习的人脸口罩检测方法，其通过深度学习中的检测模型(如CenterDet、RetinaDet等)，检测人脸的位置并判断是否需要口罩。该方案同样需要构建一个训练集，对人脸的位置坐标和是否戴口罩进行人工手动标注，然后设计算法对该模型进行训练，直至稳定收敛。该方案能够通过使用某种神经网络作为框架对输入图像进行特征提取，输出人脸的位置坐标以及是否戴口罩的分类结果，但是这种方案在构建数据集的时候，不仅需要判断人脸是否佩戴口罩，还需要同时标注人脸的位置坐标，标注更加复杂，人工成本更高；在训练模型时需要同时训练人脸的位置坐标与口罩分类结果，相对而言更难训练；佩戴口罩的人脸与不佩戴口罩的人脸，由于类别不平衡训练难度更大。

发明内容

为了解决上述问题，本发明提供一种基于深度学习的人脸口罩属性分类方法及系统，通过为人脸口罩属性分类构建一个数据集，以用于模型训练与验证，通过神经网络对训练集进行训练有效地提取人脸中的口罩属性特征，并通过训练分类器对口罩属性特征进行分类，从而快速且准确地实现对大批量人脸图像口罩属性的识别。

为达到上述目的，本发明提供了一种基于深度学习的人脸口罩属性分类方法，其包括数据集构建过程、模型训练过程及实时检测过程，其中：

所述数据集构建过程为构建用于训练模型的数据集，其具体为：

步骤11：通过OpenCV将预先准备的监控场景下的视频数据按照跳帧抽取拆分为单帧图像序列数据；

步骤12：通过RetinaFace人脸检测算法获得每帧图像中的人脸检测框和人脸关键点，根据获得的人脸关键点采用仿射变换的方式将检测到的人脸与预置的标准人脸对齐，并将对齐后的人脸图像裁剪为固定尺寸；

步骤13：对裁剪后的人脸图像进行人工手动清洗去除不满足要求的图像并人工标注图像的口罩属性；

步骤14：检测经过清洗与标注的所有的人脸图像是否满足预设数据集规模的要求，

如果不满足，则返回步骤11继续获取视频数据；

如果满足，则将数据集中80％的数据作为训练集用于后续的训练，将数据集中20％的数据作为验证集用于后续的验证；

所述模型训练过程为通过深度学习算法对构建的数据集中的人脸图像进行训练的过程，其具体为：

步骤21：训练模型读取训练集的人脸图像数据及其对应的口罩属性；

步骤22：对训练集中的每个人脸图像数据进行预处理和数据增广；

步骤23：通过ResNet-50网络前向传播对处理后的数据进行训练，得到512维特征向量；

步骤24：通过经过修改的全连接层和Softmax函数对得到的特征向量进行分类，得到分类预测值，其中，经过修改的全连接层为512×3的全连接层；

步骤25：通过交叉熵损失函数根据分类预测值与步骤13标注的口罩属性计算训练模型的残差；

步骤26：通过Adam优化算法将损失函数对模型进行反向传播，并更新训练模型的权重参数；

步骤27：将验证集的人脸图像数据及其对应的口罩属性输入训练模型进行推理，并通过计算验证集的准确率判断模型是否收敛，

如果模型收敛，训练结束；

否则，返回步骤21重复模型训练过程；

所述实时检测过程为将训练模型部署到监控系统中作为人脸口罩属性分类模块进行实时检测。

在本发明一实施例中，其中，所述实时检测过程具体为：

步骤31：监控系统实时读取监控摄像头采集到的视频流并对视频流按照跳帧抽取得到单帧图像序列数据；

步骤32：采用与步骤12相同的方法获取图像帧中人脸检测框与对齐后的人脸图像；

步骤33：通过人脸口罩属性分类模块判断人脸图像的口罩属性，并输出结果。

在本发明一实施例中，其中，步骤11与步骤31中按照跳帧抽取具体为在视频数据或视频流中每隔10帧抽取一帧。

在本发明一实施例中，其中，步骤12中的人脸关键点包括左眼、右眼、鼻子、左嘴角及右嘴角。

在本发明一实施例中，其中，步骤13中人工手动清洗去除不满足要求的图像具体为通过人工手动的方式将尺寸过小、清晰度较差的人脸图像以及检测算法误检的非人脸图像去除掉。

在本发明一实施例中，其中，步骤13中人工标注图像中的口罩属性具体为根据图像的实际情况，手动将人脸图像标注为三类作为口罩属性，所述口罩属性分别为：戴口罩、无口罩及无法确定。

在本发明一实施例中，其中，步骤21中的预处理包括将BGR格式的图像转为RGB格式、图像归一化处理和图像通道转换处理。

在本发明一实施例中，其中，步骤21中的数据增广包括随机水平翻转、随机旋转、随机灰度变换和随机擦除。

在本发明一实施例中，其中，步骤25的具体计算公式为：

式中，N表示单次训练过程中的样本数，M表示分类类别的数量，p_ic表示对于观测样本i属于类别c的预测概率，y_ic表示指示变量，其中，如果指示类别和样本i的类别相同则y_ic为1，否则y_ic为0。

为达到上述目的，本发明还提供了一种基于深度学习的人脸口罩属性分类系统，其包括：

人脸检测模块，包括RetinaFace人脸检测算法，用于对输入图像进行检测，并提取图像中的人脸区域及对齐后的人脸图像；

口罩属性分类模块，包括经过训练的深度卷积神经网络模型，用于对人脸图像的口罩属性进行分类。

与现有技术相比，本发明的优点包括：

1)通过将人脸检测模块与口罩属性分类模块分开，更有利于保证两个模块的稳定性和可靠性，同时这两个模块分别进行迭代可以提高训练效率；

2)具备更高的分类准确度和更快的运算速度，可以同时对大批量人脸图像进行属性分类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例中数据集构建流程图；

图2为本发明一实施例中模型训练的流程图；

图3为本发明一实施例中人脸口罩属性分类系统示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供了一种基于深度学习的人脸口罩属性分类方法，其包括数据集构建过程、模型训练过程及实时检测过程，其中：

图1为本发明一实施例中数据集构建流程图，如图1所示，数据集构建过程为构建用于训练模型的数据集，其具体为：

步骤11：通过OpenCV(一个基于BSD许可(开源)发行的跨平台计算机视觉和机器学习软件库)将预先准备的监控场景下的视频数据按照跳帧抽取，将视频数据拆分为单帧图像序列数据；

在本实施例中，其中，步骤11中按照跳帧抽取具体为在视频数据中每隔10帧抽取一帧，以减少数据集中相同数据的数量，确保数据集中人脸数据的多样性。在其他实施例中，跳帧抽取的间隔帧数也可以根据需求进行调整，本发明不对跳帧间隔进行严格地限定。

步骤12：通过RetinaFace(一种基于One-stage的人脸检测器)人脸检测算法获得每帧图像中的人脸检测框和人脸关键点，根据获得的人脸关键点采用仿射变换的方式将检测到的人脸与预置的标准人脸对齐，并将对齐后的人脸图像裁剪为固定尺寸；在本实施例中，裁剪的固定尺寸选用112×112，在其他实施例中也可以根据需要选用其他尺寸，本发明不对裁剪的尺寸进行严格地限定。

在本实施例中，其中，步骤12中的人脸关键点包括左眼、右眼、鼻子、左嘴角及右嘴角，共5个人脸关键点。

步骤13：对裁剪后的每个人脸图像进行人工手动清洗去除不满足要求的图像并人工标注图像中的口罩属性；

在本实施例中，其中，步骤13中人工手动清洗去除不满足要求的图像具体为通过人工手动的方式将尺寸过小、清晰度较差的人脸图像以及检测算法误检的非人脸图像去除掉，以确保后续训练的准确性。

在本实施例中，其中，步骤13中人工标注图像中的口罩属性具体为根据图像的实际情况，手动将人脸图像标注为三类作为口罩属性，其中，口罩属性包括：戴口罩、无口罩以及无法确定，这里的无法确定即无法从图像中确认人脸图像是否佩戴口罩。

步骤14：检测经过清洗与标注的所有的人脸图像是否满足预设数据集规模的需求，

如果不满足，则返回步骤11继续获取视频数据；

其中，满足预设数据集规模是指数据集整体的数量达到预设值，例如预设值为3w张，当满足训练的需求全部图像达到3w张时，数据集数量达到标准，数据集构建完成，其中，训练集中的图像要满足训练的需求，即为不发生过拟合。然后将满足需求的所有人脸图像作为一个整体的数据集，按照80％和20％的比例将数据集划分为训练集与测试集两部分，以用于后续的模型训练与验证。

图2为本发明一实施例中模型训练的流程图，如图2所示，模型训练过程为通过深度学习算法对构建的数据集中的人脸图像进行训练的过程，其具体为：

步骤21：训练模型读取步骤14中训练集中的人脸图像数据及其对应的口罩属性；其中，口罩属性即为步骤13标注的戴口罩、无口罩及无法确定三类。

在本实施例中，其中，步骤21中的预处理包括将BGR格式(与RGB中红色R、绿色G、蓝色B排列顺序相反的图像格式)的图像转为RGB(工业界的一种颜色标准)格式、图像归一化处理、图像通道转换处理等。由于OpenCV抽取图像时默认将图像读取成BGR格式，因此，在预处理时需要将其转换为RGB格式。

在本实施例中，其中，步骤21中的数据增广包括随机水平翻转、随机旋转、随机灰度变换、随机擦除(Erasing)等处理。

步骤23：通过ResNet-50网络(即层数为50的残差网络)对经过预处理和数据增广后的数据进行训练，得到512维特征向量；其中，训练过程为在ResNet-50网络中进行前向传播。

步骤24：通过经过修改的全连接层和Softmax(一种逻辑回归模型)函数对得到的特征向量进行分类，得到分类预测值，其中，经过修改的全连接层为512×3的全连接层(FullConnected层)；

在本实施例中，其中，步骤25的具体计算公式为：

式中，N表示单次训练过程中的样本数，M表示分类类别的数量，p_ic表示对于观测样本i属于类别c的预测概率，y_ic表示指示变量(0或1)，其中，如果指示类别和样本i的类别相同则y_ic为1，否则y_ic为0。

步骤26：通过Adam优化算法(一种对随机梯度下降法的扩展算法)将损失函数对模型进行反向传播，并更新训练模型的权重参数；

步骤27：将步骤14中的验证集输入到训练模型中进行推理，并通过计算验证集的准确率判断模型是否收敛，

如果模型收敛，训练结束；

否则，返回步骤21重复模型训练过程，直至训练模型收敛，即训练模型在验证集上的准确率达到最高值；

实时检测过程为将训练模型部署到监控系统中作为人脸口罩属性分类模块进行实时检测的过程，其具体为：

步骤31：实时读取监控摄像头采集到的视频流，与构建数据集时的处理相同，对视频流按照跳帧抽取得到单帧图像序列数据；

在本实施例中，其中，步骤31中按照跳帧抽取与步骤11相同，也是在视频流中每隔10帧抽取一帧，在其他实施例中，跳帧抽取的间隔数也可以根据需求进行调整。

步骤33：通过人脸口罩属性分类模块判断人脸图像的口罩属性并输出结果。

其中，步骤33中的口罩属性与步骤13的设定相同，也是戴口罩、无口罩及无法确定三类。

本发明实施例所涉及的人脸口罩属性检测方法属于人脸属性分类(FaceAttribute Classification)中的一种，人脸属性分类是指根据给定的人脸对其性别、年龄和表情等不同属性进行分类。本实施例仅考虑人脸图像中的口罩属性，但同样的方法还可以扩展到其他属性，如性别、年龄等，可以根据检测的需求进行选择。

实施例二

图3为本发明一实施例中人脸口罩属性分类系统示意图，如图3所示，本实施例提供了一种基于深度学习的人脸口罩属性分类系统，用于实现实施例一的方法，其包括：

本实施例涉及到深度卷积神经网络进行深度学习技术，其工作原理是利用多个非线性函数逼近复杂的函数关系，从而近似表示训练数据的分布，因此为了保证方法的有效性，需要保证训练数据与测试数据的分布一致。通过深层卷积神经网络提取人脸图像的属性特征，再通过分类器对口罩属性(包括是否佩戴口罩等)进行分类，并根据训练集中的人工标注对网络参数进行矫正，可以得到分类精确度较高的训练模型，然后将训练好的模型部署到监控系统中作为口罩属性分类模块。

另外，通过RetinaFace人脸检测算法可以获得人脸检测框，并采用仿射变换的方式将得到的人脸图像进行对齐处理，因此，可以由此构建人脸检测模块，这样人脸检测模块与口罩属性分类模块可以分别进行人脸检测和口罩属性分类，系统的稳定性和可靠性较高，分类的准确度和系统运算效率也较高。

综上，本发明的优点包括：1)通过将人脸检测模块与口罩属性分类模块分开，更有利于保证两个模块的稳定性和可靠性，同时这两个模块分别进行迭代可以提高训练效率；2)具备更高的分类准确度和更快的运算速度，可以同时对大批量人脸图像进行属性分类。另外，本方案还可以进一步扩展，用于分类其他的人脸属性。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种基于深度学习的人脸口罩属性分类方法，其特征在于，包括数据集构建过程、模型训练过程及实时检测过程，其中：

如果不满足，则返回步骤11继续获取视频数据；

如果模型收敛，训练结束；

否则，返回步骤21重复模型训练过程；

所述实时检测过程为将训练模型部署到监控系统中作为人脸口罩属性分类模块进行实时检测的过程。

2.根据权利要求1所述的方法，其特征在于，所述实时检测过程具体为：

3.根据权利要求2所述的方法，其特征在于，步骤11与步骤31中按照跳帧抽取具体为在视频数据或视频流中每隔10帧抽取一帧。

4.根据权利要求1所述的方法，其特征在于，步骤12中的人脸关键点包括左眼、右眼、鼻子、左嘴角及右嘴角。

5.根据权利要求1所述的方法，其特征在于，步骤13中人工手动清洗去除不满足要求的图像具体为通过人工手动的方式将尺寸过小、清晰度较差的人脸图像以及检测算法误检的非人脸图像去除掉。

6.根据权利要求1所述的方法，其特征在于，步骤13中人工标注图像中的口罩属性具体为根据图像的实际情况，手动将人脸图像标注为三类作为口罩属性，所述口罩属性分别为：戴口罩、无口罩及无法确定。

7.根据权利要求1所述的方法，其特征在于，步骤21中的预处理包括将BGR格式的图像转为RGB格式、图像归一化处理和图像通道转换处理。

8.根据权利要求1所述的方法，其特征在于，步骤21中的数据增广包括随机水平翻转、随机旋转、随机灰度变换和随机擦除。

9.根据权利要求1所述的方法，其特征在于，步骤25的具体计算公式为：

10.一种基于深度学习的人脸口罩属性分类系统，用于实现权利要求1～8任一项的方法，其特征在于，包括：