CN115497139A

CN115497139A - 一种融合注意力机制的口罩遮挡人脸检测与识别方法

Info

Publication number: CN115497139A
Application number: CN202211188477.8A
Authority: CN
Inventors: 张红英; 叶子勋
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2022-12-20
Anticipated expiration: 2042-09-28
Also published as: CN115497139B

Abstract

本发明给出一种融合注意力机制的口罩遮挡人脸检测与识别方法，首先，该网络改进了Swin Transformer用于人脸特征的提取；其次，提出了一种人脸器官注意力机制FOA，使模型聚焦于未被口罩遮挡的人脸器官；然后，针对当前口罩遮挡人脸数据集不充分的问题，提出了一种采用三维人脸网格生成添加口罩遮挡的数据增强方法。最后，针对模型参数量庞大的问题，提出了一种采用知识蒸馏压缩模型的方法。此方法较好地平衡了速度与精度，实现了口罩遮挡人脸检测与识别的优异性能，具有广泛的适用性。

Description

一种融合注意力机制的口罩遮挡人脸检测与识别方法

技术领域

本发明涉及图像处理技术，具体来讲，涉及一种融合注意力机制的口罩遮挡人脸检测与识别方法。

背景技术

人脸识别（face recognition, FR）在过去几十年中一直是计算机视觉领域活跃的研究主题，虽然在这期间FR技术已经取得了长足进步，但在实际的应用场景中任有许多困难亟待解决，佩戴口罩会隐藏部分人脸特征，阻碍人脸识别系统做出正确的决策。

长期以来，局部特征方法和浅层特征学习一直是人脸识别研究的重点。直到2015年FaceNet的诞生，这才将人脸识别的研究重心转移到基于深度学习的方向，当前基于深度学习的最先进的方法如ArcFace、CosFace等在LFW数据集上的准确率已经达到99.5%以上，深度学习在人脸识别研究中取得了巨大的成功。但基于深度学习的方法仍不能解决环境光照、人脸姿态、局部遮挡等不可控环境因素所带来的影响。其中，面部遮挡是人脸识别算法中最具挑战的问题之一，此前的一些研究都是处理眼镜、面部饰品等一系列遮挡面积较小的遮挡场景，然而口罩这一遮挡物造成了鼻子、嘴巴这两个人脸固有结构的缺失，也给人脸关键点位置信息带来了更多的噪声，半数的人脸关键特征被隐藏。相较于其它遮挡物，口罩遮挡给人脸识别算法带来了更大的挑战，因此口罩遮挡人脸识别又是遮挡人脸识别中的难点。

发明内容

当前基于深度学习的遮挡人脸识别算法还存在着：数据集缺乏；模型参数量庞大，不便于嵌入式、移动设备部署；识别率较低；无法检测人脸是否佩戴口罩的问题，针对上述问题，本发明提供了一种融合注意力机制的口罩遮挡人脸检测与识别方法，其中主要包含五个部分：第一部分是对无遮挡人脸数据集进行添加虚拟口罩的数据增强处理；第二部分是对人脸图像进行特征提取与融合；第三部分是对提取的人脸特征进行局部器官关注；第四部分是使用知识蒸馏压缩模型的参数量；第五部分是网络训练与测试，检测人脸是否佩戴口罩并进行人脸身份的识别。

第一部分包括两个步骤：

步骤1，下载公开人脸识别数据集，此时的数据集包含的都是正常的无遮挡人脸，接下来使用人脸关键点检测算法提取人脸的468个关键点，并从中筛选出五个关键点的坐标进行仿射变换，将人脸对齐并裁剪得到原始样本；

步骤2，建立一种添加虚拟口罩遮挡的数据增强器，该数据增强器获取步骤1中得到的468个人脸关键点坐标，从468个人脸关键点坐标中按照索引筛选会被口罩遮挡的下半部分关键点，并根据这些关键点进行Delaunay三角剖分将人脸划分了多个网格；对各种样式的口罩同样进行三角剖分得到与原始样本人脸位置对应的网格；逐网格的将口罩进行仿射变换映射到人脸对应位置的网格上，最终将经过数据增强后的人脸输入到网络中作为训练样本；

第二部分包括两个步骤：

步骤3，将步骤2得到的训练样本输入到改进后的Swin Transformer主干特征提取后得到人脸的初步提取特征图I；

步骤4，对步骤3得到的初步提取特征图I传入到后续的人脸器官注意力机制(FaceOrgan Attention, FOA)中对未被口罩遮挡的人脸器官进行重点关注，具体见第三部分；

第三部分包括四个步骤：

步骤5，将步骤4中的初步提取特征图I∈ℝ^(H×W)×C转换为三维特征图G∈ℝ^H×W×C后设置池化核尺度为K ^h，步长为S ^h沿着水平方向进行平均池化；设置池化核尺度为K ^w，步长为S ^w沿着垂直方向进行平均池化，分别得到浓缩特征W _avg∈ℝ^{1×H/Windowsize×C}、H _avg∈ℝ^{H/Windowsize×1×C}，其中Windowsize代表特征图将被划分的窗口数，本发明使用∈ℝ^H×W×C符号来描述特征图的尺度大小，H、W、C分别代表特征图的高、宽以及通道数；

步骤6，将步骤5得到的浓缩特征W _avg和H _avg进行拼接得到M，设定一个超参数r，使M经过1×1的2维卷积之后得到特征层M ¹，接下来插入一个BN层和GELU激活函数得到特征层M ²，此时的M ²同时具备了输入特征G在x轴和y轴上的特征浓缩；

步骤7，将步骤6中混合了空间位置信息的M ²进行分割后进行转置，再次通过1×1的2维卷积之后变回通道数为c的W′、H′，这两个特征层的参数代表了空间上的权重。最后将W′、H′与G矩阵对应位置元素进行相乘得到G′，也就是将空间上的权重叠加在输入特征层中；

步骤8，将FOA注意力加在了Transformer Layer中，使用后续的联合损失函数监督模型自适应地调整窗口权重；

第四部分包括两个步骤：

步骤9，训练出一个参数量较大的教师模型（embed_dim为96），再将此教师模型的输出与学生模型（embed_dim为48）计算余弦距离得到余弦损失以指导学生模型的输出特征向量近似教师模型的输出特征向量；

步骤10，在训练学生模型时加上步骤9得到的余弦损失以指导学生模型的输出特征向量近似教师模型的输出特征向量；

第五部分包括两个步骤：

步骤11，调试从步骤3到步骤10的网络结构超参数，并得到最终的教师模型与学生模型；

步骤12，将测试集输入步骤11中的训练模型中，进行遮挡人脸的检测与识别。

附图说明

图1为本发明的数据增强器图；

图2为本发明的整体网络结构图；

图3为本发明的人脸器官注意力机制图；

图4为本发明的知识蒸馏结构图；

图5为利用本发明进行遮挡人脸检测与识别的结果图。

具体实施方式

为了更好的理解本发明，下面结合具体实施方式对本发明的融合注意力机制的口罩遮挡人脸检测与识别方法进行更为详细的描述。在以下的描述中，当前已有技术的详细描述也许会淡化本发明的主题内容，这些描述在这里将被忽略。

步骤1，下载公开人脸识别数据集，此时的数据集包含的都是正常的无遮挡人脸，接下来使用人脸关键点检测算法提取人脸的468个关键点，并从中筛选出左眼、右眼、鼻尖、嘴左角、嘴右角这五个关键点的坐标进行仿射变换，将人脸对齐并裁剪后得到训练集样本101；

步骤2，建立一种添加虚拟口罩遮挡的数据增强器，数据增强器如图1所示，该数据增强器获取步骤1中得到的468个人脸关键点坐标，从468个人脸关键点坐标中按照索引筛选会被口罩遮挡的下半部分关键点，并根据这些关键点进行Delaunay三角剖分将人脸划分了多个网格；对各种样式的口罩同样进行三角剖分得到与人脸位置对应的网格；逐网格的将口罩进行仿射变换映射到人脸对应位置的网格上，此数据增强器最终将输入人脸按3:1:1:1的比例生成未佩戴口罩（不做任何处理）、正确佩戴口罩、佩戴口罩但露出鼻子、佩戴口罩但露出口鼻这四种人脸102，并输入到网络中进行训练；

图2是本发明的融合注意力机制的口罩遮挡人脸检测与识别方法具体网络模型图，在本实施方案中，按照以下步骤进行：

步骤3，网络从数据集中取出未被口罩遮挡的人脸图片201，接下来通过步骤1对人脸进行对齐，再使用数据增强器生成未佩戴口罩（不做任何处理）、正确佩戴口罩、佩戴口罩但露出鼻子、佩戴口罩但露出口鼻这四种人脸202。接下来将经过数据增强的人脸图像202输入到改进后的Swin Transformer主干特征提取网络后得到人脸的初步提取特征图I；

步骤4，采用改进后的Swin Transformer主干特征提取网络从202中进行初步的特征提取后得到人脸的初步提取特征图I，具体实施如下：

步骤4-1，数据增强器使得模型能从数据集中同时加载遮挡程度不同的佩戴口罩人脸图片和未佩戴口罩的人脸图片，接下来将人脸图片202输入到主干特征提取网络中。原版的Swin Transformer输入尺度为G∈ℝ^224×224×3，然而在人脸识别领域中，网络能从F∈ℝ^112×112×3尺度的人脸张量中充分提取所需要的特征，更大尺度的设计将导致网络出现性能的冗余。因此网络保持窗口的大小Windowsize为7，将Transformer块的数量设置从[2,2,6,2]更改为[2,6,2]以确保全连接层之前的Transformer块的尺度大小为L∈ℝ^7×7×4C，本发明使用∈ℝ^H×W×C符号来描述特征图的尺度大小，H、W、C分别代表特征图的高、宽以及通道数；

步骤4-2，由于Transformer要求输入是token向量，而人脸图片都是三维张量，因此要将图片202输入到Patch Partition203中进行分块处理，首先将人脸图片分为(4,4)个不重叠的块209，接下来使用Linear Embedding204将这些块沿着Channel方向展开，输入的人脸图片尺度为F∈ℝ^112×112×3，则展开后得到的特征图尺度为S∈ℝ^{112/4×112/4×48}，接下来使用Conv2D将此特征图的通道数由48调整为embed_dim，本发明设置embed_dim为96。此时的特征图尺度为S′∈ℝ^{112/4×112/4×96}，再将特征图按的宽高两个维度展平，其尺度也变成了E∈ℝ^784×96，接下来将编码后的二维张量输入到RDSTL205中；

步骤4-3，RDSTL如图2右下部分所示，其中，

^l和z^l分别表示第

个STB中的(S)W-MSA模块和MLP模块的输出特征；W-MSA和SW-MSA分别表示常规的多头自注意力模块和滑动窗口的多头自注意力模块。且STB总是成对存在的，区别在于单数时使用W-MSA，偶数时使用SW-MSA，因此RDSTL中的STB的数量总是偶数个。RDSTL的计算如公式(1)所示；

(1)

步骤5，在RDSTL中进行自注意力计算之后还要传入本发明提出的人脸器官注意力机制(Face Organ Attention, FOA)210中对未被遮挡的人脸器官进行重点关注。FOA的具体结构如图3所示，FOA对输入二维特征图I∈ℝ^(H×W)×C301转换为三维特征图G∈ℝ^H×W×C后设置池化核尺度为K ^h，步长为S ^h沿着水平方向进行平均池化，池化核尺度为K ^w，步长为S ^w沿着垂直方向进行平均池化，其中：

(2)

分别得到浓缩特征W _avg∈ℝ^{1×H/Windowsize×C}、H _avg∈ℝ^{H/Windowsize×1×C}。接下来将两个浓缩特征层的特征相聚合；

步骤6，首先对浓缩特征W _avg和H _avg进行拼接，由于特征W _avg和H _avg之间的维度不匹配，因此需要将特征W _avg的宽、高维度进行转置后再与H _avg进行拼接得到特征层M。设定一个超参数r，使M经过1×1的2维卷积之后得到特征层M ¹，其通道由c变为c/r，本发明设定r=32且M ¹的通道数不得小于8。接下来插入一个BN层和GELU激活函数得到特征层M ²，此时的M ²同时具备了输入特征G在x轴和y轴上的特征浓缩，因此输入特征G在空间上的信息得以交互；

步骤7，将混合了空间位置信息的M ²进行分割后进行转置，再次通过1×1的2维卷积之后变回通道数为c的W′、H′，这两个特征层的参数代表了空间上的权重。最后将W′、H′与G矩阵对应位置元素进行相乘得到G′，也就是将空间上的权重叠加在输入特征层中，因此G中有利于识别任务的空间上的权重得以增加，图中⊙表示矩阵与输入矩阵对应位置元素两两相乘：

其中[]表示取整，因此特征图在x、y轴方向上的切分窗口分别自适应地调整了权重。本发明将FOA注意力加在了Transformer Layer中并使用后续的联合损失函数监督模型自适应地调整窗口权重；

(3)

步骤8，如图2所示，当经过主干特征提取网络提取到人脸的特征图后，模型使用全连接层得到一个大小为18816的人脸特征向量，之后通过人脸身份分类器207提取的长度为512人脸特征向量x之后，本发明使用ArcFace作为损失函数，将人脸特征向量x映射到超球体上，并压缩相同人脸特征向量x的余弦距离，扩大不同人脸特征向量x的余弦距离：

(4)

其中N为样本数（人脸图片数），n为类别数（人脸身份数），s为超球体的半径，θ为权重W和人脸特征向量x之间的夹角，ArcFace通过在此夹角θ上添加一个间距m，进一步增大了不同人脸特征之间的余弦间隔，这样做可以使模型学习到的特征具有更强的判别能力。通过ArcFace和人脸标签计算交叉熵得到ArcFace损失函数：

(5)

步骤9，口罩佩戴分类器208则提取出长度为4的特征向量x′，此向量经过Softmax计算后的值分别对应者人脸未佩戴口罩、正确佩戴口罩、露出鼻子、露出口鼻的概率，通过x′与口罩佩戴标签计算交叉熵得到Mask损失函数，并使其与ArcFace联合辅助模型识别人脸是否正确佩戴口罩：

(6)

步骤10，在人脸识别模型的训练过程中，只输入标签a、b、c用于监督模型学习人脸特征，然而这些标签并不能体现出每张人脸之间的相似程度，因此本发明使用知识蒸馏的思想弥补了标签信息不能表征人脸相似度的问题，丰富了标签所蕴含的信息，压缩模型的参数量。知识蒸馏的方法如图4所示，首先训练出一个参数量较大的教师模型（embed_dim为96），再将此教师模型的输出与学生模型（embed_dim为48）计算余弦距离得到L _Face以指导学生模型的输出特征向量近似教师模型的输出特征向量，最后在训练学生模型时加上L _Face以指导学生模型的输出特征向量近似教师模型的输出特征向量，本发明设置L _Face的权重为100：

(7)

其中

与

分别为教师模型与学生模式输出的512维人脸特征向量，ϵ设置为非常小的值1e-8，以避免被除数为0。

步骤11，设置最小批次为64，总epoch为20，并使用了patience为4，初始学习率为

的Adam优化器按步骤3到步骤10对模型进行训练。

步骤12，对方法在无遮挡人脸数据集LFW、虚拟口罩遮挡人脸识别数据集MLFW与真实口罩遮挡数据集MWHN上分别进行验证，教师模型在LFW测试集上的准确率为99.62%，在虚拟口罩遮挡测试集MLFW上的准确率为99.10%，在真实口罩遮挡数据集MWHN上的准确率为85.60%。使用了知识蒸馏后的学生模型在LFW测试集上的准确率为99.56%，在虚拟口罩遮挡测试集MLFW上的准确率为99.03%，在真实口罩遮挡数据集MWHN上的准确率为83.96%，模型的参数量从教师网络的70.27MB降低到了26.85MB这充分证明了本方法的有效性，网络最终的遮挡人脸检测与识别效果如图5所示。

尽管上面对本发明说明性的具体实施方式进行了描述，但应当清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种融合注意力机制的口罩遮挡人脸检测与识别方法，其特征在于，采用人脸器官注意力机制FOA，使模型聚焦于未被口罩遮挡的人脸器官，包括对无遮挡人脸数据集进行添加虚拟口罩的数据增强处理、对人脸图像进行特征提取与融合、对提取的人脸特征进行局部器官关注、使用知识蒸馏压缩模型的参数量、网络训练与测试五个部分，

第一部分包括两个步骤：

第二部分包括两个步骤：

步骤4，对步骤3得到的初步提取特征图传入到后续的人脸器官注意力机制(FaceOrgan Attention, FOA)中对未被口罩遮挡的人脸器官进行重点关注，具体见第三部分；

第三部分包括四个步骤：

步骤5，将步骤4中的初步提取特征图I∈ℝ^(H×W)×C转换为三维特征图G∈ℝ^H×W×C后设置池化核尺度为K ^h，步长为S ^h沿着水平方向进行平均池化，池化核尺度为K ^w，步长为S ^w沿着垂直方向进行平均池化，分别得到浓缩特征W _avg∈ℝ^{1×H/Windowsize×C}、H _avg∈ℝ^{H/Windowsize×1×C}，其中Windowsize代表特征图将被划分的窗口数，本发明使用∈ℝ^H×W×C符号来描述特征图的尺度大小，H、W、C分别代表特征图的高、宽以及通道数；

第四部分包括两个步骤：

第五部分包括两个步骤：

步骤11，调试从步骤3到步骤10的网络结构超参数，其中，设置最小批次为64，总epoch为20，并使用了patience为4，初始学习率为

的Adam优化器按步骤3到步骤10对模型进行训练。并得到最终的教师模型与学生模型；

步骤12，将测试集输入步骤11中的训练模型中，对方法在无遮挡人脸数据集LFW、虚拟口罩遮挡人脸识别数据集MLFW与真实口罩遮挡数据集MWHN上分别进行验证，教师模型在LFW测试集上的准确率为99.62%，在虚拟口罩遮挡测试集MLFW上的准确率为99.10%，在真实口罩遮挡数据集MWHN上的准确率为85.60%。使用了知识蒸馏后的学生模型在LFW测试集上的准确率为99.56%，在虚拟口罩遮挡测试集MLFW上的准确率为99.03%，在真实口罩遮挡数据集MWHN上的准确率为83.96%，模型的参数量从教师网络的70.27MB降低到了26.85MB这充分证明了本方法的有效性。

2.根据权利要求1所述的一种融合注意力机制的口罩遮挡人脸检测与识别方法，其特征在于，步骤2中使用了一种数据增强器给无遮挡人脸添加虚拟口罩遮挡。

3.根据权利要求1所述的一种融合注意力机制的口罩遮挡人脸检测与识别方法，其特征在于，步骤5中使用人脸器官注意力机制FOA对未被口罩遮挡的人脸器官进行重点关注。

4.根据权利要求1所述的一种融合注意力机制的口罩遮挡人脸检测与识别方法，其特征在于，步骤9中使用知识蒸馏压缩模型的参数量。