CN113822157A

CN113822157A - 一种基于多分支网络和图像修复的戴口罩人脸识别方法

Info

Publication number: CN113822157A
Application number: CN202110952447.9A
Authority: CN
Inventors: 刘博�; 周悦
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2021-12-21

Abstract

一种基于多分支网络和图像修复的戴口罩人脸识别方法属于遮挡人脸识别领域。遮挡本身的存在比被遮挡丢失的特征对人脸识别效果的影响更大，因此通常被丢弃。本发明提出利用遮挡信息的特征来提高识别率。本发明提出了一个五分支戴口罩人脸识别网络QMFRN，设计了一个新的损失函数，将戴口罩人脸图像的特征作为损失函数的元素，利用了口罩的特征减小类间距离和增大类间距离。首先利用无遮挡人脸图像生成戴口罩人脸图像，然后利用戴口罩的人脸图像生成修复后的无遮挡人脸图像。该数据集的构建只需要采集无遮挡的人脸，不需要采集戴口罩的人脸，数据的获取十分方便。

Description

一种基于多分支网络和图像修复的戴口罩人脸识别方法

技术领域

本发明属于遮挡人脸识别领域，提出了一种戴口罩人脸识别方法。

背景技术

人脸识别技术对维护社会治安和公共安全具有重大意义，无需识别对象的主动配合即可完成。工业界已经有很多成熟的人脸识别算法模型达到了商用水准，理想条件下的人脸识别率接近100％。由于对人脸图像的质量要求不高，采集成本低，人脸识别系统已经广泛应用于日常生活中的许多场景。

然而真实条件下采集到的人脸图像可能会受到遮挡，造成人脸特征丢失，使现有人脸识别系统的准确率大幅下降。现有实验表明，人脸被遮挡的比例越大，人脸识别的准确率就越低。当用余弦相似度对提取的人脸特征进行分类识别时，若遮挡的比例超过50％，识别率会降至60％；若遮挡超过75％，此时几乎无法识别。

遮挡人脸识别研究目前处于早期阶段，在实际应用中具有很大的潜力。在新冠疫情等特殊时期，为了减少人们的接触和降低新冠传播的可能，外出时必须戴上口罩，这种有遮挡的情况很常见。人们通过人脸识别系统时需要摘下口罩，这增加了感染的风险。然而不摘下口罩时，口罩的遮挡比例一般在30-40％之间，这属于较大的遮挡。现有的人脸识别系统通常很难正确识别出人脸，因此我们需要研究戴口罩的人脸识别技术。

目前的遮挡人脸识别技术通常是先找到遮挡的区域并去除遮挡，然后对部分人脸进行识别。这种方法排除了遮挡对人脸特征的干扰，但人脸特征仍然丢失了一部分，准确率的提升不足。另一种新颖的思路是将遮挡人脸识别问题看做图像修复问题，对缺失的人脸特征进行修复，使用修复后的人脸图像进行人脸识别，但该方法的准确率还有待提高。

发明内容

本发明提出了一种新的戴口罩人脸识别数据集的构建方法。只需输入无遮挡的人脸就可以自动构建。首先利用无遮挡人脸图像生成戴口罩人脸图像，然后利用戴口罩的人脸图像生成修复后的无遮挡人脸图像。该数据集的构建只需要采集无遮挡的人脸，不需要采集戴口罩的人脸，数据的获取十分方便。

遮挡本身的存在比被遮挡丢失的特征对人脸识别效果的影响更大，因此通常被丢弃。本发明专利不是简单地将遮挡丢弃，而是提出利用遮挡信息的特征来提高识别率。本发明提出了一个五分支戴口罩人脸识别网络QMFRN(quintuplets masked face recognitionnetwork)，设计了一个新的损失函数，将戴口罩人脸图像的特征作为损失函数的元素，利用了口罩的特征减小类间距离和增大类间距离。

本发明专利还首次将基于度量学习的多分支网络和基于人脸修复的人脸识别方法结合起来，将人脸修复图像作为多分支网络的无遮挡正例。本发明专利最后还给出了一种验证该网络效果的方法，利用人脸修复和识别网络来验证多分支网络的识别结果。

本发明提出的戴口罩人脸识别方法的步骤如下：

步骤1：输入无遮挡的人脸数据集，生成戴口罩人脸数据集

具体包括以下子步骤：

步骤1.1：使用深度对齐网络DAN进行人脸关键点检测。

步骤1.2：根据关键点计算口罩的尺寸，利用鼻梁和下巴组成的垂直线计算偏移角度。

步骤1.3：将口罩图像缩放成对应的尺寸添加到人脸对应的区域，并旋转相应的角度。

步骤2：利用戴口罩人脸数据集，生成修复后的人脸数据集。

具体包括以下子步骤：

步骤2.1：使用目标检测与定位方法找出人脸上的口罩，将口罩去除，当做缺失的区域，用一种颜色填充该区域。

步骤2.2：使用EdgeConnect模型对步骤2.1中处理后的图片进行人脸修复。

步骤3：将无遮挡的人脸图片、戴口罩人脸图片和去口罩后修复的人脸图片作为遮挡人脸识别的训练集。

步骤4：使用步骤3的数据集构建五元组，提出一种基于该五元组的度量损失函数，用该损失函数训练一个共享参数的五分支戴口罩人脸识别网络，其骨干网络可以选取resnet或vgg。

具体包括以下子步骤：

步骤4.1：以数据集中的一张无遮挡图片作为anchor，以同一个人去口罩后修复的人脸图片作为PU(无遮挡正样本),以同一个人的戴口罩人脸图作为PM(遮挡正样本)；以另一个人的去口罩后修复的人脸图片作为NU(无遮挡负样本),其戴口罩人脸图作为NM(遮挡负样本)；这五张图片构成一组五元组。

步骤4.2：训练一个参数共享的五分支戴口罩人脸识别网络，以五元组作为输入，每个分支得到各自的embedding，分别记为f(Anchor)，f(PU)，f(PM)，f(NU)，f(NM)。本发明提出的损失函数如下：

m为anchor和正例的距离与anchor的负例的距离的最小间隔。当anchor和负例的距离与anchor和正例的距离的差值小于m时，损失为0；当anchor和负例的距离与anchor和正例的距离的差值大于m时，损失为括号里的值。

这些embeddings在潜在空间中更接近来自相同身份的embeddings，而不是来自不同身份的embeddings。该网络不是简单的丢弃遮挡，而是充分利用了遮挡物口罩的信息来帮助识别人脸，提高了戴口罩人脸的识别率。

步骤5：将无遮挡人脸图像作为数据集，使用FaceNet模型训练一个无遮挡的人脸检测网络。

步骤6：使用步骤2中训练的QMFRN网络对戴口罩的人脸进行识别。使用人脸修复网络EdgeConnect和无遮挡的人脸检测网络FaceNet对戴口罩的人脸进行识别，用于验证QMFRN网络的识别结果是否正确。本发明识别率在80％以上。

附图说明

图1：本发明构建戴口罩人脸识别数据集的流程示意图

图2：本发明提出的戴口罩人脸识别方法的步骤示意图。

具体实施方式

为了方便非技术人员更好的理解本发明提出的方法，以下结合实例与附图对本发明进行详细说明。以下的说明中描述了很多具体的细节，但只是为了举例方便，并非是限制本发明的保护范围。

(1)输入的是无遮挡人脸数据集。首先使用深度对齐网络DAN进行人脸关键点检测。关键点检测流程如下：

初始时将原始图像的灰度图I输入前馈神经网络得到偏移量，并与关键点的初始化评估S0相加，预测出新的关键点位置S1。计算出从S0到S1的变换矩阵T2。然后进入卷积网络，分别得到变换后的图像T2(I)，关键点热图H2和前馈网络的fc1层的输出F2。将这三个元素作为下一个阶段的前馈网络的输入。

关键点热图通过以下公式得到：

其中(x,y)为像素的位置，si为Tt(St-1)的第i个关键点的坐标。像素位置越接近关键点H(x,y)的值越大，越远值越小。

然后进入迭代阶段，把Tt(St-1)加上前馈网络的输出，再做一个Tt的反变换得到St。然后计算出从St-1到St的变换矩阵Tt+1。最后将St输入卷积网络，计算出变换后的图像Tt+1(I),关键点热图Ht+1和fc1层的输出Ft+1，作为下一个阶段的输入。

将变换后的图像Tt+1(I)、关键点热图Ht+1和全连接层fc1的输出特征Ft+1作为下一个阶段的输入，计算新的St+1。

迭代完成后得到68个人脸关键点。然后利用人脸两侧的关键点2和16的欧式距离计算出口罩的宽，利用鼻梁处的关键点28和人脸正下方的关键点9计算口罩的高度，并结合垂直线计算口罩的偏移角度。最后将口罩图像缩放成对应的尺寸添加到人脸对应的区域，并旋转相应的角度，得到戴口罩人脸图像。

(2)将戴口罩人脸图像上的口罩去除，用白色填充该区域，将该图片记为Igt。使用EdgeConnect模型对图片Igt进行人脸修复，分为边图生成和图像补全两个部分。

边图生成：图像掩码为M(缺失区域为1，非缺失区域为0)，图像的灰度图为Igray，使用canny算子计算出初始的边图Cgt。canny算法目前最有效的边缘检测算法，使用多个阶段完成边缘检测。

canny边缘检测的第一步是使用高斯滤波来减少噪声。用高斯核扫描整个图像，每次将图像的像素与高斯核的对应元素相乘后求和，求和结果作为高斯核中心对应的位置的像素。高斯核由以下公式得到：

(x,y)为高斯核像素点的坐标，中心点坐标为(0,0)。σ是高斯函数的方差，用来控制滤波的程度。对于此类图像，当σ取值为1.2-1.5时，错误的边缘很少且检测出的边缘与实际的边缘接近，边缘检测效果达到最优，在此范围内σ可任意取值。计算出高斯核后再对高斯核进行归一化处理。

第二步是计算梯度，分别用soble水平算子和垂直算子扫描整个图像，与输入的图像做一维卷积运算，得到dx和dy。利用dx和dy计算梯度的幅值和角度。最后得到每个像素的梯度值和角度。

第三步是进行非极大值抑制，计算梯度后边变粗了，需要沿着梯度方向对幅值进行非极大值抑制。canny算法只设定水平、垂直、正45°和负45°四条轴，梯度只有0，45，135，180，225，270，315这八个方向。像素的梯度角接近哪个轴，就与这条轴上最近的两个点比较，若中心像素点为局部最大值，则认为该点为边缘像素点，否则被置为0。

第四步是用双阈值选择来进一步筛选，设定一个高阈值high和低阈值low。小于低阈值的点直接丢弃，大于高阈值的点是边缘点。在双阈值中间的点，如果是和边缘点相连的，那么这个点为边缘点，否则就丢弃。当阈值设的太高时，就会丢失一些细节的边缘；当阈值设的太低时，一些杂乱无关的边也保留了。对于此类图像low的最佳取值为100-120，high的取值是low的3倍，在这个范围内可以任意取值。

使用canny算法得到边图Cgt后，带掩码的灰度图I`gray由Igray与(1-M)的哈达玛积得到，带掩码的边图由C`gt与(1-M)的哈达玛积得到。将I`gray、C`gt和M输入生成器G1得到预测的边图Cpred。使用以Igray为条件的Cgt和Cpred作为鉴别器D1的输入来预测边缘映射是否真实。

图像补全：由Igt与(1-M)的哈达玛积得到不完整的彩图I`gt，由Cpred与M的哈达玛积加上C`gt得到复合边图Ccomp。将I`gt和Ccomp输入生成器G2得到修复后的图像Ipred。

(3)将无遮挡的人脸图片、戴口罩人脸图片和去口罩后修复的人脸图片作为遮挡人脸识别的训练集。

(4)使用(3)中的训练集构建五元组，提出一种基于该五元组的度量损失函数，用该损失函数训练一个共享参数的五分支戴口罩人脸识别网络，每个分支共享相同的网络结构。该网络使用Resnet50作为骨干网络，首先去掉Resnet50的最后一层FC层，并加上一个Dropout层来减少过拟合。然后输入自适应均值池化层来减少参数从而加快训练速度。之后用flatten函数将2维的特征图压缩成一维。然后输入一个线性层将输入的2048位embeddings转换成512位的embeddings。

具体包括以下子步骤：

步骤1：以数据集中的一张无遮挡图片作为anchor，以同一个人去口罩后修复的人脸图片作为PU(无遮挡正样本),以同一个人的戴口罩人脸图作为PM(遮挡正样本)；以不同的人的去口罩后修复的人脸图片作为NU(无遮挡负样本),其戴口罩人脸图作为NM(遮挡负样本)；这五张图片构成一组五元组。

步骤2：训练一个参数共享的五分支戴口罩人脸识别网络，以Resnet50作为骨干网络。该网络的结构以五元组作为输入，每个分支得到各自的embedding，分别记为f(Anchor)，f(PU)，f(PM)，f(NU)，f(NM)。本发明提出的损失函数如下：

m为anchor和正例的距离与anchor的负例的距离的最小间隔。当anchor和负例的距离与anchor和正例的距离的差值小于或等于m时，损失为0；当anchor和负例的距离与anchor和正例的距离的差值大于m时，损失为括号里的值。

(5)将无遮挡人脸图像作为数据集，使用FaceNet模型训练一个无遮挡的人脸检测网络。

FaceNet模型的输入是一个三元组图片，分别是anchor，positive和negative,positive和anchor是同一个人的两张图像，而negative是另一个人的图像。三元组各自进入一个backbone网络(这里选取GoogLeNet作为骨干网络)输出128维的特征，然后进行L2正则化分别得到anchor，positive和negative的人脸特征的embedding，分别记为f(a),f(p)和f(n)。最后将f(a),f(p)和f(n)作为参数，使用triplet loss损失函数进行训练，训练的目标是最小化该损失函数。triplet loss损失函数的公式如下：

α为anchor和positive的距离与anchor和negative的距离的最小间隔。当anchor和negative的距离与anchor和positive的距离的差值小于或等于α时，损失为0；当anchor和negative的距离与anchor和positive的距离的差值大于α时，损失为括号里的值。

(6)使用训练好的QMFRN网络对戴口罩的人脸Im进行识别，识别结果为Rq。将Im输入人脸修复网络EdgeConnect得到修复后的图像Ip，然后用无遮挡的人脸检测网络FaceNet对Ip进行人脸识别得到识别结果Rf，用于验证步骤QMFRN网络的识别结果Rq是否正确。

Claims

1.一种基于多分支网络和图像修复的戴口罩人脸识别方法，其特征在于包括以下步骤：

步骤1：输入无遮挡的人脸数据集，生成戴口罩人脸数据集

具体包括以下子步骤：

步骤1.1：使用深度对齐网络DAN进行人脸关键点检测；

步骤1.2：根据关键点计算口罩的尺寸，利用鼻梁和下巴组成的垂直线计算偏移角度；

步骤1.3：将口罩图像缩放成对应的尺寸添加到人脸对应的区域，并旋转相应的角度；

步骤2：利用戴口罩人脸数据集，生成修复后的人脸数据集；

具体包括以下子步骤：

步骤2.1：使用目标检测与定位方法找出人脸上的口罩，将口罩去除，当做缺失的区域，用一种颜色填充该区域；

步骤2.2：使用EdgeConnect模型对步骤2.1中处理后的图片进行人脸修复；

步骤3：将无遮挡的人脸图片、戴口罩人脸图片和去口罩后修复的人脸图片作为遮挡人脸识别的训练集；

步骤4：使用步骤3的数据集构建五元组，提出一种基于该五元组的度量损失函数，用该损失函数训练一个共享参数的五分支戴口罩人脸识别网络，其骨干网络选取resnet或vgg；

具体包括以下子步骤：

步骤4.1：以数据集中的一张无遮挡图片作为anchor，以同一个人去口罩后修复的人脸图片作为PU(无遮挡正样本),以同一个人的戴口罩人脸图作为PM(遮挡正样本)；以另一个人的去口罩后修复的人脸图片作为NU(无遮挡负样本),其戴口罩人脸图作为NM(遮挡负样本)；这五张图片构成一组五元组；

步骤4.2：训练一个参数共享的五分支戴口罩人脸识别网络，以五元组作为输入，每个分支得到各自的embedding，分别记为f(Anchor)，f(PU)，f(PM)，f(NU)，f(NM)；

损失函数如下：

m为anchor和正例的距离与anchor的负例的距离的最小间隔；当anchor和负例的距离与anchor和正例的距离的差值小于m时，损失为0；当anchor和负例的距离与anchor和正例的距离的差值大于m时，损失为括号里的值；

步骤5：将无遮挡人脸图像作为数据集，使用FaceNet模型训练一个无遮挡的人脸检测网络；

步骤6：使用步骤2中训练的QMFRN网络对戴口罩的人脸进行识别。

2.根据权利要求1所述的方法，其特征在于：

(1)输入的是无遮挡人脸数据集；首先使用深度对齐网络DAN进行人脸关键点检测；关键点检测流程如下：

初始时将原始图像的灰度图I输入前馈神经网络得到偏移量，并与关键点的初始化评估S0相加，预测出新的关键点位置S1；计算出从S0到S1的变换矩阵T2；然后进入卷积网络，分别得到变换后的图像T2(I)，关键点热图H2和前馈网络的fc1层的输出F2；将这三个元素作为下一个阶段的前馈网络的输入；

关键点热图通过以下公式得到：

其中(x,y)为像素的位置，si为Tt(St-1)的第i个关键点的坐标；

然后进入迭代阶段，把Tt(St-1)加上前馈网络的输出，再做一个Tt的反变换得到St；然后计算出从St-1到St的变换矩阵Tt+1；最后将St输入卷积网络，计算出变换后的图像Tt+1(I),关键点热图Ht+1和fc1层的输出Ft+1，作为下一个阶段的输入；

将变换后的图像Tt+1(I)、关键点热图Ht+1和全连接层fc1的输出特征Ft+1作为下一个阶段的输入，计算新的St+1；

迭代完成后得到68个人脸关键点；然后利用人脸两侧的关键点2和16的欧式距离计算出口罩的宽，利用鼻梁处的关键点28和人脸正下方的关键点9计算口罩的高度，并结合垂直线计算口罩的偏移角度；将口罩图像缩放成对应的尺寸添加到人脸对应的区域，并旋转相应的角度，得到戴口罩人脸图像；

(2)将戴口罩人脸图像上的口罩去除，用白色填充该区域，将该图片记为Igt；使用EdgeConnect模型对图片Igt进行人脸修复，分为边图生成和图像补全两个部分；

边图生成：图像掩码为M(缺失区域为1，非缺失区域为0)，图像的灰度图为Igray，使用canny算子计算出初始的边图Cgt；

canny边缘检测的第一步是使用高斯滤波来减少噪声；用高斯核扫描整个图像，每次将图像的像素与高斯核的对应元素相乘后求和，求和结果作为高斯核中心对应的位置的像素；高斯核由以下公式得到：

(x,y)为高斯核像素点的坐标，中心点坐标为(0,0)；σ是高斯函数的方差，用来控制滤波的程度；对于此类图像，当σ取值为1.2-1.5时，错误的边缘很少且检测出的边缘与实际的边缘接近，边缘检测效果达到最优，在此范围内σ可任意取值；计算出高斯核后再对高斯核进行归一化处理；

第二步是计算梯度，分别用soble水平算子和垂直算子扫描整个图像，与输入的图像做一维卷积运算，得到dx和dy；利用dx和dy计算梯度的幅值和角度，得到每个像素的梯度值和角度；

第三步是进行非极大值抑制，计算梯度后边变粗了，需要沿着梯度方向对幅值进行非极大值抑制；canny算法只设定水平、垂直、正45°和负45°四条轴，梯度只有0，45，135，180，225，270，315这八个方向；像素的梯度角接近哪个轴，就与这条轴上最近的两个点比较，若中心像素点为局部最大值，则认为该点为边缘像素点，否则被置为0；

第四步是用双阈值选择来进一步筛选，设定一个高阈值high和低阈值low；小于低阈值的点直接丢弃，大于高阈值的点是边缘点；对于此类图像low的最佳取值为100-120，high的取值是low的3倍，

使用canny算法得到边图Cgt后，带掩码的灰度图I`gray由Igray与(1-M)的哈达玛积得到，带掩码的边图由C`gt与(1-M)的哈达玛积得到；将I`gray、C`gt和M输入生成器G1得到预测的边图Cpred；使用以Igray为条件的Cgt和Cpred作为鉴别器D1的输入来预测边缘映射是否真实；

图像补全：由Igt与(1-M)的哈达玛积得到不完整的彩图I`gt，由Cpred与M的哈达玛积加上C`gt得到复合边图Ccomp；将I`gt和Ccomp输入生成器G2得到修复后的图像Ipred；

(3)将无遮挡的人脸图片、戴口罩人脸图片和去口罩后修复的人脸图片作为遮挡人脸识别的训练集；

(4)使用(3)中的训练集构建五元组，提出一种基于该五元组的度量损失函数，用该损失函数训练一个共享参数的五分支戴口罩人脸识别网络，每个分支共享相同的网络结构；该网络使用Resnet50作为骨干网络，首先去掉Resnet50的最后一层FC层，并加上一个Dropout层来减少过拟合；然后输入自适应均值池化层来减少参数从而加快训练速度；之后用flatten函数将2维的特征图压缩成一维；然后输入一个线性层将输入的2048位embeddings转换成512位的embeddings；

具体包括以下子步骤：

步骤1：以数据集中的一张无遮挡图片作为anchor，以同一个人去口罩后修复的人脸图片作为PU(无遮挡正样本),以同一个人的戴口罩人脸图作为PM(遮挡正样本)；以不同的人的去口罩后修复的人脸图片作为NU(无遮挡负样本),其戴口罩人脸图作为NM(遮挡负样本)；这五张图片构成一组五元组；

步骤2：训练一个参数共享的五分支戴口罩人脸识别网络，以Resnet50作为骨干网络；该网络的结构以五元组作为输入，每个分支得到各自的embedding，分别记为f(Anchor)，f(PU)，f(PM)，f(NU)，f(NM)；损失函数如下：

m为anchor和正例的距离与anchor的负例的距离的最小间隔；当anchor和负例的距离与anchor和正例的距离的差值小于或等于m时，损失为0；当anchor和负例的距离与anchor和正例的距离的差值大于m时，损失为括号里的值；

(5)将无遮挡人脸图像作为数据集，使用FaceNet模型训练一个无遮挡的人脸检测网络；

FaceNet模型的输入是一个三元组图片，分别是anchor，positive和negative,positive和anchor是同一个人的两张图像，而negative是另一个人的图像；三元组各自进入一个backbone网络(这里选取GoogLeNet作为骨干网络)输出128维的特征，然后进行L2正则化分别得到anchor，positive和negative的人脸特征的embedding，分别记为f(a),f(p)和f(n)；最后将f(a),f(p)和f(n)作为参数，使用triplet loss损失函数进行训练，训练的目标是最小化该损失函数；triplet loss损失函数的公式如下：

α为anchor和positive的距离与anchor和negative的距离的最小间隔；当anchor和negative的距离与anchor和positive的距离的差值小于或等于α时，损失为0；当anchor和negative的距离与anchor和positive的距离的差值大于α时，损失为括号里的值；

(6)使用训练好的QMFRN网络对戴口罩的人脸Im进行识别，识别结果为Rq。