CN115731597A

CN115731597A - 一种人脸口罩掩膜图像自动分割与修复管理平台及方法

Info

Publication number: CN115731597A
Application number: CN202211485688.8A
Authority: CN
Inventors: 石浩德; 侯劲; 陈明举; 赵俊; 陈勇; 移洁; 黄铃轩; 胡建
Original assignee: Sichuan University of Science and Engineering
Current assignee: Sichuan University of Science and Engineering
Priority date: 2022-11-24
Filing date: 2022-11-24
Publication date: 2023-03-03

Abstract

本发明公开了一种人脸口罩掩膜图像自动分割与修复管理平台及方法，利用改进的DeepLabv3+网络模型对人脸口罩掩膜图像进行自动分割，自动分割后利用于人脸结构信息引导的人脸图像修复网络对图像进行修复，得到未被口罩遮挡的真实人脸图像，可通过人脸口罩掩膜图像自动分割与修复管理平台对整个过程进行选择和控制，通过本发明提出的人脸口罩掩膜图像自动分割与修复管理平台及方法对疫情下大量人脸口罩掩膜图像进行高准确度的处理，重建了口罩下的正常人脸图像，对需要佩戴口罩进行人脸识别场所的图像处理与识别具有极大改善和提高作用。

Description

一种人脸口罩掩膜图像自动分割与修复管理平台及方法

技术领域

本发明涉及图像修复技术领域，尤其涉及一种人脸口罩掩膜图像自动分割与修复管理平台及方法。

背景技术

近年来，随着计算机视觉领域的不断发展，图像修复技术已经成为信息技术领域的研究热点且应用广泛。例如，在公共安全领域，来自网络设备以及监控摄像头获取的图像常常因为天气和光照等环境因素的影响而模糊不清或带有许多的噪声，图像修复技术被用来提高照片的质量；在影视制作行业，有时会因为错误的取景到不符合场景的人物以及其他物体，在后期处理过程中也需要运用图像修复技术进行抹除；在一些古老的壁画中由于年代久远导致了不同程度的损坏，使用图像修复技术可以对其进行复原，进而促进该领域的研究；在公安系统中，犯罪分子往往使用口罩、眼镜等遮挡物导致面部大多数信息丢失，影响面部特征的提取，对刑侦侦查工作造成了一定的影响，通过图像修复技术可以有效地实现对缺失人脸图像进行复原，为刑侦工作提供强有力的证据，除此之外，在其他应用领域图像修复技术也有非常重要的应用意义。

佩戴口罩成为外出基本要素，而口罩的佩戴让人脸损失了一半以上的信息，给人脸识别产生了极大的影响，通过图像修复技术来提高遮挡下的人脸识别精度是其中一个途径；虽然目前图像修复技术取得了良好的效果，但在去除大面积的遮挡物时，其效果并不理想，因为盖了相当大的面部区域，甚至延伸到下巴以下的实际人脸边界之外，其次，目前不存在用于训练戴有和不戴有口罩对象的人脸图像对，在人脸口罩掩膜图像的处理上存在不足。

发明内容

为解决人脸口罩掩膜图像处理不足的问题，本发明提出了一种人脸口罩掩膜图像自动分割与修复管理平台及方法。

第一方面，一种人脸口罩掩膜图像自动分割与修复管理方法，包括：

人脸口罩掩膜图像自动分割：利用改进的DeepLabv3+网络模型进行训练，对人脸口罩掩膜图像进行自动分割；所述改进的DeepLabv3+网络模型主干网络为轻量化神经网络Mobil enetv2网络，采用的空洞空间金字塔池化模块为改进的特征加强网络DCB-ASPP模块；所述改进的DeepLabv3+网络模型损失函数还引入焦点损失函数进行训练；

人脸口罩掩膜图像修复：建立基于人脸结构信息引导的人脸图像修复网络，包括人脸结构草图生成网络和人脸修复网络，人脸结构草图生成网络生成人脸结构草图引导人脸修复网络修复图像，所述人脸结构草图生成网络损失函数中还引入特征匹配损失。

进一步，所述人脸口罩掩膜图像自动分割中改进的特征加强网络DCB-ASPP模块以密集连接方式将不同特征层进行特征融合，并引入了CBAM注意力机制，任一层空洞卷积层的输出为：

式中，d_n表示第n层的空洞率，k表示卷积核的大小，[y_n-1,y_n-2,...,y₀]表示级联n层之前所有特征层的输出；

改进的特征加强网络DCB-ASPP模块提高模型感受野，感受野公式定义为：

RF_n＝RF_n-1+k_n-1；

其中，RF_n表示第n层的感受野，RF_n-1表示第n-1层的感受野，k_n表示第n层卷积核的大小。

进一步，所述改进的DeepLabv3+网络模型损失函数焦点损失函数定义为：

L_F＝-a_t(1-P_t)^γlnP_t；

权重参数a_t和权重因子γ均为可调参数，y为样本真实标签，p为样本属于某一类别的预测概率，

进一步，所述改进的DeepLabv3+网络模型训练包括以下步骤：

步骤A1：输入自建人脸口罩掩膜图像数据集训练集，设置循环训练次数epoch，初始化网络参数权重；

步骤A2：开始循环训练过程，加载标注好的数据集，判断当前批量大小、自适应调整学习率；

步骤A3：冻结主干网络轻量化神经网络Mobilenetv2网络，训练改进的特征加强网络D CB-ASPP；

步骤A4：根据预测值和损失值计算焦点损失和F1分数；

步骤A5：反向传播，根据焦点损失值进行梯度更新；

步骤A6：解冻主干网络轻量化神经网络Mobilenetv2网络训练，重复步骤A4和A5至整个网络收敛；

步骤A7：保存模型参数，输出训练好的网络参数权重。

进一步，所述人脸图像修复网络中的人脸结构草图生成网络通过学习人脸结构先验知识产生待修复区域的人脸结构草图，包括判别器和基于编码器-解码器结构的生成器；所述生成器还包括下采样卷积层、带膨胀卷积的残差块、上采样卷积层、以及从下采样层跳跃连接到上采样层后的特征融合层。

进一步，所述带膨胀卷积残差块，下采样与上采样过程每个卷积层与激活层之间还具有实例归一化层；所述人脸结构草图生成网络判别器为马尔可夫判别器；整个人脸结构草图生成网络训练目标定义为：

其中，λ_adv,sketch和λ_FM,sketch是正则化参数；

对抗损失L_adv,sketch定义为：

L_adv,sketch＝E_{(Isketch,Igray)}[logD_sketch(I_sketch,I_gray)]+ E_Igraylog[1-D_sketch(I_pred,sketch,I_gray)]；

特征匹配损失L_FM,sketch定义为：

其中，I_gt表示真实的人脸图像，I_sketch表示对应的真实结构草图，I_gray表示对应的灰度图，I_pred,sketch为预测得到的人脸结构草图，G_sketch为生成器，表示判别器D_sketch卷积层的总层数，N_i为每层元素的数目，

表示判别器第i层的激活函数输出。

进一步，所述人脸图像修复网络联合感知损失与模型进行训练，还包括修复网络注意力机制,以生成的人脸结构草图为引导实现人脸图像面部语义结构和纹理信息的生动修复以人脸结构草图生成网络生成的结构草图作为条件指导信息进行人脸图像修复；还包括人脸修复网络的生成器和判别器。

进一步，所述人脸修复网络生成器所述生成器基于编码器-解码器结构，还包括下采样层、带膨胀卷积的残差块、长短期注意力层、上采样层、以及从下采样层跳跃连接到上采样层后的特征融合层；所述人脸修复网络判别器为马尔可夫判别器；人脸修复网络L₁损失定义为：

式中N为归一化后掩膜像素点的数目；

生成对抗损失L_adv,face定义为：

感知损失L_perc,face定义为：

其中，φ_i为预训练模型VGG-19]第i层激活输出映射；

人脸修复网络的总损失为：

其中，λ_L1，λ_adv,face，λ_perc,face，λ_style,face为正则化参数。

另一方面，一种人脸口罩掩膜图像自动分割与修复管理平台，基于PyCharm中的PyQt 库实现，包括面板控制模块，展示模块，处理模块和信息打印模块；所述面板控制模块还包括：

功能选择子模块：进行功能选择，包括图像处理功能选择和视频处理功能选择；

视频控制子模块：对需要进行处理的视频进行调整，包括播放，暂停，识别，上一帧，下一帧，抓拍和帧长，帧数，帧率的显示；

图像处理子模块：对图像进行处理，包括提取，矫正，修复，测评掩码，质量测评和结果保存；

修复质量测评子模块：对人脸口罩掩膜图像的修复质量进行测评，包括SSIM结构相似性，PSNR峰值信噪比，FID距。

本发明的有益效果：本发明提出了一种人脸口罩掩膜图像自动分割与修复管理平台及方法，利用改进的DeepLabv3+网络模型对人脸口罩掩膜图像进行自动分割，自动分割后利用于人脸结构信息引导的人脸图像修复网络对图像进行修复，得到未被口罩遮挡的真实人脸图像，可通过人脸口罩掩膜图像自动分割与修复管理平台对整个过程进行选择和控制，通过本发明提出的人脸口罩掩膜图像自动分割与修复管理平台及方法对大量人脸口罩掩膜图像进行处理，重建了口罩下的正常人脸图像，提高了口罩掩膜图像分割和修复的精度，对地铁等需要佩戴口罩进行人脸识别刷脸对的公共场所的图像处理与识别具有极大改善作用。

附图说明

图1是本发明一种人脸口罩掩膜图像自动分割与修复管理平台主界面示意图；

图2是本发明人脸口罩掩膜图像自动分割模型引入的CBAM注意力机制图；

图3是本发明人脸口罩掩膜图像自动分割模型通道注意力模块图；

图4是本发明人脸口罩掩膜图像自动分割模型空间注意力模块图；

图5是本发明人脸口罩掩膜图像自动分割模型改进的空洞空间金字塔池化模块结构图；

图6是本发明实施例质检人脸口罩掩膜图像数据集；

图7是本发明人脸结构草图生成网络整体框架图；

图8是本发明人脸修复网络的整体框架图；

图9是本发明实施例中测试结果图；

图10是本发明一种人脸口罩掩膜图像自动分割与修复管理平台软件登录界面示意图；

图11是本发明一种人脸口罩掩膜图像自动分割与修复管理平台实施例测评展示图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

本发明提出了一种人脸口罩掩膜图像自动分割与修复管理平台及方法，第一方面，人脸口罩掩膜图像自动分割利用改进的DeepLabv3+网络模型，所述改进的DeepLabv3+网络模型主干网络为轻量化神经网络Mobilenetv2网络，空洞空间金字塔池化模块为改进的特征加强网络DCB-ASPP模块，采用密集连接方式将不同特征层进行特征融合，并引入了CBAM注意力机制；所述改进的DeepLabv3+网络模型损失函数引入焦点损失函数进行训练；人脸口罩掩膜图像修复建立基于人脸结构信息引导的人脸图像修复网络，包括人脸结构草图生成网络和人脸修复网络，利用生成的人脸结构草图引导人脸修复网络，并在损失函数中引入特征匹配损失；所述人脸图像修复网络联合感知损失与模型训练，还包括修复网络注意力机制。

在本实施例中，以DeepLabv3+模型为基线提出了一种改进的DeepLabv3+人脸口罩掩膜分割方法，其主要工作如下：

(1)为了降低模型参数量，本文将DeepLabv3+中的主干网络Xception网络替换为Mobilen etv2网络，在保持分割精度的同时大大缩减了模型的参数量，使模型更好的部署在嵌入式设备上。

(2)为了能更好的利用主干网络提取的特征信息，采用密集连接方式将原始空洞空间金字塔池化模块(ASPP)中不同特征层进行特征融合，并在改进后的ASPP模块中引入CBAM注意力机制，以增强模型特征的表达能力，提升模型获取上下文信息的能力。

(3)在模型训练的损失函数中引入焦点损失(Focal Loss)进行训练，以缓解不同类别口罩在训练样本上的不均衡问题，提升模型的分割精度。

在本实施例中，所采用的MobileNetV2网络结构主要分为3个主要部分，第一个部分为普通3×3卷积块，中间部分是由多个反向残差块进行堆叠，最后一部分是由1×1卷积和7× 7平均池化组成；MobileNetV2的主体网络结构如表1所示，其中t表示卷积通道的扩张系数， c表示输出通道数量，n表示该层要重复的次数，s表示卷积步长,c_out表示模型分类输出通道数，Con2d表示卷积层,Avgpool表示平均池化层，Bottleneck表示反向残差堆叠层。

表1MobileNetV2的主体网络结构 Tab.1Main network structure ofMobileNetV2

在本实施例中，引入了CBAM注意力机制，CBAM注意力机制是一种能在通道维度上和空间维度上进行Attention的模块，并且所含参数量很少，其兼顾了通道注意力和空间注意力的优点，以此获得更加可靠的注意力信息从而指导模型更好的分配权重。CBAM模型的框架图如图2所示，输入特征首先通过通道注意力模块学习重要的通道特征信息，然后利用空间注意力模块学习重要的关键特征点，最终提取到重要的输出特征。

假设F表示输入的特征图，其经过CBAM的计算过程如下：

上式中，

表示元素相乘，M_c表示通道注意力，M_S表示空间注意力。在第一阶段，输入特征通过通道注意力模块后与原特征图进行元素相乘后得到F'；在第二阶段，对F'在空间注意力模块上做特征提取后与第一阶段的输出进行元素相乘，最终得到输出结果F”。

其中，通道注意力模块通过使用最大池化和平均池化对输入的特征图每个层进行压缩，然后将压缩后的特征输入到共享全连接层中进行连接，接着将输出的特征进行相加融合，并通过Sigmoid函数进行激活，最终计算得到输入特征层每一个通道的权值，其通道注意力模块的结构图如图3所示。

假设F表示输入的特征图，其经过通道注意力模块的计算过程如下：

M_c(F)＝σ(F_C(Maxpool(F))+F_C(Avgpool(F)))

上式中，Maxpool表示最大池化层，Avgpool表示平均池化层，F_C表示全连接层，σ表示 Sigmoid激活函数。

空间注意力模块使用最大池化和平均池化在每一个特征点的通道上取最大值和平均值，然后将得到的结果进行堆叠，并利用通道数为1的卷积核进行降维，最后通过Sigmoid函数进行激活，最终计算获得输入特征层每一个特征点的权值，其空间注意力模块的结构图如图4所示。

为了增强特征的表达能力，提升模型获取更大感受野的能力，本实施例在不改变原始D eeplabv3+模型中ASPP模块的结构下，将特征融合方式改为密集连接形式，同时，为了使模型在经过特征提取后能够更多的关注分割对象，在ASPP模块的最后一层后引入CBAM注意力机制，提升模型分割性能。最后，将改进后的ASPP特征加强网络命名为DCB-ASPP，其中DCB-ASPP结构如图5所示。

对于DCB-ASPP模块中的任意一层，其输入是前面所有特征层的融合，其中任一层空洞卷积层的输出可表示为：

式中，d_n表示第n层的空洞率，k表示卷积核的大小，[y_n-1,y_n-2,...,y₀]表示级联n层之前所有特征层的输出。

DCB-ASPP通过堆叠和密集连接空洞卷积的方式，可以显著提高模型的感受野。其中，感受野是指卷积过程中某一层输出结果中某个元素对应的上一层区域的大小，其计算方式为从输入层后的第一层开始依次往后计算，并满足以下公式:

当n＝1时：

RF_n＝k_n

当n≥2时：

S_n＝S_n-1×s

RF_n＝RF_n-1+(k_n-1)×S_n-1

上式中，s表示当前层的步长，S_n表示网络前n层的总步长，RF_n表示第n层的感受野，RF_n-1表示第n-1层的感受野，k_n表示第n层卷积核的大小。

因为ASPP模块中所采用的空洞卷积步长为1，因此公式中S_n的值可认为恒等于1，公式可以被简化为：

RF_n＝RF_n-1+k_n-1

在原始ASPP中，由于不同空洞率的空洞卷积连接方式是并联，故n＝1，即ASPP中所获得的最大感受野是并联空洞卷积中最大尺寸空洞卷积的感受野，如DeepLabv3+网络中ASPP扩张率为(6,12,18)时，它的最大感受野为：RF_max＝max[k_d＝6,k_d＝12,k_d＝18]＝k_d＝18＝37

通过密集连接方式将多个空洞卷积层进行堆叠后，从前面的推导公式可以得出，对于N 层的密集连接ASPP模块，它所能获得的最大感受野为：

因此，可计算出DCB-ASPP采用空洞率为(6,12,18)对应的RF_max值为：

RF_max＝k_d＝6+k_d＝12+k_d＝18-(3-1)＝72

可以看出采用DCB-ASPP大于ASPP的RF_max，因此通过使用密集连接的策略可以显著地增大感受野。

在传统图像分割任务中，利用交叉熵损失函数(CrossEntropy Loss)[23]作为衡量真实标签与预测值之间的相似度。当分割任务只有二类时，其定义如下：

上式中，y为样本真实标签，p为样本属于某一类别的预测概率。

为了便于公式表示，定义P_t为：

因此，通过上面两式可以得到：

L_CE(p,y)＝L_CE(P_t)＝-ln(P_t)

针对不同类别，大小以及颜色的口罩在训练样本上的不均衡问题，通过引入焦点损失函数(Focal Loss)作为训练的损失函数。

为了平衡正负样本对总损失的权重，增加一个权重参数a_t，当负样本较多时，将a_t取一个较小值来降低负样本的权重，并记为下式：

L_CE(P_t)＝-a_tln(P_t)

其次，针对难分类和容易分类样本，增加一个权重因子γ，当γ大于0时会降低易分类样本的权重，使模型的最终损失聚焦于难分类的样本，因此焦点损失函数定义为：

L_F＝-a_t(1-P_t)^γlnP_t

改进后的DeepLabv3+网络模型结构，在编码器部分，首先，将原始网络中的特征提取网络替换为轻量级网络MobileNetV2进行特征提取，减少模型的参数量，提高模型计算速度；其中，改进后的模型将原始MobileNetV2中的分类层去掉，并保留至最后一个Bottleneck进行特征提取。其次，将提取的高层语义特征信息送入到DCB-ASPP特征加强模块中，DCB- ASPP为原始DeepLabv3+网络模型中ASPP改进后的模块，通过密集连接的方式将原始ASP P模块中的每个特征层进行连接，以获得足够大的感受野和更密集的特征金字塔；然后，在 DCB-ASPP特征层后加入CBAM注意力机制，使模型在学习过程中能够自适应地加权更重要的通道特征和空间特征，提升模型分割精度。最后，将加强处理后的特征通过1x1卷积进行通道压缩，获得编码器最终输出的高层语义特征。

在解码器部分，首先，通过将主干特征提取网络MobileNetV2的第二个Bottleneck输出特征作为底层特征信息，并利用1x1卷积进行降维处理，然后，将DCB-ASPP特征加强模块的输出特征进行四倍上采样后与降维后的底层特征进行通道拼接，并对拼接后的特征进行两次3x3的卷积；最后，经过一次四倍上采样使图像恢复到与原图一样大小，最终得到图像分割预测输出。

在本实施例中，采用图像语义分割中公开测评数据集PASCAL VOC2012的扩充数据集进行实验。PASCAL-VOC 2012数据集有人物、交通工具、动物、室内物品场景等20个具体的类别，加上背景共21类，其扩充数据集中训练集共10582张，验证集1449张，由于原始PASCAL VOC2012数据集未划分测试集。因此本文将提供的验证集重新划分为验证集和测试集，其中验证集1000张，测试集449张，输入图片大小设置为512x512。

其次，为了满足需求，在本实施例中自建人脸口罩掩膜数据集，进一步来验证模型的性能。其中自建人脸口罩掩膜数据集一部分通过人脸数据集Celeba和收集的口罩模板合成，另一部分是通过摄像机采集和网络收集的真实人脸口罩，为了提升模型泛化性能，本文共采用40种口罩模板进行口罩数据集制作，其中采用手工标注一共2000张，训练集1500张，验证集300张，测试集200张，进行口罩人脸图像的合成，如图6所示。

在本实施例中，基于人脸结构信息引导的人脸图像修复网络，其主要工作如下：

(1)针对修复后的人脸图像面部语义信息不合理和面部轮廓不协调的问题,提出了通过人脸结构信息引导的人脸图像修复网络。

(2)针对人脸结构草图生成网络，为了更好的生成待修复区域下的人脸结构草图，在网络生成器中引入了跳跃连接和带膨胀卷积的残差块；为了使成器生成与真实结构草图更相似的结果，在损失函数中引入特征匹配损失，使模型生成的结构草图更加丰富合理。

(3)针对人脸修复网络，为了使修复网络在修复时更多的关注缺失区域，在人脸修复网络中引入了注意力机制，并在损失函数中联合感知损失和风格损失，以此来更好的重建待修复区域的人脸图像面部轮廓结构和颜色纹理。

在本实施例中，提出了一种基于人脸结构信息引导的人脸图像修复网络，该网络由人脸结构草图生成网络和人脸修复网络两部分组成，人脸结构草图生成网络通过学习人脸结构先验知识产生待修复区域的人脸结构草图；人脸修复网络以人脸结构草图生成网络生成的结构草图作为条件指导信息进行人脸图像修复。

人脸结构草图生成网络主要用于生成待修复区域的结构草图，其输入为遮挡人脸图像的灰度图、遮挡人脸图像的结构草图以及掩码，输出为网络生成的人脸结构草图，本文设计的人脸结构草图生成网络整体框架如图7所示，其上半部分为人脸结构草图生成网络的生成器，下半部分为人脸结构草图生成网络的判别器。采用生成人脸结构草图再进行人脸修复的思想过程类似于在绘制肖像画时，往往最先构建的是人脸草图，然后再在草图上进行色彩和细节填充，这种修复方式能够更好的还原人脸图像的缺失区域并使修复后的人脸图像细节纹理清晰。

结构草图生成网络的生成器基于编码器-解码器结构，主要由三个下采样卷积层、七个带膨胀卷积的残差块、三个上采样卷积层、以及从下采样层跳跃连接到上采样层后的特征融合层组成。为了强化结构草图生成网络生成器对待修复区域人脸结构信息的生成能力，在结构草图生成网络生成器的下采样层与上采样层之间加入跳跃连接进行特征融合，这样不仅能够将下采样过程中采集的各个阶段特征信息在上采样过程中进行再次利用，同时也能更好的传递网络浅层到深层的梯度信息，提高网络的训练速度。

其次，在下采样层后引入带膨胀卷积的残差块用于增加卷积神经元的感受野。膨胀卷积 (Dilated Convolution)的引入可以使卷积神经元捕捉更大范围的特征信息，从而使生成器在特征传递过程中采集更多人脸的结构先验信息，进而使得生成的人脸结构草图更符合人脸拓扑结构。而采用残差块作为生成器的中间层不仅能够避免GAN网络在训练过程中梯度消失的问题，同时也可以将下采样后的信息更多的传递到后面的上采样过程中，提升网络的训练速度和人脸结构草图的生成质量。

最后，在下采样与上采样过程中的每个卷积层与激活层之间都加入实例归一化(IN)层，I N层不仅可以使网络训练更加稳定，还可以加快训练过程中网络模型的收敛速度。

人脸修复网络主要用于生成人脸待修复区域的彩色图像，其输入为遮挡的人脸彩色图像以及人脸结构草图生成网络生成的人脸结构草图，输出为修复好的人脸彩色图像，本文设计的人脸修复网络的整体框架如图8所示，其上半部分为人脸修复网络的生成器，下半部分为人脸修复网络的判别器。

人脸修复网络的生成器同样基于编码器-解码器结构，主要由三层下采样层、七个带膨胀卷积的残差块、一个长短期注意力层和三个上采样层、以及从下采样层跳跃连接到上采样层后的特征融合层组成。为了能够更有效的利用人脸结构草图生成网络生成的结构草图信息，人脸修复网络在生成器中间阶段除了添加带膨胀卷积的残差块还引入了注意力机制。其中，在人脸修复网络中引入带膨胀卷积残差块的目的与其在结构草图生成网络的作用相似，而在人脸修复网络生成器中加入长短期注意力层(Self-attention Module)，除了可以使人脸修复网络在修复过程中更多关注人脸待修复区域，同时也能有效连接时间特征图，这样能够尽可能的保证修复后的面部轮廓更加协调，同时提升修复区域的面部纹理细节

在人脸结构草图生成网络和人脸修复网络中，判别器均采用马尔可夫判别器(Patch-GA N)，它主要由四个卷积层和一个全连接层组成。与其它判别器网络设计不一样的是马尔可夫判别器先输出一个N×N的矩阵，然后通过计算N×N矩阵的均值作为最终的判别输出，这与传统判别器的输出只有一个真假矢量有着本质的区别，马尔可夫判别器输出矩阵中的每个位置能够代表生成图像一个感受野，而每个感受野对应着生成图像中的一部分区域。因此采用马尔可夫判别器能更准确的分辨出生成器生成的图像与真实图像之间的差别，从而更好的调节网络梯度。

其次，为了保证判别器尽可能的关注整个图像结构性并评估生成的图像与真实图像是否一致，本文设计的人脸结构草图生成网络和人脸修复网络只采用了全局判别器作为整个网络的判别器。这是因为局部判别器在鉴别生成的图像与真实图像之间的差别时往往只会关注网络修复后的区域，这样虽然满足了修复区域一致性，但忽略了图像整体结构全局性，而人脸拓扑结构和纹理信息往往需要满足整体结构，因此全局判别器可以更好保证区域结构与整体结构的一致性，从而使生成器生成更加真实生动的人脸图像。

最后，为了防止结构草图生成网络和人脸修复网络在训练过程中梯度爆炸的情况，使训练过程能够稳定进行。在判别器中引入了谱归一化(Spectral Normalization，SN)，以此来提高GAN网络的训练质量。

在本实施例中，人脸结构草图生成网络损失函数的计算包括：设I_gt表示真实的人脸图像，I_sketch表示对应的结构草图，I_gray表示对应的灰度图，M为待修复掩膜，1表示缺失区域，0表示已知区域。则已知图像的灰度图可以表示为

已知图像的结构草图可以表示为

因此结构草图生成网络的生成器G_sketch预测人脸结构草图可以表示为：

在G_sketch预测得到的人脸结构草图I_pred,sketch后，将I_pred,sketch与真实结构草图I_sketch一起输入到结构草图生成网络的判别器D_sketch中，从而可以判别生成器G_sketch生成的人脸结构草图真实性，在结构草图生成网络中，为了更好的生成待修复区域人脸结构草图，结构草图生成网络在生成对抗损失L_adv,sketch的基础上引入特征匹配损失L_FM,sketch进行模型的训练。定义整个结构草图生成网络的训练目标为：

上式中，λ_adv,sketch和λ_FM,sketch是正则化参数。

其对抗损失L_adv,sketch定义如下：

特征匹配损失L_FM,sketch通过比较判别器D_sketch中间层的激活映射，以此来约束生成器G_sketch产生与真实人脸结构草图更相似的结果，从而稳定训练过程。其特征匹配损失L_FM,sketch定义如下：

上式中L表示判别器D_sketch卷积层的总层数，N_i为每层元素的数目，

表示判别器 D_sketch第i层的激活函数输出。

人脸修复网络损失函数计算包括：从上述定义可知，已知区域彩色人脸图像可表示为

由(4)知人脸结构生成网络生成的人脸结构草图为I_pred,sketch，因此输入到人脸修复网络生成器G_face的结构草图可以表示为I_comp,sketch＝I_sketch⊙(1-M)+I_pred,sketch⊙M，所以人脸修复网络G_face的输出可以表示为：

为了保证人脸修复结果的面部语义信息合理性，以及更好的重建待修复区域的人脸图像面部轮廓结构和颜色纹理，人脸修复网络引入了L₁损失、生成对抗损失L_adv,face、并联合感知损失L_perc,face和风格损失L_styl_e,face对式

进行训练，其中L₁损失定义为：

式中N为归一化后掩膜像素点的数目。

生成对抗损失L_adv,face定义为：

感知损失L_perc,face用来约束人脸修复网络重构结果I_pred,face与原图I_gt在语义结构上保持一致，其定义如下：

上式中φ_i为预训练模型VGG-19第i层激活输出映射。

风格损失的定义与感知损失有相似之处，都需要利用预训练好的VGG-19网络将输入的图像映射到高维度特征空间，以此来提取图像的高水平的语义结构特征信息。不同于感知损失的是风格损失首先需要利用卷积激活输出特征构建一个Gram矩阵，并计算其在通道维度上的相关性，然后在通道维度相关矩阵上计算其欧式距离，最后对图像的纹理风格进行建模。其L_style,face定义如下：

上式中，φ_i定义与感知损失中的定义一样，T表示矩阵转置。

最终，可以得到人脸修复网络的总损失为：

L_face＝λ_L1L₁₊λ_adv,faceL_adv,face+λ_perc,faceL_perc,face +λ_style,faceL_style,face

上式中λ_L1，λ_adv,face，λ_perc,face，λ_style,face为正则化参数。

在本实施例中，选用CelebA-HQ数据集中30000张高清人脸图像对人脸结构草图生成网络和人脸修复网络进行训练和测试，其中26000张用于训练集，3000张用于验证集，1000张用于测试集，其中训练集、验证集、测试集无任何交集；实验过程中使用的掩码由Liu 等人[23]提供的不规则掩码数据集，将数据集中的26000张用于训练集，3000张用于验证集，1000张用于测试集，输入图片大小均为256x256。训练时先分开训练人脸结构草图生成网络和人脸修复网络，然后将人脸结构草图生成网络和人脸修复网络进行联合训练。训练过程中采用指数衰减率为β₁＝0，β₂＝0.9的Adma优化器进行优化，分开训练时学习率设置为10 -4，联合训练时学习率设置为10-6，图片的批处理大小batch size设置为8，保存模型需要等待的迭代次数设置为1000次。其人脸结构草图生成网络中使用的结构草图采用由高斯模糊和图像除法运算得到，其中高斯核大小设置为(15,15)。在人脸结构草图生成网络中，损失函数正则化参数设置为L_adv,sketch＝1，L_FM,sketch＝10；在人脸修复网络中，损失函数正则化参数设置为λ_L1＝1，λ_adv,face＝λ_perc,face＝0.1，λ_style,face＝250。

如图9所示是本实施例模型测试结果，图9中第一列是原图像(a)，第二列是真实面部结构草图(b)，第三列是遮挡面部图像(c)，第四列是遮挡面部结构草图(d)，第五列是人脸结构草图生成网络生成的人脸结构草图(e)，最后一列是人脸修复网络修复的人脸图像(f)；从上到下测试图像随机掩膜的覆盖占比分别为10％-20％，20％-30％，30％-40％，40％-50％，50％-6 0％以及中心掩码。

从图9测试结果可看出，人脸结构草图生成网络生成的结构草图(e)不仅能够保持人脸拓扑结构，而且也能准确恢复出掩膜遮挡下人脸图像的面部语义信息，其修复后的面部结构纹理信息非常丰富，同时能够保持已知面部区域与待修复面部区域的边界处的结构一致性，肉眼很难分辨出修复痕迹，最终能还原出真实清晰的人脸面部结构草图，这验证了本发明所设计的人脸结构草图生成网络修复性能的有效性。其次，从图9测试结果可以看出在人脸结构草图生成网络预测的人脸结构草图信息指导下，人脸修复网络能够很好的还原出被遮挡图像的面部彩色图像(f)，其合成的纹理信息不仅能够与周围已知区域保持一致，而且修复后面部轮廓协调，颜色分布均匀，边界信息连贯以及修复结果真实清晰，这验证了本发明所设计的人脸修复网络有效性。

一种人脸口罩掩膜图像自动分割与修复管理平台，将这两部分进行整合，即传输一张口罩遮挡图像，输出一张修复好的人脸图像。口罩遮挡人脸检测修复软件平台设计主要利用P yCharm中的PyQt库进行上位机的开发，PyQt使用python语言实现了Qt的基本库函数，融合了Qt库的基本功能。口罩人脸检测修复管理软件分为面板控制区、展示区、处理区和信息打印区4大模块，其中面板控制器区分为功能选择区、视频控制区、图像处理区和修复质量测评区4个的模块。功能选择区分为图片处理、视频处理2个部分；视频控制区分为播放、暂停、识别、上一帧、下一帧、抓拍和帧长、帧数、帧率的显示；图像处理区分为提取、矫正、修复、测评掩码、质量测评和结果保存；修复质量测评区分为SSIM(结构相似性)、P SNR(峰值信噪比)、FID距离，其软件登录界面如图10所示，主界面如图1所示。

在软件中，通过加载要修复的图片，然后点击提取按钮进行掩膜自动提取，接着点击矫正按钮进行掩膜矫正，其主要目的是通过腐蚀和膨胀的简单形态学图像处理操作将一些边缘噪点去掉，最后点击修复按钮通进行口罩遮挡人脸修复，最终得到修复好的人脸图像，如图 11所示。

通过在软件中选择质量测评功能，通过将标准的图像，和测评掩膜叠加后送入修复软件，即可进行测评质量检测。其中SSIM为结构相似性，SSIM值越大，图像质量越好，其值可以较好地反映人眼主观感受；PSNR为峰值信噪比，PSNR越大表示图像失真越小，一般在20～40dB间。FID表示的是生成图像的特征向量与真实图像的特征向量之间的距离，该距离越近，表明生成模型的效果越好，即图像的清晰度高，且多样性丰富。

本发明提出了一种人脸口罩掩膜图像自动分割与修复管理平台及方法，利用改进的Dee pLabv3+网络模型对人脸口罩掩膜图像进行自动分割，自动分割后利用于人脸结构信息引导的人脸图像修复网络对图像进行修复，得到未被口罩遮挡的真实人脸图像，可通过人脸口罩掩膜图像自动分割与修复管理平台对整个过程进行选择和控制，通过本发明提出的人脸口罩掩膜图像自动分割与修复管理平台及方法对大量人脸口罩掩膜图像进行高准确度的处理，重建了口罩下的正常人脸图像，对地铁等需要佩戴口罩进行人脸识别刷脸对的公共场所的图像处理与识别具有极大改善作用。

本发明以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种人脸口罩掩膜图像自动分割与修复方法，其特征在于，包括：

2.根据权利要求1所述的一种人脸口罩掩膜图像自动分割与修复方法，其特征在于，所述人脸口罩掩膜图像自动分割中改进的特征加强网络DCB-ASPP模块以密集连接方式将不同特征层进行特征融合，并引入了CBAM注意力机制，任一层空洞卷积层的输出为：

RF_n＝RF_n-1+k_n-1；

3.根据权利要求1所述的一种人脸口罩掩膜图像自动分割与修复方法，其特征在于，所述改进的DeepLabv3+网络模型损失函数焦点损失函数定义为：

L_F＝-a_t(1-P_t)^γlnP_t；

4.根据权利要求1所述的一种人脸口罩掩膜图像自动分割与修复方法，其特征在于，所述改进的DeepLabv3+网络模型训练包括以下步骤：

步骤A3：冻结主干网络轻量化神经网络Mobilenetv2网络，训练改进的特征加强网络DCB-ASPP；

步骤A4：根据预测值和损失值计算焦点损失和F1分数；

步骤A5：反向传播，根据焦点损失值进行梯度更新；

步骤A7：保存模型参数，输出训练好的网络参数权重。

5.根据权利要求1所述的一种人脸口罩掩膜图像自动分割与修复方法，其特征在于，所述人脸图像修复网络中的人脸结构草图生成网络通过学习人脸结构先验知识产生待修复区域的人脸结构草图，包括判别器和基于编码器-解码器结构的生成器；所述生成器还包括下采样卷积层、带膨胀卷积的残差块、上采样卷积层、以及从下采样层跳跃连接到上采样层后的特征融合层。

6.根据权利要求5所述的一种人脸口罩掩膜图像自动分割与修复方法，其特征在于，所述带膨胀卷积残差块，下采样与上采样过程每个卷积层与激活层之间还具有实例归一化层；所述人脸结构草图生成网络判别器为马尔可夫判别器；整个人脸结构草图生成网络训练目标定义为：

其中，λ_adv,sketch和λ_FM,sketch是正则化参数；

对抗损失L_adv,sketch定义为：

特征匹配损失L_FM,sketch定义为：

表示判别器第i层的激活函数输出。

7.根据权利要求1所述的一种人脸口罩掩膜图像自动分割与修复方法，其特征在于，所述人脸图像修复网络联合感知损失与模型进行训练，还包括修复网络注意力机制,以生成的人脸结构草图为引导实现人脸图像面部语义结构和纹理信息的生动修复以人脸结构草图生成网络生成的结构草图作为条件指导信息进行人脸图像修复；还包括人脸修复网络的生成器和判别器。

8.根据权利要求7所述的一种人脸口罩掩膜图像自动分割与修复方法，其特征在于，所述人脸修复网络生成器所述生成器基于编码器-解码器结构，还包括下采样层、带膨胀卷积的残差块、长短期注意力层、上采样层、以及从下采样层跳跃连接到上采样层后的特征融合层；所述人脸修复网络判别器为马尔可夫判别器；人脸修复网络L₁损失定义为：

式中N为归一化后掩膜像素点的数目；

生成对抗损失L_adv,face定义为：

感知损失L_perc,face定义为：

其中，φ_i为预训练模型VGG-19]第i层激活输出映射；

人脸修复网络的总损失为：

9.一种人脸口罩掩膜图像自动分割与修复管理平台，其特征在于，基于PyCharm中的PyQt库实现，包括面板控制模块，展示模块，处理模块和信息打印模块；所述面板控制模块还包括：

修复质量测评子模块：对人脸口罩掩膜图像的修复质量进行测评，包括SSIM结构相似性，PSNR峰值信噪比，FID距离。