CN114862696A

CN114862696A - 一种基于轮廓和语义引导的人脸图像修复方法

Info

Publication number: CN114862696A
Application number: CN202210363272.2A
Authority: CN
Inventors: 佟吉钢; 王晨; 杨森; 张祖锋
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-08-05

Abstract

本发明公开了一种基于轮廓和语义引导的人脸图像修复方法，包括以下步骤：S1：对人脸图像进行预处理获得待修复人脸图像；S2：将步骤S1中的待修复人脸图像进行灰度化处理得到待修复人脸灰度图像；S3：将S2中的待修复人脸灰度图像通过边缘检测算法提取人脸轮廓信息，从而获得待修复人脸轮廓图像；S4：建立对抗网络结构的基于多尺度残差块的轮廓修复模型，将步骤S2中的待修复人脸灰度图像以及步骤S3中的待修复人脸轮廓图像输入到轮廓修复模型中，获得人脸轮廓修复图像；S5：建立对抗网络结构的基于注意力金字塔和多尺度残差块的图像修复模型，将步骤S1中的待修复人脸图像和步骤S4中的人脸轮廓修复图像输入到图像修复模型中，得到修复后的完整图像。

Description

一种基于轮廓和语义引导的人脸图像修复方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于轮廓和语义引导的人脸图像修复方法。

背景技术

在实际应用中，由于眼镜、饰品等主动遮挡以及环境中障碍物等多种影响，往往无法采集到面部特征完整的人脸图像，从而导致人脸识别准确率较低。相比较普通的图像修复，人脸具有更强的语义和更复杂的纹理细节，不仅需要考虑人脸结构的合理性，还需要在修复过程中保留人物信息。因此针对人脸图像修复的特殊性，通过图像修复算法生成清晰合理且准确率高的人脸图像仍然是一项十分艰巨的任务。

在深度学习广泛应用于图像修复领域之前，传统的方法可分两类：基于扩散的(diffusion-based)和基于样本的(patch-based)图像修复方法。基于扩散的方法利用待修复区域的边缘信息，确定扩散方向，向边缘内扩散已知的信息，例如TV-Stokes方法。基于样本的方法迭代地从已知区域搜索纹理相似的图像块来填补缺失区域，例如PatchMatch方法。但是这些方法过于依赖已知信息，修复一些比较复杂的、不可复制的图像结构时无法获得令人满意的效果。

随着深度学习的快速发展，基于生成对抗网络的方法在图像修复领域占据了主流。Pathak等人将编码-解码网络结构引入图像修复工作中并首次结合 GAN的对抗思想提出了Context Encoder网络；Iizuka等人在Context Encoder 的基础上引入局部-全局双重判别器，同时使用膨胀卷积提出了GLCIC网络； Yu等人提出了deepfill网络，通过上下文注意力机制从已知背景补丁借用或复制特征信息来生成缺失的前景补丁；Nazeri等人采用两阶段修复网络，先预测图像的完整边缘信息再作为结构先验来引导内容修复；Wang等人提出一种包含掩膜预测模块和鲁棒性修复模块的两阶段视觉一致性网络VCNet。相较于传统方法，基于深度学习的图像修复方法具有强大的图像特征表达学习能力以及数据概率分布拟合能力。虽然现有的方法对大多数图像有不错的修复效果，但对于人脸图像的修复效果却不如人意。对于人脸修复任务而言，深度学习的方法依然具有很强的随机性，并且现有方法在实现图像结构连贯、语义明确、纹理清晰的问题上仍存在很大不足。

发明内容

针对现有技术存在的不足之处，本发明提出了一种基于轮廓和语义引导的人脸图像修复方法，解决了修复图像时边界处模糊不清、纹理和语义不一致、修复细节不清晰的问题，有效地提高了人脸识别的准确率。本方法通过轮廓修复网络得到人脸轮廓图作为结构先验信息，提高了人脸部件位置和形状的合理性；采用注意力金字塔结构重建编码过程中由深到浅不同层级的完整语义作为先验信息引导解码过程，提高了视觉和语义的一致性；采用多尺度融合残差结构，增强了网络的特征提取能力，提高了图像的修复质量。

为实现上述目的，本发明采用如下技术方案：

一种基于轮廓和语义引导的人脸图像修复方法，包括以下步骤：

S1：对输入人脸图像进行预处理，进行缩放或拉伸调整成统一尺寸，获得待修复人脸图像；

S2：将步骤S1中得到的待修复人脸图像进行灰度化处理，得到待修复人脸灰度图像；

S3：将S2中得到的待修复人脸灰度图像通过边缘检测算法提取人脸轮廓信息，从而获得二值化的待修复人脸轮廓图像；

S4：建立对抗网络结构的基于多尺度残差块的轮廓修复模型，所述轮廓修复模型由一个生成器和一个鉴别器构成，且在生成器中引入了多尺度残差结构，将步骤S2得到的待修复人脸灰度图像以及步骤S3得到的待修复人脸轮廓图像输入到基于多尺度残差块的轮廓修复模型中，获得完整的人脸轮廓修复图像；

S5：建立对抗网络结构的基于注意力金字塔和多尺度残差块的图像修复模型，所述图像修复模型由一个生成器和一个鉴别器构成，且在生成器中引入了注意力金字塔结构和多尺度残差结构，将步骤S1中得到的待修复人脸图像和步骤S4人脸轮廓修复图像输入到基于注意力金字塔和多尺度残差块的图像修复模型中，实现对人脸图像缺失区域的修复，得到修复后的完整图像。

作为本发明的进一步改进：所述多尺度残差结构通过多尺度融合残差块，利用不同尺度的膨胀卷积来提取不同感受野下的特征信息并实现多尺度特征融合，所述多尺度融合残差块将输入的特征信息分别通过四个分支使用膨胀因子分别为1、2、4、8的膨胀卷积提取不同尺度的特征x₁、x₂、x₃、x₄，通过相邻累加的方法将不同稀疏多尺度特征组合关联，再进行特征融合。

作为本发明的进一步改进：所述提取到的多尺度特征中的x₁、x₂、x₃、x₄将使用普通卷积进行特征组合关联得到特征X₁、X₂、X₃、X₄然后将四组特征通过1×1的普通卷积进行特征融合，其公式如下：

y＝Conv_1×1，d＝1(X₁+X₂+X₃+X₄)，

其中，y为多尺度融合残差块的输出的特征信息，Conv_3×3，d＝1和Conv_1×1，d＝1分别代表卷积核尺寸为3和1、膨胀因子为1的普通卷积。

作为本发明的进一步改进：所述轮廓修复模型将人像的灰度图I_in，gray、轮廓图C_in和缺失区域的掩码图M作为输入，通过轮廓修复网络获得修复后的轮廓图像：

C_out＝G₁(I_in，gray，C_in，M)，

其中，C_out为网络修复出的完整人像轮廓图，G1表示轮廓修复模型的生成器。

作为本发明的进一步改进：所述注意力金字塔结构在生成器编码过程中通过金字塔式的由深到浅的注意力来填补缺失区域的特征信息，使不同层级重建后的语义完整的特征图通过跳跃链接方式引导生成器解码过程。

作为本发明的进一步改进：所述注意力金字塔结构在编码过程中通过注意力模块将高级特征图中得到的缺失区域内外相似性用于填充低级特征图，其公式表示如下：

其中，f^l，f^l-1，K，f¹代表编码过程中由深到浅的特征图，attention代表注意力模块。

作为本发明的进一步改进：所述注意力模块使用3×3的普通卷积在缺失区域内外提取补丁，并计算其余弦相似度：

其中，

表示从高级特征图的背景区域提取的以(i，j)为中心的补丁，

表示从高级特征图的前景区域提取的以(i′，j′)为中心的补丁。然后通过 softmax来衡量相似度，得到每个补丁的注意力得分：

通过将高级特征图中获得的注意力得分加权到其相邻的低级特征图中来对其缺失区域进行重建，其公式如下：

其中，

表示从低级特征图的背景区域提取的以(i，j)为中心的补丁，

表示从低级特征图的前景区域提取的以(i′，j′)为中心的补丁，N为从背景区域中提取的补丁数量。

作为本发明的进一步改进：所述图像修复模型将人像I_in和轮廓修复模型输出的复合轮廓图C_comp作为输入，通过图像修复网络获得修复后的完整人脸图像：

I_out＝G₂(I_in，C_comp)，

其中，I_out为网络修复出的完整人脸图像，G₂表示图像修复模型的生成器， C_comp＝C_gt e(1-M)+C_out e M，C_gt为真实人脸图像的轮廓图，e表示逐元素相乘。

作为本发明的进一步改进：所述边缘检测算法为Canny边缘检测算法，用于提取并输出人脸图像的轮廓信息。

区别于现有技术，上述技术方案具有如下优点：

1、采用轮廓修复模型对脸部轮廓进行修复，并将其作为先验信息指导图像修复模型的人脸修复工作，这样可以提高图像大面积缺失情况下五官等重要人脸部件修复后位置和形状的合理性，使图像在结构上有更好的修复效果。

2、图像修复模型引入了注意力金字塔结构，在编码过程中通过金字塔式的由深到浅的注意力机制来填补缺失区域的内容获得语义完整的特征图，将其作为前置条件约束图像的解码修复，提高了修复图像的语义可信度，有利于保证缺失区域的视觉和语义一致性。

3、采用多尺度融合残差结构进行特征提取，不同尺度膨胀卷积的组合使网络在不增加参数量的同时扩大了感受野的面积，增强了特征提取能力，提高了图像的修复质量。

附图说明

图1是基于轮廓和语义引导的人脸图像修复方法流程图；

图2是轮廓修复模型的网络结构图；

图3是图像修复模型的网络结构图；

图4是多尺度融合残差块的结构图；

图5是注意力金字塔中的注意力工作机制示意图；

图6是不同缺失面积下的人脸图像修复效果图；

图7是不同缺失面积下修复前后人脸识别准确率对比图；

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

本发明提出一种基于轮廓和语义引导的人脸图像修复方法，包括以下步骤：

S1：对输入人脸图像进行预处理，将输入图像进行缩放或拉伸，调整成 256×256的统一尺寸，获得待修复人脸图像；

S3：将S2中得到的待修复人脸灰度图像通过Canny边缘检测算法提取人脸轮廓信息，从而获得二值化的待修复人脸轮廓图像；

S4：建立对抗网络结构的基于多尺度残差块的轮廓修复模型，所述轮廓修复模型由一个生成器和一个鉴别器构成，且在生成器中引入了多尺度残差结构，通过构建多尺度融合残差块实现进一步特征提取；

参阅图4所示，为多尺度残差块的结构图，使用卷积核为3×3的普通卷积将输入特征的通道减少到1/4，通过四个分支使用膨胀因子分别为1、2、4、8的膨胀卷积提取不同感受野下的特征信息x₁、x₂、x₃、x₄。接着利用相邻累加的方法对提取到的四组多尺度特征使用3×3的普通卷积进行组合关联得到特征X₁、X₂、X₃、X₄，然后将X₁、X₂、X₃、X₄简单concat后使用1×1的普通卷积进行特征融合。其特征融合的过程如下式所示：

y＝Conv_1×1，d＝1(X₁+X₂+X₃+X₄)，

式中，y为多尺度融合残差块的输出的特征信息，Conv_3×3，d＝1和Conv_1×1，d＝1分别代表卷积核尺寸为3和1、膨胀因子为1的普通卷积；

基于多尺度残差块的轮廓修复模型建立完成，将步骤S2得到的待修复人脸灰度图像以及步骤S3得到的待修复人脸轮廓图像输入到所述轮廓修复模型中，并以图像掩码作为前置条件，预测未知区域的边缘信息，以获得完整的人脸轮廓修复图像；

参阅图2所示，为所述轮廓修复模型结构图，图中k为卷积核大小，n为输出通道数，s为卷积操作的步长。TConv为用于上采样的转置卷积，Residual block为多尺度融合残差块；

将人脸图像的灰度图I_in，gray、轮廓图C_in和缺失区域的掩码图M作为输入，经过轮廓修复网络G1获得修复后的人脸轮廓图像C_out：

C_out＝G₁(I_in，gray，C_in，M)，

所述轮廓修复模型在训练过程中采用对抗损失和特征匹配损失来优化模型性能，轮廓修复总损失函数如下所示：

其中

为轮廓修复模型的总损失，L_adv，1为轮廓修复模型的对抗损失， L_FM为特征匹配损失，λ_adv，1和λ_FM分别为对抗损失和特征匹配损失的正则化参数，D1表示轮廓修复模型的鉴别器，C_gt为真实人脸图像的轮廓图，I_gt，gray为真实人脸图像的灰度图，

表示鉴别器在第i层的激活图，N_i表示鉴别器第 i个激活图的元素数，K为鉴别器的卷积层数；

S5：建立对抗网络结构的基于注意力金字塔和多尺度残差块的图像修复模型，所述图像修复模型由一个生成器和一个鉴别器构成，且在生成器中引入了注意力金字塔结构和多尺度残差结构，通过构建注意力金字塔和多尺度融合残差块实现进一步特征提取，图像修复模型中引入的多尺度残差块结构与S4中所述一致；

在本发明中，所述图像修复模型引入的注意力金字塔结构，在生成器编码过程中通过金字塔式的由深到浅的注意力来填补缺失区域的特征信息，然后使不同层级重建后的语义完整的特征图通过跳跃链接方式引导生成器解码过程；

参阅图5所示，为注意力金字塔中的注意力工作机制示意图，注意力金字塔结构在编码过程中通过注意力机制从高级特征图中得到的缺失区域内外相似性并将其用于低级特征图内容填充，公式表示方法如下：

其中，f^l，f^l-1，K，f¹代表编码过程中由深到浅的特征图，attention代表注意力模块；

该注意力模块使用3×3的普通卷积在缺失区域内外提取补丁，并计算内外补丁间的余弦相似度：

其中，

表示从高级特征图的背景区域提取的以(i，j)为中心的补丁，

其中，

表示从低级特征图的背景区域提取的以(i，j)为中心的补丁，

表示从低级特征图的前景区域提取的以(i′，j′)为中心的补丁，N为从背景区域中提取的补丁数量；

所述图像修复模型在训练过程中采用对抗损失、l₁重建损失、感知损失和风格损失来优化模型性能，图像修复总损失函数如下所示：

L_style＝E[||ψ_i(I_gt)-ψ_i(I_out)||₁]，

其中，

为图像修复模型的总损失，L_adv，2为图像修复模型的对抗损失，

为l₁重建损失，L_perc为感知损失，L_style为风格损失，D₂表示轮廓修复模型的鉴别器，λ_adv，2、

λ_perc和λ_style分别为对抗损失、l₁重建损失、感知损失和风格损失的正则化参数，I_gt为真实人脸图像(ground truth)，φ_i表示预训练的 VGG19网络的relu1_1、relu2_1、relu4_1、relu4_1、relu5_1的激活图，N_i表示第i个激活图的元素数，ψ_i表示由激活图φ_i构成的Gram矩阵。

基于注意力金字塔和多尺度残差块的图像修复模型建立完成，将步骤S1 中得到的待修复人脸图像和和步骤S4人脸轮廓修复图像输入到所述图像修复模型中，实现对人脸图像缺失区域的修复，得到修复后的完整图像。

参阅图3所示，为所述图像修复模型结构图，将人脸图像I_in和轮廓修复模型输出的复合轮廓图C_comp作为输入，通过图像修复网络G₂获得修复后的完整人脸图像I_out：

I_out＝G₂(I_in，C_comp)，

其中C_comp＝C_gt e(1-M)+C_out e M，e表示逐元素相乘。

实验结果与分析

为了测试算法的修复性能，将本发明的算法在CelebA人脸数据集和 CelebA-HQ人脸数据集上进行训练和测试。CelebA是一个大型人脸属性数据集，拥有包括10,177个身份的202,599张人脸图像。CelebA-HQ则是从CelebA 数据集中挑选60,000张图像，将其增强清晰度后生成的人脸数据集。实验中选取CelebA数据集中的200,000张图像和CelebA-HQ数据集中的48,000张训练图像组成训练集，其余图像则组成测试集。

实验环境和参数

本发明的实验环境为搭载2块GTX 2080Ti 11G显卡以及Intel Xeon Silver41102.10GHz 8核CPU的图形工作站。基于Ubuntu16.04操作系统，在 PyTorch深度学习框架上使用Python编程语言搭建网络模型，实现算法的训练和测试。在训练过程中，每个批次的batchsize为4，最大迭代次数设为1e⁶，采用Adam优化器对模型进行优化，参数β₁＝0，β₂＝0.9。

性能评估

从图像测试集中随机挑选六组图像作为实验对象，每组200张人脸图像，分别对应10％～60％六种不同面积大小的图像内容缺失情况。使用本发明算法分别对六组图像进行修复，并通过计算修复后图像与真实图像之间的峰值信噪比和结构相似性来反映算法对不同缺失程度下人脸图像的修复效果。

峰值信噪比(PSNR)是衡量最大值信号和背景噪音之间的图像质量参考值，它的值越大，代表修复后图像失真程度越小。结构相似性(SSIM)是一种从亮度、对比度和结构三个方面衡量两幅图像之间结构相似程度的指标，数值越大表明修复图像与真实图像结构越相似。峰值信噪比和结构相似性表达式分别为：

式中MAX_(x，y)表示图像像素的最大值，MSE(x，y)表示真实图像x与修复图像y的均方误差。l(x，y)、c(x，y)和s(x，y)分别反映两幅图像之间的亮度、对比度和结构。μ_x、μ_y分别为x、y的均值，

分别为x、y的方差，σ_xy为x、y的协方差。c₁、c₂、c₃为三个常数，其中

表2为本发明在不同缺失程度下人脸修复图像的PSNR值和SSIM值。

表2修复人脸图像的PSNR值和SSIM值

相较于以往的图像修复方法，本发明的方法在人脸图像缺失面积小于20％的情况下体现了与以往优秀修复方法不相上下的修复效果，对于缺失面积大于20％，特别是面积大于40％的图像，本方法修复的人脸图像在评估指标 PSNR和SSIM上均具有明显提升，说明了本方法在图像修复质量上有一定程度的提高。

参阅图6和图7所示分别为不同缺失面积下的人脸图像修复效果图和修复前后人脸识别准确率对比图。图6可以从视觉效果上展示出本发明方法良好的修复能力，即使是在面部特征大面积缺失超过50％的情况下，仍能够获得语义明确、结构合理的修复结果。采用FaceNet人脸识别算法分别对上述6 组图像修复前后进行人脸识别实验，由图7可以看出，当缺失面积小于10％时，由于修复前识别率已达较高水平，故修复后提升不大，但仍提升8％左右；当缺失面积超过10％，修复前识别率开始大幅降低，但修复后识别率下降较小，缺失面积小于40％的情况下修复后依然能保持90％左右的识别率；当缺失面积超过50％时，人脸识别算法已经无法正常识别到修复前人脸，故识别准确率极低，尽管修复后准确率仍然不高，但也较修复前提升了5倍左右。

本发明提出的基于轮廓和语义引导的人脸图像修复方法，在算法中首先对人脸轮廓进行修复，提高修复图像人脸部件位置和形状的合理性；在图像修复网络中引入注意力金字塔结构，编码器中利用注意力模块由深到浅的重建语义特征作为先验信息引导解码工作，增强了修复后人脸图像视觉和语义的一致性；采用多尺度融合残差结构，增强了网络的特征提取能力，提高了图像的修复质量。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.一种基于轮廓和语义引导的人脸图像修复方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于轮廓和语义引导的人脸图像修复方法，其特征在于：所述多尺度残差结构通过多尺度融合残差块，利用不同尺度的膨胀卷积来提取不同感受野下的特征信息并实现多尺度特征融合，所述多尺度融合残差块将输入的特征信息分别通过四个分支使用膨胀因子分别为1、2、4、8的膨胀卷积提取不同尺度的特征x₁、x₂、x₃、x₄，通过相邻累加的方法将不同稀疏多尺度特征组合关联，再进行特征融合。

3.根据权利要求2所述的一种基于轮廓和语义引导的人脸图像修复方法，其特征在于：所述提取到的多尺度特征中的x₁、x₂、x₃、x₄将使用普通卷积进行特征组合关联得到特征X₁、X₂、X₃、X₄然后将四组特征通过1×1的普通卷积进行特征融合，其公式如下：

y＝Conv_1×1,d＝1(X₁+X₂+X₃+X₄),

其中，y为多尺度融合残差块的输出的特征信息，Conv_3×3,d＝1和Conv_1×1,d＝1分别代表卷积核尺寸为3和1、膨胀因子为1的普通卷积。

4.根据权利要求1所述的一种基于轮廓和语义引导的人脸图像修复方法，其特征在于：所述轮廓修复模型将人像的灰度图I_in,gray、轮廓图C_in和缺失区域的掩码图M作为输入，通过轮廓修复网络获得修复后的轮廓图像：

C_out＝G₁(I_in,gray,C_in,M),

其中，C_out为网络修复出的完整人像轮廓图，G₁表示轮廓修复模型的生成器。

5.根据权利要求1所述的一种基于轮廓和语义引导的人脸图像修复方法，其特征在于：所述注意力金字塔结构在生成器编码过程中通过金字塔式的由深到浅的注意力来填补缺失区域的特征信息，使不同层级重建后的语义完整的特征图通过跳跃链接方式引导生成器解码过程。

6.根据权利要求5所述的一种基于轮廓和语义引导的人脸图像修复方法，其特征在于：所述注意力金字塔结构在编码过程中通过注意力模块将高级特征图中得到的缺失区域内外相似性用于填充低级特征图，其公式表示如下：

其中，f^l,f^l-1,K,f¹代表编码过程中由深到浅的特征图，attention代表注意力模块。

7.根据权利要求6所述的一种基于轮廓和语义引导的人脸图像修复方法，其特征在于：所述注意力模块使用3×3的普通卷积在缺失区域内外提取补丁，并计算其余弦相似度：

其中，

表示从高级特征图的背景区域提取的以(i,j)为中心的补丁，

表示从高级特征图的前景区域提取的以(i′,j′)为中心的补丁。然后通过softmax来衡量相似度，得到每个补丁的注意力得分：

其中，

表示从低级特征图的背景区域提取的以(i,j)为中心的补丁，

表示从低级特征图的前景区域提取的以(i′,j′)为中心的补丁，N为从背景区域中提取的补丁数量。

8.根据权利要求1所述的一种基于轮廓和语义引导的人脸图像修复方法，其特征在于：所述图像修复模型将人像I_in和轮廓修复模型输出的复合轮廓图C_comp作为输入，通过图像修复网络获得修复后的完整人脸图像：

I_out＝G₂(I_in,C_comp),

其中，I_out为网络修复出的完整人脸图像，G₂表示图像修复模型的生成器，C_comp＝C_gte(1-M)+C_oute M，C_gt为真实人脸图像的轮廓图，e表示逐元素相乘。

9.根据权利要求1所述的一种基于轮廓和语义引导的人脸图像修复方法，其特征在于：所述边缘检测算法为Canny边缘检测算法，用于提取并输出人脸图像的轮廓信息。