CN116071275B

CN116071275B - 基于在线知识蒸馏和预训练先验的人脸图像修复方法

Info

Publication number: CN116071275B
Application number: CN202310319275.0A
Authority: CN
Inventors: 岳焕景; 廖磊; 杨敬钰
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-06-09
Anticipated expiration: 2043-03-29
Also published as: CN116071275A

Abstract

本发明公开了基于在线知识蒸馏和预训练先验的人脸图像修复方法，涉及图像信号处理技术领域。基于在线知识蒸馏和预训练先验的人脸图像修复方法，包括如下步骤：S1、建立缺失人脸图像数据集；S2、构建网络架构；S3、设计人脸图像修复方案，并依据所设计的方案搭建人脸图像修复模型；S4、利用深度学习Pytorch框架训练模型；S5、向模型中输入缺失人脸图像数据集中的测试数据对，获得人脸图像修复结果；本发明利用提出的多级空洞卷积残差块、基于在线知识蒸馏的特征先验获取方法和基于预训练鉴别器的先验获取方法，将人脸图像修复性能提升到了新的高度。

Description

基于在线知识蒸馏和预训练先验的人脸图像修复方法

技术领域

本发明涉及图像信号处理技术领域，尤其涉及一种基于在线知识蒸馏和预训练先验的人脸图像修复方法。

背景技术

人脸图像修复旨在补全输入人脸图像中的缺失区域，生成令人满意的高质量修复结果，其可以应用于人脸去遮挡、表情预测等诸多实际问题中；人脸图像修复面临缺失区域和缺失面积不固定，缺失形状具有随机性等诸多挑战，当存在大面积缺失时，直接修复缺失人脸图像是十分困难的；近年来，人脸图像修复已从传统的数学模型转向基于神经网络的深度学习方法；

这些方法中多采用多阶段的修复思路，即将人脸图像修复解耦成两个子任务：首先修复人脸语义分割图，人脸关键点等信息，再利用这些信息帮助修复网络生成最终的修复结果；然而，这些信息只提供了语义上的指导，无法较好地利用全局的上下文信息，并且多阶段方法面临错误在不同阶段传递放大的问题；最近，在图像去雾任务中，有研究者提出利用离线知识蒸馏提取无雾图像的特征，对去雾网络的特征进行监督；但是，由于缺失人脸图像和无缺失人脸图像特征图间的差异太大，仅靠离线知识蒸馏无法克服两者间的差异，因此离线知识蒸馏并不适合人脸图像修复任务。

另一方面，有研究者通过移植人脸生成任务预训练生成对抗网络中的生成器到人脸超分等任务中，以获得预训练生成器中的先验信息；然而，移植生成器的难度很高，并且当存在大面积缺失时预训练生成器可能会不能正常地工作；相反，预训练生成对抗网络的鉴别器中同样有丰富的先验信息，并且能方便地部署在其他相关的任务中，因此探索预训练鉴别器中的先验信息同样具备研究价值。除此之外，提高修复网络的感受野能使其更好的感知缺失人脸图像的全局上下文信息，是一个提高修复性能的有效方式。

发明内容

本发明的目的在于生成高质量的人脸图像修复结果，并在此基础上提出一个基于在线知识蒸馏和预训练先验的人脸图像修复方法。

为了实现上述目的，本发明采用了如下技术方案：

基于在线知识蒸馏和预训练先验的人脸图像修复方法，具体包括以下步骤：

S1、建立缺失人脸图像数据集：给定无缺失人脸图像I _gt，随机挑选掩码M，通过掩码M去除无缺失人脸图像中的部分区域得到缺失人脸图像I _in，获得输入数据对（I _in，M），进而获得缺失人脸图像数据集；

S2、构建网络框架：设计一个由自动编码器构成的轻量的教师网络G _t（重建网络），一个负责对人脸图像进行修复的学生网络G _s（修复网络）以及一个多尺度鉴别器D，利用教师网络G _t（重建网络）和学生网络G _s（修复网络）共同构成知识蒸馏框架，利用学生网络G _s（修复网络）和多尺度鉴别器D共同构成生成对抗网络框架；

S3、设计方案、搭建模型：基于特征先验和鉴别器先验，结合S1～S2中所述缺失人脸图像数据集和网络框架设计人脸图像修复方案，并依据所设计的方案搭建人脸图像修复模型，所述方案具体包括如下内容：

①缺失区域特征修复：将S1中所得的数据对（I _in，M）输入学生网络G（修复网络）_s，首先通过输入卷积层变成特征图，之后编码器每两层卷积层通过一个步长为2的3×3卷积层将特征图尺度缩小3次；随后，编码后的特征图通过中间模块处理，生成修复后的缺失人脸图像特征图，记作F _in；所述中间模块由10个多级空洞卷积残差块组成；

②多级空洞卷积残差块处理：将特征图x输入多级空洞卷积残差块，使其分离成四组新的特征图，将新的特征图重新拼接后输入一个额外的3×3卷积层，最后将其与输入特征图x相加形成残差结构；

③基于在线知识蒸馏的特征先验获取：将教师网络G _t（重建网络）设计成一个输入为无缺失人脸图像的轻量的编解码网络，获得来自教师网络G _t（重建网络）的特征图中的先验信息；

④多尺度输出：将学生网络G _s（修复网络）中的特征图通过解码器输出多个尺度的修复结果；

⑤基于预训练鉴别器的先验获取：训练一个用于人脸图像生成的StyleGAN网络，获取StyleGAN的鉴别器作为特征提取器，利用特征提取器获取来自预训练生成对抗网络鉴别器中的先验信息；

⑥多尺度鉴别器处理：将多个尺度的无缺失人脸图像和学生网络G _s（修复网络）输出的多个尺度的修复图像输入多尺度鉴别器D进行对抗；

⑦损失函数模块设计：将教师网络G _t（重建网络）通过在线知识蒸馏损失和重建损失进行联合优化；将学生网络G _s（修复网络）通过在线知识蒸馏损失、人脸感知损失、人脸风格损失、对抗损失以及输出的多个尺度图像和相应尺度无缺失人脸图像间的L1损失进行联合优化；将多尺度鉴别器D通过WGAN-GP中的鉴别器损失进行优化；

S4、训练模型：利用深度学习Pytorch框架训练模型，遍历S1中所构建的缺失人脸图像数据集直到学生网络损失函数收敛，然后减小学习率至0.00001，再继续遍历缺失人脸图像数据集若干次，得到最终的稳定模型；

S5、输出结果：将S1中获得的缺失人脸图像数据集中的数据对输入到稳定模型中，获得人脸图像修复结果。

优选地，所述方案②进一步包括以下内容：

假设输入多级空洞卷积残差块的第n组特征图为x _n，则多级空洞卷积的操作如下：

式中，ψ _n表示空洞率为n的3×3卷积层；y _n表示卷积层ψ _n的输出；

所述多级空洞卷积残差块中所有卷积层完成卷积后，均使用LeakyRelu激活函数和分组归一化函数进行进一步处理。

优选地，所述方案③具体包括以下内容：

3.1）、教师网络G _t（重建网络）通过编码器将无缺失人脸图像映射成具有代表性的无缺失人脸图像特征图，记作F _gt，然后再通过解码器将F _gt解码成重建人脸图像

；

3.2）、教师网络G _t（重建网络）的编码器与学生网络G _s（修复网络）的编码器结构保持一致，教师网络G _t（重建网络）的解码器与学生网络G _s（修复网络）的解码器结构对称，通过步长为2的3×3反卷积层进行上采样；

3.3）、计算重建人脸图像与无缺失人脸图像之间的重建损失，具体计算公式为：

式中，L _re表示重建损失函数；I _gt表示无缺失人脸图像；

表示重建人脸图像；

3.4）、将学生网络G _s（修复网络）的特征图记作F _in，F _gt通过在线知识蒸馏损失对F _in进行监督，使学生网络G _s（修复网络）获取到特征先验，具体计算公式为：

式中，

表示在线知识蒸馏损失函数；F _gt表示无缺失人脸图像特征图；F _in表示学生网络G _s（修复网络）的特征图；

3.5）、将

同时回传给教师网络G _t（重建网络）和学生网络G _s（修复网络），使教师网络G _t（重建网络）与学生网络G _s（修复网络）相互学习，克服F _gt和F _in在数据分布上的差异，最终形成一个跨任务在线知识蒸馏框架；

优选地，所述方案④具体包括以下内容：

学生网络G _s（修复网络）中的特征图通过学生网络G _s（修复网络）的解码器输出多个尺度的修复结果

，每一级尺度的解码器在收到来自上一级尺度的特征图后，首先通过1×1卷积和PixelShuffle将特征图的尺度放大，然后通过两个中间卷积层和一个输出卷积层输出当前尺度的修复结果，具体计算公式为：

式中，

和/>

表示两个中间卷积层；/>

表示输出卷积层；/>

和/>

表示来自上一尺度的特征图和来自跳跃连接的特征图；/>

表示1×1卷积和PixelShuffle的联合操作，concat表示通道拼接。

优选地，所述方案⑤进一步包括以下内容：

计算无缺失人脸图像和修复图像在StyleGAN鉴别器中特征图间的人脸风格损失和人脸感知损失，进而获取鉴别器先验；所述人脸感知损失函数如下：

式中，N表示鉴别器中卷积块的个数；Φ _j表示StyleGAN鉴别器中的第j个卷积块；

表示学生网络解码器第一个尺度的修复结果；/>

表示第j个卷积块输出特征图的大小；C表示卷积块输出的特征图通道数目、H表示卷积块输出的特征图高度、W表示卷积块输出的特征图宽度；

所述人脸风格损失函数如下：

所述人脸风格损失函数和人脸感知损失函数使用相同卷积块输出特征图，其中Gram矩阵（GM）的运算方式如下：

式中，m，n表示输入特征图F在通道维度上的索引，p表示特征图F在空间维度上的索引。

与现有技术相比，本发明提供了基于在线知识蒸馏和预训练先验的人脸图像修复方法，具备以下有益效果：

（1）本发明基于特征先验和鉴别器先验提出了一种人脸图像修复方法；特征先验的获取通过利用跨任务的在线知识蒸馏获取教师网络特征中的先验信息；鉴别器先验的获取通过将预训练鉴别器作为特征提取器，利用人脸感知损失和人脸风格损失获取鉴别器的先验信息。

（2）本发明提出了一个多级空洞卷积残差块结构，能提高修复网络的感受野加强网络对缺失人脸图像全局上下文信息的感知，并且多级空洞卷积结构能自适应地利用不同数量和不同结合方式的感受野来对缺失区域进行修复。

（3）基于本发明所进行的实验表明，所提出的方法优于目前主流的人脸图像修复方法；经过本发明的研究探索，能够启发更多利用深度网络中先验信息的研究。

附图说明

图1为本发明提出的基于在线知识蒸馏和预训练先验的人脸图像修复方法的整体框架图；

图2为本发明实施例1中提出的教师网络结构图；

图3为本发明实施例1中提出的学生网络结构图；

图4为本发明实施例1中提出的多级空洞卷积残差块结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1：

请参阅图1，本发明提出一种基于在线知识蒸馏和预训练先验的人脸图像修复方法，包括以下步骤：

S3、设计方案、搭建模型：基于特征先验和鉴别器先验，结合S1～S2中所述缺失人脸图像数据集和网络框架设计人脸图像修复方案，并依据所设计的方案搭建人脸图像修复模型；

针对上述方法，更进一步包括如下内容：

3.1 教师网络G _t（重建网络）

教师网络G _t（重建网络）的目标是学习一个自动编码器，使网络产生的中间特征图能表达输入无缺失人脸图像的重要结构等先验信息。如图2所示，为了学习到无缺失人脸图像的先验信息，将教师网络G _t（重建网络）设计为一个无缺失人脸图像I _gt的编解码网络，其首先通过编码器将无缺失人脸图像映射成具有代表性的无缺失特征F _gt，再通过解码器恢复成重建人脸图像I _re。通常来说，更有代表性的特征会引导网络生成更好的重建结果，编码器由三个级联的卷积块构成，卷积层都使用的是 3×3 的卷积核，特征图尺度的缩小与放大通过步长为 2 的卷积和反卷积实现，解码器的结构与编码器对称，激活函数统一使用的LeakyRelu 函数。需要注意的是，教师网络G _t（重建网络）只在训练阶段使用。

3.2 学生网络G _s（修复网络）

学生网络G _s（修复网络）学生网络负责完成人脸图像的修复任务，它的输入是缺失人脸图像I _m以及对应的掩码M，输出是不同尺度的修复图像

。学生网络G _s（修复网络）的结构如图3所示，是一个带有跳跃连接的 U 形网络，可以划分为编码器、中间模块以及解码器三部分。在输入缺失人脸图像和掩码被学生网络的输入卷积层变成特征图后，编码器中每经过两层卷积层会通过一个步长为 2 的卷积层将特征图的尺度降低 3 次，然后通过 10 个多级空洞卷积残差块组成的中间模块。多级空洞卷积残差块的结构如图4所示，在该模块中，输入的特征图x会首先在通道上分离成 4 组特征图，每组特征图都有相同的空间大小但是通道数为原来的四分之一。给第 n 组特征图取名为x _n，多级空洞卷积残差块的操作如下：

式中，ψ _n表示空洞率为n的3×3卷积层；y _n表示卷积层ψ _n的输出。

随后输出的特征图y ₁、y ₂、y ₃以及y ₄在通道拼接后会输入一个额外的 3×3 卷积层，最后与输入x相加。多级空段卷积残差块中所有的卷积层后面都使用了 LeakyRelu 激活函数和分组归一化函数。

本发明引入多级空洞卷积残差块主要有以下两点原因：一是当修复网络面临大面积缺失时，需要更大的感受野来感知全局的信息，而使用多级空洞卷积的网络能自适应地利用不同数量和不同结合方式感受野来提取特征。其次，使用多级的空洞卷积相较与普通的级联卷积层，多级空洞卷积在获得差不多的感受野时能有更小的计算复杂度。在依次通过 10 个多级空洞残差块后，网络获得了具有代表性的特征图F _m，由于修复结果只能通过对F _m解码获得，因此修复好特征F _m应该接近于教师网络中的获得的无缺失特征图F _gt。最后特征图F _m会通过解码器输出不同尺度的修复结果

。在解码器中，每一级解码器在收到上一尺度的特征图后，会通过 1×1 卷积和 Pixel Shuffle将特征图尺度放大，然后通过两个中间卷积层和输出卷积层输出当前尺度的修复图像：

式中，

和/>

表示两个中间卷积层；/>

表示输出卷积层；/>

和/>

表示来自上一尺度的特征图和来自跳跃连接的特征图（当i=3时，F _i+1=F _m）；/>

表示1×1卷积和PixelShuffle的联合操作，concat表示通道拼接。

在输入多尺度鉴别器前，对学生网络G _s（修复网络）的输出图像的非缺失区域进行替换操作：

式中，M _i和I _mi表示不同尺度下的掩码和输入缺失人脸图像，小尺度的掩码和缺失人脸图像分别通过对大尺度图像和掩码进行最近邻插值生成。

3.3 基于在线知识蒸馏的特征先验获取

随着缺失区域的增大，人脸图像信息的缺失严重影响了人脸图像修复的进行。一个简单有效的策略就是先恢复一些人脸图像的信息，再将它们输入到后续人脸图像修复网络之中。不同于人脸关键点和人脸语义分割图这些只提供了语义指导而缺乏全局信息的方式，本发明提出获取来自一张无缺失人脸图像在深度神经网络（教师网络）中的包含全局信息的中间特征图，并利用知识蒸馏模型将这些先验信息“教给”学生网络。为了获得中间特征图Fgt，本发明训练了一个由自动编解码器构成的教师网络，教师网络的重建损失函数是一个一范数损失：

式中，I _re表示重建后的人脸图像。如果I _re能被很好地重建，F _gt就能很好地代表输入人脸图像的内容。因此，本发明利用F _gt来对学生网络产生的特征图F _m进行蒸馏。然而，如果进行离线蒸馏，本发明在实验中发现预训练好的教师网络产生的特征图F _gt和学生网络生成的特征图F _m间存在一个数据分布上的间隙。为了克服两者之间在分布上的间隙，本发明提出使用跨任务在线蒸馏让教师网络和学生网络互相收敛到同一个合适的点上。这一机制能使教师网络和学生网络相互学习，这样即便它们处理的任务不同并且网络结构也不同，也能有相同的中间特征图分布，跨任务在线知识蒸馏损失如下：

3.4 基于预训练鉴别器的先验获取

本发明提出利用 StyleGAN 中的鉴别器来代替 VGG 作为人脸特征的提取模块，并提出了相应的人脸感知损失和人脸风格损失。和 VGG 感知损失相似，人脸感知损失如下：

表示学生网络解码器第一个尺度的修复结果；/>

表示第j个卷积块输出特征图的大小；C表示卷积块输出的特征图通道数目、H表示卷积块输出的特征图高度、W表示卷积块输出的特征图宽度。本发明共使用了 4 个卷积块/>

₁，/>

₂，/>

₃以及/>

₄，所以 N = 4，各个卷积块输出特征图的大小分别为128×128，64×64，32×32以及16×16。除了人脸感知损失，本发明提出的人脸风格损失如下：

在本发明中，计算人脸风格损失时使用的是和人脸感知损失相同的卷积块。

3.5 损失函数

在学生网络训练时，总共使用了 5 个不同的损失，分别为：跨任务在线知识蒸馏损失

，人脸感知损失L _fp，人脸风格损失L _fs，多尺度重建损失/>

和对抗损失L _adv。其中，多尺度重建损失/>

和对抗损失L _adv如下：

式中，由于有三个不同的尺度，因此 k = 3。总的来说，学生网络的损失函数如下：

式中，λ _re，λ _fs，λ _fp，λ _on和λ _adv是各损失的权重。

教师网络的损失函数包括重建损失和跨任务在线知识蒸馏损失，损失函数如下：

式中β表示权重。在每次迭代中，会首先最小化教师网络的损失L _t来更新教师网络的参数，然后最小化鉴别器的损失函数L _D来更新多尺度鉴别器的参数，最后最小化学生网络的损失函数L _s来更新学生网络的参数。

实施例2：

基于实施例1但有所不同之处在于：

本发明选取7个同在 CelebAHQ 数据集上训练的先进对比方法，包括：CA，GC，PEN，LAFIN，PIC，DMFN以及DSI。在这些方法中，DMFN是 2020 年 ECCVW AIM 极端图像修复挑战的冠军，PIC和 DSI 都是可以生成多个修复结果的多样化方法，其他方法都是只能生成单一结果的唯一解方法。对于多样化方法 PIC 本章报告的是其 50 组结果的平均指标，而DSI 方法由于其生成一张修复结果的时间过长因此只报告了 1 组中心正方形掩码的结果。对于中心正方形掩码，本章测试了所有对比方法的指标，而对于随机形状掩码，由于PEN 并未在随机形状掩码上进行训练以及 CA 的效果不佳，因此两者的指标在对比中被略去。具体结果请参阅表1。

如表1所示，表中展示了在PSNR，SSIM，LPIPS以及FID 指标上的定量对比结果，其中PSNR 和SSIM 是相似度指标数值越大越好，LPIPS和FID 是感知和图像质量的评估指标数值越小越好，表中最优的结果用加粗标出，次优的结果用下划线标出。从表中可以看出，本章的方法在所有指标上实现了优越性。当掩码类型为中心正方形掩码时，本章方法在PSNR、SSIM以及LPIPS 指标上分别超出次优的DMFN 方法0.19dB/0.003/0.0015，在FID 指标上超出次优的DSI 方法0.09。相较于致力于生成多种逼真修复结果的DSI 方法，本方法在LPIPS 和FID 指标上超越证明了本章方法良好的生成能力，而相较于同样使用了VGG 感知损失的LAFIN ，本方法在4 个指标上分别超出了0.55dB/0.04/0.0036/1.09。这些结果证明了本发明提出的全局特征监督和鉴别器先验获取的有效性。当掩码类型为随机形状掩码时，本方法和所有对比方法间都有一个很大的间隔，相较于次优的LAFIN方法在四个指标上超出了0.66dB/0.007/0.007/1.54。这一方面是因为随着缺失率的不断增大，对网络修复能力的要求不断提高。另一方面是本章提出的全局特征监督不仅能针对人脸图像的局部区域进行优化，还能对头发、背景等图像的全局区域进行优化，而随机形状掩码很多时候遮挡了背景区域和头发区域，因此本发明所提出的方法会有更好的表现。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于在线知识蒸馏和预训练先验的人脸图像修复方法，其特征在于，具体包括以下步骤：

S1、建立缺失人脸图像数据集：给定无缺失人脸图像I _gt，随机挑选掩码M，通过掩码M去除无缺失人脸图像I _gt中的部分区域得到缺失人脸图像I _in，获得输入数据对（I _in，M），进而获得缺失人脸图像数据集；

S2、构建网络框架：设计一个由自动编码器构成的轻量的教师网络G _t，一个负责对人脸图像进行修复的学生网络G _s以及一个多尺度鉴别器D，利用教师网络G _t和学生网络G _s共同构成知识蒸馏框架，利用学生网络G _s和多尺度鉴别器D共同构成生成对抗网络框架；

①缺失区域特征修复：将S1中所得的数据对（I _in，M）输入学生网络G _s，首先通过输入卷积层变成特征图，之后编码器每两层卷积层通过一个步长为2的3×3卷积层将特征图尺度缩小3次；随后，编码后的特征图通过中间模块处理，生成修复后的缺失人脸图像特征图，记作F _in；所述中间模块由10个多级空洞卷积残差块组成；

③基于在线知识蒸馏的特征先验获取：将教师网络G _t设计成一个输入为无缺失人脸图像的轻量的编解码网络，获得来自教师网络的特征图中的先验信息；

所述方案③具体包括以下内容：

3.1）、教师网络G _t通过编码器将无缺失人脸图像映射成具有代表性的无缺失人脸图像特征图，记作F _gt，然后再通过解码器将F _gt解码成重建人脸图像