CN116681621A

CN116681621A - 一种基于特征融合及复用的人脸图像修复方法

Info

Publication number: CN116681621A
Application number: CN202310756138.3A
Authority: CN
Inventors: 黄进; 周瑞; 杨瑛玮; 王馨悦; 曾涛; 方铮; 李剑波; 冯义从; 翟树红
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-09-01

Abstract

本发明公开了一种基于特征融合及复用的人脸图像修复方法，涉及高分辨率图像修复技术领域，包括以下步骤：步骤S1：对输入图像进行预处理得到待修复的残缺人脸图像；步骤S2：建立基于特征融合及复用的人脸图像修复模型，将S1中的破损边缘图像输入到图像修复模型中进行训练；步骤S3:通过多次迭代训练，直到网络最终收敛，得到人脸图像修复权重模型；步骤S4：将破损的人脸图像输入到训练好的人脸图像修复模型中，得到修复好的人脸图像。采用跳跃连接方式构建编码器解码器结构，通过改进聚合上下文转换模块以增强对图像的上下文推理和特征增强，构建特征复用模块以充分利用图像结构纹理的细节特征，使修复结果更佳。

Description

一种基于特征融合及复用的人脸图像修复方法

技术领域

本发明涉及图像修复技术领域，尤其涉及一种基于特征融合及复用的人脸图像修复方法。

背景技术

图像修复方法是依据已知信息来补全破损区域像素，旨在恢复图像中受损区域像素，并使填充后的图像尽可能在视觉和语义层面与原图像保持一致。目前图像修复方法可以分为基于像素信息的图像修复和基于语义信息的图像修复。基于像素信息的图像修复方法是利用每一次构建破损区域的一个像素点，与周围像素点保持一致的原理进行修复，主要分为基于扩散机制的修复方法和基于块匹配的修复方法。基于像素信息的图像修复方法在面对小面积缺失或遮盖时效果尚可，但是当缺失区域较大或者遮盖面积较大时，修复效果不理想且会出现失真的情况；基于语义信息的图像修复方法又称为基于深度学习的修复方法，通过对缺失区域的语义特征进行预测并找寻缺损图像和原始图像之间的映射关系，进而对缺失区域进行实现结构和细节修复，主要分为基于卷积神经网络的修复方法和基于生成对抗网络的修复方法。

生成对抗网络GAN是2014年Goodfellow等人根据博弈论的思想提出的网络模型，GAN网络设定一个生成网路(Generator)和一个判别网络(Discriminator)。生成网络目的是尽量去学习真实数据的分布，而判别网络目的是尽量正确判断输入数据是来自真实数据还是生成网络，二者不断优化直到性能均为最佳。GAN网络在图像修复领域的应用主要是能够生成与真实图像一致的修复图像，用GAN网络来将一个低清晰度的模糊图像修复成为一个具有丰富细节的高清图像。GAN网络被应用在图像修复领域后，使得修复图像与真实图像的一致性、相似性都有显著地提高。

人脸修复作为其中一个重要的分支，在实际应用中扮演重要的角色。相比较普通的图像修复，人脸具有更强的语义和更复杂的纹理细节，不仅需要考虑人脸结构的合理性，还需要在修复过程中保留人物信息。

从早期的传统方法到目前基于深度学习的方法,图像修复已经取得了长足的进步。传统方法只适用于单张简单小区域缺失图片的修复，缺乏语义一致性。因此基于深度学习的方法成为主流。

Pathak首先提出Context Encoders,使用编码器-解码器网络来提取特征并输出重建结果,它也是第一个基GAN的修复方法；Iizuka等人在Context Encoder的基础上引入局部-全局双重判别器，同时使用膨胀卷积提出了GLCIC网络；Yu等人提出了deepfill网络，通过上下文注意力机制从已知背景补丁借用或复制特征信息来生成缺失的前景补丁；Nazeri等人使用双阶段模型设计了EdgeConnect，先由边缘生成器生成出不规则缺失区域的边缘假想图，作为先验结果，然后在这张边缘假想图的基础上，使用图片修补网络对缺失区域进行填充。

然而，这些方法可能在高分辨率图像中产生扭曲的结构和模糊的纹理(例如，512×512)。挑战主要来自：图像中远距离的像素内容推理和对大缺失区域的细粒度纹理合成。为了克服这两个挑战，Zeng等人提出了一个增强的基于gan的模型，用于高分辨率图像的生成。

2021年Zeng提出的的论文：Aggregated Contextual Transformations forHigh-Resolution Image Inpainting，(简称：AOT-GAN)。AOT-GAN是一种通过多层空洞卷积分支获取上下文图像信息再利用不同的鉴别器鉴别策略来获得高细粒度图像纹理的高分辨率修复网络结构。该算法主要由生成器中用于提取特征的编解码网络和改进过鉴别策略的鉴别器组成，为了增强上下文推理能力，该网络通过将所提议的AOT块的多层叠加来构造AOT-gan的生成器。AOT块聚合上下文从各种接受域的转换，允许捕获丰富的远程图像上下文信息和丰富的感受野对于上下文推理。为了改善纹理合成，网络通过训练AOT-GAN的鉴别器mask-prediction。这样的训练目标迫使鉴别器区分真实和合成的细节外观补丁，进而促进生成器合成清晰的纹理，网络结构如图10所示。

现有技术中，还存在以下不足：

图像修复模型在对高分辨率图像进行修复时存在细节信息丢失、特征信息利用不充分、无法正确区分待修复图像中的有效像素和对图像关键区域关注度不足等问题，会导致修复后的图像出现结构不清晰、纹理不统一、失真等现象；

现有研究在修复面积较大、结构不规则的缺失区域时仍存在生成图像精度缺失或纹理细粒度模糊的问题，这主要是由于图像的上下文信息没有得到充分的利用，没有结合深浅层的特征如语义信息特征和空间信息特征。导致从局部特征到整体一致性的连接不足。

发明内容

本发明提出一种基于特征融合及复用的人脸图像修复方法，采用跳跃连接方式构建编码器解码器结构，通过改进聚合上下文转换模块以增强对图像的上下文推理和特征增强，构建特征复用模块以充分利用图像结构纹理的细节特征，使修复结果更佳。

一种基于特征融合及复用的人脸图像修复方法，包括以下步骤：

步骤S1：对输入图像进行预处理得到待修复的残缺人脸图像；

步骤S2：建立基于特征融合及复用的人脸图像修复模型，将S1中的破损边缘图像输入到图像修复模型中进行训练；

所述基于特征融合及复用的人脸图像修复模型包括一个生成器和一个判别器，所述生成器包括编码器-解码器特征融合模块和特征复用模块，在编码器-解码器特征融合模块中利用跳跃链接的方式将卷积层连接起来；

利用激活函数GELU和通道注意力模块CA组合形成上下文聚合转换模块EAOT-Block，并将上下文聚合转换模块EAOT-Block以特征复用的方式进行构建，部署在特征复用模块中的编解码结构中间；

步骤S3:通过多次迭代训练，直到网络最终收敛，得到人脸图像修复权重模型；

步骤S4：将破损的人脸图像输入到训练好的人脸图像修复模型中，得到修复好的人脸图像。

优选的，步骤S2中，所述利用跳跃链接的方式将卷积层连接起来的具体方法为：

将第一层卷积将得到的特征信息传递给下一层卷积的同时也将相同的特征信息传递给解码结构的最后一层，同理，第二层卷积得到的特征信息在传递给下一层卷积的同时也传递给解码结构的倒数第二层。

优选的，步骤S2中，所述上下文聚合转换模块EAOT-Block包括以下步骤：

(i)拆分：对输入的通道中的特征图x₁利用4个3×3门控卷积降维成4个64通道的子特征图；

(ii)转换：每个门控卷积的卷积核具有不同的空洞率，通过不同的空洞率来获取不同的图像区域信息，通过添加激活函数GELU和通道注意力模块CA增强特征信息；

(iii)聚合：将来自不同感受野的上下文转换特征最终通过通道维度拼接和标准卷积进行聚合，得到融合特征x₂；对特征图x₁使用3×3标准卷积和Sigmoid操作形成门限g，然后将转换后的融合特征与原始特征进行门控加权得到最终的输出特征。

优选的，(iii)中的加权计算公式为：

x₁×g+x₂×(1-g)；

式中，g为门限，x₁为特征图，x₂为融合特征。

优选的，步骤S2中，所述上下文聚合转换模块EAOT-Block以特征复用的方式进行构建是方法为：每个卷积层将前面所有卷积层作为其额外的输入，以此实现所有的卷积层互相连接，从而实现特征复用。

优选的，步骤S2中，所述判别器将生成器生成的图像与原始图像进行对比，利用软标签的方式反馈给生成器并给予权重，防止判别器将生成部分完全判定为虚假；在缺失区域的边界周围，鉴别器使用一个软补丁级掩模进行训练，判别器的对抗性损失为：

生成器的对抗性损失记为：

其中，

式中，σ为降采样和高斯滤波的组合函数，m为二进制内绘制掩模，为像素级乘法，D为鉴别器，G为生成器，L为损失值，x为真实图像，E为期望值。

优选的，步骤S3中，所述人脸图像修复权重模型为：

其中，

L_sty＝E_i[‖φ_i(x)^Tφ_i(x)-φ_i(z)^Tφ(z)‖₁；

式中，G为生成器，λ_adv为生成器权重，λ_rec为L₁损失权重，λ_per为感知损失权重，λ_sty为样式损失权重，L_rec为L₁损失，L_per为感知损失，L_sty为样式损失，D为鉴别器，M为掩码图，L为损失值，其中‖‖₁为L₁范数，φ_i为Vgg19第i个池化层的激活图，φ_i()-φ_i ^T()φ_i()为激活图φ_i的Gram矩阵，N_i为φ_i中元素的数量。

本发明的有益效果：

(1)本发明将深层特征和浅层特征进行融合，有助于网络提取用不同尺度的特征信息，将不同层的特征信息融合后进行解码能够兼顾高层网络的语义表征能力和底层网络几何细节表征能力两方面的优势，从而提高生成图像的整体纹理和细节精度。

(2)本发明的上下文聚合转换模块EAOT-Block，用以捕捉远距离上下文信息，采用CA注意力机制增强网络的侧重从通道角度增强修复的精度，用Gelu激活函数防止梯度消失，使训练更加高效能快速收敛。

(3)本发明采用特征复用的方式构建EAOT-Block的连接模块，相比于现有技术中的Resnet的连接方式减少了参数数量，同时增强了特征的重用，有利于保留特征信息，使网络更容易训练的同时解决特征信息利用不充分的问题。

附图说明

图1为本发明的流程示意图；

图2为本发明的网络结构图；

图3为本发明生成器中的聚合上下文特征增强模块EAOT-Block结构图；

图4为本发明EAOT-Block结构具体连接结构图；

图5为本发明特征复用模块结构图；

图6为本发明生成器结构图；

图7为本发明生成器具体连接结构图；

图8为本发明与其他方法的定性比较效果示意图；

图9为本发明连接方式示意图；

图10为AOT-GAN网络结构示意图；

图11为AOT-GAN判别器判别策略示意图。

具体实施方式

为使本申请的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本申请作进一步详细说明。

如图1-图9所示，一种基于特征融合及复用的人脸图像修复方法，包括以下步骤：

对输入图像进行预处理得到待修复的残缺人脸图像。首先调整图像尺寸大小，通过中心裁剪和填充的方式调整为512×512大小，然后从NVIDIA提供的不规则掩码数据集中获取二值化掩码对图像进行破损化处理，得到残缺人脸图像，将该破损图像进行灰度化处理得到破损灰度图，最后将破损灰度图通过Canny边缘检查测算法提取人脸轮廓信息得到破损边缘图。

基于特征融合及复用的人脸图像修复模型如图2所示，该模型基于生成对抗网络结构，由一个生成器和一个判别器组成，其中生成器包括编码器-解码器特征融合模块，特征复用模块两个部分组成。

编码器-解码器采用标准卷积，编码阶段编码器对接收的破损图像进行特征编码。由于越到高层网络的感受野相对越大，语义信息表征能力强，但是特征图的分辨率低，几何信息的表征能力弱(空间几何特征细节缺乏)；而低层网络的感受野比较小，几何细节信息表征能力强，虽然分辨率高，但是语义信息表征能力弱。

本发明利用跳跃链接的方式将卷积层连接起来，如图6-图7所示，编码结构由三个通道数依次递增的卷积构成，用以提取特征，解码器由三个通道数以此递减的卷积结构组成，用以生成图像，第一层卷积将得到的特征信息传递给下一层卷积的同时也将相同的特征信息传递给解码结构的最后一层，同理，第二层的卷积得到的特征信息在传递给下一层卷积的同时也传递给解码结构的倒数第二层。

如图3所示，利用激活函数GELU和通道注意力模块CA组合形成上下文聚合转换模块EAOT-Block，以此在上下文聚合的过程中对得到的特征信息加以权重，使图像的位置信息更容易保留，使网络同时考虑通道维度和空间维度上的注意力，并且可以通过学习自适应的通道权重，从而更加关注有用的特征信息。

所述上下文聚合转换模块EAOT-Block采用拆分、转换、聚合的方式：

其中GELU(gaussian error linear units)为高斯误差线性单元，是一种高性能的神经网络激活函数，因为GELU的非线性变化是一种符合预期的随机正则变换方式，其优势有两点：

1、GELU函数的导数是连续的，使得在训练深度神经网络时可以更容易地传播梯度，避免了ReLU函数在特殊情况下导数不连续的问题，从而减少了训练过程中出现的梯度消失问题，具有更光滑的导数。

2、GELU函数在激活函数的非线性变换中引入了类似于sigmoid函数的变换，这使得GELU函数的输出可以落在一个更广的范围内，有助于加速模型的收敛速度，可以加速收敛。

如图4-图5所示，将4个增强的上下文聚合转换模块EAOT-Block以特征复用的方式进行构建，部署在编解码结构中间(特征复用模块)，通过特征在channel上的连接实现特征复用(feature reuse)；每个层都会接受其前面所有层作为其额外的输入，互相连接所有的层；即，第一个EAOT-Block模块输出地特征信息不仅传给下一个EAOT-Block模块，还会传递给所有的EAOT-block模块。

如图9所示，所述上下文聚合转换模块EAOT-Block中，每个层都会与前面所有层在channel维度上连接(concat)在一起并作为下一层的输入。而且DenseNet是直接concat来自不同层的特征图，这可以实现特征复用，提升效率，能使多层间的特征得到利用增加修复精度。因为上下文聚合转换模块EAOT-Block的输入输出特征图大小是相同的，很适合这样的特征复用的连接方式，优势有两点：

1、DenseNet利用密集连接方式提升了梯度的反向传播，使得网络更容易训练；

2、由于DenseNet是通过concat特征来实现短路连接，实现了特征重用，并且采用较小的growth rate，每个层所独有的特征图比较小，参数更小且计算更高效，这有点违反直觉；

其中每层之间有BN(batch norm)+gelu+1×1卷积的结构，BN是一种Batch Norm是一种神经网络层，作为线性或卷积的一部分添加，有助于在训练期间稳定网络；采用1×1的conv的原因是可以降低特征数量，从而提高计算效率。

所述判别器会将生成器生成的图像与原始图像进行对比，利用一种软标签的方式反馈给生成器，防止判别器将生成部分完全判定为虚假的，而是给予权重。这样的判别模式能够更好的提升训练效果，进而促进生成器来合成更细粒度的真实纹理。如图11所示(已知像素值为0，缺失区域值为1)，因此判别器运算模式可以表示为：

在缺失区域的边界周围，鉴别器使用一个软补丁级掩模进行训练。通过高斯滤波得到了该软掩模。该鉴别器的对抗性损失为：

生成器的对抗性损失记为：

其中，

步骤S3:通过六十万次迭代训练，直到网络最终收敛，得到人脸图像修复权重模型；

本发明数据集为CelebaHQ，包括27000张训练图像和3000张测试图像。整个模型用PyTorch实现，实验设备为NVIDIA V100。训练模型时，设定批量大小为4，使用1×10^-4的学习率进行初始训练，根据实验微调至2×10^-5。

损失函数：在生成图像中选择优化目标的目的是保证像素重建精度和识别器真实绘制图像的视觉保真度。为此，仔细选择了四个优化目标，即L1损失，样式损失，感知损失，以及SM-PatchAOT，对AOT-GAN的对抗性损失，遵循大多数现有的深度图像修复模型。首先L1损失，用以确保像素级的重建精度：

感知损失的目的是最小化内插图和真实图像的激活地图之间的L1距离：

样式损失被定义为已绘制图像的深度特征的克兰氏矩阵与真实图像之间的L1距离：

L_sty＝E_i‖φ_i(x)^Tφ_i(x)-φ_i(z)^Tφ(z)‖₁；

最后，包括了在等式中描述的SM-PatchGAN的对抗性损失.提高了内画图像的视觉保真度。整个AOT-GAN通过这四个目标的联合优化进行训练，得出的总体优化目标如下：

式中，G为生成器，λ_adv＝0.01，λ_rec＝1，λ_per＝0.1，λ_sty＝250，L_rec为L₁损失，L_per为感知损失，L_sty为样式损失，D为鉴别器，M为掩码图，L为损失值，其中‖.‖₁为L₁范数，φ_i为Vgg19第i个池化层的激活图，φ_i()-φ_i ^T()φ_i()为激活图φ_i的Gram矩阵，N_i为φ_i中元素的数量。

步骤S4：将破损的人脸图像输入到训练好的人脸图像修复模型中，得到修复好的人脸图像。使用CelebaHQ数据集的测试集，在不同的掩码区域比例条件下，将算法与和EdgeConnect、HiFill、AOT-GAN算法进行比较。

定量分析如下：本发明基于CelebaHQ数据集进行验证，其中掩码采用了0％到40％的不同比例的破损图像表示破损区域的大小(NVIDIA提供的公共掩码数据集)，并对生成的结果用三个评价指标进行比较，评价指标为PSNR、SSIM和MAE，如表1所示：(↑表示值越大越好，↓表示值越小越好，加粗表示最优结果)

表1CelebA-HQ数据集实验结果的客观评价指标对比

本发明相较于其他方法在三个指标上都取得了最优结果。其中SSIM值越接近1越好，PSNR越大越好，MAE接近0越好。

如图8所示，a列为人脸图像原图，b列为待修复的破损人脸图像，后续列分别表示各对比模型的修复结果，其中EdgeConnect在对高分辨率人脸图像的修复中对面部结构的修复会出现扭曲，严重失真的现象。而HiFill产生了过度平滑的图像内容，在高分辨率情况下，存在面部颜色不一致、纹理模糊等问题。AOT-GAN同样存在纹理模糊结构扭曲，颜色不统一等问题。本发明的修复人脸结构和纹理更加一致，颜色更加统一，在高分辨的人脸图像修复中效果更好。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于特征融合及复用的人脸图像修复方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于特征融合及复用的人脸图像修复方法，其特征在于，步骤S2中，所述利用跳跃链接的方式将卷积层连接起来的具体方法为：

3.根据权利要求1所述的一种基于特征融合及复用的人脸图像修复方法，其特征在于，步骤S2中，所述上下文聚合转换模块EAOT-Block包括以下步骤：

4.根据权利要求1所述的一种基于特征融合及复用的人脸图像修复方法，其特征在于，(iii)中的加权计算公式为：

x₁×g+x₂×(1-g)；

式中，g为门限，x₁为特征图，x₂为融合特征。

5.根据权利要求1所述的一种基于特征融合及复用的人脸图像修复方法，其特征在于，步骤S2中，所述上下文聚合转换模块EAOT-Block以特征复用的方式进行构建是方法为：每个卷积层将前面所有卷积层的输出作为其额外输入，以此实现所有的卷积层互相连接，从而实现特征复用。

6.根据权利要求1所述的一种基于特征融合及复用的人脸图像修复方法，其特征在于，步骤S2中，所述判别器将生成器生成的图像与原始图像进行对比，利用软标签的方式反馈给生成器并给予权重，防止判别器将生成部分完全判定为虚假；在缺失区域的边界周围，鉴别器使用一个软补丁级掩模进行训练，判别器的对抗性损失为：

生成器的对抗性损失记为：

其中，

7.根据权利要求1所述的一种基于特征融合及复用的人脸图像修复方法，其特征在于，步骤S3中，所述人脸图像修复权重模型为：

其中，

L_sty＝E_i[||φ_i(x)^Tφ_i(x)-φ_i(z)^Tφ(z)||₁；

式中，G为生成器，λ_adv为生成器权重，λ_rec为L₁损失权重，λ_per为感知损失权重，λ_sty为样式损失权重，L_rec为L₁损失，L_per为感知损失，L_sty为样式损失，D为鉴别器，M为掩码图，L为损失值，其中|| ||₁为L₁范数，φ_i为Vgg19第i个池化层的激活图，φ_i()-φ_i ^T()φ_i()为激活图φ_i的Gram矩阵，N_i为φ_i中元素的数量。