CN113112411B

CN113112411B - 基于多尺度特征融合的人脸图像语义修复方法

Info

Publication number: CN113112411B
Application number: CN202010030365.4A
Authority: CN
Inventors: 张贺舒; 李涛; 宋公飞
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2023-11-24
Anticipated expiration: 2040-01-13
Also published as: CN113112411A

Abstract

本发明公开了一种基于多尺度特征融合的人脸图像语义修复方法，包括步骤如下：S1收集待处理的人脸图像组成训练集，对训练集人脸图像进行预处理尺寸裁剪，得到待训练人脸图像集；S2构建生成对抗网络模型，使用预训练模型的参数作为网络的初始化参数；S3将待训练缺失人脸图像集输入到生成网络G中，通过判别网络D判断生成网络修复人脸图像的真假；S4将判别结果反作用于生成网络，进行对抗训练，优化生成网络和判别网络的网络参数，当损失函数收敛时结束训练，并保存训练完成时的模型参数；S5将待修复的人脸图像输入到训练好的生成网络模型中，完成人脸图像修复。本发明能够降低网络初始化参数给网络训练带来的不利影响，使得网络训练稳定。

Description

基于多尺度特征融合的人脸图像语义修复方法

技术领域

本发明涉及深度学习和图像处理，尤其涉及一种基于多尺度特征融合的人脸图像语义修复方法。

背景技术

随着互联网技术和摄像设备使用的普及，人们惯于用图像和视频来记录生活，但图像在形成、记录、处理和传输过程中，由于成像系统、记录设备、传输介质和处理方法的不完善，会导致图像质量的下降，这样的图像退化非常普遍。图像缺失是人物图像在发生图像退化时最影响图像使用的退化方向之一。数字图像修复属于计算机视觉和图形学交叉研究方向，其修复过程是利用图像未缺失部分的信息，按照一定的修复规则对图像缺失部分进行修补填充，使得修复后的图像完整自然。图像修复技术已被应用于文物保护、影视特技制作、虚拟现实和老照片修复等众多领域。目前已有的图像修复算法仍然存在视觉效果和算法效率方面的不足。

近年来，图像修复领域涌现了很多成果。2000年Bertalmio提出BSCB算法，通过引入偏微分方程对待修复图像缺失部分边缘区域提取信息，沿着幅线方向由外至内进行扩散对缺失区域进行修补，该方法对受损区域颜色单一、纹理简单的缺失图像具有较好的修复效果，不适用于大片区域图像块丢失的情况。2003年Chan提出基于全变分模型的数字图像修复模型，该方法较大不足在于对较大缺失图像进行修复时，修复边缘连续性较差。2014年lan Goodfellow创造性地提出了基于深度学习的生成对抗网络(Generative AdversarialNetwork,GAN)，目前GAN已经成为首选和最前沿的生成模型之一。2016年Pathak D等人利用对抗联合重建损失训练自编码模型，实现图像修复，但视觉效果较差。2018年Jiahui Yu在生成对抗网络模型中结合上下文注意力机制实现了图像修复达到了较好的效果，但在视觉效果方面仍有提升空间。

发明内容

发明目的：针对现有技术在实现人脸图像修复结果细节效果模糊，视觉感知较差的问题以及使用生成对抗网络进行模型训练时对于较大输入图片或较多像素会导致模式崩溃使得整个模型不可控的问题，提供一种基于多尺度特征融合的人脸图像语义修复方法。

技术方案：本发明提供一种基于多尺度特征融合的人脸图像语义修复方法，包括如下步骤：

(1)收集待处理的人脸图像组成训练集，对训练集人脸图像进行预处理尺寸裁剪，得到待训练人脸图像集；

(2)构建生成对抗网络模型，使用预训练模型的参数作为网络的初始化参数；

(3)将待训练缺失人脸图像集输入到生成网络G中，通过判别网络D判断生成网络修复人脸图像；

(4)将判别结果反作用于生成网络，进行对抗训练，优化生成网络和判别网络的网络参数，当损失函数收敛时结束训练，并保存训练完成时的模型参数；

(5)将待修复的人脸图像输入到训练好的生成网络模型中，完成人脸图像修复。

进一步地，所述步骤(1)还包括：

(1.1)将训练集人脸图像x裁剪为设定尺寸大小n*n的人脸图像x′，n为整数；

(1.2)对待训练人脸图像x'添加随机尺寸的掩膜得到待训练缺失人脸图像集，具体包括：对待训练人脸图像随机添加掩膜，得到缺失部分尺寸不一的待训练缺失人脸图像集；掩膜M中遮挡部分值为0，不遮挡部分值为1，则待训练缺失人脸图像可表示为x″＝M*x′。

进一步地，步骤(2)所述生成对抗网络由生成网络G和判别网络D两个深度卷积神经网络组成，生成网络G还包括：

(2.1)生成网络G由卷积层、六组卷积下采样单元、抑制增强单元、四组空洞卷积单元、四组卷积层、六组卷积上采样单元、两组卷积层连接组成；

(2.1.1)卷积下采样单元由三组1*1卷积、3*3卷积连接组成，第一组3*3卷积输出和卷积下采样单元的输入进行concatenate连接实现特征融合，第一组卷积下采样单元中输入和第二组1*1卷积输出进行跳跃连接，第二至六组卷积下采样单元中第二组3*3卷积输出和上一组卷积下采样单元中第二组3*3卷积输出进行跳跃连接。抑制增强单元由全局池化、全连接层、ReLU()激活函数、全连接层、Sigmoid()激活函数连接组成的输出和抑制增强单元输入concatenate连接组成；

(2.1.2)空洞卷积模块由1*1卷积和空洞卷积连接组成，空洞卷积采取的扩张率分别为2、4、8、16；

(2.1.3)卷积上采样单元由1*1卷积、反卷积、自注意力特征模块、1*1卷积、3*3卷积连接组成，卷积上采样单元输入由上一卷积输出和对应卷积下采样单元中第二组3*3卷积输出进行concatenate连接得到，自注意力特征单元由对应下采样卷积单元第二组3*3卷积输出进行1*1卷积后得到的特征图与自注意力特征单元的输入进行1*1卷积得到的特征图进行跳跃连接得到的输出和ReLU()激活函数、1*1卷积、Sigmoid()激活函数连接得到的输出与自注意力特征单元输入相乘结果作为自注意力特征单元的输出；

(2.1.4)卷积层后使用批归一化和激活函数ReLU()，最后一层卷积层后使用Sigmoid()激活函数；

(2.2)判别网络D由全局判别网络D1和局部判别网络D2共同组成，全局判别网络D1判断生成网络修复后的完整人脸图像是否为真，局部判别网络D2判断生成网络G修复的缺失图像块是否为真实的图像块，分别由五组卷积层、Flatten()、全连接层连接组成，卷积层后使用批归一化和激活函数ReLU()；

(2.3)使用预训练模型的参数具体包括：对生成对抗网络进行预训练：随机初始化生成对抗网络的模型参数，对生成对抗网络进行训练并保存每次训练完成时的模型参数，训练一定次数之后，随机选取该批次中的模型参数作为重新训练的初始化参数。

进一步地，步骤(3)具体还包括：

将缺失的待训练人脸图像集输入到生成网络G中，输出得到生成网络修复的人脸图像，将生成结果输入到判别网络中，得到判别结果。

生成网络G通过模拟待训练人脸图像集中的数据分布来生成修复后的人脸图像；判别网络D判断输入到判别网络中的图片是来自真实数据分布p_data或生成网络G生成的分布是否为“真”，并将判别结果反作用于生成网络G。通过不断的迭代优化直到判别网络D无法区分输入数据的真假，判别结果趋近于0.5时，生成对抗网络达到目标；生成对抗网络的目标函数为：

V(D,G)是生成对抗网络待优化的目标函数，x′待训练人脸图像,x″为待训练缺失人脸图像，D(x′)表示判别网络D判定训练人脸图像x′为真的概率；G(x″)表示生成网络输入为x″时生成的修复后的人脸图像；D(G(x″))表示判别网络判断生成网络生成的修复后的人脸图像为真概率。

进一步地，步骤(4)具体还包括：：

(4.1)固定判别网络D参数,将待训练缺失人脸图像集输入到生成网络G中，生成修复后的人脸图像，将l_G作为生成网络的损失函数，使用Adam优化器opt1优化生成网络参数，网络迭代训练a次；

x′为真实人脸图像，x″为缺失人脸图像，h、w、r为图像的长、宽、通道数，G(x″)为生成器重建后的图像。

(4.2)固定生成网络G参数，将缺失人脸图像训练集输入到生成网络G中得到修复后的人脸图像，使用全局判别网络D1判断修复后的完整人脸图像是否为真，使用局部判别网络D2判断修复后的缺失图像块是否为真；将交叉熵损失函数作为判别网络的损失函数l_D，使用Adam优化器opt2优化判别网络参数，网络迭代训练b次；

(4.3)固定生成网络参数，将缺失人脸图像输入到生成网络G中得到修复后的人脸图像，使用交叉熵损失函数作为判别网络的损失函数，使用Adam优化器opt2优化判别网络参数；

(4.4)固定判别网络参数，将缺失人脸图像输入到生成网络G中得到修复后的人脸图像，生成网络的损失函数为l_G，使用Adam优化器opt1优化生成网络参数；

(4.5)重复步骤(4.3)、(4.4)，交替训练判别网络和生成网络，随着训练周期的加长动态调整生成网络和判别网络的学习率，直到损失函数收敛停止训练，得到网络模型参数并保存。

进一步地，步骤(5)还包括：

从步骤(4)中训练得到的网络参数，固定生成网络参数，将有缺失的需要修复的人脸图像输入到生成网络G中，即可生成修复后的人脸图像。

有益效果：本发明与现有技术相比，其显著优点是：(1)利于图像细节的修复；同时使用抑制增强单元来抑制无用的通道，增强有用的通道，抑制和增强通过训练(0,1)之间的权重来完成；(2)可以在不增加参数的前提下获取长范围多层次的依赖交互关系，修复图像时能够协调好每个位置的细节和远端的细节；能够弥补卷积感受野小，在生成缺失图像边缘时获取信息不足的问题，扩大了感受野，提高了人脸图像修复的质量；(3)有效的降低模式崩溃带来的危害，随着训练进程的加深，动态调整生成网络和判别网络的学习率，平衡了生成网络和判别网络的学习能力，提高缺失人脸图像的修复效果。

附图说明

图1本发明的基于多尺度特征融合的人脸图像语义修复算法流程图；

图2本发明的生成对抗网络框架图；

图3本发明的生成网络中下采样卷积单元结构图；

图4本发明的生成网络中抑制增强单元结构图；

图5本发明的生成网络中空洞卷积单元结构图；

图6本发明的生成网络中上采样卷积单元结构图；

图7本发明的生成网络中自注意力特征单元结构图；

图8本发明提供的人脸图像修复算法消融实验中进行人脸图像修复的视觉效果对比图；

图9本发明提供的人脸图像修复算法和其他方法进行人脸图像修复的视觉效果对比图。

具体实施方式：

下面结合实施例和附图对本发明作进一步详细说明，

基于多尺度特征融合的人脸图像语义修复算法，如图1所示，包括以下步骤：

(1)对训练集人脸图像进行预处理尺寸裁剪，得到待训练人脸图像集。对训练人脸图像添加随机尺寸的掩膜得到待训练缺失人脸图像集，具体为：对CelebA训练集人脸图像x中100000张图片进行预处理尺寸裁剪，裁剪为128*128的人脸图像x′，对待训练人脸图像x′随机添加掩膜，得到缺失部分尺寸不一(由96*96到48*48的随机大小矩形尺寸)的待训练缺失人脸图像集。掩膜M中遮挡部分值为0，不遮挡部分值为0，则待训练缺失人脸图像可表示为x″＝M*x′。

(2)构建生成对抗网络模型，使用预训练模型的参数作为网络的初始化参数，将待训练缺失人脸图像集输入到生成网络G中，得到修复后的人脸图像；判别网络D判断输入图像的真假并将判别结果反作用于生成网络，进行对抗训练，优化生成网络和判别网络的网络参数，当损失函数收敛时结束训练，并保存训练完成时的模型参数；

如图2，本实施例中生成对抗网络由生成网络G和判别网络D两个深度卷积神经网络组成：

生成网络G由卷积层、六组卷积下采样单元(图3)、抑制增强单元(图4)、四组空洞卷积单元(图5)、四组卷积层、六组卷积上采样单元(图6)、两组卷积层连接组成。卷积下采样单元具体结构图3所示，由三组1*1卷积、3*3卷积连接组成，第一组3*3卷积输出和卷积下采样单元的输入进行concatenate连接实现特征融合，第一组卷积下采样单元中输入和第二组1*1卷积输出进行跳跃连接，第二至六组卷积下采样模块中第二组3*3卷积输出和上一组卷积下采样单元中第二组3*3卷积输出进行跳跃连接。抑制增强单元具体结构图4所示，，由全局池化、全连接层、ReLU()激活函数、全连接层、Sigmoid()激活函数连接组成的输出和抑制增强模块输入concatenate连接组成。空洞卷积单元具体结构图5所示，由1*1卷积和空洞卷积连接组成，空洞卷积采取的扩张率分别为2、4、8、16。卷积上采样单元具体结构图6所示，由1*1卷积、反卷积、自注意力特征模块、1*1卷积、3*3卷积连接组成，卷积上采样单元输入由上一卷积输出和对应卷积下采样单元中第二组3*3卷积输出进行concatenate连接得到，自注意力特征单元具体结构图6所示，由对应下采样卷积单元第二组3*3卷积输出进行1*1卷积后得到的特征图与自注意力特征模块的输入进行1*1卷积得到的特征图进行跳跃连接得到的输出和ReLU()激活函数、1*1卷积、Sigmoid()激活函数连接得到的输出与自注意力特征模块输入相乘结果作为自注意力特征模块的输出。卷积层后使用批归一化(BatchNorm,BN)和激活函数ReLU()，最后一层卷积层后使用Sigmoid()激活函数。

判别网络D由全局判别网络D1和局部判别网络D2共同组成，全局判别网络D1用于判断生成网络修复后的完整人脸图像是否为真，局部判别网络D2用于判断生成网络G修复的缺失图像块是否为真实的图像块，分别由五组卷积层、Flatten()、全连接层连接组成，卷积层后使用批归一化(BatchNorm,BN)和激活函数ReLU()。

生成网络G通过模拟待训练人脸图像集中的数据分布来生成修复后的人脸图像；判别网络D则是判断输入到判别网络中的图片是来自真实数据分布p_data还是生成网络G生成的分布，并反作用于生成网络G。通过不断的迭代优化直到判别网络D无法区分输入数据的真假，判别结果趋近于0.5时，生成对抗网络达到最优。生成对抗网络的目标函数为：

V(D,G)是整个生成对抗网络待优化的目标函数，x′待训练人脸图像,x″为待训练缺失人脸图像，D(x′)表示判别网络D判定训练人脸图像x′为真的概率；G(x″)表示生成网络输入为x″时生成的修复后的人脸图像；D(G(x″))表示判别网络判断生成网络生成的修复后的人脸图像为真概率。

所述使用预训练模型的参数，具体包括：对生成对抗网络进行预训练：随机初始化生成对抗网络的模型参数，对生成对抗网络进行训练并保存每次训练完成时的模型参数，训练一定次数之后，随机选取该批次中的模型参数作为重新训练的初始化参数。

所述对生成对抗网络进行对抗训练，具体包括：

网络训练分成三步完成，具体训练过程如下：

(2a)固定判别网络D参数,将待训练缺失人脸图像集输入到生成网络G中，生成修复后的人脸图像，将l_G作为生成网络的损失函数，使用Adam优化器opt1优化生成网络参数，网络迭代训练90000次。

x′为真实人脸图像，x″为缺失人脸图像，h、w、r为图像的长、宽、通道数，G(x″)为生成器重建后的图像；

(2b)固定生成网络G参数，将缺失人脸图像训练集输入到生成网络G中得到修复后的人脸图像，使用全局判别网络D1判断修复后的完整人脸图像是否为真，使用局部判别网络D2判断修复后的缺失图像块是否为真。将交叉熵损失函数作为判别网络的损失函数l_D，使用Adam优化器opt2优化判别网络参数，网络迭代训练100000次；

(2c.1)固定生成网络参数，将缺失人脸图像输入到生成网络G中得到修复后的人脸图像，使用交叉熵损失函数作为判别网络的损失函数，使用Adam优化器opt2优化判别网络参数。

(2c.2)固定判别网络参数，将缺失人脸图像输入到生成网络G中得到修复后的人脸图像，生成网络的损失函数为l_G，使用Adam优化器opt1优化生成网络参数。重复步骤(2c.1)、(2c.2)，交替训练判别网络和生成网络，随着训练周期的加长动态调整生成网络和判别网络的学习率，交替训练200000次左右，损失函数收敛并稳定，此时停止训练，得到最优的网络模型参数并保存。

(3)将待修复的人脸图像输入到训练好的生成网络模型中，完成人脸图像修复。

从步骤(2)中训练得到最优的网络参数，固定生成网络参数，将有缺失的需要修复的人脸图像输入到生成网络G中，即可生成修复后的人脸图像。

为了验证本发明的作用效果，进行了三组消融实验，如图8所示，由左至右分别是在本发明方法基础上不使用多尺度特征融合算法(左一)、不结合使用自注意力特征单元(左二)、不使用空洞卷积单元(右二)分别与本发明方法(右一)作比较。本文方法针对有较大缺失区域(14.0625％-56.025％)的人脸图像进行修复，修复后的人脸图像视觉感官更加自然、真实，在修复后的图像块的模糊程度、边缘的不连续性都有很大提升，表1中的质量评估结果也证明了本文中使用的多尺度特征融合、自注意力特征模块和空洞卷积模块在图像修复上的有效性。

为了验证本发明的实际效果，进行了一组对比实验，如图9所示，分别将本发明方法和目前先进的GLCIC方法修复的人脸图像在不同训练程度下((a1、b1)网络迭代90000次；(a2、b2)网络迭代190000次，(a3、b3)网络迭代400000次)进行对比。相比GLCIC修复方法，本发明方法用于图像修复任务，网络收敛速度更快，迭代90000次左右修复后的人脸图像已经具有完整轮廓，且在不同训练程度下本发明方法修复后的人脸图像始终具有更高的质量，更好的视觉体验，如图9和表2可见，无论是在训练速度、评估指标还是在视觉效果上，本发明的效果都是非常好的。

由此可见，本发明提供的基于多尺度特征融合的人脸图像语义修复算法与已有算法相比，训练过程更加稳定，算法精度有明显提高。

表1

表2

Claims

1.一种基于多尺度特征融合的人脸图像语义修复方法，其特征在于,包括如下步骤：

(5)将待修复的人脸图像输入到训练好的生成网络模型中，完成人脸图像修复；

步骤(2)所述生成对抗网络由生成网络G和判别网络D两个深度卷积神经网络组成，生成网络G还包括：

(2.1.1)卷积下采样单元由三组1*1卷积、3*3卷积连接组成，第一组3*3卷积输出和卷积下采样单元的输入进行concatenate连接实现特征融合，第一组卷积下采样单元中输入和第二组1*1卷积输出进行跳跃连接，第二至六组卷积下采样单元中第二组3*3卷积输出和上一组卷积下采样单元中第二组3*3卷积输出进行跳跃连接，抑制增强单元由全局池化、全连接层、ReLU()激活函数、全连接层、Sigmoid()激活函数连接组成的输出和抑制增强单元输入concatenate连接组成；

2.根据权利要求1所述的基于多尺度特征融合的人脸图像语义修复方法，其特征在于，所述步骤(1)还包括：

3.根据权利要求1所述的基于多尺度特征融合的人脸图像语义修复方法，其特征在于，步骤(3)具体还包括：

将缺失的待训练人脸图像集输入到生成网络G中，输出得到生成网络修复的人脸图像，将生成结果输入到判别网络中，得到判别结果；

生成网络G通过模拟待训练人脸图像集中的数据分布来生成修复后的人脸图像；判别网络D判断输入到判别网络中的图片是来自真实数据分布p_data或生成网络G生成的分布，步骤(4)中网络训练时将判别结果反作用于生成网络G；通过不断的迭代优化，当判别结果趋近于0.5时，生成对抗网络达到目标；生成对抗网络的目标函数为：

4.根据权利要求1所述的基于多尺度特征融合的人脸图像语义修复方法，其特征在于，步骤(4)具体还包括：

5.根据权利要求1所述的基于多尺度特征融合的人脸图像语义修复方法，其特征在于，步骤(5)还包括：