CN110689499B

CN110689499B - 一种基于密集扩张卷积自编码对抗网络的人脸图像修复方法

Info

Publication number: CN110689499B
Application number: CN201910926607.5A
Authority: CN
Inventors: 任坤; 范春奇; 黄泷
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2023-04-25
Anticipated expiration: 2039-09-27
Also published as: CN110689499A

Abstract

本发明公开一种基于密集扩张卷积自编码对抗网络的人脸图像修复方法，该方法首先对人脸公开数据进行预处理得到人脸数据集；其次构建密集扩张卷积自编码对抗网络；然后利用重建损失预训练密集扩张卷积自编码生成网络，接着交替进行以下训练步骤：①用对抗损失训练双判别网络；②用联合损失训练经过预训练的生成网络；之后得到训练好的密集扩张卷积自编码生成网络，最后将待修复图像输入到此生成网络中，将生成图像与缺损图像进行融合，得到最终修复图像。本发明解决了语义信息缺失严重和大面积随机区域缺失的人脸图像修复难题。

Description

一种基于密集扩张卷积自编码对抗网络的人脸图像修复方法

技术领域

本发明属于图像处理技术领域，特别涉及了一种基于密集扩张卷积自编码对抗网络的人脸图像修复方法。

背景技术

图像修复是指利用计算机技术自动估计图像破损区域的信息，填充还原图像。图像在采集、传送、储存等过程中，会存在很多原因破坏图像信息的完整性，而人脸图像不仅蕴含着人物身份信息，也蕴含着丰富的人物表情，心理活动等重要信息，在日常生活中有广泛的应用。如何对破损的人脸图像进行有效修复对于人脸识别尤为重要。

现有图像修复方法可分为学习型和非学习型两大类。非学习型修复方法对小区域破损和简单纹理缺失能取得很好的修复效果，但对语义信息缺失严重的情况无能为力。学习型修复方法通过学习大量图像数据，学习数据的先验和概率分布，可以对语义信息缺失的图像进行修复，但当语义信息缺失严重或存在大面积的随机缺失时，修复图像往往存在模糊、伪影和视觉相似度差等问题。

针对语义信息的修复问题，本发明提出一种基于密集扩张卷积自编码对抗网络的人脸图像修复方法。为了充分挖掘图像完好区域的语义信息，我们将扩张卷积和密集卷积块相结合，设计了密集扩张卷积衔接层；为了使生成图像更加清晰，增强语义信息的重构能力，我们采用了全局和局部判别网络；为了增强修复效果，降低训练难度，我们提出一种首先预训练生成网络，再结合全局和局部判别网络交替训练生成网络和判别网络的训练方法。

发明内容

为了解决上述背景提出的技术问题，本发明提出一种基于密集扩张卷积自编码对抗网络的人脸图像修复方法，将密集卷积块和扩张卷积引入自编码生成网络，在预训练自编码生成网络的基础上，结合全局和局部判别网络，交替训练判别网络和生成网络，显著提高了对人脸图像语义信息的获取和重构能力，解决了语义信息缺失严重的人脸图像修复难的问题。

为了实现上述目的，本发明采用以下技术方案：

(1)对人脸公开数据进行预处理，得到以人脸关键结构为中心的128*128人脸数据集；

(2)构建密集扩张卷积自编码对抗网络，其由两部分组成：密集扩张卷积自编码生成网络，全局和局部判别网络；

(3)利用重建损失单独预训练密集扩张卷积自编码生成网络。

(4)交替训练自编码对抗网络，具体方法为：

①先利用对抗损失优化判别网络。

②再联合重建损失、对抗损失、TV损失优化生成网络。

(5)将缺损图像输入到训练好的自编码生成网络中，得到生成图像，用其与缺损图像合成，得到修复图像。

进一步地，步骤(1)具体过程如下：

对人脸公开数据集进行人脸识别，提取脸部关键信息，剪裁得到剔除背景的人脸图像，将图像尺寸缩放至128*128，得到人脸数据集。

进一步地，步骤(2)中密集扩张卷积自编码对抗网络包含生成网络和判别网络两方面：

(a1)生成网络：卷积自编码生成网络可分为三个部分，编码层、衔接层、解码层。

(a2)编码层：编码层对输入图像进行图像压缩及初步特征提取，网络层级越多其特征的获取能力越强，训练难度也越大，然而编码区只对图像进行初步处理，层级太多反而增加训练难度，因此我们选取三层卷积网络做编码层。卷积核越大卷积的感受域越大，对计算机的性能要求越高，出于兼顾图像修复效果与计算机性能，我们设计第一层卷积采用卷积核为5、步幅为1的卷积对图像特征进行初步提取，二、三层卷积采用卷积核为3、步幅为2的卷积对图像进行压缩感知。其激活函数采用行业内通用的Relu激活函数。

(a3)衔接层：衔接层是获取语义信息的关键。密集卷积块可以对不同层级特征进行融合，扩张卷积可以对远距离的特征进行融合，我们将扩张卷积和密集卷积块相结合，并叠加多个密集扩张卷积块，来充分获取语义信息。衔接层的输入端和输出端各是一个卷积核为3、步幅为1的普通卷积，中间是相叠加的密集卷积块。其中，

表示一个密集卷积块，1×1卷积是普通卷积，用来融合不同通道的特征和数据降维，3×3卷积是扩张率为4的扩张卷积，n个这样的卷积组合相叠加构成一个密集扩张卷积。(例如

代表3个1×1的普通卷积和3个扩张率为4的3×3卷积相交替的密集卷积块。)衔接层由四个密集卷积块组成，其n值分别为3,6,6,3；激活函数采用Relu。

(a4)解码层：解码层是语义信息重构的关键，由反卷积和卷积组成。反卷积可以实现图像上采样，然而反卷积后的图像往往伴有严重的棋盘效应，因此我们在反卷积后接一层卷积核为3的普通卷积优化生成图像。

(b1)判别网络：包括全局判别网络和局部判别网络。

(b2)全局判别网络：深层卷积网络可以获取图像高级语义信息，在此基础上对图像进行真伪判别，可以得到更加符合人类视觉感知的修复结果；同时，网络层级太深也会降低训练稳定性。综合考虑，我们用五层卷积和一层全连接层构成全局判别网络，卷积激活函数为Relu，全连接激活函数为sigmoid。

(b3)局部判别网络：局部判别网络仅对图像缺失区域进行判别，其输入的局部图像尺寸为64*64，出于和全局判别网络同样的考虑，我们用四层卷积和一层全连接层构成局部判别网络，卷积激活函数为Relu，全连接激活函数为sigmoid。

(c)特别注意的是，上述参数具有通用性，中间衔接层密集扩张卷积块的结构具有充分挖掘人脸图像语义信息的独创性。

进一步地，步骤(3)中预训练具体流程如下：

(A)从训练集中随机抽取人脸图像，随机生成掩码,并逐一在随机位置利用掩码模拟缺失图像。

(B)以模拟缺失图像作为生成网络的输入，结合生成网络的输出，利用重建损失优化生成网络参数。我们将重建损失分为保留区和缺失区两部分，因为图像修复是针对缺失区，所以我们赋予其更大的权重，权重值在实验中调试确定，具体如下：

L_rec＝L_rec1+L_rec2

L_rec1＝||(x-G(Me x))e M||₂

L_rec2＝6||(x-G(Me x))e(1-M)||₂

其中，x代表原始图像；M是二进制掩码，值为1的部分代表保留区域，值为0的部分代表缺损部分；e代表对应元素相乘；M⊙x模拟图像破损情况；G代表生成网络，G(M⊙x)表示将破损图像输入到生成网络得到生成图像；L_rec代表重建损失，L_rec1代表保留区域重建损失，其权重为1；L_rec2代表缺失区域重建损失，其权重为6；||g||₂代表L2范数。

(C)重复步骤(A)(B)，迭代训练数据集10次。

进一步地，步骤(4)中交替训练具体流程如下：

(i)从训练集中随机抽取人脸图像，随机生成掩码,并逐一在随机位置利用掩码模拟缺失图像。

(ii)以原图像和生成图像作为全局判别网络的输入，利用全局对抗损失优化全局判别网络：

其中D_global表示全局判别网络。D_global(x)和D_global(G(M⊙x))分别表示真实图像和生成图像为真的概率值。

利用局部对抗损失优化局部判别网络：

其中D_local表示局部判别网络，D_local(x_local)和D_local(G(M⊙x)_local)分别表示真实图像和生成图像局部为真的概率值。

(iii)重复步骤(i)(ii)五次。

(iv)联合重建损失、全局和局部对抗损失、TV损失优化自编码生成网络一次。TV损失为：

其中，i和j表示像素点的位置，M⊙x模拟图像破损情况；G(M⊙x)_i，j表示生成图像坐标为(i,j)点的像素值，||g||₁表示L1范数。

联合损失为：

其中，λ₁、λ₂、λ₃、λ₄、λ₅分别为1、6、0.05、0.05、le-6。

(V)重复步骤(i)～(iv)，迭代训练数据集，得到训练好的密集扩张卷积自编码对抗网络。

进一步地，步骤(5)合成修复图像的公式如下：

y＝(1-M)e G(Me x)+Me x

其中，G(M⊙x)表示将破损图像输入到生成网络得到生成图像，M⊙x表示提取缺损图像的完好区域，(1-M)⊙G(M⊙x)表示提取生成图像的待融合区域，y表示得到的修复图像。

采用上述技术方案带来的有益效果：

本发明提出一种基于密集扩张卷积自编码对抗网络的人脸图像修复方法，解决语义信息缺失严重时，修复图像存在模糊、伪影和视觉相似度差等问题；将密集卷积块和扩张卷积引入自编器，其中密集卷积块用于对不同层级特征的融合，而扩张卷积用于对远距离特征的融合，从而增加了特征的表征力与鲁棒性，提高了修复区域在语义和纹理上与周围邻域的一致性；利用全局和局部两个判别网络将全局和局部两个对抗损失，联合重建损失和TV损失共同用于训练生成网络，提高了自编码生成网络的语义信息重构能力。在预训练生成网络的基础上，交替训练判别网络和生成网络，在减少训练时间的同时，提高了网络训练的稳定性。本发明适用于大面积随机区域缺失的人脸图像修复。

附图说明

图1基于密集扩张卷积自编码对抗网络的人脸图像修复方法流程示意图；

图2基于密集扩张卷积自编码对抗网络的人脸图像修复示意图；

图3密集扩张卷积示意图；

具体实施方式

为了使本发明方法的目的，技术方案以及优点更加清楚明白，以下结合附图及实例解释本发明，并不用于限定本发明：

如附图1所示，基于密集扩张卷积自编码对抗网络的人脸图像修复方法包括以下步骤：

步骤1、对人脸公开数据集进行人脸识别，提取脸部关键信息，剪裁得到剔除背景的人脸图像，将其尺寸缩放至128*128，得到人脸数据集。

步骤2、构建密集扩张卷积自编码对抗网络，网络如图2所示，包含生成网络和判别网络两部分。

(1)生成网络包括编码层、衔接层、解码层；生成网络具体结构和参数如表1所示：

表1含密集扩张卷积衔接层的编解码结构的生成网络

(a)编码层由一层卷积核为5、步幅为1的卷积，和两层卷积核为3、步幅为2的卷积构成，激活函数为Relu。

(b)衔接层的输入端和输出端各是一个卷积核为3、步幅为1的普通卷积，中间是4块相叠加的密集扩张卷积块，密集扩张卷积如图3所示，每个卷积块的构成为

，其中1×1卷积是普通卷积，3×3卷积是扩张率为4的扩张卷积，四个卷积块的n值分别为3、6、6、3，激活函数为Relu。

(c)解码层由两层卷积核为4、步幅为2的反卷积和一层卷积核为3、步幅为1的卷积构成，激活函数为Relu。

(2)全局判别网络和局部判别网络，其结构和参数如表2、表3所示：

表2全局判别网络体系结构

表3局部判别网络体系结构

(a)全局判别网络由五层卷积和一层全连接层构成，卷积核皆为5，步幅皆为2，激活函数为Relu，全连接层激活函数为sigmoid。

(b)局部判别网络由四层卷积和一层全连接层构成，卷积核皆为5，步幅皆为2，激活函数为Relu，全连接层激活函数为sigmoid。

网络中所有激活函数均为relu激活函数。

步骤3、预训练生成网络:

(A)从训练集中随机抽取64个人脸图像，在25和55之间随机的取值，设置掩码的长和宽,并逐一在随机位置利用掩码模拟缺失图像。

(B)以模拟缺失图像作为生成网络的输入，结合生成网络的输出，利用重建损失优化生成网络参数：

L_rec＝L_rec1+L_rec2

L_rec1＝||(x-G(Me x))e M||₂

L_rec2＝6||(x-G(Me x))e(1-M)||₂

其中，L_rec代表重建损失，L_rec1代表完好区域的L_rec2像，G代表生成网络，M是二进制掩码，值为1的部分代表保留区域，值为0的部分代表缺损部分，e代表对应元素相乘，||g||₂代表L2范数。

(C)重复步骤(A)(B)，迭代训练数据集10次以上。

步骤4、交替训练判别网络和生成网络：

(i)从训练集中随机抽取64个人脸图像，在25和55之间随机的取值，设置掩码的长和宽,并逐一在随机位置利用掩码模拟缺失图像。

其中D_global表示全局判别网络。以原图像的缺失区域和生成图像的缺失区域作为局部判别网络的输入，利用局部对抗损失优化局部判别网络：

其中D_local表示局部判别网络，x_local表示缺失区域的局部图像，对应二值掩码M中值为0的区域，并将其尺寸缩放为64*64。

(iii)重复步骤(i)(ii)五次；

其中，i和j表示像素点的位置。

联合损失为：

其中，λ₁、λ₂、λ₃、λ₄、λ₅为1、6、0.05、0.05、le-6。

(V)重复步骤(i)～(iv)，迭代训练集10次；完成训练得到密集扩张卷积自编码对抗网络。

步骤5、将缺损图像(M⊙x)输入到训练好的自编码生成网络G中，得到生成图像

用其与缺损图像融合，得到修复图像y；

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于密集扩张卷积自编码对抗网络的人脸图像修复方法，其特征在于，包括以下步骤：

(1)对人脸公开数据集进行预处理，得128*128人脸数据集；

(2)构建密集扩张卷积自编码对抗网络，其由两部分组成：密集扩张卷积自编码生成网络，全局和局部判别网络；具体如下：

(a1)生成网络：密集扩张卷积自编码生成网络分为三个部分，编码层、衔接层、解码层；

(a2)编码层：编码层由一层卷积核为5、步幅为1的卷积，和两层卷积核为3、步幅为2的卷积构成，激活函数为Relu；

(a3)衔接层：输入端和输出端各是一个卷积核为3、步幅为1的普通卷积，中间是4块相叠加的密集扩张卷积块，每个卷积块的构成为

其中1×1卷积是普通卷积，3×3卷积是扩张率为4的扩张卷积，四个卷积块的n值分别为3、6、6、3，激活函数为Relu；

(a4)解码层：解码层由两层卷积核为4、步幅为2的反卷积和一层卷积核为3、步幅为1的卷积构成，激活函数为Relu；

(b1)判别网络：包括全局判别网络和局部判别网络；

(b2)全局判别网络：全局判别网络由五层卷积和一层全连接层构成，卷积核皆为5，步幅皆为2，激活函数为Relu，全连接层激活函数为sigmoid；

(b3)局部判别网络：局部判别网络由四层卷积和一层全连接层构成，卷积核皆为5，步幅皆为2，激活函数为Relu，全连接层激活函数为sigmoid；

(3)利用重建损失单独预训练密集扩张卷积自编码生成网络；

(4)交替训练自编码对抗网络，具体方法为：

①先利用对抗损失优化判别网络；

②再联合重建损失、对抗损失、TV损失优化生成网络；

(5)利用生成图像和缺损图像合成修复图像。

2.如权利要求1所述的基于密集扩张卷积自编码对抗网络的人脸图像修复方法，其特征在于，步骤(1)的具体过程如下：

对人脸数据进行预处理，包括人脸剪裁和尺寸缩放，得到人脸数据集。

3.如权利要求1所述的基于密集扩张卷积自编码对抗网络的人脸图像修复方法，其特征在于，步骤(3)中预训练具体流程如下：

(A)从训练集中随机抽取人脸图像，随机生成掩码，并逐一在随机位置利用掩码模拟缺失图像；

(B)以模拟缺失图像作为生成网络的输入，结合生成网络的输出，利用重建损失优化生成网络参数；将重建损失分为保留区和缺失区两部分，因为图像修复是针对缺失区，所以赋予其更大的权重，权重值在实验中调试确定，具体如下：

L_rec＝L_rec1+L_rec2

L_rec1＝||(x-G(Me x))e M||₂

L_rec2＝6||(x-G(Me x))e(1-M)||₂

其中，x代表原始图像；M是二进制掩码，值为1的部分代表保留区域，值为0的部分代表缺损部分；e代表对应元素相乘；M⊙x模拟图像破损情况；G代表生成网络，G(M⊙x)表示将破损图像输入到生成网络得到生成图像；L_rec代表重建损失，L_rec1代表保留区域重建损失，其权重为1；L_rec2代表缺失区域重建损失，其权重为6；||g||₂代表L2范数；

(C)重复步骤(A)(B)，迭代训练数据集10次以上。

4.如权利要求1所述的基于密集扩张卷积自编码对抗网络的人脸图像修复方法，其特征在于，步骤(4)中交替训练具体流程如下：

(i)从训练集中随机抽取人脸图像，随机生成掩码,并逐一在随机位置利用掩码模拟缺失图像；

其中D_global表示全局判别网络；D_global(x)和D_global(G(M⊙x))分别表示真实图像和生成图像为真的概率值；

利用局部对抗损失优化局部判别网络：

其中D_local表示局部判别网络，D_local(x_local)和D_local(G(M⊙x)_local)分别表示真实图像和生成图像局部为真的概率值；

(iii)重复步骤(i)(ii)五次；

(iv)联合重建损失、全局和局部对抗损失、TV损失优化自编码生成网络一次；TV损失为：

其中，i和j表示像素点的位置，M⊙x模拟图像破损情况；G(M⊙x)_i，j表示生成图像坐标为(i,j)点的像素值，||g||₁表示L1范数；

联合损失为：

其中，λ₁、λ₂、λ₃、λ₄、λ₅分别为1、6、0.05、0.05、le-6；

(V)重复步骤(i)～(iv)，迭代训练数据集10次以上，得到训练好的密集扩张卷积自编码对抗网络。

5.如权利要求1所述的基于密集扩张卷积自编码对抗网络的人脸图像修复方法，其特征在于，步骤(5)合成修复图像的公式如下：

y＝(1-M)e G(Me x)+Me x