CN109377452A

CN109377452A - 基于vae和生成式对抗网络的人脸图像修复方法

Info

Publication number: CN109377452A
Application number: CN201811014897.8A
Authority: CN
Inventors: 马悦; 盛立杰; 苗启广; 赵盼盼; 庞博; 秦丹; 陈红颖; 徐劲夫
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2019-02-22
Anticipated expiration: 2038-08-31
Also published as: CN109377452B

Abstract

本发明公开了一种基于变分自编码器VAE和生成式对抗网络的人脸图像修复方法，主要解决现有技术中部分像素缺失的人脸图像修复适应能力不足，效率低的问题。本发明具体步骤如下：(1)构建深度学习网络；(2)初始化深度学习网络；(3)生成人脸图像集合；(4)交替训练编码器网络、生成器网络和判别器网络；(5)判断深度学习网络是否收敛，若是，执行步骤(6)，否则，实行步骤(4)；(6)修复部分像素缺失的人脸图像。本发明构建了一个深度学习网络，使用本发明训练好的深度学习网络修复部分像素缺失的人脸图像，具有修复适应能力强，效率高的优点。

Description

基于VAE和生成式对抗网络的人脸图像修复方法

技术领域

本发明属于图像处理技术领域，更进一步涉及模式识别与计算机视觉技术领域中的一种基于变分自编码器VAE(Variational Auto-encoder)和生成式对抗网络的人脸图像修复方法。本发明可用于在公共安全领域中进行人脸检索与识别之前，对任意部分像素缺失的人脸图像的修复。

背景技术

在刑侦追捕中，公安部门备有公民照片数据库，结合人脸识别技术用以确定犯罪嫌疑人身份，但实际中一般较难获得完整的犯罪嫌疑人照片。可以利用图像中没有缺失的像素部分填补出完整的人脸图像来进行后续人脸检索和识别。由于在实际应用中直接利用已知部分像素进行缺失填补的难度较大，缺失的部分像素往往不能直接从已知部分图像中找到合适的部分进行填充，直接用传统的人脸图像修复方法很难获取得到满意的修复效果。利用深度学习领域中的生成式模型可以生成真实的人脸图像，进而提升修复效果。

中科视拓(北京)科技有限公司在其申请的专利文献“一种基于深度学习的人脸图像去遮挡方法”(申请号：201710120037.1申请日：2017.03.02申请公布号：CN106910176A)中公开了一种基于深度学习的人脸图像去遮挡方法。该方法首先对原始图片添加特定样式与分布的遮挡，模拟真实遮挡分布，制作训练数据集并对输入数据进行预处理。然后设计基于全卷积网络的神经子网络N1学习遮挡的分布与深浅，并设计神经子网络N2对遮挡图像进行自动修复与平滑。最后迭代训练子网络N1，N2，进行多任务学习，使得网络自动检测出遮挡并输出修复后的与原图大小相同的图像。该方法存在的不足之处是，在对输入数据进行预处理时，需要对原始图片添加特定的样式与分布遮挡，模拟真实遮挡分布，训练后的网络只能修复特定遮挡样式的人脸图像，自适应能力不足，无法修复其他遮挡样式的人脸图像。

南京邮电大学在其申请的专利文献“一种基于生成式对抗网络的人脸图像修复方法”(申请号：201711034936.6申请日：2017.10.30申请公布号：CN107945118A)中公开了一种基于生成式对抗网络的人脸图像修复方法。该方法首先建立一个人脸图像数据库，然后构建了一种生成式对抗网络，并且对生成式对抗网络进行训练，再将随机向量输入已训练好的生成器生成人脸图像，将待修复人脸图像的完好区域与生成图像的相应区域进行对比，不断调整输入向量直到两者相似，最终将待修复的人脸图像损坏区域的像素值用生成人脸图像的对应区域像素值替换。该方法存在的不足之处是，将随机向量输入训练好的生成器生成人脸图像，随机向量中可能没有包含生成人脸图像所必须的信息，输入生成器后不一定能生成人脸图像，生成器可能会生成各种各样的图像，网络需要从生成的多种图像中挑选出人脸图像再进行下一步的训练，由此导致该方法的训练时间长，效率低。

发明内容

本发明的目的在于针对上述已有技术的不足，提出一种基于变分自编码器VAE和生成式对抗网络的人脸图像修复方法，能够修复任意部分像素缺失的人脸图像。

实现本发明目的的思路是：首先，构建一个由变分自编码器VAE与生成式对抗网络相结合的深度学习网络，利用完整人脸图像经编码器网络，得到具有人脸图像特征编码特征向量训练深度学习网络，用完整的人脸图像数据集对深度学习网络进行训练，得到训练好的深度学习网络。修复部分像素缺失的人脸图像时，直接使用本发明训练好的深度学习网络。将部分像素缺失的人脸图像输入深度学习网络，生成与部分像素缺失的人脸图像相似的人脸图像，将部分像素缺失的人脸图像中缺失部分的像素值，用生成图像中相同部分的像素值替换，得到修复后的人脸图像。

本发明的具体步骤包括如下：

(1)构建深度学习网络：

(1a)构建一个五层的自动编码器网络，其结构依次为：输入层→第1个微步幅卷积层→第2个微步幅卷积层→第3个微步幅卷积层→全连接层1；

(1b)设置编码器网络各层参数如下：将输入层特征映射图总数设置为3个；将第1个微步幅卷积层特征映射图总数设置为64个，卷积核大小设置为5×5个像素，步长大小设置为2个像素；将第2个微步幅卷积层特征映射图总数设置为128个，卷积核大小设置为5×5个像素，步长大小设置为2个像素；将第3个微步幅卷积层特征映射图总数设置为256个，卷积核大小设置为5×5个像素，步长大小设置为2个像素；将全连接层1的输入和输出节点的个数分别设置为2048个和100个；

(1c)构建一个五层的生成器网络，其结构依次为：全连接层2→第1个转置卷积层→第2个转置卷积层→第3个转置卷积层→第4个转置卷积层；并设置生成器网络各层参数；

(1d)构建一个六层的判别器网络，其结构依次为：第1个深度卷积层→第2个深度卷积层→第3个深度卷积层→第4个深度卷积层→全连接层3→soft-max二分类层；并设置判别器网络各层参数；

(1e)将编码器网络、生成器网络和判别器网络组成深度学习网络；

(1f)设置深度学习网络参数如下：编码器网络的学习率设置为0.01，生成器网络和判别器网络的学习率设置为0.005；

(2)对深度学习网络进行初始化：

(2a)在(0，0.1)范围内随机选一个数，用所选数作为深度学习网络中每个节点的初始权值；

(2b)将每个节点的初始权值作为第一次迭代过程中深度学习网络中每个节点的权值；

(3)生成人脸图像集合：

(3a)从人脸图像数据集的每张图像中，截取出每个人脸部分所占区域的图像，将所有截取的图像组成人脸图像集合S，将人脸图像集合S中的人脸图像大小统一设置为64×64像素；

(3b)从人脸图像集合中随机选取M张人脸图像作为训练样本集，其中，2≤M≤U-1，U表示人脸图像集合中人脸图像的总数；

(4)交替训练编码器网络、生成器网络和判别器网络：

(4a)从训练样本集中随机取出R张人脸图像组成训练样本，其中，2≤R≤M-1，M表示训练样本集中人脸图像的总数，将训练样本输入编码器网络后输出的编码特征向量；

(4b)按照下式，计算编码特征向量中每个元素值与标准正态分布向量中每个元素值的相对熵：

其中，J_uv表示编码特征向量中第u个元素值与标准正态分布向量中第v个元素值的相对熵，Z_v表示标准正态分布向量中第v个元素值，log表示以10为底的对数操作，E_u表示编码特征向量中第u个元素值；

(4c)用相对熵对编码器网络中每一个节点的权值求偏导，得到编码器网络中每个节点权值的梯度值；

(4d)按照下式，更新编码器网络中每个节点的权值：

其中，表示编码器网络中第k个节点更新后的权值，w_k表示编码器网络中第k个节点更新前的权值，α表示编码器网络的学习速率，Δ(w_k)表示编码器网络中第k个节点权值的梯度值；

(4f)利用小批量梯度下降法，分别训练生成器网络和判别器网络；

(5)判断深度学习网络是否收敛，若是，得到训练好的深度学习网络，执行步骤(6)，否则，执行步骤(4)；

(6)修复部分像素缺失的人脸图像：

(6a)将1幅部分像素缺失的人脸图像输入编码器网络，得到编码器网络输出的特征向量；

(6b)利用批量梯度下降法，更新编码器网络输出的特征向量，将更新后的特征向量输入生成器网络，得到与部分像素缺失的人脸图像相似的生成图像；

(6c)将部分像素缺失的人脸图像中缺失部分的像素值，用生成图像相同部分的像素值替换，得到修复后的人脸图像。

与现有技术相比，本发明有以下优点：

第一，由于本发明构建了一个由变分自编码器VAE与生成式对抗网络相结合的深度学习网络，利用完整人脸图像经编码器网络，得到具有人脸图像特征编码特征向量训练深度学习网络，克服现有技术中利用随机向量训练生成式对抗网络，随机向量中可能没有包含人脸图像特征，导致的生成式对抗网络训练时间长，效率低的问题，使得本发明的深度学习网络具有训练时间短，效率高的优点。

第二，由于本发明将任意部分像素缺失的人脸图像输入训练好的深度学习网络，生成与部分像素缺失的人脸图像相似的人脸图像，将部分像素缺失的人脸图像中缺失部分的像素值，用生成图像中相同部分的像素值替换，克服现有技术只能修复特定遮挡样式的人脸图像，自适应能力不足，无法修复其他遮挡样式的人脸图像的问题，使得本发明具有可以修复任意部分像素缺失的人脸图像，自适应能力强的优点。

附图说明

图1为本发明流程图；

图2为本发明的仿真图。

具体实施方式

下面结合附图对本发明作进一步地描述。

结合附图1，对本发明的具体步骤作进一步地描述。

步骤1，构建深度学习网络。

构建一个五层的自动编码器网络，其结构依次为：输入层→第1个微步幅卷积层→第2个微步幅卷积层→第3个微步幅卷积层→全连接层1。

设置编码器网络各层参数如下：将输入层特征映射图总数设置为3个；将第1个微步幅卷积层特征映射图总数设置为64个，卷积核大小设置为5×5个像素，步长大小设置为2个像素；将第2个微步幅卷积层特征映射图总数设置为128个，卷积核大小设置为5×5个像素，步长大小设置为2个像素；将第3个微步幅卷积层特征映射图总数设置为256个，卷积核大小设置为5×5个像素，步长大小设置为2个像素；将全连接层1的输入和输出节点的个数分别设置为2048个和100个。

构建一个五层的生成器网络，其结构依次为：全连接层2→第1个转置卷积层→第2个转置卷积层→第3个转置卷积层→第4个转置卷积层；并设置生成器网络各层参数。

生成器网络各层参数设置如下：全连接层2的输入和输出节点个数设置为100个和2048个；将第1个转置卷积层特征映射图总数设置为256个，卷积核大小设置为5×5个像素，步长大小设置为2个像素；将第2个转置卷积层特征映射图总数设置为128个，卷积核大小设置为5×5个像素，步长大小设置为2个像素；将第3个转置卷积层特征映射图总数设置为32个，卷积核大小设置为5×5个像素，步长大小设置为2个像素；将第4个转置卷积层特征映射图总数设置为3个，卷积核大小设置为5×5个像素，步长大小设置为2个像素。

构建一个六层的判别器网络，其结构依次为：第1个深度卷积层→第2个深度卷积层→第3个深度卷积层→第4个深度卷积层→全连接层3→soft-max二分类层；并设置判别器网络各层参数。

判别器网络各层参数设置如下：将第1个深度卷积层特征映射图总数设置为32个，卷积核大小设置为5×5个像素，步长大小设置为2个像素；将第2个深度卷积层特征映射图总数设置为128个，卷积核大小设置为5×5个像素，步长大小设置为2个像素；将第3个深度卷积层特征映射图总数设置为256个，卷积核大小设置为5×5个像素，步长大小设置为2个像素；将第4个深度卷积层特征映射图总数设置为512个，卷积核大小设置为5×5个像素，步长大小设置为2个像素；全连接层3的出入和输出节点设置为512个和100个；soft-max二分类层的输入节点个数设置为100个，输出节点个数设置为1个。

将编码器网络、生成器网络和判别器网络组成深度学习网络。

设置深度学习网络参数如下：编码器网络的学习率设置为0.01，生成器网络和判别器网络的学习率设置为0.005。

步骤2，对深度学习网络进行初始化。

在(0，0.1)范围内随机选一个数，用所选数作为深度学习网络中每个节点的初始权值。

将每个节点的初始权值作为第一次迭代过程中深度学习网络中每个节点的权值。

步骤3，生成人脸图像集合。

从人脸图像数据集的每张图像中，截取出每个人脸部分所占区域的图像，将所有截取的图像组成人脸图像集合S，将人脸图像集合S中的人脸图像大小统一设置为64×64像素。

从人脸图像集合中随机选取M张人脸图像作为训练样本集，其中，2≤M≤U-1，U表示人脸图像集合中人脸图像的总数。

步骤4，交替训练编码器网络、生成器网络和判别器网络。

从训练样本集中随机取出R张人脸图像组成训练样本，其中，2≤R≤M-1，M表示训练样本集中人脸图像的总数，将训练样本输入编码器网络后输出的编码特征向量。

按照下式，计算编码特征向量中每个元素值与标准正态分布向量中每个元素值的相对熵：

其中，J_uv表示编码特征向量中第u个元素值与标准正态分布向量中第v个元素值的相对熵，Z_v表示标准正态分布向量中第v个元素值，log表示以10为底的对数操作，E_u表示编码特征向量中第u个元素值。

用相对熵对编码器网络中每一个节点的权值求偏导，得到编码器网络中每个节点权值的梯度值。

按照下式，更新编码器网络中每个节点的权值：

其中，表示编码器网络中第k个节点更新后的权值，w_k表示编码器网络中第k个节点更新前的权值，α表示编码器网络的学习速率，Δ(w_k)表示编码器网络中第k个节点权值的梯度值。

利用小批量梯度下降法，分别训练生成器网络和判别器网络。

小批量梯度下降法的具体步骤如下：

第一步，将编码器网络输出的特征向量输入生成器网络，生成器网络输出生成样本。

第二步，将训练样本和生成样本输入判别器网络，判别器网络输出每个样本为真实图像的概率值。

第三步，按照下式，计算每个样本为真实图像的概率值的平均对数损失值：

其中，L表示每个样本为真实图像概率值的平均对数损失值，N表示训练样本和生成样本的总数，∑表示求和操作，i表示输入样本的序号，y_i表示第i个输入样本为真实图像的概率值，训练样本的y_i值取1，生成样本的y_i值取0，p_i表示输入样本中第i个样本经判别器网络输出后样本为真实图像的概率值。

第四步，用平均对数损失值对生成器网络和判别器网络中每一个节点的权值求偏导，得到生成器网络和判别器网络中每个节点权值的梯度值。

第五步，按照下式，更新生成器网络和判别器网络中每个节点的权值：

其中，表示生成器网络和判别器网络中第c个节点更新后的权值，g_c表示生成器网络和判别器网络中第c个节点更新前的权值，β表示生成器网络和判别器网络的学习速率，Δ(g_c)表示生成器网络和判别器网络中第c个节点权值的梯度值。

步骤5，判断深度学习网络是否收敛，若是，得到训练好的深度学习网络，执行步骤6，否则，执行步骤4。

深度学习网络收敛是指，生成器网络生成的样本，能够完好拟合训练样本的分布，使生成器网络和判别器网络在训练过程中达到纳什均衡。

步骤6，修复部分像素缺失的人脸图像。

将1幅部分像素缺失的人脸图像输入编码器网络，得到编码器网络输出的特征向量。

利用批量梯度下降法，更新编码器网络输出的特征向量，将更新后的特征向量输入生成器网络，得到与部分像素缺失的人脸图像相似的生成图像。

批量梯度下降法的具体步骤如下：

第一步，将特征向量输入生成器网络，得到生成图像，将生成图像输入判别器网络，得到生成图像为真实图像的概率值。

第二步，按照下式，计算生成图像的生成损失值：

其中，D表示生成图像的生成损失值，x_m表示待修复的人脸图像中第m个元素值，表示生成图像中第n个元素值，λ表示权重值，其取值范围为(0,1)，q表示生成图像为真实图像的概率值。

第三步，用生成损失值对特征向量中每一个元素值求偏导，得到特征向量中每个元素值的梯度值。

第四步，按照下式，更新特征向量中每个元素值：

其中，表示特征向量中第l个元素更新后的值，f_l表示特征向量中第l个元素更新前的值，χ表示学习率，其取值范围为(0,1)，Δ(f_l)表示特征向量中第l个元素值的梯度值。

将部分像素缺失的人脸图像中缺失部分的像素值，用生成图像相同部分的像素值替换，得到修复后的人脸图像。

本发明的效果通过以下仿真实验进一步说明。

1.仿真实验条件：

本发明的仿真实验的硬件平台为：Intel(R)Core(TM)i7-8700K CPU，3.70GHz*12，NVIDIA GeForce GTX 1080Ti，内存为64G。

本发明的仿真实验的软件平台为：TensorFlow。

2.仿真内容与结果分析：

本发明仿真实验使用完整的人脸图像数据集对深度学习网络进行训练，得到训练好的深度学习网络，将部分像素缺失的人脸图像输入深度学习网络进行修复。

本发明仿真实验使用的完整的人脸图像数据集为CelebA数据集，该数据集共有202599幅人脸图像。用人脸图像数据集对深度学习网络迭代训练1000次，得到训练好的深度学习网络。本发明仿真实验所用的测试图像是从LFW数据集中采集的9幅人脸图像组成的测试图像，对测试图像进行不同位置的遮挡，模拟部分像素缺失的人脸图像。

图2为本发明仿真实验模拟修复部分像素缺失的人脸图像的示意图，图2(a)是每幅测试图像遮挡了人脸的鼻子和嘴的示意图，模拟中间部分像素缺失的人脸图像，图2(c)为每幅测试图像遮挡了人脸的左半边脸的示意图，模拟左边部分像素缺失的人脸图像。将测试图像输入深度学习网络，得到输出的生成图像，将测试图像中缺失部分的像素值用生成图像相同位置的像素值替换。图2(b)为中间部分像素缺失的人脸图像修复后的图像，图2(d)为左边部分像素缺失的人脸图像修复后的图像。

用图2(a)与图2(b)进行对比，图2(c)与图2(d)进行对比可见，本发明仿真实验对中间部分像素缺失的人脸图像和左边部分像素缺失的人脸图像进行修复，修复后的图像与测试图像相似度高，修复效果好，说明本发明可以有效的修复不同部分像素缺失的人脸图像，相比于现有方法只能修复特定遮挡样式的人脸图像，自适应能力更强。

Claims

1.一种基于变分自编码器VAE和生成式对抗网络的人脸图像修复方法，其特征在于，构建深度学习网络，交替训练编码器网络、生成器网络和判别器网络，修复部分像素缺失的人脸图像；该方法的具体步骤包括如下：

(1)构建深度学习网络：

(2)对深度学习网络进行初始化：

(3)生成人脸图像集合：

(4)交替训练编码器网络、生成器网络和判别器网络：

(4d)按照下式，更新编码器网络中每个节点的权值：

(6)修复部分像素缺失的人脸图像：

2.根据权利要求1所述的基于变分自编码器VAE和生成式对抗网络的人脸图像修复方法，其特征在于：步骤(1c)中所述的生成器网络各层参数设置如下：

将全连接层2的输入和输出节点个数设置为100个和2048个；

将第1个转置卷积层特征映射图总数设置为256个，卷积核大小设置为5×5个像素，步长大小设置为2个像素；

将第2个转置卷积层特征映射图总数设置为128个，卷积核大小设置为5×5个像素，步长大小设置为2个像素；

将第3个转置卷积层特征映射图总数设置为32个，卷积核大小设置为5×5个像素，步长大小设置为2个像素；

将第4个转置卷积层特征映射图总数设置为3个，卷积核大小设置为5×5个像素，步长大小设置为2个像素。

3.根据权利要求1所述的基于变分自编码器VAE和生成式对抗网络的人脸图像修复方法，其特征在于：步骤(1d)中所述的判别器网络各层参数设置如下：

将第1个深度卷积层特征映射图总数设置为32个，卷积核大小设置为5×5个像素，步长大小设置为2个像素；

将第2个深度卷积层特征映射图总数设置为128个，卷积核大小设置为5×5个像素，步长大小设置为2个像素；

将第3个深度卷积层特征映射图总数设置为256个，卷积核大小设置为5×5个像素，步长大小设置为2个像素；

将第4个深度卷积层特征映射图总数设置为512个，卷积核大小设置为5×5个像素，步长大小设置为2个像素；

全连接层3的出入和输出节点设置为512个和100个；

soft-max二分类层的输入节点个数设置为100个，输出节点个数设置为1个。

4.根据权利要求1所述的基于变分自编码器VAE和生成式对抗网络的人脸图像修复方法，其特征在于：步骤(4f)中所述小批量梯度下降法的具体步骤如下：

第一步，将编码器网络输出的特征向量输入生成器网络，生成器网络输出生成样本；

第二步，将训练样本和生成样本输入判别器网络，判别器网络输出每个样本为真实图像的概率值；

其中，L表示每个样本为真实图像概率值的平均对数损失值，N表示训练样本和生成样本的总数，∑表示求和操作，i表示输入样本的序号，y_i表示第i个输入样本为真实图像的概率值，训练样本的y_i值取1，生成样本的y_i值取0，p_i表示输入样本中第i个样本经判别器网络输出后样本为真实图像的概率值；

第四步，用平均对数损失值对生成器网络和判别器网络中每一个节点的权值求偏导，得到生成器网络和判别器网络中每个节点权值的梯度值；

5.根据权利要求1所述的基于变分自编码器VAE和生成式对抗网络的人脸图像修复方法，其特征在于：步骤(5)中所述深度学习网络收敛是指，生成器网络生成的样本，能够完好拟合训练样本的分布，使生成器网络和判别器网络在训练过程中达到纳什均衡。

6.根据权利要求1所述的基于变分自编码器VAE和生成式对抗网络的人脸图像修复方法，其特征在于：步骤(6b)中所述批量梯度下降法的具体步骤如下：

第一步，将特征向量输入生成器网络，得到生成图像，将生成图像输入判别器网络，得到生成图像为真实图像的概率值；

第二步，按照下式，计算生成图像的生成损失值：

其中，D表示生成图像的生成损失值，x_m表示待修复的人脸图像中第m个元素值，表示生成图像中第n个元素值，λ表示权重值，其取值范围为(0,1)，q表示生成图像为真实图像的概率值；

第三步，用生成损失值对特征向量中每一个元素值求偏导，得到特征向量中每个元素值的梯度值；

第四步，按照下式，更新特征向量中每个元素值：

f_l ^*＝f_l-χ×Δ(f_l)

其中，f_l ^*表示特征向量中第l个元素更新后的值，f_l表示特征向量中第l个元素更新前的值，χ表示学习率，其取值范围为(0,1)，Δ(f_l)表示特征向量中第l个元素值的梯度值。