CN113222811B

CN113222811B - 一种基于图像掩膜的人脸属性迁移方法

Info

Publication number: CN113222811B
Application number: CN202110578071.XA
Authority: CN
Inventors: 宋丹丹; 吴殿钊
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-05-24
Filing date: 2021-05-26
Publication date: 2022-08-09
Anticipated expiration: 2041-05-26
Also published as: CN113222811A

Abstract

本发明涉及一种基于图像掩膜的人脸属性迁移方法，属于计算机视觉处理技术领域。本方法，将人脸掩膜融入到人脸属性迁移任务中，使得生成器能够专注于人脸属性的生成，针对性更强；将梯度信息融入到人脸属性迁移任务中，能够保持人脸轮廓不发生改变，同时有助于模型学到更精细的纹理信息；采用多目标学习的方式进行训练，使得模型能够从多个角度进行特征学习，生成的图像更加逼真。本方法适用于任务人脸图像，均有良好的使用效果，具有普适性，同时适用于多种属性迁移任务，具有较强的鲁棒性。

Description

一种基于图像掩膜的人脸属性迁移方法

技术领域

本发明涉及一种基于图像掩膜的人脸属性迁移方法，尤其涉及一种基于生成对抗网络、采用边缘一致性约束、运用多目标学习的思想进行的无监督学习的人脸属性迁移方法，属于计算机视觉处理技术领域。

技术背景

近年来，人脸属性迁移成为互联网领域追逐的热点，拥有庞大的用户群体，蕴含巨大的商业价值。人们每天使用手机拍摄出自己或者他人的照片，出于变美或娱乐目的，会对图像进行个性化的自定义操作，生成自己满意的图像。而支撑该功能的技术，是基于深度学习的人脸属性编辑技术。

作为深度学习的重要组成部分，生成对抗网络自提出之日起，就深受研究人员的青睐，目前已广泛应用于计算机视觉和自然语言处理任务等领域中。相较于传统方法，生成对抗网络在图像生成任务上有着得天独厚的优势，其表现更为优越。

在人脸属性迁移任务中，人们希望操作的部位往往只是整体图像的一部分。而对于一个输入的人体图像来说，如何准确的定位待操作区域至关重要。相较于注意力机制的学习性而言，图像掩膜技术更为高效和准确。图像掩膜技术是一种借鉴于数字图像处理中的掩膜技术，通过选定特定的图像，对待处理的图像进行遮挡，实现对待处理图像的有效控制。目前，人脸解析技术经历了从传统方法到深度学习方法的转变后，该项技术已经相对成熟，利用人脸解析可以很好的获取到人脸信息。

而将该项技术应用在人脸属性迁移任务中，尚未见到有相关技术公开。

发明内容

本发明的目的是为了克服现有技术存在的不足，提出一种基于图像掩膜的人脸属性迁移方法，以生成具有目标属性的逼真的图像。

本发明的创新点在于：引入图像掩膜方法，设计一种监督学习的人脸属性迁移的网络模型。同时，在图像生成中引入了梯度信息作为指导，通过多目标学习设计损失函数，实现人脸属性迁移。

本发明的目的是通过以下技术方案实现的：

一种基于图像掩膜的人脸属性迁移方法，包括以下步骤：

步骤1：对原始图像进行人脸解析，得到背景图像和人脸图像，将人脸图像作为模型的输入图像。

其中，在进行人脸解析处理时，使用图像掩膜方式，将掩膜图像和原始图像通过与运算，得到背景图像和需要被提取到的人脸图像。

步骤2：利用生成器对输入图像进行特征学习，得到输出图像。

其中，生成器包括图像生成分支和梯度学习分支，两个分支网络之间进行信息传递，共同作用，实现图像生成。梯度分支的作用在于确定输入图像的边缘信息，学习生成目标图像的纹理特征，为生成图像提供额外的结构先验。

步骤3：将输出图像与背景图像进行图像融合，产生生成图像。

具体地，采用边缘一致性约束处理，即，采用泊松图像融合方式进行图像融合，能够同时兼顾原始图像的梯度场和目标图像的梯度场。

步骤4：对生成图像和目标图像进行特征判别。

具体地，同时进行以下5种操作：

对生成图像和目标图像进行纹理处理后，送入特征判别器D1进行纹理特征判别，判别结果用于设计纹理损失函数。

对生成图像和目标图像进行外观处理后，送入特征判别器D2进行外观特征判别，判别结果用于设计外观损失函数。

对生成图像进行结构处理后，与原始图像一起送入预先训练好的VGG网络进行结构特征判别，判别结果用于设计结构损失函数。

对生成图像与原始图像进行梯度处理后，送入预先训练好的VGG网络进行梯度特征判别，判别结果用于设计梯度损失函数。

将生成图像与原始图像送入预先训练好的VGG网络进行内容特征判别，判别结果用于设计内容损失函数。

其中，纹理处理的目的是为了减少图像中颜色、亮度等因素的影响，具体方法为：从图像中提取单通道的纹理表示。

结构处理的目的是为了提升图像的对比度信息，避免因图像整体对比度降低，图像变暗所造成模糊的现象，具体方法为：在现有超像素分割算法基础上，使用高斯核处理整张图像，并叠加图像原本的亮度信息，包括以下步骤：

首先，将图像由RGB转换到Lab颜色空间。相较于RGB空间，Lab更加符合人们对颜色的感知情况。Lab空间中L表示亮度，a和b分别表示两个色彩通道。当图像中亮度L的发生变化时，图像的色相能够保持不变。

然后，将图像均匀划分为不同小块，生成聚类中心。不同于kmeans聚类算法，此处的聚类中心为均匀分布。对于所有聚类中心，计算其3×3窗口中像素的梯度，将聚类中心改为梯度最小的像素，从而排除边缘和噪声点成为聚类中心的可能。

之后，为每个像素分配聚类中心标签，并重新分配聚类中心。具体可通过迭代完成，迭代方式为：计算平均向量值。重新分配后得到新的聚类中心，以新的聚类中心为起点搜索像素，直至收敛。

最后，使用高斯核处理整张图像，叠加上图像原本的亮度信息。

外观处理的目的是为了去除图像中的细节特征和纹理特征。具体地，以图像本身作为引导图，对图像进行平滑化处理。

步骤5：根据步骤4的判别结果，设计网络损失函数。

网络损失函数Loss包含6种：内容损失、外观损失、结构损失、纹理损失、梯度损失、基于全变分的损失。

Loss表示为：

Loss＝λ1*L_content+λ2*L_surface+λ3*L_texture+λ4*L_structure+λ5*L_gradient+λ6*L_tv (1)

其中，L_content表示内容损失，L_surface表示外观损失，L_texture表示纹理损失，L_structure表示结构损失，L_gradient表示梯度损失，L_tv表示基于全变分的损失。λ1、λ2、λ3、λ4、λ5、λ6为超参数，分别表示对应损失的权重。

其中，内容损失函数表示如下：

L_content＝‖VGG(I_f)-VGG(I)‖ (2)

其中，I_f表示生成图像，I表示原始图像，VGG()表示VGG19网络，‖·‖表示进行L1正则化范式约束。

外观损失函数表示如下：

L_surface＝logD₂(F_su(I_t,I_t))+log(1-D₂(F_su(I_f,I_f))) (3)

其中，D₂表示外观判别器，F_su表示外观处理，I_t表示目标属性图像，I_f表示生成图像。

结构损失函数表示如下：

L_structure＝‖VGG(I_f)-VGG(F_st(I_f))‖ (4)

其中，VGG()表示VGG19网络，I_f表示生成图像，F_st表示结构处理。‖·‖表示进行L1正则化范式约束。

纹理损失函数表示如下：

L_texture＝logD₁(F_te(I_t))+log(1-D₁(F_te(I_f))) (5)

其中，D₁表示纹理判别器，I_t表示目标属性图像，I_f表示生成图像，F_te表示纹理处理。

梯度损失函数表示如下：

L_gradient＝‖VGG(M(I_f))-VGG(M(I))‖ (6)

其中，VGG()表示VGG19网络，M表示对图像进行梯度处理，I_f表示生成图像，I表示原始图像。‖·‖表示进行L1正则化范式约束。

基于全变分的损失函数表示如下：

其中，I_f表示生成图像，H、W、C分别表示生成图像高度、宽度、通道数，‖·‖表示进行L1正则化范式约束。

表示在生成图像的x方向上使用高斯低通滤波，

表示在生成图像的y方向上使用高斯低通滤波。

步骤6：利用步骤5设计的6种损失函数，对生成器和2个判别器进行反向传播优化。

具体地，可以使用Adam算法采用迭代方式实现。

步骤7：利用步骤6优化的生成器，对原始图像进行人脸属性迁移，从而生成具有目标属性的人脸图像。

有益效果

本发明方法，与现有技术相比，具有以下有益效果：

1.本发明将人脸掩膜融入到人脸属性迁移任务中，使得生成器能够专注于人脸属性的生成，针对性更强。

2.本发明将梯度信息融入到人脸属性迁移任务中，能够保持人脸轮廓不发生改变，同时有助于模型学到更精细的纹理信息。

3.本发明采用多目标学习的方式进行训练，使得模型能够从多个角度进行特征学习，生成的图像更加逼真。

4.本发明适用于任务人脸图像，均有良好的使用效果，具有普适性。

5.本发明适用于多种属性迁移任务，具有较强的鲁棒性。

附图说明

图1为本方法的流程图；

图2为特征提取用到的VGG19模型结构图；

图3为本方法网络中生成器的网络结构图；

图4为本方法网络中判别器的网络结构图。

具体实施方法

下面结合附图和具体实施例对本发明进行详细说明。

实施例

一种基于图像掩膜的人脸属性迁移方法，如图1所示，包括如下步骤：

本方法的训练数据集使用FFHQ数据集和CelebA-HQ数据集，数据集中人脸图像的分辨率为1024*1024。

训练集选取具有目标属性的数据和原始图像数据图像。将原始图像送入人脸解析器进行人脸解析，通过产生的图像掩膜，得到背景图像和人脸图像，其中人脸图像作为模型的输入图像。

其中，生成器如图3所示，包括图像生成分支和梯度学习分支，两个分支网络之间进行信息传递，共同作用，实现图像生成。梯度分支如图4所示，其作用在于确定输入图像的边缘信息，学习生成目标图像的纹理特征，为生成图像提供额外的结构先验。

步骤4：对生成图像和目标图像进行特征判别。

具体地，同时进行以下5种操作：

对生成图像进行结构处理后，与原始图像一起送入预先训练好的VGG网络进行结构特征判别，判别结果用于设计结构损失函数。VGG网络如图2所示。

步骤5：根据步骤4的判别结果，设计网络损失函数。

Loss表示为：

其中，内容损失函数表示如下：

L_content＝‖VGG(I_f)-VGG(I)‖ (2)

外观损失函数表示如下：

L_surface＝logD₂(F_su(I_t，I_t))+log(1-D₂(F_su(I_f,I_f))) (3)

结构损失函数表示如下：

L_structure＝‖VGG(I_f)-VGG(F_st(I_f))‖ (4)

纹理损失函数表示如下：

L_texture＝logD₁(F_te(I_t))+log(1-D₁(F_te(I_f))) (5)

梯度损失函数表示如下：

L_gradient＝‖VGG(M(I_f))-VGG(M(I))‖ (6)

基于全变分的损失函数表示如下：

表示在生成图像的x方向上使用高斯低通滤波，

表示在生成图像的y方向上使用高斯低通滤波。

具体地，可以使用Adam算法采用迭代方式实现。

实验结果

表1本方法与其他方法评价指标对比

Model	Attribute cls.accuracy(％)	FID
			MaskGAN	72.3	46.47
StarGAN	92.5	40.61
			Pix2PixHD-m	78.5	54.58
ELEGANT	72.8	55.43
			SPADE	73.8	56.21
Our	82.4	47.36

从表1所示，本方法提出的网络模型，取得了较高的分类精度，属性分类准确率为85.4％。85.4％的准确率在对比的模型中，位居第二，仅低于StarGAN网络，相比于其他模型高出6个百分点以上。本实验中采用的分类器是在ResNet18网络上训练得来，作用是判断图像中的人脸是否微笑。属性分类准确率反映出输入图像是否经过生成器作用，学习到了目标属性，从而作用在自身，发生针对性的属性改变。属性分类准确率越高，意味着模型训练越成功，能够使得生成图像经过分类器的分类，被判定为具有目标属性的图像。本方法的属性分类准确率为85.4％，表明了本方法模型能够很好的实现人脸属性迁移任务。

对比FID来看，本方法设计的模型FID值为42.36，同样位居第二，并且非常接近最出色的模型，同时远小于其他模型的FID。FID值反映的是两个域之间的分布差异，本实验中的FID值说明了本方法设计的模型能够使得输入图像学到目标图像的特征，作用于输入图像，得到的生成图像与目标图像之间的特征分布差异小，表明了模型训练的有效性。

Claims

1.一种基于图像掩膜的人脸属性迁移方法，其特征在于，包括以下步骤：

步骤1：对原始图像进行人脸解析，得到背景图像和人脸图像，将人脸图像作为模型的输入图像；

步骤2：利用生成器对输入图像进行特征学习，得到输出图像；

其中，生成器包括图像生成分支和梯度学习分支，两个分支网络之间进行信息传递，共同作用，实现图像生成；

步骤3：将输出图像与背景图像进行图像融合，产生生成图像；

步骤4：对生成图像和目标图像进行特征判别；

具体地，同时进行以下5种操作：

对生成图像和目标图像进行纹理处理后，送入特征判别器D1进行纹理特征判别，判别结果用于设计纹理损失函数；

对生成图像和目标图像进行外观处理后，送入特征判别器D2进行外观特征判别，判别结果用于设计外观损失函数；

对生成图像进行结构处理后，与原始图像一起送入预先训练好的VGG网络进行结构特征判别，判别结果用于设计结构损失函数；

对生成图像与原始图像进行梯度处理后，送入预先训练好的VGG网络进行梯度特征判别，判别结果用于设计梯度损失函数；

将生成图像与原始图像送入预先训练好的VGG网络进行内容特征判别，判别结果用于设计内容损失函数；

其中，纹理处理的目的是为了减少图像中颜色、亮度因素的影响；

结构处理的目的是为了提升图像的对比度信息，避免因图像整体对比度降低，图像变暗所造成模糊的现象，具体方法为：在现有超像素分割算法基础上，使用高斯核处理整张图像，并叠加图像原本的亮度信息；

外观处理的目的是为了去除图像中的细节特征和纹理特征；

步骤5：根据步骤4的判别结果，设计网络损失函数；

网络损失函数Loss包含6种：内容损失、外观损失、结构损失、纹理损失、梯度损失、基于全变分的损失；

Loss表示为：

其中，L_content表示内容损失，L_surface表示外观损失，L_texture表示纹理损失，L_structure表示结构损失，L_gradient表示梯度损失，L_tv表示基于全变分的损失；λ1、λ2、λ3、λ4、λ5、λ6为超参数，分别表示对应损失的权重；

其中，内容损失函数表示如下：

L_content＝‖VGG(I_f)-VGG(I)‖ (2)

其中，I_f表示生成图像，I表示原始图像，VGG()表示VGG19网络，‖·‖表示进行L1正则化范式约束；

外观损失函数表示如下：

L_surface＝logD₂(F_su(I_t,I_t))+log(1-D₂(F_su(I_f,I_f))) (3)

其中，D₂表示外观判别器，F_su表示外观处理，I_t表示目标属性图像，I_f表示生成图像；

结构损失函数表示如下：

L_structure＝‖VGG(I_f)-VGG(F_st(I_f))‖ (4)

其中，VGG()表示VGG19网络，I_f表示生成图像，F_st表示结构处理；‖·‖表示进行L1正则化范式约束；

纹理损失函数表示如下：

L_texture＝logD₁(F_te(I_t))+log(1-D₁(F_te(I_f))) (5)

其中，D₁表示纹理判别器，I_t表示目标属性图像，I_f表示生成图像，F_te表示纹理处理；

梯度损失函数表示如下：

L_gradient＝‖VGG(M(I_f))-VGG(M(I))‖ (6)

其中，VGG()表示VGG19网络，M表示对图像进行梯度处理，I_f表示生成图像，I表示原始图像；‖·‖表示进行L1正则化范式约束；

基于全变分的损失函数表示如下：

其中，I_f表示生成图像，H、W、C分别表示生成图像高度、宽度、通道数，‖·‖表示进行L1正则化范式约束；

表示在生成图像的x方向上使用高斯低通滤波，

表示在生成图像的y方向上使用高斯低通滤波；

步骤6：利用步骤5设计的6种损失函数，对生成器和2个判别器进行反向传播优化；

2.如权利要求1所述的一种基于图像掩膜的人脸属性迁移方法，其特征在于，步骤1在进行人脸解析处理时，使用图像掩膜方式，将掩膜图像和原始图像通过与运算，得到背景图像和需要被提取到的人脸图像。

3.如权利要求1所述的一种基于图像掩膜的人脸属性迁移方法，其特征在于，步骤3中，采用边缘一致性约束处理，即，采用泊松图像融合方式进行图像融合，能够同时兼顾原始图像的梯度场和目标图像的梯度场。

4.如权利要求1所述的一种基于图像掩膜的人脸属性迁移方法，其特征在于，步骤4中，纹理处理的方法为：从图像中提取单通道的纹理表示。

5.如权利要求1所述的一种基于图像掩膜的人脸属性迁移方法，其特征在于，步骤4中，结构处理的实现方法包括以下步骤：

首先，将图像由RGB转换到Lab颜色空间；Lab空间中L表示亮度，a和b分别表示两个色彩通道；当图像中亮度L的发生变化时，图像的色相能够保持不变；

然后，将图像均匀划分为不同小块，生成聚类中心，此处的聚类中心为均匀分布；对于所有聚类中心，计算其3×3窗口中像素的梯度，将聚类中心改为梯度最小的像素；

之后，为每个像素分配聚类中心标签，并重新分配聚类中心；重新分配后得到新的聚类中心，以新的聚类中心为起点搜索像素，直至收敛；

6.如权利要求5所述的一种基于图像掩膜的人脸属性迁移方法，其特征在于，重新分配聚类中心通过迭代完成，迭代方式为：计算平均向量值。

7.如权利要求1所述的一种基于图像掩膜的人脸属性迁移方法，其特征在于，步骤4中，外观处理的方法为：以图像本身作为引导图，对图像进行平滑化处理。

8.如权利要求1所述的一种基于图像掩膜的人脸属性迁移方法，其特征在于，步骤6中对生成器和2个判别器进行反向传播优化时，使用Adam算法采用迭代方式实现。