CN116363737B

CN116363737B - 一种人脸图像属性编辑方法、系统、电子设备及存储介质

Info

Publication number: CN116363737B
Application number: CN202310635694.5A
Authority: CN
Inventors: 刘治宇
Original assignee: Beijing Fenghuo Wanjia Technology Co ltd
Current assignee: Beijing Fenghuo Wanjia Technology Co ltd
Priority date: 2023-06-01
Filing date: 2023-06-01
Publication date: 2023-07-28
Anticipated expiration: 2043-06-01
Also published as: CN116363737A

Abstract

本发明公开一种人脸图像属性编辑方法、系统、电子设备及存储介质，属于图像处理领域。首先分别高斯建模潜在代码各维度分布和在目标属性条件下的潜在代码各维度条件分布，然后计算各维度的KL散度，选择KL散度大于散度阈值的维度集合，作为目标属性对应的潜在代码修改子空间，并在潜在代码修改子空间中随机生成多个潜在代码，再在这多个潜在代码中选择和目标属性向量最相似的潜在代码，输入StyleGAN生成器来完成人脸图像属性编辑。本发明将目标属性与人脸图像的其他属性的维度空间完全解耦，可精准的控制人脸图像属性编辑，在将输入图像变换为具有目标属性的目标域人脸图像过程中，可以更少的改变原人脸图像的其他属性特征。

Description

一种人脸图像属性编辑方法、系统、电子设备及存储介质

技术领域

本发明涉及图像处理领域，特别是涉及一种人脸图像属性编辑方法、系统、电子设备及存储介质。

背景技术

人脸属性编辑是给定一张人脸图像以及待编辑的目标属性，然后将这张人脸图像变换为具有目标属性的新人脸图像，并尽量保证原人脸图像内的其他属性特征不变。人脸图像属性编辑是计算机视觉领域的一项重要技术，广泛用于内容生产、电影制作和娱乐视频中，例如变光头、变发型、变小孩、变明星脸等。

由于现代GAN(Generative Adversarial Networks，生成式对抗网络)可以生成各种逼真的合成图像，特别是像人脸这样的高度结构化图像。业内通常会预训练一种GAN来实现人脸图像的目标属性编辑。目前，由于StyleGAN潜在代码良好的属性解耦性，基于预训练StyleGAN编辑人脸图像属性非常流行，主要有以下三种方法：

第一种：训练过程：第一步先获取一个分类器，然后对人脸图像集进行分类，提取这些人脸图像的属性向量；第二步使用优化或者回归的方法提取这些人脸图像的潜在代码；第三步按属性对这些潜在代码分组，计算每个分组的潜在代码均值，得到一张属性到潜在代码映射表，同时计算全体潜在代码均值。推理过程：查找属性到潜在代码映射表，得到目标属性对应的潜在代码均值，减去全体潜在代码均值，加上人脸图像潜在代码，再输入StyleGAN生成器即可完成人脸图像属性编辑。

第二种：在图像生成器的内部，通过特定维度上特征的替换，将引入的目标人脸图像上的精细风格赋予在人脸图像上，这种方法能控制白皮肤、卷发等精细类型。

第三种：通过CLIP（Contrastive Language–Image Pre-training，基于对比学习的语言-图像预训练）对齐人脸图像和文本的属性，可以通过自然语言实现人脸属性编辑。

第一种和第二种方法不需要新的数据标注和昂贵的训练成本，但由于StyleGAN潜在代码并不是完全解耦，并不能精准的控制人脸图像属性编辑，也就是说将输入图像变换为具有目标属性的目标域人脸图像过程中，会多多少少改变人脸图像内原有的其他属性特征。第三种人脸属性编辑方法由于自然语言天生表达模糊性，不能精准控制复杂的人脸图像属性编辑。

发明内容

本发明的目的是提供一种人脸图像属性编辑方法、系统、电子设备及存储介质，可精准的控制人脸图像属性编辑，将输入图像变换为具有目标属性的目标域人脸图像过程中，可以更少的改变原人脸图像的其他属性特征。

为实现上述目的，本发明提供了如下方案：

一种人脸图像属性编辑方法，包括：

建立潜在代码到属性向量的映射器；

高斯建模人脸图像集中人脸图像的潜在代码各维度分布和目标属性条件下人脸图像的潜在代码各维度条件分布；

分别计算潜在代码各维度分布与目标属性条件下的潜在代码同一维度条件分布之间的KL散度；

选择KL散度大于散度阈值的维度集合，作为目标属性对应的潜在代码修改子空间；

在所述潜在代码修改子空间中随机生成多个潜在代码，并利用潜在代码到属性向量的映射器，获得随机生成的潜在代码对应的属性向量；

从随机生成的潜在代码对应的属性向量中选择与目标属性向量之间余弦距离最大的属性向量；

将选择的属性向量对应的潜在代码和待编辑人脸图像的潜在代码一起输入StyleGAN生成器，获得具有目标属性的人脸图像。

一种人脸图像属性编辑系统，包括：

映射器建立模块，用于建立潜在代码到属性向量的映射器；

高斯建模模块，用于高斯建模人脸图像集中人脸图像的潜在代码各维度分布和目标属性条件下人脸图像的潜在代码各维度条件分布；

KL散度计算模块，用于分别计算潜在代码各维度分布与目标属性条件下的潜在代码同一维度条件分布之间的KL散度；

维度选择模块，用于选择KL散度大于散度阈值的维度集合，作为目标属性对应的潜在代码修改子空间；

随机生成模块，用于在所述潜在代码修改子空间中随机生成多个潜在代码，并利用潜在代码到属性向量的映射器，获得随机生成的潜在代码对应的属性向量；

属性向量选择模块，用于从随机生成的潜在代码对应的属性向量中选择与目标属性向量之间余弦距离最大的属性向量；

合成模块，用于将选择的属性向量对应的潜在代码和待编辑人脸图像的潜在代码一起输入StyleGAN生成器，获得具有目标属性的人脸图像。

一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如前述的人脸图像属性编辑方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如前述的人脸图像属性编辑方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开一种人脸图像属性编辑方法、系统、电子设备及存储介质，利用StyleGAN潜在代码符合高斯分布和语义解耦特性，先分别高斯建模潜在代码各维度分布和在目标属性条件下的潜在代码各维度条件分布，然后计算各维度的KL散度，选择KL散度大于散度阈值的维度集合，作为目标属性对应的潜在代码修改子空间，并在潜在代码修改子空间中随机生成多个潜在代码，再在这多个潜在代码中选择和目标属性向量最相似的潜在代码，输入StyleGAN生成器来完成人脸图像属性编辑。本发明将目标属性的维度空间与人脸图像的其他属性的维度空间完全解耦，可精准的控制人脸图像属性编辑，将输入图像变换为具有目标属性的目标域人脸图像过程中，可以更少的改变原人脸图像的其他属性特征。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种人脸图像属性编辑方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明利用StyleGAN潜在代码符合高斯分布和语义解耦特性，先分别高斯建模潜在代码各维度分布和在目标属性条件下的潜在代码各维度条件分布，然后利用信息论中的用来衡量分布距离的工具KL Divergence（KL散度），计算各维度分布距离，选择距离最大的前N个维度空间，并在这前N个维度空间随机生成多个潜在代码，再在这多个潜在代码中选择和目标属性向量最相似的潜在代码，输入StyleGAN生成器来完成人脸图像属性编辑。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明实施例提供了一种人脸图像属性编辑方法，包括：

步骤1：建立潜在代码到属性向量的映射器。

示例性的，映射器的建立过程如下：

获取一个分类器，分别分类人脸图像集中的人脸图像，提取得到这些人脸图像的属性向量，一张人脸图像对应一属性向量；使用优化或者回归的方法提取这些人脸图像的潜在代码，一张人脸图像对应一潜在代码；基于这些潜在代码和属性向量对，训练一个潜在代码到属性向量的映射器M。

步骤2：高斯建模人脸图像集中人脸图像的潜在代码各维度分布和目标属性条件下人脸图像的潜在代码各维度条件分布。

高斯建模人脸图像集中人脸图像的潜在代码各维度分布，具体步骤如下：

2.1.1 选择人脸图像集中的所有人脸图像；

2.1.2 得到这些人脸图像相应的StyleGAN生成器潜在代码；

2.1.3 高斯建模这些潜在代码各维度分布，具体来讲：

假定全体人脸图像集共有nn张人脸图像，每一张人脸图像有一个潜在代码。潜在代码是一le维向量（比如le等于256），若每一张人脸图像的潜在代码的维度为i（1≤ i ≤le），则对于nn张人脸图像，可得到均值mc_i和方差dc_i。

高斯建模人脸图像集中目标属性条件下人脸图像的潜在代码各维度条件分布，具体步骤如下：

2.2.1 按属性分组人脸图像集；

2.2.2 确定每个属性对应的人脸图像组的StyleGAN生成器潜在代码；

2.2.3 根据每个属性对应的人脸图像组的StyleGAN生成器潜在代码，高斯建模每个属性对应的各维度潜在代码分布，并从中获取目标属性对应的各维度潜在代码分布，作为目标属性条件下人脸图像的潜在代码各维度条件分布，具体来讲：

假定满足属性s的人脸图像集合有n张人脸图像，每一张人脸图像有一个潜在代码。潜在代码是一le维向量（比如le等于256），若每一张人脸图像的潜在代码的维度为i（1≤ i ≤ le），则对于n张人脸图像，可得到均值m_i和方差d_i。

步骤3：分别计算潜在代码各维度分布与目标属性条件下的潜在代码同一维度条件分布之间的KL散度。

针对潜在代码向量的每一维度i，分别计算其分布和其在目标属性条件下的条件分布之间的KL Divergence。

步骤4：选择KL散度大于散度阈值的维度集合，作为目标属性对应的潜在代码修改子空间。

若KL散度大于散度阈值的维度有N个，则将这N个维度作为目标属性对应的潜在代码修改子空间。

步骤5：在所述潜在代码修改子空间中随机生成多个潜在代码，并利用潜在代码到属性向量的映射器，获得随机生成的潜在代码对应的属性向量。

对于每个维度，在中心为均值和长度为6倍标准差的一维区间（一维空间实际上就是一条线）均匀采样多个点（一个超参数），作为随机生成的潜在代码。

查找潜在代码到属性向量的映射器M，得到这些潜在代码对应的属性向量。

步骤6：从随机生成的潜在代码对应的属性向量中选择与目标属性向量之间余弦距离最大的属性向量。

计算向量间的cos距离（余弦距离），cos距离的值越大，向量间越相似，所以选择和目标属性向量最相似的属性向量，用于后续人脸图像的合成。

步骤7：将选择的属性向量对应的潜在代码和待编辑人脸图像的潜在代码一起输入StyleGAN生成器，获得具有目标属性的人脸图像。

利用StyleGAN生成器生成的合成人脸图像即为具有目标属性的人脸图像。

本发明只需要建立在已有的StyleGAN生成器上，不需要新的数据标注和昂贵的训练成本。与背景技术中基于预训练StyleGAN编辑人脸图像属性的第一种方法相比，本方法可以精准的控制人脸图像属性编辑，也就是说在将输入图像变换为具有目标属性的目标域人脸图像过程中，可以更少的改变原人脸图像的其他属性特征。

本发明实施例还提供了一种人脸图像属性编辑系统，包括：

映射器建立模块，用于建立潜在代码到属性向量的映射器；

本发明实施例提供的人脸图像属性编辑系统与上述实施例所述的人脸图像属性编辑方法，其工作原理和有益效果类似，故此处不再详述，具体内容可参见上述方法实施例的介绍。

本发明还提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如前述的人脸图像属性编辑方法。

此外，上述的存储器中的计算机程序通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如前述的人脸图像属性编辑方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种人脸图像属性编辑方法，其特征在于，包括：

建立潜在代码到属性向量的映射器；

2.根据权利要求1所述的人脸图像属性编辑方法，其特征在于，所述建立潜在代码到属性向量的映射器，具体包括：

利用分类器对人脸图像集中的各人脸图像进行分类，并提取每张人脸图像的属性向量；

使用优化或者回归的方法提取每张人脸图像的潜在代码；

基于每张人脸图像的潜在代码和属性向量对，训练获得潜在代码到属性向量的映射器。

3.根据权利要求1所述的人脸图像属性编辑方法，其特征在于，高斯建模人脸图像集中人脸图像的潜在代码各维度分布，具体包括：

确定人脸图像集中每张人脸图像相应的StyleGAN生成器潜在代码；

高斯建模所有潜在代码的各维度分布。

4.根据权利要求1所述的人脸图像属性编辑方法，其特征在于，高斯建模人脸图像集中目标属性条件下人脸图像的潜在代码各维度条件分布，具体包括：

对人脸图像集中的人脸图像按属性分组，获得每个属性对应的人脸图像组；

确定每个属性对应的人脸图像组的StyleGAN生成器潜在代码；

根据每个属性对应的人脸图像组的StyleGAN生成器潜在代码，高斯建模每个属性对应的各维度潜在代码分布，并从中获取目标属性对应的各维度潜在代码分布，作为目标属性条件下人脸图像的潜在代码各维度条件分布。

5.根据权利要求1所述的人脸图像属性编辑方法，其特征在于，在所述潜在代码修改子空间中随机生成多个潜在代码，具体包括：

针对所述潜在代码修改子空间中的每个维度，在以均值为中心且长度为6倍标准差的一维区间中均匀采样多个点；所述均值和标准差为所述潜在代码修改子空间中的每个维度对应的高斯建模维度分布或维度条件分布的均值和标准差；

将所有维度均匀采样得到的点作为在所述潜在代码修改子空间中随机生成的潜在代码。

6.一种人脸图像属性编辑系统，其特征在于，包括：

映射器建立模块，用于建立潜在代码到属性向量的映射器；

7.一种电子设备，其特征在于，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的人脸图像属性编辑方法。

8.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被执行时实现如权利要求1至5中任一项所述的人脸图像属性编辑方法。