CN112164125A

CN112164125A - 一种监督可控的人脸多属性分离生成的方法

Info

Publication number: CN112164125A
Application number: CN202010964481.3A
Authority: CN
Inventors: 阮智辉; 张见威
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2021-01-01
Anticipated expiration: 2040-09-15
Also published as: CN112164125B

Abstract

本发明公开了一种监督可控的人脸多属性分离生成的方法，方法包括以下步骤：收集人脸数据集合作为神经网络训练数据集；设计监督可控的人脸多属性分离MDCS神经网络；将收集的训练数据集作为MDCS神经网络的训练数据集，对MDCS神经网络进行训练；将待提取属性的人脸图像输入训练完成的MDCS神经网络，生成指定属性的目标人脸图像。本发明利用设计的MDCS神经网络，其可以根据客户需要定制的目标和现有的数据标签集合来进行人脸属性的分离与生成，解决全监督人脸生成方法标记属性过程繁琐，降低标记人员的工作量；且无监督的人脸生成方法生成图像质量低，无法满足部分需要指定特定监督信息的应用场景的情况。

Description

一种监督可控的人脸多属性分离生成的方法

技术领域

本发明属于人脸生成技术领域，具体涉及一种监督可控的人脸多属性分离生成的方法。

背景技术

人脸生成技术，对于各个产业有着巨大的辅助作用。特别是人脸生成技术中指定目标条件的人脸生成方法，在各个行业中都用巨大的潜在利用价值：在医美行业中，其可以帮助客户快速客制化其理想的展示状态，使得客户经理得以快速了解客户需求；在美妆产业中，该技术可便捷地在客户的面孔上渲染客户所选择的产品，且尽可能地模拟真实场景以让客户感受商品与之的契合程度；在刑侦过程中，存在所涉摄像头没有清晰记录目标人员的正面肖像时，人脸生成技术还可以通过人脸侧面肖像还原人脸的正面肖像，这对于刑侦人员侦破案件具有重要的意义。与此同时，人脸生成技术还是突破人脸识别技术瓶颈的方式之一。

当前现有指定目标条件的人脸生成方法中，Lample G等人、Choi Y等人以及专利“一种可控制属性的人脸生成方法、装置、系统及介质”等提出的全监督人脸生成方法虽可以控制目标人脸的单个或多个属性控制生成，但对于每一个控制属性都需要进行标记，而对于图片中光照，遮挡这类的属性，没有一个清晰的标准和分类，这对于属性标记人员而言，工作量是相当巨大和困难的。

Higgins I等人、Kim H等人以及Hu Q等人提出的人脸生成方法虽不需要监督信息，但是生成图像质量较低，对于某些具有高级语义的属性，无监督的生成方法没有办法分离并控制，且在某些应用场景中，指定特定的监督信息是必须的。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提出一种监督可控的人脸多属性分离生成的方法，该方法首先设计MDCS神经网络，利用MDCS神经网络根据客户需要定制的目标和现有的数据标签集合来进行人脸属性的分离与生成，解决全监督人脸生成方法标记属性过程繁琐的问题，降低标记人员的工作量。

为了达到上述目的，本发明采用以下技术方案：

本发明提供的一种监督可控的人脸多属性分离生成的方法，包括以下步骤：

收集人脸数据集合作为神经网络训练数据集，所述人脸数据集合中每一实例由共同的属性因子组成，所述属性因子包括肤色、发型、刘海、眼睛、口罩以及光线的一种或多种；

设计监督可控的人脸多属性分离MDCS神经网络，所述MDCS神经网络为一个端到端的神经网络，包括四个子网络，分别为负责将输入高维人脸图像转换为低维特征向量的编码网络Encoder、负责将低维特征向量转换为高维人脸图像的解码网络Decoder、负责对抗训练和多属性分类的判别网络Discriminator以及负责辅助输入图像属性解耦的分类网络Classifier，四个子网络均包括卷积层、归一化层以及全连接层；

将收集的训练数据集作为MDCS神经网络的训练数据集，对MDCS神经网络进行训练，将多张人脸图像通过Encoder生成多个特征向量，特征向量混合，得到混合特征向量，混合特征向量恢复，得到与原始特征向量对应的生成人脸图像；将多张原始人脸图像与生成人脸图像输入Discriminator，将原始图像对以及生成人脸图像输入到Classifier，计算目标函数，循环优化并更新网络参数，直至目标函数收敛，保存训练完成的MDCS神经网络参数；

将待提取属性的人脸图像输入训练完成的MDCS神经网络，生成指定属性的目标人脸图像。

优选的，所述属性因子根据MDCS神经网络监督形式，通过Encoder处理输出的特征向量分割为特异因子结构和非特异因子结构，特异因子结构与非特异因子结构统称为因子结构，特异因子结构在MDCS神经网络中表示被监督的属性因子，即在MDCS神经网络中使用人工标记的标签进行监督控制的属性因子；非特异因子结构在MDCS神经网络中表示无监督的属性因子，即在MDCS神经网络中需要通过数据自行监督分离的属性因子。

优选的，一个特征向量存在多个因子结构，当其中特异因子结构数量为0时，则全为非特异因子结构，表示MDCS神经网络将对所有属性因子无监督地分离及生成；当其中非特异因子结构数量为0时，则全为特异因子结构，表示MDCS神经网络将对所有属性因子完全监督地分离及生成；当特征向量中一部分为特异因子结构，一部分为非特异因子结构时，表示MDCS神经网络将对属性因子部分监督地分离及生成，其中的特异因子有监督地分离和生成，非特异因子无监督地分离和生成。

优选的，所述四个子网络的具体架构为：

Encoder与Decoder形成自动编码器结构，Encoder输入为数据集人脸图像，输出为由多个特异因子结构与非特异因子结构组成的特征向量；

Discriminator输入与Encoder相同，输出为长度为n+1维的向量，其中n维为n个Softmax激活函数的输出，剩余1维为Discriminator对抗生成结果，用于优化Encoder与Decoder的输出；

Decoder输入为Encoder输出的特征向量，输出为生成人脸图像，其图像大小与数据集人脸图像相同；

Classifier输入为三张人脸图像在RGB颜色通道维度拼接形成的通道矩阵，输出为长度为t维的向量，其中t维均为t个Sigmoid激活函数的输出；

其中t为特征向量中因子结构数量，n为特异因子结构数量。

优选的，所述对MDCS神经网络进行训练具体为：

将多张人脸图像通过Encoder映射生成多个特征向量，一个特征向量解码一个人脸图像，其中每一个特征向量均等分为多块，每块表示人脸的不同属性因子并分为特异因子结构与非特异因子结构；

从多个特征向量中随机抽取两个特征向量形成特征向量对，针对多个特征向量对使用特征向量混合机制，得到混合特征向量，将特征向量与混合特征向量依次输入至Decoder，得到多张生成人脸图像，每一个图像所表示的属性特征与特征向量以及混合特征向量中的各因子结构表达的属性因子一一对应；

使用混合特征向量恢复机制将混合特征向量恢复至特征向量对，对特征向量对进行解码，得到生成人脸图像，其与输入到Encoder网络的原始人脸图像所表现特征完全相同；

将多张人脸图像与生成人脸图像同时输入至Discriminator，优化对抗生成人脸图像的生成质量；同时，利用Discriminator对人脸图像根据特异属性因子进行分类，优化生成人脸图像所表达的特异属性因子与特异属性因子的人工标签保持一致；

从数据集中随机采样得到的两张人脸图像，使用Encoder映射得到两个特征向量，通过特征向量混合机制，混合该两个特征向量得到混合特征向量，通过Decoder解码该混合特征向量得到生成人脸图像，在图像通道上拼接两张人脸图像以及生成人脸图像并输入至Classifier，计算生成人脸图像表现的各个非特异属性因子来自于两张人脸图像的概率，优化非特异属性因子在生成人脸图像的表示；

计算目标函数，循环优化并更新网络参数，直至目标函数收敛，保存训练完成的MDCS神经网络参数。

优选的，所述特征向量混合机制具体为：

设Encoder编码输入图像所得到的特征向量分为t个因子结构，采样一个服从0-1分布的长度为t的向量v；

将随机采样的两个人脸图像编码得到的特征向量根据v中元素选择不同的因子结构，若为0，则从第一个特征向量中选择因子结构，若为1，则从第二个特征向量中选择因子结构，共选择t块，t为特征向量的因子结构个数之和。

优选的，所述混合特征向量恢复机制具体为：

将混合特征向量输入Decoder，获得混合属性的生成人脸图像；

将混合属性的生成人脸图像输入Encoder，获得重构混合特征向量；

对混合特征向量构造所使用的服从0-1分布的长度为t的向量v按位取反，获得向量

利用重构混合特征向量以及构造其的第一个特征向量根据

中元素选择不同的因子结构；若为0，则从重构混合特征中选择因子结构，若为1，则从构造其的第一个特征向量中选择因子结构，共选择t块，t为特征向量的因子结构个数之和；

将所选择因子结构按照特征向量对应位置进行拼接，得到重构第一个特征向量；

再次解码重构第一个特征向量，获取重构生成图像，其所表示的属性与其原始人脸图像相同。

优选的，所述目标函数包括：

基于自动编码器生成图像重构的目标函数，具体为：

其中，其中θ_Enc与θ_Dec表示Encoder和Decoder的参数；

为输入人脸图像域x的重构图像域；x₁为输入MDCS神经网络Encoder的人脸图像，该目标函数计算原始人脸图像x₁以及通过Encoder和Decoder生成的与原始人脸图像一一对应的生成人脸图像的均方误差实现自动编码器的特征恢复过程；

通过混合特征向量恢复机制得到的重构生成图像与原始输入图像基于自动编码器的一致目标函数，具体为：

其中，x′₁为通过混合特征向量恢复机制得到的重构生成图像，该目标函数计算原始输入图像x₁以及x′₁的均方误差以实现各个属性因子分离以及再融合生成的目的；

通过Discriminator计算的生成人脸图像与原始人脸图像的特异因子分类目标函数，具体为：

其中，θ_Dis是MDCS神经网络的Discriminator的参数；S是被监督属性的标签集合，x_mix是通过征向量混合机制获得的混合特征向量解码得到的生成人脸图像，其中x_mix携带x₁所有的特异因子结构，全部、部分或完全不携带x₁的非特异因子结构；该目标函数同时分类输入原始人脸图像域以及生成人脸图像域，加速MDCS神经网络的收敛，保证生成指定属性因子的图像；

通过Discriminator计算的对抗生成目标函数：

其中，该目标函数旨在利用MDCS神经网络的Discriminator与Encoder和Decoder对抗训练，意在将生成图像域x对齐原始图像域

通过Classifier计算生成图像所属的二分类目标函数，具体为：

其中，θ_Cls是MDCS神经网络的Classifier；

是对于x_mix所表现的属性来源是x₁还是x₂的概率，t为特征向量中因子结构的个数。

优选的，所述MDCS神经网络的目标函数包括：

L_total(θ_Enc,θ_Dec,θ_Cls,θ_Dis)＝αL_sc+βL_adv+γL_mix+δL_cls+σL_recon,

其中，α，β，γ，δ，σ为各目标函数的权重。

优选的，所述生成指定属性的目标人脸图像具体包括以下步骤：

加载训练完成的MDCS神经网络参数；

将选择的目标属性的人脸图像依次输入至Encoder，得到对应特征向量集合；

针对特征向量中表示不同属性的因子结构，按照目标属性对应的因子结构进行拼接，形成融合特征向量；

将融合特征向量输入Decoder，获得目标属性人脸生成图像。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明利用设计的MDCS神经网络，根据客户需要定制的目标和现有的数据标签集合来进行人脸属性的分离与生成，与全监督人脸生成方法相比，MDCS神经网络可以适应全监督、部分监督、甚至无监督形式的学习任务；大大减少属性标记人员的工作量，且适用于更广泛的应用场景；与无监督的人脸生成方法相比，MDCS神经网络更为可控，对与特定的应用场景，且要求生成质量较高的情况下，MDCS神经网络可以依赖属性标签来生成，而剩余的图像属性MDCS神经网络还可以自动分离和生成，给用户更多选择的可能。

附图说明

图1是本发明方法的整体流程图；

图2是MDCS神经网络组件图；

图3为MDCS神经网络训练结构图；

图4为MDCS神经网络被监督属性分离生成部分训练结构图；

图5为MDCS神经网络无监督属性分离生成部分训练结构图；

图6为MDCS神经网络多属性分离人脸生成流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本发明针对现有的人脸生成方法中，无法灵活控制监督形式的问题，提出了一种监督可控的人脸多属性分离生成的方法，利用本发明设计的MDCS神经网络，其可以根据客户需要定制的目标和现有的数据标签集合来进行人脸属性的分离与生成。当学习任务存在部分目标属性标签时，MDCS神经网络可以完成部分监督的学习任务——对于具有标签的目标属性进行有监督的分离与生成，对于没有标签的属性进行无监督的分离和生成；当学习任务不存在任何属性标签时，MDCS神经网络可以对所有属性进行无监督的分离与生成；当学习任务对所有属性进行了标签时，MDCS神经网络对所有属性完全监督的分离与生成。

实施例

如图1所示，本发明提供的一种监督可控的人脸多属性分离生成的方法包括以下步骤：

S1、收集人脸数据集合作为神经网络训练数据集，所述人脸数据集合中每一实例由共同的属性因子组成，所述属性因子包括肤色、发型、刘海、眼睛、口罩以及光线等；

在本实施例中，采用公共人脸数据集CelebA作为实例；

所述属性因子根据MDCS神经网络监督形式，通过Encoder处理输出的特征向量分割为特异因子结构和非特异因子结构，特异因子结构与非特异因子结构统称为因子结构，特异因子结构在MDCS神经网络中为被监督的属性因子，即在MDCS神经网络中使用人工标记的标签进行监督控制的属性因子；非特异因子结构在MDCS神经网络中为无监督的属性因子，即在MDCS神经网络中需要通过数据自行监督分离的属性因子。每个特征向量存在多个因子结构，当其中特异因子结构数量为0时，则全为非特异因子结构，表示MDCS神经网络将对所有属性因子无监督地分离及生成；当其中非特异因子结构数量为0时，则全为特异因子结构，表示MDCS神经网络将对所有属性因子完全监督地分离及生成；当特征向量中一部分为特异因子结构，一部分为非特异因子结构时，表示MDCS神经网络将对属性因子部分监督地分离及生成，其中的特异因子有监督地分离和生成，非特异因子无监督地分离和生成。

S2、设计监督可控的人脸多属性分离MDCS神经网络；

在本实施例中，如图2所示，所述MDCS神经网络为一个端到端的神经网络，包括四个子网络，分别为负责将输入高维人脸图像转换为低维特征向量的编码网络Encoder、负责将低维特征向量转换为高维人脸图像的解码网络Decoder、负责对抗训练和多属性分类的判别网络Discriminator以及负责辅助输入图像属性解耦的分类网络Classifier；四个子网络均由卷积层、归一化层以及全连接层组成。

Discriminator输入与Encoder相同，输出为长度为n+1维的向量，其中前n维为n个Softmax激活函数的输出，剩余1维为Discriminator对抗生成结果，用于优化Encoder与Decoder的输出；

Decoder输入为Encoder输出的特征向量，输出为生成人脸图像，其图像大小与数据集人脸图像的大小相同；

Classifier输入为三张人脸图像在RGB颜色通道维度拼接形成的通道矩阵，输入为长度为t维的向量，其中t维均为t个Sigmoid激活函数的输出；

其中t为特征向量中因子结构数量，n为特异因子结构数量。

S3、将收集的训练数据集作为MDCS神经网络的训练数据集，对MDCS神经网络进行训练，具体为：

所述特征向量混合机制具体为：

将随机采样的两个输入图像编码得到的特征向量根据v中元素选择不同的因子结构，若为0，则从第一个特征向量中选择因子结构，若为1，则从第二个特征向量中选择因子结构，共选择t块，t为特征向量的因子结构个数之和。

所述混合特征向量恢复机制具体为：

将混合特征向量输入Decoder，获得混合属性生成人脸图像；

将混合属性生成人脸图像输入Encoder，获得重构混合特征向量；

利用重构混合特征向量以及构造其的第一个特征向量根据

在本实施例中，如图3所示，x₁和x₂为从训练数据集随机采样的输入人脸图像，通过Encoder得到输入图像对应的特征向量，在本实施例中，假设特征向量均等分为6个因子结构，其中存在3个特异因子结构(图中黑色边框块)以及3个非特异因子结构(图中灰色边框块)。每个因子结构中的数字意在指示该结构是由x₁编码得到还是由x₂编码得到的。MDCS神经网络主要完成两个任务：特异因子分离生成与非特意因子分离生成。对于MDCS神经网络的训练过程，下文对所述实施例以MDCS神经网络的目标任务展开叙述：

S31、特异因子分离生成：

对于MDCS神经网络中特异因子分离生成部分训练结构如图4所示。将训练数据集随机采样的输入人脸图像x₁和x₂输入到Encoder中，获得与输入人脸图像对应的特征向量f₁和f₂；通过特征向量混合机制获得混合特征向量f_mix，其中f_mix中的特异因子结构都来自于f₁，因此f₁和f_mix都应该表达x₁的特异因子。通过Decoder解码f_mix得到混合恢复图像x_m ^x，将混合恢复图像x_mix以及x₁依次输入至Discriminator，对于每个特异因子，极大化在生成人脸图像产生的概率，概率记为

其中θ_Dis是Discriminator的参数，S是特异因子的标签集合。因此，特异因子分离目标函数记为：

其中θ_Enc,θ_Dec是Encoder和Decoder的参数，s是x₁和x_mix的特异因子标签，

是生成图像采样从生成人脸图像域的结果。

此外，Discriminator还与自动编码器结构Encoder-Decoder进行对抗训练，对抗生成目标目标函数函数记为：

其中Dis是Discriminator输出的对抗结果，对抗训练为二分类损失函数，特异因子分离为多属性分类损失函数，因本实施例有3个特异因子，则Discriminator的输入为人脸图像，输出为1+3维长度的向量，其中1维为对抗训练输出结果，其余3维为被监督属性分离的输出结果。

S32、非特异因子分离生成：

对于MDCS神经网络中特异因子分离生成部分训练结构如图5所示。将训练数据集随机采样的输入人脸图像x₁和x₂输入到Encoder中，获得与输入人脸图像对应的特征向量f₁和f₂；通过特征向量混合机制获得混合特征向量f_mix；通过Decoder解码f_mix得到混合恢复图像x_mix；再次对x_mix进行编码得到重构的混合特征向量f′_mix，其中的非特异因子结构的构造来源有属于f₁的，也有属于f₂的，通过混合编码恢复机制将重构的混合特征向量f′_mix中来源是f₂非特异因子结构的用f₁对应位置的非特异因子结构替代，得到重构恢复的特征向量f′₁；再对f′₁进行解码，得到解混合重构恢复的x′₁，其应当与输入图像x₁相同，因此，混合目标函数记为：

为了加强各属性的分离与生成，将采样得到的输入人脸图像x₁和x₂与混合特征向量解码得到的x_mix输入到Classifier中，本实施假设特征向量有6个因子结构，且对应不同属性，因此Classifier判断通过x₁和x₂的特征向量f₁和f₂混合生成的x_mix的属性因子是来自x₁还是x₂的，分类目标函数记为：

其中，θ_Cls是MDCS神经网络的Classifier，z是混合特征向量机制中采样的0-1分布长度为t的特征向量，t为因子结构个数，在本实施例中t＝6；

是对于x_mix所表现的属性来源是x₁还是x₂的概率。

此外，为了保证自动编码器结构的编码与解码能力，有重构目标函数：

MDCS神经网络的目标函数包括：

其中，α,β,γ,δ,σ为各目标函数的权重。

在本实施例中，训练MDCS神经网络采用了RMSprop算法进行优化，学习率为0.0003，训练批为64，共训练200个周期。

在MDCS神经网络收敛后，保存网络参数，用于多属性分离人脸生成。

S4、将待提取属性的人脸图像输入训练完成的MDCS神经网络，生成指定属性的目标人脸图像，具体为：

在本实施例中，如图6所示，包括以下步骤：

加载训练完成的MDCS神经网络参数；

针对特征向量集合中表示不同属性的因子结构，按照目标属性对应的因子结构进行拼接，形成融合特征向量；

将融合特征向量输入Decoder，获得目标属性人脸生成图像。

还需要说明的是，在本说明书中，诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种监督可控的人脸多属性分离生成的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种监督可控的人脸多属性分离生成的方法，其特征在于，所述属性因子根据MDCS神经网络监督形式，通过Encoder处理输出的特征向量分割为特异因子结构和非特异因子结构，特异因子结构与非特异因子结构统称为因子结构，特异因子结构在MDCS神经网络中表示被监督的属性因子，即在MDCS神经网络中使用人工标记的标签进行监督控制的属性因子；非特异因子结构在MDCS神经网络中表示无监督的属性因子，即在MDCS神经网络中需要通过数据自行监督分离的属性因子。

3.根据权利要求2所述的一种监督可控的人脸多属性分离生成的方法，其特征在于，一个特征向量存在多个因子结构，当其中特异因子结构数量为0时，则全为非特异因子结构，表示MDCS神经网络将对所有属性因子无监督地分离及生成；当其中非特异因子结构数量为0时，则全为特异因子结构，表示MDCS神经网络将对所有属性因子完全监督地分离及生成；当特征向量中一部分为特异因子结构，一部分为非特异因子结构时，表示MDCS神经网络将对属性因子部分监督地分离及生成，其中的特异因子有监督地分离和生成，非特异因子无监督地分离和生成。

4.根据权利要求2所述的一种监督可控的人脸多属性分离生成的方法，其特征在于，所述四个子网络的具体架构为：

其中t为特征向量中因子结构数量，n为特异因子结构数量。

5.根据权利要求2所述的一种监督可控的人脸多属性分离生成的方法，其特征在于，所述对MDCS神经网络进行训练具体为：

6.根据权利要求5所述的一种监督可控的人脸多属性分离生成的方法，其特征在于，所述特征向量混合机制具体为：

7.根据权利要求5所述的一种监督可控的人脸多属性分离生成的方法，其特征在于，所述混合特征向量恢复机制具体为：

将混合特征向量输入Decoder，获得混合属性的生成人脸图像；