CN117934991A

CN117934991A - 一种基于身份保持的多类面部表情图片生成技术

Info

Publication number: CN117934991A
Application number: CN202410015401.8A
Authority: CN
Inventors: 庞孟; 周崟涛; 黄伟; 吕博强; 徐后炜; 刘超
Original assignee: Nanchang University
Current assignee: Nanchang University
Priority date: 2024-01-05
Filing date: 2024-01-05
Publication date: 2024-04-26
Anticipated expiration: 2044-01-05
Also published as: CN117934991B

Abstract

本发明涉及图像处理技术领域，特别涉及一种基于身份保持的多类面部表情图片生成技术，包括条件生成对抗网络模型训练、多类面部表情图片生成两个步骤。本发明能够根据主体中性表情图片生成包含该主体六类基本不同面部表情(愤怒、厌恶、恐惧、快乐、悲伤、以及惊讶)的面部图片，具有灵活性和实用性；另外，该技术能够在生成主体多类面部表情图片的同时保持主体身份信息，使得生成图片更为自然逼真，具有良好的应用前景。

Description

一种基于身份保持的多类面部表情图片生成技术

技术领域

本发明涉及图像处理技术领域，特别涉及一种基于身份保持的多类面部表情图片生成技术。

背景技术

面部表情是人类交流中重要的一环，它对于传递人类情感和目的具有至关重要的作用。在人类对面部表情的长期探索中，逐渐形成了一套独特的认识体系，这套体系也运用在了日常生活中。目前普遍认为，基本的面部表情分为七种：中性、愤怒、厌恶、恐惧、快乐、悲伤和惊讶，面部表情编码系统(FACS)参考了人脸解剖学，将人脸划分成若干个独立的面部肌肉运动单元(AU)，并对这些运动单元的特征进行了分析与归类，最终把不同的面部表情对应到不同的AU组合。

面部表情生成是指对原有面部图片中的表情进行编辑，从而生成新的面部表情图片。随着计算机技术的不断发展，面部表情生成技术也取得了较大的进展，并逐渐应用到生产生活的各个领域当中。在影视娱乐领域，面部表情生成技术可以用于虚拟现实、影视后期制作和游戏角色面部设计等；在商业营销领域，面部表情生成技术可以用于商品展示和广告创意中，通过生成情感丰富的面部表情图片增强宣传效果；在医疗健康领域，面部表情生成技术能够生成带有各种表情的患者面部图片，从而为临床诊断提供了更加充足的数据。

早期的面部表情生成研究主要关注基于传统手工设计特征的生成方法，主要分为基于三维可变形人脸模型的面部表情生成方法和基于加权扭曲的面部表情生成方法，但这两类方法均需要人为干预和大量资源，无法大规模应用。近年来，随着深度学习的发展，以生成对抗网络(GAN)为代表的深度学习模型在图片生成方面取得了很大进展，逐渐成为面部表情生成的主流方法。生成对抗网络是一种通过两个神经网络相互博弈的方式进行学习的非监督式生成模型，旨在生成以假乱真的虚拟图片。条件生成对抗网络通过在GAN中施加条件约束来引导网络模型生成目标结果，利用条件生成对抗网络的面部表情生成方法通过施加表情类别约束来确保生成包含目标表情的面部图片。然而，这类面部表情生成方法存在两方面局限：第一，每次只能训练模型学习生成单类面部表情图片，例如根据中性面部表情图片生成愤怒面部表情图片，而无法生成多类面部表情图片，例如根据中性面部表情图片生成其余六类基本不同面部表情(愤怒、厌恶、恐惧、快乐、悲伤和惊讶)图片，灵活性和实用性较低；第二，没有考虑在生成面部表情图片的同时保持主体的身份信息，在改变原图片面部表情的同时也改变了其他与表情无关的身份信息，比如脸型和发色，从而降低了表情图片的生成效果。

因此本发明提出一种通过条件生成对抗网络实现基于身份保持的多类面部表情图片生成的技术，该技术能够根据主体中性表情图片生成包含该主体其余六类基本不同面部表情(愤怒、厌恶、恐惧、快乐、悲伤、以及惊讶)的面部图片，具有灵活性和实用性；另外，该技术能够在生成主体多类面部表情图片的同时保持主体的身份信息，使得生成图片更为自然逼真。

发明内容

针对现有技术中的上述不足，本发明提供了一种实用而生成效果逼真的基于身份保持的多类面部表情图片生成技术，可应用于多个领域。

一种基于身份保持的多类面部表情图片生成技术，包括以下步骤：

S1、条件生成对抗网络模型训练：

生成对抗网络模型包含一个生成器G和一个多任务判别器D，所述判别器D包含三个子判别器，分别为对抗相关的子判别器D^gan、表情分类相关的子判别器D^exp和身份相关的子判别器D^id，即D＝[D^gan，D^exp，D^id]；

所述生成器G包括下采样模块、骨干网络以及上采样模块，其中所述下采样模块负责将输入图片编码为潜在向量；所述骨干网络负责对潜在向量进行特征提取；所述上采样模块负责将潜在向量还原为图片；

所述判别器D包括输入层、隐藏层和三个相互独立的输出层，所述输入层负责接收输入图片，所述隐藏层负责特征提取，所述输出层负责将提取的特征转换为结果向量，最后三个相互独立的输出层分别输出判别真伪的结果向量、表情分类的结果向量和身份预测的结果向量，分别对应D^gan、D^exp和D^id三个子判别器的功能；

在生成对抗网络框架中引入表情与身份标签信息约束、循环一致性约束、以及目标一致性约束条件限制，引导模型学习基于身份保持的多类面部表情图片生成；

1)表情与身份标签信息约束：

在模型中引入表情标签信息约束，使生成器G在目标表情标签c′的引导下，基于输入的真实图片x生成包含目标表情的面部图片x′；与此同时，利用表情标签训练子判别器D^exp学习对输入图片进行表情分类；

表情标签信息约束通过在模型训练目标函数中引入表情分类损失L_cls来实现；

其次，在模型中引入身份标签信息约束，身份标签信息约束通过在模型训练目标函数中引入身份预测损失L_id来实现；

另外，在模型训练目标函数中引入对抗损失L_adv，在对抗损失中引入梯度惩罚项以使模型的训练过程更加稳定并提升生成图片的质量；

2)循环一致性约束：

在模型中引入循环一致性约束，本约束可通过在模型训练目标函数中引入循环一致性损失L_cyc来实现；

3)目标一致性约束：

在模型中引入目标一致性约束，目标一致性约束通过在模型训练目标函数中引入目标一致性损失L_tcl来实现；

条件生成对抗网络的最终损失函数如公式(6)所示：

L_total＝L_adv+λ_cisL_cls+λ_idL_id+λ_cycL_cyc+λ_tclL_tcl (6)

其中，λ_cls、λ_id、λ_cyc和λ_tcl分别表示表情分类损失L_cls、身份预测损失L_id、循环一致性损失L_cyc和目标一致性损失L_tcl的权重超参数；

S2、多类面部表情图片生成：

在条件生成对抗网络模型的训练完成后，向训练完成的模型生成器中输入主体的中性表情图片和目标表情标签，通过调整目标表情标签使其表示六类基本不同表情，使得生成器生成包含所述主体六类基本不同表情的面部图片，生成的面部表情图片在表现表情特征的同时保留主体的身份信息，该过程用公式(7)表示，

I_expr＝G(I_neutral，c_expr) (7)

其中，G表示训练完成的生成器，I_neutral表示主体的中性表情面部图片，c_expr表示目标表情标签，I_expr表示生成的目标表情面部图像。

作为优选的，所述表情分类损失L_cls的计算形式如公式(1)所示：

其中，x^*表示输入的真实图片或生成图片，c^*表示对应的表情标签；D^exp(c^*|x^*)表示子判别器D^exp预测输入图片属于不同表情的概率分布，表示对-logD^exp(c^*|c^*)的极大似然估计。

作为优选的，所述身份预测损失L_id的其计算形式如公式(2)所示：

其中，表示子判别器D^id输出向量的第i维，/>表示真实图片x的身份标签，表示对/>的极大似然估计，/>表示对/>的极大似然估计。

作为优选的，所述对抗损失L_adv的计算形式如公式(3)所示：

其中，x和c′分别表示真实图片和目标表情标签，G(x，c′)表示向生成器G输入真实图片和目标表情标签后生成的图片，D^gan(x)表示将图片输入子判别器D^gan后得到的概率分布；E_x[D^gan(x)]表示对D^gan(x)的极大似然估计，E_x，c′[D^gan(G(x，c′))]表示对D^gan(G(x，c′))的极大似然估计；表示梯度惩罚项，λ_gp表示其权重超参数；/>表示从真实图片和生成图片中的均匀采样结果，/>表示将采样结果/>输入子判别器D^gan后得到的概率分布，/>表示/>的梯度，‖·‖₂表示L₂范数。

作为优选的，所述循环一致性损失L_cyc的计算形式如公式(4)所示：

其中，c表示原始表情标签，表示重构图片，‖·‖₁表示L1范数，/>表示对/>的极大似然估计。

作为优选的，所述目标一致性损失L_tcl的计算形式如公式(5)所示：

其中，x′表示生成器基于真实图片x和目标表情标签c′生成的图片，表示生成器基于生成图片x′和目标表情标签c′生成的图片，‖·‖₁表示L1范数，/>表示对的极大似然估计。

作为优选的，步骤S2中，所述六类基本不同表情包括愤怒、厌恶、恐惧、快乐、悲伤、以及惊讶。

本发明的有益效果为：

本发明提出了一种基于身份保持的多类面部表情图片生成技术，该技术分为以下两个步骤：第一，利用公共面部表情数据集训练包含表情与身份标签信息约束、循环一致性约束、以及目标一致性约束条件限制的条件生成对抗网络模型，使模型学习七类基本不同面部表情(中性、愤怒、厌恶、恐惧、快乐、悲伤、以及惊讶)之间的映射关系，从而实现生成主体多类面部表情图片的同时保持主体身份信息；第二，向训练完成的生成器中输入主体的中性表情图片和目标表情标签，通过调整目标表情标签使其表示六类基本不同表情(愤怒、厌恶、恐惧、快乐、悲伤、以及惊讶)，从而使生成器生成包含该主体六类基本不同表情(愤怒、厌恶、恐惧、快乐、悲伤、以及惊讶)的面部图片，生成面部表情图片在表现表情特征的同时保持主体的身份信息；

本发明能够根据主体中性表情图片生成包含该主体六类基本不同面部表情(愤怒、厌恶、恐惧、快乐、悲伤、以及惊讶)的面部图片，具有灵活性和实用性；另外，该技术能够在生成主体多类面部表情图片的同时保持主体身份信息，使得生成图片更为自然逼真，具有良好的应用前景。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应该被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明一种基于身份保持的多类面部表情图片生成技术的流程图；

图2为本发明步骤S1中条件对抗生成网络模型结构；

图3为本发明步骤S1中的表情与身份标签信息约束工作机制；

图4为本发明步骤S1中循环一致性约束及目标一致性约束工作机制；

图5为本发明步骤S2中的多类面部表情图片生成测试例；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

S1、条件生成对抗网络模型训练：

利用公共面部表情数据集训练包含表情与身份标签信息约束、循环一致性约束、以及目标一致性约束条件限制的条件生成对抗网络模型，使模型学习七类基本不同面部表情(中性、愤怒、厌恶、恐惧、快乐、悲伤、以及惊讶)之间的映射关系，从而实现生成主体多类面部表情图片的同时保持主体身份信息。

如图1所示，利用公共面部表情数据集训练条件生成对抗网络模型来学习基于身份保持的多类面部表情图片生成。本条件生成对抗网络模型包含一个生成器G和一个多任务判别器D，判别器D包含三个子判别器，分别为对抗相关的子判别器D^gan、表情分类相关的子判别器D^exp和身份相关的子判别器D^id，即D＝[D^gan，D^exp，D^id]。如图2所示，生成器由下采样模块、骨干网络以及上采样模块组成，其中下采样模块由卷积层(Conv)构成，其负责将输入图片编码为潜在向量；骨干网络由包含卷积层和跳跃连接的残差块构成，其负责对潜在向量进行特征提取；上采样模块由反卷积层(DeConv)和卷积层构成，其负责将潜在向量还原为图片。判别器由输入层、隐藏层和三个相互独立的输出层组成，输入层、隐藏层和输出层均由卷积层构成，输入层负责接收输入图片，隐藏层负责特征提取，输出层负责将提取的特征转换为结果向量，最后三个相互独立的输出层分别输出判别真伪的结果向量、表情分类的结果向量和身份预测的结果向量，分别对应D^gan、D^exp和D^id三个子判别器的功能。

本条件生成对抗网络模型在生成对抗网络框架中引入表情与身份标签信息约束、循环一致性约束、以及目标一致性约束条件限制，引导模型学习基于身份保持的多类面部表情图片生成。下面对引入的表情与身份标签信息约束、循环一致性约束、以及目标一致性约束条件限制分别进行介绍：

1)表情与身份标签信息约束：如图3所示，在模型中引入表情标签信息约束，使生成器G在目标表情标签c′的引导下，基于输入的真实图片x生成包含目标表情的面部图片x′；与此同时，利用表情标签训练子判别器D^exp学习对输入图片进行表情分类。表情标签信息约束使得本条件生成对抗网络模型能够利用包含多种表情的面部图片进行训练，学习多种表情之间的映射关系，从而实现多类面部表情图片生成。表情标签信息约束可通过在模型训练目标函数中引入表情分类损失L_cls来实现，其计算形式如公式(1)所示：

其次，在模型中引入身份标签信息约束，利用身份标签训练子判别器D^id学习对输入图片进行身份预测，并使得子判别器D^id对真实图片x和生成图片x′的身份预测结果尽可能一致。身份标签信息约束使模型在生成多类面部表情图片的同时保持主体身份信息，提升生成图片x′和真实图片x之间的身份一致性。身份标签信息约束可通过在模型训练目标函数中引入身份预测损失L_id来实现，其计算形式如公式(2)所示：

其中，表示子判别器D^id输出向量的第i维，/>表示真实图片x的身份标签，表示对/>的极大似然估计，/>表示对/>的极大似然估计。公式(2)的第一项使子判别器D^id学习准确地预测真实图片的身份标签/>公式(2)的第二项使子判别器D^id对于生成图片x′的身份预测结果与对于真实图片x的预测结果保持一致，从而使生成器G在生成表情图片时保留其主体身份信息。

另外，通过训练子判别器D^gan鉴别输入图片为真实的还是生成的，使其与生成器G进行对抗博弈，从而使模型生成的面部表情图片尽可能逼真。本过程可通过在模型训练目标函数中引入对抗损失L_adv来实现，在对抗损失中引入梯度惩罚项以使模型的训练过程更加稳定并提升生成图片的质量。对抗损失的计算形式如公式(3)所示：

2)循环一致性约束：如图4所示，在模型中引入循环一致性约束，使得生成器G不仅学习基于真实图片x和目标表情标签c′去生成图片x′，即x′＝G(x，c′)，还学习基于生成图片x’和原始表情标签c去重构图片即/>循环一致性约束通过限制真实图片x和重构图片/>之间的差异，以防止生成器生成与输入图片不相关的结果，从而提升模型生成面部表情图片x′与真实图片x之间的身份一致性。本约束可通过在模型训练目标函数中引入循环一致性损失l_cyc来实现，其计算形式如公式(4)所示：

3)目标一致性约束：在模型中引入目标一致性约束，将生成图片x′和目标表情标签c′再次输入生成器G，得到生成图片即/>目标一致性约束通过限制生成图片x′和/>之间的差异，使模型在生成面部图片的过程中只改变与表情相关的区域，而保持其他区域不变，从而提升模型生成的面部表情图片与真实图片之间的身份一致性。目标一致性约束可通过在模型训练目标函数中引入目标一致性损失L_tcl来实现，其计算形式如公式(5)所示：

基于上述等式(1)-(5)的五个损失函数，条件生成对抗网络的最终损失函数如公式(6)所示：

L_total＝L_adv+λ_clsL_cls+λ_idL_id+λ_cycL_cyc+λ_tclL_tcl (6)

其中，λ_cls、λ_id、λ_cyc和λ_tcl分别表示表情分类损失L_cls、身份预测损失L_id、循环一致性损失L_cyc和目标一致性损失L_tcl的权重超参数。

S2、多类面部表情图片生成：如图5所示：

按照公式(3)中的权重超参数λ_gp＝10、公式(6)中的权重超参数λ_cls＝1、λ_id＝2、λ_cyc＝10和λ_tcl＝10的超参数设定完成对条件生成对抗网络模型的训练后，向训练完成的生成器中输入主体的中性表情图片和目标表情标签，通过调整目标表情标签使其表示六类基本不同表情(愤怒、厌恶、恐惧、快乐、悲伤、以及惊讶)，从而使生成器生成包含该主体六类基本不同表情(愤怒、厌恶、恐惧、快乐、悲伤、以及惊讶)的面部图片，生成面部表情图片在表现表情特征的同时保持主体的身份信息。

该过程可用公式(7)表示：

I_expr＝G(I_neutral，c_expr) (7)

本发明方案实施过程中采用电脑合成的人脸图片作为原始图片使用，附图中图3和图5中的人脸均为电脑虚拟合成照片。

通过上述方法，本发明技术能够根据主体中性表情图片生成包含该主体六类基本不同面部表情(愤怒、厌恶、恐惧、快乐、悲伤、以及惊讶)的面部图片，具有灵活性和实用性；另外，该技术能够在生成主体多类面部表情图片的同时保持主体身份信息，使得生成图片更为自然逼真，具有良好的应用前景。

以上所述仅为本发明专利的较佳实施例而已，并不用以限制本发明专利，凡在本发明专利的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明专利的保护范围之内。

Claims

1.一种基于身份保持的多类面部表情图片生成技术，其特征在于，包括以下步骤：

S1、条件生成对抗网络模型训练：

1)表情与身份标签信息约束：

2)循环一致性约束：

3)目标一致性约束：

条件生成对抗网络的最终损失函数如公式(6)所示：

L_total＝L_adv+λ_clsL_cls+λ_idL_id+λ_cycL_cyc+λ_tclL_tcl (6)

S2、多类面部表情图片生成：

I_expr＝G(I_neutral，c_expr) (7)

2.根据权利要求1所述的一种基于身份保持的多类面部表情图片生成技术，其特征在于：所述表情分类损失L_cls的计算形式如公式(1)所示：

其中，x^*表示输入的真实图片或生成图片，c^*表示对应的表情标签；D^exp(c^*|x^*)表示子判别器D^exp预测输入图片属于不同表情的概率分布，表示对-log D^exp(c^*|x^*)的极大似然估计。

3.根据权利要求2所述的一种基于身份保持的多类面部表情图片生成技术，其特征在于：所述身份预测损失L_id的其计算形式如公式(2)所示：

4.根据权利要求3所述的一种基于身份保持的多类面部表情图片生成技术，其特征在于：所述对抗损失L_adv的计算形式如公式(3)所示：

5.根据权利要求4所述的一种基于身份保持的多类面部表情图片生成技术，其特征在于：所述循环一致性损失L_cyc的计算形式如公式(4)所示：

其中，c表示原始表情标签，表示重构图片，‖·‖₁表示L1范数，/>表示对的极大似然估计。

6.根据权利要求5所述的一种基于身份保持的多类面部表情图片生成技术，其特征在于：所述目标一致性损失L_tcl的计算形式如公式(5)所示：

7.根据权利要求1所述的一种基于身份保持的多类面部表情图片生成技术，其特征在于：步骤S2中，所述六类基本不同表情包括愤怒、厌恶、恐惧、快乐、悲伤、以及惊讶。