CN117934991B - 一种基于身份保持的多类面部表情图片生成技术 - Google Patents

一种基于身份保持的多类面部表情图片生成技术 Download PDF

Info

Publication number
CN117934991B
CN117934991B CN202410015401.8A CN202410015401A CN117934991B CN 117934991 B CN117934991 B CN 117934991B CN 202410015401 A CN202410015401 A CN 202410015401A CN 117934991 B CN117934991 B CN 117934991B
Authority
CN
China
Prior art keywords
picture
expression
identity
target
constraint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410015401.8A
Other languages
English (en)
Other versions
CN117934991A (zh
Inventor
庞孟
周崟涛
黄伟
吕博强
徐后炜
刘超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang University
Original Assignee
Nanchang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang University filed Critical Nanchang University
Priority to CN202410015401.8A priority Critical patent/CN117934991B/zh
Publication of CN117934991A publication Critical patent/CN117934991A/zh
Application granted granted Critical
Publication of CN117934991B publication Critical patent/CN117934991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像处理技术领域,特别涉及一种基于身份保持的多类面部表情图片生成技术,包括条件生成对抗网络模型训练、多类面部表情图片生成两个步骤。本发明能够根据主体中性表情图片生成包含该主体六类基本不同面部表情(愤怒、厌恶、恐惧、快乐、悲伤、以及惊讶)的面部图片,具有灵活性和实用性;另外,该技术能够在生成主体多类面部表情图片的同时保持主体身份信息,使得生成图片更为自然逼真,具有良好的应用前景。

Description

一种基于身份保持的多类面部表情图片生成技术
技术领域
本发明涉及图像处理技术领域,特别涉及一种基于身份保持的多类面部表情图片生成技术。
背景技术
面部表情是人类交流中重要的一环,它对于传递人类情感和目的具有至关重要的作用。在人类对面部表情的长期探索中,逐渐形成了一套独特的认识体系,这套体系也运用在了日常生活中。目前普遍认为,基本的面部表情分为七种:中性、愤怒、厌恶、恐惧、快乐、悲伤和惊讶,面部表情编码系统(FACS)参考了人脸解剖学,将人脸划分成若干个独立的面部肌肉运动单元(AU),并对这些运动单元的特征进行了分析与归类,最终把不同的面部表情对应到不同的AU组合。
面部表情生成是指对原有面部图片中的表情进行编辑,从而生成新的面部表情图片。随着计算机技术的不断发展,面部表情生成技术也取得了较大的进展,并逐渐应用到生产生活的各个领域当中。在影视娱乐领域,面部表情生成技术可以用于虚拟现实、影视后期制作和游戏角色面部设计等;在商业营销领域,面部表情生成技术可以用于商品展示和广告创意中,通过生成情感丰富的面部表情图片增强宣传效果;在医疗健康领域,面部表情生成技术能够生成带有各种表情的患者面部图片,从而为临床诊断提供了更加充足的数据。
早期的面部表情生成研究主要关注基于传统手工设计特征的生成方法,主要分为基于三维可变形人脸模型的面部表情生成方法和基于加权扭曲的面部表情生成方法,但这两类方法均需要人为干预和大量资源,无法大规模应用。近年来,随着深度学习的发展,以生成对抗网络(GAN)为代表的深度学习模型在图片生成方面取得了很大进展,逐渐成为面部表情生成的主流方法。生成对抗网络是一种通过两个神经网络相互博弈的方式进行学习的非监督式生成模型,旨在生成以假乱真的虚拟图片。条件生成对抗网络通过在GAN中施加条件约束来引导网络模型生成目标结果,利用条件生成对抗网络的面部表情生成方法通过施加表情类别约束来确保生成包含目标表情的面部图片。然而,这类面部表情生成方法存在两方面局限:第一,每次只能训练模型学习生成单类面部表情图片,例如根据中性面部表情图片生成愤怒面部表情图片,而无法生成多类面部表情图片,例如根据中性面部表情图片生成其余六类基本不同面部表情(愤怒、厌恶、恐惧、快乐、悲伤和惊讶)图片,灵活性和实用性较低;第二,没有考虑在生成面部表情图片的同时保持主体的身份信息,在改变原图片面部表情的同时也改变了其他与表情无关的身份信息,比如脸型和发色,从而降低了表情图片的生成效果。
因此本发明提出一种通过条件生成对抗网络实现基于身份保持的多类面部表情图片生成的技术,该技术能够根据主体中性表情图片生成包含该主体其余六类基本不同面部表情(愤怒、厌恶、恐惧、快乐、悲伤、以及惊讶)的面部图片,具有灵活性和实用性;另外,该技术能够在生成主体多类面部表情图片的同时保持主体的身份信息,使得生成图片更为自然逼真。
发明内容
针对现有技术中的上述不足,本发明提供了一种实用而生成效果逼真的基于身份保持的多类面部表情图片生成技术,可应用于多个领域。
一种基于身份保持的多类面部表情图片生成技术,包括以下步骤:
S1、条件生成对抗网络模型训练:
生成对抗网络模型包含一个生成器G和一个多任务判别器D,所述判别器D包含三个子判别器,分别为对抗相关的子判别器Dgan、表情分类相关的子判别器Dexp和身份相关的子判别器Did,即D=[Dgan,Dexp,Did];
所述生成器G包括下采样模块、骨干网络以及上采样模块,其中所述下采样模块负责将输入图片编码为潜在向量;所述骨干网络负责对潜在向量进行特征提取;所述上采样模块负责将潜在向量还原为图片;
所述判别器D包括输入层、隐藏层和三个相互独立的输出层,所述输入层负责接收输入图片,所述隐藏层负责特征提取,所述输出层负责将提取的特征转换为结果向量,最后三个相互独立的输出层分别输出判别真伪的结果向量、表情分类的结果向量和身份预测的结果向量,分别对应Dgan、Dexp和Did三个子判别器的功能;
在生成对抗网络框架中引入表情与身份标签信息约束、循环一致性约束、以及目标一致性约束条件限制,引导模型学习基于身份保持的多类面部表情图片生成;
1)表情与身份标签信息约束:
在模型中引入表情标签信息约束,使生成器G在目标表情标签c′的引导下,基于输入的真实图片x生成包含目标表情的面部图片x′;与此同时,利用表情标签训练子判别器Dexp学习对输入图片进行表情分类;
表情标签信息约束通过在模型训练目标函数中引入表情分类损失Lcls来实现;
其次,在模型中引入身份标签信息约束,身份标签信息约束通过在模型训练目标函数中引入身份预测损失Lid来实现;
另外,在模型训练目标函数中引入对抗损失Ladv,在对抗损失中引入梯度惩罚项以使模型的训练过程更加稳定并提升生成图片的质量;
2)循环一致性约束:
在模型中引入循环一致性约束,本约束可通过在模型训练目标函数中引入循环一致性损失Lcyc来实现;
3)目标一致性约束:
在模型中引入目标一致性约束,目标一致性约束通过在模型训练目标函数中引入目标一致性损失Ltcl来实现;
条件生成对抗网络的最终损失函数如公式(6)所示:
Ltotal=LadvcisLclsidLidcycLcyctclLtcl (6)
其中,λcls、λid、λcyc和λtcl分别表示表情分类损失Lcls、身份预测损失Lid、循环一致性损失Lcyc和目标一致性损失Ltcl的权重超参数;
S2、多类面部表情图片生成:
在条件生成对抗网络模型的训练完成后,向训练完成的模型生成器中输入主体的中性表情图片和目标表情标签,通过调整目标表情标签使其表示六类基本不同表情,使得生成器生成包含所述主体六类基本不同表情的面部图片,生成的面部表情图片在表现表情特征的同时保留主体的身份信息,该过程用公式(7)表示,
Iexpr=G(Ineutral,cexpr) (7)
其中,G表示训练完成的生成器,Ineutral表示主体的中性表情面部图片,cexpr表示目标表情标签,Iexpr表示生成的目标表情面部图像。
作为优选的,所述表情分类损失Lcls的计算形式如公式(1)所示:
其中,x*表示输入的真实图片或生成图片,c*表示对应的表情标签;Dexp(c*|x*)表示子判别器Dexp预测输入图片属于不同表情的概率分布,表示对-logDexp(c*|c*)的极大似然估计。
作为优选的,所述身份预测损失Lid的其计算形式如公式(2)所示:
其中,表示子判别器Did输出向量的第i维,表示真实图片x的身份标签,表示对的极大似然估计,表示对的极大似然估计。
作为优选的,所述对抗损失Ladv的计算形式如公式(3)所示:
其中,x和c′分别表示真实图片和目标表情标签,G(x,c′)表示向生成器G输入真实图片和目标表情标签后生成的图片,Dgan(x)表示将图片输入子判别器Dgan后得到的概率分布;Ex[Dgan(x)]表示对Dgan(x)的极大似然估计,Ex,c′[Dgan(G(x,c′))]表示对Dgan(G(x,c′))的极大似然估计;表示梯度惩罚项,λgp表示其权重超参数;表示从真实图片和生成图片中的均匀采样结果,表示将采样结果输入子判别器Dgan后得到的概率分布,表示的梯度,‖·‖2表示L2范数。
作为优选的,所述循环一致性损失Lcyc的计算形式如公式(4)所示:
其中,c表示原始表情标签,表示重构图片,‖·‖1表示L1范数,表示对的极大似然估计。
作为优选的,所述目标一致性损失Ltcl的计算形式如公式(5)所示:
其中,x′表示生成器基于真实图片x和目标表情标签c′生成的图片,表示生成器基于生成图片x′和目标表情标签c′生成的图片,‖·‖1表示L1范数,表示对的极大似然估计。
作为优选的,步骤S2中,所述六类基本不同表情包括愤怒、厌恶、恐惧、快乐、悲伤、以及惊讶。
本发明的有益效果为:
本发明提出了一种基于身份保持的多类面部表情图片生成技术,该技术分为以下两个步骤:第一,利用公共面部表情数据集训练包含表情与身份标签信息约束、循环一致性约束、以及目标一致性约束条件限制的条件生成对抗网络模型,使模型学习七类基本不同面部表情(中性、愤怒、厌恶、恐惧、快乐、悲伤、以及惊讶)之间的映射关系,从而实现生成主体多类面部表情图片的同时保持主体身份信息;第二,向训练完成的生成器中输入主体的中性表情图片和目标表情标签,通过调整目标表情标签使其表示六类基本不同表情(愤怒、厌恶、恐惧、快乐、悲伤、以及惊讶),从而使生成器生成包含该主体六类基本不同表情(愤怒、厌恶、恐惧、快乐、悲伤、以及惊讶)的面部图片,生成面部表情图片在表现表情特征的同时保持主体的身份信息;
本发明能够根据主体中性表情图片生成包含该主体六类基本不同面部表情(愤怒、厌恶、恐惧、快乐、悲伤、以及惊讶)的面部图片,具有灵活性和实用性;另外,该技术能够在生成主体多类面部表情图片的同时保持主体身份信息,使得生成图片更为自然逼真,具有良好的应用前景。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应该被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明一种基于身份保持的多类面部表情图片生成技术的流程图;
图2为本发明步骤S1中条件对抗生成网络模型结构;
图3为本发明步骤S1中的表情与身份标签信息约束工作机制;
图4为本发明步骤S1中循环一致性约束及目标一致性约束工作机制;
图5为本发明步骤S2中的多类面部表情图片生成测试例;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
一种基于身份保持的多类面部表情图片生成技术,包括以下步骤:
S1、条件生成对抗网络模型训练:
利用公共面部表情数据集训练包含表情与身份标签信息约束、循环一致性约束、以及目标一致性约束条件限制的条件生成对抗网络模型,使模型学习七类基本不同面部表情(中性、愤怒、厌恶、恐惧、快乐、悲伤、以及惊讶)之间的映射关系,从而实现生成主体多类面部表情图片的同时保持主体身份信息。
如图1所示,利用公共面部表情数据集训练条件生成对抗网络模型来学习基于身份保持的多类面部表情图片生成。本条件生成对抗网络模型包含一个生成器G和一个多任务判别器D,判别器D包含三个子判别器,分别为对抗相关的子判别器Dgan、表情分类相关的子判别器Dexp和身份相关的子判别器Did,即D=[Dgan,Dexp,Did]。如图2所示,生成器由下采样模块、骨干网络以及上采样模块组成,其中下采样模块由卷积层(Conv)构成,其负责将输入图片编码为潜在向量;骨干网络由包含卷积层和跳跃连接的残差块构成,其负责对潜在向量进行特征提取;上采样模块由反卷积层(DeConv)和卷积层构成,其负责将潜在向量还原为图片。判别器由输入层、隐藏层和三个相互独立的输出层组成,输入层、隐藏层和输出层均由卷积层构成,输入层负责接收输入图片,隐藏层负责特征提取,输出层负责将提取的特征转换为结果向量,最后三个相互独立的输出层分别输出判别真伪的结果向量、表情分类的结果向量和身份预测的结果向量,分别对应Dgan、Dexp和Did三个子判别器的功能。
本条件生成对抗网络模型在生成对抗网络框架中引入表情与身份标签信息约束、循环一致性约束、以及目标一致性约束条件限制,引导模型学习基于身份保持的多类面部表情图片生成。下面对引入的表情与身份标签信息约束、循环一致性约束、以及目标一致性约束条件限制分别进行介绍:
1)表情与身份标签信息约束:如图3所示,在模型中引入表情标签信息约束,使生成器G在目标表情标签c′的引导下,基于输入的真实图片x生成包含目标表情的面部图片x′;与此同时,利用表情标签训练子判别器Dexp学习对输入图片进行表情分类。表情标签信息约束使得本条件生成对抗网络模型能够利用包含多种表情的面部图片进行训练,学习多种表情之间的映射关系,从而实现多类面部表情图片生成。表情标签信息约束可通过在模型训练目标函数中引入表情分类损失Lcls来实现,其计算形式如公式(1)所示:
其中,x*表示输入的真实图片或生成图片,c*表示对应的表情标签;Dexp(c*|x*)表示子判别器Dexp预测输入图片属于不同表情的概率分布,表示对-logDexp(c*|c*)的极大似然估计。
其次,在模型中引入身份标签信息约束,利用身份标签训练子判别器Did学习对输入图片进行身份预测,并使得子判别器Did对真实图片x和生成图片x′的身份预测结果尽可能一致。身份标签信息约束使模型在生成多类面部表情图片的同时保持主体身份信息,提升生成图片x′和真实图片x之间的身份一致性。身份标签信息约束可通过在模型训练目标函数中引入身份预测损失Lid来实现,其计算形式如公式(2)所示:
其中,表示子判别器Did输出向量的第i维,表示真实图片x的身份标签,表示对的极大似然估计,表示对的极大似然估计。公式(2)的第一项使子判别器Did学习准确地预测真实图片的身份标签公式(2)的第二项使子判别器Did对于生成图片x′的身份预测结果与对于真实图片x的预测结果保持一致,从而使生成器G在生成表情图片时保留其主体身份信息。
另外,通过训练子判别器Dgan鉴别输入图片为真实的还是生成的,使其与生成器G进行对抗博弈,从而使模型生成的面部表情图片尽可能逼真。本过程可通过在模型训练目标函数中引入对抗损失Ladv来实现,在对抗损失中引入梯度惩罚项以使模型的训练过程更加稳定并提升生成图片的质量。对抗损失的计算形式如公式(3)所示:
其中,x和c′分别表示真实图片和目标表情标签,G(x,c′)表示向生成器G输入真实图片和目标表情标签后生成的图片,Dgan(x)表示将图片输入子判别器Dgan后得到的概率分布;Ex[Dgan(x)]表示对Dgan(x)的极大似然估计,Ex,c′[Dgan(G(x,c′))]表示对Dgan(G(x,c′))的极大似然估计;表示梯度惩罚项,λgp表示其权重超参数;表示从真实图片和生成图片中的均匀采样结果,表示将采样结果输入子判别器Dgan后得到的概率分布,表示的梯度,‖·‖2表示L2范数。
2)循环一致性约束:如图4所示,在模型中引入循环一致性约束,使得生成器G不仅学习基于真实图片x和目标表情标签c′去生成图片x′,即x′=G(x,c′),还学习基于生成图片x’和原始表情标签c去重构图片循环一致性约束通过限制真实图片x和重构图片之间的差异,以防止生成器生成与输入图片不相关的结果,从而提升模型生成面部表情图片x′与真实图片x之间的身份一致性。本约束可通过在模型训练目标函数中引入循环一致性损失lcyc来实现,其计算形式如公式(4)所示:
其中,c表示原始表情标签,表示重构图片,‖·‖1表示L1范数,表示对的极大似然估计。
3)目标一致性约束:在模型中引入目标一致性约束,将生成图片x′和目标表情标签c′再次输入生成器G,得到生成图片目标一致性约束通过限制生成图片x′和之间的差异,使模型在生成面部图片的过程中只改变与表情相关的区域,而保持其他区域不变,从而提升模型生成的面部表情图片与真实图片之间的身份一致性。目标一致性约束可通过在模型训练目标函数中引入目标一致性损失Ltcl来实现,其计算形式如公式(5)所示:
其中,x′表示生成器基于真实图片x和目标表情标签c′生成的图片,表示生成器基于生成图片x′和目标表情标签c′生成的图片,‖·‖1表示L1范数,表示对的极大似然估计。
基于上述等式(1)-(5)的五个损失函数,条件生成对抗网络的最终损失函数如公式(6)所示:
Ltotal=LadvclsLclsidLidcycLcyctclLtcl (6)
其中,λcls、λid、λcyc和λtcl分别表示表情分类损失Lcls、身份预测损失Lid、循环一致性损失Lcyc和目标一致性损失Ltcl的权重超参数。
S2、多类面部表情图片生成:如图5所示:
按照公式(3)中的权重超参数λgp=10、公式(6)中的权重超参数λcls=1、λid=2、λcyc=10和λtcl=10的超参数设定完成对条件生成对抗网络模型的训练后,向训练完成的生成器中输入主体的中性表情图片和目标表情标签,通过调整目标表情标签使其表示六类基本不同表情(愤怒、厌恶、恐惧、快乐、悲伤、以及惊讶),从而使生成器生成包含该主体六类基本不同表情(愤怒、厌恶、恐惧、快乐、悲伤、以及惊讶)的面部图片,生成面部表情图片在表现表情特征的同时保持主体的身份信息。
该过程可用公式(7)表示:
Iexpr=G(Ineutral,cexpr) (7)
其中,G表示训练完成的生成器,Ineutral表示主体的中性表情面部图片,cexpr表示目标表情标签,Iexpr表示生成的目标表情面部图像。
本发明方案实施过程中采用电脑合成的人脸图片作为原始图片使用,附图中图3和图5中的人脸均为电脑虚拟合成照片。
通过上述方法,本发明技术能够根据主体中性表情图片生成包含该主体六类基本不同面部表情(愤怒、厌恶、恐惧、快乐、悲伤、以及惊讶)的面部图片,具有灵活性和实用性;另外,该技术能够在生成主体多类面部表情图片的同时保持主体身份信息,使得生成图片更为自然逼真,具有良好的应用前景。
以上所述仅为本发明专利的较佳实施例而已,并不用以限制本发明专利,凡在本发明专利的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明专利的保护范围之内。

Claims (7)

1.一种基于身份保持的多类面部表情图片生成技术,其特征在于,包括以下步骤:
S1、条件生成对抗网络模型训练:
生成对抗网络模型包含一个生成器G和一个多任务判别器D,所述判别器D包含三个子判别器,分别为对抗相关的子判别器Dgan、表情分类相关的子判别器Dexp和身份相关的子判别器Did,即D=[Dgan,Dexp,Did];
所述生成器G包括下采样模块、骨干网络以及上采样模块,其中所述下采样模块负责将输入图片编码为潜在向量;所述骨干网络负责对潜在向量进行特征提取;所述上采样模块负责将潜在向量还原为图片;
所述判别器D包括输入层、隐藏层和三个相互独立的输出层,所述输入层负责接收输入图片,所述隐藏层负责特征提取,所述输出层负责将提取的特征转换为结果向量,最后三个相互独立的输出层分别输出判别真伪的结果向量、表情分类的结果向量和身份预测的结果向量,分别对应Dgan、Dexp和Did三个子判别器的功能;
在生成对抗网络框架中引入表情与身份标签信息约束、循环一致性约束、以及目标一致性约束条件限制,引导模型学习基于身份保持的多类面部表情图片生成;
1)表情与身份标签信息约束:
在模型中引入表情标签信息约束,使生成器G在目标表情标签c′的引导下,基于输入的真实图片x生成包含目标表情的面部图片x′;与此同时,利用表情标签训练子判别器Dexp学习对输入图片进行表情分类;
表情标签信息约束通过在模型训练目标函数中引入表情分类损失Lcls来实现;
其次,在模型中引入身份标签信息约束,身份标签信息约束通过在模型训练目标函数中引入身份预测损失Lid来实现;
另外,在模型训练目标函数中引入对抗损失Ladv,在对抗损失中引入梯度惩罚项以使模型的训练过程更加稳定并提升生成图片的质量;
2)循环一致性约束:
在模型中引入循环一致性约束,本约束可通过在模型训练目标函数中引入循环一致性损失Lcyc来实现;
3)目标一致性约束:
在模型中引入目标一致性约束,目标一致性约束通过在模型训练目标函数中引入目标一致性损失Ltcl来实现;
条件生成对抗网络的最终损失函数如公式(6)所示:
Ltotal=LadvclsLclsidLidcycLcyctclLtcl (6)
其中,λcls、λid、λcyc和λtcl分别表示表情分类损失Lcls、身份预测损失Lid、循环一致性损失Lcyc和目标一致性损失Ltcl的权重超参数;
S2、多类面部表情图片生成:
在条件生成对抗网络模型的训练完成后,向训练完成的模型生成器中输入主体的中性表情图片和目标表情标签,通过调整目标表情标签使其表示六类基本不同表情,使得生成器生成包含所述主体六类基本不同表情的面部图片,生成的面部表情图片在表现表情特征的同时保留主体的身份信息,该过程用公式(7)表示,
Iexpr=G(Ineutral,cexpr) (7)
其中,G表示训练完成的生成器,Ineutral表示主体的中性表情面部图片,cexpr表示目标表情标签,Iexpr表示生成的目标表情面部图像。
2.根据权利要求1所述的一种基于身份保持的多类面部表情图片生成技术,其特征在于:所述表情分类损失Lcls的计算形式如公式(1)所示:
其中,x*表示输入的真实图片或生成图片,c*表示对应的表情标签;Dexp(c*|x*)表示子判别器Dexp预测输入图片属于不同表情的概率分布,表示对-log Dexp(c*|x*)的极大似然估计。
3.根据权利要求2所述的一种基于身份保持的多类面部表情图片生成技术,其特征在于:所述身份预测损失Lid的其计算形式如公式(2)所示:
其中,表示子判别器Did输出向量的第i维,表示真实图片x的身份标签,表示对的极大似然估计,表示对的极大似然估计。
4.根据权利要求3所述的一种基于身份保持的多类面部表情图片生成技术,其特征在于:所述对抗损失Ladv的计算形式如公式(3)所示:
其中,x和c′分别表示真实图片和目标表情标签,G(x,c′)表示向生成器G输入真实图片和目标表情标签后生成的图片,Dgan(x)表示将图片输入子判别器Dgan后得到的概率分布;Ex[Dgan(x)]表示对Dgan(x)的极大似然估计,Ex,c′[Dgan(G(x,c′))]表示对Dgan(G(x,c′))的极大似然估计;表示梯度惩罚项,λgp表示其权重超参数;表示从真实图片和生成图片中的均匀采样结果,表示将采样结果输入子判别器Dgan后得到的概率分布,表示的梯度,‖·‖2表示L2范数。
5.根据权利要求4所述的一种基于身份保持的多类面部表情图片生成技术,其特征在于:所述循环一致性损失Lcyc的计算形式如公式(4)所示:
其中,c表示原始表情标签,表示重构图片,‖·‖1表示L1范数,表示对的极大似然估计。
6.根据权利要求5所述的一种基于身份保持的多类面部表情图片生成技术,其特征在于:所述目标一致性损失Ltcl的计算形式如公式(5)所示:
其中,x′表示生成器基于真实图片x和目标表情标签c′生成的图片,表示生成器基于生成图片x′和目标表情标签c′生成的图片,‖·‖1表示L1范数,表示对的极大似然估计。
7.根据权利要求1所述的一种基于身份保持的多类面部表情图片生成技术,其特征在于:步骤S2中,所述六类基本不同表情包括愤怒、厌恶、恐惧、快乐、悲伤、以及惊讶。
CN202410015401.8A 2024-01-05 2024-01-05 一种基于身份保持的多类面部表情图片生成技术 Active CN117934991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410015401.8A CN117934991B (zh) 2024-01-05 2024-01-05 一种基于身份保持的多类面部表情图片生成技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410015401.8A CN117934991B (zh) 2024-01-05 2024-01-05 一种基于身份保持的多类面部表情图片生成技术

Publications (2)

Publication Number Publication Date
CN117934991A CN117934991A (zh) 2024-04-26
CN117934991B true CN117934991B (zh) 2024-07-05

Family

ID=90755083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410015401.8A Active CN117934991B (zh) 2024-01-05 2024-01-05 一种基于身份保持的多类面部表情图片生成技术

Country Status (1)

Country Link
CN (1) CN117934991B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934767A (zh) * 2019-03-06 2019-06-25 中南大学 一种基于身份和表情特征转换的人脸表情转换方法
CN114724214A (zh) * 2022-03-31 2022-07-08 华南理工大学 一种基于面部动作单元的微表情编辑方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308450A (zh) * 2018-08-08 2019-02-05 杰创智能科技股份有限公司 一种基于生成对抗网络的脸部变化预测方法
GB2586260B (en) * 2019-08-15 2021-09-15 Huawei Tech Co Ltd Facial image processing
CN115689868A (zh) * 2022-10-19 2023-02-03 南昌大学 一种基于身份保持的跨风格人脸原型重建技术

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934767A (zh) * 2019-03-06 2019-06-25 中南大学 一种基于身份和表情特征转换的人脸表情转换方法
CN114724214A (zh) * 2022-03-31 2022-07-08 华南理工大学 一种基于面部动作单元的微表情编辑方法及系统

Also Published As

Publication number Publication date
CN117934991A (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
Krohn et al. Deep learning illustrated: a visual, interactive guide to artificial intelligence
Hou et al. Improving variational autoencoder with deep feature consistent and generative adversarial training
CN109934767A (zh) 一种基于身份和表情特征转换的人脸表情转换方法
CN113807265B (zh) 一种多样化的人脸图像合成方法及系统
CN108717732B (zh) 一种基于MobileNets模型的表情追踪方法
CN113780249B (zh) 表情识别模型的处理方法、装置、设备、介质和程序产品
CN111783658A (zh) 基于双生成对抗网络的两阶段表情动画生成方法
CN117522697A (zh) 一种人脸图像生成方法、系统及模型训练方法
Zhang et al. A survey on multimodal-guided visual content synthesis
Jin et al. Image generation method based on improved condition GAN
Tan et al. Style2talker: High-resolution talking head generation with emotion style and art style
CN117292031A (zh) 一种3d虚拟数字人唇形动画生成模型训练方法及装置
WO2024066549A1 (zh) 一种数据处理方法及相关设备
CN117934991B (zh) 一种基于身份保持的多类面部表情图片生成技术
Feng et al. Probing sentiment-oriented pre-training inspired by human sentiment perception mechanism
CN115631285B (zh) 基于统一驱动的人脸渲染方法、装置、设备及存储介质
US20230154088A1 (en) Disentangling latent representations for image reenactment
He Exploring style transfer algorithms in Animation: Enhancing visual
Dong et al. SignAvatar: Sign Language 3D Motion Reconstruction and Generation
Sun et al. AnyFace++: A unified framework for free-style text-to-face synthesis and manipulation
Wang et al. Expression-aware neural radiance fields for high-fidelity talking portrait synthesis
Qiao et al. Progressive text-to-face synthesis with generative adversarial network
Zeng et al. Virtual Face Animation Generation Based on Conditional Generative Adversarial Networks
Xu et al. A Deep Learning Approach to Terracotta Warriors’ Facial Recovery and Quadratic
CN116542292B (zh) 图像生成模型的训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant