CN114724214A - 一种基于面部动作单元的微表情编辑方法及系统 - Google Patents

一种基于面部动作单元的微表情编辑方法及系统 Download PDF

Info

Publication number
CN114724214A
CN114724214A CN202210331968.7A CN202210331968A CN114724214A CN 114724214 A CN114724214 A CN 114724214A CN 202210331968 A CN202210331968 A CN 202210331968A CN 114724214 A CN114724214 A CN 114724214A
Authority
CN
China
Prior art keywords
image
expression
training
tensor
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210331968.7A
Other languages
English (en)
Other versions
CN114724214B (zh
Inventor
范启伟
陈俊龙
张通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202210331968.7A priority Critical patent/CN114724214B/zh
Priority claimed from CN202210331968.7A external-priority patent/CN114724214B/zh
Publication of CN114724214A publication Critical patent/CN114724214A/zh
Application granted granted Critical
Publication of CN114724214B publication Critical patent/CN114724214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于面部动作单元的微表情编辑方法及系统,方法包括:获取训练数据,并对训练数据进行预处理;通过优化训练模块对中性生成器进行模型训练;通过优化训练模块对图像编码器、表征编码器以及解码器进行模型训练;将目标人脸图像输入至训练完成的中性生成器,得到目标人物的无表情人脸图像;将目标人物的无表情人脸图像输入至训练完成的图像编码器,得到指定尺寸的带有身份信息的张量T1;将目标人物人脸区域的表征数据和带有目标人物身份信息的张量T1输入至训练完成的表征编码器,得到混合有目标人物人脸表情的结果张量T2;将结果张量T2输入至训练完成的解码器,得到带有表情的目标人脸图像。本发明能保证编辑有效性,且编辑效果更真实。

Description

一种基于面部动作单元的微表情编辑方法及系统
技术领域
本发明涉及面部微表情编辑的技术领域,尤其涉及到一种基于面部动作单元的微表情编辑方法及系统。
背景技术
人脸面部表情变化本质上是面部肌肉的变化,不同表情表达乃是肌肉的变动而已,例如微笑的表情主要的肌肉变化是笑肌高抬、嘴角上翘,眼睛微眯等,其他表情也类似。面部运动编码系统(FACS,Facial Action Coding System)从人脸解剖学的角度,预先定义了44个面部动作单元(Action Unit,简称AU)用于描述人脸局部区域的肌肉运动,每一个AU都代表了面部的一个细节部位的运动。例如左嘴角上翘、右嘴角下垂、眉毛抬起等。任意的表情及其变化都可以使用44个AU组成的向量表示。不单单描述表情的类型,表情表达的强烈程度在FACS中被描述,AU的编码形式上可以是一个44维度数学向量,各个维度的数值大小对应着该AU的强度。例如,微笑与大笑具有相似的AU向量表达,两者之间在几何空间上的余弦距离很小——被激活的AU是相似的,区别在于两者的模的大小。由于FACS具有详尽的人脸面部相关运动的描述能力,现如今,FACS除了用于描述人脸面部的表情之外,也作为表情数据库和相关人像视频数据库的标签信息。
对于表情编辑技术方法,计算机视觉在近代的大力发展赋能了其技术飞跃。当前已有的技术路线中,定位人脸位置后,经典的机器视觉方法可以利用面部关键点进行模板匹配进行固定像素迁移后,再使用线性插值法填充迁移像素部分的疏缝部分,便得到对应表情;此外还有使用固定匹配的表情贴图,并对交叠部分的像素进行线性融合以便自然。
除了经典的机器视觉方法之外,深度学习技术同样可应用于表情编辑任务之中。利用带有对应表情的同身份数据集,可以训练生成生成对应表情的生成网络。除此之外,也有利用条件生成网络模型通过控制条件改变对应生成表情,该方法需要额外的正则模型来约束生成网络。
但现有的表情编辑方法中的机器视觉方法主要是将图片信息视为数字信号进行处理,主要包括像素迁移、覆盖替代与数据融合,将对应表情的处理步骤,该方法存在明显挑战,如:人脸表情在构成部分及其变化中,面部各部分之间存在联动关系,并且表情的变化还存在着纹理的改变,例如产生微笑会带来一些皱纹褶皱的出现与迁移。纹理的变化、相关部位的迁移等人脸表情细节的展现,若处理不当容易使生成的人脸图片产生“恐怖谷效应”。
而深度学习,虽然其作为一种先进的计算方法,能利用有效的模型设计,能在高维空间对人脸数据进行编辑,但现有的深度学习方法学习难度大,任务处理过程中往往会因为身份属性——长相、光照、阴影、姿态角度等因素导致无法有效地编辑人脸图像。
发明内容
本发明的目的在于克服现有技术的不足,提供一种能保证编辑有效性、编辑效果更真实的基于面部动作单元的微表情编辑方法。
为实现上述目的,本发明所提供的技术方案为:
一种基于面部动作单元的微表情编辑方法,包括:
获取训练数据,并对训练数据进行预处理;
结合预处理后的数据,通过优化训练模块对中性生成器进行模型训练;
在中性生成器训练完成的基础上,通过优化训练模块对图像编码器、表征编码器以及解码器进行模型训练,得到训练完成的图像编码器、表征编码器以及解码器;
将目标人脸图像输入至训练完成的中性生成器,得到目标人物的无表情人脸图像;
将目标人物的无表情人脸图像输入至训练完成的图像编码器,得到指定尺寸的带有身份信息的张量T1
将目标人物人脸区域的表征数据和带有目标人物身份信息的张量T1输入至训练完成的表征编码器,得到混合有目标人物人脸表情的结果张量T2
将混合有目标人物人脸表情的结果张量T2输入至训练完成的解码器,得到带有表情的目标人脸图像。
进一步地,训练数据预处理时,包括得到人脸区域的AU属性;
所述表征编码器为AU编码器。
进一步地,训练数据预处理包括:
使用通用的计算机视觉库将人脸区域裁剪出来并提取出对应人脸区域的AU属性;
统计训练样本的均值以及标准差后进行标准化与归一化处理,接着使用随机裁剪方式进行数据增广。
进一步地,通过优化训练模块对中性生成器进行模型训练时,利用生成对抗网络的方式引入一个多任务判别器对中性生成器进行辅助训练和训练约束,该多任务判别器的任务是判别生成图像的真伪以及判别图像的AU属性;
训练包括:
Figure BDA0003575383900000031
其中,
Figure BDA0003575383900000032
为中性生成器对应的目标函数;
Figure BDA0003575383900000033
为优化训练模块配置的判别器的目标函数,用于与中性生成器对抗训练;
Figure BDA0003575383900000034
为真实的无表情人脸图像与所述的生成的无表情人脸图像之间的对抗损失函数;
Figure BDA0003575383900000041
生成的无表情人脸图像所对于的表情分类损失;
Figure BDA0003575383900000042
为身份属性特征层的损失函数;
Figure BDA0003575383900000043
为生成的无表情人脸图像与真实的无表情人脸图像之间的预定义特征层的损失函数;λ1、λ2、λ3、λp与λcls均为预设的权重系数;Gneu为中性生成器,即Gneu(x)为生成器生成的无表情人脸图像;Dneu为优化训练模块配置的无表情判别器,用于判别图像的真实性;Dneu_cls为Dneu的另一分支分类输出判别图像的表情类别,函数中使用交叉熵作为该项损失损失函数Pg指代拟合生成的无表情人脸图像的数据分布,式子中x′~Pg表示样本变量x′服从该分布,x′是拟合生成的无表情人脸;Pr指代真实域的无表情人脸图像的数据分布,式中x~Pr表示样本变量x若服从该分布,则x是真实域的无表情人脸;
Figure BDA0003575383900000044
指代真实的任意表情人脸图像的数据分布,则
Figure BDA0003575383900000045
指代真实的k个表情类别中第i种表情人脸图像的数据分布,k为可分类的表情的总数,式中
Figure BDA0003575383900000046
表示样本变量x若服从该分布,则x是第i种表情的人脸图像,
Figure BDA0003575383900000047
则表示x是有任意一种表情的人脸图像。
进一步地,所述对抗损失函数项
Figure BDA0003575383900000048
如下式所示:
Figure BDA0003575383900000049
所述的表情分类损失函数项
Figure BDA00035753839000000410
如下式所示;
Figure BDA00035753839000000411
所述身份属性特征层的损失函数项
Figure BDA00035753839000000412
如下式所示:
Figure BDA00035753839000000413
所述深度特征层的损失函数项
Figure BDA00035753839000000414
下式所示:
Figure BDA0003575383900000051
其中,||||1表示L1范数;
Figure BDA0003575383900000052
为身份提取器;f为预训练分类器的特征层;
Figure BDA0003575383900000053
表示样本
Figure BDA0003575383900000054
是任意表情的人像x所对应的真实域的无表情样本。
进一步地,通过优化训练模块对图像编码器、AU编码器以及解码器进行模型训练时,利用生成对抗网络结构引入一个多任务判别器对目标模型进行约束,该多任务判别器的任务是对隐式空间中的图像张量进行真伪判别以及AU属性判别;
训练包括:
Figure BDA0003575383900000055
Figure BDA0003575383900000056
为训练目标图像编码器、AU编码器和解码器为生成部件总集合的损失函数;
Figure BDA0003575383900000057
为优化训练模块在对应的训练中配置的判别器的目标函数,用于与生成部件总集合对抗训练;
Figure BDA0003575383900000058
为合成图像的张量T2与真实图像的张量T1之间的对抗损失函数项;
Figure BDA0003575383900000059
为目标AUs被AU编码器映射至隐式空间后表情张量ΔT的损失函数;
Figure BDA00035753839000000510
为AU编码器将表情张量ΔT与身份张置
Figure BDA00035753839000000511
合成的图像张量T2的损失函数项,其中
Figure BDA00035753839000000512
指代由无表情真实图像编码得到的张量同时指代着身份信息;
Figure BDA00035753839000000513
配置为针对输入图像的AUs,利用其中性样本反构出原始的图像损失函数项;
Figure BDA00035753839000000514
配置为针对合成图像张量T2对其进行AU属性的甄别从而并进行约束的正则损失函数项;λaumap、λinterp、λrecon、λreg、λp、λD_reg皆为预设的权重系数;Gau为AU编码器M与图像编码器E前后衔接部件的公式化,其将输入图像x与目标AUs编码后融合计算得到输出结果的张量,Gau(x,AUs)=M(M1(AUs),E(Gneu(x))),其中M1为解码器M在编码目标AUs的计算结果;Dau为优化训练模块在对应的训练配置的判别器对于张量真实性甄别的输出;Dau_cls为优化训练模块在对应的训练配置的判别器对任意张量的AU属性预测输出,设为正则项;Pau为在数据集
Figure BDA00035753839000000613
中任意样本的AU的数据分布,式子中AUs~Pau表示目标AUs服从该分布,即AUs是
Figure BDA00035753839000000614
数据集中任意样本中的属性。
进一步地,所述对抗损失函数项
Figure BDA0003575383900000061
如下式所示:
Figure BDA0003575383900000062
所述表情张量ΔT的损失函数项
Figure BDA0003575383900000063
如下式所示:
Figure BDA0003575383900000064
所述AU编码器中有关表情张量ΔT与身份张量
Figure BDA00035753839000000611
之间的损失函数项
Figure BDA00035753839000000612
如下式所示:
Figure BDA0003575383900000066
所述反构损失函数项
Figure BDA0003575383900000067
如下式所示:
Figure BDA0003575383900000068
所述AU属性正则项损失函数项
Figure BDA0003575383900000069
如下式所示:
Figure BDA00035753839000000610
Gneu(x)为生成器生成的无表情人脸图像,||||1表示L1范数。
为实现上述目的,本发明另外提供一种基于面部动作单元的微表情编辑系统,包括训练数据获取模块、训练数据预处理模块、中性生成器、图像编码器、表征编码器、解码器、优化训练模块;
所述训练数据获取模块,用于获取训练数据;
所述训练数据预处理模块,用于对训练数据进行预处理;
所述中性生成器配置为无表情生成器,用于将输入的目标人脸生成为代表着身份信息的中性表情图像;
所述图像编码器,用于将目标人物的无表情人脸图像转化为指定尺寸的带有身份信息的张量T1
所述表征编码器,用于将目标表情的表征向量计算生成与张量T1相同尺寸的张量ΔT,将T1与ΔT融合计算得到结果张量T2
所述解码器,用于对T2进行解码计算,得到带有表情的目标人脸图像;
所述优化训练模块,用于对中性生成器、图像编码器、表征编码器、解码器进行模型训练。
进一步地,所述训练数据预处理模块进行数据预处理后,得到包括人脸区域的AU属性在内的数据。
进一步地,所述表征编码器为AU编码器。
与现有技术相比,本技术方案原理及优点如下:
1、本技术方案中的中性生成器可以将任意表情的人脸图像,生成无表情的中性样本。且由于优化训练模块的设计,其对应的判别器的多任务设计使得中性生成器能够有效地获取更真实的无表情中性样本。
2、本技术方案中的AU编码器可以利用AU属性所指代的微表情信息融入到无表情中性样本中,从而达到了编辑表情的效果。且由于优化训练模块的设计,对应的判别器所具有的多任务设计使得AU编码器与图像编码器分别将AU信息与图像信息编码后进一步有效地结合计算得到输出张量,经过解码器解码后并最终得到真实性的计算效果。
3、利用AU信息作为输入信息,能够有效地操控每个表情的强度变化以及组合变化,生成的表情具有更高的自由度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种基于面部动作单元的微表情编辑方法的原理流程图;
图2为本发明实施例一种基于面部动作单元的微表情编辑方法中在线编辑的原理流程图;
图3为本发明一种基于面部动作单元的微表情编辑系统的连接框图。
具体实施方式
下面结合具体实施方式对本发明作进一步说明:
如图1所示,本实施例所述的一种基于面部动作单元的微表情编辑方法,包括:
S1、获取训练数据,并对训练数据进行预处理;
训练数据预处理包括:
使用通用的计算机视觉库将人脸区域裁剪出来并提取出对应人脸区域的AU属性;
统计训练样本的均值以及标准差后进行标准化与归一化处理,接着使用随机裁剪方式进行数据增广;
S2、结合预处理后的数据,通过优化训练模块对中性生成器进行模型训练;
本步骤中,利用生成对抗网络的方式引入一个多任务判别器对中性生成器进行辅助训练和训练约束,该多任务判别器的任务是判别生成图像的真伪以及判别图像的AU属性;
训练包括:
Figure BDA0003575383900000091
其中,
Figure BDA0003575383900000092
为中性生成器对应的目标函数;
Figure BDA0003575383900000093
为优化训练模块配置的判别器的目标函数,用于与中性生成器对抗训练;
Figure BDA0003575383900000094
为真实的无表情人脸图像与所述的生成的无表情人脸图像之间的对抗损失函数;
Figure BDA0003575383900000095
生成的无表情人脸图像所对于的表情分类损失;
Figure BDA0003575383900000096
为身份属性特征层的损失函数;
Figure BDA0003575383900000097
为生成的无表情人脸图像与真实的无表情人脸图像之间的预定义特征层的损失函数;λ1、λ2、λ3、λp与λcls均为预设的权重系数;Gneu为中性生成器,即Gneu(x)为生成器生成的无表情人脸图像;Dneu为优化训练模块配置的无表情判别器,用于判别图像的真实性;Dneu_cls为Dneu的另一分支分类输出判别图像的表情类别,函数中使用交叉熵作为该项损失损失函数Pg指代拟合生成的无表情人脸图像的数据分布,式子中x′~Pg表示样本变量x′服从该分布,x′是拟合生成的无表情人脸;Pr指代真实域的无表情人脸图像的数据分布,式中x~Pr表示样本变量x若服从该分布,则x是真实域的无表情人脸;
Figure BDA0003575383900000098
指代真实的任意表情人脸图像的数据分布,则
Figure BDA0003575383900000099
指代真实的k个表情类别中第i种表情人脸图像的数据分布,k为可分类的表情的总数,式中
Figure BDA00035753839000000910
表示样本变量x若服从该分布,则x是第i种表情的人脸图像,
Figure BDA00035753839000000911
则表示x是有任意一种表情的人脸图像。
对抗损失函数项
Figure BDA00035753839000000912
如下式所示:
Figure BDA00035753839000000913
所述的表情分类损失函数项
Figure BDA0003575383900000101
如下式所示;
Figure BDA0003575383900000102
所述身份属性特征层的损失函数项
Figure BDA0003575383900000103
如下式所示:
Figure BDA0003575383900000104
所述深度特征层的损失函数项
Figure BDA0003575383900000105
下式所示:
Figure BDA0003575383900000106
其中,||||1表示L1范数;
Figure BDA0003575383900000107
为身份提取器;f为预训练分类器的特征层;
Figure BDA0003575383900000108
表示样本
Figure BDA0003575383900000109
是任意表情的人像x所对应的真实域的无表情样本。
S3、在中性生成器训练完成的基础上,通过优化训练模块对图像编码器、AU编码器以及解码器进行模型训练,得到训练完成的图像编码器、AU编码器以及解码器;
本步骤中,利用生成对抗网络结构引入一个多任务判别器对目标模型进行约束,该多任务判别器的任务是对隐式空间中的图像张量进行真伪判别以及AU属性判别;
训练包括:
Figure BDA00035753839000001010
Figure BDA00035753839000001011
为训练目标图像编码器、AU编码器和解码器为生成部件总集合的损失函数;
Figure BDA00035753839000001012
为优化训练模块在对应的训练中配置的判别器的目标函数,用于与生成部件总集合对抗训练;
Figure BDA00035753839000001013
为合成图像的张量T2与真实图像的张量T1之间的对抗损失函数项;
Figure BDA00035753839000001014
为目标AUs被AU编码器映射至隐式空间后表情张量ΔT的损失函数;
Figure BDA0003575383900000111
为AU编码器将表情张量ΔT与身份张置
Figure BDA0003575383900000112
合成的图像张量T2的损失函数项,其中
Figure BDA0003575383900000113
指代由无表情真实图像编码得到的张量同时指代着身份信息;
Figure BDA0003575383900000114
配置为针对输入图像的AUs,利用其中性样本反构出原始的图像损失函数项;
Figure BDA0003575383900000115
配置为针对合成图像张量T2对其进行AU属性的甄别从而并进行约束的正则损失函数项;λaumap、λinterp、λrecon、λreg、λp、λD_reg皆为预设的权重系数;Gau为AU编码器M与图像编码器E前后衔接部件的公式化,其将输入图像x与目标AUs编码后融合计算得到输出结果的张量,Gau(x,AUs)=M(M1(AUs),E(Gneu(x))),其中M1为解码器M在编码目标AUs的计算结果;Dau为优化训练模块在对应的训练配置的判别器对于张量真实性甄别的输出;Dau_cls为优化训练模块在对应的训练配置的判别器对任意张量的AU属性预测输出,设为正则项;Pau为在数据集
Figure BDA0003575383900000116
中任意样本的AU的数据分布,式子中AUs~Pau表示目标AUs服从该分布,即AUs是
Figure BDA0003575383900000117
数据集中任意样本中的属性。
对抗损失函数项
Figure BDA0003575383900000118
如下式所示:
Figure BDA0003575383900000119
所述表情张量ΔT的损失函数项
Figure BDA00035753839000001110
如下式所示:
Figure BDA00035753839000001111
所述AU编码器中有关表情张量ΔT与身份张量
Figure BDA00035753839000001112
之间的损失函数项
Figure BDA00035753839000001113
如下式所示:
Figure BDA00035753839000001114
所述反构损失函数项
Figure BDA00035753839000001115
如下式所示:
Figure BDA0003575383900000121
所述AU属性正则项损失函数项
Figure BDA0003575383900000122
如下式所示:
Figure BDA0003575383900000123
Gneu(x)为生成器生成的无表情人脸图像,||||1表示L1范数。
如图2所示,在线编辑的原理对应步骤S4-S7。
S4、将目标人脸图像输入至训练完成的中性生成器,得到目标人物的无表情人脸图像;
S5、将目标人物的无表情人脸图像输入至训练完成的图像编码器,得到指定尺寸的带有身份信息的张量T1
S6、将目标人物人脸区域的AU属性和带有目标人物身份信息的张量T1输入至训练完成的AU编码器,得到混合有目标人物人脸表情的结果张量T2
S7、将混合有目标人物人脸表情的结果张量T2输入至训练完成的解码器,得到带有表情的目标人脸图像。
如图3所示,本实施例还另外涉及到一种基于面部动作单元的微表情编辑系统,其包括训练数据获取模块、训练数据预处理模块、中性生成器、图像编码器、AU编码器、解码器、优化训练模块;
其中,训练数据获取模块,用于获取训练数据;
训练数据预处理模块,用于对训练数据进行预处理;
中性生成器配置为无表情生成器,用于将输入的目标人脸生成为代表着身份信息的中性表情图像;
图像编码器,用于将目标人物的无表情人脸图像转化为指定尺寸的带有身份信息的张量T1
AU编码器,用于将目标表情的AU向量计算生成与张量T1相同尺寸的张量ΔT,将T1与ΔT融合计算得到结果张量T2
所述解码器,用于对T2进行解码计算,得到带有表情的目标人脸图像;
所述优化训练模块,用于对中性生成器、图像编码器、表征编码器、解码器进行模型训练。
本实施例中,中性生成器可以将任意表情的人脸图像,生成无表情的中性样本。且由于优化训练模块的设计,其对应的判别器的多任务设计使得中性生成器能够有效地获取更真实的无表情中性样本。
AU编码器可以利用AU属性所指代的微表情信息融入到无表情中性样本中,从而达到了编辑表情的效果。且由于优化训练模块的设计,对应的判别器所具有的多任务设计使得AU编码器与图像编码器分别将AU信息与图像信息编码后进一步有效地结合计算得到输出张量,经过解码器解码后并最终得到真实性的计算效果。
利用AU信息作为输入信息,能够有效地操控每个表情的强度变化以及组合变化,生成的表情具有更高的自由度。
另外,上述中,
AU编码器模块采用神经网络进行数据的计算与处理,也可以采用其他的算法,如隐马尔科夫模型HMM、循环神经网络RNN、机器学习模型transformer以及Broad learningsystem等。
优化训练模块提供了AU属性作为各单元判别器的预测输出的优选方案,也可以将其他的人脸相关的特征作为辅助判别器的目标,如人脸特征点信息、如图像HOG图等。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (10)

1.一种基于面部动作单元的微表情编辑方法,其特征在于,包括:
获取训练数据,并对训练数据进行预处理;
结合预处理后的数据,通过优化训练模块对中性生成器进行模型训练;
在中性生成器训练完成的基础上,通过优化训练模块对图像编码器、表征编码器以及解码器进行模型训练,得到训练完成的图像编码器、表征编码器以及解码器;
将目标人脸图像输入至训练完成的中性生成器,得到目标人物的无表情人脸图像;
将目标人物的无表情人脸图像输入至训练完成的图像编码器,得到指定尺寸的带有身份信息的张量T1
将目标人物人脸区域的表征数据和带有目标人物身份信息的张量T1输入至训练完成的表征编码器,得到混合有目标人物人脸表情的结果张量T2
将混合有目标人物人脸表情的结果张量T2输入至训练完成的解码器,得到带有表情的目标人脸图像。
2.根据权利要求1所述的一种基于面部动作单元的微表情编辑方法,其特征在于,训练数据预处理时,包括得到人脸区域的AU属性;
所述表征编码器为AU编码器。
3.根据权利要求2所述的一种基于面部动作单元的微表情编辑方法,其特征在于,训练数据预处理包括:
使用通用的计算机视觉库将人脸区域裁剪出来并提取出对应人脸区域的AU属性;
统计训练样本的均值以及标准差后进行标准化与归一化处理,接着使用随机裁剪方式进行数据增广。
4.根据权利要求2所述的一种基于面部动作单元的微表情编辑方法,其特征在于,通过优化训练模块对中性生成器进行模型训练时,利用生成对抗网络的方式引入一个多任务判别器对中性生成器进行辅助训练和训练约束,该多任务判别器的任务是判别生成图像的真伪以及判别图像的AU属性;
训练包括:
Figure FDA0003575383890000021
其中,
Figure FDA0003575383890000022
为中性生成器对应的目标函数;
Figure FDA0003575383890000023
为优化训练模块配置的判别器的目标函数,用于与中性生成器对抗训练;
Figure FDA0003575383890000024
为真实的无表情人脸图像与所述的生成的无表情人脸图像之间的对抗损失函数;
Figure FDA0003575383890000025
生成的无表情人脸图像所对于的表情分类损失;
Figure FDA0003575383890000026
为身份属性特征层的损失函数;
Figure FDA0003575383890000027
为生成的无表情人脸图像与真实的无表情人脸图像之间的预定义特征层的损失函数;λ1、λ2、λ3、λp与λcls均为预设的权重系数;Gneu为中性生成器,即Gneu(x)为生成器生成的无表情人脸图像;Dneu为优化训练模块配置的无表情判别器,用于判别图像的真实性;Dneu_cls为Dneu的另一分支分类输出判别图像的表情类别,函数中使用交叉熵作为该项损失损失函数Pg指代拟合生成的无表情人脸图像的数据分布,式子中x′~Pg表示样本变量x′服从该分布,x′是拟合生成的无表情人脸;Pr指代真实域的无表情人脸图像的数据分布,式中x~Pr表示样本变量x若服从该分布,则x是真实域的无表情人脸;
Figure FDA0003575383890000028
指代真实的任意表情人脸图像的数据分布,则
Figure FDA0003575383890000031
指代真实的k个表情类别中第i种表情人脸图像的数据分布,k为可分类的表情的总数,式中
Figure FDA0003575383890000032
表示样本变量x若服从该分布,则x是第i种表情的人脸图像,
Figure FDA0003575383890000033
则表示x是有任意一种表情的人脸图像。
5.根据权利要求4所述的一种基于面部动作单元的微表情编辑方法,其特征在于,所述对抗损失函数项
Figure FDA0003575383890000034
如下式所示:
Figure FDA0003575383890000035
所述的表情分类损失函数项
Figure FDA0003575383890000036
如下式所示;
Figure FDA0003575383890000037
所述身份属性特征层的损失函数项
Figure FDA0003575383890000038
如下式所示:
Figure FDA0003575383890000039
所述深度特征层的损失函数项
Figure FDA00035753838900000310
下式所示:
Figure FDA00035753838900000311
其中,|| ||1表示L1范数;
Figure FDA00035753838900000312
为身份提取器;f为预训练分类器的特征层;
Figure FDA00035753838900000313
表示样本
Figure FDA00035753838900000314
是任意表情的人像x所对应的真实域的无表情样本。
6.根据权利要求2所述的一种基于面部动作单元的微表情编辑方法,其特征在于,通过优化训练模块对图像编码器、AU编码器以及解码器进行模型训练时,利用生成对抗网络结构引入一个多任务判别器对目标模型进行约束,该多任务判别器的任务是对隐式空间中的图像张量进行真伪判别以及AU属性判别;
训练包括:
Figure FDA0003575383890000041
Figure FDA0003575383890000042
为训练目标图像编码器、AU编码器和解码器为生成部件总集合的损失函数;
Figure FDA0003575383890000043
为优化训练模块在对应的训练中配置的判别器的目标函数,用于与生成部件总集合对抗训练;
Figure FDA0003575383890000044
为合成图像的张量T2与真实图像的张量T1之间的对抗损失函数项;
Figure FDA0003575383890000045
为目标AUs被AU编码器映射至隐式空间后表情张量ΔT的损失函数;
Figure FDA0003575383890000046
为AU编码器将表情张量ΔT与身份张量
Figure FDA0003575383890000047
合成的图像张量T2的损失函数项,其中
Figure FDA0003575383890000048
指代由无表情真实图像编码得到的张量同时指代着身份信息;
Figure FDA0003575383890000049
配置为针对输入图像的AUs,利用其中性样本反构出原始的图像损失函数项;
Figure FDA00035753838900000410
配置为针对合成图像张量T2对其进行AU属性的甄别从而并进行约束的正则损失函数项;λaumap、λinterp、λrecon、λreg、λp、λD_reg皆为预设的权重系数;Gau为AU编码器M与图像编码器E前后衔接部件的公式化,其将输入图像x与目标AUs编码后融合计算得到输出结果的张量,Gau(x,AUs)=M(M1(AUs),E(Gneu(x))),其中M1为解码器M在编码目标AUs的计算结果;Dau为优化训练模块在对应的训练配置的判别器对于张量真实性甄别的输出;Dau_cls为优化训练模块在对应的训练配置的判别器对任意张量的AU属性预测输出,设为正则项;Pau为在数据集
Figure FDA00035753838900000411
中任意样本的AU的数据分布,式子中AUs~Pau表示目标AUs服从该分布,即AUs是
Figure FDA00035753838900000412
数据集中任意样本中的属性。
7.根据权利要求6所述的一种基于面部动作单元的微表情编辑方法,其特征在于,所述对抗损失函数项
Figure FDA00035753838900000413
如下式所示:
Figure FDA0003575383890000051
所述表情张量ΔT的损失函数项
Figure FDA0003575383890000052
如下式所示:
Figure FDA0003575383890000053
所述AU编码器中有关表情张量ΔT与身份张量
Figure FDA0003575383890000054
之间的损失函数项
Figure FDA0003575383890000055
如下式所示:
Figure FDA0003575383890000056
所述反构损失函数项
Figure FDA0003575383890000057
如下式所示:
Figure FDA0003575383890000058
所述AU属性正则项损失函数项
Figure FDA0003575383890000059
如下式所示:
Figure FDA00035753838900000510
Gneu(x)为生成器生成的无表情人脸图像,|| ||1表示L1范数。
8.一种基于面部动作单元的微表情编辑系统,其特征在于,包括训练数据获取模块、训练数据预处理模块、中性生成器、图像编码器、表征编码器、解码器、优化训练模块;
所述训练数据获取模块,用于获取训练数据;
所述训练数据预处理模块,用于对训练数据进行预处理;
所述中性生成器配置为无表情生成器,用于将输入的目标人脸生成为代表着身份信息的中性表情图像;
所述图像编码器,用于将目标人物的无表情人脸图像转化为指定尺寸的带有身份信息的张量T1
所述表征编码器,用于将目标表情的表征向量计算生成与张量T1相同尺寸的张量ΔT,将T1与ΔT融合计算得到结果张量T2
所述解码器,用于对T2进行解码计算,得到带有表情的目标人脸图像;
所述优化训练模块,用于对中性生成器、图像编码器、表征编码器、解码器进行模型训练。
9.根据权利要求8所述的一种基于面部动作单元的微表情编辑系统,其特征在于,所述训练数据预处理模块进行数据预处理后,得到包括人脸区域的AU属性在内的数据。
10.根据权利要求8所述的一种基于面部动作单元的微表情编辑系统,其特征在于,所述表征编码器为AU编码器。
CN202210331968.7A 2022-03-31 一种基于面部动作单元的微表情编辑方法及系统 Active CN114724214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210331968.7A CN114724214B (zh) 2022-03-31 一种基于面部动作单元的微表情编辑方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210331968.7A CN114724214B (zh) 2022-03-31 一种基于面部动作单元的微表情编辑方法及系统

Publications (2)

Publication Number Publication Date
CN114724214A true CN114724214A (zh) 2022-07-08
CN114724214B CN114724214B (zh) 2024-05-14

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116229214A (zh) * 2023-03-20 2023-06-06 北京百度网讯科技有限公司 模型训练方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108230239A (zh) * 2017-12-25 2018-06-29 中国科学院自动化研究所 人脸表情图像合成装置
WO2020029356A1 (zh) * 2018-08-08 2020-02-13 杰创智能科技股份有限公司 一种基于生成对抗网络的脸部变化预测方法
WO2021254499A1 (zh) * 2020-06-19 2021-12-23 北京灵汐科技有限公司 编辑模型生成、人脸图像编辑方法、装置、设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108230239A (zh) * 2017-12-25 2018-06-29 中国科学院自动化研究所 人脸表情图像合成装置
WO2020029356A1 (zh) * 2018-08-08 2020-02-13 杰创智能科技股份有限公司 一种基于生成对抗网络的脸部变化预测方法
WO2021254499A1 (zh) * 2020-06-19 2021-12-23 北京灵汐科技有限公司 编辑模型生成、人脸图像编辑方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116229214A (zh) * 2023-03-20 2023-06-06 北京百度网讯科技有限公司 模型训练方法、装置及电子设备
CN116229214B (zh) * 2023-03-20 2023-12-01 北京百度网讯科技有限公司 模型训练方法、装置及电子设备

Similar Documents

Publication Publication Date Title
Neverova et al. Dense pose transfer
Cao et al. Recent advances of generative adversarial networks in computer vision
Huang et al. PFA-GAN: Progressive face aging with generative adversarial network
Mohammed et al. Visio-lization: generating novel facial images
CN111489287A (zh) 图像转换方法、装置、计算机设备和存储介质
Yin et al. Semi-latent gan: Learning to generate and modify facial images from attributes
Wolf et al. Unsupervised creation of parameterized avatars
CN112950661A (zh) 一种基于注意力生成对抗网络人脸卡通画生成方法
CN111652049A (zh) 人脸图像处理模型训练方法、装置、电子设备及存储介质
Khan et al. Adversarial training of variational auto-encoders for high fidelity image generation
Liang et al. PCGAN: Partition-controlled human image generation
CN115546461A (zh) 一种基于掩膜去噪和特征选择的人脸属性编辑方法
Saleem et al. Efficient Facial Recognition Authentication Using Edge and Density Variant Sketch Generator.
CN115482062A (zh) 一种基于图像生成的虚拟试衣方法及装置
Esfahani et al. Image generation with gans-based techniques: A survey
Geng et al. Towards photo-realistic facial expression manipulation
Peng et al. DiffFaceSketch: high-fidelity face image synthesis with sketch-guided latent diffusion model
Wang et al. Digital twin: Acquiring high-fidelity 3D avatar from a single image
Roy et al. Tips: Text-induced pose synthesis
CN114973349A (zh) 面部图像处理方法和面部图像处理模型的训练方法
CN114724214B (zh) 一种基于面部动作单元的微表情编辑方法及系统
CN114724214A (zh) 一种基于面部动作单元的微表情编辑方法及系统
Berson et al. A robust interactive facial animation editing system
Yu et al. Confies: Controllable neural face avatars
Roy Applying aging effect on facial image with multi-domain generative adversarial network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant