CN115424310A - 一种面向人脸重演中表情分离任务的弱标注学习方法 - Google Patents

一种面向人脸重演中表情分离任务的弱标注学习方法 Download PDF

Info

Publication number
CN115424310A
CN115424310A CN202210853247.2A CN202210853247A CN115424310A CN 115424310 A CN115424310 A CN 115424310A CN 202210853247 A CN202210853247 A CN 202210853247A CN 115424310 A CN115424310 A CN 115424310A
Authority
CN
China
Prior art keywords
face
image
identity
training
discriminator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210853247.2A
Other languages
English (en)
Inventor
程塨
孙绪祥
仝慧紫
蔡晓妍
韩军伟
郭雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202210853247.2A priority Critical patent/CN115424310A/zh
Publication of CN115424310A publication Critical patent/CN115424310A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种面向人脸重演中表情分离任务的弱标注学习方法,本发明设计了一个人脸重演框架,包含一个面部网络,一个身份编码器,一个运动特征提取器,一个AdaAttN模块和两个判别器(图像质量判别器和身份判别器)。其中,面部网络和身份编码器需要通过预训练分别实现编码给定图像的面部信息和身份信息。此外,本发明使用多尺度的驱动图像的面部信息特征减去身份信息特征得到对应尺度的驱动图像的面部运动特征,并迁移图像翻译任务中的AdaAttN模块,以融合驱动图像的多尺度面部运动特征,并将其作为弱标注指导重演图像的生成。本发明能够在无需附加面部信息标注(如面部标志点、轮廓线等)的同时,解决运动特征的解耦问题,实现高质量的人脸重演。

Description

一种面向人脸重演中表情分离任务的弱标注学习方法
技术领域
本发明属于图像处理技术领域,涉及一种面向人脸重演中表情分离任务的弱标注学习方法,能够在无需附加面部信息标注的同时,实现高质量的人脸重演。
背景技术
人脸重演,旨在通过驱动人脸的运动(姿势和表情)来制作源人脸视频。对于生成的视频,我们需要保存源人脸的面部身份特征并执行驱动人脸的运动(姿势和表情)。因其巨大的应用价值(如面部动画、人机交互等)与潜在的安全隐患(如通过恶意篡改国家政要、明星等公众人物的视频来散播虚假内容、侵蚀社会信任度),人脸重演逐渐成为计算机视觉领域一个引人注目的研究课题。
目前,基于深度学习的人脸重演技术大致分为两类。一类是基于直接扭曲的方法将驱动图像到源图像的运动(姿势和表情)以域转换的方式进行直接扭曲,另一类是利用面部附加信息来指导合成的图像学习驱动图像的面部动作(姿势和表情)。就合成的真实性而言,在现阶段的方法中,利用面部附加信息来进行人脸重演的技术占据主导地位。
应用于人脸重演的附加面部信息大致分为三类:第一类使用面部标志点或轮廓线;第二类是学习面部的像素运动;第三类是提取面部的身份、表情、姿态的参数。面部标志点或轮廓线可以保存人脸的结构信息,同时也存在一些缺点:许多面部标志点注释缺乏一些重要信息(比如瞳孔)且面部标志点是特定于个人的,包含身份信息,常出现身份泄露的问题。因此,这种方法一般不能被直接用于生成重演的面部图像输出,需要设计额外的网络对其进行处理。学习面部的像素运动一般是学习人脸的光流(Optical Flow)或位移场(Displacement Field)。光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧与当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。位移场是学习源图像像素(u,v)的流向量(δu,δv),即变换后原像素(u,v)将被移动到重演图像中的位置(u+δu,v+δv)。而对于第三类方法,现有方法在对面部特征解耦时通常使用编码器分别提取身份特征和表情特征,但是人脸重演所需转移的表情与姿态(后面统称为运动)是多元且复杂的,很难通过一个或多个属性定义,因此运动特征的提取效果一般抽象且难以衡量。
综上所述,如何有效的提取人脸图像中的运动特征,同时尽可能去除这些信息中所含有的身份信息,是提升人脸重演技术效果的关键。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种面向人脸重演中表情分离任务的弱标注学习方法。概括来说,本发明设计了一个人脸重演框架,包含一个面部网络(包括面部编码器和面部解码器),一个身份编码器,一个运动特征提取器,一个AdaAttN模块和两个判别器(图像质量判别器和身份判别器)。其中,面部网络和身份编码器需要通过预训练分别实现编码给定图像的面部信息和身份信息。此外,本发明使用多尺度的驱动图像的面部信息特征减去身份信息特征得到对应尺度的驱动图像的面部运动特征,并迁移图像翻译任务中的AdaAttN模块,以融合驱动图像的多尺度面部运动特征,并将其作为弱标注指导重演图像的生成。本发明能够在无需附加面部信息标注(如面部标志点、轮廓线等)的同时,解决运动特征的解耦问题,实现高质量的人脸重演。
技术方案
一种面向人脸重演中表情分离任务的弱标注学习方法,其特征在于步骤如下:
步骤1、构建并训练面部重构网络:由一个面部编码器和一个面部解码器串联而成,其中:面部编码器的网络结构由4个下采样模块和4个残差块串接为以Eface,面部解码器由4个上采样模块连接构成为Dface
训练方式如下:将任意一张图片I输入面部编码器得到编码的面部特征,再将面部特征输入面部解码器得到I的重构图片Irec,对I和Irec做L1度量,并以此作为损失函数对面部网络进行训练;
使用一个多尺度的PatchGAN判别器D1与面部重构网络进行对抗训练,用于评定生成图像的真实性,网络结构如下:首先连接2个下采样模块,然后分三个分支,第一个分支继续连接一个全局自适应最大池化层和一个全连接层为输出一个标量,第二个分支连接两个下采样模块和一个用于调整通道数的卷积模块为输出尺度为1×30×30,第三个分支连接4个下采样模块和一个用于调整通道数的卷积模块为输出尺度为1×6×6;训练判别器D1时,分别输入生成图像和真实图像,对得到的三个尺度的输出特征分别计算损失后相加,优化函数如下:
Figure BDA0003736135970000031
其中,i表示判别器D1的第i个分支,
Figure BDA0003736135970000032
表示对其输入求数学期望,log(·)表示对其输入求以10为底的对数;
训练面部重构网络的总损失函数为:
Figure BDA0003736135970000033
其中,
Figure BDA0003736135970000034
是判别器提供的对抗损失,用于衡量面部网络重构图像的质量;
Figure BDA0003736135970000035
是I和Irec之间的L1损失;
其中,||·||1表示L1距离;
步骤2、构建并训练身份编码器:由4个下采样模块和4个残差块连接组成为Eid,具有双生网络结构;
对身份匹配器Eid进行训练:将一组图像I1和I2分别输入身份编码器,得到对应的身份编码向量z1和z2,计算z1和z2之间的L2距离;当I1和I2来自同一个身份时,它们之间距离越小越好;当I1和I2来自不同身份时,它们之间距离越大越好;
训练身份编码器的损失函数为:
Figure BDA0003736135970000041
其中,||·||2表示L2距离;max{·,·}2表示取两者较大值的平方;N表示批处理大小;Y为两个样本是否匹配的标签,Y=0表示I1和I2来自不同身份,Y=1表示I1和I2来自同一个身份;m=1为设定的阈值;
步骤3、构建面向人脸重演中表情分离任务的弱标注学习框架:包括步骤1中的面部重构网络,一个身份编码器,一个运动特征提取器和一个AdaAttN模块;
所述运动特征提取器由四个下采样模块串联组成;
所述AdaAttN模块是一个注意力模块,用于融合源图像的身份信息与驱动图像的面部运动特征;
步骤4、训练面向人脸重演中表情分离任务的弱标注学习框架:训练过程中需要训练额外两个判别器,分别为图像质量判别器为D2和身份判别器为D3
所述图像质量判别器使用与步骤1的判别器D1具有相同架构的多尺度判别器,用于评定生成图像的真实性;
所述身份判别器采用双生的ResNeXt50结构,用于判断输入的真实人脸和生成人脸是否具有相同的身份;
在训练整体网络时,对步骤1和步骤2预训练好的面部网络和身份编码器进行微调;采用自监督的训练方式,即在训练阶段,驱动图像和源图像是来自同一个视频的不同帧,驱动图像作为重演图像的真值;以生成对抗网络经典的交替训练的方式端到端地训练整个网络;
训练图像质量判别器D2,分别输入生成图像和源图像,对得到的三个尺度的输出特征分别计算损失后相加得到最终损失,优化函数如下:
Figure BDA0003736135970000051
其中,i表示判别器D2的第i个分支;
对于身份判别器D3,其训练的优化函数如下:
Figure BDA0003736135970000052
其中,m=1为设定的阈值,Iss表示与源图像Is具有相同身份的图片;
总体损失函数为:
Figure BDA0003736135970000053
其中,
Figure BDA0003736135970000054
是图像质量判别器D2提供的对抗损失;
Figure BDA0003736135970000055
是身份判别器D3提供的对抗损失;
Figure BDA0003736135970000056
是重演图片与真值即即驱动图像之间的L1距离损失;
Figure BDA0003736135970000057
是重演图片的面部特征与真值即即驱动图像的面部特征之间的L1距离损失;
Figure BDA0003736135970000058
是重演图片的身份特征与真值即即驱动图像的身份特征之间的L1距离损失;
步骤5、完成人脸重演:对于任意一张驱动图像和源图像,使用步骤4训练好的面向人脸重演中表情分离任务的弱标注学习框架生成重演图片,由此,即完成人脸重演任务。
所述面向人脸重演中表情分离任务的弱标注学习框架以数据流动方式的形式阐述,串行步骤所示:
步骤a:将驱动图像Id输入面部编码器的四个下采样块得到编码的面部特征
Figure BDA0003736135970000059
Figure BDA00037361359700000510
再将驱动图像Id输入身份编码器的四个下采样块得到编码的身份特征
Figure BDA0003736135970000061
步骤b:类似步骤a,将源图像Is分别输入面部编码器和身份编码器,得到编码的源图像面部特征
Figure BDA0003736135970000062
和身份特征
Figure BDA0003736135970000063
步骤c:将驱动图像的面部特征Fd和身份特征Dd输入运动特征提取器,相同尺度的面部特征减去身份特征得到对应尺度的运动特征,再经过一个3×3的卷积层下采样后与深层特征沿着通道维度拼接,最终得到不同尺度的运动特征
Figure BDA0003736135970000064
其中,
Figure BDA0003736135970000065
Figure BDA0003736135970000066
表达式如下所示:
Figure BDA0003736135970000067
Figure BDA0003736135970000068
步骤d:将源图像的身份特征Dd视为风格特征,驱动图像的运动特征
Figure BDA0003736135970000069
视为内容特征,用AdaAttN进行融合得到源图像的运动热图Hs
步骤e:将源图像的运动热图Hs和源图像面部特征
Figure BDA00037361359700000610
沿着通道连接,输入面部解码器得到重演图像It
所述
Figure BDA00037361359700000611
尺度为64×256×256,所述
Figure BDA00037361359700000612
尺度为128×128×128,所述
Figure BDA00037361359700000613
尺度为256×64×64,所述
Figure BDA00037361359700000614
尺度为512×32×32。
所述编码的身份特征
Figure BDA00037361359700000615
尺度为64×256×256,
Figure BDA00037361359700000616
尺度为128×128×128,
Figure BDA00037361359700000617
尺度为256×64×64,
Figure BDA00037361359700000618
尺度为512×32×32。
有益效果
本发明提出的一种面向人脸重演中表情分离任务的弱标注学习方法,本发明设计了一个人脸重演框架,包含一个面部网络(包括面部编码器和面部解码器),一个身份编码器,一个运动特征提取器,一个AdaAttN模块和两个判别器(图像质量判别器和身份判别器)。其中,面部网络和身份编码器需要通过预训练分别实现编码给定图像的面部信息和身份信息。此外,本发明使用多尺度的驱动图像的面部信息特征减去身份信息特征得到对应尺度的驱动图像的面部运动特征,并迁移图像翻译任务中的AdaAttN模块,以融合驱动图像的多尺度面部运动特征,并将其作为弱标注指导重演图像的生成。本发明能够在无需附加面部信息标注(如面部标志点、轮廓线等)的同时,解决运动特征的解耦问题,实现高质量的人脸重演。
附图说明
图1是本发明面向人脸重演中表情分离任务的弱标注学习算法的训练流程示意图;
图2是本发明方法中面部编码器结构示意图;
图3是本发明方法中面部解码器结构示意图;
图4是采用本发明方法进行人脸重演的结果图像;
图中,第一行表示驱动图像序列,展示了从驱动视频中挑选的不同姿态的具有代表性的帧;第一列表示驱动图像;第二行从第二张图片开始表示重演图像序列。
具体实施方式
现结合实施例、附图对本发明作进一步描述:
本实施例运行环境:10卡思腾合力GPU服务器(CPU为Intel Xeon E5-2698,GPU为12G的RTX 2080Ti),服务器的操作系统为Ubuntu 16.04.5 LTS,实验代码基于Pytorch深度学习框架开发。实验中训练时使用300VW数据集,它包含114个视频及对应每个视频帧中人脸面部标志点的文件。
本发明的具体实施过程如下:
1、面部网络的构建、预训练
面部重构网络由一个面部编码器和一个面部解码器串联而成。其中,面部编码器的网络结构由4个下采样模块和4个残差块串接组成(以Eface表示),面部解码器由4个上采样模块连接构成(以Dface表示)。具体的训练方式如下:将任意一张图片I输入面部编码器,得到编码的面部特征,再将面部特征输入面部解码器得到I的重构图片Irec,对I和Irec做L1度量,并以此作为损失函数对面部网络进行训练。
此外,使用一个判别器(以D1表示)与面部重构网络进行对抗训练,D1采用多尺度的PatchGAN判别器结构,用于评定生成图像的真实性。网络结构如下:首先连接2个下采样模块,然后分三个分支,第一个分支继续连接一个全局自适应最大池化层和一个全连接层(输出一个标量),第二个分支连接两个下采样模块和一个用于调整通道数的卷积模块(输出尺度为1×30×30),第三个分支连接4个下采样模块和一个用于调整通道数的卷积模块(输出尺度为1×6×6)。训练判别器D1时,分别输入生成图像和真实图像,对得到的三个尺度的输出特征分别计算损失后相加得到最终损失,优化函数如下:
Figure BDA0003736135970000081
其中,i表示判别器D1的第i个分支,
Figure BDA0003736135970000082
表示对其输入求数学期望,log(·)表示对其输入求以10为底的对数。PatchGAN的判别器网络见文献“Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei A Efros.Image-to-image translation with conditionaladversarial networks.In Proceedings of the IEEE International Conference onComputer Vision,pages 1125–1134,2017.”。
训练面部重构网络的总损失函数为:
Figure BDA0003736135970000083
其中,
Figure BDA0003736135970000084
是判别器提供的对抗损失,用于衡量面部网络重构图像的质量。其表达式如下所示:
Figure BDA0003736135970000085
Figure BDA0003736135970000086
是I和Irec之间的L1损失,其表达式如下所示:
Figure BDA0003736135970000087
其中,||·||1表示L1距离。
2、身份编码器的构建、预训练
身份编码器由4个下采样模块和4个残差块连接组成(以Eid表示),具有双生网络结构。采用以下方式对身份匹配器Eid进行训练:将一组图像I1和I2分别输入身份编码器,得到对应的身份编码向量z1和z2,计算z1和z2之间的L2距离。当I1和I2来自同一个身份时,它们之间距离越小越好;当I1和I2来自不同身份时,它们之间距离越大越好。总体来说,训练身份编码器的损失函数为:
Figure BDA0003736135970000091
其中,||·||2表示L2距离;max{·,·}2表示取两者较大值的平方;N表示批处理大小;Y为两个样本是否匹配的标签,Y=0表示I1和I2来自不同身份,Y=1表示I1和I2来自同一个身份;m=1为设定的阈值。
3、面向人脸重演中表情分离任务的弱标注学习框架的构建、训练
面向人脸重演中表情分离任务的弱标注学习框架包括步骤1中的面部重构网络,一个身份编码器,一个运动特征提取器和一个AdaAttN模块。其中,运动特征提取器由四个下采样模块串联组成;AdaAttN模块是一个注意力模块,用于融合源图像的身份信息与驱动图像的面部运动特征。
整个网络的具体处理过程如下:
(1)将驱动图像Id输入面部编码器的四个下采样块得到编码的面部特征
Figure BDA0003736135970000092
(尺度为64×256×256),
Figure BDA0003736135970000093
(尺度为128×128×128),
Figure BDA0003736135970000094
(尺度为256×64×64),
Figure BDA0003736135970000095
(尺度为512×32×32);再将驱动图像Id输入身份编码器的四个下采样块得到编码的身份特征
Figure BDA0003736135970000096
(尺度为64×256×256),
Figure BDA0003736135970000097
(尺度为128×128×128),
Figure BDA0003736135970000098
(尺度为256×64×64),
Figure BDA0003736135970000099
(尺度为512×32×32);
(2)类似步骤a,将源图像Is分别输入面部编码器和身份编码器,得到编码的源图像面部特征
Figure BDA00037361359700000910
和身份特征
Figure BDA00037361359700000911
(3)将驱动图像的面部特征Fd和身份特征Dd输入运动特征提取器,相同尺度的面部特征减去身份特征得到对应尺度的运动特征,再经过一个3×3的卷积层下采样后与深层特征沿着通道维度拼接,最终得到不同尺度的运动特征
Figure BDA0003736135970000101
其中,
Figure BDA0003736135970000102
Figure BDA0003736135970000103
表达式如下所示:
Figure BDA0003736135970000104
Figure BDA0003736135970000105
(4)将源图像的身份特征Dd视为风格特征,驱动图像的运动特征
Figure BDA0003736135970000106
视为内容特征,用AdaAttN进行融合得到源图像的运动热图Hs;AdaAttN的具体操作见文献“Songhua Liu,Tianwei Lin,Dongliang He,Fu Li and Meiling Wang.Adaattn:Revisit attentionmechanism in arbitrary neural style transfer.In Proceedings of the IEEE/CVFInternational Conference on Computer Vision.2021.”。
(5)将源图像的运动热图Hs和源图像面部特征
Figure BDA0003736135970000107
沿着通道连接,输入面部解码器得到重演图像It
在训练整体网络时,需要训练额外两个判别器,分别为图像质量判别器(以D2表示)和身份判别器(以D3表示)。图像质量判别器使用与步骤1的判别器D1具有相同架构的多尺度判别器,用于评定生成图像的真实性。身份判别器采用双生的ResNeXt50网络,用于判断输入的真实人脸和生成人脸是否具有相同的身份。在训练整体网络时,对步骤1和步骤2预训练好的面部网络和身份编码器进行微调。采用自监督的训练方式,即在训练阶段,驱动图像和源图像是来自同一个视频的不同帧,驱动图像可作为重演图像的真值。以生成对抗网络经典的交替训练的方式端到端地训练整个网络。
训练图像质量判别器D2,分别输入生成图像和源图像,对得到的三个尺度的输出特征分别计算损失后相加得到最终损失,优化函数如下:
Figure BDA0003736135970000108
其中,i表示判别器D2的第i个分支。
对于身份判别器D3,其训练的优化函数如下:
Figure BDA0003736135970000111
其中,m=1为设定的阈值,Iss表示与源图像Is具有相同身份的图片;
算法总体损失函数为:
Figure BDA0003736135970000112
其中,
Figure BDA0003736135970000113
是图像质量判别器D2提供的对抗损失,其表达式如下所示:
Figure BDA0003736135970000114
Figure BDA0003736135970000115
是身份判别器D3提供的对抗损失,其表达式如下所示:
Figure BDA0003736135970000116
Figure BDA0003736135970000117
是重演图片与真值(即驱动图像)之间的L1距离损失,其表达式如下所示:
Figure BDA0003736135970000118
Figure BDA0003736135970000119
是重演图片的面部特征与真值(即驱动图像)的面部特征之间的L1距离损失,其表达式如下所示:
Figure BDA00037361359700001110
Figure BDA00037361359700001111
是重演图片的身份特征与真值(即驱动图像)的身份特征之间的L1距离损失,其表达式如下所示:
Figure BDA00037361359700001112
4、完成人脸重演
对于任意一张驱动图像和源图像,使用步骤3训练好的面向人脸重演中表情分离任务的弱标注学习框架生成重演图片。由此,即可完成人脸重演任务。
采用本发明方法进行人脸重演的结果见图3。
选用结构相似性(Structural Similarity,以下简称SSIM)对本发明方法的有效性进定量评估。结构相似性衡量两幅重演前后视频图像帧之间的感知差异。它能够描述结构信息的变化。给定两幅图像x和y,其结构相似性为
Figure BDA0003736135970000121
其中,μx是x的平均值,μy是y的平均值,
Figure BDA0003736135970000122
是y的方差,σxy是x和y的方差,c1=(k1L)2和c2=(k2L)2是用来维持稳定的常数,L是像素值的动态范围,k1=0.01,k2=0.03。SSIM的取值范围在0到1,分数越高生成的图片质量越好。
将本发明方法与其他基于附加面部信息的人脸重演算法进行了对比,结果如表1所示。可以看出本发明能够获得较高的结构相似性。
表1
方法 SSIM
Few-shot 0.5236
Monkey-Net 0.5587
本发明方法 0.5723

Claims (4)

1.一种面向人脸重演中表情分离任务的弱标注学习方法,其特征在于步骤如下:
步骤1、构建并训练面部重构网络:由一个面部编码器和一个面部解码器串联而成,其中:面部编码器的网络结构由4个下采样模块和4个残差块串接为以Eface,面部解码器由4个上采样模块连接构成为Dface
训练方式如下:将任意一张图片I输入面部编码器得到编码的面部特征,再将面部特征输入面部解码器得到I的重构图片Irec,对I和Irec做L1度量,并以此作为损失函数对面部网络进行训练;
使用一个多尺度的PatchGAN判别器D1与面部重构网络进行对抗训练,用于评定生成图像的真实性,网络结构如下:首先连接2个下采样模块,然后分三个分支,第一个分支继续连接一个全局自适应最大池化层和一个全连接层为输出一个标量,第二个分支连接两个下采样模块和一个用于调整通道数的卷积模块为输出尺度为1×30×30,第三个分支连接4个下采样模块和一个用于调整通道数的卷积模块为输出尺度为1×6×6;训练判别器D1时,分别输入生成图像和真实图像,对得到的三个尺度的输出特征分别计算损失后相加,优化函数如下:
Figure FDA0003736135960000011
其中,i表示判别器D1的第i个分支,
Figure FDA0003736135960000012
表示对其输入求数学期望,log(·)表示对其输入求以10为底的对数;
训练面部重构网络的总损失函数为:
Figure FDA0003736135960000013
其中,
Figure FDA0003736135960000014
是判别器提供的对抗损失,用于衡量面部网络重构图像的质量;
Figure FDA0003736135960000015
是I和Irec之间的L1损失;
其中,||·||1表示L1距离;
步骤2、构建并训练身份编码器:由4个下采样模块和4个残差块连接组成为Eid,具有双生网络结构;
对身份匹配器Eid进行训练:将一组图像I1和I2分别输入身份编码器,得到对应的身份编码向量z1和z2,计算z1和z2之间的L2距离;当I1和I2来自同一个身份时,它们之间距离越小越好;当I1和I2来自不同身份时,它们之间距离越大越好;
训练身份编码器的损失函数为:
Figure FDA0003736135960000021
其中,||·||2表示L2距离;max{·,·}2表示取两者较大值的平方;N表示批处理大小;Y为两个样本是否匹配的标签,Y=0表示I1和I2来自不同身份,Y=1表示I1和I2来自同一个身份;m=1为设定的阈值;
步骤3、构建面向人脸重演中表情分离任务的弱标注学习框架:包括步骤1中的面部重构网络,一个身份编码器,一个运动特征提取器和一个AdaAttN模块;
所述运动特征提取器由四个下采样模块串联组成;
所述AdaAttN模块是一个注意力模块,用于融合源图像的身份信息与驱动图像的面部运动特征;
步骤4、训练面向人脸重演中表情分离任务的弱标注学习框架:训练过程中需要训练额外两个判别器,分别为图像质量判别器为D2和身份判别器为D3
所述图像质量判别器使用与步骤1的判别器D1具有相同架构的多尺度判别器,用于评定生成图像的真实性;
所述身份判别器采用双生的ResNeXt50结构,用于判断输入的真实人脸和生成人脸是否具有相同的身份;
在训练整体网络时,对步骤1和步骤2预训练好的面部网络和身份编码器进行微调;采用自监督的训练方式,即在训练阶段,驱动图像和源图像是来自同一个视频的不同帧,驱动图像作为重演图像的真值;以生成对抗网络经典的交替训练的方式端到端地训练整个网络;
训练图像质量判别器D2,分别输入生成图像和源图像,对得到的三个尺度的输出特征分别计算损失后相加得到最终损失,优化函数如下:
Figure FDA0003736135960000031
其中,i表示判别器D2的第i个分支;
对于身份判别器D3,其训练的优化函数如下:
Figure FDA0003736135960000032
其中,m=1为设定的阈值,Iss表示与源图像Is具有相同身份的图片;
总体损失函数为:
Figure FDA0003736135960000033
其中,
Figure FDA0003736135960000034
是图像质量判别器D2提供的对抗损失;
Figure FDA0003736135960000035
是身份判别器D3提供的对抗损失;
Figure FDA0003736135960000036
是重演图片与真值即即驱动图像之间的L1距离损失;
Figure FDA0003736135960000037
是重演图片的面部特征与真值即即驱动图像的面部特征之间的L1距离损失;
Figure FDA0003736135960000038
是重演图片的身份特征与真值即即驱动图像的身份特征之间的L1距离损失;
步骤5、完成人脸重演:对于任意一张驱动图像和源图像,使用步骤4训练好的面向人脸重演中表情分离任务的弱标注学习框架生成重演图片,由此,即完成人脸重演任务。
2.根据权利要求1所述面向人脸重演中表情分离任务的弱标注学习方法,其特征在于:所述面向人脸重演中表情分离任务的弱标注学习框架以数据流动方式的形式阐述,串行步骤所示:
步骤a:将驱动图像Id输入面部编码器的四个下采样块得到编码的面部特征
Figure FDA0003736135960000041
Figure FDA0003736135960000042
再将驱动图像Id输入身份编码器的四个下采样块得到编码的身份特征
Figure FDA0003736135960000043
步骤b:类似步骤a,将源图像Is分别输入面部编码器和身份编码器,得到编码的源图像面部特征
Figure FDA0003736135960000044
和身份特征
Figure FDA0003736135960000045
步骤c:将驱动图像的面部特征Fd和身份特征Dd输入运动特征提取器,相同尺度的面部特征减去身份特征得到对应尺度的运动特征,再经过一个3×3的卷积层下采样后与深层特征沿着通道维度拼接,最终得到不同尺度的运动特征
Figure FDA0003736135960000046
其中,
Figure FDA0003736135960000047
Figure FDA0003736135960000048
表达式如下所示:
Figure FDA0003736135960000049
Figure FDA00037361359600000410
步骤d:将源图像的身份特征Dd视为风格特征,驱动图像的运动特征
Figure FDA00037361359600000411
视为内容特征,用AdaAttN进行融合得到源图像的运动热图Hs
步骤e:将源图像的运动热图Hs和源图像面部特征
Figure FDA00037361359600000412
沿着通道连接,输入面部解码器得到重演图像It
3.根据权利要求1所述面向人脸重演中表情分离任务的弱标注学习方法,其特征在于:所述
Figure FDA00037361359600000413
尺度为64×256×256,所述
Figure FDA00037361359600000414
尺度为128×128×128,所述
Figure FDA00037361359600000415
尺度为256×64×64,所述
Figure FDA00037361359600000416
尺度为512×32×32。
4.根据权利要求1所述面向人脸重演中表情分离任务的弱标注学习方法,其特征在于:所述编码的身份特征
Figure FDA00037361359600000417
尺度为64×256×256,
Figure FDA00037361359600000418
尺度为128×128×128,
Figure FDA00037361359600000419
尺度为256×64×64,
Figure FDA00037361359600000420
尺度为512×32×32。
CN202210853247.2A 2022-07-08 2022-07-08 一种面向人脸重演中表情分离任务的弱标注学习方法 Pending CN115424310A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210853247.2A CN115424310A (zh) 2022-07-08 2022-07-08 一种面向人脸重演中表情分离任务的弱标注学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210853247.2A CN115424310A (zh) 2022-07-08 2022-07-08 一种面向人脸重演中表情分离任务的弱标注学习方法

Publications (1)

Publication Number Publication Date
CN115424310A true CN115424310A (zh) 2022-12-02

Family

ID=84196316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210853247.2A Pending CN115424310A (zh) 2022-07-08 2022-07-08 一种面向人脸重演中表情分离任务的弱标注学习方法

Country Status (1)

Country Link
CN (1) CN115424310A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116311477A (zh) * 2023-05-15 2023-06-23 华中科技大学 一种面向跨身份一致性的面部运动单元检测模型构建方法
CN117975543A (zh) * 2024-04-01 2024-05-03 武汉烽火信息集成技术有限公司 一种基于光流表情的区块链零知识身份认证凭证交互方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116311477A (zh) * 2023-05-15 2023-06-23 华中科技大学 一种面向跨身份一致性的面部运动单元检测模型构建方法
CN116311477B (zh) * 2023-05-15 2023-08-01 华中科技大学 一种面向跨身份一致性的面部运动单元检测模型构建方法
CN117975543A (zh) * 2024-04-01 2024-05-03 武汉烽火信息集成技术有限公司 一种基于光流表情的区块链零知识身份认证凭证交互方法

Similar Documents

Publication Publication Date Title
Chen et al. The face image super-resolution algorithm based on combined representation learning
CN115424310A (zh) 一种面向人脸重演中表情分离任务的弱标注学习方法
CN113642604A (zh) 一种基于云边协同的音视频辅助触觉信号重建方法
CN115953582B (zh) 一种图像语义分割方法及系统
CN113112416B (zh) 一种语义引导的人脸图像修复方法
CN113392822B (zh) 基于特征分离表征学习的面部运动单元检测方法及系统
CN116385827A (zh) 参数化人脸重建模型训练方法及关键点标签数据生成方法
CN112149603A (zh) 一种基于跨模态数据增广的连续手语识别方法
CN116524307A (zh) 一种基于扩散模型的自监督预训练方法
CN114612902A (zh) 图像语义分割方法、装置、设备、存储介质及程序产品
JPH09502586A (ja) データ分析方法及び装置
Zeng et al. Expression-tailored talking face generation with adaptive cross-modal weighting
Shirai et al. Privacy-preserving annotation of face images through attribute-preserving face synthesis
CN116523985B (zh) 一种结构和纹理特征引导的双编码器图像修复方法
Liu et al. Video decolorization based on the CNN and LSTM neural network
CN114283181B (zh) 一种基于样例的动态纹理迁移方法及系统
CN116127350A (zh) 一种基于Transformer网络的学习专注度监测方法
CN113781376B (zh) 一种基于分治融合的高清人脸属性编辑方法
Gowda et al. From pixels to portraits: A comprehensive survey of talking head generation techniques and applications
CN113538324A (zh) 评估方法、模型训练方法、装置、介质及电子设备
Li et al. Can we generate real faces from rPPG signals? Probably not
CN116704588B (zh) 面部图像的替换方法、装置、设备及存储介质
CN116843806B (zh) 人脸动画合成方法、系统和存储介质
CN117974693B (zh) 图像分割方法、装置、计算机设备和存储介质
Kebir et al. End-to-end deep auto-encoder for segmenting a moving object with limited training data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination