CN115050087B - 一种人脸关键点身份和表情解耦方法及装置 - Google Patents

一种人脸关键点身份和表情解耦方法及装置 Download PDF

Info

Publication number
CN115050087B
CN115050087B CN202210981411.8A CN202210981411A CN115050087B CN 115050087 B CN115050087 B CN 115050087B CN 202210981411 A CN202210981411 A CN 202210981411A CN 115050087 B CN115050087 B CN 115050087B
Authority
CN
China
Prior art keywords
expression
identity
face key
model
key points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210981411.8A
Other languages
English (en)
Other versions
CN115050087A (zh
Inventor
梁森
李融
陈奕铮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210981411.8A priority Critical patent/CN115050087B/zh
Publication of CN115050087A publication Critical patent/CN115050087A/zh
Application granted granted Critical
Publication of CN115050087B publication Critical patent/CN115050087B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明公开了一种人脸关键点身份和表情解耦方法及装置,该方法包括:建立模型、训练模型和模型推断三个部分。本发明首先是从人脸图片中进行提取的人脸关键点,然后基于变分自编码器构建模型,其编码器部分将人脸关键点解耦成两个正交的身份隐变量和表情隐变量,解码器部分融合两者并解码成人脸关键点;采集大量的人脸说话视频数据,提取视频每帧的人脸关键点坐标,构建模型并训练模型直至收敛,得到最佳的模型参数用于模型的推断。对任意输入的人脸关键点解耦成身份和表情隐变量,任意组合两者可以生成新的人脸关键点。

Description

一种人脸关键点身份和表情解耦方法及装置
技术领域
本发明涉及计算机动画和内容生成领域,尤其是涉及了一种人脸关键点身份和表情解耦方法及装置。
背景技术
随着深度学习在计算视觉领域的快速发展,人脸解耦表示学习已经获得了内容创造类应用的广泛兴趣,例如人脸再现、头像动画,以及语音驱动人脸说话等。人脸解耦表示学习的核心在于将人脸分解为不同的人脸表示属性,例如身份属性、表情属性和头部姿势属性,其中身份属性表示该人脸是谁,头部姿势属性表示该人脸在世界坐标系中的旋转方向及平移,表情属性表示该人脸具有什么样的表情,比如嘴巴张开的幅度,眼睛闭合的幅度等。
目前人脸的表示模型主要有三种,分别为基于二维外观的人脸关键点表示、基于三维网格的参数化人脸模型,以及基于特征的人脸表示。人脸关键点是一种人脸面部形状和表情的稀疏表示,在多种人脸任务中具有广泛的应用。三维参数化人脸模型通常被称为3DMM,是一种三维面部或头部网格的参数化表示,并由不同的人脸属性组合表示的,比如身份、表情、光照和纹理等属性,具有控制灵活和编辑简单的优势。基于特征的人脸表示模型主要是将人脸图像像素编码到一个特征隐编码空间中,然后在将其应用于不同的下游任务中,比如人脸识别和人脸编辑。
人脸关键点表示模型在上述三种人脸表示中最简单且高效。然而,与基于3DMM的人脸表示模型不同的是,它不具有将人脸属性解耦的能力。如何将人脸关键点分解成具有语义信息的身份和表情属性仍然是当前的一个挑战,原因主要有三点:其一,人脸关键点在二维空间中的表示是稀疏且离散的,这使得难以对身份和表情属性的语义信息进行建模;其二,当前公开数据集中拥有大量的人脸标注数据,但是缺少对身份属性和表情属性的标注数据集,因此很难直接训练基于监督学习的回归模型。其三,当前的方法主要是单一的对某种因素进行回归求解,并没有一种统一的表示框架对人脸关键点进行解耦。
在计算机动画和多媒体领域,对人脸关键点的身份、表情、动作等因素进行解耦是一个很重要的研究方向。该技术可以将人脸关键点的信息进行解耦,然后重新组合,从而实现换脸、动作迁移、表情迁移等内容生成,其在互联网娱乐、短视频创作、动画制作等众多领域有着广泛的需求。
发明内容
针对现有技术的不足,本发明提供一种基于变分自编码器的人脸关键点身份和表情解耦方法对对任意输入的人脸关键点解耦成身份和表情隐变量,任意组合两者可以生成新的人脸关键点。
一种人脸关键点身份和表情解耦方法,包括如下步骤:
(1)提取数据集:使用相机拍摄的方法获取大量的人脸说话视频文件,通过人脸关键点算法从视频文件中提取得到包含人脸关键点序列的数据集;
(2)构建模型:所述模型为基于变分自编码器的人脸关键点解耦表示模型,包含编码模块和解码模块,具体为,所述编码模块是将人脸关键点输入基于变分自编码器的编码器进行身份和表情的解耦,生成身份属性隐编码表示空间和表情属性隐编码表示空间;所述解码模块是对身份属性隐编码表示空间和表情属性隐编码表示空间进行采样,将采样后得到的身份属性的隐编码变量和表示表情属性的隐编码变量合并输入变分自编码器的解码器中解码重建,得到解码重建的人脸关键点;
(3)模型训练:利用步骤(1)中提取的数据集训练步骤(2)中构建的基于变分自编码器的人脸关键点解耦表示模型,再利用优化损失函数项训练模型直至其收敛,最后得到最佳模型参数的训练模型;
(4)模型推断:利用用步骤(3)中最佳模型参数的训练模型,对任意输入的人脸关键点解耦成身份和表情的隐表示空间;且任意组合不同的身份和表情隐表示变量生成新的人脸关键点。
进一步地,所述步骤(2)中变分自编码器的编码器的解耦具体为:首先使用四层感知机来提取输入的人脸关键点的特征,然后分别并行输入身份嵌入网络和表情嵌入网络中,其中每个嵌入网络输出一个对角高斯分布的均值和对数标准差,即隐表示空间,最后完成对身份和表情的解耦。
进一步地,所述步骤(2)中变分自编码器的解码器的解码重建具体为:首先应用重 参数化技巧对身份和表情隐编码分布进行采样得到身份属性的隐编码变量
Figure 926774DEST_PATH_IMAGE001
和表示表 情属性的隐编码变量
Figure 937325DEST_PATH_IMAGE002
,然后拼接这两个向量做为解码器的输入,最后通过一个四层感 知机网络重建输入的人脸关键点。
进一步地,步骤(3)中所述损失函数项分别为变分损失函数项
Figure 263264DEST_PATH_IMAGE003
,隐编码不变 损失项
Figure 426392DEST_PATH_IMAGE004
,隐编码循环不变损失项
Figure 546795DEST_PATH_IMAGE005
,身份保持损失项
Figure 310220DEST_PATH_IMAGE006
和数据不变损失项
Figure 174271DEST_PATH_IMAGE007
;由这五种损失函数项构成了模型优化的目标函数,将人脸关键点的解耦成身份属性 和表情属性两个隐编码空间,重建出原始输入的人脸关键点和学习各个属性的语义信息, 即让每个隐编码空间表征其对应属性的信息,以及使两个属性相互分离并同时保持其各自 的语义信息。
具体地,所述变分损失函数项
Figure 191905DEST_PATH_IMAGE003
的表达式如下:
Figure 748789DEST_PATH_IMAGE008
其中,E为数学期望;
Figure 736861DEST_PATH_IMAGE009
表示人脸关键点
Figure 404603DEST_PATH_IMAGE010
基于身份和表情属性的条 件分布概率,用对角协方差矩阵的多元高斯分布来表示,
Figure 276744DEST_PATH_IMAGE011
Figure 4528DEST_PATH_IMAGE012
分别表示 编码器对人脸关键点
Figure 476967DEST_PATH_IMAGE010
解耦出的身份和表情的概率分布,
Figure 682820DEST_PATH_IMAGE013
Figure 675047DEST_PATH_IMAGE014
分别表示身份 和表情属性隐空间的先验概率分布,
Figure 573733DEST_PATH_IMAGE015
表示是KL散度,
Figure 267888DEST_PATH_IMAGE016
Figure 277432DEST_PATH_IMAGE017
是用来平衡这三者的 超参数。
具体地,所述隐编码不变损失项
Figure 389745DEST_PATH_IMAGE004
的表达式如下:
Figure 193753DEST_PATH_IMAGE018
其中
Figure 640784DEST_PATH_IMAGE019
Figure 188440DEST_PATH_IMAGE020
分别是来自同一图像
Figure 951996DEST_PATH_IMAGE021
但具有不同的表情
Figure 926906DEST_PATH_IMAGE022
和表情
Figure 611965DEST_PATH_IMAGE023
的人脸关键点;同样的,
Figure 418771DEST_PATH_IMAGE019
Figure 36834DEST_PATH_IMAGE024
分别来自不同的图像
Figure 651487DEST_PATH_IMAGE021
Figure 807530DEST_PATH_IMAGE025
但具有相同的表情
Figure 493726DEST_PATH_IMAGE022
的人脸关键点,
Figure 638400DEST_PATH_IMAGE026
Figure 955112DEST_PATH_IMAGE027
分别表示身份属性编码网络和表情属性编码网络,两者分别可 以将输入的人脸关键点
Figure 598452DEST_PATH_IMAGE010
映射到身份和表情的隐表示空间中。
具体地,所述隐编码循环不变损失项
Figure 88339DEST_PATH_IMAGE005
的计算公式如下:
Figure 884257DEST_PATH_IMAGE028
其中,
Figure 840711DEST_PATH_IMAGE026
Figure 971347DEST_PATH_IMAGE027
表示身份属性编码网络和表情属性编码网络,
Figure 202608DEST_PATH_IMAGE029
表示解码器 网络,
Figure 649770DEST_PATH_IMAGE030
表示具有任意表情的身份A的人脸关键点,
Figure 573864DEST_PATH_IMAGE031
表示具有特定表情
Figure 942528DEST_PATH_IMAGE022
的任意身份 的人脸关键点,另外,
Figure 241396DEST_PATH_IMAGE032
分别表示
Figure 746327DEST_PATH_IMAGE033
的身份隐表示变量和
Figure 841322DEST_PATH_IMAGE034
的表情隐表示变量,
Figure 697283DEST_PATH_IMAGE035
分别表示
Figure 519614DEST_PATH_IMAGE036
的身份隐表示变量和
Figure 144630DEST_PATH_IMAGE037
的表情隐表示变量。
具体地,所述身份保持损失项
Figure 410527DEST_PATH_IMAGE006
的表达式如下:
Figure 488204DEST_PATH_IMAGE038
其中
Figure 379806DEST_PATH_IMAGE039
是距离函数,
Figure 859328DEST_PATH_IMAGE023
是边缘超参数,max是取最大值的函数。
具体地,所述数据不变损失项
Figure 296126DEST_PATH_IMAGE040
表达如下:
Figure 861100DEST_PATH_IMAGE041
Figure 25234DEST_PATH_IMAGE042
其中,
Figure 624842DEST_PATH_IMAGE029
表示解码器网络,
Figure 232541DEST_PATH_IMAGE043
分别表示
Figure 284811DEST_PATH_IMAGE019
的身份和表情隐表示变量,
Figure 458827DEST_PATH_IMAGE044
Figure 709680DEST_PATH_IMAGE045
分别表示
Figure 691543DEST_PATH_IMAGE020
的身份隐表示变量和
Figure 27846DEST_PATH_IMAGE046
的表情隐表示变量。
一种人脸关键点身份和表情解耦装置,包括:
提取模块:使用相机拍摄的方法获取大量的人脸说话视频文件,通过人脸关键点算法从视频文件中提取得到包含人脸关键点序列的数据集;
构建模块:所述模型为基于变分自编码器的人脸关键点解耦表示模型,包含编码模块和解码模块,具体为,所述编码模块是将人脸关键点输入基于变分自编码器的编码器进行身份和表情的解耦,生成身份属性隐编码表示空间和表情属性隐编码表示空间;所述解码模块是对身份属性隐编码表示空间和表情属性隐编码表示空间进行采样,将采样后得到的身份属性的隐编码变量和表示表情属性的隐编码变量合并输入变分自编码器的解码器中解码重建,得到解码重建的人脸关键点;
训练模块:利用提取模块所提取的数据集训练构建模块所构建的基于变分自编码器的人脸关键点解耦表示模型,再利用优化损失函数项训练模型直至其收敛,最后得到最佳模型参数的训练模型;
推断模块:利用训练模块得到的最佳模型参数的训练模型,对任意输入的人脸关键点解耦成身份和表情的隐表示空间;且任意组合不同的身份和表情隐表示变量生成新的人脸关键点。
本发明的有益效果如下:
本发明提出了一种基于变分自编码器的人脸关键点身份和表情解耦方法,该方法包含一个编码模块和一个解码模块,编码模块可以将人脸关键点解耦成身份和表情两种因素,解码模块能够和并这两种因素生成对应的人脸关键点,这种模型设计能够支持不同的人的表情进行迁移,以及身份的迁移。另外本发明提出的模型是基于生成模型,能生成多样性结果,在内容创作中具有较大的优势。
附图说明
图1是本发明的模型框架图;
图2是本发明的测试生成结果图;
图3是本发明的装置流程图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
由图3所示,一种人脸关键点身份和表情解耦装置,包括:
提取模块:使用相机拍摄的方法获取大量的人脸说话视频文件,通过人脸关键点算法从视频文件中提取得到包含人脸关键点序列的数据集;
构建模块:所述模型为基于变分自编码器的人脸关键点解耦表示模型,包含编码模块和解码模块,具体为,所述编码模块是将人脸关键点输入基于变分自编码器的编码器进行身份和表情的解耦,生成身份属性隐编码表示空间和表情属性隐编码表示空间;所述解码模块是对身份属性隐编码表示空间和表情属性隐编码表示空间进行采样,将采样后得到的身份属性的隐编码变量和表示表情属性的隐编码变量合并输入变分自编码器的解码器中解码重建,得到解码重建的人脸关键点;
训练模块:利用提取模块所提取的数据集训练构建模块所构建的基于变分自编码器的人脸关键点解耦表示模型,再利用优化损失函数项训练模型直至其收敛,最后得到最佳模型参数的训练模型;
推断模块:利用训练模块得到的最佳模型参数的训练模型,对任意输入的人脸关键点解耦成身份和表情的隐表示空间;且任意组合不同的身份和表情隐表示变量生成新的人脸关键点。
如图1所示,一种人脸关键点身份和表情解耦方法,包含如下步骤:
步骤一:从人脸图像中提取得到一个包含
Figure 799362DEST_PATH_IMAGE047
个人脸关键点序列的数据集
Figure 311246DEST_PATH_IMAGE048
,其中每个人脸关键点
Figure 260747DEST_PATH_IMAGE049
表示具有68个二维关键点。为了实现人脸的 解耦表示,把包含人脸关键点序列的数据集输入到变分自编码的编码器中进行身份和表情 的解耦,将每个人脸关键点使用一个隐变量(Latent Variable)
Figure 818768DEST_PATH_IMAGE050
表示,其主 要有两个正交部分组成,分别为表示身份属性的隐编码变量
Figure 393974DEST_PATH_IMAGE051
和表示表情属性的隐编码 变量
Figure 557102DEST_PATH_IMAGE052
。两种隐变量的先验分布可以简单的定义为对角高斯分布(Diagonal Gaussian Distribution)。因此,隐变量
Figure 880767DEST_PATH_IMAGE053
的先验分布为
Figure 191663DEST_PATH_IMAGE054
,任意一个人脸关键点的边缘似然概率 为
Figure 304981DEST_PATH_IMAGE055
Figure 322616DEST_PATH_IMAGE056
Figure 879499DEST_PATH_IMAGE057
Figure 615374DEST_PATH_IMAGE058
Figure 269734DEST_PATH_IMAGE059
Figure 407454DEST_PATH_IMAGE060
其中,
Figure 135239DEST_PATH_IMAGE061
Figure 92830DEST_PATH_IMAGE062
分别表示
Figure 813531DEST_PATH_IMAGE063
的均值和方差,* 表示身份属性或者表情属性,
Figure 805757DEST_PATH_IMAGE064
代表 生成模型的参数,
Figure 438864DEST_PATH_IMAGE065
是人脸关键点
Figure 149331DEST_PATH_IMAGE066
基于身份和表情属 性的条件分布,用对角协方差矩阵的多元高斯分布来表示。
本发明采用变分自编码器(VAE)的解码器来近似真实的后验,然后用其编码器
Figure 408143DEST_PATH_IMAGE067
来推断生成身份隐表示空间和表情隐表示空间,其网络结构如图1所示,
Figure 254876DEST_PATH_IMAGE067
的表达式如下:
Figure 324463DEST_PATH_IMAGE068
其中,
Figure 256647DEST_PATH_IMAGE069
代表编码器网络的参数,
Figure 319150DEST_PATH_IMAGE070
Figure 285969DEST_PATH_IMAGE071
分别表示身份隐编码 分布和表情隐编码空间,都建模为正态分布,由编码器推测出其均值和方差。
前者输出两个后验概率分布用来表示人脸关键点的身份信息和表情信息,后者合并两种信息解码生成它自身。
在编码器模块中,如图1中的编码器部分,本发明使用四层感知机(MLP,Multi- Layer Perception)来提取输入的人脸关键点的特征,然后分别并行输入身份嵌入网络
Figure 260878DEST_PATH_IMAGE072
和表情嵌入网络
Figure 945938DEST_PATH_IMAGE073
中,其中每个嵌入网络输出一个对角高斯分布的均值和对数标 准差。在编码器和解码器中,本发明使用ReLU函数作为激活函数,以实现模型的非线性建模 和高效训练。总体而言,编码器可以表述为两个映射函数:
Figure 549482DEST_PATH_IMAGE072
将输入的人脸关键点
Figure 370807DEST_PATH_IMAGE066
映射 到身份隐表示空间的高斯分布参数
Figure 516618DEST_PATH_IMAGE074
Figure 423394DEST_PATH_IMAGE075
Figure 562120DEST_PATH_IMAGE073
将输入的人脸关键点
Figure 237952DEST_PATH_IMAGE066
映射到 表情隐表示空间的高斯分布参数
Figure 820243DEST_PATH_IMAGE076
Figure 479895DEST_PATH_IMAGE077
,具体公式如下:
Figure 422312DEST_PATH_IMAGE078
Figure 952650DEST_PATH_IMAGE079
在解码器模块中,如图1中的解码器部分,首先应用重参数化技巧 (Reparameterization Skill)对身份和表情隐编码分布进行采样得到
Figure 705843DEST_PATH_IMAGE051
Figure 321632DEST_PATH_IMAGE052
;然后合 并这两者做为解码器的输入,通过一个四层的感知机网络重建得到一个与输入的人脸关键 点一致的
Figure 67740DEST_PATH_IMAGE080
。其过程如下公式所描述:
Figure 718164DEST_PATH_IMAGE081
Figure 642258DEST_PATH_IMAGE082
Figure 276501DEST_PATH_IMAGE083
其中,
Figure 551932DEST_PATH_IMAGE084
是随机采样函数,
Figure 56863DEST_PATH_IMAGE085
是标准正态分布,
Figure 886278DEST_PATH_IMAGE074
Figure 742239DEST_PATH_IMAGE086
是身份隐表 示空间分布均值和标准方差,
Figure 564570DEST_PATH_IMAGE076
Figure 455166DEST_PATH_IMAGE087
是表情隐表示空间分布均值和标准方差,
Figure 721062DEST_PATH_IMAGE051
Figure 798739DEST_PATH_IMAGE052
分别为表示身份属性的隐编码变量和表情属性的隐编码变量,
Figure 159183DEST_PATH_IMAGE080
是重建得到的人脸 关键点,是对人脸关键点
Figure 638705DEST_PATH_IMAGE066
进行重建的结果,
Figure 75503DEST_PATH_IMAGE088
表示解码器网络。
为了训练本发明提出的基于变分自编码器的人脸关键点解耦表示模型,需要构建 损失函数对模型进行优化。其构建原则主要是为了推动模型将人脸关键点的解耦成身份属 性和表情属性两个隐编码空间。因此,为保证精确的重建出原始输入的人脸关键点和学习 各个属性的语义信息,即让每个隐编码空间表征其对应属性的信息,以及使两个属性相互 分离并同时保持其各自的语义信息,为此,本发明提出了五个损失函数项,分别是变分损失 函数项
Figure 640477DEST_PATH_IMAGE089
,隐编码不变损失项
Figure 70190DEST_PATH_IMAGE090
,隐编码循环不变损失项
Figure 669798DEST_PATH_IMAGE091
,身份保持损失项
Figure 277497DEST_PATH_IMAGE092
,以及数据不变损失项
Figure 64188DEST_PATH_IMAGE093
。下面对这五个损失函数项进行具体说明。
其一,变分损失函数项(Evidence Lower Bound Loss,
Figure 300521DEST_PATH_IMAGE089
)。根据变分自编码器 的理论,对变分自编码器结构进行优化,需要对输入数据的边缘似然概率的变分下界 (Variational Lower Bound,也称为Evidence Lower Bound,ELBO)进行了优化。在本发明 中,其需要优化数据对数似然,以及和表情和身份的Kullback-Leibler (KL) 散度项组成, 具体损失函数项如下所描述:
Figure 754636DEST_PATH_IMAGE094
Figure 533237DEST_PATH_IMAGE095
Figure 603961DEST_PATH_IMAGE096
其中,第一项为数据对数似然项,也称为数据重构项,它约束模型的输入和重构输 出保持一致。身份KL散度项推动着身份隐表示的后验分布
Figure 578739DEST_PATH_IMAGE097
与其先验分布
Figure 684098DEST_PATH_IMAGE098
保持一致;同理,表情KL散度项推动着表情隐表示的后验分布
Figure 836862DEST_PATH_IMAGE099
与其先验分布
Figure 660461DEST_PATH_IMAGE100
保持一致,其中
Figure 720821DEST_PATH_IMAGE098
Figure 398796DEST_PATH_IMAGE100
在本章中采用的是标准正态作为其先验分布,其 中
Figure 519199DEST_PATH_IMAGE101
Figure 767778DEST_PATH_IMAGE102
是用来平衡隐变量KL散度项与数据对数似然项的超参数。
其二,隐编码不变损失(Latent-level Invariant Loss,
Figure 631829DEST_PATH_IMAGE090
)。本发明的主要目 标是从人脸关键点表示中将其身份和表情信息进行解耦。 根据观察,当一个属性的隐编码 被另一个具有相同属性的人脸关键点的该属性隐编码替换时,其重建得到的人脸关键点应 该保持不变。换而言之,即当对身份信息进行解耦时,身份属性隐编码应该对表情信息的变 化保持不变;同理,当对表情信息进行解耦时,表情属性隐编码应该对身份信息的变化保持 不变。因此,可引入一个在隐编码层级上的不变损失项
Figure 164310DEST_PATH_IMAGE090
来对身份和表情属性的隐编 码进行约束,其具体计算表示为:
Figure 455614DEST_PATH_IMAGE103
其中
Figure 191489DEST_PATH_IMAGE104
Figure 859231DEST_PATH_IMAGE105
分别是来自同一图像
Figure 249148DEST_PATH_IMAGE106
但具有不同的表情
Figure 711353DEST_PATH_IMAGE107
和表情
Figure 934524DEST_PATH_IMAGE108
的人脸关键点;同样的,
Figure 140378DEST_PATH_IMAGE104
Figure 381872DEST_PATH_IMAGE109
分别来自不同的图像
Figure 14979DEST_PATH_IMAGE106
Figure 991025DEST_PATH_IMAGE110
但具有相同的表情
Figure 734990DEST_PATH_IMAGE107
的人脸关键点。为了对身份属性进行解耦,应该通过最小化
Figure 830991DEST_PATH_IMAGE104
Figure 900578DEST_PATH_IMAGE105
的身份隐编码 的距离来使得人脸关键点的身份隐编码在表情属性变化时能够保持其自身的不变性;与此 相反,为了对表情属性进行解耦,应该通过最小化
Figure 832762DEST_PATH_IMAGE104
Figure 645997DEST_PATH_IMAGE109
的表情隐编码的距离来使 得人脸关键点的表情隐编码在身份属性变化时能够保持其自身的不变性。
其三,循环不变损失(Cycle-level Invariant Loss,
Figure 596505DEST_PATH_IMAGE091
)。为了使本发明在表示 不同属性的语义信息时具有更强的鲁棒性,提出了一个基于隐编码层级的循环不变损失项
Figure 836993DEST_PATH_IMAGE091
。该损失项的核心思路在于当某一属性的隐编码被交换后,其重建结果再次进行解码 后得到的其它属性的隐编码应该保持不变。具体而言,当给定两个任意不同身份的人脸关 键点
Figure 256473DEST_PATH_IMAGE111
Figure 607820DEST_PATH_IMAGE112
,首先进行解码分别得到身份和表情的隐编码,然后交换其身份隐编码,再 次分别进行解码的到新的人脸关键点
Figure 681343DEST_PATH_IMAGE113
Figure 92733DEST_PATH_IMAGE114
,最后再次对重建的人脸关键点进行分别 解码,得到新的身份和表情的隐编码,此时两者的表情隐编码应该和第一次编码得到的表 情隐编码保持一致。同理,也可以对任意不同表情的人脸关键点
Figure 999509DEST_PATH_IMAGE115
Figure 154546DEST_PATH_IMAGE116
做同样的约 束,因此其损失项的表达式可
以计算如下:
Figure 79646DEST_PATH_IMAGE117
其中,E为数学期望符号,
Figure 661937DEST_PATH_IMAGE072
Figure 56009DEST_PATH_IMAGE073
表示身份属性编码网络和表情属性编码网 络,
Figure 749159DEST_PATH_IMAGE088
表示解码器网络,
Figure 794344DEST_PATH_IMAGE030
表示具有任意表情的身份A的人脸关键点,
Figure 78695DEST_PATH_IMAGE031
表示具有特 定表情
Figure 960063DEST_PATH_IMAGE107
的任意身份的人脸关键点。另外,
Figure 456904DEST_PATH_IMAGE118
分别表示
Figure 107328DEST_PATH_IMAGE119
的身份隐表示变量和
Figure 280689DEST_PATH_IMAGE034
的表情隐表示变量,
Figure 383774DEST_PATH_IMAGE120
分别表示
Figure 418726DEST_PATH_IMAGE036
的身份隐表示变量和
Figure 189236DEST_PATH_IMAGE037
的表情隐表示变 量。
其四,数据不变损失(Data-level Invariant Loss,
Figure 548147DEST_PATH_IMAGE093
)。与循环不变损失项的 原理类似,本发明在数据层次上提出了一个数据不变损失项
Figure 138529DEST_PATH_IMAGE093
以对循环重建得到人脸 关键点进行约束,其核心思路在于当某一属性的隐编码被具有相同属性的其它人脸关键点 的该属性隐编码替换后,其重建得到的人脸关键点应该与其自身保持相似。具体而言,
Figure 977172DEST_PATH_IMAGE104
Figure 602188DEST_PATH_IMAGE105
解码得到身份隐编码应该是一致的,因此交换两者的身份隐编码并再次进 行重建得到人脸关键点应该与各自原本的人脸关键点保持一致;同理可知,
Figure 117352DEST_PATH_IMAGE104
Figure 195029DEST_PATH_IMAGE109
解 码得到的表情隐编码应该是一致的,因此交换两者的表情隐编码并再次进行重建得到人脸 关键点应该与各自原本的人脸关键点保持一致,其损失项公式表示如下:
Figure 571784DEST_PATH_IMAGE121
Figure 51307DEST_PATH_IMAGE122
其中,
Figure 737372DEST_PATH_IMAGE088
表示解码器网络,
Figure 302346DEST_PATH_IMAGE123
分别表示
Figure 482791DEST_PATH_IMAGE104
的身份和表情隐表示变量,
Figure 816821DEST_PATH_IMAGE124
Figure 408208DEST_PATH_IMAGE125
分别表示
Figure 460477DEST_PATH_IMAGE105
的身份隐表示变量和
Figure 444614DEST_PATH_IMAGE126
的表情隐表示变量。
其五,身份不变损失(Identity-level Invariant Loss,
Figure 633150DEST_PATH_IMAGE092
)。在实际模型训练 中,本发明发现人脸关键点的身份隐编码空间很难收敛,其原因可能是由于本发明将身份 属性和头部姿势属性结合为一个隐表示空间,因此具有相同身份属性但包含不同头部姿势 的人脸关键点的身份隐编码会具有略微不太相同的编码。在这种情况下,本发明提出了一 种身份保持损失项
Figure 663947DEST_PATH_IMAGE092
来优化该问题,其核心原理主要在于让具有相同身份属性但具有 不同头部姿势属性或表情属性的人脸关键点的身份隐编码之间的距离比不具有相同身份 属性但具体相同头部姿势属性或表情属性的人脸关键点的身份隐编码之间的距离更近。具 体而言,利用
Figure 203513DEST_PATH_IMAGE104
Figure 725761DEST_PATH_IMAGE105
Figure 34383DEST_PATH_IMAGE109
构成一个数据三元组,其中
Figure 233152DEST_PATH_IMAGE104
Figure 260014DEST_PATH_IMAGE105
构成一个正样本, 其具有相同的身份属性但具有不同的表情属性,
Figure 320374DEST_PATH_IMAGE104
Figure 483502DEST_PATH_IMAGE109
构成一个负样本,其具有不同 的身份属性但具有不同的表情属性,因此该三元组可以构成一个三元组(Triplet)函数以 组建成身份不变损失项,其表达式如下:
Figure 118751DEST_PATH_IMAGE127
其中
Figure 367330DEST_PATH_IMAGE128
是一个距离函数,
Figure 231381DEST_PATH_IMAGE108
是该身份不变损失函数的边缘超参数,max是 一个取最大值的函数。
综上五个损失函数项,本发明提出的基于变分自编码器的人脸关键点解耦表示模型可以构建一个统一的损失函数,如下面公式所示,从而进行端到端的模型训练:
Figure 514594DEST_PATH_IMAGE129
其中
Figure 55166DEST_PATH_IMAGE130
Figure 791041DEST_PATH_IMAGE131
Figure 458783DEST_PATH_IMAGE132
Figure 596503DEST_PATH_IMAGE133
分别表示
Figure 855446DEST_PATH_IMAGE134
Figure 534077DEST_PATH_IMAGE135
Figure 536668DEST_PATH_IMAGE092
损失项的权重,用于平 衡不同损失项之间对模型贡献的比例。
为了验证本发明提出模型具有较好的解耦性能,本发明从测试数据集中随机选择8个目标人脸关键点,其中包含4种不同的身份属性并且每种身份有2种表情属性,以及4个驱动人脸关键点,其中包含2种不同的身份属性并且每种身份有2种表情属性;然后分别对这些人脸关键点进行解耦得到其身份属性隐编码和表情属性隐编码;之后分别组合目标人脸关键点的身份隐编码和驱动人脸的表情隐编码进行重建得到新的驱动人脸关键点,其得到的实验结果如图2所示。从实验结果中可以发现,重新组合并重建得到的人脸关键点可以较好的保留目标人脸关键点的身份信息,并且也能比较好的保持驱动人脸关键点的表情信息,这表明的本发明提出的基于变分编码器的人脸关键点检测模型(FLD-VAE)模型具有较好的解耦能力。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (9)

1.一种人脸关键点身份和表情解耦方法,其特征在于,包括如下步骤:
(1)提取数据集:使用相机拍摄的方法获取大量的人脸说话视频文件,通过人脸关键点算法从视频文件中提取得到包含人脸关键点序列的数据集;
(2)构建模型:所述模型为基于变分自编码器的人脸关键点解耦表示模型,包含编码模块和解码模块,具体为,所述编码模块是将人脸关键点输入基于变分自编码器的编码器进行身份和表情的解耦,生成身份属性隐编码表示空间和表情属性隐编码表示空间;所述解码模块是对身份属性隐编码表示空间和表情属性隐编码表示空间进行采样,将采样后得到的身份属性的隐编码变量和表示表情属性的隐编码变量合并输入变分自编码器的解码器中解码重建,得到解码重建的人脸关键点;
(3)模型训练:利用步骤(1)中提取的数据集训练步骤(2)中构建的基于变分自编码器 的人脸关键点解耦表示模型,再利用优化损失函数项训练模型直至其收敛,最后得到最佳 模型参数的训练模型;所述损失函数项分别为变分损失函数项
Figure 531264DEST_PATH_IMAGE001
,隐编码不变损失项
Figure 261322DEST_PATH_IMAGE002
,隐编码循环不变损失项
Figure 867884DEST_PATH_IMAGE003
,身份保持损失项
Figure 537548DEST_PATH_IMAGE004
和数据不变损失项
Figure 823036DEST_PATH_IMAGE005
;由这 五种损失函数项构成了模型优化的目标函数,将人脸关键点的解耦成身份属性和表情属性 两个隐编码空间,重建出原始输入的人脸关键点和学习各个属性的语义信息,即让每个隐 编码空间表征其对应属性的信息,以及使两个属性相互分离并同时保持其各自的语义信 息;
(4)模型推断:利用步骤(3)得到的最佳模型参数的训练模型,对任意输入的人脸关键点解耦成身份和表情的隐表示空间;且任意组合不同的身份和表情隐表示变量生成新的人脸关键点。
2.根据权利要求1所述的一种人脸关键点身份和表情解耦方法,其特征在于,所述步骤(2)中变分自编码器的编码器的解耦具体为:首先使用四层感知机来提取输入的人脸关键点的特征,然后分别并行输入身份嵌入网络和表情嵌入网络中,其中每个嵌入网络输出一个对角高斯分布的均值和对数标准差,即隐表示空间,最后完成对身份和表情的解耦。
3.根据权利要求1所述的一种人脸关键点身份和表情解耦方法,其特征在于,所述步骤 (2)中变分自编码器的解码器的解码重建具体为:首先应用重参数化技巧对身份和表情隐 编码分布进行采样得到身份属性的隐编码变量
Figure 763310DEST_PATH_IMAGE006
和表示表情属性的隐编码变量
Figure 942488DEST_PATH_IMAGE007
,然 后拼接这两个向量做为解码器的输入,最后通过一个四层感知机网络重建输入的人脸关键 点。
4.根据权利要求1所述的一种人脸关键点身份和表情解耦方法,其特征在于,所述变分 损失函数项
Figure 637911DEST_PATH_IMAGE001
的表达式如下:
Figure 20482DEST_PATH_IMAGE008
其中,E为数学期望;
Figure 13715DEST_PATH_IMAGE009
表示人脸关键点
Figure 188344DEST_PATH_IMAGE010
基于身份和表情属性的条件分 布概率,用对角协方差矩阵的多元高斯分布来表示,
Figure 664456DEST_PATH_IMAGE011
Figure 924536DEST_PATH_IMAGE012
分别表示编码 器对人脸关键点
Figure 455880DEST_PATH_IMAGE010
解耦出的身份和表情的概率分布,
Figure 360382DEST_PATH_IMAGE013
Figure 132029DEST_PATH_IMAGE014
分别表示身份和表 情属性隐空间的先验概率分布,
Figure 6969DEST_PATH_IMAGE015
表示是KL散度,
Figure 92737DEST_PATH_IMAGE016
Figure 976379DEST_PATH_IMAGE017
是用来平衡这三者的超参 数。
5.根据权利要求1所述的一种人脸关键点身份和表情解耦方法,其特征在于,所述隐编 码不变损失项
Figure 574720DEST_PATH_IMAGE002
的表达式如下:
Figure 278233DEST_PATH_IMAGE018
其中
Figure 105375DEST_PATH_IMAGE019
Figure 30475DEST_PATH_IMAGE020
分别是来自同一图像
Figure 409503DEST_PATH_IMAGE021
但具有不同的表情
Figure 741259DEST_PATH_IMAGE022
和表情
Figure 231146DEST_PATH_IMAGE023
的人 脸关键点;同样的,
Figure 10752DEST_PATH_IMAGE019
Figure 701627DEST_PATH_IMAGE024
分别来自不同的图像
Figure 645313DEST_PATH_IMAGE021
Figure 795016DEST_PATH_IMAGE025
但具有相同的表情
Figure 179861DEST_PATH_IMAGE022
的 人脸关键点,
Figure 166271DEST_PATH_IMAGE026
Figure 721886DEST_PATH_IMAGE027
分别表示身份属性编码网络和表情属性编码网络,两者分别可以 将输入的人脸关键点
Figure 553576DEST_PATH_IMAGE010
映射到身份和表情的隐表示空间中。
6.根据权利要求1所述的一种人脸关键点身份和表情解耦方法,其特征在于,所述隐编 码循环不变损失项
Figure 792927DEST_PATH_IMAGE003
的计算公式如下:
Figure 74873DEST_PATH_IMAGE028
其中,E为数学期望符号,
Figure 993151DEST_PATH_IMAGE029
Figure 238318DEST_PATH_IMAGE030
表示身份属性编码网络和表情属性编码网络,
Figure 925651DEST_PATH_IMAGE031
表示解码器网络,
Figure 175236DEST_PATH_IMAGE032
表示具有任意表情的身份A的人脸关键点,
Figure 190597DEST_PATH_IMAGE033
表示具有特定 表情
Figure 629668DEST_PATH_IMAGE034
的任意身份的人脸关键点;
另外,
Figure 299071DEST_PATH_IMAGE035
分别表示
Figure 470290DEST_PATH_IMAGE036
的身份隐表示变量和
Figure 97580DEST_PATH_IMAGE037
的表情隐表示变量,
Figure 199397DEST_PATH_IMAGE038
分别表示
Figure 595744DEST_PATH_IMAGE039
的身份隐表示变量和
Figure 141126DEST_PATH_IMAGE040
的表情隐表示变量。
7.根据权利要求1所述的一种人脸关键点身份和表情解耦方法,其特征在于,所述身份 保持损失项
Figure 177084DEST_PATH_IMAGE004
的表达式如下:
Figure 957958DEST_PATH_IMAGE041
其中,
Figure 349756DEST_PATH_IMAGE042
是距离函数,
Figure 925094DEST_PATH_IMAGE023
是边缘超参数,max是取最大值的函数。
8.根据权利要求1所述的一种人脸关键点身份和表情解耦方法,其特征在于,所述数据 不变损失项
Figure 651610DEST_PATH_IMAGE043
表达如下:
Figure 908279DEST_PATH_IMAGE044
Figure 279218DEST_PATH_IMAGE045
其中,
Figure 147161DEST_PATH_IMAGE046
表示解码器网络,
Figure 970760DEST_PATH_IMAGE047
分别表示
Figure 31120DEST_PATH_IMAGE019
的身份和表情隐表示变量,
Figure 381199DEST_PATH_IMAGE048
Figure 298339DEST_PATH_IMAGE049
分别表示
Figure 750181DEST_PATH_IMAGE020
的身份隐表示变量和
Figure 597920DEST_PATH_IMAGE050
的表情隐表示变量。
9.一种人脸关键点身份和表情解耦装置,其特征在于,包括:
提取模块:使用相机拍摄的方法获取大量的人脸说话视频文件,通过人脸关键点算法从视频文件中提取得到包含人脸关键点序列的数据集;
构建模型:所述模型为基于变分自编码器的人脸关键点解耦表示模型,包含编码模块和解码模块,具体为,所述编码模块是将人脸关键点输入基于变分自编码器的编码器进行身份和表情的解耦,生成身份属性隐编码表示空间和表情属性隐编码表示空间;所述解码模块是对身份属性隐编码表示空间和表情属性隐编码表示空间进行采样,将采样后得到的身份属性的隐编码变量和表示表情属性的隐编码变量合并输入变分自编码器的解码器中解码重建,得到解码重建的人脸关键点;
训练模块:利用提取模块所提取的数据集训练构建模块所构建的基于变分自编码器的人脸关键点解耦表示模型,再利用优化损失函数项训练模型直至其收敛,最后得到最佳模型参数的训练模型;
推断模块:利用训练模块得到的最佳模型参数的训练模型,对任意输入的人脸关键点解耦成身份和表情的隐表示空间;且任意组合不同的身份和表情隐表示变量生成新的人脸关键点。
CN202210981411.8A 2022-08-16 2022-08-16 一种人脸关键点身份和表情解耦方法及装置 Active CN115050087B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210981411.8A CN115050087B (zh) 2022-08-16 2022-08-16 一种人脸关键点身份和表情解耦方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210981411.8A CN115050087B (zh) 2022-08-16 2022-08-16 一种人脸关键点身份和表情解耦方法及装置

Publications (2)

Publication Number Publication Date
CN115050087A CN115050087A (zh) 2022-09-13
CN115050087B true CN115050087B (zh) 2022-11-18

Family

ID=83167465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210981411.8A Active CN115050087B (zh) 2022-08-16 2022-08-16 一种人脸关键点身份和表情解耦方法及装置

Country Status (1)

Country Link
CN (1) CN115050087B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115631274B (zh) * 2022-11-18 2023-03-28 北京红棉小冰科技有限公司 一种人脸图像生成方法、装置、设备及存储介质
CN116229214B (zh) * 2023-03-20 2023-12-01 北京百度网讯科技有限公司 模型训练方法、装置及电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194868A (zh) * 2017-05-19 2017-09-22 成都通甲优博科技有限责任公司 一种人脸图像生成方法及装置
CN110085254A (zh) * 2019-04-22 2019-08-02 南京邮电大学 基于beta-VAE和i-vector的多对多语音转换方法
CN110288697A (zh) * 2019-06-24 2019-09-27 天津大学 基于多尺度图卷积神经网络的3d人脸表示与重建方法
CN110633748A (zh) * 2019-09-16 2019-12-31 电子科技大学 一种鲁棒的自动人脸融合方法
CN111243066A (zh) * 2020-01-09 2020-06-05 浙江大学 一种基于自监督学习与生成对抗机制的人脸表情迁移方法
CN111259745A (zh) * 2020-01-09 2020-06-09 西安交通大学 一种基于分布独立性的3d人脸解耦表示学习方法
CN112232220A (zh) * 2020-10-19 2021-01-15 戴姆勒股份公司 生成人物图像的方法、训练方法和装置及存储介质
CN112541958A (zh) * 2020-12-21 2021-03-23 清华大学 三维人脸的参数化建模方法和装置
CN113095149A (zh) * 2021-03-18 2021-07-09 西北工业大学 一种基于单张人脸图像的全头部纹理网络结构及生成方法
CN114241102A (zh) * 2021-11-11 2022-03-25 清华大学 基于参数化模型的人脸细节重建和编辑方法及装置
CN114662666A (zh) * 2022-03-28 2022-06-24 天津科技大学 基于β-GVAE的解耦合方法、系统和相关设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11403531B2 (en) * 2017-07-19 2022-08-02 Disney Enterprises, Inc. Factorized variational autoencoders
CN113033511B (zh) * 2021-05-21 2021-08-10 中国科学院自动化研究所 一种基于操控解耦身份表示的人脸匿名方法
CN114764939A (zh) * 2022-03-29 2022-07-19 中国科学院信息工程研究所 一种基于身份-属性解耦合成的异质人脸识别方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194868A (zh) * 2017-05-19 2017-09-22 成都通甲优博科技有限责任公司 一种人脸图像生成方法及装置
CN110085254A (zh) * 2019-04-22 2019-08-02 南京邮电大学 基于beta-VAE和i-vector的多对多语音转换方法
CN110288697A (zh) * 2019-06-24 2019-09-27 天津大学 基于多尺度图卷积神经网络的3d人脸表示与重建方法
CN110633748A (zh) * 2019-09-16 2019-12-31 电子科技大学 一种鲁棒的自动人脸融合方法
CN111243066A (zh) * 2020-01-09 2020-06-05 浙江大学 一种基于自监督学习与生成对抗机制的人脸表情迁移方法
CN111259745A (zh) * 2020-01-09 2020-06-09 西安交通大学 一种基于分布独立性的3d人脸解耦表示学习方法
CN112232220A (zh) * 2020-10-19 2021-01-15 戴姆勒股份公司 生成人物图像的方法、训练方法和装置及存储介质
CN112541958A (zh) * 2020-12-21 2021-03-23 清华大学 三维人脸的参数化建模方法和装置
CN113095149A (zh) * 2021-03-18 2021-07-09 西北工业大学 一种基于单张人脸图像的全头部纹理网络结构及生成方法
CN114241102A (zh) * 2021-11-11 2022-03-25 清华大学 基于参数化模型的人脸细节重建和编辑方法及装置
CN114662666A (zh) * 2022-03-28 2022-06-24 天津科技大学 基于β-GVAE的解耦合方法、系统和相关设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
《IMPROVE DIVERSE TEXT GENERATION BY SELF LABELING CONDITIONAL VARIATIONAL AUTO ENCODER》;Yuchi Zhang等;《ICASSP 2019》;20191231;第2767-2771页 *
《Variations in Variational Autoencoders - A Comparative Evaluation》;Ruoqi Wei等;《IEEE Access》;20200901;第8卷;第153651-153670页 *
《使用变分自编码器的自回归多说话人中文语音合成》;蒿晓阳等;《声学学报》;20220531;第47卷(第3期);第405-416页 *
《耦合变分自编码器及其在图像对生成中的应用》;侯璎真等;《小型微型计算机系统》;20211231;第42卷(第12期);第2626-2631页 *
《跨域变分对抗自编码器》;白静等;《计算机辅助设计与图形学学报》;20200930;第32卷(第9期);第1402-1410页 *

Also Published As

Publication number Publication date
CN115050087A (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
CN115050087B (zh) 一种人脸关键点身份和表情解耦方法及装置
CN113361489B (zh) 基于解耦表示的人脸正面化模型构建方法和训练方法
CN112861805B (zh) 一种基于内容特征和风格特征的人脸图像生成方法
Gu et al. Compression of human motion capture data using motion pattern indexing
Wehenkel et al. Diffusion priors in variational autoencoders
CN114328988A (zh) 多媒体数据的特征提取方法、多媒体数据检索方法及装置
CN117522697A (zh) 一种人脸图像生成方法、系统及模型训练方法
CN116129013A (zh) 一种生成虚拟人动画视频的方法、装置及存储介质
US20220101122A1 (en) Energy-based variational autoencoders
Feng et al. U 2-Former: Nested U-shaped Transformer for Image Restoration via Multi-view Contrastive Learning
CN115311127A (zh) 一种脸部处理方法、装置、计算机设备及存储介质
CN116958712B (zh) 基于先验概率分布的图像生成方法、系统、介质及设备
Song et al. Face attribute editing based on generative adversarial networks
CN114882288B (zh) 基于分层图增强堆叠自编码器的多视图图像分类方法
Yu et al. Uv-based 3d hand-object reconstruction with grasp optimization
CN115880762A (zh) 面向人机混合视觉的可伸缩人脸图像编码方法、系统
US20220101145A1 (en) Training energy-based variational autoencoders
Chen et al. DreamIdentity: Enhanced Editability for Efficient Face-Identity Preserved Image Generation
Li et al. 3d3m: 3d modulated morphable model for monocular face reconstruction
Liu et al. Multi‐factor joint normalisation for face recognition in the wild
Fan et al. Facial expression animation through action units transfer in latent space
CN112330780A (zh) 一种生成目标角色的动画表情的方法和系统
Zhang Generative Adversarial Networks for Image Synthesis
CN112991473B (zh) 一种基于立方体模板的神经网络编码解码方法及系统
Wang T2M-HiFiGPT: Generating High Quality Human Motion from Textual Descriptions with Residual Discrete Representations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant