CN115050087A - 一种人脸关键点身份和表情解耦方法及装置 - Google Patents
一种人脸关键点身份和表情解耦方法及装置 Download PDFInfo
- Publication number
- CN115050087A CN115050087A CN202210981411.8A CN202210981411A CN115050087A CN 115050087 A CN115050087 A CN 115050087A CN 202210981411 A CN202210981411 A CN 202210981411A CN 115050087 A CN115050087 A CN 115050087A
- Authority
- CN
- China
- Prior art keywords
- expression
- identity
- face key
- key points
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 155
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000009826 distribution Methods 0.000 claims description 34
- 238000005070 sampling Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000014759 maintenance of location Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 239000000758 substrate Substances 0.000 claims description 2
- 239000013598 vector Substances 0.000 claims description 2
- 230000001815 facial effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 26
- 210000003128 head Anatomy 0.000 description 8
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明公开了一种人脸关键点身份和表情解耦方法及装置,该方法包括:建立模型、训练模型和模型推断三个部分。本发明首先是从人脸图片中进行提取的人脸关键点,然后基于变分自编码器构建模型,其编码器部分将人脸关键点解耦成两个正交的身份隐变量和表情隐变量,解码器部分融合两者并解码成人脸关键点;采集大量的人脸说话视频数据,提取视频每帧的人脸关键点坐标,构建模型并训练模型直至收敛,得到最佳的模型参数用于模型的推断。对任意输入的人脸关键点解耦成身份和表情隐变量,任意组合两者可以生成新的人脸关键点。
Description
技术领域
本发明涉及计算机动画和内容生成领域,尤其是涉及了一种人脸关键点身份和表情解耦方法及装置。
背景技术
随着深度学习在计算视觉领域的快速发展,人脸解耦表示学习已经获得了内容创造类应用的广泛兴趣,例如人脸再现、头像动画,以及语音驱动人脸说话等。人脸解耦表示学习的核心在于将人脸分解为不同的人脸表示属性,例如身份属性、表情属性和头部姿势属性,其中身份属性表示该人脸是谁,头部姿势属性表示该人脸在世界坐标系中的旋转方向及平移,表情属性表示该人脸具有什么样的表情,比如嘴巴张开的幅度,眼睛闭合的幅度等。
目前人脸的表示模型主要有三种,分别为基于二维外观的人脸关键点表示、基于三维网格的参数化人脸模型,以及基于特征的人脸表示。人脸关键点是一种人脸面部形状和表情的稀疏表示,在多种人脸任务中具有广泛的应用。三维参数化人脸模型通常被称为3DMM,是一种三维面部或头部网格的参数化表示,并由不同的人脸属性组合表示的,比如身份、表情、光照和纹理等属性,具有控制灵活和编辑简单的优势。基于特征的人脸表示模型主要是将人脸图像像素编码到一个特征隐编码空间中,然后在将其应用于不同的下游任务中,比如人脸识别和人脸编辑。
人脸关键点表示模型在上述三种人脸表示中最简单且高效。然而,与基于3DMM的人脸表示模型不同的是,它不具有将人脸属性解耦的能力。如何将人脸关键点分解成具有语义信息的身份和表情属性仍然是当前的一个挑战,原因主要有三点:其一,人脸关键点在二维空间中的表示是稀疏且离散的,这使得难以对身份和表情属性的语义信息进行建模;其二,当前公开数据集中拥有大量的人脸标注数据,但是缺少对身份属性和表情属性的标注数据集,因此很难直接训练基于监督学习的回归模型。其三,当前的方法主要是单一的对某种因素进行回归求解,并没有一种统一的表示框架对人脸关键点进行解耦。
在计算机动画和多媒体领域,对人脸关键点的身份、表情、动作等因素进行解耦是一个很重要的研究方向。该技术可以将人脸关键点的信息进行解耦,然后重新组合,从而实现换脸、动作迁移、表情迁移等内容生成,其在互联网娱乐、短视频创作、动画制作等众多领域有着广泛的需求。
发明内容
针对现有技术的不足,本发明提供一种基于变分自编码器的人脸关键点身份和表情解耦方法对对任意输入的人脸关键点解耦成身份和表情隐变量,任意组合两者可以生成新的人脸关键点。
一种人脸关键点身份和表情解耦方法,包括如下步骤:
(1)提取数据集:使用相机拍摄的方法获取大量的人脸说话视频文件,通过人脸关键点算法从视频文件中提取得到包含人脸关键点序列的数据集;
(2)构建模型:所述模型为基于变分自编码器的人脸关键点解耦表示模型,包含编码模块和解码模块,具体为,所述编码模块是将人脸关键点输入基于变分自编码器的编码器进行身份和表情的解耦,生成身份属性隐编码表示空间和表情属性隐编码表示空间;所述解码模块是对身份属性隐编码表示空间和表情属性隐编码表示空间进行采样,将采样后得到的身份属性的隐编码变量和表示表情属性的隐编码变量合并输入变分自编码器的解码器中解码重建,得到解码重建的人脸关键点;
(3)模型训练:利用步骤(1)中提取的数据集训练步骤(2)中构建的基于变分自编码器的人脸关键点解耦表示模型,再利用优化损失函数项训练模型直至其收敛,最后得到最佳模型参数的训练模型;
(4)模型推断:利用用步骤(3)中最佳模型参数的训练模型,对任意输入的人脸关键点解耦成身份和表情的隐表示空间;且任意组合不同的身份和表情隐表示变量生成新的人脸关键点。
进一步地,所述步骤(2)中变分自编码器的编码器的解耦具体为:首先使用四层感知机来提取输入的人脸关键点的特征,然后分别并行输入身份嵌入网络和表情嵌入网络中,其中每个嵌入网络输出一个对角高斯分布的均值和对数标准差,即隐表示空间,最后完成对身份和表情的解耦。
进一步地,所述步骤(2)中变分自编码器的解码器的解码重建具体为:首先应用重
参数化技巧对身份和表情隐编码分布进行采样得到身份属性的隐编码变量和表示表
情属性的隐编码变量,然后拼接这两个向量做为解码器的输入,最后通过一个四层感
知机网络重建输入的人脸关键点。
进一步地,步骤(3)中所述损失函数项分别为变分损失函数项,隐编码不变
损失项 ,隐编码循环不变损失项 ,身份保持损失项 和数据不变损失项;由这五种损失函数项构成了模型优化的目标函数,将人脸关键点的解耦成身份属性
和表情属性两个隐编码空间,重建出原始输入的人脸关键点和学习各个属性的语义信息,
即让每个隐编码空间表征其对应属性的信息,以及使两个属性相互分离并同时保持其各自
的语义信息。
其中,E为数学期望;表示人脸关键点 基于身份和表情属性的条
件分布概率,用对角协方差矩阵的多元高斯分布来表示,和分别表示
编码器对人脸关键点 解耦出的身份和表情的概率分布,和分别表示身份
和表情属性隐空间的先验概率分布, 表示是KL散度,和是用来平衡这三者的
超参数。
其中 和 分别是来自同一图像 但具有不同的表情 和表情
的人脸关键点;同样的, 和 分别来自不同的图像 和 但具有相同的表情
的人脸关键点,和分别表示身份属性编码网络和表情属性编码网络,两者分别可
以将输入的人脸关键点映射到身份和表情的隐表示空间中。
其中,和表示身份属性编码网络和表情属性编码网络,表示解码器
网络,表示具有任意表情的身份A的人脸关键点,表示具有特定表情的任意身份
的人脸关键点,另外,分别表示的身份隐表示变量和的表情隐表示变量,分别表示的身份隐表示变量和的表情隐表示变量。
一种人脸关键点身份和表情解耦装置,包括:
提取模块:使用相机拍摄的方法获取大量的人脸说话视频文件,通过人脸关键点算法从视频文件中提取得到包含人脸关键点序列的数据集;
构建模块:所述模型为基于变分自编码器的人脸关键点解耦表示模型,包含编码模块和解码模块,具体为,所述编码模块是将人脸关键点输入基于变分自编码器的编码器进行身份和表情的解耦,生成身份属性隐编码表示空间和表情属性隐编码表示空间;所述解码模块是对身份属性隐编码表示空间和表情属性隐编码表示空间进行采样,将采样后得到的身份属性的隐编码变量和表示表情属性的隐编码变量合并输入变分自编码器的解码器中解码重建,得到解码重建的人脸关键点;
训练模块:利用提取模块所提取的数据集训练构建模块所构建的基于变分自编码器的人脸关键点解耦表示模型,再利用优化损失函数项训练模型直至其收敛,最后得到最佳模型参数的训练模型;
推断模块:利用训练模块得到的最佳模型参数的训练模型,对任意输入的人脸关键点解耦成身份和表情的隐表示空间;且任意组合不同的身份和表情隐表示变量生成新的人脸关键点。
本发明的有益效果如下:
本发明提出了一种基于变分自编码器的人脸关键点身份和表情解耦方法,该方法包含一个编码模块和一个解码模块,编码模块可以将人脸关键点解耦成身份和表情两种因素,解码模块能够和并这两种因素生成对应的人脸关键点,这种模型设计能够支持不同的人的表情进行迁移,以及身份的迁移。另外本发明提出的模型是基于生成模型,能生成多样性结果,在内容创作中具有较大的优势。
附图说明
图1是本发明的模型框架图;
图2是本发明的测试生成结果图;
图3是本发明的装置流程图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
由图3所示,一种人脸关键点身份和表情解耦装置,包括:
提取模块:使用相机拍摄的方法获取大量的人脸说话视频文件,通过人脸关键点算法从视频文件中提取得到包含人脸关键点序列的数据集;
构建模块:所述模型为基于变分自编码器的人脸关键点解耦表示模型,包含编码模块和解码模块,具体为,所述编码模块是将人脸关键点输入基于变分自编码器的编码器进行身份和表情的解耦,生成身份属性隐编码表示空间和表情属性隐编码表示空间;所述解码模块是对身份属性隐编码表示空间和表情属性隐编码表示空间进行采样,将采样后得到的身份属性的隐编码变量和表示表情属性的隐编码变量合并输入变分自编码器的解码器中解码重建,得到解码重建的人脸关键点;
训练模块:利用提取模块所提取的数据集训练构建模块所构建的基于变分自编码器的人脸关键点解耦表示模型,再利用优化损失函数项训练模型直至其收敛,最后得到最佳模型参数的训练模型;
推断模块:利用训练模块得到的最佳模型参数的训练模型,对任意输入的人脸关键点解耦成身份和表情的隐表示空间;且任意组合不同的身份和表情隐表示变量生成新的人脸关键点。
如图1所示,一种人脸关键点身份和表情解耦方法,包含如下步骤:
步骤一:从人脸图像中提取得到一个包含 个人脸关键点序列的数据集 ,其中每个人脸关键点 表示具有68个二维关键点。为了实现人脸的
解耦表示,把包含人脸关键点序列的数据集输入到变分自编码的编码器中进行身份和表情
的解耦,将每个人脸关键点使用一个隐变量(Latent Variable) 表示,其主
要有两个正交部分组成,分别为表示身份属性的隐编码变量和表示表情属性的隐编码
变量。两种隐变量的先验分布可以简单的定义为对角高斯分布(Diagonal Gaussian
Distribution)。因此,隐变量的先验分布为,任意一个人脸关键点的边缘似然概率
为:
前者输出两个后验概率分布用来表示人脸关键点的身份信息和表情信息,后者合并两种信息解码生成它自身。
在编码器模块中,如图1中的编码器部分,本发明使用四层感知机(MLP,Multi-
Layer Perception)来提取输入的人脸关键点的特征,然后分别并行输入身份嵌入网络 和表情嵌入网络 中,其中每个嵌入网络输出一个对角高斯分布的均值和对数标
准差。在编码器和解码器中,本发明使用ReLU函数作为激活函数,以实现模型的非线性建模
和高效训练。总体而言,编码器可以表述为两个映射函数: 将输入的人脸关键点映射
到身份隐表示空间的高斯分布参数和, 将输入的人脸关键点映射到
表情隐表示空间的高斯分布参数和,具体公式如下:
在解码器模块中,如图1中的解码器部分,首先应用重参数化技巧
(Reparameterization Skill)对身份和表情隐编码分布进行采样得到和;然后合
并这两者做为解码器的输入,通过一个四层的感知机网络重建得到一个与输入的人脸关键
点一致的。其过程如下公式所描述:
其中,是随机采样函数,是标准正态分布,和是身份隐表
示空间分布均值和标准方差,和是表情隐表示空间分布均值和标准方差,和分别为表示身份属性的隐编码变量和表情属性的隐编码变量, 是重建得到的人脸
关键点,是对人脸关键点进行重建的结果,表示解码器网络。
为了训练本发明提出的基于变分自编码器的人脸关键点解耦表示模型,需要构建
损失函数对模型进行优化。其构建原则主要是为了推动模型将人脸关键点的解耦成身份属
性和表情属性两个隐编码空间。因此,为保证精确的重建出原始输入的人脸关键点和学习
各个属性的语义信息,即让每个隐编码空间表征其对应属性的信息,以及使两个属性相互
分离并同时保持其各自的语义信息,为此,本发明提出了五个损失函数项,分别是变分损失
函数项,隐编码不变损失项 ,隐编码循环不变损失项 ,身份保持损失项 ,以及数据不变损失项。下面对这五个损失函数项进行具体说明。
其一,变分损失函数项(Evidence Lower Bound Loss,)。根据变分自编码器
的理论,对变分自编码器结构进行优化,需要对输入数据的边缘似然概率的变分下界
(Variational Lower Bound,也称为Evidence Lower Bound,ELBO)进行了优化。在本发明
中,其需要优化数据对数似然,以及和表情和身份的Kullback-Leibler (KL) 散度项组成,
具体损失函数项如下所描述:
其中,第一项为数据对数似然项,也称为数据重构项,它约束模型的输入和重构输
出保持一致。身份KL散度项推动着身份隐表示的后验分布与其先验分布
保持一致;同理,表情KL散度项推动着表情隐表示的后验分布与其先验分布保持一致,其中和在本章中采用的是标准正态作为其先验分布,其
中和是用来平衡隐变量KL散度项与数据对数似然项的超参数。
其二,隐编码不变损失(Latent-level Invariant Loss,)。本发明的主要目
标是从人脸关键点表示中将其身份和表情信息进行解耦。 根据观察,当一个属性的隐编码
被另一个具有相同属性的人脸关键点的该属性隐编码替换时,其重建得到的人脸关键点应
该保持不变。换而言之,即当对身份信息进行解耦时,身份属性隐编码应该对表情信息的变
化保持不变;同理,当对表情信息进行解耦时,表情属性隐编码应该对身份信息的变化保持
不变。因此,可引入一个在隐编码层级上的不变损失项 来对身份和表情属性的隐编
码进行约束,其具体计算表示为:
其中 和 分别是来自同一图像 但具有不同的表情 和表情
的人脸关键点;同样的, 和 分别来自不同的图像 和 但具有相同的表情
的人脸关键点。为了对身份属性进行解耦,应该通过最小化 和 的身份隐编码
的距离来使得人脸关键点的身份隐编码在表情属性变化时能够保持其自身的不变性;与此
相反,为了对表情属性进行解耦,应该通过最小化 和 的表情隐编码的距离来使
得人脸关键点的表情隐编码在身份属性变化时能够保持其自身的不变性。
其三,循环不变损失(Cycle-level Invariant Loss,)。为了使本发明在表示
不同属性的语义信息时具有更强的鲁棒性,提出了一个基于隐编码层级的循环不变损失项 。该损失项的核心思路在于当某一属性的隐编码被交换后,其重建结果再次进行解码
后得到的其它属性的隐编码应该保持不变。具体而言,当给定两个任意不同身份的人脸关
键点 和 ,首先进行解码分别得到身份和表情的隐编码,然后交换其身份隐编码,再
次分别进行解码的到新的人脸关键点 和,最后再次对重建的人脸关键点进行分别
解码,得到新的身份和表情的隐编码,此时两者的表情隐编码应该和第一次编码得到的表
情隐编码保持一致。同理,也可以对任意不同表情的人脸关键点 和 做同样的约
束,因此其损失项的表达式可
其中,E为数学期望符号,和表示身份属性编码网络和表情属性编码网
络,表示解码器网络,表示具有任意表情的身份A的人脸关键点,表示具有特
定表情的任意身份的人脸关键点。另外,分别表示的身份隐表示变量和
的表情隐表示变量,分别表示的身份隐表示变量和的表情隐表示变
量。
其四,数据不变损失(Data-level Invariant Loss,)。与循环不变损失项的
原理类似,本发明在数据层次上提出了一个数据不变损失项 以对循环重建得到人脸
关键点进行约束,其核心思路在于当某一属性的隐编码被具有相同属性的其它人脸关键点
的该属性隐编码替换后,其重建得到的人脸关键点应该与其自身保持相似。具体而言, 和 解码得到身份隐编码应该是一致的,因此交换两者的身份隐编码并再次进
行重建得到人脸关键点应该与各自原本的人脸关键点保持一致;同理可知, 和 解
码得到的表情隐编码应该是一致的,因此交换两者的表情隐编码并再次进行重建得到人脸
关键点应该与各自原本的人脸关键点保持一致,其损失项公式表示如下:
其五,身份不变损失(Identity-level Invariant Loss,)。在实际模型训练
中,本发明发现人脸关键点的身份隐编码空间很难收敛,其原因可能是由于本发明将身份
属性和头部姿势属性结合为一个隐表示空间,因此具有相同身份属性但包含不同头部姿势
的人脸关键点的身份隐编码会具有略微不太相同的编码。在这种情况下,本发明提出了一
种身份保持损失项 来优化该问题,其核心原理主要在于让具有相同身份属性但具有
不同头部姿势属性或表情属性的人脸关键点的身份隐编码之间的距离比不具有相同身份
属性但具体相同头部姿势属性或表情属性的人脸关键点的身份隐编码之间的距离更近。具
体而言,利用 , 和 构成一个数据三元组,其中和 构成一个正样本,
其具有相同的身份属性但具有不同的表情属性,和 构成一个负样本,其具有不同
的身份属性但具有不同的表情属性,因此该三元组可以构成一个三元组(Triplet)函数以
组建成身份不变损失项,其表达式如下:
综上五个损失函数项,本发明提出的基于变分自编码器的人脸关键点解耦表示模型可以构建一个统一的损失函数,如下面公式所示,从而进行端到端的模型训练:
为了验证本发明提出模型具有较好的解耦性能,本发明从测试数据集中随机选择8个目标人脸关键点,其中包含4种不同的身份属性并且每种身份有2种表情属性,以及4个驱动人脸关键点,其中包含2种不同的身份属性并且每种身份有2种表情属性;然后分别对这些人脸关键点进行解耦得到其身份属性隐编码和表情属性隐编码;之后分别组合目标人脸关键点的身份隐编码和驱动人脸的表情隐编码进行重建得到新的驱动人脸关键点,其得到的实验结果如图2所示。从实验结果中可以发现,重新组合并重建得到的人脸关键点可以较好的保留目标人脸关键点的身份信息,并且也能比较好的保持驱动人脸关键点的表情信息,这表明的本发明提出的基于变分编码器的人脸关键点检测模型(FLD-VAE)模型具有较好的解耦能力。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。
Claims (10)
1.一种人脸关键点身份和表情解耦方法,其特征在于,包括如下步骤:
(1)提取数据集:使用相机拍摄的方法获取大量的人脸说话视频文件,通过人脸关键点算法从视频文件中提取得到包含人脸关键点序列的数据集;
(2)构建模型:所述模型为基于变分自编码器的人脸关键点解耦表示模型,包含编码模块和解码模块,具体为,所述编码模块是将人脸关键点输入基于变分自编码器的编码器进行身份和表情的解耦,生成身份属性隐编码表示空间和表情属性隐编码表示空间;所述解码模块是对身份属性隐编码表示空间和表情属性隐编码表示空间进行采样,将采样后得到的身份属性的隐编码变量和表示表情属性的隐编码变量合并输入变分自编码器的解码器中解码重建,得到解码重建的人脸关键点;
(3)模型训练:利用步骤(1)中提取的数据集训练步骤(2)中构建的基于变分自编码器的人脸关键点解耦表示模型,再利用优化损失函数项训练模型直至其收敛,最后得到最佳模型参数的训练模型;
(4)模型推断:利用步骤(3)得到的最佳模型参数的训练模型,对任意输入的人脸关键点解耦成身份和表情的隐表示空间;且任意组合不同的身份和表情隐表示变量生成新的人脸关键点。
2.根据权利要求1所述的一种人脸关键点身份和表情解耦方法,其特征在于,所述步骤(2)中变分自编码器的编码器的解耦具体为:首先使用四层感知机来提取输入的人脸关键点的特征,然后分别并行输入身份嵌入网络和表情嵌入网络中,其中每个嵌入网络输出一个对角高斯分布的均值和对数标准差,即隐表示空间,最后完成对身份和表情的解耦。
10.一种人脸关键点身份和表情解耦装置,其特征在于,包括:
提取模块:使用相机拍摄的方法获取大量的人脸说话视频文件,通过人脸关键点算法从视频文件中提取得到包含人脸关键点序列的数据集;
构建模块:所述模型为基于变分自编码器的人脸关键点解耦表示模型,包含编码模块和解码模块,具体为,所述编码模块是将人脸关键点输入基于变分自编码器的编码器进行身份和表情的解耦,生成身份属性隐编码表示空间和表情属性隐编码表示空间;所述解码模块是对身份属性隐编码表示空间和表情属性隐编码表示空间进行采样,将采样后得到的身份属性的隐编码变量和表示表情属性的隐编码变量合并输入变分自编码器的解码器中解码重建,得到解码重建的人脸关键点;
训练模块:利用提取模块所提取的数据集训练构建模块所构建的基于变分自编码器的人脸关键点解耦表示模型,再利用优化损失函数项训练模型直至其收敛,最后得到最佳模型参数的训练模型;
推断模块:利用训练模块得到的最佳模型参数的训练模型,对任意输入的人脸关键点解耦成身份和表情的隐表示空间;且任意组合不同的身份和表情隐表示变量生成新的人脸关键点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210981411.8A CN115050087B (zh) | 2022-08-16 | 2022-08-16 | 一种人脸关键点身份和表情解耦方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210981411.8A CN115050087B (zh) | 2022-08-16 | 2022-08-16 | 一种人脸关键点身份和表情解耦方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115050087A true CN115050087A (zh) | 2022-09-13 |
CN115050087B CN115050087B (zh) | 2022-11-18 |
Family
ID=83167465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210981411.8A Active CN115050087B (zh) | 2022-08-16 | 2022-08-16 | 一种人脸关键点身份和表情解耦方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115050087B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115631274A (zh) * | 2022-11-18 | 2023-01-20 | 北京红棉小冰科技有限公司 | 一种人脸图像生成方法、装置、设备及存储介质 |
CN116229214A (zh) * | 2023-03-20 | 2023-06-06 | 北京百度网讯科技有限公司 | 模型训练方法、装置及电子设备 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194868A (zh) * | 2017-05-19 | 2017-09-22 | 成都通甲优博科技有限责任公司 | 一种人脸图像生成方法及装置 |
US20190026631A1 (en) * | 2017-07-19 | 2019-01-24 | Disney Enterprises, Inc. | Factorized variational autoencoders |
CN110085254A (zh) * | 2019-04-22 | 2019-08-02 | 南京邮电大学 | 基于beta-VAE和i-vector的多对多语音转换方法 |
CN110288697A (zh) * | 2019-06-24 | 2019-09-27 | 天津大学 | 基于多尺度图卷积神经网络的3d人脸表示与重建方法 |
CN110633748A (zh) * | 2019-09-16 | 2019-12-31 | 电子科技大学 | 一种鲁棒的自动人脸融合方法 |
CN111243066A (zh) * | 2020-01-09 | 2020-06-05 | 浙江大学 | 一种基于自监督学习与生成对抗机制的人脸表情迁移方法 |
CN111259745A (zh) * | 2020-01-09 | 2020-06-09 | 西安交通大学 | 一种基于分布独立性的3d人脸解耦表示学习方法 |
CN112232220A (zh) * | 2020-10-19 | 2021-01-15 | 戴姆勒股份公司 | 生成人物图像的方法、训练方法和装置及存储介质 |
CN112541958A (zh) * | 2020-12-21 | 2021-03-23 | 清华大学 | 三维人脸的参数化建模方法和装置 |
CN113033511A (zh) * | 2021-05-21 | 2021-06-25 | 中国科学院自动化研究所 | 一种基于操控解耦身份表示的人脸匿名方法 |
CN113095149A (zh) * | 2021-03-18 | 2021-07-09 | 西北工业大学 | 一种基于单张人脸图像的全头部纹理网络结构及生成方法 |
CN114241102A (zh) * | 2021-11-11 | 2022-03-25 | 清华大学 | 基于参数化模型的人脸细节重建和编辑方法及装置 |
CN114662666A (zh) * | 2022-03-28 | 2022-06-24 | 天津科技大学 | 基于β-GVAE的解耦合方法、系统和相关设备 |
CN114764939A (zh) * | 2022-03-29 | 2022-07-19 | 中国科学院信息工程研究所 | 一种基于身份-属性解耦合成的异质人脸识别方法及系统 |
-
2022
- 2022-08-16 CN CN202210981411.8A patent/CN115050087B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194868A (zh) * | 2017-05-19 | 2017-09-22 | 成都通甲优博科技有限责任公司 | 一种人脸图像生成方法及装置 |
US20190026631A1 (en) * | 2017-07-19 | 2019-01-24 | Disney Enterprises, Inc. | Factorized variational autoencoders |
CN110085254A (zh) * | 2019-04-22 | 2019-08-02 | 南京邮电大学 | 基于beta-VAE和i-vector的多对多语音转换方法 |
CN110288697A (zh) * | 2019-06-24 | 2019-09-27 | 天津大学 | 基于多尺度图卷积神经网络的3d人脸表示与重建方法 |
CN110633748A (zh) * | 2019-09-16 | 2019-12-31 | 电子科技大学 | 一种鲁棒的自动人脸融合方法 |
CN111259745A (zh) * | 2020-01-09 | 2020-06-09 | 西安交通大学 | 一种基于分布独立性的3d人脸解耦表示学习方法 |
CN111243066A (zh) * | 2020-01-09 | 2020-06-05 | 浙江大学 | 一种基于自监督学习与生成对抗机制的人脸表情迁移方法 |
CN112232220A (zh) * | 2020-10-19 | 2021-01-15 | 戴姆勒股份公司 | 生成人物图像的方法、训练方法和装置及存储介质 |
CN112541958A (zh) * | 2020-12-21 | 2021-03-23 | 清华大学 | 三维人脸的参数化建模方法和装置 |
CN113095149A (zh) * | 2021-03-18 | 2021-07-09 | 西北工业大学 | 一种基于单张人脸图像的全头部纹理网络结构及生成方法 |
CN113033511A (zh) * | 2021-05-21 | 2021-06-25 | 中国科学院自动化研究所 | 一种基于操控解耦身份表示的人脸匿名方法 |
CN114241102A (zh) * | 2021-11-11 | 2022-03-25 | 清华大学 | 基于参数化模型的人脸细节重建和编辑方法及装置 |
CN114662666A (zh) * | 2022-03-28 | 2022-06-24 | 天津科技大学 | 基于β-GVAE的解耦合方法、系统和相关设备 |
CN114764939A (zh) * | 2022-03-29 | 2022-07-19 | 中国科学院信息工程研究所 | 一种基于身份-属性解耦合成的异质人脸识别方法及系统 |
Non-Patent Citations (5)
Title |
---|
RUOQI WEI等: "《Variations in Variational Autoencoders - A Comparative Evaluation》", 《IEEE ACCESS》 * |
YUCHI ZHANG等: "《IMPROVE DIVERSE TEXT GENERATION BY SELF LABELING CONDITIONAL VARIATIONAL AUTO ENCODER》", 《ICASSP 2019》 * |
侯璎真等: "《耦合变分自编码器及其在图像对生成中的应用》", 《小型微型计算机系统》 * |
白静等: "《跨域变分对抗自编码器》", 《计算机辅助设计与图形学学报》 * |
蒿晓阳等: "《使用变分自编码器的自回归多说话人中文语音合成》", 《声学学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115631274A (zh) * | 2022-11-18 | 2023-01-20 | 北京红棉小冰科技有限公司 | 一种人脸图像生成方法、装置、设备及存储介质 |
CN116229214A (zh) * | 2023-03-20 | 2023-06-06 | 北京百度网讯科技有限公司 | 模型训练方法、装置及电子设备 |
CN116229214B (zh) * | 2023-03-20 | 2023-12-01 | 北京百度网讯科技有限公司 | 模型训练方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115050087B (zh) | 2022-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115050087B (zh) | 一种人脸关键点身份和表情解耦方法及装置 | |
WO2024051445A9 (zh) | 图像生成方法以及相关设备 | |
CN115565238B (zh) | 换脸模型的训练方法、装置、设备、存储介质和程序产品 | |
Fan et al. | Deep adversarial canonical correlation analysis | |
CN113361489B (zh) | 基于解耦表示的人脸正面化模型构建方法和训练方法 | |
Wehenkel et al. | Diffusion priors in variational autoencoders | |
CN117522697A (zh) | 一种人脸图像生成方法、系统及模型训练方法 | |
CN114723760A (zh) | 人像分割模型的训练方法、装置及人像分割方法、装置 | |
CN113822790A (zh) | 一种图像处理方法、装置、设备及计算机可读存储介质 | |
CN116129013A (zh) | 一种生成虚拟人动画视频的方法、装置及存储介质 | |
CN115690276A (zh) | 虚拟形象的视频生成方法、装置、计算机设备和存储介质 | |
US20220101122A1 (en) | Energy-based variational autoencoders | |
Liu et al. | Multi‐factor joint normalisation for face recognition in the wild | |
CN116958712B (zh) | 基于先验概率分布的图像生成方法、系统、介质及设备 | |
Li et al. | 3d3m: 3d modulated morphable model for monocular face reconstruction | |
CN112330780A (zh) | 一种生成目标角色的动画表情的方法和系统 | |
CN115631285B (zh) | 基于统一驱动的人脸渲染方法、装置、设备及存储介质 | |
Chen et al. | Dreamidentity: Enhanced editability for efficient face-identity preserved image generation | |
US20220101145A1 (en) | Training energy-based variational autoencoders | |
CN114694065A (zh) | 视频处理方法、装置、计算机设备及存储介质 | |
Molnár et al. | Variational autoencoders for 3D data processing | |
CN112101371A (zh) | 数据处理方法、装置、电子设备和计算机存储介质 | |
Chen et al. | Image as First-Order Norm+ Linear Autoregression: Unveiling Mathematical Invariance | |
Zhang | Generative Adversarial Networks for Image Synthesis | |
CN112991473B (zh) | 一种基于立方体模板的神经网络编码解码方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |