CN115588224B - 一种基于人脸关键点预测的虚拟数字人生成方法及装置 - Google Patents

一种基于人脸关键点预测的虚拟数字人生成方法及装置 Download PDF

Info

Publication number
CN115588224B
CN115588224B CN202211259986.5A CN202211259986A CN115588224B CN 115588224 B CN115588224 B CN 115588224B CN 202211259986 A CN202211259986 A CN 202211259986A CN 115588224 B CN115588224 B CN 115588224B
Authority
CN
China
Prior art keywords
face
module
key point
model
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211259986.5A
Other languages
English (en)
Other versions
CN115588224A (zh
Inventor
王德军
潘飞
孟博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South Central Minzu University
Original Assignee
South Central University for Nationalities
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South Central University for Nationalities filed Critical South Central University for Nationalities
Priority to CN202211259986.5A priority Critical patent/CN115588224B/zh
Publication of CN115588224A publication Critical patent/CN115588224A/zh
Application granted granted Critical
Publication of CN115588224B publication Critical patent/CN115588224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种人脸关键点的预测方法、虚拟数字人生成方法及装置,其中的虚拟数字人生成方法包括挖掘语音中的情感,语音预测生成人脸表情关键点,通过关键点拟合3D人脸模型,调整姿势角度,虚拟数字人视频生成模型。通过将语音输入到人脸关键点模型中获取预测的人脸关键点,然后将关键点和3D人脸模型进行对齐,调整对齐之后的3D人脸模型姿势,然后将调整姿势之后的3D人脸模型输入至虚拟数字人生成模型中,得到与目标语音口型、情感一致,且具有不同姿势角度的虚拟数字人视频。虚拟数字人生成模型,用了注意力机制,使得生成的视频和目标图像和生成视频保持一致的背景。

Description

一种基于人脸关键点预测的虚拟数字人生成方法及装置
技术领域
本发明涉及计算机技术领域,涉及一种基于人脸关键点预测的虚拟数字人生成方法及装置。
背景技术
目前人工智能技术和增强现实(Augmented Reality,AR)智能技术正在飞速发展,互联网用户的内容摄取需求越来越丰富,针对动画,虚拟数字人,AR等内容的需求越加强烈。
现有技术中,在进行人脸关键点进行预测时,没有包含情感信息;在进行动画的制作时,面部表情的控制通常由动捕演员表演后导入虚拟数字人,然后由配音演员配音后再对虚拟数字人的口型进行人为的调整。此方法对于配音演员的要求极高,要求其对动画片段及其的熟悉已经超高的反应能力。
但是,这种方法难以保证配音后的虚拟数字人的声音和口型能够精准的同步。所以需要人为的对口型进行再调整。这整个过程比较繁杂,制作成本高,并且需要非常专业的技术人员才能完成。并且,虚拟数字人的面部表情通常和语中蕴含的情感有很大的关联,如果将配音和面部表情分开,那么在虚拟数字人生成的时候会导致语音和表情的不自然。某些极端情况下,比如完全依靠系统生成的虚拟数字人,没有专业的动捕演员提供表情输入,只有语音的情况下,虚拟数字人的生成将会失败。
因此,现在方法生成的人脸关键点包含的信息不够丰富、生成的虚拟数字人不够自然的技术问题。
发明内容
本发明提供了一种基于人脸关键点预测的虚拟数字人生成方法及装置,用以解决或者至少部分解决现有技术中存在的生成的人脸关键点包含的信息不够丰富、生成的虚拟数字人不够自然的技术问题。
为了解决上述技术问题,本发明第一方面提供了一种人脸关键点的预测方法,包括:
构建语音生成人脸关键点模型,其中,语音生成人脸关键点模型包括静态人脸关键点生成模块、语音情感内容跨模态重构模块和映射模块,语音情感内容跨模态重构模块包括内容编码器和情感编码器;
对语音情感内容跨模态重构模块进行训练,得到训练好的语音情感内容跨模态重构模块,与模型中的其它模块一同构成训练好的语音生成人脸关键点模型;
将语音输入至训练好的语音生成人脸关键点模型中,通过语音生成人脸关键点模型中的静态人脸关键点生成模块采用预设人脸识别算法提取静态人脸关键点,通过内容编码器和情感编码器分别提取语音特征和情感特征,再通过映射模块对提取的静态人脸关键点、语音特征和情感特征进行融合,生成带有表情的人脸关键点。
在一种实施方式中,在对语音情感内容跨模态重构模块进行训练时,以两组语音作为输入,训练过程中的损失包括交叉重建损失Lcross、自重建损失Lself、分类损失Lcla和内容损失Lcon,其中,
交叉重建损失表示为:
自重建损失表示为:
分类损失定义为:
内容损失表示为:
xi,m,xj,n,xj,m,xi,n为4个重构的音频样本,其中x表示重构的新样本,i,j表示不同的语音内容,m,n表示不同的语音情感,Ec表示内容编码器,Ee表示情感编码器,Ec()表示利用内容编码器提取的特征,Ee()表示利用情感编码器提取的特征,D表示语音解码器,D()表示利用解码器进行交叉重构,N表示不同情绪类型的总数,pk表示样本是否带情绪类别k,qk表示情绪类别k的预测概率;
语音情感内容跨模态重构模块的总损失函数为Ldis,计算公式为:
Ldis=Lcross+LselfclaLclaconλcon
其中λcla和λcon分别是分类损失和内容损失的权重。
基于同样的发明构思,本发明第三方面提供了一种虚拟数字人的生成方法,基于第一方面所述的人脸关键点预测方法实现,包括:
利用生成的带有表情的人脸关键点对3D人脸模型进行拟合,得到拟合后的3D人脸模型投影图像;
将目标图像与拟合后的3D人脸模型投影图像输入预先构建好的虚拟数字人生成模型中,虚拟数字人生成模型包括人脸特征关键点估计模块、特征变形模块、注意力机制模块以及生成对抗网络,通过人脸特征关键点估计模块学习拟合后的3D人脸模型投影图像的姿势和表情特征,生成深度图;通过特征变形模块将人脸特征关键点估计模块学习到的特征的编码进行融合,通过注意力机制模块结合深度图和特征变形模块的输出的融合特征得到细化后的特征,将人脸特征编码和图片背景分开,生成对抗网络根据注意力机制模块的输出生成姿势可控且带有表情的虚拟数字人。
在一种实施方式中,通过人脸特征关键点估计模块学习拟合后的3D人脸模型投影图像的姿势和表情特征,包括:
利用人脸特征关键点估计模块从拟合后的3D人脸模型投影图像中提取出潜在几何特征点和身份特征关键点,分别作为姿势特征和表情特征。
在一种实施方式中,通过注意力机制模块结合深度图和特征变形模块的输出的融合特征得到细化后的特征,通过下式来实现:
其中,Softmax(·)表示一个softmax归一化函数,Fd为深度图,Fw为特征变形模块输出的融合特征,WqFd、WkFw、WvFw分别代表自注意力机制query、key和value,Wq、Wk、Wv分别为对应的权重矩阵,Fg为细化后的特征。
在一种实施方式中,生成对抗网络的损失函数为:
其中,为感知损失,用于最小化驱动源图像和生成图像之间的感知损失,这能够产生视觉上清晰的输出,/>为金字塔感知损失,/>为生成对抗网络的对抗损失,/>为关键点距离损失,λP、λG、λE、λD分别为感知损失、对抗损失、金字塔感知损失、关键点距离损失的权重,/>为人脸关键点估计模块预测出的人脸特征关键点,d表示驱动源图像,s表示目标图像,K表示关键点个数,n表示图像的编号,驱动源图像为拟合后的3D人脸模型投影图像。
基于同样的发明构思,本发明第三方面提供了一种虚拟数字人的生成装置,包括:
拟合模块,用于利用生成的带有表情的人脸关键点对3D人脸模型进行拟合,得到拟合后的3D人脸模型投影图像;
虚拟数字人生成模块,用于将目标图像与拟合后的3D人脸模型投影图像输入预先构建好的虚拟数字人生成模型中,虚拟数字人生成模型包括人脸特征关键点估计模块、特征变形模块、注意力机制模块以及生成对抗网络,通过人脸特征关键点估计模块学习拟合后的3D人脸模型投影图像的姿势和表情特征,生成深度图;通过特征变形模块将人脸特征关键点估计模块学习到的特征的编码进行融合,通过注意力机制模块结合深度图和特征变形模块的输出的融合特征得到细化后的特征,将人脸特征编码和图片背景分开,生成对抗网络根据注意力机制模块的输出生成姿势可控且带有表情的虚拟数字人。
基于同样的发明构思,本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现第一方面所述的方法。
基于同样的发明构思,本发明第五方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
相对于现有技术,本发明的优点和有益的技术效果如下:
本发明提供的一种人脸关键点的预测方法,提出了一种改进的人脸关键点的预测模型,即语音生成人脸关键点模型,通过语音情感内容跨模态重构模块的内容编码器和情感编码器分别提取语音特征和情感特征,再通过映射模块对提取的静态人脸关键点、语音特征和情感特征进行融合,可以生成带有表情的人脸关键点,可以使得生成的人脸关键点包好语音和情感信息,因此信息更为丰富。
本发明的另一种实施例提供了一种基于上述人脸关键点的预测方法虚拟数字人的生成方法,利用其生成的带有表情的人脸关键点对3D人脸模型进行拟合,得到拟合后的3D人脸模型投影图像;然后将目标图像与拟合后的3D人脸模型投影图像输入预先构建好的虚拟数字人生成模型中,通过人脸特征关键点估计模块可以用来学习驱动源的面部特征,包括姿势和表情信息,还会生成深度图,然后指导目标身份图片学习到驱动源图片的姿势和表情,利用特征变形模块将人脸特征关键点模块学到的特征关键点编码进行融合。注意力机制模块,结合深度图和特征变形模块的输出更好的编码,可以将人脸特征编码和图片背景分开,最后通过生成对抗网络,生成高清图片。实现了在仅有语音作为驱动源的情况下挖掘表情信息,生成自然真实的虚拟数字人,提高了虚拟数字人生成的自然性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中语音情感内容跨模态重构模块的训练过程示意图,Xi,m,Xj,n是采样的语音对,Xi,n,Xj,m是伪训练对,Xi,n ,Xj,m 是解码器生成的语音对,其中X表示语音样本,i,j表示语音内容,m,n表示语音情感,Lcon是内容损失,Ce是情感分类器,Lca是损失函数,Lcross是跨模态重建损失;
图2是本发明实施例中语音生成人脸关键点模型的示意图;
图3是本发明实施例中使用人脸关键点地标拟合3D人脸模型的示意图;
图4是本发明实施例中使用将目标图像和投影所得的2D图片输入到LTV虚拟数字人生成模型中,生成虚拟数字人的框架图;
图5是本发明实施例中进行虚拟数字人生成的流程图。
具体实施方式
本申请发明人通过大量的研究与实践发现:在动画的制作过程中,面部表情的控制通常由动捕演员表演后导入虚拟数字人,然后由配音演员配音后再对虚拟数字人的口型进行人为的调整。此方法对于配音演员的要求极高,要求其对动画片段及其的熟悉已经超高的反应能力。
然而,这种方法难以保证配音后的虚拟数字人的声音和口型能够精准的同步。所以需要人为的对口型进行再调整。这整个过程比较繁杂,制作成本高,并且需要非常专业的技术人员才能完成。并且,虚拟数字人的面部表情通常和语中蕴含的情感有很大的关联,如果将配音和面部表情分开,那么在虚拟数字人生成的时候会导致语音和表情的不自然。例如在某些极端情况下,比如完全依靠系统生成的虚拟数字人,没有专业的动捕演员提供表情输入,只有语音的情况下,虚拟数字人的生成将会失败。
鉴于上述问题,设计一种声音驱动虚拟数字人表情和姿势的方法,使声音和口型、表情、姿势和语音同步效率高且成本低,是该领域技术人员亟待解决的问题。
国内外研究现状表明,目前对于一种姿势可控的带有表情的虚拟数字人生成主要存在以下问题:
大多数虚拟数字人的生成需要考虑以下因素,分别是:语音和口型,表情同步,目标身份的保持,以及虚拟人物自然自发的运动。如何在仅有语音作为驱动源的情况下挖掘表情信息,生成自然真实的虚拟数字人任然面临着挑战。
本发明公开了一种基于语音驱动且姿势可控的带有表情的说话头视频生成方法。包括挖掘语音中的情感,语音预测生成人脸表情关键点,通过关键点拟合3D人脸模型,调整姿势角度,虚拟数字人视频生成模型。
通过将语音输入到人脸关键点模型中获取预测的人脸关键点,然后将关键点和3D人脸模型进行对齐,调整对齐之后的3D人脸模型姿势,然后将调整姿势之后的3D人脸模型输入至虚拟数字人生成模型中,得到与目标语音口型、情感一致,且具有不同姿势角度的虚拟数字人视频。虚拟数字人生成模型采用了注意力机制,使得生成的视频和目标图像保持一致的背景。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种人脸关键点的预测方法,包括:
构建语音生成人脸关键点模型,其中,语音生成人脸关键点模型包括静态人脸关键点生成模块、语音情感内容跨模态重构模块和映射模块,语音情感内容跨模态重构模块包括内容编码器和情感编码器;
对语音情感内容跨模态重构模块进行训练,得到训练好的语音情感内容跨模态重构模块,与模型中的其它模块一同构成训练好的语音生成人脸关键点模型;
将语音输入至训练好的语音生成人脸关键点模型中,通过语音生成人脸关键点模型中的静态人脸关键点生成模块采用预设人脸识别算法提取静态人脸关键点,通过内容编码器和情感编码器分别提取语音特征和情感特征,再通过映射模块对提取的静态人脸关键点、语音特征和情感特征进行融合,生成带有表情的人脸关键点。
具体来说,语音生成人脸关键点模型主要是通过挖掘语音中的特征来预测人脸关键点。
首先,对语音进行预处理,包括:
(1)使用梅尔频率倒谱系数(MFCC)作为音频表示,并使用动态时序变形(DynamicTime Warping,简称DTW)算法通过沿时间维度拉伸或收缩MFCC特征向量来变形它们。
(2)为了实现对音频的情感控制,需要使用基于音频的交叉重建情感解耦技术来提取两个独立的潜在空间。i)持续时间无关空间,这是一种与内容无关的情感编码;ii)一个与持续时间相关的空间,它对音频的语音内容进行编码。提取后,来自这些潜在空间的特征被重新组合以产生新的音频表示,从而计算和优化交叉重建损失。然而,为了实现交叉重构训练,应该提供相同长度和相同内容但不同情绪的成对句子。这在现实世界的场景中几乎是无法实现的。为此,本发明采用时间序列分析中的经典算法动态时间规整(DTW)来形成具有对齐的不均匀长度语音的伪训练对。
(3)给定两个内容相同但长度不同的MFCC序列Sa和Sb,DTW通过动态变形计算一组索引坐标对(i,j)。其中Sa[i]和Sb[j]是通过DTW计算对齐的一组MFCC序列。强制Sa[i]和Sb[j]为相似的给定序列之间的最佳匹配是通过最小化对齐的MFCC特征之间的距离成本之和,通过下面的公式来实现:
其中d是距离成本,P是对齐路径。
然后这些对齐的音频样本用作解耦网络的输入以进行交叉重构。
如图1所示。为了独立地提取包含在音频剪辑中的情感和内容信息,利用两个编码器,内容编码器Ec和情感编码器Ee分别嵌入这两个信息。直观地说,当这两种表征完全解耦时,模型可以使用内容编码器和情感编码器中的信息来重构语音。通过利用之前构建的伪训练对,引入两个新样本xi,m,xj,n作为重建过程的监督。由于每个样本只能提供一种有利于交叉重构的信息,因此最终可以实现解耦。
需要说明的是,因为语音是分时序送入神经网络,因此需要将语音进行剪辑分段。伪训练对是指采用特定方法人工构造语音训练样本,新样本在图1中是指xi,m,xj,n,它们是使用伪样本对构造方法构造得到的样本。
在一种实施方式中,在对语音情感内容跨模态重构模块进行训练时,以两组语音作为输入,训练过程中的损失包括交叉重建损失Lcross、自重建损失Lself、分类损失Lcla和内容损失Lcon,其中,
交叉重建损失表示为:
自重建损失表示为:
分类损失定义为:
内容损失表示为:
xi,m,xj,n,xj,m,xi,n为4个重构的音频样本,其中x表示重构的新样本,i,j表示不同的语音内容,m,n表示不同的语音情感,Ec表示内容编码器,Ee表示情感编码器,Ec()表示利用内容编码器提取的特征,Ee()表示利用情感编码器提取的特征,D表示语音解码器,D()表示利用解码器进行交叉重构,N表示不同情绪类型的总数,pk表示样本是否带情绪类别k,qk表示情绪类别k的预测概率,c表示语音内容;
语音情感内容跨模态重构模块的总损失函数为Ldis,计算公式为:
Ldis=Lcross+LselfclaLclaconLcon
其中λcla和λcon分别是分类损失和内容损失的权重。
具体来说,本发明用一个损失函数来监督语音情感内容跨模态重构模块的训练过程,损失包括四个部分。通过使用编码器和解码器来重建原始输入,得到自重建损失,为了鼓励Ee将具有相同情感类型的样本映射到潜在空间中的聚类组中,添加了一个分类器Ce用于情感嵌入和一个额外的分类损失,得到分类损失。此外还限制具有相同话语的样本共享相似的内容嵌入,从而得到内容损失。最后将四分部损失进行加权求和,得到总损失。
在得到训练好的语音生成人脸关键点模型之后,则可以从情感音频剪辑中预测人脸关键点坐标,如图2所示。因此要求预测的带有表情的人脸关键点坐标的面部形状或身份信息保持不变。因此,从目标人脸头像中提取出关键点坐标,提取人脸关键点身份嵌入。然后将两个分离的音频内容特征嵌入编码Ec(x)和Ee(x)一起发送到映射模块(语音特征和人脸关键点坐标映射模块),该模块通过神经网络预测人脸关键点坐标位移,输出预测的归一化人脸关键点坐标,即带有表情的人脸关键点及其位置。
实施例二
基于同样的发明构思,本实施例提供了一种虚拟数字人的生成方法,基于实施例一所述的人脸关键点预测方法实现,包括:
利用生成的带有表情的人脸关键点对3D人脸模型进行拟合,得到拟合后的3D人脸模型投影图像;
将目标图像与拟合后的3D人脸模型投影图像输入预先构建好的虚拟数字人生成模型中,虚拟数字人生成模型包括人脸特征关键点估计模块、特征变形模块、注意力机制模块以及生成对抗网络,通过人脸特征关键点估计模块学习拟合后的3D人脸模型投影图像的姿势和表情特征,生成深度图;通过特征变形模块将人脸特征关键点估计模块学习到的特征的编码进行融合,通过注意力机制模块结合深度图和特征变形模块的输出的融合特征得到细化后的特征,将人脸特征编码和图片背景分开,生成对抗网络根据注意力机制模块的输出生成姿势可控且带有表情的虚拟数字人。
使用人脸关键点拟合3D人脸模型的具体实现过程如图3所示。
如果仅仅用人脸关键点结合目标头像生成视频,结果会遗漏掉很多细节,包括背景和表情细节,而且人脸关键点地标生成同时具备表情和头部姿势的图片,会出现表情模糊的情况,因为头部姿势和表情合成会有冲突,语音预测的人脸关键点地标中含有很少的姿势信息,为了给LTV虚拟数字人生成模型提供更多的信息,本实施例用关键点地标(实施例一的模型生成的带有表情的人脸关键点的位置信息)拟合3D人脸模型,调整拟合好的3D人脸模型姿势,投影成2D图片,输入到LTV虚拟数字人生成模型,生成图片。为了调整头部姿势,使用实施例一预测的带有表情的人脸关键点拟合3D人脸模型,并在3D空间中操作,其中显式定义头部姿势信息。参数3D人脸模型用于通过解决非线性优化问题从2D人脸关键点坐标恢复3D参数。利用3D几何和表达式参数,得到一组相机位姿参数不变的3D人脸关键点坐标相机位姿参数p包含一个3×3的旋转矩阵R、2个平移系数t和1个缩放系数s。通过将预测人脸关键点的相机位姿参数替换为显示指定的相机位姿参数(Rt,tt,st),获得具有大幅度头部姿势的3D人脸模型,然后将它们投影到具有比例正交投影的图像平面如下面公式所示:
其中lp是投影的2D人脸关键点坐标,Pr是正交投影矩阵,由于几何和表情参数保持不变,投影的地标lp自然地与预测的地标共享一致的身份和面部表情。而头部姿势、比例和位置设置为与目标视频帧中的面部相同。准确的人脸关键点预测才能准确代表语音情绪。
需要说明的是,是初始化的3D人脸模型坐标。因为神经网络很难从2D人脸关键点坐标中学习姿势特征,而投影在3维度空间中,预测的2D人脸关键点坐标和3D人脸模型坐标有一个对应关系,通过这个对应关系才能使用预测的人脸关键点坐标拟合3D人脸坐标,并进行姿势的调整。
在一种实施方式中,通过人脸特征关键点估计模块学习拟合后的3D人脸模型投影图像的姿势和表情特征,包括:
利用人脸特征关键点估计模块从拟合后的3D人脸模型投影图像中提取出潜在几何特征点和身份特征关键点,分别作为姿势特征和表情特征。
在一种实施方式中,通过注意力机制模块结合深度图和特征变形模块的输出的融合特征得到细化后的特征,通过下式来实现:
其中,Softmax(·)表示一个softmax归一化函数,Fd为深度图,Fw为特征变形模块输出的融合特征,WqFd、WkFw、WvFw分别代表自注意力机制query、key和value,Wq、Wk、Wv分别为对应的权重矩阵,Fg为细化后的特征。
具体来说,生成虚拟数字人的框架如图4所示。生成虚拟数字人的流程如图5所示。
首先使用摄影原理来估计不同姿势图片(如图4中的姿势1,和姿势2)中头部姿势的深度(即深度图),使用无监督的方式学习任意的头部姿势深度,用于生成虚拟数字人图片。由于和任意其他场景相比,面部视频包含相对较大区域的动态运动(移动头部在图像上占主导地位),因此无监督面部深度估计在LTV虚拟数字人生成模的任务中是一个具有挑战性的问题
具体地,给定来自面部视频的两个连续视频帧Ii′和Ii′+1,以Ii′+1作为源图像,Ii′作为目标图像,模型的目标是学习其中的几何元素,包括目标图像帧的深度图相机内参数矩阵Kn,两张视频帧之间的相对相机位姿/>平移/>n表示训练数据中的第n个输入图片,Kn可以通过标定算法结合剪辑的输入视频帧学习获得,由于每个人脸视频都可能被任何相机捕获,因此输入只需要视频帧。
需要说明的是,Kn是相机的内参,相机出厂的时候已经固定,要估计深度图,需要相机内参,但是图片可能是不同相机拍摄的,需要用算法自动估算,得到拍摄图片的相机内参。
从人脸特征关键点估计模块获得深度图后,将RGB图像与其对应生成的深度图连接起来。然后,输入人脸特征关键点估计模块中,以更准确地预测人脸的一组潜在空间特征,主要包括潜在几何特征空间,身份特征空间。
在根据目标图像合成姿势可控且带有表情的虚拟数字人时,潜在空间特征主要来自源图像或驱动图像;采用特征变形策略来捕捉源图像和目标图像之间的头部运动,并提出的特征变形模块。首先,将驱动图像和目标身份图像输入的人脸特征关键点估计模块,计算潜在几何特征关键点和身份特征关键点,然后,生成一个二维密集特征关键点估计。之后,通过将关键点的对应将偏移量添加到2D坐标图中,生成密集的2D运动特征,特征变形模块将密级的2D运动特征和目标图像融合生成变形特征Fw
为了有效嵌入学习到的深度图以更密集的方式促进图像生成,本发明提出了一种跨模态(即深度图Fd和目标身份Is)注意机制,使模型能够更好地保留面部结构并生成与表情相关的微面部运动,由于深度图可以为本发明提供密集的3D几何信息,这对于保持面部结构和识别生成关键头部运动本质上是非常关键的。更具体地说,本发明设计采用了一个跨模态注意模块来生成密集的深度感知注意力图,以指导变形特征进行人脸生成。空间关键点估计以驱动视频源深度图作为输入对深度特征图进行编码,然后对线性投影的Fd以及变形特征的Fw,通过三个分别具有不同内核Wq、Wk和Wv的1×1卷积层,将Fd和Fw转化为三个潜在特征图Fq、Fk和Fv。Fq、Fk、Fv可以分别代表自注意力机制的query、key和value。因此,深度图产生的几何相关查询特征Fq可以与外观相关的关键特征Fk融合,为人脸生成密集指导。获得最终的细化特征Fg用于生成最终的图片。
Fg定义如下:
其中Softmax(·)表示一个softmax归一化函数,密集深度感知注意力图包含重要的3D几何指导,用于生成具有更细粒度的面部结构和微运动细节的面部。最后,解码器将精细的变形特征Fg作为输入,以生成最终的合成图像。
在一种实施方式中,生成对抗网络的损失函数为:
其中,为感知损失,用于最小化驱动源图像和生成图像之间的感知损失,这能够产生视觉上清晰的输出,/>为金字塔感知损失,/>为生成对抗网络的对抗损失,/>为关键点距离损失,λP、λG、λE、λD分别为感知损失、对抗损失、金字塔感知损失、关键点距离损失的权重,/>为人脸关键点估计模块预测出的人脸特征关键点,d表示驱动源图像,s表示目标图像,K表示关键点个数,n表示图像的编号,驱动源图像为拟合后的3D人脸模型投影图像。
为了生成高清晰度的图片,本实施例采用GAN模型来生成图片,目标图片和驱动源视频的身份相同,而在推理阶段它们可以不同。通过最小化以下损失以自我监督的方式训练提出的GAN。
具体来说,是感知损失,最小化了驱动源图像Id和生成图像Ig之间的感知损失,这能够产生视觉上清晰的输出。此外,为驱动源图像Id和生成的图像Ig创建一个图像金字塔来计算金字塔感知损失。/>是生成对抗网络GAN的损失。/>是等变损失,对于有效的人脸特征关键点,当对图像应用2D变换时,预测的关键点应根据应用的变换发生变化。因此,利用等方差损失/>来确保图像特定关键点的一致性。
是关键点距离损失,为了使检测到的面部关键点不会拥挤在一个小局部周围,因为人脸特征关键点估计模块中估计的关键点需要代表整个图片的所有信息。如果两个对应关键点的距离低于预定义的阈值,本实施方式会使用关键点距离损失来惩罚模型。
总体而言,前两项损失和/>确保生成的图像与真实图像相似。第三项损失/>强制预测的人脸特征关键点保持一致,而最后一项/>强制关键点不聚集在一起。是图4中的人脸关键点估计模型预测出的人脸特征关键点,d表示驱动源图片,s表示目标图片。对于有效的关键点,K表示关键点个数,n表示第几张图片。
本实施例采用最小二乘损失作为对抗损失。其中λP,λG,λE,λD是允许从这些损失中进行平衡学习的超参数。
本发明的主要创造点包括:
(1)提出ATL模型(语音生成人脸关键点模),并将语音输入到ATL模型中进行人脸关键点坐标(简称Landmarks)的预测,生成带有表情的人脸关键点。
(2)利用人脸关键点坐标拟合3D人脸模型。依据预测的关键点坐标拟合3D人脸模型使其具有与输入语音同步的口型和表情,然后调整拟合后的3D人脸模型的角度,使其具有不同的人脸姿势,最后将调整之后的3D人脸模型投影成2D图像。
(3)构建了LVT模型(虚拟数字人生成模型),将目标图像和投影得到的2D图像输入该模型,进行虚拟数字人的生成,根据摄影原理,使用深度估计编码器(人脸特征关键点估计模块)对相同身份不同姿势的图片进行人脸关键点估计以及深度估计,并生成深度图,深度图可以为关键点检测提供密集的3D几何信息,并且可以作为指导模型在图像生成过程中关注人脸的细粒度关键部分(例如眼睛和嘴巴)的重要线索。然后输入目标图片,使用跨模态注意力机制(包括特征变形模块、注意力机制模块以及生成对抗网络)对拟合的3D人脸模型进行口型,表情,姿势的转移,然后生成目标图片,同时保留目标图片的背景。
实施例三
基于同样的发明构思,本实施例提供了一种虚拟数字人的生成装置,包括:
拟合模块,用于利用生成的带有表情的人脸关键点对3D人脸模型进行拟合,得到拟合后的3D人脸模型投影图像;
虚拟数字人生成模块,用于将目标图像与拟合后的3D人脸模型投影图像输入预先构建好的虚拟数字人生成模型中,虚拟数字人生成模型包括人脸特征关键点估计模块、特征变形模块、注意力机制模块以及生成对抗网络,通过人脸特征关键点估计模块学习拟合后的3D人脸模型投影图像的姿势和表情特征,生成深度图;通过特征变形模块将人脸特征关键点估计模块学习到的特征的编码进行融合,通过注意力机制模块结合深度图和特征变形模块的输出的融合特征得到细化后的特征,将人脸特征编码和图片背景分开,生成对抗网络根据注意力机制模块的输出生成姿势可控且带有表情的虚拟数字人。
由于本发明实施例三所介绍的装置为实施本发明实施例二中一种虚拟数字人的生成方法所采用的装置,故而基于本发明实施例二所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例二中方法所采用的装置都属于本发明所欲保护的范围。
实施例四
基于同一发明构思,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现如实施例二中所述的方法。
由于本发明实施例四所介绍的计算机可读存储介质为实施本发明实施例二中一种虚拟数字人的生成方法所采用的计算机可读存储介质,故而基于本发明实施例二所介绍的方法,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是本发明实施例二的方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。
实施例五
基于同一发明构思,本申请还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述程序时实现实施例二中的方法。
由于本发明实施例五所介绍的计算机设备为实施本发明实施例二中一种虚拟数字人的生成方法所采用的计算机设备,故而基于本发明实施例二所介绍的方法,本领域所属人员能够了解该计算机设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例二中方法所采用的计算机设备都属于本发明所欲保护的范围。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (8)

1.一种基于人脸关键点预测的虚拟数字人生成方法,其特征在于,包括:
生成带有表情的人脸关键点,具体包括:构建语音生成人脸关键点模型,其中,语音生成人脸关键点模型包括静态人脸关键点生成模块、语音情感内容跨模态重构模块和映射模块,语音情感内容跨模态重构模块包括内容编码器和情感编码器;对语音情感内容跨模态重构模块进行训练,得到训练好的语音情感内容跨模态重构模块,与模型中的其它模块一同构成训练好的语音生成人脸关键点模型;将语音输入至训练好的语音生成人脸关键点模型中,通过语音生成人脸关键点模型中的静态人脸关键点生成模块采用预设人脸识别算法提取静态人脸关键点,通过内容编码器和情感编码器分别提取语音特征和情感特征,再通过映射模块对提取的静态人脸关键点、语音特征和情感特征进行融合,生成带有表情的人脸关键点;
利用生成的带有表情的人脸关键点对3D人脸模型进行拟合,得到拟合后的3D人脸模型投影图像;
将目标图像与拟合后的3D人脸模型投影图像输入预先构建好的虚拟数字人生成模型中,虚拟数字人生成模型包括人脸特征关键点估计模块、特征变形模块、注意力机制模块以及生成对抗网络,通过人脸特征关键点估计模块学习拟合后的3D人脸模型投影图像的姿势和表情特征,生成深度图;通过特征变形模块将人脸特征关键点估计模块学习到的特征的编码进行融合,通过注意力机制模块结合深度图和特征变形模块的输出的融合特征得到细化后的特征,将人脸特征编码和图片背景分开,生成对抗网络根据注意力机制模块的输出生成姿势可控且带有表情的虚拟数字人。
2.如权利要求1所述的虚拟数字人生成方法,其特征在于,在对语音情感内容跨模态重构模块进行训练时,以两组语音作为输入,训练过程中的损失包括交叉重建损失Lcross、自重建损失Lself、分类损失Lcla和内容损失Lcon,其中,
交叉重建损失表示为:
Lcross=||D(Ec(xi,m),Ee(xj,n))-xi,n||2+||D(Ec(xj,n),Ee(xi,m))-xj,m||2
自重建损失表示为:
Lself=||D(Ec(xi,m),Ee(xi,m))-xi,m||2+||D(Ec(xj,n),Ee(xj,n))-xj,n||2
分类损失定义为:
内容损失表示为:
xi,m,xj,n,xj,m,xi,n为4个重构的音频样本,其中x表示重构的新样本,i,j表示不同的语音内容,m,n表示不同的语音情感,Ec表示内容编码器,Ee表示情感编码器,Ec()表示利用内容编码器提取的特征,Ee()表示利用情感编码器提取的特征,D表示语音解码器,D()表示利用解码器进行交叉重构,N表示不同情绪类型的总数,pk表示样本是否带情绪类别k,qk表示情绪类别k的预测概率;
语音情感内容跨模态重构模块的总损失函数为Ldis,计算公式为:
Ldis=Lcross+LselfclaLclaconLcon
其中λcla和λcon分别是分类损失和内容损失的权重。
3.如权利要求1所述的虚拟数字人生成方法,其特征在于,通过人脸特征关键点估计模块学习拟合后的3D人脸模型投影图像的姿势和表情特征,包括:
利用人脸特征关键点估计模块从拟合后的3D人脸模型投影图像中提取出潜在几何特征点和身份特征关键点,分别作为姿势特征和表情特征。
4.如权利要求3所述的虚拟数字人生成方法,其特征在于,通过注意力机制模块结合深度图和特征变形模块的输出的融合特征得到细化后的特征,通过下式来实现:
Fg=Softmax((WqFd)(WkFw)T)×(WvFw)
其中,Softmax(·)表示一个softmax归一化函数,Fd为深度图,Fw为特征变形模块输出的融合特征,WqFd、WkFw、WvFw分别代表自注意力机制query、key和value,Wq、Wk、Wv分别为对应的权重矩阵,Fg为细化后的特征。
5.如权利要求1所述的虚拟数字人生成方法,其特征在于,生成对抗网络的损失函数为:
其中,为感知损失,用于最小化驱动源图像和生成图像之间的感知损失,这能够产生视觉上清晰的输出,/>为金字塔感知损失,/>为生成对抗网络的对抗损失,/>为关键点距离损失,λP、λG、λE、λD分别为感知损失、对抗损失、金字塔感知损失、关键点距离损失的权重,为人脸关键点估计模块预测出的人脸特征关键点,d表示驱动源图像,s表示目标图像,K表示关键点个数,n表示图像的编号,驱动源图像为拟合后的3D人脸模型投影图像。
6.一种基于人脸关键点预测的虚拟数字人生成装置,其特征在于,包括:
人脸关键点预测模块,用于构建语音生成人脸关键点模型,其中,语音生成人脸关键点模型包括静态人脸关键点生成模块、语音情感内容跨模态重构模块和映射模块,语音情感内容跨模态重构模块包括内容编码器和情感编码器;对语音情感内容跨模态重构模块进行训练,得到训练好的语音情感内容跨模态重构模块,与模型中的其它模块一同构成训练好的语音生成人脸关键点模型;将语音输入至训练好的语音生成人脸关键点模型中,通过语音生成人脸关键点模型中的静态人脸关键点生成模块采用预设人脸识别算法提取静态人脸关键点,通过内容编码器和情感编码器分别提取语音特征和情感特征,再通过映射模块对提取的静态人脸关键点、语音特征和情感特征进行融合,生成带有表情的人脸关键点;
拟合模块,用于利用生成的带有表情的人脸关键点对3D人脸模型进行拟合,得到拟合后的3D人脸模型投影图像;
虚拟数字人生成模块,用于将目标图像与拟合后的3D人脸模型投影图像输入预先构建好的虚拟数字人生成模型中,虚拟数字人生成模型包括人脸特征关键点估计模块、特征变形模块、注意力机制模块以及生成对抗网络,通过人脸特征关键点估计模块学习拟合后的3D人脸模型投影图像的姿势和表情特征,生成深度图;通过特征变形模块将人脸特征关键点估计模块学习到的特征的编码进行融合,通过注意力机制模块结合深度图和特征变形模块的输出的融合特征得到细化后的特征,将人脸特征编码和图片背景分开,生成对抗网络根据注意力机制模块的输出生成姿势可控且带有表情的虚拟数字人。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被执行时实现如权利要求1至5中任一项权利要求所述的方法。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5中任一项权利要求所述的方法。
CN202211259986.5A 2022-10-14 2022-10-14 一种基于人脸关键点预测的虚拟数字人生成方法及装置 Active CN115588224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211259986.5A CN115588224B (zh) 2022-10-14 2022-10-14 一种基于人脸关键点预测的虚拟数字人生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211259986.5A CN115588224B (zh) 2022-10-14 2022-10-14 一种基于人脸关键点预测的虚拟数字人生成方法及装置

Publications (2)

Publication Number Publication Date
CN115588224A CN115588224A (zh) 2023-01-10
CN115588224B true CN115588224B (zh) 2023-07-21

Family

ID=84780566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211259986.5A Active CN115588224B (zh) 2022-10-14 2022-10-14 一种基于人脸关键点预测的虚拟数字人生成方法及装置

Country Status (1)

Country Link
CN (1) CN115588224B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116233567B (zh) * 2023-05-05 2023-07-25 山东建筑大学 一种基于音频情感感知的说话人脸视频生成方法及系统
CN116665695B (zh) * 2023-07-28 2023-10-20 腾讯科技(深圳)有限公司 虚拟对象口型驱动方法、相关装置和介质
CN116702834B (zh) * 2023-08-04 2023-11-03 深圳市智慧城市科技发展集团有限公司 数据生成方法、数据生成装置及计算机可读存储介质
CN117011435B (zh) * 2023-09-28 2024-01-09 世优(北京)科技有限公司 数字人形象ai生成方法及装置
CN117478818A (zh) * 2023-12-26 2024-01-30 荣耀终端有限公司 语音通话方法、终端和存储介质
CN117828320B (zh) * 2024-03-05 2024-05-07 元创者(厦门)数字科技有限公司 一种虚拟数字人构建方法及其系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919251A (zh) * 2017-01-09 2017-07-04 重庆邮电大学 一种基于多模态情感识别的虚拟学习环境自然交互方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110599573B (zh) * 2019-09-03 2023-04-11 电子科技大学 一种基于单目相机的人脸实时交互动画的实现方法
CN111325817B (zh) * 2020-02-04 2023-07-18 清华珠三角研究院 一种虚拟人物场景视频的生成方法、终端设备及介质
EP3913581A1 (en) * 2020-05-21 2021-11-24 Tata Consultancy Services Limited Identity preserving realistic talking face generation using audio speech of a user
CN113378806B (zh) * 2021-08-16 2021-12-14 之江实验室 一种融合情感编码的音频驱动人脸动画生成方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919251A (zh) * 2017-01-09 2017-07-04 重庆邮电大学 一种基于多模态情感识别的虚拟学习环境自然交互方法

Also Published As

Publication number Publication date
CN115588224A (zh) 2023-01-10

Similar Documents

Publication Publication Date Title
CN115588224B (zh) 一种基于人脸关键点预测的虚拟数字人生成方法及装置
Guo et al. Ad-nerf: Audio driven neural radiance fields for talking head synthesis
Yi et al. Audio-driven talking face video generation with learning-based personalized head pose
Wang et al. One-shot talking face generation from single-speaker audio-visual correlation learning
US11783524B2 (en) Producing realistic talking face with expression using images text and voice
Saragih et al. Real-time avatar animation from a single image
CN111401216B (zh) 图像处理、模型训练方法、装置、计算机设备和存储介质
CN111383307A (zh) 基于人像的视频生成方法及设备、存储介质
CN111583399B (zh) 图像处理方法、装置、设备、介质和电子设备
Yu et al. A video, text, and speech-driven realistic 3-D virtual head for human–machine interface
CN111401101A (zh) 基于人像的视频生成系统
CN112116684A (zh) 图像处理方法、装置、设备及计算机可读存储介质
US11582519B1 (en) Person replacement utilizing deferred neural rendering
CN113709543A (zh) 基于虚拟现实的视频处理方法、装置、电子设备和介质
Weber et al. High-level geometry-based features of video modality for emotion prediction
Liu et al. Synthesizing talking faces from text and audio: an autoencoder and sequence-to-sequence convolutional neural network
Rochow et al. VR facial animation for immersive telepresence avatars
CN117115331B (zh) 一种虚拟形象的合成方法、合成装置、设备及介质
Tang et al. Real-time conversion from a single 2D face image to a 3D text-driven emotive audio-visual avatar
Paterson et al. 3D head tracking using non-linear optimization.
Wang et al. Talking faces: Audio-to-video face generation
US11734888B2 (en) Real-time 3D facial animation from binocular video
Hu et al. A virtual character generation and animation system for e-commerce live streaming
CN115578298A (zh) 一种基于内容感知的深度肖像视频合成方法
CN114202606A (zh) 图像处理方法、电子设置、存储介质及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant