CN117115316A - 一种基于多层级语音特征的语音驱动三维人脸动画方法 - Google Patents
一种基于多层级语音特征的语音驱动三维人脸动画方法 Download PDFInfo
- Publication number
- CN117115316A CN117115316A CN202310924232.5A CN202310924232A CN117115316A CN 117115316 A CN117115316 A CN 117115316A CN 202310924232 A CN202310924232 A CN 202310924232A CN 117115316 A CN117115316 A CN 117115316A
- Authority
- CN
- China
- Prior art keywords
- voice
- dimensional
- animation
- level
- dimensional face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000001815 facial effect Effects 0.000 claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000012360 testing method Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 22
- 230000007246 mechanism Effects 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 15
- 238000011478 gradient descent method Methods 0.000 claims description 8
- 230000001364 causal effect Effects 0.000 claims description 6
- 230000000737 periodic effect Effects 0.000 claims description 6
- 108091026890 Coding region Proteins 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 238000012952 Resampling Methods 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 4
- 230000008451 emotion Effects 0.000 description 4
- 239000000047 product Substances 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种基于多层级语音特征的语音驱动三维人脸动画方法,包括以下步骤:获取原始音频文件以及对应的三维人脸动画样本,划分为训练集和测试集;根据语音特性将原始音频文件预处理,提取出多个不同层级的语音特征并加以融合:建立语音跨模态驱动三维人脸动画整体模型,训练语音跨模态驱动三维人脸动画整体模型以进行自回归预测三维人脸动画任务;根据测试集样本衡量语音跨模态驱动三维人脸动画整体模型的性能,并获取性能最好的模型;将实际环境中的语音样本输入性能最好的模型,输出指定风格的三维人脸动画。本发明增加了生成的三维虚拟数字人脸真实性以及丰富数字人面部运动的表现力。
Description
技术领域
本发明涉及三维人脸动画驱动技术领域,特别涉及一种基于多层级语音特征的语音驱动三维人脸动画方法。
背景技术
三维数字人不仅引起了学术界的广泛关注,而且在电脑游戏、虚拟现实、电影制作等商业领域也有广泛的应用。在这些应用中,需要通过输入语音或文本等信号自动驱动三维虚拟角色,从而获得一个生动逼真的数字人。考虑到语音不仅传达了大量细节内容,还包含了丰富的语义语境信息,并且语音和面部动作,尤其是嘴唇动作之间的高度相关性,使得语音驱动三维数字人脸动画技术越来越被人关注。
语音驱动人脸动画是一个极具挑战性的研究问题。在语言治疗或娱乐游戏等应用程序中不需要人脸动画达到非常精确的真实水平,但在电影制作、电子商务应用等中驱动的虚拟数字人化身需要还原高度真实、自然的细微面部动作和表情,并且能够与语音协同发音效果及口型同步。
因此,提高语音驱动三维人脸动画的真实性、连续性以及情感表现力,是三维人脸动画驱动技术目前亟待解决的问题。
发明内容
为了克服现有技术的上述缺点与不足,本发明的目的在于提供一种基于多层级语音特征的语音驱动三维人脸动画方法,通过提取语音中不同层级的语音特征并加以融合后得到多层级的语音特征,然后输入跨模态驱动三维数字人脸的深度学习模型,自回归预测出情感表现力高,真实感强的三维数字人脸动画。
本发明的目的通过以下技术方案实现:
一种基于多层级语音特征的语音驱动三维人脸动画方法,包括以下步骤:
S1获取原始音频文件以及对应的三维人脸动画样本,划分为训练集和测试集;
S2根据语音特性将原始音频文件预处理,提取出多个不同层级的语音特征并加以融合:
通过自监督预训练语音模型wavLM提取帧级别的语音特征;
通过基于发音结构的统计特征的Speechformer模块提取音素、词级别的语音特征;
将所得的帧、音素以及词级别的语音特征融合得到多层级语音特征;
S3建立语音跨模态驱动三维人脸动画整体模型,所述语音跨模态驱动三维人脸动画整体模型包括三维人脸运动编码器和多层跨模态Transformer解码器;
训练语音跨模态驱动三维人脸动画整体模型以进行自回归预测三维人脸动画任务:
S31将说话者身份风格向量与多层级语音特征输入多层跨模态Transformer解码器预测出第一帧的三维人脸网格;
S32对于第t帧,t大于等于2,将前t-1帧预测的三维人脸网格序列经过三维人脸运动编码器编码后,与说话者身份风格向量融合,得到人脸动画编码序列;将人脸动画编码序列与多层级语音特征一同输入多层跨模态Transformer解码器自回归预测出当前帧的三维人脸网格;
S33重复步骤S32,直至预测完最后一帧的三维人脸网格;
S34将预测的所有帧三维人脸网格拼接在一起,得到一个预测的三维人脸网格序列,在预测的三维人脸网格序列与原始的三维人脸动画样本之间构建损失函数,通过梯度下降法不断训练优化模型,得到语音跨模态驱动三维人脸动画整体模型语音跨模态驱动三维人脸动画整体模型;
S4根据测试集样本衡量语音跨模态驱动三维人脸动画整体模型的性能,并获取性能最好的模型;
S5将实际环境中的语音样本输入性能最好的模型,输出指定风格的三维人脸动画。
优选的,所述原始音频是wav文件,读取后得到语音波形其中m是语音波形的数据点数;
所述三维人脸动画样本是npy文件,读取后得到对应人脸5023个顶点的三维空间坐标的时间序列Y={y1,…,yT},其中T为三维人脸动画序列的时间帧数,yi(i∈{1,…,T})∈R5023×3表示单帧人脸网格中5023个顶点的三维空间坐标。
优选的,所述通过自监督预训练语音模型wavLM提取帧级别的语音特征,具体为:
原始语音波形数据通过wavLM模型处理得到声学语音特征/>其中T′是声学音频表示的个数,d0是声学音频表示的维数;
利用线性插值层对AT′进行重采样,得到帧粒度特征
利用线性层来降低上述帧粒度特征的维度,最终得到帧级别的语音特征为F=[f1,…,fT]∈RT×d,其中d表示帧级别特征的维度。
优选的,所述通过基于发音结构的统计特征的Speechformer模块提取音素、词级别的语音特征,具体为:
SpeechFormer模块捕获滑动窗口Tw范围内标记的多头注意力机制,其中Tw表示音素或单词的持续时间;
使帧粒度特征通过SpeechFormer模块后,输出音素粒度特征/>
然后音素粒度特征一方面通过线性层的投影降维得到音素级别的语音特征P=[p1,…,pT]∈RT×d,另一方面通过SpeechFormer模块得到单词粒度特征再将/>经过线性层获得词级别的语音特征W=[w1,…,wT]∈RT×d。
优选的,通过加权和AT=αFF+αPP+αWW获得多层级语音特征,其中αi(i∈{F,P,W})是相应层级的权重系数。
优选的,所述三维人脸运动编码器包括运动编码器模块和周期性位置编码器模块;
所述多层跨模态Transformer解码器包括有偏因果多头自注意力模块、有偏跨模态多头自注意力模块和运动解码器模块。
优选的,步骤32所述将前t-1帧预测的三维人脸网格序列经过三维人脸运动编码器编码后,与说话者身份风格向量融合,得到人脸动画编码序列,具体为:
通过三维人脸运动编码器将预测三维人脸的面部运动投射到d维空间中,通过风格嵌入层将说话者身份风格向量的one-hot编码嵌入到d维向量sn中,并将其添加到面部运动表示ft中:
Wf是权重,bf是偏差,是上一个时间步长的预测三维人脸网格;
通过周期性位置编码人脸面部动画序列注入时间顺序信息,最后得到用于自回归跨模态解码的面部运动表示如下式:
PEE(t,2i)=sin((t mod p)/100002i/d)
PEE(t,2i+1)=cos((t mod p)/100002i/d)
优选的,所述将人脸动画编码序列与多层级语音特征一同输入多层跨模态Transformer解码器自回归预测出当前帧的三维人脸运动,具体为:
假设已知时间编码的面部运动表示序列首先通过有偏因果多头自注意力机制将/>投影到查询/>和关键字/>以及值/>再通过执行缩放点积注意力来计算加权上下文表示:
所述多头注意力机制由H个平行缩放的点积注意组成,用于从多个表示子空间中联合提取互补信息;H个头的输出被连接在一起,并通过参数矩阵向前投影:
假设有偏因果多头自注意力机制的输出为 中的每个标记都编码了面部运动的上下文;将多层级语音特征AT与/>送到有偏的跨模态多头注意力机制,AT被转换成两个独立的矩阵:关键值KA和值VA,而/>被转换成查询值QA;
在查询键注意得分中添加对齐偏差BA,如下式:
有偏跨模态注意力机制的输出被计算为VA的加权和,如下式:
最后将有偏跨模态注意力机制扩展到如有偏因果多头自注意力机制一样扩展到H个头,再将输出的d维隐藏状态投影回V维3D顶点空间,自回归预测出当前帧,即第t帧的面部运动
优选的,所述在预测的三维人脸网格序列与原始的三维人脸动画样本之间构建损失函数,具体为:
通过构建两种损失函数训练整体模型,第一种损失函数定义为位置损失,式子如下:
其中yt,v与分别是原始样本与合成预测的人脸面部运动序列的第t帧,第v个三维人脸的顶点位置,
表示L2距离;
第二种损失函数为速度损失,用于保证合成运动时间上的连续性,式子如下,
总体损失函数为二者相加,Ltotal=Lpos+βvelLvel,其中βvel为权重函数。
优选的,所述通过梯度下降法优化模型,具体为:
通过梯度下降法不断训练更新网络参数,使损失函数达到全局最小值来优化模型。
与现有技术相比,本发明具有以下优点和有益效果:
本发明针对目前大多数语音驱动三维人脸面部的工作都只使用帧级别特征直接驱动面部运动,而忽视了语音中的其他发音结构如音素、单词等的问题,本发明从原始音频中提取出帧、音素以及词级别的语音特征,并且根据低层级的特征(帧、音素级别)提供了更多的细节来补充高层级的语音特征(词级别),高层级特征为低层级特征提供更多语义上下文信息的原则,将语音的各层级特征加以融合后去驱动人脸面部运动。通过本发明,语音提取出的人脸面部运动既能够关注整段语音上下文的长期关系,又能够专注于语音的某帧中的短期信息,从而达到增加生成的三维虚拟数字人脸真实性以及丰富数字人面部运动的表现力的目的。在应用于真实应用,如电影制作,电子商务交谈,甚至是娱乐游戏时,本发明可以提升人们在虚拟世界的沉浸体验感。
附图说明
图1为本发明实施例中基于多层级语音特征的语音驱动三维人脸动画方法的步骤流程图。
图2为本发明实施例中基于多层级语音特征的语音驱动三维人脸动画方法的训练过程的流程图。
图3为本发明实施例中基于多层级语音特征的语音驱动三维人脸动画方法的多层级语音特征提取及融合模型框架图。
图4为本发明实施例中基于多层级语音特征的语音驱动三维人脸动画方法的语音跨模态驱动三维人脸动画整体模型框架图。
具体实施方式
下面结合实施例,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例
参见图1、图2、图3和图4,本实施例提供一种基于多层级语音特征的语音驱动三维人脸动画方法,通过提取语音中不同层级的语音特征并加以融合后得到丰富层级的语音特征,然后输入跨模态驱动三维数字人脸的深度学习模型,自回归预测出情感表现力高,真实感强的三维数字人脸动画。
请参阅图1,图1是本发明实施例中基于多层级语音特征的语音驱动三维人脸动画方法的步骤流程图,该方法具体包括以下步骤:
S1、获取原始音频文件以及对应的三维人脸动画样本,并按照说话对象与语句内容将样本划分为训练集和测试集。
获得的数据库包含语音模态以及三维人脸动画视觉模态,这两个模态都具有时序性。
以单句话为例,每一组样本数据由以下部分组成:
(1)原始音频是wav文件,读取后得到语音波形其中m是语音波形的数据点数。
(2)三维人脸动画序列是npy文件,读取后得到对应人脸网格中5023个顶点的三维空间坐标的时间序列Y={y1,…,yT},其中T为三维人脸动画序列的时间帧数,yi(i∈{1,…,T})∈R5023×3表示单帧人脸网格中5023个顶点的三维空间坐标。将y渲染之后可获得真实人脸。
在本实施例中,采用的数据集为VOCASET数据集。VOCASET数据集包含来自12个对象的480个音频-三维人脸动画网格对。对于每个对象,以60fps的速度捕获40个长度为3~5秒的人脸网格序列以及对应的采样率为22000Hz的语音。三维数字人头部网格由5023个顶点和9976个面表示。在本实施例中,需要将语音采样率降低至16000Hz以及将三维头部网格降采样至30fps。
数据集按照说话对象与语句内容划分为训练集与测试集,具体包括:划分为288个序列(8个受试者×36个句子)的训练集(VOCASET-Train)以及两个测试集(VOCASET-Test-A和VOCASET-Test-B),其中VOCASET-Test-A包含32个序列(8个受试者×4个句子),VOCASET-Test-B包含32个序列(剩余4个未见的受试者×8个句子)。
S2、根据语音特性将原始音频文件预处理,提取出多个不同层级的语音特征并加以融合。
请参阅图3,图3是本发明实施例中基于多层级语音特征的语音驱动三维人脸动画方法中的多层级语音特征提取及融合模型框架图。
已知读取原始音频文件后得到语音波形数据其中m是语音波形的数据点数。
将语音波形数据通过wavLM模型处理得到声学语音特征/>其中T′是声学音频表示的个数,d0=1024是表示的维数。然后利用线性插值层对AT′进行重采样,得到帧粒度特征/>保证语音特征的频率与面部动画的频率相同。再利用线性层来降低上述帧粒度特征/>的维度,最终得到帧级别的语音特征为F=[f1,…,fT]∈RT×d,其中d表示帧级别特征的维度。
将帧粒度特征通过基于发音结构的统计特征的SpeechFormer模块后,输出音素粒度特征/>音素粒度特征/>一方面通过线性层的投影降维得到音素级别的语音特征P=[p1,…,pT]∈RT×d,另一方面通过SpeechFormer模块的词阶段得到单词粒度特征/>再将/>经过线性层获得词级别的语音特征W=[w1,…,wT]∈RT×d。
最后通过加权和AT=αFF+αPP+αWW获得包含丰富层级的语音特征AT,其中αi(i∈{F,P,W})是相应层级的权重系数。
S3、建立语音驱动三维人脸动画整体模型,所述语音跨模态驱动三维人脸动画整体模型包括三维人脸运动编码器和多层跨模态Transformer解码器;三维人脸运动编码器包括运动编码器模块和周期性位置编码器模块;多层跨模态Transformer解码器包括有偏因果多头自注意力模块、有偏跨模态多头自注意力模块和运动解码器模块;
训练语音跨模态驱动三维人脸动画整体模型以进行自回归预测三维人脸动画任务,请参阅图2,具体包括以下步骤:
S31将说话者身份风格向量与多层级语音特征输入多层跨模态Transformer解码器预测出第一帧的三维人脸网格;
S32对于第t帧,t大于等于2,将前t-1帧预测的三维人脸网格序列经过三维人脸运动编码器编码后,与说话者身份风格向量融合,得到人脸动画编码序列;将人脸动画编码序列与多层级语音特征一同输入多层跨模态Transformer解码器自回归预测出当前帧的三维人脸网格;
S33重复步骤S32,直至预测完最后一帧的三维人脸网格;
S34将预测的所有帧三维人脸网格拼接在一起,得到一个预测的三维人脸网格序列,在预测的三维人脸网格序列与原始的三维人脸动画样本之间构建损失函数,通过梯度下降法不断训练更新网络参数,优化模型,得到语音跨模态驱动三维人脸动画整体模型;
请参阅图4,图4是本发明实施例中基于多层级语音特征的语音驱动三维人脸动画方法中的语音跨模态驱动三维人脸动画模型框架图。
在步骤S31中,为了建模说话风格,先通过风格嵌入层将说话者身份风格向量的one-hot编码嵌入到d维向量sn中,然后将sn同经过运动编码器投影到d维空间的预测的三维人脸面部运动一起添加到面部运动表示ft中:
Wf是权重,bf是偏差,是上一个时间步长的预测三维人脸网格。
此外还使用了一种周期性位置编码(PPE)来为人脸面部动画序列注入时间顺序信息,最后得到用于自回归跨模态解码的面部运动表示如下式:
PEE(t,2i)=sin((t mod p)/100002i/d)
PEE(t,2i+1)=cos((t mod p)/100002i/d)
在步骤S32中,预测当前帧的三维人脸网格具体实现如下:
假设此时需要推测第t帧时的三维人脸网格考虑到模型采用自回归方式预测三维人脸网格动画序列,即已预测出前t-1帧的三维人脸网格序列/>根据前面采用周期性位置编码、运动编码器映射以及融合风格向量的操作后,获得时间编码的面部运动表示序列/>将/>通过偏因果多头自注意力机制投影到查询/>和关键字/>以及值/>再通过执行缩放点积注意力来计算加权上下文表示:
多头注意力机制由H个平行缩放的点积注意组成,用于从多个表示子空间中联合提取互补信息。H个头的输出被连接在一起,并通过参数矩阵向前投影:
假设有偏因果多头自注意力机制的输出为 中的每个标记都编码了面部运动的上下文。将AT与/>送到有偏的跨模态多头注意力机制,AT被转换成两个独立的矩阵:关键值KA和值VA,而/>被转换成查询值QA。此外,为了对齐音频和人脸运动,还在查询键注意得分中添加了对齐偏差BA,如下式:
有偏跨模态注意力机制的输出被计算为VA的加权和,如下式:
最后将有偏跨模态注意力机制扩展到如有偏因果多头自注意力机制一样扩展到H个头,再将输出的d维隐藏状态投影回V维3D顶点空间,自回归预测出第t帧的面部运动将其与之前预测出的前t-1帧的三维人脸网格序列/>拼接,获得对应的三维人脸网格序列/>由此类推,自回归推测得出其余帧的三维人脸网格,进而得到与语音对应的预测的三维人脸网格序列/>
在步骤S34中,通过原始样本的三维人脸序列Y={y1,…,yT}与预测得到的三维人脸网格序列之间构建损失函数。
具体包括构建两种损失函数训练整体模型,第一种损失函数定义为位置损失,式子如下,
其中yt,v与分别是原始样本与合成预测的人脸面部运动序列的第t帧,第v个三维人脸的顶点位置,
表示L2距离。
第二种损失函数为速度损失,是为了保证合成运动时间上的连续性,式子如下,
总体损失函数为二者相加,Ltotal=Lpos+βvelLvel,其中βvel为权重函数。训练过程中通过梯度下降法使损失函数达到全局最小值来优化模型。
S4、根据测试集样本衡量语音跨模态驱动三维人脸动画整体模型的性能,并获取性能最好的模型。
可选地,采取的定量衡量指标为唇部同步误差和整体同步误差。其中,唇部同步误差是计算出每帧所有唇部区域人脸网格顶点的最大L2误差后取所有帧的均值,整体同步误差是计算出整个三维人体网格所有顶点的L2误差均值。唇部同步误差是为了判断嘴唇运动与语音的同步性以及自身的真实性,整体同步误差是为了评估整体人脸的合成性能。最后将指标下性能最优的整个模型的参数和结构都保存下来。
S5、将实际环境中的语音样本输入性能最好的模型,输出指定风格的三维人脸动画。
将数据集样本以外的实际环境中的语音样本输入性能最好的语音驱动三维人脸动画序列模型,同时规定指定的说话人风格,模型输出指定风格的真实感高,情感表现力强的三维人脸动画序列。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种基于多层级语音特征的语音驱动三维人脸动画方法,其特征在于,包括以下步骤:
S1获取原始音频文件以及对应的三维人脸动画样本,划分为训练集和测试集;
S2根据语音特性将原始音频文件预处理,提取出多个不同层级的语音特征并加以融合:
通过自监督预训练语音模型wavLM提取帧级别的语音特征;
通过基于发音结构的统计特征的Speechformer模块提取音素、词级别的语音特征;
将所得的帧、音素以及词级别的语音特征融合得到多层级语音特征;
S3建立语音跨模态驱动三维人脸动画整体模型,所述语音跨模态驱动三维人脸动画整体模型包括三维人脸运动编码器和多层跨模态Transformer解码器;
训练语音跨模态驱动三维人脸动画整体模型以进行自回归预测三维人脸动画任务:
S31将说话者身份风格向量与多层级语音特征输入多层跨模态Transformer解码器预测出第一帧的三维人脸网格;
S32对于第t帧,t大于等于2,将前t-1帧预测的三维人脸网格序列经过三维人脸运动编码器编码后,与说话者身份风格向量融合,得到人脸动画编码序列;将人脸动画编码序列与多层级语音特征一同输入多层跨模态Transformer解码器自回归预测出当前帧的三维人脸网格;
S33重复步骤S32,直至预测完最后一帧的三维人脸网格;
S34将预测的所有帧三维人脸网格拼接在一起,得到一个预测的三维人脸网格序列,在预测的三维人脸网格序列与原始的三维人脸动画样本之间构建损失函数,通过梯度下降法不断训练优化模型,得到语音跨模态驱动三维人脸动画整体模型语音跨模态驱动三维人脸动画整体模型;
S4根据测试集样本衡量语音跨模态驱动三维人脸动画整体模型的性能,并获取性能最好的模型;
S5将实际环境中的语音样本输入性能最好的模型,输出指定风格的三维人脸动画。
2.根据权利要求1所述的基于多层级语音特征的语音驱动三维人脸动画方法,其特征在于,所述原始音频是wav文件,读取后得到语音波形其中m是语音波形的数据点数;
所述三维人脸动画样本是npy文件,读取后得到对应人脸5023个顶点的三维空间坐标的时间序列Y={y1,…,yT},其中T为三维人脸动画序列的时间帧数,yi(i∈{1,…,T})∈R5023×3表示单帧人脸网格中5023个顶点的三维空间坐标。
3.根据权利要求1所述的基于多层级语音特征的语音驱动三维人脸动画方法,其特征在于,所述通过自监督预训练语音模型wavLM提取帧级别的语音特征,具体为:
原始语音波形数据通过wavLM模型处理得到声学语音特征/>其中T′是声学音频表示的个数,d0是声学音频表示的维数;
利用线性插值层对AT′进行重采样,得到帧粒度特征
利用线性层来降低上述帧粒度特征的维度,最终得到帧级别的语音特征为F=[f1,…,fT]∈RT×d,其中d表示帧级别特征的维度。
4.根据权利要求3所述的基于多层级语音特征的语音驱动三维人脸动画方法,其特征在于,所述通过基于发音结构的统计特征的Speechformer模块提取音素、词级别的语音特征,具体为:
SpeechFormer模块捕获滑动窗口Tw范围内标记的多头注意力机制,其中Tw表示音素或单词的持续时间;
使帧粒度特征通过SpeechFormer模块后,输出音素粒度特征/>
然后音素粒度特征一方面通过线性层的投影降维得到音素级别的语音特征P=[p1,…,pT]∈RT×d,另一方面通过SpeechFormer模块得到单词粒度特征再将/>经过线性层获得词级别的语音特征W=[w1,…,wT]∈RT×d。
5.根据权利要求4所述的基于多层级语音特征的语音驱动三维人脸动画方法,其特征在于,
通过加权和AT=αFF+αPP+αWW获得多层级语音特征,其中αi(i∈{F,P,W})是相应层级的权重系数。
6.根据权利要求1所述的基于多层级语音特征的语音驱动三维人脸动画方法,其特征在于,所述三维人脸运动编码器包括运动编码器模块和周期性位置编码器模块;
所述多层跨模态Transformer解码器包括有偏因果多头自注意力模块、有偏跨模态多头自注意力模块和运动解码器模块。
7.根据权利要求6所述的基于多层级语音特征的语音驱动三维人脸动画方法,其特征在于,步骤32所述将前t-1帧预测的三维人脸网格序列经过三维人脸运动编码器编码后,与说话者身份风格向量融合,得到人脸动画编码序列,具体为:
通过三维人脸运动编码器将预测三维人脸的面部运动投射到d维空间中,通过风格嵌入层将说话者身份风格向量的one-hot编码嵌入到d维向量sn中,并将其添加到面部运动表示ft中:
Wf是权重,bf是偏差,是上一个时间步长的预测三维人脸网格;
通过周期性位置编码人脸面部动画序列注入时间顺序信息,最后得到用于自回归跨模态解码的面部运动表示如下式:
PEE(t,2i)=sin((t mod p)/100002i/d)
PEE(t,2i+1)=cos((t mod p)/100002i/d)
8.根据权利要求7所述的基于多层级语音特征的语音驱动三维人脸动画方法,其特征在于,所述将人脸动画编码序列与多层级语音特征一同输入多层跨模态Transformer解码器自回归预测出当前帧的三维人脸运动,具体为:
假设已知时间编码的面部运动表示序列首先通过有偏因果多头自注意力机制将/>投影到查询/>和关键字/>以及值/>再通过执行缩放点积注意力来计算加权上下文表示:
所述多头注意力机制由H个平行缩放的点积注意组成,用于从多个表示子空间中联合提取互补信息;H个头的输出被连接在一起,并通过参数矩阵向前投影:
假设有偏因果多头自注意力机制的输出为 中的每个标记都编码了面部运动的上下文;将多层级语音特征AT与/>送到有偏的跨模态多头注意力机制,AT被转换成两个独立的矩阵:关键值KA和值VA,而/>被转换成查询值QA;
在查询键注意得分中添加对齐偏差BA,如下式:
有偏跨模态注意力机制的输出被计算为VA的加权和,如下式:
最后将有偏跨模态注意力机制扩展到如有偏因果多头自注意力机制一样扩展到H个头,再将输出的d维隐藏状态投影回V维3D顶点空间,自回归预测出当前帧,即第t帧的面部运动
9.根据权利要求7所述的基于多层级语音特征的语音驱动三维人脸动画方法,其特征在于,所述在预测的三维人脸网格序列与原始的三维人脸动画样本之间构建损失函数,具体为:
通过构建两种损失函数训练整体模型,第一种损失函数定义为位置损失,式子如下:
其中yt,v与分别是原始样本与合成预测的人脸面部运动序列的第t帧,第v个三维人脸的顶点位置,
表示L2距离;
第二种损失函数为速度损失,用于保证合成运动时间上的连续性,式子如下,
总体损失函数为二者相加,Ltotal=Lpos+βvelLvel,其中βvel为权重函数。
10.根据权利要求9所述的基于多层级语音特征的语音驱动三维人脸动画方法,其特征在于,所述通过梯度下降法优化模型,具体为:
通过梯度下降法不断训练更新网络参数,使损失函数达到全局最小值来优化模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310924232.5A CN117115316A (zh) | 2023-07-26 | 2023-07-26 | 一种基于多层级语音特征的语音驱动三维人脸动画方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310924232.5A CN117115316A (zh) | 2023-07-26 | 2023-07-26 | 一种基于多层级语音特征的语音驱动三维人脸动画方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117115316A true CN117115316A (zh) | 2023-11-24 |
Family
ID=88811821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310924232.5A Pending CN117115316A (zh) | 2023-07-26 | 2023-07-26 | 一种基于多层级语音特征的语音驱动三维人脸动画方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117115316A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117635784A (zh) * | 2023-12-19 | 2024-03-01 | 世优(北京)科技有限公司 | 三维数字人脸部动画自动生成系统 |
CN117710541A (zh) * | 2023-12-29 | 2024-03-15 | 南京硅基智能科技有限公司 | 音频驱动三维人脸动画模型的生成方法、装置及设备 |
CN118279457A (zh) * | 2024-05-29 | 2024-07-02 | 华南理工大学 | 一种基于大脑启发式的文本驱动三维人脸方法 |
CN118397155A (zh) * | 2024-06-26 | 2024-07-26 | 苏州元脑智能科技有限公司 | 数字人动画生成及其驱动模型训练方法、装置、电子设备 |
-
2023
- 2023-07-26 CN CN202310924232.5A patent/CN117115316A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117635784A (zh) * | 2023-12-19 | 2024-03-01 | 世优(北京)科技有限公司 | 三维数字人脸部动画自动生成系统 |
CN117635784B (zh) * | 2023-12-19 | 2024-04-19 | 世优(北京)科技有限公司 | 三维数字人脸部动画自动生成系统 |
CN117710541A (zh) * | 2023-12-29 | 2024-03-15 | 南京硅基智能科技有限公司 | 音频驱动三维人脸动画模型的生成方法、装置及设备 |
CN118279457A (zh) * | 2024-05-29 | 2024-07-02 | 华南理工大学 | 一种基于大脑启发式的文本驱动三维人脸方法 |
CN118279457B (zh) * | 2024-05-29 | 2024-10-11 | 华南理工大学 | 一种基于大脑启发式的文本驱动三维人脸方法 |
CN118397155A (zh) * | 2024-06-26 | 2024-07-26 | 苏州元脑智能科技有限公司 | 数字人动画生成及其驱动模型训练方法、装置、电子设备 |
CN118397155B (zh) * | 2024-06-26 | 2024-09-27 | 苏州元脑智能科技有限公司 | 数字人动画生成及其驱动模型训练方法、装置、电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378806B (zh) | 一种融合情感编码的音频驱动人脸动画生成方法及系统 | |
CN111897933B (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
CN117115316A (zh) | 一种基于多层级语音特征的语音驱动三维人脸动画方法 | |
Hong et al. | Real-time speech-driven face animation with expressions using neural networks | |
US20100082345A1 (en) | Speech and text driven hmm-based body animation synthesis | |
CN113393832B (zh) | 一种基于全局情感编码的虚拟人动画合成方法及系统 | |
CN110610534B (zh) | 基于Actor-Critic算法的口型动画自动生成方法 | |
CN112151030A (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
CN116863038A (zh) | 一种文本生成数字人语音及面部动画的方法 | |
Liu et al. | Geometry-guided dense perspective network for speech-driven facial animation | |
CN113838174A (zh) | 一种音频驱动人脸动画生成方法、装置、设备与介质 | |
Fan et al. | Joint audio-text model for expressive speech-driven 3d facial animation | |
CN115937369A (zh) | 一种表情动画生成方法、系统、电子设备及存储介质 | |
Song et al. | Emotional listener portrait: Realistic listener motion simulation in conversation | |
Song et al. | Emotional listener portrait: Neural listener head generation with emotion | |
CN117219050A (zh) | 一种基于深度生成对抗网络的文本生成视频系统 | |
CN117711042A (zh) | 一种基于驱动文本生成数字人的播报视频的方法及装置 | |
CN115550744B (zh) | 一种语音生成视频的方法和装置 | |
CN115311731B (zh) | 一种手语数字人的表情生成方法和装置 | |
CN116958343A (zh) | 面部动画生成方法、装置、设备、介质及程序产品 | |
Liu et al. | Real-time speech-driven animation of expressive talking faces | |
Balayn et al. | Data-driven development of virtual sign language communication agents | |
Verma et al. | Animating expressive faces across languages | |
Li et al. | A novel speech-driven lip-sync model with CNN and LSTM | |
CN118279457B (zh) | 一种基于大脑启发式的文本驱动三维人脸方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |