CN113378806B - 一种融合情感编码的音频驱动人脸动画生成方法及系统 - Google Patents

一种融合情感编码的音频驱动人脸动画生成方法及系统 Download PDF

Info

Publication number
CN113378806B
CN113378806B CN202110934743.6A CN202110934743A CN113378806B CN 113378806 B CN113378806 B CN 113378806B CN 202110934743 A CN202110934743 A CN 202110934743A CN 113378806 B CN113378806 B CN 113378806B
Authority
CN
China
Prior art keywords
audio
expression
emotion
face
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110934743.6A
Other languages
English (en)
Other versions
CN113378806A (zh
Inventor
李太豪
刘逸颖
郑书凯
刘昱龙
马诗洁
阮玉平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202110934743.6A priority Critical patent/CN113378806B/zh
Publication of CN113378806A publication Critical patent/CN113378806A/zh
Application granted granted Critical
Publication of CN113378806B publication Critical patent/CN113378806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Abstract

本发明属于人工智能领域,涉及一种融合情感编码的音频驱动人脸动画生成方法及系统,该方法为:首先对采集的音频信号进行预处理,提取MFCC特征后输入语音识别模块,进一步提取音频特征,同时将MFCC特征输入语音情感识别模块,得到情感类别并进行one‑hot编码,然后将音频特征和情感的one‑hot编码向量进行连接,输入表情识别模块得到基于3DMM模型的表情系数,最后将表情系数与人脸模板输入人脸动画生成模块,得到带表情的3D人脸动画。本发明方法计算量小,训练稳定,流程简单,成本低廉,能够极大的降低电影制作周期和成本,且充分考虑了语音传达的情感状态,对在网络中输入了情感编码,使得生成的人脸动画更加生动形象,能够给用户带来更优质的体验。

Description

一种融合情感编码的音频驱动人脸动画生成方法及系统
技术领域
本发明属于人工智能领域,具体涉及一种融合情感编码的音频驱动人脸动画生成方法及系统。
背景技术
近年来,随着人工智能的不断发展,跨模态学习和建模技术在计算机视觉、计算机图形学和多媒体等跨学科研究中引起了越来越多的关注。视觉和听觉模式是人人或人机互动中的两个重要的感觉通道。音频和人脸动画之前存在着很强的关联性,即许多面部动作是直接由语言产生引起的。因此,理解言语和面部运动之间的相关性能够为分析人类行为提供额外的帮助。音频驱动人脸动画技术有着十分广泛的应用场景,如虚拟主播、角色扮演类游戏、三维动画制作等。
现有的音频驱动人脸动画生成方法大多未考虑说话者的情感状态,导致预测的人脸动画虽然能够实现较高质量的唇部区域运动,但是人脸表情趋于木讷、呆滞,降低了人机交互的可理解性和认知度。抑或有的方法需要联合视频来预测表情,这大大增加了算法的复杂度。
天津大学申请的专利“一种语音驱动的三维人脸动画生成方法及网络结构”,申请号:202010387250.0,通过该方法实现了一种与说话者无关的以3D几何图形为导向的语音驱动面部动画网络,并引入非线性几何图形表示法和来自不同视角的两个约束条件,使得生成的3D面部表情更加生动形象。然而该方法未考虑不同情绪下说话状态的人脸表情,这就使得生成的虚拟人的表情木讷、呆滞,从而降低了人机交互的可理解性和认知度。
上海交通大学的申请的专利“联合语气词特征的视音频驱动人脸动画实现方法及系统”,申请号:CN202011484986.6,该申请利用语气词增强训练网络学习识别语气词特征,学习语气词特征与面部表情AU参数在语境中的深层的映射关系,对语音输入信息进行语气词特征的提取,进行表情增强AU参数的预测。然而,一方面,语气词并不能完全反应说话人的真实情感状态,另一方面,如果语句中不包含语气词,则该方法无法判断情感状态。此外,该方法需同时从视频中提取AU参数并与音频预测的AU参数进行加权,因此算法的复杂度较高。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种融合情感编码的音频驱动人脸动画生成方法及系统,对输入语音准确预测对应唇形的同时,能够结合情感状态,得到包含丰富表情的人脸动画,其具体技术方案如下:
一种融合情感编码的音频驱动人脸动画生成方法,包括以下步骤:
步骤1,采集音频信号,对音频信号进行预处理,提取MFCC特征;
步骤2,将MFCC特征输入语音识别模块,进一步提取音频特征;
步骤3,将MFCC特征输入语音情感识别模块,得到情感类别,并进行one-hot编码;
步骤4,将步骤2得到的音频特征和步骤3得到的情感的one-hot编码向量进行连接,输入表情识别模块,得到基于3DMM模型的表情系数;
步骤5,将表情系数与人脸模板输入人脸动画生成模块,得到带表情的3D人脸动画。
进一步的,所述步骤1具体为:设置采样率为16000Hz, 滑窗大小为0.02s, 滑窗步长为0.02s,提取的MFCC特征的帧率为50fps。
进一步的,所述步骤2具体为:所述语音识别模块输入MFCC特征,输出为字符的非标准化概率,即对于n帧音频输入,该模块输出为一个大小为n×D的向量,D为字母表字符数加上空白标签的字符数。
进一步的,所述步骤3具体为:所述得到的情感类别包括:中性、生气、厌恶、恐惧、高兴、伤心、惊讶,进行one-hot编码具体表示为:中性-1000000,生气-0100000,厌恶-0010000,恐惧-0001000,高兴-0000100,伤心-0000010,惊讶-0000001,即语音情感识别模块的输出为大小是n×7的向量。
进一步的,所述将步骤2得到的音频特征和步骤3得到的情感的one-hot编码向量进行连接后,得到的向量长度为n× (D+7)。
进一步的,所述表情识别模块的网络由两层LSTM和两个全连接层构成,即包含依次串联连接的第一LSTM层、第二LSTM层、第一全连接层和第二全连接层。
进一步的, 所述表情识别模块的训练数据包含不同情感状态下的相同句子的音频数据及对应的3D人脸模型数据,其中,所述的情感状态包含:中性、生气、厌恶、恐惧、高兴、伤心、惊讶,并采用one-hot进行编码;所述的3D人脸模型数据可由3D扫描设备采集并绑定到3DMM模型的拓扑网格上,所有的人脸模型具有相同的顶点数,并且顶点之间具有相同的拓扑关系;或采用基于3DMM的人脸三维重建方法,通过输入的二维图像生成3D模型;采集的3D人脸模型数据的帧率与语音提取的特征的帧率保持一致;
所述表情识别模块的在训练过程中使用的损失函数包含距离损失和时间连续性损失,其表达式为:
Figure 62969DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE003
为距离损失,
Figure 963798DEST_PATH_IMAGE004
为时间连续性损失,
Figure DEST_PATH_IMAGE005
为权重,计算了3D模型的真实顶点 位置和预测位置之间的均方误差:
Figure 337011DEST_PATH_IMAGE006
计算了3D模型的真实的前后帧之间的顶点位移与预测的前后帧之间顶点位移之间的均方误差:
Figure DEST_PATH_IMAGE007
式中,
Figure 404324DEST_PATH_IMAGE008
为真实3D人脸模型的顶点集,
Figure DEST_PATH_IMAGE009
为预测3D人脸模型的顶 点集,N为顶点数,t表示当前帧,t-1表示上一时刻帧。
进一步的,所述步骤5具体为:将表情系数作为权重,与3DMM模型的表情PCA的分量相乘后,与人脸模板进行相加,得到的带表情的3D人脸动画模型,具体表达式为:
Figure DEST_PATH_IMAGE011
其中,
Figure 608909DEST_PATH_IMAGE009
为第t帧预测的人脸模型的顶点集,T为人脸模板的顶点集,n_ param为表情系数的数量,
Figure 696951DEST_PATH_IMAGE012
为第t帧的第i个表情系数,
Figure DEST_PATH_IMAGE013
为3DMM模型的表情PCA的第i个特 征向量。
一种融合情感编码的音频驱动人脸动画生成系统,包括以下模块:
1)音频采集模块,采集音频信号;
2)音频预处理模块,对输入的原始音频信号提取MFCC特征;
3)语音识别模块,用于进一步从MFCC特征中提取音频广义特征;
4)语音情感识别模块,用于对语音进行情感分类,并得到情感的one-hot编码;
5)表情识别模块,对语音识别模块和语音情感识别模块的输出进行连接作为输入,预测基于3DMM的表情系数;
6)人脸动画生成模块,输入表情系数和人脸模板,得到3D人脸动画;
7)动画显示模块,将3D人脸模型渲染为2D图像,并通过显示设备播放。
本发明的优点:
1.本发明提出的加入情感编码的音频驱动人脸动画方法,充分考虑了语音传达的情感状态,对在网络中输入了情感编码,使得生成的人脸动画更加生动形象,能够给用户带来更优质的体验。
2.本发明的表情识别模块输出是表情系数,根据表情系数来驱动3DMM模型的表情,相比于专利“一种语音驱动的三维人脸动画生成方法及网络结构”输出整个3D模型的顶点,本方法的参数量更少,训练更稳定。
3.本发明的方法只需输入语音即可预测生动的人脸表情,计算量小,运行速度快,相比于传统电影采用的人脸动作捕捉系统进行动画特效制作,流程更加简单,成本更加低廉,能够极大的降低电影制作周期和成本。
附图说明
图1为本发明的融合情感编码的音频驱动人脸动画生成方法的流程示意图;
图2为本发明的融合情感编码的音频驱动人脸动画生成系统的结构示意图;
图3为本发明的表情识别模块的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图,对本发明作进一步详细说明。
如图1所示,一种融合情感编码的音频驱动人脸动画生成方法,包括以下步骤:
步骤1:对音频信号进行预处理,计算MFCC特征;
本实施例中,设置采样率为16000Hz, 滑窗大小为0.02s, 滑窗步长为0.02s,因此提取的MFCC特征的帧率为50fps。
步骤2:将MFCC特征输入语音识别模块,进一步提取音频特征;
由于本发明的目标是针对任意音频进行表情估计,因此提取一个广义的音频特征,首先使用语音识别模块对该音频进行特征提取,所述语音识别模块在庞大的音频数据集上进行训练,并具备足够的泛化能力。
语音识别模块输出结果输出为字符的非标准化概率,即对于n帧音频输入,该模块网络输出为一个大小为n×D的向量,D为字母表字符数加上空白标签的字符数。
本实施例中,采用了DeepSpeech作为语音识别网络,并使用其提供的英文识别预训练网络模型作为语音识别模块,该模型在大型的语音识别数据集上训练,具有很好的泛化能力。模型的字母表长度为29,因此对于n帧输入,输出长度为n×29的向量。
可选地,如果目标为实现中文的音频驱动人脸动画,则可使用DeepSpeech的中文识别网络模型,其输出为UTF-8字节值的概率,因此对于n帧输入,输出长度为n×256的向量。
步骤3,将MFCC特征输入语音情感识别模块,得到情感类别,并进行one-hot编码;
情感类别包含中性、生气、厌恶、恐惧、高兴、伤心、惊讶七类,并进行one-hot编码:中性-1000000,生气-0100000,厌恶-0010000,恐惧-0001000,高兴-0000100,伤心-0000010,惊讶-0000001。因此对于n帧输入,语音情感识别模块的输出为大小为n×7的向量。
本实施例中,语音情感识别模块采用论文“Emotion Recognition from Speech,Venkataramanan K etc,2019”提出的方法作为语音情感识别网络。可选地,也可采用其他方法或者自己搭建神经网络对语音情感进行分类识别。
步骤4,将步骤2得到的音频特征和步骤3得到的情感的one-hot编码向量结果进行连接,输入表情识别模块,得到基于3DMM表情系数;
具体的,将第2、3步骤输出的结果连接后得到的大小为 n×(D+7) 的向量,其中n为输入音频的帧数,并输入表情识别模块。
如图3所示为表情识别模块的网络结构,包含第一LSTM层,第二LSTM层,第一全连接层,第二全连接层,它们依次串联。
在本实施例中,根据DeepSpeech的英文识别模型的输出向量长度为29,表情类别为7,因此设置第一LSTM的输入向量纬度为36。此外设置第一LSTM隐藏层纬度、第二LSTM输入向量纬度、第二LSTM输入向量纬度为256,设置第一全连接层神经元数量为128,第二全连接层神经元数量为50。因此最后输出的表情系数长度为50维。
此外,为了训练表情识别模块的网络,需采集训练数据,训练数据包含若干演员分别在不同情感状态下说相同的句子的音频及对应的3D人脸模型,并满足以下要求:
(1)所述的情感状态包含:中性、生气、厌恶、恐惧、高兴、伤心、惊讶,并采用one-hot对其编码;
(2)所述的3D人脸数据可由3D扫描设备采集并绑定到3DMM模型的拓扑网格上,所有的人脸模型具有相同的顶点数,并且顶点之间具有相同的拓扑关系;或采用基于3DMM的人脸三维重建方法,通过输入的二维图像生成3D模型;采集的3D人脸数据的帧率与语音提取的特征的帧率保持一致,为50帧/秒。
(3)所述的句子需保证多样性,尽可能覆盖该语种的所有发音。
本实施例中,采集了12个演员,分别以性、生气、厌恶、恐惧、高兴、伤心、惊讶七中情感读100个3-5s长的具有,并录制视频和音频,并令帧率为50fps。对于视频的每一帧,我们采用论文“DECA: Detailed Expression Capture and Animation”提出的基于3DMM方法进行人脸三维重建,得到每一帧的3D模型,该3D模型的拓扑网格采用的是开源的3DMM模型——FLAM的网格。
可选地,还可采用高精度的三维面部动作捕捉系统如3DMD等设备直接采集3D人脸模型,并绑定到3DMM模型的拓扑网格上。可选地,开源的3DMM模型有FLAM、Basel FaceModel(BFM)、Surrey Face Model(SFM)、FaceWarehouse、Large Scale Facial Model(LSFM)等。这种方式相比于利用算法采集计算得到的3D模型精度更高。
本实施例将以上数据集以8:2:2的比例分为训练集、验证集以及测试集。训练过程中使用的损失函数包含距离损失和时间连续性损失,其表达式为:
Figure 837687DEST_PATH_IMAGE014
其中,
Figure 302166DEST_PATH_IMAGE003
为距离损失,
Figure 626837DEST_PATH_IMAGE004
为时间连续性损失,
Figure 823464DEST_PATH_IMAGE005
为权重,计算了3D模型的真实顶点 位置和预测位置之间的均方误差:
Figure 843372DEST_PATH_IMAGE006
计算了3D模型的真实的前后帧之间的顶点位移与预测的前后帧之间顶点位移之间的均方误差:
Figure 236176DEST_PATH_IMAGE007
式中,
Figure 962824DEST_PATH_IMAGE008
为真实3D人脸模型的顶点集,
Figure 658247DEST_PATH_IMAGE009
为预测3D人脸模型的顶 点集,N为顶点数,t表示当前帧,t-1表示上一时刻帧。
步骤5,将表情系数与人脸模板输入人脸动画生成模块,得到带表情的3D人脸动画。
在本实施例中,表情识别模块输出的表情系数为50个,将其作为权重,与3DMM模型的表情PCA的前50个分量相乘后,与人脸模板进行相加,得到带表情的3D人脸动画模型,可用表达式描述为:
Figure 555665DEST_PATH_IMAGE011
其中,
Figure 34051DEST_PATH_IMAGE009
为第t帧预测的人脸模型的顶点集,T为人脸模板的顶点集,n_ param为表情系数的数量,
Figure 208680DEST_PATH_IMAGE012
为第t帧的第i个表情系数,
Figure 936989DEST_PATH_IMAGE013
为3DMM模型的表情PCA的第i个特 征向量。
如图2所示,一种融合情感编码的音频驱动人脸动画生成系统,包括以下模块:
1)音频采集模块,采集音频信号;
2)音频预处理模块,对输入的原始音频信号提取MFCC特征;
3)语音识别模块,用于进一步从MFCC特征中提取音频广义特征;
4)语音情感识别模块,用于对语音进行情感分类,并得到情感的one-hot编码;
5)表情识别模块,对语音识别模块和语音情感识别模块的输出进行连接作为输入,预测基于3DMM的表情系数;
6)人脸动画生成模块,输入表情系数和人脸模板,得到3D人脸动画;
7)动画显示模块,将3D人脸模型渲染为2D图像,并通过显示设备播放。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种融合情感编码的音频驱动人脸动画生成方法,其特征在于,包括以下步骤:
步骤1,采集音频信号,对音频信号进行预处理,提取MFCC特征;
步骤2,将MFCC特征输入语音识别模块,进一步提取音频特征;
步骤3,将MFCC特征输入语音情感识别模块,得到情感类别,并进行one-hot编码;
步骤4,将步骤2得到的音频特征和步骤3得到的情感的one-hot编码向量进行连接,输入表情识别模块,得到基于3DMM模型的表情系数;
所述表情识别模块的训练数据包含不同情感状态下的相同句子的音频数据及对应的3D人脸模型数据,其中,所述的情感状态包含:中性、生气、厌恶、恐惧、高兴、伤心、惊讶,并采用one-hot进行编码;所述的3D人脸模型数据可由3D扫描设备采集并绑定到3DMM模型的拓扑网格上,所有的人脸模型具有相同的顶点数,并且顶点之间具有相同的拓扑关系;或采用基于3DMM的人脸三维重建方法,通过输入的二维图像生成3D模型;采集的3D人脸模型数据的帧率与语音提取的特征的帧率保持一致;
所述表情识别模块的在训练过程中使用的损失函数包含距离损失和时间连续性损失,其表达式为:
Figure 948418DEST_PATH_IMAGE001
其中,
Figure 171589DEST_PATH_IMAGE002
为距离损失,
Figure 502076DEST_PATH_IMAGE003
为时间连续性损失,
Figure 494303DEST_PATH_IMAGE004
为权重,计算了3D模型的真实顶点位置 和预测位置之间的均方误差:
Figure 268355DEST_PATH_IMAGE005
计算了3D模型的真实的前后帧之间的顶点位移与预测的前后帧之间顶点位移之间的均方误差:
Figure 978822DEST_PATH_IMAGE006
式中,
Figure 847421DEST_PATH_IMAGE007
为真实3D人脸模型的顶点集,
Figure 959733DEST_PATH_IMAGE008
为预测3D人脸模型的顶点 集,N为顶点数,t表示当前帧,t-1表示上一时刻帧;
步骤5,将表情系数与人脸模板输入人脸动画生成模块,得到带表情的3D人脸动画。
2.如权利要求1所述的一种融合情感编码的音频驱动人脸动画生成方法,其特征在于,所述步骤1具体为:设置采样率为16000Hz, 滑窗大小为0.02s, 滑窗步长为0.02s,提取的MFCC特征的帧率为50fps。
3.如权利要求1所述的一种融合情感编码的音频驱动人脸动画生成方法,其特征在于,所述步骤2具体为:所述语音识别模块输入MFCC特征,输出为字符的非标准化概率,即对于n帧音频输入,该模块输出为一个大小为n×D的向量,D为字母表字符数加上空白标签的字符数。
4.如权利要求3所述的一种融合情感编码的音频驱动人脸动画生成方法,其特征在于,所述步骤3具体为:所述得到的情感类别包括:中性、生气、厌恶、恐惧、高兴、伤心、惊讶,进行one-hot编码具体表示为:中性-1000000,生气-0100000,厌恶-0010000,恐惧-0001000,高兴-0000100,伤心-0000010,惊讶-0000001,即语音情感识别模块的输出为大小是n×7的向量。
5.如权利要求4所述的一种融合情感编码的音频驱动人脸动画生成方法,其特征在于,所述将步骤2得到的音频特征和步骤3得到的情感的one-hot编码向量进行连接后,得到的向量长度为n× (D+7)。
6.如权利要求1所述的一种融合情感编码的音频驱动人脸动画生成方法,其特征在于,所述表情识别模块由两层LSTM和两个全连接层构成,即包含依次串联连接的第一LSTM层、第二LSTM层、第一全连接层和第二全连接层。
7.如权利要求1所述的一种融合情感编码的音频驱动人脸动画生成方法,其特征在于,所述步骤5具体为:将表情系数作为权重,与3DMM模型的表情PCA的分量相乘后,与人脸模板进行相加,得到的带表情的3D人脸动画模型,具体表达式为:
Figure 901757DEST_PATH_IMAGE009
其中,
Figure 99520DEST_PATH_IMAGE008
为第t帧预测的人脸模型的顶点集,T为人脸模板的顶点集,n_param为 表情系数的数量,
Figure 506231DEST_PATH_IMAGE010
为第t帧的第i个表情系数,
Figure 473050DEST_PATH_IMAGE011
为3DMM模型的表情PCA的第i个特征向量。
8.一种融合情感编码的音频驱动人脸动画生成系统,其特征在于,包括以下模块:
1)音频采集模块,采集音频信号;
2)音频预处理模块,对输入的原始音频信号提取MFCC特征;
3)语音识别模块,用于进一步从MFCC特征中提取音频广义特征;
4)语音情感识别模块,用于对语音进行情感分类,并得到情感的one-hot编码;
5)表情识别模块,对语音识别模块和语音情感识别模块的输出进行连接作为输入,预测基于3DMM的表情系数;所述表情识别模块的训练数据包含不同情感状态下的相同句子的音频数据及对应的3D人脸模型数据,其中,所述的情感状态包含:中性、生气、厌恶、恐惧、高兴、伤心、惊讶,并采用one-hot进行编码;所述的3D人脸模型数据可由3D扫描设备采集并绑定到3DMM模型的拓扑网格上,所有的人脸模型具有相同的顶点数,并且顶点之间具有相同的拓扑关系;或采用基于3DMM的人脸三维重建方法,通过输入的二维图像生成3D模型;采集的3D人脸模型数据的帧率与语音提取的特征的帧率保持一致;
所述表情识别模块的在训练过程中使用的损失函数包含距离损失和时间连续性损失,其表达式为:
Figure 588904DEST_PATH_IMAGE001
其中,
Figure 8384DEST_PATH_IMAGE002
为距离损失,
Figure 484365DEST_PATH_IMAGE003
为时间连续性损失,
Figure 305690DEST_PATH_IMAGE004
为权重,计算了3D模型的真实顶点位置 和预测位置之间的均方误差:
Figure 858026DEST_PATH_IMAGE005
计算了3D模型的真实的前后帧之间的顶点位移与预测的前后帧之间顶点位移之间的均方误差:
Figure 764802DEST_PATH_IMAGE006
式中,
Figure 778894DEST_PATH_IMAGE007
为真实3D人脸模型的顶点集,
Figure 720305DEST_PATH_IMAGE008
为预测3D人脸模型的顶点 集,N为顶点数,t表示当前帧,t-1表示上一时刻帧;
6)人脸动画生成模块,输入表情系数和人脸模板得到3D人脸动画;
7)动画显示模块,将3D人脸模型渲染为2D图像,并通过显示设备播放。
CN202110934743.6A 2021-08-16 2021-08-16 一种融合情感编码的音频驱动人脸动画生成方法及系统 Active CN113378806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110934743.6A CN113378806B (zh) 2021-08-16 2021-08-16 一种融合情感编码的音频驱动人脸动画生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110934743.6A CN113378806B (zh) 2021-08-16 2021-08-16 一种融合情感编码的音频驱动人脸动画生成方法及系统

Publications (2)

Publication Number Publication Date
CN113378806A CN113378806A (zh) 2021-09-10
CN113378806B true CN113378806B (zh) 2021-12-14

Family

ID=77577244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110934743.6A Active CN113378806B (zh) 2021-08-16 2021-08-16 一种融合情感编码的音频驱动人脸动画生成方法及系统

Country Status (1)

Country Link
CN (1) CN113378806B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113763519B (zh) * 2021-11-09 2022-02-08 江苏原力数字科技股份有限公司 一种基于深度学习的语音驱动3d人物面部表情方法
CN115049016A (zh) * 2022-07-20 2022-09-13 聚好看科技股份有限公司 基于情绪识别的模型驱动方法及设备
CN115311731B (zh) * 2022-10-10 2023-01-31 之江实验室 一种手语数字人的表情生成方法和装置
CN115588224B (zh) * 2022-10-14 2023-07-21 中南民族大学 一种基于人脸关键点预测的虚拟数字人生成方法及装置
CN116051692B (zh) * 2023-04-03 2023-07-07 成都索贝数码科技股份有限公司 一种基于语音驱动的三维数字人脸部动画生成方法
CN116912373B (zh) * 2023-05-23 2024-04-16 苏州超次元网络科技有限公司 一种动画处理方法和系统
CN117078811A (zh) * 2023-08-31 2023-11-17 华院计算技术(上海)股份有限公司 模型训练方法、图像生成方法、动画生成方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112330781A (zh) * 2020-11-24 2021-02-05 北京百度网讯科技有限公司 生成模型和生成人脸动画的方法、装置、设备和存储介质
CN112614212B (zh) * 2020-12-16 2022-05-17 上海交通大学 联合语气词特征的视音频驱动人脸动画实现方法及系统

Also Published As

Publication number Publication date
CN113378806A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN113378806B (zh) 一种融合情感编码的音频驱动人脸动画生成方法及系统
CN110688911B (zh) 视频处理方法、装置、系统、终端设备及存储介质
Hong et al. Real-time speech-driven face animation with expressions using neural networks
US8224652B2 (en) Speech and text driven HMM-based body animation synthesis
Chiu et al. How to train your avatar: A data driven approach to gesture generation
US20120130717A1 (en) Real-time Animation for an Expressive Avatar
CN112614212B (zh) 联合语气词特征的视音频驱动人脸动画实现方法及系统
CN110610534B (zh) 基于Actor-Critic算法的口型动画自动生成方法
JP2023545642A (ja) 目標対象の動作駆動方法、装置、機器及びコンピュータプログラム
CN115329779B (zh) 一种多人对话情感识别方法
CN116863038A (zh) 一种文本生成数字人语音及面部动画的方法
CN113838174B (zh) 一种音频驱动人脸动画生成方法、装置、设备与介质
CN113393832B (zh) 一种基于全局情感编码的虚拟人动画合成方法及系统
WO2023284435A1 (zh) 生成动画的方法及装置
CN112151030A (zh) 一种基于多模态的复杂场景语音识别方法和装置
CN111354246A (zh) 一种用于帮助聋哑人交流的系统及方法
KR101738142B1 (ko) 감성 기반의 대화가 가능한 디지털 생명체 생성 시스템 및 그 제어방법
CN116051692A (zh) 一种基于语音驱动的三维数字人脸部动画生成方法
CN117115316A (zh) 一种基于多层级语音特征的语音驱动三维人脸动画方法
CN117219050A (zh) 一种基于深度生成对抗网络的文本生成视频系统
CN115311731B (zh) 一种手语数字人的表情生成方法和装置
CN116665275A (zh) 基于文本到汉语拼音的面部表情合成与交互控制方法
Liu et al. Real-time speech-driven animation of expressive talking faces
CN112766101A (zh) 一种中文唇语识别建模单元集的构建方法
CN113257225A (zh) 一种融合词汇及音素发音特征的情感语音合成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant