CN103279970B - 一种实时的语音驱动人脸动画的方法 - Google Patents

一种实时的语音驱动人脸动画的方法 Download PDF

Info

Publication number
CN103279970B
CN103279970B CN201310173929.XA CN201310173929A CN103279970B CN 103279970 B CN103279970 B CN 103279970B CN 201310173929 A CN201310173929 A CN 201310173929A CN 103279970 B CN103279970 B CN 103279970B
Authority
CN
China
Prior art keywords
parameter
vision
speech
human face
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310173929.XA
Other languages
English (en)
Other versions
CN103279970A (zh
Inventor
汪增福
罗常伟
於俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201310173929.XA priority Critical patent/CN103279970B/zh
Publication of CN103279970A publication Critical patent/CN103279970A/zh
Application granted granted Critical
Publication of CN103279970B publication Critical patent/CN103279970B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本发明提供一种实时的语音驱动人脸动画的方法,该方法有如下特性:(1)基于真实捕捉的语音参数和视觉参数,采用高斯混合模型和马尔可夫模型结合的方法实现语音参数到视觉参数的转换;(2)实现了语音参数到视觉参数的直接转换,既考虑了过去视觉特征对当前视觉特征的影响,又不依赖于语音识别系统提供的音素序列作为转换的前提;(3)能够满足实时性要求以及非实时性要求;(4)能够产生高真实感的人脸动画,也能产生具有动漫效果的人脸动画;(5)可以控制脸部表情。本发明客观性能测试和主观互动测试验证了其在网上面对面交流、虚拟主持人、电脑游戏等方面应用的有效性。

Description

一种实时的语音驱动人脸动画的方法
技术领域
本发明涉及语音处理、图像处理、语音可视化、人脸动画技术领域,具体是一种能合成实时的语音驱动人脸动画的方法。
背景技术
人脸动画在多模态人机交互、电影制作、电脑游戏、视频会议、虚拟主持人等方面得到了越来越多的应用。基于视频驱动的人脸动画方法具有较好的合成效果,但这种方法要求合成动画时,必须在特定的场合使用特定的设备来捕捉人脸运动,耗时长,代价高,普通用户无法使用。基于文本驱动的人脸动画方法需要借助语音合成系统,目前合成的语音依然缺乏自然语音的韵律和情感。因此,使用真实的语音来驱动人脸动画,是当前研究的热点之一。现有的语音驱动人脸动画方法,大部分都采用隐马尔可夫模型(Hidden Markov Model)实现语音参数到视觉参数的转换,这个过程需要利用语音识别技术来获取语音信号对应的音素序列,合成的人脸动画严重依赖于语音识别的结果,同时也不能满足实时性的要求。
发明内容
本发明的目的在于:克服背景技术的不足,提供一种实时的语音驱动人脸动画的方法。
本发明采用的技术方案为:实时的语音驱动人脸动画的方法,主要步骤有:获取语音参数及其对应的视觉参数,构造训练数据集;语音参数转换为视觉参数的建模及模型的训练;构造人脸模型对应的一组blendshape;视觉参数到人脸动画参数的转换,具体步骤如下:
步骤1、获取语音参数和视觉参数,构造训练数据集;
让一名表演者朗读一组中文、英文或者其他任何语种的句子,在表演者脸部正前方其进行录音录像,录音录像完成后,再对声音文件和视频文件进行处理。通过跟踪视频中的人脸特征点,得到特征点的位置,每一帧的特征点组成一个形状向量s,对所有视频帧的形状向量进行主成份分析,可得参数b就是视觉参数,对音频文件中的语音数据提取美尔复倒谱系数MFCC,作为语音参数,最后根据时间相等的关系对视觉参数和语音参数进行匹配,通过上述处理即可获得语音参数和视觉参数的训练数据集;
步骤2、语音参数转换为视觉参数的建模及模型的训练;
使用高斯混合模型和马尔可夫模型相结合的方法建立语音参数与视觉参数之间的关系,不仅利用了当前的语音参数,也考虑了过去视觉特征对当前视觉特征的影响,由于在实际转换过程中,无法获取到过去视觉参数的真实值,因此该方法利用一个主转换和辅助转换相结合的框架,主转换是利用当前语音参数和过去视觉参数的状态估计当前的视觉参数,辅助转换是在不引起误差积累的前提下,利用过去的语音参数估计过去的视觉参数的状态,得到的过去的视觉参数的状态提供给主转换使用;
辅助转换能够采用高斯混合模型的方法或线性变换的方法或神经网络的方法中的任何一种,主转换利用高斯混合模型模拟马尔可夫模型的转移概率密度函数,高斯混合模型的训练方法是,利用基于最大似然估计的EM算法估计高斯混合模型的参数,再使用基于最小转换误差的训练方法对模型参数进行进一步的优化;具体过程是,将EM算法估计到的高斯混合模型的参数作为初始值,利用概率下降法不断更新模型参数;
步骤3、构造人脸模型对应的一组blendshape;
在所有的形状向量s中,自动选取M个关键形状向量,将其作为一组二维的关键形状向量基{s},这些向量基组成的矩阵为Q,以这些关键形状向量及其对应的人脸视频图像为依据,为人脸模型设计一组与关键形状向量相对应的blendshape;这些blendshape可以是二维的,也可以是三维的,如果要合成高真实感的三维人脸动画,则使用真实的人脸照片经过三维重建和纹理映射得到blendshape,如果要合成卡通人脸动画,能够调整每个blendshape使其具有卡通的特点;
步骤4、视觉参数到人脸动画参数的转换;
人脸动画参数用向量ω表示,对于一个形状向量s,能够表示为也能够近似为s=Q.ω,利用最小二乘法,能够由b计算得到ω,人脸动画参数ω对blendshape进行插值,即可得语音驱动的人脸动画,在此基础上,还能够指定人脸表情,通过将当前的人脸形状与指定的人脸表情进行插值,能够使人脸模型拥有相应的表情。
其中,利用高斯混合模型以及马尔可夫模型建立语音参数到视觉参数的映射关系,实现语音参数到视觉参数的直接转换,避免了对语音识别系统的依赖,同时采用基于最小转换误差的训练方法对模型进行训练,使转换结果更为精确。
其中,利用真实捕捉的语音参数和视觉参数,能够获得高真实感的语音驱动人脸动画。
其中,通过调整人脸模型的blendshape,能够合成具有动漫效果的人脸动画。
其中,通过指定脸部表情,提高了用户对人脸动画的控制能力。
本发明的原理在于:
本发明建立语音参数和视觉参数的映射关系,将语音参数直接转换为视觉参数。建立视觉参数和人脸动画参数的转换关系,得到的人脸动画参数用来驱动人脸模型。
建立语音参数和视觉参数的映射关系的具体方案是,使用真实捕捉的语音参数和视觉参数,利用高斯混合模型和马尔可夫模型模拟语音参数和视觉参数之间的映射关系,使用最小均方误差估计的方法来估计语音参数对应的视觉参数。
建立视觉参数和人脸动画参数的转换关系的具体方案是,利用一组blendshape以及位移相等的关系,将视觉参数转换为人脸动画参数。
本发明与现有技术相比的优点在于:
(1)、利用高斯混合模型和马尔可夫模型相结合的方法建立语音参数与视觉参数之间的关系,不仅利用了当前的语音参数,也考虑了过去视觉特征对当前视觉特征的影响,使建立的关系更为准确。
(2)、实现了语音参数到视觉参数之间的直接转换,而不必依赖于语音识别技术提供的音素序列。
(3)、改进了基于最大似然估计的模型训练方法,利用基于最小转换误差的训练方法对模型参数进行优化,使得语音参数到视觉参数的转换更为精确。
(4)、能够达到实时性要求。
(5)、可以合成高真实感的人脸动画,也能合成具有动漫效果的人脸动画。
附图说明
图1为本发明的合成实时的语音驱动人脸动画的主要步骤。
图2为语音参数转换为视觉参数的示意图。左侧图为已有的转换方法,已有的方法没有考虑各帧之间的相关性。本发明的方法如右侧图示,不仅利用了当前的语音参数,也考虑了过去视觉特征对当前视觉特征的影响。
图3为语音参数转换为视觉参数所使用的主转换和辅助转换相结合的框架。
图4为与2D关键形状向量对应的人脸模型的3D blendshape示例。
图5为本发明合成的语音驱动人脸动画的部分截图。
具体实施方式
下面结合附图以及具体实施方式进一步说明本发明。
本发明是一种能合成实时的语音驱动人脸动画的方法。主要步骤有:获取语音参数及其对应的视觉参数,构造训练数据集;语音参数转换为视觉参数的建模及模型的训练;构造人脸模型对应的一组blendshape;视觉参数到人脸动画参数的转换,如图1所示。
1、获取语音参数和视觉参数,构造训练数据集
让一名表演者朗读一组句子,所选取的句子要有较好的音素覆盖范围。朗读时头部姿态保持不变,在表演者脸部正前方其进行录音录像,录音录像完成后,再对声音文件和视频文件进行处理。对视频中的正面人脸图像,使用主动形状模型(active shape model)的方法跟踪人脸的N个特征点,这N个特征点的坐标组成形状向量s=(x1,y1,...,xN,yN)。对所有帧的形状向量进行主成分分析,得到P为协方差矩阵的特征向量构成的矩阵,b为主成分系数,即视觉参数,每一帧图像对应的视觉参数由如计算得到。
对音频文件中的语音数据提取美尔复倒谱系数MFCC作为语音参数。人类听觉系统所感知到的声音的频率FMel(Mel)与该声音的物理频率FHz(Hz)的关系为: F Mel = 1127.0 ln ( 1 + F Hz 700 ) , MFCC的计算过程如下:
(1)对语音分帧处理,然后对每帧时域信号用FFT计算其线性频谱。
(2)将频谱的模通过Mel滤波器组,即在每个三角滤波器内对频谱的模加权取和,然后对输出向量求对数,最后进行DCT变换,得到MFCC特征向量。
得到视觉参数和语音参数后,根据时间相等的关系对视觉参数和语音参数进行匹配。通过上述处理即可获得语音参数和视觉参数的训练数据集。
2、语音参数转换为视觉参数的建模及模型的训练
使用高斯混合模型和马尔可夫模型相结合的方法建立语音参数与视觉参数之间的关系,不仅利用了当前的语音参数,也考虑了过去视觉特征对当前视觉特征的影响,如图2所示,语音参数转换为视觉参数,传统的方法如(a)图。没有考虑各帧之间的相关性,本发明的方法如(b)图,不仅利用了当前的语音参数,也考虑了过去视觉特征对当前视觉特征的影响。由于在实际转换过程中,无法获取到过去视觉参数的真实值,因此我们提出了一个主转换和辅助转换相结合的框架,主转换是利用当前语音参数和过去视觉参数的状态估计当前的视觉参数。辅助转换是在不引起误差积累的前提下,利用过去的语音参数估计过去的视觉参数的状态,得到的过去的视觉参数的状态提供给主转换使用,语音参数转换为视觉参数所使用的主转换和辅助转换相结合的框架如图3所示。具体过程如下:
主转换利用高斯混合模型模拟当前语音参数向量xt、当前视觉参数向量yt以及过去的视觉特征的状态三者的联合概率密度,即:
P ( Z t | λ ( Z ) ) = Σ m = 1 M w m · N ( Z t ; μ m ( Z ) , Σ m ( Z ) )
其中,Zt=[Xt;yt],λ(Z)为高斯混合模型的参数集。
给定xt,则yt的转移概率密度为:
P ( y t | y t p , x t , λ ( Z ) ) = Σ m = 1 M P ( m | X t λ ( Z ) ) P ( y t | X t , m , λ ( Z ) )
过去的视觉参数的状态计算如下:
y t p = 1 L Σ i = 1 L y ^ t - i , a
L为滑动平均窗口的长度,为辅助转换输出的视觉参数。
使用最小均方误差估计,即可得到当前视觉特征参数的估计为:
y ^ t = E [ y t | X t ]
= Σ m = 1 M p ( m | X t , λ ( Z ) ) E m , t ( y )
其中μm和Σm分别第m个高斯成分的均值和协方差矩阵。
高斯混合模型的训练方法是,利用基于最大似然估计的EM算法估计高斯混合模型的参数,再使用基于最小转换误差的训练方法对模型参数进行进一步的优化。具体过程是如下:
定义转换误差为给定其中一个训练样本,使用概率下降法更新模型参数,更新公式为:
λ ( n + 1 ) = λ ( n ) - ϵ n ∂ D ( y ^ n , y n ) ∂ λ | λ = λ ( n )
= λ ( n ) - 2 ϵ n ( y ^ n - y n ) T ∂ y ^ n ∂ λ | λ = λ ( n )
对于均值,其导数为:
∂ y ^ n ∂ μ m ( y ) T = p ( m | X t , λ ( Z ) ) . I H × H
IH×H为单位矩阵
对于协方差矩阵,其导数为:
∂ y ^ n ∂ σ m , i = p ( m | X t , λ ( Z ) ) . B m , i
其中 B m , i = [ O ( i - 1 ) × G ; b m T ; O ( H - i ) × G ] , b m = Σ m ( XX ) - 1 ( X t - μ m ( X ) ) , O(i-1)×G和O(H-i)×G为零矩阵。σm,i为协方差矩阵的行向量。
实际训练时,先将EM算法估计到的高斯混合模型的参数作为初始值,再利用上述方法不断更新模型参数。
本发明使用传统的基于高斯混合模型的转换方法作为辅助转换。
3、构造人脸模型对应的一组blendshape
在所有的形状向量s中,自动选取M个关键形状向量,将其作为一组二维的关键形状向量基{s},这些向量基组成的矩阵为Q,以这些关键形状向量及其对应的人脸视频图像为依据,为人脸模型设计一组与关键形状向量相对应的blendshape,图4显示了与2D关键形状向量对应的人脸模型的3D blendshape。嘴部发音时,语音通常只影响下部分人脸,第三幅图给出了下部分人脸模型对应的blendshape的正面视图。这些blendshape可以是二维的,也可以是三维的。如果要合成高真实感的三维人脸动画,则使用真实的人脸照片经过三维重建和纹理映射得到blendshape,如果要合成卡通人脸动画,可以调整每个blendshape使其具有卡通的特点。
4、视觉参数到人脸动画参数的转换
人脸动画参数用向量ω表示,对于一个形状向量s,可以表示为也可以由关键形状向量近似为s=Q.ω`,已知b,求解ω的过程等价于优化如下目标函数:
J = arg min | | s ‾ + P · b - Q · ω ` | |
利用最小二乘法,可以由b计算得到ω。ω为二维形状向量对应的权值向量,通过使用相同的权值ω对三维人脸模型的blendshape进行插值,即可得语音驱动的人脸动画,如图5所示。在此基础上,还可以指定人脸表情,通过将当前的人脸形状与指定的人脸表情进行插值,可使人脸模型拥有相应的表情。
本发明一种实时的语音驱动人脸动画的方法,通过实时的语音参数到视觉参数的转换,实现由语音直接驱动人脸动画。利用高斯混合模型以及马尔可夫模型建立语音参数到视觉参数的映射关系,实现语音参数到视觉参数的直接转换,避免了对语音识别系统的依赖,同时采用基于最小转换误差的训练方法对模型进行训练,使转换结果更为精确。在语音参数到视觉参数的转换过程中,不仅利用了当前的语音参数,也考虑了过去视觉特征对当前视觉特征的影响。由于在实际转换过程中,无法获取到过去视觉参数的真实值,因此提出了一个主转换和辅助转换相结合的框架,主转换是利用当前语音参数和过去视觉参数的状态估计当前的视觉参数。辅助转换是在不引起误差积累的前提下,利用过去的语音参数估计过去的视觉参数的状态,得到的过去的视觉参数的状态提供给主转换使用。利用真实捕捉的语音参数和视觉参数,可以获得高真实感的语音驱动人脸动画。通过修改关键帧,可以合成具有动漫效果的人脸动画。可以指定人脸的表情,提高了用户对人脸动画的控制能力。
本发明未详细阐述的部分属于本领域公知技术。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种实时的语音驱动人脸动画的方法,其特征在于,主要步骤有:获取语音参数及其对应的视觉参数,构造训练数据集;语音参数转换为视觉参数的建模及模型的训练;构造人脸模型对应的一组blendshape;视觉参数到人脸动画参数的转换,具体步骤如下:
步骤1、获取语音参数和视觉参数,构造训练数据集;
让一名表演者朗读一组中文、英文或者其他任何语种的句子,在表演者脸部正前方进行录音录像,录音录像完成后,再对声音文件和视频文件进行处理,对视频中的正面人脸图像,利用计算机视觉技术跟踪人脸特征点,每一帧的特征点组成一个形状向量s,对所有视频帧的形状向量进行主成份分析,可得参数b就是视觉参数,P为协方差矩阵的特征向量构成的矩阵,对音频文件中的语音数据提取美尔复倒谱系数MFCC,作为语音参数,最后根据时间相等的关系对视觉参数和语音参数进行匹配,通过上述处理即可获得语音参数和视觉参数的训练数据集;
步骤2、语音参数转换为视觉参数的建模及模型的训练;
使用高斯混合模型和马尔可夫模型相结合的方法建立语音参数与视觉参数之间的关系,不仅利用了当前的语音参数,也考虑了过去视觉特征对当前视觉特征的影响,由于在实际转换过程中,无法获取到过去视觉参数的真实值,因此该方法利用一个主转换和辅助转换相结合的框架,主转换是利用当前语音参数和过去视觉参数的状态估计当前的视觉参数,辅助转换是在不引起误差积累的前提下,利用过去的语音参数估计过去的视觉参数的状态,得到的过去的视觉参数的状态提供给主转换使用;
辅助转换能够采用高斯混合模型的方法或线性变换的方法或神经网络的方法中的任何一种,主转换利用高斯混合模型模拟马尔可夫模型的转移概率密度函数,高斯混合模型的训练方法是,利用基于最大似然估计的EM算法估计高斯混合模型的参数,再使用基于最小转换误差的训练方法对模型参数进行进一步的优化;具体过程是,将EM算法估计到的高斯混合模型的参数作为初始值,利用概率下降法不断更新模型参数;
步骤3、构造人脸模型对应的一组blendshape;
在所有的形状向量s中,自动选取M个关键形状向量,将其作为一组二维的关键形状向量基{s},这些向量基组成的矩阵为Q,以这些关键形状向量及其对应的人脸视频图像为依据,为人脸模型设计一组与关键形状向量相对应的blendshape,这些blendshape是二维或者三维的,如果要合成高真实感的三维人脸动画,则使用真实的人脸照片经过三维重建和纹理映射得到blendshape,如果要合成卡通人脸动画,能够调整每个blendshape使其具有卡通的特点;
步骤4、视觉参数到人脸动画参数的转换;
人脸动画参数用向量ω表示,对于一个形状向量s,能够表示为也能够近似为s=Q·ω,利用最小二乘法,能够由b计算得到ω,使用人脸动画参数ω对blendshape进行插值,即可得语音驱动的人脸动画,在此基础上,还能够指定人脸表情,通过将当前的人脸形状与指定的人脸表情进行插值,能够使人脸模型拥有相应的表情;
利用高斯混合模型以及马尔可夫模型建立语音参数到视觉参数的映射关系,实现语音参数到视觉参数的直接转换,避免了对语音识别系统的依赖,同时采用基于最小转换误差的训练方法对模型进行训练,使转换结果更为精确;
利用真实捕捉的语音参数和视觉参数,能够获得高真实感的语音驱动人脸动画;
通过调整人脸模型的blendshape,合成具有动漫效果的人脸动画;
能够指定人脸的表情,提高了用户对人脸动画的控制能力。
CN201310173929.XA 2013-05-10 2013-05-10 一种实时的语音驱动人脸动画的方法 Expired - Fee Related CN103279970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310173929.XA CN103279970B (zh) 2013-05-10 2013-05-10 一种实时的语音驱动人脸动画的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310173929.XA CN103279970B (zh) 2013-05-10 2013-05-10 一种实时的语音驱动人脸动画的方法

Publications (2)

Publication Number Publication Date
CN103279970A CN103279970A (zh) 2013-09-04
CN103279970B true CN103279970B (zh) 2016-12-28

Family

ID=49062477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310173929.XA Expired - Fee Related CN103279970B (zh) 2013-05-10 2013-05-10 一种实时的语音驱动人脸动画的方法

Country Status (1)

Country Link
CN (1) CN103279970B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105551071B (zh) * 2015-12-02 2018-08-10 中国科学院计算技术研究所 一种文本语音驱动的人脸动画生成方法及系统
CN105957129B (zh) * 2016-04-27 2019-08-30 上海河马动画设计股份有限公司 一种基于语音驱动及图像识别的影视动画制作方法
CN106327555A (zh) * 2016-08-24 2017-01-11 网易(杭州)网络有限公司 一种获得唇形动画的方法及装置
CN106447748B (zh) * 2016-09-14 2019-09-24 厦门黑镜科技有限公司 一种用于生成动画数据的方法和装置
CN106485774B (zh) * 2016-12-30 2019-11-15 当家移动绿色互联网技术集团有限公司 基于语音实时驱动人物模型的表情和姿态的方法
CN107901693A (zh) * 2017-11-14 2018-04-13 上海电机学院 一种基于声音mfcc特征的交互式绘画方法和装置
CN108364346B (zh) * 2018-03-08 2023-05-12 腾讯科技(深圳)有限公司 构建三维人脸模型的方法、装置和计算机可读存储介质
CN108734765A (zh) * 2018-05-21 2018-11-02 瞪羚实训(北京)科技有限公司 一种虚拟主持人的显示方法和系统、存储介质
CN108962216B (zh) * 2018-06-12 2021-02-02 北京市商汤科技开发有限公司 一种说话视频的处理方法及装置、设备和存储介质
CN110874557B (zh) * 2018-09-03 2023-06-16 阿里巴巴集团控股有限公司 一种语音驱动虚拟人脸的视频生成方法以及装置
CN110047121B (zh) * 2019-03-20 2023-08-11 北京字节跳动网络技术有限公司 端到端的动画生成方法、装置及电子设备
CN110009716B (zh) * 2019-03-28 2023-09-26 网易(杭州)网络有限公司 面部表情的生成方法、装置、电子设备及存储介质
CN110286756A (zh) * 2019-06-13 2019-09-27 深圳追一科技有限公司 视频处理方法、装置、系统、终端设备及存储介质
CN110413841A (zh) * 2019-06-13 2019-11-05 深圳追一科技有限公司 多态交互方法、装置、系统、电子设备及存储介质
CN110446000B (zh) * 2019-08-07 2021-04-16 三星电子(中国)研发中心 一种生成对话人物形象的方法和装置
CN110599573B (zh) * 2019-09-03 2023-04-11 电子科技大学 一种基于单目相机的人脸实时交互动画的实现方法
CN110677598B (zh) * 2019-09-18 2022-04-12 北京市商汤科技开发有限公司 视频生成方法、装置、电子设备和计算机存储介质
CN110751708B (zh) * 2019-10-21 2021-03-19 北京中科深智科技有限公司 一种实时的语音驱动人脸动画的方法和系统
CN110809090A (zh) * 2019-10-31 2020-02-18 Oppo广东移动通信有限公司 通话控制方法及相关产品
WO2021128173A1 (zh) * 2019-12-26 2021-07-01 浙江大学 一种语音信号驱动的脸部动画生成方法
CN111243626B (zh) * 2019-12-30 2022-12-09 清华大学 一种说话视频生成方法及系统
CN113379874B (zh) * 2020-02-25 2023-04-07 武汉Tcl集团工业研究院有限公司 一种人脸动画生成方法、智能终端及存储介质
CN113269872A (zh) * 2021-06-01 2021-08-17 广东工业大学 基于三维人脸重构和视频关键帧优化的合成视频生成方法
CN116312612B (zh) * 2023-02-02 2024-04-16 北京甲板智慧科技有限公司 基于深度学习的音频处理方法和装置
CN116152447B (zh) * 2023-04-21 2023-09-26 科大讯飞股份有限公司 一种人脸建模方法、装置、电子设备及存储介质
CN118172452B (zh) * 2024-05-15 2024-08-27 广东工业大学 一种基于时间相关性的头部动画生成方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1466104A (zh) * 2002-07-03 2004-01-07 中国科学院计算技术研究所 基于统计与规则结合的语音驱动人脸动画方法
CN1860504A (zh) * 2003-09-30 2006-11-08 皇家飞利浦电子股份有限公司 用于视听内容合成的系统和方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1466104A (zh) * 2002-07-03 2004-01-07 中国科学院计算技术研究所 基于统计与规则结合的语音驱动人脸动画方法
CN1860504A (zh) * 2003-09-30 2006-11-08 皇家飞利浦电子股份有限公司 用于视听内容合成的系统和方法

Non-Patent Citations (13)

* Cited by examiner, † Cited by third party
Title
Audio/visual mapping with cross-modal hidden markov models;Shengli Fu等;《IEEE Transactions on Multimedia》;20050430;第7卷(第2期);第243-252页 *
Building highly realistic facial modeling and animation:a survey;Nicolaos Ersotelos等;《VISUAL COMPUTER》;20080131;第24卷(第1期);第13-30页 *
Continuous probabilistic transform for voice conversion;Yannis Stylianou等;《IEEE Transactions on Speech and Audio Processing》;19980331;第6卷(第2期);第131-142页 *
Direct,Modular and Hybrid Audio to Visual Speech Conversion methods - a Comparative Study;Gyorgy Takacs;《10th Interspeech 2009 Conference》;20090910;第2215-2218页 *
IMPROVED MINIMUM CONVERTED TRAJECTORY ERROR TRAINING FOR REAL-TIME SPEECH-TO-LIPS CONVERSION;Wei Han等;《IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP 2012)》;20120330;第4513页第1节第2、5段,第4514页第2.1节、2.2节,第4515页第3.1节,图1 *
Lips2008:Visual speech synthesis challenge;Barry-John Theobald等;《9th Annual Conference of the International-Speech-Communication-Association(INTERSPEECH 2008)》;20080926;第2310-2313页 *
Performance Driven Facial Animation using Blendshape Interpolation;Erika Chuang等;《http://graphics.stanford.edu/~echuang/face/report2.pdf》;20021231;第2页第1-2段,倒数第2段,第3页第1段,第3-4页第3节,图1 *
Realtime performance-based facial animation;Thibaut Weise等;《ACM TRANSACTIONS ON GRAPHICS》;20110731;第30卷(第4期);全文 *
Voice conversion based on maximumlikelihood estimation of spectral parameter trajectory;Tomoki Toda等;《IEEE Transactions on Audio Speech and Language Processing》;20071130;第15卷(第8期);第2222-2235页 *
人脸动画中语音可视化算法研究进展;周东生等;《计算机工程与应用》;20070321;第43卷(第9期);第36-39页 *
基于主动形状模型的人脸特征提取技术研究与应用;谢琛;《万方学位论文数据库》;20110215;全文 *
改进的基于主成分分析的三维人脸形状建模;吴昊等;《光学技术》;20080924;第34卷(第4期);第568-571页 *
语音驱动人脸动画中语音参数的提取技术;陈新等;《计算机工程》;20070320;第33卷(第6期);第225-227页 *

Also Published As

Publication number Publication date
CN103279970A (zh) 2013-09-04

Similar Documents

Publication Publication Date Title
CN103279970B (zh) 一种实时的语音驱动人脸动画的方法
CN103218841B (zh) 结合生理模型和数据驱动模型的三维发音器官动画方法
Fan et al. Photo-real talking head with deep bidirectional LSTM
Fan et al. A deep bidirectional LSTM approach for video-realistic talking head
CN103258340B (zh) 富有情感表达能力的三维可视化中文普通话发音词典的发音方法
CN103473801B (zh) 一种基于单摄像头与运动捕捉数据的人脸表情编辑方法
CN105551071A (zh) 一种文本语音驱动的人脸动画生成方法及系统
Wang et al. Phoneme-level articulatory animation in pronunciation training
WO2021128173A1 (zh) 一种语音信号驱动的脸部动画生成方法
CN111243065B (zh) 一种语音信号驱动的脸部动画生成方法
CN103778661B (zh) 一种生成说话人三维运动模型的方法、系统及计算机
CN105243375A (zh) 一种动作特征提取方法及装置
CN102820030A (zh) 发音器官可视语音合成系统
CN1952850A (zh) 基于动态基元选取的语音驱动三维人脸动画方法
Yu et al. Data-driven 3D visual pronunciation of Chinese IPA for language learning
Xu et al. Development of a 3D tongue motion visualization platform based on ultrasound image sequences
Lin et al. A face robot for autonomous simplified musical notation reading and singing
CN113160366A (zh) 一种3d人脸动画合成方法及系统
Yu et al. From talking head to singing head: a significant enhancement for more natural human computer interaction
Jiang et al. Speech driven photo realistic facial animation based on an articulatory DBN model and AAM features
Lan et al. Low level descriptors based DBLSTM bottleneck feature for speech driven talking avatar
Dabbaghchian et al. Using a biomechanical model and articulatory data for the numerical production of vowels
Iribe et al. Improvement of animated articulatory gesture extracted from speech for pronunciation training
Filntisis et al. Photorealistic adaptation and interpolation of facial expressions using HMMS and AAMS for audio-visual speech synthesis
CN108922627A (zh) 基于数据驱动的血流仿真方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161228