CN103279970A - 一种实时的语音驱动人脸动画的方法 - Google Patents

一种实时的语音驱动人脸动画的方法 Download PDF

Info

Publication number
CN103279970A
CN103279970A CN201310173929XA CN201310173929A CN103279970A CN 103279970 A CN103279970 A CN 103279970A CN 201310173929X A CN201310173929X A CN 201310173929XA CN 201310173929 A CN201310173929 A CN 201310173929A CN 103279970 A CN103279970 A CN 103279970A
Authority
CN
China
Prior art keywords
parameter
human face
vision
speech
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310173929XA
Other languages
English (en)
Other versions
CN103279970B (zh
Inventor
汪增福
罗常伟
於俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201310173929.XA priority Critical patent/CN103279970B/zh
Publication of CN103279970A publication Critical patent/CN103279970A/zh
Application granted granted Critical
Publication of CN103279970B publication Critical patent/CN103279970B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本发明提供一种实时的语音驱动人脸动画的方法,该方法有如下特性:(1)基于真实捕捉的语音参数和视觉参数,采用高斯混合模型和马尔可夫模型结合的方法实现语音参数到视觉参数的转换;(2)实现了语音参数到视觉参数的直接转换,既考虑了过去视觉特征对当前视觉特征的影响,又不依赖于语音识别系统提供的音素序列作为转换的前提;(3)能够满足实时性要求以及非实时性要求;(4)能够产生高真实感的人脸动画,也能产生具有动漫效果的人脸动画;(5)可以控制脸部表情。本发明客观性能测试和主观互动测试验证了其在网上面对面交流、虚拟主持人、电脑游戏等方面应用的有效性。

Description

一种实时的语音驱动人脸动画的方法
技术领域
本发明涉及语音处理、图像处理、语音可视化、人脸动画技术领域,具体是一种能合成实时的语音驱动人脸动画的方法。
背景技术
人脸动画在多模态人机交互、电影制作、电脑游戏、视频会议、虚拟主持人等方面得到了越来越多的应用。基于视频驱动的人脸动画方法具有较好的合成效果,但这种方法要求合成动画时,必须在特定的场合使用特定的设备来捕捉人脸运动,耗时长,代价高,普通用户无法使用。基于文本驱动的人脸动画方法需要借助语音合成系统,目前合成的语音依然缺乏自然语音的韵律和情感。因此,使用真实的语音来驱动人脸动画,是当前研究的热点之一。现有的语音驱动人脸动画方法,大部分都采用隐马尔可夫模型(Hidden Markov Model)实现语音参数到视觉参数的转换,这个过程需要利用语音识别技术来获取语音信号对应的音素序列,合成的人脸动画严重依赖于语音识别的结果,同时也不能满足实时性的要求。
发明内容
本发明的目的在于:克服背景技术的不足,提供一种实时的语音驱动人脸动画的方法。
本发明采用的技术方案为:实时的语音驱动人脸动画的方法,主要步骤有:获取语音参数及其对应的视觉参数,构造训练数据集;语音参数转换为视觉参数的建模及模型的训练;构造人脸模型对应的一组blendshape;视觉参数到人脸动画参数的转换,具体步骤如下:
步骤1、获取语音参数和视觉参数,构造训练数据集;
让一名表演者朗读一组中文、英文或者其他任何语种的句子,在表演者脸部正前方其进行录音录像,录音录像完成后,再对声音文件和视频文件进行处理。通过跟踪视频中的人脸特征点,得到特征点的位置,每一帧的特征点组成一个形状向量s,对所有视频帧的形状向量进行主成份分析,可得
Figure BDA00003175465100011
参数b就是视觉参数,对音频文件中的语音数据提取美尔复倒谱系数MFCC,作为语音参数,最后根据时间相等的关系对视觉参数和语音参数进行匹配,通过上述处理即可获得语音参数和视觉参数的训练数据集;
步骤2、语音参数转换为视觉参数的建模及模型的训练;
使用高斯混合模型和马尔可夫模型相结合的方法建立语音参数与视觉参数之间的关系,不仅利用了当前的语音参数,也考虑了过去视觉特征对当前视觉特征的影响,由于在实际转换过程中,无法获取到过去视觉参数的真实值,因此该方法利用一个主转换和辅助转换相结合的框架,主转换是利用当前语音参数和过去视觉参数的状态估计当前的视觉参数,辅助转换是在不引起误差积累的前提下,利用过去的语音参数估计过去的视觉参数的状态,得到的过去的视觉参数的状态提供给主转换使用;
辅助转换能够采用高斯混合模型的方法或线性变换的方法或神经网络的方法中的任何一种,主转换利用高斯混合模型模拟马尔可夫模型的转移概率密度函数,高斯混合模型的训练方法是,利用基于最大似然估计的EM算法估计高斯混合模型的参数,再使用基于最小转换误差的训练方法对模型参数进行进一步的优化;具体过程是,将EM算法估计到的高斯混合模型的参数作为初始值,利用概率下降法不断更新模型参数;
步骤3、构造人脸模型对应的一组blendshape;
在所有的形状向量s中,自动选取M个关键形状向量,将其作为一组二维的关键形状向量基{s},这些向量基组成的矩阵为Q,以这些关键形状向量及其对应的人脸视频图像为依据,为人脸模型设计一组与关键形状向量相对应的blendshape;这些blendshape可以是二维的,也可以是三维的,如果要合成高真实感的三维人脸动画,则使用真实的人脸照片经过三维重建和纹理映射得到blendshape,如果要合成卡通人脸动画,能够调整每个blendshape使其具有卡通的特点;
步骤4、视觉参数到人脸动画参数的转换;
人脸动画参数用向量ω表示,对于一个形状向量s,能够表示为
Figure BDA00003175465100021
也能够近似为s=Q.ω,利用最小二乘法,能够由b计算得到ω,人脸动画参数ω对blendshape进行插值,即可得语音驱动的人脸动画,在此基础上,还能够指定人脸表情,通过将当前的人脸形状与指定的人脸表情进行插值,能够使人脸模型拥有相应的表情。
其中,利用高斯混合模型以及马尔可夫模型建立语音参数到视觉参数的映射关系,实现语音参数到视觉参数的直接转换,避免了对语音识别系统的依赖,同时采用基于最小转换误差的训练方法对模型进行训练,使转换结果更为精确。
其中,利用真实捕捉的语音参数和视觉参数,能够获得高真实感的语音驱动人脸动画。
其中,通过调整人脸模型的blendshape,能够合成具有动漫效果的人脸动画。
其中,通过指定脸部表情,提高了用户对人脸动画的控制能力。
本发明的原理在于:
本发明建立语音参数和视觉参数的映射关系,将语音参数直接转换为视觉参数。建立视觉参数和人脸动画参数的转换关系,得到的人脸动画参数用来驱动人脸模型。
建立语音参数和视觉参数的映射关系的具体方案是,使用真实捕捉的语音参数和视觉参数,利用高斯混合模型和马尔可夫模型模拟语音参数和视觉参数之间的映射关系,使用最小均方误差估计的方法来估计语音参数对应的视觉参数。
建立视觉参数和人脸动画参数的转换关系的具体方案是,利用一组blendshape以及位移相等的关系,将视觉参数转换为人脸动画参数。
本发明与现有技术相比的优点在于:
(1)、利用高斯混合模型和马尔可夫模型相结合的方法建立语音参数与视觉参数之间的关系,不仅利用了当前的语音参数,也考虑了过去视觉特征对当前视觉特征的影响,使建立的关系更为准确。
(2)、实现了语音参数到视觉参数之间的直接转换,而不必依赖于语音识别技术提供的音素序列。
(3)、改进了基于最大似然估计的模型训练方法,利用基于最小转换误差的训练方法对模型参数进行优化,使得语音参数到视觉参数的转换更为精确。
(4)、能够达到实时性要求。
(5)、可以合成高真实感的人脸动画,也能合成具有动漫效果的人脸动画。
附图说明
图1为本发明的合成实时的语音驱动人脸动画的主要步骤。
图2为语音参数转换为视觉参数的示意图。左侧图为已有的转换方法,已有的方法没有考虑各帧之间的相关性。本发明的方法如右侧图示,不仅利用了当前的语音参数,也考虑了过去视觉特征对当前视觉特征的影响。
图3为语音参数转换为视觉参数所使用的主转换和辅助转换相结合的框架。
图4为与2D关键形状向量对应的人脸模型的3D blendshape示例。
图5为本发明合成的语音驱动人脸动画的部分截图。
具体实施方式
下面结合附图以及具体实施方式进一步说明本发明。
本发明是一种能合成实时的语音驱动人脸动画的方法。主要步骤有:获取语音参数及其对应的视觉参数,构造训练数据集;语音参数转换为视觉参数的建模及模型的训练;构造人脸模型对应的一组blendshape;视觉参数到人脸动画参数的转换,如图1所示。
1、获取语音参数和视觉参数,构造训练数据集
让一名表演者朗读一组句子,所选取的句子要有较好的音素覆盖范围。朗读时头部姿态保持不变,在表演者脸部正前方其进行录音录像,录音录像完成后,再对声音文件和视频文件进行处理。对视频中的正面人脸图像,使用主动形状模型(active shape model)的方法跟踪人脸的N个特征点,这N个特征点的坐标组成形状向量s=(x1,y1,...,xN,yN)。对所有帧的形状向量进行主成分分析,得到P为协方差矩阵的特征向量构成的矩阵,b为主成分系数,即视觉参数,每一帧图像对应的视觉参数由如计算得到。
对音频文件中的语音数据提取美尔复倒谱系数MFCC作为语音参数。人类听觉系统所感知到的声音的频率FMel(Mel)与该声音的物理频率FHz(Hz)的关系为: F Mel = 1127.0 ln ( 1 + F Hz 700 ) , MFCC的计算过程如下:
(1)对语音分帧处理,然后对每帧时域信号用FFT计算其线性频谱。
(2)将频谱的模通过Mel滤波器组,即在每个三角滤波器内对频谱的模加权取和,然后对输出向量求对数,最后进行DCT变换,得到MFCC特征向量。
得到视觉参数和语音参数后,根据时间相等的关系对视觉参数和语音参数进行匹配。通过上述处理即可获得语音参数和视觉参数的训练数据集。
2、语音参数转换为视觉参数的建模及模型的训练
使用高斯混合模型和马尔可夫模型相结合的方法建立语音参数与视觉参数之间的关系,不仅利用了当前的语音参数,也考虑了过去视觉特征对当前视觉特征的影响,如图2所示,语音参数转换为视觉参数,传统的方法如(a)图。没有考虑各帧之间的相关性,本发明的方法如(b)图,不仅利用了当前的语音参数,也考虑了过去视觉特征对当前视觉特征的影响。由于在实际转换过程中,无法获取到过去视觉参数的真实值,因此我们提出了一个主转换和辅助转换相结合的框架,主转换是利用当前语音参数和过去视觉参数的状态估计当前的视觉参数。辅助转换是在不引起误差积累的前提下,利用过去的语音参数估计过去的视觉参数的状态,得到的过去的视觉参数的状态提供给主转换使用,语音参数转换为视觉参数所使用的主转换和辅助转换相结合的框架如图3所示。具体过程如下:
主转换利用高斯混合模型模拟当前语音参数向量xt、当前视觉参数向量yt以及过去的视觉特征的状态三者的联合概率密度,即:
P ( Z t | λ ( Z ) ) = Σ m = 1 M w m · N ( Z t ; μ m ( Z ) , Σ m ( Z ) )
其中,Zt=[Xt;yt],λ(Z)为高斯混合模型的参数集。
给定xt,则yt的转移概率密度为:
P ( y t | y t p , x t , λ ( Z ) ) = Σ m = 1 M P ( m | X t λ ( Z ) ) P ( y t | X t , m , λ ( Z ) )
过去的视觉参数的状态计算如下:
y t p = 1 L Σ i = 1 L y ^ t - i , a
L为滑动平均窗口的长度,
Figure BDA00003175465100055
为辅助转换输出的视觉参数。
使用最小均方误差估计,即可得到当前视觉特征参数的估计为:
y ^ t = E [ y t | X t ]
= Σ m = 1 M p ( m | X t , λ ( Z ) ) E m , t ( y )
其中
Figure BDA00003175465100058
μm和Σm分别第m个高斯成分的均值和协方差矩阵。
高斯混合模型的训练方法是,利用基于最大似然估计的EM算法估计高斯混合模型的参数,再使用基于最小转换误差的训练方法对模型参数进行进一步的优化。具体过程是如下:
定义转换误差为
Figure BDA00003175465100059
给定其中一个训练样本,使用概率下降法更新模型参数,更新公式为:
λ ( n + 1 ) = λ ( n ) - ϵ n ∂ D ( y ^ n , y n ) ∂ λ | λ = λ ( n )
= λ ( n ) - 2 ϵ n ( y ^ n - y n ) T ∂ y ^ n ∂ λ | λ = λ ( n )
对于均值,其导数为:
∂ y ^ n ∂ μ m ( y ) T = p ( m | X t , λ ( Z ) ) . I H × H
IH×H为单位矩阵
对于协方差矩阵,其导数为:
∂ y ^ n ∂ σ m , i = p ( m | X t , λ ( Z ) ) . B m , i
其中 B m , i = [ O ( i - 1 ) × G ; b m T ; O ( H - i ) × G ] , b m = Σ m ( XX ) - 1 ( X t - μ m ( X ) ) , O(i-1)×G和O(H-i)×G为零矩阵。σm,i为协方差矩阵的行向量。
实际训练时,先将EM算法估计到的高斯混合模型的参数作为初始值,再利用上述方法不断更新模型参数。
本发明使用传统的基于高斯混合模型的转换方法作为辅助转换。
3、构造人脸模型对应的一组blendshape
在所有的形状向量s中,自动选取M个关键形状向量,将其作为一组二维的关键形状向量基{s},这些向量基组成的矩阵为Q,以这些关键形状向量及其对应的人脸视频图像为依据,为人脸模型设计一组与关键形状向量相对应的blendshape,图4显示了与2D关键形状向量对应的人脸模型的3D blendshape。嘴部发音时,语音通常只影响下部分人脸,第三幅图给出了下部分人脸模型对应的blendshape的正面视图。这些blendshape可以是二维的,也可以是三维的。如果要合成高真实感的三维人脸动画,则使用真实的人脸照片经过三维重建和纹理映射得到blendshape,如果要合成卡通人脸动画,可以调整每个blendshape使其具有卡通的特点。
4、视觉参数到人脸动画参数的转换
人脸动画参数用向量ω表示,对于一个形状向量s,可以表示为
Figure BDA00003175465100061
也可以由关键形状向量近似为s=Q.ω`,已知b,求解ω的过程等价于优化如下目标函数:
J = arg min | | s ‾ + P · b - Q · ω ` | |
利用最小二乘法,可以由b计算得到ω。ω为二维形状向量对应的权值向量,通过使用相同的权值ω对三维人脸模型的blendshape进行插值,即可得语音驱动的人脸动画,如图5所示。在此基础上,还可以指定人脸表情,通过将当前的人脸形状与指定的人脸表情进行插值,可使人脸模型拥有相应的表情。
本发明一种实时的语音驱动人脸动画的方法,通过实时的语音参数到视觉参数的转换,实现由语音直接驱动人脸动画。利用高斯混合模型以及马尔可夫模型建立语音参数到视觉参数的映射关系,实现语音参数到视觉参数的直接转换,避免了对语音识别系统的依赖,同时采用基于最小转换误差的训练方法对模型进行训练,使转换结果更为精确。在语音参数到视觉参数的转换过程中,不仅利用了当前的语音参数,也考虑了过去视觉特征对当前视觉特征的影响。由于在实际转换过程中,无法获取到过去视觉参数的真实值,因此提出了一个主转换和辅助转换相结合的框架,主转换是利用当前语音参数和过去视觉参数的状态估计当前的视觉参数。辅助转换是在不引起误差积累的前提下,利用过去的语音参数估计过去的视觉参数的状态,得到的过去的视觉参数的状态提供给主转换使用。利用真实捕捉的语音参数和视觉参数,可以获得高真实感的语音驱动人脸动画。通过修改关键帧,可以合成具有动漫效果的人脸动画。可以指定人脸的表情,提高了用户对人脸动画的控制能力。
本发明未详细阐述的部分属于本领域公知技术。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (5)

1.一种实时的语音驱动人脸动画的方法,其特征在于,主要步骤有:获取语音参数及其对应的视觉参数,构造训练数据集;语音参数转换为视觉参数的建模及模型的训练;构造人脸模型对应的一组blendshape;视觉参数到人脸动画参数的转换。具体步骤如下:
步骤1、获取语音参数和视觉参数,构造训练数据集;
让一名表演者朗读一组中文、英文或者其他任何语种的句子,在表演者脸部正前方其进行录音录像,录音录像完成后,再对声音文件和视频文件进行处理,对视频中的正面人脸图像,利用计算机视觉技术跟踪人脸特征点,每一帧的特征点组成一个形状向量s,对所有视频帧的形状向量进行主成份分析,可得
Figure FDA00003175465000011
参数b就是视觉参数,P为协方差矩阵的特征向量构成的矩阵。对音频文件中的语音数据提取美尔复倒谱系数MFCC,作为语音参数,最后根据时间相等的关系对视觉参数和语音参数进行匹配,通过上述处理即可获得语音参数和视觉参数的训练数据集;
步骤2、语音参数转换为视觉参数的建模及模型的训练;
使用高斯混合模型和马尔可夫模型相结合的方法建立语音参数与视觉参数之间的关系,不仅利用了当前的语音参数,也考虑了过去视觉特征对当前视觉特征的影响,由于在实际转换过程中,无法获取到过去视觉参数的真实值,因此该方法利用一个主转换和辅助转换相结合的框架,主转换是利用当前语音参数和过去视觉参数的状态估计当前的视觉参数,辅助转换是在不引起误差积累的前提下,利用过去的语音参数估计过去的视觉参数的状态,得到的过去的视觉参数的状态提供给主转换使用;
辅助转换能够采用高斯混合模型的方法或线性变换的方法或神经网络的方法中的任何一种,主转换利用高斯混合模型模拟马尔可夫模型的转移概率密度函数,高斯混合模型的训练方法是,利用基于最大似然估计的EM算法估计高斯混合模型的参数,再使用基于最小转换误差的训练方法对模型参数进行进一步的优化;具体过程是,将EM算法估计到的高斯混合模型的参数作为初始值,利用概率下降法不断更新模型参数;
步骤3、构造人脸模型对应的一组blendshape;
在所有的形状向量s中,自动选取M个关键形状向量,将其作为一组二维的关键形状向量基{s},这些向量基组成的矩阵为Q,以这些关键形状向量及其对应的人脸视频图像为依据,为人脸模型设计一组与关键形状向量相对应的blendshape,这些blendshape可以是二维的,也可以是三维的,如果要合成高真实感的三维人脸动画,则使用真实的人脸照片经过三维重建和纹理映射得到blendshape,如果要合成卡通人脸动画,能够调整每个blendshape使其具有卡通的特点;
步骤4、视觉参数到人脸动画参数的转换;
人脸动画参数用向量ω表示,对于一个形状向量s,能够表示为
Figure FDA00003175465000021
也能够近似为s=Q·ω,利用最小二乘法,能够由b计算得到ω,使用人脸动画参数ω对blendshape进行插值,即可得语音驱动的人脸动画,在此基础上,还能够指定人脸表情,通过将当前的人脸形状与指定的人脸表情进行插值,能够使人脸模型拥有相应的表情。
2.根据权利要求1所述的方法,其特征在于,利用高斯混合模型以及马尔可夫模型建立语音参数到视觉参数的映射关系,实现语音参数到视觉参数的直接转换,避免了对语音识别系统的依赖,同时采用基于最小转换误差的训练方法对模型进行训练,使转换结果更为精确。
3.根据权利要求1所述的方法,其特征在于,利用真实捕捉的语音参数和视觉参数,能够获得高真实感的语音驱动人脸动画。
4.根据权利要求1所述的方法,其特征在于,通过调整人脸模型的blendshape,可以合成具有动漫效果的人脸动画。
5.根据权利要求1所述的方法,其特征在于,能够指定人脸的表情,提高了用户对人脸动画的控制能力。
CN201310173929.XA 2013-05-10 2013-05-10 一种实时的语音驱动人脸动画的方法 Expired - Fee Related CN103279970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310173929.XA CN103279970B (zh) 2013-05-10 2013-05-10 一种实时的语音驱动人脸动画的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310173929.XA CN103279970B (zh) 2013-05-10 2013-05-10 一种实时的语音驱动人脸动画的方法

Publications (2)

Publication Number Publication Date
CN103279970A true CN103279970A (zh) 2013-09-04
CN103279970B CN103279970B (zh) 2016-12-28

Family

ID=49062477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310173929.XA Expired - Fee Related CN103279970B (zh) 2013-05-10 2013-05-10 一种实时的语音驱动人脸动画的方法

Country Status (1)

Country Link
CN (1) CN103279970B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105551071A (zh) * 2015-12-02 2016-05-04 中国科学院计算技术研究所 一种文本语音驱动的人脸动画生成方法及系统
CN105957129A (zh) * 2016-04-27 2016-09-21 上海河马动画设计股份有限公司 一种基于语音驱动及图像识别的影视动画制作方法
CN106327555A (zh) * 2016-08-24 2017-01-11 网易(杭州)网络有限公司 一种获得唇形动画的方法及装置
CN106447748A (zh) * 2016-09-14 2017-02-22 厦门幻世网络科技有限公司 一种用于生成动画数据的方法和装置
CN106485774A (zh) * 2016-12-30 2017-03-08 当家移动绿色互联网技术集团有限公司 基于语音实时驱动人物模型的表情和姿态的方法
CN107901693A (zh) * 2017-11-14 2018-04-13 上海电机学院 一种基于声音mfcc特征的交互式绘画方法和装置
CN108364346A (zh) * 2018-03-08 2018-08-03 腾讯科技(深圳)有限公司 构建三维人脸模型的方法、装置和计算机可读存储介质
CN108734765A (zh) * 2018-05-21 2018-11-02 瞪羚实训(北京)科技有限公司 一种虚拟主持人的显示方法和系统、存储介质
CN108962216A (zh) * 2018-06-12 2018-12-07 北京市商汤科技开发有限公司 一种说话视频的处理方法及装置、设备和存储介质
CN110009716A (zh) * 2019-03-28 2019-07-12 网易(杭州)网络有限公司 面部表情的生成方法、装置、电子设备及存储介质
CN110047121A (zh) * 2019-03-20 2019-07-23 北京字节跳动网络技术有限公司 端到端的动画生成方法、装置及电子设备
CN110286756A (zh) * 2019-06-13 2019-09-27 深圳追一科技有限公司 视频处理方法、装置、系统、终端设备及存储介质
CN110413841A (zh) * 2019-06-13 2019-11-05 深圳追一科技有限公司 多态交互方法、装置、系统、电子设备及存储介质
CN110446000A (zh) * 2019-08-07 2019-11-12 三星电子(中国)研发中心 一种生成对话人物形象的方法和装置
CN110599573A (zh) * 2019-09-03 2019-12-20 电子科技大学 一种基于单目相机的人脸实时交互动画的实现方法
CN110677598A (zh) * 2019-09-18 2020-01-10 北京市商汤科技开发有限公司 视频生成方法、装置、电子设备和计算机存储介质
CN110751708A (zh) * 2019-10-21 2020-02-04 北京中科深智科技有限公司 一种实时的语音驱动人脸动画的方法和系统
CN110809090A (zh) * 2019-10-31 2020-02-18 Oppo广东移动通信有限公司 通话控制方法及相关产品
CN110874557A (zh) * 2018-09-03 2020-03-10 阿里巴巴集团控股有限公司 一种语音驱动虚拟人脸的视频生成方法以及装置
CN111243626A (zh) * 2019-12-30 2020-06-05 清华大学 一种说话视频生成方法及系统
WO2021128173A1 (zh) * 2019-12-26 2021-07-01 浙江大学 一种语音信号驱动的脸部动画生成方法
CN113269872A (zh) * 2021-06-01 2021-08-17 广东工业大学 基于三维人脸重构和视频关键帧优化的合成视频生成方法
CN113379874A (zh) * 2020-02-25 2021-09-10 武汉Tcl集团工业研究院有限公司 一种人脸动画生成方法、智能终端及存储介质
CN116152447A (zh) * 2023-04-21 2023-05-23 科大讯飞股份有限公司 一种人脸建模方法、装置、电子设备及存储介质
CN116312612A (zh) * 2023-02-02 2023-06-23 北京甲板智慧科技有限公司 基于深度学习的音频处理方法和装置
CN118172452A (zh) * 2024-05-15 2024-06-11 广东工业大学 一种基于时间相关性的头部动画生成方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1466104A (zh) * 2002-07-03 2004-01-07 中国科学院计算技术研究所 基于统计与规则结合的语音驱动人脸动画方法
CN1860504A (zh) * 2003-09-30 2006-11-08 皇家飞利浦电子股份有限公司 用于视听内容合成的系统和方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1466104A (zh) * 2002-07-03 2004-01-07 中国科学院计算技术研究所 基于统计与规则结合的语音驱动人脸动画方法
CN1860504A (zh) * 2003-09-30 2006-11-08 皇家飞利浦电子股份有限公司 用于视听内容合成的系统和方法

Non-Patent Citations (13)

* Cited by examiner, † Cited by third party
Title
BARRY-JOHN THEOBALD等: "Lips2008:Visual speech synthesis challenge", 《9TH ANNUAL CONFERENCE OF THE INTERNATIONAL-SPEECH-COMMUNICATION-ASSOCIATION(INTERSPEECH 2008)》, 26 September 2008 (2008-09-26), pages 2310 - 2313 *
ERIKA CHUANG等: "Performance Driven Facial Animation using Blendshape Interpolation", 《HTTP://GRAPHICS.STANFORD.EDU/~ECHUANG/FACE/REPORT2.PDF》, 31 December 2002 (2002-12-31) *
GYORGY TAKACS: "Direct,Modular and Hybrid Audio to Visual Speech Conversion methods - a Comparative Study", 《10TH INTERSPEECH 2009 CONFERENCE》, 10 September 2009 (2009-09-10), pages 2215 - 2218 *
NICOLAOS ERSOTELOS等: "Building highly realistic facial modeling and animation:a survey", 《VISUAL COMPUTER》, vol. 24, no. 1, 31 January 2008 (2008-01-31), pages 13 - 30, XP019562394, DOI: doi:10.1007/s00371-007-0175-y *
SHENGLI FU等: "Audio/visual mapping with cross-modal hidden markov models", 《IEEE TRANSACTIONS ON MULTIMEDIA》, vol. 7, no. 2, 30 April 2005 (2005-04-30), pages 243 - 252, XP011128483, DOI: doi:10.1109/TMM.2005.843341 *
THIBAUT WEISE等: "Realtime performance-based facial animation", 《ACM TRANSACTIONS ON GRAPHICS》, vol. 30, no. 4, 31 July 2011 (2011-07-31), XP002728210, DOI: doi:10.1145/2010324.1964972 *
TOMOKI TODA等: "Voice conversion based on maximumlikelihood estimation of spectral parameter trajectory", 《IEEE TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING》, vol. 15, no. 8, 30 November 2007 (2007-11-30), pages 2222 - 2235, XP011192987, DOI: doi:10.1109/TASL.2007.907344 *
WEI HAN等: "IMPROVED MINIMUM CONVERTED TRAJECTORY ERROR TRAINING FOR REAL-TIME SPEECH-TO-LIPS CONVERSION", 《IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS,SPEECH AND SIGNAL PROCESSING(ICASSP 2012)》, 30 March 2012 (2012-03-30), pages 4513 - 4516, XP032228157, DOI: doi:10.1109/ICASSP.2012.6288921 *
YANNIS STYLIANOU等: "Continuous probabilistic transform for voice conversion", 《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》, vol. 6, no. 2, 31 March 1998 (1998-03-31), pages 131 - 142, XP011054299 *
吴昊等: "改进的基于主成分分析的三维人脸形状建模", 《光学技术》, vol. 34, no. 4, 24 September 2008 (2008-09-24), pages 568 - 571 *
周东生等: "人脸动画中语音可视化算法研究进展", 《计算机工程与应用》, vol. 43, no. 9, 21 March 2007 (2007-03-21), pages 36 - 39 *
谢琛: "基于主动形状模型的人脸特征提取技术研究与应用", 《万方学位论文数据库》, 15 February 2011 (2011-02-15) *
陈新等: "语音驱动人脸动画中语音参数的提取技术", 《计算机工程》, vol. 33, no. 6, 20 March 2007 (2007-03-20), pages 225 - 227 *

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105551071B (zh) * 2015-12-02 2018-08-10 中国科学院计算技术研究所 一种文本语音驱动的人脸动画生成方法及系统
CN105551071A (zh) * 2015-12-02 2016-05-04 中国科学院计算技术研究所 一种文本语音驱动的人脸动画生成方法及系统
CN105957129B (zh) * 2016-04-27 2019-08-30 上海河马动画设计股份有限公司 一种基于语音驱动及图像识别的影视动画制作方法
CN105957129A (zh) * 2016-04-27 2016-09-21 上海河马动画设计股份有限公司 一种基于语音驱动及图像识别的影视动画制作方法
CN106327555A (zh) * 2016-08-24 2017-01-11 网易(杭州)网络有限公司 一种获得唇形动画的方法及装置
CN106447748A (zh) * 2016-09-14 2017-02-22 厦门幻世网络科技有限公司 一种用于生成动画数据的方法和装置
CN106447748B (zh) * 2016-09-14 2019-09-24 厦门黑镜科技有限公司 一种用于生成动画数据的方法和装置
CN106485774A (zh) * 2016-12-30 2017-03-08 当家移动绿色互联网技术集团有限公司 基于语音实时驱动人物模型的表情和姿态的方法
CN107901693A (zh) * 2017-11-14 2018-04-13 上海电机学院 一种基于声音mfcc特征的交互式绘画方法和装置
WO2019095801A1 (zh) * 2017-11-14 2019-05-23 上海电机学院 一种基于声音mfcc特征的交互式绘画方法和装置
CN108364346A (zh) * 2018-03-08 2018-08-03 腾讯科技(深圳)有限公司 构建三维人脸模型的方法、装置和计算机可读存储介质
CN108364346B (zh) * 2018-03-08 2023-05-12 腾讯科技(深圳)有限公司 构建三维人脸模型的方法、装置和计算机可读存储介质
CN108734765A (zh) * 2018-05-21 2018-11-02 瞪羚实训(北京)科技有限公司 一种虚拟主持人的显示方法和系统、存储介质
CN108962216A (zh) * 2018-06-12 2018-12-07 北京市商汤科技开发有限公司 一种说话视频的处理方法及装置、设备和存储介质
CN110874557B (zh) * 2018-09-03 2023-06-16 阿里巴巴集团控股有限公司 一种语音驱动虚拟人脸的视频生成方法以及装置
CN110874557A (zh) * 2018-09-03 2020-03-10 阿里巴巴集团控股有限公司 一种语音驱动虚拟人脸的视频生成方法以及装置
CN110047121A (zh) * 2019-03-20 2019-07-23 北京字节跳动网络技术有限公司 端到端的动画生成方法、装置及电子设备
CN110047121B (zh) * 2019-03-20 2023-08-11 北京字节跳动网络技术有限公司 端到端的动画生成方法、装置及电子设备
CN110009716B (zh) * 2019-03-28 2023-09-26 网易(杭州)网络有限公司 面部表情的生成方法、装置、电子设备及存储介质
CN110009716A (zh) * 2019-03-28 2019-07-12 网易(杭州)网络有限公司 面部表情的生成方法、装置、电子设备及存储介质
CN110413841A (zh) * 2019-06-13 2019-11-05 深圳追一科技有限公司 多态交互方法、装置、系统、电子设备及存储介质
CN110286756A (zh) * 2019-06-13 2019-09-27 深圳追一科技有限公司 视频处理方法、装置、系统、终端设备及存储介质
CN110446000A (zh) * 2019-08-07 2019-11-12 三星电子(中国)研发中心 一种生成对话人物形象的方法和装置
CN110599573A (zh) * 2019-09-03 2019-12-20 电子科技大学 一种基于单目相机的人脸实时交互动画的实现方法
CN110677598A (zh) * 2019-09-18 2020-01-10 北京市商汤科技开发有限公司 视频生成方法、装置、电子设备和计算机存储介质
CN110677598B (zh) * 2019-09-18 2022-04-12 北京市商汤科技开发有限公司 视频生成方法、装置、电子设备和计算机存储介质
CN110751708A (zh) * 2019-10-21 2020-02-04 北京中科深智科技有限公司 一种实时的语音驱动人脸动画的方法和系统
CN110751708B (zh) * 2019-10-21 2021-03-19 北京中科深智科技有限公司 一种实时的语音驱动人脸动画的方法和系统
WO2021083125A1 (zh) * 2019-10-31 2021-05-06 Oppo广东移动通信有限公司 通话控制方法及相关产品
CN110809090A (zh) * 2019-10-31 2020-02-18 Oppo广东移动通信有限公司 通话控制方法及相关产品
WO2021128173A1 (zh) * 2019-12-26 2021-07-01 浙江大学 一种语音信号驱动的脸部动画生成方法
US11354841B2 (en) 2019-12-26 2022-06-07 Zhejiang University Speech-driven facial animation generation method
CN111243626B (zh) * 2019-12-30 2022-12-09 清华大学 一种说话视频生成方法及系统
CN111243626A (zh) * 2019-12-30 2020-06-05 清华大学 一种说话视频生成方法及系统
CN113379874B (zh) * 2020-02-25 2023-04-07 武汉Tcl集团工业研究院有限公司 一种人脸动画生成方法、智能终端及存储介质
CN113379874A (zh) * 2020-02-25 2021-09-10 武汉Tcl集团工业研究院有限公司 一种人脸动画生成方法、智能终端及存储介质
CN113269872A (zh) * 2021-06-01 2021-08-17 广东工业大学 基于三维人脸重构和视频关键帧优化的合成视频生成方法
CN116312612A (zh) * 2023-02-02 2023-06-23 北京甲板智慧科技有限公司 基于深度学习的音频处理方法和装置
CN116312612B (zh) * 2023-02-02 2024-04-16 北京甲板智慧科技有限公司 基于深度学习的音频处理方法和装置
CN116152447A (zh) * 2023-04-21 2023-05-23 科大讯飞股份有限公司 一种人脸建模方法、装置、电子设备及存储介质
CN116152447B (zh) * 2023-04-21 2023-09-26 科大讯飞股份有限公司 一种人脸建模方法、装置、电子设备及存储介质
CN118172452A (zh) * 2024-05-15 2024-06-11 广东工业大学 一种基于时间相关性的头部动画生成方法及装置
CN118172452B (zh) * 2024-05-15 2024-08-27 广东工业大学 一种基于时间相关性的头部动画生成方法及装置

Also Published As

Publication number Publication date
CN103279970B (zh) 2016-12-28

Similar Documents

Publication Publication Date Title
CN103279970A (zh) 一种实时的语音驱动人脸动画的方法
Fan et al. Photo-real talking head with deep bidirectional LSTM
Pham et al. End-to-end learning for 3d facial animation from speech
Fan et al. A deep bidirectional LSTM approach for video-realistic talking head
Hong et al. Real-time speech-driven face animation with expressions using neural networks
US11354841B2 (en) Speech-driven facial animation generation method
CN101964064B (zh) 一种人脸比对方法
CN112581569B (zh) 自适应情感表达的说话人面部动画生成方法及电子装置
CN103218841B (zh) 结合生理模型和数据驱动模型的三维发音器官动画方法
CN111243065B (zh) 一种语音信号驱动的脸部动画生成方法
CN112151030A (zh) 一种基于多模态的复杂场景语音识别方法和装置
Bozkurt et al. Multimodal analysis of speech and arm motion for prosody-driven synthesis of beat gestures
Choi et al. Hidden Markov model inversion for audio-to-visual conversion in an MPEG-4 facial animation system
Goto et al. Automatic face cloning and animation using real-time facial feature tracking and speech acquisition
CN1952850A (zh) 基于动态基元选取的语音驱动三维人脸动画方法
Xu et al. Development of a 3D tongue motion visualization platform based on ultrasound image sequences
Tang et al. Real-time conversion from a single 2D face image to a 3D text-driven emotive audio-visual avatar
CN108908353A (zh) 基于平滑约束逆向机械模型的机器人表情模仿方法及装置
Ben-Youssef et al. Speech driven talking head from estimated articulatory features
CN113160366A (zh) 一种3d人脸动画合成方法及系统
Jiang et al. Speech driven photo realistic facial animation based on an articulatory DBN model and AAM features
Lan et al. Low level descriptors based DBLSTM bottleneck feature for speech driven talking avatar
Filntisis et al. Photorealistic adaptation and interpolation of facial expressions using HMMS and AAMS for audio-visual speech synthesis
Wei et al. Mapping ultrasound-based articulatory images and vowel sounds with a deep neural network framework
Shih et al. Speech-driven talking face using embedded confusable system for real time mobile multimedia

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161228