CN101930619A - 基于协同过滤算法的实时语音驱动人脸唇部同步动画系统 - Google Patents

基于协同过滤算法的实时语音驱动人脸唇部同步动画系统 Download PDF

Info

Publication number
CN101930619A
CN101930619A CN2010102630977A CN201010263097A CN101930619A CN 101930619 A CN101930619 A CN 101930619A CN 2010102630977 A CN2010102630977 A CN 2010102630977A CN 201010263097 A CN201010263097 A CN 201010263097A CN 101930619 A CN101930619 A CN 101930619A
Authority
CN
China
Prior art keywords
human face
animation
parameter
voice
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010102630977A
Other languages
English (en)
Inventor
陶建华
穆凯辉
车建峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN2010102630977A priority Critical patent/CN101930619A/zh
Publication of CN101930619A publication Critical patent/CN101930619A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明是基于协同过滤算法的实时语音驱动人脸唇部同步动画系统,通过实时录入语音,使得人物头部模型做出与输入语音同步的唇部动画。系统包含有音视频编码模块,该模块对采集到的语音和人脸三维特征点运动信息分别进行Mel频率倒谱参数编码和“动态图像专家组”(MPEG-4)标准中的人脸动画参数编码,由音视频编码模块得到Mel频率倒谱参数和人脸动画参数多模态同步库;协同过滤模块使用协同过滤算法,由新输入语音的Mel频率倒谱参数编码结合Mel频率倒谱参数和人脸动画参数多模态同步库求出与语音同步的人脸动画参数;动画模块由人脸动画参数驱动人脸模型进行动画。本发明系统有较好的真实感,实时性以及更广泛的应用环境。

Description

基于协同过滤算法的实时语音驱动人脸唇部同步动画系统
技术领域
本发明涉及一种语音驱动人脸动画系统,具体地涉及基于协同过滤算法的实时语音驱动人脸唇部同步动画系统。
背景技术
和谐人机交互技术一直都是人们关注的对象,语音驱动的人脸唇部动画技术是其重要组成部分,它能够对一个人的声音进行处理,使之在合成的人脸头像上进行与语音同步的人脸唇部动画,其研究成果对人脸动画、人机对话等方向的发展具有重要的意义。而目前已有的大多数人脸语音同步唇部动画技术一般基于语音识别技术,这种技术必须首先进行语音识别,从得出的音素出发来形成相应的视位。视位是与语音的音素相对应的关键嘴型。连续的视位拼接起来即可形成人脸唇部动画。由于目前语音识别本身的识别率比较低,速度也比较慢。与之相比,直接从语音得到动画参数的方法会更加有效。
发明内容
为了解决现有技术问题,本发明的目的是采用基于样本的语音驱动唇部动画方法,能够实现连续语音帧到唇部动画帧的同步转换。其优点是能够在唇部动画时保留语音的时间和能量结构信息,唇部动画能很好体现原始语音的韵律变化。另外该系统易于在与MPEG-4兼容的头像模型间进行移植,可以进行男女声的语音驱动唇部动画;本发明的系统易于实现,录制的双模态语音动画数据库不需要人工标注。系统能根据算法产生库中不存在的动画参数,使得系统有着丰富的表现力;为此,本发明构建一种基于协同过滤算法的实时语音驱动人脸唇部同步动画系统。
为实现上述目的,本发明的一种基于协同过滤算法的实时语音驱动人脸唇部同步动画系统包括音视频编码模块、协同过滤模块和人脸动画模块,其中:
利用数字录音设备,实时地接收输入的语音信号,并实时地输出与语音同步的人脸唇部动画,在生成多模态同步库时不需要手工标注,可任意输入男女语音进行语音驱动的唇部动画;
在离线过程中,首先利用多模态数据采集设备同步地采集录制说话人在说话中语音和人脸三维特征点运动信息;音视频编码模块的输入端接收来自多模态数据采集设备采集到的语音和人脸三维特征点运动信息,对其中的语音信息和人脸三维特征点运动信息分别进行Mel频率倒谱参数(MFCC)编码和人脸动画参数(FAP)编码;在实时过程中,音视频编码模块的输入端接收来自数字录音设备实时录制的语音信息;音视频编码模块具有一输出端,在离线过程中输出MFCC-FAP多模态同步库;在实时过程中输出语音的Mel频率倒谱参数;
协同过滤模块与音视频编码模块连接,协同过滤模块输入端接收来自于音频编码模块生成的Mel频率倒谱参数、音视频编码模块生成Mel频率倒谱参数和人脸动画参数多模态同步库中的多模态数据;协同过滤模块具有一输出端输出使用协同过滤算法实时生成与输入语音同步的人脸动画参数;
人脸动画模块与协同过滤模块连接,人脸动画模块输入端接收来自于协同过滤模块生成的人脸动画参数,将这些人脸动画参数转化成人脸模型的运动信息;人脸动画模块具有一输出端输出人脸动画参数,并由人脸动画参数驱动二维或三维人脸模型进行人脸唇部动画。
其中:所述音视频编码模块包括音频编码子模块、Mel频率倒谱参数归一化处理子模块、视频编码子模块以及MFCC-FAP同步处理子模块,其中:
音频编码子模块,其输入端接收由多模态数据采集设备同步录制的语音信息,对语音信息进行语音信号的Mel频率倒谱参数编码;
Mel频率倒谱参数归一化子模块与音频编码子模块连接,对音频进行编码,所述编码的过程应用于离线过程中对多模态数据中的语音信息进行的编码,也用于实时过程中对录入语音信息进行编码;
视频编码子模块,其输入端接收由多模态数据采集设备同步录制的人脸三维特征点运动信息、记录了标定好的人脸三维特征点位置的变化,对这些位置信息进行人脸动画参数编码;
MFCC-FAP同步处理模块分别与Mel频率倒谱参数归一化子模块和视频编码子模块相连接,MFCC-FAP同步处理模块同步接收离线过程中对录入语音信息的编码及人脸动画参数编码;从而形成Mel频率倒谱参数和人脸动画参数多模态同步库。
本发明的有益效果:本发明的第一方面,为实现上述目的,在该框架中,通过基于协同过滤算法实现语音到人脸的唇部动画。传统的基于语音识别的人脸唇部动画系统,往往需要语音识别模块进行辅助,由语音识别模块得出语音对应的音素,从音素得出对应的视位,这种方法不仅需要语音识别模块比较准确,而且也要求音素对应的视位也应该准确,很多时候音素对应的视位的选择需要人工仔细的挑选,这样往往需要耗费大量的人力。但是在本方法是从语音直接求取动画参数,不要手工去挑选音素对应的视位信息,从而大大降低了系统实现的复杂度和人工参与。
本发明的第二个方面,为实现上述目的,本发明能够在用户实时输入语音信息时同步地输出人脸动画。传统的基于语音识别的方法必须要依据上下文信息才能得出识别的音素信息,这样就降低了系统的反应能力,从而不能实时地输出用户输入语音同步的人脸动画。
本发明的第三方面,为实现上述目的,本发明能够实现在合成语音同步动画时保留语音中的韵律信息。在使用语音识别方法进行的人脸动画中,由于只是识别出音素,无法保留语音中含有的韵律信息,从而无法保留语音的时间和能量结构信息,但是本发明是基于实时录入语音的韵律结构来合成人脸唇部动画参数的,从而能在动画中保留语音的韵律结构。
附图说明
通过以下结合附图的详细描述,本发明的上述和其它方面、特征和优点将变得更加显而易见。附图中:
图1是本发明所提出的基于协同过滤算法的实时语音驱动人脸唇部同步动画总体框图。
图2是本发明的音视频处理模块的框图。
图3是本发明的协同过滤模块的框图。
图4是本发明的人脸动画模块的框图。
具体实施方式
下面结合附图和实例对本发明进一步说明,通过结合附图对系统各组成部件的详细说明将会更好地描述实现本发明的步骤和过程。
图1示出基于协同过滤算法的实时语音驱动人脸唇部同步动画系统示意图,系统以C语言编写,在windows平台下可使用visual studio编译运行,在linux平台下可使用GNU编译器套装(GCC)编译运行。在图1本发明的优选实施方案中,本发明系统被分为三部分:音视频编码模块1、协同过滤模块2、人脸动画模块3组成。其中,利用多模态数据采集设备同步地采集录制说话人在说话中语音和人脸三维特征点运动信息;利用数字录音设备,实时地接收输入的语音信号,并实时地输出与语音同步的人脸唇部动画,在生成多模态同步库时不需要手工标注,可任意输入男女语音进行语音驱动的唇部动画;多模态数据以及实时语音输入信号与音视频编码模块1相连接,由音视频编码模块1产生编码参数,协同过滤模块2与音视频编码模块1连接,协同过滤模块2与人脸动画模块3相连接。
在离线过程中,音视频编码模块1的输入端接收来自多模态数据采集设备采集到的语音和三维特征点运动信息,对语音信息和人脸三维特征点运动信息分别进行Mel频率倒谱参数(MFCC)编码和人脸动画参数(FAP)编码;在实时过程中,音视频编码模块1的输入端接收来自数字录音设备实时录制的语音信息;音视频编码模块1具有一输出端,在离线过程中音视频编码模块输出Mel频率倒谱参数和人脸动画参数(MFCC-FAP)多模态同步库;在实时过程中输出语音的Mel频率倒谱参数。
协同过滤模块2的输入端接收来自于实时过程中音视频编码模块1生成的Mel频率倒谱参数以及在实时过程中由音视频编码模块1生成MFCC-FAP多模态同步库;协同过滤模块2具有一输出端输出使用协同过滤算法实时生成与输入语音同步的人脸动画参数。
人脸动画模块3输入端接收来自于协同过滤模块2生成的人脸动画参数,将这些人脸动画参数转化成人脸模型的运动信息;人脸动画模块3具有一输出端输出的人脸动画参数,并由人脸动画参数驱动人脸模型进行人脸唇部动画。
如图2音视频编码模块的框图所示:音视频编码模块1由音频编码子模块10,Mel频率倒谱参数归一化处理子模块20,视频编码子模块30以及MFCC-FAP同步处理子模块40组成,其中音频编码子模块10与Mel频率倒谱参数归一化处理子模块20相连接,组成了音频编码过程。视频编码子模块30与MFCC-FAP同步处理模块40相连接,最终形成MFCC-FAP多模态同步库。
音频编码子模块10:其输入端接收由多模态数据采集设备录制多模态数据中的语音信号,对该语音信息进行语音信号的Mel频率倒谱参数语音编码。编码后的语音参数总共有39维,其中有12维静态Mel频率倒谱参数和一维的能量参数,以及上述13维参数的一阶和二阶动态参数。在求取一阶动态参数时考虑了当前帧的前后各两帧的Mel频率倒谱参数的静态参数和一维能量参数。在求取二阶参数时同样考虑了当前帧的前后各两帧的一阶动态参数。在求取Mel频率倒谱参数时帧长为20ms,帧移为10ms。
Mel频率倒谱参数归一化子模块20:在协同过滤模块4中需要使用到K近邻算法求取最近的K个语音参数候选值,这样就需要计算语音参数之间的相似度,但是往往从音频编码子模块10得出的39维语音参数每一维的变化范围都不一样,这样在计算相似度时某些维会对相似度的影响特别大,而另一些维的影响很小。为了平衡这种影响,把39维语音参数的每一维都归一化到-1到1之间,即使用每一维的最大绝对值分别去除各维的语音参数。
音频编码子模块10和Mel频率倒谱参数归一化子模块20连接,形成了音频编码过程,这一过程既应用于离线过程中对多模态数据中的语音信息进行的编码,也用于实时过程中对录入语音信息进行的编码。
视频编码子模块30:接收多模态数据中的人脸三维特征点运动信息、记录了标定好的人脸三维特征点位置的变化,对这些位置信息进行人脸动画参数编码。人脸动画参数编码是“动态图像专家组”(MPEG-4)标准对人脸运动信息的编码方式。这种编码方式首先定义一个中性脸和84个人脸特征点,然后通过中性脸定义出一些脸部动画参数单元(FAPU)。当人脸三维特征点进行运动时,利用中性脸型计算出在每帧运动中每个特征点的相对位移,这些相对位移再通过脸部动画参数单元(FAPU)加权生成最终的人脸动画参数。每个特征点对应一个人脸动画参数。在系统中只考虑了与唇动和下颌运动相关的25个人脸动画参数,形成25维人脸动画参数,在多模态数据采集中使用了75帧的采样频率。
MFCC-FAP同步处理子模块40分别与Mel频率倒谱参数归一化子模块20和视频编码子模块30相连接,由于多模态数据采集设备同步地对语音和人脸三维特征点运动信息进行同步录制,但是在进行语音参数和人脸动画参数编码时出现帧数不一样的现象。这步处理是将75帧的人脸动画参数扩展成100帧,这样就能与语音参数的100帧一一对应。
如图3协同过滤模块的框图所示:接收离线过程中由音视频编码模块1生成MFCC-FAP多模态同步库以及实时过程中由音视频编码模块1中的音频编码过程所生成的语音参数,生成动画使用的人脸动画参数。协同过滤算法是网络推荐系统中常用的方法,其基本思想是用与用户行为相似的其他用户的行为给用户推荐合适的东西或者物品。使用相同的思路,在MFCC-FAP多模态同步库中找出与当前语音参数相似的Mel频率倒谱参数,这样就找到了一些候选的MFCC-FAP对,候选语音参数对应的人脸动画参数即可作为推荐的动画参数。其具体包括K近邻搜索子模块50,人脸动画参数加权子模块60,最终生成可用于动画的人脸动画参数。
K近邻搜索子模块50:使用音视频编码模块1生成的Mel频率倒谱参数,在MFCC-FAP多模态同步库中搜索相似的Mel频率倒谱参数,这些Mel频率倒谱参数对应的人脸动画参数作为候选人脸动画参数保留下来。系统中使用的相似度公式为:
similarity = 1 / ( 1 + Σ i = 1 n ( x i - y i ) 2 ) ,
其中,n为39,xi及yi为39维Mel频率倒谱参数的各维参数,similarity为求出的相似度值。根据求出的相似度,选取相似度最大的K个MFCC-FAP对作为后续求取人脸动画参数的候选,这里K依据经验选取为5。
人脸动画参数加权子模块60:在求取K个候选MFCC-FAP对后,利用每个候选相似度的值对每个候选进行加权处理,这样就可以得出最后使用人脸动画参数,使用公式为:
FAP final = Σ k = 1 K FAP k · similarity k / K ,
其中,FAPk是一个25维的向量,表示候选帧的人脸动画参数,FAPfinal是最后求取的动画参数值,用于人脸动画模块的动画。
如图4人脸动画模块的框图所示:人脸动画模块3接收协同过滤模块2生成的人脸动画参数,经过人脸动画参数解码子模块70最后驱动人脸模型进行动画。
人脸动画参数解码子模块70:接收协同过滤模块2生成人脸动画参数,根据人脸模型提供的人脸动画参数单元(FAPU),对人脸动画参数进行解码产生最后的人脸三维特征点运动信息,这些运动信息将驱动人脸模型中进行人脸动画。人脸模型可以是二维模型也可以是三维模型。
上述实施例为本发明的较佳实施例。根据本发明的主要构思,本领域普通技术人员均可以产生多种相类似的或等价的应用,为此,本发明的范围不应由该描述来限定。本领域的技术人员应该理解,在不脱离本发明的范围的任何修改或局部替换,均属于本发明权利要求来限定的范围。

Claims (2)

1.一种基于协同过滤算法的实时语音驱动人脸唇部同步动画系统,其特征在于包括音视频编码模块、协同过滤模块和人脸动画模块,其中:
利用数字录音设备,实时地接收输入的语音信号,并实时地输出与语音同步的人脸唇部动画,在生成多模态同步库时不需要手工标注,可任意输入男女语音进行语音驱动的唇部动画;
在离线过程中,首先利用多模态数据采集设备同步地采集录制说话人在说话中语音和人脸三维特征点运动信息;音视频编码模块的输入端接收来自多模态数据采集设备采集到的语音和人脸三维特征点运动信息,对其中的语音信息和人脸三维特征点运动信息分别进行Mel频率倒谱参数(MFCC)编码和人脸动画参数(FAP)编码;在实时过程中,音视频编码模块的输入端接收来自数字录音设备实时录制的语音信息;音视频编码模块具有一输出端,在离线过程中输出MFCC-FAP多模态同步库;在实时过程中输出语音的Mel频率倒谱参数;
协同过滤模块与音视频编码模块连接,协同过滤模块输入端接收来自于音频编码模块生成的Mel频率倒谱参数、音视频编码模块生成Mel频率倒谱参数和人脸动画参数多模态同步库中的多模态数据;协同过滤模块具有一输出端输出使用协同过滤算法实时生成与输入语音同步的人脸动画参数;
人脸动画模块与协同过滤模块连接,人脸动画模块输入端接收来自于协同过滤模块生成的人脸动画参数,将这些人脸动画参数转化成人脸模型的运动信息;人脸动画模块具有一输出端输出人脸动画参数,并由人脸动画参数驱动二维或三维人脸模型进行人脸唇部动画。
2.根据权利要求1所述的基于协同过滤算法的实时语音驱动人脸唇部同步动画系统,其特征在于:所述音视频编码模块包括音频编码子模块、Mel频率倒谱参数归一化处理子模块、视频编码子模块以及MFCC-FAP同步处理子模块,其中:
音频编码子模块,其输入端接收由多模态数据采集设备同步录制的语音信息,对语音信息进行语音信号的Mel频率倒谱参数编码;
Mel频率倒谱参数归一化子模块与音频编码子模块连接,对音频进行编码,所述编码的过程应用于离线过程中对多模态数据中的语音信息进行的编码,也用于实时过程中对录入语音信息进行编码;
视频编码子模块,其输入端接收由多模态数据采集设备同步录制的人脸三维特征点运动信息、记录了标定好的人脸三维特征点位置的变化,对这些位置信息进行人脸动画参数编码;
MFCC-FAP同步处理模块分别与Mel频率倒谱参数归一化子模块和视频编码子模块相连接,MFCC-FAP同步处理模块同步接收离线过程中对录入语音信息的编码及人脸动画参数编码;从而形成Mel频率倒谱参数和人脸动画参数多模态同步库。
CN2010102630977A 2010-08-25 2010-08-25 基于协同过滤算法的实时语音驱动人脸唇部同步动画系统 Pending CN101930619A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102630977A CN101930619A (zh) 2010-08-25 2010-08-25 基于协同过滤算法的实时语音驱动人脸唇部同步动画系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102630977A CN101930619A (zh) 2010-08-25 2010-08-25 基于协同过滤算法的实时语音驱动人脸唇部同步动画系统

Publications (1)

Publication Number Publication Date
CN101930619A true CN101930619A (zh) 2010-12-29

Family

ID=43369776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102630977A Pending CN101930619A (zh) 2010-08-25 2010-08-25 基于协同过滤算法的实时语音驱动人脸唇部同步动画系统

Country Status (1)

Country Link
CN (1) CN101930619A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105390133A (zh) * 2015-10-09 2016-03-09 西北师范大学 藏语ttvs系统的实现方法
CN106327555A (zh) * 2016-08-24 2017-01-11 网易(杭州)网络有限公司 一种获得唇形动画的方法及装置
CN106653052A (zh) * 2016-12-29 2017-05-10 Tcl集团股份有限公司 虚拟人脸动画的生成方法及装置
CN109377539A (zh) * 2018-11-06 2019-02-22 北京百度网讯科技有限公司 用于生成动画的方法和装置
CN109523616A (zh) * 2018-12-04 2019-03-26 科大讯飞股份有限公司 一种面部动画生成方法、装置、设备及可读存储介质
CN110624247A (zh) * 2018-06-22 2019-12-31 奥多比公司 使用机器学习模型确定与实时语音相对应的嘴部的运动
CN112331337A (zh) * 2021-01-04 2021-02-05 中国科学院自动化研究所 自动抑郁检测方法、装置、设备
JP2021053181A (ja) * 2019-09-30 2021-04-08 株式会社コロプラ プログラム、方法、および視聴端末
CN115966061A (zh) * 2022-12-28 2023-04-14 上海帜讯信息技术股份有限公司 基于5g消息的灾情预警处理方法、系统和装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
《2009中国计算机大会》 20091023 穆凯辉 等 实时语音驱动唇部同步动画 第1节3-4段,第3节,4.1节,及图10、图2、图3 1-2 , 2 *
《Eurographics 2004》 20041231 Yong Cao et al Real-time Speech Motion Synthesis from Recorded Motions 全文 1-2 , 2 *
《IEEE TRANSACTIONS ON NEURAL NETWORKS》 20020731 Pengyu Hong et al Real-Time Speech-Driven Face Animation With Expressions Using Neural Networks 全文 1-2 第13卷, 第4期 2 *
《计算机工程》 20070930 林爱华 等 语音驱动人脸唇形动画的实现 全文 1-2 第33卷, 第18期 2 *
《计算机工程与科学》 20091231 孙延鹏 等 基于数据驱动的人脸动画合成技术的研究与发展 全文 1-2 第31卷, 第1期 2 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105390133A (zh) * 2015-10-09 2016-03-09 西北师范大学 藏语ttvs系统的实现方法
CN106327555A (zh) * 2016-08-24 2017-01-11 网易(杭州)网络有限公司 一种获得唇形动画的方法及装置
CN106653052B (zh) * 2016-12-29 2020-10-16 Tcl科技集团股份有限公司 虚拟人脸动画的生成方法及装置
CN106653052A (zh) * 2016-12-29 2017-05-10 Tcl集团股份有限公司 虚拟人脸动画的生成方法及装置
CN110624247B (zh) * 2018-06-22 2024-04-30 奥多比公司 使用机器学习模型确定与实时语音相对应的嘴部的运动
CN110624247A (zh) * 2018-06-22 2019-12-31 奥多比公司 使用机器学习模型确定与实时语音相对应的嘴部的运动
CN109377539A (zh) * 2018-11-06 2019-02-22 北京百度网讯科技有限公司 用于生成动画的方法和装置
CN109377539B (zh) * 2018-11-06 2023-04-11 北京百度网讯科技有限公司 用于生成动画的方法和装置
CN109523616A (zh) * 2018-12-04 2019-03-26 科大讯飞股份有限公司 一种面部动画生成方法、装置、设备及可读存储介质
JP2021053181A (ja) * 2019-09-30 2021-04-08 株式会社コロプラ プログラム、方法、および視聴端末
CN112331337A (zh) * 2021-01-04 2021-02-05 中国科学院自动化研究所 自动抑郁检测方法、装置、设备
US11266338B1 (en) 2021-01-04 2022-03-08 Institute Of Automation, Chinese Academy Of Sciences Automatic depression detection method and device, and equipment
CN115966061A (zh) * 2022-12-28 2023-04-14 上海帜讯信息技术股份有限公司 基于5g消息的灾情预警处理方法、系统和装置
CN115966061B (zh) * 2022-12-28 2023-10-24 上海帜讯信息技术股份有限公司 基于5g消息的灾情预警处理方法、系统和装置

Similar Documents

Publication Publication Date Title
CN101930619A (zh) 基于协同过滤算法的实时语音驱动人脸唇部同步动画系统
CN103218842B (zh) 一种语音同步驱动三维人脸口型与面部姿势动画的方法
EP1203352B1 (en) Method of animating a synthesised model of a human face driven by an acoustic signal
US7433490B2 (en) System and method for real time lip synchronization
CN110880315A (zh) 一种基于音素后验概率的个性化语音和视频生成系统
CN111325817A (zh) 一种虚拟人物场景视频的生成方法、终端设备及介质
CN109859736A (zh) 语音合成方法及系统
CN112001992A (zh) 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统
CN111666831A (zh) 一种基于解耦表示学习的说话人脸视频生成方法
CN115330911A (zh) 一种利用音频驱动拟态表情的方法与系统
Ding et al. Speech-driven eyebrow motion synthesis with contextual markovian models
CN116051692A (zh) 一种基于语音驱动的三维数字人脸部动画生成方法
Hong et al. iFACE: a 3D synthetic talking face
CN117115316A (zh) 一种基于多层级语音特征的语音驱动三维人脸动画方法
CN115311731B (zh) 一种手语数字人的表情生成方法和装置
CN114255737B (zh) 语音生成方法、装置、电子设备
CN114360491A (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
CN108538282B (zh) 一种由唇部视频直接生成语音的方法
Chen et al. Lip synchronization in talking head video utilizing speech information
CN113362432A (zh) 一种面部动画生成方法及装置
Ding et al. Eyebrow motion synthesis driven by speech
Yang et al. A multimodal approach of generating 3D human-like talking agent
Çakmak et al. HMM-based generation of laughter facial expression
JP2002215180A (ja) 通信装置
CN112785671B (zh) 虚假人脸动画合成方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20101229