CN103218842A - 一种语音同步驱动三维人脸口型与面部姿势动画的方法 - Google Patents
一种语音同步驱动三维人脸口型与面部姿势动画的方法 Download PDFInfo
- Publication number
- CN103218842A CN103218842A CN2013100806564A CN201310080656A CN103218842A CN 103218842 A CN103218842 A CN 103218842A CN 2013100806564 A CN2013100806564 A CN 2013100806564A CN 201310080656 A CN201310080656 A CN 201310080656A CN 103218842 A CN103218842 A CN 103218842A
- Authority
- CN
- China
- Prior art keywords
- face
- voice
- characteristic parameter
- mouth
- speaks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
本发明公开了一种语音同步驱动三维人脸口型与面部姿势动画的方法,通过用户输入新的语音信息,经过预处理之后,在虚拟人的人脸头像上合成与语音同步的口型动画和面部姿势动画。本发明具体包括两个阶段,在训练阶段,通过KNN和HMM的混合模型实现语音可视化建模;在合成阶段,通过用户输入新的语音信息,先进行语音信号的特征提取,再经过KNN和HMM混合模型生成与语音信号相对应的人脸面部姿势和口型帧序列参数,经过平滑处理后,使用Xface开源软件合成更加细腻、丰富的三维人脸动画。本发明不仅具有重要的理论研究价值,而且在可视通信、虚拟会议、游戏娱乐和教学辅助等领域有着广阔的应用前景。
Description
技术领域
本发明涉及语音驱动三维人脸动画合成技术领域,具体涉及一种基于KNN与HMM混合模型的语音可视化协同发音建模。
背景技术
语音驱动三维人脸动画合成的研究是自然人机交互领域的重要内容。语音驱动三维人脸动画合成是对一个人的声音进行预处理,使之在虚拟的三维人脸头像上合成与语音对应的口型动画(lip animation)和面部表情(facial expressions)。目前,这方面的研究主要集中在合成同步、精确的口型动画,以及通过语音分析实现对面部表情的分类上,还没有一个较好的方法来实现语音同时驱动虚拟人的口型动画和面部姿势(facial gestures or visual prosody)。所谓面部姿势是指头部动作(head movements)、眼睛动作(eye movements)和眉毛动作(eyebrow movements)等非语言信息。相对于口型动画与语音有明显的关联关系,面部姿势跟语音的关联关系比较微弱,因此获得比较准确的面部姿势比较困难,这就使得语音驱动虚拟人的表情木讷、呆滞,没有较为丰富的信息反馈,从而降低了人机交互的可理解性和认知度。这是语音驱动三维人脸动画领域必须解决的瓶颈。
为了实现语音同步驱动人脸口型和面部姿势,语音可视化建模是必不可少的一步。语音可视化建模是语言信息与合成人脸的接口,是驱动人脸产生语音动画的核心结构。语音可视化模型通过分析语音信息,建立音素到视素的映射,将音素信息转换成视素信息,将语音学上的协同发音体现到视觉效果上。如何建立语音与口型、语音与面部姿势的映射关系,如何通过一个简单而完全自动化的方法来获得协同发音模型参数,使得虚拟说话人动画的生成完全自动化,并且具有一定的真实感,是我们的研究内容。现如今,绝大多数研究学者仅仅是关注语音驱动三维人脸口型动画,而将语音驱动人脸面部姿势忽略了,这就使生成的虚拟人的人脸木讷呆滞,没有任何表情信息的反馈,从而降低了人机交互的可理解性和可认知度。所以,仅仅关注语音与三维人脸口型之间的关系,是不能充分反映人脸最真实的状况。
中国专利CN101751695A(申请号:200910263558.8)公开了一种基于BP神经网络的语音驱动唇形动画的方法。其特征在于,包括以下步骤:将汉语中的音节结构采用Consonant-Vowel分类;采集若干个人的原始音频数据和视频数据;获取对应唇形信息;获取语音特征数据;对获取的唇形信息和语音特征数据进行训练和建模,依据训练的模型实时输入语音合成的唇形运动序列。该方法的可操作性不强,要求在训练样本比较充分的情况下,才有可能得到较好的判定效果,否则对于形变、尺度改变、光照改变等干扰,就不能很好地判定。并且神经网络方法存在合成动画不够连续,跳变现象较多、口型特征预测不准确、且动画流畅度和自然度欠佳的不足。
中国专利CN101930619A(申请号:201010263097.7)发明了一种基于协同过滤算法的实时语音驱动人脸唇部动画系统,通过输入实时录入的语音,使得任务头部模型做出与输入语音同步的唇部动画。系统包含有音视频编码模块,该模块对采集到的语音和人脸三维特征点运动分别进行Mel频率倒谱参数编码和MPEG-4标准中的人脸动画参数编码,由音视频编码模块得到的Mel频率倒谱参数和人脸动画参数多模态同步库;协同过滤模块使用协同过滤算法,由新输入语音的Mel频率倒谱参数编码结合Mel频率倒谱参数和人脸动画参数多模态同步库求出与语音同步的人脸动画参数;动画模块由人脸动画参数驱动人脸模型进行动画。该系统在完成语音驱动人脸动画的同时,必须在动画生成之前录制好语音文件进行唇读,不能对任意提供的朗读文本合成语音动画,所以具有一定的局限性。并且该系统仅仅是关注语音驱动三维人脸口型动画,而将语音驱动人脸姿势忽略了,这就使生成的虚拟人的人脸木讷呆滞,没有任何表情信息的反馈,从而降低了人机交互的可理解性和可认知度。
迄今为止,还没有一个较为合理而高效的方法实现语音同步驱动三维人脸口型和面部姿势动画的合成。这是因为,虽然口型跟语音之间存在着明显的关联性,但面部姿势跟语音之间的关联关系比较微弱,因此语音驱动准确的面部姿势相对困难。采用什么方法去实现语音与口型、语音与面部姿势之间的同步关联问题,使语音可以同时驱动虚拟人唇部、眼睛、眉毛、头部等部位做出一整套相应的动作,这是本发明要解决的关键问题。
发明内容
鉴于现有技术的以上缺点,本发明的目的是,探索研究一种语音同步驱动三维人脸口型与面部姿势动画的方法,使之克服现有技术的不足,尤其是克服CN101930619A仅仅注重语音驱动人脸口型动画而未考虑语音驱动虚拟人面部姿势的不足,提出一种基于KNN(K-nearest neighbour)与HMM(Hidden Markov Model)混合模型的语音可视化协同发音建模新方法。其中,拟使用KNN分类器将分好类的声韵母与口型进行映射,同时用HMM将面部的六种基本动作(眨眼与凝视,扬眉与皱眉,点头与摇头)进行建模。
本发明的目的是通过如下的手段实现的。
一种语音同步驱动三维人脸口型与面部姿势动画的方法,通过对用户的声音进行预处理,使之在虚拟人的三维人脸头像上合成与语音同步的口型动画和面姿势动画,包括以下主要步骤:
1.视素归类,为了降低口型动画合成的复杂度,根据汉语拼音中各个声母和韵母口型动作的不同,将部分声韵母根据它们所对应的口型进行视素归类,共分为16类,F0-F15;
2.建立音频/视频语料库,用高清摄录机进行录制,由20个人,10男10女,读取步骤1中的已经分好类的声韵母,同时录制好音频和视频,在录制语音的时候,采集与语音同步的脸部视频信息;
3.提取音频/视频帧特征参数,从步骤2录制得到的音频数据中提取出语音信号的音高(pitch)、音强(intensity)和13维的Mel频率倒谱系数MFCC(Mel Frequency CepstrumCoefficient),同时,截取与语音同步的视频帧,提取视频帧中各声韵母所对应的基于MPEG-4定义的口型特征参数和面部姿势特征参数,通过相对帧作差计算以及相对位移计算可以得到人脸运动参数;
4.将步骤3中的语音信号的特征参数13—MFCC进行降维处理,利用PCA(PrincipalComponent Analysis)方法将语音信号的特征向量、口型特征参数进行降维处理,将语音信号中13—MFCC降低为4维向量,将口型特征参数降为4维向量。
5.运用k-means算法将步骤4中的语音信号的特征参数和口型特征参数进行聚类分析;
6.运用KNN分类器将步骤5中的语音信号的特征参数与口型特征参数进行训练和识别;
7.对于新输入的语音信号s,根据K-nearest neighbour准则求取相似度;通过求其相似度,然后选出相似度最大的前k个向量,这k个向量属于哪个类别的口型最多,则这个类别的口型就是与语音信号相匹配的口型;
8.将面部姿势分为六种类型:眨眼和凝视、扬眉和皱眉、点头和摇头,通过脸部部位的各种动作组合来表达不同的人脸面部信息;
9.用HMM对面部姿势进行建模,将提取的语音信号的音高和音强,与人脸六种基本面部姿势进行训练和识别;
10.训练阶段:首先,从录制的语料库中选取部分语料,使所选语料能够覆盖所有面部姿势类型且保证一定的出现概率;提取出语音信号的特征参数和面部姿势的特征参数,接着把语音特征参数作为观察值序列,通过Baum-Welch重估算法训练各相应的HMM,然后用Viterbi算法搜索并记录下语音特征参数所对应的最优状态序列;用HMM建模将面部姿势六种类型的特征参数与语音特征参数所对应的最优状态序列建立对应关系;
11.识别阶段:对新输入的语音信号进行特征提取,分析其音高和音强,然后根据训练好的HMM,将新的语音特征参数作为HMM的观察值序列,通过Veterbi算法搜索并获取最优状态序列;计算新输入语音信号与训练库中的图像观察值序列中的各个人脸面部姿势的相似或然率P(O|M);找出最大相似或然率,对应的HMM即为与新输入的语音信号相匹配的人脸面部姿势;
12.依据以上步骤得到与语音信号相对应的人脸面部姿势和口型帧序列参数,经过平滑处理后,使用Xface开源软件合成最终的人脸动画。
本发明的有益效果:本发明提出了一种基于KNN与HMM混合模型的语音可视化协同发音建模新方法。该方法的优势在于可以实现语音同时对口型和面部姿势的驱动,从而可以简单地生成更加细腻、丰富的虚拟人脸动画。另外,本发明通过简单而完全自动化的方法来获得协同发音模型参数,使得虚拟人语音动画的生成完全自动化,并且具有一定的真实感;传统的语音驱动人脸动画方法,仅仅是关注语音驱动人脸口型动画的合成,而将语音驱动面部姿势忽略了,这就使生成的人脸木讷呆滞,没有任何表情信息的反馈,从而降低了人机交互的可理解性和可认知度。
附图说明:
图1声韵母视素归类表。
图2提取MPEG-4对应的人脸特征点图。
图3脸部姿势类型表。
图4使用KNN分类器实现语音信号与口型的分类过程示意图。
图5用HMM对面部姿势进行建模的过程示意图。
具体实施方式
下面结合附图和具体实施对本发明作进一步描述。
实施例:
下面结合附图以及具体实施例对本发明作进一步描述:
本发明的具体实施方法大致包括以下步骤:
1.视素归类,由于部分声韵母所对应的口型帧相似,本发明为了减少计算量,将部分声韵母根据它们所对应的口型进行视素归类,共分为16类,F0-F15。具体分类如图1所示。
2.建立音频/视频语料库,用高清摄录机进行录制,由20个人,10男10女,读取步骤1中的已经分好类的声韵母,同时录制好音频和视频。在录制语音的时候,采集与语音同步的脸部视频信息。为了方便语料库的检索和提取,将16组不同类别的的声韵母音频和视频信息放在不同的文件夹下。
3.提取音频/视频帧的特征参数,从录制得到的音频数据中提取出语音信号的音高、音强和13维的Mel频率倒谱系数MFCC等特征参数。同时,截取与语音同步的视频帧,提取视频帧中各声韵母所对应的基于MPEG-4定义的口型特征参数和面部姿势特征参数,如图2所示,然后计算各特征点坐标与标准帧坐标的差值Vel={V1,V2,...,Vn},再计算按MPEG-4定义的人脸上的对应尺度参考量P={P1,P2,...,Pn},通过公式(1),
Fapi=(Vi(x|y)/Pi(x|y))*1024 (1)
即可得到人脸运动参数。其中,Fapi表示与第i个特征点对应的人脸运动参数,Vi(x|y)表示Vi的x或y坐标,Pi(x|y)表示与Vi(x|y)对应的尺度参考量。
4.将步骤3中的语音信号的特征参数13—MFCC、口型特征参数进行降维处理。为了减少计算量,我们先利用PCA方法将语音信号的特征向量、口型帧的特征向量进行降维处理,将语音信号中13—MFCC参数降低为4维向量,将口型帧向量降为4维向量。
5.运用k-means算法将步骤4中的16.类声韵母的语音特征参数和口型特征参数分别进行聚类分析。
6.运用KNN分类器将步骤5中的语音信号的特征参数与口型特征参数进行训练和识别,如图3所示。
7.对于一个音素—视素分类的问题,我们先收集整理步骤5中的语音特征参数和口型特征参数,共有16组,表示如下:{m1,m2,…mn}={(x1,y1),(x2,y2),…,(xn,yn)},n=16,其中(xi,yi)代表第i个音素—视素特征参数mi(比如x1代表语音信号“b,p,m,f”的特征参数,y1代表“b,p,m,f”的口型特征参数),那么对于新输入的语音信号s,经过预处理之后,得到4维MFCC,因为在步骤6中训练的声韵母的音素—视素特征向量是8维向量,为了计算方便,通过在向量末端补零的方式将4维MFCC扩展成8维向量即s′,然后根据K-nearest neighbour准则,根据公式(2),求取与训练库之间的相似度。
其中,mi代表音素—视素特征参数,s′代表经预处理之后的新输入的语音信号,n=16。然后选出相似度最大的前k个向量,这k个向量属于哪个类别的口型最多,则这个类别的口型就是与语音信号相匹配的口型。根据经验这里选择k=5。
8.将面部姿势分为六种类型:眨眼和凝视、扬眉和皱眉、点头和摇头,如图4所示。这样我们就可以通过脸部部位的各种动作组合来表达不同的人脸面部信息。
9.用HMM对面部姿势进行建模,将提取的语音信号的音高和音强,与人脸六种基本面部姿势进行训练和识别,如图5所示。
10.训练阶段:首先,从录制的语料库中选取部分语料,使所选语料能够覆盖所有面部姿势类型且保证一定的出现概率;提取出语音信号的特征参数和面部姿势的特征参数,接着把语音特征参数作为观察值序列,通过Baum-Welch重估算法训练各相应的HMM,然后用Viterbi算法搜索并记录下语音特征参数所对应的最优状态序列;用HMM建模将面部姿势六种类型的特征参数与语音特征参数所对应的最优状态序列建立对应关系。
11.识别阶段:对新输入的语音信号进行特征提取,分析其音高和音强,然后根据训练好的HMM,将新的语音特征参数作为HMM的观察值序列,通过Veterbi算法搜索并获取最优状态序列;由于相似或然率反映了语音信号与人脸面部姿势的相似概率,因此需要计算新输入语音信号与训练库中的图像观察值序列中的各个人脸面部姿势的相似或然率P(O|M);找出最大相似或然率,对应的HMM即为与新输入的语音信号相匹配的人脸面部姿势
完成以上各个步骤,可得到与语音信号相对应的人脸面部姿势和口型帧序列参数,经过平滑处理后,使用Xface开源软件合成最终的人脸动画。
Claims (1)
1.一种语音同步驱动三维人脸口型与面部姿势动画的方法,通过对用户的声音进行预处理,使之在虚拟人的人脸头像上合成与语音同步的口型和面部姿势动画,包括以下主要步骤:
(1)视素归类,将部分声韵母根据它们所对应的口型进行视素归类,共分为16类,F0-F15;
(2)建立音频/视频语料库,用高清摄录机进行录制,由20个人,10男10女,读取步骤1中的已经分好类的声韵母,同时录制好音频和视频,在录制语音的时候,采集与语音同步的脸部视频信息;
(3)提取音频/视频帧特征参数,从步骤2录制得到的音频数据中提取出语音信号的音高、音强和和13维的Mel频率倒谱系数MFCC,同时,截取与语音同步的视频帧,提取视频帧中各声韵母所对应的基于MPEG-4定义的口型特征参数和面部姿势特征参数,然后计算各特征点坐标与标准帧坐标的差值Vel={V1,V2,...,Vn},再计算按MPEG-4定义的人脸上的对应尺度参考量P={P1,P2,...,Pn},通过公式(1),
Fapi=(Vi(x|y)/Pi(x|y))*1024 (1)
得到人脸运动参数;其中,Fapi表示与第i个特征点对应的人脸运动参数,Vi(x|y)表示的Vi的x或y坐标,Pi(x|y)表示与Vi(x|y)对应的尺度参考量;
(4)将步骤3中的语音信号的特征参数13—MFCC进行降维处理,利用PCA方法将语音信号的特征向量、口型帧的特征向量进行降维处理,将语音信号中13—MFCC降低为4维向量,将口型特征参数降为4维向量;
(5)运用k-means算法将步骤4中的语音特征参数和口型特征参数进行聚类分析;
(6)运用KNN分类器将步骤5中的语音信号的特征参数与口型特征参数进行训练和识别;
(7)对于新输入的语音信号s,根据K-nearest neighbour准则求取相似度;通过求其相似度,然后选出相似度最大的前k个向量,这k个向量属于哪个类别的口型最多,则这个类别的口型就是与语音信号相匹配的口型;
(8)将面部姿势分为六种类型:眨眼和凝视、扬眉和皱眉、点头和摇头,通过脸部部位的各种动作组合来表达不同的人脸面部信息;
(9)用HMM对面部姿势进行建模,将提取的语音信号的音高和音强, 与人脸六种基本面部姿势进行训练和识别;
(10)训练阶段:首先,从录制的语料库中选取部分语料,使所选语料能够覆盖所有面部姿势类型且保证一定的出现概率;提取出语音信号的特征参数和面部姿势的特征参数,接着把语音特征参数作为观察值序列,通过Baum-Welch重估算法训练各相应的HMM,然后用Viterbi算法搜索并记录下语音特征参数所对应的最优状态序列;用HMM建模将面部姿势六种类型的特征参数与语音特征参数所对应的最优状态序列建立对应关系;
(11)识别阶段:对新输入的语音信号进行特征提取,分析其音高和音强,然后根据训练好的HMM,将新的语音特征参数作为HMM的观察值序列,通过Veterbi算法搜索并获取最优状态序列;计算新输入语音信号与训练库中的图像观察值序列中的各个人脸面部姿势的相似或然率P(O|M);找出最大相似或然率,对应的HMM即为与新输入的语音信号相匹配的人脸面部姿势;
(12)依据以上步骤得到与语音信号相对应的人脸面部姿势和口型帧序列参数,经过平滑处理后,使用Xface开源软件合成最终的人脸动画。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310080656.4A CN103218842B (zh) | 2013-03-12 | 2013-03-12 | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310080656.4A CN103218842B (zh) | 2013-03-12 | 2013-03-12 | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103218842A true CN103218842A (zh) | 2013-07-24 |
CN103218842B CN103218842B (zh) | 2015-11-25 |
Family
ID=48816585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310080656.4A Expired - Fee Related CN103218842B (zh) | 2013-03-12 | 2013-03-12 | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103218842B (zh) |
Cited By (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361620A (zh) * | 2014-11-27 | 2015-02-18 | 韩慧健 | 一种基于综合加权算法的口型动画合成方法 |
CN104808794A (zh) * | 2015-04-24 | 2015-07-29 | 北京旷视科技有限公司 | 一种唇语输入方法和系统 |
CN105390133A (zh) * | 2015-10-09 | 2016-03-09 | 西北师范大学 | 藏语ttvs系统的实现方法 |
CN105957129A (zh) * | 2016-04-27 | 2016-09-21 | 上海河马动画设计股份有限公司 | 一种基于语音驱动及图像识别的影视动画制作方法 |
CN106328163A (zh) * | 2016-08-16 | 2017-01-11 | 新疆大学 | 维吾尔语音位‑视位参数的转换方法和系统 |
CN106415665A (zh) * | 2014-07-25 | 2017-02-15 | 英特尔公司 | 具有头部转动的头像面部表情动画 |
CN106504308A (zh) * | 2016-10-27 | 2017-03-15 | 天津大学 | 基于mpeg‑4标准的人脸三维动画生成方法 |
CN106653052A (zh) * | 2016-12-29 | 2017-05-10 | Tcl集团股份有限公司 | 虚拟人脸动画的生成方法及装置 |
CN106823374A (zh) * | 2017-01-17 | 2017-06-13 | 河海大学 | 基于Android系统的Talking Avatar手游软件的构建方法 |
CN106971414A (zh) * | 2017-03-10 | 2017-07-21 | 江西省杜达菲科技有限责任公司 | 一种基于深度循环神经网络算法的三维动画生成方法 |
CN107369449A (zh) * | 2017-07-14 | 2017-11-21 | 上海木爷机器人技术有限公司 | 一种有效语音识别方法及装置 |
CN107615288A (zh) * | 2015-03-28 | 2018-01-19 | 英特尔公司 | 姿态匹配机制 |
CN107623622A (zh) * | 2016-07-15 | 2018-01-23 | 掌赢信息科技(上海)有限公司 | 一种发送语音动画的方法及电子设备 |
CN108230438A (zh) * | 2017-12-28 | 2018-06-29 | 清华大学 | 声音驱动辅助侧脸图像的人脸重建方法及装置 |
CN108550173A (zh) * | 2018-04-03 | 2018-09-18 | 西北工业大学 | 基于语音生成口型视频的方法 |
CN108810547A (zh) * | 2018-07-03 | 2018-11-13 | 电子科技大学 | 一种基于神经网络和pca-knn的高效vr视频压缩方法 |
CN108847234A (zh) * | 2018-06-28 | 2018-11-20 | 广州华多网络科技有限公司 | 唇语合成方法、装置、电子设备及存储介质 |
CN109308731A (zh) * | 2018-08-24 | 2019-02-05 | 浙江大学 | 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 |
CN109637518A (zh) * | 2018-11-07 | 2019-04-16 | 北京搜狗科技发展有限公司 | 虚拟主播实现方法及装置 |
CN109741247A (zh) * | 2018-12-29 | 2019-05-10 | 四川大学 | 一种基于神经网络的肖像漫画生成方法 |
CN110174942A (zh) * | 2019-04-30 | 2019-08-27 | 北京航空航天大学 | 眼动合成方法及装置 |
CN110286756A (zh) * | 2019-06-13 | 2019-09-27 | 深圳追一科技有限公司 | 视频处理方法、装置、系统、终端设备及存储介质 |
CN110400251A (zh) * | 2019-06-13 | 2019-11-01 | 深圳追一科技有限公司 | 视频处理方法、装置、终端设备及存储介质 |
CN110413841A (zh) * | 2019-06-13 | 2019-11-05 | 深圳追一科技有限公司 | 多态交互方法、装置、系统、电子设备及存储介质 |
CN110581974A (zh) * | 2018-06-07 | 2019-12-17 | 中国电信股份有限公司 | 人脸画面改进方法、用户终端和计算机可读存储介质 |
CN110610534A (zh) * | 2019-09-19 | 2019-12-24 | 电子科技大学 | 基于Actor-Critic算法的口型动画自动生成方法 |
CN110874557A (zh) * | 2018-09-03 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 一种语音驱动虚拟人脸的视频生成方法以及装置 |
CN110910479A (zh) * | 2019-11-19 | 2020-03-24 | 中国传媒大学 | 视频处理方法、装置、电子设备及可读存储介质 |
CN111081270A (zh) * | 2019-12-19 | 2020-04-28 | 大连即时智能科技有限公司 | 一种实时音频驱动的虚拟人物口型同步控制方法 |
CN111145322A (zh) * | 2019-12-26 | 2020-05-12 | 上海浦东发展银行股份有限公司 | 用于驱动虚拟形象的方法、设备和计算机可读存储介质 |
CN111161755A (zh) * | 2019-12-25 | 2020-05-15 | 新华智云科技有限公司 | 基于3d渲染引擎的中文唇音同步方法 |
CN111243626A (zh) * | 2019-12-30 | 2020-06-05 | 清华大学 | 一种说话视频生成方法及系统 |
CN111415677A (zh) * | 2020-03-16 | 2020-07-14 | 北京字节跳动网络技术有限公司 | 用于生成视频的方法、装置、设备和介质 |
WO2020228383A1 (zh) * | 2019-05-14 | 2020-11-19 | 北京字节跳动网络技术有限公司 | 口型生成方法、装置及电子设备 |
CN111988658A (zh) * | 2020-08-28 | 2020-11-24 | 网易(杭州)网络有限公司 | 视频生成方法及装置 |
CN112188145A (zh) * | 2020-09-18 | 2021-01-05 | 随锐科技集团股份有限公司 | 视频会议方法及系统、计算机可读存储介质 |
CN112328076A (zh) * | 2020-11-06 | 2021-02-05 | 北京中科深智科技有限公司 | 一种语音驱动人物手势的方法和系统 |
CN112634861A (zh) * | 2020-12-30 | 2021-04-09 | 北京大米科技有限公司 | 数据处理方法、装置、电子设备和可读存储介质 |
WO2021073416A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 基于神经网络生成虚拟人物视频的方法及相关设备 |
CN113269872A (zh) * | 2021-06-01 | 2021-08-17 | 广东工业大学 | 基于三维人脸重构和视频关键帧优化的合成视频生成方法 |
CN113314145A (zh) * | 2021-06-09 | 2021-08-27 | 广州虎牙信息科技有限公司 | 样本生成、模型训练、口型驱动方法、装置、设备及介质 |
CN113689532A (zh) * | 2021-08-05 | 2021-11-23 | 北京奇艺世纪科技有限公司 | 基于语音数据重建虚拟角色的方法及装置 |
CN113744371A (zh) * | 2020-05-29 | 2021-12-03 | 武汉Tcl集团工业研究院有限公司 | 一种生成人脸动画的方法、装置、终端及存储介质 |
CN113838173A (zh) * | 2021-09-23 | 2021-12-24 | 厦门大学 | 一种受语音和背景声联合驱动的虚拟人头部运动合成方法 |
CN113851145A (zh) * | 2021-09-23 | 2021-12-28 | 厦门大学 | 一种联合语音和语义关键动作的虚拟人动作序列合成方法 |
CN114040126A (zh) * | 2021-09-22 | 2022-02-11 | 西安深信科创信息技术有限公司 | 一种文字驱动的人物播报视频生成方法及装置 |
CN115330913A (zh) * | 2022-10-17 | 2022-11-11 | 广州趣丸网络科技有限公司 | 三维数字人口型生成方法、装置、电子设备及存储介质 |
WO2022267380A1 (zh) * | 2021-06-25 | 2022-12-29 | 达闼科技(北京)有限公司 | 基于语音驱动的人脸动作合成方法、电子设备及存储介质 |
CN115965724A (zh) * | 2022-12-26 | 2023-04-14 | 华院计算技术(上海)股份有限公司 | 图像生成方法及装置、计算机可读存储介质、终端 |
CN116665695A (zh) * | 2023-07-28 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 虚拟对象口型驱动方法、相关装置和介质 |
CN116994600A (zh) * | 2023-09-28 | 2023-11-03 | 中影年年(北京)文化传媒有限公司 | 基于音频驱动角色口型的方法及系统 |
WO2023231712A1 (zh) * | 2022-05-30 | 2023-12-07 | 中兴通讯股份有限公司 | 数字人驱动方法、数字人驱动设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1971621A (zh) * | 2006-11-10 | 2007-05-30 | 中国科学院计算技术研究所 | 语音和文本联合驱动的卡通人脸动画生成方法 |
US20100082345A1 (en) * | 2008-09-26 | 2010-04-01 | Microsoft Corporation | Speech and text driven hmm-based body animation synthesis |
-
2013
- 2013-03-12 CN CN201310080656.4A patent/CN103218842B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1971621A (zh) * | 2006-11-10 | 2007-05-30 | 中国科学院计算技术研究所 | 语音和文本联合驱动的卡通人脸动画生成方法 |
US20100082345A1 (en) * | 2008-09-26 | 2010-04-01 | Microsoft Corporation | Speech and text driven hmm-based body animation synthesis |
Non-Patent Citations (1)
Title |
---|
李皓: "语音驱动的人脸建模与动画技术研究", 《中国博士学位论文全文数据库信息科技辑》, no. 7, 15 July 2012 (2012-07-15) * |
Cited By (75)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106415665A (zh) * | 2014-07-25 | 2017-02-15 | 英特尔公司 | 具有头部转动的头像面部表情动画 |
CN106415665B (zh) * | 2014-07-25 | 2020-05-19 | 英特尔公司 | 具有头部转动的头像面部表情动画 |
CN104361620A (zh) * | 2014-11-27 | 2015-02-18 | 韩慧健 | 一种基于综合加权算法的口型动画合成方法 |
CN104361620B (zh) * | 2014-11-27 | 2017-07-28 | 韩慧健 | 一种基于综合加权算法的口型动画合成方法 |
CN107615288A (zh) * | 2015-03-28 | 2018-01-19 | 英特尔公司 | 姿态匹配机制 |
US11841935B2 (en) | 2015-03-28 | 2023-12-12 | Intel Corporation | Gesture matching mechanism |
CN104808794A (zh) * | 2015-04-24 | 2015-07-29 | 北京旷视科技有限公司 | 一种唇语输入方法和系统 |
CN105390133A (zh) * | 2015-10-09 | 2016-03-09 | 西北师范大学 | 藏语ttvs系统的实现方法 |
CN105957129A (zh) * | 2016-04-27 | 2016-09-21 | 上海河马动画设计股份有限公司 | 一种基于语音驱动及图像识别的影视动画制作方法 |
CN105957129B (zh) * | 2016-04-27 | 2019-08-30 | 上海河马动画设计股份有限公司 | 一种基于语音驱动及图像识别的影视动画制作方法 |
CN107623622A (zh) * | 2016-07-15 | 2018-01-23 | 掌赢信息科技(上海)有限公司 | 一种发送语音动画的方法及电子设备 |
CN106328163B (zh) * | 2016-08-16 | 2019-07-02 | 新疆大学 | 维吾尔语音位-视位参数的转换方法和系统 |
CN106328163A (zh) * | 2016-08-16 | 2017-01-11 | 新疆大学 | 维吾尔语音位‑视位参数的转换方法和系统 |
CN106504308A (zh) * | 2016-10-27 | 2017-03-15 | 天津大学 | 基于mpeg‑4标准的人脸三维动画生成方法 |
CN106653052A (zh) * | 2016-12-29 | 2017-05-10 | Tcl集团股份有限公司 | 虚拟人脸动画的生成方法及装置 |
CN106653052B (zh) * | 2016-12-29 | 2020-10-16 | Tcl科技集团股份有限公司 | 虚拟人脸动画的生成方法及装置 |
CN106823374A (zh) * | 2017-01-17 | 2017-06-13 | 河海大学 | 基于Android系统的Talking Avatar手游软件的构建方法 |
CN106971414A (zh) * | 2017-03-10 | 2017-07-21 | 江西省杜达菲科技有限责任公司 | 一种基于深度循环神经网络算法的三维动画生成方法 |
CN106971414B (zh) * | 2017-03-10 | 2021-02-23 | 华东交通大学 | 一种基于深度循环神经网络算法的三维动画生成方法 |
CN107369449A (zh) * | 2017-07-14 | 2017-11-21 | 上海木爷机器人技术有限公司 | 一种有效语音识别方法及装置 |
CN108230438A (zh) * | 2017-12-28 | 2018-06-29 | 清华大学 | 声音驱动辅助侧脸图像的人脸重建方法及装置 |
CN108550173A (zh) * | 2018-04-03 | 2018-09-18 | 西北工业大学 | 基于语音生成口型视频的方法 |
CN110581974A (zh) * | 2018-06-07 | 2019-12-17 | 中国电信股份有限公司 | 人脸画面改进方法、用户终端和计算机可读存储介质 |
CN108847234A (zh) * | 2018-06-28 | 2018-11-20 | 广州华多网络科技有限公司 | 唇语合成方法、装置、电子设备及存储介质 |
CN108810547A (zh) * | 2018-07-03 | 2018-11-13 | 电子科技大学 | 一种基于神经网络和pca-knn的高效vr视频压缩方法 |
CN109308731A (zh) * | 2018-08-24 | 2019-02-05 | 浙江大学 | 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 |
CN110874557B (zh) * | 2018-09-03 | 2023-06-16 | 阿里巴巴集团控股有限公司 | 一种语音驱动虚拟人脸的视频生成方法以及装置 |
CN110874557A (zh) * | 2018-09-03 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 一种语音驱动虚拟人脸的视频生成方法以及装置 |
CN109637518A (zh) * | 2018-11-07 | 2019-04-16 | 北京搜狗科技发展有限公司 | 虚拟主播实现方法及装置 |
CN109637518B (zh) * | 2018-11-07 | 2022-05-24 | 北京搜狗科技发展有限公司 | 虚拟主播实现方法及装置 |
CN109741247A (zh) * | 2018-12-29 | 2019-05-10 | 四川大学 | 一种基于神经网络的肖像漫画生成方法 |
CN109741247B (zh) * | 2018-12-29 | 2020-04-21 | 四川大学 | 一种基于神经网络的肖像漫画生成方法 |
CN110174942B (zh) * | 2019-04-30 | 2021-01-19 | 北京航空航天大学 | 眼动合成方法及装置 |
CN110174942A (zh) * | 2019-04-30 | 2019-08-27 | 北京航空航天大学 | 眼动合成方法及装置 |
US10970909B2 (en) | 2019-04-30 | 2021-04-06 | Beihang University | Method and apparatus for eye movement synthesis |
WO2020228383A1 (zh) * | 2019-05-14 | 2020-11-19 | 北京字节跳动网络技术有限公司 | 口型生成方法、装置及电子设备 |
CN110400251A (zh) * | 2019-06-13 | 2019-11-01 | 深圳追一科技有限公司 | 视频处理方法、装置、终端设备及存储介质 |
CN110286756A (zh) * | 2019-06-13 | 2019-09-27 | 深圳追一科技有限公司 | 视频处理方法、装置、系统、终端设备及存储介质 |
CN110413841A (zh) * | 2019-06-13 | 2019-11-05 | 深圳追一科技有限公司 | 多态交互方法、装置、系统、电子设备及存储介质 |
CN110610534A (zh) * | 2019-09-19 | 2019-12-24 | 电子科技大学 | 基于Actor-Critic算法的口型动画自动生成方法 |
WO2021073416A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 基于神经网络生成虚拟人物视频的方法及相关设备 |
CN110910479B (zh) * | 2019-11-19 | 2023-09-22 | 中国传媒大学 | 视频处理方法、装置、电子设备及可读存储介质 |
CN110910479A (zh) * | 2019-11-19 | 2020-03-24 | 中国传媒大学 | 视频处理方法、装置、电子设备及可读存储介质 |
CN111081270A (zh) * | 2019-12-19 | 2020-04-28 | 大连即时智能科技有限公司 | 一种实时音频驱动的虚拟人物口型同步控制方法 |
CN111081270B (zh) * | 2019-12-19 | 2021-06-01 | 大连即时智能科技有限公司 | 一种实时音频驱动的虚拟人物口型同步控制方法 |
CN111161755A (zh) * | 2019-12-25 | 2020-05-15 | 新华智云科技有限公司 | 基于3d渲染引擎的中文唇音同步方法 |
CN111145322B (zh) * | 2019-12-26 | 2024-01-19 | 上海浦东发展银行股份有限公司 | 用于驱动虚拟形象的方法、设备和计算机可读存储介质 |
CN111145322A (zh) * | 2019-12-26 | 2020-05-12 | 上海浦东发展银行股份有限公司 | 用于驱动虚拟形象的方法、设备和计算机可读存储介质 |
CN111243626A (zh) * | 2019-12-30 | 2020-06-05 | 清华大学 | 一种说话视频生成方法及系统 |
CN111243626B (zh) * | 2019-12-30 | 2022-12-09 | 清华大学 | 一种说话视频生成方法及系统 |
CN111415677A (zh) * | 2020-03-16 | 2020-07-14 | 北京字节跳动网络技术有限公司 | 用于生成视频的方法、装置、设备和介质 |
CN113744371B (zh) * | 2020-05-29 | 2024-04-16 | 武汉Tcl集团工业研究院有限公司 | 一种生成人脸动画的方法、装置、终端及存储介质 |
CN113744371A (zh) * | 2020-05-29 | 2021-12-03 | 武汉Tcl集团工业研究院有限公司 | 一种生成人脸动画的方法、装置、终端及存储介质 |
CN111988658B (zh) * | 2020-08-28 | 2022-12-06 | 网易(杭州)网络有限公司 | 视频生成方法及装置 |
CN111988658A (zh) * | 2020-08-28 | 2020-11-24 | 网易(杭州)网络有限公司 | 视频生成方法及装置 |
CN112188145A (zh) * | 2020-09-18 | 2021-01-05 | 随锐科技集团股份有限公司 | 视频会议方法及系统、计算机可读存储介质 |
CN112328076A (zh) * | 2020-11-06 | 2021-02-05 | 北京中科深智科技有限公司 | 一种语音驱动人物手势的方法和系统 |
CN112634861A (zh) * | 2020-12-30 | 2021-04-09 | 北京大米科技有限公司 | 数据处理方法、装置、电子设备和可读存储介质 |
CN113269872A (zh) * | 2021-06-01 | 2021-08-17 | 广东工业大学 | 基于三维人脸重构和视频关键帧优化的合成视频生成方法 |
CN113314145A (zh) * | 2021-06-09 | 2021-08-27 | 广州虎牙信息科技有限公司 | 样本生成、模型训练、口型驱动方法、装置、设备及介质 |
WO2022267380A1 (zh) * | 2021-06-25 | 2022-12-29 | 达闼科技(北京)有限公司 | 基于语音驱动的人脸动作合成方法、电子设备及存储介质 |
CN113689532A (zh) * | 2021-08-05 | 2021-11-23 | 北京奇艺世纪科技有限公司 | 基于语音数据重建虚拟角色的方法及装置 |
CN114040126A (zh) * | 2021-09-22 | 2022-02-11 | 西安深信科创信息技术有限公司 | 一种文字驱动的人物播报视频生成方法及装置 |
CN113838173B (zh) * | 2021-09-23 | 2023-08-22 | 厦门大学 | 一种受语音和背景声联合驱动的虚拟人头部运动合成方法 |
CN113851145A (zh) * | 2021-09-23 | 2021-12-28 | 厦门大学 | 一种联合语音和语义关键动作的虚拟人动作序列合成方法 |
CN113838173A (zh) * | 2021-09-23 | 2021-12-24 | 厦门大学 | 一种受语音和背景声联合驱动的虚拟人头部运动合成方法 |
WO2023231712A1 (zh) * | 2022-05-30 | 2023-12-07 | 中兴通讯股份有限公司 | 数字人驱动方法、数字人驱动设备及存储介质 |
CN115330913B (zh) * | 2022-10-17 | 2023-03-24 | 广州趣丸网络科技有限公司 | 三维数字人口型生成方法、装置、电子设备及存储介质 |
CN115330913A (zh) * | 2022-10-17 | 2022-11-11 | 广州趣丸网络科技有限公司 | 三维数字人口型生成方法、装置、电子设备及存储介质 |
CN115965724A (zh) * | 2022-12-26 | 2023-04-14 | 华院计算技术(上海)股份有限公司 | 图像生成方法及装置、计算机可读存储介质、终端 |
CN115965724B (zh) * | 2022-12-26 | 2023-08-08 | 华院计算技术(上海)股份有限公司 | 图像生成方法及装置、计算机可读存储介质、终端 |
CN116665695A (zh) * | 2023-07-28 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 虚拟对象口型驱动方法、相关装置和介质 |
CN116665695B (zh) * | 2023-07-28 | 2023-10-20 | 腾讯科技(深圳)有限公司 | 虚拟对象口型驱动方法、相关装置和介质 |
CN116994600A (zh) * | 2023-09-28 | 2023-11-03 | 中影年年(北京)文化传媒有限公司 | 基于音频驱动角色口型的方法及系统 |
CN116994600B (zh) * | 2023-09-28 | 2023-12-12 | 中影年年(北京)文化传媒有限公司 | 基于音频驱动角色口型的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103218842B (zh) | 2015-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103218842B (zh) | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 | |
US8224652B2 (en) | Speech and text driven HMM-based body animation synthesis | |
Busso et al. | Interrelation between speech and facial gestures in emotional utterances: a single subject study | |
Wu et al. | Survey on audiovisual emotion recognition: databases, features, and data fusion strategies | |
Levine et al. | Gesture controllers | |
JP5616325B2 (ja) | ユーザ命令に基づいて表示を変更する方法 | |
Pham et al. | End-to-end learning for 3d facial animation from speech | |
US20120130717A1 (en) | Real-time Animation for an Expressive Avatar | |
CN103996155A (zh) | 智能交互及心理慰藉机器人服务系统 | |
CN104361620A (zh) | 一种基于综合加权算法的口型动画合成方法 | |
CN101187990A (zh) | 一种会话机器人系统 | |
Malcangi | Text-driven avatars based on artificial neural networks and fuzzy logic | |
Naert et al. | A survey on the animation of signing avatars: From sign representation to utterance synthesis | |
CN110148406A (zh) | 一种数据处理方法和装置、一种用于数据处理的装置 | |
KR20110081364A (ko) | 캐릭터의 발화와 감정표현 제공 시스템 및 방법 | |
CN115147521A (zh) | 一种基于人工智能语义分析的角色表情动画的生成方法 | |
Gibet et al. | Signing Avatars-Multimodal Challenges for Text-to-sign Generation | |
Liu et al. | Real-time speech-driven animation of expressive talking faces | |
Lan et al. | Low level descriptors based DBLSTM bottleneck feature for speech driven talking avatar | |
Caplier et al. | Image and video for hearing impaired people | |
Yang et al. | Review of research on speech emotion recognition | |
JP2015176592A (ja) | アニメーション生成装置、アニメーション生成方法およびプログラム | |
Filntisis et al. | Photorealistic adaptation and interpolation of facial expressions using HMMS and AAMS for audio-visual speech synthesis | |
Gibbon | Gesture theory is linguistics: On modelling multimodality as prosody | |
Busso et al. | Learning expressive human-like head motion sequences from speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20151125 Termination date: 20180312 |
|
CF01 | Termination of patent right due to non-payment of annual fee |