CN113160366A - 一种3d人脸动画合成方法及系统 - Google Patents
一种3d人脸动画合成方法及系统 Download PDFInfo
- Publication number
- CN113160366A CN113160366A CN202110302138.7A CN202110302138A CN113160366A CN 113160366 A CN113160366 A CN 113160366A CN 202110302138 A CN202110302138 A CN 202110302138A CN 113160366 A CN113160366 A CN 113160366A
- Authority
- CN
- China
- Prior art keywords
- network
- user
- features
- bottleneck
- trajectory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001308 synthesis method Methods 0.000 title claims description 11
- 230000033001 locomotion Effects 0.000 claims abstract description 95
- 210000000056 organ Anatomy 0.000 claims abstract description 87
- 230000001755 vocal effect Effects 0.000 claims abstract description 50
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 30
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 30
- 230000001360 synchronised effect Effects 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 10
- 230000033764 rhythmic process Effects 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 19
- 239000000126 substance Substances 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 5
- 230000001815 facial effect Effects 0.000 claims 1
- 230000002194 synthesizing effect Effects 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000272186 Falco columbarius Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000004373 mandible Anatomy 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Acoustics & Sound (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种3D人脸动画合成方法及系统,属于人工智能技术领域,包括:采集用户语音的音频特征和文本的韵律特征;将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入,得到该用户对应的发音器官运动轨迹;利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。本发明采用发音器官的运动轨迹作为3D人脸模型动画参数,通过运动轨迹驱动3D人脸模型实现唇音同步的人脸动画,大大减少了计算量。
Description
技术领域
本发明涉及人工智能技术领域,特别涉及一种3D人脸动画合成方法及系统。
背景技术
与单独的语音相比,唇音同步的语音动画能够增强在噪音情况下语音的理解性,更好地吸引用户的注意力,从而更好地实现人机交互。然而,合成唇音同步的语音动画,关键的问题是实现语音特征到视觉特征的转换(audio-to-visual conversion)。对于传统视素的方法,需要为每一个音素建立相应的视素。合成动画时,直接将音素映射到视素,然后通过主观定义的平滑函数或是协同发音模型实现连续的动画合成。然而此方法需要对每个音素建立相应的视素,导致大量计算的耗费,同时对动画制作者的专业水平要求较高,影响其广泛应用。
为了减少模型的计算量,研究者探索基于数据驱动的人脸动画合成方法,即利用语音信息实现3D人脸模型人脸动画参数的映射,再由人脸动画参数控制人脸面部运动,从而实现动画的合成。然而人们对声音与唇部动作是否一致十分敏感,采用单模态信息并不能实现高精度的人脸动画参数的映射,影响动画的真实感。
发明内容
本发明的目的在于克服上述背景技术中的不足,以减少计算量并提高合成动画的真实感。
为实现以上目的,一方面,采用一种3D人脸动画合成方法,包括如下步骤:
采集用户语音的音频特征和文本的韵律特征;
将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入,得到该用户对应的发音器官运动轨迹;
利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。
进一步地,所述轨迹预测网络包括瓶颈网络和LTRCNN网络,所述瓶颈网络的输入数据为所述韵律特征、输出为用户的发音器官运动轨迹,所述LTRCNN网络的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出为所述发音器官运动轨迹。
进一步地,所述LTRCNN网络包括跨模态编码器和轨迹预测解码器,跨模态编码器的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出与轨迹预测解码器的输入连接,轨迹预测解码器的输出为所述发音器官运动轨迹。
进一步地,在所述采集用户语音的音频特征和文本的韵律特征之前,还包括:
采集被试用户的发音器官运动轨迹数据、与发音器官运动轨迹同步的语音信号以及语音信号对应的文本数据;
对语音信号和文本数据分别进行特征提取,得到语音信号的音频特征和文本数据对应的韵律特征,并将音频特征、韵律特征和发音器官运动轨迹数据构建成样本集合;
利用样本集合中的样本数据对所述轨迹预测网络进行训练,得到所述训练好的轨迹预测网络。
进一步地,所述采集被试用户的发音器官运动轨迹数据、与发音器官运动轨迹同步的语音信号以及语音信号对应的文本数据,包括:
利用电磁发音动作描迹仪(Electro-Magnetic Articulatory,EMA)设备采集所述被试用户的发音器官运动轨迹数据;
利用语音采集设备采集与所述被试用户的发音器官运动轨迹同步的语音信号;
利用语音识别技术对所述被试用户的语音信号进行文本合成,得到所述语音信号对应的文本数据。
进一步地,所述EMA设备的电磁换能器线圈放在所述被试用户的舌根的矢状面中线位置、舌中矢状面中线位置、舌尖矢状面中线位置、下颚矢状面中线位置、下唇矢状面中线位置以及上唇的矢状面中线位置。
进一步地,所述轨迹预测网络在欧氏距离损失的监督下完成训练,欧式距离损失函数为:
另一方面,采用一种3D人脸动画合成系统,包括数据采集模块、运动轨迹预测模块和动画合成模块,其中:
数据采集模块用于采集用户语音的音频特征和文本的韵律特征;
运动轨迹预测模块用于将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入,得到该用户对应的发音器官运动轨迹;
动画合成模块用于利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。
进一步地,所述轨迹预测网络包括瓶颈网络和LTRCNN网络,所述LTRCNN网络包括跨模态编码器和轨迹预测解码器,所述瓶颈网络的输入数据为所述韵律特征、输出为发音器官运动轨迹,跨模态编码器的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出与轨迹预测解码器的输入连接,轨迹预测解码器的输出为所述发音器官运动轨迹。
进一步地,还包括网络训练模块,其用于对所述轨迹预测网络进行训练,得到训练好的轨迹预测网络,所述轨迹预测网络在欧氏距离损失的监督下完成训练,欧式距离损失函数为:
与现有技术相比,本发明存在以下技术效果:本发明采用发音器官的运动轨迹作为3D人脸模型动画参数,通过运动轨迹驱动3D人脸模型实现唇音同步的人脸动画,可以大大减少计算量,提高方法的实用性。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是一种3D人脸动画合成方法的流程图;
图2是跨模态发音器官运动轨迹驱动的整体框架图;
图3是采集发音器官点的位置信息示意图;
图4是“a”音素对应的发音器官运动示意图;
图5是“b”音素对应的发音器官运动示意图;
图6是一种3D人脸动画合成系统的结构图。
具体实施方式
以下结合附图对本发明实施方式的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施方式,并不用于限制本发明实施方式。
在本发明实施方式中,在未作相反说明的情况下,使用的方位词如“上、下、顶、底”通常是针对附图所示的方向而言的或者是针对竖直、垂直或重力方向上而言的各部件相互位置关系描述用词。
另外,若本发明实施方式中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施方式之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
如图1所示,本实施例公开了一种3D人脸动画合成方法,包括如下步骤S1至S3:
S1、采集用户语音的音频特征和文本的韵律特征;
S2、将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入,得到该用户对应的发音器官运动轨迹;
S3、利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。
本实施例采用发音器官运动轨迹作为人脸动画参数,利用预测得到的发音器官运动轨迹实现3D人脸动画合成,大大减少了建模过程的计算量。
作为进一步优选的技术方案,如图2所示,所述轨迹预测网络包括瓶颈网络和LTRCNN网络,所述瓶颈网络的输入数据为所述韵律特征、输出为用户的发音器官运动轨迹,所述LTRCNN网络的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出为所述发音器官运动轨迹。
作为进一步优选的技术方案,所述LTRCNN网络包括跨模态编码器和轨迹预测解码器,跨模态编码器的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出与轨迹预测解码器的输入连接,轨迹预测解码器的输出为所述发音器官运动轨迹。
其中,瓶颈网络是一个具有狭窄瓶颈隐藏层的深度神经网络结构,其输入为韵律特征,输出为发音器官运动特征。从瓶颈网络的瓶颈层提取得到的瓶颈特征不仅可以视为韵律特征的紧凑表征,而且还可以学习到有用的发音器官运动信息。然后将瓶颈特征、音频特征和韵律特征相结合作为LTRCNN网络的输入以此来进行发音器官运动轨迹估计。在LTRCNN网络中,采用跨模态编码器挖掘文本、语音跨模态信息的互补性,提高特征的学习;然后采用基于GRU的轨迹预测解码器,建立跨模态信息与发音器官轨迹的相关性,提高预测精度,继而保证3D人脸动画的唇音同步。
本实施例通过深度挖掘跨模态信息的互补性,实现信息的深度融合,并建立跨模态信息与发音器官运动估计的相关性,提高轨迹预测精度。
作为进一步优选的技术方案,在上述步骤S1:在所述采集用户语音的音频特征和文本的韵律特征之前,还包括如下步骤:
采集被试用户的发音器官运动轨迹数据、与发音器官运动轨迹同步的语音信号以及语音信号对应的文本数据;
对语音信号和文本数据分别进行特征提取,得到语音信号的音频特征和文本数据对应的韵律特征,并将音频特征、韵律特征和发音器官运动轨迹数据构建成样本集合;
利用样本集合中的样本数据对所述轨迹预测网络进行训练,得到所述训练好的轨迹预测网络。
需要说明的是,在训练阶段,采用WORLD声码器从语音中提取音频特征,采用Merlin工具从文本中提取包含上下文相关信息和位置信息的韵律特征,将韵律特征作为输入并将发音器官运动特征作为输出,对瓶颈网络进行训练,利用瓶颈网络的瓶颈层提取得到的瓶颈特征、音频特征和韵律特征相结合作为LTRCNN网络的输入以此来进行发音器官运动轨迹估计。
作为进一步优选的技术方案,所述采集被试用户的发音器官运动轨迹数据、与发音器官运动轨迹同步的语音信号以及语音信号对应的文本数据,包括如下步骤:
利用EMA设备采集所述被试用户的发音器官运动轨迹数据;
利用语音采集设备采集与所述被试用户的发音器官运动轨迹同步的语音信号;
利用语音识别技术对所述被试用户的语音信号进行文本合成,得到所述语音信号对应的文本数据。
需要说明的是,1)如图3所示,对于发音器官运动轨迹数据,采用EMA设备采用采集,EMA是使用粘贴在声道发音器上的电磁换能器来记录音频信号和发音器官位置的精确测量值的技术,该设备可以检测出发音器官运动的细微变化,并具有很高的测量能力。在数据采集中,EMA的电磁换能器线圈放在舌根(TR)的矢状面中线位置,舌中(TB)的矢状面中线位置,舌尖(TT)的矢状面中线位置,下颚(LI)的矢状面中线位置,下唇(LL)的矢状面中线位置,上唇(UL)的矢状面中线位置,以记录关节运动的轨迹。每个电磁换能器都记录该点的三维数据:x轴(从前到后),y轴(从左到右),z轴(从下到上)。由于y轴的变化很小,因此可以忽略不计。仅使用x轴和z轴上的数据,因此每帧数据包含12维度特征(一共6个关键点)。
2)对于语音信号,采用专业的语音采集设备进行积累,获得与发音器官运动同步的语音信号。
3)对于文本信息,采用采集的语音信号,利用语音识别PyTorch-Kaldi技术实现文本合成。
通过上述数据采集可以获得文本、语音跨模态信息以及与之同步的发音器官运动轨迹数据。
作为进一步优选的技术方案,所述轨迹预测网络在欧氏距离损失的监督下完成训练,欧式距离损失函数为:
本实施例中利用训练好的网络模型预测得到相应的发音器官运动轨迹,由于预测轨迹的估计代表的就是3D头部网络模型中舌根,舌中,舌尖,下颚,下唇,上唇的数据,通过预测轨迹数据的变化,即可获得相应变化的3D头部网络模型,实现唇音同步的人脸3D动画合成,如图4至图5所示。
如图6所示,本实施例公开了一种3D人脸动画合成系统,包括数据采集模块10、运动轨迹预测模块20和动画合成模块30,其中:
数据采集模块10用于采集用户语音的音频特征和文本的韵律特征;
运动轨迹预测模块20用于将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入,得到用户的发音器官运动轨迹;
动画合成模块30用于利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。
作为进一步优选的技术方案,所述轨迹预测网络包括瓶颈网络和LTRCNN网络,所述LTRCNN网络包括跨模态编码器和轨迹预测解码器,所述瓶颈网络的输入数据为所述韵律特征、输出为发音器官运动轨迹,跨模态编码器的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出与轨迹预测解码器的输入连接,轨迹预测解码器的输出为所述发音器官运动轨迹。
作为进一步优选的技术方案,还包括网络训练模块,其用于对所述轨迹预测网络进行训练,得到训练好的轨迹预测网络,所述轨迹预测网络在欧氏距离损失的监督下完成训练,欧式距离损失函数为:
作为进一步优选的技术方案,网络训练模块包括采集单元、特征提取单元和训练单元,其中:
采集单元用于采集被试用户的发音器官运动轨迹数据、与发音器官运动轨迹同步的语音信号以及语音信号对应的文本数据;
特征提取单元用于对语音信号和文本数据分别进行特征提取,得到语音信号的音频特征和文本数据对应的韵律特征,并将音频特征、韵律特征和发音器官运动轨迹数据构建成样本集合;
训练单元用于利用样本集合中的样本数据对所述轨迹预测网络进行训练,得到所述训练好的轨迹预测网络。
作为进一步优选的技术方案,所述采集单元具体用于:
利用EMA设备采集所述被试用户的发音器官运动轨迹数据;
利用语音采集设备采集与所述被试用户的发音器官运动轨迹同步的语音信号;
利用语音识别技术对所述被试用户的语音信号进行文本合成,得到所述语音信号对应的文本数据。
作为进一步优选的技术方案,所述EMA设备的电磁换能器线圈放在所述被试用户的舌根、舌中、舌尖、下颚、下唇以及上唇的矢状面中线位置。
需要说明的是,本实施例提供的3D人脸动画合成方案可以用于娱乐行业,如电影制作,视频配音,游戏制作等;也可以用于语言教学,或是语言障碍者的医学辅助治疗等。
以上结合附图详细描述了本发明例的可选实施方式,但是,本发明实施方式并不限于上述实施方式中的具体细节,在本发明实施方式的技术构思范围内,可以对本发明实施方式的技术方案进行多种简单变型,这些简单变型均属于本发明实施方式的保护范围。
Claims (10)
1.一种3D人脸动画合成方法,其特征在于,包括:
采集用户语音的音频特征和文本的韵律特征;
将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入,得到该用户对应的发音器官运动轨迹;
利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。
2.如权利要求1所述的3D人脸动画合成方法,其特征在于,所述轨迹预测网络包括瓶颈网络和LTRCNN网络,所述瓶颈网络的输入数据为所述韵律特征、输出为用户的发音器官运动轨迹,所述LTRCNN网络的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出为所述发音器官运动轨迹。
3.如权利要求2所述的3D人脸动画合成方法,其特征在于,所述LTRCNN网络包括跨模态编码器和轨迹预测解码器,跨模态编码器的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出与轨迹预测解码器的输入连接,轨迹预测解码器的输出为所述发音器官运动轨迹。
4.如权利要求1所述的3D人脸动画合成方法,其特征在于,在所述采集用户语音的音频特征和文本的韵律特征之前,还包括:
采集被试用户的发音器官运动轨迹数据、与发音器官运动轨迹同步的语音信号以及语音信号对应的文本数据;
对语音信号和文本数据分别进行特征提取,得到语音信号的音频特征和文本数据对应的韵律特征,并将音频特征、韵律特征和发音器官运动轨迹数据构建成样本集合;
利用样本集合中的样本数据对所述轨迹预测网络进行训练,得到所述训练好的轨迹预测网络。
5.如权利要求4所述的3D人脸动画合成方法,其特征在于,所述采集被试用户的发音器官运动轨迹数据、与发音器官运动轨迹同步的语音信号以及语音信号对应的文本数据,包括:
利用EMA设备采集所述被试用户的发音器官运动轨迹数据;
利用语音采集设备采集与所述被试用户的发音器官运动轨迹同步的语音信号;
利用语音识别技术对所述被试用户的语音信号进行文本合成,得到所述语音信号对应的文本数据。
6.如权利要求5所述的3D人脸动画合成方法,其特征在于,所述EMA设备的电磁换能器线圈放在所述被试用户的舌根的矢状面中线位置、舌中矢状面中线位置、舌尖矢状面中线位置、下颚矢状面中线位置、下唇矢状面中线位置以及上唇的矢状面中线位置。
8.一种3D人脸动画合成系统,其特征在于,包括数据采集模块、运动轨迹预测模块和动画合成模块,其中:
数据采集模块用于采集用户语音的音频特征和文本的韵律特征;
运动轨迹预测模块用于将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入,得到该用户对应的发音器官运动轨迹;
动画合成模块用于利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。
9.如权利要求8所述的3D人脸动画合成系统,其特征在于,所述轨迹预测网络包括瓶颈网络和LTRCNN网络,所述LTRCNN网络包括跨模态编码器和轨迹预测解码器,所述瓶颈网络的输入数据为所述韵律特征、输出为发音器官运动轨迹,跨模态编码器的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出与轨迹预测解码器的输入连接,轨迹预测解码器的输出为所述发音器官运动轨迹。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110302138.7A CN113160366A (zh) | 2021-03-22 | 2021-03-22 | 一种3d人脸动画合成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110302138.7A CN113160366A (zh) | 2021-03-22 | 2021-03-22 | 一种3d人脸动画合成方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113160366A true CN113160366A (zh) | 2021-07-23 |
Family
ID=76887791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110302138.7A Pending CN113160366A (zh) | 2021-03-22 | 2021-03-22 | 一种3d人脸动画合成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113160366A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114401431A (zh) * | 2022-01-19 | 2022-04-26 | 中国平安人寿保险股份有限公司 | 一种虚拟人讲解视频生成方法及相关装置 |
WO2023080806A1 (en) * | 2021-11-08 | 2023-05-11 | Nvidia Corporation | Synthetic audio-driven body animation using voice tempo |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100082345A1 (en) * | 2008-09-26 | 2010-04-01 | Microsoft Corporation | Speech and text driven hmm-based body animation synthesis |
CN103218841A (zh) * | 2013-04-26 | 2013-07-24 | 中国科学技术大学 | 结合生理模型和数据驱动模型的三维发音器官动画方法 |
CN103258340A (zh) * | 2013-04-17 | 2013-08-21 | 中国科学技术大学 | 富有情感表达能力的三维可视化中文普通话发音词典的发音方法 |
-
2021
- 2021-03-22 CN CN202110302138.7A patent/CN113160366A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100082345A1 (en) * | 2008-09-26 | 2010-04-01 | Microsoft Corporation | Speech and text driven hmm-based body animation synthesis |
CN103258340A (zh) * | 2013-04-17 | 2013-08-21 | 中国科学技术大学 | 富有情感表达能力的三维可视化中文普通话发音词典的发音方法 |
CN103218841A (zh) * | 2013-04-26 | 2013-07-24 | 中国科学技术大学 | 结合生理模型和数据驱动模型的三维发音器官动画方法 |
Non-Patent Citations (1)
Title |
---|
于灵云: "基于发音器官运动轨迹驱动的三维人脸动画", 《博士电子期刊》, pages 2 - 4 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023080806A1 (en) * | 2021-11-08 | 2023-05-11 | Nvidia Corporation | Synthetic audio-driven body animation using voice tempo |
CN114401431A (zh) * | 2022-01-19 | 2022-04-26 | 中国平安人寿保险股份有限公司 | 一种虚拟人讲解视频生成方法及相关装置 |
CN114401431B (zh) * | 2022-01-19 | 2024-04-09 | 中国平安人寿保险股份有限公司 | 一种虚拟人讲解视频生成方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hong et al. | Real-time speech-driven face animation with expressions using neural networks | |
Sifakis et al. | Simulating speech with a physics-based facial muscle model | |
CN104361620B (zh) | 一种基于综合加权算法的口型动画合成方法 | |
CN113378806B (zh) | 一种融合情感编码的音频驱动人脸动画生成方法及系统 | |
CN101488346B (zh) | 语音可视化系统及语音可视化方法 | |
Wang et al. | Phoneme-level articulatory animation in pronunciation training | |
CN113256821B (zh) | 一种三维虚拟形象唇形生成方法、装置及电子设备 | |
CN106898363A (zh) | 一种声乐学习电子辅助发音系统 | |
CN103218842A (zh) | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 | |
CN103279970A (zh) | 一种实时的语音驱动人脸动画的方法 | |
Badin et al. | An audiovisual talking head for augmented speech generation: models and animations based on a real speaker’s articulatory data | |
CN113160366A (zh) | 一种3d人脸动画合成方法及系统 | |
JPH02234285A (ja) | 画像合成方法及びその装置 | |
Goto et al. | Automatic face cloning and animation using real-time facial feature tracking and speech acquisition | |
CN102820030A (zh) | 发音器官可视语音合成系统 | |
CN113838174A (zh) | 一种音频驱动人脸动画生成方法、装置、设备与介质 | |
Albrecht et al. | Speech synchronization for physics-based facial animation | |
Hong et al. | iFACE: a 3D synthetic talking face | |
Ma et al. | Accurate automatic visible speech synthesis of arbitrary 3D models based on concatenation of diviseme motion capture data | |
JP5030150B2 (ja) | 筋電位信号による音声認識装置 | |
Li et al. | A novel speech-driven lip-sync model with CNN and LSTM | |
Kolesnik | Conducting gesture recognition, analysis and performance system | |
Csapó | Extending text-to-speech synthesis with articulatory movement prediction using ultrasound tongue imaging | |
Mahavidyalaya | Phoneme and viseme based approach for lip synchronization | |
Edge et al. | Model-based synthesis of visual speech movements from 3D video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |