CN113160366A - 一种3d人脸动画合成方法及系统 - Google Patents

一种3d人脸动画合成方法及系统 Download PDF

Info

Publication number
CN113160366A
CN113160366A CN202110302138.7A CN202110302138A CN113160366A CN 113160366 A CN113160366 A CN 113160366A CN 202110302138 A CN202110302138 A CN 202110302138A CN 113160366 A CN113160366 A CN 113160366A
Authority
CN
China
Prior art keywords
network
user
features
bottleneck
trajectory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110302138.7A
Other languages
English (en)
Inventor
于灵云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Original Assignee
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Artificial Intelligence of Hefei Comprehensive National Science Center filed Critical Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority to CN202110302138.7A priority Critical patent/CN113160366A/zh
Publication of CN113160366A publication Critical patent/CN113160366A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种3D人脸动画合成方法及系统,属于人工智能技术领域,包括:采集用户语音的音频特征和文本的韵律特征;将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入,得到该用户对应的发音器官运动轨迹;利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。本发明采用发音器官的运动轨迹作为3D人脸模型动画参数,通过运动轨迹驱动3D人脸模型实现唇音同步的人脸动画,大大减少了计算量。

Description

一种3D人脸动画合成方法及系统
技术领域
本发明涉及人工智能技术领域,特别涉及一种3D人脸动画合成方法及系统。
背景技术
与单独的语音相比,唇音同步的语音动画能够增强在噪音情况下语音的理解性,更好地吸引用户的注意力,从而更好地实现人机交互。然而,合成唇音同步的语音动画,关键的问题是实现语音特征到视觉特征的转换(audio-to-visual conversion)。对于传统视素的方法,需要为每一个音素建立相应的视素。合成动画时,直接将音素映射到视素,然后通过主观定义的平滑函数或是协同发音模型实现连续的动画合成。然而此方法需要对每个音素建立相应的视素,导致大量计算的耗费,同时对动画制作者的专业水平要求较高,影响其广泛应用。
为了减少模型的计算量,研究者探索基于数据驱动的人脸动画合成方法,即利用语音信息实现3D人脸模型人脸动画参数的映射,再由人脸动画参数控制人脸面部运动,从而实现动画的合成。然而人们对声音与唇部动作是否一致十分敏感,采用单模态信息并不能实现高精度的人脸动画参数的映射,影响动画的真实感。
发明内容
本发明的目的在于克服上述背景技术中的不足,以减少计算量并提高合成动画的真实感。
为实现以上目的,一方面,采用一种3D人脸动画合成方法,包括如下步骤:
采集用户语音的音频特征和文本的韵律特征;
将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入,得到该用户对应的发音器官运动轨迹;
利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。
进一步地,所述轨迹预测网络包括瓶颈网络和LTRCNN网络,所述瓶颈网络的输入数据为所述韵律特征、输出为用户的发音器官运动轨迹,所述LTRCNN网络的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出为所述发音器官运动轨迹。
进一步地,所述LTRCNN网络包括跨模态编码器和轨迹预测解码器,跨模态编码器的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出与轨迹预测解码器的输入连接,轨迹预测解码器的输出为所述发音器官运动轨迹。
进一步地,在所述采集用户语音的音频特征和文本的韵律特征之前,还包括:
采集被试用户的发音器官运动轨迹数据、与发音器官运动轨迹同步的语音信号以及语音信号对应的文本数据;
对语音信号和文本数据分别进行特征提取,得到语音信号的音频特征和文本数据对应的韵律特征,并将音频特征、韵律特征和发音器官运动轨迹数据构建成样本集合;
利用样本集合中的样本数据对所述轨迹预测网络进行训练,得到所述训练好的轨迹预测网络。
进一步地,所述采集被试用户的发音器官运动轨迹数据、与发音器官运动轨迹同步的语音信号以及语音信号对应的文本数据,包括:
利用电磁发音动作描迹仪(Electro-Magnetic Articulatory,EMA)设备采集所述被试用户的发音器官运动轨迹数据;
利用语音采集设备采集与所述被试用户的发音器官运动轨迹同步的语音信号;
利用语音识别技术对所述被试用户的语音信号进行文本合成,得到所述语音信号对应的文本数据。
进一步地,所述EMA设备的电磁换能器线圈放在所述被试用户的舌根的矢状面中线位置、舌中矢状面中线位置、舌尖矢状面中线位置、下颚矢状面中线位置、下唇矢状面中线位置以及上唇的矢状面中线位置。
进一步地,所述轨迹预测网络在欧氏距离损失的监督下完成训练,欧式距离损失函数为:
Figure BDA0002986670410000031
其中,
Figure BDA0002986670410000032
Figure BDA0002986670410000033
分别表示预测得到的发音器官运动x坐标和z坐标,x′和z′代表真实的发音器官运动x坐标和z坐标。
另一方面,采用一种3D人脸动画合成系统,包括数据采集模块、运动轨迹预测模块和动画合成模块,其中:
数据采集模块用于采集用户语音的音频特征和文本的韵律特征;
运动轨迹预测模块用于将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入,得到该用户对应的发音器官运动轨迹;
动画合成模块用于利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。
进一步地,所述轨迹预测网络包括瓶颈网络和LTRCNN网络,所述LTRCNN网络包括跨模态编码器和轨迹预测解码器,所述瓶颈网络的输入数据为所述韵律特征、输出为发音器官运动轨迹,跨模态编码器的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出与轨迹预测解码器的输入连接,轨迹预测解码器的输出为所述发音器官运动轨迹。
进一步地,还包括网络训练模块,其用于对所述轨迹预测网络进行训练,得到训练好的轨迹预测网络,所述轨迹预测网络在欧氏距离损失的监督下完成训练,欧式距离损失函数为:
Figure BDA0002986670410000041
其中,
Figure BDA0002986670410000042
Figure BDA0002986670410000043
分别表示预测得到的发音器官运动x坐标和z坐标,x′和z′代表真实的发音器官运动x坐标和z坐标。
与现有技术相比,本发明存在以下技术效果:本发明采用发音器官的运动轨迹作为3D人脸模型动画参数,通过运动轨迹驱动3D人脸模型实现唇音同步的人脸动画,可以大大减少计算量,提高方法的实用性。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是一种3D人脸动画合成方法的流程图;
图2是跨模态发音器官运动轨迹驱动的整体框架图;
图3是采集发音器官点的位置信息示意图;
图4是“a”音素对应的发音器官运动示意图;
图5是“b”音素对应的发音器官运动示意图;
图6是一种3D人脸动画合成系统的结构图。
具体实施方式
以下结合附图对本发明实施方式的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施方式,并不用于限制本发明实施方式。
在本发明实施方式中,在未作相反说明的情况下,使用的方位词如“上、下、顶、底”通常是针对附图所示的方向而言的或者是针对竖直、垂直或重力方向上而言的各部件相互位置关系描述用词。
另外,若本发明实施方式中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施方式之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
如图1所示,本实施例公开了一种3D人脸动画合成方法,包括如下步骤S1至S3:
S1、采集用户语音的音频特征和文本的韵律特征;
S2、将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入,得到该用户对应的发音器官运动轨迹;
S3、利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。
本实施例采用发音器官运动轨迹作为人脸动画参数,利用预测得到的发音器官运动轨迹实现3D人脸动画合成,大大减少了建模过程的计算量。
作为进一步优选的技术方案,如图2所示,所述轨迹预测网络包括瓶颈网络和LTRCNN网络,所述瓶颈网络的输入数据为所述韵律特征、输出为用户的发音器官运动轨迹,所述LTRCNN网络的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出为所述发音器官运动轨迹。
作为进一步优选的技术方案,所述LTRCNN网络包括跨模态编码器和轨迹预测解码器,跨模态编码器的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出与轨迹预测解码器的输入连接,轨迹预测解码器的输出为所述发音器官运动轨迹。
其中,瓶颈网络是一个具有狭窄瓶颈隐藏层的深度神经网络结构,其输入为韵律特征,输出为发音器官运动特征。从瓶颈网络的瓶颈层提取得到的瓶颈特征不仅可以视为韵律特征的紧凑表征,而且还可以学习到有用的发音器官运动信息。然后将瓶颈特征、音频特征和韵律特征相结合作为LTRCNN网络的输入以此来进行发音器官运动轨迹估计。在LTRCNN网络中,采用跨模态编码器挖掘文本、语音跨模态信息的互补性,提高特征的学习;然后采用基于GRU的轨迹预测解码器,建立跨模态信息与发音器官轨迹的相关性,提高预测精度,继而保证3D人脸动画的唇音同步。
本实施例通过深度挖掘跨模态信息的互补性,实现信息的深度融合,并建立跨模态信息与发音器官运动估计的相关性,提高轨迹预测精度。
作为进一步优选的技术方案,在上述步骤S1:在所述采集用户语音的音频特征和文本的韵律特征之前,还包括如下步骤:
采集被试用户的发音器官运动轨迹数据、与发音器官运动轨迹同步的语音信号以及语音信号对应的文本数据;
对语音信号和文本数据分别进行特征提取,得到语音信号的音频特征和文本数据对应的韵律特征,并将音频特征、韵律特征和发音器官运动轨迹数据构建成样本集合;
利用样本集合中的样本数据对所述轨迹预测网络进行训练,得到所述训练好的轨迹预测网络。
需要说明的是,在训练阶段,采用WORLD声码器从语音中提取音频特征,采用Merlin工具从文本中提取包含上下文相关信息和位置信息的韵律特征,将韵律特征作为输入并将发音器官运动特征作为输出,对瓶颈网络进行训练,利用瓶颈网络的瓶颈层提取得到的瓶颈特征、音频特征和韵律特征相结合作为LTRCNN网络的输入以此来进行发音器官运动轨迹估计。
作为进一步优选的技术方案,所述采集被试用户的发音器官运动轨迹数据、与发音器官运动轨迹同步的语音信号以及语音信号对应的文本数据,包括如下步骤:
利用EMA设备采集所述被试用户的发音器官运动轨迹数据;
利用语音采集设备采集与所述被试用户的发音器官运动轨迹同步的语音信号;
利用语音识别技术对所述被试用户的语音信号进行文本合成,得到所述语音信号对应的文本数据。
需要说明的是,1)如图3所示,对于发音器官运动轨迹数据,采用EMA设备采用采集,EMA是使用粘贴在声道发音器上的电磁换能器来记录音频信号和发音器官位置的精确测量值的技术,该设备可以检测出发音器官运动的细微变化,并具有很高的测量能力。在数据采集中,EMA的电磁换能器线圈放在舌根(TR)的矢状面中线位置,舌中(TB)的矢状面中线位置,舌尖(TT)的矢状面中线位置,下颚(LI)的矢状面中线位置,下唇(LL)的矢状面中线位置,上唇(UL)的矢状面中线位置,以记录关节运动的轨迹。每个电磁换能器都记录该点的三维数据:x轴(从前到后),y轴(从左到右),z轴(从下到上)。由于y轴的变化很小,因此可以忽略不计。仅使用x轴和z轴上的数据,因此每帧数据包含12维度特征(一共6个关键点)。
2)对于语音信号,采用专业的语音采集设备进行积累,获得与发音器官运动同步的语音信号。
3)对于文本信息,采用采集的语音信号,利用语音识别PyTorch-Kaldi技术实现文本合成。
通过上述数据采集可以获得文本、语音跨模态信息以及与之同步的发音器官运动轨迹数据。
作为进一步优选的技术方案,所述轨迹预测网络在欧氏距离损失的监督下完成训练,欧式距离损失函数为:
Figure BDA0002986670410000081
其中,
Figure BDA0002986670410000082
Figure BDA0002986670410000083
分别表示预测得到的发音器官运动x坐标和z坐标,x′和z′代表真实的发音器官运动x坐标和z坐标。
本实施例中利用训练好的网络模型预测得到相应的发音器官运动轨迹,由于预测轨迹的估计代表的就是3D头部网络模型中舌根,舌中,舌尖,下颚,下唇,上唇的数据,通过预测轨迹数据的变化,即可获得相应变化的3D头部网络模型,实现唇音同步的人脸3D动画合成,如图4至图5所示。
如图6所示,本实施例公开了一种3D人脸动画合成系统,包括数据采集模块10、运动轨迹预测模块20和动画合成模块30,其中:
数据采集模块10用于采集用户语音的音频特征和文本的韵律特征;
运动轨迹预测模块20用于将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入,得到用户的发音器官运动轨迹;
动画合成模块30用于利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。
作为进一步优选的技术方案,所述轨迹预测网络包括瓶颈网络和LTRCNN网络,所述LTRCNN网络包括跨模态编码器和轨迹预测解码器,所述瓶颈网络的输入数据为所述韵律特征、输出为发音器官运动轨迹,跨模态编码器的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出与轨迹预测解码器的输入连接,轨迹预测解码器的输出为所述发音器官运动轨迹。
作为进一步优选的技术方案,还包括网络训练模块,其用于对所述轨迹预测网络进行训练,得到训练好的轨迹预测网络,所述轨迹预测网络在欧氏距离损失的监督下完成训练,欧式距离损失函数为:
Figure BDA0002986670410000091
其中,
Figure BDA0002986670410000092
Figure BDA0002986670410000093
分别表示预测得到的发音器官运动x坐标和z坐标,x′和z′代表真实的发音器官运动x坐标和z坐标。
作为进一步优选的技术方案,网络训练模块包括采集单元、特征提取单元和训练单元,其中:
采集单元用于采集被试用户的发音器官运动轨迹数据、与发音器官运动轨迹同步的语音信号以及语音信号对应的文本数据;
特征提取单元用于对语音信号和文本数据分别进行特征提取,得到语音信号的音频特征和文本数据对应的韵律特征,并将音频特征、韵律特征和发音器官运动轨迹数据构建成样本集合;
训练单元用于利用样本集合中的样本数据对所述轨迹预测网络进行训练,得到所述训练好的轨迹预测网络。
作为进一步优选的技术方案,所述采集单元具体用于:
利用EMA设备采集所述被试用户的发音器官运动轨迹数据;
利用语音采集设备采集与所述被试用户的发音器官运动轨迹同步的语音信号;
利用语音识别技术对所述被试用户的语音信号进行文本合成,得到所述语音信号对应的文本数据。
作为进一步优选的技术方案,所述EMA设备的电磁换能器线圈放在所述被试用户的舌根、舌中、舌尖、下颚、下唇以及上唇的矢状面中线位置。
需要说明的是,本实施例提供的3D人脸动画合成方案可以用于娱乐行业,如电影制作,视频配音,游戏制作等;也可以用于语言教学,或是语言障碍者的医学辅助治疗等。
以上结合附图详细描述了本发明例的可选实施方式,但是,本发明实施方式并不限于上述实施方式中的具体细节,在本发明实施方式的技术构思范围内,可以对本发明实施方式的技术方案进行多种简单变型,这些简单变型均属于本发明实施方式的保护范围。

Claims (10)

1.一种3D人脸动画合成方法,其特征在于,包括:
采集用户语音的音频特征和文本的韵律特征;
将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入,得到该用户对应的发音器官运动轨迹;
利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。
2.如权利要求1所述的3D人脸动画合成方法,其特征在于,所述轨迹预测网络包括瓶颈网络和LTRCNN网络,所述瓶颈网络的输入数据为所述韵律特征、输出为用户的发音器官运动轨迹,所述LTRCNN网络的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出为所述发音器官运动轨迹。
3.如权利要求2所述的3D人脸动画合成方法,其特征在于,所述LTRCNN网络包括跨模态编码器和轨迹预测解码器,跨模态编码器的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出与轨迹预测解码器的输入连接,轨迹预测解码器的输出为所述发音器官运动轨迹。
4.如权利要求1所述的3D人脸动画合成方法,其特征在于,在所述采集用户语音的音频特征和文本的韵律特征之前,还包括:
采集被试用户的发音器官运动轨迹数据、与发音器官运动轨迹同步的语音信号以及语音信号对应的文本数据;
对语音信号和文本数据分别进行特征提取,得到语音信号的音频特征和文本数据对应的韵律特征,并将音频特征、韵律特征和发音器官运动轨迹数据构建成样本集合;
利用样本集合中的样本数据对所述轨迹预测网络进行训练,得到所述训练好的轨迹预测网络。
5.如权利要求4所述的3D人脸动画合成方法,其特征在于,所述采集被试用户的发音器官运动轨迹数据、与发音器官运动轨迹同步的语音信号以及语音信号对应的文本数据,包括:
利用EMA设备采集所述被试用户的发音器官运动轨迹数据;
利用语音采集设备采集与所述被试用户的发音器官运动轨迹同步的语音信号;
利用语音识别技术对所述被试用户的语音信号进行文本合成,得到所述语音信号对应的文本数据。
6.如权利要求5所述的3D人脸动画合成方法,其特征在于,所述EMA设备的电磁换能器线圈放在所述被试用户的舌根的矢状面中线位置、舌中矢状面中线位置、舌尖矢状面中线位置、下颚矢状面中线位置、下唇矢状面中线位置以及上唇的矢状面中线位置。
7.如权利要求4所述的3D人脸动画合成方法,其特征在于,所述轨迹预测网络在欧氏距离损失的监督下完成训练,欧式距离损失函数为:
Figure FDA0002986670400000021
其中,
Figure FDA0002986670400000022
Figure FDA0002986670400000023
分别表示预测得到的发音器官运动x坐标和z坐标,x′和z′代表真实的发音器官运动x坐标和z坐标。
8.一种3D人脸动画合成系统,其特征在于,包括数据采集模块、运动轨迹预测模块和动画合成模块,其中:
数据采集模块用于采集用户语音的音频特征和文本的韵律特征;
运动轨迹预测模块用于将音频特征和韵律特征作为预先训练好的轨迹预测网络的输入,得到该用户对应的发音器官运动轨迹;
动画合成模块用于利用用户的发音器官运动轨迹驱动3D头部网络模型实现唇音同步的3D人脸动画合成。
9.如权利要求8所述的3D人脸动画合成系统,其特征在于,所述轨迹预测网络包括瓶颈网络和LTRCNN网络,所述LTRCNN网络包括跨模态编码器和轨迹预测解码器,所述瓶颈网络的输入数据为所述韵律特征、输出为发音器官运动轨迹,跨模态编码器的输入为所述音频特征、所述韵律特征以及从瓶颈网络的瓶颈层提取得到的瓶颈特征、输出与轨迹预测解码器的输入连接,轨迹预测解码器的输出为所述发音器官运动轨迹。
10.如权利要求8所述的3D人脸动画合成系统,其特征在于,还包括网络训练模块,其用于对所述轨迹预测网络进行训练,得到训练好的轨迹预测网络,所述轨迹预测网络在欧氏距离损失的监督下完成训练,欧式距离损失函数为:
Figure FDA0002986670400000031
其中,
Figure FDA0002986670400000032
Figure FDA0002986670400000033
分别表示预测得到的发音器官运动x坐标和z坐标,x′和z′代表真实的发音器官运动x坐标和z坐标。
CN202110302138.7A 2021-03-22 2021-03-22 一种3d人脸动画合成方法及系统 Pending CN113160366A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110302138.7A CN113160366A (zh) 2021-03-22 2021-03-22 一种3d人脸动画合成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110302138.7A CN113160366A (zh) 2021-03-22 2021-03-22 一种3d人脸动画合成方法及系统

Publications (1)

Publication Number Publication Date
CN113160366A true CN113160366A (zh) 2021-07-23

Family

ID=76887791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110302138.7A Pending CN113160366A (zh) 2021-03-22 2021-03-22 一种3d人脸动画合成方法及系统

Country Status (1)

Country Link
CN (1) CN113160366A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114401431A (zh) * 2022-01-19 2022-04-26 中国平安人寿保险股份有限公司 一种虚拟人讲解视频生成方法及相关装置
WO2023080806A1 (en) * 2021-11-08 2023-05-11 Nvidia Corporation Synthetic audio-driven body animation using voice tempo

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082345A1 (en) * 2008-09-26 2010-04-01 Microsoft Corporation Speech and text driven hmm-based body animation synthesis
CN103218841A (zh) * 2013-04-26 2013-07-24 中国科学技术大学 结合生理模型和数据驱动模型的三维发音器官动画方法
CN103258340A (zh) * 2013-04-17 2013-08-21 中国科学技术大学 富有情感表达能力的三维可视化中文普通话发音词典的发音方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082345A1 (en) * 2008-09-26 2010-04-01 Microsoft Corporation Speech and text driven hmm-based body animation synthesis
CN103258340A (zh) * 2013-04-17 2013-08-21 中国科学技术大学 富有情感表达能力的三维可视化中文普通话发音词典的发音方法
CN103218841A (zh) * 2013-04-26 2013-07-24 中国科学技术大学 结合生理模型和数据驱动模型的三维发音器官动画方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
于灵云: "基于发音器官运动轨迹驱动的三维人脸动画", 《博士电子期刊》, pages 2 - 4 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023080806A1 (en) * 2021-11-08 2023-05-11 Nvidia Corporation Synthetic audio-driven body animation using voice tempo
CN114401431A (zh) * 2022-01-19 2022-04-26 中国平安人寿保险股份有限公司 一种虚拟人讲解视频生成方法及相关装置
CN114401431B (zh) * 2022-01-19 2024-04-09 中国平安人寿保险股份有限公司 一种虚拟人讲解视频生成方法及相关装置

Similar Documents

Publication Publication Date Title
Hong et al. Real-time speech-driven face animation with expressions using neural networks
Sifakis et al. Simulating speech with a physics-based facial muscle model
CN104361620B (zh) 一种基于综合加权算法的口型动画合成方法
CN113378806B (zh) 一种融合情感编码的音频驱动人脸动画生成方法及系统
CN101488346B (zh) 语音可视化系统及语音可视化方法
Wang et al. Phoneme-level articulatory animation in pronunciation training
CN113256821B (zh) 一种三维虚拟形象唇形生成方法、装置及电子设备
CN106898363A (zh) 一种声乐学习电子辅助发音系统
CN103218842A (zh) 一种语音同步驱动三维人脸口型与面部姿势动画的方法
CN103279970A (zh) 一种实时的语音驱动人脸动画的方法
Badin et al. An audiovisual talking head for augmented speech generation: models and animations based on a real speaker’s articulatory data
CN113160366A (zh) 一种3d人脸动画合成方法及系统
JPH02234285A (ja) 画像合成方法及びその装置
Goto et al. Automatic face cloning and animation using real-time facial feature tracking and speech acquisition
CN102820030A (zh) 发音器官可视语音合成系统
CN113838174A (zh) 一种音频驱动人脸动画生成方法、装置、设备与介质
Albrecht et al. Speech synchronization for physics-based facial animation
Hong et al. iFACE: a 3D synthetic talking face
Ma et al. Accurate automatic visible speech synthesis of arbitrary 3D models based on concatenation of diviseme motion capture data
JP5030150B2 (ja) 筋電位信号による音声認識装置
Li et al. A novel speech-driven lip-sync model with CNN and LSTM
Kolesnik Conducting gesture recognition, analysis and performance system
Csapó Extending text-to-speech synthesis with articulatory movement prediction using ultrasound tongue imaging
Mahavidyalaya Phoneme and viseme based approach for lip synchronization
Edge et al. Model-based synthesis of visual speech movements from 3D video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination