CN113592985A - 混合变形值的输出方法及装置、存储介质、电子装置 - Google Patents
混合变形值的输出方法及装置、存储介质、电子装置 Download PDFInfo
- Publication number
- CN113592985A CN113592985A CN202110901418.XA CN202110901418A CN113592985A CN 113592985 A CN113592985 A CN 113592985A CN 202110901418 A CN202110901418 A CN 202110901418A CN 113592985 A CN113592985 A CN 113592985A
- Authority
- CN
- China
- Prior art keywords
- audio
- target
- layer
- coding
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000013598 vector Substances 0.000 claims abstract description 126
- 230000001364 causal effect Effects 0.000 claims abstract description 13
- 230000008921 facial expression Effects 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 230000001815 facial effect Effects 0.000 claims description 6
- 230000001133 acceleration Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 101100011511 Mus musculus Elovl6 gene Proteins 0.000 description 1
- 208000003028 Stuttering Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请实施例提供了一种混合变形值的输出方法及装置、存储介质、电子装置,所述方法包括:对获取的目标音频数据进行特征提取,得到目标音频特征向量;将目标音频特征向量和目标标识输入音频驱动动画模型;将目标音频特征向量输入包含多层卷积层的音频编码层,根据上一层t时刻和t‑n时刻之间的输入特征向量确定下一层(2t‑n)/2时刻的输入特征向量,将与上一层的输入特征向量有因果关系的特征向量确定为有效特征向量,依次根据每一层的有效特征向量输出目标音频编码特征,并将目标标识输入独热编码层进行二进制向量编码,得到目标标识编码特征;根据目标音频编码特征和目标标识编码特征,通过音频驱动动画模型输出目标音频数据对应的混合变形值。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种混合变形值的输出方法及装置、存储介质、电子装置。
背景技术
语音驱动三维人脸动画的研究是自然人机交互领域的重要内容。语音驱动三维人脸动画合成是对真人录音或者使用从文本到语音(Text To Speech,简称为TTS)技术合成的语音进行预处理,使之驱动虚拟的三维人脸头像上合成与语音对应的口型动画(lipanimation)和面部表情(facial expressions)。
相关技术中,语音驱动三维人脸动画的研究主要集中在合成同步、精确的口型动画,以及通过语音分析实现对面部表情的分类上,目前还没有一个较好的方法来实现语音同时驱动虚拟人的口型动画和面部表情。缺乏面部表情会使得语音驱动虚拟人的表情木讷、呆滞,没有较为丰富的信息反馈,降低了人机交互的可理解性和认知度。
针对相关技术中,无法有效实现语音同时驱动虚拟对象的口型动画和面部表情的技术问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种混合变形值的输出方法及装置、存储介质、电子装置,以至少解决相关技术中无法有效实现语音同时驱动虚拟对象的口型动画和面部表情的技术问题。
在本申请的一个实施例中,提出了一种混合变形值的输出方法,包括:对获取的目标音频数据进行特征提取,得到目标音频特征向量;将所述目标音频特征向量和目标标识输入音频驱动动画模型,其中,所述目标标识为从预设标识中选取的标识,所述预设标识用于指示预设的说话风格,所述音频驱动动画模型包括:音频编码层和独热编码层;将所述目标音频特征向量输入包含多层卷积层的所述音频编码层,根据上一层t时刻和t-n时刻之间的输入特征向量确定下一层(2t-n)/2时刻的输入特征向量,将与上一层的输入特征向量有因果关系的特征向量确定为有效特征向量,依次根据每一层的有效特征向量输出目标音频编码特征,并将所述目标标识输入所述独热编码层进行二进制向量编码,得到目标标识编码特征,其中,n<t;根据所述目标音频编码特征和所述目标标识编码特征,通过所述音频驱动动画模型输出所述目标音频数据对应的混合变形值,其中,所述混合变形值用于指示虚拟对象的口型动画和面部表情,所述混合变形值与所述目标标识相对应。
在本申请的一个实施例中,还提出了一种混合变形值的输出装置,包括特征提取模块,配置为对获取的目标音频数据进行特征提取,得到目标音频特征向量;输入模块,配置为将所述目标音频特征向量和目标标识输入音频驱动动画模型,其中,所述目标标识为从预设标识中选取的标识,所述预设标识用于指示预设的说话风格,所述音频驱动动画模型包括:音频编码层和独热编码层;编码模块,配置为将所述目标音频特征向量输入包含多层卷积层的所述音频编码层,根据上一层t时刻和t-n时刻之间的输入特征向量确定下一层(2t-n)/2时刻的输入特征向量,将与上一层的输入特征向量有因果关系的特征向量确定为有效特征向量,依次根据每一层的有效特征向量输出目标音频编码特征,并将所述目标标识输入所述独热编码层进行二进制向量编码,得到目标标识编码特征,其中,n<t;输出模块,配置为根据所述目标音频编码特征和所述目标标识编码特征,通过所述音频驱动动画模型输出所述目标音频数据对应的混合变形值,其中,所述混合变形值用于指示虚拟对象的口型动画和面部表情,所述混合变形值与所述目标标识相对应。
在本申请的一个实施例中,还提出了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在本申请的一个实施例中,还提出了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本申请实施例,对获取的目标音频数据进行特征提取,得到目标音频特征向量;将目标音频特征向量和目标标识输入音频驱动动画模型,其中,目标标识为从预设标识中选取的标识,预设标识用于指示预设的说话风格,音频驱动动画模型包括:音频编码层和独热编码层;将目标音频特征向量输入包含多层卷积层的音频编码层,根据上一层t时刻和t-n时刻之间的输入特征向量确定下一层(2t-n)/2时刻的输入特征向量,将与上一层的输入特征向量有因果关系的特征向量确定为有效特征向量,依次根据每一层的有效特征向量输出目标音频编码特征,并将目标标识输入独热编码层进行二进制向量编码,得到目标标识编码特征,其中,n<t;根据目标音频编码特征和目标标识编码特征,通过音频驱动动画模型输出目标音频数据对应的混合变形值,其中,混合变形值用于指示虚拟对象的口型动画和面部表情,混合变形值与目标标识相对应。解决了相关技术中无法有效实现语音同时驱动虚拟对象的口型动画和面部表情的技术问题,本申请使用的编码方式相对于现有的卷积神经网络的编码方式,计算速度快,消耗小,极大的提高了动画生成速度,可以根据音频实时产生说话动画,同时结合目标标识编码,可以产生指定人物风格的说话动画,适用于多种应用场景。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种可选的混合变形值的输出方法流程图;
图2是根据本申请实施例的一种可选的音频特征编码方式示意图;
图3是根据本申请实施例的一种可选的训练数据预处理流程示意图;
图4是根据本申请实施例的一种可选的音频驱动动画模型的训练过程示意图;
图5是根据本申请实施例的一种可选的混合变形值的输出装置的结构框图;
图6是根据本申请实施例的一种可选的电子装置结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
如图1所示,本申请实施例提供了一种混合变形值的输出方法,包括:
步骤S102,对获取的目标音频数据进行特征提取,得到目标音频特征向量;
步骤S104,将目标音频特征向量和目标标识输入音频驱动动画模型,其中,目标标识为从预设标识中选取的标识,预设标识用于指示预设的说话风格,音频驱动动画模型包括:音频编码层和独热编码层;
步骤S106,将目标音频特征向量输入包含多层卷积层的音频编码层,根据上一层t时刻和t-n时刻之间的输入特征向量确定下一层(2t-n)/2时刻的输入特征向量,将与上一层的输入特征向量有因果关系的特征向量确定为有效特征向量,依次根据每一层的有效特征向量输出目标音频编码特征,并将目标标识输入独热编码层进行二进制向量编码,得到目标标识编码特征,其中,n<t;
步骤S108,根据目标音频编码特征和目标标识编码特征,通过音频驱动动画模型输出目标音频数据对应的混合变形值,其中,混合变形值用于指示虚拟对象的口型动画和面部表情,混合变形值与目标标识相对应。
需要说明的是,本申请实施例技术方案所涉及网络构架包括:音频接收设备,动画展示设备,人工智能服务器,上述混合变形值的输出方法在人工智能服务器上实现。本申请实施例中的音频接收设备,动画展示设备不限于独立的设备,也可集成于其它具有拾音功能跟动画展示的硬件设备,如具备语音识别功能的LED大屏或者手机终端等。本申请实施例对此不做限定。
本申请实施例中涉及的预设标识用于指示预设的说话风格,可以理解为,对应指示不同风格说话人在说话时的面部表情,口型等。
需要说明的是,本申请实施例中通过音频编码层对目标音频特征进行编码的过程,如图2所示。音频编码层可以包括输入层、多层卷积层和输出层,为了直观地展示编码过程,图2中以2层卷积层为例进行说明。根据上一层t时刻和t-n时刻之间的输入特征向量确定下一层(2t-n)/2时刻的输入特征向量,本申请实施例中,以n=2为例,根据输入层t、t-1和t-2时刻的输入特征向量确定第一卷积层t-1时刻的输入特征向量,并确定为有效特征向量,然后根据第一卷积层的有效特征向量可以确定第二卷积层的有效特征向量,进而通过输出层输出目标音频编码特征。结合附图2可以看出,相比于传统的循环神经网络结构,本申请实施例的音频编码层既可以获取序列的时序信息而且有计算速度快,消耗小的优点,而且越到上层,卷积层中空闲的卷积通道越多,由该空闲的卷积通道所形成的卷积窗口越大。
上述音频编码层在实际计算过程中,对于某个卷积层而言,其存在的卷积窗口可在当前时序用于学习上一卷积层在之前时序对应的输出(之前时序可以为一个或多个,可根据需求进行设定,例如,在每次计算过程中学习上一卷积层分别在之前三个时序对应的输出),即在当前时序卷积层根据之前时序的输入综合计算当前时刻的输出。以此,本实施例中的音频编码层在进行计算过程中,并不需要额外设置卷积层去实现针对上一卷积层在之前时序对应的输出进行计算,而通过卷积层自身的卷积窗口即可实现该效果。
较于相关技术中,在引入更多计算参数而必要额外扩展多个卷积层的模型结构而言,本实施例中的音频编码层可显著减少卷积层的数量,例如,对于一个由三层卷积层构成的音频编码层的网络结构,设定卷积层在计算过程中需学习上一卷积层分别在之前三个时序对应的输出,则采用相关技术中的传统方式,需要对音频编码层中后两个卷积层分别扩展三个卷积层,对应学习上一卷积层分别在之前三个时序对应的输出,扩展后的音频编码层包括九个卷积层,其网络体积明显得以增加。相较之下,本实施例中的音频编码层不需要对卷积层进行额外扩展,通过音频编码层的三个卷积层中后两个卷积层的卷积窗口即可实现该效果。因此,本实施例中的音频编码层可在通过因果关系的学习提高模型效果的同时,显著控制模型的体积。
在一实施例中,在将音频特征向量和目标标识输入音频驱动动画模型之前,所述方法还包括:
使用样本数据训练音频驱动动画模型,其中,样本数据包括采集的说话对象的音频数据和与音频数据同步采集的说话对象的面部数据,以及面部数据对应的混合变形样本值,面部数据包括口型和面部表情。
需要说明的是,在使用样本数据训练音频驱动动画模型之前,本申请实施例还包括一个对音频数据预处理的流程,预处理过程包括数据采集,数据筛选,数据优化三部分构成,整体流程图如图3所示。
以使用iphone作为数据采集设备为例,iphone作为数据采集设备,得益于iphone的结构光和内置的arkit技术,可以实现成本较低的实时面部捕捉。在实际数据采集时,可以采用40句固定的话,20名演员在相同环境下对着iphone进行带有特定表情的说话。利用iphone记录演员说话时候的音频,以及每一帧arkit自带的52个混合形状(blendshape,简称为bs)的变化值。之后进行数据筛选,由人工筛出质量较好的数据,排除各种环境原因或者演员失误。最后考虑到数据的准确性,让动画师对数据进行手动优化,针对数据中不准确的部分,使用手动制作动画的方式进行优化。优化有的数据为后面可以使用的训练数据。
在一实施例中,使用样本数据训练所述音频驱动动画模型,包括:
通过自动语音识别模型提取音频数据的局部特征向量;
将局部特征向量输入包含多层卷积层的音频编码层,根据上一层t时刻和t-n时刻之间的输入特征向量确定下一层(2t-n)/2时刻的输入特征向量,将与上一层的输入特征向量有因果关系的特征向量确定为有效局部特征向量,依次根据每一层的有效局部特征向量输出音频数据对应的音频编码特征;
将说话对象的面部数据对应的标识输入独热编码层,得到标识对应的标识编码特征,其中,不同的面部数据对应不同的说话风格,标识用于指示说话风格;
将音频编码特征和标识编码特征拼接后进行编码和解码,输出音频数据对应的混合变形预测值,其中,混合变形预测值与标识相对应;
根据混合变形样本值和混合变形预测值的误差,使用损失函数训练音频驱动动画模型的模型参数。
需要说明的是,在实际使用时,考虑到声音接收设备以及声音来源的多种多样,需要一种具有泛化性的音频特征提取方式,因此选用自动语音识别模型对语音进行特征提取,比如masr,deepspeech模型等。通过获取中间层的特征来对音频进行特征提取。这样做的好处是语音识别模型经过了大量语料的训练,获取的音频特征对不同语种,不同接受设备,不同说话人都有较好的泛化性。
训练模块采用深度学习网络,输入为音频特征以及录制数据时的用户id(相当于标识),输出为对应时间的blendshape值。为了保留说话时的面部表情,对不同录制人员的说话风格进行编码,在这里采用独热编码onehot方式进行直接编码。音频编码中既包含通用的发音信息,也包含少量的个性化说话风格信息。
在一实施例中,根据混合变形样本值和混合变形预测值的误差,使用损失函数训练音频驱动动画模型的模型参数,包括:
使用L2 loss函数获取混合变形样本值和混合变形预测值的重构误差、速度误差以及加速度误差;
根据重构误差、速度误差以及加速度误差训练音频驱动动画模型的模型参数。
需要说明的是,训练时可以采用l2loss函数,为了复现捕捉到的blendshape系数,计算真实blendshape系数与预测blendshape系数直接的l2误差,为了让预测效果更准确更平稳,可以计算1-3阶的误差,物理意义分别对应重构误差,速度误差,以及加速度误差。
在一实施例中,将音频编码特征和标识编码特征拼接后进行编码和解码,包括:
将音频编码特征和标识编码特征拼接后输入编码层,得到拼接特征编码,其中,编码层包含三层全连接网络层;
将拼接特征编码输入解码层,通过解码层输出标识对应的混合变形预测值,其中,解码层包含三层全连接网络层。
在一实施例中,根据目标音频编码特征和目标标识编码特征,通过音频驱动动画模型输出目标音频数据对应的混合变形值,包括:
将目标音频编码特征和目标标识编码特征拼接后进行编码和解码,输出目标音频数据对应的混合变形值。
如图4所示,音频驱动动画模型的训练过程包括特征编码,特征拼接,以及混合变形值的输出。为了能实现更加真实的三维人脸动画,将用户编码(相当于目标标识编码)与音频编码进行拼接,在保证发音信息足够泛化的同时,加入人物个性化信息,以此来实现口型动画和面部表情的较好复现。拼接后的特征送入encoder,decoder架构的网络中,decoder模块的输出即为最终的blendshape系数,其中encoder与decoder均可以由三层全连接网络构成。
在一实施例中,在输出目标音频数据对应的混合变形值之后,所述方法还包括:
根据目标音频数据对应的混合变形值以及目标标识对应的三维场景在显示屏上显示与混合变形值对应的视频画面。
在实际驱动时,首先通过音频接收设备获得音频,然后采用音频预处理模块对音频进行特征提取,用户id预设为想要的说话风格的id,两者一起输入预先训练好的音频驱动三维人脸动画模型中,输出对应帧的bs值,将bs值传输到ue4(虚幻引擎)中,ue4中已经内置好各种场景以及需要的blendshape,通过ue4渲染到多种终端设备上。
本申请实施例还提供了一种混合变形值的输出装置,如图5所示,包括:
特征提取模块502,配置为对获取的目标音频数据进行特征提取,得到目标音频特征向量;
输入模块504,配置为将目标音频特征向量和目标标识输入音频驱动动画模型,其中,目标标识为从预设标识中选取的标识,预设标识用于指示预设的说话风格,音频驱动动画模型包括:音频编码层和独热编码层;
编码模块506,配置为将目标音频特征向量输入包含多层卷积层的所述音频编码层,根据上一层t时刻和t-n时刻之间的输入特征向量确定下一层(2t-n)/2时刻的输入特征向量,将与上一层的输入特征向量有因果关系的特征向量确定为有效特征向量,依次根据每一层的有效特征向量输出目标音频编码特征,并将目标标识输入所述独热编码层进行二进制向量编码,得到目标标识编码特征,其中,n<t;
输出模块508,配置为根据目标音频编码特征和目标标识编码特征,通过音频驱动动画模型输出目标音频数据对应的混合变形值,其中,混合变形值用于指示虚拟对象的口型动画和面部表情,混合变形值与目标标识相对应。
在一示例性实施例中,以手机终端的模仿用户说话为例进行说明,用户通过手机终端程序进行收音,音频设备获得音频,然后采用音频预处理模块对音频进行特征提取,用户id预设为我们想要的说话风格的id,两者一起输入预先训练好的音频驱动三维人脸动画模型中,输出对应帧的bs值,将bs值传输到ue4(虚幻引擎)中,ue4中已经内置好各种场景以及需要的blendshape,通过ue4渲染到手机上。
在另一示例性实施例中,以大屏幕的播放广告为例进行说明,通过内置录音或者内部的从文本到语音(Text To Speech,简称为TTS)系统获得获得音频,然后采用音频预处理模块对音频进行特征提取,用户id预设为我们想要的说话风格的id,两者一起输入预先训练好的音频驱动三维人脸动画模型中,输出对应帧的bs值,将bs值传输到ue4(虚幻引擎)中,ue4中已经内置好各种场景以及需要的blendshape,通过ue4渲染到大屏上。
本申请实施例的音频驱动动画模型通过音频编码方式代替领域内传统使用的RNN极大的提高了动画生成速度,可以根据音频实时产生说话动画。本申请实施例的音频编码方式结合说话人编码,可以同时实现口型动画和面部表情的较好复现。本申请实施例的音频驱动动画模型通过对说话人编码,可以产生指定人物风格的说话动画,适用于多种应用场景。同时可以接收不同语种,不同收声设备,不同说话人的说话音频,且支持TTS,适用于多种应用场景。
根据本申请实施例的又一个方面,还提供了一种用于实施上述混合变形值的输出方法的电子装置,上述电子装置可以但不限于应用于服务器中。如图6所示,该电子装置包括存储器602和处理器604,该存储器602中存储有计算机程序,该处理器604被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,对获取的目标音频数据进行特征提取,得到目标音频特征向量;
S2,将目标音频特征向量和目标标识输入音频驱动动画模型,其中,目标标识为从预设标识中选取的标识,预设标识用于指示预设的说话风格,音频驱动动画模型包括:音频编码层和独热编码层;
S3,将目标音频特征向量输入包含多层卷积层的音频编码层,根据上一层t时刻和t-n时刻之间的输入特征向量确定下一层(2t-n)/2时刻的输入特征向量,将与上一层的输入特征向量有因果关系的特征向量确定为有效特征向量,依次根据每一层的有效特征向量输出目标音频编码特征,并将目标标识输入独热编码层进行二进制向量编码,得到目标标识编码特征,其中,n<t;
S4,根据目标音频编码特征和目标标识编码特征,通过音频驱动动画模型输出目标音频数据对应的混合变形值,其中,混合变形值用于指示虚拟对象的口型动画和面部表情,混合变形值与目标标识相对应。
可选地,本领域普通技术人员可以理解,图6所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图6中所示更多或者更少的组件(如网络接口等),或者具有与图6所示不同的配置。
其中,存储器602可用于存储软件程序以及模块,如本申请实施例中的混合变形值的输出方法和装置对应的程序指令/模块,处理器604通过运行存储在存储器602内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的混合变形值的输出方法。存储器602可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器602可进一步包括相对于处理器604远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器602具体可以但不限于用于混合变形值的输出方法的程序步骤。
可选地,上述的传输装置606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置606包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置606为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:显示器608,用于显示训练过程;和连接总线610,用于连接上述电子装置中的各个模块部件。
本申请的实施例还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,对获取的目标音频数据进行特征提取,得到目标音频特征向量;
S2,将目标音频特征向量和目标标识输入音频驱动动画模型,其中,目标标识为从预设标识中选取的标识,预设标识用于指示预设的说话风格,音频驱动动画模型包括:音频编码层和独热编码层;
S3,将目标音频特征向量输入包含多层卷积层的音频编码层,根据上一层t时刻和t-n时刻之间的输入特征向量确定下一层(2t-n)/2时刻的输入特征向量,将与上一层的输入特征向量有因果关系的特征向量确定为有效特征向量,依次根据每一层的有效特征向量输出目标音频编码特征,并将目标标识输入独热编码层进行二进制向量编码,得到目标标识编码特征,其中,n<t;
S4,根据目标音频编码特征和目标标识编码特征,通过音频驱动动画模型输出目标音频数据对应的混合变形值,其中,混合变形值用于指示虚拟对象的口型动画和面部表情,混合变形值与目标标识相对应。
可选地,存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序,本实施例中对此不再赘述。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种混合变形值的输出方法,其特征在于,包括:
对获取的目标音频数据进行特征提取,得到目标音频特征向量;
将所述目标音频特征向量和目标标识输入音频驱动动画模型,其中,所述目标标识为从预设标识中选取的标识,所述预设标识用于指示预设的说话风格,所述音频驱动动画模型包括:音频编码层和独热编码层;
将所述目标音频特征向量输入包含多层卷积层的所述音频编码层,根据上一层t时刻和t-n时刻之间的输入特征向量确定下一层(2t-n)/2时刻的输入特征向量,将与上一层的输入特征向量有因果关系的特征向量确定为有效特征向量,依次根据每一层的有效特征向量输出目标音频编码特征,并将所述目标标识输入所述独热编码层进行二进制向量编码,得到目标标识编码特征,其中,n<t;
根据所述目标音频编码特征和所述目标标识编码特征,通过所述音频驱动动画模型输出所述目标音频数据对应的混合变形值,其中,所述混合变形值用于指示虚拟对象的口型动画和面部表情,所述混合变形值与所述目标标识相对应。
2.根据权利要求1所述的方法,其特征在于,在将所述音频特征向量和目标标识输入音频驱动动画模型之前,所述方法还包括:
使用样本数据训练所述音频驱动动画模型,其中,所述样本数据包括采集的说话对象的音频数据和与所述音频数据同步采集的所述说话对象的面部数据,以及所述面部数据对应的混合变形样本值,所述面部数据包括口型和面部表情。
3.根据权利要求2所述的方法,其特征在于,所述使用样本数据训练所述音频驱动动画模型,包括:
通过自动语音识别模型提取所述音频数据的局部特征向量;
将所述局部特征向量输入包含多层卷积层的所述音频编码层,根据上一层t时刻和t-n时刻之间的输入特征向量确定下一层(2t-n)/2时刻的输入特征向量,将与上一层的输入特征向量有因果关系的特征向量确定为有效局部特征向量,依次根据每一层的有效局部特征向量输出所述音频数据对应的音频编码特征;
将所述说话对象的面部数据对应的标识输入独热编码层,得到所述标识对应的标识编码特征,其中,不同的所述面部数据对应不同的说话风格,所述标识用于指示所述说话风格;
将所述音频编码特征和所述标识编码特征拼接后进行编码和解码,输出所述音频数据对应的混合变形预测值,其中,所述混合变形预测值与所述标识相对应;
根据所述混合变形样本值和所述混合变形预测值的误差,使用损失函数训练所述音频驱动动画模型的模型参数。
4.根据权利要求3所述的方法,其特征在于,所述根据所述混合变形样本值和所述混合变形预测值的误差,使用损失函数训练所述音频驱动动画模型的模型参数,包括:
使用L2 loss函数获取所述混合变形样本值和所述混合变形预测值的重构误差、速度误差以及加速度误差;
根据所述重构误差、所述速度误差以及所述加速度误差训练所述音频驱动动画模型的模型参数。
5.根据权利要求3所述的方法,其特征在于,所述将所述音频编码特征和所述标识编码特征拼接后进行编码和解码,包括:
将所述音频编码特征和所述标识编码特征拼接后输入编码层,得到拼接特征编码,其中,所述编码层包含三层全连接网络层;
将所述拼接特征编码输入解码层,通过所述解码层输出所述标识对应的混合变形预测值,其中,所述解码层包含三层全连接网络层。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标音频编码特征和所述目标标识编码特征,通过所述音频驱动动画模型输出所述目标音频数据对应的混合变形值,包括:
将所述目标音频编码特征和所述目标标识编码特征拼接后进行编码和解码,输出所述目标音频数据对应的混合变形值。
7.根据权利要求1所述的方法,其特征在于,在输出所述目标音频数据对应的混合变形值之后,所述方法还包括:
根据所述目标音频数据对应的混合变形值以及所述目标标识对应的三维场景在显示屏上显示与所述混合变形值对应的视频画面。
8.一种混合变形值的输出装置,其特征在于,包括:
特征提取模块,配置为对获取的目标音频数据进行特征提取,得到目标音频特征向量;
输入模块,配置为将所述目标音频特征向量和目标标识输入音频驱动动画模型,其中,所述目标标识为从预设标识中选取的标识,所述预设标识用于指示预设的说话风格,所述音频驱动动画模型包括:音频编码层和独热编码层;
编码模块,配置为将所述目标音频特征向量输入包含多层卷积层的所述音频编码层,根据上一层t时刻和t-n时刻之间的输入特征向量确定下一层(2t-n)/2时刻的输入特征向量,将与上一层的输入特征向量有因果关系的特征向量确定为有效特征向量,依次根据每一层的有效特征向量输出目标音频编码特征,并将所述目标标识输入所述独热编码层进行二进制向量编码,得到目标标识编码特征,其中,n<t;
输出模块,配置为根据所述目标音频编码特征和所述目标标识编码特征,通过所述音频驱动动画模型输出所述目标音频数据对应的混合变形值,其中,所述混合变形值用于指示虚拟对象的口型动画和面部表情,所述混合变形值与所述目标标识相对应。
9.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至7任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7任一项中所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210723651.8A CN115272537A (zh) | 2021-08-06 | 2021-08-06 | 基于因果卷积的音频驱动表情方法及装置 |
CN202110901418.XA CN113592985B (zh) | 2021-08-06 | 2021-08-06 | 混合变形值的输出方法及装置、存储介质、电子装置 |
US17/926,563 US11847726B2 (en) | 2021-08-06 | 2022-07-22 | Method for outputting blend shape value, storage medium, and electronic device |
PCT/CN2022/107491 WO2023011221A1 (zh) | 2021-08-06 | 2022-07-22 | 混合变形值的输出方法及存储介质、电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110901418.XA CN113592985B (zh) | 2021-08-06 | 2021-08-06 | 混合变形值的输出方法及装置、存储介质、电子装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210723651.8A Division CN115272537A (zh) | 2021-08-06 | 2021-08-06 | 基于因果卷积的音频驱动表情方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113592985A true CN113592985A (zh) | 2021-11-02 |
CN113592985B CN113592985B (zh) | 2022-06-17 |
Family
ID=78255844
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110901418.XA Active CN113592985B (zh) | 2021-08-06 | 2021-08-06 | 混合变形值的输出方法及装置、存储介质、电子装置 |
CN202210723651.8A Withdrawn CN115272537A (zh) | 2021-08-06 | 2021-08-06 | 基于因果卷积的音频驱动表情方法及装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210723651.8A Withdrawn CN115272537A (zh) | 2021-08-06 | 2021-08-06 | 基于因果卷积的音频驱动表情方法及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11847726B2 (zh) |
CN (2) | CN113592985B (zh) |
WO (1) | WO2023011221A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114495908A (zh) * | 2022-02-08 | 2022-05-13 | 北京中科深智科技有限公司 | 一种基于时序卷积的语音驱动口型的方法和系统 |
CN115086121A (zh) * | 2022-06-15 | 2022-09-20 | Oppo广东移动通信有限公司 | 预失真参数值的确定方法、装置、终端及存储介质 |
CN115311731A (zh) * | 2022-10-10 | 2022-11-08 | 之江实验室 | 一种手语数字人的表情生成方法和装置 |
WO2023011221A1 (zh) * | 2021-08-06 | 2023-02-09 | 南京硅基智能科技有限公司 | 混合变形值的输出方法及存储介质、电子装置 |
CN116188640A (zh) * | 2022-12-09 | 2023-05-30 | 北京百度网讯科技有限公司 | 三维虚拟形象的生成方法、装置、设备和介质 |
CN117710541A (zh) * | 2023-12-29 | 2024-03-15 | 南京硅基智能科技有限公司 | 音频驱动三维人脸动画模型的生成方法、装置及设备 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116188649B (zh) * | 2023-04-27 | 2023-10-13 | 科大讯飞股份有限公司 | 基于语音的三维人脸模型驱动方法及相关装置 |
CN116468826B (zh) * | 2023-06-16 | 2023-10-27 | 北京百度网讯科技有限公司 | 表情生成模型的训练方法、表情生成的方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060290699A1 (en) * | 2003-09-30 | 2006-12-28 | Nevenka Dimtrva | System and method for audio-visual content synthesis |
US20170039750A1 (en) * | 2015-03-27 | 2017-02-09 | Intel Corporation | Avatar facial expression and/or speech driven animations |
CN109979429A (zh) * | 2019-05-29 | 2019-07-05 | 南京硅基智能科技有限公司 | 一种tts的方法及系统 |
US20200302667A1 (en) * | 2019-03-21 | 2020-09-24 | Electronic Arts Inc. | Generating Facial Position Data based on Audio Data |
US20200380949A1 (en) * | 2018-07-25 | 2020-12-03 | Tencent Technology (Shenzhen) Company Limited | Voice synthesis method, model training method, device and computer device |
US20210056348A1 (en) * | 2019-08-19 | 2021-02-25 | Neon Evolution Inc. | Methods and systems for image and voice processing |
CN112786009A (zh) * | 2021-02-26 | 2021-05-11 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
CN113035228A (zh) * | 2021-03-23 | 2021-06-25 | 广州酷狗计算机科技有限公司 | 声学特征提取方法、装置、设备及存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180276185A1 (en) * | 2013-06-27 | 2018-09-27 | Plotagon Ab Corporation | System, apparatus and method for formatting a manuscript automatically |
US10878837B1 (en) * | 2017-03-01 | 2020-12-29 | Snap Inc. | Acoustic neural network scene detection |
US10839825B2 (en) * | 2017-03-03 | 2020-11-17 | The Governing Council Of The University Of Toronto | System and method for animated lip synchronization |
US20190095775A1 (en) * | 2017-09-25 | 2019-03-28 | Ventana 3D, Llc | Artificial intelligence (ai) character system capable of natural verbal and visual interactions with a human |
US11238885B2 (en) * | 2018-10-29 | 2022-02-01 | Microsoft Technology Licensing, Llc | Computing system for expressive three-dimensional facial animation |
CN110751708B (zh) | 2019-10-21 | 2021-03-19 | 北京中科深智科技有限公司 | 一种实时的语音驱动人脸动画的方法和系统 |
US11417041B2 (en) * | 2020-02-12 | 2022-08-16 | Adobe Inc. | Style-aware audio-driven talking head animation from a single image |
US11461649B2 (en) * | 2020-03-19 | 2022-10-04 | Adobe Inc. | Searching for music |
CN111489424A (zh) | 2020-04-10 | 2020-08-04 | 网易(杭州)网络有限公司 | 虚拟角色表情生成方法、控制方法、装置和终端设备 |
US11587548B2 (en) * | 2020-06-12 | 2023-02-21 | Baidu Usa Llc | Text-driven video synthesis with phonetic dictionary |
CN113592985B (zh) * | 2021-08-06 | 2022-06-17 | 宿迁硅基智能科技有限公司 | 混合变形值的输出方法及装置、存储介质、电子装置 |
-
2021
- 2021-08-06 CN CN202110901418.XA patent/CN113592985B/zh active Active
- 2021-08-06 CN CN202210723651.8A patent/CN115272537A/zh not_active Withdrawn
-
2022
- 2022-07-22 WO PCT/CN2022/107491 patent/WO2023011221A1/zh active Application Filing
- 2022-07-22 US US17/926,563 patent/US11847726B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060290699A1 (en) * | 2003-09-30 | 2006-12-28 | Nevenka Dimtrva | System and method for audio-visual content synthesis |
US20170039750A1 (en) * | 2015-03-27 | 2017-02-09 | Intel Corporation | Avatar facial expression and/or speech driven animations |
US20200380949A1 (en) * | 2018-07-25 | 2020-12-03 | Tencent Technology (Shenzhen) Company Limited | Voice synthesis method, model training method, device and computer device |
US20200302667A1 (en) * | 2019-03-21 | 2020-09-24 | Electronic Arts Inc. | Generating Facial Position Data based on Audio Data |
CN109979429A (zh) * | 2019-05-29 | 2019-07-05 | 南京硅基智能科技有限公司 | 一种tts的方法及系统 |
US20210056348A1 (en) * | 2019-08-19 | 2021-02-25 | Neon Evolution Inc. | Methods and systems for image and voice processing |
CN112786009A (zh) * | 2021-02-26 | 2021-05-11 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
CN113035228A (zh) * | 2021-03-23 | 2021-06-25 | 广州酷狗计算机科技有限公司 | 声学特征提取方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
JOON SON CHUNG: "You said that?", 《ARXIV》 * |
王毅: "结合LSTM和CNN混合架构的深度神经", 《情报学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023011221A1 (zh) * | 2021-08-06 | 2023-02-09 | 南京硅基智能科技有限公司 | 混合变形值的输出方法及存储介质、电子装置 |
US11847726B2 (en) | 2021-08-06 | 2023-12-19 | Nanjing Silicon Intelligence Technology Co., Ltd. | Method for outputting blend shape value, storage medium, and electronic device |
CN114495908A (zh) * | 2022-02-08 | 2022-05-13 | 北京中科深智科技有限公司 | 一种基于时序卷积的语音驱动口型的方法和系统 |
CN115086121A (zh) * | 2022-06-15 | 2022-09-20 | Oppo广东移动通信有限公司 | 预失真参数值的确定方法、装置、终端及存储介质 |
CN115311731A (zh) * | 2022-10-10 | 2022-11-08 | 之江实验室 | 一种手语数字人的表情生成方法和装置 |
CN115311731B (zh) * | 2022-10-10 | 2023-01-31 | 之江实验室 | 一种手语数字人的表情生成方法和装置 |
CN116188640A (zh) * | 2022-12-09 | 2023-05-30 | 北京百度网讯科技有限公司 | 三维虚拟形象的生成方法、装置、设备和介质 |
CN116188640B (zh) * | 2022-12-09 | 2023-09-08 | 北京百度网讯科技有限公司 | 三维虚拟形象的生成方法、装置、设备和介质 |
CN117710541A (zh) * | 2023-12-29 | 2024-03-15 | 南京硅基智能科技有限公司 | 音频驱动三维人脸动画模型的生成方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115272537A (zh) | 2022-11-01 |
WO2023011221A1 (zh) | 2023-02-09 |
US11847726B2 (en) | 2023-12-19 |
US20230215068A1 (en) | 2023-07-06 |
CN113592985B (zh) | 2022-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113592985B (zh) | 混合变形值的输出方法及装置、存储介质、电子装置 | |
US11670015B2 (en) | Method and apparatus for generating video | |
WO2022166709A1 (zh) | 虚拟视频直播处理方法及装置、存储介质、电子设备 | |
CN103650002B (zh) | 基于文本的视频生成 | |
CN110880198A (zh) | 动画生成方法和装置 | |
CN114513678A (zh) | 面部信息的生成方法及装置 | |
CN113111812A (zh) | 一种嘴部动作驱动模型训练方法及组件 | |
CN116051692B (zh) | 一种基于语音驱动的三维数字人脸部动画生成方法 | |
CN116597857A (zh) | 一种语音驱动图像的方法、系统、装置及存储介质 | |
CN112785669A (zh) | 一种虚拟形象合成方法、装置、设备及存储介质 | |
CN113469292A (zh) | 视频合成模型的训练方法、合成方法、装置、介质和设备 | |
CN115376482A (zh) | 面部动作视频生成方法及装置、可读介质和电子设备 | |
CN116524791A (zh) | 一种基于元宇宙的唇语学习辅助训练系统及其应用 | |
CN115035604A (zh) | 一种音频驱动人物口型方法、模型及其训练方法 | |
CN113395569B (zh) | 视频生成方法及装置 | |
CN113223555A (zh) | 视频生成方法、装置、存储介质及电子设备 | |
CN115220682A (zh) | 一种音频驱动虚拟人像的方法、装置及电子设备 | |
CN111160051B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN117078816A (zh) | 一种虚拟形象的生成方法、装置、终端设备和存储介质 | |
CN116705038A (zh) | 基于语音分析的3d虚拟演讲者驱动方法及相关装置 | |
CN117119123A (zh) | 一种基于视频素材生成数字人视频的方法及系统 | |
CN116206008A (zh) | 口型图像的输出方法及装置、音频驱动口型网络模型 | |
CN116129860A (zh) | 基于ai人工智能技术的元宇宙虚拟人图书自动播报方法 | |
CN118052912A (zh) | 视频生成方法、装置、计算机设备及存储介质 | |
CN115409923A (zh) | 生成三维虚拟形象面部动画的方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |