CN116312613A - 数字人表情口型驱动方法、系统、电子设备和存储介质 - Google Patents
数字人表情口型驱动方法、系统、电子设备和存储介质 Download PDFInfo
- Publication number
- CN116312613A CN116312613A CN202310280729.8A CN202310280729A CN116312613A CN 116312613 A CN116312613 A CN 116312613A CN 202310280729 A CN202310280729 A CN 202310280729A CN 116312613 A CN116312613 A CN 116312613A
- Authority
- CN
- China
- Prior art keywords
- driving
- voice
- value
- model
- mouth shape
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 45
- 230000004927 fusion Effects 0.000 claims abstract description 26
- 238000012805 post-processing Methods 0.000 claims abstract description 11
- 238000005070 sampling Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 11
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 238000003786 synthesis reaction Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 abstract description 7
- 238000009792 diffusion process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 208000004350 Strabismus Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
Abstract
本公开的实施例提供一种数字人表情口型驱动方法、系统、电子设备和存储介质,方法包括:获取驱动语音;编码驱动语音,得到驱动语音的特征向量;输入驱动语音的特征向量至预先训练的拟合模型,生成口型blendshape值;采样眨眼blendshape值,拼接口型blendshape值和眨眼blendshape值,得到最终blendshape值;输入最终blendshape值至Unity客户端,得到数字人表情口型。本公开结合了Transformer模型和Gaussdiffusion模型的优势,拟合成更精准的blendshape特征参数集;同时利用模型融合和眨眼后处理优化,使生成的数字人表情和口型更加逼真。
Description
技术领域
本公开的实施例属于数字人技术领域,具体涉及一种数字人表情口型驱动方法、系统、电子设备和存储介质。
背景技术
随着数字人技术的发展,利用输入文本,利用语音合成可以得到对应的语音,对于给定的输入文本语音,通过设计的深度学习模型可以学习到数字人的表情口型的blendshape值,这个值和真人说话得到的blendshape越接近,数字人的表情越逼真,再把生成的blendshape返回给Unity客户端进行驱动,那么就可以生成数字人的表情口型。
对于给定输入文本或语音,生成高自然度的、唇音同步的人脸动画,Blendshape事一种动画制作方式,主要是人脸局部表情动作,再相邻的两个网格间做插值运算,从一个形状融合到另一个形状,根据blendshape参数,就可以生成数字人的人脸面部的动画。
发明专利《一种基于文本驱动的虚拟人微表情表达方法(公开号CN113838169A)》根据输入的文本合成语音,然后从合成语音中提取元音音素,利用Blendshape模型,根据文本的情感标签和元音音素得到动画,提出改进的多分辨率LPC分析语音中的共振峰信息,利用小波变换的多频带分解,可获取局部特征,可同时对频域及时域定位的特征,与LPC分析法相结合等。
发明专利《多模态交互的虚拟数字人的生成方法及装置、存储介质、中断(公开号CN114495927A)》利用语音生成模型、动画生成模型和对话模型完成使用者所期望的虚拟形象,通过给初始虚拟人配置交互能力模型,得到可进行多模态交互的虚拟交互人,生成虚拟数字人的应用程序和服务接口。
现有的数字人表情口型生成模型,其参数集的精准度还较低,生成的表情和口型的逼真度还有待提高。
发明内容
本公开的实施例旨在至少解决现有技术中存在的技术问题之一,提供一种数字人表情口型驱动方法、系统、电子设备和存储介质。
本公开的一个方面提供一种数字人表情口型驱动方法,包括:
获取驱动语音;
编码所述驱动语音,得到所述驱动语音的特征向量;
输入所述驱动语音的特征向量至预先训练的拟合模型,生成口型blendshape值;
采样眨眼blendshape值,拼接所述口型blendshape值和所述眨眼blendshape值,得到最终blendshape值;
输入所述最终blendshape值至Unity客户端,得到数字人表情口型。
可选的,所述获取驱动语音,包括:
获取驱动文本;
采用语音合成处理所述驱动文本,得到驱动语音。
可选的,所述输入所述驱动语音的特征向量至预先训练的拟合模型,得到口型blendshape值,包括:
分别对每个所述驱动语音的特征向量进行打分,得到各所述驱动语音的特征向量的语音得分;
采用模型融合处理各所述驱动语音的特征向量的语音得分,得到口型blendshape值。
可选的,所述拟合模型通过以下步骤训练得到:
获取训练驱动语音;
编码所述训练驱动语音,得到所述训练驱动语音的特征向量;
提高Transformer模型的拟合度,得到拟合模型;
根据所述训练驱动语音的特征向量训练所述拟合模型。
本公开的另一个方面提供一种数字人表情口型驱动,包括:
获取模块,用于获取驱动语音;
编码模块,用于编码所述驱动语音,得到所述驱动语音的特征向量;
生成模块,用于输入所述驱动语音的特征向量至预先训练的拟合模型,生成口型blendshape值;
后处理模块,用于采样眨眼blendshape值,拼接所述口型blendshape值和所述眨眼blendshape值,得到最终blendshape值;
驱动模块,用于输入所述最终blendshape值至Unity客户端,得到数字人表情口型。
可选的,获取模块还用于:
获取驱动文本;
采用语音合成处理所述驱动文本,得到驱动语音。
可选的,所述系统还包括融合模块,其用于:
分别对每个所述驱动语音的特征向量进行打分,得到各所述驱动语音的特征向量的语音得分;
采用模型融合处理各所述驱动语音的特征向量的语音得分,得到口型blendshape值。
可选的,所述系统还包括训练模块,用于:
获取训练驱动语音;
编码所述训练驱动语音,得到所述训练驱动语音的特征向量;
提高Transformer模型的拟合度,得到拟合模型;
根据所述训练驱动语音的特征向量训练所述拟合模型。
本公开的又一个方面提供一种电子设备,包括:
一个或多个处理器;存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现根据权利要求1至4任一项所述的数字人表情口型驱动方法。
本公开的最后一个方面提供一种计算机可读存储介质,其上存储有计算机程序;所述计算机程序被处理器执行时能实现根据权利要求1至4任一项所述的数字人表情口型驱动方法。
本公开的实施例的一种数字人表情口型驱动方法、系统、电子设备和存储介质,采用基于Transformer和Gaussdiffusion模型的blendshape生成架构,进行多模型融合以及眨眼后处理优化方案,充分结合了Transformer模型和高斯拓展Gaussdiffusion模型的优势,拟合生成更精准的blendshape特征参数集;同时利用模型融合和眨眼后处理优化,得到更加精准的模型参数集,使生成的数字人表情和口型更加逼真。
附图说明
图1为本公开一实施例的一种数字人表情口型驱动方法的步骤示意图;
图2为本公开另一实施例的Gaussdiffusion模型架构图;
图3为本公开另一实施例的一种数字人表情口型驱动系统的结构示意图;
图4为本公开另一实施例的一种电子设备的结构示意图。
具体实施方式
为使本领域技术人员更好地理解本公开的技术方案,下面结合附图和具体实施方式对本公开作进一步详细描述。
如图1所示,本公开的实施例提供一种数字人表情口型驱动方法,包括:
S1、获取驱动语音。
具体地,如果输入的是文本,利用语音合成模型,得到对应的语音。如果输入的是语音,则直接输入到Wav2vec2.0模型中。
S2、编码所述驱动语音,得到所述驱动语音的特征向量。
具体地,利用语音编码器Wav2vec2.0,对S1中输入的语音进行语音特征提取和编码,得到256维的特征向量。
S3、输入所述驱动语音的特征向量至预先训练的拟合模型,生成口型blendshape值。
示例性地,所述拟合模型由以下步骤训练得到:
S31、获取训练驱动语音;S32、编码所述训练驱动语音,得到所述训练驱动语音的特征向量;S33、提高Transformer模型的拟合度,得到拟合模型;S34、根据所述训练驱动语音的特征向量训练所述拟合模型。
具体地,步骤S31使用同上述步骤S1中同样的方法获取训练驱动语音。同理,步骤S32使用同上述步骤S2中同样的方法对步骤S31中获取的训练驱动语音进行处理。在步骤S33中具体使用Gaussdiffusion(高斯扩散模型)提高Transformer模型的拟合度。Transformer模型为基于Encoder(编码器)-Decoder(解码器)-Self-Attention(自注意力)架构设计的轻量级Transformer模块,其中编码层数encoder_layer取5,编码头encoder_head取2,编码隐藏层数encoder_hidden取128。Gaussdiffusion中,扩散时间步长timesteps取100,残差层数residual_layers取15,如图2所示为其模型架构。在步骤S34中,对于Transformer模型,分别使用训练步长Epoch取50000,每批步长k-step分别取100和150,残差层数Residual_layers分别取15和17,学习率Lr取0.00008,耐心系数Warmup_steps取4000,批数据大小Batch_size取8,分别得到四个模型,记为model1、model2、model3和model4。
训练完成的Transformer模型还将进行模型融合,具体为:对于每一个输入音频,使用model1、model2、model3和model4进行打分,分别得到Score1、Score2、Score3和Score4,使用模型融合策略,每个模型选取验证集分数最好的模型融合以及结果融合策略相结合,得到模型融合结果score。
S4、采样眨眼blendshape值,拼接所述口型blendshape值和所述眨眼blendshape值,得到最终blendshape值。
具体地,分别处理左眼眨眼、左眼目视下方、左眼注视鼻尖、左眼目视上方、左眼眯眼、左眼睁大、右眼眨眼、右眼目视下方和右眼注视鼻尖等,处理方法就是针对每个动作,随机从真实样本里采样眨眼的blendshape,和生成的口型blendshape拼接在一起作为最终结果。
S5、输入所述最终blendshape值至Unity客户端,得到数字人表情口型。
具体地,利用生成的blendshape值,返回给Unity客户端进行驱动,得到数字人的表情口型等。
本公开实施例的一种数字人表情口型驱动方法,采用基于Transformer和Gaussdiffusion模型的blendshape生成架构,进行多模型融合以及眨眼后处理优化方案,充分结合了Transformer模型和高斯拓展Gaussdiffusion模型的优势,拟合生成更精准的blendshape特征参数集;同时利用模型融合和眨眼后处理优化,得到更加精准的模型参数集,使生成的数字人表情和口型更加逼真。
如图3所示,本公开的另一实施例提供一种数字人表情口型驱动系统,其包括:
获取模块301,用于获取驱动语音;
编码模块302,用于编码所述驱动语音,得到所述驱动语音的特征向量;
生成模块303,用于输入所述驱动语音的特征向量至预先训练的拟合模型,生成口型blendshape值;
后处理模块304,用于采样眨眼blendshape值,拼接所述口型blendshape值和所述眨眼blendshape值,得到最终blendshape值;
驱动模块305,用于输入所述最终blendshape值至Unity客户端,得到数字人表情口型。
具体地,获取模块301用于向Wav2vec2.0模型输入驱动语音,如果输入的是文本,则利用语音合成模型,得到对应的语音。如果输入的是语音,则直接输入到Wav2vec2.0模型中。
编码模块302利用语音编码器Wav2vec2.0,对获取模块301中输入的语音进行语音特征提取和编码,得到256维的特征向量。
示例性地,所述系统还包括训练模块306,用于:
获取训练驱动语音;
编码所述训练驱动语音,得到所述训练驱动语音的特征向量;
提高Transformer模型的拟合度,得到拟合模型;
根据所述训练驱动语音的特征向量训练所述拟合模型。
具体地,训练模块306使用同上述获取模块301中同样的方法获取训练驱动语音。并使用同上述编码模块302中同样的方法对获取模块301中获取的训练驱动语音进行处理。随后使用Gaussdiffusion(高斯扩散模型)提高Transformer模型的拟合度。Transformer模型为基于Encoder(编码器)-Decoder(解码器)-Self-Attention(自注意力)架构设计的轻量级Transformer模块,其中编码层数encoder_layer取5,编码头encoder_head取2,编码隐藏层数encoder_hidden取128。Gaussdiffusion中,扩散时间步长timesteps取100,残差层数residual_layers取15,如图2所示为其模型架构。在训练时,对于Transformer模型分别使用训练步长Epoch取50000,每批步长k-step分别取100和150,残差层数Residual_layers分别取15和17,学习率Lr取0.00008,耐心系数Warmup_steps取4000,批数据大小Batch_size取8,分别得到四个模型,记为model1、model2、model3和model4。
示例性地,所述系统还包括融合模块307,其用于:
分别对每个所述驱动语音的特征向量进行打分,得到各所述驱动语音的特征向量的语音得分;
采用模型融合处理各所述驱动语音的特征向量的语音得分,得到口型blendshape值。
具体地,训练完成的Transformer模型还将通过融合模块307进行模型融合,具体为:对于每一个输入音频,使用model1、model2、model3和model4进行打分,分别得到Score1、Score2、Score3和Score4,使用模型融合策略,每个模型选取验证集分数最好的模型融合以及结果融合策略相结合,得到模型融合结果score。
后处理模块304分别处理左眼眨眼、左眼目视下方、左眼注视鼻尖、左眼目视上方、左眼眯眼、左眼睁大、右眼眨眼、右眼目视下方和右眼注视鼻尖等,处理方法就是针对每个动作,随机从真实样本里采样眨眼的blendshape,和生成的口型blendshape拼接在一起作为最终结果。
最后,驱动模块305利用生成的blendshape值,返回给Unity客户端进行驱动,得到数字人的表情口型等。
本公开实施例的一种数字人表情口型驱动系统,采用基于Transformer和Gaussdiffusion模型的blendshape生成架构,进行多模型融合以及眨眼后处理优化方案,充分结合了Transformer模型和高斯拓展Gaussdiffusion模型的优势,拟合生成更精准的blendshape特征参数集;同时利用模型融合和眨眼后处理优化,得到更加精准的模型参数集,使生成的数字人表情和口型更加逼真。
如图4所示,本公开的又一实施例提供一种电子设备,包括:
一个或多个处理器401;存储器402,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器401执行时,能使得所述一个或多个处理器401实现如前文所述的数字人表情口型驱动方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本公开的最后一实施例提供一种计算机可读存储介质,其上存储有计算机程序。所述计算机程序被处理器执行时能实现如前文所述的数字人表情口型驱动方法。
其中,计算机可读介质可以是本发明的装置、设备、系统中所包含的,也可以是单独存在。
其中,计算机可读存储介质可是任何包含或存储程序的有形介质,其可以是电、磁、光、电磁、红外线、半导体的系统、装置、设备,更具体的例子包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、光纤、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件,或它们任意合适的组合。
其中,计算机可读存储介质也可包括在基带中或作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码,其具体的例子包括但不限于电磁信号、光信号,或它们任意合适的组合。
可以理解的是,以上实施方式仅仅是为了说明本公开的原理而采用的示例性实施方式,然而本公开并不局限于此。对于本领域内的普通技术人员而言,在不脱离本公开的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本公开的保护范围。
Claims (10)
1.一种数字人表情口型驱动方法,其特征在于,包括:
获取驱动语音;
编码所述驱动语音,得到所述驱动语音的特征向量;
输入所述驱动语音的特征向量至预先训练的拟合模型,生成口型blendshape值;
采样眨眼blendshape值,拼接所述口型blendshape值和所述眨眼blendshape值,得到最终blendshape值;
输入所述最终blendshape值至Unity客户端,得到数字人表情口型。
2.根据权利要求1所述的方法,其特征在于,所述获取驱动语音,包括:
获取驱动文本;
采用语音合成处理所述驱动文本,得到驱动语音。
3.根据权利要求1所述的方法,其特征在于,所述输入所述驱动语音的特征向量至预先训练的拟合模型,得到口型blendshape值,包括:
分别对每个所述驱动语音的特征向量进行打分,得到各所述驱动语音的特征向量的语音得分;
采用模型融合处理各所述驱动语音的特征向量的语音得分,得到口型blendshape值。
4.根据权利要求1所述的方法,其特征在于,所述拟合模型通过以下步骤训练得到:
获取训练驱动语音;
编码所述训练驱动语音,得到所述训练驱动语音的特征向量;
提高Transformer模型的拟合度,得到拟合模型;
根据所述训练驱动语音的特征向量训练所述拟合模型。
5.一种数字人表情口型驱动系统,其特征在于,所述系统包括:
获取模块,用于获取驱动语音;
编码模块,用于编码所述驱动语音,得到所述驱动语音的特征向量;
生成模块,用于输入所述驱动语音的特征向量至预先训练的拟合模型,生成口型blendshape值;
后处理模块,用于采样眨眼blendshape值,拼接所述口型blendshape值和所述眨眼blendshape值,得到最终blendshape值;
驱动模块,用于输入所述最终blendshape值至Unity客户端,得到数字人表情口型。
6.根据权利要求5所述的系统,其特征在于,所述获取模块还用于:
获取驱动文本;
采用语音合成处理所述驱动文本,得到驱动语音。
7.根据权利要求5所述的系统,其特征在于,所述系统还包括融合模块,其用于:
分别对每个所述驱动语音的特征向量进行打分,得到各所述驱动语音的特征向量的语音得分;
采用模型融合处理各所述驱动语音的特征向量的语音得分,得到口型blendshape值。
8.根据权利要求5所述的系统,其特征在于,所述系统还包括训练模块,用于:
获取训练驱动语音;
编码所述训练驱动语音,得到所述训练驱动语音的特征向量;
提高Transformer模型的拟合度,得到拟合模型;
根据所述训练驱动语音的特征向量训练所述拟合模型。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现根据权利要求1至4任一项所述的数字人表情口型驱动方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,
所述计算机程序被处理器执行时能实现根据权利要求1至4任一项所述的数字人表情口型驱动方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310280729.8A CN116312613A (zh) | 2023-03-20 | 2023-03-20 | 数字人表情口型驱动方法、系统、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310280729.8A CN116312613A (zh) | 2023-03-20 | 2023-03-20 | 数字人表情口型驱动方法、系统、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116312613A true CN116312613A (zh) | 2023-06-23 |
Family
ID=86823844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310280729.8A Pending CN116312613A (zh) | 2023-03-20 | 2023-03-20 | 数字人表情口型驱动方法、系统、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116312613A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117078811A (zh) * | 2023-08-31 | 2023-11-17 | 华院计算技术(上海)股份有限公司 | 模型训练方法、图像生成方法、动画生成方法及系统 |
-
2023
- 2023-03-20 CN CN202310280729.8A patent/CN116312613A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117078811A (zh) * | 2023-08-31 | 2023-11-17 | 华院计算技术(上海)股份有限公司 | 模型训练方法、图像生成方法、动画生成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110491382B (zh) | 基于人工智能的语音识别方法、装置及语音交互设备 | |
JP7374274B2 (ja) | 虚像生成モデルのトレーニング方法および虚像生成方法 | |
Wu et al. | Multimodal large language models: A survey | |
JP6802005B2 (ja) | 音声認識装置、音声認識方法及び音声認識システム | |
JP7432556B2 (ja) | マンマシンインタラクションのための方法、装置、機器および媒体 | |
CN111897933B (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
CN110246488B (zh) | 半优化CycleGAN模型的语音转换方法及装置 | |
CN108962255A (zh) | 语音会话的情绪识别方法、装置、服务器和存储介质 | |
CN112214591B (zh) | 一种对话预测的方法及装置 | |
CN110321418A (zh) | 一种基于深度学习的领域、意图识别和槽填充方法 | |
JP2022046731A (ja) | 音声生成方法、装置、電子機器及び記憶媒体 | |
CN113421547B (zh) | 一种语音处理方法及相关设备 | |
CN110125932B (zh) | 一种机器人的对话交互方法、机器人及可读存储介质 | |
CN116129863A (zh) | 语音合成模型的训练方法、语音合成方法及相关装置 | |
WO2023207541A1 (zh) | 一种语音处理方法及相关设备 | |
CN116312613A (zh) | 数字人表情口型驱动方法、系统、电子设备和存储介质 | |
CN114360502A (zh) | 语音识别模型的处理方法、语音识别方法及装置 | |
CN115937369A (zh) | 一种表情动画生成方法、系统、电子设备及存储介质 | |
CN117251057A (zh) | 一种基于aigc构建ai数智人的方法及系统 | |
CN117556027B (zh) | 基于数字人技术的智能交互系统及方法 | |
CN112771607A (zh) | 电子设备及其控制方法 | |
CN117370534A (zh) | 一种面向虚拟现实的多源融合情感支持对话方法 | |
CN113314104A (zh) | 交互对象驱动和音素处理方法、装置、设备以及存储介质 | |
CN108960191B (zh) | 一种面向机器人的多模态融合情感计算方法及系统 | |
KR20210123545A (ko) | 사용자 피드백 기반 대화 서비스 제공 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |