CN117078811A - 模型训练方法、图像生成方法、动画生成方法及系统 - Google Patents
模型训练方法、图像生成方法、动画生成方法及系统 Download PDFInfo
- Publication number
- CN117078811A CN117078811A CN202311120340.3A CN202311120340A CN117078811A CN 117078811 A CN117078811 A CN 117078811A CN 202311120340 A CN202311120340 A CN 202311120340A CN 117078811 A CN117078811 A CN 117078811A
- Authority
- CN
- China
- Prior art keywords
- image
- expression
- model
- training
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 168
- 238000000034 method Methods 0.000 title claims abstract description 113
- 230000014509 gene expression Effects 0.000 claims abstract description 186
- 238000009792 diffusion process Methods 0.000 claims abstract description 62
- 238000000605 extraction Methods 0.000 claims description 21
- 238000009877 rendering Methods 0.000 claims description 14
- 230000001815 facial effect Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 37
- 230000003993 interaction Effects 0.000 abstract description 11
- 238000012545 processing Methods 0.000 description 11
- 238000013135 deep learning Methods 0.000 description 8
- 230000008451 emotion Effects 0.000 description 5
- 208000034657 Convalescence Diseases 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008921 facial expression Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000011410 subtraction method Methods 0.000 description 3
- 230000008485 antagonism Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Quality & Reliability (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种模型训练方法、图像生成方法、动画生成方法及系统,该模型训练方法包括:获取语音信号训练样本与对应的图像;提取语音信号训练样本的中间特征;从图像中提取表情系数;以中间特征为扩散模型的输入,基于表情系数训练扩散模型,得到训练好的表情系数预测模型。本发明以语音信号训练样本的中间特征作为扩散模型的输入,基于从与语音信号训练样本中提取的表情系数训练扩散模型,得到的表情系数预测模型在将语音信号转化为相应的表情系数时具有随机性,从而实现生成多样化的表情,提高用户在交互过程中的体验。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种模型训练方法、图像生成方发、动画生成方法及系统。
背景技术
随着自然语言处理、语音识别、计算机视觉等人工智能技术的应用拓展,虚拟数字人技术的也朝着更加智能化、多样化方向发展。早期数字人主要应用与泛娱乐领域,如电影、动画、游戏等行业,如今,数字人已经成功应用至银行、医疗、教育、政务、通信等各行各业。这其中,具备情感表达和交互沟通能力是实现数字人与真实世界交互的基础。但是,传统的采用人工驱动的数字人脸动画生成方法耗时长、效率低,且无法满足编辑表情的需求;而采用现代模型驱动的数字人脸动画生成方法,如利用Wav2Lip模型生成数字人脸动画,人物表情的多样性不足,导致数字人脸动画中人物的表情呆板,降低了用户在交互过程中的体验。
发明内容
本发明要解决的技术问题是为了克服现有技术中数字人脸动画的人物表情多样性不足,导致数字人脸动画中人物的表情呆板,降低用户在交互过程中的体验的缺陷,提供一种模型训练方法、图像生成方发、动画生成方法及系统。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供了一种模型训练方法,所述模型训练方法包括:
获取语音信号训练样本与对应的图像;
提取所述语音信号训练样本的中间特征;
从所述图像中提取表情系数;
以所述中间特征为扩散模型的输入,基于所述表情系数训练所述扩散模型,得到训练好的表情系数预测模型。
优选地,所述扩散模型以预测表情系数为输出,所述基于所述表情系数训练所述扩散模型的步骤具体包括:
以所述表情系数为真值,根据损失函数训练所述扩散模型。
优选地,所述获取与所述语音信号训练样本对应的图像的步骤具体包括:
获取表情动画训练样本;
将所述表情动画训练样本拆分为所述语音信号训练样本和对应的图像;所述语音信号训练样本和对应的图像以帧为单位对应。
优选地,所述提取所述语音信号训练样本的中间特征的步骤具体包括:
对所述语音信号训练样本进行去噪处理,得到去噪语音信号训练样本;
使用语音编码器提取所述去噪语音信号训练样本的中间特征。
本发明还提供了一种图像生成方法,所述图像为虚拟人物的表情图像,所述图像生成方法包括:
获取待处理语音信号;
提取所述待处理语音信号的中间特征;
将所述中间特征输入表情系数预测模型,得到表情系数;所述表情系数预测模型根据上述的模型训练方法而训练得到;
获取形象系数;所述形象系数用于表征所述虚拟人物的脸部特征;
以所述表情系数和所述形象系数为渲染模型的输入,得到所述表情图像;所述渲染模型根据表情系数训练样本和形象系数训练样本训练得到。
优选地,所述提取所述待处理语音信号的中间特征的步骤具体包括:
对所述待处理语音信号进行去噪处理,得到去噪语音信号;
使用语音编码器提取所述去噪语音信号的中间特征。
本发明还提供了一种动画生成方法,所述动画生成方法包括:根据表情图像生成虚拟人物的表情动画;所述表情图像根据上述的图像生成方法得到。
本发明还提供了一种模型训练系统,所述模型训练系统包括:
第一获取模块,用于获取语音信号训练样本与对应的图像;
第一提取模块,用于提取所述语音信号训练样本的中间特征;
第二提取模块,用于从所述图像中提取表情系数;
训练模块,用于以所述中间特征为扩散模型的输入,基于所述表情系数训练所述扩散模型,得到训练好的表情系数预测模型。
本发明还提供了一种图像生成系统,所述图像为虚拟人物的表情图像,所述图像生成系统包括:
待处理语音信号获取模块,用于获取待处理语音信号;
中间特征提取模块,用于提取所述待处理语音信号的中间特征;
表情系数生成模块,用于将所述中间特征输入表情系数预测模型,得到表情系数;所述表情系数预测模型根据上述的模型训练系统而训练得到;
形象系数获取模块,用于获取形象系数;所述形象系数用于表征所述虚拟人物的脸部特征;
图像生成模块,用于以所述表情系数和所述形象系数为渲染模型的输入,得到所述表情图像;所述渲染模型根据表情系数训练样本和形象系数训练样本训练得到。
本发明还提供了一种动画生成系统,所述动画生成系统包括:
动画生成模块,用于根据表情图像生成虚拟人物的表情动画;所述表情图像根据上述的图像生成系统得到。
本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并用于在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的模型训练方法、图像生成方法或动画生成方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的模型训练方法、图像生成方法或动画生成方法。
本发明的积极进步效果在于:本发明以语音信号训练样本的中间特征作为扩散模型的输入,基于从与语音信号训练样本中提取的表情系数训练扩散模型,得到的表情系数预测模型在将语音信号转化为相应的表情系数时具有随机性,从而实现生成多样化的表情,提高用户在交互过程中的体验。
附图说明
图1为本发明的实施例1提供的模型训练方法的流程图。
图2为本发明的实施例2提供的图像生成方法的流程图。
图3为本发明的实施例4提供的模型训练系统的结构示意图。
图4为本发明的实施例5提供的图像生成系统的结构示意图。
图5为本发明的实施例7提供的电子设备的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本发明实施例1提供了一种模型训练方法,如图1所示,该模型训练方法包括以下步骤:
S101、获取语音信号训练样本与对应的图像。
S102、提取语音信号训练样本的中间特征。
S103、从图像中提取表情系数。
具体地,表情系数用于表征计算机能够理解的人脸表情的描述信息,可以使用人脸表情系数提取器从图像中提取表情系数。
S104、以中间特征为扩散模型的输入,基于表情系数训练扩散模型,得到训练好的表情系数预测模型。
具体地,扩散模型为一种生成模型,可以实现从噪声(采样自简单的分布)生成目标数据样本。扩散模型包括两个过程:前向过程(Forward Process)和反向过程(ReverseProcess),其中前向过程又称为扩散过程(Diffusion Process)。无论是前向过程还是反向过程都是一个参数化的马尔可夫链(Markov Chain),前向过程为加噪过程,反向过程为去噪过程。其中反向过程可用于生成数据样本,反向过程的作用类似GAN(GenerativeAdversarial Networks,生成式对抗网络)中的生成器,只不过GAN生成器会有维度变化,而扩散模型的反向过程没有维度变化。
在前向过程中,扩散模型对表情系数的初始状态E0到终止状态ET不断加噪声,前向扩散公式如下所示:
在反向过程中,扩散模型根据终止状态ET还原初始状态E0,反向扩散公式如下所示:
q(Et-1|Et)=N(Et-1;μ(Et,),σ(Et,t))
其中,I表示单位矩阵,E0表示表情系数的初始状态,E1:T表示生成的噪声坐标集合,T表示前向扩散最大扩散步数,t∈[1,T]表示当前所处的扩散步数,∈表示高斯噪声,其大小由噪声参数βt∈(0,1)控制,N(Et;·)是在给定参数的条件下对噪声坐标样本Et采样的可能性,其满足正态分布。
扩散模型的优势是在保持E0的性质不变时,加入了随机性,从而实现生成多样化的表情系数。
本实施例以语音信号训练样本的中间特征作为扩散模型的输入,基于从与语音信号训练样本中提取的表情系数训练扩散模型,得到的表情系数预测模型在将语音信号转化为相应的表情系数时具有随机性,从而实现生成多样化的表情,提高用户在交互过程中的体验。
在一种可选的实施方式中,上述扩散模型以预测表情系数为输出,步骤S104具体包括:以表情系数为真值,根据损失函数训练扩散模型。
在一种可选的实施方式中,步骤S101具体包括:
S1011、获取表情动画训练样本。
S1012、将表情动画训练样本拆分为语音信号训练样本和对应的图像。
其中,语音信号训练样本和对应的图像以帧为单位对应。在步骤S1012中,将表情动画训练样本拆分为多帧图像和对应的多帧语音信号,将一帧语音信号作为一个语音信号训练样本,则一个语音信号训练样本对应一帧图像。训练扩散模型时,依次将一个语音信号训练样本的中间特征输入扩散模型。
具体地,步骤S102中的中间特征可以表示为语音特征图张量FT*S*L。其中,T表示语音信号训练样本对应的图像的帧的个数,例如,若语音信号训练样本对应的图像为表情动画训练样本中的第5帧,则T的值为5;S表示语音信号训练样本的时间长度,与表情动画训练样本的视频帧率有关,例如,若表情动画训练样本的视频帧率为25fps,则S的值为16,表示语音信号训练样本的时间长度为0.04s;L表示中间特征的大小。
在一种可选的实施方式中,步骤S102具体包括:
S1021、对语音信号训练样本进行去噪处理,得到去噪语音信号训练样本。
具体地,可以基于深度学习对语音信号训练样本进行去噪处理,以语音信号训练样本为深度卷积神经网络的输入,进行前向传播,获得去噪语音信号训练样本。除了基于深度学习对语音信号训练样本进行去噪处理,还可以使用谱减法、维纳滤波法等方式对语音信号训练样本进行去噪处理,具体的去噪方式可以根据实际情况决定,本实施例对此不加以限制。通过对语音信号训练样本进行去噪处理,可以提高语音信号的清晰度和可识别性,从而提高提取中间特征的效率和准确性。
S1022、使用语音编码器提取去噪语音信号训练样本的中间特征。
实施例2
本实施例提供了一种图像生成方法,如图2所示,该图像为虚拟人物的表情图像,该图像生成方法包括:
S201、获取待处理语音信号。
S202、提取待处理语音信号的中间特征。
S203、将中间特征输入表情系数预测模型,得到表情系数。
其中,表情系数预测模型根据实施例1中所述的模型训练方法而训练得到。
S204、获取形象系数。
其中,形象系数用于表征虚拟人物的脸部特征。
S205、以表情系数和形象系数为渲染模型的输入,得到表情图像。
其中,渲染模型根据表情系数训练样本和形象系数训练样本训练得到。
具体地,在提取待处理语音信号的中间特征时,可以将待处理语音信号拆分为多个帧,分别对每帧待处理语音信号提取中间特征,再依次以每帧待处理语音信号的中间特征作为表情系数预测模型的输入,得到每帧待处理语音信号的表情系数,之后依次将形象系数和每帧待处理语音信号的表情系数作为渲染模型的输入,得到多帧表情图像,每帧表情图像对应于一帧待处理语音信号。
本实施例中的表情系数预测模型根据实施例1中所述的模型训练方法而训练得到,在将语音信号转化为相应的表情系数时具有随机性,生成的图像中的表情具有多样性,提高用户在交互过程中的体验。例如,面向康复场景的共情数字人生成可以使用这种图像生成方式来为用户提供更加智能化的服务。当用户情绪有波动时,如紧张、悲伤等,通过获取用户对应的表情系数,并将这些表情系数转化为相应的表情图像,可以让虚拟数字人显得更暖心。
在一种可选的实施方式中,步骤S202具体包括:
S2021、对待处理语音信号进行去噪处理,得到去噪语音信号。
具体地,可以基于深度学习对待处理语音信号进行去噪处理,以待处理语音信号为深度卷积神经网络的输入,进行前向传播,获得去噪语音信号。除了基于深度学习对待处理语音信号进行去噪处理,还可以使用谱减法、维纳滤波法等方式对待处理语音信号进行去噪处理,具体的去噪方式可以根据实际情况决定,本实施例对此不加以限制。通过对待处理语音信号进行去噪处理,可以提高语音信号的清晰度和可识别性,从而提高提取中间特征的效率和准确性。
S2022、使用语音编码器提取去噪语音信号的中间特征。
实施例3
本实施例提供了一种动画生成方法,该动画生成方法包括步骤:根据表情图像生成虚拟人物的表情动画。
其中,表情图像根据实施例2中所述的图像生成方法得到。
具体地,可以对得到的所有帧的表情图像,按照对应帧的待处理语音信号的顺序组进行组合,生成虚拟人物的表情动画。
本实施例中的表情图像根据实施例2中所述的图像生成方法得到,图像中的表情具有多样性,提高用户在交互过程中的体验。例如,面向康复场景的共情数字人生成可以使用这种图像生成方式来为用户提供更加智能化的服务。当用户情绪有波动时,如紧张、悲伤等,通过获取用户对应的表情系数,并将这些表情系数转化为相应的表情图像,再根据表情图像生成表情动画,可以让虚拟数字人显得更暖心。
实施例4
本实施例提供了一种模型训练系统,如图3所示,该模型训练系统40包括第一获取模块41、第一提取模块42、第二提取模块43和训练模块44。
第一获取模块41用于获取语音信号训练样本与对应的图像。
第一提取模块42用于提取语音信号训练样本的中间特征。
第二提取模块43用于从图像中提取表情系数。
具体地,表情系数用于表征计算机能够理解的人脸表情的描述信息,第二提取模块43可以使用人脸表情系数提取器从图像中提取表情系数。
训练模块44用于以中间特征为扩散模型的输入,基于表情系数训练扩散模型,得到训练好的表情系数预测模型。
具体地,扩散模型为一种生成模型,可以实现从噪声(采样自简单的分布)生成目标数据样本。扩散模型包括两个过程:前向过程(Forward Process)和反向过程(ReverseProcess),其中前向过程又称为扩散过程(Diffusion Process)。无论是前向过程还是反向过程都是一个参数化的马尔可夫链(Markov Chain),前向过程为加噪过程,反向过程为去噪过程。其中反向过程可用于生成数据样本,反向过程的作用类似GAN(GenerativeAdversarial Networks,生成式对抗网络)中的生成器,只不过GAN生成器会有维度变化,而扩散模型的反向过程没有维度变化。
在前向过程中,扩散模型对表情系数的初始状态E0到终止状态ET不断加噪声,前向扩散公式如下所示:
在反向过程中,扩散模型根据终止状态ET还原初始状态E0,反向扩散公式如下所示:
q(Et-1|Et)=N(Et-1;μ(Et,),σ(Et,t))
其中,I表示单位矩阵,E0表示表情系数的初始状态,E1:T表示生成的噪声坐标集合,T表示前向扩散最大扩散步数,t∈[1,T]表示当前所处的扩散步数,∈表示高斯噪声,其大小由噪声参数βt∈(0,1)控制,N(Et;·)是在给定参数的条件下对噪声坐标样本Et采样的可能性,其满足正态分布。
扩散模型的优势是在保持E0的性质不变时,加入了随机性,从而实现生成多样化的表情系数。
本实施例以语音信号训练样本的中间特征作为扩散模型的输入,基于从与语音信号训练样本中提取的表情系数训练扩散模型,得到的表情系数预测模型在将语音信号转化为相应的表情系数时具有随机性,从而实现生成多样化的表情,提高用户在交互过程中的体验。
在一种可选的实施方式中,上述扩散模型以预测表情系数为输出,训练模块44具体用于:以表情系数为真值,根据损失函数训练扩散模型。
在一种可选的实施方式中,第一获取模块41具体包括表情动画训练样本获取单元和拆分单元。
表情动画训练样本获取单元用于获取单元获取表情动画训练样本。
拆分单元用于将表情动画训练样本拆分为语音信号训练样本和对应的图像。
其中,语音信号训练样本和对应的图像以帧为单位对应。拆分单元将表情动画训练样本拆分为多帧图像和对应的多帧语音信号,将一帧语音信号作为一个语音信号训练样本,则一个语音信号训练样本对应一帧图像。训练扩散模型时,训练模块44依次将一个语音信号训练样本的中间特征输入扩散模型。
具体地,第一提取模块42从语音信号训练样本中提取的中间特征可以表示为语音特征图张量FT*S*L。其中,T表示语音信号训练样本对应的图像的帧的个数,例如,若语音信号训练样本对应的图像为表情动画训练样本中的第5帧,则T的值为5;S表示语音信号训练样本的时间长度,与表情动画训练样本的视频帧率有关,例如,若表情动画训练样本的视频帧率为25fps,则S的值为16,表示语音信号训练样本的时间长度为0.04s;L表示中间特征的大小。
在一种可选的实施方式中,第一提取模块42具体包括第一去噪单元和第一中间特征提取单元。
第一去噪单元用于对语音信号训练样本进行去噪处理,得到去噪语音信号训练样本。
具体地,第一去噪单元可以基于深度学习对语音信号训练样本进行去噪处理,以语音信号训练样本为深度卷积神经网络的输入,进行前向传播,获得去噪语音信号训练样本。除了基于深度学习对语音信号训练样本进行去噪处理,第一去噪单元还可以使用谱减法、维纳滤波法等方式对语音信号训练样本进行去噪处理,具体的去噪方式可以根据实际情况决定,本实施例对此不加以限制。通过对语音信号训练样本进行去噪处理,可以提高语音信号的清晰度和可识别性,从而提高提取中间特征的效率和准确性。
第一中间特征提取单元用于使用语音编码器提取去噪语音信号训练样本的中间特征。
实施例5
本实施例提供了一种图像生成系统,如图4所示,该图像为虚拟人物的表情图像,该图像生成系统50包括待处理语音信号获取模块51、中间特征提取模块52、表情系数生成模块53、形象系数获取模块54和图像生成模块55。
待处理语音信号获取模块51用于获取待处理语音信号。
中间特征提取模块52用于提取待处理语音信号的中间特征。
表情系数生成模块53用于将中间特征输入表情系数预测模型,得到表情系数。
其中,表情系数预测模型根据实施4中所述的模型训练系统而训练得到。
形象系数获取模块54用于获取形象系数。
其中,形象系数用于表征虚拟人物的脸部特征。
图像生成模块55用于以表情系数和形象系数为渲染模型的输入,得到表情图像。
其中,渲染模型根据表情系数训练样本和形象系数训练样本训练得到。
具体地,中间特征提取模块52在提取待处理语音信号的中间特征时,可以将待处理语音信号拆分为多个帧,分别对每帧待处理语音信号提取中间特征,表情系数生成模块53再依次以每帧待处理语音信号的中间特征作为表情系数预测模型的输入,得到每帧待处理语音信号的表情系数,之后图像生成模块55依次将形象系数和每帧待处理语音信号的表情系数作为渲染模型的输入,得到多帧表情图像,每帧表情图像对应于一帧待处理语音信号。
本实施例中的表情系数预测模型根据实施例4中所述的模型训练系统而训练得到,在将语音信号转化为相应的表情系数时具有随机性,生成的图像中的表情具有多样性,提高用户在交互过程中的体验。例如,面向康复场景的共情数字人生成可以使用这种图像生成方式来为用户提供更加智能化的服务。当用户情绪有波动时,如紧张、悲伤等,图像生成系统通过获取用户对应的表情系数,并将这些表情系数转化为相应的表情图像,可以让虚拟数字人显得更暖心。
在一种可选的实施方式中,中间特征提取模块52具体包括第二去噪单元和第二中间特征提取单元。
第二去噪单元用于对待处理语音信号进行去噪处理,得到去噪语音信号。
具体地,第二去噪单元可以基于深度学习对待处理语音信号进行去噪处理,以待处理语音信号为深度卷积神经网络的输入,进行前向传播,获得去噪语音信号。除了基于深度学习对待处理语音信号进行去噪处理,第二去噪单元还可以使用谱减法、维纳滤波法等方式对待处理语音信号进行去噪处理,具体的去噪方式可以根据实际情况决定,本实施例对此不加以限制。通过对待处理语音信号进行去噪处理,可以提高语音信号的清晰度和可识别性,从而提高提取中间特征的效率和准确性。
第二中间特征提取单元用于使用语音编码器提取去噪语音信号的中间特征。
实施例6
本实施例提供了一种动画生成系统,该动画生成系统包括动画生成模块。
动画生成模块用于根据表情图像生成虚拟人物的表情动画。
其中,表情图像根据实施例5中所述的图像生成系统得到。
具体地,动画生成模块可以对得到的所有帧的表情图像,按照对应帧的待处理语音信号的顺序组进行组合,生成虚拟人物的表情动画。
本实施例中的表情图像根据实施例5中所述的图像生成系统得到,图像中的表情具有多样性,提高用户在交互过程中的体验。例如,面向康复场景的共情数字人生成可以使用这种图像生成方式来为用户提供更加智能化的服务。当用户情绪有波动时,如紧张、悲伤等,通过获取用户对应的表情系数,并将这些表情系数转化为相应的表情图像,动画生成系统再根据表情图像生成表情动画,可以让虚拟数字人显得更暖心。
实施例7
图5为本发明实施例7提供的一种电子设备的结构示意图。包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现前述实施例1的模型训练方法、前述实施例2的图像生成方法或前述实施例3的动画生成方法。图5显示的电子设备70仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
电子设备70可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备70的组件可以包括但不限于:上述至少一个处理器71、上述至少一个存储器72、连接不同系统组件(包括存储器72和处理器71)的总线73。
总线73包括数据总线、地址总线和控制总线。
存储器72可以包括易失性存储器,例如随机存取存储器(RAM)721和/或高速缓存存储器722,还可以进一步包括只读存储器(ROM)723。
存储器72还可以包括具有一组(至少一个)程序模块724的程序/实用工具725,这样的程序模块724包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器71通过运行存储在存储器72中的计算机程序,从而执行各种功能应用以及数据处理,例如前述实施例1的模型训练方法、前述实施例2的图像生成方法或前述实施例3的动画生成方法。
电子设备70也可以与一个或多个外部设备74(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口75进行。并且,模型生成的设备70还可以通过网络适配器76与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器76通过总线73与模型生成的设备70的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备70使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例8
本发明还提供一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述实施例1的模型训练方法、前述实施例2的图像生成方法或前述实施例3的动画生成方法。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现前述实施例1的模型训练方法、前述实施例2的图像生成方法或前述实施例3的动画生成方法。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (12)
1.一种模型训练方法,其特征在于,所述模型训练方法包括:
获取语音信号训练样本与对应的图像;
提取所述语音信号训练样本的中间特征;
从所述图像中提取表情系数;
以所述中间特征为扩散模型的输入,基于所述表情系数训练所述扩散模型,得到训练好的表情系数预测模型。
2.如权利要求1所述的模型训练方法,其特征在于,所述扩散模型以预测表情系数为输出,所述基于所述表情系数训练所述扩散模型的步骤具体包括:
以所述表情系数为真值,根据损失函数训练所述扩散模型。
3.如权利要求2所述的模型训练方法,其特征在于,所述获取与所述语音信号训练样本对应的图像的步骤具体包括:
获取表情动画训练样本;
将所述表情动画训练样本拆分为所述语音信号训练样本和对应的图像;所述语音信号训练样本和对应的图像以帧为单位对应。
4.如权利要求1所述的模型训练方法,其特征在于,所述提取所述语音信号训练样本的中间特征的步骤具体包括:
对所述语音信号训练样本进行去噪处理,得到去噪语音信号训练样本;
使用语音编码器提取所述去噪语音信号训练样本的中间特征。
5.一种图像生成方法,其特征在于,所述图像为虚拟人物的表情图像,所述图像生成方法包括:
获取待处理语音信号;
提取所述待处理语音信号的中间特征;
将所述中间特征输入表情系数预测模型,得到表情系数;所述表情系数预测模型根据权利要求1-4中任一项所述的模型训练方法而训练得到;
获取形象系数;所述形象系数用于表征所述虚拟人物的脸部特征;
以所述表情系数和所述形象系数为渲染模型的输入,得到所述表情图像;所述渲染模型根据表情系数训练样本和形象系数训练样本训练得到。
6.如权利要求5所述的图像生成方法,其特征在于,所述提取所述待处理语音信号的中间特征的步骤具体包括:
对所述待处理语音信号进行去噪处理,得到去噪语音信号;
使用语音编码器提取所述去噪语音信号的中间特征。
7.一种动画生成方法,其特征在于,所述动画生成方法包括:根据表情图像生成虚拟人物的表情动画;所述表情图像根据权利要求5-6中任一项所述的图像生成方法得到。
8.一种模型训练系统,其特征在于,所述模型训练系统包括:
第一获取模块,用于获取语音信号训练样本与对应的图像;
第一提取模块,用于提取所述语音信号训练样本的中间特征;
第二提取模块,用于从所述图像中提取表情系数;
训练模块,用于以所述中间特征为扩散模型的输入,基于所述表情系数训练所述扩散模型,得到训练好的表情系数预测模型。
9.一种图像生成系统,其特征在于,所述图像为虚拟人物的表情图像,所述图像生成系统包括:
待处理语音信号获取模块,用于获取待处理语音信号;
中间特征提取模块,用于提取所述待处理语音信号的中间特征;
表情系数生成模块,用于将所述中间特征输入表情系数预测模型,得到表情系数;所述表情系数预测模型根据权利要求8所述的模型训练系统而训练得到;
形象系数获取模块,用于获取形象系数;所述形象系数用于表征所述虚拟人物的脸部特征;
图像生成模块,用于以所述表情系数和所述形象系数为渲染模型的输入,得到所述表情图像;所述渲染模型根据表情系数训练样本和形象系数训练样本训练得到。
10.一种动画生成系统,其特征在于,所述动画生成系统包括:
动画生成模块,用于根据表情图像生成虚拟人物的表情动画;所述表情图像根据权利要求9述的图像生成系统得到。
11.一种电子设备,包括存储器、处理器及存储在存储器上并用于在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的模型训练方法、权利要求5-6中任一项所述的图像生成方法或权利要求7中所述的动画生成方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的模型训练方法、权利要求5-6中任一项所述的图像生成方法或权利要求7中所述的动画生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311120340.3A CN117078811A (zh) | 2023-08-31 | 2023-08-31 | 模型训练方法、图像生成方法、动画生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311120340.3A CN117078811A (zh) | 2023-08-31 | 2023-08-31 | 模型训练方法、图像生成方法、动画生成方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117078811A true CN117078811A (zh) | 2023-11-17 |
Family
ID=88713259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311120340.3A Pending CN117078811A (zh) | 2023-08-31 | 2023-08-31 | 模型训练方法、图像生成方法、动画生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117078811A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751692A (zh) * | 2009-12-24 | 2010-06-23 | 四川大学 | 语音驱动唇形动画的方法 |
CN101923726A (zh) * | 2009-06-09 | 2010-12-22 | 华为技术有限公司 | 一种语音动画生成方法及系统 |
CN106485774A (zh) * | 2016-12-30 | 2017-03-08 | 当家移动绿色互联网技术集团有限公司 | 基于语音实时驱动人物模型的表情和姿态的方法 |
CN110503942A (zh) * | 2019-08-29 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语音驱动动画方法和装置 |
CN112001992A (zh) * | 2020-07-02 | 2020-11-27 | 超维视界(北京)传媒科技有限公司 | 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统 |
CN112785670A (zh) * | 2021-02-01 | 2021-05-11 | 北京字节跳动网络技术有限公司 | 一种形象合成方法、装置、设备及存储介质 |
CN113378806A (zh) * | 2021-08-16 | 2021-09-10 | 之江实验室 | 一种融合情感编码的音频驱动人脸动画生成方法及系统 |
CN116312613A (zh) * | 2023-03-20 | 2023-06-23 | 特斯联科技集团有限公司 | 数字人表情口型驱动方法、系统、电子设备和存储介质 |
-
2023
- 2023-08-31 CN CN202311120340.3A patent/CN117078811A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923726A (zh) * | 2009-06-09 | 2010-12-22 | 华为技术有限公司 | 一种语音动画生成方法及系统 |
CN101751692A (zh) * | 2009-12-24 | 2010-06-23 | 四川大学 | 语音驱动唇形动画的方法 |
CN106485774A (zh) * | 2016-12-30 | 2017-03-08 | 当家移动绿色互联网技术集团有限公司 | 基于语音实时驱动人物模型的表情和姿态的方法 |
CN110503942A (zh) * | 2019-08-29 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语音驱动动画方法和装置 |
CN112001992A (zh) * | 2020-07-02 | 2020-11-27 | 超维视界(北京)传媒科技有限公司 | 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统 |
CN112785670A (zh) * | 2021-02-01 | 2021-05-11 | 北京字节跳动网络技术有限公司 | 一种形象合成方法、装置、设备及存储介质 |
CN113378806A (zh) * | 2021-08-16 | 2021-09-10 | 之江实验室 | 一种融合情感编码的音频驱动人脸动画生成方法及系统 |
CN116312613A (zh) * | 2023-03-20 | 2023-06-23 | 特斯联科技集团有限公司 | 数字人表情口型驱动方法、系统、电子设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
ZHENTAO YU ET AL.: "Talking Head Generation with Probabilistic Audio-to-Visual Diffusion Priors", 《HTTPS://ARXIV.ORG/ABS/2212.04248》, 7 December 2022 (2022-12-07), pages 3 - 5 * |
李欣怡等: "语音驱动的人脸动画研究现状综述", 《计算机工程与应用》, vol. 53, no. 22, 15 November 2017 (2017-11-15), pages 22 - 26 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10504268B1 (en) | Systems and methods for generating facial expressions in a user interface | |
CN107103903B (zh) | 基于人工智能的声学模型训练方法、装置及存储介质 | |
CN112860888B (zh) | 一种基于注意力机制的双模态情感分析方法 | |
CN112233698B (zh) | 人物情绪识别方法、装置、终端设备及存储介质 | |
CN112950471A (zh) | 视频超分处理方法、装置、超分辨率重建模型、介质 | |
CN110808034A (zh) | 语音转换方法、装置、存储介质及电子设备 | |
Pandey et al. | Liptype: A silent speech recognizer augmented with an independent repair model | |
Eskimez et al. | Noise-resilient training method for face landmark generation from speech | |
CN115457169A (zh) | 一种语音驱动的人脸动画生成方法及系统 | |
CN115050354B (zh) | 数字人驱动方法和装置 | |
CN114268747A (zh) | 基于虚拟数字人的访谈业务处理方法及相关装置 | |
CN114400005A (zh) | 语音消息生成方法和装置、计算机设备、存储介质 | |
CN114360502A (zh) | 语音识别模型的处理方法、语音识别方法及装置 | |
CN114882861A (zh) | 语音生成方法、装置、设备、介质及产品 | |
CN112884062B (zh) | 一种基于cnn分类模型和生成对抗网络的运动想象分类方法及系统 | |
CN117058597B (zh) | 一种基于音视频的维度情感识别方法、系统、设备及介质 | |
CN114065915A (zh) | 网络模型的构建方法、数据处理方法、装置、介质及设备 | |
CN111445545A (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
CN117078811A (zh) | 模型训练方法、图像生成方法、动画生成方法及系统 | |
CN112580395A (zh) | 基于深度信息的3d人脸活体识别方法、系统、设备及介质 | |
US20220358851A1 (en) | Generating question answer pairs | |
CN116109980A (zh) | 一种基于视频文本匹配的动作识别方法 | |
CN112950501B (zh) | 基于噪声场的图像降噪方法、装置、设备及存储介质 | |
CN114898018A (zh) | 数字对象的动画生成方法、装置、电子设备及存储介质 | |
CN115841687A (zh) | 虚拟人物形象的生成方法及装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |