CN116309975A - 数字人驱动方法、装置、存储介质及计算机设备 - Google Patents
数字人驱动方法、装置、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN116309975A CN116309975A CN202310116194.0A CN202310116194A CN116309975A CN 116309975 A CN116309975 A CN 116309975A CN 202310116194 A CN202310116194 A CN 202310116194A CN 116309975 A CN116309975 A CN 116309975A
- Authority
- CN
- China
- Prior art keywords
- digital person
- audio data
- parameters
- feature vector
- gesture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 102
- 230000008921 facial expression Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 238000004422 calculation algorithm Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 13
- 230000009471 action Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/80—2D [Two Dimensional] animation, e.g. using sprites
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种数字人驱动方法、装置、存储介质及计算机设备,涉及人工智能技术领域,主要在于能够提高数字人的驱动效率和驱动准确度。其中方法包括:获取待驱动数字人对应的音频数据;确定所述音频数据对应的音频特征向量;将所述音频特征向量输入至预设姿态参数预测模型中进行参数预测,得到所述待驱动数字人对应的预测姿态参数;基于所述预测姿态参数,对所述待驱动数字人进行驱动。本发明适用于对数字人进行驱动。
Description
技术领域
本发明涉及人工智能技术领域,尤其是涉及一种数字人驱动方法、装置、存储介质及计算机设备。
背景技术
随着AI(ArtificialIntelligence,人工智能)技术在内容创作方面的快速发展,AI从只作为用于辅助内容创作的工具,到如今的AIGC(AI Generated Content,利用人工智能技术来生成内容方式)已经能够独立完成对话聊天、视频生成等创意性工作,进化速度十分明显。AIGC已经广泛应用于各类场景,例如,利用2D孪生数字人生产视频的场景,在此种场景中可以通过语音驱动数字人演讲。
目前,通常通过音素及其对应的时间戳来训练算法,并利用训练后的驱算法来对数字人进行驱动。然而,不同语种对应不同音素,这种方式训练后的算法只能对数字人进行单一语种驱动,若要对数字人进行另一语种驱动,需要重新利用另一语种对应的音素来训练驱动算法,导致数字人驱动的效率较低,与此同时,音素对应的时间戳需要使用算法计算得到,由于这部分算法需要预先利用大量较难获取的数据训练,导致该算法在计算时间戳时的准确度较低,进而导致数字人的驱动准确度较低。
发明内容
本发明提供了一种数字人驱动方法、装置、存储介质及计算机设备,主要在于能够提高数字人的驱动效率和驱动准确度。
根据本发明的第一个方面,提供一种数字人驱动方法,包括:
获取待驱动数字人对应的音频数据;
确定所述音频数据对应的音频特征向量;
将所述音频特征向量输入至预设姿态参数预测模型中进行参数预测,得到所述待驱动数字人对应的预测姿态参数;
基于所述预测姿态参数,对所述待驱动数字人进行驱动。
优选地,所述确定所述音频数据对应的音频特征向量,包括:
对所述音频数据依次进行预加重、分帧和加窗处理,得到处理后的音频数据;
对所述处理后的音频数据进行傅里叶变换,得到所述音频数据对应的语谱图;
利用梅尔滤波器组对所述语谱图进行滤波,得到所述梅尔滤波器组输出的带有能量波的语谱图,并计算所述能量波的对数,得到对数语谱图;
对所述对数语谱图进行反离散变换,得到所述音频数据对应的音频特征向量。
优选地,在所述将所述音频特征向量输入至预设姿态参数预测模型中进行参数预测,得到所述待驱动数字人对应的预测姿态参数之前,所述方法还包括:
构建预设初始姿态参数预测模型;
获取多语种样本数字人视频数据,并在所述多语种样本数字人视频数据中提取多语种样本音频数据,以及确定所述多语种样本音频数据对应的实际姿态参数;
确定所述多语种样本音频数据对应的样本音频特征向量;
将所述样本音频特征向量输入至所述预设初始姿态参数预测模型中进行参数预测,得到所述多语种样本音频数据对应的样本姿态参数;
基于所述实际姿态参数和样本姿态参数,构建所述预设初始姿态参数预测模型对应的损失函数;
基于所述损失函数,对所述预设初始姿态参数预测模型进行训练,构建所述预设姿态参数预测模型。
优选地,所述确定所述多语种样本音频数据对应的实际姿态参数,包括:
获取所述多语种样本数字人视频数据中的视频帧;
将所述视频帧输入至预设神经网络模型中进行参数提取,得到所述样本数字人对应的实际姿态参数。
优选地,所述预设姿态参数预测模型包括编码器和解码器,所述将所述音频特征向量输入至预设姿态参数预测模型中进行参数预测,得到所述待驱动数字人对应的预测姿态参数,包括:
将所述音频特征向量输入至所述编码器中,通过所述编码器输出所述音频数据对应的语义特征向量;
将所述语义特征向量输入至所述解码器,通过所述解码器输出所述音频数据对应的预测姿态参数。
优选地,所述预测姿态参数包括面部表情参数、形体参数、嘴部摆动参数、眼部摆动参数。
优选地,所述基于所述预测姿态参数,对所述待驱动数字人进行驱动,包括:
基于所述面部表情参数,对所述待驱动数字人的面部表情进行驱动;
基于所述形体参数,对所述待驱动数字人的形体进行驱动;
基于所述嘴部摆动参数,对所述待驱动数字人的嘴部进行驱动;
基于所述眼部摆动参数,对所述待驱动数字人的眼部进行驱动。
根据本发明的第二个方面,提供一种数字人驱动装置,包括:
获取单元,用于获取待驱动数字人对应的音频数据;
确定单元,用于确定所述音频数据对应的音频特征向量;
参数预测单元,用于将所述音频特征向量输入至预设姿态参数预测模型中进行参数预测,得到所述待驱动数字人对应的预测姿态参数;
驱动单元,用于基于所述预测姿态参数,对所述待驱动数字人进行驱动。
根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以上数字人驱动方法。
根据本发明的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以上数字人驱动方法。
根据本发明提供的一种数字人驱动方法、装置、存储介质及计算机设备,与目前利用音素及其对应的时间戳训练的算法来对数字人进行驱动的方式相比,本发明通过获取待驱动数字人对应的音频数据;并确定所述音频数据对应的音频特征向量;之后将所述音频特征向量输入至预设姿态参数预测模型中进行参数预测,得到所述待驱动数字人对应的预测姿态参数;最终基于所述预测姿态参数,对所述待驱动数字人进行驱动。由此通过获取音频数据对应的音频特征向量,并利用训练好的预设姿态参数预测模型来对音频特征向量对应的姿态参数进行预测,最终利用预测出的姿态参数来对数字人进行驱动,能够避免若要对数字人进行多语种驱动时,需要不断训练不同语种对应的算法,由此本发明能够提高数字人的驱动效率,与此同时,本发明不需要获取音素对应的时间戳,避免了时间戳的获取误差,从而本发明提高了数字人的驱动准确度。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明实施例提供的一种数字人驱动方法流程图;
图2示出了本发明实施例提供的另一种数字人驱动方法流程图;
图3示出了本发明实施例提供的一种数字人驱动装置的结构示意图;
图4示出了本发明实施例提供的另一种数字人驱动装置的结构示意图;
图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
目前,通过音素及其对应的时间戳来训练算法,并利用训练后的驱算法来对数字人进行驱动的方式,导致数字人驱动的效率较低,与此同时,音素对应的时间戳需要使用算法计算得到,由于这部分算法需要预先利用大量较难获取的数据训练,导致该算法在计算时间戳时的准确度较低,进而导致数字人的驱动准确度较低。
为了解决上述问题,本发明实施例提供了一种数字人驱动方法,如图1所示,所述方法包括:
101、获取待驱动数字人对应的音频数据。
其中,待驱动数字人是指是运用数字技术创造出来的、与人类形象接近的数字化人物形象;音频数据是指需要数字人进行口述的音频。
对于本发明实施例,音频数据库中存储着各种语种对应的音频,若要让待驱动数字人口述某一语种的音频,可以直接在音频数据库中获取该语种音频,与此同时,若要往待驱动数字人口述多语种音频,可以在音频数据库中获取多语种音频,之后确定多语种音频对应的姿态参数,最终根据姿态参数对待驱动数字人进行驱动,由此能够对数字人进行多语种驱动,提升了数字人驱动的使用范围。
102、确定音频数据对应的音频特征向量。
其中,音频特征向量具体可以为MFCC(Mel Frequency Ceptral Coefficient,梅尔频率倒谱系数)向量。
对于本发明实施例,在获取待驱动数字人对应的音频数据后,可以对该音频数据以此进行预处理,得到处理后的音频数据,之后提取处理后的音频数据中的MFCC特征向量,之后将MFCC特征向量输入至预设姿态参数预测模型中进行参数预测,得到待驱动数字人对应的预测姿态参数,最终利用预测姿态参数对待驱动数字人进行姿态驱动。由此通过获取音频数据对应的音频特征向量来对数字人的姿态参数进行预测,能够避免利用音素和时间戳来预测姿态参数导致的时间戳获取困难度和获取错误的情况,同时还能够避免利用音素只能对数字人进行单语种驱动的缺陷,从而本发明实施例能够提高数字人的驱动效率和驱动准确度。
103、将音频特征向量输入至预设姿态参数预测模型中进行参数预测,得到待驱动数字人对应的预测姿态参数。
其中,姿态参数是指带驱动数字人在播报音频数据时应该呈现的表情、肢体动作,唇部动作和眼部动作等。
对于本发明实施例,在确定音频数据对应的音频特征向量后,将该音频特征向量输入至预设姿态参数预测模型中进行参数预测,通过预设姿态参数预测模型能够输出该音频特征向量对应的预测姿态参数,最终根据预测姿态参数,对待驱动数字人的肢体、唇部、眼睛等部位进行驱动,使数字人在播报音频时,能够展现与音频内容相对应的表情和动作,从而能够提高观看者的体验,与此同时,利用预设姿态参数预测模型来对待驱动数字人的姿态参数进行预测,能够避免使用音素及其对应时间戳训练的算法来预测姿态参数导致参数预测错误的情况,从而本发明实施例能够提高姿态参数的预测准确度,进而提高数字人的驱动准确度。
104、基于预测姿态参数,对待驱动数字人进行驱动。
对于本发明实施例,在利用预设姿态参数预测模型对数字人的姿态参数进行预测后,根据姿态参数能够确定数字人的肢体动作、面部表情、唇部动作和眼部等动作,之后按照上述动作分别对数字人的肢体、面部表情、唇部和眼部等进行驱动,由此通过音频特征向量来确定数字人对应的各部位的姿态参数,能够使数字人在播报音频时,数字人的表情和肢体动作等更贴合音频所要表达的内容,提升了观看者的观看体验。
根据本发明提供的一种数字人驱动方法,与目前利用音素及其对应的时间戳训练的算法来对数字人进行驱动的方式相比,本发明通过获取待驱动数字人对应的音频数据;并确定所述音频数据对应的音频特征向量;之后将所述音频特征向量输入至预设姿态参数预测模型中进行参数预测,得到所述待驱动数字人对应的预测姿态参数;最终基于所述预测姿态参数,对所述待驱动数字人进行驱动。由此通过获取音频数据对应的音频特征向量,并利用训练好的预设姿态参数预测模型来对音频特征向量对应的姿态参数进行预测,最终利用预测出的姿态参数来对数字人进行驱动,能够避免若要对数字人进行多语种驱动时,需要不断训练不同语种对应的算法,由此本发明能够提高数字人的驱动效率,与此同时,本发明不需要获取音素对应的时间戳,避免了时间戳的获取误差,从而本发明提高了数字人的驱动准确度。
进一步的,为了更好的说明上述对数字人进行驱动的过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种数字人驱动方法,如图2所示,所述方法包括:
201、获取待驱动数字人对应的音频数据。
具体地,可以在音频数据库中获取需要待驱动数字人播报的音频数据,之后根据该音频数据确定其对应的姿态参数,最终根据姿态参数来对待驱动数字人进行驱动。
202、确定音频数据对应的音频特征向量。
对于本发明实施例,在获取音频数据后,为了提高预设姿态参数预测模型的预测精度,还需要提取音频数据中的语音通用特征(音频特征向量),基于此,步骤202具体包括:对音频数据依次进行预加重、分帧和加窗处理,得到处理后的音频数据;对处理后的音频数据进行傅里叶变换,得到音频数据对应的语谱图;利用梅尔滤波器组对语谱图进行滤波,得到梅尔滤波器组输出的带有能量波的语谱图,并计算能量波的对数,得到对数语谱图;对对数语谱图进行反离散变换,得到音频数据对应的音频特征向量。
其中,梅尔滤波器组由多个带宽不等的三角滤波器组成。
具体地,在获取待驱动数字人对应的音频数据后,为了提高数字人的驱动准确度,首先需要去除该音频数据中的冗余数据,基于此,首先可以对音频数据进行预加重处理,得到第一音频数据,进行预加重处理主要是为了去除口唇辐射的影响,增加音频数据中语音的高频分辨率,之后为了保证输入音频信号是平稳的,我们需要将第一音频数据分成一小段,即分帧处理,得到第二音频数据,之后把每一音频帧里面的抽样点与窗函数中对应元素相乘,即对第二音频数据进行加窗处理,加窗处理是为了解决由于音频信号的非周期截断,导致频谱在整个频带内发生了拖尾现象的泄漏问题,可以使全局更加连续,避免出现吉布斯效应,由此能够得到信号特征明显的处理后的音频数据。进一步地,对处理后的音频数据进行傅里叶变换,将音频数据从时域转换为频域,得到音频数据对应的语谱图,之后利用梅尔滤波器组对语谱图进行滤波,得到每个梅尔滤波器中的能量波,并对每个梅尔滤波器中的能量波取对数,得到对数语谱图,最终对对数语谱图进行反离散变换,得到音频数据对应的音频特征向量。
203、获取多语种样本数字人视频数据,并在多语种样本数字人视频数据中提取多语种样本音频数据,以及获取多语种样本音频数据对应的实际姿态参数。
其中,实际姿态参数是指多语种样本音频数据对应的标准姿态参数。
204、确定多语种样本音频数据对应的样本音频特征向量。
205、将样本音频特征向量输入至预设初始姿态参数预测模型中进行参数预测,得到多语种样本音频数据对应的样本姿态参数。
206、基于实际姿态参数和样本姿态参数,构建预设初始姿态参数预测模型对应的损失函数。
207、基于损失函数,对预设初始姿态参数预测模型进行训练,构建预设姿态参数预测模型。
对于本发发明实施例,为了提高预设姿态参数预测模型的预测精度,首先需要构建预设姿态参数预测模型,基于此,所述方法包括,首先构建预设初始姿态参数预测模型,与此同时,获取多语种样本数字人视频数据,其中,该多语种可以包括英语、汉语、法语等语种,样本数字人视频为带有表情、动作和语音的数字人展现的视频,在获取多语种样本数字人视频数据后,还需要在多语种样本数字人视频数据中提取多语种样本音频数据,并在样本数字人视频中提取实际姿态参数,基于此,具体在样本数字人视频中提取样本数字人对应的姿态参数的方法包括:获取多语种样本数字人视频数据中的视频帧;将视频帧输入至预设神经网络模型中进行参数提取,得到样本数字人对应的实际姿态参数。
其中,预设神经网络模型为预先训练好的预测精度较高的基于resnet18网络结构的模型,包括4个卷积块,实质上可以认为是一个多层非线性处理单元,使用一组计算技术来处理输入数据,每个卷积块由一个基本计算单元和一个双向残差联结组成。基本计算单元包括:一个卷积层、batch normalization(批量规范化)层、激活函数和池化层。残差联结由两个基本计算单元(称为残差单元)组成,用于把输入数据变换为等同的大小的输出。在实施残差联结的过程中,输出的范围介于输入的最大值和最小值之间。
具体地,首先确定多语种样本数字人视频数据中的视频帧,之后将视频帧输入至预设神经网络模型中进行参数提取,视频帧经过预设神经网络模型中卷积层、batchnormalization层、激活函数和池化层的处理,最终输出样本数字人对应的实际姿态参数。
进一步地,对样本音频数据依次进行预处理、傅里叶变换处理、梅尔滤波器组处理和反离散变换处理,得到多语种样本音频数据对应的样本音频特征向量,之后将样本音频特征向量输入至预设初始姿态参数预测模型中进行参数预测,得到多语种样本音频数据对应的样本姿态参数,之后基于实际姿态参数和样本姿态参数,构建损失函数,并利用损失函数来对预设初始姿态参数预测模型的参数进行调优,最终得到精度较高的预设姿态参数预测模型。
在本发明的又一实施例中,其中,预设初始姿态参数预测模型由初始编码器和初始解码器组成,在构建精度较高的预设姿态参数预测模型时,可以首先对初始编码器进行训练,具体训练方法为,将样本音频特征向量按照时间进行分段,得到前预设时间内的第一样本音频特征向量和后预设时间内的第二样本音频特征向量,之后将第一样本音频特征向量输入至初始编码器中,通过初始编码器输出后预设时间段内的预测样本音频特征向量,之后根据第二样本音频特征向量和预测样本音频特征向量计算损失来不断更新初始编码器的参数,最终得到精度较高的初始编码器,之后在对预设初始姿态参数预测模型进行训练时,可以将更新参数后的初始编码器的参数进行固定,之后在训练预设初始姿态参数预测模型,由此能够进一步提高预设姿态参数预测模型的预测精度,进而提高了数字人的驱动准确度。
208、将音频特征向量输入至预设姿态参数预测模型中进行参数预测,得到待驱动数字人对应的预测姿态参数。
其中,预设姿态参数预测模型包括编码器和解码器;预测姿态参数包括面部表情参数、形体参数、嘴部摆动参数、眼部摆动参数。
对于本发明实施例,在构建好了精度较高的预设姿态参数预测模型后,需要利用预设姿态参数预测模型来对待驱动数字人的姿态参数进行预测,基于此,步骤208具体包括:将音频特征向量输入至所述编码器中,通过编码器输出音频数据对应的语义特征向量;将语义特征向量输入至解码器,通过解码器输出音频数据对应的预测姿态参数。
具体地,编码器可以有多个,每个编码器首尾相连,编码器具体包括注意力层和前馈神经网络层,具体利用编码器提取语义特征向量的方法为:将音频特征向量输入至注意力层进行特征提取,得到第一特征向量,将第一特征向量和音频特征向量相加,得到第二特征向量,之后将第二特征向量输入至第一个编码器的前馈神经网络层中进行特征提取,得到第一个编码器的输出向量,因为本发明实施例中包含多个编码器,且多个编码器之间采用首尾串联的方式,因此将第一个编码器的输出向量输入至第二个编码器中进行特征提取,得到第二个编码器的输出向量,以此将前一个编码器的输出向量作为下一个编码器的输入向量,最终将最后一个编码器的输出向量确定为音频数据对应的语义特征向量。进一步地,将语义特征向量输入至解码器中,通过该解码器输出音频数据对应的预测姿态参数,最终利用预测姿态参数对数字人进行驱动。
由于现有技术中使用音素来对数字人进行驱动,由于不同语种的音素不同,导致只能对数字人进行单一语种驱动,而本发明实施例使用音频作为输入条件,并使用预设姿态参数预测模型来对音频数据中的姿态参数进行预测,因此发明实施例可以实现对数字人进行任意语种的驱动。
由于使用带有编码器和解码器的模型作为预设姿态参数预测模型,使得预设姿态参数预测模型仅需在少量样本训练数据上微调便可达到精度较高的预测效果,大幅减少模型训练时间。
209、基于预测姿态参数,对待驱动数字人进行驱动。
对于本发明实施例,在确定了待确定数字人对应的姿态参数后,需要基于该姿态参数对数字人进行驱动,基于此,步骤209具体包括:基于面部表情参数,对待驱动数字人的面部表情进行驱动;基于形体参数,对待驱动数字人的形体进行驱动;基于嘴部摆动参数,对待驱动数字人的嘴部进行驱动;基于眼部摆动参数,对待驱动数字人的眼部进行驱动。
具体地,在确定了音频数据对应的面部表情参数、形体参数、嘴部摆动参数、眼部摆动参数等参数后,可以根据面部表情参数,对数字人的面部进行驱动,例如,若面部表情为微笑,则将数字人的面部驱动成微笑的姿态,若面部表情为悲伤,则将数字人的面部驱动成悲伤的姿态,与此同时,根据形体参数,对数字人的形体进行驱动,例如,若形体为左臂抬起,则驱动数字人的左臂进行抬起动作,之后根据唇部摆动参数,对数字人的唇部进行驱动,例如,嘴部摆动参数为发出“哦”的口型,则对数字人的嘴部按照哦的口型进行驱动,与此同时,根据眼部摆动参数,对数字人的眼部动作进行驱动,由此能够驱动出一个表情丰富,与音频数字贴合的数字人,提升了观看用户的体验感。
根据本发明提供的另一种数字人驱动方法,与目前利用音素及其对应的时间戳训练的算法来对数字人进行驱动的方式相比,本发明通过获取待驱动数字人对应的音频数据;并确定所述音频数据对应的音频特征向量;之后将所述音频特征向量输入至预设姿态参数预测模型中进行参数预测,得到所述待驱动数字人对应的预测姿态参数;最终基于所述预测姿态参数,对所述待驱动数字人进行驱动。由此通过获取音频数据对应的音频特征向量,并利用训练好的预设姿态参数预测模型来对音频特征向量对应的姿态参数进行预测,最终利用预测出的姿态参数来对数字人进行驱动,能够避免若要对数字人进行多语种驱动时,需要不断训练不同语种对应的算法,由此本发明能够提高数字人的驱动效率,与此同时,本发明不需要获取音素对应的时间戳,避免了时间戳的获取误差,从而本发明提高了数字人的驱动准确度。
进一步地,作为图1的具体实现,本发明实施例提供了一种数字人驱动装置,如图3所示,所述装置包括:获取单元31、确定单元32、参数预测单元33和驱动单元34。
所述获取单元31,可以用于获取待驱动数字人对应的音频数据。
所述确定单元32,可以用于确定所述音频数据对应的音频特征向量。
所述参数预测单元33,可以用于将所述音频特征向量输入至预设姿态参数预测模型中进行参数预测,得到所述待驱动数字人对应的预测姿态参数。
所述驱动单元34,可以用于基于所述预测姿态参数,对所述待驱动数字人进行驱动。
在具体应用场景中,为了确定音频数据对应的音频特征向量,如图4所示,所述确定单元32,包括处理模块321、变换模块322和计算模块323。
所述处理模块321,可以用于对所述音频数据依次进行预加重、分帧和加窗处理,得到处理后的音频数据。
所述变换模块322,可以用于对所述处理后的音频数据进行傅里叶变换,得到所述音频数据对应的语谱图。
所述计算模块323,可以用于利用梅尔滤波器组对所述语谱图进行滤波,得到所述梅尔滤波器组输出的带有能量波的语谱图,并计算所述能量波的对数,得到对数语谱图。
所述变换模块322,可以用于对所述对数语谱图进行反离散变换,得到所述音频数据对应的音频特征向量。
在具体应用场景中,为了构建预设姿态参数预测模型,所述装置还包括:构建单元35和训练单元36。
所述构建单元35,可以用于构建预设初始姿态参数预测模型。
所述获取单元31,还可以用于获取多语种样本数字人视频数据,并在所述多语种样本数字人视频数据中提取多语种样本音频数据,以及确定所述多语种样本音频数据对应的实际姿态参数。
所述确定单元32,可以用于确定所述多语种样本音频数据对应的样本音频特征向量。
所述参数预测单元33,还可以用于将所述样本音频特征向量输入至所述预设初始姿态参数预测模型中进行参数预测,得到所述多语种样本音频数据对应的样本姿态参数。
所述构建单元35,具体可以用于基于所述实际姿态参数和样本姿态参数,构建所述预设初始姿态参数预测模型对应的损失函数。
所述训练单元36,可以用于基于所述损失函数,对所述预设初始姿态参数预测模型进行训练,构建所述预设姿态参数预测模型。
在具体应用场景中,为了确定多语种样本音频数据对应的实际姿态参数,所述获取单元31,包括获取模块311和参数提取模块312。
所述获取模块311,可以用于获取所述多语种样本数字人视频数据中的视频帧。
所述参数提取模块312,可以用于将所述视频帧输入至预设神经网络模型中进行参数提取,得到所述样本数字人对应的实际姿态参数。
在具体应用场景中,为了预测待驱动数字人对应的姿态参数,所述参数预测单元33具体可以用于将所述音频特征向量输入至所述编码器中,通过所述编码器输出所述音频数据对应的语义特征向量;将所述语义特征向量输入至所述解码器,通过所述解码器输出所述音频数据对应的预测姿态参数。
在具体应用场景中,所述预测姿态参数包括面部表情参数、形体参数、嘴部摆动参数、眼部摆动参数。
在具体应用场景中,为了对数字人进行驱动,所述驱动单元34,具体可以用于基于所述面部表情参数,对所述待驱动数字人的面部表情进行驱动;基于所述形体参数,对所述待驱动数字人的形体进行驱动;基于所述嘴部摆动参数,对所述待驱动数字人的嘴部进行驱动;基于所述眼部摆动参数,对所述待驱动数字人的眼部进行驱动。
需要说明的是,本发明实施例提供的一种数字人驱动装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取待驱动数字人对应的音频数据;确定所述音频数据对应的音频特征向量;将所述音频特征向量输入至预设姿态参数预测模型中进行参数预测,得到所述待驱动数字人对应的预测姿态参数;基于所述预测姿态参数,对所述待驱动数字人进行驱动。
基于上述如图1所示方法和如图3所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图5所示,该计算机设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:获取待驱动数字人对应的音频数据;确定所述音频数据对应的音频特征向量;将所述音频特征向量输入至预设姿态参数预测模型中进行参数预测,得到所述待驱动数字人对应的预测姿态参数;基于所述预测姿态参数,对所述待驱动数字人进行驱动。
通过本发明的技术方案,本发明通过获取待驱动数字人对应的音频数据;并确定所述音频数据对应的音频特征向量;之后将所述音频特征向量输入至预设姿态参数预测模型中进行参数预测,得到所述待驱动数字人对应的预测姿态参数;最终基于所述预测姿态参数,对所述待驱动数字人进行驱动。由此通过获取音频数据对应的音频特征向量,并利用训练好的预设姿态参数预测模型来对音频特征向量对应的姿态参数进行预测,最终利用预测出的姿态参数来对数字人进行驱动,能够避免若要对数字人进行多语种驱动时,需要不断训练不同语种对应的算法,由此本发明能够提高数字人的驱动效率,与此同时,本发明不需要获取音素对应的时间戳,避免了时间戳的获取误差,从而本发明提高了数字人的驱动准确度。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (10)
1.一种数字人驱动方法,其特征在于,包括:
获取待驱动数字人对应的音频数据;
确定所述音频数据对应的音频特征向量;
将所述音频特征向量输入至预设姿态参数预测模型中进行参数预测,得到所述待驱动数字人对应的预测姿态参数;
基于所述预测姿态参数,对所述待驱动数字人进行驱动。
2.根据权利要求1所述的方法,其特征在于,所述确定所述音频数据对应的音频特征向量,包括:
对所述音频数据依次进行预加重、分帧和加窗处理,得到处理后的音频数据;
对所述处理后的音频数据进行傅里叶变换,得到所述音频数据对应的语谱图;
利用梅尔滤波器组对所述语谱图进行滤波,得到所述梅尔滤波器组输出的带有能量波的语谱图,并计算所述能量波的对数,得到对数语谱图;
对所述对数语谱图进行反离散变换,得到所述音频数据对应的音频特征向量。
3.根据权利要求1所述的方法,其特征在于,在所述将所述音频特征向量输入至预设姿态参数预测模型中进行参数预测,得到所述待驱动数字人对应的预测姿态参数之前,所述方法还包括:
构建预设初始姿态参数预测模型;
获取多语种样本数字人视频数据,并在所述多语种样本数字人视频数据中提取多语种样本音频数据,以及确定所述多语种样本音频数据对应的实际姿态参数;
确定所述多语种样本音频数据对应的样本音频特征向量;
将所述样本音频特征向量输入至所述预设初始姿态参数预测模型中进行参数预测,得到所述多语种样本音频数据对应的样本姿态参数;
基于所述实际姿态参数和样本姿态参数,构建所述预设初始姿态参数预测模型对应的损失函数;
基于所述损失函数,对所述预设初始姿态参数预测模型进行训练,构建所述预设姿态参数预测模型。
4.根据权利要求3所述的方法,其特征在于,所述确定所述多语种样本音频数据对应的实际姿态参数,包括:
获取所述多语种样本数字人视频数据中的视频帧;
将所述视频帧输入至预设神经网络模型中进行参数提取,得到所述样本数字人对应的实际姿态参数。
5.根据权利要求1所述的方法,其特征在于,所述预设姿态参数预测模型包括编码器和解码器,所述将所述音频特征向量输入至预设姿态参数预测模型中进行参数预测,得到所述待驱动数字人对应的预测姿态参数,包括:
将所述音频特征向量输入至所述编码器中,通过所述编码器输出所述音频数据对应的语义特征向量;
将所述语义特征向量输入至所述解码器,通过所述解码器输出所述音频数据对应的预测姿态参数。
6.根据权利要求1所述的方法,其特征在于,所述预测姿态参数包括面部表情参数、形体参数、嘴部摆动参数、眼部摆动参数。
7.根据权利要求1所述的方法,其特征在于,所述基于所述预测姿态参数,对所述待驱动数字人进行驱动,包括:
基于所述面部表情参数,对所述待驱动数字人的面部表情进行驱动;
基于所述形体参数,对所述待驱动数字人的形体进行驱动;
基于所述嘴部摆动参数,对所述待驱动数字人的嘴部进行驱动;
基于所述眼部摆动参数,对所述待驱动数字人的眼部进行驱动。
8.一种数字人驱动装置,其特征在于,包括:
获取单元,用于获取待驱动数字人对应的音频数据;
确定单元,用于确定所述音频数据对应的音频特征向量;
参数预测单元,用于将所述音频特征向量输入至预设姿态参数预测模型中进行参数预测,得到所述待驱动数字人对应的预测姿态参数;
驱动单元,用于基于所述预测姿态参数,对所述待驱动数字人进行驱动。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310116194.0A CN116309975A (zh) | 2023-02-08 | 2023-02-08 | 数字人驱动方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310116194.0A CN116309975A (zh) | 2023-02-08 | 2023-02-08 | 数字人驱动方法、装置、存储介质及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116309975A true CN116309975A (zh) | 2023-06-23 |
Family
ID=86819586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310116194.0A Pending CN116309975A (zh) | 2023-02-08 | 2023-02-08 | 数字人驱动方法、装置、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116309975A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116994600A (zh) * | 2023-09-28 | 2023-11-03 | 中影年年(北京)文化传媒有限公司 | 基于音频驱动角色口型的方法及系统 |
-
2023
- 2023-02-08 CN CN202310116194.0A patent/CN116309975A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116994600A (zh) * | 2023-09-28 | 2023-11-03 | 中影年年(北京)文化传媒有限公司 | 基于音频驱动角色口型的方法及系统 |
CN116994600B (zh) * | 2023-09-28 | 2023-12-12 | 中影年年(北京)文化传媒有限公司 | 基于音频驱动角色口型的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3926623A1 (en) | Speech recognition method and apparatus, and neural network training method and apparatus | |
CN110223705B (zh) | 语音转换方法、装置、设备及可读存储介质 | |
CN110136698B (zh) | 用于确定嘴型的方法、装置、设备和存储介质 | |
CN110992987B (zh) | 语音信号中针对通用特定语音的并联特征提取系统及方法 | |
CN111930992B (zh) | 神经网络训练方法、装置及电子设备 | |
US11948552B2 (en) | Speech processing method, apparatus, electronic device, and computer-readable storage medium | |
CN111933110B (zh) | 视频生成方法、生成模型训练方法、装置、介质及设备 | |
WO2022048405A1 (zh) | 基于文本的虚拟对象动画生成方法及装置、存储介质、终端 | |
CN111312245B (zh) | 一种语音应答方法、装置和存储介质 | |
WO2022134894A1 (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN112562722A (zh) | 基于语义的音频驱动数字人生成方法及系统 | |
CN110246488B (zh) | 半优化CycleGAN模型的语音转换方法及装置 | |
CN107972028B (zh) | 人机交互方法、装置及电子设备 | |
CN109767756B (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
US10810993B2 (en) | Sample-efficient adaptive text-to-speech | |
CN112233698B (zh) | 人物情绪识别方法、装置、终端设备及存储介质 | |
CN112184859B (zh) | 端到端的虚拟对象动画生成方法及装置、存储介质、终端 | |
CN111192659A (zh) | 用于抑郁检测的预训练方法和抑郁检测方法及装置 | |
CN114121006A (zh) | 虚拟角色的形象输出方法、装置、设备以及存储介质 | |
CN113555032A (zh) | 多说话人场景识别及网络训练方法、装置 | |
CN116309975A (zh) | 数字人驱动方法、装置、存储介质及计算机设备 | |
CN113903347A (zh) | 一种基于机器学习的语音处理方法、装置、设备及介质 | |
CN114141237A (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
CN116095357B (zh) | 虚拟主播的直播方法、装置及系统 | |
CN112712789A (zh) | 跨语言音频转换方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |