CN117524244B - 3d数字人的语音驱动方法、装置、存储介质及相关设备 - Google Patents
3d数字人的语音驱动方法、装置、存储介质及相关设备 Download PDFInfo
- Publication number
- CN117524244B CN117524244B CN202410021915.4A CN202410021915A CN117524244B CN 117524244 B CN117524244 B CN 117524244B CN 202410021915 A CN202410021915 A CN 202410021915A CN 117524244 B CN117524244 B CN 117524244B
- Authority
- CN
- China
- Prior art keywords
- target
- voice
- lip
- predicted
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 101
- 230000014509 gene expression Effects 0.000 claims abstract description 215
- 230000001360 synchronised effect Effects 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims description 51
- 230000008569 process Effects 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000013459 approach Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 7
- 238000004891 communication Methods 0.000 abstract description 5
- 238000007654 immersion Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 12
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000452 restraining effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000003387 muscular Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/04—Indexing scheme for image data processing or generation, in general involving 3D image data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Abstract
本申请提供的3D数字人的语音驱动方法、装置、存储介质及相关设备,当获取到目标用户输入的语音信号时,可以获取目标表情预测模型,然后将语音信号输入至目标表情预测模型中,这样便可以得到目标表情预测模型输出的、与语音信号同步的、3D数字人的人脸不同区域的表情参数;利用该表情参数以及语音信号驱动3D数字人说话时,既可以通过人脸不同区域的表情参数来生成嘴形丰富度较高的3D数字人,又可以控制3D数字人说话时语音与嘴形的同步性,为用户提供接近于实时与真人自然交流的体验,从而在极大程度上提升用户的互动感与沉浸感,满足元宇宙3D场景数字人音频驱动唇形的需求。
Description
技术领域
本申请涉及语音驱动技术领域,尤其涉及一种3D数字人的语音驱动方法、装置、存储介质及相关设备。
背景技术
近年来,由于GAN、Nerf的不断发展,以及元宇宙内容创作与生成的兴起,在电商、金融、影视、游戏和金融等行业与领域,人们对于构建可交互的数字人日渐迫切。数字人是指使用计算机技术、人工智能和虚拟现实等技术创建的人类仿真实体。它们可以拥有类似人类的外貌、智能和情感,并且可以通过自然语言交互与人类进行沟通和互动,为了实现更加真实、有趣和沟通友好的数字人交互体验,还可以通过语音驱动数字人说话。
现有技术中,使用语音驱动算法来驱动数字人说话时,一般是直接根据语音和参考人脸图像生成具有对应唇形的数字人人脸,具体过程主要是通过将语音映射到某一个中间模态,然后再将中间模态映射到口型,以此来进行二维渲染后得到数字人。但由于二维渲染的过程中缺少了三维信息,且映射的过程难以保证语音与口型的同步性,进而导致现有的技术方案存在嘴形丰富度低、嘴形同步性低等缺点,无法满足元宇宙3D场景数字人音频驱动唇形的需求。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,特别是现有技术中的语音驱动算法存在嘴形丰富度低、嘴形同步性低等缺点,无法满足元宇宙3D场景数字人音频驱动唇形的需求的技术缺陷。
本申请提供了一种3D数字人的语音驱动方法,所述方法包括:
获取目标用户输入的语音信号,以及目标表情预测模型,其中,所述目标表情预测模型包括目标语音编码模块、目标3D解码网络和目标多层感知器;
将所述语音信号依次经过所述目标语音编码模块、所述目标3D解码网络和所述目标多层感知器进行处理后,得到与所述语音信号同步的、3D数字人的人脸不同区域的表情参数;
利用所述语音信号以及所述3D数字人的人脸不同区域的表情参数,驱动所述3D数字人说话。
可选地,所述将所述语音信号依次经过所述目标语音编码模块、所述目标3D解码网络和所述目标多层感知器进行处理后,得到与所述语音信号同步的、3D数字人的人脸不同区域的表情参数,包括:
利用所述目标语音编码模块生成与所述语音信号对应的音频特征后,通过所述目标3D解码网络生成与所述音频特征同步的唇形特征,其中,所述目标语音编码模块和所述目标3D解码网络是利用预设的目标音唇同步模型作为判别器训练得到的;
利用所述目标多层感知器将所述唇形特征转化为3D数字人的人脸不同区域的表情参数,其中,所述目标多层感知器是使用多个维度且相互解耦的3D人脸变形器的变形参数作为初始权重参数训练得到的。
可选地,所述目标语音编码模块为基于BERT的编码网络,所述语音信号为具有时序关系的任意时长的语音特征;
所述将所述语音信号经过所述目标语音编码模块进行处理的过程,包括:
通过所述基于BERT的编码网络提取所述语音特征中具有上下文信息、且时序信息相关联的目标语音特征。
可选地,所述目标表情预测模型还包括唇形风格映射模块;
所述将所述语音信号依次经过所述目标语音编码模块、所述目标3D解码网络和所述目标多层感知器进行处理的过程,包括:
将所述语音信号依次经过所述目标语音编码模块和所述目标3D解码网络进行处理后,得到对应的唇形特征;
通过所述唇形风格映射模块将所述唇形特征映射到对应的唇形风格上,并将带有唇形风格的唇形特征输入至所述目标多层感知器中进行处理。
可选地,所述目标表情预测模型的训练过程,包括:
获取人脸视频数据集,并提取所述人脸视频数据集中每个视频数据的每帧视频对应的样本语音信号和真实表情参数;
确定初始表情预测模型,所述初始表情预测模型包括初始语音编码模块、初始3D解码网络和初始多层感知器;
利用所述初始语音编码模块生成与所述样本语音信号对应的预测音频特征后,通过所述初始3D解码网络提取所述样本语音信号对应的视频帧中的预测嘴形图像;
通过所述初始多层感知器将所述预测嘴形图像转化为3D数字人的人脸不同区域的预测表情参数;
以所述预测音频特征与所述预测嘴形图像同步、所述预测表情参数趋近于所述真实表情参数为目标,对所述初始表情预测模型的参数进行更新;
当达到预设的第一训练条件时,将训练后的初始表情预测模型作为目标表情预测模型。
可选地,所述以所述预测音频特征与所述预测嘴形图像同步、所述预测表情参数趋近于所述真实表情参数为目标,对所述初始表情预测模型的参数进行更新,包括:
利用预设的目标音唇同步模型计算所述预测音频特征与所述预测嘴形图像之间的生成器损失;
利用预设的全局及局部损失函数计算所述预测表情参数与所述真实表情参数之间的表情损失;
根据所述生成器损失和所述表情损失对所述初始表情预测模型的参数进行更新。
可选地,所述利用预设的目标音唇同步模型计算所述预测音频特征与所述预测嘴形图像之间的生成器损失,包括:
获取目标音唇同步模型,所述目标音唇同步模型包括目标音频同步编码模块和目标唇形同步编码模块;
通过所述目标音频同步编码模块提取所述预测音频特征中的音频同步特征,以及,通过所述目标唇形同步编码模块提取所述预测嘴形图像中的唇形同步特征;
获取所述目标音唇同步模型在训练阶段计算得到的、与所述样本语音信号对应的视频数据的多个同步损失值;
对多个同步损失值进行对数运算后,将对数运算结果作为所述音频同步特征与所述唇形同步特征之间的生成器损失。
可选地,所述目标音唇同步模型的训练过程,包括:
提取所述人脸视频数据集中每个视频数据的每帧视频对应的样本音频和样本嘴形图像;
确定初始音唇同步模型,所述初始音唇同步模型包括初始音频同步编码模块和初始唇形同步编码模块;
通过所述初始音频同步编码模块提取所述样本音频中的预测音频同步特征,以及,通过所述初始唇形同步编码模块提取所述样本嘴形图像中的预测唇形同步特征;
以所述预测音频同步特征与所述预测唇形同步特征具有同步关系为目标,对所述初始音唇同步模型的参数进行更新;
当达到预设的第二训练条件时,将训练后的初始音唇同步模型作为目标音唇同步模型。
可选地,所述以所述预测音频同步特征与所述预测唇形同步特征具有同步关系为目标,对所述初始音唇同步模型的参数进行更新,包括:
利用预设的余弦损失函数计算所述预测音频同步特征与所述预测唇形同步特征之间的同步损失值;
根据所述同步损失值对所述初始音唇同步模型的参数进行更新。
可选地,所述预测表情参数包括预测3D顶点坐标和预测嘴部三角面法线,所述真实表情参数包括真实3D顶点坐标和真实嘴部三角面法线;
所述利用预设的全局及局部损失函数计算所述预测表情参数与所述真实表情参数之间的表情损失,包括:
通过预设的全局损失函数计算所述预测3D顶点坐标与所述真实3D顶点坐标之间的全局损失;
通过预设的局部损失函数计算所述预测嘴部三角面法线与所述真实嘴部三角面法线之间的局部损失。
可选地,所述预测嘴部三角面法线的生成过程,包括:
提取所述预测3D顶点坐标中嘴部的顶点坐标,并形成嘴部顶点坐标集合;
将所述嘴部顶点坐标集合中相邻的三个顶点组成一个三角面,得到多个三角面;
计算每个三角面的法线后,形成预测嘴部三角面法线。
可选地,所述真实嘴部三角面法线的生成过程,包括:
获取所述预测嘴部三角面法线中各个三角面的法线;
使用ICP算法将各个法线进行统一变换并对齐后,得到对齐结果;
根据所述对齐结果确定所述真实3D顶点坐标中与所述预测嘴部三角面法线对应的真实嘴部三角面法线。
可选地,所述利用所述目标语音编码模块生成与所述语音信号对应的音频特征之前,还包括:
对所述语音信号进行预处理,并将预处理后的语音信号进行快速傅里叶变换,得到对应的功率谱;
将MEL滤波器组应用于所述功率谱,并求取所述MEL滤波器组能量的对数后,对所述MEL滤波器组能量的对数进行离散余弦变换,得到所述MEL滤波器组的DCT系数;
将所述DCT系数第2~13维的数值保留,其他维度的数值丢弃,得到所述语音信号对应的MFCC特征,并将所述MFCC特征作为所述目标语音编码模块的输入特征。
可选地,所述利用所述初始语音编码模块生成与所述样本语音信号对应的音频特征之前,还包括:
对所述样本语音信号进行预处理,并将预处理后的样本语音信号进行快速傅里叶变换,得到对应的功率谱;
将MEL滤波器组应用于所述功率谱,并求取所述MEL滤波器组能量的对数后,对所述MEL滤波器组能量的对数进行离散余弦变换,得到所述MEL滤波器组的DCT系数;
将所述DCT系数第2~13维的数值保留,其他维度的数值丢弃,得到所述样本语音信号对应的MFCC特征,并将所述MFCC特征作为所述初始语音编码模块的输入特征。
本申请提供了一种3D数字人的语音驱动装置,包括:
数据获取模块,用于获取目标用户输入的语音信号,以及目标表情预测模型,其中,所述目标表情预测模型包括目标语音编码模块、目标3D解码网络和目标多层感知器;
表情参数确定模块,用于将所述语音信号依次经过所述目标语音编码模块、所述目标3D解码网络和所述目标多层感知器进行处理后,得到与所述语音信号同步的、3D数字人的人脸不同区域的表情参数;
数字人驱动模块,用于利用所述语音信号以及所述3D数字人的人脸不同区域的表情参数,驱动所述3D数字人说话。
本申请提供了一种存储介质,所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述实施例中任一项所述3D数字人的语音驱动方法的步骤。
本申请提供了一种计算机设备,包括:一个或多个处理器,以及存储器;
所述存储器中存储有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,执行如上述实施例中任一项所述3D数字人的语音驱动方法的步骤。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请提供的3D数字人的语音驱动方法、装置、存储介质及相关设备,当获取到目标用户输入的语音信号时,可以获取目标表情预测模型,然后将语音信号输入至目标表情预测模型中,由于本申请的目标表情预测模型不仅包括了目标语音编码模块和目标3D解码网络,还包括了目标多层感知器,这样既可以利用目标语音编码模块生成与语音信号对应的音频特征后,通过目标3D解码网络生成与音频特征同步的唇形特征,又可以利用目标多层感知器将唇形特征转化为3D数字人的人脸不同区域的表情参数;利用该表情参数以及语音信号驱动3D数字人说话时,既可以通过人脸不同区域的表情参数来生成嘴形丰富度较高的3D数字人,又可以控制3D数字人说话时语音与嘴形的同步性,为用户提供接近于实时与真人自然交流的体验,从而在极大程度上提升用户的互动感与沉浸感,满足元宇宙3D场景数字人音频驱动唇形的需求。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种3D数字人的语音驱动方法的流程示意图;
图2为本申请实施例提供的使用音唇同步算法驱动3D数字人说话的效果展示图;
图3为本申请实施例提供的初始语音编码模块和初始3D解码网络的训练过程示意图;
图4为本申请实施例提供的初始音唇同步模型的训练过程示意图;
图5为本申请实施例提供的对初始表情预测模型中的全局和局部顶点关系进行约束的过程示意图;
图6a为本申请实施例提供的3D数字人的嘴部三角面及三角面法线的示意图;
图6b为本申请实施例提供的3D数字人的人脸嘴部任意四个顶点构成的平面及平面法线示意图;
图7为本申请实施例提供的一种3D数字人的语音驱动装置的结构示意图;
图8为本申请实施例提供的一种计算机设备的内部结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现有技术中,使用语音驱动算法来驱动数字人说话时,一般是直接根据语音和参考人脸图像生成具有对应唇形的数字人人脸,具体过程主要是通过将语音映射到某一个中间模态,然后再将中间模态映射到口型,以此来进行二维渲染后得到数字人。但由于二维渲染的过程中缺少了三维信息,且映射的过程难以保证语音与口型的同步性,进而导致现有的技术方案存在嘴形丰富度低、嘴形同步性低等缺点,无法满足元宇宙3D场景数字人音频驱动唇形的需求。
基于此,本申请提出了如下技术方案,具体参见下文:
在一个实施例中,如图1所示,图1为本申请实施例提供的一种3D数字人的语音驱动方法的流程示意图;本申请提供了一种3D数字人的语音驱动方法,所述方法可以包括:
S110:获取目标用户输入的语音信号,以及目标表情预测模型。
本步骤中,目标用户可以通过麦克风交流的方式,将音频实时传输到元宇宙场景中,以驱动3D数字人讲话。
基于此,本申请可以获取目标用户输入的语音信号,并获取目标表情预测模型,这样便可以通过目标表情预测模型来预测3D数字人的人脸不同区域的表情参数后,通过该表情参数以及语音信号来驱动3D数字人讲话。
其中,本申请的目标用户指的是在元宇宙场景或其他虚拟场景中使用3D数字人进行互动的用户;本申请获取的目标用户输入的语音信号,可以是目标用户通过麦克风传输到元宇宙场景或其他虚拟场景中的实时音频,也可以是将实时音频进行回音消除、声音增强、降噪、预加重、分帧、加窗等预处理后得到的语音特征,具体可视实际情况进行设置,在此不做限制。
进一步地,本申请获取的目标表情预测模型指的是预先通过大批量的人脸视频数据集中每个视频数据的每帧视频对应的样本语音信号和真实表情参数进行训练后得到的,并在训练过程中对语音和唇形的同步性进行约束,以及对人脸的全局特征和局部特征进行约束,以此来得到最终的目标表情预测模型。该目标表情预测模型可以由多个网络层所组成,包括但不限于目标语音编码模块、目标3D解码网络、目标多层感知器等,具体可视实际情况进行设置,在此不做限制。
另外,当本申请训练得到目标表情预测模型后,可以将该目标表情预测模型的模型文件以及模型参数等保存在服务端和本地,这样既可以在目标用户使用3D数字人进行互动时,迅速调用本地保存的目标表情预测模型来对接收到的语音信号对应的人脸不同区域的表情参数进行预测,又可以通过服务端来保存训练后的模型文件和模型参数,以便后续使用。
S120:将语音信号依次经过目标语音编码模块、目标3D解码网络和目标多层感知器进行处理后,得到与语音信号同步的、3D数字人的人脸不同区域的表情参数。
本步骤中,通过S110获取目标用户输入的语音信号以及目标表情预测模型后,本申请可以将语音信号输入至目标表情预测模型中,以便目标表情预测模型输出相应的表情参数。
由于本申请获取的目标表情预测模型是以语音信号为输入,人脸不同区域的表情参数为输出进行训练后得到的,并且,为了保证模型输出的表情参数与语音信号的同步性,本申请在对模型进行训练时,还通过相关损失函数对其进行了同步约束,以使训练后的模型能够输出与语音信号同步的表情参数;另外,本申请为了使得最终的3D数字人可以呈现更为真实自然的表情,不仅考虑到语音信号与唇形之间的映射关系,还考虑到语音信号与人脸其他区域之间的映射关系,并在此过程中通过多个损失函数来对人脸的全局特征和局部特征进行了约束,以使训练后的模型能够输出3D数字人的人脸不同区域的表情参数。
具体地,由上述内容可知,本申请的目标表情预测模型不仅可以输出与语音信号同步的表情参数,还可以输出3D数字人的人脸不同区域的表情参数。因此,本申请的目标表情预测模型不仅包括了目标语音编码模块和目标3D解码网络,还包括了目标多层感知器,这样既可以利用目标语音编码模块生成与语音信号对应的音频特征后,通过目标3D解码网络生成与音频特征同步的唇形特征,又可以利用目标多层感知器将唇形特征转化为3D数字人的人脸不同区域的表情参数。
可以理解的是,由于人脸的肌肉组成,导致说话时嘴唇的口型变化会引起脸部其他部位的肌肉发生形变,进而导致脸部多个部位的表情发生改变。本申请为了生成表情更为丰富、更为真实的3D数字人,可以设计多个维度的3D人脸变形器(blendshape),并通过这些3D人脸变形器组合出人眼能够观测到的所有细微的表情。这样模型在训练的过程中,便可以学习到不同语音信号下人脸各个区域的表情特征,进而输出多维的表情参数。
S130:利用语音信号以及3D数字人的人脸不同区域的表情参数,驱动3D数字人说话。
本步骤中,通过S120的目标表情预测模型输出与语音信号同步的、3D数字人的人脸不同区域的表情参数后,本申请可以利用语音信号以及3D数字人的人脸不同区域的表情参数来驱动3D数字人说话。
具体地,如图2所示,图2为本申请实施例提供的使用音唇同步算法驱动3D数字人说话的效果展示图;图2中,本申请使用的音唇同步算法可以集成在目标表情预测模型中,并通过目标表情预测模型来接收目标用户输入的语音信号,并输出与语音信号同步的3D数字人的人脸不同区域的表情参数,接着,本申请可以将其应用于预先生成的3D数字人的脸部,并在此过程中播放目标用户输入的语音信号,这样不仅可以为普通消费者、艺术家、企业在未来元宇宙的场景中提供实时、低成本、高效率的语音驱动虚拟人唇形技术,并加快在各领域的应用,还可以为用户提供一种不露脸即可在虚拟场景中通过数字人与他人面对面交流的能力,更为未来虚拟数字人在音视频合成、实时驱动等领域的技术发展提供了技术支持。
上述实施例中,当获取到目标用户输入的语音信号时,可以获取目标表情预测模型,然后将语音信号输入至目标表情预测模型中,由于本申请的目标表情预测模型不仅包括了目标语音编码模块和目标3D解码网络,还包括了目标多层感知器,这样既可以利用目标语音编码模块生成与语音信号对应的音频特征后,通过目标3D解码网络生成与音频特征同步的唇形特征,又可以利用目标多层感知器将唇形特征转化为3D数字人的人脸不同区域的表情参数;利用该表情参数以及语音信号驱动3D数字人说话时,既可以通过人脸不同区域的表情参数来生成嘴形丰富度较高的3D数字人,又可以控制3D数字人说话时语音与嘴形的同步性,为用户提供接近于实时与真人自然交流的体验,从而在极大程度上提升用户的互动感与沉浸感,满足元宇宙3D场景数字人音频驱动唇形的需求。
在一个实施例中,S120中将语音信号依次经过目标语音编码模块、目标3D解码网络和目标多层感知器进行处理后,得到与语音信号同步的、3D数字人的人脸不同区域的表情参数,可以包括:
S121:利用所述目标语音编码模块生成与所述语音信号对应的音频特征后,通过所述目标3D解码网络生成与所述音频特征同步的唇形特征,其中,所述目标语音编码模块和所述目标3D解码网络是利用预设的目标音唇同步模型作为判别器训练得到的。
S122:利用所述目标多层感知器将所述唇形特征转化为3D数字人的人脸不同区域的表情参数,其中,所述目标多层感知器是使用多个维度且相互解耦的3D人脸变形器的变形参数作为初始权重参数训练得到的。
本实施例中,由于本申请的目标表情预测模型不仅包括了目标语音编码模块和目标3D解码网络,还包括了目标多层感知器,这样既可以利用目标语音编码模块生成与语音信号对应的音频特征后,通过目标3D解码网络生成与音频特征同步的唇形特征,又可以利用目标多层感知器将唇形特征转化为3D数字人的人脸不同区域的表情参数。
其中,本申请的目标语音编码模块和目标3D解码网络是利用预设的目标音唇同步模型作为判别器训练得到的。可以理解的是,由于将音频映射为数字人嘴形的算法属于跨模态算法,本申请为了保证音频的特征信息能够生成对应同步的3D空间坐标的嘴形运动,预先通过大规模的训练集训练出一个目标音唇同步模型,该目标音唇同步模型可以使得输入的音频特征和输出的图像嘴形具有同步关系。接着,本申请可以使用GAN模型为框架设计一个语音编码模块去训练并生成和唇形语义高度相关的音频特征,生成的音频特征可以经过GAN的3D解码网络生成对应的唇形特征,这样便可以将生成的唇形特征和音频特征一起输入至上述训练好的音唇同步模型中进行判别,并根据判别结果来对语音编码模块和3D解码网络的网络参数进行修正,以得到最终的目标语音编码模块和目标3D解码网络。
进一步地,本申请的目标多层感知器可以是利用现有的MLP神经网络进行改进并训练后得到的。现有的MLP神经网络一般可以包括输入层、隐层和输出层,本申请可以预先设计多个维度且相互解耦的3D人脸变形器(blendshape),如200个维度,或300个维度,具体的数量可视人脸的区域划分情况而定,在此不做限制。接着,本申请可以将多个维度且相互解耦的3D人脸变形器的变形参数作为MLP神经网络的初始权重参数,并通过大规模的训练集对MLP神经网络进行训练,以此来得到目标多层感知器。在此过程中,由于blendshape表征的是人脸不同区域的表情变化,blendshape解耦后,不同维度的blendshape系数之间不会相互影响,且多个维度的blendshape基本可以组合出人眼能够观测到的所有细微的表情,这样训练得到的目标多层感知器便可以更容易、更灵活地控制人脸每个地方的表情变化,使得最终的目标表情预测模型的预测方向更加精准。
此外,需要说明的是,本申请将多个维度且相互解耦的3D人脸变形器的变形参数作为MLP神经网络的初始权重参数,并通过大规模的训练集对MLP神经网络进行训练时,可以先初始化一个维度跟blendshape维度相同的MLP神经网络,然后将每个维度的blendshape的数值作为MLP神经网络每个维度的初始权重参数,通过多次实验证明,这种方法更有利于网络收敛。并且,本申请通过模型微调的方式生成目标多层感知器,这样还可以达到跨平台迁移的目的。
在一个实施例中,所述目标语音编码模块为基于BERT的编码网络,所述语音信号为具有时序关系的任意时长的语音特征。
S120中将语音信号经过目标语音编码模块进行处理的过程,包括:
S1211:通过所述基于BERT的编码网络提取所述语音特征中具有上下文信息、且时序信息相关联的目标语音特征。
本实施例中,在利用目标语音编码模块生成与语音信号对应的音频特征时,本申请可以选用基于BERT的编码网络作为目标语音编码模块,并使用具有时序关系的任意时长的语音特征作为语音信号,这样在通过基于BERT的编码网络生成与语音信号对应的音频特征时,可以通过BERT中的transformer来提取具有上下文信息、且时序信息相关联的目标语音特征,该目标语音特征更能表征唇形的变化情况,进而使得最终的目标表情预测模型的预测结果更加精准。
在一个实施例中,所述目标表情预测模型还可以包括唇形风格映射模块。
S120中将语音信号依次经过目标语音编码模块、目标3D解码网络和目标多层感知器进行处理的过程,包括:
S1212:将所述语音信号依次经过所述目标语音编码模块和所述目标3D解码网络进行处理后,得到对应的唇形特征。
S1213:通过所述唇形风格映射模块将所述唇形特征映射到对应的唇形风格上,并将带有唇形风格的唇形特征输入至所述目标多层感知器中进行处理。
本实施例中,在通过目标表情预测模型来预测与目标用户输入的语音信号同步且表征人脸不同区域的表情参数时,该目标表情预测模型还可以在目标3D解码网络和目标多层感知器之间设置唇形风格映射模块,并通过唇形风格映射模块将目标3D解码网络输出的唇形特征映射到对应的唇形风格上,并将带有唇形风格的唇形特征输入至目标多层感知器中,这样目标多层感知器可以依据对应的唇形风格来生成相应的表情参数。
具体地,本申请的目标表情预测模型支持人物说话风格设定,当目标用户选用设定的人物说话风格时,目标表情预测模型可以将目标3D解码网络输出的唇形特征映射到该人物说话风格对应的唇形风格上,这样目标多层感知器在生成表情参数时,既考虑到目标用户的语音信号对应的唇形特征,又考虑到目标用户选定的人物说话风格,进而输出与目标用户选定的人物说话风格对应的人脸不同区域的表情参数;而当目标用户没有选择人物说话风格时,此时可以输出默认风格的人脸不同区域的表情参数。
进一步地,本申请在目标表情预测模型的训练阶段,可以将唇形风格映射模块设置为使唇形特征映射到不同人的唇形风格上,这样目标多层感知器在训练阶段便可以学习不同人的唇形风格,进而在后续推理阶段,可以根据用户设定的人物说话风格,来将唇形特征转换为对应人物说话风格的人脸不同区域的表情参数。
在一个实施例中,所述目标表情预测模型的训练过程,可以包括:
S210:获取人脸视频数据集,并提取所述人脸视频数据集中每个视频数据的每帧视频对应的样本语音信号和真实表情参数。
S220:确定初始表情预测模型,所述初始表情预测模型包括初始语音编码模块、初始3D解码网络和初始多层感知器。
S230:利用所述初始语音编码模块生成与所述样本语音信号对应的预测音频特征后,通过所述初始3D解码网络提取所述样本语音信号对应的视频帧中的预测嘴形图像。
S240:通过所述初始多层感知器将所述预测嘴形图像转化为3D数字人的人脸不同区域的预测表情参数。
S250:以所述预测音频特征与所述预测嘴形图像同步、所述预测表情参数趋近于所述真实表情参数为目标,对所述初始表情预测模型的参数进行更新。
S260:当达到预设的第一训练条件时,将训练后的初始表情预测模型作为目标表情预测模型。
本实施例中,由于本申请获取的目标表情预测模型指的是预先通过大批量的人脸视频数据集中每个视频数据的每帧视频对应的样本语音信号和真实表情参数进行训练后得到的,并在训练过程中对语音和唇形的同步性进行约束,以及对人脸的全局特征和局部特征进行约束,以此来得到最终的目标表情预测模型。
因此,本申请在对目标表情预测模型进行训练时,可以先获取大规模的人脸视频数据集,由于该人脸视频数据集中包含多个视频数据,因此,本申请可以提取每个视频数据的每帧视频对应的语音信号作为样本语音信号,并获取每帧视频中的人脸对应的真实表情参数;接着,本申请可以确定初始表情预测模型,并将样本语音信号作为初始表情预测模型的训练样本,并将真实表情参数作为初始表情预测模型的样本标签,以此来对初始表情预测模型进行训练。
在一种具体的实施方式中,本申请获取的初始表情预测模型可以包括初始语音编码模块、初始3D解码网络和初始多层感知器。在对该初始表情预测模型的各个模块进行训练时,可以先利用初始语音编码模块生成与样本语音信号对应的预测音频特征后,接着通过初始3D解码网络提取样本语音信号对应的视频帧中的预测嘴形图像,然后使用初始多层感知器将预测嘴形图像转化为3D数字人的人脸不同区域的预测表情参数后,再以预测音频特征与预测嘴形图像同步、预测表情参数趋近于真实表情参数为目标,对初始表情预测模型的参数进行迭代更新,当达到预设的第一训练条件时,本申请便可以将训练后的初始表情预测模型作为目标表情预测模型。
其中,本申请的初始语音编码模块可以是使用GAN模型为框架设计的语音编码模块;本申请的初始3D解码网络可以是GAN的解码网络;而本申请的初始多层感知器也可以是与blendshape维度相同的MLP神经网络,且MLP神经网络的初始权重参数为blendshape的变形参数;本申请预设的第一训练条件可以是迭代次数,也可以是损失函数的收敛情况等,具体的模型选择、迭代条件等可视实际情况进行设置,在此不做限制。
在一个实施例中,S250中以所述预测音频特征与所述预测嘴形图像同步、所述预测表情参数趋近于所述真实表情参数为目标,对所述初始表情预测模型的参数进行更新,可以包括:
S251:利用预设的目标音唇同步模型计算所述预测音频特征与所述预测嘴形图像之间的生成器损失。
S252:利用预设的全局及局部损失函数计算所述预测表情参数与所述真实表情参数之间的表情损失。
S253:根据所述生成器损失和所述表情损失对所述初始表情预测模型的参数进行更新。
本实施例中,由于本申请的初始表情预测模型包括初始语音编码模块、初始3D解码网络和初始多层感知器,因此,在对初始表情预测模型的参数进行更新时,不仅要对初始语音编码模块和初始3D解码网络的参数进行更新,还要对初始多层感知器的参数进行更新。
基于此,本申请可以设置多个损失函数,并通过各个损失函数来计算模型中的各个模块在训练过程中的预测值与真实值之间的损失值,以此来对各个模块的参数进行优化更新。具体地,本申请在确定初始语音编码模块输出的预测音频特征与初始3D解码网络输出的预测嘴形图像之间的同步性时,可以将初始语音编码模块和初始3D解码网络作为生成器,将预设的目标音唇同步模型作为初始语音编码模块和初始3D解码网络的判别器,并通过该判别器来判断预测音频特征与预测嘴形图像之间的同步性后,得到对应的判断结果,该判断结果可以表征生成器当前的损失值,即生成器损失;接着,本申请还可以利用预设的全局及局部损失函数计算初始多层感知器输出的预测表情参数与真实表情参数之间的表情损失,然后根据生成器损失和表情损失来对初始表情预测模型中各个模块的参数进行更新,以此来得到最终的目标表情预测模型。
在一个实施例中,S251中利用预设的目标音唇同步模型计算所述预测音频特征与所述预测嘴形图像之间的生成器损失,可以包括:
S2511:获取目标音唇同步模型,所述目标音唇同步模型包括目标音频同步编码模块和目标唇形同步编码模块。
S2512:通过所述目标音频同步编码模块提取所述预测音频特征中的音频同步特征,以及,通过所述目标唇形同步编码模块提取所述预测嘴形图像中的唇形同步特征。
S2513:获取所述目标音唇同步模型在训练阶段计算得到的、与所述样本语音信号对应的视频数据的多个同步损失值。
S2514:对多个同步损失值进行对数运算后,将对数运算结果作为所述音频同步特征与所述唇形同步特征之间的生成器损失。
本实施例中,由于本申请在确定初始语音编码模块输出的预测音频特征与初始3D解码网络输出的预测嘴形图像之间的同步性时,是将初始语音编码模块和初始3D解码网络作为生成器,将预设的目标音唇同步模型作为初始语音编码模块和初始3D解码网络的判别器,并通过该判别器来判断预测音频特征与预测嘴形图像之间的同步性。因此,本申请可以获取判别器在训练阶段计算得到的同步损失值,并对获取到的同步损失值进行对数运算后,得到生成器损失。
示意性地,如图3所示,图3为本申请实施例提供的初始语音编码模块和初始3D解码网络的训练过程示意图;图3中,本申请选用TMNet网络作为初始语音编码模块,选用MFCC特征作为TMNet网络的输入,并将TMNet网络输出的预测音频特征输入至GAN解码器,以使GAN解码器输出预测嘴形图像;其中,本申请的TMNet网络是自主设计的、轻量的提取音频特征的语音编码模块,当本申请的输入为具有时序关系的一段MFCC特征时,TMNet网络可以提取到具有上下文信息、时序信息相关联的特征,这个特征更能表征唇形的变化情况。
进一步地,如图3所示,本申请在得到预测音频特征和预测嘴形图像后,可以获取目标音唇同步模型,该目标音唇同步模型可以包括目标音频同步编码模块和目标唇形同步编码模块,这样便可以通过目标音频同步编码模块提取预测音频特征中的音频同步特征,以及,通过目标唇形同步编码模块提取预测嘴形图像中的唇形同步特征,然后利用目标音唇同步模型作为初始语音编码模块和初始3D解码网络的判别器进行约束,以此来计算音频同步特征与唇形同步特征之间的生成器损失。
具体地,本申请在利用目标音唇同步模型作为初始语音编码模块和初始3D解码网络的判别器进行约束时,可以获取目标音唇同步模型在训练阶段计算得到的、与样本语音信号对应的视频数据的多个同步损失值,然后对多个同步损失值进行对数运算后,将对数运算结果作为音频同步特征与唇形同步特征之间的生成器损失,具体的对数运算过程如下:
;
其中,表示一个视频数据中视频帧的数量,/>为第i个视频帧对应的样本语音信号的同步损失值。
在一个实施例中,所述目标音唇同步模型的训练过程,可以包括:
S310:提取所述人脸视频数据集中每个视频数据的每帧视频对应的样本音频和样本嘴形图像。
S320:确定初始音唇同步模型,所述初始音唇同步模型包括初始音频同步编码模块和初始唇形同步编码模块。
S330:通过所述初始音频同步编码模块提取所述样本音频中的预测音频同步特征,以及,通过所述初始唇形同步编码模块提取所述样本嘴形图像中的预测唇形同步特征。
S340:以所述预测音频同步特征与所述预测唇形同步特征具有同步关系为目标,对所述初始音唇同步模型的参数进行更新。
S350:当达到预设的第二训练条件时,将训练后的初始音唇同步模型作为目标音唇同步模型。
本实施例中,由于将音频映射为数字人嘴形的算法属于跨模态算法,本申请为了保证音频的特征信息能够生成对应同步的3D空间坐标的嘴形运动,可以预先通过大规模的训练集训练出一个目标音唇同步模型,该目标音唇同步模型可以使得输入的音频特征和输出的图像嘴形具有同步关系。
具体而言,本申请可以先确定初始音唇同步模型,然后从人脸视频数据集中每个视频数据的每帧视频对应的样本音频和样本嘴形图像,接着通过样本音频和样本嘴形图像来对初始音唇同步模型进行训练,以此来得到最终的目标音唇同步模型。
示意性地,如图4所示,图4为本申请实施例提供的初始音唇同步模型的训练过程示意图;图4中,本申请的初始音唇同步模型可以包括初始音频同步编码模块和初始唇形同步编码模块,这样可以通过初始音频同步编码模块提取样本音频中的预测音频同步特征,以及,通过初始唇形同步编码模块提取样本嘴形图像中的预测唇形同步特征,接着,本申请可以以预测音频同步特征与预测唇形同步特征具有同步关系为目标,对初始音唇同步模型的参数进行更新,当达到预设的第二训练条件时,便可以将训练后的初始音唇同步模型作为目标音唇同步模型。可以理解的是,这里的第二训练条件可以是迭代次数,也可以是损失函数的收敛情况等,具体的迭代条件可视实际情况进行设置,在此不做限制。
在一个实施例中,S340中以所述预测音频同步特征与所述预测唇形同步特征具有同步关系为目标,对所述初始音唇同步模型的参数进行更新,可以包括:
S341:利用预设的余弦损失函数计算所述预测音频同步特征与所述预测唇形同步特征之间的同步损失值。
S342:根据所述同步损失值对所述初始音唇同步模型的参数进行更新。
本实施例中,通过图4中初始音唇同步模型的训练过程可知,本申请的初始音频同步编码模块和初始唇形同步编码模块分别输出两个多维的同步特征,该同步特征分别表征音频潜在空间分布和嘴形潜在空间分布。因此,当得到两个同步特征后,本申请可以通过余弦损失拟合两个潜在分布空间,使得输入的音频特征和输出的图像嘴形是具有同步关系的。具体的拟合公式如下:
;
上式中,为预测音频同步特征s与预测唇形同步特征/>之间的同步损失值。当本申请通过上述余弦损失函数来计算预测音频同步特征与预测唇形同步特征之间的同步损失值后,可以通过该同步损失值来对初始音唇同步模型的参数进行更新,并在初始音唇同步模型达到预设的第二训练条件时,将训练后的初始音唇同步模型作为目标音唇同步模型,该目标音唇同步模型可以作为初始语音编码模块和初始3D解码网络的判别器进行约束,进而使得初始语音编码模块和初始3D解码网络输出的特征之间具有同步性。
在一个实施例中,所述预测表情参数可以包括预测3D顶点坐标和预测嘴部三角面法线,所述真实表情参数可以包括真实3D顶点坐标和真实嘴部三角面法线。
S252中利用预设的全局及局部损失函数计算所述预测表情参数与所述真实表情参数之间的表情损失,可以包括:
S2521:通过预设的全局损失函数计算所述预测3D顶点坐标与所述真实3D顶点坐标之间的全局损失。
S2522:通过预设的局部损失函数计算所述预测嘴部三角面法线与所述真实嘴部三角面法线之间的局部损失。
本实施例中,由于目前3D人脸数据集的匮乏,想要生成实时稳定的唇形顶点是有挑战性的。因此,本申请为了增加嘴部3D顶点的稳定性,在预测3D数字人的表情参数时,不仅可以预测人脸不同区域的3D顶点坐标,还可以预测嘴部三角面法线,从而达到对全局和局部顶点关系的约束,让生成的顶点坐标更加稳定。
在一种具体的实施方式中,如图5所示,图5为本申请实施例提供的对初始表情预测模型中的全局和局部顶点关系进行约束的过程示意图;图5中,本申请在通过3D解码网络输出与音频特征对应的唇形特征后,可以通过ID Mapping将该唇形特征映射到不同ID的唇形风格上,然后再将带有不同ID唇形风格的唇形特征输入至由MLP神经网络构成的Linear层中,Linear层输出对应的预测3D顶点坐标后,本申请可以通过预设的全局损失函数计算预测3D顶点坐标与真实3D顶点坐标之间的全局损失,在此基础上,本申请可以进一步获取预测嘴部三角面法线,并利用预设的局部损失函数计算预测嘴部三角面法线与真实嘴部三角面法线之间的局部损失,这样便可以通过全局损失和局部损失来达到对生成的3D数字人的人脸全局和局部顶点关系的约束,进而让生成的顶点坐标更加稳定。
进一步地,本申请的全局损失函数可以采用MSE损失,该损失函数的公式如下所示:
;
其中,为第i个预测3D顶点坐标/>与第i个真实3D顶点坐标/>之间的全局损失,V为预测3D顶点坐标的数量。
本申请的局部损失函数可以采用余弦损失,具体公式如下:
;
其中,为预测嘴部三角面法线/>与真实嘴部三角面法线/>之间的局部损失。
在一个实施例中,所述预测嘴部三角面法线的生成过程,可以包括:
S410:提取所述预测3D顶点坐标中嘴部的顶点坐标,并形成嘴部顶点坐标集合。
S411:将所述嘴部顶点坐标集合中相邻的三个顶点组成一个三角面,得到多个三角面。
S412:计算每个三角面的法线后,形成预测嘴部三角面法线。
本实施例中,由于预测3D顶点坐标中包含人脸不同区域的顶点坐标,因此,本申请可以先提取预测3D顶点坐标中嘴部的顶点坐标,并形成嘴部顶点坐标集合,接着再将嘴部顶点坐标集合中相邻的三个顶点组成一个三角面,并计算该三角面的法线,以此来得到预测嘴部三角面法线。
可以理解的是,本申请的3D数字人的人脸嘴部由n个顶点所构成,这n个顶点中,彼此相邻的三个顶点可以组成一个三角面,因此,总共可以求出m个三角面,这m个三角面可以求出m个法向量,这些法向量可以引导3D表面按照正确的方向去生成。
举例来说,如图6a和图6b所示,图6a为本申请实施例提供的3D数字人的嘴部三角面及三角面法线的示意图;图6b为本申请实施例提供的3D数字人的人脸嘴部任意四个顶点构成的平面及平面法线示意图;由图6a和图6b可知,本申请的3D数字人的人脸嘴部由n个顶点所构成,本申请可以选取n个顶点中彼此相邻的三个顶点可以组成一个三角面,然后再计算各个三角面的法线,这样便可以得到多个预测嘴部三角面法线。具体地,本申请计算三角面的法线的过程如下:
;
其中,为三角面的三个顶点坐标,/>为两个不共线的向量,/>为法向量。
在一个实施例中,所述真实嘴部三角面法线的生成过程,可以包括:
S510:获取所述预测嘴部三角面法线中各个三角面的法线。
S511:使用ICP算法将各个法线进行统一变换并对齐后,得到对齐结果。
S512:根据所述对齐结果确定所述真实3D顶点坐标中与所述预测嘴部三角面法线对应的真实嘴部三角面法线。
本实施例中,在确定真实嘴部三角面法线时,本申请可以通过预测嘴部三角面法线的位置进行反向推导,以此来得到各个预测嘴部三角面法线对应的真实嘴部三角面法线。
具体地,本申请可以获取预测嘴部三角面法线中各个三角面的法线,然后对各个三角面的法线进行统一ICP变换对齐之后,根据对齐结果来确定真实3D顶点坐标中与预测嘴部三角面法线对应的真实嘴部三角面法线。
可以理解的是,ICP算法指的是点云匹配算法,该算法的基本原理是:分别在待匹配的目标点云P和源点云Q中,按照一定的约束条件,找到最邻近点,然后计算出最优匹配参数R和t,使得误差函数最小。因此,本申请可以先计算出真实3D顶点坐标中嘴部区域的真实嘴部三角面法线,然后通过点云匹配算法查找出与各个预测嘴部三角面法线对应的真实嘴部三角面法线,进而通过局部损失函数来计算预测嘴部三角面法线与真实嘴部三角面法线之间的局部损失,并通过局部损失来引导初始表情预测模型按照正确的方向生成对应的表情参数。
在一个实施例中,S121中利用所述目标语音编码模块生成与所述语音信号对应的音频特征之前,还可以包括:
S610:对所述语音信号进行预处理,并将预处理后的语音信号进行快速傅里叶变换,得到对应的功率谱。
S620:将MEL滤波器组应用于所述功率谱,并求取所述MEL滤波器组能量的对数后,对所述MEL滤波器组能量的对数进行离散余弦变换,得到所述MEL滤波器组的DCT系数。
S630:将所述DCT系数第2~13维的数值保留,其他维度的数值丢弃,得到所述语音信号对应的MFCC特征,并将所述MFCC特征作为所述目标语音编码模块的输入特征。
本实施例中,在利用目标语音编码模块生成与语音信号对应的音频特征之前,本申请还可以对语音信号进行预处理操作,这样能够得到更为精准的预测结果。
其中,本申请在对语音信号进行预处理操作时,可以先对语音信号进行预处理,该预处理过程可以包括预加重、分帧和加窗操作,接着,本申请可以将预处理后的语音信号进行快速傅里叶变换,得到对应的功率谱,然后将MEL滤波器组应用于功率谱,并求取MEL滤波器组能量的对数后,对MEL滤波器组能量的对数进行离散余弦变换,进而得到MEL滤波器组的DCT系数,最后,本申请可以将DCT系数第2~13维的数值保留,其他维度的数值丢弃,这样便可以得到语音信号对应的MFCC特征,该MFCC特征可以作为目标语音编码模块的输入特征。
上述实施例中,由于MFCC特征不依赖于信号的性质,对输入信号不做任何的假设和限制,且利用了听觉模型的研究成果。因此,这种参数特征具有很好的鲁棒性,符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。
在一个实施例中,S230中利用所述初始语音编码模块生成与所述样本语音信号对应的音频特征之前,还可以包括:
S710:对所述样本语音信号进行预处理,并将预处理后的样本语音信号进行快速傅里叶变换,得到对应的功率谱。
S720:将MEL滤波器组应用于所述功率谱,并求取所述MEL滤波器组能量的对数后,对所述MEL滤波器组能量的对数进行离散余弦变换,得到所述MEL滤波器组的DCT系数。
S730:将所述DCT系数第2~13维的数值保留,其他维度的数值丢弃,得到所述样本语音信号对应的MFCC特征,并将所述MFCC特征作为所述初始语音编码模块的输入特征。
本实施例中,在利用初始语音编码模块生成与样本语音信号对应的音频特征之前,本申请也可以对样本语音信号进行预处理操作,这样能够得到更为精准的预测结果。
其中,本申请在对样本语音信号进行预处理操作时,可以按照对语音信号进行预处理的方式。具体地,本申请可以先对样本语音信号进行预处理,该预处理过程可以包括预加重、分帧和加窗操作,接着,本申请可以将预处理后的样本语音信号进行快速傅里叶变换,得到对应的功率谱,然后将MEL滤波器组应用于功率谱,并求取MEL滤波器组能量的对数后,对MEL滤波器组能量的对数进行离散余弦变换,进而得到MEL滤波器组的DCT系数,最后,本申请可以将DCT系数第2~13维的数值保留,其他维度的数值丢弃,这样便可以得到样本语音信号对应的MFCC特征,该MFCC特征可以作为初始语音编码模块的输入特征。
上述实施例中,由于MFCC特征不依赖于信号的性质,对输入信号不做任何的假设和限制,且利用了听觉模型的研究成果。因此,这种参数特征具有很好的鲁棒性,符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。
下面对本申请实施例提供的3D数字人的语音驱动装置进行描述,下文描述的3D数字人的语音驱动装置与上文描述的3D数字人的语音驱动方法可相互对应参照。
在一个实施例中,如图7所示,图7为本申请实施例提供的一种3D数字人的语音驱动装置的结构示意图;本申请提供了一种3D数字人的语音驱动装置,可以包括数据获取模块210、表情参数确定模块220、数字人驱动模块230,具体包括如下:
数据获取模块210,用于获取目标用户输入的语音信号,以及目标表情预测模型,其中,所述目标表情预测模型包括目标语音编码模块、目标3D解码网络和目标多层感知器。
表情参数确定模块220,用于将所述语音信号依次经过所述目标语音编码模块、所述目标3D解码网络和所述目标多层感知器进行处理后,得到与所述语音信号同步的、3D数字人的人脸不同区域的表情参数。
数字人驱动模块230,用于利用所述语音信号以及所述3D数字人的人脸不同区域的表情参数,驱动所述3D数字人说话。
上述实施例中,当获取到目标用户输入的语音信号时,可以获取目标表情预测模型,然后将语音信号输入至目标表情预测模型中,由于本申请的目标表情预测模型不仅包括了目标语音编码模块和目标3D解码网络,还包括了目标多层感知器,这样既可以利用目标语音编码模块生成与语音信号对应的音频特征后,通过目标3D解码网络生成与音频特征同步的唇形特征,又可以利用目标多层感知器将唇形特征转化为3D数字人的人脸不同区域的表情参数;利用该表情参数以及语音信号驱动3D数字人说话时,既可以通过人脸不同区域的表情参数来生成嘴形丰富度较高的3D数字人,又可以控制3D数字人说话时语音与嘴形的同步性,为用户提供接近于实时与真人自然交流的体验,从而在极大程度上提升用户的互动感与沉浸感,满足元宇宙3D场景数字人音频驱动唇形的需求。
在一个实施例中,本申请提供了一种存储介质,所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述实施例中任一项所述3D数字人的语音驱动方法的步骤。
在一个实施例中,本申请提供了一种计算机设备,包括:一个或多个处理器,以及存储器。
所述存储器中存储有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,执行如上述实施例中任一项所述3D数字人的语音驱动方法的步骤。
示意性地,如图8所示,图8为本申请实施例提供的一种计算机设备的内部结构示意图,该计算机设备300可以被提供为一服务器。参照图8,计算机设备300包括处理组件302,其进一步包括一个或多个处理器,以及由存储器301所代表的存储器资源,用于存储可由处理组件302的执行的指令,例如应用程序。存储器301中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件302被配置为执行指令,以执行上述任意实施例的3D数字人的语音驱动方法。
计算机设备300还可以包括一个电源组件303被配置为执行计算机设备300的电源管理,一个有线或无线网络接口304被配置为将计算机设备300连接到网络,和一个输入输出(I/O)接口305。计算机设备300可以操作基于存储在存储器301的操作系统,例如WindowsServer TM、Mac OS XTM、Unix TM、Linux TM、Free BSDTM或类似。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (15)
1.一种3D数字人的语音驱动方法,其特征在于,所述方法包括:
获取目标用户输入的语音信号,以及目标表情预测模型,其中,所述目标表情预测模型包括目标语音编码模块、目标3D解码网络和目标多层感知器;
将所述语音信号依次经过所述目标语音编码模块、所述目标3D解码网络和所述目标多层感知器进行处理后,得到与所述语音信号同步的、3D数字人的人脸不同区域的表情参数;
利用所述语音信号以及所述3D数字人的人脸不同区域的表情参数,驱动所述3D数字人说话;
所述将所述语音信号依次经过所述目标语音编码模块、所述目标3D解码网络和所述目标多层感知器进行处理后,得到与所述语音信号同步的、3D数字人的人脸不同区域的表情参数,包括:
利用所述目标语音编码模块生成与所述语音信号对应的音频特征后,通过所述目标3D解码网络生成与所述音频特征同步的唇形特征,其中,所述目标语音编码模块和所述目标3D解码网络是利用预设的目标音唇同步模型作为判别器训练得到的;
利用所述目标多层感知器将所述唇形特征转化为3D数字人的人脸不同区域的表情参数,其中,所述目标多层感知器是预先初始化一个维度与3D人脸变形器的维度相同的MLP神经网络,并将每个维度的3D人脸变形器的变形参数作为所述MLP神经网络每个维度的初始权重参数后训练得到的,所述3D人脸变形器具有多个维度且相互解耦的变形参数。
2.根据权利要求1所述的3D数字人的语音驱动方法,其特征在于,所述目标语音编码模块为基于BERT的编码网络,所述语音信号为具有时序关系的任意时长的语音特征;
所述将所述语音信号经过所述目标语音编码模块进行处理的过程,包括:
通过所述基于BERT的编码网络提取所述语音特征中具有上下文信息、且时序信息相关联的目标语音特征。
3.根据权利要求1所述的3D数字人的语音驱动方法,其特征在于,所述目标表情预测模型还包括唇形风格映射模块;
所述将所述语音信号依次经过所述目标语音编码模块、所述目标3D解码网络和所述目标多层感知器进行处理的过程,包括:
将所述语音信号依次经过所述目标语音编码模块和所述目标3D解码网络进行处理后,得到对应的唇形特征;
通过所述唇形风格映射模块将所述唇形特征映射到对应的唇形风格上,并将带有唇形风格的唇形特征输入至所述目标多层感知器中进行处理。
4.根据权利要求1所述的3D数字人的语音驱动方法,其特征在于,所述目标表情预测模型的训练过程,包括:
获取人脸视频数据集,并提取所述人脸视频数据集中每个视频数据的每帧视频对应的样本语音信号和真实表情参数;
确定初始表情预测模型,所述初始表情预测模型包括初始语音编码模块、初始3D解码网络和初始多层感知器;
利用所述初始语音编码模块生成与所述样本语音信号对应的预测音频特征后,通过所述初始3D解码网络提取所述样本语音信号对应的视频帧中的预测嘴形图像;
通过所述初始多层感知器将所述预测嘴形图像转化为3D数字人的人脸不同区域的预测表情参数;
以所述预测音频特征与所述预测嘴形图像同步、所述预测表情参数趋近于所述真实表情参数为目标,对所述初始表情预测模型的参数进行更新;
当达到预设的第一训练条件时,将训练后的初始表情预测模型作为目标表情预测模型。
5.根据权利要求4所述的3D数字人的语音驱动方法,其特征在于,所述以所述预测音频特征与所述预测嘴形图像同步、所述预测表情参数趋近于所述真实表情参数为目标,对所述初始表情预测模型的参数进行更新,包括:
利用预设的目标音唇同步模型计算所述预测音频特征与所述预测嘴形图像之间的生成器损失;
利用预设的全局及局部损失函数计算所述预测表情参数与所述真实表情参数之间的表情损失;
根据所述生成器损失和所述表情损失对所述初始表情预测模型的参数进行更新。
6.根据权利要求5所述的3D数字人的语音驱动方法,其特征在于,所述利用预设的目标音唇同步模型计算所述预测音频特征与所述预测嘴形图像之间的生成器损失,包括:
获取目标音唇同步模型,所述目标音唇同步模型包括目标音频同步编码模块和目标唇形同步编码模块;
通过所述目标音频同步编码模块提取所述预测音频特征中的音频同步特征,以及,通过所述目标唇形同步编码模块提取所述预测嘴形图像中的唇形同步特征;
获取所述目标音唇同步模型在训练阶段计算得到的、与所述样本语音信号对应的视频数据的多个同步损失值;
对多个同步损失值进行对数运算后,将对数运算结果作为所述音频同步特征与所述唇形同步特征之间的生成器损失。
7.根据权利要求6所述的3D数字人的语音驱动方法,其特征在于,所述目标音唇同步模型的训练过程,包括:
提取所述人脸视频数据集中每个视频数据的每帧视频对应的样本音频和样本嘴形图像;
确定初始音唇同步模型,所述初始音唇同步模型包括初始音频同步编码模块和初始唇形同步编码模块;
通过所述初始音频同步编码模块提取所述样本音频中的预测音频同步特征,以及,通过所述初始唇形同步编码模块提取所述样本嘴形图像中的预测唇形同步特征;
以所述预测音频同步特征与所述预测唇形同步特征具有同步关系为目标,对所述初始音唇同步模型的参数进行更新;
当达到预设的第二训练条件时,将训练后的初始音唇同步模型作为目标音唇同步模型。
8.根据权利要求7所述的3D数字人的语音驱动方法,其特征在于,所述以所述预测音频同步特征与所述预测唇形同步特征具有同步关系为目标,对所述初始音唇同步模型的参数进行更新,包括:
利用预设的余弦损失函数计算所述预测音频同步特征与所述预测唇形同步特征之间的同步损失值;
根据所述同步损失值对所述初始音唇同步模型的参数进行更新。
9.根据权利要求5所述的3D数字人的语音驱动方法,其特征在于,所述预测表情参数包括预测3D顶点坐标和预测嘴部三角面法线,所述真实表情参数包括真实3D顶点坐标和真实嘴部三角面法线;
所述利用预设的全局及局部损失函数计算所述预测表情参数与所述真实表情参数之间的表情损失,包括:
通过预设的全局损失函数计算所述预测3D顶点坐标与所述真实3D顶点坐标之间的全局损失;
通过预设的局部损失函数计算所述预测嘴部三角面法线与所述真实嘴部三角面法线之间的局部损失。
10.根据权利要求9所述的3D数字人的语音驱动方法,其特征在于,所述预测嘴部三角面法线的生成过程,包括:
提取所述预测3D顶点坐标中嘴部的顶点坐标,并形成嘴部顶点坐标集合;
将所述嘴部顶点坐标集合中相邻的三个顶点组成一个三角面,得到多个三角面;
计算每个三角面的法线后,形成预测嘴部三角面法线。
11.根据权利要求9或10所述的3D数字人的语音驱动方法,其特征在于,所述真实嘴部三角面法线的生成过程,包括:
获取所述预测嘴部三角面法线中各个三角面的法线;
使用ICP算法将各个法线进行统一变换并对齐后,得到对齐结果;
根据所述对齐结果确定所述真实3D顶点坐标中与所述预测嘴部三角面法线对应的真实嘴部三角面法线。
12.根据权利要求1或4所述的3D数字人的语音驱动方法,其特征在于,所述利用所述目标语音编码模块生成与所述语音信号对应的音频特征之前,或者,利用所述初始语音编码模块生成与所述样本语音信号对应的音频特征之前,还包括:
对所述语音信号或所述样本语音信号进行预处理,并将预处理后的语音信号或样本语音信号进行快速傅里叶变换,得到对应的功率谱;
将MEL滤波器组应用于所述功率谱,并求取所述MEL滤波器组能量的对数后,对所述MEL滤波器组能量的对数进行离散余弦变换,得到所述MEL滤波器组的DCT系数;
将所述DCT系数第2~13维的数值保留,其他维度的数值丢弃,得到所述语音信号或所述样本语音信号对应的MFCC特征,并将所述MFCC特征作为所述目标语音编码模块或所述初始语音编码模块的输入特征。
13.一种3D数字人的语音驱动装置,其特征在于,包括:
数据获取模块,用于获取目标用户输入的语音信号,以及目标表情预测模型,其中,所述目标表情预测模型包括目标语音编码模块、目标3D解码网络和目标多层感知器;
表情参数确定模块,用于将所述语音信号依次经过所述目标语音编码模块、所述目标3D解码网络和所述目标多层感知器进行处理后,得到与所述语音信号同步的、3D数字人的人脸不同区域的表情参数;
数字人驱动模块,用于利用所述语音信号以及所述3D数字人的人脸不同区域的表情参数,驱动所述3D数字人说话;
所述表情参数确定模块,包括:
利用所述目标语音编码模块生成与所述语音信号对应的音频特征后,通过所述目标3D解码网络生成与所述音频特征同步的唇形特征,其中,所述目标语音编码模块和所述目标3D解码网络是利用预设的目标音唇同步模型作为判别器训练得到的;
利用所述目标多层感知器将所述唇形特征转化为3D数字人的人脸不同区域的表情参数,其中,所述目标多层感知器是预先初始化一个维度与3D人脸变形器的维度相同的MLP神经网络,并将每个维度的3D人脸变形器的变形参数作为所述MLP神经网络每个维度的初始权重参数后训练得到的,所述3D人脸变形器具有多个维度且相互解耦的变形参数。
14.一种存储介质,其特征在于:所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至12中任一项所述3D数字人的语音驱动方法的步骤。
15.一种计算机设备,其特征在于,包括:一个或多个处理器,以及存储器;
所述存储器中存储有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,执行如权利要求1至12中任一项所述3D数字人的语音驱动方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410021915.4A CN117524244B (zh) | 2024-01-08 | 2024-01-08 | 3d数字人的语音驱动方法、装置、存储介质及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410021915.4A CN117524244B (zh) | 2024-01-08 | 2024-01-08 | 3d数字人的语音驱动方法、装置、存储介质及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117524244A CN117524244A (zh) | 2024-02-06 |
CN117524244B true CN117524244B (zh) | 2024-04-12 |
Family
ID=89757033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410021915.4A Active CN117524244B (zh) | 2024-01-08 | 2024-01-08 | 3d数字人的语音驱动方法、装置、存储介质及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117524244B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113901894A (zh) * | 2021-09-22 | 2022-01-07 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种视频生成方法、装置、服务器及存储介质 |
CN115761075A (zh) * | 2022-11-21 | 2023-03-07 | 百果园技术(新加坡)有限公司 | 脸部图像生成方法及其装置、设备、介质、产品 |
CN116246328A (zh) * | 2023-03-08 | 2023-06-09 | 清华大学 | 面部数据生成方法、装置、计算机设备及存储介质 |
CN116825127A (zh) * | 2023-08-14 | 2023-09-29 | 清华大学深圳国际研究生院 | 基于神经场的语音驱动数字人生成方法 |
-
2024
- 2024-01-08 CN CN202410021915.4A patent/CN117524244B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113901894A (zh) * | 2021-09-22 | 2022-01-07 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种视频生成方法、装置、服务器及存储介质 |
CN115761075A (zh) * | 2022-11-21 | 2023-03-07 | 百果园技术(新加坡)有限公司 | 脸部图像生成方法及其装置、设备、介质、产品 |
CN116246328A (zh) * | 2023-03-08 | 2023-06-09 | 清华大学 | 面部数据生成方法、装置、计算机设备及存储介质 |
CN116825127A (zh) * | 2023-08-14 | 2023-09-29 | 清华大学深圳国际研究生院 | 基于神经场的语音驱动数字人生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117524244A (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112562722A (zh) | 基于语义的音频驱动数字人生成方法及系统 | |
CN103279970A (zh) | 一种实时的语音驱动人脸动画的方法 | |
Choi et al. | Hidden Markov model inversion for audio-to-visual conversion in an MPEG-4 facial animation system | |
WO2022135490A1 (zh) | 一种人脸图像合成方法、系统、电子设备及存储介质 | |
CN115588224A (zh) | 一种人脸关键点的预测方法、虚拟数字人生成方法及装置 | |
CN115457169A (zh) | 一种语音驱动的人脸动画生成方法及系统 | |
Liu et al. | Geometry-guided dense perspective network for speech-driven facial animation | |
CN117036583A (zh) | 视频生成方法、装置、存储介质及计算机设备 | |
CN114639374A (zh) | 一种实时语音驱动的照片级真实感人脸肖像视频生成方法 | |
RU2721180C1 (ru) | Способ генерации анимационной модели головы по речевому сигналу и электронное вычислительное устройство, реализующее его | |
CN115100329A (zh) | 基于多模态驱动的情感可控面部动画生成方法 | |
CN117524244B (zh) | 3d数字人的语音驱动方法、装置、存储介质及相关设备 | |
CN117671764A (zh) | 基于Transformer的动态说话人脸图像生成系统及方法 | |
CN113470170A (zh) | 一种利用语音信息的实时视频人脸区域时空一致合成方法 | |
CN117173365A (zh) | 基于声音ai模型的虚拟场景生成方法及系统 | |
CN116912375A (zh) | 面部动画生成方法、装置、电子设备及存储介质 | |
CN116758189A (zh) | 基于语音驱动的数字人图像生成方法、装置及存储介质 | |
JP2974655B1 (ja) | アニメーションシステム | |
CN115223224A (zh) | 数字人说话视频生成方法、系统、终端设备及介质 | |
Zhang et al. | Realistic Speech-Driven Talking Video Generation with Personalized Pose | |
Choi et al. | Constrained optimization for audio-to-visual conversion | |
CN115116109B (zh) | 虚拟人物说话视频的合成方法、装置、设备及存储介质 | |
KR102514580B1 (ko) | 영상 전환 방법, 장치 및 컴퓨터 프로그램 | |
CN117496072B (zh) | 一种三维数字人生成和交互方法及系统 | |
Mu et al. | Real-time speech-driven lip synchronization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |