CN117975991A - 基于人工智能的数字人驱动方法及装置 - Google Patents
基于人工智能的数字人驱动方法及装置 Download PDFInfo
- Publication number
- CN117975991A CN117975991A CN202410370739.5A CN202410370739A CN117975991A CN 117975991 A CN117975991 A CN 117975991A CN 202410370739 A CN202410370739 A CN 202410370739A CN 117975991 A CN117975991 A CN 117975991A
- Authority
- CN
- China
- Prior art keywords
- data
- digital
- response
- model
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 36
- 230000004044 response Effects 0.000 claims abstract description 83
- 238000013135 deep learning Methods 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000009432 framing Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 239000003086 colorant Substances 0.000 claims description 3
- 230000008451 emotion Effects 0.000 abstract description 9
- 230000000875 corresponding effect Effects 0.000 description 21
- 230000009471 action Effects 0.000 description 13
- 230000001815 facial effect Effects 0.000 description 7
- 230000002996 emotional effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000008921 facial expression Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000005855 radiation Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000001097 facial muscle Anatomy 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于人工智能的数字人驱动方法及装置,该方法包括:获取包含人体信息的人体图像,将所述人体图像输入至预训练的三维重建模型当中得到数字人模型;捕捉所述数字人模型的可用语音信息,从所述可用语音信息当中提取出音频特征并将所述音频特征转换为文本数据;获取所述文本数据对应的响应文本数据,并将所述响应文本数据转换为响应音频数据后通过预设算法得到口型数据;根据所述响应音频数据和口型数据确定驱动数据,并利用所述驱动数据驱动所述数字人模型。本发明解决了现有技术中在通过深度学习进行数字人的表情、手势以及情绪上的驱动时智能化繁杂的问题。
Description
技术领域
本发明涉及人工智能技术领域,特别涉及一种基于人工智能的数字人驱动方法及装置。
背景技术
现如今,虚拟数字人的理论和技术日益成熟,逐渐在相关服务行业得到一定的推广应用。其中数字人驱动技术是数字人关键技术之一,是数字人交互的基础,决定了其应用上限。
目前,屏幕数字人需要深度学习进行数字人的表情、手势以及情绪上的驱动。因为深度学习需要大量的数据进行训练,对于在不同场景、不同用户和不同动作等情况下的数据收集和标注是一项艰巨的任务,并且深度学习模型通常是复杂的神经网络包含了大量的参数和层级结构。这导致了在训练和推断时需要较高的计算资源和时间。对于移动设备等资源受限的环境来说,可能会面临效率和性能方面的限制,从而导致实现数字人的驱动较为繁杂。
发明内容
有鉴于此,本发明的目的在于提供一种基于人工智能的数字人驱动方法及装置,旨在解决现有技术中通过深度学习进行数字人的表情、手势以及情绪上的驱动时智能化繁杂的问题。
本发明实施例是这样实现的:
一种基于人工智能的数字人驱动方法,所述方法包括:
获取包含人体信息的人体图像,将所述人体图像输入至预训练的三维重建模型当中得到数字人模型;
捕捉所述数字人模型的可用语音信息,从所述可用语音信息当中提取出音频特征并将所述音频特征转换为文本数据;
获取所述文本数据对应的响应文本数据,并将所述响应文本数据转换为响应音频数据后通过预设算法得到口型数据;
根据所述响应音频数据和口型数据确定驱动数据,并利用所述驱动数据驱动所述数字人模型。
进一步的,上述基于人工智能的数字人驱动方法,其中,所述将所述人体图像输入至预训练的三维重建模型当中得到数字人模型的步骤包括:
获取所述人体图像当中的三维点的位置以及视角方向,根据所述三维点的位置以及视角方向通过所述预训练的三维重建模型得到所述三维点的颜色和体积密度;
根据所述三维点的颜色和体积密度得到所述人体图像的三维场景表示;
对所述三维场景表示进行光线追踪,计算沿着光线方向的场景颜色和透明度以对所述三维场景表示进行渲染得到所述数字人模型。
进一步的,上述基于人工智能的数字人驱动方法,其中,所述三维重建模型的训练步骤包括:
建立训练数据集,所述训练数据集包括多张历史人体图像以及对应的三维数字人模型;
将所述训练数据集输入至预设神经网络当中进行深度学习训练,直至所述预设神经网络的参数满足预设条件,以得到所述三维重建模型。
进一步的,上述基于人工智能的数字人驱动方法,其中,所述捕捉所述数字人模型的可用语音信息,从所述可用语音信息当中提取出音频特征并将所述音频特征转换为文本数据的步骤包括:
获取包含所述可用语音信息的语音信号,对所述语音信号进行分帧处理并分别在每一帧所述语音信号的开头和结尾加上窗函数;
将加窗后的所述语音信号进行归一化处理,以消除不同所述语音信号之间的幅度差异;
将归一化处理后的所述语音信号再次进行分帧和加窗处理后进行快速傅里叶变换得到对应的频域信号;
根据所述频域信号得到所述可用语音信息的所述音频特征,所述音频特征至少包括梅尔滤波器输出、线性预测系数、倒谱系数。
进一步的,上述基于人工智能的数字人驱动方法,其中,所述根据所述频域信号得到所述可用语音信息的所述音频特征的步骤包括:
使用梅尔滤波器组对所述频域信号进行滤波得到所述梅尔滤波器输出;
分别通过LPC分析以及倒谱分析,提取所述语音信号的线性预测系数以及倒谱系数。
进一步的,上述基于人工智能的数字人驱动方法,其中,所述将所述响应文本数据转换为响应音频数据的步骤包括:
将所述响应文本数据转换为音素序列,并将所述音素序列映射到声学特征以根据所述声学特征生成所述响应音频数据;
进一步的,上述基于人工智能的数字人驱动方法,其中,所述并将所述响应文本数据转换为响应音频数据后通过预设算法得到口型数据的步骤包括:
通过阈值分割算法对所述响应音频数据进行分割,并根据分割后的所述响应音频数据确定所述口型数据。
本发明的另一个在于提供一种基于人工智能的数字人驱动装置,所述装置包括:
获取模块,用于获取包含人体信息的人体图像,将所述人体图像输入至预训练的三维重建模型当中得到数字人模型;
捕捉模块,用于捕捉所述数字人模型的可用语音信息,从所述可用语音信息当中提取出音频特征并将所述音频特征转换为文本数据;
转换模块,用于获取所述文本数据对应的响应文本数据,并将所述响应文本数据转换为响应音频数据后通过预设算法得到口型数据;
驱动模块,用于根据所述响应音频数据和口型数据确定驱动数据,并利用所述驱动数据驱动所述数字人模型。
本发明的另一个目的在于提供一种可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任意一项所述的方法的步骤。
本发明的另一个目的是提供一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的方法的步骤。
本发明通过获取包含人体信息的人体图像,将人体图像输入至预训练的三维重建模型当中得到数字人模型;捕捉数字人模型的可用语音信息,从可用语音信息当中提取出音频特征并将音频特征转换为文本数据;获取文本数据对应的响应文本数据,并将响应文本数据转换为响应音频数据后通过预设算法得到口型数据;根据响应音频数据和口型数据确定驱动数据,并利用驱动数据驱动数字人模型,只需依次语音捕捉和处理、文本分析和生成、面部表情和肢体动作控制,不需要复杂的神经网络深度学习驱动数字人,实现相对简单,并且利用语音数据将参与者的表达直接转换为数字人的表情和动作,使得交互更加自然和直观,不利用深度学习进行数字人的表情、手势以及情绪上的驱动。解决了现有技术中在通过深度学习进行数字人的表情、手势以及情绪上的驱动时智能化繁杂的问题。
附图说明
图1为本发明第一实施例中基于人工智能的数字人驱动方法的流程图;
图2为本发明第四实施例中基于人工智能的数字人驱动装置的结构框图。
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
以下将结合具体实施例和附图来详细说明如何提高基于人工智能的数字人驱动时的准确性。
实施例一
请参阅图1,所示为本发明第一实施例中的基于人工智能的数字人驱动方法,所述方法包括步骤S10~S13。
步骤S10,获取包含人体信息的人体图像,将所述人体图像输入至预训练的三维重建模型当中得到数字人模型。
其中,基于人体三维重建用一张图片对需求的人物进行快速的搭建,具体的,三维重建模型是一种生成式神经网络模型,其可以利用二维图像重建一个三维场景,该网络模型将图中3D坐标和2D辐射照度作为输入,把颜色值和连续密度函数作为输出,最终通过输出的颜色值与密度函数形成一个场景模型表达。
在具体实施时,三维重建模型采用NeRF(Neural Radiance Field),NeRF是一种生成式神经网络模型,用于从多张图像拟合出一个连续的三维场景模型,其主要思想是将场景表示为一系列的辐射场(radiance field),这些辐射场可以由神经网络进行学习和预测。其主要突出贡献是从多个二维图像中重建一个连续的三维场景,而不需要对离散的点云进行处理。
该网络模型将图中3D坐标和2D辐射照度作为输入,把颜色值和连续密度函数作为输出,在训练阶段,首先需要从多个角度拍摄场景的不同视角,从而可以都得大量的图像信息,并将这些图像信息结合成一个尺寸较小的辐射场表示的三维场景,最终通过输出的颜色值与密度函数形成一个场景模型表达,在网络中,我们不断对其参数进行迭代优化,让该模型在网络中不断地提升场景模型的精度和保真度。
步骤S11,捕捉所述数字人模型的可用语音信息,从所述可用语音信息当中提取出音频特征并将所述音频特征转换为文本数据。
其中,在进行数字人模型的驱动时,通过获取到的语音信息进行数字人驱动的触发,例如,用户向数字人语音提问,会触发数字人模型的驱动,获取这段语音片段,可用语音信息包括会触发数字人模型驱动的语音信息。
具体的,从可用语音信息当中提取出音频特征,根据音频特征将可用语音信息转换为文本数据。
步骤S12,获取所述文本数据对应的响应文本数据,并将所述响应文本数据转换为响应音频数据后通过预设算法得到口型数据。
其中,将文本数据上传至chatGPT进行数据响应,响应之后,chatGPT会返回所对应问题的响应文本数据,用语音合成技术将响应文本数据合成为响应音频数据,并用算法对合成的响应音频进行处理,从而得到口型数据。
步骤S13,根据所述响应音频数据和口型数据确定驱动数据,并利用所述驱动数据驱动所述数字人模型。
具体的,将音频数据和口型数据传入对应的驱动器当中,驱动器用于驱动数据。驱动器包括表情驱动器,肢体动作驱动器,使用有限状态机用化身系统进行映射骨骼节点。
首先,音频数据和口型数据被传送到驱动器当中。其中,音频数据用于捕捉语音信息,口型数据则记录了口腔和面部肌肉的运动模式。这两者结合起来形成了数字人物需要的语音和口型信息。
接下来,表情驱动器负责解析这些数据。它分析音频数据的声调、语速、语调等特征,并结合口型数据中面部肌肉运动的模式,例如通过音频的特征值来调整口型的权重和表情强度,推断出数字人物应该采取的表情和情感状态。这个模块使得虚拟数字人物能够根据语音输入表现出相应的表情,增强了交互的逼真感和沟通效果。
与此同时,肢体动作驱动器通过有限状态机将音频和口型数据转换为数字人物的肢体动作指令。这个模块基于输入的语音特征和口型信息,决定数字人物应该采取的姿势、动作和身体语言,使其更加生动和具有情感表达。
最后,这些动作指令被映射到数字人物的骨骼节点上,这可以通过一种称为化身系统的结构来实现。化身系统控制着数字人物模型的骨骼节点,使其根据输入的语音和口型信息实现相应的动作,从而展现出生动的表现和情感。
综上,本发明上述实施例中的基于人工智能的数字人驱动方法,通过获取包含人体信息的人体图像,将人体图像输入至预训练的三维重建模型当中得到数字人模型;捕捉数字人模型的可用语音信息,从可用语音信息当中提取出音频特征并将音频特征转换为文本数据;获取文本数据对应的响应文本数据,并将响应文本数据转换为响应音频数据后通过预设算法得到口型数据;根据响应音频数据和口型数据确定驱动数据,并利用驱动数据驱动数字人模型,只需依次语音捕捉和处理、文本分析和生成、面部表情和肢体动作控制,不需要复杂的神经网络深度学习驱动数字人,实现相对简单,并且利用语音数据将参与者的表达直接转换为数字人的表情和动作,使得交互更加自然和直观,不利用深度学习进行数字人的表情、手势以及情绪上的驱动。解决了现有技术中在通过深度学习进行数字人的表情、手势以及情绪上的驱动时智能化繁杂的问题。
实施例二
本实施例当中的基于人工智能的数字人驱动方法与实施例一当中的基于人工智能的数字人驱动方法的不同之处在于:
步骤S11包括:
获取包含所述可用语音信息的语音信号,对所述语音信号进行分帧处理并分别在每一帧所述语音信号的开头和结尾加上窗函数;
将加窗后的所述语音信号进行归一化处理,以消除不同所述语音信号之间的幅度差异;
将归一化处理后的所述语音信号再次进行分帧和加窗处理后进行快速傅里叶变换得到对应的频域信号;
根据所述频域信号得到所述可用语音信息的所述音频特征,所述音频特征至少包括梅尔滤波器输出、线性预测系数、倒谱系数。
其中,在进行语音转换时,主要包括音频预处理、特征提取、以及语音识别引擎的选择,音频预处理包括去噪、归一化等处理,特征提取使用的方法可以是MFCC、Fbank等,为了节约开发效率可以使用百度ASR语音识别服务,调用接口即可。
具体的,使用梅尔滤波器组对所述频域信号进行滤波得到所述梅尔滤波器输出;
分别通过LPC分析以及倒谱分析,提取所述语音信号的线性预测系数以及倒谱系数。
更具体的,在获取到语音信号后进行分帧,在分帧后,每一帧信号需要在其开头和结尾加上窗函数,常用的窗函数有汉明窗和海明窗等。具体的窗函数公式如下:
汉明窗:w(t)=0.54-0.46cos(T-12πt);
海明窗:w(t)=21-cos(T-12πt);
其中,w(t)表示窗函数在时间t的值,T为窗函数的长度,π为圆周率;
归一化:将预处理后的语音信号进行归一化处理,以消除不同语音信号之间的幅度差异。公式如下:
x′(t)=maxt∣x(t)∣x(t);
其中,x′(t)表示归一化后的语音信号,x(t)表示原始的语音信号,maxt|x(t)|表示语音信号x(t)中的最大幅度;
分帧和加窗
分帧:将语音信号分割成短小的帧,每一帧的长度通常为20-40毫秒,并且帧与帧之间有重叠。公式如下:
xn(t)=x(nT+t);
其中,x(t)为原始的语音信号,它是一个关于时间t的函数,语音信号通常是一个连续的波形,包含了语音的各种信息,n为整数,表示帧的索引。它标识了信号中当前的帧是哪一个。通过改变n的值,可以遍历整个语音信号,将其分割成不同的帧。T表示帧的时长,即每一帧信号的时间长度。它是一个固定的时间间隔,用于确定每帧信号覆盖的时间范围。例如,如果T是20毫秒,那么每一帧信号将包含20毫秒的语音数据。t表示在帧内的相对时间。对于给定的帧n,t表示从该帧的起始点开始的时间偏移。它通常是一个较小的值,相对于整个语音信号的长度来说,它代表了帧内的局部时间。xn(t)表示从原始语音信号x(t)中提取出的第n帧信号。通过将原始信号x(t)在时间上进行平移和截取,我们得到了一系列独立的帧信号xn(t),每个帧信号都包含了原始信号中某一部分的信息。
加窗:在每一帧信号的开头和结尾分别加上窗函数,常用的窗函数有汉明窗、海明窗等。具体的窗函数公式如下:
汉明窗:w(t)=0.54-0.46cos(T-12πt);
海明窗:w(t)=21-cos(T-12πt);
快速傅里叶变换(FFT)
对每一帧信号进行快速傅里叶变换,将其从时域转换到频域。具体的FFT公式如下:
;
其中,FFT的结果可以表示为频谱图或频谱向量,具体的,X(k)表示FFT变换后的频域信号在频率k的值,x(n)表示时域信号在时间点n的值,N表示FFT变换的点数,即信号的长度,w(n-k)表示旋转因子,与FFT算法的具体实现有关。
梅尔滤波器组
使用梅尔滤波器组对频域信号进行滤波,以模拟人耳的感知特性。具体的梅尔滤波器组公式如下:
Hm(k)=H(mT-k);
其中,H(mT-k)表示梅尔滤波器在频率k的响应,m表示滤波器组的索引,T表示与梅尔滤波器的设计或分布有关梅尔滤波器组的中心频率是按照对数等间隔分布的,能够更好地匹配人耳的听觉感知。滤波后的结果可以得到一组梅尔滤波器输出。
对数能量
对梅尔滤波器组的输出计算对数能量,以进一步突出语音信号中的幅度变化。具体的对数能量公式如下:
Em=log∣Hm(k)∣;
其中,Em表示梅尔滤波器组输出的对数能量,Hm(k)表示梅尔滤波器组在频率k的输出,log表示自然对数函数。
线性预测编码(LPC)分析
通过LPC分析,可以提取语音信号的线性预测系数。
倒谱系数(cepstral coefficients)提取
将梅尔滤波器组的输出通过倒谱分析,可以得到倒谱系数。
特征标准化
为了提高模型的泛化能力,可以对提取的特征进行标准化处理,例如归一化或白化处理。公式如下:
归一化:f′=σf-μ,其中,μ和σ 分别是特征向量的均值和标准差,f为原始特征。
综上,本发明上述实施例中的基于人工智能的数字人驱动方法,通过获取包含人体信息的人体图像,将人体图像输入至预训练的三维重建模型当中得到数字人模型;捕捉数字人模型的可用语音信息,从可用语音信息当中提取出音频特征并将音频特征转换为文本数据;获取文本数据对应的响应文本数据,并将响应文本数据转换为响应音频数据后通过预设算法得到口型数据;根据响应音频数据和口型数据确定驱动数据,并利用驱动数据驱动数字人模型,只需依次语音捕捉和处理、文本分析和生成、面部表情和肢体动作控制,不需要复杂的神经网络深度学习驱动数字人,实现相对简单,并且利用语音数据将参与者的表达直接转换为数字人的表情和动作,使得交互更加自然和直观,不利用深度学习进行数字人的表情、手势以及情绪上的驱动。解决了现有技术中在通过深度学习进行数字人的表情、手势以及情绪上的驱动时智能化繁杂的问题。
实施例三
本实施例当中的基于人工智能的数字人驱动方法与本实施例一当中的基于人工智能的数字人驱动方法不同之处在于:
所述将所述响应文本数据转换为响应音频数据的步骤包括:
将所述响应文本数据转换为音素序列,并将所述音素序列映射到声学特征以根据所述声学特征生成所述响应音频数据;
所述并将所述响应文本数据转换为响应音频数据后通过预设算法得到口型数据的步骤包括:
通过阈值分割算法对所述响应音频数据进行分割,并根据分割后的所述响应音频数据确定所述口型数据。
其中,利用语音合成技术将文本数据转换为语音,例如采用语音合成模型,例如Tacotron,Tacotron 是一种端到端的语音合成模型,基于深度学习技术。它将文本数据作为输入,通过递归神经网络(RNN)来生成音频序列。Tacotron 可以直接从文本生成自然流畅的语音音频,无需中间的音素或声学特征表示。
另外,通过动捕来获取多种口型动画,获取口型动画数据进行存储,后在获取到对应的音频数据后,确定对应的口型数据,后通过口型数据驱动对应的模块进行显示。
具体的,在具体实施时,口型数据可以按如下的步骤进行获取:
数据采集和预处理:
安排动捕设备和摄像机:选择合适的动捕设备和摄像机,以确保捕捉到准确的面部动作数据。
安排舞台和灯光:准备适当的舞台和灯光环境,以保证高质量的面部数据采集。
穿戴动捕装备:让演员戴上专门设计的面部动捕装备,包括面部传感器和摄像机。
动作捕捉和数据处理:
进行动作录制:让演员进行不同的口型和表情动作,同时通过动捕设备和摄像机捕捉面部动作数据和图像序列。
数据预处理:对捕捉到的面部数据进行预处理,包括对齐和校准,以确保准确的关键点位置和动作数据。
口型建模和动画制作:
口型建模:基于捕捉到的面部数据,从中提取关键点或形状信息,用于构建口型模型或形变网格。
动画制作:将口型模型或形变网格与相应的语音数据结合,通过插值或映射,生成适当的口型动画序列。
动画调整和修正:根据需要,对口型动画进行调整和修正,以获得更加准确和自然的口型表现。
综上,本发明上述实施例中的基于人工智能的数字人驱动方法,通过获取包含人体信息的人体图像,将人体图像输入至预训练的三维重建模型当中得到数字人模型;捕捉数字人模型的可用语音信息,从可用语音信息当中提取出音频特征并将音频特征转换为文本数据;获取文本数据对应的响应文本数据,并将响应文本数据转换为响应音频数据后通过预设算法得到口型数据;根据响应音频数据和口型数据确定驱动数据,并利用驱动数据驱动数字人模型,只需依次语音捕捉和处理、文本分析和生成、面部表情和肢体动作控制,不需要复杂的神经网络深度学习驱动数字人,实现相对简单,并且利用语音数据将参与者的表达直接转换为数字人的表情和动作,使得交互更加自然和直观,不利用深度学习进行数字人的表情、手势以及情绪上的驱动。解决了现有技术中在通过深度学习进行数字人的表情、手势以及情绪上的驱动时智能化繁杂的问题。
实施例四
请参阅图2,所示为本发明第四实施例中提出的基于人工智能的数字人驱动装置,所述装置包括:
获取模块100,用于获取包含人体信息的人体图像,将所述人体图像输入至预训练的三维重建模型当中得到数字人模型;
捕捉模块200,用于捕捉所述数字人模型的可用语音信息,从所述可用语音信息当中提取出音频特征并将所述音频特征转换为文本数据;
转换模块300,用于获取所述文本数据对应的响应文本数据,并将所述响应文本数据转换为响应音频数据后通过预设算法得到口型数据;
驱动模块400,用于根据所述响应音频数据和口型数据确定驱动数据,并利用所述驱动数据驱动所述数字人模型。
进一步的,上述基于人工智能的数字人驱动装置,其中,所述将所述人体图像输入至预训练的三维重建模型当中得到数字人模型的步骤包括:
获取所述人体图像当中的三维点的位置以及视角方向,根据所述三维点的位置以及视角方向通过所述预训练的三维重建模型得到所述三维点的颜色和体积密度;
根据所述三维点的颜色和体积密度得到所述人体图像的三维场景表示;
对所述三维场景表示进行光线追踪,计算沿着光线方向的场景颜色和透明度以对所述三维场景表示进行渲染得到所述数字人模型。
进一步的,上述基于人工智能的数字人驱动装置,其中,所述三维重建模型的训练步骤包括:
建立训练数据集,所述训练数据集包括多张历史人体图像以及对应的三维数字人模型;
将所述训练数据集输入至预设神经网络当中进行深度学习训练,直至所述预设神经网络的参数满足预设条件,以得到所述三维重建模型。
进一步的,上述基于人工智能的数字人驱动装置,其中,所述捕捉所述数字人模型的可用语音信息,从所述可用语音信息当中提取出音频特征并将所述音频特征转换为文本数据的步骤包括:
获取包含所述可用语音信息的语音信号,对所述语音信号进行分帧处理并分别在每一帧所述语音信号的开头和结尾加上窗函数;
将加窗后的所述语音信号进行归一化处理,以消除不同所述语音信号之间的幅度差异;
将归一化处理后的所述语音信号再次进行分帧和加窗处理后进行快速傅里叶变换得到对应的频域信号;
根据所述频域信号得到所述可用语音信息的所述音频特征,所述音频特征至少包括梅尔滤波器输出、线性预测系数、倒谱系数。
进一步的,上述基于人工智能的数字人驱动装置,其中,所述根据所述频域信号得到所述可用语音信息的所述音频特征的步骤包括:
使用梅尔滤波器组对所述频域信号进行滤波得到所述梅尔滤波器输出;
分别通过LPC分析以及倒谱分析,提取所述语音信号的线性预测系数以及倒谱系数。
进一步的,上述基于人工智能的数字人驱动装置,其中,所述将所述响应文本数据转换为响应音频数据的步骤包括:
将所述响应文本数据转换为音素序列,并将所述音素序列映射到声学特征以根据所述声学特征生成所述响应音频数据;
进一步的,上述基于人工智能的数字人驱动装置,其中,所述并将所述响应文本数据转换为响应音频数据后通过预设算法得到口型数据的步骤包括:
通过阈值分割算法对所述响应音频数据进行分割,并根据分割后的所述响应音频数据确定所述口型数据。
上述各模块被执行时所实现的功能或操作步骤与上述方法实施例大体相同,在此不再赘述。
实施例五
本发明另一方面还提供一种可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述实施例一至三中任意一个所述的方法的步骤。
实施例六
本发明另一方面还提供一种电子设备,所述电子设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例一至三中任意一个所述的方法的步骤。
以上各个实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种基于人工智能的数字人驱动方法,其特征在于,所述方法包括:
获取包含人体信息的人体图像,将所述人体图像输入至预训练的三维重建模型当中得到数字人模型;
捕捉所述数字人模型的可用语音信息,从所述可用语音信息当中提取出音频特征并将所述音频特征转换为文本数据;
获取所述文本数据对应的响应文本数据,并将所述响应文本数据转换为响应音频数据后通过预设算法得到口型数据;
根据所述响应音频数据和口型数据确定驱动数据,并利用所述驱动数据驱动所述数字人模型;
所述捕捉所述数字人模型的可用语音信息,从所述可用语音信息当中提取出音频特征并将所述音频特征转换为文本数据的步骤包括:
获取包含所述可用语音信息的语音信号,对所述语音信号进行分帧处理并分别在每一帧所述语音信号的开头和结尾加上窗函数;
将加窗后的所述语音信号进行归一化处理,以消除不同所述语音信号之间的幅度差异;
将归一化处理后的所述语音信号再次进行分帧和加窗处理后进行快速傅里叶变换得到对应的频域信号;
根据所述频域信号得到所述可用语音信息的所述音频特征,所述音频特征至少包括梅尔滤波器输出、线性预测系数、倒谱系数。
2.根据权利要求1所述的基于人工智能的数字人驱动方法,其特征在于,所述将所述人体图像输入至预训练的三维重建模型当中得到数字人模型的步骤包括:
获取所述人体图像当中的三维点的位置以及视角方向,根据所述三维点的位置以及视角方向通过所述预训练的三维重建模型得到所述三维点的颜色和体积密度;
根据所述三维点的颜色和体积密度得到所述人体图像的三维场景表示;
对所述三维场景表示进行光线追踪,计算沿着光线方向的场景颜色和透明度以对所述三维场景表示进行渲染得到所述数字人模型。
3.根据权利要求1所述的基于人工智能的数字人驱动方法,其特征在于,所述三维重建模型的训练步骤包括:
建立训练数据集,所述训练数据集包括多张历史人体图像以及对应的三维数字人模型;
将所述训练数据集输入至预设神经网络当中进行深度学习训练,直至所述预设神经网络的参数满足预设条件,以得到所述三维重建模型。
4.根据权利要求1所述的基于人工智能的数字人驱动方法,其特征在于,所述根据所述频域信号得到所述可用语音信息的所述音频特征的步骤包括:
使用梅尔滤波器组对所述频域信号进行滤波得到所述梅尔滤波器输出;
分别通过LPC分析以及倒谱分析,提取所述语音信号的线性预测系数以及倒谱系数。
5.根据权利要求1所述的基于人工智能的数字人驱动方法,其特征在于,所述将所述响应文本数据转换为响应音频数据的步骤包括:
将所述响应文本数据转换为音素序列,并将所述音素序列映射到声学特征以根据所述声学特征生成所述响应音频数据。
6.根据权利要求1所述的基于人工智能的数字人驱动方法,其特征在于,所述并将所述响应文本数据转换为响应音频数据后通过预设算法得到口型数据的步骤包括:
通过阈值分割算法对所述响应音频数据进行分割,并根据分割后的所述响应音频数据确定所述口型数据。
7.一种基于人工智能的数字人驱动装置,其特征在于,用于实现权利要求1至6中任意一项所述的基于人工智能的数字人驱动方法,所述装置包括:
获取模块,用于获取包含人体信息的人体图像,将所述人体图像输入至预训练的三维重建模型当中得到数字人模型;
捕捉模块,用于捕捉所述数字人模型的可用语音信息,从所述可用语音信息当中提取出音频特征并将所述音频特征转换为文本数据;
转换模块,用于获取所述文本数据对应的响应文本数据,并将所述响应文本数据转换为响应音频数据后通过预设算法得到口型数据;
驱动模块,用于根据所述响应音频数据和口型数据确定驱动数据,并利用所述驱动数据驱动所述数字人模型。
8.一种可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至6中任意一项所述的方法的步骤。
9.一种电子设备,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至6任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410370739.5A CN117975991A (zh) | 2024-03-29 | 2024-03-29 | 基于人工智能的数字人驱动方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410370739.5A CN117975991A (zh) | 2024-03-29 | 2024-03-29 | 基于人工智能的数字人驱动方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117975991A true CN117975991A (zh) | 2024-05-03 |
Family
ID=90865995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410370739.5A Pending CN117975991A (zh) | 2024-03-29 | 2024-03-29 | 基于人工智能的数字人驱动方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117975991A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693091A (zh) * | 2012-05-22 | 2012-09-26 | 深圳市环球数码创意科技有限公司 | 一种三维虚拟角色的实现方法及其系统 |
US20150066487A1 (en) * | 2013-08-30 | 2015-03-05 | Fujitsu Limited | Voice processing apparatus and voice processing method |
CN106340302A (zh) * | 2015-07-10 | 2017-01-18 | 深圳市潮流网络技术有限公司 | 一种语音数据的去混响方法及装置 |
CN109785857A (zh) * | 2019-02-28 | 2019-05-21 | 桂林电子科技大学 | 基于mfcc+mp融合特征的异常声事件识别方法 |
CN111063024A (zh) * | 2019-12-11 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 三维虚拟人驱动方法、装置、电子设备及存储介质 |
CN113470170A (zh) * | 2021-07-02 | 2021-10-01 | 厦门大学 | 一种利用语音信息的实时视频人脸区域时空一致合成方法 |
-
2024
- 2024-03-29 CN CN202410370739.5A patent/CN117975991A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693091A (zh) * | 2012-05-22 | 2012-09-26 | 深圳市环球数码创意科技有限公司 | 一种三维虚拟角色的实现方法及其系统 |
US20150066487A1 (en) * | 2013-08-30 | 2015-03-05 | Fujitsu Limited | Voice processing apparatus and voice processing method |
CN106340302A (zh) * | 2015-07-10 | 2017-01-18 | 深圳市潮流网络技术有限公司 | 一种语音数据的去混响方法及装置 |
CN109785857A (zh) * | 2019-02-28 | 2019-05-21 | 桂林电子科技大学 | 基于mfcc+mp融合特征的异常声事件识别方法 |
CN111063024A (zh) * | 2019-12-11 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 三维虚拟人驱动方法、装置、电子设备及存储介质 |
CN113470170A (zh) * | 2021-07-02 | 2021-10-01 | 厦门大学 | 一种利用语音信息的实时视频人脸区域时空一致合成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110531860B (zh) | 一种基于人工智能的动画形象驱动方法和装置 | |
CN110751708B (zh) | 一种实时的语音驱动人脸动画的方法和系统 | |
WO2020215551A1 (zh) | 合成中文语音的方法、装置、设备及存储介质 | |
CN110880315A (zh) | 一种基于音素后验概率的个性化语音和视频生成系统 | |
CN110874557A (zh) | 一种语音驱动虚拟人脸的视频生成方法以及装置 | |
CN113793408A (zh) | 一种实时音频驱动人脸生成方法、装置及服务器 | |
CN113822969A (zh) | 训练神经辐射场模型和人脸生成方法、装置及服务器 | |
GB2516965A (en) | Synthetic audiovisual storyteller | |
CN112001992A (zh) | 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统 | |
CN112151030B (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
CN113421547B (zh) | 一种语音处理方法及相关设备 | |
WO2023284435A1 (zh) | 生成动画的方法及装置 | |
US7257538B2 (en) | Generating animation from visual and audio input | |
CN113228163A (zh) | 基于文本和音频的实时面部再现 | |
WO2021203880A1 (zh) | 一种语音增强方法、训练神经网络的方法以及相关设备 | |
CN116934926B (zh) | 一种基于多模态数据融合的识别方法和系统 | |
CN116828129B (zh) | 一种超清2d数字人生成方法及系统 | |
Železný et al. | Design, implementation and evaluation of the Czech realistic audio-visual speech synthesis | |
Wen et al. | 3D Face Processing: Modeling, Analysis and Synthesis | |
KR102319753B1 (ko) | 딥러닝 기반의 영상 컨텐츠 제작 방법 및 장치 | |
Tang et al. | Real-time conversion from a single 2D face image to a 3D text-driven emotive audio-visual avatar | |
CN117409121A (zh) | 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、系统、设备及介质 | |
CN116645456A (zh) | 语音驱动数字人面部动画生成方法和装置 | |
CN113362432B (zh) | 一种面部动画生成方法及装置 | |
CN117975991A (zh) | 基于人工智能的数字人驱动方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |