CN112001992A - 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统 - Google Patents
基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统 Download PDFInfo
- Publication number
- CN112001992A CN112001992A CN202010633313.6A CN202010633313A CN112001992A CN 112001992 A CN112001992 A CN 112001992A CN 202010633313 A CN202010633313 A CN 202010633313A CN 112001992 A CN112001992 A CN 112001992A
- Authority
- CN
- China
- Prior art keywords
- module
- parameter
- expression
- voice
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013135 deep learning Methods 0.000 title claims abstract description 10
- 238000009877 rendering Methods 0.000 claims abstract description 28
- 238000001228 spectrum Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000001914 filtration Methods 0.000 claims abstract description 18
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 14
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000003062 neural network model Methods 0.000 claims abstract description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 230000001815 facial effect Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 4
- 238000013528 artificial neural network Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 8
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
Abstract
本发明涉及一种基于深度学习的语音驱动3D虚拟人表情音画同步方法及系统。该方法包括:提取语音信号中的对数幅度谱,作为语音信号特征;将语音信号特征输入训练完成的参数预测模型,该参数预测模型输出表情参数值;其中的参数预测模型是利用视频数据中语音信号与图像信号的天然的标签对关系训练得到的神经网络模型;对参数预测模型输出的表情参数值进行滤波;利用滤波后的表情参数值进行3D人物模型的图像渲染,实现3D虚拟人表情音画同步。该系统包括视频解析模块、参数提取模块、语音合成模块、语音信号处理模块、参数预测模块、参数滤波模块和渲染模块。本发明通过学习大量的人脸视频数据提升了虚拟人口唇效果,使得其更加自然,更像人。
Description
技术领域
本发明涉及计算机图形学、计算机视觉、语音识别、语音合成等领域,具体是一种利用深度神经网络去拟合语音与3D模型Blend Shape值之间关系,实现语音驱动3D虚拟人表情音画同步的方法及系统。
背景技术
目前语音驱动生成虚拟人面部动画的方法有以下几种类型:
(1)语音通过神经网络生成一个固定拓扑结构的3D模型的顶点坐标,这些顶点坐标在DI4D PRO系统上能够表现出来人脸动画。
(2)语音通过对抗网络生成不同的2D图像的方式来驱动虚拟人,这些2D图像是一个3D模型的不同角度的反映。
(3)语音通过音素拆分,每个音素对应到一个动画片段,通过动画片段的拼接的方式来实现。
上述方法(1)和(2)能够做到比较丰富和自然的人脸表情,但是这些方法不适合用目前流行的实时渲染引擎来实时的渲染表情,不具有实时性交互能力。
上述方法(3)也能够利用实时渲染引擎来渲染,同时计算速度也很快,但是自然度比不上使用神经网络参数驱动的方法,也不具有学习的能力。同时由于每个语种的音素是完全不同的,因此该方法是跟语言相关的,也就是虚拟人说一种语言,就得人工的去制作该语言每个音素所对应的动画。
发明内容
为了克服现有的虚拟人不同时具备较高的表情音画同步自然度、实时交互能力和提升表情音画同步效果学习能力的问题,本发明提供了一种虚拟人音画同步的自监督学习方法,通过学习大量的人脸视频数据,来提升虚拟人口唇效果,使得其更加自然,更像人。
本发明采用的技术方案如下:
一种基于深度学习的语音驱动3D虚拟人表情音画同步方法,其特征在于,包括以下步骤:
提取语音信号中的对数幅度谱,作为语音信号特征;
将语音信号特征输入训练完成的参数预测模型,该参数预测模型输出表情参数值;其中的参数预测模型是利用视频数据中语音信号与图像信号的天然的标签对关系训练得到的神经网络模型;
对参数预测模型输出的表情参数值进行滤波;
利用滤波后的表情参数值进行3D人物模型的图像渲染,实现3D虚拟人表情音画同步。
进一步地,所述的提取语音信号中的对数幅度谱,其中的语音信号采用以下两种方式之一得到:
使用在线语音合成接口,将文字转换成语音;
利用开源语音合成框架合成语音,合成的语音数据来自于录制的视频数据。
进一步地,所述的提取语音信号中的对数幅度谱,包括:首先将视频中的语音信号进行分帧,然后将分帧的信号的对数幅度谱提取出来。
进一步地,所述参数预测模型的训练步骤包括:
对视频数据进行预处理,将视频数据分割成图像和声音;
从视频数据的图像中提取出表情参数值即AU值;
对视频数据的声音进行分帧,并提取分帧的信号的对数幅度谱;
利用对数幅度谱和AU值进行训练,得到参数预测模型。
进一步地,所述的对参数预测模型输出的表情参数值进行滤波,是利用卡尔曼滤波器进行滤波,使得口唇动作过渡平滑。
进一步地,所述的利用滤波后的表情参数值进行3D人物模型的图像渲染,实现3D虚拟人表情音画同步,包括:将表情参数值即AU值转换成BS值,按帧设置3D人物模型的BS值,实现面部动画的渲染,并使得每一帧的图像渲染时间与每一帧的语音信号的时间保持一致,从而实现3D虚拟人表情音画同步。
一种基于深度学习的语音驱动3D虚拟人表情音画同步系统,其包括:
语音合成模块,用于合成语音信号;
语音信号处理模块,用于提取语音信号中的对数幅度谱,作为语音信号特征;
参数预测模块,用于将语音信号特征输入训练完成的参数预测模型,该参数预测模型输出表情参数值;其中的参数预测模型是利用视频数据中语音信号与图像信号的天然的标签对关系训练得到的神经网络模型;
参数滤波模块,用于对参数预测模型输出的表情参数值进行滤波;
渲染模块,用于利用滤波后的表情参数值进行3D人物模型的图像渲染,实现3D虚拟人表情音画同步。
进一步地,所述系统还包括视频解析模块、参数提取模块,所述视频解析模块用于对视频数据进行预处理,将视频数据分割成图像和声音,所述参数提取模块用于从视频数据的图像中提取出表情参数值即AU值;所述语音信号处理模块还用于在训练模式中对视频数据的声音进行分帧,并提取分帧的信号的对数幅度谱;所述参数预测模块还用于在训练模式中利用对数幅度谱和AU值进行训练,得到参数预测模型。
本发明的有益效果是:
1.能够低成本的获取大量的视频数据来训练神经网络模型,使得虚拟人表情有了学习的能力。
2.利用语音信号与图像信号的标签对关系,形成神经网络的自监督学习途径,不需要人工对训练数据贴标签。
3.通过对语音信号的特征进行建模,能够做到语言无关性,使得虚拟人口唇驱动能够适应所有的语言,比如虚拟人能够同时说英语和汉语。
4.因为本发明采用了基于深度学习的Blend Shape值预测及基于滤波器的参数平滑方法,所以口唇停顿比传统的动画拼接方法效果更加自然。
5.更轻易的增加影响表情音画同步的因素,比如神经网络除了语音作为输入,还可以接受其他方式的输入,具有比较好的可扩展性。
附图说明
图1是本发明系统组成模块关系框图,其中分成了训练模式和工作模式两个框图,表示各个模块可以分成两部份,分别在神经网络训练学习及工作的时候涉及到,其中语音信号处理模块和参数预测模块是两个模式都会使用到的。参数预测模块存在一个神经网络参数更新机制,训练模式下将从学习样本中更新神经网络参数,将训练好的神经网络参数同步更新到工作模式下的参数预测模块中的神经网络中。
图2是视频解析模块流程图。
图3是参数转换模块流程图。
图4是语音信号处理模块流程图。
图5是参数预测模块流程图。
图6是参数滤波模块流程图。
图7是渲染模块流程图。
图8是神经网络结构图,属于参数预测模块。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
本发明的基于深度学习的语音驱动3D虚拟人表情音画同步系统,包括视频解析模块、参数提取模块、语音合成模块、语音信号处理模块、参数预测模块、参数滤波模块和渲染模块。所有模块分为两部份,分别在训练模式以及工作模式下进行。训练模式中用到的模块包括:视频解析模块、参数提取模块、语音信号处理模块、参数预测模块。工作模式中用到的模块包括:语音合成模块、语音信号处理模块、参数预测模块、参数滤波模块和渲染模块。
视频解析模块:该模块对视频数据进行预处理,将视频数据分割成图像和声音,为后续模块提供数据基础。
参数提取模块:该模块基于开源工具OpenFace,将视频中每一帧的人脸图像的面部动作编码系统(Facial Action Code System,FACS)的AU(Action Unit,运动单元)的强度值提取出来,该值又称作表情参数值。
语音合成模块:该模块是在工作模式中将3D虚拟人想要表达的文字,可以是输入的文字,也可以是虚拟人在多轮对话过程中回答的文字,转换成语音信号,并输入语音信号处理模块。
语音信号处理模块:该模块将视频中的语音信号进行分帧,将分帧的信号的对数幅度谱提取出来。
参数预测模块:该模块基于深度学习中的卷积神经网络,在训练模式中,利用语音信号处理模块提取的语音信号对数幅度谱和参数提取模块得到的AU值进行训练,得到一个参数预测模型;在工作模式中,输入是语音信号处理模块提取的语音信号对数幅度谱,即一帧的语音信号特征;输出是一帧的AU的参数值,即表情参数值。
参数滤波模块。该模块利用卡尔曼滤波器对参数预测模块输出的参数进行滤波,减少抖动,使得口唇动作过渡更加平滑。
渲染模块。该模块基于UE4(Unreal Engine 4)开发,将AU值转换成混合形状(Blend Shape,BS)值,通过UE4的API,即可按帧设置3D人物模型的BS值,实现面部动画的渲染。通过固定渲染帧率为30FPS,与语音信号的帧率保持一致,同时播放语音和动画,即可达到音画同步的效果。
训练模式。该模式是指参数预测模块的神经网络需要借助其他模块获取训练数据,对神经网络进行训练的过程。
工作模式。该模式是利用训练模式得到的新的神经网络进行实时的表情参数驱动的过程。
下面提供一个具体应用实例。本实例中的各模块采用以下方式实现:
1.视频解析模块
该模块读取的视频数据是单个人脸的视频。通过FFmpeg工具来将视频数据分割成图像和语音,其中图像按帧提取出来,并且把图像在视频中的序号给记录下来,为后续数据处理做好准备。
2.参数提取模块
该模块将视频解析模块中的图像数据作为输入,通过OpenFace中的FaceAnalyser_Interop模块来处理,从而得到每一帧图像对应的AU值,其中AU值来自于FACS,即FACS中的Action Unit,AU字段名和字段值如下表所示,其中字段值是浮点类型,后缀r表示回归(Regression):
表1表情参数和参数值范围
字段名 | 值范围 | 字段名 | 值范围 |
AU01_r | [0,1] | AU14_r | [0,1] |
AU02_r | [0,1] | AU15_r | [0,1] |
AU04_r | [0,1] | AU17_r | [0,1] |
AU05_r | [0,1] | AU20_r | [0,1] |
AU06_r | [0,1] | AU23_r | [0,1] |
AU07_r | [0,1] | AU25_r | [0,1] |
AU09_r | [0,1] | AU26_r | [0,1] |
AU10_r | [0,1] | AU45_r | [0,1] |
AU12_r | [0,1] |
3.语音信号处理模块
该模块将将视频解析模块中的语音数据进行分帧处理,通过计算视频的帧数,按照帧数将语音等分,使得单帧语音信号的时间长度与视频中单帧图像的时间长度对齐。由于语音信号具有短时平稳性,因此对每一段的语音信号做短时傅立叶变换(Short TimeFourier Transform,STFT)。STFT后的语音信号具有幅度谱和相位谱,由于幅度谱包含有语音信号更多的信息,因此特征选取了幅度谱,处理之后得到的特征就是多帧语音信号的幅度谱的一个集合。
4.语音合成模块
该模块可以采用两种方式实现:
(1)使用百度的在线语音合成接口,将文字转换成语音。优点是免费,响应速度快。
(2)利用开源语音合成框架Tacotron合成语音,合成的语音训练数据来自于录制的视频数据,通过视频解析模块计算得到。优点是能够合成某个特定人的声音。
5.参数预测模块
该模块通过神经网络来实现,神经网络结构为卷积神经网络,输入是单帧的语音信号特征,输出是单帧的AU值。该模块的工作主要分为两部分:
(1)在训练模式中,卷积神经网络利用参数提取模块和语音信号处理模块分别得到的语音信号特征和AU参数值进行训练,得到一个参数预测模型。
(2)在工作模式中,将新的多帧语音信号特征输入到参数预测模型,得到多帧AU参数值组。
其中神经网络框架使用的是tensorflow 1.15.1。神经网络的结构见图8所示,其采用的是卷积神经网络,输入是分帧后的语音的幅度谱,特征维度是129*23维。经过多层卷积和池化,再进入全连接层,最后得到一个15维的输出。图8中,conv表示卷积层,maxpool表示最大池化层,stride表示步长,flatten表示将多维的矩阵每一行的取出平展成一个一维向量,dense表示全连接。
6.参数滤波模块
由于神经网络的输出参数是离散的一组值,并不是平滑的,因此需要对输出的参数进行平滑处理。该模块将模块4获得的多帧AU参数值进行滤波,采用卡尔曼滤波器,消除了噪声的影响,避免了虚拟人的口唇动作出现抖动的现象。同时还对比了经典的中位值滤波算法,算术平均滤波法和加权递推平均滤波法等滤波算法,在保证口唇和语音同步的情况下,采用卡尔曼滤波器使得口唇的动作更有连续性。
7.渲染模块
该模块基于虚幻4引擎,将模块5得到的多帧AU参数值通过虚幻4引擎的接口按帧来渲染,从而得到一个连续的人脸表情动画。渲染的同时也播放语音,语音文件来自于模块4。
由于在帧数上,AU参数与语音信号保持了同步,因此通过调整虚幻4的渲染速率,通常为30FPS,使得每一帧的图像渲染时间与每一帧的语音信号的时间保持一致,从而使得动画的口型与语音保持了同步。
基于同一发明构思,本发明的另一个实施例提供一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
基于同一发明构思,本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
以上公开的本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,本领域的普通技术人员可以理解,在不脱离本发明的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例和附图所公开的内容,本发明的保护范围以权利要求书界定的范围为准。
Claims (10)
1.一种基于深度学习的语音驱动3D虚拟人表情音画同步方法,其特征在于,包括以下步骤:
提取语音信号中的对数幅度谱,作为语音信号特征;
将语音信号特征输入训练完成的参数预测模型,该参数预测模型输出表情参数值;其中的参数预测模型是利用视频数据中语音信号与图像信号的天然的标签对关系训练得到的神经网络模型;
对参数预测模型输出的表情参数值进行滤波;
利用滤波后的表情参数值进行3D人物模型的图像渲染,实现3D虚拟人表情音画同步。
2.根据权利要求1所述的方法,其特征在于,所述的提取语音信号中的对数幅度谱,其中的语音信号采用以下两种方式之一得到:
使用在线语音合成接口,将文字转换成语音;
利用开源语音合成框架合成语音,合成的语音数据来自于录制的视频数据。
3.根据权利要求1所述的方法,其特征在于,所述的提取语音信号中的对数幅度谱,包括:首先将视频中的语音信号进行分帧,然后将分帧的信号的对数幅度谱提取出来。
4.根据权利要求1所述的方法,其特征在于,所述参数预测模型的训练步骤包括:
对视频数据进行预处理,将视频数据分割成图像和声音;
从视频数据的图像中提取出表情参数值即AU值;
对视频数据的声音进行分帧,并提取分帧的信号的对数幅度谱;
利用对数幅度谱和AU值进行训练,得到参数预测模型。
5.根据权利要求1所述的方法,其特征在于,所述的对参数预测模型输出的表情参数值进行滤波,是利用卡尔曼滤波器进行滤波,使得口唇动作过渡平滑。
6.根据权利要求1所述的方法,其特征在于,所述的利用滤波后的表情参数值进行3D人物模型的图像渲染,实现3D虚拟人表情音画同步,包括:将表情参数值即AU值转换成BS值,按帧设置3D人物模型的BS值,实现面部动画的渲染,并使得每一帧的图像渲染时间与每一帧的语音信号的时间保持一致,从而实现3D虚拟人表情音画同步。
7.一种基于深度学习的语音驱动3D虚拟人表情音画同步系统,其特征在于,包括:
语音合成模块,用于合成语音信号;
语音信号处理模块,用于提取语音信号中的对数幅度谱,作为语音信号特征;
参数预测模块,用于将语音信号特征输入训练完成的参数预测模型,该参数预测模型输出表情参数值;其中的参数预测模型是利用视频数据中语音信号与图像信号的天然的标签对关系训练得到的神经网络模型;
参数滤波模块,用于对参数预测模型输出的表情参数值进行滤波;
渲染模块,用于利用滤波后的表情参数值进行3D人物模型的图像渲染,实现3D虚拟人表情音画同步。
8.根据权利要求7所述的系统,其特征在于,还包括视频解析模块、参数提取模块,所述视频解析模块用于对视频数据进行预处理,将视频数据分割成图像和声音,所述参数提取模块用于从视频数据的图像中提取出表情参数值即AU值;所述语音信号处理模块还用于在训练模式中对视频数据的声音进行分帧,并提取分帧的信号的对数幅度谱;所述参数预测模块还用于在训练模式中利用对数幅度谱和AU值进行训练,得到参数预测模型。
9.一种电子装置,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~6中任一权利要求所述方法的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~6中任一权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010633313.6A CN112001992A (zh) | 2020-07-02 | 2020-07-02 | 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010633313.6A CN112001992A (zh) | 2020-07-02 | 2020-07-02 | 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112001992A true CN112001992A (zh) | 2020-11-27 |
Family
ID=73466416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010633313.6A Pending CN112001992A (zh) | 2020-07-02 | 2020-07-02 | 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112001992A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634861A (zh) * | 2020-12-30 | 2021-04-09 | 北京大米科技有限公司 | 数据处理方法、装置、电子设备和可读存储介质 |
CN113192162A (zh) * | 2021-04-22 | 2021-07-30 | 清华珠三角研究院 | 语音驱动图像的方法、系统、装置及存储介质 |
CN113223125A (zh) * | 2021-05-17 | 2021-08-06 | 百度在线网络技术(北京)有限公司 | 一种虚拟形象的面部驱动方法、装置、设备和介质 |
CN113763519A (zh) * | 2021-11-09 | 2021-12-07 | 江苏原力数字科技股份有限公司 | 一种基于深度学习的语音驱动3d人物面部表情方法 |
CN113822969A (zh) * | 2021-09-15 | 2021-12-21 | 宿迁硅基智能科技有限公司 | 训练神经辐射场模型和人脸生成方法、装置及服务器 |
CN114155321A (zh) * | 2021-11-26 | 2022-03-08 | 天津大学 | 一种基于自监督和混合密度网络的人脸动画生成方法 |
CN116524087A (zh) * | 2023-05-15 | 2023-08-01 | 苏州大学 | 融合神经辐射场的音频驱动的说话人视频合成方法及系统 |
WO2023184714A1 (zh) * | 2022-03-29 | 2023-10-05 | 华为技术有限公司 | 驱动虚拟人说话和模型训练方法、装置、计算设备及系统 |
CN117078811A (zh) * | 2023-08-31 | 2023-11-17 | 华院计算技术(上海)股份有限公司 | 模型训练方法、图像生成方法、动画生成方法及系统 |
CN117765214A (zh) * | 2024-02-21 | 2024-03-26 | 飞狐信息技术(天津)有限公司 | 3d数字人唇形实时驱动方法、装置、终端和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5734793A (en) * | 1994-09-07 | 1998-03-31 | Motorola Inc. | System for recognizing spoken sounds from continuous speech and method of using same |
CN108230438A (zh) * | 2017-12-28 | 2018-06-29 | 清华大学 | 声音驱动辅助侧脸图像的人脸重建方法及装置 |
CN108875900A (zh) * | 2017-11-02 | 2018-11-23 | 北京旷视科技有限公司 | 视频图像处理方法和装置、神经网络训练方法、存储介质 |
-
2020
- 2020-07-02 CN CN202010633313.6A patent/CN112001992A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5734793A (en) * | 1994-09-07 | 1998-03-31 | Motorola Inc. | System for recognizing spoken sounds from continuous speech and method of using same |
CN108875900A (zh) * | 2017-11-02 | 2018-11-23 | 北京旷视科技有限公司 | 视频图像处理方法和装置、神经网络训练方法、存储介质 |
CN108230438A (zh) * | 2017-12-28 | 2018-06-29 | 清华大学 | 声音驱动辅助侧脸图像的人脸重建方法及装置 |
Non-Patent Citations (3)
Title |
---|
李丽;刘飞;彭超华;王名亮;: "基于形状控制函数和自适应细分的皱纹建模方法", 重庆大学学报, no. 09, 15 September 2011 (2011-09-15), pages 41 - 47 * |
蔡锐涛: "交互式人脸表情动画系统", 《硕士电子期刊出版社》, no. 1, 15 January 2018 (2018-01-15), pages 4 * |
陈益强, 高文, 王兆其, 姜大龙: "基于机器学习的语音驱动人脸动画方法", 软件学报, no. 02, 23 February 2003 (2003-02-23), pages 58 - 64 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634861A (zh) * | 2020-12-30 | 2021-04-09 | 北京大米科技有限公司 | 数据处理方法、装置、电子设备和可读存储介质 |
CN113192162A (zh) * | 2021-04-22 | 2021-07-30 | 清华珠三角研究院 | 语音驱动图像的方法、系统、装置及存储介质 |
CN113223125A (zh) * | 2021-05-17 | 2021-08-06 | 百度在线网络技术(北京)有限公司 | 一种虚拟形象的面部驱动方法、装置、设备和介质 |
CN113223125B (zh) * | 2021-05-17 | 2023-09-26 | 百度在线网络技术(北京)有限公司 | 一种虚拟形象的面部驱动方法、装置、设备和介质 |
CN113822969A (zh) * | 2021-09-15 | 2021-12-21 | 宿迁硅基智能科技有限公司 | 训练神经辐射场模型和人脸生成方法、装置及服务器 |
CN113763519A (zh) * | 2021-11-09 | 2021-12-07 | 江苏原力数字科技股份有限公司 | 一种基于深度学习的语音驱动3d人物面部表情方法 |
CN113763519B (zh) * | 2021-11-09 | 2022-02-08 | 江苏原力数字科技股份有限公司 | 一种基于深度学习的语音驱动3d人物面部表情方法 |
CN114155321A (zh) * | 2021-11-26 | 2022-03-08 | 天津大学 | 一种基于自监督和混合密度网络的人脸动画生成方法 |
WO2023184714A1 (zh) * | 2022-03-29 | 2023-10-05 | 华为技术有限公司 | 驱动虚拟人说话和模型训练方法、装置、计算设备及系统 |
CN116524087A (zh) * | 2023-05-15 | 2023-08-01 | 苏州大学 | 融合神经辐射场的音频驱动的说话人视频合成方法及系统 |
CN117078811A (zh) * | 2023-08-31 | 2023-11-17 | 华院计算技术(上海)股份有限公司 | 模型训练方法、图像生成方法、动画生成方法及系统 |
CN117765214A (zh) * | 2024-02-21 | 2024-03-26 | 飞狐信息技术(天津)有限公司 | 3d数字人唇形实时驱动方法、装置、终端和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112001992A (zh) | 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统 | |
CN109308731B (zh) | 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 | |
CA2375350C (en) | Method of animating a synthesised model of a human face driven by an acoustic signal | |
CN112562722A (zh) | 基于语义的音频驱动数字人生成方法及系统 | |
Cao et al. | Expressive speech-driven facial animation | |
CN112184858B (zh) | 基于文本的虚拟对象动画生成方法及装置、存储介质、终端 | |
CN116250036A (zh) | 用于合成语音的照片级真实感视频的系统和方法 | |
WO2021047233A1 (zh) | 一种基于深度学习的情感语音合成方法及装置 | |
CN110610534B (zh) | 基于Actor-Critic算法的口型动画自动生成方法 | |
WO2010081395A1 (zh) | 语音驱动动画中嘴唇形状变化、获取嘴唇动画的方法及装置 | |
CN114895817B (zh) | 交互信息处理方法、网络模型的训练方法及装置 | |
CN113838173B (zh) | 一种受语音和背景声联合驱动的虚拟人头部运动合成方法 | |
WO2021023869A1 (en) | Audio-driven speech animation using recurrent neutral network | |
CN116051692B (zh) | 一种基于语音驱动的三维数字人脸部动画生成方法 | |
CN113838174A (zh) | 一种音频驱动人脸动画生成方法、装置、设备与介质 | |
CN115578512A (zh) | 语音播报视频的生成模型训练和使用方法、装置及设备 | |
Chen et al. | Transformer-s2a: Robust and efficient speech-to-animation | |
Bao et al. | Learning audio-driven viseme dynamics for 3d face animation | |
CN116095357B (zh) | 虚拟主播的直播方法、装置及系统 | |
CN117409121A (zh) | 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、系统、设备及介质 | |
CN114898018A (zh) | 数字对象的动画生成方法、装置、电子设备及存储介质 | |
CN113362432B (zh) | 一种面部动画生成方法及装置 | |
CN113990295A (zh) | 一种视频生成方法和装置 | |
Shih et al. | Speech-driven talking face using embedded confusable system for real time mobile multimedia | |
Xiao et al. | Dense convolutional recurrent neural network for generalized speech animation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |