CN113838174B - 一种音频驱动人脸动画生成方法、装置、设备与介质 - Google Patents

一种音频驱动人脸动画生成方法、装置、设备与介质 Download PDF

Info

Publication number
CN113838174B
CN113838174B CN202111412881.4A CN202111412881A CN113838174B CN 113838174 B CN113838174 B CN 113838174B CN 202111412881 A CN202111412881 A CN 202111412881A CN 113838174 B CN113838174 B CN 113838174B
Authority
CN
China
Prior art keywords
face
phoneme
expression
animation
inputting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111412881.4A
Other languages
English (en)
Other versions
CN113838174A (zh
Inventor
刘逸颖
李太豪
郑书凯
阮玉平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202111412881.4A priority Critical patent/CN113838174B/zh
Publication of CN113838174A publication Critical patent/CN113838174A/zh
Application granted granted Critical
Publication of CN113838174B publication Critical patent/CN113838174B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种音频驱动人脸动画生成方法、装置、设备和介质,该方法包括以下步骤:步骤1,采集语音信号,提取MFCC特征并输入音素识别器,获得语音的音素分类概率;步骤2,将音素分类概率输入Embedding层,得到音素的Embedding编码;步骤3,将音素的Embedding编码输入表情预测器,得到3D人脸的顶点位移;步骤4,将3D人脸顶点位移与自然表情的人脸模板相加,得到带说话表情的3D人脸;步骤5,将连续时间内的3D人脸渲染为2D图像,生成动画视频。本发明将发音和人脸表情直接关联,能够识别全球超2000种语言,具有更强的泛化能力,同时,可以为不同语言的动画进行配音,大大降低动画制作成本。

Description

一种音频驱动人脸动画生成方法、装置、设备与介质
技术领域
本发明属于人工智能领域,涉及一种音频驱动人脸动画生成方法、装置、设备与介质。
背景技术
音频驱动人脸动画生成涵盖语音处理、计算机图形学、计算机视觉、多媒体等多个学科领域。近年随着人工智能和多媒体技术的不断发展,虚拟数字人技术得到广泛的关注,音频驱动3D人脸动画作为其中的一个重要组成部分,也得到越来越多的关注。音频驱动人脸动画技术能够大大简化3D角色动画制作,使动画与配音音轨匹配,轻松完成游戏、电影和实时数字助理的动画角色制作;可用于交互式实时应用场景、传统的面部动画创作工具等。
现有的音频驱动人脸动画生成方案,仅针对单种语言,即单个模型仅对特定的语言能够具有较好的面部动作表情生成,若需针对不同语言,需设计不同的网络结构并进行训练。如论文“Capture, Learning, and Synthesis of 3D Speaking Styles”针对英语语音,首先利用一个语音识别模型DeepSpeech将音频识别为文字信息,之后再利用文字信息去预测3D人脸的相应动作变化。然而相比于文字信息,发音才是与嘴部运动具有最直接关系,而与语音所传达的语义无关。一个未知语言的音频信号预测一个人脸动画是有可能的。
现有的专利“用于生成动画的方法和装置”,CN109377539A公开了其音素与嘴型是预设的对应关系,从而确定嘴型对象,在其得到该嘴型信息匹配的嘴型对象后,直接将各信息进行汇总,利用现有的动画制作工具,例如Unity 3D,Maya等,生成人脸图像。其局限于需要进行预设,以及人脸图像的生成过程具有一定的复杂性。相同的,现有的专利“视频生成方法和装置”,CN 113282791 A亦是公开其音素与表情的对应关系是预设的。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提供了一种音频驱动人脸动画生成方法、装置、设备与介质,其具体技术方案如下:
一种音频驱动人脸动画生成方法,包括以下步骤:
步骤1,采集语音信号,提取MFCC特征,并输入音素识别器,获得语音的音素分类概率;
步骤2,将音素分类概率输入Embedding层,得到音素的Embedding编码;
步骤3,将音素的Embedding编码输入表情预测器,得到3D人脸的顶点位移;
步骤4,将3D人脸顶点位移,与自然表情的人脸模板相加,得到带说话表情的3D人脸;
步骤5,将连续时间内的3D人脸渲染为2D图像,生成动画视频。
进一步的,所述音素识别器,由5个堆叠的双向LSTM和一个全连接层串联组成,通过最小化CTC损失函数来优化网络参数,其中双向LSTM的输入大小为120,隐藏层的单元数为320,输出大小为640;全连接层输入大小为640,输出大小为230,全连接层的激活函数为softmax。
进一步的,所述音素识别器输出为一个长度为230的概率向量,分类包含1个空隔及229个国际音标,共230个类别,该229个国际音标覆盖全球超过2000种语言的发音。
进一步的,所述的Embedding层将音素分类概率编码为一个64维向量,构建音素之间的内在联系,并去除冗余信息。
进一步的,所述的表情预测器为一个编码器-解码器结构,其中编码器的网络结构为4个卷积层和2个全连接层进行串联,解码器的网络结构为一个全连接层。
进一步的,所述表情预测器的训练数据包含不同语言的语音数据及对应的3D人脸模型数据;训练过程中通过最小化损失函数来更新所述Embedding层及表情预测器的网络参数,所述的损失函数由三部分组成:顶点的距离损失
Figure 100002_DEST_PATH_IMAGE002
,人脸的68个landmark距离损失
Figure 100002_DEST_PATH_IMAGE004
以及人脸的68个landmark的时间连续性损失
Figure 100002_DEST_PATH_IMAGE006
, 表达式分别如下:
Figure 100002_DEST_PATH_IMAGE008
Figure 100002_DEST_PATH_IMAGE010
Figure 100002_DEST_PATH_IMAGE012
其中,N为3D人脸的顶点总数,
Figure 100002_DEST_PATH_IMAGE014
为第i个顶点的真实三维坐标,
Figure 100002_DEST_PATH_IMAGE016
为预测的顶点坐标,M=68为landmark的数量,
Figure 100002_DEST_PATH_IMAGE018
为第k个lanmark对应的第
Figure 100002_DEST_PATH_IMAGE020
个顶点的真实三维坐标,
Figure 100002_DEST_PATH_IMAGE022
预测的对应的顶点坐标,t表示当前帧,t-1表示前一帧;三者以权重
Figure 100002_DEST_PATH_IMAGE024
Figure 100002_DEST_PATH_IMAGE026
Figure 100002_DEST_PATH_IMAGE028
进行相加:
Figure 100002_DEST_PATH_IMAGE030
进一步的,所述人脸模板是与所述表情预测器输出具有相同顶点数和固定拓扑结构的任意形状的3D人脸。
一种音频驱动人脸动画生成装置,包括:
音频采集模块,用于采集语音信号;
人脸动画生成模块,用于根据输入的语音信号,提取MFCC特征,并输入音素识别器,获得语音的音素分类概率;将音素分类概率输入Embedding层,得到音素的Embedding编码;将音素的Embedding编码输入表情预测器,得到3D人脸的顶点位移;将3D人脸顶点位移,与自然表情的人脸模板相加,得到带说话表情的3D人脸序列;将3D人脸序列渲染为2D图像,生成动画视频;
动画显示模块,用于显示生成的动画视频。
一种电子设备,包括处理器和存储器,所述存储器用于存储程序指令,所述处理器用于执行存储器中存储的实现任一所述一种音频驱动人脸动画方法的步骤的计算机程序指令。
一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现任一所述一种音频驱动人脸动画方法的步骤。
本发明的优点:
1.本发明提出的跨语言的音频驱动人脸动画生成方法,能够识别全球超过2000种语言的发音,并根据发音驱动3D人脸动画,相比于以往的方式,本发明将发音和人脸表情直接关联,而非将更复杂的上层语言依赖特征与人脸表情进行关联,具有更强的泛化能力。
2.本发明仅需使用一个训练好的模型,就能为全球超过2000种不同语言进行3D动画配音,并保证嘴型与语音一致,能够大大降低动画制作成本,提高动画的观感。
3. 由于不同音素可能对应到同一嘴型,本发明使用的Embedding层能够有效的构建不同音素之间的内在联系,减少冗余信息,并有效提高网络的泛化能力。
附图说明
图1为本发明的音频驱动人脸动画生成方法的流程示意图;
图2为本发明的人脸的68个landmark位置示意图;
图3为本发明的音频驱动人脸动画生成系统的结构示意图;
图4为本发明的动画生成的效果示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
如图1所示,一种跨语言的音频驱动人脸动画生成方法,包括以下步骤:
步骤1,采集语音信号,提取MFCC特征,并输入音素识别器,获得语音的音素分类概率。
本实施例中,对采集的音频信号设置采样率为8000Hz,并设置滑窗大小为0.025s,滑窗步幅为0.01s,倒谱数为40,提取出MFCC特征,并将得到的MFCC特征每3个进行堆叠,得到的每一帧的MFCC特征的长度为120,随后输入音素识别器进行音素识别。
音素识别器输出为一个长度为230的概率向量,分类包含1个空白分类及229个国际音标IPA,共230个类别,其中的国际音标IPA分别为:I, a, aː, ã, ă, b, bʲ, bʲj, bʷ,bʼ, bː, b̞, b̤, b̥, c, d, dʒ, dʲ, dː, d̚, d̥, d̪, d̯, d͡z, d͡ʑ, d͡ʒ, d͡ʒː, d͡ʒ̤, e, eː, e̞, f, fʲ, fʷ, fː, g, gʲ, gʲj, gʷ, gː, h, hʷ, i, ij, iː, i̞, i̥, i̯, j, k, kx, kʰ, kʲ, kʲj, kʷ, kʷʼ, kʼ, kː, k̟ʲ, k̟̚, k͡p̚, l, lʲ, lː, l̪, m, mʲ, mʲj, mʷ, mː, n,nj, nʲ, nː, n̪, n̺, o, oː, o̞, o̥, p, pf, pʰ, pʲ, pʲj, pʷ, pʷʼ, pʼ, pː, p̚, q, r,rː, s, sʲ, sʼ, sː, s̪, t, ts, tsʰ, tɕ, tɕʰ, tʂ, tʂʰ, tʃ, tʰ, tʲ, tʷʼ, tʼ, tː, t̚, t̪, t̪ʰ, t̪̚, t͡s, t͡sʼ, t͡ɕ, t͡ɬ, t͡ʃ, t͡ʃʲ, t͡ʃʼ, t͡ʃː, u, uə, uː, u͡w, v, vʲ, vʷ, vː, v̞, v̞ʲ, w, x, x̟ʲ, y, z, zj, zʲ, z̪, ä, æ, ç, çj, ð, ø, ŋ, ŋ̟, ŋ͡m, œ, œ̃,ɐ, ɐ̞, ɑ, ɑ̱, ɒ, ɓ, ɔ, ɔ̃, ɕ, ɕː, ɖ̤, ɗ, ə, ɛ, ɛ̃, ɟ, ɡ, ɡʲ, ɡ̤, ɡ̥, ɣ, ɣj,ɤ, ɤɐ̞, ɤ̆, ɥ, ɦ, ɨ, ɪ, ɫ, ɯ, ɯ̟, ɯ̥, ɰ, ɱ, ɲ, ɳ, ɴ, ɵ, ɸ, ɹ, ɹ̩, ɻ, ɻ̩, ɽ, ɾ, ɾj, ɾʲ, ɾ̠, ʀ, ʁ, ʁ̝, ʂ, ʃ, ʃʲː, ʃ͡ɣ, ʈ, ʉ̞, ʊ, ʋ, ʋʲ, ʌ, ʎ, ʏ, ʐ,ʑ, ʒ, ʒ͡ɣ, ʔ, ʝ, ː, β, β̞, θ, χ, ә, ḁ,该229个音标能够覆盖全球超过2000种语言的发音。
如表2所示,音素识别器由5个堆叠的双向LSTM和一个全连接层串联组成,其中双向LSTM的输入大小为120,隐藏层的单元数为320,输出大小为640,全连接层输入大小为640,输出大小为230,激活函数为softmax。
可选地,音素识别器的训练使用如表1所示不同语言对应的数据集进行训练,并通过最小化CTC损失函数来优化网络参数。
表1 语言及数据集
Figure DEST_PATH_IMAGE031
步骤2,将音素分类概率输入Embedding层,得到音素的Embedding编码;
由于不同音素有可能对应到相同的嘴型,即不同的音素之间存在一定的相关性。因此,本发明使用一个Embedding层将音素分类概率编码为一个64维向量,它能够构建音素之间的内在联系,去除冗余信息,并起到降维的作用。
步骤3, 将音素的Embedding编码输入表情预测器,得到3D人脸的顶点位移;
本发明的表情预测器为一个编码器-解码器的结构。其中,编码器的网络结构为4个卷积层和2个全连接层进行串联。网络结构及网络参数如表2所示。编码器的输入为音素的Embedding,并对该输入以大小为16的滑窗在时序上进行堆叠,输出长度为50的向量。
解码器的结构为1个全连接层,输入长度为n_exp的向量,输出大小为n_verts×3的人脸模型顶点位移,n_verts为3D人脸的顶点数量。本实施例中,n_exp为50,n_verts为5023。可选的,根据使用的3D人脸拓扑网格的不同,顶点数不同,例如,BFM模型的人脸顶点数为53215, FLAME模型的人脸顶点数为5023。
表2 网络结构参数
Figure DEST_PATH_IMAGE033
如图2所示,本发明的表情预测器的训练数据包含不同语言的语音数据及对应的3D人脸模型数据;训练过程中通过最小化损失函数来更新所述Embedding层及表情预测器的网络参数,所述的损失函数由三部分组成:顶点的距离损失
Figure 188168DEST_PATH_IMAGE002
,人脸的68个landmark距离损失
Figure 557838DEST_PATH_IMAGE004
以及人脸的68个landmark的时间连续性损失
Figure 71996DEST_PATH_IMAGE006
, 表达式分别如下:
Figure 936047DEST_PATH_IMAGE008
Figure 219261DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE034
其中,N为3D人脸的顶点总数,
Figure 497183DEST_PATH_IMAGE014
为第i个顶点的真实三维坐标,
Figure 233058DEST_PATH_IMAGE016
为预测的顶点坐标,M=68为landmark的数量,
Figure 900799DEST_PATH_IMAGE018
为第k个lanmark对应的第
Figure 38520DEST_PATH_IMAGE020
个顶点的真实三维坐标,
Figure 15572DEST_PATH_IMAGE022
预测的对应的顶点坐标,t表示当前帧,t-1表示前一帧;三者以权重
Figure 238743DEST_PATH_IMAGE024
Figure 444596DEST_PATH_IMAGE026
Figure 436823DEST_PATH_IMAGE028
进行相加:
Figure 584776DEST_PATH_IMAGE030
本实施例设置
Figure 560823DEST_PATH_IMAGE024
=2、
Figure 304788DEST_PATH_IMAGE026
=1和
Figure 417100DEST_PATH_IMAGE028
=1。
步骤4, 将3D人脸顶点位移,与自然表情的人脸模板相加,得到带说话表情的3D人脸序列。
人脸模板可以是与所述表情预测器输出具有相同顶点数和固定拓扑结构的任意形状,如,不同胖瘦,老幼、男女等特征的3D人脸。
步骤5,将连续时间内的3D人脸渲染为2D图像,生成动画视频。
如图3所示,在上述实施例的基础上,为本发明实施例提供的一种语音驱动人脸动画生成装置,包括:
音频采集模块301,用于采集语音信号;
人脸动画生成模块302,用于根据输入的语音信号,提取MFCC特征,并输入音素识别器,获得语音的音素分类概率;将音素分类概率输入Embedding层,得到音素的Embedding编码;将音素的Embedding编码输入表情预测器,得到3D人脸的顶点位移;将3D人脸顶点位移,与自然表情的人脸模板相加,得到带说话表情的3D人脸序列;将3D人脸序列渲染为2D图像,生成动画视频;
动画显示模块303,用于显示生成的动画视频。
如图4所示为本发明的人脸动画显示模块输出的效果图。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种音频驱动人脸动画生成方法,其特征在于,包括以下步骤:
步骤1,采集语音信号,提取MFCC特征,并输入音素识别器,获得语音的音素分类概率;
步骤2,将音素分类概率输入Embedding层,得到音素的Embedding编码;所述的Embedding层将音素分类概率编码为一个64维向量,构建音素之间的内在联系,并去除冗余信息;
步骤3,将音素的Embedding编码输入表情预测器,得到3D人脸的顶点位移;所述的表情预测器为一个编码器-解码器结构,其中编码器的网络结构为4个卷积层和2个全连接层进行串联,解码器的网络结构为一个全连接层;
步骤4,将3D人脸顶点位移,与自然表情的人脸模板相加,得到带说话表情的3D人脸;
步骤5,将连续时间内的3D人脸渲染为2D图像,生成动画视频;
所述音素识别器,由5个堆叠的双向LSTM和一个全连接层串联组成,通过最小化CTC损失函数来优化网络参数,其中双向LSTM的输入大小为120,隐藏层的单元数为320,输出大小为640;全连接层输入大小为640,输出大小为230,全连接层的激活函数为softmax;
所述音素识别器输出为一个长度为230的概率向量,分类包含1个空隔及229个国际音标,共230个类别,该229个国际音标覆盖全球超过2000种语言的发音。
2.如权利要求1 所述的一种音频驱动人脸动画生成方法,其特征在于,所述表情预测器的训练数据包含不同语言的语音数据及对应的3D人脸模型数据;训练过程中通过最小化损失函数来更新所述Embedding层及表情预测器的网络参数,所述的损失函数由三部分组成:顶点的距离损失
Figure DEST_PATH_IMAGE002
,人脸的68个landmark距离损失
Figure DEST_PATH_IMAGE004
以及人脸的68个landmark的时间连续性损失
Figure DEST_PATH_IMAGE006
,表达式分别如下:
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE012
其中,N为3D人脸的顶点总数,
Figure DEST_PATH_IMAGE014
为第i个顶点的真实三维坐标,
Figure DEST_PATH_IMAGE016
为预测的顶点坐标,M=68为landmark的数量,
Figure DEST_PATH_IMAGE018
为第k个lanmark对应的第
Figure DEST_PATH_IMAGE020
个顶点的真实三维坐标,
Figure DEST_PATH_IMAGE022
预测的对应的顶点坐标,t表示当前帧,t-1表示前一帧;三者以权重
Figure DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE028
进行相加:
Figure DEST_PATH_IMAGE030
3.如权利要求1所述的一种音频驱动人脸动画生成方法,其特征在于,所述人脸模板是与所述表情预测器输出具有相同顶点数和固定拓扑结构的任意形状的3D人脸。
4.一种音频驱动人脸动画生成装置,其特征在于,包括:
音频采集模块,用于采集语音信号;
人脸动画生成模块,用于根据输入的语音信号,提取MFCC特征,并输入音素识别器,获得语音的音素分类概率;将音素分类概率输入Embedding层,得到音素的Embedding编码;将音素的Embedding编码输入表情预测器,得到3D人脸的顶点位移;将3D人脸顶点位移,与自然表情的人脸模板相加,得到带说话表情的3D人脸序列;将3D人脸序列渲染为2D图像,生成动画视频;
其中,所述的Embedding层将音素分类概率编码为一个64维向量,构建音素之间的内在联系,并去除冗余信息;
所述的表情预测器为一个编码器-解码器结构,其中编码器的网络结构为4个卷积层和2个全连接层进行串联,解码器的网络结构为一个全连接层;
所述音素识别器,由5个堆叠的双向LSTM和一个全连接层串联组成,通过最小化CTC损失函数来优化网络参数,其中双向LSTM的输入大小为120,隐藏层的单元数为320,输出大小为640;全连接层输入大小为640,输出大小为230,全连接层的激活函数为softmax;
所述音素识别器输出为一个长度为230的概率向量,分类包含1个空隔及229个国际音标,共230个类别,该229个国际音标覆盖全球超过2000种语言的发音;
动画显示模块,用于显示生成的动画视频。
5.一种电子设备,其特征在于,包括处理器和存储器,所述存储器用于存储程序指令,所述处理器用于执行存储器中存储的实现如权利要求1-3中任一所述一种音频驱动人脸动画生成 方法的步骤的计算机程序指令。
6.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-3中任一所述一种音频驱动人脸动画生成 方法的步骤。
CN202111412881.4A 2021-11-25 2021-11-25 一种音频驱动人脸动画生成方法、装置、设备与介质 Active CN113838174B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111412881.4A CN113838174B (zh) 2021-11-25 2021-11-25 一种音频驱动人脸动画生成方法、装置、设备与介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111412881.4A CN113838174B (zh) 2021-11-25 2021-11-25 一种音频驱动人脸动画生成方法、装置、设备与介质

Publications (2)

Publication Number Publication Date
CN113838174A CN113838174A (zh) 2021-12-24
CN113838174B true CN113838174B (zh) 2022-06-10

Family

ID=78971394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111412881.4A Active CN113838174B (zh) 2021-11-25 2021-11-25 一种音频驱动人脸动画生成方法、装置、设备与介质

Country Status (1)

Country Link
CN (1) CN113838174B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581570B (zh) * 2022-03-01 2024-01-26 浙江同花顺智能科技有限公司 一种三维脸部动作生成方法和系统
CN115311731B (zh) * 2022-10-10 2023-01-31 之江实验室 一种手语数字人的表情生成方法和装置
CN115330912B (zh) * 2022-10-12 2023-03-24 中国科学技术大学 基于音频和图像驱动的用于生成人脸说话视频的训练方法
CN116188649B (zh) * 2023-04-27 2023-10-13 科大讯飞股份有限公司 基于语音的三维人脸模型驱动方法及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108831463A (zh) * 2018-06-28 2018-11-16 广州华多网络科技有限公司 唇语合成方法、装置、电子设备及存储介质
CN110880315A (zh) * 2019-10-17 2020-03-13 深圳市声希科技有限公司 一种基于音素后验概率的个性化语音和视频生成系统
CN111508064A (zh) * 2020-04-14 2020-08-07 北京世纪好未来教育科技有限公司 基于音素驱动的表情合成方法、装置和计算机存储介质
CN111724458A (zh) * 2020-05-09 2020-09-29 天津大学 一种语音驱动的三维人脸动画生成方法及网络结构

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393832B (zh) * 2021-06-03 2023-10-10 清华大学深圳国际研究生院 一种基于全局情感编码的虚拟人动画合成方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108831463A (zh) * 2018-06-28 2018-11-16 广州华多网络科技有限公司 唇语合成方法、装置、电子设备及存储介质
CN110880315A (zh) * 2019-10-17 2020-03-13 深圳市声希科技有限公司 一种基于音素后验概率的个性化语音和视频生成系统
CN111508064A (zh) * 2020-04-14 2020-08-07 北京世纪好未来教育科技有限公司 基于音素驱动的表情合成方法、装置和计算机存储介质
CN111724458A (zh) * 2020-05-09 2020-09-29 天津大学 一种语音驱动的三维人脸动画生成方法及网络结构

Also Published As

Publication number Publication date
CN113838174A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
CN113838174B (zh) 一种音频驱动人脸动画生成方法、装置、设备与介质
CN111325817B (zh) 一种虚拟人物场景视频的生成方法、终端设备及介质
Hong et al. Real-time speech-driven face animation with expressions using neural networks
US9082400B2 (en) Video generation based on text
CN112184858B (zh) 基于文本的虚拟对象动画生成方法及装置、存储介质、终端
CN110751708B (zh) 一种实时的语音驱动人脸动画的方法和系统
US8224652B2 (en) Speech and text driven HMM-based body animation synthesis
CN113378806B (zh) 一种融合情感编码的音频驱动人脸动画生成方法及系统
CN112562722A (zh) 基于语义的音频驱动数字人生成方法及系统
CN112614212B (zh) 联合语气词特征的视音频驱动人脸动画实现方法及系统
CN110880315A (zh) 一种基于音素后验概率的个性化语音和视频生成系统
CN112581569B (zh) 自适应情感表达的说话人面部动画生成方法及电子装置
JP2014519082A5 (zh)
JP7299572B2 (ja) 音声信号により駆動される顔アニメーションの生成方法
CN112151030B (zh) 一种基于多模态的复杂场景语音识别方法和装置
CN111243065B (zh) 一种语音信号驱动的脸部动画生成方法
CN115330911A (zh) 一种利用音频驱动拟态表情的方法与系统
CN116051692B (zh) 一种基于语音驱动的三维数字人脸部动画生成方法
CN111354246A (zh) 一种用于帮助聋哑人交流的系统及方法
CN116597857A (zh) 一种语音驱动图像的方法、系统、装置及存储介质
Wang et al. Wavenet with cross-attention for audiovisual speech recognition
CN116828129B (zh) 一种超清2d数字人生成方法及系统
Liu et al. Real-time speech-driven animation of expressive talking faces
Li et al. A novel speech-driven lip-sync model with CNN and LSTM
CN114360491A (zh) 语音合成方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant