CN115187705A - 一种语音驱动人脸关键点序列生成方法及装置 - Google Patents

一种语音驱动人脸关键点序列生成方法及装置 Download PDF

Info

Publication number
CN115187705A
CN115187705A CN202211108862.7A CN202211108862A CN115187705A CN 115187705 A CN115187705 A CN 115187705A CN 202211108862 A CN202211108862 A CN 202211108862A CN 115187705 A CN115187705 A CN 115187705A
Authority
CN
China
Prior art keywords
model
voice
key point
module
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211108862.7A
Other languages
English (en)
Other versions
CN115187705B (zh
Inventor
李融
梁森
陈奕铮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202211108862.7A priority Critical patent/CN115187705B/zh
Publication of CN115187705A publication Critical patent/CN115187705A/zh
Application granted granted Critical
Publication of CN115187705B publication Critical patent/CN115187705B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种语音驱动人脸关键点序列生成方法及装置,该方法首先构建一个用于训练的数据集和一个基于标准流模型的语音驱动人脸关键点序列生成模型,该模型将随机采样的高斯噪声作为输入,并将语音序列作为条件输入多个标准流模块中,其中每个模块通过条件时空卷积神经网络将语音序列融合进行融合,最后输出人脸关键点序列;其次,构建损失函数进行模型训练直至收敛,得到最佳模型参数的训练模型;最后利用训练好的模型进行模型推断,对任意输入的语音生成说话人表情关键点序列。本发明通过该方法能够生成高质量且动作自然的人脸关键点序列,解决计算机动画和虚拟人领域,基于语音驱动人脸关键点序列缺少多样性问题。

Description

一种语音驱动人脸关键点序列生成方法及装置
技术领域
本发明涉及计算机动画和虚拟现实领域,尤其是涉及了一种语音驱动人脸关键点序列生成方法及装置。
背景技术
在计算机动画和虚拟人领域,基于语音驱动虚拟人说话是一个重要的研究方向。该技术可以生成虚拟人说话序列,并同时使得虚拟人的嘴部动作、头部转动和表情能够与语音保持同步,其在影视制作、虚拟现实、游戏角色动画等众多领域有着广泛的引用需求。现阶段的数据驱动的说话人生成技术主要是基于回归的判别模型,即直接将语音信号映射到嘴唇同步人脸序列,该过程是基于监督学习,导致其在实际的模型训练过程中容易回归到一个平均脸,而且无法生成的具有多样性的说话人脸序列。
因此,模型训练过程生成的具有多样性的说话人脸序列仍旧是需要攻克的技术难点。
发明内容
针对现有技术的不足,本发明提供了一种语音驱动人脸关键点序列生成方法及装置,该方法通过开源的人脸关键点检测方法构建其对应的人脸关键点序列数据集,并构建和训练基于标准流模型的语音驱动人脸关键点序列模型,将任意输入的语音序列和随机采样高斯噪声一起输入训练好的最佳参数模型中进行模型推断,生成其语音驱动人脸关键点序列。
本发明是通过以下技术方案来实现的,所述一种基于标准流模型的语音驱动人脸关键点序列生成方法,该方法包括如下步骤:
(1)数据集构建:通过摄像机拍摄大量的人脸说话视频数据,保存其语音数据,并通过开源的人脸关键点检测方法得到其对应的人脸关键点序列数据集;
(2)构建模型:所述模型为一个四层的加权多尺度框架;每层有K个标准流模块;每 个标准流模型模块都包含条件时空卷积神经网络模块,用于融合语音数据;具体为,每通过 K个模块输出一半的隐变量数据,最后把所有的隐变量数据合并一起便之趋近于高斯分布; 即在每层最后一个标准流模块中输出后一半的值,其前一半值将继续进行下一层的计算, 且每一层输出的值便是模型最终的输出值,通过不断迭代优化损失函数项,使这些值服从 于具有不同方差的高斯分布;且所述K
Figure 629498DEST_PATH_IMAGE001
1;
(3)模型训练:利用步骤(1)中得到的人脸关键点序列数据集训练步骤(2)中构建的模型,具体为,将人脸关键点序列作为输入,语音序列作为条件输入,输出噪声值,通过不断迭代优化损失函数项,训练模型直至其收敛,得到最佳参数模型;所述损失函数约束该输出的噪声趋近高斯正态分布;
(4)模型推断:利用将任意的语音序列和随机采样的高斯噪声输入至步骤(3)得到的最佳参数模型,得到输出的语言驱动人脸关键点序列。
进一步地,所述步骤(2)中K的数量由用户自定义设置。
进一步地,所述步骤(2)中的标准流模型模块具体为:
该模块的输入是上一层标准流模块的输出,第一层将人脸关键点序列landmarks (x)作为输入,依次经过标准化网络层、1x1可逆卷积层以及条件时空卷积神经网络模块,将 人脸关键点序列的数据流
Figure 343376DEST_PATH_IMAGE002
基于d值分为两部分输出x1:d和xd:D,所述d为x长度的一半,即d = D/2;所述条件时空卷积神经网络模块用以融合语音输入信息,最后将条件时空卷积神经 网络模块输出的缩放和平移参数,将这两个参数x1:d和xd:D通过一个仿射对偶层,将数据流x 分为两部分输出
Figure 529638DEST_PATH_IMAGE003
Figure 596951DEST_PATH_IMAGE004
,在每层的最后一个标准流模块中,其输出的后一半值
Figure 208061DEST_PATH_IMAGE004
将会 作为一部分最终输出值;其数学表达式如下:
Figure 428259DEST_PATH_IMAGE005
进一步地,所述步骤(2)中的条件时空卷积神经网络模块具体为:
将是语音数据和标准流模块的仿射对偶层的前一半数据在时序方向进行融合,然后通过四层一维空洞卷积输出,其每层空洞卷积的空洞参数值分别为1,2,4和8,卷积核的大小为3。
进一步地,所述步骤(2)中的条件时空卷积神经网络模块采用的是因果卷积操作;避免卷积操作时引入未来的信息。
进一步地,所述步骤(4)中随机采样的高斯噪声的不同,生成的人脸关键点序列也将具有不同头部姿态,即生成多种语音驱动的人脸关键点序列。
一种基于标准流模型的语音驱动人脸关键点序列生成装置,包括:
构建数据集模块:通过摄像机拍摄大量的人脸说话视频数据,保存其语音数据,并通过开源的人脸关键点检测方法得到其对应的人脸关键点序列数据集;
构建模型模块:所述模型为一个四层的加权多尺度框架;每层有K个标准流模块; 每个标准流模型模块都包含条件时空卷积神经网络模块,用于融合语音数据;具体为,每通 过K个模块输出一半的隐变量数据,最后把所有的隐变量数据合并一起便之趋近于高斯分 布;即在每层最后一个标准流模块中输出后一半的值,其前一半值将继续进行下一层的计 算,且每一层输出的值便是模型最终的输出值,通过不断迭代优化损失函数项,使这些值服 从于具有不同方差的高斯分布;且所述K
Figure 367396DEST_PATH_IMAGE001
1;
模型训练模块:利用构建数据集模块中得到的人脸关键点序列数据集训练构建模型模块中构建的模型,具体为,将人脸关键点序列作为输入,语音序列作为条件输入,输出噪声值,通过不断迭代优化损失函数项,训练模型直至其收敛,得到最佳参数模型;所述损失函数约束该输出的噪声趋近高斯正态分布;
模型推断模块:利用将任意的语音序列和随机采样的高斯噪声输入至模型训练模块得到的最佳参数模型,得到输出的语言驱动人脸关键点序列。
本发明有益效果如下:
将标准流模型引入说话人脸序列生成问题中,将语音到人脸说话序列的映射变成了生成式问题,利用生成模型的优势,能够解决回归模型的局限性,且能够多样性生成说话人序列。本发明基于标准流模型,提出了一种加权多尺度框架,并且设计了一种条件时空卷积神经网络模块用于对语音进行时序建模以作为条件输入标准流模型中。大量实验表明,本发明能够生成高质量且动作自然的人脸说话序列。
附图说明
图1是本发明的模型框架图;
图2是本发明的测试生成结果图;
图3是本发明的装置流程图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
如图1和图3所示,一种基于标准流模型的语音驱动人脸关键点序列生成装置,包括:
构建数据集模块:通过摄像机拍摄大量的人脸说话视频数据,保存其语音数据,并通过开源的人脸关键点检测方法得到其对应的人脸关键点序列数据集;
构建模型模块:所述模型为一个四层的加权多尺度框架;每层有K个标准流模块; 每个标准流模型模块都包含条件时空卷积神经网络模块,用于融合语音数据;具体为,每通 过K个模块输出一半的隐变量数据,最后把所有的隐变量数据合并一起便之趋近于高斯分 布;即在每层最后一个标准流模块中输出后一半的值,其前一半值将继续进行下一层的计 算,且每一层输出的值便是模型最终的输出值,通过不断迭代优化损失函数项,使这些值服 从于具有不同方差的高斯分布;且所述K
Figure 97455DEST_PATH_IMAGE001
1;
模型训练模块:利用构建数据集模块中得到的人脸关键点序列数据集训练构建模型模块中构建的模型,具体为,将人脸关键点序列作为输入,语音序列作为条件输入,输出噪声值,通过不断迭代优化损失函数项,训练模型直至其收敛,得到最佳参数模型;所述损失函数约束该输出的噪声趋近高斯正态分布;
模型推断模块:利用将任意的语音序列和随机采样的高斯噪声输入至模型训练模块得到的最佳参数模型,得到输出的语言驱动人脸关键点序列。
一种基于标准流模型的语音驱动人脸关键点序列生成方法,包含如下步骤:
S1,数据集构建。通过摄像机拍摄大量的人脸说话视频数据,保存其语音数据,并通过开源的人脸关键点检测方法得到其对应的人脸关键点序列数据集;
构建模型时,如图1中所述的模型为一个包含四层标准流模块的加权多尺度框架, 首先给一段时间长度为T的语音序列
Figure 438437DEST_PATH_IMAGE006
以及其对应的人脸表情关键点序列
Figure 103905DEST_PATH_IMAGE007
,本发明是将其语音序列作条件输入模型中以生成人脸表情关键点序 列。首先将人脸表情关键点序列输入模型中,然后通过多个标准流模块,每个模块通过条件 时空卷积神经网络模块(ConditionalTCN)将语音数据融合到主干网络中,其中每通过K个 模块输出一半的隐变量数据,最后把所有的隐变量数据合并一起便之趋近于高斯分布。由 于标准流模型具有可逆性,因此在推断时,输入随机采样的高斯噪声,便可以生成以语音为 条件输入的对应人脸表情关键点序列。具体而言,所述模型主要有三个部分:
S1.1,加权多尺度框架。如图1所示,将人脸关键点序列x(即面部标记点TalkingFacial landmarks(x))输入具有4层的多尺度的标准流模型,其中每层包含k个融合了语音数据的标准流模块,然后在每层最后一个模块中输出其一半的隐变量Z(x),即一半的值,最后将这些隐变量合并使其趋近于不同方差的高斯分布,即在每层最后一个标准流模块中输出后一半的值,其前一半值将继续进行下一层的计算,且每一层输出的值便是模型最终的输出值,通过不断迭代优化损失函数项,使这些值服从于具有不同方差的高斯分布;且所述k的数量由用户自定义。
S1.2,标准流模型模块。如图1所示,该模块的输入为上一层标准流模块的输出,即 第一层将landmarks(x)作为输入,依次经过标准化网络层(Actnorm)、1x1可逆卷积层 (Inverse1x1Conv),以及条件时空卷积神经网络模块(ConditionalTCN),将数据流x基于d 值(d为x长度的一半,即d = D/2,)分为两部分输出x1:d和xd:D;所述条件时空卷积神经网络 模块用以融合语音输入信息,最后将条件时空卷积神经网络模块输出的缩放和平移参数, 将这两个参数、x1:d和xd:D通过一个仿射对偶层(Affine Couple Layer),将数据流x分为两 部分输出
Figure 389393DEST_PATH_IMAGE008
Figure 798508DEST_PATH_IMAGE009
,在每层的最后一个标准流模块中,其输出的后一半值
Figure 993998DEST_PATH_IMAGE009
将会作为一 部分最终输出值;其数学表达式如下:
Figure 955000DEST_PATH_IMAGE010
S1.3,条件时空卷积神经网络模块。如图1所示,该模块的输入是语音数据,以及标准流模块的前一半数据x1:d,两者在时序方向进行融合,将和语音c的信息输入条件时空卷积神经网络模块中,通过四层一维空洞卷积输出,得到后续仿射对偶层的缩放和平移两个参数;其每层空洞卷积的空洞参数值分别为1,2,4和8,卷积核的大小为3。
所述条件时空卷积神经网络模块采用的是因果卷积操作;避免卷积操作时引入未来的信息。
S2,训练模型。采集大量的说话人音视频同步数据,提取音频的MFCC特征,以及视频每帧的人脸关键点坐标,构建模型并训练模型直至收敛,得到最佳参数模型。图2是模型的测试生成结果图,分别展示了输入三个音频后经过算法得到的不同人脸关键点序列,其中t代表在该序列内不同时间上的取值。
S3,模型推断。利用将任意的语音序列和随机采样的高斯噪声输入至S2中训练好的最佳参数模型,对任意输入语音生成说话人表情关键点序列,即语言驱动人脸关键点序列。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (7)

1.一种语音驱动人脸关键点序列生成方法,其特征在于,包括如下步骤:
(1)数据集构建:通过摄像机拍摄大量的人脸说话视频数据,保存其语音数据,并通过开源的人脸关键点检测方法得到其对应的人脸关键点序列数据集;
(2)构建模型:所述模型为一个四层的加权多尺度框架;每层有K个标准流模块;每个标 准流模型模块都包含条件时空卷积神经网络模块,用于融合语音数据;具体为,每通过K个 模块输出一半的隐变量数据,最后把所有的隐变量数据合并一起便之趋近于高斯分布;即 在每层最后一个标准流模块中输出后一半的值,其前一半值将继续进行下一层的计算,且 每一层输出的值便是模型最终的输出值,通过不断迭代优化损失函数项,使这些值服从于 具有不同方差的高斯分布;且所述K
Figure 348893DEST_PATH_IMAGE001
1;
(3)模型训练:利用步骤(1)中得到的人脸关键点序列数据集训练步骤(2)中构建的模型,具体为,将人脸关键点序列作为输入,语音序列作为条件输入,输出噪声值,通过不断迭代优化损失函数项,训练模型直至其收敛,得到最佳参数模型;所述损失函数约束该输出的噪声趋近高斯正态分布;
(4)模型推断:利用将任意的语音序列和随机采样的高斯噪声输入至步骤(3)得到的最佳参数模型,得到输出的语言驱动人脸关键点序列。
2.根据权利要求1所述的一种语音驱动人脸关键点序列生成方法,其特征在于,所述步骤(2)中K的数量由用户自定义设置。
3.根据权利要求1所述的一种语音驱动人脸关键点序列生成方法,其特征在于,所述步骤(2)中的标准流模型模块,具体为:
该模块的输入是上一层标准流模块的输出,第一层将人脸关键点序列landmarks(x)作 为输入,依次经过标准化网络层、1x1可逆卷积层以及条件时空卷积神经网络模块,将人脸 关键点序列的数据流
Figure 287332DEST_PATH_IMAGE002
基于d值分为两部分输出x1:d和xd:D,所述d为x长度的一半,即d = D/ 2;所述条件时空卷积神经网络模块用以融合语音输入信息,最后将条件时空卷积神经网络 模块输出的缩放和平移参数,将这两个参数x1:d和xd:D通过一个仿射对偶层,将数据流x分为 两部分输出
Figure 727540DEST_PATH_IMAGE003
Figure 469231DEST_PATH_IMAGE004
,在每层的最后一个标准流模块中,其输出的后一半值
Figure 870257DEST_PATH_IMAGE004
将会作为 一部分最终输出值;其数学表达式如下:
Figure 886754DEST_PATH_IMAGE005
4.根据权利要求1所述的一种语音驱动人脸关键点序列生成方法,其特征在于,所述步骤(2)中的条件时空卷积神经网络模块,具体为:
将是语音数据和标准流模块的仿射对偶层的前一半数据在时序方向进行融合,然后通过四层一维空洞卷积输出,其每层空洞卷积的空洞参数值分别为1,2,4和8,卷积核的大小为3。
5.根据权利要求1所述的一种语音驱动人脸关键点序列生成方法,其特征在于,所述步骤(2)中的条件时空卷积神经网络模块采用的是因果卷积操作;避免卷积操作时引入未来的信息。
6.根据权利要求1所述的一种语音驱动人脸关键点序列生成方法,其特征在于,所述步骤(4)中随机采样的高斯噪声的不同,生成的人脸关键点序列也将具有不同头部姿态,即生成多种语音驱动的人脸关键点序列。
7.一种语音驱动人脸关键点序列生成装置,其特征在于,包括:
构建数据集模块:通过摄像机拍摄大量的人脸说话视频数据,保存其语音数据,并通过开源的人脸关键点检测方法得到其对应的人脸关键点序列数据集;
构建模型模块:所述模型为一个四层的加权多尺度框架;每层有K个标准流模块;每个 标准流模型模块都包含条件时空卷积神经网络模块,用于融合语音数据;具体为,每通过K 个模块输出一半的隐变量数据,最后把所有的隐变量数据合并一起便之趋近于高斯分布; 即在每层最后一个标准流模块中输出后一半的值,其前一半值将继续进行下一层的计算, 且每一层输出的值便是模型最终的输出值,通过不断迭代优化损失函数项,使这些值服从 于具有不同方差的高斯分布;且所述K
Figure 181469DEST_PATH_IMAGE001
1;
模型训练模块:利用构建数据集模块中得到的人脸关键点序列数据集训练构建模型模块中构建的模型,具体为,将人脸关键点序列作为输入,语音序列作为条件输入,输出噪声值,通过不断迭代优化损失函数项,训练模型直至其收敛,得到最佳参数模型;所述损失函数约束该输出的噪声趋近高斯正态分布;
模型推断模块:利用将任意的语音序列和随机采样的高斯噪声输入至模型训练模块得到的最佳参数模型,得到输出的语言驱动人脸关键点序列。
CN202211108862.7A 2022-09-13 2022-09-13 一种语音驱动人脸关键点序列生成方法及装置 Active CN115187705B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211108862.7A CN115187705B (zh) 2022-09-13 2022-09-13 一种语音驱动人脸关键点序列生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211108862.7A CN115187705B (zh) 2022-09-13 2022-09-13 一种语音驱动人脸关键点序列生成方法及装置

Publications (2)

Publication Number Publication Date
CN115187705A true CN115187705A (zh) 2022-10-14
CN115187705B CN115187705B (zh) 2023-01-24

Family

ID=83524645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211108862.7A Active CN115187705B (zh) 2022-09-13 2022-09-13 一种语音驱动人脸关键点序列生成方法及装置

Country Status (1)

Country Link
CN (1) CN115187705B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117456063A (zh) * 2023-12-22 2024-01-26 四川封面传媒科技有限责任公司 基于语音的人脸驱动方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170300741A1 (en) * 2016-04-14 2017-10-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Determining facial parameters
CN110619676A (zh) * 2019-09-18 2019-12-27 东北大学 一种基于神经网络的端到端的三维人脸重建方法
CN110956691A (zh) * 2019-11-21 2020-04-03 Oppo广东移动通信有限公司 一种三维人脸重建方法、装置、设备及存储介质
CN112115291A (zh) * 2020-08-12 2020-12-22 南京止善智能科技研究院有限公司 一种基于深度学习的三维室内模型检索方法
CN112580515A (zh) * 2020-12-21 2021-03-30 浙江大学 一种基于高斯热图回归的轻量级人脸关键点检测方法
CN113194348A (zh) * 2021-04-22 2021-07-30 清华珠三角研究院 一种虚拟人讲课视频生成方法、系统、装置及存储介质
CN113378697A (zh) * 2021-06-08 2021-09-10 安徽大学 一种基于卷积神经网络的说话人脸视频生成方法及装置
US20210406525A1 (en) * 2019-06-03 2021-12-30 Tencent Technology (Shenzhen) Company Limited Facial expression recognition method and apparatus, electronic device and storage medium

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170300741A1 (en) * 2016-04-14 2017-10-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Determining facial parameters
US20210406525A1 (en) * 2019-06-03 2021-12-30 Tencent Technology (Shenzhen) Company Limited Facial expression recognition method and apparatus, electronic device and storage medium
CN110619676A (zh) * 2019-09-18 2019-12-27 东北大学 一种基于神经网络的端到端的三维人脸重建方法
CN110956691A (zh) * 2019-11-21 2020-04-03 Oppo广东移动通信有限公司 一种三维人脸重建方法、装置、设备及存储介质
CN112115291A (zh) * 2020-08-12 2020-12-22 南京止善智能科技研究院有限公司 一种基于深度学习的三维室内模型检索方法
CN112580515A (zh) * 2020-12-21 2021-03-30 浙江大学 一种基于高斯热图回归的轻量级人脸关键点检测方法
CN113194348A (zh) * 2021-04-22 2021-07-30 清华珠三角研究院 一种虚拟人讲课视频生成方法、系统、装置及存储介质
CN113378697A (zh) * 2021-06-08 2021-09-10 安徽大学 一种基于卷积神经网络的说话人脸视频生成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KUNIAKI NODA 等: "Audio-visual speech recognition using deep learning", 《SPRINGER LINK》 *
年福东 等: "基于关键点表示的语音驱动说话人脸视频生成", 《模式识别与人工智能》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117456063A (zh) * 2023-12-22 2024-01-26 四川封面传媒科技有限责任公司 基于语音的人脸驱动方法、装置、电子设备及存储介质
CN117456063B (zh) * 2023-12-22 2024-04-16 四川封面传媒科技有限责任公司 基于语音的人脸驱动方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN115187705B (zh) 2023-01-24

Similar Documents

Publication Publication Date Title
CN112348075B (zh) 一种基于情景注意力神经网络的多模态情感识别方法
CN112184858B (zh) 基于文本的虚拟对象动画生成方法及装置、存储介质、终端
Cao et al. Expressive speech-driven facial animation
Tian et al. Audio2face: Generating speech/face animation from single audio with attention-based bidirectional lstm networks
Vougioukas et al. Video-driven speech reconstruction using generative adversarial networks
CN110610534B (zh) 基于Actor-Critic算法的口型动画自动生成方法
CN110880315A (zh) 一种基于音素后验概率的个性化语音和视频生成系统
CN107247750A (zh) 人工智能交互方法及系统
CN112184859B (zh) 端到端的虚拟对象动画生成方法及装置、存储介质、终端
Sheng et al. Deep learning for visual speech analysis: A survey
US20220101121A1 (en) Latent-variable generative model with a noise contrastive prior
CN112581569A (zh) 自适应情感表达的说话人面部动画生成方法及电子装置
CN115187705B (zh) 一种语音驱动人脸关键点序列生成方法及装置
Qi et al. Emotiongesture: Audio-driven diverse emotional co-speech 3d gesture generation
Fan et al. Joint audio-text model for expressive speech-driven 3d facial animation
CN113470170A (zh) 一种利用语音信息的实时视频人脸区域时空一致合成方法
CN113423005B (zh) 一种基于改进神经网络的智能音乐生成方法及系统
Xu et al. Chain of generation: Multi-modal gesture synthesis via cascaded conditional control
CN112562045B (zh) 生成模型和生成3d动画的方法、装置、设备和存储介质
CN112634413A (zh) 生成模型和生成3d动画的方法、装置、设备和存储介质
Su et al. An improved multimodal dimension emotion recognition based on different fusion methods
Zhao et al. Generating diverse gestures from speech using memory networks as dynamic dictionaries
Zhang et al. Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model
Zhao et al. A real-time speech driven talking avatar based on deep neural network
Christoff et al. Audio-Driven 3D Talking Face for Realistic Holographic Mixed-Reality Telepresence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant