CN116051692A - 一种基于语音驱动的三维数字人脸部动画生成方法 - Google Patents

一种基于语音驱动的三维数字人脸部动画生成方法 Download PDF

Info

Publication number
CN116051692A
CN116051692A CN202310342435.3A CN202310342435A CN116051692A CN 116051692 A CN116051692 A CN 116051692A CN 202310342435 A CN202310342435 A CN 202310342435A CN 116051692 A CN116051692 A CN 116051692A
Authority
CN
China
Prior art keywords
audio
animation
mouth
voice
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310342435.3A
Other languages
English (en)
Other versions
CN116051692B (zh
Inventor
陈尧森
周川力
温序铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sobey Digital Technology Co Ltd
Original Assignee
Chengdu Sobey Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sobey Digital Technology Co Ltd filed Critical Chengdu Sobey Digital Technology Co Ltd
Priority to CN202310342435.3A priority Critical patent/CN116051692B/zh
Publication of CN116051692A publication Critical patent/CN116051692A/zh
Application granted granted Critical
Publication of CN116051692B publication Critical patent/CN116051692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提供一种基于语音驱动的三维数字人脸部动画生成方法,包括:采集语音驱动数据集;所述语音驱动数据集包括具有音频特征的音频数据和对应的嘴型变形动画;利用语音驱动数据集对深度学习网络模型进行若干轮数语音驱动训练,训练完成后得到语音驱动模型;获取目标人物音频并处理为具有音频特征的音频数据,将该具有音频特征的音频数据输入语音驱动模型进行回归预测,得到嘴部动画数据;制作面部动画数据和表情动画数据;将嘴部动画数据同面部动画数据和表情动画数据融合,渲染得到表情自然的三维数字人语音驱动动画。本发明通过构建的语音驱动数据集来训练搭建好的深度学习网络网络模型,能够实现三维数字人语音驱动的自然且逼真呈现。

Description

一种基于语音驱动的三维数字人脸部动画生成方法
技术领域
本发明涉及人工智能技术领域,具体而言,涉及一种基于语音驱动的三维数字人脸部动画生成方法。
背景技术
数字人语音驱动技术是近年来快速发展的领域,它结合了数字人技术和语音驱动技术的优势,为直播、新闻播报等领域带来了广阔的应用前景。
在语音驱动技术方面,已有的技术包括传统的基于语言学的模型或基于神经网络的模型实现,虽然这些技术已经取得了一定的进展,但仍然存在一些挑战,例如:基于语言学的模型的方法是将音频进行音素划分,然后驱动音素所对应的口型,这种方法语音驱动的效果不够自然,也不具有学习的能力,同时由于每个语种的音素是完全不同的,需要人工事先制作对应语言音素的口型。基于神经网络的模型是通过音频直接生成数字人脸模型的顶点坐标,这种方法的成本极高,需要专业演员和高精度设备进行数据采集工作,且数字人语音驱动泛化能力差。因此如何高效且低成本的语音驱动数字人成为一个亟待解决的问题。
发明内容
本发明旨在提供一种基于语音驱动的三维数字人脸部动画生成方法,以解决目前语音驱动成本高昂、口型驱动效果不理想等问题。
本发明提供的一种基于语音驱动的三维数字人脸部动画生成方法,包括如下步骤:
S1,采集语音驱动数据集;所述语音驱动数据集包括具有音频特征的音频数据和对应的嘴型变形动画;
S2,利用语音驱动数据集对深度学习网络模型进行若干轮数语音驱动训练,训练完成后得到语音驱动模型;
S3,获取目标人物音频并处理为具有音频特征的音频数据,将该具有音频特征的音频数据输入语音驱动模型进行回归预测,得到嘴部动画数据;
S4,制作面部动画数据和表情动画数据;
S5,将嘴部动画数据同面部动画数据和表情动画数据融合,渲染得到表情自然的三维数字人语音驱动动画。
进一步地,步骤S1包括如下子步骤:
S11,录制目标人物在特定姿态状态下的音视频;所述音视频包括音频和对应的嘴部运动视频;
S12,对目标人物的音频使用线性预测编码(LPC)构建具有音频特征的音频数据;
S13,对目标人物的嘴部运动视频构建嘴部变形动画;
S14,将构建的音频特征和嘴型变形动画作为语音驱动数据集。
进一步地,步骤S11包括如下子步骤:
S111,在无噪声场所搭建音视频录制设备,包括红外相机和麦克风;
S112,目标人物按照事先准备的语料库进行阅读,通过红外相机录制目标人物的嘴部运动视频,同时通过麦克风录制音频,从而得到目标人物的音视频并保存为文件。
进一步地,步骤S12中,对目标人物的音频使用线性预测编码(LPC)构建音频特征的方法包括:
使用线性预测编码(LPC)处理目标人物的音频时,首先对音频进行归一化处理,将音频分成多个音频帧;对于每个音频帧,移除DC分量并应用标准汉恩窗口来减少时间混叠效应;最后,计算若干个自相关系数,从而为输入音频窗口产生多个标量,得到音频的紧凑二维表示,该得到音频的紧凑二维表示即为具有音频特征的音频数据;线性预测编码(LPC)的公式表示为:
其中,y(n)表示第n个采样点的语音信号值,a(1)到a(p)是线性预测编码(LPC)模型中的预测系数,p是线性预测编码(LPC)模型的阶数,e(n)是预测误差。
进一步地,步骤S13中,对目标人物的嘴部运动视频构建嘴部变形动画的方法包括:
使用Avatary表情捕捉工具和Maya动画软件构建嘴型驱动动画;首先利用Avatary表情捕捉工具中的Tracker功能追踪嘴部运动视频中目标人物的嘴部关键点,然后将其导入Maya动画软件中,根据每帧间的嘴部关键点移动将其转化为嘴部变形动画并导出。
进一步地,步骤S2中,所述深度学习网络模型包括频率分析层、发音分析层和动画输出层。
进一步地,步骤S2包括如下子步骤:
S21,将具有音频特征的音频数据送入声调分析网络,然后用5个卷积层来训练,对音频特征进行压缩,最终输出新特征向量;
S22,把声调分析网络输出的新特征向量输入到发音分析层,然后用5个卷积层来训练,在时序上提取相邻序列帧的关联特征,输出发音特征向量;
S23,动画输出层通过两层全连接层实现从发音特征向量到嘴部变形动画的映射。
进一步地,步骤S3包括如下子步骤:
S31,直接采集目标人物音频,或者使用文本语音合成目标人物音频;
S32,对目标人物音频进行归一化处理,将归一化处理后的音频使用LPC线性预测编码处理,得到具有音频特征的待处理音频数据;
S33,把具有音频特征的待处理音频数据作为输入,利用语音驱动模型进行回归预测输出嘴部变形动画;
S34,对嘴部变形动画进行滤波得到平滑后的嘴部动画数据。
进一步地,步骤S34中,采用卡尔曼滤波方法对嘴部变形动画进行滤波,平滑相邻帧之间的嘴部变形动画参数,从而得到平滑后的嘴部动画数据。
进一步地,步骤S4包括如下子步骤:
S41,观察不同目标人物真实的面部动作,直接制作面部动画数据;
S42,观察不同目标人物真实的表情,直接制作表情动画数据。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明能够低成本获取大量的目标人物音视频数据,通过构建的语音驱动数据集来训练搭建好的深度学习网络网络模型,能够实现三维数字人语音驱动的自然且逼真呈现。
2、本发明基于大量数据训练的语音驱动模型,能够做到人物无关性,使得数字人语音驱动能够适应各种音频(真实人声、语音合成)。
3、本发明能够将面部动画和表情动画融合到嘴部动画中,使得数字人语音驱动更加自然且真实。
4、本发明的输出结果能够直接应用到各种渲染引擎中,有很高的适应性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例中提供的一种基于语音驱动的三维数字人脸部动画生成方法的流程示意图。
图2为本发明实施例中采集语音驱动数据集的流程示意图。
图3为本发明实施例中语音驱动深度学习网络模型训练的流程示意图。
图4为本发明实施例中三维数字人脸部动画渲染视频生成的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示,本实施例提出一种基于语音驱动的三维数字人脸部动画生成方法,包括如下步骤:
S1,采集语音驱动数据集;所述语音驱动数据集包括具有音频特征的音频数据和对应的嘴型变形动画;
S2,利用语音驱动数据集对深度学习网络模型进行若干轮数语音驱动训练,训练完成后得到语音驱动模型;
S3,获取目标人物音频并处理为具有音频特征的音频数据,将该具有音频特征的音频数据输入语音驱动模型进行回归预测,得到嘴部动画数据;
S4,制作面部动画数据和表情动画数据;
S5,将嘴部动画数据同面部动画数据和表情动画数据融合,渲染得到表情自然的三维数字人语音驱动动画。
在实际应用过程中,如图2所示,步骤S1具体包括如下子步骤:
S11,录制目标人物在特定姿态状态下的音视频;所述音视频包括音频和对应的嘴部运动视频;
S12,对目标人物的音频使用线性预测编码(LPC,Linear Predictive Coding)构建具有音频特征的音频数据;
S13,对目标人物的嘴部运动视频构建嘴部变形动画;
S14,将构建的音频特征和嘴型变形动画作为语音驱动数据集。
在实际应用过程中,步骤S11包括如下子步骤:
S111,在无噪声场所搭建音视频录制设备,包括红外相机和麦克风等;
S112,目标人物按照事先准备的语料库进行阅读,通过红外相机录制目标人物的嘴部运动视频,同时通过麦克风录制音频,从而得到目标人物的音视频并保存为文件,一般来说,为了使得数据量充分,需要录制约三小时的音视频。
在实际应用过程中,步骤S12中,对目标人物的音频使用线性预测编码(LPC)构建音频特征的方法包括:
使用线性预测编码(LPC)处理目标人物的音频时,首先对音频进行归一化处理,将音频分成多个音频帧,通常每个音频帧长度为16毫秒,并且连续的音频帧相距8ms;对于每个音频帧,移除DC分量并应用标准汉恩窗口来减少时间混叠效应;最后,计算32个自相关系数,从而为输入音频窗口产生总共64×32个标量,得到音频的紧凑二维表示,该得到音频的紧凑二维表示即为具有音频特征的音频数据;线性预测编码(LPC)的公式表示为:
其中,y(n)表示第n个采样点的语音信号值,a(1)到a(p)是线性预测编码(LPC)模型中的预测系数,p是线性预测编码(LPC)模型的阶数,e(n)是预测误差。线性预测编码(LPC)模型的目标是通过最小化预测误差的方差来确定最佳的预测系数。一般采用自相关函数法或Yule-Walker方程法求解预测系数。
在实际应用过程中,步骤S13中,对目标人物的嘴部运动视频构建嘴部变形动画的方法包括:
使用Avatary表情捕捉工具和Maya动画软件构建嘴型驱动动画;首先利用Avatary表情捕捉工具中的Tracker功能追踪嘴部运动视频中目标人物的嘴部关键点,然后将其导入Maya动画软件中,根据每帧间的嘴部关键点移动将其转化为嘴部变形动画并导出。
在实际应用过程中,如图3所示,步骤S2中,所述深度学习网络模型包括频率分析层(Formant Analysis Network)、发音分析层(Articulation Network)和动画输出层(Output Network)。由此,步骤S2包括如下子步骤:
S21,将具有音频特征的音频数据送入声调分析网络,然后用5个卷积层来训练,对音频特征进行压缩,最终输出新特征向量;通过训练,卷积层学会提取与面部动画有关的短期特征,如语调、重点和特定音素。
S22,把声调分析网络输出的新特征向量输入到发音分析层,然后用5个卷积层来训练,在时序上提取相邻序列帧的关联特征,输出发音特征向量;发音特征向量即为从数据集上学习到的人脸说话表情动画的特征。
S23,动画输出层通过两层全连接层实现从发音特征向量到嘴部变形动画的映射。
在实际应用过程中,如图4所示,步骤S3包括如下子步骤:
S31,直接采集目标人物音频,或者使用文本语音合成目标人物音频;
S32,对目标人物音频进行归一化处理,将归一化处理后的音频使用线性预测编码(LPC)处理,即转换为音频的紧凑二维表示,得到具有音频特征的待处理音频数据;
S33,把具有音频特征的待处理音频数据作为输入,利用语音驱动模型进行回归预测输出嘴部变形动画;
S34,对嘴部变形动画进行滤波得到平滑后的嘴部动画数据。其中,对嘴部变形动画进行滤波采用的方法是使用卡尔曼滤波,平滑相邻帧之间的变形动画参数,从而消除三维数字人嘴部驱动时抖动的问题,得到平滑后的嘴部动画数据。
在实际应用过程中,步骤S4包括如下子步骤:
S41,观察不同目标人物真实的面部动作,直接制作面部动画数据(眉毛、眼睛等);
S42,观察不同目标人物真实的表情,直接制作表情动画数据(开心、伤心、恐惧等)。
在实际应用过程中,步骤S5中,在执行所述动画融合时,如图4所示,针对在不同场景不同氛围时,可根据实际情况将嘴部动画数据同面部数据(眉毛、眼睛等)、表情动画数据(开心、伤心、恐惧等)融合,通过渲染融合动画数据进一步提高三维数字人语音驱动的自然度和逼真度。融合输出的动画适用于各种渲染引擎,如UE、iClone等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于语音驱动的三维数字人脸部动画生成方法,其特征在于,包括如下步骤:
S1,采集语音驱动数据集;所述语音驱动数据集包括具有音频特征的音频数据和对应的嘴型变形动画;
S2,利用语音驱动数据集对深度学习网络模型进行若干轮数语音驱动训练,训练完成后得到语音驱动模型;
S3,获取目标人物音频并处理为具有音频特征的音频数据,将该具有音频特征的音频数据输入语音驱动模型进行回归预测,得到嘴部动画数据;
S4,制作面部动画数据和表情动画数据;
S5,将嘴部动画数据同面部动画数据和表情动画数据融合,渲染得到表情自然的三维数字人语音驱动动画。
2.根据权利要求1所述的基于语音驱动的三维数字人脸部动画生成方法,其特征在于,步骤S1包括如下子步骤:
S11,录制目标人物在特定姿态状态下的音视频;所述音视频包括音频和对应的嘴部运动视频;
S12,对目标人物的音频使用线性预测编码构建具有音频特征的音频数据;
S13,对目标人物的嘴部运动视频构建嘴部变形动画;
S14,将构建的音频特征和嘴型变形动画作为语音驱动数据集。
3.根据权利要求2所述的基于语音驱动的三维数字人脸部动画生成方法,其特征在于,步骤S11包括如下子步骤:
S111,在无噪声场所搭建音视频录制设备,包括红外相机和麦克风;
S112,目标人物按照事先准备的语料库进行阅读,通过红外相机录制目标人物的嘴部运动视频,同时通过麦克风录制音频,从而得到目标人物的音视频并保存为文件。
4.根据权利要求3所述的基于语音驱动的三维数字人脸部动画生成方法,其特征在于,步骤S12中,对目标人物的音频使用线性预测编码构建音频特征的方法包括:
使用线性预测编码处理目标人物的音频时,首先对音频进行归一化处理,将音频分成多个音频帧;对于每个音频帧,移除DC分量并应用标准汉恩窗口来减少时间混叠效应;最后,计算若干个自相关系数,从而为输入音频窗口产生多个标量,得到音频的紧凑二维表示,该得到音频的紧凑二维表示即为具有音频特征的音频数据;线性预测编码的公式表示为:
其中,y(n)表示第n个采样点的语音信号值,a(1)到a(p)是线性预测编码模型中的预测系数,p是线性预测编码模型的阶数,e(n)是预测误差。
5.根据权利要求3所述的基于语音驱动的三维数字人脸部动画生成方法,其特征在于,步骤S13中,对目标人物的嘴部运动视频构建嘴部变形动画的方法包括:
使用Avatary表情捕捉工具和Maya动画软件构建嘴型驱动动画;首先利用Avatary表情捕捉工具中的Tracker功能追踪嘴部运动视频中目标人物的嘴部关键点,然后将其导入Maya动画软件中,根据每帧间的嘴部关键点移动将其转化为嘴部变形动画并导出。
6.根据权利要求1所述的基于语音驱动的三维数字人脸部动画生成方法,其特征在于,步骤S2中,所述深度学习网络模型包括频率分析层、发音分析层和动画输出层。
7.根据权利要求6所述的基于语音驱动的三维数字人脸部动画生成方法,其特征在于,步骤S2包括如下子步骤:
S21,将具有音频特征的音频数据送入声调分析网络,然后用5个卷积层来训练,对音频特征进行压缩,最终输出新特征向量;
S22,把声调分析网络输出的新特征向量输入到发音分析层,然后用5个卷积层来训练,在时序上提取相邻序列帧的关联特征,输出发音特征向量;
S23,动画输出层通过两层全连接层实现从发音特征向量到嘴部变形动画的映射。
8.根据权利要求1所述的基于语音驱动的三维数字人脸部动画生成方法,其特征在于,步骤S3包括如下子步骤:
S31,直接采集目标人物音频,或者使用文本语音合成目标人物音频;
S32,对目标人物音频进行归一化处理,将归一化处理后的音频使用线性预测编码处理,得到具有音频特征的待处理音频数据;
S33,把具有音频特征的待处理音频数据作为输入,利用语音驱动模型进行回归预测输出嘴部变形动画;
S34,对嘴部变形动画进行滤波得到平滑后的嘴部动画数据。
9.根据权利要求8所述的基于语音驱动的三维数字人脸部动画生成方法,其特征在于,步骤S34中,采用卡尔曼滤波方法对嘴部变形动画进行滤波,平滑相邻帧之间的嘴部变形动画参数,从而得到平滑后的嘴部动画数据。
10.根据权利要求1所述的基于语音驱动的三维数字人脸部动画生成方法,其特征在于,步骤S4包括如下子步骤:
S41,观察不同目标人物真实的面部动作,直接制作面部动画数据;
S42,观察不同目标人物真实的表情,直接制作表情动画数据。
CN202310342435.3A 2023-04-03 2023-04-03 一种基于语音驱动的三维数字人脸部动画生成方法 Active CN116051692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310342435.3A CN116051692B (zh) 2023-04-03 2023-04-03 一种基于语音驱动的三维数字人脸部动画生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310342435.3A CN116051692B (zh) 2023-04-03 2023-04-03 一种基于语音驱动的三维数字人脸部动画生成方法

Publications (2)

Publication Number Publication Date
CN116051692A true CN116051692A (zh) 2023-05-02
CN116051692B CN116051692B (zh) 2023-07-07

Family

ID=86129873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310342435.3A Active CN116051692B (zh) 2023-04-03 2023-04-03 一种基于语音驱动的三维数字人脸部动画生成方法

Country Status (1)

Country Link
CN (1) CN116051692B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912373A (zh) * 2023-05-23 2023-10-20 苏州超次元网络科技有限公司 一种动画处理方法和系统
CN117635784A (zh) * 2023-12-19 2024-03-01 世优(北京)科技有限公司 三维数字人脸部动画自动生成系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW550476B (en) * 1999-06-14 2003-09-01 Inst Information Industry Method for using text to drive graphic animation and object loaded with software program applying the same method
US20190130628A1 (en) * 2017-10-26 2019-05-02 Snap Inc. Joint audio-video facial animation system
US10521946B1 (en) * 2017-11-21 2019-12-31 Amazon Technologies, Inc. Processing speech to drive animations on avatars
CN110751708A (zh) * 2019-10-21 2020-02-04 北京中科深智科技有限公司 一种实时的语音驱动人脸动画的方法和系统
CN111243065A (zh) * 2019-12-26 2020-06-05 浙江大学 一种语音信号驱动的脸部动画生成方法
CN113111812A (zh) * 2021-04-20 2021-07-13 深圳追一科技有限公司 一种嘴部动作驱动模型训练方法及组件
CN113378806A (zh) * 2021-08-16 2021-09-10 之江实验室 一种融合情感编码的音频驱动人脸动画生成方法及系统
CN113763519A (zh) * 2021-11-09 2021-12-07 江苏原力数字科技股份有限公司 一种基于深度学习的语音驱动3d人物面部表情方法
CN114219880A (zh) * 2021-12-16 2022-03-22 网易(杭州)网络有限公司 一种生成表情动画的方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW550476B (en) * 1999-06-14 2003-09-01 Inst Information Industry Method for using text to drive graphic animation and object loaded with software program applying the same method
US20190130628A1 (en) * 2017-10-26 2019-05-02 Snap Inc. Joint audio-video facial animation system
US10521946B1 (en) * 2017-11-21 2019-12-31 Amazon Technologies, Inc. Processing speech to drive animations on avatars
CN110751708A (zh) * 2019-10-21 2020-02-04 北京中科深智科技有限公司 一种实时的语音驱动人脸动画的方法和系统
CN111243065A (zh) * 2019-12-26 2020-06-05 浙江大学 一种语音信号驱动的脸部动画生成方法
CN113111812A (zh) * 2021-04-20 2021-07-13 深圳追一科技有限公司 一种嘴部动作驱动模型训练方法及组件
CN113378806A (zh) * 2021-08-16 2021-09-10 之江实验室 一种融合情感编码的音频驱动人脸动画生成方法及系统
CN113763519A (zh) * 2021-11-09 2021-12-07 江苏原力数字科技股份有限公司 一种基于深度学习的语音驱动3d人物面部表情方法
CN114219880A (zh) * 2021-12-16 2022-03-22 网易(杭州)网络有限公司 一种生成表情动画的方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
李欣怡 等: "语音驱动的人脸动画研究现状综述", 《计算机工程与应用》, vol. 33, no. 53, pages 1 - 9 *
陈新;周东生;张强;魏小鹏;: "语音驱动人脸动画中语音参数的提取技术", 计算机工程, no. 06, pages 1 - 5 *
陈益强 等: "基于机器学习的语音驱动人脸动画方法", 《软件学报》, vol. 14, no. 2, pages 1 - 7 *
陈益强,高文,王兆其,姜大龙: "基于机器学习的语音驱动人脸动画方法", 软件学报, no. 02 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912373A (zh) * 2023-05-23 2023-10-20 苏州超次元网络科技有限公司 一种动画处理方法和系统
CN116912373B (zh) * 2023-05-23 2024-04-16 苏州超次元网络科技有限公司 一种动画处理方法和系统
CN117635784A (zh) * 2023-12-19 2024-03-01 世优(北京)科技有限公司 三维数字人脸部动画自动生成系统
CN117635784B (zh) * 2023-12-19 2024-04-19 世优(北京)科技有限公司 三维数字人脸部动画自动生成系统

Also Published As

Publication number Publication date
CN116051692B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN109308731B (zh) 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
CN116051692B (zh) 一种基于语音驱动的三维数字人脸部动画生成方法
CN112184858B (zh) 基于文本的虚拟对象动画生成方法及装置、存储介质、终端
CN112562722A (zh) 基于语义的音频驱动数字人生成方法及系统
CN110880315A (zh) 一种基于音素后验概率的个性化语音和视频生成系统
CN113378806B (zh) 一种融合情感编码的音频驱动人脸动画生成方法及系统
CN112151030B (zh) 一种基于多模态的复杂场景语音识别方法和装置
JP2014519082A (ja) 文字に基づく映像生成
JP2014519082A5 (zh)
JP2003529861A (ja) 音響信号により駆動される人間の顔の合成モデルのアニメ化方法
CN113592985B (zh) 混合变形值的输出方法及装置、存储介质、电子装置
CN112001992A (zh) 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统
CN113838174B (zh) 一种音频驱动人脸动画生成方法、装置、设备与介质
CN1639738A (zh) 产生漫画化的正在说话的头部的方法和系统
CN112184859B (zh) 端到端的虚拟对象动画生成方法及装置、存储介质、终端
CN115376482A (zh) 面部动作视频生成方法及装置、可读介质和电子设备
CN116597857A (zh) 一种语音驱动图像的方法、系统、装置及存储介质
CN116934926B (zh) 一种基于多模态数据融合的识别方法和系统
CN117409121A (zh) 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、系统、设备及介质
CN116828129A (zh) 一种超清2d数字人生成方法及系统
CN117115310A (zh) 一种基于音频和图像的数字人脸生成方法及系统
CN116705038A (zh) 基于语音分析的3d虚拟演讲者驱动方法及相关装置
CN114360491A (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
Filntisis et al. Photorealistic adaptation and interpolation of facial expressions using HMMS and AAMS for audio-visual speech synthesis
Shih et al. Speech-driven talking face using embedded confusable system for real time mobile multimedia

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant