CN110610534B - 基于Actor-Critic算法的口型动画自动生成方法 - Google Patents

基于Actor-Critic算法的口型动画自动生成方法 Download PDF

Info

Publication number
CN110610534B
CN110610534B CN201910886576.5A CN201910886576A CN110610534B CN 110610534 B CN110610534 B CN 110610534B CN 201910886576 A CN201910886576 A CN 201910886576A CN 110610534 B CN110610534 B CN 110610534B
Authority
CN
China
Prior art keywords
actor
mouth shape
features
reinforcement learning
critic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910886576.5A
Other languages
English (en)
Other versions
CN110610534A (zh
Inventor
谢宁
罗宇轩
申恒涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910886576.5A priority Critical patent/CN110610534B/zh
Publication of CN110610534A publication Critical patent/CN110610534A/zh
Application granted granted Critical
Publication of CN110610534B publication Critical patent/CN110610534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明涉及计算机人工智能技术领域,其公开了一种将角色口型动画制作与强化学习相结合的基于Actor‑Critic算法的口型动画自动生成方法,解决现有技术的口型动画生成方案存在的需要大量样本数据和容易出现伪影的问题。该方法包括:a.采集语音数据及角色头像;b.对语音数据进行分析获得声学特征;c.对角色头像图片进行面部识别以及动作单元的识别,获取面部特征;d.基于Actor‑Critic算法对声学特征和面部特征进行匹配;e.对面部表情及眨眼动作进行还原,自动生成口型动画。本发明适用于需要快速、逼真地生成口型动画的场景。

Description

基于Actor-Critic算法的口型动画自动生成方法
技术领域
本发明涉及计算机人工智能技术领域,具体涉及一种将角色口型动画制作与强化学习相结合的基于Actor-Critic算法的口型动画自动生成方法。
背景技术
语音作为一种自然交流形式,在人机交互领域表现出了突出的影响力,这一点可以通过我们日常生活中日益普及的虚拟语音助手(如微软的Cortana或亚马逊的Alexa)明显看出。而通过个性化头像表达语音可使谈话更加愉快,特别是在玩家与虚拟世界中的其他角色进行通信的交互式角色扮演游戏中。但是产生逼真的口型动画的问题是极为复杂的,它需要高分辨率的面部图像,与音频同步的口型动作以及合理的面部表情。语音与口型对应存在着非常密切的同步关系,又因为人类善于捕捉面部运动和视听同步中的细微异常,所以在人脸动画中如何同步口型动画与语音的关系一直是计算机视觉以及人机交互领域的热点及难点。
现有技术中,自动口型动画的工作可以分为三大类,如图1所示,包括:
(1)插入单帧视觉单元方式:单帧可视单元插值按顺序构造静态目标口型,并在它们之间进行插值以生成中间动画帧。这种方法的一个好处是只需要定义少量形状(例如每个音素对应一个)。然而,动画的真实性在很大程度上取决于插值如何很好地捕获视觉共同点和动态。人们可以手工制作这种插值函数或采用基于视觉语音参数统计的数据驱动方法。这些方法对插值的静态性质做出了强有力的假设,却没有解决依赖于上下文的协同关系。这个问题通过使用协方差矩阵来定义允许特定口型变形多少,但是协方差矩阵本身是固定的,会导致不自然的变形。
(2)连接现有视觉数据的片段方式:基于样本的合成将现有语音对应的视觉数据的短序列拼接在一起,这些短序列对应于固定长度(例如单词或音素)或可变长度。单元选择通常涉及基于语音上下文和平滑度来最小化成本函数。而由于上下文通常仅考虑音素标识,因此需要大量数据来确保在所有上下文中有足够的覆盖。
(3)采样生成统计模型的方式:比如GMMs、转换线性动力系统、转换共享高斯过程动力学模型,循环神经网络,或隐马尔可夫模型(HMM)及其变体。然而,由于状态数量有限以及参数的平滑性约束,合成可能会出现在明显的伪影。
发明内容
本发明所要解决的技术问题是:提出一种基于Actor-Critic算法的口型动画自动生成方法,解决现有技术的口型动画生成方案存在的需要大量样本数据和容易出现伪影的问题。
本发明解决上述技术问题采用的技术方案是:
基于Actor-Critic算法的口型动画自动生成方法,包括以下步骤:
a.采集语音数据及角色头像;
b.对语音数据进行分析获得声学特征;
c.对角色头像图片进行面部识别以及动作单元的识别,获取面部特征;
d.基于Actor-Critic算法对声学特征和面部特征进行匹配;
e.对面部表情及眨眼动作进行还原,自动生成口型动画。
作为进一步优化,步骤b中,所述对语音数据进行分析,具体包括:
首先对原始语音数据进行预处理,加强语音信号性能,并将其分为一定数量的短帧;针对每一个短帧,通过快速傅里叶变换得到相应的频谱;将得到的频谱通过梅尔滤波器组得到梅尔频谱;在梅尔频谱上进行倒谱分析,以获得梅尔频谱倒谱系数MFCC。
作为进一步优化,步骤c中,所述获取面部特征,具体包括:
采用级联回归的方法建立ERT模型,不断迭代所预测出的特征点形状和坐标;然后基于平方误差和的梯度树算法对预测出的特征点形状和坐标进行优化,最终实现人脸的特征点检测和标注。
作为进一步优化,步骤d中,所述基于Actor-Critic算法对声学特征和面部特征进行匹配,具体包括:
根据语音数据、预先训练好的Actor-Critic深度强化学习神经网络模型以及预先处理的角色头像标识信息,获取与给定语音数据和给定头像标识信息对应的口型数据;使用训练好的Actor-Critic深度强化学习神经网络模型表达语音数据的声学特征与口型数据的口型位置特征之间的相关关系。
作为进一步优化,所述Actor-Critic深度强化学习神经网络模型包括生成器和判别器;所述生成器用于在给定语音的基础上预测出较为真实的口型序列,采用强化学习的actor模型来实现;所述判别器用于对生成的口型动画帧进行评估,预测每个状态行为值,采用强化学习的critic模型来实现。
作为进一步优化,所述Actor-Critic深度强化学习神经网络模型的训练方法为:
根据发音匹配从样本库中的语音数据中提取声学特征,获取当前状态下的面部表情特征,将声学特征和面部表情特征共同作为所述Actor-Critic深度强化学习神经网络模型的输入特征,将所述对应于声学特征的面部表情特征作为所述Actor-Critic深度强化学习神经网络模型的输出特征,对所述Actor-Critic深度强化学习神经网络模型进行训练,获取Actor-Critic深度强化学习神经网络模型的模型参数。
作为进一步优化,步骤e中,所述对面部表情及眨眼动作进行还原,具体包括:
根据语音数据、预先训练好的Actor-Critic深度强化学习神经网络模型以及预先准备的数据库中的角色情绪标签信息,获取与给定语音数据和给定头像标识信息对应的上半部分脸部数据,使用Actor-Critic深度强化学习神经网络模型表达语音数据的发音特征与面部表情以及眨眼动作的相关关系。
本发明的有益效果是:
(1)生成的口型动画能够准确地反应在整个视频中复杂的说话的过程,包括满足整个口型与语音的协同性,同时可以生成带有情感因素的口型动画。
(2)在口型同步动画的生成中,将强化学习及GAN相结合,利用强化学习可以反复试错,生成多个状态-行为集的特点,将其作为GAN网络的输入,就不需要大量的数据集样本进行训练,从而解决训练样本不足的问题,同时可以规避强化学习由于无ground truth数据指导产生的视频生成中的伪影,因为引入GAN网络,所以需要一定量的真实数据,通过真实数据的加入可以生成更加生动的、与音频数据更加同步匹配的动画。
附图说明
图1为现有技术中自动口型动画的生成方案;
图2为本发明中基于Actor-Critic算法的口型动画自动生成方法流程图。
具体实施方式
本发明旨在提出一种基于Actor-Critic算法的口型动画自动生成方法,解决现有技术的口型动画生成方案存在的需要大量样本数据和容易出现伪影的问题。其核心思想是:在口型同步动画的生成中,将强化学习及GAN相结合,采用Actor-Critic模型来表达声音与面部表情及动作的相关性,自动生成口型动画,以降低训练样本不足的缺陷,同时可以规避强化学习由于无ground truth数据指导产生的视频生成中的伪影,生成更加生动的、与音频数据更加同步匹配的动画。此外,由于对面部表情和眨眼等动作进行处理,使得生成的口型动画更加逼真,同时能够考虑语音中的情绪特征。
在具体实现上,如图2所示,本发明中的基于Actor-Critic算法的口型动画自动生成方法包括以下实现步骤:
1、获取数据:
本步骤中采集原始语音数据及角色头像;
2、语音数据分析:
本步骤中对语音数据进行分析获得声学特征;语音数据分析可以对任何语言、任意长度的原始语音数据进行预处理,加强语音信号性能,并将其分为若干个短帧;对每一个短时分析窗,通过快速傅里叶变换得到相应的频谱;将得到的频谱通过梅尔滤波器组得到梅尔频谱,它可以将线性的自然频谱转换为体现人类听觉特性的频谱;在梅尔频谱上进行倒谱分析,以获得梅尔频谱倒谱系数(MFCC)。MFCC可以有效的展示并保存语音的背景信息,同时准确地描述出声道在语音短时功率谱的包络中的形状,以方便对产生的音素进行准确地表现。
3、角色头像标注:
本步骤中对角色头像图片进行面部识别以及动作单元的识别,获取面部特征;即为对输入角色头像图片进行特征点标记,需要对人脸对齐,在已知的人脸方框上定位准确的形状;采用级联回归的方法建立ERT模型,不断迭代所预测出的特征点形状和坐标;基于平方误差和的梯度树算法进行优化。实现人脸68个特征点检测并标注。使用基于特征选择的相关性方法把目标输出投影到一个随机方向上,并且选择一对特征,使得这对特征的误差与被投影的目标在训练数据上拥有最高的样本相关性。
4、Actor-Critic算法特征匹配:
本步骤中基于Actor-Critic算法对声学特征和面部特征进行匹配;
Actor-Critic深度强化学习神经网络模型分为两个部分:生成器和判别器。生成器在给定语音的基础上预测出较为真实的口型序列,在这里通过使用强化学习的actor模型来改进序列生成;判别器对生成的口型动画帧进行评估,预测每个状态行为值,在这里使用强化学习的critic模型来表示。
我们将口型同步动画生成理解为强化学习的过程,其中在时间步t时的状态st理解为当前已生成的面部表情特征at-1以及当前需要即将处理的音频特征vt,其中默认初始时间步t1时的状态中的面部表情为中立情绪下的固定表情;而动作at为即将生成的面部表情特征。因此策略生成模型是随机的,只有在状态和生成的动作确定的情况下才可以确定下一个状态。在口型动画的训练过程中,我们引入真实的口型动画视频作为训练集的一部分,与生成模型生成的假数据相结合共同作用于评价模型,使用的Actor-Critic模型表达语音数据的发音特征与口型数据的口型位置(即下半部分脸标记)特征之间的相关关系。所述样本库中的语音数据和所对应的视频数据训练Actor-Critic深度强化学习神经网络模型,获取Actor-Critic深度强化学习神经网络模型的模型参数的步骤包括:根据所述发音匹配从所述样本库中的语音数据中提取声学特征,获取当前状态下的面部表情特征,将声学特征和面部表情特征共同作为所述Actor-Critic深度强化学习神经网络模型的输入特征,将所述对应于声学特征的面部表情特征作为所述Actor-Critic深度强化学习神经网络模型的输出特征,对所述Actor-Critic深度强化学习神经网络模型进行训练,获取Actor-Critic深度强化学习神经网络模型的模型参数。
5、表情、眨眼动作还原:
本步骤中对面部表情及眨眼动作进行还原,自动生成口型动画;根据语音数据、预先训练好的Actor-Critic深度强化学习神经网络模型以及预先准备的数据库中的角色情绪标签信息,获取与给定语音数据和给定头像标识信息对应的上半部分脸部数据,使用Actor-Critic深度强化学习神经网络模型表达语音数据的发音特征与面部表情以及眨眼动作的相关关系。

Claims (6)

1.基于Actor-Critic算法的口型动画自动生成方法,其特征在于,
包括以下步骤:
a.采集语音数据及角色头像;
b.对语音数据进行分析获得声学特征;
c.对角色头像图片进行面部识别以及动作单元的识别,获取面部特征;
d.基于Actor-Critic算法对声学特征和面部特征进行匹配;
e.对面部表情及眨眼动作进行还原,自动生成口型动画;
步骤e中,所述对面部表情及眨眼动作进行还原,具体包括:
根据语音数据、预先训练好的Actor-Critic深度强化学习神经网络模型以及预先准备的数据库中的角色情绪标签信息,获取与给定语音数据和给定头像标识信息对应的上半部分脸部数据,使用Actor-Critic深度强化学习神经网络模型表达语音数据的发音特征与面部表情以及眨眼动作的相关关系。
2.如权利要求1所述的基于Actor-Critic算法的口型动画自动生成方法,
其特征在于,步骤b中,所述对语音数据进行分析,具体包括:
首先对原始语音数据进行预处理,加强语音信号性能,并将其分为一定数量的短帧;针对每一个短帧,通过快速傅里叶变换得到相应的频谱;将得到的频谱通过梅尔滤波器组得到梅尔频谱;在梅尔频谱上进行倒谱分析,以获得梅尔频谱倒谱系数MFCC。
3.如权利要求1所述的基于Actor-Critic算法的口型动画自动生成方法,
其特征在于,步骤c中,所述获取面部特征,具体包括:采用级联回归的方法建立ERT模型,不断迭代所预测出的特征点形状和坐标;然后基于平方误差和的梯度树算法对预测出的特征点形状和坐标进行优化,最终实现人脸的特征点检测和标注。
4.如权利要求1所述的基于Actor-Critic算法的口型动画自动生成方法,
其特征在于,步骤d中,所述基于Actor-Critic算法对声学特征和面部特征进行匹配,具体包括:根据语音数据、预先训练好的Actor-Critic深度强化学习神经网络模型以及预先处理的角色头像标识信息,获取与给定语音数据和给定头像标识信息对应的口型数据;使用训练好的Actor-Critic深度强化学习神经网络模型表达语音数据的声学特征与口型数据的口型位置特征之间的相关关系。
5.如权利要求4所述的基于Actor-Critic算法的口型动画自动生成方法,
其特征在于,所述Actor-Critic深度强化学习神经网络模型包括生成器和判别器;所述生成器用于在给定语音的基础上预测出较为真实的口型序列,采用强化学习的actor模型来实现;所述判别器用于对生成的口型动画帧进行评估,预测每个状态行为值,采用强化学习的critic模型来实现。
6.如权利要求5所述的基于Actor-Critic算法的口型动画自动生成方法,
其特征在于,所述Actor-Critic深度强化学习神经网络模型的训练方法为:
根据发音匹配从样本库中的语音数据中提取声学特征,获取当前状态下的面部表情特征,将声学特征和面部表情特征共同作为所述Actor-Critic深度强化学习神经网络模型的输入特征,将所述对应于声学特征的面部表情特征作为所述Actor-Critic深度强化学习神经网络模型的输出特征,对所述Actor-Critic深度强化学习神经网络模型进行训练,获取Actor-Critic深度强化学习神经网络模型的模型参数。
CN201910886576.5A 2019-09-19 2019-09-19 基于Actor-Critic算法的口型动画自动生成方法 Active CN110610534B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910886576.5A CN110610534B (zh) 2019-09-19 2019-09-19 基于Actor-Critic算法的口型动画自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910886576.5A CN110610534B (zh) 2019-09-19 2019-09-19 基于Actor-Critic算法的口型动画自动生成方法

Publications (2)

Publication Number Publication Date
CN110610534A CN110610534A (zh) 2019-12-24
CN110610534B true CN110610534B (zh) 2023-04-07

Family

ID=68891767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910886576.5A Active CN110610534B (zh) 2019-09-19 2019-09-19 基于Actor-Critic算法的口型动画自动生成方法

Country Status (1)

Country Link
CN (1) CN110610534B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111243065B (zh) * 2019-12-26 2022-03-11 浙江大学 一种语音信号驱动的脸部动画生成方法
CN111243626B (zh) * 2019-12-30 2022-12-09 清华大学 一种说话视频生成方法及系统
CN111259785B (zh) * 2020-01-14 2022-09-20 电子科技大学 基于时间偏移残差网络的唇语识别方法
CN112329586A (zh) * 2020-10-30 2021-02-05 中国平安人寿保险股份有限公司 基于情绪识别的客户回访方法、装置及计算机设备
CN112562720A (zh) * 2020-11-30 2021-03-26 清华珠三角研究院 一种唇形同步的视频生成方法、装置、设备及存储介质
CN112396182B (zh) * 2021-01-19 2021-04-16 腾讯科技(深圳)有限公司 脸部驱动模型的训练和脸部口型动画的生成方法
CN112906650B (zh) * 2021-03-24 2023-08-15 百度在线网络技术(北京)有限公司 教学视频的智能处理方法、装置、设备和存储介质
CN114466178A (zh) * 2021-09-09 2022-05-10 马上消费金融股份有限公司 语音与图像同步性的衡量方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1466104A (zh) * 2002-07-03 2004-01-07 中国科学院计算技术研究所 基于统计与规则结合的语音驱动人脸动画方法
CN1952850A (zh) * 2005-10-20 2007-04-25 中国科学院自动化研究所 基于动态基元选取的语音驱动三维人脸动画方法
CN108776834A (zh) * 2018-05-07 2018-11-09 上海商汤智能科技有限公司 系统增强学习方法和装置、电子设备、计算机存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6661418B1 (en) * 2001-01-22 2003-12-09 Digital Animations Limited Character animation system
US20140242560A1 (en) * 2013-02-15 2014-08-28 Emotient Facial expression training using feedback from automatic facial expression recognition
CN103218842B (zh) * 2013-03-12 2015-11-25 西南交通大学 一种语音同步驱动三维人脸口型与面部姿势动画的方法
CN106297792A (zh) * 2016-09-14 2017-01-04 厦门幻世网络科技有限公司 一种语音口型动画的识别方法及装置
CN106485774B (zh) * 2016-12-30 2019-11-15 当家移动绿色互联网技术集团有限公司 基于语音实时驱动人物模型的表情和姿态的方法
CN109903363A (zh) * 2019-01-31 2019-06-18 天津大学 条件生成对抗网络三维人脸表情运动单元合成方法
CN110009716B (zh) * 2019-03-28 2023-09-26 网易(杭州)网络有限公司 面部表情的生成方法、装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1466104A (zh) * 2002-07-03 2004-01-07 中国科学院计算技术研究所 基于统计与规则结合的语音驱动人脸动画方法
CN1952850A (zh) * 2005-10-20 2007-04-25 中国科学院自动化研究所 基于动态基元选取的语音驱动三维人脸动画方法
CN108776834A (zh) * 2018-05-07 2018-11-09 上海商汤智能科技有限公司 系统增强学习方法和装置、电子设备、计算机存储介质

Also Published As

Publication number Publication date
CN110610534A (zh) 2019-12-24

Similar Documents

Publication Publication Date Title
CN110610534B (zh) 基于Actor-Critic算法的口型动画自动生成方法
US8224652B2 (en) Speech and text driven HMM-based body animation synthesis
CN112465935A (zh) 虚拟形象合成方法、装置、电子设备和存储介质
Xie et al. Realistic mouth-synching for speech-driven talking face using articulatory modelling
US20120130717A1 (en) Real-time Animation for an Expressive Avatar
CN111966800B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN116250036A (zh) 用于合成语音的照片级真实感视频的系统和方法
CN111145282A (zh) 虚拟形象合成方法、装置、电子设备和存储介质
US20110131041A1 (en) Systems And Methods For Synthesis Of Motion For Animation Of Virtual Heads/Characters Via Voice Processing In Portable Devices
KR20060090687A (ko) 시청각 콘텐츠 합성을 위한 시스템 및 방법
CN113378806B (zh) 一种融合情感编码的音频驱动人脸动画生成方法及系统
Fu et al. Audio/visual mapping with cross-modal hidden Markov models
CN112184859B (zh) 端到端的虚拟对象动画生成方法及装置、存储介质、终端
EP4010899A1 (en) Audio-driven speech animation using recurrent neutral network
CN114895817B (zh) 交互信息处理方法、网络模型的训练方法及装置
CN112668407A (zh) 人脸关键点生成方法、装置、存储介质及电子设备
KR101738142B1 (ko) 감성 기반의 대화가 가능한 디지털 생명체 생성 시스템 및 그 제어방법
CN115631267A (zh) 生成动画的方法及装置
Sargin et al. Prosody-driven head-gesture animation
Filntisis et al. Video-realistic expressive audio-visual speech synthesis for the Greek language
Deena et al. Visual speech synthesis using a variable-order switching shared Gaussian process dynamical model
Tao et al. Realistic visual speech synthesis based on hybrid concatenation method
Asadiabadi et al. Multimodal speech driven facial shape animation using deep neural networks
Liu et al. Optimization of an image-based talking head system
CN115083371A (zh) 驱动虚拟数字形象唱歌的方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant