CN110610534B - 基于Actor-Critic算法的口型动画自动生成方法 - Google Patents
基于Actor-Critic算法的口型动画自动生成方法 Download PDFInfo
- Publication number
- CN110610534B CN110610534B CN201910886576.5A CN201910886576A CN110610534B CN 110610534 B CN110610534 B CN 110610534B CN 201910886576 A CN201910886576 A CN 201910886576A CN 110610534 B CN110610534 B CN 110610534B
- Authority
- CN
- China
- Prior art keywords
- actor
- mouth shape
- features
- reinforcement learning
- critic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000002787 reinforcement Effects 0.000 claims abstract description 43
- 230000008921 facial expression Effects 0.000 claims abstract description 24
- 230000009471 action Effects 0.000 claims abstract description 11
- 230000004397 blinking Effects 0.000 claims abstract description 11
- 238000003062 neural network model Methods 0.000 claims description 29
- 238000001228 spectrum Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 11
- 230000001815 facial effect Effects 0.000 claims description 8
- 241000282414 Homo sapiens Species 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000008451 emotion Effects 0.000 claims description 4
- 230000006399 behavior Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004519 manufacturing process Methods 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005183 dynamical system Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000004540 process dynamic Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Signal Processing (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明涉及计算机人工智能技术领域,其公开了一种将角色口型动画制作与强化学习相结合的基于Actor‑Critic算法的口型动画自动生成方法,解决现有技术的口型动画生成方案存在的需要大量样本数据和容易出现伪影的问题。该方法包括:a.采集语音数据及角色头像;b.对语音数据进行分析获得声学特征;c.对角色头像图片进行面部识别以及动作单元的识别,获取面部特征;d.基于Actor‑Critic算法对声学特征和面部特征进行匹配;e.对面部表情及眨眼动作进行还原,自动生成口型动画。本发明适用于需要快速、逼真地生成口型动画的场景。
Description
技术领域
本发明涉及计算机人工智能技术领域,具体涉及一种将角色口型动画制作与强化学习相结合的基于Actor-Critic算法的口型动画自动生成方法。
背景技术
语音作为一种自然交流形式,在人机交互领域表现出了突出的影响力,这一点可以通过我们日常生活中日益普及的虚拟语音助手(如微软的Cortana或亚马逊的Alexa)明显看出。而通过个性化头像表达语音可使谈话更加愉快,特别是在玩家与虚拟世界中的其他角色进行通信的交互式角色扮演游戏中。但是产生逼真的口型动画的问题是极为复杂的,它需要高分辨率的面部图像,与音频同步的口型动作以及合理的面部表情。语音与口型对应存在着非常密切的同步关系,又因为人类善于捕捉面部运动和视听同步中的细微异常,所以在人脸动画中如何同步口型动画与语音的关系一直是计算机视觉以及人机交互领域的热点及难点。
现有技术中,自动口型动画的工作可以分为三大类,如图1所示,包括:
(1)插入单帧视觉单元方式:单帧可视单元插值按顺序构造静态目标口型,并在它们之间进行插值以生成中间动画帧。这种方法的一个好处是只需要定义少量形状(例如每个音素对应一个)。然而,动画的真实性在很大程度上取决于插值如何很好地捕获视觉共同点和动态。人们可以手工制作这种插值函数或采用基于视觉语音参数统计的数据驱动方法。这些方法对插值的静态性质做出了强有力的假设,却没有解决依赖于上下文的协同关系。这个问题通过使用协方差矩阵来定义允许特定口型变形多少,但是协方差矩阵本身是固定的,会导致不自然的变形。
(2)连接现有视觉数据的片段方式:基于样本的合成将现有语音对应的视觉数据的短序列拼接在一起,这些短序列对应于固定长度(例如单词或音素)或可变长度。单元选择通常涉及基于语音上下文和平滑度来最小化成本函数。而由于上下文通常仅考虑音素标识,因此需要大量数据来确保在所有上下文中有足够的覆盖。
(3)采样生成统计模型的方式:比如GMMs、转换线性动力系统、转换共享高斯过程动力学模型,循环神经网络,或隐马尔可夫模型(HMM)及其变体。然而,由于状态数量有限以及参数的平滑性约束,合成可能会出现在明显的伪影。
发明内容
本发明所要解决的技术问题是:提出一种基于Actor-Critic算法的口型动画自动生成方法,解决现有技术的口型动画生成方案存在的需要大量样本数据和容易出现伪影的问题。
本发明解决上述技术问题采用的技术方案是:
基于Actor-Critic算法的口型动画自动生成方法,包括以下步骤:
a.采集语音数据及角色头像;
b.对语音数据进行分析获得声学特征;
c.对角色头像图片进行面部识别以及动作单元的识别,获取面部特征;
d.基于Actor-Critic算法对声学特征和面部特征进行匹配;
e.对面部表情及眨眼动作进行还原,自动生成口型动画。
作为进一步优化,步骤b中,所述对语音数据进行分析,具体包括:
首先对原始语音数据进行预处理,加强语音信号性能,并将其分为一定数量的短帧;针对每一个短帧,通过快速傅里叶变换得到相应的频谱;将得到的频谱通过梅尔滤波器组得到梅尔频谱;在梅尔频谱上进行倒谱分析,以获得梅尔频谱倒谱系数MFCC。
作为进一步优化,步骤c中,所述获取面部特征,具体包括:
采用级联回归的方法建立ERT模型,不断迭代所预测出的特征点形状和坐标;然后基于平方误差和的梯度树算法对预测出的特征点形状和坐标进行优化,最终实现人脸的特征点检测和标注。
作为进一步优化,步骤d中,所述基于Actor-Critic算法对声学特征和面部特征进行匹配,具体包括:
根据语音数据、预先训练好的Actor-Critic深度强化学习神经网络模型以及预先处理的角色头像标识信息,获取与给定语音数据和给定头像标识信息对应的口型数据;使用训练好的Actor-Critic深度强化学习神经网络模型表达语音数据的声学特征与口型数据的口型位置特征之间的相关关系。
作为进一步优化,所述Actor-Critic深度强化学习神经网络模型包括生成器和判别器;所述生成器用于在给定语音的基础上预测出较为真实的口型序列,采用强化学习的actor模型来实现;所述判别器用于对生成的口型动画帧进行评估,预测每个状态行为值,采用强化学习的critic模型来实现。
作为进一步优化,所述Actor-Critic深度强化学习神经网络模型的训练方法为:
根据发音匹配从样本库中的语音数据中提取声学特征,获取当前状态下的面部表情特征,将声学特征和面部表情特征共同作为所述Actor-Critic深度强化学习神经网络模型的输入特征,将所述对应于声学特征的面部表情特征作为所述Actor-Critic深度强化学习神经网络模型的输出特征,对所述Actor-Critic深度强化学习神经网络模型进行训练,获取Actor-Critic深度强化学习神经网络模型的模型参数。
作为进一步优化,步骤e中,所述对面部表情及眨眼动作进行还原,具体包括:
根据语音数据、预先训练好的Actor-Critic深度强化学习神经网络模型以及预先准备的数据库中的角色情绪标签信息,获取与给定语音数据和给定头像标识信息对应的上半部分脸部数据,使用Actor-Critic深度强化学习神经网络模型表达语音数据的发音特征与面部表情以及眨眼动作的相关关系。
本发明的有益效果是:
(1)生成的口型动画能够准确地反应在整个视频中复杂的说话的过程,包括满足整个口型与语音的协同性,同时可以生成带有情感因素的口型动画。
(2)在口型同步动画的生成中,将强化学习及GAN相结合,利用强化学习可以反复试错,生成多个状态-行为集的特点,将其作为GAN网络的输入,就不需要大量的数据集样本进行训练,从而解决训练样本不足的问题,同时可以规避强化学习由于无ground truth数据指导产生的视频生成中的伪影,因为引入GAN网络,所以需要一定量的真实数据,通过真实数据的加入可以生成更加生动的、与音频数据更加同步匹配的动画。
附图说明
图1为现有技术中自动口型动画的生成方案;
图2为本发明中基于Actor-Critic算法的口型动画自动生成方法流程图。
具体实施方式
本发明旨在提出一种基于Actor-Critic算法的口型动画自动生成方法,解决现有技术的口型动画生成方案存在的需要大量样本数据和容易出现伪影的问题。其核心思想是:在口型同步动画的生成中,将强化学习及GAN相结合,采用Actor-Critic模型来表达声音与面部表情及动作的相关性,自动生成口型动画,以降低训练样本不足的缺陷,同时可以规避强化学习由于无ground truth数据指导产生的视频生成中的伪影,生成更加生动的、与音频数据更加同步匹配的动画。此外,由于对面部表情和眨眼等动作进行处理,使得生成的口型动画更加逼真,同时能够考虑语音中的情绪特征。
在具体实现上,如图2所示,本发明中的基于Actor-Critic算法的口型动画自动生成方法包括以下实现步骤:
1、获取数据:
本步骤中采集原始语音数据及角色头像;
2、语音数据分析:
本步骤中对语音数据进行分析获得声学特征;语音数据分析可以对任何语言、任意长度的原始语音数据进行预处理,加强语音信号性能,并将其分为若干个短帧;对每一个短时分析窗,通过快速傅里叶变换得到相应的频谱;将得到的频谱通过梅尔滤波器组得到梅尔频谱,它可以将线性的自然频谱转换为体现人类听觉特性的频谱;在梅尔频谱上进行倒谱分析,以获得梅尔频谱倒谱系数(MFCC)。MFCC可以有效的展示并保存语音的背景信息,同时准确地描述出声道在语音短时功率谱的包络中的形状,以方便对产生的音素进行准确地表现。
3、角色头像标注:
本步骤中对角色头像图片进行面部识别以及动作单元的识别,获取面部特征;即为对输入角色头像图片进行特征点标记,需要对人脸对齐,在已知的人脸方框上定位准确的形状;采用级联回归的方法建立ERT模型,不断迭代所预测出的特征点形状和坐标;基于平方误差和的梯度树算法进行优化。实现人脸68个特征点检测并标注。使用基于特征选择的相关性方法把目标输出投影到一个随机方向上,并且选择一对特征,使得这对特征的误差与被投影的目标在训练数据上拥有最高的样本相关性。
4、Actor-Critic算法特征匹配:
本步骤中基于Actor-Critic算法对声学特征和面部特征进行匹配;
Actor-Critic深度强化学习神经网络模型分为两个部分:生成器和判别器。生成器在给定语音的基础上预测出较为真实的口型序列,在这里通过使用强化学习的actor模型来改进序列生成;判别器对生成的口型动画帧进行评估,预测每个状态行为值,在这里使用强化学习的critic模型来表示。
我们将口型同步动画生成理解为强化学习的过程,其中在时间步t时的状态st理解为当前已生成的面部表情特征at-1以及当前需要即将处理的音频特征vt,其中默认初始时间步t1时的状态中的面部表情为中立情绪下的固定表情;而动作at为即将生成的面部表情特征。因此策略生成模型是随机的,只有在状态和生成的动作确定的情况下才可以确定下一个状态。在口型动画的训练过程中,我们引入真实的口型动画视频作为训练集的一部分,与生成模型生成的假数据相结合共同作用于评价模型,使用的Actor-Critic模型表达语音数据的发音特征与口型数据的口型位置(即下半部分脸标记)特征之间的相关关系。所述样本库中的语音数据和所对应的视频数据训练Actor-Critic深度强化学习神经网络模型,获取Actor-Critic深度强化学习神经网络模型的模型参数的步骤包括:根据所述发音匹配从所述样本库中的语音数据中提取声学特征,获取当前状态下的面部表情特征,将声学特征和面部表情特征共同作为所述Actor-Critic深度强化学习神经网络模型的输入特征,将所述对应于声学特征的面部表情特征作为所述Actor-Critic深度强化学习神经网络模型的输出特征,对所述Actor-Critic深度强化学习神经网络模型进行训练,获取Actor-Critic深度强化学习神经网络模型的模型参数。
5、表情、眨眼动作还原:
本步骤中对面部表情及眨眼动作进行还原,自动生成口型动画;根据语音数据、预先训练好的Actor-Critic深度强化学习神经网络模型以及预先准备的数据库中的角色情绪标签信息,获取与给定语音数据和给定头像标识信息对应的上半部分脸部数据,使用Actor-Critic深度强化学习神经网络模型表达语音数据的发音特征与面部表情以及眨眼动作的相关关系。
Claims (6)
1.基于Actor-Critic算法的口型动画自动生成方法,其特征在于,
包括以下步骤:
a.采集语音数据及角色头像;
b.对语音数据进行分析获得声学特征;
c.对角色头像图片进行面部识别以及动作单元的识别,获取面部特征;
d.基于Actor-Critic算法对声学特征和面部特征进行匹配;
e.对面部表情及眨眼动作进行还原,自动生成口型动画;
步骤e中,所述对面部表情及眨眼动作进行还原,具体包括:
根据语音数据、预先训练好的Actor-Critic深度强化学习神经网络模型以及预先准备的数据库中的角色情绪标签信息,获取与给定语音数据和给定头像标识信息对应的上半部分脸部数据,使用Actor-Critic深度强化学习神经网络模型表达语音数据的发音特征与面部表情以及眨眼动作的相关关系。
2.如权利要求1所述的基于Actor-Critic算法的口型动画自动生成方法,
其特征在于,步骤b中,所述对语音数据进行分析,具体包括:
首先对原始语音数据进行预处理,加强语音信号性能,并将其分为一定数量的短帧;针对每一个短帧,通过快速傅里叶变换得到相应的频谱;将得到的频谱通过梅尔滤波器组得到梅尔频谱;在梅尔频谱上进行倒谱分析,以获得梅尔频谱倒谱系数MFCC。
3.如权利要求1所述的基于Actor-Critic算法的口型动画自动生成方法,
其特征在于,步骤c中,所述获取面部特征,具体包括:采用级联回归的方法建立ERT模型,不断迭代所预测出的特征点形状和坐标;然后基于平方误差和的梯度树算法对预测出的特征点形状和坐标进行优化,最终实现人脸的特征点检测和标注。
4.如权利要求1所述的基于Actor-Critic算法的口型动画自动生成方法,
其特征在于,步骤d中,所述基于Actor-Critic算法对声学特征和面部特征进行匹配,具体包括:根据语音数据、预先训练好的Actor-Critic深度强化学习神经网络模型以及预先处理的角色头像标识信息,获取与给定语音数据和给定头像标识信息对应的口型数据;使用训练好的Actor-Critic深度强化学习神经网络模型表达语音数据的声学特征与口型数据的口型位置特征之间的相关关系。
5.如权利要求4所述的基于Actor-Critic算法的口型动画自动生成方法,
其特征在于,所述Actor-Critic深度强化学习神经网络模型包括生成器和判别器;所述生成器用于在给定语音的基础上预测出较为真实的口型序列,采用强化学习的actor模型来实现;所述判别器用于对生成的口型动画帧进行评估,预测每个状态行为值,采用强化学习的critic模型来实现。
6.如权利要求5所述的基于Actor-Critic算法的口型动画自动生成方法,
其特征在于,所述Actor-Critic深度强化学习神经网络模型的训练方法为:
根据发音匹配从样本库中的语音数据中提取声学特征,获取当前状态下的面部表情特征,将声学特征和面部表情特征共同作为所述Actor-Critic深度强化学习神经网络模型的输入特征,将所述对应于声学特征的面部表情特征作为所述Actor-Critic深度强化学习神经网络模型的输出特征,对所述Actor-Critic深度强化学习神经网络模型进行训练,获取Actor-Critic深度强化学习神经网络模型的模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910886576.5A CN110610534B (zh) | 2019-09-19 | 2019-09-19 | 基于Actor-Critic算法的口型动画自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910886576.5A CN110610534B (zh) | 2019-09-19 | 2019-09-19 | 基于Actor-Critic算法的口型动画自动生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110610534A CN110610534A (zh) | 2019-12-24 |
CN110610534B true CN110610534B (zh) | 2023-04-07 |
Family
ID=68891767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910886576.5A Active CN110610534B (zh) | 2019-09-19 | 2019-09-19 | 基于Actor-Critic算法的口型动画自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110610534B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111243065B (zh) * | 2019-12-26 | 2022-03-11 | 浙江大学 | 一种语音信号驱动的脸部动画生成方法 |
CN111243626B (zh) * | 2019-12-30 | 2022-12-09 | 清华大学 | 一种说话视频生成方法及系统 |
CN111259785B (zh) * | 2020-01-14 | 2022-09-20 | 电子科技大学 | 基于时间偏移残差网络的唇语识别方法 |
CN112329586B (zh) * | 2020-10-30 | 2024-08-23 | 中国平安人寿保险股份有限公司 | 基于情绪识别的客户回访方法、装置及计算机设备 |
CN112562720B (zh) * | 2020-11-30 | 2024-07-12 | 清华珠三角研究院 | 一种唇形同步的视频生成方法、装置、设备及存储介质 |
CN112396182B (zh) * | 2021-01-19 | 2021-04-16 | 腾讯科技(深圳)有限公司 | 脸部驱动模型的训练和脸部口型动画的生成方法 |
CN112906650B (zh) * | 2021-03-24 | 2023-08-15 | 百度在线网络技术(北京)有限公司 | 教学视频的智能处理方法、装置、设备和存储介质 |
CN114466178A (zh) * | 2021-09-09 | 2022-05-10 | 马上消费金融股份有限公司 | 语音与图像同步性的衡量方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1466104A (zh) * | 2002-07-03 | 2004-01-07 | 中国科学院计算技术研究所 | 基于统计与规则结合的语音驱动人脸动画方法 |
CN1952850A (zh) * | 2005-10-20 | 2007-04-25 | 中国科学院自动化研究所 | 基于动态基元选取的语音驱动三维人脸动画方法 |
CN108776834A (zh) * | 2018-05-07 | 2018-11-09 | 上海商汤智能科技有限公司 | 系统增强学习方法和装置、电子设备、计算机存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6661418B1 (en) * | 2001-01-22 | 2003-12-09 | Digital Animations Limited | Character animation system |
US20140242560A1 (en) * | 2013-02-15 | 2014-08-28 | Emotient | Facial expression training using feedback from automatic facial expression recognition |
CN103218842B (zh) * | 2013-03-12 | 2015-11-25 | 西南交通大学 | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 |
CN106297792A (zh) * | 2016-09-14 | 2017-01-04 | 厦门幻世网络科技有限公司 | 一种语音口型动画的识别方法及装置 |
CN106485774B (zh) * | 2016-12-30 | 2019-11-15 | 当家移动绿色互联网技术集团有限公司 | 基于语音实时驱动人物模型的表情和姿态的方法 |
CN109903363A (zh) * | 2019-01-31 | 2019-06-18 | 天津大学 | 条件生成对抗网络三维人脸表情运动单元合成方法 |
CN110009716B (zh) * | 2019-03-28 | 2023-09-26 | 网易(杭州)网络有限公司 | 面部表情的生成方法、装置、电子设备及存储介质 |
-
2019
- 2019-09-19 CN CN201910886576.5A patent/CN110610534B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1466104A (zh) * | 2002-07-03 | 2004-01-07 | 中国科学院计算技术研究所 | 基于统计与规则结合的语音驱动人脸动画方法 |
CN1952850A (zh) * | 2005-10-20 | 2007-04-25 | 中国科学院自动化研究所 | 基于动态基元选取的语音驱动三维人脸动画方法 |
CN108776834A (zh) * | 2018-05-07 | 2018-11-09 | 上海商汤智能科技有限公司 | 系统增强学习方法和装置、电子设备、计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110610534A (zh) | 2019-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110610534B (zh) | 基于Actor-Critic算法的口型动画自动生成方法 | |
CN112465935A (zh) | 虚拟形象合成方法、装置、电子设备和存储介质 | |
US8224652B2 (en) | Speech and text driven HMM-based body animation synthesis | |
Vougioukas et al. | Video-driven speech reconstruction using generative adversarial networks | |
CN113378806B (zh) | 一种融合情感编码的音频驱动人脸动画生成方法及系统 | |
CN116250036A (zh) | 用于合成语音的照片级真实感视频的系统和方法 | |
Xie et al. | Realistic mouth-synching for speech-driven talking face using articulatory modelling | |
CN111966800B (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
CN111145282A (zh) | 虚拟形象合成方法、装置、电子设备和存储介质 | |
US20120130717A1 (en) | Real-time Animation for an Expressive Avatar | |
US20110131041A1 (en) | Systems And Methods For Synthesis Of Motion For Animation Of Virtual Heads/Characters Via Voice Processing In Portable Devices | |
KR20060090687A (ko) | 시청각 콘텐츠 합성을 위한 시스템 및 방법 | |
Fu et al. | Audio/visual mapping with cross-modal hidden Markov models | |
CN114895817B (zh) | 交互信息处理方法、网络模型的训练方法及装置 | |
KR101738142B1 (ko) | 감성 기반의 대화가 가능한 디지털 생명체 생성 시스템 및 그 제어방법 | |
CN112668407A (zh) | 人脸关键点生成方法、装置、存储介质及电子设备 | |
CN112184859B (zh) | 端到端的虚拟对象动画生成方法及装置、存储介质、终端 | |
EP4010899A1 (en) | Audio-driven speech animation using recurrent neutral network | |
CN115631267A (zh) | 生成动画的方法及装置 | |
Sargin et al. | Prosody-driven head-gesture animation | |
Tao et al. | Realistic visual speech synthesis based on hybrid concatenation method | |
Asadiabadi et al. | Multimodal speech driven facial shape animation using deep neural networks | |
Filntisis et al. | Photorealistic adaptation and interpolation of facial expressions using HMMS and AAMS for audio-visual speech synthesis | |
CN115083371A (zh) | 驱动虚拟数字形象唱歌的方法及其装置 | |
Liu et al. | Optimization of an image-based talking head system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |