CN110610534B

CN110610534B - 基于Actor-Critic算法的口型动画自动生成方法

Info

Publication number: CN110610534B
Application number: CN201910886576.5A
Authority: CN
Inventors: 谢宁; 罗宇轩; 申恒涛
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2023-04-07
Anticipated expiration: 2039-09-19
Also published as: CN110610534A

Abstract

本发明涉及计算机人工智能技术领域，其公开了一种将角色口型动画制作与强化学习相结合的基于Actor‑Critic算法的口型动画自动生成方法，解决现有技术的口型动画生成方案存在的需要大量样本数据和容易出现伪影的问题。该方法包括：a.采集语音数据及角色头像；b.对语音数据进行分析获得声学特征；c.对角色头像图片进行面部识别以及动作单元的识别，获取面部特征；d.基于Actor‑Critic算法对声学特征和面部特征进行匹配；e.对面部表情及眨眼动作进行还原，自动生成口型动画。本发明适用于需要快速、逼真地生成口型动画的场景。

Description

基于Actor-Critic算法的口型动画自动生成方法

技术领域

本发明涉及计算机人工智能技术领域，具体涉及一种将角色口型动画制作与强化学习相结合的基于Actor-Critic算法的口型动画自动生成方法。

背景技术

语音作为一种自然交流形式，在人机交互领域表现出了突出的影响力，这一点可以通过我们日常生活中日益普及的虚拟语音助手(如微软的Cortana或亚马逊的Alexa)明显看出。而通过个性化头像表达语音可使谈话更加愉快，特别是在玩家与虚拟世界中的其他角色进行通信的交互式角色扮演游戏中。但是产生逼真的口型动画的问题是极为复杂的，它需要高分辨率的面部图像，与音频同步的口型动作以及合理的面部表情。语音与口型对应存在着非常密切的同步关系，又因为人类善于捕捉面部运动和视听同步中的细微异常，所以在人脸动画中如何同步口型动画与语音的关系一直是计算机视觉以及人机交互领域的热点及难点。

现有技术中，自动口型动画的工作可以分为三大类，如图1所示，包括：

(1)插入单帧视觉单元方式：单帧可视单元插值按顺序构造静态目标口型，并在它们之间进行插值以生成中间动画帧。这种方法的一个好处是只需要定义少量形状(例如每个音素对应一个)。然而，动画的真实性在很大程度上取决于插值如何很好地捕获视觉共同点和动态。人们可以手工制作这种插值函数或采用基于视觉语音参数统计的数据驱动方法。这些方法对插值的静态性质做出了强有力的假设，却没有解决依赖于上下文的协同关系。这个问题通过使用协方差矩阵来定义允许特定口型变形多少，但是协方差矩阵本身是固定的，会导致不自然的变形。

(2)连接现有视觉数据的片段方式：基于样本的合成将现有语音对应的视觉数据的短序列拼接在一起，这些短序列对应于固定长度(例如单词或音素)或可变长度。单元选择通常涉及基于语音上下文和平滑度来最小化成本函数。而由于上下文通常仅考虑音素标识，因此需要大量数据来确保在所有上下文中有足够的覆盖。

(3)采样生成统计模型的方式：比如GMMs、转换线性动力系统、转换共享高斯过程动力学模型，循环神经网络，或隐马尔可夫模型(HMM)及其变体。然而，由于状态数量有限以及参数的平滑性约束，合成可能会出现在明显的伪影。

发明内容

本发明所要解决的技术问题是：提出一种基于Actor-Critic算法的口型动画自动生成方法，解决现有技术的口型动画生成方案存在的需要大量样本数据和容易出现伪影的问题。

本发明解决上述技术问题采用的技术方案是：

基于Actor-Critic算法的口型动画自动生成方法，包括以下步骤：

a.采集语音数据及角色头像；

b.对语音数据进行分析获得声学特征；

c.对角色头像图片进行面部识别以及动作单元的识别，获取面部特征；

d.基于Actor-Critic算法对声学特征和面部特征进行匹配；

e.对面部表情及眨眼动作进行还原，自动生成口型动画。

作为进一步优化，步骤b中，所述对语音数据进行分析，具体包括：

首先对原始语音数据进行预处理，加强语音信号性能，并将其分为一定数量的短帧；针对每一个短帧，通过快速傅里叶变换得到相应的频谱；将得到的频谱通过梅尔滤波器组得到梅尔频谱；在梅尔频谱上进行倒谱分析，以获得梅尔频谱倒谱系数MFCC。

作为进一步优化，步骤c中，所述获取面部特征，具体包括：

采用级联回归的方法建立ERT模型，不断迭代所预测出的特征点形状和坐标；然后基于平方误差和的梯度树算法对预测出的特征点形状和坐标进行优化，最终实现人脸的特征点检测和标注。

作为进一步优化，步骤d中，所述基于Actor-Critic算法对声学特征和面部特征进行匹配，具体包括：

根据语音数据、预先训练好的Actor-Critic深度强化学习神经网络模型以及预先处理的角色头像标识信息，获取与给定语音数据和给定头像标识信息对应的口型数据；使用训练好的Actor-Critic深度强化学习神经网络模型表达语音数据的声学特征与口型数据的口型位置特征之间的相关关系。

作为进一步优化，所述Actor-Critic深度强化学习神经网络模型包括生成器和判别器；所述生成器用于在给定语音的基础上预测出较为真实的口型序列，采用强化学习的actor模型来实现；所述判别器用于对生成的口型动画帧进行评估，预测每个状态行为值，采用强化学习的critic模型来实现。

作为进一步优化，所述Actor-Critic深度强化学习神经网络模型的训练方法为：

根据发音匹配从样本库中的语音数据中提取声学特征，获取当前状态下的面部表情特征，将声学特征和面部表情特征共同作为所述Actor-Critic深度强化学习神经网络模型的输入特征，将所述对应于声学特征的面部表情特征作为所述Actor-Critic深度强化学习神经网络模型的输出特征，对所述Actor-Critic深度强化学习神经网络模型进行训练，获取Actor-Critic深度强化学习神经网络模型的模型参数。

作为进一步优化，步骤e中，所述对面部表情及眨眼动作进行还原，具体包括：

根据语音数据、预先训练好的Actor-Critic深度强化学习神经网络模型以及预先准备的数据库中的角色情绪标签信息，获取与给定语音数据和给定头像标识信息对应的上半部分脸部数据，使用Actor-Critic深度强化学习神经网络模型表达语音数据的发音特征与面部表情以及眨眼动作的相关关系。

本发明的有益效果是：

(1)生成的口型动画能够准确地反应在整个视频中复杂的说话的过程，包括满足整个口型与语音的协同性，同时可以生成带有情感因素的口型动画。

(2)在口型同步动画的生成中，将强化学习及GAN相结合，利用强化学习可以反复试错，生成多个状态-行为集的特点，将其作为GAN网络的输入，就不需要大量的数据集样本进行训练，从而解决训练样本不足的问题，同时可以规避强化学习由于无ground truth数据指导产生的视频生成中的伪影，因为引入GAN网络，所以需要一定量的真实数据，通过真实数据的加入可以生成更加生动的、与音频数据更加同步匹配的动画。

附图说明

图1为现有技术中自动口型动画的生成方案；

图2为本发明中基于Actor-Critic算法的口型动画自动生成方法流程图。

具体实施方式

本发明旨在提出一种基于Actor-Critic算法的口型动画自动生成方法，解决现有技术的口型动画生成方案存在的需要大量样本数据和容易出现伪影的问题。其核心思想是：在口型同步动画的生成中，将强化学习及GAN相结合，采用Actor-Critic模型来表达声音与面部表情及动作的相关性，自动生成口型动画，以降低训练样本不足的缺陷，同时可以规避强化学习由于无ground truth数据指导产生的视频生成中的伪影，生成更加生动的、与音频数据更加同步匹配的动画。此外，由于对面部表情和眨眼等动作进行处理，使得生成的口型动画更加逼真，同时能够考虑语音中的情绪特征。

在具体实现上，如图2所示，本发明中的基于Actor-Critic算法的口型动画自动生成方法包括以下实现步骤：

1、获取数据：

本步骤中采集原始语音数据及角色头像；

2、语音数据分析：

本步骤中对语音数据进行分析获得声学特征；语音数据分析可以对任何语言、任意长度的原始语音数据进行预处理，加强语音信号性能，并将其分为若干个短帧；对每一个短时分析窗，通过快速傅里叶变换得到相应的频谱；将得到的频谱通过梅尔滤波器组得到梅尔频谱，它可以将线性的自然频谱转换为体现人类听觉特性的频谱；在梅尔频谱上进行倒谱分析，以获得梅尔频谱倒谱系数(MFCC)。MFCC可以有效的展示并保存语音的背景信息，同时准确地描述出声道在语音短时功率谱的包络中的形状，以方便对产生的音素进行准确地表现。

3、角色头像标注：

本步骤中对角色头像图片进行面部识别以及动作单元的识别，获取面部特征；即为对输入角色头像图片进行特征点标记，需要对人脸对齐，在已知的人脸方框上定位准确的形状；采用级联回归的方法建立ERT模型，不断迭代所预测出的特征点形状和坐标；基于平方误差和的梯度树算法进行优化。实现人脸68个特征点检测并标注。使用基于特征选择的相关性方法把目标输出投影到一个随机方向上，并且选择一对特征，使得这对特征的误差与被投影的目标在训练数据上拥有最高的样本相关性。

4、Actor-Critic算法特征匹配：

本步骤中基于Actor-Critic算法对声学特征和面部特征进行匹配；

Actor-Critic深度强化学习神经网络模型分为两个部分：生成器和判别器。生成器在给定语音的基础上预测出较为真实的口型序列，在这里通过使用强化学习的actor模型来改进序列生成；判别器对生成的口型动画帧进行评估，预测每个状态行为值，在这里使用强化学习的critic模型来表示。

我们将口型同步动画生成理解为强化学习的过程，其中在时间步t时的状态s_t理解为当前已生成的面部表情特征a_t-1以及当前需要即将处理的音频特征v_t，其中默认初始时间步t₁时的状态中的面部表情为中立情绪下的固定表情；而动作a_t为即将生成的面部表情特征。因此策略生成模型是随机的，只有在状态和生成的动作确定的情况下才可以确定下一个状态。在口型动画的训练过程中，我们引入真实的口型动画视频作为训练集的一部分，与生成模型生成的假数据相结合共同作用于评价模型，使用的Actor-Critic模型表达语音数据的发音特征与口型数据的口型位置(即下半部分脸标记)特征之间的相关关系。所述样本库中的语音数据和所对应的视频数据训练Actor-Critic深度强化学习神经网络模型，获取Actor-Critic深度强化学习神经网络模型的模型参数的步骤包括：根据所述发音匹配从所述样本库中的语音数据中提取声学特征，获取当前状态下的面部表情特征，将声学特征和面部表情特征共同作为所述Actor-Critic深度强化学习神经网络模型的输入特征，将所述对应于声学特征的面部表情特征作为所述Actor-Critic深度强化学习神经网络模型的输出特征，对所述Actor-Critic深度强化学习神经网络模型进行训练，获取Actor-Critic深度强化学习神经网络模型的模型参数。

5、表情、眨眼动作还原：

本步骤中对面部表情及眨眼动作进行还原，自动生成口型动画；根据语音数据、预先训练好的Actor-Critic深度强化学习神经网络模型以及预先准备的数据库中的角色情绪标签信息，获取与给定语音数据和给定头像标识信息对应的上半部分脸部数据，使用Actor-Critic深度强化学习神经网络模型表达语音数据的发音特征与面部表情以及眨眼动作的相关关系。

Claims

1.基于Actor-Critic算法的口型动画自动生成方法，其特征在于，

包括以下步骤：

a.采集语音数据及角色头像；

b.对语音数据进行分析获得声学特征；

d.基于Actor-Critic算法对声学特征和面部特征进行匹配；

e.对面部表情及眨眼动作进行还原，自动生成口型动画；

步骤e中，所述对面部表情及眨眼动作进行还原，具体包括：

2.如权利要求1所述的基于Actor-Critic算法的口型动画自动生成方法，

其特征在于，步骤b中，所述对语音数据进行分析，具体包括：

3.如权利要求1所述的基于Actor-Critic算法的口型动画自动生成方法，

其特征在于，步骤c中，所述获取面部特征，具体包括：采用级联回归的方法建立ERT模型，不断迭代所预测出的特征点形状和坐标；然后基于平方误差和的梯度树算法对预测出的特征点形状和坐标进行优化，最终实现人脸的特征点检测和标注。

4.如权利要求1所述的基于Actor-Critic算法的口型动画自动生成方法，

其特征在于，步骤d中，所述基于Actor-Critic算法对声学特征和面部特征进行匹配，具体包括：根据语音数据、预先训练好的Actor-Critic深度强化学习神经网络模型以及预先处理的角色头像标识信息，获取与给定语音数据和给定头像标识信息对应的口型数据；使用训练好的Actor-Critic深度强化学习神经网络模型表达语音数据的声学特征与口型数据的口型位置特征之间的相关关系。

5.如权利要求4所述的基于Actor-Critic算法的口型动画自动生成方法，

其特征在于，所述Actor-Critic深度强化学习神经网络模型包括生成器和判别器；所述生成器用于在给定语音的基础上预测出较为真实的口型序列，采用强化学习的actor模型来实现；所述判别器用于对生成的口型动画帧进行评估，预测每个状态行为值，采用强化学习的critic模型来实现。

6.如权利要求5所述的基于Actor-Critic算法的口型动画自动生成方法，

其特征在于，所述Actor-Critic深度强化学习神经网络模型的训练方法为：