CN101930619A

CN101930619A - 基于协同过滤算法的实时语音驱动人脸唇部同步动画系统

Info

Publication number: CN101930619A
Application number: CN2010102630977A
Authority: CN
Inventors: 陶建华; 穆凯辉; 车建峰
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2010-08-25
Filing date: 2010-08-25
Publication date: 2010-12-29

Abstract

本发明是基于协同过滤算法的实时语音驱动人脸唇部同步动画系统，通过实时录入语音，使得人物头部模型做出与输入语音同步的唇部动画。系统包含有音视频编码模块，该模块对采集到的语音和人脸三维特征点运动信息分别进行Mel频率倒谱参数编码和“动态图像专家组”(MPEG-4)标准中的人脸动画参数编码，由音视频编码模块得到Mel频率倒谱参数和人脸动画参数多模态同步库；协同过滤模块使用协同过滤算法，由新输入语音的Mel频率倒谱参数编码结合Mel频率倒谱参数和人脸动画参数多模态同步库求出与语音同步的人脸动画参数；动画模块由人脸动画参数驱动人脸模型进行动画。本发明系统有较好的真实感，实时性以及更广泛的应用环境。

Description

基于协同过滤算法的实时语音驱动人脸唇部同步动画系统

技术领域

本发明涉及一种语音驱动人脸动画系统，具体地涉及基于协同过滤算法的实时语音驱动人脸唇部同步动画系统。

背景技术

和谐人机交互技术一直都是人们关注的对象，语音驱动的人脸唇部动画技术是其重要组成部分，它能够对一个人的声音进行处理，使之在合成的人脸头像上进行与语音同步的人脸唇部动画，其研究成果对人脸动画、人机对话等方向的发展具有重要的意义。而目前已有的大多数人脸语音同步唇部动画技术一般基于语音识别技术，这种技术必须首先进行语音识别，从得出的音素出发来形成相应的视位。视位是与语音的音素相对应的关键嘴型。连续的视位拼接起来即可形成人脸唇部动画。由于目前语音识别本身的识别率比较低，速度也比较慢。与之相比，直接从语音得到动画参数的方法会更加有效。

发明内容

为了解决现有技术问题，本发明的目的是采用基于样本的语音驱动唇部动画方法，能够实现连续语音帧到唇部动画帧的同步转换。其优点是能够在唇部动画时保留语音的时间和能量结构信息，唇部动画能很好体现原始语音的韵律变化。另外该系统易于在与MPEG-4兼容的头像模型间进行移植，可以进行男女声的语音驱动唇部动画；本发明的系统易于实现，录制的双模态语音动画数据库不需要人工标注。系统能根据算法产生库中不存在的动画参数，使得系统有着丰富的表现力；为此，本发明构建一种基于协同过滤算法的实时语音驱动人脸唇部同步动画系统。

为实现上述目的，本发明的一种基于协同过滤算法的实时语音驱动人脸唇部同步动画系统包括音视频编码模块、协同过滤模块和人脸动画模块，其中：

利用数字录音设备，实时地接收输入的语音信号，并实时地输出与语音同步的人脸唇部动画，在生成多模态同步库时不需要手工标注，可任意输入男女语音进行语音驱动的唇部动画；

在离线过程中，首先利用多模态数据采集设备同步地采集录制说话人在说话中语音和人脸三维特征点运动信息；音视频编码模块的输入端接收来自多模态数据采集设备采集到的语音和人脸三维特征点运动信息，对其中的语音信息和人脸三维特征点运动信息分别进行Mel频率倒谱参数(MFCC)编码和人脸动画参数(FAP)编码；在实时过程中，音视频编码模块的输入端接收来自数字录音设备实时录制的语音信息；音视频编码模块具有一输出端，在离线过程中输出MFCC-FAP多模态同步库；在实时过程中输出语音的Mel频率倒谱参数；

协同过滤模块与音视频编码模块连接，协同过滤模块输入端接收来自于音频编码模块生成的Mel频率倒谱参数、音视频编码模块生成Mel频率倒谱参数和人脸动画参数多模态同步库中的多模态数据；协同过滤模块具有一输出端输出使用协同过滤算法实时生成与输入语音同步的人脸动画参数；

人脸动画模块与协同过滤模块连接，人脸动画模块输入端接收来自于协同过滤模块生成的人脸动画参数，将这些人脸动画参数转化成人脸模型的运动信息；人脸动画模块具有一输出端输出人脸动画参数，并由人脸动画参数驱动二维或三维人脸模型进行人脸唇部动画。

其中：所述音视频编码模块包括音频编码子模块、Mel频率倒谱参数归一化处理子模块、视频编码子模块以及MFCC-FAP同步处理子模块，其中：

音频编码子模块，其输入端接收由多模态数据采集设备同步录制的语音信息，对语音信息进行语音信号的Mel频率倒谱参数编码；

Mel频率倒谱参数归一化子模块与音频编码子模块连接，对音频进行编码，所述编码的过程应用于离线过程中对多模态数据中的语音信息进行的编码，也用于实时过程中对录入语音信息进行编码；

视频编码子模块，其输入端接收由多模态数据采集设备同步录制的人脸三维特征点运动信息、记录了标定好的人脸三维特征点位置的变化，对这些位置信息进行人脸动画参数编码；

MFCC-FAP同步处理模块分别与Mel频率倒谱参数归一化子模块和视频编码子模块相连接，MFCC-FAP同步处理模块同步接收离线过程中对录入语音信息的编码及人脸动画参数编码；从而形成Mel频率倒谱参数和人脸动画参数多模态同步库。

本发明的有益效果：本发明的第一方面，为实现上述目的，在该框架中，通过基于协同过滤算法实现语音到人脸的唇部动画。传统的基于语音识别的人脸唇部动画系统，往往需要语音识别模块进行辅助，由语音识别模块得出语音对应的音素，从音素得出对应的视位，这种方法不仅需要语音识别模块比较准确，而且也要求音素对应的视位也应该准确，很多时候音素对应的视位的选择需要人工仔细的挑选，这样往往需要耗费大量的人力。但是在本方法是从语音直接求取动画参数，不要手工去挑选音素对应的视位信息，从而大大降低了系统实现的复杂度和人工参与。

本发明的第二个方面，为实现上述目的，本发明能够在用户实时输入语音信息时同步地输出人脸动画。传统的基于语音识别的方法必须要依据上下文信息才能得出识别的音素信息，这样就降低了系统的反应能力，从而不能实时地输出用户输入语音同步的人脸动画。

本发明的第三方面，为实现上述目的，本发明能够实现在合成语音同步动画时保留语音中的韵律信息。在使用语音识别方法进行的人脸动画中，由于只是识别出音素，无法保留语音中含有的韵律信息，从而无法保留语音的时间和能量结构信息，但是本发明是基于实时录入语音的韵律结构来合成人脸唇部动画参数的，从而能在动画中保留语音的韵律结构。

附图说明

通过以下结合附图的详细描述，本发明的上述和其它方面、特征和优点将变得更加显而易见。附图中：

图1是本发明所提出的基于协同过滤算法的实时语音驱动人脸唇部同步动画总体框图。

图2是本发明的音视频处理模块的框图。

图3是本发明的协同过滤模块的框图。

图4是本发明的人脸动画模块的框图。

具体实施方式

下面结合附图和实例对本发明进一步说明，通过结合附图对系统各组成部件的详细说明将会更好地描述实现本发明的步骤和过程。

图1示出基于协同过滤算法的实时语音驱动人脸唇部同步动画系统示意图，系统以C语言编写，在windows平台下可使用visual studio编译运行，在linux平台下可使用GNU编译器套装(GCC)编译运行。在图1本发明的优选实施方案中，本发明系统被分为三部分：音视频编码模块1、协同过滤模块2、人脸动画模块3组成。其中，利用多模态数据采集设备同步地采集录制说话人在说话中语音和人脸三维特征点运动信息；利用数字录音设备，实时地接收输入的语音信号，并实时地输出与语音同步的人脸唇部动画，在生成多模态同步库时不需要手工标注，可任意输入男女语音进行语音驱动的唇部动画；多模态数据以及实时语音输入信号与音视频编码模块1相连接，由音视频编码模块1产生编码参数，协同过滤模块2与音视频编码模块1连接，协同过滤模块2与人脸动画模块3相连接。

在离线过程中，音视频编码模块1的输入端接收来自多模态数据采集设备采集到的语音和三维特征点运动信息，对语音信息和人脸三维特征点运动信息分别进行Mel频率倒谱参数(MFCC)编码和人脸动画参数(FAP)编码；在实时过程中，音视频编码模块1的输入端接收来自数字录音设备实时录制的语音信息；音视频编码模块1具有一输出端，在离线过程中音视频编码模块输出Mel频率倒谱参数和人脸动画参数(MFCC-FAP)多模态同步库；在实时过程中输出语音的Mel频率倒谱参数。

协同过滤模块2的输入端接收来自于实时过程中音视频编码模块1生成的Mel频率倒谱参数以及在实时过程中由音视频编码模块1生成MFCC-FAP多模态同步库；协同过滤模块2具有一输出端输出使用协同过滤算法实时生成与输入语音同步的人脸动画参数。

人脸动画模块3输入端接收来自于协同过滤模块2生成的人脸动画参数，将这些人脸动画参数转化成人脸模型的运动信息；人脸动画模块3具有一输出端输出的人脸动画参数，并由人脸动画参数驱动人脸模型进行人脸唇部动画。

如图2音视频编码模块的框图所示：音视频编码模块1由音频编码子模块10，Mel频率倒谱参数归一化处理子模块20，视频编码子模块30以及MFCC-FAP同步处理子模块40组成，其中音频编码子模块10与Mel频率倒谱参数归一化处理子模块20相连接，组成了音频编码过程。视频编码子模块30与MFCC-FAP同步处理模块40相连接，最终形成MFCC-FAP多模态同步库。

音频编码子模块10：其输入端接收由多模态数据采集设备录制多模态数据中的语音信号，对该语音信息进行语音信号的Mel频率倒谱参数语音编码。编码后的语音参数总共有39维，其中有12维静态Mel频率倒谱参数和一维的能量参数，以及上述13维参数的一阶和二阶动态参数。在求取一阶动态参数时考虑了当前帧的前后各两帧的Mel频率倒谱参数的静态参数和一维能量参数。在求取二阶参数时同样考虑了当前帧的前后各两帧的一阶动态参数。在求取Mel频率倒谱参数时帧长为20ms，帧移为10ms。

Mel频率倒谱参数归一化子模块20：在协同过滤模块4中需要使用到K近邻算法求取最近的K个语音参数候选值，这样就需要计算语音参数之间的相似度，但是往往从音频编码子模块10得出的39维语音参数每一维的变化范围都不一样，这样在计算相似度时某些维会对相似度的影响特别大，而另一些维的影响很小。为了平衡这种影响，把39维语音参数的每一维都归一化到-1到1之间，即使用每一维的最大绝对值分别去除各维的语音参数。

音频编码子模块10和Mel频率倒谱参数归一化子模块20连接，形成了音频编码过程，这一过程既应用于离线过程中对多模态数据中的语音信息进行的编码，也用于实时过程中对录入语音信息进行的编码。

视频编码子模块30：接收多模态数据中的人脸三维特征点运动信息、记录了标定好的人脸三维特征点位置的变化，对这些位置信息进行人脸动画参数编码。人脸动画参数编码是“动态图像专家组”(MPEG-4)标准对人脸运动信息的编码方式。这种编码方式首先定义一个中性脸和84个人脸特征点，然后通过中性脸定义出一些脸部动画参数单元(FAPU)。当人脸三维特征点进行运动时，利用中性脸型计算出在每帧运动中每个特征点的相对位移，这些相对位移再通过脸部动画参数单元(FAPU)加权生成最终的人脸动画参数。每个特征点对应一个人脸动画参数。在系统中只考虑了与唇动和下颌运动相关的25个人脸动画参数，形成25维人脸动画参数，在多模态数据采集中使用了75帧的采样频率。

MFCC-FAP同步处理子模块40分别与Mel频率倒谱参数归一化子模块20和视频编码子模块30相连接，由于多模态数据采集设备同步地对语音和人脸三维特征点运动信息进行同步录制，但是在进行语音参数和人脸动画参数编码时出现帧数不一样的现象。这步处理是将75帧的人脸动画参数扩展成100帧，这样就能与语音参数的100帧一一对应。

如图3协同过滤模块的框图所示：接收离线过程中由音视频编码模块1生成MFCC-FAP多模态同步库以及实时过程中由音视频编码模块1中的音频编码过程所生成的语音参数，生成动画使用的人脸动画参数。协同过滤算法是网络推荐系统中常用的方法，其基本思想是用与用户行为相似的其他用户的行为给用户推荐合适的东西或者物品。使用相同的思路，在MFCC-FAP多模态同步库中找出与当前语音参数相似的Mel频率倒谱参数，这样就找到了一些候选的MFCC-FAP对，候选语音参数对应的人脸动画参数即可作为推荐的动画参数。其具体包括K近邻搜索子模块50，人脸动画参数加权子模块60，最终生成可用于动画的人脸动画参数。

K近邻搜索子模块50：使用音视频编码模块1生成的Mel频率倒谱参数，在MFCC-FAP多模态同步库中搜索相似的Mel频率倒谱参数，这些Mel频率倒谱参数对应的人脸动画参数作为候选人脸动画参数保留下来。系统中使用的相似度公式为：

similarity = 1 / (1 + \sqrt{Σ_{i = 1}^{n} {(x_{i} - y_{i})}^{2}}),

其中，n为39，x_i及y_i为39维Mel频率倒谱参数的各维参数，similarity为求出的相似度值。根据求出的相似度，选取相似度最大的K个MFCC-FAP对作为后续求取人脸动画参数的候选，这里K依据经验选取为5。

人脸动画参数加权子模块60：在求取K个候选MFCC-FAP对后，利用每个候选相似度的值对每个候选进行加权处理，这样就可以得出最后使用人脸动画参数，使用公式为：

{FAP}_{final} = Σ_{k = 1}^{K} {FAP}_{k} \cdot {similarity}_{k} / K,

其中，FAP_k是一个25维的向量，表示候选帧的人脸动画参数，FAP_final是最后求取的动画参数值，用于人脸动画模块的动画。

如图4人脸动画模块的框图所示：人脸动画模块3接收协同过滤模块2生成的人脸动画参数，经过人脸动画参数解码子模块70最后驱动人脸模型进行动画。

人脸动画参数解码子模块70：接收协同过滤模块2生成人脸动画参数，根据人脸模型提供的人脸动画参数单元(FAPU)，对人脸动画参数进行解码产生最后的人脸三维特征点运动信息，这些运动信息将驱动人脸模型中进行人脸动画。人脸模型可以是二维模型也可以是三维模型。

上述实施例为本发明的较佳实施例。根据本发明的主要构思，本领域普通技术人员均可以产生多种相类似的或等价的应用，为此，本发明的范围不应由该描述来限定。本领域的技术人员应该理解，在不脱离本发明的范围的任何修改或局部替换，均属于本发明权利要求来限定的范围。

Claims

1.一种基于协同过滤算法的实时语音驱动人脸唇部同步动画系统，其特征在于包括音视频编码模块、协同过滤模块和人脸动画模块，其中：

2.根据权利要求1所述的基于协同过滤算法的实时语音驱动人脸唇部同步动画系统，其特征在于：所述音视频编码模块包括音频编码子模块、Mel频率倒谱参数归一化处理子模块、视频编码子模块以及MFCC-FAP同步处理子模块，其中：