CN103218842A

CN103218842A - 一种语音同步驱动三维人脸口型与面部姿势动画的方法

Info

Publication number: CN103218842A
Application number: CN2013100806564A
Authority: CN
Inventors: 侯进; 米辉辉
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2013-03-12
Filing date: 2013-03-12
Publication date: 2013-07-24
Anticipated expiration: 2033-03-12
Also published as: CN103218842B

Abstract

本发明公开了一种语音同步驱动三维人脸口型与面部姿势动画的方法，通过用户输入新的语音信息，经过预处理之后，在虚拟人的人脸头像上合成与语音同步的口型动画和面部姿势动画。本发明具体包括两个阶段，在训练阶段，通过KNN和HMM的混合模型实现语音可视化建模；在合成阶段，通过用户输入新的语音信息，先进行语音信号的特征提取，再经过KNN和HMM混合模型生成与语音信号相对应的人脸面部姿势和口型帧序列参数，经过平滑处理后，使用Xface开源软件合成更加细腻、丰富的三维人脸动画。本发明不仅具有重要的理论研究价值，而且在可视通信、虚拟会议、游戏娱乐和教学辅助等领域有着广阔的应用前景。

Description

一种语音同步驱动三维人脸口型与面部姿势动画的方法

技术领域

本发明涉及语音驱动三维人脸动画合成技术领域，具体涉及一种基于KNN与HMM混合模型的语音可视化协同发音建模。

背景技术

语音驱动三维人脸动画合成的研究是自然人机交互领域的重要内容。语音驱动三维人脸动画合成是对一个人的声音进行预处理，使之在虚拟的三维人脸头像上合成与语音对应的口型动画(lip animation)和面部表情(facial expressions)。目前，这方面的研究主要集中在合成同步、精确的口型动画，以及通过语音分析实现对面部表情的分类上，还没有一个较好的方法来实现语音同时驱动虚拟人的口型动画和面部姿势(facial gestures or visual prosody)。所谓面部姿势是指头部动作(head movements)、眼睛动作(eye movements)和眉毛动作(eyebrow movements)等非语言信息。相对于口型动画与语音有明显的关联关系，面部姿势跟语音的关联关系比较微弱，因此获得比较准确的面部姿势比较困难，这就使得语音驱动虚拟人的表情木讷、呆滞，没有较为丰富的信息反馈，从而降低了人机交互的可理解性和认知度。这是语音驱动三维人脸动画领域必须解决的瓶颈。

为了实现语音同步驱动人脸口型和面部姿势，语音可视化建模是必不可少的一步。语音可视化建模是语言信息与合成人脸的接口，是驱动人脸产生语音动画的核心结构。语音可视化模型通过分析语音信息，建立音素到视素的映射，将音素信息转换成视素信息，将语音学上的协同发音体现到视觉效果上。如何建立语音与口型、语音与面部姿势的映射关系，如何通过一个简单而完全自动化的方法来获得协同发音模型参数，使得虚拟说话人动画的生成完全自动化，并且具有一定的真实感，是我们的研究内容。现如今，绝大多数研究学者仅仅是关注语音驱动三维人脸口型动画，而将语音驱动人脸面部姿势忽略了，这就使生成的虚拟人的人脸木讷呆滞，没有任何表情信息的反馈，从而降低了人机交互的可理解性和可认知度。所以，仅仅关注语音与三维人脸口型之间的关系，是不能充分反映人脸最真实的状况。

中国专利CN101751695A(申请号：200910263558.8)公开了一种基于BP神经网络的语音驱动唇形动画的方法。其特征在于，包括以下步骤：将汉语中的音节结构采用Consonant-Vowel分类；采集若干个人的原始音频数据和视频数据；获取对应唇形信息；获取语音特征数据；对获取的唇形信息和语音特征数据进行训练和建模，依据训练的模型实时输入语音合成的唇形运动序列。该方法的可操作性不强，要求在训练样本比较充分的情况下，才有可能得到较好的判定效果，否则对于形变、尺度改变、光照改变等干扰，就不能很好地判定。并且神经网络方法存在合成动画不够连续，跳变现象较多、口型特征预测不准确、且动画流畅度和自然度欠佳的不足。

中国专利CN101930619A(申请号：201010263097.7)发明了一种基于协同过滤算法的实时语音驱动人脸唇部动画系统，通过输入实时录入的语音，使得任务头部模型做出与输入语音同步的唇部动画。系统包含有音视频编码模块，该模块对采集到的语音和人脸三维特征点运动分别进行Mel频率倒谱参数编码和MPEG-4标准中的人脸动画参数编码，由音视频编码模块得到的Mel频率倒谱参数和人脸动画参数多模态同步库；协同过滤模块使用协同过滤算法，由新输入语音的Mel频率倒谱参数编码结合Mel频率倒谱参数和人脸动画参数多模态同步库求出与语音同步的人脸动画参数；动画模块由人脸动画参数驱动人脸模型进行动画。该系统在完成语音驱动人脸动画的同时，必须在动画生成之前录制好语音文件进行唇读，不能对任意提供的朗读文本合成语音动画，所以具有一定的局限性。并且该系统仅仅是关注语音驱动三维人脸口型动画，而将语音驱动人脸姿势忽略了，这就使生成的虚拟人的人脸木讷呆滞，没有任何表情信息的反馈，从而降低了人机交互的可理解性和可认知度。

迄今为止，还没有一个较为合理而高效的方法实现语音同步驱动三维人脸口型和面部姿势动画的合成。这是因为，虽然口型跟语音之间存在着明显的关联性，但面部姿势跟语音之间的关联关系比较微弱，因此语音驱动准确的面部姿势相对困难。采用什么方法去实现语音与口型、语音与面部姿势之间的同步关联问题，使语音可以同时驱动虚拟人唇部、眼睛、眉毛、头部等部位做出一整套相应的动作，这是本发明要解决的关键问题。

发明内容

鉴于现有技术的以上缺点，本发明的目的是，探索研究一种语音同步驱动三维人脸口型与面部姿势动画的方法，使之克服现有技术的不足，尤其是克服CN101930619A仅仅注重语音驱动人脸口型动画而未考虑语音驱动虚拟人面部姿势的不足，提出一种基于KNN(K-nearest neighbour)与HMM(Hidden Markov Model)混合模型的语音可视化协同发音建模新方法。其中，拟使用KNN分类器将分好类的声韵母与口型进行映射，同时用HMM将面部的六种基本动作(眨眼与凝视，扬眉与皱眉，点头与摇头)进行建模。

本发明的目的是通过如下的手段实现的。

一种语音同步驱动三维人脸口型与面部姿势动画的方法，通过对用户的声音进行预处理，使之在虚拟人的三维人脸头像上合成与语音同步的口型动画和面姿势动画，包括以下主要步骤：

1.视素归类，为了降低口型动画合成的复杂度，根据汉语拼音中各个声母和韵母口型动作的不同，将部分声韵母根据它们所对应的口型进行视素归类，共分为16类，F₀-F₁₅；

2.建立音频/视频语料库，用高清摄录机进行录制，由20个人，10男10女，读取步骤1中的已经分好类的声韵母，同时录制好音频和视频，在录制语音的时候，采集与语音同步的脸部视频信息；

3.提取音频/视频帧特征参数，从步骤2录制得到的音频数据中提取出语音信号的音高(pitch)、音强(intensity)和13维的Mel频率倒谱系数MFCC(Mel Frequency CepstrumCoefficient)，同时，截取与语音同步的视频帧，提取视频帧中各声韵母所对应的基于MPEG-4定义的口型特征参数和面部姿势特征参数，通过相对帧作差计算以及相对位移计算可以得到人脸运动参数；

4.将步骤3中的语音信号的特征参数13—MFCC进行降维处理，利用PCA(PrincipalComponent Analysis)方法将语音信号的特征向量、口型特征参数进行降维处理，将语音信号中13—MFCC降低为4维向量，将口型特征参数降为4维向量。

5.运用k-means算法将步骤4中的语音信号的特征参数和口型特征参数进行聚类分析；

6.运用KNN分类器将步骤5中的语音信号的特征参数与口型特征参数进行训练和识别；

7.对于新输入的语音信号s，根据K-nearest neighbour准则求取相似度；通过求其相似度，然后选出相似度最大的前k个向量，这k个向量属于哪个类别的口型最多，则这个类别的口型就是与语音信号相匹配的口型；

8.将面部姿势分为六种类型：眨眼和凝视、扬眉和皱眉、点头和摇头，通过脸部部位的各种动作组合来表达不同的人脸面部信息；

9.用HMM对面部姿势进行建模，将提取的语音信号的音高和音强，与人脸六种基本面部姿势进行训练和识别；

10.训练阶段：首先，从录制的语料库中选取部分语料，使所选语料能够覆盖所有面部姿势类型且保证一定的出现概率；提取出语音信号的特征参数和面部姿势的特征参数，接着把语音特征参数作为观察值序列，通过Baum-Welch重估算法训练各相应的HMM，然后用Viterbi算法搜索并记录下语音特征参数所对应的最优状态序列；用HMM建模将面部姿势六种类型的特征参数与语音特征参数所对应的最优状态序列建立对应关系；

11.识别阶段：对新输入的语音信号进行特征提取，分析其音高和音强，然后根据训练好的HMM，将新的语音特征参数作为HMM的观察值序列，通过Veterbi算法搜索并获取最优状态序列；计算新输入语音信号与训练库中的图像观察值序列中的各个人脸面部姿势的相似或然率P(O|M)；找出最大相似或然率，对应的HMM即为与新输入的语音信号相匹配的人脸面部姿势；

12.依据以上步骤得到与语音信号相对应的人脸面部姿势和口型帧序列参数，经过平滑处理后，使用Xface开源软件合成最终的人脸动画。

本发明的有益效果：本发明提出了一种基于KNN与HMM混合模型的语音可视化协同发音建模新方法。该方法的优势在于可以实现语音同时对口型和面部姿势的驱动，从而可以简单地生成更加细腻、丰富的虚拟人脸动画。另外，本发明通过简单而完全自动化的方法来获得协同发音模型参数，使得虚拟人语音动画的生成完全自动化，并且具有一定的真实感；传统的语音驱动人脸动画方法，仅仅是关注语音驱动人脸口型动画的合成，而将语音驱动面部姿势忽略了，这就使生成的人脸木讷呆滞，没有任何表情信息的反馈，从而降低了人机交互的可理解性和可认知度。

附图说明：

图1声韵母视素归类表。

图2提取MPEG-4对应的人脸特征点图。

图3脸部姿势类型表。

图4使用KNN分类器实现语音信号与口型的分类过程示意图。

图5用HMM对面部姿势进行建模的过程示意图。

具体实施方式

下面结合附图和具体实施对本发明作进一步描述。

实施例：

下面结合附图以及具体实施例对本发明作进一步描述：

本发明的具体实施方法大致包括以下步骤：

1.视素归类，由于部分声韵母所对应的口型帧相似，本发明为了减少计算量，将部分声韵母根据它们所对应的口型进行视素归类，共分为16类，F₀-F₁₅。具体分类如图1所示。

2.建立音频/视频语料库，用高清摄录机进行录制，由20个人，10男10女，读取步骤1中的已经分好类的声韵母，同时录制好音频和视频。在录制语音的时候，采集与语音同步的脸部视频信息。为了方便语料库的检索和提取，将16组不同类别的的声韵母音频和视频信息放在不同的文件夹下。

3.提取音频/视频帧的特征参数，从录制得到的音频数据中提取出语音信号的音高、音强和13维的Mel频率倒谱系数MFCC等特征参数。同时，截取与语音同步的视频帧，提取视频帧中各声韵母所对应的基于MPEG-4定义的口型特征参数和面部姿势特征参数，如图2所示，然后计算各特征点坐标与标准帧坐标的差值Vel＝{V₁,V₂,...,V_n}，再计算按MPEG-4定义的人脸上的对应尺度参考量P＝{P₁,P₂,...,P_n}，通过公式(1)，

Fap_i＝(V_i(x|y)/P_i(x|y))*1024 (1)

即可得到人脸运动参数。其中，Fap_i表示与第i个特征点对应的人脸运动参数，V_i(x|y)表示V_i的x或y坐标，P_i(x|y)表示与V_i(x|y)对应的尺度参考量。

4.将步骤3中的语音信号的特征参数13—MFCC、口型特征参数进行降维处理。为了减少计算量，我们先利用PCA方法将语音信号的特征向量、口型帧的特征向量进行降维处理，将语音信号中13—MFCC参数降低为4维向量，将口型帧向量降为4维向量。

5.运用k-means算法将步骤4中的16.类声韵母的语音特征参数和口型特征参数分别进行聚类分析。

6.运用KNN分类器将步骤5中的语音信号的特征参数与口型特征参数进行训练和识别，如图3所示。

7.对于一个音素—视素分类的问题，我们先收集整理步骤5中的语音特征参数和口型特征参数，共有16组，表示如下：{m₁,m₂,…m_n}={(x₁,y₁),(x₂,y₂),…,(x_n,y_n)}，n=16，其中(x_i,y_i)代表第i个音素—视素特征参数m_i(比如x₁代表语音信号“b，p，m，f”的特征参数，y₁代表“b，p，m，f”的口型特征参数)，那么对于新输入的语音信号s，经过预处理之后，得到4维MFCC，因为在步骤6中训练的声韵母的音素—视素特征向量是8维向量，为了计算方便，通过在向量末端补零的方式将4维MFCC扩展成8维向量即s′，然后根据K-nearest neighbour准则，根据公式(2)，求取与训练库之间的相似度。

Similarity = 1 / \sqrt{Σ_{i = 1}^{n} {(m_{i} - s^{'})}^{2}} - - - (2)

其中，m_i代表音素—视素特征参数，s′代表经预处理之后的新输入的语音信号，n＝16。然后选出相似度最大的前k个向量，这k个向量属于哪个类别的口型最多，则这个类别的口型就是与语音信号相匹配的口型。根据经验这里选择k=5。

8.将面部姿势分为六种类型：眨眼和凝视、扬眉和皱眉、点头和摇头，如图4所示。这样我们就可以通过脸部部位的各种动作组合来表达不同的人脸面部信息。

9.用HMM对面部姿势进行建模，将提取的语音信号的音高和音强，与人脸六种基本面部姿势进行训练和识别，如图5所示。

10.训练阶段：首先，从录制的语料库中选取部分语料，使所选语料能够覆盖所有面部姿势类型且保证一定的出现概率；提取出语音信号的特征参数和面部姿势的特征参数，接着把语音特征参数作为观察值序列，通过Baum-Welch重估算法训练各相应的HMM，然后用Viterbi算法搜索并记录下语音特征参数所对应的最优状态序列；用HMM建模将面部姿势六种类型的特征参数与语音特征参数所对应的最优状态序列建立对应关系。

11.识别阶段：对新输入的语音信号进行特征提取，分析其音高和音强，然后根据训练好的HMM，将新的语音特征参数作为HMM的观察值序列，通过Veterbi算法搜索并获取最优状态序列；由于相似或然率反映了语音信号与人脸面部姿势的相似概率，因此需要计算新输入语音信号与训练库中的图像观察值序列中的各个人脸面部姿势的相似或然率P(O|M)；找出最大相似或然率，对应的HMM即为与新输入的语音信号相匹配的人脸面部姿势

完成以上各个步骤，可得到与语音信号相对应的人脸面部姿势和口型帧序列参数，经过平滑处理后，使用Xface开源软件合成最终的人脸动画。

Claims

1.一种语音同步驱动三维人脸口型与面部姿势动画的方法，通过对用户的声音进行预处理，使之在虚拟人的人脸头像上合成与语音同步的口型和面部姿势动画，包括以下主要步骤：

（1）视素归类，将部分声韵母根据它们所对应的口型进行视素归类，共分为16类，F₀-F₁₅；

（2）建立音频/视频语料库，用高清摄录机进行录制，由20个人，10男10女，读取步骤1中的已经分好类的声韵母，同时录制好音频和视频，在录制语音的时候，采集与语音同步的脸部视频信息；

（3）提取音频/视频帧特征参数，从步骤2录制得到的音频数据中提取出语音信号的音高、音强和和13维的Mel频率倒谱系数MFCC，同时，截取与语音同步的视频帧，提取视频帧中各声韵母所对应的基于MPEG-4定义的口型特征参数和面部姿势特征参数，然后计算各特征点坐标与标准帧坐标的差值Vel＝{V₁,V₂,...,V_n}，再计算按MPEG-4定义的人脸上的对应尺度参考量P＝{P₁,P₂,...,P_n}，通过公式(1)，

Fap_i＝(V_i(x|y)/P_i(x|y))*1024 (1)

得到人脸运动参数；其中，Fap_i表示与第i个特征点对应的人脸运动参数，V_i(x|y)表示的V_i的x或y坐标，P_i(x|y)表示与V_i(x|y)对应的尺度参考量；

（4）将步骤3中的语音信号的特征参数13—MFCC进行降维处理，利用PCA方法将语音信号的特征向量、口型帧的特征向量进行降维处理，将语音信号中13—MFCC降低为4维向量，将口型特征参数降为4维向量；

（5）运用k-means算法将步骤4中的语音特征参数和口型特征参数进行聚类分析；

（6）运用KNN分类器将步骤5中的语音信号的特征参数与口型特征参数进行训练和识别；

（7）对于新输入的语音信号s，根据K-nearest neighbour准则求取相似度；通过求其相似度，然后选出相似度最大的前k个向量，这k个向量属于哪个类别的口型最多，则这个类别的口型就是与语音信号相匹配的口型；

（8）将面部姿势分为六种类型：眨眼和凝视、扬眉和皱眉、点头和摇头，通过脸部部位的各种动作组合来表达不同的人脸面部信息；

（9）用HMM对面部姿势进行建模，将提取的语音信号的音高和音强，与人脸六种基本面部姿势进行训练和识别；

（10）训练阶段：首先，从录制的语料库中选取部分语料，使所选语料能够覆盖所有面部姿势类型且保证一定的出现概率；提取出语音信号的特征参数和面部姿势的特征参数，接着把语音特征参数作为观察值序列，通过Baum-Welch重估算法训练各相应的HMM，然后用Viterbi算法搜索并记录下语音特征参数所对应的最优状态序列；用HMM建模将面部姿势六种类型的特征参数与语音特征参数所对应的最优状态序列建立对应关系；

（11）识别阶段：对新输入的语音信号进行特征提取，分析其音高和音强，然后根据训练好的HMM，将新的语音特征参数作为HMM的观察值序列，通过Veterbi算法搜索并获取最优状态序列；计算新输入语音信号与训练库中的图像观察值序列中的各个人脸面部姿势的相似或然率P(O|M)；找出最大相似或然率，对应的HMM即为与新输入的语音信号相匹配的人脸面部姿势；

（12）依据以上步骤得到与语音信号相对应的人脸面部姿势和口型帧序列参数，经过平滑处理后，使用Xface开源软件合成最终的人脸动画。