CN103258340A

CN103258340A - 富有情感表达能力的三维可视化中文普通话发音词典的发音方法

Info

Publication number: CN103258340A
Application number: CN201310134116XA
Authority: CN
Inventors: 於俊; 江辰; 汪增福
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2013-04-17
Filing date: 2013-04-17
Publication date: 2013-08-21
Anticipated expiration: 2033-04-17
Also published as: CN103258340B

Abstract

本发明提供一种富有情感表达能力的三维可视化中文普通话发音词典的发音方法，涉及语音可视化、语言教学、发音器官动画、人脸动画技术领域，该方法不仅产生发音器官动画，也同时产生具有生动表情的人脸动画，该方法有如下特性：(1)基于真实捕捉的运动数据和发音器官的生理运动机理和隐马尔可夫模型，使得建立的发音器官动画具有与人脸动画相关的协调一致性，且能够充分描述连续语音动画中的协同发音现象；(2)利用生理模型的优势和数据驱动模型在刻画人脸局部细节特征和真实感方面所具有的优势，将数据驱动模型嵌入到生理模型中，从而生成高真实感的人脸动画。对该系统的客观性能测试和主观互动测试验证了其在智能辅助语言教学方面的有效性。

Description

富有情感表达能力的三维可视化中文普通话发音词典的发音方法

技术领域

本发明涉及语音可视化、语言教学、发音器官动画、人脸动画技术领域，具体涉及一种富有情感表达能力的三维可视化中文普通话发音词典的发音方法，其是一种能通过计算机虚拟三维人脸模型达到普通话发音，从而达到语音可视化以及教学娱乐等目的的技术。

背景技术

语音可视化技术已被广泛应用到语音动画和为听力受损者服务中去。早期的工作通过专注于嘴唇部位的可视化来理解语音，而当前的工作通过建模精细化的人脸模型来更好地感知语音的内容，主要包括三个方面的发展：首先是在人脸模型中加入2D或3D发音器官模型；其次是采集同步的语音数据和发音器官运动数据；再次是通过上述有限的训练数据来合成出任意发音过程对应的发音器官运动。

伴随着对语音产生、合成和感知的深入研究，语音可视化技术逐渐被应用到可视化发音词典研究中来。主要做法是，通过建模音素级别的发音器官运动情况和协同发音的影响，在透明化显示皮肤的情况下，同时合成/播放语音和展示皮肤内外发音器官的运动情况。在获取上述多模态信息后，语言学习者能够很容易学习和模仿外语中的语言发音情况。然而在传统的语言教学中，教师需要面对面的指导学生如何发音，比如舌头的运动和唇形等，这非常耗时且人力成本较大。为了缓解这种矛盾，目前已有制作好的发音动画来辅助语言教学，但它们要么是2D图片，太过简单，要么需要离线繁琐的3D人工制作。鉴于上述问题，构建自动的、能跟学习者自由交互的、语音3D可视化的发音词典系统是极具意义的研究课题。

目前，可视化发音词典研究在以下几个方面有可喜进展，但也面临着巨大挑战，这也是本发明研究的出发点。

发明内容

本发明的目的在于：提供一种富有情感表达能力的三维可视化中文普通话发音词典的发音方法，基于真实捕捉的运动数据和发音器官的生理运动机理，并采用隐马尔可夫模型建立的发音器官运动模型。

本发明采用的技术方案为：一种富有情感表达能力的三维可视化中文普通话发音词典的发音方法，基于真实捕捉的运动数据和发音器官的生理运动机理，并采用隐马尔可夫模型建立的发音器官运动模型；该发音器官运动模型，其表现的动画具有与人脸动画相关的协调一致性，且能够充分描述连续语音动画中的协同发音现象；该发音器官运动模型结合了生理模型在直接控制表情内容和力度变化方面所具有的优势和数据驱动模型在刻画人脸局部细节特征和真实感方面所具有的优势；将数据驱动模型嵌入到生理模型中，从而生成内容与力度多变、高真实感的人脸动画；其中：

首先采集母语是中文普通话的训练者的数据集，并据此来构建可视化发音词典系统，然后该系统能够指导母语不是中文普通话的学习者能够有效地学习该语言的发音过程；

具体过程是，训练者在朗读数据集中发音语料的时候，利用录音设备录入音频，与此同时同步地利用EMA(Electro-Magnetic Articulography)记录下3D发音器官的运动轨迹，并且利用语音识别工具或人工标注得到音素级的时间同步信息；在录制发音器官运动数据时，将10个传感器贴在头部某些位置，用来记录头部和发音器官舌、上唇和下唇的运动；选取三个参考点：两侧耳后和鼻梁，记为H_1,2,3；记录发音时头的旋转和平移运动；记录舌面上从舌尖到舌背上三个位置的运动，记为T_1,2,3，T₁距舌尖大约1cm，T₁与T₂，T₂与T₃之间相距大约1cm；此外，还有四个传感器L_1,2,3,4分别记录左嘴角、上唇、下唇和右嘴角的运动，其中，T_1,2,3和L_1,2,3,4处传感器记录得到的运动是头部运动和发音器官运动两者之和；以H_1,2,3为依据，经过适当的旋转和平移可以得到T_1,2,3和L_1,2,3,4在发音过程中的运动轨迹；然后对应到采用的人脸三维模型上的位置。

其中，基于隐马尔可夫模型(Hidden Markov Model:HMM)的发音器官运动合成，包括：特征提取阶段、训练阶段和合成阶段；

在特征提取阶段，将T_1,2,3和L_1,2,3,4在发音过程中与首帧数据的相对运动轨迹，以及时域上的一阶和二阶差分作为特征向量o_t，即o_t＝[c_t′,Δc_t′,Δ²c_t′]′，Δc_t＝0.5·(c_t+1-c_t-1)，Δ²c_t＝c_t+1-2·c_t+c_t-1，c_t是t时刻的T_1,2,3和L_1,2,3与首帧的T_1,2,3和L_1,2,3的差值；

在训练阶段，首先每个单音素HMM模型采取从左到右的拓扑结构，且每个都有3个状态，均采用混合高斯模型来建模；然后使用基于最大似然准则的期望最大化算法(EM)来训练得到这些HMM模型；最后对这些音素模型进行上下文聚类得到上下文相关的HMM模型；

在合成阶段，首先将文本输入到语音合成器来，并得到音素序列和各个音素的时长，然后根据音素序列/时长、训练得到的HMM模型和基于最大似然准则的MLPG算法来合成发音器官运动轨迹c，即：

[W′Σ^-1W]·c＝W′Σ^-1μ (1)

μ和Σ是对应于t时刻每个状态的均值和方差，W是权值矩阵。

其中，在合成了舌头和嘴唇上传感器(T_1,2,3和L_1,2,3,4)的运动轨迹后，整体的动画合成如下：

舌头动画：

舌头的复杂运动的参数化过程是：通过三阶非均匀有理B样条(NURBS)曲面拟合得到参数化三维舌头模型，在得到参数化三维舌头模型后，就要对其进行运动控制，具体做法是，根据T_1,2,3的位置，舌头模型上其他的顶点的值由NURBS曲面插值得到；

嘴唇动画：

根据L_1,2,3,4的位置，嘴唇模型上其他的顶点的值由Waters肌肉模型得到，该模型根据脸部肌肉的运动特性和方向性特性，建立了与底层骨骼相互独立的向量肌肉模型，且每个肌肉向量都有各自的影响域，并通过它们的运动来产生人脸动画。

其中，数据驱动人脸动画模型的建模过程有以下几个步骤。

(1)首先，对于输入的一幅人脸图像，利用动态外观模型(Active appearance model:AAM)来定位其中的特征点；

(2)接着，依据特征点的位置，输入人脸图像被变形到标准形状纹理图像，与此同时，标准形状纹理图像中每个像素点在输入人脸图像中对应像素点的坐标和纹理值被记载下来；

(3)然后，利用输入的纹理值和学习得到的映射关系，得到深度估计图像；

(4)最后，对于标准形状图像中的每一个像素，根据已经记载的像素点的坐标和纹理值，以及深度估计值，得到三维模型上的一个顶点，由这些顶点组成的点云数据经过三角化后得到三维表面，从而最终获得完整的人脸三维模型。

其中，数据驱动模型到生理模型的嵌入方式为：结合生理模型在直接控制表情内容和力度变化方面所具有的优势和数据驱动模型在刻画人脸局部细节特征和真实感方面所具有的优势，将数据驱动模型嵌入到生理模型中，从而生成内容与力度多变、高真实感的人脸动画；

因为每个肌肉作用范围内各受力点的运动力度与该肌肉的力度系数r呈正比，所以将r看作决定表情内容与力度的肌肉参数；

因此，如果能获得由肌肉参数r到数据驱动模型中从纹理到深度映射关系a的映射关系ψ(·):r→a，就可以通过改变r来获得对应的a，从而控制表情内容与力度的变化，进而结合了生理模型与数据驱动模型各自具有的特点和优势，生成内容与力度多变、高真实感的人脸动画；具体过程如下：

采用如下的映射函数形式：

其中，N是肌肉数目，a^neural为中性表情下的纹理到深度映射关系，

为单个肌肉对表情的贡献，其中

为每个肌肉的影响程度函数，采用径向基函数来描述，w_i为每个肌肉的加权系数向量；为了得到w_i，需要获得不同表情下的肌肉参数以及对应的纹理到深度映射关系作为样本数据进行拟合；这里，通过采集不同表情和不同力度下的人脸图像，首先利用数据驱动模型得到其对应的纹理到深度映射关系，然后用人脸生理动画模型生成力度和内容相似的表情，获得对应的肌肉参数，最后根据以上样本数据，由最小二乘拟合得到加权系数；最终在得到加权系数后可以确定映射关系。

其中，发音词典发音时，进行如下添加情感的可视化发音动画：

首先在需要以某种表情说出的文本内容的首尾加上相应的标签；接着基于iFlyTek引擎，从文本中得到发音信息；其次根据前面来合成3D发音器官动画；然后当在人脸动画中遇到这些标签的时候，根据人脸表情的生理知识来合成在给定幅度下的人脸表情动画，且对于同时受到表情和发音器官运动影响的模型顶点，将发音器官动画与人脸表情动画在该点的运动值的平均作为该顶点的运动值；最后将上述结果根据音素时长进行级联即得到最终的情感可视化发音动画。

本发明与现有技术相比的优点在于：

（1）、本发明基于真实捕捉的运动数据和发音器官的生理运动机理，并采用隐马尔可夫模型建立的发音器官运动模型。

（2）、本发明为一种发音器官运动模型，其表现的动画具有与人脸动画相关的协调一致性，且能够充分描述连续语音动画中的协同发音现象。

（3）、本发明该模型结合了生理模型在直接控制表情内容和力度变化方面所具有的优势和数据驱动模型在刻画人脸局部细节特征和真实感方面所具有的优势。

（4）、本发明的动画模型，将数据驱动模型嵌入到生理模型中，从而生成内容与力度多变、高真实感的人脸动画。

附图说明

图1为本发明的一种富有情感表达能力的三维可视化中文普通话发音词典的发音方法的流程图。

图2为三维人脸模型。其中(1)是Alice模型的正面；(2)是(1)的侧面；(3)是人脸器官的正面；(4)是(3)的侧面；(5)是骨骼。

图3为发音词典的数据采集与处理示意图，其中（1）为显示在发音者脸上的EMA传感器触点；（2）为显示3D人脸模型上的对应点。

图4为参数化三维舌头模型，其中（1）为正面图，（2）为侧面图。

具体实施方式

下面结合附图以及具体实施方式进一步说明本发明。

1、系统框架

情感表达在人与人面对面的交流中起着极为重要的角色，同样的在语言教学中，为了提高学习的积极性和有效性，情感合成应该加入到可视化发音词典的制作中来。然而，目前的研究均忽略了这一点。

鉴于此，本文面向智能辅助语言教学领域，构建一个由中文普通话文本(带有表情标签的)输入驱动的、语音同步的、且用于构建语音学3D可视化发音的词典系统(图1)。当输入带有表情标签的中文普通话单词、词组和句子到该系统时，不仅可以根据语音合成器合成出与输入文本中内容相应的发音，而且可以由虚拟人头模型模拟出与输入文本对应的发音器官动作序列和输入表情标签对应的人脸表情动画，最终完成以单字、词组和语句为组成单位的、绘声绘影的3D可视化发音词典数据库。下面根据系统框架中各个部分的执行顺序，分别介绍它们涉及的关键技术。

2、人脸三维模型

基于可控性和表达力，我们采用网格点数目较多的Alice三维模型(图2)。该模型的表面细腻平滑，且包括皮肤、眼睛、牙齿、舌头等发音器官，从而对于人脸运动的描述力较强。特别的，引入骨骼模型(图2(5))来增加真实感。

3、发音器官动画模型

对于与人脸运动紧密相关的发音器官，它们的运动与所发的音是协调一致的。发音器官包括嘴唇，舌头，牙齿和口腔壁。如果不对发音器官的运动进行建模，则在动画的过程中嘴部在张开时会出现空洞等不自然的现象。

在发音器官中，因为牙齿、口腔壁的运动是较为简单的刚体运动，且受限于嘴唇等其他部位，这里我们主要讨论具有复杂非刚体特性的舌头和嘴唇运动。

3.1数据采集与处理

研究表明，在说话人母语中没有的音素，说话人很难进行正确的发音。在本文中，我们首先采集母语是中文普通话的训练者的数据集，并据此来构建可视化发音词典系统，然后该系统能够指导母语不是中文普通话的学习者能够有效地学习该语言的发音过程。

为了有效地描述中文普通话的发音特性和建模它的协同发音现象，我们采集的数据集包括发音、对应的3D发音器官运动和音素级的时间同步信息。它的内容包括两个部分，第一部分对应的是以IPA形式表示的中文普通话音素以及包含各个音素的单词，共包含21个声母，39个韵母和60个字；第二个部分对应的是476个句子，共包括9437个字。数据集中平均每个音素出现的次数是563次，且每个音素至少出现300次。

具体过程是，训练者在朗读数据集中发音语料的时候，利用录音设备录入音频，与此同时同步地利用EMA(Electro-Magnetic Articulography)记录下3D发音器官的运动轨迹，并且利用语音识别工具或人工标注得到音素级的时间同步信息。在录制发音器官运动数据时，我们将10个传感器贴在头部某些位置，用来记录头部和发音器官(舌、上唇和下唇)的运动。我们选取三个参考点(两侧耳后和鼻梁：H_1,2,3)记录发音时头的运动(旋转和平移）；T_1,2,3记录舌面上从舌尖到舌背上三个位置的运动(T₁距舌尖大约1cm，T₁与T₂，T₂与T₃之间相距大约1cm）；此外，还有四个传感器(L_1,2,3,4)分别记录左嘴角、上唇、下唇和右嘴角的运动。其中，T_1,2,3和L_1,2,3,4处传感器记录得到的运动是头部运动和发音器官运动两者之和。以H_1,2,3为依据，经过适当的旋转和平移可以得到T_1,2,3和L_1,2,3,4在发音过程中的运动轨迹。然后用传感器对应到我们采用的人脸三维模型上的位置。对采集后的数据进行修剪等后续处理过程与文献相似。

3.2基于HMM的发音器官运动合成

基于统计学习方法的语音合成已得到了广泛的应用，与此同时，它也有效地推动了基于隐马尔可夫模型(Hidden Markov Model:HMM)的发音器官运动合成的进步。文献也证明了，在足够训练数据情况下，基于语音和发音器官运动联合训练的合成结果要优于基于单个训练的合成结果。

鉴于此，本文基于HMM的发音器官运动合成包括3个阶段：特征提取阶段、训练阶段和合成阶段。

在特征提取阶段，我们将T_1,2,3和L_1,2,3,4在发音过程中与首帧数据的相对运动轨迹，以及时域上的一阶和二阶差分作为特征向量o_t，即o_t＝[c_t′,Δc_t′,Δ²c_t′]′，Δc_t＝0.5·(c_t+1-c_t-1)，Δ²c_t＝c_t+1-2·c_t+c_t-1。c_t是t时刻的T_1,2,3和L_1,2,3与首帧的T_1,2,3和L_1,2,3的差值。

在训练阶段，首先每个单音素HMM模型采取从左到右的拓扑结构，且每个都有3个状态，均采用混合高斯模型来建模；然后使用基于最大似然准则的期望最大化算法(EM)来训练得到这些HMM模型；最后对这些音素模型进行上下文聚类得到上下文相关的HMM模型。

[W′Σ^-1W]·c＝W′Σ^-1μ (1)

μ和Σ是对应于t时刻每个状态的均值和方差，W是权值矩阵。

3.33D发音器官动画

在合成了舌头和嘴唇上传感器(T_1,2,3和L_1,2,3,3)的运动轨迹后，我们来讨论对它们整体的动画合成。

舌头动画

尽管图2中的三维模型提供了舌头的三维结构描述，但要使其能够描述各种复杂的运动，必须使其能够参数化，从而使得通过少量的参数能够描述舌头的复杂运动。我们的参数化过程是：根据图2中人脸三维模型提供的顶点几何信息，通过三阶非均匀有理B样条(NURBS)曲面拟合得到参数化三维舌头模型，如图5所示。这里为了更贴近真实情况，在舌面上增加了脊沟，这在图2的原始三维结构中是没有的。

在得到参数化三维舌头模型后，就要对其进行运动控制，具体做法是，根据T_1,2,3的位置，舌头模型上其他的顶点的值由NURBS曲面插值得到。

嘴唇动画

4、人脸动画模型

人脸动画分为对全局运动的模拟和对局部运动的模拟。对全局运动的模拟只需对人脸三维模型的坐标乘以旋转矩阵和平移矩阵即可，这里不做介绍。下面我们讨论对局部运动的模拟。

4.1人脸生理动画模型

人脸的运动主要是通过肌肉层的弹性作用和下颌骨的运动进行控制，通过皮肤层的变形并辅以必要的发音器官运动来表现的。基于生理模型的人脸动画主要通过对人脸的解剖机理和物理结构进行分析、研究来模拟人脸的生理构成和运动，进而达到生成脸部表情动作的目的。从生理学的角度来看，这种基于人脸生理模型的人脸动画方法是非常自然的一种想法；从数学上来讲，该方法也是切实可行的。只要能将骨骼、肌肉、皮肤和发音器官模型建立得足够好，以骨骼、肌肉、皮肤和发音器官为基张成的空间完全可以表现脸部的复杂表情运动。然而，由于缺乏对人脸表情运动机理的足够了解，基于生理模型的人脸动画方法在效果上想要跨越“恐怖谷”并非易事，仍然面临来自各方面的巨大挑战。尤其是在人脸表情建模方面遇到的困难是难以想象的。

我们在构建的人脸三维模型基础上，根据人脸的生理结构，构造的人脸生理动画模型由4部分组成：骨骼、肌肉、皮肤和发音器官。

[骨骼]:骨骼包括头骨和下颌骨，前者在动画过程中是保持静止的，功能是为了防止在肌肉伸缩的过程中将皮肤拉扯到不真实的位置；后者通过绕固定端点的旋转以及前后、左右的平移运动来模拟嘴巴的运动。

[肌肉]:肌肉层根据人脸动作编码系统(Facial Action Coding System:FACS)中对表情变化起决定作用的动作单元(Action Unit:AU)定义相关的虚拟肌肉，并将肌肉分成3类：线形肌、括约肌和片状肌。模拟方法采用Waters肌肉模型。

同时我们在肌肉作用范围内定义基于自由变形原理(FFD)的局部变形块，用来在皮肤产生不真实变形(通过下节所述的变形率来度量)时对皮肤进行精细的调整。

[皮肤]:为了模拟皮肤，在弹性网格上定义了非线性结构弹簧和边界约束弹簧，非线性结构弹簧用来模拟皮肤的弹性，边界约束弹簧用来防止皮肤被拉破，同时将皮肤网格根据不同肌肉的作用范围进行分块。弹簧的运动过程根据文献中的物理模型来得到。并且通过计算曲面的曲率来得到皮肤的变形率，进而据此判断皮肤变形的真实程度。

[发音器官]:在发音器官中，因为牙齿、口腔壁的运动是较为简单的刚体运动，且受限于嘴唇等其他部位，这里不做讨论，而舌头和嘴唇的运动已前面结合连续语音中的可视化协同发音影响进行了讨论。

人脸运动控制

综合以上4个生理部分，在对人脸三维模型变形以进行人脸动画时，首先通过对皮肤网格上的点的受力分析来计算它的位移，皮肤网格上的点受4种力：弹簧内部拉力、肌肉拉力、下颌骨的牵引力和头骨的约束力，通过分别计算各种力的大小来计算网格点在某个时刻的位移。然后通过变形率的大小来判断是否对某个区域使用上述的局部FFD变形来修补变形失真。最后根据4节来合成舌头和嘴唇的运动，并结合牙齿、口腔壁的运动，来完成发音器官运动的模拟。

4.2数据驱动人脸动画模型

研究表明，人类的面部表情存在着一些跨种族、跨语言的基本共同点，在表达类似情感时不同人的表情具有较高的相似性。因此，对于一个大型的三维人脸表情数据集合而言，在表情方面必然存在着一定的统计规律。对这样的数据集做统计分析，并将所得到的人脸表情的统计规律用于人脸动画合成是一个非常有价值的选择。基于数据驱动模型的人脸动画通过对大量样本人脸统计分析得到外观特征与表情特征，进而合成人脸动画，该方法具有较高的普适性，由此得到的人脸造型效果和表情合成效果具有真实自然的特点。然而，在进行统计分析之前，需要获得和处理大量的三维人脸数据，对设备和数据资源的要求很高，另外由于合成效果受到样本的制约，所得到的表情内容和力度变化还不够丰富多样。

目前，获取3D数据的技术逐渐成熟，越来越多开源的三维人脸数据库可供使用。基于这些丰富的数据库，利用统计学习算法直接挖掘图像数据与对应深度数据之间相关联系的研究逐渐兴起。它们将人脸纹理和深度看作两个子空间，通过统计学习算法找到二者之间的空间映射函数，从而完成从图像数据得到深度数据的任务。

该类方法只需要单幅图像信息就可得到物体的三维信息，但也有如下缺陷，一是容易造成图像数据和深度数据取值范围的不匹配，进而使得重建结果的深度与真实深度相比或被拉伸或被压缩了；二是当处理图像的成像条件与训练集的成像条件相差较大时，该类方法很可能会失败；三是该类方法的估计误差存在下限，进而性能难以进一步提高。所以单独采用该类方法很难得到精确的三维模型，但可将之作为其他方法的补充。

鉴于此，我们通过统计学习的方法来建立数据驱动人脸动画模型，并将之作为人脸生理动画模型的补充。具体过程如下所述。

首先是选择三维人脸数据库。接着是从这些三维人脸数据库学习从纹理到深度的高维非线性映射关系。输入是纹理图，输出是深度图，每个输入或输出训练样本的维数是将输入纹理图校正到标准形状后的图像中的像素数目。在如此高维的数据集上学习，传统的回归算法会失效。针对于此，我们采用核方法，核方法的计算复杂度不依赖于样本的维度，而是依赖于训练样本个数，而且核函数有利于在原始的线性回归算法基础上构建其各种非线性版本，用以描述输入输出变量之间的复杂关系。另外，对于回归算法的选择，考虑到偏最小二乘算法可以集多元线性回归分析、典型相关分析和主成分分析的基本功能于一体，将建模预测模型的数据分析方法与非模型式的数据认识性分析方法有机地结合起来，可以更好地克服变量多重相关性在系统建模中的不良作用，并且得到了广泛的应用。因此我们选择基于核的偏最小二乘算法(KPLS)作为学习从纹理到深度映射关系的学习算法。

最后，综上所述，数据驱动人脸动画模型的建模过程有以下几个步骤。

(1)首先，对于输入的一幅人脸图像，利用动态外观模型(Active appearance model:AAM)来定位其中的特征点。

(2)接着，依据特征点的位置，输入人脸图像被变形到标准形状纹理图像。与此同时，标准形状纹理图像中每个像素点在输入人脸图像中对应像素点的坐标和纹理值被记载下来。

(3)然后，利用输入的纹理值和学习得到的映射关系，得到深度估计图像。

(4)最后，对于标准形状图像中的每一个像素，根据已经记载的像素点的坐标和纹理值，以及深度估计值，得到三维模型上的一个顶点。由这些顶点组成的点云数据经过三角化后得到三维表面，从而最终获得完整的人脸三维模型。

4.3数据驱动模型到生理模型的嵌入方式

一方面，数据驱动模型在刻画人脸局部细节特征和真实感方面具有优势，但是由于合成效果受到样本的制约，导致所得到的表情内容和力度变化还不够丰富多样。另一方面，生理模型可以直接控制表情和力度的逐渐变化，但真实感难以令人满意。因此，我们结合生理模型在直接控制表情内容和力度变化方面所具有的优势和数据驱动模型在刻画人脸局部细节特征和真实感方面所具有的优势，将数据驱动模型嵌入到生理模型中，从而生成内容与力度多变、高真实感的人脸动画。

因为每个肌肉作用范围内各受力点的运动力度与该肌肉的力度系数r呈正比，所以我们将r看作决定表情内容与力度的肌肉参数。

因此，如果能获得由肌肉参数r到数据驱动模型中从纹理到深度映射关系a的映射关系ψ(·):r→a，就可以通过改变r来获得对应的a，从而控制表情内容与力度的变化，进而结合了生理模型与数据驱动模型各自具有的特点和优势，生成内容与力度多变、高真实感的人脸动画。具体过程如下所述。

我们采用如下的映射函数形式：

为单个肌肉对表情的贡献，其中

为每个肌肉的影响程度函数，采用径向基函数来描述，w_i为每个肌肉的加权系数向量。为了得到w_i，需要获得不同表情下的肌肉参数以及对应的纹理到深度映射关系作为样本数据进行拟合。这里，通过采集不同表情和不同力度下的人脸图像，首先利用数据驱动模型得到其对应的纹理到深度映射关系，然后用人脸生理动画模型生成力度和内容相似的表情，获得对应的肌肉参数，最后根据以上样本数据，由最小二乘拟合得到加权系数。最终在得到加权系数后可以确定映射关系。

综上所述，我们的融合生理模型与数据驱动模型各自优点的人脸动画过程是：首先根据所要模拟动画的内容和力度，在人脸生理动画模型中选定相应的骨骼、肌肉、发音器官以及对应的运动参数，然后由肌肉参数和映射函数获得对应的纹理到深度映射关系，最后用数据驱动模型来实现该动画的模拟。

考虑到人们说话时的内容应该与表情相互协调，否则会在交流时产生误会，因此，我们在制作发音词典的时候，进行如下添加情感的可视化发音动画。

首先在需要以某种表情说出的文本内容的首尾加上相应的标签；接着基于iFlyTek引擎，从文本中得到发音信息(音素序列及时长)；其次根据前面来合成3D发音器官动画；然后当在人脸动画中遇到这些标签的时候，根据人脸表情的生理知识来合成在给定幅度下的人脸表情动画，且对于同时受到表情和发音器官运动影响的模型顶点，将发音器官动画与人脸表情动画在该点的运动值的平均作为该顶点的运动值；最后将上述结果根据音素时长进行级联即得到最终的情感可视化发音动画。

Claims

1.一种富有情感表达能力的三维可视化中文普通话发音词典的发音方法，其特征在于，基于真实捕捉的运动数据和发音器官的生理运动机理，并采用隐马尔可夫模型建立的发音器官运动模型；该发音器官运动模型，其表现的动画具有与人脸动画相关的协调一致性，且能够充分描述连续语音动画中的协同发音现象；该发音器官运动模型结合了生理模型在直接控制表情内容和力度变化方面所具有的优势和数据驱动模型在刻画人脸局部细节特征和真实感方面所具有的优势；将数据驱动模型嵌入到生理模型中，从而生成内容与力度多变、高真实感的人脸动画；其中，

2.根据权利要求1所述的一种富有情感表达能力的三维可视化中文普通话发音词典的发音方法，其特征在于，基于隐马尔可夫模型(Hidden Markov Model:HMM)的发音器官运动合成，包括：特征提取阶段、训练阶段和合成阶段；

[W′Σ^-1W]·c＝W′Σ^-1μ (1)

μ和Σ是对应于t时刻每个状态的均值和方差，W是权值矩阵。

3.根据权利要求1所述的一种富有情感表达能力的三维可视化中文普通话发音词典的发音方法，其特征在于，在合成了舌头和嘴唇上传感器(T_1,2,3和L_1,2,3,4)的运动轨迹后，整体的动画合成如下：

舌头动画：

嘴唇动画：

4.根据权利要求1所述的一种富有情感表达能力的三维可视化中文普通话发音词典的发音方法，其特征在于，数据驱动人脸动画模型的建模过程有以下几个步骤：

5.根据权利要求1所述的一种富有情感表达能力的三维可视化中文普通话发音词典的发音方法，其特征在于，数据驱动模型到生理模型的嵌入方式为：结合生理模型在直接控制表情内容和力度变化方面所具有的优势和数据驱动模型在刻画人脸局部细节特征和真实感方面所具有的优势，将数据驱动模型嵌入到生理模型中，从而生成内容与力度多变、高真实感的人脸动画；

采用如下的映射函数形式：

为单个肌肉对表情的贡献，其中

6.根据权利要求1所述的一种富有情感表达能力的三维可视化中文普通话发音词典的发音方法，其特征在于，发音词典发音时，进行如下添加情感的可视化发音动画：