CN103218841B

CN103218841B - 结合生理模型和数据驱动模型的三维发音器官动画方法

Info

Publication number: CN103218841B
Application number: CN201310150819.1A
Authority: CN
Inventors: 於俊; 李贤�; 江辰; 汪增福
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2013-04-26
Filing date: 2013-04-26
Publication date: 2016-01-27
Anticipated expiration: 2033-04-26
Also published as: CN103218841A

Abstract

本发明提供一种结合生理模型和数据驱动模型的三维发音器官动画方法，涉及计算机图形学、智能人机交互等技术领域，该方法能够产生高真实感的发音器官动画，该方法有如下特性：（1）利用了发音器官的生理模型和运动机理，从而可以模拟发音器官的稠密运动和发音器官之间的碰撞挤压等复杂运动，使得发音器官动画更具真实感；（2）采集丰富的包含各种协同发音现象的语料库，并同步地利用EMA传感器记录下三维发音器官上特征点的运动轨迹，接着通过训练上述数据集来建立能够描述连续语音中发音器官动态变化特性的、与发音过程协调一致的隐马尔可夫模型，从而使得发音器官动画与发音过程协调一致的同时，能够充分描述连续语音中的可视化协同发音现象。

Description

结合生理模型和数据驱动模型的三维发音器官动画方法

技术领域

本发明涉及计算机图形学、智能人机交互等技术领域，具体涉及到一种结合了生理模型和数据驱动模型的三维发音器官动画方法，其是一种通过计算机技术虚拟出能反映真实生理特性和运动机理的三维发音器官，从而达到促进人机交互等目的的一种技术。

背景技术

随着具有较高性价比的电磁发音数据采集技术(Electro-MagneticArticulography:EMA)的成熟，采集与语音同步的大量真实的三维发音器官运动数据成为可能。进而利用这些数据进行统计分析来得到在连续语音中发音器官的运动规律是很自然的想法。然而，由于传感器的限制，统计分析方法所合成的发音器官运动是稀疏的。

另一方面，发音器官的生理结构和运动机理是建模发音器官运动的本质方法，且基于它们建立的运动方程可以产生的稠密的发音器官运动。特别的，在连续语音中不可避免地发生发音器官之间的碰撞挤压等复杂运动，而对这些碰撞挤压现象采用统计分析方法是难以完成的。

所以将发音器官的生理结构和运动机理应用到连续语音中，并作为统计分析方法的有益补充是应对上述问题的有效措施。这也是本发明研究的出发点。

发明内容

本发明的目的在于：提供一种结合了生理模型和数据驱动模型的三维发音器官动画方法，其为基于发音器官的生理结构和运动机理，并结合与语音同步的大量真实的三维发音器官运动统计数据来构建三维虚拟发音器官动画的方法。

本发明采用的技术方案为：一种结合生理模型和数据驱动模型的三维发音器官动画方法，该方法基于核磁共振成像(MRI)得到的精细舌头三维几何模型，根据发音器官运动特性和声学特性的相关性，结合真实捕捉的运动数据和发音器官的生理运动机理，并采用多流隐马尔可夫模型建立的发音器官运动模型，该发音器官运动模型，其表现的动画与发音过程协调一致的同时，能够充分描述连续语音中的可视化协同发音现象，并且建立了发音器官之间的碰撞挤压模型，该碰撞挤压模型，其通过检测舌头的节点是否穿过口腔壁或牙齿来判断是否发生碰撞，并根据节点渗入的深度来计算回缩力，进而计算出挤压程度，从而高真实感地模拟了发音器官的运动特性；首先采集丰富的包含各种协同发音现象的语料库，并且同步地利用EMA传感器记录下三维发音器官上特征点的运动轨迹，接着通过训练上述数据集来建立能够描述连续语音中发音器官动态变化特性的、与发音过程协调一致的隐马尔可夫模型(HiddenMarkovModel:HMM)，然后据此HMM能够根据输入语音信息来预测当前发音器官上特征点的运动，最后结合发音器官的生理结构和运动机理以及它们之间的碰撞挤压建模来完成发音器官的整体动画合成。

具体的步骤如下：

步骤1、建立舌头三维模型

首先根据核磁共振成像(MagneticResonanceImaging:MRI)技术采集得到的数据来得到一个精细化的舌头三维模型，并将它的舌根通过舌骨与骨骼模型中的下颌骨连接在一起，接着根据它的解剖原理得到对应的网格状结构，该结构在左右方向上采用五层网格；在上下方向上采用十一层网格组成，每一层的宽度几乎相等，它们从下颌骨的连接处成扇状散开至舌头的表面；在前后方向上，采用七层网格，从而舌头总共由240个六面体组成；

步骤2、数据采集与处理

为了有效地描述语言的发音特性和建模它的协同发音现象，所采集的数据集包括发音、对应的三维发音器官运动和音素级的时间同步信息，它的内容包括两个部分，第一部分对应的是以国际音标(InternationalPhoneticAlphabet:IPA)形式表示的音素以及包含各个音素的单词；第二个部分对应的是包含各种协同发音现象的语句；

具体过程是，训练者在朗读数据集中发音语料的时候，利用录音设备录入音频，与此同时同步地利用EMA记录下三维发音器官的运动轨迹，并且利用语音识别工具或人工标注得到音素级的时间同步信息。在录制发音器官运动数据时，将10个传感器贴在头部某些位置来记录头部和发音器官的运动，其中，两侧耳后和鼻梁这三个参考点记为H1、H2和H3，其记录发音时头的旋转和平移运动；T1、T2和T3记录舌面上从舌尖到舌背上三个位置的运动；L1、L2、L3和L4分别记录左嘴角、上唇、下唇和右嘴角的运动，其中，T1、T2、T3和L1、L2、L3、L4记录得到的运动是头部运动和发音器官运动两者之和，以H1、H2和H3为依据，经过适当的旋转和平移可以得到T1、T2、T3和L1、L2、L3、L4在发音过程中的运动轨迹；

步骤3、基于HMM的发音器官运动合成

步骤3.1文本输入

过程包括3个阶段：特征提取阶段、训练阶段和合成阶段；

在特征提取阶段，将发音过程中T1、T2、T3和L1、L2、L3、L4在t时刻的值与开始时刻的值的相对值y_t，以及y_t在时域上的一阶和二阶差分作为t时刻的观测运动参数Y_t，即Δy_t＝0.5·(y_t+1-y_t-1)，Δ²y_t＝y_t+1-2·y_t+y_t-1；

在训练阶段，以音素为建模单位，采用上下文相关的三音素模型，每个模型为从左到右拓扑结构的5状态HMM模型，且观测模型为混合高斯模型，采用基于最大似然准则的期望最大化算法(ExpectationMaximization:EM)来训练得到这些三音素模型，为了解决数据稀疏问题，在训练好三音素模型后，进一步根据前后音素对模型的每个状态基于最小描述长度准则(MDL)进行决策树聚类；

在合成阶段，首先根据输入的文本，采用文本分析工具来得到发音的音素序列和各个音素的时长，然后根据音素序列和时长、训练得到的HMM模型和基于最大似然准则的HMM参数生成算法来合成发音器官的运动：

\hat{y} = \arg \max_{y} P (Y / λ) = \arg \max_{y} \underset{q}{Σ} P (W_{y} y / q, λ) P (q / λ)

其中，是对y的估计值，argmax表示寻找具有最大评分的参量，P(·)为概率密度函数，λ代表HMM模型，是观测运动参数序列，q是状态，W_y是计算Δy_t和Δ²y_t等动态参数中产生的矩阵，即Y＝W_y·y，

为了求解上述公式，先要对最优状态序列做一个近似估计：

q^*＝argmax_qP(q/λ)

在求得最优状态序列后，可得到最终的解为：

\hat{y} \approx \arg \max_{y} P (W_{y} y / q^{*}, λ) = {(W_{y}^{T} Σ_{q^{*}}^{- 1} W_{y})}^{- 1} W_{y}^{T} Σ_{q^{*}}^{- 1} μ_{q^{*}}

其中，

μ_{q^{*}} = {[μ_{q_{1}^{*}}^{T}, μ_{q_{2}^{*}}^{T}, ..., μ_{q_{t}^{*}}^{T}]}^{T}, Σ_{q^{*}} = {[Σ_{q_{1}^{*}}^{T}, Σ_{q_{2}^{*}}^{T}, ..., Σ_{q_{t}^{*}}^{T}]}^{T}

为观测模型的均值与方差；

步骤3.2语音输入

在特征提取阶段，除了提取y_t外，还提取t时刻的声学特征x_t以及x_t在时域上的一阶和二阶差分作为t时刻的观测声学参数X_t，即Δx_t＝0.5·(x_t+1-x_t-1)，Δ²x_t＝x_t+1-2·x_t+x_t-1；

在训练阶段，首先采用多流(Multi-Stream)HMM将观测运动参数和观测声学参数作为相互独立的流联合进行建模，单个建模的过程同上一节所述；接着建立运动参数与声学参数的相关性：

P (X, Y / λ) = \underset{q}{Σ} P (X, Y, q / λ) = \underset{q}{Σ} π_{q_{0}} Π_{t = 1}^{t} a_{q_{t - 1}} a_{q_{t}} b_{q_{t}} (X_{t}, Y_{t}), b_{q_{t}} (X_{t}, Y_{t}) = b_{q_{t}} (Y_{t}) b_{q_{t}} (X_{t} / Y_{t}),

b_{q_{t}} (Y_{t}) = N (Y_{t}, μ_{Y_{t}}, Σ_{Y_{t}}), b_{q_{t}} (X_{t} / Y_{t}) = N (X_{t} / A_{q_{t}} Y_{t} + μ_{X_{t}}, Σ_{X_{t}});

其中是状态转移概率，是观测概率，建立了状态q_t处运动参数和声学参数的相关性，且初值为零矩阵；

然后在上述相互独立情况下建立的多流HMM基础上根据文献对上式中的参数进行迭代调整，从而得到建模相关性后的HMM模型。

在合成阶段，由下式来合成发音器官的运动：

\begin{matrix} \hat{y} = \arg \max_{y} P (Y / λ, X) = \arg \max_{y} \underset{q}{Σ} P (W_{y} y / q, X, λ) P (q / λ, X) \\ \approx \arg \max_{y} P (W_{y} y / q^{*}, X, λ) = {(W_{y}^{T} (Σ_{q^{*}}^{- 1} + A^{T} W_{x}^{- 1} A) W_{y})}^{- 1} W_{y}^{T} (Σ_{q^{*}}^{- 1} μ_{q^{*}} + A^{T} W_{x}^{- 1} (X - μ_{X})) \end{matrix}

其中，λ为建模相关性后运动参数和声学参数联合训练得到的HMM模型，是观测声学参数序列，而最优状态序列q^*是由单独训练声学特征得到的声学模型λ_ac根据语音识别工具得到的文本和声学参数进行Viterbi对齐得到的：

q^*＝argmax_qP(q/λ_ac,X)

步骤4、三维发音器官动画

因为在上节合成的只是舌头和嘴唇上传感器(T1、T2、T3和L1、L2、L3、L4)所在位置的运动轨迹，这对于舌头和嘴唇的整体运动来说是稀疏的，所以为了进行高真实感的发音器官动画合成，应该以上述稀疏运动轨迹为基础，进行舌头和嘴唇的整体动画合成；具体如下：

步骤4.1舌头动画

舌头动画的过程是：在得到T1、T2、T3的运动轨迹后，将舌头模型的对应点的坐标值设置成T1、T2、T3的值，并类似于插值算法中的做法，以控制点的坐标值为参考值，以舌头运动控制模型作为插值函数来合成舌头模型中的其他点；接着处理舌头与口腔壁或牙齿的碰撞挤压；然后舌头模型做与人脸同样的全局运动，从而完成舌头的动画；

步骤4.2嘴唇动画

嘴唇动画的过程是：在得到L1、L2、L3和L4的运动轨迹后，将嘴唇模型的对应点的坐标值设置成L1、L2、L3和L4的值，并类似于插值算法中的做法，以控制点的坐标值为参考值，以现有的肌肉模型作为插值函数来合成嘴唇模型中的其他点；然后嘴唇模型做与人脸同样的全局运动，从而完成嘴唇的动画。

本发明与现有技术的优点在于：

(1)、本发明基于真实捕捉的统计数据和发音器官的生理运动特性，并采用隐马尔科夫模型建立的三维发音器官动画系统；

(2)、本发明是一种可以提供三维发音器官动画的方法，因为其集合了发音器官的生理结构和运动机理，所以其表现的动画可以模拟发音器官的稠密运动和反映发音器官之间的碰撞关系；

(3)、本发明首先采集丰富的包含各种协同发音现象的语料库，并且同步地利用EMA传感器记录下三维发音器官上特征点的运动轨迹，接着通过训练上述数据集来建立能够描述连续语音中发音器官动态变化特性的、与发音过程协调一致的隐马尔可夫模型，从而使得发音器官动画与发音过程协调一致的同时，能够充分描述连续语音中的可视化协同发音现象。

附图说明

图1为本发明的一种提供三维发音器官动画的系统的框架图示意图；

图2为三维发音器官中的舌头模型的网格状结构示意图，其中1为舌尖，2为第一层，3为第五层，4为舌背；

图3为发音器官的数据采集与处理示意图，其中(1)为显示在发音者脸上的EMA传感器触点；(2)为显示3D人脸模型上的对应点；

图4为三维舌头模型上的肌肉分布和舌头受下颌运动的影响分布示意图；

图5为分别对图4中部分肌肉以及JHC施力作用后的结果示意图。

具体实施方式

下面结合附图和具体实施方式进一步说明本发明。

本发明的系统框架如图1所示。本发明首先采集丰富的包含各种协同发音现象的语料库，并且同步地利用EMA传感器记录下三维发音器官上特征点的运动轨迹，接着通过训练上述数据集来建立能够描述连续语音中发音器官动态变化特性的、与发音过程协调一致的隐马尔可夫模型(HiddenMarkovModel:HMM)，然后据此HMM能够根据输入语音信息来预测当前发音器官上特征点的运动，最后结合发音器官的生理结构和运动机理以及它们之间的碰撞挤压建模来完成发音器官的整体动画合成。

1、舌头三维模型

首先根据核磁共振成像(MagneticResonanceImaging:MRI)技术采集得到的数据来得到一个精细化的舌头三维模型，并将它的舌根通过舌骨与骨骼模型中的下颌骨连接在一起。接着根据它的解剖原理得到对应的网格状结构(图1)。该结构在左右方向上采用五层网格；在上下方向上采用十一层网格组成，每一层的宽度几乎相等，它们从下颌骨的连接处成扇状散开至舌头的表面；在前后方向上，采用七层网格。从而舌头总共由240个六面体组成。

2、数据采集与处理

为了有效地描述语言的发音特性和建模它的协同发音现象，所采集的数据集包括发音、对应的三维发音器官运动和音素级的时间同步信息。它的内容包括两个部分，第一部分对应的是以国际音标(InternationalPhoneticAlphabet:IPA)形式表示的音素以及包含各个音素的单词；第二个部分对应的是包含各种协同发音现象的语句。

具体过程是，训练者在朗读数据集中发音语料的时候，利用录音设备录入音频，与此同时同步地利用EMA记录下三维发音器官的运动轨迹，并且利用语音识别工具或人工标注得到音素级的时间同步信息。在录制发音器官运动数据时，将10个传感器贴在头部某些位置(图2左)来记录头部和发音器官(舌、上唇和下唇)的运动。其中，三个参考点H1、H2和H3(两侧耳后和鼻梁)记录发音时头的运动(旋转和平移)；T1、T2和T3记录舌面上从舌尖到舌背上三个位置的运动(T1距舌尖大约1cm，T1与T2，T2与T3之间相距大约1cm)；L1、L2、L3和L4分别记录左嘴角、上唇、下唇和右嘴角的运动。其中，T1、T2、T3和L1、L2、L3、L4记录得到的运动是头部运动和发音器官运动两者之和。以H1、H2和H3为依据，经过适当的旋转和平移可以得到T1、T2、T3和L1、L2、L3、L4在发音过程中的运动轨迹。图2右展示了传感器对应到本发明采用的人脸三维模型上的位置。

对采集数据的过程中，一旦发现训练者做出和被要求动作不符的发音器官动作，则立即舍弃该段录制数据，并进行重新录制。在采集完成后，还需要对数据进行修剪，以去除在录制数据中由吞咽等本能动作产生的外点数据以及传感器噪声数据。

3、基于HMM的发音器官运动合成

基于统计学习方法的语音合成已得到了广泛的应用，与此同时，它也有效地推动了基于HMM的发音器官运动合成的进步。后者与前者的原理相似，只是后者的观测特征为运动特征参数，而前者的观测特征为声学特征参数。当前研究也证明了，在足够训练数据的情况下，基于语音和发音器官运动联合训练的合成结果要优于基于单个训练的合成结果。

鉴于此，本发明也基于HMM进行发音器官的运动合成，并且根据输入的不同(文本或语音)，分别采取相应的措施。

3.1文本输入

过程包括3个阶段：特征提取阶段、训练阶段和合成阶段。

在特征提取阶段，将发音过程中T1、T2、T3和L1、L2、L3、L4在t时刻的值与开始时刻的值的相对值y_t，以及y_t在时域上的一阶和二阶差分作为t时刻的观测运动参数Y_t，即Δy_t＝0.5·(y_t+1-y_t-1)，Δ²y_t＝y_t+1-2·y_t+y_t-1。

在训练阶段，以音素为建模单位，采用上下文相关的三音素模型，每个模型为从左到右拓扑结构的5状态HMM模型，且观测模型为混合高斯模型。采用基于最大似然准则的期望最大化算法(ExpectationMaximization:EM)来训练得到这些三音素模型。为了解决数据稀疏问题，在训练好三音素模型后，进一步根据前后音素对模型的每个状态基于最小描述长度准则(MDL)进行决策树聚类。

在合成阶段，首先根据输入的文本，采用文本分析工具来得到发音信息(音素序列和各个音素的时长)，例如可以采用本语音及语言信息处理国家工程实验室提供的产业化文本分析工具来得到发音信息(音素序列和各个音素的时长)，该工具公众可由科大讯飞公司发布的产品获取，公司网址http://www.iflytek.com，然后根据音素序列/时长、训练得到的HMM模型和基于最大似然准则的HMM参数生成算法来合成发音器官的运动：

\hat{y} = \arg \max_{y} P (Y / λ) = \arg \max_{y} \underset{q}{Σ} P (W_{y} y / q, λ) P (q / λ)

为了求解上述公式，先要对最优状态序列做一个近似估计。

q^*＝argmax_qP(q/λ)

在求得最优状态序列后，可得到最终的解为：

\hat{y} \approx \arg \max_{y} P (W_{y} y / q^{*}, λ) = {(W_{y}^{T} Σ_{q^{*}}^{- 1} W_{y})}^{- 1} W_{y}^{T} Σ_{q^{*}}^{- 1} μ_{q^{*}}

其中，

μ_{q^{*}} = {[μ_{q_{1}^{*}}^{T}, μ_{q_{2}^{*}}^{T}, ..., μ_{q_{t}^{*}}^{T}]}^{T}, Σ_{q^{*}} = {[Σ_{q_{1}^{*}}^{T}, Σ_{q_{2}^{*}}^{T}, ..., Σ_{q_{t}^{*}}^{T}]}^{T}

为观测模型的均值与方差。

3.2语音输入

因为在采集数据时同步地采集了音频和发音器官的运动，因此可以通过建模它们的相关性来增加语音输入时发音器官合成的精确性。

在特征提取阶段，除了提取y_t外，还提取t时刻的声学特征x_t以及x_t在时域上的一阶和二阶差分作为t时刻的观测声学参数X_t，即Δx_t＝0.5·(x_t+1-x_t-1)，Δ²x_t＝x_t+1-2·x_t+x_t-1。

P (X, Y / λ) = \underset{q}{Σ} P (X, Y, q / λ) = \underset{q}{Σ} π_{q_{0}} Π_{t = 1}^{t} a_{q_{t - 1}} a_{q_{t}} b_{q_{t}} (X_{t}, Y_{t}), b_{q_{t}} (X_{t}, Y_{t}) = b_{q_{t}} (Y_{t}) b_{q_{t}} (X_{t} / Y_{t}),

b_{q_{i}} (Y) = N (Y_{t}, μ_{Y_{i}}, Σ_{Y}), b_{q_{i}} (X_{t} / Y) = N (X_{t} / A_{q_{i} t} Y + μ_{X_{i}}, Σ_{X_{i}});

其中是状态转移概率，是观测概率，建立了状态q_t处运动参数和声学参数的相关性，且初值为零矩阵(运动参数和声学参数的相互独立)。

在合成阶段，由下式来合成发音器官的运动：

\begin{matrix} \hat{y} = \arg \max_{y} P (Y / λ, X) = \arg \max_{y} \underset{q}{Σ} P (W_{y} y / q, X, λ) P (q / λ, X) \\ \approx \arg \max_{y} P (W_{y} y / q^{*}, X, λ) = {(W_{y}^{T} (Σ_{q^{*}}^{- 1} + A^{T} W_{x}^{- 1} A) W_{y})}^{- 1} W_{y}^{T} (Σ_{q^{*}}^{- 1} μ_{q^{*}} + A^{T} W_{x}^{- 1} (X - μ_{X})) \end{matrix}

q^*＝argmax_qP(q/λ_ac,X)

4、三维发音器官动画

因为在上节合成的只是舌头和嘴唇上传感器(T1、T2、T3和L1、L2、L3、L4)所在位置的运动轨迹，这对于舌头和嘴唇的整体运动来说是稀疏的，所以为了进行高真实感的发音器官动画合成，应该以上述稀疏运动轨迹为基础，进行舌头和嘴唇的整体动画合成。

4.1舌头动画

基于舌头的三维模型(图1)，舌头的运动控制模型包含九条肌肉模型，且分为外部、内部和舌底三大类。外部肌肉是頦舌肌(GG)、茎突舌肌(SG)和舌骨舌肌(HG)，它们是根据MRI分析来排列的；内部肌肉是上纵肌(SL)、下纵肌(IL)、舌横肌(T)和垂直肌(V)，它们是根据解剖学的数据来建模的；舌底肌肉是颏舌骨肌(GH)和下颏舌骨肌(MH)，它们是根据解剖学文献来排列的。所有的肌肉都是沿着舌脊两侧对称分布的。进一步，根据頦舌肌不同部位的功能，它又被分为頦舌肌前端(GGa)、頦舌肌中部(GGm)和頦舌肌后端(GGp)三个部分；同样的，根据茎突舌肌的生理特性，它被分成SGa和SGp两个部分，并且它们能够被独立地控制。图4(a)-(k)展示了上述肌肉的分布。肌肉模型的控制策略采取文献中的方法，且采用本项目人脸生理动画模型中的肌肉模型来实施。

考虑到舌根是通过舌骨与下颌骨(图4(l)的黑线部分)连接在一起的，将舌根至下颌骨之间的部分当作一个整体(JHC:Jaw-HyoidComplex)来处理，JHC的特性描述了舌根如何在下颌骨的运动下产生的形变。JHC中的舌骨被建模为对应于主体和两边触角的三个片段，每个片段均由刚性梁来建模。八条肌肉模型(图4(l)的灰色部分)被用来建模JHC里的肌肉运动，这些肌肉可根据下颌骨的运动被粗略地分为两组：Jaw-closer(JawCl，图4(l)的灰色实线部分)和Jaw-Opener(JawOp，图4(l)的灰色破折线部分)。它们的运动特性例如可由文献(Warfel,J.,TheHead,Neck,andTrunk[M].PhiladelphiaandLondon:Led&Febiger.1993.)来得到，且采用本项目人脸生理动画模型中的肌肉模型来实施。

图5(b)-(l)是舌头模型相对于图5(a)的静止状态分别对图4中部分肌肉以及JHC施力作用后的结果，其中图5(l)是对JHC作用后结果中的舌头和口腔壁的轮廓，它的实线部分对应于JawCl作用后的结果，破折线部分对应于JawOp作用后的结果。从中可见本项目采用的运动控制模型的有效性。

另外，舌头作为运动特性较为复杂的一类物体，在发音的过程不可避免地与口腔壁或牙齿发生碰撞挤压等复杂运动。鉴于此，本项目采用两个步骤来处理碰撞挤压:(1)通过检测舌头的节点是否穿过口腔壁或牙齿来判断是否发生碰撞；(2)根据节点渗入的深度来计算回缩力，进而计算出挤压程度。具体过程如下。

在发音过程中，如果舌头的一个节点在口腔壁或牙齿之外，那么其轨迹必然和它们有一个交点。由于口腔壁或牙齿是由三角平面集近似的，因此首先检测轨迹与该三角平面集是否相交，如果相交则判断舌头与口腔壁或牙齿发生了碰撞和挤压，然后计算该节点在相交平面附近被管壁约束时候的碰撞力。根据弹性力学理论，该碰撞力在x方向的分量的近似计算公式为：

f_{x} = \underset{i}{Σ} (k_{i} {Δl}_{x i} + b_{i} {Δl}_{x i} / h)

其中，i是与该节点相连的三角平面的下标，h是计算步长，k_i和b_i分别是第i个三角平面的刚度系数和粘滞系数(根据口腔壁或牙齿的材料属性来设置)，Δl_xi是第i个三角平面在x方向上由于口腔壁或牙齿约束而引起的增量。同样的方法可以计算碰撞力的y分量f_y和z分量f_z。

综上所述，本项目舌头动画的过程是：在得到T1、T2、T3的运动轨迹后，将舌头模型在图2右中对应点的坐标值设置成T1、T2、T3的值，并类似于插值算法中的做法，以这些点(控制点)的坐标值为参考值，以舌头运动控制模型作为插值函数来合成舌头模型中的其他点；接着处理舌头与口腔壁或牙齿的碰撞挤压；然后舌头模型做与人脸同样的全局运动，从而完成舌头的动画。

4.2嘴唇动画

同4.1节，本项目嘴唇动画的过程是：在得到L1、L2、L3和L4的运动轨迹后，将嘴唇模型在图2右中对应点的坐标值设置成L1、L2、L3和L4的值，并类似于插值算法中的做法，以这些点(控制点)的坐标值为参考值，以现有的肌肉模型作为插值函数来合成嘴唇模型中的其他点；然后嘴唇模型做与人脸同样的全局运动，从而完成嘴唇的动画。

本发明未详细阐述的部分属于本领域公知技术。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种结合生理模型和数据驱动模型的三维发音器官动画方法，其特征在于，该方法基于核磁共振成像(MRI)得到的精细舌头三维几何模型，根据发音器官运动特性和声学特性的相关性，结合真实捕捉的运动数据和发音器官的生理运动机理，并采用多流隐马尔可夫模型建立的发音器官运动模型，该发音器官运动模型，其表现的动画与发音过程协调一致的同时，能够充分描述连续语音中的可视化协同发音现象，并且建立了发音器官之间的碰撞挤压模型，该碰撞挤压模型，其通过检测舌头的节点是否穿过口腔壁或牙齿来判断是否发生碰撞，并根据节点渗入的深度来计算回缩力，进而计算出挤压程度，从而高真实感地模拟了发音器官的运动特性；首先采集丰富的包含各种协同发音现象的语料库，并且同步地利用EMA传感器记录下三维发音器官上特征点的运动轨迹，接着通过训练上述语料库和运动轨迹来建立能够描述连续语音中发音器官动态变化特性的、与发音过程协调一致的隐马尔可夫模型，然后据此隐马尔可夫模型能够根据输入语音信息来预测当前发音器官上特征点的运动，最后结合发音器官的生理结构和运动机理以及发音器官之间的碰撞挤压建模来完成发音器官的整体动画合成；

具体的步骤如下：

步骤1、建立舌头三维模型

首先根据核磁共振成像技术采集得到的数据来得到一个精细化的舌头三维模型，并将舌头三维模型的舌根通过舌骨与骨骼模型中的下颌骨连接在一起，接着根据舌头三维模型的解剖原理得到对应的网格状结构，该结构在左右方向上采用五层网格；在上下方向上采用十一层网格组成，每一层的宽度几乎相等，十一层网格从下颌骨的连接处成扇状散开至舌头的表面；在前后方向上，采用七层网格，从而舌头总共由240个六面体组成；

步骤2、数据采集与处理

为了有效地描述语言的发音特性和建模它的协同发音现象，所采集的数据集包括发音、对应的三维发音器官运动和音素级的时间同步信息，采集的数据集的内容包括两个部分，第一部分对应的是以国际音标形式表示的音素以及包含各个音素的单词；第二个部分对应的是包含各种协同发音现象的语句；

具体过程是，训练者在朗读数据集中发音语料的时候，利用录音设备录入音频，与此同时同步地利用EMA传感器记录下三维发音器官的运动轨迹，并且利用语音识别工具或人工标注得到音素级的时间同步信息，在录制发音器官运动数据时，将10个传感器贴在头部某些位置来记录头部和发音器官的运动，其中，两侧耳后和鼻梁这三个参考点记为H1、H2和H3，其记录发音时头的旋转和平移运动；T1、T2和T3记录舌面上从舌尖到舌背上三个位置的运动；L1、L2、L3和L4分别记录左嘴角、上唇、下唇和右嘴角的运动，其中，T1、T2、T3和L1、L2、L3、L4记录得到的运动是头部运动和发音器官运动两者之和，以H1、H2和H3为依据，经过适当的旋转和平移可以得到T1、T2、T3和L1、L2、L3、L4在发音过程中的运动轨迹；

步骤3、基于隐马尔可夫模型的发音器官运动合成

步骤3.1文本输入

过程包括3个阶段：特征提取阶段、训练阶段和合成阶段；

在特征提取阶段，将发音过程中T1、T2、T3和L1、L2、L3、L4在t时刻的值与开始时刻的值的相对值y_t，以及y_t在时域上的一阶和二阶差分作为t时刻的观测运动参数Y_t，即

Y_{t} = {[y_{t}^{T}, {Δy}_{t}^{T}, Δ^{2} y_{t}^{T}]}^{T},

△y_t＝0.5·(y_t+1-y_t-1)，△²y_t＝y_t+1-2·y_t+y_t-1；

在训练阶段，以音素为建模单位，采用上下文相关的三音素模型，每个模型为从左到右拓扑结构的5状态隐马尔可夫模型，且观测模型为混合高斯模型，采用基于最大似然准则的期望最大化算法来训练得到这些三音素模型，为了解决数据稀疏问题，在训练好三音素模型后，进一步根据前后音素对模型的每个状态基于最小描述长度准则进行决策树聚类；

在合成阶段，首先根据输入的文本，采用文本分析工具来得到发音的音素序列和各个音素的时长，然后根据音素序列和时长、训练得到的隐马尔可夫模型和基于最大似然准则的隐马尔可夫模型参数生成算法来合成发音器官的运动：

\hat{y} = \arg \max_{y} P (Y / λ) = \arg \max_{y} \underset{q}{Σ} P (W_{y} y / q, λ) P (q / λ)

其中，是对y的估计值，argmax表示寻找具有最大评分的参量，P(·)为概率密度函数，λ代表隐马尔可夫模型，是观测运动参数序列，q是状态，W_y是计算△y_t和△²y_t动态参数中产生的矩阵，即Y＝W_y·y，

为了求解上述公式，先要对最优状态序列做一个近似估计：

q^*＝argmax_qP(q/λ)

在求得最优状态序列后，可得到最终的解为：

\hat{y} \approx \arg \max_{y} P (W_{y} y / q^{*}, λ) = {(W_{y}^{T} Σ_{q^{*}}^{- 1} W_{y})}^{- 1} W_{y}^{T} Σ_{q^{*}}^{- 1} μ_{q^{*}}

其中，

μ_{q^{*}} = {[μ_{q_{1}^{*}}^{T}, μ_{q_{2}^{*}}^{T}, ..., μ_{q_{t}^{*}}^{T}]}^{T},

Σ_{q^{*}} = {[Σ_{q_{1}^{*}}^{T}, Σ_{q_{2}^{*}}^{T}, ..., Σ_{q_{t}^{*}}^{T}]}^{T}

为观测模型的均值与方差；

步骤3.2语音输入

在特征提取阶段，除了提取y_t外，还提取t时刻的声学特征x_t以及x_t在时域上的一阶和二阶差分作为t时刻的观测声学参数X_t，即

X_{t} = {[x_{t}^{T}, {Δx}_{t}^{T}, Δ^{2} x_{t}^{T}]}^{T},

△x_t＝0.5·(x_t+1-x_t-1)，△²x_t＝x_t+1-2·x_t+x_t-1；

在训练阶段，首先采用多流隐马尔可夫模型将观测运动参数和观测声学参数作为相互独立的流联合进行建模，单个建模的过程同上一节所述；接着建立运动参数与声学参数的相关性：

P (X, Y / λ) = \underset{q}{Σ} P (X, Y, q / λ) = \underset{q}{Σ} π_{q_{0}} Π_{t = 1}^{t} a_{q_{t - 1}} a_{q_{t}} b_{q_{t}} (X_{t}, Y_{t}),

b_{q_{t}} (X_{t}, Y_{t}) = b_{q_{t}} (Y_{t}) b_{q_{t}} (X_{t} / Y_{t}),

b_{q_{t}} (Y_{t}) = N (Y_{t}, μ_{Y_{t}}, Σ_{Y_{t}}),

b_{q_{t}} (X_{t} / Y_{t}) = N (X_{t} / A_{q_{t}} Y_{t} + μ_{X_{t}}, Σ_{X_{t}})

然后在上述相互独立情况下建立的多流隐马尔可夫模型基础上对上式中的参数进行迭代调整，从而得到建模相关性后的隐马尔可夫模型；

在合成阶段，由下式来合成发音器官的运动：

其中，λ₁为建模相关性后运动参数和声学参数联合训练得到的隐马尔可夫模型，

X = {[X_{1}^{T}, X_{2}^{T}, ... X_{t}^{T}]}^{T}

是观测声学参数序列，而最优状态序列是由单独训练声学特征得到的声学模型λ_ac根据语音识别工具得到的文本和声学参数进行Viterbi对齐得到的：

A^T是A的转置矩阵；

步骤4、三维发音器官动画

因为在步骤3合成的只是舌头和嘴唇上传感器T1、T2、T3和L1、L2、L3、L4所在位置的运动轨迹，这对于舌头和嘴唇的整体运动来说是稀疏的，所以为了进行高真实感的发音器官动画合成，应该以上述稀疏运动轨迹为基础，进行舌头和嘴唇的整体动画合成；具体如下：

步骤4.1舌头动画

步骤4.2嘴唇动画