CN103279970A

CN103279970A - 一种实时的语音驱动人脸动画的方法

Info

Publication number: CN103279970A
Application number: CN201310173929XA
Authority: CN
Inventors: 汪增福; 罗常伟; 於俊
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2013-05-10
Filing date: 2013-05-10
Publication date: 2013-09-04
Anticipated expiration: 2033-05-10
Also published as: CN103279970B

Abstract

本发明提供一种实时的语音驱动人脸动画的方法，该方法有如下特性：(1)基于真实捕捉的语音参数和视觉参数，采用高斯混合模型和马尔可夫模型结合的方法实现语音参数到视觉参数的转换；(2)实现了语音参数到视觉参数的直接转换，既考虑了过去视觉特征对当前视觉特征的影响，又不依赖于语音识别系统提供的音素序列作为转换的前提；(3)能够满足实时性要求以及非实时性要求；(4)能够产生高真实感的人脸动画，也能产生具有动漫效果的人脸动画；(5)可以控制脸部表情。本发明客观性能测试和主观互动测试验证了其在网上面对面交流、虚拟主持人、电脑游戏等方面应用的有效性。

Description

一种实时的语音驱动人脸动画的方法

技术领域

本发明涉及语音处理、图像处理、语音可视化、人脸动画技术领域，具体是一种能合成实时的语音驱动人脸动画的方法。

背景技术

人脸动画在多模态人机交互、电影制作、电脑游戏、视频会议、虚拟主持人等方面得到了越来越多的应用。基于视频驱动的人脸动画方法具有较好的合成效果，但这种方法要求合成动画时，必须在特定的场合使用特定的设备来捕捉人脸运动，耗时长，代价高，普通用户无法使用。基于文本驱动的人脸动画方法需要借助语音合成系统，目前合成的语音依然缺乏自然语音的韵律和情感。因此，使用真实的语音来驱动人脸动画，是当前研究的热点之一。现有的语音驱动人脸动画方法，大部分都采用隐马尔可夫模型(Hidden Markov Model)实现语音参数到视觉参数的转换，这个过程需要利用语音识别技术来获取语音信号对应的音素序列，合成的人脸动画严重依赖于语音识别的结果，同时也不能满足实时性的要求。

发明内容

本发明的目的在于：克服背景技术的不足，提供一种实时的语音驱动人脸动画的方法。

本发明采用的技术方案为：实时的语音驱动人脸动画的方法，主要步骤有：获取语音参数及其对应的视觉参数，构造训练数据集；语音参数转换为视觉参数的建模及模型的训练；构造人脸模型对应的一组blendshape；视觉参数到人脸动画参数的转换，具体步骤如下：

步骤1、获取语音参数和视觉参数，构造训练数据集；

让一名表演者朗读一组中文、英文或者其他任何语种的句子，在表演者脸部正前方其进行录音录像，录音录像完成后，再对声音文件和视频文件进行处理。通过跟踪视频中的人脸特征点，得到特征点的位置，每一帧的特征点组成一个形状向量s，对所有视频帧的形状向量进行主成份分析，可得

参数b就是视觉参数，对音频文件中的语音数据提取美尔复倒谱系数MFCC，作为语音参数，最后根据时间相等的关系对视觉参数和语音参数进行匹配，通过上述处理即可获得语音参数和视觉参数的训练数据集；

步骤2、语音参数转换为视觉参数的建模及模型的训练；

使用高斯混合模型和马尔可夫模型相结合的方法建立语音参数与视觉参数之间的关系，不仅利用了当前的语音参数，也考虑了过去视觉特征对当前视觉特征的影响，由于在实际转换过程中，无法获取到过去视觉参数的真实值，因此该方法利用一个主转换和辅助转换相结合的框架，主转换是利用当前语音参数和过去视觉参数的状态估计当前的视觉参数，辅助转换是在不引起误差积累的前提下，利用过去的语音参数估计过去的视觉参数的状态，得到的过去的视觉参数的状态提供给主转换使用；

辅助转换能够采用高斯混合模型的方法或线性变换的方法或神经网络的方法中的任何一种，主转换利用高斯混合模型模拟马尔可夫模型的转移概率密度函数，高斯混合模型的训练方法是，利用基于最大似然估计的EM算法估计高斯混合模型的参数，再使用基于最小转换误差的训练方法对模型参数进行进一步的优化；具体过程是，将EM算法估计到的高斯混合模型的参数作为初始值，利用概率下降法不断更新模型参数；

步骤3、构造人脸模型对应的一组blendshape；

在所有的形状向量s中，自动选取M个关键形状向量，将其作为一组二维的关键形状向量基｛s｝，这些向量基组成的矩阵为Q，以这些关键形状向量及其对应的人脸视频图像为依据，为人脸模型设计一组与关键形状向量相对应的blendshape；这些blendshape可以是二维的，也可以是三维的，如果要合成高真实感的三维人脸动画，则使用真实的人脸照片经过三维重建和纹理映射得到blendshape，如果要合成卡通人脸动画，能够调整每个blendshape使其具有卡通的特点；

步骤4、视觉参数到人脸动画参数的转换；

人脸动画参数用向量ω表示，对于一个形状向量s，能够表示为

也能够近似为s＝Q.ω，利用最小二乘法，能够由b计算得到ω，人脸动画参数ω对blendshape进行插值，即可得语音驱动的人脸动画，在此基础上，还能够指定人脸表情，通过将当前的人脸形状与指定的人脸表情进行插值，能够使人脸模型拥有相应的表情。

其中，利用高斯混合模型以及马尔可夫模型建立语音参数到视觉参数的映射关系，实现语音参数到视觉参数的直接转换，避免了对语音识别系统的依赖，同时采用基于最小转换误差的训练方法对模型进行训练，使转换结果更为精确。

其中，利用真实捕捉的语音参数和视觉参数，能够获得高真实感的语音驱动人脸动画。

其中，通过调整人脸模型的blendshape，能够合成具有动漫效果的人脸动画。

其中，通过指定脸部表情，提高了用户对人脸动画的控制能力。

本发明的原理在于：

本发明建立语音参数和视觉参数的映射关系，将语音参数直接转换为视觉参数。建立视觉参数和人脸动画参数的转换关系，得到的人脸动画参数用来驱动人脸模型。

建立语音参数和视觉参数的映射关系的具体方案是，使用真实捕捉的语音参数和视觉参数，利用高斯混合模型和马尔可夫模型模拟语音参数和视觉参数之间的映射关系，使用最小均方误差估计的方法来估计语音参数对应的视觉参数。

建立视觉参数和人脸动画参数的转换关系的具体方案是，利用一组blendshape以及位移相等的关系，将视觉参数转换为人脸动画参数。

本发明与现有技术相比的优点在于：

（1）、利用高斯混合模型和马尔可夫模型相结合的方法建立语音参数与视觉参数之间的关系，不仅利用了当前的语音参数，也考虑了过去视觉特征对当前视觉特征的影响，使建立的关系更为准确。

（2）、实现了语音参数到视觉参数之间的直接转换，而不必依赖于语音识别技术提供的音素序列。

（3）、改进了基于最大似然估计的模型训练方法，利用基于最小转换误差的训练方法对模型参数进行优化，使得语音参数到视觉参数的转换更为精确。

（4）、能够达到实时性要求。

（5）、可以合成高真实感的人脸动画，也能合成具有动漫效果的人脸动画。

附图说明

图1为本发明的合成实时的语音驱动人脸动画的主要步骤。

图2为语音参数转换为视觉参数的示意图。左侧图为已有的转换方法，已有的方法没有考虑各帧之间的相关性。本发明的方法如右侧图示，不仅利用了当前的语音参数，也考虑了过去视觉特征对当前视觉特征的影响。

图3为语音参数转换为视觉参数所使用的主转换和辅助转换相结合的框架。

图4为与2D关键形状向量对应的人脸模型的3D blendshape示例。

图5为本发明合成的语音驱动人脸动画的部分截图。

具体实施方式

下面结合附图以及具体实施方式进一步说明本发明。

本发明是一种能合成实时的语音驱动人脸动画的方法。主要步骤有：获取语音参数及其对应的视觉参数，构造训练数据集；语音参数转换为视觉参数的建模及模型的训练；构造人脸模型对应的一组blendshape；视觉参数到人脸动画参数的转换，如图1所示。

1、获取语音参数和视觉参数，构造训练数据集

让一名表演者朗读一组句子，所选取的句子要有较好的音素覆盖范围。朗读时头部姿态保持不变，在表演者脸部正前方其进行录音录像，录音录像完成后，再对声音文件和视频文件进行处理。对视频中的正面人脸图像，使用主动形状模型(active shape model)的方法跟踪人脸的N个特征点，这N个特征点的坐标组成形状向量s＝(x₁,y₁,...,x_N,y_N)。对所有帧的形状向量进行主成分分析，得到P为协方差矩阵的特征向量构成的矩阵，b为主成分系数，即视觉参数，每一帧图像对应的视觉参数由如计算得到。

对音频文件中的语音数据提取美尔复倒谱系数MFCC作为语音参数。人类听觉系统所感知到的声音的频率F_Mel（Mel）与该声音的物理频率F_Hz（Hz）的关系为：

F_{Mel} = 1127.0 \ln (1 + \frac{F_{Hz}}{700}),

MFCC的计算过程如下：

(1)对语音分帧处理，然后对每帧时域信号用FFT计算其线性频谱。

(2)将频谱的模通过Mel滤波器组，即在每个三角滤波器内对频谱的模加权取和,然后对输出向量求对数，最后进行DCT变换，得到MFCC特征向量。

得到视觉参数和语音参数后，根据时间相等的关系对视觉参数和语音参数进行匹配。通过上述处理即可获得语音参数和视觉参数的训练数据集。

2、语音参数转换为视觉参数的建模及模型的训练

使用高斯混合模型和马尔可夫模型相结合的方法建立语音参数与视觉参数之间的关系，不仅利用了当前的语音参数，也考虑了过去视觉特征对当前视觉特征的影响，如图2所示，语音参数转换为视觉参数,传统的方法如(a)图。没有考虑各帧之间的相关性，本发明的方法如(b)图,不仅利用了当前的语音参数，也考虑了过去视觉特征对当前视觉特征的影响。由于在实际转换过程中，无法获取到过去视觉参数的真实值，因此我们提出了一个主转换和辅助转换相结合的框架，主转换是利用当前语音参数和过去视觉参数的状态估计当前的视觉参数。辅助转换是在不引起误差积累的前提下，利用过去的语音参数估计过去的视觉参数的状态，得到的过去的视觉参数的状态提供给主转换使用，语音参数转换为视觉参数所使用的主转换和辅助转换相结合的框架如图3所示。具体过程如下：

主转换利用高斯混合模型模拟当前语音参数向量xt、当前视觉参数向量yt以及过去的视觉特征的状态三者的联合概率密度，即：

P (Z_{t} | λ^{(Z)}) = Σ_{m = 1}^{M} w_{m} \cdot N (Z_{t}; μ_{m}^{(Z)}, Σ_{m}^{(Z)})

其中，Zt＝[X_t;y_t],λ^(Z)为高斯混合模型的参数集。

给定x_t，则y_t的转移概率密度为：

P (y_{t} | y_{t}^{p}, x_{t}, λ^{(Z)}) = Σ_{m = 1}^{M} P (m | X_{t} λ^{(Z)}) P (y_{t} | X_{t}, m, λ^{(Z)})

过去的视觉参数的状态计算如下：

y_{t}^{p} = \frac{1}{L} Σ_{i = 1}^{L} {\hat{y}}_{t - i, a}

L为滑动平均窗口的长度，

为辅助转换输出的视觉参数。

使用最小均方误差估计，即可得到当前视觉特征参数的估计为：

{\hat{y}}_{t} = E [y_{t} | X_{t}]

= Σ_{m = 1}^{M} p (m | X_{t}, λ^{(Z)}) E_{m, t}^{(y)}

其中

μ_m和Σ_m分别第m个高斯成分的均值和协方差矩阵。

高斯混合模型的训练方法是，利用基于最大似然估计的EM算法估计高斯混合模型的参数，再使用基于最小转换误差的训练方法对模型参数进行进一步的优化。具体过程是如下：

定义转换误差为

给定其中一个训练样本，使用概率下降法更新模型参数，更新公式为：

λ (n + 1) = λ (n) - ϵ_{n} \frac{&PartialD; D ({\hat{y}}_{n}, y_{n})}{&PartialD; λ} |_{λ = λ (n)}

= λ (n) - 2 ϵ_{n} {({\hat{y}}_{n} - y_{n})}^{T} \frac{&PartialD; {\hat{y}}_{n}}{&PartialD; λ} |_{λ = λ (n)}

对于均值，其导数为：

\frac{&PartialD; {\hat{y}}_{n}}{&PartialD; μ_{m}^{{(y)}^{T}}} = p (m | X_{t}, λ^{(Z)}) . I_{H \times H}

I_H×H为单位矩阵

对于协方差矩阵，其导数为：

\frac{&PartialD; {\hat{y}}_{n}}{&PartialD; σ_{m, i}} = p (m | X_{t}, λ^{(Z)}) . B_{m, i}

其中

B_{m, i} = [O_{(i - 1) \times G}; b_{m}^{T}; O_{(H - i) \times G}],

b_{m} = Σ_{m}^{{(XX)}^{- 1}} (X_{t} - μ_{m}^{(X)}),

O_(i-1)×G和O_(H-i)×G为零矩阵。σ_m,i为协方差矩阵的行向量。

实际训练时，先将EM算法估计到的高斯混合模型的参数作为初始值，再利用上述方法不断更新模型参数。

本发明使用传统的基于高斯混合模型的转换方法作为辅助转换。

3、构造人脸模型对应的一组blendshape

在所有的形状向量s中，自动选取M个关键形状向量，将其作为一组二维的关键形状向量基｛s｝，这些向量基组成的矩阵为Q，以这些关键形状向量及其对应的人脸视频图像为依据，为人脸模型设计一组与关键形状向量相对应的blendshape，图4显示了与2D关键形状向量对应的人脸模型的3D blendshape。嘴部发音时，语音通常只影响下部分人脸，第三幅图给出了下部分人脸模型对应的blendshape的正面视图。这些blendshape可以是二维的，也可以是三维的。如果要合成高真实感的三维人脸动画，则使用真实的人脸照片经过三维重建和纹理映射得到blendshape，如果要合成卡通人脸动画，可以调整每个blendshape使其具有卡通的特点。

4、视觉参数到人脸动画参数的转换

人脸动画参数用向量ω表示，对于一个形状向量s，可以表示为

也可以由关键形状向量近似为s＝Q.ω`，已知b，求解ω的过程等价于优化如下目标函数：

J = \arg \min | | \overset{&OverBar;}{s} + P \cdot b - Q \cdot ω^{`} | |

利用最小二乘法，可以由b计算得到ω。ω为二维形状向量对应的权值向量，通过使用相同的权值ω对三维人脸模型的blendshape进行插值，即可得语音驱动的人脸动画，如图5所示。在此基础上，还可以指定人脸表情，通过将当前的人脸形状与指定的人脸表情进行插值，可使人脸模型拥有相应的表情。

本发明一种实时的语音驱动人脸动画的方法，通过实时的语音参数到视觉参数的转换，实现由语音直接驱动人脸动画。利用高斯混合模型以及马尔可夫模型建立语音参数到视觉参数的映射关系，实现语音参数到视觉参数的直接转换，避免了对语音识别系统的依赖，同时采用基于最小转换误差的训练方法对模型进行训练，使转换结果更为精确。在语音参数到视觉参数的转换过程中，不仅利用了当前的语音参数，也考虑了过去视觉特征对当前视觉特征的影响。由于在实际转换过程中，无法获取到过去视觉参数的真实值，因此提出了一个主转换和辅助转换相结合的框架，主转换是利用当前语音参数和过去视觉参数的状态估计当前的视觉参数。辅助转换是在不引起误差积累的前提下，利用过去的语音参数估计过去的视觉参数的状态，得到的过去的视觉参数的状态提供给主转换使用。利用真实捕捉的语音参数和视觉参数，可以获得高真实感的语音驱动人脸动画。通过修改关键帧，可以合成具有动漫效果的人脸动画。可以指定人脸的表情，提高了用户对人脸动画的控制能力。

本发明未详细阐述的部分属于本领域公知技术。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种实时的语音驱动人脸动画的方法，其特征在于，主要步骤有：获取语音参数及其对应的视觉参数，构造训练数据集；语音参数转换为视觉参数的建模及模型的训练；构造人脸模型对应的一组blendshape；视觉参数到人脸动画参数的转换。具体步骤如下：

步骤1、获取语音参数和视觉参数，构造训练数据集；

让一名表演者朗读一组中文、英文或者其他任何语种的句子，在表演者脸部正前方其进行录音录像，录音录像完成后，再对声音文件和视频文件进行处理，对视频中的正面人脸图像，利用计算机视觉技术跟踪人脸特征点，每一帧的特征点组成一个形状向量s，对所有视频帧的形状向量进行主成份分析，可得

参数b就是视觉参数，P为协方差矩阵的特征向量构成的矩阵。对音频文件中的语音数据提取美尔复倒谱系数MFCC，作为语音参数，最后根据时间相等的关系对视觉参数和语音参数进行匹配，通过上述处理即可获得语音参数和视觉参数的训练数据集；

步骤2、语音参数转换为视觉参数的建模及模型的训练；

步骤3、构造人脸模型对应的一组blendshape；

在所有的形状向量s中，自动选取M个关键形状向量，将其作为一组二维的关键形状向量基｛s｝，这些向量基组成的矩阵为Q，以这些关键形状向量及其对应的人脸视频图像为依据，为人脸模型设计一组与关键形状向量相对应的blendshape，这些blendshape可以是二维的，也可以是三维的，如果要合成高真实感的三维人脸动画，则使用真实的人脸照片经过三维重建和纹理映射得到blendshape，如果要合成卡通人脸动画，能够调整每个blendshape使其具有卡通的特点；

步骤4、视觉参数到人脸动画参数的转换；

也能够近似为s＝Q·ω，利用最小二乘法，能够由b计算得到ω，使用人脸动画参数ω对blendshape进行插值，即可得语音驱动的人脸动画，在此基础上，还能够指定人脸表情，通过将当前的人脸形状与指定的人脸表情进行插值，能够使人脸模型拥有相应的表情。

2.根据权利要求1所述的方法，其特征在于，利用高斯混合模型以及马尔可夫模型建立语音参数到视觉参数的映射关系，实现语音参数到视觉参数的直接转换，避免了对语音识别系统的依赖，同时采用基于最小转换误差的训练方法对模型进行训练，使转换结果更为精确。

3.根据权利要求1所述的方法，其特征在于，利用真实捕捉的语音参数和视觉参数，能够获得高真实感的语音驱动人脸动画。

4.根据权利要求1所述的方法，其特征在于，通过调整人脸模型的blendshape，可以合成具有动漫效果的人脸动画。

5.根据权利要求1所述的方法，其特征在于，能够指定人脸的表情，提高了用户对人脸动画的控制能力。