CN101751692B

CN101751692B - 语音驱动唇形动画的方法

Info

Publication number: CN101751692B
Application number: CN2009102635588A
Authority: CN
Inventors: 章毅; 王平安; 周激流; 郑伯川; 吕建成; 张蕾; 彭德中; 于佳丽; 张海仙
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2009-12-24
Filing date: 2009-12-24
Publication date: 2012-05-30
Anticipated expiration: 2029-12-24
Also published as: CN101751692A

Abstract

本发明公开了一种语音驱动唇形动画的方法，其特征在于，包括以下步骤：将汉语中的音节结构采用Consonant-Vowel分类；采集若干个人的原始音频数据和视频数据；获取对应唇形信息；获取语音特征数据；对所获取的唇形信息和语音特征数据进行训练和建模，依据训练的模型实时输入语音合成的唇形运动序列。该方法克服了现有技术的缺陷，并且运算数据量小，可操做性强等特点。

Description

语音驱动唇形动画的方法

技术领域

本发明涉及三维人脸动画技术领域，具体涉及一种语音驱动唇形动画的方法。

背景技术

唇形动画是人脸表情动画研究的重要内容之一，也是难点之一，人类的语言具有多模态特性，说话人的声音以及唇部运动，即唇形的状态变化，共同影响着他人对说话者的语音理解，这表明语音与唇形之间存在着一定的、自然的联系。唇同步是音频流和视频流之间的一种时间映射关系，是指说话人的语音与唇形运动状态之间的一种同步关系，采用映射模型是一种广泛使用且有效的算法。

腾讯科技(深圳)有限公司申请的中国专利200910003083.9公开了一种语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置，属于计算机技术领域，该语音驱动嘴唇形状变化的方法包括：获取音频信号，根据所述音频信号的特征得到嘴唇形状的运动幅度比例；获取初始的嘴唇形状模型，根据所述初始的嘴唇形状模型和所述嘴唇形状的运动幅度比例生成嘴唇形状的运动幅度值；根据所述嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合。该方法可操作性较小，由于每个人的口型的形状大小不同，同时说话时口型的运动幅度也有所不同，因此通过语音特征获取口型的运动幅度的比例会产生一定的误差，而且此方法的实现较复杂。

中国专利CN100369469C(申请号200510093269.X)也公开了一种语音驱动头部图像合成影音文件的方法，一种语音驱动头部图像合成影音文件的方法。它包括取静态头部数码图像；提取头部、脸部及五官轮廓特征点数据坐标，并计算图像动画模式数据；生成包括口形闭合帧、口形张开帧、表情帧以及三种类型图像帧的各自数目在内的图像特征数据文件；采集语音数码信息；分析、提取语音特征数据，生成包括有声音语音帧和无声音语音帧在内的语音特征数据文件；将图像特征数据文件和语音特征数据文件同步合成，使得有声音语音帧对应口形张开帧，无声音语音帧对应口形闭合帧，然后输出。该方法采用将图像特征数据文件和语音特征数据文件同步合成的方法，由于图像特征的提取较为复杂，很难达到实时性的要求，而且只区分出有音帧与无音帧对应的唇形，但没有考虑到语音中噪音的情况，很可能把噪音当作有音帧来处理而发生错误。

中国专利申请200510086646.7也公开一种基于动态基元选取的语音驱动人脸动画方法，将输入的任何用户的任何语言的语音转换成语音和三维人脸动画的同步输出。此方法基于采用运动实时捕获系统建立的多模态数据库，对多模态数据进行音视频分析，分别获得相应的特征向量；以音素为基元单位对多模态数据进行同步分割；对用户给定的语音序列，计算每个基元的音频匹配误差和前后基元间的视觉匹配误差，最后在候选的基元中动态地选择一条最佳路径，输出与语音序列同步的人脸动画参数序列，以驱动三维人脸动画模型。该方法用于处理任何语言的语音与唇形动画的同步情况，由于每种语言的发音规律与发音特征各不相同，很难有一个同一的标准处理方法，而且以此方法每个基元的音频匹配误差和前后基元间的视觉匹配误差，产生的这么误差会很大，从候选的基元中动态地选择一条最佳路径有可能不是最佳路径。

发明内容

本发明所要解决的问题是：如何提供一种语音驱动唇形动画的方法，该方法克服了现有技术的缺陷，并且运算数据量小，可操做性强等特点。

本发明所提出的技术问题是这样解决的：提供一种语音驱动唇形动画的方法，其特征在于，包括以下步骤：

步骤一将汉语中的音节结构采用Consonant-Vowel分类：声母包括b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s和零声母，韵母包括a、ai、an、ang、ao、e、ei、en、eng、er、o、ong、ou、i、i1、i2、ia、ian、iang、iao、ie、in、ng、iong、iou、u、ua、uai、uan、uang、uei、uen、ueng、uo、v、van、ve、vn、io；

步骤二采集若干个人的原始音频数据和视频数据：每个人读声母和韵母单词，同时使用DV或者摄像机拍摄，以获取音频流和视频流数据；

步骤三获取对应唇形信息：把视频流分割成一帧帧图片，找出声母与韵母所对应的图片帧，使用ASM算法对正面的人脸图片进行检测，获取声母和韵母所对应的唇形信息；

步骤四获取语音特征数据：对音频流进行分析处理，提取语音特征数据；

步骤五对步骤三所获取的唇形信息和步骤四所获取的语音特征数据进行训练和建模，依据训练的模型合成实时输入语音的唇形运动序列：将通过ASM算法检测正面的人脸图片获得唇形信息进行分类和聚类分析处理，消除在采样唇形数据时因每个人嘴唇大小不同而产生的误差，把不同人的唇形形状归一化，把每一帧唇形图片上的二维坐标转化为高维空间上的点，将每个点合成一列高位向量，每一个向量代表一帧唇形图片信息，对所有向量进行分类与聚类分析处理，并划分到N个基本唇形类别中，利用语音帧和唇形帧在时间上序列上的一一对应关系，将对应的语音帧也进行聚类划分成N个类别，其中N的取值通过观察唇形样本状态取值，将已经归类的语音帧和唇形帧的每一个类别建立BP网络模型，共建N个BP网络模型，分别训练N个BP网络模型中各个节点的连接权值和阀值，经过BP网络模型处理，把每个实时语音帧归类，以此类推，可得到与语音特征数据所对应的唇形帧序列，唇形帧序列经过平滑处理，就形成平滑与自然的唇形运动序列。

本发明的有益效果：本发明利用汉语具有较强的音节性这一特征，对声韵母进行建模处理，分别得到声韵母所对应的唇形类别，对与语音相对应的唇形序列帧进行平滑处理后可得到逼真的唇形动画效果。而且该方法可操作行较强，实现容易而且该算法运动效率较高，能达到实时语音与动画输出相同步的效果，此外，该方法是针对汉语语音的唇形动画的一种处理方式，在汉语语音驱动唇形动画能达到较为自然真实的效果。

附图说明

图1是本发明所采用的Phoneme-Viseme类别模型流程图；

图2是BP网络模型图；

图3是本发明的BP建模结构图；

图4是本发明的实时语音处理结构图。

具体实施方式

下面结合附图以及具体实施例对本发明作进一步描述：

本发明的语音驱动唇形动画的方法大致包括以下步骤：

建立语音数据库：

各种语言的发音规律不同，与之相对应的口形运动状态也有所差别，此方案主要是建立汉语语音库以及实现基于汉语语音的唇形动画，具有一定的通用性，若实现基于其他语言的唇形动画可作为参考，众所周知，汉语中的音节结构是典型的CV(Consonant-Vowel)结构，其中C是包括零声母在内的声母所对应的辅音，V为韵母所对应的元音。汉语的声韵结构：声母(Initial)有22个(b，p，m，f；d，t，n，l；g，k，h；j，q，x；zh，ch，sh，r；z，c，s和零声母)，韵母有39个(a，ai，an，ang，ao，e，ei，en，eng，er，o，ong，ou，i，i1，i2，ia，ian，iang，iao，ie，in，ing，iong，iou，u，ua，uai，uan，uang，uei，uen，ueng，uo，v，van，ve，vn，io，其中ü简记作v).此外，每个人的发音有差异，但每个音节或声母与韵母对应的唇形大体相似，采集了多人的语音与视频数据材料建立语音库(采集10个男生，8个女生的音频数据)：

1.每个人读声母与韵母单词，同时使用DV或者摄像机拍摄，以获取音频流与视频流的数据；

2.把视频分割成一帧帧图片，找出声母与韵母所对应的图片帧(即唇形运动状态)，使用ASM对图片进行检测，从而获取声母与韵母所对应唇形的信息；

3.对音频文件进行分析处理，提取底层的语音特征参数(18维MFCC)；

4.对获取的语音与唇形数据进行训练与建模，依据训练的模型，将实时输入的语音合成的唇形运动序列。

模型训练：

经过ASM检测后，获取了各种唇形信息，对语音与唇形数据进行分析处理：语音到基本唇形类别的映射模型(Phoneme-Viseme)如下图1所示。

经Phoneme-Viseme类别模型处理后，训练样本数据归于所属的类别，以此来建立BP网络模型，BP网络模型如图2所示，BP(Back Propagation)神经网络是一种神经网络学习算法，全称基于误差反向传播算法的人工神经网络。如图所示拓扑结构的单隐层前馈网络，一般称为三层前馈网或三层感知器，即：输入层、中间层(也称隐层)和输出层。它的特点是：各层神经元仅与相邻层神经元之间相互全连接，同层内神经元之间无连接，各层神经元之间无反馈连接，够成具有层次结构的前馈型神经网络系统。单计算层前馈神经网络只能求解线性可分问题，能够求解非线性问题的网络必须是具有隐层的多层神经网络。在人工神经网络发展历史中，很长一段时间里没有找到隐层的连接权值调整问题的有效算法。直到误差反向传播算法(BP算法)的提出，成功地解决了求解非线性连续函数的多层前馈神经网络权重调整问题。BP(Back Propagation)神经网络，即误差反传误差反向传播算法的学习过程，由信息的正向传播和误差的反向传播两个过程组成。输入层各神经元负责接收来自外界的输入信息，并传递给中间层各神经元；中间层是内部信息处理层，负责信息变换，根据信息变化能力的需求，中间层可以设计为单隐层或者多隐层结构；最后一个隐层传递到输出层各神经元的信息，经进一步处理后，完成一次学习的正向传播处理过程，由输出层向外界输出信息处理结果。当实际输出与期望输出不符时，进入误差的反向传播阶段。误差通过输出层，按误差梯度下降的方式修正各层权值，向隐层、输入层逐层反传。周而复始的信息正向传播和误差反向传播过程，是各层权值不断调整的过程，也是神经网络学习训练的过程，此过程一直进行到网络输出的误差减少到可以接受的程度，或者预先设定的学习次数为止。

经过此模型处理，把每个实时语音帧归类，以此类推，可得到与语音数据所对应的唇形序列，唇形序列经过平滑处理，就形成平滑与自然的唇形运动序列。

具体实施方式：

样本唇形数据是通过SAM检测帧图片获得的，由于每个人的嘴唇宽度与高度的大小不同，依据一个量化规则归一到一个标准范围内，即虽然人们嘴唇的高度与宽度大小不同，但每个人嘴唇边缘点到中心点的距离与嘴唇的宽度(高度)比例大致是一致的，这样就可以在唇形聚类过程中，消除唇形采样数据因每个人嘴唇大小不同而产生的聚类误差，把不同人的唇形归一化。此外，把一帧唇形图片上的二维坐标点转化为高维空间上的点，这样一帧图片上的点合成一列高维向量，每一个列向量代表一帧唇形图片信息，对所有这些列向量进行聚类分析，把它们划分到N个基本唇形类别中，由于语音与唇形在时间序列上是一一对应的关系，即每一时刻都有一对语音帧与唇形帧，但有许多语音帧所对应的唇形帧相似，因此把聚类成N个类别，所对应的语音帧也划分到N个类别中，这就完成了Phoneme-Viseme类别模型的建立(如图1所示)，其中N的取值可通过观察唇形样本状态获知，或者N先取一个较大的数值，在聚类过程中合并相近的类别。

由于对语音帧与唇形帧进行了处理，接着建立BP模型(如图3所示)，已知语音帧与唇形帧所属的类别，为每一个类别建立一个BP网络模型，共有N个BP模型，分别训练N个BP模型中各个节点的连接权值与阀值。在实时驱动时，对语音数据进行分帧、加窗等预处理，提取底层语音特征参数，使用18维MFCC加上每帧的短时能量与平均幅度合成20维输入向量，记为X，经过N个BP模型计算后得到N个输出向量，即Y₁，Y₂，…，Y_N，每个模型的标准输出记为O₁，O₂，…，O_N，计算Y_i与O_i的误差，比较每个模型的输出与标准输出的误差，若误差最小者为第i个模型(i＝1，…，N)，输入向量X属于第i个唇形类别。如果建立三层BP模型：其中n为输入向量维数，m为输出向量维数，由于输入向量是20维，所以n取20，输入接点设为20个；唇形类别为19，所以m取值5，即输出接点有5个，通过大量的训练与数据统计，本模型中隐含层接点去200至300个为最优。

Claims

1.一种语音驱动唇形动画的方法，其特征在于，包括以下步骤：

步骤五对步骤三所获取的唇形信息和步骤四所获取的语音特征数据进行训练和建模，依据训练的模型合成实时输入语音的唇形运动序列：将通过ASM算法检测正面的人脸图片获得唇形信息进行分类和聚类分析处理，消除在采样唇形数据时因每个人嘴唇大小不同而产生的误差，把不同人的唇形形状归一化，把每一帧唇形图片上的二维坐标转化为高维空间上的点，将每个点合成一列高维向量，每一个向量代表一帧唇形图片信息，对所有向量进行分类与聚类分析处理，并划分到N个基本唇形类别中，利用语音帧和唇形帧在时间序列上的一一对应关系，将对应的语音帧也进行聚类划分成N个类别，其中N的取值通过观察唇形样本状态取值，将已经归类的语音帧和唇形帧的每一个类别建立BP网络模型，共建N个BP网络模型，分别训练N个BP网络模型中各个节点的连接权值和阀值，经过BP网络模型处理，把每个实时语音帧归类，以此类推，可得到与语音特征数据所对应的唇形帧序列，唇形帧序列经过平滑处理，就形成平滑与自然的唇形运动序列。