CN101482976B

CN101482976B - 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置

Info

Publication number: CN101482976B
Application number: CN2009100030839A
Authority: CN
Inventors: 路依莎; 王建宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2009-01-19
Filing date: 2009-01-19
Publication date: 2010-10-27
Anticipated expiration: 2029-01-19
Also published as: MX2011006703A; RU2011124736A; BRPI1006026A8; US8350859B2; CA2744347A1; BRPI1006026B1; CN101482976A; WO2010081395A1; US20110227931A1; CA2744347C; BRPI1006026A2; RU2487411C2

Abstract

本发明公开了语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置，属于计算机技术领域。该语音驱动嘴唇形状变化的方法包括：获取音频信号，根据所述音频信号的特征得到嘴唇形状的运动幅度比例；获取初始的嘴唇形状模型，根据所述初始的嘴唇形状模型和所述嘴唇形状的运动幅度比例生成嘴唇形状的运动幅度值；根据所述嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合。该语音驱动嘴唇形状变化的装置包括：获取模块、第一生成模块和第二生成模块。本发明还提供了一种获取嘴唇动画的方法和装置。本发明提供的技术方案算法简单，且成本低。

Description

语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置。

背景技术

互动式语音应答(IVR，Interactive Voice Response)是基于声音传播的一种产品类型。而互联网用户的主流受众喜欢展示自我，张扬个性，以引起周围人的关注和重视。在这样的背景下，IVR有必要进行技术及理念上的革新：给予声音更好的表现力，而视频动画技术可以满足这种需求。视频动画技术通过使用手机或网页为平台，辅助声音以自定义个性的视频动画，赋予了声音更加生动的表现力。

视频动画技术中一个重要组成是语音驱动嘴唇形状变化的实现技术，关于语音驱动嘴唇形状变化的实现，现有技术提供了一种利用机器学习的方式将音频信号映射到人脸动画参数中的嘴唇形状上的解决方案，但该方案算法复杂，运算成本高。

发明内容

为了运算降低成本，本发明实施例提供了一种语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置。所述技术方案如下：

本发明实施例提供了一种语音驱动嘴唇形状变化的方法，包括：

获取音频信号，根据所述音频信号的特征得到嘴唇形状的运动幅度比例；；

获取用户输入的初始的嘴唇形状模型，根据所述初始的嘴唇形状模型和所述嘴唇形状的运动幅度比例，生成嘴唇形状的运动幅度值；

根据所述嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合；

所述根据所述音频信号的特征得到嘴唇形状的运动幅度比例包括：

遍历所述音频信号，获取最大的采样数据值；

对所述音频信号进行窗口和小组的划分，获取每个小组内的采样数据值的平均值数组avgGroup，获取每个窗口内所有小组的采样数据值的平均值数组avgGroup中的最大值数组windowPeak；

根据获取的数组windowPeak和获取的最大采样数据值获取当前窗口对应的嘴唇形状的最大运动幅度值；

根据当前窗口对应的嘴唇形状最大运动幅度值获取当前窗口对应的当前视频帧的嘴唇形状运动幅度比例；

所述根据所述嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合包括：

从所述预先建立嘴唇发音模型库中随机选择一个嘴唇发音模型，作为当前嘴唇形状的原始发音模型；

获取所述原始发音模型顶点和嘴唇发音模型库中原始嘴唇模型，计算原始发音模型各个顶点的偏移量比例；

将所述原始发音模型各个顶点的偏移量比例各自都乘以当前帧的嘴唇形状运动幅度值得到当前帧的顶点偏移量；

在获取的用户输入的初始的嘴唇形状模型上，分别累加当前帧的顶点偏移量，得到当前帧的嘴唇形状模型；

将所有帧的嘴唇形状模型排列起来，生成变化的嘴唇形状网格模型集合。

本发明实施例提供了一种语音驱动嘴唇形状变化的装置，包括：

获取模块，用于获取音频信号，根据所述音频信号的特征得到嘴唇形状的运动幅度比例；第一生成模块，用于获取用户输入的初始的嘴唇形状模型，根据所述初始的嘴唇形状模型和所述得到的嘴唇形状的运动幅度比例生成嘴唇形状的运动幅度值；

第二生成模块，用于根据所述得到的嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合；

所述获取模块包括：

第一获取模块，用于遍历所述音频信号，获取最大的采样数据值；

第二获取模块，用于对所述音频信号进行窗口和小组的划分，获取每个小组内的采样数据值的平均值数组avgGroup，获取每个窗口内所有小组的采样数据值的平均值数组avgGroup中的最大值数组windowPeak；

第三获取模块，用于根据获取的数组windowPeak和获取的最大采样数据值获取当前窗口对应的嘴唇形状的最大运动幅度值；

第四获取模块，用于根据当前窗口对应的嘴唇形状最大运动幅度值获取当前窗口对应的当前帧视频的嘴唇形状运动幅度比例；

所述第二生成模块包括：

选择模块，用于从所述预先建立嘴唇发音模型库中随机选择一个嘴唇发音模型，作为当前嘴唇形状的原始发音模型；

第九获取模块，用于获取所述原始发音模型顶点和嘴唇发音模型库中原始嘴唇模型，计算原始发音模型各个顶点的偏移量比例；

第十获取模块，用于将所述原始发音模型各个顶点的偏移量比例各自都乘以当前帧的嘴唇形状运动幅度值得到当前帧的顶点偏移量；

第十一获取模块，用于在获取的用户输入的初始的嘴唇形状模型上，分别累加当前帧的顶点偏移量，得到当前帧的嘴唇形状模型；

第三生成模块，用于将所有帧的嘴唇形状模型排列起来，生成变化的嘴唇形状网格模型集合。

在本发明实施例中，利用嘴唇发音模型库，通过语音驱动实现了嘴唇形状变化，相对于现有技术，本发明实施例提供的技术方案算法简单，且成本低。

本发明实施例提供了一种获取嘴唇动画的方法，包括：

获取音频信号，根据所述音频信号的特征得到嘴唇形状的运动幅度比例；

获取用户输入的初始的嘴唇形状模型，根据所述初始的嘴唇形状模型和所述得到的嘴唇形状的运动幅度比例生成嘴唇形状的运动幅度值；

根据所述得到的嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合；

根据所述变化的嘴唇形状网格模型集合生成嘴唇动画；

遍历所述音频信号，获取最大的采样数据值；

根据当前窗口对应的嘴唇形状最大运动幅度获取当前窗口对应的当前视频帧的嘴唇形状运动幅度比例；

本发明实施例提供了一种获取嘴唇动画的装置，包括：

获取模块，用于获取音频信号，根据所述音频信号的特征得到嘴唇形状的运动幅度比例；

第一生成模块，用于获取用户输入的初始的嘴唇形状模型，根据所述初始的嘴唇形状模型和所述得到的嘴唇形状的运动幅度比例生成嘴唇形状的运动幅度值；

第三生成模块，用于根据所述变化的嘴唇形状网格模型集合生成嘴唇动画；

所述获取模块包括：

第四获取模块，用于根据当前窗口对应的嘴唇形状最大运动幅度获取当前窗口对应的当前帧视频的嘴唇形状运动幅度比例；

所述第二生成模块包括：

在本发明实施例中，利用嘴唇发音模型库，通过语音驱动实现了嘴唇形状变化，进而得到嘴唇动画，相对于现有技术，本发明实施例提供的技术方案算法简单，且成本低。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1提供的一种语音驱动嘴唇形状变化的方法流程图；

图2是本发明实施例1提供的frameNumber与嘴唇形状的运动幅度比例的示意图；

图3是本发明实施例1提供的嘴唇发音模型库的示意图；

图4是本发明实施例2提供的一种获取嘴唇动画的方法流程图；

图5是本发明实施例3提供的一种语音驱动嘴唇形状变化的装置的结构图；

图6是本发明实施例3提供的另一种语音驱动嘴唇形状变化的装置的结构图；

图7是本发明实施例3提供的第三种语音驱动嘴唇形状变化的装置的结构图；

图8是本发明实施例4提供的一种获取嘴唇动画的装置的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例1提供了一种语音驱动嘴唇变化的方法，如图1所示，包括：

步骤101，获取音频信号，根据音频信号的特征得到嘴唇形状的运动幅度比例。

具体地，根据音频信号的特征获取嘴唇形状的运动幅度比例的步骤包括：

步骤101A，遍历音频信号，得到音频信号的最大的采样数据值maxSampleValue。

步骤101B，对音频信号进行窗口和小组的划分，获取每个小组内的采样数据值的平均值，以及获取每个窗口内所有小组的采样数据值的平均值中的最大值。

音节是自然的语音单位，具体地，在汉语里，每一个音节对应一种嘴唇形状，匀速时，完成一个音节读音大约需要200至300毫秒。在每个音节发音时间段内也会有语音变化，所以需要将音节再进行划分，细分出音素。依据上述原理，可以将获取的音频信号按照一定长度进行窗口划分，一个窗口对应一个音节；在每个窗口内再按照一定长度进行小组划分，一个小组对应一个音素。假设音节占用x秒时间，窗口长度为WindowLen，则WindowLen＝x*音频采样率；假设定义音素占用y秒时间，小组长度为GroupLen，GroupLen＝y*音频采样率。

具体地，获取的每个小组内采样数据值的平均值为组内所有采样数据值的总和除以windowLen，将该平均值放在avgGroup数组；获取每个窗口内所有小组采样数据值的平均值avgGroup中的最大值，放在windowPeak数组。

可选地，为了避免嘴唇形状不必要的运动及在必要运动时显得更加得流畅，可以在获取音频信号时对音频信号进行去噪处理。

步骤101C，根据获取的数组windowPeak获取每个窗口对应的嘴唇形状的最大运动幅度值。

具体地，获取第i窗口内(i＞＝0)所有小组采样数据值的平均值；获取采样数据值的平均值中的最大值windowPeak[i]；计算最大值windowPeak[i]与最大的采样数据值的maxSampleValue的比值scale[i]。对于scale数组中的每个数组值scale[i]，当前窗口i对应的嘴唇形状的最大运动幅度extent[i]＝scale[i]*maxLen，其中，maxLen为所有窗口的嘴唇形状的最大运动幅度值。

步骤101D，获取每个窗口对应的每一帧嘴唇形状的运动幅度比例。

具体地，当前窗口i对应的第j帧视频中的嘴唇形状运动幅度比例scaleForFrame[k]＝j*(scale[i]/(frameNumber/2))，其中，k＝frameNumber*i+j，0＝＜k＜视频总帧数，frameNumber为每个窗口对应的动画视频帧的个数，frameNumber＝x*视频采样率，x为每个音节占用时间长度，本实施例中，视频采样率默认为30帧/秒，用户也可以根据需要进行修改；j取值范围为从0依次递增到frameNumber/2，再从frameNumber/2依次递减到0，如图2所示。

步骤102，获取用户输入的初始的嘴唇形状模型，根据初始的嘴唇形状模型和得到的嘴唇形状的运动幅度比例生成嘴唇形状的运动幅度值。

具体地，嘴唇形状的运动幅度值分为：垂直方向和水平方向的嘴唇形状运动幅度值；计算水平方向的嘴唇形状的运动幅度值为length*scaleForFrame[k]，垂直方向的嘴唇形状的运动幅度值为width*scaleForFrame[k]，其中，0＝＜k＜视频总帧数，length和width分别为初始的嘴唇形状模型的长度和宽度。

需要说明的是，用户输入的初始的嘴唇形状模型根据实际情况不同会发生变化。

步骤103，根据得到的嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合。

在本步骤中，嘴唇发音模型库是依据汉语的发音特点建立的。在汉语中，词由声母和韵母组成，嘴唇形状的重点会放在韵母的发音上。韵母又分单韵母、复韵母和鼻韵母。单韵母的发音由一个元音组成，从始至终嘴唇形状不变；复韵母由两个或三个元音组成，声音是渐变的，嘴唇形状也是渐变的；而鼻韵母对嘴唇形状的影响不大。因此，在对嘴唇形状建立发音模型时，主要依照单韵母的发音的发音特点。单韵母的发音是：“啊，哦，鹅，衣，屋，于”，其中“屋”和“于”的嘴唇形状比较相似，所以合成一种；“鹅”和“衣”的嘴唇形状比较相似，所以合成一种；最后得到用四种嘴唇发音模型组成嘴唇发音模型库来表示单韵母的嘴唇形状，如图3所示，嘴唇发音模型库必须包括：一个原始嘴唇模型和在此模型基础上按以上原理建立起来的各种嘴唇形状模型。需要说明的是，嘴唇发音模型库中不限于以上四种单韵母的嘴唇形状模型，依据语言的发音特点不同，嘴唇发音模型库中的嘴唇形状模型也可以不同，例如，根据英语的发音特定，嘴唇发音模型库中可以有模拟英语元音“a e i o u”发音特点的嘴唇形状模型。

具体地，根据预先建立的嘴唇发音模型库和嘴唇形状的运动幅度值生成变化的嘴唇形状网格模型集合的步骤包括：

步骤103A，从嘴唇发音模型库中随机选择一个嘴唇发音模型，作为当前嘴唇形状的原始发音模型。

步骤103B，获取原始发音模型顶点和嘴唇发音模型库中原始嘴唇模型，计算原始发音模型各个顶点的偏移量比例，计算方法为：原始发音模型顶点z相对嘴唇发音模型库中原始嘴唇模型的顶点z的偏移量在水平方向为x_hor，在垂直方向为y_ver，那么顶点z在水平方向的偏移量比例为(x_hor/modelLength，顶点z在垂直方向的偏移量比例为y_ver/modelWidth，其中modelLength和modelWidth为发音模型库中原始嘴唇模型的长度和宽度，0＝＜z＜原始发音模型顶点个数。

步骤103C，将原始发音模型各个顶点的偏移量比例各自都乘以当前帧的嘴唇形状运动幅度值得到当前帧的顶点偏移量。

步骤103D，在用户输入的初始的嘴唇形状模型，分别累加当前帧的顶点偏移量，得到当前帧的嘴唇形状模型。

步骤103E，将所有帧的嘴唇形状模型排列起来，生成变化的嘴唇形状网格模型集合。

本发明实施例2提供了一种获取嘴唇动画的方法，如图4所示，包括：

步骤201，获取音频信号，根据音频信号的特征得到嘴唇形状的运动幅度比例。

步骤201与步骤101相同，在此不再赘述。

步骤202，获取初始的嘴唇形状模型，根据初始的嘴唇形状模型和得到的嘴唇形状的运动幅度比例，得到嘴唇形状的运动幅度值。

步骤202与步骤102相同，在此不再赘述。

步骤203，根据得到的嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合。

步骤203与步骤103相同，在此不再赘述。

步骤204，根据该变化的嘴唇形状网格模型集合生成嘴唇动画。

具体地，根据该变化的嘴唇形状网格模型集合，结合原始的嘴唇形状图像，利用普通的插值技术即可得到嘴唇动画。

本发明实施例3提供了一种语音驱动嘴唇形状变化的装置，如图5所示，包括：

获取模块501，用于获取音频信号，根据该音频信号的特征得到嘴唇形状的运动幅度比例；

第一生成模块502，用于获取用户输入的初始的嘴唇形状模型，根据该初始的嘴唇形状模型和该得到的嘴唇形状的运动幅度比例生成嘴唇形状的运动幅度值；

第二生成模块503，用于根据该得到的嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合。

进一步地，如图6所示，获取模块501包括：

第一获取模块，用于遍历音频信号，获取最大的采样数据值；

第二获取模块，用于对该音频信号进行窗口和小组的划分，获取每个小组内的采样数据值的平均值数组avgGroup，获取每个窗口内所有小组的采样数据值的平均值数组avgGroup中的最大值数组windowPeak；

第四获取模块，用于根据当前窗口对应的嘴唇形状最大运动幅度获取当前窗口对应的当前帧视频的嘴唇形状运动幅度比例。

进一步地，第二获取模块，包括：

第五获取模块，用于获取当前窗口i内所有小组采样数据值的平均值；

第六获取模块，用于获取采样数据值的平均值的最大值windowPeak[i]；

第七获取模块，用于计算windowPeak[i]和最大的音频采样数据值maxSampleValue的比值scale[i]；

第八获取模块，用于计算当前窗口i对应的嘴唇形状的最大运动幅度extent[i]＝scale[i]*maxLen；

其中，i＞＝0，maxLen为所有窗口的嘴唇形状的最大运动幅度值。

进一步地，第四获取模块，具体用于获取当前窗口i对应的第j帧视频中的嘴唇形状运动幅度比例scaleForFrame[k]＝j*(scale[i]/(frameNumber/2))，其中，k＝frameNumber*i+j，0＝＜k＜视频总帧数，frameNumber为每个窗口对应的动画视频帧的个数，frameNumber＝x*视频采样率，x为每音节占用的时间，j取值范围为从0依次递增到frameNumber/2，再从frameNumber/2依次递减到0。

进一步地，该第一生成模块502根据该初始的嘴唇形状模型和该嘴唇形状的运动幅度比例，生成嘴唇形状的运动幅度值，包括：

计算嘴唇形状的水平方向的运动幅度值为length*scaleForFrame[k]，垂直方向的嘴唇形状的运动幅度值为width*scaleForFrame[k]，其中，length和width分别为初始的嘴唇形状模型的长度和宽度。

进一步地，如图7所示，第二生成模块503，包括：

选择模块，用于从该预先建立嘴唇发音模型库中随机选择一个嘴唇发音模型，作为当前嘴唇形状的原始发音模型；

第九获取模块，用于获取该原始发音模型顶点和嘴唇发音模型库中原始嘴唇模型，计算原始发音模型各个顶点的偏移量比例；

第十获取模块，用于将该原始发音模型各个顶点的偏移量比例各自都乘以当前帧的嘴唇形状运动幅度值得到当前帧的顶点偏移量；

进一步地，第九获取模块计算原始发音模型各个顶点的偏移量比例，包括：

计算原始发音模型顶点z在水平方向的偏移量比例为x_hor/modelLength，在垂直方向的偏移量比例为y_ver/modelWidth，其中modelLength和modelWidth为发音模型库中原始嘴唇模型的长度和宽度，x_hor、y_ver分别为原始发音模型顶点z相对嘴唇发音模型库中原始嘴唇模型的顶点z在水平方向和垂直方向的偏移量，其中，0＝＜z＜原始发音模型顶点个数。

进一步地，获取模块501，还用于对该音频信号进行去噪处理。

需要说明的是，获取模块501获取音频信号，根据该音频信号的特征得到嘴唇形状的运动幅度比例的详细过程可以参见实施例1中的步骤101。

需要说明的是，第一生成模块502获取初始的嘴唇形状模型，根据该初始的嘴唇形状模型和该得到的嘴唇形状的运动幅度比例生成嘴唇形状的运动幅度值的详细过程可以参见实施例1中的步骤102。

需要说明的是，第二生成模块503根据该得到的嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合的详细过程可以参见实施例1中的步骤103。

本发明实施例4提供了一种获取嘴唇动画的装置，如图8所示，包括：

获取模块601，用于获取音频信号，根据该音频信号的特征得到嘴唇形状的运动幅度比例；

第一生成模块602，用于获取用户输入的初始的嘴唇形状模型，根据该初始的嘴唇形状模型和该得到的嘴唇形状的运动幅度比例生成嘴唇形状的运动幅度值；

第二生成模块603，用于根据该得到的嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合；

第三生成模块604，用于根据该变化的嘴唇形状网格模型集合生成嘴唇动画。

获取模块601、第一生成模块602和第二生成模块603分别等同于实施例3中的获取模块、第一生成模块和第二生成模块，具体不再赘述。

需要说明的是，获取模块601获取音频信号，根据该音频信号的特征得到嘴唇形状的运动幅度比例的详细过程可以参见实施例1中的步骤101。

需要说明的是，第一生成模块602获取初始的嘴唇形状模型，根据该初始的嘴唇形状模型和该得到的嘴唇形状的运动幅度比例，生成嘴唇形状的运动幅度值的详细过程可以参见实施例1中的步骤102。

需要说明的是，第二生成模块603根据该得到的嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合的详细过程可以参见实施例1中的步骤103。

本发明实施例1-4的技术方案可以应用于但不限于终端视频动画或娱乐性的网页视频动画领域，不仅适用于汉语，还可以适用于英语、法语或其他语种，为了叙述简便，本发明实施例1-4的技术方案仅以汉语为例，其他语种的处理类似，不再赘述。其中，用户输入的初始的嘴唇形状模型可能是来自于人脸、动物脸、卡通图像等；音频信号也是用户自定义的，例如是正常说话、唱歌，或特效处理过的音频信号等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述程序可以存储于一计算机可读取存储介质中，所述存储介质为计算机的软盘、硬盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音驱动嘴唇形状变化的方法，其特征在于，包括：

遍历所述音频信号，获取最大的采样数据值；

2.如权利要求1所述的语音驱动嘴唇形状变化的方法，其特征在于，所述根据获取的数组windowPeak和获取的最大采样数据值获取当前窗口对应的嘴唇形状的最大运动幅度值，包括：

获取当前窗口i内所有小组采样数据值的平均值；

获取采样数据值的平均值的最大值windowPeak[i]；

计算windowPeak[i]和最大采样数据值maxSampleValue的比值scale[i]；

计算当前窗口i对应的嘴唇形状的最大运动幅度值extent[i]＝scale[i]*maxLen；

3.如权利要求1所述的语音驱动嘴唇形状变化的方法，其特征在于，所述根据当前窗口对应的嘴唇形状最大运动幅度值获取当前窗口对应的当前视频帧的嘴唇形状运动幅度比例，包括：

获取当前窗口i对应的第j帧视频中的嘴唇形状运动幅度比例scaleForFrame[k]＝j*(scale[i]/(frameNumber/2))，其中，k＝frameNumber*i+j，0＝＜k＜视频总帧数，frameNumber为每个窗口对应的动画视频帧的个数，frameNumber＝x*视频采样率，x为每音节占用的时间，j取值范围为从0依次递增到frameNumber/2，再从frameNumber/2依次递减到0。

4.如权利要求3所述的语音驱动嘴唇形状变化的方法，其特征在于，所述根据所述初始的嘴唇形状模型和所述嘴唇形状的运动幅度比例生成嘴唇形状的运动幅度值，包括：

5.如权利要求1所述的语音驱动嘴唇形状变化的方法，其特征在于，所述计算原始发音模型各个顶点的偏移量比例，包括：

6.如权利要求1-5任意一项所述的语音驱动嘴唇形状变化的方法，其特征在于，所述获取音频信号，还包括：

对所述音频信号进行去噪处理。

7.一种获取嘴唇动画的方法，其特征在于，包括：

根据所述变化的嘴唇形状网格模型集合生成嘴唇动画；

遍历所述音频信号，获取最大的采样数据值；

8.一种语音驱动嘴唇形状变化的装置，其特征在于，包括：

获取模块，用于获取音频信号，根据所述音频信号的特征得到嘴唇形状的运动幅度比例；第一生成模块，用于获取用户输入的初始的嘴唇形状模型，根据所述初始的嘴唇形状模型和所述嘴唇形状的运动幅度比例，生成嘴唇形状的运动幅度值；

所述获取模块包括：

所述第二生成模块包括：

9.如权利要求8所述的语音驱动嘴唇形状变化的装置，其特征在于，所述第二获取模块，包括：

第七获取模块，用于计算windowPeak[i]和最大采样数据值maxSampleValue的比值scale[i]；

第八获取模块，用于计算当前窗口i对应的嘴唇形状的最大运动幅度值extent[i]＝scale[i]*maxLen；

10.如权利要求8所述的语音驱动嘴唇形状变化的装置，其特征在于，所述第四获取模块，具体用于获取当前窗口i对应的第j帧视频中的嘴唇形状运动幅度比例scaleForFrame[k]＝j*(scale[i]/(frameNumber/2))，其中，k＝frameNumber*i+j，0＝＜k＜视频总帧数，frameNumber为每个窗口对应的动画视频帧的个数，frameNumber＝x*视频采样率，x为每音节占用的时间，j取值范围为从0依次递增到frameNumber/2，再从frameNumber/2依次递减到0。

11.如权利要求10所述的语音驱动嘴唇形状变化的装置，其特征在于，所述第一生成模块根据，根据所述初始的嘴唇形状模型和所述嘴唇形状的运动幅度比例，生成嘴唇形状的运动幅度值，包括：

12.如权利要求8所述的语音驱动嘴唇形状变化的装置，其特征在于，第九获取模块计算原始发音模型各个顶点的偏移量比例，包括：

13.如权利要求12所述的语音驱动嘴唇形状变化的装置，其特征在于，所述获取模块，还用于对所述音频信号进行去噪处理。

14.一种获取嘴唇动画的装置，其特征在于，包括：

所述获取模块包括：

所述第二生成模块包括：