CN112700520B

CN112700520B - 基于共振峰的口型表情动画生成方法、装置及存储介质

Info

Publication number: CN112700520B
Application number: CN202011618339.XA
Authority: CN
Inventors: 吴强; 季晓枫; 施恩铭; 马俊; 郭翔
Original assignee: Shanghai Magic Digital Creative Technology Co ltd
Current assignee: Shanghai Magic Digital Creative Technology Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2024-03-26
Anticipated expiration: 2040-12-30
Also published as: CN112700520A

Abstract

本发明涉及一种基于共振峰的口型表情动画生成方法、装置及存储介质，方法包括以下步骤：对音频信号进行分帧处理；进行快速傅里叶变换，得到每个语音帧的频谱，获取每个语音帧的共振峰数据；基于共振峰数据得到每个语音帧对应的控制字；替换控制序列中的奇异点，得到元音序列，基于元音序列，生成口型动画和表情动画。与现有技术相比，本发明基于共振峰数据，得到每个声音帧对应的元音，再通过替换奇异点，可以减少抖动，口型和表情的变化更加自然流畅，保证了视觉效果，提升了用户体验；每次自元音序列中读取多个控制字，将出现次数最多的控制字作为目标控制字，进一步抑制了因声音突变而造成的口型和表情突变。

Description

基于共振峰的口型表情动画生成方法、装置及存储介质

技术领域

本发明涉及语音处理领域，尤其是涉及一种基于共振峰的口型表情动画生成方法、装置及存储介质。

背景技术

随着动画、游戏等娱乐产业的发展以及人机交互的普及，动画与音频的配合越来越重要，将人脸的口型与语音相匹配在增加人脸动画的逼真性方面起着重要的作用。鉴于语音和唇部运动之间存在较为直观的确定性关系，研究人员提出了基于语音自动生成与语音匹配的唇形动画，如中国专利CN201810671470.9公开的一种游戏角色中文语音自动识别方法、一定程度上满足了需求，可以生成与语音相匹配的口型动画。该申请基于中文元音在共振峰上的特征，识别当前帧发的元音口型，基于整段语音生成每帧的口型动画数据。

但是，在现实生活中，语音不仅与唇形匹配，也与面部表情匹配，已有的工作大多关注于合成与语音匹配的唇形动画，而忽略了相应的面部表情。现有技术已经公开了一些面部表情动画的合成方法，如中国专利CN201611261096.2公开的基于语音实时驱动人物模型的表情和姿态的方法，将语音与表情相对应，根据语音切换表情。一些游戏制作公司也基于语音驱动生成与语音相匹配的口型动画和表情动画。

但是，由于声音变化较快，而实际上人的口型和表情变化较慢，因此，如果将每个语音分别对应一个口型和表情动画时，口型动画和表情动画会快速切换，变化时间非常短，在肉眼看来，好像是口型和表情发生了突变，非常不自然，影响视觉效果，用户体验不佳。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于共振峰的口型表情动画生成方法、装置及存储介质，基于共振峰数据，得到每个声音帧对应的元音，再通过替换奇异点，可以减少抖动，口型和表情的变化更加自然流畅，保证了视觉效果，提升了用户体验；每次自元音序列中读取多个控制字，将出现次数最多的控制字作为目标控制字，进一步抑制了因声音突变而造成的口型和表情突变。

本发明的目的可以通过以下技术方案来实现：

一种基于共振峰的口型表情动画生成方法，包括以下步骤：

S1：获取音频信号，对音频信号进行分帧处理，得到N(N>0)个语音帧；

S2：对每个语音帧分别进行快速傅里叶变换，得到每个语音帧的频谱，基于频谱分别得到每个语音帧的共振峰数据；

S3：基于共振峰数据，分别得到每个语音帧对应的控制字，N个语音帧的控制字组成了控制序列{k₁、k₂、…、k_N}，每一个控制字k_i(1≤i≤N)对应一个元音；

S4：遍历控制序列，替换控制序列中的所有奇异点，得到元音序列，具体为：对于控制序列中的控制字k_s(2≤s≤N-2)，如果k_s≠k_s-1，且k_s-1＝k_s+1＝k_s+2，则控制字k_s为奇异点，将k_s的值替换为k_s-1；

S5：基于元音序列，生成口型动画和表情动画。

进一步的，所述步骤S1具体为：

S11：采集声音信号，并将声音信号转换为数字信号，对数字信号进行预加重处理，得到音频信号；

S12：对音频信号进行分帧处理得到N个帧，每一帧的长度均为L，20ms≤L≤50ms，相邻两帧之间的重叠区域的长度为M，L-M＝λ*L，0<λ≤0.5；

S13：对每一帧分别进行加窗处理，得到N个语音帧。

更进一步的，所述步骤S11中，声音信号的采样频率为44.1kHz，量化位数为16位。

更进一步的，所述步骤S12中，每一帧的长度L＝23.2ms，相邻两帧之间的重叠区域的长度M＝13.2ms。

进一步的，所述步骤S13中，采用汉明窗对每一帧分别进行加窗处理，具体为将每一帧分别乘以汉明窗的窗函数。

进一步的，所述步骤S2中基于频谱分别得到每个语音帧的共振峰数据具体为：获取每个语音帧的前3个共振峰F1、F2、F3。

进一步的，所述步骤S5具体为：根据预设置的读取速度，每次自元音序列中读取q(q>0)个控制字，取q个控制字中出现次数最多的控制字为目标控制字，获取目标控制字对应的目标元音，获取目标元音对应的目标口型和目标表情，生成目标口型动画和目标表情动画。

更进一步的，所述读取速度为10次/s，q的取值为10，即每秒读取10次，每次自元音序列中读取10个控制字。

一种基于共振峰的口型表情动画生成装置，基于如上所述的口型表情动画生成方法，包括依次连接的声音采集模块、声音处理模块、计算模块和动画生成模块，其中：

声音采集模块，用于获取音频信号；

声音处理模块，用于对音频进行分帧处理、快速傅里叶变换，得到控制序列；

计算模块，用于替换控制序列中的所有奇异点，得到元音序列；

动画生成模块，用于根据元音序列生成口型动画和表情动画。

一种计算机可读存储介质，所述存储介质中存储有基于共振峰的口型表情动画生成程序，所述基于共振峰的口型表情动画生成程序由处理器执行以实现如上所述的基于共振峰的口型表情动画生成方法。

与现有技术相比，本发明具有以下有益效果：

(1)基于共振峰数据，得到每个声音帧对应的元音，再通过替换奇异点，可以减少抖动，口型和表情的变化更加自然流畅，保证了视觉效果，提升了用户体验。

(2)每次自元音序列中读取多个控制字，将出现次数最多的控制字作为目标控制字，进一步抑制了因声音突变而造成的口型和表情突变。

(3)将声音帧进行快速傅里叶变换得到频谱，从而获得共振峰数据，基于共振峰数据F1、F2、F3判断声音帧对应的元音，操作过程简单，判断速度快，而且判断较为准确。

附图说明

图1为基于共振峰的口型表情动画生成方法的流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1：

一种基于共振峰的口型表情动画生成方法，如图1所示，包括以下步骤：

步骤S1具体为：

S12：对音频信号进行分帧处理得到N个帧，每一帧的长度均为L，20ms≤L≤50ms，相邻两帧之间的重叠区域的长度为M，M＝(1-λ)*L，0<λ≤0.5；

S13：对每一帧分别进行加窗处理，得到N个语音帧。

本实施例中，声音信号的采样频率为44.1kHz，量化位数为16位，每一帧的长度L＝23.2ms，即1024个样本点，相邻两帧之间的重叠区域的长度M＝13.2ms，即583个样本点，具体分帧过程为：生成一个长度为23.3ms的取样段，落在取样段内的样本点为一个帧，取样段的初始起点为音频信号的起点，得到第一帧，之后，取样段移动10ms(即帧移)，即441个样本点，得到第二帧，第一帧和第二帧之间的重叠区域即1024-441＝583，继续移动取样段，每次移动10ms，这样，每一秒声音信号可以取到100个帧。

将每一帧的长度L设为1024个样本点，在后续进行快速傅里叶变换时，计算机更容易计算。相邻帧之间有重叠区域，能够使帧与帧之间平滑过渡，本实施例中，帧移取10ms，在其他实施方式中，也可以根据需要改变帧移的大小，从而调整相邻两帧之间的重叠区域的长度M。

采用汉明窗对每一帧分别进行加窗处理，具体为将每一帧分别乘以汉明窗的窗函数。

S2：对每个语音帧分别进行快速傅里叶变换，得到每个语音帧的频谱，基于频谱分别得到每个语音帧的共振峰数据，具体为：获取每个语音帧的前3个共振峰F1、F2、F3。

声音信号处理过程中，转换为数字信号、预加重处理、分帧、加窗、快速傅里叶变换等均为现有声音处理方法中常用的技术手段，故不再赘述。

S3：基于共振峰数据，分别得到每个语音帧对应的控制字，N个语音帧的控制字组成了控制序列{k₁、k₂、…、k_N}，每一个控制字k_i(1≤i≤N)对应一个元音。

通过对多种不同口型进行综合分析，发现口型的形状与元音基本呈对应关系。即对于不同的文字读音而言，只要元音相同，则发音者的口型形状和张开的大小是基本固定的，在没有特定情绪时，面部表情也是与元音和口型相对应的，所以只需要分析出声音当中的元音，就可以制作出相对准确的口型动画和表情动画。

而共振峰是区别不同元音的重要参数。共振峰是指在声音的频谱中能量相对集中的一些区域，声音在经过共振腔时，受到腔体的滤波作用，使得频域中不同频率的能量重新分配，一部分因为共振腔的共振作用得到强化，另一部分则受到衰减。由于能量分布不均匀，强的部分犹如山峰一般，故而称之为共振峰。

本实施例中，对人群进行抽样调查，选取16名成人男性和16名成人女性，年龄在18～30岁，得到其发音的6个元音a、o、e、i、u、v的共振峰数据F1、F2、F3的统计平均值，如表1所示，F1主要分布在290Hz～1kHz范围内，F2分布于500Hz～2.5kHz范围内，而F3分布于2.5kHz～4.0kHz范围内。

表1

而且，如表2所示，各个元音对应于一组不同的共振峰数据，可以互相错开，因此可使用共振峰数据F1、F2、F3作为识别元音的基础。

表2

元音	F1/Hz	F2/Hz	F3/Hz	控制字
					a	960～1080	1030～1410	2780～3360	1
o	500～800	650～960	2890～3590	2
					e	520～820	1000～1300	3000～3200	3
i	240～380	2270～3250	3430～3870	5
					u	350～450	430～670	3020～3790	4
v	240～380	2090～2740	3330～3830	6

本实施例中，控制字k_i∈{1、2、3、4、5、6}，如表2所示，6个控制字1、2、3、4、5、6分别对应元音a、o、e、i、u、v。分别得到每一个声音帧的共振峰数据，再基于共振峰数据，分别得到每个语音帧对应的控制字，这样就得到了由控制字组成的控制序列。

如第一个声音帧的共振峰数据F1、F2、F3为980Hz、1.2kHz、3kHz，则该声音帧对应的控制字为1，对应元音a。

现有技术中也公开了各个元音对应的共振峰数据，与本申请中元音与共振峰数据的对应有所区别，其元音可能是发音群体的不同、发音习惯的不同、测量方法的不同，因此，在其他实施方式中，也可以根据语音的特点，重新确定各个元音对应的共振峰数据，以增加精确度。

S4：遍历控制序列，替换控制序列中的所有奇异点，得到元音序列，具体为：对于控制序列中的控制字k_s(2≤s≤N-2)，如果k_s≠k_s-1，且k_s-1＝k_s+1＝k_s+2，则控制字k_s为奇异点，将k_s的值替换为k_s-1。

语音变化时，口型和面部表情会随之发生变化。当声音突然发生改变时，该声音所对应的控制字与左右控制字不一样，为了避免出现抖动，将右侧的2个控制字与左侧的1个控制字进行对比，如果左侧控制字与右侧两个控制字相同，即k_s≠k_s-1，且k_s-1＝k_s+1＝k_s+2，则将k_s的值替换为k_s-1，如控制序列“1611”中的“6”为奇异点，使用“1”替换“6”。这样，可以减少抖动。

S5：基于元音序列，生成口型动画和表情动画。

具体为：根据预设置的读取速度，每次自元音序列中读取q(q>0)个控制字，取q个控制字中出现次数最多的控制字为目标控制字，获取目标控制字对应的目标元音，获取目标元音对应的目标口型和目标表情，生成目标口型动画和目标表情动画。

本实施例中，每一秒声音信号可以取到100个帧，读取速度为10次/s，q的取值为10，即每秒读取10次，每次自元音序列中读取10个控制字。取这10个控制字中出现次数最多的控制字为目标控制字，获取目标控制字对应的目标元音，获取目标元音对应的目标口型和目标表情，生成目标口型动画和目标表情动画。这样，使用出现次数最多的控制字作为目标控制字，进一步抑制了因声音突变而造成的口型和表情突变。

一种基于共振峰的口型表情动画生成装置，包括依次连接的声音采集模块、声音处理模块、计算模块和动画生成模块，其中：

声音采集模块，用于获取音频信号；

一种计算机可读存储介质，存储介质中存储有基于共振峰的口型表情动画生成程序，基于共振峰的口型表情动画生成程序由处理器执行以实现基于共振峰的口型表情动画生成方法。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于共振峰的口型表情动画生成方法，其特征在于，包括以下步骤：

S1：获取音频信号，对音频信号进行分帧处理，得到N个语音帧，N>0；

S3：基于共振峰数据，分别得到每个语音帧对应的控制字，N个语音帧的控制字组成了控制序列{k₁、k₂、…、k_N}，每一个控制字k_i对应一个元音，1≤i≤N；

S4：遍历控制序列，替换控制序列中的所有奇异点，得到元音序列，具体为：对于控制序列中的控制字k_s，2≤s≤N-2，如果k_s≠k_s-1，且k_s-1＝k_s+1＝k_s+2，则控制字k_s为奇异点，将k_s的值替换为k_s-1；

S5：基于元音序列，生成口型动画和表情动画；

所述步骤S2中基于频谱分别得到每个语音帧的共振峰数据具体为：获取每个语音帧的前3个共振峰F1、F2、F3；

所述步骤S5具体为：根据预设置的读取速度，每次自元音序列中读取q个控制字，q>0，取q个控制字中出现次数最多的控制字为目标控制字，获取目标控制字对应的目标元音，获取目标元音对应的目标口型和目标表情，生成目标口型动画和目标表情动画；

所述读取速度为10次/s，q的取值为10，即每秒读取10次，每次自元音序列中读取10个控制字。

2.根据权利要求1所述的基于共振峰的口型表情动画生成方法，其特征在于，所述步骤S1具体为：

S13：对每一帧分别进行加窗处理，得到N个语音帧。

3.根据权利要求2所述的基于共振峰的口型表情动画生成方法，其特征在于，所述步骤S11中，声音信号的采样频率为44.1kHz。

4.根据权利要求3所述的基于共振峰的口型表情动画生成方法，其特征在于，所述步骤S12中，每一帧的长度L＝23.2ms，相邻两帧之间的重叠区域的长度M＝13.2ms。

5.根据权利要求2所述的基于共振峰的口型表情动画生成方法，其特征在于，所述步骤S13中，采用汉明窗对每一帧分别进行加窗处理，具体为将每一帧分别乘以汉明窗的窗函数。

6.一种基于共振峰的口型表情动画生成装置，其特征在于，基于如权利要求1-5中任一所述的口型表情动画生成方法，包括依次连接的声音采集模块、声音处理模块、计算模块和动画生成模块，其中：

声音采集模块，用于获取音频信号；

7.一种计算机可读存储介质，其特征在于，所述存储介质中存储有基于共振峰的口型表情动画生成程序，所述基于共振峰的口型表情动画生成程序由处理器执行以实现如权利要求1-5中任一所述的基于共振峰的口型表情动画生成方法。