CN109087629A

CN109087629A - 一种基于语音识别的口型动画实现方法及装置

Info

Publication number: CN109087629A
Application number: CN201810972661.9A
Authority: CN
Inventors: 宋大伟; 李拓
Original assignee: Suzhou Playing Friends Era Polytron Technologies Inc
Current assignee: Suzhou Playing Friends Era Polytron Technologies Inc
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2018-12-25

Abstract

本发明提供一种基于语音识别的口型动画实现方法和装置，其中装置包括采集单元、信号处理单元、动画合成单元和显示单元；采集单元配置成采集原始声音数据的模拟信号；信号处理单元配置成对声音数据进行分析得到声音数据的元音；动画合成单元配置成根据声音数据的元音，调用骨骼动画，使骨骼动画作出匹配元音的口型动作；并将口型动作与现有动画进行融合播放，得到最终的口型动画；显示单元配置成用于显示动画合成单元生成的口型动画。

Description

一种基于语音识别的口型动画实现方法及装置

技术领域

本发明涉及通信领域的语间识别技术领域，尤其涉及一种基于语音识别的口型动画实现方法及装置。

背景技术

随着游戏、动漫等娱乐产业的发展，在各种游戏应用程序、动漫视频或计算机仿真应用程序中，通常会涉及到一些图像显示需要与音频互相配合的对话场景。在这些对话场景中，场景角色会轮流进行对话。例如，游戏应用中通常会涉及到游戏剧情对话场景，在游戏剧情对话场景，游戏角色会轮流进行对话。可见，在对话场景中，不仅需要播放场景角色对话的声音，还需要呈现与对话音频相配合的场景角色口型，也即，在场景角色说话时需要呈现该场景角色口型正在进行动态的变化。。

为了使得场景角色说话时口型实现动态的变化，现有技术采用的是，对话场景预先设置场景角色不同口型的图片，当应用程序运行到对话场景时，将场景角色不同口型的图片动态地切换显示，这样就使得对话场景的显示图像中场景角色的口型能够进行动态的变化，从而与对话场景的音频中场景角色的对话相配合。但是这种方案需要存储大量的口型图片，存储容量需要非常大。

当前，也有一些通过对声音时域波形进行分割，对比已有词汇的音频特征库，识别出对应的字词，但是这种识别方法，不能准确给出单个字的出现时间点，针对不同的音色也会有不同的识别结果。因为声音是模拟信号，拿到的声音的时域波形只代表声压随时间变化的关系，不能很好的代表声音的特征，所以识别准确率不高，最终得到的口型动画的匹配度也不是太好。

发明内容

为了至少解决现有的技术问题。

一般办法是针对不同音色添加参数值，或者调整时域波形的采样频率，从而提高语音的识别准确性。

本发明创造性的提供了一种基于语音识别的口型动画实现方法及装置能够解决上述技术问题当中的至少一个或多个。

一种基于语音识别的口型动画实现方法，其中，方法包括如下步骤：

采集原始声音数据的模拟信号；

将模拟信号通过A/D转换得到数字信号；

对声音数据的数字信号进行傅利叶变换，将数字信号的时域波形转换为频域波形；

对声音数据频域波形的进行Mel滤波处理；

对声音数据进行分割，分析得到声音数据的元音；

根据声音数据的元音，调用骨骼动画，使骨骼动画作出匹配元音的口型动作；

将口型动作与现有动画进行融合播放，得到最终的口型动画。

其有益效果是，首先拿到声音的模拟信号，通过A/D转换后得到数字信号，此时的数字信号的波形为时域波形，但是由于数字信号在时域上的变换通常很难看出信号的特性，特征性非常差，不利于区分判别。所以本发明通过将时域波形进行傅利叶变换，转换成频域波形，将数字信号转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性，在进行傅利叶变换后，再对声音数据频域波形的进行Mel滤波处理，可以让声音数据的频谱更加平滑化，消除谐波的作用，突显原先语音的共振峰。再对声音数据进行分割，分析出其中的元音。

本发明当中选择元音，是因为通过多种不同口型综合分析发现，口型的形状与元音基本呈对应关系。即对于不同的文字读音而言，只要元音相同，则发音者的口型形状和张开的大小是基本固定的，所以只需要分析出语音数据当中的元音，就可以制作出相对准确的口型动画。

最后根据声音数据的元音，调用相应的骨骼动画，使骨骼动画作出匹配元音的口型动作；再将口型动作与现有动画进行融合播放，得到最终的口型动画。

在一些实施方式中，在Mel滤波处理的步骤当中，添加人耳听觉特性的滤波器，补偿声音数据中低频部分掩盖的高频部分，并且突显出高频共振峰。其有益效果是，进行Mel滤波处理后，可以使得声音数据的频域波形更加符合真实情况，将掩盖的高频部分补偿回去，从而突显出高频共振峰，便于其后的声音数据切割和元音识别。

在一些实施方式中，在对声音数据进行分割，分析得到声音数据的元音的步骤当中，设置外挂配置参数功能，供分析结果不精确时进行手工修改。其有益效果是，设置外挂配置参数功能后，如果元音

在一些实施方式中，对声音数据的数字信号进行傅利叶变换的具体公式为：

参数N是采样点数量，x(k)为输入声音数据序列。

傅利叶原理表明：从数学角度来看，任何连续测量的时序或信号，都可以表示为不同频率的正弦波信号的无限叠加。而根据该原理创立的傅立叶变换算法利用直接测量到的原始信号，以累加方式来计算该信号中不同正弦波信号的频率、振幅和相位。从物理的角度来看，待傅利叶变换，可以帮助改变传统的时间域分析信号的方法转到从频率域上来分析信号，这也是本发明创造性的将将数字信号的时域波形转换为频域波形，再来进行切割和分析元音。

在一些实施方式中，对声音数据频域波形的进行Mel滤波处理的具体公式为：

M(f)＝11251n(1+f/700)

参数f是频率，1125和700都是经验值常量，将不统一的频率转化为统一的频率。也就是统一的滤波器组。在Mel频域内，人对音调的感知度为线性关系。举例来说，如果两段语音的Mel频率相差两倍，则人耳听起来两者的音调也相差两倍。

在一些实施方式中，在对声音数据频域波形的进行Mel滤波处理的步骤后，还包括步骤：

对声音数据的频域波形进行倒谱，具体倒谱的公式为：

M^-1(m)＝700(exp(m/1125)-1)

参数m是频域波形的振幅，700和1125是经验值常量。

梅尔频率倒谱系数考虑到了人类的听觉特征，先将线性频谱映射到基于听觉感知的Mel非线性频谱中，然后转换到倒谱上。虽然此时获得倒谱为时域信号，但已经和原始的时域信号x(n)不一样，但是可以把时域信号的卷积关系转化为了线性加关系。这时候，语音就可以通过一系列的倒谱向量来描述了，每个向量就是每帧的MFCC特征向量。

同时，本发明还公开了一种非易失性计算机存储介质，存储有计算机可执行程序，计算机可执行程序用于执行如上的基于语音识别的口型动画实现方法。存储介质包括但不限于ROM、RAM、普通硬盘、U盘或者软盘。

其有益效果是，只需要可以用于存储相应程序即可，通过存储介质将相应的可执行程序存储起来后，可以将方便的将相应的可执行程序安装到台式电脑、笔记本电脑、PAD、智能手机等终端上，从而方便的进行相应的口型动画生成。

同时，本发明还公开了一种基于语音识别的口型动画实现装置，其特征在于，包括：采集单元、信号处理单元、动画合成单元和显示单元；

采集单元配置成采集原始声音数据的模拟信号；

信号处理单元配置成对声音数据进行分析得到声音数据的元音；

动画合成单元配置成根据声音数据的元音，调用骨骼动画，使骨骼动画作出匹配元音的口型动作；并将口型动作与现有动画进行融合播放，得到最终的口型动画；

显示单元配置成用于显示动画合成单元生成的口型动画。

其有益效果是，本发明的装置通过信号处理单元，识别出声音数据当中的元音，即可调用骨骼动画，使骨骼动画作出匹配元音的口型动作。选择元音是因为通过多种不同口型综合分析发现，口型的形状与元音基本呈对应关系。即对于不同的文字读音而言，只要元音相同，则发音者的口型形状和张开的大小是基本固定的，所以只需要分析出语音数据当中的元音，就可以制作出相对准确的口型动画。

最终动画合成单元配置成根据声音数据的元音，调用骨骼动画，使骨骼动画作出匹配元音的口型动作；并将口型动作与现有动画进行融合播放，得到最终的口型动画。

在一些实施方式中，信号处理单元包括A/D转换模块、傅利叶变换模块、Mel滤波处理模块和元音分割模块，

A/D转换模块配置成将模拟信号通过A/D转换得到数字信号；

傅利叶变换模块配置成对声音数据的数字信号进行傅利叶变换，将数字信号的时域波形转换为频域波形；

Mel滤波处理模块配置成对声音数据频域波形的进行Mel滤波处理；

元音分割模块配置成对声音数据进行分割，得到声音数据的元音。

其有益效果是，通过A/D转换模块可以得到数字信号，此时的数字信号的波形为时域波形，但是由于数字信号在时域上的变换通常很难看出信号的特性，特征性非常差，不利于区分判别。所以本发明通过傅利叶变换模块将时域波形转换成频域波形，将数字信号转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性，然后再通过Mel滤波处理模块对声音数据频域波形进行Mel滤波处理，可以让声音数据的频谱更加平滑化，消除谐波的作用，突显原先语音的共振峰。再由元音分割模块对声音数据进行分割，从而分析出其中的元音。

在一些实施方式中，还包括手工修正模块，手工修正模块配置有参数修正功能，供分析结果不精确时进行手工修改。其有益效果是，因为环境因素的影响，声音数据的采集不可避免会有一定的杂音，包括所以最终分析出的元音，并不能保证一定无误。设置了手工修正模块后，就可以对识别有误的元音进行手动修正，从而保证最终合成的口型动画更加逼真。

本发明还提供了一种基于语音识别的口型动画实现方法，包括如下步骤：

采集原始声音数据的模拟信号；

将模拟信号通过A/D转换得到数字信号；

对声音数据频域波形的进行Mel滤波处理；

对声音数据进行分割，分析得到声音数据的元音；

根据声音数据的元音，调用不同形状的口型图片，从而匹配相应元音；

将口型图片的切换流程与现有动画进行融合播放，得到最终的口型动画。

其有益效果是，最后根据声音数据的元音，从一个具有多张口型图片的图片库当中调用不同形状的口型图片，将口型图片的切换流程与现有动画进行融合播放，得到最终的口型动画。相对于调用骨骼动画而言，使用口型图片的切换可以实现更小的计算量，但是相应的仿真程度也会有所降低。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种基于语音识别的口型动画实现方法的流程图；

图2为本发明一实施例提供一种基于语音识别的口型动画实现装置的结构原理示意图；

图3为本发明一实施例提供一种基于语音识别的口型动画实现装置的信号处理单元的结构原理示意图。

图4为本发明又一实施例提供的一种基于语音识别的口型动画实现方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的一种基于语音识别的口型动画实现方法及装置能够解决上述技术问题当中的至少一个或多个。

如图1所示为一种基于语音识别的口型动画实现方法，其中，方法包括如下步骤：

步骤S101：采集原始声音数据的模拟信号；

步骤S102：将模拟信号通过A/D转换得到数字信号；

步骤S103：对声音数据的数字信号进行傅利叶变换，将数字信号的时域波形转换为频域波形；

步骤S104：对声音数据频域波形的进行Mel滤波处理；

步骤S105：对声音数据进行分割，分析得到声音数据的元音；分割的具体标准是以一个很小的时间段(一般是0.02秒)进行读取振幅大于阈值的数据，当连续读到数个小于阈值的数据，说明是两个音中间的间隔，则进行分割。然后将上述数据通过高斯滤波过滤杂音后，计算数据段内的平均音高，对比元音数据库进行匹配判断当前声音数据的元音。

步骤S106：根据声音数据的元音，调用骨骼动画，使骨骼动画作出匹配元音的口型动作；

步骤S107：将口型动作与现有动画进行融合播放，得到最终的口型动画。

本发明的工作原理是，首先拿到声音的模拟信号，通过A/D转换后得到数字信号，此时的数字信号的波形为时域波形，但是由于数字信号在时域上的变换通常很难看出信号的特性，特征性非常差，不利于区分判别。所以本发明通过将时域波形进行傅利叶变换，转换成频域波形，将数字信号转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性，在进行傅利叶变换后，再对声音数据频域波形的进行Mel滤波处理，可以让声音数据的频谱更加平滑化，消除谐波的作用，突显原先语音的共振峰。再对声音数据进行分割，分析出其中的元音。

通常，在Mel滤波处理的步骤当中，会添加人耳听觉特性的滤波器，补偿声音数据中低频部分掩盖的高频部分，并且突显出高频共振峰。因为进行Mel滤波处理后，可以使得声音数据的频域波形更加符合真实情况，将掩盖的高频部分补偿回去，从而突显出高频共振峰，便于其后的声音数据切割和元音识别。

同时，为了保证元音分析的更加准确，可以在对声音数据进行分割，分析得到声音数据的元音的步骤当中，设置外挂配置参数功能，供分析结果不精确时进行手工修改。其有益效果是，设置外挂配置参数功能后，如果元音

其中，对声音数据的数字信号进行傅利叶变换的具体公式为：

参数N是采样点数量，x(k)为输入声音数据序列。

对声音数据频域波形的进行Mel滤波处理的具体公式为：

M(f)＝11251n(1+f/700)

在对声音数据频域波形的进行Mel滤波处理的步骤后，还包括步骤：

对声音数据的频域波形进行倒谱，具体倒谱的公式为：

M^-1(m)＝700(exp(m/1125)-1)

参数m是频域波形的振幅，700和1125是经验值常量。

只需要可以用于存储相应程序即可，通过存储介质将相应的可执行程序存储起来后，可以将方便的将相应的可执行程序安装到台式电脑、笔记本电脑、PAD、智能手机等终端上，从而方便的进行相应的口型动画生成。

如图2所示，本发明还公开了一种基于语音识别的口型动画实现装置，其特征在于，包括：采集单元1、信号处理单元2、动画合成单元3和显示单元1；

采集单元1配置成采集原始声音数据的模拟信号；

信号处理单元2配置成对声音数据进行分析得到声音数据的元音；

动画合成单元3配置成根据声音数据的元音，调用骨骼动画，使骨骼动画作出匹配元音的口型动作；并将口型动作与现有动画进行融合播放，得到最终的口型动画；

显示单元4配置成用于显示动画合成单元生成的口型动画。

其有益效果是，本发明的装置通过信号处理单元2，识别出声音数据当中的元音，即可调用骨骼动画，使骨骼动画作出匹配元音的口型动作。选择元音是因为通过多种不同口型综合分析发现，口型的形状与元音基本呈对应关系。即对于不同的文字读音而言，只要元音相同，则发音者的口型形状和张开的大小是基本固定的，所以只需要分析出语音数据当中的元音，就可以制作出相对准确的口型动画。

最终动画合成单元3配置成根据声音数据的元音，调用骨骼动画，使骨骼动画作出匹配元音的口型动作；并将口型动作与现有动画进行融合播放，得到最终的口型动画。

其中，如图3所示，信号处理单元2包括A/D转换模块21、傅利叶变换模块22、Mel滤波处理模块23和元音分割模块24，

A/D转换模块21配置成将模拟信号通过A/D转换得到数字信号；

傅利叶变换模块22配置成对声音数据的数字信号进行傅利叶变换，将数字信号的时域波形转换为频域波形；

Mel滤波处理模块23配置成对声音数据频域波形的进行Mel滤波处理；

元音分割模块24配置成对声音数据进行分割，得到声音数据的元音。

通过A/D转换模块21可以得到数字信号，此时的数字信号的波形为时域波形，但是由于数字信号在时域上的变换通常很难看出信号的特性，特征性非常差，不利于区分判别。所以本发明通过傅利叶变换模块22将时域波形转换成频域波形，将数字信号转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性，然后再通过Mel滤波处理模块23对声音数据频域波形进行Mel滤波处理，可以让声音数据的频谱更加平滑化，消除谐波的作用，突显原先语音的共振峰。再由元音分割模块24对声音数据进行分割，从而分析出其中的元音。

同时，还可以包括手工修正模块，手工修正模块配置有参数修正功能，供分析结果不精确时进行手工修改。其有益效果是，因为环境因素的影响，声音数据的采集不可避免会有一定的杂音，包括所以最终分析出的元音，并不能保证一定无误。设置了手工修正模块后，就可以对识别有误的元音进行手动修正，从而保证最终合成的口型动画更加逼真。

如图4所示，同时，本发明还提供了一种基于语音识别的口型动画实现方法，包括如下步骤：

步骤S201：采集原始声音数据的模拟信号；

步骤S202：将模拟信号通过A/D转换得到数字信号；

步骤S203：对声音数据的数字信号进行傅利叶变换，将数字信号的时域波形转换为频域波形；

步骤S204：对声音数据频域波形的进行Mel滤波处理；

步骤S205：对声音数据进行分割，分析得到声音数据的元音；

步骤S206：根据声音数据的元音，调用不同形状的口型图片，从而匹配相应元音；

步骤S207：将口型图片的切换流程与现有动画进行融合播放，得到最终的口型动画。

具体的傅利叶变换，将数字信号的时域波形转换为频域波形；对声音数据频域波形的进行Mel滤波处理；对声音数据进行分割，分析得到声音数据的元音的过程均与前述实施例相同。

不同点在于，最后根据声音数据的元音，从一个具有多张口型图片的图片库当中调用不同形状的口型图片，将口型图片的切换流程与现有动画进行融合播放，得到最终的口型动画。相对于调用骨骼动画而言，使用口型图片的切换可以实现更小的计算量，但是相应的仿真程度也会有所降低。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于语音识别的口型动画实现方法，其中，所述方法包括如下步骤：

采集原始声音数据的模拟信号；

将模拟信号通过A/D转换得到数字信号；

对声音数据频域波形的进行Mel滤波处理；

对声音数据进行分割，分析得到声音数据的元音；

2.根据权利要求1所述的方法，其中，在Mel滤波处理的步骤当中，添加人耳听觉特性的滤波器，补偿声音数据中低频部分掩盖的高频部分，并且突显出高频共振峰。

3.根据权利要求1所述的方法，其中，对声音数据的数字信号进行傅利叶变换的具体公式为：

其中，参数N是采样点数量，x(k)为输入声音数据序列。

4.根据权利要求1所述的方法，其中，对声音数据频域波形的进行Mel滤波处理的具体公式为：

M(f)＝1125ln(1+f/700)

参数f是频率，1125和700都是经验值常量，将不统一的频率转化为统一的频率。

5.根据权利要求1所述的方法，其中，在对声音数据频域波形的进行Mel滤波处理的步骤后，还包括步骤：

对声音数据的频域波形进行倒谱，具体倒谱的公式为：

M^-1(m)＝700(exp(m/1125)-1)

参数m是频域波形的振幅，700和1125是经验值常量。

6.一种非易失性计算机存储介质，存储有计算机可执行程序，所述计算机可执行程序用于执行如上所述的基于语音识别的口型动画实现方法。存储介质包括但不限于ROM、RAM、普通硬盘、U盘或者软盘。

7.一种基于语音识别的口型动画实现装置，其特征在于，包括：采集单元、信号处理单元、动画合成单元和显示单元；

所述采集单元配置成采集原始声音数据的模拟信号；

所述信号处理单元配置成对声音数据进行分析得到声音数据的元音；

所述动画合成单元配置成根据声音数据的元音，调用骨骼动画，使骨骼动画作出匹配元音的口型动作；并将口型动作与现有动画进行融合播放，得到最终的口型动画；

所述显示单元配置成用于显示所述动画合成单元生成的口型动画。

8.根据权利要求7所述的装置，其中，所述信号处理单元包括A/D转换模块、傅利叶变换模块、Mel滤波处理模块和元音分割模块，

所述A/D转换模块配置成将模拟信号通过A/D转换得到数字信号；

所述傅利叶变换模块配置成对声音数据的数字信号进行傅利叶变换，将数字信号的时域波形转换为频域波形；

所述Mel滤波处理模块配置成对声音数据频域波形的进行Mel滤波处理；

所述元音分割模块配置成对声音数据进行分割，得到声音数据的元音。

9.根据权利要求8所述的装置，其中，还包括手工修正模块，所述手工修正模块配置有参数修正功能，供分析结果不精确时进行手工修改。

10.一种基于语音识别的口型动画实现方法，其中，所述方法包括如下步骤：

采集原始声音数据的模拟信号；

将模拟信号通过A/D转换得到数字信号；

对声音数据频域波形的进行Mel滤波处理；

对声音数据进行分割，分析得到声音数据的元音；