CN106875955A

CN106875955A - 一种声音动画的制作方法及电子设备

Info

Publication number: CN106875955A
Application number: CN201510916059.XA
Authority: CN
Inventors: 武俊敏
Original assignee: Zhang Ying Information Technology (shanghai) Co Ltd
Current assignee: Zhang Ying Information Technology (shanghai) Co Ltd
Priority date: 2015-12-10
Filing date: 2015-12-10
Publication date: 2017-06-20

Abstract

本发明公开了一种声音动画的制作方法及电子设备，该方法包括：获取语音信息；将所述语音信息分割为多个语音片段；获取所述语音片段的特征；根据所述特征选取对应的嘴部表情；根据所述嘴部表情生成对应的表情帧；根据所述表情帧生成动画；该方法能够实时的通过语音来生成对应的表情动画，无需获取面部的视频信息，具有效率高、速度快、限制少、资源消耗少的优点。

Description

一种声音动画的制作方法及电子设备

技术领域

本发明涉及计算机技术领域，特别涉及一种声音动画的制作方法及电子设备。

背景技术

现有的表情动画的制作方法通常是通过获取面部表情的视频信息来生成对应的表情动画，这种方法需要获取大量的视频信息，效率低下、速度慢、受到视频采集等各方面的限制较多，资源消耗也比较大。

发明内容

为了解决上述问题，本发明提供一种声音动画的制作方法及电子设备。

所述技术方案如下：

第一方面，提供了一种声音动画的制作方法，所述方法包括：

获取语音信息；

将所述语音信息分割为多个语音片段；

获取所述语音片段的特征；

根据所述特征选取对应的嘴部表情；

根据所述嘴部表情生成对应的表情帧；

根据所述表情帧生成动画。

结合第一方面，在第一种可能的实现方式中，所述将所述语音信息分割为多个语音片段包括：

根据所述动画的帧率对所述语音信息进行分割，得到分割后的语音片段；

其中，每个语音片段与动画中的一帧相对应。

结合第一方面，在第二种可能的实现方式中，所述根据所述特征选取对应的嘴部表情包括：

根据所述特征与预设的模型，在预设的表情库中选择与所述特征对应的嘴部表情。

结合第一方面，在第三种可能的实现方式中，所述根据所述特征选取对应的嘴部表情包括：

根据所述特征，预设的模型以及所述特征对应的语音片段的上一语音片段对应的嘴部表情，在预设的表情库中选择与所述特征对应的嘴部表情。

结合第一方面至第一方面的第三种任一项可能的实现方式，在第四种可能的实现方式中，所述嘴部表情包括嘴部的开闭状态和/或嘴部的形状。

结合第一方面的第四种可能的实现方式，在第五种可能的实现方式中，所述根据所述嘴部表情生成对应的表情帧包括：

根据嘴部的开闭状态和/或嘴部的形状生成面部表情；

根据所述面部表情生成对应的表情帧。

第二方面，提供了一种电子设备，所述电子设备包括：

语音获取模块，用于获取语音信息；

分割模块，用于将所述语音信息分割为多个语音片段；

特征提取模块，用于获取所述语音片段的特征；

嘴部表情选择模块，用于根据所述特征选取对应的嘴部表情；

表情帧生成模块，用于根据所述嘴部表情生成对应的表情帧；

动画生成模块，用于根据所述表情帧生成动画。

结合第二方面，在第一种可能的实现方式中，所述分割模块具体用于：

其中，每个语音片段与动画中的一帧相对应。

结合第二方面，在第二种可能的实现方式中，所述嘴部表情选择模块具体用于：

结合第二方面，在第三种可能的实现方式中，所述嘴部表情选择模块具体用于：

结合第二方面至第二方面的第三种任一项可能的实现方式，在第四种可能的实现方式中，所述嘴部表情包括嘴部的开闭状态和/或嘴部的形状。

结合第二方面的第四种可能的实现方式，在第五种可能的实现方式中，所述表情帧生成模块具体用于：

根据嘴部的开闭状态和/或嘴部的形状生成面部表情；

根据所述面部表情生成对应的表情帧。

第三方面，提供了一种电子设备，所述设备包括存储器，音频模块，以及与所述存储器，所述音频模块连接的处理器，其中，所述存储器用于存储一组程序代码，所述处理器调用所述存储器所存储的程序代码用于执行以下操作：

获取语音信息；

将所述语音信息分割为多个语音片段；

获取所述语音片段的特征；

根据所述特征选取对应的嘴部表情；

根据所述嘴部表情生成对应的表情帧；

根据所述表情帧生成动画。

结合第三方面，在第一种可能的实现方式中，所述处理器调用所述存储器所存储的程序代码用于执行以下操作：

其中，每个语音片段与动画中的一帧相对应。

结合第三方面，在第二种可能的实现方式中，所述处理器调用所述存储器所存储的程序代码用于执行以下操作：

结合第三方面，在第三种可能的实现方式中，所述处理器调用所述存储器所存储的程序代码用于执行以下操作：

结合第三方面至第三方面的第三种任一项可能的实现方式，在第四种可能的实现方式中，所述嘴部表情包括嘴部的开闭状态和/或嘴部的形状。

结合第三方面的第四种可能的实现方式，在第五种可能的实现方式中，所述处理器调用所述存储器所存储的程序代码用于执行以下操作：

根据嘴部的开闭状态和/或嘴部的形状生成面部表情；

根据所述面部表情生成对应的表情帧。

本发明实施例提供了一种声音动画的制作方法及电子设备，能够实时的通过语音来生成对应的表情动画，无需获取面部的视频信息，具有效率高、速度快、限制少、资源消耗少的优点。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种声音动画的制作方法的流程图；

图2是本发明实施例提供的一种声音动画的制作方法的流程图；

图3是本发明实施例提供的一种声音动画的制作方法的流程图；

图4是本发明实施例提供的一种声音动画的制作方法的流程图；

图5是本发明实施例提供的一种声音动画的制作方法的流程图；

图6是本发明实施例提供的一种声音动画的制作方法的流程图；

图7是本发明实施例提供的一种电子设备的结构示意图；

图8是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

实施例一

本发明实施例提供了一种声音动画的制作方法，参照图1所示，方法流程包括：

101、获取语音信息。

具体的，该过程可以包括：

音频模块通过麦克风实时的采集音频信息；

从所述音频信息中分离出语音信息。

通常来说，人的语音的频率范围在300Hz至4000Hz之间，因此可以通过对音频信息进行滤波，分离出频率范围在300Hz至4000Hz之间的信息作为人的语音信息。

可选的，所述音频信息也可以是通过读取以各种形式存储的音频数据来获取的，本发明实施例对具体的获取方式不加以限定。

102、将所述语音信息分割为多个语音片段。

具体的，根据需要生成的动画的帧率来对语音片段进行分割。

示例性的，当生成的动画为30帧/秒时，每个语音片段的长度为1/30秒；当生成的动画为60帧/秒时，每个语音片段的长度为1/60秒。本发明实施例对具体的分割方式不加以限定。

103、获取所述语音片段的特征。

具体的，从步骤102中获取的每个所述语音片段中提取出该语音片段对应的特征，示例性的，该特征可以是MFCC(Mel Frequency Cepstral Coefficents，梅尔频率倒谱系数)特征。本发明实施例对具体的特征不加以限定。

104、根据所述特征选取对应的嘴部表情。

具体的，该过程可以包括：

预设的模型是预先设置好的模型，该模型可以是通过有监督学习训练得到的。

训练的具体方法包括：

a、收集训练数据。

收集大量的包含语音和嘴部开闭状态对应关系的数据，例如电影、电视片段。

b、对收集到的数据进行预处理。

将收集到的数据中带有人脸嘴部的视频帧挑选出来。

将这些视频帧中嘴部的开闭状态和对应的语音信息的MFCC特征提取出来。

c、根据这些嘴部的开闭状态和对应的MFCC特征对SVM(Support VectorMachine，支持向量机)进行训练，得到训练后的SVM作为预设模型。

在根据所述特征选取对应的嘴部表情的过程中，将所述特征输入该训练后的SVM，SVM将判断该特征对应的嘴部状态是开还是闭，如果对应的状态是开，则从预设的表情库中选取嘴部状态为开的表情作为所述特征对应的嘴部表情，如果对应的状态是闭，则从预设的表情库中选取嘴部状态为闭的表情作为所述特征对应的嘴部表情。

105、根据所述嘴部表情生成对应的表情帧。

具体的，根据所述嘴部表情，预设的纹理以及预设的背景生成对应的表情帧。

106、根据所述表情帧生成动画。

具体的，按时间顺序排列所述表情帧，生成对应的动画。

本发明实施例提供了一种声音动画的制作方法，能够实时的通过语音来生成对应的表情动画，无需获取面部的视频信息，具有效率高、速度快、限制少、资源消耗少的优点，通过SVM能够快速的对嘴部的开闭状态进行判断，从而有效地提高识别的速度。

实施例二

本发明实施例提供了一种声音动画的制作方法，参照图2所示，方法流程包括：

201、获取语音信息。

具体的，该过程可以包括：

音频模块通过麦克风实时的采集音频信息；

从所述音频信息中分离出语音信息。

可选的，还可以进一步通过声音的强度来分离语音信息，因为人的语音一般在40dB至60dB之间，因此可以根据声音的dB来对音频信息进行过滤，分离出强度在在40dB至60dB之间的音频信息。

可选的还可以对分离出的语音信息进行降噪等处理，得到更加精确的语音信息。

202、将所述语音信息分割为多个语音片段。

该步骤与步骤102相同，此处不再赘述。

203、获取所述语音片段的特征。

该步骤与步骤103相同，此处不再赘述。

204、根据所述特征选取对应的嘴部表情。

具体的，该过程可以包括：

训练的具体方法包括：

a、收集训练数据。

收集大量的包含语音和嘴部的形状对应关系的数据，例如电影、电视片段。

b、对收集到的数据进行预处理。

将收集到的数据中带有人脸嘴部的视频帧挑选出来。

将这些视频帧中嘴部的形状和对应的语音信息的MFCC特征提取出来。

c、根据这些嘴部的形状和对应的MFCC特征对随机森林(Random Forest)进行训练，得到训练后的随机森林作为预设模型。

在根据所述特征选取对应的嘴部表情的过程中，将所述特征输入该训练后的随机森林，随机森林将判断该特征对应的嘴部的形状，并从预设的表情库中选取该嘴部的形状对应的嘴部表情作为所述特征对应的嘴部表情。

205、根据所述嘴部表情生成对应的表情帧。

该步骤与步骤105相同，此处不再赘述。

206、根据所述表情帧生成动画。

该步骤与步骤106相同，此处不再赘述。

本发明实施例提供了一种声音动画的制作方法，能够实时的通过语音来生成对应的表情动画，无需获取面部的视频信息，具有效率高、速度快、限制少、资源消耗少的优点，通过随机森林能够快速的识别出嘴部的形状，从而有效地提高识别的速度。

实施例三

本发明实施例提供了一种声音动画的制作方法，参照图3所示，方法流程包括：

301、获取语音信息。

该步骤与步骤101相同，此处不再赘述。

302、将所述语音信息分割为多个语音片段。

该步骤与步骤102相同，此处不再赘述。

303、获取所述语音片段的特征。

该步骤与步骤103相同，此处不再赘述。

304、根据所述特征选取对应的嘴部表情。

具体的，该过程可以包括：

训练的具体方法包括：

a、收集训练数据。

b、对收集到的数据进行预处理。

将收集到的数据中带有人脸嘴部的视频帧挑选出来。

在根据所述特征选取对应的嘴部表情的过程中，将所述特征输入该训练后的SVM，SVM将判断该特征对应的嘴部状态是开的概率，记为p，则该嘴部状态是闭的概率为1-p。

如果p超过预设的阈值，则判定对应的嘴部状态是开，否则判定对应的嘴部状态是闭。该阈值的初始值为0.5，并根据当所述特征对应的语音片段的上一语音片段对应的表情的嘴部状态来对该阈值进行动态的调整。

示例性的，当所述特征对应的语音片段的上一语音片段对应的表情的嘴部状态是开时，将该阈值调整为0.3，即所述特征对应的p大于0.3即判定其对应的嘴部状态是开。

如果SVM判定该特征对应的状态是开，则从预设的表情库中选取嘴部状态为开的表情作为所述特征对应的表情，如果SVM判定该特征对应的状态是闭，则从预设的表情库中选取嘴部状态为闭的表情作为所述特征对应的表情。

305、根据所述嘴部表情生成对应的表情帧。

该步骤与步骤105相同，此处不再赘述。

306、根据所述表情帧生成动画。

该步骤与步骤106相同，此处不再赘述。

本发明实施例提供了一种声音动画的制作方法，能够实时的通过语音来生成对应的表情动画，无需获取面部的视频信息，具有效率高、速度快、限制少、资源消耗少的优点，通过SVM能够快速的识别出嘴部的形状，从而有效地提高识别的速度，进一步地根据上一帧的嘴部状态对当前帧的嘴部状态进行判断，有效地提高了识别的准确率。

实施例四

本发明实施例提供了一种声音动画的制作方法，参照图4所示，方法流程包括：

401、获取语音信息。

该步骤与步骤101相同，此处不再赘述。

402、将所述语音信息分割为多个语音片段。

该步骤与步骤102相同，此处不再赘述。

403、获取所述语音片段的特征。

该步骤与步骤103相同，此处不再赘述。

404、根据所述特征选取对应的嘴部表情。

具体的，该过程可以包括：

训练的具体方法包括：

a、收集训练数据。

b、对收集到的数据进行预处理。

将收集到的数据中带有人脸嘴部的视频帧挑选出来。

将这些视频帧中嘴部的形状对应的人脸的特征点和该嘴部的形状对应的语音信息的MFCC特征提取出来。

c、根据这些人脸的特征点和对应的MFCC特征对GMM(Gaussian MixtureModel)模型进行训练，得到训练后的GMM模型作为预设模型。

在根据所述特征选取对应的嘴部表情的过程中，将所述特征输入该训练后的GMM模型，GMM模型将判断该特征对应的人脸的特征点，并从预设的表情库中选取该人脸的特征点对应的嘴部表情作为所述特征对应的嘴部表情。

405、根据所述嘴部表情生成对应的表情帧。

该步骤与步骤105相同，此处不再赘述。

406、根据所述表情帧生成动画。

该步骤与步骤106相同，此处不再赘述。

本发明实施例提供了一种声音动画的制作方法，能够实时的通过语音来生成对应的表情动画，无需获取面部的视频信息，具有效率高、速度快、限制少、资源消耗少的优点，通过GMM模型能够快速的识别出嘴部的形状，从而有效地提高识别的速度。

实施例五

本发明实施例提供了一种声音动画的制作方法，参照图5所示，方法流程包括：

501、获取语音信息。

该步骤与步骤101相同，此处不再赘述。

502、将所述语音信息分割为多个语音片段。

该步骤与步骤102相同，此处不再赘述。

503、获取所述语音片段的特征。

该步骤与步骤103相同，此处不再赘述。

504、根据所述特征选取对应的嘴部表情。

具体的，该过程可以包括：

训练的具体方法包括：

a、收集训练数据。

b、对收集到的数据进行预处理。

将收集到的数据中带有人脸嘴部的视频帧挑选出来。

c、根据这些人脸的特征点和对应的MFCC特征对3层神经网络(NeuralNetworks)进行训练，得到训练后的3层神经网络作为预设模型。

在根据所述特征选取对应的嘴部表情的过程中，将所述特征输入该训练后的3层神经网络，3层神经网络将判断该特征对应的人脸的特征点，并从预设的表情库中选取该人脸的特征点对应的嘴部表情作为所述特征对应的嘴部表情。

505、根据所述嘴部表情生成对应的表情帧。

该步骤与步骤105相同，此处不再赘述。

506、根据所述表情帧生成动画。

该步骤与步骤106相同，此处不再赘述。

本发明实施例提供了一种声音动画的制作方法，能够实时的通过语音来生成对应的表情动画，无需获取面部的视频信息，具有效率高、速度快、限制少、资源消耗少的优点，通过神经网络能够快速的识别出嘴部的形状，从而有效地提高识别的速度。

实施例六

本发明实施例提供了一种声音动画的制作方法，参照图6所示，方法流程包括：

601、获取语音信息。

该步骤与步骤101相同，此处不再赘述。

602、将所述语音信息分割为多个语音片段。

该步骤与步骤102相同，此处不再赘述。

603、获取所述语音片段的特征。

该步骤与步骤103相同，此处不再赘述。

604、根据所述特征选取对应的嘴部表情。

具体的，该过程可以包括：

训练的具体方法包括：

a、收集训练数据。

b、对收集到的数据进行预处理。

将收集到的数据中带有人脸嘴部的视频帧挑选出来。

c、根据这些人脸的特征点和对应的MFCC特征对SVR(Support VectorRegression)模型进行训练，得到训练后的SVR模型作为预设模型。

在根据所述特征选取对应的嘴部表情的过程中，将所述特征输入该训练后的SVR模型，SVR模型将判断该特征对应的人脸的特征点，并从预设的表情库中选取该人脸的特征点对应的嘴部表情作为所述特征对应的嘴部表情。

605、根据所述嘴部表情生成对应的表情帧。

该步骤与步骤105相同，此处不再赘述。

606、根据所述表情帧生成动画。

该步骤与步骤106相同，此处不再赘述。

本发明实施例提供了一种声音动画的制作方法，能够实时的通过语音来生成对应的表情动画，无需获取面部的视频信息，具有效率高、速度快、限制少、资源消耗少的优点，通过SVR模型能够快速的识别出嘴部的形状，从而有效地提高识别的速度。

实施例七

本发明实施例提供了一种电子设备，参照图7所示，该电子设备包括：

语音获取模块701，用于获取语音信息；

分割模块702，用于将所述语音信息分割为多个语音片段；

特征提取模块703，用于获取所述语音片段的特征；

嘴部表情选择模块704，用于根据所述特征选取对应的嘴部表情；

表情帧生成模块705，用于根据所述嘴部表情生成对应的表情帧；

动画生成模块706，用于根据所述表情帧生成动画。

具体的，

分割模块702根据所述动画的帧率对所述语音信息进行分割，得到分割后的语音片段；

其中，每个语音片段与动画中的一帧相对应。

可选的，

嘴部表情选择模块703根据所述特征与预设的模型，在预设的表情库中选择与所述特征对应的嘴部表情。

可选的，

嘴部表情选择模块703根据所述特征，预设的模型以及所述特征对应的语音片段的上一语音片段对应的嘴部表情，在预设的表情库中选择与所述特征对应的嘴部表情。

其中，所述嘴部表情包括嘴部的开闭状态和/或嘴部的形状。

具体的，

表情帧生成模块705根据所述嘴部表情，预设的纹理以及预设的背景生成对应的表情帧。

具体的，动画生成模块706按时间顺序排列所述表情帧，生成对应的动画。

本发明实施例提供了一种电子设备，能够实时的通过语音来生成对应的表情动画，无需获取面部的视频信息，具有效率高、速度快、限制少、资源消耗少的优点。

实施例八

本发明实施例提供了一种电子设备，参照图8所示，所述设备包括存储器801、音频模块802、以及与存储器801、音频模块802连接的处理器803，其中，存储器801用于存储一组程序代码，处理器803调用存储器801所存储的程序代码用于执行以下操作：

获取语音信息；

将所述语音信息分割为多个语音片段；

获取所述语音片段的特征；

根据所述特征选取对应的嘴部表情；

根据所述嘴部表情生成对应的表情帧；

根据所述表情帧生成动画。

具体的，处理器803调用存储器801所存储的程序代码用于执行以下操作：

其中，每个语音片段与动画中的一帧相对应。

可选的，所述嘴部表情包括嘴部的开闭状态和/或嘴部的形状。

根据嘴部的开闭状态和/或嘴部的形状生成面部表情；

按时间顺序排列所述表情帧，生成对应的动画。

以上仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭示如上，然而并非用以限定本发明，本领域普通技术人员在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种声音动画的制作方法，其特征在于，所述方法包括：

获取语音信息；

将所述语音信息分割为多个语音片段；

获取所述语音片段的特征；

根据所述特征选取对应的嘴部表情；

根据所述嘴部表情生成对应的表情帧；

根据所述表情帧生成动画。

2.根据权利要求1所述的方法，其特征在于，所述将所述语音信息分割为多个语音片段包括：

其中，每个语音片段与动画中的一帧相对应。

3.根据权利要求1所述方法，其特征在于，所述根据所述特征选取对应的嘴部表情包括：

4.根据权利要求1所述方法，其特征在于，所述根据所述特征选取对应的嘴部表情包括：

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述嘴部表情包括嘴部的开闭状态和/或嘴部的形状。

6.一种电子设备，其特征在于，所述电子设备包括：

语音获取模块，用于获取语音信息；

分割模块，用于将所述语音信息分割为多个语音片段；

特征提取模块，用于获取所述语音片段的特征；

动画生成模块，用于根据所述表情帧生成动画。

7.根据权利要求6所述的设备，其特征在于，所述分割模块具体用于：

其中，每个语音片段与动画中的一帧相对应。

8.根据权利要求6所述设备，其特征在于，所述嘴部表情选择模块具体用于：

9.根据权利要求6所述的设备，其特征在于，所述嘴部表情选择模块具体用于：

10.根据权利要求6至9任意一项所述的设备，其特征在于，所述嘴部表情包括嘴部的开闭状态和/或嘴部的形状。