CN106297792A

CN106297792A - 一种语音口型动画的识别方法及装置

Info

Publication number: CN106297792A
Application number: CN201610823063.6A
Authority: CN
Inventors: 林明安; 吴松城; 陈军宏
Original assignee: XIAMEN HUANSHI NETWORK TECHNOLOGY Co Ltd
Current assignee: Xiamen Black Mirror Technology Co., Ltd.
Priority date: 2016-09-14
Filing date: 2016-09-14
Publication date: 2017-01-04

Abstract

本申请公开了一种语音口型动画的识别方法和装置，用以解决现有技术无法在移动设备上实现语音台词与口型动画合成的问题。方法包括：从待识别语音中提取语音特征；将提取的所述语音特征，输入预先训练的语音口型识别模型；确定所述语音口型识别模型输出的与所述语音特征对应的口型类别；根据所述语音口型识别模型输出的口型类别，确定与所述口型类别对应的口型动画，作为所述待识别语音的口型动画。

Description

一种语音口型动画的识别方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种语音口型动画的识别方法及装置。

背景技术

随着科技水平的不断提高，动画制作水平也变得越来越精良，其中，动画人物的口型与动画人物的台词配合越来越完美，正是动画制作水平不断提高的一大表现。

其中，将动画人物的语音台词与口型动画合成到一起，是制作动画人物的口型动画时最为关键的一步，而要将语音与口型动画合成到一起，首先需要识别语音所对应的口型。

现有技术中，在识别语音所对应的口型时，首先需要对待识别的语音进行分帧处理，以使得经过分帧处理后的待识别语音被划分成了若干帧语音片段，并利用语音识别技术识别出每一帧语音片段所对应的发音识别结果，进而根据预先设置的发音识别结果与口型动画的对应关系，确定出待识别的语音中每一帧语音片段所对应的口型动画，从而可以将待识别的语音与确定出的口型动画合成到一起。例如，针对“海南”这句语音，经过分帧处理可以将“海南”划分成四帧语音片段，通过语音识别技术，对这四帧语音片段分别进行识别得到的发音识别结果依次为：“h”、“ai”、“n”、“an”，进而可以根据识别出的每一帧语音片段的拼音，确认语音台词中每一帧语音所对应的口型动画，以达到将语音台词与口型动画进行合成的目的。

然而在现有技术中，语音识别技术对设备的硬件要求较高，因而基于语音识别技术的生成的语音识别软件在运行时往往需要较高配置的硬件设备支持，这就造成现有的语音识别软件一般仅可以在计算机上运行。

而针对移动设备(比如，手机)，由于移动设备的硬件往往无法达到语音识别软件对硬件的要求，因而移动设备上一般无法安装语音识别软件，这也就造成移动设备无法使用语音识别软件识别出待识别的语音中每一帧语音片段所对应的发音识别结果，进而无法根据预先设置的发音识别结果与口型动画的对应关系，确定出待识别的语音中每一帧语音片段所对应的口型动画，也就无法实现语音台词与口型动画的合成。

发明内容

本申请实施例提供一种语音口型动画的识别方法及装置，用以解决现有技术无法在移动设备上实现语音台词与口型动画合成的问题。

本申请实施例采用下述技术方案：

一种语音口型动画的识别方法，包括：

从待识别语音中提取语音特征；

将提取的所述语音特征，输入预先训练的语音口型识别模型；

确定所述语音口型识别模型输出的与所述语音特征对应的口型类别；

根据所述语音口型识别模型输出的口型类别，确定与所述口型类别对应的口型动画，作为所述待识别语音的口型动画。

一种语音口型动画的识别装置，包括：

语音特征提取单元，用于从待识别语音中提取语音特征；

语音特征输入单元，用于将提取的所述语音特征，输入预先训练的语音口型识别模型；

口型类别确定单元，用于确定所述语音口型识别模型输出的与所述语音特征对应的口型类别；

口型动画确定单元，用于根据所述口型类别确定单元确定的口型类别，确定与所述口型类别对应的口型动画，作为所述待识别语音的口型动画。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

采用本申请提供的语音口型动画的识别方法，由于可以从待识别语音中提取出语音特征，并将提取出的语音特征输入预先训练的语音口型识别模型，进而根据语音口型识别模型输出的口型类别，确定与所述口型类别对应的口型动画，作为所述待识别语音的口型动画，在识别语音对应的口型动画时，不需要利用语音识别技术，因而本申请提供的语音口型动画的识别方法对设备的硬件要求较低，进而可以将本申请提供的语音口型动画的识别方法运用到移动设备上，弥补了在移动设备上无法实现语音台词与口型动画合成的技术空缺。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种语音口型动画的识别方法的具体实现流程示意图；

图2为本申请实施例提供的一种口型类别对应的口型动画示意图；

图3为本申请实施例提供的另一种口型类别对应的口型动画示意图；

图4为本申请实施例提供的又一种口型类别对应的口型动画示意图；

图5为本申请实施例提供的第四种口型类别对应的口型动画示意图；

图6为本申请实施例提供的第五种口型类别对应的口型动画示意图；

图7为本申请实施例提供的一种通过语音识别技术生成训练数据的具体实现流程示意图；

图8为本申请实施例提供的一种语音口型动画的识别装置的具体结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

本申请实施例提供的语音口型动画的识别方法的执行主体，可以但不限于为手机、平板电脑、个人电脑(Personal Computer，PC)以及任何可以运行语音口型动画识别应用(Appliacation，APP)的终端设备中的至少一种。此外，该方法的执行主体，也可以是语音口型动画识别APP本身。

为了便于描述，下文以该方法的执行主体为语音口型动画识别APP为例该方法的实施方式进行介绍。可以理解，该方法的执行主体为语音口型动画识别APP只是一种示例性的说明，并不应理解为对该方法的限定。

本申请实施例提供了一种语音口型动画的识别方法，用以解决现有技术无法在移动设备上实现语音台词与口型动画合成的问题，该方法的具体实现流程示意图如图1所示，主要包括下述步骤：

步骤11，从待识别语音中提取语音特征；

一般地，在对语音口型识别模型进行训练时，通常从样本语音中提取语音特征作为的训练模型的输入，因而，在使用基于该训练好的语音口型识别模型构建的语音口型动画识别APP时，往往也需要输入待识别语音的语音特征，且在对待识别语音进行识别时，向语音口型动画识别APP输入的语音特征与在对构成该APP的语音口型模型进行训练时输入的样本语音的语音特征的类型相同。

在对语音口型识别模型进行训练时，往往可以提取样本语音的梅尔倒谱系数(MelFrequency Cepstrum Coefficient，MFCC)特征作为输入，因而，在使用基于该训练好的语音口型识别模型构建的语音口型动画识别APP时，往往也可以从待识别语音中提取MFCC特征。

需要说明的是，本申请实施例对从待识别语音中提取的语音特征类型不做具体限定，只要保证在对语音口型模型进行训练时，从样本语音中提取的语音特征的类型与从待识别语音中提取的语音类型相同即可，由于在语音信号处理领域最常使用的语音特征为MFCC特征，因而本申请实施例均以MFCC特征为例进行说明。

由于语音信号是非稳态信号，语音信号的特征是随时间变化的，但在一个很短的时间段内，一般可以认为语音信号是具有相对稳定的特征，即语音信号在短时内可相当于稳态信号。在对语音信号进行处理(比如，提取语音信号的特征时)，往往都是针对短时段内的语音信号的，因而，这就要求在对语音信号进行处理时，首先需要按照短时段对语音信号进行分帧处理，以使得经过分帧处理后的语音信号每一帧都具有平稳性，以便对语音信号进行分析。

在一种实施方式中，步骤11的具体实现方式可以包括：按照预设时间间隔，对所述待识别语音进行分帧处理，得到每帧待识别语音片段；分别从每帧待识别语音片段中提取语音特征。

步骤12，将通过执行步骤11提取的所述语音特征，输入预先训练的语音口型识别模型；

其中，所述预先训练的语音口型识别模型可以是通过深度学习神经网络模型构建的，或者所述语音口型识别模型还可以是通过其他机器学习算法构建的。且为了可以保证预先训练的语音口型识别模型可以部署到移动设备(比如，手机)上，可以尽量减少构建语音口型识别模型时所使用的参数，以减小构建的语音口型识别模型所占用内存空间的大小，以使得语音口型模型可以部署到内存空间较小的移动设备上。

由于一段语音中的各帧语音片段是具有时序性的，为了可以按照时间先后顺序对待识别语音的每帧语音片段进行识别，以保证得到的识别结果也具有时序性，在一种实施方式中，步骤12的具体实现方式可以包括：按照时间先后顺序，将所述每帧待识别语音片段的语音特征依次输入所述语音口型识别模型。

在本申请实施例中，可以将预先通过执行步骤11提取的待识别语音的语音特征输入基于预先训练的语音口型识别模型构建的语音口型动画识别APP。

步骤13，确定所述语音口型识别模型输出的与所述语音特征对应的口型类别；

需要说明的是，通过预先对语音口型识别模型的训练，可以使训练完成的语音口型识别模型根据输入的待识别语音的语音特征确定出待识别语音对应的口型类别。

一般地，不同的拼音在发音时，往往对应有不同的发音口型，例如，拼音“i、y、j、q、x”在发音时对应的口型如图2所示，拼音“a”在发音时对应的口型如图3所示，拼音“u、w、ü”在发音时对应的口型如图4所示，拼音“ou”在发音时对应的口型如图5所示，拼音“ei”在发音时对应的口型如图6所示，等等，通过总结，可以将通过同一个口型发声的拼音归为一类，则该类拼音所对应的发音口型，则可以称为该类拼音所对应口型类别。

每一个口型类别都预先设置有与该口型类别对应的口型动画，例如如图2～图4所示，为三类口型类别分别对应的口型动画，可以根据口型动画的制作需要，划分出不同数量的口型类别。

步骤14，根据所述语音口型识别模型输出的口型类别，确定与所述口型类别对应的口型动画，作为所述待识别语音的口型动画。

一般地，预先设置不同口型类别所对应的口型动画，则根据语音识别口型模型输出的口型类别，可以确定与该口型类型对应的口型动画，进而确定该帧语音片段所对应的口型动画，从而根据确定出的待识别语音中每帧语音片段分别对应的口型动画，确定出所述待识别语音的口型动画。

通过上文描述，可见本申请实施例提供的语音口型识别方法，主要是通过预先训练的语音口型识别模型进行识别的，因而如何对训练语音口型识别模型进行训练，将直接影响本申请实施例提供的语音识别方法，下文将重点介绍如何对本申请实施例提供的语音口型模型进行训练。

在对语音口型识别模型进行训练时，首先需要准备大量样本语音，并根据语音识别技术确定出样本语音的口型类别，并将样本语音与样本语音对应的口型类别作为语音口型识别模型的训练数据，由于在生成训练数据时，需要利用到语音识别技术，且生成的训练数据数量较大，将占用较大的存储空间，因而对语音口型识别模型的训练可以在计算机上进行。

在一种实施方式中，生成训练数据具体可以包括：对预先收集的样本音频进行分帧处理；针对经过分帧处理后得到的每帧样本语音片段，利用语音识别技术分别确定出每帧样本语音片段对应的第一结果；根据预先设置的第一结果与口型类别的对应关系，确定出每帧样本语音片段对应的口型类别；将每帧样本语音片段及其对应的口型类别作为训练数据；利用所述训练数据对所述语音口型识别模型进行训练。

一般地，在5ms～50ms内的语音信号可以相当于稳态信号，因而，可以按照预设的时间间隔(其中，所述时间间隔在5ms～50ms之间)，对语音信号进行分帧处理，在一种实施方式中，对预先收集的样本音频进行分帧处理，具体可以包括：按照预设的时间间隔，将所述样本音频划分成至少一帧样本语音片段。本申请实施例可以按照25ms作为预设的时间间隔，对预先收集的样本音频进行分帧处理。

例如，如图7所示，样本语音1为“空气”，样本语音2为“话梅”，分别对两段样本语音进行分帧处理，并将经过分帧处理后的两段样本语音分别输入语音识别程序，经过语音识别后，识别得到样本语音1被划分为4帧，其各帧对应的第一结果分别为：“k”、“ong”、“q”、“i”，样本语音2被划分为4帧，其各帧对应的第一结果分别为：“h”、“ua”、“m”、“ei”；需要说明的是，进行分帧处理后，每帧对应的第一结果可以根据实际情况进行设计，本发明对此不做限制，例如，样本语音2为“话梅”在其他实施例当中可以被划分为5帧，其各帧对应的第一结果分别为：“h”、“u”、“a”、“m”、“ei”。根据预先设置的第一结果与口型类别的对应关系，可以确定出样本语音中每帧样本语音片段对应的口型类别，进而可以将样本语音中每帧样本语音片段及其对应的口型类别作为训练数据。

为了后续可以使用预先训练的语音口型识别模型对待识别语音对应的口型类别进行识别，在一种实施方式中，需要保证在对待识别语音进行分帧处理时所使用的时间间隔与对样本音频进行分帧处理时所使用的时间间隔相同，比如，均为25ms，从而可以保证输入预先训练的语音口型识别模型中的每帧待识别语音片段的语音特征的持续时长与对训练数据中每帧样本语音片段的持续时长相同，以便可以通过语音口型识别模型识别出该帧待识别语音片段所对应的口型类别。

需要说明的是，在对语音口型识别模型进行训练时，一般是训练数据中样本语音的语音特征作为输入，输入语音口型识别模型，则在利用训练数据对语音口型识别模型进行训练时，首先需要从训练数据中提取样本语音的语音特征，在一种实施方式中，利用训练数据对语音口型识别模型进行训练，具体可以包括：针对所述训练数据中的每帧样本语音片段，从该样本语音片段中提取语音特征，作为样本语音特征；将该样本语音特征作为所述语音口型识别模型的输入，将该样本语音片段对应的口型类别作为所述语音口型识别模型的期望输出，对所述语音口型识别模型进行训练。本申请实施例可以选取39维的梅尔倒谱系数(MFCC)作为样本语音特征输入，输入语音口型识别模型。在其他实施例当中，当选择MFCC时，也可以选取12维的梅尔倒谱系数；其中，39维梅尔倒谱系数的信息量相对较大，这样采集信息多、精确度高，从而提高数据的准确性。

并且，可以将所有生成的训练数据组成训练数据集合(X，ID)，其中，X表示训练数据中各样本语音的语音特征，X可以为一个矩阵，大小为M×A，M为所有训练数据的个数，A为语音特征的维度；ID表示训练数据中各语音特征分别对应的口型类别，ID也可以为一个矩阵，大小为M×B，M为所有训练数据的个数，B为预先设定的口型类别的个数。

一般地，作为语音口型识别模型输入的语音特征为MFCC特征，MFCC特征一般为多维的向量(例如，39维MFCC特征)，则语音口型识别模型输入层的节点数可以是根据MFCC特征的维度确定的。

而所述语音口型识别模型的输出为口型类别，因而，所述语音口型识别模型的输出层节点个数是根据预先设置的口型类别的个数确定的。

在一种实施方式中，将该样本语音特征作为所述语音口型识别模型的输入，将该样本语音片段对应的口型类别作为所述语音口型识别模型的期望输出，对所述语音口型识别模型进行训练，具体可以包括：将样本语音特征映射为第一向量；将所述样本语音片段对应的口型类别映射为第二向量，其中，所述第二向量的维度是根据预先设置的口型类别的个数确定的，所述第二向量中与样本语音片段的口型类别对应的分量设置为1，所述第二向量中其它分量设置为0；将所述第一向量作为所述语音口型识别模型的输入，将所述第二向量作为所述语音口型识别模型的期望输出，对所述语音口型识别模型进行训练，其中，所述语音口型识别模型的输入层节点个数是根据所述第一向量的维度确定的，所述语音口型识别模型的输出层节点个数是根据所述第二向量的维度确定的。

例如，从待识别语音中提取的语音特征为39维的MFCC特征，预先设置的口型类别为25个，则语音口型识别模型的输入层节点数为39个，输出层的节点数为25个，隐藏层的层数以及每层的节点数可以自行设置，只要保证隐藏层每层的节点个数依次递减即可。例如，本申请实施例可以设置五层隐藏层，每层隐藏层的节点个数分别为：500、400、300、200、100；且隐藏层的激活函数可以设置为tanh函数。其中，隐藏层的激活函数可选，也可以设置为RELU、sigmoid等，在此不做限定。

需要说明的是，在对语音口型识别模型进行训练时，往往会利用损失函数计算该语音口型识别模型输出结果与期望结果之间的误差，进而可以根据该误差对语音口型识别模型的参数进行调整，以使得语音口型识别模型输出的结果尽可能的趋近与期望结果，达到训练语音口型识别模型的目的。

在一种实施方式中，本申请实施例在训练语音口型识别模型时使用的损失函数的公式如下式[1]：

L = \frac{1}{2} Σ_{m = 1}^{M} {(y_{m}^{'} - y_{m})}^{2} - - - [1]

其中，M为生成的训练数据的个数，y′_m表示将生成的训练数据中第m个训练数据输入语音口型识别模型而输出的口型类别，即语音口型识别模型输出的真实值；y_m表示生成的训练数据中第m个训练数据实际对应的口型类别，即期望语音口型识别模型输出的值。通过上述损失函数，计算语音口型模型输出的真实值与期望值之差的平方和，来表示对语音口型识别模型的训练程度，以指导对语音口型识别模型的训练。

由于在训练语音口型识别模型的过程中，会不断的调整语音口型识别模型隐藏层中每一层的参数，而每一层参数的调整都将会对下一层的输入值造成影响，这就可能需要人为对语音口型识别模型进行权重调整，从而会影响语音口型识别模型的训练效率。

为了避免上述问题，在对语音口型识别模型进行训练时，通常可以采用批量归一化技术(Batch Normalization)，在将输入层的数据输入隐藏层进行计算时，对输入层输入的数据进行标准化处理。除了Batch Normalization技术以外，还可以采用其他的隐藏层归一化方法对输入隐藏层的数据进行标准化处理，本申请实施例对隐藏层采用的归一化方法不做限定。

通过上文所提供的语音口型识别模型训练方法，可以训练得到语音口型识别模型。

本申请实施例还提供了一种语音口型动画的识别装置，用以解决现有技术无法在移动设备上实现语音台词与口型动画合成的问题。该装置的具体结构示意图如图8所示，主要包括：语音特征提取单元21、语音特征输入单元22、口型类别确定单元23以及口型动画确定单元24。

其中，语音特征提取单元21，用于从待识别语音中提取语音特征；

语音特征输入单元22，用于将语音特征提取单元21提取的所述语音特征，输入预先训练的语音口型识别模型；

口型类别确定单元23，用于确定所述语音口型识别模型输出的与所述语音特征对应的口型类别；

口型动画确定单元24，用于根据所述口型类别确定单元确定的口型类别，确定与所述口型类别对应的口型动画，作为所述待识别语音的口型动画。

在一种实施方式中，所述语音口型识别模型是通过深度学习神经网络模型构建的。

在一种实施方式中，所述装置还包括，语音口型识别模型训练单元，对预先收集的样本音频进行分帧处理；针对经过分帧处理后得到的每帧样本语音片段，利用语音识别技术分别确定出每帧样本语音片段对应的第一结果；根据预先设置的第一结果与口型类型的对应关系，确定出每帧样本语音片段对应的口型类别；将每帧样本语音片段及其对应的口型类别作为训练数据；利用所述训练数据对所述语音口型识别模型进行训练。

在一种实施方式中，语音口型识别模型训练单元，具体用于：针对所述训练数据中的每帧样本语音片段，从该样本语音片段中提取语音特征，作为样本语音特征；将该样本语音特征作为所述语音口型识别模型的输入，将该样本语音片段对应的口型类别作为所述语音口型识别模型的期望输出，对所述语音口型识别模型进行训练。

在一种实施方式中，语音口型识别模型训练单元，具体用于：将所述样本语音特征映射为第一向量；将所述样本语音片段对应的口型类别映射为第二向量，其中，所述第二向量的维度是根据所述口型类型的个数确定的，所述第二向量中与样本语音片段的口型类别对应的分量设置为1，所述第二向量中其它分量设置为0；将所述第一向量作为所述语音口型识别模型的输入，将所述第二向量作为所述语音口型识别模型的期望输出，对所述语音口型识别模型进行训练，其中，所述语音口型识别模型的输入层节点个数是根据所述第一向量的维度确定的，所述语音口型识别模型的输出层节点个数是根据所述第二向量的维度确定的。

在一种实施方式中，语音口型识别模型训练单元，具体用于：从该样本语音片段中提取梅尔倒谱系数特征。

在一种实施方式中，语音特征提取单元21，具体用于：从待识别语音中提取梅尔倒谱系数特征。

在一种实施方式中，语音口型识别模型训练单元，具体用于：按照预设的时间间隔，将所述样本音频划分成至少一帧样本语音片段。

在一种实施方式中，语音特征提取单元21，具体用于：按照所述预设的时间间隔，对所述待识别语音进行分帧处理，得到每帧待识别语音片段；分别从每帧待识别语音片段中提取语音特征。

在一种实施方式中，语音特征输入单元22，具体用于：按照时间先后顺序，将所述每帧待识别语音片段的语音特征依次输入所述语音口型识别模型。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种语音口型动画的识别方法，其特征在于，包括：

从待识别语音中提取语音特征；

2.如权利要求1所述的方法，其特征在于，所述语音口型识别模型是通过深度学习神经网络模型构建的。

3.如权利要求1所述的方法，其特征在于，预先训练语音口型识别模型，具体包括：

对预先收集的样本音频进行分帧处理；

针对经过分帧处理后得到的每帧样本语音片段，利用语音识别技术分别确定出每帧样本语音片段对应的第一结果；

根据预先设置的所述第一结果与口型类别的对应关系，确定出每帧样本语音片段对应的口型类别；

将每帧样本语音片段及其对应的口型类别作为训练数据；

利用所述训练数据对所述语音口型识别模型进行训练。

4.如权利要求3所述的方法，其特征在于，利用所述训练数据对所述语音口型识别模型进行训练，具体包括：

针对所述训练数据中的每帧样本语音片段，从该样本语音片段中提取语音特征，作为样本语音特征；

将该样本语音特征作为所述语音口型识别模型的输入，将该样本语音片段对应的口型类别作为所述语音口型识别模型的期望输出，对所述语音口型识别模型进行训练。

5.如权利要求4所述的方法，其特征在于，将该样本语音特征作为所述语音口型识别模型的输入，将该样本语音片段对应的口型类别作为所述语音口型识别模型的期望输出，对所述语音口型识别模型进行训练，具体包括：

将所述样本语音特征映射为第一向量；

将所述样本语音片段对应的口型类别映射为第二向量，其中，所述第二向量的维度是根据所述口型类别的个数确定的，所述第二向量中与样本语音片段的口型类别对应的分量设置为1，所述第二向量中其它分量设置为0；

将所述第一向量作为所述语音口型识别模型的输入，将所述第二向量作为所述语音口型识别模型的期望输出，对所述语音口型识别模型进行训练，其中，所述语音口型识别模型的输入层节点个数是根据所述第一向量的维度确定的，所述语音口型识别模型的输出层节点个数是根据所述第二向量的维度确定的。

6.如权利要求4所述的方法，其特征在于，从该样本语音片段中提取语音特征，具体包括：

从该样本语音片段中提取梅尔倒谱系数特征；

从待识别语音中提取语音特征，具体包括：

从待识别语音中提取梅尔倒谱系数特征。

7.如权利要求3所述的方法，其特征在于，对预先收集的样本音频进行分帧处理，具体包括：

按照预设的时间间隔，将所述样本音频划分成至少一帧样本语音片段；

从待识别语音中提取语音特征，具体包括：

按照所述时间间隔，对所述待识别语音进行分帧处理，得到每帧待识别语音片段；

分别从每帧待识别语音片段中提取语音特征。

8.如权利要求7所述的方法，其特征在于，将所述待识别语音的语音特征，输入预先训练的语音口型识别模型，具体包括：

按照时间先后顺序，将所述每帧待识别语音片段的语音特征依次输入所述语音口型识别模型。

9.一种语音口型动画的识别装置，其特征在于，包括：

语音特征提取单元，用于从待识别语音中提取语音特征；

10.如权利要求9所述的装置，其特征在于，所述装置还包括：

语音口型识别模型训练单元，预先收集的样本音频进行分帧处理，针对经过分帧处理后得到的每帧样本语音片段，利用语音识别技术分别确定出每帧样本语音片段对应的第一结果，根据预先设置的所述第一结果与口型类型的对应关系，确定出每帧样本语音片段对应的口型类别，将每帧样本语音片段及其对应的口型类别作为训练数据，利用所述训练数据对所述语音口型识别模型进行训练。

11.如权利要求10所述的装置，其特征在于，语音口型识别模型训练单元，具体用于：