CN108763190A

CN108763190A - 基于语音的口型动画合成装置、方法及可读存储介质

Info

Publication number: CN108763190A
Application number: CN201810327672.1A
Authority: CN
Inventors: 梁浩; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-04-12
Filing date: 2018-04-12
Publication date: 2018-11-06
Anticipated expiration: 2038-04-12
Also published as: WO2019196306A1; CN108763190B

Abstract

本发明公开了一种基于语音的口型动画合成装置，包括存储器和处理器，存储器上存储有可在处理器上运行的口型动画合成程序，该程序被处理器执行时实现如下步骤：获取目标文本数据，根据发音词典获取目标文本数据中的音素特征；将音素特征输入到预先训练好的深度神经网络模型中，输出声学特征，将声学特征输入到语音合成器中输出语音数据；根据语音数据、预先训练好的张量模型以及说话人标识信息，获取口型数据；根据口型数据生成与语音数据对应的口型动画。发明还提出一种基于语音的口型动画合成方法以及一种计算机可读存储介质。本发明解决了现有技术中无法展示与合成的语音数据匹配的、并具有真实感的口型动画的技术问题。

Description

基于语音的口型动画合成装置、方法及可读存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于语音的口型动画合成装置、方法及可读存储介质。

背景技术

语音合成，又称为文语转换技术，是一种能够将文字信息转化为语音并进行朗读的技术。其涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题是如何将文字信息转化为可听的声音信息。

在一些应用场景中，例如计算机辅助发音训练的应用场景，需要在播放语音数据时，动态地展示说话人的口型变化情况，以帮助用户进行发音训练，在现有技术中，播放的是合成的语音数据时，由于没有与之对应的真实的说话人的口型数据可供展示，导致无法展示与合成的语音数据匹配的、并具有真实感的口型动画。

发明内容

本发明提供一种基于语音的口型动画合成装置、方法及可读存储介质，其主要目的在于解决现有技术中无法展示与合成的语音数据匹配的、并具有真实感的口型动画的技术问题。

为实现上述目的，本发明提供一种基于语音的口型动画合成装置，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的口型动画合成程序，所述口型动画合成程序被所述处理器执行时实现如下步骤：

获取目标文本数据，根据发音词典获取所述目标文本数据中的音素特征；

将所述音素特征输入到预先训练好的深度神经网络模型中，输出与所述音素特征对应的声学特征，所述声学特征包括梅尔倒谱系数MFCC特征、发音时长和发音基频；

将所述声学特征输入到语音合成器中，输出与所述目标文本数据对应的语音数据；

根据所述语音数据、预先训练好的张量模型以及预先设置的说话人标识信息，获取与所述语音数据和所述说话人标识信息对应的口型数据，所述张量模型表达语音数据的发音特征与口型数据的口型位置特征之间的相关关系；

根据所述口型数据生成与所述语音数据对应的口型动画，以供在播放所述语音数据的同时，展示所述口型动画。

可选地，所述获取目标文本数据，根据发音词典获取所述目标文本数据中的音素特征的步骤包括：

获取目标文本数据，并对所述目标文本数据进行分词处理，以获取分词结果；

通过发音词典将分词结果中的词转换为音素特征。

可选地，所述口型动画合成程序还可被所述处理器执行，以实现如下步骤：

基于至少一个说话人的语料构建样本库，所述语料包括语音数据，以及与语音数据对应的文本数据和口型数据；

根据所述样本库中的文本数据和所述语音数据训练深度神经网络模型，获取深度神经网络模型的模型参数；

根据所述样本库中的语音数据和口型数据训练所述张量模型，获取所述张量模型的模型参数。

可选地，所述根据所述样本库中的文本数据和所述语音数据训练深度神经网络模型，获取深度神经网络模型的模型参数的步骤包括：

根据所述发音词典从所述样本库中的文本数据中提取音素特征，从与文本数据对应的语音数据中提取声学特征；

将所述音素特征作为所述深度神经网络模型的输入特征，将所述声学特征作为所述深度神经网络模型的输出特征，对所述深度神经网络模型进行训练，获取深度神经网络模型的模型参数。

可选地，所述张量模型为三阶张量模型，所述根据所述样本库中的语音数据和口型数据训练所述张量模型，获取所述张量模型的模型参数的步骤包括：

构建三阶张量模型，所述三阶张量模型的三个维度分别对应于发音特征、口型数据和说话人标识信息；

获取所述样本库中的语音数据对应的发音特征，将所述发音特征和说话人标识信息作为所述三阶张量模型的输入特征，将与语音数据对应的口型数据作为所述三阶张量模型的输出特征，使用高阶奇异值分解算法训练所述三阶张量模型，以获取所述三阶张量模型的模型参数。

此外，为实现上述目的，本发明还提供一种基于语音的口型动画合成方法，该方法包括：

可选地，所述方法还包括步骤：

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有口型动画合成程序，所述口型动画合成程序可被一个或者多个处理器执行，以实现如上所述的基于语音的口型动画合成方法的步骤。

本发明提出的基于语音的口型动画合成装置、方法及可读存储介质，根据发音词典获取目标文本数据中的音素特征，将音素特征输入到预先训练好的深度神经网络模型中，输出与音素特征对应的声学特征，该声学特征包括MFCC特征、发音时长和发音基频，将这些声学特征输入到语音合成器中进行基于语音的口型动画合成，得到与目标文本数据对应的语音数据，根据语音数据、预先训练好的张量模型以及预先设置的说话人标识信息，获取与语音数据和说话人标识信息对应的口型数据，根据口型数据生成与语音数据对应的口型动画，以供在播放语音数据的同时，展示所述口型动画。本方案采用深度神经网络模型将目标文本数据转换为声学特征，能够实现更好的特征挖掘，使得语音合成系统得到更准确、更自然的输出结果，同时通过能够表达声学特征与口型数据的张量模型实现将合成的语音数据转换为对应的口型数据，根据口型数据生成与目标文本数据对应的口型动画，解决了现有技术中无法展示与合成的语音数据匹配的、并具有真实感的口型动画的技术问题。

附图说明

图1为本发明基于语音的口型动画合成装置较佳实施例的示意图；

图2为本发明基于语音的口型动画合成装置一实施例中口型动画合成程序的程序模块示意图；

图3为本发明基于语音的口型动画合成方法较佳实施例的流程图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于语音的口型动画合成装置。参照图1所示，为本发明基于语音的口型动画合成装置较佳实施例的示意图。

在本实施例中，基于语音的口型动画合成装置可以是PC(Personal Computer，个人电脑)，也可以是智能手机、平板电脑、便携计算机等终端设备。该基于语音的口型动画合成装置至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是基于语音的口型动画合成装置的内部存储单元，例如该基于语音的口型动画合成装置的硬盘。存储器11在另一些实施例中也可以是基于语音的口型动画合成装置的外部存储设备，例如基于语音的口型动画合成装置上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括基于语音的口型动画合成装置的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于基于语音的口型动画合成装置的应用软件及各类数据，例如口型动画合成程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行口型动画合成程序等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置与其他电子设备之间建立通信连接。

图1仅示出了具有组件11-14以及口型动画合成程序的基于语音的口型动画合成装置，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该装置还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在基于语音的口型动画合成装置中处理的信息以及用于显示可视化的用户界面。

在图1所示的装置实施例中，存储器11中存储有口型动画合成程序；处理器12执行存储器11中存储的口型动画合成程序时实现如下步骤：

获取目标文本数据，根据发音词典获取所述目标文本数据中的音素特征。

将所述音素特征输入到预先训练好的深度神经网络模型中，输出与所述音素特征对应的声学特征，所述声学特征包括梅尔倒谱系数MFCC特征、发音时长和发音基频。

将所述声学特征输入到语音合成器中，输出与所述目标文本数据对应的语音数据。

本实施例提出的方案中，通过预先建立的深度神经网络模型将目标文本数据转换为语音数据，通过预先建立的张量模型将语音数据转换为口型数据。具体地，获取待合成的目标文本数据，通过分词工具将目标文本数据拆分成字或词，再通过发音词典将拆分得到的字或拆分成音素，进而获取到音素特征，对于中文来说，音素包括声母音素和韵母音素。在该实施例中，以中文为例，对于每一个音素来说，音素特征主要包括以下特征：当前音素的发音特征，前一个音素的发音特征、下一个音素的发音特征、当前音素在字中的位置、当前音素的音节特征、前一个音素的音节特征、后一个音素的音节特征、当前音素所在的字在句子中的位置，其中，发音特征包括音素类型(元音或辅音)、音长、音高、重音位置、韵母的位置、发音部位、韵母是否发音，音节特征包括音节位置、音素在音节中的位置、音节在字中的位置。音素特征可以表达为一个3*7+3*3+2＝32维的特征向量。

预先训练好用于表达音素特征与声学特征之间的相关关系的深度神经网络模型，将上述特征向量输入到该模型中，得到对应的声学特征，声学特征中包含时序特征和每个音的发音长度，其中，时序特征包括一个25维的特征向量和基频，25维的特征向量包含了25个梅尔倒谱系数(Mel-frequency cepstral coefficient，MFCC)，表示一帧10ms的语音声学特征。将MFCC特征、发音长度、发音基频通过语音合成器合成得到语音信号。

在应用本实施例中的深度神经网络模型之前，需要对模型进行训练，首先，采集语料构建样本，基于至少一个说话人的语料构建样本库，所述语料包括语音数据，以及与语音数据对应的文本数据和口型数据，即获取一个或者多个说话人朗读相同的文本数据得到的语音数据，以及对应的口型数据，建立样本库，其中，口型数据为通过捕捉口型运动变化信息的生理学的电磁关节造影术数据，能够体现说话人的发音时的口型状态。然后，根据所述样本库中的文本数据和所述语音数据训练深度神经网络模型，获取深度神经网络模型的模型参数。

具体地，深度神经网络模型的训练过程如下：根据样本库中的文本数据结合发音字典提取得到音素特征，这些特征可以形成一个3*7+3*3+2＝32维的特征向量；从与文本数据对应的语音数据提取声学特征，主要包括MFCC特征、发音长度、发音基频，作为训练标准比对的信息；将这两者送入深度神经网络模型训练，得到待求解的模型参数，即特定的音素与对应的发音之间，各个音素特征、声学特征的权重。其中，根据音素特征中的音长特征和音节位置特征可以预测发音时长，根据因素特征中的音高、重音位置等发音特征可以预测发音基频。

根据所述语音数据、预先训练好的张量模型以及预先设置的说话人标识信息，获取与所述语音数据和所述说话人标识信息对应的口型数据，所述张量模型表达语音数据的发音特征与口型数据的口型位置特征之间的相关关系。

需要说明的是，本实施例中的口型数据为通过捕捉口型运动变化信息的生理学的电磁关节造影术数据，其中，电磁关节造影术数据中主要包括特定口型的坐标信息和对应的口型图像。在模型训练时，直接采用口型数据中的口型位置特征，口型位置特征主要包括以下位置的坐标信息：舌尖、舌质、舌背、上嘴唇、下嘴唇、上门牙和下门牙。

根据样本库中的语音数据和口型数据，预先训练好用于表达声学特征与口型数据之间的相关关系的张量模型，该张量模型为三阶张量模型，三阶张量模型的三个维度分别对应于发音特征、口型数据和说话人标识信息。获取样本库中的语音数据的发音特征，将发音特征和说话人标识信息作为三阶张量模型的输入特征，将口型数据作为三阶张量模型的输出特征，使用高阶奇异值分解算法训练三阶张量模型，以获取三阶张量模型的模型参数。

具体地，本实施例中的三阶张量模型的构建以及训练方法如下：将发音特征构成的集合作为一个参数空间将与发音特征对应的口型数据的集合作为一个参数空间基于上述参数空间构建一个多线性空间变换，其表达式如下：其中为一个网格结构，该网格结构用于存储口型数据，V用于存储特定口型的三维坐标信息，其中两维是口型的坐标，另外一位是说话人标识信息，即说话人ID，由于对于不同的说话人来说，其口型位置稍有差别；F用于存储特定口型的口型图像，该空间变换用于表达发音特征与口型位置特征之间的相关关系。基于上述多线空间变化的表达构建一个三阶张量，该三阶张量的三个维度分别对应于声学特征、口型数据和说话人标识信息。其表达式如下：

其中，等式的左边是一些待求解的模型参数，主要包括参数空间参数空间中的各个特征的权重，等式的右边则是训练模型时输入的特征，通过对数据库中的文本数据和口型数据，经特征提取得到的发音特征、口型位置特征；其中C为张量表达符，μ是针对不同说话人的平均化口型位置信息，以“a”这个音为例，其对应的μ为不同说话人在发“a”这个音时的口型位置信息的平均值。由于张量的分解一般使用高阶奇异值分解算法，因此，本实施例中，使用高阶奇异值分解算法训练三阶张量模型，以求解上述表达式左侧的模型参数。

在基于深度神经网络模型得到语音数据后，将语音数据以及预先设置的说话人标识信息输入到预先训练好的三阶张量模型中，得到与该语音数据对应的口型数据。也就是说，当用于训练三阶张量模型的样本库中包含有多个说话人的语料时，用户可以预先选择说话人标识信息，那么最终生成的口型数据会更接近于该说话人的口型数据。

根据所述口型数据生成与所述语音数据对应的口型动画，以供在播放所述语音数据的同时，展示所述口型动画。根据获取到的与目标文本数据中的各个音素对应的口型数据，以及预设的三维唇区模型生成可以动态展示的口型动画，在播放与目标文本数据对应的合成数据时，展示与之对应的口型动画。在本实施例的方案中，使用深度神经网络模型来实现音素特征到声学特征之间的建模映射，这种映射关系是一种非线性的映射问题，深度神经网络能够实现更好的特征挖掘和表达，使得语音合成系统得到更准确、更自然的输出结果；并且，通过构建张量模型实现发音特征与口型特征之间的相关关系的表达，能够获取与合成的语音匹配且有真实感的口型数据，以实现在播放语音数据的同时，对口型的动态化展示。

本实施例提出的基于语音的口型动画合成装置，根据发音词典获取目标文本数据中的音素特征，将音素特征输入到预先训练好的深度神经网络模型中，输出与音素特征对应的声学特征，该声学特征包括MFCC特征、发音时长和发音基频，将这些声学特征输入到语音合成器中进行基于语音的口型动画合成，得到与目标文本数据对应的语音数据，根据语音数据、预先训练好的张量模型以及预先设置的说话人标识信息，获取与语音数据和说话人标识信息对应的口型数据，根据口型数据生成与语音数据对应的口型动画，以供在播放语音数据的同时，展示所述口型动画。本方案采用深度神经网络模型将目标文本数据转换为声学特征，能够实现更好的特征挖掘，使得语音合成系统得到更准确、更自然的输出结果，同时通过能够表达声学特征与口型数据的张量模型实现将合成的语音数据转换为对应的口型数据，根据口型数据生成与目标文本数据对应的口型动画，解决了现有技术中无法展示与合成的语音数据匹配的、并具有真实感的口型动画的技术问题。

可选地，在其他的实施例中，口型动画合成程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述口型动画合成程序在基于语音的口型动画合成装置中的执行过程。

例如，参照图2所示，为本发明基于语音的口型动画合成装置一实施例中的口型动画合成程序的程序模块示意图，该实施例中，口型动画合成程序可以被分割为特征提取模块10、特征转换模块20、语音合成模块30、口型生成模块40和动画合成模块50，示例性地：

特征提取模块10用于：获取目标文本数据，根据发音词典获取所述目标文本数据中的音素特征；

特征转换模块20用于：将所述音素特征输入到预先训练好的深度神经网络模型中，输出与所述音素特征对应的声学特征，所述声学特征包括梅尔倒谱系数MFCC特征、发音时长和发音基频；

语音合成模块30用于：将所述声学特征输入到语音合成器中，输出与所述目标文本数据对应的语音数据；

口型生成模块40用于：根据所述语音数据、预先训练好的张量模型以及预先设置的说话人标识信息，获取与所述语音数据和所述说话人标识信息对应的口型数据，所述张量模型表达语音数据的发音特征与口型数据的口型位置特征之间的相关关系；

动画合成模块50用于：根据所述口型数据生成与所述语音数据对应的口型动画，以供在播放所述语音数据的同时，展示所述口型动画。

上述特征提取模块10、特征转换模块20、语音合成模块30、口型生成模块40和动画合成模块50等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明还提供一种基于语音的口型动画合成方法。参照图3所示，为本发明基于语音的口型动画合成方法较佳实施例的流程图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现，以下基于语音的口型动画合成装置作为执行主体对本实施例的方法进行说明。

在本实施例中，基于语音的口型动画合成方法包括：

步骤S10，获取目标文本数据，根据发音词典获取所述目标文本数据中的音素特征。

步骤S20，将所述音素特征输入到预先训练好的深度神经网络模型中，输出与所述音素特征对应的声学特征，所述声学特征包括梅尔倒谱系数MFCC特征、发音时长和发音基频。

步骤S30，将所述声学特征输入到语音合成器中，输出与所述目标文本数据对应的语音数据。

步骤S40，根据所述语音数据、预先训练好的张量模型以及预先设置的说话人标识信息，获取与所述语音数据和所述说话人标识信息对应的口型数据，所述张量模型表达语音数据的发音特征与口型数据的口型位置特征之间的相关关系。

步骤S50，根据所述口型数据生成与所述语音数据对应的口型动画，以供在播放所述语音数据的同时，展示所述口型动画。

根据获取到的与目标文本数据中的各个音素对应的口型数据，以及预设的三维唇区模型生成可以动态展示的口型动画，在播放与目标文本数据对应的合成数据时，展示与之对应的口型动画。在本实施例的方案中，使用深度神经网络模型来实现音素特征到声学特征之间的建模映射，这种映射关系是一种非线性的映射问题，深度神经网络能够实现更好的特征挖掘和表达，使得语音合成系统得到更准确、更自然的输出结果；并且，通过构建张量模型实现发音特征与口型特征之间的相关关系的表达，能够获取与合成的语音匹配且有真实感的口型数据，以实现在播放语音数据的同时，对口型的动态化展示。

本实施例提出的基于语音的口型动画合成方法，根据发音词典获取目标文本数据中的音素特征，将音素特征输入到预先训练好的深度神经网络模型中，输出与音素特征对应的声学特征，该声学特征包括MFCC特征、发音时长和发音基频，将这些声学特征输入到语音合成器中进行基于语音的口型动画合成，得到与目标文本数据对应的语音数据，根据语音数据、预先训练好的张量模型以及预先设置的说话人标识信息，获取与语音数据和说话人标识信息对应的口型数据，根据口型数据生成与语音数据对应的口型动画，以供在播放语音数据的同时，展示所述口型动画。本方案采用深度神经网络模型将目标文本数据转换为声学特征，能够实现更好的特征挖掘，使得语音合成系统得到更准确、更自然的输出结果，同时通过能够表达声学特征与口型数据的张量模型实现将合成的语音数据转换为对应的口型数据，根据口型数据生成与目标文本数据对应的口型动画，解决了现有技术中无法展示与合成的语音数据匹配的、并具有真实感的口型动画的技术问题。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有口型动画合成程序，所述口型动画合成程序可被一个或多个处理器执行，以实现如下操作：

本发明计算机可读存储介质具体实施方式与上述基于语音的口型动画合成装置和方法各实施例基本相同，在此不作累述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于语音的口型动画合成装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的口型动画合成程序，所述口型动画合成程序被所述处理器执行时实现如下步骤：

2.如权利要求1所述的基于语音的口型动画合成装置，其特征在于，所述获取目标文本数据，根据发音词典获取所述目标文本数据中的音素特征的步骤包括：

通过发音词典将分词结果中的词转换为音素特征。

3.如权利要求1或2所述的基于语音的口型动画合成装置，其特征在于，所述口型动画合成程序还可被所述处理器执行，以实现如下步骤：

4.如权利要求3所述的基于语音的口型动画合成装置，其特征在于，所述根据所述样本库中的文本数据和所述语音数据训练深度神经网络模型，获取深度神经网络模型的模型参数的步骤包括：

5.如权利要求4所述的基于语音的口型动画合成装置，其特征在于，所述张量模型为三阶张量模型，所述根据所述样本库中的语音数据和口型数据训练所述张量模型，获取所述张量模型的模型参数的步骤包括：

6.一种基于语音的口型动画合成方法，其特征在于，所述方法包括：

7.如权利要求6所述的基于语音的口型动画合成方法，其特征在于，所述方法还包括步骤：

8.如权利要求7所述的基于语音的口型动画合成方法，其特征在于，所述根据所述样本库中的文本数据和所述语音数据训练深度神经网络模型，获取深度神经网络模型的模型参数的步骤包括：

9.如权利要求7或8所述的基于语音的口型动画合成方法，其特征在于，所述张量模型为三阶张量模型，所述根据所述样本库中的语音数据和口型数据训练所述张量模型，获取所述张量模型的模型参数的步骤包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有口型动画合成程序，所述口型动画合成程序可被一个或者多个处理器执行，以实现如权利要求6至9中任一项所述的基于语音的口型动画合成方法的步骤。