CN111915707B

CN111915707B - 一种基于音频信息的口型动画展示方法、装置及存储介质

Info

Publication number: CN111915707B
Application number: CN202010622715.6A
Authority: CN
Inventors: 田野; 李剑鹏; 刘学民; 汝兴义
Original assignee: Tianjin Hongen Perfect Future Education Technology Co ltd
Current assignee: Tianjin Hongen Perfect Future Education Technology Co ltd
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2024-01-09
Anticipated expiration: 2040-07-01
Also published as: CN111915707A

Abstract

本发明提供了一种基于音频信息的口型动画展示方法、装置及存储介质，该方法包括检测同一场景中任意角色的音频信息，按照音频信息的时间顺序分析音频信息对应的音素序列。查找与音素序列中各音素具有映射关系的口型信息。依据时间顺序获取与查找到的口型信息对应帧的口型动画图片。基于获取的口型动画图片生成口型动画并展示。采用本发明实施例可以根据同一场景中任意角色所产生的音频信息有效地生成相应口型动画，从而利用口型动画驱动对相应角色的口型变化，无需投入较大的时间成本和人力成本，便可以实现对场景中角色的口型适配。

Description

一种基于音频信息的口型动画展示方法、装置及存储介质

技术领域

本发明涉及音频处理及动画制作技术领域，特别是一种基于音频信息的口型动画展示方法、装置及存储介质。

背景技术

目前在影视和动画领域有大量配音和口型适配的应用，但在新兴的移动端教育产品和游戏产品中，实时动画展示的语音输出对应的口型适配工作量大，且制作效率低，表现效果不理想。

例如，目前在纯美术制作方案中利用3D建模工具或者2D动画工具，根据现有配音进行人工调整口型动画，需要针对每个关键音素调整口型，从而最终输出带有口型效果的动画。但是，纯美术制作方案采用人工调整口型动画的工作量大，且难以保证最终良好的口型效果，如果配音或者口型动作产生变化，需要重新制作口型动画。又例如，目前通过离线分析语音文件，根据语音文件分析结果利用程序制作动画。但是，基于离线分析语音文件的方案对于实时语音无法进行有效的处理。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于音频信息的口型动画展示方法、装置及存储介质，能够根据同一场景中任意角色所产生的音频信息有效地生成相应口型动画，从而利用口型动画驱动对相应角色的口型变化，无需投入较大的时间成本和人力成本，便可以实现对场景中角色的口型适配，提高了基于音频信息控制角色口型的动画表现效果。

根据本发明实施例的一方面，提供了一种基于音频信息的口型动画展示方法，包括：

检测同一场景中任意角色的音频信息，按照音频信息的时间顺序分析所述音频信息对应的音素序列；

查找与所述音素序列中各音素具有映射关系的口型信息；

依据所述时间顺序获取与查找到的所述口型信息对应帧的口型动画图片；

基于获取的口型动画图片生成口型动画并展示。

根据本发明实施例的另一方面，还提供了一种基于音频信息的口型动画展示装置，包括：

检测模块，适于检测同一场景中任意角色的音频信息，按照音频信息的时间顺序分析所述音频信息对应的音素序列；

查找模块，适于查找与所述音素序列中各音素具有映射关系的口型信息；

获取模块，适于依据所述时间顺序获取与查找到的所述口型信息对应帧的口型动画图片；

展示模块，适于基于获取的口型动画图片生成口型动画并展示。

根据本发明实施例的再一方面，还提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序代码，当所述计算机程序代码在计算设备上运行时，导致所述计算设备执行上文任意实施例的基于音频信息的口型动画展示方法。

根据本发明实施例的再一方面，还提供了一种计算设备，包括：处理器；存储有计算机程序代码的存储器；当所述计算机程序代码被所述处理器运行时，导致所述计算设备执行上文任意实施例的基于音频信息的口型动画展示方法。

本发明实施例在检测到同一场景中任意角色的音频信息时，可以按照音频信息的时间顺序分析音频信息对应的音素序列，在查找到与音素序列中各音素具有映射关系的口型信息后，依据时间顺序获取与查找到的口型信息对应帧的口型动画图片，进而基于获取的口型动画图片生成口型动画并展示。由此，采用本发明实施例可以根据同一场景中任意角色所产生的音频信息有效地生成相应口型动画，从而利用口型动画驱动对相应角色的口型变化，无需投入较大的时间成本和人力成本，便可以实现对场景中角色的口型适配。特别是对于检测到的实时音频信息，能够快速且高效地驱动角色的口型进行相应变化，提高了基于实时音频控制角色口型的动画表现效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明一实施例的基于音频信息的口型动画展示方法的流程示意图；

图2示出了根据本发明一实施例的马尔可夫链的状态转移图；

图3示出了图2所示状态转移图对应的转移矩阵示意图；

图4示出了根据本发明一实施例的音素序列的示意图；

图5示出了根据本发明一实施例的内部状态序列的网格示意图；

图6示出了根据本发明一实施例的同一时间轴上不同时间点的口型动画图片的示意图；

图7示出了根据本发明一实施例的进行中间插值的口型动画图片的示意图；

图8示出了根据本发明一实施例的基于音频信息的口型动画展示装置的结构示意图；

图9示出了根据本发明另一实施例的基于音频信息的口型动画展示装置的结构示意图；

图10示出了根据本发明再一实施例的基于音频信息的口型动画展示装置的结构示意图；

图11示出了根据本发明再一实施例的基于音频信息的口型动画展示装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

为解决上述技术问题，本发明实施例提供了一种基于音频信息的口型动画展示方法。图1示出了根据本发明一实施例的基于音频信息的口型动画展示方法的流程示意图，参见图1，该方法包括步骤S102至步骤S108。

步骤S102，检测同一场景中任意角色的音频信息，按照音频信息的时间顺序分析音频信息对应的音素序列。

步骤S104，查找与音素序列中各音素具有映射关系的口型信息。

该步骤中的口型信息可以是口型类型，本发明实施例预先定义了多种口型类型，关于口型类型的具体介绍可参见后文实施例。

步骤S106，依据时间顺序获取与查找到的口型信息对应帧的口型动画图片。

步骤S108，基于获取的口型动画图片生成口型动画并展示。

采用本发明实施例可以根据同一场景中任意角色所产生的音频信息有效地生成相应口型动画，从而利用口型动画驱动对相应角色的口型变化，无需投入较大的时间成本和人力成本，便可以实现对场景中角色的口型适配。特别是对于检测到的实时音频信息，能够快速且高效地驱动角色的口型进行相应的实时变化，提高了基于音频信息控制角色口型的动画表现效果。

在本发明一实施例中，同一场景中任意角色可以是在英语教学场景中由真实用户控制的角色，不同真实用户通过发出实时语音可以控制不同角色进行实时对话教学，在实时对话教学过程中不同角色的口型可以根据各自对应的实时语音进行适应性的实时变化。例如，真实用户控制英语教学场景中的一个角色进行英语口语练习时，可以按照音频信息的时间顺序分析检测到的用户产生的实时英语口语音频信息对应的音素序列，在查找与音素序列中各音素具有映射关系的口型信息后，依据时间顺序获取与查找到的口型信息对应帧的口型动画图片并生成相应的口型动画，从而可以利用口型动画驱动用户所控制角色的口型随检测到的英语口语进行实时变化。当然，同一场景中任意角色还可以是其他场景，如其他教学场景、其他存在实时对话的场景等中的角色，本发明实施例对此不作具体限定。

本发明实施例的英语教学场景还可以与AR技术相结合，虚拟角色可以通过移动终端(如手机、平板电脑等)的屏幕出现于现实世界中的锚点平面的位置。不同真实用户通过发出实时语音可以控制现实世界中的不同虚拟角色进行实时对话教学，在实时对话教学过程中不同虚拟角色的口型可以根据各自对应的实时语音进行适应性的实时变化，从而可以有效增加用户学习英语的趣味性。

在本发明一实施例中，在执行步骤S102中的按照音频信息的时间顺序分析音频信息对应的音素序列时，为提高音频信息的分析效率，还可以先将检测到的音频信息划分为多个音频片段，然后按照多个音频片段的时间顺序分析音频信息对应的音素序列，即按照时间顺序分析每个音频片段对应的音素序列。本发明实施例可以通过滑动窗口将音频信息划分为多个音频片段。例如采用帧长25ms、帧移10ms的滑动窗口将音频信息划分为多个音频片段，对于每个滑动窗口可提取一帧音频信号。

在本发一明实施例中，在执行步骤S102中的按照音频信息的时间顺序分析音频信息对应的音素序列时，可以先按照音频信息的时间顺序提取音频信息的音频特征。然后，采用语音识别技术分析音频特征对应的观察序列，并基于观察序列解码得到音素序列。

该实施例提取的音频特征可以是MFCC(Mel-frequency cepstral coefficients，梅尔倒谱系数)特征，MFCC特征中包含12个倒谱系数，1个能量，13个增量值d(t)，13个d(t)(从最后一帧到下一帧的动态变化)，即对于每帧音频可以提取39个特征向量来表示音频信号。由于人类的听力灵敏度是非线性的，响应的感知强度分别在不同的频率上有所变化。

通常情况下，语音可以分为有声和无声两种。从肺中呼气时气体会将声带推开。气流加快时声带处的压力下降。一旦气流下降，压力就会增加并重新打开。打开和关闭的循环持续进行可以产生一系列声波频率，通常男性平均频率为125Hz，女性平均频率为210Hz。在产生浊音时喉咙会产生振动。本发明实施例可以将一个单词分成音素，音素是构成音节的最小单位或最小的语音片段。一个音素通常包含一个元音，当然也可以包含辅音。一个元音由一个基频F0和若干共振峰F1、F2、F3组成，通过基频和共振峰值的不同组合可以区别出不同的元音。每个人发音不同是由于声道和口腔形状不同而产生不同的共鸣，类似于频率的缩放滤波器。通过相应的滤波器处理，可以获得归一化的输出。

通常的音频为时域信息，为方便提取音频特征，本发明实施例可以先采用傅立叶变换将音频的时域信息转换为频域信息，然后采用卷积神经网络CNN提取音频的音频特征，卷积神经网提取音频特征时可以采用卷积滤波器，并通过定义f(x)的响应函数提取音频特征。

在提取音频信息的音频特征之后，便可以采用语音识别技术分析音频特征对应的观察序列，并基于观察序列解码得到音素序列。

本发明实施例采用语音识别技术分析音频特征对应的观察序列时，可以采用HMM模型(Hidden Markov Model，隐马尔可夫模型)分析音频特征对应的观察序列。HMM模型由隐藏变量和可观察变量组成。通常马尔可夫链包含系统的所有可能状态以及从一种状态转换到另一种状态的概率，如图2所示的状态1至状态3之间的转换概率，而且还可以通过图3所示的状态转移矩阵描述图2中各状态的转换概率。由于并非所有状态都是可观察到的，因此将不能观察到的状态称为隐藏状态或内部状态。在分析音频特征对应的观察序列之后，可以选取概率最大的观察序列，以在后续对概率最大的观察序列进行解码。本发明实施例可以采用概率模型表示音频特征对应的最大概率的单词序列或者发音序列。例如，单词序列表示为W＝w1,w2,…,wm，发音序列表示为X＝x1,x2,…,xn。最大概率的单词序列或发音序列可以表示为W*＝argw max P(W|X)或W*＝argw max P(X|W)P(W)，其中，P(X|W)代表声学模型，P(W)代表语言模型。

本发明实施例在基于观察序列解码得到音素序列时，可以基于概率最大的观察序列进行解码得到音素序列。参见图4，顶部节点可以代表音素，底部节点代表相应的可观察对象(即音频功能)。水平箭头表示音素序列中真实标签“she just a had a baby”的转变。如果存在k个内部状态，则内部状态之间的复杂度将仅为O(k²T)，而不是指数级的。通过HMM模型将最大概率的观察序列解码得到内部状态序列(即音素序列)。并且，内部状态序列可以通过图5所示的网格进行可视化展示，图5示出了单词one、two、zero、oh解码得到内部状态序列，HMM模型还可以将单词语音识别的概念扩展为连续语音，通过添加弧将单词连接在一起。

在本发明一实施例中，在检测同一场景中任意角色的音频信息之前，还可以对多个离线音频文件进行口型分析，并建立不同音素和对应的口型信息间的映射关系，从而方便查找音频信息中各音素对应的口型信息。

首先，获取多个离线音频文件，将离线音频文件中的离线音频划分为多个音频片段。

在本发明一实施例中，将离线音频划分为多个音频片段时，也可以通过滑动窗口将离线音频划分为多个音频片段。如采用帧长25ms、帧移10ms的滑动窗口将离线音频划分为多个音频片段，对于每个滑动窗口可提取一帧音频信号。

然后，按照音频的时间顺序提取多个音频片段的音频特征。

从多个音频片段中提取音频特征的过程可以参见上文实施例内容中提取MFCC特征的过程，此处不再赘述。

进而，利用口型识别模型分析音频特征对应的观察序列，基于观察序列解码得到音素序列，输出音素序列中各音素对应的口型信息。

本发明实施例的口型识别模型是基于标注有口型信息的样本音频训练之后的模型，口型识别模型也可以采用HMM模型，由于口型识别模型已经依据标注有口型信息的样本音频进行了训练，因此在分析音频特征对应的观察序列并解码得到音素序列后，可以直接输出音素序列中各音素对应的口型信息。后文会对口型识别模型的训练过程进行具体介绍。

最后，在各音素和对应的口型信息间建立映射关系，并对建立的映射关系进行存储。

在本发明实施例中，由于从音频中提取的音频特征为梅尔倒谱系数特征，对于每帧音频可以提取39个特征向量来表示音频信号，39个特征向量中包含一个能量，因此，利用口型识别模型输出各音素对应的口型信息后，在音素与对应的口型信息之间分别建立映射关系，也可以是在每帧音频的能量值变化和口型信息之间建立映射关系，通过对能量值进行分析可以简化运算，特别是对于计算能力有限的移动平台，可以提高音频信息的分析效率。

本发明实施例的离线音频文件的口型分析过程也可以应用在英语教学场景中，真实用户与NPC(Non-Player Characte，非玩家角色)进行教学对话时，NPC作为教学者具有对应的预置离线音频文件，NPC讲话时通过将离线音频文件对应的多个音频片段提取音频特征并输入至预设的口型识别模型可以识别得到对应的口型信息，通过获取与口型信息对应帧的口型动画图片并生成相应的口型动画，从而可以利用口型动画驱动NPC的口型进行变化。而真实用户可以作为学习者通过发出实时语音来控制对应角色进行实时讲话，结合上文的实时语音对应口型分析过程的实施例内容可知真实用户控制的角色的口型也可以适应性的实时变化。

在本发明一实施例中，利用口型识别模型分析音频特征对应的观察序列之前，还可以按照如下方式对口型识别模型进行训练。

首先，获取标注有口型信息的样本音频。

在该实施例中，标注有口型信息的样本音频是将收集的大量音频数据进行口型信息的人工标注得到的，将标注有口型信息的样本音频作为口型识别模型的训练数据可以对口型识别模型进行有效地训练，从而可以利用口型识别模型对任意音频数据进行分析，输出任意音频数据各时间点对应的口型信息。

然后，将样本音频划分为多个样本音频片段，提取各样本音频片段的音频特征。

本发明实施例对样本音频划分为多个样本音频片段的过程可以参见上文实施例通过滑动窗口将音频划分为多个音频片段的过程，提取音频特征的过程可以参见上文实施例提取MFCC特征的过程，此处不再赘述。

最后，将音频特征和样本音频标注的口型信息作为训练数据对口型识别模型进行训练。

在该实施例中，利用训练数据对口型识别模型进行训练时，还可以采用Baum-Welch(向前向后算法)算法先学习口型识别模型的参数，得到发出概率、转移概率、状态转移矩阵等模型参数。其中，发出概率可以采用高斯混合模型进行建模，因此发出概率对应的实际参数是高斯分布中的均值和方差，通过发出概率和转移概率可确定时间t处的状态分布。学习得到模型参数后，进而可以采用EM(Expectation Maximization Algorithm，期望最大化算法)算法对HMM模型进行迭代训练。该实施例利用音频特征作为口型识别模型的输入，样本音频标注的口型信息作为口型识别模型的期望输出，对口型识别模型进行训练。

在本发明一实施例中，在利用口型识别模型输出音素序列中各音素对应的口型信息之后，还可以统计口型识别模型输出结果的准确性指标，从而基于准确性指标对口型识别模型和/或样本音频的选择进行优化。

在本发明实施例中，准确性指标包含错误率、准确性、速度、接受者操作特性曲线(receiver operating characteristic curve，ROC曲线)中的至少一项。

在本发明一实施例中，错误率统计的统计方式为，假设一个原始文本识别得到长度为N个单词的识别文本。I表示插入单词的数量，D表示删除单词的数量，S表示替换单词的数量，那么单词错误率的统计方式为WER＝(I+D+S)/N，WER通常以百分比衡量。

准确性指标与单词错误率相似，但未考虑插入单词数量，例如，一个原始文本识别得到长度为N个单词的识别文本，D表示删除单词的数量，S表示替换单词的数量，单词准确性的统计方式为(N-D-S)/N。

对于速度指标，假设离线音频的录制时间(RT)为2小时，解码时间为6小时，那么速度指标的统计方式为3xRT。

通常检测任务时会出现错误、命中/未命中事件，因此可以采用ROC曲线描述错误数量与命中数量的关系，通过ROC曲线可找到错误少且命中次数匹配100％的最佳点。

本发明实施例的口型信息可以包含口型类型，由于有些不同的音素会表现为相似的口型动作，因此一种口型类型可以对应多个音素。

例如，以A-H、X表示的9种口型类型，下面对各种口型类型以及口型类型对应的部分音素进行介绍。A类型表示闭合的嘴巴发出“P”、“B”和“M”等音，音量很小。B类型表示牙齿张紧，张开嘴巴，此嘴形适用于大多数辅音(如“K”，“S”，“T”等)，也用于一些元音，如B中的“EE”的声音。C类型表示微张开嘴巴，该口型被用于如“EH”和“AE”等元音，当然也可用于一些辅音。D类型表示较大的张开嘴巴，该口型用于“AA”等元音。E类型表示嘴角略圆，该口型用于“AO”等元音。F类型可以用于OW、W等音。G类型表示上齿接触为“F”的下唇，如“F”、“V”等。H类型嘴巴微张，用于长“L”音。X类型可以表示嘴巴自然闭合，处于空闲位置。

在本发明一实施例中，对于多种类型的口型，若每种口型都由美术制作出相应的口型效果，无疑会增加美术制作口型的难度和工作量。因此，采用本发明实施例只需美术人员制作出几种基础口型，如a、o、e、i、u五种基础口型的口型效果，进而可以根据基础口型的口型动画采用模型顶点变形技术生成其他口型的口型动画以及不同口型间的切换动画效果。

参见上文步骤S106，在本发明一实施例中，若查找到的口型信息属于基础口型信息，则可以直接从基础口型信息对应的口型动画中依据时间顺序获取与查找到的口型信息对应帧的口型动画图片，进而基于获取的口型动画图片生成口型动画并展示，利用口型动画实现对角色口型变化的控制。

在本发明另一实施例中，若查找到的口型信息不属于基础口型信息，则可以获取查找到的口型信息对应的至少两个基础口型的权重信息，然后基于至少两个基础口型的权重信息依据时间顺序采用插值方式生成口型信息对应帧的口型动画图片，进而基于获取的口型动画图片生成口型动画并展示，利用口型动画实现对角色口型变化的控制。例如，b口型对应的两个基础口型的权重信息分别为20％的a基础口型、80％的i基础口型，通过采用插值方式可以根据20％的a基础口型、80％的i生成b口型的口型动画。

由此，采用本发明实施例不仅可以有效减少美术人员工作量，提高工作效率，而且即使后续需要修改口型效果，也只需修改较少数量的基础口型的口型效果，而无需对所有口型的口型效果进行更改。

本发明实施例的口型动画可以采用二维序列帧动画，二维序列帧动画可以应用于二维角色或者应用于三维角色的嘴巴贴图上。口型动画也可以采用三维动画，三维动画可以应用在更精细建模的三维角色上。

在本发明一实施例中，在基于获取的口型动画图片生成口型动画时可以采用顶点变形动画技术控制任意角色的口型变化。顶点动画(Morph Transform Animation)是逐个控制顶点运动的动画，针对于物体的形状可以随意变换并记录为关键帧，把一种形状变成另一种不同形状的物体，中间的位置则通过每个顶点的起始位置和结束位置通过时间插值来计算，这里起始顶点和结束顶点的关系必须一一对应。顶点动画技术应用在面部表情控制，可以对表情细节进行有效地控制。

在利用顶点变形动画技术控制任意角色的口型变化时，首先，依据时间顺序确定起始口型动画图片和多帧目标口型动画图片，并在相邻帧口型动画图片中分析各顶点的起始位置和结束位置。

例如，参见图6，确定的起始口型动画图片为时间为0s时的口型动画图片，多帧目标口型动画图片分别为时间为0.25s、0.5s、1s时的口型动画图片。在该实施例中，若口型信息属于预设的基础口型信息，可以直接获取到对应的口型动画图片，若口型信息不属于预设的基础口型信息则需要先基于基础口型信息制作口型动画图片，具体可以参见上文实施例内容。本发明实施例中不同口型动画图片中的相应顶点是一一对应的。

然后，基于相邻帧口型动画图片的权重，采用插值方式计算任意时间的顶点的起始位置和结束位置间的中间位置。

例如，图7中起点表示顶点的起始位置，终点表示该顶点的结束位置，中间插值点即插值后顶点的中间位置，通过中间插值点可以实现相邻帧口型动画图片间的平滑变形。

关键帧插值是在一组已知数据范围内构造新任意位置的数据的方法，通过差值后的关键帧可以得到任意时间的顶点位置。本发明实施例的插值方式可以采用公式1所示的二次多项式插值方式，以加速相邻两个关键帧插值起始阶段的变化过程，以有效控制角色的口型变化。

最后，基于任意时间的顶点的起始位置、结束位置以及中间位置控制任意角色的口型变化。

由此，采用本发明实施例可以实现各帧口型动画图片之间的平滑变化，利用口型动画图片生成的口型动画实现了对场景中角色的口型适配，提高了基于音频信息控制角色口型的动画表现效果。

基于同一发明构思，本发明实施例还提供了一种基于音频信息的口型动画展示装置。图8示出了根据本发明一实施例的基于音频信息的口型动画展示装置的结构示意图。参见图8，基于音频信息的口型动画展示装置包括检测模块810、查找模块820、第一获取模块830和展示模块840。

检测模块810，适于检测同一场景中任意角色的音频信息，按照音频信息的时间顺序分析音频信息对应的音素序列。

查找模块820，适于查找与音素序列中各音素具有映射关系的口型信息。

第一获取模块830，适于依据时间顺序获取与查找到的口型信息对应帧的口型动画图片。

展示模块840，适于基于获取的口型动画图片生成口型动画并展示。

在本发明一实施例中，检测模块810还适于按照音频信息的时间顺序分析音频信息对应的音素序列，包括将检测到的音频信息划分为多个音频片段；按照多个音频片段的时间顺序分析音频信息对应的音素序列。

在本发明一实施例中，检测模块810还适于按照音频信息的时间顺序提取音频信息的音频特征。分析音频特征对应的观察序列，基于观察序列解码得到音素序列。

在本发明一实施例中，第一获取模块830还适于，若查找到的口型信息属于预设的基础口型信息，从基础口型信息对应的口型动画图片中依据时间顺序获取与查找到的口型信息对应帧的口型动画图片。

在本发明一实施例中，第一获取模块830还适于，若查找到的口型信息不属于预设的基础口型信息，获取查找到的口型信息对应的至少两个基础口型的权重信息，基于至少两个基础口型的权重信息依据时间顺序采用插值方式生成口型信息对应帧的口型动画图片。

在本发明一实施例中，口型动画包含二维序列帧动画和三维动画中的任意一项。

在本发明一实施例中，展示模块840，还适于若口型动画包括三维动画，依据时间顺序确定起始口型动画图片和多帧目标口型动画图片，在相邻帧口型动画图片中分析各顶点的起始位置和结束位置。基于相邻帧口型动画图片的权重，采用插值方式计算任意时间的顶点的起始位置和结束位置间的中间位置。基于任意时间的顶点的起始位置、结束位置以及中间位置控制任意角色口型变化。

在本发明一实施例中，插值方式包括二次多项式插值方式。

参见图9，在本发明一实施例中，图8所示的基于音频信息的口型动画展示装置还可以包括第二获取模块850、提取模块860、分析模块870和建立模块880。

第二获取模块850，适于获取多个离线音频文件，将离线音频文件中的离线音频划分为多个音频片段。

提取模块860，适于按照音频的时间顺序提取多个音频片段的音频特征。

分析模块870，适于利用口型识别模型分析音频特征对应的观察序列，基于观察序列解码得到音素序列，输出音素序列中各音素对应的口型信息。

建立模块880，适于在各音素和对应的口型信息间建立映射关系。

在本发明一实施例中，提取模块860还适于按照音频的时间顺序提取多个音频片段的梅尔倒谱系数特征。

参见图10，在本发明一实施例中，图9所示的基于音频信息的口型动画展示装置还可以包括训练模块890。训练模块890适于获取标注有口型信息的样本音频；将样本音频划分为多个样本音频片段，提取各样本音频片段的音频特征；将音频特征和样本音频标注的口型信息作为训练数据对口型识别模型进行训练。

参见图11，在本发明一实施例中，图8所示的基于音频信息的口型动画展示装置还可以包括优化模块891，优化模块891适于统计口型识别模型输出结果的准确性指标；基于准确性指标对口型识别模型和/或样本音频的选择进行优化。

在本发明一实施例中，准确性指标包含错误率、准确性、速度、接受者操作特性曲线中的至少一项。

基于同一发明构思，本发明实施例还提供了一种计算机存储介质，计算机存储介质存储有计算机程序代码，当计算机程序代码在计算设备上运行时，导致计算设备执行上文任意实施例的基于音频信息的口型动画展示方法。

基于同一发明构思，本发明实施例还提供了一种计算设备，包括：处理器；存储有计算机程序代码的存储器；当计算机程序代码被处理器运行时，导致计算设备执行上文任意实施例的基于音频信息的口型动画展示方法。

所属领域的技术人员可以清楚地了解到，上述描述的系统、装置、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，为简洁起见，在此不另赘述。

另外，在本发明各个实施例中的各功能单元可以物理上相互独立，也可以两个或两个以上功能单元集成在一起，还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现，也可以采用软件或者固件的形式实现。

本领域普通技术人员可以理解：所述集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，其包括若干指令，用以使得一台计算设备(例如个人计算机，服务器，或者网络设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)，磁碟或者光盘等各种可以存储程序代码的介质。

或者，实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机，服务器，或者网络设备等的计算设备)来完成，所述程序指令可以存储于一计算机可读取存储介质中，当所述程序指令被计算设备的处理器执行时，所述计算设备执行本发明各实施例所述方法的全部或部分步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：在本发明的精神和原则之内，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案脱离本发明的保护范围。

Claims

1.一种基于音频信息的口型动画展示方法，包括：

查找与所述音素序列中各音素具有映射关系的口型信息；

基于获取的口型动画图片生成口型动画并展示；

检测同一场景中任意角色的音频信息之前，还包括：

获取多个离线音频文件，将所述离线音频文件中的离线音频划分为多个音频片段；

按照音频的时间顺序提取多个音频片段的音频特征；

利用口型识别模型分析所述音频特征对应的观察序列，基于所述观察序列解码得到音素序列，输出音素序列中各音素对应的口型信息；

在各音素和对应的口型信息间建立映射关系。

2.根据权利要求1所述的方法，其特征在于，按照音频信息的时间顺序分析所述音频信息对应的音素序列，包括：

将检测到的所述音频信息划分为多个音频片段；

按照多个音频片段的时间顺序分析所述音频信息对应的音素序列。

3.根据权利要求1或2所述的方法，其特征在于，按照音频信息的时间顺序分析所述音频信息对应的音素序列，包括：

按照音频信息的时间顺序提取所述音频信息的音频特征；

分析所述音频特征对应的观察序列，基于所述观察序列解码得到音素序列。

4.根据权利要求1所述的方法，其特征在于，利用口型识别模型分析所述音频特征对应的观察序列之前，还包括：

获取标注有口型信息的样本音频；

将所述样本音频划分为多个样本音频片段，提取各样本音频片段的音频特征；

将所述音频特征和所述样本音频标注的口型信息作为训练数据对所述口型识别模型进行训练。

5.根据权利要求1所述的方法，其特征在于，按照音频的时间顺序提取多个音频片段的音频特征，包括：

按照音频的时间顺序提取多个音频片段的梅尔倒谱系数特征。

6.根据权利要求1或2所述的方法，其特征在于，依据所述时间顺序获取与查找到的所述口型信息对应的口型动画图片，包括：

若查找到的口型信息属于预设的基础口型信息，从所述基础口型信息对应的口型动画图片中依据所述时间顺序获取与查找到的所述口型信息对应帧的口型动画图片。

7.根据权利要求1或2所述的方法，其特征在于，依据所述时间顺序获取与查找到的所述口型信息对应帧的口型动画图片，包括：

若查找到的口型信息不属于预设的基础口型信息，获取查找到的口型信息对应的至少两个基础口型的权重信息，基于所述至少两个基础口型的权重信息依据所述时间顺序采用插值方式生成所述口型信息对应帧的口型动画图片。

8.根据权利要求1或2所述的方法，其特征在于，所述口型动画包含二维序列帧动画和三维动画中的任意一项。

9.根据权利要求1所述的方法，其特征在于，输出音素序列中各音素对应的口型信息之后，还包括：

统计所述口型识别模型输出结果的准确性指标；

基于所述准确性指标对口型识别模型和/或样本音频的选择进行优化。

10.根据权利要求9所述的方法，其特征在于，

所述准确性指标包含错误率、准确性、速度、接受者操作特性曲线中的至少一项。

11.根据权利要求1或2所述的方法，其特征在于，若所述口型动画包括三维动画，基于获取的口型动画图片生成口型动画并展示，还包括：

依据所述时间顺序确定起始口型动画图片和多帧目标口型动画图片，在相邻帧口型动画图片中分析各顶点的起始位置和结束位置；

基于相邻帧口型动画图片的权重，采用插值方式计算任意时间的顶点的起始位置和结束位置间的中间位置；

基于任意时间的顶点的起始位置、结束位置以及中间位置控制所述任意角色的口型变化。

12.根据权利要求11所述的方法，其特征在于，所述插值方式包括二次多项式插值方式。

13.一种基于音频信息的口型动画展示装置，包括：

展示模块，适于基于获取的口型动画图片生成口型动画并展示；

第二获取模块，适于获取多个离线音频文件，将离线音频文件中的离线音频划分为多个音频片段；

提取模块，适于按照音频的时间顺序提取多个音频片段的音频特征；

分析模块，适于利用口型识别模型分析音频特征对应的观察序列，基于观察序列解码得到音素序列，输出音素序列中各音素对应的口型信息；

建立模块，适于在各音素和对应的口型信息间建立映射关系。

14.一种计算机存储介质，所述计算机存储介质存储有计算机程序代码，当所述计算机程序代码在计算设备上运行时，导致所述计算设备执行权利要求1-12任一项所述的基于音频信息的口型动画展示方法。

15.一种计算设备，包括：处理器；存储有计算机程序代码的存储器；当所述计算机程序代码被所述处理器运行时，导致所述计算设备执行权利要求1-12任一项所述的基于音频信息的口型动画展示方法。