CN114219880A

CN114219880A - 一种生成表情动画的方法和装置

Info

Publication number: CN114219880A
Application number: CN202111545691.XA
Authority: CN
Inventors: 张文军; 卢德辉
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-03-22

Abstract

本发明实施例提供了一种生成表情动画的方法和装置，其中，所述方法包括：获取音频数据和/或文本数据；驱动所述音频数据和/或文本数据得到基于音素的面部动画数据；将所述基于音素的面部动画数据转化为预设标准的动画数据；获取面部骨骼对应的骨骼表情集；根据所述预设标准的动画数据驱动所述骨骼表情集，以生成所述面部骨骼的第一表情动画。从而保证保证表情动画制作流程的通用性，兼容不同的面部数据来源，为后续面部动画数据解耦提供基础条件，而且将动画数据基于骨骼表情集驱动的方式，可以让动画数据和特定的面部骨架数据解耦，不同的骨骼输出同样的骨骼表情集，就能够完成动画的重定向，有效提升的了表情动画制作的时间。

Description

一种生成表情动画的方法和装置

技术领域

本发明涉及人工智能技术领域，特别是涉及一种生成表情动画的方法和一种生成表情动画的装置。

背景技术

对于存在大体量剧情交互的游戏，通常采用程序化表情生成的方式来提升游戏中表情动画的制作效率，随着AI(Artificial Intelligence,人工智能)技术的发展，通过AI基于音频生成表情动画的方式，是各种程序化表情生成方式中效率较高，对外部条件依赖较少的生成方式，因此在游戏制作中被经常采用。

目前，AI语音生成表情动画，通常方案只需要提供音频和对应的文本文件，通过AI引擎生成特定表情Pose姿势的权重值，最后通过混合不同表情的权重值，来生成对应的表情动画。这种通过AI语音生成表情动画的方案，虽然在AI处理部分的流程有较强的共通性，但是AI引擎从音频和文本中提取的只是基于Phoneme音素的权重动画数据，这些动画数据不易标准化且扩展性差，而且动画数据和骨骼数据未解耦，若想要更改骨骼数据，需要消耗额外的制作迭代时间，在制作效率上容易形成瓶颈。

发明内容

鉴于上述从音频和文本中提取的只是基于Phoneme音素的权重动画数据，不易标准化且扩展性差，而且动画数据和骨骼数据未解耦，导致在制作效率上容易形成瓶颈的问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种生成表情动画的方法和相应的一种生成表情动画的装置。

本发明实施例公开了一种生成表情动画的方法，包括：

获取音频数据和/或文本数据；

驱动所述音频数据和/或文本数据得到基于音素的面部动画数据；

将所述基于音素的面部动画数据转化为预设标准的动画数据；

获取面部骨骼对应的骨骼表情集；

根据所述预设标准的动画数据驱动所述骨骼表情集，以生成所述面部骨骼的第一表情动画。

可选地，所述预设标准的动画数据为FACS标准动画数据，所述将所述基于音素的面部动画数据转化为预设标准的动画数据，包括：

依据预设的映射表，将所述基于音素的面部动画数据转化为所述FACS标准动画数据；其中，所述预设的映射表用于描述音素表情集与FACS表情集之间映射关系。

可选地，在将所述基于音素的面部动画数据转化为标准动画数据的步骤之后，还包括：

对所述预设标准的动画数据进行后处理操作，以提高所述预设标准的动画数据的准确性。

可选地，所述方法还包括：

对所述音频数据和/或文本数据进行特征提取，得到目标情绪权重值；

根据所述目标情绪权重值驱动所述骨骼表情集，以生成所述面部骨骼的第二表情动画；

融合所述第一表情动画和第二表情动画，得到全脸表情动画。

可选地，对所述音频数据和/或文本数据进行特征提取，得到目标情绪权重值的，包括：

对所述音频数据和/或文本数据进行特征提取，得到第一情绪权重值；

获取文本标注数据，并对所述文本标注数据进行特征提取，得到标注情绪权重值；

将所述标注情绪权重值和第一情绪权重值进行融合处理，以得到目标情绪权重值。

可选地，所述第一表情动画为下半脸的表情动画，所述第二表情动画为上半脸的表情动画。

可选地，还包括：

将所述全脸表情动画绑定到所述面部骨骼上，以在所述面部骨骼上播放所述表情动画。

本发明实施例还公开了一种生成表情动画的装置，包括：

音频数据获取模块，用于获取音频数据和/或文本数据；

动画数据驱动模块，用于驱动所述音频数据和/或文本数据得到基于音素的面部动画数据；

动画数据转化模块，用于将所述基于音素的面部动画数据转化为预设标准的动画数据；

骨骼表情集获取模块，用于获取面部骨骼对应的骨骼表情集；

第一表情动画生成模块，用于根据所述预设标准的动画数据驱动所述骨骼表情集，以生成所述面部骨骼的第一表情动画。

本发明实施例还公开了一种电子设备，包括：

处理器和存储介质，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器执行所述机器可读指令，以执行如本发明实施例任一项所述的方法。

本发明实施例还公开了一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如本发明实施例任一项所述的方法。

本发明实施例包括以下优点：

在本发明实施例中，通过获取音频数据和/或文本数据；驱动所述音频数据和/或文本数据得到基于音素的面部动画数据；将所述基于音素的面部动画数据转化为预设标准的动画数据；获取面部骨骼对应的骨骼表情集；根据所述预设标准的动画数据驱动所述骨骼表情集，以生成所述面部骨骼的第一表情动画。使得通过将面部动画数据转化为预设标准的动画数据的方式，可以保证表情动画制作流程的通用性，兼容不同的面部数据来源，为后续面部动画数据解耦提供基础条件，而且将动画数据基于骨骼表情集驱动的方式，可以让动画数据和特定的面部骨架数据解耦，不同的骨骼输出同样的骨骼表情集，就能够完成动画的重定向，让动画数据和骨骼绑定数据相互独立迭代，有效提升的了表情动画制作的时间。

附图说明

为了更清楚地说明本发明的技术方案，下面将对本发明的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术中的一种语音驱动的AI引擎的表情生成的流程图；

图2是本发明实施例提供的一种生成表情动画的方法的步骤流程图；

图3是本发明实施例提供的一种二维映射表的示意图；

图4是本发明实施例提供的一种生成表情动画的流程图；

图5是本发明实施例提供的一种生成面部表情动画的步骤流程图；

图6是本发明实施例提供的一种FACS标准动画数据驱动不同骨架的表情集的流程图；

图7是本发明实施例提供的一种生成表情动画的装置的结构框图；

图8是本发明的一种电子设备的结构框图；

图9是本发明的一种计算机可读存储介质的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中，如图1所示，通过语音驱动的AI引擎的表情生成方案，通常包括以下几个步骤：(1)准备好音频和文本的数据对(部分方案可以音频和文本二选一即可)，导入AI引擎中进行分析；(2)从AI引擎中导出语音Phoneme音素相关的动画权重，并准备好对应表情Pose；(3)根据生成的动画权重，驱动对应的Phoneme表情基Pose，输出特定骨架的动画序列。

如上所述，现有的语音驱动的AI引擎的表情生成的方案，在AI处理部分的流程有较强的共通性，但是在后续的动画数据应用方式，动画制作流程上，缺乏一个扩展性强、通用性强、耦合度低的制作方案。总结概括为以下几个方面：

(1)动画数据不易标准化，且扩展性差：AI引擎从音频和文本中提取的只是基于Phoneme的权重动画数据，这个数据是与语音高度相关的，缺乏面部肌肉系统的参照，缺乏良好的面部解剖学依据，不容易标准化制作。当想融合面部捕捉等动画数据时，无法直接使用，因为面部捕捉动画数据通常是以面部肌肉系统为参照的动画数据。

(2)动画数据和骨骼数据未解耦：现有的表情动画制作流程，当更改了骨骼绑定数据后，动画数据需要重新更新输出，需要消耗额外的制作迭代时间，在制作效率上容易形成瓶颈。

(3)不便于动画数据重定向：由于游戏中通常使用运行效率更高的骨骼动画驱动方式，当想在两套不同的骨架之间进行面部口型动画重定向时，缺乏有效的重定向机制。

(4)缺乏上半脸表情动画的支持：基于语音驱动的AI引擎的表情动画生成，因为输入信息只有语音相关的，因此生成上半脸和语音无关的表情动画时，就缺乏足够的信息支持。

为解决上述基于AI语音驱动的通用表情动画制作方案会遇到的问题，本发明针对性的提出以下技术防范，技术原理如下：

(1)基于FACS(Facial Action Coding System，面部表情编码系统)来搭建标准化的面部数据记录方式。通过音素和FACS表情集之间的二维映射表，来实现FACS数据和音素数据之间的相互转换，从而可以让语音面部动画数据和面部捕捉动画数据之间无缝衔接。FACS是一套有成熟历史的标准表情编码方式，本发明以FACS作为数据的基础，其它类型的面部表情数据和它进行相应的转换，转换技术依赖于二维的映射转换表(查找表)。

(2)为了让面部动画数据和面部骨骼绑定数据完全解耦，引入了一个独立的FACS标准动画数据层，该动画数据与FACS标准的骨骼表情集Pose对应。当需要更新动画数据或者骨骼数据时，只要是遵循同一套FACS表情集，就能够在不同的FACS标准的骨骼Pose之间，基于FACS表情集进行转换。

(3)为了获取上半脸表情的动画权重，基于NLP(Natural Language Processing，自然语言处理)语义特征提取，来获取对应AI引擎输入文本的情感语义权重(例如，喜怒哀乐)，并且结合语音的重音强弱，来对提取出的情感语义权重进行后处理，对于需要人工进行干预的场景，可以结合人工数据标记文本情绪的方式，来获取自动以表情数据。在最终的数据融合上，将上下半脸拆分到对应的FACS控制参数，进行全面部的动画融合。

参照图2，示出了本发明实施例提供的一种生成表情动画的方法实施例的步骤流程图，具体可以包括如下步骤：

步骤201，获取音频数据和/或文本数据；

其中，音频数据指一些能够表现人物的情绪的音频，文本数据指一些能够表现人物的情绪的文本。例如，文本“今天天气真不错”能够表现出人物喜悦的情绪特征。

步骤202，驱动所述音频数据和/或文本数据得到基于音素的面部动画数据；

具体的，通过调用AI引擎接口对音频数据和/或文本数据进行语音驱动，得到基于音素的面部动画数据。其中，AI引擎是用于进行语音驱动的通用引擎，该AI引擎输出的是围绕音素的面部动画数据。其中，音素Phoneme是最小的语音单位，包含元音、辅音，例如，元音a/o/e等。

步骤203，将所述基于音素的面部动画数据转化为预设标准的动画数据；

由于基于音素的面部动画数据的记录方式，符合人物的语音直觉，但是不便于美术人员进行标准化的表情动画制作。在本发明实施例中，可以将基于音素的面部动画数据转换成预设标准的动画数据，例如，预设标准为FACS标准，则可以将面部动画数据转化为以FACS的方式来记录动画数据，一方面更加符合人的生物学特征，因为FACS是基于人脸肌肉的运动系统，各个AU(Action Unit，运动单元)之间互相独立，便于在各个运动单元之间的线性混合和插值；另一方面FACS能够很好适配面部捕捉生成的动画数据，已在多种数据来源之间进行融合。

步骤204，获取面部骨骼对应的骨骼表情集；

其中，面部骨骼对应的骨骼表情集可以为基于FACS标准的骨骼表情集，每种面部骨骼具有一一对应的骨骼表情集。其中，骨骼表情集可以由Viseme视素组成，Viseme是表情Pose视觉单位，同一个Viseme的表情视觉效果一致，不同的Viseme表情视觉效果不一致。

步骤205，根据所述预设标准的动画数据驱动所述骨骼表情集，以生成所述面部骨骼的第一表情动画。

在本发明实施例中，可以根据预设标准的动画数据驱动骨骼表情集，以生成面部骨骼的第一表情动画，即在驱动表情动画时，基于骨骼驱动的Pose来实现，基于骨骼驱动的Pose大部分情况下性能优于其他Pose方案，例如，很多游戏会采用基于融合变形动画的网格Pose来驱动，但是融合变形动画对运算性能的开销通常情况下更大，且美术资源的制作更为繁琐，资产的效率迭代更为低，所以本发明实例中没有采用以上思路，但是该流程方式完全兼容融合变形动画Pose的驱动方式。

在具体实现中，在三维建模软件工具(如，Maya软件)中先程序化的获得AI引擎进行语音驱动得到的基于音素的面部动画数据，经过上述对基于音素的面部动画数据的转化后，可以获得对应的骨骼Pose的动画数据，接着将预设标准的动画数据写入根骨骼的自定义数据段，以自定义数据的方式借助三维资产交换文件(如FBX格式)导出表情动画，这是有别于传统的基于骨骼数据导出的方式。需要说明的是，通过预设标准的将写入根骨骼的自定义数据段中进行驱动的方式，可以避免对根骨骼的原数据造成影响，而且方便技术人员对骨骼数据进行灵活调整，以调整在骨骼上生成的表情动画的表现效果。

在本发明的一种优选实施例中，所述预设标准的动画数据为FACS标准动画数据，所述步骤203具体可以包括如下子步骤：

依据预设的映射表，将所述基于音素的面部动画数据转化为所述FACS标准动画数据；其中，所述预设的映射表用于描述音素表情集与FACS表情集之间的映射关系。

其中，预设的映射表是预先设定的映射关系表，用于描述音素表情集与FACS表情集之间映射关系，该预设的映射表可以是一个二维的映射表，包含音素表情集和FACS表情集两个维度。

为了让AI引擎输出的音素和FACS之间能够方便的互相转换，设计了一个预设的映射表，由于音素和FACS运动单元之间不是一对一的关系，因此，该表被用于查找一个音素由哪些FACS运动单元影响，并以权重的方式记录下来。预设的映射表的实际存储方式可以采用CSV(Comma-Separated Values，字符分隔值文件)或JSON格式来记录皆可。由于FACS只是定义了一个基于面部运动的框架规范，具体选用哪些运动单元，可以根据实际项目的实施进行调整，例如，可以选用52个骨骼表情Pose，每个表情Pose都是单帧的面部表情骨骼数据或面部网格数据，如图3所示，音素表情集包含12个，骨骼表情集包含52个，其中，52个Pose由1个中性表情Pose(即AU0，面部骨骼初始绑定的Pose，AU(Action Unit)FACS的基础运动单元)和51个常用的FACS运动单元组成，包含jawForward下颌向前，jawLeft下颌向左，noseSneer_L左侧鼻翼抬升，noseSneer_R右侧鼻翼抬升等。

作为一种示例，预设的映射表如下表1所示，其中，表中的每一个FACS对应的各音素权重分量之和无需归一化处理。

表1

在本发明实施例中，通过查找预设的映射表，可以将基于音素的面部动画数据转化为FACS标准动画数据。

在本发明的一种优选实施例中，在步骤203之后，还可以包括如下：

在本发明实施例中，可以对转化得到的预设标准的动画数据进行后处理操作，以提高预设标准的动画数据的准确性，进而优化后续按照预设标准的动画数据进行确定生成的表情动画的表现效果。

其中，所述后处理操作包含以下至少一项：噪声平滑操作、时间同步校准操作和数据清洗操作。

在本发明的一种优选实施例中，所述方法还包括：

对所述音频数据和/或文本数据进行特征提取，得到目标情绪权重值；根据所述目标情绪权重值驱动所述骨骼表情集，以生成所述面部骨骼的第二表情动画；融合所述第一表情动画和第二表情动画，得到全脸表情动画。

具体的，上述步骤202中，通过驱动音频数据和/或文本数据得到基于音素的面部动画数据，该面部动画数据通常用于表现下半脸的动画效果，而对于上半脸表情的表现效果不佳，在本发明实施例中，引入了文本标注数据，以更好地表现人物全脸的表情动画效果。

在具体实现中，为了获取面部表情上半脸情绪动画的数据，借助NLP(Naturallanguage processing，自然语言处理)的情绪语义提取框架，先从文本中分析出情绪的倾向和权重，例如，文本“今天天气真不错”，分析得到正向的开心情绪权重70％，接着配合音频的重音和文本情绪的关键字，可以定位单个字粒度的，例如“真不错”的权重大于“今天天气”，在单个字词之间的权重，通过余弦插值等方式来平滑权重数据。

在通过特征提取得到目标情绪权重值之后，可以根据目标情绪权重值驱动骨骼表情集，以生成面部骨骼的第二表情动画，通过融合第一表情动画和第二表情动画可以得到全脸表情动画，其中，第一表情动画为下半脸的表情动画，第二表情动画为上半脸的表情动画。

在本发明的一种优选实施例中，对所述音频数据和/或文本数据进行特征提取，得到目标情绪权重值，包括：

获取文本标注数据，并对所述文本标注数据进行特征提取，得到标注情绪权重值；将所述标注情绪权重值和第一情绪权重值进行融合处理，以得到目标情绪权重值。

其中，文本标注数据指一些标注了人物的情绪的文本数据。在本发明实施例中，如果需要融合人工标记的情绪数据，可以在程序输出的情绪权重的基础上，融合对文本标注数据进行特征提取得到的标注情绪权重值和上述计算得到的第一情绪权重值，以得到最终所需要的目标情绪权重值。

在具体实现中，可以通过线性插值得方式，将标注情绪权重值和第一情绪权重值进行融合处理，获取最终的目标情绪权重。将融合后的目标情绪权重引用到对应的情绪FACS Pose上，可以生成上半脸对应的FACS表情动画，最后再融合到下半脸口型动画上，合成最终的全面部动画数据。如图4所示，通过对音频数据和文本数据进行NLP情感语义特征提取情绪权重值(喜、怒、哀、乐等)，以及通过表示文本情感特征的人工标注数据，与NLP情感语义特征提取的权重值进行融合，然后通过融合后的情绪权重值驱动对应的FACSPose，生成面部上半脸表情动画，将面部上半脸表情动画和面部下半脸表情动画融合可以得到面部全脸动画。

在本发明的一种优选实施例中，所述方法还包括：

在本发明实施例中，通过将全脸表情动画绑定到面部骨骼上，以在面部骨骼上播放表情动画。具体的，在游戏引擎中，可以解析三维资产交换文件(如FBX格式)导出的自定义的表情动画，并存储在游戏引擎中，用于绑定到不同的面部骨骼上，来播放面部表情动画。为了加速整个制作流程，本发明制作了一个三维建模软件(如Maya)中的自动执行脚本工具，该工具遵循本发明实施例上述的操作流程，用于自动的批量导出对应自定义面部表情动画数据，如图5所示，包括步骤501，通过调用AI引擎接口生成音素表情权重动画，缓存到本地；步骤502，执行音素到FACS的映射过程，生成基于FACS的表情动画数据；步骤503，对FACS表情动画数据进行后处理操作，例如噪声平滑、时间同步校准等；步骤504，将处理后FACS的表情动画数据写入根骨骼的自定义属性数据段；步骤505，以FBX文件交换格式导出到游戏引擎中。

在本发明实施例中，FACS标准动画数据和特定的面部骨架数据完全解耦，该FACS标准动画数据可以在多个骨骼中使用，在不同的骨骼中使用可以生成不同表现效果的表情动画，而且，在更改骨骼绑定数据后，FACS标准动画数据不需要重新更新输出，避免消耗额外的制作迭代时间，提高表情动画制作效率。如图6所示，假设有两个骨架，分别为面部骨架A和面部骨架B，其中，通过面部骨架A可以导出FACS表情集A，面部骨架B可以导出FACS表情集B，将FACS标准动画数据输入到FACS表情集A中进行驱动得到骨架A面部动画，将FACS标准动画数据输入到FACS表情集B中进行驱动得到骨架B面部动画。

通过上述的处理步骤，本发明实施例提出了一种通用性强、数据耦合度低、上下半脸分开处理的语音驱动表情的AI程序化的表情动画生成方案，可以作为游戏制作中，基于语音驱动AI表情制作通用制作流程，该方案包含以下优点：

(1)以FACS为标准的面部动画数据记录、转换方式，可以保证该制作流程的通用性，兼容不同的面部数据来源，为后续面部动画数据解耦提供基础条件。

(2)将动画数据基于骨骼Pose驱动方式，按照FACS标准写入到根骨骼的自定义数据段，可以让动画数据和特定的面部骨架数据解耦。不同的骨骼输出同样的FACS Pose集，就能够基于FACS完成动画的重定向，让动画数据和骨骼绑定数据相互独立迭代，有效提升的了动画制作的时间。

(3)在语音驱动擅长下半脸动画生成的基础上，提出了一个效率较高的基于NLP方式来自动提取文本的情感语义特征，并且融合音频的重音权重以及人工标记权重，适配多种制作方式，增强适用性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图7，示出了本发明实施例提供的一种生成表情动画的装置的结构框图，具体可以包括如下模块：

音频数据获取模块701，用于获取音频数据和/或文本数据；

动画数据驱动模块702，用于驱动所述音频数据和/或文本数据得到基于音素的面部动画数据；

动画数据转化模块703，用于将所述基于音素的面部动画数据转化为预设标准的动画数据；

骨骼表情集获取模块704，用于获取面部骨骼对应的骨骼表情集；

第一表情动画生成模块705，用于根据所述预设标准的动画数据驱动所述骨骼表情集，以生成所述面部骨骼的第一表情动画。

在本发明的一种优选实施例中，所述预设标准的动画数据为FACS标准动画数据，所述动画数据转化模块703，包括：

数据转化子模块，用于依据预设的映射表，将所述基于音素的面部动画数据转化为所述FACS标准动画数据；其中，所述预设的映射表用于描述音素表情集与FACS表情集之间映射关系。

在本发明的一种优选实施例中，还包括：

数据后处理模块，用于对所述预设标准的动画数据进行后处理操作，以提高所述预设标准的动画数据的准确性。

在本发明的一种优选实施例中，所述方法还包括：

特征权重提取模块，用于对所述音频数据和/或文本数据进行特征提取，得到目标情绪权重值；

第二表情动画生成模块，用于根据所述目标情绪权重值驱动所述骨骼表情集，以生成所述面部骨骼的第二表情动画；

表情动画融合模块，用于融合所述第一表情动画和第二表情动画，得到全脸表情动画。

在本发明的一种优选实施例中，特征权重提取模块，包括：

第一情绪权重值提取子模块，用于对所述音频数据和/或文本数据进行特征提取，得到第一情绪权重值；

标注情绪权重值提取子模块，用于获取文本标注数据，并对所述文本标注数据进行特征提取，得到标注情绪权重值；

权重值融合子模块，用于将所述标注情绪权重值和第一情绪权重值进行融合处理，亦得到目标情绪权重值。

在本发明的一种优选实施例中，所述第一表情动画为下半脸的表情动画，所述第二表情动画为上半脸的表情动画。

在本发明的一种优选实施例中，还包括：

表情动画播放模块，用于将所述全脸表情动画绑定到所述面部骨骼上，以在所述面部骨骼上播放所述表情动画。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，如图8所示，包括：

处理器801和存储介质802，所述存储介质802存储有所述处理器801可执行的机器可读指令，当电子设备运行时，所述处理器801执行所述机器可读指令，以执行如本发明实施例任一项所述的方法。具体实现方式和技术效果类似，这里不再赘述。

本发明实施例还提供了一种计算机可读存储介质，如图9所示，所述存储介质上存储有计算机程序901，所述计算机程序901被处理器运行时执行如本发明实施例任一项所述的方法。具体实现方式和技术效果类似，这里不再赘述。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种生成表情动画的方法和一种生成表情动画的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种生成表情动画的方法，其特征在于，包括：

获取音频数据和/或文本数据；

获取面部骨骼对应的骨骼表情集；

2.根据权利要求1所述的方法，其特征在于，所述预设标准的动画数据为FACS标准动画数据，所述将所述基于音素的面部动画数据转化为预设标准的动画数据，包括：

3.根据权利要求1所述的方法，其特征在于，在将所述基于音素的面部动画数据转化为标准动画数据的步骤之后，还包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，对所述音频数据和/或文本数据进行特征提取，得到目标情绪权重值，包括：

6.根据权利要求5所述的方法，其特征在于，所述第一表情动画为下半脸的表情动画，所述第二表情动画为上半脸的表情动画。

7.根据权利要求6所述的方法，其特征在于，还包括：

8.一种生成表情动画的装置，其特征在于，包括：

音频数据获取模块，用于获取音频数据和/或文本数据；

9.一种电子设备，其特征在于，包括：

处理器和存储介质，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器执行所述机器可读指令，以执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1-7任一项所述的方法。