CN114898019A

CN114898019A - 一种动画融合方法和装置

Info

Publication number: CN114898019A
Application number: CN202210119054.4A
Authority: CN
Inventors: 张振; 刘潇
Original assignee: Wuhan Lotus Cars Co Ltd
Current assignee: Wuhan Lotus Cars Co Ltd
Priority date: 2022-02-08
Filing date: 2022-02-08
Publication date: 2022-08-12

Abstract

本发明涉及了一种动画融合方法和装置，所述方法包括：获取预设文本内容对应的语音内容；确定语音内容对应的目标音素和目标音素对应的时间戳信息；根据目标音素和时间戳信息，确定语音内容对应的音素序列；获取音素序列对应的预设虚拟对象的表情动画序列和口型动画序列；基于时间戳信息，对音素序列、口型动画序列和表情动画序列进行融合，得到虚拟对象有表情地输出语音内容的面部动画。上述方案可将每个音素与表情、口型进行对应，从而实现复杂的口型效果，提高细节表现力；表情动画序列和口型动画序列基于面部捕捉设备采集得到，不需要人工绘制，降低了人工成本，并且实现了语音、口型、表情三者的融合。

Description

一种动画融合方法和装置

技术领域

本发明涉及计算机视觉领域，尤其涉及一种动画融合方法和装置。

背景技术

当前的数字人技术融合方案通常有两种方式：第一种是手动绘制动画的方式，将口型、表情相关的所有内容绘制成动画，然后调用相关的动作来融合成一个动画进行输出。第二种是语音音量驱动的方式，以音量的大小控制口型的张闭大小，使得口型能匹配语音。

上述这两种方式都存在一定的缺陷。手动绘制动画的方式，人工手动绘制口型和表情的成本极大，并且细节设计部分对动画设计师要求较高。语音音量驱动的方式，仅仅使用音量大小去控制口型形状变化的维度较低，没办法实现复杂的口型效果，细节表现力较弱。

并且，上述第一种方式仅将口型和表情进行融合，第二种方式仅将语音和口型进行融合，并不能实现语音、口型和表情三方面的融合。

因此，现有方法还存在人工成本较高、无法实现复杂的口型效果、细节表现力较弱、不能实现语音、口型和表情三方面融合的问题。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明第一方面提出一种动画融合方法，所述方法包括：

获取预设文本内容对应的语音内容；

确定所述语音内容对应的目标音素和所述目标音素对应的时间戳信息，所述目标音素为国际音标对应的音素；

根据所述目标音素和所述时间戳信息，确定所述语音内容对应的音素序列；

获取所述音素序列对应的预设虚拟对象的表情动画序列和口型动画序列；所述表情动画序列和所述口型动画序列中的表情动画和口型动画基于面部捕捉设备采集得到；

基于所述时间戳信息，对所述音素序列、所述口型动画序列和所述表情动画序列进行融合，得到所述虚拟对象有表情地输出所述语音内容的面部动画。

可选的，在获取预设文本内容对应的语音内容之前，还包括：

接收语音请求信息；

确定所述语音请求信息对应的文本回复内容，并将所述文本回复内容作为预设文本内容。

利用面部捕捉设备采集预设真实对象的各个情绪状态下的三维面部表情数据；

基于所述真实对象的三维面部特征，构建所述真实对象的三维面部网格模型；

获取所述三维面部网格各个区域对应的所述三维面部表情数据，得到网格表情数据；

根据所述真实对象和预设虚拟对象的面部骨骼点的对应关系，将所述网格表情数据绑定到所述虚拟对象的面部，得到在所述各个情绪状态下的所述虚拟对象的面部表情数据。

可选的，在得到在所述各个情绪状态下的所述虚拟对象的面部表情数据之后，还包括：

根据所述情绪状态的类别对所述虚拟对象的面部表情数据设置情绪标签，得到表情情绪标签。

可选的，所述获取所述音素序列对应的虚拟对象的表情动画序列，包括：

确定所述音素序列中各个音素对应的情绪，得到多个音素情绪；

从所述表情情绪标签中确定与所述音素情绪匹配的表情情绪标签，得到多个目标表情情绪标签；

获取所述目标表情情绪标签对应的虚拟对象的面部表情数据；

根据所述音素序列中各个音素对应的时间戳信息，确定所述虚拟对象的面部表情数据的时间戳信息；

根据所述虚拟对象的面部表情数据和所述虚拟对象的面部表情数据的时间戳信息，确定所述虚拟对象的表情动画序列。

获取国际音标下的音素集合，并获取所述音素集合中的各个音素对应的标准口型，得到标准口型集合；

利用面部捕捉设备采集所述真实对象模拟所述标准口型集合中的口型时的三维口型数据，得到真实对象的三维口型数据；

根据所述三维面部网格，确定所述真实对象的三维口型数据对应的网格口型数据；

根据所述真实对象和所述虚拟对象的口部骨骼点的对应关系，将所述网格口型数据绑定到所述虚拟对象的口部，得到各个音素对应的所述虚拟对象的三维口型数据；

为所述三维口型数据设置音素标签，得到音素口型标签。

可选的，所述获取所述音素序列对应的预设虚拟对象的口型动画序列，包括：

根据所述音素口型标签，确定与所述音素序列中的各个音素对应的所述虚拟对象的三维口型数据；

根据所述音素序列中各个音素对应的时间戳信息，确定所述虚拟对象的三维口型数据对应的时间戳信息；

根据所述虚拟对象的三维口型数据和所述虚拟对象的三维口型数据对应的时间戳信息，确定所述音素序列对应的所述虚拟对象的口型动画序列。

可选的，所述基于所述时间戳信息，对所述音素序列、所述口型动画序列和所述表情动画序列进行融合，包括：

基于所述时间戳信息，利用蒙太奇融合方法对所述音素序列、所述口型动画序列和所述表情动画序列进行融合。

可选的，所述基于所述时间戳信息，利用蒙太奇融合方法对所述音素序列、所述口型动画序列和所述表情动画序列进行融合，包括：

利用所述时间戳信息，将所述音素序列、所述口型动画序列和所述表情动画序列在时间上进行对齐处理；

根据所述对齐处理的结果，对所述音素序列、所述口型动画序列和所述表情动画序列进行融合处理，得到初始融合动画；

利用插值算法分别确定所述口型动画序列和所述表情动画序列中，相邻两个时间戳之间的画面帧，得到补充画面帧；

将所述补充画面帧插入所述初始融合动画中，得到所述虚拟对象有表情地输出所述语音内容的面部动画。

本发明第二方面提出一种动画融合装置，所述装置包括：

语音内容获取模块，用于获取预设文本内容对应的语音内容；

目标音素确定模块，用于确定所述语音内容对应的目标音素和所述目标音素对应的时间戳信息，所述目标音素为国际音标对应的音素；

音素序列确定模块，用于根据所述目标音素和所述时间戳信息，确定所述语音内容对应的音素序列；

表情口型序列获取模块，用于获取所述音素序列对应的预设虚拟对象的表情动画序列和口型动画序列；

融合模块，用于基于所述时间戳信息，对所述音素序列、所述口型动画序列和所述表情动画序列进行融合，得到所述虚拟对象有表情地输出所述语音内容的面部动画。

可选的，所述装置还包括：

请求信息接收模块，用于接收语音请求信息；

预设文本确定模块，用于确定所述语音请求信息对应的文本回复内容，并将所述文本回复内容作为预设文本内容。

可选的，所述装置还包括：

采集模块，用于利用面部捕捉设备采集预设真实对象的各个情绪状态下的三维面部表情数据；

构建模块，用于基于所述真实对象的三维面部特征，构建所述真实对象的三维面部网格模型；

网格表情数据获取模块，用于获取所述三维面部网格各个区域对应的所述三维面部表情数据，得到网格表情数据；

第一绑定模块，用于根据所述真实对象和预设虚拟对象的面部骨骼点的对应关系，将所述网格表情数据绑定到所述虚拟对象的面部，得到在所述各个情绪状态下的所述虚拟对象的面部表情数据。

可选的，所述装置还包括：

第一标签设备模块，用于根据所述情绪状态的类别对所述虚拟对象的面部表情数据设置情绪标签，得到表情情绪标签。

可选的，所述表情口型序列获取模块进一步用于：

可选的，所述装置还包括：

为所述三维口型数据设置音素标签，得到音素口型标签。

可选的，所述表情口型序列获取模块进一步用于：

可选的，所述融合模块进一步用于：

本发明第三方面提出一种电子设备，所述电子设备包括处理器和存储器，所述存储器种存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的动画融合方法。

本发明第四方面提出一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的动画融合方法。

本发明实施例具有以下有益效果：

在本发明实施例中，获取预设文本内容对应的语音内容；确定所述语音内容对应的目标音素和所述目标音素对应的时间戳信息，所述目标音素为国际音标对应的音素；根据所述目标音素和所述时间戳信息，确定所述语音内容对应的音素序列；获取所述音素序列对应的预设虚拟对象的表情动画序列和口型动画序列；所述表情动画序列和所述口型动画序列中的表情动画和口型动画基于面部捕捉设备采集得到；基于所述时间戳信息，对所述音素序列、所述口型动画序列和所述表情动画序列进行融合，得到所述虚拟对象有表情地输出所述语音内容的面部动画。在上述方案中，采用国际音标对应的音素，与表情和口型进行融合，可以将每个音素与表情、口型进行对应，从而实现复杂的口型效果，提高细节表现力；表情动画序列和口型动画序列基于面部捕捉设备采集得到，不需要人工绘制，降低了人工成本；基于时间戳信息，对音素序列、口型动画序列、表情动画序列进行融合，实现了语音、口型、表情三者的融合。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还能够根据这些附图获得其它附图。

图1为本发明实施例提供的第一种动画融合方法的步骤流程图；

图2为本发明实施例提供的一种表情情绪标签的获得方法的步骤流程图；

图3为本发明实施例提供的一种三维面部网格模型的示意图；

图4为本发明实施例提供的一种音素口型标签的获得方法的步骤流程图；

图5为本发明实施例提供的第二种动画融合方法的步骤流程图；

图6为本发明实施例提供的一种动画融合装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或无创造性的劳动可以包括更多或者更少的操作步骤。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

图1为本发明实施例提供的第一种动画融合方法的步骤流程图。该方法可以包括如下步骤：

步骤101、获取预设文本内容对应的语音内容。

本发明实施例可实现根据预设文本内容得到虚拟对象有表情的输出该预设文本内容对应的语音内容的面部动画。

首先获取预设文本内容，该预设文本内容可以是任意一段文本内容。然后根据文本转语音技术将该段文本内容转换为对应的语音内容。该语音内容可以是中文语音，也可以是英文语音、方言语音等其他类型的语音。

步骤102、确定所述语音内容对应的目标音素和所述目标音素对应的时间戳信息，所述目标音素为国际音标对应的音素。

国际音标，又称国际语音字母(International PhoneticAlphabet，IPA)，是用于为全世界所有语言注音的符号系统。国际音标遵循“一音一符，一符一音”的原则，国际音标共有107个单独字母，以及56个变音符号和超音段成分。

使用国际通用音素转换服务获取该段语音内容的国际音标的音素序列，该音素序列中的每一个目标音素均为国际音标对应的音素。

由于使用了国际音标，在混合语言的场景下都能将语言统一映射到国际音素的动画中，避免音素动画的不统一。

进一步的，为该音素序列中的每一个目标音素设置时间戳信息，例如，为第一个目标音素设置一个起始时间，其余目标音素的时间戳按照预设间隔时间依次向后推移。

步骤103、根据所述目标音素和所述时间戳信息，确定所述语音内容对应的音素序列。

音素序列即按照时间戳先后顺序排列的一个个目标音素，其中，每一个目标音素均对应有时间戳信息。

步骤104、获取所述音素序列对应的预设虚拟对象的表情动画序列和口型动画序列；所述表情动画序列和所述口型动画序列中的表情动画和口型动画基于面部捕捉设备采集得到。

对于音素序列中的每一个目标音素，均获取其对应的表情动画，得到表情动画序列，并且获取其对应的口型动画，得到口型动画序列。其中，表情动画序列中的每一个表情动画的时间戳、口型动画序列中每一个口型动画的时间戳，均与音素序列中的时间戳对应。

面部捕捉设置包括移动端的面部捕捉设备和桌面级的面部捕捉设备，具体可以是iphone XR等带有景深摄像头的装置。利用面部捕捉设备进行实时表情动作和口型动作的录制。当移动头部和说话时，面部捕捉设备可将面部数据应用于动画人物，实现在实时捕捉和录制捕捉两方面都确保尽可能高的数据精度，例如嘴部的微笑幅度、嘴巴的张开程度，以及摇头的幅度。

步骤105、基于所述时间戳信息，对所述音素序列、所述口型动画序列和所述表情动画序列进行融合，得到所述虚拟对象有表情地输出所述语音内容的面部动画。

按照时间戳顺序对音素序列、口型动画序列和表情动画序列进行融合，即一个时间戳，对应一个目标音素、一帧口型动画和一帧表情动画。

具体地，可以按照时间戳的顺序，利用虚幻引擎自带的蒙太奇融合方式对进行口型序列动画进行融合。虚幻引擎提供了一种直接通过蓝图控制动画资源的途径，使用动画蒙太奇将多个不同动画序列组合成一个资源。并且，在融合的时候带上表情动画序列。高级的抽象信息通过“表情融合”来呈现，融合变形搭配额外的变形，可以呈现头部微动，微笑着说话等有表情的输出语音内容的效果。

综上，在本发明实施例中，获取预设文本内容对应的语音内容；确定语音内容对应的目标音素和目标音素对应的时间戳信息，目标音素为国际音标对应的音素；根据目标音素和时间戳信息，确定语音内容对应的音素序列；获取音素序列对应的预设虚拟对象的表情动画序列和口型动画序列；表情动画序列和口型动画序列中的表情动画和口型动画基于面部捕捉设备采集得到；基于时间戳信息，对音素序列、口型动画序列和表情动画序列进行融合，得到虚拟对象有表情地输出语音内容的面部动画。在上述方案中，采用国际音标对应的音素，与表情和口型进行融合，可以将每个音素与表情、口型进行对应，从而实现复杂的口型效果，提高细节表现力；并且，表情动画序列和口型动画序列基于面部捕捉设备采集得到，不需要人工绘制，降低了人工成本；此外，基于时间戳信息，对音素序列、口型动画序列、表情动画序列进行融合，实现了语音、口型、表情三者的融合。

图2为本发明实施例提供的一种表情情绪标签的获得方法的步骤流程图。该方法可以包括如下步骤。

步骤201、利用面部捕捉设备采集预设真实对象的各个情绪状态下的三维面部表情数据。

预设真实对象可以是预先选定的真实的人类，各个情绪状态包括但不限于“微笑”、“自然”、“悲伤”、“狂喜”、“惆怅”等情绪，以及能够表达情绪的动作，例如“点头”、“摇头”等动作，面部表情数据包括面部和头部的表情动作。

利用面部捕捉设备录制上述情绪状态的表情动作，得到真实对象各个情绪状态下的三维表情数据。

步骤202、基于所述真实对象的三维面部特征，构建所述真实对象的三维面部网格模型。

可以采用深度图建模、立体视觉建模、运动视觉建模及基于三维面部特征的建模方法等建立三维面部网格模型。

图3为本发明实施例提供的一种三维面部网格模型的示意图。

具体地，基于三维面部特征的建模方法，首先选取通用模型和模型上一定量的特征点，然后提取输入人脸中对应的特征点坐标，最后对通用模型进行尺度和非特征点调整，可以得到真实对象的三维面部网格模型。

步骤203、获取所述三维面部网格各个区域对应的所述三维面部表情数据，得到网格表情数据。

在建立三维面部网格模型后，将步骤201中提取到的单个情绪状态下的三维表情数据映射到三维面部网格模型中，得到网格表情数据。其中，每个情绪状态对应一个网格表情数据，可以对网格表情数据设置情绪标签。

步骤204、根据所述真实对象和预设虚拟对象的面部骨骼点的对应关系，将所述网格表情数据绑定到所述虚拟对象的面部，得到在所述各个情绪状态下的所述虚拟对象的面部表情数据。

虚拟对象也称虚拟对象，是通过计算机图形学技术进行虚拟制作的类人形象，它具备人类的外观和行为模式。

获取虚拟对象和真实对象的面部骨骼点的对应关系，将真实对象的网格表情数据绑定到虚拟对象的面部，这样，可以得到各个情绪状态下的虚拟对象的面部表情数据。

步骤205、根据所述情绪状态的类别对所述虚拟对象的面部表情数据设置情绪标签，得到表情情绪标签。

将步骤203中设置的情绪标签与虚拟对象的面部表情数据对应，可以得到虚拟对象的表情情绪标签。

综上，在本发明实施例中，根据真实对象和虚拟对象的面部骨骼点的对应关系，将真实对象的网格表情数据绑定到虚拟对象的面部，得到在各个情绪状态下的所述虚拟对象的面部表情数据以及情绪标签，这样，可以基于真实对象实现对虚拟对象的头部动作、面部微表情的采集，可以大大缩短真实对象到虚拟对象的映射时间。

图4为本发明实施例提供的一种音素口型标签的获得方法的步骤流程图。该方法可以包括如下步骤。

步骤301、获取国际音标下的音素集合，并获取所述音素集合中的各个音素对应的标准口型，得到标准口型集合。

国际音标严格规定以“一音一符，一符一音”为原则，即“一个音素一个符号，一个符号一个音素”。具体地，可以参考微软认知服务下的国际音素标准得到音素集合。使用通用的国际音标的映射方案，将多语言统一使用国际音标的音素表达出来，

并且，获取各个音素对应的标准口型，得到标准口型集合。

步骤302、利用面部捕捉设备采集所述真实对象模拟所述标准口型集合中的口型时的三维口型数据，得到真实对象的三维口型数据。

采用面部捕捉设备采集真实对象发出音素集合中的各个音素时的口型，得到真实对象的三维口型数据。

步骤303、根据所述三维面部网格，确定所述真实对象的三维口型数据对应的网格口型数据。

利用三维面部网格模型，将步骤302中提取到的各个音素下的三维口型数据映射到三维面部网格模型中，得到网格口型数据。其中，每个音素对应一个网格口型数据，可以对网格口型数据设置音素标签。

步骤304、根据所述真实对象和所述虚拟对象的口部骨骼点的对应关系，将所述网格口型数据绑定到所述虚拟对象的口部，得到各个音素对应的所述虚拟对象的三维口型数据。

获取虚拟对象和真实对象的口部骨骼点的对应关系，将真实对象的网格口型数据绑定到虚拟对象的嘴部，这样，可以得到各个音素下的虚拟对象的三维口型数据。

步骤305、为所述三维口型数据设置音素标签，得到音素口型标签。

将步骤303中设置的音素标签与虚拟对象的三维口型数据对应，可以得到虚拟对象的音素口型标签。

其中，步骤301-步骤305可以与步骤201-步骤205同步执行，也可以错开执行，在步骤301-步骤305与步骤201-步骤205执行完成之后，可以执行步骤401-步骤413。

综上，在本发明实施例中，根据真实对象和虚拟对象的口部骨骼点的对应关系，将真实对象的三维口型数据绑定到虚拟对象的口部，得到各个音素对应的所述虚拟对象的三维口型数据以及音素口型标签，这样，可以基于真实对象实现对虚拟对象的音素口型数据的采集，可以大大缩短真实对象到虚拟对象的映射时间。

图5为本发明实施例提供的第二种动画融合方法的步骤流程图。该方法可以在步骤201-步骤205、步骤301-步骤305执行完成以后进行，可以包括如下步骤。

步骤401、接收语音请求信息。

在一些场景中，例如用户对着汽车智能座舱的屏幕发出语音请求，智能座舱的处理器接收用户的语音请求。

步骤402、确定所述语音请求信息对应的文本回复内容，并将所述文本回复内容作为预设文本内容。

处理器通过语音转文字系统将用户的声音转换为文字，然后用文字请求后台的问答系统来获取对应的文本回复内容，该文本回复内容即为预设文本内容。后续通过动画融合方法可以在屏幕上展现虚拟对象有表情的输出该预设文本内容的动画。

步骤403、获取预设文本内容对应的语音内容。

在本发明实施例中，步骤403可以参照步骤101，此处不再赘述。

步骤404、确定所述语音内容对应的目标音素和所述目标音素对应的时间戳信息，所述目标音素为国际音标对应的音素。

在本发明实施例中，步骤404可以参照步骤102，此处不再赘述。

步骤405、根据所述目标音素和所述时间戳信息，确定所述语音内容对应的音素序列。

在本发明实施例中，步骤405可以参照步骤103，此处不再赘述。

步骤406、确定所述音素序列中各个音素对应的情绪，得到多个音素情绪。

具体地，可以根据预设文本内容，确定整个文本内容的感情色彩，进而根据感情色彩确定文本内容的情绪。例如，悲伤、高兴、生气，或者，激动转悲伤、高兴转生气等。然后，将预设文本内容拆分成多个音素，将情绪匹配到各个音素上，得到多个音素情绪。

步骤407、从所述表情情绪标签中确定与所述音素情绪匹配的表情情绪标签，得到多个目标表情情绪标签。

在预先从步骤205中得到的表情情绪标签中，获取与音素情绪对应的表情情绪标签，得到与预设文本内容对应的目标表情情绪标签。

步骤408、获取所述目标表情情绪标签对应的虚拟对象的面部表情数据。

步骤205中得到的表情情绪标签与虚拟对象的面部表情数据对应，直接获取目标表情情绪标签对应的虚拟对象的面部表情数据即可。

步骤409、根据所述音素序列中各个音素对应的时间戳信息，确定所述虚拟对象的面部表情数据的时间戳信息。

音素序列中标记有各个音素对应的时间戳信息，将该时间戳信息映射到虚拟对象的每个面部表情数据上，得到虚拟对象的面部表情数据的时间戳信息。

步骤410、根据所述虚拟对象的面部表情数据和所述虚拟对象的面部表情数据的时间戳信息，确定所述虚拟对象的表情动画序列。

虚拟对象的表情动画序列中包括：虚拟对象的面部表情数据及其对应的时间戳信息。

步骤411、根据所述音素口型标签，确定与所述音素序列中的各个音素对应的所述虚拟对象的三维口型数据。

在步骤305中，预先得到了音素口型标签，即一个音素与一个口型数据对应，那么，根据步骤305中得到的音素口型标签，可以确定音素序列中的各个音素对应的口型数据，得到虚拟对象的三维口型数据。

步骤412、根据所述音素序列中各个音素对应的时间戳信息，确定所述虚拟对象的三维口型数据对应的时间戳信息。

音素序列中标记有各个音素对应的时间戳信息，将该时间戳信息映射到虚拟对象的每个三维口型数据上，得到虚拟对象的三维口型数据对应的时间戳信息。

步骤413、根据所述虚拟对象的三维口型数据和所述虚拟对象的三维口型数据对应的时间戳信息，确定所述音素序列对应的所述虚拟对象的口型动画序列。

虚拟对象的口型动画序列中包括：虚拟对象的三维口型数据及其对应的时间戳信息。

步骤414、基于所述时间戳信息，利用蒙太奇融合方法对所述音素序列、所述口型动画序列和所述表情动画序列进行融合。

可以按照时间戳的顺序，利用虚幻引擎自带的蒙太奇融合方式对进行口型序列动画进行融合。虚幻引擎提供了一种直接通过蓝图控制动画资源的途径，使用动画蒙太奇将多个不同动画序列组合成一个资源。并且，在融合的时候带上表情动画序列。高级的抽象信息通过“表情融合”来呈现，融合变形搭配额外的变形，可以呈现头部微动，微笑着说话等有表情的输出语音内容的效果。

在一种实施方式中，所述基于所述时间戳信息，利用蒙太奇融合方法对所述音素序列、所述口型动画序列和所述表情动画序列进行融合，包括以下步骤4141-步骤4144：

步骤4141、利用所述时间戳信息，将所述音素序列、所述口型动画序列和所述表情动画序列在时间上进行对齐处理；

步骤4142、根据所述对齐处理的结果，对所述音素序列、所述口型动画序列和所述表情动画序列进行融合处理，得到初始融合动画；

步骤4143、利用插值算法分别确定所述口型动画序列和所述表情动画序列中，相邻两个时间戳之间的画面帧，得到补充画面帧；

步骤4144、将所述补充画面帧插入所述初始融合动画中，得到所述虚拟对象有表情地输出所述语音内容的面部动画。

在步骤4141-步骤4144中，首先将时间戳相同的音素、口型动画和表情动画进行对齐处理，并且进行融合，得到初始融合动画。考虑到两个时间戳之间的画面帧的光滑连续问题，利用差值算法确定两个时间戳之间的画面帧，得到补充画面帧。最终，将补充画面帧插入初始融合动画中，得到连续的融合动画。处理器在屏幕上播放该连续的融合动画，即得到虚拟对象有表情地输出语音内容的面部动画。采用这种方式得到的面部动画表现的更加自然，保证了虚拟对象在说话的时候表情、口型的连贯和顺滑。

此外，本发明使用的面部捕捉技术进行表情和口型融合的方案不限于虚拟对象的面部方向，使用采集之后的数据可以进行任意形态骨骼的绑定和映射，进行更多虚拟形象的内容表达，可以拓展到全身的动作捕捉技术，全身动画结合表情融合渲染，可以制作出具有全身肢体表达的虚拟对象形象，通用性较高。

综上，根据用户的语音请求获取答复内容的预设文本信息，通过动画融合方法可以在屏幕上展现虚拟对象有表情的输出该预设文本内容的动画，达到了口型、面部表情和语音进行匹配的目的；并且，利用蒙太奇融合和插值算法，使得面部动画表现的更加自然，保证了虚拟对象在说话的时候表情、口型的连贯和顺滑。

图6为本发明实施例提供的一种动画融合装置的结构框图。该动画融合装置500包括：

语音内容获取模块501，用于获取预设文本内容对应的语音内容；

目标音素确定模块502，用于确定所述语音内容对应的目标音素和所述目标音素对应的时间戳信息，所述目标音素为国际音标对应的音素；

音素序列确定模块503，用于根据所述目标音素和所述时间戳信息，确定所述语音内容对应的音素序列；

表情口型序列获取模块504，用于获取所述音素序列对应的预设虚拟对象的表情动画序列和口型动画序列；

融合模块505，用于基于所述时间戳信息，对所述音素序列、所述口型动画序列和所述表情动画序列进行融合，得到所述虚拟对象有表情地输出所述语音内容的面部动画。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明提供的又一实施例中，还提供了一种设备，所述设备包括处理器和存储器，所述存储器种存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现本发明实施例中所述的动画融合方法。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现本发明实施例中所述的动画融合方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种动画融合方法，其特征在于，所述方法包括：

获取预设文本内容对应的语音内容；

2.根据权利要求1所述的方法，其特征在于，在获取预设文本内容对应的语音内容之前，还包括：

接收语音请求信息；

3.根据权利要求1所述的方法，其特征在于，在获取预设文本内容对应的语音内容之前，还包括：

4.根据权利要求3所述的方法，其特征在于，在得到在所述各个情绪状态下的所述虚拟对象的面部表情数据之后，还包括：

5.根据权利要求4所述的方法，其特征在于，所述获取所述音素序列对应的虚拟对象的表情动画序列，包括：

6.根据权利要求3所述的方法，其特征在于，在获取预设文本内容对应的语音内容之前，还包括：

为所述三维口型数据设置音素标签，得到音素口型标签。

7.根据权利要求6所述的方法，其特征在于，所述获取所述音素序列对应的预设虚拟对象的口型动画序列，包括：

8.根据权利要求1所述的方法，其特征在于，所述基于所述时间戳信息，对所述音素序列、所述口型动画序列和所述表情动画序列进行融合，包括：

9.根据权利要求8所述的方法，其特征在于，所述基于所述时间戳信息，利用蒙太奇融合方法对所述音素序列、所述口型动画序列和所述表情动画序列进行融合，包括：

10.一种动画融合装置，其特征在于，所述装置包括：

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

请求信息接收模块，用于接收语音请求信息；

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

14.根据权利要求13所述的装置，其特征在于，所述表情口型序列获取模块进一步用于：

15.根据权利要求12所述的装置，其特征在于，所述装置还包括：

为所述三维口型数据设置音素标签，得到音素口型标签。

16.根据权利要求15所述的装置，其特征在于，所述表情口型序列获取模块进一步用于：

17.根据权利要求10所述的装置，其特征在于，所述融合模块进一步用于：

18.根据权利要求17所述的装置，其特征在于，所述融合模块进一步用于：

19.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器种存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-9任一项所述的动画融合方法。

20.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-9任一项所述的动画融合方法。