CN114037786A

CN114037786A - 卡通动画的生成方法、设备及存储介质

Info

Publication number: CN114037786A
Application number: CN202111216157.4A
Authority: CN
Inventors: 潘健雄; 黄明杨; 马菲莹; 谢宣松
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2022-02-11

Abstract

本发明实施例提供了一种卡通动画的生成方法、设备及存储介质。卡通动画的生成方法包括：获取卡通图像和用于生成卡通动画的控制信号；对卡通图像进行关键点标注，获得标注图像；基于标注图像和控制信号，生成图像序列，图像序列包括多个关键点图像，任意两个关键点图像各自对应的关键点特征不同；基于图像序列和控制信号，生成卡通动画。本实施例提供的技术方案，有效地实现了可以自动地基于卡通图像生成卡通动画，这样不仅降低了卡通动画制作的门槛，减小了制作动画的成本，提升了动画制作效率，同时保证了卡通动画的生动灵活性，能够满足不同用户的卡通动画制作需求，面对时刻变化的市场需求，也可以快速满足，进一步保证了该生成方法的实用性。

Description

卡通动画的生成方法、设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种卡通动画的生成方法、设备及存储介质。

背景技术

随着用户对互动直播等需求的兴起，短视频生成技术随之进入大众视野，比如换脸直播、虚拟主播等，尤其是虚拟主播技术，大大节省了用户制作视频的时间。常见的虚拟主播主要分为两种形式：(1)基于真人形象的直播视频，常见于新闻播报、产品讲解等场景。(2)基于3D形象的直播视频，常见于在线教育、互动娱乐等场景。然而，对于真人形象，很容易涉及到用户数据安全的问题，而在生成3D形象的视频信息时，则存在3D形象制作成本较高的问题。

发明内容

本发明实施例提供了一种卡通动画的生成方法、设备及存储介质，不仅降低了卡通动画制作的门槛，提升了动画制作的效率，能够满足不同用户的卡通动画制作需求。

第一方面，本发明实施例提供一种卡通动画的生成方法，包括：

获取卡通图像和用于生成卡通动画的控制信号；

对所述卡通图像进行关键点标注，获得标注图像；

基于所述标注图像和控制信号，生成图像序列，所述图像序列包括多个关键点图像，任意两个关键点图像各自对应的关键点特征不同；

基于所述图像序列和所述控制信号，生成卡通动画。

第二方面，本发明实施例提供一种卡通动画生成装置，包括：

第一获取模块，用于获取卡通图像和用于生成卡通动画的控制信号；

第一标注模块，用于对所述卡通图像进行关键点标注，获得标注图像；

第一生成模块，用于基于所述标注图像和控制信号，生成图像序列，所述图像序列包括多个关键点图像，任意两个关键点图像各自对应的关键点特征不同；

第一处理模块，用于基于所述图像序列和所述控制信号，生成卡通动画。

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第一方面中的卡通动画的生成方法。

第四方面，本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第一方面中的卡通动画的生成方法。

第五方面，本发明实施例提供了一种计算机程序产品，包括：计算机程序，当所述计算机程序被电子设备的处理器执行时，使所述处理器执行上述第一方面所示的卡通动画的生成方法中的步骤。

第六方面，本发明实施例提供了一种卡通动画的生成方法，包括：

响应于卡通动画生成请求，确定卡通动画生成服务对应的处理资源；

利用所述处理资源执行如下步骤：获取卡通图像和用于生成卡通动画的控制信号；对所述卡通图像进行关键点标注，获得标注图像；基于所述标注图像和控制信号，生成图像序列，所述图像序列包括多个关键点图像，任意两个关键点图像各自对应的关键点特征不同；基于所述图像序列和所述控制信号，生成卡通动画。

第七方面，本发明实施例提供了一种卡通动画生成装置，包括：

第二确定模块，用于响应于卡通动画生成请求，确定卡通动画生成服务对应的处理资源；

第二处理模块，用于利用所述处理资源执行如下步骤：获取卡通图像和用于生成卡通动画的控制信号；对所述卡通图像进行关键点标注，获得标注图像；基于所述标注图像和控制信号，生成图像序列，所述图像序列包括多个关键点图像，任意两个关键点图像各自对应的关键点特征不同；基于所述图像序列和所述控制信号，生成卡通动画。

第八方面，本发明实施例提供一种电子设备，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第六方面中的卡通动画的生成方法。

第九方面，本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第六方面中的卡通动画的生成方法。

第十方面，本发明实施例提供了一种计算机程序产品，包括：计算机程序，当所述计算机程序被电子设备的处理器执行时，使所述处理器执行上述第六方面所示的卡通动画的生成方法中的步骤。

本实施例提供的技术方案，通过获取卡通图像和用于生成卡通动画的控制信号，对所述卡通图像进行关键点标注，获得标注图像，而后基于所述标注图像和控制信号生成图像序列，并基于所述图像序列和所述控制信号生成卡通动画，从而有效地实现了可以自动地基于卡通图像生成卡通动画，这样不仅降低了卡通动画制作的门槛，减小了制作动画的成本，提升了动画制作效率，同时保证了卡通动画的生动灵活性，能够满足不同用户的卡通动画制作需求，面对时刻变化的市场需求，也可以快速满足，进一步保证了该生成方法的实用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种卡通动画的生成方法的场景示意图；

图2为本发明实施例提供的一种卡通动画的生成方法的流程示意图；

图3为本发明实施例提供的基于所述标注图像和控制信号，生成图像序列的流程示意图；

图4为本发明实施例提供的与所述控制信号相对应的信号特征的示意图；

图5为本发明实施例提供的基于所述标注图像和控制信号，生成图像序列的流程示意图；

图6为本发明实施例提供的另一种卡通动画的生成方法的流程示意图；

图7为本发明实施例提供的又一种卡通动画的生成方法的流程示意图；

图8为本发明实施例提供的另一种卡通动画的生成方法的流程示意图；

图9为本发明实施例提供的又一种卡通动画的生成方法的流程示意图；

图10为本发明应用实施例提供的一种卡通动画的生成方法的原理示意图；

图11为本发明应用实施例提供的生成相应的2D关键点动画序列的示意图；

图12为本发明应用实施例提供的对卡通人脸图像进行网格变形的示意图；

图13为本发明实施例提供的一种卡通动画的生成方法的流程示意图；

图14为本发明实施例提供的一种卡通动画生成装置的结构示意图；

图15为与图14所示实施例提供的卡通动画生成装置对应的电子设备的结构示意图；

图16为本发明实施例提供的另一种卡通动画生成装置的结构示意图；

图17为与图16所示实施例提供的卡通动画生成装置对应的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

在互动教育、消费娱乐等领域，客户存在海量的视频制作需求，这其中就包含卡通动画视频的制作需求。基于上述需求，本实施例提供了一种卡通动画的生成方法、设备及存储介质，其中，卡通动画的生成方法的执行主体为卡通动画生成装置，该卡通动画生成装置通信连接有客户端/请求端，参考附图1所示：

其中，客户端可以是任何具有一定数据传输能力的计算设备，具体实现时，客户端可以是手动、平板电脑、设定应用程序等等。此外，客户端的基本结构可以包括：至少一个处理器。处理器的数量取决于客户端的配置和类型。客户端也可以包括存储器，该存储器可以为易失性的，例如RAM，也可以为非易失性的，例如只读存储器(Read-Only Memory，简称ROM)、闪存等，或者也可以同时包括两种类型。存储器内通常存储有操作系统(OperatingSystem，简称OS)、一个或多个应用程序，也可以存储有程序数据等。除了处理单元和存储器之外，客户端还包括一些基本配置，例如网卡芯片、IO总线、显示组件以及一些外围设备等。可选地，一些外围设备可以包括，例如键盘、鼠标、输入笔、打印机等。其它外围设备在本领域中是众所周知的，在此不做赘述。

卡通动画的生成装置是指可以在网络虚拟环境中提供卡通动画生成服务的设备，通常是指利用网络进行信息规划、卡通动画生成操作的装置。在物理实现上，卡通动画生成装置可以是任何能够提供计算服务，响应服务请求，并进行处理的设备，例如：可以是集群服务器、常规服务器、云服务器、云主机、虚拟中心等。卡通动画生成装置的构成主要包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类似。

在上述本实施例中，客户端可以与卡通动画的生成装置进行网络连接，该网络连接可以是无线或有线网络连接。若客户端与卡通动画的生成装置是通信连接，该移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax、5G等中的任意一种。

在本申请实施例中，客户端可以获取用于生成卡通动画的相关信息，具体的，可以基于用户输入的执行操作获取卡通图像和用于生成卡通动画的控制信号，卡通图像用于生成卡通动画的显示对象，例如：卡通图像是一个人物图像时，则所生成的卡通动画中的显示对象为一个人物；在卡通图像是一个动物图像时，则所生成的卡通动画中的显示对象为一个动物。另外，控制信号可以包括以下至少之一：文本信息、音频信息等等；在卡通图像和用于生成卡通动画的控制信号之后，可以将卡通图像和控制信号发送至卡通动画的生成装置，以使得卡通动画的生成装置可以获取到卡通图像和控制信号，并对卡通图像和控制信号进行分析处理。

卡通动画的生成装置，用于获取卡通图像和用于生成卡通动画的控制信号；而后对卡通图像进行关键点标注，从而可以获得标注图像；在获取到标注图像之后，可以基于标注图像和控制信号来生成图像序列，该图像序列中包括多个关键点图像，且任意两个关键点图像各自对应的关键点特征不同，而后可以基于图像序列和控制信号，生成卡通动画。

本实施例提供的技术方案，通过对所获得的卡通图像进行关键点标注，获得标注图像；在获取到标注图像之后，基于标注图像和所获得的控制信号来生成图像序列，该图像序列中包括多个关键点图像，且任意两个关键点图像各自对应的关键点特征不同，而后可以基于图像序列和控制信号生成卡通动画，这样不仅降低了卡通动画制作的门槛，减小了制作动画的成本，提升了动画制作的效率，同时由于自动化程度高，能够满足不同用户的卡通动画制作需求，面对时刻变化的市场需求，也可以快速满足，进而提高了该卡通动画的生成方法的实用性。

下面结合附图，对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

图2为本发明实施例提供的一种卡通动画的生成方法的流程示意图；参考附图2所示，本实施例提供了一种卡通动画的生成方法，该方法的执行主体可以为卡通动画生成装置，该卡通动画生成装置可以实现为软件、或者软件和硬件的组合，具体的，该卡通动画的生成方法可以包括以下步骤：

步骤S201：获取卡通图像和用于生成卡通动画的控制信号。

步骤S202：对卡通图像进行关键点标注，获得标注图像。

步骤S203：基于标注图像和控制信号，生成图像序列，图像序列包括多个关键点图像，任意两个关键点图像各自对应的关键点特征不同。

步骤S204：基于图像序列和控制信号，生成卡通动画。

下面对上述各个步骤进行详细说明：

步骤S201：获取卡通图像和用于生成卡通动画的控制信号。

其中，卡通图像可以是指寻求趣味性、色彩明快、造型生动能够吸引大众关注的图像，其包括卡通人物的图像、卡通动物的图像、卡通植物的图像、卡通建筑物的图像、卡通交通工具的图像等等，另外，卡通图像可以是静态的二维图像。上述的卡通图像用于生成卡通动画中的显示对象，例如：卡通图像是一个卡通人物的图像时，则所生成的卡通动画中的显示对象为一个卡通人物；在卡通图像是一个卡通动物的图像时，则所生成的卡通动画中的显示对象为一个卡通动物。用于生成卡通动画的控制信号可以包括以下至少之一：文本信息、音频信息，该控制信号用于限定或者生成卡通动画中所包括的语音信息。

此外，本实施例对于获取卡通图像和用于生成卡通动画的控制信号的具体实现方式不做限定，本领域技术人员可以根据具体的应用场景或者设计需求进行设置，在一些实例中，获取卡通图像和用于生成卡通动画的控制信号可以包括：先获取卡通图像，而后获取用于生成卡通动画的控制信号；具体的，卡通图像可以是存储在预设区域中的图像，或者，也可以是用户直接输入的图像。在又一些实例中，获取卡通图像和用于生成卡通动画的控制信号可以包括：先获取用于生成卡通动画的控制信号，而后获取卡通图像；或者，也可以同时获取卡通图像和用于生成卡通动画的控制信号。

步骤S202：对卡通图像进行关键点标注，获得标注图像。

卡通图像可以是静止图像，为了能够提高所生成卡通动画的生动灵活性，在获取到卡通图像之后，可以对卡通图像进行关键点标注，以获得标注图像。在一些实例中，对卡通图像进行关节点标注可以包括：对卡通图像进行二维脸部关键点标注，以获取到标注图像，其中，二维脸部关键点可以是指用于识别卡通图像中的脸部特征定位的关键点和用于描述脸部的各个部位和轮廓特征。

举例来说，在卡通图像为卡通人物的图像时，则可以对卡通人物图像进行二维人脸关键点标注，从而可以获得标注图像，该标注图像中包括人脸的五官关键点和轮廓关键点。在卡图图像为卡通动物的图像时，则可以对卡通动物图像进行二维动物面部关键点标注，从而可以获得标注图像，该标注图像中包括动物面部的各个部位的关键点和轮廓关键点。在卡通图像为卡通植物的图像、卡通建筑物的图像、卡通交通工具的图像时，由于上述卡通图像中并不包括传统的面部特征和轮廓特征，此时，则可以对卡通图像的虚拟面部特征进行标注，虚拟面部特征可以包括：虚拟眼睛特征、虚拟嘴巴特征、虚拟鼻子特征、虚拟眉毛特征以及虚拟耳朵特征等等，从而实现了对卡通图像进行关键点标注，获得标注图像。

在一些实例中，对卡通图像进行关键点标注，获得标注图像可以包括：获取用户对卡通图像所输入的关键点标注操作，基于关键点标注操作对卡通图像进行关键点标注操作，从而实现了基于人为的标注操作获得标注图像。在另一些实例中，对卡通图像进行关键点标注，获得标注图像可以包括：获取用于对卡通图像进行标注操作的深度学习模型，将卡通图像输入至深度学习模型中，利用深度学习模型对卡通图像进行关键点标注操作，从而可以获得深度学习模型所输出的标注图像。需要注意的是，基于人为的标注操作所获得标注图像的标注质量和准确率高于基于深度学习模型所获得标注图像的标注质量和准确率。

当然的，本领域技术人员也可以采用其他的方式来实现对卡通图像的关键点标注操作，只要能够准确地对卡通图像进行关键点标注操作，获得标注图像即可，例如：获取预先标注好的标准卡通图像，利用标注卡通图像对所获得的卡通图像进行关键点标注操作，从而获取到标注图像。

在获取到标注图像之后，可以对标注图像和控制信号进行分析处理，以生成图像序列，该图像序列中包括多个关键点图像，且任意两个关键点图像各自对应的关键点特征不同。

举例来说，在卡通图像为卡通人物的图像时，所生成的图像序列中包括多个关键点图像，即图像序列是由多个二维人脸关键点图像所组成的连续帧，任意两个关键点图像中卡通人物的脸部关键点特征不同，例如：卡通人物的嘴巴关键点特征不同，或者，卡通人物的眼睛关键点特征不同，或者，卡通人物的眉毛关键点特征不同等等，当基于包括有多个关键点图像的图像序列生成卡通动画时，卡通动画中的卡通人物可以具有生动的面部表情。在卡通图像为卡通车辆的图像时，所生成的图像序列中包括多个关键点图像，任意两个关键点图像中卡通车辆的虚拟脸部关键点特征不同，例如：卡通车辆的虚拟嘴巴关键点特征不同，或者，卡通车辆的虚拟眼睛关键点特征不同，或者，卡通车辆的虚拟眉毛关键点特征不同等等，当基于包括有多个关键点图像的图像序列生成卡通动画时，卡通动画中的卡通车辆可以具有生动的面部表情。

在一些实例中，基于标注图像和控制信号，生成图像序列可以包括：获取用于对标注图像和控制信号进行分析处理的规则信息，基于规则信息对标注图像和控制信号进行分析处理，以生成图像序列。在另一些实例中，基于标注图像和控制信号，生成图像序列可以包括：获取用于生成图像序列的机器学习模型，将标注图像和控制信号输入至机器学习模型，从而可以获取到所生成的图像序列。

在又一些实例中，在控制信号包括文本信息时，本实施例中的基于标注图像和控制信号，生成图像序列可以包括：将文本信息转换为语音信息；基于标注图像和语音信息，生成图像序列。

具体的，在控制信号包括文本信息时，为了能够保证对图像序列进行生成的质量和效率，可以将文本信息转换为语音信息，而后可以对标注图像和语音信息进行分析处理，以生成图像序列。当控制信号包括多个文本信息时，则可以按照预设算法或者预设规则对多个文本信息进行合成处理，获得合成后文本，而后将合成后文本转换为语音信息，并基于标注图像和语音信息来生成图像序列。

步骤S204：基于图像序列和控制信号，生成卡通动画。

在获取到图像序列之后，可以对图像序列和控制信号进行分析处理，以生成卡通动画，卡通动画中包括卡通图像所对应的卡通形象和与控制信号相对应的音频信息，需要注意的是，卡通动画的卡通形象的面部表情可以随着控制信号所对应的音频信息的变化而发生变化。在一些实例中，预先配置用于对图像序列和控制信号进行分析处理的预设规则，利用预设规则对图像序列和控制信号进行分析处理，以生成卡通动画。在另一些实例中，预先训练有用于对图像序列和控制信号进行分析处理的深度学习模型，将所获得的图像序列和控制信号输入至深度学习模型，从而可以获得由深度学习模型所输出的卡通动画。

本实施例提供的卡通动画的生成方法，通过获取卡通图像和用于生成卡通动画的控制信号，对卡通图像进行关键点标注，获得标注图像，而后基于标注图像和控制信号生成图像序列，并基于图像序列和控制信号生成卡通动画，从而有效地实现了可以自动地基于卡通图像生成卡通动画，这样不仅降低了卡通动画制作的门槛，减小了制作动画的成本，提升了动画制作效率，同时保证了卡通动画的生动灵活性，能够满足不同用户的卡通动画制作需求，面对时刻变化的市场需求，也可以快速满足，进一步保证了该生成方法的实用性。

图3为本发明实施例提供的基于标注图像和控制信号，生成图像序列的流程示意图；参考附图3所示，本实施例提供了一种基于标注图像和控制信号，生成图像序列的实现方式，具体包括：

步骤S301：获取与控制信号相对应的信号特征，信号特征包括：用于生成卡通动画的帧数和每一帧信号所对应的向量长度。

在获取到控制信号之后，可以对控制信号进行分析处理，以获取与控制信号相对应的信号特征，该信号特征包括用于生成卡通动画的帧数和每一帧信息所对应的向量长度，具体的，参考附图4所示，在对控制信号进行分析处理时，则获取到与控制信号相对应的信号特征，该信号特征可以包括用于生成卡通动画的帧数(9帧)，每一帧信号所对应的向量长度可以为256。当然的，每一帧信号所对应的向量长度可以不仅为256，还可以为其他长度数值，例如：128或者512等等。

在一些实例中，获取与控制信号相对应的信号特征可以包括：获取用于对控制信号进行特征提取操作的特征提取算法/机器学习模型，利用特征提取算法/机器学习模型对控制信号进行分析处理，以获取与控制信号相对应的信号特征，其中，在利用机器学习模型对控制信号进行分析处理时，机器学习模型可以是由长短期记忆网络(Long Short-TermMemory，简称LSTM)和多层感知机及其BP算法(Multi-Layer Perception，简称MLP)组成的网络模型。

在又一些实例中，获取与控制信号相对应的信号特征可以包括：获取与控制信号相对应的时长信息；确定用于生成卡通动画的视频帧率；基于时长信息和视频帧率对控制信号进行特征提取操作，获得与控制信号相对应的信号特征。

具体的，在获取到控制信号之后，可以对控制信号进行分析处理，以获取与控制信号相对应的时长信息。举例来说，在控制信号是文本信息时，则可以利用文本转语音算法将文本信息转换为音信信息，而后对音频信息进行分析处理，以获取与音频信息相对应的时长信息。在控制信号为音频信息时，则可以直接对音频信息进行分析处理，以获取与音频信息相对应的时长信息。

此外，为了能够准确地获取到与控制信号相对应的信号特征，则可以确定用于生成卡通动画的视频帧率，该视频帧率可以是预先配置好用于对所生成的卡通动画的帧率信息。在获取到时长信息和视频帧率之后，可以基于时长信息和视频帧率对控制信号进行特征提取操作，从而可以准确、有效地获取到与控制信号相对应的信号特征。

步骤S302：对标注图像进行三角剖分处理，获得剖分后图像。

具体的，为了能够获取到包括有多个关键点特征不同的关键点图像的图像序列，在一些实例中，在获取到标注图像之后，可以Delaunay三角剖分算法对标注图像进行三角剖分处理，从而可以获取到剖分后图像。在另一些实例中，在获取到标注图像之后，可以将标注图像输入至用于对图像进行三角剖分处理的机器学习模型，从而可以获得机器学习模型所输出的剖分后图像。

步骤S303：基于信号特征和剖分后图像，生成图像序列。

在获取到信号特征和剖分后图像之后，可以对信号特征和剖分后图像进行分析处理，以生成图像序列，该图像序列中包括多个关键点特征不同的关键点图像。在一些实例中，基于信号特征和剖分后图像，生成图像序列可以包括：获取用于生成图像序列的规则信息，利用规则信息对信号特征和剖分后图像进行分析处理，以生成图像序列。在另一些实例中，基于信号特征和剖分后图像，生成图像序列可以包括：获取用于生成图像序列的网络模型，将信号特征和剖分后图像输入至网络模型，从而可以生成图像序列。

本实施例中，通过获取与控制信号相对应的信号特征，对标注图像进行三角剖分处理，获得剖分后图像，而后基于信号特征和剖分后图像生成图像序列，从而有效地保证了对图像序列进行获取的准确可靠性，进一步提高了对卡通动画进行生成的质量和效果。

图5为本发明实施例提供的基于标注图像和控制信号，生成图像序列的流程示意图；参考附图5所示，在控制信号包括文本信息和音频信息时，本实施例提供了一种生成图像序列的实现方式，具体的，本实施例中的基于标注图像和控制信号，生成图像序列可以包括：

步骤S501：将文本信息转换为第一语音信号。

在控制信号包括文本信息和音频信息时，由于文本信息和音频信息的数据格式不同，为了能够保证图像序列生成的质量和效率，则可以先将文本信息转换为第一语音信息，该第一语音信息中包括与文本信息相对应的语音内容，其中，第一语音信息所对应的音色信息可以是预先配置的默认音色、或者也可以是用户输入的音色信息、或者也可以是自动生成的音色信息。

步骤S502：基于第一语音信号和音频信息，确定第二语音信号。

在将文本信息转换为第一语音信号之后，可以对第一语音信号和音频信息进行分析处理，以生成第二语音信号，由于第一语音信号和音频信息是两个不同的语音信号，因此，基于第一语音信号和音频信息，确定第二语音信号可以包括：将第一语音信号或者音频信号，确定为第二语音信号，此时，有效地实现了可以将文本信息所对应的第一语音信号或者将直接输入的音频信号确定为第二语音信号，此时，第二语音信号所对应的音色信息可以是预先配置的默认音色、或者也可以是用户输入的音色信息、或者也可以是自动生成的音色信息。

或者，基于第一语音信号和音频信息，确定第二语音信号还可以包括：获取与第一语音信号和音频信息相对应的信号排序信息，基于信号排序信息对第一语音信号和音频信息进行排序，获得第二语音信号。具体的，第二语音信号可以包括第一语音信号和位于第一语音信号之后的音频信息，或者，音频信号包括音频信息和位于音频信息之后的第一语音信号，此时的第二语音信号包括与文本信息相对应的语音内容、与音频信息相对应的语音内容，第二语音信息所对应的音色信息可以是预先配置的默认音色、或者也可以是用户输入的音色信息、或者也可以是自动生成的音色信息。

步骤S503：基于标注图像和第二语音信号，生成图像序列。

在获取到第二语音信号之后，可以对标注图像和第二语音信号进行分析处理，以生成图像序列，所生成的图像序列与第二语音信号相对应。

本实施例中，在控制信号包括文本信息和音频信息时，通过将文本信息转换为第一语音信号，而后基于第一语音信号和音频信息确定第二语音信号，并基于标注图像和第二语音信号来生成图像序列，从而有效地保证了对图像序列进行生成的质量和效率，进一步提高了对卡通动画进行生成的准确可靠性。

图6为本发明实施例提供的另一种卡通动画的生成方法的流程示意图；参考附图6所示，本实施例中的方法可以包括：

步骤S601：获取卡通图像中包括预设对象的数量，预设对象包括以下至少之一：人物对象、动物对象、植物对象、建筑物对象。

由于卡通图像中可以包括预设对象，且预设对象的数量可以为一个或多个，并且预设对象可以包括以下至少之一：人物对象、动物对象、植物对象、建筑物对象。为了能够准确地生成卡通动画，在获取到卡通图像之后，可以对卡通图像进行分析处理，以获取卡通图像中包括预设对象的数量。具体的，获取卡通图像中包括预设对象的数量可以包括：获取对象识别算法，利用对象识别算法对卡通图像进行分析处理，以获取卡通图像中包括的预设对象的数量。或者，可以获取用于对卡通图像进行分析处理的机器学习模型，将卡通图像输入至机器学习模型，从而可以获得卡通图像中包括预设对象的数量。

步骤S602：在预设对象的数量为多个时，则获取控制信号与各个预设对象之间的映射关系。

其中，在预设对象的数量为多个时，则可以获取控制信号与各个预设对象之间的映射关系，上述映射关系可以为一个控制信号对应一个预设对象，或者，映射关系也可以是多个预设对象对应一个控制信号，并且，该映射关系可以是预先配置的或者也可以是自动生成的。

举例来说，在一卡通图像中包括预设对象1、预设对象2、预设对象3时，为了能够准确地基于卡通图像来生成卡通动画，则可以获取控制信号与上述各个预设对象之间的映射关系，该映射关系可以是预先配置的或者是自动自动生成的，具体的，控制信号可以包括第一段信号、第二段信号和第三段信号，控制信号中的第一段信号与预设对象1之间存在映射关系，控制信号中的第二段信号与预设对象2之间存在映射关系，控制信号中的第三段信号与预设对象3之间存在映射关系。或者，控制信号可以包括第一段信号和第二段信号，控制信号中的第一段信号与预设对象1和预设对象2之间存在映射关系，控制信号中的第二段信号与预设对象3之间存在映射关系。

步骤S603：基于映射关系和控制信号对卡通图像中的预设对象进行控制。

在获取到映射关系之后，则可以基于映射关系和控制信号对卡通图像中的预设对象进行控制，从而实现了在卡通动画中出现不同的控制信号时，则可以基于控制信号对卡通动画中所显示的预设对象进行控制，这样有效地保证了卡通动画生成的质量和效果。

在一些实例中，基于映射关系和控制信号对卡通图像中的预设对象进行控制可以包括：在控制信号与预设对象之间的映射关系为一对一的映射关系时，则基于映射关系和控制信号对与控制信号相对应的预设对象进行控制；在控制信号与预设对象之间的映射关系为一对多的映射关系时，则基于映射关系和控制信号对与控制信号相对应的任一预设对象或者所有预设对象进行控制。

举例来说，在卡通图像中包括预设对象1和预设对象2，在预设对象1与控制信号中的第一段信号相对应，预设对象2与控制信号中的第二段信号相对应时，那么，在生成卡通动画时，则可以基于上述的映射关系和控制信号对与控制信号相对应的预设对象进行控制，即在卡通动画中出现第一段信号时，则可以对预设对象1进行显示并控制，即此时的卡通动画中可以显示预设对象1，并可以基于第一段信号控制预设对象1的面部表情进行变化；在卡通动画中出现第二段信号时，则可以对预设对象2进行显示并控制，即此时的卡通动画中可以显示预设对象2，并可以基于第二段信号控制预设对象2的面部表情进行变化。

在预设对象1和预设对象2与控制信号相对应时，那么，在生成卡通动画时，则可以基于上述的映射关系和控制信号对与控制信号相对应的预设对象1和预设对象2进行控制，即此时的卡通动画中可以显示预设对象1和/或预设对象2，并可以基于控制信号控制预设对象1和/或预设对象2的面部表情进行变化，从而有效地保证了对卡通动画进行生成的质量和效果。

本实施例中，通过获取卡通图像中包括预设对象的数量，在预设对象的数量为多个时，则可以获取控制信号与各个预设对象之间的映射关系，而后基于映射关系和控制信号对卡通图像中的预设对象进行控制，这样有效地实现了可以基于不同的卡通图像来生成不同的卡通动画，从而有效地保证了对卡通动画进行生成的质量和效率。

图7为本发明实施例提供的又一种卡通动画的生成方法的流程示意图；参考附图7所示，为了能够提高对卡通动画进行生成的质量和效果，本实施例中的方法还可以包括：

步骤S701：获取与卡通动画相对应的语音配置信息。

在生成卡通动画时，为了能够保证对卡通动画进行生成的质量和效果，则可以获取与卡通动画相对应的语音配置信息，该语音配置信息可以是指用于对卡通动画的音色进行配置的信息，该语音配置信息可以是预先配置的默认配置信息，例如：预先配置有所生成的卡通动画的音色信息为标准女声信息、标准男声信息、或者标准小孩信息等等。或者，语音配置信息可以是用户输入的配置信息，例如：与卡通动画相对应的音色信息可以为参考音色信息，该参考音色信息可以包括：标准女声信息、标准男声信息、或者标准小孩信息、粤语信息等等，而后获取用户对参考音色信息所输入的音色选择信息，该音色选择信息用于确定与卡通动画相对应的目标音色信息，此时，上述的音色选择信息即为语音配置信息。或者，语音配置信息可以是用户输入的配置信息，例如：用户输入语音信息，通过对语音信息进行分析处理即可获取到用户输入的语音音色，而后可以确定与卡通动画相对应的音色信息为用户输入的语音音色。

步骤S702：基于语音配置信息，确定与卡通动画相对应的语音音色。

在获取到语音配置信息之后，则可以基于语音配置信息来确定与卡通动画相对应的语音音色。具体的，在语音配置信息为预先配置的默认配置信息时，则可以基于默认配置信息所对应的音色信息确定为与卡通动画相对应的语音音色。在语音配置信息为用户输入的配置信息时，则可以基于用户输入的配置信息所对应的音色信息(所选择的目标音色信息或者用户输入的语音音色)确定为与卡通动画相对应的语音音色。

在又一些实例中，本实施例中的基于语音配置信息，确定与卡通动画相对应的语音音色可以包括：获取用户输入的用于生成卡通动画的语音信息；基于语音信息，确定参考语音音色；基于语音配置信息和参考语音音色，确定与卡通动画相对应的语音音色。

在生成卡通动画时，用户可以对所生成的卡通动画的音色进行配置操作，具体的，用户可以输入一段语音信息，在获取到用户输入的用于生成卡通动画的语音信息之后，可以对语音信息进行分析处理，以获取与语音信息相对应的参考语音音色，该参考语音音色即为用户自己的语音音色，可以理解的是，不同的用户可以对应有不同的语音音色。在获取到语音配置信息和参考语音音色之后，则可以对语音配置信息和参考语音音色进行分析处理，以确定与卡通动画相对应的语音音色，此时与卡通动画相对应的语音音色可以是用户直接输入的参考音色信息，或者，与卡通动画相对应的语音音色也可以是通过对用户输入的参考音色信息和预设音色(标准男声音色、标准女声音色、标准小孩音色等)进行融合处理之后所获得的。

本实施例中，通过获取与卡通动画相对应的语音配置信息，而后基于语音配置信息来确定与卡通动画相对应的语音音色，从而有效地实现了对卡通动画的音色进行配置操作，进而保证了对卡通动画进行生成的质量和效果，满足了不同用户的制作需求。

图8为本发明实施例提供的另一种卡通动画的生成方法的流程示意图；参考附图8所示，在获取卡通图像之后，本实施例中的方法还可以包括：

步骤S801：基于卡通图像确定用于生成卡通动画的生成方式。

步骤S802：在卡通图像包括头部时，确定用于生成卡通动画的实现方式为第一生成方式。

步骤S803：在卡通图像包括躯干时，确定用于生成卡通动画的实现方式为第二生成方式，其中，第一生成方式和第二生成方式不同。

由于卡通图像可以为：包括有头部的第一类卡通图像、或者包括有躯干的第二类卡通图像，需要注意的是，第二类卡通图像不仅可以包括躯干，还可以包括头部。而不同类型的卡通图像可以对应有不同的生成方式，例如：对于包括有头部的第一类卡通图像而言，在基于上述第一类卡通图像生成卡通动画时，则生成方式可以为第一生成方式；对于包括有头部和躯干的第二类卡通图像而言，在基于上述第二类卡通图像生成卡通动画时，则生成方式可以为第二生成方式。

为了能够保证卡通动画生成的质量和效果，在获取到卡通图像之后，可以对卡通图像进行分析处理，以确定用于生成卡通动画的生成方式，在一些实例中，预先配置有不同类型的卡通图像与生成方式之间的映射关系，基于映射关系和卡通图像来确定用于生成卡通动画的生成方式。

具体的，在卡通图像为第一类卡通图像时，则可以确定用于生成卡通动画的实现方式为第一生成方式，在基于第一生成方式和卡通图像进行卡通动画的生成操作，此时，所生成的卡通动画中包括与卡通图像相对应的头部动画。在卡通图像为第二类卡通图像时，则可以确定用于生成卡通动画的实现方式为第二生成方式，在基于第二生成方式和卡通图像进行卡通动画的生成操作，此时，所生成的卡通动画中包括与卡通图像相对应的躯干动画，其中，第一生成方式和第二生成方式不同，从而有效地实现了对于不用类型的卡通图像可以选择不同的方式来生成卡通动画。

本实施例中，在获取卡通图像之后，通过基于卡通图像确定用于生成卡通动画的生成方式，在卡通图像包括头部时，确定用于生成卡通动画的实现方式为第一生成方式，在卡通图像包括躯干时，确定用于生成卡通动画的实现方式为第二生成方式，从而有效地实现了对于不同类型的卡通图像可以选择不同的方式来生成卡通动画，进一步提高了对卡通动画进行生成的质量和效率。

图9为本发明实施例提供的又一种卡通动画的生成方法的流程示意图；参考附图9所示，其中，所获得的卡通图像的数量可以为一个或多个，在卡通图像的数量为多个时，本实施例中的方法还可以包括：

步骤S901：在控制信号中，确定与各个卡通图像相对应的部分控制信号。

其中，在卡通图像的数量为多个时，则可以基于多个卡通图像生成一个卡通动画，具体的，为了能够实现卡通动画的生成操作，则可以在控制信号中确定与各个卡通图像相对应的部分控制信号，具体的，不同的卡通图像可以对应有相同或者不同的部分控制信号。举例来说，卡通图像包括卡通图像1、卡通图像2和卡通图像3，控制信号所对应的时间总长为T，在获取到上述多个卡通图像之后，则可以确定与卡通图像1相对应的部分控制信号1、与卡通图像2相对应的部分控制信号2以及与卡通图像3相对应的部分控制信号3，其中，部分控制信号1可以为由时刻0到时刻t1所对应的信号，部分控制信号2可以为由时刻t1到时刻t2所对应的信号，部分控制信号3可以为由时刻t2到时刻T所对应的信号。

步骤S902：基于卡通图像和与卡通图像相对应的部分控制信号，生成部分卡通动画。

在获取到与卡通图像相对应的部分控制信号之后，则可以对卡通图像和所对应的部分控制信号进行分析处理，以生成部分卡通动画。举例来说，在卡通图像包括卡通图像1、卡通图像2和卡通图像3，卡通图像1对应部分控制信号1、卡通图像2对应部分控制信号2以及卡通图像3对应部分控制信号3时，则可以基于部分控制信号1和卡通图像1生成部分卡通动画1，基于部分控制信号2和卡通图像2生成部分卡通动画2，基于部分控制信号3和卡通图像3生成部分卡通动画3。

步骤S903：对所有部分卡通动画进行合成，生成目标卡通动画。

在获取到所有的部分卡通动画之后，则可以对所有的部分卡通动画进行合成操作，从而可以生成一目标卡通动画。在一些实例中，对所有部分卡通动画进行合成，生成目标卡通动画可以包括：基于控制信号对与所有卡通图像相对应的部分控制信号进行排序，获得所有部分控制信号所对应的排序信息，基于排序信息对所有部分卡通动画进行合成操作，生成目标卡通动画，从而有效地实现了可以基于多个卡通图像来生成一卡通动画。

本实施例中，在卡通图像的数量为多个时，通过在控制信号中，确定与各个卡通图像相对应的部分控制信号，而后基于卡通图像和与卡通图像相对应的部分控制信号生成部分卡通动画，并对所有部分卡通动画进行合成，从而有效地实现了可以基于多个卡通图像来生成一个目标卡通动画，进一步保证了对卡通动画进行生成的质量和效率。

具体应用时，如图10所示，以卡通人脸图像作为卡通图像、文本信息作为用于生成卡通动画的控制信号为例，本应用实施例提供了一种卡通动画的生成方法，具体的，该生成方法可以包括以下步骤：

步骤1：获取文本信息和单张的卡通人脸图像。

步骤2：对文本信息进行转换操作，获得与文本信息相对应的语音信息。

其中，预先配置有用于对文本信息进行转换操作的文本转语音模块，该文本转语音模块用于将文本信息转换为音频信息，具体的，文本转语音模块可以通过深度学习的方式实现文本转换操作。在获取到文本信息之后，可以将文本信息输入至文本转语音模块，文本转语音模块可以将输入的一段文本转换为一段语音信息，该语音信息不仅仅可以用于后续的语音转2D关键点模块，也可以用于最后的卡通视频合成。

另外，在获得与文本信息相对应的语音信息之后，语音信息所对应的音色信息可以是用户自己选择的音色信息，例如：标准版、粤语版、女性版等等，或者，音色信息也可以是用户输入的语音音色；或者，音色信息可以是基于用户输入的语音信息和预设音色进行合成操作所获得的音色信息。

步骤3：对输入的单张卡通人脸图像进行2D关键点的手动标注操作，生成标注图像。

其中，对输入的单张卡通人脸图像进行2D关键点的手动标注操作是为了根据所标注的关键点进行五官和轮廓的定位操作，同时也是为了后面进行三角网络剖分操作做准备。在一些实例中，对单张卡通人脸图像进行2D关键点的手动标注操作可以包括：对单张卡通人脸图像中标注出预设数量的2D关键点，预设数量的2D关键点可以包括：68个2D关键点、106个2D关键点甚至可以是280个2D关键点，需要注意的是，在所标注的2D关键点的数量越多时，则基于标注图像所生成的卡通动画会更加精致，卡通动画的细节会更好，由于三角剖分的网络会更加细致，则卡通动画中可以调控的细节更多。假设单张卡通人脸图像中的2D关键点为N个点，则可以得到初始2D关键点的向量信息L_init＝(N，2)，即一个Nx2的向量信息。

步骤4：将所生成的语音信息和标注图像(包括2D关键点)输入至语音生成2D关键点序列模块，从而可以生成相应的2D关键点动画序列。

具体的，如图11所示，2D关键点序列模块中可以包括语音特征提取模块和关键点偏移量生成网络，在一些实例中，语音特征提取模块和关键点偏移量生成网络可以形成一个网络。

在获取到语音信息之后，可以将语音信息输入至语音特征提取模块，从而可以对输入的语音信息进行特征提取，由于语音信号是一个连续的信号，所以需要针对语音信息的时长以及对应视频的帧率，将语音信息拆分为一组离散的信号。在一些实例中，语音特征提取模块可以是由LSTM(Long short-term memory)和MLP(Multi-Layer Perception)组成的网络，其中，LSTM是深度学习网络中的一个结构，用于解决时序信息学习的问题。而MLP就是一种多层的全连接网络，可以将语音信息转化为特定维度的向量。

在获取到一组离散信号之后，可以将这组离散信号转化为了一组特征向量，记作V_i＝(f，m)，其中，f表示与语音信息相对应的帧数，m表示每一帧信号所代表的向量长度。

在获取到与语音信息相对应的语音特征V_i之后，可以将语音特征V_i和标注图像输入至关键点偏移量生成网络，其中，关键点偏移量生成网络也可以是由LSTM和MLP所组成的网络，利用关键点偏移量生成网络可以将V_i转化为连续的人脸关键点序列，记作L_seq＝(f，N，2)，其中，f个人脸关键点向量。

对于语音生成2D关键点序列模块而言，可以是被训练好的端到端的网络模块，该网络模型所对应的训练数据的获取操作简单、方便，具体的，可以先对视频进行音视频分离，再对视频内容进行2D人脸关键点检测，这样就得到了音频和2D人脸关键点序列的对应数据，而后进行网络训练操作，即可获取到语音生成2D关键点序列模块。在训练完语音生成2D关键点序列模块之后，可以直接将语音内容特征和语音身份特征混合成统一的语音特征进行提取，这样有效地提高了后续的网络训练、网络优化以及网络推理的便捷程度。

步骤5：对关键点标注后的卡通人脸图像进行三角剖分，得到输入的卡通人脸三角网格。

具体的，三角剖分操作是指将人脸关键点当作采样点进行三角剖分操作，采用的是Delaunay三角剖分，从而可以获得基于关键点的拓扑网格，记作G_i。

步骤6：利用人脸三角网格拓扑关系和生成的2D关键点动画序列，对卡通人脸图像进行网格变形，最终得到一组变形后的人脸动画序列。

在获取到人脸三角网络拓扑结构之后，则可以根据关键点的变化驱动对应的人脸图像所对应的网格，注意G_i中的三角顶点其实就是关键点，所以整个变化过程是可以保证拓扑结构不变。如12所示，通过关键点的变形映射到网格G_i上的变形，最终驱动卡通人脸图案的变形，得到一组卡通人脸动画序列，记作I_{i＝1，2，...，f}，即共有f帧的卡通人脸图案序列。

步骤7：将人脸动画序列通过音视频编解码模块进行合成，获得带有语音的卡通动画视频。

在获取到人脸动画序列之后，则可以将上述的人脸动画序列I_{i＝1，2，...，f}和生成的音频信息编码为最终的动画视频，从而可以获得带有语音的卡通动画视频。

在另一些实例中，对于卡通图像而言，不仅可以生成包括人脸的卡通动画视频，还可以生成有包括人脸和/或骨骼的卡通动画视频，因此，对输入的单张卡通人脸图像进行2D关键点的手动标注操作可以调整为“对输入的单张卡通图像中的人脸骨架进行2D关键点的手动标注操作”。需要注意的是，由于骨骼比较难定义，因此骨骼动画适合人物整体躯干的动画。

本应用实施例提供的技术方案，实现了一种基于2D卡通图像来生成卡通动画的技术方案，具体的，本应用实施例采用2D平面关键点技术对卡通图像进行标注，并基于标注后的图像来生成人脸动画，由于卡通图像相对于真实人脸而言，存在很少的三维信息，因此，在进行关键点标注操作时，采用2D关键点标注操作更加合适，若使用3D关键点标注操作，则会导致最终动画中存在三维空间的扭曲的情况。另外，由于2D关键点的标注和处理在技术成熟和研发成本都要优于3D关键点的标注和处理操作，从而使得2D关键点的标注操作更适合形成产品。同时，由于不同的卡通人脸之间形态千差万别，本实施例采用了统一的表格标识方法(具体通过对2D关键点进行三角剖分)形成了一个统一的动画驱动方案，这样充分利用了2D关键点对人脸的特征表示能力；此外，本应用实施例中的语音到关键点偏移网络是端到端的网络，网络的训练和部署操作简单、可靠，并且，通过增加了文本转语音模块可以对文本信息进行分析处理，从而使得本方案具备直接从文本到卡通人脸动画的能力，大幅降低了用户使用时的门槛，进一步提高了该技术方案的实用性，有利于市场的推广与应用。

图13为本发明实施例提供的一种卡通动画的生成方法的流程示意图；参考附图13所示，本实施例提供了一种卡通动画的生成方法，该方法的执行主体可以为卡通动画生成装置，可以理解的是，该卡通动画生成装置可以实现为软件、或者软件和硬件的组合，具体的，该卡通动画的生成方法可以包括以下步骤：

步骤S1301：响应于卡通动画生成请求，确定卡通动画生成服务对应的处理资源；

步骤S1302：利用处理资源执行如下步骤：获取卡通图像和用于生成卡通动画的控制信号；对卡通图像进行关键点标注，获得标注图像；基于标注图像和控制信号，生成图像序列，图像序列包括多个关键点图像，任意两个关键点图像各自对应的关键点特征不同；基于图像序列和控制信号，生成卡通动画。

具体的，本发明提供的卡通动画的生成方法可以在云端来执行，在云端可以部署有若干计算节点，每个计算节点中都具有计算、存储等处理资源。在云端，可以组织由多个计算节点来提供某种服务，当然，一个计算节点也可以提供一种或多种服务。

针对本发明提供的方案，云端可以提供有用于完成卡通动画的生成方法的服务，称为卡通动画生成服务。当用户需要使用该卡通动画生成服务的时候，调用该卡通动画生成服务，以向云端触发调用该卡通动画生成服务的请求，在该请求中可以携带有卡通图像和用于生成卡通动画的控制信号。云端确定响应该请求的计算节点，利用该计算节点中的处理资源执行如下步骤：获取卡通图像和用于生成卡通动画的控制信号；对卡通图像进行关键点标注，获得标注图像；基于标注图像和控制信号，生成图像序列，图像序列包括多个关键点图像，任意两个关键点图像各自对应的关键点特征不同；基于图像序列和控制信号，生成卡通动画。

本实施例中的上述方法步骤的实现过程、实现原理和实现效果与上述图1-图12所示实施例的方法步骤的实现过程、实现原理和实现效果相类似，本实施例未详细描述的部分，可参考对图1-图12所示实施例的相关说明。

图14为本发明实施例提供的一种卡通动画生成装置的结构示意图；参考附图14所示，本实施例提供了一种卡通动画生成装置，该卡通动画生成装置用于执行上述图2所示的卡通动画的生成方法，具体的，该卡通动画生成装置可以包括：

第一获取模块11，用于获取卡通图像和用于生成卡通动画的控制信号；

第一标注模块12，用于对卡通图像进行关键点标注，获得标注图像；

第一生成模块13，用于基于标注图像和控制信号，生成图像序列，图像序列包括多个关键点图像，任意两个关键点图像各自对应的关键点特征不同；

第一处理模块14，用于基于图像序列和控制信号，生成卡通动画。

在一些实例中，在第一生成模块13基于标注图像和控制信号，生成图像序列时，该第一生成模块13用于执行：获取与控制信号相对应的信号特征，信号特征包括：用于生成卡通动画的帧数和每一帧信号所对应的向量长度；对标注图像进行三角剖分处理，获得剖分后图像；基于信号特征和剖分后图像，生成图像序列。

在一些实例中，在第一生成模块13获取与控制信号相对应的信号特征时，该第一生成模块13用于执行：获取与控制信号相对应的时长信息；确定用于生成卡通动画的视频帧率；基于时长信息和视频帧率对控制信号进行特征提取操作，获得与控制信号相对应的信号特征。

在一些实例中，控制信号包括文本信息；在第一生成模块13基于标注图像和控制信号，生成图像序列时，该第一生成模块13用于执行：将文本信息转换为语音信息；基于标注图像和语音信息，生成图像序列。

在一些实例中，控制信号包括文本信息和音频信息；在第一生成模块13基于标注图像和控制信号，生成图像序列时，该第一生成模块13用于执行：将文本信息转换为第一语音信号；基于第一语音信号和音频信息，确定第二语音信号；基于标注图像和第二语音信号，生成图像序列。

在一些实例中，在第一生成模块13基于第一语音信号和音频信息，确定第二语音信号时，该第一生成模块13用于执行：将第一语音信号或者音频信号，确定为第二语音信号；或者，获取与第一语音信号和音频信息相对应的信号排序信息，基于信号排序信息对第一语音信号和音频信息进行排序，获得第二语音信号。

在一些实例中，本实施例中的第一获取模块11和第一处理模块14用于执行以下步骤：

第一获取模块11，用于获取卡通图像中包括预设对象的数量，预设对象包括以下至少之一：人物对象、动物对象、植物对象、建筑物对象；

第一处理模块14，用于在预设对象的数量为多个时，则获取控制信号与各个预设对象之间的映射关系；

第一处理模块14，还用于基于映射关系和控制信号对卡通图像中的预设对象进行控制。

在一些实例中，在第一处理模块14基于映射关系和控制信号对卡通图像中的预设对象进行控制时，该第一处理模块14用于执行：在控制信号与预设对象之间的映射关系为一对一的映射关系时，则基于映射关系和控制信号对与控制信号相对应的预设对象进行控制；在控制信号与预设对象之间的映射关系为一对多的映射关系时，则基于映射关系和控制信号对与控制信号相对应的任一预设对象或者所有预设对象进行控制。

第一获取模块11，用于获取与卡通动画相对应的语音配置信息；

第一处理模块14，用于基于语音配置信息，确定与卡通动画相对应的语音音色。

在一些实例中，在第一处理模块14基于语音配置信息，确定与卡通动画相对应的语音音色时，该第一处理模块14用于执行：获取用户输入的用于生成卡通动画的语音信息；基于语音信息，确定参考语音音色；基于语音配置信息和参考语音音色，确定与卡通动画相对应的语音音色。

在一些实例中，在获取卡通图像之后，本实施例中的第一处理模块14用于执行以下步骤：基于卡通图像确定用于生成卡通动画的生成方式；在卡通图像包括头部时，确定用于生成卡通动画的实现方式为第一生成方式；在卡通图像包括躯干时，确定用于生成卡通动画的实现方式为第二生成方式，其中，第一生成方式和第二生成方式不同。

在一些实例中，卡通图像的数量为一个或多个，在卡通图像的数量为多个时，本实施例中的第一处理模块14用于执行以下步骤：在控制信号中，确定与各个卡通图像相对应的部分控制信号；基于卡通图像和与卡通图像相对应的部分控制信号，生成部分卡通动画；对所有部分卡通动画进行合成，生成目标卡通动画。

图14所示装置可以执行图1-图12所示实施例的方法，本实施例未详细描述的部分，可参考对图1-图12所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图12所示实施例中的描述，在此不再赘述。

在一个可能的设计中，图14所示卡通动画生成装置的结构可实现为一电子设备，该电子设备可以是电子设备、服务器等各种设备。如图15所示，该电子设备可以包括：第一处理器21和第一存储器22。其中，第一存储器22用于存储相对应电子设备执行上述图1-图12所示实施例中卡通动画的生成方法的程序，第一处理器21被配置为用于执行第一存储器22中存储的程序。

程序包括一条或多条计算机指令，其中，一条或多条计算机指令被第一处理器21执行时能够实现如下步骤：

获取卡通图像和用于生成卡通动画的控制信号；

对卡通图像进行关键点标注，获得标注图像；

基于标注图像和控制信号，生成图像序列，图像序列包括多个关键点图像，任意两个关键点图像各自对应的关键点特征不同；

基于图像序列和控制信号，生成卡通动画。

进一步的，第一处理器21还用于执行前述图1-图12所示实施例中的全部或部分步骤。

其中，电子设备的结构中还可以包括第一通信接口23，用于电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种计算机存储介质，用于储存电子设备所用的计算机软件指令，其包含用于执行上述图1-图12所示方法实施例中卡通动画的生成方法所涉及的程序。

此外，本发明实施例提供了一种计算机程序产品，包括：计算机程序，当计算机程序被电子设备的处理器执行时，使处理器执行上述图1-图12所示的卡通动画的生成方法中的步骤。

图16为本发明实施例提供的另一种卡通动画生成装置的结构示意图；参考附图16所示，本实施例提供了一种卡通动画生成装置，该卡通动画生成装置可以执行上述图13所示的卡通动画的生成方法，该卡通动画生成装置可以包括：第二确定模块31和第二处理模块32；具体的，

第二确定模块31，用于响应于卡通动画生成请求，确定卡通动画生成服务对应的处理资源；

第二处理模块32，用于利用处理资源执行如下步骤：获取卡通图像和用于生成卡通动画的控制信号；对卡通图像进行关键点标注，获得标注图像；基于标注图像和控制信号，生成图像序列，图像序列包括多个关键点图像，任意两个关键点图像各自对应的关键点特征不同；基于图像序列和控制信号，生成卡通动画。

图16所示装置可以执行图10-图13所示实施例的方法，本实施例未详细描述的部分，可参考对行图10-图13所示实施例的相关说明。该技术方案的执行过程和技术效果参见行图10-图13所示实施例中的描述，在此不再赘述。

在一个可能的设计中，图16所示卡通动画生成装置的结构可实现为一电子设备，该电子设备可以是手机、平板电脑、电子设备、服务器等各种设备。如图17所示，该电子设备可以包括：第二处理器41和第二存储器42。其中，第二存储器42用于存储相对应电子设备执行上述图13所示实施例中提供的卡通动画的生成方法的程序，第二处理器41被配置为用于执行第二存储器42中存储的程序。

程序包括一条或多条计算机指令，其中，一条或多条计算机指令被第二处理器41执行时能够实现如下步骤：

利用处理资源执行如下步骤：获取卡通图像和用于生成卡通动画的控制信号；对卡通图像进行关键点标注，获得标注图像；基于标注图像和控制信号，生成图像序列，图像序列包括多个关键点图像，任意两个关键点图像各自对应的关键点特征不同；基于图像序列和控制信号，生成卡通动画。

进一步的，第二处理器41还用于执行前述图13所示实施例中的全部或部分步骤。

其中，电子设备的结构中还可以包括第二通信接口43，用于电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种计算机存储介质，用于储存电子设备所用的计算机软件指令，其包含用于执行上述图13所示方法实施例中卡通动画的生成方法所涉及的程序。

此外，本发明实施例提供了一种计算机程序产品，包括：计算机程序，当计算机程序被电子设备的处理器执行时，使处理器执行上述图13所示的卡通动画的生成方法中的步骤。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器，使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(f l ash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种卡通动画的生成方法，其特征在于，包括：

获取卡通图像和用于生成卡通动画的控制信号；

对所述卡通图像进行关键点标注，获得标注图像；

基于所述图像序列和所述控制信号，生成卡通动画。

2.根据权利要求1所述的方法，其特征在于，基于所述标注图像和控制信号，生成图像序列，包括：

获取与所述控制信号相对应的信号特征，所述信号特征包括：用于生成卡通动画的帧数和每一帧信号所对应的向量长度；

对所述标注图像进行三角剖分处理，获得剖分后图像；

基于所述信号特征和剖分后图像，生成所述图像序列。

3.根据权利要求2所述的方法，其特征在于，获取与所述控制信号相对应的信号特征，包括：

获取与所述控制信号相对应的时长信息；

确定用于生成卡通动画的视频帧率；

基于所述时长信息和视频帧率对所述控制信号进行特征提取操作，获得与所述控制信号相对应的信号特征。

4.根据权利要求1所述的方法，其特征在于，所述控制信号包括文本信息；基于所述标注图像和控制信号，生成图像序列，包括：

将所述文本信息转换为语音信息；

基于所述标注图像和所述语音信息，生成所述图像序列。

5.根据权利要求1所述的方法，其特征在于，所述控制信号包括文本信息和音频信息；基于所述标注图像和控制信号，生成图像序列，包括：

将所述文本信息转换为第一语音信号；

基于所述第一语音信号和所述音频信息，确定第二语音信号；

基于所述标注图像和第二语音信号，生成所述图像序列。

6.根据权利要求5所述的方法，其特征在于，基于所述第一语音信号和所述音频信息，确定第二语音信号，包括：

将所述第一语音信号或者所述音频信号，确定为所述第二语音信号；或者，

获取与所述第一语音信号和所述音频信息相对应的信号排序信息，基于所述信号排序信息对所述第一语音信号和所述音频信息进行排序，获得所述第二语音信号。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述卡通图像中包括预设对象的数量，所述预设对象包括以下至少之一：人物对象、动物对象、植物对象、建筑物对象；

在所述预设对象的数量为多个时，则获取所述控制信号与各个预设对象之间的映射关系；

基于所述映射关系和所述控制信号对所述卡通图像中的预设对象进行控制。

8.根据权利要求7所述的方法，其特征在于，基于所述映射关系和所述控制信号对所述卡通图像中的预设对象进行控制，包括：

在所述控制信号与所述预设对象之间的映射关系为一对一的映射关系时，则基于所述映射关系和所述控制信号对与所述控制信号相对应的预设对象进行控制；

在所述控制信号与所述预设对象之间的映射关系为一对多的映射关系时，则基于所述映射关系和所述控制信号对与所述控制信号相对应的任一预设对象或者所有预设对象进行控制。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取与所述卡通动画相对应的语音配置信息；

基于所述语音配置信息，确定与所述卡通动画相对应的语音音色。

10.根据权利要求9所述的方法，其特征在于，基于所述语音配置信息，确定与所述卡通动画相对应的语音音色，包括：

获取用户输入的用于生成所述卡通动画的语音信息；

基于所述语音信息，确定参考语音音色；

基于所述语音配置信息和参考语音音色，确定与所述卡通动画相对应的语音音色。

11.根据权利要求1-10中任意一项所述的方法，其特征在于，在获取卡通图像之后，所述方法还包括：

基于所述卡通图像确定用于生成卡通动画的生成方式；

在所述卡通图像包括头部时，确定用于生成卡通动画的实现方式为第一生成方式；

在所述卡通图像包括躯干时，确定用于生成卡通动画的实现方式为第二生成方式，其中，所述第一生成方式和第二生成方式不同。

12.根据权利要求1-10中任意一项所述的方法，其特征在于，所述卡通图像的数量为一个或多个，在所述卡通图像的数量为多个时，所述方法还包括：

在所述控制信号中，确定与各个卡通图像相对应的部分控制信号；

基于所述卡通图像和与所述卡通图像相对应的部分控制信号，生成部分卡通动画；

对所有部分卡通动画进行合成，生成目标卡通动画。

13.一种卡通动画的生成方法，其特征在于，包括：

14.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现如权利要求1-12中任一项所述的卡通动画的生成方法。