CN112667068A

CN112667068A - 虚拟人物的驱动方法、装置、设备及存储介质

Info

Publication number: CN112667068A
Application number: CN201910944850.XA
Authority: CN
Inventors: 林成龙
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2021-04-16

Abstract

本申请公开了虚拟人物的驱动方法、装置、设备及存储介质，涉及计算机视觉技术领域。具体实现方案为：获取待处理素材，待处理素材为如下内容中的任意一种：视频、语音、文本，对待处理素材进行处理，得到待处理素材中目标虚拟人物的驱动数据，该驱动数据包括：情感数据以及该情感数据对应的面部表情向量和身体姿态向量，在播放待处理素材对应目标视频时，基于上述驱动数据驱动目标虚拟人物执行相应的动作。该技术方案，基于包括情感数据、该情感数据对应的面部表情向量和身体姿态向量的驱动数据对目标虚拟人物进行驱动，不仅实现了虚拟人物的精细控制，而且无需昂贵的头戴式设备，降低了成本，扩展了使用范围。

Description

虚拟人物的驱动方法、装置、设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种计算机视觉技术中的虚拟人物的驱动方法、装置、设备及存储介质。

背景技术

人物驱动技术在很多领域都有非常广阔的应用前景，市场空间巨大，例如，在电影、动画、游戏等视频领域中，需要使用人物驱动技术让影视作品中的虚拟人物做出对应的动作和发出相应的声音，以提高影视作品的视觉和听觉效果。

现有技术中，主要通过在影视作品中增加特效的方式实现虚拟人物的驱动。具体的，通过在专用的头戴式设备内部设置多个摄像头，在利用该头戴式设备跟踪真实人物的运动时，通过摄像头捕捉三维空间中人物脸上和身上各种标记的变化，再对获取到的数据进行专业的处理，最后生成对虚拟人物的驱动视频。

然而，由于专用的头戴式设备通常比较昂贵，成本高，每个虚拟人物的驱动需要经过人工精细的处理，使用范围受限，用户体验差。

发明内容

本申请实施例提供一种虚拟人物的驱动方法、装置、设备及存储介质，用于解决现有人物驱动方法中存在的成本高、使用范围受限、用户体验差的问题。

第一方面，本申请提供一种虚拟人物的驱动方法，包括：

获取待处理素材，所述待处理素材为如下内容中的任意一种：视频、语音、文本；

对所述待处理素材进行处理，得到所述待处理素材中目标虚拟人物的驱动数据，所述驱动数据包括：情感数据以及所述情感数据对应的面部表情向量和身体姿态向量；

在播放所述待处理素材对应目标视频时，基于所述驱动数据驱动所述目标虚拟人物执行相应的动作。

在本实施例中，基于包括情感数据、该情感数据对应的面部表情向量和身体姿态向量的驱动数据对目标虚拟人物进行驱动，不仅实现了虚拟人物的精细控制，而且无需昂贵的头戴式设备，降低了成本，扩展了使用范围。

在第一方面的一种可能设计中，所述在播放所述待处理素材对应目标视频时，基于所述驱动数据驱动所述目标虚拟人物执行相应的动作，包括：

在播放所述待处理素材对应目标视频时，将所述驱动数据中的面部表情向量映射到所述目标虚拟人物的人脸关键点上，驱动所述目标虚拟人物做出所述面部表情向量对应的表情；

将所述驱动数据中的身体姿态向量映射到所述目标虚拟人物的身体关键点上，驱动所述目标虚拟人物做出所述身体姿态向量对应的姿态；

控制所述目标虚拟人物以所述情感数据发出语音。

在本实施例中，外界可以仅上传一段视频，甚至是一段语音或者文本，就快速完成对待处理素材对应的目标视频的目标虚拟人物进行驱动，且驱动是基于人物整体的，包括语音、面部表情、身体动作姿态等方面，提高了影视作品中人物的逼真程度。

在第一方面的另一种可能设计中，所述待处理素材为待处理视频时，所述对所述待处理素材进行处理，得到所述待处理素材中目标虚拟人物的驱动数据，包括：

对所述待处理视频中的包含目标虚拟人物的每帧图片进行处理，确定每帧图片中的人脸区域和身体区域；

对每帧图片中人脸区域的面部表情进行量化，得到所述目标虚拟人物的面部表情向量；

对每帧图片中身体区域的身体姿态进行量化，得到所述目标虚拟人物的身体姿态向量；

对所述待处理视频中所述目标虚拟人物的语音进行识别，确定所述目标虚拟人物的情感数据；

对所述目标虚拟人物的面部表情向量、身体姿态向量和情感数据进行整合，得到所述目标虚拟人物的驱动数据。

在本实施例中，当待处理素材为待处理视频时，通过对待处理视频进行处理分别得到目标虚拟人物的面部表情向量、身体姿态向量和情感数据，并且对其进行整合得到驱动数据，从而提高了对目标虚拟人物的驱动精度，提高目标虚拟人物的逼真度。

可选的，所述对所述每帧图片中人脸区域的面部表情进行量化，得到所述目标虚拟人物的面部表情向量，包括：

对所述待处理视频中的人脸区域进行检测，确定所述目标虚拟人物的多个人脸关键点；

根据所有人脸关键点的位置信息、以及相邻人脸关键点之间的相互关系，对所述目标虚拟人物的面部表情进行量化，得到所述目标虚拟人物的面部表情向量。

在本实施例中，通过确定出目标虚拟人物的人脸关键点，再基于人脸关键点对目标虚拟人物的面部表情进行量化，从而得到了真实反映目标虚拟人物的面部表情向量，准确度高。

在第一方面的再一种可能设计中，所述待处理素材为待处理语音时，所述对所述待处理素材进行处理，得到所述待处理素材中目标虚拟人物的驱动数据，包括：

从所述待处理语音中抽取所述目标虚拟人物的语音，得到目标语音；

利用语音识别方法，将所述目标语音转换为目标文本；

基于神经语言程序学方法对所述目标文本进行分析，确定所述目标虚拟人物的情感数据；

根据所述情感数据和预先存储的面部表情向量、身体姿态向量与情感数据的关联关系，确定所述目标虚拟人物的面部表情向量和身体姿态向量；

在本实施例中，在待处理素材为待处理语音时，也能够实现将目标虚拟人物的面部表情向量、身体姿态向量和情感数据整合在一起，其实现方案简单，为后续准确的控制虚拟人物提供了实现可能，提高目标虚拟人物的逼真度。

在第一方面的又一种可能设计中，所述待处理素材为待处理文本时，所述对所述待处理素材进行处理，得到所述待处理素材中目标虚拟人物的驱动数据，包括：

基于神经语言程序学方法对所述待处理文本进行分析，确定所述目标虚拟人物的情感数据；

根据所述情感数据和预先存储的面部表情向量、身体姿态向量与情感数据的关联关系，确定所述目标虚拟人物的面部表情向量、身体姿态向量；

在本实施例中，针对一段文本也可实现目标虚拟人物的驱动，提高目标虚拟人物的逼真度。

可选的，所述方法还包括：

获取历史视频数据集合，所述历史视频数据集合包括多段视频数据，每段视频数据均包括至少一个虚拟人物；

对所述多段视频数据中每个虚拟人物的面部表情向量、身体姿态向量和情感数据进行分析，建立并存储面部表情向量、身体姿态向量与情感数据的关联关系。

在本实施例中，通过对历史视频数据集合进行处理，可以预先并存储面部表情向量、身体姿态向量与情感数据的关联关系，这样在后续仅获取到形式为待处理语音或待处理文本的素材时，也能够确定出目标虚拟人物的面部表情向量和身体姿态向量，为实现目标虚拟人物的整体驱动，提供了实现可能。

第二方面，本申请提供一种虚拟人物的驱动装置，包括：获取模块、处理模块和驱动模块；

所述获取模块，用于获取待处理素材，所述待处理素材为如下内容中的任意一种：视频、语音、文本；

所述处理模块，用于对所述待处理素材进行处理，得到所述待处理素材中目标虚拟人物的驱动数据，所述驱动数据包括：情感数据以及所述情感数据对应的面部表情向量和身体姿态向量；

所述驱动模块，用于在播放所述待处理素材对应目标视频时，基于所述驱动数据驱动所述目标虚拟人物执行相应的动作。

在第二方面的一种可能设计中，所述驱动模块，具体用于在播放所述待处理素材对应目标视频时，将所述驱动数据中的面部表情向量映射到所述目标虚拟人物的人脸关键点上，驱动所述目标虚拟人物做出所述面部表情向量对应的表情，将所述驱动数据中的身体姿态向量映射到所述目标虚拟人物的身体关键点上，驱动所述目标虚拟人物做出所述身体姿态向量对应的姿态，控制所述目标虚拟人物以所述情感数据发出语音。

在第二方面的另一种可能设计中，所述待处理素材为待处理视频时，所述处理模块，具体用于对所述待处理视频中的包含目标虚拟人物的每帧图片进行处理，确定每帧图片中的人脸区域和身体区域，对每帧图片中人脸区域的面部表情进行量化，得到所述目标虚拟人物的面部表情向量，对每帧图片中身体区域的身体姿态进行量化，得到所述目标虚拟人物的身体姿态向量，对所述待处理视频中所述目标虚拟人物的语音进行识别，确定所述目标虚拟人物的情感数据，对所述目标虚拟人物的面部表情向量、身体姿态向量和情感数据进行整合，得到所述目标虚拟人物的驱动数据。

可选的，所述处理模块，具体用于对所述每帧图片中人脸区域的面部表情进行量化，得到所述目标虚拟人物的面部表情向量，具体为：

所述处理模块，具体用于对所述待处理视频中的人脸区域进行检测，确定所述目标虚拟人物的多个人脸关键点，根据所有人脸关键点的位置信息、以及相邻人脸关键点之间的相互关系，对所述目标虚拟人物的面部表情进行量化，得到所述目标虚拟人物的面部表情向量。

在第二方面的又一种可能设计中，所述待处理素材为待处理语音时，所述处理模块，具体用于从所述待处理语音中抽取所述目标虚拟人物的语音，得到目标语音，利用语音识别方法，将所述目标语音转换为目标文本，基于神经语言程序学方法对所述目标文本进行分析，确定所述目标虚拟人物的情感数据，根据所述情感数据和预先存储的面部表情向量、身体姿态向量与情感数据的关联关系，确定所述目标虚拟人物的面部表情向量和身体姿态向量，对所述目标虚拟人物的面部表情向量、身体姿态向量和情感数据进行整合，得到所述目标虚拟人物的驱动数据。

在第二方面的再一种可能设计中，所述待处理素材为待处理文本时，所述处理模块，具体用于基于神经语言程序学方法对所述待处理文本进行分析，确定所述目标虚拟人物的情感数据，根据所述情感数据和预先存储的面部表情向量、身体姿态向量与情感数据的关联关系，确定所述目标虚拟人物的面部表情向量、身体姿态向量，对所述目标虚拟人物的面部表情向量、身体姿态向量和情感数据进行整合，得到所述目标虚拟人物的驱动数据。

可选的，所述获取模块，还用于获取历史视频数据集合，所述历史视频数据集合包括多段视频数据，每段视频数据均包括至少一个虚拟人物；

所述处理模块，还用于对所述多段视频数据中每个虚拟人物的面部表情向量、身体姿态向量和情感数据进行分析，建立并存储面部表情向量、身体姿态向量与情感数据的关联关系。

本申请第二方面提供的装置，可用于执行第一方面提供的方法，其实现原理和技术效果类似，在此不再赘述。

第三方面，本申请提供一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面以及第一方面各可能设计所述的方法。

第四方面，本申请提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面以及第一方面各可能设计所述的方法。

第五方面，本申请提供一种虚拟人物的驱动方法，包括：

根据待处理素材确定目标虚拟人物的驱动数据；

在所述待处理素材对应的目标视频中，驱动所述目标虚拟人物基于所述驱动数据进行动作。

上述申请中的一个实施例具有如下优点或有益效果：通过获取待处理素材，该待处理素材为如下内容中的任意一种：视频、语音、文本，对待处理素材进行处理，得到待处理素材中目标虚拟人物的驱动数据，该驱动数据包括：情感数据以及该情感数据对应的面部表情向量和身体姿态向量，在播放待处理素材对应目标视频时，基于上述驱动数据驱动目标虚拟人物执行相应的动作。该技术方案中基于包括情感数据、该情感数据对应的面部表情向量和身体姿态向量的驱动数据对目标虚拟人物进行驱动，不仅实现了虚拟人物的精细控制，而且无需昂贵的头戴式设备，降低了成本，扩展了使用范围。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例提供的虚拟人物的驱动方法的流程示意图；

图2为目标虚拟人物的驱动示意图；

图3是根据本申请第二实施例提供的虚拟人物的驱动方法的流程示意图；

图4为本实施例中人脸关键点的分布示意图；

图5是根据本申请第三实施例提供的虚拟人物的驱动方法的流程示意图；

图6是根据本申请第四实施例提供的虚拟人物的驱动方法的流程示意图；

图7是根据本申请第五实施例提供的虚拟人物的驱动方法的流程示意图；

图8是根据本申请第六实施例提供的虚拟人物的驱动方法的流程示意图；

图9是根据本申请实施例提供的虚拟人物的驱动装置的结构示意图；

图10是用来实现本申请实施例的虚拟人物的驱动方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

随着虚拟现实技术的发展，电影、动画、游戏等视频领域中会出现一些虚拟人物，虚拟人物的真实度会大大影响用户的体验感，因而，为了让影视作品中的虚拟人物做出对应的动作，经常需要使用人物驱动技术，以提高虚拟人物的逼真度。

目前，在人物驱动方面，通用的技术一般是电影或者动漫制作中的特效技术，这些技术通常需要使用价格昂贵的头戴式设备来跟踪真实人物的运动，特别是人脸的运动，以消除头部姿态的影响。同时，这些技术还需要头戴式设备内部设置多个摄像头，并在模仿的虚拟人物的脸上和身上做下各种标记，然后通过摄像头捕捉三维空间中这些标记点的变化以生成对应的人物驱动视频。但是这种方法中，头戴式设备不仅昂贵且制作成本高，不利于被广泛使用，而且头戴式设备和多个摄像头采集的数据，需要经过人工的精细操作才能制作出精良的视频，不具备批量化生产的特点。

针对上述问题，本申请实施例提供了一种虚拟人物的驱动方法、装置、设备及存储介质，通过获取待处理素材，该待处理素材为如下内容中的任意一种：视频、语音、文本，对待处理素材进行处理，得到待处理素材中目标虚拟人物的驱动数据，该驱动数据包括：情感数据以及该情感数据对应的面部表情向量和身体姿态向量，在播放待处理素材对应目标视频时，基于上述驱动数据驱动目标虚拟人物执行相应的动作。该技术方案中基于包括情感数据、该情感数据对应的面部表情向量和身体姿态向量的驱动数据对目标虚拟人物进行驱动，不仅实现了虚拟人物的精细控制，而且无需昂贵的头戴式设备，降低了成本，扩展了使用范围。

可以理解的是，本申请实施例的执行主体可以是电子设备，例如，计算机、平板电脑等终端设备，也可以是服务器，例如，后台的处理平台等。因而，本实施例以终端设备和服务器统称为电子设备进行解释说明，关于该电子设备具体为终端设备，还是服务器，其可以实际情况确定。

下面，通过具体实施例对本申请的技术方案进行详细说明。需要说明的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图1是根据本申请第一实施例提供的虚拟人物的驱动方法的流程示意图。如图1所示，该方法可以包括如下步骤：

S101、获取待处理素材，该待处理素材为如下内容中的任意一种：视频、语音、文本。

示例性的，在本实施例中，在需要对目标虚拟人物进行驱动时，首先获取包括目标虚拟人物信息的待处理素材。可选的，该待处理素材可以是一段视频，也可以是一段语音，还可以是一段文本。本申请实施例并不待处理素材的具体表现形式进行限定，其可以根据用户的输入确定。

相应的，在本实施例中，当待处理素材为一段视频时，目标虚拟人物的信息可以是目标虚拟人物的图像信息(包括人脸图像信息和身体图像信息)、语音信息以及语音信息对应的文本信息。当待处理素材为一段语音时，目标虚拟人物的信息可以是语音信息以及该语音信息对应的文本信息。当待处理素材为一段文本时，目标虚拟人物的信息为目标虚拟人物的话语内容。

S102、对待处理素材进行处理，得到待处理素材中目标虚拟人物的驱动数据，该驱动数据包括：情感数据以及情感数据对应的面部表情向量和身体姿态向量。

示例性的，情感数据主要分为三类：正面、负面、中性。其中，正面情感数据主要是欢快、搞笑、兴奋等情感数据，负面情感数据主要是悲伤、痛苦、愤怒等情感数据，中性情感数据主要是不喜不悲的情感数据。

可以理解的是，正面情感数据也可以称为积极情感数据，负面情感数据也可以称为消极情感数据。本申请实施例并不对每类情感数据的具体表现内容进行限定。

在本实施例中，可以根据待处理素材的表现形式对待处理素材进行不同的处理，以最终得到目标虚拟人物的驱动数据，该驱动数据用于表征目标虚拟人物的面部表情、身体姿态以及语音情感。

示例性的，在待处理素材为视频时，可以对视频中对应的图像和语音进行处理，从而分别确定出目标虚拟人物对应的面部表情向量、身体姿态向量以及发出语音的情感数据。

在待处理素材为语音时，可以首先将语音转换为文本，再根据文本确定出目标虚拟人物的语音情感数据，随后再根据语音情感数据与面部表情向量和身体姿态的对应关系，确定出目标虚拟人物对应的面部表情向量、身体姿态向量以及发出语音的情感数据。

在待处理素材为文本时，可以直接根据文本确定出目标虚拟人物的语音情感数据，再根据语音情感数据与面部表情向量和身体姿态的对应关系，确定出目标虚拟人物对应的面部表情向量、身体姿态向量以及发出语音的情感数据。

关于该S102的具体实现原理，可以根据待处理素材为视频、语音、文本分别阐述，详见下述实施例中的记载。

S103、在播放上述待处理素材对应目标视频时，基于上述驱动数据驱动目标虚拟人物执行相应的动作。

示例性的，当需要播放待处理素材对应的目标视频时，可以控制目标虚拟人物以确定的驱动数据为基准做出相应的动作。

可选的，在具体实现时，该S103可以通过如下步骤实现：

A1：在播放待处理素材对应目标视频时，将该驱动数据中的面部表情向量映射到目标虚拟人物的人脸关键点上，驱动该目标虚拟人物做出该面部表情向量对应的表情。

示例性的，在本实施例中，由于面部表情可以通过人脸关键点的连续变化相关联，因而，在需要驱动该目标虚拟人物做出该面部表情向量对应的表情时，需要将驱动数据中的面部表情向量映射到目标虚拟人物的人脸关键点上。

A2：将该驱动数据中的身体姿态向量映射到目标虚拟人物的身体关键点上，驱动该目标虚拟人物做出该身体姿态向量对应的姿态。

可选的，由于身体姿态可以通过身体关键点的变化相关联，因而，当需要驱动该目标虚拟人物做出该身体姿态向量对应的姿态时，需要将驱动数据中的身体姿态向量映射到目标虚拟人物的身体关键点上。

A3：控制目标虚拟人物以该情感数据发出语音。

可选的，情感数据可以反映一个人物的情绪，因而，为了使得目标视频中的目标虚拟人物能够以对应的情绪的发出语音，首先需要可以通过语音合成的方式，控制目标虚拟人物以上述确定的情感数据发出语音，也即，控制目标视频中的目标虚拟人物“说出”语音对应的这些文本。

在本实施例中，电子设备可以接收外界指示的驱动指令，该驱动指令用于指示驱动目标视频中的目标人物，因而，电子设备可以基于上述确定的目标虚拟人物的驱动数据对目标视频中的目标虚拟人物进行驱动。

示例性的，图2为目标虚拟人物的驱动示意图。如图2所示，在本实施例中，若目标虚拟人物为多个，例如，5个，分别为小朋友1至小朋友5，那么可以分别求出小朋友1至小朋友5的面部表情向量、身体姿态向量以及感情数据等驱动数据。

参照图2所示，在本实施例中，假设待处理素材对应的目标视频为小朋友1至小朋友5在共同演唱儿歌“娃哈哈”，这首歌是一首比较欢快的歌曲，因而，在小朋友唱到“娃哈哈啊，娃哈哈”时，将确定的张口唱“娃”字的面部表情向量映射到每个小朋友1至小朋友5的人脸关键点上，使得小朋友1至小朋友5均做出张口唱“娃”的表情。此外，将小朋友1至小朋友5对应驱动数据中的身体姿态向量分别映射到小朋友1至小朋友5的身体关键点上，从而驱动每个小朋友做出对应身体姿态向量对应的姿态，同时，控制小朋友1至小朋友5以欢快的情感数据发出语音，例如，“娃哈哈啊，娃哈哈”。

本申请实施例提供的虚拟人物的驱动方法，通过获取待处理素材，该待处理素材为如下内容中的任意一种：视频、语音、文本，对待处理素材进行处理，得到待处理素材中目标虚拟人物的驱动数据，该驱动数据包括：情感数据以及该情感数据对应的面部表情向量和身体姿态向量，在播放待处理素材对应目标视频时，基于上述驱动数据驱动目标虚拟人物执行相应的动作。该技术方案中基于包括情感数据、该情感数据对应的面部表情向量和身体姿态向量的驱动数据对目标虚拟人物进行驱动，不仅实现了虚拟人物的精细控制，而且无需昂贵的头戴式设备，降低了成本，扩展了使用范围。

示例性的，下述分别以待处理素材为视频、语音和文本对上述S102进行解释说明。

示例性的，图3是根据本申请第二实施例提供的虚拟人物的驱动方法的流程示意图。在本实施例中，待处理素材为待处理视频，因而，如图3所示，上述S102可以通过如下步骤实现：

S301、对待处理视频中的包含目标虚拟人物的每帧图片进行处理，确定每帧图片中的人脸区域和身体区域。

可选的，待处理素材为待处理视频，且待处理视频可以包括多段视频，且每段视频中均包括目标虚拟人物。这时首先对每段视频进行处理，也即，对每段视频中的每帧图片进行处理，提取每帧图片中的人脸区域和身体区域。

S302、对每帧图片中人脸区域的面部表情进行量化，得到该目标虚拟人物的面部表情向量。

在本实施例中，电子设备可以对每帧图片进行人脸检测，确定出每帧图像中的人脸位置，再分别定位人脸区域中的多个关键点，然后定位这些个关键点的坐标及其相互关系，进而根据每个关键点的坐标以及相关关系对人物的面部表情进行量化，得到面部表情向量。

示例性的，在本申请的实施例中，该S302可以通过如下步骤实现：

B1：对待处理视频中的人脸区域进行检测，确定该目标虚拟人物的多个人脸关键点。

可选的，通过检测待处理视频中的人脸区域，确定出目标虚拟人物的多个人脸关键点。示例性的，该人脸关键点用于表征眼睛、鼻子、嘴巴、眉毛、牙齿等等关键部位的位置。

B2：根据所有人脸关键点的位置信息、以及相邻人脸关键点之间的相互关系，对目标虚拟人物的面部表情进行量化，得到该目标虚拟人物的面部表情向量。

在实际应用中，通过实践证明，利用越多的人脸关键点越能准确的表征人脸的形状和目标虚拟人脸的表情，但是为了不必要的资源消耗，人脸关键点的数量为150个时能够准确的表征出人脸区域。

示例性的，图4为本实施例中人脸关键点的分布示意图。在本实施例中，通过150个人脸关键点来表征人脸区域时，该150个人脸关键点的位置参照图4所示。因而，通过定位这150个关键点的坐标及其相互关系，可以对目标虚拟人物的面部表情进行量化，从而得到面部表情向量。

S303、对每帧图片中身体区域的身体姿态进行量化，得到目标虚拟人物的身体姿态向量。

可选的，在确定出每帧图像中的身体区域时，首先对身体区域进行检测，以定位出每帧图片中的多个身体关键点以及每个身体关键点的位置信息，最后根据多个身体关键点的位置坐标以及坐标间的相互关系对目标虚拟人物的身体姿态进行量化，从而得到身体姿态向量。

示例性的，在本实施例中，身体关键点的数量为59个，利用该59个身体关键点可以准确的表征目标虚拟人物的身体姿态。

值得说明的是，本申请实施例并不对人脸关键点以及身体关键点的具体数量进行限定，其可以根据实际情况。

S304、对待处理视频中目标虚拟人物的语音进行识别，确定该目标虚拟人物的情感数据。

在本实施例中，电子设备还可以提取待处理视频中目标虚拟人物的语音素材，对该语音素材进行处理，利用语音识别技术，将这些语音素材转换为文本，例如，利用神经语言程序学(neuro-linguistic programming，NLP)对得到的文本进行分析，从而得到该目标虚拟人物的情感数据，进一步的，电子设备可以将得到的文本和情感数据输入到预先训练的语音合成模型中，以实现利用待处理视频中目标虚拟人物的声音“说出”任何给定的文本的效果。

S305、对目标虚拟人物的面部表情向量、身体姿态向量和情感数据进行整合，得到目标虚拟人物的驱动数据。

在本实施例中，当待处理素材为视频时，这时经过上述S301至S304的处理，得到了目标虚拟人物的面部表情向量、身体姿态向量和情感数据，随后，为了保证目标虚拟人物的面部表情、身体姿态以及说话情感相对应，可以将目标虚拟人物的面部表情向量、身体姿态向量和情感数据进行整合，得到目标虚拟人物的驱动数据。

值得说明的是，由于目标视频中可能同时出现多个虚拟人物，因而，在播放目标视频之前，需要将每个虚拟人物的面部表情向量、身体姿态向量和情感数据整合在一起，从而为后续准确的控制虚拟人物提供了实现可能。

本申请实施例提供的虚拟人物的驱动方法，当待处理素材为待处理视频时，通过对待处理视频中的包含目标虚拟人物的每帧图片进行处理，确定每帧图片中的人脸区域和身体区域，对每帧图片中人脸区域的面部表情进行量化，得到目标虚拟人物的面部表情向量，对每帧图片中身体区域的身体姿态进行量化，得到目标虚拟人物的身体姿态向量，对待处理视频中目标虚拟人物的语音进行识别，确定目标虚拟人物的情感数据，最后对目标虚拟人物的面部表情向量、身体姿态向量和情感数据进行整合，得到目标虚拟人物的驱动数据。该技术方案中，当待处理素材为待处理视频时，通过对待处理视频进行处理分别得到目标虚拟人物的面部表情向量、身体姿态向量和情感数据，并且对其进行整合得到驱动数据，从而提高了对目标虚拟人物的驱动精度，提高目标虚拟人物的逼真度。

示例性的，图5是根据本申请第三实施例提供的虚拟人物的驱动方法的流程示意图。在本实施例中，待处理素材为语音，相应的，如图5所示，上述S102可以通过如下步骤实现：

S501、从待处理语音中抽取目标虚拟人物的语音，得到目标语音。

可选的，待处理素材为待处理语音，且待处理语音中包括目标虚拟人物的语音，由于本方案需要驱动目标虚拟人物，因而，电子设备可以从待处理语音中抽取该目标虚拟人物的语音，得到目标语音。

可以理解的是，当需要驱动待处理语音对应的目标视频中的多个虚拟人物时，可以分别从待处理语音中提取该多个虚拟人物的语音，得到多个目标语音。本申请实施例并不对待处理素材对应目标视频中的目标虚拟人物的数量进行限定，其可以根据实际情况确定。

S502、利用语音识别方法，将该目标语音转换为目标文本。

在本实施例中，在获取到目标虚拟人物的目标语音之后，可以利用语音识别方法，将目标语音转化为目标文本。在本实施例中，该语音识别方法也可以称为语音文本转换方法，实际上是利用设定的语音识别程序，将获取到的语音信息转换成文本信息。

S503、基于神经语言程序学方法对该目标文本进行分析，确定目标虚拟人物的情感数据。

在本实施例中，在神经语言程序学(neuro-linguistic programming，NLP)中，N(neuro)指的是神经系统，包括大脑和思维过程，L(linguistic)是指语言，更准确点说，是指从感觉信号的输入到构成意思的过程。P(programming)是指为产生某种后果而要执行的一套具体指令，因而，电子设备可以根据神经语言程序学方法对该目标文本进行分析，从而得到目标虚拟人物的情感数据。

S504、根据该情感数据和预先存储的面部表情向量、身体姿态向量与情感数据的关联关系，确定目标虚拟人物的面部表情向量、身体姿态向量。

在本实施例中，在根据待处理素材确定目标虚拟人物对应的驱动数据之前，电子设备首先基于获取到的历史视频数据集合中历史视频数据，建立并保存面部表情向量、身体姿态向量与情感数据的关联关系。这样，当外界输入的待处理素材为待处理语音或待处理文本时，可以利用预先存储的面部表情向量、身体姿态向量与情感数据的关联关系，得到目标虚拟人物的面部表情向量、身体姿态向量。

关于建立面部表情向量、身体姿态向量与情感数据的关联关系的具体实现可以参见下述图7所示实施例中的记载，此处不再赘述。

S505、对目标虚拟人物的面部表情向量、身体姿态向量和情感数据进行整合，得到目标虚拟人物的驱动数据。

在本实施例中，S502和S503与上述图3所示实施例中的S304的实现原理一致，S502和S503中未记载的内容可以参见上述S304中的记载，而上述S304中未记载的内容还可以参见本实施例中的S502和S503中的记载。该S505的实现方案与上述S304的实现原理一致，具体可以参见上述S304的记载，此处不再赘述。

本申请实施例提供的虚拟人物的驱动方法，当待处理素材为待处理语音时，通过从待处理语音中抽取目标虚拟人物的语音，得到目标语音，利用语音识别方法，将该目标语音转换为目标文本，基于神经语言程序学方法对该目标文本进行分析，确定目标虚拟人物的情感数据，根据该情感数据和预先存储的面部表情向量、身体姿态向量与情感数据的关联关系，确定目标虚拟人物的面部表情向量、身体姿态向量，最后对目标虚拟人物的面部表情向量、身体姿态向量和情感数据进行整合，得到目标虚拟人物的驱动数据。该技术方案中，在待处理素材为待处理语音时，也能够实现将目标虚拟人物的面部表情向量、身体姿态向量和情感数据整合在一起，其实现方案简单，为后续准确的控制虚拟人物提供了实现可能，提高目标虚拟人物的逼真度。

示例性的，图6是根据本申请第四实施例提供的虚拟人物的驱动方法的流程示意图。在本实施例中，待处理素材为文本，因而，如图6所示，上述S102可以通过如下步骤实现：

S601、基于神经语言程序学方法对所述待处理文本进行分析，确定目标虚拟人物的情感数据。

S602、根据该情感数据和预先存储的面部表情向量、身体姿态向量与情感数据的关联关系，得到该目标虚拟人物的面部表情向量和身体姿态向量。

S603、对目标虚拟人物的面部表情向量、身体姿态向量和情感数据进行整合，得到目标虚拟人物的驱动数据驱动数据。

在本实施例中S601、S602、S603的具体实现方案可以参见上述图5所示实施例中的S503至S505以及上述图3所示实施例中的S305，此处不再赘述。

在本申请的实施例中，当待处理素材为待处理文本时，这时只需要根据待处理文本确定出目标虚拟人物的情感数据，再根据电子设备中预存的面部表情向量、身体姿态向量与情感数据的关联关系确定目标虚拟人物的面部表情向量、身体姿态向量，最后对目标虚拟人物的面部表情向量、身体姿态向量和情感数据进行整合得到驱动数据。该技术方案，针对一段文本，也可实现目标虚拟人物的驱动，提高目标虚拟人物的逼真度。

进一步的，在上述任意实施例的基础上，图7是根据本申请第五实施例提供的虚拟人物的驱动方法的流程示意图。在本实施例中，该方法还可以包括如下步骤：

S701、获取历史视频数据集合，该历史视频数据集合包括多段视频数据，每段视频数据均包括至少一个虚拟人物。

在本实施例中，电子设备可以通过分析历史视频数据集合中的多段视频来分析虚拟人物的动作数据。具体的，对于历史视频数据集合中的每段视频数据，分别对其进行预处理，确定每段视频中每帧图像中每个虚拟人物的人脸区域和身体区域。

一方面，对每个虚拟人物的人脸区域进行检测，确定出每个虚拟人物的人脸位置，且在人脸区域中定位预设数量的多个人脸关键点，最后根据多个人脸关键点的坐标和多个人脸关键点的相互关系对每个虚拟人物的面部表情进行量化，得到该每个虚拟人物的面部表情向量。

另一方面，对每个虚拟人物的身体区域进行检测，确定出每个虚拟人物的人体位置，且在身体区域中定位预设数量的多个身体关键点，最后根据多个身体关键点的坐标和多个身体关键点的相互关系对每个虚拟人物的身体姿态进行量化，得到该每个虚拟人物的身体姿态向量。

再一方面，电子设备还可以在历史视频数据集合包括的多段视频数据中提取每个虚拟人物的若干段语音素材，对这些素材进行处理，训练出语音、文本的情感分析模型，从而在后续使用时，可以直接利用不同语音素材确定出对应的情感数据。

S702、对多段视频数据中每个虚拟人物的面部表情向量、身体姿态向量和情感数据进行分析，建立并存储面部表情向量、身体姿态向量与情感数据的关联关系。

在本实施例中，为了保证外界在仅输入待处理语音或待处理文本时，该电子设备也可以确定出虚拟人物的面部表情向量以及身体姿态向量。所以，在本实施例中，可以根据S701中确定的每个虚拟人物的面部表情向量、身体姿态向量和情感数据，将情感数据与面部表情向量、身体姿态向量关联起来，以便后续可以直接使用，所以，在本实施例中，还可以建立并存储面部表情向量、身体姿态向量与情感数据的关联关系。

综上所述，在本实施例中，在待处理素材为待处理视频时，可以直接对待处理视频进行处理，分别确定目标虚拟人物的面部表情向量、身体姿态向量和情感数据，并且将面部表情向量映射到目标虚拟人物的人脸关键点上，将身体姿态向量映射到目标虚拟人物的人体关键点上，控制目标视频中的目标虚拟人物，在做出对应的表情和姿态的同时，利用得到的文本信息，通过语音合成的方式，控制目标视频中的目标虚拟人物以情感数据对应的语气“说出”这些文本。

在待处理素材为待处理语音或待处理文本时，则可以确定出目标虚拟人物对应的文本信息以及情感数据，所以，在本实施例中，通过语音合成方法，将待处理语音转换成对应目标视频中目标虚拟人物的语音，或者将待处理文本合成对应目标视频中目标虚拟人物的语音，再通过提前建立的面部表情向量、面部姿态向量、情感数据的关系，控制目标视频中的目标虚拟人物做出对应的表情和姿态的同时，控制目标视频中的目标虚拟人物以情感数据对应的语气“说出”这些文本。

因而，在本实施例中，通过对历史视频数据集合进行处理，可以预先并存储面部表情向量、身体姿态向量与情感数据的关联关系，这样在后续仅获取到形式为待处理语音或待处理文本的素材时，也能够确定出目标虚拟人物的面部表情向量和身体姿态向量，为实现目标虚拟人物的整体驱动，提供了实现可能。

综上所述，在上述所有实施例的基础上，图8是根据本申请第六实施例提供的虚拟人物的驱动方法的流程示意图。如图8所示，该方法针对待处理素材分析进行不同的处理，具体分析如下：

在本实施例中，待处理素材包括待处理视频、待处理语音和待处理文本中的任意一种。不管待处理素材是哪种表现形式，均需要得到目标虚拟用户的面部表情向量、身体姿态向量和情感数据，进而对其整合，得到目标虚拟人物的驱动数据，因而，当确定出待处理素材对应的目标视频时，将面部表情向量映射到目标虚拟人物的人脸关键点上，将身体姿态向量映射到目标虚拟人物的身体关键点上，利用语音合成技术，将文本合成为目标虚拟人物的情感数据对应的语音，最后驱动目标虚拟人物执行相应的动作。

下面分别以待处理素材为待处理视频、待处理语音以及待处理文本为例，介绍确定目标虚拟人物的驱动数据的实现原理。

作为一种示例，在待处理素材为待处理视频时，通过对待处理视频进行分析，确定出目标虚拟人物的多个人脸关键点和多个身体关键点，通过对多个人脸关键点的坐标和相互关系进行量化，得到目标虚拟人物的面部表情向量，通过对多个身体关键点的坐标和相互关系进行量化，得到目标虚拟人物的身体姿态向量，随后利用语音识别技术，将目标虚拟人物的语音转换为文本，利用NPL技术，确定目标虚拟人物的文本情感数据，并对目标虚拟人物的面部表情向量、身体姿态向量和情感数据进行整合，得到目标虚拟人物的驱动数据。

作为另一种示例，在待处理素材为待处理语音时，直接利用语音识别技术，将目标虚拟人物的语音转换为文本，利用NPL技术，确定目标虚拟人物的文本情感数据，这时根据情感数据和预先存储的面部表情向量、身体姿态向量与情感数据的关联关系，确定目标虚拟人物的面部表情向量、身体姿态向量，从而结合目标虚拟人物的文本情感数据得到目标虚拟人物的驱动数据。

作为再一种示例，在待处理素材为待处理文本时，利用NPL技术，对待处理文本进行分析确定目标虚拟人物的文本情感数据，这时根据情感数据和预先存储的面部表情向量、身体姿态向量与情感数据的关联关系，确定目标虚拟人物的面部表情向量、身体姿态向量，从而结合目标虚拟人物的文本情感数据得到目标虚拟人物的驱动数据。

根据上述分析可知，本申请实施例提供的虚拟人物的驱动方法，不管获取到的待处理素材为一段视频、一段语音，还是一段文本，均可以快速完成对目标视频的目标虚拟人物的驱动，且驱动是基于人物整体的，包括语音、面部表情、身体动作姿态等方面，提高了虚拟人物的逼真度，提高了用户体验。

上述介绍了本申请实施例提到的虚拟人物的驱动方法的具体实现，下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图9是根据本申请实施例提供的虚拟人物的驱动装置的结构示意图。该装置可以集成在电子设备中或通过电子设备实现，该电子设备可以是服务器，或者终端设备。如图9所示，在本实施例中，该虚拟人物的驱动装置90可以包括：获取模块901、处理模块902和驱动模块903。

其中，获取模块901，用于获取待处理素材，所述待处理素材为如下内容中的任意一种：视频、语音、文本；

处理模块902，用于对所述待处理素材进行处理，得到所述待处理素材中目标虚拟人物的驱动数据，所述驱动数据包括：情感数据以及所述情感数据对应的面部表情向量和身体姿态向量；

驱动模块903，用于在播放所述待处理素材对应目标视频时，基于所述驱动数据驱动所述目标虚拟人物执行相应的动作。

在本实施例的一种可能设计中，驱动模块903，具体用于在播放所述待处理素材对应目标视频时，将所述驱动数据中的面部表情向量映射到所述目标虚拟人物的人脸关键点上，驱动所述目标虚拟人物做出所述面部表情向量对应的表情，将所述驱动数据中的身体姿态向量映射到所述目标虚拟人物的身体关键点上，驱动所述目标虚拟人物做出所述身体姿态向量对应的姿态，控制所述目标虚拟人物以所述情感数据发出语音。

在本实施例的另一种可能设计中，所述待处理素材为待处理视频时，处理模块902，具体用于对所述待处理视频中的包含目标虚拟人物的每帧图片进行处理，确定每帧图片中的人脸区域和身体区域，对每帧图片中人脸区域的面部表情进行量化，得到所述目标虚拟人物的面部表情向量，对每帧图片中身体区域的身体姿态进行量化，得到所述目标虚拟人物的身体姿态向量，对所述待处理视频中所述目标虚拟人物的语音进行识别，确定所述目标虚拟人物的情感数据，对所述目标虚拟人物的面部表情向量、身体姿态向量和情感数据进行整合，得到所述目标虚拟人物的驱动数据。

可选的，该处理模块902，具体用于对所述每帧图片中人脸区域的面部表情进行量化，得到所述目标虚拟人物的面部表情向量，具体为：

处理模块902，具体用于对所述待处理视频中的人脸区域进行检测，确定所述目标虚拟人物的多个人脸关键点，根据所有人脸关键点的位置信息、以及相邻人脸关键点之间的相互关系，对所述目标虚拟人物的面部表情进行量化，得到所述目标虚拟人物的面部表情向量。

在本申请的又一种可能设计中，所述待处理素材为待处理语音时，处理模块902，具体用于从所述待处理语音中抽取所述目标虚拟人物的语音，得到目标语音，利用语音识别方法，将所述目标语音转换为目标文本，基于神经语言程序学方法对所述目标文本进行分析，确定所述目标虚拟人物的情感数据，根据所述情感数据和预先存储的面部表情向量、身体姿态向量与情感数据的关联关系，确定所述目标虚拟人物的面部表情向量和身体姿态向量，对所述目标虚拟人物的面部表情向量、身体姿态向量和情感数据进行整合，得到所述目标虚拟人物的驱动数据。

在本实施例的再一种可能设计中，所述待处理素材为待处理文本时，处理模块902，具体用于基于神经语言程序学方法对所述待处理文本进行分析，确定所述目标虚拟人物的情感数据，根据所述情感数据和预先存储的面部表情向量、身体姿态向量与情感数据的关联关系，确定所述目标虚拟人物的面部表情向量、身体姿态向量，对所述目标虚拟人物的面部表情向量、身体姿态向量和情感数据进行整合，得到所述目标虚拟人物的驱动数据。

可选的，上述获取模块901，还用于获取历史视频数据集合，所述历史视频数据集合包括多段视频数据，每段视频数据均包括至少一个虚拟人物；

上述处理模块902，还用于对所述多段视频数据中每个虚拟人物的面部表情向量、身体姿态向量和情感数据进行分析，建立并存储面部表情向量、身体姿态向量与情感数据的关联关系。

本申请实施例提供的装置，可用于执行图1至图8所示实施例中的方法，其实现原理和技术效果类似，在此不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，确定模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，ASIC)，或，一个或多个微处理器(digital signal processor，DSP)，或，一个或者多个现场可编程门阵列(field programmable gate array，FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(centralprocessing unit，CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，SOC)的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。

进一步的，根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

图10是用来实现本申请实施例的虚拟人物的驱动方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图10所示，该电子设备包括：一个或多个处理器1001、存储器1002，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器1001为例。

存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的虚拟人物的驱动方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的虚拟人物的驱动方法。

存储器1002作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的虚拟人物的驱动方法对应的程序指令/模块(例如，附图9所示的获取模块901、处理模块902和驱动模块903)。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的虚拟人物的驱动方法。

存储器1002可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据虚拟人物的驱动的电子设备的使用所创建的数据等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1002可选包括相对于处理器1001远程设置的存储器，这些远程存储器可以通过网络连接至虚拟人物的驱动的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

虚拟人物的驱动方法的电子设备还可以包括：输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接，图10中以通过总线连接为例。

输入装置1003可接收输入的数字或字符信息，以及产生与虚拟人物驱动的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

本申请实施例还提供一种虚拟人物的驱动方法，包括：

根据待处理素材确定目标虚拟人物的驱动数据；

该实施例的具体实现原理可以参见上述图1至图8所示实施例的记载，此处不再赘述。

根据本申请实施例的技术方案，通过获取待处理素材，该待处理素材为如下内容中的任意一种：视频、语音、文本，对待处理素材进行处理，得到待处理素材中目标虚拟人物的驱动数据，该驱动数据包括：情感数据以及该情感数据对应的面部表情向量和身体姿态向量，在播放待处理素材对应目标视频时，基于上述驱动数据驱动目标虚拟人物执行相应的动作。该技术方案中基于包括情感数据、该情感数据对应的面部表情向量和身体姿态向量的驱动数据对目标虚拟人物进行驱动，不仅实现了虚拟人物的精细控制，而且无需昂贵的头戴式设备，降低了成本，扩展了使用范围。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种虚拟人物的驱动方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述在播放所述待处理素材对应目标视频时，基于所述驱动数据驱动所述目标虚拟人物执行相应的动作，包括：

控制所述目标虚拟人物以所述情感数据发出语音。

3.根据权利要求1或2所述的方法，其特征在于，所述待处理素材为待处理视频时，所述对所述待处理素材进行处理，得到所述待处理素材中目标虚拟人物的驱动数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述每帧图片中人脸区域的面部表情进行量化，得到所述目标虚拟人物的面部表情向量，包括：

5.根据权利要求1所述的方法，其特征在于，所述待处理素材为待处理语音时，所述对所述待处理素材进行处理，得到所述待处理素材中目标虚拟人物的驱动数据，包括：

利用语音识别方法，将所述目标语音转换为目标文本；

6.根据权利要求1所述的方法，其特征在于，所述待处理素材为待处理文本时，所述对所述待处理素材进行处理，得到所述待处理素材中目标虚拟人物的驱动数据，包括：

7.根据权利要求5或6所述的方法，其特征在于，所述方法还包括：

8.一种虚拟人物的驱动装置，其特征在于，包括：获取模块、处理模块和驱动模块；

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。

11.一种虚拟人物的驱动方法，其特征在于，包括：

根据待处理素材确定目标虚拟人物的驱动数据；