CN111970535A

CN111970535A - 虚拟直播方法、装置、系统及存储介质

Info

Publication number: CN111970535A
Application number: CN202011023760.6A
Authority: CN
Inventors: 柴金祥; 其他发明人请求不公开姓名
Original assignee: Shanghai Movu Technology Co Ltd; Mofa Shanghai Information Technology Co Ltd
Current assignee: Shanghai Movu Technology Co Ltd; Mofa Shanghai Information Technology Co Ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2020-11-20
Anticipated expiration: 2040-09-25
Also published as: US20230308693A1; WO2022062678A1; US11785267B1; CN111970535B

Abstract

本公开涉及直播技术领域，尤其涉及一种虚拟直播方法、装置、系统及存储介质。所述方法：获取真实对象的真实特征数据，真实特征数据包括真实对象在表演过程中的动作数据和面部数据；根据真实特征数据确定虚拟角色的目标特征数据，虚拟角色为预设的动画模型，目标特征数据包括虚拟角色的动作数据和面部数据；根据目标特征数据，确定虚拟角色对应的视频推流数据；将虚拟角色对应的视频推流数据发送至目标直播平台，视频推流数据用于指示目标直播平台展示虚拟角色的虚拟直播。本公开实施例通过将真实对象的细腻表演直接迁移到虚拟角色上，使得虚拟角色的骨骼动作和面部情绪更加真实生动，保证了虚拟直播展示效果。

Description

虚拟直播方法、装置、系统及存储介质

技术领域

本公开涉及直播技术领域，尤其涉及一种虚拟直播方法、装置、系统及存储介质。

背景技术

虚拟直播为使用虚拟角色在直播平台上进行投稿活动的直播形式。

相关技术中，虚拟直播的主要方法包括：通过惯性捕捉设备获取真实主播的肢体动作，然后配套预制表情控制的方式来驱动虚拟角色。

显然，上述方法所生成的虚拟直播展示效果较差，仅适合低质量的直播应用，相关技术中尚未提供一种合理且有效的技术方案。

发明内容

有鉴于此，本公开提出了一种虚拟直播方法、装置、系统及存储介质。所述技术方案包括：

根据本公开的一方面，提供了一种虚拟直播方法，所述方法包括：

获取真实对象的真实特征数据，所述真实特征数据包括所述真实对象在表演过程中的动作数据和面部数据；

根据所述真实特征数据确定虚拟角色的目标特征数据，所述虚拟角色为预设的动画模型，所述目标特征数据包括所述虚拟角色的动作数据和面部数据；

根据所述目标特征数据确定所述虚拟角色对应的视频推流数据；

将所述虚拟角色对应的视频推流数据发送至目标直播平台，所述视频推流数据用于指示所述目标直播平台展示所述虚拟角色的虚拟直播。

在一种可能的实现方式中，所述根据所述目标特征数据确定所述虚拟角色对应的视频推流数据，包括：

当接收到第一触发指令时，根据所述目标特征数据和预设动作数据，确定所述虚拟角色对应的视频推流数据；

其中，所述预设动作数据用于指示所述虚拟角色的预设骨骼动作。

在另一种可能的实现方式中，所述根据所述目标特征数据确定所述虚拟角色对应的视频推流数据，包括：

当接收到第二触发指令时，根据所述目标特征数据和预设特效数据，确定所述虚拟角色对应的视频推流数据；

其中，所述预设特效数据用于指示所述虚拟角色的预设虚拟特效。

获取参考数据，所述参考数据包括所述真实对象在表演过程中的声音录制数据和/或虚拟相机位姿数据；

根据所述目标特征数据和所述参考数据，确定所述虚拟角色对应的视频推流数据。

在另一种可能的实现方式中，所述目标特征数据和所述参考数据均携带有时间码，所述根据所述目标特征数据和所述参考数据，确定所述虚拟角色对应的视频推流数据，包括：

根据所述目标特征数据和所述参考数据各自对应的所述时间码，将所述目标特征数据和所述参考数据进行对齐处理；

根据对齐处理后的所述目标特征数据和所述参考数据，确定所述虚拟角色对应的视频推流数据。

在另一种可能的实现方式中，所述根据对齐处理后的所述目标特征数据和所述参考数据，确定所述虚拟角色对应的视频推流数据，包括：

根据对齐处理后的所述虚拟相机位姿数据和所述目标特征数据，得到动画画面，所述虚拟相机位姿数据用于指示待生成的动画画面的预览相机视角；

对所述动画画面进行渲染得到渲染结果；

根据所述渲染结果和所述声音录制数据，确定所述虚拟角色对应的视频推流数据。

在另一种可能的实现方式中，所述获取真实对象的真实特征数据，包括：

获取所述真实对象的所述动作数据，所述动作数据包括肢体动作数据和/或手势动作数据；以及，

获取所述真实对象的所述面部数据，所述面部数据包括表情数据和/或眼神数据。

在另一种可能的实现方式中，所述获取所述真实对象的所述动作数据，包括：

获取所述真实对象的肢体上预设的多个光学标记点各自对应的位置数据，根据所述多个光学标记点各自对应的所述位置数据确定所述真实对象的所述肢体动作数据；和/或，

获取所述真实对象的手部上预设的多个光学标记点各自对应的位置数据，根据所述多个光学标记点各自对应的所述位置数据确定所述真实对象的所述手势动作数据。

在另一种可能的实现方式中，所述获取所述真实对象的所述面部数据，包括：

获取所述真实对象的面部视频帧，所述面部视频帧为包括所述真实对象的面部的视频帧，所述面部视频帧用于指示所述真实对象的所述面部数据。

在另一种可能的实现方式中，所述根据所述真实特征数据确定虚拟角色的目标特征数据，包括：

将所述真实特征数据转化为虚拟对象的虚拟特征数据，所述虚拟对象为对所述真实对象进行还原重建得到的虚拟模型，所述虚拟特征数据包括所述虚拟对象的动作数据和面部数据；

将所述虚拟特征数据进行重定向处理得到所述虚拟角色的所述目标特征数据。

在另一种可能的实现方式中，所述将所述虚拟特征数据进行重定向处理得到所述虚拟角色的所述目标特征数据，包括：

将所述虚拟对象的动作数据进行重定向处理，得到所述虚拟角色的动作数据，所述动作数据包括肢体动作数据和/或手势动作数据；以及，

将所述虚拟对象的面部数据进行重定向处理，得到所述虚拟角色的面部数据，所述面部数据包括表情数据和/或眼神数据。

在另一种可能的实现方式中，所述将所述虚拟对象的动作数据进行重定向处理，得到所述虚拟角色的动作数据，包括：

获取所述虚拟对象的骨骼数据与所述虚拟角色的骨骼数据之间的第一对应关系，所述骨骼数据用于指示骨骼的拓扑结构特征；

根据所述第一对应关系，将所述虚拟对象的动作数据重定向处理至所述虚拟角色上，得到所述虚拟角色的动作数据。

在另一种可能的实现方式中，所述将所述虚拟对象的面部数据进行重定向处理，得到所述虚拟角色的面部数据，包括：

获取所述虚拟对象的面部数据与所述虚拟角色的面部数据之间的第二对应关系，所述面部数据用于指示面部结构特征和情绪风格特征；

根据所述第二对应关系，将所述虚拟对象的面部数据重定向处理至所述虚拟角色上，得到所述虚拟角色的所述面部数据。

在另一种可能的实现方式中，所述根据所述真实特征数据确定虚拟角色的目标特征数据之后，还包括：

根据所述虚拟角色的动作数据、以及所述虚拟角色的骨骼和蒙皮的绑定关系，驱动并显示所述虚拟角色的蒙皮运动。

在另一种可能的实现方式中，所述根据所述目标特征数据，生成所述虚拟角色的动画之前，还包括：

获取携带有时间码的视频录制数据，所述视频录制数据包括对所述真实对象的表演内容进行录制得到的视频数据。

在另一种可能的实现方式中，所述方法还包括：

获取所述真实对象在表演过程中所用的真实道具的道具运动数据；

根据所述真实道具数据确定所述虚拟角色所用的虚拟道具的道具运动数据；

所述根据所述目标特征数据确定所述虚拟角色对应的视频推流数据，包括：

根据所述目标特征数据和所述虚拟道具的道具运动数据，确定所述虚拟角色对应的视频推流数据。

根据本公开的另一方面，提供了一种虚拟直播装置，所述装置包括：

获取模块，用于获取真实对象的真实特征数据，所述真实特征数据包括所述真实对象在表演过程中的动作数据和面部数据；

第一确定模块，用于根据所述真实特征数据确定虚拟角色的目标特征数据，所述虚拟角色为预设的动画模型，所述目标特征数据包括所述虚拟角色的动作数据和面部数据；

第二确定模块，用于根据所述目标特征数据确定所述虚拟角色对应的视频推流数据；

发送模块，用于将所述虚拟角色对应的视频推流数据发送至目标直播平台，所述视频推流数据用于指示所述目标直播平台展示所述虚拟角色的虚拟直播。

在一种可能的实现方式中，所述第二确定模块，还用于：

在另一种可能的实现方式中，所述第二确定模块，还用于：

根据本公开的另一方面，提供了一种计算机设备，所述计算机设备包括：处理器；用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据本公开的另一方面，提供了一种虚拟直播系统，所述虚拟直播系统包括：

动捕服装，所述动捕服装上设置有多个光学标记点；

第一相机，所述第一相机用于捕捉真实对象表演时的动作数据；

头盔，所述头盔上设置有第二相机，所述第二相机用于捕捉所述真实对象表演时的面部数据；

计算机设备，所述计算机设备用于执行上述的方法。

根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述的方法。

本公开实施例通过获取真实对象的真实特征数据，真实特征数据包括真实对象在表演过程中的动作数据和面部数据；根据真实特征数据确定虚拟角色的目标特征数据，虚拟角色为预设的动画模型，目标特征数据包括虚拟角色的动作数据和面部数据；根据目标特征数据确定虚拟角色对应的视频推流数据；将虚拟角色对应的视频推流数据发送至目标直播平台，视频推流数据用于指示目标直播平台展示虚拟角色的虚拟直播；即采用真实对象的表演生成虚拟角色对应的视频推流数据，并将其发送至目标直播平台，在一方面，避免了手动绘制虚拟动画的情况，提高了虚拟直播的效率；在另一方面，可以将真实对象的细腻表演直接迁移到虚拟角色上，使得虚拟角色的骨骼动作和面部情绪更加真实生动，保证了虚拟直播展示效果。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出了本公开一个示例性实施例提供的计算机设备的结构示意图；

图2示出了本公开一个示例性实施例提供的虚拟直播方法的流程图；

图3示出了本公开另一个示例性实施例提供的虚拟直播方法的流程图；

图4示出了本公开另一个示例性实施例提供的计算机设备的结构示意图；

图5示出了本公开另一个示例性实施例提供的虚拟直播方法的流程图；

图6示出了本公开一个示例性实施例提供的虚拟直播装置的结构示意图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

请参考图1，其示出了本公开一个示例性实施例提供的计算机设备的结构示意图。

本公开实施例中的虚拟直播方法可以由计算机设备执行。

计算机设备可以是包括多个设备或者系统的处理系统。比如，计算机设备为一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。本公开实施例对此不加以限定。为了方便说明，仅以计算机设备为一台服务器为例进行介绍。如图1所示，计算机设备包括处理器110、存储器120以及通信接口130。本领域技术人员可以理解，图1中示出的结构并不构成对该计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器110是计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体控制。处理器110可以由CPU实现，也可以由图形处理器(Graphics Processing Unit，GPU)实现。

存储器120可用于存储软件程序以及模块。处理器110通过运行存储在存储器120的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、虚拟模块和至少一个功能所需的应用程序(比如神经网络模型训练等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。存储器120可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory，SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，只读存储器(Read Only Memory，ROM)，磁存储器，快闪存储器，磁盘或光盘。相应地，存储器120还可以包括存储器控制器，以提供处理器110对存储器120的访问。

其中，处理器110用于执行以下功能：获取真实对象的真实特征数据，真实特征数据包括真实对象在表演过程中的动作数据和面部数据；根据真实特征数据确定虚拟角色的目标特征数据，虚拟角色为预设的动画模型，目标特征数据包括虚拟角色的动作数据和面部数据；根据目标特征数据确定虚拟角色对应的视频推流数据；将虚拟角色对应的视频推流数据发送至目标直播平台，视频推流数据用于指示目标直播平台展示虚拟角色的虚拟直播。

本公开实施例提供的虚拟直播方法涉及直播技术领域，可选的，应用于虚拟形象直播领域；技术上，主要涉及计算机视觉，计算机图形学技术领域；可选的，涉及到动作捕捉，表情捕捉，眼神捕捉，动作重定向，表情迁移，引擎实时渲染等方面的技术。虚拟直播技术底层依赖于表演动画技术，表演动画技术包括对真实对象的骨骼动作和面部情绪进行捕捉，以实时生成虚拟角色的动画视频的一种动画制作技术，比如动画视频为三维动画视频。本公开实施例对此不加以限定。

下面，采用几个示例性实施例对本公开实施例提供的虚拟直播方法进行介绍。

请参考图2，其示出了本公开一个示例性实施例提供的虚拟直播方法的流程图，本实施例以该方法用于图1所示的计算机设备中来举例说明。该方法包括以下几个步骤。

步骤201，获取真实对象的真实特征数据，真实特征数据包括真实对象在表演过程中的动作数据和面部数据。

在真实对象的表演过程中，计算机设备通过光学捕捉设备对真实对象的骨骼动作进行捕捉，得到该真实对象的动作数据；同时，通过光学捕捉设备对真实对象的面部情绪进行捕捉，得到该真实对象的面部数据。

可选的，光学捕捉设备包括红外相机、RGB相机和深度相机中的至少一种。本公开实施例对光学捕捉设备的类型不加以限定。

真实对象为在真实环境中的可活动对象。比如，真实对象为人物。本公开实施例对此不加以限定。下面仅以真实对象为人物为例进行说明。

真实特征数据包括真实对象在表演过程中的动作数据和面部数据，动作数据用于指示真实对象的骨骼动作，面部数据用于指示真实对象的面部情绪。

其中，真实对象的动作数据包括肢体动作数据和/或手势动作数据，肢体动作数据用于指示真实对象的肢体动作，手势动作数据用于指示真实对象的手部动作。

需要说明的是，本公开实施例中肢体为身体中除了手部以外的身体部位，即真实对象的身体包括真实对象的肢体和除肢体以外的手部。

真实对象的面部数据包括表情数据和/或眼神数据，表情数据用于指示真实对象的面部表情，眼神数据用于指示真实对象的眼球状态。

步骤202，根据真实特征数据确定虚拟角色的目标特征数据，虚拟角色为预设的动画模型，目标特征数据包括虚拟角色的动作数据和面部数据。

计算机设备将真实对象的真实特征数据转化为虚拟角色的目标特征数据。

可选的，虚拟角色为预设的三维或者二维动画模型。虚拟角色为在虚拟环境中的可活动对象。可选的，虚拟角色为虚拟人物、虚拟动物、虚拟宠物或者其他虚拟形态的对象。

虚拟角色的目标特征数据包括虚拟角色的动作数据和面部数据。虚拟角色的动作数据包括肢体动作数据和/或手势动作数据，虚拟角色的面部数据包括表情数据和/或眼神数据。

目标特征数据与真实特征数据是相对应的，目标特征数据的含义可类比参考真实特征数据的相关描述，在此不再赘述。

需要说明的是，计算机设备获取真实对象的面部数据可以是以帧为单位获取的，后续根据真实特征数据确定虚拟角色的面部数据也可以是以帧为单位对应转化的。本公开实施例对此不加以限定。

步骤203，根据目标特征数据确定虚拟角色对应的视频推流数据。

计算机设备根据虚拟角色的目标特征数据，实时生成虚拟角色对应的视频推流数据。

计算机设备将虚拟角色的目标特征数据进行合成和渲染处理，实时生成虚拟角色对应的视频推流数据。

可选的，视频推流数据为虚拟角色的虚拟直播的推流数据，视频推流数据用于指示目标直播平台展示虚拟角色的虚拟直播。

视频推流数据是根据虚拟角色的目标特征数据生成的。可选地，计算机设备根据虚拟角色的目标特征数据，生成虚拟角色的表演内容，根据虚拟角色的表演内容生成该虚拟角色对应的视频推流数据。

步骤204，将虚拟角色对应的视频推流数据发送至目标直播平台，视频推流数据用于指示目标直播平台展示虚拟角色的虚拟直播。

计算机设备将虚拟角色对应的视频推流数据发送至目标直播平台，该目标直播平台用于展示虚拟角色的虚拟直播。其中，目标直播平台为一个或者多个直播平台。

该目标直播平台用于在虚拟环境中展示虚拟角色的动画视频即虚拟直播。虚拟角色的动画视频包括三维或者二维动画视频。下面，为了方便说明，仅以虚拟角色的动画视频为三维动画视频为例进行说明。

示意性的，虚拟环境为三维虚拟环境。虚拟环境为营造出的供虚拟角色进行活动的场景。该虚拟环境可以是对真实世界的仿真环境，也可以是半仿真半虚构的环境，还可以是纯虚构的环境。本公开实施例对此不加以限定。

在一个示意性的例子中，真实对象为人物，比如演员，演员按照预设的剧本和分镜要求，根据导演的指导，将剧情中角色所需要的表演，包括肢体动作、手势动作、表情和眼神表演出来，相应的捕捉设备对该演员的肢体动作、手势动作、表情和眼神进行捕捉，计算机设备获得到该演员的真实特征数据，将该演员的真实特征数据转化为虚拟人物的目标特征数据，即将演员的肢体动作和手势动作转移到虚拟人物上，将演员的表情和眼神转移到虚拟人物的面部，基于该目标特征数据实时生成该虚拟人物对应的视频推流数据，并将其推流至目标直播平台。

由于相关技术中惯性捕捉设备捕捉动作时本身的局限性，导致精度不高的情况，而且，长时间直播的时候会发生动作飘移，更加严重的影响精度；而预制表情控制的方式，目前表情数量比较有限，而且表情和表情之间的过渡不自然；这样的方案，只适合低质量的直播应用。为此，本公开实施例提供的虚拟直播方法，通过获取真实对象的真实特征数据，真实特征数据包括真实对象在表演过程中的动作数据和面部数据；将真实特征数据转化为虚拟角色的目标特征数据，目标特征数据包括虚拟角色的动作数据和面部数据；根据目标特征数据确定虚拟角色对应的视频推流数据；将虚拟角色对应的视频推流数据发送至目标直播平台，视频推流数据用于指示目标直播平台展示虚拟角色的虚拟直播；即采用真实对象的表演生成虚拟角色对应的视频推流数据，并将其发送至目标直播平台，在一方面，避免了手动绘制虚拟动画的情况，提高了虚拟直播的效率；在另一方面，可以将真实对象的细腻表演直接迁移到虚拟角色上，使得虚拟角色的骨骼动作和面部情绪更加真实生动，保证了虚拟直播展示效果。

本公开实施例提供的虚拟直播方法，还通过在真实对象的表演过程中，通过光学捕捉设备对真实对象的骨骼动作和面部情绪进行捕捉，得到该真实对象的真实特征数据，避免了通过惯性捕捉设备捕捉动作导致的误差和偏移，从质量上，可以获得实时的高精细度、高质量的动作驱动和表情驱动的效果；从稳定性上，依赖于动作捕捉和表情捕捉技术，可以支持长时间的稳定直播，进一步保证了虚拟直播展示效果。

由于当前的虚拟直播缺少与预制动画的融合方案，所以虚拟直播只能依赖于真实对象的表演，没法实现一些真实对象在现场做不到的动作，缺少丰富度；因此在实时虚拟直播的情况下，可以将预设动作数据导入计算机设备，并在接收到触发指令时触发并合成，从而将虚拟角色的动作数据与预设动作数据进行融合，使得虚拟角色能够实现一些真实对象在现场做不到的动作，以便后续达到更好的直播展示效果。另外，为了使得实时虚拟直播的显示内容更加丰富，还可以将预设特效数据导入计算机设备，并在接收到触发指令时进行合成。

因此，计算机设备根据目标特征数据以及预设融合数据，确定虚拟角色对应的视频推流数据；其中，预设融合数据用于指示预设骨骼动作和/或预设虚拟特效。

可选的，预设融合数据包括预设动作数据和/或预设特效数据，预设动作数据用于指示虚拟角色的预设骨骼动作，预设特效数据用于指示虚拟角色的预设虚拟特效。示意性的，预设融合数据携带有指定时间码，该指定时间码用于指示在合成动画画面时加入预设融合数据的时间点。

在一种可能的实现方式中，基于图2提供的实施例，上述步骤203可以被替代实现成为如下几个步骤，如图3所示：

步骤301，当接收到第一触发指令时，计算机设备根据目标特征数据和预设动作数据，确定虚拟角色对应的视频推流数据；其中，预设动作数据用于指示虚拟角色的预设骨骼动作。

可选地，第一触发指令为触发加入预设动作数据的用户操作信号。示意性的，触发指令包括点击操作指令、滑动操作指令、按压操作指令、长按操作指令中的任意一种或多种的组合。

在其它可能的实现方式中，触发指令也可以事件触发形式或者语音触发形式实现。比如，计算机设备接收用户输入的语音信号，对该语音信号进行解析获取语音内容，当语音内容中存在与预设触发信息相匹配的关键字词时，即确定接收到触发指令。本公开实施例对此不加以限定。

演员在现场做不到某个动作，比如该演员不会做某个动作，或者做的不够专业；或者是高难度危险的动作，在实际直播的时候，无法现场立刻实现；或者现在不太适宜做的动作，例如在地上滚动，可能影响动作的捕捉。在一个示意性的例子中，虚拟角色在虚拟直播过程中有跳舞的动作，演员跳舞水平有限，不能很好的传递出跳舞的动作，因此提前捕捉了舞蹈动作，根据该舞蹈动作生成虚拟角色的舞蹈动作，将虚拟角色的跳舞动作放到预设动作库中作为预设动作数据。在实际的虚拟直播过程中，到虚拟角色需要跳舞时，通过第一触发指令在预制动作库中调用预设动作数据，从而后续在目标直播平台上呈现虚拟角色的跳舞动作。

步骤302，当接收到第二触发指令时，计算机设备根据目标特征数据和预设特效数据，确定虚拟角色对应的视频推流数据；其中，预设特效数据用于指示虚拟角色的预设虚拟特效。

第二触发指令为触发加入预设特效数据的用户操作信号，第二触发指令不同于第一触发指令。第二触发指令的实现形式可类比参考第一触发指令的实现形式，本公开实施例对第二触发指令的实现形式不加以限定。

可选地，预设虚拟特效包括风雨雷电、烟火、碎裂等特效。本公开实施例对此不加以限定。

需要说明的是，步骤301和步骤302可以择一执行，也可以全部执行。且本公开实施例对步骤301和步骤302的执行顺序不加以限定。

本公开实施例提供了一种虚拟直播系统，该虚拟直播系统包括：动捕服装，动捕服装上设置有多个光学标记点；第一相机，第一相机用于捕捉真实对象表演时的动作数据；头盔，头盔上设置有第二相机，第二相机用于捕捉真实对象表演时的面部数据；第一相机和第二相机分别与计算机设备建立有通信连接，计算机设备用于执行本公开实施例提供的虚拟直播方法。其中，设置至少两个第一相机用于捕捉真实对象表演时的动作数据，根据实际情况可设置多个数量的第一相机；设置至少一个第二相机，用于捕捉真实对象表演时的面部数据，根据实际情况可设置多个数量的第二相机。

请参考图4，其示出了本公开另一个示例性实施例提供的计算机设备的结构示意图。

该计算机设备10包括动作捕捉系统20、动作重定向系统30、面部捕捉系统40、面部重定向系统50、道具捕捉系统60、道具重定向系统62、声音录制系统64、虚拟相机位姿跟踪系统70、参考视频录制系统80、时间码同步系统82、视频合成系统90和推流系统96。

动作捕捉系统20包括肢体捕捉系统21和手势捕捉系统22，肢体捕捉系统21和手势捕捉系统22分别与动作重定向系统30相连。

肢体捕捉系统21用于获取真实对象的肢体上预设的多个光学标记点各自对应的位置数据，根据多个光学标记点各自对应的位置数据确定真实对象的肢体动作数据；根据真实对象的肢体动作数据进行肢体重建，得到虚拟对象的肢体动作数据。

其中，虚拟对象为对真实对象进行还原重建得到的虚拟模型。

手势捕捉系统22用于获取真实对象的手部上预设的多个光学标记点各自对应的位置数据，根据多个光学标记点各自对应的位置数据确定真实对象的手势动作数据；根据真实对象的手势动作数据进行手部重建，得到虚拟对象的手势动作数据。

可选的，肢体捕捉系统21用于通过第一相机进行肢体捕捉；同时，手势捕捉系统22用于通过第一相机进行手势捕捉。示意性的，第一相机为红外相机。

动作重定向系统30用于将虚拟对象的动作数据进行重定向处理，得到虚拟角色的动作数据，动作数据包括肢体动作数据和/或手势动作数据。

面部捕捉系统40包括表情捕捉系统41和眼神捕捉系统42，表情捕捉系统41和眼神捕捉系统42分别与面部重定向系统50相连。

表情捕捉系统41用于获取真实对象的面部视频帧，面部视频帧为包括真实对象的面部的视频帧，面部视频帧用于指示真实对象的面部数据；根据真实对象的面部数据进行面部重建，得到虚拟对象的面部数据。

可选的，表情捕捉系统41用于通过真实对象的头盔上的第二相机获取真实对象的面部视频帧。比如，第二相机为头戴式RGB相机，或者RGBD相机。

面部重定向系统50用于将虚拟对象的面部数据进行重定向处理，得到虚拟角色的面部数据。本公开实施例中，面部重定向过程中的重定向处理也称为表情迁移处理。

需要说明的是，本公开实施例中的动作数据包括肢体动作数据和/或手势动作数据，面部数据包括表情数据和/或眼神数据。即，真实对象的动作数据包括真实对象的肢体动作数据和/或手势动作数据，真实对象的面部数据包括真实对象的表情数据和/或眼神数据。虚拟对象的动作数据包括虚拟对象的肢体动作数据和/或手势动作数据，虚拟对象的面部数据包括虚拟对象的表情数据和/或眼神数据。虚拟角色的动作数据包括虚拟角色的肢体动作数据和/或手势动作数据，虚拟角色的面部数据包括虚拟角色的表情数据和/或眼神数据。动作重定向系统30、面部重定向系统50、声音录制系统64、虚拟相机位姿跟踪系统70分别与视频合成系统90相连。

动作重定向系统30还用于将重定向后得到的虚拟角色的动作数据输入至视频合成系统90中。

面部重定向系统50还用于将重定向后得到的虚拟角色的面部数据输入至视频合成系统90中。

道具捕捉系统60与道具重定向系统62相连。道具捕捉系统60用于获取真实对象在表演过程中所用的真实道具的道具运动数据。

道具捕捉系统60用于在真实对象的表演过程中，捕捉所用的真实道具的运动得到真实道具的道具运动数据。其中，真实道具的道具运动数据用于指示真实道具的运动，真实道具可以是足球、篮球、刀、剑和楼梯等，本公开实施例对真实道具的类型不加以限定。

可选地，道具捕捉系统60用于通过第一相机进行道具捕捉。示意性的，第一相机为红外相机。

可选地，道具捕捉系统60用于获取真实道具上预设的光学标记点对应的位置数据，根据光学标记点对应的位置数据确定真实道具的道具运动数据；根据真实道具的道具运动数据进行道具重建，得到虚拟中间道具的道具运动数据。

其中，虚拟中间道具为对真实道具进行还原重建得到的虚拟模型。

道具重定向系统62用于将虚拟中间道具的道具运动数据进行重定向处理，得到虚拟角色所用的虚拟道具的道具运动数据。其中，虚拟道具的道具运动数据用于指示虚拟道具的运动。

道具重定向系统62还用于将重定向后得到的虚拟道具的道具运动数据输入至视频合成系统90中。

声音录制系统64用于对真实对象在表演过程中的声音进行录制得到声音录制数据，并将声音录制数据输入至视频合成系统90中。

虚拟相机位姿跟踪系统70用于捕捉虚拟相机得到虚拟相机位姿数据，并将虚拟相机位姿数据输入至视频合成系统90中。虚拟相机位姿数据用于指示待生成的动画画面的预览相机视角。其中，虚拟相机位姿数据包括：虚拟相机位置、虚拟相机方向，以及虚拟相机参数，比如虚拟相机参数包括焦距。

参考视频录制系统80用于对真实对象的表演内容进行拍摄得到视频录制数据。视频录制数据可以作为视频推流数据的参考数据。即视频录制数据是视频合成系统90的参考数据。

可选的，本公开实施例中的肢体捕捉和手势捕捉，表情捕捉和眼神捕捉，声音录制，参考视频录制以及道具捕捉是同时进行的。但由于肢体捕捉和手势捕捉，表情捕捉和眼神捕捉，声音录制，参考视频录制以及道具捕捉是通过不同的系统完成的，由于通讯上的延迟，可能导致不同信号不同步，而最后生成的动画是需要做到上述各个系统是完全同步的，所以，在整个计算机设备10中加入了时间码同步系统82，计算机设备10中的各个系统基于相同的时间码，进行同步。

视频合成系统90也称为渲染引擎，用于将导入的多个数据(包括肢体动作数据、手势动作数据、表情数据、眼神数据、声音录制数据、虚拟相机位姿数据、虚拟道具的道具运动数据)按照时间码进行同步，在同步后将导入的多个数据进行合成并进行渲染得到视频推流数据。

视频合成系统90中包括预设动作处理系统92和预设特效处理系统94。

预设动作处理系统92用于在预设动作库中存储预设动作数据，预设动作数据用于指示虚拟角色的预设骨骼动作。在虚拟直播的过程中当接收到第一触发指令时，调用存储的预设动作数据；根据目标特征数据和预设动作数据，确定虚拟角色对应的视频推流数据。

第一触发指令的触发形式可以包括人为触发、事件触发、语音触发、按钮触发、动作触发中的任意一种或多种的组合。本公开实施例对此不加以限定。

预设特效处理系统94用于存储预设特效数据，预设特效数据用于指示虚拟角色的预设虚拟特效。在虚拟直播的过程中当接收到第二触发指令时，调用存储的预设特效数据；根据目标特征数据和预设特效数据，确定虚拟角色对应的视频推流数据。可选地，第二触发指令不同于第一触发指令。

可选地，视频合成系统90中存储预设素材，预设素材包括灯光、头发材质、场景材质、场景纹理、场景贴图中的至少一种。视频合成系统90用于在虚拟直播的过程中直接调用存储的预设素材。在虚拟直播过程中，若实时制作场景等素材会耽搁直播的实时性，因此为了能够保证虚拟直播的实时性和稳定性，提前制作素材，在虚拟直播的过程中直接调用素材即可。

视频合成系统90与推流系统96相连，推流系统96与目标直播平台98相连。视频合成系统90还用于通过推流系统96将渲染后的视频推流数据发送至目标直播平台98。该目标直播平台98用于展示虚拟角色的虚拟直播。

需要说明的一点是，上述各个系统中涉及的步骤的实现细节可参考下述实施例中的相关描述，在此先不介绍。

需要说明的另一点是，上述实施例提供的系统在实现其功能时，仅以上述各个系统的划分进行举例说明，实际应用中，可以根据实际需要而将上述功能分配由不同的系统完成，以完成以上描述的全部或者部分功能。比如，肢体动作捕捉系统和手势动作捕捉系统可以合并为一个系统即动作捕捉系统，表情捕捉系统和眼神捕捉系统可以合并为一个系统即面部捕捉系统。动作捕捉系统和动作重定向系统可以合并为一个系统即动作处理系统，面部捕捉系统和面部重定向系统可以合并为一个系统即面部处理系统，道具捕捉系统和道具重定向系统可以合并为一个系统即道具处理系统。上述各个系统还可以全部合并为一个系统。本实施例对此不加以限定。

请参考图5，其示出了本公开另一个示例性实施例提供的虚拟直播方法的流程图，本实施例以该方法用于图4所示的计算机设备中来举例说明。该方法包括以下几个步骤。

步骤501，获取真实对象的动作数据，动作数据包括肢体动作数据和/或手势动作数据。

在真实对象的表演过程中，动作捕捉系统获取真实对象的动作数据，动作数据包括肢体动作数据和/或手势动作数据。

以真实对象为人物(比如演员)为例，动作捕捉是记录演员的动作数据。动作捕捉是由穿戴或者贴附在演员身上的装置来采集。比如，演员穿着一套带有相机跟踪标记的衣服或者是内置传感器的衣服，通过相机跟踪标记的反光或者传感器的移动来完成动作捕捉过程。

在一种可能的实现方式中，获取真实对象的肢体上预设的多个光学标记点各自对应的位置数据，根据多个光学标记点各自对应的位置数据确定真实对象的肢体动作数据；和/或，获取真实对象的手部上预设的多个光学标记点各自对应的位置数据，根据多个光学标记点各自对应的位置数据确定真实对象的手势动作数据。

可选的，真实对象穿着一套设置有多个光学标记点的动捕服装，动捕服装覆盖在该真实对象的肢体和手部上。示意性的，动捕服装包括覆盖在该真实对象的肢体上的衣服和覆盖在该真实对象的手部上的手套。

可选的，真实对象的衣服上预设的多个光学标记点与真实对象的肢体的多个关节点存在一一对应的关系。真实对象的手套上预设的多个光学标记点与真实对象的手部的多个关节点存在一一对应的关系。

动作捕捉系统通过第一光学捕捉设备获取真实对象的动作数据。示意性的，第一光学捕捉设备为红外相机。动作捕捉系统通过红外相机捕捉真实对象身上的多个反光点(包括：多个光学标记点和多个光学标记点)位置，并实时解算出真实对象的身材和跟踪真实对象的动作。即动作捕捉系统根据多个反光点位置确定真实对象的身材和真实对象的动作数据，动作数据包括肢体动作数据和手势动作数据。

可选的，肢体动作数据用于指示真实对象的肢体动作，肢体动作数据包括真实对象的肢体上的各个关节点的三维位置坐标和运动参数。示意性的，关节点为预设位置上的关键关节点，比如头部、颈部、肩膀、手臂、腿部等等。

手势动作数据用于指示真实对象的手部动作，手势动作数据包括真实对象的手部上的各个关节点的三维位置坐标和运动参数。

步骤502，根据真实对象的动作数据，确定虚拟角色的动作数据。

动作捕捉系统将真实对象的动作数据转化为虚拟对象的动作数据，动作重定向系统将虚拟对象的动作数据进行重定向处理得到虚拟角色的动作数据。

其中，虚拟对象为对真实对象进行还原重建得到的虚拟模型。可选的，虚拟对象为对真实对象进行一比一还原重建得到的虚拟模型。

可选的，虚拟对象为三维或者二维虚拟模型。下面仅以虚拟对象为三维虚拟模型为例进行说明。虚拟对象的动作数据与真实对象的动作数据存在映射关系，虚拟对象的动作数据的含义可类比参考真实对象的动作数据的相关描述，在此不再赘述。

在一种可能的实现方式中，动作重定向系统将虚拟对象的动作数据进行重定向处理得到虚拟角色的动作数据，包括：获取虚拟对象的骨骼数据与虚拟角色的骨骼数据之间的第一对应关系，骨骼数据用于指示骨骼的拓扑结构特征；根据第一对应关系，将虚拟对象的动作数据重定向处理至虚拟角色上，得到虚拟角色的动作数据。

在将虚拟对象的动作数据进行重定向处理，得到虚拟角色的动作数据之前，建立虚拟对象的骨骼数据与虚拟角色的骨骼数据之间的第一对应关系。其中，虚拟对象的骨骼数据用于指示虚拟对象的骨骼的拓扑结构特征，虚拟角色的骨骼数据用于指示虚拟角色的骨骼的拓扑结构特征。

其中，骨骼的拓扑结构特征用于指示骨骼的分布情况和骨骼之间的连接状态。

动作重定向系统根据第一对应关系，将虚拟对象的动作数据重定向处理至虚拟角色上，得到虚拟角色的动作数据，包括：根据第一对应关系，将虚拟对象的肢体动作数据重定向处理至虚拟角色上，得到虚拟角色的肢体动作数据；和/或，将虚拟对象的手势动作数据重定向处理至虚拟角色上，得到虚拟角色的手势动作数据。

可选的，在根据真实对象的动作数据，确定虚拟角色的动作数据之后，根据虚拟角色的动作数据、以及虚拟角色的骨骼和蒙皮的绑定关系，驱动并显示虚拟角色的蒙皮运动。其中，虚拟角色的骨骼和蒙皮的绑定关系是预先设置的。

步骤503，获取真实对象的面部数据，面部数据包括表情数据和/或眼神数据。

在一种可能的实现方式中，获取真实对象的面部视频帧，面部视频帧为包括真实对象的面部的视频帧，面部视频帧用于指示所述真实对象的面部数据。

可选的，面部捕捉系统通过第二光学捕捉设备获取真实对象的面部视频帧。

可选的，真实对象的表情数据用于指示真实对象的面部表情，表情数据包括真实对象的面部上的各个特征点的三维位置坐标和运动参数。各个特征点为真实对象的面部上的轮廓和五官上的各个特征点。

可选的，真实对象的眼神数据用于指示真实对象的眼球状态，眼神数据包括真实对象的眼球上的各个特征点的三维位置坐标和运动参数。本实施例对表情数据和眼神数据的数据结构不加以限定。

步骤504，根据真实对象的面部数据，确定虚拟角色的面部数据。

面部捕捉系统将真实对象的面部数据转化为虚拟对象的面部数据，面部重定向系统将虚拟对象的面部数据进行重定向处理得到虚拟角色的面部数据。其中，虚拟对象为对真实对象进行还原重建得到的虚拟模型。

其中，虚拟对象的面部数据包括虚拟角色的表情数据和/或眼神数据。虚拟对象的面部数据与真实对象的面部数据存在映射关系，虚拟对象的面部数据的含义可类比参考真实对象的面部数据的相关描述，在此不再赘述。

可选的，面部捕捉系统将真实对象的面部数据转化为虚拟对象的面部数据，包括：面部捕捉系统根据真实对象的面部数据，调用第一预设面部处理模型输出得到虚拟对象的面部模型，面部模型用于指示虚拟对象的面部数据。

可选的，真实对象的面部视频帧为包括真实对象的面部的视频帧，面部视频帧为二维形式的数据，虚拟对象的面部模型用于指示虚拟角色的表情数据和/或眼神数据，面部模型为三维形式的数据，第一预设面部处理模型用于将真实对象的二维的面部视频帧转化为虚拟对象的三维的面部模型。

可选的，第一预设面部处理模型为预先训练的神经网络模型，用于表示真实对象的面部视频帧与虚拟对象的面部模型之间的相关关系。

可选的，第一预设面部处理模型为预设的数学模型，该第一预设面部处理模型包括真实对象的面部视频帧与虚拟对象的面部模型之间的模型系数。模型系数可以为固定值，也可以是动态修改的值。

可选的，面部重定向系统将虚拟对象的面部数据进行重定向处理得到虚拟角色的面部数据，包括：获取虚拟对象的面部数据与虚拟角色的面部数据之间的第二对应关系，面部数据用于指示面部结构特征和情绪风格特征；根据第二对应关系，将虚拟对象的面部数据重定向处理至虚拟角色上，得到虚拟角色的面部数据。

在将虚拟对象的面部数据进行重定向处理，得到虚拟角色的面部数据之前，建立虚拟对象的面部数据与虚拟角色的面部数据之间的第二对应关系。其中，虚拟对象的面部数据用于指示虚拟对象的面部结构特征和情绪风格特征，虚拟角色的面部数据用于指示虚拟角色的面部结构特征和情绪风格特征。

其中，面部结构特征用于指示面部的轮廓和五官的分布情况。情绪风格特征用于指示面部上的多个特征点所体现的情绪，比如开心、难过、无奈等等。

可选的，面部重定向系统根据第二对应关系，将虚拟对象的面部数据重定向处理至虚拟角色上，得到虚拟角色的面部数据，包括：根据第二对应关系，将虚拟对象的表情数据重定向处理至虚拟角色上，得到虚拟角色的表情数据；和/或，将虚拟对象的眼神数据重定向处理至虚拟角色上，得到虚拟角色的眼神数据。

可选的，面部重定向系统将虚拟对象的面部数据进行重定向处理得到虚拟角色的面部数据，包括：面部重定向系统根据虚拟对象的面部数据，调用第二预设面部处理模型输出得到虚拟角色的面部数据。

可选的，第二预设面部处理模型为预先训练的神经网络模型，用于表示虚拟对象的面部数据与虚拟角色的面部数据之间的相关关系。

可选的，第二预设面部处理模型为预设的数学模型，该第二预设面部处理模型包括虚拟对象的面部数据与虚拟角色的面部数据之间的模型系数。模型系数可以为固定值，也可以是动态修改的值。

需要说明的是，面部重定向过程中的重定向处理也称为表情迁移处理，本公开实施例对表情迁移处理的具体实现方式不加以限定。以真实对象为人物(比如演员)为例，第二光学捕捉设备为头戴式RGB相机为例，面部捕捉系统通过演员佩戴的头戴式RGB相机，捕捉演员在表演过程中的表情和眼神得到一个视频，视频包括多个面部视频帧；对于每帧面部视频帧，重建得到虚拟对象的三维的面部模型，将虚拟对象的三维的面部模型进行重定向处理，得到虚拟角色的面部数据。

对于捕捉演员在表演过程中的表情和眼神，可采用以下方法进行捕捉。脸上描点法，在演员的脸上标记处若干个标记点，捕捉人脸，获得人脸信息；脸上不描点法：演员的脸上无标记点，运用算法直接在演员的脸上提取信息，捕捉人脸，获得人脸信息。在人脸捕捉过程中，可以采用单个相机或者多个相机对人脸进行捕捉。单个相机轻便易戴，也可以达到多个相机的结果，多个相机可以实现多个角度的人脸数据的捕捉。对于捕捉设备，可以采用RGB相机和/或RGBD相机。

步骤505，获取参考数据，参考数据包括真实对象在表演过程中的声音录制数据和/或虚拟相机位姿数据。

在真实对象的表演过程中，在对真实对象的动作数据和面部数据进行捕捉的同时，声音录制系统将真实对象的声音进行录制得到真实对象的声音录制数据，虚拟相机位姿跟踪系统对虚拟相机进行捕捉得到虚拟相机位姿数据。

即在真实对象的表演过程中，同步捕捉一个虚拟相机，对虚拟相机的位姿和运动轨迹进行记录得到虚拟相机位姿数据。虚拟相机位姿数据用于指示待生成的动画画面的预览相机视角。预览相机视角是在虚拟环境中通过虚拟相机对虚拟角色和/或其他场景信息进行观察时的角度。即待生成的动画画面是以虚拟相机的视角对虚拟角色进行观察所采集到的动画画面。其中，虚拟相机位姿数据包括：虚拟相机位置、虚拟相机方向，以及虚拟相机参数，比如虚拟相机参数包括焦距。

需要说明的是，步骤501和步骤502所示的动作数据的捕捉和重定向过程，与步骤503和步骤504所示的面部数据的捕捉和重定向过程、与步骤505所示的参考数据的获取过程可以并列执行，不分先后顺序。

步骤506，根据目标特征数据和参考数据，确定虚拟角色对应的视频推流数据。

视频合成系统根据目标特征数据和参考数据，实时确定虚拟角色的动画视频对应的视频推流数据。可选的，虚拟角色的动画视频包括三维或者二维动画视频。

其中，视频推流数据用于指示目标直播平台展示虚拟角色的虚拟直播。

声音录制系统录制得到真实对象的声音录制数据后，将声音录制数据录入至视频合成系统。视频合成系统根据录入的声音录制数据确定虚拟角色的声音数据。

可选的，真实对象的声音录制数据即为虚拟角色的声音数据，或者将真实对象的声音录制数据进行预设声音处理得到虚拟角色的声音数据，或者将声音录制数据替换为配音数据得到虚拟角色的声音数据。本公开实施例对此不加以限定。

虚拟相机位姿跟踪系统捕捉得到虚拟相机位姿数据后，将虚拟相机位姿数据录入至视频合成系统。视频合成系统根据录入的虚拟相机位姿数据确定待展示的动画视频的预览相机视角。

可选的，目标特征数据和参考数据均携带有时间码，根据目标特征数据和参考数据，确定虚拟角色对应的视频推流数据，包括：根据目标特征数据和参考数据各自对应的时间码，将目标特征数据和参考数据进行对齐处理；根据对齐处理后的目标特征数据和参考数据，确定虚拟角色对应的视频推流数据。

其中，对齐处理后的目标特征数据和参考数据是时间上同步的数据。

示意性的，动作数据、面部数据、声音录制数据和虚拟相机位姿数据均携带有时间码，视频合成系统将导入的动作数据、面部数据、声音录制数据和虚拟相机位姿数据按照时间码进行对齐处理，对齐处理后再进行合成和渲染处理得到虚拟角色对应的视频推流数据。

可选的，视频合成系统根据对齐处理后的所述目标特征数据和所述参考数据，确定所述虚拟角色对应的视频推流数据，包括：根据对齐处理后的所述虚拟相机位姿数据和所述目标特征数据，得到动画画面，所述虚拟相机位姿数据用于指示待生成的动画画面的预览相机视角；对所述动画画面进行渲染得到渲染结果；根据所述渲染结果和所述声音录制数据，确定所述虚拟角色对应的视频推流数据。其中，虚拟相机位姿数据包括：虚拟相机位置、虚拟相机方向，以及虚拟相机参数，比如虚拟相机参数包括焦距。

可选的，视频合成系统获取携带有时间码的视频录制数据，视频录制数据包括对真实对象的表演内容进行录制得到的视频数据。视频录制数据可以作为待生成的视频推流数据的参考数据。

可选地，当接收到第一触发指令时，视频合成系统根据目标特征数据和预设动作数据，确定虚拟角色对应的视频推流数据；其中，预设动作数据用于指示虚拟角色的预设骨骼动作。

可选地，当接收到第一触发指令时，视频合成系统根据对齐处理后的虚拟相机位姿数据和目标特征数据以及预设动作数据，得到动画画面。

可选地，当接收到第二触发指令时，视频合成系统根据目标特征数据和预设特效数据，确定虚拟角色对应的视频推流数据；其中，预设特效数据用于指示虚拟角色的预设虚拟特效。

可选地，当接收到第二触发指令时，视频合成系统根据对齐处理后的虚拟相机位姿数据和目标特征数据以及预设特效数据，得到动画画面。

需要说明的是，视频合成系统在生成动画画面的过程中加入预设动作数据和/或预设特效数据的相关细节可参考上述实施例中的相关描述，在此不再赘述。

步骤507，将虚拟角色对应的视频推流数据发送至目标直播平台。

计算机设备将虚拟角色对应的视频推流数据发送至目标直播平台，该目标直播平台用于展示虚拟角色的虚拟直播。需要说明的是，相关细节可参考上述实施例中的相关描述，在此不再赘述。

在一个示意性的例子中，以真实对象为演员，虚拟对象为虚拟演员模型，虚拟角色为预设的虚拟动画角色为例，动作捕捉系统通过红外相机捕捉演员身上的多个反光点位置，根据多个反光点位置将演员的动作数据重建为虚拟演员模型的动作数据，动作重定向系统将虚拟演员模型的动作数据进行重定向处理得到虚拟动画角色的动作数据。面部捕捉系统通过演员佩戴的头戴式RGB相机获取演员的面部视频帧，将演员的面部视频帧转化为虚拟演员模型的面部数据，面部重定向系统将虚拟演员模型的面部数据进行重定向处理得到虚拟动画角色的动作数据。在捕捉演员骨骼动作和演员面部情绪的同时，声音录制系统对演员的声音进行录制得到声音录制数据，虚拟相机位姿跟踪系统对虚拟相机的位姿和运动轨迹进行记录得到虚拟相机位姿数据。上述的各个系统基于相同的时间码进行同步。视频合成系统获取导入的多个数据，多个数据包括动作数据(肢体动作数据和手势动作数据)、面部数据(表情数据和眼神数据)、声音录制数据、虚拟相机位姿数据，视频合成系统将导入的多个数据按照时间码进行同步，在同步后根据导入的多个数据和导入的预设动作数据和预设特效数据，确定虚拟动画角色对应的视频推流数据，将其推流至目标直播平台。

可选地，该方法还包括：获取真实对象在表演过程中所用的真实道具的道具运动数据；根据真实道具数据确定虚拟角色所用的虚拟道具的道具运动数据；根据目标特征数据和虚拟道具的道具运动数据，确定虚拟角色对应的视频推流数据。

在真实对象的表演过程中，道具捕捉系统获取真实对象所用的真实道具的道具运动数据；道具捕捉系统将真实道具的道具运动数据转化为虚拟中间道具的道具运动数据，道具重定向系统将虚拟中间道具的道具运动数据进行重定向处理得到虚拟道具的道具运动数据。

在一个示意性的例子中，真实道具为足球，演员踢足球，足球会运动比如移动和旋转，道具捕捉系统捕捉足球的运动得到足球的道具运动数据，根据足球的道具运动数据进行道具重建得到虚拟中间足球的道具运动数据；道具重定向系统将虚拟中间足球的道具运动数据进行重定向处理得到虚拟足球的道具运动数据。

在另一个示意性的例子中，真实道具为刀剑，演员挥动刀剑，刀剑会运动，道具捕捉系统捕捉刀剑的运动得到刀剑的道具运动数据，根据刀剑的道具运动数据进行道具重建得到虚拟中间刀剑的道具运动数据；道具重定向系统将虚拟中间刀剑的道具运动数据进行重定向处理得到虚拟刀剑的道具运动数据。

需要说明的一点是，道具捕捉系统进行道具捕捉的方式可类比参考动作捕捉系统进行动作捕捉的方式。道具重定向系统进行重定向处理的方式可类比参考动作重定向系统进行重定向处理的方式，在此不再赘述。

需要说明的另一点是，动作数据的捕捉和重定向过程，与面部数据的捕捉和重定向过程、与参考数据的获取过程、与道具运动数据的捕捉和重定向过程可以并列执行，不分先后顺序。

可选地，虚拟道具的道具运动数据也携带有时间码，视频合成系统根据目标特征数据、参考数据和道具运动数据各自对应的时间码，将目标特征数据、参考数据和道具运动数据进行对齐处理；根据对齐处理后的目标特征数据、参考数据和道具运动数据，确定虚拟角色对应的视频推流数据。

可选地，视频合成系统在对齐处理后根据虚拟相机位姿数据、目标特征数据和道具运动数据，得到动画画面；对动画画面进行渲染得到渲染结果；根据渲染结果和声音录制数据，确定虚拟角色对应的视频推流数据。

需要说明的是，视频合成系统根据对齐处理后的目标特征数据、参考数据和道具运动数据确定虚拟角色对应的视频推流数据的方式，可类比参考根据对齐处理后的目标特征数据和参考数据确定虚拟角色对应的视频推流数据的方式，在此不再赘述。

综上所述，本公开实施例还通过将真实特征数据转化为虚拟对象的虚拟特征数据，虚拟对象为对真实对象进行还原重建得到的虚拟模型，虚拟特征数据包括虚拟对象的动作数据和面部数据；其中，动作数据包括肢体动作数据和/或手势动作数据，面部数据包括表情数据和/或眼神数据；能够更加准确地反映出虚拟角色的骨骼动作和面部情绪的细节，使得生成的虚拟角色更加生动自然，保证了虚拟角色的虚拟直播展示效果。

本公开实施例还通过根据目标特征数据和参考数据，确定虚拟角色对应的视频推流数据，参考数据包括真实对象在表演过程中的声音录制数据和/或虚拟相机位姿数据；将虚拟角色对应的视频推流数据发送至目标直播平台；即采用了虚拟拍摄的所见即所得的方式，可以在现场实时的看到真实对象的表演，可以现场确认表演，提高了拍摄效率。

本公开实施例还通过目标特征数据和参考数据均携带有时间码，根据目标特征数据和参考数据各自对应的时间码，根据目标特征数据和参考数据各自对应的时间码，将目标特征数据和参考数据进行对齐处理；根据对齐处理后的目标特征数据和参考数据，确定虚拟角色对应的视频推流数据；使得虚拟角色的骨骼动作、面部情绪、声音和虚拟相机位姿是同步的，在丰富了虚拟角色的虚拟直播的显示细节的同时，保证了虚拟直播的自然流畅度，进一步保证了虚拟直播的展示效果。

本公开实施例提供的虚拟直播方法，在一方面，通过动作捕捉系统可以捕捉更精细的动作内容，实现更稳定的直播画面，保证了虚拟直播的稳定性；在另一方面，在虚拟直播过程中可以直接调用预先存储的预设素材，比如灯光、头发材质、场景材质、场景纹理、场景贴图等等，保证了虚拟直播的显示效果；在另一方面，在虚拟直播过程中通过第一触发指令可以加入预设动作数据，即将虚拟角色的动作数据与预设动作数据进行融合，使得虚拟角色完成了真实对象实时难以完成的动作，进一步提高了虚拟直播的显示效果；在另一方面，在虚拟直播过程中通过第二触发指令可以加入预设特效数据，提高了虚拟直播显示内容的丰富度。

虚拟直播方法可应用于单人虚拟直播应用场景，也可以应用于多人虚拟直播场景。在捕捉的时候可以实现单人的捕捉，也可以实现多人的捕捉，即在同一虚拟直播的画面中可以实现单个虚拟角色的输出也可以实现多个虚拟角色的输出。在多人捕捉的情况下，可以捕捉演员之间的互动，例如，拥抱，握手等，根据多个演员之间的互动在虚拟直播场景中输出虚拟角色的互动。除了在虚拟直播场景中输出虚拟角色的互动，还可以实现虚拟角色和真是对象同框互动直播，类似于虚拟人和真人同框互动直播。

虚拟直播方法的推流直播可以用到VR/AR虚拟直播领域，对于该场景，虚拟相机角度取决于用户头部姿态，用户戴上VR头盔，根据用户头部姿态和虚拟相机的实时位姿，对每帧图像进行实时渲染，使用户看到VR/AR虚拟直播。虚拟直播还可以用到全息影响展示领域。

虚拟直播技术还可以应用到虚拟角色实时线下直播和互动。例如，商场开业等现场的虚拟角色展示，而非网络直播。虚拟直播中线下直播可以支持虚拟角色之间的互动，真人和虚拟角色的互动。

以下为本公开实施例的装置实施例，对于装置实施例中未详细阐述的部分，可以参考上述方法实施例中公开的技术细节。

请参考图6，其示出了本公开一个示例性实施例提供的虚拟直播装置的结构示意图。该虚拟直播装置可以通过软件、硬件以及两者的组合实现成为用户设备的全部或一部分。该装置包括：获取模块610、第一确定模块620、第二确定模块630和发送模块640。

获取模块610，用于获取真实对象的真实特征数据，真实特征数据包括真实对象在表演过程中的动作数据和面部数据；

第一确定模块620，用于根据真实特征数据确定虚拟角色的目标特征数据，虚拟角色为预设的动画模型，目标特征数据包括虚拟角色的动作数据和面部数据；

第二确定模块630，用于根据目标特征数据确定虚拟角色对应的视频推流数据；

发送模块640，用于将虚拟角色对应的视频推流数据发送至目标直播平台，视频推流数据用于指示目标直播平台展示虚拟角色的虚拟直播。

在一种可能的实现方式中，第二确定模块630，还用于当接收到第一触发指令时，根据所述目标特征数据和预设动作数据，确定所述虚拟角色对应的视频推流数据；

在另一种可能的实现方式中，第二确定模块630，还用于当接收到第二触发指令时，根据所述目标特征数据和预设特效数据，确定所述虚拟角色对应的视频推流数据；

在另一种可能的实现方式中，第二确定模块630，还用于获取参考数据，参考数据包括真实对象在表演过程中的声音录制数据和/或虚拟相机位姿数据；

根据目标特征数据和参考数据，确定虚拟角色对应的视频推流数据。

在另一种可能的实现方式中，目标特征数据和参考数据均携带有时间码，第二确定模块630，还用于：

根据目标特征数据和参考数据各自对应的时间码，将目标特征数据和参考数据进行对齐处理；

根据对齐处理后的目标特征数据和参考数据，确定虚拟角色对应的视频推流数据。

在另一种可能的实现方式中，第二确定模块630，还用于：

根据对齐处理后的虚拟相机位姿数据和目标特征数据，得到动画画面，虚拟相机位姿数据用于指示待生成的动画画面的预览相机视角；

对动画画面进行渲染得到渲染结果；

根据渲染结果和声音录制数据，确定虚拟角色对应的视频推流数据。

在另一种可能的实现方式中，获取模块610，还用于：

获取真实对象的动作数据，动作数据包括肢体动作数据和/或手势动作数据；以及，

获取真实对象的面部数据，面部数据包括表情数据和/或眼神数据。

在另一种可能的实现方式中，获取模块610，还用于：

获取真实对象的肢体上预设的多个光学标记点各自对应的位置数据，根据多个光学标记点各自对应的位置数据确定真实对象的肢体动作数据；和/或，

获取真实对象的手部上预设的多个光学标记点各自对应的位置数据，根据多个光学标记点各自对应的位置数据确定真实对象的手势动作数据。

在另一种可能的实现方式中，获取模块610，还用于：

获取真实对象的面部视频帧，面部视频帧为包括真实对象的面部的视频帧，面部视频帧用于指示真实对象的面部数据。

在另一种可能的实现方式中，第一确定模块620，还用于：

将真实特征数据转化为虚拟对象的虚拟特征数据，虚拟对象为对真实对象进行还原重建得到的虚拟模型，虚拟特征数据包括虚拟对象的动作数据和面部数据；

将虚拟特征数据进行重定向处理得到虚拟角色的目标特征数据。

在另一种可能的实现方式中，第一确定模块620，还用于：

将虚拟对象的动作数据进行重定向处理，得到虚拟角色的动作数据，动作数据包括肢体动作数据和/或手势动作数据；以及，

将虚拟对象的面部数据进行重定向处理，得到虚拟角色的面部数据，面部数据包括表情数据和/或眼神数据。

在另一种可能的实现方式中，第一确定模块620，还用于：

获取虚拟对象的骨骼数据与虚拟角色的骨骼数据之间的第一对应关系，骨骼数据用于指示骨骼的拓扑结构特征；

根据第一对应关系，将虚拟对象的动作数据重定向处理至虚拟角色上，得到虚拟角色的动作数据。

在另一种可能的实现方式中，第一确定模块620，还用于：

获取虚拟对象的面部数据与虚拟角色的面部数据之间的第二对应关系，面部数据用于指示面部结构特征和情绪风格特征；

根据第二对应关系，将虚拟对象的面部数据重定向处理至虚拟角色上，得到虚拟角色的面部数据。

在另一种可能的实现方式中，该装置，还包括：显示模块；

显示模块，用于根据虚拟角色的动作数据、以及虚拟角色的骨骼和蒙皮的绑定关系，驱动并显示虚拟角色的蒙皮运动。

在另一种可能的实现方式中，该装置，还包括：

获取模块610，还用于获取携带有时间码的视频录制数据，视频录制数据包括对真实对象的表演内容进行录制得到的视频数据。

在另一种可能的实现方式中，

获取模块610，还用于获取所述真实对象在表演过程中所用的真实道具的道具运动数据；

第一确定模块620，还用于根据所述真实道具数据确定所述虚拟角色所用的虚拟道具的道具运动数据；

第二确定模块630，还用于根据所述目标特征数据和所述虚拟道具的道具运动数据，确定所述虚拟角色对应的视频推流数据。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各个功能模块的划分进行举例说明，实际应用中，可以根据实际需要而将上述功能分配由不同的功能模块完成，即将设备的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开实施例还提供了一种计算机设备，计算机设备包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为：实现上述各个方法实施例中由计算机设备执行的步骤。

本公开实施例还提供了一种虚拟直播系统，虚拟直播系统包括：

动捕服装，动捕服装上设置有多个光学标记点；

第一相机，第一相机用于捕捉真实对象表演时的动作数据；

头盔，头盔上设置有第二相机，第二相机用于捕捉真实对象表演时的面部数据；

计算机设备，计算机设备用于执行上述各个方法实施例中由计算机设备执行的步骤。

本公开实施例还提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令被处理器执行时实现上述各个方法实施例中的方法。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种虚拟直播方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标特征数据确定所述虚拟角色对应的视频推流数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标特征数据确定所述虚拟角色对应的视频推流数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标特征数据确定所述虚拟角色对应的视频推流数据，包括：

5.根据权利要求4所述的方法，其特征在于，所述目标特征数据和所述参考数据均携带有时间码，所述根据所述目标特征数据和所述参考数据，确定所述虚拟角色对应的视频推流数据，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据对齐处理后的所述目标特征数据和所述参考数据，确定所述虚拟角色对应的视频推流数据，包括：

对所述动画画面进行渲染得到渲染结果；

7.根据权利要求1所述的方法，其特征在于，所述获取真实对象的真实特征数据，包括：

8.根据权利要求7所述的方法，其特征在于，所述获取所述真实对象的所述动作数据，包括：

9.根据权利要求7所述的方法，其特征在于，所述获取所述真实对象的所述面部数据，包括：

10.根据权利要求1所述的方法，其特征在于，所述根据所述真实特征数据确定虚拟角色的目标特征数据，包括：

11.根据权利要求10所述的方法，其特征在于，所述将所述虚拟特征数据进行重定向处理得到所述虚拟角色的所述目标特征数据，包括：

12.根据权利要求11所述的方法，其特征在于，所述将所述虚拟对象的动作数据进行重定向处理，得到所述虚拟角色的动作数据，包括：

13.根据权利要求11所述的方法，其特征在于，所述将所述虚拟对象的面部数据进行重定向处理，得到所述虚拟角色的面部数据，包括：

14.根据权利要求1至13任一所述的方法，其特征在于，所述根据所述真实特征数据确定虚拟角色的目标特征数据之后，还包括：

15.根据权利要求1至13任一所述的方法，其特征在于，所述根据所述目标特征数据，生成所述虚拟角色的动画之前，还包括：

16.根据权利要求1至13任一所述的方法，其特征在于，所述方法还包括：

17.一种虚拟直播装置，其特征在于，所述装置包括：

18.根据权利要求17所述的装置，其特征在于，所述第二确定模块，还用于：

19.根据权利要求17所述的装置，其特征在于，所述第二确定模块，还用于：

20.一种计算机设备，其特征在于，所述计算机设备包括：处理器；用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

21.一种虚拟直播系统，其特征在于，所述虚拟直播系统包括：

动捕服装，所述动捕服装上设置有多个光学标记点；

计算机设备，所述计算机设备用于执行上述权利要求1至16中任意一项所述的方法。

22.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至16中任意一项所述的方法。