CN116828260A

CN116828260A - 一种视频渲染方法、系统及存储介质

Info

Publication number: CN116828260A
Application number: CN202310861593.XA
Authority: CN
Inventors: 郑航; 费元华; 郭建君
Original assignee: Beijing Weiling Times Technology Co Ltd
Current assignee: Beijing Weiling Times Technology Co Ltd
Priority date: 2023-07-13
Filing date: 2023-07-13
Publication date: 2023-09-29

Abstract

本申请涉及一种视频渲染方法、系统及存储介质，涉及云计算的领域该方法包括：获取拍摄视频；对拍摄视频进行解析，得到至少两种视频数据；将至少两种视频数据发送至服务器，以使得服务器从至少两种视频数据中确定出渲染虚拟目标所需的第一目标视频数据，根据第一目标视频数据对虚拟目标进行渲染得到渲染后的虚拟目标；至少两种视频数据中确定出将渲染后的虚拟目标映射到实景中的第二目标视频数据，基于渲染后的虚拟目标以及第二目标视频数据生成目标渲染视频。本申请具有提高渲染效率的效果。

Description

一种视频渲染方法、系统及存储介质

技术领域

本申请涉及云计算的领域，尤其是涉及一种视频渲染方法、系统及存储介质。

背景技术

随着电子设备的操作系统以及云计算的蓬勃发展，出现各种与云计算相关的服务，例如在云游戏、云动画等行业利用VR技术使得虚拟和现实结合的场景，使用户在使用时有身临其境的感觉，现有的VR技术主要采用云渲染的手段将拍摄的视频。

目前在渲染时，将拍摄的视频实时传输到渲染编辑器中，渲染编辑器直接调用拍摄的视频进行渲染，当拍摄的视频较大时，使得拍摄的视频在导入渲染编辑器以及进行渲染时需要花费很长时间，使得渲染效率降低。

发明内容

为了提高渲染效率，本申请提供一种视频渲染方法、系统及存储介质。

第一方面，本申请提供一种视频渲染的方法，采用如下的技术方案：

一种视频渲染的方法，由终端设备执行，包括：

获取拍摄视频；

对所述拍摄视频进行解析，得到至少两种视频数据；

将所述至少两种视频数据发送至服务器，以使得所述服务器从所述至少两种视频数据中确定出渲染虚拟目标所需的第一目标视频数据，根据所述第一目标视频数据对虚拟目标进行渲染得到渲染后的虚拟目标；从所述至少两种视频数据中确定出将所述渲染后的虚拟目标映射到实景中的第二目标视频数据，基于所述渲染后的虚拟目标以及所述第二目标视频数据生成目标渲染视频。

通过采用上述技术方案，终端设备获取拍摄视频，并对拍摄视频进行解析，从而得到至少两种视频数据，然后将得到的至少两种视频数据发送至服务器，以使得可以从解析后的视频数据中确定渲染所需要的第一目标视频数据，然后根据第一目标视频数据对虚拟目标进行渲染得到渲染后的虚拟目标，从至少两种视频数据中确定出将渲染后的虚拟目标映射到实景中的第二目标视频数据，根据渲染后的虚拟目标以及第二目标视频数据生成目标渲染视频，相较于使用整个拍摄视频进行渲染，在每次渲染时仅选择渲染需求所需的视频数据更加节省渲染算力，进而提高渲染效率。

在另一种可能实现的方式中，所述至少两种视频数据包括以下中的至少两项：

预录制动画、面捕数据、身体动捕数据、摄像机轨道、镜头实时数据、实景画面、实时音频以及录制音频。

通过采用上述技术方案，预录制动画、面捕数据、身体动捕数据、摄像机轨道、镜头实时数据、实景画面、实时音频以及录制音频均为渲染所需特征数据，并且记载有拍摄视频中的信息，通过解析成上述视频数据可以为后续渲染提供更准确方便地选择。

第二方面，本申请提供一种视频渲染的方法，采用如下的技术方案：

一种视频渲染的方法，由服务器执行，包括：

接收终端设备发送的至少两种视频数据，所述至少两种视频数据为终端设备对获取到的拍摄视频进行解析得到的；从所述至少两种视频数据中确定出渲染虚拟目标所需的第一目标视频数据；

根据所述第一目标视频数据对虚拟目标进行渲染得到渲染后的虚拟目标；

从所述至少两种视频数据中确定出将所述渲染后的虚拟目标映射到实景中的第二目标视频数据；

基于所述渲染后的虚拟目标以及所述第二目标视频数据生成目标渲染视频。

通过采用上述技术方案，服务器通过接收终端设备发送的至少两种视频数据，可以方便快捷地从中确定出渲染虚拟目标所需的第一目标视频数据，然后根据第一目标视频数据对虚拟目标进行渲染，当需要将渲染后的虚拟目标映射到实景中时，服务器从至少两种视频数据中确定出将渲染后的虚拟目标映射到实景中的第二目标视频数据，并基于渲染后的虚拟目标以及第二目标视频数据生成目标渲染视频，相较于使用整个拍摄视频进行渲染，在每次渲染时仅选择渲染需求所需的视频数据更加节省渲染算力，进而提高渲染效率。

在另一种可能实现的方式中，每种视频数据对应有类型标识，所述从所述至少两种视频数据中确定出渲染虚拟目标所需的第一目标视频数据，之前包括：

判断至少两种视频数据的类型标识与预设标识是否一致；

若不一致，则输出提示信息，和/或，向所述服务器发送请求信息，以使得所述服务器发送至少一种视频数据。

通过采用上述技术方案，若至少两种视频数据的类型标识与预设标识一致，说明至少两种视频数据符合渲染所需的数据，则将所需的数据对虚拟目标进行拟合，若至少两种视频数据的类型标识与预设标识不一致，说明至少两种数据不符合渲染需求，则输出提示信息，和/或，向服务器发送请求信息，以使得终端设备发送至少一种视频数据，从而可以让用户直观及时地得知不一致的视频数据类型。

在另一种可能实现的方式中，所述接收终端设备发送的至少两种视频数据，之后包括：

确定每种视频数据对应的存储格式；

当接收到所述至少两种视频数据时，按照所述存储格式进行存储，得到至少两种存储后的视频数据。

通过采用上述技术方案，通过确定每种视频数据对应的存储格式，将接收到至少两种视频数据时，按照存储格式进行存储，使得至少两种视频数据在存储的时候可以按照各自对应的格式进行存储，方便对至少两种视频数据进行查找和还原。

在另一种可能实现的方式中，根据所述第一目标视频数据对虚拟目标进行渲染得到渲染后的虚拟目标，包括：

从所述至少两种存储后的视频数据中确定出存储后的第一目标视频数据；

确定所述第一目标视频数据的时间戳；

将所述存储后的第一目标视频数据分解成至少一个轨道数据；

基于所述时间戳对所述至少一个轨道数据进行对齐，得到对齐后的至少一个轨道数据；

基于所述对齐后的至少一个轨道数据对所述虚拟目标进行渲染，得到渲染后的虚拟目标。

通过采用上述技术方案，从至少两种存储后的视频数据中确定出存储后的第一目标视频数据，然后确定所述第一目标视频数据的时间戳，方便将轨道数据进行对齐，将存储后的第一目标视频数据分解成至少一个轨道数据，方便在渲染时对每个轨道数据进行调整，时间戳的确定使得每个轨道数据可以根据时间戳进行对齐，从而得到渲染后的虚拟目标，进而提高渲染的准确性。

在另一种可能实现的方式中，所述根据所述第一目标视频数据对虚拟目标进行渲染得到渲染后的虚拟目标，包括以下中的至少一项：

若所述第一目标视频数据中包括声音数据，则确定所述声音数据中的至少一个出声音频段，每个出声音频段包括第一起始时间以及第一结束时间，对所述每个出声音频段进行解析，得到所述每个出声音频段的声纹特征，基于所述声纹特征确定目标出声音频段，所述目标出声音频段为声纹特征与预设声纹特征一致的出声音频段，确定所述每个目标出声音频段对应的第一特效，基于所述第一起始时间以及第一结束时间确定所述第一特效对应的持续时长，基于所述第一特效以及所述第一特效对应的持续时长对所述虚拟目标进行渲染；

若所述第一目标视频数据中存在目标数据，包括所述身体动捕数据、面部数据以及预录制动画中的至少一项，则对所述目标数据进行动作识别，得到至少一个动作，每个动作包括第二起始时间以及第二结束时间，从预设特效库中确定每个动作对应的第二特效，基于所述第二起始时间以及第二结束时间确定所述第二特效对应的持续时长，基于所述第二特效以及所述第二特效对应的持续时长对所述虚拟目标进行渲染。

通过采用上述技术方案，当第一目标视频数据中包括声音数据时，从声音数据确定出至少一个出声音频段，以使得方便对每个出声音频段进行分析得到每个出声音频段分别对应的声纹特征，并从中确定出目标出声音频段，其中，每个出声音频段包括第一起始时间以及第一结束时间，第一起始时间以及第一结束时间可以准确定位每个出声音频段的时间，目标出声音频段为声纹特征与预设声纹特征一致的出声音频段，根据预设声纹特征确定出每个目标出声音频段对应的第一特效，同时，由于第一起始时间以及第一结束时间的存在，使得可以精准确定第一特效对应的持续时长，然后根据第一特效以及第一特效对应的持续时长对虚拟目标进行渲染，从而增加第一特效渲染的准确性。

当第一目标视频数据中存在目标数据，则对目标数据进行动作识别，得到至少一个动作，然后从预设特效库中确定每个动作对应的第二特效，其中，目标数据包括身体动捕数据、面部数据以及预录制动画中的至少一项，根据身体动捕数据、面部数据以及预录制动画中的至少一项中确定出动作，由于每个动作包括第一起始时间以及第二起始时间，使得第一起始时间以及第二起始时间可以准确定位每个动作的时间，同时，可以精准确定第二特效对应的持续时长，然后根据第二特效以及第二特效对应的持续时长对所述虚拟目标进行渲染，从而增加第二特效渲染的准确性。

第三方面，本申请提供一种视频渲染系统，采用如下的技术方案：

一种视频渲染系统，包括：

终端设备，用于获取拍摄视频，对所述拍摄视频进行解析，得到至少两种视频数据，将所述至少两种视频数据发送至服务器；

服务器，用于接收终端设备发送的至少一个视频数据，所述至少一个视频数据为客户端对获取到的拍摄视频进行解析得到的；从所述至少一个视频数据中确定出渲染虚拟目标所需的第一目标视频数据；根据所述第一目标视频数据对虚拟目标进行渲染得到渲染后的虚拟目标；从所述至少两种视频数据中确定出将所述渲染后的虚拟目标映射到实景中的第二目标视频数据；基于所述渲染后的虚拟目标以及第二目标视频数据生成目标渲染视频。

第四方面，本申请提供一种终端设备，采用如下的技术方案：

一种终端设备，该终端设备包括：

至少一个处理器；

存储器；

至少一个应用程序，其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行，至少一个配置用于：执行根据第一方面任一种可能的实现方式所示的一种视频渲染的方法。

第五方面，本申请提供一种服务器，采用如下的技术方案：

至少一个处理器；

存储器；

综上所述，本申请包括以下至少两种有益技术效果：

1.终端设备获取拍摄视频，并对拍摄视频进行解析，从而得到至少两种视频数据，然后将得到的至少两种视频数据发送至服务器，以使得可以从解析后的视频数据中确定渲染所需要的第一目标视频数据，然后根据第一目标视频数据对虚拟目标进行渲染得到渲染后的虚拟目标，从至少两种视频数据中确定出将渲染后的虚拟目标映射到实景中的第二目标视频数据，根据渲染后的虚拟目标以及第二目标视频数据生成目标渲染视频，相较于使用整个拍摄视频进行渲染，在每次渲染时仅选择渲染需求所需的视频数据更加节省渲染算力，进而提高渲染效率。

2.从至少两种存储后的视频数据中确定出存储后的第一目标视频数据，然后确定所述第一目标视频数据的时间戳，方便将轨道数据进行对齐，将存储后的第一目标视频数据分解成至少一个轨道数据，方便在渲染时对每个轨道数据进行调整，时间戳的确定使得每个轨道数据可以根据时间戳进行对齐，从而得到渲染后的虚拟目标，进而提高渲染的准确性。

附图说明

图1是本申请实施例的一种视频渲染方法的流程示意图。

图2是本申请实施例的一种视频渲染方法的另一流程示意图。

图3是本申请实施例的一种终端设备的结构示意图。

具体实施方式

以下结合附图对本申请作进一步详细说明。

本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本申请的权利要求范围内都受到专利法的保护。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

下面结合说明书附图对本申请实施例作进一步详细描述。

本申请实施例提供了一种视频渲染的方法，由和终端设备执行，终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此，该终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制，如图1所示，该方法包括：步骤S101、步骤S102以及步骤S103，其中，

步骤S101，获取拍摄视频。

对于本申请实施例，视频通过拍摄设备进行拍摄获取，其中拍摄视频的设备可以是但不局限于手机、平板以及摄像机等，本实施例不做具体限定。

步骤S102，对拍摄视频进行解析，得到至少两种视频数据。

其中，解析拍摄视频的方式可以是但不局限于解析网站以及编辑软件等。

对于本申请实施例，终端设备对拍摄视频中的内容进行分析，将拍摄视频分解为视频数据并从中得到拍摄视频中的至少两种视频数据，为进一步的视频处理及应用提供原始的视频数据。具体的，终端设备中可预先存储有每种视频数据对应的解析脚本或程序，在获取到拍摄视频后，根据每种视频数据对应的解析脚本或程序对拍摄视频进行解析，即可得到至少两种视频数据。

步骤S103，将至少两种视频数据发送至服务器，以使得服务器从至少两种视频数据中确定出渲染虚拟目标所需的第一目标视频数据，根据第一目标视频数据对虚拟目标进行渲染得到渲染后的虚拟目标；从至少两种视频数据中确定出将渲染后的虚拟目标映射到实景中的第二目标视频数据，基于渲染后的虚拟目标以及第二目标视频数据生成目标渲染视频。

对于本申请实施例，至少两种视频数据以文件的形式传送至服务器，服务器从至少两种视频数据中确定出渲染虚拟目标所需的第一目标视频数据，然后将第一目标视频数据与虚拟目标进行拟合渲染，从而得到渲染后的虚拟目标。服务器对至少两种视频数据的内容进行分析，其中，服务器可以通过视频特征匹配的方法对至少两种视频数据的内容进行分析，也即是，确定每个视频数据的特征向量，并将每个视频数据的特征向量进行比较，找到符合要求的视频数据做为第二目标视频数据，即确定出第二目标视频数据，即可以将渲染后的虚拟目标映射到实景中，服务器将渲染后的虚拟目标以及第二目标视频数据进行对齐，从而生成目标渲染视频。

为了给渲染提供逼真的运动效果以及高质量的视频效果，本申请实施例的一种可能的实现方式，至少两种视频数据包括以下中的至少两项：

对于本申请实施例，预录制动画为提前拍摄的视频片段；面部数据为从拍摄视频中获取人物的面部表情和口型的关键点的坐标数据；身体动捕数据为从拍摄视频中人物的肢体动作提取人物肢体运动的轨迹以及姿态数据；面捕数据和身体动捕数据都是通过对拍摄视频的视频帧进行分析，得到每一帧视频图像对应的坐标，摄像机轨道为在进行视频拍摄时，拍摄设备的运动路径，描述了相机的移动、旋转以及缩放信息；镜头实时数据为在拍摄过程中记录的画面信息；实景画面为非计算机合成的很是场景画面，即通过拍摄设备拍摄的真实场景画面；实时音频为通过麦克风捕捉的实时的声音数据；录制音频为提前录制好的音频文件。

其中，面部数据可以存储为CSV文件，身体动捕数据存储为二进制文件，相机轨道数据以及镜头实时数据存储为Transform数据文件，实景画面存储为MP4文件，实时音频以及录制音频存储为MP3文件。

本申请实施例提供了一种视频渲染的方法，由终端设备执行，其中，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。如图2所示，该方法包括，步骤S201、步骤S202、步骤S203以及步骤S204，其中，

步骤S201，接收终端设备发送的至少两种视频数据；从至少两种视频数据中确定出渲染虚拟目标所需的第一目标视频数据。

其中，至少两种视频数据为终端设备对获取到的拍摄视频进行解析得到的。

对于本申请实施例，服务器首先与终端设备建立通信连接，然后服务器接收终端设备发送的至少两种视频数据，从而使得在进行渲染虚拟目标时可以有针对性的选择需要的视频数据，进而增加渲染效率。假设，虚拟目标为虚拟人物模型，当需要使虚拟目标进行运动时，则在至少两种视频数据中确定渲染虚拟目标所需要的身体动捕数据，此时，身体动捕数据为第一目标视频数据。

步骤S202，根据第一目标视频数据对虚拟目标进行渲染得到渲染后的虚拟目标。

对于本申请实施例，将第一目标视频数据与虚拟目标进行拟合，得到渲染后的虚拟目标，以步骤S103为例，确定出身体动捕数据为第一目标数据，将身体动捕数据与虚拟目标进行绑定，使得虚拟目标与相应的动作拟合，从而得到渲染后的虚拟目标。

步骤S203，从至少两种视频数据中确定出将渲染后的虚拟目标映射到实景中的第二目标视频数据。

对于本申请实施例，在至少两种视频数据中确定第二目标视频数据，假设，要将虚拟目标放在实景中，从至少两种视频数据中选取相对应的实景画面等，从而得到第二目标视频数据。

步骤S204，渲染后的虚拟目标以及第二目标视频数据生成目标渲染视频。

对于本申请实施例，以步骤S202以及步骤S203为例，将渲染后的虚拟目标放置在实景画面中，使得渲染后的虚拟目标与实景画面进行对应，即，渲染后的虚拟目标的动作与实景画面的场景相匹配，然后服务器进行渲染从而生成目标渲染视频。

为了可以让用户直观及时地得知不一致的数据类型，本申请实施例的一种可能的实现方式，每种视频数据对应有类型标识，步骤S201之前包括：步骤S1（图中未示出）以及步骤S2（图中未示出），其中，

步骤S1，判断至少两种视频数据的类型标识与预设标识是否一致。

对于本申请实施例，当确定渲染目标所需的第一视频数据之前，将至少两种视频数据的类型标识与预设标识进行对比。假设，面捕数据的标识为xlsx,实时音频文件为MP3，预设标识包括面捕数据xlsx，实时音频文件为MP3，判断至少两种视频数据的类型标识与预设标识是否一致。

步骤S2，若不一致，则输出提示信息，和/或，向服务器发送请求信息，以使得服务器发送至少一种视频数据。

对于本申请实施例，当确定渲染目标所需的第一视频数据之前，判断至少两种视频数据的类型标识与预设标识是否一致，若不一致，则向服务器发送请求信息，服务器响应请求，并发送符合要求的视频数据，如果没有符合要求的视频数据，则通过服务器输出提示信息，从而及时方便的提示操作人员至少两种视频数据的类型标识与预设标识不一致。

为了方便对至少两种视频数据进行查找和还原，本申请实施例的一种可能的实现方式，步骤S201之后包括：步骤S4（图中未示出）以及步骤S5（图中未示出），其中，

步骤S4，确定每种视频数据对应的存储格式。

对于本申请实施例，每种视频数据按照的对应的存储格式预先存储在服务器中。

步骤S5，当接收到至少两种视频数据时，按照存储格式进行存储，得到至少两种存储后的视频数据。

对于本申请实施例，当服务器接收到至少两种视频数据时，当视频数据的格式不符合服务器的格式时，对接收到至少两种视频数据的格式进行格式转换，使得接收到至少两种视频数据按照存储格式进行存储，从而得到至少两种存储后的视频数据，假设，服务器接收到的数据格式为SCV,当服务器接收到SCV格式的视频数据时，可以直接进行存储得到至少两种存储后的视频数据，当服务器接收到视频数据的格式为MP4，则需要将视频数据进行格式转换，将MP4格式转换为SCV格式，然后进行存储，得到至少两种存储后的视频数据。

为了提高渲染的准确性本申请实施例的一种可能的实现方式，步骤S202包括：步骤S2021（图中未示出）、步骤S2022（图中未示出）、步骤S2023（图中未示出）、步骤S2024（图中未示出）以及步骤S2025（图中未示出），其中，

步骤S2021，从至少两种存储后的视频数据中确定出存储后的第一目标视频数据。

对于本申请实施例，当服务器得到至少两种存储后的视频数据后，根据渲染需要，将至少两种视频数据的内容、时长以及帧率分别与至少两种存储后的视频数据的内容进行比对，从而确定出存储后的第一目标视频数据。假设，视频数据为身体动捕数据，则身体动捕数据的内容为拍摄人物的身体动作，时长为1小时，帧率为60帧，存储后的视频数据的内容为拍摄人物的身体动作，时长为1小时，帧率为60帧，则该存储后的视频数据为存储后的第一目标视频数据。

步骤S2022，确定存储后的第一目标视频数据的时间戳。

对于本申请实施例，预录制动画、面部数据以及身体动捕数据可以为LiveLink数据，可以通过解析LiveLink数据获取时间戳，摄像机轨道、镜头实时数据以及录制音频在存储时，本身就带有时间戳，实景画面为视频数据，没有时间戳，但是在渲染的时候需要与其他数据进行对齐。

步骤S2023，将存储后的第一目标视频数据分解成至少一个轨道数据。

对于本申请实施例，根据存储后的第一目标数据视频的格式对存储后的第一目标数据视频的结构和元数据信息进行解析，并沿时间轴并列得到每个存储后的第一目标视频数据对应的轨道数据。假设，身体动捕数据的包括头部动作以及肢体动作，则从身体动捕数据中将头部动作以及肢体动作的轨道数据进行提取，从而将身体动捕数据分解成头部轨道数据以及肢体轨道数据。

步骤S2024，基于时间戳对至少一个轨道数据进行对齐，得到对齐后的至少一个轨道数据。

对于本申请实施例，将轨道数据根据时间戳进行对齐，从轨道中选择一个作为参考的时间戳，通过比较参考时间戳和轨道数据的时间戳，计算出它们之间的时间偏移量，时间偏移量表示其他轨道数据相对于参考时间戳的时间差异，应用时间偏移量来对齐轨道数据。根据计算得到的时间偏移量，将轨道数据中的时间戳进行调整，从而得到对齐后的至少一个轨道数据。以步骤S2022以及步骤S2024为例，假设，肢体轨道数据中第16帧为抬腿，身体动捕数据中第25帧为关键帧，即为抬腿，计算得出时间偏移量为9，因此，将肢体轨道数据第16帧与身体动捕在数据第25帧对齐，得到对齐后的身体动捕轨道数据。

步骤S2025，基于对齐后的至少一个轨道数据对虚拟目标进行渲染，得到渲染后的虚拟目标。

对于本申请实施例，将对齐后的至少一个轨道数据与虚拟目标进行结合，使得至少一个轨道数据可以驱动虚拟目标的动作和姿态。假设，在服务器中创建虚拟人物的模型，该虚拟人物模型包括身体的各个部位和关节点，将对齐后的身体动捕轨道数据导入服务器中，将肢体轨道数据与虚拟目标进行关联，将身体动捕数据匹配到虚拟目标模型上，使得身体动捕轨道数据可以驱动虚拟目标进行运动。

为了增加第一特效以及第二特效渲染的准确性，本申请实施例的一种可能的实现方式，根据第一目标视频数据对虚拟目标进行渲染得到渲染后的虚拟目标，包括步骤S208（图中未示出）以及步骤S209（图中未示出）中的至少一个步骤，其中，

步骤S208，若第一目标视频数据中包括声音数据，则确定声音数据中的至少一个出声音频段，每个出声音频段包括第一起始时间以及第一结束时间，对每个出声音频段进行解析，得到每个出声音频段的声纹特征，基于声纹特征确定目标出声音频段，目标出声音频段为声纹特征与预设声纹特征一致的出声音频段，确定每个目标出声音频段对应的第一特效，基于第一起始时间以及第一结束时间确定第一特效对应的持续时长，基于第一特效以及第一特效对应的持续时长对虚拟目标进行渲染。

对于本申请实施例，服务器对声音数据进行解析并分割，得到至少一个出声音频段，具体的，可将声音数据输入至训练好的网络模型中进行解析，由训练好的网络模型输出至少一个出声音频段，在得到至少一个出声音频段后，还可通过训练好的网络模型对出声音频段进行解析，得到每个出声音频段的声纹特征，然后服务器将得到的声纹特征与预设声纹特征进行对比，判断是否存在与预设声纹特征一致的声纹特征。其中，预设声纹特征可以是一个，也可以是至少两个，每个预设声纹特征对应有第一特效，若服务器判断存在与预设声纹特征一致的声纹特征，则根据出声音频段对应的第一起始时间以及第一结束时间确定第一特效的时长，并进行渲染。假设，第一目标数据视频中包括一段文章朗读的声音，则第1秒到第10秒为一个出声音频段，第11秒到第15秒为另一个出声音频段，预设音频段为A，预设音频段A对应的第一特效为火焰，通过服务器对出声音频段进行解析得到第1秒到第10秒的出声音频段与预设音频段A的声纹特征一致，即，第一第1秒到第10秒的出声音频段对应的第一特效为火焰，由于该出声音频段的起始时间为第1秒，结束时间为第10秒，则该出声音频段对应的第一特效时长为10秒，即第一特效火焰的持续时间为10秒。

步骤S209，若第一目标视频数据中存在目标数据，则对目标数据进行动作识别，得到至少一个动作，每个动作包括第二起始时间以及第二结束时间，从预设特效库中确定每个动作对应的第二特效，基于第二起始时间以及第二结束时间确定第二特效对应的持续时长，基于第二特效以及第二特效对应的持续时长对虚拟目标进行渲染。

其中，目标数据包括身体动捕数据、面部数据以及预录制动画中的至少一项。

对于本申请实施例，服务器对目标数据进行解析并分割，得到至少一个动作，具体的，可将目标数据输入至训练好的网络模型中进行解析，得到至少一个动作，然后服务器将得到的动作通过预设特效库确定该动作对应的第二特效，然后根据第二特效的起始时间与结束时间确定第二特效的时长，并进行渲染。假设，第一目标视频数据中包括手臂移动，即第1秒到第10秒为手臂上下移动，第11秒到第15秒为手臂左右移动，预设数据库中手臂上下移动为翻书的动作，因此，当渲染后的虚拟目标的手臂左右移动时，即进行翻书，由于手臂左右移动为第11秒到第15秒，因此翻书的动作持续5秒，然后将翻书的动作以及翻书的动作对应的持续时长对虚拟目标进行渲染。

在本申请实施例中，服务器中包括多个计算机节点，通过每种视频数据对应的时间戳确定渲染每帧画面所需要的视频数据，然后根据所需的视频数据以及每种所需的视频数据对应的权重确定每帧画面的得分，然后将得分进行排序，得分高的画面帧即渲染难度大，根据得分顺序，画面帧的渲染难度一次递减，从而确定每帧的渲染难度，将难度较大的渲染任务分配给多个服务器节点进行渲染，从而提升渲染效率。

假设，面部数据的权重为0.2，身体动捕数据的权重为0.2，相机轨道数据权重为0.2，实时音频数据的权重为0.1，第一帧画面所需的视频数据为面部数据以及身体动捕数据，第二帧画面所需的视频数据为面部数据、身体动捕数据以及实时音频数据，则第一帧画面的得分为2×0.2+2×0.2=0.8，第二帧画面的得分为3×0.2+3×0.2+3×0.1=1.5，则第二帧画面的渲染难度大于第一帧画面的渲染难度。进一步的，服务器可根据每个计算机节点的算力确定每个计算节点对应的得分区间，即根据算力确定每个计算机节点能够处理的画面难度范围，服务器确定每帧画面的得分所在的得分区间，从而确定合适的计算机节点。再者，服务器可根据得分确定每帧画面所需的计算机节点数量，不同的得分对应不同的所需计算机节点数量，根据得分确定指定数量的计算机节点对画面进行渲染，从而进一步提高渲染效率。

在本申请实施例中，终端设备获取拍摄视频，并对拍摄视频进行解析，得到至少两种视频数据，然后将解析后得到的至少两种视频数据发送至服务器中，服务器接收至少两种视频数据后从中确定出渲染虚拟目标所需的第一目标视频数据，然后将第一目标视频数据与虚拟目标进行拟合，得到渲染后的虚拟目标，然后根据用户的需求从然后从至少两种视频数据中确定出将渲染后的虚拟目标映射到实景中的第二目标视频数据，并将渲染后的虚拟目标与第二目标视频数据对齐，然后渲染生成目标渲染视频。

上述实施例从方法流程的角度介绍一种视频渲染的方法，下述实施例从系统的角度介绍了一种视频渲染系统，具体详见下述实施例。

本申请实施例提供一种视频渲染系统，该视频渲染系统具体可以包括：

终端设备，用于获取拍摄视频，对拍摄视频进行解析，得到至少两种视频数据，将至少两种视频数据发送至服务器；

服务器，用于接收终端设备发送的至少一个视频数据，至少一个视频数据为客户端对获取到的拍摄视频进行解析得到的；从至少一个视频数据中确定出渲染虚拟目标所需的第一目标视频数据；根据第一目标视频数据对虚拟目标进行渲染得到渲染后的虚拟目标；从至少两种视频数据中确定出将渲染后的虚拟目标映射到实景中的第二目标视频数据；基于渲染后的虚拟目标以及第二目标视频数据生成目标渲染视频。

终端设备与服务器建立通信连接，通过终端设备获取拍摄视频，并对拍摄视频进行解析，从而将得到的至少两种视频数据发送到服务器，使得用户在需要时随时可以上传或下载，实现远程传输和共享，服务器可以从解析后的视频数据中确定渲染所需要的第一数据目标，然后根据第一目标视频数据对虚拟目标进行渲染得到渲染后的虚拟目标，使得用户可以将渲染后的虚拟目标映射到需要的实景中，从至少两种视频数据中确定出将渲染后的虚拟目标映射到实景中的第二目标视频数据，根据渲染后的虚拟目标以及第二目标视频数据生成目标渲染视频，相较于使用整个拍摄视频进行渲染，在每次渲染时仅选择渲染需求所需的视频数据更加节省渲染算力，进而提高渲染效率。

上述实施例从方法流程的角度介绍一种视频渲染的方法，下述实施例从虚拟模块或者虚拟单元的角度介绍了一种视频渲染装置，具体详见下述实施例。

本申请实施例提供一种视频渲染装置，该视频渲染装置具体可以包括：视频获取模块、视频解析模块、虚拟目标渲染模块、目标渲染视频生成模块，其中，

视频获取模块，用于获取拍摄视频；

视频解析模块，用于对拍摄视频进行解析，得到至少两种视频数据；

视频渲染模块，用于将至少两种视频数据发送至服务器，以使得服务器从至少两种视频数据中确定出渲染虚拟目标所需的第一目标视频数据，根据第一目标视频数据对虚拟目标进行渲染得到渲染后的虚拟目标；从至少两种视频数据中确定出将渲染后的虚拟目标映射到实景中的第二目标视频数据，基于渲染后的虚拟目标以及第二目标视频数据生成目标渲染视频。

通过采用上述技术方案，通过视频获取模块获取拍摄视频，视频解析模块对拍摄视频进行解析，从而得到至少两种视频数据，视频渲染模块将得到的至少两种视频数据发送至服务器，使得服务器可以从解析后的视频数据中确定渲染所需要的第一数据目标，然后根据第一目标视频数据对虚拟目标进行渲染得到渲染后的虚拟目标，目标渲染视频生成模块可以将渲染后的虚拟目标映射到需要的实景中，从至少两种视频数据中确定出将渲染后的虚拟目标映射到实景中的第二目标视频数据，然后根据渲染后的虚拟目标以及第二目标视频数据生成目标渲染视频，相较于使用整个拍摄视频进行渲染，在每次渲染时仅选择渲染需求所需的视频数据更加节省渲染算力，进而提高渲染效率。

在另一种可能实现的方式中，视频接收模块接收到至少两种视频数据包括以下中的至少两项：

本申请实施例提供另一种视频渲染装置，该视频渲染装置具体可以包括：第一目标视频数据确定模块、虚拟目标渲染模块、第二目标视频数据确定模块、目标渲染视频生成模块，其中，

第一目标视频数据确定模块，用于接收终端设备发送的至少两种视频数据，至少两种视频数据为终端设备对获取到的拍摄视频进行解析得到的；从至少两种视频数据中确定出渲染虚拟目标所需的第一目标视频数据；

虚拟目标渲染模块，用于根据第一目标视频数据对虚拟目标进行渲染得到渲染后的虚拟目标；

第二目标视频数据确定模块，用于从至少两种视频数据中确定出将渲染后的虚拟目标映射到实景中的第二目标视频数据；

目标渲染视频生成模块，用于基于渲染后的虚拟目标以及第二目标视频数据生成目标渲染视频。

通过采用上述技术方案，第一目标视频数据确定模块，接收终端设备对获取到的拍摄视频进行解析得到的至少两种视频数据，通过接收终端设备发送的至少两种视频数据，可以方便快捷地从中确定出渲染虚拟目标所需的第一目标视频数据，虚拟目标渲染模块利用第一目标视频数据对虚拟目标进行渲染，第二目标视频数据确定模块从至少两种视频数据中确定出将渲染后的虚拟目标映射到实景中的第二目标视频数据，目标渲染视频生成模块基于渲染后的虚拟目标以及第二目标视频数据生成目标渲染视频，相较于使用整个拍摄视频进行渲染，在每次渲染时仅选择渲染需求所需的视频数据更加节省渲染算力，进而提高渲染效率。

在另一种可能实现的方式中，每种视频数据对应有类型标识，装置还包括：类型标识判断模块、类型标识输出模块，其中，

类型标识判断模块，用于判断至少两种视频数据的类型标识与预设标识是否一致；

类型标识输出模块，若不一致，则输出提示信息，和/或，向所述服务器发送请求信息，以使得所述服务器发送至少一种视频数据。

在另一种可能实现的方式中，装置还包括：

存储格式确定模块，用于确定每种视频数据对应的存储格式；

视频数据存储模块，用于当接收到至少两种视频数据时，按照存储格式进行存储，得到至少两种存储后的视频数据。

在另一种可能实现的方式中，虚拟目标渲染模块在根据第一目标视频数据对虚拟目标进行渲染得到渲染后的虚拟目标时，具体用于：

从至少两种存储后的视频数据中确定出存储后的第一目标视频数据；

确定第一目标视频数据的时间戳；

将存储后的第一目标视频数据分解成至少一个轨道数据；

基于时间戳对至少一个轨道数据进行对齐，得到对齐后的至少一个轨道数据；

基于对齐后的至少一个轨道数据对虚拟目标进行渲染，得到渲染后的虚拟目标。

在另一种可能实现的方式中，根据第一目标视频数据对虚拟目标进行渲染得到渲染后的虚拟目标，包括以下中的至少一项：

若第一目标视频数据中包括声音数据，则确定声音数据中的至少一个出声音频段，每个出声音频段包括第一起始时间以及第一结束时间，对每个出声音频段进行解析，得到每个出声音频段的声纹特征，基于声纹特征确定目标出声音频段，目标出声音频段为声纹特征与预设声纹特征一致的出声音频段，确定每个目标出声音频段对应的第一特效，基于第一起始时间以及第一结束时间确定第一特效对应的持续时长，基于第一特效以及第一特效对应的持续时长对虚拟目标进行渲染；

若第一目标视频数据中存在目标数据，包括身体动捕数据、面部数据以及预录制动画中的至少一项，则对目标数据进行动作识别，得到至少一个动作，每个动作包括第二起始时间以及第二结束时间，从预设特效库中确定每个动作对应的第二特效，基于第二起始时间以及第二结束时间确定第二特效对应的持续时长，基于第二特效以及第二特效对应的持续时长对虚拟目标进行渲染。

本申请实施例中提供了一种终端设备，如图3所示，图3所示的终端设备30包括：处理器301和存储器303。其中，处理器301和存储器303相连，如通过总线302相连。可选地，终端设备30还可以包括收发器304。需要说明的是，实际应用中收发器304不限于一个，该终端设备30的结构并不构成对本申请实施例的限定。

处理器301可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器301也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线302可包括一通路，在上述组件之间传送信息。总线302可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线302可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一型的总线。

存储器303可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器303用于存储执行本申请方案的应用程序代码，并由处理器301来控制执行。处理器301用于执行存储器303中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，终端设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。还可以为服务器等。图3示出的终端设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例中提供了一种服务器，服务器的结构可参照上述终端设备以及图示，在此不再赘述。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与相关技术相比，本申请实施例中终端设备获取拍摄视频，并对拍摄视频进行解析，从而得到至少两种视频数据，然后将得到的至少两种视频数据发送至服务器，以使得可以从解析后的视频数据中确定渲染所需要的第一目标视频数据，然后根据第一目标视频数据对虚拟目标进行渲染得到渲染后的虚拟目标，从至少两种视频数据中确定出将渲染后的虚拟目标映射到实景中的第二目标视频数据，根据渲染后的虚拟目标以及第二目标视频数据生成目标渲染视频，相较于使用整个拍摄视频进行渲染，在每次渲染时仅选择渲染需求所需的视频数据更加节省渲染算力，进而提高渲染效率。

本申请实施例提供了另一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与相关技术相比，本申请实施例中服务器通过接收终端设备发送的至少两种视频数据，可以方便快捷地从中确定出渲染虚拟目标所需的第一目标视频数据，然后根据第一目标视频数据对虚拟目标进行渲染，当需要将渲染后的虚拟目标映射到实景中时，服务器从至少两种视频数据中确定出将渲染后的虚拟目标映射到实景中的第二目标视频数据，并基于渲染后的虚拟目标以及第二目标视频数据生成目标渲染视频，相较于使用整个拍摄视频进行渲染，在每次渲染时仅选择渲染需求所需的视频数据更加节省渲染算力，进而提高渲染效率。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种视频渲染的方法，其特征在于，由终端设备执行，包括：

获取拍摄视频；

对所述拍摄视频进行解析，得到至少两种视频数据；

将所述至少两种视频数据发送至服务器，以使得所述服务器从所述至少两种视频数据中确定出渲染虚拟目标所需的第一目标视频数据，根据所述第一目标视频数据对虚拟目标进行渲染得到渲染后的虚拟目标；述至少两种视频数据中确定出将所述渲染后的虚拟目标映射到实景中的第二目标视频数据，基于所述渲染后的虚拟目标以及所述第二目标视频数据生成目标渲染视频。

2.根据权利要求1所述的一种视频渲染的方法，其特征在于，所述至少两种视频数据包括以下中的至少两项：

3.一种视频渲染的方法，其特征在于，由服务器执行，包括：

4.根据权利要求3所述的一种视频渲染的方法，其特征在于，每种视频数据对应有类型标识，所述从所述至少两种视频数据中确定出渲染虚拟目标所需的第一目标视频数据，之前包括：

判断至少两种视频数据的类型标识与预设标识是否一致；

5.根据权利要求3所述的一种视频渲染的方法，其特征在于，所述接收终端设备发送的至少两种视频数据，之后包括：

确定每种视频数据对应的存储格式；

6.根据权利要求5所述的一种视频渲染的方法，其特征在于，根据所述第一目标视频数据对虚拟目标进行渲染得到渲染后的虚拟目标，包括：

确定所述第一目标视频数据的时间戳；

7.根据权利要求3所述的一种视频渲染的方法，其特征在于，所述根据所述第一目标视频数据对虚拟目标进行渲染得到渲染后的虚拟目标，包括以下中的至少一项：

8.一种视频渲染系统，其特征在于，包括：

9.一种终端设备，其特征在于，其包括：

至少一个处理器；

存储器；

至少一个应用程序，其中所述至少一个应用程序被存储在所述存储器中并被配置为由所述至少一个处理器执行，所述至少一个应用程序：用于执行根据权利要求1～2任一项所述的一种视频渲染的方法。

10.一种服务器，其特征在于，其包括：

至少一个处理器；

存储器；

至少一个应用程序，其中所述至少一个应用程序被存储在所述存储器中并被配置为由所述至少一个处理器执行，所述至少一个应用程序：用于执行根据权利要求3～7任一项所述的一种视频渲染的方法。