CN113784148A

CN113784148A - 数据处理方法、系统、相关设备和存储介质

Info

Publication number: CN113784148A
Application number: CN202010522454.0A
Authority: CN
Inventors: 盛骁杰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2021-12-10
Also published as: WO2021249414A1

Abstract

数据处理方法、系统及相关设备和存储介质，其中一种数据处理方法包括：获取多角度自由视角视频的视频帧中的目标对象；获取基于所述目标对象的增强现实特效输入数据所生成的虚拟信息图像；将所述虚拟信息图像与对应的视频帧进行合成处理并展示。本说明书实施例方案能够兼顾用户视频观看过程中对丰富视觉体验和低时延的需求。

Description

数据处理方法、系统、相关设备和存储介质

技术领域

本说明书实施例涉及数据处理技术领域，尤其涉及一种数据处理方法、系统及相关设备和存储介质。

背景技术

随着互联技术的不断发展，越来越多的视频平台不断通过提供更高清晰度或者观看流畅度更高的视频，来提高用户的观看体验。然而，针对现场体验感比较强的视频，例如一场体育比赛的视频，用户在观看过程中往往只能通过一个视点位置观看比赛，无法自己自由切换视点位置，来观看不同视角位置处的比赛画面或比赛过程，也就无法体验在现场一边移动视点一边看比赛的感觉。

6自由度(6Degree of Freedom，6DoF)技术就是为了提供高自由度观看体验的一种技术，用户可以在观看中通过交互手段，来调整视频观看的视角，从用户想观看的自由视点角度进行观看，从而大幅度的提升观看体验。

为进一步增强6DoF视频的观看体验，目前存在基于多角度自由视角技术的增强现实(Augmented Reality，AR)特效植入方案，然而现有将AR特效植入多角度自由视角视频的方案难以实现低时延播放，因此无法兼顾用户视频观看过程中对丰富视觉体验和低时延的需求。

发明内容

为满足用户视频观看过程中对丰富视觉体验的需求，本说明书实施例提供了一种数据处理方法、系统及相关设备和存储介质。

本说明书实施例提供了一种数据处理方法，包括：

获取多角度自由视角视频的视频帧中的目标对象；

获取基于所述目标对象的增强现实特效输入数据所生成的虚拟信息图像；

将所述虚拟信息图像与对应的视频帧进行合成处理并展示。

可选地，所述多角度自由视角视频基于从多路同步视频流中截取的指定帧时刻的多个同步视频帧所形成的图像组合相应的参数数据、所述图像组合中预设帧图像的像素数据和深度数据，对预设的虚拟视点路径进行帧图像重建得到，其中，所述多个同步视频帧包含不同拍摄视角的帧图像。

可选地，所述获取基于所述目标对象的增强现实特效输入数据所生成的虚拟信息图像，包括：

基于三维标定得到的所述目标对象在所述多角度自由视角视频的视频帧中的位置，得到与所述目标对象位置匹配的虚拟信息图像。

可选地，所述将所述虚拟信息图像与对应的视频帧进行合成处理并展示，包括：按照帧时刻排序以及相应帧时刻的虚拟视点位置，将相应帧时刻的虚拟信息图像与对应帧时刻的视频帧进行合成处理并展示。

可选地，所述将所述虚拟信息图像与对应的视频帧进行合成处理并展示，包括如下至少一种：

将所述虚拟信息图像与对应的视频帧进行融合处理，得到融合视频帧，对所述融合视频帧进行展示；

将所述虚拟信息图像叠加在对应的视频帧之上，得到叠加合成视频帧，对所述叠加合成视频帧进行展示。

可选地，所述对所述融合视频帧进行展示，包括：将所述融合视频帧插入待播放视频流进行播放展示。

可选地，所述获取多角度自由视角视频的视频帧中的目标对象，包括：响应于特效生成交互控制指令，获取所述多角度自由视角视频的视频帧中的目标对象。

可选地，所述获取基于所述目标对象的增强现实特效输入数据所生成的虚拟信息图像，包括：基于所述目标对象的增强现实特效输入数据，按照预设的特效生成方式，生成所述目标对象对应的虚拟信息图像。

本说明书实施例还提供了另一种数据处理方法，包括：

接收从多路同步视频流中截取的指定帧时刻的多个同步视频帧作为图像组合，所述多个同步视频帧包含不同拍摄视角的帧图像；

确定所述图像组合相应的参数数据；

确定所述图像组合中各帧图像的深度数据；

基于所述图像组合相应的参数数据、所述图像组合中预设帧图像的像素数据和深度数据，对预设的虚拟视点路径进行帧图像重建，获得相应的多角度自由视角视频的视频帧；

响应于特效生成指令，获取与所述特效生成指令指定的视频帧中的目标对象，获取所述目标对象的增强现实特效输入数据，并基于所述目标对象的增强现实特效输入数据，生成对应的虚拟信息图像；

将所述虚拟信息图像与所述指定的视频帧进行合成处理，得到合成视频帧；

将所述合成视频帧进行展示。

可选地，所述基于所述目标对象的增强现实特效输入数据，生成对应的虚拟信息图像，包括：

将所述目标对象的增强现实特效输入数据作为输入，基于三维标定得到的所述目标对象在所述多角度自由视角视频的视频帧中的位置，采用预设的第一特效生成方式，生成对应视频帧中与所述目标对象匹配的虚拟信息图像。

可选地，所述响应于特效生成指令，获取与所述特效生成指令指定的视频帧中的目标对象，并获取所述目标对象的增强现实特效输入数据，包括：

根据服务端特效生成交互控制指令，确定特效输出类型；

获取所述目标对象的历史数据，根据所述特效输出类型对所述历史数据进行处理，得到与所述特效输出类型对应的增强现实特效输入数据。

可选地，所述基于所述目标对象的增强现实特效输入数据，生成对应的虚拟信息图像，包括以下至少一种：

将所述目标对象的增强现实特效输入数据输入至预设的三维模型，基于三维标定得到的所述目标对象在所述多角度自由视角视频的视频帧中的位置，输出与所述目标对象匹配的虚拟信息图像；

将所述目标对象的增强现实特效输入数据，输入至预设的机器学习模型，基于三维标定得到的所述目标对象在所述多角度自由视角视频的视频帧中的位置，输出与所述目标对象匹配的虚拟信息图像。

可选地，所述将所述虚拟信息图像与所述指定的视频帧进行合成处理，得到合成视频帧，包括：

基于三维标定得到的所述目标对象在所述指定的视频帧中的位置，将所述虚拟信息图像与所述指定的视频帧进行融合处理，得到融合视频帧。

可选地，所述将所述合成视频帧进行展示，包括：将所述合成视频帧插入至播放控制设备的待播放视频流以通过播放终端进行播放。

可选地，所述方法还包括：

基于所述图像组合的像素数据和深度数据，生成所述图像组合相应的拼接图像，所述拼接图像包括第一字段和第二字段，其中，所述第一字段包括所述图像组合中预设帧图像的像素数据，所述第二字段包括所述图像组合的深度数据；

存储所述图像组合的拼接图像及所述图像组合相应的参数数据；

响应于来自交互终端的图像重建指令，确定交互时刻的交互帧时刻信息，获取对应交互帧时刻的图像组合中预设帧图像的拼接图像及所述图像组合相应的参数数据并发送至所述交互终端，使得所述交互终端基于交互操作所确定的虚拟视点位置信息，按照预设规则选择所述拼接图像中相应的像素数据和深度数据及对应的参数数据，将选择的像素数据和深度数据进行组合渲染，重建得到所述交互帧时刻虚拟视点位置对应的多角度自由视角视频的视频帧并进行播放。

可选地，所述方法还包括：

响应于服务端特效生成交互控制指令，生成所述服务端特效生成交互控制指令指示的预设视频帧的拼接图像对应的虚拟信息图像；

存储所述预设视频帧的拼接图像对应的虚拟信息图像。

可选地，在接收到所述图像重建指令后，还包括：

响应于来自交互终端的用户端特效生成交互指令，获取所述预设视频帧的拼接图像对应的虚拟信息图像；

将所述预设视频帧的拼接图像对应的虚拟信息图像发送至所述交互终端，使得所述交互终端将所述交互帧时刻虚拟视点位置对应的多角度自由视角视频的视频帧与所述虚拟信息图像进行合成处理，得到合成视频帧并展示。

可选地，所述方法还包括：响应于用户端特效退出交互指令，停止获取所述预设视频帧的拼接图像对应的虚拟信息图像。

可选地，所述响应于来自交互终端的用户端特效生成交互指令，获取所述预设视频帧的拼接图像对应的虚拟信息图像，包括：

基于所述用户端特效生成交互指令，确定所述预设视频帧的拼接图像中对应的目标对象；

获取与所述预设视频帧中的目标对象匹配的虚拟信息图像。

可选地，所述获取与所述预设视频帧中的目标对象匹配的虚拟信息图像，包括：

获取预先基于三维标定得到的所述目标对象在所述预设视频帧中的位置所生成的与所述目标对象匹配的虚拟信息图像。

可选地，所述将所述预设视频帧的拼接图像对应的虚拟信息图像发送至所述交互终端，使得所述交互终端在所述交互帧时刻虚拟视点位置对应的多角度自由视角视频的视频帧与所述虚拟信息图像进行合成处理，得到合成视频帧，包括：

将所述预设视频帧的拼接图像对应的虚拟信息图像发送至所述交互终端，使得所述交互终端在所述交互帧时刻虚拟视点位置对应的多角度自由视角视频的视频帧之上叠加所述虚拟信息图像，得到叠加合成视频帧。

本说明书实施例还提供了另一种数据处理方法，包括：

响应于来自交互终端的图像重建指令，确定交互时刻的交互帧时刻信息，获取对应交互帧时刻的图像组合中预设帧图像的拼接图像及所述图像组合相应的参数数据并发送至所述交互终端，使得所述交互终端基于交互操作所确定的虚拟视点位置信息，按照预设规则选择所述拼接图像中相应的像素数据和深度数据及对应的参数数据，将选择的像素数据和深度数据进行组合渲染，重建得到所述交互帧时刻虚拟视点位置对应的多角度自由视角视频的视频帧并进行播放；

响应于特效生成交互控制指令，获取所述特效生成交互控制指令指示的预设视频帧的拼接图像对应的虚拟信息图像；

将所述预设视频帧的拼接图像对应的虚拟信息图像发送至所述交互终端，使得所述交互终端将在所述交互帧时刻虚拟视点位置对应的多角度自由视角视频的视频帧与所述虚拟信息图像进行合成处理，得到合成视频帧；

将所述合成视频帧进行展示。

可选地，所述预设视频帧的拼接图像基于所述交互帧时刻的图像组合的像素数据和深度数据生成，所述拼接图像包括第一字段和第二字段，其中，所述第一字段包括所述图像组合中所述预设帧图像的像素数据，所述第二字段包括所述图像组合的深度数据；

所述交互帧时刻的图像组合基于从多路同步视频流中截取指定帧时刻的多个同步视频帧得到，所述多个同步视频帧包含不同拍摄视角的帧图像。

可选地，所述响应于特效生成交互控制指令，获取所述特效生成交互控制指令指示的预设视频帧的拼接图像对应的虚拟信息图像，包括：

响应于特效生成交互控制指令，获取所述特效生成交互控制指令指示的视频帧中的目标对象；

获取预先基于所述目标对象的增强现实特效输入数据所生成的虚拟信息图像。

本说明书实施例还提供了另一种数据处理方法，包括：

实时进行多角度自由视角视频的视频帧的展示；

响应于对所述多角度自由视角视频的视频帧中特效展示标识的触发操作，获取对应于所述特效展示标识的指定帧时刻的视频帧的虚拟信息图像；

将所述虚拟信息图像与对应的视频帧进行合成处理并展示。

可选地，所述响应于对所述多角度自由视角视频的图像中特效展示标识的触发操作，获取对应于所述特效展示标识的指定帧时刻的视频帧的虚拟信息图像，包括：

获取与所述特效展示标识对应的指定帧时刻的视频帧中目标对象的虚拟信息图像。

可选地，所述将所述虚拟信息图像与对应的视频帧进行合成处理并展示，包括：

基于三维标定确定的所述目标对象在所述指定帧时刻的视频帧中的位置，将所述虚拟信息图像叠加在所述指定帧时刻的视频帧之上，得到叠加合成视频帧并展示。

本说明书实施例提供来一种数据处理系统，包括：

目标对象获取单元，适于获取多角度自由视角视频的视频帧中目标对象；

虚拟信息图像获取单元，适于获取基于所述目标对象的增强现实特效输入数据所生成的虚拟信息图像；

图像合成单元，适于将将所述虚拟信息图像与对应的视频帧进行合成处理，得到合成视频帧；

展示单元，适于展示得到的合成视频帧。

本说明书实施例提供了另一种数据处理系统，包括：数据处理设备、服务器、播放控制设备以及播放终端，其中：

所述数据处理设备，适于基于视频帧截取指令，从现场采集区域不同位置实时同步采集的多路视频数据流中对指定帧时刻的视频帧截取得到多个同步视频帧，将获得的所述指定帧时刻的多个同步视频帧上传至所述服务器；

所述服务器，适于接收所述数据处理设备上传的多个同步视频帧作为图像组合，确定所述图像组合相应的参数数据以及所述图像组合中各帧图像的深度数据，并基于所述图像组合相应的参数数据、所述图像组合中预设帧图像的像素数据和深度数据，对预设的虚拟视点路径进行帧图像重建，获得相应的多角度自由视角视频的视频帧；以及响应于特效生成指令，获取与所述特效生成指令指定的视频帧中的目标对象，获取所述目标对象的增强现实特效输入数据，并基于所述目标对象的增强现实特效输入数据，生成对应的虚拟信息图像，将所述虚拟信息图像与所述指定的视频帧进行合成处理，得到合成视频帧，并将所述合成视频帧输入至播放控制设备；

所述播放控制设备，适于将所述合成视频帧插入至待播放视频流；

所述播放终端，适于接收来自所述播放控制设备的待播放视频流并进行实时播放。

可选地，所述系统还包括交互终端；其中：

所述服务器，还适于基于所述图像组合的像素数据和深度数据，生成所述图像组合相应的拼接图像，所述拼接图像包括第一字段和第二字段，其中，所述第一字段包括所述图像组合中预设帧图像的像素数据，所述第二字段包括所述图像组合的深度数据；以及存储所述图像组合的拼接图像及所述图像组合相应的参数数据；以及响应于来自所述交互终端的图像重建指令，确定交互时刻的交互帧时刻信息，获取对应交互帧时刻的图像组合中预设帧图像的拼接图像及所述图像组合相应的参数数据并发送至所述交互终端；

所述交互终端，适于基于交互操作，向所述服务器发送所述图像重建指令，并基于交互操作所确定的虚拟视点位置信息，按照预设规则选择所述拼接图像中相应的像素数据和深度数据以及对应的参数数据，将选择的像素数据和深度数据进行组合渲染，重建得到所述交互帧时刻虚拟视点位置对应的多角度自由视角视频的视频帧并进行播放。

可选地，所述服务器，还适于根据服务端特效生成交互控制指令，生成所述服务端特效生成交互控制指令指示的预设视频帧的拼接图像对应的虚拟信息图像并存储。

可选地，所述服务器，还适于响应于来自交互终端的用户端特效生成交互指令，获取所述预设视频帧的拼接图像对应的虚拟信息图像，将所述预设视频帧的拼接图像对应的虚拟信息图像发送至所述交互终端；

所述交互终端，适于将所述交互帧时刻虚拟视点位置对应的多角度自由视角视频的视频帧与所述虚拟信息图像进行合成处理，得到合成视频帧并进行播放展示。

本说明书实施例提供了一种服务器，包括：

数据接收单元，适于接收从多路同步视频流中截取的指定帧时刻的多个同步视频帧作为图像组合，所述多个同步视频帧包含不同拍摄视角的帧图像；

参数数据计算单元，适于确定所述图像组合相应的参数数据；

深度数据计算单元，适于确定所述图像组合中各帧图像的深度数据；

视频数据获取单元，适于基于所述图像组合相应的参数数据、所述图像组合中预设帧图像的像素数据和深度数据，对预设的虚拟视点路径进行帧图像重建，获得相应的多角度自由视角视频的视频帧；

第一虚拟信息图像生成单元，适于响应于特效生成指令，获取与所述特效生成指令指定的视频帧中的目标对象，获取所述目标对象的增强现实特效输入数据，并基于所述目标对象的增强现实特效输入数据，生成对应虚拟信息图像；

图像合成单元，适于将所述虚拟信息图像与所述指定的视频帧进行合成处理，得到合成视频帧；

第一数据传输单元，适于将所述合成视频帧输出以插入待播放视频流。

可选地，所述第一虚拟信息图像生成单元，适于将所述目标对象的增强现实特效输入数据作为输入，基于三维标定得到的所述目标对象在所述多角度自由视角视频的视频帧中的位置，采用预设的第一特效生成方式，生成对应视频帧中与所述目标对象匹配的虚拟信息图像。

本说明书实施例提供了另一种服务器，包括：

图像重建单元，适于响应于来自交互终端的图像重建指令，确定交互时刻的交互帧时刻信息，获取对应交互帧时刻的图像组合中预设帧图像的拼接图像及所述图像组合相应的参数数据；

虚拟信息图像生成单元，适于响应于特效生成交互控制指令，生成所述特效生成交互控制指令指示的视频帧的图像组合的拼接图像对应的虚拟信息图像；

数据传输单元，适于与交互终端进行数据交互，包括：将所述对应交互帧时刻的图像组合中预设视频帧的拼接图像及所述图像组合相应的参数数据传输至所述交互终端，使得所述交互终端基于交互操作所确定的虚拟视点位置信息，按照预设规则选择所述拼接图像中相应的像素数据和深度数据及对应的参数数据，将选择的像素数据和深度数据进行组合渲染，重建得到所述交互帧时刻虚拟视点位置对应的多角度自由视角视频的图像并进行播放；以及将所述特效生成交互控制指令指示的预设帧图像的拼接图像对应的虚拟信息图像传输至所述交互终端，使得所述交互终端将所述交互帧时刻虚拟视点位置对应的多角度自由视角视频的视频帧与所述虚拟信息图像进行合成处理，得到多角度自由视角合成视频帧并进行播放。

本说明书实施例还提供了一种交互终端，包括：

第一展示单元，适于实时进行多角度自由视角视频的图像的展示，其中，所述多角度自由视角视频的图像是通过指定帧时刻的多个同步视频帧图像形成的图像组合的参数数据、所述图像组合的像素数据和深度数据重建得到，所述多个同步视频帧包括不同拍摄视角的帧图像；

特效数据获取单元，适于响应于对所述多角度自由视角视频图像中特效展示标识的触发操作，获取对应于所述特效展示标识的指定帧时刻的虚拟信息图像；

第二展示单元，适于将所述虚拟信息图像叠加展示在所述多角度自由视角视频的视频帧上。

本说明书实施例提供了一种电子设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行前述任一实施例所述方法的步骤。

本说明书实施例提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行前述任一实施例所述方法的步骤。

与现有技术相比，本说明书实施例的技术方案具有以下有益效果：

采用本说明书一些实施例中数据处理方案，在多角度自由视角视频的实时播放过程中，通过获取所述多角度自由视角视频的视频帧中的目标对象，进而获取基于所述目标对象的增强现实特效输入数据所生成的虚拟信息图像，并将所述虚拟信息图像与对应的视频帧进行合成处理并展示。通过这一过程，只需要在多角度自由视角视频播放过程中，对于需要植入AR特效的视频帧与所述视频帧中目标对象所对应的虚拟信息图像合成即可得到融合了AR特效的视频帧，无须先为一个多角度自由视角视频预先生成所有的多角度自由视角视频融合AR特效的视频帧后再去播放，因此可以实现在多角度自由视角视频中AR特效的精准而迅速地植入，可以满足用户观看低时延视频和视觉体验丰富性的需求。

进一步地，由于所述多角度自由视角视频是基于从多路同步视频流中截取的指定帧时刻的不同拍摄视角的多个同步视频帧所形成的图像组合相应的参数数据、所述图像组合中预设帧时刻的像素数据和深度数据，对预设的虚拟视点路径进行重建得到，不需要基于所述多路同步视频流中所有的视频帧进行重建，因此可以减小数据处理量和数据传输量，降低多角度自由视角视频的传输时延。。

进一步地，基于三维标定得到的所述目标对象在所述多角度自由视角视频的视频帧中的位置，得到与所述目标对象位置匹配的虚拟信息图像，可以使得到的虚拟信息图像与所述目标对象在三维空间中的位置更加匹配，进而所展示的虚拟信息图像更加符合三维空间中的真实状态，因而所展示的合成视频帧更加真实生动，故可以增强用户的视觉体验。

进一步地，随着虚拟视点的变化，所述目标对象在所述多角度自由视角视频中的动态变化，因此，按照帧时刻排序以及相应帧时刻的虚拟视点位置，将相应帧时刻的虚拟信息图像与对象帧时刻的视频帧进行合成处理并展示，则所得到的合成视频帧中虚拟信息图像可以与所述多角度自由视角视频的图像帧中的目标对象同步变化，从而使得合成的视频帧更加逼真生动，增强用户观看所述多角度自由视角视频的沉浸感，进一步提高用户体验。

采用本说明书一些实施例中的数据处理方案，对于接收到从多路视频流中截取的指定帧时刻的多个同步视频帧所形成的图像组合，通过确定所述图像组合相应的参数数据和所述图像组合中各帧图像的深度数据，一方面，基于所述图像组合相应的参数数据、所述图像组合中预设帧图像的像素数据和深度数据，对预设的虚拟视点路径进行帧图像重建，获得相应的多角度自由视角视频的图像的视频帧；另一方面，响应于特效生成指令，获取与所述特效生成指令指定的视频帧中的目标对象，获取所述目标对象的增强现实特效输入数据，并基于所述目标对象的增强现实特效输入数据，生成对应的虚拟信息图像，并将所述虚拟信息图像与所述指定的视频帧进行合成处理，得到合成视频帧并展示。在这一数据处理过程中，由于仅从多路同步视频流中截取指定帧时刻的同步视频帧进行多角度自由视角视频的重建，以及生成与特效生成指令指定的视频帧中的目标对象对应的虚拟信息图像，因此无需巨量的同步视频流数据的上传，这一分布式系统架构可以节省大量的传输资源及服务器处理资源，且在网络传输带宽有限的条件下，可以实现具有增强现实特效的合成视频帧的实时生成，故能够实现多角度自由视角增强现实特效的视频的低时延播放，因而可以兼顾用户视频观看过程中对丰富视觉体验和低时延的双重需求。

此外，同步视频帧的截取、多角度自由视角视频的重建，虚拟信息图像的生成，以及多角度自由视角视频和虚拟信息图像的合成等均由不同的设备完成，这一分布式系统架构可以避免同一设备进行大量的数据处理，因此可以提高数据处理效率，减小传输时延。

采用本说明书实施例中的一些数据处理方案，响应于特效生成交互控制指令，获取所述特效生成交互控制指令指示的预设视频帧的拼接图像对应的虚拟信息图像并发送至所述交互终端，使得所述交互终端将在所述交互帧时刻虚拟视点位置对应的多角度自由视角视频的视频帧与所述虚拟信息图像进行合成处理，得到合成视频帧并展示，可以满足用户对视觉体验丰富性的需求和实时互动需求，提升用户互动体验。

附图说明

图1示出了本说明书实施例中一种具体应用场景中的数据处理系统的结构示意图；

图2示出了本说明书实施例中一种数据处理方法的流程图；

图3示出了本说明书实施例中一种数据处理系统的结构示意图图；

图4示出了本说明书实施例中另一种数据处理方法的流程图；

图5示出了本说明书实施例中一视频帧图像示意图；

图6示出了本说明书实施例中一种三维标定方式示意图；

图7示出了本说明书实施例中另一种数据处理方法的流程图；

图8至图12示出了本说明书实施例中一种交互终端的交互界面示意图；

图13示出了本说明书实施例中另一种交互终端的交互界面示意图；

图14示出了本说明书实施例中用另一种数据处理方法的流程图；

图15示出了本说明书实施例中另一种数据处理系统的结构示意图；

图16示出了本说明书实施例中另一种数据处理系统的结构示意图；

图17示出了本说明书实施例中一种服务器集群架构示意图；

图18至图20示出了本说明书实施例中一种播放终端的播放界面的视频效果示意图；

图21示出了本发明实施例中另一种交互终端的结构示意图；

图22示出了本发明实施例中另一种交互终端的结构示意图；

图23至图26示出了本说明书实施例中一种交互终端的显示界面的视频效果示意图；

图27示出了本说明书实施例中一种服务器的结构示意图；

图28示出了本说明书实施例中一种服务器的结构示意图；

图29示出了本说明书实施例中另一种服务器的结构示意图。

具体实施方式

在传统的直播、转播和录播等播放场景中，用户在观看过程中往往只能通过一个视点位置观看比赛，无法自己自由切换视点位置，来观看不同视角位置处的比赛画面或比赛过程，也就无法体验在现场一边移动视点一边看比赛的感觉。

采用6自由度(6Degree of Freedom，6DoF)技术可以提供高自由度观看体验，用户可以在观看过程中通过交互手段，来调整视频观看的视角，从想观看的自由视点角度进行观看，从而大幅度的提升观看体验。

伴随着用户对丰富视觉体验的需求，出现了在视频中植入AR特效的需求。目前，有在二维或者三维视频中植入AR特效的方案，然而，由于多角度自由视角的视频及AR特效数据均会涉及大量的图像处理、渲染操作以及巨量视频数据的传输，由于人们在视频观看体验中对时延的高敏感度，如直播或准直播场景，需要实现低时延的视频播放，因此难以兼顾用户对视频低时延播放和丰富视觉体验的需求。

为使本领域技术人员更好的理解低时延的多角度自由视角视频的播放场景，以下介绍一种能够实现多角度自由视角视频播放的数据处理系统。采用所述数据处理系统，可以多角度自由视角视频的低时延播放，可以应用于直播、转播等应用场景，也可以应用于基于用户交互的视频播放。

参见图1所示的一种具体应用场景中的数据处理系统的结构示意图，其中示出了一场篮球赛的数据处理系统的布置场景，数据处理系统10包括由多个采集设备组成的采集阵列11、数据处理设备12、云端的服务器集群13、播放控制设备14，播放终端15和交互终端16。采用数据处理系统10，可以实现多角度自由视角视频的重建，用户可以观看低时延的多角度自由视角视频。

具体而言，参照图1，以左侧的篮球框作为核心看点，以核心看点为圆心，与核心看点位于同一平面的扇形区域作为预设的多角度自由视角范围。所述采集阵列11中各采集设备可以根据所述预设的多角度自由视角范围，成扇形置于现场采集区域不同位置，可以分别从相应角度实时同步采集视频数据流。

所述数据处理设备12可以通过无线局域网向所述采集阵列11中各采集设备分别发送拉流指令，所述采集阵列11中各采集设备基于所述数据处理设备12发送的拉流指令，将获得的视频数据流实时传输至所述数据处理设备12。

当所述数据处理设备12接收到视频帧截取指令时，从接收到的多路视频数据流中对指定帧时刻的视频帧截取得到多个同步视频帧，并将获得的所述指定帧时刻的多个同步视频帧上传至云端的服务器集群13。

相应地，云端的服务器集群13将接收的多个同步视频帧作为图像组合，确定所述图像组合相应的参数数据及所述图像组合中各帧图像的深度数据，并基于所述图像组合相应的参数数据、所述图像组合中预设帧图像的像素数据和深度数据，对预设的虚拟视点路径进行帧图像重建，获得相应的多角度自由视角视频的视频帧。

在具体实施中，云端的服务器集群13可以采用如下方式存储所述图像组合的像素数据及深度数据：

基于所述图像组合的像素数据及深度数据，生成对应帧时刻的拼接图像，所述拼接图像包括第一字段和第二字段，其中，所述第一字段包括所述图像组合中预设帧图像的像素数据，所述第二字段包括所述图像组合中预设帧图像的深度数据的第二字段。获取的拼接图像和相应的参数数据可以存入数据文件中，当需要获取拼接图像或参数数据时，可以根据数据文件的头文件中相应的存储地址，从相应的存储空间中读取。

然后，播放控制设备14可以将接收到的所述多角度自由视角视频的视频帧插入待播放数据流中，播放终端15接收来自所述播放控制设备14的待播放数据流并进行实时播放。其中，播放控制设备14可以为人工播放控制设备，也可以为虚拟播放控制设备。在具体实施中，可以设置专门的可以自动切换视频流的服务器作为虚拟播放控制设备进行数据源的控制。导播控制设备如导播台可以作为本发明实施例中的一种播放控制设备。

当云端的服务器集群13收到的来自交互终端16的图像重建指令时，可以提取所述相应图像组合中预设视频帧的拼接图像及相应图像组合相应的参数数据并传输至所述交互终端16。

交互终端16基于触发操作，确定交互帧时刻信息，向服务器集群13发送包含交互帧时刻信息的图像重建指令，接收从云端的服务器集群13返回的对应交互帧时刻的图像组合中预设视频帧的拼接图像及对应的参数数据，并基于交互操作确定虚拟视点位置信息，按照预设规则选择所述拼接图像中相应的像素数据和深度数据及对应的参数数据，将选择的像素数据和深度数据进行组合渲染，重建得到所述交互帧时刻虚拟视点位置对应的多角度自由视角视频的视频帧并进行播放。

通常而言，视频中的实体不会是完全静止的，例如采用上述数据处理系统，在篮球比赛过程中，采集阵列采集到的实体如运动员、篮球、裁判员等大都处于运动状态。相应地，采集到的视频帧的图像组合中的纹理数据和像素数据均也随着时间变化而不断地变动。

采用上述数据处理系统，一方面，用户通过播放终端15可以直接观看插入了多角度自由视角视频帧的视频，例如观看篮球赛直播；另一方面，用户通过交互终端16观看视频过程中，通过交互操作，可以观看到交互帧时刻的多角度自由视角视频。可以理解的是，以上数据处理系统10中也可以仅包含播放终端15或仅包含交互终端16，或者通过同一终端设备作为所述播放终端15和交互终端16。

本领域技术人员可以理解，多角度自由视角视频的数据量相对很大，AR特效对应的虚拟信息图像数据通常数据量也较大，此外，由上述数据处理系统的工作机制可知，若要在实现多角度自由视角视频的重建的同时，对重建的多角度自由视角视频植入AR特效，则更会涉及到大量数据的处理，以及多个设备的协同配合，复杂度以及数据处理量对于网络中数据处理及传输带宽资源而言更是难以实现，因此在多角度自由视角视频的播放过程中，如何植入AR特效以满足用户的视觉体验需求成为一个难以解决的问题。

有鉴于此，本说明书实施例提供一种方案，参照图2所示的数据处理方法的流程图，具体可以包括如下步骤：

S21，获取多角度自由视角视频的视频帧中的目标对象。

在具体实施中，可以基于从多路同步视频流中截取的指定帧时刻的多个同步视频帧所形成的图像组合相应的参数数据、所述图像组合中预设帧图像的像素数据和深度数据，对预设的虚拟视点路径进行帧图像重建得到所述多角度自由视角视频的视频帧，其中，所述多个同步视频帧包含不同拍摄视角的帧图像。

在具体实施中，可以基于某些指示信息(例如特效展示标识)确定多角度自由视角视频的图像中的某些对象作为目标对象，所述指示信息可以基于用户交互生成，也可以基于某些预设触发条件或第三方指令得到。例如，可以响应于特效生成交互控制指令，获取所述多角度自由视角视频的视频帧中的目标对象，可以在所述交互控制指令中设置所述指示信息，所述指示信息具体可以为目标对象的标识信息。作为具体示例，可以基于多角度自由视角视频框架结构，确定所述目标对象对应的指示信息的具体形式。

在具体实施中，目标对象可以是多角度自由视角视频中的视频帧或视频帧序列中的特定实体，例如，特定的人物、动物、物体、光束等环境场、环境空间等。本说明书实施例中并不限定目标对象的具体形态。

在本说明书一些实施例中，所述多角度自由视角视频可以为6DoF视频。

S22，获取基于所述目标对象的增强现实特效输入数据所生成的虚拟信息图像。

在本说明书实施例中，所植入的AR特效以虚拟信息图像的形式呈现。所述虚拟信息图像可以基于所述目标对象的增强现实特效输入数据生成。在确定目标对象后，可以获取基于所述目标对象的增强现实特效输入数据所生成的虚拟信息图像。

在本说明书实施例中，所述目标对象对应的虚拟信息图像可以预先生成，也可以响应于特效生成指令即时生成。

在具体实施中，可以基于三维标定得到的所述目标对象在所述多角度自由视角视频的视频帧中的位置，得到与所述目标对象位置匹配的虚拟信息图像，从而可以使得到的虚拟信息图像与所述目标对象在三维空间中的位置更加匹配，进而所展示的虚拟信息图像更加符合三维空间中的真实状态，因而所展示的合成视频帧更加真实生动，增强用户的视觉体验。

在具体实施中，可以基于目标对象的增强现实特效输入数据，按照预设的特效生成方式，生成所述目标对象对应的虚拟信息图像。

S23，将所述虚拟信息图像与对应的视频帧进行合成处理并展示。

在具体实施中，可以在终端侧展示合成处理后得到的合成视频帧。

其中，基于所述虚拟信息图像对应的视频帧，所得到的合成视频帧可以为单帧，也可以为多帧。若为多帧，则可以按照帧时刻排序以及相应帧时刻的虚拟视点位置，将相应帧时刻的虚拟视点图像与对应帧时刻的视频帧进行合成处理并展示。

由于可以根据相应帧时刻的虚拟视点位置，生成与所述虚拟视点位置匹配的虚拟信息图像，进而按照帧时刻排序以及相应帧时刻的虚拟视点位置，将相应帧时刻的虚拟信息图像与相应帧时刻的视频帧进行合成处理，从而可以随着虚拟视点的变化而自动地生成与所述相应帧时刻的虚拟视点位置匹配的合成视频帧，从而使得所得到的合成视频帧的增强现实特效更加逼真生动，故可以进一步增强用户的视觉体验。

在具体实施中，可以有多种方式将所述虚拟信息图像与对应的视频帧进行合成处理并展示，以下给出两种具体可实现示例：

示例一：将所述虚拟信息图像与对应的视频帧进行融合处理，得到融合视频帧，对所述融合视频帧进行展示；

示例二：将所述虚拟信息图像叠加在对应的视频帧之上，得到叠加合成视频帧，对所述叠加合成视频帧进行展示。

在具体实施中，可以将得到的合成视频帧直接展示；也可以将得到的合成视频帧插入待播放的视频流进行播放展示。例如，可以将所述融合视频帧插入待播放视频流进行播放展示。

采用本说明书实施例，在多角度自由视角视频的实时播放过程中，通过获取所述多角度自由视角视频的视频帧中的目标对象，进而获取基于所述目标对象的增强现实特效输入数据所生成的虚拟信息图像，并将所述虚拟信息图像与对应的视频帧进行合成处理并展示。通过这一过程，只需要在多角度自由视角视频播放过程中，对于需要植入AR特效的视频帧与所述视频帧中目标对象所对应的虚拟信息图像合成即可得到融合了AR特效的视频帧，无须先为一个多角度自由视角视频预先生成所有的多角度自由视角视频融合AR特效的视频帧后再去播放，因此可以实现在多角度自由视角视频中AR特效的精准而迅速地植入，可以满足用户观看低时延视频和视觉体验丰富性的需求。

如前所述，在多角度自由视角视频中植入AR特效对应的虚拟信息图像适用于多种应用场景，为使本领域技术人员更好地理解和实施本说明书实施例，以下通过交互式和非交互式两种应用场景分别展开进行阐述。

其中，非交互式应用场景，在此应用场景中，用户观看植入AR特效的多角度自由视角视频无须用户交互触发，可以在服务端控制植入AR特效的时机、位置、植入内容等，用户在终端侧随着视频流的播放即可看到植入AR特效的多角度自由视角视频的自动展示。例如，在直播或准直播过程中，通过在多角度自由视角视频中植入AR特效，可以生成植入AR特效的多角度自由视角视频合成视频帧，满足用户对视频低时延播放和丰富视觉体验的需求。

而交互式应用场景，用户可以在多角度自由视角视频观看过程中，主动触发AR特效的植入，由于采用本说明书实施例中的方案，可以在多角度自由视角视频中快速地植入AR的方案，避免由于生成过程持续较长而出现视频播放过程卡顿等现象，从而可以实现基于用户交互，生成植入AR特效的多角度自由视角视频合成视频真烦，满足用户对视频低时延播放和丰富视觉体验的需求。

在具体实施中，对应于交互式场景，可以响应于用户端的特效生成交互控制指令，获取所述多角度自由视角视频的视频帧中的目标对象。之后，可以获取基于所述目标对象的增强现实特效输入数据所生成的虚拟信息图像，并将所述虚拟信息图像与对应的多角度自由视角视频的视频帧进行合成入力并展示。

其中，所述目标对象对应的虚拟信息图像可以预先生成，也可以即时生成。例如，在非交互式场景，可以响应于服务端特效生成指令生成；对于交互场景，可以响应于服务端特效生成指令预先生成，或者响应于交互终端的特效生成交互控制指令，即时生成。

在本说明书一些实施例中，所述目标对象可以为图像中的特定实体，例如，特定的人物、动物、物体、环境空间等，则可以根据所述特效生成交互控制指令中的目标对象指示信息(例如特效展示标识)所指示的目标对象，获取所述目标对象的增强现实特效输入数据，基于所述目标对象的增强现实特效输入数据，按照预设的特效生成方式，生成所述目标对象对应的虚拟信息图像。具体的特效生成方式可以参见后续实施例中的一些示例，此处不作详细描述。

在具体实施中，为将数据处理将多角度自由视角视频的视频帧与所述视频帧中目标图像对应的虚拟信息图像合成处理，可以预先将生成多角度自由视角视频的数据以及增强现实特效输入数据等所有或部分数据预先下载至交互终端，在交互终端可以执行如下部分或全部操作：多角度自由视角视频的重建，生成虚拟信息图像，以及多角度自由视角视频的视频帧的渲染和虚拟信息图像的叠加渲染，也可以在服务端(如云端服务器)生成多角度自由视角视频、虚拟信息图像，仅在交互终端执行多角度自由视角视频的视频帧和对应的虚拟信息图像的合成操作。

此外，在非交互式场景中，可以将所述多角度自由视角视频合成视频帧插入至待播放数据流中。具体而言，对于包含合成视频帧的多角度自由视角视频，可以作为多个待播放数据流中的其中一个视频流，作为待选择播放的视频流。例如，可以将所述包含多角度自由视角视频帧的视频流，作为播放控制设备(如：导播控制设备)的一个输入视频流，供所述播放控制设备选择使用。

需要说明的是，在某些情况下，同一用户可能既存在非交互场景中观看植入AR特效的多角度自由视角视频的需求，也存在交互场景中观看植入AR特效的多角度自由视角视频的需求，例如用户在观看直播过程中，对于某个精彩画面，或者漏看的某一时间段内的视频，可能退回观看回放视频，在此过程中，可以满足用户的互动需求。相应地，则会有非互动场景下得到的植入了AR特效的多角度自由视角视频合成视频帧和互动场景下得到的植入了AR特效的多角度自由视角视频合成视频帧。

为使本领域技术人员更加清楚地了解及实施本说明书实施例，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本说明书的一部分实施例，而不是全部实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本说明书保护的范围。

以下首先参照附图，通过具体实施例对本说明书实施例中非交互式应用场景的方案进行详细阐述。

本说明书一些实施例中，采用分布式系统架构的数据处理系统，对于接收到的从多路视频流中截取的指定帧时刻的多个同步视频帧所形成的图像组合，通过确定所述图像组合相应的参数数据和所述图像组合中各视频帧的深度数据，一方面，基于所述图像组合相应的参数数据、所述图像组合中预设视频帧的像素数据和深度数据，对预设的虚拟视点路径进行帧图像重建，可以获得相应的多角度自由视角视频的视频帧；另一方面，响应于特效生成指令，可以获取与所述特效生成指令指定的视频帧中的目标对象，获取所述目标对象的增强现实特效输入数据，并基于所述目标对象的增强现实特效输入数据，生成对应的虚拟信息图像，，并将所述虚拟信息图像与所述指定的视频帧进行合成处理，得到合成视频帧并展示参照图3所示的一种应用场景的数据处理系统的结构示意图，数据处理系统30包括：数据处理设备31、服务器32、播放控制设备33和播放终端34。

其中，数据处理设备31可以对现场采集区域中采集阵列采集到的视频帧(包括单个的帧图像)进行视频帧的截取。通过对待生成多角度自由视角图像的视频帧进行截取，可以避免大量的数据传输及数据处理。之后，由服务器32进行多角度自由视角视频的视频帧的生成，以及响应于特效生成指令，进行虚拟信息图像的生成，以及所述虚拟信息图像和所述多角度自由视角视频的视频帧的合成处理，得到多角度自由视角视频合成视频帧，可以充分利用服务器32强大的计算能力，即可快速地生成多角度自由视角视频合成视频帧，从而可以及时地插入播放控制设备33的待播放数据流中，以低廉的成本实现融入AR特效的多角度自由视角视频的播放，满足用户对视频低时延播放和丰富视觉体验的需求。

参照图4所示的数据处理方法的流程图，为满足用户对视频低时延播放和丰富视觉体验的需求，具体可以通过如下步骤对视频数据进行处理：

S41，接收从多路同步视频流中截取的指定帧时刻的多个同步视频帧作为图像组合，所述多个同步视频帧包含不同拍摄视角的帧图像。

在具体实施中，可以由数据处理设备根据接收到的视频帧截取指令，从多路同步视频流中截取指定帧时刻的多个视频帧并上传，例如可以上传至云端服务器或者服务集群。

作为一具体场景示例：现场采集区域可以在不同位置部署多个采集设备组成的采集阵列，所述采集阵列可以实时同步采集多路视频数据流并上传至所述数据处理设备，数据处理设备在接收到视频帧截取指令时，可以根据所述视频帧截取指令中包含的指定帧时刻的信息，从所述多路视频数据流中截取相应帧时刻的视频帧。其中，所述指定帧时刻可以以帧为单位，将第N至M帧作为指定帧时刻，N和M均为不小于1的整数，且N≤M；或者，所述指定帧时刻也可以以时间为单位，将第X至Y秒作为指定帧时刻，X和Y均为正数，且X≤Y。因此，多个同步视频帧可以包括指定帧时刻对应的所有帧级同步的视频帧，各视频帧的像素数据形成对应的帧图像。

例如，数据处理设备根据接收到的视频帧截取指令，可以获得指定帧时刻为多路视频数据流中的第2帧，则数据处理设备分别截取各路视频数据流中第2帧的视频帧，且截取的各路视频数据流的第2帧的视频帧之间帧级同步，作为获取得到的多个同步视频帧。

又例如，假设采集帧率设置为25fps，即1秒采集25帧，数据处理设备根据接收到的视频帧截取指令，可以获得指定帧时刻为多路视频数据流中的第1秒内的视频帧，则数据处理设备可以分别截取各路视频数据流中第1秒内的25个视频帧，且截取的各路视频数据流中第1秒内的第1个视频帧之间帧级同步，截取的各路视频数据流中第1秒内的第2个视频帧之间帧级同步，直至取的各路视频数据流中第1秒内的第25个视频帧之间帧级同步，作为获取得到的多个同步视频帧。

还例如，数据处理设备根据接收到的视频帧截取指令，可以获得指定帧时刻为多路视频数据流中的第2帧和第3帧，则数据处理设备可以分别截取各路视频数据流中第2帧的视频帧和第3帧的视频帧，且截取的各路视频数据流的第2帧的视频帧之间和第3帧的视频帧之间分别帧级同步，作为多个同步视频帧。

在具体实施中，所述多路视频数据流可以是采用压缩格式的视频数据流，也可以是采用非压缩格式的视频数据流。

S42，确定所述图像组合相应的参数数据。

在具体实施中，可以通过参数矩阵来获得所述图像组合相应的参数数据，所述参数矩阵可以包括内参矩阵，外参矩阵、旋转矩阵和平移矩阵等。由此，可以确定空间物体表面指定点的三维几何位置与其在图像组合中对应点之间的相互关系。

在本发明的实施例中，可以采用运动重构(Structure From Motion，SFM)算法，基于参数矩阵，对获取到的图像组合进行特征提取、特征匹配和全局优化，获得的参数估计值作为图像组合相应的参数数据。其中，特征提取采用的算法可以包括以下任意一种：尺度不变特征变换(Scale-Invariant Feature Transform，SIFT)算法、加速稳健特征(Speeded-Up Robust Features，SURF)算法、加速段测试的特征(Features from AcceleratedSegment Test，FAST)算法。特征匹配采用的算法可以包括：欧式距离计算方法、随机样本一致性(Random Sample Consensus，RANSC)算法等。全局优化的算法可以包括：光束法平差(Bundle Adjustment，BA)等。

S43，确定所述图像组合中各帧图像的深度数据。

在具体实施中，可以基于所述图像组合中的多个帧图像，确定各帧图像的深度数据。其中，深度数据可以包括与图像组合中各帧图像的像素对应的深度值。采集点到现场中各个点的距离可以作为上述深度值，深度值可以直接反映待观看区域中可见表面的几何形状。例如，以拍摄坐标系的原点作为光心，深度值可以是现场中各个点沿着拍摄光轴到光心的距离。本领域技术人员可以理解的是，上述距离可以是相对数值，多个帧图像可以采用相同的基准。

在本发明一实施例中，可以采用双目立体视觉的算法，计算各帧图像的深度数据。除此之外，深度数据还可以通过对帧图像的光度特征、明暗特征等特征进行分析间接估算得到。

在本发明另一实施例中，可以采用多视点三维重建(Mult-View Stereo，MVS)算法进行帧图像重建。重建过程中可以采用所有像素进行重建，也可以对像素进行降采样仅用部分像素重建。具体而言，可以对每个帧图像的像素点都进行匹配，重建每个像素点的三维坐标，获得具有图像一致性的点，然后计算各个帧图像的深度数据。或者，可以对选取的帧图像的像素点进行匹配，重建各选取的帧图像的像素点的三维坐标，获得具有图像一致性的点，然后计算相应帧图像的深度数据。其中，帧图像的像素数据与计算得到的深度数据对应，选取帧图像的方式可以根据具体情景来设定，比如，可以根据需要计算深度数据的帧图像与其他帧图像之间的距离，选择部分帧图像。

S44，基于所述图像组合相应的参数数据、所述图像组合中预设帧图像的像素数据和深度数据，对预设的虚拟视点路径进行帧图像重建，获得相应的多角度自由视角视频的视频帧。

在具体实施中，帧图像的像素数据可以为YUV数据或RGB数据中任意一种，或者也可以是其它能够对帧图像进行表达的数据；深度数据可以包括与帧图像的像素数据一一对应的深度值，或者，可以是对与帧图像的像素数据一一对应的深度值集合中选取的部分数值，具体的选取方式根据具体的情景而定；所述虚拟视点选自多角度自由视角范围，所述多角度自由视角范围为支持对待观看区域进行视点的切换观看的范围。

在具体实施中，预设帧图像可以是图像组合中所有的帧图像，也可以是选择的部分帧图像。其中，选取的方式可以根据具体情景来设定，例如，可以根据采集点之间的位置关系，选择图像组合中相应位置的部分帧图像；又例如，可以根据想要获取的帧时刻或帧时段，选择图像组合中相应帧时刻的部分帧图像。

由于所述预设的帧图像可以对应不同的帧时刻，因此，可以对虚拟视点路径中各虚拟视点与各帧时刻进行对应，根据各虚拟视点相对应的帧时刻获取相应的帧图像，然后基于所述图像组合相应的参数数据、各虚拟视点的帧时刻对应的帧图像的深度数据和像素数据，对各虚拟视点进行帧图像重建，获得相应的多角度自由视角视频的视频帧。因此，在具体实施中，除了可以实现某一个时刻的多角度自由视角图像，还可以实现时序上连续的或非连续的多角度自由视角视频。

在本发明一实施例中，所述图像组合包括A个同步视频帧，其中，a1个同步视频帧对应第一帧时刻，a2个同步视频帧对应第二帧时刻，a1+a2＝A；并且，预设有B个虚拟视点组成的虚拟视点路径，其中b1个虚拟视点与第一帧时刻相对应，b2个虚拟视点与第二帧时刻相对应，b1+b2≤2B，则基于所述图像组合相应的参数数据、第一帧时刻的a1个同步视频帧的帧图像的像素数据和深度数据，对b1个虚拟视点组成的路径进行第一帧图像重建，基于所述图像组合相应的参数数据、第二帧时刻的a2个同步视频帧的帧图像的像素数据和深度数据，对b2个虚拟视点组成的路径进行第二帧图像重建，最终获得相应的多角度自由视角视频的视频帧。

可以理解的是，可以将指定帧时刻和虚拟视点进行更细的划分，由此得到更多的不同帧时刻对应的同步视频帧和虚拟视点，实现随着时间自由转换视点，并可提升多角度自由视角视频视点切换的平滑性。

可以理解的是，上述实施例仅为举例说明，并非对具体实施方式的限定。

在本说明书实施例中，可以采用基于深度图的图像绘制(Depth Image BasedRendering，DIBR)算法，根据所述图像组合相应的参数数据和预设的虚拟视点路径，对预设的帧图像的像素数据和深度数据进行组合渲染，从而实现基于预设的虚拟视点路径的帧图像重建，获得相应的多角度自由视角视频的视频帧。

S45，响应于特效生成指令，获取与所述特效生成指令指定的视频帧中的目标对象，获取所述目标对象的增强现实特效输入数据，并基于所述目标对象的增强现实特效输入数据，生成对应的虚拟信息图像。

在具体实施中，可以响应于所述特效生成指令，将所述目标对象的增强现实特效输入数据作为输入，基于三维标定得到的所述目标对象在所述多角度自由视角视频的视频帧中的位置，并采用预设的第一特效生成方式，生成对应视频帧中与所述目标对象匹配的虚拟信息图像。

为准确地位特效生成指令对应的目标对象的位置，在具体实施中，对于待植入AR特效的视频帧，可以从中选取预设数量的像素点，根据所述视频帧的参数数据和所述视频帧对应的真实物理空间参数，确定所述预设数量像素点的空间位置，进而可以确定所述目标对象在所述视频帧中的准确位置。

参照图5和图6，图5所示的视频帧P50展示了一场篮球赛进行过程中的图像，篮球场地中有多名篮球运动员，其中一名篮球运动员正在做出投篮动作。为确定所述视频帧中的目标对象的在所述视频帧中的位置，如图6所示，选取篮球场地的限制区域的四个顶点对应的像素点A、B、C、D，结合真实篮球场地参数，通过一个所述视频帧对应的相机的参数可以完成标定，之后，可以根据虚拟相机的参数，得到相应虚拟相机中的球场三维位置信息，从而可以实现包含所述篮球场地的视频帧的三维空间位置关系的准确标定。

可以理解的是，也可以选取所述视频帧中的其他像素点进行三维标定，以确定所述视频帧中所述特效生成指令对应的目标对象的位置。在具体实施中，为保证图像中具体对象的三维空间位置关系更加精准，优先选取图像中静止事物对应的像素点用以三维标定。选取的像素点可以为一个，也可以为多个。为减小数据运算量，可以优先选择图像中规则物体的轮廓点或顶点用于三维标定。

通过三维标定，可以实现所生成的虚拟的三维的虚拟信息图像，与描述真实世界的多角度自由视角视频本身，在三维空间内的任意位置、任意视角、任意视点在空间位置上的准确融合，从而可以实现虚拟与现实的无缝融合，实现虚拟信息图像和多角度自由视角视频的视频帧在播放过程中的动态同步、和谐统一，因此可以使合成处理所得到的多角度自由视角合成视频帧更加自然逼真，故可以极大地增强用户的视觉体验。

在具体实施中，服务器(如云端服务器)可以自动生成特效生成指令，也可以响应于服务端用户交互操作，生成对应的服务端特效生成交互控制指令。例如，云端服务器可以通过预设的AI识别算法自动选择待植入AR特效的图像组合作为所述特效生成指令指定的图像组合，并获取所指定的图像组合对应的虚拟信息图像。又如，服务端用户可以通过交互操作指定图像组合，服务器在接收到基于服务端特效生成交互控制操作所触发的服务端特效生成交互控制指令时，可以从所述服务端特效生成交互指令中获取指定的图像组合，进而可以获取与所述特效生成指令指定的图像组合对应的虚拟信息图像。

在具体实施中，可以直接从预设的存储空间获取与所述特效生成指令指定的图像组合对应的虚拟信息图像，也可以根据所述特效生成指令指定的图像组合，即时生成匹配的虚拟信息图像。

为生成所述虚拟信息图像，在具体实施中，可以以所述目标对象为中心，先识别所述视频帧中的目标对象，之后获取所述目标对象的增强现实特效输入数据，然后，将所述增强现实特效输入数据作为输入，采用预设的第一特效生成方式，生成与所述视频帧中所述目标对象匹配的虚拟信息图像。

在本说明书一些实施例中，可以通过图像识别技术识别出所述视频帧中的目标对象，例如识别出特效区域中的目标对象为一个人物(如篮球运动员)、一个物体(如篮球、记分牌)、一个动物(例如猫或狮子)等等。

在具体实施中，可以响应于服务端特效生成交互控制指令，获取所述目标对象的增强现实特效输入数据。例如，服务端用户通过交互操作，选中某一篮球赛直播视频中的球员，则可以相应生成与所述交互操作对应的服务端特效生成交互控制指令，根据所述服务端特效生成交互控制指令，可以获取所述球员关联的增强现实特效输入数据，例如，姓名、篮球比赛中的位置名称(可以为具体号位或者位置类型：如中锋、前锋、后卫等)和投篮命中率等曾现实特效输入数据。

在具体实施中，可以先根据所述服务端特效生成交互控制指令，确定特效输出类型，之后，获取所述目标对象的历史数据，根据所述特效数据类型对所述历史数据进行处理，得到与所述特效输出类型对应的增强现实特效输入数据。例如，对于一场篮球赛直播，根据所述服务端特效生成交互控制指令，获取到服务端用户欲获取所述目标对象所在位置的投篮命中率，则可以计算所述目标对象所在位置距离篮网中心的地面投影位置的距离，获取在所述目标对象在此距离之内的历史投篮数据作为所述目标对象的增强现实特效输入数据。

在具体实施中，服务端用户可以通过相应的交互控制设备进行交互控制操作，基于服务端用户的特效生成交互控制操作，可以得到相应的服务端特效生成交互控制指令。在具体实施中，服务端用户可以通过交互操作，选择待生成特效的目标对象。进一步地，用户还可以选择目标对象的增强现实特效输入数据，例如增强现实特效输入数据的数据类型、数据范围(可以基于时间或地理空间的进行选择)等。

可以理解的是，所述服务端特效生成交互控制指令也可以为服务端自动产生，服务端可以通过机器学习实现自主决策，选择待植入特效的视频帧的图像组合、目标对象，以及目标对象的增强现实特效输入数据等。

以下通过一些具体实施方式说明如何采用预设的第一特效生成方式，生成与所述视频帧中所述目标对象匹配的虚拟信息图像。

在本说明书一具体实现中，可以将所述增强现实特效输入数据输入至预设的三维模型进行处理，得到与所述视频帧中所述目标对象匹配的虚拟信息图像。

例如，将所述增强现实特效输入数据输入至预设三维模型后，可以获取与所述增强现实特效输入数据匹配的三维图形元素并进行组合，并将所述增强现实特效数据中的显示元数据和所述三维图形元素数据作为与所述视频帧中与所述目标对象匹配的虚拟信息图像进行输出。

其中，所述三维模型可以为对实际物品进行三维扫描得到的三维模型，也可以为构建的虚拟模型，所述虚拟模型可以包括虚拟物品模型和虚拟形象模型，其中，虚拟物品可以是虚拟的魔法棒能现实世界中不存在的物品，虚拟形象造型可以是想象中的人物或动物造型，例如传说中的哪吒的三维模型，虚拟的独角兽、龙等造型的三维模型。

在本说明书另一具体实现中，可以将所述增强现实特效输入数据作为输入数据，输入至预设的机器学习模型进行处理，得到与所述视频帧中所述目标对象匹配的虚拟信息图像。

在具体实施中，所述预设的机器学习模型可以为有监督的学习模型，也可以为无监督的学习模型，或者是半监督学习模型(有监督学习模型和无监督学习模型的结合模型)，本说明书实施例中并不限定所采用的具体模型。

采用机器学习模型生成所述虚拟信息图像，包括两个阶段：模型训练阶段和模型应用阶段。

在模型训练阶段，首先可以采用训练样本数据作为输入数据，输入至预设的机器学习模型进行训练，调整所述机器学习模型的参数，在所述机器学习模型训练完成后，可以作为所述预设的机器学习模型。训练样本数据可以包含各种现实物理空间采集到的图像、视频，或者人工建模生成的虚拟的图像或视频等，完成训练后的机器学习模型可以基于输入数据，自动生成相应的三维图像、三维视频、以及对应的音效等。

在模型应用阶段：将所述增强现实特效输入数据作为输入数据，输入至训练完成的机器学习模型，可以自动生成与所述输入数据匹配的增强现实特效模型，也即与所述视频帧中所述目标对象匹配的虚拟信息图像。

在本说明书实施例中，根据所采用的三维模型，或者根据所采用的机器学习模型，生成的虚拟信息图像的形式有所不同。具体地，所生成的虚拟信息图像可以为静态图像，也可以为动画等动态的视频帧，甚至可以为包含音频数据的视频帧。

S46，将所述虚拟信息图像与所述指定的视频帧进行合成处理，得到合成视频帧。

在具体实施中，可以将所述虚拟信息图像和所述指定的视频帧进行融合处理，得到植入了AR特效的融合视频帧。

S47，将所述合成视频帧进行展示。

将所述合成后的合成视频帧插入至播放控制设备的待播放视频流以用于通过播放终端进行播放。

在具体实施中，播放控制设备可以将多路视频流作为输入，其中，视频流可以来自采集阵列中各采集设备，也可以来自其他采集设备。播放控制设备可以根据需要选择一路输入的视频流作为待播放视频流，其中，可以选择前述步骤S46获得的多角度自由视角视频的合成视频帧插入待播放视频流，或者由其他输入接口的视频流切换至包含所述多角度自由视角视频合成视频帧的输入接口，播放控制设备将选择的待播放视频流输出至播放终端，即可通过播放终端进行播放，因此用户除了可以通过播放终端观看到多角度自由视角的视频帧，还可以通过播放终端观看到植入了AR特效的多角度自由视角的合成视频帧。

其中，播放终端可以是电视、手机、平板、电脑等视频播放设备或包含显示屏或投影设备的其他类型的电子设备。

在具体实施中，插入播放控制设备的待播放视频流的多角度自由视角视频合成视频帧可以保留在播放终端中，以便于用户进行时移观看，其中，时移可以是用户观看时进行的暂停、后退、快进到当前时刻等操作。

由上述步骤可知，对于接收到从多路视频流中截取的指定帧时刻的多个同步视频帧所形成的图像组合，通过确定所述图像组合相应的参数数据和所述图像组合中各帧图像的深度数据，一方面，基于所述图像组合相应的参数数据、所述图像组合中预设帧图像的像素数据和深度数据，对预设的虚拟视点路径进行帧图像重建，获得相应的多角度自由视角视频的视频帧；另一方面，响应于特效生成指令，视频帧中的目标对象，获取所述目标对象的增强现实特效输入数据，并基于所述目标对象的增强现实特效输入数据，生成对应的虚拟信息图像，并将所述虚拟信息图像与所述指定的视频帧进行合成处理，得到合成视频帧，之后，将所述合成视频帧插入至播放控制设备的待播放视频流以用于通过播放终端进行播放，可以实现具有AR特效的多角度自由视角的视频。

采用上述数据处理方法，仅从多路同步视频流中截取指定帧时刻的多个同步视频帧进行多角度自由视角视频的重建，以及生成与特效生成指令指定的视频帧中的目标对象对应的虚拟信息图像，因此无需巨量的同步视频流数据的上传，这一分布式系统架构可以节省大量的传输资源及服务器处理资源，且在网络传输带宽有限的条件下，可以实现具有增强现实特效的合成视频帧实时或近乎实时的生成，故能够实现植入AR特效的多角度自由视角合成视频帧的低时延播放，因而可以兼顾用户视频观看过程中对丰富视觉体验和低时延的双重需求。

在具体实施中，上述各步骤中，多路视频流中同步视频帧的截取，以及基于多个同步视频帧所形成的图像组合生成多角度自由视角视频的视频帧，获取与所述特效生成指令指定的图像组合对应的虚拟信息图像，以及将所述虚拟信息图像和所述指定的图像组合进行合成处理得到合成视频帧等步骤均可以由不同的硬件设备协同完成，也即采用分布式处理架构。

继续参照图4，在步骤S44中，可以根据所述预设的虚拟视点路径中各虚拟视点的虚拟参数数据以及所述图像组合相应的参数数据之间的关系，将所述图像组合中预设的视频帧的深度数据分别映射至相应的虚拟视点；根据分别映射至相应的虚拟视点的预设视频帧的像素数据和深度数据，以及预设的虚拟视点路径，进行帧图像重建，获得相应的多角度自由视角视频的视频帧。

其中，所述虚拟视点的虚拟参数数据可以包括：虚拟观看位置数据和虚拟观看角度数据；所述图像组合相应的参数数据可以包括：采集位置数据和拍摄角度数据等。可以先采用前向映射，进而进行反向映射的方法，得到重建后的视频帧。

在具体实施中，采集位置数据和拍摄角度数据可以称作外部参数数据，参数数据还可以包括内部参数数据，所述内部参数数据可以包括采集设备的属性数据，从而可以更加准确地确定映射关系。例如，内部参数数据可以包括畸变数据，由于考虑到畸变因素，可以从空间上进一步准确地确定映射关系。

接下来，参照附图，通过具体实施例对本说明书实施例中交互式应用场景的方案进行详细阐述。

如图7所示的数据处理方法的流程图，在本说明书一些实施例中，在交互终端，基于用户交互操作，可以采用如下步骤，获得植入AR特效的多角度自由视角视频合成视频帧：

S71，实时进行多角度自由视角视频的视频帧的展示。

在具体实施中，所述多角度自由视角视频的视频帧基于指定帧时刻的多个同步视频帧形成的图像组合的参数数据、所述图像组合的像素数据和深度数据重建得到，所述多个同步视频帧包括不同拍摄视角的帧图像。所述多角度自由视角视频帧的重建方式可以参见前述实施例的介绍，此处不再展开描述。

S72，响应于对所述多角度自由视角视频的视频帧中特效展示标识的触发操作，获取对应于所述特效展示标识的指定帧时刻的视频帧的虚拟信息图像。

S73，将所述虚拟信息图像与对应的视频帧进行合成处理并展示。

在具体实施中，可以基于所述特效展示标识，确定所述虚拟信息图像在所述多角度自由视角视频的视频帧中的叠加位置，之后，可以将所述虚拟信息图像在所确定的叠加位置进行叠加展示。

为使本领域技术人员更好地理解和实施，以下通过一交互终端的图像展示过程进行详细说明。参照图8至图12所示的交互终端的视频播放画面示意图，交互终端T80实时地进行视频的播放，其中，如步骤S71所述，参照图8，展示视频帧P80，接下来，交互终端所展示的视频帧P81中包含特效展示标识I1等多个特效展示标识，视频帧P80中通过指向目标对象的倒三角符号表示，如图9所示。可以理解的是，也可以采用其他的方式展示所述特效展示标识。终端用户触摸点击所述特效展示标识I1，则系统自动获取对应于所述特效展示标识I1的虚拟信息图像，将所述虚拟信息图像叠加展示在多角度自由视角视频的视频帧P81中，如图10所示，以运动员Q1站立的场地位置为中心，渲染出一个立体圆环R1。接下来，如图11及图12所示，终端用户触摸点击多角度自由视角视频的视频帧P81中的特效展示标识I2，系统自动获取对应于所述特效展示标识I2的虚拟信息图像，将所述虚拟信息图像叠加展示在多角度自由视角视频的视频帧P81上，得到多角度自由视角视频叠加视频帧P82，其中展示了命中率信息展示板M0。命中率信息展示板M0上展示了目标对象即运动员Q1的号位、姓名及命中率信息。

如图8至图12所示，终端用户可以继续点击视频帧中展示的其他特效展示标识，观看展示各特效展示标识相应的AR特效的视频。

可以理解的是，可以通过不同类型的特效展示标识区分不同类型的植入特效。

在具体实施中，特效展示标识除了可以在播放画面中进行展示外，还可以在其他地方进行展示，例如对于可展示AR特效的视频帧，可以在播放进度条上相应帧所对应的进度位置设置特效展示标识用于告知终端用户。如图13所示的交互终端的交互界面示意图，交互终端T130展示了播放界面Sr131，以及当前播放的视频帧在整个进度条L131中的位置，由所述进度条L131展示的信息可知，根据当前播放视频帧在整个视频中的位置，进度条L131划分为已播放段L131a和未播放段L131b，此外，在进度条L131上展示有特效展示标识D1～D4，其中，特效展示标识D1位于已播放段L131a，特效展示标识D2即当前视频帧，位于已播放段L131a和未播放段L131b的交界点，特效展示标识D3、D4位于未播放段L131b，终端用户可以通过所述进度条L131上的特效展示标识，即可回退或快进至相应的视频帧，观看植入了AR特效的多角度自由视角合成视频帧对应的画面。

参照图14所示的数据处理方法的流程图，在本说明书实施例一种交互场景中，为实现在交互终端植入AR特效的多角度自由视角视频合成视频帧的展示，具体可以采用如下步骤进行数据处理：

S141，响应于来自交互终端的图像重建指令，确定交互时刻的交互帧时刻信息，获取对应交互帧时刻的图像组合中预设帧图像的拼接图像及所述图像组合相应的参数数据并发送至所述交互终端，使得所述交互终端基于交互操作所确定的虚拟视点位置信息，按照预设规则选择所述拼接图像中相应的像素数据和深度数据及对应的参数数据，将选择的像素数据和深度数据进行组合渲染，重建得到所述交互帧时刻虚拟视点位置对应的多角度自由视角视频的视频帧并进行播放。

在具体实施中，所述预设帧图像的拼接图像基于所述交互帧时刻的图像组合的像素数据和深度数据生成，所述拼接图像包括第一字段和第二字段，所述其中，所述第一字段包括所述图像组合中所述预设帧图像的像素数据，所述第二字段包括所述图像组合的深度数据。

在具体实施中，所述交互帧时刻的图像组合基于从多路同步视频流中截取指定帧时刻的多个同步视频帧得到，所述多个同步视频帧包含不同拍摄视角的帧图像。

S142，响应于特效生成交互控制指令，获取所述特效生成交互控制指令指示的预设视频帧的拼接图像对应的虚拟信息图像。

在本说明书一些实施例中，可以响应于特效生成交互控制指令，读取所述特效生成交互控制指令指示的预设视频帧中的目标对象；基于所述目标对象，获取预先基于所述目标对象的增强现实特效输入数据所生成的虚拟信息图像。

在具体实施中，可以采用多种方式生成与所述目标对象匹配的虚拟信息图像，以下给出两种可实现示例：

示例一，将所述目标对象的增强现实特效数据作为输入数据，输入至预设的三维模型进行处理，得到与所述目标对象匹配的虚拟信息图像；

示例二，将所述目标对象的增强现实特效数据作为输入数据，输入至预设的机器学习模型进行处理，得到与所述目标对象匹配的虚拟信息图像。

上述两种示例的具体实现示例可以参见前述实施例。

S143，将所述预设视频帧的拼接图像对应的虚拟信息图像发送至所述交互终端，使得所述交互终端将在所述交互帧时刻虚拟视点位置对应的多角度自由视角视频的视频帧与所述虚拟信息图像进行合成处理，得到合成视频帧并展示。

为使本领域技术人员更好地理解及实施本说明书实施例，以下提供一种适用于交互场景的数据处理系统。

参照图15，在本说明书一些实施例中，数据处理系统150可以包括服务器151和交互终端152，其中：

所述服务器151可以响应于来自交互终端152的图像重建指令，确定交互时刻的交互帧时刻信息，获取对应交互帧时刻的图像组合中预设视频帧的拼接图像及所述图像组合相应的参数数据并发送至所述交互终端152，以及响应于特效生成交互控制指令，生成所述特效生成交互控制指令指示的预设视频帧的拼接图像对应的虚拟信息图像；

所述交互终端152，基于交互操作所确定的虚拟视点位置信息，按照预设规则选择所述拼接图像中相应的像素数据和深度数据及对应的参数数据，将选择的像素数据和深度数据进行组合渲染，重建得到所述交互帧时刻虚拟视点位置对应的多角度自由视角视频的图像并进行播放；以及将在所述交互帧时刻虚拟视点位置对应的多角度自由视角视频的视频帧与所述虚拟信息图像进行合成处理，得到合成视频帧并进行播放。

在具体实施中，所述服务器151可以存储与所述预设帧图像的拼接图像对应的虚拟信息图像，或者基于所述预设帧图像的拼接图像的增强现实特效输入数据，从第三方获取所述预设帧图像的拼接图像对应的虚拟信息图像，或者即时生成所述预设帧图像的拼接图像对应的虚拟信息图像。

所述数据处理系统还可以包括数据处理设备153。如前实施例所述，数据处理设备153可以对现场采集区域中采集阵列采集到的视频帧进行视频帧截取。通过对待生成多角度自由视角视频的视频帧进行截取，可以避免大量的数据传输及数据处理。现场采集阵列中的采集设备可以同步采集不同拍摄视角的帧图像，所述数据处理设备可以从多路同步视频流中截取指定帧时刻的多个同步视频帧。

之后，所述数据处理设备153可以将截取得到的帧图像上传至所述服务器151。所述服务器151可以存储预设视频帧的图像组合的拼接图像和所述图像组合的参数数据。

在具体实施中，所述适用于非交互场景中的数据处理系统和适用于交互场景的数据处理系统可以融合。

继续参照图3，作为一具体示例，所述服务器32除了可以得到多角度自由视角视频的视频帧和所述虚拟信息图像外，对于指定帧时刻的多个同步视频帧所形成的图像组合，为了后续能够方便获取数据，所述服务器32可以基于所述图像组合的像素数据及深度数据，生成所述图像组合相应的拼接图像，所述拼接图像可以包括第一字段和第二字段，其中，所述第一字段包括所述图像组合的像素数据，所述第二字段包括所述图像组合的深度数据，然后，存储所述图像组合相应的拼接图像及所述图像组合相应的参数数据。

为了节约存储空间，可以基于所述图像组合中预设视频帧的像素数据及深度数据，生成所述图像组合中预设视频帧相应的拼接图像，所述预设视频帧相应的拼接图像可以包括第一字段和第二字段，其中，所述第一字段包括所述预设视频帧的像素数据，所述第二字段包括所述预设视频帧的深度数据，然后，仅存储所述预设视频帧相应的拼接图像及相应的参数数据即可。

其中，所述第一字段与所述第二字段相对应，所述拼接图像可以分为图像区域以及深度图区域，图像区域的像素字段存储所述多个帧图像的像素数据，深度图区域的像素字段存储所述多个帧图像的深度数据；所述图像区域中存储帧图像的像素数据的像素字段作为所述第一字段，所述深度图区域中存储帧图像的深度数据的像素字段作为所述第二字段；获取的图像组合的拼接图像和所述图像组合相应的参数数据可以存入数据文件中，当需要获取拼接图像或相应的参数数据时，可以根据数据文件的头文件中包含的存储地址，从相应的存储空间中读取。

此外，图像组合的存储格式可以为视频格式，图像组合的数量可以是多个，每个图像组合可以是对视频进行解封装和解码后，对应不同帧时刻的图像组合。

在具体实施中，用户除了可以通过播放终端观看多角度自由视角视频，为进一步提高交互体验，还可以在观看视频过程中通过交互操作，主动选择播放多角度自由视角视频。在本说明书一些实施例中，采用如下方式实施：

响应于来自交互终端的图像重建指令，确定交互时刻的交互帧时刻信息，获取对应交互帧时刻的图像组合中预设视频帧的拼接图像及所述图像组合相应的参数数据并发送至所述交互终端，使得所述交互终端基于交互操作所确定的虚拟视点位置信息，按照预设规则选择所述拼接图像中相应的像素数据和深度数据及对应的参数数据，将选择的像素数据和深度数据进行组合渲染，重建得到所述交互帧时刻虚拟视点位置对应的多角度自由视角视频的视频帧并进行播放。

其中，所述预设规则可以根据具体情景来设定，比如，可以基于交互操作确定的虚拟视点位置信息，选择按距离排序最靠近交互时刻的虚拟视点的W个临近的虚拟视点的位置信息，并在拼接图像中获取包括交互时刻的虚拟视点的上述共W+1个虚拟视点对应的满足交互帧时刻信息的像素数据和深度数据。

其中，所述交互帧时刻信息基于来自交互终端的触发操作确定，所述触发操作可以是交互终端用户输入的触发操作，也可以是交互终端自动生成的触发操作。例如，交互终端在检测到存在多角度自由视点数据帧的标识时可以自动发起触发操作。在用户手动触发时，可以是交互终端显示交互提示信息后用户选择触发交互的时刻信息，也可以是交互终端接收到用户操作触发交互的历史时刻信息，所述历史时刻信息可以为位于当前播放时刻之前的时刻信息。

在具体实施中，所述交互终端35可以基于获取的交互帧时刻的图像组合中预设视频帧的拼接图像及对应的参数数据，交互帧时刻信息以及交互帧时刻的虚拟视点位置信息，采用与上述步骤S44相同的方法对获取的交互帧时刻的图像组合中预设视频帧的拼接图像的像素数据和深度数据进行组合渲染，获得所述交互的虚拟视点位置对应的多角度自由视角视频的视频帧，并在所述交互的虚拟视点位置开始播放多角度自由视角视频。

采用上述方案，可以基于来自交互终端的图像重建指令即时生成交互的虚拟视点位置对应的多角度自由视角视频的视频帧，可以进一步提升用户互动体验。

在具体实施中，交互终端与播放终端可以为同一终端设备。

在具体实施中，为方便后续获取数据，可以响应于服务端特效生成交互控制指令，生成所述服务端特效生成交互控制指令指示的预设帧图像的拼接图像对应的虚拟信息图像并存储。

之后，在所述预设帧图像的拼接图像对应的多角度自由视角视频播放过程中，可以在所述预设帧图像的拼接图像叠加渲染所述虚拟信息图像，得到植入了AR特效的多角度自由视角视频叠加视频帧，具体可以在所述多角度自由视角视频录播或者点播等场景中实现，可以根据预先设置触发所述虚拟信息图像的植入或者根据用户交互操作触发所述虚拟信息图像的植入。

以用户交互场景为例，在用户观看多角度自由视角视频过程中，为进一步提升用户视觉体验的丰富性，可以在多角度自由视角视频中植入AR特效。在本说明书一些实施例中，可以采用如下方式实施：

在接收到所述图像重建指令后，还可以响应于来自交互终端的用户端特效生成交互指令，获取所述预设视频帧的拼接图像对应的虚拟信息图像，并将所述预设视频帧的拼接图像对应的虚拟信息图像发送至所述交互终端，使得所述交互终端在所述交互帧时刻虚拟视点位置对应的多角度自由视角视频的视频帧上叠加渲染所述虚拟信息图像，得到植入AR特效的多角度自由视角叠加视频帧并进行播放。

作为一具体示例，用户在视频观看过程中，若用户的第一交互操作触发了多角度自由视角视频的播放，在播放过程中，基于用户的第二交互操作对应的用户端特效生成交互指令，可以获取所述预设帧图像的拼接图像对应的虚拟信息图像，也即待植入所述预设视频帧的多角度自由视角视频的AR特效图像。其中，所述预设视频帧可以为用户的第二交互操作所指示的视频帧，例如可以为用户所点击的帧图像，或者为用户滑动操作所对应的帧序列。

在具体实施中，响应于用户端特效退出交互指令，可以停止获取所述预设帧图像的拼接图像对应的虚拟信息图像，相应地，在交互终端渲染过程中无须叠加所述虚拟信息图像，仅播放多角度自由视角视频。

继续以上示例，若在植入了AR特效数据的多角度自由视角叠加视频帧播放过程中，基于用户的第三交互操作对应的用户端特效退出交互指令，停止后续视频帧的拼接图像对应的虚拟信息图像的获取及渲染展示。

在具体实施中，作为连续的视频流，可能是部分视频流包含多角度自由视角视频数据，在其中一个或多个多角度自由视角视频序列中，其中一个或多个序列对应有所述虚拟信息图像，则可以在检测到所述用户端特效退出交互指令时，退出所述视频流中后续所有AR特效的植入，也可以仅退出一个多角度自由视频序列中后续AR特效的展示。

如生成前述虚拟信息图像的生成方式类似，可以基于服务端的特效生成指令，生成虚拟信息图像。在具体实施中，可以由服务器(如云端服务器)自动生成特效生成指令，也可以响应于服务端用户交互操作，生成对应的服务端特效生成交互控制指令。

同样地，为生成所述虚拟信息图像，首先确定所述虚拟信息图像对应的预设帧的拼接图像，其次，生成所述预设帧的拼接图像匹配的虚拟信息图像。

对于如何确定所述虚拟信息图像对应的预设视频帧的拼接图像，在具体实施中可以有多种方式。例如，云端服务器可以通过预设的AI识别算法自动选择的预设视频帧的拼接图像作为待植入AR特效数据的拼接图像。又如，服务端用户可以通过交互操作指定预设视频帧的拼接图像，服务器在接收到基于服务端特效生成交互控制操作所触发的服务端特效生成交互控制指令时，可以从所述服务端特效生成交互指令中获取指定的预设视频帧的拼接图像，进而可以生成与所述特效生成指令指定的预设视频帧的拼接图像对应的虚拟信息图像。

在本说明书一些实施例中，可以通过图像识别技术识别出所述视频帧中的对象作为与待植入AR特效匹配的目标对象，例如识别出目标对象为一个人物(如篮球运动员)、一个物体(如篮球、记分牌)、一个动物(例如猫或狮子)等等。

在具体实施中，可以响应于服务端特效生成交互控制指令，获取所述目标对象的增强现实特效输入数据。例如，服务端用户通过交互操作，选中某一篮球赛直播视频中的球员，则可以相应生成与所述交互操作对应的服务端特效生成交互控制指令，根据所述服务端特效生成交互控制指令，可以获取所述运动员数据和进球数据等，其中运动员数据可以包括球员关联的基本数据，例如，姓名、篮球比赛中的位置名称(具体号位，或者为中锋、前锋、后卫等位置名称)、和进球数据可以包括投篮命中率等均可以作为增强现实特效输入数据。

在具体实施中，可以先根据所述服务端特效生成交互控制指令，先确定特效输出类型，之后，获取所述目标对象的历史数据，根据所述特效数据类型对所述历史数据进行处理，得到与所述特效输出类型对应的增强现实特效输入数据。

例如，对于一场篮球赛直播，根据所述服务端特效生成交互控制指令，获取到服务端用户欲获取所述目标对象在所述特效区域内所在位置的投篮命中率，则可以计算所述目标对象所在位置距离篮网中心的地面投影位置的距离，获取在所述目标对象在此距离之内的历史投篮数据作为所述目标对象的增强现实特效输入数据。

对于虚拟信息图像的特效生成方式，可以根据需要进行选择和设置。在本说明书一具体实现中，可以将所述增强现实特效输入数据作为输入数据，输入至预设的三维模型进行处理，得到与所述预设视频帧的拼接图像中所述目标对象匹配的虚拟信息图像。

例如，将所述增强现实特效输入数据作为输入数据，输入至预设三维模型后，可以获取与所述输入数据匹配的三维图形元素并进行组合，并将输入数据中的显示元数据和所述三维图形元素数据作为与所述视频帧中所述目标对象匹配的虚拟信息图像进行输出。所述三维模型的具体实现可以参见前述实施例。

在本说明书另一具体实现中，可以将所述增强现实特效输入数据作为输入数据，输入至预设的机器学习模型进行处理，得到与所述视频帧中所述目标对象匹配的虚拟信息图像。在具体实施中，所述预设的机器学习模型可以为有监督的学习模型，也可以为无监督的学习模型，或者是半监督学习模型(有监督学习模型和无监督学习模型的结合模型)，本说明书实施例中并不限定所采用的具体模型。采用机器学习模型生成所述虚拟信息图像的具体方式可以参见前述实施例，此处不再赘述。

在本说明书实施例中，生成的虚拟信息图像可以为静态图像、动态图像，或者为包含音频特效的动态图像，其中，动态图像或包含音频特效的动态图像可以基于目标对象与一个或多个视频帧匹配。

在具体实施中，服务器也可以直接将所述用于直播或准直播过程中得到的虚拟信息图像进行保存，作为所述用户交互过程中通过交互终端获取的虚拟信息图像。

需要说明的是，在本说明书实施例中，在播放终端展示的合成视频帧与在交互终端展示的合成视频帧并无本质的不同。二者实际可以采用相同的虚拟信息图像，也采用不同的虚拟信息图像。相应地，对应的特效生成方式可以相同，也可以不同，类似地，在特效生成过程中所采用的三维模型或者机器学习模型可以为同一模型，或者为同一种模型，也可以为完全不同的模型。

此外，所述播放终端和所述交互终端也可以为同一终端设备，即用户可以直接通过所述终端设备直播或准直播的多角度自由视角视频，其中可以自动播放植入了AR特效的多角度自由视角合成视频帧；用户也可以通过所述终端设备进行互动，基于用户的互动操作进行多角度自由视角视频数据的播放，以及植入了AR特效的多角度自由视角合成视频帧的播放。用户通过互动，可以在录播、转播、点播视频中自主选择观看哪些目标对象的AR特效，即虚拟信息图像。

通过以上实施例的数据处理方法可以实现植入AR特效的多角度自由视角视频的低时延播放，为使本领域技术人员更好地理解和实施本说明书实施例，以下对可以实现上述方法的系统及关键设备进行对应介绍。

在本说明书一些实施例中，参照图16所示的数据处理系统的结构示意图，数据处理系统160可以包括：目标对象获取单元161、虚拟信息图像获取单元162和图像合成单元163和展示单元164，其中：

所述目标对象获取单元161，适于获取多角度自由视角视频的视频帧中目标对象；

所述虚拟信息图像获取单元162，适于获取基于所述目标对象的增强现实特效输入数据所生成的虚拟信息图像；

所述图像合成单元163，适于将将所述虚拟信息图像与对应的视频帧进行合成处理，得到合成视频帧；

所述展示单元164，适于展示得到的合成视频帧。

在具体实施中，各单元可能分布在不同的设备中，也可能部分单元位于同一设备中，基于具体应用场景的不同，实现的方案有所不同。

本领域技术人员可以理解，各单元可以通过相应的硬件或硬件，或者软硬件结合的方式实现，例如可以通过处理器(具体可以为CPU或FPGA等)作为目标对象获取单元161、虚拟信息图像获取单元162和图像合成单元163等，可以通过显示器作为展示单元164。

以下通过一些具体的应用场景进行说明。

参照图3所示的数据处理系统的结构示意图，在本发明实施例中，如图3所示，数据处理系统30可以包括：数据处理设备31、服务器32、播放控制设备33以及播放终端34，其中：

所述数据处理设备31，适于基于视频帧截取指令，从所述现场采集区域不同位置实时同步采集的多路视频数据流中对指定帧时刻的视频帧截取得到多个同步视频帧，将获得的所述指定帧时刻的多个同步视频帧上传至所述服务器12；

所述服务器32，适于接收所述数据处理设备31上传的多个同步视频帧作为图像组合，确定所述图像组合相应的参数数据以及所述图像组合中各帧图像的深度数据，并基于所述图像组合相应的参数数据、所述图像组合中预设帧图像的像素数据和深度数据，对预设的虚拟视点路径进行帧图像重建，获得相应的多角度自由视角视频的视频帧；以及响应于特效生成指令，获取与所述特效生成指令指定的视频帧中的目标对象，获取所述目标对象的增强现实特效输入数据，并基于所述目标对象的增强现实特效输入数据，生成对应的虚拟信息图像，将所述虚拟信息图像与所述指定的视频帧进行合成处理，得到合成视频帧，并将所述合成视频帧输入至所述播放控制设备34；

所述播放控制设备33，适于将所述合成视频帧据插入待播放视频流；

所述播放终端34，适于接收来自所述播放控制设备33的待播放视频流并进行实时播放。

在具体实施中，播放控制终端33可以基于控制指令输出待播放视频流。

作为可选示例，播放控制设备33可以从多路数据流中选择一路作为待播放视频流，或者在多路视频流中不断地切换选择以持续地输出所述待播放视频流。导播控制设备可以作为本发明实施例中的一种播放控制设备。其中导播控制设备可以为基于外部输入控制指令进行播放控制的人工或半人工导播控制设备，也可以为基于人工智能或大数据学习或预设算法能够自动进行导播控制的虚拟导播控制设备。

采用上述数据处理系统，由于仅从多路同步视频流中截取指定帧时刻的同步视频帧进行多角度自由视角视频的重建，以及生成与特效生成指令指定的图像组合对应的虚拟信息图像，因此无需巨量的同步视频流数据的上传，这一分布式系统架构可以节省大量的传输资源及服务器处理资源，且在网络传输带宽有限的条件下，可以实现具有增强现实特效的多角度自由视角合成视频帧可以实时生成，故能够实现多角度自由视角增强现实特效的视频的低时延播放，因而可以兼顾用户视频观看过程中对丰富视觉体验和低时延的双重需求。

并且，由数据处理设备31进行同步视频帧的截取，由服务器进行多角度自由视角视频的重建、虚拟信息图像的获取，以及多角度自由视角视频和虚拟信息图像的合成处理(如融合处理)，由播放控制设备进行待播放视频流的选择，由播放设备进行播放，这一分布式系统架构可以避免同一设备进行大量的数据处理，因此可以提高数据处理效率，减小传输时延。

在具体实施中，所述服务器32可以通过多个服务器组成的服务器集群完成，其中，所述服务器集群可以包括多个同构或异构的服务器单体设备或服务器集群组成。若采用异构服务器集群，可以根据待处理的不同数据特点配置异构服务器集群中的各服务器设备。

参照图17所示的服务器集群架构示意图，在本说明书一实施例中，所采用的异构服务器集群170由三维深度重建服务集群171以及云端增强现实特效生成和渲染服务器集群172组成，其中：

所述三维深度重建服务集群171，适于基于从多路同步视频流中截取的多个同步视频帧，重建得到相应的多角度自由视角视频；

所述云端增强现实特效生成和渲染服务器集群172，适于响应于特效生成指令，得到与所述特效生成指令指定的图像组合对应的虚拟信息图像，并将所述指定的图像组合与所述虚拟信息图像进行融合处理，得到多角度自由视角融合视频帧。

其中，基于处理数据以及具体数据的处理机制不同，所述三维深度重建服务集群171和云端增强现实特效生成和渲染服务器集群172可以分别包括多个服务器子集群或者服务器组，不同的服务器集群或者服务器组分别执行不同的功能，一起协同完成多角度自由视频帧的重建。

在具体实施中，所述异构服务器集群170还可以包括增强现实特效输入数据存储数据库173，适于存储与指定的图像组合中的目标对象匹配的增强现实特效输入数据。

在本说明书一实施例中，由云端服务器集群组成的云端服务系统基于上传的多个同步视频帧得到所述第一多角度自由视角融合视频帧，所述云端服务系统采用异构服务器集群。以下仍以图1所示的一个具体应用场景示例如何进行实施。

参照图1所示的数据处理系统的结构示意图，针对一场篮球赛的数据处理系统的布置场景，所述数据处理系统10包括：由多个采集设备组成的采集阵列11、数据处理设备12、云端的服务器集群13、播放控制设备14和播放终端15。

参照图1，以左侧的篮球框作为核心看点，以核心看点为圆心，与核心看点位于同一平面的扇形区域作为预设的多角度自由视角范围。所述采集阵列11中各采集设备可以根据所述预设的多角度自由视角范围，成扇形置于现场采集区域不同位置，可以分别从相应角度实时同步采集视频流。

在具体实施中，采集阵列11中的采集设备还可以设置在篮球场馆的顶棚区域、篮球架上等。各采集设备可以沿直线、扇形、弧线、圆形或者不规则形状排列分布。具体排列方式可以根据具体的现场环境、采集设备数量、采集设备的特点、成像效果需求等一种或多种因素进行设置。所述采集设备可以是任何具有摄像功能的设备，例如，普通的摄像机、手机、专业摄像机等。

而为了不影响采集设备工作，所述数据处理设备12可以置于现场非采集区域，可视为现场服务器。所述数据处理设备12可以通过无线局域网向所述采集阵列11中各采集设备分别发送拉流指令，所述采集阵列11中各采集设备基于所述数据处理设备12发送的拉流指令，将获得的视频数据流实时传输至所述数据处理设备12。其中，所述采集阵列11中各采集设备可以通过交换机17将获得的视频流实时传输至所述数据处理设备12。

相应地，云端的服务器集群13将接收的多个同步视频帧作为图像组合，确定所述图像组合相应的参数数据及所述图像组合中各帧图像的深度数据，并基于所述图像组合相应的参数数据、所述图像组合中预设帧图像的像素数据和深度数据，对预设的虚拟视点路径进行帧图像重建，获得相应的多角度自由视角视频的图像的数据；以及响应于特效生成指令，获取与所述特效生成指令指定的图像组合对应的虚拟信息图像，将所述指定的图像组合与所述虚拟信息图像进行融合处理，得到多角度自由视角融合视频帧。

服务器可以置于云端，并且为了能够更快速地并行处理数据，可以按照处理数据的不同，由多个不同的服务器或服务器组组成云端的服务器集群13。

例如，所述云端的服务器集群13可以包括：第一云端服务器131，第二云端服务器132，第三云端服务器133，第四云端服务器134和第五云端服务器135。

其中，第一云端服务器131可以用于确定所述图像组合相应的参数数据；第二云端服务器132可以用于确定所述图像组合中各帧图像的深度数据；第三云端服务器133可以基于所述图像组合相应的参数数据、所述图像组合的像素数据和深度数据，使用基于深度图的虚拟视点重建(Depth Image Based Rendering，DIBR)算法，对预设的虚拟视点路径进行帧图像重建；所述第四云端服务器134可以用于生成多角度自由视角视频；第五云端服务器135可以用于响应于特效生成指令，获取与所述特效生成指令指定的图像组合对应的虚拟信息图像，并将所述图像组合与所述虚拟信息图像进行融合处理，得到多角度自由视角融合视频帧。

可以理解的是，所述第一云端服务器131、第二云端服务器132、第三云端服务器133、第四云端服务器134以及第五云端服务器135也可以为服务器阵列或服务器子集群组成的服务器组，本发明实施例不做限制。

基于处理数据以及具体数据的处理机制不同，各云端服务器或者云端服务器集群可以采用不同硬件配置的设备，例如，对于所述第四云端服务器134、第五云端服务器135等需要处理大量图像的设备，可以采用包括图形处理器(Graphics Processing Unit，GPU)或GPU组的设备。

在本说明书一些实施例中，GPU可以采用统一设备体系结构(Compute UnifiedDevice Architecture，CUDA)并行编程架构对选择的图像组合中相应组的纹理图和深度图中的像素点进行组合渲染。CUDA是一种新的硬件和软件体系结构，用于将GPU上的计算作为数据并行计算设备进行分配和管理，而无须将它们映射至图形应用程序编程接口(Application Programming Interface，API)。

通过CUDA编程时，GPU可以被视为能够并行执行大量线程的计算设备。它作为主中央处理器(CentralProcessingUnit，CPU)或者主机的协处理器运行，换言之，在主机上运行的应用程序中的数据并行、计算密集型的部分被下放到GPU上。

在具体实施中，所述服务器云端的服务器集群13可以采用如下方式存储所述图像组合的像素数据及深度数据：

基于所述图像组合的像素数据及深度数据，生成对应帧时刻的拼接图像，所述拼接图像包括第一字段和第二字段，其中，所述第一字段包括所述图像组合中预设帧图像的像素数据，所述第二字段包括所述图像组合中预设帧图像的深度数据的第二字段；以及存储所述图像组合的拼接图像及所述图像组合相应的参数数据。获取的拼接图像和相应的参数数据可以存入数据文件中，当需要获取拼接图像或参数数据时，可以根据数据文件的头文件中相应的存储地址，从相应的存储空间中读取。

然后，播放控制设备14可以将接收到的所述多角度自由视角视频融合视频帧的数据插入待播放视频流中，播放终端15接收来自所述播放控制设备14的待播放视频流并进行实时播放。其中，播放控制设备14可以为人工播放控制设备，也可以为虚拟播放控制设备。在具体实施中，可以设置专门的可以自动切换视频流的服务器作为虚拟播放控制设备进行数据源的控制。导播控制设备如导播台可以作为本发明实施例中的一种播放控制设备。

可以理解的是，所述数据处理设备12可以根据具体情景置于现场非采集区域或云端，所述服务器(集群)和播放控制设备可以根据具体情景置于现场非采集区域，云端或者终端接入侧，上述实施例并不用于限制本发明的具体实现和保护范围。

本说明书实施例中所采用的数据处理系统，除了可以实现直播、准直播等低时延场景的多角度自由视角视频的播放外，还可以基于用户交互操作，实现录播、转播等场景的多角度自由视角视频的播放。

继续参照图3，在具体实施中，数据处理系统30还可以包括交互终端35，服务器32可以响应于来自交互终端35的图像重建指令，确定交互时刻的交互帧时刻信息，将存储的对应交互帧时刻的相应的图像组合预设帧图像的拼接图像及相应图像组合对应的参数数据发送至所述交互终端35。

所述交互终端35基于交互操作，向服务器发送所述图像重建指令，并基于交互操作所确定的虚拟视点位置信息，按照预设规则选择所述拼接图像中相应的像素数据和深度数据及对应的参数数据，将选择的像素数据和深度数据与所述参数数据进行组合渲染，重建得到所述待交互的虚拟视点位置对应的多角度自由视角视频的视频帧并进行播放。

其中，所述预设规则可以根据具体情景来设定，具体可以参见前述方法实施例中的介绍。

此外，所述交互帧时刻信息可以基于来自交互终端35的触发操作确定，所述触发操作可以是用户输入的触发操作，也可以是交互终端自动生成的触发操作，例如，交互终端在检测到存在多角度自由视点数据帧的标识时可以自动发起触发操作。在用户手动触发时，可以是交互终端显示交互提示信息后用户选择触发交互的时刻信息，也可以是交互终端接收到用户操作触发交互的历史时刻信息，所述历史时刻信息可以为位于当前播放时刻之前的时刻信息。

在具体实施中，所述交互终端35可以基于获取的交互帧时刻的图像组合中预设帧图像的拼接图像及对应的参数数据，交互帧时刻信息以及交互帧时刻的虚拟视点位置信息，采用与上述步骤S44相同的方法对获取的交互帧时刻的图像组合中预设帧图像的拼接图像的像素数据和深度数据进行组合渲染，获得所述交互的虚拟视点位置对应的多角度自由视角视频的图像，并在所述交互的虚拟视点位置开始播放多角度自由视角视频。

采用上述方案，可以基于来自交互终端的图像重建指令即时生成交互的虚拟视点位置对应的多角度自由视角视频，可以进一步提升用户互动体验。

在本说明书一些数据处理系统中，继续参照图3，所述服务器32还可以根据服务端特效生成交互控制指令，生成所述服务端特效生成交互控制指令指示的预设视频帧的拼接图像对应的虚拟信息图像并存储。通过以上方案，通过预先生成预设帧图像的拼接图像对应的虚拟信息图像，后续在有播放需求时，可以直接进行渲染播放，从而可以减小时间延迟，进一步增强用户的互动体验，并提升用户视觉体验。

就具体应用场景而言，数据处理系统除了可以应用于直播、准直播场景中实现低时延的具有AR特效的多角度自由视角视频的播放外，还可以根据用户的互动操作，实现录播、转播等任意视频播放场景下的具有AR特效的多角度自由视角视频的播放。作为一种实现示例，用户可以通过交互终端与服务器进行交互，获取预设视频帧的拼接图像对应的虚拟信息图像并在交互终端进行渲染，从而实现具有AR特效的多角度自由视角合成视频帧的播放。以下通过一些应用场景进行详细描述。

基于参照图3，所述服务器32还适于响应于来自交互终端的用户端特效生成交互指令，获取所述预设视频帧的拼接图像对应的虚拟信息图像，将所述预设视频帧的拼接图像对应的虚拟信息图像发送至所述交互终端35。

所述交互终端35，适于将所述交互帧时刻虚拟视点位置对应的多角度自由视角视频的图像的视频帧与所述虚拟信息图像，得到合成视频帧并进行播放。

服务器具体获取和生成所述虚拟信息图像和虚拟信息图像的方法可以参见前述方法实施例，此处不再详述。

为使本领域技术人员更好地理解和实现，以下首先通过具体应用场景介绍本本说明书实施例中的播放终端展示的视频效果示意图。

参照图18至图20所示的播放终端的显示界面的视频效果示意图，设如图18所示播放终端T1的播放界面Sr1展示的为第T-1帧视频帧，可以看到从运动员右侧视角观看到的运动员正在向终点冲刺的画面。假设数据处理设备截取了第视频流中第T帧至第T+1帧的多个同步视频帧并上传到服务器，服务器基于接收到的第T～T+1帧的同步视频帧作为图像组合，一方面，服务器基于所述图像组合相应的参数数据、所述图像组合中预设帧图像的像素数据和深度数据，对预设的虚拟视点路径进行帧图像重建，获得相应的多角度自由视角视频的视频帧；另一方面，响应于服务端用户的特效生成指令，获取与所述特效生成指令指定的图像组合对应的虚拟信息图像。之后，在所述指定的图像组合叠加渲染所述虚拟信息图像，得到第T～T+1帧对应的多角度自由视角融合视频帧在播放终端T1展示效果依次如图19和图20所示，其中，图19中播放界面Sr2展示的为第T帧视频帧的效果图，视角切换至运动员的正面，且由画面可以看出，其在现实的图像之上，植入了AR特效图像，其中展示了运动员正在向终点冲刺的真实画面，以及植入的AR特效图像，包括运动员的基本信息板M1和与运动员脚步匹配的两个虚拟生成的脚印M2，为区分AR特效对应的虚拟信息图像与多角度自由视角视频帧对应的真实图像，图19和图20中用实线表示真实图像，虚线表示AR特效对应的虚拟信息图像，由基本信息板M1可以看到运动员的姓名、国籍、参赛号码、历史最好成绩等信息。图20示出的为第T+1帧视频帧的效果图，视角又进一步切换至运动员左侧，由播放界面Sr3展示的画面可知，运动员已冲过终点线，基本信息板M1包含的具体信息随着时间推移可以实时更新，由图19可知，添加了运动员的本次成绩，脚印M2的位置和形状跟随运动员脚步变化，并增加了运动员获得第一名的图案标识M3。

本说明书实施例中的播放终端具体可以是电视、电脑、手机、车载设备、投影设备等其中任意一种或多种类型的终端设备。

为使本领域技术人员更好地理解和实现本发明实施例中交互终端的运行原理，以下参照附图，通过具体应用场景进行详细介绍。

参照图21所示的交互终端的结构示意图，在本说明书一些实施例中，如图21所示，交互终端210可以包括第一展示单元211、虚拟信息图像获取单元212和第二展示单元213，其中：

所述第一展示单元211，适于实时进行多角度自由视角视频的图像的展示，其中，所述多角度自由视角视频的图像是通过指定帧时刻的多个同步视频帧图像形成的图像组合的参数数据、所述图像组合的像素数据和深度数据重建得到，所述多个同步视频帧包括不同拍摄视角的帧图像；

所述虚拟信息图像获取单元212，适于响应于对所述多角度自由视角视频图像中特效展示标识的触发操作，获取对应于所述特效展示标识的指定帧时刻的虚拟信息图像；

所述第二展示单元213，适于将所述虚拟信息图像叠加展示在所述多角度自由视角视频的视频帧上。

采用上述交互终端，终端用户可以通过互动交互，观看植入AR特效的多角度自由视角视频图像，可以丰富用户视觉体验。

参照图22示出的另一种交互终端的结构示意图，在本说明书另一些实施例中，交互终端220可以包括：

视频流获取单元221，适于从播放控制设备实时获取待播放视频流，所述待播放数据流包括视频数据及互动标识，所述互动标识与所述待播放数据流的指定帧时刻关联；

播放展示单元222，适于实时播放展示所述待播放视频流的视频及互动标识；

交互数据获取单元223，适于响应于对所述互动标识的触发操作，获取对应于所述指定帧时刻的交互数据，所述交互数据包括多角度自由视角视频帧和所述预设视频帧的拼接图像对应的虚拟信息图像；

交互展示单元224，适于基于所述交互数据，进行所述指定帧时刻的多角度自由视角的合成视频帧的展示；

切换单元225，适于在检测到交互结束信号时，触发切换至由所述视频流获取单元221从所述播放控制设备实时获取的待播放视频流并由所述播放展示单元222进行实时播放展示。

其中，所述交互数据可以由服务器生成并传输给交互终端，也可以由交互终端生成。

交互终端在播放视频的过程中，可以从播放控制设备实时获取待播放数据流，在相应的帧时刻的时候，可以显示相应的互动标识。例如可以在进度条上展示互动标识，又例如，可以直接在显示画面上展示互动标识。

参照图3和图23，交互终端T2的显示界面Sr20上展示互动标识V1，当用户未选择触发时，交互终端T2可以继续读取后续视频数据。当用户按照互动标识V1的箭头指示方向滑动选择触发时，交互终端T2接收到反馈后生成相应互动标识的指定帧时刻的图像重建指令，并发送至所述服务器32。

例如，当用户选择触发当前展示的互动标识V1时，交互终端T2接收到反馈后生成互动标识V1相应指定帧时刻Ti～Ti+2的图像重建指令，并发送至所述服务器32。所述服务器32根据图像重建指令可以发送指定帧时刻Ti～Ti+1相应的多个帧图像。

并且，在播放至Ti+1帧时刻，如图24所示，显示界面Sr20展示出互动标识Ir。当用户点击互动标识Ir后，所述交互终端T2可以向服务器获取对应的虚拟信息图像。

之后，可以在交互终端T2展示Ti+2帧时刻对应的多角度自由视角融合图像，如图25和图26所示的交互终端的交互界面的视频效果示意图，其中，图25中交互界面Sr20为第Ti+1帧图像植入AR之后的效果图，视角切换至运动员的正面，且由画面可以看出，其在现实的图像之上，植入了AR特效对应的虚拟信息图像，交互界面Sr20中展示的第Ti+1帧的图像中运动员正在向终点冲刺的真实画面，以及虚拟信息图像，包括运动员的基本信息板M4和与运动员脚步匹配的脚印M5，为区分AR特效与真实图像，图25和图26中用实线标识真实图像，虚线表示虚拟信息图像，由基本信息板M4可以看到运动员的姓名、国籍、参赛号码、历史最好成绩等信息。图26示出的为第Ti+2帧视频帧的效果图，视角又进一步切换至运动员左侧，由画面可知，运动员已冲过终点线，基本信息板M4包含的具体信息随着时间推移可以实时更新，由图26可知，添加了运动员的本次成绩，脚印M5的位置和形状跟随运动员脚步变化，并增加了运动员获得第一名的图案标识M6。

交互终端T2可以基于所述多个视频帧，生成用于进行交互的交互数据，并可以采用图像重建算法对所述交互数据的多角度自由视角数据进行图像处理，以及从服务器获取虚拟信息图像，然后进行所述指定帧时刻的多角度自由视角的视频的播放，以及所述指定帧植入AR特效的多角度自由视角合成视频帧的播放。

在具体实施中，本发明实施例的交互终端可以是具有触屏功能的电子设备、头戴式虚拟现实(Virtual Reality，VR)终端、与显示器连接的边缘节点设备、具有显示功能的IoT(The Internet of Things，物联网)设备等其中任意一种或多种类型。

如前实施例所述，为更加精准地生成与多角度自由视角视频的视频帧匹配的虚拟信息图像，可以识别所述预设视频帧图像的拼接图像对应的目标对象，并获取所述目标对象的增强现实特效输入数据。在具体实施中，所述交互数据还可以包括目标对象的增强现实特效输入数据，所述增强现实特效输入数据可以包括以下至少一种：现场分析数据、采集目标对象的信息数据、与采集目标对象关联的装备的信息数据、现场部署的物品的信息数据、现场展示的徽标的信息数据。基于所述交互数据，可以生成所述虚拟信息图像，进而可以生成所述多角度自由视角合成视频帧，从而使得植入的AR特效更加丰富而有针对性，由此，终端用户可以更加深入、全面、专业地了解所观看的内容，进一步提升用户的视觉体验。

本说明书实施例还提供了相应的服务器的实施方案，参照图27所示的一种服务器的结构示意图，在本说明书一些实施例中，如图27所示，服务器270可以包括：图像重建单元271、虚拟信息图像生成单元272和数据传输单元273，其中：

所述图像重建单元271，适于响应于来自交互终端的图像重建指令，确定交互时刻的交互帧时刻信息，获取对应交互帧时刻的图像组合中预设帧图像的拼接图像及所述图像组合相应的参数数据；

所述虚拟信息图像生成单元272，适于响应于特效生成交互控制指令，生成所述特效生成交互控制指令指示的视频帧的拼接图像对应的虚拟信息图像；

所述数据传输单元273，适于与交互终端进行数据交互，包括：将所述对应交互帧时刻的图像组合中预设视频帧的拼接图像及所述图像组合相应的参数数据传输至所述交互终端，使得所述交互终端基于交互操作所确定的虚拟视点位置信息，按照预设规则选择所述拼接图像中相应的像素数据和深度数据及对应的参数数据，将选择的像素数据和深度数据进行组合渲染，重建得到所述交互帧时刻虚拟视点位置对应的多角度自由视角视频的图像并进行播放；以及将所述特效生成交互控制指令指示的预设帧图像的拼接图像对应的虚拟信息图像传输至所述交互终端，使得所述交互终端将所述交互帧时刻虚拟视点位置对应的多角度自由视角视频的视频帧与所述虚拟信息图像进行合成处理，得到多角度自由视角合成视频帧并进行播放。

本说明书实施例还提供了另一种服务器，参照图28所示的服务器的结构示意图，服务器280可以包括：

数据接收单元281，适于接收从多路同步视频流中截取的指定帧时刻的多个同步视频帧作为图像组合，所述多个同步视频帧包含不同拍摄视角的帧图像；

参数数据计算单元282，适于确定所述图像组合相应的参数数据；

深度数据计算单元283，适于确定所述图像组合中各帧图像的深度数据；

视频数据获取单元284，适于基于所述图像组合相应的参数数据、所述图像组合中预设帧图像的像素数据和深度数据，对预设的虚拟视点路径进行帧图像重建，获得相应的多角度自由视角视频的视频帧；

第一虚拟信息图像生成单元285，适于响应于特效生成指令，获取与所述特效生成指令指定的视频帧中的目标对象，获取所述目标对象的增强现实特效输入数据，并基于所述目标对象的增强现实特效输入数据，生成对应虚拟信息图像；

图像合成单元286，适于将所述虚拟信息图像与所述指定的视频帧进行合成处理，得到合成视频帧；

第一数据传输单元287，适于将合成视频帧输出以插入待播放视频流。

参照图29，本说明书实施例还提供了另一种服务器，服务器290与服务器280不同之处在于，服务器290还可以包括：拼接图像生成单元291和第一数据存储单元292，其中：

拼接图像生成单元291，适于基于所述图像组合的像素数据和深度数据，生成所述图像组合相应的拼接图像，所述拼接图像包括第一字段和第二字段，其中，所述第一字段包括所述图像组合中预设帧图像的像素数据，所述第二字段包括所述图像组合的深度数据；

第一数据存储单元292，适于存储所述图像组合的拼接图像及所述图像组合相应的参数数据。

在本说明书一些实施例中，继续参照图29，所述服务器290还可以包括：数据提取单元293和第二数据传输单元294，其中：

数据提取单元293，适于响应于来自交互终端的图像重建指令，确定交互时刻的交互帧时刻信息，获取对应交互帧时刻的图像组合中预设帧图像的拼接图像及所述图像组合相应的参数数据；

第二数据传输单元294，适于将所述对应交互帧时刻的相应图像组合预设帧图像的拼接图像及相应图像组合相应的参数数据发送至所述交互终端，使得所述交互终端基于交互操作所确定的虚拟视点位置信息，按照预设规则选择所述拼接图像中相应的像素数据和深度数据及对应的参数数据，将选择的像素数据和深度数据进行组合渲染，重建得到所述交互帧时刻虚拟视点位置对应的多角度自由视角视频的视频帧并进行播放。

在具体实施中，采用本说明书一些实施例中的服务器，还可以生成与预设帧图像的拼接图像对应的增强现实特效输入数据并存储，以便于后续虚拟信息图像的生成，提升用户视觉体验，也可以使数据资源得到有效利用。继续参照图29，服务器290还可以包括：第二虚拟信息图像生成单元295和第二数据存储单元296，其中：

第二虚拟信息图像生成单元295，适于响应于服务端特效生成交互控制指令，生成所述服务端特效生成交互控制指令指示的预设帧图像的拼接图像对应的虚拟信息图像；

第二数据存储单元296，适于存储预设帧图像的拼接图像对应的虚拟信息图像。

在具体实施中，继续参照图29，服务器290还可以包括：第二虚拟信息图像获取单元297和第三数据传输单元298，其中：

第二虚拟信息图像获取单元297，适于在接收到所述图像重建指令后，响应于来自交互终端的用户端特效生成交互指令，获取所述预设帧图像的拼接图像对应的虚拟信息图像；

第三数据传输单元298，适于将所述预设帧图像的拼接图像对应的虚拟信息图像发送至所述交互终端，使得所述交互终端将所述交互帧时刻虚拟视点位置对应的多角度自由视角视频的视频帧与所述虚拟信息图像进行合成处理，得到用于播放的多角度自由视角合成视频帧。

需要说明的是，本说明书实施例中的增强现实特效输入数据，可以为如上述篮球比赛场景中的运动员特效数据和进球特效数据等，可以理解的是，本说明书实施例中的增强现实特效输入数据并不限于以上示例类型，就篮球运动比赛场景而言，还可以基于教练、广告标识等图像所采集到的现场图像中包含的各种目标对象生成相应的增强现实特效输入数据。

在具体实施中，可以根据具体应用场景、目标对象的特性、目标对象的关联对象、以及具体的特效生成模型(如预设的三维模型、预设的机器学习模型等)等其中一种或多种因素生成相应的虚拟信息图像。

本领域技术人员可以理解，本说明书实施例中各电子设备中的具体单元均可以通过相应的电路来实现。例如，上述各实施例中涉及到的数据获取单元可以由处理器、CPU、输入接口等实现，上述各实施例中涉及到的数据存储单元可以由磁盘、EPROM、ROM等各种存储器件实现，上述实施例中涉及到的各数据传输单元可以由通信接口、通信线路(有线/无线)等实现，此处不再一一例举。

本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时可以执行前述任一实施例所述的深度图处理方法或前述任一实施例所述视频重建方法的步骤。具体步骤可以参见前述实施例的介绍，此处不再赘述。

在具体实施中，所述计算机可读存储介质可以包括例如任何合适类型的存储器单元、存储器设备、存储器物品、存储器介质、存储设备、存储物品、存储介质和/或存储单元，例如，存储器、可移除的或不可移除的介质、可擦除或不可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、光盘只读存储器(CD-ROM)、可刻录光盘(CD-R)、可重写光盘(CD-RW)、光盘、磁介质、磁光介质、可移动存储卡或磁盘、各种类型的数字通用光盘(DVD)、磁带、盒式磁带等。

计算机指令可以包括通过使用任何合适的高级、低级、面向对象的、可视化的、编译的和/或解释的编程语言来实现的任何合适类型的代码，例如，源代码、编译代码、解释代码、可执行代码、静态代码、动态代码、加密代码等。

本说明书实施例中各装置、系统、设备或系统的具体实现方式、工作原理和具体作用及效果，可以参见对应方法实施例中的具体介绍。

虽然本说明书实施例披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本说明书实施例的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种数据处理方法，包括：

获取多角度自由视角视频的视频帧中的目标对象；

将所述虚拟信息图像与对应的视频帧进行合成处理并展示。

2.根据权利要求1所述的数据处理方法，所述多角度自由视角视频基于从多路同步视频流中截取的指定帧时刻的多个同步视频帧所形成的图像组合相应的参数数据、所述图像组合中预设帧图像的像素数据和深度数据，对预设的虚拟视点路径进行帧图像重建得到，其中，所述多个同步视频帧包含不同拍摄视角的帧图像。

3.根据权利要求2所述的数据处理方法，所述获取基于所述目标对象的增强现实特效输入数据所生成的虚拟信息图像，包括：

4.根据权利要求3所述的数据处理方法，所述将所述虚拟信息图像与对应的视频帧进行合成处理并展示，包括：

按照帧时刻排序以及相应帧时刻的虚拟视点位置，将相应帧时刻的虚拟信息图像与对应帧时刻的视频帧进行合成处理并展示。

5.根据权利要求1至4任一项所述的数据处理方法，所述将所述虚拟信息图像与对应的视频帧进行合成处理并展示，包括如下至少一种：

6.根据权利要求5所述的数据处理方法，其特征在于，所述对所述融合视频帧进行展示，包括：

将所述融合视频帧插入待播放视频流进行播放展示。

7.根据权利要求1至4任一项所述的数据处理方法，所述获取多角度自由视角视频的视频帧中的目标对象，包括：

响应于特效生成交互控制指令，获取所述多角度自由视角视频的视频帧中的目标对象。

8.根据权利要求7所述的数据处理方法，所述获取基于所述目标对象的增强现实特效输入数据所生成的虚拟信息图像，包括：

基于所述目标对象的增强现实特效输入数据，按照预设的特效生成方式，生成所述目标对象对应的虚拟信息图像。

9.一种数据处理方法，包括：

确定所述图像组合相应的参数数据；

确定所述图像组合中各帧图像的深度数据；

将所述合成视频帧进行展示。

10.根据权利要求9所述的数据处理方法，所述基于所述目标对象的增强现实特效输入数据，生成对应的虚拟信息图像，包括：

11.根据权利要求9或10所述的数据处理方法，所述响应于特效生成指令，获取与所述特效生成指令指定的视频帧中的目标对象，并获取所述目标对象的增强现实特效输入数据，包括：

根据服务端特效生成交互控制指令，确定特效输出类型；

12.根据权利要求9所述的数据处理方法，所述基于所述目标对象的增强现实特效输入数据，生成对应的虚拟信息图像，包括以下至少一种：

13.根据权利要求9所述的数据处理方法，所述将所述虚拟信息图像与所述指定的视频帧进行合成处理，得到合成视频帧，包括：

14.根据权利要求9所述的数据处理方法，其特征在于，所述将所述合成视频帧进行展示，包括：

将所述合成视频帧插入至播放控制设备的待播放视频流以通过播放终端进行播放。

15.根据权利要求9所述的数据处理方法，还包括：

16.根据权利要求15所述的数据处理方法，还包括：

存储所述预设视频帧的拼接图像对应的虚拟信息图像。

17.根据权利要求16所述的数据处理方法，在接收到所述图像重建指令后，还包括：

18.根据权利要求17所述的数据处理方法，还包括：

响应于用户端特效退出交互指令，停止获取所述预设视频帧的拼接图像对应的虚拟信息图像。

19.根据权利要求17所述的数据处理方法，所述响应于来自交互终端的用户端特效生成交互指令，获取所述预设视频帧的拼接图像对应的虚拟信息图像，包括：

获取与所述预设视频帧中的目标对象匹配的虚拟信息图像。

20.根据权利要求19所述的数据处理方法，所述获取与所述预设视频帧中的目标对象匹配的虚拟信息图像，包括：

21.根据权利要求17至20任一项所述的数据处理方法，所述将所述预设视频帧的拼接图像对应的虚拟信息图像发送至所述交互终端，使得所述交互终端在所述交互帧时刻虚拟视点位置对应的多角度自由视角视频的视频帧与所述虚拟信息图像进行合成处理，得到合成视频帧，包括：

22.一种数据处理方法，包括：

将所述合成视频帧进行展示。

23.根据权利要求22所述的数据处理方法，所述预设视频帧的拼接图像基于所述交互帧时刻的图像组合的像素数据和深度数据生成，所述拼接图像包括第一字段和第二字段，其中，所述第一字段包括所述图像组合中所述预设帧图像的像素数据，所述第二字段包括所述图像组合的深度数据；

24.根据权利要求22所述的数据处理方法，所述响应于特效生成交互控制指令，获取所述特效生成交互控制指令指示的预设视频帧的拼接图像对应的虚拟信息图像，包括：

25.一种数据处理方法，包括：

实时进行多角度自由视角视频的视频帧的展示；

将所述虚拟信息图像与对应的视频帧进行合成处理并展示。

26.根据权利要求25所述的数据处理方法，所述响应于对所述多角度自由视角视频的图像中特效展示标识的触发操作，获取对应于所述特效展示标识的指定帧时刻的视频帧的虚拟信息图像，包括：

27.根据权利要求26所述的数据处理方法，所述将所述虚拟信息图像与对应的视频帧进行合成处理并展示，包括：

28.一种数据处理系统，包括：

展示单元，适于展示得到的合成视频帧。

29.一种数据处理系统，包括：数据处理设备、服务器、播放控制设备以及播放终端，其中：

30.根据权利要求29所述的数据处理系统，还包括交互终端；其中：

31.根据权利要求30所述的数据处理系统，所述服务器，还适于根据服务端特效生成交互控制指令，生成所述服务端特效生成交互控制指令指示的预设视频帧的拼接图像对应的虚拟信息图像并存储。

32.根据权利要求31所述的数据处理系统，所述服务器，还适于响应于来自交互终端的用户端特效生成交互指令，获取所述预设视频帧的拼接图像对应的虚拟信息图像，将所述预设视频帧的拼接图像对应的虚拟信息图像发送至所述交互终端；

33.一种服务器，包括：

34.根据权利要求33所述的服务器，所述第一虚拟信息图像生成单元，适于将所述目标对象的增强现实特效输入数据作为输入，基于三维标定得到的所述目标对象在所述多角度自由视角视频的视频帧中的位置，采用预设的第一特效生成方式，生成对应视频帧中与所述目标对象匹配的虚拟信息图像。

35.一种服务器，包括：

36.一种交互终端，包括：

37.一种电子设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行权利要求1至27任一项所述方法的步骤。

38.一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行权利要求1至27任一项所述方法的步骤。