CN111667438A

CN111667438A - 视频重建方法、系统、设备及计算机可读存储介质

Info

Publication number: CN111667438A
Application number: CN201910172717.7A
Authority: CN
Inventors: 盛骁杰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2020-09-15
Anticipated expiration: 2039-03-07
Also published as: CN111667438B

Abstract

视频重建方法、系统、设备及计算机可读存储介质，所述方法包括：获取多角度自由视角的视频帧的图像组合、所述视频帧的图像组合对应的参数数据以及基于用户交互的虚拟视点位置信息，其中，所述视频帧的图像组合，包括多个角度同步的多组存在对应关系的纹理图和深度图；根据所述虚拟视点位置信息及所述视频帧的图像组合对应的参数数据，按照预设规则选择用户交互时刻相应组的纹理图和深度图；基于所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，将所述相应组的纹理图和深度图进行组合渲染，得到所述用户交互时刻虚拟视点位置对应的重建图像。上述方案可以减小多自由度视频重建的数据运算量。

Description

视频重建方法、系统、设备及计算机可读存储介质

技术领域

本发明实施涉及视频处理技术领域，尤其涉及一种视频重建方法、系统、设备及计算机可读存储介质。

背景技术

随着互联技术的不断发展，越来越多的视频平台不断地通过提供清晰度或者观看流畅度更高的视频，来提高用户的视觉体验。

然而，针对现场体验感比较强的视频，例如一场篮球比赛的视频，用户在观看过程中往往只能通过一个视点位置观看比赛，无法自己自由切换视点位置，来观看不同视角位置处的比赛画面或比赛过程，因而也就无法体验在现场一边移动视点一遍观看比赛的感觉。

6自由度(6Degree of Freedom，6DoF)技术是为了提供高自由度观看体验的一种技术，用户可以在观看中通过交互手段，来调整观看的视角，从想观看的自由视点角度进行观看，从而可以大幅地提升观看体验。6DoF视频可以提供用户一边观看，一边转换自由度的体验。

为实现6DoF视频，目前有Free-D回放技术和光场渲染技术，Free-D回放技术是通过点云对6DoF视频进行表达，点云是对空间所有点的三维位置以及像素信息进行表达和存储。光场渲染技术是内容是在不需要图像的深度信息或相关性的条件下，通过预先拍摄的一组场景照片，建立该场景的光场数据库，然后对于任意给定的新视点，经过重采样和双线性插值运算，得到该视点的视图，实现对整个场景的漫游。

然而，不论是Free-D回放技术，还是光场渲染技术，均需要非常大的数据运算量。此外，对于点云的压缩目前没有很好的标准和工业界软硬件的支持，因而不利于推广普及。

发明内容

有鉴于此，本发明实施例提供一种视频重建方法、系统、设备及计算机可读存储介质，以减小多自由度视频重建过程中数据运算量。

一方面，本发明实施例提供了一种视频重建方法，所述方法包括：获取多角度自由视角的视频帧的图像组合、所述视频帧的图像组合对应的参数数据以及基于用户交互的虚拟视点位置信息，其中，所述视频帧的图像组合包括多个角度同步的多组存在对应关系的纹理图和深度图；根据所述虚拟视点位置信息及所述视频帧的图像组合对应的参数数据，按照预设规则选择用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图；基于所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，将选择的用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图进行组合渲染，得到所述用户交互时刻虚拟视点位置对应的重建图像。

可选地，所述根据所述虚拟视点位置信息及所述视频帧的图像组合对应的参数数据，按照预设规则选择用户交互时刻所述视频帧的图像组合中相应组的纹理图数据和深度图数据，包括：根据所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，选择用户交互时刻所述视频帧的图像组合中与虚拟视点位置满足预设位置关系和/或数量关系的相应组的纹理图和深度图。

所述根据所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，选择用户交互时刻所述视频帧的图像组合中与虚拟视点位置满足预设位置关系和/或数量关系的相应组的纹理图和深度图，包括：根据所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，选择用户交互时刻所述视频帧的图像组合中离所述虚拟视点位置最近的预设数量的相应组的纹理图和深度图。

可选地，所述根据所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，选择用户交互时刻所述视频帧的图像组合中离所述虚拟视点位置最近的预设数量的相应组的纹理图和深度图，包括：根据所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，选择离所述虚拟视点位置最近的2至N个采集设备对应的纹理图和深度图，N为采集所述视频帧的图像组合的所有采集设备的数量。

可选地，所述基于所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，将选择的用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图进行组合渲染，得到所述用户交互时刻虚拟视点位置对应的重建图像，包括：将选择的用户交互时刻所述视频帧的图像组合中相应组的深度图分别进行前向映射，映射至用户交互时刻的虚拟位置上；对前向映射后的深度图分别进行后处理；将选择的用户交互时刻所述视频帧的图像组合中相应组的纹理图分别进行反向映射；将反向映射后所生成的各虚拟纹理图进行融合。

可选地，在将反向映射后所生成的各虚拟纹理图进行融合后，还包括：对融合后的纹理图进行空洞填补，得到所述用户交互时刻虚拟视点位置对应的重建图像。

可选地，所述对前向映射后的深度图分别进行后处理，包括以下至少一种：对前向映射后的深度图分别进行前景边缘保护处理；对前向映射后的深度图分别进行像素级滤波处理。

可选地，所述将反向映射后所生成的各虚拟纹理图进行融合，包括：根据所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，采用由虚拟视点的位置与采集所述图像组合中相应纹理图的采集设备的位置的距离确定的全局的权重，将反向映射后所生成的各虚拟纹理图进行融合。

可选地，所述基于所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，将选择的用户交互时刻所述视频帧的图像组合中相应组的纹理图数据和深度图数据进行组合渲染，得到所述用户交互时刻虚拟视点位置对应的重建图像，包括：分别将所述相应组的深度图根据空间几何关系映射到用户交互时刻的虚拟视点位置上，形成虚拟视点位置深度图，并根据映射后的深度图从所述相应组的纹理图中的像素点复制到生成的虚拟视点位置对应的虚拟纹理图中，形成相应组对应的虚拟纹理图；将所述用户交互时刻视频帧的图像组合中相应组对应的虚拟纹理图进行融合，得到所述用户交互时刻虚拟视点位置的重建图像。

可选地，所述将所述用户交互时刻视频帧的图像组合中相应组对应的虚拟纹理图进行融合，得到所述用户交互时刻虚拟视点位置的重建图像，包括：对用户交互时刻所述视频帧的图像组合中各相应组对应的虚拟纹理图中对应位置的像素进行加权处理，得到所述用户交互时刻虚拟视点位置的重建图像中对应位置的像素值；对于所述用户交互时刻虚拟视点位置的重建图像中像素值为零的位置，利用所述重建图像中所述像素周围的像素进行空洞填补，得到所述用户交互时刻虚拟视点位置的重建图像。

可选地，所述将所述用户交互时刻视频帧的图像组合中相应组对应的虚拟纹理图进行融合，得到所述用户交互时刻所述虚拟视点位置的重建图像，包括：对于用户交互时刻视频帧的图像组合中各相应组对应的虚拟纹理图中像素值为零的位置，分别利用周围的像素值进行空洞填补；将空洞填补后的各相应组对应的虚拟纹理图中相应位置的像素值进行加权处理，得到所述用户交互时刻虚拟视点位置的重建图像。

可选地，所述获取多角度自由视角的视频帧的图像组合、所述视频帧的图像组合对应的参数数据，包括：对获取的多角度自由视角的视频压缩数据进行解码，得到所述多角度自由视角的视频帧的图像组合，所述视频帧的图像组合对应的参数数据。

本发明实施例还提供了一种视频重建设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述任一实施例所述视频重建方法的步骤。

可选地，所述视频重建设备包括以下至少一种：终端设备、边缘节点。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述任一实施例所述视频重建方法的步骤。

采用本发明实施例中的视频重建方法，通过获取多角度自由视角的视频帧的图像组合、所述视频帧的图像组合对应的参数数据以及基于用户交互的虚拟视点位置信息，其中所述视频帧的图像组合包括多个角度同步的多组存在对应关系的纹理图和深度图，并根据所述虚拟视点位置信息及所述视频帧的图像组合对应的参数数据，按照预设规则选择所述视频帧的图像组合中相应组的纹理图和深度图，之后，只需要基于所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，将选择的用户交互时刻相应组的纹理图和深度图进行组合渲染，而无须基于用户交互时刻所述视频帧的图像组合中所有组的纹理图和深度图进行视频图像重建，因而可以减小视频重建过程中数据运算量。

进一步地，根据所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，选择所述用户交互时刻与虚拟视点位置满足预设位置关系和/或数量关系的相应组的纹理图和深度图，从而可以在减小数据运算量、保证重建图像质量的情况下，提供较高的选择自由度及灵活性，此外也降低了对采集视频的拍摄设备的安装要求，便于适应不同的场地需求及安装易操作性。

进一步地，根据所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，选择所述用户交互时刻离所述虚拟视点位置最近的预设数量的相应的纹理图和深度图，可以减小数据运算量并保证重建图像质量。

进一步地，根据所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，选择离所述虚拟视点位置最近的2至N个采集设备对应的纹理图和对应的深度图，其中N为采集所述视频帧的图像组合的所有采集设备的数量，因而可以根据需要选择离所述虚拟视点位置最近的多个采集设备所采集的纹理图及对应的深度图，从而可以使用尽可能少的数据得到满足清晰度要求的重建图像，同时也可以节约传输资源。

进一步地，将选择的用户交互时刻所述视频帧的图像组合中相应组的深度图分别进行前向映射，映射至用户交互时刻的虚拟位置上，对前向映射后的深度图分别进行后处理，之后，将选择的用户交互时刻所述视频帧的图像组合中相应组的纹理图分别进行反向映射，并将反向映射后所生成的各虚拟纹理图进行融合，经上述处理后，获得用户交互时刻虚拟视点位置的重建图像，由于只采用图像组合中的部分纹理图和深度图进行重建，且采用包含纹理图和深度图的图像组合的多角度自由视角的视频数据相对所占数据量较少，因而可以节约处理资源，提高视频重建效率。

进一步地，对融合后的纹理图进行空洞填补，得到所述用户交互时刻虚拟视点位置对应的重建图像，可以提高重建图像质量。

进一步地，在对前向映射后的深度图进行后处理过程中，通过对前向映射后的深度图分别进行前景边缘保护处理，和/或对前向映射后的深度图分别进行像素级滤波处理等处理，可以改善所重建的深度图的质量。

进一步地，根据所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，采用由虚拟视点的位置与采集所述图像组合中相应纹理图的采集设备的位置的距离确定的全局的权重，将反向映射后所生成的各虚拟纹理图进行融合，可以使重建图像更加真实，进一步改善重建视频的质量。

进一步地，通过对多角度自由视角的视频压缩数据进行解码后采用本发明实施例的方法进行视频重建，可以进一步节约网络传输资源，也可以采用通用的压缩方式及压缩软硬件进行压缩，因而利用推广普及。

进一步地，将本发明实施例中的视频重建方案应用于终端设备、边缘节点设备等设备，可以适应终端设备、边缘节点设备等运算能力有限的设备，满足用户观看对基于虚拟视点的视频的观看需求，提升用户视觉体验。

附图说明

图1是本发明实施例中一种待观看区域的示意图；

图2是本发明实施例中一种采集设备设置方式的示意图；

图3是本发明实施例中一种多角度自由视角展示系统的示意图；

图4是本发明实施例中一种设备的显示示意图；

图5是本发明实施例中一种对设备的操控的示意图；

图6是本发明实施例中另一种对设备的操控的示意图；

图7是本发明实施例中一种采集设备设置方式的示意图；

图8是本发明实施例中另一种对设备的操控的示意图；

图9是本发明实施例中另一种设备显示的示意图；

图10是本发明实施例一种采集设备设置方法的流程图；

图11是本发明实施例中一种多角度自由视角范围的示意图；

图12是本发明实施例中另一种多角度自由视角范围的示意图；

图13是本发明实施例中另一种多角度自由视角范围的示意图；

图14是本发明实施例中另一种多角度自由视角范围的示意图；

图15是本发明实施例中另一种多角度自由视角范围的示意图；

图16是本发明实施例中另一种采集设备设置方式的示意图；

图17是本发明实施例中另一种采集设备设置方式的示意图；

图18是本发明实施例中另一种采集设备设置方式的示意图；

图19是本发明实施例中一种多角度自由视角数据生成方法的流程图；

图20是本发明实施例中一种单个图像的像素数据与深度数据的分布位置的示意图；

图21是本发明实施例中另一种单个图像的像素数据与深度数据的分布位置的示意图；

图22是本发明实施例中一种图像的像素数据与深度数据的分布位置的示意图；

图23是本发明实施例中另一种图像的像素数据与深度数据的分布位置的示意图；

图24是本发明实施例中另一种图像的像素数据与深度数据的分布位置的示意图；

图25是本发明实施例中另一种图像的像素数据与深度数据的分布位置的示意图；

图26是本发明实施例中一种图像区域拼接的示意图；

图27是本发明实施例中一种拼接图像的结构示意图；

图28是本发明实施例中另一种拼接图像的结构示意图；

图29是本发明实施例中另一种拼接图像的结构示意图；

图30是本发明实施例中另一种拼接图像的结构示意图；

图31是本发明实施例中另一种拼接图像的结构示意图；

图32是本发明实施例中另一种拼接图像的结构示意图；

图33是本发明实施例中一种图像的像素数据分布的示意图；

图34是本发明实施例中另一种图像的像素数据分布的示意图；

图35是本发明实施例中一种拼接图像中数据存储的示意图；

图36是本发明实施例中另一种拼接图像中数据存储的示意图；

图37是本发明实施例中一种多角度自由视角视频数据生成方法的流程图；

图38是本发明实施例中一种视频重建方法的流程图；

图39是本发明实施例中另一种视频重建方法的流程图；

图40是本发明实施例中一种视频重建系统的结构示意图；

图41是本发明实施例中一种多角度自由视角数据生成过程的示意图；

图42是本发明实施例中一种多摄像机6DoF采集系统的示意图；

图43是本发明实施例中一种6DoF视频数据的生成及处理的示意图；

图44是本发明实施例中一种数据头文件的结构示意图；

图45是本发明实施例中一种用户侧对6DoF视频数据处理的示意图；

图46是本发明实施例中一种视频重建系统的输入和输出示意图；

图47是本发明实施例中一种视频重建系统的实现架构的示意图。

具体实施方式

如前所述，目前为实现多自由度视频，需要较大的数据运算量。例如通过点云对多自由度视频进行表达的方式，由于点云是对空间所有点的三维位置以及像素信息进行表达和存储，因而需要非常大的存储量，相应地，在视频重建过程中，也需要非常大的数据运算量。采用上述视频重建方法若在云端进行视频重建，会给云端重建设备造成非常大的处理压力，若在终端进行视频重建，终端的处理能力有限，难以处理如此大的数据量。此外，目前对于点云的压缩也没有很好的标准和工业界软硬件的支持，因而不利于推广普及。

针对上述技术问题，本发明实施例提供通过获取多角度自由视角的视频帧的图像组合、所述视频帧的图像组合对应的参数数据及基于用户交互的虚拟视点位置信息，其中，所述视频帧的图像组合包括多个角度同步的多组存在对应关系的纹理图和深度图，在视频重建过程中，根据所述虚拟视点位置信息及所述视频帧的图像组合对应的参数数据，按照预设规则选择用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图，并基于所述虚拟视点位置及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，将选择的用户交互时刻下的所述相应组的纹理图和深度图进行组合渲染，即可得到所述用户交互时刻所述虚拟视点位置对应的重建图像。由于整个视频重建过程，仅需要基于所述虚拟视点位置及对应组的纹理图和深度图对应的参数数据，将用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图进行组合渲染，而无须基于解码得到所述视频帧中所有组的纹理图和深度图进行视频图像重建，因而可以减小视频重建过程中的数据运算量。

为使本发明实施例的上述目的、特征及优点更加明显易懂，以下结合附图对本发明的具体实施例进行详细的说明。

在本发明实施例中，视频压缩数据或图像数据可以通过采集设备进行获取。为使本领域技术人员更好地理解和实现本发明实施例，以下通过具体的应用场景进行说明。

作为本发明实例的实施例，可以包括如下步骤：第一步是采集和深度图计算，包括了三个主要步骤，分别为多摄像机的视频采集(Multi-camera Video Capturing)，摄像机内外参计算(Camera Parameter Estimation)，以及深度图计算(Depth MapCalculation)。对于多摄像机采集来说，要求各个摄像机采集的视频可以帧级对齐。结合参考图41，通过多摄像机的视频采集可以得到纹理图 (Texture Image)，也即后文所述的同步的多个图像；通过摄像机内外参计算，可以得到摄像机参数(Camera Parameter)，也即后文中的参数数据，包括后文所述的内部参数数据和外部参数数据；通过深度图计算，可以得到深度图(Depth Map)。

在这个方案中，并不需要特殊的摄像机，比如光场摄像机，来做视频的采集。同样的，也不需要在采集前先进行复杂的摄像机校准的工作。可以布局和安排多摄像机的位置，以更好的拍摄需要拍摄的物体或者场景。结合参考图42，可以在待观看区域设置多个采集设备，例如摄像机1至摄像机N。

在以上的三个步骤处理完后，就得到了从多摄像机采集来的纹理图、所有的摄像机参数以及每个摄像机的深度图。可以把这三部分数据称作为多角度自由视角视频数据中的数据文件，也可以称作6自由度视频数据(6DoF video data)。因为有了这些数据，用户端就可以根据虚拟的6自由度(Degree of Freedom，DoF)位置，来生成虚拟视点，从而提供6DoF的视频体验。

结合参考图43，6DoF视频数据以及指示性数据可以经过压缩和传输到达用户侧，用户侧可以根据接收到的数据，获取用户侧6DoF表达，也即前述的 6DoF视频数据和元数据，进而在用户侧进行6DoF渲染。其中，指示性数据也可以称作元数据(Metadata)。

结合参考图44，元数据可以用来描述6DoF视频数据的数据模式，具体可以包括：拼接模式元数据(Stitching Pattern metadata)，用来指示拼接图像中多个图像的像素数据以及深度数据的存储规则；边缘保护元数据(Padding pattern metadata)，可以用于指示对拼接图像中进行边缘保护的方式，以及其它元数据 (Other metadata)。元数据可以存储于数据头文件，具体的存储顺序可以如图 44所示，或者以其它顺序存储。

结合参考图45，用户端得到了6DoF视频数据，其中包括了摄像机参数，纹理图以及深度图，以及描述元数据(即前述“元数据”)，除此之外，还有用户端的交互行为数据。通过这些数据，用户端可以采用基于深度图的渲染 (DIBR，Depth Image-Based Rendering)方式进行的6DoF渲染，从而在一个特定的根据用户行为产生的6DoF位置产生虚拟视点的图像，也即根据用户指示，确定与该指示对应的6DoF位置的虚拟视点。

在一个测试时实现的实施例中，每个测试用例包含了20秒的视频数据，视频数据为30帧/秒，1920*1080的分辨率。对30个摄像机中的任意一个，总共有600帧数据。主文件夹包含了纹理图文件夹和深度图文件夹。在纹理图文件夹下，可以找到从0-599的二级目录，这些二级目录分别代表了20秒视频对应的600帧内容。每一个二级目录下，包含了30个摄像机采集的纹理图，以yuv420 的格式从0.yuv命名到29.yuv。相对应的，在深度图的文件夹下，每个二级目录包含了30个通过深度估计算法计算得到的深度图。每个深度图以同样的名字对应于一个纹理图。多个摄像机的纹理图和对应深度图都是属于20秒视频中的某一帧时刻。

测试用例中的所有深度图都是通过预设的深度估计算法产生的。在测试中，这些深度图可以在虚拟的6DoF位置上提供良好的虚拟视点重建质量。一种情况下，可以直接通过给出的深度图来生成虚拟视点的重建图像。或者，也可以根据原始的纹理图通过深度计算算法来生成或改进深度图。

除了深度图以及纹理图以外，测试用例还包含了.sfm文件，这个文件是用来描述所有30个相机的参数。这个文件的数据是用二进制格式写入的，具体的数据格式描述如下。考虑到对不同摄像机的适应性，测试中采用了带有畸变参数的鱼眼相机模型。可以参考我们提供的DIBR参考软件来了解怎么去从文件中读取和使用摄像机参数数据。摄像机参数数据包含了以下的一些字段：

(1)krt_R是相机的旋转矩阵；

(2)krt_cc是相机的光心位置；

(3)krt_WorldPosition是相机的三维空间坐标；

(4)krt_kc是相机的畸变系数；

(5)src_width是校准图像的宽度；

(6)src_height是校准图像的高度；

(7)fisheye_radius和lens_fov是鱼眼相机的参数。

在本发明具体实施的技术方案中，用户可以从预设的参数读取函数 (set_sfm_parameters function)中找到详细的如何读取.sfm文件中相应参数的代码。

在本发明实施例所采用的视频重建系统或DIBR软件中，可以接收摄像机参数、纹理图、深度图，以及虚拟摄像机的6DoF位置作为输入，同时输出在虚拟6DoF位置的生成纹理图以及深度图。虚拟摄像机的6DoF位置即前述的根据用户行为确定的6DoF位置。所述DIBR软件可以是实现本发明实施例中基于虚拟视点的图像重建的软件。

结合参考图46，在本发明实施例所采用的一DIBR软件中，可以接收摄像机参数、纹理图、深度图，以及虚拟摄像机的6DoF位置作为输入，同时输出在虚拟6DoF位置的生成纹理图以及生成深度图。

结合参考图47，在本发明实施例中所实现的视频重建方法，或者能够实现本发明实施例视频重建方法的软件可以包括以下部分或全部处理步骤：摄像机选择(Cameraselection)，深度图的前向映射(Forward Projection of Depth map)，深度图后处理(Postprocessing)，纹理图的反向映射(Backward projection of Texture map)，多相机映射纹理图的融合(Texture Fusion)，以及图像的空洞填补(Inpainting)。

在上述DIBR软件中，可以默认选择离虚拟6DoF位置最近的两个摄像机来进行虚拟视点生成。

在深度图的后处理的步骤中，可以通过多种方法来改善深度图的质量，比如前景边缘保护，像素级的滤波等。

对于输出的生成图像，使用了从两个摄像机拍摄纹理图进行融合的方法。融合的权重是全局的权重，是由虚拟视点的位置离参考相机位置的距离来决定的。当输出虚拟视点图像的像素仅仅被一个摄像机映射到的情况，可以直接采用那个映射像素作为输出像素的值。

在融合步骤后，如果仍然有空洞的像素没有被映射到，可以采用图像填补的方法来填补这些空洞像素。

对于输出的深度图来说，为了差错和分析的便利，可以采用从其中一个相机向虚拟视点位置映射而得到的深度图作为输出。

可以理解的是，上述实施例仅为举例说明，并非对具体实施方式的限制，以下将对本发明实施例中的技术方案进行进一步的说明。

参照图1所示的待观看区域示意图，待观看区域可以是篮球场，可以设置多台采集设备，对待观看区域进行数据采集。

例如，结合参考图2，可以在高于篮筐的高度H_LK，沿一定路径设置若干采集设备，例如，可以沿弧线设置6个采集设备，也即采集设备CJ₁至CJ₆。可以理解的是，采集设备的设置位置、数量和支撑方式可以是多样的，在此不做限制。

采集设备可以是能够同步进行拍摄的相机或者摄像机，例如可以是能够通过硬件同步线进行同步拍摄的相机或摄像机。通过多台采集设备对待观看区域进行数据采集，可以得到同步的多个图像或视频流。根据多台采集设备采集到的视频流，也可以得到同步的多个帧图像，作为同步的多个图像。可以理解的是，理想情况下，同步指的是对应同一时刻，但也可以容许误差与偏差的存在。

结合参考图3，在本发明实施例中，可以通过包括多个采集设备的采集系统31，对待观看区域进行数据采集；可以由采集系统31或者由服务器32，对获取到的同步的多个图像进行处理，生成能够支持进行显示的设备33进行虚拟视点切换的多角度自由视角数据。进行显示的设备33可以展示基于多角度自由视角数据生成的重建图像，重建图像对应于虚拟视点，根据用户的指示可以展示对应于不同虚拟视点的重建图像，切换观看的位置和观看角度。

在具体实现中，进行视频重建或图像重建，得到重建图像的过程可以由进行显示的设备33实施，也可以由位于内容分发网络(Content Delivery Network，CDN)的设备以边缘计算的方式实施。可以理解的是，图3仅为示例，并非对采集系统、服务器、进行显示的设备以及具体实现方式的限制。

基于多角度自由视角数据进行视频重建的过程将在后文结合图38和图39 详述，在此不再赘述。

结合参考图4，沿用前例，用户可以通过进行显示的设备对待观看区域进行观看，在本实施例中，待观看区域为篮球场。如前所述，观看的位置和观看角度是可以切换的。

举例而言，用户可以在屏幕表面滑动，以切换虚拟视点。在本发明一实施例中，结合参考图5，用户手指沿屏幕表面向右滑动时，可以切换进行观看的虚拟视点。继续参考图2，滑动前的虚拟视点可以是VP₁，沿屏幕表面滑动切换虚拟视点后，虚拟视点可以是VP₂。结合参考图6，在沿屏幕表面滑动后，屏幕展示的重建图像可以如图6所示。重建图像，可以是基于由实际采集情境中的多个采集设备采集到的数据生成的多角度自由视角数据进行图像重建得到的。

可以理解的是，切换前进行观看的图像，也可以是重建图像。重建图像可以是视频流中的帧图像。另根据用户指示切换虚拟视点的方式可以是多样的，在此不做限制。

在具体实施中，虚拟视点可以用6自由度(Degree of Freedom，DoF)的坐标表示，其中，虚拟视点的空间位置可以表示为(x，y，z)，视角可以表示为三个旋转方向

虚拟视点是一个三维概念，生成重建图像需要三维信息。在一种具体实现方式中，多角度自由视角数据中可以包括深度数据，用于提供平面图像(纹理图)外的第三维信息。相比于其它实现方式，例如通过点云数据提供三维信息，深度数据的数据量较小。生成多角度自由视角数据的具体实现方式，将在后文结合图19至图37详述，在此不再赘述。

在本发明实施例中，虚拟视点的切换可以在一定范围内进行，该范围即为多角度自由视角范围。也即，在多角度自由视角范围内，可以任意切换虚拟视点位置以及视角。

多角度自由视角范围与采集设备的布置相关，采集设备的拍摄覆盖范围越广，则多角度自由视角范围越大。进行显示的设备展示的画面质量，与采集设备的数量相关，通常，设置的采集设备的数量越多，展示的画面中空洞区域越少。

结合参考图7，若在篮球场设置高度不同的上下两排采集设备，分别为上排的采集设备CJ₁至CJ₆，以及下排的采集设备CJ₁’至CJ₆’，则相比于仅设置一排采集设备，其多角度自由视角范围更大。

结合参考图8，用户手指可以向上滑动，切换进行观看的虚拟视点。结合参考图9，在沿屏幕表面向上滑动后，屏幕展示的图像可以如图9所示。

在具体实施中，若仅设置一排采集设备，也可以在图像重建获得重建图像的过程中，获得一定的上下方向的自由度，其多角度自由视角范围在上下方向上小于设置两排采集设备的自由视角范围。

本领域技术人员可以理解的是，上述各实施例以及对应的附图仅为举例示意性说明，并非对采集设备的设置以及多角度自由视角范围之间关联关系的限定，也并非对操作方式以及获得的进行显示的设备展示效果的限定。

以下特别针对采集设备的设置方法进行进一步的阐述。

图10示出了本发明实施例中一种采集设备设置方法的流程图。在本发明实施例中，具体可以包括如下步骤：

步骤S101，确定多角度自由视角范围，在所述多角度自由视角范围内，支持对待观看区域进行虚拟视点的切换观看。

步骤S102，至少根据所述多角度自由视角范围确定采集设备的设置位置，所述设置位置适于设置所述采集设备，对所述待观看区域进行数据采集。

本领域技术人员可以理解的是，完全的自由视角可以是指6自由度的视角，也即用户可以在进行显示的设备自由切换虚拟视点的空间位置以及视角。其中，虚拟视点的空间位置可以表示为(x，y，z)，视角可以表示为三个旋转方向

共6个自由度方向，故称为6自由度视角。

如前所述，在本发明实施例中，虚拟视点的切换可以在一定范围内进行，该范围即为多角度自由视角范围。也即，在多角度自由视角范围内，可以任意切换虚拟视点位置以及视角。

多角度自由视角范围，可以根据应用场景的需要确定。例如，在一些场景中，待观看区域可以具有核心看点，如舞台的中心、或者篮球场地的中心点，或者篮球场的篮筐等。在这些场景中，多角度自由视角范围可以包括包含该核心看点的平面或者立体区域。可以理解的是，待观看区域可以是点、平面或者立体区域，在此不做限制。

如前所述，多角度自由视角范围可以是多样的区域，以下结合参考图11 至图15，进行进一步的举例说明。

结合参考图11，以O点表示核心看点，多角度自由视角范围可以是以核心看点为圆心，与核心看点位于同一平面的扇形区域，例如扇形区域A₁OA₂，或者扇形区域B₁OB₂，或者也可以是以O点为中心的圆面。

以多角度自由视角范围为扇形区域A₁OA₂为例，虚拟视点的位置可以在该区域内连续切换，例如，可以从A₁沿弧线段A₁A₂连续切换至A₂，或者，也可以沿弧线段L₁L₂进行切换，或者以其它方式在该多角度自由视角范围内进行位置的切换。相应的，虚拟视点的视角也可以在该区域内进行变换。

进一步结合参考图12，核心看点可以是篮球场地的中心点E，多角度自由视角范围可以是以中心点E为圆心，与中心点E位于同一平面的扇形区域，例如扇形区域F₁₂₁EF₁₂₂。篮球场地的中心点E可以位于场地地面，或者，篮球场地的中心点E也可以距离地面一定高度。扇形区域的弧线端点F₁₂₁和弧线端点 F₁₂₂的高度可以相同，例如图中的高度H₁₂₁。

结合参考图13，以点O表示核心看点，多角度自由视角范围可以是以核心看点为中心的球体的一部分，例如，以区域C₁C₂C₃C₄示意球面的部分区域，多角度自由视角范围可以是区域C₁C₂C₃C₄与点O形成的立体范围。在该范围内的任意一点，均可作为虚拟视点的位置。

进一步结合参考图14，核心看点可以是篮球场地的中心点E，多角度视角范围可以是以中心点E为中心的球体的一部分，例如区域F₁₃₁F₁₃₂F₁₃₃F₁₃₄示意球面的部分区域,多角度自由视角范围可以是区域F₁₃₁F₁₃₂F₁₃₃F₁₃₄与中心点E 形成的立体范围。

在有核心看点的场景中，核心看点的位置可以是多样的，多角度自由视角范围也可以是多样的，在此不一一列举。可以理解的是，上述各个实施例仅为示例，并非对多角度自由视角范围的限制，并且，其中示出的形状也并非对实际场景和应用的限制。

在具体实施中，核心看点可以是根据场景确定的，一个拍摄场景中，也可以有多个核心看点，多角度自由视角范围可以是多个子范围的叠加。

在另一些应用场景中，多角度自由视角范围也可以是无核心看点的。例如，在一些应用场景中，需要提供对古迹建筑的多角度自由视角观看，或者提供对画展的多角度自由视角观看。相应的，多角度自由视角范围可以根据这些场景的需要确定。

可以理解的是，自由度视角范围的形状可以是任意的，在多角度自由视角范围内的任一点均可以作为位置。

参见图15，多角度自由视角范围可以是立方体D₁D₂D₃D₄D₅D₆D₇D₈，待观看区域为面D₁D₂D₃D₄，则立方体D₁D₂D₃D₄D₅D₆D₇D₈内任一点均可以作为虚拟视点的位置，虚拟视点的视角，也即观看角度可以是多样的。例如可以在面 D₅D₆D₇D₈选取位置E6沿E₆D₁的视角观看，也可以沿E₆D₉的角度观看，点D₉选自待观看区域。

在具体实施中，在确定多角度自由视角范围后，可以根据多角度自由视角范围确定采集设备的位置。

具体的，可以在多角度自由视角范围内选择采集设备的设置位置，例如，可以在多角度自由视角范围的边界点中确定采集设备的设置位置。

结合参考图16，核心看点可以是篮球场地的中心点E，多角度自由视角范围可以是以中心点E为圆心，与中心点E位于同一平面的扇形区域，例如扇形区域F₆₁EF₆₂。采集设备可以设置于多角度视角范围内部，例如沿弧线F₆₅F₆₆设置。采集设备未覆盖到的区域，可以利用算法进行图像重建。在具体实施中，采集设备也可以沿弧线F₆₁F₆₂设置，并在弧线的端点设置采集设备，以提升重建图像的质量。每个采集设备可以均设置为朝向篮球场地的中心点E。采集设备的位置可以用空间位置坐标表示，朝向可以用三个旋转方向表示。

在具体实施中，可以设置的设置位置可以是2个及以上，相应的可以设置2 个及以上的采集设备。采集设备的数量，可以根据重建图像或视频的质量要求确定。在对重建图像或视频的画面质量要求较高的场景中，采集设备的数量可以更多，而在对重建图像或视频的画面质量要求较低的场景中，采集设备的数量可以更少。

继续结合参考图16，可以理解的是，若追求更高的重建图像或视频画面的质量，减少重建后画面中的空洞，可以沿弧线F₆₁F₆₂设置更多数量的采集设备，例如，可以设置40个摄像机。

结合参考图17，核心看点可以是篮球场地的中心点E，多角度视角范围可以是以中心点E为中心的球体的一部分，例如区域F₆₁F₆₂F₆₃F₆₄示意球面的部分区域,多角度自由视角范围可以是区域F₆₁F₆₂F₆₃F₆₄与中心点E形成的立体范围。采集设备可以设置于多角度视角范围内部，例如沿弧线F₆₅F₆₆和弧线F₆₇F₆₈设置。与前例类似，采集设备未覆盖到的区域，可以利用算法进行图像重建。在具体实施中，采集设备也可以沿弧线F₆₁F₆₂以及弧线F₆₃F₆₄设置，并在弧线的端点设置采集设备，以提升重建图像的质量。每个采集设备可以均设置为朝向篮球场地的中心点E。可以理解的是，虽然图中未示出，采集设备的数量可以是沿弧线F₆₁F₆₂以及弧线F₆₃F₆₄的更多个。

如前所述，在一些应用场景中，待观看区域可以包括核心看点，相应的，多角度自由视角范围包括视角指向所述核心看点的区域。在这种应用场景中，采集设备的设置位置可以选自凹陷方向指向所述核心看点的弧形区域。

在待观看区域包括核心看点时，在凹陷方向指向所述核心看点的弧形区域选择设置位置，使得采集设备按弧形排布。由于观看区域是包括核心看点的，视角指向核心看点，在这种场景中，弧形排布采集设备，可以采用更少的采集设备，覆盖更大的多角度自由视角范围。

在具体实施中，可以结合所述视角范围以及所述待观看区域的边界形状确定采集设备的设置位置。例如，可以在所述视角范围内，沿所述待观看区域的边界以预设的间隔确定采集设备的设置位置。

结合参考图18，多角度视角范围可以是无核心看点的，例如，虚拟视点位置可以选自六面体F₈₁F₈₂F₈₃F₈₄F₈₅F₈₆F₈₇F₈₈，从该虚拟视点位置对待观看区域进行观看。待观看区域的边界，可以是球场的地面边界线。采集设备可以沿地面边界线与待观看区域的交线B₈₉B₉₀设置，例如，可以在位置B₈₉至位置B₉₄设置6个采集设备。在上下方向的自由度，可以通过算法实现，或者，也可以在水平投影位置为交线B₈₉B₉₀的位置，再设置一排采集设备。

在具体实施中，多角度自由视角范围也可以支持从待观看区域的上侧对待观看区域进行观看，上侧为远离水平面的方向。

相应的，可以通过无人机搭载采集设备，以在待观看区域的上侧设置采集设备，也可以在待观看区域所在的建筑的顶部设置采集设备，顶部为所述建筑在远离水平面的方向的结构体。

例如，可以在篮球场馆的顶部设置采集设备，或者通过无人机携带采集设备悬停于篮球场地上侧。可以在舞台所在的场馆顶部设置采集设备，或者也可以通过无人机搭载。

通过以在待观看区域的上侧设置采集设备，可以使得多角度自由视角范围包括待观看区域上方的视角。

在具体实施中，采集设备可以是相机或者摄像机，采集到的数据可以是图片或者视频数据。

可以理解的是，在设置位置设置采集设备的方式可以是多样的，例如也可以是通过支撑架支撑在设置位置，或者也可以是其它的设置方式。

另外，可以理解的是，上述各个实施例仅为进行举例说明，并非对采集设备设置方式的限制。在各种应用场景中，根据多角度自由视角范围确定采集设备的设置位置并设置采集设备进行采集的具体实现方式，均在本发明的保护范围内。

以下特别针对生成多角度自由视角数据的方法进行进一步的阐述。

如前所述，继续结合参考图3，可以由采集系统31或者由服务器32，对获取到的同步的多个二维图像进行处理，生成能够支持进行显示的设备33进行虚拟视点切换的多角度自由视角数据，多角度自由视角数据可以通过深度数据指示二维图像外的第三维信息。深度数据可以反映被拍摄对象与相机或摄像机的相对距离。基于同步的多个二维图像及对应的深度数据，可以生成能够支持进行显示的设备33进行虚拟视点切换的多角度自由视角数据。

在具体实施中，结合参考图19，生成多角度自由视角数据可以包括如下步骤：

步骤S191，获取同步的多个二维图像，所述多个二维图像的拍摄角度不同。

步骤S192，基于所述多个二维图像，确定每个二维图像的深度数据。

步骤S193，对于每个所述二维图像，存储每个二维图像的像素数据至第一字段，存储所述深度数据至与所述第一字段关联的至少一个第二字段。

同步的多个二维图像，可以是相机采集到的图像，或者摄像机采集到的视频数据中的帧图像。在生成多角度自由视角数据的过程中，可以基于所述多个二维图像，确定每个二维图像的深度数据。

其中，深度数据可以包括与二维图像的像素对应的深度值。采集设备到待观看区域中各个点的距离可以作为上述深度值，深度值可以直接反映待观看区域中可见表面的几何形状。例如，深度值可以是待观看区域中各个点沿着相机光轴到光心的距离，相机坐标系的原点可以作为光心。本领域技术人员可以理解的是，该距离，可以是相对数值，多个图像采用同样的基准即可。

进一步的，深度数据可以包括与二维图像的像素一一对应的深度值，或者，可以是对与二维图像的像素一一对应的深度值集合中选取的部分数值。

本领域技术人员可以理解的是，二维图像又称为纹理图，深度值集合可以存储为深度图的形式，在具体实施中，深度数据可以是对原始深度图进行降采样后得到的数据，与二维图像(纹理图)的像素一一对应的深度值集合按照二维图像(纹理图)的像素点排布存储的图像形式为原始深度图。

在具体实施中，存储至第一字段的二维图像的像素数据，可以是原始的二维图像数据，例如从采集设备获取到的数据，或者也可以是对原始的二维图像数据降低分辨率后的数据。进一步的，二维图像的像素数据可以是图像原始的像素数据，或者降低分辨率后的像素数据。二维图像的像素数据，可以是YUV 数据或RGB数据中任意一种，或者也可以是其它能够对二维图像进行表达的数据。

在具体实施中，存储至第二字段的深度数据，可以与存储至第一字段的二维图像的像素数据对应的像素点的数量相同或者不同。该数量可以根据与对多角度自由视角图像数据进行处理的设备端进行数据传输的带宽限制确定，若带宽较小，则可以通过上述降采样或降低分辨率等方式降低数据量。

在具体实施中，对于每个所述二维图像(纹理图)，可以将所述二维图像(纹理图)的像素数据按照预设的顺序依次存入多个字段，这些字段可以是连续的，或者也可以是与第二字段间隔分布的。存储二维图像(纹理图)的像素数据的字段可以作为第一字段。以下举例进行说明。

为描述简便，以下如无特殊说明，图20至图25以及图33至图36中所述图像均为二维图像(纹理图)。

参见图20，一个二维图像的像素数据，以图中像素1至像素6，以及其它未示出的像素示意，可以按照预设的顺序，存入多个连续的字段，这些连续的字段可以作为第一字段；该二维图像对应的深度数据，以图中深度值1至深度值6，以及其它未示出的深度值示意，可以按照预设的顺序，存入多个连续字段，这些连续字段可以作为第二字段。其中，预设的顺序可以是按照二维图像像素的分布位置，逐行依次进行存入，或者也可以是其它的顺序。

参见图21，一个二维图像的像素数据以及相应的深度值，也可以交替存入多个字段。存储像素数据的多个字段，可以作为第一字段，存储深度值的多个字段，可以作为第二字段。

在具体实施中，存储深度数据，可以按照与存储二维图像的像素数据相同的顺序进行存储，以使得第一字段中各个字段可以与第二字段中的各个字段相关联。进而可以体现每个像素对应的深度值。

在具体实施中，多个二维图像的像素数据以及相应的深度数据可以以多种方式存储。以下举例进行进一步的说明。

结合参考图22，纹理图1的各个像素，以图中示出的图像1像素1、图像 1像素2，以及其它未示出的像素示意，可以存储于连续的字段，该连续的字段可以作为第一字段。纹理图1相应的深度数据，以图中示出的图像1深度值1、图像1深度值2，以及其它未示出的深度数据示意，可以存储于与第一字段相邻的字段，这些字段可以作为第二字段。类似的，对于纹理图2的像素数据，可以存储至第一字段，纹理图2对应的深度数据可以存储于相邻的第二字段。

可以理解的是，同步的多个采集设备中一个采集设备所连续采集到的图像流中的各个图像，或者视频流中的各个帧图像，均可以分别作为上述图像1。类似的，同步的多个采集设备中，与纹理图1同步采集到的二维图像，可以作为纹理图2。采集设备可以是如图2中的采集设备，或者其它场景中的采集设备。

结合参考图23，纹理图1的像素数据和纹理图2的像素数据，可以存储于多个相邻的第一字段，纹理图1对应的深度数据和纹理图2对应的深度数据，可以存储于多个相邻的第二字段。

结合参考图24，多个图像中每个图像的像素数据可以分别存储于多个字段，这些字段可以作为第一字段。存储像素数据的字段可以与存储深度值的字段可以交叉排布。

结合参考图25，不同纹理图的像素数据、对应的深度值也可以交叉排布，例如可以依次存储图像1像素1、图像1深度值1、图像2像素1、图像2深度值1…直至完成多个图像中每个图像与第一个像素对应的像素数据和深度值，其相邻字段存储图像1像素2、图像1深度值2、图像2像素2、图像2深度值 2…直至完成每个图像的像素数据以及深度数据的存储。

综上，存储每个二维图像的像素数据的字段，可以作为第一字段，存储该二维图像对应的深度数据的字段，可以作为第二字段。对每个生成的多角度自由视角数据，均可以包含第一字段以及与第一字段相关联的第二字段。

本领域技术人员可以理解的是，上述各个实施例仅为示例，并非对字段的类型、大小以及排布的具体限制。

结合参考图3，包含第一字段和第二字段的多角度自由视角数据可以存储于云端的服务器32，传输至CDN或者至进行显示的设备33，进行图像重建。

在具体实施中，所述第一字段与第二字段均可以是拼接图像中的像素字段，拼接图像用于存储所述多个图像的像素数据以及所述深度数据。通过采用图像格式进行数据存储，可以减少数据量，降低数据传输的时长，减少资源占用。

拼接图像可以是多种格式的图像，例如BMP格式、JPEG格式、PNG格式等。这些图像格式可以是压缩格式，或者也可以是非压缩格式。本领域技术人员可以理解的是，各种格式的二维图像，均可以包括对应于各个像素的字段，称为像素字段。拼接图像的大小，也即拼接图像包含像素的数量和长宽比等参数，可以根据需要确定，具体可以根据同步的多个二维图像的数量、每个二维图像待存储的数据量，每个二维图像待存储的深度数据的数据量以及其它因素确定。

在具体实施中，同步的多个二维图像中，每个二维图像的像素对应的深度数据以及像素数据的位数，可以与拼接图像的格式相关联。

例如，当拼接图像的格式为BMP格式时，深度值的范围可以是0-255，是一个8bit的数据，该数据可以存储为拼接图像中的灰度值；或者，深度值也可以是一个16bit的数据，可以在拼接图像中两个像素位置存储灰度值，或将灰度值存储于拼接图像中一个像素位置的两个通道中。

当拼接图像的格式为PNG格式时，深度值也可以是8bit或者16bit的数据， PNG格式下，16bit的深度值可以存储为拼接图像中的一个像素位置的灰度值。

可以理解的是，上述实施例并非对存储方式或数据位数的限制，本领域技术人员可以实现的其它数据存储方式均落入本发明的保护范围。

在具体实施中，可以将拼接图像分为纹理图区域以及深度图区域，纹理图区域的像素字段存储所述多个二维图像的像素数据，深度图区域的像素字段存储所述多个图像的深度数据；纹理图区域中存储每个二维图像的像素数据的像素字段作为所述第一字段，深度图区域中存储每个图像的深度数据的像素字段作为所述第二字段。

在一种具体实现方式中，纹理图区域可以是一个连续的区域，深度图区域也可以是一个连续的区域。

进一步的，在具体实施中，可以是对拼接图像进行等分，以等分后的两部分分别作为纹理图区域和深度图区域。或者，也可以根据待存储的二维图像的像素数据量以及深度数据的数据量，以非等分的方式对拼接图像进行划分

例如，参见图26，以每一个最小方格示意一个像素，则纹理图区域可以是虚线框内的区域1，也即将拼接图像进行上下等分后的上半区域，拼接图像的下半区域可以作为深度图区域。

可以理解的是，图26仅为示意，其中的最小方格数量并非对拼接图像像素个数的限制。另外，等分的方式也可以是将拼接图像进行左右等分。

在具体实施中，纹理图区域可以包括多个纹理图子区域，每个纹理图子区域用于存储所述多个图像中的一个，每个纹理图子区域的像素字段可以作为第一字段；相应的，深度图区域可以包括多个深度图子区域，每个深度图子区域用于存储所述多个深度图中的一个的深度数据，每个深度图子区域的像素字段可以作为第二字段。

其中，纹理图子区域的数量与深度图子区域的数量可以是相等的，均与同步的多个图像的数量相等。换言之，可以与前文所述的相机的数量相等。

继续以对拼接图像进行上下等分为例，结合参见图27进行进一步的说明。图27中拼接图像的上半部分为纹理图区域，划分称为8个纹理图子区域，分别存储同步的8个纹理图的像素数据，每个图像的拍摄角度不同，也即视角不同。拼接图像的下半部分为深度图区域，划分为8个深度图子区域，分别存储8个图像的深度图。

结合前文所述，同步的8个纹理图的像素数据，也即视角1纹理图至视角8纹理图，可以是从相机获取到的原始图像，或者也可以是原始图像降低分辨率后的图像。深度数据存储在拼接图像的部分区域，也可以称作深度图。

如前文所述，在具体实施中，也可以以非等分的方式对拼接图像进行划分。例如，参见图28，深度数据占用的像素数量可以少于纹理图的像素数据占用的像素数量，则纹理图区域和深度图区域可以是不同大小的。例如，深度数据可以是对所述深度图进行四分之一降采样后得到的，则可以采用如图28所示的划分方式。深度图占用的像素数量也可以多于图像的像素数据占用的详述数量。

可以理解的是，图28并非对以非等分方式对拼接图像进行划分的限制，在具体实施中，拼接图像的像素量、长宽比可以是多样的，划分方式也可以是多样的。

在具体实施中，纹理图区域或者深度图区域，也可以包括多个区域。例如图29中所示的，纹理图区域可以是一个连续的区域，深度图区域可以包括两个连续的区域。

或者，参见图30和图31，纹理图区域可以包括两个连续的区域，深度图区域也可以包括两个连续的区域。纹理图区域与深度区域可以间隔排布。

又或，参见图32，纹理图区域包括的纹理图子区域可以与深度图区域包括的深度图子区域间隔排布。纹理图区域包括的连续区域的数量，可以与纹理图子区域相等，深度图区域包括的连续区域的数量，可以与深度图子区域相等。

在具体实施中，对于每个纹理图的像素数据，可以按照像素点排布的顺序存储至所述纹理图子区域。对于每个纹理图对应的深度数据，也可以按照像素点排布的顺序存储至所述深度图子区域。

结合参考图33至图35，图33中以9个像素示意了纹理图1，图34中以9 个像素示意了纹理图2，纹理图1和纹理图2是同步的不同角度的两个二维图像。根据图像1和图像2，可以得到对应纹理图1的深度数据，包括图像1深度值1至图像1深度值9，也可以得到对应纹理图2的深度数据，包括图像2 深度值1至图像2深度值9。

参见图35，在将纹理图1存储至图像子区域，可以按照像素点排布的顺序，将纹理图1存储至左上的纹理图子区域，也即，在纹理图子区域中，像素点的排布可以是与纹理图1相同的。将纹理图2存储至图像子区域，同样可以是以该方式存储至右上的纹理图子区域。

类似的，将纹理图1对应的深度数据存储至深度图子区域，可以是按照类似的方式，在深度值与纹理图的像素值一一对应的情况下，可以按照如图35 中示出的方式存储。若深度值为对原始深度图进行降采样后得到的，则可以按照降采样后得到的深度图的像素点排布的顺序，存储至深度图子区域。

本领域技术人员可以理解的是，对图像进行压缩的压缩率，与图像中各个像素点的关联相关，关联性越强，压缩率越高。由于拍摄得到的图像是对应真实世界的，各个像素点的关联性较强，通过按照像素点排布的顺序，存储图像的像素数据以及深度数据，可以使得对拼接图像进行压缩时，压缩率更高，也即，可以使得在压缩前数据量相同的情况下在压缩后的数据量更小。

通过对拼接图像进行划分，划分为纹理图区域和深度图区域，在纹理图中多个纹理图子区域相邻，或者深度图区域中多个深度图子区域相邻的情况下，由于各个纹理图子区域中存储的数据是不同角度对待观看区域进行拍摄的图像或视频中帧图像得到的，深度图区域中存储的均为深度图，故在对拼接图像进行压缩时，也可以获得更高的压缩率。

在具体实施中，可以对所述纹理图子区域和所述深度图子区域中的全部或部分进行边缘保护。边缘保护的形式可以是多样的，例如，以图31中视角1 深度图为例，可以在原视角1深度图的周边，设置冗余的像素；或者也可以在保持原视角1深度图的像素数量不变，周边留出不存放实际像素数据的冗余像素，将原始视角1深度图缩小后存储至其余像素中；或者也可以以其它方式，最终使得视角1深度图与其周围的其它图像之间留出冗余像素。

由于拼接图像中包括多个纹理图以及深度图，各个纹理图相邻的边界的关联性较差，通过进行边缘保护，可以使得在对拼接图像进行压缩时，降低拼接图像中的纹理图以及深度图的质量损失。

在具体实施中，纹理图子区域的像素字段可以存储三通道数据，所述深度图子区域的像素字段可以存储单通道数据。纹理图子区域的像素字段用于存储多个同步的二维图像中任一个图像的像素数据，像素数据通常为三通道数据，例如RGB数据或者YUV数据。

深度图子区域用于存储图像的深度数据，若深度值为8位二进制数据，则可以采用像素字段的单通道进行存储，若深度值为16位二进制数据，则可以采用像素字段的双通道进行存储。或者，深度值为也可以采用与更大的像素区域进行存储。例如，若同步的多个图像均为1920*1080的图像，深度值为16位二进制数据，也可以将深度值存储至2倍的1920*1080图像区域，每个纹理图区域均存储为单通道。拼接图像也可以结合该具体存储方式进行划分。

拼接图像的未经压缩的数据量，按照每个像素的每个通道占用8bit的方式进行存储，可以按照如下公式计算：同步的多个二维图像的数量*(二维图像的像素数据的数据量+深度图的数据量)。

若原始图像为1080P的分辨率，也即1920*1080像素，逐行扫描的格式，原始深度图也可以占用1920*1080像素，为单通道。则原始图像的像素数据量为：1920*1080*8*3bit，原始深度图的数据量为1920*1080*8bit，若相机数量为 30个，则拼接图像的像素数据量为30*(1920*1080*8*3+1920*1080*8)bit，约为237M，若不经压缩，则占用系统资源较多，延时较大。特别是带宽较小的情况下，例如带宽为1Mbps时，一个未经压缩的拼接图像需要约237s进行传输，实时性较差，用户体验有待提升。

通过规律性的存储以获得更高的压缩率，对原始图像降低分辨率，或者以降低分辨率后的像素数据作为二维图像的像素数据，或者对原始深度图中的一个或多个进行降采样等方式中的一种或者多种，可以减少拼接图像的数据量。

例如，若原始二维图像的分辨率为4K的分辨率，即4096*2160的像素分辨率，降采样为540P分辨率，也即960*540的像素分辨率，则拼接图像的像素个数约为降采样前的十六分之一。结合上述其它减少数据量方式中的任一种或多种，可以使得数据量更少。

可以理解的是，若带宽支持，且进行数据处理的设备的解码能力可以支持更高分辨率的拼接图像，则也可以生成分辨率更高的拼接图像，以提升画质。

本领域技术人员可以理解的是，在不同的应用场景中，同步的多个二维图像的像素数据以及对应的深度数据，也可以以其它的方式存储，例如，以像素点为单位存储至拼接图像。参见图33、图34和图36，对于图33和图34所示的图像1和图像2，可以以图36的方式存储至拼接图像。

综上，二维图像的像素数据以及对应的深度数据可以存储至拼接图像，拼接图像可以以多种方式划分为纹理图区域以及深度图区域，或者也可以不进行划分，以预设的顺序存储纹理图的像素数据以及深度数据。在具体实施中，同步的多个二维图像也可以是解码多个视频得到的同步的多个帧图像。视频可以是通过多个摄像机获取的，其设置可以与前文中获取二维图像的相机相同或类似。

在具体实施中，多角度自由视角图像数据的生成还可以包括生成关联关系字段，关联关系字段可以指示第一字段与至少一个第二字段的关联关系。第一字段存储的是同步的多个二维图像中一个二维图像的像素数据，第二字段存储的是该二维图像对应的深度数据，二者对应于同一个拍摄角度，也即同一个视角。二者的关联关系可以通过关联关系字段描述。

以图27为例，图27中存储视角1纹理图至视角8纹理图的区域为8个第一字段，存储视角1深度图至视角8深度图的区域为8个第二字段，对于存储视角1纹理图的第一字段，与存储视角1深度图的第二字段之间，存在关联关系，类似的，存储视角2纹理图与存储视角2深度图的字段之间，存在关联关系。

关联关系字段可以以多种方式指示同步的多个二维图像中每个二维图像的第一字段与第二字段的关联关系，具体可以是同步的多个二维图像的像素数据以及深度数据的内容存储规则，也即通过指示前文中所述的存储方式，指示第一字段和第二字段的关联关系。

在具体实施中，关联关系字段可以仅包含不同的模式编号，进行数据处理的设备可以根据该字段的模式编号，以及存储于进行数据处理的设备的数据，获悉获取到的多角度自由视角图像数据中像素数据和深度数据的存储方式。例如，若接收到模式编号为1，则解析出存储方式为：拼接图像等分为上下两个区域，上半区域为纹理图区域，下半区域为深度图区域，上半区域某一位置的纹理图，与下半区域对应位置存储的深度图相关联。

可以理解的是，前述实施例中存储为拼接图像的方式，例如图27至图36 示意出的存储方式，均可以有相应的关联关系字段描述，以使得进行数据处理的设备可以根据关联关系字段获取相关联的二维图像以及深度数据。

如前所述，拼接图像的图片格式可以是BMP、PNG、JPEG、Webp等二维图像格式中的任一种，或者也可以是其它图像格式。多角度自由视角图像数据中像素数据和深度数据的存储方式并不仅限制于拼接图像的方式。可以以各种方式进行存储，也可以有相应的关联关系字段描述。

类似的，也可以模式编号的方式指示存储方式。例如图23示出的存储方式，关联关系字段可以存储模式编号2，进行数据处理的设备读取该模式编号后，可以解析出同步的多个二维图像的像素数据是依次存储的，并且可以解析出第一字段、第二字段的长度，在多个第一字段存储结束后，按照与二维图像相同的存储顺序存储每个图像的深度数据。进而进行数据处理的设备可以根据关联关系字段确定二维图像的像素数据与深度数据的关联关系。

可以理解的是，同步的多个二维图像的像素数据以及深度数据的存储方式可以是多样的，关联关系字段的表述方式也可以是多样的。可以以上述模式编号的方式指示，也可以直接指示内容。进行数据处理的设备可以根据关联关系字段的内容，结合已存储的数据或其它先验知识，例如每个模式编号对应的内容，或者同步的多个图像的具体数量等，确定二维图像的像素数据与深度数据的关联关系。

在具体实施中，多角度自由视角图像数据的生成还可以包括：基于同步的多个二维图像，计算并存储每个二维图像的参数数据，参数数据包括二维图像的拍摄位置和拍摄角度数据。

结合同步的多个二维图像中的每个图像的拍摄位置和拍摄角度，进行数据处理的设备可以结合用户的需要确定与之在同一坐标系的虚拟视点，基于多角度自由视角图像数据进行图像的重建，为用户展示其期待的观看位置和视角。

在具体实施中，参数数据还可以包括内部参数数据，所述内部参数数据包括图像的拍摄设备的属性数据。前述的图像的拍摄位置和拍摄角度数据也可以称为外部参数数据，内部参数数据和外部参数数据可以称为姿态数据。结合内部参数数据和外部参数数据，可以在图像重建时考虑到镜头畸变等内部参数数据指示的因素，进而可以更精确的对虚拟视点的图像进行重建。

在具体实施中，多角度自由视角图像数据的生成还可以包括：生成参数数据存储地址字段，所述参数数据存储地址字段用于指示所述参数数据的存储地址。进行数据处理的设备可以从参数数据的存储地址获取参数数据。

在具体实施中，多角度自由视角图像数据的生成还可以包括：生成数据组合存储地址字段，用于指示数据组合的存储地址，也即指示同步的多个图像中每个图像的第一字段以及第二字段的存储地址。进行数据处理的设备可以从数据组合的存储地址对应的存储空间中，获取到同步的多个二维图像的像素数据和对应的深度数据，从这个角度，数据组合包括同步的多个二维图像的像素数据以及深度数据。

可以理解的是，多角度自由视角图像数据中可以包括二维图像的像素数据、对应的深度数据、以及参数数据等具体数据，以及其它的指示性数据，例如前述的生成关联关系字段、参数数据存储地址字段、数据组合存储地址字段等。这些指示性数据可以存储于数据头文件，以指示进行数据处理的设备获取数据组合，以及参数数据等。

在具体实施中，生成多角度自由视角数据的各个实施例中涉及的名词解释、具体实现方式以及有益效果可以参见其它实施例。

多角度自由视角数据可以为多角度自由视角视频数据，以下特别针对生成多角度自由视角视频数据的方法进行进一步的阐述。

结合参考图37，多角度自由视角视频数据生成方法可以包括如下步骤：

步骤S371，获取帧同步的多个视频，所述多个视频的拍摄角度不同。

步骤S372，对每个视频进行解析得到多个帧时刻的图像组合，所述图像组合包括帧同步的多个帧图像。

步骤S373，基于所述多个帧时刻中每个帧时刻的图像组合，确定所述图像组合中每个帧图像的深度数据。

步骤S374，生成对应每个帧时刻的拼接图像，所述拼接图像包括存储所述图像组合中每个帧图像的像素数据的第一字段，以及存储所述图像组合中每个帧图像的深度数据的第二字段。

步骤S375，基于多个所述拼接图像生成视频数据。

在本实施例中，采集设备可以是摄像机，可以通过多个摄像机获取帧同步的多个视频。每个视频包括多个帧时刻的帧图像，多个图像组合可以分别对应不同的帧时刻，每个图像组合均包括帧同步的多个帧图像。

在具体实施中，基于所述多个帧时刻中每个帧时刻的图像组合，可以确定所述图像组合中每个帧图像的深度数据。

沿用前文中实施例，若原始视频中帧图像为1080P的分辨率，也即 1920*1080像素，逐行扫描的格式，原始深度图也可以占用1920*1080像素，为单通道。则原始图像的像素数据量为：1920*1080*8*3bit，原始深度图的数据量为1920*1080*8bit，若摄像机数量为30个，则拼接图像的像素数据量为30* (1920*1080*8*3+1920*1080*8)bit，约为237M，若不经压缩，则占用系统资源较多，延时较大。特别是带宽较小的情况下，例如带宽为1Mbps时，一个未经压缩的拼接图像需要约237s进行传输，若以原始的拼接图像，按照帧率进行传输，难以实现视频的实时播放。

通过规律性的存储，可以在进行视频格式的压缩时获得更高的压缩率，或者对原始图像降低分辨率，以降低分辨率后的像素数据作为二维图像的像素数据，或者对原始深度图中的一个或多个进行降采样，或者提升视频压缩码率等方式中的一种或者多种，可以减少拼接图像的数据量。

例如，若原始视频中，也即获取到的多个视频中，帧图像的分辨率为4K 的分辨率，即4096*2160的像素分辨率，降采样为540P分辨率，也即960*540 的像素分辨率，则拼接图像的像素个数约为降采样前的十六分之一。结合上述其它减少数据量方式中的任一种或多种，可以使得数据量更少。

可以理解的是若带宽支持，且进行数据处理的设备的解码能力可以支持更高分辨率的拼接图像，则也可以生成分辨率更高的拼接图像，以提升画质。

在具体实施中，基于多个所述拼接图像生成视频数据，可以是基于全部或者部分的拼接图像生成视频数据，具体可以根据待生成视频的帧率与获取到的视频的帧率确定，或者也可以根据与进行数据处理设备的通信的带宽确定。

在具体实施中，基于多个所述拼接图像生成视频数据，可以是将多个拼接图像，按照帧时刻的顺序，进行编码和封装，生成视频数据。

具体的，封装格式可以是AVI、QuickTime File Format、MPEG、WMV、 Real Video、Flash Video、Matroska等格式中的任一种，或者也可以是其他封装格式，编码格式可以是H.261、H.263、H.264、H.265、MPEG、AVS等编码格式，或者也可以是其它编码格式。

在具体实施中，多角度自由视角图像数据的生成还可以包括生成关联关系字段，关联关系字段可以指示第一字段与至少一个第二字段的关联关系。第一字段存储的是同步的多个二维图像中一个二维图像的像素数据，第二字段存储的是该二维图像对应的深度数据，二者对应于同一个拍摄角度，也即同一个视角。

在具体实施中，多角度自由视角视频数据的生成还可以包括：基于同步的多个帧图像，计算并存储每个帧图像的参数数据，参数数据包括帧图像的拍摄位置和拍摄角度数据。

在具体实施中，同步的多个视频中的不同时刻的图像组合中帧同步的多个帧图像，可以对应于同样的参数数据，可以以任何一组图像组合计算参数数据。

在具体实施中，多角度自由视角范围图像数据的生成还可以包括：生成参数数据存储地址字段，所述参数数据存储地址字段用于指示所述参数数据的存储地址。进行数据处理的设备可以从参数数据的存储地址获取参数数据。

在具体实施中，多角度自由视角范围图像数据的生成还可以包括：生成视频数据存储地址字段，所述视频图像存储地址字段用于指示生成的视频数据的存储地址。

可以理解的是，多角度自由视角视频数据中可以包括生成的视频数据、以及其它的指示性数据，例如前述的生成关联关系字段、参数数据存储地址字段、视频数据存储地址字段等。这些指示性数据可以存储于数据头文件，以指示进行数据处理的设备获取视频数据，以及参数数据等。

生成多角度自由视角视频数据的各个实施例中涉及的名词解释、具体实现方式以及有益效果可以参见其它实施例。

参照图3，对于前述生成的多角度自由视角视频数据，为节约带宽，经编码压缩后，可以经网络传输至进行显示的设备33进行虚拟视点切换的多角度自由视角数据。进行显示的设备33可以展示基于多角度自由视角数据经视频重建后生成的重建图像。

为使本领域技术人员更好地理解及实现本发明实施例，以下特别针对视频重建方法作进一步的阐述。

参照图38所示的本发明实施例中一种视频重建方法的流程图，在具体实施中，可以包括如下步骤：

S381，获取多角度自由视角的视频帧的图像组合、所述视频帧的图像组合对应的参数数据以及基于用户交互的虚拟视点位置信息。

其中，所述视频帧的图像组合包括多个角度同步的多组存在对应关系的纹理图和深度图。

在具体实施中，可以通过对获取的多角度自由视角的视频压缩数据进行解码，得到所述多角度自由视角的视频帧的图像组合，所述视频帧的图像组合对应的参数数据。通过对多角度自由视角的视频压缩数据进行解码后采用本发明实施例的方法进行视频重建，可以进一步节约网络传输资源，也可以采用通用的压缩方式及压缩软硬件进行压缩，因而利用推广普及。

S382，根据所述虚拟视点位置信息及所述视频帧的图像组合对应的参数数据，按照预设规则选择用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图。

在具体实施中，根据所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，选择离所述虚拟视点位置最近的2至N个采集设备对应的纹理图和深度图，其中，N为采集所述视频帧的图像组合的所有采集设备的数量。在本发明一实施例中，默认选择离所述虚拟视点位置最近的2个采集设备对应的纹理图和深度图。在具体实施中，用户可以自己设置所选择的离所述虚拟视点位置最近的采集设备的数量，最大不超过所述视频帧中图像组合所对应的采集设备的数量。

S383，基于所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，将选择的用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图进行组合渲染，得到所述用户交互时刻虚拟视点位置对应的重建图像。

在具体实施中，步骤S383具体可以采用如下步骤：

将选择的用户交互时刻所述视频帧的图像组合中相应组的深度图分别进行前向映射，映射至用户交互时刻的虚拟位置上；

对前向映射后的深度图分别进行后处理；

将选择的用户交互时刻所述视频帧的图像组合中相应组的纹理图分别进行反向映射；

将反向映射后所生成的各虚拟纹理图进行融合。

在具体实施中，上述融合后的纹理图可以作为用户交互时刻虚拟视点位置对应的重建图像输出。

在具体实施中，重建图像除了可以包含纹理图外，还可以包括对应的深度图，可以有多种方式得到对应的深度图。例如，所对应的深度图可以从后处理后所得到的深度图中随机选择其中一个作为重建图像的深度图。又如，可以从后处理后所得到的深度图中选择离用户交互时刻所述虚拟视点位置最近的深度图作为重建图像的深度图，若离所述虚拟视点位置最近的深度图不止一幅，则可以选择其中任意一个。再如，可以将后处理后的深度图进行融合，即可得到重建后的深度图。

在具体实施中，在将反向映射后所生成的各虚拟纹理图进行融合后，还可以对融合后的纹理图进行空洞填补，得到所述用户交互时刻虚拟视点位置对应的重建图像。

在具体实施中，可以采用多种方法对前向映射后的深度图分别进行后处理。例如，可以对前向映射后的深度图分别进行前景边缘保护处理，也可以对前向映射后的深度图分别进行像素级滤波处理。可以单独执行某一种后处理动作，也可以同时采用多个后处理动作。

在本发明一实施例中，采用如下方式将反向映射后所生成的各虚拟纹理图进行融合：根据所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，采用由虚拟视点的位置与采集所述图像组合中相应纹理图的采集设备的位置的距离确定的全局的权重，将反向映射后所生成的各虚拟纹理图进行融合。

参照图39所示的本发明实施例中另一种视频重建方法的流程图，在具体实施中，可以采用如下方法进行视频重建。

S391，获取多角度自由视角的视频压缩数据、视频压缩数据中图像组合对应的参数数据以及基于用户交互的虚拟视点位置信息。

在具体实施中，如前所述，可以通过多个相机、摄像机等对某一场景进行多个角度的图像或视频采集。

所述多角度自由视角的视频压缩数据，可以为完全的自由视角的视频压缩数据。在具体实施中，可以为6自由度(Degree of Freedom，DoF)的视角，也即可以自由切换视点的空间位置以及视角。如前所述，视点的空间位置可以表示为坐标(x,y,z)，视角可以表示为三个旋转方向

故可以称为6DoF。

在视频重建过程中，可以先获取多角度自由视角的视频压缩数据，以及所述视频压缩数据中图像组合对应的参数数据。

在具体实施中，视频压缩数据可以包括数据头文件以及数据文件。数据头文件可以指示数据文件的定义格式，以使得对多角度自由视角视频数据进行视频重建的设备能够根据数据头文件从数据文件解析出需要的数据。

结合参考图3，进行数据处理的设备可以是位于CDN的设备，或者进行显示的设备33，也可以作为进行数据处理的设备。数据文件和数据头文件均可以存储于云端的服务器32，或者，在一些应用场景中，数据头文件也可以存储于进行数据处理的设备，从本地获取数据头文件。

在具体实施中，可以从视频压缩数据的数据头文件中获取到所述视频中图像组合的参数数据。

其中，如前所述，所述参数数据可以包括外部参数数据，还可以包括内部参数数据。外部参数数据用于描述拍摄设备的空间坐标及姿态等，内部参数数据用于表述拍摄设备的光心、焦距等拍摄设备的属性信息。内部参数数据还可以包括畸变参数数据。畸变参数数据包括径向畸变参数数据和切向畸变参数数据。径向畸变发生在拍摄设备坐标系转图像物理坐标系的过程中。而切向畸变是发生在拍摄设备制作过程，其是由于感光元平面跟透镜不平行。基于外部参数数据可以确定视频的拍摄位置、拍摄角度等信息。在视频重建过程中，结合包括畸变参数数据在内的内部参数数据可以使所确定的空间映射关系更加准确。

视频压缩数据的数据头文件中可以包括指示图像组合的存储格式的字段，该字段可以采用编号指示存储格式，或者直接写入存储格式。相应地，解析结果可以是存储格式的编号，或者存储格式。

相应地，视频重建设备可以根据解析结果确定该存储格式。例如，可以根据该编号，以及已存储的支持性数据，确定具体的存储格式；或者也可以直接从指示图像组合的存储格式的字段中获取存储格式。在其它实施例中，存储格式是事先可以固定的，也可以将该固定的存储格式记录于视频重建设备中。

在具体实施中，前文所述的各个实施例中的图像组合，可以作为本发明实施例中的数据文件。在带宽受到限制的应用场景中，可以将图像组合分割为多个部分多次进行传输。

在具体实施中，采用6DoF的表达方式，基于用户交互的虚拟视点位置信息可以表示为坐标

的形式，所述虚拟视点位置信息可以在预设的一种或多种用户交互方式下产生。例如，可以为用户操作输入的坐标，如手动点击或手势路径，或者语音输入确定的虚拟位置，或者可以为用户提供自定义的虚拟视点(例如：用户可以输入场景中的位置或视角，如篮下、场边、裁判视角、教练视角等等)。或者基于特定对象(例如球场上的球员、视频中的演员或嘉宾、主持人等，可以在用户点击相应对象后切换至所述对象的视角)。可以理解的是，本发明实施例中并不限定具体的用户交互方式，只要能获取到基于用户交互的虚拟视点位置信息即可。

S392，对用户交互时刻视频压缩数据进行解码，得到所述用户交互时刻视频帧的图像组合，其中，所述视频帧的图像组合包括多个角度同步的多组存在对应关系的纹理图和深度图。

在具体实施中，可以在所述视频压缩数据的数据头文件中获取所采用的视频格式。视频格式可以包括封装格式和视频压缩格式，封装格式可以是AVI、 QuickTime FileFormat、MPEG、WMV、Real Video、Flash Video、Matroska等格式中的任一种，或者也可以是其他封装格式。视频压缩格式可以是H.261、 H.263、H.264、H.265、高级串流格式(AdvancedStreaming Format，ASF)、数字音视频编解码技术标准(Audio Video Standard，AVS)等等，进而可以采用相应的解码器进行解码。在本发明实施例中，对视频压缩数据的具体压缩格式没有任何限制，本发明实施例采用对应的解码方式进行解码即可，具体可以采用硬件解码器，也可以采用软件解码器，或者采用软硬件结合的解码器。

存储格式也可以是图片格式或者视频格式以外的其它格式，在此不做限制。能够通过数据头文件进行指示，或者通过已存储的支持性数据，使得视频重建设备获取所需的数据，以进行后续的虚拟视点的图像或视频重建的各种存储格式均在本发明的保护范围内。

对实时传输过来的视频压缩数据或者本地存储的视频压缩数据进行解码后，可以得到用户交互时刻视频帧的图像组合，其中所述视频帧的图像组合可以包括多个角度同步的多组存在对应关系的纹理图和深度图。在具体实施中，每一视频帧的图像组合中同步的多组存在对应关系的纹理图和深度图可以拼接在一起，形成一帧拼接图像。参照图27所示的本发明实施例中解码得到的一视频帧的图像组合结构示意图，包括：依次拼接在一起的8个不同视角的纹理图以及相应视角下的深度图。

由图27可知，解码得到的视频帧中图像组合中多组纹理图及深度图可以按照预设的关系进行拼接及组合排列。具体而言，视频帧中图像组合的纹理图和深度图根据位置关系可以区分为纹理图区域和深度图区域，纹理图区域分别存储各个纹理图的像素值，深度图区域按照预设的位置关系分别存储各纹理图对应的深度值。纹理图区域和深度图区域可以是连续的，也可以是间隔分布的。本发明实施例中对视频帧中图像组合中纹理图和深度图的位置关系不做任何限制。

视频帧中图像组合中多组纹理图和深度图之间的具体关系可以参照前述实施例的介绍，此处不再赘述。

在具体实施中，纹理图可以采用任意类型的二维图像格式，例如可以是 BMP、PNG、JPEG、webp格式等其中任意一种格式。深度图可以表示场景中各点相对于拍摄设备的距离，即深度图中每一个像素值表示场景中某一点与拍摄设备之间的距离。

S393，根据所述虚拟视点位置信息及所述视频压缩数据中图像组合对应的参数数据，按照预设规则选择所述视频帧的图像组合中相应组的纹理图和深度图。

在具体实施中，可以根据所述虚拟视点位置信息及所述视频压缩数据中图像组合对应的参数数据，选择用户交互时刻所述视频帧的图像组合中与所示虚拟视点位置满足预设位置关系和/或数量关系的相应组的纹理图和深度图。例如对于在相机密度较大的虚拟视点位置区域，可以仅选择离所述虚拟视点最近的 2个相机拍摄的纹理图及对应的深度图，而在相机密度较小的虚拟视点位置区域，可以选择离所述虚拟视点最近的3个或4个相机拍摄的纹理图及对应的深度图。

采用这一方式，对采集视频的多个拍摄设备的空间位置分布没有特别的要求(例如可以为线状分布、弧形阵列排布，或者是任何不规则的排布形式)，而是根据获取到所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合对应的参数数据，确定拍摄设备的实际分布状况，进而采用适应性的策略选择用户交互时刻所述视频帧的图像组合相应组的纹理图和深度图的选择，从而可以在减小数据运算量、保证重建图像质量的情况下，提供较高的选择自由度及灵活性，此外也降低了对采集视频的拍摄设备的安装要求，便于适应不同的场地需求及安装易操作性。

在本发明一实施例中，根据所述虚拟视点位置信息及所述视频压缩数据对应的参数数据，选择所述用户交互时刻离所述虚拟视点位置最近的预设数量的相应组的纹理图和深度图。

可以理解的是，在具体实施中，也可以采用预设的其他规则选择相应组的纹理图和深度图，例如还可以根据视频重建设备的处理能力、或者可以根据用户对重建速度的要求，对重建视频的清晰度要求(如普清、高清或超清，等等)。

S394，基于所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，将用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图进行组合渲染，得到所述用户交互时刻虚拟视点位置对应的重建图像。

在具体实施中，可以采用多种方式将用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图进行组合渲染，得到所述用户交互时刻虚拟视点位置对应的重建图像。

在本发明一实施例中，根据所述用户交互时刻所述视频帧的图像组合中相应组的深度图，直接将所述视频帧的图像组合中相应组的纹理图中的像素点复制到生成的虚拟纹理图中，即可得到所述用户交互时刻所述虚拟视点位置对应的重建图像。

在本发明另一实施例中，可以先执行前向映射，利用深度信息将所述视频帧的图像组合中相应组的纹理图投影到三维欧式空间，即：分别将所述相应组的深度图根据空间几何关系映射到所述用户交互时刻所述虚拟视点位置上，形成虚拟视点位置深度图，再执行反向映射，将三维空间点投影到虚拟像机的成像平面上，即：根据映射后的深度图从所述相应组的纹理图中的像素点复制到生成的虚拟视点位置对应的虚拟纹理图中，形成相应组对应的虚拟纹理图。之后，将所述相应组对应的虚拟纹理图进行融合，得到所述用户交互时刻所述虚拟视点位置的重建图像。采用上述方法重建图像，可以提高重建图像的抽样精度。

在执行前向映射之前，可以先进行预处理。具体而言，可以先根据所述视频帧的图像组合中相应组对应的参数数据，计算前向映射的深度值和纹理反向映射的单应性矩阵。在具体实施中，可以利用Z变换将深度水平转换为深度值。

在深度图前向映射过程中，可以利用公式将相应组的深度图映射到虚拟视点位置的深度图，然后将对应位置的深度值复制过来。另外，相应组的深度图中可能会有噪声，且在映射过程中可能会包含一些抽样信号，因而生成的虚拟视点位置的深度图可能会有小的噪声洞。针对这一问题，可以采用中值滤波去除噪声。

在具体实施中，还可以根据需求对前向映射后得到的所述虚拟视点位置深度图进行其他的后处理，以进一步提高所生成的重建图像的质量。在本发明一实施例中，在进行反向映射前，将前向映射得到的虚拟视点位置深度图进行前后景遮挡关系的处理，以使得生成的深度图能更加真实地反映所述虚拟视点位置所看到的场景中对象的位置关系。

对于反向映射，具体而言，可以根据所述前向映射得到的虚拟视点位置深度图计算相应组纹理图在虚拟纹理图中的位置，之后，复制对应像素位置的纹理值，其中深度图中的洞在虚拟纹理图中可以标记为0或标记为无任何纹理值。对于标记为洞的区域可以进行孔膨胀扩大，避免合成假象。

之后，对生成的相应组的虚拟纹理图进行融合，即可得到所述用户交互时刻所述虚拟视点位置的重建图像。在具体实施中，也可以通过多种方式进行融合，以下通过两个实施例进行示例说明。

在本发明一实施例中，先进行加权处理，再进行空洞填补。具体而言：对用户交互时刻视频帧的图像组合中各相应组对应的虚拟纹理图中对应位置的像素进行加权处理，得到所述用户交互时刻虚拟视点位置的重建图像中对应位置的像素值。之后，对于所述用户交互时刻在所述虚拟视点位置的重建图像中像素值为零的位置，利用所述重建图像中所述像素周围的像素进行空洞填补，得到所述用户交互时刻所述虚拟视点位置的重建图像。

在本发明另一实施例中，先进行空洞填补，再进行加权处理。具体而言：对于用户交互时刻视频帧的图像组合中各相应组对应的虚拟纹理图中像素值为零的位置，分别利用周围的像素值进行空洞填补，之后，将空洞填补后的各相应组对应的虚拟纹理图中相应位置的像素值进行加权处理，得到所述用户交互时刻所述虚拟视点位置的重建图像。

上述实施例中的加权处理，具体可以采用加权平均的方式，也可以根据参数数据，或者拍摄设备与虚拟视点的位置关系采用不同的加权系数。在本发明一实施例中，根据虚拟视点的位置和各个拍摄设备位置距离的倒数进行加权，即：距所述虚拟视点位置越近的拍摄设备，权重越大。

在具体实施中，可以根据需要，采用预设的空洞填补算法进行空洞填补，这里不再赘述。

以上举例说明了如何基于所述虚拟视点的位置及用户交互时刻视频帧中图像组合中对应组的参数数据，将所述视频帧中图像组合中相应组的纹理图和深度图进行组合渲染。可以理解的是，在具体实施中，也可以根据需要采用其他的基于深度图的绘制(Depth Image Based Rendering，DIBR)算法，不再一一赘述。

参照图40所示的本发明实施例中一种视频重建系统的结构示意图，本发明实施例还提供了一种视频重建系统。如图40所示，视频重建系统400包括：获取单元401、选择单元402和图像重建单元403，其中：

获取单元401，适于获取来自多角度自由视角的视频帧的图像组合、所述视频帧的图像组合对应的参数数据以及基于用户交互的虚拟视点位置信息，其中，所述视频帧的图像组合包括多个角度同步的多组存在对应关系的纹理图和深度图；

选择单元402，适于根据所述虚拟视点位置信息及所述视频帧的图像组合对应的参数数据，按照预设规则选择所述视频帧的图像组合中相应组的纹理图和深度图；

图像重建单元403，适于基于所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，将选择的用户交互时刻相应组的纹理图和深度图进行组合渲染，得到所述用户交互时刻所述虚拟视点位置对应的重建图像。

采用上述视频重建系统，通过基于虚拟视点位置信息及获取的视频帧的图像组合对应的参数数据，按照预设规则选择用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图，只需要基于所述虚拟视点位置及用户交互时刻所述视频帧的图像组合中对应组的参数数据，将用户交互时刻相应组的纹理图和深度图进行组合渲染，而无须基于解码得到的用户交互时刻所述视频帧的图像组合中所有组的纹理图和深度图进行视频图像重建，因而可以减小视频重建过程中的数据运算量。

在具体实施中，所述选择单元402可以根据所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，选择用户交互时刻所述视频帧的图像组合中与所述虚拟视点位置满足预设位置关系的相应组的纹理图和深度图，或者选择用户交互时刻所述视频帧的图像组合中与虚拟视点位置满足预设数量关系的相应组的纹理图和深度图，或者选择用户交互时刻所述视频帧的图像组合中与虚拟视点位置满足预设位置关系和数量关系的相应组的纹理图和深度图。

在本发明一实施例中，所述选择单元402可以根据所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，选择用户交互时刻离所述虚拟视点位置最近的预设数量的相应组的纹理图和深度图。

在具体实施中，参照图40，所述图像重建单元403，可以包括：前向映射子单元4031、反向映射子单元4032、融合子单元4033，其中：

所述前向映射子单元4031，适于分别将所述相应组的深度图根据空间几何关系映射到所述用户交互时刻所述虚拟视点位置上，形成虚拟视点位置深度图；

所述反向映射子单元4032，适于根据映射后的深度图从所述相应组的纹理图中的像素点复制到生成的虚拟视点位置对应的虚拟纹理图中，形成相应组对应的虚拟纹理图；

融合子单元4033，适于将所述相应组对应的虚拟纹理图进行融合，得到所述用户交互时刻所述虚拟视点位置的重建图像。

在本发明一实施例中，所述融合子单元4033，适于对相应组对应的虚拟纹理图中对应位置的像素进行加权处理，得到所述用户交互时刻虚拟视点位置的重建图像中对应位置的像素值；对于所述用户交互时刻虚拟视点位置的重建图像中像素值为零的位置，适于利用所述重建图像中所述像素周围的像素进行空洞填补，得到所述用户交互时刻虚拟视点位置的重建图像。

在本发明另一实施例中，所述融合子单元4033，对于各相应组对应的虚拟纹理图中像素值为零的位置，适于分别利用周围的像素值进行空洞填补；并适于将空洞填补后的各相应组对应的虚拟纹理图中相应位置的像素值进行加权处理，得到所述用户交互时刻虚拟视点位置的重建图像。

在本发明另一实施例中，在图像重建子单元403中，所述前向映射子单元 4031，适于将选择的用户交互时刻所述视频帧的图像组合中相应组的深度图分别进行前向映射，映射至用户交互时刻的虚拟位置上；所述反向映射子单元 4032，适于将选择的用户交互时刻所述视频帧的图像组合中相应组的纹理图分别进行反向映射；所述融合子单元4033，适于将所述反向映射后所生成的各虚拟纹理图进行融合。

在具体实施中，所述图像重建子单元403还可包括后处理子单元(未示出)，适于对前向映射后的深度图分别进行后处理。例如，所述后处理子单元可以对前向映射后的深度图分别进行前景边缘保护处理、像素级滤波处理等其中至少一种。

在具体实施中，所述获取单元401可以包括解码子单元(未示出)，适于对获取的多角度自由视角的视频压缩数据进行解码，得到所述多角度自由视角的视频帧的图像组合，所述视频帧的图像组合对应的参数数据。

本发明实施例还提供了能够实现上述视频重建方法的视频重建设备，所述视频重建设备可以包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时可以执行上述任一实施例所述视频重建方法的步骤。

在具体实施中，所述视频重建设备可以包括终端设备，终端设备采用上述实施例完成视频重建后，可以通过显示界面输出显示，供用户观看。所述终端设备可以为手机等手持终端、平板电脑、机顶盒等。

在具体实施中，还可以采用边缘节点进行上述视频重建，边缘节点在完成视频重建后，可以输出至与之通信的重点设备进行输出，供用户观看。边缘节点可以是与显示重建后的图像的显示设备进行近距离通信，保持高带宽低延迟连接的节点，例如通过WiFi、5G网络等进行连接。在具体实施中，所述边缘节点可以为基站、路由器、家庭网关、车载设备等任意一种。结合参考图3，边缘节点可以是位于CDN的设备。

在具体实施中，在一个网络中，可以根据终端设备和边缘节点的处理能力、或者根据用户选择，或者根据运营商配置，来选择具体的终端设备或边缘节点设备来进行本发明实施例中的视频重建过程，具体可以参见本发明实施例中所介绍的具体方法，不再赘述。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时可以执行本发明上述任一实施例所述视频重建方法的步骤。其中，所述计算机可读存储介质可以是光盘、机械硬盘、固态硬盘等各种适当的可读存储介质。所述计算机可读存储介质上存储的指令执行的视频重建方法具体可参照上述各视频重建方法实施例，不再赘述。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种视频重建方法，其特征在于，包括：

获取多角度自由视角的视频帧的图像组合、所述视频帧的图像组合对应的参数数据以及基于用户交互的虚拟视点位置信息，其中，所述视频帧的图像组合包括多个角度同步的多组存在对应关系的纹理图和深度图；

根据所述虚拟视点位置信息及所述视频帧的图像组合对应的参数数据，按照预设规则选择用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图；

基于所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，将选择的用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图进行组合渲染，得到所述用户交互时刻虚拟视点位置对应的重建图像。

2.根据权利要求1所述的视频重建方法，其特征在于，所述根据所述虚拟视点位置信息及所述视频帧的图像组合对应的参数数据，按照预设规则选择用户交互时刻所述视频帧的图像组合中相应组的纹理图数据和深度图数据，包括：

根据所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，选择用户交互时刻所述视频帧的图像组合中与虚拟视点位置满足预设位置关系和/或数量关系的相应组的纹理图和深度图。

3.根据权利要求2所述的视频重建方法，其特征在于，所述根据所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，选择用户交互时刻所述视频帧的图像组合中与虚拟视点位置满足预设位置关系和/或数量关系的相应组的纹理图和深度图，包括：

根据所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，选择用户交互时刻所述视频帧的图像组合中离所述虚拟视点位置最近的预设数量的相应组的纹理图和深度图。

4.根据权利要求3所述的视频重建方法，其特征在于，所述根据所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，选择用户交互时刻所述视频帧的图像组合中离所述虚拟视点位置最近的预设数量的相应组的纹理图和深度图，包括：

根据所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，选择离所述虚拟视点位置最近的2至N个采集设备对应的纹理图和深度图，其中，N为采集所述视频帧的图像组合的所有采集设备的数量。

5.根据权利要求1所述的视频重建方法，其特征在于，所述基于所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，将选择的用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图进行组合渲染，得到所述用户交互时刻虚拟视点位置对应的重建图像，包括：

对前向映射后的深度图分别进行后处理；

将反向映射后所生成的各虚拟纹理图进行融合。

6.根据权利要求5所述的视频重建方法，其特征在于，在将反向映射后所生成的各虚拟纹理图进行融合后，还包括：

对融合后的纹理图进行空洞填补，得到所述用户交互时刻虚拟视点位置对应的重建图像。

7.根据权利要求5所述的视频重建方法，其特征在于，所述对前向映射后的深度图分别进行后处理，包括以下至少一种：

对前向映射后的深度图分别进行前景边缘保护处理；

对前向映射后的深度图分别进行像素级滤波处理。

8.根据权利要求5所述的视频重建方法，其特征在于，所述将反向映射后所生成的各虚拟纹理图进行融合，包括：

根据所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，采用由虚拟视点的位置与采集所述图像组合中相应纹理图的采集设备的位置的距离确定的全局的权重，将反向映射后所生成的各虚拟纹理图进行融合。

9.根据权利要求1所述的视频重建方法，其特征在于，所述基于所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，将选择的用户交互时刻所述视频帧的图像组合中相应组的纹理图数据和深度图数据进行组合渲染，得到所述用户交互时刻虚拟视点位置对应的重建图像，包括：

分别将所述相应组的深度图根据空间几何关系映射到用户交互时刻的虚拟视点位置上，形成虚拟视点位置深度图，并根据映射后的深度图从所述相应组的纹理图中的像素点复制到生成的虚拟视点位置对应的虚拟纹理图中，形成相应组对应的虚拟纹理图；

将所述用户交互时刻视频帧的图像组合中相应组对应的虚拟纹理图进行融合，得到所述用户交互时刻虚拟视点位置的重建图像。

10.根据权利要求9所述的视频重建方法，其特征在于，所述将所述用户交互时刻视频帧的图像组合中相应组对应的虚拟纹理图进行融合，得到所述用户交互时刻虚拟视点位置的重建图像，包括：

对用户交互时刻所述视频帧的图像组合中各相应组对应的虚拟纹理图中对应位置的像素进行加权处理，得到所述用户交互时刻虚拟视点位置的重建图像中对应位置的像素值；

对于所述用户交互时刻虚拟视点位置的重建图像中像素值为零的位置，利用所述重建图像中所述像素周围的像素进行空洞填补，得到所述用户交互时刻虚拟视点位置的重建图像。

11.根据权利要求9所述的视频重建方法，其特征在于，所述将所述用户交互时刻视频帧的图像组合中相应组对应的虚拟纹理图进行融合，得到所述用户交互时刻所述虚拟视点位置的重建图像，包括：

对于用户交互时刻视频帧的图像组合中各相应组对应的虚拟纹理图中像素值为零的位置，分别利用周围的像素值进行空洞填补；

将空洞填补后的各相应组对应的虚拟纹理图中相应位置的像素值进行加权处理，得到所述用户交互时刻虚拟视点位置的重建图像。

12.根据权利要求1所述的视频重建方法，其特征在于，所述获取多角度自由视角的视频帧的图像组合、所述视频帧的图像组合对应的参数数据，包括：

对获取的多角度自由视角的视频压缩数据进行解码，得到所述多角度自由视角的视频帧的图像组合，所述视频帧的图像组合对应的参数数据。

13.一种视频重建系统，其特征在于，包括：

获取单元，适于获取多角度自由视角的视频帧的图像组合、所述视频帧的图像组合对应的参数数据以及基于用户交互的虚拟视点位置信息，其中，所述视频帧的图像组合包括多个角度同步的多组存在对应关系的纹理图和深度图；

选择单元，适于根据所述虚拟视点位置信息及所述视频帧的图像组合对应的参数数据，按照预设规则选择所述视频帧的图像组合中相应组的纹理图和深度图；

图像重建单元，适于基于所述虚拟视点位置信息及用户交互时刻所述视频帧的图像组合中相应组的纹理图和深度图对应的参数数据，将选择的用户交互时刻相应组的纹理图和深度图进行组合渲染，得到所述用户交互时刻所述虚拟视点位置对应的重建图像。

14.一种视频重建设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求1至12任一项所述方法的步骤。

15.根据权利要求14所述的视频重建设备，其特征在于，所述视频重建设备包括以下至少一种：终端设备、边缘节点。

16.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至12任一项所述方法的步骤。