CN114930812B

CN114930812B - 用于解码3d视频的方法和装置

Info

Publication number: CN114930812B
Application number: CN202080082055.5A
Authority: CN
Inventors: S·特拉维特; 让·勒卢克斯; 查尔斯·萨蒙-勒加尼厄; 雷米·侯代尔
Original assignee: InterDigital CE Patent Holdings SAS
Current assignee: InterDigital CE Patent Holdings SAS
Priority date: 2019-11-29
Filing date: 2020-11-24
Publication date: 2024-03-26
Anticipated expiration: 2040-11-24
Also published as: CN114930812A; WO2021105142A1; US11910054B2; US20230007338A1; EP4066488A1; EP3829166A1

Abstract

本发明公开了一种用于解码体积视频的方法及其装置。此类方法包括接收(E111)表示包括用于根据渲染视点选择包括与所述体积视频中的视点相关联的颜色和深度数据分块的至少一个图集的信息的文件的数据流，所述颜色和深度数据分块相对于从所述体积视频中的参考视点获取的深度和颜色参考数据生成。

Description

用于解码3D视频的方法和装置

1.技术领域

本发明原理总体涉及三维(3D)场景和体积视频内容的域。还在编码、格式化和解码表示3D场景的纹理和几何结构的数据的上下文中理解本文档，以在诸如移动设备或头戴式显示器(HMD)的最终用户设备上渲染体积内容。

2.背景技术

本部分旨在向读者介绍本领域的各个方面，这些方面可能与下文描述和/或要求保护的本发明原理的各个方面有关。据信该讨论有助于为读者提供背景信息，以促进更好地理解本发明原理的各个方面。因此，应当理解，这些陈述应当从这个角度来解读，而不是承认现有技术。

最近，可用的大视场内容(高达360°)有所增长。观看沉浸式显示设备(诸如头戴式显示器、智能眼镜、PC屏幕、平板电脑、智能电话等)上的内容的用户可能无法完全看到此类内容。这意味着在给定的时刻，用户只能观看一部分内容。然而，用户通常可通过例如头部移动、鼠标移动、触摸屏、语音以及类似物的各种手段在内容内导航。通常希望对该内容进行编码和解码。

全向视频(也称为360°平面视频)允许用户通过围绕静止视点旋转其头部来观看自己周围的一切。旋转仅允许3自由度(3DoF)体验。即使3DoF视频足以满足全向视频体验(例如，使用头戴式显示器设备(HMD))的要求，但3DoF视频对于期望更多自由(例如，通过体验视差，即3D渲染)的观看者可能很快变得令人沮丧。此外，3DoF还可能导致眩晕，因为用户永远不会只旋转其头部，而是还向三个方向平移头部，这些平移不会在3DoF视频体验中再现。

其中，大视场内容可以是三维计算机图形图像场景(3D CGI场景)、点云或沉浸式视频。许多术语可用于设计此类沉浸式视频：例如，虚拟现实(VR)、360、全景、4π球面度、沉浸式、全向或大视场。

体积视频(也称为6自由度(6DoF)视频)是3DoF视频的替代方案。在观看6DoF视频时，除了旋转之外，用户还可以在观看的内容中平移其头部，甚至其身体，并且体验视差甚至体积。这种视频显著增加了沉浸感和对场景深度的感知，并通过在头部平移期间提供一致的视觉反馈来防止眩晕。内容可通过专用传感器创建，允许同时记录感兴趣场景的颜色和深度。即使仍然存在技术困难，使用结合摄影测量技术的彩色相机装备也是执行这种记录的一种方式。

虽然3DoF视频包括由纹理图像的解映射产生的图像序列(例如，根据纬度/经度投影映射或等角投影映射编码的球面图像)，但6DoF视频帧嵌入了来自多个视点的信息。它们可被视为由三维捕获产生的点云的时间序列。根据观看条件可以考虑两种体积视频。第一种(即完整的6DoF)允许在视频内容内完全自由导航，而第二种(又名3DoF+)将用户观看空间限制到称为观看边界框的有限体积，从而允许有限的头部平移和视差体验。该第二种情况是在自由导航和就座观众的被动观看条件之间的有价值的折衷。

通常通过流传输会话向用户提供观看体验。编码的体积视频可通过有线或无线网络连接从流传输服务器发送到用户的终端。然而，网络连接应适应这些新的视频格式，并且更具体地在带宽方面。仍然存在对要递送到终端设备的视频内容和格式的约束的网络的一些限制。

应当指出的是，此类体积视频需要将大量数据传输到终端设备，以便提供所示场景中的3D空间的实际感知，并且以便为用户提供“在场景中移动”的可能性，即当在真实世界中移动时改变视点，同时避开视觉伪影。

因此，需要改进现有技术。

3.发明内容

以下呈现本发明原理的简化概述，以便提供对本发明原理的一些方面的基本理解。本发明内容不是本发明原理的广泛概述。不旨在识别本发明原理的关键或重要元素。以下发明内容仅以简化形式呈现本发明原理的一些方面，作为下面提供的更详细描述的前言。

根据本公开的一个方面，呈现了一种用于解码体积视频的方法。此类方法包括接收表示包括用于根据渲染视点选择包括与体积视频中的视点相关联的颜色和深度数据分块的至少一个图集的信息的文件的数据流，这些颜色和深度数据分块相对于从体积视频中的参考视点获取的深度和颜色参考数据生成。

在一个实施方案中，该方法包括使用包括在文件中的信息，向服务器请求：

-表示包括颜色和深度参考数据的参考视图的至少一个数据流和，

-表示至少一个选定图集的至少一个数据流，

以及解码表示参考视图的该至少一个数据流和表示该至少一个选定图集的该至少一个数据流。

根据本公开的另一个方面，呈现了一种用于编码体积视频的方法，该方法包括：

-编码表示包括与体积视频中的参考视点相关联(例如从其获取)的颜色和深度参考数据的至少一个参考视图的至少一个数据流，

-编码表示包括与体积视频中的视点相关联(例如从其获取)的颜色和深度数据分块的至少一个图集的至少一个数据流，这些颜色和深度数据分块相对于深度和颜色参考数据生成，

-编码表示包括用于根据体积视频中的渲染视点选择至少一个图集的信息的文件的数据流。

根据本公开的另一个方面，呈现了一种数据流，该数据流表示包括用于根据体积视频的渲染视点选择包括与对应于体积视频中的视点的至少一个虚拟摄像机相关联的颜色和深度数据分块的至少一个图集的信息的文件，这些颜色和深度数据分块相对于与该体积视频中的参考视点相关联的深度和颜色参考数据生成。

根据本公开的另一个方面，呈现了一种用于解码体积视频的装置，该装置包括用于接收表示包括用于根据渲染视点选择包括与体积视频中的视点相关联的颜色和深度数据分块的至少一个图集的信息的文件的数据流的装置，这些颜色和深度数据分块相对于从该体积视频中的参考视点获取的深度和颜色参考数据生成。

根据本公开的另一个方面，呈现了一种用于编码体积视频的装置，该装置包括：

-用于编码表示包括与体积视频中的参考视点相关联的颜色和深度参考数据的至少一个参考视图的至少一个数据流的装置，

-用于编码表示包括与对应于该体积视频中的视点的至少一个虚拟摄像机相关联的颜色和深度数据分块的至少一个图集的至少一个数据流的装置，这些颜色和深度数据分块相对于与体积视频中的参考视点相关联的深度和颜色参考数据生成，

-用于编码表示包括用于根据体积视频中的渲染视点选择至少一个图集的信息的文件的数据流的装置。

根据本公开的另外的方面，呈现了一种计算机程序，该计算机程序包括用于命令执行根据本文所呈现的实施方案中的任何一个实施方案的方法步骤的指令，同时这些指令由处理器处理。

4.附图说明

将更好地理解本公开，并且在阅读以下描述、参考附图的描述之后，将出现其他特定特征和优点，其中：

-图1示出了根据本发明原理的非限制性实施方案的对象的三维(3D)模型和对应于该3D模型的点云的点；

-图2示出了根据本发明原理的非限制性实施方案的对表示3D场景序列的数据进行编码、传输和解码的非限制性示例；

-图3示出了根据本发明原理的非限制性实施方案的可被配置为实现关于图10和图11描述的方法的设备的示例性架构；

-图4示出了根据本发明原理的非限制性实施方案的当通过基于分组的传输协议传输数据时流的语法的实施方案的示例；

-图5示出了根据本发明原理的非限制性实施方案的用于多个视点的分块中的球面投影；

-图6a和图6b示出了根据本发明原理的非限制性实施方案的用于为主要视点(图6a)和虚拟摄像机(图6b)定义的图集的3D场景的点的纹理信息的示例；

-图7a和图7b示出了根据本发明原理的非限制性实施方案的用于为图6a和图6b的主要视点(图7a)和虚拟摄像机(图7b)定义的图集的3D场景的点的深度信息的示例；

-图8示出了根据SoA方法的用于3DoF+单元的4个虚拟摄像机的示例性定位；

-图9示出了根据本公开的实施方案的使用附加的摄像机的多个3DoF+单元方法和动态单元，

-图10示出了根据本公开的实施方案的用于编码体积视频的示例性方法，

-图11示出了根据本公开的实施方案的用于解码体积视频的示例性方法，

-图12示出了根据本公开的实施方案的表示体积视频的示例性数据流，

-图13示出了终端3DoF+单元内的虚拟摄像机的自适应选择的示例。

5.具体实施方式

下文将参考附图更全面地描述本发明原理，在该附图中示出了本发明原理的示例。然而，本发明原理可以许多替代形式体现，并且不应被解释为限制于本文阐述的示例。因此，虽然本发明原理易受各种修改和替代形式的影响，但是其具体示例通过附图中的示例示出，并且本文将详细描述。然而，应当理解，不存在将本发明原理限制为所公开的特定形式的意图，但是相反，本公开用于涵盖落入由权利要求书限定的本发明原理的实质和范围内的所有修改、等同物和替代方案。

本文使用的术语仅出于描述特定示例的目的，并且不旨在限制本发明原理。如本文所用，单数形式“一”、“一个”和“该”也旨在包括复数形式，除非上下文另有明确说明。将会进一步理解，当用于本说明书时，术语“包括”和/或“包含”指定存在所述特征、整数、步骤、操作、元件和/或分量，但不排除一个或多个其他特征、整数、步骤、操作、元件、分量和/或其组的存在或添加。此外，当元件被称为“响应”或“连接”到另一元件时，它可以直接响应或连接到另一元件，或者可以存在中间元件。相反，当元件被称为“直接响应”或“直接连接”到其他元件时，不存在中间元件。如本文所用，术语“和/或”包括列出的相关联项中的一者或多者的任何和所有组合，并且可以缩写为“/”。

应当理解，尽管在本文中可使用术语第一、第二等来描述各种元件，但是这些元件不应受这些术语限制。这些术语仅用于将一个元件与另一元件区分开。例如，在不脱离本发明原理的教导内容的情况下，第一元件可以被称为第二元件，并且类似地，第二元件可以被称为第一元件。

尽管一些图示包括通信路径上的箭头以显示主通信方向，但是应理解，通信可以在与所描绘箭头相反的方向上发生。

关于其中每个框表示电路元件、模块或代码部分的框图和操作流程图描述了一些示例，该代码部分包括用于实现指定逻辑功能的一个或多个可执行指令。还应当指出的是，在其他具体实施中，框中标注的功能可能不按标注的顺序出现。例如，连续显示的两个框实际上可基本上同时执行，或者这些框有时可根据所涉及的功能以相反的顺序执行。

本文中的“根据一个示例”或“在一个示例中”的参考意味着结合示例描述的特定特征、结构或特性可以包括在本发明原理的至少一个具体实施中。说明书中各个地方的“根据一个示例”或“在一个示例中”的短语的出现不一定全部参考同一示例，也不一定是与其他示例相互排斥的单独的或替代的示例。

在权利要求书中出现的附图标号仅通过说明的方式，并且对权利要求书的范围没有限制作用。虽然未明确描述，但本示例和变体可以任何组合或子组合采用。

为了改善渲染的360°视频内容中的沉浸性，可使用所谓的3DoF+方法。根据该3DoF+方法，将数据信息添加到视频数据以允许当在终端上渲染视频时生成视差效果。根据该方法，处理体积输入以生成存储在颜色和深度图集中的颜色和深度分块的组合。获得体积内容的平面表示，使得这些平面表示然后可由传统视频编码器处理。这些分块从3D场景的剥离获得，每个单独的分块由给定虚拟摄像机上的场景的子部分的映射(通常为投影，诸如ERP-等角投影、立方体投影等)产生。此类分解剥离场景并将其分解为：

i)包含从主要中心视点可见的场景的部分的中心分块和

ii)嵌入从该中心视点不可见的互补信息的外围分块。

此类内容可来自真实捕获或可从现有的计算机图形(CG)内容生成。

图8示出了3DoF+方法的示例性实施方式。由于4个虚拟摄像机(Cam 0至Cam 3)(被放置在中心处的Cam 0和四面体的每个顶点处的Cam 1至Cam 3)的引入，中心分块和附加的信息被定义，如图8上所示。中心视点对应于来自Cam 0的视图。由于3个附加的虚拟摄像机Cam 1、Cam 2和Cam 3，复原附加的信息。对应于4个虚拟摄像机的中心和侧向视点和它们相关联的颜色和深度分块表征3DoF+单元。

在一个实施方案中，如果使用ERP映射，则由摄像机Cam 0看到的所有体积数据都会按原样发送，例如通过360°ERP颜色和深度流。然而，也可使用其他种类的映射。如果这些体积数据未由摄像机Cam 0看到，则由摄像机Cam 1至Cam 3看到的所有其他点都经由附加的分块传输。因此，摄像机i(i为[1；3])和摄像机Cam 0之间的距离越大，越多附加的点将为可见的，即视差信息越多，并且因此分块编号将为重要的。

根据当前的3DoF+方法，对于3DoF+单元，来自对应于虚拟摄像机的中心视点和侧向视点的所有颜色和深度分块被发送到终端设备。

因此，该方法限制终端设备根据演变网络吞吐量来优化视差渲染和沉浸效果的能力。它还限制终端设备根据视频内容和与终端设备的用户的行为相关的其他因素来优化视差渲染和沉浸效果的能力。

最后，因为现有方法需要同时将已经针对给定视点生成的所有视差信息系统地发送到终端设备，所以这防止添加可增强内容沉浸和/或延伸单元的尺寸的另外的视差信息，这是由于对保持尽可能低的传输内容数据所需的网络带宽的约束。

因此，根据本公开，向终端设备提供了一种以灵活的方式选择所谓的“侧面”虚拟摄像机的数目和位置的可能性，这些“侧面”虚拟摄像机与传输的颜色和深度图集相关联以允许视差渲染。

根据本公开的原理，给予终端或终端设备以下新的自适应能力：

·当导航到3DoF+内容中时，终端可选择终端将请求的哪些颜色和深度分块(即哪些虚拟摄像机)用于对应于它将在显示器上渲染的视点的3DoF+单元。为了执行该选择，它可基于各种决策标准来实现“智能”策略，这些决策标准可与当前可用的网络吞吐量、终端的特性、最终用户的当前行为的观察、基于由终端收集的使用数据来渲染3DoF+内容的策略等有关。

·为了允许终端部署用于视差渲染的此类智能策略，与存储颜色和深度分块的颜色和深度图集相关联的虚拟摄像机的数目和空间中的位置可在整个视频内容的持续时间内变化；与虚拟摄像机相关联的图集可全部单独并彼此独立地流传输，与现有方法相反。

·终端接收描述与这些新能力相关的各种参数的特定信令信息。该信令信息可在参数变化的频率下(例如在每组图片(GoP)处)更新。此类信令可包括：

ο用于提供用于生成视差的颜色和深度分块的多个虚拟摄像机，

ο这些虚拟摄像机的位置，

ο与每个虚拟摄像机相关联的颜色和深度分块的尺寸的定量信息(根据要传输的数据的体积)，

ο关于与每个虚拟摄像机相关联的颜色和深度分块的特性和可用性的各种信息，这对于终端播放器选择其将从服务器请求颜色和深度分块的虚拟摄像机来说是有用的。

由于提供与多个虚拟摄像机相关联的颜色和深度分块的图集的可能性，其中信令允许该终端从服务器选择和请求这些图集/虚拟摄像机的任何子集/组合，终端播放器可让其处理和渲染视差的能力适应演变可用网络吞吐量。

图1示出了对象的三维(3D)模型10和对应于3D模型10的点云11的点。3D模型10和点云11可例如对应于包括其他对象的3D场景的对象的可能3D表示。模型10可以是3D网格表示，并且点云11的点可以是网格的顶点。点云11的点也可以是分布在网格面的表面上的点。模型10也可表示为点云11的喷溅版本，模型10的表面是通过喷溅点云11的点而创建的。模型10可由诸如体素或样条的许多不同表示来表示。图1示出了可用3D对象的表面表示来定义点云以及可从云点生成3D对象的表面表示的事实。如本文所用，将3D对象的点(引申为3D场景的点)投影到图像上等效于投影该3D对象的任何表示，例如点云、网格、样条模型或体素模型。

点云可在存储器中表示为例如基于矢量的结构，其中每个点在视点的参照系中都有自己的坐标(例如三维坐标XYZ，或立体角和从/到视点的距离(也称为深度))和一个或多个属性，也称为分量。分量的一个示例是可在各种色彩空间中表示的颜色分量，例如RGB(红、绿和蓝)或YUV(Y是亮度分量并且UV是两个色度分量)。点云是3D场景的表示。3D场景可为由视频摄像机捕获的真实场景。可从给定视点或视点范围看到3D场景。点云可通过多种方式获得，例如：

·从由摄像机装备拍摄的真实场景的捕获，任选地辅以深度主动感测设备；

·从由建模工具中的虚拟摄像机装备拍摄的虚拟/合成对象的捕获；

·从真实场景和虚拟场景两者的混合。

在下文中示出了本文所公开的原理的一些益处。这是可从本发明原理得出的所有潜在益处的不完全列表。

终端根据可用网络吞吐量来优化视差效果并因此优化体积沉浸的改进的能力

让我们考虑，在给定时间，服务器中对给定视点的可用的视频内容为对应于参考(中心)虚拟摄像机的颜色和深度图集a₀，以及对应于另外n个附加的侧面虚拟摄像机的n个附加的颜色和深度图集a_i(i＝1,n)的组合，这些颜色和深度图集可被单独选择。

同时传输所有图集(a₀和a₁至a_n)所需的网络吞吐量将是相当高的(针对UHD视频质量，a₀通常可能需要20Mbps并且每个a_i通常可能需要一些Mbp)。在许多情况下，可用于终端的网络吞吐量可能不足以传输所有图集，但可允许传输图集a₀以及图集a_i(i＝1,n)的一些图集。

根据本文所公开的原理，终端可请求图集a₀传输和图集a_i的一些图集，并且因此能够流传输沉浸式3DoF+内容，而对沉浸式3DoF+内容的访问将不可能使用仅可递送全组所有图集的现有解决方案。

如果可用于终端的网络吞吐量减小，则终端可例如停止请求对应于吞吐量减少的水平的附加的图集a_i的子集，最小化其感应的视差信息的损失。

类似地，如果可用于终端的网络吞吐量增加，则终端可请求对应于吞吐量增加的水平的附加的图集a_i的子集，最大化其可导出额外视差信息的附加的益处。

此外，终端可从当前可用的网络吞吐量中，并且使用所传输以表征每个图集a_i的信令信息(元数据)，评估其除了图集a₀外还可承担多少附加的图集a_i的数目/组合，并且可选择根据处理视频内容和/或最终用户位置和导航行为的标准来优化视差和沉浸效果的组合。稍后进一步描述其示例。

如果视频内容被存储在服务器中并且以与各种比特率相关联的各种质量水平向终端提出-即用a₀和a_i(i＝1,n)图集提出了各种质量和比特率水平，正如经由自适应流传输访问的视频内容的情况，终端可以针对其特性优化的方式相对于沉浸质量仲裁图像质量。例如，具有小屏幕的智能手机可能倾向于折中方案，其中该智能手机从服务器请求具有较低图像定义的所有a₀以及a_i(i＝1,n)图集，而具有大屏幕的电视机组可能倾向于折中方案，其中该电视机组从服务器请求具有更好图像定义的a₀以及一些a_i(i＝1,n)图集。

由于提供与多个虚拟摄像机相关联的颜色和深度分块的图集的可能性，其中信令允许终端从服务器选择和请求这些图集/虚拟摄像机的任何子集/组合，终端播放器可让其处理和渲染视差的能力适应演变可用网络吞吐量：

·如果网络吞吐量允许，则可请求对应于所有虚拟摄像机的图集的总体，并且从而能够生成和渲染源内容可提供的最大视差效果；

·当网络吞吐量不足以允许递送所有图集时，终端播放器可请求允许的图集的子集以获得用于网络带宽可承担的视差效果的大部分数据；

·当可用网络带宽增加时，终端播放器可请求附加的图集，并且因此提高视差和沉浸效果；

·当可用带宽增加时，终端播放器仍然可选择与可用带宽兼容的最大数目的图集，并且因此保存尽可能多的视差和沉浸效果。

就根据可用网络带宽(不足以传输所有可用图集的带宽、可用网络带宽在时间上的变型)来最大化视差和沉浸效果而言，上述部分强调了由本公开的原理带来的改进。就视差和沉浸效果中的改进而言，接下来两个部分通过添加可由终端根据场景内容和/或用户导航行为来选择的虚拟摄像机强调了可获得的益处。

基于视频内容，通过在视频内容持续时间期间利用相关联的颜色和深度分块，添加虚拟摄像机来改进视差和沉浸效果

本文所公开的原理允许添加额外虚拟摄像机，以富集可用的视差信息，用于生成改进的视差效果的能力是特别相关的视频内容的期间。例如，当从当前参考视点捕获的场景包括具有部分互相遮挡的位于各种深度处的复杂形状的若干感兴趣区域(人物、动物、物体等)时，添加虚拟摄像机可避免生成伪影，同时保持用户在3DoF+单元中的参考视点周围的移动的相同幅度。

根据本发明原理，允许终端根据可用网络带宽选择附加的图集的数目，可在此类关键内容周期期间增加附加的虚拟摄像机的数目，只要这是有用的，而无需增加递送内容所需的过高的网络带宽，因此不会生成用于内容递送的潜在次要问题。

通过添加具有相关联的颜色和深度分块的虚拟摄像机来改进视差和沉浸效果，以适应可变用户行为

在不给出选择与侧面虚拟摄像机相关联的附加的图集的子集的可能性的现有技术(SoA)方法的情况下，必须在保持传输附加的图集用于视差所需的尽可能低的附加的网络带宽和发送尽可能多的附加的图集以增加视差和沉浸效果之间找到折衷。根据本发明原理，可能添加可改善用于一些特定导航行为的用户体验的任何另外的图集，这些图集仅当可用网络带宽允许时或当由于当前用户行为而更相关时才可由终端选择。例如，可添加附加的虚拟摄像机以放大参考中心视点周围的移动的潜在范围。这可允许：

·当网络带宽允许传输所有图集时，在参考中心视点周围增加用户移动的幅度，

·或者当无法传输全部图集时，相对于参考中心视点，选择最适合最终用户的位置/移动的图集，

·并且在没有伪影的情况下，增加可被容纳的位移速度。

通过添加高数目的虚拟摄像机来大幅度放大单元的尺寸，以允许视点周围的大面积中的视差渲染

通过进一步增加具有相关联的颜色和深度图集的侧面虚拟摄像机的数目，我们可大幅度放大最终用户将能够移动的参考视点周围的区域，同时保持完整的视差渲染。根据所需的网络带宽，没有对可添加的此类侧面虚拟摄像机的数目的强限制，因为所有额外图集都不被系统地传输到末端设备。实际上，仅当终端设备请求它们时，当它们对于最终用户的当前导航行为相关并且当可用网络带宽可提供承担时，它们才被单独递送。

即使当最终用户在渲染场景中导航时快速移动，也提供了一种用于保持良好视差渲染的解决方案。在SoA 3DoF+方法中，放大渲染视差的区域是通过多个3DoF+单元提供的。当用户移开参考中心视点时，保持良好的视差渲染需要切换到相邻单元。与本文所公开的原理相比，可能具有良好的视差渲染的移动的最大速度因此低得多。

图9示出了根据本公开的实施方案的左手侧(a)多单元SoA 3DoF+方法和右手侧(b)附加摄像机的示例性动态使用。在这些所示方法中的每一个方法中，“Cam 0”表示中心摄像机360°的视点，这些中心摄像机用圈出的灰色叉号示出。可看出，根据3DoF+单元方法(图9(a))，表示两个单元，每个单元具有中心摄像机。同时，在动态单元方法中(图9(b))，使用一个中心摄像机。

其他灰色叉号表示具有活动附加摄像机(其提供视差分块)的视点。该活动附加摄像机，这里应当理解为渲染设备可用的附加摄像机。在3DoF+方法的情况下，第二3DoF+单元的所有外围摄像机都可用。这对应于活动单元的外围摄像机，该活动单元为在其中定位用户用于渲染的3DoF+单元(在图9中由灰点示出)。白色叉号表示具有非活动附加摄像机的视点。该非活动附加摄像机，这里应当理解为渲染设备不可用的附加摄像机。

在动态单元的情况下，可看出，根据本文所公开的原理，单元包括活动附加摄像机和非活动附加摄像机。在图9(b)上，根据本发明原理的实施方案，主摄像机对应于被发送到终端的参考视图，活动附加摄像机对应于由终端选择的用于改进渲染的视差的选定的图集。非活动附加摄像机为不由终端选择的并因此不向服务器请求的虚拟摄像机。

在该文档的其余部分中，为了便于理解，我们将使用以下术语和定义：

·C_i将代表3DoF+单元，其包括以下元件和参数：

ο对应于所代表V_i,0的中心参考视点的参考中心虚拟摄像机，具有全球3D笛卡尔坐标系中的坐标(x_i,0、y_i,0、z_i,0)；在单元C_i中生成的中心图集包含从该中心参考视点V_i,0可见的场景的部分。

ο对应于所代表V_i,j(j＝1,n)的外围视点的n侧面虚拟摄像机，具有可为其在全球3D笛卡尔坐标系中的坐标或其在单元的中心视点V_i,0上居中的局部3D笛卡尔坐标系中的相对坐标的坐标(x_i,j、y_i,j、z_i,j)；与每个侧面虚拟摄像机相关联的是嵌入从视点V_i,j可见，从中心视点V_i,0不可见的互补信息的外围图集。

ο我们称图集为与对应于特定视点的虚拟摄像机相关联的整个颜色+深度数据。中心图集A_i,0包含相对于单元C_i的中心参考视点V_i,0的信息，即与参考视图相关联的颜色和深度参考数据。外围图集A_i,j包含相对于单元C_i的外围视点V_i,j的信息，即与外围视点相关联的并且其中已经去除了已从V_i,0可见的点的颜色和深度数据。根据本文所公开的原理，图集可单独并彼此独立地流传输，并且可由终端按需请求。

图5示出了以4个投影中心(即4个虚拟摄像机)为例的分块图集方法。分块图集方法不限于此数目的虚拟摄像机。

3D场景50包括人物。例如，投影中心51是透视相机，并且相机53是正射相机。相机还可以是具有例如球面映射(例如等矩形映射)或立方体映射的全向相机。根据在元数据的投影信息中描述的投影操作，3D场景的3D点被投影到与位于投影中心处的虚拟摄像机相关联的2D平面上。在图5的示例中，根据透视映射将由相机51捕获的点的投影映射到分块52上，并且根据正射映射将由相机53捕获的点的投影映射到分块54上。

投影像素的群集产生多个2D分块，其被打包在矩形图集520、540、550和560中。图集中的每个图集内分块的组织限定了图集布局。在实施方案中，具有相同布局的两个图集：一个用于纹理(即颜色)信息，并且一个用于深度信息。

可看出，根据本文所公开的原理，从虚拟摄像机中的每一个虚拟摄像机获得的2D分块被打包在单独的图集中。换句话说，对于每个虚拟摄像机，颜色和深度信息的一个图集包括针对该摄像机获得的所有分块，或者在颜色和深度信息被打包在单独的图集中的情况下的两个图集。

由同一相机或由两个不同相机捕获的两个分块可包括表示3D场景的相同部分的信息，如例如分块54和56。

打包操作为每个生成的分块产生分块数据。分块数据包括对投影数据的引用(例如，投影数据表中的索引或指向投影数据的指针(即，存储器中或数据流中的地址))和描述图集内分块的位置和尺寸的信息(例如，左上角坐标、尺寸和以像素为单位的宽度)。将分块数据项添加到元数据，以与图集的压缩数据相关联地封装在数据流中。

图2示出了对表示3D场景序列的数据进行编码、传输和解码的非限制性示例。编码格式可例如同时兼容3DoF、3DoF+和6DoF解码。

获得3D场景20序列。如同画面序列是2D视频，3D场景序列是3D(也称为体积)视频。可将3D场景序列提供给体积视频渲染设备以进行3DoF、3DoF+或6DoF渲染和显示。

可将3D场景20序列提供给编码器21。编码器21将一个3D场景或3D场景序列作为输入，并提供表示该输入的比特流。比特流可存储在存储器22中和/或电子数据介质上，并且可通过网络22传输。表示3D场景序列的比特流可由解码器23从存储器22读取和/或从网络22接收。解码器23由比特流输入并提供例如点云格式的3D场景序列。

编码器21可包括实现若干步骤的若干电路。在第一步骤中，编码器21将每个3D场景投影到至少一个2D画面上。3D投影是将三维点映射到二维平面的任何方法。由于用于显示图形数据的大多数当前方法都基于平面(来自几个位平面的像素信息)二维介质，因此这种类型的投影的用途是广泛的，在计算机图形、工程和制图方面尤为如此。投影电路211为3D场景20序列提供至少一个二维帧2111。帧2111包括表示投影到帧2111上的3D场景的颜色信息和深度信息。在变体中，颜色信息和深度信息被编码在两个单独的帧2111和2112中。

元数据212由投影电路211使用和更新。元数据212包括关于投影操作的信息(例如投影参数)以及关于颜色和深度信息在帧2111和2112内的组织方式的信息，如结合图5至图7所述。

视频编码电路213将帧2111和2112序列编码为视频。3D场景的画面2111和2112(或3D场景的画面序列)由视频编码器213编码在流中。然后，视频数据和元数据212由数据封装电路214封装在数据流中。

根据本公开的实施方案，与给定虚拟摄像机相关联的所有颜色和深度分块封装在编码为单独的数据流的图集中。例如，表示包括与参考视点相关联的颜色和深度参考数据的该一个参考视图的数据流被编码，并且分别表示包括与外围虚拟摄像机相关联的颜色和深度数据分块的图集的多个数据流被编码。相对于与参考视点相关联的深度和颜色参考数据生成颜色和深度数据分块。

编码器213例如与诸如以下的编码器兼容：

-JPEG，规范ISO/CEI 10918-1UIT-T Recommendation T.81，https://www.itu.int/rec/T-REC-T.81/en；

-AVC，也称为MPEG-4AVC或h264。在UIT-T H.264和ISO/CEI MPEG-4第10部分(ISO/CEI 14496-10)两者中规定，http://www.itu.int/rec/T-REC-H.264/en，HEVC(其规范见于ITU网站，T recommendation,H series,h265,http://www.itu.int/rec/T-REC-H.265-201612-I/en)；

-3D-HEVC(HEVC的扩展，其规范见于ITU网站，Trecommendation,H series,h265,http://www.itu.int/rec/T-REC-H.265-201612-I/en annex G and I)；

-Google开发的VP9；或者

-由Alliance for Open Media开发的AV1(AOMedia Video 1)。

数据流被存储在可由解码器23例如通过网络22访问的存储器中。

而且，表示包括用于根据渲染视点从该多个图集中选择一个或多个图集的信息的文件的数据流被编码。

在图2上，解码器23包括实现不同的解码步骤的不同电路。解码器23将由编码器21生成的至少一个数据流作为输入，并提供待由如头戴式设备(HMD)的体积视频显示设备渲染和显示的3D场景24序列。根据变体，解码器23也可将要渲染图像提供给显示这些图像的体积视频显示装置。解码器23从源22获得流。例如，源22属于一组，该组包括：

-本地存储器，例如视频存储器或RAM(或随机存取存储器)、闪存存储器、ROM(或只读存储器)、硬盘；

-存储接口，例如具有大容量存储装置、RAM、闪存存储器、ROM、光盘或磁性载体的接口；

-通信接口，例如有线接口(例如总线接口、广域网接口、局域网接口)或无线接口(诸如IEEE 802.11接口或接口或4G/5G接口)；和

-使用户能够输入数据的用户界面，诸如图形用户界面。

解码器23包括电路234，以提取在数据流中编码的数据。电路234将数据流作为输入，并提供对应于在流中编码的元数据212的元数据232和二维视频。视频由提供帧序列的视频解码器233解码。解码帧包括颜色和深度信息。在变体中，视频解码器233提供两个帧序列，一个包含颜色信息，另一个包含深度信息。电路231使用元数据232去投影来自解码帧的颜色和深度信息，以提供3D场景24序列。3D场景24序列对应于3D场景20序列，可能损失与作为2D视频的编码和视频压缩相关的精度。

图3示出了可被配置为实现关于图10和图11描述的方法的设备30的示例性架构。图2的编码器21和/或解码器23可实现该架构。或者，编码器21和/或解码器23中的每个电路可以是根据图3的架构的设备，其例如经由其总线31和/或经由I/O接口36链接在一起。

设备30包括通过数据和地址总线31连接在一起的以下元件：

-微处理器32(或CPU，和/或GPU)，该微处理器是例如DSP(或数字信号处理器)；

-ROM(或只读存储器)33；

-RAM(或随机存取存储器)34；

-存储接口35；

-I/O接口36，该I/O接口用于从应用程序接收要传输的数据；和

-电源，例如电池。

根据一个示例，电源在设备外部。在每个提到的存储器中，说明书中使用的词语“寄存器”可以对应于小容量的区域(一些位)或非常大的区域(例如，整个程序或大量接收或解码的数据)。ROM 33至少包括程序和参数。ROM 33可以根据本发明原理存储用于执行技术的算法和指令。当接通时，CPU 32上载RAM中的程序并执行对应指令。

RAM 34包括寄存器中的由CPU 32执行并在设备30的接通之后上载的程序、寄存器中的输入数据、寄存器中的方法的不同状态中的中间数据以及用于在寄存器中执行方法的其他变量。

本文所述的具体实施可在例如方法或过程、装置、计算机程序产品、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如，仅作为方法或设备讨论)，讨论的特征的具体实施也可以其他形式(例如，程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的装置(诸如，例如处理器)中实施，该装置包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备，诸如例如计算机、手机、便携式/个人数字助理(“PDA”)以及便于最终用户之间信息通信的其他设备。

根据示例，设备30被配置为实现关于图10和图11描述的方法，并且属于包括以下项的集合：

-移动设备；

-通信设备；

-游戏设备；

-平板电脑(或平板计算机)；

-膝上型电脑；

-电视机；

-静态图片相机；

-摄像机；

-编码芯片；

-服务器(例如广播服务器、视频点播服务器或web服务器)。

图4示出了当通过基于分组的传输协议传输数据时流的语法的实施方案的示例。图4示出了例如由关于图2描述的编码器编码的数据流的示例性结构4。该结构包含在以语法的独立元素组织流的容器中。该结构可包括标头部分41，它是流的每个语法元素所共有的一组数据。例如，标头部分包括关于语法元素的一些元数据，描述它们中每一个的性质和角色。标头部分还可包括图2的元数据212的一部分，例如用于将3D场景的点投影到帧2111和2112上的中心视点的坐标。该结构包括有效载荷，该有效载荷包括语法元素42和至少一个语法元素43。语法元素42包括表示颜色和深度帧的数据。图像可能已根据视频压缩方法进行了压缩。

语法元素43是数据流的有效载荷的一部分，并且可包括关于如何对语法元素42的帧进行编码的元数据，例如用于将3D场景的点投影和打包到帧上的参数。此类元数据可与视频的每个帧或帧组(在视频压缩标准中也称为画面组(GoP))相关联。根据本文所公开的实施方案，表示参考视图的数据流和表示与外围虚拟摄像机相关联的图集的数据流可根据图4上所示的语法结构编码。

图6a和图6b示出了根据本发明原理的非限制性实施方案的包括3D场景的点的纹理信息(例如，RGB数据或YUV数据)的参考图集61和外围图集62和63的例示性示例。如结合图5所解释的，图集是将分块打包在一起的图像，分块是通过投影3D场景的一部分点而获得的画面。

在图6a的示例中，图集61包括从参考视点可见的3D场景的点的纹理信息。该纹理信息可例如根据等角投影映射来获得，等角投影映射是球面投影映射的示例。

在图6b的示例中，图集62和63包括与从参考视点可见的部分互补的3D场景的部分的纹理信息。可通过以下方式来获得该纹理信息：从3D场景中移除从主要视点可见的点(其纹理存储在图集61中)并且根据相同的视点来投影剩余的点。因此，图集62和63分别对应于视频中的外围虚拟摄像机的颜色数据。根据本文所公开的原理，视频中的外围虚拟摄像机的颜色和深度数据在单独的比特流中编码。

可迭代地重复投影过程，以每次获得3D场景的隐藏部分。根据变体，可通过以下方式获得第二部分：从3D场景中移除从视点(例如，中心视点)可见的点(其纹理被存储在第一部分中)并且根据不同于第一视点的视点，例如从以中心视点为中心的观看空间(例如，3DoF渲染的观看空间)的一个或多个第二视点来投影剩余的点。

图7a和图7b示出了根据本发明原理的非限制性实施方案的包括图6a和图6b的3D场景的深度信息的参考图集71和外围图集72和73的例示性示例。图集71可被视为对应于图6a的纹理图像61的深度图像，并且图集72和73可被视为分别对应于图6b的纹理图像62和63的深度图像。

图集71包括从中心视点可见的3D场景的点的深度信息。图集71可与图集61相同的方式获得，但包含与3D场景的点相关联的深度信息而不是纹理信息。

在图7b的示例中，图集72和73包括与从参考视点可见的部分互补的并可与用于纹理信息的相同的方式获得的3D场景的部分的深度信息。

对于6DoF渲染，用户可将视点移动到场景中的各处。在这种情况下，需要编码场景的每个点(深度和纹理)，因为可移动他/她的视点的用户可能会访问每个点。在编码阶段处，不存在先验地知道用户将从哪个视点观察3D场景的手段。

对于3DoF+渲染，用户可在围绕中心视点的有限空间内移动视点。这使得能够体验视差。表示从观看空间的任何点可见的场景的部分的数据将被编码到流中，包括表示根据中心视点可见的3D场景的数据(即第一部分61和71)。例如，可在编码步骤处决定和确定观看空间的尺寸和形状，并在比特流中编码。解码器可从比特流获得该信息，并且渲染器将观看空间限制为由所获得的信息确定的空间。根据另一示例，渲染器根据硬件约束，例如与检测用户移动的传感器的能力有关的硬件约束来确定观看空间。在这种情况下，如果在编码阶段处，从渲染器的观看空间内的点可见的点尚未在比特流中被编码，则该点将不被渲染。根据又一示例，表示3D场景的每个点的数据(例如，纹理和/或几何结构)被编码在流中，而不考虑渲染观看空间。为了优化流的尺寸，可仅对场景的点的子组进行编码，例如可根据渲染观看空间看到的点的子组。

图10示出了根据本公开的实施方案的用于编码体积视频的示例性方法。例如，编码方法由关于图2公开的编码器执行。

在步骤E101中，表示包括与体积视频中的参考视点相关联的颜色和深度参考数据的参考视图的至少一个数据流被编码。

在步骤E102中，表示包括与对应于体积视频中的视点的至少一个虚拟摄像机相关联的颜色和深度数据分块的至少一个图集的至少一个数据流被编码。如上所述，相对于与体积视频中的参考视点相关联的深度和颜色参考数据生成颜色和深度数据分块。

在步骤E103中，表示包括用于根据体积视频中的渲染视点选择至少一个图集的信息的文件的数据流被编码。

图12上示出了编码的数据流的示例性结构STR。图12的结构包括表示文件(清单)的数据流和一组视频数据流：H_a_i，i＝0,n。数据流H_a₀对应于表示参考视图的数据流，数据流H_a₁、…、H_a_n分别对应于表示图集的数据流，n为体积视频中的外围虚拟摄像机的数目。应当指出的是，根据本公开的实施方案，n可通过视频的持续时间而变化。

根据本公开，为了渲染体积视频的视点，终端将使用嵌入在清单中的信息，根据其容量、发射带宽等来选择该多个数据流中的数据流。

此类清单描述了管理视频转移到终端的步骤所需的参数。尤其包括在此未描述的其他信息，因为它们对本发明原理的实施方式不是特异性的：

·参考视点V_i,0的列表和它们在全球3D笛卡尔坐标系中的坐标(x_i、y_i、z_i)，每个参考视点V_i,0与所谓的3DoF+单元C_i相关联；

·在视频内容持续时间期间正确管理与为本文所示的原理的对象的视差的自适应负载相关的所有参数的信息。这些参数在下文中被称作“自适应视差参数”。

这些自适应视差参数可为：

·单元中的侧面虚拟摄像机的数目，其与参考单元的参考视点V_i,0生成的颜色和深度图集相关联，该颜色+深度图集可由终端彼此独立地请求；

·对于每个此类侧面虚拟摄像机：

ο对应的视点V_i,j的坐标；

ο表征针对该外围视点V_i,j操作的投影的参数：取向、视场应用于2D纹理上的投影的投影方法(ERP、EDP、正交、针孔等)；

ο定量用于与该虚拟摄像机相关联的颜色+深度图集A_i,j的传输的尺寸(以byte为单位)或所请求的比特率(以bps为单位)的参数；

ο可能是其中将视差通过对应的图集A_i,j的传输最好地提高的一个或若干个主要感兴趣区域的列表；每个感兴趣区域可通过描述其在全球3D空间中的位置的(若干)参数来表征，诸如其平均深度、其深度范围、其垂直和/或水平角扇区等。

ο…

另外，为了允许表示与参考视点或虚拟摄像机相关联的图集的编码的数据流的下载，自适应视差参数包括用于可用数据流中的每一个数据流的统一资源标识符。

根据本公开的实施方案，用于管理“自适应视差参数”的信息可包括在清单中。此类信息可包括：

·对于视频内容的完整持续时间保持不变的参数列表和值；

·针对可在视频内容的过程中改变的参数：对每个此类参数可改变的时间的描述，以参考视频内容本身的时间组织的格式；例如，所谓的侧面虚拟摄像机的数目和/或位置可在每个GoP处或在GoP的每个周期内(半GoP，三分之一GoP等)改变。

自适应视差参数可在视频内容的过程中改变。

因此，根据本公开的实施方案，在编码方法的步骤E104中，更新文件“清单”并将其发送到终端。用包括至少一个值的数据来更新该文件，该至少一个值用于更新在视频内容的过程中已经改变的自适应视差参数中的至少一个自适应视差参数。

根据本公开的实施方案，该清单文件被存储在视频内容转移服务器上，任选地与视频数据流一起存储。

图11示出了根据本公开的实施方案的用于解码体积视频的示例性方法。例如，解码方法由关于图2讨论的解码器或更一般地由终端的播放器执行。

在自适应流传输系统中，终端必须定期从服务器请求传送它需要的数据的下一批文件，以渲染并播放内容的新时间片段。

在步骤E111中，终端接收表示如上所述的清单文件的数据流。此类文件包括用于根据渲染视点选择包括与体积视频中的视点相关联的颜色和深度数据分块的至少一个图集的信息，所述颜色和深度数据分块相对于从体积视频中的参考视点获取的深度和颜色参考数据生成。

根据本公开的实施方案，接收到的信令信息包括用于给定时间片段的视频表示的所有替代版本的列表和对应数据流的统一资源标识符(URI)。

根据本公开，针对每个3DoF+单元C_i，将存在不同的数据流，允许选择除了与中心参考视点V_i,0相关联的图集A_i,0之外所请求的不同颜色+深度图集A_i,j。

另外，根据本公开的实施方案，也可能存在用于所有图集对应于多个比特率的多个质量水平，以提供更多灵活性使图像质量水平和沉浸(视差)质量水平两方面自适应可用网络带宽。根据本实施方案，清单文件的自适应视差参数针对虚拟摄像机和/或参考视点中的至少一者，包括多个统一资源标识符，该统一资源标识符中的每一个统一资源标识符与比特率水平相关联。

在体积视频的渲染期间，终端不断地跟踪用户信息(场景中的用户位置、用户加速度)，从该用户信息可预测新视点以用于下一个时间片段。

在步骤E112中，终端使用清单的信息来选择用于新视点的至少一个图集以用于下一个时间片段。需注意，此处的终端仅选择与外围虚拟摄像机相关联的图集，因为总是需要参考数据以渲染体积视频的视点。

根据本公开的实施方案，此类选择步骤包括确定可用于请求体积视频的下一个时间片段的网络带宽。然后，终端根据包括在文件中的信息并且根据网络带宽确定参考视图和与对应于虚拟摄像机的视点相关联的至少一个图集，以用于渲染体积视频的下一个时间片段。终端考虑可用网络带宽以选择最大数目的可用外围图集。

当运行其算法以选择将从服务器请求的下一个视频表示用于所预测的视点时，终端能够计算当前可用于该目的的网络带宽的估计值。从从服务器接收到的信令了解针对递送参考图集和每个附加的颜色+深度图集A_ij必要的带宽。从那里，可利用可用带宽估计其可承担的中心参考图集A_i0和附加的图集A_ij的可能组合，并且将在它们之间选择组合，将基于可实施的各种策略来请求服务器递送。

根据本公开的实施方案，为了确定参考视图和与视点相关联的至少一个图集，终端可例如根据体积视频中的用户的行为来预测一个或多个未来可能的渲染视点。

此类实施方案考虑了视点相对于参考视点V_i,0的预期位置，以优先化对应于最佳定位的虚拟摄像机的图集，以为视点的中心提供视差。在这种情况下，终端为V_i,0选择主要中心参考摄像机(加上视点V_i,j处的包括用于预期视点的视差信息的所有虚拟摄像机)，并且不选择对于该新视点不相关的先前视点的摄像机。图13中示出了不选择和选择新摄像机的该过程。图13示出了在终端在视频内容的时间t和t+1期间具有3DoF+单元C_i的虚拟摄像机的自适应选择。图13(a)示出了用于t＝1时的时间片段的视点V_i,0、V_i,1、V_i,2处的虚拟摄像机的选择。图13(b)示出了用于t＝1+1时的下一个时间片段的V_i,1处的虚拟摄像机的不选择和视点V_i,0、V_i,2、V_i,3处的虚拟摄像机的选择。

圈出的灰色叉号表示中心摄像机(V_i,0)。灰色叉号表示对应于选定的虚拟摄像机的视图点，并且虚线叉号表示对应于不选择的虚拟摄像机的视图。可看出，从t到t+1，考虑到体积视频上的用户的导航行为(用户的位置由灰点示出)允许针对下一个时间片段t+1选择虚拟摄像机V_i,3，并且不选择虚拟摄像机V_i,1。

根据变体，为了确定参考视图和与视点相关联的至少一个图集，该终端可确定其中将视差通过对应的图集的传输提高的感兴趣区域。在该变体中，终端给与视点的渲染的质量权限。本实施方案考虑到在视差方面通过附加的图集A_ij(例如通过将感兴趣区域从最接近的深度优先化到最远程)最佳处理的感兴趣区域。

当终端已经选择了图集时，在步骤E113中，终端使用包括在清单文件中的信息向内容服务器请求对应的数据流。更具体地，终端请求表示参考视图的数据流和选定的图集的一个或多个数据流。

在步骤E114中，终端解码接收到的数据流以用于向用户渲染视点。

根据本公开的实施方案，一些“自适应视差参数”可在视频内容的过程中改变。例如，3DoF+单元C_i中的侧面虚拟摄像机的数目可改变。

根据本公开的实施方案，在步骤E115中，终端接收表示清单文件的更新数据的数据流，该更新数据包括用于更新可改变的自适应视差参数中的至少一个自适应视差参数的至少一个值。该更新数据包括改变的参数的列表和值。然后，终端因此更新其内部记录，以便当运行其算法时考虑这些改变，以选择与将从服务器请求的侧面虚拟摄像机相关联的颜色+深度图集A_ij。

可根据各种方案传输该更新的数据：

·该更新的数据可作为与内容本身一起传输的元数据嵌入。这进而可以不同的方式实现，诸如嵌入在视频流本身内，或者使用专用轨道部件。

·该更新的数据可通过服务器推送到所有终端。这需要通过播放内容的每个终端打开的一些专用传输信道以接收“自适应视差参数”的推送更新。

·可实现一些事件系统，使得仅当更新可用时，服务器才向所有终端发送“抬头”指示。然后，每个终端有责任对此指示做出反应，并且例如通过XML或JSON文档上的简单HTTP GET，从服务器请求当前的“自适应视差参数”。

这些选项不是相互排斥的，并且部署的系统可支持这些选项中的一个或几个选项，因为使用任何选项都允许发信号通知相同的信息。

这些选项(或其他非描述的选项)间的选择可由性能考虑、所使用的流传输系统的限制或所有客户端考虑是否修改的需求而引导。

本文所述的具体实施可在例如方法或过程、装置、计算机程序产品、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如，仅作为方法或设备讨论)，讨论的特征的具体实施也可以其他形式(例如，程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的装置(诸如，例如处理器)中实施，该装置包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备，诸如例如，智能电话、平板电脑、计算机、移动电话、便携式/个人数字助理(“PDA”)、电视机、HMD以及有利于最终用户之间信息的通信的其他设备。

本文描述的各种过程和特征的具体实施可以体现于各种不同的设备或应用程序中，特别是例如与数据编码、数据解码、视图生成、纹理处理和图像以及相关纹理信息和/或深度信息的其他处理相关联的设备或应用程序。此类设备的示例包括编码器、解码器、处理来自解码器的输出的后处理器、向编码器提供输入的预处理器、视频编码器、视频解码器、视频编解码器、web服务器、机顶盒、膝上型电脑、个人计算机、蜂窝电话、PDA、电视机、HMD和其他通信设备。应当清楚的是，设备可以是移动的，甚至安装在移动车辆中。

另外，方法可以由处理器执行的指令来实现，并且此类指令(和/或由具体实施产生的数据值)可以存储在处理器可读介质上，诸如例如集成电路、软件载体或其他存储设备，诸如例如硬盘、紧凑型磁盘(“CD”)、光盘(诸如例如，DVD，通常称为数字通用光盘或数字视频光盘)、随机存取存储器(“RAM”)或只读存储器(“ROM”)。指令可以形成在处理器可读介质上有形地体现的应用程序。指令可以是例如硬件、固件、软件或组合。指令可以在例如操作系统、单独应用程序或两者的组合中发现。因此，处理器可以被表征为例如被配置为执行过程的设备和包括具有用于执行过程的指令的处理器可读介质(诸如存储设备)的设备。此外，除了或代替指令，处理器可读介质可以存储由具体实施产生的数据值。

对于本领域的技术人员将显而易见的是，具体实施可产生格式化为携带例如可存储或可传输的信息的各种信号。信息可包括例如用于执行方法的指令或由所述具体实施中的一个具体实施产生的数据。例如，信号可以被格式化为作为数据携带用于写入或阅读所描述的实施方案的语法的规则，或作为数据携带由所描述的实施方案写入的实际语法值的数据。此类信号可格式化为例如电磁波(例如，使用频谱的射频部分)或基带信号。格式化可包括例如对数据流进行编码并且使用经编码的数据流调制载体。信号携带的信息可为例如模拟或数字信息。如已知的，信号可通过多种不同的有线或无线链路传输。信号可存储在处理器可读介质上。

已描述了多个具体实施。但应理解的是，可以作出许多修改。例如，可以组合、补充、修改或移除不同具体实施的元件以产生其他具体实施。另外，普通技术人员将理解，其他结构和过程可以被替换为所公开的那些，并且所得具体实施将以至少基本上相同的方式执行至少基本上相同的功能，以实现与所公开的具体实施至少基本相同的结果。因此，本申请考虑了这些和其他具体实施。

Claims

1.一种用于解码体积视频的方法，所述方法包括：

接收(E111)表示信息的数据流，该信息用于根据渲染视点选择包括与所述体积视频中的视点相关联的颜色和深度数据分块的至少一个图集，所述颜色和深度数据分块相对于从所述体积视频中的参考视点获取的深度和颜色参考数据生成，其中所述信息包括自适应视差参数列表，所述自适应视差参数列表包括：

-包括至少一个参考视点的参考视点的列表，以及针对所述参考视点中的每个参考视点：

-3D笛卡尔坐标系中的所述至少一个参考视点的相关联的坐标，和

-允许下载表示与所述参考视点相关联的图集的编码的数据流的至少一个统一资源标识符，

-针对所述列表中的所述参考视点中的每个参考视点，多个虚拟摄像机，所述虚拟摄像机中的每个虚拟摄像机对应于所述体积视频中的视点，

-针对所述虚拟摄像机中的每个虚拟摄像机：

-所述3D笛卡尔坐标系中的对应于所述虚拟摄像机的所述视点的相关联的坐标，和

-允许下载表示与所述虚拟摄像机相关联的图集的编码的数据流的至少一个统一资源标识符。

2.根据权利要求1所述的用于解码体积视频的方法，所述方法还包括：

-使用所述信息，向服务器请求：

-表示包括所述颜色和深度参考数据的参考视图的至少一个数据流和，

-表示至少一个选定图集的至少一个数据流，以及

-解码表示所述参考视图的所述至少一个数据流和表示所述至少一个选定图集的所述至少一个数据流。

3.根据权利要求1或2中任一项所述的用于解码体积视频的方法，其中根据所述体积视频的渲染视点选择至少一个图集，包括：

-确定能够用于请求所述体积视频的下一个时间片段的网络带宽，

-根据所述信息以及根据所述网络带宽，确定参考视图和与对应于虚拟摄像机的视点相关联的至少一个图集，以用于渲染所述体积视频的所述下一个时间片段。

4.根据权利要求1或2中任一项所述的用于解码体积视频的方法，其中根据所述体积视频的渲染视点选择至少一个图集，使用以下中的至少一个：

-预测至少一个未来渲染视点，

-确定感兴趣区域，所述区域的视差随着对应的图集的传输而提高。

5.根据权利要求1或2所述的方法，其中所述自适应视差参数还包括属于由以下各项构成的组的至少一个参数：

-量化表示与虚拟摄像机或参考视点相关联的图集的所述编码的数据流的尺寸的参数，

-定义与虚拟摄像机相关联以用于2D到3D转换的投影的一组参数，

-至少一个感兴趣区域的列表，所述至少一个感兴趣区域的视差随着对应的图集的传输而提高。

6.根据权利要求1或5所述的方法，其中所述信息针对所述自适应视差参数中的至少一个自适应视差参数，还包括对所述至少一个自适应视差参数能够在所述体积视频的渲染期间改变的时间的指示。

7.根据权利要求6所述的方法，其中能够改变的所述至少一个自适应视差参数对应于与参考视点相关联的虚拟摄像机的数量。

8.根据权利要求1或5所述的方法，其中所述自适应视差参数针对所述虚拟摄像机中的至少一个虚拟摄像机和/或所述至少参考视点中的一个参考视点，包括多个统一资源标识符，所述统一资源标识符中的每一个统一资源标识符与比特率水平相关联。

9.根据权利要求1或5所述的用于解码体积视频的方法，所述方法还包括接收表示更新信息的数据流，其中所述更新信息包括用于更新所述自适应视差参数中的至少一个自适应视差参数的至少一个值。

10.一种用于编码体积视频的方法，所述方法包括：

-编码(E101)表示包括从所述体积视频中的参考视点获取的颜色和深度参考数据的至少一个参考视图的至少一个数据流，

-编码(E102)表示包括从所述体积视频中的视点获取的颜色和深度数据分块的至少一个图集的至少一个数据流，所述颜色和深度数据分块相对于深度和颜色参考数据生成，

-编码(E103)包括信息的数据流，该信息用于根据所述体积视频中的渲染视点选择至少一个图集，其中所述信息包括自适应视差参数列表，所述自适应视差参数列表包括：

-针对所述虚拟摄像机中的每个虚拟摄像机：

11.根据权利要求10所述的方法，其中所述自适应视差参数还包括属于由以下各项构成的组的至少一个参数：

12.根据权利要求10所述的方法，其中所述信息针对所述自适应视差参数列表中的至少一个自适应视差参数，还包括对所述至少一个自适应视差参数能够在所述体积视频的渲染期间改变的时间的指示。

13.根据权利要求12所述的方法，其中能够改变的所述至少一个自适应视差参数对应于与参考视点相关联的虚拟摄像机的数量。

14.根据权利要求10所述的方法，其中所述自适应视差参数列表针对所述虚拟摄像机中的至少一个虚拟摄像机和/或所述至少参考视点中的一个参考视点，包括多个统一资源标识符，所述统一资源标识符中的每一个统一资源标识符与比特率水平相关联。

15.根据权利要求10所述的方法，所述方法还包括接收表示所述信息的更新数据的数据流，其中所述更新数据包括用于更新所述自适应视差参数列表中的至少一个自适应视差参数的至少一个值。

16.一种用于解码体积视频的装置，所述装置包括：

-用于接收包括信息的数据流的装置，所述信息用于根据渲染视点选择包括从所述体积视频中的视点获取的颜色和深度数据分块的至少一个图集，所述颜色和深度数据分块相对于从所述体积视频中的参考视点获取的深度和颜色参考数据生成，其中所述信息包括自适应视差参数列表，所述自适应视差参数列表包括：

-针对所述虚拟摄像机中的每个虚拟摄像机：

17.根据权利要求16所述的用于解码体积视频的装置，所述装置还包括：

-用于使用所述信息，向服务器请求的装置：

-表示至少一个选定图集的至少一个数据流，和

-用于解码表示所述参考视图的所述至少一个数据流和表示所述至少一个选定图集的所述至少一个数据流的装置。

18.一种用于编码体积视频的装置，所述装置包括：

-用于编码表示包括从所述体积视频中的参考视点获取的颜色和深度参考数据的至少一个参考视图的至少一个数据流的装置，

-用于编码表示包括从所述体积视频中的视点获取的颜色和深度数据分块的至少一个图集的至少一个数据流的装置，所述颜色和深度数据分块相对于从所述体积视频中的所述参考视点获取的深度和颜色参考数据生成，

-用于编码包括信息的数据流的装置，所述信息用于根据所述体积视频中的渲染视点选择至少一个图集，其中所述信息包括自适应视差参数列表，所述自适应视差参数列表包括：

-针对所述虚拟摄像机中的每个虚拟摄像机：

19.一种处理器可读介质，该介质包括用于命令执行根据权利要求1至15中任一项所述的方法步骤的指令，同时所述指令由处理器处理。