CN112189345A

CN112189345A - 体积式视频格式的方法，装置和流

Info

Publication number: CN112189345A
Application number: CN201980034571.8A
Authority: CN
Inventors: J.弗勒罗; B.丘珀; T.塔皮; F.图多尔
Original assignee: InterDigital VC Holdings Inc
Current assignee: InterDigital VC Holdings Inc
Priority date: 2018-03-30
Filing date: 2019-03-27
Publication date: 2021-01-05
Anticipated expiration: 2039-03-27
Also published as: JP7499182B2; US20210112236A1; RU2020135597A; WO2019191205A1; US11647177B2; US11178383B2; CN112189345B; US20220094903A1; JP2021520101A; EP3547704A1; EP3777222A1

Abstract

编码/解码表示3D场景的数据可以涉及表示纹理的第一数据被编码在第一轨道中并且布置在第一帧的第一图块中，3D场景的一部分与每个第一图块相关联；表示深度的第二数据被编码在一个或多个第二轨道中并且布置第二帧的第二图块中，第二图块的数量大于第一图块的数量，第二图块被分配给每个第一图块，并且补片被布置在第二图块的集合中，其对应于与每个第一图块相关联的3D场景的部分的3D点的组的2D参数化并且包括表示与组的3D点相关联的深度的第二数据；以及指令被编码到第三轨道以提取第一数据和第二数据的部分。

Description

体积式视频格式的方法，装置和流

技术领域

本公开涉及体积式视频内容的领域。还可以在表示体积式内容的数据的编码和/或格式化的背景下，例如用于在诸如移动设备或头戴式显示器的最终用户设备上呈现，理解本公开。

背景技术

本部分旨在向读者介绍本领域的各个方面，其可能与以下描述和/或要求保护的本公开的各个方面有关。认为该讨论有助于向读者提供背景信息，以有助于更好地理解本发明的各个方面。因此，应鉴于此地阅读这些陈述，而不是作为对现有技术的承认。

近来，可用的大视场内容(高达360°)已经增长。用户在诸如头戴式显示器，智能眼镜，PC屏幕，平板电脑，智能手机等之类的沉浸式显示设备上观看内容时，可能无法完全看到这种内容。这意味着在给定的时刻，用户可能只在观看内容的一部分。然而，用户典型可以通过诸如头部移动，鼠标移动，触摸屏，语音等之类的各种方式在内容内导航。一般期望编码和解码该内容。

沉浸式视频(也称为360°平面视频)允许用户通过围绕静止视点旋转其头部来观看自己周围的一切。旋转仅允许3自由度(3DoF)体验。即使3DoF视频足以满足首次全向视频体验(例如使用头戴式显示设备(HMD))，对于例如通过体验视差希望获得更大自由度的观看者来说，3DoF视频也可能很快变得令人沮丧。另外，3DoF也可能引起头晕，因为用户不仅旋转其头部，而且还在三个方向上平移其头部，这些平移在3DoF视频体验中不被再现。

大视场内容尤其可以是三维计算机图形图像场景(3D CGI场景)，点云或沉浸式视频。可以使用许多术语来设计这种沉浸式视频：例如，虚拟现实(VR)，360，全景，4π球面弧度，沉浸式，全向或大视场。

体积式视频(也称为6自由度(6DoF)视频)是3DoF视频的替代。当观看6DoF视频时，除了旋转之外，用户还可以在观看的内容内平移其头部甚至身体，并体验视差甚至体积(volume)。这种视频通过在头部平移期间提供一致的视觉反馈，大大增加了沉浸感觉和景深感知，并防止眩晕。借助专用传感器创建内容，以允许同时记录感兴趣场景的颜色和深度。一套彩色摄像机与摄像测量技术结合使用是执行这种记录的常用方法。

虽然3DoF视频包含从纹理图像的非映射中得到的图像序列(例如根据纬度/经度投影映射或等矩形投影映射编码的球形图像)，但6DoF视频帧嵌入来自若干个视点的信息。可以将它们视为从三维捕获产生的点云的时间序列。取决于观看条件，可以考虑两种体积式视频。第一种(即，完全的6DoF)允许在视频内容内的完全自由的导航，而第二种(也称为3DoF+)将用户的观看空间限制为有限的体积，允许头部的有限平移和视差体验。该第二种的背景是自由导航和就座观众的被动观看条件之间的有价值权衡。

3DoF视频可以在流中被编码为根据选择的投影映射(例如，立方投影映射，金字塔形投影映射或等矩形投影映射)生成的矩形彩色图像序列。这种编码具有利用标准图像和视频处理标准的优点。3DoF+和6DoF视频要求附加数据来编码点云的彩色点的深度。当在流中编码场景时，用于体积式场景的呈现类型(即3DoF或体积式呈现)预先无法知道。迄今为止，对流进行编码用于一种呈现或另一种呈现。缺少这样的流以及相关联的方法和设备：其可以承载表示可以作为3DoF视频或作为体积式视频(3DoF+或6DoF)被立即编码并解码的体积式场景的数据。

此外，例如要传输用于最终用户设备上的呈现的数据量可能非常重要，大大增加了网络带宽的需求。

发明内容

说明书中对“一个实施例”，“实施例”，“示例实施例”，“特定实施例”的引用指示描述的实施例可以包括特定的特征，结构或特性，但是每个实施例不一定都包括特定特征，结构或特征。而且，这种短语不一定指相同的实施例。此外，当结合实施例描述特定的特征，结构或特性时，可以认为，无论是否明确描述，结合其他实施例来影响这种特征，结构或特性在本领域技术人员的知识范围内。

本公开涉及一种编码表示3D场景的数据的方法，该方法包括：

-将表示根据第一视点可见的3D场景的纹理的第一数据编码到至少第一轨道中，第一数据布置在第一帧的多个第一图块中，3D场景的一部分与多个第一图块中的每个第一图块相关联；

-将表示与3D场景的点相关联的深度的第二数据编码到至少第二轨道中，第二数据布置在第二帧的多个第二图块中，其中，第二帧的第二图块的总数量大于第一帧的第一图块的总数量，其中，对于多个第一图块的至少一部分中的每个第一图块：

·将包括多个第二图块中的至少一个第二图块的第二图块的集合分配给多个第一图块的至少一部分中的每个第一图块；

·至少补片的集合被布置在第二图块的集合中，每个补片对应于被包含在与每个第一图块相关联的3D场景的该部分中的3D点的组的二维参数化，并且包括表示与该组的3D点相关联的深度的第二数据；

-将至少一指令编码到至少第三轨道中以便从至少第一轨道和至少第二轨道的至少一部分中提取第一数据和第二数据的至少一部分。

本公开涉及一种被配置为编码表示3D场景的数据的设备，该设备包括与至少一个处理器相关联的存储器，该至少一个处理器被配置为：

本公开涉及一种配置为编码表示3D场景的数据的设备，该设备包括：

-编码器，被配置为将表示根据第一视点可见的3D场景的纹理的第一数据编码到至少第一轨道中，第一数据布置在第一帧的多个第一图块中，3D场景的一部分与多个第一图块中的每个第一图块相关联；

-编码器，被配置为将表示与3D场景的点相关联的深度的第二数据编码到至少第二轨道中，第二数据布置在第二帧的多个第二图块中，其中，第二帧的第二图块的总数量大于第一帧的第一图块的总数量，其中，对于多个第一图块的至少一部分中的每个第一图块：

-编码器，被配置为将至少一指令编码到至少第三轨道中以便从至少第一轨道和至少第二轨道的至少一部分中提取第一数据和第二数据的至少一部分。

-将表示根据第一视点可见的3D场景的纹理的第一数据编码到至少第一轨道中的部件，第一数据布置在第一帧的多个第一图块中，3D场景的一部分与多个第一图块中的每个第一图块相关联；

-将表示与3D场景的点相关联的深度的第二数据编码到至少第二轨道中的部件，第二数据布置在第二帧的多个第二图块中，其中，第二帧的第二图块的总数量大于第一帧的第一图块的总数量，其中，对于多个第一图块的至少一部分中的每个第一图块：

-将至少一指令编码到至少第三轨道中的部件以便从至少第一轨道和至少第二轨道的至少一部分中提取第一数据和第二数据的至少一部分。

根据特定特征，每个补片还包括表示与组的3D点相关联的纹理的第三数据，第三数据被编码到至少第二轨道中。

根据特定特性，将包括至少一个第三图块的第三帧的第三图块的集合分配给每个第一图块，并且将包括表示与组的3D点相关联的纹理的第三数据的至少一补片的集合布置在第三图块的集合中，至少一补片对应于3D点的组的二维参数化，第三数据被编码到至少第三轨道中。

根据另一特定特征，当集合的补片的大小大于将要布置补片的第二图块的大小时，将补片分区为多个子补片，每个子补片具有小于第二图块的大小的大小。

根据另一特定特征，以取决于补片的视觉重要性的优先级顺序排列集合的补片，视觉重要性取决于与补片相关联的第二数据。

根据另一特定特征，第二图块具有对于多个时间上连续的第二帧固定的相同大小。

本公开涉及一种解码表示3D场景的数据的方法，该方法包括：

-从至少第三轨道解码至少一指令以从至少第一轨道和至少第二轨道中提取第一数据和第二数据；

-从至少第一轨道解码第一数据，第一数据表示根据第一视点可见的3D场景的纹理，第一数据布置在第一帧的多个第一图块中，3D场景的一部分与多个第一图块中的每个第一图块相关联；

-从至少第二轨道解码第二数据，第二数据表示与3D场景的点相关联的深度，表示深度的第二数据被包括在布置在第二帧的第二图块的至少一集合中的至少一补片，第二图块的集合被分配给每个第一图块，至少一补片对应于被包括在与每个第一图块相关联的3D场景的至少一部分中的3D点的组的二维参数化，第二数据表示与组的3D点相关联的深度。

本公开涉及一种被配置为解码表示3D场景的数据的设备，该设备包括与至少一个处理器相关联的存储器，该至少一个处理器被配置为：

本公开涉及一种被配置为解码表示3D场景的数据的设备，该设备包括：

-解码器，被配置为从至少第三轨道解码至少一指令以从至少第一轨道和至少第二轨道中提取第一数据和第二数据；

-解码器，被配置为从至少第一轨道解码第一数据，第一数据表示根据第一视点可见的3D场景的纹理，第一数据布置在第一帧的多个第一图块中，3D场景的一部分与多个第一图块中的每个第一图块相关联；

-解码器，被配置为从至少第二轨道解码第二数据，第二数据表示与3D场景的点相关联的深度，表示深度的第二数据被包括在布置在第二帧的第二图块的至少一集合中的至少一补片，第二图块的集合被分配给每个第一图块，至少一补片对应于被包括在与每个第一图块相关联的3D场景的至少一部分中的3D点的组的二维参数化，第二数据表示与组的3D点相关联的深度。

-从至少第三轨道解码至少一指令的部件以从至少第一轨道和至少第二轨道中提取第一数据和第二数据；

-从至少第一轨道解码第一数据的部件，第一数据表示根据第一视点可见的3D场景的纹理，第一数据布置在第一帧的多个第一图块中，3D场景的一部分与多个第一图块中的每个第一图块相关联；

-从至少第二轨道解码第二数据的部件，第二数据表示与3D场景的点相关联的深度，表示深度的第二数据被包括在布置在第二帧的第二图块的至少一集合中的至少一补片，第二图块的集合被分配给每个第一图块，至少一补片对应于被包括在与每个第一图块相关联的3D场景的至少一部分中的3D点的组的二维参数化，第二数据表示与组的3D点相关联的深度。

根据特定特征，还从至少第二轨道解码表示与每个补片中包括的组的3D点相关联的纹理的第三数据。

根据特定特性，还从至少第三轨道解码表示纹理的第三数据，第三数据被布置到第三帧的多个第三图块，第三图块的集合包括被分配给每个第一图块的至少一个第三图块，包括与组的3D点相关联的第三数据的至少一补片的集合被布置在第三图块的集合中，该至少一补片对应于3D点的组的二维参数化。

根据另一个特征，根据第一数据和第二数据来呈现3D场景的至少一部分。

本公开还涉及一种比特流，其承载表示3D场景的数据，该数据包括：在至少第一语法元素中的表示根据第一视点可见的3D场景的纹理的第一数据，第一数据与第一帧的多个第一图块相关联，3D场景的一部分与多个第一图块中的每个第一图块相关联；在至少第二语法元素中的表示与3D场景的点相关联的深度的第二数据，第二数据与第二帧的多个第二图块相关联，第二帧的第二图块的总数量大于第一帧的第一图块的总数量，包括至少一个第二图块的第二图块的集合被分配给每个第一图块，至少一补片的集合布置在第二图块的集合中，每个补片对应于被包括在与每个第一图块相关联的3D场景的一部分中的3D点的组的二维参数化并且包括表示与组的3D点相关联的深度的第二数据；比特流还承载在至少第三语法元素中的至少一指令以便提取第一数据和第二数据的至少一部分。

本公开还涉及一种包括程序代码指令的计算机程序产品，当在计算机上执行该程序时，该程序代码指令执行对表示3D场景的数据的编码或解码方法的步骤。

本公开还涉及一种(非暂时性)处理器可读介质，存储有用于使处理器至少执行上述编码或解码表示3D场景的数据的方法的指令。

附图说明

一旦阅读以下描述，将更好地理解本公开，并且将出现其他特定特征和优点，该描述参考了附图，其中：

-图1示出根据本原理的非限制性实施例的表示三维场景的图像，该三维场景包括若干个对象的表面表示；

-图2例示根据本原理的非限制性实施例的图1的场景上的视点的示例布置以及从该布置的不同视点的该场景的可见点；

-图3例示根据本原理的非限制性实施例，通过根据图2的视点示出图1的场景的不同视图来示出视差体验；

-图4示出根据本原理的非限制性实施例的根据等矩形投影映射从图2的观点可见的图1的场景的点的纹理图像；

-图5示出根据本原理的非限制性实施例的用立体投影映射表示的与图4中场景的相同点的图像；

-图6示出根据本原理的非限制性实施例的根据图2的观点的图1的3D场景的深度图像(也称为深度图)；

-图7示出根据本原理的非限制性实施例的图1的3D场景的对象的三维(3D)模型以及与3D模型对应的点云的点；

-图8示出根据本原理的非限制性实施例的被分区成多个图块(tile)的图4的图像。

-图9示出根据本原理的非限制性实施例的与图4的图像的一个图块相关联的图1的3D场景的一部分的2D参数化；

-图10示出根据本原理的非限制性实施例的图9例示的场景的一部分的角度观察扇区的二维视图；

-图11示出根据本原理的非限制性实施例的通过与图8的图块相关联的场景的部分的2D参数化而获得的3D场景的补片的组的示例；

-图12示出根据本原理的非限制性实施例的以同时3DoF呈现兼容和3DoF+呈现兼容的格式的3D场景序列的编码，传输和解码的示例；

-图13示出根据本原理的非限制性实施例的图11的补片在帧的图块内的布置的示例；

-图14示出根据本原理的非限制性实施例的用于将图11的补片布置在图13的平铺帧中的处理的示例；

-图15示出根据本原理的非限制性实施例的从图13的平铺帧的图块获得的第四帧的示例；

-图16示出根据本原理的非限制性实施例的承载表示图1的3D场景的信息和数据的比特流的语法的示例；

-图17示出根据本原理的非限制性实施例的编码图1的3D场景的处理的示例；

-图18示出根据本原理的非限制性实施例的解码图1的3D场景的处理的示例；

-图19示出根据本原理的非限制性实施例的设备的示例架构，该设备可以被配置为实现关于图14、17、18、20和/或21描述的方法或处理；

-图20例示根据本原理的非限制性实施例的例如在图19的设备中实现的，用于编码表示图1的3D场景的数据的方法的示例；

-图21例示根据本原理的非限制性实施例的例如在图19的设备中实现的用于解码表示图1的3D场景的数据的方法。

具体实施方式

现在参考附图描述主题，其中，贯穿全文，相似的参考标号用于指代相似的元件。在下面的描述中，出于解释的目的，阐述了许多具体细节以便提供对主题的透彻理解。然而，明显的是，可以在没有这些具体细节的情况下实践主题实施例。

本说明书例示本公开的原理。因此，将认识到，本领域技术人员将能够设想出尽管未在本文中明确描述或示出但体现本公开原理的各种布置。

根据本公开的非限制性实施例，公开了例如在一个或多个帧中，在容器中和/或在比特流中编码体积式视频(也称为3DoF+或6DoF视频)的图像的方法和设备。还公开了用于从流和/或帧中解码体积式视频的图像的方法和设备。还公开了用于体积式视频的一个或多个图像/帧的编码的比特流的语法的示例。

根据非限制性方面，将参考将表示3D场景的数据(以体积式内容表示，也称为沉浸式视频)编码到容器和/或比特流中的一个或者多个帧的方法(以及被配置的设备)的第一特定实施例来描述本原理。

为了达到该目的，将表示根据第一视点可见的3D场景的纹理(例如，与3D场景的元素，例如点相关联的颜色信息)的第一数据编码到至少与第一帧的第一图块的一部分相关联的一个或多个第一轨道。第一数据对应于场景的3DoF视图/图像的纹理信息，即，根据仅具有纹理且没有几何形状(即，深度或3D信息)的中心视点的场景的视图，即3D场景的“平坦”视图/图像。第一帧被分区为多个第一图块(对应于该帧的子区域的图块，并且例如在HEVC标准(高效视频编码)中或在谷歌的VP9中以(多个)不同的首字母缩写来定义)，3D场景的一部分与第一帧的每个第一图块相关联。

第二帧被分区为多个第二图块，第二图块的总数量大于第一帧的第一图块的总数量。对于第一图块的至少一部分，一组第二图块被分配给每个第一图块。关于每个第一图块，与每个第一图块对应的3D场景的部分的补片被布置在分配的第二图块中。补片对应于场景的3D部分的二维(2D)参数化，并且至少包括表示该3D部分中包括的至少一些点的深度的第二数据。

第二数据被编码在与第二图块相关联的一个或多个第二轨道中。

适配于提取第一数据的至少一部分(从第一轨道的至少一部分)和第二数据的至少一部分(从第二轨道的至少一部分)的指令被编码到一个或多个第三轨道。

3D场景的3D部分的2D参数化对应于3D部分的2D表示(例如，包括在3D部分中的3D场景的点)。如将在说明书中更详细地说明，可以以各种方式获得2D参数化。

帧对应于图像(例如，形成视频的时间上连续的静止图像的序列)，并且对应于像素的阵列，与该帧的像素相关联的属性(例如，深度信息和/或纹理信息)。

关于本原理的非限制性方面，还描述了解码表示3D场景的数据的对应方法(以及配置的设备)。

图1示出了表示包括若干个对象的表面表示的三维(3D)场景10的图像。可以使用任何合适的技术来获取场景。例如，它可能已经使用计算机图形界面(CGI)工具创建。它可能已经用彩色和深度图像采集设备获取。在这种情况下，不能如关于图2描述的那样在场景中表示从获取设备(例如，相机)中看不见的对象的一个或多个部分是可能的。图1中例示的示例场景包括房屋，两个人物和井。立方体11例示用户可能从中观察3D场景的视图的空间。视图的空间11例如以第一视点为中心。3D场景(或其一部分)例如可以由根据第一视点表示3D场景并使用户(例如，佩戴HMD)能够根据3个自由度(3Dof)浏览场景(即，绕着滚动，偏航和俯仰轴旋转)的平面图像(或平面视频，也称为全向图像/视频)来表示。除了纹理数据的第一视点之外，可以用与从立方体11的视点观看的3D场景的部分相关联的附加数据(除了平面图像的纹理/颜色数据)来表示3D场景(或3D场景的其他部分)。附加数据可以例如包括以下信息之一或任意组合：

-与从第一视点观看的3D场景的点相关的深度信息；

-与从立方体11的视点但除第一视点以外观看的3D场景的部分相关联的深度信息；

-与从立方体11的视点但除第一视点以外观看的3D场景的部分相关联的纹理信息(也称为颜色信息)。

附加数据与平面视频相结合使得3DoF+和/或6DoF能够浏览到3D场景的表示。

图2示出场景，例如图1的3D场景10上的视点的示例布置。图2还示出从/根据该布置的不同视点可见的该3D场景10的点。为了由沉浸式呈现设备(例如，cave或头戴式显示设备(HMD))呈现和显示，从第一视点(也称为第一视点)，例如第一视点20，考虑3D场景。从第一视点20可以看见与第一人物的右肘对应的场景的点21，因为在第一视点20和场景点21之间没有任何不透明的对象。相反，例如对应于第二人物的左肘的3D场景10的点22从第一观点20是不可见的，因为它被第一人物的点所遮挡。

对于3DoF呈现，仅考虑一个视点，例如第一视点20。用户可以围绕第一视点以三个自由度旋转其头部以观看3D场景的各个部分，但是用户不能移动第一视点。流中要编码的场景的点是从该第一视点可见的点。因为用户不能通过移动该第一视点来访问从第一视点不可见的场景的点，所以无需编码它们。

关于6DoF呈现，用户可以将视点移动到场景中的每个地方。在这种情况下，在内容比特流中对场景的每个点编码是很有价值的，因为每个点都可以由可以移动他/她的视点的用户访问。在编码阶段，没有先验的方式可以知道用户将从哪个视点观察3D场景10。

关于3DoF+呈现，用户可以在有限的空间内围绕视点，例如围绕第一视点20移动视点。例如，用户可以在以第一视点20为中心的立方体11内移动其视点。这使得能够体验到如图3所示的视差。表示从视图的空间(例如立方体11)的任何点可见的场景的部分的数据被编码到流中，包括表示根据第一视点20可见的3D场景的数据。例如，视图的空间的大小和形状例如可以在编码步骤决定和确定，并在比特流中编码。解码器可以从比特流中获得该信息，并且呈现器将视图的空间限制为由获得的信息确定的空间。根据另一示例，呈现器根据例如与检测用户的运动的(多个)传感器的能力有关的硬件约束来确定视图的空间。在这种情况下，如果在编码阶段从呈现器的视图的空间内的点可见的点尚未在比特流中编码，则将不呈现该点。根据另一示例，表示3D场景的每个点的数据(例如，纹理和/或几何)在流中被编码，而无需考虑视图的呈现空间。为了优化流的大小，可以仅编码场景的点的子集合，例如可以根据视图的呈现空间看见的点的子集合。

图3例示体积式(即3DoF+和6DoF)呈现所允许的视差体验。图3B例示用户可以从图2的第一视点20看见的场景的部分。从该第一视点20，两个人物处于给定的空间配置中，例如，第二个人物的左肘(具有白色衬衫)隐藏在第一人物的身体中，而他的头部可见。当用户围绕着第一视点20根据三个自由度旋转他/她的头部时，该配置不改变。如果视点固定，则第二人物的左肘不可见。图3A例示从位于图2的视图的空间11的左侧的视点看见的场景的相同部分。从这种视点来看，由于视差效应，图2的点22是可见的。因此，对于体积式呈现，应将点22编码到流中。如果未编码，则将不呈现该点22。图3C例示从位于图3的视图空间11的右侧的视点观察到的场景的相同部分。从这个视点来看，第二人物几乎被第一人物完全隐藏。

通过在3D场景内移动视点，用户可以体验视差效果。

图4示出包括从图2的第一视点20可见的3D场景10的点的纹理信息(例如，RGB数据或YUV数据)的纹理图像40(也称为彩色图像)，该纹理信息根据等矩形投影映射获得。等矩形投影映射是球形投影映射的示例。

图5示出根据立方体投影映射获得或编码的3D场景的点的图像50。有不同的立方体投影映射。例如，立方体的各个面可以在图5的图像50中不同地布置和/或各个面可以以另一种方式取向。

例如根据压缩标准或例如根据标准选项来选择用于获得/编码从确定的视点可见的场景的点的投影映射。本领域技术人员已知，可以将通过例如根据投影映射的点云的投影而获得的图像转换为根据不同的投影映射的相同点云的等效图像。但是，这种转换可能意味着投影分辨率的一些损失。

图4和5以灰色阴影示出。自然可以理解，它们是例如RGB或YUV中纹理(彩色)图像(编码场景的点的纹理(颜色))的示例。图像40和50均包括3D场景的3DoF呈现所需的数据。接收在语法的第一元素中包括的图像(例如，图4和/或图5的图像40和/或50)的比特流或数据流的解码器使用与用于图像的编码的方法相关的方法来解码图像。可以根据标准图像和视频压缩方法以及用于图像和视频传输的标准格式(例如，MPEG-2，H.264或HEVC)编码流。解码器可以将解码的图像(或图像的序列)传输到3DoF呈现器或模块，例如用于重新格式化。3DoF呈现器将首先从投影表面(例如，图4的ERP图像40的球体或图5的图像50的立方体)对解码图像进行解投影，并且然后生成由观看最终用户设备请求的矩形视口。在变型中，呈现器在投影图像之前根据另一个不同的投影映射来转换该图像。

当图像根据投影映射编码3D场景的点时，图像与3DoF呈现兼容。场景可以包含360°的点。通常用于编码与3DoF呈现兼容的图像的投影映射例如在球形映射中：等矩形投影；经度/纬度投影；或立方投影映射或金字塔投影映射的不同布局。

图6示出根据第一视点20的3D场景10的深度图像(也称为深度图)。深度信息对于体积式呈现是必需的。在图6的图像的编码示例中，像素越暗，从视点投影到该像素的点越近。例如，深度可以被编码在十二个比特上，即，深度由0和2^12-1(＝4095)之间的整数表示。例如，如果最近的点位于距确定的视点1米处，而最远的点位于距确定的视点25米处，则深度的线性编码将以0.586厘米的步长(＝(2500-100)/4096)执行。深度也可以根据对数标度被编码，因为远离视点的点的深度值不精确度不如靠近视点的点的深度值不精确度重要。在图6的示例实施例中，根据与用于编码图5的彩色图的投影映射相同的投影映射，在深度图中将从视点可见的场景的点的深度编码在深度图中。在另一个实施例中，深度可以根据不同的投影映射被编码。呈现器将深度图和/或彩色图像转换为这些数据中编码的场景的去投影点。

图7示出对象70的三维(3D)模型以及与3D模型70对应的点云71的点。模型70可以是3D网格表示，并且点云71的点可以是网格的顶点。点云71的点也可以是分散在网格的面的表面上的点。模型70也可以表示为点云71的喷洒版本，通过喷洒点云71的点来创建模型70的表面。模型70可以由很多不同的表示(诸如，体素或样条)表示。图7例示以下事实：可以用3D对象的表面表示来定义点云，并且可以从云的点生成3D对象的表面表示。如本文使用，将3D对象的点(通过3D场景的扩展点)投影到图像上等同于投影该3D对象的任何图像表示以创建对象。

点云可被视为基于矢量的结构，其中每个点具有其坐标(例如，三维坐标XYZ或距给定视点的深度/距离)和一个或多个属性(也称为分量)。分量的示例是可以在各种颜色空间中表达的颜色分量，例如RGB(红色，绿色和蓝色)或YUV(Y是亮度分量，而UV是两个色度分量)。点云是从给定视点或视点的范围看到的对象的表示。点云可以通过多种方式获得，例如：

·通过捕获由一套相机拍摄的真实对象，可选地由深度有源感测设备补充；

·通过在建模工具中捕获由一套虚拟相机拍摄的虚拟/合成对象；

·通过真实和虚拟对象的混合。

3D场景的体积式部分可以例如用一个或若干个点云(诸如，点云71)表示。

图8示出根据本原理的非限制性实施例的图像40的平铺(在下文中也称为第一帧40)。第一帧40对应于3D场景的大视场(达到360°)平面表示，即，仅具有纹理(颜色)信息而没有深度的2D表示。大视场内容(也称为全向内容)是具有典型大于最终用户设备的视口的视场的内容，即，仅第一帧40的子部分被一次显示在最终用户设备上。第一帧40被分区成多个子部分或子区域81至88，其例如可以对应于HEVC，VP9或AV1(由开放媒体联盟开发)的意义上的图块。例如，可以通过使用运动受限的HEVC平铺(MCTS)来获得图块。

根据非限制性示例，将第一帧(在执行等矩形(ERP)投影之后)划分为8个HEVC图块81至88。HEVC图块对应于非重叠矩形区域，其包含整数数量的CTU(编码树单元，CTU对应于例如大小为64x64的最大编码块)，并以行和列的大小固定或可变(例如，HEVC的Main 10配置文件级别5.1设置了图块行和列的最大数量为11×10)的网格模式被组织。第一帧内容可以例如使用运动受限图块集合(MCTS)以一个或若干个分辨率被编码，即，没有来自其他图块的其他预测。可以将每个编码的MCTS序列封装存储在例如ISOBMFF(ISO基本媒体文件格式)容器内的单独的图块轨道中。图块的数量不限于8，而是可以是任何整数，例如，如果基于HEVC Main 10配置文件级别5.1，则大于或等于2且小于110(11x10)。

3D场景的不同3D部分或3D分区与第一帧40的每个图块T1 81，T2 82，T3 83，T484，T5 85，T6 86，T7 87和T8 88相关联(更详细说明关于图10解释)，第一帧的确定的图块的视频内容对应于与该确定的图块相关联的3D场景的3D部分的投影结果。

图9示出根据本原理的非限制性实施例的与第一帧的一个图块T6 86相关联的3D场景的3D部分的2D参数化。可以将相同的处理应用于与第一帧40的图块T1，T2，T3，T4，T5，T7和T8相关联的3D场景的每个3D部分。

与图块T6 86相关联的3D场景的3D部分中包括的3D场景的点可以被分组以形成点的一个或多个组，属于相同组的点具有例如被包括在确定深度范围的深度信息(即，相同组的点在深度上是一致的)。视图的空间(例如，立方体)11中包括的视点的范围例如被离散为多个视点(例如5、10或20个视点)。根据另一示例，通过限定以第一视点20为中心的四面体，从视图空间11获得多个视点，除了第一视点20之外，四面体的四个顶点每个还限定多个视点的视点。通过考虑来自多个视点的每个视点的3D部分，将与图块T6 86相关联的3D场景的3D部分的点进行分组。为了避免同一点属于多个组，可以首先完成对第一视点的分组，并且针对根据另一视点的下一个分组不考虑已经根据第一视点分组的点。点的组的示例在图9中示出，例如组91至95，每组包括例如具有一致深度的点，例如，组94包括具有深度包括在2m和2.5m之间的点(与第一视点的距离)，组95包括具有深度被包括在3.2m和3.9m之间的点，组93包括具有深度被包括在3.9m到10m之间的点。

对于点的每个组，生成补片，补片对应于点的组的2D参数化。例如，从点的组94生成补片904。生成3D部分的点的每个组的一个或多个补片以二维地(即，根据2D参数化)表示点的每个组。可以为点的每个组91、92、93、94和95获得一个或多个2D参数化。2D参数化可以从点的一个组到另一组而变化。根据变型，与点的所有组相关联的所有2D参数化是相同类型，例如。线性透视投影或正投影。根据变型，不同的2D参数化可以用于点的相同组。

与点的一个给定组关联的2D参数化，例如组94对应于点云的给定3D点组的二维浏览，从而允许采样给定3D点组，即，该给定3D点组的内容(即，(各个)点)的2D表示包括多个样本(可以对应于补片图像的像素)，其数量取决于应用的采样步长。2D参数化可以用参数的集合来表示，并且可以通过多种方式获得，例如，通过实施以下任何一种方法：

-点云的点的组中的点在与视点关联的球体上的等矩形投影(ERP)，表示ERP投影的参数包括球体的位置，其取向和空间采样步长；

-点云的点的组中的点在与视点相关联的平面上的线性透视投影，表示线性透视投影的参数包括虚拟相机的位置，焦距，空间采样步长和二维视场；

-点云的点的组中的点在表面上的正投影，表示正投影的参数包括投影表面的几何(形状，大小和取向)和空间采样步长；

-与降维的数学运算对应的LLE(局部线性嵌入)，这里应用于从3D到2D的转换/变换，表示LLE的参数包括变换系数。

每个补片有利地具有矩形形状以简化打包处理，这将在下文中解释。每个补片可以包括通过相关联的点的组的点的投影/2D参数化获得的几何信息。几何信息可以对应于深度信息或关于网格元素的顶点的位置的信息。补片可以还包括与相关联的点的组中的点相关联的纹理信息，除非当从自第一视点可见的点获得补片时。对于从第一视点可见的点，可以从第一帧40获得纹理信息。根据变型，在需要时，生成仅包括几何信息的几何补片，并且还生成仅包括纹理信息的纹理补片。

可以生成将每个2D参数化与其相关联的补片链接起来的映射信息。可以生成映射信息以保持2D参数化与向其中布置补片的帧中的相关联的几何补片和纹理补片之间的连接。映射信息可以例如具有以下形式：

{2D参数化的参数；几何补片ID；纹理补片ID}

其中，几何补片ID可以为整数值或者包括以下的一对值：被布置的所述几何补片所属的帧的列索引U和行索引V；纹理补片ID可以是整数值或包括以下的一对值：该纹理补片的列索引U’和行索引V’，该纹理补片属于该补片所属的(多个)帧(或者(多个)帧的图块)的补片矩阵。

为每个2D参数化以及相关联的几何补片和纹理补片生成相同的映射信息。这种映射信息使得能够通过建立2D参数化与对应几何补片和纹理补片的相关性来重构3D场景的对应部分。如果2D参数化是投影，则可以通过对相关联的几何补片中包括的几何信息和相关联的纹理补片中的纹理信息进解投影(执行逆投影)来重构3D场景的对应部分。然后，映射信息对应于映射信息列表：

{二维参数化的参数；几何和纹理补片ID}_i，

i＝1到n，n为2D参数化的数量。

图10示出根据本原理的非限制性实施例的对应于与第一帧40的图块T6 86相关联的3D场景的3D部分的角度观看扇区的二维视图。

如关于图8解释，每个第一图块T1 81至T8 88与3D场景的3D部分相关联。当通过等矩形或立方图投影映射获得第一帧40时，与给定的第一图块T相关联的3D部分(在图8的非限制性示例中，T∈[1,8])对应于从第一视点的视角范围101，其可以定义为

可以从3D部分获得许多3D补片，以通过3D补片的2D参数化来生成补片，诸如补片904。3D补片对应于3D部分的子集合，即，对应于关于图9解释的获得的点的组。3D补片102可以例如利用视角和距所确定的视点(第一视点20或从视图的空间11离散化获得的任何视点)距离的范围来定义。3D补片102例如以

定义，其中

对应于与视角对应的角度范围，并且([ρ₁,ρ₂])对应于距离的范围。在定义3D补片(或点的组)时，可以应用一个或多个约束。例如，必须包含与3D补片相关联的球面范围

或必须适合第一帧中定义的第一图块T686的视角范围

以避免相同的3D补片跨越第一帧的两个不同的第一图块(或在与两个不同图块相关联的两个不同的视角范围上等效)。如关于图9解释，通过3D补片102的点的2D参数化来获得包括深度信息和/或纹理信息的补片904。如关于图9解释，可以生成与3D补片102相关联的几何补片904，并且还可以生成与3D补片102相关联的纹理几何补片。当从第一视点20观看/定义3D补片102时，补片904仅包括几何信息，可以从第一帧40取得纹理信息。

图11示出根据本原理的非限制性实施例的通过与第一帧40的第一图块相关联的场景的3D部分的3D补片的2D参数化获得的补片的组的示例。

图11例示通过与第一帧40的一些第一图块相关联的场景的部分中包括的点的组的2D参数化获得的一些补片的组。图11示出例如与第一帧40的第一图块T1 81相关联的补片的组S1，与第一帧40的第一图块T3 83相关联的补片的组S3，与第一帧40的第一图块T585相关联的补片的组S5，与第一帧40的第一图块T6 86相关联的补片的组S8和与第一帧40的第一图块T8 88相关联的补片的组S8。即使未例示，也可以从分别与第一图块T2 82，T484和T7 87相关联的场景的3D部分中的内容中获得补片的组S2，S4和S7。

补片的组可以包括其中包含深度信息和纹理信息的补片。根据变型，补片的组可以包括其中仅包括深度信息或仅包括纹理信息的补片。当补片的组包括其中仅包括深度信息(分别纹理信息)的补片时，可以生成包括补片仅包括纹理信息(分别深度信息)的补片的对应组。根据后一种变型，组(例如，与第一图块T1相关联的组S1)中包括的深度补片的数量可以与对应组(例如，与和组S1相同的第一图块T1相关联的组S1’，未示出)中包括的纹理补片的数量不同(例如大于)。

组中包含的补片的数量可能在组之间变化。例如，组S1中包括的补片的数量大于组S5和S8中包括的补片的数量，但小于组S3和S6中包括的补片的数量。组(例如，组S1)中包括的补片的数量可以取决于与所述组(例如，第一图块T1)相关联的第一图块相关联的场景的3D部分的内容。补片的数量可以例如取决于对应于与补片的组(例如，S1)相关联的第一图块(例如，第一图块T1)的场景的3D部分中包括的深度一致的点的组的数量。

根据变型，每组补片中补片的数量相同。补片的数量可以是用户定义的值，或者在配置为生成补片和补片的组的设备中存储的默认值。

图12示出以同时兼容3DoF和3DoF+呈现的格式表示3D场景的数据的编码，传输和解码的非限制性示例。

3D场景120(或3D场景的序列)由编码器121在流122中编码。流122包括语法的第一元素，其承载表示用于3DoF呈现的3D场景的数据(图8的第一图像40的数据)，和语法的至少第二元素，其承载表示用于3DoF+呈现的3D场景的数据(例如，图13的一个或多个第二/第三图像130的数据和/或图15的一个或多个第四图像151、152的数据)。

编码器121例如与诸如以下的编码器兼容：

·HEVC(其规范在ITU网站上找到，T推荐书，H系列，h265，http：//www.itu.int/ rec/T-REC-H.265-201612-I/en)；

·3D-HEVC(HEVC的扩展，其规范在ITU网站上找到，T推荐书，H系列，h265，http：//www.itu.int/rec/T-REC-H.265-201612-I/en annex G and I)；

·由Google开发的VP9；或者

·开放媒体联盟开发的AV1(AOMedia视频1)。

解码器123从源获得流122。例如，源属于包含以下内容的集合：

-本地存储器，例如视频存储器或RAM(或随机存取存储器)，闪存，ROM(或只读存储器)，硬盘；

-存储接口，例如与大容量存储器，RAM，闪存，ROM，光盘或磁性载体的接口；

-通信接口，例如，有线接口(例如，总线接口，广域网接口，局域网接口)或无线接口(诸如，IEEE 802.11接口或

接口)；和

-用户界面，诸如，使用户能够输入数据的图形用户界面。

解码器123解码流122的语法的第一元素用于3DoF呈现124。对于3DoF+呈现125，解码器解码流122的语法的第一元素和语法的第二元素。

解码器123与编码器121兼容，例如与诸如以下的解码器兼容：

·HEVC；

·3D-HEVC(HEVC的扩展)；

·VP9；或者

·AV1。

图13示出根据本原理的非限制性实施例的包括在第二帧130的第二图块130₁至130₃₂内的图11的补片组中的补片的布置的示例。

第二帧130被划分为多个第二图块130₁至130₃₂，例如在图13的非限制性示例中为32个第二图块。第二图块的数量不限于32，并且可以是任何数量，只要第二图块的数量大于第一图像40的第一图块的数量。至于第一图块，每个第二图块130₁至130₃₂的大小(例如，高度和宽度)使得第二图块可以包含CTU(编码树单元，CTU对应于最大编码块，例如大小为64x64)的整数数量(大于或等于1)。第二图块130₁至130₃₂以网格模式组织，行和列是固定的或可变大小(例如，HEVC的Main 10配置文件级别5.1将图块行和列的最大数量设置为11×10)。

第二图块130₁至130₃₂与第一区块T1至T8相关联，一个或多个第二图块被分配给每个第一区块。例如，可以将2个第二图块(例如，第二图块130₁至130₂)分配给第一图块T1，可以将4个第二图块(例如，第二图块130₃至130₆)分配给第一图块T2，可以将5个第二图块(例如，第二图块130₇至130₁₁)分配给第一图块T3，可以将5个第二图块(例如，第二图块130₁₂至130₁₆)分配给第一图块T4，可以将3个第二图块(例如，第二图块130₁₇至130₁₉)分配给第一图块T5，可以将5个第二图块(例如，第二图块130₂₀至130₂₄)分配给第一图块T6，可以将5个第二图块(例如，第二图块130₂₅至130₂₉)分配给第一图块T7，并且可以将3个第二图块(例如，第二图块130₃₀至130₃₂)分配给第一图块T8。第二图块用于包含和传输通过对与第一图块T1至T8相关联的场景的3D部分进行2D参数化而获得的补片。对与第一图块T1相关联的3D部分进行2D参数化而获得的补片组S₁中所包括的补片被布置在分配给第一图块T1的第二图块130₁至130₂中。组S₂的补片被布置在分配给第一图块T2的第二图块130₃至130₆中。组S₃的补片被布置在分配给第一图块T3的第二图块130₇至130₁₁中，依此类推。

例如，通过细分第一图块来获得第二图块。第一图块可以例如细分为2、4或8个第二图块。

分配给第一图块的第二图块的数量可以例如取决于与第一图块相关联的补片组中包括的补片的数量。该数量可以进一步被限制为最大值，使得每个第一图块可以被分配至少一个第二图块。

第二图像130可以包括其中包含深度和纹理信息的补片。根据变型，第二图像130可以包括其中仅包括深度信息的补片，并且生成第三图像以包括其中包含与第一图块相关联的纹理信息的补片，除了从第一视点获得的补片之外。第三图像包括多个第三图块，第三图块的数量大于第一图块的数量。

对于第一图像和第二图像，诸如帧大小和图块的数量之类的参数可以相同。根据变型，对于第一图像和第二图像，一个或多个参数是不同的。

图14示出用于将补片组S₁至S₈的补片中的补片布置在第二帧130(和/或第三帧)中的第二图块中的处理的非限制性示例。

根据图14的示例，按照第二图块的初始预算为32。

该处理的输入包括i个补片P_i ^t的N个组S_t的列表(i和N是整数，i对应于组中的补片的数量，根据图14的示例，N＝8)，

每个组S₁至S₈对应于第一帧40中的第一图块T1至T8。

在第一操作中，检查每个输入补片P_i ^t的大小是否比第二图块的大小更宽或更高。例如，考虑到第二帧130的大小是2048×1024像素，并且32个第二图块具有相同的大小，则第二图块的大小是256×256像素。当补片不适合目标第二图块大小时，将补片分割为较小的补片，每个大小均小于目标第二图块大小。

在第二操作中，通过减小视觉重要性来对输入补片P_i ^t排序。补片的视觉重要性可能取决于其到视点的距离(越远，重要性越小)，和/或其相对于主要观察方向的角度位置(越向左，右，上或下的补片比中央的更不重要)和/或遮挡(从中央观察点遮挡的补片更不重要)。对所有输入补片执行根据视觉重要性的分类，即，通过同时处理所有组补片S₁至S₈中的所有输入补片，而不是通过并行或一个接一个地考虑补片组S₁至S₈。然而，将有关输入补片的归属与补片组相关的信息被保留用于以下操作。

N个打包算法可以例如并行运行，一个打包算法用于每一组补片S₁至S₈。例如，可以使用J.

的“A thousand ways to pack the bin–A practical approach to two-dimensional rectangle bin packing”中所述的Shelf,Guillotine,Maximal Rectanglesand Skyline方法及其所有变型作为打包算法。

在第三操作中，可以从视觉上最重要的开始，逐个地处理输入补片。确定输入补片所属的补片组(例如，从与输入补片相关联的元数据中检索)，并将输入补片定向到与它们各自所属的补片组对应的打包分支(t＝1至8)。一个或多个第二图块130₁至130₃₂被分配给每个打包分支。

当在打包分支之一中，当前的第二图块中没有更多空间用于当前输入的补片，创建新的空的第二图块，并且打包继续到下一个打包回合。对于该打包分支中的后续补片，在前一个打包回合期间创建的所有第二图块仍保留为潜在的目标第二图块。实际上，新输入的输入补片可能比以前的输入补片小，并且被布置在先前创建的第二图块中。

当所有输入补片都已处理或第二图块预算用尽并且所有第二图块已满时，该处理停止。如果第二帧130大小过小并且不能打包所有输入补片，则剩余的未打包补片不被打包并且被丢弃。由于已经根据输入补片的视觉重要性对其处理，所以丢弃的输入补片对应于视觉上最不重要的输入补片，这限制从第二帧130的补片呈现3D场景时的问题。

图15示出从第二帧130的第二图块(和/或从第三帧的第三图块)获得的两个第四帧151、152的非限制性示例。

第四帧151、152各自包括包含在第二帧130的第二图块的一部分中的补片。第四帧中的第二图块对应于第一帧中的一些第一图块的选择，在第一图块和第二图块之间存在映射。在呈现侧，可能仅需要第一帧的一部分，因为用于呈现内容的最终用户设备的视口可能小于第一帧40的内容的视场。根据可以在最终用户设备的级别上确定的观看方向，可以仅显示帧40的子部分，并且仅需要解码和呈现与该子部分相对应的第一图块。

第四帧151包括例如以5列和4行(例如，分辨率为1280×1024像素)布置的20个第四图块。第四帧151包括与包含与第一图块T1，T2，T5和T6相关联的3D场景的3D部分的视口对应的数据，并且包括通过与这些第一图块T1，T2，T5和T6相关联的3D场景的3D场景的3D部分的3D参数化而获得的补片，即第二图块130₁,130₂,103₃,103₄,130₅,130₆,130₁₇,130₁₈,130₁₉,130₂₀,130₂₁,130₂₂,130₂₃和130₂₄中包含的补片。该第四帧的图块可以对应于第二图块并且包括对应第二图块的内容(补片和补片中包括的数据)，第二图块由其索引标识，即1至32。该第四帧的其余图块，即充满对角线条纹的图块为空，不包含任何数据或虚拟数据。

可以从第二图块或直接从2D参数化处理获得第四图块，而无需生成图13的第二帧的第二图块。

第一，第二，第三和第四帧在时间上分别具有固定的大小，并且在时间上具有固定数量的图块。对于第一，第二，第三和第四帧，图块的大小和/或数量可以相同，或者在第一，第二，第三和/或第四帧之间可以不同。

关于第四帧151，第四帧152包括以5列和4行布置的20个第四图块。第四帧152包括与视口对应的其中包含与第一图块T2，T3，T6和T7相关联的3D场景的3D部分的数据，并包括通过与这些第一图块T2，T3，T6和T7相关联的3D场景的3D部分的3D参数化而获得的补片，即，第二图块103₃,103₄,130₅,130₆,103₇,103₈,130₉,130₁₀,130₁₁,130₂₀,130₂₁,130₂₂,130₂₃,130₂₄,130₂₅,130₂₆,130₂₇,130₂₈and 130₂₉中包括的补片。分配给第四帧的第二图块分别用索引3、4、5、6，7、8、9、10、11、20、21、22、23、24、25、26、27、28和29标识。第四帧的剩余图块，即充满对角线条带的图块是空的，并且不包含任何数据或虚拟数据。

一般而言，在第一帧40中，有第一图块的C个组合对应于场景的全向平面图像/视频，M个第一图块的每个组合对应于不同的视口方向(M是整数，例如等于4)。在W×H个第一图块的完整集合中只有W′×H′个第一图块(W′≤W,H′≤H，在图8的示例中，W等于4并且H等于2)被请求，并且在解码之前，提取器轨道将它们聚合到符合比特流的平铺HEVC(或VP9或AV1)中。

对于与第一图块的C个组合之一对应的T个第二图块的子集合(在W_a×H_a第二图块的完整集合中)执行类似的聚合处理。具有全部相同大小的第二图块，成为W′_a×H′_a图块的矩形帧(例如，第四帧151、152)的平铺聚合经常可能的(W′_a≤W_a,H′_a≤H_a)。有3种可能性：

(i)T＝W′_a×H′_a：将完全解码器侧平铺网格(即，第四帧)用于聚合；

(ii)T<W′_a×H′_a：仅使用解码器侧平铺网格的一部分，虚值填充未使用的图块(以对角线条带示出)；

(iii)T>W′_a×H′_a：使用完全解码器平铺网格(即第四帧)，但丢弃一些第二图块；当每个补片被分配视觉重要性值时(根据关于图14描述的打包算法)，按照在其中打包的补片的最大视觉重要性来定义图块视觉重要性；视觉重要性最小的图块优先被丢弃。

图16示出当通过基于分组的传输协议来传输数据时，承载表示3D场景的信息和数据的流的语法的实施例的非限制性示例。图16示出体积式视频流的示例结构16。该结构包含以独立的语法元素来组织流的容器。该结构可以包括首标部分161，该首标部分是该流的每个语法元素共有的数据的集合。例如，首标部分包括有关语法元素的元数据，以描述每个语法元素的性质和作用。首标部分还可以包括用于3DoF呈现的第一帧的编码的视点坐标以及有关帧的大小和分辨率的信息。该结构包括有效载荷，包括语法的第一元素162和语法的至少一个第二元素163。第一语法元素162包括表示为3DoF呈现准备的第一帧的数据，例如对应于与在第一语法元素中编码的第一帧的纹理数据相关联的第一视频轨道。

一个或多个第二语法元素163包括与例如一个或多个第二视频轨道相关联的几何信息和纹理信息。一个或多个第二语法元素163包括例如表示关于图13描述的一个或多个第二帧和/或第三帧的数据。

根据变型，一个或多个第二语法元素163包括表示关于图15描述的一个或多个第四帧的数据。

根据另一变型，流还包括至少一个指令，以在语法的一个或多个第三元素中提取所述第一数据和第二数据的至少一部分。

出于说明目的，在ISOBMFF文件格式标准的上下文中，典型在moov类型的框内的ISOBMFF轨道中引用纹理补片、几何补片和元数据，纹理数据和几何数据本身嵌入在mdat类型的媒体数据框中。

图17示出编码3D场景的处理的非限制性示例。图17的处理对应于基于块的编码(例如，基于图块的HEVC或基于图块的AV1)和体积式视频的文件封装。

第一帧40的序列171可以被编码以获得：

·传送后向兼容的全向视频的多个图块轨道1710，每个图块轨道包括N个第一图块T1至T8中的一个不同的第一图块中包括的数据(例如，一个图块轨道用于传送第一图块T1的内容，一个图块轨道用于传送第一图块T2的内容，一个图块轨道用于传送第一图块T3的内容，……，一个图块轨道用于传送第一图块T8的内容。图块轨道的数量可以被包括在例如2和N之间，N与第一帧40中的第一图块的数量对应；

·与用于获得第一帧的投影、拼接和按区域打包以呈现全向视频的元数据1712；

·一个或多个提取器轨道1711，直至对应于C个可能的视口取向的提取器轨道的最大数量；提取器包括用于重构可由一个解码器解码的比特流的指令，该重构的比特流在语法上对于该解码器的解码是正确的。

在编码处理的输出处获得的信号可以包括例如8个图块轨道1710(8个对应于图8的示例中的第一图块的数量)，4个提取器轨道1711(4个对应于根据最终用户设备上的视口取向的第一图块的可能组合的数量，即包括第一图块T1，T2，T5，T6的第一组合；包括第一图块T2，T3，T6，T7的第二组合；包括第一图块T3，T4，T7，T8的第三组合；以及包括第一图块T4，T1，T8，T5的第四组合)和元数据1712。

根据变型，该信号包括仅8个图块轨道1710中的一部分，仅一个提取器轨道1711和元数据1712。例如，解码器可以发送请求，以请求与第一图块的组合之一对应的给定视口取向，例如第二组合包括第一图块T2，T3，T6，T7。响应于该请求，编码器可以利用包括与第一图块T2，T3，T6和T7相关联的数据的图块轨道2、3、6和7仅编码与该请求对应的提取器轨道，并发送所请求的提取器，需要4个图块轨道来重构比特流，以呈现具有相关联的元数据1712的请求的视口。这种变型使得能够减少编码成本和传输数据所需的带宽。可以基于DASH流传输机制(ISO/IEC 23009-1，基于HTTP的动态自适应流传输)来实现这种取决于视口的内容传递。

序列171的编码使得能够在解码后呈现全向视频，从该序列171编码获得的轨道例如符合OMAF标准(ISO/IEC 23090-2信息技术-沉浸式媒体的编码表示(MPEG–I)-第2部分：全向媒体格式)。

第二帧130的序列172可以被编码以获得：

·传送第二图块和相关联的补片的多个图块轨道1720，每个图块轨道包括M个第二图块130₁至130₃₂中的一个不同的第二图块中包括的数据；

·包括例如补片的非投影参数、表示第二帧的第二图块内的位置(适当时，第三帧的第三图块内的位置)的信息的元数据1722；和

·一个或多个提取器轨道1721，直至与C个可能的视口取向的数量对应的最大数量的提取器轨道；提取器包括一个或多个指令，以重构可以由一个解码器解码的比特流，该重构的比特流在语法上对于解码器的解码是正确的；提取器包含从另一条轨道提取数据的指令，其链接到该提取器所在的轨道，如“Information Technology–Coding of audio-visual objects–Part 15:carriage of NAL unit structured video in the ISO BaseMedia File Format,AMENDMENT 1:Carriage of Layered HEVC”，2014年7月11日的ISO/IEC 14496-15：2014/PDAM 1。

在编码处理的输出处获得的信号可以包括例如32个图块轨道1720(32对应于图13的示例中的第二图块的数量)，4个提取器轨道1721(4对应于根据最终用户设备上的视口取向的第一图块的可能组合的数量，即，包括分配给第一图块T1，T2，T5，T6的第二图块的第一组合；包括分配给第一图块T2，T3，T6，T7的第二图块的第二组合；包括分配给第一图块T3，T4，T7，T8的第二图块的第三组合；以及包括分配给第一图块T4，T1，T8，T5的第四组合)和元数据1722。

根据变型，该信号包括仅32个图块轨道1720中的一部分，仅一个提取器轨道1721和元数据1722。例如，解码器可以发送请求，以请求对应于第一图块的组合之一的给定视口取向，例如第二组合包括分配给第一图块T2，T3，T6，T7的第二图块。响应于该请求，编码器可以仅生成与请求对应的提取器轨道，并编码包括分配给其中包括与分配给第一图块T2，T3，T6和T7的第二图块相关联的数据的第一图块T2，T3，T6和T7的第二图块的图块轨道，并发送请求的提取器，需要相关联的图块轨道以重构比特流，用于呈现与相关联的元数据1722的请求的视口。这种变型使得能够减少编码成本和传输数据所需的带宽。可以基于DASH流传输机制(ISO/IEC 23009-1，基于HTTP的动态自适应流传输)来实现这种取决于视口的内容传递。

用序列171的序列172的编码使得能够呈现体积式视频。

如果序列172对应于仅包括几何信息的第二图像的序列，则可以以与序列172相同的方式编码其中包括纹理信息的第三帧的另一序列。

图18示出解码利用图17的编码处理获得的比特流的处理的非限制性示例。

解码处理包括两个主要处理，第一处理解码表示3D呈现的全向内容(仅纹理信息)的数据，并且第二处理解码使得能够呈现体积式内容用于3DoF+呈现的数据。

在第一处理中，由解析器181根据提取器轨道中接收到的指令解析与所请求的视口取向相关联的图块轨道1810(包括根据图17的非限制性示例的与第一图块T2，T3，T6和T7相关联的数据的轨道)。解析器181使得能够重构与解码器183兼容的比特流1811(例如，如果解码器183兼容HEVC，则是兼容HEVC比特流，或者如果解码器183兼容AV1，则是兼容AV1的比特流)。包括在比特流1811中的数据被解码器183解码，并且解码的数据被发送到呈现器185，该呈现器185被配置为使用利用图17的编码处理获得的包括在比特流中的元数据1712来呈现全向内容。

在第二处理中，根据在提取器轨道中接收到的指令，解析器182解析与请求的视口取向相关联的图块轨道1820(轨道包括根据图17的非限制性示例的与第一图块T2，T3，T6和T7相关联的第二图块(或者，用于纹理数据的第三图块)中包括的补片)。解析器182使得能够重构与解码器184兼容的比特流1821(例如，如果解码器184兼容HEVC，则是兼容HEVC的比特流，或者如果解码器184兼容AV1，则是兼容AV1的比特流)。重构的比特流包括例如关于图15描述的一个或多个第四帧的数据。包括在比特流1821中的数据由解码器184解码，并且解码的数据被发送到呈现器186，该呈现器186被配置为使用利用图17的编码处理获得的比特流中包括的元数据1722呈现体积式内容中的体积式部分。第二处理可以针对包括深度信息的图块轨道和包括纹理信息的图块轨道执行。

图19示出可以被配置为实现关于图17、18、20和/或21描述的方法的设备19的示例性架构。设备19可以配置为图12的编码器或者解码器123。

设备19包括通过数据和地址总线191链接在一起的以下元件：

-微处理器192(或CPU)，其例如是DSP(数字信号处理器)；

-ROM(或只读存储器)193；

-RAM(或随机存取存储器)194

-存储接口195

-用于从应用程序接收要发送的数据的I/O接口195；和

-电源，例如电池。

根据示例，电池在设备外部。在每个提到的存储器中，说明书中使用的“寄存器”一词可以对应于小容量的区域(一些比特)或非常大的区域(例如，整个程序或大量接收的或解码的数据)。ROM 193至少包括程序和参数。ROM 193可以存储用于执行根据描述的原理的技术的算法和指令。当接通时，CPU192将程序上载到RAM中并执行相应指令。

RAM 194在寄存器中包括由CPU 192执行并在设备19接通之后上载的程序，寄存器中的输入数据，寄存器中方法的不同状态的中间数据，以及寄存器中用于执行方法的其他变量。

这里描述的实现方式可以在例如方法或处理，装置，软件程序，数据流或信号中实现。即使仅在单个实现方式的形式的上下文中讨论(例如，仅作为方法或设备讨论)，讨论的特征的实现方式也可以以其他形式(例如，程序)实现。装置可以在例如适当的硬件，软件和固件中实现。方法可以在例如诸如例如处理器之类的装置中实现，该处理器通常涉及处理设备，一般包括例如计算机，微处理器，集成电路或可编程逻辑设备。处理器还包括通信设备，诸如例如计算机，蜂窝电话，便携式/个人数字助理(“PDA”)，以及便于最终用户之间的信息通信的其他设备。

根据图12的编码或编码器121的示例，从源获得三维场景。例如，源属于包含以下的组：

-本地存储器(193或194)，例如视频存储器或RAM(或随机存取存储器)，闪存，ROM(只读存储器)，硬盘；

-存储接口(195)，例如，具有大容量存储器，RAM，闪存，ROM，光盘或磁性载体的接口；

-通信接口(195)，例如，有线接口(例如，总线接口，广域网接口，局域网接口)或无线接口(诸如，IEEE 802.11接口或

接口)；和

-用户接口，诸如使得用户能够输入数据的图形用户接口。

根据图12的解码或(多个)解码器123的示例，将流发送到目的地；具体地，目的地属于包括以下的集合：

-本地存储器(193或194)，例如，视频存储器或RAM，闪存，硬盘；

-通信接口(195)，例如，有线接口(例如，总线接口(例如USB(或通用串行总线))，广域网接口，局域网接口，HDMI(高清多媒体接口)接口)或无线接口(诸如，IEEE 802.11接口，

或

接口)。

根据编码或编码器的示例，包括表示体积式场景的数据的比特流被发送到目的地。作为示例，比特流存储在本地或远程存储器中，例如，视频存储器或RAM，硬盘。在变型中，比特流被发送到存储接口，例如，具有大容量存储器，闪存，ROM，光盘或磁性载体的接口和/或通过通信接口传输，例如，到点对点链路，通信总线，点对多点链路或广播网络的接口。

根据图12的解码或者解码器或者呈现器123的示例，从源获得SDR比特流。示例性地，从本地存储器读取比特流，例如，视频存储器，RAM，ROM，闪存或硬盘。在变型中，比特流从存储接口接收，例如，具有大容量存储器，RAM，ROM，闪存，光盘或磁性载体的接口和/或从通信接口接收，例如，到点对点链路，总线，点对多点链路或广播网络的接口

根据示例，设备19被配置为实现上面关于图17、18、20和/21描述的方法并且属于包括以下的集合：

-移动设备；

-通信设备；

-游戏设备；

-平板电脑(或平板计算机)；

-膝上型计算机；

-静止图像相机；

-摄像机；

-编码芯片；

-服务器(例如，广播服务器，视频点播服务器或网络服务器)。

图20例示根据本原理的非限制性实施例的用于解码表示3D场景(例如3D场景10)的数据的方法。该方法可以例如在编码器121和/或设备19中实现。可以更新设备19的不同参数。例如，可以从源获得3D场景，可以在3D场景的空间中确定一个或多个视点，可以初始化与(多个)投影映射相关的参数。

在第一操作201中，根据确定的格式(例如根据HEVC/H265:“ITU-TH.265TELECOMMUNICATION STANDARDIZATION SECTOR OF ITU(10/2014),SERIES H:AUDIOVISUAL AND MULTIMEDIA SYSTEMS,Infrastructure of audiovisual services–Coding of moving video,High efficiency video coding,Recommendation ITU-TH.265”或根据AV1，将表示3D场景的纹理的第一数据编码或者格式化为容器或者文件的一个或多个第一轨道。该容器例如对应于ISOBMFF(ISO基本媒体文件格式，ISO/IEC 14496-12-MPEG-4Part 12)。第一数据指代根据单个第一视点可见的3D场景的部分(例如，点或网格元素)。第一数据包括例如指向比特流的第一语法元素的元数据和信令信息，比特流包括被编码为第一帧的像素的纹理信息，该第一帧被划分为多个图块。3D场景10的3D部分与第一帧40的每个第一图块相关联。每个第一轨道例如与一个不同的第一图块相关联，并且包括相关联的第一图块的第一数据。一旦被解码或解释，第一数据使得能够根据第一视点获得3D场景的3DoF表示，即没有视差的表示。

在第二操作202中，表示与3D场景的点相关联的深度的第二数据被编码为容器或文件的一个或多个第二轨道。第二数据被布置在第二帧的第二图块中，其可对应于图15的第四帧151、152。第二图块的不同集合与每个第一图块相关联并且第二帧中包括的第二图块的数量大于第一帧的第一图块的数量。第二数据(例如，对应于几何(深度)信息的第二数据)的补片被布置在第二图块中，并且例如根据HEVC或AV1格式被编码到对应的第二轨道中。每个补片对应于3D场景的一部分(即，点的组)的2D参数化。通过与给定的第一图块相关联的3D场景的3D部分的2D参数化获得的补片被布置在分配给该第一图块的第二图块中。一旦被解码或解释，第二数据使得能够根据包括第一视点的多个视口获得3D场景的3DoF+表示，即具有视差的表示。

根据变型，除了通过考虑第一视点获得的补片之外，补片还包括除了几何信息之外的纹理信息。换句话说，第二数据包括几何和纹理数据。

根据另一变型，补片仅包括几何信息。根据该变型，可以获得一个或多个附加第二帧，每个附加第二帧被划分为多个第二图块，第二图块的数量大于第一图块的总数量。一个或多个第二图块与每个第一图块相关联，并且纹理数据的补片被布置在第二图块中，并被编码为称为第四轨道的附加轨道。通过与给定的第一图块相关联的3D场景的3D部分的2D参数化获得的补片被布置在分配给该第一图块的第二图块中。

在第三操作204中，一个或多个指令被编码在容器或文件的一个或多个第三轨道中。指令适配于从第一轨道和第二轨道提取第一数据和第二数据，并将提取的第一数据和第二数据布置到被格式化以由单个解码器解码的比特流中。第三轨道例如对应于根据HEVC的提取器轨道。第二数据被编码到(多个)第二帧中。第三轨道的数量例如等于关于图17描述的C个可能的视口取向的数量。

根据另一可选变型，第一，第二和第三轨道的数据和指令形成比特流，该比特流被传输到解码器或包括解码器的呈现器。

图21例示根据本原理的非限制性实施例的用于解码表示3D场景(例如3D场景10)的数据的方法。该方法可以例如在解码器123和/或设备19中实现。

在第一操作211中，从容器或文件的一个或多个第三轨道解码一个或多个指令。指令适配于从第一轨道和第二轨道提取第一数据和第二数据，并将提取的第一数据和第二数据布置到被格式化以由单个解码器解码的比特流。第三轨道例如对应于根据HEVC的提取器轨道。

在第二操作212中，如在由操作211获得的指令的指示下，从一个或多个第一轨道中包括的第一图块解码或解释表示根据第一视点可见的3D场景的部分的纹理的第一数据。第一数据使得能够根据第一视点获得3D场景的3DoF表示，即没有视差的表示。

在第三操作213中，如由在操作211获得的指令的指示下，从一个或多个第二轨道中包括的第二图块解码或解释表示根据包括第一视点的视点的集合可见的3D场景的几何形状的第二数据。第二数据被包括在通过3D场景的点的组的2D参数化获得的补片中。根据变型，从附加轨道的一个或多个第三图块来解码或解释表示根据排除了第一视点之外的视点的集合而可见的3D场景的纹理的第三数据。利用第三数据的第二数据使得能够根据所述视点获得3D场景的3DoF+表示，即具有视差的表示。

根据变型，如在操作211获得的指令的指示，将解码的第一数据和第二数据布置在比特流中，以形成要由解码器解码的比特流。根据另一变型，获得的比特流由解码器解码，以通过呈现进行呈现。可以根据与指令对应的视口取向在诸如HMD的观看最终用户设备上显示呈现的内容。

自然地，本公开不限于先前描述的实施例。

特别地，本公开不限于用于编码/解码表示3D场景的数据的方法和设备，而是还扩展到用于生成包括编码数据的比特流的方法，并且扩展到实现该方法的任何设备，尤其是包括至少一个CPU和/或至少一个GPU的任何设备。

本公开还涉及用于显示从比特流的解码数据呈现的图像的方法(和配置的设备)。

本公开还涉及用于发送和/或接收比特流的方法(和配置的设备)。

本文描述的各种处理和特征的实现方式可以体现在各种不同的设备或应用中，具体地，例如，与数据编码、数据解码、视图生成、纹理处理和图像以及相关纹理信息和/或深度信息的其他处理。这样的设备的示例包括编码器，解码器，处理来自解码器的输出的后处理器，提供输入给编码器的预处理器，视频编码器，视频解码器，视频编解码器，网络服务器，机顶盒，膝上型计算机，个人计算机，蜂窝电话，PDA以及其他通信设备。应该清楚的是，该设备可以是移动的，甚至可以安装在移动车辆中。

另外，该方法可以由处理器执行的指令来实现，并且这样的指令(和/或由实现方式产生的数据值)可以存储在处理器可读存储介质上，诸如例如集成电路、软件载体、或者其他存储设备，诸如例如，硬盘，致密盘(CD)，光盘(诸如，例如DVD，通常称为数字多功能盘或数字视频盘)，随机存取存储器(“RAM”)或只读存储器(“ROM”)。指令可以形成有形地体现在处理器可读介质上的应用程序。指令可以在例如硬件，固件，软件或其组合中。指令可以在例如操作系统，单独的应用或两者的组合中找到。因此，处理器的特征可以在于例如被配置为实施处理的设备和包括具有用于实施处理的指令的处理器可读介质的设备(诸如，存储设备)。此外，除了或代替指令，处理器可读介质可以存储由实现方式产生的数据值。

对于本领域技术人员明显的是，实现方式可以产生各种信号，这些信号被格式化以承载可以例如被存储或传输的信息。该信息可以包括例如用于执行方法的指令，或者由描述的实现方式之一产生的数据。例如，信号可以被格式化以承载用于写入或读取描述的实施例的语法的规则作为数据，或者承载由描述的实施例写入的实际语法值作为数据。这样的信号可以被格式化，例如，作为电磁波(例如，使用频谱的射频部分)或者作为基带信号。格式化可以包括，例如，编码数据流和用编码的数据流调制载波。信号承载的信息可以是例如模拟或数字信息。如已知的，信号可以通过各种不同的有线或无线链路传输。信号可以存储在处理器可读介质上。

已经描述多个实现方式。然而，将理解，可以进行各种修改。例如，可以组合，补充，修改或移除不同实现方式的元素以产生其他实现方式。另外，普通技术人员将理解，其他结构和处理可以替代公开的那些，并且作为结果的实现方式将以至少基本相同的(多个)方式执行至少基本相同的(多个)功能，以至少实现与公开的实现方式基本相同的(多个)结果。因此，本申请考虑这些和其他实现方式。

Claims

1.一种编码表示3D场景(10)的数据的方法，该方法包括：

-将表示根据第一视点(20)可见的3D场景的纹理的第一数据编码(201)到至少第一轨道中，第一数据被布置在第一帧(40)的多个第一图块(81至88)中，3D场景的一部分与多个第一图块中的每个第一图块相关联；

-将表示与3D场景的点相关联的深度的第二数据编码到至少第二轨道中，第二数据被布置在第二帧(151、152)的多个第二图块中，其中，第二帧的第二图块的总数量大于第一帧的第一图块的总数量，其中，对于多个第一图块的至少一部分中的每个第一图块：

·将至少一补片(904)的集合(S₁到S₈)布置在第二图块的集合中，每个补片对应于被包含在与每个第一图块相关联的3D场景的该部分中的3D点的组(94)的二维参数化并且包括表示与该组的3D点相关联的深度的第二数据；

-将至少一指令编码到至少第三轨道中以便从所述至少第一轨道和至少第二轨道的至少一部分中提取所述第一数据和第二数据的至少一部分。

2.一种设备(19)，被配置为编码表示3D场景(10)的数据，该设备包括与至少一个处理器(192)相关联的存储器(194)，该处理器被配置为：

-将表示根据第一视点(20)可见的3D场景的纹理的第一数据编码到至少第一轨道中，第一数据被布置在第一帧(40)的多个第一图块(81至88)中，3D场景的一部分与多个第一图块中的每个第一图块相关联；

3.根据权利要求1所述的方法或权利要求2所述的设备，其中，所述每个补片还包括表示与组的3D点相关联的纹理的第三数据，第三数据被编码到所述至少第二轨道中。

4.根据权利要求1所述的方法或权利要求2所述的设备，其中，将包括至少一个第三图块的第三帧的第三图块的集合分配给所述每个第一图块，并且将包括表示与组的3D点相关联的纹理的第三数据的至少一补片的集合布置在第三图块的所述集合中，所述至少一补片对应于3D点的组的二维参数化，所述第三数据被编码到至少第三轨道中。

5.根据权利要求1、3和4中一项所述的方法或者根据权利要求2至4中一项所述的设备，其中，当集合的补片的大小大于将要布置所述补片的第二图块的大小时，将补片分区为多个子补片，每个子补片的大小小于第二图块的大小。

6.根据权利要求1、3、4和5中一项所述的方法或者根据权利要求2至5中一项所述的设备，其中，以取决于补片的视觉重要性的优先级顺序排列集合的补片，视觉重要性取决于与补片相关联的第二数据。

7.根据权利要求1和3至6中一项所述的方法或者根据权利要求2至6中一项所述的设备，其中，所述第二图块具有对于时间上连续的多个第二帧固定的相同大小。

8.一种解码表示3D场景(10)的数据的方法，该方法包括：

-从所述至少第一轨道解码所述第一数据，所述第一数据表示根据第一视点(20)可见的3D场景的纹理，第一数据被布置在第一帧(40)的多个第一图块(81至88)中，3D场景的一部分与多个第一图块中的每个第一图块相关联；

-从所述至少第二轨道解码所述第二数据，所述第二数据表示与3D场景的点相关联的深度，表示深度的第二数据被包括在布置在第二帧的第二图块的至少一集合中的至少一补片，第二图块的集合被分配给所述每个第一图块，所述至少一补片对应于被包括在与所述每个第一图块相关联的3D场景的至少一部分中的3D点的组的二维参数化，第二数据表示与组的3D点相关联的深度。

9.一种设备(19)，被配置用于解码表示3D场景的数据，该设备包括与至少一个处理器(192)相关联的存储器(194)，该处理器被配置为：

10.根据权利要求8所述的方法或者根据权利要求9所述的设备，其中，还从所述至少第二轨道解码表示与所述每个补片中包括的组的3D点相关联的纹理的第三数据。

11.根据权利要求8所述的方法或者根据权利要求9所述的设备，其中，还从至少第三轨道解码表示纹理的第三数据，第三数据被布置在第三帧的多个第三图块中，第三图块的集合包括被分配给所述每个第一图块的至少一个第三图块，包括与组的3D点相关联的第三数据的至少一补片的集合被布置在第三图块的集合中，该至少一补片对应于3D点的组的二维参数化。

12.根据权利要求8、10和11中一项所述的方法或者根据权利要求9至11中一项所述的设备，其中，根据所述第一数据和第二数据来呈现3D场景的至少一部分。

13.一种比特流，其承载表示3D场景的数据，该数据包括：在至少第一语法元素中的表示根据第一视点可见的3D场景的纹理的第一数据，第一数据与第一帧的多个第一图块相关联，3D场景的一部分与多个第一图块中的每个第一图块相关联；在至少第二语法元素中的表示与3D场景的点相关联的深度的第二数据，第二数据与第二帧的多个第二图块相关联，第二帧的第二图块的总数量大于第一帧的第一图块的总数量，包括至少一个第二图块的第二图块的集合被分配给每个第一图块，至少一补片的集合布置在第二图块的集合中，每个补片对应于被包括在与每个第一图块相关联的3D场景的一部分中的3D点的组的二维参数化并且包括表示与组的3D点相关联的深度的第二数据；比特流还承载在至少第三语法元素中的至少一指令以便提取第一数据和第二数据的至少一部分。

14.一种存储有指令的非暂时性处理器可读介质，所述指令用于使处理器至少执行根据权利要求1和3至7中一项所述的方法的步骤。

15.一种存储有指令的非暂时性处理器可读介质，所述指令用于使处理器至少执行根据权利要求8和10至12所述的方法的步骤。