CN111434121A

CN111434121A - 体积式视频格式的方法、装置和流

Info

Publication number: CN111434121A
Application number: CN201880078058.4A
Authority: CN
Inventors: B.丘佩奥; G.布赖恩德; M-L.尚佩尔
Original assignee: InterDigital VC Holdings Inc
Current assignee: InterDigital VC Holdings Inc
Priority date: 2017-10-20
Filing date: 2018-10-03
Publication date: 2020-07-17
Also published as: EP3698551A1; US20210195162A1; WO2019079032A1; BR112020007727A2; KR20200065076A; EP3474562A1

Abstract

公开了一种用于将表示3D场景的数据编码到容器中的方法和设备以及用于对编码的数据进行解码的对应的方法和设备。

Description

体积式视频格式的方法、装置和流

技术领域

本公开涉及体积式(volumetric)视频内容领域。本公开还可以在例如用于在诸如移动设备或头戴式显示器之类的终端用户设备上进行渲染的表示体积式内容的数据的编码和/或格式化的上下文中理解，。

背景技术

本章节意图向读者介绍本领域的各个方面，这些方面可能与下面描述和/或要求保护的本公开的各个方面相关。该讨论被认为有助于向读者提供背景信息，以便于更好地理解本发明的各个方面。因此，应该理解的是，这些陈述应该从这个角度来理解，而不是作为对现有技术的承认

最近，可用的大视场内容(高达360°)有所增长。这种内容对于在沉浸式显示设备(诸如头戴式显示器(Head Mounted Display，HMD)、智能眼镜、PC屏幕、平板电脑、智能电话等)上观看内容的用户来说可能是不完全可见的。这意味着在给定的时刻，用户可能只在观看部分内容。然而，用户通常可以通过诸如头部移动、鼠标移动、触摸屏、语音等各种方式在内容内导航。通常期望对该内容进行编码和解码。

沉浸式视频，也称为360平面视频，允许用户通过围绕静止的视点旋转头部来观看自己周围的一切。旋转只允许3自由度(3DoF)的体验。即使3DoF视频对于第一全向视频体验(例如，使用头戴式显示设备(HMD))来说是足够的，3D视频对于例如通过体验视差而期望更多自由度的观看者来说可能很快变得令人沮丧。另外，3DoF还可能导致头晕，因为用户不仅旋转他的头部，还会在三个方向上平移他的头部，这种平移在3DoF视频体验中是不会再现的。

其中，大视场内容可以是三维计算机图形图像场景(3D CGI场景)、点云或沉浸式视频，以及其他。许多术语可以用于设计这种沉浸式视频，诸如虚拟现实(VirtualReality，VR)、360、全景、4π立体、沉浸式、全向、大视场。

体积式视频(也称为6自由度(6DoF)视频)是3DoF视频的替代视频。当观看6DoF视频时，除了旋转，用户还可以在观看的内容内平移他的头部，甚至他的身体，并体验视差甚至音量。这种视频大大增加了沉浸感和对场景深度的感知，并且通过在头部平移期间提供一致的视觉反馈来防止眩晕。内容通过专用传感器创建，允许同时记录感兴趣场景的颜色和深度。一组彩色相机与摄影测量技术的结合使用是进行这种记录的常用方法。

虽然3DoF视频包括由纹理图像的解映射产生的图像序列(例如，根据纬度/经度投影映射或等矩形投影映射编码的球形图像)，但6DoF视频帧嵌入来自若干个视点的信息。它们可以被视为由三维捕获产生的时间上一连串的点云。根据观看条件，可以考虑两种体积式视频。第一个(即，完全6DoF)允许在视频内容中进行完全自由的导航，而第二个(即，3DoF+)将用户观看空间限制在有限的体积内，允许有限的头部平移和视差体验。这第二个背景是自由导航和坐着的观众的被动观看条件之间的有价值的权衡。

3DoF视频可以在流中被编码为根据选择的投影映射(例如，立方体投影映射、金字塔投影映射或等矩形投影映射)生成的矩形彩色图像序列。该编码具有利用标准图像和视频处理标准的优点。3DoF+和6DoF视频需要附加的数据来对点云的彩色点的深度进行编码。在对流中的场景进行编码时，体积式场景的渲染类型(即，3DoF渲染或体积式渲染)不是先验已知的。迄今为止，流是为一种渲染或其他而编码的。缺少能够携带表示体积式场景的数据的流以及相关联的方法和设备，该数据能够被立即编码并解码为3DoF视频或体积式视频(3DoF+或6DoF)。

发明内容

说明书中对“一个实施例”、“实施例”、“示例实施例”、“特定实施例”的引用表示所描述的实施例可以包括特定的特征、结构或特性，但是每个实施例不一定包括该特定的特征、结构或特性。此外，这些短语不一定指同一实施例。此外，当结合实施例描述特定的特征、结构或特性时，可以认为结合无论是否明确描述的其他实施例影响这样的特征、结构或特性都在本领域技术人员的知识范围内。

本公开涉及一种将表示3D场景的数据编码到容器中的方法，该方法包括：

-将表示根据第一视点可见的3D场景的纹理的第一数据编码到容器的第一视频轨中；

-将表示根据包括第一视点的视点集合可见的3D场景的几何形状的第二数据编码到容器的至少第二视频轨中；

-将表示仅从集合中除第一视点之外的视点可见的3D场景的纹理的第三数据编码到容器的第三视频轨中；以及

-将元数据编码到容器的第四轨中，元数据与第一视频轨的第一数据、至少第二视频轨的第二数据和第三视频轨的第三数据相关联，元数据包括表示用于获得第二数据和第三数据的至少一个投影的信息。

本公开涉及一种被配置为将表示3D场景的数据编码到容器中的设备，该设备包括与至少一个处理器相关联的存储器，该至少一个处理器被配置为：

-将元数据编码到容器的第四轨中，该元数据与第一视频轨的第一数据、至少第二视频轨的第二数据和第三视频轨的第三数据相关联，该元数据包括表示用于获得第二数据和第三数据的至少一个投影的信息。

本公开涉及一种被配置为将表示3D场景的数据编码到容器中的设备，该设备包括：

-被配置为将表示根据第一视点可见的3D场景的纹理的第一数据编码到容器的第一视频轨中的编码器；

-被配置为将表示根据包括第一视点的视点集合可见的3D场景的几何形状的第二数据编码到容器的至少第二视频轨中的编码器；

-被配置为将表示仅从集合中除第一视点之外的视点可见的3D场景的纹理的第三数据编码到容器的第三视频轨中的编码器；以及

-被配置为将元数据编码到容器的第四轨中的编码器，该元数据与第一视频轨的第一数据、至少第二视频轨的第二数据和第三视频轨的第三数据相关联，该元数据包括表示用于获得第二数据和第三数据的至少一个投影的信息。

-用于将表示根据第一视点可见的3D场景的纹理的第一数据编码到容器的第一视频轨中的部件；

-用于将表示根据包括第一视点的视点集合可见的3D场景的几何形状的第二数据编码到容器的至少第二视频轨中的部件；

-用于将表示仅从集合中除第一视点之外的视点可见的3D场景的纹理的第三数据编码到容器的第三视频轨中的部件；以及

-用于将元数据编码到容器的第四轨中的部件，该元数据与第一视频轨的第一数据、至少第二视频轨的第二数据和第三视频轨的第三数据相关联，该元数据包括表示用于获得第二数据和第三数据的至少一个投影的信息。

本公开涉及一种从容器中解码表示3D场景的数据的方法，该方法包括：

-从容器的第一视频轨中解码表示根据第一视点可见的3D场景的纹理的第一数据；

-从容器的至少第二视频轨中解码表示根据包括第一视点的视点集合可见的3D场景的几何形状的第二数据；

-从容器的第三视频轨中解码表示仅从集合中除第一视点之外的视点可见的3D场景的纹理的第三数据；以及

-从容器的第四轨中解码元数据，所述元数据与第一视频轨的第一数据、至少第二视频轨的第二数据和第三视频轨的第三数据相关联，所述元数据包括表示用于获得第二数据和第三数据的至少一个投影的信息。

本公开涉及一种被配置为从容器中解码表示3D场景的数据的设备，该设备包括与至少一个处理器相关联的存储器，该至少一个处理器被配置为：

本公开涉及一种被配置为从容器中解码表示3D场景的数据的设备，该设备包括：

-被配置为从容器的第一视频轨中解码表示根据第一视点可见的3D场景的纹理的第一数据的解码器；

-被配置为从容器的至少第二视频轨中解码表示根据包括第一视点的视点集合可见的3D场景的几何形状的第二数据的解码器；

-被配置为从容器的第三视频轨中解码表示仅从集合中除第一视点之外的视点可见的3D场景的纹理的第三数据的解码器；以及

-被配置为从容器的第四轨中解码元数据的解码器，所述元数据与第一视频轨的第一数据、至少第二视频轨的第二数据和第三视频轨的第三数据相关联，所述元数据包括表示用于获得第二数据和第三数据的至少一个投影的信息。

-用于从容器的第一视频轨中解码表示根据第一视点可见的3D场景的纹理的第一数据的部件；

-用于从容器的至少第二视频轨中解码表示根据包括第一视点的视点集合可见的3D场景的几何形状的第二数据的部件；

-用于从容器的第三视频轨中解码表示仅从集合中除第一视点之外的视点可见的3D场景的纹理的第三数据的部件；以及

-用于从容器的第四轨中解码元数据的部件，所述元数据与第一视频轨的第一数据、至少第二视频轨的第二数据和第三视频轨的第三数据相关联，所述元数据包括表示用于获得第二数据和第三数据的至少一个投影的信息。

根据特定特征，第一视频轨引用比特流的第一语法元素，至少第二视频轨引用比特流的至少第二语法元素，并且第三视频轨引用比特流的第三语法元素。

根据特定特征，第二数据包括第一信息，其表示用于获得几何形状的投影的格式、投影的参数和指示至少一些投影参数是否被动态更新的标志。

根据另一特征，第三数据包括第二信息，其表示用于获得纹理的投影的格式、投影的参数和指示至少一些投影参数是否被动态更新的标志。

根据再一特征，当第一信息和第二信息相同时，第一视频轨和至少第二视频轨被分组在同一轨组中。

根据特定特征，元数据包括以下信息中的至少一个：

-表示与用于获得几何形状和纹理的至少一个投影相关联的至少一个视点的信息；

-表示几何形状的矩形2D片(patch)的打包的信息，几何形状的每个片与3D场景的一部分的投影相关联；

-表示纹理的矩形2D片的打包的信息，纹理的每个片与3D场景的一部分的投影相关联；

-表示3D片的数量的信息，每个3D片与3D场景的一部分相关联，并且与第二轨中和第一视频轨中或第三视频轨中的标识符相关联。

本公开还涉及一种携带表示3D场景的数据的比特流，该数据在容器的第一视频轨中包括表示根据第一视点可见的3D场景的纹理的第一数据；在容器的至少第二视频轨中包括表示根据包括第一视点的视点集合可见的3D场景的几何形状的第二数据；在容器的第三视频轨中包括表示仅从集合中除第一视点之外的视点可见的3D场景的纹理的第三数据；以及在容器的第四轨中包括元数据，该元数据与第一视频轨的第一数据、至少第二视频轨的第二数据和第三视频轨的第三数据相关联，该元数据包括表示用于获得第二数据和第三数据的至少一个投影的信息。

本公开还涉及一种包括程序代码指令的计算机程序产品，当在计算机上执行该程序时，该程序代码指令执行对表示3D场景的数据进行编码或解码的方法的步骤。

本公开还涉及一种(非暂时性)处理器可读介质，该处理器可读介质中存储有用于使处理器执行对表示3D场景的数据进行编码或解码的至少上述方法的指令。

附图说明

通过阅读以下描述，将会更好地理解本公开，并且其他特定特征和优点将会显现，该描述参考附图，其中：

图1示出了根据本原理的非限制性实施例的对象的三维(3D)模型和与3D模型相对应的点云的点；

图2示出了根据本原理的非限制性实施例的表示三维场景的图像，该三维场景包括若干对象的表面表示；

图3示出了根据本原理的非限制性实施例的图2的场景上的视点的示例布置和从该布置的不同视点的该场景的可见点；

图4示出了根据本原理的非限制性实施例的通过示出根据图3的视点的图2的场景的不同视图的视差体验；

图5示出了根据本原理的非限制性实施例的根据等矩形投影映射从图3的视点可见的图2的场景的点的纹理图像；

图6示出了根据本原理的非限制性实施例的根据立方体投影映射编码的与图5中相同的场景的点的图像；

图7示出了根据本原理的非限制性实施例的根据图3的视点的图2的3D场景的深度图像(也称为深度图)；

图8A和图8B示出了根据本原理的非限制性实施例的投影到图5的纹理图上的场景的点的深度片(patch)图谱(atlas)的一部分；

图9示出了根据本原理的非限制性实施例的在编码图5或图6的图像之后将残差点编码为片；

图10示出了根据本原理的非限制性实施例的以同时为3DoF渲染兼容和3DoF+渲染兼容的格式对3D场景序列进行编码、传输和解码的示例；

图11示出了根据本原理的非限制性实施例的获取、编码和/或格式化表示图2的3D场景的数据的过程；

图12示出了根据本原理的非限制性实施例的解码和渲染图2的3D场景的过程；

图13示出了根据本原理的非限制性实施例的包括表示图2的3D场景的信息的容器的示例；

图14示出了根据本原理的非限制性实施例的携带表示图2的3D场景的信息和数据的比特流的语法的示例；

图15示出了根据本原理的非限制性实施例的设备的示例架构，该设备可以被配置为实施关于图11、图12、图16和/或图17描述的方法；

图16示出了根据本原理的非限制性实施例的例如在图15的设备中实施的、用于对表示图2的3D场景的数据进行编码的方法；

图17示出了根据本原理的非限制性实施例的例如在图15的设备中实施的、用于对表示图2的3D场景的数据进行解码的方法。

具体实施方式

现在参考附图描述主题，其中相同的附图标号始终用于指代相同的元件。在以下描述中，出于解释的目的，阐述了许多具体细节，以便提供对主题的全面理解。然而，显而易见的是，可以在没有这些具体细节的情况下实践主题实施例。

本说明书示出了本公开的原理。因此，应当理解，本领域技术人员将能够设计各种布置，尽管在此没有明确描述或示出，但是这些布置体现了本公开的原理。

根据本公开的非限制性实施例，公开了对容器中和/或比特流中的体积式视频(也称为3DoF+或6DoF视频)的图像进行编码的方法和设备。还公开了从流中解码体积式视频的图像的方法和设备。还公开了用于对体积式视频的一个或多个图像进行编码的比特流的语法的示例。

根据第一方面，将参考将表示3D场景(用全向内容表示，也称为沉浸式视频)的数据编码到容器中和/或比特流的方法(和被配置用于该方法的设备)的第一特定实施例来描述本原理。为了达到该目的，表示根据第一视点可见的3D场景的纹理(例如，与元素(例如，3D场景的点)相关联的颜色信息)的第一数据被编码到容器的第一视频轨中。表示根据视点集合或范围可见的3D场景的几何形状的第二数据被编码到容器的第二视频轨中，该视点集合包括第一视点(例如，以第一视点为中心)。表示3D场景的纹理的第三数据也被编码到容器的第三视频轨中。第三数据例如对应于与从该视点集合中的视点可见的3D场景的部分(不包括根据第一视点可见的场景的部分)相关联的纹理信息，以避免对相同信息进行两次编码(即，一次编码到第一视频轨中，一次编码到第三视频轨中)。元数据被编码到容器的第四轨中，元数据包括表示用于获得第二数据和第三数据的一个或多个投影的信息(例如，参数)。

关于本原理的第一方面，还描述了解码表示3D场景的数据的对应的方法(和被配置用于该方法的设备)。

图1示出了对象10的三维(3D)模型和与3D模型10相对应的点云11的点。模型10可以是3D网格表示，并且点云11的点可以是网格的顶点。点11也可以是分布在网格表面上的点。模型10也可以被表示为点云11的平铺(splatted)版本；模型10的表面是通过平铺点云11的点来创建的。模型10可以由许多不同的表示来表示，诸如体素或样条。图1示出了这样一个事实，即总是有可能从3D对象的表面表示中定义点云，并且反过来总是可以从点云创建3D对象的表面表示。如这里所使用的，将3D对象的点(通过3D场景的扩展点)投影到图像等同于将该3D对象的任何表示投影到一对象。

点云可以被视为基于矢量的结构，其中每个点具有其坐标(例如，三维坐标XYZ，或距给定视点的深度/距离)和一个或多个属性，也称为分量。分量的示例是可以在不同颜色空间中表达的颜色分量，例如，RGB(红、绿和蓝)或YUV(Y是亮度分量和UV两个色度分量)。点云是从给定的视点或视点范围看到的对象的表示。点云可以通过不同的方式获得，例如：

·从由一组相机拍摄的真实对象的捕获，其可选地由深度主动感测设备补充；

·从在建模工具中由一组虚拟相机拍摄的虚拟/合成对象的捕获；

·从真实对象和虚拟对象两者的混合。

图2示出了表示包括若干个对象的表面表示的三维场景的图像20。该场景可以是使用任何合适的技术捕获的。例如，它可以是使用计算机图形界面(CGI)工具创建的。它可以已经被彩色图像和深度图像采集设备捕获。在这种情况下，从采集设备(例如，相机)不可见的对象的部分有可能不在场景中呈现，如关于图3、图8A和图8B所描述的。图2所示的示例场景包括房屋、两个人物和一口井。图2中的立方体33示出了用户可能从其观察3D场景的视图空间。

图3示出了场景(例如，图2的3D场景20)上视点的示例布置。图3还示出了从/根据该布置的不同视点可见的该3D场景20的点。为了由沉浸式渲染设备(例如，洞穴或头戴式显示设备(HMD))来渲染和显示，从第一视点(例如，第一视点30)考虑3D场景。场景的点31(对应于第一人物的右肘)从第一视点30可见，因为在第一视点30和场景点31之间没有任何不透明的对象。相反，3D场景20的点32(例如，对应于第二人物的左肘)从第一视点30不可见，因为它被第一人物的点遮挡。对于3DoF渲染，仅考虑一个视点(例如，第一视点30)。用户可以围绕第一视点以三个自由度旋转他的头部来观看3D场景的不同部分，但是用户不能移动第一视点。要在流中编码的场景的点是从第一个视点可见的点。不需要对从第一视点不可见的场景的点进行编码，因为用户不能通过移动第一视点来访问它们。

关于6DoF渲染，用户可以在场景中移动视点到任何地方。在这种情况下，对内容流中场景的每个点进行编码是有价值的，因为每个点都可能对被移动其视点的用户而言是可访问的。在编码阶段，没有办法先验地知道用户将从哪个视点观察3D场景20。

关于3DoF+渲染，用户可以在视点周围(例如，在第一视点30周围)的有限空间内移动视点。例如，用户可以在以第一视点30为中心的立方体33内移动他的视点。这使得能够体验如关于图4所示的视差。表示从视图空间(例如，立方体33)的任何点可见的场景的部分的数据将被编码到流中，包括表示根据第一视点30可见的3D场景的数据。视图空间的大小和形状可以例如在编码步骤中决定和确定，并被编码到流中。解码器从流中获得这些信息，并且渲染器将视图空间限制在由获得的信息确定的空间内。根据另一示例，渲染器根据硬件约束来确定视图空间，例如，与检测用户移动的(多个)传感器的能力相关的硬件约束。在这种情况下，如果在编码阶段，从渲染器的视图空间内的点可见的点没有在数据流中被编码，则该点将不会被渲染。根据另一示例，表示3D场景的每个点的数据(例如，纹理和/或几何形状)被编码在流中，而不考虑渲染的视图空间。为了优化流的大小，只有场景的点的子集(例如，根据渲染的视图空间可以看到的点的子集)可以被编码。

图4示出了体积式(即3DoF+和6DoF)渲染所允许的视差体验。图4B示出了用户可以从图3的第一视点30看到的场景的部分。从该第一视点来看，这两个人物处于给定的空间配置中，例如，第二个人物(穿着白色衬衫)的左肘被第一个人物的身体隐藏，而他的头部是可见的。当用户围绕第一视点30以三个自由度旋转头部时，这种配置不会改变。如果视点是固定的，则第二个人物的左肘不可见。图4A示出了从图3的视图空间33左侧的视点看到的场景的相同部分。从这样的视点来看，由于视差效应，图3的点32是可见的。因此，对于体积式渲染，点32必须被编码在流中。如果没有编码，则该点32将不被渲染。图4C示出了从位于图3的视图空间33右侧的视点观察到的场景的相同部分。从这个视点来看，第二个人物几乎完全被第一个人物所隐藏。

通过在3D场景内移动视点，用户可以体验视差效果。

图5示出了包括从图3的第一视点30可见的3D场景20的点的纹理信息(例如，RGB数据或YUV数据)的纹理图像(也称为彩色图像)，该纹理信息是根据等矩形投影映射获得的。等矩形投影映射是球面投影映射的示例。

图6示出了根据立方体投影映射获得或编码的场景的相同点的图像。有不同的立方体投影映射。例如，立方体的面在图6的图像中可以不同地布置和/或面可以不同地定向。

例如，根据压缩标准，或者例如根据标准选项，选择用于获得/编码从所确定的视点可见的场景的点的投影映射。本领域技术人员已知，总是有可能将通过根据投影映射的点云投影获得的图像转换成根据不同投影映射的相同点云的等效图像。然而，这种转换可能意味着投影分辨率的一些损失。

图5和图6用灰色阴影表示。很自然地，它们是纹理(颜色)图像的示例(对场景的点的纹理(颜色)进行编码)，例如，在RGB或YUV中的纹理(颜色)图像。图5和图6包括3D场景的3DoF渲染所需的数据。接收比特流或数据流(该比特流或数据流在语法的第一元素中包括如图5和图6的示例图像的图像)的解码器使用与用于图像编码的方法相关的方法对图像进行解码。该流可以根据标准图像和视频压缩方法以及用于图像和视频传输的标准格式(例如，MPEG-2、H.264或HEVC)来编码。例如，解码器可以将解码的图像(或图像序列)发送到3D渲染器或用于重新格式化的模块。3DoF渲染器将图像投影到与编码时使用的投影映射相对应的表面上(例如，图5的图像是球体，图6的图像是立方体)。在一种变型中，渲染器在投影图像之前根据不同的投影映射来转换图像。

当图像根据投影映射对3D场景的点进行编码时，图像与3DoF渲染兼容。场景可以包括360°处的点。例如，通常用于对与3D渲染兼容的图像进行编码的投影映射是球面映射当中的：等矩形投影或经度/纬度投影、或不同布局的立方体投影映射或金字塔投影映射。

图7示出了根据第一视点30的3D场景20的深度图像(也称为深度图)。深度信息是体积式渲染所需要。在图7的图像的示例编码中，像素越暗，从视点来看投影到该像素的点越近。例如，深度可以被编码在12比特上，即深度由0和2¹²-1＝4095之间的整数表示。例如，如果最近的点位于距离所确定的视点1米处，并且最远的点位于25米处，则深度的线性编码将以0.586厘米的步长(＝(2500–100)/4096)执行。深度也可以根据对数标度进行编码，因为远离视点的点的深度值的不精确性没有靠近视点的点的深度值的不精确性重要。在图7的示例性实施例中，根据与用于对图5的颜色图进行编码的投影映射相同的投影映射，在深度图中编码从视点可见的场景的点的深度。在另一个实施例中，深度可以根据不同的投影映射进行编码。渲染器转换深度图和/或彩色图像，以便对编码在这些数据中的场景的点进行去投影。该实施例可能增加深度不精确性。

根据另一实施例，从所确定的视点(例如，图3的视点30)可见的点的深度可以被编码为片图谱。图8A示出了投影到图5的色彩图80上的场景的点的深度片图谱83的一部分。片是通过聚类投影点获得的图片。片对应于定义投影图中相邻像素的区域并且深度一致的投影点的一部分。该部分由从视点来看对应的投影点在空间中所占的角度范围来定义。片根据其连通性和深度在投影图中进行聚类。区域P覆盖投影图中发生投影并且深度一致的相邻像素的集合。深度一致性检查归结为考虑视点和由P覆盖的每个投影点之间的距离Z，并确保这些像素的距离范围不深于阈值T。该阈值可以取决于Zmax(视点和由P覆盖的投影像素之间的最大距离)、通过进一步的生成操作而生成的图像中存储的深度的动态D以及感知属性。例如，典型的人类视觉敏锐度大约为3弧分(minutes of arc)。根据这些标准确定阈值T有若干个优点。一方面，在进一步的生成操作中生成的图片中的图像片将覆盖与所生成的图片的像素的深度分辨率一致的深度范围(例如，10比特或12比特)，因此，对压缩伪像是鲁棒的。另一方面，深度范围是由3DoF+背景(context)感知驱动的。事实上，人类的视觉对于近点和远点并没有同等的感知距离。作为示例，阈值可以根据等式[等式1]来定义。

[等式1]

其中，VA是视觉敏锐度的值。

例如，针对第一个人物的左臂获得片81。对场景的投影点的该部分的深度进行编码是有价值的，因为动态范围的2^D值被用于对几分米的短距离进行编码，从而允许深度编码的更高精度和对压缩伪像的更高鲁棒性。针对一对房屋获得片82。要编码的深度范围更大，但是，由于房屋距离视点很远，使用编码的不精确性导致视觉伪像更少。但是，与图7的深度图相比，针对场景的这一部分，深度编码精度有所提高。

根据片的点的投影将在片图谱中占据的大小，片以给定的角度分辨率(例如，每像素3秒或每像素5秒)布置在称为片图谱83的图片83中。这种布置在于在片图谱中保留一区域以用于投影(深度和颜色)与片相关联的点。保留区域的大小取决于图片的角度分辨率和片的角度范围。帧中区域的位置被优化以覆盖图片的帧而不会重叠。片数据项包括将深度片图谱中打包的深度片与彩色图像中对应的彩色像素区域进行映射的数据。例如，片数据项包括片图谱中片的左上角的坐标、片图谱中片的宽度和高度、彩色图像中对应的彩色像素的左上角、对应的彩色像素的彩色图像的区域的宽度和高度。在一种变型中，片数据项的信息由角度范围数据表示，以便于例如根据球面投影映射而编码的彩色图像中的定位。

从给定(或确定的)视点可见的点是3D场景的点的一部分。为了对3D场景进行完全编码，残差点(即，尚未在3DoF兼容彩色图像和对应的深度数据中被编码的点)被编码在流中。图9示出了将这种残差点编码为片。

图8B示出了根据本原理的另一非限制性示例的获得在片图谱801上打包的3D场景的一部分的片(例如，3D场景20的一个人物)。表示3D对象8的点云被分割为多个3D部分，例如，50、100、1000或更多个3D部分，其中的3个3D部分在图8B上示出，即3D部分802、803和804，3D部分804包括表示人头部的一部分的点云的点，3D部分802包括表示人腋窝的点云的点，3D部分803包括表示人的手的点云的点。生成每个3D部分或3D部分的一部分的一个或多个片以在二维中表示每个3D部分，即根据2D参数化。例如，针对3D部分804获得2D参数化8001，针对3D部分802获得2D参数化8002，并且针对3D部分803获得2个不同的2D参数化8003和8004。2D参数化可能在3D部分与另一3D部分之间有所不同。例如，与3D部分801相关联的2D参数化8001是线性透视投影，而与3D部分802相关联的2D参数化8002是LLE，并且与3D部分803相关联的2D参数化8003和8004都是根据不同视点的正交投影。根据一种变型，与所有3D部分相关联的所有2D参数化都是相同类型的，例如，线性透视投影或正交投影。根据一种变型，不同的2D参数化可以被用于相同的3D部分。

与点云的一个给定3D部分相关联的2D参数化对应于点云的给定3D部分的二维浏览，使得对给定3D部分进行采样，即该给定3D部分的内容(即(多个)点)的2D表示包括多个样点(其可以对应于第一图像的像素)，其数量取决于所应用的采样步长。2D参数化可以以多种方式获得，例如，通过实施以下方法中的任何一种：

-点云的3D部分的点在与视点相关联的平面上的线性透视投影，表示线

性透视投影的参数包括虚拟相机的位置、空间采样步长和二维视场；

-点云的3D部分的点在表面上的正交投影，表示正交投影的参数包括投

影表面的几何形状(形状、大小和方向)和空间采样步长；

-对应于降维的数学运算的LLE(Locally-Linear Embedding，局部线性

嵌入)，这里应用于从3D到2D的转换/变换，表示LLE的参数包括变

换系数。

每个片有利地具有矩形形状，以简化片图谱801上的打包过程。片图谱801可以是几何形状片图谱，即，包括不同片8011、8012、8014的像素图片(例如，可以看作像素阵列)、通过与每个像素相关联的相关联3D部分的点的投影/2D参数化获得的几何形状信息。几何形状信息可以对应于深度信息或关于网格元素的顶点位置的信息。可以以相同的方式获得包括与3D部分相关联的纹理信息的对应的纹理片图谱。

可以生成映射信息，该映射信息将每个2D参数化与在几何形状片图谱和纹理片图谱中的其相关联的片相链接。可以生成映射信息以保持2D参数化和分别在几何形状片图谱和纹理片图谱中的相关联的几何形状片和纹理片之间的连接。映射信息例如可以是以下形式：

{2D参数化的参数；几何形状片ID；纹理片ID}

其中，几何形状片ID可以是整数值或包括几何形状片在几何形状片图谱的片矩阵中所属的列索引U和行索引V的一对值；纹理片ID可以是整数值或包括纹理片在纹理片图谱的片矩阵中所属的列索引U’和行索引V’的一对值。

当根据几何形状片图谱和纹理片图谱中的相同布置来布置几何形状片和纹理片时，几何形状片ID和纹理片ID是相同的，并且映射信息可以是例如以下形式：

{2D参数化的参数；几何形状和纹理片ID}

其中，“几何形状和纹理片ID”通过与几何形状片和纹理片相关联的相同整数值或者通过几何形状片和纹理片分别在几何形状片图谱和纹理片图谱所属的列索引U和行索引V的一对值来标识几何形状片图谱中的几何形状片和纹理片图谱中的纹理片。

为每个2D参数化以及相关联的几何形状片和纹理片生成相同的映射信息。这种映射信息能够通过建立2D参数化与对应的几何形状片和纹理片的关联性来重构3D场景的对应部分。如果2D参数化是投影，则3D场景的对应部分可以通过对包括在相关联的几何形状片中的几何形状信息和相关联的纹理片中的纹理信息进行去投影(执行逆投影)来重构。然后，映射信息对应于映射信息列表：

{2D参数化的参数；几何形状和纹理片ID}_i，

对于i＝1至n，n是2D参数化的数量。

图10示出了以同时为3DoF渲染兼容和体积式渲染兼容的格式对3D场景序列进行编码、传输和解码的示例。三维场景100(或3D场景序列)由编码器101编码在流102中。流102包括第一语法元素和至少第二语法元素，其中，第一语法元素携带表示针对3DoF渲染的3D场景的数据，第二语法元素携带表示针对3DoF+渲染的3D场景的数据。解码器103从源获得流102。例如，该源属于包括以下任一的集合：

-本地存储器，例如，视频存储器或RAM(随机存取存储器)、闪存、ROM(只读存储器)、硬盘；

-存储接口，例如，具有大容量存储、RAM、闪存、ROM、光盘或磁载体的接口；

-通信接口，例如，有线接口(例如，总线接口、广域网接口、局域网接口)或无线接口(诸如IEEE 802.11接口或

接口)；以及

-用户界面(诸如图形用户界面)，使用户能够输入数据。

对于3DoF渲染104，解码器103对流102的第一语法元素进行解码。对于3DoF+渲染105，解码器对流102的第一语法元素和第二语法元素两者进行解码。

图11示出了根据本原理的非限制性实施例的获取、编码、格式化和/或封装表示3D场景20的数据的过程。

在操作111中，获取与3D场景的元素(例如，点)相关联的数据，该数据对应于与场景的元素相关联的属性，即纹理(颜色)属性和/或几何形状属性。例如，可以获取时间上连续的图像序列。纹理属性可以用一个或多个光电传感器获取，并且几何形状属性可以例如用一个或多个深度传感器获取。根据一种变型，3D场景是利用CGI(计算机生成图像术)技术获得的。根据多个视点，例如，根据包括第一中心视点的视点范围，3D场景的至少一部分是可见的。根据一种变型，3D场景不是经由CGI获取或生成的，而是从云、全向内容库或任何存储单元或装置中取得的。还可以可选地获取与3D场景相关联的音轨。

在操作112中，处理3D场景。如果用多个相机来获取3D场景的图像，则3D场景的图像可以例如被缝合。在操作112期间，向视频编码器信令通知在哪个格式下可以例如根据H.264标准或HEVC标准对3D场景的表示进行编码。在操作112期间，进一步信令通知哪个3D到2D变换将被用于表示3D场景。3D到2D变换可以例如通过2D参数化示例之一或前面描述的投影之一。

在操作113中，根据所确定的格式，例如，根据AAC(Advanced Audio Coding，高级音频编码)标准、WMA(Windows Media Audio，视窗媒体音频)、MPEG-1/2音频层3，在已经获取任何声音时，将与第一视频一起获取的声音信息编码到音轨中。

在操作114中，根据确定的格式，例如，根据H.264/MPEG-4AVC：“Advanced videocoding for generic audiovisual Services(通用视听服务的高级视频编码)”，H系列：视听和多媒体系统，推荐ITU-T H.264，国际电联电信标准化部门，2014年2月，或根据HEVC/H265：“ITU-T H.265国际电联电信标准化部门，H系列：视听和多媒体系统，视听服务的基础设施-运动视频编码、高效视频编码，推荐ITU-T H.265”，将3D场景的数据(即，与元素(网格元素或点)相关联的属性)被编码到比特流的语法元素或视频轨中。例如，根据第一中心视点30可见的3D场景的部分的纹理信息被编码到第一语法元素(或视频轨)中。从视点集合33可见的3D场景的部分的几何形状信息(例如，深度图像或深度片图谱)被编码到第二语法元素中(或编码到另外的视频轨中)。从视点集合33中除了第一视点30之外的视点可见的3D场景的部分的纹理信息(即，尚未被编码到第一语法元素中的纹理信息)被编码到第三语法元素中(或另外的视频轨中)。

根据一种变型，几何形状信息和纹理信息被编码到相同的语法元素中，即第二语法元素和第三语法元素形成比特流的相同的语法元素。

在操作115中，与用于以二维表示3D场景的(多个)3D到2D变换相关联的信令信息和元数据被编码/格式化到容器(例如，将参考图13更详细描述的容器13)中。根据一种变型，包括在操作114期间编码的3D场景的属性的第一语法元素、第二语法元素和第三语法元素与信令信息和元数据一起封装在容器13中。

在操作114和操作115获得的(多个)比特流被存储在存储器设备中和/或被发送以被解码和处理，例如，以渲染包括在(多个)这种比特流中的表示3D场景的数据，如参考图12更详细描述的。比特流可以包括例如编码/格式化到容器中的数据和在操作114期间生成的第一语法元素、第二语法元素和第三语法元素的编码数据。

图12示出了根据本原理的特定实施例的从由图11的过程获得的一个或多个比特流中获得、解封装、解码和/或解释表示3D场景20的数据的过程。

在操作121中，在操作115获得的容器(其示例在图13中示出)被解释，并且包含在该容器中的数据被解封装和/或解码，以然后在操作122和123中对编码在第一语法元素、第二语法元素和第三语法元素中和/或在音轨中的数据进行解码。

在操作124中，3D场景的3DoF表示或3D场景的3DoF+表示被合成，并且可选地使用容器的解码数据和第一语法元素的解码数据(针对3DoF表示)或第一语法元素、第二语法元素和第三语法元素的解码数据(针对3DoF+表示)来渲染。

在可选的另外的操作中，渲染的3D场景可以被显示在诸如HMD的显示设备上，或者被存储在存储器设备中。

在可选的另外的操作中，从解码的音轨中渲染音频信息，以存储在存储器设备中或使用(多个)扬声器进行呈现。

图13示出了容器13的语法的非限制性示例。容器13例如对应于包含以下元素的ISOBMFF(ISO Base Media File Format，ISO基媒体文件格式，ISO/IEC 14496-12-MPEG-4Part 12)文件中：

-第一视频轨131，其包括具有用于从在操作114被编码到第一语法元素中的纹理数据生成3D场景的3D点的元数据的信令信息。第一视频轨可以例如包括帧样点的序列1311，每个帧样点包括描述被编码到第一语法元素中的纹理数据的部分的元数据。时间戳可以与每个帧样点相关联，帧样点例如与时间t的3D场景的图片或图片组(group ofpictures，GOP)相关联。对于场景的3DoF渲染，包括在第一视频轨131中的元数据和信令信息使得能够结合被编码到第一语法元素中的纹理数据获得场景的3D表示，3D场景根据单个第一视点被重构；

-第二视频轨132，其包括具有使得能够从在操作114被编码到第二语法元素中的几何形状数据来重构3D场景的几何形状的元数据的信令信息。第二视频轨132可以例如包括帧样点的序列1321，每个帧样点包括描述被编码到第二语法元素中的几何形状数据的部分的元数据。时间戳可以与每个帧样点相关联，帧样点例如与时间t的3D场景的图片或图片组(GOP)相关联；

-第三视频轨133，包括具有使得能够对于不同于第一视点的视点范围的视点，从在操作114被编码到第三语法元素中的纹理数据来重构3D场景的纹理的元数据的信令信息。第三视频轨133可以例如包括帧样点的序列1331，每个帧样点包括描述被编码到第三语法元素中的纹理数据的部分的元数据。时间戳可以与每个帧样点相关联，帧样点例如与时间t的3D场景的图片或图片组(GOP)相关联；以及

-第四轨134，包括可以与第一视频轨131、第二视频轨132和第三视频轨133中包括的数据相关联地使用的定时元数据(例如，非投影参数)。

3D场景的3DoF+渲染(即具有视差)使用四个轨131至134，而场景的简单3DoF渲染仅使用第一轨131，使得不兼容3DoF+(或6DoF)渲染的解码器和渲染器能够解释、解码和渲染表示3D场景的数据。根据上述格式的数据格式化使得能够从同一文件/容器根据3DoF或3DoF+对3D场景进行解码/渲染，这取决于解码器/渲染器的能力。这种文件格式/容器支持3DoF+内容与3DoF接收器的向后兼容性。

携带所需的3D几何形状和纹理数据的第二视频轨132和第三视频轨133使能3DoF+呈现：3DoF+几何形状轨携带投影的几何形状图，并且投影的3DoF+纹理轨携带投影的纹理图。指定一种非投影机制来将矩形视频帧的像素映射到3D点云数据上。特定的所谓多重偏移等矩形投影(Multiple Shifted Equi-Rectangular Projection，MS-ERP)可以被定义为默认的3D到2D投影，但是也可以实施其他替代的投影机制。该MS-ERP将一组等矩形投影组合到从中心视点(即第一视点30)且以不同方位偏移的球体上。

根据一种变型，另外的第二视频轨可以被用于在片图谱的片(几何形状和纹理)和对应的2D参数化与3D场景的相关联的3D部分之间传输映射信息，尤其是当几何形状片和纹理片以相同的方式被分别布置在几何形状片图谱和纹理片图谱中时。

根据一种变型，包括在第四轨134中的元数据没有被封装到容器13中。根据该变型，第四轨134的元数据以相同的结构在带内发送。带内发送例如对应于在具有第一语法元素、第二语法元素和第三语法元素的编码数据(在操作114获得)的比特流中的发送。元数据可以例如在SEI(Supplemental Enhancement Information，补充增强信息)消息中发送。

第二视频轨

在本公开中定义的第二视频轨132包含与3DoF+元素相关的几何形状信息。这种几何形状信息的可能的实施例是使用在子区域中组织的视频，对于这样的区域，每个都包含深度图、掩模(mask)和视点信息。对于一些内容，几何形状信息(例如，视点信息)的部分在整个内容中保持静态，本发明允许在静态的ISOBMFF框(box)中信令通知这种静态信息，但是也允许这种信息在内容中在某个时间动态改变时，在定时的元数据轨中传送这种信息。

类似于对第一视频轨131所进行的，为第二视频轨132定义受限的视频方案(例如，对于投影的3DoF+几何形状，这里是“p3pg”方案类型)，其包含携带以下信息的单个新的框(例如，这里是Projected3DoFplusGeometryBox)：

·投影的几何形状图的投影格式；

·投影格式的静态非投影参数；

·指示是否有其他在时间上动态的非投影参数的标志。

针对受限视觉样点条目类型“resv”使用投影的3DoF+几何形状视频方案指示解码的图片是投影的几何形状图图片。投影的3DoF+几何形状方案的使用由在SchemeTypeBox中scheme_type等于“p3pg”来指示。投影的几何形状图图片的格式用包含在SchemeInformationBox中的Projected3DoFplusGeometryBox来指示。

这些元素的说明性示例ISOBMFF语法是：

投影的3DoF+几何形状框

框类型：“p3pg”

容器：方案信息框(“schi”)

强制：当scheme_type等于“p3pg”时，是

数量：零或一

具有以下语义：

projection_type(在OMAF投影格式框(ISO/IEC DIS 23000-20全向媒体格式的研究，ISO/IEC JTC1/SC29/WG11N16950，2017年7月，意大利都灵)中定义，其语法通过框扩展机制重新使用)指示矩形解码器图片输出样点到3D坐标系的特定映射；projection_type等于0指示多重偏移等矩形投影(MS-ERP)。

static_flag等于0表示投影参数随时间动态更新。在这种情况下，引用当前视频轨的定时元数据轨被强制用于描述非投影的动态参数。当projection_type等于0时，static_flag应等于0。

ShiftedViewpointsGeometry指定由MS-ERP投影使用的所有视点及其相对于中心视点(即全局坐标系的原点)的相对位置。

num_viewpoints指示不同于中心视点的视点的数量，这些视点由MS-ERP投影使用；num_viewpoints的值范围从0到7。

radius是固定的点16。16值指定与全局坐标系原点的距离。

static_viewpoints_geometry_flag等于0指示由MS-ERP投影使用的附加视点的数量和几何形状随时间动态更新。在这种情况下，引用当前视频轨的定时元数据轨中的ShiftedViewpointsGeometry实例优先于在方案信息框中定义的静态实例。

第三视频轨

在本公开中定义的第三视频轨133包含与3DoF+元素相关的纹理信息。

类似于对第一视频轨131所进行的，在这里为投影的3DoF+纹理视频(例如，这里的“p3pt”方案类型)定义受限的视频方案，该方案包含携带以下信息的单个新的框(例如，这里的Projected3DoFplusTextureBox)：

·投影的纹理图的投影格式；

·投影格式的静态非投影参数；

·指示是否有其他在时间上动态的非投影参数的标志。

针对受限的视觉样点条目类型“resv”使用投影的3DoF+纹理视频方案指示解码的图片是包含从中心视点看不到但在3DoF+体验中未被覆盖的场景部分的纹理内容的投影图片。投影的3DoF+纹理方案的使用由在SchemeTypeBox中scheme_type等于“p3pt”来指示。投影的纹理图片的格式用包含在SchemeInformationBox中的Projected3DoFplusTextureBox来指示。

针对这些元素提出的ISOBMFF语法是：

投影3DoF+纹理框

框类型：“p3pt”

容器：方案信息框(“schi”)

强制：当scheme_type等于“p3pt”时，是

数量：零或一

其中，Projected3DoFplusTextureBox与3DoF+几何形状图形视频轨中的框相同。

第二视频轨和第三视频轨的分组135

第一视频轨131(3DoF)、3DoF+几何形状视频轨和3DoF+纹理视频轨将被关联在一起，因为除了第一视频轨131之外，它们不是独立的轨。第二视频轨和第三视频轨可以被包含在同一ISOBMFF轨组中。例如，track_group_type等于“3dfp”的TrackGroupTypeBox指示这是可以被处理以获得适合于3DoF+视觉体验的图片的一组轨。映射到这样分组的轨(即track_group_type等于“3dfp”的TrackGroupTypeBox内具有相同track_group_id值的轨)在与投影全向视频(3DoF)轨组合时，共同表示可以被呈现的3DoF+视觉内容。

以下一个或多个约束可以适用于映射到该分组的轨：

·该分组应包括样点条目类型等于“resv”的至少两个视频轨：至少一个具有标识3DoF+几何形状视频轨的scheme_type(例如，这里的“p3pd”)，并且一个具有标识3DoF+纹理视频轨的scheme_type(例如，这里的“p3pt”)；

·3DoF+几何形状图(“p3pg”)和纹理图(“p3pt”)视频轨的样点条目中包括的ProjectionFormat3DoFplusBox的实例的内容应相同；

·当ProjectionFormat3DoFplusBox内的static_flag等于0时，描述动态非投影参数的定时元数据轨(“dupp”)将出现在“moov”容器框13中，并链接到3DoF+轨组135(具有“cdtg”轨参考)。

第四轨

虽然一些非投影参数是静态的，并且可以在3DoF+几何形状和纹理轨(即，第二视频轨132和第三视频轨133)中描述，但是3DoF+内容的非投影参数的一部分是动态的。这种动态非投影参数可以在与第一视频轨131、第二视频轨132和第三视频轨133相关联的定时元数据轨(即，第四轨134)中被发送。

根据非限制性实施例，用于非投影参数的类型“dupp”(用于动态非投影参数)的元数据样点条目可以如下所述定义：

样点条目类型：“dupp”

容器：样点描述框(“stsd”)

强制：否

数量：零或一

class UnprojectionParametersSampleEntry()

extends MetadataSampleEntry('dupp'){

}

每个元数据样点包含从全向(3DoF)视频、投影的3DoF+几何形状视频和投影的3DoF+纹理视频(即第一视频轨131、第二视频轨132和第三视频轨133)执行去投影体积式视频的所有部分(3D片)所需要的所有所需信息。

3D片数据在它们相关联的投影表面上的投影产生不规则形状的2D区域的集(collection)，其矩形边界框通过指示它们的位置、方位和大小被进一步映射到打包的图片上。纹理和几何形状数据被打包在单独的图片中。纹理打包图片和几何形状打包图片的序列分别构成投影的3DoF+纹理图谱图和投影的3DoF+几何形状图谱图。

可以生成打包结构，该打包结构的灵感来源于OMAF中定义的按区域的打包结构(ISO/IEC DIS 23000-20全向媒体格式的研究，ISO/IEC JTC1/SC29/WG11N16950，2017年7月，意大利都灵)，但仅保留有用的参数(区域数量和对于所有区域：保护带信息、可选转换、位置和大小)。与OMAF的按区域的打包结构相比，区域数量也需要扩大，因为图谱预计将使用超过256个区域。

每个示例指定3D片列表。每个3D片描述3D场景体积(球面范围)的一部分，并链接到该片的投影纹理和几何形状数据的存储结构。这包括：

·关于从其观看3D片的所有视点的信息。如果该信息是静态的(因此在3DoF+几何形状和纹理轨中被信令通知)，则在定时元数据中也必须存在一标志来指示这一点。

·关于几何形状视频中所有2D矩形片的组织/打包的信息。这在本发明中被称为3DoF+几何形状图谱图。

·关于纹理视频中所有2D矩形片的组织/打包的信息。这在本发明中被称为3DoF+纹理图谱图。

·关于3D片数量的信息，以及对于每个3D片的关于以下的信息：

ο由偏转、俯仰和滚转角的最小值和最大值标识的3D片所描述的3D体积，

ο对其使用哪个视点(并且可能具有不同的方位)，

ο3DoF+几何形状图中的片的标识，

ο3DoF+纹理图(即第三视频轨133)中或第一视频轨131中的片的标识。

元数据样点格式的ISOBMFF中的可能的实施例如下：

其中：

static_viewpoints_geometry_flag指示由MS-ERP投影使用的移位视点的数量和位置是静态的，并且可以在ProjectionFormat3DoFplusBox中找到。

num_3Dpatches指定3D片的数量。

sphericalRange指定(在球面坐标中)片所描述的3D体积式：

·yaw_min和yaw_max指定相对于投影球坐标轴的最小偏转角和最大偏转角，单位为180*2^-16度；它们应在-2¹⁶至2¹⁶-1(包括端点)的范围内(即，±180°)；

·pitch_min和pitch_max指定相对于投影球坐标轴的最小俯仰角和最大俯仰角，单位为180*2^-16度；它们应在-2¹⁵至2¹⁵(包括端点)的范围内(即，±90°)；

·rho_min和rho_max是固定点16。16个值指定相对于投影球坐标轴的最小半径和最大半径(单位为米)。

omnidirectional_compatible_flag指示在第一视频轨中找到片纹理内容；

sphere_id值范围从0至7：

·sphere_id等于0指示使用用于第一视频轨的投影球(以场景坐标系的原点为中心)；如果omnidirectional_compatible_flag等于1，则sphere_id应等于0；如果omnidirectional_compatible_flag等于0，则sphere_id不应等于0；

·sphere_id值范围从1至num_viewpoints指示使用num_viewpoints中的哪一个附加的MS-ERP投影球体；在投影的3DoF+纹理视频轨中找到片纹理内容；

orientation_id指定当前MS-ERP投影球体坐标轴的方位：

·orientation_id值范围从1至3，对应于3个不同的方位；

·当sphere_id等于0时，orientation_id应等于0。

PatchAtlasPackingStruct指定这种矩形区域布局。UnprojectionParametersSample中的PatchAtlasPackingStruct的第一实例指定纹理片的打包布置，第二实例描述了几何形状片的打包布置。

texture_atlas_region_id指定打包的纹理图片(纹理片图谱)中矩形区域的索引。

geometry_atlas_region_id指定打包的几何形状图片(几何形状片图谱)中矩形区域的索引。

图14示出了当数据通过基于分组的传输协议被发送时，流的语法的实施例的示例。图14示出了体积式视频流的示例结构14。该结构包括以独立的语法元素来组织流的容器。该结构可以包括报头部分141，该报头部分141是流的每个语法元素共有的数据集合。例如，报头部分包括关于语法元素的元数据，描述了每个语法元素的性质和作用。报头部分还可以包括用于编码用于3D渲染的第一彩色图像的视点的坐标以及关于图片的大小和分辨率的信息。该结构包括有效载荷，该有效载荷包括第一语法元素142和至少一个第二语法元素143。第一语法元素142包括表示为3D渲染准备的第一彩色图像的数据，对应于与在操作114获得的编码在第一语法元素中的纹理数据相关联的第一视频轨。

一个或多个第二语法元素143包括与第二视频轨和第三视频轨以及在操作114获得的编码数据的相应的第二语法元素和第三语法元素相关联的几何形状信息和纹理信息。

为了说明的目的，在ISOBMFF文件格式标准的上下文中，纹理映射、几何形状映射和元数据通常在moov类型的框中在ISOBMFF轨中被引用，其中，纹理数据和几何形状数据本身嵌入在mdat类型的媒体数据框中。

图15示出了可以被配置为实施关于图11、图12、图16和/或图17描述的方法的设备15的示例架构。设备15可以被配置为图10的编码器101或解码器103。

设备15包括通过数据和地址总线151链接在一起的以下元件：

-微处理器152(或CPU)，其例如是DSP(数字信号处理器)；

-ROM(只读存储器)153；

-RAM(随机存取存储器)154；

-存储接口155；

-I/O接口156，用于从应用接收要发送的数据；以及

-电源，例如，电池。

根据示例，电源在设备外部。在提到的每个存储器中，说明书中使用的词语“寄存器”可以对应于小容量区域(一些比特)或非常大的区域(例如，整个程序或大量接收或解码的数据)。ROM 153至少包括程序和参数。ROM 153可以存储用于执行根据本原理的技术的算法和指令。当接通时，CPU 152将程序上载到RAM中，并执行对应的指令。

在寄存器中，RAM 154包括由CPU 152运行并在设备150接通后上载的程序、寄存器中的输入数据、寄存器中方法的不同状态的中间数据以及寄存器中用于执行该方法的其他变量。

这里描述的实施方式可以以例如方法或过程、装置、计算机程序产品、数据流或信号来实施。即使仅在单一形式的实施方式的上下文中讨论(例如，仅作为方法或设备讨论)，所讨论的特征的实施方式也可以以其他形式(例如，程序)来实施。装置可以用例如适当的硬件、软件和固件来实施。这些方法可以例如在诸如处理器的装置中实施，其通常指处理设备，包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备，诸如例如，计算机、蜂窝电话、便携式/个人数字助理(“personal digital assistant，PDA”)以及便于终端用户之间的信息通信的其他设备。

根据图10的编码或编码器101的示例，三维场景20从源获得。例如，该源属于包括以下各项的集合：

-本地存储器(153或154)，例如，视频存储器或RAM(随机存取存储器)、闪存、ROM(只读存储器)、硬盘；

-存储接口(155)，例如，具有大容量存储、RAM、闪存、ROM、光盘或磁性载体的接口；

-通信接口(156)，例如，有线接口(例如，总线接口、广域网接口、局域网接口)或无线接口(诸如IEEE 802.11接口或

接口)；以及

-用户界面(诸如图形用户界面)，使用户能够输入数据。

根据图10的解码或(多个)解码器103的示例，该流被传送到目的地；具体地，目的地属于包括以下各项的集合：

-本地存储器(153或154)，例如，视频存储器或RAM、闪存、硬盘；

-存储接口(155)，例如，具有大容量存储、RAM、闪存、ROM、光盘或磁性载体的接口；以及

-通信接口(156)，例如，有线接口(例如，有线接口(例如，USB(Universal SerialBus，通用串行总线))、广域网接口、局域网接口、HDMI(High Definition MultimediaInterface，高清晰度多媒体接口)接口)或无线接口(诸如IEEE 802.11接口、

或

接口)。

根据编码或编码器的示例，包括表示体积式场景的数据的比特流被传送到目的地。作为示例，比特流被存储在本地或远程存储器中，例如，视频存储器或RAM、硬盘。在一种变型中，比特流被传送到存储接口，例如，具有大容量存储、闪存、ROM、光盘或磁性载体的接口，和/或通过通信接口发送，例如，点对点链路、通信总线、点对多点链路或广播网络的接口。

根据图10的解码或解码器或渲染器103的示例，从源获得比特流。示例性地，比特流从本地存储器读取，例如，视频存储器、RAM、ROM、闪存或硬盘。在一种变型中，比特流从存储接口接收，例如，具有大容量存储、闪存、ROM、光盘或磁性载体的接口，和/或从通信接口接收，例如，点对点链路、总线、点对多点链路或广播网络的接口。

根据示例，设备15被配置为实施结合图11、图12、图16和/或图17描述的方法，并且属于包括以下各项的集合：

-移动设备；

-通信设备；

-游戏设备；

-平板电脑(平板计算机)；

-膝上型电脑；

-照相机；

-摄像机；

-编码芯片；

-服务器(例如，广播服务器、视频点播服务器或网络服务器)。

图16示出了根据本原理的非限制性实施例的用于对表示3D场景(例如3D场景20)的数据进行编码的方法。该方法可以例如在编码器101和/或设备15中实施。设备15的不同参数可以被更新。3D场景可以例如从源获得，可以在3D场景的空间中确定一个或多个视点，可以初始化与(多个)投影映射相关联的参数。

在第一操作161中，表示3D场景的纹理的第一数据被编码或格式化到容器或文件的第一视频轨。第一数据是指根据单个第一视点可见的3D场景的部分(例如，点或网格元素)。第一数据包括例如指向比特流的第一语法元素的元数据和信令信息，其包括被编码到3D场景的片或图像的像素中的纹理信息，例如通过3D到2D变换(例如，3D场景到片或图像的等矩形投影，每个片或图像与3D场景的一部分相关联)而获得。被编码到第一视频轨中的元数据包括例如3D到2D变换的参数或逆变换(2D到3D)的参数。第一数据一旦被解码或解释，就能够根据第一视点获得3D场景的3D表示，即没有视差的表示。

在第二操作162中，表示3D场景的几何形状的第二数据被编码或格式化到容器或文件的第二视频轨中。第二数据是指根据包括第一视点的视点集合(或范围)可见的3D场景的部分(例如，点或网格元素)。第二数据包括例如指向比特流的第二语法元素的元数据和信令信息，其包括被编码到3D场景的片或图像的像素中的几何形状信息，例如通过3D到2D变换(例如，3D场景在片或图像上的等矩形投影，每个片或图像与3D场景的一部分相关联)而获得。被编码到第二视频轨中的元数据包括例如3D到2D变换的参数或逆变换(2D到3D)的参数。

在第三操作163中，表示3D场景的至少一部分的纹理的第三数据被编码或格式化到容器或文件的第三视频轨中。第三数据是指根据集合的视点可见的3D场景的部分(例如，点或网格元素)，而没有根据第一视点可见的场景部分。第三数据包括例如指向比特流的第三语法元素的元数据和信令信息，其包括被编码到从集合中除第一视点之外的视点可见的3D场景的部分的片或图像的像素中的纹理信息，该片(或图像)是例如通过3D到2D变换(例如，3D场景到片或图像的等矩形投影，每个片或图像与3D场景的一部分相关联)而获得。被编码到第三视频轨中的元数据包括例如3D到2D变换的参数或逆变换(2D到3D)的参数。

在第四操作164中，元数据被编码到第四轨中。元数据与第二数据和第三数据相关联，并使得3D场景的3DoF+表示能够与第一视频轨、第二视频轨和第三视频轨(以及被编码到比特流的第一语法元素、第二语法元素和第三语法元素中的相关联的数据)一起。元数据包括表示用于获得第二数据和第三数据的一个或多个投影的信息，例如，从一视点到另一视点。

元数据包括以下信息中的至少一个(或其任意组合)：

-表示几何形状片的打包的信息，每个几何形状片与3D场景的一部分的投影相关联；

-表示纹理片的打包的信息，每个纹理片与3D场景的一部分的投影相关联；

-表示片数量的信息，每个片与3D场景的一部分相关联，并且与第二轨和第一视频轨或第三视频轨中的标识符相关联。

根据一种变型，第一视频轨、第二视频轨和第三视频轨分别引用的第一语法元素、第二语法元素和第三语法元素被封装在与第一视频轨、第二视频轨和第三视频轨相同的容器中。根据一种变型，第一语法元素、第二语法元素和第三语法元素的数据被封装在不同于包括第一视频轨、第二视频轨、第三视频轨和第四轨的数据或元数据的文件(或容器)的文件中，所有数据在单个比特流中被发送。

第二数据包括例如第一信息，其表示用于获得几何形状的投影格式、投影的参数和指示至少一些投影参数是否被动态更新的标志。当该标志指示参数被动态更新时，解析器可以从第四轨取得更新的参数。

第三数据包括例如第二信息，其表示用于获得几何形状的投影格式、投影的参数和指示至少一些投影参数是否被动态更新的标志。当该标志指示参数被动态更新时，解析器可以从第四轨取得更新的参数。

根据另一种变型，当第一信息和第二信息相同时，第一视频轨和至少第二视频轨被分组在同一轨组中。

图17示出了根据本原理的非限制性实施例的用于对表示3D场景(例如，3D场景20)的数据进行解码的方法。该方法可以例如在编码器101和/或设备15中实施。

在第一操作171中，从接收到的容器的第一视频轨解码或解释表示根据第一视点可见的3D场景的部分的纹理的第一数据，该容器例如被包括在比特流中。

在第二操作172中，从接收到的容器的第二视频轨解码或解释表示根据包括第一视点的视点集合可见的3D场景的几何形状的第二数据。

在第三操作173中，从容器的第三视频轨解码或解释表示从集合中不包括第一视点的视点可见的3D场景的(多个)部分的纹理的第三数据。

在第四操作174中，从容器的第四轨中解码或解释元数据。该元数据与第二数据和第三数据相关联，并使得3D场景的3DoF+表示能够与第一视频轨、第二视频轨和第三视频轨(以及被编码到比特流的第一语法元素、第二语法元素和第三语法元素中的相关联的数据)一起。该元数据包括表示用于获得第二数据和第三数据的一个或多个投影的信息。

自然地，本公开不限于先前描述的实施例。

具体地，本公开不限于用于对表示3D场景的数据进行编码/解码的方法和设备，而是还扩展到用于生成包括编码数据的比特流的方法，并且扩展到实施该方法的任何设备，特别是包括至少一个CPU和/或至少一个GPU的任何设备。

本公开还涉及一种用于显示从比特流的解码数据渲染的图像的方法(和配置用于该方法的设备)。

本公开还涉及用于发送和/或接收该比特流的方法(和配置用于该方法的设备)。

这里描述的实施方式可以以例如方法或过程、装置、计算机程序产品、数据流或信号来实施。即使仅在单一形式的实施方式的上下文中讨论(例如，仅作为方法或设备讨论)，所讨论的特征的实施方式也可以以其他形式(例如，程序)来实施。装置可以用例如适当的硬件、软件和固件来实施。这些方法可以例如在诸如处理器的装置中实施，其通常指处理设备，包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备，诸如例如，智能电话、平板电脑、计算机、移动电话、便携式/个人数字助理(“PDA”)以及便于终端用户之间的信息通信的其他设备。

这里描述的各种过程和特征的实施方式可以体现在各种不同的设备或应用中，特别是，例如，与数据编码、数据解码、视图生成、纹理处理以及图像和相关纹理信息和/或深度信息的其他处理相关联的设备或应用。这种设备的示例包括编码器、解码器、处理从解码器的输出的后处理器、向编码器提供输入的预处理器、视频编码器、视频解码器、视频编解码器、网络服务器、机顶盒、膝上型电脑、个人计算机、蜂窝电话、PDA和其他通信设备。应该清楚的是，该设备可以是移动的，甚至可以安装在移动车辆中。

另外，该方法可以通过由处理器执行的指令来实施，并且这种指令(和/或由实施方式产生的数据值)可以被存储在处理器可读介质上，诸如例如，集成电路、软件载体或其他存储设备，诸如例如，硬盘、致密盘(“CD”)、光盘(诸如例如，通常被称为数字多功能盘或数字视频盘的DVD)、随机存取存储器(“RAM”)或只读存储器(“ROM”)。这些指令可以形成有形地体现在处理器可读介质上的应用程序。指令可以是在例如硬件、固件、软件或其组合中。指令可以在例如操作系统、单独的应用或两者的组合中找到。因此，处理器可以被表征为例如被配置为执行过程的设备和包括具有用于执行过程的指令的处理器可读介质(例如，存储设备)的设备。此外，除了指令之外或代替指令，处理器可读介质可以存储由实施方式产生的数据值。

对于本领域技术人员来说显而易见的是，实施方式可以产生各种格式化以承载例如可以被存储或发送的信息的信号。该信息可以包括例如用于执行方法的指令，或者由所描述的实施方式之一产生的数据。例如，信号可以被格式化以作为数据携带用于写入或读取所描述的实施例的语法的规则，或者作为数据携带由所描述的实施例写入的实际语法值。这种信号可以被格式化为例如电磁波(例如，使用频谱的射频部分)或基带信号。格式化可以包括例如对数据流进行编码和用编码的数据流调制载波。信号携带的信息可以是例如模拟或数字信息。如已知的，信号可以通过各种不同的有线或无线链路被发送。信号可以被存储在处理器可读介质上。

已经描述了许多实施方式。然而，应当理解，可以进行各种修改。例如，不同实施方式的元素可以被组合、补充、修改或移除以产生其他实施方式。另外，本领域普通技术人员将理解，可以用其他结构和过程来替代所公开的那些结构和过程，并且所得到的实施方式将以至少基本上相同的方式执行至少基本上相同的(多个)功能，以实现与所公开的实施方式至少基本上相同的(多个)结果。因此，本申请考虑了这些和其他实施方式。

Claims

1.一种将表示3D场景的数据编码到容器中的方法，所述方法包括：

-将表示根据第一视点可见的所述3D场景的纹理的第一数据编码到所述容器的第一视频轨中；

-将表示根据包括所述第一视点的视点集合可见的所述3D场景的几何形状的第二数据编码到所述容器的至少第二视频轨中；

-将表示仅从集合中不包括所述第一视点的视点可见的所述3D场景的纹理的第三数据编码到所述容器的第三视频轨中；以及

-将元数据编码到所述容器中，所述元数据与所述第一视频轨的第一数据，所述至少第二视频轨的第二数据和所述第三视频轨的第三数据相关联，所述元数据包括表示用于获得所述第二数据和所述第三数据的至少一个投影的信息。

2.一种被配置用于将表示3D场景的数据编码到容器中的设备，所述设备包括与至少一个处理器相关联的存储器，所述至少一个处理器被配置为：

3.根据权利要求1所述的方法或根据权利要求2所述的设备，其中，所述第一视频轨引用比特流的第一语法元素，所述至少第二视频轨引用所述比特流的至少第二语法元素，并且所述第三视频轨引用所述比特流的第三语法元素。

4.根据权利要求1和3之一所述的方法或根据权利要求2和3之一所述的设备，其中，所述第二数据包括第一信息，其表示用于获得所述几何形状的投影的格式、所述投影的参数和指示至少一些投影参数是否被动态更新的标志。

5.根据权利要求1、3和4之一所述的方法或根据权利要求2至4之一所述的设备，其中，所述第三数据包括第二信息，其表示用于获得所述纹理的投影的格式、所述投影的参数和指示至少一些投影参数是否被动态更新的标志。

6.根据权利要求4和5的方法或根据权利要求4和5的设备，其中，当所述第一信息和第二信息相同时，所述第一视频轨和所述至少第二视频轨被分组在同一轨组中。

7.根据权利要求1和3至6之一所述的方法或根据权利要求2至6之一所述的设备，其中，所述元数据包括以下信息中的至少一项：

-表示与用于获得所述几何形状和所述纹理的至少一个投影相关联的至少一个视点的信息；

-表示几何形状的矩形2D片的打包的信息，几何形状的每个片与3D场景的一部分的投影相关联；

-表示3D片的数量的信息，每个3D片与所述3D场景的一部分相关联，并且与所述第二轨中和所述第一视频轨中或所述第三视频轨中的标识符相关联。

8.一种从容器中解码表示3D场景的数据的方法，所述方法包括：

-从所述容器的第一视频轨中解码表示根据第一视点可见的所述3D场景的纹理的第一数据；

-从所述容器的至少第二视频轨中解码表示根据包括所述第一视点的视点集合可见的所述3D场景的几何形状的第二数据；

-从所述容器的第三视频轨中解码表示仅从所述集合中不包括所述第一视点的视点可见的所述3D场景的纹理的第三数据；以及

-从所述容器解码元数据，所述元数据与所述第一视频轨的第一数据，所述至少第二视频轨的第二数据和所述第三视频轨的第三数据相关联，所述元数据包括表示用于获得所述第二数据和所述第三数据的至少一个投影的信息。

9.一种被配置用于从容器中解码表示3D场景的数据的设备，所述设备包括与至少一个处理器相关联的存储器，所述至少一个处理器被配置为：

10.根据权利要求8所述的方法或根据权利要求9所述的设备，其中，所述第一视频轨引用比特流的第一语法元素，所述至少第二视频轨引用所述比特流的至少第二语法元素，并且所述第三视频轨引用所述比特流的第三语法元素。

11.根据权利要求8和10之一所述的方法或根据权利要求9和10之一所述的设备，其中，所述第二数据包括第一信息，其表示用于获得所述几何形状的投影的格式、所述投影的参数和指示至少一些投影参数是否被动态更新的标志。

12.根据权利要求8、10和11之一所述的方法或根据权利要求9至11之一所述的设备，其中，所述第三数据包括第二信息，其表示用于获得所述几何形状的投影的格式、所述投影的参数和指示至少一些投影参数是否被动态更新的标志。

13.根据权利要求11和12所述的方法或根据权利要求11和12所述的设备，其中，当所述第一信息和第二信息相同时，所述第一视频轨和所述至少第二视频轨被分组在同一轨组中。

14.根据权利要求8和10至13之一所述的方法或根据权利要求9至13之一所述的设备，所述元数据包括以下信息中的至少一项：

-表示几何形状的片的打包的信息，几何形状的每个片与所述3D场景的一部分的投影相关联；

-表示纹理的片的打包的信息，纹理的每个片与所述3D场景的一部分的投影相关联；

15.一种携带表示3D场景的数据的比特流，所述数据在容器的第一视频轨中包括表示根据第一视点可见的所述3D场景的纹理的第一数据；在所述容器的至少第二视频轨中包括表示根据包括所述第一视点的视点集合可见的所述3D场景的几何形状的第二数据；在所述容器的第三视频轨中包括表示仅从所述集合中不包括所述第一视点的视点可见的所述3D场景的纹理的第三数据；以及在所述容器中包括元数据，所述元数据与所述第一视频轨的第一数据，所述至少第二视频轨的第二数据和所述第三视频轨的第三数据相关联，所述元数据包括表示用于获得所述第二数据和所述第三数据的至少一个投影的信息。