CN112425177B

CN112425177B - 用于体积视频传输的方法和装置

Info

Publication number: CN112425177B
Application number: CN201980046723.6A
Authority: CN
Inventors: J.弗勒罗; R.多尔; C.萨尔蒙-勒加尼厄; R.霍达勒
Original assignee: InterDigital VC Holdings Inc
Current assignee: InterDigital VC Holdings Inc
Priority date: 2018-07-12
Filing date: 2019-06-21
Publication date: 2023-06-20
Anticipated expiration: 2039-06-21
Also published as: EP3821610A1; WO2020013975A1; US20210274147A1; US11483536B2; CN112425177A; KR20210027482A; EP3595319A1; KR102670822B1; EP3821610B1

Abstract

提供了一种方法和设备，其用于在用体积视频内容的集合表示的3D场景中发送表示视点的信息；接收集合的第一体积视频内容，所述第一体积视频内容是根据包括所述视点的视点范围，所述第一体积视频内容由第一补丁的集合表示，每个第一补丁对应于对与第一体积视频内容相关联的3D场景的3D部分中的第一组点的二维参数化，并且至少一个第一补丁参照第二补丁的区域，第二补丁对应于对与所述体积视频内容的集合的第二体积视频内容相关联的3D场景的另一3D部分中的第二组点的二维参数化。

Description

用于体积视频传输的方法和装置

技术领域

本文档涉及三维(3D)场景和体积视频内容的领域。还可以在对表示3D场景深度的数据进行编码和/或格式化的上下文中理解本文档，例如用于在诸如移动设备或头戴式显示器的终端用户设备上呈现(render)体积内容。

背景技术

本部分旨在向读者介绍本领域的各个方面，这些方面可能与以下描述和/或要求保护的各个方面有关。相信该讨论有助于向读者提供背景信息以促进对本说明书的更好理解。因此，应从这个角度来阅读这些陈述，而不是作为对现有技术的承认。

近来，可用的大视场内容(高达360°)不断增长。用户在诸如头戴式显示器、智能眼镜、PC屏幕、平板电脑、智能手机等沉浸式显示设备上观看内容时，可能无法完全看到此类内容。这意味着在给定的时刻，用户可能只观看到内容的一部分。然而，用户通常可以通过诸如头部移动、鼠标移动、触摸屏、语音等之类的各种方式在内容内导航。通常期望编码和解码该内容。

沉浸式视频(也称为360°平面视频)允许用户通过围绕静止视点旋转其头部来观看自己周围的一切。旋转仅允许3自由度(3Degrees of Freedom，3DoF)的体验。即使3DoF视频足以满足首次全向视频体验(例如使用头戴式显示设备(Head-Mounted Displaydevice，HMD))，对于期望更大自由度的观看者来说，3DoF视频也会很快变得令人沮丧(例如通过体验视差)。另外，3DoF也可能引起头晕，因为用户不仅旋转其头部，而且还在三个方向上平移头部，这些平移在3DoF视频体验中是无法再现的。

体积视频(也称为6自由度(6Degrees of Freedom，6DoF)视频)是3DoF视频的替代。当观看6DoF视频时，除了旋转之外，用户还可以在观看的内容内平移其头部甚至身体，并体验视差甚至体积。这样的视频通过在头部平移过程中提供一致的视觉反馈，大大增加了沉浸感和景深感，并防止了头晕。通过专用传感器创建内容，该专用传感器允许同时记录感兴趣场景的颜色和深度。一组彩色相机与摄影测量技术结合使用是执行此类记录的常用方法。

这种体积视频内容的数据量很重要，并且需要大的存储容量，并且需要高比特率来传输这种数据。

发明内容

说明书中对“一个实施例”、“实施例”、“示例实施例”、“特定实施例”的引用表示所描述的实施例可以包括特定的特征、结构或特性，但是每个实施例不一定都包括特定特征、结构或特性。而且，这样的短语不一定指相同的实施例。此外，当结合实施例描述特定的特征、结构或特性时，可以认为无论是否有明确的描述，结合其他实施例来影响这种特征、结构或特性都在本领域技术人员的知识范围内。

根据一个实施例，一种方法包括：

-接收表示3D场景中的视点的信息，所述3D场景用体积视频内容的集合表示；

-发送所述集合的第一体积视频内容，所述第一体积视频内容是根据包括所述视点的视点范围，所述第一体积视频内容用第一补丁(patch)的集合表示，所述集合的每个第一补丁对应于对包括在与第一体积视频内容相关联的3D场景的3D部分中的第一组点的二维参数化，所述集合的至少一第一补丁参照至少一第二补丁的至少一区域，第二补丁对应于对包括在与所述体积视频内容的集合的第二体积视频内容相关联的3D场景的另一3D部分中的第二组点的二维参数化。

根据另一实施例，一种设备被配置为：

-发送所述集合的第一体积视频内容，所述第一体积视频内容是根据包括所述视点的视点范围，所述第一体积视频内容用第一补丁的集合表示，所述集合的每个第一补丁对应于对包括在与第一体积视频内容相关联的3D场景的3D部分中的第一组点的二维参数化，所述集合的至少一第一补丁参照至少一第二补丁的至少一区域，第二补丁对应于对包括在与所述体积视频内容的集合的第二体积视频内容相关联的3D场景的另一3D部分中的第二组点的二维参数化。

根据另一实施例，一种方法包括：

-发送表示3D场景中的视点的信息，所述3D场景用体积视频内容的集合表示；

-接收所述集合的第一体积视频内容，所述第一体积视频内容是根据包括所述视点的视点范围，所述第一体积视频内容用第一补丁的集合表示，所述集合的每个第一补丁对应于对包括在与第一体积视频内容相关联的3D场景的3D部分中的第一组点的二维参数化，所述集合的至少一第一补丁参照至少一第二补丁的至少一区域，第二补丁对应于对包括在与所述体积视频内容的集合的第二体积视频内容相关联的3D场景的另一3D部分中的第二组点的二维参数化。

根据另一实施例，一种设备被配置为：

根据另一实施例，一种计算机程序产品，包括当在计算机上执行程序时用于执行上述(多个)方法的步骤的程序代码指令。

根据另一实施例，一种(例如，非暂时性的)处理器可读介质，在其中存储用于使处理器执行上述(多个)方法的步骤的指令。

附图说明

通过阅读以下描述，将更好地理解本说明书，并且将显现出其他具体特征和优点，该描述参考了附图，其中：

-图1示出了根据非限制性实施例的表示三维(3D)场景的图像；

-图2示出了根据非限制性实施例的图1的3D场景的对象的三维(3D)模型以及与该3D模型相对应的点云的点；

-图3示出了根据非限制性实施例的包括图1的3D场景的点的纹理信息的画面；

-图4示出了根据非限制性实施例的包括图1的3D场景的点的深度信息的画面；

-图5示出了根据非限制性实施例的图1的3D场景的至少一部分的2D参数化；

-图6示出了根据非限制性实施例的表示3D场景的数据的编码、发送、接收和解码的示例；

-图7和图8示出了根据非限制性实施例的对于对应于图1的3D场景的体积视频内容的存储和流传输以用于该体积内容的6DoF呈现；

-图9和图10示出了对于对应于图1的3D场景的体积内容的存储和流传输以用于该体积内容的6DoF呈现的另一非限制性实施例；

-图11示出了根据非限制性实施例的比特流的语法的示例，该比特流承载表示图7或9的体积视频内容的至少一部分的数据；

-图12示出了根据非限制性实施例的设备的示例架构，该设备可以被配置为实现关于图7、8、9、10、13和/或14描述的方法或处理；

-图13示出了根据非限制性实施例的、例如在图12的设备中实现的用于发送表示体积视频内容的数据的方法的示例，该体积视频内容表示图1的3D场景的至少一部分；

-图14示出了根据非限制性实施例的、例如在图12的设备中实现的用于接收表示体积视频内容的数据的方法的示例，该体积视频内容表示图1的3D场景的至少一部分。

具体实施方式

现在参考附图描述主题，其中，贯穿全文，相同的附图标记用于指代相同的元件。在下面的描述中，出于说明的目的，阐述了许多具体细节以便提供对主题的透彻理解。然而，显而易见的是，可以在没有这些具体细节的情况下实践主题实施例。

根据非限制性实施例，公开了用于发送和/或接收体积视频内容的数据的方法和设备。应当理解，本领域技术人员将能够根据下文描述的实施例来设计各种布置。

描述了用于发送表示3D场景的体积视频内容的集合的第一体积视频内容的方法(和被配置用于发送表示3D场景的体积视频内容的集合的第一体积视频内容的装置)的一个或多个实施例。接收表示3D场景中给定视点的信息。响应于对表示给定视点的信息的接收，发送第一体积视频内容，该第一体积视频内容是根据视点范围(即，第一体积视频内容表示从视点范围内看到的3D场景的3D部分)，该视点范围包括该给定视点。第一体积视频内容用第一补丁的集合表示，该集合的每个第一补丁对应于对包括在与第一体积视频内容相关联的3D场景的3D部分中的第一组点的二维参数化。集合的至少一第一补丁参照至少一第二补丁的至少一区域，该第二补丁对应于对包括在与该体积视频内容的集合的第二体积视频内容相关联的3D场景的另一3D部分中的第二组点的二维参数化。

描述了一种用于接收表示3D场景的体积视频内容的集合的第一体积视频内容的方法(和被配置用于接收表示3D场景的体积视频内容的集合的第一体积视频内容的装置)的一个或多个实施例。发送表示3D场景中的给定视点的信息。响应于对表示给定视点的信息的发送，接收第一体积视频内容，该第一体积视频内容是根据视点范围(即，第一体积视频内容表示从视点范围内看到的3D场景的3D部分)，该视点范围包括该给定视点。第一体积视频内容用第一补丁的集合表示，该集合的每个第一补丁对应于对包括在与第一体积视频内容相关联的3D场景的3D部分中的第一组点的二维参数化。集合的至少一第一补丁参照至少一第二补丁的至少一区域，该第二补丁对应于对包括在与该体积视频内容的集合的第二体积视频内容相关联的3D场景的另一3D部分中的第二组点的二维参数化。

图1示出了表示包括若干个对象的表面表示的三维(3D)场景10的图像。该场景可以已经使用任何合适的技术而获取。例如，它可以是已经使用计算机图形界面(CGI)工具而创建的。它可以是已经利用彩色和深度图像获取设备而获取的。在这种情况下，可能无法在如相对于图1所描述的场景中表示从获取设备(例如相机)不可见的对象的一个或多个部分。获取与3D场景的元素(例如，点)相关联的数据，该数据对应于与场景的元素相关联的属性，即纹理(颜色)属性和/或几何结构属性。例如，可以获取时间上连续的图像的序列。可以使用一个或多个光电传感器来获取纹理属性，并且例如可以使用一个或多个深度传感器来获取几何结构属性。根据变型，通过CGI(计算机生成的图像)技术获得3D场景。3D场景的至少一部分是根据多个视点(例如根据包括第一中心视点的视点范围)而可见的。根据变型，3D场景既不是通过CGI获取也不是通过CGI生成的，而是从云、体积内容的库或任何存储单元或装置中取得的。图1所示的示例场景包括房间中人物和物体。3D场景10的根据图1中确定的视点表示的。该视点例如可以是用户可以从中观察3D场景的视空间的一部分。根据变型，可用的3D场景的内容(深度和/或纹理信息)仅对应于从图1的确定的视点可见的场景的元素(例如，点)。

图2示出了对象20的三维(3D)模型以及与3D模型20相对应的点云21的点。3D模型20和点云21可以例如对应于3D场景10的对象(例如人物的头部)的可能的3D表示。模型20可以是3D网格表示，并且点云21的点可以是网格的顶点。点云21的点也可以是散布在网格的面的表面上的点。模型20还可以表示为点云21的喷溅(splatted)版本，通过喷溅点云21的点来创建模型20的表面。模型20可以由诸如体素或样条的许多不同的表示来表示。图2说明了一个事实，即可以用3D对象的表面表示来定义点云，并且可以从云的点生成3D对象的表面表示。如本文所使用的，将3D对象的点投影(通过扩展3D场景的点)到图像上等同于投影该3D对象的任何图像表示以创建对象。

点云可被视为基于矢量的结构，其中每个点具有其坐标(例如，三维坐标XYZ或距给定视点的深度/距离)和一个或多个属性(也称为分量)。分量的示例是可以在例如RGB(红色、绿色和蓝色)或YUV(Y是亮度分量，而UV是两个色度分量)的各种颜色空间中表示的颜色分量。点云是从给定视点或视点范围内看到的对象的表示。点云可以通过多种方式获得，例如：

·从由一组相机拍摄的真实对象的捕获中获得，可选地由深度主动感测设备进行补充；

·从建模工具中的一组虚拟相机拍摄的虚拟/合成对象的捕获中获得；

·从真实对象和虚拟对象两者的混合中获得。

3D场景的体积部分可以例如由一个或几个点云(诸如点云21)表示。

图3示出了根据非限制性实施例的画面30的示例，该画面30包括3D场景10的一部分(例如，从视空间(对应于连续视点范围)看到的3D场景的一部分)的点的纹理信息(例如，RGB数据或YUV数据)。

画面30包括第一部分301和一个或多个第二部分302，第一部分301包括从第一视点可见的3D场景的部分的元素(点)的纹理信息。例如，可以根据等距柱状投影映射(equirectangular projection mapping)来获得第一部分301的纹理信息，等距柱状投影映射是球面投影映射的示例以及3D场景的部分的二维(2D)参数化的示例。在图3的示例中，第二部分布置在第一部分301的左右边界处，但是第二部分可以不同地布置。第二部分302包括与从第一视点可见的部分互补的3D场景的部分(其可以对应于根据除第一视点之外的视空间内的其他视点可见的3D场景的部分)的纹理信息。可以通过从3D场景中去除从第一视点可见的点(其纹理存储在第一部分中)并通过根据相同的第一视点来投影其余点来获得第二部分。可以迭代地重复上述后者的处理，以便每次获得3D场景的隐藏部分。根据变型，可以通过从3D场景中去除从第一视点可见的点(其纹理存储在第一部分中)并且通过根据不同于第一视点的视点(例如从以第一视点为中心的视空间的一个或多个第二视点)来投影其余点来获得第二部分。每个第二部分可以被视为通过对与所述第二部分相对应的场景的部分进行2D参数化而获得的补丁。

第一部分301可以被视为第一大纹理补丁(对应于3D场景的第一部分)，而第二部分302被视为包括较小的纹理补丁的集合(对应于与第一部分互补的3D场景的第二部分)。

画面30可以对应于与3D场景10的从视空间观看的部分相关联的体积视频内容的纹理信息/数据。可以对应于连续视点范围(例如，以第一视点为中心)的视空间与该体积视频内容相关联。

图4示出了根据非限制性实施例的画面40的示例，画面40包括3D场景10的部分的点的深度信息。画面40可以被视为与纹理画面30相对应的深度画面。

画面40包括第一部分401和一个或多个第二部分402，第一部分401包括从第一视点可见的3D场景的元素(点)的深度信息。画面40可以以与画面30相同的方式获得，但是包含与3D场景的点相关联的深度信息，而不是如画面30中的纹理信息。

第一部分401可以被视为第一大深度补丁(对应于3D场景的第一部分)，第二部分402包括较小的纹理补丁(对应于与第一部分互补的3D场景第二部分)。

对于3D场景的部分的3DoF呈现，仅考虑一个视点，例如第一视点。用户可以围绕第一视点以三个自由度旋转其头部以观看3D场景的各个部分，但是用户不能移动第一视点。待编码场景的点是从该第一视点可见的点，并且仅纹理信息需要被编码/解码以用于进行3DoF呈现。不需要对从该第一视点不可见的场景的点进行编码，因为用户无法通过移动第一视点来访问它们。

关于3DoF+呈现，用户可以在视点周围(例如在第一视点周围)的有限空间内移动视点，视点周围的有限空间对应于与画面30和40相关联的视空间。例如，用户可以在以第一视点为中心的确定的视空间内移动他的视点。这样可以体验视差。表示从视空间的任何点可见的场景部分的数据将被编码到流中，包括表示根据第一视点可见的3D场景的数据(即第一部分301和401)。例如，视空间的大小和形状可以在编码步骤决定和确定，并在比特流中进行编码。解码器可以从比特流中获得此信息，并且呈现器将视空间限制为由所获得的信息确定的空间。根据另一示例，呈现器根据硬件约束(例如，与检测用户的运动的(多个)传感器的能力有关)来确定视空间。在这种情况下，如果在编码阶段未将从呈现器的视空间内的某个点可见的点编码在比特流中，则不会呈现此点。根据另一示例，表示3D场景的每个点的数据(例如，纹理和/或几何结构)在流中被编码，而无需考虑视图的呈现空间。为了优化流的大小，可以仅编码场景的点的子集，例如根据呈现视空间可以看到的点的子集。

关于6DoF呈现，用户可以将视点移动到场景中的任何位置(即，根据3个旋转(围绕偏航、俯仰和横滚轴)和3个平移(沿着偏航、俯仰和横滚轴)。对于6DoF呈现，场景的每个点(深度和纹理)都必须在比特流中进行编码，因为每个点都可能被可移动其视点的用户访问。在编码阶段，没有办法先验地知道用户将从哪个视点观察3D场景10。

图5示出了根据非限制性实施例获得3D场景的一部分(例如3D场景10的人物之一)的补丁，该补丁可以打包在一个或多个补丁图谱54、55上或画面30和40上。从给定的视空间看到3D场景的一部分。表示3D对象5的点云被划分为多个3D部分，例如5、10、50、100、1000或更多个3D部分，其中3个示出在图5上，即3D部分52、53和51，3D部分51包括表示人的头部部分的点云的点。3D部分52包括表示人的腋窝的点云的点，而3D部分53包括表示人的手的点云的点。生成每个3D部分或3D部分的一部分的一个或多个补丁，以便以二维(即根据2D参数化)表示每个3D部分。例如，对于3D部分51获得2D参数化501，对于3D部分52获得2D参数化502，并且对于3D部分53可以获得2个不同的2D参数化503和504。2D参数化可以从一个3D部分到另一个3D部分有所不同。例如，与3D部分51相关联的2D参数化501是线性透视投影，而与3D部分52相关联的2D参数化502是LLE，并且与3D部分53相关联的2D参数化503和504都是根据不同视点的正交投影。根据变型，与所有3D部分相关联的所有2D参数化是相同类型，例如线性透视投影或正交投影。根据变型，不同的2D参数化可以用于相同的3D部分。

与点云的一个给定3D部分相关联的2D参数化对应于对于点云的给定3D部分的2维浏览，从而允许对给定3D部分进行采样，即，该给定3D部分的内容(即，(多个)点)的2D表示包括多个样本(可以对应于第一图像的像素)，其数量取决于所应用的采样步骤。可以通过多种方式获得2D参数化，例如，通过实施以下任何一种方法：

-点云的3D部分的点到与视点相关联的平面上的线性透视投影，表示线性透视投影的参数包括虚拟相机的位置，空间采样步骤和2维中的视场；

-点云的3D部分的点到表面上的正交投影，表示正交投影的参数包括投影表面的几何结构(形状、大小和方向)和空间采样步骤；

-与降维数学运算相对应的LLE(局部线性嵌入，Locally-Linear Embedding)，这里应用于从3D到2D的转换/变换，表示LLE的参数包括变换系数。

每个补丁有利地具有矩形形状，以简化在补丁图谱54、55上的打包处理。补丁图谱54可以是几何结构补丁图谱，即像素画面包括不同的补丁541、542、543和544(例如，可以被视为像素的阵列)，通过投影/2D参数化相关联的3D部分的点而获得的几何结构信息与每个像素关联。几何结构信息可以对应于深度信息或关于网格元素的顶点的位置的信息。可以以相同的方式获得包括与3D部分相关联的纹理信息的对应的纹理补丁图谱55。

可以生成将每个2D参数化链接到其在几何结构补丁图谱和纹理补丁图谱中的相关联的补丁的映射信息。可以生成映射信息以保持2D参数化分别与几何结构补丁图谱中的相关联的几何结构补丁和纹理补丁图谱中的相关联的纹理补丁之间的连接。映射信息可以例如具有以下形式：

{二维参数化的参数；几何结构补丁ID；纹理补丁ID}

其中，几何结构补丁ID可以是整数值或者是包括几何结构补丁图谱的补丁矩阵中所属的几何结构补丁的列索引U和行索引V的一对值；纹理补丁ID可以是整数值或者是包括纹理补丁图谱的补丁矩阵中的所述纹理补丁所属的列索引U’和行索引V’的一对值。

当在几何结构补丁图谱和纹理补丁图谱中按照相同的布置来布置几何结构补丁和纹理补丁时，几何结构补丁ID和纹理补丁ID是相同的，并且映射信息可以例如是以下形式：

{二维参数化的参数；几何结构和纹理补丁ID}

其中，“几何结构和纹理补丁ID”通过与几何结构补丁和纹理补丁两者相关联的相同整数值或通过几何结构补丁图谱和纹理补丁图谱中几何结构补丁和纹理补丁分别所属的列索引U和行索引V的一对值，来标识所述几何结构补丁图谱中的所述几何结构补丁和所述纹理补丁图谱中的所述纹理补丁两者。

为每个2D参数化以及相关联的几何结构补丁和纹理补丁生成相同的映射信息。这样的映射信息使得能够通过建立2D参数化与对应的几何结构补丁和纹理补丁的关联来重构3D场景的对应部分。如果2D参数化是投影，则可以通过对相关联的几何结构补丁中包含的几何结构信息和相关联的纹理补丁中包含的纹理信息进行解投影(执行逆投影)来重构3D场景的对应部分。然后，映射信息对应于映射信息的列表：

{二维参数化的参数；几何结构和纹理补丁ID}_i，

对于i＝1到n，n为2D参数化的数量。

补丁图谱54、55中包含的信息使得能够对从与3D场景的一部分相关联的给定视空间中看到场景的3D部分进行3DoF+呈现，即，正在观看从补丁图谱呈现的3D场景的一部分的用户可以根据视空间中包含的各个视点来浏览场景。

图7示出了根据非限制性实施例的体积视频内容70、71、72和73的集合。

每个体积视频内容70至73表示根据给定视点范围的3D场景的3D部分，每个体积视频内容70至73使得能够对用所述每个体积视频内容表示的3D场景的部分进行3DoF+呈现。体积视频内容70至73的集合使得例如能够完整地表示3D场景并且使用户能够浏览整个3D场景。根据变型，仅3D场景的一部分用体积视频内容的集合表示。例如，可以在场景内确定3D路径，并且该体积视频内容的集合使用户能够沿着该3D路径浏览3D场景。

可以将3D场景的3D空间采样为多个确定的视点(例如，图7所示的3D路径的视点X＝0，X＝1，X＝2和X＝3)并且从每个确定的视点生成体积视频内容以获得3D场景的完整表示。视空间或视点范围与每个体积视频内容相关联，给定体积视频内容的视空间例如以从其生成体积视频内容的视点为中心。两个相邻的体积视频内容之间存在内容重叠，以确保终端用户能够平滑浏览。例如，体积视频内容70和71可以部分重叠，体积视频内容71和72可以部分重叠，体积视频内容72和73可以部分重叠。两个体积视频内容的内容重叠意味着与两个相邻的体积视频内容相关联的视空间中包括的一些视点对于两个视空间是公共的。

每个体积视频内容70至73用补丁700、701、702和703的集合表示，其包括纹理和几何结构信息。如关于图3、4和/或5所描述的，补丁的集合可以布置在画面或补丁图谱内。

图8示出了根据非限制性实施例的根据图7的体积视频内容的集合18来对3D场景或其一部分进行6DoF呈现的处理。

根据图8的实施例，终端用户穿戴沉浸式呈现设备80(例如，HMD)以浏览3D场景的视频表示。例如使用HMD的IMU(惯性测量单元)在3D场景内(即，在3D场景的空间中)确定终端用户的位置。HMD可以包括一个或多个显示屏(例如LCD(液晶显示器)、OLED(有机发光二极管)或LCOS(硅上液晶))和例如陀螺仪或IMU(惯性测量单元)的被配置用于根据现实世界的一个、二个或三个轴(俯仰、偏航和/或横滚轴)测量HMD的(多个)位置变化的(多个)传感器。可以通过建立与现实世界中的HMD相关联的视点和与体积内容相关联的虚拟相机的视点之间的关系的特定函数来确定与HMD的测量位置相对应的该体积内容的部分。根据HMD的测量位置来控制要在HMD的(多个)显示屏上显示的体积内容的部分，使得穿戴HMD的用户能够浏览大于与HMD的(多个)显示屏相关联的视场的体积内容(和3D场景)。根据变型，沉浸式呈现设备80是具有触觉显示屏的平板电脑，用户通过用一个或多个手指在触觉显示屏上滑动而滚动内容来浏览内容。根据另一变型，沉浸式呈现单元80是与诸如HMD或平板电脑的显示设备相关联的控制单元。

表示终端用户的当前视点的信息例如被发送到服务器或远程存储设备。表示视点的信息例如对应于沉浸式呈现设备在现实世界中的位置或沉浸式呈现设备在3D场景空间中的视点。

基于接收到的表示当前视点的信息，在存储在服务器或远程存储设备上的体积视频内容70至73的集合8中选择体积视频内容71。例如，通过将接收到的当前视点与和集合8的每个体积视频内容相关联的视空间(或视点范围)进行比较，来选择体积视频内容71。例如，可以将接收到的当前视点与体积视频内容的每个视空间的参考视点(例如，中心视点)进行比较，并且选择在空间上与接收的当前视点最接近的参考视点以及对应的体积视频内容(例如，根据图7和图8的实施例，体积视频内容71和相关联的参考视点X＝1)。

所选择的体积视频内容71被发送到沉浸式呈现设备80。表示体积视频内容71的数据(纹理和几何结构)例如以在补丁图谱的画面中布置的补丁701的集合的形式来编码。由沉浸式呈现设备发送和接收的数据由解码器802解码。对应于当前视点的3D场景的视图例如由合成器803根据解码的数据(通过对补丁进行解投影)合成，并呈现在终端用户视口(viewport)中。然后将合成视图发送到沉浸式呈现设备的显示屏(或连接到沉浸式呈现设备的显示屏)进行显示。

当终端用户的视点发生改变时，发送表示新视点的信息，并且选择对应的体积视频内容(例如体积视频内容70)。用于表示体积视频内容70的补丁700的集合被发送到沉浸式呈现设备以用于解码802、视图合成803和显示。

由沉浸式呈现设备对从服务器接收的给定体积视频内容的呈现对应于与给定体积视频内容相关联的场景部分的3DoF+呈现。集合8的几个体积视频内容的连续呈现使得能够进行对3D场景(或其一部分)的6DoF呈现，同时限制了对表示体积视频内容的数据进行流传输以用于6DoF呈现所需的比特率(一次仅需要流传输一个表示3D场景的部分的体积视频内容，而不是整个3D场景)。

图9示出了根据另一非限制性实施例的体积视频内容70、91、92和73的集合。

每个体积视频内容70、91、92和73表示根据给定的视点范围的3D场景的3D部分，每个体积视频内容70、91、92和73使得能够对用所述每个体积视频内容70、91、92和73表示的3D场景的部分进行3DoF+呈现。体积视频内容70、91、92和73的集合使得例如能够完整地表示3D场景并且使用户能够浏览整个3D场景。根据变型，仅3D场景的一部分用体积视频内容的集合表示。例如，可以在场景内确定3D路径，并且该体积视频内容的集合使用户能够沿着该3D路径浏览3D场景。

可以将3D场景的3D空间采样为多个确定的视点(例如，图9所示的3D路径的视点X＝0，X＝1，X＝2和X＝3)并且从每个确定的视点生成体积视频内容以获得3D场景的完整表示。视空间或视点范围与每个体积视频内容70、91、92和73相关联，给定体积视频内容的视空间例如以从其生成体积视频内容的视点(X＝0，X＝1，X＝2和X＝3)为中心。两个相邻的体积视频内容之间存在内容重叠，以确保终端用户能够平滑浏览。例如，体积视频内容70和91可以部分重叠，体积视频内容91和92可以部分重叠，体积视频内容92和73可以部分重叠。两个体积视频内容的内容重叠意味着与两个相邻的体积视频内容相关联的视空间中包括的一些视点对于两个视空间是公共的。

每个体积视频内容70、91、92和73用补丁的集合表示，其包括纹理和几何结构信息。如关于图3、4和/或5所描述的，补丁的集合可以布置在画面或补丁图谱内。

为了减少用于存储各种体积视频内容70、91、92和73的存储器需求，将给定体积视频内容的集合的补丁与其他体积视频内容的补丁进行比较，例如，集合901的补丁分别与体积视频内容70、92和73的集合700、902和703的补丁相比较，以检测补丁之间的内容冗余。实际上，由于体积视频内容70、91、92和73的部分重叠，因此所述体积视频内容的一些补丁可以至少部分地具有相同的内容。根据变型，将集合901的补丁仅与其他体积视频内容的一部分进行比较，例如仅与体积视频内容70和73的集合700和703进行比较。根据该变型，可以将一些体积视频内容确定为参考，即，其他体积视频内容的补丁可以参照参考体积视频内容的补丁，但是参考体积视频内容的补丁不参照其他体积视频内容的任何补丁。根据图9的特定实施例，体积视频内容70和73可以被认为是参考体积视频内容，而其他体积视频内容91和92不是(体积视频内容91和92各自包括至少一个参照参考体积视频内容70和73的一个或多个补丁的补丁)。

为了减少内存占用量(footprint)，已被标识为包括与另一体积视频内容的补丁相同的内容(纹理和/或几何结构)的补丁不包含纹理和/或几何结构信息，而仅包含标识包括相同内容(纹理和/或几何结构)的其他补丁的信息。例如，已将集合902的补丁9021标识为包括与集合700的补丁7001相同的内容。已将集合902的补丁9022标识为包括与集合703的补丁7032相同的内容。补丁9021包括标识其所参照的补丁7001的信息(而不是表示其所表示的3D场景的部分的属性、纹理或几何结构的数据)，仅利用少量比特对这样的信息进行编码，而对表示属性的数据进行编码则需要数量多得多的比特。以相同的方式，补丁9022包括标识它所参照的补丁7032的信息。

根据变型实施例，当仅补丁7001和/或7032的所述区域分别包括补丁9021和/或9022的内容时，补丁9021和/或9022可以分别仅参照补丁7001和/或7032的区域(子部分)。根据该变型实施例，补丁9021包括标识其所参照的补丁7001的信息和标识补丁7001的包括与补丁9021相同的内容的特定区域的信息。特定区域可以例如利用具有高度和宽度(例如，每个均由多个像素表示)的补丁7001内的参考像素的坐标(例如，行号和列号)来标识。

根据另一实施例，参照另一补丁的补丁不包括标识它所参照的补丁的信息。根据该进一步的实施例，建立补丁之间的映射的列表与每个体积视频内容相关联，所述列表还包括指示补丁是否参照另一补丁的信息(例如，利用1比特的标志，当补丁未参照另一补丁时该标志取值“0”，而当补丁确实参照另一补丁时取值“1”，或相反地设置)。该列表例如可以采用LUT(查找表)的形式，例如：

表1：映射列表

图10示出了根据非限制性实施例的根据图9的体积视频内容的集合10对3D场景或其一部分进行6DoF呈现的处理。

根据图10的实施例，终端用户穿戴沉浸式呈现设备100(例如HMD)来浏览3D场景的视频表示。例如使用HMD的IMU(惯性测量单元)在3D场景内(即，在3D场景的空间中)确定终端用户的位置。HMD可以包括一个或多个显示屏(例如LCD(液晶显示器)、OLED(有机发光二极管)或LCOS(硅上液晶))和例如陀螺仪或IMU(惯性测量单元)的被配置用于根据现实世界的一个、二个或三个轴(俯仰、偏航和/或横滚轴)测量HMD的(多个)位置变化的(多个)传感器。可以通过建立与现实世界中的HMD相关联的视点和与体积内容相关联的虚拟相机的视点之间的关系的特定函数来确定与HMD的测量位置相对应的该体积内容的部分。根据HMD的测量位置来控制要在HMD的(多个)显示屏上显示的体积内容的部分，使得穿戴HMD的用户能够浏览大于与HMD的(多个)显示屏相关联的视场的体积内容(和3D场景)。根据变型，沉浸式呈现设备100是具有触觉显示屏的平板电脑，用户通过用一个或多个手指在触觉显示屏上滑动而滚动内容来浏览内容。根据另一变型，沉浸式呈现单元100是与诸如HMD或平板电脑的显示设备相关联的控制单元。

基于接收到的表示当前视点的信息，在存储在服务器或远程存储设备上的体积视频内容70、91、92和73的集合10中选择第一体积视频内容92。例如，通过将接收到的当前视点与和集合10的每个体积视频内容相关联的视空间(或视点范围)进行比较，来确定第一体积视频内容92。例如，可以将接收到的当前视点与体积视频内容的每个视空间的参考视点(例如，中心视点)进行比较，并且选择在空间上与接收的当前视点最接近的参考视点以及对应的体积视频内容(例如，根据图9和图10的实施例，体积视频内容92和相关联的参考视点X＝2)。

第一体积视频内容92被发送到沉浸式呈现设备100。表示第一体积视频内容92的数据(纹理和几何结构)例如以在补丁图谱的画面中布置的第一补丁92的集合的形式来编码。至少第一补丁9021、9022参照第二体积视频内容70、73的第二补丁7001、7032。由沉浸式呈现设备发送和接收的数据由解码器102解码。通过解码包括在补丁的集合902的第一补丁中的信息来获得数据。集合902的一些第一补丁包括与用第一体积视频内容92表示的3D场景的3D部分的点相关联的属性。集合902中的一个或多个第一补丁9021、9022不包括属性，而仅包括指示第一补丁9021、9022所参照的第二补丁或第二补丁7001、7032的特定区域的信息。

可以与第一体积视频内容92一起发送包括第一补丁9021、9022所参照的第二补丁7001、7032的第二体积视频内容70和73。根据变型，当集合10的体积视频内容被细分为图块(tile)(图块对应于帧的子区域，并且例如在HEVC标准(高效视频编码)或Google的VP9或AV1中使用不同的首字母缩写定义)时，仅发送包括第二补丁7001和7032的图块的第二补丁，其中3D场景的一部分与每个图块相关联。

根据变型，在(通过沉浸式呈现设备)发送请求发送第二补丁或相关联的第二体积视频内容70、73的请求之后，第二体积视频内容70和73(或包括第一补丁所参照的第二补丁的图块)被发送到沉浸式呈现设备100。

根据进一步的变型，服务器不将参照第二体积视频内容70、73的第二补丁的第一补丁发送到沉浸式呈现设备100。根据该变型，服务器可以解析第一体积视频内容92或相关联的映射列表(例如，如表1)，以检测第一体积视频内容92是否包括参照(多个)其他体积视频内容(称为(多个)第二体积视频内容)的(多个)第二补丁的(多个)第一补丁。当确定第一体积视频内容92包括参照一个或多个第二补丁的一个或多个第一补丁时，服务器可以自动调度将第一体积视频内容92(或第一体积视频内容92的(多个)图块)和第二体积视频内容70、73(或第二体积视频内容70、73的(多个)图块)发送到沉浸式呈现设备100。

根据进一步的变型，当第二体积视频内容已经由沉浸式呈现设备接收时(例如，当合成与第二体积视频内容70、73的视点相对应的场景的先前视图时)，第二体积视频内容不会被再次发送，并且沉浸式呈现设备100可以从第一体积视频内容92的第一补丁所参照的第二补丁中取得数据。

根据另一变型，为了避免合成视图时的时延问题和延迟，可以由沉浸式呈现设备100或包括该体积视频内容的集合的服务器来确定当前视点之后的未来视点(例如，通过从先前的视点中确定3D场景内视点的位移轨迹)。第一和可能的第二体积视频内容可以被预先自动地发送到沉浸式呈现设备，如果终端用户的视点确实对应于预先确定的视点，则该沉浸式呈现设备可以决定合成视图。

例如，与当前视点相对应的3D场景的视图由合成器103根据从第一补丁和第二补丁获得的解码数据来合成(通过对补丁进行解投影或通过应用与为获得2D参数化而完成的操作相反的操作)并在终端用户视口中呈现。合成视图被发送到沉浸式呈现设备的显示屏(或连接到沉浸式呈现设备的显示屏)进行显示。

当终端用户的视点发生改变时，表示新视点的信息被发送，并且上述操作被重复。

由沉浸式呈现设备从服务器接收的给定体积视频内容的呈现对应于与给定体积视频内容相关联的场景部分的3DoF+呈现。集合8的几个体积视频内容的连续呈现使得能够进行3D场景(或其一部分)的6DoF呈现，同时限制了对表示体积视频内容的数据进行流传输以用于6DoF呈现所需的比特率(一次仅需要流传输一个表示3D场景的部分的体积视频内容，而不是整个3D场景)。

图6示出了以可以同时兼容3DoF、3DoF+和6DoF呈现的格式对表示3D场景的数据进行编码、发送、解码和呈现的非限制性示例。

通过编码器61在流62中对3D场景60的画面或补丁图谱(或3D场景的画面序列)进行编码。流62包括承载表示用于3DoF呈现的3D场景的数据(例如，画面30的第一部分的数据)的语法的第一元素以及承载表示用于3DoF+呈现的3D场景的数据(例如，画面30和画面40或补丁图谱54、55的第二部分的数据)语法的至少第二元素。编码器可以对与场景的各个视点(以及相关联的视空间)相对应的几个画面或补丁图谱进行编码(每个对应于体积视频内容，如关于图7至图10所描述的)。

编码器61例如与诸如以下的编码器兼容：

·JPEG,规范ISO/CEI 10918-1UIT-T建议T.81,https://www.itu.int/rec/T- REC-T.81/en；

·AVC，也称为MPEG-4AVC或h264.在UIT-T H.264和ISO/CEIMPEG-4部分10(ISO/CEI 14496-10)中指定，http://www.itu.int/rec/T-REC-H.264/en，HEVC(其规范可在ITU网站上找到，T建议,H系列，h265，http://www.itu.int/rec/T-REC-H.265-201612-I/en)；

·3D-HEVC(HEVC的扩展，其规范可在ITU网站上找到,T建议，H系列，h265，http:// www.itu.int/rec/T-REC-H.265-201612-I/en，附录G和I)；

·由Google开发的VP9；或者

·由开放媒体联盟开发的AV1(AOMedia Video 1)。

解码器63从源获得流62。例如，源属于包含以下内容的集合：

-本地存储器，例如视频存储器或RAM(或随机存取存储器)、闪存、ROM(或只读存储器)、硬盘；

-存储接口，例如与大容量存储器、RAM、闪存、ROM、光盘或磁力架的接口；

-通信接口，例如有线接口(例如总线接口、广域网接口、局域网接口)或无线接口(例如IEEE802.11接口或

接口)；和

-用户界面，例如使用户能够输入数据的图形用户界面。

解码器63对流62的语法的第一元素进行解码以进行3DoF呈现64。为了进行3DoF+呈现65，解码器对流62的语法的第一元素和语法的第二元素两者进行解码。为了进行6DoF呈现，解码器对与几个体积视频内容相对应的语法的第一元素和语法的第二元素进行解码。

解码器63与编码器61兼容，例如与诸如以下的解码器兼容：

·JPEG；

·AVC；

·HEVC；

·3D-HEVC(HEVC的扩展)；

·VP9；或

·AV1。

图11示出了当通过基于分组的传输协议来发送数据时，承载表示3D场景的数据的流的语法的实施例的非限制性示例。图11示出了视频流的示例结构11。该结构包含以独立的语法元素来组织流的容器。该结构可以包括头部分111，其是流的每个语法元素所共有的数据的集合。例如，头部分包括有关语法元素的元数据，其描述每个语法元素的性质和作用。头部分还可以包括用于对画面30、40(或补丁图谱54、55)进行编码的视点的坐标，以及有关画面的尺寸和分辨率的信息。该结构包括有效负载，该有效负载包括语法的第一元素112和语法的至少一个第二元素113。第一语法元素112可以包括表示第一体积视频内容的数据，并且一个或多个第二语法元素113可以包括表示一个或多个第二体积视频内容的数据。

出于说明目的，在ISOBMFF文件格式标准的上下文中，通常在moov类型的框内的ISOBMFF轨道中参考纹理补丁、几何结构补丁和元数据，纹理数据和几何结构数据本身嵌入在mdat类型的媒体数据(media-data)框中。

图12示出了其中实现了各个方面和实施例的系统的示例的框图。系统1200可以实现为包括以下描述的各种组件的设备，并且被配置为执行本申请中描述的一个或多个方面。这样的设备的示例包括但不限于各种电子设备，例如个人计算机、膝上型计算机、智能电话、平板计算机、数字多媒体机顶盒、数字电视接收机、个人视频记录系统、连接的家用电器、以及服务器。系统1200的元件可以单独或组合地实现在单个集成电路、多个IC和/或分立组件中。例如，在至少一个实施例中，系统1200的处理和编码器/解码器元件分布在多个IC和/或分立组件上。在各种实施例中，系统1200经由例如通信总线或通过专用输入和/或输出端口可通信地耦合到其他类似系统或其他电子设备。在各种实施例中，系统1200被配置为实现本文档中描述的一个或多个方面。

系统1200包括至少一个处理器1210，其被配置为执行其中加载的指令，以实现例如本文档中描述的各个方面。处理器1210可以包括嵌入式存储器、输入输出接口和本领域已知的各种其他电路。系统1200包括至少一个存储器1220(例如，易失性存储设备和/或非易失性存储设备)。系统1200包括存储设备1240，其可以包括非易失性存储器和/或易失性存储器，包括但不限于EEPROM、ROM、PROM、RAM、DRAM、SRAM、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例，存储设备1240可以包括内部存储设备、附接的存储设备和/或网络可访问的存储设备。

系统1200包括编码器/解码器模块1230，其被配置为例如处理数据以提供编码的视频或解码的视频，并且编码器/解码器模块1230可以包括其自己的处理器和存储器。编码器/解码器模块1230表示可以被包括在设备中以执行编码和/或解码功能的(多个)模块。众所周知，设备可以包括编码和解码模块之一或两者。另外，如本领域技术人员已知的，编码器/解码器模块1230可以被实现为系统1200的单独的元件，或者可以作为硬件和软件的组合并入处理器1210内。

可以将要加载到处理器1210或编码器/解码器1230上以执行本文档中描述的各个方面的程序代码存储在存储设备1240中，随后加载到存储器1220上以由处理器1210执行。根据各种实施例，处理器1210、存储器1220、存储设备1240和编码器/解码器模块1230中的一个或多个可以在执行本文档中描述的处理期间存储各种项目中的一个或多个。这样存储的项目可以包括但不限于输入视频、解码的视频或解码的视频的一部分、比特流、矩阵、变量以及从等式、公式、运算和运算逻辑产生的中间或最终结果。

在几个实施例中，处理器1210和/或编码器/解码器模块1230内部的存储器用于存储指令并为编码或解码期间需要的处理提供工作存储器。

然而，在其他实施例中，处理设备外部的存储器(例如，处理设备可以是处理器1210或编码器/解码器模块1230)被用于这些功能中的一个或多个。外部存储器可以是存储器1220和/或存储设备1240，例如，动态易失性存储器和/或非易失性闪存。在一些实施例中，外部非易失性闪存用于存储电视的操作系统。在至少一个实施例中，诸如RAM之类的快速外部动态易失性存储器被用作用于诸如MPEG-2、HEVC或VVC(多功能视频编码)之类的视频编码和解码操作的工作存储器。

如框1130所示，可以通过各种输入设备来提供对系统1200的元件的输入。此类输入设备包括但不限于(i)接收例如由广播公司通过空中传输的RF信号的RF部分；(ii)复合输入端；(iii)USB输入端；和/或(iv)HDMI输入端。

在各个实施例中，如本领域中已知的，框1130的输入设备具有相关联的相应输入处理元件。例如，RF部分可以与用于以下功能所必需的元件相关联：(i)选择所需的频率(也称为选择信号，或将信号频带限制在一个频带内)，(ii)将所选择的信号下变频；(iii)将频带再次限制到较窄的频带，以选择(例如)在某些实施例中可以称为信道的信号频带；(iv)解调下变频和频带受限的信号，(v)执行纠错和(vi)解复用以选择所需的数据分组流。各种实施例的RF部分包括一个或多个执行这些功能的元件，例如，频率选择器、信号选择器、频带限制器、信道选择器、滤波器、下变频器、解调器、纠错器和解复用器。RF部分可以包括执行各种这些功能的调谐器，包括例如将接收到的信号下变频到较低频率(例如，中频或近基带频率)或基带。

在一个机顶盒实施例中，RF部分及其相关联的输入处理元件接收在有线(例如，电缆)介质上传输的RF信号，并通过滤波、下变频和再次滤波到所需的频带来执行频率选择。

各种实施例重新布置上述(和其他)元件的顺序，去除这些元件中的一些，和/或添加执行类似或不同功能的其他元件。

添加元件可以包括在现有元件之间的插入元件，例如，插入放大器和模数转换器。在各个实施例中，RF部分包括天线。

另外，USB和/或HDMI端子可以包括相应的接口处理器，用于通过USB和/或HDMI连接将系统1200连接到其他电子设备。应当理解，输入处理的各个方面，例如里德-所罗门(Reed-Solomon)纠错，可以根据需要例如在单独的输入处理IC内或在处理器1210内实现。类似地，USB或HDMI接口处理的各方面可以根据需要在单独的接口IC内或在处理器1210内实现。解调、纠错和解复用的流被提供给各个处理元件，包括例如与存储器和存储元件结合操作以根据需要对数据流进行处理以展示在输出上设备的处理器1210和编码器/解码器1230。

可以在集成壳体内提供系统1200的各种元件。在集成壳体内，各种元件可以使用合适的连接布置(例如，本领域已知的内部总线，包括I2C总线、布线和印刷电路板)互连，并在它们之间传输数据。

系统1200包括通信接口1250，其使得能够经由通信信道1260与其他设备进行通信。通信接口1250可以包括但不限于被配置为在通信信道1260上发送和接收数据的收发器。通信接口1250可以包括但不限于调制解调器或网卡，并且通信信道1260可以例如在有线和/或无线介质内实现。

在各种实施例中，使用诸如IEEE 802.11的Wi-Fi网络将数据流传输到系统1200。这些实施例的Wi-Fi信号在适于Wi-Fi通信的通信信道1260和通信接口1250上被接收。这些实施例的通信信道1260通常连接到接入点或路由器，该接入点或路由器提供对包括因特网的外部网络的访问，以允许流传输应用和其他空中通信。

其他实施例使用机顶盒将流传输的数据提供给系统1200，该机顶盒通过输入框1130的HDMI连接来传递数据。

还有其他实施例使用输入框1130的RF连接将流传输的数据提供给系统1200。

系统1200可以将输出信号提供给各种输出设备，包括显示器1100、扬声器1110和其他外围设备1120。在实施例的各种示例中，其他外围设备1120包括独立DVR、磁盘播放器、立体声系统、照明系统和基于该系统1200的输出提供功能的其他设备中的一个或多个。

在各种实施例中，控制信号使用诸如AV.Link、CEC的信令或在有或没有用户干预的情况下实现设备到设备控制的其他通信协议在系统1200和显示器1100，扬声器1110或其他外围设备1120之间通信。

输出设备可以通过各个接口1270、1280和1290经由专用连接通信地耦合到系统1200。

可替换地，可以经由通信接口1250使用通信信道1260将输出设备连接到系统1200。显示器1100和扬声器1110可以与电子设备中的系统1200的其他组件(例如电视机)集成在单个单元中。

在各种实施例中，显示接口1270包括显示驱动器，例如，时序控制器(TCon)芯片。

例如，如果输入1130的RF部分是单独的机顶盒的一部分，则显示器1100和扬声器1110可以可替换地与一个或多个其他组件分开。在显示器1100和扬声器1110是外部组件的各种实施例中，可以经由专用输出连接来提供输出信号，该专用输出连接包括例如HDMI端口、USB端口或COMP输出。

图13示出了根据非限制性实施例的用于发送表示3D场景(例如3D场景10)的数据的方法。该方法可以例如在编码器61和/或设备1200中实现。设备1200的不同参数可以被更新。例如，可以从源获得3D场景，可以在3D场景的空间中确定一个或多个视点，可以初始化与(多个)投影映射相关联的参数。

在第一操作131中，接收表示3D场景中的视点的信息。3D场景用体积视频内容的集合来表示，视空间或视点范围与每个体积视频内容相关联。

在第二操作132中，发送表示体积视频内容的集合的第一体积视频内容的数据。第一体积视频内容是根据包括上述视点的视点范围。第一体积视频内容用第一补丁的集合表示，该集合的每个第一补丁对应于对包括在与第一体积视频内容相关联的3D场景的3D部分中的第一组点的二维参数化。第一补丁的集合的至少一个第一补丁参照第二补丁(或第二补丁的区域)，该第二补丁对应于对包括在与体积视频内容的集合的第二体积视频内容相关联的3D场景的另一3D部分中的第二组点的二维参数化。第二体积视频内容与第一体积视频内容不同，即使它们可能彼此部分重叠，第一体积视频内容的视点范围也不同于第二体积视频内容的视点范围。

根据特定实施例，一个或多个第一补丁所参照的(多个)第二补丁与第一补丁一起被发送。根据变型实施例，第二补丁已经在先前的操作中被发送并且被存储在设备1200的存储器中。

根据进一步的特定实施例，在接收到请求发送(多个)第二补丁的请求之后发送(多个)第二补丁。

根据另一特定实施例，与至少第一组点的点相关联的属性(例如，纹理和/或几何结构/深度)包括在至少一个第二补丁中，第一组点与参照至少一个第二补丁的至少一个第一补丁相关联。所述至少一个第一补丁包括标识所述至少一个第二补丁(或所述至少一个第二补丁的区域)的信息。

根据进一步的实施例，与至少第一组点的点相关联的属性包括在至少一个第二补丁中，第一组点与参照至少一个第二补丁的至少一个第一补丁相关联。表示至少一个第一补丁对至少一个第二补丁的参照的映射信息与第一体积视频内容相关联。映射信息可以例如包括在与第一体积内容相关联的表中。

图14示出了根据非限制性实施例的用于接收表示3D场景(例如3D场景10)的数据的方法。该方法可以例如在解码器63和/或沉浸式呈现设备100和/或设备1200中实现。设备1200的不同参数可以被更新。例如可以从源(例如比特流的存储器)获得数据。

在第一操作141中，发送表示3D场景中的视点的信息。3D场景用体积视频内容的集合来表示，视空间或视点范围与每个体积视频内容相关联。

在第二操作142中，例如从比特流或本地存储器或远程存储设备接收表示体积视频内容的集合的第一体积视频内容的数据。第一体积视频内容是根据包括上述视点的视点范围。第一体积视频内容用第一补丁的集合表示，该集合的每个第一补丁对应于对包括在与第一体积视频内容相关联的3D场景的3D部分中的第一组点的二维参数化。第一补丁的集合的至少一个第一补丁参照第二补丁(或第二补丁的区域)，该第二补丁对应于对包括在与体积视频内容的集合的第二体积视频内容相关联的3D场景的另一3D部分中的第二组点的二维参数化。第二体积视频内容与第一体积视频内容不同，即使它们可能彼此部分重叠，第一体积视频内容的视点范围也不同于第二体积视频内容的视点范围。

根据特定实施例，一个或多个第一补丁所参照的(多个)第二补丁与第一补丁一起被接收。根据变型实施例，第二补丁已经在先前的操作中被接收并且从存储单元(例如，设备1200的存储器)中取得。

根据进一步的特定实施例，发送请求发送(多个)第二补丁的请求。

根据可选实施例，根据接收到的数据呈现场景的一个或多个视图。所呈现的(多个)视图可以被发送以供显示。

自然地，本文档不限于先前描述的实施例。

具体地，本文档不限于用于发送/接收表示3D场景的数据的方法和设备，而是还扩展到用于对数据进行编码/解码的方法和/或用于生成包括编码的数据的比特流的方法，和扩展到实施该方法的任何设备，尤其是包括至少一个CPU和/或至少一个GPU的任何设备。

本文档还涉及一种用于显示从比特流的解码数据进行呈现的图像的方法(和配置为用于显示从比特流的解码数据进行呈现的图像的设备)。

本文档还涉及用于发送和/或接收比特流的方法(和配置为用于发送和/或接收比特流的设备)。

本文描述的实施方式可以例如以方法或处理、装置、计算机程序产品、数据流或信号来实施。即使仅在单一形式的实现方式的上下文中进行讨论(例如，仅作为方法或设备进行讨论)，所讨论功能的实现也可以其他形式(例如程序)实现。装置可以例如以适当的硬件、软件和固件来实现。该方法可以在例如诸如处理器之类的装置中实现，该处理器通常指的是处理设备，包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备，例如智能手机、平板电脑、计算机、移动电话、便携式/个人数字助理(“PDA”)、以及其他有助于终端用户之间信息通信的设备。

本文描述的各种处理和特征的实施方式可以实现在各种不同的装备或应用中，尤其是例如与数据编码、数据解码，视图生成，纹理处理以及图像和相关的纹理信息和/或深度信息的其他处理相关联的装备或应用。此类装备的示例包括编码器、解码器、处理来自解码器的输出的后处理器、向编码器提供输入的预处理器、视频编码器、视频解码器、视频编解码器、Web服务器、机顶盒、膝上型计算机、个人计算机、手机、PDA和其他通信设备。应当清楚，装备可以是移动的，甚至可以安装在移动车辆中。

另外，可以通过由处理器执行的指令来实现方法，并且这样的指令(和/或由实施方式产生的数据值)可以存储在处理器可读介质上，例如，集成电路、软件载体或其他存储设备，例如硬盘、紧凑盘(CD)、光盘(例如DVD，通常称为数字多功能盘或数字视频盘)、随机存取存储器(“RAM”)或只读存储器(“ROM”)。指令可以形成有形地实现在处理器可读介质上的应用程序。指令可以在例如硬件、固件、软件或其组合中。指令可以在例如操作系统、单独的应用或这两者的组合中找到。因此，处理器的特征可以在于，例如，被配置为执行处理的设备和包括具有用于执行处理的指令的处理器可读介质(例如存储设备)的设备两者。此外，除了指令之外或代替指令，处理器可读介质可以存储由实施方式产生的数据值。

对于本领域技术人员将显而易见的是，实施方式可以产生各种信号，这些信号被格式化以承载例如可以被存储或发送的信息。信息可以包括例如用于执行方法的指令或由所描述的实施方式之一产生的数据。例如，信号可以被格式化为承载用于写入或读取所描述的实施例的语法的规则作为数据，或者承载由所描述的实施例所写入的实际语法值作为数据。这样的信号可以被格式化为例如电磁波(例如，使用频谱的射频部分)或基带信号。格式化可以包括例如对数据流进行编码并且利用编码的数据流来调制载波。信号承载的信息可以是例如模拟或数字信息。众所周知，信号可以通过各种不同的有线或无线链路传输。信号可以存储在处理器可读介质上。

已经描述了许多实施方式。然而，将理解，可以进行各种修改。例如，不同实施方式的元素可以被组合、补充、修改或去除以产生其他实施方式。另外，本领域普通技术人员将理解，可以用其他结构和处理代替所公开的结构和处理，并且所产生的实施方式将以至少基本上相同的(多种)方式执行至少基本上相同的(多个)功能，以至少实现与所公开的实施方式基本相同的(多个)结果。因此，本申请考虑了这些和其他实施方式。

Claims

1.一种方法，包括：

接收表示3D场景中的第一视点的信息，所述3D场景用体积视频内容的集合表示；

发送根据所述第一视点选择的所述集合的第一体积视频内容，所述第一体积视频内容是根据包括所述第一视点的视点范围确定的，所述第一体积视频内容用第一补丁的集合表示，所述集合的第一补丁通过对包括在与所述第一体积视频内容相关联的3D场景的3D部分中的第一组点的二维参数化获得。

2.根据权利要求1所述的方法，其中，在接收到不同于所述第一视点的第二视点时发送第二体积视频内容，所述第二体积视频内容是根据包括所述第二视点的视点范围确定的，所述第二体积视频内容用第二补丁的集合表示，所述第二补丁的集合的每个第二补丁通过对包括在与所述第二体积视频内容相关联的3D场景的3D部分中的第二组点的二维参数化获得。

3.根据权利要求2所述的方法，其中，与所述第一体积视频内容相关联的视点范围和与所述第二体积视频内容相关联的视点范围部分重叠。

4.根据权利要求1至3中的任一项所述的方法，其中，所述第一补丁的集合中的至少一第一补丁参照至少一第三补丁的至少一区域，所述第三补丁通过对包括在与所述体积视频内容的集合的第三体积视频内容相关联的3D场景的另一3D部分中的第三组点的二维参数化获得。

5.根据权利要求4所述的方法，其中，与至少第一组点中的点相关联的属性包括在所述至少一第三补丁的所述至少一区域中，所述第一组点与参照所述至少一第三补丁的所述至少一区域的所述至少一第一补丁相关联，所述至少一第一补丁包括标识所述至少一第三补丁的所述至少一区域的信息。

6.根据权利要求4所述的方法，其中，与至少第一组点中的点相关联的属性包括在所述至少一第三补丁中，所述第一组点与参照所述至少一第三补丁的所述至少一区域的所述至少一第一补丁相关联，映射信息与所述第一体积视频内容相关联，所述映射信息表示所述至少一第一补丁对所述至少一第三补丁的所述至少一区域的参照。

7.一种设备，包括：

接收器，配置为接收表示3D场景中的第一视点的信息，所述3D场景用体积视频内容的集合表示；

发送器，配置为发送根据所述第一视点选择的所述集合的第一体积视频内容，所述第一体积视频内容是根据包括所述第一视点的视点范围确定的，所述第一体积视频内容用第一补丁的集合表示，所述集合的第一补丁通过对包括在与第一体积视频内容相关联的3D场景的3D部分中的第一组点的二维参数化获得。

8.根据权利要求7所述的设备，其中，在接收到不同于所述第一视点的第二视点时发送第二体积视频内容，所述第二体积视频内容是根据包括所述第二视点的视点范围确定的，所述第二体积视频内容用第二补丁的集合表示，所述第二补丁的集合的每个第二补丁通过对包括在与所述第二体积视频内容相关联的3D场景的3D部分中的第二组点的二维参数化获得。

9.根据权利要求8所述的设备，其中，与所述第一体积视频内容相关联的视点范围和与所述第二体积视频内容相关联的视点范围部分重叠。

10.根据权利要求7至9中的任一项所述的设备，其中，所述第一补丁的集合中的至少一第一补丁参照至少一第三补丁的至少一区域，所述第三补丁通过对包括在与所述体积视频内容的集合的第三体积视频内容相关联的3D场景的另一3D部分中的第三组点的二维参数化获得。

11.根据权利要求10所述的设备，其中，与至少第一组点中的点相关联的属性包括在所述至少一第三补丁的所述至少一区域中，第一组点与参照所述至少一第三补丁的所述至少一区域的所述至少一第一补丁相关联，所述至少一第一补丁包括标识所述至少一第三补丁的所述至少一区域的信息。

12.根据权利要求10所述的设备，其中，与至少第一组点中的点相关联的属性包括在所述至少一第三补丁中，第一组点与参照所述至少一第三补丁的所述至少一区域的所述至少一第一补丁相关联，映射信息与所述第一体积视频内容相关联，所述映射信息表示所述至少一第一补丁对所述至少一第三补丁的所述至少一区域的参照。

13.一种方法，包括：

发送表示3D场景中的第一视点的信息，所述3D场景用体积视频内容的集合表示；

接收根据所述第一视点选择的所述集合的第一体积视频内容，所述第一体积视频内容是根据包括所述第一视点的视点范围确定的，所述第一体积视频内容用第一补丁的集合表示，所述集合的第一补丁通过对包括在与所述第一体积视频内容相关联的3D场景的3D部分中的第一组点的二维参数化获得。

14.根据权利要求13所述的方法，其中，在发送了不同于所述第一视点的第二视点之后接收第二体积视频内容，所述第二体积视频内容是根据包括所述第二视点的视点范围确定的，所述第二体积视频内容用第二补丁的集合表示，所述集合的第二补丁通过对包括在与所述第二体积视频内容相关联的3D场景的3D部分中的第二组点的二维参数化获得。

15.根据权利要求13所述的方法，其中，所述第一补丁的集合中的至少一第一补丁参照至少一第三补丁的至少一区域，所述第三补丁通过对包括在与所述体积视频内容的集合的第三体积视频内容相关联的3D场景的另一3D部分中的第三组点的二维参数化获得。

16.根据权利要求15所述的方法，其中，与至少第一组点中的点相关联的属性包括在所述至少一第三补丁的所述至少一区域中，所述第一组点与参照所述至少一第三补丁的所述至少一区域的所述至少一第一补丁相关联，所述至少一第一补丁包括标识所述至少一第三补丁的所述至少一区域的信息。

17.根据权利要求15所述的方法，其中，与至少第一组点中的点相关联的属性包括在所述至少一第三补丁中，所述第一组点与参照所述至少一第三补丁的至少一区域的所述至少一第一补丁相关联，映射信息与所述第一体积视频内容相关联，所述映射信息表示所述至少一第一补丁对所述至少一第三补丁的所述至少一区域的参照。

18.一种设备，包括：

发送器，配置为发送表示3D场景中的第一视点的信息，所述3D场景用体积视频内容的集合表示；

接收器，配置为接收根据所述第一视点选择的所述集合的第一体积视频内容，所述第一体积视频内容是根据包括所述第一视点的视点范围确定的，所述第一体积视频内容用第一补丁的集合表示，所述集合的第一补丁通过对包括在与所述第一体积视频内容相关联的3D场景的3D部分中的第一组点的二维参数化获得。

19.根据权利要求18所述的设备，其中，在发送了不同于所述第一视点的第二视点之后接收第二体积视频内容，所述第二体积视频内容是根据包括所述第二视点的视点范围确定的，所述第二体积视频内容用第二补丁的集合表示，所述集合的第二补丁通过对包括在与所述第二体积视频内容相关联的3D场景的3D部分中的第二组点的二维参数化获得。

20.根据权利要求19所述的设备，其中，所述第一补丁的集合的至少一第一补丁参照至少一第三补丁的至少一区域，第三补丁通过对包括在与所述体积视频内容的集合的第三体积视频内容相关联的3D场景的另一3D部分中的第三组点的二维参数化获得。

21.根据权利要求20所述的设备，其中，与至少第一组点中的点相关联的属性包括在所述至少一第三补丁的所述至少一区域中，第一组点与参照所述至少一第三补丁的所述至少一区域的所述至少一第一补丁相关联，所述至少一第一补丁包括标识所述至少一第三补丁的所述至少一区域的信息。

22.根据权利要求21所述的设备，其中，与至少第一组点的点相关联的属性包括在所述至少一第三补丁中，所述第一组点与参照所述至少一第三补丁的所述至少一区域的所述至少一第一补丁相关联，映射信息与所述第一体积视频内容相关联，所述映射信息表示所述至少一第一补丁对所述至少一第三补丁的所述至少一区域的参照。