CN111656762A

CN111656762A - 编码表示三维对象的点云的方法和装置

Info

Publication number: CN111656762A
Application number: CN201880087794.6A
Authority: CN
Inventors: J.弗勒罗; B.丘佩奥; F.托多尔
Original assignee: InterDigital CE Patent Holdings SAS
Current assignee: InterDigital CE Patent Holdings SAS
Priority date: 2017-12-05
Filing date: 2018-11-29
Publication date: 2020-09-11
Anticipated expiration: 2038-11-29
Also published as: CN111656762B; US11095920B2; EP3496388A1; EP3721613A1; US20200374559A1; KR20200096575A; WO2019110405A1

Abstract

彩色3D场景被编码为一个或两个补片图集图像。将属于根据以视点为中心并且从该视点可见的截断的球体定义的空间的一部分的3D场景的点迭代投影到投影图上。在每次迭代时，将投影的部分从3D场景中移除，然后将定义要投影的场景的下一部分的截断的球体旋转。一旦将整个3D场景投影到投影图的集合上，就可以在这些图内确定画面。画面(也称为补片)是深度一致的连接的像素的群集。补片被打包在与包括有关截断的球体旋转的信息的数据相关联的深度和颜色图集中，因此，解码器可以取得投影映射并进行逆投影。

Description

编码表示三维对象的点云的方法和装置

技术领域

本公开涉及体积式视频内容的领域。还可以在表示体积式内容的数据的格式化的上下文中理解本公开，例如用于在诸如移动设备或头戴式显示器的终端用户设备上的沉浸式渲染。

背景技术

本部分旨在向读者介绍本领域的各个方面，其可能与以下描述和/或要求保护的本公开的各个方面有关。认为该讨论有助于向读者提供背景信息，以有助于更好地理解本发明的各个方面。因此，应该理解的是，要鉴于此地阅读这些陈述，而不作为对现有技术的承认。

沉浸式视频(也称为360°平面视频)允许用户通过围绕静止视点的其头部旋转来观看自己周围的一切。旋转仅允许3自由度(3DoF)体验。即使3DoF视频足以用于首次全向视频体验(例如使用头戴式显示设备(HMD))，对于将期望更大自由度的观看者来说，例如通过体验视差，3DoF视频也可能很快变得令人沮丧。另外，3DoF也可能引起头晕，因为用户绝不是仅仅旋转其头部，而是还在三个方向上平移头部，平移在3DoF视频体验中不被再现。

体积式视频(也称为6自由度(6DoF)视频)是3DoF视频的替代。当观看6DoF视频时，除了旋转之外，用户还可以在观看的内容内平移其头部并体验视差。这样的视频极大地增加沉浸的感觉和场景深度的感知，但同时通过在头部平移期间提供一致的视觉反馈而防止头晕。相关联的内容基本上通过专用传感器创建，以允许同时记录感兴趣场景的颜色和深度。结合摄影机技术使用的彩色相机装备是进行此记录的一种常用方法。

虽然3DoF视频包含从纹理图像的未映射中得到的图像序列(例如根据纬度/经度投影或等矩形投影编码的球形图像)，但6DoF视频帧嵌入来自若干个视点的信息。可以将它们视为从三维捕获中得到的点云的时间序列。取决于观看条件，可以考虑两种体积式视频。第一个(即，完全6DoF)允许视频内容内部的完全自由的导航，而第二个(也称为3DoF+)将用户的观看空间限制为有限的体积，使得头部的有限平移和视差体验。该第二情况是自由导航和就座观众的被动观看条件之间的自然折衷。

利用压缩和传输标准以符合标准视频管道(例如MPEG)的方式并允许以视频帧速率(即至少每秒24个图像/点云)，在帧的序列(即，视频内容)中编码点云是一项挑战。本原理提出解决这些编码和解码技术问题的方法，设备和流。

发明内容

说明书中对″一个实施例″，″实施例″，″示例实施例″，″特定实施例″的引用指示描述的实施例可以包括特定的特征，结构或特性，但是每个实施例不一定都包括所述特定特征，结构或特性。而且，这样的短语不一定指代相同的实施例。此外，当连同实施例描述特定特征，结构或特性时，无论是否明确描述，认为其在本领域技术人员的知识内，以影响结合其他实施例的这种特征，结构或特性。

本公开涉及一种在流中编码三维场景的方法。该方法包括：

-通过以下方式生成多个投影图：

a.根据以视点为中心的立体角确定3维场景的一部分，3维场景的该部分从该视点可见；

b.根据投影映射将三维场景的所述部分投影到投影图上并将该图添加到多个投影图中；和

c.从场景中移除三维场景的所述部分；旋转立体角；并且迭代a，b和c，直到三维场景为空为止；

-从所述多个投影图生成多个画面，画面是投影图的连接像素的深度一致的群集；

-将所述多个画面中的至少一个画面打包到图像中，并为所述每个画面确定包括以下的数据：

·所述图像中所述画面的位置，例如界定矩形的左上角的坐标；

·关于用于所述画面的投影图的立体角的信息，例如，3D矢量和角度值或者3D空间的参考系的轴置换的标识符以及

·涵盖投影到所述画面上的三维场景的部分的三维空间的一部分的描述，例如角度范围(即，立体角)和深度范围；

-在流中编码所述图像和所述数据。

本公开还涉及适配于在流中编码三维场景的设备。该设备包括与处理器相关联的存储器，处理器配置为：

-通过以下方式生成多个投影图：

a.根据以视点为中心的立体角确定3维场景的一部分，该部分从该视点可见；

b.根据投影映射将三维场景的所述部分投影到多个投影图的投影图上；和

-将所述多个画面中的至少一个画面打包到图像中，并为所述至少一个画面中的每一个确定包括以下的数据：

·所述图像中所述画面的位置；

·关于用于所述画面的投影图的立体角的信息；以及

·涵盖投影到所述画面上的三维场景的部分的三维空间的一部分的描述；

-在流中编码所述图像和所述数据。

根据特定的特性，旋转立体角通过置换三维空间的参考系的轴顺序来执行。关于立体角的信息是该置换的标识符。

根据特定的特性，投影映射是等矩形投影映射。

根据特定的特征，3D场景的点包括颜色属性，并且利用相关联的数据在流中生成并编码两个图像。一个图像打包至少一个具有深度属性的画面，并且另一图像打包至少一个具有颜色属性的画面。

根据特定的特征，与打包的画面相关联的数据包括指示在图像中打包期间画面是否已经旋转的信息。

本公开还涉及一种从流中取得三维场景的方法。该方法包括：

-从流中解码图像中打包的至少一个画面以及针对所述至少一个画面中的每个的包含以下的数据：

·所述图像中所述画面的位置，

·关于立体角的信息，以及

·三维空间的一部分的描述；

-通过使用关于立体角的所述信息和三维空间的一部分的描述，根据投影映射逆投影所述画面的像素来取得三维场景。

本公开还涉及适配为从流中取得三维场景的设备。该设备包括与处理器相关联的存储器，处理器配置为：

·所述图像中所述画面的位置，

·关于立体角的信息，以及

·三维空间的一部分的描述；

-通过使用关于立体角的所述信息和三维空间的一部分的描述，根据投影映射逆投影所述至少一个画面的像素来取得三维场景。

根据特定的特性，关于立体角的信息是三维空间的参考系的轴顺序的置换的标识符，并且投影映射使用该置换。

根据特定的特性，投影映射是等矩形投影映射。

根据特定的特性，利用与打包的画面相关联的所述数据解码两个图像。一个图像打包至少一个具有深度属性的画面，并且另一图像打包至少一个具有颜色属性的画面。

根据特定的特性，与其中画面被打包的图像相关联的数据还包括指示在图像中打包期间画面是否已经旋转的信息，投影映射使用该信息来逆投影所述画面的像素。

本公开还涉及流，其承载表示至少3D场景的数据。该流包括至少一个图像。图像包括一组称为补片的打包的画面。流还包括其中包含补片数据项列表的数据。补片数据项与图像的画面相关联，并且包括：

·该图像中该画面的位置，

·关于立体角的信息，以及

·三维空间的一部分的描述。

附图说明

在阅读以下参考附图的描述时，将更好地理解本公开，并且将出现其他特定特征和优点，在附图中：

-图1示出根据本原理的非限制性实施例的点云和在该点云之上构建的表面；

-图2示出根据本原理的非限制性实施例的，根据从位于地球球体的中心的视点的等矩形投影映射而投影的地球的图。

-图3例示根据以视点为中心的立体角的3D场景的一部分的第一确定。在图3的示例中，3D场景包括根据本原理的非限制性实施例的步行者和顶灯。

-图4例示根据本原理的非限制性实施例的，根据以图3的视点为中心的立体角的残差3D场景的一部分的第二确定；

-图5例示根据本原理的用于编码数据流中的3D场景的方法的投影步骤的三个迭代；

-图6示出根据本原理的非限制性实施例的，从根据例如图5例示的剥离(peal)过程生成的投影图的列表的投影图中生成深度一致画面(称为补片)的图解示例；

-图7示出根据本原理的非限制性实施例的3D空间的区域，其包含涵盖投影到补片上并且根据左侧的球形投影并且根据右侧的立方体投影的补片数据项描述的3D场景的点；

-图8示出根据本原理的非限制性实施例的包括对3D场景的深度信息编码的画面(也称为补片)的图像；

-图9示出根据本原理的非限制性实施例的包括针对图8的3D场景确定的补片数据项的列表的颜色补片的图像；

-图10示出根据本原理的非限制性实施例的设备的示例架构，该设备可以被配置为实现结合图12和/或13描述的方法。

-图11示出根据本原理的非限制性实施例的，当通过基于分组的传输协议来传输数据时的流的语法的实施例的示例；

-图12例示根据本原理的非限制性实施例的关于图10描述并且被配置为编码器的设备100中的用于在流中编码点云的方法；

-图13例示根据本原理的非限制性实施例的关于图10描述并且被配置为解码器的设备100中的用于从流解码3D场景的方法。

具体实施方式

现在参考附图描述主题，其中，贯穿全文相似的参考标号用于指代相似的元件。在下面的描述中，出于解释的目的，阐述许多具体细节以便提供对主题的透彻理解。然而，明显的，可以在没有这些具体细节的情况下实践主题实施例。

本说明书例示本公开的原理。因此，将认识到，本领域技术人员将能够设想出尽管未在本文中明确描述或示出但体现本公开原理的各种布置。

将参考在流中编码三维(3D)场景的方法的特定实施例来描述本原理。将3D场景的点迭代地投影到投影图上。投影的点的深度和颜色(可选)编码在投影图的像素中。在该过程的每次迭代中，仅投影3D场景的一部分。根据以视点为中心的立体角确定要投影的部分。将由立体角定义并从视点可见的属于3D空间的一部分的3D场景的点，根据投影映射功能投影到投影图上。该选择要投影的3D场景的一部分具有限制投影图上3D场景的图像的失真的优点，从而允许在本原理的打包步骤中生成紧凑的画面。

图1示出点云10和该点云上构建的表面11。点云10与表示对象或一组对象的外部表面或外部形状的点的大的集合对应。点云可以看作是基于矢量的结构，其中，每个点都有其坐标。例如，矢量可以由以原点为中心的参考系中的三维坐标XYZ定义。在另一个示例中，矢量由径向坐标

定义，其中

表示关于视点的三维方向，并且d表示视点和点之间的距离(也称为″深度″)。点还可以具有可以在任何颜色空间中表示的颜色分量，例如RGB(红色，绿色和蓝色)或YUV(Y是亮度分量，并且UV是两个色度分量)。可以从点云定义表面11。可以根据若干种方法获得表面。例如，点可能被″喷溅(splat)″。这些喷溅表示为其分量(例如颜色)以正态(例如高斯)方式沿直径变化的盘。平盘形成平滑的表面。在变型中，可以基于三角剖分(triangulation)对点和由平滑网格定义的表面执行三角剖分。表面11可以由图形处理器计算。它用于从视点确定点的可见性。在图1的示例中，例如，在点云表示10上可见的下巴后面的颈部的某些点在表面表示11上不可见，因为表面填充点之间的空间间隙。利用表面表示，可以从视点确定点云的点是否可见。

模型11可以是3D网格表示，并且点云10的点可以是网格的顶点。点10也可以是散布在网格的面的表面上的点。模型11也可以表示为云10的点的喷溅版本。通过喷溅云10的点来创建模型11的表面。模型11可以由许多不同的表示(诸如，体素或样条)来表示。图1例示这样的事实：总是有可能从3D对象的表面表示中定义点云，并且反之，总是有可能从点云创建3D对象的表面表示。如本文使用，将3D对象的点(通过3D场景的扩展点)投影到投影图上等同于将该3D对象的任何表示投影到投影图上。

图2示出根据从位于地球球体中心的视点的等矩形投影映射而投影的地球的地图。这样的投影可能涉及高失真，尤其是在极地区域附近。当将3D场景的点投影到这些区域(典型是视点的上方或下方)时，这些点的对应图像比如果将这些点投影在赤道部分时要大。结果，与编码在赤道区域投影的相同3D对象相比，编码在极地区域投影的3D对象要求更多的像素，如图2上分散的椭圆例示。每个椭圆对应于相同球体的投影。投影的形状根据球体投影到投影图的区域而变化。该区域取决于3D对象在3D空间中的位置以及用于投影的投影映射。图2示出，如果球体投影在极地区域上，则与在赤道区域的相同球体的投影相比，要求更多的像素来编码球体的投影。对于类似图2例示的等矩形投影映射的球形投影映射，该现象尤其正确。对于其他以视点为中心的其他投影映射(例如，立方体映射或金字塔形映射)，该现象的存在程度较小。

根据本原理，以如下方式确定3D空间的一部分：将属于3D空间的所述部分的点根据投影映射投影到投影图的低失真区域(例如，对于等角投影映射或对于立方体投影映射，将点投影到赤道区域上)。这样的选择具有最小化投影的图像的失真并且最小化编码投影的点要求的像素数量的优点。

图3例示根据以视点为中心的立体角的3D场景的一部分的第一确定。在图3的示例中，3D场景包括步行者33和顶灯34。确定视点30以用于3D场景的编码。根据沉浸式渲染设备能够进行的沉浸式视频渲染的类型(3DoF，3DoF+或6Dof)，将使用对应的视点解码3D场景。获得立体角31以确定符合本原理的3D空间的一部分。为了例示和清楚的缘故，该立体角31在图3至图5中表示为球形环32，也称为截球体。根据选择的投影映射，确定表面32。在图3的示例中，根据选择的等矩形投影映射，表面32是球形环。选择属于根据以视点30为中心的立体角31确定的3D空间的该部分的3D场景的部分，以投影到投影表面32上从而生成投影图。在图3的示例中，对象33(即步行者)属于3D场景的选择的部分；顶灯34则不是。仅从视点30可见的3D场景的选择的部分的点被投影，以生成投影图。然后将投影的点从3D场景中移除，以便不再第二次投影到不同的投影图上，并在将其移除之前做出从视点30看不到的可见点。在图3的示例中，步行者33的前部从3D场景中移除。然后，该人的背部的点从观点30可以看到，并且可以被投影到另一个投影图上。在此迭代期间生成的投影图将添加到一组投影图。

图4例示根据以图3的视点为中心的立体角的残差3D场景的一部分的第二确定。残差3D场景包括在本原理的先前迭代中没有被投影的原始3D场景的点。在图4的示例中，残差3D场景包括图3的顶灯34和步行者33的残差部分43。根据本原理，将以视点30为中心的立体角41确定为旋转先前迭代的立体角31。立体角41可以具有与立体角31不同的值(即，更宽或更窄)或可以具有相同的值。确定立体角41以定义3D空间的新部分，该新部分包围没有被投影的残差3D场景的一部分，也就是，包括点。在图4的示例中，通过以选择要投射的顶灯34的方式旋转立体角31来获得立体角41。在变型中，迭代的立体角41以与先前迭代的视点不同的视点为中心。

在本原理的该迭代中，属于根据以视点为中心的旋转的立体角定义且从该视点可见的3D空间的部分的3D场景的点根据投影映射被投影到投影图上。将生成的投影图添加到投影图的集合。在投影图的集合(也称为列表)中添加的每个投影图都与关于用于生成投影图的立体角的信息相关联。根据3D空间的参考系，例如利用归一化的3D矢量和角度值(以度或弧度为单位)描述立体角。该信息在本原理的另外步骤中将被整合到从该投影图聚类的画面的补片数据项中。

图5例示根据本原理的用于编码数据流中的3D场景的方法的投影步骤的三个迭代。对象501位于由以原点为中心的参考正交系定义的3D空间内。视点设置在参考系的原点。根据本原理，确定立体角511。在图5的示例中，该第一立体角设置在(X，Z)平面中(即，围绕Y轴)，具有例如60°(六十度)或75°的值。立体角可以是任何值。将立体角设置为大于60°的值允许在包围图5的示例的三个迭代中的两个迭代中的3D空间的整体。例如，获得或选择的投影映射是等矩形投影映射(ERP)。根据本原理，根据获得或选择的投影映射，从视点可见的3D场景的点被投影到帧521上。在图5的示例中，对象501的可见点将被投影到帧521的区域531上。由于立体角511限制3D空间的考虑的部分，所以只有帧521的白色部分可用于存储投影的点，并且区域531在可用部分之外。因此，该第一迭代生成空的投影图。由于为空，所以该第一投影图可以被丢弃。在第二步骤中，旋转立体角以变为立体角512。根据图5中例示的变型，立体角不旋转，但是参考系的轴首先被置换，从而导致对立体角度的旋转。执行本原理的新迭代，生成新的投影图522。投影图522与关于用于该迭代的立体角的信息相关联。在图5例示的变型中，该信息可以被简化为轴的置换的标识符。例如，第一迭代可以与第一标识符0相关联，第二迭代与1相关联，第三迭代与2相关联。由于这三个迭代循环，将重复使用相同的三个立体角。属于由立体角512定义的3D空间的一部分并且从视点可见的对象501的点与532一样投影到所述投影图522上。由于ERP映射，区域532是失真的矩形。将投影图522添加到将在本原理的下一步骤中使用的投影图的列表以确定画面，画面是投影图的连接的像素的深度一致的群集。从3D场景中移除投影到投影图522上的对象501的点，并将残差对象502设置为残差3D场景的一部分。在第三步骤中，根据图5例示的变型的原理，借助于轴置换来旋转立体角512。然后执行第三迭代。3D场景的残差点(在于图5的示例中的对象502的残差点)被投影到投影图523上，因为它们属于由立体角513定义的空间，并且从视点可见。该投影导致区域533。投影图523因为其不为空，被添加到投影图的列表中用作本原理的下一步骤的输入。

图6示出从根据例如图5例示的剥离过程生成的投影图的列表中的投影图61生成深度一致画面(称为补片)的图解示例。投影图61包括与第一对象(或第一对象的一部分)对应的区域65的像素，存储关于第二对象的可见点的深度信息的区域66的像素；以及存储关于第三对象的可见点的深度信息的区域67的像素；例如，其可以是第二对象的单独部分。执行像素聚类操作以根据深度信息聚类投影图61的相邻像素。像素65构成可以由矩形62界定的相邻像素的群集。像素66和67构成投影图61的相邻区域。然而，区域66和区域67的像素在它们存储的深度值上不同。像素66具有明显小于像素67的深度值的深度值。根据编码方法的本原理，根据群集的连接和群集的深度值来确定群集。由于像素66的深度和像素67的深度之间存在间隙，它们被分组在单独的群集中。这两个群集可以表示为矩形63和64。两个区域之间的高频区域可以通过聚类操作吸收，并且矩形63和64可以重叠。表示由聚类操作定义的矩形区域的数据作为补片数据项存储在存储器中。补片数据项包括关于与当前投影图相关联的立体角的信息。例如，矩形64的补片数据包括根据投影的中心的第三对象的可见点的角度范围([θmin，θmax]，

)。θmin是根据投影的中心的补片的点的径向坐标的最左侧值，θmax是最右侧值，

是最下值，

是最上值。像素区域的深度范围[ρmin，ρmax]也被记录在补片数据中，其中ρmin是最接近投影40的中心的点的深度，并且是距投影的中心最远的点的深度。补片数据项的该分量在编码步骤中很有用，以增加为深度编码保留的字节范围的动态性。在变型中，聚类操作提供椭圆体区域，并且补片数据项包括表示椭圆形区域的数据。补片数据项被添加到补片数据项的列表中。存储关于补片在角度上占据的区域的信息的优点是，该信息与投影图的分辨率以及其中补片将被打包的图像的分辨率无关。

图7示出涵盖投影到补片上并且根据左侧的球形投影并且根据右侧的立方体投影的补片数据项描述的3D场景的点的3D空间的区域。在图7的左侧，根据球形投影方法，每个补片数据项都包括与由以投影71的中心为中心的同心球体的两个部分界定的3D空间70的区域对应的数据。该区域的特征在于：首先，由属于[-π；π]弧度的[θmin，θmax]和属于[-π/2；π/2]弧度的

定义的角度范围72；其次是深度范围73[ρmin，ρmax]。对于图7右侧的立方体投影方法，使用相同的描述。空间70的区域由指向投影71的中心的截断的四角金字塔界定，并且特征在于角度范围72和深度范围73。这种方法(例如等矩形投影)仅取决于角度。远离投影的中心的大的对象在投影图中可以与靠近的小的对象占据相同的面积。根据本原理，可以根据距离投影的中心的对象的重要性而不是根据投影的对象的固有大小来适应补片的尺寸。这样的属性符合3DoF+上下文。

图8示出包括编码3D场景的深度信息的画面(也称为补片)的图像。在该示例中，已经在3D场景的点上执行剥离操作。画面和相关联的补片数据项的列表已根据本原理确定。补片具有称为″图集分辨率″的分辨率，其定义编码的质量。例如，每度18至25像素的图集(atlas)分辨率允许编码包含大量补片(例如，500或600个补片)的2048x 2048像素画面中的复杂场景。该分辨率越低，最终质量越差。为了确保画面补片在图像的网格上的良好对齐，可以选取投影图分辨率作为图集分辨率的整数除法器。

执行补片的打包操作。存在许多启发式算法来解决将矩形单元打包到矩形箱(rectangular bin)(即，要生成的图像)中的NP完全问题，如例如Jukka

在″AThousand Ways to Pack the Bin″中描述的算法或″MaxRects”算法(即，单箱-最佳短边优先配置)，其以相当低的计算成本提供良好的填充率。在打包操作结束时，将补片在图像中的定位(x，y)(例如，左下角位置)，并根据打包算法，将指示补片是否已旋转的布尔值分配给补片数据项列表中的每个补片。可以通过在视频编码器的编码单元上对齐补片来优化打包，以便改进解码级。图8示出其中为360°3D场景确定的补片数据项的列表中的打包的补片的画面。图8的图像的像素包括深度信息(即，点云的点和投影中心之间的距离)。

图9示出根据本原理的非限制性实施例的包括为图8的3D场景确定出的补片数据项的列表的颜色补片的图像。在一个实施例中，深度和颜色信息被编码在唯一画面的像素中。在另一个实施例中，深度和颜色信息被编码在两个画面中。

根据本原理，将3D场景序列的3D场景编码为包括与表示补片数据项的列表的数据相关联的打包的补片的图像。将3D场景编码为与数据相关联的图像具有与标准压缩和传输视频管线一致的优点。通常出于压缩的原因，收集画面组(GoP)中的一系列画面。根据本编码方法的实施例，要编码的点云的序列中的连续点云被收集在一起作为唯一点云。该成组的3D场景经过剥离操作和打包操作。为组中的每个3D场景确定补片数据项的唯一列表。画面的打包结构针对整个GoP计算。这种结构在一组画面期间被保留，因为它会显著降低视频编码比特率，尤其当将编码器设置为禁用开放画面组(open-gop)优化时。彩色和深度画面包括图像补片上的每个点的喷溅投影的结果。在流中编码画面组的画面和表示补片数据项的列表的数据。

图10示出可以被配置为实现关于图12和/或13描述的方法的设备100的示例架构。设备100可以被配置为编码器，解码器和/或渲染器。

设备100包含以下元件，这些元件通过数据和地址总线101链接在一起：

-微处理器102(或CPU)，例如是DSP(或数字信号处理器)；

-ROM(或只读存储器)103；

-RAM(或随机存取存储器)104；

-存储接口105；

-I/O接口106，用于接收来自应用的要发送的数据；和

-电源，例如，电池。

根据示例，电池在设备外部。在每个提到的存储器中，说明书中使用的“寄存器”一词可以对应于小容量的区域(一些比特)或非常大的区域(例如，整个程序或接收的或解码的大量数据)。ROM 103至少包括程序和参数。ROM 103可以存储用于执行根据本原理的技术的算法和指令。当接通时，CPU 102将程序上载到RAM中并执行相应指令。

RAM 104在寄存器中包括由CPU 102执行并在设备10接通之后上载的程序，寄存器中的输入数据，寄存器中方法的不同状态的中间数据，以及寄存器中用于执行方法的其他变量。

本文描述的实现方式可以在例如方法或处理，装置，软件程序产品，数据流或信号中实现。即使仅在单个实现方式的形式的上下文中讨论(例如，仅作为方法或设备讨论)，讨论的特征的实现方式也可以以其他形式(例如，程序)实现。装置可以在例如适当的硬件，软件和固件中实现。方法可以在例如诸如例如处理器之类的装置中实现，该处理器通常涉及处理设备，一般包括例如计算机，微处理器，集成电路或可编程逻辑设备。处理器还包括通信设备，诸如例如计算机，蜂窝电话，便携式/个人数字助理(“PDA”)，以及便于终端用户之间的信息通信的其他设备。

根据编码或编码器的示例，从源获得3D场景的序列。例如，源属于包含以下的组：

-本地存储器(103或104)，例如视频存储器或RAM(随机存取存储器)，闪存，ROM(只读存储器)，硬盘；

-存储接口(105)，例如，具有大容量存储器，RAM，闪存，ROM，光盘或磁性载体的接口；

-通信接口(105)，例如，有线接口(例如，总线接口，广域网接口，局域网接口)或无线接口(诸如，IEEE 802.11接口或

接口)；

-用户界面，诸如，图形用户界面，使用户能够输入数据。

-根据图3的解码器或(多个)解码器33的示例，流被发送到目的地；具体而言，目的地属于包含以下的组：

-本地存储器(103或104)，例如，视频存储器或RAM，闪存，硬盘；

-存储接口(105)，例如，具有大容量存储器，RAM，闪存，ROM，光盘或磁性载体的接口；和

-通信接口(106)，例如，有线接口(例如，总线接口(例如USB(或通用串行总线))，广域网接口，局域网接口，HDMI(高清多媒体接口)接口)或无线接口(诸如，IEEE 802.11接口，

或

接口)。

根据编码或编码器的示例，包括表示体积式场景的数据的比特流被发送到目的地。作为示例，比特流存储在本地或远程存储器中，例如，视频存储器(104)或RAM(104)，硬盘(103)。在变型中，比特流被发送到存储接口(105)，例如，具有大容量存储器，闪存，ROM，光盘或磁性载体的接口和/或通过通信接口(105)传输，例如，到点对点链路，通信总线，点对多点链路或广播网络的接口。

根据解码或解码器或渲染器的示例，从源获得比特流。示例性地，从本地存储器读取比特流，例如，视频存储器(104)，RAM(104)，ROM(103)，闪存(103)或硬盘(103)。在变型中，比特流从存储接口(105)接收，例如，具有大容量存储器，RAM，ROM，闪存，光盘或磁性载体的接口和/或从通信接口(105)接收，例如，到点对点链路，总线，点对多点链路或广播网络的接口。

根据示例，被配置为实现上面关于图12描述的方法的设备100属于包括以下的组：

-移动设备；

-通信设备；

-游戏设备；

-平板电脑(或平板计算机)；

-膝上型计算机；

-照相机；

-摄像机；

-编码芯片；

-服务器(例如，广播服务器，视频点播服务器或网络服务器)。

根据示例，被配置为实现关于图13描述的渲染方法的设备100属于包括以下的组：

-移动设备；

-通信设备；

-游戏设备；

-机顶盒；

-电视机；

-平板电脑(或平板计算机)；

-膝上型计算机；和

-显示器(诸如，例如，HMD)。

图11示出当通过基于分组的传输协议来传输数据时的流的语法的实施例的示例。图11示出体积式视频流的示例结构1100。该结构包含容器，该容器以独立的语法元素组织流。该结构可以包括首标部分1101，该首标部分是该流的每个语法元素共同的数据的集合。例如，首标部分包括有关语法元素的元数据，以描述每个语法元素的性质和作用。首标部分还可以包括用于编码的投影的中心的坐标以及有关画面的大小和分辨率的信息。该结构包括其中包含语法元素1102和1103的有效载荷。第一语法元素1102包括表示包括打包的补片的图像的数据。图像可以已经根据视频压缩方法被压缩。图像与第二语法元素1103的补片数据项的列表相关联。在实施例中，第一语法元素包括图像对的序列，一个图像编码深度信息，成对的图像编码颜色信息。第二语法元素包括表示与第一语法元素1102的图像相关联的补片数据项的列表的数据。补片数据项的列表可以与一组图像相关联。补片数据项包括图像中相关联的画面(即，补片)的定位，关于用于画面的投影图的立体角的信息以及包含投影到画面上的三维场景的部分的三维空间的一部分的描述，如关于图7描述。补片数据项至少包括与图像相关联的补片的定位(例如，左上角坐标)，关于用于生成已从中提取补片的投影图的立体角的信息(例如，3D矢量和3D空间的参考系的轴置换的角度值或标识符)，以及投影到该补片的3D场景的点所属的空间的部分的描述(例如，关于图6和7描述的角度和深度范围)。

出于说明目的，在ISOBMFF文件格式标准的上下文中，典型在MOOV类型的盒内的ISOBMFF轨道中引用彩色图，深度图和元数据，彩色图和深度图数据本身嵌入在类型mdat的媒体数据盒。

图12例示根据本原理的非限制性实施例的，在被配置为编码器的设备100(参照图10描述)中用于在流中编码点云的方法。

在步骤1200中，设备100的不同参数被更新。特别地，从源获得3D场景的序列，在3D场景的3D空间的参考系中确定立体角，初始化投影方法，确定投影图和画面的大小和分辨率，并创建补片数据项的空列表。

执行投影图的列表生成步骤1201。该操作是包括步骤1202、1203和1204的迭代过程。在步骤1202中，属于由立体角定义的空间的一部分并且从投影的中心可见的3D场景的点根据投影方法被投影到投影图上。该投影图被添加到投影图的列表中。投影图的分辨率低(例如，每度1个像素或每度2个像素)，以防止聚类步骤1205生成太少的群集并由此产生过多数量的补片数据项。在变型中，每次生成投影图时可以执行步骤1205。在步骤1203，投影图的相邻像素根据深度信息被聚类。与聚类的补片相关联的补片数据项被添加到正在构建的补片数据项的列表中。执行迭代直到点云为空。在变型中，操作1201被迭代直到补片数据项的列表为满。当编码列表中的补片数据项的图像补片所需的区域大于箱的区域(即，其中将在操作1205中布置图像补片的画面)时，补片数据项的列表被视为已满。

一旦确定补片数据项的列表，执行打包操作1205，以导致画面的生成。点云的点被投影在图像补片中，图像补片具有与画面相同的分辨率。图像补片以优化的方式布置在画面中。

在步骤1206中，根据关于图11描述的语法在流中编码画面和补片数据项的相关联的列表。可以对点云的序列中的其他点云重复编码方法。在本原理的实施例中，被收集为唯一点云的序列的一组点云被用作编码方法的入口点云。生成的画面组的画面共同的补片数据项的列表被确定，并在流中与整个画面组相关联地被一次编码。

图13例示根据本原理的非限制性实施例的，在被配置为解码器的设备100(参照图10描述)中用于从流解码3D场景的方法。

在步骤1300中，设备100的不同参数被更新。特别地，从源获得流，在点云的空间中确定视点并且初始化去投影方法。在变型中，从流获得视点和/或去投影方法。

在步骤1301中，从流中解码图像和补片数据项列表。补片数据项列表可以与一组画面相关联。补片数据项包括图像中相关联的画面(即，补片)的定位，与关于用于画面的投影图的立体角的信息以及涵盖投影到画面上的三维场景的一部分的三维空间的一部分的描述，如关于图7描述。图像包括打包在图像的像素网格中的画面的集合(也称为补片)。在步骤1302中，通过使用相关联的补片数据项中的定位信息，根据补片数据项从画面中拆包补片。标识每个补片数据项中包括的画面内的区域的信息描述了画面的像素网格中的图像补片的定置和形状。

该信息，补片数据项的角度范围和画面分辨率用于拆包图像补片。补片数据项还包括在步骤1303处使用的深度范围。补片数据项还包括关于用于将3D场景的点投影到投影图上的立体角的信息。解码器使用该信息为未投影的画面的像素的重新定向参考矢量；所述未投影在渲染3D空间中创建点。每个拆包的图像补片都与对应的补片数据项相关联。在步骤1303中，根据相关联的补片数据项去投影被拆包的图像的像素。根据深度范围解码存储在像素中的深度信息，从而允许最佳地利用像素的动态性，深度例如被编码为10比特或15比特。然后根据图像补片内的像素的坐标，角度范围和解码深度来计算解码的点的空间中的定位。根据视点的点的方向例如根据图像补片的参考系内的像素的坐标和包含在相关联的补片数据项中的角度范围([θmin，θmax]，

)被线性内插。该点在确定的方向上投影到与确定的深度对应的视点的一定距离处。如果画面的像素存储颜色值，或者如果在与深度画面成对的画面中存储颜色值，则将该颜色值分配给投影点。

自然地，本公开不限于先前描述的实施例。

特别地，本公开不限于用于编码/解码承载表示体积式场景(即，三维点云的序列)的数据的流的方法和设备，而是还扩展到编码/解码二维点云的序列的方法，以及实现这些方法的任何设备，尤其是包括至少一个CPU和/或至少一个GPU的任何设备。

本公开还涉及用于显示从包括表示体积式场景的信息的数据流渲染的图像的方法(和配置用于此的设备)，并且涉及用于利用平面视频渲染和显示对象的方法(和配置用于此的设备)。

本公开还涉及用于发送和/或接收流的方法(和配置用于此的设备)。

本文描述的实现方式可以在例如方法或处理，装置，软件程序产品，数据流或信号中实现。即使仅在单个实现方式的形式的上下文中讨论(例如，仅作为方法或设备讨论)，讨论的特征的实现方式也可以以其他形式(例如，程序)实现。装置可以在例如适当的硬件，软件和固件中实现。方法可以在例如诸如处理器之类的装置中实现，该处理器通常涉及处理设备，一般包括例如计算机，微处理器，集成电路或可编程逻辑设备。处理器还包括通信设备，诸如例如智能电话、平板电脑、计算机，移动电话，便携式/个人数字助理(“PDA”)，以及便于终端用户之间的信息通信的其他设备

本文描述的各种处理和特征的实现方式可以体现在各种不同的设备或应用中，特别是例如，与数据编码、数据解码、视图生成、纹理处理以及图像和相关纹理信息和/或深度信息的其他处理相关联的设备或应用中。这样的设备的示例包括编码器，解码器，处理来自解码器的输出的后处理器，提供输入给编码器的预处理器，视频编码器，视频解码器，视频编解码器，网络服务器，机顶盒，膝上型计算机，个人计算机，蜂窝电话，PDA以及其他通信设备。应该清楚的是，该设备可以是移动的，甚至可以安装在移动车辆中。

另外，可以通过由处理器执行的指令来实现方法，并且可以将这样的指令(和/或由实现方式产生的数据值)存储在诸如例如集成电路，软件载体之类的处理器可读介质上，或其他存储设备上，诸如例如硬盘，致密盘(CD)，光盘(诸如，例如DVD，通常称为数字多功能盘或数字视频盘)，随机存取存储器(″RAM″)或只读存储器(″ROM″)。指令可以形成有形地体现在处理器可读介质上的应用程序。指令可以在例如硬件，固件，软件或其组合中。指令可以在例如操作系统，单独的应用或两者的组合中找到。因此，处理器的特征可以在于例如被配置为实施处理的设备和包括具有用于实施处理的指令的处理器可读介质的设备(诸如，存储设备)。此外，除了或代替指令，处理器可读介质可以存储由实现方式产生的数据值。

对于本领域技术人员明显的是，实现方式可以产生各种信号，这些信号被格式化以承载可以例如被存储或传输的信息。该信息可以包括例如用于执行方法的指令，或者由描述的实现方式之一产生的数据。例如，信号可以被格式化以承载用于写入或读取描述的实施例的语法的规则作为数据，或者承载由描述的实施例写入的实际语法值作为数据。这样的信号可以被格式化，例如，作为电磁波(例如，使用频谱的射频部分)或者作为基带信号。格式化可以包括，例如，编码数据流和用编码的数据流调制载波。信号承载的信息可以是例如模拟或数字信息。如已知的，信号可以通过各种不同的有线或无线链路传输。信号可以存储在处理器可读介质上。

已经描述多个实现方式。然而，将理解，可以进行各种修改。例如，可以组合，补充，修改或移除不同实现方式的元素以产生其他实现方式。另外，普通技术人员将理解，其他结构和处理可以替代公开的那些，并且作为结果的实现方式将以至少基本相同的(多个)方式执行至少基本相同的(多个)功能，以至少实现与公开的实现方式基本相同的(多个)结果。因此，本申请考虑这些和其他实现方式。

Claims

1.一种在流中编码三维点云的方法，该方法包括：

-通过以下方式生成多个投影图：

a.确定包括3D空间的区域的点的三维点云的一部分，其是根据以视点为中心并从所述视点可见的立体角而确定的；

b.根据投影映射将三维场景的所述部分投影到投影图上；和

c.从场景中移除三维场景的所述部分；旋转立体角；并且迭代a，b和c直到三维场景为空；

-从所述多个投影图生成多个画面，画面是投影图的相邻像素的深度一致的群集；

-将所述多个画面中的至少一个画面打包到图像中，并为所述至少一个画面的每个确定数据，所述数据包括：

·所述图像中所述画面的位置，

·关于用于所述画面的投影图的立体角的信息，以及

-在所述流中编码所述图像和所述数据。

2.一种适配于在流中编码三维点云的设备，该设备包括与处理器相关联的存储器，处理器配置为：

-通过以下方式生成多个投影图：

b.根据投影映射将三维场景的所述部分投影到投影图上；和

·所述图像中所述画面的位置，

·关于用于所述画面的投影图的立体角的信息，以及

-在所述流中编码所述图像和所述数据。

3.根据权利要求1所述的方法或根据权利要求2所述的设备，其中，所述旋转立体角通过置换三维空间的参考系的轴顺序来执行，并且其中，关于立体角的所述信息是所述置换的标识符。

4.根据权利要求1或3所述的方法或根据权利要求2或3所述的设备，其中，所述投影映射是等矩形投影映射。

5.根据权利要求1、3或4所述的方法或根据权利要求2至4之一所述的设备，其中，3D场景的点包括颜色属性，并且其中，利用所述数据在所述流中生成并编码两个图像，一个图像打包至少一个具有深度属性的画面，并且另一图像打包至少一个具有颜色属性的画面。

6.根据权利要求1、3或4所述的方法或根据权利要求2至4中任一项所述的设备，其中，所述数据还包括指示在图像中打包期间画面是否已经旋转的信息。

7.一种从流中取得三维点云的方法，该方法包括：

-从流中解码图像中打包的至少一个画面以及针对所述至少一个画面中的每一个的数据，所述数据包含：

·所述图像中所述画面的位置，

·关于立体角的信息，以及

·三维空间的一部分的描述；

-通过使用关于立体角的所述信息和三维空间的一部分的所述描述，根据投影映射来逆投影所述至少一个画面的像素而取得所述三维点云。

8.一种适配为从流中取得三维点云的设备，该设备包括与处理器相关联的存储器，处理器配置为：

·所述图像中所述画面的位置，

·关于立体角的信息，以及

·三维空间的一部分的描述；

9.根据权利要求7所述的方法或根据权利要求8所述的设备，其中，关于立体角的所述信息是三维空间的参考系的轴顺序的置换的标识符，并且其中，所述投影映射使用所述置换。

10.根据权利要求7或9所述的方法或根据权利要求8或9所述的设备，其中，所述投影映射是等矩形投影映射。

11.根据权利要求7、9或10之一所述的方法或根据权利要求8至10之一所述的设备，其中，利用所述数据解码两个图像，一个图像打包至少一个具有深度属性的画面，并且另一图像打包至少一个具有颜色属性的画面。

12.根据权利要求6或9至11之一所述的方法或根据权利要求8至11之一所述的设备，其中，所述数据还包括指示在图像中打包期间画面是否已经旋转的信息，投影映射使用该信息来逆投影所述画面的像素。

13.一种流，其承载表示至少3D点云的数据，该流包括至少一个图像，所述至少一个图像包括一组称为补片的打包的画面；以及包括补片数据项目列表的数据，补片数据项目与所述至少一个图像的画面相关联，补片数据项目包括：

·所述图像中所述画面的位置，

·关于立体角的信息，以及

·三维空间的一部分的描述。

14.根据权利要求13所述的流，其中，关于立体角的所述信息是三维空间的参考系的轴顺序的置换的标识符。

15.根据权利要求13或14所述的流，其中，所述图像由一对图像组成，其中一个图像打包至少一个具有深度属性的画面，另一图像打包至少一个具有颜色属性的画面。