CN111279705A

CN111279705A - 用于编码和解码体积视频的方法、设备和流

Info

Publication number: CN111279705A
Application number: CN201880057642.1A
Authority: CN
Inventors: J.弗勒罗; R.多尔; F.图多
Original assignee: 交互数字Ce专利控股公司
Priority date: 2017-07-13
Filing date: 2018-07-12
Publication date: 2020-06-12
Anticipated expiration: 2038-07-12
Also published as: WO2019012067A1; EP3652943A1; CN111279705B; US20200314449A1; US11025955B2; EP3429210A1

Abstract

点云序列被编码器编码为视频，并被传输到解码器，解码器取得点云序列。将点云的可见点迭代投影到投影图上，以确定块数据项列表。生成图像块并将其打包为图片。将图片和相关联的块数据项列表编码在流中。解码方法对图片和相关联的块数据项列表进行解码。根据相关联的块中存储的数据，对包括在图片中的图像块的像素进行去投影。该方法具有以避免伪影的方式对点云的每个点进行编码并允许以视频帧速率进行解码的优点。

Description

用于编码和解码体积视频的方法、设备和流

技术领域

本公开涉及体积(volumetric)视频内容的领域。还在表示体积内容的数据的格式化的背景下理解本公开，例如用于在诸如移动设备或头戴式显示器的终端用户设备上进行沉浸式渲染。

背景技术

本部分旨在向读者介绍本领域的各个方面，这些方面可能与以下描述和/或要求保护的本公开的各个方面相关。相信该讨论有助于向读者提供背景信息，以便于更好地理解本发明的各个方面。因此，应该理解，这些陈述要在该角度上解读，而不是作为对现有技术的承认。

沉浸式视频，也称为360°平面(flat)视频，允许用户通过围绕静止视点旋转其头部来观看四周。旋转仅允许3自由度(3DoF)体验。即使3DoF视频足以用于第一全向视频体验(例如使用头戴式显示设备(HMD))，但是对于期待更多自由(例如通过体验视差)的观看者而言，3DoF视频可能很快变得令人沮丧。另外，3DoF也可能引起眩晕，这是因为用户不仅只旋转其头部，还在三个方向上平移其头部，平移在3DoF视频体验中不被再现。

体积视频(也称为6自由度(6DoF)视频)是3DoF视频的替代。观看6DoF视频时，除了旋转之外，用户还可以在观看的内容内平移其头部并体验视差。这样的视频极大地增加了沉浸感和景深感知，还通过在头部平移期间提供一致的视觉反馈来防止眩晕。相关内容基本上通过专用传感器来创建，该传感器允许同时记录感兴趣场景的颜色和深度。使用彩色摄像头装备结合摄影测量技术是进行该记录的常用方法。

虽然3DoF视频包含从纹理图像(例如根据纬度/经度投影或等矩形投影进行编码的球面图像)的解映射(un-mapping)中得出的图像序列，但6DoF视频帧嵌入了来自多个视点的信息。可以将它们视为从三维采集得到的点云的时间序列。取决于观看条件，可以考虑两种体积视频。第一种(即完全6DoF)允许视频内容内的完全自由导航，而第二种(也称为3DoF+)将用户观看空间限制为有限的体积，允许有限的头部平移和视差体验。第二种情形是就座观众成员的自由导航和被动观看条件之间的自然折衷。

利用压缩和传输标准，以符合标准视频管线(例如MPEG)的方式对帧序列(即视频内容)中的点云进行编码，并允许以视频帧速率(即至少每秒24个图像/点云)进行解码是一个挑战。本原理提出解决这些编码和解码技术问题的方法、设备和流。

发明内容

说明书中对“一个实施例”、“实施例”、“示例实施例”、“特定实施例”的引用指示所描述的实施例可以包括特定的特征、结构或特性，但是每个实施例不一定都包括该特定的特征、结构或特性。而且，这样的短语不一定指相同的实施例。此外，当结合实施例描述特定的特征，结构或特性时，认为结合其他实施例影响这样的特征、结构或特性是在本领域技术人员的知识范围内，无论其他实施例是否明确描述。

本公开涉及一种将点云编码到流中的方法。该方法包括：

-对于点云确定块(patch)数据项的列表。块数据项包括角度范围、深度范围以及标识图片内的区域的信息。块数据项与点云的一部分配对；

-生成包括图像块集合的图片。每个图像块是通过根据列表的数据项将点云的一部分投影到图片上而获得的；以及

-在流中对图片和块数据项的列表进行编码。

对于点云确定数据项的列表的操作包括：

a.将点云的一部分投影在投影图上，该部分包括从视点可见的点云的点；

b.通过根据深度信息对投影图的相邻像素进行聚类并将聚类的投影点与对应的块数据项进行配对，来确定列表的块数据项；以及

c.从点云移除点云的一部分；

d.重复迭代a，b和c，直到点云为空或块数据项列表是满的。

根据特定特性，点云包括点云序列的点云组的点。针对图片组确定唯一的(unique)块数据项列表，针对点云组的点云生成该组的每个图片。图片组与唯一的块数据项列表相关联地编码在流中。

根据特定特性，图像块的像素存储深度值。根据与图像块相关联的块数据项的深度范围来确定该深度值。

本公开还涉及一种用于将点云编码到流中的设备。该设备包括与至少一个处理器相关联的存储器，处理器配置为：

-对于点云确定块数据项的列表，块数据项包括角度范围、深度范围以及标识图片内的区域的信息，块数据项与点云的一部分配对；

-生成包括图像块集合的图片，每个图像块是通过根据列表的数据项将点云的一部分投影到图片上而获得的；

-在流中对图片和块数据项的列表进行编码。

本公开还涉及一种从流中解码点云的方法。该方法包括：

-从流中解码图片和块数据项列表，块数据项包括角度范围、深度范围和标识图片内的区域的信息；

-从图片中解包图像块，并将每个图像块与块数据项列表的块数据项进行关联；

-通过根据关联的块数据项对每个解包的图像块的像素进行去投影(un-projecting)，来解码点云的点。

本公开还涉及一种用于从流中解码点云的设备。该设备包括与至少一个处理器相关联的存储器，处理器配置为：

-通过根据关联的块数据项从视点对每个解包的图像块的像素进行去投影，来解码点云的点。

本公开还涉及承载表示至少点云的数据的流。该流包括至少一个图片。该图片包括图像块和包括块数据项列表的数据。块数据项与至少一个图片的图像块相关联，块数据项包括角度范围、深度范围和标识至少一个图片内的区域的信息。

根据特定特性，该流还承载表示背景全向视频的数据。

附图说明

通过阅读以下参考附图的描述，将更好地理解本公开，并且其他具体特征和优点将显现，附图中：

-图1示出了根据本原理的非限制性实施例的点云10和在该点云上构建的表面11；

-图2示出了根据本原理的非限制性实施例的表示三维场景的图像20，该三维场景包括被采集为如图1中所示的点云的几个对象的表面表示；

-图3图示了根据本原理的非限制性实施例的点云序列(例如，图2的点云)的编码、发送和解码的示例；

-图4图示了根据本原理的非限制性实施例的根据视点的编码方法的第一迭代；

-图5示出了根据本原理的非限制性实施例的图4的投影图41的图解示例；

-图6图示了根据本原理的非限制性实施例的根据图5的视点的编码方法的第二迭代；

-图7图解示出了根据本原理的非限制性实施例的由图6的剩余点云的可见点的投影产生的投影图；

-图8示出了根据本原理的非限制性实施例的包括对图2的场景的点云的深度信息进行编码的图像块的图片；

-图9示出了根据本原理的非限制性实施例的包括为图2上所示的场景的点云确定的块数据项列表的颜色图像块的图片；

-图10示出了根据本原理的非限制性实施例的可以被配置为实现结合图12和/或图13描述的方法的设备的示例架构。

-图11示出了根据本原理的非限制性实施例的当通过基于分组的传输协议来传输数据时的流的语法的实施例的示例；

-图12图示了根据本原理的非限制性实施例的在被配置为图3的设备31的图10的设备10中，用于在流中编码点云的方法；

-图13图示了根据本原理的非限制性实施例的在被配置为图3的设备33的图10的设备中，用于从流中解码点云的方法。

具体实施方式

现在参考附图描述主题，其中，相同的参考标号始终用于指代相同的元件。在下面的描述中，出于解释的目的，阐述了许多具体细节以便提供对主题的透彻理解。然而，可以明显的是，可以在没有这些具体细节的情况下实践主题实施例。

本描述示出了本公开的原理。因此，将理解，尽管未在本文中明确描述或示出，但本领域技术人员将能够设计出体现本公开的原理的各种布置。

将参考根据视点在流中编码点云序列的方法以及根据视点从流中解码点云序列的方法的特定实施例来描述本原理。

编码方法获得点云序列作为入口。在第一操作中，将序列的点云的点迭代地投影在投影图上以确定块。深度(即，点与视点之间的距离)存储在投影图像素中。在变型中，投影点的颜色信息也存储在投影图中。块对应于投影点的一部分，这些投影点定义了投影图中相邻像素的区域并且深度一致。该部分由对应投影点在从视点而来的空间中占据的角度范围来定义。对于迭代，仅对从视点可见的点进行投影。根据块的连通性和深度在投影图中将块聚类，并将其添加到块数据项列表。将投影点从点云中移除，并使用修改后的点云执行新的迭代，直到点云为空或块数据项列表是满的。在第二操作中，当块数据项列表完成时，根据块的点的投影将在图片中占据的尺寸，以给定的角分辨率(例如，每像素3秒或每像素5秒)将块布置在图片中。该布置包括保留图片中的区域，用于投影(深度和颜色)与块相关联的点。所保留的区域的尺寸取决于图片的角分辨率和块的角度范围。对区域在帧中的位置进行优化，以不重叠地覆盖图片的帧。在第三操作中，然后，点云的点在相关区域中根据它们与之相关联的块而被投影在图片上。将所获得的图片与表示块数据项列表的数据相关联地编码在流中。这些数据包括块的角度范围、块的深度范围(即块的点的最小和最大深度)以及图片内的块区域的位置。因此，图片包括对点深度信息进行编码的图像块。在变型中，图片或第二图片也对点颜色信息进行编码。在另一实施例中，被收集为唯一点云的、序列的点云组被用作编码方法的入口点云。通过迭代操作获得的块数据项列表具有时间上一致的优点。表示块数据项列表的唯一数据集被编码在流中，并与图片组(group of pictures，GoP)相关联，图片是为该组的每个点云生成的。所生成的流具有与标准视频压缩和传输管线一致的优点。

解码方法获得该流作为入口。从流中解码图片和表示块数据项列表的关联数据。图片与块数据项列表相关联。块数据项列表可以与图片组(GoP)相关联。从图片序列中取得点云序列，该序列的点云是通过根据关联的块数据，对图片中包括的图像块的像素进行去投影而获得的。根据存储在像素中的深度信息、图像块中像素的坐标和块数据来确定点的位置。确定相对于视点的角度以及点与视点之间的距离，并将点放置在点云中。在变型中，图片或第二图片包括属于去投影点的颜色信息。解码方法具有简单的优点，并且能够由处理器至少以视频帧速率来执行。

图1示出了点云10和构建在该点云上的表面11。点云10对应于表示对象或对象组的外表面或外部形状的大量点集合。点云可以看作是基于矢量的结构，其中每个点都有其坐标。比如，矢量可以由以原点为中心的参照系中的三维坐标XYZ定义。在另一示例中，矢量由径向坐标

定义，其中

表示相对于视点的三维方向，并且d表示视点与点之间的距离(也称为“深度”)。点还可以具有可以在任何颜色空间(例如RGB(红色、绿色和蓝色)或YUV(Y是亮度分量，而UV是两个色度分量))中表示的颜色分量。可以从点云定义表面11。可以根据几种方法获得表面。比如，可以“喷溅(splat)”点。将点的尺寸增加到相邻者与相邻者重叠。将这些喷溅点表示为圆盘，其分量(例如颜色)以正态(例如高斯)方式在直径上变化。平面圆盘形成平滑的表面。在变型中，可以基于三角剖分，对点和由平滑网格定义的表面执行三角剖分。可以通过图形处理器来计算表面11。它用于从视点确定点的可见性。在图1的示例中，例如，在点云表示10上可见的下巴后面的颈部的某些点在表面表示11上不可见，这是因为表面填充了点之间的空间间隙。利用表面表示，可以确定点云的点是否从视点可见。

图2示出了表示三维场景的图像20，其包括被采集为点云的几个对象的表面表示。从与获取视点不同的视点生成图像20。例如，图像20右侧的角色不完整，他的左臂和后背的点不可用于(例如，尚未采集)完成表面表示。图像20上表示的场景可以分为两部分。包括可以在3DoF视频中进行编码而不会降低观看体验的对象的第一部分可以在“背景”3DoF视频流中进行编码。在图2中，背景部分包括场景的地板和墙壁。前景部分包括对其需要3DoF+观看体验的对象。在图2的示例中，前景部分对应于角色和雕像。

图3图示了点云序列的编码、发送和解码的示例。根据本编码方法的原理，由编码器31将至少一个点云30的序列编码在流32中。解码器33从源获得流32。例如，源属于包含以下内容的集合：

-本地存储器，例如视频存储器或RAM(或随机存取存储器)、闪存、ROM(或只读存储器)、硬盘；

-存储接口，例如与大容量存储、RAM、闪存、ROM、光盘或磁性支撑件的接口；

-通信接口，例如有线接口(例如总线接口、广域网接口、局域网接口)或无线接口(诸如IEEE 802.11接口或蓝牙

接口)；以及

-用户界面，诸如使用户能够输入数据的图形用户界面。

解码器33根据解码方法从流32中解码点云34的序列。根据本原理，点云34的序列尽可能类似于点云30的序列。点云34的序列可以由渲染器35从源获得。渲染器35计算要显示的图像以用于3DoF+视频观看体验。

图4图示了根据视点40的编码方法的第一迭代。在图4的示例中，点云包括三个对象42、43和44。对象42的点根据视点40形成具有正面和背面的表面。对象42的背面点从视点40不可见。对象43和44的点根据视点40形成仅具有正面的表面。对象43的点从视点40可见，而由于对象43的表面的遮挡，对象44的仅一部分点从视点可见。在编码方法的第一迭代中，根据投影方法，将从视点可见的点云的点投影在投影图41上。在图4的示例上，投影方法是球面投影，例如纬度/经度投影或等矩形投影(也称为ERP)，因此投影图在图4上表示为球形。在变型中，投影方法是立方投影方法、金字塔投影方法或以视点为中心的任何投影方法。将对象42的前面的点投影在投影图的区域45中。对象42的背面点未被投影，因为它们从视点40不可见。对象43的每个点都从视点40可见。根据投影方法将它们投影在投影图41的区域46上。对象44的点的仅一部分点从视点40可见。将对象44的可见点投影在投影图41的区域47上。

图5示出了图4的投影图41的图解示例。区域45的像素存储对象42的可见点的与可见点有关的深度信息；区域46的像素存储对象43的可见点的与可见点有关的深度信息；以及区域47的像素存储对象44的可见点的与可见点有关的深度信息。执行像素聚类操作以根据深度信息将投影图41的相邻像素聚类。像素45构成可以由矩形55界定的相邻聚类。像素46和47构成投影图41的相邻区域。然而，区域46和区域47的像素在它们存储的深度值上不同。像素46的深度值明显小于像素47的深度值。根据编码方法的本原理，根据聚类的连接和深度值来确定聚类。由于像素46和像素47之间存在间隙，因此将它们分组在不同的聚类中。这两个聚类可以表示为矩形56和57。聚类操作可以吸收这两个区域之间的高频区域，并且矩形56和57可轻轻重叠。由聚类操作定义的矩形区域作为块数据项存储在存储器中。例如，针对矩形57的块数据包括根据视点40的对象44的可见点的角度范围([θ_min,θ_max],

)；θ_min是根据视点的块的点的径向坐标的最左侧的值，θ_max是最右侧的值，

是最下方的值，

是最上方的值。像素区域的深度范围[ρ_min,ρ_max]也被记录在块数据中。块的该分量有助于编码，以增加为深度编码保留的字节范围的动态。在变型中，聚类操作提供椭圆区域，并且块包括表示椭圆区域的数据。将块添加到与点云相关联的块数据项列表。在该步骤，从视点可见的点云的点已被投影在投影图上，并从点云中被移除。

图6图示了根据视点40的编码方法的第二迭代。在该步骤，已经从点云中移除了已被投影的点。根据对象的点，形成对象42的背面的点62剩余。对象43的每个点由于已被投影而已经从点云中移除，而对象44的点64剩余以待投影。迭代参考图4描述的可见点的投影。

图7图解示出了由图6的剩余点云的可见点的投影产生的投影图。矩形72界定与点62的投影相对应的聚类。矩形74界定与点64的集合的可见点的投影相对应的聚类。新的块被确定，在图7的示例中为两个，每个块包括角度范围([θ_min,θ_max],

)和深度范围[ρ_min,ρ_max]。将已投影的点从点云中移除。在该迭代之后，点云仅包括点64的一部分。如参考如图4至图7所描述的，执行剥离(peeling)操作的第三迭代。

剥离操作旨在确定点云的每个点将要与之相关联的块数据项列表。该操作可以分为三个步骤。在每次迭代中：

i.将点云中尚未处理的、称为“活动集”的部分投影在低分辨率投影图上，其原点设置在所决定的视点处。在图4至图7的示例中，所选择的投影方法是等矩形投影。在变型中，投影方法可以是另一种球面投影方法，如纬度/经度投影或立方投影或金字塔投影，或者是以视点为中心的任何投影方法。投影图的分辨率低(例如，每度1个像素或每度2个像素)，以防止聚类操作生成太小的块，从而产生过多数量的块。

ii.然后，在投影图中执行聚类操作以标识同质(homogeneous)区域。在图4至图9的示例中，标识的区域是矩形。在变型中，标识的区域可以具有椭圆形状。区域P覆盖发生投影并且深度一致的投影图的相邻像素的集合。深度一致性检查归结为考虑视点与由P覆盖的每个投影点之间的距离Z，并确保这些像素的距离范围不深于阈值T。该阈值可以取决于Z_max(视点与由P覆盖的投影像素之间的最大距离)，取决于存储在通过进一步的生成操作所生成的图片中的深度的动态D，以及取决于感知属性。例如，典型的人类视敏度大约为三分钟的弧度。根据这些标准确定阈值T具有几个优点。一方面，在进一步的生成操作中生成的图片中的图像块将覆盖与所生成的图片的像素的深度分辨率一致的深度范围(例如10比特或12比特)，并且因此对于压缩伪影是鲁棒的。另一方面，深度范围由3DoF+上下文感知地驱动。实际上，人类视觉并不平等地感知近点或远点的距离。作为示例，阈值可以根据公式[公式1]定义。

[公式1]

其中VA是视敏度的值。

iii.已被投影的活动点集的点与一个新创建的块相关联；块包括表示聚类区域的角度范围和该区域的深度范围的数据。将这些点从活动点集中丢弃。如果活动点集为空，则剥离过程完成。

一旦已经确定了块数据项列表，就将点云的每个点与块数据项列表的一个块配对。每个块包括与由以视点为中心的同心球的两个部分所界定的空间相对应的数据，并且其表征为：角度范围[θ_min,θ_max](属于[-π；π]弧度)和

(属于[-π/2；π/2]弧度)，以及深度范围[ρ_min,ρ_max]。所使用的投影方法以视点为中心。这样的投影方法(例如等矩形投影)仅取决于角度：远离投影中心的大对象在投影图中可能会与小而近的对象占据相同的区域。因此，根据本原理，可以根据从视点来看的对象的重要性而不是根据投影对象的固有尺寸来适配块的尺寸。这样的属性符合3DoF+上下文。

图8示出了图片，其包括对图2的场景的点云的深度信息进行编码的图像块。在该示例中，已经对图2的场景的点云执行了剥离操作。已经确定了块列表。与块配对的点的投影将生成图像块。图像块具有称为“图集(Atlas)分辨率”的分辨率，该分辨率定义了点云编码的质量。例如，从每度18至25像素的图集分辨率允许在包含大量图像块(例如500或600个块)的2048×2048像素图片中对复杂场景(例如图2的场景)进行编码。该分辨率越低，最终质量越差。为了确保图像块在图片的网格上良好对齐，可以将投影图分辨率选择为图集分辨率的整数除法器(integral divider)。

执行图像块的打包操作。存在许多启发式算法来解决将矩形单元打包成矩形箱(即要生成的图片)的NP完全问题，例如Jukka

的“打包箱的千种方式(A ThousandWays to Pack the Bin)”中描述的算法，或以很低的计算成本提供良好填充率的“MaxRects”算法(即单箱-最佳短边优先的配置)。在打包操作结束时，将图像块在图片中的位置(x，y)(例如，左下角位置)，以及根据打包算法的、指示图像块是否已旋转的布尔值分配给块数据项列表的每个块。可以通过在视频编码器的编码单元上对块进行对齐来优化打包，以改善编码阶段。图8示出了图片，其中是针对图2上所示的场景的点云确定的块数据项列表的打包图像块。图8的图片的像素包括深度信息(即，点云的点与视点之间的距离)。

图9示出了图片，其包括为图2上所示的场景的点云确定的块数据项列表的颜色图像块。在实施例中，在唯一图片的像素中编码深度和颜色信息。在另一实施例中，在两个图片中编码深度和颜色信息。

根据本原理，将点云序列的点云编码为图片，该图片包括与表示块数据项列表的数据相关联的打包图像块。将点云编码为与数据关联的图片具有与标准压缩和传输视频管线一致的优点。通常出于压缩的原因，在图片组(GoP)中收集一系列图片。根据本编码方法的实施例，将要编码的点云序列的连续点云收集在一起作为唯一点云。该分组的点云经历剥离操作和打包操作。为该组的每个点云确定唯一块数据项列表。为整个GoP计算图片的打包结构。在一个图片组中保留该结构，因为它显著降低视频编码比特率，尤其是在将编码器设置为禁用开放式图片组(open-gop)优化时。一旦确定了打包结构，在配对步骤中，将点云组的每个点与一个块配对。颜色和深度图片包括图像块上每个点的喷溅投影的结果。在流中对图片组的图片和表示块数据项列表的数据进行编码。

图10示出了可以被配置为实现结合图12和/或图13描述的方法的设备10的示例架构。设备10可以被配置为图3的编码器31、解码器33和/或渲染器35。

设备10包括由数据和地址总线101链接在一起的以下元件：

-微处理器102(或CPU)，其为例如DSP(或数字信号处理器)；

-ROM(或只读存储器)103；

-RAM(或随机存取存储器)104；

-存储接口105；

-I/O接口106，用于从应用接收要发送的数据；以及

-电源，例如电池。

根据示例，电源在设备外部。在每个提到的存储器中，说明书中使用的词语“寄存器”可以对应于小容量的区域(某些比特)或非常大的区域(例如整个程序或大量接收或解码的数据)。ROM 103至少包括程序和参数。ROM 103可以存储算法和指令以执行根据本原理的技术。当接通时，CPU 102上载RAM中的程序并运行对应的指令。

RAM 104包括寄存器中的由CPU 102运行并在设备10接通后上载的程序、寄存器中的输入数据、寄存器中的处于方法的不同状态的中间数据以及寄存器中的用于运行方法的其他变量。

本文描述的实现方式可以例如以方法或过程、装置、计算机程序产品、数据流或信号来实现。即使仅在单一形式的实现方式的背景下进行讨论(例如，仅作为方法或设备进行讨论)，但是所讨论的特征的实现方式也可以以其他形式(例如程序)来实现。装置可以以例如适当的硬件、软件和固件来实现。方法可以在例如诸如处理器(其通常涉及处理设备，包括例如计算机、微处理器、集成电路或可编程逻辑器件)的装置中实现。处理器还包括通信设备，诸如例如计算机、蜂窝电话、便携式/个人数字助理(“PDA”)，以及其他有助于终端用户之间信息通信的设备。

根据图3的编码或编码器31的示例，从源获得至少一个点云30的序列。例如，源属于包括以下内容的集合：

-本地存储器(103或104)，例如视频存储器或RAM(或随机存取存储器)、闪存、ROM(或只读存储器)、硬盘；

-存储接口(105)，例如与大容量存储、RAM、闪存、ROM、光盘或磁性支撑件的接口；

-通信接口(106)，例如，有线接口(例如总线接口、广域网接口、局域网接口)或无线接口(例如IEEE 802.11接口或蓝牙

接口)；以及

-用户界面，诸如使用户能够输入数据的图形用户界面。

根据图3的解码或解码器33的示例，将流发送到目的地；具体地，目的地属于包括以下内容的集合：

-本地存储器(103或104)，例如视频存储器或RAM、闪存、硬盘；

-存储接口(105)，例如与大容量存储、RAM、闪存、ROM、光盘或磁性支撑件的接口；以及

-通信接口(106)，例如，有线接口(例如总线接口(例如USB(或通用串行总线))、广域网接口、局域网接口、HDMI(高清多媒体接口)接口)或无线接口(诸如IEEE 802.11接口，WiFi

或蓝牙

接口)。

根据编码或编码器的示例，将包括表示体积场景的数据的比特流发送到目的地。作为示例，将比特流存储在本地或远程存储器中，例如视频存储器(104)或RAM(104)、硬盘(103)。在变型中，将比特流发送到存储接口(105)，例如与大容量存储、闪存、ROM、光盘或磁性支撑件的接口，和/或通过通信接口(106)(例如到点对点链路、通信总线、点对多点链路或广播网络的接口)发送。

根据图3的解码或解码器或渲染器35的示例，从源获得比特流。示例性地，从本地存储器(例如视频存储器(104)、RAM(104)、ROM(103)、闪存(103)或硬盘(103))读取比特流。在变型中，从存储接口(105)(例如与大容量存储、RAM、ROM、闪存、光盘或磁性支撑件的接口)接收比特流，和/或从通信接口(105)(例如到点对点链路、总线、点对多点链路或广播网络的接口)接收比特流。

根据示例，设备10被配置为实现结合图12描述的方法，并且属于包括以下内容的集合：

-移动设备；

-通信设备；

-游戏设备；

-平板(或平板计算机)；

-膝上型计算机；

-静止图片相机；

-摄像机；

-编码芯片；

-服务器(例如，广播服务器、视频点播服务器或网络服务器)。

根据示例，设备10被配置为实现结合图13描述的渲染方法，并且属于包括以下内容的集合：

-移动设备；

-通信设备；

-游戏设备；

-机顶盒；

-电视机；

-平板(或平板计算机)；

-膝上型计算机；和

-显示器(诸如例如HMD)。

图11示出了当通过基于分组的传输协议来传输数据时的流的语法的实施例的示例。图11示出了体积视频流的示例结构1100。该结构包含容器，该容器以独立的语法元素组织流。该结构可以包括头部部分1101，该头部部分是对于该流的每个语法元素公共的数据集。例如，头部部分包括关于语法元素的元数据，描述每个语法元素的性质和作用。头部部分还可以包括用于编码的视点的坐标以及关于图片的尺寸和分辨率的信息。该结构包括有效载荷，该有效载荷包括语法元素1102和1103。第一语法元素1102包括表示包括图像块的图片的数据。图片可以已经根据视频压缩方法而被压缩。图片与第二语法元素1103的块数据项列表相关联。在实施例中，第一语法元素包括图片对的序列，一个图片编码深度信息，配对的图片编码颜色信息。第二语法元素包括表示与第一语法元素1102的图片相关联的块数据项列表的数据。块数据项列表可以与图片组相关联。对每个块数据项列表的每个块，表示块数据项列表的数据可以包括角度范围、深度范围以及至少一个图片中的对应图像块的形状和位置的描述。

出于说明目的，在ISOBMFF文件格式标准的上下文中，通常会在MOOV类型的框中的ISOBMFF轨道中引用颜色图、深度图和元数据，其中颜色图和深度图数据本身嵌入在mdat类型的媒体数据框中。

图12图示了根据本原理的非限制性实施例的在被配置为图3的设备31的设备10(关于图10描述)中的用于在流中编码点云的方法。

在步骤1200中，更新设备10的不同参数。具体地，从源获得点云，在点云的空间中确定视点，初始化投影方法，确定投影图和图片的尺寸和分辨率，以及创建空的块数据项列表。

执行块数据项列表确定操作1201。该操作是包括步骤1202、1203和1204的迭代过程。在步骤1202中，根据投影方法将从视点可见的点云的点投影在投影图上。投影图的分辨率低(例如，每度1个像素或每度2个像素)，以防止聚类步骤1203生成太小的块，从而产生过多数量的块。在步骤1203中，根据深度信息对投影图的相邻像素进行聚类。将块添加到构建下的块数据项列表。将投影点与对应的块进行配对。在步骤1204中，从点云中移除投影点，并且用修改后的点云对操作1201进行迭代。执行迭代，直到点云为空。在变型中，对操作1201进行迭代，直到块数据项列表为满。当对块数据项列表的块的图像块进行编码所需的区域大于箱(即，将在操作1205中在其中布置图像块的图片)的区域时，认为块数据项列表是满的。

一旦确定了块数据项列表，就执行打包操作1205，从而导致图片的生成。将点云的点投影在图像块中，图像块具有与图片相同的分辨率。将图像块以优化的方式布置在图片中。

在步骤1206中，根据参考图11描述的语法在流中对图片和相关联的块数据项列表进行编码。可以对点云序列的其他点云重复编码方法。在本原理的实施例中，将收集为唯一点云的、序列的点云组用作编码方法的入口点云。确定对于所生成的图片组的图片公共的块数据项列表，并将其与整个图片组相关联地在流中编码一次。

图13图示了根据本原理的非限制性实施例的在被配置为图3的设备33的设备10(关于图10描述)中的用于从流中解码点云的方法。

在步骤1300中，更新设备10的不同参数。具体地，从源获得流，在点云的空间中确定视点，以及初始化去投影方法。在变型中，从流中解码视点。

在步骤1301中，从流中解码图片和块数据项列表。块数据项列表可以与图片组相关联。块数据项包括角度范围、深度范围以及标识相关联的图片内的区域的信息。图片包括打包在图片的像素网格中的图像块集合。在步骤1302中，根据块数据项从图片中对图像块进行解包。包括在每个块数据项中的、标识图片内的区域的信息描述了图片的像素网格中的图像块的位置和形状。该信息、块数据项的角度范围和图片分辨率用于对图像块进行解包。块数据项还包括在步骤1303处使用的深度范围。每个解包的图像块与对应的块数据项相关联。在步骤1303中，根据相关联的块数据项对解包的图像的像素进行去投影。根据深度范围对存储在像素中的深度信息进行解码，该深度范围允许最佳地使用像素的动态，该深度例如被编码为10比特或15比特。然后根据图像块内像素的坐标、角度范围和解码的深度来计算解码的点在空间中的位置。例如，根据图像块的参照系内的像素坐标和包含在相关联的块数据项中的角度范围([θ_min,θ_max],

)，对根据视点的点的方向进行线性插值。在与所确定的深度相对应的距视点的距离处，在确定的方向上对该点进行投影。如果图片的像素存储颜色值，或者如果颜色值存储在与深度图片配对的图片中，则将该颜色值分配给投影点。

当然，本公开不限于先前所描述的实施例。

特别地，本公开不限于用于对承载表示体积场景(即，三维点云的序列)的数据的流进行编码/解码的方法和设备，而是还扩展到对二维点云的序列进行编码/解码的方法，以及实现这些方法的任何设备，尤其是包括至少一个CPU和/或至少一个GPU的任何设备。

本公开还涉及一种方法(和设备，被配置为)，用于显示从包括表示体积场景的信息的数据流渲染的图像，以及一种方法(和设备，被配置为)，用于用平面视频来渲染和显示对象。

本公开还涉及一种方法(和设备，被配置为)，用于发送和/或接收流。

本文描述的实现方式可以例如以方法或过程、装置、计算机程序产品、数据流或信号来实现。即使仅在单一形式的实现方式的背景下进行讨论(例如，仅作为方法或设备进行讨论)，但是所讨论的特征的实现方式也可以以其他形式(例如程序)来实现。装置可以以例如适当的硬件、软件和固件来实现。方法可以在例如诸如处理器(其通常涉及处理设备，包括例如计算机、微处理器、集成电路或可编程逻辑器件)的装置中实现。处理器还包括通信设备，诸如例如智能电话、平板、计算机、移动电话、便携式/个人数字助理(“PDA”)，以及其他有助于终端用户之间信息通信的设备。

本文描述的各种过程和特征的实现方式可以体现在各种不同的设备或应用中，尤其是例如与数据编码、数据解码、视图生成、纹理处理以及图像和相关的纹理信息和/或深度信息的其他处理相关联的设备或应用。此类设备的示例包括编码器、解码器、处理来自解码器的输出的后处理器、为编码器提供输入的预处理器、视频编码器、视频解码器、视频编解码器、网络服务器、机顶盒、膝上型计算机、个人计算机、蜂窝电话、PDA和其他通信设备。应当清楚，设备可以是移动的，甚至安装在移动交通工具中。

另外，可以通过由处理器执行的指令来实现方法，并且可以将这样的指令(和/或由实现方式产生的数据值)存储在处理器可读介质上，诸如例如集成电路、软件载体或其他存储设备，诸如例如硬盘、压缩磁盘(“CD”)、光盘(诸如例如DVD，通常称为数字多功能盘或数字视频盘)、随机存取存储器(“RAM”)或只读存储器(“ROM”)。指令可以形成有形地体现在处理器可读介质上的应用程序。指令可以例如在硬件、固件、软件或其组合中。指令可以存在于例如操作系统、单独的应用或两者的组合中。因此，处理器可以表征为例如被配置为进行处理的设备和包括具有用于进行处理的指令的处理器可读介质(诸如存储设备)的设备。此外，除了指令或代替指令，处理器可读介质可以存储由实现方式产生的数据值。

如对于本领域技术人员将明显的那样，实现方式可以产生各种信号，这些信号被格式化以承载例如可以被存储或发送的信息。该信息可以包括例如用于执行方法的指令或由所描述的实现方式之一产生的数据。例如，可以将信号格式化以承载用于写入或读取所描述的实施例的语法的规则作为数据，或者承载由所描述的实施例写入的实际语法值作为数据。可以将这样的信号格式化为例如电磁波(例如，使用频谱的射频部分)或基带信号。格式化可以包括例如对数据流进行编码以及利用编码的数据流来调制载波。信号承载的信息可以是例如模拟或数字信息。如已知那样，信号可以通过各种不同的有线或无线链路传输。信号可以存储在处理器可读介质上。

已经描述了许多实现方式。然而，将理解，可以进行各种修改。例如，可以对不同实现方式的元素进行组合、补充、修改或移除，以产生其他实现方式。另外，本领域普通技术人员将理解，其他结构和过程可以代替所公开的结构和过程，并且所产生的实现方式将以与所公开的实现方式至少基本相同的方式执行与所公开的实现方式至少基本相同的功能，以实现与所公开的实现方式至少基本相同的结果。因此，本申请考虑了这些和其他实现方式。

Claims

1.一种将点云编码到流中的方法，所述方法包括：

-对于所述点云确定块数据项的列表，块数据项包括表示角度范围的数据、表示深度范围的数据以及标识图片内的区域的信息；通过以下方式来执行所述确定：

a.将所述点云的一部分投影在投影图上，所述部分包括从视点可见的所述点云的点；

b.通过根据深度信息对所述投影图的相邻像素进行聚类并将所述聚类的投影点与对应的块数据项进行配对，来确定所述列表的块数据项；以及

c.从所述点云移除所述点云的所述部分；

d.重复迭代a，b和c，直到所述点云为空或所述块数据项列表是满的；

-生成包括图像块集合的图片，每个图像块是通过对于所述列表的块数据项，将包括在所述块数据项的角度范围和深度范围中的点云的一部分投影到所述图片的区域上而获得的；以及

-在所述流中对所述图片和所述块数据项的列表进行编码。

2.一种用于将点云编码到流中的设备，所述设备包括与至少一个处理器相关联的存储器，所述至少一个处理器配置为：

c.从所述点云移除所述点云的所述部分；

-生成包括图像块集合的图片，每个图像块是通过对于所述列表的块数据项，根据所述列表的数据项将包括在所述块数据项的角度范围和深度范围中的点云的一部分投影到所述图片的区域上而获得的；以及

-在所述流中对所述图片和所述块数据项的列表进行编码。

3.根据权利要求1所述的方法或权利要求2所述的设备，其中，所述点云包括点云序列的点云组的点，针对图片组确定块数据项列表，针对所述点云组的点云生成所述图片组的每个图片，所述编码包括在所述流中对所述图片组和所述块数据项列表进行编码。

4.根据权利要求1或3所述的方法或权利要求2或3所述的设备，其中，图像块的像素存储深度值，所述深度值是根据与所述图像块相关联的块数据项的深度范围确定的。

5.根据权利要求4所述的方法或权利要求4所述的设备，其中，所述图像块的所述像素还存储颜色值。

6.根据权利要求5所述的方法或权利要求5所述的设备，其中，深度值由第一图片的像素存储，而颜色值由第二图片的像素存储，第一图片和第二图片被配对并编码到所述流中。

7.一种从流中解码点云的方法，所述方法包括：

-从所述流中解码图片和块数据项列表，块数据项包括表示角度范围的数据、表示深度范围的数据和标识图片内的区域的信息；

-对于所述列表的块数据项：

·从所述图片的所述区域中解包图像块；以及

·通过根据所述角度范围和深度范围对所述图像块的像素进行去投影，来解码所述点云的点。

8.一种用于从流中解码点云的设备，所述设备包括与至少一个处理器相关联的存储器，所述至少一个处理器配置为：

-对于所述列表的块数据项：

·从所述图片的所述区域中解包图像块；以及

9.根据权利要求7所述的方法或权利要求8所述的设备，其中，根据从所述流中获得的视点来执行对每个解包的图像块的像素进行所述去投影。

10.一种承载表示至少一个点云的数据的流，所述流包括：至少一个图片，所述至少一个图片包括图像块；以及包括块数据项列表的数据，块数据项与所述至少一个图片的图像块相关联，块数据项包括表示角度范围的数据、表示深度范围的数据以及标识所述至少一个图片内的区域的信息。

11.根据权利要10所述的流，还承载表示背景全向视频的数据。