CN111971968A

CN111971968A - 一种用于当3d点集正交投影到投影平面的至少一个图像区域时编码该3d点集的深度值的方法

Info

Publication number: CN111971968A
Application number: CN201980025242.7A
Authority: CN
Inventors: J.里卡德; C.古德; Y.奥利维尔; J.拉奇平萨赫
Original assignee: InterDigital VC Holdings Inc
Current assignee: InterDigital VC Holdings Inc
Priority date: 2018-04-11
Filing date: 2019-04-09
Publication date: 2020-11-20
Anticipated expiration: 2039-04-09
Also published as: US20230062296A1; JP7446234B2; SG11202009210SA; KR20200141450A; JP2021519533A; CA3096840A1; US11756234B2; WO2019199726A1; EP3777183A1; US20240005560A1; CN111971968B

Abstract

至少一个实施例涉及一种方法，该方法包括：对与第一深度图像的图像区域相关联的投影模式进行编码，所述投影模式指示所述图像区域是存储沿着相同投影方向的点云的至少一个正交投影的3D点的最小深度值还是最大深度值；以及将深度最小和最大深度值编码为所述投影模式的函数。

Description

一种用于当3D点集正交投影到投影平面的至少一个图像区域时编码该3D点集的深度值的方法

技术领域

本原理一般涉及表示3D对象的外部表面的点云的编码和解码。特别地，但不排他地，本原理的技术领域涉及表示诸如此类点云的几何形状的深度图像的编码/解码。

背景技术

本章旨在向读者介绍现有技术的各种方面，其可以涉及以下描述和/或以下要求保护的本原理的各个方面。相信该讨论将有助于为读者提供背景信息以便更好地理解本原理的各个方面。相应地，应该理解的是，应该从这个角度解读这些陈述，而不是作为对现有技术的承认。

点云是一些坐标系统中的数据点集。在三维坐标系统(3D空间)中，这些点通常旨在表示3D对象的外部表面。点云的每个点通过其位置(3D空间中的X，Y，和Z坐标)定义，并且可能通过其他相关联的诸如颜色(例如在RGB或YUV颜色空间中表示)、透明度、反射率，双分量法向量等的属性定义。

通常将点云表示为6分量(X，Y，Z，R，G，B)或等同的(X，Y，Z，Y，U，V)的点的集合，其中(X，Y，Z)定义了3D空间中的着色点的坐标，并且(R，G，B)或(Y，U，V)定义了该着色点的颜色。

点云可以是静态或动态的，取决于云是否随着时间的变化而变化。应该注意的是，在动态点云的情况下，点的数量不一定是常数，相反一般是随着时间的变化而变化的。因此，动态点云是以时间为顺序的点的集合的列表。

实际地，点云可以用于各种用途，诸如文化遗产/建筑物，其中，像雕像或建筑物这样的对象被3D扫描，以便共享对象的空间配置，而无需发送或访问它。。另外，这也是一种确保保存对象知识以防其被破坏的方法；例如，地震毁坏的庙。典型的诸如此类的点云是静态的，着色的并且巨大的。

另一个使用情况是其中使用3D表示的地形学(topography)和地图学(cartography)中，地图不限于平面并且可以包括地形(relief)。现在，谷歌地图是好的3D地图的示例，但其使用网格而不是点云。然而，点云可以是用于3D地图的适用的数据格式并且诸如此类的点云通常是静态的，着色的并且巨大的。

汽车工业和自动驾驶车辆也是其中可以使用点云的领域。自动驾驶车辆应该能够“探测”其环境，以基于临近地区的现实情况采用好的驾驶决策。诸如激光雷达的典型的传感器产生由决策引擎使用的动态点云。这些点云不旨在由人类观看并且通常很小，不一定是着色的，并且是是动态的具有较高的捕获频率。其可以具有其他属性，诸如由激光雷达提供的反射率，因为该属性是关于感测对象的材料的良好信息，可以有助于做出决策。

最近，虚拟现实和沉浸式世界变成了热点话题，并且很多人预见其是2D平面视频的未来。基本想法是让观众沉浸在围绕其的环境中，而不是只能看到其面前的虚拟世界的标准电视。取决于环境中的观众的自由度，在沉浸中有几个层次。着色点云是分布式虚拟现实(或VR)世界的好的格式候选。其可以是静态或动态的，并且通常具有平均尺寸，比如一次不超过数百万个点。

仅当比特流的大小足够小以允许实际存储/传输给最终用户时，点云压缩才能成功为沉浸式世界存储/传输3D对象。

在保持可接受的(或优选很好的)体验质量的同时，利用合理的比特流占用将动态点云分布到终端用户是重要的。这些动态点云的有效压缩是使得沉浸式世界的分布链变得实际的关键点。

因为其压缩效率和低复杂度的组合，基于图像的点云压缩技术变得越来越受欢迎。其进行两个重要步骤：第一，其将点云，即3D点投影(正交投影)到2D图像上。例如，至少一个深度图像表示点云的几何形状，即3D空间中的3D点的空间坐标，以及至少一个纹理图像表示与点云的3D点相关联的属性，例如与这些3D点相关联的纹理/颜色信息。接下来，这些技术利用传统的视频编码器对诸如此类的深度和纹理图像进行编码。

通过利用2D视频编码器的性能，基于图像的点云压缩技术实现好的压缩性能，例如HEVC(“ITU-T H.265ITU的电信标准化部门(10/2014)，H系列：视听和多媒体系统，视听服务基础设施-移动视频编码，高效视频编码，推荐标准ITU-T H.265”)，同时，其通过使用简单的投影方案保持低复杂度。

基于图像的点云压缩技术的挑战之一在于点云可以不适用于投影到图像上，尤其当点的分布遵循具有很多折叠的表面(凹凸区域，如衣物)或当点的分布完全不遵循表面(如毛或头发)。在这些情况中，基于图像的点云压缩技术压缩效率低(需要很多小的投影，减少了2D视频压缩的效率)或质量差(由于将点云投影到表面上的难度)。

当前技术发展用于缓解该问题所使用的手段之一在于将多个几何形状和纹理信息投影到图像的相同空间位置(像素)上。这意味着可以生成点云的每个3D点的几个深度和/或纹理图像。

例如，在ISO/IEC JTC1/SC29/WG11/N17248(澳门，中国，2017年十月)中定义的所谓的测试模型类2点云编码器(Test Model Category 2，TMC2)的情况，其中将点云正交投影到投影平面上。接着，所述投影平面的每个坐标关联两个深度值：一个代表与最近点相关联的深度值(最小的深度值)，另一个代表与最远点相关联的深度值(最大的深度值)。接着从最小深度值(D0)生成第一深度图像，从最大深度值(D1)和最小深度值(D0)之间的满足D1-D0<＝SurfaceThickness的差生成第二深度图像，其中SurfaceThickness是最大表面厚度，例如等于4。

接着编码和解码深度图像和相关联的元数据。接着从解码的深度图像重建点云的几何形状。然后，将颜色/纹理分配到重建的点云的每个点并且从所述分配的颜色/纹理生成纹理图像(这里是两个)。接着编码两个纹理图像。

发明内容

以下呈现了本原理的简化内容以提供本原理的一些方面的基本理解。本内容不是本原理的扩展总结。不旨在确定本原理的关键或重要元素。以下内容仅以简化形式呈现本原理的一些方面，作为提供以下更加详细的叙述的前提。

根据至少一个实施例的一般方面，提供了一种方法，该方法包括对与第一深度图像的图像区域相关联的投影模式进行编码，所述投影模式指示所述图像区域是存储沿着相同投影方向的点云的至少一个正交投影的3D点的最小深度值还是最大深度值；将所述深度最小和最大深度值编码为所述投影模式的函数。

根据实施例，将所述深度最小和最大深度值编码为所述投影模式的函数包括：当投影模式等于第一值时，将最小深度值编码为第一图像数据并且将代表最大深度值的信息编码为第二图像数据；以及当投影模式等于第二值时，将最大深度值编码为第一图像数据并且将代表最小深度值的信息编码为第二图像数据。

根据实施例，代表最小或最大深度值的信息是最大和最小深度值之间的绝对差值。

根据实施例，该方法还包括发送所述编码的图像区域和信令通知所述投影模式。

根据实施例，在点云级别信令通知所述投影模式以指示所述投影模式是否改变。

根据实施例，如果在点云级别信令通知所述投影模式改变，在面片(patch)级别信令通知所述投影模式。

根据至少一个实施例的另一个一般方面，提供了一种方法，该方法包括：获取投影模式，该投影模式指示第一深度图像的图像区域是存储沿着相同投影方向的点云的至少一个正交投影的3D点的最小深度值还是最大深度值；以及将所述深度最小和最大深度值解码为所述投影模式的函数。

根据实施例，将所述深度最小和最大深度值解码为所述投影模式的函数包括：当投影模式等于第一值时，将最小深度值解码为第一图像数据并且将代表最大深度值的信息解码为第二图像数据；以及当投影模式等于第二值时，将最大深度值解码为第一图像数据并且将代表最小深度值的信息解码为第二图像数据。

根据实施例，所述投影模式来自比特流。

至少一个实施例的一个或多个还提供了设备、计算机程序产品，非暂时性计算机可读介质和信号。

本原理的具体本质以及本原理的其他对象、优点、特征和使用，将通过以下结合附图对示例的描述变得明确。

附图说明

在附图中，图示了几个实施例的示例。附图示出了：

图1图示了基于图像的点云编码结构的示例的示意性框图；

图2图示了图1的编码器的几何形状压缩部分；

图3示出了其中将点云划分成四个CC的第一示例；

图4示出了其中将点云划分成四个CC的第二示例；

图5和图6示出了当根据至少一个实施例的方法应用于图3和图4的第一和第二示例上时的结果。

图7示出了根据至少一个实施例的用于编码点云的深度值的方法的步骤的框图。

图8示出了根据至少一个实施例的用于解码点云的至少一个3D点的深度值的方法的步骤的框图。

图9表示了可以配置为实施涉及图1-8描述的方法的设备的示例性架构；以及

图10示意性地示出了根据至少一个实施例的设备A和B之间的传输系统。

相似或相同的元素用相同的附图标记表示。

具体实施方式

以下将通过参考附图更加完整地描述本原理，其中示出了本原理的示例。然而，本原理可以以多种替代形式来体现，并且不应被解释为限于这里阐述的示例。因此，尽管本申请易于进行各种修改和替代形式，但是其具体示例在附图中以示例的方式示出，并将在此详细描述。然而，应该理解的是，并不意图将本原理限制于所公开的特定形式，相反地，本公开将覆盖落入由权利要求限定的本原理的精神和范围内的所有修改、等同物和替代物。

本文使用的术语仅用于描述具体示例的目的，并且不旨在对本原理进行限定。如本文所使用的，“一”，“一个”和“该”的单数形式也旨在包括复数形式，除非上下文以其他方式明确指示。需要进一步理解的是，当在说明书中使用术语“包含(comprises)”，“包含着(comprising)”，“包括(includes)”和/或“包括着(including)”时，指定所陈述的特征、整数、步骤、操作、元素和/或组件的存在，但不排除一个或多个其他特征、整数、步骤、操作、元素、组件和/或其组合的存在或添加。此外，当一个元素被称为“响应”或“连接”到另一个元素时，其能够直接响应或连接到另一个元素，或者可能存在中间元素。相反，当一个元素被称为与其他元素“直接响应”或“直接联系”时，就没有中间元素的存在。本文使用的术语“和/或”包括一个或多个列出的相关项目的任何和所有组合，可以缩写为“/”。

应当理解的是，尽管本文可以使用术语第一，第二等以描述各种元素，这些元素不应该通过这些术语限定。这些术语仅用于区别元素。例如，第一元素可以称为第二元素，相似地，第二元素可以称为第一元素，而不偏离本原理的教导。

尽管一些图包括用于通信路径上的箭头以示出通信的主要方向，应当理解的是，通信可以在与所描绘的箭头的相反方向发生。

关于框图和操作流程图描述了一些示例，其中每个框表示电路元素、模块，或包括一个或多个用于实施(多个)指定逻辑函数的可执行指令的代码的部分。还应该注意的是，在其他实施中，框中表示的(多个)功能可以不按标注的顺序发生。例如，取决于所涉及的功能，两个连续示出的框实际可以大致同时执行，或这些框有时可以以相反的顺序执行。

本文提到的“根据示例”或“在示例中”意味着结合该示例描述的特定特征、结构，或特征能够包括在本原理的至少一个实施方式中。短语“根据示例”或“在示例中”在本说明书的各个位置的出现不必需都指同样的示例，也不一定是与其他示例相互排斥的单独或替代示例。

权利要求中出现的参考标号仅作为说明，并且对权利要求的范围没有限制作用。

尽管没有明确描述，所呈现的示例和变型可以体现在任何组合或子组合中。

本原理被描述用于对来自两个深度图像的点云的几何形状进行编码/解码，但是扩展到点云序列(时间上动态的点云)的编码/解码，因为点云序列的几何形状是由/从两个深度图像序列(视频)编码/解码的，与一个点云相关联的两个深度图像独立于该序列的另一个点云的两个深度图像被编码。

在下文中，术语“图像区域”指定图形的像素集。这些像素可以或不可以是邻近的像素，但它们都共享至少一个共同的属性。

例如，可以认为图像本身是图像区域。图像还可以划分成多个块然后块是图像区域。

图像区域还可以具有非矩形形状。例如，当将具有相同(或相似)提取特征的图像像素相关联形成图像区域，就是这样的情况。

从图形提取的特征的示例可以是颜色、纹理，法向量等。

图1示出了TMC2点云编码器的概况。顶行(几何形状压缩)通过深度图像对点云的几何形状信息进行编码。中间行(元数据压缩)对从深度图像重建原始点云的几何形状所需要的元数据进行编码。底行(纹理压缩)通过颜色(纹理)图像对重建的几何形状的颜色(纹理)信息进行编码。

让我们更详细地来看图2示出的几何形状压缩部分。首先，将输入点云(pointcloud，PC)分割成连通分量(connected component，CC)，其中每个CC是具有相似法线的相邻3D点的集合。将每个CC投影到三个主平面XY，XZ或YZ之一，选择哪个法线更接近CC中3D点的平均法线。几何形状信息的投影包括将每个3D点到投影平面的距离(深度)投影到投影平面上。例如，从CC投影到XY平面的3D点p＝(x，y，z)将导致z的值投影到XY平面的(x，y)像素上。取决于3D点在CC中的分布，可以将多于一个的值投影到投影平面的相同坐标上。普通的手段是简单地保持对应于最近点(即，最小深度值)的值，但是这可能不允许捕获更多复杂的3D点分布(如衣物的折叠)。如图2所示，TMC2测试模型保持投影平面的每个坐标的两个值：最小(深度0)和最大(深度1)深度。由此，以增加要编码的投影数据量为代价，更好地捕获3D空间中点的分布。

CC的投影产生面片：投影数据的2D图像。每个CC具有与值一样多的投影到投影平面的每个坐标上的面片。在TMC2中，有两个深度面片(一个用于最小深度，一个用于最大深度)。将存储最小和最大深度值的面片编码为图像数据。因此，在TMC2中，需要两个深度图像：一个用于存储代表最小深度值的信息，并且一个用于存储代表最大深度值的信息。

对每个输入点云使用几个深度图像(1)可能仍然无法恰当地捕获点云的几何形状，并且(2)增加整体比特率，减少压缩效率。

图3示出了第一示例，其中将点云划分成四个CC(点由不同灰色级的方块和散列的方块(hashed square)表示)。我们关注的是由散列的方块表示的CC。将该CC的点投影到垂直“平面”(例如，2D点云投影到1D)，导致投影平面的一些位置具有多于一个的值(在该示例中从0到7)。

如上所述，在TMC2中，存储一个投影图像的每个像素的两个深度值。所述两个深度值对应于投影点的最小和最大深度值，并且具有低于或等于阈值的差值，该阈值为：“surfaceThickness”。在图3的示例中，参数等于4。该特定值为TMC2点云视频编解码器提供了良好的速率失真效率，但本文只将其作为非限定性示例提供。

在该第一示例中，CC的少数点(散列的方块)与CC的主表面断开连接。因为最小和最大深度值之间的距离低于“surfaceThickness”，去投影(de-projection)之后的重建CC(重建面片)是完美的，而没有任何丢失点。然而，需要注意的是，如图3所示，存储最小深度值的面片不遵循CC的主外部表面并且变得非常嘈杂。其在信号中引入高频率，其中该非齐次(non-homogeneous)面片将使得HEVC编码更难并且效率更低。其将增加与第一深度图像相关联的比特率并且降低几何形状重建的精度。

此外，纹理图像也可以与第一深度图像相关联。在我们的示例中，考虑CC的主表面上的统一颜色(例如，值240)和远离主平面的点的不同颜色(例如，值16)。这种典型的点云中的颜色分布导致了与最小深度值相关联的纹理面片，由于高频率的存在，该纹理面片是嘈杂的并且难以利用HEVC编码。

图4示出了第二示例，其中将点云划分成四个CC(点由不同灰色级的方块和散列的方块表示)。该第二示例与第一个相似，其中也将点云划分成了四个CC。与第一示例的差别在于最小和最大深度值之间的距离大于“surfaceThickness”参数(虚线的方块)。因此，不保留最大深度值，并且因此去投影之后的重建CC质量很差，其有很多丢失点。大多数丢失点属于主3D表面的事实加剧了重建问题(客观度量和视觉质量两者)。和第一示例一样，面片是不齐次并且非常嘈杂的。其在信号中引入高频率，使得HEVC编码更难并且效率更低。其将增加与第一深度图像相关联的比特率并且降低几何形状重建的精度。

根据至少一个实施例的一般方面，提供了一种方法，该方法针对通常对应于面片在投影平面上的投影的图像区域，确定在第一深度图像中存储最小深度还是最大深度值，以及确定在第二深度图像中存储代表最大还是最小值的信息。

在点云压缩的上下文中，TMC2编解码器尝试通过在三个可能的投影方向中进行选择，来优化每个连通分量的投影。本实施例中的至少一个允许通过为每个投影方向提供两个不同投影模式来进一步优化每个连通分量的投影。其允许更好地调整投影以适应连通分量的特性。

确定在第一深度图像中存储最小深度值还是最大深度值(而不是总是存储最小深度值)提升了HEVC编码性能，并且因此提升了在整个TMC2v0编解码器的性能。此外，存储最大深度值降低了丢失点的数量，并且剩余的丢失点不太可能属于主3D表面(见图7)。其提升了客观质量度量(几何形状和纹理两者)并且大幅提升了重建点云视频的视觉质量。

图5和图6示出了当根据至少一个实施例的方法应用于图3和图4的第一和第二示例时的结果。

在这些示例中，连通分量CC的投影将最小深度值存储在表示为D0的第一深度图像(左侧)中或将最大深度值存储在第一深度图像D0(右侧)中。

如图所示，对于连通分量CC，如果我们决定将最大深度值存储在第一深度图像D0中，导致的结果明显比存储最小深度更齐次，其将提高HEVC编码的性能(高频率已经被移除)。

在步骤710中，模块确定投影模式是否指示第一深度图像的图像区域是存储沿着相同投影方向的点云的至少一个正交投影的3D点的最小深度值还是最大深度值。

在步骤720中，模块将所述深度最小和最大深度值编码为所述投影模式的函数。

根据步骤720的实施例，模块将所述深度最小和最大深度值编码为所述投影模式的函数包括：当投影模式等于第一值时，将最小深度值编码为第一图像数据并且将代表最大深度值的信息编码为第二图像数据；以及当投影模式等于第二值时，将最大深度值编码为第一图像数据并且将代表最小深度值的信息编码为第二图像数据。

根据实施例，在步骤730中，模块发送第一图像，以及可能的第二深度图像的所述编码的图像区域以及所述投影模式。

根据步骤730的实施例，在点云级别信令通知所述投影模式以指示所述投影模式是否改变。

根据步骤730的实施例，如果在点云级别信令通知所述投影模式改变，在面片级别信令通知所述投影模式。

因此，尽管投影模式只是每面片一个比特，当其值恒定时(即，对于所有面片相同)，对于所有面片编码其投影模式并不是理想的。在更高级别信令通知投影模式是否保持不变节省比特率。

当应用于TMC2时，可以使用实施例之一以将3D点(来自3D空间)投影到2D图像中的像素。换句话说，实施例之一的实施可以如下将连通分量(3D)投影到面片(2D)：

对于连通分量CC，模块选择投影方向(X，Y或Z轴)并且根据所选择的投影方向设置这些参数normalAxis、tangentAxis、bitangentAxis：normalAxis，相应的tangentAxis和bitangentAxis分别指沿面片的法线，相应的正切轴和双切线轴应用于重建的面片点的偏移。

在步骤710中，确定投影模式ProjectionMode。

在步骤720中，通过以下方式初始化第一深度图像：

p.d0＝无效

其中p.d0意味着第一深度图像的像素p的深度值并且“无效(invalid)”指示初始值。

接下来，对于当前连通分量CC的每个点p，通过以下方式在当前点p上执行投影：

D1＝dpdu_3d_shift_normal_axis[frmIdx][patchIndex]

U1＝dpdu_3d_shift_tangent_axis[frmIdx][patchIndex]

V1＝dpdu_3d_shift_bitangent_axis[frmIdx][patchIndex]

其中dpdu_3d_shift_tangent_axis[frmIdx][p]指定沿着在面片帧frmIdx中具有索引p的面片的正切轴应用于重建的面片点的偏移和沿着在面片帧RefIdx中具有索引PredIdx的面片的正切轴的应用于重建的面片点的偏移之间的差。dpdu_3d_shift_tangent_axis[frmIdx][p]的值应该在(-2^{gps_geometry_3d_coordinates_bitdepth_minus1+1}+1)到(2^gps ^{_geometry_3d_coordinates_bitdepth_minus1+1}-1)的范围之中，包括端点，dpdu_3d_shift_bitangent_axis[frmIdx][p]指定沿着在面片帧frmIdx中具有索引p的面片的双切线轴应用于重建的面片点的偏移和沿着在面片帧RefIdx中具有索引PredIdx的面片的双切线轴应用于重建的面片点的偏移之间的差。dpdu_3d_shift_bitangent_axis[frmIdx][p]的值应该在(-2^gps ^{_geometry_3d_coordinates_bitdepth_minus1+1}+1)到(2^{gps_geometry_3d_coordinates_bitdepth_minus1+1}-1)的范围之中，包括端点，并且dpdu_3d_shift_normal_axis[frmIdx][p]指定沿着在面片帧frmIdx中具有索引p的面片的法线轴应用于重建的面片点的偏移和沿着在面片帧RefIdx中具有索引PredIdx的面片的法线轴应用于重建的面片点的偏移之间的差。dpdu_3d_shift_normal_axis[frmIdx][p]的值应该在(-2^{gps_geometry_3d_coordinates_bitdepth_minus1+1}+1)到(2^gps ^{_geometry_3d_coordinates_bitdepth_minus1+1}-1)的范围之中，包括端点。

根据步骤720的实施例，如果投影模式ProjectionMode＝＝0(第一值)则将当前点p的最小深度值存储在第一深度图像中：

p.d0[u,v]＝min(d,p.d0[u,v])

接下来，如果投影模式ProjectionMode＝＝1(第二值)则将当前点p的最大深度值存储在第一深度图像中：

p.d0[u,v]＝max(d,p.d0[u,v])

接下来，初始化第二深度图像。

p.d1＝p.d0

其中p.d1指第二深度图像的像素p的深度值。

d＝point[p.normalAxis]-p.D1

u＝point[p.tangentAxis]-p.U1

v＝point[p.bitangentAxis]-p.V1

如果投影模式ProjectionMode＝＝0(第一值)并且如果当前像素是有效的，如果(((d-p.d0[u,v])<＝surfaceThickness)并且(d>p.d1[u,v]))则

p.d1[u,v]＝d

如果投影模式ProjectionMode＝＝1(第二值)并且如果当前像素是有效的，如果(((p.d0[u,v]-d)<＝surfaceThickness)并且(d<p.d1[u,v]))则

p.d1[u,v]＝d

至少一个实施例的所述实施的结果可以产生两个深度图像。

在TMC2中，直接编码第一深度图像中的深度值。然而，第二深度图像中的深度值可以编码为关于D0的增量(delta)：delta_depth＝d1-d0。

根据至少一个实施例，用于对第二深度图像d1中的深度值进行编码的delta_depth可以计算为：

delta_depth＝abs(d1-d0)

其中‘abs’表示绝对值。

在步骤810中，模块获取投影模式，该投影模式指示第一深度图像的图像区域是存储沿着相同投影方向的点云的至少一个正交投影的3D点的最小深度值还是最大深度值。

从投影平面确定最小和最大深度值。因此，当第一投影平面和第二投影平面平行时，则从第一投影平面确定的最小(对应的最大)深度值等同于从第二投影平面确定的最大(对应的最小)深度值。换句话说，术语最小和最大深度值是从投影平面定义的相对术语。

在步骤820中，模块将所述深度最小和最大深度值解码为所述投影模式的函数。

根据步骤820的实施例，模块将所述深度最小和最大深度值解码为所述投影模式的函数包括：当投影模式等于第一值时，将最小深度值解码为第一图像数据并且将代表最大深度值的信息解码为第二图像数据；以及当投影模式等于第二值时，将最大深度值解码为第一图像数据并且将代表最小深度值的信息解码为第二图像数据。

根据实施例，在步骤830中，模块从比特流导出所述投影模式。

当应用于TMC2时，实施例之一可以用于考虑至少一个投影模式，从第一和第二深度图像导出至少一个3D点的深度值(以重建所述至少一个3D点的几何形状)。换句话说，实施例之一的实施可以如下重建对应于面片p的连通分量：

对于面片p的每个像素(u,v)，d0(u,v)是第一深度图像中的像素，模块如下从第一深度图像计算3D点P0：

P0[p.normalAxis]＝p.D1+d0(x,y)

P0[p.tangentAxis]＝p.U1+u

P0[p.bitangentAxis]＝p.V1+v

接下来，模块从第一和第二深度图像计算3D点P1：

sign＝p.ProjectionMode＝＝0？1:-1；

d1＝d0(x,y)+sign*min(max(0,delta_depth(x,y)),surfaceThickness)

P1[p.normalAxis]＝p.D1+d1

P1[p.tangentAxis]＝p.U1+u

P1[p.bitangentAxis]＝p.V1+v

其中p.ProjectionMode指示与面片相关联的投影模式。

根据步骤730和830的实施例，用于投影/重建连通分量的投影模式(ProjectionMode参数)可以已知(与其他参数一起)以执行去投影。在点云压缩的上下文中，这意味着投影模式可以事先由编码器和解码器已知，或以比特流的方式从编码器发送到解码器。

根据步骤730和830的实施例，根据语法元素ReadPatchMetadata()函数的语法在面片级别信令通知投影模式，该语法元素的语法在表1中给出。

表1

根据步骤730和830的实施例，如果在点云级别信令通知投影模式改变，在面片级别信令通知投影模式。

例如，信令通知第一语法元素ProjectionModeGlobal。每点云定义一次的所述第一语法元素指示投影模式(每面片)是‘变量’(0)、‘总是最小’(1)，或‘总是最大’(2)。当第一语法元素指示投影是变量时，信令通知每面片定义的第二语法元素ProjectionMode。

例如，将第一语法元素添加到在TMC2中已知为ReadOccupancyMap的点云元数据。可以选择对ProjectionModeGlobal使用熵编码，而不是使用固定长度的二进制值。

表2 给出了第一语法元素ReadOccupancyMap()函数的可能语法。

表2

第二语法元素ReadPatchMetadata()函数的语法可以在表3中给出。

表3

根据步骤710的实施例，如下确定指示第一深度图像的图像区域是存储沿着相同投影方向的点云的至少一个正交投影的3D点的最小深度值还是最大深度值的投影模式：

-将所有所述至少一个3D点投影至三个主平面XY，XZ和YZ，投影从每个3D点到投影平面的距离(即，深度)。投影分别遵循3D空间的Z，Y，和的Z轴，趋近于无穷或趋近于负无穷。投影的结果存储在六个不同的具有[bbox_x_size,bbox_y_size]尺寸的2D平面。三个阵列存储对于XY，XZ和YZ平面的最小深度值，并且其他三个存储对于XY，XZ和YZ平面的最大深度值：

1)box_min_depth_array[x][bbox_x_size,bbox_y_size]；

2)box_min_depth_array[y][bbox_x_size,bbox_y_size]；

3)box_min_depth_array[z][bbox_x_size,bbox_y_size]；

以及以下三个对于存储最大深度值的2D平面：

4)box_max_depth_array[x][bbox_x_size,bbox_y_size]；

5)box_max_depth_array[y][bbox_x_size,bbox_y_size]；

6)box_max_depth_array[z][bbox_x_size,bbox_y_size]；

-通过沿着分配给当前面片的“normalAxis”方向投影所述至少一个3D点，选择存储在D0中的最佳深度(最小或最大)。接着，检查当前深度值是等于最小深度值还是最大深度值，该最小深度值和最大深度值分别存储在box_min_depth_array[normalAxis]和box_max_depth_array[normalAxis]中。一个计数器(cptMinDepth或cptMaxDepth)根据当前深度值递增：如果当前深度位于box_min_depth_array，递增cptMinDepth；如果当前深度位于box_max_depth_array，递增cptMaxDepth。

在D0中存储最小深度值还是最大深度值的决定取决于cptMinDepth和cptMaxDepth的比较。如果cptMinDepth大于cptMaxDepth，将所述至少一个3D点的最小深度值存储在第一深度图像D0中，否则相反(存储所述至少一个3D点的最大深度值)。

根据步骤710的实施例，通过使用最小深度值和最大深度值计算第一深度图像的图像区域的能量，来确定指示第一深度图像的图像区域是存储沿着相同投影方向的点云的至少一个正交投影的3D点的最小深度值还是最大深度值的投影模式，并且选择使能量最小化的版本。

不同标准可以用于计算所述图像区域的能量，诸如方差或梯度。

根据步骤710的实施例，通过最小化丢失点的数量，来确定指示第一深度图像的图像区域是存储沿着相同投影方向的点云的至少一个正交投影的3D点的最小深度值还是最大深度值的投影模式。

例如，当投影模式等于第一值(在第一深度图像D0中存储最小深度值)时，将所述至少一个3D点进行投影和去投影，当投影模式等于第二值(在第一深度图像D0中存储最大深度值)时，将所述至少一个3D点进行投影和去投影，将重建的3D点(去投影)和“原始”3D点进行比较，计数丢失点的数量，当投影模式等于第二值(在第一深度图像D0中存储最大深度值)时，迭代该过程并且选择使得丢失点的数量最小化的投影模式。

根据变型，组合步骤710的两个先前的实施例，以确定使得第一深度图像的能量和丢失点的数量最小化的投影模式。

在图1-9上，模块是功能单元，其可以或不可以与可区分物理单元相关。例如，这些模块或这些模块的一些可以在唯一的组件或电路中集合在一起，或构成软件的功能。相反，有些模块可能由独立的物理实体组成。可以使用纯硬件(例如，使用诸如ASIC或FPGA或VLSI的专用硬件，分别为《专用集成电路》，《现场可编程门阵列》，《超大规模集成》)或从嵌入在设备中的几个集成电子元件或从硬件和软件组件的混合来实施与本申请兼容的装置。

图9表示设备90的示例性架构，其可以配置为实施关于图1-8的描述的方法。

设备90包括以下通过数据和地址总线91连接到一起的元件：

-微处理器92(或CPU)，例如是DSP(或数字信号处理器)；

-ROM(或只读存储器)93；

-RAM(或随机存取存储器)94；

-用于从应用接收要发送的数据的I/O接口95；以及

-电池96。

根据示例，电池96在设备外部。在每个提到的存储器中，在说明书中使用的词语《寄存器》能够对应于小容量的区域(一些比特)或对应于非常大的区域(例如，完整的程序或大量的接收或解码数据)。ROM 93包括至少程序和参数。ROM 93可以存储算法和指令以执行根据本原理的技术。当开关开启时，CPU 92将程序上传到RAM中并且执行对应的指令。

RAM 94包括：在寄存器中的通过CPU 92执行并且在设备90的开关开启之后上传的程序、寄存器中的输入数据、在寄存器中的方法的不同状态的中间数据、以及在寄存器中的用于执行该方法的其他变量。

本文描述的实施方式可以在例如方法或过程、装置、软件程序、数据流，或信号中实施。尽管只在单一实施方式的上下文中讨论(例如，只作为方法或设备讨论)，所讨论的特征的实施也可以以其他形式实施(例如程序)。装置可以在例如适当的硬件、软件和固件中实施。这些方法可以在例如诸如处理器的装置中实现，处理器通常指处理设备，包括例如计算机、微处理器、集成电路或可编程逻辑设备。方法可以在例如装置中实施，该装置诸如，例如一般指处理设备的处理器，其包括例如计算机、微处理器、集成电路，或可编程的逻辑设备。处理器还包括通信设备，该通信设备诸如，例如计算机、手机、便携式/个人电子助手(“PDA”)，和协助终端用户之间的信息通信的其他设备。

根据编码或编码器的示例，从源获取点云PC。例如，源属于包括以下各项的集合：

-本地存储器(93或94)，例如视频存储器或RAM(或随机存取存储器)、闪存、ROM(或只读存储器)、硬盘；

-存储接口(95)，例如具有大容量存储、RAM、闪存、ROM，光盘或磁支持的接口；

-通信接口(95)，例如有线接口(例如总线接口、广域网接口、局域网接口)或无线接口(诸如IEEE 802.11接口或

接口)；以及

-图片捕获电路(例如诸如CCD(或电荷耦合器件)或CMOS(或互补金属-氧化物-半导体)的传感器)。

根据解码或解码器的示例，将解码的第一和/或第二深度图像或重建的点云发送到目的地；特别地，目的地属于包括以下各项的集合：

-本地存储器(93或94)，例如视频存储器或RAM、闪存、硬盘；

-通信接口(95)，例如有线接口(例如总线接口(例如USB(或通用串行总线))、广域网接口、局域网接口、HDMI(高分辨率多媒体接口))或无线接口(诸如IEEE 802.11接口或

接口)；以及

-显示器。

根据编码或编码器的示例，将比特流B发送到目的地。作为示例，比特流B存储在本地或远程存储器(例如，视频存储器(94)或RAM(94)、硬盘(93))中。在变型中，将一个或两个比特流发送到存储接口(95)，例如具有大容量存储、闪存、ROM，光盘或磁支持的接口和/或通过通信接口(95)(例如，点对点链路、通信总线、点对多点链路或广播网络的接口)发送。

根据解码或解码器的示例，从源获取比特流B。示例性地，从本地存储器(例如，视频存储器(94)、RAM(94)、ROM(93)、闪存(93)或硬盘(93))读取比特流。在变型中，从存储接口(95)接收比特流，该存储接口例如具有大容量存储、RAM、ROM、闪存，光盘或磁支持的接口和/或从通信接口(95)(例如，点对点链路、通信总线、点对多点链路或广播网络的接口)接收比特流。

根据示例，配置为实施关于图1-24中描述的方法的设备90属于包括以下各项的集合：

-移动设备；

-通信设备；

-游戏设备；

-平板(或平板计算机)；

-膝上电脑；

-静态图片摄影机(still picture camera)；

-视频摄影机；

-编码芯片；

-静态图片服务器；以及

视频服务器(例如，例如广播服务器、视频点播服务器或网络服务器)

根据示例，被配置为实施关于图1-24中描述的方法的设备90属于包括以下各项的集合：

-移动设备；

-通信设备；

-游戏设备；

-机顶盒；

-电视机；

-平板(或平板计算机)；

-膝上型计算机；

-显示器；以及

-解码芯片。

根据本原理的示例，如图10图示，在通过通信网络NET在两个远程设备A和B之间的传输环境中，设备A包括与存储器RAM和ROM相关的处理器，该处理器配置为用于实施关于图1-8描述的对点云的几何形状进行编码的方法，并且设备B包括与存储器RAM和ROM相关的处理器，其被配置为实现如关于图1-8所述的用于解码点云的方法。

本文所述的各种过程和特征的实施可以体现在各种不同的装备或应用中。诸如此类的装备的示例包括编码器、解码器、处理解码器的输出的后处理器，将输入提供给编码器的前处理器、视频编码器、视频解码器、视频编解码器、web服务器、机顶盒、膝上电脑、个人计算机、手机、PDA，和任何其他用于处理图片或视频的设备或其他通信设备。应该清楚的时，装备可以是移动的并且甚至可以是安装在移动交通工具中的。

附加地，方法可以通过由处理器执行的指令实施，诸如此类的指令(和/或通过实施产生的数据值)可以存储在计算机可读存储介质上。计算机可读存储介质能够采取包含在一个或多个计算机可读介质中的计算机可读程序产品的形式，并且其上包含可由计算机执行的计算机可读程序代码。本文所使用的计算机可读存储介质被认为是非暂时行存储介质，其具有在其中存储信息的固有能量以及由此提供从中检索信息的固有能力。计算机可读存储介质能够是但不限于例如电子、磁性、光学、电磁、红外线或半导体系统、装置、或设备，或前述的任何合适的组合。应该理解的是，尽管提供了本原理能够应用的更多计算机可读存储介质的特定示例，但是如本领域普通技术人员容易理解的那样，以下仅仅是说明性的而不是穷尽性的列举：便携式计算机软盘；硬盘；只读存储器(ROM)；可擦除可编程只读存储器(EPROM或闪存)；便携式光盘只读存储器(CD-ROM)；光学存储设备；磁性存储设备；或前述的任何合适的组合。

指令可以有形地形成包含在处理器可读介质上的应用程序。

指令可以例如在硬件、固件、软件，或组合中。指令可以在例如操作系统、独立应用，或两者的组合中找到。因此，处理器的特点在于，例如，被配置为执行处理的设备以及包括具有用于执行处理的指令的处理器可读介质的设备(诸如存储设备)两者。此外，除了指令以外的和代替指令的，处理器可读介质可以存储由实施产生的数据值。

对于本领域技术人员显而易见的是，实施方式可以产生各种信号，这些信号被格式化以携带例如可以存储或发送的信息。信息可以包括例如用于执行方法的指令，或由所描述的实施方式之一产生的数据。例如，信号可以被格式化为携带用于写入或读取本原理所述示例的语法的规则作为数据，或携带由本原理所述示例写入的实际语法值作为数据。诸如此类的信号可以被格式化为例如作为电磁波(例如，使用频谱的无线广播频率部分)或被格式化为基带信号。格式化可以包括，例如，编码数据流以及利用编码数据流调制载波。信号携带的信息可以是例如模拟或数字信息。已知信息可以通过各种不同的有线或无线链路传输。信号可以存储在处理器可读介质上。

描述了一定数量的实施方式。然而，应该理解，可以做出各种修改。例如，不同实施方式的元素可以组合、补充、修改，或移除以产生其他实施方式。此外，普通技术人员将理解的是，其他结构和过程可以取代所公开的那些，并且得到的实施方式将执行至少在实质上相同的(多个)功能，以实现至少在实质上与公开的实施方式相同的(多个)结果。因此，本申请考虑了这些和其他实施方式。

Claims

1.一种方法包括：

-编码与第一深度图像的图像区域相关联的投影模式，所述投影模式指示所述图像区域是存储沿着相同投影方向的点云的至少一个正交投影的3D点的最小深度值还是最大深度值；以及

-将所述深度最小和最大深度值编码为所述投影模式的函数。

2.根据权利要求1所述的方法，其中将所述深度最小和最大深度值编码为所述投影模式的函数包括：在投影模式等于第一值时，将最小深度值编码为第一图像数据并且将代表最大深度值的信息编码为第二图像数据；以及在投影模式等于第二值时，将最大深度值编码为第一图像数据并且将代表最小深度值的信息编码为第二图像数据。

3.根据权利要求2所述的方法，其中代表最小或最大深度值的信息是最大和最小深度值之间的绝对差值。

4.根据权利要求1-3之一所述的方法，其中所述方法还包括发送所述编码的图像区域和信令通知所述投影模式。

5.根据权利要求4所述的方法，其中在点云级别信令通知所述投影模式以指示所述投影模式是否改变。

6.根据权利要求4或5所述的方法，其中如果在所述点云级别信令通知所述投影模式改变，则在面片级别信令通知所述投影模式。

7.一种方法，包括：

-获取投影模式，所述投影模式指示第一深度图像的图像区域是存储沿着相同投影方向的点云的至少一个正交投影的3D点的最小深度值还是最大深度值；以及

-将所述深度最小和最大深度值解码为所述投影模式的函数。

8.根据权利要求7所述的方法，其中将所述深度最小和最大深度值解码为所述投影模式的函数包括：当投影模式等于第一值时，将最小深度值解码为第一图像数据并且将代表最大深度值的信息解码为第二图像数据；以及在投影模式等于第二值时，将最大深度值解码为第一图像数据并且将代表最小深度值的信息解码为第二图像数据。

9.根据权利要求8所述的方法，其中代表最小或最大深度值的信息是最大和最小深度值之间的绝对差值。

10.根据权利要求7-9之一所述的方法，其中所述投影模式来自比特流。

11.一种设备，包括至少一个处理器，所述处理器被配置为：

-将所述深度最小和最大深度值编码为所述投影模式的函数。

12.根据权利要求11所述的设备，其中将所述深度最小和最大深度值编码为所述投影模式的函数包括：当投影模式等于第一值时，将最小深度值编码为第一图像数据并且将代表最大深度值的信息编码为第二图像数据；以及当投影模式等于第二值时，将最大深度值编码为第一图像数据并且将代表最小深度值的信息编码为第二图像数据。

13.根据权利要求12所述的设备，其中，代表最小或最大深度值的信息是最大和最小深度值之间的绝对差值。

14.根据权利要求11-13之一所述的方法，其中，所述至少一个处理器还包括配置为发送所述编码的图像区域和信令通知所述投影模式。

15.根据权利要求14所述的方法，其中，在点云级别信令通知所述投影模式以指示所述投影模式是否改变。

16.根据权利要求14或15所述的方法，其中，如果在点云级别信令通知所述投影模式改变，则在面片级别信令通知所述投影模式。

17.一种设备，包括至少一个处理器，所述处理器被配置为：

-将所述深度最小和最大深度值解码为所述投影模式的函数。

18.根据权利要求17所述的设备，其中，将所述深度最小和最大深度值解码为所述投影模式的函数包括：当投影模式等于第一值时，将最小深度值解码为第一图像数据并且将代表最大深度值的信息解码为第二图像数据，以及当投影模式等于第二值时，将最大深度值解码为第一图像数据并且将代表最小深度值的信息解码为第二图像数据。

19.根据权利要求18所述的设备，其中，代表最小或最大深度值的信息是最大和最小深度值之间的绝对差值。

20.根据权利要求17-19之一所述的设备，其中，所述投影模式来自比特流。

21.一种计算机程序产品，包括指令，当所述程序由一个或多个处理器执行程序时，所述指令使得一个或多个处理器执行根据权利要求1或7所述的方法。

22.一种非暂时性计算机可读介质，包括用于使得一个或多个处理器执行根据权利要求1或7所述的方法的步骤的指令。

23.一种信号，包括代表与深度图像的图像区域相关联的投影模式的数据，所述投影模式指示所述图像区域是存储沿着相同投影方向的点云的至少一个正交投影的3D点的最小深度值还是最大深度值。