CN111971969A

CN111971969A - 用于对点云的几何形状进行编码的方法和装置

Info

Publication number: CN111971969A
Application number: CN201980025421.0A
Authority: CN
Inventors: C.盖德; J.拉赫平萨奇; 蔡康颖
Original assignee: InterDigital VC Holdings Inc
Current assignee: InterDigital VC Holdings Inc
Priority date: 2018-04-11
Filing date: 2019-04-01
Publication date: 2020-11-20
Also published as: US11477481B2; BR112020020003A2; JP7488189B2; JP2021518689A; US20210152849A1; KR20200141448A; EP3777181A1; RU2769719C1; US20240073453A1; US20230026080A1; US11838547B2; EP3554082A1; WO2019199512A1

Abstract

本原理涉及一种用于对点云的在投影平面上的正交投影点的深度值进行编码的方法及装置。本原理还涉及用于对点云进行解码的方法及装置，计算机可读程序以及视频信号。

Description

用于对点云的几何形状进行编码的方法和装置

技术领域

本原理总体上涉及表示3D对象的外表面的点云的编码和解码。具体地但非排他地，本原理的技术领域涉及表示这种点云的几何形状的深度图像的编码/解码。

背景技术

本部分旨在向读者介绍本领域的各个方面，这些方面可以与以下描述和/或要求保护的本原理的各个方面有关。相信该讨论有助于向读者提供背景信息，以促进更好地理解本原理的各个方面。因此，应该理解的是，应从这些角度来阅读这些陈述，并非作为对现有技术的承认。

点云是某个坐标系中的数据点的集合。在三维坐标系(3D空间)中，这些点通常旨在表示3D对象的外表面。点云的每个点通常由其位置(3D空间中的X、Y和Z坐标)以及可能由诸如在例如RGB或YUV颜色空间中表示的颜色、透明度、反射率、两分量法线向量等的其他关联属性表示。

通常将点云表示为6分量点的集合(X，Y，Z，R，G，B)或等效的(X，Y，Z，Y，U，V)，其中(X，Y，Z)定义了3D空间中有色点的坐标，并且(R，G，B)或(Y，U，V)定义了该有色点的颜色。

点云依据云是否随时间而演变可以是静态的或动态的。应该注意的是，在动态点云的情况下，点的数量不是恒定的，相反，通常随着时间而演变。因此，动态点云是点集的按时间顺序排列的列表。

实际上，点云可以被用于各种目的，诸如文化遗产/建筑物，其中以3D扫描如雕像或建筑物之类的对象，以便在不发送或访问对象的情况下共享对象的空间配置。同样，这是确保保留对象知识以防对象被破坏的方式；例如，庙宇被地震破坏。这样的点云通常是静态的、有色的和巨大的。

另一个用例是在使用3D表示的地形和制图中，地图不仅限于平面并且可以包括地势。Google Maps(谷歌地图)现在是3D地图的良好示例，但是使用网格代替点云。然而，点云可以是用于3D地图的合适数据格式，并且这种点云通常是静态的、有色的和巨大的。

汽车工业和自主驾驶汽车也是可以使用点云的领域。自主驾驶汽车应该能够“探测”其周围环境，以基于紧邻其附近的实际情况做出良好的驾驶决策。诸如LIDAR之类的典型传感器产生由决策引擎使用的动态点云。这些点云并非旨在供人类查看，并且他们通常是小的，不一定是有色的，并且是动态的，具有高捕获频率。他们可以具有其他属性，如由Lidar提供的反射率，因为该属性是关于感测对象材料的良好信息，并且可以帮助做出决策。

虚拟现实和沉浸式世界近来已成为热门话题，并被许多人预见为2D平面视频的未来。基本想法是让观看者沉浸在全部围绕观看者的环境中，这与观看者只能观看他前面的虚拟世界的标准电视相反。依据环境中观看者的自由度，沉浸性有若干等级。有色点云是分发虚拟现实(或VR)世界的良好格式候选。他们可以是静态的或动态的，并且通常具有平均尺寸，例如一次不超过数百万个点。

仅当比特流的尺寸足够小以允许实际存储/传输给最终用户时，点云压缩才能成功存储/传输沉浸式世界的3D对象。

能够以合理的比特率消耗将动态点云分发给最终用户，同时保持可接受的(或最好是非常好的)体验质量至关重要。这些动态点云的有效压缩是使沉浸式世界的分布链切实可行的关键。

基于图像的点云压缩技术由于其压缩效率和低复杂度的结合正在变得日益流行。他们以两个主要步骤进行：首先，他们将点云(即，3D点)投影(正交投影)到2D图像上。例如，至少一个深度图像表示点云的几何形状(即，在3D空间中3D点的空间坐标)，并且至少一个纹理图像表示与点云的3D点相关联的属性，例如与这些3D点相关联的纹理/颜色信息。接下来，这些技术用传统视频编码器对这种深度和纹理图像进行编码。

基于图像的点云压缩技术通过利用如例如HEVC(“ITU-TH.265Telecommunication standardization sector of ITU(10/2014),series H:audiovisual and multimedia systems,infrastructure of audiovisual services-coding of moving video,High efficiency video coding,Recommendation ITU-TH.265(ITU-T H.265ITU电信标准化部门(10/2014)，H系列：视听和多媒体系统，视听服务基础设施-运动视频编码，高效视频编码，ITU-T H.265建议书)”)的2D视频编码器的性能实现了良好的压缩性能，同时，他们通过使用简单的投影方案来保持低复杂度。

基于图像的点云压缩技术的挑战之一在于，点云可能不适于投影到图像上，特别是当点分布遵循具有许多褶皱的表面(凹/凸区域，如在衣服中)或点分布根本不遵循表面(例如，在皮毛或头发中)时。在这些情况下，基于图像的点云压缩技术遭受压缩效率低(需要许多小的投影，从而降低了2D视频压缩的效率)或质量差(由于难以将点云投影到表面上)。

现有技术中用于缓和该问题的方法之一包括，将多个几何形状和纹理信息投影到图像的相同空间位置(像素)上。这意味着对点云的每个3D点，可以生成若干深度和/或纹理图像。

这是例如在ISO/IEC JTC1/SC29/WG11/N17248,Macau,China,October2017(2017年10月在中国澳门的ISO/IEC JTC1/SC29/WG11/N17248)中定义的所谓的测试模型类别2点云编码器(TMC2)的情况，在该TMC2中点云正交投影到投影平面上。然后，每个所述投影平面的坐标关联两个深度值：一个代表与最近点相关联的深度值(最小深度值)，并且另一个代表最远点的深度值(最大深度值)。然后从最小深度值(D0)生成第一深度图像，并且从满足D1-D0<＝SurfaceThickness的、最大深度值(D1)与最小深度值(D0)之间的差生成第二深度图像，其中SurfaceThickness是最大表面厚度。

然后，对深度图像和相关联的元数据进行编码和解码。然后从解码后的深度图像重构点云的几何形状。接下来，将颜色/纹理指配给重构点云的每个点，并从所述指配的颜色/纹理生成纹理图像(此处为两个)。然后对两个纹理图像进行编码。

通过这种方式，第二深度图像包含非常难以编码的明显的轮廓状高频特征。

发明内容

以下给出了本原理的简化概述，以提供对本原理的一些方面的基本理解。该概述不是对本原理的广泛概述。并非旨在识别本原理的关键或重要元素。下面的概述仅以简化的形式呈现了本原理的一些方面，作为下面提供的更详细描述的序言。

本发明原理旨在利用一种用于对点云的在投影平面上的正交投影点的深度值进行编码的方法来补救现有技术的至少一个缺点，该方法包括：

-通过将第一深度图像编码在比特流中来获得第一编码深度图像，所述第一深度图像表示点云的较近点的深度值；

-确定每个图像区域的深度编码模式并且编码在比特流中，所述深度编码模式指示第二深度图像的图像区域中的深度值是否也编码在比特流中，所述第二深度图像表示点云的较远点的深度值；以及

-如果至少一个深度编码模式指示第二深度图像的图像区域中的深度值被编码在比特流中，则将第二深度图像至少部分地编码在比特流中。

根据实施例，确定第二深度图像的图像区域中的深度值是否被编码在比特流中包括：

-通过对第一编码深度图像进行解码来获得解码的第一深度图像以及通过对第二深度图像进行编码和解码来获得解码的第二深度图像；

-通过考虑第一距离和第一比特率来计算第一速率失真成本，所述第一距离是在所述解码的第一深度图像的同位图像区域中的深度值与解码的第二深度图像的同位图像区域中的深度值之间计算的，所述数据速率是针对对所述第二深度图像进行编码而计算的；

-通过考虑第二距离来计算第二速率失真成本，在此数据速率被认为是空的，所述第二距离是在所述解码的第一深度图像的同位图像区域的深度值与通过对所述解码的第一深度图像中的深度值进行插值而获得的插值深度值之间计算的；

-如果第二速率失真成本低于第一速率失真成本，则所述图像区域的深度编码模式指示第二深度图像的同位图像区域中的深度值未被编码在比特流中，否则，所述图像区域的深度编码模式指示第二深度图像的同位图像区域中的深度值被编码在比特流中。

-通过对所述第一深度图像中的深度值进行插值来计算第二深度图像的所述图像区域的插值深度值；

-计算第二深度图像的所述图像区域中的深度值与通过对通过解码第一编码深度图像所获得的解码的第一深度图像中的深度值进行插值而获得的插值深度值之间的距离；

-如果该距离小于阈值，则所述图像区域的深度编码模式指示第二深度图像的所述图像区域中的深度值未被编码在比特流中，否则，所述图像区域的深度编码模式指示第二深度图像的所述图像区域中的深度值被编码在比特流中。

根据实施例，在重构点云的至少一部分和点云的对应部分之间计算以上的第一距离和第二距离或以上的距离，所述点云的至少一部分是从解码的第一深度图像和第二深度图像重构的。

根据实施例，所述点云的至少一部分是从所述图像区域中的深度值以及从至少一个先前考虑的图像区域中的深度值重构的。

根据实施例，如果所述图像区域的深度编码模式指示第二深度图像的所述图像区域中的深度值未被编码在比特流中，则第二深度图像的所述图像区域中的像素的深度值在对第二深度图像至少部分地进行编码之前由恒定值代替。

根据实施例，深度编码模式被编码为与几何形状由所述第一深度图像和所述第二深度图像表示的点云的重构相关联的元数据。

本发明原理旨在利用一种用于对原始点云的在投影平面上的正交投影点的深度值进行解码的方法来弥补现有技术的至少一个缺陷，该方法包括：

-通过解码比特流获得解码的第一深度图像；

-从比特流获得与解码的第二深度图像的图像区域相关联的深度编码模式；

-如果深度编码模式指示解码的第二深度图像的所述图像区域中的深度值被编码在比特流中，则从比特流至少部分地解码第二深度图像，

-否则，通过对解码的第一深度图像中的深度值进行插值来计算解码的第二深度图像的所述图像区域中的插值深度值。

根据实施例，当至少一个深度编码模式指示第二深度图像的图像区域中的深度值被编码/解码在比特流中时，整个第二深度图像被编码在比特流中/从比特流中解码整个第二深度图像。

根据实施例，第二深度图像的图像区域的尺寸和形状是所述第二深度图像的尺寸和形状。

根据他们的其他方面，本原理涉及装置、计算机程序产品、非暂时性计算机可读介质和视频信号。

通过以下结合附图对示例的描述，本原理的具体性质以及本原理的其他目的、优点、特征和用途将变得显而易见。

附图说明

在附图中，图示了本原理的示例。附图示出了：

-图1示意性地示出了根据本原理的示例的、用于对由第一深度图像和第二深度图像表示的点云的几何形状进行编码的方法的步骤的图；

-图2示意性地示出了根据本原理的实施例的图1的方法的步骤120的图；

-图3示意性地示出了根据本原理的实施例的图1的方法的步骤120的图；

-图4示意性地示出了根据本原理的示例的用于从表示原始点云的正交投影点的不同深度值的第一深度图像和第二深度图像解码点云的几何形状的方法的步骤的图；

-图5示意性地示出了如现有技术(TMC2)中定义的用于对点云的几何形状和纹理进行编码的方法；

-图6示意性地示出了在图5的编码方法中使用方法100和200的示例；

-图7示意性地示出了如现有技术(TMC2)中定义的用于解码点云的几何形状和纹理的方法；

-图8示意性地示出了在图7的解码方法中使用方法200的示例；

-图9示出了根据本原理的示例的装置架构的示例；以及

-图10示出了根据本原理的示例的经由通信网络进行通信的两个远程装置；以及

-图11示出了根据本原理的示例的信号的语法。

相似或相同的元件用相同的附图标记表示。

具体实施方式

在下文中将参考附图更充分地描述本原理，在附图中示出了本原理的示例。然而，本原理可以以许多替代形式来实施，并且不应被解释为限于本文阐述的示例。因此，尽管本原理易于进行各种修改和替代形式，但是其具体示例通过附图中的示例示出，并且将在本文中进行详细描述。然而，应当理解，无意将本原理限制为所公开的特定形式，但是相反，本公开旨在覆盖落入由权利要求所限定的本原理的精神和范围内的所有修改、等同形式和替代形式。

本文使用的术语仅出于描述特定实施例的目的，并非旨在限制本原理。如本文所使用的，单数形式的“一(a)”、“一(an)”和“该”也旨在包括复数形式，除非上下文另外明确指出。还将理解的是，当在本说明书中使用时，术语“包括(comprise)”、“包括(comprising)”、“包含(include)”和/或“包含(including)”指定存在所陈述的特征、整数、步骤、操作、元件和/或组件，但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、组件和/或其组。而且，当元件被称为“响应”或“连接”于另一个元件时，它可以直接响应或连接于另一个元件，或者可以存在中间元件。相反，当元件被称为“直接响应”或“直接连接”于其他元件时，则不存在中间元件。如本文所使用的，术语“和/或”包括一个或多个相关联的所列项目的任何和所有组合，并且可以缩写为“/”。

将理解的是，尽管在此可以使用术语第一、第二等来描述各种元件，但是这些元件不受这些术语的限制。这些术语仅用于将一个元件和另一元件区分开。例如，在不脱离本原理的教导的情况下，第一元件可以称为第二元件，并且类似地，第二元件可以称为第一元件。

尽管一些图在通信路径上包括箭头以示出通信的主要方向，但是应当理解，通信可以在与所绘出箭头相反的方向上发生。

参照框图和操作流程图描述了一些示例，在框图和操作流程图中每个方框表示电路元件、模块或包括用于实现指定的逻辑功能的一个或多个可执行指令的部分代码。还应当注意的是，在其他实现方式中，方框中标注的功能可以不按所标注的顺序发生。例如，依据所涉及的功能，以相继方式示出的两个方框实际上可以基本上同时执行，或者有时可以以相反顺序执行这些框。

本文中对“根据示例”或“在示例中”的引用表示结合示例描述的特定的特征、结构或特性可以被包括在本原理的至少一个实现方式中。因此，说明书中各个地方出现短语“根据示例”或“在示例中”并不一定全部是引用相同示例，单独的或替代的示例也不一定与其他示例相互排斥。

出现在权利要求中的附图标记仅是说明性的，并且对权利要求的范围没有限制作用。

尽管没有明确描述，但是可以以任何组合或子组合来采用本示例和变型。

本原理描述为用于从两个深度图像对点云的几何形状进行编码/解码，但是扩展到对点云的序列(时间上动态的点云)的编码/解码，这是因为点云的序列的几何形状是由/从深度图像的两个序列(视频)编码/解码的，与点云相关联的两个深度图像独立于序列的另一点云的两个深度图像进行编码。

如以上所说明的，点云正交投影到投影平面上，并且从与所述投影的3D点相关联的深度值获得两个深度图像D0和D1。D0是表示点云的最近点的深度值的第一深度图像，并且D1是表示点云的最远点的深度值的第二深度图像。使用例如传统图像/视频编码器来编码第一深度图像D0。

在下文中，术语“图像区域”指代图像的像素的集合。这些像素可以是相邻像素或者可以不是相邻像素，但是他们全部共享至少一个共同属性。

例如，图像本身可以被认为是图像区域。图像也可以分割为多个块，然后块就是图像区域。

图像区域也可以具有非矩形的形状。例如，这是当具有相同(或相似)提取特征的图像像素相关联以形成图像区域时的情况。

从图像中提取的特征的示例可以是颜色、纹理、法线向量等。

图1示意性地示出了根据本原理的示例的用于对由第一深度图像(D0)和第二深度图像(D1)表示的点云的几何形状进行编码的方法100的步骤的图。

在步骤110中，第一深度图像D0被编码在比特流B中。

在步骤120中，模块为每个图像区域确定深度编码模式DCM_i，所述深度编码模式指示第二深度图像D1的图像区域中的像素的深度值是否也被编码在比特流B中。在下面该深度编码模式被表示为“显式”模式。

在步骤130中，模块将所述深度编码模式DCM_i编码在比特流B中。

在步骤140中，如果至少一个深度编码模式DCM_i指示第二深度图像D1的图像区域中的像素的深度值被编码在比特流B中(“显式”模式)，则模块至少部分地将第二深度图像D1编码在比特流B中。

重复步骤130和140，直到已经考虑了每个I图像区域。

根据本原理，附加的深度编码模式被编码在比特流中，以指示第二深度图像D1的图像区域是否被显式(或隐式)地编码在比特流中。当与第二深度图像D1的图像区域相关联的深度编码模式指示该图像区域中的像素的深度值没有被编码在比特流中(“隐式”模式)时，与如现有技术中公开的表示所述深度值的编码数据的有效传输相比，比特率降低。因此，为每个图像区域发送这种深度编码模式提高了表示点云的几何形状的深度图像的编码效率。

根据实施例，第二深度图像的图像区域的尺寸和形状是所述第二深度图像的尺寸和形状，即，图像区域是图像本身。

然后，发送单个深度编码模式以指示整个第二深度图像是否被编码在比特流中。

根据步骤140，当至少一个深度编码模式DCM_i被设置为“显式”模式时，整个第二深度图像D1被编码在比特流B中。

根据另一实施例，为第二深度图像的每个图像区域指配深度编码模式。

所述图像区域可以具有矩形形状(例如，图像块)或非矩形形状(诸如TMC2中的投影深度补丁)。

这些实施例通过使深度编码模式局部地适应于图像内容的特性来提高编码效率。

根据步骤120的实施例，如图2所示，确定第二深度图像D1的图像区域中的像素的深度值是否被编码在比特流中包括以下步骤。

模块通过对第一编码深度图像进行解码来获得解码的第一深度图像

并且通过对第二深度图像D1进行编码和解码来获得解码的第二深度图像

考虑所述解码的第一深度图像

的当前图像区域。所述当前图像区域中的像素的深度值是被标记为

的深度值的集合。在所述当前图像区域中的像素的深度值

与解码的第二深度图像

中的同位像素的深度值(即，解码的第二深度图像的同位图像区域中的像素的深度值)之间，计算第一质量度量Dist₀，所述深度值的集合表示为

还计算用于对所述第二深度图像D1进行编码的数据速率RA₀。

然后，通过考虑所述第一距离Dist₀和所述第一比特率RA₀来计算第一速率失真成本Cost₀。

模块通过对所述解码的第一深度图像

中的像素的深度值进行插值来计算解码的第二深度图像

的同位图像区域的像素的插值深度值。插值深度值的集合表示为

在所述当前图像区域中的像素的深度值

和插值深度值

之间计算第二质量度量Dist₁。

然后，通过考虑所述第二距离Dist₁来计算第二速率失真成本Cost₁，由于第二深度图像未被编码(被发送)，因此在此数据速率被认为是空的。

如果第二速率失真成本Cost₁低于第一速率失真成本Cost₀，则将当前图像区域i的深度编码模式DCM_i设置为“隐式”，即，指示第二深度图像D1的当前图像区域中的深度值没有被编码在比特流中。否则，将当前图像区域i的深度编码模式DCM_i设置为“显式”，即，指示第二深度图像D1的当前图像区域中的深度值被编码在比特流中。

重复该实施例的步骤，直到已经考虑了每个I图像区域。

步骤120的该实施例提供了用于确定第二深度图像的图像区域中的像素的深度值是否被编码在比特流中的最优速率-失真折衷。

根据步骤120的替代实施例，如图3所示，确定第二深度图像D1的图像区域中的像素的深度值是否被编码在比特流中包括以下步骤。

模块通过对所述第一深度图像D0中的像素的深度值进行插值来计算第二深度图像D1的同位图像区域的像素的插值深度值。插值深度值的集合表示为

然后，计算第二深度图像D1的当前图像区域i中的被标记为的

的深度值与所述插值深度值

之间的距离DIST。

如果距离DIST小于阈值TH，则将当前图像区域i的深度编码模式DCM_i设置为“隐式”，即，指示第二深度图像D1的当前图像区域中的深度值未被编码在比特流中。否则，将当前图像区域i的深度编码模式DCM_i设置为“显式”，即，指示第二深度图像D1的当前图像区域中的深度值被编码在比特流中。

重复该实施例的步骤，直到已经考虑了每个I图像区域。

步骤120的该替代实施例因为度量是在没有编码/解码过程的情况下计算的而提供了次优的速率-失真折衷，但是与图2的以上优选实施例的复杂度相比，降低了选择过程的复杂度。

根据实施例，有序深度值的两个集合A和B之间的距离DIST是由以下定义的距离：

其中，A_j、相应B_j指定了J个深度值中的有序集合A、相应B的第j个深度值。

对值集合进行排序意味着深度值A_j和B_j表示两个不同深度图像中同位像素的不同深度值。

距离DIST不限于该实施例，并且可以扩展到用于计算J个值的两个集合之间的距离的任何其他公知的度量，诸如，例如，绝对差之和、差的均值/最大值/最大值等。

根据实施例，在重构点云的至少一部分与原始点云的相应部分之间计算距离DIST。

作为示例，ISO/IEC JTC1/SC29/WG1 MPEG2017/N16763,Hobart,April2017,AnnexB(ISO/IEC JTC1/SC29/WG1 MPEG2017/N16763，霍巴特，2017年4月，附件B)定义了距离DIST。

从解码的第一深度图像和第二深度图像重构点云的所述至少一部分。

根据实施例，从图像区域中的像素的深度值重构点云的所述至少一部分。

根据实施例，从当前图像区域中的像素的深度值以及从至少一个先前考虑的图像区域中的像素的深度值重构点云的所述至少一部分。

例如，根据该实施例，用恒定值初始化“临时”第二深度图像。然后，通过在当前图像区域被显式编码(“显式”模式)时的编码/解码的第二深度图像的深度值，或者通过填充根据“显式”模式先前编码的最近相邻点的深度值，来迭代地替换所述临时第二深度图像的像素的深度值。

因此，依赖于先前考虑的图像区域中的像素的深度值的编码的重构点云变得类似于重构点云。

注意，在该实施例中，“临时”深度图像没有被编码在比特流中。仍根据图1的方法对第二深度图像进行编码。

根据步骤140的实施例，如果与图像区域相关联的深度编码模式DCM_i被设置为“隐式”，则在至少部分地对第二深度图像D1进行编码之前由恒定值替换第二深度图像的所述图像区域中的像素的深度值。

根据实施例，深度编码模式DCMi被编码为与点云的重构相关联的元数据，该点云的几何形状由所述第一深度图像和第二深度图像表示。

所述元数据可以例如与两个图像共同的每个图像或与每个图像区域相关联，并且用于在编码和解码侧重构点云的几何形状，如关于图5和图6进一步解释的。

根据实施例，深度编码模式DCMi被编码为例如附接至与第一深度图像D0相关联的NAL单元的SEI消息的语法元素。

HEVC中的SEI消息中的DCM示例

dcm_mode包含用于标识深度编码模式的标识号。当dcm_mode等于0时，表示例如“显式”模式，而当1时表示“隐式”模式。

根据变型，深度编码模式也能够在SPS或PPS消息中。

根据另一实施例，深度编码模式DCMi被编码为嵌入在深度图像中的水印。

作为变型，深度编码模式DCMi作为可见水印嵌入在第一深度图像D0的空白区域中。

例如，在第一深度图像D0的预定义角部中的N×N像素块：该块的所有像素被设置为相同的二进制值，例如0(1)以指示深度编码模式DCMi被设置为“显式”(“隐式”)。

在解码器处，然后计算块的平均值，如果所述平均值比最大值(全部像素值等于1)更接近于0，则解码后的块指示“显式”模式被使用，否则，解码后的块指示“隐式”模式被使用。

根据另一实施例，深度编码模式DCMi将被添加至与由第一深度图像和第二深度图像表示的点云的几何形状相关联的元数据的二进制信息，诸如TMC2中定义的占用图。

该实施例更好地适合于以比逐图像更精细的分辨率指定深度编码模式DCMi。

让我们更详细地了解这在TMC2中如何实现。表1和表2中示出了TMC2的当前版本的顶层语法。表3提供了几何形状(深度)和纹理(颜色)流的封装的语法。表4和表5描述了占用图和块到补丁索引解码的详细语法。并且错误！引用源未找到和错误！引用源未找到描述了基本值的算术编码的语法。

表1-比特流报头

Magic Number	ReadUint32
		Version	ReadUint32
Total size	ReadUint64
		GroupOfFrames x N	ReadGroupOfFrames

表2-GroupOf Frames(帧组)报头

Size	ReadUint8
		Width	ReadUint16
Height	ReadUint16
		Occupancy resolution	ReadUint8
radius2Smoothing	ReadUint8
		neighborCountSmoothing	ReadUint8
radius2BoundaryDetection	ReadUint8
		thresholdSmoothing	ReadUint8
losslessGeo	ReadUint8
		losslessTexture	ReadUint8
noAttributes	ReadUint8
		Geometric video bitstream	ReadVideo()
Occupancy maps x M	ReadOccupancyMap()
		Texture video bitstream	ReadVideo()

表3-ReadVideo()函数

Size of the video bit stream	ReadUint32
		Read video bitstream	ReadUint8 x size

表4-ReadOccupancyMap()函数

表5-ReadArithmetic()函数

当前语法以两个步骤对每个块的元数据进行编码：首先针对补丁图像的所有块，对块到补丁索引进行编码，然后对属于补丁的那些块的占用图进行编码。

块到补丁索引定义了与纹理和深度图像的每个块相关联的补丁的索引，这些块形成规则的正方形网格。块的尺寸由帧组报头中的“Occupancy resolution(占用分辨率)”参数指定，通常设置为16个像素。

指示纹理和深度图像中的哪些像素表示要重构的点云的占用图也是逐块编码的。在这种情况下，块形成每个“Occupancy resolution”块内的网格，该网格的尺寸为“Occupancy precision(占用精度)”，并且通常设置为4个像素。

DCM模式被编码为元数据的示例

占用图中的DCM示例(每个图像(帧))-表5的修改

表6-ReadArithmetic()函数

根据实施例，与图像区域相关联的深度编码模式DCM_i是二进制值序列中的二进制值，其中每个二进制值指示图像区域的深度编码模式DCM_i。例如，“0”指示“隐式”模式，而“1”指示“显式”模式。

根据实施例，可以使用熵或游程长度编码方法来对二进制序列进行编码。

图4示意性地示出了根据本原理的示例的、用于从表示原始点云的正交投影点的不同深度值的第一深度图像(D0)和第二深度图像(D1)中解码点云的几何形状的方法200的步骤的图。

在步骤210中，通过对比特流B进行解码获得解码的第一深度图像。

在步骤220中，从比特流B解码与解码的第二深度图像的当前图像区域i相关联的深度编码模式DCM_i。

在步骤230中，如果深度编码模式DCM_i指示解码的第二深度图像D1的所述当前图像区域中的像素的深度值被编码在比特流B中(“显式”模式)，则模块从比特流B至少部分地解码第二深度图像D1。

否则，在步骤240中，模块通过对解码的第一深度图像

中的像素的深度值进行插值，来计算解码的第二深度图像

的图像区域中的像素的插值深度值。

重复步骤220-240，直到已经考虑了每个I图像区域。

然后，通过如例如在TMC2中定义的、对解码的第一深度图像

和第二深度图像

进行解投影来重构点云的几何形状。

根据该方法的实施例，通过对第一深度图像中的像素的深度值进行插值来计算第二深度图像的图像区域的像素的插值深度值包括：

-针对第二深度图像的所述图像区域的每个当前像素确定第一深度图像中的同位像素；

-确定第一深度图像中所述同位像素的至少一个相邻像素；

-考虑第一深度图像中的所述至少一个相邻像素，来计算每个当前像素的插值深度值。

根据实施例，第一深度图像中的共定位像素与所述至少一个相邻像素之间的空间距离低于给定阈值。

根据实施例，第二深度图像的图像区域中的当前像素的插值深度值是在第一深度图像中的所述至少一个相邻像素当中最近的相邻像素的深度值。根据实施例，第二深度图像的图像区域中的当前像素的插值深度值是第一深度图像中的所述至少一个相邻像素的最大深度值。

根据实施例，第二深度图像的图像区域中的当前像素的插值深度值是第一深度图像中的所述至少一个相邻像素的最小深度值。

根据实施例，第二深度图像的图像区域中的当前像素的插值深度值是第一深度图像中的所述至少一个相邻像素的深度值的平均值。

图5示意性地示出了如TMC2中定义的用于对点云的几何形状和纹理进行编码的方法。

基本上，编码器捕获第一深度图像(D0)和第二深度图像(D1)中原始点云PC的几何形状信息。

作为示例，在TMC2中如下获得第一深度图像和第二深度图像。

深度补丁(点云PC的3D点的集合)是通过根据这些点处的法线向量对点云PC的点进行聚类而获得的。然后所有提取的深度补丁投影到2D网格上并打包，同时尝试使未使用的空间最小化，并确保网格的每个T×T(例如，16×16)块与唯一补丁相关联，其中T是在比特流中用信号通知的、用户定义的参数。

然后，通过利用在打包过程期间计算出的3D到2D映射(更具体地说是每个补丁的打包位置和投影区域尺寸)来生成深度图像。更准确地说，令H(u，v)是投影到同一像素(u，v)的当前补丁的点的集合。第一层(也称为最近层或第一深度图像D0)存储具有最小深度值的H(u，v)的点。第二层(称为最远层或第二深度图像D1)捕获在区间[D，D+Δ]内具有最高深度值的H(u，v)的点，其中D是像素在第一深度图像D0中的深度值并且Δ是描述表面厚度的、用户定义的参数。

然后，第一深度图像D0输出打包过程。填充过程也用于填充补丁之间的空白空间，以生成适合视频压缩的逐段平滑的第一深度图像。

然后，将生成的深度图像/层D0和D1存储为视频帧，并使用诸如HEVC的任何传统视频编解码器进行压缩。

编码器还通过对第一和第二深度图像进行编码/解码以及通过对所述解码的第一深度图像

和第二深度图像

进行解投影来重构点云的几何形状，来捕获两个纹理图像中的原始点云PC的纹理信息。一旦重构，以使颜色信息编码误差最小的方式从原始点云PC的颜色信息为重构点云的每个点指配颜色(颜色转移)。

根据实施例，对于每个重构点，将原始点云中其最近点的颜色指配为其要编码的颜色。

然后，通过将每个重构点的要编码的颜色信息存储在与深度图像中相同的位置(即(i，u，v))中，来生成第一纹理图像T0和第二T1。

图6示意性地示出了在图5的编码方法中使用方法100和200的示例。

根据该示例，由图1的编码方法100代替图5的第一深度图像

的编码和第二深度图像

的编码，并且由图4的解码方法200代替图5的第二深度图像

的解码。

图7示意性地示出了如现有技术(TMC2)中定义的用于解码点云的几何形状和纹理的方法。

通过解码比特流B获得解码的第一深度图像

和解码的第二深度图像

还可以解码元数据以重构点云

的几何形状。

因此，通过对所述解码的第一深度图像和第二深度图像以及可能的所述元数据进行解投影来重构点云的几何形状。

图8示意性地示出了在图7的解码方法中使用方法200的示例。

根据该示例，由图4的解码方法代替图7的第一深度图像和第二深度图像的解码。

在图1-图8中，模块是功能单元，其可以与可区分的物理单元相关或不相关。例如，这些模块或其中一些模块可以汇聚在独特的组件或电路中，或者有助于软件的功能。相反，一些模块可以潜在地由单独的物理实体组成。与本原理兼容的设备使用纯硬件(例如，使用专用硬件，诸如ASIC或FPGA或者VLSI，其分别是《专用集成电路(ApplicationSpecificIntegrated Circuit)》、《现场可编程门阵列(Field-Programmable Gate Array)》、《超大规模集成(Very Large Scale Integration)》)，或来自嵌入在装置中的若干集成电子组件，或者来自硬件和软件组件的混合来实现。

图9表示可以被配置为实现结合图1-图8所描述的方法的装置90的示例性架构。

装置90包含通过数据和地址总线91链接在一起的以下元件：

-微处理器92(或CPU)，其例如是DSP(或数字信号处理器)；

-ROM(或只读存储器)93；

-RAM(或随机存取存储器)94；

-I/O接口95，用于从应用接收要传输的数据；以及

-电池96。

根据示例，电池96在装置外部。在每个所提及的存储器中，说明书中使用的词语“寄存器”可以对应于小容量(一些比特)的区域或非常大的区域(例如，整个程序或大量接收的或解码的数据)。ROM 93包括至少一个程序和参数。ROM 93可以存储算法和指令以执行根据本原理的技术。当接通时，CPU 92将程序上载至RAM中并且执行相应的指令。

在寄存器中，RAM 94包括由CPU 92执行并且在装置90接通后上载的程序、寄存器中的输入数据、寄存器中方法的不同状态的中间数据、以及寄存器中用于方法的执行的其他变量。

例如，本文描述的实现方式可以在方法或过程、设备、软件程序、数据流或信号中实现。即使仅在单一形式的实现方式的上下文中讨论(例如，仅作为方法或装置讨论)，所讨论的特征的实现方式也可以以其他形式(例如，程序)实现。例如，设备可以在适当的硬件、软件和固件中实现。例如，方法可以在诸如例如处理器之类的设备中实现，其一般指处理装置，例如包括计算机、微处理器、集成电路或可编程逻辑器件。处理器还包括通信装置，诸如例如计算机、蜂窝电话、便携式/个人数字助理(“PDA”)，以及便于终端用户之间信息通信的其他装置。

根据编码或编码器的示例，从源获得点云PC。例如，源属于包括以下的集合：

-本地存储器(93或94)，例如视频存储器或RAM(或随机存取存储器)、闪存、ROM(或只读存储器)、硬盘；

-存储接口(95)，例如，与大容量存储器、RAM、闪存、ROM、光盘或磁性支撑件的接口；

-通信接口(95)，例如，有线接口(例如，总线接口、广域网接口、局域网接口)或无线接口(诸如，IEEE 802.11接口或

接口)；以及

-图片捕获电路(例如，传感器，诸如例如CCD(或电荷耦合器件)或CMOS(或互补金属氧化物半导体))。

根据解码或解码器的示例，向目的地发送重构点云的解码的第一和/或第二深度图像；具体地，目的地属于包括以下的集合：

-本地存储器(93或94)，例如，视频存储器或RAM、闪存、硬盘；

-通信接口(95)，例如，有线接口(例如，总线接口(例如，USB(或通用串行总线))、广域网接口、局域网接口、HDMI(高清晰度多媒体接口)接口)或无线接口(诸如，IEEE802.11接口、

或

接口)；以及

-显示器。

根据编码或编码器的示例，向目的地发送比特流B。例如，比特流B存储在本地或远程存储器(例如，视频存储器(94)或RAM(94)、硬盘(93))中。在变型中，向存储接口(95)(例如，与大容量存储器、闪存、ROM、光盘或磁性支撑件的接口)发送比特流B和/或经由通信接口(95)(例如，至点到点链路、通信总线、点到多点链路或广播网络的接口)传输比特流B。

根据解码或解码器的示例，从源获得比特流B。示例性地，从本地存储器(例如，视频存储器(94)、RAM(94)、ROM(93)、闪存(93)或硬盘(93))读取比特流。在变型中，从存储接口(95)(例如，与大容量存储器、RAM、ROM、闪存、光盘或磁性支撑件的接口)接收比特流和/或从通信接口(95)(例如，至点到点链路、总线、点到多点链路或广播网络的接口)接收比特流。

根据示例，被配置为实现结合图1-图3或图5-图6描述的编码方法的装置90属于包括以下的集合：

-移动装置；

-通信装置；

-游戏装置；

-平板(或平板计算机)；

-膝上型计算机；

-静止图片相机；

-摄像机；

-编码芯片；

-静止图片服务器；以及

-视频服务器(例如，广播服务器、视频点播服务器或网络服务器)。

根据示例，被配置为实现结合图4或图7-图8描述的解码方法的装置90属于包括以下的集合：

-移动装置；

-通信装置；

-游戏装置；

-机顶盒；

-电视机；

-平板(或平板计算机)；

-膝上型计算机；

-显示器；以及

-解码芯片。

根据本原理的示例，如图10所示，在经由通信网络NET的两个远程装置A和B之间的传输环境中，装置A包括与存储器RAM和ROM相关的处理器，其被配置为实现如结合图1-图3或图5-图6描述的用于对点云的几何形状进行编码的方法，并且装置B包括与存储器RAM和ROM相关的处理器，其被配置为实现如结合图4或图7-图8描述的用于对点云进行解码的方法。

根据示例，网络是广播网络，适于从装置A向包括装置B的解码装置广播静止图片或视频图片。

旨在由装置A发送的信号承载比特流B。比特流B包括编码的第一深度图像，并且可能包括编码的第二深度图像的至少一部分，如结合图1所解释的。信号还包括表示至少一个深度编码模式DCM_i的信息数据。每个深度编码模式指示第二深度图像的图像区域i中的像素的深度值是被编码在比特流B中(“显式”模式)还是未被编码在比特流B中(“隐式”模式)。

图11示出了当通过基于分组的传输协议传输数据时，这种信号的语法的示例。每个传输的分组P包括报头H和有效载荷PAYLOAD。报头H的比特，例如，id专用于表示深度编码模式DCM_i。因此，报头H的至少一个比特专用于表示至少一个深度编码模式DCM_i。

可以在各种不同的设备或应用中实施本文描述的各种过程和特征的实现方式。这种设备的示例包括编码器、解码器、处理来自解码器的输出的后处理器、向编码器提供输入的预处理器、视频编码器、视频解码器、视频编解码器、网络服务器、机顶盒、膝上型计算机、个人计算机、蜂窝电话、PDA、以及用于处理图片或视频的任何其他装置或其他通信装置。应该清楚的是，设备可以是移动的，甚至可以安装在移动车辆中。

此外，方法可以通过由处理器执行的指令来实现，并且这种指令(和/或通过实现方式所产生的数据值)可以存储在计算机可读存储介质上。计算机可读存储介质可以采取在一个或多个计算机可读介质中实施的计算机可读程序产品的形式，并且计算机可读程序产品具有在其上实施的并且计算机可执行的计算机可读程序代码。考虑到在其中存储信息的固有能力以及从其中提供信息检索的固有能力，认为这里使用的计算机可读存储介质是非临时性存储介质。例如，计算机可读存储介质可以是但不限于，电子、磁、光、电磁、红外或半导体系统、设备或装置，或前述的任何合适的组合。应当理解，如本领域普通技术人员容易理解的，以下虽然提供了可以应用本原理的计算机可读存储介质的更具体的示例，但是仅是说明性的并非穷举性的列举：便携式计算机磁盘；硬盘；只读存储器(ROM)；可擦除可编程只读存储器(EPROM或闪存)；便携式压缩盘只读存储器(CD-ROM)；光存储装置；磁存储装置；或者前述的任何合适的组合。

指令可以形成在处理器可读介质上有形地实施的应用程序。

例如，指令可以在硬件、固件、软件或其组合中。例如，指令可以在操作系统、单独的应用或两者的组合中找到。因此，例如，处理器可以被表征为被配置为执行过程的装置和包括具有用于执行过程的指令的处理器可读介质(诸如存储装置)的装置。此外，除了指令之外或代替指令，处理器可读介质可以存储由实现方式产生的数据值。

对于本领域技术人员来说显而易见的是，实现方式可以产生被格式化以承载例如可以存储或传输的信息的各种信号。例如，信息可以包括用于执行方法的指令，或者由所描述的实现方式之一所产生的数据。例如，可以格式化信号以承载用于写入或读取本原理的所描述示例的语法的规则作为数据，或者承载由本原理的所描述示例写入的实际语法值作为数据。例如，可以将这种信号格式化为电磁波(例如，使用频谱的射频部分)或基带信号。例如，格式化可以包括对数据流进行编码和用编码的数据流来调制载波。例如，信号承载的信息可以是模拟或数字信息。如已知的，信号可以通过各种不同的有线或无线链路传输。信号可以存储在处理器可读介质上。

已经描述了许多实现方式。然而，应当理解，可以做出各种修改。例如，不同实现方式的元素可以组合、补充、修改或移除以产生其他实现方式。此外，本领域普通技术人员将理解，其他结构和过程可以替代所公开的那些结构和过程，并且所得到的实现方式将以至少基本相同的方式执行至少基本相同的功能，以实现与所公开的实现方式至少基本相同的结果。因此，本申请考虑了这些以及其他实现方式。

Claims

1.一种用于对点云的在投影平面上的正交投影点的深度值进行编码的方法，该方法包括：

-通过将第一深度图像编码在比特流中来获得第一编码深度图像，所述第一深度图像表示所述点云的较近点的深度值；

-确定每个图像区域的深度编码模式并且编码在所述比特流中，所述深度编码模式指示第二深度图像的图像区域中的深度值是否也编码在所述比特流中，所述第二深度图像表示所述点云的较远点的深度值；以及

-如果至少一个深度编码模式指示所述第二深度图像的图像区域中的深度值被编码在所述比特流中，则将所述第二深度图像至少部分地编码在所述比特流中。

2.根据权利要求1所述的方法，其中，确定所述第二深度图像的图像区域中的深度值是否被编码在所述比特流中包括：

-通过对所述第一编码深度图像进行解码来获得解码的第一深度图像以及通过对所述第二深度图像进行编码和解码来获得解码的第二深度图像；

-通过考虑第一距离和第一比特率来计算第一速率失真成本，所述第一距离是在所述解码的第一深度图像的同位图像区域中的深度值与所述解码的第二深度图像的同位图像区域中的深度值之间计算的，所述数据速率是针对对所述第二深度图像进行编码而计算的；

-通过考虑第二距离来计算第二速率失真成本，在此所述数据速率被认为是空的，所述第二距离是在所述解码的第一深度图像的所述同位图像区域的深度值与通过对所述解码的第一深度图像中的深度值进行插值而获得的插值深度值之间计算的；

-如果所述第二速率失真成本低于所述第一速率失真成本，则所述图像区域的所述深度编码模式指示所述第二深度图像的所述同位图像区域中的深度值未被编码在所述比特流中，否则，所述图像区域的所述深度编码模式指示所述第二深度图像的所述同位图像区域中的深度值被编码在所述比特流中。

3.根据权利要求1所述的方法，其中，确定所述第二深度图像的图像区域中的深度值是否被编码在所述比特流中包括：

-通过对所述第一深度图像中的深度值进行插值来计算所述第二深度图像的所述图像区域的插值深度值；

-计算所述第二深度图像的所述图像区域中的深度值与通过对通过解码所述第一编码深度图像所获得的解码的第一深度图像中的深度值进行插值而获得的插值深度值之间的距离；

-如果所述距离小于阈值，则所述图像区域的所述深度编码模式指示所述第二深度图像的所述图像区域中的所述深度值未被编码在所述比特流中，否则，所述图像区域的所述深度编码模式指示所述第二深度图像的所述图像区域中的深度值被编码在所述比特流中。

4.根据权利要求2或3所述的方法，其中，在重构点云的至少一部分和所述点云的对应部分之间计算权利要求2的所述第一距离和所述第二距离或权利要求3的所述距离，所述点云的所述至少一部分是从所述解码的第一深度图像和第二深度图像重构的。

5.根据权利要求4所述的方法或装置，其中，所述点云的所述至少一部分是从所述图像区域中的深度值以及从至少一个先前考虑的图像区域中的深度值重构的。

6.根据权利要求1-5中的一项所述的方法，其中，如果所述图像区域的所述深度编码模式指示所述第二深度图像的所述图像区域中的深度值未被编码在所述比特流中，则所述第二深度图像的所述图像区域中的像素的深度值在对所述第二深度图像至少部分地进行编码之前由恒定值代替。

7.根据权利要求1-6中的一项所述的方法，其中，所述深度编码模式被编码为与几何形状由所述第一深度图像和所述第二深度图像表示的所述点云的重构相关联的元数据。

8.一种用于对原始点云的在投影平面上的正交投影点的深度值进行解码的方法，该方法包括：

-通过解码比特流获得解码的第一深度图像；

-从所述比特流获得与解码的第二深度图像的图像区域相关联的深度编码模式；

-如果所述深度编码模式指示所述解码的第二深度图像的所述图像区域中的所述深度值被编码在所述比特流中，则从所述比特流至少部分地解码所述第二深度图像，

-否则，通过对所述解码的第一深度图像中的深度值进行插值来计算所述解码的第二深度图像的所述图像区域中的插值深度值。

9.根据权利要求1-8中的一项所述的方法，其中，当至少一个深度编码模式指示所述第二深度图像的图像区域中的所述深度值被编码/解码在所述比特流中时，整个第二深度图像被编码在所述比特流中/从所述比特流中解码整个第二深度图像。

10.根据权利要求1-9中的一项所述的方法，其中，所述第二深度图像的图像区域的尺寸和形状是所述第二深度图像的尺寸和形状。

11.一种用于对点云的在投影平面上的正交投影点的深度值进行编码的装置，该装置包括至少一个处理器，该至少一个处理器被配置为：

12.根据权利要求11所述的装置，其中确定所述第二深度图像的图像区域中的深度值是否被编码在所述比特流中包括：

13.根据权利要求11所述的装置，其中，确定所述第二深度图像的图像区域中的深度值是否被编码在所述比特流中包括：

14.根据权利要求12或13所述的装置，其中，在重构点云的至少一部分和所述点云的对应部分之间计算权利要求12的所述第一距离和所述第二距离或权利要求13的所述距离，所述点云的所述至少一部分是从所述解码的第一深度图像和第二深度图像重构的。

15.根据权利要求14所述的装置或装置，其中，所述点云的所述至少一部分是从所述图像区域中的深度值以及从至少一个先前考虑的图像区域中的深度值重构的。

16.根据权利要求11-15中的一项所述的装置，其中，如果所述图像区域的所述深度编码模式指示所述第二深度图像的所述图像区域中的深度值未被编码在所述比特流中，则所述第二深度图像的所述图像区域中的像素的深度值在对所述第二深度图像至少部分地进行编码之前由恒定值代替。

17.根据权利要求11-16所述的装置，其中，所述深度编码模式被编码为与几何形状由所述第一深度图像和所述第二深度图像表示的所述点云的重构相关联的元数据。

18.一种用于对原始点云的在投影平面上的正交投影点的深度值进行解码的装置，该装置包括至少一个处理器，该至少一个处理器被配置为：

-通过解码比特流获得解码的第一深度图像；

19.根据权利要求11-18中的一项所述的装置，其中，当至少一个深度编码模式指示所述第二深度图像的图像区域中的所述深度值被编码/解码在所述比特流中时，整个第二深度图像被编码在所述比特流中/从所述比特流中解码整个第二深度图像。

20.根据权利要求11-19中的一项所述的装置，其中，所述第二深度图像的图像区域的尺寸和形状是所述第二深度图像的尺寸和形状。

21.一种计算机程序产品，其包括程序代码指令，以当在计算机上执行该程序时执行根据权利要求1-10所述的方法的步骤。

22.一种视频信号，其包括表示第一深度图像的编码数据和表示至少一个深度编码模式的编码数据，该深度编码模式指示第二深度图像的图像区域中的像素的深度值是否被编码在比特流中。

23.一种非暂时性计算机可读介质，其包括用于使一个或多个处理器执行以下操作的指令：

通过以下操作对点云的在投影平面上的正交投影点的深度值进行编码：

24.一种非暂时性计算机可读介质，其包括用于使一个或多个处理器执行以下操作的指令：

通过以下操作对原始点云的在投影平面上的正交投影点的深度值进行解码：

-通过解码比特流获得解码的第一深度图像；