CN110915216A

CN110915216A - 用于编码/解码表示3d对象的几何形状和颜色的有色点云的方法和装置

Info

Publication number: CN110915216A
Application number: CN201880046603.1A
Authority: CN
Inventors: S.拉塞尔; J.里卡德; C.古德
Original assignee: InterDigital VC Holdings Inc
Current assignee: InterDigital VC Holdings Inc
Priority date: 2017-07-13
Filing date: 2018-06-25
Publication date: 2020-03-24
Also published as: US20200302652A1; EP3652940A1; EP3429208A1; WO2019011633A1

Abstract

本原理涉及一种用于编码表示3D对象的几何形状和颜色的输入有色点云的方法和设备。该方法包括：‑根据点云在基于八叉树的投影结构的至少一个立方体(C_j)的至少一个面(F_i,j)上的至少一个正交投影，选择(100)所述至少一个面；和‑通过将包括在所述立方体(C_j)中的点云的一部分正交投影到所选择的面(F_i,j)上，编码(120、130)立方体(C_j)的每个选择的面(F_i,j)的一对图像：一个纹理图像(TI_i,j)和一个深度(DI_i,j)图像。

Description

用于编码/解码表示3D对象的几何形状和颜色的有色点云的方法和装置

技术领域

本原理一般涉及表示3D对象的几何形状和颜色的有色点云的编码和解码。特别地，但非排他性地，本原理的技术领域涉及使用纹理和深度投影方案的3D图像数据的编码/解码。

背景技术

本部分旨在向读者介绍本领域的各个方面，这些方面可能与以下描述和/或要求保护的本原理的各个方面有关。认为该讨论有助于向读者提供背景信息，以有助于更好地理解本原理的各个方面。因此，应该理解的是，要鉴于此阅读这些陈述，而不是作为对现有技术的承认。

点云是一组点，通常旨在表示3D对象的外部表面，但也可能是更复杂的几何形状，其可能无法通过其他数据格式(如，网格)有效地表示，如头发，皮毛。点云的每个点经常由3D空间位置(3D空间中的X，Y和Z坐标)定义，并且也可能由其他相关联的属性定义，，例如，诸如以RGB或YUV颜色空间表示的颜色透明度、反射率，两分量法向矢量等。

在下文中，考虑有色点云，即一组6分量点(X，Y，Z，R，G，B)或等效地(X，Y，Z，Y，U，V)，其中(X，Y，Z)定义3D空间中的点的空间位置，并且(R，G，B)或(Y，U，V)定义该点的颜色。

取决于云是否关于时间演进有色点云可以是静态的或者是动态的。应当注意，在动态点云的情况下，点的数量不是恒定的，相反，一般随时间演进。由此动态点云是多组点的按时间顺序的列表。

实际上，有色点云可用于各种目的，诸如，文化遗产/建筑物，其中以3D扫描如雕像或建筑物的对象，以便共享对象的空间配置而无需发送或访问它。另外，在对象可能被破坏的情况下，它是确保保留对象的知识的方式；例如遭受地震的庙宇。这种有色点云典型是静态的且巨大。

另一使用情况是在地形和地图投影中，其中通过使用3D表示，地图不限于平面而且可以包括起伏(relief)。

汽车工业和自动驾驶汽车也是可以使用点云的领域。自动驾驶汽车应该能够“探测”其环境，从而基于其紧接相邻的现实做出安全驾驶决策。典型的传感器产生由决策引擎使用的动态点云。这些点云不意图由人类查看。它们典型很小，不一定是有色的，而是高捕获频率动态的。它们可能具有其他属性，如反射率，反射率是与感测对象的物理表面的材料的相关的有价值的信息并且可能有助于决策。

虚拟现实(VR)和沉浸式世界最近已成为热门话题，并被很多人预见为2D平板视频的未来。基本构思是让观看者沉浸在环绕其的周围环境中，而不是只能观看他前面的虚拟世界的标准电视。取决于环境中观察者的自由度，沉浸性有若干等级。有色点云是分发VR世界的良好格式候选。它们可以是静态的或动态的，并且典型具有平均尺寸，例如一次不超过几百万个点。

仅当比特流的尺寸足够小以允许实际存储/传输给最终用户时，点云压缩才能成功存储/传输3D对象用于沉浸式世界。

同样关键的是，能够以合理的带宽消耗将动态有色点云分发给最终用户，同时保持可接受的(或优选是非常好的)体验质量。与视频压缩相似，良好地使用时间相关性被认为是将导致动态点云的有效压缩的关键元素。

众所周知的方法将表示3D对象的几何形状和颜色的有色点云投影到包括3D对象的立方体的面上，以获得有关纹理和深度的视频，并使用诸如3D-HEVC(HEVC的扩展，其规范可在ITU网站，T推荐，H系列，h265，http：//www.itu.int/rec/T-REC-H.265-201612-l/en附件G和I上找到)的传统编码器编码纹理和深度视频。

对于每个投影的点，压缩的性能接近于视频压缩，但是当考虑动态点云时，由于遮挡，冗余和时间稳定性，某些内容可能更复杂。因此，就比特率而言，点云压缩比视频压缩的要求更高。

关于遮挡，在不使用许多投影的情况下，几乎不可能获得复杂拓扑的完整几何形状。由此用于编码/解码所有这些投影所需的资源(计算能力，贮存存储器)通常太高。

关于冗余，如果在两个不同的投影上两次看到一个点，则其编码效率被除以2，并且如果使用更多数量的投影，这很容易变得更差。可以在投影之前使用非重叠的补丁，但这使得投影的分区边界不平滑，由此很难编码，并且这对编码性能有负面影响。

关于时间稳定性，可以在给定时间针对对象优化投影之前的非重叠补丁，但是当该对象移动时，补丁边界也移动，并且难以编码的区域(＝边界)的时间稳定性丢失。实际上，因为时间帧间预测在这种情况下效率低下，所以获得不比全帧内编码好多少的压缩性能。

因此，在点被最多一次看到但可压缩性不太好的投影的图像(边界不好)与获得可压缩性良好的投影的图像但有些点被看到若干次之间要找到折衷，由此比实际属于模型的点而在投影的图像中编码更多的点。

发明内容

以下呈现本原理的简化的总结，以提供对本原理的一些方面的基本理解。该总结不是本原理的广泛概述。它并不旨在标识本原理的关键或重要元素。以下概述仅以简化形式呈现本原理的一些方面，作为下面提供的更详细描述的序言。

一般而言，本原理涉及一种编码方案的架构，该编码方案对通过在基于八叉树的投影结构的立方体的面上正交投影有色点云获得的纹理和深度图像进行编码。

使用由基于八叉树的投影结构驱动的投影级联可以更好地编码3D对象的部分，这些部分通常被丢失或使用许多独立的投影编码。与现有技术相比，尤其是当由传统视频编解码器来编码纹理和深度时，获得高压缩性能，这是因为这种编码方案受益于例如由时间帧间预测或算术编码提供的该传统编解码器的高编码效率。

本原理涉及一种用于编码点云的方法和设备。该方法包括：

-根据点云在基于八叉树的投影结构的至少一个立方体的至少一个面上的至少一个正交投影，选择所述至少一个面；和

-通过将包括在所述立方体中的点云的一部分正交投影到所选择的面上，编码立方体的每个选择的面的包括一个纹理图像和一个深度图像的一对图像。根据一个实施例，选择立方体的面基于表示与所述面相关联的纹理和深度图像的能力的度量，以有效地压缩包括在立方体中的点云的点到该面上的投影。

根据一个实施例，方法还包括用于以下的步骤或一设备包括用于以下的部件：编码表示选择的一组面和/或表示基于八叉树的投影结构的投影信息数据。

根据一个实施例，投影信息数据包括：指示与基于八叉树的投影结构的节点相关联的立方体是否被分割的节点信息数据，以及指示(多个)立方体的哪些(多个)面用于(多个)投影的面信息数据。

根据一个实施例，选择至少两对其中包括一个纹理和一个深度图像的图像，并且其中，编码纹理图像和深度图像包括将纹理图像打包为合成纹理图像并将深度图像打包为合成深度图像，并编码合成纹理图像和合成深度图像。

根据一个实施例，方法还包括用于以下的步骤，或设备还包括用于以下的部件：编码表示纹理图像打包为合成纹理图像以及深度图像打包为合成深度图像的打包信息数据。

根据它们的另一方面，本原理涉及一种用于从至少一个比特流解码表示3D对象的几何形状和颜色的点云的方法和设备。该方法包括：

-从比特流解码至少一个编码的纹理图像和至少一个编码的深度图像，以获得至少一个解码的纹理图像和至少一个解码的深度图像；和

-通过正交逆投影所述至少一个解码的纹理图像和所述至少一个解码的深度图像来获得逆投影的点云，所述逆投影由表示基于八叉树的投影结构并表示所述基于八叉树的投影结构的立方体的至少一个选择的面的投影信息数据驱动。

根据一个实施例，该方法还包括从比特流解码表示一组选择的面和/或表示基于八叉树的投影结构的投影信息数据。

根据一个实施例，解码至少一个编码的纹理图像和至少一个编码的深度图像包括解码合成纹理图像和合成深度图像，并且根据打包信息数据，从解码的合成纹理图像和解码的合成深度图像拆包所述至少一个解码的纹理图像和所述至少一个解码的深度图像。

根据一个实施例，该方法还包括解码所述打包信息数据。

根据它们的另一方面，本原理涉及一种信号，其承载通过将输入有色点云的点正交投影到基于八叉树的投影结构的选择的面而获得的包括一个纹理图像和一个深度图像的至少一对图像，其中，信号还承载表示选择的面和/或表示基于八叉树的投影结构的投影信息数据。

根据一个实施例，该信号还还承载打包信息数据，打包信息数据表示至少一个纹理图像打包为合成纹理图像以及深度图像打包为合成深度图像。

根据它们的另一方面，本原理涉及一种计算机程序产品，其包括程序代码指令，以在计算机上执行该程序时实施上述解码方法的步骤，

通过以下结合附图的示例的描述，本原理的特定性质以及本发明原理的其他目的，优点，特征和用途将变得明显。

附图说明

在附图中，例示本原理的示例，其示出：

-图1示意性地示出根据本原理的示例的用于编码表示3D对象的几何形状和颜色的有色点云的方法的步骤的图；

-图2示出基于八叉树的结构的示例；

-图3示出根据本原理的实施例的步骤100的子步骤的图；

-图4示出根据本原理的实施例的步骤130的子步骤的图；

-图5例示基于八叉树的投影结构和打包的示例；

-图6示出根据本原理的实施例的步骤110的子步骤的图；

-图7示意性示出根据本原理的示例的，用于从至少一个比特流解码表示3D对象的几何形状和颜色的有色点云的方法的步骤的图；

-图8示出根据本原理的示例的设备的架构的示例；和

-图9示出根据本原理的示例的通过通信网络通信的两个远程设备；

-图10示出根据本原理的示例的信号的语法。

相似或相同的元件用相同的附图标记表示。

具体实现方式

在下文中将参考附图更全面地描述本原理，附图中示出本原理的示例。然而，本原理可以以许多替代形式实施，并且不应该被解释为限于这里阐述的示例。因此，虽然本原理易于进行各种修改和替换形式，但是其具体示例通过附图中的示例示出并且将在本文中详细描述。然而，应该理解，不意图将本原理限制于公开的特定形式，相反，本公开要覆盖落入权利要求定义的本原理的精神和范围内的所有修改，等同物和替代物。

本文使用的术语仅用于描述特定示例的目的，并不旨在限制本原理。如本文使用的，单数形式“一”，“一个”和“该”旨在也包括复数形式，除非上下文另有明确说明。将进一步理解，当在本说明书中使用时，术语“包括”，“包含”，“包括”和/或“包括”指定陈述的特征，整数，步骤，操作，元件和/或分量的存在，但是不排除存在或附加一个或多个其他特征，整数，步骤，操作，元素，分量和/或其组。此外，当元件被称为“响应”或“连接”到另一个元件时，它可以直接响应或连接到另一个元件，或者可以存在中间元件。相反，当元件被称为“直接响应”或“直接连接”到其他元件时，不存在中间元件。如本文使用，术语“和/或”包括一个或多个相关所列项目的任何和所有组合，并且可以缩写为“/”。

将理解，尽管本文可以使用术语第一，第二等来描述各种元素，但是这些元素不应受这些术语的限制。这些术语仅用于区分一个元素与另一个元素。例如，第一元素可以被称为第二元素，并且类似地，第二元素可以被称为第一元素，而在不脱离本原理的教导。

尽管一些图包括通信路径上的箭头以示出通信的主要方向，但是要理解，通信可以在与所示箭头相反的方向上发生。

关于框图和操作流程图描述一些示例，其中每个框表示包括用于实现(多个)指定逻辑功能的电路元件，模块或包括一个或多个可执行指令的代码部分。还应注意，在其他实现方式中，框中标注的(多个)功能可以不按所述顺序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者取决于所涉及的功能这些框有时可以以相反的顺序执行。

本文对“根据示例”或“在示例中”的引用意味着结合该示例描述的特定特征，结构或特性可以包括在本原理的至少一个实现方式中。在说明书中各处出现的短语“根据示例”或“在示例中”不一定都指代相同的示例，也不一定是与其他示例相互排斥的单独或替代示例。

权利要求中出现的附图标记仅是示例性的，并且对权利要求的范围没有限制作用。

虽然没有明确描述，但是这些示例和变型可以以任何组合或子组合使用。

本原理描述用于编码/解码有色点云，但是扩展为有色点云的序列的编码/解码，这是因为顺序地顺序编码/解码序列中的每个有色点云，如下面描述。

在下文中，图像包含特定图像/视频格式的样本(像素值)的一个或几个数组，其指定与图像(或视频)的像素值有关的所有信息以及可能由显示器和/或任何其他设备使用来例如可视化和/或解码图像(或视频)的所有信息。图像包括呈第一样本阵列的形式的至少一个分量，通常是亮度(或明度)分量，并且可能包括呈至少一个其他样本阵列的形式的至少一个其他分量，通常颜色分量。或者，等效地，相同的信息也可以由一组颜色样本阵列来表示，例如传统的三色RGB表示。

像素值由nv个值的矢量表示，其中nv是分量的数量。矢量的每个值都由多个比特表示，这些比特定义像素值的最大动态范围。

纹理图像是其像素值表示3D点的颜色的图像，而深度图像是其像素值表示3D点的深度的图像。通常，深度图像是灰度图像。

图1示意性示出用于编码表示3D对象的几何形状和颜色的输入有色点云IPC的方法的步骤的图。

在步骤100中，模块M1确定选择基于八叉树的投影结构的立方体C_j的哪些面F_i,j，该确定基于输入有色点云IPC在这些面上的正交投影。

选择的面F_i,j形成一组选择的面{F_i,j}。

索引i是指面(1-6)的索引，并且索引j是指所述基于八叉树的投影结构的立方体的索引。

基于八叉树的投影结构是八叉树，其中每个父节点最多可以包含八个子节点，并且其中立方体与此节点中的每个相关联。根节点(深度0)是没有任何父节点的唯一节点，并且每个子节点(深度大于0)具有单个父节点。

可以通过递归分割与根节点关联的初始立方体并包含输入有色点云IPC来获得基于八叉树的投影结构。因此，基于八叉树的投影结构包括与(多个)节点相关联的至少一个立方体C_j的组{C_j}。

当达到最大八叉树深度时，或者当与节点相关联的立方体的尺寸小于阈值时，或者当包括在立方体内的输入点云3D中的点的数量不超过最小数量时，可以检查分割处理的停止条件。

在图2例示的示例中，与根节点(深度0)相关联的立方体被分割为8个子立方体(深度1)，并且然后将深度1的两个子立方体分割为8个子立方体(最后深度)＝最大深度＝2)。

相同深度的立方体的尺寸通常是相同的，但是本原理不限于该示例。特定处理还可以确定当分割立方体时每个深度的子立方体的不同数量，和/或相同深度或根据其深度的立方体的多个尺寸。

可选地，在步骤110中，模块M2编码表示该组选择的面的投影信息数据。

在步骤110的变型中，模块M2编码表示基于八叉树的投影结构的投影信息数据。

投影信息数据驱动输入有色点云IPC投影到选择的面和获得逆投影的有色点云IPPC选择的面的逆投影。

编码的投影信息数据可以存储和/或在比特流F1中发送。

在步骤120中，模块M3通过将包括在立方体C_j中的输入有色点云IPC的点正交投影到立方体C_j的选择的面F_i,j上，获得每个选择的面F_i,j的一对图像：一个纹理图像TI_i,j和一个深度图像DI_i,j。

正交投影将包括在立方体C_j中的3D点投影到其面F_i,j之一上，以创建纹理图像TI_i,j和深度图像DI_i,j。创建的纹理和深度图像的分辨率可以与立方体分辨率相同，例如，将16x16x16立方体中的点投影到16x16像素图像上。通过轴的置换，可以不失一般性地假定面平行于XY平面。因此，当面的深度值Zface等于0时通过该点的位置的分量Z或通过分量Z与面的深度值Zface之间的距离，可以获得点的深度(即，到面的距离)。

在投影处理的开始，纹理图像可以具有均匀的预定颜色(例如，灰色)，并且深度图像可以具有均匀的预定深度值(例如，负值-D)。在立方体中包括的所有点上执行循环。对于位置(X，Y，Z)上的每个点，如果该点到面的距离Z-Zface严格小于深度图像中共位(相同X和Y)像素的深度值，则用Z-Zface替换所述深度值，并用所述点的颜色替换纹理图像的共位像素的颜色。在所有点上执行循环之后，深度图像的所有深度值可能被位移偏移量+D。实际上，从投影信息数据获得值Zface，面的X和Y的原点以及相对于面的立方体位置。

偏移量D用于区分已投影(深度严格为正)或未投影(深度为零)的图像像素。

投影处理不限于仅作为示例性实施例提供的上述处理。

纹理图像TI_i,j形成一组纹理图像{TI_i,j}，深度图像DI_i,j形成一组深度图像{DI_i,j}。

在步骤130中，编码器ENC1编码至少一个纹理图像的组{TI_i,j}和至少一个深度图像的组{DI_i,j}。

编码的纹理和深度图像可以存储和/或在比特流F2中发送。

根据步骤100的实施例，模块M1确定根据表示与立方体C_j的面F_i,j相关联的纹理(TI_i,j)和深度(DI_i,j)图像的能力的度量Q(F_i,j)选择组{C_j}的每个立方体C_j的哪些面F_i,j，以有效地压缩包括在立方体C_j中的输入有色点云的点到面F_i,j上的投影。

图3示出根据本原理的实施例的步骤100的子步骤的图。

在步骤300中，考虑与基于八叉树的投影结构的节点相关联的每个立方体C_j，并且模块M1将包括在立方体C_j中的输入有色点云IPC的点正交投影到所述立方体C_j的6个面中的每个面上，以获得所述6个面F_i,j中的每一个的一对纹理图像TI_i,j和深度图像DI_i,j。

在步骤310，模块M1为这6对纹理/深度图像中的每对计算度量Q(F_i,j)。

根据一个实施例，度量Q(F_i,j)响应于与包括在立方体C_j中的输入有色点云的一部分的投影对应的像素的总数量N_total(i,j)与新看到的点的数量N_new(i,j)的比率。当尚未将点投影到先前选择的面上时，点被视为“新看到”。

如果通过将输入有色点云的一部分投影到面F_i,j上看不到新点，则所述比率变为无穷大。相反，如果所有点都是新的，则该比率等于1。

根据另一实施例，度量Q(F_i,j)是与面F_i,j相关联的纹理(TI_i,j)(和/或深度(DI_i,j)图像的每个像素的当前邻居的平均数量N_neighbor(i,j)。

根据变型，相同的“背景”颜色被分配给与面F_i,j相关联的纹理(TI_i,j)(和/或深度(DI_i,j))图像的像素的每个不存在的邻居。当像素的邻居的值不等于特定的“背景”值时，则认为该邻居存在。

该变型因为仅通过平均化不等于特定“背景”值(例如0)的邻居像素(例如，在深度图中)而提供数量N_neighbor(i,j)，可以非常快速地实现度量Q(F_i,j)，数量N_total是不等于所述特定“背景”值的(例如)深度图像素数，并且数字N_new是不等于所述特定“背景”值并且尚未投影在先前选择的面上的(例如)深度图像素的数量。

根据一个实施例，度量Q(F_i,j)响应于每个像素的当前邻居的平均数量N_neighbor(i,j)以及新看见的点的数量N_new(i,j)与对应于包括在立方体Cj中的输入有色点云的一部分的投影的像素的总数量N_total(i,j)的比率。

根据实施例，考虑到每个像素的当前邻居的平均数量N_neighbor(i,j)和比率N_new(i,j)/N_total(i,j)，度量Q(F_i,j)估计用于编码纹理(TI_i,j)和深度(DI_i,j)图像的每个像素的成本。

根据实施例，度量Q(F_i,j)由下式给出：

Q(F_i,j)＝f_QP(N_neighbor(i,j))*N_total(i,j)/N_new(i,j)，

其中f_QP是递减函数，在[0,8]上定义并归一化，使得f_QP(8)＝1。

根据一个实施例，递减函数f_QP的形式取决于用于3D-HEVC深度编码的编码参数QP，并且凭经验找到。

所述函数对成本拉格朗日函数C＝D+λR建模，该函数归一化为N_neighbor＝8的“正常完全”图像。因此，Q表示“每个新看到点的成本”。

在步骤320中，当度量Q(F_i,j)小于或等于阈值Q_acceptable时，模块M1选择面F_i,j：

Q(F_i,j)≤Q_acceptable

然后，每个立方体可以不选择或至少选择一个面。

根据一个实施例，阈值Q_acceptable可以是给定的编码参数。

根据示例，Q_acceptable的最优值可以取决于QP参数，该QP参数用作在模块ENC1中在步骤130处应用的视频编码器的输入参数。该QP参数例如如在AVC或HEVC规范中定义。

使用上述度量Q(F_i,j)，可能的值为Q_acceptable＝2，表示至少一半的投影点应该是新的而选择投影。理解这些示例不限于仅作为示例提供的该特定值。

根据图3的方法的可选变型，在步骤330中，模块M1在计算度量之前，即在确定是否选择面F_i,j之前，去除与面F_i,j相关联的纹理和/或深度图像中的隔离像素。

基本上，难以编码的投影的点是没有邻居的点(隔离点)或只有几个邻居的点(对象的边界)。由于视频编解码器的基于块的架构，编码隔离点的成本可能被认为很高。因此，从与面F_i,j相关联的纹理(和/或深度)图像中去除隔离点是有利的

根据一个实施例，去除纹理(和深度)图像中的隔离像素基于对深度图的分析。

例如，对于与投影的点对应的深度图的每个像素，计算具有小于或等于给定阈值th_clean的绝对深度差的像素的数量N(在8个相邻像素中)。如果N小于另一个给定阈值N_clean，则该点被检测为是隔离的。

根据变型，当像素被认为是隔离的时，在深度图中设置特定值，例如0，并且在纹理图像上设置特定“背景”颜色，例如当在10比特RGB颜色空间中表示像素的颜色时，R＝G＝B＝512(灰色)。

根据一个实施例，针对给定数量的N_loop_clean迭代，迭代地应用去除纹理(和深度)图像中的隔离像素，从而刨削(plan)隔离像素岛，直到它们消失为止。

图4示出根据本原理的实施例的步骤130的子步骤的图。

在步骤400中，编码器ENC1将相对于基于八叉树的投影结构的纹理图像{TI_i,j}打包到合成纹理图像TI中，并将它们的相关联的深度图像{DI_i,j}打包到合成深度图像DI中。

在步骤410中，编码器ENC1编码合成纹理图像TI和合成深度图像DI。

编码的合成纹理图像TI和编码的合成深度图像DI可以被存储和/或在比特流F2发送。

图5示例基于八叉树的投影结构的示例(左侧)，其中初始立方体已递归分割两次。仅示出1个深度1的子立方体和1个深度2的子立方体，选择的面为灰色。在右侧，根据打包示例示出合成图像(纹理或深度)。

根据步骤400的实施例，打包处理从预定尺寸的空的合成纹理和深度图像开始。通过为每个纹理和深度图像迭代地选择所述合成图像中的自由区域来获得打包，所述区域足够大以接收所述图像而不与先前打包的图像重叠。

可以理解，打包处理不一定与通常称为“帧打包”的规范工具(如视频编解码器的规范中定义的，例如像HEVC)相关。

根据步骤130的实施例，编码器ENC1是3D-HEVC兼容的(参见关于专用于深度的编码工具的HEVC规范的附件J)。这样的编码器可以自然地联合编码纹理及其关联的深度，就深度视频的压缩性能而言，声称的增益约为50％。纹理图像与HEVC向后兼容，并且因此其以与典型HEVC主简档相同的性能而被压缩。

图6示出根据本原理的实施例的步骤110的子步骤的图。

在步骤600中，模块M2编码基于八叉树的投影结构的每个立方体的节点信息数据(指示与节点相关联的立方体是否被分割)以及面信息数据(指示(多个)立方体的哪些面用于(多个)投影)。

根据实施例，图2例示，节点信息数据是二进制标志，其等于1以指示与节点相关联的立方体被分割，否则等于0，并且面信息数据是6比特数据，每个比特等于1以指示面用于投影，否则等于0。

根据可选变型，在步骤610中，模块M2还编码立方体分割的最大深度。

这避免用信号通知具有最大深度的所有立方体的节点信息数据。

根据另一可选变型，在步骤620中，模块M2编码单个二进制数据以指示没有立方体的面用于投影。

因此，根据该变型，如果将立方体的至少一个面用于投影，则在投影信息数据中编码单个标志1，然后是面信息数据编码(例如，指示使用哪些面的6个标志))。

根据另一可选变型，在步骤630中，模块M2编码打包信息数据，打包信息数据表示将纹理图像{TI_i,j}相对于基于八叉树的投影结构打包为合成纹理图像TI并且将其相关联的深度图像{DI_i,j}打包为成合成深度图像DI。所述打包信息数据可以定义用于每个纹理和深度图像的空间位置和尺寸区域。

根据一个实施例，可以使用像CABAC的熵编码器编码投影信息数据和/或打包信息数据(在http://www.itu.int/rec/T-REC-H.265-201612-l/en的HEVC规范中找到CABAC的描述)。例如，可以使用上下文编码每个立方体6个标记，这是因为通常(最大的立方体除外)仅使用几个投影，并且这些标志很有可能为0。

图7示意性示出根据本原理的示例的，用于从至少一个比特流解码表示3D对象的几何形状和颜色的有色点云的方法的步骤的图。

在步骤700，解码器DEC1从比特流F2解码至少一个编码的纹理图像的组{TI_i,j}和至少一个编码的深度图像的组{DI_i,j}，以获得解码的纹理图像的组{TI'_i,j}和解码的深度图像的组{DI'_i,j}。

在步骤710中，模块M4通过正交逆投影至少一个解码的纹理图像的组{TI'_i,j}和至少一个解码深度图像的组{DI'_i,j}，获得逆投影的有色点云IPPC，所述逆投影由表示基于八叉树的投影结构并且表示所述基于八叉树的投影结构的立方体C_j的至少一个选择的面F_i,j的投影信息数据驱动。

所述正交逆投影是在步骤120中使用并且由与在步骤120中使用的相同投影信息数据驱动的相对应的处理(仅用于投影的点)。

从立方体的一面的正交逆投影从纹理和深度图像确定立方体中的逆投影的3D点。面的分辨率可能与立方体分辨率相同，例如，将16x16x16立方体中的点投影到16x16像素的图像上。通过轴的置换，可以不失一般性地假定该面平行于XY平面。因此，点的深度(即，到面的距离)可以表示逆投影的点的位置的分量Z。然后该面位于Z坐标的值Zface处，并且立方体位于大于Zface的Z处。实际上，从投影信息数据获得值Zface，面的X和Y的原点以及相对于面的立方体位置。

在深度图像的所有像素上执行循环。对于位置(X，Y)和深度值V处的每个像素，如果值V严格为正，则可以在位置(X，Y，Zface+V-D)上获得逆投影的3D点，并且纹理图像中位置(X，Y)处的像素的颜色可以与所述点相关联。值D可以与投影处理中使用的正偏移量相同。

正交逆投影处理不限于仅作为示例性实施例提供的上述处理。

通过正交逆投影若干解码的纹理和深度图像，可能发生两个或更多逆投影的3D点完全属于3D空间的相同位置。在这种情况下，在所述位置处仅用一个点(其颜色是在所有逆投影的3D点上所取的平均颜色)替换所述点。

根据步骤700的实施例，解码器DEC1是3D-HEVC兼容的。

根据步骤700的实施例，解码器DEC1解码所编码的合成纹理图像T1和编码的合成深度图像DI，以获得解码的合成纹理图像TI'和解码的合成深度图像DI'，并且根据打包信息数据，从所述解码的合成纹理图像TI'和解码的合成深度图像DI'，相对于基于八叉树的投影结构的立方体C_j，拆包解码的纹理图像{TI'_i,j}和解码的深度图像{DI'_i,j}。

拆包处理是在步骤400中执行的打包处理的相对应，并且由打包信息数据驱动，以便在解码的合成图像中定义与每个解码的纹理TI'_i,j和深度DI'_i,jj图像有关的区域。然后，从所述帧中提取所述区域以获得与所述投影相关联的解码的纹理图像和深度图像。

可选地，在步骤720中，模块M5从比特流F1中解码表示选择的面的组的投影信息数据。

在步骤720的变型中，模块M5从比特流F1解码表示基于八叉树的投影结构的投影信息数据。

可选地，在步骤720中，模块M5从比特流F1解码打包信息数据，打包信息数据表示将纹理图像{TI'_i,j}打包为解码的合成纹理图像(TI)并且深度图像{DI'_i,j}打包为解码的合成深度图像(DI)。

在图1-7上，模块是功能单元，可以与可区分的物理单元相关或不相关。例如，这些模块或其中的一些模块可以一起提供在唯一的部件或电路中，或有助于软件的功能。相反，一些模块可能潜在地由单独的物理实体组成。使用纯硬件，例如使用专用硬件，例如分别是“专用集成电路”，“现场可编程门阵列”，“超大规模集成”的ASIC或FPGA或VLSI，或者从设备中嵌入的若干集成电子组件，或者从硬件和软件组件的混合来实现与本原理兼容的设备。

图8表示可以被配置为实现关于图1-7描述的方法的设备800的示例性架构。

设备800包括通过数据和地址总线801链接在一起的以下元件：

-微处理器802(或CPU)，其例如是DSP(数字信号处理器)；

-ROM(只读存储器)803；

-RAM(随机存取存储器)804；

-用于从应用接收要发送的数据的I/O接口805；和

-电池66。

根据示例，电池806在设备外部。在每个提到的存储器中，说明书中使用的“寄存器”一词可以对应于小容量的区域(一些比特)或非常大的区域(例如，整个程序或大量接收的或解码的数据)。ROM 803至少包括程序和参数。ROM 803可以存储执行根据本原理的技术的算法和指令。当接通时，CPU 802将程序上载到RAM中并执行相应指令。

RAM 64包括寄存器中由CPU 802执行并在设备800接通之后上载的程序，寄存器中的输入数据，寄存器中方法的不同状态的中间数据，以及寄存器中用于执行方法的其他变量。

这里描述的实现方式可以在例如方法或处理，装置，软件程序，数据流或信号中实现。即使仅在单个实现方式的形式的上下文中讨论(例如，仅作为方法或设备讨论)，讨论的特征的实现方式也可以以其他形式(例如，程序)实现。装置可以在例如适当的硬件，软件和固件中实现。方法可以在例如诸如例如处理器之类的装置中实现，该处理器通常涉及处理设备，一般包括例如计算机，微处理器，集成电路或可编程逻辑设备。处理器还包括通信设备，诸如例如计算机，蜂窝电话，便携式/个人数字助理(“PDA”)，以及便于最终用户之间的信息通信的其他设备。

根据编码或编码器的示例，原始有色点云IPC从源获得。例如，源属于包含以下的组：

-本地存储器(803或804)，例如视频存储器或RAM(随机存取存储器)，闪存，ROM(只读存储器)，硬盘；

-贮存接口(805)，例如，具有大容量贮存器，RAM，闪存，ROM，光盘或磁性载体的接口；

-通信接口(805)，例如，有线接口(例如，总线接口，广域网接口，局域网接口)或无线接口(诸如，IEEE 802.11接口或

接口)；和

-图像捕获电路(例如，传感器，诸如例如CCD(电荷耦合器件)或CMOS(互补金属氧化物半导体))。

根据解码或解码器的示例，将重构的有色点云CPC发送到目的地；具体地，目的地属于包括以下的组：

-本地存储器(803或804)，例如，视频存储器或RAM，闪存，硬盘；

-通信接口(805)，例如，有线接口(例如，总线接口(例如USB(或通用串行总线))，广域网接口，局域网接口，HDMI(高清多媒体接口)接口)或无线接口(诸如，IEEE 802.11接口，

或

接口)；

-呈现设备；和

-显示器。

根据编码码或编码器的示例，比特流F1-F2之一被发送到目的地。作为示例，这些比特流F1-F2的至少一个存储在本地或远程存储器中，例如，视频存储器(804)或RAM(804)，硬盘(803)。在变型中，比特流F1-F2的至少一个发送到贮存接口(805)，例如，具有大容量贮存器，闪存，ROM，光盘或磁性载体的接口和/或通过通信接口(805)传输，例如，到点对点链路，通信总线，点对多点链路或广播网络的接口。

根据解码或解码器的示例，从源获得比特流F1-F2中的至少一个。示例性地，从本地存储器读取比特流，例如，视频存储器(804)，RAM(804)，ROM(803)，闪存(803)或硬盘(803)。在变型中，比特流从贮存接口(805)接收，例如，具有大容量贮存器，RAM，ROM，闪存，光盘或磁性载体的接口和/或从通信接口(805)接收，例如，到点对点链路，总线，点对多点链路或广播网络的接口。

根据示例，被配置为实现上面关于图1-6描述的编码方法的设备800属于包括以下的组：

-移动设备；

-具有3D捕获能力的智能电话或者电视机；

-通信设备；

-游戏设备；

-平板电脑(或平板计算机)；

-膝上型计算机；

-静止图像相机；

-摄像机；

-编码芯片；

-静止图像服务器；和

-视频服务器(例如，广播服务器，视频点播服务器或网络服务器)。

根据示例，被配置为实现上面关于图7描述的解码方法的设备2000属于包括以下的组：

-移动设备；

-头戴式显示器(HMD)；

-(混合现实)智能眼镜；

-全息设备；

-通信设备；

-游戏设备；

-机顶盒；

-电视机；

-平板电脑(或平板计算机)；

-膝上型计算机；

-显示器

-立体显示器和

-解码芯片。

根据图9例示的本原理的示例，在两个远程设备A和B之间通过通信网络NET的传输上下文中，设备A包括与存储器RAM和ROM相关的处理器，其被配置为实现上面关于图1-6描述的用于编码有色点云的方法，并且设备B包括与存储器RAM和ROM相关的处理器，其被配置为实现上面关于图7描述的用于解码的方法。

根据示例，网络是广播网络，适配为将来自设备A的编码的有色点云广播到包括设备B的解码设备。

意图由设备A发送的信号承载比特流F1-F2中的至少一个。

由此，该信号可以承载通过将输入有色点云IPC的点正交投影到基于八叉树的投影结构的选择的面F_i,j上而获得的至少一对图像：一个纹理图像TI_i,j和一个深度图像DI_i,j。

根据一个实施例，信号还可以承载表示选择的面和/或表示基于八叉树的投影结构的投影信息数据。

根据一个实施例，所述投影信息数据包括：节点信息数据，指示与基于八叉树的投影结构的节点相关联的立方体是否被分割；以及面信息数据，指示(多个)立方体的哪些面用于(多个)投影。

根据一个实施例，节点信息数据是二进制标志，其等于1以指示与节点相关联的立方体被分割，否则等于0，并且面信息数据是6比特数据，每个比特等于1以指示面用于投影，否则等于0。

根据可选变型，该信号还承载立方体分割的最大深度。

根据另一可选变型，该信号还承载单个二进制数据以指示没有立方体的面用于投影。

根据一个实施例，信号承载通过打包至少一个纹理图像{TI_i,j}和至少一个深度图像{DI_i,j}而获得的合成纹理图像TI'和合成深度图像DI'。

根据一个实施例，信号还可以承载打包信息数据，该打包信息数据表示至少一个纹理图像{TI_i,j}到合成纹理图像TI以及深度图像{DI_i,j}到合成深度图像DI的打包。

图10示出当通过基于分组的传输协议来传输数据时这种信号的语法的示例。每个发送的分组P包括报头H和有效载荷PAYLOAD。

根据实施例，有效载荷PAYLOAD可以包括以下元素中的至少一个：

-表示包括一个纹理图像TI_i,j和一个深度图像DI_i,j的至少一对图像的比特；

-二进制标志，指示与基于八叉树的投影结构的节点相关联的立方体是否被分割；

-指示选择立方体的哪些面的6比特数据；

-表示投影信息数据的比特；

-表示打包信息数据的比特。

本文描述的各种处理和特征的实现方式可以体现在各种不同的设备或应用中。这样的设备的示例包括编码器，解码器，处理来自解码器的输出的后处理器，提供输入给编码器的预处理器，视频编码器，视频解码器，视频编解码器，网络服务器，机顶盒，膝上型计算机，个人计算机，蜂窝电话，PDA、HMD以及用于处理图像或视频的任何其他设备或其他通信设备。应该清楚的是，该设备可以是移动的，甚至可以安装在移动车辆中。

另外，该方法可以由处理器执行的指令来实现，并且这样的指令(和/或由实现方式产生的数据值)可以存储在计算机可读贮存介质上。计算机可读贮存介质可以采取计算机可读程序产品的形式，该计算机可读程序产品体现在一个或多个计算机可读介质中并且具有可由计算机执行的体现在其上的计算机可读程序代码。本文使用的计算机可读贮存介质被认为是非暂时性贮存介质，其被给定在其中存储信息的固有能力以及提供从其中检索信息的固有能力。计算机可读贮存介质可以是例如但不限于电，磁，光，电磁，红外或半导体系统，装置或设备，或者前述的任何合适的组合。要认识到，以下虽然提供本原理可以应用于的计算机可读贮存介质的更具体示例，但仅仅是本领域普通技术人员容易理解的例示性而非详尽的列表：便携式计算机盘；硬盘；只读存储器(ROM)；可擦除可编程只读存储器(EPROM或闪存)；便携式压缩盘只读存储器(CD-ROM)；光学贮存设备；磁贮存设备；或者前述的任何合适的组合。

指令可以形成有形地体现在处理器可读介质上的应用程序。

指令可以是例如硬件，固件，软件或组合。指令可以在例如操作系统，单独的应用程序或两者的组合中找到。因此，处理器的特征在于，例如，被配置为执行处理的设备和包括具有用于实施处理的指令的处理器可读介质的设备(诸如，贮存设备)两者。此外，除了指令之外或代替指令，处理器可读介质可以存储由实现方式产生的数据值。

对于本领域技术人员明显的是，实现方式可以产生各种信号，这些信号被格式化以承载可以例如被存储或传输的信息。该信息可以包括例如用于执行方法的指令，或者由描述的实现方式之一产生的数据。例如，信号可以被格式化以承载用于写入或读取本原理的描述的示例的语法的规则作为数据，或者承载由本原理的描述的示例写入的实际语法值作为数据。这样的信号可以被格式化，例如，作为电磁波(例如，使用频谱的射频部分)或者作为基带信号。格式化可以包括，例如，编码数据流和用编码的数据流调制载波。信号承载的信息可以是例如模拟或数字信息。如已知的，信号可以通过各种不同的有线或无线链路传输。信号可以存储在处理器可读介质上。

已经描述多个实现方式。然而，将理解，可以进行各种修改。例如，可以组合，补充，修改或移除不同实现方式的元素以产生其他实现方式。另外，普通技术人员将理解，其他结构和处理可以替代公开的那些，并且作为结果的实现方式将以至少基本相同的(多个)方式执行至少基本相同的(多个)功能，以至少实现与公开的实现方式基本相同的(多个)结果。因此，本申请考虑这些和其他实现方式。

Claims

1.一种编码点云的方法，包括：

-根据点云在基于八叉树的投影结构的至少一个立方体(C_j)的至少一个面(F_i,j)上的至少一个正交投影，选择(100)所述至少一个面；和

-通过将所述立方体(C_j)中包括的点云的一部分正交投影到所选择的面(F_i,j)上，对立方体(C_j)的每个选择的面(F_i,j)编码(120、130)其中包括一个纹理图像(TI_i,j)和一个深度(DI_i,j)图像的一对图像。

2.一种用于编码点云的设备，包括用于以下的部件：

3.根据权利要求1所述的方法或根据权利要求2所述的设备，其中，选择立方体(C_j)的面(F_i,j)是基于表示与所述面(F_i,j)相关联的纹理图像(TI_i,j)和深度(DI_i,j)图像的能力的度量(Q(F_i,j))来有效地压缩被包括在立方体(C_j)中的点云的点到面(F_i,j)上的投影。

4.根据权利要求1或3所述的方法或根据权利要求2或3所述的设备，其中，所述方法还包括用于以下的步骤或所述设备包括用于以下的部件：编码(110)表示一组选择的面和/或表示基于八叉树的投影结构的投影信息数据。

5.根据权利要求4所述的方法或设备，其中，投影信息数据包括：指示与基于八叉树的投影结构的节点相关联的立方体是否被分割的节点信息数据，以及指示一个或多个立方体的哪些面用于一个或多个投影的面信息数据。

6.根据权利要求1、3至5中任一项所述的方法或根据权利要求2至5中任一项所述的设备，其中，选择其中包括一个纹理图像和一个深度图像的至少两对图像，并且其中，编码(130)纹理图像({TI_i,j})和深度图像({DI_i,j})包括将纹理图像({TI_i,j})打包(400)为合成纹理图像(TI)并将深度图像({DI_i,j})打包为合成深度图像(DI)，并编码(410)合成纹理图像和合成深度图像。

7.根据权利要求6所述的方法或设备，其中，所述方法还包括用于以下的步骤(630)，或者所述设备还包括用于以下的部件：编码(630)表示纹理图像{TI_i,j}打包为合成纹理图像(TI)以及深度图像{DI_i,j}打包为合成深度图像(DI)的打包信息数据。

8.一种用于从至少一个比特流解码表示3D对象的几何形状和颜色的点云的方法，包括：

-从比特流解码(700)至少一个编码的纹理图像({TI_i,j})和至少一个编码的深度图像({DI_i,j})，以获得至少一个解码的纹理图像({TI'_i,j})和至少一个解码的深度图像({DI'_i,j})；和

-通过正交逆投影所述至少一个解码的纹理图像({TI_i,j})和所述至少一个解码的深度图像({DI_i,j})来获得(710)逆投影的点云(IPPC)，所述逆投影由投影信息数据驱动，投影信息数据表示基于八叉树的投影结构并表示所述基于八叉树的投影结构的立方体(C_j)的至少一个选择的面(F_i,j)。

9.一种用于从至少一个比特流解码表示3D对象的几何形状和颜色的点云的设备，包括用于以下的部件：

-从比特流解码至少一个编码的纹理图像({TI_i,j})和至少一个编码的深度图像({DI_i,j})，以获得至少一个解码的纹理图像({TI'_i,j})和至少一个解码的深度图像({DI'_i,j})；和

-通过正交逆投影所述至少一个解码的纹理图像({TI_i,j})和所述至少一个解码的深度图像({DI_i,j})来获得逆投影的有色点云(IPPC)，所述逆投影由投影信息数据驱动，投影信息数据表示基于八叉树的投影结构并表示所述基于八叉树的投影结构的立方体(C_j)的至少一个选择的面(F_i,j)。

10.根据权利要求8所述的方法或根据权利要求9所述的设备，其中，所述方法还包括用于以下的步骤或所述设备还包括用于以下的部件：从比特流解码表示一组选择的面和/或表示基于八叉树的投影结构的投影信息数据。

11.根据权利要求8或10所述的方法或根据权利要求9或10所述的设备，其中，解码(700)至少一个编码的纹理图像({TI_i,j})和至少一个编码的深度图像({DI_i,j})包括解码合成纹理图像(TI)和合成深度图像(DI)，并且根据打包信息数据，从解码的合成纹理图像(TI')和解码的合成深度图像(DI')拆包所述至少一个解码的纹理图像({TI'_i,j})和所述至少一个解码的深度图像({DI'_i,j})。

12.根据权利要求11所述的方法或设备，其中，所述方法还包括用于以下的步骤，或者所述设备还包括用于以下的部件：解码所述打包信息数据。

13.一种信号，承载通过将输入有色点云(IPC)的点正交投影到基于八叉树的投影结构的选择的面(F_i,j)而获得的包括一个纹理图像(TI_i,j)和一个深度图像(DI_i,j)的至少一对图像，其中，信号还承载表示选择的面和/或表示基于八叉树的投影结构的投影信息数据。

14.根据权利要求13所述的信号，其中，所述信号还承载打包信息数据，打包信息数据表示至少一个纹理图像({TI_i,j})打包为合成纹理图像(TI)以及深度图像({DI_i,j})打包为合成深度图像(DI)。

15.一种计算机程序产品，包括程序代码指令，以在该程序在计算机上执行时执行根据权利要求8所述的解码方法的步骤。