CN118402234A

CN118402234A - 用于点云压缩的混合框架

Info

Publication number: CN118402234A
Application number: CN202280082872.XA
Authority: CN
Inventors: 庞家昊; M·A·洛迪; 田东
Original assignee: InterDigital VC Holdings Inc
Current assignee: InterDigital VC Holdings Inc
Priority date: 2021-12-17
Filing date: 2022-10-18
Publication date: 2024-07-26

Abstract

在一个具体实施中，我们提出了一种混合架构来压缩和解压缩点云。具体地，第一解码块用于最高有效位，通常通过基于树的编码方法进行编码。第二解码块用于位的中间范围，通常通过基于体素的方法进行编码。第三解码块用于最低有效位，通常通过基于点的方法进行编码。例如，解码器根据位的总数和位划分位置来配置该解码器的网络；使用基于树的解码块对粗略点云及其相关联的逐点特征进行解码；使用基于体素的解码块将该粗略点云上采样到更密集的点云，并且更新该逐点特征；并且使用基于点的解码块将密集但低位深度点云的坐标的精度细化到高位深度点云。

Description

用于点云压缩的混合框架

技术领域

本实施方案整体涉及用于点云压缩和处理的方法和装置。

背景技术

点云(PC)数据格式是跨若干商业领域的通用数据格式，例如从自主驾驶、机器人、增强现实/虚拟现实(AR/VR)、土木工程、计算机图形到动画/电影产业。3D LiDAR(激光雷达)传感器已部署在自动驾驶汽车中，并且Velodyne Velabit、Apple iPad Pro 2020和Intel RealSense LiDAR相机L515发布经济实惠的LiDAR传感器。随着感测技术的进步，3D点云数据变得比以往更加实用，并有望成为本文讨论的应用的最终推动者。

发明内容

根据实施方案，提供了一种对用于点云的点云数据进行解码的方法，该方法包括：使用第一解码策略对第一数据集进行解码，其中所述第一数据集对应于所述点云数据的第一位级别子集；并且使用第二解码策略对第二数据集进行解码，其中所述第二数据集对应于所述点云数据的第二位级别子集。该方法可进一步包括使用第三解码策略对第三数据集进行解码，其中所述第三数据集对应于所述点云数据的第三位级别子集。

根据另一实施方案，提供了一种对用于点云的点云数据进行编码的方法，该方法包括：使用第一编码策略对第一数据集进行编码，其中所述第一数据集对应于所述点云数据的第一位级别子集；并且使用第二编码策略对第二数据集进行编码，其中所述第二数据集对应于所述点云数据的第二位级别子集。该方法可进一步包括使用第三编码策略对第三数据集进行编码，其中所述第三数据集对应于所述点云数据的第三位级别子集。

根据另一实施方案，提供了一种对用于点云的点云数据进行解码的装置，该装置包括一个或多个处理器，其中所述一个或多个处理器被配置为：使用第一解码策略对第一数据集进行解码，其中所述第一数据集对应于所述点云数据的第一位级别子集；并且使用第二解码策略对第二数据集进行解码，其中所述第二数据集对应于所述点云数据的第二位级别子集。该装置可进一步被配置为使用第三解码策略对第三数据集进行解码，其中所述第三数据集对应于所述点云数据的第三位级别子集。

根据另一实施方案，提供了一种对用于点云的点云数据进行编码的装置，该装置包括一个或多个处理器，其中所述一个或多个处理器被配置为：使用第一编码策略对第一数据集进行编码，其中所述第一数据集对应于所述点云数据的第一位级别子集；并且使用第二编码策略对第二数据集进行编码，其中所述第二数据集对应于所述点云数据的第二位级别子集。该装置可进一步被配置为使用第三编码策略对第三数据子集进行编码，其中所述第三数据集对应于所述点云数据的第三位级别子集。

一个或多个实施方案还提供了一种计算机程序，该计算机程序包括指令，该指令在由一个或多个处理器执行时使该一个或多个处理器执行根据上述任一实施方案中的编码方法或解码方法。本发明实施方案中的一个或多个实施方案还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有用于根据上述方法对点云数据进行编码或解码的指令。

一个或多个实施方案还提供了一种计算机可读存储介质，该计算机可读存储介质在其上存储有根据上述方法生成的视频数据。一个或多个实施方案还提供了一种用于传输或接收根据上述方法生成的视频数据的方法和装置。

附图说明

图1示出了其中可以实现本发明实施方案的各方面的系统的框图。

图2A、图2B、图2C和图2D分别示出了基于点、基于八叉树、基于体素和基于稀疏体素的点云表示。

图3示出了位级别示例。

图4示出了根据实施方案的编码图。

图5示出了根据实施方案的PN块。

图6示出了根据实施方案的VN块。

图7示出了根据实施方案的ON块。

图8示出了根据实施方案的解码图。

图9示出了根据实施方案的ON*块。

图10示出了根据实施方案的VN*块。

图11示出了根据实施方案的PN*块。

图12示出了根据另一实施方案的编码图。

图13示出了根据另一实施方案的解码图。

图14示出了根据一实施方案的对点云数据进行编码的方法。

图15示出了根据一实施方案的用于对点云数据进行解码的方法。

具体实施方式

图1示出了其中可实现各种方面和实施方案的系统的示例的框图。系统100可体现为一种设备，该设备包括下文所述的各种部件，并且被配置为执行本申请所述各方面中的一个或多个方面。此类设备的示例包括但不限于各种电子设备，诸如个人计算机、膝上型计算机、智能电话、平板计算机、数字多媒体机顶盒、数字电视接收器、个人视频录制系统、连接的家用电器和服务器。系统100的元件可单独地或组合地体现在单个集成电路、多个IC和/或分立部件中。例如，在至少一个实施方案中，系统100的处理和编码器/解码器元件跨多个IC和/或分立的部件分布。在各种实施方案中，系统100经由例如通信总线或通过专用输入和/或输出端口通信地耦接到其他系统或其他电子设备。在各种实施方案中，系统100被配置为实现本申请所述的方面的一个或多个方面。

系统100包括至少一个处理器110，该至少一个处理器被配置为执行加载到其中的指令，以用于实现例如本申请所述的各个方面。处理器110可以包括嵌入式存储器、输入输出接口和本领域已知的各种其他电路。系统100包括至少一个存储器120(例如，易失性存储器设备和/或非易失性存储器设备)。系统100包括存储设备140，该存储设备可以包括非易失性存储器和/或易失性存储器，包括但不限于EEPROM、ROM、PROM、RAM、DRAM、SRAM、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例，存储设备140可以包括内部存储设备、附接存储设备和/或网络可访问的存储设备。

系统100包括编码器/解码器模块130，该编码器/解码器模块被配置为例如处理数据以提供编码视频或解码视频，并且编码器/解码器模块130可以包括其自身的处理器和存储器。编码器/解码器模块130表示可被包括在设备中以执行编码和/或解码功能的模块。众所周知，设备可以包括编码模块和解码模块中的一者或两者。另外，编码器/解码器模块130可被实现为系统100的独立元件，或者可被结合在处理器110内作为本领域技术人员已知的硬件和软件的组合。

要加载到处理器110或编码器/解码器130上以执行本申请中所述的各个方面的程序代码可以存储在存储设备140中，并且随后加载到存储器120上以供处理器110执行。根据各种实施方案，处理器110、存储器120、存储设备140和编码器/解码器模块130中的一者或多者可以在执行本申请中描述的过程期间存储各个项目中的一者或多者。这样存储的项目可以包括但不限于输入视频、解码视频或解码视频的一部分、位流、矩阵、变量，以及处理等式、公式、运算和运算逻辑的中间或最终结果。

在若干实施方案中，处理器110和/或编码器/解码器模块130内部的存储器用于存储指令并提供工作存储器以用于在编码或解码期间进行需要的处理。然而，在其他实施方案中，在处理设备外部的存储器(例如，处理设备可以是处理器110或编码器/解码器模块130)用于这些功能中的一个或多个功能。外部存储器可以是存储器120和/或存储设备140，例如，动态易失性存储器和/或非易失性闪存存储器。在若干实施方案中，外部非易失性闪存存储器用于存储电视机的操作系统。在至少一个实施方案中，诸如RAM的快速外部动态易失性存储器被用作用于视频译码和解码操作的工作存储器，诸如用于MPEG-2、JPEG Pleno、HEVC或VVC。

系统100的元件的输入可以通过如框105中指示的各种输入设备来提供。此类输入设备包括但不限于：(i)接收例如由广播器通过无线电传输的RF信号的RF部分；(ii)复合输入端子；(iii)USB输入端子和/或(iv)HDMI输入端子。

在各种实施方案中，框105的输入设备具有如本领域中已知的相关联的相应输入处理元件。例如，RF部分可与适于以下项的元件相关联：(i)选择期望的频率(也称为选择信号，或将信号频带限制到一个频带)，(ii)下变频选择的信号，(iii)再次将频带限制到更窄频带以选择(例如)在某些实施方案中可称为信道的信号频带，(iv)解调经下变频和频带限制的信号，(v)执行纠错，以及(vi)解复用以选择期望的数据包流。各种实施方案的RF部分包括用于执行这些功能的一个或多个元件，例如频率选择器、信号选择器、频带限制器、信道选择器、滤波器、下变频器、解调器、纠错器和解复用器。RF部分可包含执行这些功能中的各种功能的调谐器，这些功能包含例如下变频接收的信号至更低频率(例如，中频或近基带频率)或至基带。在一个机顶盒实施方案中，RF部分及其相关联的输入处理元件接收通过有线(例如，电缆)介质传输的RF信号，并且通过滤波、下变频和再次滤波至期望的频带来执行频率选择。各种实施方案重新布置上面所描述的(和其他)元件的顺序，移除这些元件中的一些元件，和/或添加执行相似或不同功能的其他元件。添加元件可以包括在现有元件之间插入元件，例如，插入放大器和模拟-数字转换器。在各种实施方案中，RF部分包括天线。

此外，USB和/或HDMI端子可以包括用于跨USB和/或HDMI连接将系统100连接到其他电子设备的相应接口处理器。应当理解，输入处理(例如，Reed-Solomon纠错)的各个方面可以按照需要例如在单独的输入处理IC内或在处理器110内实现。相似地，USB或HDMI接口处理的各方面可以按照需要在独立的接口IC内或在处理器110内实现。解调的、纠错的和解复用的流被提供给各种处理元件，包括例如处理器110和编码器/解码器130，它们与存储器和存储元件结合操作以根据需要处理数据流以供在输出设备上呈现。

系统100的各种元件可设置在集成壳体内。在集成壳体内，各种元件可使用合适的连接布置115(例如，本领域已知的内部总线，包括I2C总线、布线和印刷电路板)互连并且在这些元件之间传输数据。

系统100包括通信接口150，该通信接口使得能够经由通信信道190与其他设备通信。通信接口150可以包括但不限于配置为通过通信信道190传输并接收数据的收发器。通信接口150可以包括但不限于调制解调器或网卡，并且通信信道190可以在有线和/或无线介质等内实现。

在各种实施方案中，使用诸如IEEE 802.11的Wi-Fi网络将数据流式传输到系统100。这些实施方案的Wi-Fi信号通过适合于Wi-Fi通信的通信信道190和通信接口150接收。这些实施方案中的通信信道190通常连接到接入点或路由器，该接入点或路由器提供对包括互联网的外部网络的访问，以允许流式应用和其他OTT通信。其他实施方案使用机顶盒向系统100提供流式传输的数据，该机顶盒通过输入框105的HDMI连接递送数据。还有其他实施方案使用输入框105的RF连接向系统100提供流式传输的数据。

系统100可以将输出信号提供给各种输出设备，包括显示器165、扬声器175和其他外围设备185。在实施方案的各种示例中，其它外围设备185包括以下中的一者或多者：独立DVR、磁盘播放器、立体音响系统、照明系统和基于系统100的输出提供功能的其它设备。在各种实施方案中，使用信令诸如AV在系统100与显示器165、扬声器175或其他外围设备185之间传送控制信号。链路、CEC或能够在有或没有用户干涉的情况下实现设备到设备控制的其他通信协议。输出设备可通过相应的接口160、170和180经由专用连接通信地耦接到系统100。另选地，输出设备可以使用通信信道190经由通信接口150连接到系统100。显示器165和扬声器175可与电子设备(例如，电视机)中的系统100的其他部件集成在单个单元中。在各种实施方案中，显示器接口160包括显示器驱动器，例如，定时控制器(T Con)芯片。

另选地，例如，如果输入105的RF部分是单独机顶盒的一部分，则显示器165和扬声器175可以与其他部件中的一者或多者分隔开。在其中显示器165和扬声器175是外部部件的各种实施方案中，输出信号可以经由专用输出连接(包括例如，HDMI端口、USB端口或COMP输出)来提供。

可以设想，点云数据可能消耗大部分网络流量，例如通过5G网络连接的汽车之间，以及沉浸式通信(VR/AR)。高效的表示格式对于点云理解和通信是必要的。具体地，为了世界建模和感测的目的，原始点云数据需要被适当地组织和处理。当在相关情形中需要数据的存储和传输时，对原始点云进行压缩是必要的。

此外，点云可表示包含多个移动对象的相同场景的顺序扫描。与从静态场景或静态对象捕获的静态点云相比，它们被称为动态点云。动态点云通常被组织成帧，其中不同的帧在不同的时间被捕获。动态点云可能需要实时或具有低延迟的处理和压缩。

3D点云由3D点集合组成。每个点由其3D位置(x,y,z)定义。然后，3D点云表示对象或场景的几何图形。可选地，根据应用，每个点可以进一步与一些属性相关联，例如RGB颜色(r,g,b)、法线(nx,ny,nz)和/或反射率(r)。在该工作中，我们主要关注点云几何形状的处理和压缩。

汽车工业和自动驾驶汽车是可使用点云的领域。自动驾驶汽车应该能够“探测”其环境，以基于其周围环境的实际情况作出良好的驾驶决策。典型的传感器如LiDAR生成供感知引擎使用的(动态)点云。这些点云并非旨在被人眼看到，并且它们通常是稀疏的，不一定是彩色的，并且是动态的，具有高的捕获频率。点云可具有其他属性，如由LiDAR提供的反射率，因为该属性指示被感测对象的材料，并且可有助于作出决策。

虚拟现实(VR)和沉浸式世界已经被许多人预见为2D平面视频的未来。对于VR和沉浸式世界，观察者沉浸在观察者周围的环境中，而不是在标准电视中观察者只能看到观察者面前的虚拟世界。根据观察者在环境中的自由度，沉浸感有若干层次。点云是分布VR世界的良好格式候选。用于VR的点云可以是静态的或动态的，并且通常具有平均大小，例如一次不超过数百万个点。

点云也可用于各种目的，诸如文化遗产/建筑物，其中雕像或建筑物等对象以3D形式扫描，以便在不发送或不访问对象的情况下共享对象的空间配置。此外，点云也可以用于确保在对象可能被破坏的情况下保留对象的知识，例如被地震摧毁的寺庙。此类点云通常是静态的、彩色的并且非常大。

另一种用例是在地形图和制图中，其中使用3D表示，地图不限于平面并且可包括地形凹凸。谷歌地图是3D地图的良好示例，但其使用网格而不是点云。然而，点云可以是用于3D地图的合适数据格式，并且此类点云通常是静态的、彩色的并且非常大。

经由点云的世界建模和感测可以是一种允许机器获得关于它们周围的3D世界的认知的有用的技术，用于本文讨论的应用。

3D点云数据是对象或场景的表面上的基本上离散的样本。实际上，要使用点样本完全表示现实世界，在实践中需要大量的点。例如，典型的VR沉浸式场景包含数以百万计的点，而点云通常包含数以亿计的点。因此，处理如此大规模的点云在计算上是昂贵的，特别是对于计算能力有限的消费设备，例如，智能手机、平板计算机和汽车导航系统。

为了对点云执行处理或推断，需要高效的存储方法。为了以可负担的计算成本存储和处理输入点云，一种解决方案是首先对点云进行降采样，其中被降采样的点云概括输入点云的几何形状，同时具有少得多的点。被降采样的点云然后被馈送到后续机器任务以供进一步利用。然而，可以通过经由用于无损压缩的熵编码技术将原始点云数据(原始的或降采样的)转换为位流来实现存储空间的进一步减少。更好的熵模型产生更小的位流，因此产生更有效的压缩。另外，熵模型也可以与下游任务配对，这些下游任务允许熵编码器在压缩时维持任务特定信息。

除了无损编码之外，许多情形寻求有损编码以显著改善压缩率，同时在特定质量水平下保持诱导失真。

点云表示

最近出现了基于学习的点云压缩。根据点云表示格式，现有方法主要可分为三类：基于点的、基于体素的和基于八叉树的，如图2A、图2B、图2C和图2D所示。

基于点的表示

在如图2A所示的基于原生点的表示中，点由其在3D中的坐标直接指定，并且没有定义点大小。

基于八叉树的表示

在如图2B所示的基于八叉树的表示中，整个空间，即3D边界框，被递归地分割成八叉树结构以表示点云。如果边界框具有1×1×1的比例，则八叉树叶节点对应于大小等于1/(2^d)×1/(2^d)×1/(2^d)的点，其中索引d表示从0开始计数的八叉树中的深度级别。

在八叉树分解树中，根节点覆盖整个3D边界框。3D空间在每个方向(即，x方向、y方向和z方向)上均等地分割，从而产生八(8)个体素。对于每个体素，如果在其中存在至少一个点，则将该体素标记为被占用，用“1”表示；否则，将其标记为空，用“0”表示。然后通过指示占用信息的8位整数来描述八叉树根节点。

为了从八叉树级别移动到下一个，以相同的方式将每个被占用体素的空间进一步分割成八(8)个子体素。如果被占用，则每个子体素进一步由8位整数表示。被占用体素的分割继续直到达到最后一个八叉树深度级别。八叉树的叶子最终表示点云。

基于八叉树的点云压缩算法的目标是使用熵编码器对八叉树节点进行编码。对于八叉树节点的有效熵编码，通常利用概率分布模型来为以较高概率出现的八叉树结点值分配较短的符号。解码器可以从解码的八叉树节点重构点云。

基于体素的表示

在如图2C所示的基于体素的表示中，通过量化步骤对3D点坐标进行均匀量化。每个点对应于被占用的体素，其大小等于量化步长。

由于大的空的空间，朴素的体素表示在存储器使用方面可能不高效。然后引入稀疏体素表示，其中被占用的体素以稀疏张量格式排列，以进行有效的存储和处理。稀疏体素表示的示例在图2D中进行描绘，其中空体素不消耗任何存储器或存储装置。

注意，即使使用稀疏体素表示，体素也以有组织的方式排列。

常规地，存在三大类用于点云的表示。每类点云表示具有特定的编码/解码骨干，如何将不同的处理骨干集成到统一的处理或编码框架中还没有得到很好的探索。

在下文，我们将根据所使用的点云表示来回顾处理点云压缩的一些先前工作。

基于八叉树的点云压缩

深度熵模型是指一类基于学习的方法，其尝试使用神经网络模块来制定上下文模型以预测节点占位值的概率分布。

一种深度熵模型被称为OctSqueeze，如Huang、Lila等人在IEEE/CVF计算机视觉和模式识别会议论文集，2020中的名称为“OctSqueeze:Octree-Structured Entropy Modelfor LiDAR Compression(OctSqueeze:用于LiDAR压缩的八叉树形结构熵模型)”的文章中所描述的。它以分层方式利用包括父节点、祖父节点等在内的祖先节点。三个基于MLP(多层感知器)的神经网络模块正在使用中。第一MLP模块将当前节点的上下文作为输入以生成输出特征。第二MLP模块采用两个此类第一MLP模块的输出特征，这两个第一MLP模块中的一个第一MLP模块来自当前八叉树深度级别，另一个第一MLP模块来自父八叉树深度级别。第二MLP模块还生成输出特征。最后的第三MLP模块采用两个此类第二MLP模块的输出特征，这两个此类第二MLP模块中的一个第二MLP模块来自当前八叉树深度级别，另一个第二MLP模块来自先前的八叉树深度级别。最后，第三MLP模块生成预测的概率分布。所估计的概率分布用于有效的算术编码。

另一个深度熵模型被称为VoxelContextNet，如Que、Zizheng等人在IEEE/CFF计算机视觉和模式识别会议论文集，第6042-6051页，2021中的名称为“VoxelContext-Net:AnOctree based Framework for Point Cloud Compression(VoxelContent-Net:基于八叉树的点云压缩框架)”的文章中所描述的那样。与使用祖先节点的OctSqueeze不同，VoxelContextNet采用使用空间相邻体素的方法来首先分析局部表面形状，然后预测概率分布。

在我们先前的工作中，我们提出了一种由自适应熵编码器组成的自监督压缩模型，该自适应熵编码器对树形结构条件熵模型进行操作。从八叉树结构中利用来自局部邻域以及全局拓扑的信息。

基于体素的点云压缩

考虑到2D卷积已成功应用于基于学习的图像压缩(见Ballé、Johannes等人的名称为“Variational Image Compression with a Scale Hyperprior(具有尺度超先验的变分图像压缩)”(arXiv预印本arXiv:1802.01436(2018))的文章))，3D卷积已被研究用于点云压缩。为此，点云需要由体素表示。

使用常规的3D卷积，3D核覆盖在由步幅指定的每个位置上，不管体素是被占用的还是空的，如Wang、Jianqiang等人在名称为“Learned Point Cloud GeometryCompression(学习点云几何形状压缩)”(arXiv预印本，arXiv:1909.12037(2019))的文章中所描述的那样。为了避免空体素的计算和存储器利用，可以应用稀疏卷积，并且点云体素由稀疏张量表示，如Wang、Jianqiang等人在数据压缩会议(DCC)，第73-82页，IEEE，2021中的名称为“Multiscale Point Cloud Geometry Compression(多尺度点云几何压缩)”的文章中所描述的那样。

然而，即使使用伴随稀疏张量的稀疏卷积，应用大卷积核通常也是低效的。这是因为卷积核的表示仍然是密集张量，并且当核大小增加时，可以将更多的核参数映射到空体素。这一事实导致训练效率低下，或甚至导致训练失败。在Wang中，稀疏卷积中使用的核大小仅为3×3×3。郭晓的核大小将导致小的感受野，并且进一步导致不太具有代表性的潜在描述符。

基于点的点云压缩

基于学习的点云压缩也已经用原生点云表示进行了研究。诸如多层感知器(MLP)等的基于点的架构用于此类框架中，例如，如Yan、Wei等人在名称为“Deep Autoencoder-Based Lossy Geometry Compression for Point Cloud(用于点云的基于深度自动编码器的有损几何压缩)”的文章(arXiv预印本arXiv:1905.03691(2019))(以下简称“Yan”)，以及Gao、Linyao等人在2021IEEE国际图像处理会议(ICIP)，第3373-3377页，IEEE，2021中的名称为“通过神经图采样进行点云几何压缩”的文章(以下简称为“Gao”)中所描述的那样。

在Yan中，编码器使用基于MLP的5层PointNet模块来提取点云的子采样集的特征向量。其解码器使用基于MLP的LatentGAN模块来重构点云。由于LatentGAN的设计，在不更新LatentGAN最后一层的维度的情况下，无法调整重构点云的大小。

在Gao中描述的编码期间，首先使用一种称为神经图采样(NGS)的方法部署两个下采样模块，神经图采样使用基于点的卷积。然后应用类似PointNet的模块来提取要进行熵编码的特征向量。

尽管从训练的角度来看，基于点的架构(MLP)可以更高效，但与基于体素或基于稀疏卷积的架构相比，现有的基于点的架构示出更有限的点云压缩性能。

在该工作中，我们提出了旨在充分利用不同类型的点云压缩方法的混合编码框架。每种类型的方法都以处理点坐标的特定位级别为目标。

考虑到具有高位深度(即D位)的点云，我们提出对不同的位级别使用不同的编码策略。令索引d表示八叉树分解的位级别或对应的深度级别。对于最高有效位或根级别，我们有d＝0。图3示出了在该工作中如何对具有D＝18位的坐标号的位进行索引的图示。

我们提出了以下混合编码框架：对于前几个位，即d＝0，…，d_a-1，使用基于树的编码策略，例如基于八叉树的编码方法。没有必要进行下采样或抽象。对于接下来的几个位，即d＝d_a，…，d_b-1，存在大量被占用的体素，并且体素通常彼此连接。因此，使用基于体素的编码策略，例如常规卷积或稀疏卷积。对于最后几个位，即d＝d_b，…，D-1，点是非常稀疏的，常规卷积或稀疏卷积将由于缺乏合理的相邻体素或点而失败。因此，使用了基于点的编码策略，例如多层感知器(MLP)。在下文，我们详细说明了所提出的混合编码和解码过程。

编码

在编码器侧，根据输入点云的特性来确定位级别参数(d_a,d_b)。所选择的位级别参数(d_a,d_b)和总位深度D需要为解码器所知，例如，经由序列参数集、图片参数集或补充增强信息(SEI)消息来传输。

图4示出了根据实施方案的实现所提出的编码过程的框图。具体地，“DB”块(410)主要基于输入点云的特性来确定参数(d_a,d_b)。可以根据经验来选择参数d_a，例如，d_a＝7。它可以通过在位级别检查被占用的体素的数量来选择，例如，当该数量开始超过预定义阈值时。为选择d_b，要检查体素密度(被占用的体素的密度)。计算从前一位级别的体素密度增加比率。当比率开始下降到阈值以下时，当前级别被设置为d_b。基本上，来自级别d_b的剩余位将主要有助于提高点精度，而点密度不增加。(d_a,d_b)的参数选择通常确保有足够的相邻体素来对d_a和d_b-1级别执行有意义的卷积计算。此外，“DB”块还可以将一些配置参数作为输入，以共同决定参数(d_a,d_b)。例如，配置参数可以定义编解码器操作的速率点。通常，较高的位率将导致d_a和d_b的值较高。

“PN”(420)、“VN”(430)和“ON”(440)块的具体设计可与所提供的示例不同，但是它们被提出考虑三个不同的位级别。“PN”块(420)专用于对最后几个位进行编码，即D-1与d_b之间的位。由于该范围内的点非常稀疏，因此“PN”块被提出使用基于点的特征提取，例如，该基于点的特征提取主要基于MLP网络层。相反，“VN”块(430)用于对d_b-1与d_a之间的位进行编码。提出使用基于体素的特征提取模块。“ON”块设计成对d_a-1与0之间的第一d_a位进行编码。例如，提出针对几何形状信息使用基于树的编码，并且针对相关特征使用算术编码。这三个块对应于适用于不同位级别的三种编码模式。在下文，我们将介绍这三个块的一些示例具体实施。

“PN”块是基于点的特征提取模块(编码模块)，它将处理D-1与d_b之间的位。“PN”块的示例设计如图5所示，其中它主要由几个MLP层组成。对于输入点云PC，首先通过量化步骤Q对其进行量化(510)，以输出具有(d_b-1)位的位深度和n个点的点云PCv。然后，最近邻模块NN(520)从PC中查找PCv中每个点的k个最近邻，并且为PCv中的n个点中的每个点形成n个点集PCv,₁，PCv,₂，…，PCv。然后，将这n个点集馈送到一系列逐点MLP层(530)以提取逐点特征，之后进行全局最大池化(540)，并且将这n个点集馈送到另一系列MLP层(550)以提取PCv中的每个点的基于点的特征Fv＝{fv,₁,fv,₂,…,fv,n}。点云PC_V中的点的数量可以非常接近于从LiDAR传感器捕获的点云的输入点云PC中的点的数量。事实上，类似数量的点是由于此类点云的最后几位中的高稀疏性。点云PCv和特征Fv两者都被输出(Fv可以被视为PCv中的点的属性)。注意，PCv表示降低精度的输入点云PC(位深度0到d_b-1)，并且Fv是表示位深度d_b到D-1处的详细信息的特征。也就是说，输出PC_V中的每个点现在都与通过神经网络模块“PN”提取的基于点的特征相关联。使用PN模块，来自原始输入PC的细节现在表示为PCv的逐点特征。因此，尽管PCv是量化的点云，但它在相关联的特征(Fv)中包含来自PC的详细信息。

PC_V然后被馈送到“VN”块(430)作为输入。与对基于点的表示进行操作的“PN”块不同，“VN”块对体素进行操作，并且因此PCv被转换为在体素网格中表示，并且Fv中的相应特征作为属性与体素相关联。“VN”块使用常规卷积或稀疏卷积作为处理骨干。图6示出了“VN”块的示例设计。该“VN”块由几个子块(610,620,630)组成，其中每个子块(610,620,630)由用于特征提取的卷积层、下采样函数和ReLU激活函数组成。

注意，在该示例中，每个下采样函数的下采样比率被设置为1/2。注意，每次下采样都会将空间分辨率降低一半，从而有效地将位深度降低1。子块可以使用其他类型的激活函数，诸如逻辑sigmoid和tanh。卷积层大小(核大小和输出信道的数量)也可以不同。

由于“VN”块旨在对从d_a到d_b的位深度进行编码，因此子块的数量由差值(d_b-d_a)确定。每个子块还为下采样的点云输出更抽象的特征。最后，“VN”块输出较低分辨率的点云PC_O和一组抽象特征Fo。这些特征与PC_O中的每个点相关联。在降低的空间分辨率下，PCo可以被视为PCv的更抽象的版本，并且PCo比PCv更稀疏。此外，PCo具有与其点中的每个点相关联的一组特征Fo。作为输入点云PC的粗略版本，PC_O仅具有d_a位的位深度。

然后将PC_O作为输入提供给“ON”块(440)。“ON”块的示例如图7所示。使用基于八叉树的编码器或另一基于树的点云编码器以无损方式将PC_O的几何位置编码成位流。在一个具体实施中，“ON”块使用自适应算术编码器(720)对由八叉树分割器(710)生成的八叉树节点符号进行编码。在另一实施方案中，它可以利用深度熵模型来增强八叉树编码的算术编码效率。在又一实施方案中，可以应用不同的树形结构，例如，QTBT树(四分之一树和二叉树)或KD树等。另外，与PC_O相关联的特征Fo被量化(730)，然后也使用另一自适应算术编码器编码到位流中(740)。在一个实施方案中，可以通过利用因式先验模型或超先验模型来增强Fo的编码。在图7中，生成了两个位流。应当注意，这两个位流可以被复用为一个位流。

解码

根据一个实施方案，在图8中示出了所提出的解码过程。这是编码的逆过程。与编码器相对应，解码器获得包括位总数D以及位划分位置d_a和d_b的参数集。然后，解码器根据位总数D和位划分位置d_a和d_b配置解码器的网络，然后按顺序调用解码过程：

-使用基于树的解码块对粗略点云PCo及其相关联的逐点特征进行解码；

-将粗略点云上采样为更密集的点云PC’_V，并且使用基于体素的解码块更新逐点特征；并且

-并且使用基于点的解码块将密集但低位深度点云(PC’_V)的坐标的精度细化到高位深度点云PC’。

更一般地，点云PCo可以被视为点云的第一重构版本，点云PC’_V可以被视为点云的第二重构版本，并且点云PC’可以被视到点云的第三重构版本。从第一版本PCo到第二版本PC’_V，点会变得更密集，并且从第二版PC’_V到第三版本PC’，点云的坐标精度变得细化。

在该实施方案中，所提出的解码器首先接收参数集，以根据参数(d_a,d_b)和总位深度D来配置解码过程。然后，该解码过程根据解析的参数进行。

首先，块“ON^*”(810)使用基于树的解码来重构作为点云PCO的粗略重构PC_O的第一d_a位。图9示出了块“ON*”的示例设计。熵解码器(910)和八叉树去分割器(920)用于重构PC_O。“ON*”还通过熵解码器(930)和去量化器(940)对PC_O中的每个点的逐点特征F’o集进行解码。

PC_O和特征F’o然后作为输入被馈送到下一块“VN^*”(820)。块“VN^*”的结构是基于参数(d_a,d_b)配置的。图10示出了块“VN*”的示例设计。与编码器侧相同，在块“VN^*”中有(d_b-d_a)个子块(1010,1020,1030)，其中每个子块(1010,1020,1030)执行上采样、基于体素的卷积和ReLU激活函数，以从PCo逐步获得点云PC’v(PCv的重构)。在该示例中，上采样函数的上采样比率被设置为2。注意，与PC’v的每个点相关联的特征F’v也由VN^*输出。在一个实施方案中，“VN^*”可以利用稀疏卷积。

PC’_V最终被发送到块“PN^*”(830)，以重构从d_b到D-1的最后几个位，从而获得最终重构的点云PC’。块“PN^*”被提出使用基于点的架构。图11示出了块“PN^*”的示例设计。在一个实施方案中，它可以通过LatentGAN网络或几个MLP层来实现，以细化点的精度。假设PC’v具有n’个点，则MLP层(1110)将特征F’v作为输入，然后输出一组偏移坐标{s₁,s₂,…,s_n’}，每个偏移坐标对应于PC’v中的一个点。通过将偏移坐标与PC’v中的相关联的点相加(1120,1130,1140)，获得具有n’个点的重构点云PC’。在另一实施方案中，MLP层可以被配置为针对PC’v中的每个点输出两个或更多个偏移点。然后，通过将所有偏移与PC’v中的相关联的点相加，可以获得具有多于n’个点的重构点云PC’。在这种情况下，重构的点云PC’不仅比PC’v具有更高的精度，而且比PC’v更密集。

广义混合编码框架

在上文中，我们描述了基于三个不同的位级别范围的混合编码框架。在下文，我们将呈现一些扩展的混合编码框架。

空间渐变编码

在一个实施方案中，我们提出将三个位级别集推广到三个空间分辨率。每个空间分辨率对应于输入点云上的不同量化步长。

假设输入点云仍然由D位整数表示。先前使用的d_a和d_b位级别分别对应于两个量化步骤Q_a＝pow(2,D-d_a-1)和Q_b＝pow(2,D-d_b-1)。利用广义混合编码框架，可以更灵活地选择Q_a和Q_b，而不一定是2的幂。

简化混合编码

在一个实施方案中，不一定包括所有三个编码模块。相反，它可能仅具有两个编码模块。例如，如果目标点云非常密集，我们可能仅需要如图12所示的“ON”块和“VN”块。当使用如图6所示的VN块时，可以假设Fv被填充有1s。在这种情况下，解码器仅需要用两个参数d_a和D发信号通知，如图13所示。另一方面，当目标点云稀疏时，我们可以仅使用“ON”块和“PN”块，其中“PN”块对于处理输入点云的稀疏性质特别有效。类似地，在这种情况下，解码器仅需要用两个参数d_a和D发信号通知。

复杂度可扩展解码

当位流被提供给解码器时，解码器可以决定在哪个步骤停止解码过程。解码的提前停止将导致更粗糙的点云，但是解码消耗更少的计算成本。

图14示出了根据一实施方案的对点云数据进行编码的方法。在该实施方案中，对于要编码的点云或点云的一部分，编码器使用第一编码策略对第一数据集进行编码(1410)，其中第一数据集对应于点云数据的第一位级别子集。编码器然后使用第二编码策略对第二数据集进行编码(1420)，其中第二数据集合对应于点云数据的第二位级别子集。点云可以仅用两个数据集进行编码，其中第一数据集包含最高有效位，第二数据集包含其余位。第一编码策略和第二编码策略可以分别是基于八叉树的编码和基于点的网络。

编码器可以将点云划分为更多的数据集。当点云数据被划分为三个数据集时，第一数据集包含最高有效位，第三数据集包含最低有效位，并且第二数据集包含其余位。编码器使用第三编码策略对第三数据集进行编码(1430)。如前所述，第一编码策略、第二编码策略和第三编码策略可以分别是基于八叉树的编码、基于体素的编码和基于点的网络。

图15示出了根据一实施方案的用于对点云数据进行解码的方法。在该实施方案中，对于要解码的点云或点云的一部分，解码器使用第一解码策略对第一数据集进行解码(1510)，其中第一数据集对应于点云数据的第一位级别子集。解码器然后使用第二解码策略对第二数据集进行解码(1520)，其中第二数据集合对应于点云数据的第二位级别子集。点云可以仅由两个数据集组成，其中第一数据集包含最高有效位，第二数据集包含其余位。第一解码策略和第二解码策略可以分别是基于八叉树的解码和基于点的网络。

点云可以包含更多的数据集。当点云数据被划分为三个部分时，第一数据集包含最高有效位，第三数据集包含最低有效位，并且第二数据集包含其余位。解码器使用第三解码策略对第三数据集进行解码(1530)。如前所述，第一解码策略、第二解码策略和第三解码策略可以分别是基于八叉树的解码、基于体素的解码和基于点的网络。

在本申请中使用各种数值。具体值是为了示例目的，并且各方面不限于这些具体值。

本文描述了各种方法，并且每种方法包括用于实现方法的一个或多个步骤或动作。除非正确操作方法需要特定顺序的步骤或动作，否则可以修改或组合特定步骤和/或动作的顺序和/或用途。此外，术语诸如“第一”、“第二”等可用于各种实施方案以修改元件、分量、步骤、操作等，诸如“第一解码”和“第二解码”。除非具体要求，否则使用此类术语并不暗示对修改操作的排序。因此，在这个示例中，第一解码不需要在第二解码之前执行，并且可例如在第二解码之前、期间或在重叠的时间段中发生。

本文所述的具体实施和方面可在例如方法或过程、装置、软件程序、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如，仅作为方法讨论)，讨论的特征的具体实施也可以其他形式(例如，装置或程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的装置(例如，处理器)中实施，该处理器包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备，例如计算机、手机、便携式/个人数字助理(“PDA”)以及便于最终用户之间信息通信的其他设备。

对“一个实施方案”或“实施方案”或“一个具体实施”或“具体实施”的引用以及它们的其他变型，意味着结合实施方案所描述的特定的特征、结构、特性等被包括在至少一个实施方案中。因此，短语“在一个实施方案中”或“在实施方案中”或“在一个具体实施中”或“在具体实施中”的出现以及出现在整篇本申请的各个地方的任何其他变型不一定都是指相同的实施方案。

另外地，本申请可涉及“确定”各种信息片段。确定信息可包括例如估计信息、计算信息、预测信息或从存储器检索信息中的一者或多者。

此外，本申请可涉及“访问”各种信息片段。访问信息可包括例如接收信息、(例如，从存储器)检索信息、存储信息、移动信息、复制信息、计算信息、确定信息、预测信息或估计信息中的一者或多者。

另外地，本申请可以涉及“接收”各种信息片段。与“访问”一样，接收旨在为广义的术语。接收信息可包括例如访问信息或检索信息(例如，从存储器)中的一者或多者。此外，在操作期间“接收”通常以一种方式或另一种方式涉及，例如存储信息、处理信息、传输信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息。

应当理解，例如，在“A/B”、“A和/或B”以及“A和B中的至少一者”的情况下，使用以下“/”、“和/或”和“至少一种”中的任一种旨在涵盖仅选择第一列出的选项(A)，或仅选择第二列出的选项(B)，或选择两个选项(A和B)。作为进一步的示例，在“A、B和/或C”和“A、B和C中的至少一者”的情况下，此类短语旨在涵盖仅选择第一列出的选项(A)，或仅选择第二列出的选项(B)，或仅选择第三列出的选项(C)，或仅选择第一列出的选项和第二列出的选项(A和B)，或仅选择第一列出的选项和第三列出的选项(A和C)，或仅选择第二列出的选项和第三列出的选项(B和C)，或选择所有三个选项(A和B和C)。如对于本领域及相关领域普通技术人员而言显而易见的是，这可以扩展到所列出的尽可能多的项目。

对于本领域的普通技术人员将显而易见的是，具体实施可产生格式化为携带例如可存储或可传输的信息的多种信号。信息可包括例如用于执行方法的指令或由所述具体实施中的一个具体实施产生的数据。例如，可格式化信号以携带该实施方案的位流。此类信号可格式化为例如电磁波(例如，使用频谱的射频部分)或基带信号。格式化可包括例如对数据流进行编码并且使用经编码的数据流调制载体。信号携带的信息可为例如模拟或数字信息。众所周知，信号可通过多种不同的有线或无线链路传输。信号可存储在处理器可读介质上。

Claims

1.一种对用于点云的点云数据进行解码的方法，所述方法包括：

使用第一解码策略对第一数据集进行解码，其中所述第一数据集对应于所述点云数据的第一位级别子集；并且

使用第二解码策略对第二数据集进行解码，其中所述第二数据集对应于所述点云数据的第二位级别子集。

2.根据权利要求1所述的方法，其中所述第一数据集对应于所述点云的第一版本，并且其中所述第二数据集对应所述点云的第二版本，所述点云的所述第二版本比所述点云的所述第一版本更密集。

3.根据权利要求1或2所述的方法，其中所述第一位级别子集是位级别0至d_a–1，并且所述第二位级别子集是位级别d_a至d_b–1，其中位0表示最高有效位，d_a和d_b是整数，并且d_a<d_b。

4.根据权利要求3所述的方法，其中d_b等于D，其中D表示所述点云数据的总位深度，并且位D-1表示最低有效位。

5.根据权利要求1至4中任一项所述的方法，其中所述第一解码策略是无损解码策略。

6.根据权利要求1至5中任一项所述的方法，其中所述第二解码策略是基于体素的解码策略或基于点的解码策略。

7.根据权利要求6所述的方法，其中所述基于体素的解码策略包括：

多个子块，其中所述多个子块中的每个子块包括上采样函数、卷积层和激活函数，并且其中所述多个子块中的子块的数量与所述第二位级别子集中的位级别的数量相同。

8.根据权利要求1至7中任一项所述的方法，其中所述第一解码策略的输出用作所述第二解码策略的输入。

9.根据权利要求1至8中任一项所述的方法，所述方法进一步包括：

使用第三解码策略对第三数据集进行解码，其中所述第三数据集对应于所述点云数据的第三位级别子集。

10.根据权利要求9所述的方法，其中所述第三数据集对应于所述点云的第三版本，所述点云数据的所述第三版本细化所述点云的所述第二版本的坐标的精度。

11.根据权利要求9或10所述的方法，所述方法进一步包括：

确定所述第三数据集要被解码，其中所述第三数据集的所述解码仅响应于所述第三数据集要被解码而执行。

12.根据权利要求9至11中任一项所述的方法，其中所述第三位级别子集是位级别d_b至D-1，其中D表示所述点云数据的总位深度，并且位D-1表示最低有效位。

13.根据权利要求9至12中任一项所述的方法，其中所述第三解码策略是基于点的解码策略。

14.根据权利要求13所述的方法，其中所述基于点的解码策略包括：

获得特征集和重构的点云的初始版本；

从所述特征集生成所述重构的点云的初始版本中的每个点的偏移坐标；并且

用所述偏移坐标细化所述重构的点云的初始版本的坐标。

15.根据权利要求14所述的方法，其中多层感知器(MLP)层或LatentGAN网络用于生成所述偏移坐标。

16.根据权利要求9至15中任一项所述的方法，其中所述第二解码策略的输出用作所述第三解码策略的输入。

17.根据权利要求3至16中任一项所述的方法，所述方法进一步对指示D、d_a和d_b中的一者或多者的值的信息进行解码。

18.根据权利要求1至17中任一项所述的方法，所述方法进一步包括：

确定所述第二数据集要被解码，其中所述第二集的所述解码仅响应于所述第二数据集要被解码而执行。

19.一种对用于点云的点云数据进行编码的方法，所述方法包括：

使用第一编码策略对第一数据集进行编码，其中所述第一数据集对应于所述点云数据的第一位级别子集；并且

使用第二编码策略对第二数据集进行编码，其中所述第二数据集对应于所述点云数据的第二位级别子集。

20.根据权利要求19所述的方法，其中所述第一数据集对应于所述点云的第一版本，并且其中所述第二数据集对应所述点云的第二版本，所述点云的所述第二版本比所述点云的所述第一版本更密集。

21.根据权利要求19或20所述的方法，其中所述第一位级别子集是位级别0至d_a–1，并且所述第二位级别子集是位级别d_a至d_b–1，其中位0表示最高有效位，d_a和d_b是整数，并且d_a<d_b。

22.根据权利要求21所述的方法，其中d_a的值是基于位级别处的被占用体素的数量和配置参数中的至少一者来选择的。

23.根据权利要求21所述的方法，其中d_b等于D，其中D表示所述点云数据的总位深度，并且位D-1表示最低有效位。

24.根据权利要求20至23中任一项所述的方法，其中d_b的值是基于位级别处的体素密度增加比率或配置参数来选择的。

25.根据权利要求19至24中任一项所述的方法，其中所述第一编码策略是无损编码策略。

26.根据权利要求19至25中任一项所述的方法，其中所述第二编码策略是基于体素的编码策略。

27.根据权利要求26所述的方法，其中所述基于体素的编码策略包括：

多个子块，其中所述多个子块中的每个子块包括卷积层、下采样函数和激活函数，并且其中所述多个子块中的子块的数量与所述第二位级别子集中的位级别的数量相同。

28.根据权利要求19至27中任一项所述的方法，其中所述第二编码策略的输出用作所述第一编码策略的输入。

29.根据权利要求19至28中任一项所述的方法，所述方法进一步包括：

使用第三编码策略对第三数据子集进行编码，其中所述第三数据子集对应于所述点云数据的第三位级别子集。

30.根据权利要求29所述的方法，其中所述第三数据集对应于所述点云的第三版本，所述点云的所述第三版本比所述点的所述第二版本具有更高的坐标精度。

31.根据权利要求29或30所述的方法，其中所述第三位级别子集是位级别d_b至D-1，其中D表示所述点云数据的总位深度，并且位D-1表示最低有效位。

32.根据权利要求29至31中任一项所述的方法，其中所述第三编码策略是基于点的编码策略。

33.根据权利要求32所述的方法，其中所述基于点的编码策略包括：

量化所述点云的所述点云数据，以在d_b-1的位深度处形成另一点云；并且

对于所述另一点云中的每个点，使用所述点云中的k个最近邻来提取相应的特征。

34.根据权利要求32或33所述的方法，其中多层感知器(MLP)层用于提取所述相应特征。

35.根据权利要求21至34中任一项所述的方法，所述方法进一步对指示D、d_a和d_b中的一者或多者的值的信息进行编码。

36.根据权利要求29至35中任一项所述的方法，其中所述第三编码策略的输出用作所述第二编码策略的输入。

37.一种装置，所述装置包括一个或多个处理器和耦接到所述一个或多个处理器的至少一个存储器，其中所述一个或多个处理器被配置为执行根据权利要求1至36中任一项所述的方法。

38.一种包括视频数据的信号，所述包括视频数据的信号通过执行根据权利要求19至36中任一项所述的方法形成。

39.一种计算机可读存储介质，所述计算机可读存储介质在其上存储有用于根据权利要求1至36中任一项所述的方法对点云进行编码或解码的指令。