CN116803082A - 一种用于点云处理的装置和方法 - Google Patents

一种用于点云处理的装置和方法 Download PDF

Info

Publication number
CN116803082A
CN116803082A CN202280013030.9A CN202280013030A CN116803082A CN 116803082 A CN116803082 A CN 116803082A CN 202280013030 A CN202280013030 A CN 202280013030A CN 116803082 A CN116803082 A CN 116803082A
Authority
CN
China
Prior art keywords
current node
tree
block
node
point cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280013030.9A
Other languages
English (en)
Inventor
M·A·洛迪
庞家豪
田东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital Patent Holdings Inc
Original Assignee
InterDigital Patent Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by InterDigital Patent Holdings Inc filed Critical InterDigital Patent Holdings Inc
Publication of CN116803082A publication Critical patent/CN116803082A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/40Tree coding, e.g. quadtree, octree
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种用于处理点云信息的方法、装置或系统可以涉及用于3D点云数据的无损压缩/解压缩的在八叉树上的学习深度熵模型,其中,自监督的压缩/解压缩涉及自适应熵编码器,自适应熵编码器对树形结构条件熵模型进行操作并且利用来自局部邻域的信息以及来自树形结构的全局拓扑。

Description

一种用于点云处理的装置和方法
技术领域
本公开涉及点云处理。
背景技术
点云是跨若干商业领域的通用数据格式,从自主驾驶、机器人、AR/VR、土木工程、计算机图形到动画/电影产业。3D激光雷达传感器已部署在自动驾驶汽车中,并且VelodyneVelabit、Apple iPad Pro 2020和Intel RealSense LIDAR相机L515提供负经济实惠的激光雷达传感器。随着感测技术的巨大进步,3D点云数据变得比以往更加实用,并有望成为上述应用的最终推动者。
此外,点云可表示包含多个移动对象的相同场景的顺序扫描。与从静态场景或静态对象捕获的静态点云相比,它们被称为动态点云。动态点云通常被组织成帧,其中不同的帧在不同的时间被捕获。
汽车工业和自动驾驶汽车是可使用点云的领域。自动驾驶汽车应该能够“探测”其环境,以基于其周围环境的实际情况作出良好的驾驶决策。激光雷达等典型传感器会生成供感知引擎使用的(动态)点云。这些点云并非旨在被人眼看到,并且它们通常是稀疏的,不一定是彩色的,并且是动态的,具有高的捕获频率。点云可具有其他属性,如由LIDAR提供的反射率,因为该属性指示被感测对象的材料,并且可有助于作出决策。
许多人将虚拟现实(VR)和沉浸式世界视为视频的未来,即不仅仅是2D平面视频。基本思想是让观众沉浸在周围环境中,而不是在标准电视中观众只能看到观众面前的虚拟世界。根据观察者在环境中的自由度,沉浸感有若干层次。点云是分布VR世界的良好格式候选。它们可以是静态的或动态的,并且通常具有平均大小,比如一次不超过数百万个点。
点云还可用于各种目的,例如,文化遗产/建筑物,其中,雕像或建筑物等对象以3D形式扫描,以便在不发送或访问对象的情况下共享该对象的空间配置。此外,这是一种确保保存物体知识的方法,以防物体被摧毁,例如,寺庙被地震摧毁。此类点云通常是静态的、彩色的并且非常大。
另一种用例是地形和制图,其中,使用3D表示可以使地图不限于平面,并且可以包括地形特征。谷歌地图是3D地图的一个示例,但使用网格而不是点云。然而,点云可以是用于3D地图的合适的数据格式,并且此类点云通常是静态的、有色的并且较大的数据集。
经由点云进行世界建模和感测可用于使机器能够获得有关其周围3D世界的知识,这对于启用或推进各种应用(例如,上面讨论的应用)非常有用。
发明内容
通常,实施方案的至少一个示例涉及在树形结构(例如,八叉树)上学习的深度熵模型,用于3D点云数据的无损压缩。通常,实施方案的至少一个示例可涉及基于自适应熵编码器的自监督压缩,该自适应熵编码器对树形结构条件熵模型进行操作。可以从树形结构利用来自局部邻域以及全局拓扑的信息。通常,实施方案的至少一个示例可涉及基于块的压缩方案,该方案可促进并行处理且例如减少所需的计算及时间资源。这种资源需求的减少对于处理密集的大量点云等应用是非常有用的。
通常,实施方案的至少一个示例可涉及一种装置,所述装置包括:至少一个处理器,所述至少一个处理器被配置为:接收编码比特流,所述编码比特流包括表示点云的压缩数据,其中,所述压缩数据是基于树形结构压缩的;对所述编码比特流进行解码,其中,对所述编码比特流进行解码包括所述至少一个处理器还被配置为:针对所述树的至少一个节点,从所述树形结构的根节点开始:从所述比特流中获得针对所述树形结构的当前节点的数据,初始化所述当前节点的默认上下文;基于来自所述当前节点的上下文信息和来自一个或多个可用相邻节点以及来自所述当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测所述当前节点的占用符号分布;基于所述占用符号分布,使用自适应熵解码器来对所述当前节点的所述占用符号进行解码;基于针对所述树形结构的至少一个节点的所述经解码的占用符号来确定扩展树。
通常,实施方案的至少一个示例可涉及一种方法,所述方法包括:接收编码比特流,所述编码比特流包括表示点云的压缩数据,其中,所述压缩数据是基于树形结构压缩的;对所述编码比特流进行解码,其中,所述解码包括:针对所述树的至少一个节点,从所述树的根节点开始:从所述比特流中获得针对所述树的当前节点的数据;初始化所述当前节点的默认上下文;基于来自所述当前节点的上下文信息和来自一个或多个可用相邻节点以及来自所述当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测所述当前节点的占用符号分布;基于所述占用符号分布,使用自适应熵解码器来对所述当前节点的所述占用符号进行解码;基于针对所述树形结构的至少一个节点的所述经解码的占用符号来确定扩展树。
通常,实施方案的至少一个示例可以涉及一种装置,所述装置包括:至少一个处理器,所述至少一个处理器被配置为压缩表示点云的数据;提供包括所述压缩数据的组合编码比特流,其中,所述至少一个处理器被配置为压缩所述数据,包括所述至少一个处理器还被配置为:将包括在表示所述点云的所述数据中的原始点云几何数据转换为树表示;初始化所述树中所有节点的上下文;针对所述树的至少一个节点,从所述树形结构的根节点开始:基于来自所述当前节点的上下文信息和来自一个或多个相邻节点以及来自所述当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测所述树中的当前节点的占用符号分布;基于所述预测的占用分布,使用自适应熵编码器将用于所述当前节点的占用符号编码为表示所述当前节点的编码比特流;组合表示每个节点的所述编码比特流,以形成所述组合编码比特流,其中,所述组合编码比特流表示所述树。
通常,实施方案的至少一个示例可涉及一种方法,所述方法包括:压缩表示点云的数据;提供包括所述压缩数据的组合编码比特流,其中,所述压缩包括将包括在表示所述点云的所述数据中的原始点云几何数据转换为树表示;初始化所述树中所有节点的上下文;针对所述树的至少一个节点,从所述树形结构的根节点开始:基于来自所述当前节点的上下文信息和来自一个或多个相邻节点以及来自所述当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测所述树中的当前节点的占用符号分布;基于所述预测的占用分布,使用自适应熵编码器将用于所述当前节点的占用符号编码为表示所述当前节点的编码比特流;组合表示每个节点的所述编码比特流,以形成所述组合编码比特流,其中,所述组合编码比特流表示所述树。
通常,实施方案的至少一个示例可涉及一种装置,所述装置包括:至少一个处理器,所述至少一个处理器被配置为:接收编码比特流,所述编码比特流包括表示点云的压缩数据,其中,所述压缩数据是根据基于块的树形结构压缩的;对所述编码比特流进行解码,其中,对所述编码比特流进行解码包括所述至少一个处理器还被配置为从所述编码比特流中获得分区比特流和一个或多个块比特流两者;对所述分区比特流进行解码,以恢复指示所述点云数据的块结构的浅分区,其中,所述块结构中的每个块包括表示基于所述树形结构压缩的所述点云的所述数据的一部分;对于每个块,通过以下方式解压缩所述块比特流:针对与所述块相关联的所述树形结构的至少一个节点,从所述树形结构的根节点开始:从所述比特流中获得针对所述树的当前节点的数据;初始化所述当前节点的默认上下文;基于来自所述当前节点的上下文信息和来自一个或多个可用相邻节点以及来自所述当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测所述当前节点的占用符号分布;基于所述占用符号分布,使用自适应熵解码器来对所述当前节点的所述占用符号进行解码;基于针对所述树形结构的至少一个节点的所述经解码的占用符号来确定所述块的扩展树。组合每个块的所述扩展树,以提供所述点云的扩展树。
通常,实施方案的至少一个示例可涉及一种方法,所述方法包括:接收编码比特流,所述编码比特流包括表示点云的压缩数据,其中,所述压缩数据是根据基于块的树形结构压缩的;对所述编码比特流进行解码,其中,所述解码包括:从所述编码比特流中获得分区比特流和一个或多个块比特流两者;对所述分区比特流进行解码,以恢复指示所述点云数据的块结构的浅分区,其中,每个块包括表示基于所述树形结构压缩的所述点云的所述数据的一部分;对于每个块,通过以下方式解压缩所述块比特流:针对与所述块相关联的所述树形结构的至少一个节点,从所述树形结构的根节点开始:从所述比特流中获得针对所述树的当前节点的数据;初始化所述当前节点的默认上下文;基于来自所述当前节点的上下文信息和来自一个或多个可用相邻节点以及来自所述当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测所述当前节点的占用符号分布;基于所述占用符号分布,使用自适应熵解码器来对所述当前节点的所述占用符号进行解码;基于针对所述树形结构的至少一个节点的所述经解码的占用符号来确定所述块的扩展树。组合每个块的所述扩展树,以提供所述点云的扩展树。
通常,实施方案的至少一个示例可以涉及一种装置,所述装置包括:至少一个处理器,所述至少一个处理器被配置为压缩表示点云的数据;提供包括所述压缩数据的组合编码比特流,其中,所述至少一个处理器被配置为压缩所述数据,包括所述至少一个处理器还被配置为:基于浅树形结构,将包括在表示所述点云的所述数据中的原始点云几何数据转换为数据块;移位每个数据块的原点,以将每个块中的数据的原始坐标移位到局部块坐标;将每个块转换为单独的树形结构;初始化每个块中的所有节点的上下文;针对块的所述树的至少一个节点,从所述树形结构的根节点开始,通过以下方式来压缩每个块的数据:基于来自所述当前节点的上下文信息和来自一个或多个相邻节点以及来自所述当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测所述树中的当前节点的占用符号分布;基于所述预测的占用分布,使用自适应熵编码器将用于所述当前节点的占用符号编码为表示所述当前节点的编码比特流;组合表示所述块的每个节点的所述编码比特流,以形成表示所述块的所述树形结构的所述块的编码比特流;组合每个块的所述编码比特流和关于所述浅树形结构的信息,以形成所述组合编码比特流。
通常,实施方案的至少一个示例可涉及一种方法,所述方法包括:压缩表示点云的数据;提供包括所述压缩数据的所述组合编码比特流,其中,压缩所述数据包括基于浅树形结构,将包括在表示所述点云的所述数据中的原始点云几何数据转换为数据块;移位每个数据块的原点,以将每个块中的数据的原始坐标移位到局部块坐标;将每个块转换为单独的树形结构;
初始化每个块中的所有节点的上下文;针对块的所述树的至少一个节点,从所述树形结构的根节点开始,通过以下方式来压缩每个块的数据:基于来自所述当前节点的上下文信息和来自一个或多个相邻节点以及来自所述当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测所述树中的当前节点的占用符号分布;基于所述预测的占用分布,使用自适应熵编码器将用于所述当前节点的占用符号编码为表示所述当前节点的编码比特流;组合表示所述块的所述树的每个节点的所述编码比特流,以形成表示所述块的所述树形结构的所述块的编码比特流;组合每个块的所述编码比特流和关于所述浅树形结构的信息,以形成所述组合编码比特流。
通常,实施方案的另一个示例可涉及比特流或信号,该比特流或信号被格式化为包括经压缩的点云信息,其中,通过基于根据本公开的方法的实施方案的示例中的任何一个或多个示例的处理来对点云信息进行编码。
通常,实施方案的一个或多个其它示例还可以提供一种计算机可读存储介质,例如,非易失性计算机可读存储介质,其上存储有用于根据本文所述的方法或装置对画面信息(诸如视频数据)进行编码或解码的指令。一个或多个实施方案还可以提供一种计算机可读存储介质,该计算机可读存储介质具有存储在其上的根据本文所述的方法或装置生成的比特流。一个或多个实施方案还可以提供用于传输或接收根据本文所述的方法或装置生成的比特流或信号的方法和装置。
以上呈现主题的简化概述,以便提供对本公开的一些方面的基本理解。本发明内容不是主题的广泛概述。它并不旨在标识实施方案的关键/必要要素或描绘主题的范围。其唯一目的是以简化形式呈现主题的一些构思,作为下面提供的更详细描述的前言。
附图说明
通过结合附图考虑以下详细描述可更好地理解本公开,其中:
图1示出了根据本公开的树熵编码器的实施方案的示例;
图2示出了根据本公开的树熵解码器的实施方案的示例;
图3示出了根据本公开的基于学习的深度熵实施方案的示例;
图4以框图形式示出了根据本公开的编码上下文中的第一实施方案的示例;
图5以框图形式示出了根据本公开的编码上下文中的实施方案的另一个示例;
图6以框图形式示出了根据本公开的编码上下文中的实施方案的另一个示例;
图7以框图形式示出了根据本公开的编码上下文中的实施方案的另一个示例;
图8以框图形式示出了根据本公开的编码上下文中的实施方案的另一个示例;
图9以框图形式示出了根据本公开的编码上下文中的实施方案的另一个示例;
图10以框图形式示出了根据本公开的解码上下文中的实施方案的另一个示例;
图11以框图形式示出了适合于实现根据本公开的一个或多个方面、实施方案或特征的装置或设备或系统的实施方案的示例;
图12以流程图形式示出了根据本公开的实施方案的另一个示例。以及
图13以流程图形式示出了根据本公开的实施方案的另一个示例。
应当理解,附图是为了说明根据本公开的各个方面、特征和实施方案的示例,并且不一定是唯一可能的配置。贯穿各个附图,相同的参考指示符是指相同或相似的特征。
具体实施方式
3D点云数据是对象或场景的表面上的基本上离散的样本。实际上,要使用点样本完全表示现实世界,可能需要极大量的点。例如,典型的VR沉浸式场景包含数以百万计的点,而点云通常包含数以亿计的点。因此,处理如此大规模的点云在计算上是昂贵的,特别是对于计算能力有限的消费设备,例如,智能手机、平板电脑和汽车导航系统。
点云数据还可以消耗大量网络流量,例如,通过5G网络连接的汽车以及沉浸式通信(VR/AR)。点云理解和通信可以导致高效的表示格式。原始点云数据的适当管理或处理(例如,数据的适当组织和处理)可用于实现或促进诸如世界建模和感测之类的应用的目的。
对点云的任何种类的处理或推断的第一步骤是具有有效的存储方法。为了以可负担的计算成本存储和处理输入点云,一种解决方案是首先对其进行降采样,其中被降采样的点云概括输入点云的几何形状,同时具有少得多的点。被降采样的点云然后被馈送到后续机器任务以供进一步利用。然而,可以通过经由用于无损压缩的熵编码技术将原始点云数据(原始的或下采样的)转换为比特流来实现存储空间的进一步减少。更好的熵模型产生更小的比特流,因此产生更有效的压缩。另外,熵模型还可以与下游任务配对,这些下游任务允许熵编码器在压缩时维持任务特定信息。
来自感测模态的原始数据产生包含数十万个必须高效存储的点的点云数据。通常,实施方案的至少一个示例可涉及经由在八叉树上学习的深度熵模型基于PCC来寻址高效存储,这通过改变树的深度或输入点云的量化级别来提供对细节级别进行控制的高级别压缩性能。
点云压缩(PCC)可以涉及简洁地表示包含在点云内的对象的表面流形的问题。各种方法是可能的。例如,输入域中的PCC涉及通过选择或生成表示底层表面流形的新关键点来对原始点云进行下采样。然而,输入域中的PCC仅适用于低压缩率,因为该PCC仅限于保留在输入域中并且主要用于总结点云,以进行进一步的下游处理。原语域中的PCC不使用关键点,而是使用生成的原语(规则的2D/3D几何形状)来紧密遵循底层对象流形。变换域中的PCC涉及以下情况:原始点云数据首先经由基于学习的方法或经典方法变换到另一域,然后该新域中的表示受到压缩,以获得更更高效的压缩。通常,根据本公开的实施方案的至少一个示例涉及经由熵编码的PCC,其中,经由基于自适应学习的方法或经典方法对原始点云数据或点云的另一表示进行熵编码。
通常,根据本公开的实施方案的至少一个示例可涉及经由熵编码来处理点云信息,并且实施方案的至少一个示例可涉及学习的分层熵模型。除了利用当前层级处的紧邻信息的学习的分层熵模型之外,实施方案的至少一个示例可涉及使用在上层级处可用的全局信息。下面描述进一步细节。
从深度传感器获取的典型原始3D点云包含大量点。通常,本文所述的实施方案的至少一个示例可涉及高效地存储和传输与点云相关联的非常大的数据集。本文所述的至少一个实施方案可涉及执行点压缩,作为独立方法并且用于后续机器任务(例如,分类、分段等)。通常,实施方案的至少一个示例可涉及不仅点云几何数据的无损压缩。还可基于本文所述的实施方案的一个或多个示例来处理关于颜色或反射率等其它特征的数据。例如,可以假设颜色或反射率等其它特征类似于几何坐标等数据,并且沿着树形结构表现出类似的粗略到精细(分层)表示。因此,本文所述的涉及熵编码器的实施方案的一个或多个示例可应用于预测此类特征的分布,并且因此提升其编码性能。例如,实施方案的至少一个示例可以涉及针对颜色或反射率构建的深度熵模型,该深度熵模型可以是与针对几何结构构建的深度熵模型分离的模型。在实施方案的至少一个其他示例中,可以共享深度熵模型。通常,本文所述的实施方案的一个或多个示例可涉及基于学习的深度熵模型。
通常,编码方法的实施方案的至少一个示例在图1中示出并且可以描述如下。对于点云编码系统,可以首先处理/变换具有N个点的输入点云X。例如,可以被量化到一定的精度,从而产生M个点。这些M个点然后进一步被转换为树表示,直到特定指定的树深度。可以使用各种树表示或结构。例如,这些点可被转换为八叉树表示、或kd树表示、或四叉树加二叉树(QTBT)表示、或预测树表示等。
八叉树表示是分割和表示3D空间中的位置的直接方式,其中,包含整个点云的立方体被细分为8个子立方体。然后,通过将1比特值与每个子立方体相关联,来生成被称为占用码或占用符号的8比特码。指示子立方体是包含点(即,具有值1)还是不包含点(即,具有值0)。递归地执行该划分过程,以形成树,其中,进一步划分仅具有多于一个点的子立方体。类似于八叉树表示,QTBT也递归地划分3D空间,但是允许使用四叉树或二叉树进行更灵活的划分。这对于表示稀疏分布式点云特别有用。与递归地划分3D空间的八叉树和QTBT不同,预测树定义3D点云中的3D点之间的预测结构。例如,使用预测树的几何编码对于PCC中的激光雷达序列等内容是有益的。注意,通过该转换步骤,原始点云几何形状的压缩变成树表示的压缩。
为了便于解释,以下描述将主要涉及八叉树表示。然而,对于本领域技术人员来说显而易见的是,本文在八叉树表示的上下文中描述的实施方案、特征、原理等的示例也适用于其它类型的树表示。在原始点云被转换成树形结构(例如,八叉树)的情况下,实施方案的至少一个示例涉及基于深度学习的条件树形结构熵模型,以预测树中的所有节点的占用符号分布。该条件熵模型以节点方式操作,并根据节点的上下文和来自树中的相邻节点的特征提供节点的占用符号分布。可以使用深度优先或广度优先遍历来遍历树形结构。
节点的占用符号是指其8个子节点中的每个子节点的二进制占用,并且可以被表示为来自8比特二进制子占用的8比特整数。给定节点的上下文包含例如以下信息:父节点的占用(例如,作为8比特整数)、给定节点的八叉树深度/级别、给定节点的八分区以及当前节点的空间位置。然后将条件符号分布馈送到无损自适应熵编码器中,该无损自适应熵编码器压缩每个节点占用,从而产生比特流。
通常,在图2中示出了解码方法或装置的至少一个示例。在图2中,给定点云的压缩比特流,解码首先从生成根节点的默认上下文开始。然后,深度熵模型使用根节点的默认上下文生成占用符号分布。自适应熵解码器使用该分布以及对应于根节点的比特流部分来解码根占用符号。现在可以初始化根节点的所有子节点的上下文,并且可以多次迭代相同的过程来扩展和解码整个树形结构。在对整个树进行解码之后,将树转换回,以获得重建的点云。
通常,实施方案的至少一个示例可以涉及应用深度熵模型来预测占用符号分布。然而,除了利用来自父节点的局部信息来预测分布之外,实施方案的至少一个示例还可以涉及利用可用的更多全局信息。例如,当预测当前节点的占用符号分布时,可以利用来自一个或多个兄弟节点以及来自一个或多个祖先节点的信息。
通常,在图3中示出了根据本公开的深熵模型的至少一个示例。在图3的示例中,处理八叉树结构可以是通过学习深度条件树形结构化熵模型来进行的。该条件熵模型以节点方式操作。该操作可以是串行的,操作也可以是并行的。该操作根据节点的上下文及其相邻节点(包括一个或多个兄弟节点和一个或多个祖先节点)来预测该节点的占用符号的概率分布。然后,自适应熵编码器或解码器进一步使用该条件占用符号分布来压缩或解压缩树形结构。
通常,实施方案的至少一个示例涉及使用包含多个单独点云的点云数据集的八叉树表示来训练深度熵模型。该模型然后将每个节点的上下文和来自其邻居的特征作为输入,并且输出条件占用符号分布。然后,在第i个上的交叉熵损失被计算为在此处,yi是第i个节点的独热编码的地面实况符号的向量,并且qi表示针对第i个节点的符号的预测分布的向量。网络经过训练,以自我监督的方式最大限度地减少所有八叉树中所有节点上的这种损失。
点云压缩可以仅基于一种输入精度的训练并使用该训练模型以几种不同的输入精度压缩点云来进行。然而,该过程可能不是最佳的,并且会导致训练阶段未遇到的输入精度的压缩性能较差。通常,实施方案的至少一个示例使得能够基于以设定最高几何形状精度以及输入的若干量化版本训练模型而在多个精度级别上良好地执行。这会带来更稳健的训练,并为模型提供更好的推广。
除了点云的精度之外,点云内点的分布也很重要。由于不同的采集模态导致原始点云中点的分布有很大不同,所以实施方案的至少一个示例可以涉及在需要高压缩率时专门在一种数据(例如,激光雷达或VR/AR数据)上训练模型。然而,如果需要一种更通用的模型,在几种不同类型的数据集上平均表现良好,则可以将不同类型的数据集组合成一个,然后可以在该组合数据集上训练模型。通常,实施方案的至少一个示例涉及可适应于目标应用和目标压缩性能的训练。
下文描述涉及编码器中的深度熵译码模块的实施方案的各种示例。然而,所描述的实施方案(例如,深熵模块的所描述的实施方案)也可应用于对应解码器中。
通常,至少一个实施方案可涉及八叉树结构的学习条件熵模型。例如,至少一个实施方案可以涉及包含兄弟节点的深度特征的条件熵模型,以同时预测所有兄弟节点的占用符号。即,可以充分利用来自兄弟节点的邻域信息。更详细地,假设给定节点i的上下文被表示为向量ci。此外,考虑包括几个级联的多层感知器(MLP)模块的深度神经网络,其中,第k个MLP模块由MLP(k)表示。然后,获得特定节点的初始深度特征,作为 从可以并行获得的每个节点的该初始特征开始,可以(也并行地)获得后续深度特征,作为其中,/>是来自MLP(k-1)的给定第i个节点的父节点的深度特征。此处应当注意,每个MLP(k)在所有节点之间共享。由MLP(K)表示的最终MLP是特殊的,因为该MLP将从所有兄弟节点的深度特征构造的附加深度特征作为输入,作为其中,MLP(sib)首先分别对第i个节点(包括该节点本身)的每个兄弟节点的深度特征进行操作,然后,池化函数(例如,max(.))对每个维度的结果特征进行操作,以产生与输入特征相同长度的整体组合的深度特征。以这种方式,获得第i个节点的最终深度特征,作为/>然后,该最终特征通过线性层,然后通过softmax,为256个可能的8比特占用符号中的每个符号生成概率的256维向量。
在图4中示出了编码器中的深度熵编码布置的实施方案的示例。在图中,“特征提取器”是指MLP(0),“兄弟特征提取器”表示MLP(sib),而剩余的MLP在“特征聚合器”中被捆绑在一起。作为示例,图4中示出的实施方案可以是基于例如以下架构的。第一MLP深度为5层,具有128维隐藏特征。所有隐藏的MLP都包括3个残差层和相同的128维隐藏特征。附加MLP(兄弟)是也具有128维隐藏特征的单层MLP。最终线性层产生256维输出,随后是softmax,以产生256维概率矢量。所有MLP中的层都是线性层,随后是ReLU,没有归一化。
尽管根据本公开的深度熵模型的一个或多个示例以节点的方式操作并且使用来自祖先节点的深度特征,但在编码过程期间,可以在所有节点上并行执行每个MLP。这是因为从祖先节点使用的深度特征是先前MLP模块的输出。然而,当在解码期间使用深度熵模型时,必须在向下移动八叉树之前对祖先节点进行解码。因此,解码只能在兄弟节点上并行操作。即,本公开中的实施方案的一个或多个示例可以在编码期间在所有节点上并行操作,并且在解码期间只能在兄弟节点上并行操作。
在编码器的上下文中,在图5中示出了深度熵编码布置的实施方案的另一个示例。图5中的示例示出了基于八叉树结构的学习条件熵模型的实施方案。更具体地,图5示出了与图4的实施方案不同之处在于,使用祖先节点(例如,父节点)的深层特征的实施方案的示例。在图5的示例中,MLPMLP(sib)(早先用于收集所有兄弟节点的特征)并非仅使用父节点的深度特征,而是收集父节点及其在相同祖父节点下的所有兄弟节点的深度特征。这会产生更丰富的深层特征,其中包含来自父级的更多信息,在共享MLP时不需要额外的参数。
在编码器的上下文中,在图6中示出了深度熵编码布置的实施方案的另一个示例。图6中的示例示出了基于八叉树结构的学习条件熵模型的实施方案的另一个示例。在图6的示例中,可以从祖先节点提取甚至更丰富的特征,例如,通过利用来自父级等祖先级处的所有节点的特征,而不是仅利用来自父级的兄弟节点的特征。利用来自更高级别的所有节点的特征产生表示包括点云的对象的粗略的全局拓扑的特征向量。来自更高级别的所有节点的特征的这种聚合在本文中被称为“全局特征”。
在编码器的上下文中,在图7中示出了深度熵编码布置的实施方案的另一个示例。图7中的示例示出了基于八叉树结构的学习条件熵模型的实施方案的另一个示例。在图7的示例中,从特定节点的所有兄弟节点收集深度特征的MLP和从父级处的所有节点收集特征的MLP在不同的尺度上操作。一个MLP处理邻域内的局部信息,而另一个MLP从全局流形形状中提取信息。由于这种尺度上的差异,引入单独的MLP(pa),以在父级处收集特征。在图7中,MLP(pa)被称为“全局特征提取器”。
在编码器的上下文中,在图8中示出了深度熵编码布置的实施方案的另一个示例。图8中的示例示出了基于八叉树结构的学习条件熵模型的实施方案的另一个示例。然而,图8的示例提供了复杂度降低的布置。实施方案的一个或多个前述示例(例如,图6和图7中示出的实施方案的示例)可以涉及基于在计算中涉及来自直接父级的所有节点来获得点云的全局特征。当深入树形结构时,这可能会导致较高的计算成本。另一方面,在已经达到特定树层(例如,层k)之后,通过更深一层生成全局特征的额外好处可能会变得相当有限。因此,图8的示例使用层k来生成比k+1更深的所有层的全局特征。例如,当总深度等于6时,k被设置为4;当总深度等于12时,k被设置为10。层k的确定或识别可以是基于例如成本效益分析和/或特定应用和/或诸如计算资源的资源的可用性的。
深熵译码布置的实施方案的另一个示例可涉及基于除八叉树之外的树表示或结构或布置的本文所述的那些实施方案中的任一个实施方案(例如,图4至图8中的实施方案的示例)。例如,并非将原始点云转换成八叉树结构,实施方案的至少一个示例可涉及使用其他树表示或结构,例如,kd树、或四叉树加二叉树(QTBT)、或预测树等。
在编码器的上下文中在图9中示出并且在解码器的上下文中在图10中示出深熵编码布置的实施方案的另一个示例。本文所述的实施方案的一个或多个其他示例可以涉及将整个点云转换成单个八叉树表示,然后无损地压缩该八叉树。然而,随着几何数据精度和点云中点的密度增加,该过程变得越来越耗时且计算昂贵。此外,将原始数据转换为八叉树表示的过程也会花费更长时间。作为处理该问题的方法的示例,图9中示出的实施方案的示例涉及经由浅树形结构(例如,八叉树)将原始点云转换为块,将每个块中的数据点从原始坐标带到局部块坐标(通过移位每个块的原点),并且最终将每个块数据转换为单独的树形结构(例如,八叉树)。利用该过程,每个块包含点云的较小部分,可以针对每个块更快且并行地被转换为树形结构,例如,八叉树。经过无损压缩和解压缩后,每个块中恢复的点被组合起来并恢复到原始坐标。来自浅树形结构(例如,八叉树)的关于块分区的辅助信息也使用统一熵编码进行压缩并且添加到比特流。图10示出了基于所描述的基于块的实施方案的示例的解码布置的示例。
图12和图13示出了根据本文所述的一个或多个实施方案的一个或多个方面或特征的实施方案的其它示例。在图12所示的实施方案的示例中,在1200处的操作接收表示点云的数据,压缩该数据,并且提供在1260处组合的编码比特流,以产生包括表示点云的压缩数据的编码比特流。关于1200处的操作的更多细节,在1210处,原始点云几何数据被转换成树表示,例如,八叉树结构。1220处的操作初始化树中所有节点的上下文。从根节点开始,针对树形结构中的每个节点迭代地重复1230到1250处的操作。在1230处,基于来自当前节点的上下文信息和来自一个或多个可用相邻节点以及来自当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测当前节点的占用符号分布。在1240处的操作基于预测的占用分布,使用自适应熵编码器将用于当前节点的占用符号编码为表示当前节点的编码比特流。在1250处,进行检查,以确定当前节点是否是树形结构的最后或最终节点,即,已经处理所有节点。如果不是(在1250处为“否”),则操作返回到1230,其中,尚未处理的节点变成当前节点并且通过1230和1240来处理。如果在1250处,当前节点是最后节点(在1250处为“是”),则操作在1260处继续,其中,表示每个节点的编码比特流组合,以形成表示该树的组合编码比特流。图12中的实施方案的结果是包括表示点云的压缩数据的编码比特流。
图13示出了适于对包括表示点云的压缩数据的编码比特流进行解码的解码器的实施方案的示例,其中,编码比特流由在图12中示出的并且在上面描述的编码器实施方案产生。在图13所示的实施方案的示例中,在1300处的操作接收编码比特流并对编码比特流进行解码,编码比特流包括表示点云并基于诸如八叉树的树形结构压缩的数据。在1360处,处理来自1300的解码输出,以基于针对树形结构的每个节点的经解码的占用符号来确定扩展树。扩展树表示经解码的点云信息。更详细地,在1300处的操作包括从根节点开始针对树形结构中的所有节点迭代地重复1310到1350。在1310处,从编码比特流中获得针对树形结构的当前节点的数据,随后是1320,其中,初始化当前节点的默认上下文。在1330处,基于来自当前节点的上下文信息和来自一个或多个可用相邻节点以及来自当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测当前节点的占用符号分布。在1240处的操作基于预测的占用符号分布,使用自适应熵解码器来对当前节点的占用符号进行解码。在1350处,进行检查,以确定当前节点是否是树形结构的最后或最终节点,即,已经处理所有节点。如果不是(在1350处为“否”),则操作返回到1310,其中,尚未处理的节点变成当前节点并且通过1310到1440来处理。如果在1350处,当前节点是最后节点(在1350处为“是”),则操作在1360处继续,其中,基于针对树形结构的每个节点的解码的占用符号来确定扩展树。图13中的实施方案的结果是表示点云的解码信息。
图11示出适于实现本文所述的实施方案的示例中的一个或多个示例的系统的示例的框图。图11中的系统1000可体现为包括下文所述的各个部件的设备,并且被配置为执行或实现本文档中所述的实施方案、特征等的示例中的一个或多个。此类设备的示例包括但不限于各种电子设备,诸如个人计算机、膝上型计算机、智能电话、平板电脑、数字多媒体机顶盒、数字电视机接收器、个人视频录制系统、连接的家用电器和服务器。系统1000的元件可单独地或组合地具体体现在单个集成电路(IC)、多个IC和/或分立的部件中。例如,在至少一个实施方案中,系统1000的处理和编码器/解码器元件跨多个IC和/或分立的部件分布。在各种实施方案中,系统1000经由例如通信总线或通过专用输入端口和/或输出端口通信地耦接到一个或多个其他系统或其他电子设备。通常,系统1000被配置为实现本文档中所述的实施方案、特征等的示例中的一个或多个。
系统1000包括至少一个处理器1010,该至少一个处理器被配置为执行加载在其中的指令以用于实现例如本文档中所述的各个方面。处理器1010可包括嵌入式存储器、输入输出接口以及如在本领域中是已知的各种其他电路。系统1000包括至少一个存储器1020(例如,易失性存储器设备和/或非易失性存储器设备)。系统1000包括存储设备1040,该存储设备可包括非易失性存储器和/或易失性存储器,包括但不限于电可擦可编程只读存储器(EEPROM)、只读存储器(ROM)、可编程只读存储器(PROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例,存储设备1040可包括内部存储设备、附接的存储设备(包括可拆卸和不可拆卸的存储设备)和/或网络可访问的存储设备。
系统1000包括编码器/解码器模块1030,该编码器/解码器模块被配置为例如处理数据以提供编码的视频或解码的视频,并且编码器/解码器模块1030可包括其自身的处理器和存储器。编码器/解码器模块1030表示可包括在设备中以执行编码和/或解码功能的模块。众所周知,设备可包括编码模块和解码模块中的一者或两者。另外,编码器/解码器模块1030可实现为系统1000的独立元件,或者可结合在处理器1010内作为本领域的技术人员已知的硬件和软件的组合。
待加载到处理器1010或编码器/解码器1030上(例如,以执行或实现本文档中所述的实施方案、特征等的一个或多个示例)的程序代码可存储在存储设备1040中,并且随后被加载到存储器1020上以供处理器1010执行。根据各种实施方案,处理器1010、存储器1020、存储设备1040和编码器/解码器模块1030中的一者或多者可在本文档中所述的过程的执行期间存储各种项目中的一个或多个项目。此类存储项目可包括但不限于输入视频、解码的视频或部分解码的视频、比特流、矩阵、变量以及处理等式、公式、运算和运算逻辑的中间或最终结果。
在一些实施方案中,在处理器1010和/或编码器/解码器模块1030内部的存储器用于存储指令以及提供在编码或解码期间所需的用于处理的工作存储器。然而,在其他实施方案中,处理设备(例如,处理设备可以是处理器1010或编码器/解码器模块1030)外部的存储器用于这些功能中的一个或多个功能。外部存储器可以是存储器1020和/或存储设备1040,例如动态易失性存储器和/或非易失性闪存存储器。在若干实施方案中,外部非易失性闪存存储器用于存储例如电视机的操作系统。在至少一个实施方案中,快速外部动态易失性存储器诸如RAM用作视频编码和解码操作的工作存储器,诸如MPEG-2(MPEG是指运动图片专家组,MPEG-2也称为ISO/IEC 13818,并且13818-1也称为H.222,13818-2也称为H.262)、HEVC(HEVC是指高效视频编码,也称为H.265和MPEG-H部分2)或VVC(通用视频编码,由联合视频专家小组(JVET)开发的新标准)。
可通过如块1130中所指示的各种输入设备来提供对系统1000的元件的输入。此类输入设备包括但不限于:(i)接收例如由广播器通过空中发射的RF信号的射频(RF)部分,(ii)部件(COMP)输入端子(或一组COMP输入端子),(iii)通用串行总线(USB)输入端子,和/或(iv)高清多媒体接口(HDMI)输入端子。图3中未示出的其他示例包括复合视频。
在各种实施方案中,块1130的输入设备具有如在本领域中是已知的相关联的相应的输入处理元件。例如,RF部分可与适用于以下的元件相关联:(i)选择所需的频率(也称为选择信号,或将信号频带限制到一个频带),(ii)下变频选择的信号,(iii)再次频带限制到更窄频带以选择(例如)在某些实施方案中可称为信道的信号频带,(iv)解调下变频和频带限制的信号,(v)执行纠错,以及(vi)解复用以选择所需的数据包流。各种实施方案的RF部分包括用于执行这些功能的一个或多个元件,例如频率选择器、信号选择器、频带限制器、信道选择器、滤波器、下变频器、解调器、纠错器和解复用器。RF部分可包括执行这些功能中的各种功能的调谐器,这些功能包括例如下变频接收信号至更低频率(例如,中频或近基带频率)或至基带。在一个机顶盒实施方案中,RF部分及其相关联的输入处理元件接收通过有线(例如,电缆)介质发射的RF信号,并且通过滤波、下变频和再次滤波至所需的频带来执行频率选择。各种实施方案重新布置上述(和其他)元件的顺序,移除这些元件中的一些元件,和/或添加执行类似或不同功能的其他元件。添加元件可包括在现有元件之间插入元件,例如,插入放大器和模数变换器。在各种实施方案中,RF部分包括天线。
另外,USB和/或HDMI端子可包括用于跨USB和/或HDMI连接将系统1000连接到其他电子设备的相应的接口处理器。应当理解,输入处理的各个方面(例如Reed-Solomon错误校正)可在必要时例如在独立的输入处理IC内或在处理器1010内实现。相似地,USB或HDMI接口处理的方面可在必要时在独立的接口IC内或在处理器1010内实现。经解调、纠错和解复用的流被提供给各种处理元件,包括例如处理器1010和编码器/解码器1030,该编码器/解码器与存储器和存储元件结合操作以根据需要处理数据流以供在输出设备上呈现。
可在集成外壳内提供系统1000的各种元件,在集成外壳内,使用合适的连接排布结构1140(例如,如在本领域中是已知的内部总线,包括IC间(I2C)总线、接线和印刷电路板),各种元件可互连并且在其间传输数据。
系统1000包括通信接口1050,该通信接口允许经由通信信道1060与其他设备的通信。通信接口1050可包括但不限于收发器,该收发器被配置为通过通信信道1060传输和接收数据。通信接口1050可包括但不限于调制解调器或网卡,并且通信信道1060可例如在有线和/或无线介质内实现。
在各种实施方案中,使用无线网络诸如Wi-Fi网络例如IEEE 802.11(IEEE是指电气电子工程师学会)将数据流式传输或以其他方式提供给系统1000。这些实施方案的Wi-Fi信号是通过适于Wi-Fi通信的通信信道1060和通信接口1050接收的。这些实施方案的通信信道1060通常连接到接入点或路由器,该接入点或路由器提供对外部网络(包括互联网)的访问,以用于允许流式传输应用和其他越过运营商的通信。其他实施方案使用机顶盒向系统1000提供流式传输的数据,该机顶盒通过输入块1130的HDMI连接来递送数据。还有其他实施方案使用输入块1130的RF连接向系统1000提供流式传输的数据。如上所述,各种实施方案以非流式的方式提供数据。另外,各种实施方案使用除了Wi-Fi以外的无线网络,例如蜂窝网络或蓝牙网络。
系统1000可向各种输出设备(包括显示器1100、扬声器1110和其他外围设备1120)提供输出信号。各种实施方案的显示器1100包括例如触摸屏显示器、有机发光二极管(OLED)显示器、曲面显示器和/或可折叠显示器中的一个或多个显示器。显示器1100可用于电视、平板电脑、膝上型电脑、蜂窝电话(移动电话)或其他设备。显示器1100还可与其他部件集成(例如,如在智能电话中),或可以是独立的显示器(例如,用于膝上型电脑的外部监视器)。在实施方案的各种示例中,其他外围设备1120包括独立数字视频光盘(或数字多功能光盘)(DVR,可表示这两个术语)、碟片播放器、立体声系统和/或照明系统中的一者或多者。各种实施方案使用一个或多个外围设备1120,该一个或多个外围设备基于系统1000的输出来提供功能。例如,碟片播放器执行播放系统1000的输出的功能。
在各种实施方案中,使用信令诸如AV.Link、消费电子控制(CEC)或允许带有或不带有用户干预的设备到设备控制的其他通信协议,在系统1000与显示器1100、扬声器1110或其他外围设备1120之间发送控制信号。可通过相应的接口1070、1080和1090经由专用连接将输出设备通信地耦接到系统1000。另选地,可经由通信接口1050使用通信信道1060将输出设备连接到系统1000。在电子设备(诸如例如电视)中,显示器1100和扬声器1110可与系统1000的其他部件集成在单个单元中。在各种实施方案中,显示器接口1070包括显示驱动器,诸如例如定时控制器(T Con)芯片。
例如,如果输入1130的RF部分是独立机顶盒的一部分,则显示器1100和扬声器1110可另选地相对于其他部件中的一个或多个部件而独立。在其中显示器1100和扬声器1110为外部部件的各种实施方案中,可经由专用输出连接(包括例如HDMI端口、USB端口或COMP输出)来提供输出信号。
该实施方案可由处理器1010实现的计算机软件,或由硬件,或由硬件和软件的组合来进行。作为非限制性示例,这些实施方案可由一个或多个集成电路实现。作为非限制性示例,存储器1020可以是适于技术环境的任何类型,并且可使用任何适当的数据存储技术(诸如光存储器设备、磁存储器设备、基于半导体的存储器设备、固定存储器和可移动存储器)来实现。作为非限制性示例,处理器1010可以是适于技术环境的任何类型,并且可涵盖微处理器、通用计算机、专用计算机和基于多核架构的处理器中的一者或多者。
在整个本公开中还支持和考虑各种广义以及特定的实施方案。根据本公开的实施方案的示例包括但不限于以下实施方案。
通常,实施方案的至少一个示例可涉及在树形结构(例如,八叉树)上学习的深度熵模型,用于3D点云数据的无损压缩。通常,实施方案的至少一个示例可涉及基于自适应熵编码器的自监督压缩,该自适应熵编码器对树形结构条件熵模型进行操作。可以从树形结构利用来自局部邻域以及全局拓扑的信息。通常,实施方案的至少一个示例可涉及基于块的压缩方案,该方案可促进并行处理且例如减少所需的计算及时间资源。这种资源需求的减少对于诸如处理密集的大量点云的应用是非常有用的。
通常,实施方案的至少一个示例可涉及一种装置,所述装置包括:至少一个处理器,所述至少一个处理器被配置为:接收编码比特流,所述编码比特流包括表示点云的压缩数据,其中,所述压缩数据是基于树形结构压缩的;对所述编码比特流进行解码,其中,对所述编码比特流进行解码包括所述至少一个处理器还被配置为:针对所述树的每个节点,从所述树形结构的根节点开始:从所述比特流中获得针对所述树形结构的当前节点的数据,初始化所述当前节点的默认上下文;基于来自所述当前节点的上下文信息和来自一个或多个可用相邻节点以及来自所述当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测所述当前节点的占用符号分布;基于所述占用符号分布,使用自适应熵解码器来对所述当前节点的所述占用符号进行解码;基于针对所述树形结构的每个节点的所述经解码的占用符号来确定扩展树。
通常,实施方案的至少一个示例可涉及一种方法,所述方法包括:接收编码比特流,所述编码比特流包括表示点云的压缩数据,其中,所述压缩数据是基于树形结构压缩的;对所述编码比特流进行解码,其中,所述解码包括:针对所述树的每个节点,从所述树的根节点开始:
从所述比特流中获得针对所述树的当前节点的数据;初始化所述当前节点的默认上下文;基于来自所述当前节点的上下文信息和来自一个或多个可用相邻节点以及来自所述当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测所述当前节点的占用符号分布;基于所述占用符号分布,使用自适应熵解码器来对所述当前节点的所述占用符号进行解码;基于针对所述树形结构的每个节点的所述经解码的占用符号来确定扩展树。
通常,实施方案的至少一个示例可以涉及一种装置,所述装置包括:至少一个处理器,所述至少一个处理器被配置为压缩表示点云的数据;提供包括所述压缩数据的组合编码比特流,其中,所述至少一个处理器被配置为压缩所述数据,包括所述至少一个处理器还被配置为:将包括在表示所述点云的所述数据中的原始点云几何数据转换为树表示;初始化所述树中所有节点的上下文;针对所述树的每个节点,从所述树形结构的根节点开始:基于来自所述当前节点的上下文信息和来自一个或多个相邻节点以及来自所述当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测所述树中的当前节点的占用符号分布;基于所述预测的占用分布,使用自适应熵编码器将用于所述当前节点的占用符号编码为表示所述当前节点的编码比特流;组合表示每个节点的所述编码比特流,以形成所述组合编码比特流,其中,所述组合编码比特流表示所述树。
通常,实施方案的至少一个示例可涉及一种方法,所述方法包括:压缩表示点云的数据;以及提供包括所述压缩数据的组合编码比特流,其中,所述压缩包括将包括在表示所述点云的所述数据中的原始点云几何数据转换为树表示;初始化所述树中所有节点的上下文;针对所述树的每个节点,从所述树形结构的根节点开始:基于来自所述当前节点的上下文信息和来自一个或多个相邻节点以及来自所述当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测所述树中的当前节点的占用符号分布;基于所述预测的占用分布,使用自适应熵编码器将用于所述当前节点的占用符号编码为表示所述当前节点的编码比特流;组合表示每个节点的所述编码比特流,以形成所述组合编码比特流,其中,所述组合编码比特流表示所述树。
通常,实施方案的至少一个示例可涉及一种装置,所述装置包括:至少一个处理器,所述至少一个处理器被配置为:接收编码比特流,所述编码比特流包括表示点云的压缩数据,其中,所述压缩数据是根据基于块的树形结构压缩的;对所述编码比特流进行解码,其中,对所述编码比特流进行解码包括所述至少一个处理器还被配置为从所述编码比特流中获得分区比特流和一个或多个块比特流两者;对所述分区比特流进行解码,以恢复指示所述点云数据的块结构的浅分区,其中,所述块结构中的每个块包括表示基于所述树形结构压缩的所述点云的所述数据的一部分;对于每个块,通过以下方式解压缩所述块比特流:针对与所述块相关联的所述树形结构的每个节点,从所述树形结构的根节点开始:从所述比特流中获得针对所述树的当前节点的数据;初始化所述当前节点的默认上下文;基于来自所述当前节点的上下文信息和来自一个或多个可用相邻节点以及来自所述当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测所述当前节点的占用符号分布;基于所述占用符号分布,使用自适应熵解码器来对所述当前节点的所述占用符号进行解码;基于针对所述树形结构的每个节点的所述经解码的占用符号来确定所述块的扩展树。组合每个块的所述扩展树,以提供所述点云的扩展树。
通常,实施方案的至少一个示例可涉及一种方法,所述方法包括:接收编码比特流,所述编码比特流包括表示点云的压缩数据,其中,所述压缩数据是根据基于块的树形结构压缩的;对所述编码比特流进行解码,其中,所述解码包括:从所述编码比特流中获得分区比特流和一个或多个块比特流两者;对所述分区比特流进行解码,以恢复指示所述点云数据的块结构的浅分区,其中,每个块包括表示基于所述树形结构压缩的所述点云的所述数据的一部分;对于每个块,通过以下方式解压缩所述块比特流:针对与所述块相关联的所述树形结构的每个节点,从所述树形结构的根节点开始:从所述比特流中获得针对所述树结构的当前节点的数据;初始化所述当前节点的默认上下文;
基于来自所述当前节点的上下文信息和来自一个或多个可用相邻节点以及来自所述当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测所述当前节点的占用符号分布;基于所述占用符号分布,使用自适应熵解码器来对所述当前节点的所述占用符号进行解码;基于针对所述树形结构的每个节点的所述经解码的占用符号来确定所述块的扩展树。组合每个块的所述扩展树,以提供所述点云的扩展树。
通常,实施方案的至少一个示例可以涉及一种装置,所述装置包括:至少一个处理器,所述至少一个处理器被配置为压缩表示点云的数据;提供包括所述压缩数据的组合编码比特流,其中,所述至少一个处理器被配置为压缩所述数据,包括所述至少一个处理器还被配置为:基于浅树形结构,将包括在表示所述点云的所述数据中的原始点云几何数据转换为数据块;移位每个数据块的原点,以将每个块中的数据的原始坐标移位到局部块坐标;将每个块转换为单独的树形结构;初始化每个块中的所有节点的上下文;针对块的所述树的每个节点,从所述树形结构的根节点开始,通过以下方式来压缩每个块的数据:基于来自所述当前节点的上下文信息和来自一个或多个相邻节点以及来自所述当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测所述树中的当前节点的占用符号分布;基于所述预测的占用分布,使用自适应熵编码器将用于所述当前节点的占用符号编码为表示所述当前节点的编码比特流;组合表示所述块的每个节点的所述编码比特流,以形成表示所述块的所述树形结构的所述块的编码比特流;组合每个块的所述编码比特流和关于所述浅树形结构的信息,以形成所述组合编码比特流。
通常,实施方案的至少一个示例可涉及一种方法,所述方法包括:压缩表示点云的数据;提供包括所述压缩数据的所述组合编码比特流,其中,压缩所述数据包括基于浅树形结构,将包括在表示所述点云的所述数据中的原始点云几何数据转换为数据块;移位每个数据块的原点,以将每个块中的数据的原始坐标移位到局部块坐标;将每个块转换为单独的树形结构;
初始化每个块中的所有节点的上下文;针对块的所述树的每个节点,从所述树形结构的根节点开始,通过以下方式来压缩每个块的数据:基于来自所述当前节点的上下文信息和来自一个或多个相邻节点以及来自所述当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测所述树中的当前节点的占用符号分布;基于所述预测的占用分布,使用自适应熵编码器将用于所述当前节点的占用符号编码为表示所述当前节点的编码比特流;组合表示所述块的树的每个节点的所述编码比特流,以形成表示所述块的所述树形结构的所述块的编码比特流;组合每个块的所述编码比特流和关于所述浅树形结构的信息,以形成所述组合编码比特流。
通常,实施方案的至少一个示例可涉及一种方法或装置,该方法或装置涉及点云信息的树表示,其中,所述树表示包括八叉树或kd树或四叉树-二叉树(QTBT)或预测树中的一个。
通常,实施方案的至少一个示例可涉及一种装置,该装置涉及至少一个处理器,该至少一个处理器如本文所描述处理点云信息的树表示,其中,该至少一个处理器可被配置为以串行或并行方式预测树中的所有节点的占用符号分布。
通常,实施方案的至少一个示例可涉及一种方法,该方法基于树表示处理点云信息,其中,该方法可包括以串行或并行方式预测树中的所有节点的占用符号分布。
通常,实施方案的至少一个示例可涉及如本文所述的装置或方法,其中,基于学习的熵模型通过用于当前节点的兄弟节点的相同的基于学习的模型,使用祖先或父节点的一个或多个兄弟节点的一个或多个深度特征,来预测占用符号分布。
通常,实施方案的至少一个示例可涉及如本文所述的装置或方法,其中,基于学习的熵模型通过用于当前节点的兄弟节点的相同的基于学习的模型,使用在祖先级或父级处的所有节点的一个或多个深度特征,来预测占用符号分布。
通常,实施方案的至少一个示例可涉及如本文所述的装置或方法,其中,基于学习的熵模型通过单独的基于学习的模型,使用在祖先级或父级处的所有节点的一个或多个深度特征,来预测占用符号分布。
通常,实施方案的至少一个示例可涉及如本文所述的装置或方法,该装置或方法:基于使用基于学习的熵模型预测当前节点的占用符号分布,来对被表示为树形结构的点云信息进行编码和/或解码,其中,基于学习的模型通过与用于当前节点的兄弟节点的模型相同的基于学习的模型或与用于当前节点的兄弟节点的模型分离或不同的基于学习的模型,针对比k+1更深的所有层,使用与当前节点相关联的祖先或父级k处的所有节点的深度特征。
通常,实施方案的至少一个示例可涉及一种如本文所述的装置或方法,其中,与结构的节点相关联的上下文包括祖先或父节点的占用、所述关联节点在所述树形结构内的深度或级别、所述关联节点的八分区以及所述关联节点的空间位置。
通常,实施方案的另一个示例可涉及比特流或信号,该比特流或信号被格式化为包括经压缩的点云信息,其中,通过基于根据本公开的方法的实施方案的示例中的任何一个或多个示例的处理来对点云信息进行编码。
通常,实施方案的一个或多个其它示例还可以提供一种计算机可读存储介质,例如,非易失性计算机可读存储介质,其上存储有用于根据本文所述的方法或装置对画面信息(诸如视频数据)进行编码或解码的指令。一个或多个实施方案还可以提供一种计算机可读存储介质,该计算机可读存储介质具有存储在其上的根据本文所述的方法或装置生成的比特流。一个或多个实施方案还可以提供用于传输或接收根据本文所述的方法或装置生成的比特流或信号的方法和装置。
本文描述了实施方案的各种示例,包括工具、特征、模型、方法等。这些示例中的很多示例被具体描述并且至少为了显示各个特性,通常以可能看似具有限制性的方式描述。然而,这是为了描述清楚,并不限制这些方面的应用或范围。实际上,所有不同的方面可组合和互换以提供进一步的方面。
通常,可以以许多不同的形式实现本文描述和设想的实施方案的示例。上面的图11提供了实施方案的示例,但是设想了其他实施方案,并且图11的讨论不限制可能实施方案或实现方式的广度。
本文所述的实施方案的一个或多个示例的至少一个方面通常涉及点云压缩或视频编码和解码,并且至少一个其他方面通常涉及传输生成或编码的比特流。这些方面和其他方面可在各种实施方案中实现,诸如方法、装置、其上存储有用于根据该方法中任一种对视频数据编码或解码的指令的计算机可读存储介质,和/或其上存储有根据该方法中任一种生成的比特流的计算机可读存储介质。
本文描述了各种方法,并且每种方法包括用于实现方法的一个或多个步骤或动作。除非正确操作方法需要特定顺序的步骤或动作,否则可修改或组合特定步骤和/或动作的顺序和/或用途。
在本申请中使用各种数值,例如,层数或MLP的深度或隐藏特征的尺寸。具体值是为了示例目的,并且所述方面不限于这些具体值。
各种具体实施参与解码。如本申请中所用,“解码”可涵盖例如对所接收的编码序列执行的过程的全部或部分,以便产生例如适于显示的最终输出。在各种实施方案中,这样的过程包括通常由解码器执行的过程中的一个或多个过程,例如,熵解码、逆量化、逆变换等。在各种实施方案中,这样的过程还包括或者替代地包括本申请中描述的各种实现方式的由解码器执行的过程。
作为进一步的示例,在一个实施方案中,“解码”仅是指熵解码,在另一个实施方案中,“解码”可以指不同形式的解码,并且在又一个实施方案中,“解码”可以指熵解码和不同形式的解码的组合。短语“解码过程”旨在具体地指代操作的子集还是广义地指代更广泛的解码过程基于具体描述的上下文将是清楚的,并且被认为会被本领域的技术人员很好地理解。
各种具体实施参与编码。以与上面关于“解码”的讨论类似的方式,如在本申请中使用的“编码”可涵盖例如对输入视频序列执行以便产生编码比特流的全部或部分过程。在各种实施方案中,在这种过程包括通常由编码器执行的一个或多个过程,例如,分区、变换、量化、熵编码等。
作为进一步的示例,在一个实施方案中,“编码”仅是指熵编码,在另一个实施方案中,“编码”可以指不同形式的编码,并且在又一个实施方案中,“编码”可以指熵编码和不同形式的编码的组合。短语“编码过程”是具体地指代操作的子集还是广义地指代更广泛的编码过程基于具体描述的上下文将是清楚的,并且据信将被本领域的技术人员很好地理解。
当附图呈现为流程图时,应当理解,其还提供了对应装置的框图。类似地,当附图呈现为框图时,应当理解,其还提供了对应的方法/过程的流程图。
通常,本文所述的实施方案、实施方式、特征等的示例可在例如方法或过程、装置、软件程序、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如,仅作为方法讨论),讨论的特征的具体实施也可以其他形式(例如,装置或程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法的一个或多个示例可在例如一般是指处理设备的处理器中实现,该处理设备包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,诸如例如计算机、手机、便携式/个人数字助理(“PDA”)以及便于最终用户之间信息通信的其他设备。此外,本文中的术语“处理器”的使用意在广泛地涵盖一个处理器或多于一个处理器的各种配置。
提及“一个实施方案”或“实施方案”或“一个具体实施”或“具体实施”以及它们的其他变型,意味着结合实施方案描述的特定的特征、结构、特性等包括在至少一个实施方案中。因此,短语“在一个实施方案中”或“在实施方案中”或“在一个具体实施中”或“在具体实施中”的出现以及出现在本申请通篇的各个地方的任何其他变型不一定都是指相同的实施方案。
另外,本申请可涉及“确定”各种信息。确定信息可包括例如估计信息、计算信息、预测信息或从存储器检索信息中的一者或多者。
此外,本申请可涉及“访问”各种信息。访问信息可包括例如接收信息、检索信息(例如,从存储器)、存储信息、移动信息、复制信息、计算信息、确定信息、预测信息或估计信息中的一者或多者。
另外,本申请可涉及“接收”各种信息。与“访问”一样,接收旨在为广义的术语。接收信息可包括例如访问信息或检索信息(例如,从存储器)中的一者或多者。此外,在诸如例如存储信息、处理信息、发射信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息的操作期间,“接收”通常以一种方式或另一种方式参与。
应当理解,例如,在“A/B”、“A和/或B”以及“A和B中的至少一者”的情况下,使用以下“/”、“和/或”和“至少一种”中的任一种旨在涵盖仅选择第一列出的选项(A),或仅选择第二列出的选项(B),或选择两个选项(A和B)。作为进一步的示例,在“A、B和/或C”和“A、B和C中的至少一者”的情况下,此类短语旨在涵盖仅选择第一列出的选项(A),或仅选择第二列出的选项(B),或仅选择第三列出的选项(C),或仅选择第一列出的选项和第二列出的选项(A和B),或仅选择第一列出的选项和第三列出的选项(A和C),或仅选择第二列出的选项和第三列出的选项(B和C),或选择所有三个选项(A和B和C)。如对于本领域和相关领域的普通技术人员显而易见的是,这可扩展到所列出的尽可能多的项目。
对于本领域的普通技术人员将显而易见的是,具体实施可产生格式化为携带例如可存储或可传输的信息的各种信号。信息可包括例如用于执行方法的指令或由所述具体实施中的一个具体实施产生的数据。例如,可格式化信号以携带所述实施方案的比特流。可格式化此类信号例如为电磁波(例如,使用频谱的射频部分)或基带信号。格式化可包括例如对数据流编码并且用编码的数据流调制载体。信号携带的信息可以是例如模拟或数字信息。已知的是,信号可通过各种不同的有线或无线链路发射。信号可存储在处理器可读介质上。
本文描述了各种实施方案。这些实施方案的特征可在各种权利要求类别和类型中单独地或以任何组合提供。此外,实施方案可包括以下特征、设备或方面中的一个或多个,单独地或以任何组合,跨各种权利要求类别和类型:
·基于使用基于学习的熵模型预测当前节点的占用符号分布,来对被表示为树形结构的点云信息进行编码和/或解码,该基于学习的熵模型使用来自当前节点的上下文信息和来自可用相邻节点以及一个或多个祖先节点的特征信息;
·基于使用基于学习的熵模型预测当前节点的占用符号分布,来对被表示为树形结构的点云信息进行编码和/或解码,该基于学习的熵模型通过用于当前节点的兄弟节点的相同的基于学习的模型来使用当前节点的祖先或父节点的兄弟节点的深度特征;
·基于使用基于学习的熵模型预测当前节点的占用符号分布,来对被表示为树形结构的点云信息进行编码和/或解码,该基于学习的熵模型使用与当前节点相关联的祖先或父级处的所有节点的深度特征;
·基于使用基于学习的熵模型预测当前节点的占用符号分布,来对被表示为树形结构的点云信息进行编码和/或解码,该基于学习的熵模型通过用于当前节点的兄弟节点的相同的基于学习的模型来使用与当前节点相关联的祖先或父级处的所有节点的深度特征;
·基于使用基于学习的熵模型预测当前节点的占用符号分布,来对被表示为树形结构的点云信息进行编码和/或解码,该基于学习的熵模型通过与用于当前节点的兄弟节点的模型分离或不同的基于学习的模型来使用与当前节点相关联的祖先或父级处的所有节点的深度特征;
·基于使用基于学习的熵模型预测当前节点的占用符号分布,来对被表示为树形结构的点云信息进行编码和/或解码,该基于学习的模型通过与用于当前节点的兄弟节点的模型相同的基于学习的模型或与用于当前节点的兄弟节点的模型分离或不同的基于学习的模型,针对比k+1更深的所有层,使用与当前节点相关联的祖先或父级k处的所有节点的深度特征;
·基于浅分区和经编码或解码的比特流对被表示为被分区为块的基于块的树形结构的点云信息进行编码和/或解码,该经编码或解码的比特流包括组合比特流,该组合比特流包括指示浅分区的分区比特流和表示每个块中的点云信息的块比特流;
·对涉及点云信息的树表示的点云信息进行编码和/或解码,其中,树表示包括八叉树或kd树或四叉树-二叉树(QTBT)或预测树中的一个。
·基于以串行或并行方式预测树中的所有节点的占用符号分布,对表示为树形结构的点云信息进行编码和/或解码;
·在信号或比特流中插入语法元素,这些语法元素使得解码器能够以与编码器所使用的编码方式相对应的方式工作;
·在信号或比特流中插入语法元素,这些语法元素使得编码器和/或解码器以根据如本文所述的实施方案、特征或实体中的任一者(单独地或以任何组合)提供编码和/或解码。
·基于这些语法元素,选择如本文所述的特征或实体(单独或以任何组合的方式),以在解码器处应用;
·创建和/或传输和/或接收和/或解码包括一个或多个所述语法元素或其变型的比特流或信号;
·根据所述实施方案中任一项所述的创建和/或传输和/或接收和/或解码比特流;
·根据所描述的实施方案中的任一项所述的方法、过程、装置、存储指令的介质、存储数据的介质或信号;
·TV、机顶盒、手机、平板电脑或提供应用根据如本文所述的实施方案、特征或实体(单独或任何组合的)中的任一者的编码和/或解码的其他电子设备;
·TV、机顶盒、手机、平板电脑或执行根据如本文所述的实施方案、特征或实体(单独或任何组合的)中的任一个的编码和/或解码并且显示(例如使用监视器、屏幕或其他类型的显示器)所得的图像的其他电子设备;
·TV、机顶盒、手机、平板电脑或调谐(例如,使用调谐器)信道以接收包括点云信息的信号并执行根据如本文所述的实施方案、特征或实体(单独或任何组合的)中的任一个的编码和/或解码的其他电子设备。
·TV、机顶盒、手机、平板电脑或接收(例如,使用天线)包括点云信息的空中信号并执行根据如本文所述的实施方案、特征或实体(单独或任何组合的)中的任一个的编码和/或解码的其他电子设备。
·一种存储程序代码的计算机程序产品,该程序代码被计算机执行根据如本文所述的实施方案、特征或实体(单独或任何组合的)中的任一个的编码和/或解码;
·一种非暂态计算机可读介质包括可执行程序指令,该可执行程序指令使执行该指令的计算机实施根据如本文所述的实施方案、特征或实体(单独或任何组合的)中的任一个的编码和/或解码。

Claims (22)

1.一种装置,包括:
至少一个处理器,所述至少一个处理器被配置为接收编码比特流,所述编码比特流包括表示点云的压缩数据,其中,所述压缩数据是基于树形结构压缩的;以及
对所述编码比特流进行解码,其中,对所述编码比特流进行解码包括所述至少一个处理器还被配置为:
从所述树形结构的根节点开始:
从所述比特流中获得针对所述树形结构的当前节点的数据;
初始化所述当前节点的默认上下文;
基于来自所述当前节点的上下文信息和来自一个或多个可用相邻节点以及来自所述当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测所述当前节点的占用符号分布;以及
基于所述占用符号分布,使用自适应熵解码器来对所述当前节点的所述占用符号进行解码,
基于针对所述树形结构的至少一个节点的所述经解码的占用符号来确定扩展树。
2.一种方法,包括:
接收编码比特流,所述编码比特流包括表示点云的压缩数据,其中,所述压缩数据是基于树形结构压缩的;以及
对所述编码比特流进行解码,其中,所述解码包括:
从所述树的根节点开始:
从所述比特流中获得针对所述树的当前节点的数据;
初始化所述当前节点的默认上下文;
基于来自所述当前节点的上下文信息和来自一个或多个可用相邻节点以及来自所述当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测所述当前节点的占用符号分布;以及
基于所述占用符号分布,使用自适应熵解码器来对所述当前节点的所述占用符号进行解码,
基于针对所述树形结构的至少一个节点的所述经解码的占用符号来确定扩展树。
3.一种装置,包括:
至少一个处理器,所述至少一个处理器被配置为压缩表示点云的数据;以及
提供包括所述压缩数据的组合编码比特流,其中,所述至少一个处理器被配置为压缩所述数据,包括所述至少一个处理器还被配置为:
将包括在表示所述点云的所述数据中的原始点云几何数据转换为树表示;
初始化所述树中所有节点的上下文;
从所述树形结构的根节点开始:
基于来自所述当前节点的上下文信息和来自一个或多个相邻节点以及来自所述当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测所述树中的当前节点的占用符号分布;以及
基于所述预测的占用分布,使用自适应熵编码器将用于所述当前节点的占用符号编码为表示所述当前节点的编码比特流;
组合表示每个节点的所述编码比特流,以形成所述组合编码比特流,其中,所述组合编码比特流表示所述树。
4.一种方法,包括:
压缩表示点云的数据;以及
提供包括所述压缩数据的组合编码比特流,其中,所述压缩包括:
将包括在表示所述点云的所述数据中的原始点云几何数据转换为树表示;
初始化所述树中所有节点的上下文;
从所述树形结构的根节点开始:
基于来自所述当前节点的上下文信息和来自一个或多个相邻节点以及来自所述当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测所述树中的当前节点的占用符号分布;以及
基于所述预测的占用分布,使用自适应熵编码器将用于所述当前节点的占用符号编码为表示所述当前节点的编码比特流;
组合表示每个节点的所述编码比特流,以形成所述组合编码比特流,其中,所述组合编码比特流表示所述树。
5.一种装置,包括:
至少一个处理器,所述至少一个处理器被配置为接收编码比特流,所述编码比特流包括表示点云的压缩数据,其中,所述压缩数据是根据基于块的树形结构压缩的;以及
对所述编码比特流进行解码,其中,对所述编码比特流进行解码包括所述至少一个处理器还被配置为:
从所述编码比特流中获得分区比特流和一个或多个块比特流两者;
对所述分区比特流进行解码,以恢复指示所述点云数据的块结构的浅分区,其中,所述块结构中的每个块包括表示基于所述树形结构压缩的所述点云的所述数据的一部分;
对于每个块,通过以下方式解压缩所述块比特流:
从所述树形结构的根节点开始:
从所述比特流中获得针对与所述块相关联的所述树形结构的当前节点的数据;
初始化所述当前节点的默认上下文;
基于来自所述当前节点的上下文信息和来自一个或多个可用相邻节点以及来自所述当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测所述当前节点的占用符号分布;以及
基于所述占用符号分布,使用自适应熵解码器来对所述当前节点的所述占用符号进行解码,
基于针对所述树形结构的至少一个节点的所述经解码的占用符号来确定所述块的扩展树;以及
组合每个块的所述扩展树,以提供所述点云的扩展树。
6.一种方法,包括:
接收编码比特流,所述编码比特流包括表示点云的压缩数据,其中,所述压缩数据是根据基于块的树形结构压缩的;以及
对所述编码比特流进行解码,其中,所述解码包括:
从所述编码比特流中获得分区比特流和一个或多个块比特流两者;
对所述分区比特流进行解码,以恢复指示所述点云数据的块结构的浅分区,其中,每个块包括表示基于所述树形结构压缩的所述点云的所述数据的一部分;
对于每个块,通过以下方式解压缩所述块比特流:
从所述树形结构的根节点开始:
从所述比特流中获得针对与所述块相关联的所述树形结构的当前节点的数据;
初始化所述当前节点的默认上下文;
基于来自所述当前节点的上下文信息和来自一个或多个可用相邻节点以及来自所述当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测所述当前节点的占用符号分布;以及
基于所述占用符号分布,使用自适应熵解码器来对所述当前节点的所述占用符号进行解码,
基于针对所述树形结构的至少一个节点的所述经解码的占用符号来确定所述块的扩展树;以及
组合每个块的所述扩展树,以提供所述点云的扩展树。
7.一种装置,包括:
至少一个处理器,所述至少一个处理器被配置为压缩表示点云的数据;以及
提供包括所述压缩数据的组合编码比特流,其中,所述至少一个处理器被配置为压缩所述数据,包括所述至少一个处理器还被配置为:
基于浅树形结构将包括在表示所述点云的所述数据中的原始点云几何数据转换为数据块;
移位每个数据块的原点,以将每个块中的数据的原始坐标移位到局部块坐标;
将每个块转换为单独的树形结构;
初始化每个块中的所有节点的上下文;
通过以下方式压缩每个块的所述数据:
从与所述块相关联的所述树形结构的根节点开始:
基于来自所述当前节点的上下文信息和来自一个或多个相邻节点以及来自所述当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测所述树中的当前节点的占用符号分布;以及
基于所述预测的占用分布,使用自适应熵编码器将用于所述当前节点的占用符号编码为表示所述当前节点的编码比特流;
组合表示所述块的每个节点的所述编码比特流,
以形成表示所述块的所述树形结构的所述块的编码比特流;以及
组合每个块的所述编码比特流和关于所述浅树形结构的信息,以形成所述组合编码比特流。
8.一种方法,包括:
压缩表示点云的数据;以及
提供包括所述压缩数据的组合编码比特流,其中,压缩所述数据包括:
基于浅树形结构将包括在表示所述点云的所述数据中的原始点云几何数据转换为数据块;
移位每个数据块的原点,以将每个块中的数据的原始坐标移位到局部块坐标;
将每个块转换为单独的树形结构;
初始化每个块中的所有节点的上下文;
通过以下方式压缩每个块的所述数据:
从与所述块相关联的所述树形结构的根节点开始:
基于来自所述当前节点的上下文信息和来自一个或多个相邻节点以及来自所述当前节点的一个或多个祖先节点的特征信息,使用基于学习的熵模型来预测所述树中的当前节点的占用符号分布;以及
基于所述预测的占用分布,使用自适应熵编码器将用于所述当前节点的占用符号编码为表示所述当前节点的编码比特流;
组合表示所述块的所述树的每个节点的所述编码比特流,以形成表示所述块的所述树形结构的所述块的编码比特流;以及
组合每个块的所述编码比特流和关于所述浅树形结构的信息,以形成所述编码组合比特流。
9.根据权利要求1、3、5或7所述的装置或根据权利要求2、4、6或8所述的方法,其中,所述树表示包括八叉树或kd树或四叉树-二叉树(QTBT)或预测树中的一者。
10.根据权利要求1、3、5、7或9中任一项所述的装置,其中,所述至少一个处理器被配置为预测所述占用符号分布,还包括所述至少一个处理器被配置为以串行或并行方式预测所述树中的所有节点的所述占用符号分布。
11.根据权利要求2、4、6、8或9中任一项所述的方法,其中,预测所述占用符号分布包括以串行或并行方式预测所述树中的所有节点的所述占用符号分布。
12.根据前述权利要求中任一项所述的装置或方法,其中,所述基于学习的熵模型通过用于所述当前节点的兄弟节点的相同的基于学习的模型,使用所述一个或多个祖先节点的一个或多个兄弟节点的一个或多个深度特征,来预测所述占用符号分布。
13.根据前述权利要求中任一项所述的装置或方法,其中,所述基于学习的熵模型通过用于所述当前节点的兄弟节点的相同的基于学习的模型,使用在所述一个或多个祖先级别处的所有节点的一个或多个深度特征,来预测所述占用符号分布。
14.根据前述权利要求中任一项所述的装置或方法,其中,所述基于学习的熵模型通过单独的基于学习的模型,使用在所述一个或多个祖先级别处的所有节点的一个或多个深度特征,来预测所述占用符号分布。
15.根据权利要求13或14所述的方法或装置,其中,所述基于学习的模型针对比k+1更深的所有层,使用与所述当前节点相关联的父级k处的所有节点的一个或多个深度特征。
16.根据前述权利要求中任一项所述的方法或装置,其中,与所述树形结构的节点相关联的所述上下文包括父节点的占用、所述关联节点在所述树形结构内的深度或级别、所述关联节点的八分区以及所述关联节点的空间位置。
17.一种包括指令的计算机程序产品,所述指令在由计算机执行时使所述计算机实施根据权利要求2、4、6、8、9或11至16中任一项所述的方法。
18.一种存储可执行程序指令的非暂态计算机可读介质,所述可执行程序指令使执行所述指令的计算机执行根据权利要求2、4、6、8、9或11至16中任一项所述的方法。
19.一种信号,所述信号包括表示根据权利要求4或8中任一项或从属于权利要求4或8的权利要求9或11至16中任一项所述的方法压缩的点云的数据。
20.一种比特流,所述比特流被格式化为包括表示根据权利要求4或8中任一项或从属于权利要求4或8的权利要求9或11至16中任一项所述的方法压缩的点云的数据。
21.一种设备,包括:
根据权利要求1、3、5、7、9、10或12至16中任一项所述的装置;以及
以下中的至少一者:(i)天线,所述天线被配置为接收信号,所述信号包括表示图像信息的数据;(ii)频带限制器,所述频带限制器被配置为将所接收的信号限制为包括表示所述图像信息的所述数据的频带;和(iii)显示器,所述显示器被配置为显示来自所述图像信息的图像。
22.根据权利要求21所述的设备,其中,所述设备包括电视机、电视机信号接收器、机顶盒、网关设备、移动设备、蜂窝电话、平板电脑、计算机、膝上型电脑或其他电子设备中的一者。
CN202280013030.9A 2021-01-11 2022-01-10 一种用于点云处理的装置和方法 Pending CN116803082A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163135775P 2021-01-11 2021-01-11
US63/135,775 2021-01-11
PCT/US2022/011764 WO2022150680A1 (en) 2021-01-11 2022-01-10 Apparatus and method for point cloud processing

Publications (1)

Publication Number Publication Date
CN116803082A true CN116803082A (zh) 2023-09-22

Family

ID=80123287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280013030.9A Pending CN116803082A (zh) 2021-01-11 2022-01-10 一种用于点云处理的装置和方法

Country Status (5)

Country Link
US (1) US20240078715A1 (zh)
EP (1) EP4275354A1 (zh)
KR (1) KR20230131878A (zh)
CN (1) CN116803082A (zh)
WO (1) WO2022150680A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11676310B2 (en) * 2019-11-16 2023-06-13 Uatc, Llc System and methods for encoding octree structured point cloud data using an entropy model
WO2023059727A1 (en) * 2021-10-05 2023-04-13 Interdigital Vc Holdings, Inc. Method and apparatus for point cloud compression using hybrid deep entropy coding
WO2024081133A1 (en) * 2022-10-13 2024-04-18 Interdigital Vc Holdings, Inc. Sparse tensor-based bitwise deep octree coding
WO2024086154A1 (en) * 2022-10-18 2024-04-25 Interdigital Patent Holdings, Inc. Tree-based deep entropy model for point cloud compression
CN117014633B (zh) * 2023-10-07 2024-04-05 深圳大学 一种跨模态数据压缩方法、装置、设备及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4213096A1 (en) * 2018-01-18 2023-07-19 BlackBerry Limited Methods and devices for entropy coding point clouds
US11109071B2 (en) * 2019-01-09 2021-08-31 Tencent America LLC Method and apparatus for dynamic point cloud partition packing
US11122102B2 (en) * 2019-07-03 2021-09-14 Lg Electronics Inc. Point cloud data transmission apparatus, point cloud data transmission method, point cloud data reception apparatus and point cloud data reception method

Also Published As

Publication number Publication date
KR20230131878A (ko) 2023-09-14
WO2022150680A1 (en) 2022-07-14
EP4275354A1 (en) 2023-11-15
US20240078715A1 (en) 2024-03-07

Similar Documents

Publication Publication Date Title
US20240078715A1 (en) Apparatus and method for point cloud processing
EP4075804A1 (en) Point cloud data transmission device, transmission method, processing device and processing method
US11328440B2 (en) Point cloud data transmission apparatus, point cloud data transmission method, point cloud data reception apparatus, and point cloud data reception method
EP3467778A1 (en) A method and apparatus for encoding/decoding the geometry of a point cloud representing a 3d object
EP4131975A1 (en) Point cloud data transmission apparatus, point cloud data transmission method, point cloud data reception apparatus, and point cloud data reception method
US20230059625A1 (en) Transform-based image coding method and apparatus therefor
WO2023132919A1 (en) Scalable framework for point cloud compression
CN116724212A (zh) 熵编码/解码自旋传感器头捕获的点云几何数据的方法和装置
AU2022409165A1 (en) Hybrid framework for point cloud compression
WO2023113917A1 (en) Hybrid framework for point cloud compression
WO2023081009A1 (en) State summarization for binary voxel grid coding
EP4330920A1 (en) Learning-based point cloud compression via tearing transform
WO2023059727A1 (en) Method and apparatus for point cloud compression using hybrid deep entropy coding
US20230316584A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
RU2818834C2 (ru) Способ и устройство кодирования/декодирования геометрических данных облака точек с использованием режима азимутального кодирования
WO2023091260A1 (en) Outlier grouping based point cloud compression
EP4325853A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
WO2022271602A1 (en) Learning-based point cloud compression via unfolding of 3d point clouds
WO2022213571A1 (en) Method and apparatus of encoding/decoding point cloud geometry data using azimuthal coding mode
US20240185475A1 (en) Method and apparatus of encoding/decoding point cloud geometry data using azimuthal coding mode
WO2023081007A1 (en) Learning-based point cloud compression via adaptive point generation
WO2024081133A1 (en) Sparse tensor-based bitwise deep octree coding
WO2023198426A1 (en) Dynamic block decimation in v-pcc decoder
CN117980952A (zh) 编码/解码由至少一个传感器感测的点云几何数据的方法和装置
CN116670714A (zh) 编码/解码自旋传感器头捕获的点云几何数据的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination