CN116569219A - 任务感知点云降采样 - Google Patents
任务感知点云降采样 Download PDFInfo
- Publication number
- CN116569219A CN116569219A CN202180076586.8A CN202180076586A CN116569219A CN 116569219 A CN116569219 A CN 116569219A CN 202180076586 A CN202180076586 A CN 202180076586A CN 116569219 A CN116569219 A CN 116569219A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- point
- feature vector
- level feature
- anchor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/001—Model-based coding, e.g. wire frame
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/004—Predictors, e.g. intraframe, interframe coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/56—Particle system, point based geometry or rendering
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种方法,其包括使用神经网络来生成针对点云的每个点的点级特征向量和针对该点云的集合级特征向量。基于该点级特征向量和该集合级特征向量来生成代表性位置。输出该代表性位置和该集合级特征向量作为集合描述符。
Description
1.技术领域
本原理总体涉及点云处理的领域。本文档也在点云信号的分析、内插、表示和理解的上下文中得到理解。
2.背景技术
本部分旨在向读者介绍本领域的各个方面,这些方面可能与下文描述和/或要求保护的本发明原理的各个方面有关。据信该讨论有助于为读者提供背景信息,以促进更好地理解本发明原理的各个方面。因此,应当理解,这些陈述应当从这个角度来解读,而不是承认现有技术。
点云是跨若干商业领域使用的数据格式,包括自动驾驶、机器人、AR/VR、土木工程、计算机图形以及动画/电影产业。3D LIDAR传感器已经被部署在自驱动汽车中,并且经济适用的LIDAR传感器被包括在例如Apple iPad Pro 2020和Intel RealSense LIDAR相机L515中。随着感测技术的进步,三维(3D)点云数据已经变得更加实用并且被期望成为所提到的应用中的有价值的赋能者。
同时,点云数据可消耗大部分网络流量,例如在5G网络上连接的汽车以及沉浸式通信(虚拟或增强现实(VR/AR))当中。点云理解和通信将基本上通向有效的表示格式。特别地,出于世界建模和感测的目的,需要正确地组织和处理原始点云数据。
此外,点云可表示包含多个移动对象的相同场景的顺序扫描。与从静态场景或静态对象捕获的静态点云相比,这些被称为动态点云。动态点云通常被组织成帧,其中不同的帧在不同的时间被捕获。
3D点云数据基本上是对象或场景的表面的离散样本。为了用点样本完全表示真实世界,在实践中,需要大量的点。例如,典型的VR沉浸式场景包含数百万个点,而点云地图通常包含数亿个点。因此,此类大规模点云的处理在计算上是昂贵的,特别是对于具有有限计算能力的消费设备而言,例如智能电话、平板电脑和汽车导航系统。
点云数据是各种应用的关键,诸如自动驾驶、VR/AR、地形测量和地图制作等。然而,消耗大点云直接带来显著的计算成本。因此,自适应地对输入点云进行降采样以促进后续任务是重要的。此类降采样过程对于场景流估计、点云压缩和其他一般计算机视觉任务是有用的。
3.发明内容
以下呈现本发明原理的简化概述,以便提供对本发明原理的一些方面的基本理解。本发明内容不是本发明原理的广泛概述。不旨在识别本发明原理的关键或重要元素。以下发明内容仅以简化形式呈现本发明原理的一些方面,作为下面提供的更详细描述的前言。
本原理涉及一种方法,其使用神经网络来生成针对点云的每个点的点级特征向量和针对点云的集合级特征向量。基于点级特征向量和集合级特征向量来生成代表性位置。输出代表性位置和集合级特征向量作为集合描述符。
在另一个实施方案中,一种用于从数据流检索点云的方法从数据流获得经降采样的点云和残差点云。将经降采样的点云馈送到预测器构建模块以获得预测点云。通过将预测点云添加到残差点云来检索点云。
本原理还涉及一种设备,其包括与至少一个存储器相关联的至少一个处理器,该至少一个处理器被配置为实现与上述方法相对应的实施方案。
4.附图说明
将更好地理解本公开,并且在阅读以下描述、参考附图的描述之后,将出现其他特定特征和优点,其中:
图1示出了根据本原理的非限制性实施方案的方法10,该方法对具有n个点的输入点云X进行降采样,以用于后续机器任务;
图2概略地示出了根据本原理的非限制性实施方案的SD函数;
图3示出了其中点A被选择为代表性点的示例,因为该点具有最大权重;
图4示出了根据本原理对输入点云进行降采样的第五实施方案;
图5概略地示出了如何将本原理的任务感知点云降采样方法与后续机器任务集成;
图6示出了集成的任务感知点云降采样方法的第七实施方案;
图7示出了根据本原理的使用任务感知点云降采样方法的实施方案的点云压缩方法;
图8示出了本原理的解码器实施方案;并且
图9示出了可被配置为实现关于图1描述的方法的设备30的示例性架构。
5.具体实施方式
下文将参考附图更全面地描述本发明原理,在该附图中示出了本发明原理的示例。然而,本发明原理可以许多替代形式体现,并且不应被解释为限制于本文阐述的示例。因此,虽然本发明原理易受各种修改和替代形式的影响,但是其具体示例通过附图中的示例示出,并且本文将详细描述。然而,应当理解,不存在将本发明原理限制为所公开的特定形式的意图,但是相反,本公开用于涵盖落入由权利要求书限定的本发明原理的实质和范围内的所有修改、等同物和替代方案。
本文使用的术语仅出于描述特定示例的目的,并且不旨在限制本发明原理。如本文所用,单数形式“一”、“一个”和“该”也旨在包括复数形式,除非上下文另有明确说明。将会进一步理解,当用于本说明书时,术语“包括”和/或“包含”指定存在所述特征、整数、步骤、操作、元件和/或分量,但不排除一个或多个其他特征、整数、步骤、操作、元件、分量和/或其组的存在或添加。此外,当元件被称为“响应”或“连接”到另一元件时,它可以直接响应或连接到另一元件,或者可以存在中间元件。相反,当元件被称为“直接响应”或“直接连接”到其他元件时,不存在中间元件。如本文所用,术语“和/或”包括列出的相关联项中的一者或多者的任何和所有组合,并且可以缩写为“/”。
应当理解,尽管在本文中可使用术语第一、第二等来描述各种元件,但是这些元件不应受这些术语限制。这些术语仅用于将一个元件与另一元件区分开。例如,在不脱离本发明原理的教导内容的情况下,第一元件可以被称为第二元件,并且类似地,第二元件可以被称为第一元件。
尽管一些图示包括通信路径上的箭头以显示主通信方向,但是应理解,通信可以在与所描绘箭头相反的方向上发生。
关于其中每个框表示电路元件、模块或代码部分的框图和操作流程图描述了一些示例,该代码部分包括用于实现指定逻辑功能的一个或多个可执行指令。还应当指出的是,在其他具体实施中,框中标注的功能可能不按标注的顺序出现。例如,连续显示的两个框实际上可基本上同时执行,或者这些框有时可根据所涉及的功能以相反的顺序执行。
本文中的“根据一个示例”或“在一个示例中”的参考意味着结合示例描述的特定特征、结构或特性可以包括在本发明原理的至少一个具体实施中。说明书中各个地方的“根据一个示例”或“在一个示例中”的短语的出现不一定全部参考同一示例,也不一定是与其他示例相互排斥的单独的或替代的示例。
在权利要求书中出现的附图标号仅通过说明的方式,并且对权利要求书的范围没有限制作用。虽然未明确描述,但本示例和变型可以任何组合或子组合采用。
汽车工业和自动驾驶汽车是可使用点云的领域。自动驾驶汽车应该能够“探测”其环境,以基于其周围环境的实际情况作出良好的驾驶决策。典型的传感器如激光雷达(LIDAR)产生由决策引擎使用的(动态)点云。这些点云并非旨在被人眼看到,并且它们通常是稀疏的,不一定是彩色的,并且是动态的,具有高的捕获频率。点云可具有其他属性,如由LIDAR提供的反射率,因为该属性指示被感测对象的材料,并且可有助于作出决策。
虚拟现实(VR)和沉浸式世界已经被许多人广泛地讨论、预见为2D平面视频的未来。基本理念是使观看者沉浸在他周围的环境中,这与标准TV相反,在标准TV中他仅观看他前方的虚拟世界。根据观察者在环境中的自由度,沉浸感有若干层次。点云是分布VR世界的良好格式候选。它们可以是静态的或动态的,并且通常具有平均大小,例如一次不超过数百万个点。
点云还可用于各种目的,诸如文化遗产/建筑物,其中如雕像或建筑物的对象以3D形式扫描,以便在不发送或物理地访问对象的情况下共享该对象的空间构型。这还提供了一种保存关于对象的信息和数据的方式,以防该对象可能被破坏;例如,地震后的寺庙。此类点云通常是静态的、彩色的并且相对较大。
另一种用例是在地形图和制图中,其中使用3D表示,并且地图不限于平面并且可包括地形凹凸特征。谷歌地图是3D地图的一个示例,但其使用网格而不是点云。然而,点云可以是用于3D地图的合适的数据格式,并且此类点云通常是静态的、有色的并且相对较大。
经由点云的世界建模和感测可以是一种允许机器获得关于它们周围的3D世界的认知的技术,其对以上讨论的应用有帮助。
3D点云数据基本上是对象或场景的表面的离散样本。为了用点样本完全表示真实世界,在实践中,需要大量的点。因此,此类大规模点云的处理在计算上是昂贵的,特别是对于具有有限计算能力的消费设备而言,例如智能电话、平板电脑和汽车导航系统。
为了以经济适用的计算成本处理输入点云,一种解决方案是首先对输入点云进行降采样,其中经降采样的点云概括输入点云的几何形状,同时具有显著更少的点。然后,将经降采样的点云馈送到后续机器任务以供进一步消耗。然而,点云数据可用于各种任务,诸如场景流估计、分类、检测、分段和压缩等。不同的任务专注于点云的不同方面。例如,分类依赖于几何形状的凸起点,而对象分割需要将一个对象上的点与其他对象区分开,并且场景流估计对点云的动态进行计数。因此,任务感知的自适应点云降采样算法是有帮助的。因此,当面对不同的任务时,可以将相同的点云降采样成不同的点云以促进后续任务。
图1示出了根据本原理的方法10,该方法对具有n个点的输入点云X进行降采样,以用于后续机器任务。在步骤11处,选择具有m个点(m<n)的初始经降采样的点云。使用任何适用的方法来选择输入点云的m个点(如点110)的集合。在步骤12处,针对初始经降采样的点云中的点110(本文称为“锚定点”),从点云X聚集其附近的点,从而得到局部点集120。以这种方式,初始经降采样的点云中的每个锚定点与来自点云X的局部点集相关联。在步骤13处,将每个点集馈送到本文称为集合蒸馏(SD)函数的模块,从而产生代表性点130及其对应的集合级特征。
根据本原理,给定点集(以及其他辅助信息,如果可用的话),SD函数首先计算针对点集中的每个点的点级特征向量,以及描述整个点集的集合级特征向量。例如,使用根据本原理构造的神经网络模块(本文称为P-Net)来完成该步骤。通过采用每个点的点级特征向量和集合级特征向量作为输入,计算代表性位置。该步骤通过确定性方法或另一个神经网络模块来实现。此后,SD函数输出代表性位置以及表示点集的几何形状的集合级特征。通过使用SD函数,所获得的代表性位置不限于点集内的点。
在步骤14处,聚集m个代表性点作为更新的经降采样的点云,其被馈送到后续任务以供进一步处理。任选地将m个集合级特征输出并馈送到后续任务。
降采样方法10与后续任务集成并且以端到端方式进行训练,从而允许降采样方法10是任务感知的,即,适应于机器任务。另一方面,通过端到端训练,通过方法10获得的经降采样的点云能够捕获特定机器任务的底层几何结构,而不管如何从场景采样原始输入点云。具体地,针对相同的后续机器任务,给定对相同的表面进行采样的两个不同的点云,即一个点云是另一个点云的重新采样版本,方法10得到彼此非常相似的两个经降采样的点云。
图2概略地示出了SD函数的示例。给定点集20,SD函数将该点集馈送到PointNet架构,如描述于例如“PointNet:Deep learning on point sets for 3D classificationand segmentation”,proc.IEEE Conference on Computer Vision and PatternRecognition,第652至660页,2017,C.R.Qi、H.Su、K.Mo、L.J.Guibas。PointNet的模块21利用共享多层感知(MLP)来计算针对每个点的点级特征向量22。然后利用最大池化操作23来聚集这些点级特征向量22,从而产生描述整个点集的集合级特征向量24。
根据本原理,针对整个点集中的点计算权重集合26。为此,每个点级特征向量22与集合级特征向量24之间的关联度值(例如,权重估计)由计算它们之间的内积的模块25提供。该关联度值描述了其相关联点表示整个点集的程度。模块27利用计算出的权重26来执行点的加权平均28,以生成点集的代表性位置。使用Softmax(·)函数将关联度值转换为权重集合,使得所有权重值大于0并且合计为1。利用所获得的权重对点集中的所有点的x坐标执行加权平均,从而得到所生成的代表性点的x坐标。相似地,利用权重来计算代表性点的y和z坐标。所生成的x、y和z坐标形成代表性点的位置。SD函数输出代表性点以及通过PointNet生成的集合级特征。
在本原理的第一实施方案中,使用所呈现的SD函数对包含n个点的给定点云X执行降采样。在第一步骤处,使用最远点采样(FPS)方法来生成具有m个点的初始经降采样的点云,其中所获得的点称为“锚定点”。最远点采样是已知的点云降采样方法,并且描述于例如“The Farthest point strategy for progressive image sampling”,IEEE Trans.onImage Processing,第6卷,第9期,第1306至1315页,1997。FPS基于重复地选择最小探测区域中的下一个采样点。给定点云X及其经采样的子集,FPS算法利用某种距离度量从X中的剩余点选择最远点到子集。然后将该最远点添加到该子集。在此,通过从X中随机挑选点来初始化子集。FPS算法重复该点选择过程,直到满足特定条件,例如,子集中的点的数量达到预定义阈值。该经典采样方法是确定性的,并且不考虑下游任务。
在第一实施方案的第二步骤处,针对每个锚定点,通过球查询过程来收集其附近的点,即识别并收集X中位于距锚定点预定义距离r内的所有点,从而形成针对该锚定点的局部点集。在第三步骤处,将每个局部点集(总共m)单独地馈送到SD函数,从而得到带有m个集合级特征的更新的经降采样的点云(具有m个点)。在第四步骤处,将m个经降采样的点(并且任选地,集合级特征)馈送到后续任务。该降采样方法结合后续机器任务端到端地训练,以使SD函数中的神经网络层是任务感知的,即,适应于后续任务。
在第二实施方案中,SD函数的逐点权重的计算有区别。具体地,在该实施方案的SD函数中,针对点集中的每个点计算距离,该距离是其点级特征向量与集合级特征向量之间的欧几里得距离。本文中,针对点i,该距离值被表示为di。将di值插入到高斯内核中以计算权重,即 σ为常数。将点集的权重值进一步归一化,使得它们合计为一。然后,使用所获得的权重对点集中的点执行加权平均,如关于第一实施方案所呈现的,从而得到代表性点位置。SD函数返回代表性点以及通过PointNet获得的集合级特征。
在第三实施方案中,通过选择局部点集中的临界点来获得每个经降采样的点。该实施方案与第一实施方案的区别在于SD函数,其中SD函数从输入点集选择代表性点。类似于第一实施方案,给定点集,SD函数计算针对整个集合中的每个点的权重集合。然后,SD函数直接返回具有最大权重的点作为代表性点,并且返回通过PointNet生成的集合级特征。图3示出了其中点A被选择为代表性点的示例,因为该点具有最大权重。在第三实施方案的变体中,也可以使用第二实施方案中计算点集中的点的权重的方法,其中通过高斯内核来获得权重。
在第四实施方案中,SD函数采用来自点云X的局部点集以及指示哪个点是点集的锚定点的独热向量作为输入。因此,该实施方案中的SD函数可以利用关于锚定点位置的认知来生成代表性点。具体地,在SD函数中,在PointNet的计算之前,通过附加锚定点的位置向量(以及锚定点的特征向量,其是SD函数的另一个输入,如果可用的话),对点集中的每个点的位置向量进行扩增。在附加了锚定位置的信息的情况下,然后通过PointNet处理扩增点集,从而得到每个点的点级特征向量和集合级特征向量。
图4示出了根据本原理对输入点云进行降采样的第五实施方案。代替通过加权平均生成代表性点,该实施方案直接修改锚定点41的位置,然后返回修改位置42作为代表性点。具体地,与第四实施方案类似,该实施方案中的SD函数也采用局部点集20以及指示哪个点是点集的锚定点41的独热向量作为输入。一旦获得点级特征向量22和集合级特征24,就将它们馈送到另一个神经网络43,本文称为“M-Net”。具体地,M-Net输出与锚定点位置有关的修改向量44;其可以用PointNet架构来实现。通过将修改向量44和锚定位置41相加来获得代表性点位置42。最后,SD函数仍然返回代表性点和集合级特征向量。第五实施方案可以与第四实施方案组合,在第四实施方案中,馈送到SD函数的点首先用锚定位置的信息进行扩增。
图5概略地示出了如何将本原理的任务感知点云降采样方法与后续机器任务集成。例如,在不失一般性的情况下,考虑针对3D点云的场景流估计任务来说明该第六实施方案。该任务采用点云序列中的两个连续3D点云帧(例如,第一点云帧51和第二点云帧52)作为输入,并且旨在估计从第一点云帧到第二点云帧的场景流,即,每个3D点从第一点云帧到第二点云帧的移动。难点在于从一个帧到连续帧,点的索引会丢失。在这种情况下,输出场景流53包括3D向量集合,其中每个3D向量与第一点云帧的点相关联。3D向量描述了来自第一点云帧的点如何物理地移动到第二点云帧的表面。换句话讲,两个点云帧之间的场景流描述了点云的动态,这对于许多实际应用(例如,自动驾驶、AR/VR和机器人)是必要的。
在该第六实施方案中,多次应用在先前实施方案中呈现的降采样方法。该实施方案的总体神经网络架构采用具有跳跃连接的沙漏结构。本第六实施方案的方法包括第一阶段:分别从第一点云帧和第二点云帧生成第一经降采样的点云和第二经降采样的点云。这是针对两个输入使用两个任务感知降采样模块54a和54b(基于先前实施方案中的任一者)来实现的。点云序列的两个连续点云可以被认为是一个点云,其中点携带指示它们是属于第一点云还是属于第二点云的时间信息。实际上,点云序列的两个点云共享相同的参考系,并且它们的点可以合并到一个点云中。在第二阶段处,通过从第二经降采样的点云搜索其最近相邻点,针对第一经降采样的点云中的每个点聚集点集。针对第一经降采样的点云中的每个点,该方法使用该点的信息(其位置和点级特征)以及其相关联的最近相邻点集来计算融合来自两个点云帧的信息的第一帧间特征。该第二阶段使用神经网络模块55(本文称为“F1-Net”)来完成。在第三阶段处,利用根据本原理的任务感知降采样模块54c对第一经降采样的点云进一步进行降采样,从而采用点和相关联的帧间特征作为输入。在第四阶段处,使用经上采样的神经网络模块56(本文称为“F2-Net”)针对第一点云帧中的每个点计算第二帧间特征。该F2-Net模块对应于集合上卷积层的堆栈,例如,如呈现于“FlowNet3D:Learning scene flow in 3D point clouds”,proc.IEEE Conference on ComputerVision and Pattern Recognition,第529至537页,2020。此类神经网络模块分层地内插逐点特征。在第五阶段处,使用特征到流变换神经网络模块57(本文称为“F3-Net”)针对第一点云帧中的每个点计算场景流向量。F3-Net用逐点MLP层来实现。根据本原理,在任务感知降采样模块与F2-Net之间添加跳跃连接以合并来自早期层的信息。
使用如“FlowNet3D”中描述的端点错误(EPE)损失函数来端到端地训练图5的整个神经网络架构,其包括任务感知降采样模块54a-c以及其他神经网络模块。在训练过程之后,所提出的任务感知降采样模块变得与其他神经网络模块很好地集成,这促进估计准确的场景流向量。
在图5中,关于场景流估计任务描述了集成任务感知点云降采样方法。在不失一般性的情况下,相同的原理可以应用于处理如上所述的点云的任何其他任务。
图6示出了集成的任务感知点云降采样方法的第七实施方案。该第七实施方案基于两个输入点云帧51和52来估计场景流53。该方法迭代地更新估计的场景流,以通过流内插模块61改进其精度。使用上文关于图5描述的方法来估计第一点云帧51的初始逐点场景流。基于该初始场景流,针对第一经降采样的点云来生成逐点场景流。这是基于场景流内插神经网络模块61(本文称为“I-Net”)来实现的。I-Net以与“FlowNet3D”中描述的集合上卷积层相同的方式来实现。经由将第一经降采样的点云中的每个点移位其相关联的场景流向量来生成经移位的经降采样的点云。然后,通过从第二经降采样的点云搜索其最近相邻点,针对经移位的经降采样的点云中的每个点聚集点集。以这种方式,第一经降采样的点云中的每个点与其移位版本以及使用该移位版本作为查询点的更新的最近相邻点集相关联。这些更新的最近相邻点集对于场景流估计更加准确/信息丰富。
利用第一经降采样的点云和所有更新的最近相邻点集,通过再次执行F1-Net 55、第二任务感知降采样模块54c、F2-Net 56和F3-Net 57,得到第一点云帧的第二逐点场景流。该阶段的另选方案是基于经移位的经降采样的点云以及更新的最近相邻点集,再次执行F1-Net、第二任务感知降采样模块F2-Net和F3-Net,从而得到残差逐点场景流。通过将残差逐点场景流添加到初始逐点场景流,可以获得第一点云帧的第二逐点场景流。最后,输出第二逐点场景流作为结果。该递归场景流估计方案可以迭代地执行多于两次迭代,直到满足特定条件,例如,迭代次数达到预定义阈值。
对于该第七实施方案,关于场景流估计描述了集成任务感知点云降采样方法。在不失一般性的情况下,相同的迭代原理可以应用于处理如上所述的点云的任何其他任务。
图7示出了根据本原理的使用任务感知点云降采样方法的实施方案的点云压缩方法。在该编码器实施方案中,经降采样的点云用于构建用于预测编码任务的预测点云。给定待编码的输入点云X,使用如关于先前实施方案中的一者描述的任务感知点云降采样方法71来生成经降采样的点云。一方面,由第一熵编码器72对经降采样的点云以及任选地所生成的集合级特征向量进行编码,从而得到第一比特流BS1;而另一方面,将经降采样的点云以及任选地所生成的集合级特征向量馈送到预测器构建模块73,该预测器构建模块致力于生成预测点云XP,其接近于X。最后,第二熵编码器74对残差点云XR=X-XP进行编码,从而得到第二比特流BS2。将这两个比特流一起发送到解码器。熵编码器72和74可以是无损的或有损的。
图8示出了本原理的解码器实施方案。经降采样的点云(以及特征向量,如果可用的话)由解码器模块81从第一比特流BS1解码,并且被馈送到预测器构建模块82以获得预测点云并行地或顺序地,残差点云/>由解码器模块83从第二比特流BS2解码。通过累加和/>获得重构点云/>
该解码器实施方案可以用于帧间预测编码或帧内预测编码。它在两个方面区别于传统的可缩放编码。另一方面,解码器不将经降采样的点云限制为输入点云的子集。另一方面,除了经降采样的点云之外,还可以采用关于图7的编码器的任务感知降采样模块所产生的特征向量来生成预测点云,这给予本预测编码方案更多的灵活性。
图9示出了可被配置为实现关于图1、图5、图6、图7和图8描述的方法的设备30的示例性架构。根据本原理的编码器和解码器的不同实施方案可以实现该架构。另选地,根据本原理的编码器和解码器中的每个模块可以是根据图9的架构的设备,其例如经由其总线31和/或经由I/O接口36链接在一起。
设备30包括通过数据和地址总线31连接在一起的以下元件:
·微处理器32(或CPU),该微处理器是例如DSP(或数字信号处理器):
·ROM(或只读存储器)33;
·RAM(或随机存取存储器)34;
·存储接口35;
·I/O接口36,该I/O接口用于从应用程序接收要传输的数据;以及
·电源,例如电池(未示出)。
根据一个示例,电源在设备外部。在每个提到的存储器中,说明书中使用的词语“寄存器”可以对应于小容量的区域(一些位)或非常大的区域(例如,整个程序或大量接收或解码的数据)。ROM 33至少包括程序和参数。ROM 33可以根据本发明原理存储用于执行技术的算法和指令。当接通时,CPU 32上载RAM中的程序并执行对应指令。
RAM 34包括寄存器中的由CPU 32执行并在设备30的接通之后上载的程序、寄存器中的输入数据、寄存器中的方法的不同状态中的中间数据以及用于在寄存器中执行方法的其他变量。
本文所述的具体实施可在例如方法或过程、装置、计算机程序产品、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如,仅作为方法或设备讨论),讨论的特征的具体实施也可以其他形式(例如,程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的装置(诸如例如处理器)中实施,该装置包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,诸如例如计算机、手机、便携式/个人数字助理(“PDA”)以及便于最终用户之间信息通信的其他设备。
根据本公开的示例,设备30属于包括以下各项的集合:
·移动设备;
·通信设备;
·游戏设备;
·平板电脑(或平板计算机);
·膝上型电脑;
·静止图片或视频相机,例如配备有深度传感器;
·静止图片或视频相机的架子;
·编码芯片;
·服务器(例如广播服务器、视频点播服务器或web服务器)。
本文描述的各种过程和特征的具体实施可以体现于各种不同的设备或应用程序中,特别是例如与数据编码、数据解码、视图生成、纹理处理和图像以及相关纹理信息和/或深度信息的其他处理相关联的设备或应用程序。此类设备的示例包括编码器、解码器、处理来自解码器的输出的后处理器、向编码器提供输入的预处理器、视频编码器、视频解码器、视频编解码器、web服务器、机顶盒、膝上型电脑、个人计算机、蜂窝电话、PDA和其他通信设备。应当清楚的是,设备可以是移动的,甚至安装在移动车辆中。
另外,方法可以由处理器执行的指令来实现,并且此类指令(和/或由具体实施产生的数据值)可以存储在处理器可读介质上,诸如例如集成电路、软件载体或其他存储设备,诸如例如硬盘、紧凑型磁盘(“CD”)、光盘(诸如例如,DVD,通常称为数字通用光盘或数字视频光盘)、随机存取存储器(“RAM”)或只读存储器(“ROM”)。指令可以形成在处理器可读介质上有形地体现的应用程序。指令可以是例如硬件、固件、软件或组合。指令可以在例如操作系统、单独应用程序或两者的组合中发现。因此,处理器可以被表征为例如被配置为执行过程的设备和包括具有用于执行过程的指令的处理器可读介质(诸如存储设备)的设备。此外,除了或代替指令,处理器可读介质可以存储由具体实施产生的数据值。
对于本领域的技术人员将显而易见的是,具体实施可产生格式化为携带例如可存储或可传输的信息的各种信号。信息可包括例如用于执行方法的指令或由所述具体实施中的一个具体实施产生的数据。例如,信号可以被格式化为作为数据携带用于写入或阅读所描述的实施方案的语法的规则,或作为数据携带由所描述的实施方案写入的实际语法值的数据。此类信号可格式化为例如电磁波(例如,使用频谱的射频部分)或基带信号。格式化可包括例如对数据流进行编码并且使用经编码的数据流调制载体。信号携带的信息可为例如模拟或数字信息。如已知的,信号可通过多种不同的有线或无线链路传输。信号可存储在处理器可读介质上。
已描述了多个具体实施。但应理解的是,可以作出许多修改。例如,可以组合、补充、修改或移除不同具体实施的元件以产生其他具体实施。另外,普通技术人员将理解,其他结构和过程可以被替换为所公开的那些,并且所得具体实施将以至少基本上相同的方式执行至少基本上相同的功能,以实现与所公开的具体实施至少基本相同的结果。因此,本申请考虑了这些和其他具体实施。
Claims (20)
1.一种方法,所述方法包括:
使用神经网络来生成针对点云的每个点的点级特征向量和针对所述点云的集合级特征向量;
基于所述点级特征向量和所述集合级特征向量来生成代表性位置;以及
输出所述代表性位置和所述集合级特征向量作为集合描述符。
2.根据权利要求1所述的方法,其中生成所述代表性位置包括:
基于所述点级特征向量与所述集合级特征向量之间的相似性度量来计算针对所述点云中的每个点的加权因子;以及
通过对所有点使用其加权因子进行加权平均来生成所述代表性位置。
3.根据权利要求1所述的方法,其中生成所述点级特征向量和所述集合级特征向量包括:
访问所述点云的锚定点;
针对所述点云的每个点,通过将所述锚定点的位置向量附加到所述点来生成扩增点;以及
使用所述扩增点作为所述神经网络的输入。
4.根据权利要求3所述的方法,其中与所述锚定点相关联的特征向量用作所述神经网络的输入。
5.根据权利要求1所述的方法,其中生成所述代表性位置包括:
访问所述点云的锚定位置;
使用扩增神经网络来生成与所述锚定位置有关的修改向量;以及
通过将所述修改向量添加到所述锚定位置来生成所述代表性位置。
6.根据权利要求1至5中的一项所述的方法,其中首先通过任务感知降采样方法对所述点云进行降采样。
7.根据权利要求6所述的方法,其中所述任务感知降采样方法是预测编码任务,并且其中通过第一熵编码方法对所降采样的点云进行编码,并且将其馈送到预测器构建模块以获得预测点云,所述方法还包括:
通过第二熵编码方法对使用所述点云与所述预测点云之间的差值的残差点云进行编码。
8.根据权利要求7所述的方法,其中通过所述第一熵编码方法利用所降采样的点云对所述集合级特征向量进行编码。
9.一种用于从数据流检索点云的方法,所述方法包括:
从所述数据流获得经降采样的点云和残差点云;
将所述经降采样的点云馈送到预测器构建模块以获得预测点云;以及
通过将所述预测点云添加到所述残差点云来检索所述点云。
10.根据权利要求9所述的方法,其中从所述数据流获得集合级特征向量,并且将其馈送到所述预测器构建模块以获得所述预测点云。
11.一种设备,包括与存储器相关联的处理器,所述处理器被配置为:
使用神经网络来生成针对点云的每个点的点级特征向量和针对所述点云的集合级特征向量;
基于所述点级特征向量和所述集合级特征向量来生成代表性位置;以及
输出所述代表性位置和所述集合级特征向量作为集合描述符。
12.根据权利要求11所述的设备,其中所述处理器被配置为通过以下步骤来生成所述代表性位置:
基于所述点级特征向量与所述集合级特征向量之间的相似性度量来计算针对所述点云中的每个点的加权因子;以及
通过对所有点使用其加权因子进行加权平均来生成所述代表性位置。
13.根据权利要求11所述的设备,其中所述处理器被配置为通过以下步骤来生成所述点级特征向量和所述集合级特征向量:
访问所述点云的锚定点;
针对所述点云的每个点,通过将所述锚定点的位置向量附加到所述点来生成扩增点;以及
使用所述扩增点作为所述神经网络的输入。
14.根据权利要求13所述的设备,其中与所述锚定点相关联的特征向量用作所述神经网络的输入。
15.根据权利要求11所述的设备,其中所述处理器被配置为通过以下步骤来生成所述代表性位置:
访问所述点云的锚定位置;
使用扩增神经网络来生成与所述锚定位置有关的修改向量;以及
通过将所述修改向量添加到所述锚定位置来生成所述代表性位置。
16.根据权利要求11至15中的一项所述的设备,其中所述处理器首先使用任务感知降采样方法对所述点云进行降采样。
17.根据权利要求16所述的设备,其中所述任务感知降采样方法是预测编码任务,并且其中通过第一熵编码方法对所降采样的点云进行编码,并且将其馈送到预测器构建模块以获得预测点云,所述处理器被进一步配置为通过第二熵编码方法对使用所述点云与所述预测点云之间的差值的残差点云进行编码。
18.根据权利要求17所述的设备,其中通过所述第一熵编码方法利用所降采样的点云对所述集合级特征向量进行编码。
19.一种用于从数据流检索点云的设备,所述设备包括与存储器相关联的处理器,所述处理器被配置为:
从所述数据流获得经降采样的点云和残差点云;
将所述经降采样的点云馈送到预测器构建模块以获得预测点云;以及
通过将所述预测点云添加到所述残差点云来检索所述点云。
20.根据权利要求19所述的设备,其中从所述数据流获得集合级特征向量,并且将其馈送到所述预测器构建模块以获得所述预测点云。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063113129P | 2020-11-12 | 2020-11-12 | |
US63/113,129 | 2020-11-12 | ||
PCT/US2021/059074 WO2022104012A2 (en) | 2020-11-12 | 2021-11-12 | Task-aware point cloud down-sampling |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116569219A true CN116569219A (zh) | 2023-08-08 |
Family
ID=79170934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180076586.8A Pending CN116569219A (zh) | 2020-11-12 | 2021-11-12 | 任务感知点云降采样 |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP4244815A2 (zh) |
JP (1) | JP2023549320A (zh) |
CN (1) | CN116569219A (zh) |
MX (1) | MX2023005028A (zh) |
WO (1) | WO2022104012A2 (zh) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10911787B2 (en) * | 2018-07-10 | 2021-02-02 | Apple Inc. | Hierarchical point cloud compression |
-
2021
- 2021-11-12 MX MX2023005028A patent/MX2023005028A/es unknown
- 2021-11-12 WO PCT/US2021/059074 patent/WO2022104012A2/en active Application Filing
- 2021-11-12 JP JP2023525557A patent/JP2023549320A/ja active Pending
- 2021-11-12 CN CN202180076586.8A patent/CN116569219A/zh active Pending
- 2021-11-12 EP EP21835452.0A patent/EP4244815A2/en active Pending
Also Published As
Publication number | Publication date |
---|---|
MX2023005028A (es) | 2023-07-05 |
JP2023549320A (ja) | 2023-11-24 |
EP4244815A2 (en) | 2023-09-20 |
WO2022104012A2 (en) | 2022-05-19 |
WO2022104012A3 (en) | 2022-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11727603B2 (en) | Adaptive distance based point cloud compression | |
US11754685B2 (en) | Point cloud compression using a space filling curve for level of detail generation | |
US20210103780A1 (en) | Trimming Search Space For Nearest Neighbor Determinations in Point Cloud Compression | |
US20190311501A1 (en) | Hierarchical point cloud compression with smoothing | |
CN111627065A (zh) | 一种视觉定位方法及装置、存储介质 | |
KR20160032137A (ko) | 특징 기반 영상 집합 압축 | |
CN116803082A (zh) | 一种用于点云处理的装置和方法 | |
CN115861635B (zh) | 抗透射畸变的无人机倾斜影像语义信息提取方法及设备 | |
Fu et al. | Pt-flownet: Scene flow estimation on point clouds with point transformer | |
KR20230026296A (ko) | 이미지 처리 방법, 모델 훈련 방법, 전자기기, 자율주행 차량, 저장매체 및 컴퓨터 프로그램 | |
US20230410254A1 (en) | Task-aware point cloud down-sampling | |
CN113298097A (zh) | 基于卷积神经网络的特征点提取方法、设备及存储介质 | |
Tan et al. | 3D detection transformer: Set prediction of objects using point clouds | |
CN116569219A (zh) | 任务感知点云降采样 | |
CN116883708A (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN110490235B (zh) | 一种面向2d图像的车辆对象视点预测与三维模型恢复方法及装置 | |
CN115661929B (zh) | 一种时序特征编码方法、装置、电子设备及存储介质 | |
Song et al. | LBCNet: A lightweight bilateral cascaded feature fusion network for real-time semantic segmentation | |
WO2024217512A1 (en) | Method, apparatus, and medium for point cloud processing | |
CN118381927B (zh) | 基于多模态双向循环场景流的动态点云压缩方法、系统、存储介质及设备 | |
CN114005043B (zh) | 基于域转换和伪标签的小样本城市遥感影像信息提取方法 | |
KR20240127956A (ko) | 조직화되지 않은 3d 포인트 클라우드 분할 및 추상화를 위한 오목성 기반 그룹화 | |
CN116583852A (zh) | 自监督3d点云抽象 | |
CN118303023A (zh) | 基于离群值分组的点云压缩 | |
CN118575194A (zh) | 用于点云压缩的可缩放框架 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |