CN116188894A - 基于神经渲染的点云预训练方法、系统、设备及介质 - Google Patents

基于神经渲染的点云预训练方法、系统、设备及介质 Download PDF

Info

Publication number
CN116188894A
CN116188894A CN202211665153.9A CN202211665153A CN116188894A CN 116188894 A CN116188894 A CN 116188894A CN 202211665153 A CN202211665153 A CN 202211665153A CN 116188894 A CN116188894 A CN 116188894A
Authority
CN
China
Prior art keywords
dimensional
point cloud
color
rendering
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211665153.9A
Other languages
English (en)
Inventor
黄迪
贺通
欧阳万里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai AI Innovation Center
Original Assignee
Shanghai AI Innovation Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai AI Innovation Center filed Critical Shanghai AI Innovation Center
Priority to CN202211665153.9A priority Critical patent/CN116188894A/zh
Publication of CN116188894A publication Critical patent/CN116188894A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例涉及人工智能技术领域,特别涉及一种基于神经渲染的点云预训练方法、系统、设备及介质,该方法包括:首先,获取彩色和深度图像,并对彩色和深度图像进行三维反投影,得到三维点云;然后,提取三维点云中每个点的特征,得到点云特征;接下来,基于点云特征,构建三维特征体;然后,采用神经渲染将三维特征体渲染成不同视角的图像,得到二维颜色和深度图;最后,将二维颜色和深度图与对应视点输入的彩色和深度图像进行比较,得到网络的训练损失函数,并基于训练损失函数,对神经网络进行优化。本申请实施例提供的预训练方法,通过使用神经渲染来将三维场景投影至二维图像,实现了多个下游任务的显著性能提升。

Description

基于神经渲染的点云预训练方法、系统、设备及介质
技术领域
本申请实施例涉及人工智能技术领域,特别涉及一种基于神经渲染的点云预训练方法、系统、设备及介质。
背景技术
在图像领域,以有监督学习为代表的图像神经网络训练方式已经在多个下游视觉任务上获得很好的表现,比如物体分类和物体检测。然而,对于点云模态而言,由于三维标注的困难,往往只存在着非常少量的数据标注。在这样少量的数据上进行有监督训练,点云神经网络往往只能得到较低的精度和交叉较差的泛化性能。因此,针对点云数据设计一种不需要大量人工标注的网络训练方式,是非常必要的。
现有的点云训练方法可以大致分为两类:基于对比学习的方法和基于点云补全的方法。基于对比学习的方法,对同一组点云进行两种不同的数据增强,获得两组增强后的新点云。通过鼓励点云神经网络针对这两组增强后的新点云得到尽可能一致的点云特征,可以实现对点云网络的预先训练。另一类基于点云补全的方法,则以点云补全作为云训练任务。这类方法首先对一组点云进行大量的遮挡,再要求点云神经网络从未遮挡的点云中学习出如何补全出完整的点云。
然而,基于对比学习的方法,一是对选取的数据增强相对敏感,二是需要使用各种技巧来避免模型奔溃,例如设计有效的正负样本采样策略等。然而,这些策略往往需要额外的设计。基于点云补全的方法,则需要解决困难的点云生成问题。此外,基于点云补全的技术只能依赖于三维的点云数据,而无法使用更为廉价易得的图像数据。因此,无论是基于对比学习的方法,还是基于点云补全的方法,都只能解决有限的下游任务,主要是在三维点云检测和三维点云分割中有效。
发明内容
本申请实施例提供一种基于神经渲染的点云预训练方法、系统、设备及介质,实现点云神经网络的有效预训练。
为解决上述技术问题,第一方面,本申请实施例提供一种基于神经渲染的点云预训练方法,包括以下步骤:首先,获取彩色和深度图像,并对彩色和深度图像进行三维反投影,得到三维点云;然后,提取三维点云中每个点的特征,得到点云特征;接下来,基于点云特征,构建三维特征体;然后,采用神经渲染将三维特征体渲染成不同视角的图像,得到二维颜色和深度图;最后,将二维颜色和深度图与对应视点输入的彩色和深度图像进行比较,得到网络的训练损失函数,并基于训练损失函数,对神经网络进行优化。
在一些示例性实施例中,彩色和深度图像包括单帧或多帧的彩色和深度图像;彩色和深度图像通过深度摄像机获取。
在一些示例性实施例中,对彩色和深度图像进行三维反投影,得到三维点云,包括:输入若干张彩色和深度图像以及与其对应的相机参数;基于彩色和深度图像以及与其对应的相机参数,采用点云反投影的方法获得三维点云。
在一些示例性实施例中,将所述二维颜色和深度图与对应视点输入的彩色和深度图像进行比较,包括:将二维颜色和深度图与输入的对应视点的彩色和深度图像进行比较。
在一些示例性实施例中,采用点云编辑器提取所述三维点云中每个点的特征。
在一些示例性实施例中,基于点云特征,构建三维特征体,包括:对点云特征进行平均池化处理,将空间中点的特征求平均后分配至三维网格中,得到特征体;采用三维卷积神经网络来对所述特征体进行处理,得到三维特征体。
在一些示例性实施例中,采用神经渲染将三维特征体渲染成不同视角的图像,得到二维颜色和深度图,包括:设定渲染视点,在渲染光线上进行采样,得到采样点;采样点的特征通过三线形插值方法从所述三维特征体中获取;将采样点的特征送至神经网络,对采样点的颜色和符号距离函数值进行估计,得到预估值;采用神经渲染的积分公式以及预估值,计算得到渲染光线上的颜色值,并基于颜色值,得到二维颜色和深度图。
第二方面,本申请实施例还提供了一种基于神经渲染的点云预训练系统,包括:依次连接的三维点云构建模块、三维特征体构建模块、神经渲染模块以及数据处理与优化模块;三维点云构建模块用于获取彩色和深度图像,并对彩色和深度图像进行三维反投影,得到三维点云;三维特征体构建模块用于提取三维点云中每个点的特征,得到点云特征;并基于点云特征,构建三维特征体;神经渲染模块用于采用神经渲染将三维特征体渲染成不同视角的图像,得到二维颜色和深度图;数据处理与优化模块用于将所述二维颜色和深度图与对应视点输入的彩色和深度图像进行比较,得到网络的训练损失函数,并基于训练损失函数,对神经网络进行优化。
另外,本申请还提供了一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述基于神经渲染的点云预训练方法。
另外,本申请还提供了一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述基于神经渲染的点云预训练方法。
本申请实施例提供的技术方案至少具有以下优点:
本申请实施例提供一种基于神经渲染的点云预训练方法、系统、设备及介质,该方法包括以下步骤:首先,获取彩色和深度图像,并对彩色和深度图像进行三维反投影,得到三维点云;然后,提取三维点云中每个点的特征,得到点云特征;接下来,基于点云特征,构建三维特征体;然后,采用神经渲染将三维特征体渲染成不同视角的图像,得到二维颜色和深度图;最后,将二维颜色和深度图与对应视点输入的彩色和深度图像进行比较,得到网络的训练损失函数,并基于训练损失函数,对神经网络进行优化。
本申请提供的基于神经渲染的点云预训练方法,不需要使用额外的人工数据标注,而只需要单张或多张彩色-深度图像来作为输入。本申请提出的预训练方法,通过使用神经渲染来将三维场景投影至二维图像,构建了三维特征和二维图像之间的关系,不需要使用复杂的数据增强和各种技巧即可以实现好的网络预先训练效果,实现了多个下游任务的显著性能提升,包括三维物体检测、三维语义分割、三维重建、点云渲染。此外,本申请所提出的点云预训练方式将点云渲染作为预训练任务,无需处理复杂的点云补全任务,同时也实现了仅使用图像的点云预训练,大大降低了预训练数据要求。此外,本申请提出的预训练方法证明了对于三维场景中的底层任务,例如三维重建和点云渲染,仍然能得到明显的效果提升。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,除非有特别申明,附图中的图不构成比例限制。
图1为本申请一实施例提供的一种基于神经渲染的点云预训练方法的流程简图;
图2为本申请一实施例提供的一种基于神经渲染的点云预训练方法的具体流程示意图;
图3为本申请一实施例提供的预训练方法在两个不同的数据集(ScanNet、SUNRGB-D)上的效果图;
图4为本申请一实施例提供的预训练方法在三维分割中结果示意图;
图5为本申请一实施例提供的采用不同的点云编码器在下游任务三维重建中的效果对比图:
图6为本申请一实施例提供的经过预训练的点云渲染模型与没有预训练的模型的收敛速度和收敛精度的对比图;
图7为本申请一实施例提供的预训练方法用于三维视觉任务的结果示意图;
图8为本申请一实施例提供的一种基于神经渲染的点云预训练系统的结构示意图;
图9为本申请一实施例提供的一种电子设备的结构示意图。
具体实施方式
由背景技术可知,目前现有技术中,无论是基于对比学习的方法,还是基于点云补全的方法,都只能解决有限的下游任务,主要是在三维点云检测和三维点云分割中有效。
对于基于对比学习的方法,需要通过额外的设计才能学到好的点云特征,实现对点云网络的预训练。首先,此类方法对选取的数据增强相对敏感。选用不合适的数据增强会导致效果的明显下降。尽管在图像领域,针对图像的对比学习采用何种数据增强已经日渐明确,但在点云中采用何种数据增强来进行对比学习仍然需要探索。其次,对比学习的方法需要使用各种技巧来避免模型奔溃,例如设计有效的正负样本采样策略等。然而,这些策略往往需要额外的设计。
对于基于点云补全的方法,需要解决困难的点云生成问题。由于点云数据存在高度稀疏、存在大量噪声、无序性的特点,实现点云的生成和补全非常困难,以点云补全作为预训练任务因此存在着天然的困难。此外,基于点云补全的技术只能依赖于三维的点云数据,而无法使用更为廉价易得的图像数据。
为解决上述技术问题,本申请实施例提供一种基于神经渲染的点云预训练方法,包括以下步骤:首先,获取彩色和深度图像,并对彩色和深度图像进行三维反投影,得到三维点云;然后,提取三维点云中每个点的特征,得到点云特征;接下来,基于点云特征,构建三维特征体;然后,采用神经渲染将三维特征体渲染成不同视角的图像,得到二维颜色和深度图;最后,将二维颜色和深度图与对应视点输入的彩色和深度图像进行比较,得到网络的训练损失函数,并基于训练损失函数,对神经网络进行优化。一方面,本申请所提出的点云预训练方式通过引入神经渲染技术,构建了三维特征和二维图像之间的关系,不需要使用复杂的数据增强和各种技巧即可以实现好的网络预先训练效果。另一方面,本申请所提出的点云预训练方式将点云渲染作为预训练任务,无需处理复杂的点云补全任务,同时也实现了仅使用图像的点云预训练,大大降低了预训练数据要求。此外,本申请提出的预训练方法证明了对于三维场景中的底层任务,例如三维重建和点云渲染,仍然能得到明显的效果提升。
下面将结合附图对本申请的各实施例进行详细的阐述。然而,本领域的普通技术人员可以理解,在本申请各实施例中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施例的种种变化和修改,也可以实现本申请所要求保护的技术方案。
参看图1,本申请实施例提供了一种基于神经渲染的点云预训练方法,包括以下步骤:
步骤S1、获取彩色和深度图像,并对彩色和深度图像进行三维反投影,得到三维点云。
步骤S2、提取三维点云中每个点的特征,得到点云特征。
步骤S3、基于点云特征,构建三维特征体。
步骤S4、采用神经渲染将三维特征体渲染成不同视角的图像,得到二维颜色和深度图。
步骤S5、将二维颜色和深度图与对应视点输入的彩色和深度图像进行比较,得到网络的训练损失函数,并基于训练损失函数,对神经网络进行优化。
本申请旨在提供一种新的点云无监督学习方式,来实现点云神经网络的有效预训练。相比于已有的点云网络预训练方式,本申请不需要使用额外的人工数据标注,而只需要单张或多张彩色-深度图像来作为输入。通过使用神经渲染来将三维场景投影至二维图像,本申请提出的预训练方式实现了多个下游任务的显著性能提升,包括三维物体检测、三维语义分割、三维重建、点云渲染。
本申请实施例提供了一种基于神经渲染的点云预训练方法,使用神经渲染的方式作为点云预训练任务,同时,使用单帧或多帧彩色-深度作为预训练数据,实现对点云编码器的预训练。该方法有效果好、设计简单、数据更易获取等优点。于此同时,本申请提供的点云预训练方法证明了在多个下游任务上有效,包括三维点云检测、三维点云分割、三维重建、点云渲染任务。
需要说明的是,步骤S5的二维颜色和深度图是通过步骤S4采用神经渲染将所述三维特征体渲染成不同视角的图像获取得到的二维图像,对应视点输入的彩色和深度图像则是在步骤S1中在对所述彩色和深度图像进行三维反投影之前,输入彩色和深度图像获取得到。
在一些实施例中,步骤S1中彩色和深度图像包括单帧或多帧的彩色和深度图像;彩色和深度图像通过深度摄像机获取。
需要说明的是,本申请中使用的是彩色和深度图像。彩色和深度图像还可以称为颜色和深度图像。可以理解的是,本申请也可以直接使用彩色图像,或者深度图像,而不需要两者同时拥有。
图2示出了本申请提出的点云预训练方法流程图。本申请的输入为单帧或多帧的彩色和深度图像,这类图像可以通过深度摄像机直接获得。本申请首先通过对彩色和深度图像的三维反投影,得到三维点云。然后,提取三维点云中每个点上的特征。这些特征随后被处理成三维特征体。通过随机采样三维特征体中的点并进行投影,可以实现三维特征渲染成为二维颜色和深度图。这些二维颜色和深度图和对应视点输入的彩色和深度图像进行比较,作为训练损失函数来优化整个神经网络。当训练完成后,点云编码器被用作各种下游任务。以下对各部分环节进行详细介绍。
在一些实施例中,步骤S1中对彩色和深度图像进行三维反投影,得到三维点云,包括:输入若干张彩色和深度图像以及与其对应的相机参数;基于彩色和深度图像以及与其对应的相机参数,采用点云反投影的方法获得三维点云。
步骤S1在获取彩色和深度图像之后,从彩色和深度图像中构建三维点云。首先,输入若干张彩色和深度图像以及对应的相机参数,然后,通过点云反投影的方式获得三维点云。具体的,图像像素首先通过相机内参和深度值被反投影到相机坐标空间,进而通过相机外参转换到统一的世界坐标系下。不同图像得到的点云在该世界坐标系下整合在一起。区别于以往的方法,本申请不仅利用点云的坐标信息,同时也使用点云的颜色信息来作为额外的点云特征。
在一些实施例中,步骤S5中将二维颜色和深度图与对应视点输入的二维颜色和深度图进行比较,包括:将二维颜色和深度图与输入的对应视点的彩色和深度图像进行比较。
前面提到,步骤S5中将步骤S4得到的二维颜色和深度图与对应视点输入的彩色和深度图像比较,输入的对应视点的彩色和深度图像则是在步骤S1中在对所述彩色和深度图像进行三维反投影之前,输入彩色和深度图像获取得到。本申请通过引入神经渲染技术,构建三维特征和二维图像之间的关系,不需要使用复杂的数据增强和各种技巧即可以实现好的网络预先训练效果。
在一些实施例中,步骤S2中采用点云编辑器提取所述三维点云中每个点的特征。本申请使用点云编码器来提取每个点上的特征。由于提出的方法对点云编码器没有额外的要求,因此理论上大部分点云编码器都可以用于该方案流程。本申请尝试使用了经典的点云编码器PointNet,PointNet++和DGCNN。后续的实验证明使用不同的点云编码器都可以获得不错的预训练效果。
在一些实施例中,步骤S3中基于点云特征,构建三维特征体,包括:对点云特征进行平均池化处理,将空间中点的特征求平均后分配至三维网格中,得到特征体;采用三维卷积神经网络来对所述特征体进行处理,得到三维特征体。
具体的,步骤S3在提取到点云特征之后,将点云特征组织到三维的特征体中。示例的,本申请使用平均池化的方法,将空间中点的特征求平均后分配到三维网格中。进一步的,本申请使用一个三维卷积神经网络来对特征体进行处理,处理得到的特征体即为稠密的三维特征体。
在一些实施例中,步骤S4采用神经渲染将三维特征体渲染成不同视角的图像,得到二维颜色和深度图,包括:设定渲染视点,在渲染光线上进行采样,得到采样点;采样点的特征通过三线形插值方法从所述三维特征体中获取;将采样点的特征送至神经网络,对采样点的颜色和符号距离函数SDF(signed distance function)值进行估计,得到预估值;采用神经渲染的积分公式以及预估值,计算得到渲染光线上的颜色值,并基于颜色值,得到二维颜色和深度图。本申请提出的预训练方法,通过使用神经渲染来将三维场景投影至二维图像,实现了多个下游任务的显著性能提升,包括三维物体检测、三维语义分割、三维重建、点云渲染。
具体的,在获得三维特征体后,本申请使用神经渲染将三维特征体渲染成不同视角的图像。示例的,给定一个渲染视点,本申请首先在渲染光线上进行采样。采样点的特征通过三线形插值的方式从三维特征体中得到。该采样点的特征进而被送入神经网络去估计采样点的颜色和符号距离函数值(SDF值)。SDF值代表了该点与场景真实几何表面之间的距离,常常被用作一种隐式几何的表示方式。通过这种方式,每一个渲染光线上的采样点都可以获得对应的颜色值和SDF值。进而,采用神经渲染的积分公式,可以计算得到该渲染光线上的颜色值。对每一个图像像素进行渲染,即可得到对应视点的二维颜色和深度图像。
需要说明的是,本申请中使用的神经渲染方法是不唯一的。神经渲染有多种实现方式,本申请使用了其中的一种神经渲染方式,还可以使用其他替代的神经渲染方式可以实现类似的效果。
在得到二维颜色和深度图之后,将二维颜色和深度图与对应视点输入的彩色和深度图像
进行比较,得到网络的训练损失函数,并基于所述训练损失函数,对神经网络进行优化。具5体的,图像渲染完成后得到的二维颜色和深度图,可以和对应视点输入的彩色和深度图像进
行比较,作为网络的训练损失函数。本申请所提出的点云预训练方法,将点云渲染作为预训练任务,无需处理复杂的点云补全任务,同时也实现了仅使用图像的点云预训练,大大降低了预训练数据要求。
优选的,输入和渲染图像之间要尽可能相似,点云神经网络被要求从稀疏的点云数据中0学习到真实的场景几何和纹理信息,从而实现网络的预训练。除此之外,多个正则项被使用
来增强网络的训练稳定性。
下面对本申请提供的基于神经渲染的点云预训练方法分别在下游任务三维检测、下游任务三维分割、下游任务三维重建、下游任务点云渲染以及直接应用在三维重建和点云渲染中进行效果验证。
5(1)在下游任务三维检测中的效果:
本申请提出的预训练方法,可以明显提高基础点云渲染神经网络的三维检测效果。如图3所示,本申请在两个不同的数据集上(ScanNet、SUN RGB-D),都获得了当前算法中的最好效果。
(2)在下游任务三维分割中的效果:0如图4所示,本申请中提出的预训练算法在三维分割中,同样也获得了当前的最好效果。
(3)在下游任务三维重建中的效果:
本申请中提出的预训练方法,是首个证明可以对下游任务三维重建有效的算法。如图5所示,使用不同的点云编码器,本申请的预训练方法都可以获得重建精度提升。
5(4)在下游任务点云渲染中的效果:
本申请提出的预训练方法同样对下游任务点云渲染也有效。如图6所示,经过预训练的点云渲染模型可以相比于没有预训练的模型,可以实现更快的收敛速度和更好的收敛精度。
(5)在三维重建和点云渲染中直接应用:
本申请的模型不仅可以用于预训练下游任务,同样可以直接被用作各种三维视觉任务。结果如图7所示。本申请提供的基于神经渲染的点云预训练方法可以实现很好的三维重建和点云渲染结果。
基于此,本申请实施例提供一种基于神经渲染的点云预训练方法,相比于现有的预训练方法,本申请的预训练方法的优势在于:
(1)相比于对比学习的方法,本申请采用的预训练任务不需要设计复杂的数据增强,且不需要设计特殊的技巧来避免对比学习中常见的模型崩溃。
(2)相比于点云补全的方法,本申请采用的预训练任务不需要处理复杂的点云生成任务,而只需要使用图像层面的监督即可。
(3)本申请提出的方法只需要使用彩色-深度图像即可实现点云网络的预训练,而不需要使用扫描好的三维模型作为输入,大大降低了预训练的数据成本,使得大规模的点云预训练成为可能。
(4)本申请提出的方法利用了图像信息,使得点云网络可以从图像监督中学习到更好的语义特征。跨膜态的训练使得本申请提出的预训练方式获得了更好的效果。
参看图8,本申请实施例还提供了一种基于神经渲染的点云预训练系统,包括:依次连接的三维点云构建模块101、三维特征体构建模块102、神经渲染模块103以及数据处理与优化模块104;三维点云构建模块101用于获取彩色和深度图像,并对彩色和深度图像进行三维反投影,得到三维点云;三维特征体构建模块102用于提取三维点云中每个点的特征,得到点云特征;并基于点云特征,构建三维特征体;神经渲染模块103用于采用神经渲染将三维特征体渲染成不同视角的图像,得到二维颜色和深度图;数据处理与优化模块104用于将所述二维颜色和深度图与对应视点输入的彩色和深度图像进行比较,得到网络的训练损失函数,并基于训练损失函数,对神经网络进行优化。
参考图9,本申请另一实施例提供了一种电子设备,包括:至少一个处理器110;以及,与至少一个处理器通信连接的存储器111;其中,存储器111存储有可被至少一个处理器110执行的指令,指令被至少一个处理器110执行,以使至少一个处理器110能够执行上述任一方法实施例。
其中,存储器111和处理器110采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器110和存储器111的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器110处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器110。
处理器110负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器111可以被用于存储处理器110在执行操作时所使用的数据。
本申请另一实施例涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
由以上技术方案,本申请实施例提供一种基于神经渲染的点云预训练方法、系统、设备及介质,该方法包括以下步骤:首先,获取彩色和深度图像,并对彩色和深度图像进行三维反投影,得到三维点云;然后,提取三维点云中每个点的特征,得到点云特征;接下来,基于点云特征,构建三维特征体;然后,采用神经渲染将三维特征体渲染成不同视角的图像,得到二维颜色和深度图;最后,将二维颜色和深度图与对应视点输入的彩色和深度图像进行比较,得到网络的训练损失函数,并基于训练损失函数,对神经网络进行优化。
本申请提供的基于神经渲染的点云预训练方法,不需要使用额外的人工数据标注,而只需要单张或多张彩色-深度图像来作为输入。本申请提出的预训练方法,通过使用神经渲染来将三维场景投影至二维图像,构建了三维特征和二维图像之间的关系,不需要使用复杂的数据增强和各种技巧即可以实现好的网络预先训练效果,实现了多个下游任务的显著性能提升,包括三维物体检测、三维语义分割、三维重建、点云渲染。此外,本申请所提出的点云预训练方式将点云渲染作为预训练任务,无需处理复杂的点云补全任务,同时也实现了仅使用图像的点云预训练,大大降低了预训练数据要求。此外,本申请提出的预训练方法证明了对于三维场景中的底层任务,例如三维重建和点云渲染,仍然能得到明显的效果提升。
本领域的普通技术人员可以理解,上述各实施方式是实现本申请的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。任何本领域技术人员,在不脱离本申请的精神和范围内,均可作各自更动与修改,因此本申请的保护范围应当以权利要求限定的范围为准。

Claims (10)

1.一种基于神经渲染的点云预训练方法,其特征在于,包括:
获取彩色和深度图像,并对所述彩色和深度图像进行三维反投影,得到三维点云;
提取所述三维点云中每个点的特征,得到点云特征;
基于所述点云特征,构建三维特征体;
采用神经渲染将所述三维特征体渲染成不同视角的图像,得到二维颜色和深度图;
将所述二维颜色和深度图与对应视点输入的彩色和深度图像进行比较,得到网络的训练损失函数,并基于所述训练损失函数,对神经网络进行优化。
2.根据权利要求1所述的基于神经渲染的点云预训练方法,其特征在于,所述彩色和深度图像包括单帧或多帧的彩色和深度图像;
所述彩色和深度图像通过深度摄像机获取。
3.根据权利要求1所述的基于神经渲染的点云预训练方法,其特征在于,对所述彩色和深度图像进行三维反投影,得到三维点云,包括:
输入若干张彩色和深度图像以及与其对应的相机参数;
基于所述彩色和深度图像以及与其对应的相机参数,采用点云反投影的方法获得三维点云。
4.根据权利要求3所述的基于神经渲染的点云预训练方法,其特征在于,将所述二维颜色和深度图与对应视点输入的彩色和深度图像进行比较,包括:
将所述二维颜色和深度图与所述输入的对应视点的彩色和深度图像进行比较。
5.根据权利要求1所述的基于神经渲染的点云预训练方法,其特征在于,采用点云编辑器提取所述三维点云中每个点的特征。
6.根据权利要求1所述的基于神经渲染的点云预训练方法,其特征在于,基于所述点云特征,构建三维特征体,包括:
对所述点云特征进行平均池化处理,将空间中点的特征求平均后分配至三维网格中,得到特征体;
采用三维卷积神经网络来对所述特征体进行处理,得到三维特征体。
7.根据权利要求1所述的基于神经渲染的点云预训练方法,其特征在于,所述采用神经渲染将所述三维特征体渲染成不同视角的图像,得到二维颜色和深度图,包括:
设定渲染视点,在渲染光线上进行采样,得到采样点;所述采样点的特征通过三线形插值方法从所述三维特征体中获取;
将所述采样点的特征送至神经网络,对采样点的颜色和符号距离函数值进行估计,得到预估值;
采用神经渲染的积分公式以及所述预估值,计算得到所述渲染光线上的颜色值,并基于所述颜色值,得到二维颜色和深度图。
8.一种基于神经渲染的点云预训练系统,其特征在于,包括:依次连接的三维点云构建模块、三维特征体构建模块、神经渲染模块以及数据处理与优化模块;
所述三维点云构建模块用于获取彩色和深度图像,并对所述彩色和深度图像进行三维反投影,得到三维点云;
所述三维特征体构建模块用于提取所述三维点云中每个点的特征,得到点云特征;并基于所述点云特征,构建三维特征体;
所述神经渲染模块用于采用神经渲染将所述三维特征体渲染成不同视角的图像,得到二维颜色和深度图;
所述数据处理与优化模块用于将所述二维颜色和深度图与对应视点输入的彩色和深度图像进行比较,得到网络的训练损失函数,并基于所述训练损失函数,对神经网络进行优化。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的基于神经渲染的点云预训练方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一所述的基于神经渲染的点云预训练方法。
CN202211665153.9A 2022-12-23 2022-12-23 基于神经渲染的点云预训练方法、系统、设备及介质 Pending CN116188894A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211665153.9A CN116188894A (zh) 2022-12-23 2022-12-23 基于神经渲染的点云预训练方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211665153.9A CN116188894A (zh) 2022-12-23 2022-12-23 基于神经渲染的点云预训练方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
CN116188894A true CN116188894A (zh) 2023-05-30

Family

ID=86443334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211665153.9A Pending CN116188894A (zh) 2022-12-23 2022-12-23 基于神经渲染的点云预训练方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN116188894A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117541810A (zh) * 2023-11-17 2024-02-09 粤港澳大湾区(广东)国创中心 三维特征提取方法、装置、电子设备以及可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117541810A (zh) * 2023-11-17 2024-02-09 粤港澳大湾区(广东)国创中心 三维特征提取方法、装置、电子设备以及可读存储介质

Similar Documents

Publication Publication Date Title
CN108875935B (zh) 基于生成对抗网络的自然图像目标材质视觉特征映射方法
Wu et al. Fast end-to-end trainable guided filter
CN112102472B (zh) 稀疏三维点云稠密化方法
CN108830913B (zh) 基于用户颜色引导的语义级别线稿上色方法
CN107767384A (zh) 一种基于对抗训练的图像语义分割方法
CN109509156B (zh) 一种基于生成对抗模型的图像去雾处理方法
CN116310076A (zh) 基于神经辐射场的三维重建方法、装置、设备及存储介质
CN115170746B (zh) 一种基于深度学习的多视图三维重建方法、系统及设备
CN111951368B (zh) 一种点云、体素和多视图融合的深度学习方法
CN111915555B (zh) 一种3d网络模型预训练方法、系统、终端及存储介质
CN113838064B (zh) 一种基于分支gan使用多时相遥感数据的云去除方法
CN112132232A (zh) 医学图像的分类标注方法和系统、服务器
CN116188894A (zh) 基于神经渲染的点云预训练方法、系统、设备及介质
JP2023541351A (ja) 文字消去モデルのトレーニング方法及び装置、訳文表示方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN115761574A (zh) 基于边框标注的弱监督视频目标分割方法及装置
CN117218246A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN108961268B (zh) 一种显著图计算方法及相关装置
CN112489218B (zh) 一种基于半监督学习的单视图三维重建系统及其方法
CN114580510A (zh) 骨髓细胞细粒度分类方法、系统、计算机设备及存储介质
CN117115563A (zh) 基于区域语义感知的遥感土地覆盖分类方法及系统
CN116630953A (zh) 一种基于神经体渲染的单目图像3d目标检测方法
CN116342407A (zh) 一种无人机遥感影像暗光增强方法
CN113808006B (zh) 一种基于二维图像重建三维网格模型的方法及装置
CN113191947B (zh) 一种图像超分辨率的方法及系统
CN115205487A (zh) 单目相机人脸重建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination