CN114494610B - 大场景光场实时重建智能理解系统与装置 - Google Patents

大场景光场实时重建智能理解系统与装置 Download PDF

Info

Publication number
CN114494610B
CN114494610B CN202210389229.3A CN202210389229A CN114494610B CN 114494610 B CN114494610 B CN 114494610B CN 202210389229 A CN202210389229 A CN 202210389229A CN 114494610 B CN114494610 B CN 114494610B
Authority
CN
China
Prior art keywords
instance
dimensional
light field
depth map
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210389229.3A
Other languages
English (en)
Other versions
CN114494610A (zh
Inventor
方璐
刘乐遥
郑添
刘平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Tsinghua University
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Tsinghua University
Priority to CN202210389229.3A priority Critical patent/CN114494610B/zh
Publication of CN114494610A publication Critical patent/CN114494610A/zh
Application granted granted Critical
Publication of CN114494610B publication Critical patent/CN114494610B/zh
Priority to US17/817,483 priority patent/US20230334682A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/521Depth or shape recovery from laser ranging, e.g. using interferometry; from the projection of structured light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Optics & Photonics (AREA)
  • Architecture (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种大场景光场实时重建智能理解系统与装置,该装置通过获取三维实例的深度图,通过同步定位与建图得到对应三维实例深度图的三维体素和体素颜色信息;构建光场实时重建网络模型通过稀疏卷积网络对所述三维实例深度图的三维体素和体素颜色信息进行特征提取,对提取的特征进行语义分割和实例分割,以获取三维实例深度图对应的语义分割结果和实例分割结果。通过本发明,能够大幅度提升实例分割精度和速度,为AR/VR等应用提供实时有效的场景信息。

Description

大场景光场实时重建智能理解系统与装置
技术领域
本发明涉及深度学习技术领域,尤其涉及一种大场景光场实时重建智能理解系统与装置。
背景技术
大场景光场的实时重建与智能理解是人工智能、机器视觉、无人系统等领域的核心技术难题。机器人的导航、AR、VR等技术都需要大场景光场的实时重建与智能理解技术,其指的是:使用便携式设备对场景进行扫描,在利用三维光场重建技术建模的同时,实时地通过在线三维语义和实例分割技术,产生模型的语义和实例分割信息。
目前来说,现有的大部分高精度三维语义和实例分割方法是离线的,也就是在已经获取了整个重建完成的模型后再去进行算法处理得到实例分割结果。最近的高精度离线分割算法大部分使用了稀疏卷积,由于网络大且需要所有点作为输入,导致速度慢,不适合在在线场景使用,而且对于实例分割还需要一个聚类后处理步骤,在点多的时候非常耗时。而对于在线的三维分割技术,大部分算法先通过在RGB图片上做分割算法,再使用投射的方式把结果投射到三维模型上去。但是这样的方法在分割上只用到了2D信息,即局部信息,比起稀疏卷积来说,缺少了全局感受野,从而导致了精度的差距。
现有技术通常是如下两种方式:将二维分割卷积神经网络与三维重建系统结合,或是使用稀疏卷积输入全部的当前重建的点。对于前者,由于二维语义对三维空间理解的局限性,基于二维分割的方法精度比较低。对于后者,由于网络大且输入量大,其速度不足以在实时系统使用。
发明内容
本发明提供一种大场景光场实时重建智能理解系统与装置,在线光场理解中使用增量稀疏卷积技术,同时优化实例分割的后处理步骤,使得在线实例分割的精度达到跟离线算法几乎一致,同时速度上保持10-15Hz,实现了高精度大场景光场的实时重建与智能理解。
为此,本发明的目的在于提出一种大场景光场实时重建智能理解装置,包括:
数据获取模块,用于获取三维实例的深度图,通过同步定位与建图得到对应三维实例深度图的三维体素和体素颜色信息;
模型构建模块,用于构建光场实时重建网络模型,使用ScanNet数据集对光场实时重建网络模型进行训练;其中,光场实时重建网络模型用于通过稀疏卷积网络对待处理三维实例深度图的三维体素和体素颜色信息进行特征提取,对提取的特征进行语义分割和实例分割,以获取待处理三维实例深度图对应的语义分割结果和实例分割结果;
语义分割模块,用于将对应三维实例深度图的三维体素和体素颜色信息输入训练完成的光场实时重建网络模型中,模型输出是对应三维实例深度图的语义分割结果和实例分割结果。
其中,数据获取模块,还用于通过图像传感器采集深度图;其中,图像传感器的类型包括RGB-D深度传感器、双目深度传感器、结构光传感器及ToF传感器中的一种或者多种。
其中,光场实时重建网络模型包括稀疏卷积网络模块和在线分割模块;
其中,稀疏卷积网络模块为U型网络结构,用于对每个输入点,输出语义类别概率和实例特征值;
在线分割模块,用于根据稀疏卷积网络模块输出的语义类别概率进行语义类别更新,同时对每帧深度图得到的实例特征值进行聚类,得到当前三维实例深度图的实例结果,并将当前实例结果融合至全局实例结果。
其中,稀疏卷积网络模块还用于设置交叉熵损失函数和discriminative损失函数,交叉熵损失函数用于训练语义类别概率;discriminative损失函数用于训练实例特征值。
其中,稀疏卷积网络模块还用于设置时序一致性损失函数,时序一致性损失函数用于限制同一个三维实例深度图的实例在不同时刻的距离对于同一三维实例深度图中物体不同时刻的特征值相近或相同。
其中,在线分割模块还用于:
对于语义分割,使用语义类别概率,将当前点的语义类别更新;
对于实例分割,对每帧深度图得到的实例特征值进行聚类;
计算当前实例和全局实例的相似度;采用比较平均特征值的办法,对于当前实例,计算平均特征值,再一一和全局实例的平均特征值进行相似度比较。
其中,在线分割模块在计算当前实例和全局实例的相似度时,
计算当前实例的空间重叠率,当前实例和全局实例间的相似度等于当前实例特征值和全局实例特征值的相似度与当前实例空间重叠率的乘积;其中,空间重叠率信息是当前实例和全局实例相同的点的个数与当前实例的点的个数的比值;
对每个当前实例,找到最相似的全局实例去匹配,如果相似度低于设定阈值,则视为新的全局实例。
此外,本发明的目的还在于提出一种大场景光场实时重建智能理解系统,包括本发明提出的大场景光场实时重建智能理解装置。
区别于现有技术,本发明提供的通过获取三维实例的深度图,通过同步定位与建图,得到对应三维实例深度图的三维体素和体素颜色信息;构建光场实时重建网络模型通过稀疏卷积网络对三维实例深度图的三维体素和体素颜色信息进行特征提取,对提取的特征进行语义分割和实例分割,以获取三维实例深度图对应的语义分割结果和实例分割结果。通过本发明,能够大幅度提升实例分割精度和速度,为AR/VR等应用提供实时有效的场景信息。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明提供的一种大场景光场实时重建智能理解方法的流程图。
图2是本发明提供的一种大场景光场实时重建智能理解方法中光场实时重建网络模型的网络结构示意图。
图3是本发明提供的一种大场景光场实时重建智能理解方法中稀疏卷积网络模块的卷积神经网络的逻辑示意图。
图4是本发明提供的一种大场景光场实时重建智能理解方法中实例和语义分割效果示意图。
图5是本发明提供的一种大场景光场实时重建智能理解装置的结构示意图。
图6是本发明提供的一种大场景光场实时重建智能理解系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的一种大场景光场实时重建智能理解方法、装置和系统。
图1为本发明实施例所提供的一种大场景光场实时重建智能理解方法的流程图。如图1所示,该方法包括以下步骤:
步骤101,获取三维实例的深度图,通过同步定位与建图得到对应三维实例深度图的三维体素和体素颜色信息。
在实际语义分割应用中,通常采用离线三维分割与在线三维分割两种方式;其中,
三维场景的语义和实例分割是计算机视觉中广泛研究的课题。对于语义分割任务,最近基于深度学习的方法根据卷积类型分为两类:基于点的方法和基于体素的方法。在我们的工作中,我们重点关注基于体素的方法。
他们将体素化的点云作为输入,然后在体素网格上应用三维卷积。早期的工作采用密集的三维卷积。然而,由于高维数据的计算成本很高,他们无法处理大规模的体素网格。后来稀疏卷积的出现解决了这一关键限制,它利用了三维点云固有的稀疏性,展示了最先进的分割精度。
对于实例分割,稀疏卷积网络也被广泛使用,目前常用的一种 "学习-聚类 "的方法,使用稀疏卷积网络提取的每点特征进行聚类得到实例分割结果。
在线场景分割在AR/VR和机器人领域有着广泛的应用。其任务是在三维重建的同时实时预测语义或实例标签。早期的工作使用2D-3D方法来解决这个问题,即使用2D CNN预测每个RGBD帧的2D语义结果,然后再投射到3D空间,接着进行概率融合步骤。也有在2D中进行实例分割,然后将结果融合到3D中,实现在线全景分割的方法。有人提出通过对局部邻域进行三维点卷积来融合二维特征,实现了精度的提高。然而,为了保持在线速度,它只能处理很少的点。进一步有人对超体素进行三维点卷积来融合二维特征,提升了速度,并实现了领先的在线语义分割精度。然而,这些方法高度依赖二维特征,无法捕捉全局三维信息,导致离线和在线方法之间存在差距。最近有人提出了增量稀疏卷积技术,能够在在线的情况下使用三维稀疏卷积,弥补了离线和在线的精度差距,但仍然无法在在线的情况下进行实例分割。
三维实例的深度图通过图像传感器进行采集。其中,图像传感器的类型包括RGB-D深度传感器、双目深度传感器、结构光传感器及ToF传感器中的一种或者多种。
步骤102:构建光场实时重建网络模型,使用ScanNet数据集对光场实时重建网络模型进行训练;其中,光场实时重建网络模型用于通过稀疏卷积网络对待处理三维实例深度图的三维体素和体素颜色信息进行特征提取,对提取的特征进行语义分割和实例分割,以获取待处理三维实例深度图对应的语义分割结果和实例分割结果。
光场实时重建网络模型逻辑图如图2所示,包括稀疏卷积网络模块和在线分割模块;
其中,稀疏卷积网络模块为U型网络结构,具体采用如图3所示的卷积神经网络结构。稀疏卷积网络模块用于对每个输入点,输出语义类别概率和实例特征值;
在线分割模块用于根据稀疏卷积网络模块输出的语义类别概率进行语义类别更新,同时对每帧深度图得到的实例特征值进行聚类,得到当前三维实例深度图的实例结果,并将当前实例结果融合至全局实例结果。
稀疏卷积网络模块设置交叉熵损失函数,用于训练语义类别概率;设置discriminative损失函数训练实例特征值。
稀疏卷积网络模块设置时序一致性损失函数,用于限制同一个实例在不同时刻的距离对于同一物体不同时刻的特征值相近或相同。
在线分割模块还用于:
对于语义分割,使用语义类别概率,将当前点的语义类别更新;语义分割采用现有常用的分割方式,可采用现有的分割网络。语义分割是对三维实例深度图中物体类别边界进行分割,而实例分割是对三维实例深度图中不同的物体进行分割。
对于实例分割,三维实例深度图得到的实例特征值进行聚类;其中,当前实例是指采集三维实例深度图的传感器当前视野里显示的图像中的物体。全局实例是整体的三维实例深度图中的物体。
计算当前实例和全局实例的相似度;采用比较平均特征值的办法,对于当前实例,计算平均特征值,再一一和全局中的实例的平均特征值进行相似度比较;
通过设置时序一致性损失函数,限制同一个实例在不同时刻的距离对于同一物体不同时刻的特征值相近或相同。
在计算当前实例和全局实例的相似度时,计算当前实例的空间重叠率,当前实例和全局实例间的相似度等于当前实例特征值和全局实例特征值的相似度与当前实例空间重叠率的乘积;其中,空间重叠率信息是当前实例和全局实例相同的点的个数与当前实例的点的个数的比值;对每个当前实例,找到最相似的全局实例去匹配,如果相似度低于设定阈值,则视为新的全局实例。
本发明中提及的当前实例特征值和全局实例特征值的相似度,是通过对应特征向量的夹角表示。
步骤103:将对应三维实例深度图的三维体素和体素颜色信息输入训练完成的光场实时重建网络模型中,模型输出是对应三维实例深度图的语义分割结果和实例分割结果。
本发明验证了在ScanNet数据集下,可以生成高精度的实例分割标签。同时模型预测速度为10-15Hz,达到实时水平。具体来说,根据ScanNet的评估标准,mAP@50指标评估实例分割标准。我们在mAP@50上取得65.7的分数,大幅超越其他在线分割算法。对于速度测试,使用和其他在线算法一样的评估方法,在一个ScanNet的标准大场景scene0645_01上测试,预测速度达到10-15Hz。
图5为本发明实施例所提供的一种大场景光场实时重建智能理解装置的结构示意图。包括:
数据获取模块310,用于获取三维实例的深度图,通过同步定位与建图得到对应三维实例深度图的三维体素和体素颜色信息;
模型构建模块320,用于构建光场实时重建网络模型,使用ScanNet数据集对光场实时重建网络模型进行训练;其中,光场实时重建网络模型用于通过稀疏卷积网络对待处理三维实例深度图的三维体素和体素颜色信息进行特征提取,对提取的特征进行语义分割和实例分割,以获取待处理三维实例深度图对应的语义分割结果和实例分割结果;
语义分割模块330,用于将对应三维实例深度图的三维体素和体素颜色信息输入训练完成的光场实时重建网络模型中,模型输出是对应三维实例深度图的语义分割结果和实例分割结果。
在本发明的实施例中,数据获取模块310还用于通过图像传感器采集深度图;其中,图像传感器的类型包括RGB-D深度传感器、双目深度传感器、结构光传感器及ToF传感器中的一种或者多种。
光场实时重建网络模型逻辑图如图2所示,包括稀疏卷积网络模块和在线分割模块;
其中,稀疏卷积网络模块为U型网络结构,具体采用如图3所示的卷积神经网络结构。稀疏卷积网络模块用于对每个输入点,输出语义类别概率和实例特征值;
在线分割模块用于根据稀疏卷积网络模块输出的语义类别概率进行语义类别更新,同时对每帧深度图得到的实例特征值进行聚类,得到当前三维实例深度图的实例结果,并将当前实例结果融合至全局实例结果。
其中,稀疏卷积网络模块还用于设置交叉熵损失函数和discriminative损失函数,交叉熵损失函数用于训练语义类别概率;discriminative损失函数用于训练实例特征值。
稀疏卷积网络模块还用于设置时序一致性损失函数,时序一致性损失函数用于限制同一个三维实例深度图的实例在不同时刻的距离对于同一三维实例深度图中物体不同时刻的特征值相近或相同。
在线分割模块还用于:
对于语义分割,使用语义类别概率,将当前点的语义类别更新;语义分割采用现有常用的分割方式,可采用现有的分割网络。
对于实例分割,对每帧深度图得到的实例特征值进行聚类。
计算当前实例和全局实例的相似度;采用比较平均特征值的办法,对于当前实例,计算平均特征值,再一一和全局实例的平均特征值进行相似度比较。
通过稀疏卷积网络模块设置的时序一致性损失函数,限制同一个三维实例深度图的实例在不同时刻的距离对于同一物体不同时刻的特征值相近或相同,能够使当前实例和全局实例能够顺利进行融合。
在计算当前实例和全局实例的相似度时,计算当前实例的空间重叠率,当前实例和全局实例间的相似度等于当前实例特征值和全局实例特征值的相似度与当前实例空间重叠率的乘积;其中,空间重叠率信息是当前实例和全局实例相同的点的个数与当前实例的点的个数的比值;
对每个当前实例,找到最相似的全局实例去匹配,如果相似度低于设定阈值,则视为新的全局实例。
本发明使用ScanNet数据集对光场实时重建网络模型进行训练和测试。
具体的,通过对ScanNet数据集进行预处理,获取有效三维实例深度图,对有效三维实例深度图按照预设比例划分训练集和测试集。
将作为训练集的有效三维实例深度图使用现有的SLAM系统,重建获取当前的三维几何模型,得到对应三维实例深度图的三维体素和体素颜色信息;训练集和测试集中同时包括对应三维实例深度图的语义分割结果和实例分割结果图。
将训练集的三维实例深度图的三维体素和体素颜色信息输入光场实时重建网络模型中,通过不断调整其中稀疏卷积网络模块的各损失函数,当光场实时重建网络模型输出的分割结果与数据集中包含的分割结果一致率高于预设阈值时,判定模型训练完成。模型训练完成后,即可对实时的三维实例深度图进行处理,得到其对应的语义分割结果和实例分割结果。
在其中一个标准大场景中的速度测试表明,本发明的方案可以实时地更新分割标签,分割速率为10-15Hz。分割和重建的结果如图4图。每一行的左侧为重建得到的几何模型,右侧为对应生成的实例和语义模型。本发明可以实时地运行在便携式设备上。本实施例中采用的设备是:Surface Book + Xtion深度相机。
为了实现上述实施例,本发明还提出一种大场景光场实时重建智能理解系统,包括:本发明提出的大场景光场实时重建智能理解装置。存储器及存储在存储器上并可在大场景光场实时重建智能理解装置上运行的计算机程序。
如图6所示,大场景光场实时重建智能理解系统包括指令的存储器810,接口830,上述指令由大场景光场实时重建智能理解装置820执行。可选地,存储器可以是非临时性计算机可读存储介质,例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (7)

1.一种大场景光场实时重建智能理解装置,其特征在于,包括:
数据获取模块,用于获取三维实例的深度图,通过同步定位与建图得到对应三维实例深度图的三维体素和体素颜色信息;
模型构建模块,用于构建光场实时重建网络模型,使用ScanNet数据集对所述光场实时重建网络模型进行训练;其中,所述光场实时重建网络模型用于通过稀疏卷积网络对待处理三维实例深度图的三维体素和体素颜色信息进行特征提取,对提取的特征进行语义分割和实例分割,以获取所述待处理三维实例深度图对应的语义分割结果和实例分割结果;
语义分割模块,用于将所述对应三维实例深度图的三维体素和体素颜色信息输入训练完成的所述光场实时重建网络模型中,模型输出是对应三维实例深度图的语义分割结果和实例分割结果;
其中,所述光场实时重建网络模型包括稀疏卷积网络模块和在线分割模块;
所述稀疏卷积网络模块为U型网络结构,用于对每个输入点,输出语义类别概率和实例特征值;
所述在线分割模块,用于根据所述稀疏卷积网络模块输出的语义类别概率进行语义类别更新,同时对每帧深度图得到的实例特征值进行聚类,得到当前三维实例深度图的实例结果,并将当前实例结果融合至全局实例结果。
2.根据权利要求1所述的大场景光场实时重建智能理解装置,其特征在于,所述数据获取模块用于通过图像传感器采集所述深度图;其中,所述图像传感器类型为RGB-D深度传感器、双目深度传感器、结构光传感器及ToF传感器中的一种或者多种。
3.根据权利要求1所述的大场景光场实时重建智能理解装置,其特征在于,所述稀疏卷积网络模块还用于设置交叉熵损失函数和discriminative损失函数,所述交叉熵损失函数用于训练语义类别概率;所述discriminative损失函数用于训练实例特征值。
4.根据权利要求3所述的大场景光场实时重建智能理解装置,其特征在于,所述稀疏卷积网络模块还用于设置时序一致性损失函数,所述时序一致性损失函数用于限制同一个三维实例深度图的实例在不同时刻的距离对于同一三维实例深度图中物体不同时刻的特征值相近或相同。
5.根据权利要求1所述的大场景光场实时重建智能理解装置,其特征在于,所述在线分割模块还用于:
对于语义分割,使用语义类别概率,将当前点的语义类别更新;
对于实例分割,对每帧深度图得到的实例特征值进行聚类;
计算当前实例和全局实例的相似度;采用比较平均特征值的办法,对于当前实例,计算平均特征值,再一一和全局实例的平均特征值进行相似度比较。
6.根据权利要求5所述的大场景光场实时重建智能理解装置,其特征在于,所述在线分割模块在计算当前实例和全局实例的相似度时,
计算当前实例的空间重叠率,当前实例和全局实例间的相似度等于当前实例特征值和全局实例特征值的相似度与当前实例空间重叠率的乘积;其中,所述空间重叠率信息是当前实例和全局实例相同的点的个数与当前实例的点的个数的比值;
对每个当前实例,找到最相似的全局实例去匹配,如果相似度低于设定阈值,则视为新的全局实例。
7.一种大场景光场实时重建智能理解系统,其特征在于,包括如权利要求1-6中任一所述的大场景光场实时重建智能理解装置。
CN202210389229.3A 2022-04-14 2022-04-14 大场景光场实时重建智能理解系统与装置 Active CN114494610B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210389229.3A CN114494610B (zh) 2022-04-14 2022-04-14 大场景光场实时重建智能理解系统与装置
US17/817,483 US20230334682A1 (en) 2022-04-14 2022-08-04 Intelligent understanding system for real-time reconstruction of large-scale scene light field

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210389229.3A CN114494610B (zh) 2022-04-14 2022-04-14 大场景光场实时重建智能理解系统与装置

Publications (2)

Publication Number Publication Date
CN114494610A CN114494610A (zh) 2022-05-13
CN114494610B true CN114494610B (zh) 2022-08-02

Family

ID=81489141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210389229.3A Active CN114494610B (zh) 2022-04-14 2022-04-14 大场景光场实时重建智能理解系统与装置

Country Status (2)

Country Link
US (1) US20230334682A1 (zh)
CN (1) CN114494610B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019048B (zh) * 2022-07-08 2023-04-07 北京百度网讯科技有限公司 三维场景分割方法、模型训练方法、装置和电子设备
CN115115797B (zh) * 2022-08-25 2022-11-25 清华大学 大场景稀疏光场语义驱动智能重建方法、系统与装置
CN116071484B (zh) 2023-03-07 2023-06-20 清华大学 十亿像素级大场景光场智能重建方法及装置
CN116721222B (zh) * 2023-08-10 2023-10-31 清华大学 大范围光场语义驱动智能表征与实时重建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111311611A (zh) * 2020-02-17 2020-06-19 清华大学深圳国际研究生院 一种实时三维大场景多对象实例分割的方法
CN112017189A (zh) * 2020-10-26 2020-12-01 腾讯科技(深圳)有限公司 图像分割方法、装置、计算机设备和存储介质
CN112419512A (zh) * 2020-10-13 2021-02-26 南昌大学 一种基于语义信息的空中三维模型修复系统及方法
CN113920256A (zh) * 2021-12-15 2022-01-11 清华大学 一种大场景的三维重建方法、装置及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111311611A (zh) * 2020-02-17 2020-06-19 清华大学深圳国际研究生院 一种实时三维大场景多对象实例分割的方法
CN112419512A (zh) * 2020-10-13 2021-02-26 南昌大学 一种基于语义信息的空中三维模型修复系统及方法
CN112017189A (zh) * 2020-10-26 2020-12-01 腾讯科技(深圳)有限公司 图像分割方法、装置、计算机设备和存储介质
CN113920256A (zh) * 2021-12-15 2022-01-11 清华大学 一种大场景的三维重建方法、装置及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
OccuSeg: Occupancy-aware 3D Instance Segmentation;Lei Han1, Tian Zheng, Lan Xu, and Lu Fang;《arXiv:2003.06537v3 [cs.CV]》;20200428;1-12 *
基于多视图深度采样的自然场景三维重建;姜翰青等;《计算机辅助设计与图形学学报》;20151015(第10期);1805-1815 *
基于点云数据的分割方法综述;顾军华等;《燕山大学学报》;20200331(第02期);35-47 *

Also Published As

Publication number Publication date
CN114494610A (zh) 2022-05-13
US20230334682A1 (en) 2023-10-19

Similar Documents

Publication Publication Date Title
CN114494610B (zh) 大场景光场实时重建智能理解系统与装置
Oechsle et al. Texture fields: Learning texture representations in function space
Broggi et al. A full-3D voxel-based dynamic obstacle detection for urban scenario using stereo vision
CN112991413A (zh) 自监督深度估测方法和系统
Hoppe et al. Incremental Surface Extraction from Sparse Structure-from-Motion Point Clouds.
Huang et al. Semantics-aided 3D change detection on construction sites using UAV-based photogrammetric point clouds
Song et al. View path planning via online multiview stereo for 3-d modeling of large-scale structures
Holzmann et al. Semantically aware urban 3d reconstruction with plane-based regularization
CN113256699B (zh) 图像处理方法、装置、计算机设备和存储介质
Liu et al. High-quality textured 3D shape reconstruction with cascaded fully convolutional networks
CN115115797A (zh) 大场景稀疏光场语义驱动智能重建方法、系统与装置
Rist et al. Scssnet: Learning spatially-conditioned scene segmentation on lidar point clouds
CN112907737A (zh) 基于隐函数融合的动态人体三维重建方法和装置
CN112562001A (zh) 一种物体6d位姿估计方法、装置、设备及介质
Gählert et al. Single-shot 3d detection of vehicles from monocular rgb images via geometrically constrained keypoints in real-time
Cui et al. Dense depth-map estimation based on fusion of event camera and sparse LiDAR
CN114372523A (zh) 一种基于证据深度学习的双目匹配不确定性估计方法
CN115147798A (zh) 可行驶区域预测方法、模型、装置及车辆
Gählert et al. Single-shot 3d detection of vehicles from monocular rgb images via geometry constrained keypoints in real-time
Lai et al. 3D semantic map construction system based on visual SLAM and CNNs
CN112950786A (zh) 一种基于神经网络的车辆三维重建方法
Tung et al. MF3D: Model-free 3D semantic scene parsing
CN114926536A (zh) 一种基于语义的定位与建图方法、系统及智能机器人
Amine et al. An active contour for range image segmentation
Bullinger Image-based 3D reconstruction of dynamic objects using instance-aware multibody structure from motion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant