CN115115797A - 大场景稀疏光场语义驱动智能重建方法、系统与装置 - Google Patents

大场景稀疏光场语义驱动智能重建方法、系统与装置 Download PDF

Info

Publication number
CN115115797A
CN115115797A CN202211025358.0A CN202211025358A CN115115797A CN 115115797 A CN115115797 A CN 115115797A CN 202211025358 A CN202211025358 A CN 202211025358A CN 115115797 A CN115115797 A CN 115115797A
Authority
CN
China
Prior art keywords
semantic
information
sampling point
light field
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211025358.0A
Other languages
English (en)
Other versions
CN115115797B (zh
Inventor
方璐
营海洋
张晋之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202211025358.0A priority Critical patent/CN115115797B/zh
Publication of CN115115797A publication Critical patent/CN115115797A/zh
Application granted granted Critical
Publication of CN115115797B publication Critical patent/CN115115797B/zh
Priority to US18/454,513 priority patent/US20240078744A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/10Constructive solid geometry [CSG] using solid primitives, e.g. cylinders, cubes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/54Extraction of image or video features relating to texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/56Particle system, point based geometry or rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/61Scene description

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Architecture (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Image Generation (AREA)

Abstract

本发明公开了大场景稀疏光场语义驱动智能重建方法、系统与装置,该方法包括:获取多视角图像的语义基元;将语义基元的第一网格采样点对应的坐标信息和特征向量输入第一网络模型得到坐标偏移量,并根据坐标偏移量和语义基元的几何属性信息得到语义基元的第二网格;将第二网格采样点对应的坐标信息和特征向量以及观测角度值输入第二网络模型得到第二网格采样点的第一特征信息,以及基于第一特征信息得到语义基元的第二特征信息;根据语义基元的观测角度值和第二特征信息提取的第三特征信息,得到多视角图像的光场重建结果。该方法可以提升光场重建的完整度,同时保证光场重建的精度。

Description

大场景稀疏光场语义驱动智能重建方法、系统与装置
技术领域
本发明涉及三维重建与人工智能技术领域,特别涉及大场景稀疏光场语义驱动智能重建方法、系统与装置。
背景技术
大场景稀疏光场语义重建是人工智能、机器视觉、无人系统等领域的核心技术难题,对于实现光场的高效表示和场景渲染等方面具有重要意义。大场景稀疏光场语义重建指的是:从稀疏的观测中提取出场景中的结构性语义信息,并在结构性语义信息的基础上进行高精度的大场景光场重建。
在真实世界中,高精度的光场重建往往依赖稠密的观测,现有的大部分重建算法都需要对场景进行密集的扫描,而大场景中人们对光场的观测往往是稀疏的,信息的缺失导致重建完整度和精度大幅度降低。已有的语义重建算法通过对场景的结构性语义信息进行解析,将场景表示成多个平面的组合,但这种表征无法对场景局部的非规则几何细节进行建模,导致重建精度很低。
大场景光场重建是计算机视觉中的重要问题。一般来说,对场景的观测越多,可用于重建的信息就越丰富。为了实现对大场景光场的高精度重建,目前大部分方法需要稠密的场景采样。典型的光场重建算法包括基于深度图、体素、点云的重建方法。基于深度图的方法先通过视角变换和特征聚合对每个视角生成一幅深度图,然后将多视角的深度图融合得到重建结果,对几何结构较为单一、遮挡关系简单的大场景重建具有较好的效果,此类方法目前重建精度最高;基于体素的重建方法将空间分割成规则的三维网格,然后利用多视角一致性信息对每个体素的属性进行预测,此类方法需要在显存和分辨率上进行权衡,在对大场景进行高分辨率重建时显存占用较大;基于点云的重建方法直接对三维点云进行操作,利用多视角图像的特征匹配不断加密点云,得到重建结果,此类方法对纹理丰富的场景具有较好的重建效果,但在缺少纹理的区域可能出现孔洞。近年来神经渲染技术得到了较快的发展,它们通过对场景的色彩、光照和密度进行统一的建模,可以在密集采样的基础上实现高分辨率的新视角场景渲染,但这类方法依赖于稠密的RGB采样,或者对场景的几何先验有较高的依赖程度。
基于语义的光场重建是计算机图形学和计算机视觉的交叉方向,旨在通过对场景中的语义建立理解,提升光场重建的完整度。已有的语义重建方法大多采用基础的几何元素实现对场景的简化表示,例如仅采用平面、或者平面和非平面混合的场景表示,这类方法对于纹理匮乏的平面区域具有较完整的重建效果,但是不能表示更加复杂的几何表面(如球面、圆柱面等二次曲面),也无法保留平面区域的几何细节(如雕塑上的纹理等)。另一些方法基于初始三维点云,通过构建基本的线、三角面等,实现深度图上孔洞的补全(但这种方法对点云的噪声不够鲁棒,几何精度同样不高。近期神经渲染技术也被应用到光场语义重建中,这类方法通过添加特殊的正则项或者额外的语义检测模块,将几何语义的约束融入室内场景的重建中,使得精度得到一定的提升。但是目前这类方法采用的语义类型十分单一(仅限于平面),同时也缺乏对几何边界的精确建模。现有技术方案的缺点:
(1)大场景光场重建:不管是基于深度图、体素、点云的重建方法,还是新兴的基于神经渲染的方法,都需要稠密的视角采样来保证完整度和精度,稀疏的视角会导致性能降低,该现象在纹理匮乏的区域表现尤为严重。
(2)基于语义的光场重建:已有方法在利用语义基元简化场景的同时,不能有效地保留几何细节,且不能建模复杂的几何表面,以及对几何边界缺乏精确建模,导致整体精度不高。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明提出一种大场景稀疏光场语义驱动智能重建方法、系统与装置,在光场理解中采用了全局和局部两种尺度的融合表征,在有限的观测数量下,将全局场景分解为基础的几何语义基元(包括:平面、圆柱面、圆锥面、球面),并在多视角几何约束和可见性分析的基础上,对每个几何语义基元的局部几何细节进行建模和优化,实现高完整度和高精度的大场景稀疏光场语义重建。
为达到上述目的,本发明一方面实施例提出了一种大场景稀疏光场语义驱动智能重建方法,包括:
获取多视角图像的语义基元;
将所述语义基元的第一网格采样点对应的坐标信息和特征向量输入第一网络模型得到坐标偏移量,并根据所述坐标偏移量和语义基元的几何属性信息得到语义基元的第二网格;
将第二网格采样点对应的坐标信息和特征向量以及观测角度值输入第二网络模型得到所述第二网格采样点的第一特征信息,以及基于所述第一特征信息得到语义基元的第二特征信息;其中,所述第一特征信息包括第二网格采样点的可见度值和色彩值;
根据所述语义基元的观测角度值和所述第二特征信息提取的第三特征信息,得到所述多视角图像的光场重建结果;其中,所述第三特征信息,包括语义基元的空间偏移量、可见度值和色彩值。
根据本发明实施例的大场景稀疏光场语义驱动智能重建方法还可以具有以下附加技术特征:
进一步地,所述获取多视角图像的语义基元,包括:获取多视角图像;利用多视角三维重建算法得到所述多视角图像的稀疏点云信息;利用几何检测算法对所述稀疏点云信息进行检测得到点云场景包含的语义基元。
进一步地,所述将语义基元的第一网格采样点对应的坐标信息和特征向量输入第一网络模型得到坐标偏移量,包括:建立语义基元的第一网格;获取第一网格采样点的坐标信息和对应的特征向量;将所述第一网格采样点的坐标信息和所述第一网格采样点对应的特征向量输入多层感知机网络模型,输出得到第一网格采样点沿语义基元法向方向的偏移量。
进一步地,所述基于第一特征信息得到语义基元的第二特征信息,还包括:对多视角图像上的每个像素从相机光心发出一条射线,计算所述射线穿过的所有语义基元上的第二网格采样点;利用所述第二网格采样点的可见度值对所述射线穿过的所有第二网格采样点的色彩值进行加权求和,得到语义基元的色彩值。
进一步地,所述根据语义基元的观测角度值和所述第二特征信息提取的第三特征信息,得到所述多视角图像的光场重建结果,包括:获取语义基元的采样点信息和观测角度值;将所述语义基元的采样点信息和观测角度值输入第一网络模型和第二网络模型,并基于所述第二特征信息输出得到所述语义基元的第三特征信息;根据所述语义基元的第三特征信息对所述语义基元进行优化,根据语义基元的优化结果得到光场重建结果;其中,所述光场重建结果,包括完整的点云信息和多视角图像的渲染结果。
进一步地,在所述得到坐标偏移量之后,所述方法,还包括:利用多视角图像一致性损失函数对所述语义基元的第二网格采样点坐标偏移量进行损失计算;根据损失计算结果得到第一优化后的语义基元。
进一步地,在所述获取多视角图像的语义基元之后,所述方法,还包括:根据所述语义基元和所述稀疏点云信息对所述多视角图像进行分割,得到多视角分割图像;利用所述多视角分割图像作为第一损失函数的监督信号,优化所述语义基元的可见度值得到第二优化后的语义基元;以及,利用所述多视角图像作为第二损失函数的监督信号,优化所述语义基元的色彩值得到第三优化后的语义基元。
为达到上述目的,本发明另一方面实施例提出了一种大场景稀疏光场语义驱动智能重建装置,包括:
图像信息获取模块,用于获取多视角图像的语义基元;
第一特征提取模块,用于将所述语义基元的第一网格采样点对应的坐标信息和特征向量输入第一网络模型得到坐标偏移量,并根据所述坐标偏移量和语义基元的几何属性信息得到所述语义基元的第二网格;
第二特征提取模块,用于将所述第二网格采样点对应的坐标信息和特征向量以及观测角度值输入第二网络模型,并基于预设的可见度和色彩属性信息输出得到所述第二网格采样点的第一特征信息,以及基于所述第一特征信息得到语义基元的第二特征信息;其中,所述第一特征信息包括第二网格采样点的可见度值和色彩值;
光场信息重建模块,用于根据所述语义基元的观测角度值和所述第二特征信息提取的第三特征信息,得到所述多视角图像的光场重建结果;其中,所述第三特征信息,包括语义基元的空间偏移量、可见度值和色彩值。
为达到上述目的,本发明又一方面提出了一种大场景稀疏光场语义驱动智能重建系统,其特征在于,包括:
依次相连的特征获取模块、网关模块、本地数据库和智能重建模块;
所述智能重建模块,用于:
从所述本地数据库中获取多视角图像的语义基元;
将语义基元的第一网格采样点对应的坐标信息和特征向量输入第一网络模型得到坐标偏移量,并根据所述坐标偏移量和语义基元的几何属性信息得到语义基元的第二网格;
将第二网格采样点对应的坐标信息和特征向量以及观测角度值输入第二网络模型得到所述第二网格采样点的第一特征信息,以及基于所述第一特征信息得到语义基元的第二特征信息;其中,所述第一特征信息包括第二网格采样点的可见度值和色彩值;
根据所述语义基元的观测角度值和所述第二特征信息提取的第三特征信息,得到所述多视角图像的光场重建结果;其中,所述第三特征信息,包括语义基元的空间偏移量、可见度值和色彩值。
根据本发明实施例的大场景稀疏光场语义驱动智能重建方法、系统与装置,在稀疏视角观测下,利用场景中的语义信息,实现高完整度和高精度的大场景光场重建。具体来说,在稀疏的视角输入下,通过将大场景分解为多种语义基元,克服无纹理区域的模糊性,提升光场重建的完整度;同时通过多视角的约束和可见性的估计,对每个几何语义基元的全局几何边界和局部几何细节进行优化,保证光场重建的精度。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的大场景稀疏光场语义驱动智能重建方法流程图;
图2为根据本发明实施例的大场景稀疏光场语义驱动智能重建运行框图;
图3为根据本发明实施例的基于多层感知机网络的重建流程图;
图4 为根据本发明实施例的语义基元的参数化表征示意图;
图5为根据本发明实施例的大场景稀疏光场语义驱动智能重建结果模型示意图;
图6为根据本发明实施例的大场景稀疏光场语义驱动智能重建装置结构示意图;
图7为根据本发明实施例的大场景稀疏光场语义驱动智能重建系统结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的大场景稀疏光场语义驱动智能重建方法、系统与装置。
首先将参照附图描述根据本发明实施例提出的大场景稀疏光场语义驱动智能重建方法。
图1为根据本发明一个实施例的大场景稀疏光场语义驱动智能重建方法流程图。
如图1所示,该方法包括以下步骤:
S1,获取多视角图像的语义基元。
具体地,本实施例获取多视角的图像,再使用现有的多视角三维重建算法获取多视角的图像的稀疏点云,再利用现有的几何检测算法检测稀疏点云场景包含的语义基元。
进一步地,再根据语义基元和稀疏点云信息对多视角图像进行分割,得到多视角分割图像。
优选地,稀疏点云生成:包含但不限于使用各种SfM等多视角三维重建算法等。
优选地,语义基元的生成:包含但不限于使用RANSAC、Region Growing等。
优选地,语义基元指导的图像分割方法:包含但不限于使用分水岭算法、各种超像素分割算法、Region Adjacent Graph优化方法等图像分块算法。
结合附图2和3以及附图4,对下述步骤分别进行阐述,如图2、图3和图4所示:
S2,将语义基元的第一网格采样点对应的坐标信息和特征向量输入第一网络模型得到坐标偏移量,并根据坐标偏移量和语义基元的几何属性信息得到语义基元的第二网格。
具体地,该步骤是对局部几何建模和优化。为了实现局部的几何建模,对每个语义基元建立了一个局部的二维参数网格,网格中的每个格点都对应一个可优化的特征向量。使用了一个多层感知机网络(MLP),将二维参数网格上采样点的坐标(u, v)和经过邻域插值得到的特征向量
Figure 570623DEST_PATH_IMAGE001
作为网络的输入,输出该坐标点沿语义基元法向方向的偏移量,由此得到添加了几何细节后的语义基元表面。
进一步的,为了优化语义基元的局部几何,用多视角图像的一致性损失函数对几何基元表面上每个点的偏移量进行监督,优化局部的几何细节。
S3,将第二网格采样点对应的坐标信息和特征向量以及观测角度值输入第二网络模型,并基于预设的可见度和色彩属性信息输出得到第二网格采样点的第一特征信息,以及基于第一特征信息得到语义基元的第二特征信息;其中,第一特征信息包括第二网格采样点的可见度值和色彩值。
作为一种示例,全局几何建模和优化。为了实现全局的几何建模,给几何基元上的每个点(u, v)定义一个可见度属性,并用另一个多层感知机网络来建模,输入为该点的坐标(u, v)、插值得到的特征向量
Figure 28149DEST_PATH_IMAGE002
、观测视角,输出为该点的可见程度(即是否存在或者是否被遮挡)。
进一步地,利用多视角的分割图像作为损失函数地监督信号,优化每个语义基元的边界
Figure 842521DEST_PATH_IMAGE003
,得到优化后的全局几何信息。
作为一种示例,外观纹理建模和优化。给几何基元上的每个点定义一个色彩属性,并用第三个多层感知机网络来建模,输入为该点的坐标(u, v)、插值得到的特征向量
Figure 664984DEST_PATH_IMAGE004
、观测视角,输出为该点的色彩RGB值。
进一步地,基于第一特征信息得到语义基元的第二特征信息。可以理解为对于一幅选定的图像,对图像上每个像素进行反投影,从相机光心发出一条射线,计算穿过的所有语义基元上的网格采样点,随后将上述计算出的可见程度作为权值,对每个采样点的色彩值进行加权求和,得到最终渲染出的色彩值。
进一步地,利用多视角的图像作为损失函数的监督信号来优化每个语义基元的色彩值,从而建模和优化与视角相关的外观纹理。
S4,根据语义基元的观测角度值和第二特征信息提取的第三特征信息,得到多视角图像的光场重建结果;其中,第三特征信息,包括语义基元的空间偏移量、可见度值和色彩值。
具体地,通过在每个语义基元上均匀采样点和特征向量,并选取某个视角作为角度值,网络可以输出每个语义基元的空间偏移量、可见性、色彩RGB信息。将每个联合优化后语义基元进行组合,即可得到重建结果。重建结果可以包括完整的点云信息和多视角图像的渲染结果。
优选地,换用不同类型的神经网络结构及参数:包含但不限于使用不同的网络层数等网络参数。
优选地,替换特征网格:包含但不限于将特征网格用更大的神经网络取代。
优选地,增加或替换其他的语义基元类型:包含但不限于更复杂的二次、n次曲面、NURBS曲面、图状结构的基元关系树等。
本发明还可以实现高度的场景压缩率,可以为AR/VR、数字孪生等应用提供有效的场景信息,包含但不限于实现高效重建和渲染。
进一步地,本发明使用DTU数据集对稀疏光场语义重建的网络进行训练和测试。我们选取了其中22个大场景数据进行测试,测试在三种不同稀疏程度的输入视角下进行,分别为5、10、20张图像。测试结果表明,本发明可以有效地提升光场重建的完整度和整体指标,在完整度方面相对于当前最好的方法有明显的提升。重建结果如图5所示。左侧三列(a)、(b)和(c)分别为三个目前最优算法的重建效果,第四列(d)为本发明的算法效果,第五列(e)为数据集的参考模型(GroundTruth)。
综上,本发明针对几何边界的建模和优化,使得重建完整度大幅度提升;可以在保证完整度的同时建模复杂的几何表面,完整度和精度的综合指标达到目前最优;无监督优化不需要额外的训练数据,不存在针对数据集的过拟合现象。光场重建完整度明显提高;全局加局部的表征和优化过程使得在提高完整度的同时可以保持较高的重建精度;该轻量级表征占用空间小,无监督且优化速度快,对场景压缩和高效渲染具有积极意义。
根据本发明实施例提出的大场景稀疏光场语义驱动智能重建方法,在稀疏视角观测下,利用场景中的语义信息,实现高完整度和高精度的大场景光场重建。具体来说,在稀疏的视角输入下,通过将大场景分解为多种语义基元,克服无纹理区域的模糊性,提升光场重建的完整度;同时通过多视角的约束和可见性的估计,对每个几何语义基元的全局几何边界和局部几何细节进行优化,保证光场重建的精度。
其次参照附图描述根据本发明实施例提出的大场景稀疏光场语义驱动智能重建装置。
图6为根据本发明一个实施例的大场景稀疏光场语义驱动智能重建装置结构示意图。
如图6所示,该大场景稀疏光场语义驱动智能重建装置10包括:图像信息获取模块100,第一特征提取模块200,第二特征提取模块300和光场信息重建模块400。
图像信息获取模块100,用于获取多视角图像的语义基元;
第一特征提取模块200,用于将语义基元的第一网格采样点对应的坐标信息和特征向量输入第一网络模型得到坐标偏移量,并根据坐标偏移量和语义基元的几何属性信息得到语义基元的第二网格;
第二特征提取模块300,用于将第二网格采样点对应的坐标信息和特征向量以及观测角度值输入第二网络模型得到第二网格采样点的第一特征信息,以及基于第一特征信息得到语义基元的第二特征信息;其中,第一特征信息包括第二网格采样点的可见度值和色彩值;
光场信息重建模块400,用于根据语义基元的观测角度值和第二特征信息提取的第三特征信息,得到多视角图像的光场重建结果;其中,第三特征信息,包括语义基元的空间偏移量、可见度值和色彩值。
进一步地,在本发明的一个实施例中,图像信息获取模块100,还用于:获取多视角图像;利用多视角三维重建算法得到多视角图像的稀疏点云信息;利用几何检测算法对稀疏点云信息进行检测得到点云场景包含的语义基元。
进一步地,在本发明的一个实施例中,第一特征提取模块200,还用于:建立语义基元的第一网格;获取第一网格采样点的坐标信息和对应的特征向量;将第一网格采样点的坐标信息和第一网格采样点对应的特征向量输入多层感知机网络模型,输出得到第一网格采样点沿语义基元法向方向的偏移量。
进一步地,在本发明的一个实施例中,第二特征提取模块300,还用于:对多视角图像上的每个像素从相机光心发出一条射线,计算射线穿过的所有语义基元上的第二网格采样点;利用第二网格采样点的可见度值对射线穿过的所有第二网格采样点的色彩值进行加权求和,得到语义基元的色彩值。
进一步地,在本发明的一个实施例中,光场信息重建模块400,还用于:获取语义基元的采样点信息和观测角度值;将语义基元的采样点信息和观测角度值输入第一网络模型和第二网络模型,并基于第二特征信息输出得到语义基元的第三特征信息;根据语义基元的第三特征信息对语义基元进行优化,根据语义基元的优化结果得到光场重建结果;其中,光场重建结果,包括完整的点云信息和多视角图像的渲染结果。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
根据本发明实施例提出的大场景稀疏光场语义驱动智能重建装置,在稀疏视角观测下,利用场景中的语义信息,实现高完整度和高精度的大场景光场重建。具体来说,在稀疏的视角输入下,通过将大场景分解为多种语义基元,克服无纹理区域的模糊性,提升光场重建的完整度;同时通过多视角的约束和可见性的估计,对每个几何语义基元的全局几何边界和局部几何细节进行优化,保证光场重建的精度。
为了实现上述实施例,如图7所示,本实施例中还提供了大场景稀疏光场语义驱动智能重建系统,包括:
依次相连的特征获取模块201、网关模块202、本地数据库203和智能重建模块204;
智能重建模块204,用于:
从本地数据库203中获取多视角图像的语义基元;
将语义基元的第一网格采样点对应的坐标信息和特征向量输入第一网络模型得到坐标偏移量,并根据坐标偏移量和语义基元的几何属性信息得到语义基元的第二网格;
将第二网格采样点对应的坐标信息和特征向量以及观测角度值输入第二网络模型得到第二网格采样点的第一特征信息,以及基于第一特征信息得到语义基元的第二特征信息;其中,第一特征信息包括第二网格采样点的可见度值和色彩值;
根据语义基元的观测角度值和第二特征信息提取的第三特征信息,得到多视角图像的光场重建结果;其中,第三特征信息,包括语义基元的空间偏移量、可见度值和色彩值。
根据本发明实施例提出的大场景稀疏光场语义驱动智能重建系统,在稀疏视角观测下,利用场景中的语义信息,实现高完整度和高精度的大场景光场重建。具体来说,在稀疏的视角输入下,通过将大场景分解为多种语义基元,克服无纹理区域的模糊性,提升光场重建的完整度;同时通过多视角的约束和可见性的估计,对每个几何语义基元的全局几何边界和局部几何细节进行优化,保证光场重建的精度。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (13)

1.一种大场景稀疏光场语义驱动智能重建方法,其特征在于,包括以下步骤:
获取多视角图像的语义基元;
将语义基元的第一网格采样点对应的坐标信息和特征向量输入第一网络模型得到坐标偏移量,并根据所述坐标偏移量和语义基元的几何属性信息得到语义基元的第二网格;
将第二网格采样点对应的坐标信息和特征向量以及观测角度值输入第二网络模型得到所述第二网格采样点的第一特征信息,以及基于所述第一特征信息得到语义基元的第二特征信息;其中,所述第一特征信息包括第二网格采样点的可见度值和色彩值;
根据所述语义基元的观测角度值和所述第二特征信息提取的第三特征信息,得到所述多视角图像的光场重建结果;其中,所述第三特征信息,包括语义基元的空间偏移量、可见度值和色彩值。
2.根据权利要求1所述的方法,其特征在于,所述获取多视角图像的语义基元,包括:
获取多视角图像;
利用多视角三维重建算法得到所述多视角图像的稀疏点云信息;
利用几何检测算法对所述稀疏点云信息进行检测得到点云场景包含的语义基元。
3.根据权利要求2所述的方法,其特征在于,所述将语义基元的第一网格采样点对应的坐标信息和特征向量输入第一网络模型得到坐标偏移量,包括:
建立语义基元的第一网格;
获取第一网格采样点的坐标信息和对应的特征向量;
将所述第一网格采样点的坐标信息和所述第一网格采样点对应的特征向量输入多层感知机网络模型,输出得到第一网格采样点沿语义基元法向方向的偏移量。
4.根据权利要求3所述的方法,其特征在于,所述基于第一特征信息得到语义基元的第二特征信息,还包括:
对多视角图像上的每个像素从相机光心发出一条射线,计算所述射线穿过的所有语义基元上的第二网格采样点;
利用所述第二网格采样点的可见度值对所述射线穿过的所有第二网格采样点的色彩值进行加权求和,得到语义基元的色彩值。
5.根据权利要求4所述的方法,其特征在于,所述根据语义基元的观测角度值和所述第二特征信息提取的第三特征信息,得到所述多视角图像的光场重建结果,包括:
获取语义基元的采样点信息和观测角度值;
将所述语义基元的采样点信息和观测角度值输入第一网络模型和第二网络模型,并基于所述第二特征信息输出得到所述语义基元的第三特征信息;
根据所述语义基元的第三特征信息对所述语义基元进行优化,根据语义基元的优化结果得到光场重建结果;其中,所述光场重建结果,包括完整的点云信息和多视角图像的渲染结果。
6.根据权利要求1所述的方法,其特征在于,在所述得到坐标偏移量之后,所述方法,还包括:
利用多视角图像一致性损失函数对所述语义基元的第二网格采样点坐标偏移量进行损失计算;
根据损失计算结果得到第一优化后的语义基元。
7.根据权利要求2所述的方法,其特征在于,在所述获取多视角图像的语义基元之后,所述方法,还包括:
根据所述语义基元和所述稀疏点云信息对所述多视角图像进行分割,得到多视角分割图像;
利用所述多视角分割图像作为第一损失函数的监督信号,优化所述语义基元的可见度值得到第二优化后的语义基元;以及,
利用所述多视角图像作为第二损失函数的监督信号,优化所述语义基元的色彩值得到第三优化后的语义基元。
8.一种大场景稀疏光场语义驱动智能重建装置,其特征在于,包括:
图像信息获取模块,用于获取多视角图像的语义基元;
第一特征提取模块,用于将所述语义基元的第一网格采样点对应的坐标信息和特征向量输入第一网络模型得到坐标偏移量,并根据所述坐标偏移量和语义基元的几何属性信息得到所述语义基元的第二网格;
第二特征提取模块,用于将所述第二网格采样点对应的坐标信息和特征向量以及观测角度值输入第二网络模型得到所述第二网格采样点的第一特征信息,以及基于所述第一特征信息得到语义基元的第二特征信息;其中,所述第一特征信息包括第二网格采样点的可见度值和色彩值;
光场信息重建模块,用于根据所述语义基元的观测角度值和所述第二特征信息提取的第三特征信息,得到所述多视角图像的光场重建结果;其中,所述第三特征信息,包括语义基元的空间偏移量、可见度值和色彩值。
9.根据权利要求8所述的装置,其特征在于,所述图像信息获取模块,还用于:
获取多视角图像;
利用多视角三维重建算法得到所述多视角图像的稀疏点云信息;
利用几何检测算法对所述稀疏点云信息进行检测得到点云场景包含的语义基元。
10.根据权利要求9所述的装置,其特征在于,所述第一特征提取模块,还用于:
建立语义基元的第一网格;
获取第一网格采样点的坐标信息和对应的特征向量;
将所述第一网格采样点的坐标信息和所述第一网格采样点对应的特征向量输入多层感知机网络模型,输出得到第一网格采样点沿语义基元法向方向的偏移量。
11.根据权利要求10所述的装置,其特征在于,所述第二特征提取模块,还用于:
对多视角图像上的每个像素从相机光心发出一条射线,计算所述射线穿过的所有语义基元上的第二网格采样点;
利用所述第二网格采样点的可见度值对所述射线穿过的所有第二网格采样点的色彩值进行加权求和,得到语义基元的色彩值。
12.根据权利要求11所述的装置,其特征在于,所述光场重建模块,还用于:
获取语义基元的采样点信息和观测角度值;
将所述语义基元的采样点信息和观测角度值输入第一网络模型和第二网络模型,并基于所述第二特征信息输出得到所述语义基元的第三特征信息;
根据所述语义基元的第三特征信息对所述语义基元进行优化,根据语义基元的优化结果得到光场重建结果;其中,所述光场重建结果,包括完整的点云信息和多视角图像的渲染结果。
13.一种大场景稀疏光场语义驱动智能重建系统,其特征在于,包括:
依次相连的特征获取模块、网关模块、本地数据库和智能重建模块;
所述智能重建模块,用于:
从所述本地数据库中获取多视角图像的语义基元;
将语义基元的第一网格采样点对应的坐标信息和特征向量输入第一网络模型得到坐标偏移量,并根据所述坐标偏移量和语义基元的几何属性信息得到语义基元的第二网格;
将第二网格采样点对应的坐标信息和特征向量以及观测角度值输入第二网络模型得到所述第二网格采样点的第一特征信息,以及基于所述第一特征信息得到语义基元的第二特征信息;其中,所述第一特征信息包括第二网格采样点的可见度值和色彩值;
根据所述语义基元的观测角度值和所述第二特征信息提取的第三特征信息,得到所述多视角图像的光场重建结果;其中,所述第三特征信息,包括语义基元的空间偏移量、可见度值和色彩值。
CN202211025358.0A 2022-08-25 2022-08-25 大场景稀疏光场语义驱动智能重建方法、系统与装置 Active CN115115797B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211025358.0A CN115115797B (zh) 2022-08-25 2022-08-25 大场景稀疏光场语义驱动智能重建方法、系统与装置
US18/454,513 US20240078744A1 (en) 2022-08-25 2023-08-23 Method and system for semantic-driven intelligent reconstruction of large-scene sparse light field

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211025358.0A CN115115797B (zh) 2022-08-25 2022-08-25 大场景稀疏光场语义驱动智能重建方法、系统与装置

Publications (2)

Publication Number Publication Date
CN115115797A true CN115115797A (zh) 2022-09-27
CN115115797B CN115115797B (zh) 2022-11-25

Family

ID=83336498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211025358.0A Active CN115115797B (zh) 2022-08-25 2022-08-25 大场景稀疏光场语义驱动智能重建方法、系统与装置

Country Status (2)

Country Link
US (1) US20240078744A1 (zh)
CN (1) CN115115797B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115423946A (zh) * 2022-11-02 2022-12-02 清华大学 大场景弹性语义表征与自监督光场重建方法及装置
CN115953780A (zh) * 2023-03-10 2023-04-11 清华大学 一种基于多视角信息融合的多维光场复杂场景图构建方法
CN116071484A (zh) * 2023-03-07 2023-05-05 清华大学 一种大场景稀疏光场十亿像素级智能重建方法及装置
CN116721222A (zh) * 2023-08-10 2023-09-08 清华大学 大范围光场语义驱动智能表征与实时重建方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255833A (zh) * 2018-09-30 2019-01-22 宁波工程学院 基于语义先验和渐进式优化宽基线致密三维场景重建方法
CN110288712A (zh) * 2019-03-30 2019-09-27 天津大学 室内场景的稀疏多视角三维重建方法
CN110717494A (zh) * 2019-07-16 2020-01-21 北京航空航天大学青岛研究院 Android移动端室内场景三维重建及语义分割方法
CN113128405A (zh) * 2021-04-20 2021-07-16 北京航空航天大学 一种结合语义分割与点云处理的植物识别与模型构建方法
CN114494610A (zh) * 2022-04-14 2022-05-13 清华大学 大场景光场实时重建智能理解系统与装置
CN114913287A (zh) * 2022-04-07 2022-08-16 北京拙河科技有限公司 一种三维人体模型重建方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255833A (zh) * 2018-09-30 2019-01-22 宁波工程学院 基于语义先验和渐进式优化宽基线致密三维场景重建方法
CN110288712A (zh) * 2019-03-30 2019-09-27 天津大学 室内场景的稀疏多视角三维重建方法
CN110717494A (zh) * 2019-07-16 2020-01-21 北京航空航天大学青岛研究院 Android移动端室内场景三维重建及语义分割方法
CN113128405A (zh) * 2021-04-20 2021-07-16 北京航空航天大学 一种结合语义分割与点云处理的植物识别与模型构建方法
CN114913287A (zh) * 2022-04-07 2022-08-16 北京拙河科技有限公司 一种三维人体模型重建方法及系统
CN114494610A (zh) * 2022-04-14 2022-05-13 清华大学 大场景光场实时重建智能理解系统与装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
方璐,戴琼海: "计算光场成像", 《光学学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115423946A (zh) * 2022-11-02 2022-12-02 清华大学 大场景弹性语义表征与自监督光场重建方法及装置
CN115423946B (zh) * 2022-11-02 2023-04-07 清华大学 大场景弹性语义表征与自监督光场重建方法及装置
US11763471B1 (en) 2022-11-02 2023-09-19 Tsinghua University Method for large scene elastic semantic representation and self-supervised light field reconstruction
CN116071484A (zh) * 2023-03-07 2023-05-05 清华大学 一种大场景稀疏光场十亿像素级智能重建方法及装置
US11908067B1 (en) 2023-03-07 2024-02-20 Tsinghua University Method and device for gigapixel-level light field intelligent reconstruction of large-scale scene
CN115953780A (zh) * 2023-03-10 2023-04-11 清华大学 一种基于多视角信息融合的多维光场复杂场景图构建方法
CN116721222A (zh) * 2023-08-10 2023-09-08 清华大学 大范围光场语义驱动智能表征与实时重建方法
CN116721222B (zh) * 2023-08-10 2023-10-31 清华大学 大范围光场语义驱动智能表征与实时重建方法

Also Published As

Publication number Publication date
CN115115797B (zh) 2022-11-25
US20240078744A1 (en) 2024-03-07

Similar Documents

Publication Publication Date Title
CN115115797B (zh) 大场景稀疏光场语义驱动智能重建方法、系统与装置
Bozic et al. Transformerfusion: Monocular rgb scene reconstruction using transformers
Häne et al. Hierarchical surface prediction for 3d object reconstruction
CN111753698B (zh) 一种多模态三维点云分割系统和方法
Poullis A framework for automatic modeling from point cloud data
Rosu et al. Permutosdf: Fast multi-view reconstruction with implicit surfaces using permutohedral lattices
CN113569979B (zh) 一种基于注意力机制的三维物体点云分类方法
CN111028335B (zh) 一种基于深度学习的点云数据的分块面片重建方法
EP2528042B1 (de) Verfahren und Vorrichtung zum Re-Meshing von 3D-Polygonmodellen
Liu et al. High-quality textured 3D shape reconstruction with cascaded fully convolutional networks
CN116071484B (zh) 十亿像素级大场景光场智能重建方法及装置
Häne et al. Hierarchical surface prediction
Rist et al. Scssnet: Learning spatially-conditioned scene segmentation on lidar point clouds
Sun et al. Ssl-net: Point-cloud generation network with self-supervised learning
Shinohara et al. Point2color: 3d point cloud colorization using a conditional generative network and differentiable rendering for airborne lidar
CN116721210A (zh) 基于神经有符号距离场的实时高效三维重建方法及装置
JP2001236522A (ja) 画像処理装置
Song et al. Harnessing low-frequency neural fields for few-shot view synthesis
Shalma et al. A review on 3D image reconstruction on specific and generic objects
Rojo et al. Fourier opacity optimization for scalable exploration
CN116934977A (zh) 一种基于三维占用预测和神经渲染的视觉三维感知方法及系统
CN116721222B (zh) 大范围光场语义驱动智能表征与实时重建方法
Săftescu et al. Look Here: Learning Geometrically Consistent Refinement of Inverse-Depth Images for 3D Reconstruction
Johnston et al. Single View 3D Point Cloud Reconstruction using Novel View Synthesis and Self-Supervised Depth Estimation
Suzuki Fed3DGS: Scalable 3D Gaussian Splatting with Federated Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant