CN116721222A - 大范围光场语义驱动智能表征与实时重建方法 - Google Patents
大范围光场语义驱动智能表征与实时重建方法 Download PDFInfo
- Publication number
- CN116721222A CN116721222A CN202311004245.7A CN202311004245A CN116721222A CN 116721222 A CN116721222 A CN 116721222A CN 202311004245 A CN202311004245 A CN 202311004245A CN 116721222 A CN116721222 A CN 116721222A
- Authority
- CN
- China
- Prior art keywords
- semantic
- current
- updated
- list
- light field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000012512 characterization method Methods 0.000 title claims abstract description 48
- 238000005070 sampling Methods 0.000 claims abstract description 81
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 230000003287 optical effect Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 2
- 238000009877 rendering Methods 0.000 abstract description 55
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 15
- 238000005457 optimization Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000005855 radiation Effects 0.000 description 4
- 238000013213 extrapolation Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 102100029618 Rab-like protein 6 Human genes 0.000 description 1
- 101150076252 Rabl6 gene Proteins 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02B—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
- Y02B20/00—Energy efficient lighting technologies, e.g. halogen lamps or gas discharge lamps
- Y02B20/40—Control techniques providing energy savings, e.g. smart controller or presence detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computer Graphics (AREA)
- Computational Linguistics (AREA)
- Image Generation (AREA)
Abstract
本发明公开了大范围光场语义驱动智能表征与实时重建方法,本发明属于三维重建与智能理解、人工智能技术领域;该方法包括构建语义驱动智能表征;基于当前RGB‑D图像检测得到当前语义基元,并根据检测得到的当前语义基元和语义列表中的所有语义基元的相似度比较结果更新语义列表;基于更新后的语义列表对语义体中的体素进行更新得到更新后的语义体;基于更新后的语义体得到基于射线采样的3D空间采样点的坐标,并基于3D空间采样点的坐标得到射线RGB色彩值,以根据RGB色彩值进行基于所有RGB‑D图像的大范围光场的实时重建得到大范围光场的实时重建结果。本发明能够以增量的形式更新光场智能表征中的语义信息和场景属性,实现大范围光场的实时重建和实时渲染。
Description
技术领域
本发明属于三维重建与智能理解/人工智能技术领域,特别是涉及大范围光场语义驱动智能表征与实时重建方法与系统。
背景技术
大范围光场实时重建是人工智能、机器视觉、虚拟现实等领域的核心技术难题之一,对于实现光场的高效重建和场景渲染等方面具有重要意义。大范围光场语义驱动智能表征与实时重建指的是:利用RGB、深度传感器等设备从多个视角采集场景的色彩图像和深度图像等信息,检测和提取色彩图像和深度图像中的语义信息,利用语义信息维护和更新场景的智能表征,并以增量的形式快速地将多视角图像的信息融合进大场景的光场表征中,达到实时且高质量的大范围光场重建的目的。
现有的大范围光场重建算法无法实时地重建光场的几何和纹理信息。一方面,传统同时定位和建图(SLAM)算法只关注几何重建,利用输入的RGB或者RGB-D图像重建出场景的几何模型,并不支持高质量的新视角渲染。另一方面,近两年流行的基于神经辐射场(NeRF)的体渲染算法,将场景表示为隐式的连续场,并利用多视角图像进行联合优化,在内插视角上得到了出色的渲染效果,但缺点是稠密的空间采样导致渲染速度很慢;另外由于缺少显式的几何约束,光场重建速度慢,且外插视角的渲染效果很差。一些算法(如NeurMips)将场景表示为平面的集合,并通过类似体渲染的方式对每个平面的几何参数和色彩进行优化,由于采样点数量大大减少,在提升渲染速度的同时仍然可以保证理想的渲染效果。但是这种算法无法表示和优化复杂的场景几何,导致在外插视角上渲染质量仍然很差。
大范围离线光场重建是计算机视觉中的重要问题。光场重建主要包括两方面目标,分别为几何和渲染,传统的重建过程重点关注几何的重建,获取几何后再通过贴图等操作赋予其渲染效果,该方法对于材质简单的小范围场景有较好效果,但对于大范围的光场重建仍然比较困难。基于神经辐射场的方法(以NeRF为代表)将几何和渲染耦合在一起进行重建,通过多视角图像的监督,隐式地优化场景的几何和色彩信息,由于这种方法需要大量的采样和迭代,训练和渲染速度都较慢,但在稠密的观测下可以取得很好的渲染效果。基于多视角特征聚合的方法(以SVS、NPBG算法为代表)以显式的几何作为表征支撑,通过聚合多视角的图像特征,在新的目标视角上渲染出图像,这类算法在较为稀疏的视角下也可以取得较好的渲染效果,缺点是速度仍然很慢。
对于大范围场景而言,实时光场重建有着广泛的应用需求,而增量式重建是实现实时重建的一个重要途径,即通过有序的场景观测,每次重建一个局部区域,通过将局部区域融合,逐步重建出整个场景。这类方法在SLAM领域得到了深入的挖掘,以TSDF Fusion算法为代表,已经在实时的几何重建方面取得了较好的效果,近年来也有工作通过引入隐式表征(以NeuralRecon、NICE-SLAM为代表),提升几何重建的完整度。也有方法考虑增量式地重建大范围场景的渲染场(以NeRFusion为代表),通过计算每个局部区域的渲染场,并利用一个GRU结构将局部的渲染场融合到全局的渲染场中,实现实时的增量式的渲染场重建。但此类方法的缺点是只关注几何重建质量,光场渲染效果很差。
基于语义的三维重建是三维领域的重要研究方向之一。受限于NeRF的表征需要稠密的采样,已有的大范围场景光场重建方法的效率仍然低下。一些方法(如NeurMips)假设场景可以被解耦为3D平面的集合,并通过类似体渲染的方式对每个平面的几何参数和色彩进行优化,由于这种方案中只需要计算射线与各个平面的交点而不需要稠密采样,采样点的数量大大减少,在提升渲染速度的同时仍然可以保证理想的渲染效果。另一些方法,如Manhattan-SDF提出了类似的场景平面假设,在场景的优化过程中添加平面的光滑性正则项,以获得更好的几何重建结果,但此类方法仍然没有得到很好的光场重建效果,尤其是外插视角的光场渲染质量很差。
现有技术难以平衡快速光场重建和高质量光场渲染这两个目标。NeRF提供了高质量的内插视角渲染效果,但效率很低且外插视角渲染质量差,InstantNGP虽然在NeRF的基础上提升了优化和渲染的速度,但是仍然无法得到很好的外插效果,光场重建质量差;NeurMips等基于语义的方法虽然可以实现高速的渲染,但优化速度慢,且难以表示和优化几何复杂的区域。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的是提出一种大范围光场语义驱动智能表征与实时重建方法,提出大范围光场语义驱动智能表征,这种表征通过在渲染过程中对语义采样和体积采样这两种方式进行整合,可以同时提升渲染效率和渲染质量。
本发明的另一个目的在于提出一种大范围光场语义驱动智能表征与实时重建系统。
为达上述目的,本发明一方面提出一种大范围光场语义驱动智能表征与实时重建方法,所述方法包括以下步骤:
构建语义驱动智能表征;其中,所述语义驱动智能表征,包括基于3D空间中的场景语义信息构建语义体和语义列表;
基于当前RGB-D图像检测得到当前语义基元,并根据检测得到的当前语义基元和语义列表中的所有语义基元的相似度比较结果更新所述语义列表;
基于更新后的语义列表对所述语义体中的体素进行更新得到更新后的语义体;
基于更新后的语义体得到基于射线采样的3D空间采样点的坐标,并基于所述3D空间采样点的坐标得到射线RGB色彩值,以根据所述RGB色彩值进行基于所有RGB-D图像的大范围光场的实时重建得到大范围光场的实时重建结果。
另外,根据本发明上述实施例的大范围光场语义驱动智能表征与实时重建方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述语义体中的体素的状态包括空状态、稠密填充状态和语义填充状态;所述语义填充状态表示为语义基元序号。
进一步地,在本发明的一个实施例中,所述基于当前RGB-D图像检测得到当前语义基元,并根据检测得到的当前语义基元和语义列表中的所有语义基元的相似度比较结果更新所述语义列表,包括:
利用语义基元检测算法计算当前RGB-D图像的当前语义基元;
基于当前语义基元的几何参数和所占像素坐标对当前语义基元与语义列表中所有语义基元进行相似度比较;
如果语义列表中存在与当前语义基元的相似度高于第一预设阈值的语义基元,则将当前语义基元与高于第一预设阈值的语义基元合并,并更新合并后的语义基元的几何参数;如果不存在,则将当前语义基元作为新的语义基元添加至语义列表以得到更新后的语义列表。
进一步地,在本发明的一个实施例中,所述基于更新后的语义列表对所述语义体中的体素进行更新得到更新后的语义体,包括:
基于当前RGB-D图像和相机位姿得到当前语义基元在3D空间中的反投影结果,并根据所述反投影结果对语义体中需要被更新的体素集合进行状态判断;
如果体素集合的当前状态是空状态或稠密填充状态,则将当前状态更新为语义填充状态,并在体素集合内填充当前语义基元在更新后的语义列表中的序号;如果体素集合的当前状态是语义填充状态,且已存储的语义基元序号与将要更新的语义基元序号不同,则将当前状态更新为稠密填充状态,以得到更新后的体素;
基于更新后的体素得到更新后的语义体。
进一步地,在本发明的一个实施例中,所述基于更新后的语义体得到基于射线采样的3D空间采样点的坐标,包括:
基于相机光心在某一视角对语义体发出射线,按照预设步长在射线上进行3D空间采样点的采样,并判断采样的每个3D空间采样点所在更新后的语义体中的体素的状态;
如果所在更新后的体素的状态是空状态,则在下一个体素内进行3D空间采样点的采样;
如果是稠密填充状态,则按照预设步长在稠密填充状态的体素内沿着射线方向进行采样;
如果是语义填充状态,则计算语义填充状态的体素内对应的语义基元的几何参数与射线的交点以进行采样。
进一步地,在本发明的一个实施例中,所述基于所述3D空间采样点的坐标得到射线RGB色彩值,包括:
将3D空间采样点的坐标和射线方向向量输入至多层感知机神经网络以计算3D空间采样点的密度和3D空间采样点的色彩值;
按照3D空间采样点的密度对所述3D空间采样点的色彩值进行加权求和,以根据加权求和结果得到射线RGB色彩值。
进一步地,在本发明的一个实施例中,在根据加权求和结果得到射线RGB色彩值之后,所述方法,还包括:
将所述射线RGB色彩值与RGB-D图像中的实际色彩值进行色彩误差计算得到色彩误差计算结果;
根据所述色彩误差计算结果对多层感知机神经网络的参数进行更新以得到更新后的多层感知机神经网络。
进一步地,在本发明的一个实施例中,在经过预设迭代次数后,随机采样语义体中部分体素的密度,如果部分体素的密度小于第二预设阈值,则将小于第二预设阈值的部分体素的体素状态设置为空状态。
进一步地,在本发明的一个实施例中,所述语义基元,包括二次曲面和超二次曲面中的一种。
为达上述目的,本发明另一方面提出一种大范围光场语义驱动智能表征与实时重建系统,所述系统包括:
智能表征构建模块,用于构建语义驱动智能表征;其中,所述语义驱动智能表征,包括基于3D空间中的场景语义信息构建语义体和语义列表;
语义列表更新模块,用于基于当前RGB-D图像检测得到当前语义基元,并根据检测得到的当前语义基元和语义列表中的所有语义基元的相似度比较结果更新所述语义列表;
语义体更新模块,用于基于更新后的语义列表对所述语义体中的体素进行更新得到更新后的语义体;
大范围光场重建模块,用于基于更新后的语义体得到基于射线采样的3D空间采样点的坐标,并基于所述3D空间采样点的坐标得到射线RGB色彩值,以根据所述RGB色彩值进行基于所有RGB-D图像的大范围光场的实时重建得到大范围光场的实时重建结果。
本发明实施例的大范围光场语义驱动智能表征与实时重建方法和系统,结合语义渲染和体积渲染二者各自的优势,构建大范围光场语义驱动智能表征,并基于此实现大范围光场语义驱动实时重建。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明实施例的大范围光场语义驱动智能表征与实时重建方法的流程图;
图2是根据本发明实施例的大范围光场语义驱动智能表征与实时重建方法的网络框架示意图;
图3是根据本发明实施例的大范围光场语义驱动智能表征示意图;
图4是根据本发明实施例的大范围光场实时重建结果的定性比较示意图;
图5是根据本发明实施例的大范围光场实时重建结果的定量比较示意图;
图6是根据本发明实施例的大范围光场语义驱动智能表征与实时重建系统的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
下面参照附图描述根据本发明实施例提出的大范围光场语义驱动智能表征与实时重建方法和系统。
图1是本发明实施例的大范围光场语义驱动智能表征与实时重建方法的流程图。如图1所示,该方法包括:
S1,构建语义驱动智能表征;其中,语义驱动智能表征,包括基于3D空间中的场景语义信息构建语义体和语义列表。
可以理解的是,表征是3D光场重建的基础,包括如何进行3D表示、如何从新视角渲染图像,常见的3D光场表征有点云、mesh面片表征、volume体积表征、基于神经辐射场(NeRF)的表征等。
在本发明的一个实施例中,语义指的是使用语义基元对3D场景的一部分进行表示,其余部分用volume体积表征,两者结合构成一种混合的光场表征。由于这种表征是基于场景的语义信息构建的,与人对场景的理解有很高的相似性,因此称为语义驱动智能表征。
具体地,本发明首先进行语义驱动智能表征的构建。初始化3D语义体(semanticvolume)、语义列表/>、多层感知机神经网络(MLP)。
其中,语义体用于存储3D空间中的场景语义信息,3D语义体/>的大小可以覆盖整个3D场景。
其中,中每个体素(voxel)有三种可能的状态,分别为:空(E-voxel,数值为-1)、稠密填充(D-voxel,数值为0)、语义填充(P-voxel,数值为大于0的自然数,表示语义基元序号)。
在将语义体初始化后,中所有体素均为D-voxel状态。语义列表/>,用于存储已检测到的所有语义基元及其参数。
本发明实施例中的语义基元(primitive)包含但不限于平面、球面、圆柱面等二次曲面(quadrics)和超二次曲面(super-quadrics)。
可以理解的是,本发明在同时初始化一个多层感知机网络(MLP)之后,输入为编码后的3D空间点的空间坐标和观测方向/>,该观测方式为从相机光心出发,连接3D空间点,得到一条射线,这条射线方向就是该3D空间点的观测方向。简言之,观测方向指的是基于相机光心的3D点观测方向。
可以理解的是,语义驱动智能表征的定义除了本发明实施例中根据几何的复杂程度来区分之外,也可以利用RGB纹理等特征的复杂程度的不同来定义和区分。其中表达的一般性思想是,根据3D场景中不同区域的特征差异性,采用不同的建模、采样和渲染方式来进行场景的优化和重建。
可以理解的是,MLP网络输入的是编码后的3D空间坐标和观测方向/>,这里编码方法包含但不限于各种位置编码(如频率编码、球谐函数编码、矩阵分解位置特征编码、哈希表位置特征编码、稠密体积特征编码等)。
S2,基于当前RGB-D图像检测得到当前语义基元,并根据检测得到的当前语义基元和语义列表中的所有语义基元的相似度比较结果更新语义列表。
可以理解的是,在步骤S1中初始化的语义列表是空的,即语义列表里面没有存储任何信息;经过步骤S2,每输入一张RGB-D图像,都可以对语义列表进行更新;在每次更新后,语义列表中的语义基元的数量和参数会发生变化。一般情况下,随着新视角输入,语义列表会不断变长。
在本发明的一个实施例中,RGB-D图像可以由RGB-D传感器获得,其中RGB图像可由任何RGB彩色相机获得,D深度图像可由深度传感器获得(如kinect等)。
在本发明的一个实施例中,利用语义基元检测算法计算当前RGB-D图像的当前语义基元;基于当前语义基元的几何参数和所占像素坐标对当前语义基元与语义列表中所有语义基元进行相似度比较;如果语义列表中存在与当前语义基元的相似度高于第一预设阈值的语义基元,则将当前语义基元与高于第一预设阈值的语义基元合并,并更新合并后的语义基元的几何参数;如果不存在,则将当前语义基元作为新的语义基元添加至语义列表以得到更新后的语义列表。
具体地,对于每一张输入的RGB-D图像(RGB图像和深度图像),用语义基元检测算法检测语义基元,区分图像中的几何复杂和几何简单的区域。
具体地,对当前RGB-D图像中检测到的每个语义基元,计算语义基元的几何参数和所占像素坐标,并与语义列表/>中已有的语义基元进行比较,如果列表中存在与相似度高于预设阈值/>的语义基元/>,则将/>与/>合并,更新/>的参数;如果不存在相似度高于阈值/>的语义基元,则将/>作为新的语义基元添加进入语义列表/>。
S3,基于更新后的语义列表对语义体中的体素进行更新得到更新后的语义体。
可以理解的是,本步骤的目的是利用多视角语义感知的结果即新视角输入后输出更新后的语义列表,以更新语义驱动智能表征中的3D语义体。
在本发明的一个实施例中,基于当前RGB-D图像和相机位姿得到当前语义基元在3D空间中的反投影结果,并根据反投影结果对语义体中需要被更新的体素集合进行状态判断;如果体素集合的当前状态是空状态或稠密填充状态,则将当前状态更新为语义填充状态,并在体素集合内填充当前语义基元在更新后的语义列表中的序号;如果体素集合的当前状态是语义填充状态,且已存储的语义基元序号与将要更新的语义基元序号不同,则将当前状态更新为稠密填充状态,以得到更新后的体素;基于更新后的体素得到更新后的语义体。
具体地,利用输入的深度图像和相机位姿,将步骤(2)中检测到的每个语义基元,反投影到3D空间中,判断语义体/>中需要被更新的体素集合{/>。
进一步地,如果体素原本是空(E-voxel)或者稠密填充(D-voxel)状态,则应当被更新为语义基元填充(P-voxel),并在体素/>内填充该语义基元在语义列表中的序号/>,用于后续渲染过程中的语义信息索引。如果体素/>的状态是语义基元填充(P-voxel),且已存储的语义基元序号与将要更新的语义基元序号不同,则将该体素状态更新为稠密填充(D-voxel),以消除几何复杂区域的冲突,保证渲染质量。
可以理解的是,本发明实施例中,是需要重复执行上述的步骤,因此,在步骤S1中提到在将语义体初始化后,中所有体素均为D-voxel状态,在第一次执行到步骤S3,不存在大于0的体素,在重复执行上述步骤以及到下一步骤时,就会出现数值大于0的体素;这样第二次执行到步骤S3时,就有数值大于0的体素参与了。
S4,基于更新后的语义体得到基于射线采样的3D空间采样点的坐标,并基于3D空间采样点的坐标得到射线RGB色彩值,以根据RGB色彩值进行基于所有RGB-D图像的大范围光场的实时重建得到大范围光场的实时重建结果。
可以理解的是,本发明的总体目标是光场重建,构建了语义驱动智能表征之后(语义列表和语义体),利用输入的多视角图像优化MLP神经网络,使得重建的光场能够利用场景中的信息在任意新视角上渲染出正确的2D图像。
具体地,从任意一个选定视角出发,发出射线(其中/>表示相机光心,/>表示射线方向,t为非负实数),在射线/>上按照特定步长采样。
对每个采样点,判断所在的体素/>的状态,即对于每一个3D采样点,都要判断采样点所在的是哪一个体素(即采样点在哪一个小正方体内),然后根据所在体素的状态,判断应当在体素内采用何种采样方式。
如果判断是E-voxel状态,则直接跳过该体素,继续采样下一个体素(继续在下一个体素内进行采样点的采样);如果是D-voxel状态,则按照固定步长在体素内实现稠密采样;如果是P-voxel状态,则将该体素内对应的语义基元的参数取出,并与射线/>计算交点,实现稀疏采样,采样该点后,继续采样下一个体素。
射线采样结束后,将采样点坐标和射线方向/>送入MLP网络计算3D空间点的密度和色彩值/>,并利用积分渲染的方式计算整条射线的色彩值/>。
可以理解的是,积分渲染方式,包含但不限于NeRF的累积加权求和等渲染方法。
本发明的一个实施例中,根据密度值σ对同一条射线上的采样点色彩值c加权求和,得到一条射线的色彩值,也就是图像中渲染出的一个像素的色彩值。
进一步地,将色彩值与图像中的实际色彩值(Ground Truth)计算误差,反向传播更新MLP网络的参数。此外,每经过固定的迭代次数后,随机采样语义体/>中部分体素的密度/>,如果小于阈值/>,则将该体素状态设置为空(E-voxel),从而使场景稀疏化,加快渲染速度。
可以理解的是,本发明实施例中的渲染范式是基于神经辐射场NeRF的可微渲染范式,此外任何可微的渲染范式均可采用。
基于此,每隔固定时间,将一张新的RGB-D图像输入整个算法流程,迭代执行上述步骤,最后得到完整的大范围光场的实时重建结果。
可以理解的是,神经网络MLP的损失函数除了采用RGB渲染误差损失函数之外,包含但不限于添加深度渲染误差损失函数、语义渲染误差损失函数(渲染语义基元的几何参数,与上述检测出的语义基元参数计算误差)。
可以理解的是,可以应用不同类型的神经网络结构及参数:包含但不限于使用不同的网络层数等网络参数。
综上,本发明提出大范围光场语义驱动智能表征,这种表征通过在渲染过程中对语义采样和体积采样这两种方式进行整合,可以同时提升渲染效率和渲染质量。具体来说,本方法通过对场景的语义感知,可以对场景中不同区域的几何复杂程度进行区分,对于场景中几何简单的区域(如可用平面、球面等语义基元表示的区域),在渲染时采用稀疏的语义采样,提升渲染速度;而对于场景中几何复杂的区域,在渲染时采用稠密的体积采样,保证渲染质量。提出基于语义驱动的光场实时重建方法,以增量的形式更新光场智能表征中的语义信息和场景属性,实现光场的实时重建和实时渲染。
图2为本发明实施例的基于语义驱动智能表征的大范围光场实时重建网络架构图,图2中的(1)为多视角光场语义感知:即语义基元检测;图2中的(2)为语义驱动智能表征的更新:即语义列表更新;图2中的(3)为语义驱动智能表征的更新:即语义体更新;图2中的(4)为语义驱动智能表征的网络优化。
图3为本发明实施例的大范围光场语义驱动智能表征示意图,图3中的(1)为稠密的体积表征与采样;图3中的(2)为稀疏的语义表征与采样;图3中(3)为大范围光场语义驱动智能表征与采样。
图4为大范围光场实时重建结果(定性比较)。图4中的第1列为Replica数据集提供的参考模型(Ground Truth),第2至第4列为目前最优算法的重建效果,第5列为本发明方法的重建效果。
图5为大范围光场实时重建结果(定量比较)。第7行为本发明方法(PARF)的光场重建指标,其余各行分别为现有算法的定量表现。
综上所示,本发明的方式可以为3D场景编辑、AR/VR、自动驾驶、数字孪生等应用提供有效的场景信息,包含但不限于实现高效精确的光场重建和渲染。
本发明所提出的大范围光场语义驱动智能表征可以兼顾体积渲染和语义渲染的优势:在场景中几何简单的区域采用稀疏的语义采样,支持快速的优化和渲染;对于场景中几何复杂的区域,采用稠密的体积采样,保证渲染质量。本发明的方法,可以实现大范围光场的实时重建,同时达到高质量和实时的光场重建效果。
为了实现上述实施例,如图6所示,本实施例中还提供了大范围光场语义驱动智能表征与实时重建系统10,该系统10包括,智能表征构建模块100、语义列表更新模块200、语义体更新模块300和大范围光场重建模块400。
智能表征构建模块100,用于构建语义驱动智能表征;其中,语义驱动智能表征,包括基于3D空间中的场景语义信息构建语义体和语义列表;
语义列表更新模块200,用于基于当前RGB-D图像检测得到当前语义基元,并根据检测得到的当前语义基元和语义列表中的所有语义基元的相似度比较结果更新所述语义列表;
语义体更新模块300,用于基于更新后的语义列表对语义体中的体素进行更新得到更新后的语义体;
大范围光场重建模块400,用于基于更新后的语义体得到基于射线采样的3D空间采样点的坐标,并基于3D空间采样点的坐标得到射线RGB色彩值,以根据RGB色彩值进行基于所有RGB-D图像的大范围光场的实时重建得到大范围光场的实时重建结果。
根据本发明实施例的大范围光场语义驱动智能表征与实时重建系统,在场景中几何简单的区域采用稀疏的语义采样,支持快速的优化和渲染;对于场景中几何复杂的区域,采用稠密的体积采样,保证渲染质量。还可以实现大范围光场的高质量实时重建。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
Claims (10)
1.一种大范围光场语义驱动智能表征与实时重建方法,其特征在于,所述方法包括以下步骤:
构建语义驱动智能表征;其中,所述语义驱动智能表征,包括基于3D空间中的场景语义信息构建语义体和语义列表;
基于当前RGB-D图像检测得到当前语义基元,并根据检测得到的当前语义基元和语义列表中的所有语义基元的相似度比较结果更新所述语义列表;
基于更新后的语义列表对所述语义体中的体素进行更新得到更新后的语义体;
基于更新后的语义体得到基于射线采样的3D空间采样点的坐标,并基于所述3D空间采样点的坐标得到射线RGB色彩值,以根据所述RGB色彩值进行基于所有RGB-D图像的大范围光场的实时重建得到大范围光场的实时重建结果。
2.根据权利要求1所述的方法,其特征在于,所述语义体中的体素的状态包括空状态、稠密填充状态和语义填充状态;所述语义填充状态表示为语义基元序号。
3.根据权利要求1所述的方法,其特征在于,所述基于当前RGB-D图像检测得到当前语义基元,并根据检测得到的当前语义基元和语义列表中的所有语义基元的相似度比较结果更新所述语义列表,包括:
利用语义基元检测算法计算当前RGB-D图像的当前语义基元;
基于当前语义基元的几何参数和所占像素坐标对当前语义基元与语义列表中所有语义基元进行相似度比较;
如果语义列表中存在与当前语义基元的相似度高于第一预设阈值的语义基元,则将当前语义基元与高于第一预设阈值的语义基元合并,并更新合并后的语义基元的几何参数;如果不存在,则将当前语义基元作为新的语义基元添加至语义列表以得到更新后的语义列表。
4.根据权利要求2所述的方法,其特征在于,所述基于更新后的语义列表对所述语义体中的体素进行更新得到更新后的语义体,包括:
基于当前RGB-D图像和相机位姿得到当前语义基元在3D空间中的反投影结果,并根据所述反投影结果对语义体中需要被更新的体素集合进行状态判断;
如果体素集合的当前状态是空状态或稠密填充状态,则将当前状态更新为语义填充状态,并在体素集合内填充当前语义基元在更新后的语义列表中的序号;如果体素集合的当前状态是语义填充状态,且已存储的语义基元序号与将要更新的语义基元序号不同,则将当前状态更新为稠密填充状态,以得到更新后的体素;
基于更新后的体素得到更新后的语义体。
5.根据权利要求4所述的方法,其特征在于,所述基于更新后的语义体得到基于射线采样的3D空间采样点的坐标,包括:
基于相机光心在某一视角对语义体发出射线,按照预设步长在射线上进行3D空间采样点的采样,并判断采样的每个3D空间采样点所在更新后的语义体中的体素的状态;
如果所在更新后的体素的状态是空状态,则在下一个体素内进行3D空间采样点的采样;
如果是稠密填充状态,则按照预设步长在稠密填充状态的体素内沿着射线方向进行采样;
如果是语义填充状态,则计算语义填充状态的体素内对应的语义基元的几何参数与射线的交点以进行采样。
6.根据权利要求5所述的方法,其特征在于,所述基于所述3D空间采样点的坐标得到射线RGB色彩值,包括:
将3D空间采样点的坐标和射线方向向量输入至多层感知机神经网络以计算3D空间采样点的密度和3D空间采样点的色彩值;
按照3D空间采样点的密度对所述3D空间采样点的色彩值进行加权求和,以根据加权求和结果得到射线RGB色彩值。
7.根据权利要求6所述的方法,其特征在于,在根据加权求和结果得到射线RGB色彩值之后,所述方法,还包括:
将所述射线RGB色彩值与RGB-D图像中的实际色彩值进行色彩误差计算得到色彩误差计算结果;
根据所述色彩误差计算结果对多层感知机神经网络的参数进行更新以得到更新后的多层感知机神经网络。
8.根据权利要求7所述的方法,其特征在于,在经过预设迭代次数后,随机采样语义体中部分体素的密度,如果部分体素的密度小于第二预设阈值,则将小于第二预设阈值的部分体素的体素状态设置为空状态。
9.根据权利要求1所述的方法,其特征在于,所述语义基元,包括二次曲面和超二次曲面中的多种。
10.一种大范围光场语义驱动智能表征与实时重建系统,其特征在于,包括:
智能表征构建模块,用于构建语义驱动智能表征;其中,所述语义驱动智能表征,包括基于3D空间中的场景语义信息构建语义体和语义列表;
语义列表更新模块,用于基于当前RGB-D图像检测得到当前语义基元,并根据检测得到的当前语义基元和语义列表中的所有语义基元的相似度比较结果更新所述语义列表;
语义体更新模块,用于基于更新后的语义列表对所述语义体中的体素进行更新得到更新后的语义体;
大范围光场重建模块,用于基于更新后的语义体得到基于射线采样的3D空间采样点的坐标,并基于所述3D空间采样点的坐标得到射线RGB色彩值,以根据所述RGB色彩值进行基于所有RGB-D图像的大范围光场的实时重建得到大范围光场的实时重建结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311004245.7A CN116721222B (zh) | 2023-08-10 | 2023-08-10 | 大范围光场语义驱动智能表征与实时重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311004245.7A CN116721222B (zh) | 2023-08-10 | 2023-08-10 | 大范围光场语义驱动智能表征与实时重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116721222A true CN116721222A (zh) | 2023-09-08 |
CN116721222B CN116721222B (zh) | 2023-10-31 |
Family
ID=87870212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311004245.7A Active CN116721222B (zh) | 2023-08-10 | 2023-08-10 | 大范围光场语义驱动智能表征与实时重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116721222B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160012313A1 (en) * | 2014-07-10 | 2016-01-14 | Thomson Licensing | Method and apparatus for tracking superpixels between related images |
CN109447919A (zh) * | 2018-11-08 | 2019-03-08 | 电子科技大学 | 结合多视角与语义纹理特征的光场超分辨率重建方法 |
CN111862098A (zh) * | 2019-04-30 | 2020-10-30 | 曜科智能科技(上海)有限公司 | 基于光场语义的个体匹配方法、装置、设备和介质 |
CN113792699A (zh) * | 2021-09-24 | 2021-12-14 | 北京易航远智科技有限公司 | 一种基于语义点云的对象级快速场景识别方法 |
CN114494610A (zh) * | 2022-04-14 | 2022-05-13 | 清华大学 | 大场景光场实时重建智能理解系统与装置 |
CN115115797A (zh) * | 2022-08-25 | 2022-09-27 | 清华大学 | 大场景稀疏光场语义驱动智能重建方法、系统与装置 |
CN115423946A (zh) * | 2022-11-02 | 2022-12-02 | 清华大学 | 大场景弹性语义表征与自监督光场重建方法及装置 |
-
2023
- 2023-08-10 CN CN202311004245.7A patent/CN116721222B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160012313A1 (en) * | 2014-07-10 | 2016-01-14 | Thomson Licensing | Method and apparatus for tracking superpixels between related images |
CN109447919A (zh) * | 2018-11-08 | 2019-03-08 | 电子科技大学 | 结合多视角与语义纹理特征的光场超分辨率重建方法 |
CN111862098A (zh) * | 2019-04-30 | 2020-10-30 | 曜科智能科技(上海)有限公司 | 基于光场语义的个体匹配方法、装置、设备和介质 |
CN113792699A (zh) * | 2021-09-24 | 2021-12-14 | 北京易航远智科技有限公司 | 一种基于语义点云的对象级快速场景识别方法 |
CN114494610A (zh) * | 2022-04-14 | 2022-05-13 | 清华大学 | 大场景光场实时重建智能理解系统与装置 |
CN115115797A (zh) * | 2022-08-25 | 2022-09-27 | 清华大学 | 大场景稀疏光场语义驱动智能重建方法、系统与装置 |
CN115423946A (zh) * | 2022-11-02 | 2022-12-02 | 清华大学 | 大场景弹性语义表征与自监督光场重建方法及装置 |
Non-Patent Citations (1)
Title |
---|
方璐 戴琼海: "计算机光场成像", 光学学报, vol. 2020, no. 01, pages 9 - 30 * |
Also Published As
Publication number | Publication date |
---|---|
CN116721222B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Oechsle et al. | Texture fields: Learning texture representations in function space | |
Fu et al. | Geo-neus: Geometry-consistent neural implicit surfaces learning for multi-view reconstruction | |
Flynn et al. | Deepstereo: Learning to predict new views from the world's imagery | |
CN108921926B (zh) | 一种基于单张图像的端到端三维人脸重建方法 | |
CN115115797B (zh) | 大场景稀疏光场语义驱动智能重建方法、系统与装置 | |
Li et al. | Vox-surf: Voxel-based implicit surface representation | |
Sridhar et al. | Multiview aggregation for learning category-specific shape reconstruction | |
Zhang et al. | Critical regularizations for neural surface reconstruction in the wild | |
CN114255313B (zh) | 镜面物体三维重建方法、装置、计算机设备和存储介质 | |
CN110942512B (zh) | 基于元学习的室内场景重建方法 | |
Liu et al. | High-quality textured 3D shape reconstruction with cascaded fully convolutional networks | |
US11669986B2 (en) | Generating enhanced three-dimensional object reconstruction models from sparse set of object images | |
CN112927359A (zh) | 一种基于深度学习和体素的三维点云补全方法 | |
Häne et al. | Hierarchical surface prediction | |
Sun et al. | Ssl-net: Point-cloud generation network with self-supervised learning | |
CN115170741A (zh) | 一种稀疏视角输入下的快速辐射场重建方法 | |
CN115359191A (zh) | 一种基于深度学习的物体三维重建系统 | |
CN115205463A (zh) | 基于多球面场景表达的新视角图像生成方法、装置和设备 | |
CN116721210A (zh) | 基于神经有符号距离场的实时高效三维重建方法及装置 | |
Zhang et al. | SurRF: Unsupervised multi-view stereopsis by learning surface radiance field | |
Vizzo et al. | Make it dense: Self-supervised geometric scan completion of sparse 3d lidar scans in large outdoor environments | |
Maxim et al. | A survey on the current state of the art on deep learning 3D reconstruction | |
Zhao et al. | Exploring the point feature relation on point cloud for multi-view stereo | |
CN116721222B (zh) | 大范围光场语义驱动智能表征与实时重建方法 | |
US20240037829A1 (en) | Computing images of controllable dynamic scenes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |