CN116071484B

CN116071484B - 十亿像素级大场景光场智能重建方法及装置

Info

Publication number: CN116071484B
Application number: CN202310208383.0A
Authority: CN
Inventors: 方璐; 王光宇; 张晋之
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-06-20
Anticipated expiration: 2043-03-07
Also published as: US11908067B1; CN116071484A

Abstract

本发明公开了一种大场景稀疏光场十亿像素级智能重建方法及装置，该方法包括：基于多视角三维重建系统得到粗糙三维几何模型；在粗糙三维几何模型上构建形变元隐式表征；对形变元隐式表征进行优化，以得到大场景光场的自由视点渲染的光场重建结果。本发明在光场理解中采用了基于元形变的隐式表征，在稀疏的视角观测下，充分利用十亿像素级感知分辨率，通过元表面的特征映射与隐式光照建模，优化场景的精细几何结构与材质属性，实现十亿像素级超高分辨率的大场景稀疏光场重建与渲染。

Description

十亿像素级大场景光场智能重建方法及装置

技术领域

本发明涉及三维重建与智能理解/人工智能技术领域，特别是涉及十亿像素级大场景光场智能重建方法及装置。

背景技术

大场景稀疏光场的十亿像素级重建与渲染是人工智能、机器视觉、无人系统等领域的核心技术难题，其指的是：从十亿像素级超高分辨率的稀疏视角观测中提取出场景的几何结构、表面属性与全局光照信息，并在此基础上实现十亿像素级大场景光场重建与自由视点渲染。

目前，大场景光场的感知与重建之间存在显著的差距。借助最先进的计算成像技术已能够实现对于大场景光场的十亿像素级超高分辨率感知，而现有的重建算法却受制于表征的可扩展性，难以实现超高分辨率的大场景光场重建与渲染。在真实室外大场景中，人们对于光场的十亿像素级高分辨感知往往是稀疏的，较低的视角分辨率导致重建与渲染的精度大幅降低，在此情形下，十亿像素级的超高感知分辨率为重建算法提供了新的机遇与挑战。

大场景光场渲染是计算机视觉中广泛研究的基本问题。根据对场景表示方式的不同，可以将大场景光场渲染方法划分为两类：基于显式几何的方法与基于隐式几何的方法。基于显式几何的方法首先采用多视角三维重建技术恢复场景的三维模型，然后据此进行视角投影变换与多视角特征聚合，或采用特征描述子对三维模型进行增强，并通过可微渲染与特征解码器生成场景光场的新视点渲染。此类方法适用于几何结构简单的大场景，在对分辨率要求不高时能够获得较好的渲染效果。基于隐式几何的方法将大场景的几何结构建模为连续的体密度场或有向距离场，采用神经辐射场表示三维空间中的光场分布，并利用多视角色彩一致性端到端地优化几何与光场的隐式表示。此类方法显著依赖于密集采样的输入视角，难以根据稀疏观测生成高质量的大场景新视角渲染。

基于稀疏观测进行新视角渲染在AR/VR等领域有着广泛的应用。现有方法大多采用数据驱动的方式获取稀疏光场先验，例如将稀疏视角特征作为网络输入，通过不同场景上的大量训练来提升算法在稀疏视角下的泛化性能。这类方法能够胜任几何结构较为单一的场景，但难以泛化到复杂的真实大场景中。另一些方法通过引入几何先验或正则项来提升其对于稀疏光场的鲁棒性，例如采用深度补全方法对初始深度预测进行修正或设计正则化损失来约束几何结构的解空间。但是，这类方法无法表示精细的几何结构，因此难以生成逼真且分辨率较高的新视角光场渲染。

现有技术方案：将多视角三维重建系统与光场渲染技术结合，或者在冗余的三维空间中隐式地优化几何表示。对于前者，当观测视角较为稀疏时，几何重建的精度较低且相邻观测视角信息差异显著，此类方法难以针对几何结构进行精细优化，因此在渲染新视角时难以生成高分辨率的细节与逼真的高光颜色。对于后者，即使引入几何先验，此类方法仍然难以根据稀疏光场恢复出有效的几何结构，从而严重制约了隐式光场表征的表示能力。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

针对上述问题，本发明提出了一种十亿像素级大场景光场智能重建方法，基于十亿像素级超高分辨率的稀疏视角观测，利用感知分辨率弥补视角分辨率，针对复杂大场景实现超高分辨率的新视角光场渲染。

本发明的另一个目的在于提出一种十亿像素级大场景光场智能重建装置。

为达上述目的，本发明一方面提出一种十亿像素级大场景光场智能重建方法，包括：

基于多视角三维重建系统得到粗糙三维几何模型；

在所述粗糙三维几何模型上构建形变元隐式表征；

对所述形变元隐式表征进行优化，以得到大场景光场的自由视点渲染的光场重建结果。

进一步的本发明实施例的十亿像素级大场景光场智能重建方法还可以具有以下附加技术特征：

进一步地，所述基于多视角三维重建系统得到粗糙三维几何模型，包括：

利用多视角三维重建系统获取三维点云；

根据所述三维点云和泊松表面重建方法得到粗糙三维表面模型；以及，

使用曲面参数化方法将所述粗糙三维表面模型进行局部共形的参数化，得到若干个局部面片的二维参数网格以得到所述粗糙三维几何模型。

进一步地，所述在所述粗糙三维几何模型上构建形变元隐式表征，包括：

将所述局部面片的二维参数网格归一化为矩形，并将矩形采样点在所述二维参数网格上经过插值得到的特征向量输入元形变网络，输出得到矩形采样点在高维特征空间的形变量；

将基于所述形变量得到的高维特征向量输入特征映射网络，输出得到矩形采样点的法向量、漫反射颜色值、非朗伯材质属性以及几何特征向量；

将矩形采样点的观测角度值、所述矩形采样点的法向量、所述非朗伯材质属性以及所述几何特征向量输入神经渲染器，输出得到当前观测方向上的高光颜色值，根据所述高光颜色值和所述漫反射颜色值得到矩形采样点的颜色预测结果。

进一步地，所述对所述形变元隐式表征进行优化，以得到大场景光场的自由视点渲染的光场重建结果，包括：

构建多层感知机网络模型；

将所述矩形采样点的坐标、插值得到的特征向量、观测角度值输入所述多层感知机网络模型，输出得到矩形采样点的色彩RGB值。

进一步地，所述方法，还包括：

获取所述大场景光场的稀疏视角图像；

随机选取多视角的所述稀疏视角图像上的多个像素进行反投影，每个像素发出一条射线，计算各像素射线穿过的粗糙三维表面上的点，并计算各点渲染出的颜色值。

为达上述目的，本发明另一方面提出一种十亿像素级大场景光场智能重建装置，包括：

模型获取模块，用于基于多视角三维重建系统得到粗糙三维几何模型；

表征构建模块，用于在所述粗糙三维几何模型上构建形变元隐式表征；

光场重建模块，用于对所述形变元隐式表征进行优化，以得到大场景光场的自由视点渲染的光场重建结果。

本发明实施例的十亿像素级大场景光场智能重建方法和装置，实现高分辨率、高保真度的大场景稀疏光场自由视点渲染。使用基于形变元的特征映射和隐式光照建模，实现了稀疏视角下的大场景光场自由视点渲染。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明实施例的十亿像素级大场景光场智能重建方法的流程图；

图2是根据本发明实施例的大场景稀疏光场十亿像素级神经渲染运行框图；

图3是根据本发明实施例的元形变表征示意图；

图4是根据本发明实施例的基于元形变表征的神经渲染网络结构示意图；

图5是根据本发明实施例的大场景稀疏光场新视点渲染结果图；

图6是根据本发明实施例的大场景稀疏光场新视点渲染结果图；

图7是根据本发明实施例的大场景稀疏光场十亿像素级渲染结果图；

图8是根据本发明实施例的十亿像素级大场景光场智能重建装置的结构图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面参照附图描述根据本发明实施例提出的十亿像素级大场景光场智能重建方法和装置。

图1是本发明实施例的十亿像素级大场景光场智能重建方法的流程图。

如图1所示，该方法包括但不限于以下步骤：

步骤S1，基于多视角三维重建系统得到粗糙三维几何模型。

具体的，本发明使用现有的多视角三维重建系统获取三维点云，用现有的泊松表面重建方法恢复出完整度较高但精度很低的粗糙三维表面模型，并使用已有曲面参数化方法将三维表面模型进行局部共形的参数化，得到若干局部面片的二维参数网格。

优选地，本发明可以采用深度传感器获取粗糙三维表面：包括但不限于双目深度传感器、结构光传感器、ToF传感器等。

步骤S2，在粗糙三维几何模型上构建形变元隐式表征。

具体的，本发明的元形变表征，如图3所示。为了更有效地编码高分辨稀疏光场信息，本发明将每一个局部面片对应的二维参数网格归一化为矩形，并在四个顶点分别定义一个可优化的特征向量。

作为一个实施例，本发明使用了一个基于多层感知机(MLP)的元形变网络，将采样点在其二维参数网格上经过邻域插值得到的特征向量作为输入，输出该点在高维特征空间的形变量，用于刻画精细的几何结构与多视角一致性。为了描述场景的物理材质属性，使用基于多层感知机的特征映射网络，将采样点形变后的高维特征向量作为输入，输出该点的法向量、漫反射颜色、非朗伯材质属性以及一个高维的几何特征向量。为了逼真地渲染场景中与视角相关的光场信息，构建了基于多感知机网络的神经渲染器，对场景的光照信息与反射光场进行了隐式建模。该渲染器输入包括观测视角方向、采样点的法向量、非朗伯材质属性以及几何特征向量，输出是该点在当前观测方向上呈现的高光颜色，与漫反射颜色相加后得到采样点最终的颜色预测。如图4所示，为基于元形变表征的神经渲染网络结构示意图。

步骤S3，对形变元隐式表征进行优化，以得到大场景光场的自由视点渲染的光场重建结果。

具体地，本发明给几何基元上的每个点定义一个色彩属性，并用第三个多层感知机网络来建模，输入为该点的坐标、插值得到的特征向量、观测视角，输出为该点的色彩RGB值。

进一步地，给定大场景的稀疏视角图像，随机选取多视角图像上的若干像素进行反投影，每个像素发出一条射线，利用光栅化可微渲染器计算各像素射线穿过的粗糙三维表面上的点，随后将各点通过步骤S2计算渲染出的颜色。同时本发明使用多视角图像作为监督信号，同时对元形变表征的特征向量与网络参量进行优化。

综上，本发明在光场理解中采用了基于元形变的隐式表征，在稀疏的视角观测下，充分利用十亿像素级感知分辨率，通过元表面的特征映射与隐式光照建模，优化场景的精细几何结构与材质属性，实现十亿像素级超高分辨率的大场景稀疏光场重建与渲染。如图2所示的图2中的（a）、图2中的（b）和图2中的（c）为大场景稀疏光场十亿像素级神经渲染运行框图。

在本实施例中，本发明使用Tanks and Temples、ETH3D、GigaMVS数据集对元形变表征进行训练和测试。测试结果表明，本发明可以有效地提升大场景稀疏光场自由视点渲染的精细度、颜色真实度以及各项数值指标。重建结果如图5，图6，图7所示。其中，图5左边两列为目前最优算法的渲染效果，图5第三列为本发明提出方法的渲染效果，第四列为Tanks and Temples数据集提供的真实参考图像。

图6左边三列为现有最优算法的渲染效果，第四列为本发明提出方法的渲染效果，第五列为ETH3D数据集提供的真实参考图像。

图7左边三列为现有最优算法的渲染效果，第四列为本发明提出方法的渲染效果，第五列为GigaMVS数据集提供的真实参考图像。

进一步地，通过实验验证了在Tanks and Temples、ETH3D、GigaMVS数据集下，均可以生成颜色真实度高且细节丰富的新视点渲染结果。具体来说，本发明从Tanks andTemples、ETH3D、GigaMVS数据集中选取了15个大场景数据，测试算法在稀疏输入视角下的性能。本发明的方法在PSNR，SSIM，LPIPS三项常用指标上均表现出明显优势。测试结果表明，本发明可以有效地提升大场景稀疏光场自由视点渲染的质量，在精度和颜色真实度方面相较于当前最好的方法有明显的提升。

根据本发明实施例的十亿像素级大场景光场智能重建方法，使得渲染结果具有更丰富的细节与高保真的颜色。定义在局部的元形变表征能够对复杂大场景的光场信息进行有效地表示与压缩存储。基于该表征的渲染与优化效率较高。基于十亿像素级超高分辨率的稀疏视角观测，利用感知分辨率弥补视角分辨率，针对复杂大场景实现超高分辨率的新视角光场渲染。

为了实现上述实施例，如图8所示，本实施例中还提供了十亿像素级大场景光场智能重建装置10，该装置10包括，模型获取模块100、表征构建模块200和光场重建模块300。

模型获取模块100，用于基于多视角三维重建系统得到粗糙三维几何模型；

表征构建模块200，用于在粗糙三维几何模型上构建形变元隐式表征；

光场重建模块300，用于对形变元隐式表征进行优化，以得到大场景光场的自由视点渲染的光场重建结果。

进一步地，上述模型获取模块100，还用于：

利用多视角三维重建系统获取三维点云；

根据三维点云和泊松表面重建方法得到粗糙三维表面模型；以及，

使用曲面参数化方法将粗糙三维表面模型进行局部共形的参数化，得到若干个局部面片的二维参数网格以得到粗糙三维几何模型。

进一步地，上述表征构建模块200，还用于：

将局部面片的二维参数网格归一化为矩形，并将矩形采样点在二维参数网格上经过插值得到的特征向量输入元形变网络，输出得到矩形采样点在高维特征空间的形变量；

将基于形变量得到的高维特征向量输入特征映射网络，输出得到矩形采样点的法向量、漫反射颜色值、非朗伯材质属性以及几何特征向量；

将矩形采样点的观测角度值、矩形采样点的法向量、非朗伯材质属性以及几何特征向量输入神经渲染器，输出得到当前观测方向上的高光颜色值，根据高光颜色值和漫反射颜色值得到矩形采样点的颜色预测结果。

进一步地，上述光场重建模块300，还用于：

构建多层感知机网络模型；

将矩形采样点的坐标、插值得到的特征向量、观测角度值输入多层感知机网络模型，输出得到矩形采样点的色彩RGB值。

进一步地，装置10，还包括渲染模块，用于：

获取大场景光场的稀疏视角图像；

随机选取多视角的稀疏视角图像上的多个像素进行反投影，每个像素发出一条射线，计算各像素射线穿过的粗糙三维表面上的点，并计算各点渲染出的颜色值。

根据本发明实施例的十亿像素级大场景光场智能重建装置，使得渲染结果具有更丰富的细节与高保真的颜色。定义在局部的元形变表征能够对复杂大场景的光场信息进行有效地表示与压缩存储。基于该表征的渲染与优化效率较高。基于十亿像素级超高分辨率的稀疏视角观测，利用感知分辨率弥补视角分辨率，针对复杂大场景实现超高分辨率的新视角光场渲染。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

Claims

1.一种十亿像素级大场景光场智能重建方法，其特征在于，包括以下步骤：

基于多视角三维重建系统得到粗糙三维几何模型；

在所述粗糙三维几何模型上构建形变元隐式表征；

对所述形变元隐式表征进行优化，以得到大场景光场的自由视点渲染的光场重建结果；

所述在所述粗糙三维几何模型上构建形变元隐式表征，包括：

将局部面片的二维参数网格归一化为矩形，并将矩形采样点在所述二维参数网格上经过插值得到的特征向量输入元形变网络，输出得到矩形采样点在高维特征空间的形变量；

将矩形采样点的观测角度值、所述矩形采样点的法向量、所述非朗伯材质属性以及所述几何特征向量输入神经渲染器，输出得到当前观测方向上的高光颜色值，根据所述高光颜色值和所述漫反射颜色值得到矩形采样点的颜色预测结果；

所述对所述形变元隐式表征进行优化，以得到大场景光场的自由视点渲染的光场重建结果，包括：

构建多层感知机网络模型；

将所述矩形采样点的坐标、插值得到的特征向量、观测角度值输入所述多层感知机网络模型，输出得到矩形采样点的色彩RGB值；

所述方法，还包括：

获取所述大场景光场的稀疏视角图像；

2.根据权利要求1所述的方法，其特征在于，所述基于多视角三维重建系统得到粗糙三维几何模型，包括：

利用多视角三维重建系统获取三维点云；

3.一种十亿像素级大场景光场智能重建装置，其特征在于，包括：

光场重建模块，用于对所述形变元隐式表征进行优化，以得到大场景光场的自由视点渲染的光场重建结果；

所述表征构建模块，还用于：

所述光场重建模块，还用于：

构建多层感知机网络模型；

所述装置，还包括渲染模块，用于：

获取所述大场景光场的稀疏视角图像；

4.根据权利要求3所述的装置，其特征在于，所述模型获取模块，还用于：

利用多视角三维重建系统获取三维点云；