CN116228986A

CN116228986A - 一种基于局部到全局补全策略的室内场景光照估计方法

Info

Publication number: CN116228986A
Application number: CN202310284200.3A
Authority: CN
Inventors: 何振; 白家杨; 杨珊; 张岩; 过洁; 陈振宇; 郭延文
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-06-06

Abstract

本发明公开了一种基于局部到全局补全策略的室内场景光照估计方法，该方法旨在从单张限制视角室内场景图片的任意位置估计出光照情况，并将室内场景光照估计问题分解为三个子任务：基于深度的图像变形、低动态范围(low dynamic range，LDR)全景图补全和高动态范围(high dynamic range，HDR)重建。基于第二个子任务，该方法提出一种从局部到全局的全景图补全策略，该策略首先对第一阶段变形后输出的稀疏的全景图进行深度引导的局部补全，以填补小而密集的空洞；之后通过立方体贴图投影法和一个能够拟合长距离依赖关系的transformer网络(称作PanoTransformer)进行合理的全局补全；最终能够在输入图片任意位置恢复出物理上合理且带有纹理细节的全景图，以捕捉空间变化的室内光照。

Description

一种基于局部到全局补全策略的室内场景光照估计方法

技术领域

本发明属于计算机视觉和计算机图形学技术领域，尤其涉及一种基于局部到全局补全策略的室内场景光照估计方法。

背景技术

从单一视角的低动态范围(low dynamic range，LDR)图像中估计高动态范围(high dynamic range，HDR)的室内光照是计算机视觉和图形学的一个基本问题。它对许多应用有巨大的影响，包括增强现实和混合现实(AR/MR，augmented reality/mixedreality)、场景理解和重光照。在AR/MR应用中，为了创造出可信且沉浸式的体验，插入的虚拟物体的反射和其他光照效果必须匹配真实世界的背景，来确保虚拟和现实高度逼真的光照一致性。但是由于观测视角图像中的像素强度是场景几何、材质属性和光照分布的一个复杂函数，特别是对于一张限制视角(field-of-view，FOV)的室内场景图像，不同的光照和表面反射组合会产生同样的像素强度，加大了问题的难度。

随着深度学习和大规模数据集的出现，卷积神经网络(convolution neuralnetwork，CNN)现在是解决这一难题的实际架构。如Song和Funkhouser等人提出的NeuralIllumination，文献1SONG S,FUNKHOUSER T.Neural illumination:Lighting predictionfor indoor environments[C]//Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition.2019:6918-6926.，将室内光照估计问题分解为三个子任务：基于深度的图像变形、LDR全景图补全和HDR全景图重建。这套管线的成功在于第二个子任务，它为不完整的全景图恢复缺失的内容。然而，在实现本发明过程中，发明人发现直接将现有的基于CNN的图像补全网络，直接应用于不完整的全景图是不合理的，因为(1)变形后图像的空洞区域非常大(一般大于60％)，加大了补全难度；(2)全景图有严重的空间畸变，会误导基于CNN的特征提取模块；(3)CNN具有线性运算的感受野，难以捕捉全景图中普遍存在的长距离依赖关系。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种基于局部到全局补全策略的室内场景光照估计方法。

技术方案：为了解决上述技术问题，本发明公开了一种基于局部到全局补全策略的室内场景光照估计方法，该方法用于从单张室内场景图片中估计指定位置光照情况，包括以下步骤：

步骤1，根据限制视角的LDR图像I和LDR图像中的指定位置R，获得以R位置为中心的稀疏全景图

步骤2，对所述以R位置为中心的稀疏全景图

进行局部到全局的补全，获得完整的具有合理结构和纹理细节的LDR全景图P_G；

步骤3，对所述LDR全景图P_G进行HDR高光重建，获得R位置对应的HDR全景环境贴图P_HDR，完成室内场景光照估计。

进一步地，步骤1包括：

步骤11，对限制视角的LDR图像I使用DPT预测逐像素的深度获得对应的深度图D；

步骤12，根据深度图D将LDR图像I上的点从像素空间反投影到三维世界坐标空间中；

步骤13，以位置R对应的三维坐标为球面中心，计算其余三维坐标相对该坐标的深度和球面俯仰角值，并进行球面到全景图的投影获得以R位置为中心的稀疏的深度全景图

和LDR全景图/>

进一步地，步骤2对于稀疏的LDR全景图

进行局部到全局的补全过程公式化为：

其中，P_G表示经过局部到全局补全后的LDR全景图，M表示区分稀疏的LDR全景图

中像素是否可见的二进制掩码图，⊙表示逐像素相乘，L和G分别表示局部补全和全局补全。

进一步地，步骤2包括如下步骤：

步骤21，根据局部补全的全景图P_L的空洞区域生成掩码图M，与对应完整的全景图Ground Truth配对组成一套室内场景全景图补全任务数据集；

步骤22，根据稀疏的深度全景图

对稀疏全景图/>

进行深度导向的局部补全，获得局部补全的全景图P_L；

步骤23，根据步骤22对步骤21中数据集中的掩码图进行更新并进行训练得到PanoTransformer，然后对局部补全的全景图P_L进行全局补全，获得完整的具有合理结构和纹理细节的LDR全景图P_G。进一步地，步骤21包括如下步骤：

步骤211，从Matterport3D、SUN360和Laval三种数据集中收集室内全景图数据集；

步骤212，根据Matterport3D数据集提供的深度信息和Neural Illumination在该数据集中提供的位置点对图像进行变形得到稀疏全景深度图，并对该深度图进行局部补全，根据局部补全后的全景深度图空洞区域生成掩码图M；

步骤213，将掩码图M和步骤211中室内全景图片进行随机配对得到一套室内全景图补全数据集。

进一步地，步骤22包括如下步骤：

步骤221，利用形态学操作和双边滤波填补稀疏的深度全景图

中的密集细小的空洞区域，获得填补后的深度全景图D′；

步骤222，设定初始局部补全的全景图

阈值为t(0<t<1)；

步骤223，在填补后的深度全景图D′中选取一个填补后的像素d，计算d的像素坐标c_p；然后将c_p反投影到世界坐标系下得到其世界坐标c_w；再将c_w投影回深度图D的像素坐标系下得到像素坐标c；

步骤224，比较深度图D在坐标c下的深度值与d的误差；若误差绝对值小于t，则P_L在坐标c下的RGB值等于图像I在坐标c下的RGB值，即P_L[c]＝I[c]；

步骤225，遍历填补后的深度全景图D′中填补的像素，重复步骤223至224以获得局部补全的全景图P_L。进一步地，步骤23根据步骤22对步骤21数据集中的掩码图进行更新，然后通过设计的PanoTransformer网络对步骤22的数据集进行训练，并对局部补全后的全景图P_L进行全局结构补全，然后反投影到球面上生成完整的LDR全景图P_G，PanoTransformer网络设计如下：

PanoTransformer包括12个transformer块作为编码器，以及6个残差块作为解码器；PanoTransformer将立方体贴图作为输入，立方体贴图为6面4通道，由步骤22制作的数据集中3通道室内全景图与1通道掩码图在通道维拼接并投影到立方体上得到，输入表示为x∈R^6×H×W×4，其中H＝128和W＝128是立方体贴图中每个面的高度和宽度。在编码器中，输入x首先被重组成一系列展开的二维方块，表示为

其中p＝16表示每个方块的分辨率，/>

表示方块的数量；之后每个方块通过一个可训练的线性层被映射成一维的向量，表示为z∈R^d，其中d＝1024，并通过位置嵌入保留位置信息；然后将这些向量输入transformer块中，每个transformer块包含多头自注意机制MHSA层、归一化层LN和多层感知机MLP；第l个transformer块的输入表示为z^l，1≤l≤12，输出表示为：

w^l＝MHSA(LN(z^l))+z^l

z^l+1＝MLP(LN(w^l))+w^l

其中w^l表示经过第l层MHSA后的中间特征。经过编码器后，输出结果被重新映射回立方体贴图z∈R^6×H×W×4并经过6块残差块得到全局补全后的立方体贴图，然后再经过反投影得到完整的LDR全景图P_G。

进一步地，步骤3包括：通过基于深度学习的HDR重建方法对经过局部到全局补全的完整LDR全景图P_G进行HDR光照重建得到最终与位置R对应的HDR全景环境贴图P_HDR。

进一步地，还包括步骤4，根据R位置对应的HDR全景环境贴图P_HDR进行位置R处的虚拟物体渲染。

有益效果：

本发明采用局部到全局的补全策略，搭配transformer结构的网络以及收集的无接缝、无人工痕迹的全景图数据集进行室内场景光照估计，解决了因为常规CNN感受野受限而难以解决的大面积(>60％)补全问题，以及全景图补全时的畸变和一致性问题；使得可以预测以室内输入图像任意位置为中心的带有合理结构和纹理细节的全景图，最终达到着色一致的虚拟物体插入渲染效果。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1为本发明方法的整体流程示意图。

图2为本发明中的图像变形流程示意图。

图3为本发明中稀疏与密集全景图分别经过PanoTransfromer第9个transfromer块后的注意力图和注意力得分图。

图4为Neural Illumination数据集示意图。

图5为本发明中数据集示意图。

图6为本发明与各方法光照预测效果对比图。

图7为本发明与各方法预测的光照渲染不同物体效果对比图。

图8为本发明与各方法光照预测效果用户研究对比图。

图9为本发明与各方法补全效果对比图。

图10为本发明各消融实验效果对比图。

图11为本发明与Neural Illumination数据集训练效果对比图。

图12为本发明流程图。

具体实施方式

下面将结合附图，对本发明的实施例进行描述。

对于给定的一张单视点下所拍摄的室内场景图像I，以及场景图片中的指定位置R，本实施例经过如下步骤，完成对单张限制视角室内场景图片指定位置的光照估计，流程图如图1和图12所示：

具体步骤如下：

步骤11，使用DPT预测输入图像I逐像素的深度得到对应深度图D。

步骤12，根据深度图D将LDR图像I上的点从像素空间反投影到三维世界坐标空间中，本实施例中设定相机坐标系为世界坐标系，相机内参f_x、f_y为图像I的宽高，c_x、c_y为I的一半，将LDR图像I上的点从像素空间转换到图像空间，再根据深度图D将图像空间中的点反投影到三维世界坐标空间中；

步骤13，以选定位置R对应的三维坐标为球面中心，计算其余三维坐标相对该中心坐标的深度和球面俯仰角值，并进行球面到全景图的投影将其余三维坐标(包含相对深度和球面俯仰角以及RGB信息)从球面坐标系投影到全景图像素坐标系中得到以R位置为中心的稀疏的深度全景图

和LDR全景图/>

步骤2，对所述以R位置为中心的稀疏全景图

由于输入图片I的视角受限，导致

中存在大面积空洞区域；而步骤1中变形的过程导致的像素拉伸是/>

稀疏的另一个因素。对于稀疏的LDR全景图/>

进行局部到全局的补全过程可以公式化为：

中像素是否可见的二进制掩码图，⊙表示逐像素相乘，L和G分别表示局部补全和全局补全。具体步骤如下：

步骤21，根据变形后的全景图

的空洞区域生成掩码图M，与完整的全景图配对组成一套室内全景图补全任务数据集。

步骤22，首先根据稀疏的深度全景图

对变形后的稀疏的全景图/>

进行局部补全，以填补因为变形过程中像素拉伸带来的密集的细小空洞，缓解稀疏性，得到P_L。将

步骤23，根据步骤22对上述数据集中掩码图进行更新，并训练得到PanoTransformer，然后对局部补全的全景图P_L进行全局补全，获得完整的具有合理结构和纹理细节的LDR全景图P_G。

步骤21中，数据集制作具体如下：

步骤22中，局部补全的具体的步骤如下：

步骤221，利用形态学操作和双边滤波填补稀疏的深度全景图

中的密集细小的空洞区域，获得填补后的深度全景图D′；

步骤222，设定初始局部补全的全景图

阈值为t(0<t<1)；

步骤224，比较深度图D在坐标c下的深度值与d的误差；若误差绝对值小于t，则P_L在坐标c下的RGB值等于图像，在坐标c下的RGB值，即P_L[c]＝I[c]；

步骤225，遍历填补后的深度全景图D′中填补的像素，重复步骤223至224以获得局部补全的全景图P_L。步骤23，通过步骤22更新步骤21数据集中的掩码图，并将设计的PanoTransformer网络对该数据集进行训练，并对局部补全后的全景图P_L进行全局结构补全，然后反投影到球面上生成完整的LDR全景图P_G，PanoTransformer网络设计如下：

PanoTransformer由12个transformer块作为编码器，以及6个残差块作为解码器。它将立方体贴图作为输入，立方体贴图为6面4通道，由步骤22制作的数据集中3通道室内全景图与1通道掩码图在通道维拼接并投影到立方体上得到，输入表示为x∈R^6×H×W×4，其中H＝128和W＝128是立方体贴图中每个面的高度和宽度。在编码器中，输入x首先被重组成一系列展开的二维方块，表示为

其中p＝16表示每个方块的边长，

表示方块的数量。之后每个方块通过一个可训练的线性层被映射成一维的向量，表示为z∈R^d，其中d＝1024，并通过位置嵌入保留位置信息。然后将这些向量输入transformer块中，每个transformer块包含多头自注意机制MHSA层、归一化层LN和多层感知机MLP。第l个transformer块的输入表示为z^l，输出可以表示为：

w^l＝MHSA(LN(z^l))+z^l

z^l+1＝MLP(LN(w^l))+w^l

其中w^l表示经过第l层MHSA后的中间特征。经过编码器后，输出结果被重新映射回立方体贴图z∈R^6×H×W×4并经过6块残差块得到全局补全后的立方体贴图，然后再经过反投影得到完整的LDR全景图P_G。PanoTransformer的训练损失函数为Huber和基于Patch-GAN的对抗性损失。

通过基于深度学习的HDR重建方法对经过局部到全局补全后的完整LDR全景图P_G进行HDR光照重建得到最终与R位置对应的HDR全景环境贴图P_HDR。

更具体的说，本实施例针对用户输入的单张室内场景图片I，首先预测场景深度并进行变形，得到指定位置为中心的稀疏全景图；其次对稀疏全景图进行局部到全局的补全；最后经过HDR重建得到HDR全景图。

实施例

本实施例旨在从一张单视点室内场景图像I的位置R处估计一个完整的HDR环境贴图P_HDR。本实施例遵循Neural Illumination的框架，将该问题分解为三个子任务：基于深度的图像变形，LDR全景图补全和HDR全景图重建。下面根据实施例说明本发明的各个步骤。

步骤1，基于深度的图像变形。

如图1，对于给定的一张单视点下所拍摄的室内场景图像I，以及图像中指定位置R，使用现有方法来估计I的深度图D。然后D和I被几何地变形为以选定位置R为中心稀疏的360°LDR球面全景图，分别表示为

和/>

步骤11，使用基于深度学习的方法DPT预测输入图像I逐像素的深度得到对应深度图D。具体请参见文献：Ranftl R,Bochkovskiy A,Koltun V.Vision transformers fordense prediction[C]//Proceedings of the IEEE/CVF International Conference onComputer Vision.2021:12179-12188.

步骤(12)，设定相机坐标系为世界坐标系，相机内参f_x、f_y为图像I的宽高，c_x、c_y为I的一半，将LDR图像I上的点从像素空间转换到图像空间，再根据深度图D将图像空间中的点反投影到三维世界坐标空间中；得到三维坐标点和对应的RGB信息。

步骤(13)，以位置R对应的三维坐标为球面中心，计算其余三维坐标相对该中心坐标的深度和球面俯仰角值，并将其余坐标进行球面坐标系到全景图像素坐标系的投影获得以R位置为中心的稀疏的深度全景图

和LDR全景图/>

其中/>

和/>

大小为256×512。

步骤(2)，LDR全景图补全。

如图2所示，由于输入图像I的视角受限以及变形操作涉及到的像素拉伸，变形后的全景图的稀疏问题无法避免。变形操作所导致的缺失区域被归类为像素拉伸区域和视野外区域。对于全景图补全，以前的方法大多采用完全的卷积网络。然而，基于CNN的模型由于经过变形后的全景图中大面积的稀疏缺失内容和卷积层的一些固有限制而取得了次优的性能。CNN善于保留局部结构并对丰富的纹理进行建模，但无法补全大面积的空洞区域。因此，以前的工作很难从稀疏的全景图像中获得足够广泛的上下文以及重要的高级表示。同时，球面全景图的失真将进一步阻碍大面积补全的性能。与具有有限感受野的CNN模型相比，transformer被设计用来通过自注意模块支持长距离交互。自注意机制可以直接计算任何一对方块之间的相互作用，自然地捕捉到长距离的依赖关系，并在每个阶段都有一个全局的感受野。然而，transformer直接在稀疏的输入上工作得很差，图3说明了这一点。图3中比较了从稀疏全景图和密集全景图中选择的方块在第9个transformer块的注意力矩阵和注意力图。如图3所示，给定一个密集的输入，查询方块影响一些区域(如地面，注意力图中标注)且包含足够的光照信息。而transformer块结构很难从分散的像素中恢复全局结构，光照不能正确地将信息传递给不可见的方块，导致注意力图的平滑。因此本发明先根据相邻的像素来填充像素拉伸区域，以缓解稀疏性，然后根据对整个场景的全局理解来填充其他大的空洞，为此提出了一个新颖的从局部到全局的补全策略，公式表述如下：

中像素是否可见的二进制掩码图，⊙表示逐像素相乘，L和G分别表示局部补全模块和全局补全模块，依次应用于变形得到的全景图/>

本实施例的局部补全方法旨在根据深度信息，填补像素拉伸区域的密集空洞。局部补全模块采用了一种改进的基于双边滤波的方法来去除像素拉伸区域的密集和小孔。之后，设计一个基于新型transformer的全局结构补全的网络模型，从可见区域提取可靠的全局特征，然后填补视野外区域的大洞。本实施例所设计的transformer架构，采用立方体贴图投影作为输入，以解决球形信号中的空间失真问题，名为PanoTransformer。

步骤(21)，构建室内全景图补全任务数据集。

在进行补全之前，需要对设计的全局补全网络模块进行训练。目前，唯一包含成对的LDR视角图像和相应的HDR全景图的数据集是由Neural Illumination基于Matterport3D(文献2，CHANG A,DAI A,FUNKHOUSER T,et al.Matterport3D:Learning from RGB-D Datain Indoor Environments[J].International Conference on 3D Vision(3DV),2017.)提出的。然而，该数据集重建的HDR全景图有明显的人工痕迹(如图4所示，缝合线和破碎的结构)。这使得本实施例的全局补全模型无法在任意位置推断出完整的、全局一致的结构。考虑到上述问题，本方法从Matterport3D、SUN360(文献3，XIAO J,EHINGER K A,OLIVA A,etal.Recognizing scene viewpoint using panoramic place representation[C]//2012IEEE Conference on Computer Vision and Pattern Recognition.2012:2695-2702.)和Laval(文献4，GARDNER M A,SUNKAVALLI K,YUMER E,et al.Learning toPredict Indoor Illumination from a Single Image[J].ACM Trans.Graph.,2017,36(6).)收集了一个大规模的高质量和多样化的全景图数据集(如图5所示)。除了全景图之外，训练PanoTransformer也需要掩码来生成稀疏的输入

由于不可见区域主要在全景图的顶部，本方法从Neural Illumination的数据集中生成掩码，而不是随机生成。这些稀疏的掩码是通过几何上的变形得到的，与真实世界的数据分布相适应。这些掩码在送入PanoTransformer之前被局部补全。本方法的数据集与Neural Illumination的数据集的主要区别在于，全景图和掩码是不配对的，因此本方法可以在一张全景图上随机应用多样化的不规则掩码来生成各种输入。由于本方法专注于补全任务，因此不要求掩码和全景图在物理上是相关的。最终本方法收集了38,929张高质量的全景图，并伴有随机选择的掩码用于训练，5,368张用于评估。

步骤(22)，LDR全景图局部补全。

局部补全的目的是缓解由像素拉伸引起的稀疏问题，由于像素拉伸区域的深度值变化平稳，而全景图

可能有丰富的纹理，因此首先利用形态学操作和双边滤波来尽可能地填补形变的深度/>

中的空洞；其次遍历填补后的/>

中像素有效的深度值，用I中重新投影的像素值填充/>

中的空洞区域，以得到局部补全后的全景图P_L。

步骤(23)，LDR全景图全局补全。

本方法基于上述数据集设计并训练了一个基于transformer的网络，名为PanoTransformer，用于“幻化”视线外区域的内容。PanoTransformer在逻辑上可以被分离为一个编码器和一个解码器，其中编码器捕捉长距离的无失真表示，而解码器逐渐恢复空间信息以产生准确的像素级预测。

PanoTransformer由12个transformer块作为编码器，以及6个残差块作为解码器。它将立方体贴图作为输入，立方体贴图为6面4通道，由步骤22制作的数据集中3通道室内全景图与l通道掩码图在通道维拼接并投影到立方体上得到，输入表示为x∈R^6×H×W×4，其中H＝128和W＝128是立方体贴图中每个面的高度和宽度。在编码器中，输入x首先被重组成一系列展开的二维方块，表示为

其中p＝16表示每个方块的边长，

w^l＝MHSA(LN(z^l))+z^l

z^l+1＝MLP(LN(w^l))+w^l

其中w^l表示经过第l层MHSA后的中间特征。经过编码器后，输出结果被重新映射回立方体贴图z∈R^6×H×W×4。由于transformer强大的表示能力和全局感受野，这些重建的先验特征z包含了充足的全局结构和粗糙纹理的线索。z可以被看作是立方体贴图投影的六个图像。最后这些类似图像的特征将反馈给解码器，以补充纹理细节。

步骤(3)，通过Santos等人的方法对经过局部到全局补全的完整LDR全景图进行HDR光照重建得到最终与位置R对应的HDR全景环境贴图

下面对本发明进行验证：

损失函数和训练细节

本发明通过最小化预测和参照全景图之间的像素Huber损失来优化PanoTransformer。Huber损失利用了逐像素的l范数损失函数和2范数损失函数的优势，如下所示：

其中y是参照全景图，

是预测值。在本发明的实验中，阈值T被设定为0.2。为了产生更真实的细节，在训练过程中还增加了一个额外的对抗性损失，本方法的判别器采用了与Patch-GAN相同的架构。本发明使用PyTorch框架，文献12Paszke A,Gross S,Massa F,etal.Pytorch:An imperative style,high-performance deep learning library[J].Advances in neural information processing systems,2019,32，实现我们的PanoTransformer。使用Adam优化器，文献13Kingma D P,Ba J.Adam:A method forstochastic optimization[J].arXiv preprint arXiv:1412.6980,2014，默认参数β₁＝0.9和β₂＝0.999，初始学习率为0.0001。PanoTransformer在本发明的数据集上训练了100个epochs。训练是在两个NVIDIARTX 3090GPU上进行的，批次大小为8。

实验结果对比

本方法评估了在室内光照预测方面的性能，并与目前的最先进的方法进行了比较。为了进一步验证从局部到全局的补全方法的有效性，本方法还将补全后的结果P_G与Neural Illumination的结果进行比较，具体评估如下：

光照预测评估

定性比较如图6所示，实验展示了几个最先进的方法和本发明预测的光照贴图和相应的渲染结果。Gardner等人将有限视角的图片回归到HDR光照中，而没有对场景几何、材料属性或照明进行假设。由于他们预测的是整个场景的光照，这种方法无法模拟空间变化。EMLight忽略了复杂的场景几何，用高斯贴图简化了场景的光照分布。因此，它不能处理遮挡问题。相比之下，本发明估计深度以更好地理解场景，这带来更准确的光照估计。与本方法类似，Neural Illumination也将任务分解为子任务。然而，因为有限的感受野，它难以推断出光照位置，特别是当输入非常稀疏时。由于Neural Illumination没有共享代码和模型权重，实验中使用本方法的数据集实现并训练了他们的网络。可以看到，在局部到全局的补全模块中，本发明的方法产生了具有准确照明和感知上可信的带有细节的全景环境贴图，确保了真实的着色效果。

实验中进一步对Garon等人的20个场景和互联网上的另外10个场景进行了用户研究。如图7所示，多个虚拟物体被插入到这些场景中。对于Garon等人的场景，我们使用参照光照和来自Neural Illumination、Li等人和本发明的方法预测的光照，对具有漫反射材质的兔子模型进行重新渲染。Li等人通过利用深度逆向渲染框架来获得完整的场景重建，从单一的RGB图像中估计形状、空间变化的照明和表面反射率，从而达到最先进的性能。为了反映预测的细节，我们在其余场景中用估计的光照贴图渲染镜面球体，并通过用户研究进行对比。用户研究是通过要求84个用户在渲染的图像对之间选择哪种渲染方式更真实来进行的，结果显示在图8中。对于插入兔子模型的场景，Li等人和本发明的方法都在一半的场景中击败了对方，这表明他们在预测光照分布方面是相当的。然而，Li等人用球面高斯建立光照模型，导致镜面球看起来是漫反射。对于21-30个场景，本发明的方法在镜面球上的表现优于其他方法，表明本发明的方法在与环境的一致性方面产生了可信的细节。

定量比较为了评估本方法在光照估计上的表现，实验中用预测的全景环境贴图和参照环境贴图对不同材质的球体进行了渲染，分别是漫反射D、哑光银S和镜面M，并比较了渲染结果。本次实验使用一些标准指标，包括均方根误差(RMSE)和平均绝对误差(MAE)来评估。为了评估光源的准确性，本次实验将参照灯光和预测灯光的平均角度误差A作为两个HDR全景图光照之间的最终角度误差。所有这些指标都被广泛用于评估光照预测。为了评估，本次实验使用了2000对来自Laval数据集的输入LDR图像和在相机上拍摄的参照HDR全景环境贴图。下表显示了本发明的方法与Gardner等人、Neural Illumination和EMLight的定量比较：

表1本发明与各方法预测的光照在漫反射、哑光银和镜面材质球上的渲染指标对比

正表1所见，本方法的效果在不同的评价指标和材质下的比较中优于其他方法。

全景图补全评估

定性比较为了证明本发明的基于transformer的网络对于全局补全的有效性，本次实验在图9中比较了Neural Illumination和本发明的方法的补全效果。特别地，NeuralIllumination能够大致生成粗糙的结构。但是，由于CNN有限的感受野限制了它对全景图中全局结构的理解。此外，Neural Illumination没有用mask保留可见的部分，因此这些区域会在预测后改变。相反，本发明补全的结构只有微小的不一致性和人工痕迹，在全局补全上优于Neural Illumination。

定量比较补全评估是在本发明的测试集上进行的，测试集包含5000多对被遮蔽的输入和参照。表2显示了我们的方法与Neural Illumination的定量比较。平均PSNR、SSIM、FID值被列在上色的LDR全景图中。很明显，本发明的方法在所有指标上都比NeuralIllumination取得了更好的结果。

表2本发明与Neural Illumination在补全上的指标对比结果

方法	SSIM↑	PSNR↑	FID↓
				Neural Illumination	0.30	14.85	255.60
Ours	0.68	21.44	39.36
				-Cubemap	0.62	20.51	70.09
-Local	0.60	19.46	112.32
				-GAN	0.68	21.50	76.07

消融实验

为了评估本发明的方法中设计的有效性，实验中开发了三个模型变体，分别表示为无GAN模型-GAN、无立方体投影模型-Cubemap和无局部补全模型-Local。定量结果在表2中报告。本实验还在图10中对这些模型变体的性能进行了定性评估。

-GAN代表本发明的PanoTransformer在没有GAN损失的情况下进行训练。从图10的最上面一行可以看到，本发明在没有GAN损失的情况下训练的模型产生了过度光滑的纹理，接近周围区域的平均强度。在GAN损失的帮助下，本发明的完整模型能够产生高频信号，并幻化出现实的细节。

以立方体贴图投影为输入，旨在消除全景图中的失真。为了显示立方图投影的有效性，实验中将PanoTransformer改编为立方图模型，将等角投影作为输入，直接输出LDR全景图。从图10的中间一行可以看出，-Cubemap模型存在结构扭曲的问题。本发明的完整模型明显优于-Cubemap模型，证明了cubemap投影在处理球形信号方面的优越性。

为了验证本发明的局部补全模块的重要性，实验中去掉了这个模块，直接用稀疏的全景图

训练PanoTransformer。图10中最下面一行显示，-Local模型为预测引入了伪影，这解释了图3中稀疏输入的注意力图。有了局部补全模块，本发明的策略产生了更真实和更清晰的结果，表明局部补全模块促进了PanoTransformer的性能。

数据集评估

如图11，使用本发明的数据集训练的模型产生的结果好得多，而使用NeuralIllumination的数据集训练的模型容易因为数据集中的人工痕迹而产生杂乱的结构。

具体实现中，本申请提供计算机存储介质以及对应的数据处理单元，其中，该计算机存储介质能够存储计算机程序，所述计算机程序通过数据处理单元执行时可运行本发明提供的一种基于局部到全局补全策略的室内场景光照估计方法的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，ROM)或随机存储记忆体(random access memory，RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来，该计算机程序软件产品可以存储在存储介质中，包括若干指令用以使得一台包含数据处理单元的设备(可以是个人计算机，服务器，单片机，MUU或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本发明提供了一种基于局部到全局补全策略的室内场景光照估计方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于局部到全局补全策略的室内场景光照估计方法，其特征在于，包括以下步骤：

步骤2，对所述以R位置为中心的稀疏全景图

2.根据权利要求1所述的一种基于局部到全局补全策略的室内场景光照估计方法，其特征在于，步骤1包括：

和LDR全景图/>

3.根据权利要求2所述的一种基于局部到全局补全策略的室内场景光照估计方法，其特征在于，步骤2对于稀疏的LDR全景图

进行局部到全局的补全过程公式化为：

4.根据权利要求3所述的一种基于局部到全局补全策略的室内场景光照估计方法，其特征在于，步骤2包括如下步骤：

步骤21，根据变形后的全景图

的空洞区域生成掩码图M，与完整的全景图配对组成一套室内全景图补全任务数据集；

步骤22，根据稀疏的深度全景图

对稀疏全景图/>

进行深度导向的局部补全，获得局部补全的全景图P_L；

步骤23，根据步骤22更新数据集中的掩码图并进行训练得到PanoTransformer，然后对局部补全的全景图P_L进行全局补全，获得完整的具有合理结构和纹理细节的LDR全景图P_G。

5.根据权利要求4所述的一种基于局部到全局补全策略的室内场景光照估计方法，其特征在于，步骤21包括如下步骤：

步骤213，将掩码图M和步骤211中室内全景图片进行随机配对得到一套的室内全景图补全数据集。

6.根据权利要求5所述的一种基于局部到全局补全策略的室内场景光照估计方法，其特征在于，步骤22包括如下步骤：

步骤221，利用形态学操作和双边滤波填补稀疏的深度全景图

中的密集细小的空洞区域，获得填补后的深度全景图D′；

步骤222，设定初始局部补全的全景图

阈值为t，0<t<1；

步骤225，遍历填补后的深度全景图D′中填补的像素，重复步骤223至224以获得局部补全的全景图P_L。

7.根据权利要求6所述的一种基于局部到全局补全策略的室内场景光照估计方法，其特征在于，步骤23根据步骤22对步骤21中数据集中的掩码图进行更新，通过设计的PanoTransformer网络对步骤21的数据集进行训练，并对局部补全后的全景图P_L进行全局结构补全，然后反投影到球面上生成完整的LDR全景图P_G；PanoTransformer网络设计如下：

PanoTransformer包括12个transformer块作为编码器，以及6个残差块作为解码器；PanoTransformer将立方体贴图作为输入，立方体贴图为6面4通道，由步骤22制作的数据集中3通道室内全景图与1通道掩码图在通道维拼接并投影到立方体上得到，输入表示为x∈R^6×H×W×4，其中H＝128和W＝128是立方体贴图中每个面的高度和宽度，在编码器中，输入x首先被重组成一系列展开的二维方块，表示为

其中p＝16表示每个方块的边长，/>

w^l＝MHSA(LN(z^l))+z^l

z^l+1＝MLP(LN(w^l))+w^l

其中w^l表示经过第l层MHSA后的中间特征；经过编码器后，输出结果被重新映射回立方体贴图z∈R^6×H×W×4并经过6个残差块得到全局补全后的立方体贴图，然后再经过反投影得到完整的LDR全景图P_G。

8.根据权利要求7所述的一种基于局部到全局补全策略的室内场景光照估计方法，其特征在于，步骤3包括：通过基于深度学习的HDR重建方法对经过局部到全局补全的完整LDR全景图P_G进行HDR光照重建得到最终与位置R对应的HDR全景环境贴图P_HDR。

9.根据权利要求8所述的一种基于局部到全局补全策略的室内场景光照估计方法，其特征在于，还包括步骤4，根据R位置对应的HDR全景环境贴图P_HDR进行位置R处的虚拟物体渲染。