CN117392353B

CN117392353B - 一种增强现实光照估计方法、系统、设备及存储介质

Info

Publication number: CN117392353B
Application number: CN202311687370.2A
Authority: CN
Inventors: 黄芳; 张鑫; 李祖德; 张昊
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-03-12
Anticipated expiration: 2043-12-11
Also published as: CN117392353A

Abstract

本发明公开了一种增强现实光照估计方法、系统、设备及存储介质，本方法通过将单张有限视场图像输入至生成对抗网络得到中间特征变量，计算中间特征变量与离散数值之间距离最近的离散特征；采用生成器得到生成的低动态范围全景图，并将生成的低动态范围全景图和真实场景的低动态范围全景图输入至鉴别器，得到最优低动态范围全景图；将最优低动态范围全景图输入至正曝光生成器和负曝光生成器中，得到多张正曝光图像和多张负曝光图像；通过图像融合，将融合图像输入至三维卷积神经网络中，得到重建的高动态范围全景图，并从重建的高动态范围全景图中得到光照信息。本发明能够提高增强现实光照估计的精确度和提高光照估计的效率。

Description

一种增强现实光照估计方法、系统、设备及存储介质

技术领域

本发明涉及增强现实技术领域，尤其是涉及一种增强现实光照估计方法、系统、设备及存储介质。

背景技术

光照估计作为虚拟内容创作中实现虚实融合的关键方法，成为了虚拟现实（Virtual Reality，VR）和增强现实（Augmented Reality，AR）领域研究的重要方向。虚拟内容创作的核心是光照和渲染，而其中最具挑战的就是光照，因为只有光照是最难与真实画面匹配的。很多时候在虚拟内容制作中，导致呈现画面的逼真度和整体性不足的主要原因不是模型不够细腻、动作不够写实、透视关系计算错误，而是光照不匹配。目前的大多数AR系统中都没有为插入的虚拟物体匹配光照，只是单纯地以固定的直接光照在呈现的画面中渲染虚拟物体，整个画面存在明显的割裂感。

传统的光照估计方法大部分都是基于光照反射模型提出的，其中双向反射分布函数（Bidirectional Reflectance Distribution Function，BRDF）被绝大部分图形学算法用来描述光的反射现象，而Lambert模型和Phong模型是最常见的BRDF。这些方法往往是在已知模型中部分参数的情况下，通过智能优化方法求光照参数的最优解，然而这意味着在估计光照时需要具备除了有限视场图像以外的其他场景信息，如场景的深度信息、物体表面法线等，并且通常会做许多假设约束优化过程，譬如假设场景中只有一个光源、光照的强度固定等。在如今愈发追求高真实感的虚拟内容创作中，传统的光照估计方法在速度和效果已经难以满足目前的虚实融合要求。而基于深度学习的光照估计方法是根据光照表示方法的不同存在各种各样的解决方案。用于图像渲染的光照主要表示为参数化光照和基于图像的光照，参数化光照通过离散化场景对光照进行建模，并将光源坐标、颜色、强度等信息表示为模型参数，它能够广泛应用于各种渲染引擎中，并且支持对光照的自由编辑，但无法反映场景中的其他信息。这类光照方法通常采用分类或回归网络进行预测，如CNN、ResNet、DenseNet等，通过对AR相机拍摄的有限视场图像提取特征，预测包括光源分布在内的光照参数。基于图像的光照则通常以高动态范围（High Dynamic Range，HDR）图像存储场景的照明，它表示从着色点出发任意方向的光照，同时具备场景中物体的信息，但由于高动态范围图像的获取和编辑困难，如果场景中的光照发生了变化，基于图像的光照难以及时进行调整。这些方法对增强现实光照估计都不够精确。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种增强现实光照估计方法、系统、设备及存储介质，能够提高增强现实光照估计的精确度和提高光照估计的效率。

第一方面，本发明实施例提供了一种增强现实光照估计方法，所述增强现实光照估计方法包括：

获取包含有限视场图像和真实场景的低动态范围全景图的数据集；

构建包含生成器和鉴别器的生成对抗网络，并将单张有限视场图像输入至所述生成对抗网络，得到中间特征变量；

通过所述生成对抗网络预先生成离散数值，并计算所述中间特征变量与所述离散数值之间距离最近的离散特征；

基于所述离散特征，采用所述生成器得到生成的低动态范围全景图，并将所述生成的低动态范围全景图和所述真实场景的低动态范围全景图输入至所述鉴别器进行对抗训练，得到最优低动态范围全景图；

将所述最优低动态范围全景图输入至正曝光生成器和负曝光生成器中，得到第一正曝光图像和第一负曝光图像，将所述第一正曝光图像和第一负曝光图像输入至所述正曝光生成器和所述负曝光生成器中进行多次循环，得到多张正曝光图像和多张负曝光图像；

将所述最优低动态范围全景图、多张所述正曝光图像和多张所述负曝光图像进行融合，得到融合图像；

将所述融合图像输入至三维卷积神经网络中，得到重建的高动态范围全景图，并从所述重建的高动态范围全景图中得到光照信息。

与现有技术相比，本发明第一方面具有以下有益效果：

本方法通过构建包含生成器和鉴别器的生成对抗网络，并将单张有限视场图像输入至生成对抗网络，得到中间特征变量，通过生成对抗网络预先生成离散数值，并计算中间特征变量与离散数值之间距离最近的离散特征，基于矢量采用生成器得到生成的低动态范围全景图，并将生成的低动态范围全景图和真实场景的低动态范围全景图输入至鉴别器进行对抗训练，得到最优低动态范围全景图，通过生成对抗网络对单张有限视场图进行训练能够得到最优低动态范围全景图，使得生成的低动态范围全景图无限趋近真实场景的低动态范围全景图，只需单张有限视场图，无需场景的其他先验信息，能够提高光照估计的效率；将最优低动态范围全景图输入至正曝光生成器和负曝光生成器中，得到第一正曝光图像和第一负曝光图像，将第一正曝光图像和第一负曝光图像输入至正曝光生成器和负曝光生成器中进行多次循环，得到多张正曝光图像和多张负曝光图像，通过单张低动态范围全景图恢复不同曝光度下的低动态范围全景图，能够降低设备成本，并为后面重建高动态范围全景图提供更好的数据基础；将最优低动态范围全景图、多张正曝光图像和多张负曝光图像进行融合，得到融合图像，将融合图像输入至三维卷积神经网络中，得到重建的高动态范围全景图，并从重建的高动态范围全景图中得到光照信息，通过同时学习有限视场图像和全景图的映射关系、低动态范围图像和高动态范围图像的映射关系，能够提高增强现实光照估计的精确度，能够有效地保证虚拟物体和现实场景的光照一致性，实现更具真实感的虚实融合效果。

根据本发明的一些实施例，所述构建包含生成器和鉴别器的生成对抗网络，并将单张有限视场图像输入至所述生成对抗网络，得到中间特征变量，包括：

构建包含编码器的生成器，并根据所述生成器和鉴别器构建生成对抗网络；

将所述单张有限视场图像输入至所述生成对抗网络，通过所述编码器进行编码，得到中间特征变量。

根据本发明的一些实施例，所述生成器还构建了码本,所述通过所述生成对抗网络预先生成离散数值，并计算所述中间特征变量与所述离散数值之间距离最近的离散特征，包括：

采用所述生成对抗网络中的所述码本预先生成离散数值；

将所述中间特征变量中的每一个编码位置在所述离散数值中寻找距离最近的离散特征。

根据本发明的一些实施例，所述生成器还构建了解码器，所述基于所述离散特征，采用所述生成器得到生成的低动态范围全景图，并将所述生成的低动态范围全景图和所述真实场景的低动态范围全景图输入至所述鉴别器进行对抗训练，得到最优低动态范围全景图，包括：

基于所述离散特征，采用所述生成器中的所述解码器进行解码，得到生成的低动态范围全景图；

对所述编码器、所述码本和所述解码器进行训练，以使所述生成的低动态范围全景图更接近所述真实场景的低动态范围全景图；

将所述生成的低动态范围全景图和所述真实场景的低动态范围全景图输入至所述鉴别器，得到所述生成的低动态范围全景图和所述真实场景的低动态范围全景图对应的概率值；

根据所述生成的低动态范围全景图和所述真实场景的低动态范围全景图对应的概率值构建对抗损失函数，并采用所述对抗损失函数对所述鉴别器和所述生成器进行对抗训练，得到最优低动态范围全景图。

根据本发明的一些实施例，通过如下方式得到多张正曝光图像和多张负曝光图像：

其中，表示正曝光生成器第一次生成的第一正曝光图像，/>表示正曝光生成器，/>表示最优低动态范围全景图，/>表示正曝光生成器第二次生成的第二正曝光图像，/>表示正曝光生成器第三次生成的第三正曝光图像，/>表示负曝光生成器第一次生成的第一负曝光图像，/>表示负曝光生成器，/>表示负曝光生成器第二次生成的第二负曝光图像，/>表示负曝光生成器第三次生成的第三负曝光图像。

根据本发明的一些实施例，通过如下方式将所述最优低动态范围全景图、多张所述正曝光图像和多张所述负曝光图像进行融合：

其中，表示融合图像，/>表示拼接。

根据本发明的一些实施例，所述将所述融合图像输入至三维卷积神经网络中，得到重建的高动态范围全景图，包括：

构建同时训练所述三维卷积神经网络、所述正曝光生成器和所述负曝光生成器的训练损失函数；

将所述融合图像输入至三维卷积神经网络中，采用所述训练损失函数进行训练，得到重建的高动态范围全景图。

第二方面，本发明实施例还提供了一种增强现实光照估计系统，所述增强现实光照估计系统包括：

数据获取单元，用于获取包含有限视场图像和真实场景的低动态范围全景图的数据集；

网络构建单元，用于构建包含生成器和鉴别器的生成对抗网络，并将单张有限视场图像输入至所述生成对抗网络，得到中间特征变量；

矢量计算单元，用于通过所述生成对抗网络预先生成离散数值，并计算所述中间特征变量与所述离散数值之间距离最近的离散特征；

对抗训练单元，用于基于所述离散特征，采用所述生成器得到生成的低动态范围全景图，并将所述生成的低动态范围全景图和所述真实场景的低动态范围全景图输入至所述鉴别器进行对抗训练，得到最优低动态范围全景图；

图像生成单元，用于将所述最优低动态范围全景图输入至正曝光生成器和负曝光生成器中，得到第一正曝光图像和第一负曝光图像，将所述第一正曝光图像和第一负曝光图像输入至所述正曝光生成器和所述负曝光生成器中进行多次循环，得到多张正曝光图像和多张负曝光图像；

图像融合单元，用于将所述最优低动态范围全景图、多张所述正曝光图像和多张所述负曝光图像进行融合，得到融合图像；

光照估计单元，用于将所述融合图像输入至三维卷积神经网络中，得到重建的高动态范围全景图，并从所述重建的高动态范围全景图中得到光照信息。

第三方面，本发明实施例还提供了一种增强现实光照估计设备，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如上所述的一种增强现实光照估计方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如上所述的一种增强现实光照估计方法。

可以理解的是，上述第二方面至第四方面与相关技术相比存在的有益效果与上述第一方面与相关技术相比存在的有益效果相同，可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例的一种增强现实光照估计方法的流程图；

图2是本发明一实施例的整体方案路线框架图；

图3是本发明一实施例的LDR全景图生成部分的模型框架图；

图4是本发明一实施例的HDR全景图重建部分的模型框架图；

图5是本发明一实施例的一种增强现实光照估计系统的结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，如果有描述到第一、第二等只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

本发明的描述中，需要说明的是，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

由于传统的光照估计方法大部分都是基于光照反射模型提出的，其中双向反射分布函数（Bidirectional Reflectance Distribution Function，BRDF）被绝大部分图形学算法用来描述光的反射现象，而Lambert模型和Phong模型是最常见的BRDF。这些方法往往是在已知模型中部分参数的情况下，通过智能优化方法求光照参数的最优解，然而这意味着在估计光照时需要具备除了有限视场图像以外的其他场景信息，如场景的深度信息、物体表面法线等，并且通常会做许多假设约束优化过程，譬如假设场景中只有一个光源、光照的强度固定等。在如今愈发追求高真实感的虚拟内容创作中，传统的光照估计方法在速度和效果已经难以满足目前的虚实融合要求。而基于深度学习的光照估计方法是根据光照表示方法的不同存在各种各样的解决方案。用于图像渲染的光照主要表示为参数化光照和基于图像的光照，参数化光照通过离散化场景对光照进行建模，并将光源坐标、颜色、强度等信息表示为模型参数，它能够广泛应用于各种渲染引擎中，并且支持对光照的自由编辑，但无法反映场景中的其他信息。这类光照方法通常采用分类或回归网络进行预测，如CNN、ResNet、DenseNet等，通过对AR相机拍摄的有限视场图像提取特征，预测包括光源分布在内的光照参数。基于图像的光照则通常以高动态范围（High Dynamic Range，HDR）图像存储场景的照明，它表示从着色点出发任意方向的光照，同时具备场景中物体的信息，但由于高动态范围图像的获取和编辑困难，如果场景中的光照发生了变化，基于图像的光照难以及时进行调整。这些方法对增强现实光照估计都不够精确。

为解决上述问题，本发明通过构建包含生成器和鉴别器的生成对抗网络，并将单张有限视场图像输入至生成对抗网络，得到中间特征变量，通过生成对抗网络预先生成离散数值，并计算中间特征变量与离散数值之间距离最近的离散特征，基于矢量采用生成器得到生成的低动态范围全景图，并将生成的低动态范围全景图和真实场景的低动态范围全景图输入至鉴别器进行对抗训练，得到最优低动态范围全景图，通过生成对抗网络对单张有限视场图进行训练能够得到最优低动态范围全景图，使得生成的低动态范围全景图无限趋近真实场景的低动态范围全景图，只需单张有限视场图，无需场景的其他先验信息，能够提高光照估计的效率；将最优低动态范围全景图输入至正曝光生成器和负曝光生成器中，得到第一正曝光图像和第一负曝光图像，将第一正曝光图像和第一负曝光图像输入至正曝光生成器和负曝光生成器中进行多次循环，得到多张正曝光图像和多张负曝光图像，通过单张低动态范围全景图恢复不同曝光度下的低动态范围全景图，能够降低设备成本，并为后面重建高动态范围全景图提供更好的数据基础；将最优低动态范围全景图、多张正曝光图像和多张负曝光图像进行融合，得到融合图像，将融合图像输入至三维卷积神经网络中，得到重建的高动态范围全景图，并从重建的高动态范围全景图中得到光照信息，通过同时学习有限视场图像和全景图的映射关系、低动态范围图像和高动态范围图像的映射关系，能够提高增强现实光照估计的精确度，能够有效地保证虚拟物体和现实场景的光照一致性，实现更具真实感的虚实融合效果。

参照图1，本发明实施例提供了一种增强现实光照估计方法，本增强现实光照估计方法包括但不限于步骤S100至步骤S700，其中：

步骤S100、获取包含有限视场图像和真实场景的低动态范围全景图的数据集；

步骤S200、构建包含生成器和鉴别器的生成对抗网络，并将单张有限视场图像输入至生成对抗网络，得到中间特征变量；

步骤S300、通过生成对抗网络预先生成离散数值，并计算中间特征变量与离散数值之间距离最近的离散特征；

步骤S400、基于离散特征，采用生成器得到生成的低动态范围全景图，并将生成的低动态范围全景图和真实场景的低动态范围全景图输入至鉴别器进行对抗训练，得到最优低动态范围全景图；

步骤S500、将最优低动态范围全景图输入至正曝光生成器和负曝光生成器中，得到第一正曝光图像和第一负曝光图像，将第一正曝光图像和第一负曝光图像输入至正曝光生成器和负曝光生成器中进行多次循环，得到多张正曝光图像和多张负曝光图像；

步骤S600、将最优低动态范围全景图、多张正曝光图像和多张负曝光图像进行融合，得到融合图像；

步骤S700、将融合图像输入至三维卷积神经网络中，得到重建的高动态范围全景图，并从重建的高动态范围全景图中得到光照信息。

在本实施例中，为了提高光照估计的效率，本实施例通过获取包含有限视场图像和真实场景的低动态范围全景图的数据集，构建包含生成器和鉴别器的生成对抗网络，并将单张有限视场图像输入至生成对抗网络，得到中间特征变量，通过生成对抗网络预先生成离散数值，并计算中间特征变量与离散数值之间距离最近的离散特征，基于离散特征，采用生成器得到生成的低动态范围全景图，并将生成的低动态范围全景图和真实场景的低动态范围全景图输入至鉴别器进行对抗训练，得到最优低动态范围全景图；为了降低设备成本，并为后面重建高动态范围全景图提供更好的数据基础，本实施例将最优低动态范围全景图输入至正曝光生成器和负曝光生成器中，得到第一正曝光图像和第一负曝光图像，将第一正曝光图像和第一负曝光图像输入至正曝光生成器和负曝光生成器中进行多次循环，得到多张正曝光图像和多张负曝光图像；为了提高增强现实光照估计的精确度，本实施例通过将最优低动态范围全景图、多张正曝光图像和多张负曝光图像进行融合，得到融合图像，将融合图像输入至三维卷积神经网络中，得到重建的高动态范围全景图，并从重建的高动态范围全景图中得到光照信息。

在一些实施例中，构建包含生成器和鉴别器的生成对抗网络，并将单张有限视场图像输入至生成对抗网络，得到中间特征变量，包括：

构建包含编码器的生成器，并根据生成器和鉴别器构建生成对抗网络；

将单张有限视场图像输入至生成对抗网络，通过编码器进行编码，得到中间特征变量。

在本实施例中，采用单张有限视场图像，通过编码器进行编码，得到中间特征变量，为后期生成低动态范围全景图提供更好的数据基础。

在一些实施例中，生成器还构建了码本，通过生成对抗网络预先生成离散数值，并计算中间特征变量与离散数值之间距离最近的离散特征，包括：

采用生成对抗网络中的码本预先生成离散数值；

将中间特征变量中的每一个编码位置在离散数值中寻找距离最近的离散特征。

在本实施例中，使用码本中与其距离最近的特征替换原本的连续特征，从而实现对连续特征的矢量量化，将连续特征转换为更适合图像特征表示的离散特征。

在一些实施例中，生成器还构建了解码器，基于离散特征，采用生成器得到生成的低动态范围全景图，并将生成的低动态范围全景图和真实场景的低动态范围全景图输入至鉴别器进行对抗训练，得到最优低动态范围全景图，包括：

基于离散特征，采用生成器中的解码器进行解码，得到生成的低动态范围全景图；

对编码器、码本和解码器进行训练，以使生成的低动态范围全景图更接近真实场景的低动态范围全景图；

将生成的低动态范围全景图和真实场景的低动态范围全景图输入至鉴别器，得到生成的低动态范围全景图和真实场景的低动态范围全景图对应的概率值；

根据生成的低动态范围全景图和真实场景的低动态范围全景图对应的概率值构建对抗损失函数，并采用对抗损失函数对鉴别器和生成器进行对抗训练，得到最优低动态范围全景图。

在本实施例中，通过生成对抗网络对单张有限视场图进行训练能够得到最优低动态范围全景图，使得生成的低动态范围全景图无限趋近真实场景的低动态范围全景图，只需单张有限视场图，无需场景的其他先验信息，能够提高光照估计的效率。

在一些实施例中，通过如下方式得到多张正曝光图像和多张负曝光图像：

在本实施例中，通过单张低动态范围全景图恢复不同曝光度下的低动态范围全景图，能够降低设备成本，并为后面重建高动态范围全景图提供更好的数据基础。

在一些实施例中，通过如下方式将最优低动态范围全景图、多张正曝光图像和多张负曝光图像进行融合：

其中，表示融合图像，/>表示拼接。

在本实施例中，通过融合图像能够为后期重建更逼真的高动态范围全景图提供良好的数据基础。

在一些实施例中，将融合图像输入至三维卷积神经网络中，得到重建的高动态范围全景图，包括：

构建同时训练三维卷积神经网络、正曝光生成器和负曝光生成器的训练损失函数；

将融合图像输入至三维卷积神经网络中，采用训练损失函数进行训练，得到重建的高动态范围全景图。

在本实施例中，通过同时学习有限视场图像和全景图的映射关系、低动态范围图像和高动态范围图像的映射关系，能够提高增强现实光照估计的精确度，能够有效地保证虚拟物体和现实场景的光照一致性，实现更具真实感的虚实融合效果。

为方便本领域人员理解，以下提供一组最佳实施例：

由于现有技术存在以下需要解决的问题：

（1）如何从单张有限视场的低动态范围（Low Dynamic Range，LDR）图像生成场景的LDR全景图。

在使用相机将现实世界的3D场景投影到2D图像的过程中，涉及很多因素，如表面材质、场景物体的几何形状、光照条件和相机参数等，这些因素会通过影响辐射和几何过程改变相机的成像结果，因此从相机拍摄的单张有限视场图像估计全局环境光照的逆过程会受到限制，单张有限视场的图像只能提供场景某一方向上局部区域的成像结果，即在3D场景的诸多因素影响下相机存储在每个像素上的颜色，而想要以此估计场景中所有方向的光照信息就显得非常困难。

从单张有限视场图像恢复整个场景的光照信息的逻辑可以用全局光照的理论来解释。现实世界的光处于线性空间，光照效果是可以叠加的，每个物体最终的光照结果等于其受到的直接光照和间接光照的总和，直接光照是指光源发出的光线直接照射在物体上，之后经过反射直接被观察者接收，来自于被指定的光源，而间接光照是光线在经过多次弹射之后才被观察者接收，来自于着色位置正半球的所有可能方向。由于间接光照的存在，使得场景中某些没有被光源直接照射的物体不是一片漆黑，同样能被观察到。因此相机拍摄得到的有限视场图像中每个像素的颜色就是综合了直接光照和间接光照，是场景中各个方向上接收到的光线共同作用的结果，并且有限视场图像中也反映了场景局部区域中的几何形状、阴影、明暗变化等信息。本实施例要解决的就是如何利用单张有限视场图像中已知的场景信息，通过训练基于矢量量化生成对抗网络（Vector Quantized GenerativeAdversarial Network，VQGAN）的算法模型，学习有限视场图像和全局环境光照的映射关系，从而实现从单张有限视场图像生成LDR全景图。

（2）如何从单张LDR全景图重建HDR全景图。

动态范围是指最高亮度和最低亮度的比值，比如在现实生活中，蜡烛的亮度是15，太阳的亮度是100000，那么太阳和蜡烛的亮度比值非常大，一般的LDR图像使用8位的精度来记录亮度信息，能够表示[0,255]范围内的256种RGB颜色和[0,1]范围的亮度值，而HDR使用的是远超8位的精度来记录亮度值，可以表示远超[0,1]范围的亮度值。使用LDR图像就无法完整反映太阳和蜡烛的亮度对比，因为精度的限制过曝和欠曝区域亮度值会被裁切，导致所有亮度值只能被显示为[0,1]范围，但HDR图像在存储动态范围较大的场景时就不会造成亮度信息的丢失，因此HDR可以对场景的颜色和亮度进行逼真的绘制。在使用HDR图像表示了场景的光照环境后，最终还是需要把信息从HDR转换到设备使用的LDR（8位精度，亮度值[0,1]），转换的过程被称为色调映射（Tonemapping），使用色调映射技术能够在转换时最大程度的保留所需的亮度细节。

从HDR图像转换到LDR图像可以使用色调映射技术来实现，因为HDR图像中存储了场景的所有亮度信息，但从LDR图像重建HDR图像的过程却复杂得多，LDR图像由于精度的原因会对亮度值进行裁切，导致部分亮度信息的丢失。传统的HDR图像重建方法是使用相机对图像的同一角度，以不同的曝光度拍摄多张图像，比较各个图像的曝光比，选取合适的部分，并确定一条亮度权重曲线，将不同曝光度下的图像合成HDR图像。而对于全景图来说，想要通过相机在场景拍摄不同曝光度的全景图，需要的设备成本较高，并且由于LDR全景图是基于有限视场图像LDR图像生成，无法生成指定曝光度的LDR图像，因此发明要解决的就是从单张LDR全景图重建HDR全景图，通过训练基于生成对抗网络的算法模型，从单张LDR全景图恢复不同曝光度下的LDR全景图，再通过三维卷积神经网络融合实现HDR全景图的重建。

本实施例为了解决上述问题，并实现以AR为代表的虚拟内容创作中虚实融合的光照一致性，提出一种端到端的从有限视场图像中恢复场景HDR全景图的增强现实光照估计方法，基于生成对抗网络，通过训练学习有限视场图像与全景图之间的映射关系以及LDR图像与HDR图像之间的映射关系，实现对现实场景的光照估计。本实施例方法实现的整体方案路线如图2所示，具体为：

本实施例以矢量量化生成对抗网络为主体构建光照估计算法模型，模型接收一张有限视场的LDR图像，经过编码器得到图像的连续特征表示。光照估计算法模型使用码本（codebook）实现矢量量化，codebook使用一个的矩阵表示，其中/>表示一个特征，即codebook中保存了K个特征，这些特征用于表示从有限视场图像到全景图的映射关系。将编码器得到的连续特征表示也分为/>的维度大小，并且每一个连续特征都和codebook中的所有特征计算矢量间距离，使用codebook中与连续特征距离最近的特征替换原本的连续特征，从而实现对连续特征的矢量量化，将连续特征转换为更适合图像特征表示的离散特征，再通过解码器基于离散特征生成场景的LDR全景图。最后以LDR全景图作为条件，使用正曝光生成器和负曝光生成器生成多张不同曝光度的LDR全景图，将多张不同曝光度的LDR全景图融合LDR全景图并输入三位卷积神经网络中得到HDR全景图。本实施例主要包含以下部分：

（1）以单张有限视场的LDR图像生成场景的LDR全景图。

基于矢量量化生成对抗网络（VQGAN）实现单张有限视场的LDR图像生成场景的LDR全景图，算法模型的框架如图3所示，VQGAN主要由生成器和鉴别器组成。生成器包含编码器、codebook、解码器，其中编码器和解码器都是使用卷积神经网络（CNN），编码器的作用是将输入的有限视场图像转换为连续的特征表示，而解码器的作用是用矢量量化后的离散特征表示恢复LDR全景图，矢量量化的过程是借助codebook来完成的。codebook是一个N*H*W大小的3维矩阵，其中每个H*W的矢量都可以表示从有限视场图像到LDR全景图的一种映射关系，将编码器输出的连续特征表示分为M*H*W的维度大小，每个H*W大小的连续特征都与codebook中的所有特征计算矢量间距离，找出codebook中距离最近的离散特征替换原本的连续特征，得到矢量量化后的离散特征表示，矢量量化后的离散特征表示作为解码器的输入来生成LDR全景图。鉴别器的作用在于判断图像是生成器生成的还是真实场景拍摄的，用来优化生成器的生成能力，使生成器生成的LDR全景图更加趋近真实图像。

在模型训练时采用有限视场图像和LDR全景图图像对进行训练，使用有限视场图像作为模型的输入，生成器的输出为生成的现实场景的LDR全景图，将模型生成的LDR全景图与数据集中现实场景采集的LDR全景图计算像素损失，用于反向调节生成器各部分的参数。鉴别器分别以模型生成的LDR全景图和真实场景的LDR全景图作为输入，输出两个数值表示两张全景图为真实图像的概率，将这两个数值加权求和作为鉴别器的对抗损失函数，对抗损失函数用于调节鉴别器的参数。

（2）以单张LDR全景图重建HDR全景图。

基于生成对抗网络和三维卷积神经网络（3DCNN）实现单张LDR全景图重建HDR全景图，算法模型的框架如图4所示，主要包含正曝光生成器、负曝光生成器、3DCNN重建网络。两个生成器分别用来生成正曝光图像和负曝光图像，并且使用条件GAN进行约束，考虑只用相邻像素生成图像。网络以LDR全景图作为输入，通过生成器会生成新曝光度的图像，将这个图像再作为生成器的输入，重复操作3次，最终两个生成器各自会生成3张不同曝光度的图像，与原有的LDR图像一共7张图像共同用于重建HDR全景图。3DCNN网络的作用是对不同曝光度的图像进行融合，得到重建的HDR全景图，将其与真实的HDR全景图计算像素损失，用于共同调节生成对抗网络和3DCNN的参数。

本实施例方法与现有的增强现实光照估计方法相比，本实施例的创新点如下：

（1）本实施例提出的方法，能够适应任意室内场景的光照估计任务。

（2）实现从单张有限视场图像端到端生成对应场景的HDR全景图，不需要场景的其他先验信息，在一个模型中同时学习有限视场图像和全景图的映射关系、LDR图像和HDR图像的映射关系。本实施例使用采集和预处理得到的有限视场图像和全景图像对作为数据集训练基于生成对抗网络的算法模型，在训练中同时学习两种不同的映射关系，并且不需要场景的其他先验信息，能够提高光照估计的效率，提高增强现实光照估计的精确度。本实施例的算法模型应用时使用一张任意室内场景拍摄的有限视场图像作为输入，就可以估计出对应现实场景的HDR全景图，保持与拍摄的图像相近的光照条件，用于虚拟物体的渲染可以使其与所处的现实场景具有相同的光照效果。

本实施例方法的目的在于，在只有相机拍摄的单张有限视场的LDR图像的情况下，使用端到端的模型恢复整个场景的HDR全景图，用于对增强现实中的虚拟物体提供与现实物体一致的光照信息，从而渲染出更具虚实融合真实感的AR画面。该方法实施包括模型训练和模型推理两部分：

（1）模型训练部分。

这一部分需要使用数据集训练从单张有限视场图像生成HDR全景图的算法模型，使模型从大量的数据中学习到有限视场图像与LDR全景图的映射关系、LDR图像与HDR图像的映射关系。

步骤1：准备数据集，数据集中包含有限视场图像、对应真实场景的LDR全景图和真实场景的HDR全景图，图像的分辨率都为H*W。

步骤2：输入一张RGB三通道的有限视场图像,通过CNN编码器/>后得到中间特征变量/>，其中/>表示特征的通道长度，/>表示特征矩阵的长和宽。

步骤3：通过codebook预先生成一个离散数值，其中/>表示codebook的大小，即codebook中有/>个长度为/>的特征表示（矢量），/>表示每个/>矢量的索引值，将/>中的每一个编码位置都在/>中寻找距离最近的离散特征，生成具有相同维度的离散特征/>，这一步离散编码的过程可以表示为：

其中，表示/>中第/>行第/>列的长度为/>的特征向量，/>中/>的取值范围为[0,h-1]，/>的取值范围为[0,w-1]。

步骤4：在已经矢量量化的基础上使用CNN解码器/>进行解码得到生成的LDR全景图/>，生成过程表示为：/>

步骤5：在训练过程VQGAN中，模型将进行训练使得与真实的LDR全景图/>尽可能接近。模型包括了CNN编码器/>，CNN解码器/>，codebook/>，因此需要同时训练这三个模块，训练损失函数如下：

其中，为重建损失，而/>为梯度终止操作，之所以要在/>和之间加入/>操作，是因为在这两个特征间进行了离散化转换，如果直接进行L2损失计算的话，会导致神经网络梯度不能回传，因此分别将两个特征的梯度终止，将/>的梯度直接复制到/>上，后两项损失分别训练了编码器和codebook。

步骤6：将和/>输入鉴别器/>中，得到判断两者为真实值的概率/>和/>，它们被用于计算鉴别器的对抗损失函数，训练鉴别器分辨真实图像和生成图像的能力，引导生成器生成更加接近真实图像的LDR全景图，对抗损失表示为：

上述部分是为了训练生成LDR全景图使用的CNN编码器，CNN解码器/>，codebook/>，最终目的是得到生成LDR全景图的最优的VQGAN模型/>，其中/>，/>，/>表示参数最优的编码器、解码器和codebook，/>表示整个VQGAN模型参数最优，使得生成样本和真实样本的差异程度最小（即使得步骤4生成的LDR全景图最优），计算过程表示为：

生成对抗网络的训练处于一种对抗博弈状态中，它的优化目标是使生成器生成的图像与真实图像尽可能相似，即损失最小，并且使鉴别器能够尽可能的区分出哪些图像是生成器生成的，哪些图像是真实采集的，即/>损失最大。在这种不断对抗的过程中提升生成器的生成能力和鉴别器的鉴别能力，上述公式表达的是训练生成器和鉴别器，使用生成的LDR全景图样本分布去拟合数据集中真实的样本分布/>，达到生成以假乱真样本的目的。其中/>为适应性权重，用于动态调整鉴别器损失的权重（即在对抗博弈中的地位），计算过程为：

其中，表示上述的重建损失，/>表示对于输入损失计算梯度，/>是一个常量用来保持数值稳定性。

步骤7：将步骤4生成的最优LDR全景图，分别输入正曝光生成器（/>）和负曝光生成器（/>），输出正曝光图像/>和负曝光图像/>，再将他们分别输入生成器，输出/>和/>，重复上述操作，得到/>和/>，至此包括/>在内共获得了7张不同曝光度的LDR全景图，曝光图像生成过程表示为：/>

步骤8：在训练HDR重建网络过程中，模型将使得的像素值与真实场景的HDR全景图/>尽可能接近，模型同时包括了正曝光生成器/>、负曝光生成器/>、3DCNN重建网络/>，因此需要同时训练这三个模块，训练损失函数如下：

上述HDR重建损失通过梯度反向传播，分别训练了正曝光生成器、负曝光生成器/>、3DCNN重建网络/>。

步骤9：将步骤7获得的7张不同曝光度的LDR全景图拼接成一个7*H*W*3大小的向量，输入到3DCNN中得到重建的HDR全景图，具体为：

通过步骤8的训练损失函数同时训练了正曝光生成器、负曝光生成器/>、3DCNN重建网络/>后，将7张不同曝光度的LDR全景图拼接成一个7*H*W*3大小的向量，输入到3DCNN中得到重建的HDR全景图，使得重建的HDR全景图接近真实场景的HDR全景图。

（2）模型推理部分。

在经过上述模型训练过程之后，得到训练好的算法模型，在模型推理阶段将会使用算法模型完成端到端的增强现实光照估计任务，将一张数据集中不存在的有限视场图像估计出场景的HDR全景图，估计出场景的HDR全景图表示整个场景的全局环境光照。由于算法模型是端到端的，在模型推理阶段能够直接通过输入的有限视场图像，生成场景的HDR全景图/>作为输出，下面所述步骤是指模型推理过程中算法模型的具体流程和得到的中间变量。

步骤1：输入一张RGB三通道的有限视场图像，通过CNN编码器后得到中间特征变量/>。

步骤2：通过codebook预先生成一个离散数值的，在/>的每一个编码位置都去/>中寻找距离最近的离散特征，生成具有相同维度的变量/>，这一步离散编码的过程可以表示为：

步骤3：在已经矢量量化的基础上使用CNN解码器进行解码得到生成的LDR全景图/>，生成过程表示为：

步骤4：将生成的LDR全景图分别输入正曝光生成器和负曝光生成器，输出正曝光图像/>和负曝光图像/>，再将他们分别输入生成器，输出/>和/>，重复上述操作，得到/>和/>，至此包括/>在内共获得了7张不同曝光度的LDR全景图，生成过程表示为：

步骤5：将步骤4获得的7张不同曝光度的LDR图像拼接成一个7*H*W*3大小的向量，输入到3DCNN中得到重建的HDR全景图：

最终得到的HDR全景图存储了整个场景360°各方向上的光照信息，能够应用在任何支持环境贴图的渲染引擎中，作为环境光照对虚拟物体进行渲染，由于HDR全景图是基于相机拍摄的场景有限视场图像估计出来的，它能够保持和场景相近的光照条件和几何形状，在用于增强现实中的虚拟物体渲染时，可以有效地保证虚拟物体和现实场景的光照一致性，实现更具真实感的虚实融合效果。

本实施例的目的是为了从有限视场图像生成HDR全景图，而直接生成HDR全景图的效果不好，所以将其拆分成两个任务。以往的基于深度学习的光照估计方法会将生成LDR全景图和HDR重建分开单独训练，而本发明中的方案是将两个任务在一个算法模型框架中训练。因此，虽然还是将光照估计分成了两个任务，但方案中训练和推理都是端（有限视场图像）到端（HDR全景图）的，LDR全景图是方案的中间结果，实际推理中最终得到的是HDR全景图。

参照图5，本发明实施例还提供了一种增强现实光照估计系统，本增强现实光照估计系统包括数据获取单元100、网络构建单元200、矢量计算单元300、对抗训练单元400、图像生成单元500、图像融合单元600和光照估计单元700，其中：

数据获取单元100，用于获取包含有限视场图像和真实场景的低动态范围全景图的数据集；

网络构建单元200，用于构建包含生成器和鉴别器的生成对抗网络，并将单张有限视场图像输入至生成对抗网络，得到中间特征变量；

矢量计算单元300，用于通过生成对抗网络预先生成离散数值，并计算中间特征变量与离散数值之间距离最近的离散特征；

对抗训练单元400，用于基于离散特征，采用生成器得到生成的低动态范围全景图，并将生成的低动态范围全景图和真实场景的低动态范围全景图输入至鉴别器进行对抗训练，得到最优低动态范围全景图；

图像生成单元500，用于将最优低动态范围全景图输入至正曝光生成器和负曝光生成器中，得到第一正曝光图像和第一负曝光图像，将第一正曝光图像和第一负曝光图像输入至正曝光生成器和负曝光生成器中进行多次循环，得到多张正曝光图像和多张负曝光图像；

图像融合单元600，用于将最优低动态范围全景图、多张正曝光图像和多张负曝光图像进行融合，得到融合图像；

光照估计单元700，用于将融合图像输入至三维卷积神经网络中，得到重建的高动态范围全景图，并从重建的高动态范围全景图中得到光照信息。

需要说明的是，由于本实施例中的一种增强现实光照估计系统与上述的一种增强现实光照估计方法基于相同的发明构思，因此，方法实施例中的相应内容同样适用于本系统实施例，此处不再详述。

本发明实施例还提供了一种增强现实光照估计设备，包括：至少一个控制处理器和用于与至少一个控制处理器通信连接的存储器。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述实施例的一种增强现实光照估计方法所需的非暂态软件程序以及指令存储在存储器中，当被处理器执行时，执行上述实施例中的一种增强现实光照估计方法，例如，执行以上描述的图1中的方法步骤S100至步骤S700。

以上所描述的系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个控制处理器执行，可使得上述一个或多个控制处理器执行上述方法实施例中的一种增强现实光照估计方法，例如，执行以上描述的图1中的方法步骤S100至步骤S700的功能。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质（或非暂时性介质）和通信介质（或暂时性介质）。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息（诸如计算机可读指令、数据结构、程序模块或其他数据）的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘（DVD）或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本申请实施例的较佳实施进行了具体说明，但本申请实施例并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请实施例精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请实施例权利要求所限定的范围内。

Claims

1.一种增强现实光照估计方法，其特征在于，所述增强现实光照估计方法包括：

构建包含生成器和鉴别器的生成对抗网络，并将单张有限视场图像输入至所述生成对抗网络，得到中间特征变量；其中：

将所述单张有限视场图像输入至所述生成对抗网络，通过所述编码器进行编码，得到中间特征变量；

通过所述生成对抗网络预先生成离散数值，并计算所述中间特征变量与所述离散数值之间距离最近的离散特征；其中：

所述生成器还构建了码本，并采用所述生成对抗网络中的所述码本预先生成离散数值；

将所述中间特征变量中的每一个编码位置在所述离散数值中寻找距离最近的离散特征；

2.根据权利要求1所述增强现实光照估计方法，其特征在于，所述生成器还构建了解码器，所述基于所述离散特征，采用所述生成器得到生成的低动态范围全景图，并将所述生成的低动态范围全景图和所述真实场景的低动态范围全景图输入至所述鉴别器进行对抗训练，得到最优低动态范围全景图，包括：

3.根据权利要求1所述增强现实光照估计方法，其特征在于，通过如下方式得到多张正曝光图像和多张负曝光图像：

，

4.根据权利要求3所述增强现实光照估计方法，其特征在于，通过如下方式将所述最优低动态范围全景图、多张所述正曝光图像和多张所述负曝光图像进行融合：

，

其中，表示融合图像，/>表示拼接。

5.根据权利要求1或3或4所述增强现实光照估计方法，其特征在于，所述将所述融合图像输入至三维卷积神经网络中，得到重建的高动态范围全景图，包括：

6.一种增强现实光照估计系统，其特征在于，所述增强现实光照估计系统包括：

网络构建单元，用于构建包含生成器和鉴别器的生成对抗网络，并将单张有限视场图像输入至所述生成对抗网络，得到中间特征变量；其中：

矢量计算单元，用于通过所述生成对抗网络预先生成离散数值，并计算所述中间特征变量与所述离散数值之间距离最近的离散特征；其中：

7.一种增强现实光照估计设备，其特征在于，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如权利要求1至5任一项所述的增强现实光照估计方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至5任一项所述的增强现实光照估计方法。