CN115294263B

CN115294263B - 一种光照估计方法及系统

Info

Publication number: CN115294263B
Application number: CN202211221595.4A
Authority: CN
Inventors: 肖春霞; 于寒宁; 罗飞
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2022-10-08
Filing date: 2022-10-08
Publication date: 2023-02-03
Anticipated expiration: 2042-10-08
Also published as: CN115294263A

Abstract

本发明基于解耦的思想设计了一种光照估计模型、网络、方法及系统，使用分步训练的策略将原始任务解耦为主光源分布估计、语义结构补全和逆色调映射三个较为简单的子任务。特别地，主光源分布估计使用了级联网络；在语义结构补全任务中引入一个语义特征提取模块和光照注意力模块来分别保证补全图像的语义一致性和光照准确性；此外还设置了一个额外的曝光强度输出分支作为逆色调映射任务过曝光区域的指示，降低逆色调任务难度。本发明解决了目前光照估计中光照信息不准确和与输入图像语义不一致的问题，提升了对渲染物体材质的适应性以及渲染结果的真实感。

Description

一种光照估计方法及系统

技术领域

本发明属于基于图像的光照估计领域，具体地指一种光照估计方法及系统，根据单张室内RGB图片估算出对应的全局光照信息。

背景技术

随着计算机技术的飞速发展，计算机视觉领域的诸多任务都迎来了发展的机遇。全局光照估计的目的是预测出照片在拍摄时空下的光照信息，是增强现实的一项基本任务。如今，增强现实已广泛应用于许多领域中，诸如医疗卫生、军事仿真、工业维修、教育娱乐等。作为增强现实技术获取真实感的重要先验条件，光照估计的准确性将直接影响被渲染的三维物体的真实感。目前，光照信息主要有参数化和环境贴图（Environment Map）两种表示形式来满足其全景性。由于参数化的方法实质上是对HDR全景图的不同特征进行了提取，因此使用HDR全景图能够获取更加准确丰富的光照信息并且具有更广泛的应用范围。然而由于HDR全景图技术尚不成熟，因此对应数据集的获取需要耗费大量的人力物力资源，并且有较高的技术门槛技术。这导致目前大规模的真实HDR全景数据集还未面世，如何充分地利用有限的数据集来获得良好的训练效果将是使用该光照表示方法需要解决的一个重点和难点。现有方法或者借助于用户辅助标注降低任务难度，或者通过构建虚拟数据集进行训练。前置加重了用户负担并且限制了应用范围；后者构建的虚拟场景的数据域与真实环境有较大的差异，导致训练出来的网络参数无法直接应用于现实场景。因此本发明通过解耦的思想将HDR全景图分解为语义信息和光照信息两个特征，通过借助大型的真实LDR数据集保证生成语义结构的多样性，同时利用现有的HDR数据集保证光照位置和强度的准确性。由于图片像素是场景几何、材料属性、光照、成像设备以及后续处理等相互作为产生的最终结果，因此光照估计是一项高度不适定的任务。此外，单张图片的视角和数据域限制进一步加大了任务的难度。根据神经网络的训练策略，可以将光照估计方法分为端到端和分步式两种。端到端的网络结构利用了神经网络的黑盒特性，接收输入图像并将输出直接设置为光照信息。分步式训练策略将较难的任务按照指定的原则分解为若干较为简单的子任务，前一个子任务的输出是下一个子任务的输入，并且每个子任务都使用真实标签进行监督训练。图片像素是场景几何、材料属性、光照、成像设备以及后续处理等相互作为产生的最终结果，因此光照估计是一项高度不适定的任务。同时单张图片的视角和数据域限制进一步加大了任务的难度。由于端到端的训练方式完全是数据驱动的，因此对于神经网络的结构以及数据集的规模有着很高的要求，因此在进行光照估计训练时往往容易过拟合而导致输出结果不具备多样性和准确性。而现有的分步神经网络的要么使用参数化的光照表示形式，忽略了光照的高频语义特征，导致在渲染三维虚拟物体时无法适应不同的材质属性；又或者在设计神经网络时没有充分考虑光照位置的准确性或语义结构的一致性，使得生成的光照不准确或者缺乏真实感。通过对现有的光照估计方法中存在的问题进行分析，我们使用HDR全景图的光照表示形式，并且基于光照注意和语义一致性的原则将原始任务分解为主光源分布预测、语义结构补全和逆色调映射这三个较为简单的子任务。除了在子任务中对光照信息和语义结构进行直接监督训练外，本发明还引入一个语义特征提取模块和光照注意力模块来分别保证补全图像的语义一致性和光照准确性。此外，本发明还设置了一个额外的曝光强度输出分支作为逆色调映射任务过曝光区域的指示，降低逆色调任务难度。本发明的光照估计方法属于分步网络结构，基于解耦的思想将HDR全景图分解为光照信息和语义结构信息，并且通过光照注意力模块和语义特征提取模块来保证了生成HDR全景图的准确性和语义一致性。

发明内容

为了克服现有技术的缺陷，本发明提供了基于解耦的分步式全局光照估计方法及系统，通过单张RGB图像来预测其对应的全局光照信息，旨在解决现有的光照估计方法中光照信息不准确和语义结构不一致的问题。

根据本发明的基于解耦的光照估计的基本框架，其包括主光源分布估计、语义结构补全和逆色调映射网络训练以及对所有子任务网络进行联合微调训练，本发明仅仅需要单张RGB作为输入。

本发明所设计的一种基于解耦的分步式光照估计模型，包括：

主光源分布预测网络，使用级联的主光源分布预测网络从输入图片中预测主光源分布图；

语义结构补全网络，利用输入图片和主光源分布预测网络的输出得到语义结构全景图和曝光程度全景图，语义结构补全网络包括可微映射器、语义特征提取模块、光照注意力模块和语义结构生成模块；

其中，可微映射器将输入图像映射回全景图得到映射全景图，同时输入图像被送入语义结构提取模块得到高级语义信息，所述映射全景图、高级语义信息作为语义结构生成模块的输入信息，同时主光源分布预测网络生成的最大分辨率的主光源分布图通过光照注意力分支与语义生成模块的解码器相耦合来监督生成的语义结构全景图和曝光强度全景图的光照分布关系；语义结构生成模块的两个输出端口分别用于输出曝光程度全景图和语义结构全景图，其中输出的语义结构全景图被送入一个判别器进行验证；

逆色调映射网络，利用步骤S2中生成的语义结构全景图和曝光程度全景图得到表示输入图片全局光照信息的HDR全景图。

进一步地，所述主光源分布预测网络采用的主体结构为DenseNet121，其中一级分布图的分辨率为3×6，二级分布图的分辨率为6×12。

进一步地，所述主光源分布预测网络中，对神经网络输出的各级主光源分布图进行了监督训练，损失公式如下：

其中M表示各级主光源分布图的真实值，M′表示神经网络输出的主光源分布图，下标表示主光源分布图的等级。

进一步地，逆色调映射网络，将语义补全结构生成的语义结构全景图和曝光程度全景图合并成一个数组，送入LDR到HDR的逆映射网络的编码器，得到HDR全景图，并经过多次的迭代完成对网络的训练，LDR到HDR的逆映射网络由一个编码器和一个解码器组成，编码器与解码器之间通过跳跃连接层进行连接。

进一步地，所述语义结构补全网络设置了3项直接监督损失，分别为特征损失，语义结构损失，曝光程度损失和1项判别器损失；

特征损失的公式如下：

其中L表示语义结构全景图的真实值，L′表示神经网络输出的语义结构全景图。VGG _l为训练良好的VGG19模型的第𝑙层激活层，β _l为超参数；

语义结构损失的公式如下：

曝光程度损失的公式如下：

其中E表示曝光程度全景图的真实值，而E′表示神经网络输出的曝光程度全景图；

判别器损失函数为：

其中D表示判别器预测的真假程度值；

由上，语义结构补全网络的损失函数为：

其中，β _x为损失函数的超参数。

进一步地，所述逆色调映射网络在log10的数据域下构建HDR全景图的损失函数，使用HDR全景图的真实值作为注意力参数，得到如下所示的监督损失函数：

其中H表示HDR全景图的真实值，H′表示神经网络预测的HDR全景图。

基于同一发明构思，本发明还设计了一种基于解耦的分步式光照估计网络，其特殊之处在于：将所述基于解耦的分步式光照估计模型中训练好的主光源分布预测、语义结构补全和逆色调映射网络首尾连接组成一个端到端的网络，对这个端到端的网络进行整体的微调训练，完成网络的设计。

基于同一发明构思，本发明还设计了一种基于解耦的分步式光照估计方法，其特征在于，包括：

步骤S1：使用级联的主光源分布预测网络从输入图片中预测主光源分布图；

步骤S2：将输入图片和S1步骤输出的最大分辨率的主光源分布图送入一个语义结构补全网络来得到语义结构全景图和曝光程度全景图；

步骤S3：将步骤S2中生成的语义结构全景图和曝光程度全景图送入到逆色调映射网络得到表示输入图片全局光照信息的HDR全景图；

步骤S4：将S1-S3中的训练好的神经网络组合，进行整体的微调训练，将输入图片输入到训练好的整体网络中得到最终的HDR全景图结果。

基于同一发明构思，本发明还设计了一种基于解耦的分步式光照估计装置，所述装置包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述至少一条指令，所述至少一条指令由所述一个或多个处理器加载并执行以实现基于解耦的分步式光照估计方法所执行的操作。

基于同一发明构思，本发明还设计了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现基于解耦的分步式光照估计方法所执行的操作。

本发明的优点在于：

1、采用了解耦的思想进行光照估计研究。首先将HDR全景图解耦为光照信息和语义结构信息来分别关注输出结果的准确性和对渲染物体材质的适应性；其次采用了分步训练的策略将全局光照估计的复杂任务解耦为三个较为简单的子任务。

2、采用了合理的子任务解耦逻辑。由于从HDR全景图得到输入图像必然会经过色调映射和图像裁剪的操作，因此本文基于逆数据集制作的思想设置了语义结构补全和逆色调映射的子任务；后又考虑到视角外光照信息的获取难度，基于光照注意的思想设置了主光源分布预测的子任务。

3、使用迭代训练的网络来进行主光源分布预测，在保证光照准确性的同时逐级提高输出光照分布图的分辨率，进而降低了后续子任务的难度。

4、在语义补全网络中采用了可微的映射算法，最大限度地保留了输入图片的纹理结构，保证了透明物体的渲染效果；同时设置的光照注意力模块和语义信息提取模块分别提高了光照估计的准确性和输出结果与输入图片之间的语义一致性。

5、逆色调映射创新性地使用了曝光程度全景图作为辅助输入信息，一方面明确指示了过曝光的区域；另一方面曝光程度全景图也是原始HDR全景图的一种色调映射结果，这就将原始从单一低动态范围到高动态范围的域映射任务转换成了从两个低动态范围到高动态范围的域映射，这无疑降低了原始任务的难度。

使用分步训练的策略将原始任务解耦为主光源分布预测、语义结构补全和逆色调映射这三个较为简单的子任务。可以完成单幅图像的全局光照估计。与现有技术相比，本发明注重于输出结果的光照准确性和语义一致性，对渲染虚拟物体的材质适应性更强，并且渲染结果更加真实。

附图说明

图1为本发明的主光源分布预测网络结构图。

图2为本发明的语义结构补全网络结构图。

图3为本发明的逆色调映射网络结构图。

图4为本发明的语义结构补全网络中语义生成模块的网络结构图。

图5为本发明的语义结构生成模块的又一网络结构图。

具体实施方式

为进一步了解本发明的内容，使本发明的目的、技术方案及优点更加清晰明了，以下结合附图和实施例对本发明进行详细说明。应当理解的是，此处仅是对本发明进行解释而并非限定。

如图1所示，其为本实施例的光照估计网络结果图。本实施例的主光源预测网络由两层级联组成。本实施例将全景图语义结构补全网络分为四个主要的模块：可微映射模块、语义特征提取模块、光照注意力模块和语义结构补全模块。其中语义特征提取模块是一个encoder-decoder结构。语义结构生成模块是一个双输入双输出的卷积网络。其中一个输入是语义特征提取模块的输出特征信息以及输入图像经过可微映射后的映射全景图和映射全景图掩码，另一个输入是第一个子任务预测得到的二级主光源分布图。前者通过语义生成模块的encoder得到生成语义结构所需要的高级特征，后者通过光照注意力分支与语义生成模块的解码器相耦合来监督生成的语义结构全景图和曝光强度全景图的光照分布关系。语义生成模块的两个输出分支分别用于输出曝光程度全景图和语义结构全景图。本实施例引入了一个判别器来判断生成的语义结构全景图的真实性。本实施例的逆色调映射网络是一个两输入的U-net的网络结构。两个输入分支分别接收语义生成模块输出的曝光程度全景图和语义结构全景图。

本实施例提供了的一种基于全景图解耦的分步光照估计方法，包括以下步骤：

步骤S1：将输入图片输入到一级级联网络中得到一级主光源分布图，再将输入图片与输出的一级主光源分布送入二级级联网络得到二级主光源分布图，并经过多次的迭代完成对网络的训练。级联的处理方式相较于常规的端到端方法可以在保证结果准确度的情况下尽可能地提升主光源分布图的分辨率，降低自身累计误差并降低后续子任务的预测难度。

本实施例的级联网络采用的主体结构为DenseNet121，其中一级分布图的分辨率为3×6，二级分布图的分辨率为6×12。

步骤S2：本实施例将输入图片和生成的二级主光源分布图送入语义结构补全网络得到语义结构全景图和曝光程度全景图，并经过多次的迭代完成对网络的训练。本方案中迭代的过程通过训练过程中验证集的损失函数趋势判断。当验证集的损失函数值开始有上升趋势时，证明神经网络过拟合，停止迭代，取验证集损失函数最小的那次训练网络参数。

本实施例首先将输入图片经过可微映射器处理得到映射全景图，这一处理充分地保留了输入图片的信息，极大提升了渲染透明物体的效果。同时输入图片还被送入一个语义特征提取模块来获取输入图像的高级语义信息，以使得生成网络生成的图像部分与输入信息具有语义一致性，进而使最终的渲染结果更具有真实感。语义特征提取模块是一个encoder-decoder结构。本实施例中语义特征提取模块的编码器和解码器，采用的是Wide-context semantic image extrapolation中的网络结构。语义结构生成模块是一个双输入双输出的卷积网络。其中一个输入是语义特征提取模块的输出特征信息以及输入图像经过可微映射后的映射全景图和映射全景图掩码，另一个输入是第一个子任务预测得到的二级主光源分布图。前者通过语义生成模块的encoder得到生成语义结构所需要的高级特征，后者通过光照注意力分支与语义生成模块的解码器相耦合来监督生成的语义结构全景图和曝光强度全景图的光照分布关系。本实施例中的判别器采用的是马尔可夫判别器的结构。

其中，为了详细描述本实施例中语义生成模块的网络结构，首先定义几个符号如下：

Inputs_c：表示语义特征提取模块的输出特征图、输入图像经过可微映射后的映射全景图以及映射全景图掩码经过连接（cat）操作后的数据元组。

Inputs_m：表示第一个子任务预测得到的二级主光源分布图。

Outputs_L：表示神经网络输出的语义结构全景图。

Outputs_E：表示神经网络输出的曝光程度全景图。

EC（o,k,s,p）：表示一个带有elu激活函数激活的二维卷积操作。其中o表示卷积操作输出特征的通道数，k表示卷积核大小，s为滑动步长，p为边缘填充范围。

BC（o,p,d）：表示一个带有elu激活函数激活的卷积核为3，滑动步长为1的二维卷积操作。其中o表示卷积操作输出特征的通道数，p为边缘填充范围，d表示空洞卷积的扩张率。

C（o）：表示一个带有elu激活函数激活的二维卷积操作,且该卷积操作的卷积核大小，滑动步长和边缘填充范围分别设置为3，1，1。参数o表示卷积操作输出特征的通道数。

DC（o）：表示一个上采样的卷积操作元组, 依次为:Inter，Conv，Elu. 这里“Inter”代表torch中的插值函数interpolate。在“Inter”中，输出分辨率大小被指定为输入的2倍，且插值模式设定为“nearest”。“Conv”代表卷积核为3、输出通道数为o、滑动步长为1，边缘填充范围为1的二维卷积操作。“Elu”表示elu的激活函数功能。

A（o）：表示光照注意力模块的组件。该组件有两个输入接口，分别用来接收语义结构信息流（A_c）和光照分布信息流（A_m）。具体地，注意力模块首先对接收的光照分布信息进行sigmoid激活，并将激活后的矩阵与输入的语义结构特征矩阵对应相乘，之后送入一个卷积核为3、输出通道数为o、滑动步长为1，边缘填充范围为1的二维卷积模块，最后使用elu激活函数进行非线性映射。

根据以上定义，语义结构生成模块的网络结构可以表示为图5所示。

步骤S3：将S2步骤生成的语义结构全景图和曝光程度全景图合并成一个数组，送入LDR到HDR的逆映射网络的编码器，得到HDR全景图，并经过多次的迭代完成对网络的训练；

本实施例的LDR到HDR域的逆映射网络由一个编码器和一个解码器组成，编码器与解码器之间通过跳跃连接层进行连接，并且使用Resnet50作为编码器的主体结构。

步骤S4：将S1-S3中的训练好的神经网络及模块首尾连接组合成一个端到端的网络，对这个端到端的网络进行整体的微调训练，将单幅图片输入到训练好的网络中得到对应的HDR全景图。其中，S1-S3中涉及的网络具体为：S1中的主光源分布预测网络；S2中的语义结构补全网络；S3中逆色调映射网络。

对主光源分布网络，本实施例对神经网络输出的各级主光源分布图进行了监督训练，损失公式如下：

其中M表示各级主光源分布图的真实值，M′表示神经网络输出的主光源分布图，下标表示主光源分布图的等级。在本实施例中，i的取值为[1,2]。该损失函数采用了各级主光源分布图的真实值最为光照注意力参数，能够更好地指引神经网络关注亮度较大的光源部分，从而对神经网络资源进行合理地配置。

对于语义结构生成网络，本实施例一共设置了3项直接监督损失，分别为特征损失、语义结构损失和曝光程度损失；

特征损失的公式如下：

其中L表示语义结构全景图的真实值，L′表示神经网络输出的语义结构全景图。VGG _l为训练良好的VGG19模型的第𝑙层激活层，β _l为超参数。

语义结构损失的公式如下：

曝光程度损失的公式如下：

其中E表示曝光程度全景图的真实值，而E′表示神经网络输出的曝光程度全景图。

本实施例采用的马尔可夫判别器引入了一项判别器损失函数，具体为：

其中D表示马尔可夫判别器预测的真假程度值；

由上，本实施例的语义结构补全网络的损失函数为：

其中，β _x为损失函数的超参数，在本实施例中采用的参数为β ₁=1.0，β ₂=0.01,β ₃=1.0。

本实施例为了模拟人眼对于光照亮度变化的敏感程度，在log10的数据域下构建HDR全景图的损失函数。同时基于光照注意的思想，使用HDR全景图的真实值作为注意力参数，得到如下所示的监督损失函数：

本实施例提供了一种基于全景图解耦的单张图像的全局光照估计方法，并且用分步训练的方法将原始任务分解为三个较为简单的子任务：1）主光源分布预测、2）语义结构补全和3）逆色调映射，且子任务分解基于的原则是逆数据集制作和光照注意。其中主光源分布预测网络使用迭代的思想在保证光照准确性的同时逐级提高输出光照分布图的分辨率；语义结构补全网络保留了输入图片的纹理信息，同时使用光照注意力模块和语义特征提取模块保证了输出结果的准确性和语义一致性；逆色调映射网络采用了曝光程度全景图来辅助训练。本实施例解决了目前光照估计中光照信息不准确和与输入图像语义不一致的问题，提升了对渲染物体材质的适应性以及渲染结果的真实感。

Claims

1.一种光照估计系统，其特征在于，包括：

其中，可微映射器将输入图片映射回全景图得到映射全景图，同时输入图片被送入语义结构提取模块得到高级语义信息，所述映射全景图、高级语义信息作为语义结构生成模块的输入信息，同时主光源分布预测网络生成的最大分辨率的主光源分布图通过光照注意力分支与语义生成模块的解码器相耦合来监督生成的语义结构全景图和曝光程度全景图的光照分布关系；语义结构生成模块的两个输出端口分别用于输出曝光程度全景图和语义结构全景图，其中输出的语义结构全景图被送入一个判别器进行验证；

逆色调映射网络，利用语义结构补全网络生成的语义结构全景图和曝光程度全景图得到表示输入图片全局光照信息的HDR全景图。

2.根据权利要求1所述的光照估计系统，其特征在于：

所述主光源分布预测网络采用的主体结构为DenseNet121，其中一级分布图的分辨率为3×6，二级分布图的分辨率为6×12。

3.根据权利要求1所述的光照估计系统，其特征在于：

所述主光源分布预测网络中，对神经网络输出的各级主光源分布图进行了监督训练，损失公式如下：