CN111915533B

CN111915533B - 一种基于低动态范围的高精图像信息提取方法

Info

Publication number: CN111915533B
Application number: CN202010793782.4A
Authority: CN
Inventors: 汪昕; 金鑫; 朱星帆; 时超; 陈力; 蒋尚秀
Original assignee: Shanghai Golden Bridge Info Tech Co ltd
Current assignee: Shanghai Golden Bridge Info Tech Co ltd
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2023-12-01
Anticipated expiration: 2040-08-10
Also published as: CN111915533A

Abstract

本发明涉及一种基于低动态范围的高精图像信息提取方法，包括：步骤1：对图像进行特征提取，从而得到原始图像RGB三通道以及HSV颜色空间中的V明度通道；步骤2：使用全卷积神经网络结构来分组输出48个系数，并且在其基础上添加short‑cut结构，实现高层特征和低层特征的融合；最后共输出48个球谐系数，且这48个数分为16个组，每组包含3个数据，分别表示在R通道、G通道和B通道上的分量；步骤3：建立球谐系数损失函数和漫反射贴图损失函数，计算48个球谐系数的均方误差损失函数和漫反射贴图损失函数；步骤4：利用步骤3的48个球谐系数的均方误差损失函数和漫反射贴图损失函数反馈约束全卷积神经网络结构。

Description

一种基于低动态范围的高精图像信息提取方法

技术领域

本发明是一种基于低动态范围的高精图像信息提取方法，属于图像分析领域。

背景技术

从图片中恢复原始场景的信息在许多应用中起着非常重要的作用，例如增强现实、电影后期制作、虚拟军事演习、图像设计、室内设计、虚拟广告、虚拟穿衣镜和娱乐游戏等等。这些应用都包含将虚拟物体、虚拟场景叠加到真实场景中的操作，以对现实世界进行场景增强与扩张。为了使虚实场景完美融合以增加虚拟物体的真实感，必须要保证虚拟物体和真实场景的图像信息一致，当真实场景的图像信息发生变化时，虚拟物体的图像信息也要随之发生改变。为了保证虚实场景图像信息的一致性，图像信息的恢复已成为一项十分重要的工作。

此外，在计算机视觉和计算机图形学中，许多算法如物体识别、图像分割和视频跟踪等的输入都是以场景的光度学来表示的，例如图像像素的RGB值，而物体表面的颜色在很大程度上会受到场景诸多信息的影响，所以场景的图像信息复杂度是影响许多算法性能的一个重要因素。如人脸识别算法的性能会随着人脸图像条件的变化而急剧下降，对图像信息提取这个问题的解决程度关系着人脸识别实用化的进程。

然而，由于现实场景的复杂性，从一张图片中恢复其图像信息是一件十分困难的事。在真实场景中，周围环境光照、照相机参数、物体表面结构和物体材料特性等诸多因素以极其复杂的方式共同影响着拍摄图片的形成，并且这些因素的多种组合形式可以产生相同的图片效果，所以从一张图片中恢复的图像信息具有不确定性。

一种简单直接的获取图像信息的方法是在场景中放置图像信息探针，例如镜面球和积分球等等。但是我们使用的绝大多数图片中是不包含图像信息探针的，而且我们也不可能做到在每个拍摄的场景中都放置图像信息探针，所以这种方法不具备实际操作性。另外一种较为常用的方法基于手工选取的特征，这些特征包括地面上的阴影、垂直物体表面上的阴影、天空区域或者这些特征的组合。这些特征可以传达出很多关于图像的信息，例如天空区域可以告诉我们天气的阴晴情况和关于太阳位置的信息；地面和垂直物体表面上的阴影则可以告诉我们较多关于太阳位置的信息。但是这种方法存在一些弊端且恢复出的图像参数不够准确。

作为机器学习最重要的一个分支，深度学习近几年来发展迅速，其在计算机视觉、自然语言处理、语音识别和多模态、多任务学习等领域都取得了巨大的成功。而将深度学习应用于图像信息分析也成为计算机视觉方向的一个重要的研究课题。虽然许多研究已将深度神经网络应用于从单张室内或室外图片中恢复图像信息并且取得较好的结果，但是如何获取高精度，高质量的图像信息参数仍然是一个值得探索的问题。

发明内容

为了解决上述技术问题，本发明克服现有技术的不足，设计了基于低动态范围的高精图像信息提取方法，并加以实现。随后针对这个方案的准确率、效率、安全性进行了实验测试。通过对实验数据和实验流程的分析，可以看出本方案准short-cut结构、V明度通道和漫反射贴图损失函数的有效性。

本发明的技术解决方案为，一种基于低动态范围的高精图像信息提取方法，包括如下步骤：

步骤1：对图像进行特征提取，从而得到原始图像RGB三通道以及HSV颜色空间中的V明度通道；后者中保存着图像上每一点的亮度值信息，记录了整个场景的亮度分布情况，；所述提取出来的特征供后续的神经网络使用。

步骤2：使用全卷积神经网络结构来分组输出48个系数，并且在其基础上添加short-cut结构，实现高层特征和低层特征的融合；最后共输出48个球谐系数，且这48个数分为16个组，每组包含3个数据，分别表示在R通道、G通道和B通道上的分量。

步骤3：建立球谐系数损失函数和漫反射贴图损失函数，计算48个球谐系数的均方误差损失函数和漫反射贴图损失函数；

步骤4：利用步骤3的48个球谐系数的均方误差损失函数和漫反射贴图损失函数反馈约束全卷积神经网络结构。

进一步的，所述步骤1包括：

选择HSV颜色空间中的V明度通道，并将其提取出来和原图像的RGB三通道拼接在一起一同构成网络的输入。

进一步的，所述步骤1包括：

所述步骤2中的全卷积神经网络结构如下，该网络中共使用了13层卷积层，在该网络中又添加了short-cut结构，该结构中共包含4层卷积层，每层中用于对图像进行卷积操作的卷积步长为7×7或5×5，每层卷积的结果都与主网络中某一层的结果进行通道方向上的拼接；

最后一层采用16个长度为3的全连接层以分组的形式输出所有的系数，除最后两层外，所有的卷积层之后都有BatchNormation操作和Relu激活函数。

进一步的，采用前4阶中的16个基函数，并计算相应的系数实现球面函数到球谐函数的转换，计算某个球谐基函数的系数时，首先在球面上均匀采样，采样点的数量由具体情况而定，然后分别计算每个采样点的球面函数值与球谐基函数值并计算两者的乘积，最后计算所有采样点结果的和；该过程可用如下公式表示：

其中，N为采样点的数量，x_j为第j个样本，F(x)为球面函数，Y_i(x)为第i个球谐基函数，而c_i为其系数；将各个球谐基函数与其对应的系数相乘再求和即能求出球面上任意位置的图像信息。

进一步的，其中损失函数包括2个部分，分别为：48个球谐系数的均方误差MSE损失函数和漫反射贴图损失函数；而总的优化目标函数则定义为两者的加权和：

loss＝loss_SH+loss_{diffuse_map}

其中，SH表示球谐函数，loss_SH表示球谐损失函数，loss_{diffuse_map}表示漫反射贴图损失函数。

进一步的，所述球谐损失用于衡量预测的球谐系数和真实值之间的数值误差，利用前4阶的球谐系数的平均均方差损失进行定义。

进一步的，基于漫反射贴图的生成过程，提出将真实球谐系数与预测球谐系数两者还原生成的漫反射贴图之间的均方差作为网络训练的损失函数，将需要还原生成的漫反射贴图的大小设置为16×32，漫反射贴图损失函数如下公式所示：

本发明与现有技术相比的优点在于：

(1)本发明提出的short-cut结构的添加不仅提高了球谐系数的预测精度，同时也提升了漫反射贴图和环境贴图的重建质量。short-cut结构的使用使得生成的渲染结果与真实情况更加接近，更加真实。

(2)本发明提出的漫反射贴图损失的加入比单纯只使用球谐损失可以获得更高的预测性能和更优的重建质量。漫反射贴图损失函数对于球谐系数的预测问题是十分有效的

(3)本发明引入了HSV颜色空间中的明度通道。此通道的引入扩充了图像中包含的信息，提升了网络的特征表征能力，提高了球谐系数的预测精度。

附图说明

图1为本发明的方法模块框图；

图2为本发明的网络结构图；

图3为本发明的方法流程框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

为了更好地理解本发明，对一些基本概念进行一下解释说明。

球谐函数：利用球谐函数对球面函数进行拟合的思想是基于数学领域中的傅里叶变换。该理论认为对于任意的函数，都可以表示为多个三角函数乘上系数之后再相加的和，即其中,c_i为系数，g_i(x)为一组相互正交的基函数。利用任意多个基函数的任意组合可以对任意复杂的函数进行表示。由此可知，一个复杂的球面函数也可以用简单的球谐基函数和相应的系数表示。球谐函数中使用的基函数来自于勒让德多项式。该多项式中正交基函数的个数采用阶数表示，阶数越高，基函数的数量就越多，对原函数的拟合效果就越好，重建的图像质量就越高，但相应的系数也会不断增多。在实际使用时，一般只采用前几阶来构建球谐函数。

球谐损失函数：球谐损失用于衡量预测的球谐系数和真实值之间的数值误差，由于本发明采用了前4阶的球谐系数，所以利用各阶球谐系数的平均均方差损失进行定义：

其中，SH表示球谐函数，loss_SH表示球谐损失函数，l表示阶数，本发明中l＝4，N_i＝2×i+1，表示第i阶中包含的球谐系数组数，k表示每组球谐系数中的第k个分量，共有3个取值，分别表示RGB颜色空间中的三个通道，上标(^)表示真实值，(～)表示预测值。

然而，单纯只利用球谐系数损失函数并不能获取较好的预测结果，在实验中，我们发现有时当loss_SH值较大时，即预测的球谐系数与真实值相差较大，利用预测值渲染出来的结果反而和真实的情况较为接近；有时当loss_SH值较小时，即预测的球谐系数与真实值之间差异较小，利用预测值渲染出来的结果反而和真实的情况相差较远。为了能够有效地减少该现象的发生。

深度学习：是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

本发明的基于低动态范围的高精图像信息提取方法，如图1所示，包括：网络结构和损失函数，其中损失函数包括：真实的球谐系数重建的漫反射贴图、表示预测的球谐系数重建的漫反射贴图；具体如下：

网络结构：使用了全卷积神经网络结构，并且在其基础上又添加了short-cut结构，该结构可以实现高层特征和低层特征的融合。

漫反射贴图损失函数：对于网络训练问题，为了提高神经网络的性能，除了使用球谐系数损失函数外，本发明还提出了漫反射贴图损失函数。漫反射贴图可由球谐系数通过一定的计算还原生成，且还原操作是在网络的训练过程中进行的，该损失函数有助于优化网络中的权值参数，提高网络的训练能力和结果的预测准确度。

本发明提出一种基于低动态范围的高精图像信息提取方法，包括如下步骤：

步骤1：输入图像；对图像进行特征提取，从而得到原始图像RGB三通道以及HSV颜色空间中的V明度通道。后者中保存着图像上每一点的亮度值信息，记录了整个场景的亮度分布情况，其对原始图像数据的补充可以增强网络的特征提取能力。提取出来的特征供后续的神经网络使用。

步骤2：本发明使用了全卷积神经网络结构来分组输出48个系数，并且在其基础上又添加了short-cut结构，该结构可以实现高层特征和低层特征的融合。最后共输出48个球谐系数，系数数量较多，且这48个数可以分为16个组，每组包含3个数据，分别表示在R通道、G通道和B通道上的分量，这三个分量彼此之间存在着一定的关系，互相影响。

步骤3：为了提高神经网络的性能，本发明除了使用球谐系数损失函数外，还提出了漫反射贴图损失函数。该损失函数有助于优化网络中的权值参数，提高网络的训练能力和结果的预测准确度。

步骤4：由步骤3提出的48个球谐系数的均方误差损失函数和漫反射贴图损失函数反馈去约束全卷积神经网络结构。

具体的，所述步骤1具体包：

(1.1)计算球谐图像信息。采用球谐函数对图像信息进行表示的方法称为球谐图像信息。球谐图像信息实际上是对图像信息的一种简化表示，其用少量系数对复杂的图像信息进行表示，渲染的时候再用这些系数重建图像信息。它是一种实时渲染技术，属于预计算辐射传输(PRT)的范畴，广泛地应用于游戏图形渲染领域，用于实时快速地模拟复杂的图像信息。它不仅可以模拟室内图像信息，也可用于室外图像信息的表示。

在图像信息计算问题中，涉及到的大多数公式都是较复杂的球面公式。由于这些公式计算起来较繁琐且费时间，所以其很难用于实时地计算空间中某个点的图像信息。为了实现图像信息计算的实时性以提高渲染速度，我们利用球谐函数来代替复杂的球面函数以实现对计算的简化。

在实际使用时，一般只采用前几阶来构建球谐函数，而本发明采用了前4阶中的16个基函数，定义可用如下公式表示：

第0阶(l＝0):

第1阶(l＝1):

第2阶(l＝2):

第3阶(l＝3):

其中，l表示阶数，(x,y,z)表示由球面坐标转换得到的笛卡尔坐标，r表示球的半径。

有了基函数，还需要计算相应的系数才能实现球面函数到球谐函数的转换。而球谐系数的计算则是基于概率论的思想，即利用“有限”来估计“无限”。当计算某个球谐基函数的系数时，首先要在球面上均匀采样，采样点的数量由具体情况而定，然后分别计算每个采样点的球面函数值与球谐基函数值并计算两者的乘积，最后计算所有采样点结果的和。该过程可用如下公式表示：

其中，N为采样点的数量，x_j为第j个样本，F(x)为球面函数，Y_i(x)为第i个球谐基函数，而c_i为其系数。

有了球谐系数，图像信息的重建过程就变得比较简单，将各个球谐基函数与其对应的系数相乘再求和即可求出球面上任意位置的图像信息。

(1.2)数据集的生成。由于该部分需要实现从低动态范围室内图像中预测出其对应的高动态范围图像信息，所以本发明既需要使用低动态范围图像也要用到高动态范围图像。然而，在计算机视觉领域中，现有可用的高动态范围室内环境贴图数据集数量较少且难以获取，所以本发明使用的图像来自于多个数据源，第一部分为从网络上下载的131张图片，第二部分为来自于HDRI Haven数据集的103张室内图片，第三部分为Laval HDR数据集中的2331张室内图片，这三部分构成了一个数量为2565的数据集。为了对该数据集进行扩充，本发明为每张图片设置了多个不同程度的曝光度。不同的曝光度对周围环境的明暗程度产生了不同的影响，增加了图像的多样性。经过该操作后，得到的结果中存在着少数曝光过度和曝光不足的图片，这些图片会对结果产生干扰，于是本发明将其全部删除，最终共得到7356张高动态范围室内环境贴图。为了获取这些图像的标签数据，本发明采用4阶球谐函数对其进行计算，每张图像分别得到16*3＝48个球谐系数。其中，3表示RGB颜色空间中的通道数为3。

由于在神经网络的训练过程中，要求输入的图像数据是低动态范围的，所以本发明利用一些图像软件将得到的7356张高动态范围环境贴图全部转换为JPG格式的图像。接着，所有图像的大小又被统一为200*400像素。最后，本发明按照8：1：1的比例将其随机拆分成训练集，验证集和测试集，最终共得到5886张训练集图片，735张验证集图片以及735张测试集图片。同时，标签数据也使用同样的方法进行拆分。

(1.3)基于HSV颜色空间的明度通道特征提取。为了能够使用图像中亮度分布的信息，本发明首先需要将原图像从RGB颜色空间转化到其它的颜色空间。然而，由于包含有亮度信息的颜色空间较多，如LAB、YCrCb、HLS、HSV等等，所以本发明需要找出最适合用于图像信息分析的颜色空间。经过多次实验结果的比较，本发明最终选择了HSV颜色空间中的V明度通道，并将其提取出来和原图像的RGB三通道拼接在一起一同构成网络的输入。

所述步骤2具体包括：进行分组输出48个系数，实现高层特征和低层特征的融合的操作。

该部分中用于预测48个球谐系数的神经网络结构如图2所示。本发明也使用了全卷积神经网络结构，且该网络中共使用了13层卷积层，由于网络层数较深，在训练过程中较容易引起梯度弥散问题，从而导致网络性能的下降。为了有效地缓解该问题，本发明在该网络中又添加了short-cut结构。如图2网络结构图下方总计4个矩形所示，该结构中共包含4层卷积层，每层中用于对图像进行卷积操作的卷积步长较大，例如7×7，5×5等，每层卷积的结果都与主网络中某一层的结果进行通道方向上的拼接。由于short-cut结构中的网络层数少，卷积步长大，所以其可以实现高层特征的提取，而主网络中的网络层数多，卷积步长小，所以其可以实现低层特征的提取。由此，short-cut结构的添加可以较好地实现高层特征和低层特征的融合。同时，本发明也利用实验验证了short-cut结构对结果的影响。

此外，该网络最后共需要输出48个球谐系数，系数数量较多，且这48个数可以分为16个组，每组包含3个数据，分别表示在R通道、G通道和B通道上的分量，这三个分量彼此之间存在着一定的关系，互相影响。由此，本发明在网络的最后一层采用16个长度为3的全连接层以分组的形式输出所有的系数。除最后两层外，所有的卷积层之后都有BatchNormation操作和Relu激活函数。

所述步骤3具体包括：利用48个球谐系数的均方误差(MSE)损失函数和漫反射贴图损失函数来反馈约束全卷积神经网络结构。而总的优化目标函数则定义为两者的加权和：

loss＝loss_SH+loss_{diffuse_map}

所述步骤4具体包括：

步骤(4.1)该步骤主要是使用球谐损失衡量预测的球谐系数和真实值之间的数值误差。

由于本发明中采用了前4阶的球谐系数，所以利用各阶球谐系数的平均均方差损失进行定义：

其中，l表示阶数，本发明中l＝4，N_i＝2×i+1，表示第i阶中包含的球谐系数组数，k表示每组球谐系数中的第k个分量，共有3个取值，分别表示RGB颜色空间中的三个通道，上标(^)表示真实值，(～)表示预测值。

然而，单纯只利用球谐系数损失函数并不能获取较好的预测结果，在实验中，我们发现有时当loss_SH值较大时，即预测的球谐系数与真实值相差较大，利用预测值渲染出来的结果反而和真实的情况较为接近；有时当loss_SH值较小时，即预测的球谐系数与真实值之间差异较小，利用预测值渲染出来的结果反而和真实的情况相差较远。为了能够有效地减少该现象的发生，本发明又提出了漫反射贴图损失函数，该函数从整体上对球谐系数生成的结果进行了约束，很好地弥补了上述缺陷。

步骤(4.2)本发明提出将真实球谐系数与预测球谐系数两者还原生成的漫反射贴图之间的均方差作为网络训练的损失函数。由于还原操作是在网络训练过程中进行的，这将会导致网络的训练速度变慢，为了

缓解这一问题，本发明将需要还原生成的漫反射贴图的大小设置为16×32。本发明提出的漫反射贴图损失函数如下公式所示：

其中，H＝16，W＝32，上标(^)表示真实值，(～)表示预测值。loss_{diffuse_map}表示漫反射贴图损失函数。

应用举例

本发明的系统及方法有望应用于增强现实、电影后期制作、虚拟军事演习、图像设计、室内设计、虚拟广告、虚拟穿衣镜和娱乐游戏等等。这些应用都包含将虚拟物体、虚拟场景叠加到真实场景中的操作，以对现实世界进行场景增强与扩张。为了使虚实场景完美融合以增加虚拟物体的真实感，必须要保证虚拟物体和真实场景共享同一个图像信息环境，当真实场景的图像信息发生变化时，虚拟物体的图像信息也要随之发生改变。上述只是这种方案实际应用的场景的简单几个案例，在实际中有更多实用场景。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于低动态范围的高精图像信息提取方法，其特征在于，包括如下步骤：

步骤1：对图像进行特征提取，从而得到原始图像RGB三通道以及HSV颜色空间中的V明度通道；所述HSV颜色空间中的V明度通道中保存着图像上每一点的亮度值信息，记录了整个场景的亮度分布情况；所述提取出来的特征供后续的神经网络使用；

步骤2：使用全卷积神经网络结构来分组输出48个系数，并且在其基础上添加short-cut结构，实现高层特征和低层特征的融合；最后共输出48个球谐系数，且这48个数分为16个组，每组包含3个数据，分别表示在R通道、G通道和B通道上的分量；

2.根据权利要求1所述的一种基于低动态范围的高精图像信息提取方法，其特征在于，所述步骤1包括：

3.根据权利要求1所述的一种基于低动态范围的高精图像信息提取方法，其特征在于，所述步骤2中的全卷积神经网络结构如下，该网络中共使用了13层卷积层，在该网络中又添加了short-cut结构，该结构中共包含4层卷积层，每层中用于对图像进行卷积操作的卷积步长为7×7或5×5，每层卷积的结果都与主网络中某一层的结果进行通道方向上的拼接；最后一层采用16个长度为3的全连接层以分组的形式输出所有的系数，除最后两层外，所有的卷积层之后都有BatchNormation操作和Relu激活函数。

4.根据权利要求1所述的一种基于低动态范围的高精图像信息提取方法，其特征在于，所述步骤3中：

采用前4阶中的16个基函数，并计算相应的系数实现球面函数到球谐函数的转换，计算某个球谐基函数的系数时，首先在球面上均匀采样，采样点的数量由具体情况而定，然后分别计算每个采样点的球面函数值与球谐基函数值并计算两者的乘积，最后计算所有采样点结果的和；该过程可用如下公式表示：

5.根据权利要求1所述的一种基于低动态范围的高精图像信息提取方法，其特征在于，所述步骤3中：

其中损失函数包括2个部分，分别为：48个球谐系数的均方误差MSE损失函数和漫反射贴图损失函数；而总的优化目标函数则定义为两者的加权和：

loss＝loss_SH+loss_{diffuse_map}