CN113077451A

CN113077451A - 基于无监督学习的单张图片本征图像分解方法、系统及介质

Info

Publication number: CN113077451A
Application number: CN202110395059.5A
Authority: CN
Inventors: 周锦; 张青; 孙伟; 郑伟诗; 席杨
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-07-06
Anticipated expiration: 2041-04-13
Also published as: CN113077451B

Abstract

本发明公开了一种基于无监督学习的单张图片本征图像分解方法、系统及介质，方法包括下述步骤：构建本征图像分解模型，所述本征图像分解模型包括两个分支，一支为反射率生成网络，另一支为光照生成网络；设置随机噪声参数并经过训练后得到两个与原图尺度相同的随机噪声；将生成的两个随机噪声分别作为反射率网络和光照网络的输入，在损失函数的约束下，不断利用反向传播算法更新反射率网络和光照网络的参数；当更新反射率网络和光照网络的参数多次后，在历史输出中选取重构图与原图峰值信噪比PSNR值最小的那组结果作为本征图像分解的最终结果。通过两个结构相同的反射率生成网络和光照网络，分别输出反射率和光照，实现无监督的本征图像分解。

Description

基于无监督学习的单张图片本征图像分解方法、系统及介质

技术领域

本发明属于计算机视觉的技术领域，具体涉及一种基于无监督学习的单张图片本征图像分解方法、系统及介质。

背景技术

传统的本征图像分解方法大多基于优化求解的框架下，同时设置很多先验条件。例如，Retinex理论假设大的梯度变化是由反射率的变化引起的；小的梯度变化是由光照的变化引起的。最近还有一些方法通过RGB-D相机采集物体表面的法线信息，表面的法线能够提高光照的估计准确度。基于优化的方法通常需要人为的设置假设，然后将假设转化成优化方程。然而这种手工设置先验的强约束并不完全正确。例如Retinex理论，事实上在光照突变的位置较大的梯度应属于光照成分而不是假设中的反射率。同时，类似的先验适用适用的图片也很有限，在实际应用中效果较差。

基于时间序列图片的方法会搜集同一场景在不同光照条件下的多张图片，组成时间序列图片，然后假设这些图片的反射率是没有发生变化的，但是光照是变化的。因此，这些方法便有了一个很重要的约束——时间序列每张图片的分解结果中反射率要求严格相同。基于时间序列的方法存在的最大问题是数据获取很困难，在一段时间内，场景内每一个物体都不发生改变的可能性是很小的，例如常见的背景变化、天气变化等都归于反射率的变化。因此获取一系列光照不变同时反射率变化的图片是困难的。另外一个问题是应用受限，诸多方法训练的时候采用了时间序列，因此在实际应用的时候也要求模型的输入是时间序列，这显然是不切实际的。

有监督的深度学习方法，自S.Bell等人公布IIW数据集之后，一大批方法把深度学习应用在本征图像分解领域,他们利用神经网络的特性挖掘数据潜在的特征实现有监督学习的本征图像分解。后续有人补充IIW数据集形成新的针对光照的稀疏标注数据集SAW。同时，不满足于IIW和SAW数据集数据量偏少，Li,Zhengqi等人在SUNCG基础上创建了自己的大型虚拟数据集CGIntrinsics。但是，有监督的深度学习方法同样面临着数据的问题，本领域主流的IIW数据集包含的图片数量仅5000多张，与其他计算机视觉课题方向的数据集相差甚远。数据有限决定了有监督深度学习模型的泛化能力不会太好。同时，IIW数据集等的标注是稀疏标注，标签质量不高，这也极大限制了有监督深度学习方法的前景。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于无监督学习的单张图片本征图像分解方法、系统及介质，通过两个结构相同的反射率生成网络和光照网络，分别输出反射率和光照，实现无监督的本征图像分解。

为了达到上述目的，本发明采用以下技术方案：

本发明一方面提供了一种基于无监督学习单张图片本征图像分解方法，包括下述步骤：

构建本征图像分解模型，所述本征图像分解模型包括两个分支，一支为反射率生成网络，另一支为光照生成网络；设置随机噪声参数并经过训练后得到两个与原图尺度相同的随机噪声；

将生成的两个随机噪声分别作为反射率网络和光照网络的输入，在损失函数的约束下，不断利用反向传播算法更新反射率网络和光照网络的参数；

当更新反射率网络和光照网络的参数多次后，在历史输出中选取重构图与原图峰值信噪比PSNR值最小的那组结果作为本征图像分解的最终结果。

作为优选的技术方案，所述反射率网络和光照网络结构相同，具体为：

前五层是Encoder部分，每层卷积层的频道数相比前一层增加一倍，第一层的频道数设置为8，每层卷积层的卷积核大小都是3*3，步长设置为2；

后五层是decoder部分，每层卷积层的频道数相比前一层减少一半，第六层的频道数设置为128；每层卷积层的卷积核大小都是3*3，步长设置为2；第七层和第八层分别与第三层和第四层连接，用于保存浅层的信息。

作为优选的技术方案，所述设置噪声参数并经过训练后得到两个与原图尺度相同的随机噪声，具体为：

设置噪声为取值在[-0.5，0.5]之间的满足均匀分布的随机变量，随机噪声生成后就固定为反射率生成网络或者光照生成网络的输入了，在网络训练至M₀个循环之后，每个循环的网络输入开始加扰动，以改善网络模型的稳定性；扰动为服从均值为0，方差为1的正态分布的随机变量，扰动乘上系数0.001之后加上原始网络输入构成最终的网络输入。

作为优选的技术方案，所述M₀为1000。

作为优选的技术方案，所述在损失函数的约束下，不断利用反向传播算法更新反射率网络和光照网络的参数，具体为：

重构误差，所述反射率生成网络和光照生成网络分别输出反射率和光照，根据Retinex理论，图像模型表示为：

I＝r·s， (1)

其中，r表示反射率，s表示光照，I表示原图，要满足Retinex理论，即网络的两个输出需要满足以上等式的约束，因此重构误差表示为：

其中，R表示网络输出的反射率，S表示本方法网络输出的光照，为了将网络的两个分支解耦，使其学习过程相对独立，把原Retinex理论转化到了log域，表达式从乘积式子变成和式；

互斥误差，在梯度域设置一个损失项以区分开反射率和光照，在多种尺度上计算互斥损失项，具体为：

其中，θ表示网络的参数；n表示下采样的系数；f_S，f_R分别表示输出光照的网络分支和输出反射率的网络分支，f_S，f_R使用双线性插值法下采样2^n-1；||·||_F表示Frobenius范数；⊙表示点乘；

本征图像分解模型训练，以生成的两个随机噪声为输入，在训练M₁次循环之后在两个初始随机噪声的基础上分别添加扰动，然后分别作为反射率生成网络和光照生成网络最终的网络输入；训练本征图像分解模型使用的目标函数为重构误差和互斥误差；使用Adam优化器更新反射率生成网络和光照生成网络的参数；各分支网络的初始化均采用泽维尔初始化。

作为优选的技术方案，在互斥误差的步骤中，设置N＝3，

作为优选的技术方案，所述M₁取值为10000。

作为优选的技术方案，衡量最佳输出的计算方式采用的是网络输出的反射率与光照点乘得到的重构图与原图计算峰值信噪比PSNR，PSNR最大的那组对应的网络输出为最佳输出，PSNR的计算公式如下：

其中，m，n，k分别表示图像的行数，列数和频道数，这里I表示原图。根据Lambertian光照模型，重构图O的表达式为：

O＝R·S， (7)。

本发明的另一方面提供了一种基于无监督学习的单张图片本征图像分解系统，应用所述的基于无监督学习的单张图片本征图像分解方法，包括本征图像分解网络构建模块、参数更新模块以及分解模块；

所述本征图像分解网络构建模块，用于构建本征图像分解模型，所述本征图像分解模型包括两个分支，一支为反射率生成网络，另一支为光照生成网络；设置随机噪声参数并经过训练后得到两个与原图尺度相同的随机噪声；

所述参数更新模块，用于将生成的两个随机噪声作为反射率网络和光照网络的输入，在损失函数的约束下，不断利用反向传播算法更新反射率网络和光照网络的参数；

所述分解模块，用于当更新反射率网络和光照网络的参数多次后，在历史输出中选取重构图与原图峰值信噪比PSNR值最小的那组结果作为本征图像分解的最终结果。

本发明的又一方面提供了一种存储介质，存储有程序，所述程序被处理器执行时，实现所述的基于无监督学习的单张图片本征图像分解方法。

本发明与现有技术相比，具有如下优点和有益效果：

本发明利用神经网络生成模型本身的特性实现了无监督的本征图像分解，神经网络以噪声为输入去拟合一张图片的时候更容易输出一张变化规律，内容简单的图片；而本征图像分解要分解得到的反射率和光照相比原图都是更为简单的成分，因此本发明由神经网络生成模型内在性质作为切入点，成功实现了无监督的训练方式。

本发明采用无监督的学习方式，可以绕开本领域数据获取困难，现存数据集质量偏低，数量偏少的问题；以神经网络的生成模型为基本模型并加以独特设计，使网络能充分挖掘反射率和光照的特征，达到相对于传统优化求解更好的结果。

本发明首次在本征图像分解领域引入互斥损失函数，通过添加这一项，能够使反射率和光照的边界分离的更加彻底，在很大程度上解决了反射率和光照边界共存的现象。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明基于无监督学习的单张图片本征图像分解方法的流程图；

图2是本发明本征图像分解模型的结构示意图；

图3是为本发明反射率生成网络和光照生成网络的结构示意图；

图4为本发明在MIT Intrinsic Images数据集上的测试结果图；

图5是本发明基于无监督学习的单张图片本征图像分解系统的结构示意图；

图6是本发明存储介质的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例

本发明基于无监督学习的单张图片本征图像分解方法，主要解决的是单张图片本征图像分解任务，本征图像分解(intrinsicdecomposition)是指将一张图片分解成反射率(reflectance)和光照(shading)两个部分；反射率(reflectance)：仅包含原图的颜色信息，没有光照信息；光照(shading)：仅包含原图的光照信息，不包含颜色信息。

本发明无监督的学习方式可以绕开本领域数据获取困难，现存数据集质量偏低，数量偏少的问题；以神经网络的生成模型为基本模型并加以独特设计，使网络能充分挖掘反射率和光照的特征，达到相对于传统优化求解更好的结果。

如图1所示，本实施例基于无监督学习的单张图片本征图像分解方法，包括下述步骤：

S1、构建本征图像分解模型，该本征图像分解模型包括两个分支，一支为反射率生成网络，另一支为光照生成网络，所述反射率生成网络用于输出反射率，所述光照生成网络用于输出光照，所述反射率生成网络和光照生成网络的输入均是一张与原图等大的随机噪声，输出为两个与原图尺度相同的随机噪声。

具体的，如图2所示，本实施例中的本征图像分解模型由两支Encoder-decoder网络组成，网络参数标注在箭头上，每支网络的结构是相同的，即所述反射率生成网络和光照生成网络结构相同，如图3所示，网络包括十层，前五层是Encoder部分，每层卷积层的频道数相比前一层增加一倍，第一层的频道数设置为8；每层卷积层的卷积核大小都是3*3，步长设置为2。后五层是decoder部分，每层卷积层的频道数相比前一层减少一半，第六层的频道数设置为128；每层卷积层的卷积核大小都是3*3，步长设置为2。特别地，第七层和第八层分别与第三层和第四层有连接，这是为了保存浅层的信息。

进一步的，步骤S1的目的是得到两个与原图尺度相同的随机噪声，分别作为反射率生成网络和光照生成网络的输入。本实施例中设置噪声为取值在[-0.5,0.5]之间的满足均匀分布的随机变量，随机噪声生成后就固定为反射率生成网络或者光照生成网络的输入了，在整体网络训练至1000个循环之后，每个循环的网络输入在随机噪声的基础上开始加扰动，以改善模型的稳定性。扰动为服从均值为0，方差为1的正态分布的随机变量，扰动乘上系数0.001之后加上原始网络输入构成最终的网络输入。

S2、将生成的两个随机噪声作为反射率网络和光照网络的输入，在损失函数的约束下，不断利用反向传播算法更新网络的参数。

进一步的，步骤S2具体为：

S2.1、重构误差，所述反射率生成网络和光照生成网络分别输出反射率和光照，根据Retinex理论，图像模型表示为：

I＝r·s， (1)

其中，R表示本方法网络输出的反射率，S表示本方法网络输出的光照，为了将网络的两个分支解耦，使其学习过程相对独立，把原Retinex理论转化到了log域，表达式从乘积式子变成和式；

S2.2、互斥误差，本实施例在梯度域设置一个损失项以区分开反射率和光照，原图中的边界分别属于反射率和光照，当实现分解任务时，网络的两个输出之间应该有边界互斥存在的条件约束。一个存在于原图中的边界要么属于反射率，要么属于光照。同时，该项在多种尺度上计算互斥损失项，能达到更好的分离效果。

在多种尺度上计算互斥损失项，具体为：

S2.3、本征图像分解模型训练，模型以在步骤S1中生成的两个随机噪声为输入，注意在训练1000循环之后在初始随机噪声的基础上添加扰动，然后分别作为反射率生成网络和光照生成网络最终的网络输入；训练模型使用的目标函数为步骤S2中的重构误差和互斥误差；使用Adam优化器更新反射率生成网络和光照生成网络的参数；各分支网络的初始化采用泽维尔初始化。

更进一步的，在所述步骤S2.2中，设置

S3、当步骤S2重复10000次之后，在历史输出中选取重构图与原图峰值信噪比PSNR值最小的那组结果作为本征图像分解的最终结果。

随着网络训练的不断进行，网络的输出结果质量也会越来越高，步骤S3将从10000次迭代的输出中挑选出最好的一组。

一般地，只从6000循环之后开始计算挑选最佳输出，早期的结果通常还不够完善。衡量最佳输出的计算方式采用的是网络输出的反射率与光照点乘得到的重构图与原图计算PSNR(峰值信噪比)，PSNR最大的那组对应的网络输出为最佳输出，PSNR的计算公式如下：

其中，m，n，k分别表示图像的行数，列数和频道数，这里I表示原图，根据Lambertian光照模型，重构图O的表达式为：

O＝R·S(7)。

具体的，利用本实施例的技术方案进行测试，如图4所示，参见在MIT IntrinsicImages数据集上的测试结果，可以观察到在发明分解得到的反射率中有效地去除了光照的明暗变化，同时本方法分解得到的光照中没有颜色的边界。本发明的方法的分解结果与真实结果对比十分接近，具有良好的本征图像分解效果。

如图5所示，在另一个实施例中，还提供了一种基于无监督学习的单张图片本征图像分解系统，该系统包括本征图像分解模型构建模块、参数更新模块以及分解模块；

所述本征图像分解模型构建模块，用于构建本征图像分解模型，所述本征图像分解模型包括两个分支，一支为反射率生成网络，另一支为光照生成网络；设置随机噪声参数并经过训练后得到两个与原图尺度相同的随机噪声；

在此需要说明的是，上述实施例提供的系统仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能，该系统是应用于上述实施例的基于无监督学习的单张图片本征图像分解方法。

如图6所示，在本申请的另一个实施例中，还提供了一种存储介质，存储有程序，所述程序被处理器执行时，实现基于无监督学习的单张图片本征图像分解方法，具体为：

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于无监督学习的单张图片本征图像分解方法，其特征在于，包括下述步骤：

2.根据权利要求1所述基于无监督学习的单张图片本征图像分解方法，其特征在于，所述反射率网络和光照网络结构相同，具体为：

3.根据权利要求1所述基于无监督学习的单张图片本征图像分解方法，其特征在于，所述设置噪声参数并经过训练后得到两个与原图尺度相同的随机噪声，具体为：

设置噪声为取值在[-0.5,0.5]之间的满足均匀分布的随机变量，随机噪声生成后就固定为反射率生成网络或者光照生成网络的输入了，在网络训练至M₀个循环之后，每个循环的网络输入开始加扰动，以改善网络模型的稳定性；扰动为服从均值为0，方差为1的正态分布的随机变量，扰动乘上系数0.001之后加上原始网络输入构成最终的网络输入。

4.根据权利要求3所述基于无监督学习的单张图片本征图像分解方法，其特征在于，所述M₀为1000。

5.根据权利要求1所述基于无监督学习的单张图片本征图像分解方法，其特征在于，所述在损失函数的约束下，不断利用反向传播算法更新反射率网络和光照网络的参数，具体为：

I＝r·s, (1)

其中，θ表示网络的参数；n表示下采样的系数；f_S,f_R分别表示输出光照的网络分支和输出反射率的网络分支，f_S,f_R使用双线性插值法下采样2^n-1；||·||_F表示Frobenius范数；⊙表示点乘；

6.根据权利要求5所述基于无监督学习的单张图片本征图像分解方法，其特征在于，在互斥误差的步骤中，设置N＝3，

7.根据权利要求5所述基于无监督学习的单张图片本征图像分解方法，其特征在于，所述M₁取值为10000。

8.根据权利要求1所述基于无监督学习的单张图片本征图像分解方法，其特征在于，衡量最佳输出的计算方式采用的是网络输出的反射率与光照点乘得到的重构图与原图计算峰值信噪比PSNR，PSNR最大的那组对应的网络输出为最佳输出，PSNR的计算公式如下：

其中，m,n,k分别表示图像的行数，列数和频道数，这里I表示原图。根据Lambertian光照模型，重构图O的表达式为：

O＝R·S, (7)。

9.基于无监督学习的单张图片本征图像分解系统，其特征在于，应用于权利要求1-8中任一项所述的基于无监督学习的单张图片本征图像分解方法，包括本征图像分解网络构建模块、参数更新模块以及分解模块；

10.一种存储介质，存储有程序，其特征在于：所述程序被处理器执行时，实现权利要求1-8任一项所述的基于无监督学习的单张图片本征图像分解方法。