CN106408618A

CN106408618A - 一种基于机器学习的图像解构方法

Info

Publication number: CN106408618A
Application number: CN201610784056.XA
Authority: CN
Inventors: 盛斌; 刘君毅
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2017-02-15
Anticipated expiration: 2036-08-31
Also published as: CN106408618B

Abstract

本发明涉及一种基于机器学习的图像解构方法，包括以下步骤：1)建立四层卷积神经网络，作为相对反射率分类器；2)从数据集中获取第一图片的多组像素对信息；3)将所述像素对信息及对所述第一图片进行大小调整后的第二图片作为所述四层卷积神经网络的输入，获得分类结果；4)根据所述分类结果生成一hinge loss最优化问题；5)对所述hinge loss最优化问题进行CFR求解，获得所述第一图片的解构结果。与现有技术相比，本发明具有图片解构结果更加精致、平滑等优点。

Description

一种基于机器学习的图像解构方法

技术领域

本发明涉及一种图像解构方法，尤其是涉及一种基于机器学习的图像解构方法。

背景技术

图片解析是计算机图形学中近年来非常流行的领域，2010年之后有多篇论文研究这个方向，有很多例如HSC、CNN的神经网络被用来实现这个功能，其中影响最大的最早的应该是bell团队基于IIW数据集的分析。

原有的大多数图片解构方法都是基于比较图片进行的，这种方法得到的结果是粗糙的，不够精细的。比如：S.bell等人在《ACM Transactions on Graphics》发表的论文《Intrinsic images in the wild》(基于IIW的图片本质)论文中提出从IIW的数据中提取图片中点对的信息，通过求解CRF(Conditional Random Fields，条件随机场)的方法处理这些信息得到整个图片的解构结果，这种方法是较早提出的解构方法，在大规模数据集下得到的结果不错，但是问题在于这些方法仅仅通过建立较简单的能量函数的方法构建CRF来求解，所以解构图结果是粗糙的，不够精致的。

此外，也有一些基于卷积神经网络的解构方法提出。比如，J.T.Barron等人在《IEEE Conference on Computer Vision and Pattern Recognition,2013》(2013年计算机图形与模式识别会议集)发表的《Intrinsic scene properties from a single RGB-Dimage》论文中提出同过卷积神经网络的，并以此来提高比较的精度，这些方法可以得到相对更精细的解构图，但问题在于他们需要RGB以及depth两种输入，使得适用范围大大减小。

最后，在同样是用CNN等神经网络进行局部到全局的估计时，大多方法采用的计算权值方法都太过专断，导致得到图片不够精致，并且最后处理矩阵时往往需要很大的计算量，因此需要一种更加平滑的估计方法以及能得到足够好结果且能大大减少计算量的估计方法。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种图片解构结果更加精致的基于机器学习的图像解构方法。

本发明的目的可以通过以下技术方案来实现：

一种基于机器学习的图像解构方法，包括以下步骤：

1)建立四层卷积神经网络，作为相对反射率分类器；

2)从数据集中获取第一图片的多组像素对信息；

3)将所述像素对信息及对所述第一图片进行大小调整后的第二图片作为所述四层卷积神经网络的输入，获得分类结果；

4)根据所述分类结果生成一hinge loss最优化问题；

5)对所述hinge loss最优化问题进行CFR求解，获得所述第一图片的解构结果。

所述四层卷积神经网络包括带有四个输入的输入层、一个结合层和一个全连接层。

所述相对反射率分类器包括等于分类器、大于分类器和小于分类器。

所述像素对信息包括像素对中两像素块间的相对反射率和各像素块的位置。

所述hinge loss最优化问题为一全局能量最小化问题，其能量函数为：

式中，i、j表示像素对中的像素块i和像素块j，o表示关系参数，包括等于、小于和大于，w_o,j,i表示权值，μ_o(r_i,r_j)表示损失系数，r_i为像素块i的反射率，r_j为像素块j的反射率。

由元素w_o,j,i组成的权值矩阵W通过Nystrom数值方法进行矩阵分解而获得。

所述步骤5)中，利用平均场推理算法对所述hinge loss最优化问题进行CFR求解。

与现有技术相比，本发明具有以下优点：

1)本发明通过对原本仅仅定义在像素对位置和颜色上的权值定义进行优化，使得得到的结果更加平滑，因此得到的图片解构也更加精致。

2)现有技术中的数据量导致时间复杂度无法承受，本发明通过分解矩阵，分析矩阵特征的方法使得计算转化为近似的计算方法，使得运行时间在可承受范围内；

3)本发明图片解构方法仅仅需要原始RGB的输入，处理方法简单。

附图说明

图1为本发明的流程示意图；

图2为本发明中建立的四层卷积神经网络的示意图；

图3为实施例中采用的原图；

图4为一现有技术实现的图片解构结果示意图；

图5为本发明实现的图片解构结果示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本实施例提供一种基于机器学习的图像解构方法，包括以下步骤：

第一步、建立并训练一个四层卷积神经网络，利用这个网络处理像素对之间的相对反射率大小，作为相对反射率分类器。建立的四层卷积神经网络如图2所示，包括带有四个输入的输入层、一个结合层和一个全连接(fully connected)层。训练出的相对反射率分类器包括等于分类器、大于分类器和小于分类器。

四层卷积神经网络的四个输入分别为像素对的两个像素块、根据原图调整大小后的图片以及两个像素块的位置。

第二步、从数据集中获取第一图片的多组像素对信息，包括像素对中两像素块间的相对反射率和各像素块的位置。。

第三步、将像素对信息及对第一图片进行大小调整后的第二图片作为四层卷积神经网络的输入，获得分类结果。

第四步、根据分类结果生成一hinge loss最优化问题。

第五步、对hinge loss最优化问题进行CFR求解，获得第一图片的解构结果。

四层卷积神经网络的具体过程如下：

首先分离出两个需要进行比较的像素块：Patch1和patch2，本实施例中，两像素块是63*63大小的像素块，并且有3个通道的数据(R、G、B)，现需要通过同一个四层卷积网络，将它们分别变成一个64维向量。

其次，对重新调整为150*150的原图，同样经过四层卷积网络，最后转化为64维向量。

另外，将像素块的位置坐标与之前得到的3个64维向量结合，在结合层中得到包含了所有信息的一个196维向量。

最后，将其放入全连接层，得到分类结果，分类结果反映两像素块间的明、暗、或相等关系。

在第四步中，本实施例对之前获得的数据进行处理与评估，并规约成一个hingeloss最优化的问题。

首先，利用得到的三个相对反射率分类器(等于、小于、大于)得到两像素块间相对反射率的评分，越高的评分意味着像素对之间相对反射率越有可能是该种关系，并且将它规约到有限制的最优化问题。

现分析一个损失函数：

其中i，j为像素对，而我们关注它们的明、暗或相等。

参数服从于约束：

r_i≤r_j+ξ_＝,i,j，

r_j≤r_i+ξ_＝,i,j，

r_i≤r_j+ξ_＜,i,j，

r_j≤r_i+ξ_＞,i,j,

ξ≥0.

r_i为像素块i的反射率，r_j为像素块j的反射率。之后，将止述函数规约成一个全局的能量最小化：

其中损失系数为：

μ_＝(r_i,r_j)＝ξ_＝,i,j＝|r_i-r_j|

μ_＜(r_i,r_j)＝ξ_＜,i,j＝max(r_i-r_j,0)

μ_＞(r_i,r_j)＝ξ_＞,i,j＝max(r_j-r_i,0)

图片全局的解构即要解决一个全连接CRF中的能量最小化问题，这个问题的模型是：

其中反射率r、阴影或入射光强s相对应的项决定了最后能得到的解构图的光滑程度和精细程度。

而在之前用到的方法中，常将s对应的项定义相关于像素对的s属性以及它们的距离，并得到如下定义：

同时，将r对应的项相关于像素对之间的距离以及它们之间的颜色差异，并得到如下定义：

其中p为距离参数，I为颜色参数，然而以上关于r和s对应项的这种定义，是粗糙的，将会导致得到的解构图粗糙不够光滑。因此本发明将对其进行优化，优化后，得到新的表达式为：

对r对应项具体的优化是采用平均场推理算法(mean-field inferencealgorithm)

在《Efficient Inference in Fully Connected CRFs with Gaussian EdgePotentials》中介绍了一种优化的方法，现在我们假设需要求解的联合分布为P(对应我们要得到的E)，而P与两个项相关，并得到P的形式如下：

而现在想用一个近似的独立分布Q优化，并且有：

Q(X)＝∏_iQ_i(X_i)

意味着用一个n项乘积的形式去近似代替原来的P，后面便可以用的式子进行运算。

在经过上一步的优化之后将问题转变为计算：

而此时遇到了一个非常严峻的问题，由元素w_o,j,i组成的权值矩阵W是一个非常巨大的矩阵，它有一个像素数的平方规模的大小，因此需要用近似估计的手段得到上式的值。

理论上W是一个秩比较小的矩阵(和图中所有反射率的个数相同)，因此我们可以用Nystrom’s method来近似的得到我们需要计算的值。由于这个矩阵秩很小，我们可以用其中的一些行与列来反应它的特征，并进行计算，在矩阵中采样得到C，然后将K对应的行列移动到矩阵左上方，得到新的W：

并且得到另一个C：

进一步可以得到近似计算的分解形式：

W≈C^TK⁺C

其中K⁺为K的伪逆。

并通过结合律可以进行近似的简便运算。

依据上述步骤，本实施例对IIW数据集里的图片进行了测试。本实施例采用两种方法采集图片，第一种方法是直接下载IIW的数据集，并解压在根目录下，在linux系统中采用本发明方法进行解构。第二种方法是我们用FLASK构建了一个网站，用本地的电脑作为服务器测试，可以直接在网站上上传图片，服务器会在后台处理之后输出结果，网站结果见图4，本发明解构的结果见图5。

结果显示，利用本发明方法对IIW中的图片逐一进行解构操作之后，对比之前的方法得到的结果发现，本发明比没有使用机器学习的bell的结果更加的光滑，色彩块之间的差距更小。这一实验表明，本实施例的图片解构算法能有效地对图片进行解构处理。

Claims

1.一种基于机器学习的图像解构方法，其特征在于，包括以下步骤：

1)建立四层卷积神经网络，作为相对反射率分类器；

2)从数据集中获取第一图片的多组像素对信息；

4)根据所述分类结果生成一hinge loss最优化问题；

2.根据权利要求1所述的基于机器学习的图像解构方法，其特征在于，所述四层卷积神经网络包括带有四个输入的输入层、一个结合层和一个全连接层。

3.根据权利要求1所述的基于机器学习的图像解构方法，其特征在于，所述相对反射率分类器包括等于分类器、大于分类器和小于分类器。

4.根据权利要求1所述的基于机器学习的图像解构方法，其特征在于，所述像素对信息包括像素对中两像素块间的相对反射率和各像素块的位置。

5.根据权利要求1所述的基于机器学习的图像解构方法，其特征在于，所述hinge loss最优化问题为一全局能量最小化问题，其能量函数为：

E (x) = \underset{i, j}{Σ} \underset{o &Element; {=, <, >}}{Σ} w_{o, j, i} μ_{o} (r_{i}, r_{j})

6.根据权利要求5所述的基于机器学习的图像解构方法，其特征在于，由元素w_o,j,i组成的权值矩阵W通过Nystrom数值方法进行矩阵分解而获得。

7.根据权利要求1所述的基于机器学习的图像解构方法，其特征在于，所述步骤5)中，利用平均场推理算法对所述hinge loss最优化问题进行CFR求解。