CN106408512B

CN106408512B - 一种基于矩阵变量rbm的图像重构方法

Info

Publication number: CN106408512B
Application number: CN201510994139.7A
Authority: CN
Inventors: 齐光磊; 孙艳丰; 胡永利
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2015-12-25
Filing date: 2015-12-25
Publication date: 2019-08-16
Anticipated expiration: 2035-12-25
Also published as: CN106408512A

Abstract

本发明公开了一种基于矩阵变量RBM的图像重构方法，其大大降低训练和推导的计算复杂度，在训练和测试过程中保持了2D矩阵数据中的空间信息同时在重构过程中得到良好的效果，可以应用于更复杂的数据结构。该方法包括步骤：(1)训练阶段：给定低分辨率图像的输入特征Z＝(Z¹,Z²,Z³,Z⁴)，先用类似于插值方法的任何一个单图像高分辨率算法得到高分辨率图像块X的估计值X⁰，根据公式(19)，进行参数计算；(2)图像重建阶段：对给定低分辨率图像得到低分辨率对应的4个特征，利用步骤(1)训练好的参数对给定低分辨率图像进行高分辨率重建，用重建的高分辨率图像和给定低分辨率图像进行信息融合。

Description

一种基于矩阵变量RBM的图像重构方法

技术领域

本发明属于计算机视觉的技术领域，具体地涉及一种基于矩阵变量RBM的图像重构方法。

背景技术

布尔斯曼机Boltzmann Machine(BM)是一种重要的随机神经网络，由Hinton和Sejnowski在1985年提出。但由于传统的布尔斯曼机变量单元没有连接关系的约束导致不能有效的在机器学习中得到应用。为了构建一个可以应用于实际的模型，Hinton提出了一个称为限制布尔斯曼机的模型结构，在这个模型中，仅仅可见层单元和隐含层单元之间存在连接关系。

当隐含层和可见层单元之间受到限制时，RBM(Restricted Boltzmann Machine，受限布尔斯曼机)模型可以被看成拥有二值变量的概率模型。最近几年，RBMs由于其强大的特征提取和表达能力，已经广泛应用于模式识别和机器学习领域。

给定一些训练数据，训练RBM模型的目标就是学习可见层和隐含层直接的权值，使得由RBM表示的概率分布尽可能适应于所有的训练样本。一个训练好的RBM模型可以根据训练数据得到的概率分布提供输入数据有效的表示。

经典的RBM模型主要描述的是基于向量形式的输入数据或变量。然而，来源于现代科技中的数据更多的是较为一般的结构。比如，数字图像就是2维矩阵，矩阵中包含了空间信息。为了是经典的RBM可以应用到诸如2D图像的数据，传统的方法就是把2D数据向量化处理。但不幸的是，这样处理不仅破坏了高价图像内部结构，导致损失了结构中隐藏的交互信息，而且由于可见层和隐含层之间的全连接，导致了模型参数的增加。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提供一种基于矩阵变量RBM的图像重构方法，其大大降低训练和推导的计算复杂度，在训练和测试过程中保持了2D矩阵数据中的空间信息同时在重构过程中得到良好的效果，可以应用于更复杂的数据结构。

本发明的技术解决方案是：这种基于矩阵变量RBM的图像重构方法，该方法包括以下步骤：

(1)训练阶段：给定低分辨率图像的输入特征Z＝(Z¹,Z²,Z³,Z⁴)，先用类似于插值方法的任何一个单图像高分辨率算法得到高分辨率图像块X的估计值X⁰，根据公式(19)，进行参数计算

其中为五个二进制可见层矩阵变量，为二进制隐含层矩阵变量，分别为X和Y的二进制取值空间，为模型权值矩阵；

(2)图像重建阶段：对给定低分辨率图像得到低分辨率对应的4个特征，利用步骤(1)训练好的参数对给定低分辨率图像进行高分辨率重建，用重建的高分辨率图像和给定低分辨率图像进行信息融合。

本发明需要学习的模型参数少于经典RBMs，因此训练和推导的计算复杂度有明显的减少；可见层和隐含层都是矩阵形式，因此在训练和测试过程中保持了2D矩阵数据中的空间信息同时在重构过程中得到良好的效果；本发明可以很容易的拓展到任何阶数的张量数据，因此可以应用于更复杂的数据结构。

附图说明

图1示出了经典的RBM模型。

图2示出了本发明的RBM模型。

具体实施方式

这种基于矩阵变量RBM的图像重构方法，该方法包括以下步骤：

优选地，所述步骤(1)包括以下分步骤：

(1.1)定义矩阵型训练样本集

最大迭代次数T，学习率，权值正则项，每组训练样本数，CD算法K步；

(1.2)随机初始化U和V，令B＝C＝0随机梯度ΔU＝ΔV＝ΔB＝ΔC＝0；

(1.3)迭代步数t＝1→T进行；

(1.4)随机将分成M组大小为b；

(1.5)组m＝1→M进行；

(1.6)对所有数据在当前模型参数下进行吉布斯采样

(1.7)k＝0→K-1进行；

(1.8)根据公式(9)对样本Y^(k)进行采样

p(Y＝1|X；Θ)＝σ(UXV^T+C) (9)；

(1.9)根据公式(8)对样本进行采样

p(X＝1|Y；Θ)＝σ(U^TYV+B)(8)；

(1.10)根据公式(20)进行梯度的更新

(1.11)根据公式θ＝θ+Δθ更新模型参数θ∈Θ；

(1.12)结束

其中为五个二进制可见层矩阵变量，为二进制隐含层矩阵变量，Θ表示所有的模型参数U₀,V₀,U₁,V₁,U₂,V₂,U₃,V₃,U₄,V₄,A₁,A₂,A₃,A₄,B和C，归一化常量Z(Θ)定义为其中表示X和Y的二进制取值空间为模型权值矩阵，为可见层和隐含层对应的偏置矩阵。

优选地，最大迭代次数T为10000，学习率为0.05，权值正则项为0.01，每组训练样本数为100，CD算法K步为1步。

优选地，所述训练样本大小为30。

现在更详细地说明本发明。

1模型定义

经典的RBM[8,13]是一个二值化的向量模型，输入和隐含层都是向量形式。模型如图1，可见层单元(立方体)和隐含层(圆柱)单元为全连接形式。

RBM的能量函数模型为：

E(x,y；Θ)＝-x^TWy-b^Tx-c^Ty (1)

其中，是二进制的可见层单元和隐含层单元，为偏置，代表神经网络中可见层和隐含层的连接权。Θ＝{b,c,w}为模型参数。

为了介绍本发明的MVRBM，定义如下符号。定义为二进制可见层矩阵变量，为二进制隐含层矩阵变量。假设独立随机变量x_ij和y_kl从{0,1}中取值。为四阶张量参数，偏置矩阵为和定义了如下能量函数。

(2)

其中为模型参数。Θ中一共有I×J×K×L+I×J+K×L个自由参数。即使在I,J,K,L很小时Θ也将是一个很大的数，这样就会需要大量的训练样本和很长的时间。为了减少自由参数的输了和节省计算复杂度，假定隐含层单元和可见层单元的连接权值有如下关系：w_ijkl＝u_kiv_lj。通过定义两个新的矩阵和可以把能量函数(2)改写为如下形式，

E(X,Y)＝-tr(U^TYVX^T)-tr(X^TB)-tr(Y^TV) (3)

矩阵U和V共同的定义了输入矩阵X和隐含矩阵Y的连接权，这样，公式(2)中Θ的自由参数减少为公式(3)中I×K+L×J+I×J+K×L。

基于公式(3)，定义如下分布：

Θ表示所有的模型参数U,V,B和C。归一化常量Z(Θ)定义为

其中表示X和Y的二进制取值空间。

公式(4)中的概率模型为矩阵变量RBM(MVRBM)。模型如图2。

为了便于说明MVRBM的学习算法，对于可见单元和隐含单元的条件概率密度提出了如下引理

引理1.MVRBM模型由公式(3)(4)定义。每一个可见层单元的条件概率密度为

每一个隐含层单元的条件概率密度为

式中σ是S型函数σ(x)＝1/(1+e^-x)

应用矩阵表示，两个条件概率可以写为：

p(X＝1|Y；Θ)＝σ(U^TYV+B) (8)

p(Y＝1|X；Θ)＝σ(UXV^T+C) (9)

最大似然函数和对于MVRBM的CD算法

对于给定样本集在公式(4)联合分布下，的对数似然函数定义为

对于Θ中任意元素θ，我们可以证明

称(10)式等号右面的第一项为数据扩展项，第二项为模型扩展项。

计算似然函数梯度最主要的问题是计算模型扩展项。因为模型扩展项要对可见层和隐含层所有的状态进行加和。然而，CD算法允许通过一个较短的马尔科夫链实现近似计算。CD算法的主要思想是通过样本集中的一个样本作为吉布斯链的初始值CD-k算法利用第k步的样本作为模型扩展项的近似。

将(11)带入(10)，我们可以得到基于CD算法的近似：

对于MVRBM的所有4类参数，仅计算作为例子，其他参数的计算以此类推。从(3)式，得到

由此，公式(12)变为

对于二进制变量Y(Y')，因为

对(13)式，有

同理，对其他参数可以得到

多模式的MVRBM

真实世界中的信息往往来自于多个通道。例如，在图像高分辨率重构中，低分辨率图像往往和不用类型的特征相关联。

假设可见层由两个独立矩阵构成

能量模型为

E(X,Y,Z)＝-tr(U^TYVX^T)-tr(X^TB)-tr(Y^TC) (18)

-tr(Q^TYVZ^T)-tr(Z^TA)

联合分布为

为了验证本文提出的MVRBM算法的有效性，本文进行了高分辨率重建实验。训练数据我们从69个自然图像中随机选择10000个图像块。69个彩色图像可以从如下网址下载到：http://decsai.ugr.es/cvg/dbimagenes/.

每一个训练样本包含一个高分辨率图像块X(从YCbCr彩色空间中选择光照Y通道所得图像)和4个低分辨率图像块。4个低分辨率图像块分别是图像在Y通道上x-,y-,xx-和yy-方向上的导数，记作Z¹,Z²,Z³和Z⁴。所以我们的可见层有5个矩阵块(X,Z¹,Z²,Z³和Z⁴)。能量函数可以由公式18的扩展公式(19)得到。

从图像库中选择N个训练样本，记作实验中，随机选择N＝10000训练样本块，样本块的大小分别为10×10,15×15,20×20,30×30和35×35，所有的比例因为均为2。隐含层固定大小为20。

用大小256×256为Lena图像做高分辨率图像，改变不同的训练样本块大小，得到的高分辨率重构结果如表1。

表1

从表1可以看出，重构效果都较好，但不同尺寸的训练图像块对重构效果有一定的影响。所以一般图像的重建，可以选择固定训练图像块大小为30。

本发明和其他的一些方法对于Lena图像的高分辨率重建做了一些对比。试验中，选择训练样本块大小为15×15，隐含层大小为20×20。输入低分辨率图像大小为256×256。本方法的PSNR为35:3006dB，大大高于双三次插值的方法的34:1282dB。本方法同时也和最好的方法进行比较，基于稀疏表示的高分辨率重构方法(Super-resolution via SparseRepresentation(SR))，本方法PSNR虽然稍微低一点，但重建时间要提高很多，需要的重建时间远远小于SR方法。更多实验结果见表2。

Image	PSNR-Bicubic	PSNR-SR	PSNR-MVRBM	Times-SR	Times-MVRBM
						athens	33.2333	34.7536	34.4948	555.453	35.234
anhinga	29.2949	30.4464	30.2720	344.539	35.348
						avion	32.5751	34.0530	34.2227	665.507	34.883
baboon	24.9455	25.7033	25.6939	390.406	35.272
						bardowl	30.5270	31.5791	31.4910	690.322	34.975
barnfall	30.8737	32.0302	31.9782	567.408	34.825
						beeflowr	34.6839	35.6362	35.3203	511.712	35.143
bird	34.5184	36.5409	36.2514	748.225	35.196
						blakeyed	31.7163	33.6690	32.8534	325.29	35.429
blueeye	35.2188	36.3957	36.1106	786.426	34.856
						bluheron	35.2707	36.4046	36.1540	687.551	35.475
bobcat	33.1525	34.2699	34.1001	590.128	35.084

表2

经过对每个训练样本进行模型MMVRBM的训练，用以下步骤实现高分辨率重建。

1.训练阶段：

给定低分辨率图像的输入特征Z＝(Z¹,Z²,Z³,Z⁴)，先用类似于插值方法的任何一个单图像高分辨率算法得到高分辨率图像块X的估计值X⁰，根据公式(19)，进行参数计算。

M-MVRBM的CD-K算法1

2.高分辨率重建阶段：

步骤一、给定低分辨率图像,可以得到低分辨率对应的4个特征；

步骤二、利用训练好的MMVRBM的参数，对输入的低分辨率图像进行高分辨率重建；

步骤三、用重建的高分辨率图像和已有原始低分辨率图像进行信息融合。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种基于矩阵变量RBM的图像重构方法，其特征在于，该方法包括以下步骤：

(1)训练阶段：给定低分辨率图像的输入特征Z＝(Z₁，Z₂，Z₃，Z₄)，先用插值方法的任何一个单图像高分辨率算法得到高分辨率图像块X的估计值X⁰，根据公式(19)，进行参数计算

其中和为五个二进制可见层矩阵变量，为二进制隐含层矩阵变量，分别为X和Y的二进制取值空间，U₁，U₂，U₃，V₁，V₂，V₃，为模型权值矩阵；