CN106408512B - 一种基于矩阵变量rbm的图像重构方法 - Google Patents

一种基于矩阵变量rbm的图像重构方法 Download PDF

Info

Publication number
CN106408512B
CN106408512B CN201510994139.7A CN201510994139A CN106408512B CN 106408512 B CN106408512 B CN 106408512B CN 201510994139 A CN201510994139 A CN 201510994139A CN 106408512 B CN106408512 B CN 106408512B
Authority
CN
China
Prior art keywords
image
resolution
reconstruction
matrix
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510994139.7A
Other languages
English (en)
Other versions
CN106408512A (zh
Inventor
齐光磊
孙艳丰
胡永利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201510994139.7A priority Critical patent/CN106408512B/zh
Publication of CN106408512A publication Critical patent/CN106408512A/zh
Application granted granted Critical
Publication of CN106408512B publication Critical patent/CN106408512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于矩阵变量RBM的图像重构方法,其大大降低训练和推导的计算复杂度,在训练和测试过程中保持了2D矩阵数据中的空间信息同时在重构过程中得到良好的效果,可以应用于更复杂的数据结构。该方法包括步骤:(1)训练阶段:给定低分辨率图像的输入特征Z=(Z1,Z2,Z3,Z4),先用类似于插值方法的任何一个单图像高分辨率算法得到高分辨率图像块X的估计值X0,根据公式(19),进行参数计算;(2)图像重建阶段:对给定低分辨率图像得到低分辨率对应的4个特征,利用步骤(1)训练好的参数对给定低分辨率图像进行高分辨率重建,用重建的高分辨率图像和给定低分辨率图像进行信息融合。

Description

一种基于矩阵变量RBM的图像重构方法
技术领域
本发明属于计算机视觉的技术领域,具体地涉及一种基于矩阵变量RBM的图像重构方法。
背景技术
布尔斯曼机Boltzmann Machine(BM)是一种重要的随机神经网络,由Hinton和Sejnowski在1985年提出。但由于传统的布尔斯曼机变量单元没有连接关系的约束导致不能有效的在机器学习中得到应用。为了构建一个可以应用于实际的模型,Hinton提出了一个称为限制布尔斯曼机的模型结构,在这个模型中,仅仅可见层单元和隐含层单元之间存在连接关系。
当隐含层和可见层单元之间受到限制时,RBM(Restricted Boltzmann Machine,受限布尔斯曼机)模型可以被看成拥有二值变量的概率模型。最近几年,RBMs由于其强大的特征提取和表达能力,已经广泛应用于模式识别和机器学习领域。
给定一些训练数据,训练RBM模型的目标就是学习可见层和隐含层直接的权值,使得由RBM表示的概率分布尽可能适应于所有的训练样本。一个训练好的RBM模型可以根据训练数据得到的概率分布提供输入数据有效的表示。
经典的RBM模型主要描述的是基于向量形式的输入数据或变量。然而,来源于现代科技中的数据更多的是较为一般的结构。比如,数字图像就是2维矩阵,矩阵中包含了空间信息。为了是经典的RBM可以应用到诸如2D图像的数据,传统的方法就是把2D数据向量化处理。但不幸的是,这样处理不仅破坏了高价图像内部结构,导致损失了结构中隐藏的交互信息,而且由于可见层和隐含层之间的全连接,导致了模型参数的增加。
发明内容
本发明的技术解决问题是:克服现有技术的不足,提供一种基于矩阵变量RBM的图像重构方法,其大大降低训练和推导的计算复杂度,在训练和测试过程中保持了2D矩阵数据中的空间信息同时在重构过程中得到良好的效果,可以应用于更复杂的数据结构。
本发明的技术解决方案是:这种基于矩阵变量RBM的图像重构方法,该方法包括以下步骤:
(1)训练阶段:给定低分辨率图像的输入特征Z=(Z1,Z2,Z3,Z4),先用类似于插值方法的任何一个单图像高分辨率算法得到高分辨率图像块X的估计值X0,根据公式(19),进行参数计算
其中为五个二进制可见层矩阵变量,为二进制隐含层矩阵变量,分别为X和Y的二进制取值空间,为模型权值矩阵;
(2)图像重建阶段:对给定低分辨率图像得到低分辨率对应的4个特征,利用步骤(1)训练好的参数对给定低分辨率图像进行高分辨率重建,用重建的高分辨率图像和给定低分辨率图像进行信息融合。
本发明需要学习的模型参数少于经典RBMs,因此训练和推导的计算复杂度有明显的减少;可见层和隐含层都是矩阵形式,因此在训练和测试过程中保持了2D矩阵数据中的空间信息同时在重构过程中得到良好的效果;本发明可以很容易的拓展到任何阶数的张量数据,因此可以应用于更复杂的数据结构。
附图说明
图1示出了经典的RBM模型。
图2示出了本发明的RBM模型。
具体实施方式
这种基于矩阵变量RBM的图像重构方法,该方法包括以下步骤:
(1)训练阶段:给定低分辨率图像的输入特征Z=(Z1,Z2,Z3,Z4),先用类似于插值方法的任何一个单图像高分辨率算法得到高分辨率图像块X的估计值X0,根据公式(19),进行参数计算
其中为五个二进制可见层矩阵变量,为二进制隐含层矩阵变量,分别为X和Y的二进制取值空间,为模型权值矩阵;
(2)图像重建阶段:对给定低分辨率图像得到低分辨率对应的4个特征,利用步骤(1)训练好的参数对给定低分辨率图像进行高分辨率重建,用重建的高分辨率图像和给定低分辨率图像进行信息融合。
本发明需要学习的模型参数少于经典RBMs,因此训练和推导的计算复杂度有明显的减少;可见层和隐含层都是矩阵形式,因此在训练和测试过程中保持了2D矩阵数据中的空间信息同时在重构过程中得到良好的效果;本发明可以很容易的拓展到任何阶数的张量数据,因此可以应用于更复杂的数据结构。
优选地,所述步骤(1)包括以下分步骤:
(1.1)定义矩阵型训练样本集
最大迭代次数T,学习率,权值正则项,每组训练样本数,CD算法K步;
(1.2)随机初始化U和V,令B=C=0随机梯度ΔU=ΔV=ΔB=ΔC=0;
(1.3)迭代步数t=1→T进行;
(1.4)随机将分成M组大小为b;
(1.5)组m=1→M进行;
(1.6)对所有数据在当前模型参数下进行吉布斯采样
(1.7)k=0→K-1进行;
(1.8)根据公式(9)对样本Y(k)进行采样
p(Y=1|X;Θ)=σ(UXVT+C) (9);
(1.9)根据公式(8)对样本进行采样
p(X=1|Y;Θ)=σ(UTYV+B)(8);
(1.10)根据公式(20)进行梯度的更新
(1.11)根据公式θ=θ+Δθ更新模型参数θ∈Θ;
(1.12)结束
其中为五个二进制可见层矩阵变量,为二进制隐含层矩阵变量,Θ表示所有的模型参数U0,V0,U1,V1,U2,V2,U3,V3,U4,V4,A1,A2,A3,A4,B和C,归一化常量Z(Θ)定义为其中表示X和Y的二进制取值空间为模型权值矩阵,为可见层和隐含层对应的偏置矩阵。
优选地,最大迭代次数T为10000,学习率为0.05,权值正则项为0.01,每组训练样本数为100,CD算法K步为1步。
优选地,所述训练样本大小为30。
现在更详细地说明本发明。
1模型定义
经典的RBM[8,13]是一个二值化的向量模型,输入和隐含层都是向量形式。模型如图1,可见层单元(立方体)和隐含层(圆柱)单元为全连接形式。
RBM的能量函数模型为:
E(x,y;Θ)=-xTWy-bTx-cTy (1)
其中,是二进制的可见层单元和隐含层单元,为偏置,代表神经网络中可见层和隐含层的连接权。Θ={b,c,w}为模型参数。
为了介绍本发明的MVRBM,定义如下符号。定义为二进制可见层矩阵变量,为二进制隐含层矩阵变量。假设独立随机变量xij和ykl从{0,1}中取值。为四阶张量参数,偏置矩阵为定义了如下能量函数。
(2)
其中为模型参数。Θ中一共有I×J×K×L+I×J+K×L个自由参数。即使在I,J,K,L很小时Θ也将是一个很大的数,这样就会需要大量的训练样本和很长的时间。为了减少自由参数的输了和节省计算复杂度,假定隐含层单元和可见层单元的连接权值有如下关系:wijkl=ukivlj。通过定义两个新的矩阵可以把能量函数(2)改写为如下形式,
E(X,Y)=-tr(UTYVXT)-tr(XTB)-tr(YTV) (3)
矩阵U和V共同的定义了输入矩阵X和隐含矩阵Y的连接权,这样,公式(2)中Θ的自由参数减少为公式(3)中I×K+L×J+I×J+K×L。
基于公式(3),定义如下分布:
Θ表示所有的模型参数U,V,B和C。归一化常量Z(Θ)定义为
其中表示X和Y的二进制取值空间。
公式(4)中的概率模型为矩阵变量RBM(MVRBM)。模型如图2。
为了便于说明MVRBM的学习算法,对于可见单元和隐含单元的条件概率密度提出了如下引理
引理1.MVRBM模型由公式(3)(4)定义。每一个可见层单元的条件概率密度为
每一个隐含层单元的条件概率密度为
式中σ是S型函数σ(x)=1/(1+e-x)
应用矩阵表示,两个条件概率可以写为:
p(X=1|Y;Θ)=σ(UTYV+B) (8)
p(Y=1|X;Θ)=σ(UXVT+C) (9)
最大似然函数和对于MVRBM的CD算法
对于给定样本集在公式(4)联合分布下,的对数似然函数定义为
对于Θ中任意元素θ,我们可以证明
称(10)式等号右面的第一项为数据扩展项,第二项为模型扩展项。
计算似然函数梯度最主要的问题是计算模型扩展项。因为模型扩展项要对可见层和隐含层所有的状态进行加和。然而,CD算法允许通过一个较短的马尔科夫链实现近似计算。CD算法的主要思想是通过样本集中的一个样本作为吉布斯链的初始值CD-k算法利用第k步的样本作为模型扩展项的近似。
将(11)带入(10),我们可以得到基于CD算法的近似:
对于MVRBM的所有4类参数,仅计算作为例子,其他参数的计算以此类推。从(3)式,得到
由此,公式(12)变为
对于二进制变量Y(Y'),因为
对(13)式,有
同理,对其他参数可以得到
多模式的MVRBM
真实世界中的信息往往来自于多个通道。例如,在图像高分辨率重构中,低分辨率图像往往和不用类型的特征相关联。
假设可见层由两个独立矩阵构成
能量模型为
E(X,Y,Z)=-tr(UTYVXT)-tr(XTB)-tr(YTC) (18)
-tr(QTYVZT)-tr(ZTA)
联合分布为
为了验证本文提出的MVRBM算法的有效性,本文进行了高分辨率重建实验。训练数据我们从69个自然图像中随机选择10000个图像块。69个彩色图像可以从如下网址下载到:http://decsai.ugr.es/cvg/dbimagenes/.
每一个训练样本包含一个高分辨率图像块X(从YCbCr彩色空间中选择光照Y通道所得图像)和4个低分辨率图像块。4个低分辨率图像块分别是图像在Y通道上x-,y-,xx-和yy-方向上的导数,记作Z1,Z2,Z3和Z4。所以我们的可见层有5个矩阵块(X,Z1,Z2,Z3和Z4)。能量函数可以由公式18的扩展公式(19)得到。
从图像库中选择N个训练样本,记作实验中,随机选择N=10000训练样本块,样本块的大小分别为10×10,15×15,20×20,30×30和35×35,所有的比例因为均为2。隐含层固定大小为20。
用大小256×256为Lena图像做高分辨率图像,改变不同的训练样本块大小,得到的高分辨率重构结果如表1。
表1
从表1可以看出,重构效果都较好,但不同尺寸的训练图像块对重构效果有一定的影响。所以一般图像的重建,可以选择固定训练图像块大小为30。
本发明和其他的一些方法对于Lena图像的高分辨率重建做了一些对比。试验中,选择训练样本块大小为15×15,隐含层大小为20×20。输入低分辨率图像大小为256×256。本方法的PSNR为35:3006dB,大大高于双三次插值的方法的34:1282dB。本方法同时也和最好的方法进行比较,基于稀疏表示的高分辨率重构方法(Super-resolution via SparseRepresentation(SR)),本方法PSNR虽然稍微低一点,但重建时间要提高很多,需要的重建时间远远小于SR方法。更多实验结果见表2。
Image PSNR-Bicubic PSNR-SR PSNR-MVRBM Times-SR Times-MVRBM
athens 33.2333 34.7536 34.4948 555.453 35.234
anhinga 29.2949 30.4464 30.2720 344.539 35.348
avion 32.5751 34.0530 34.2227 665.507 34.883
baboon 24.9455 25.7033 25.6939 390.406 35.272
bardowl 30.5270 31.5791 31.4910 690.322 34.975
barnfall 30.8737 32.0302 31.9782 567.408 34.825
beeflowr 34.6839 35.6362 35.3203 511.712 35.143
bird 34.5184 36.5409 36.2514 748.225 35.196
blakeyed 31.7163 33.6690 32.8534 325.29 35.429
blueeye 35.2188 36.3957 36.1106 786.426 34.856
bluheron 35.2707 36.4046 36.1540 687.551 35.475
bobcat 33.1525 34.2699 34.1001 590.128 35.084
表2
经过对每个训练样本进行模型MMVRBM的训练,用以下步骤实现高分辨率重建。
1.训练阶段:
给定低分辨率图像的输入特征Z=(Z1,Z2,Z3,Z4),先用类似于插值方法的任何一个单图像高分辨率算法得到高分辨率图像块X的估计值X0,根据公式(19),进行参数计算。
M-MVRBM的CD-K算法1
2.高分辨率重建阶段:
步骤一、给定低分辨率图像,可以得到低分辨率对应的4个特征;
步骤二、利用训练好的MMVRBM的参数,对输入的低分辨率图像进行高分辨率重建;
步骤三、用重建的高分辨率图像和已有原始低分辨率图像进行信息融合。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (1)

1.一种基于矩阵变量RBM的图像重构方法,其特征在于,该方法包括以下步骤:
(1)训练阶段:给定低分辨率图像的输入特征Z=(Z1,Z2,Z3,Z4),先用插值方法的任何一个单图像高分辨率算法得到高分辨率图像块X的估计值X0,根据公式(19),进行参数计算
其中为五个二进制可见层矩阵变量,为二进制隐含层矩阵变量,分别为X和Y的二进制取值空间,U1,U2,U3V1,V2,V3为模型权值矩阵;
(2)图像重建阶段:对给定低分辨率图像得到低分辨率对应的4个特征,利用步骤(1)训练好的参数对给定低分辨率图像进行高分辨率重建,用重建的高分辨率图像和给定低分辨率图像进行信息融合。
CN201510994139.7A 2015-12-25 2015-12-25 一种基于矩阵变量rbm的图像重构方法 Active CN106408512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510994139.7A CN106408512B (zh) 2015-12-25 2015-12-25 一种基于矩阵变量rbm的图像重构方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510994139.7A CN106408512B (zh) 2015-12-25 2015-12-25 一种基于矩阵变量rbm的图像重构方法

Publications (2)

Publication Number Publication Date
CN106408512A CN106408512A (zh) 2017-02-15
CN106408512B true CN106408512B (zh) 2019-08-16

Family

ID=58007539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510994139.7A Active CN106408512B (zh) 2015-12-25 2015-12-25 一种基于矩阵变量rbm的图像重构方法

Country Status (1)

Country Link
CN (1) CN106408512B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408692A (zh) * 2014-11-25 2015-03-11 南京信息工程大学 一种基于深度学习的图像模糊模型参数分析方法
CN104899830A (zh) * 2015-05-29 2015-09-09 清华大学深圳研究生院 一种图像超分辨方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408692A (zh) * 2014-11-25 2015-03-11 南京信息工程大学 一种基于深度学习的图像模糊模型参数分析方法
CN104899830A (zh) * 2015-05-29 2015-09-09 清华大学深圳研究生院 一种图像超分辨方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
受限波尔兹曼机;张春霞 等;《工程数学学报》;20150430;第32卷(第2期);第159-173页

Also Published As

Publication number Publication date
CN106408512A (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
Salvador et al. Naive bayes super-resolution forest
Zhang et al. Learning deep CNN denoiser prior for image restoration
Van den Oord et al. Conditional image generation with pixelcnn decoders
CN109035142B (zh) 一种对抗网络结合航拍图像先验的卫星图像超分辨方法
CN108241854B (zh) 一种基于运动和记忆信息的深度视频显著性检测方法
CN111767979A (zh) 神经网络的训练方法、图像处理方法、图像处理装置
CN108038435B (zh) 一种基于卷积神经网络的特征提取与目标跟踪方法
Huang et al. Deep hyperspectral image fusion network with iterative spatio-spectral regularization
Su et al. Global learnable attention for single image super-resolution
Liu et al. Deep adaptive inference networks for single image super-resolution
CN108268890A (zh) 一种高光谱图像分类方法
Chen et al. Persistent memory residual network for single image super resolution
Wei et al. A-ESRGAN: Training real-world blind super-resolution with attention U-Net Discriminators
CN109300128A (zh) 基于卷积神经网隐含结构的迁移学习图像处理方法
Salem et al. Semantic image inpainting using self-learning encoder-decoder and adversarial loss
CN109977989A (zh) 一种图像张量数据的处理方法
Xia et al. Meta-learning-based degradation representation for blind super-resolution
Huang et al. A deep dictionary model for image super-resolution
CN112884648A (zh) 多类模糊图像超分辨率重建的方法和系统
CN117788629B (zh) 一种具有风格个性化的图像生成方法、装置及存储介质
CN116168197A (zh) 一种基于Transformer分割网络和正则化训练的图像分割方法
Ding et al. Towards transmission-friendly and robust cnn models over cloud and device
CN114581918A (zh) 一种文本识别模型训练方法及装置
Liang et al. Single image super-resolution via a lightweight residual convolutional neural network
Rajaram et al. Learning-based nonparametric image super-resolution

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant