CN106408512B - 一种基于矩阵变量rbm的图像重构方法 - Google Patents
一种基于矩阵变量rbm的图像重构方法 Download PDFInfo
- Publication number
- CN106408512B CN106408512B CN201510994139.7A CN201510994139A CN106408512B CN 106408512 B CN106408512 B CN 106408512B CN 201510994139 A CN201510994139 A CN 201510994139A CN 106408512 B CN106408512 B CN 106408512B
- Authority
- CN
- China
- Prior art keywords
- image
- resolution
- reconstruction
- matrix
- low
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 26
- 230000004927 fusion Effects 0.000 claims abstract description 5
- 229910002056 binary alloy Inorganic materials 0.000 claims description 10
- 238000012360 testing method Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 241000565344 Anhinga anhinga Species 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 241000879777 Lynx rufus Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 241001504519 Papio ursinus Species 0.000 description 1
- 241000320126 Pseudomugilidae Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于矩阵变量RBM的图像重构方法,其大大降低训练和推导的计算复杂度,在训练和测试过程中保持了2D矩阵数据中的空间信息同时在重构过程中得到良好的效果,可以应用于更复杂的数据结构。该方法包括步骤:(1)训练阶段:给定低分辨率图像的输入特征Z=(Z1,Z2,Z3,Z4),先用类似于插值方法的任何一个单图像高分辨率算法得到高分辨率图像块X的估计值X0,根据公式(19),进行参数计算;(2)图像重建阶段:对给定低分辨率图像得到低分辨率对应的4个特征,利用步骤(1)训练好的参数对给定低分辨率图像进行高分辨率重建,用重建的高分辨率图像和给定低分辨率图像进行信息融合。
Description
技术领域
本发明属于计算机视觉的技术领域,具体地涉及一种基于矩阵变量RBM的图像重构方法。
背景技术
布尔斯曼机Boltzmann Machine(BM)是一种重要的随机神经网络,由Hinton和Sejnowski在1985年提出。但由于传统的布尔斯曼机变量单元没有连接关系的约束导致不能有效的在机器学习中得到应用。为了构建一个可以应用于实际的模型,Hinton提出了一个称为限制布尔斯曼机的模型结构,在这个模型中,仅仅可见层单元和隐含层单元之间存在连接关系。
当隐含层和可见层单元之间受到限制时,RBM(Restricted Boltzmann Machine,受限布尔斯曼机)模型可以被看成拥有二值变量的概率模型。最近几年,RBMs由于其强大的特征提取和表达能力,已经广泛应用于模式识别和机器学习领域。
给定一些训练数据,训练RBM模型的目标就是学习可见层和隐含层直接的权值,使得由RBM表示的概率分布尽可能适应于所有的训练样本。一个训练好的RBM模型可以根据训练数据得到的概率分布提供输入数据有效的表示。
经典的RBM模型主要描述的是基于向量形式的输入数据或变量。然而,来源于现代科技中的数据更多的是较为一般的结构。比如,数字图像就是2维矩阵,矩阵中包含了空间信息。为了是经典的RBM可以应用到诸如2D图像的数据,传统的方法就是把2D数据向量化处理。但不幸的是,这样处理不仅破坏了高价图像内部结构,导致损失了结构中隐藏的交互信息,而且由于可见层和隐含层之间的全连接,导致了模型参数的增加。
发明内容
本发明的技术解决问题是:克服现有技术的不足,提供一种基于矩阵变量RBM的图像重构方法,其大大降低训练和推导的计算复杂度,在训练和测试过程中保持了2D矩阵数据中的空间信息同时在重构过程中得到良好的效果,可以应用于更复杂的数据结构。
本发明的技术解决方案是:这种基于矩阵变量RBM的图像重构方法,该方法包括以下步骤:
(1)训练阶段:给定低分辨率图像的输入特征Z=(Z1,Z2,Z3,Z4),先用类似于插值方法的任何一个单图像高分辨率算法得到高分辨率图像块X的估计值X0,根据公式(19),进行参数计算
其中为五个二进制可见层矩阵变量,为二进制隐含层矩阵变量,分别为X和Y的二进制取值空间,为模型权值矩阵;
(2)图像重建阶段:对给定低分辨率图像得到低分辨率对应的4个特征,利用步骤(1)训练好的参数对给定低分辨率图像进行高分辨率重建,用重建的高分辨率图像和给定低分辨率图像进行信息融合。
本发明需要学习的模型参数少于经典RBMs,因此训练和推导的计算复杂度有明显的减少;可见层和隐含层都是矩阵形式,因此在训练和测试过程中保持了2D矩阵数据中的空间信息同时在重构过程中得到良好的效果;本发明可以很容易的拓展到任何阶数的张量数据,因此可以应用于更复杂的数据结构。
附图说明
图1示出了经典的RBM模型。
图2示出了本发明的RBM模型。
具体实施方式
这种基于矩阵变量RBM的图像重构方法,该方法包括以下步骤:
(1)训练阶段:给定低分辨率图像的输入特征Z=(Z1,Z2,Z3,Z4),先用类似于插值方法的任何一个单图像高分辨率算法得到高分辨率图像块X的估计值X0,根据公式(19),进行参数计算
其中为五个二进制可见层矩阵变量,为二进制隐含层矩阵变量,分别为X和Y的二进制取值空间,为模型权值矩阵;
(2)图像重建阶段:对给定低分辨率图像得到低分辨率对应的4个特征,利用步骤(1)训练好的参数对给定低分辨率图像进行高分辨率重建,用重建的高分辨率图像和给定低分辨率图像进行信息融合。
本发明需要学习的模型参数少于经典RBMs,因此训练和推导的计算复杂度有明显的减少;可见层和隐含层都是矩阵形式,因此在训练和测试过程中保持了2D矩阵数据中的空间信息同时在重构过程中得到良好的效果;本发明可以很容易的拓展到任何阶数的张量数据,因此可以应用于更复杂的数据结构。
优选地,所述步骤(1)包括以下分步骤:
(1.1)定义矩阵型训练样本集
最大迭代次数T,学习率,权值正则项,每组训练样本数,CD算法K步;
(1.2)随机初始化U和V,令B=C=0随机梯度ΔU=ΔV=ΔB=ΔC=0;
(1.3)迭代步数t=1→T进行;
(1.4)随机将分成M组大小为b;
(1.5)组m=1→M进行;
(1.6)对所有数据在当前模型参数下进行吉布斯采样
(1.7)k=0→K-1进行;
(1.8)根据公式(9)对样本Y(k)进行采样
p(Y=1|X;Θ)=σ(UXVT+C) (9);
(1.9)根据公式(8)对样本进行采样
p(X=1|Y;Θ)=σ(UTYV+B)(8);
(1.10)根据公式(20)进行梯度的更新
(1.11)根据公式θ=θ+Δθ更新模型参数θ∈Θ;
(1.12)结束
其中为五个二进制可见层矩阵变量,为二进制隐含层矩阵变量,Θ表示所有的模型参数U0,V0,U1,V1,U2,V2,U3,V3,U4,V4,A1,A2,A3,A4,B和C,归一化常量Z(Θ)定义为其中表示X和Y的二进制取值空间为模型权值矩阵,为可见层和隐含层对应的偏置矩阵。
优选地,最大迭代次数T为10000,学习率为0.05,权值正则项为0.01,每组训练样本数为100,CD算法K步为1步。
优选地,所述训练样本大小为30。
现在更详细地说明本发明。
1模型定义
经典的RBM[8,13]是一个二值化的向量模型,输入和隐含层都是向量形式。模型如图1,可见层单元(立方体)和隐含层(圆柱)单元为全连接形式。
RBM的能量函数模型为:
E(x,y;Θ)=-xTWy-bTx-cTy (1)
其中,是二进制的可见层单元和隐含层单元,为偏置,代表神经网络中可见层和隐含层的连接权。Θ={b,c,w}为模型参数。
为了介绍本发明的MVRBM,定义如下符号。定义为二进制可见层矩阵变量,为二进制隐含层矩阵变量。假设独立随机变量xij和ykl从{0,1}中取值。为四阶张量参数,偏置矩阵为和定义了如下能量函数。
(2)
其中为模型参数。Θ中一共有I×J×K×L+I×J+K×L个自由参数。即使在I,J,K,L很小时Θ也将是一个很大的数,这样就会需要大量的训练样本和很长的时间。为了减少自由参数的输了和节省计算复杂度,假定隐含层单元和可见层单元的连接权值有如下关系:wijkl=ukivlj。通过定义两个新的矩阵和可以把能量函数(2)改写为如下形式,
E(X,Y)=-tr(UTYVXT)-tr(XTB)-tr(YTV) (3)
矩阵U和V共同的定义了输入矩阵X和隐含矩阵Y的连接权,这样,公式(2)中Θ的自由参数减少为公式(3)中I×K+L×J+I×J+K×L。
基于公式(3),定义如下分布:
Θ表示所有的模型参数U,V,B和C。归一化常量Z(Θ)定义为
其中表示X和Y的二进制取值空间。
公式(4)中的概率模型为矩阵变量RBM(MVRBM)。模型如图2。
为了便于说明MVRBM的学习算法,对于可见单元和隐含单元的条件概率密度提出了如下引理
引理1.MVRBM模型由公式(3)(4)定义。每一个可见层单元的条件概率密度为
每一个隐含层单元的条件概率密度为
式中σ是S型函数σ(x)=1/(1+e-x)
应用矩阵表示,两个条件概率可以写为:
p(X=1|Y;Θ)=σ(UTYV+B) (8)
p(Y=1|X;Θ)=σ(UXVT+C) (9)
最大似然函数和对于MVRBM的CD算法
对于给定样本集在公式(4)联合分布下,的对数似然函数定义为
对于Θ中任意元素θ,我们可以证明
称(10)式等号右面的第一项为数据扩展项,第二项为模型扩展项。
计算似然函数梯度最主要的问题是计算模型扩展项。因为模型扩展项要对可见层和隐含层所有的状态进行加和。然而,CD算法允许通过一个较短的马尔科夫链实现近似计算。CD算法的主要思想是通过样本集中的一个样本作为吉布斯链的初始值CD-k算法利用第k步的样本作为模型扩展项的近似。
将(11)带入(10),我们可以得到基于CD算法的近似:
对于MVRBM的所有4类参数,仅计算作为例子,其他参数的计算以此类推。从(3)式,得到
由此,公式(12)变为
对于二进制变量Y(Y'),因为
对(13)式,有
同理,对其他参数可以得到
多模式的MVRBM
真实世界中的信息往往来自于多个通道。例如,在图像高分辨率重构中,低分辨率图像往往和不用类型的特征相关联。
假设可见层由两个独立矩阵构成
能量模型为
E(X,Y,Z)=-tr(UTYVXT)-tr(XTB)-tr(YTC) (18)
-tr(QTYVZT)-tr(ZTA)
联合分布为
为了验证本文提出的MVRBM算法的有效性,本文进行了高分辨率重建实验。训练数据我们从69个自然图像中随机选择10000个图像块。69个彩色图像可以从如下网址下载到:http://decsai.ugr.es/cvg/dbimagenes/.
每一个训练样本包含一个高分辨率图像块X(从YCbCr彩色空间中选择光照Y通道所得图像)和4个低分辨率图像块。4个低分辨率图像块分别是图像在Y通道上x-,y-,xx-和yy-方向上的导数,记作Z1,Z2,Z3和Z4。所以我们的可见层有5个矩阵块(X,Z1,Z2,Z3和Z4)。能量函数可以由公式18的扩展公式(19)得到。
从图像库中选择N个训练样本,记作实验中,随机选择N=10000训练样本块,样本块的大小分别为10×10,15×15,20×20,30×30和35×35,所有的比例因为均为2。隐含层固定大小为20。
用大小256×256为Lena图像做高分辨率图像,改变不同的训练样本块大小,得到的高分辨率重构结果如表1。
表1
从表1可以看出,重构效果都较好,但不同尺寸的训练图像块对重构效果有一定的影响。所以一般图像的重建,可以选择固定训练图像块大小为30。
本发明和其他的一些方法对于Lena图像的高分辨率重建做了一些对比。试验中,选择训练样本块大小为15×15,隐含层大小为20×20。输入低分辨率图像大小为256×256。本方法的PSNR为35:3006dB,大大高于双三次插值的方法的34:1282dB。本方法同时也和最好的方法进行比较,基于稀疏表示的高分辨率重构方法(Super-resolution via SparseRepresentation(SR)),本方法PSNR虽然稍微低一点,但重建时间要提高很多,需要的重建时间远远小于SR方法。更多实验结果见表2。
Image | PSNR-Bicubic | PSNR-SR | PSNR-MVRBM | Times-SR | Times-MVRBM |
athens | 33.2333 | 34.7536 | 34.4948 | 555.453 | 35.234 |
anhinga | 29.2949 | 30.4464 | 30.2720 | 344.539 | 35.348 |
avion | 32.5751 | 34.0530 | 34.2227 | 665.507 | 34.883 |
baboon | 24.9455 | 25.7033 | 25.6939 | 390.406 | 35.272 |
bardowl | 30.5270 | 31.5791 | 31.4910 | 690.322 | 34.975 |
barnfall | 30.8737 | 32.0302 | 31.9782 | 567.408 | 34.825 |
beeflowr | 34.6839 | 35.6362 | 35.3203 | 511.712 | 35.143 |
bird | 34.5184 | 36.5409 | 36.2514 | 748.225 | 35.196 |
blakeyed | 31.7163 | 33.6690 | 32.8534 | 325.29 | 35.429 |
blueeye | 35.2188 | 36.3957 | 36.1106 | 786.426 | 34.856 |
bluheron | 35.2707 | 36.4046 | 36.1540 | 687.551 | 35.475 |
bobcat | 33.1525 | 34.2699 | 34.1001 | 590.128 | 35.084 |
表2
经过对每个训练样本进行模型MMVRBM的训练,用以下步骤实现高分辨率重建。
1.训练阶段:
给定低分辨率图像的输入特征Z=(Z1,Z2,Z3,Z4),先用类似于插值方法的任何一个单图像高分辨率算法得到高分辨率图像块X的估计值X0,根据公式(19),进行参数计算。
M-MVRBM的CD-K算法1
2.高分辨率重建阶段:
步骤一、给定低分辨率图像,可以得到低分辨率对应的4个特征;
步骤二、利用训练好的MMVRBM的参数,对输入的低分辨率图像进行高分辨率重建;
步骤三、用重建的高分辨率图像和已有原始低分辨率图像进行信息融合。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。
Claims (1)
1.一种基于矩阵变量RBM的图像重构方法,其特征在于,该方法包括以下步骤:
(1)训练阶段:给定低分辨率图像的输入特征Z=(Z1,Z2,Z3,Z4),先用插值方法的任何一个单图像高分辨率算法得到高分辨率图像块X的估计值X0,根据公式(19),进行参数计算
其中和为五个二进制可见层矩阵变量,为二进制隐含层矩阵变量,分别为X和Y的二进制取值空间,U1,U2,U3,V1,V2,V3,为模型权值矩阵;
(2)图像重建阶段:对给定低分辨率图像得到低分辨率对应的4个特征,利用步骤(1)训练好的参数对给定低分辨率图像进行高分辨率重建,用重建的高分辨率图像和给定低分辨率图像进行信息融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510994139.7A CN106408512B (zh) | 2015-12-25 | 2015-12-25 | 一种基于矩阵变量rbm的图像重构方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510994139.7A CN106408512B (zh) | 2015-12-25 | 2015-12-25 | 一种基于矩阵变量rbm的图像重构方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106408512A CN106408512A (zh) | 2017-02-15 |
CN106408512B true CN106408512B (zh) | 2019-08-16 |
Family
ID=58007539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510994139.7A Active CN106408512B (zh) | 2015-12-25 | 2015-12-25 | 一种基于矩阵变量rbm的图像重构方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106408512B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408692A (zh) * | 2014-11-25 | 2015-03-11 | 南京信息工程大学 | 一种基于深度学习的图像模糊模型参数分析方法 |
CN104899830A (zh) * | 2015-05-29 | 2015-09-09 | 清华大学深圳研究生院 | 一种图像超分辨方法 |
-
2015
- 2015-12-25 CN CN201510994139.7A patent/CN106408512B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408692A (zh) * | 2014-11-25 | 2015-03-11 | 南京信息工程大学 | 一种基于深度学习的图像模糊模型参数分析方法 |
CN104899830A (zh) * | 2015-05-29 | 2015-09-09 | 清华大学深圳研究生院 | 一种图像超分辨方法 |
Non-Patent Citations (1)
Title |
---|
受限波尔兹曼机;张春霞 等;《工程数学学报》;20150430;第32卷(第2期);第159-173页 |
Also Published As
Publication number | Publication date |
---|---|
CN106408512A (zh) | 2017-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Salvador et al. | Naive bayes super-resolution forest | |
Zhang et al. | Learning deep CNN denoiser prior for image restoration | |
Van den Oord et al. | Conditional image generation with pixelcnn decoders | |
CN109035142B (zh) | 一种对抗网络结合航拍图像先验的卫星图像超分辨方法 | |
CN108241854B (zh) | 一种基于运动和记忆信息的深度视频显著性检测方法 | |
CN111767979A (zh) | 神经网络的训练方法、图像处理方法、图像处理装置 | |
CN108038435B (zh) | 一种基于卷积神经网络的特征提取与目标跟踪方法 | |
Huang et al. | Deep hyperspectral image fusion network with iterative spatio-spectral regularization | |
Su et al. | Global learnable attention for single image super-resolution | |
Liu et al. | Deep adaptive inference networks for single image super-resolution | |
CN108268890A (zh) | 一种高光谱图像分类方法 | |
Chen et al. | Persistent memory residual network for single image super resolution | |
Wei et al. | A-ESRGAN: Training real-world blind super-resolution with attention U-Net Discriminators | |
CN109300128A (zh) | 基于卷积神经网隐含结构的迁移学习图像处理方法 | |
Salem et al. | Semantic image inpainting using self-learning encoder-decoder and adversarial loss | |
CN109977989A (zh) | 一种图像张量数据的处理方法 | |
Xia et al. | Meta-learning-based degradation representation for blind super-resolution | |
Huang et al. | A deep dictionary model for image super-resolution | |
CN112884648A (zh) | 多类模糊图像超分辨率重建的方法和系统 | |
CN117788629B (zh) | 一种具有风格个性化的图像生成方法、装置及存储介质 | |
CN116168197A (zh) | 一种基于Transformer分割网络和正则化训练的图像分割方法 | |
Ding et al. | Towards transmission-friendly and robust cnn models over cloud and device | |
CN114581918A (zh) | 一种文本识别模型训练方法及装置 | |
Liang et al. | Single image super-resolution via a lightweight residual convolutional neural network | |
Rajaram et al. | Learning-based nonparametric image super-resolution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |