CN108932705B - 一种基于矩阵变量变分自编码器的图像处理方法 - Google Patents

一种基于矩阵变量变分自编码器的图像处理方法 Download PDF

Info

Publication number
CN108932705B
CN108932705B CN201810675121.4A CN201810675121A CN108932705B CN 108932705 B CN108932705 B CN 108932705B CN 201810675121 A CN201810675121 A CN 201810675121A CN 108932705 B CN108932705 B CN 108932705B
Authority
CN
China
Prior art keywords
matrix
model
image
variable
mvvae
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810675121.4A
Other languages
English (en)
Other versions
CN108932705A (zh
Inventor
李敬华
闫会霞
孔德慧
王立春
尹宝才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201810675121.4A priority Critical patent/CN108932705B/zh
Publication of CN108932705A publication Critical patent/CN108932705A/zh
Application granted granted Critical
Publication of CN108932705B publication Critical patent/CN108932705B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开一种基于矩阵变量变分自编码器进行图像处理的方法,能够解决图像向量化处理破坏空间结构的问题,进而利于图像重构、去噪和补全。与传统VAE不同的是,本方法用图像的固有表示形式‑2D矩阵来描述模型的输入、隐层特征、潜变量分布特征参数等,通过利用矩阵高斯分布的定义及相关性质推导新模型的目标函数的显式表达,然后利用随机梯度下降算法求解模型参数。在这个模型中,由于本发明涉及的建模过程都是面向矩阵变量的,因此能更好的建模图像数据的空间结构和统计信息,进而可以提升图像重构质量、更好去除噪声和图像补全。

Description

一种基于矩阵变量变分自编码器的图像处理方法
技术领域
本发明属于计算机视觉与机器学习领域,尤其涉及一种基于矩阵变量变分自编码器的图像处理方法。
背景技术
图像重构、去噪和补全是图像处理的重要内容,变分自编码器(VariationalAutoencoder,VAE)因其能很好的建模图像数据的概率分布,所以广泛的应用于图像处理相关领域。VAE通常由一个推理模型(编码器)和一个生成模型(解码器)组成,模型的目标函数包含两项:一是图像的重构误差,一般使用均方误差或交叉熵来度量;另一个是Kullback-Leibler(KL)散度,用来衡量基于推理模型学到的特征潜变量的后验与对特征假设的先验分布之间的相似度,相当于一个正则化项。
由于VAE能够建模特征潜变量的统计分布,因此当在该分布中进行随机采样并通过解码器解码时,能够生成与原始数据类似的样本,因此可去除噪声或对缺失图像补全。但是目前的VAE方法的一个缺陷:是建模向量变量的,当用于处理图像数据时,需要先将其数据进行向量化处理,一方面可能带来维度灾难,另一方面向量化的处理必然会破坏图像数据的空间结构,造成大量的局部空间信息的丢失。
发明内容
本发明要解决的技术问题是,提供一种基于矩阵变量变分自编码器(Matrix-variate Variational Autoencoder,MVVAE)进行图像处理的方法,能够解决图像向量化处理破坏空间结构的问题,进而利于图像重构、去噪和补全。与传统VAE不同的是,本方法用图像的固有表示形式-2D矩阵来描述模型的输入、隐层特征、潜变脸分布特征参数等,通过利用矩阵高斯分布的定义及相关性质推导新模型的目标函数的显式表达,然后利用随机梯度下降算法求解模型参数。在这个模型中,由于本发明涉及的建模过程都是面向矩阵变量的,因此能更好的建模图像数据的空间结构和统计信息,进而可以提升图像重构质量、更好去除噪声和图像补全。
附图说明
图1矩阵变量变分自编码器模型;
图2不同潜变量维度下MVVAE和VAE对MNIST数据集重构效果的比较;图3不同隐变量维度下MVVAE和VAE对MNIST数据集重构效果的比较;
图4使用VAE模型和MVVAE模型对图像进行去噪效果的对比;
图5对缺失图像进行补全效果对比。
具体实施方式
本发明提供一种基于矩阵变量变分自编码器(Matrix-variate VariationalAutoencoder,MVVAE)进行图像处理的方法,
假设有N个独立同分布的图像集
Figure BDA00017093400700000212
每个图像表示为
Figure BDA0001709340070000021
即输入样本的大小为I×J的二维矩阵。本发明旨在建模图像集的统计分布logpθ(X),进而有效的进行图像的重构、去噪和补全。对图像的建模过程是基于本发明所提出的MVVAE网络,所以核心是建模该网络,训练得到网络模型的参数。
为实现上述目的,本发明采用如下的技术方案:
1.面向图像集分布建模的MVVAE模型的定义
MVVAE模型定义,如图1所示,
在该模型中
Figure BDA0001709340070000022
是输入层矩阵变量,对应的是输入图像的矩阵表示,I和J分别代表输入图像数据的行列维度的大小。
Figure BDA0001709340070000023
为隐藏层矩阵变量,对应的是基于模型提取的输入图像的特征,C和D分别代表隐藏层特征矩阵行列维度的大小。
Figure BDA0001709340070000024
Figure BDA0001709340070000025
Figure BDA0001709340070000026
分别为输入图像对应的潜变量的均值、行协方差和列协方,它们是对隐层特征H的进一步统计描述。
Figure BDA0001709340070000027
为潜在矩阵变量,N和P分别代表潜在层矩阵行列维度的大小,Z从特征H的统计分布中采样得到。同样地,解码器的矩阵变量
Figure BDA0001709340070000028
重构
Figure BDA0001709340070000029
它们的行和列维度分别与编码器特征H和输入图像矩阵变量X相对应。
矩阵变量变分自编码器模型中除潜变量层外,每一层都是基于多层感知机神经网络,编码器的参数为
Figure BDA00017093400700000210
解码器的参数为
Figure BDA00017093400700000213
这些参数是我们在模型训练过程中要求解的。
MVVAE网络模型的目标函数定义如下:
假设有N个图像
Figure BDA00017093400700000214
该模型假设每个样本X由一个未观测变量
Figure BDA00017093400700000211
生成,θ为网络中生成模型的参数,并且该模型引入变分思想,即使用一个后验概率
Figure BDA00017093400700000215
来近似潜在变量的真正后验分布pθ(Z|X),而近似的后验概率
Figure BDA00017093400700000216
使用网络的推理模型来实现,
Figure BDA00017093400700000217
为网络中推理模型的参数。则每个样本的边缘似然可以表示为:
Figure BDA0001709340070000031
通过上述变分推理,可以求出边缘似然logpθ(X)的紧致下界,它主要包含两项:第一项为重构误差;第二项为KL散度,衡量的是基于推理模型学到的特征潜变量的后验与对特征假设的先验分布之间的相似度,并且当近似的后验概率
Figure BDA0001709340070000034
与真正的后验概率pθ(Z|X)越相近,则变分下界
Figure BDA0001709340070000035
与边缘似然logpθ(X)之间的差距越小。因此该模型是通过不断求解下界的极大化逼近近似对数似然函数极大化的算法。
2.MVVAE模型的参数求解算法
从公式(1)可以看出,目标函数主要分为两项:第一项
Figure BDA0001709340070000036
为重构误差。第二项为
Figure BDA0001709340070000037
衡量的是基于推理模型学到的特征潜变量的后验与对特征假设的先验分布之间的相似度,相当于一个正则项。下面本发明从矩阵变量概率分布及性质定义出发,对这两项进行分别求解以给出显示的表示。
Figure BDA0001709340070000038
进行求解。
假设MVVAE模型中的潜在变量Z的先验pθ(Z)服从均值为O,协方差为单位阵的标准矩阵高斯分布,即:
Figure BDA0001709340070000039
则近似的后验概率
Figure BDA00017093400700000310
必然服从矩阵高斯分布,即:
Figure BDA00017093400700000311
其中
Figure BDA00017093400700000312
为模型中潜变量的均值,
Figure BDA00017093400700000313
Figure BDA00017093400700000314
分别为潜变量的行协方差和列协方差,特别地,M,U,V参数通过神经网络的编码器学习得到,如图1所示。
按照KL散度的定义,将
Figure BDA00017093400700000315
展开,得:
Figure BDA0001709340070000032
根据矩阵高斯分布的性质,可得:
Figure BDA0001709340070000033
以及:
Figure BDA0001709340070000041
因此,公式(2)可以表示为:
Figure BDA0001709340070000042
其中,tr(·)表示矩阵的迹运算,|·|表示矩阵的行列式。
在矩阵高斯分布中约束行协方差U和列协方差V都为正定矩阵,根据正定矩阵的性质,可以进一步得到:
Figure BDA0001709340070000043
Figure BDA0001709340070000046
进行求解。
在矩阵变量变分自编码器中编码器和解码器都是基于神经网络的,在本发明中使用最广泛应用的多层感知器(multi-layered perceptrons,MLPs)。该模型中重构误差的损失函数与AE类似,它有多种选择,主要依赖于输入数据的类型。
1)当输入样本图像是二值的,即输入层的每个神经元只能取0或1,那么编码器的输出一般假设其服从伯努利分布,则损失函数通常由负交叉熵来定义:
Figure BDA0001709340070000044
Figure BDA0001709340070000045
其中,xij为输入矩阵变量X的某一元素值,yij为相对应的输出矩阵变量Y的一个元素值。首先,输入样本X经过编码器得到潜在变量Z,然后潜在变量Z经过解码器输出生成样本Y,fσ(·)是一个sigmoid激活函数,
Figure BDA0001709340070000047
是MLP的权重和偏置。
2)而对于实值的神经网络,即输入是任意图像,则编码器的输出一般假设其服从矩阵高斯分布,高斯分布参数
Figure BDA0001709340070000048
为通过解码器输出的重构图像矩阵Y的均值,
Figure BDA0001709340070000049
Figure BDA00017093400700000410
分别为重构图像Y的行协方差和列协方差,M*,U*,V*均是通过MLPs学习得到,则用对数矩阵高斯分布定义损失函数,即:
Figure BDA0001709340070000051
这里,
Figure BDA0001709340070000052
Figure BDA0001709340070000053
以及
Figure BDA0001709340070000054
Figure BDA0001709340070000055
其中,
Figure BDA0001709340070000056
是MLPs的权重和偏置。
3.MVVAE模型的训练
采用批处理方式来训练模型,具体的,将所有的训练图像集随机的分为若干子集,设置每个子集包含的样本个数为B,即每次输入图像集的大小为
Figure BDA0001709340070000059
训练过程包括:首先定义网络每层节点维度的大小,并对网络权重进行随机初始化,然后使用随机梯度下降算法(SGD)对变分下界
Figure BDA00017093400700000510
中的参数
Figure BDA00017093400700000511
和θ进行联合的优化,直到模型收敛为止。下面介绍训练过程中所需的两种技巧。
1)重参数化技巧
在MVVAE中一般使用随机梯度下降算法(SGD)对变分下界
Figure BDA00017093400700000512
中的参数
Figure BDA00017093400700000513
和θ进行联合的优化。而通过公式(1)可以看出,该变分下界
Figure BDA00017093400700000514
的第一项
Figure BDA00017093400700000515
为近似的后验概率
Figure BDA00017093400700000516
条件下logpθ(X|Z)的期望,与参数
Figure BDA00017093400700000517
是有关的,因此参数
Figure BDA00017093400700000518
的梯度是及其难求的。因此使用重参数化技巧来优化变分下界
Figure BDA00017093400700000519
即引入一个随机噪声∈,并且
Figure BDA00017093400700000520
Ir,Ic分别为行协方差和列协方差,两个协方差都为单位矩阵。则变分下界可以被重写为:
Figure BDA0001709340070000057
其中,L代表采样的次数,
Figure BDA0001709340070000058
2)权重分解技巧
在MVVAE模型中,编码器每层之间的连接权重
Figure BDA00017093400700000521
和解码器每层之间的连接权重
Figure BDA00017093400700000522
都是四阶张量的形式,因此为了减少模型的自由度参数的数量从而降低模型复杂度和训练时间,借鉴Tucker分解的思想,采用自定义张量分解的形式,对权重进行分解。如对于连接可见层X和隐层H的四阶张量的权重参数
Figure BDA0001709340070000061
来说,通过定义两种新的矩阵
Figure BDA0001709340070000062
Figure BDA0001709340070000063
Figure BDA0001709340070000064
对连接权重
Figure BDA0001709340070000065
进行分解,即:
Figure BDA0001709340070000066
则隐层矩阵变量为:
Figure BDA0001709340070000067
Figure BDA0001709340070000068
同样对于其它层之间的四阶张量连接权重
Figure BDA0001709340070000069
Figure BDA00017093400700000610
也采用同样的方式进行分解。
4.基于MVVAE模型的图像处理
当MVVAE模型收敛之后,可以得到优化的编码器参数
Figure BDA00017093400700000611
和解码器参数
Figure BDA00017093400700000612
然后将测试集的图像
Figure BDA00017093400700000613
输入到模型中,通过该网络,可以重构出相应的图像Y。
本发明主要用于图像重构、图像去噪和图像补全。
当用于图像重构时,使用变分下界来衡量重构误差,如公式(10)所示。特别地,变分下界的值越大,则说明重构的样本图像越接近原图像。
Figure BDA00017093400700000614
当用于图像去噪和补全时,先对测试图像加入噪声或者部分遮挡,然后输入到训练好的MVVAE模型中,通过该网络,可以重构出相应的干净图像。使用峰值信噪比(PSNR)、归一化均方误差(NMSE)和结构相似性(SSIM)对重构效果进行客观评价。
本发明在公开的数据集上进行实验,并通过与向量变量自编码器(VAE)的对比,来验证本发明在图像重构、图像去噪和图像补全问题上的优越性。实验主要分为两大部分,第一个是进行图像重构实验,旨在验证MVVAE模型能够很好的重构图像。第二个主要是进行图像去除噪声和对缺失图像的补全实验,旨在验证MVVAE能更好地建模观测变量的统计分布信息,并且样本点的各维度之间存在相关性,当部分维度缺失时,可以通过相关信息得到填补。
本发明所用实验数据集如下:
MNIST Database:该数据库包括10个数字类别(0~9)的60000个训练样本和10000个测试样本,每个样本由28×28的像素组成,将每个像素的值归一化为[0,1]之间。
Yale Database:该数据库是在不同的光照和表情下获取的人脸图像,包括15个人,每个人11幅图像(共165幅)。本发明中随机选取每个人的8幅图像作为训练样本(共120幅),剩余的图像作为测试样本,将每个样本下采样到64×64,并且进行了灰度化处理,然后再将图像的灰度值标准化到[0,1]之间。
实验1:在MNIST数据集MVVAE模型的图像重构效果评价
首先,进行图像的重构对比实验。探讨在MVVAE模型和VAE模型中不同潜在变量维度大小和不同隐藏层变量维度大小下对MNIST重构误差的影响。因为该实验涉及两个变量维度的改变,所以采用控制变量法的原理,先固定隐藏层变量的维度大小为20×20,然后改变潜在变量维度的大小,在训练过程中MVVAE模型和VAE模型使用相同的神经网络结构,重构效果如图2所示。
从图中可以看出,潜在变量维度大小在10×10以内,通过不断的增大潜在矩阵变量维度的大小,则变分下界不断变大,说明重构效果较好。但是如果潜在变量维度大小增大到15×15,则重构效果反而会下降,这可能跟隐层节点维度有关,当隐层节点维度固定时,无限制的增大潜在变量节点维度,模型的重构性能不一定更优。通过MVVAE模型(实线)和VAE模型(虚线)重构效果的对比,则MVVAE重构的效果更好。
下面,固定潜在变量维度的大小为10×10,然后改变隐藏层变量维度的大小,重构效果如图3所示。从图中可以看出,当不断地增大隐藏层变量的维度大小时,变分下界逐渐升高,当隐层变量维度增大至30×30时,与隐藏层变量维度为20×20变分下界的值持平,即达到相近的重构的效果。因此在MNIST数据集的实验中,选择隐层节点维度大小为20×20,潜在层节点维度大小为10×10。
从图中可以看出,MVVAE模型比VAE模型展示出了更好的重构效果,这是因为MVVAE模型的输入层、隐藏层和潜在变量层均为矩阵变量形式,更好的保留了2D矩阵数据的内部空间结构。
实验2:基于MVVAE的图像去噪和缺失图像补全效果评价
为了验证MVVAE模型可以从数据中学习到概率统计分布信息,进行了图像去除噪声和对缺失数据进行填补实验。首先进行去除噪声实验,从MNIST训练集中选出5000张数字为9的样本进行训练,设置隐藏层矩阵变量的大小为20×20,潜在层矩阵变量的大小为10×10,学习率为0.0001,梯度下降率为0.00001,批处理的块大小为100,迭代次数均为10次。在测试集中选择1000张数字为9的样本随机加入10%的椒盐噪声,然后分别使用MVVAE模型和VAE模型进行去噪。原始测试图像如图4(a)所示,增加噪声的测试图像如图4(b)所示,其对应的用VAE模型去除噪声图像如图4(c)所示,用MVVAE模型去除噪声图像如图4(d)所示。
可以看出,VAE模型重建结果比较模糊,而MVVAE模型重建结果更清晰。同时使用峰值信噪比(PSNR)和归一化均方误差(NMSE)对VAE模型和MVVAE模型重构效果进行客观评价,如表1所示。可以看出MVVAE模型的PSNR较高并且NMSE较低,说明使用MVVAE模型重构的图像失真较小,更接近原图像。
表1 VAE模型和MVVAE模型对MNIST图像进行去噪的客观评价
Figure BDA0001709340070000081
其次,对缺失数据的进行补全实验。这一实验主要是在Yale和AR数据库上进行测试,对比的方法为MVVAE算法和VAE算法。首先使用Yale人脸的训练图像分别训练两个模型,然后在测试图像上加入随机噪声遮挡块,遮挡块的大小为20×20。因为样本点的各维度之间存在相关性,所以当部分维度缺失时,可以通过相关信息得到填补,两个模型的重构效果如图5所示。
可以看出,使用VAE模型补全的人脸图像噪声点比较多,重构出的图像也比较暗。而使用MVVAE模型重构的图像比较清晰,并且亮度高,更真实。同时使用峰值信噪比(PSNR)、归一化均方误差(NMSE)和结构相似性(SSIM)对VAE模型和MVVAE模型重构效果进行客观评价,SSIM主要从亮度、对比度和结构三个方面度量图像的相似性,值越高说明重构的图像失真越小。如表2所示,可以看出MVVAE模型重构的效果更优。
表2 VAE模型和MVVAE模型对人脸图像补全的客观评价
Figure BDA0001709340070000082

Claims (2)

1.一种基于矩阵变量变分自编码器进行图像处理的方法,其特征在于,
假设有N个独立同分布的图像集
Figure FDA0003474671680000011
每个图像表示为
Figure FDA0003474671680000012
即输入样本的大小为I×J的二维矩阵,其包括以下步骤:
步骤1:面向图像集分布建模的MVVAE模型定义
在MVVAE模型中设
Figure FDA0003474671680000013
是输入层矩阵变量,对应的是输入图像的矩阵表示,I和J分别代表输入图像数据的行列维度的大小;
Figure FDA0003474671680000014
为隐藏层矩阵变量,对应的是基于模型提取的输入图像的特征,C和D分别代表隐藏层特征矩阵行列维度的大小;
Figure FDA0003474671680000015
Figure FDA0003474671680000016
Figure FDA0003474671680000017
分别为输入图像对应的潜变量的均值、行协方差和列协方,它们是对隐层特征H的进一步统计描述;
Figure FDA0003474671680000018
Figure FDA0003474671680000019
为潜在矩阵变量,N和P分别代表潜在层矩阵行列维度的大小,Z从特征H的统计分布中采样得到;解码器的矩阵变量
Figure FDA00034746716800000110
重构
Figure FDA00034746716800000111
它们的行和列维度分别与编码器特征H和输入图像矩阵变量X相对应;
MVVAE网络模型的目标函数定义如下:
假设有N个图像
Figure FDA00034746716800000112
该模型假设每个样本X由一个未观测变量
Figure FDA00034746716800000113
生成,θ为网络中生成模型的参数,并且该模型引入变分思想,即使用一个后验概率
Figure FDA00034746716800000114
来近似潜在变量的真正后验分布pθ(Z|X),而近似的后验概率
Figure FDA00034746716800000115
使用网络的推理模型来实现,
Figure FDA00034746716800000116
为网络中推理模型的参数;则每个样本的边缘似然可以表示为:
Figure FDA00034746716800000117
步骤2、MVVAE模型的参数求解算法
从公式(1)可以看出,目标函数主要分为两项:第一项
Figure FDA00034746716800000118
为重构误差,第二项为
Figure FDA00034746716800000119
衡量的是基于推理模型学到的特征潜变量的后验与对特征假设的先验分布之间的相似度,从矩阵变量概率分布及性质定义出发,对这两项进行分别求解以给出显式的表示;
步骤3、MVVAE模型的训练
将所有的训练图像集随机的分为若干子集,设置每个子集包含的样本个数为B,即每次输入图像集的大小为
Figure FDA0003474671680000021
训练过程包括:首先定义网络每层节点维度的大小,并对网络权重进行随机初始化,然后使用随机梯度下降算法(SGD)对变分下界
Figure FDA0003474671680000022
中的参数
Figure FDA0003474671680000023
和θ进行联合的优化,直到模型收敛为止;
步骤4、基于MVVAE模型的图像处理
当MVVAE模型收敛之后,可以得到优化的编码器参数
Figure FDA0003474671680000024
和解码器参数
Figure FDA0003474671680000025
然后将测试集的图像
Figure FDA0003474671680000026
输入到模型中,通过该网络,可以重构出相应的图像Y。
2.如权利要求1所述的基于矩阵变量变分自编码器进行图像处理的方法,其特征在于,步骤2中:
Figure FDA0003474671680000027
进行求解:
假设MVVAE模型中的潜在变量Z的先验pθ(Z)服从均值为O,协方差为单位阵的标准矩阵高斯分布,即:
Figure FDA0003474671680000028
则近似的后验概率
Figure FDA0003474671680000029
必然服从矩阵高斯分布,即:
Figure FDA00034746716800000210
其中
Figure FDA00034746716800000211
为模型中潜变量的均值,
Figure FDA00034746716800000212
Figure FDA00034746716800000213
分别为潜变量的行协方差和列协方差,
按照KL散度的定义,将
Figure FDA00034746716800000214
展开,得:
Figure FDA00034746716800000215
根据矩阵高斯分布的性质,可得:
Figure FDA00034746716800000216
以及:
Figure FDA00034746716800000217
因此,公式(2)可以表示为:
Figure FDA00034746716800000218
Figure FDA0003474671680000031
其中,tr(·)表示矩阵的迹运算,|·|表示矩阵的行列式,
在矩阵高斯分布中约束行协方差U和列协方差V都为正定矩阵,根据正定矩阵的性质,可以进一步得到:
Figure FDA0003474671680000032
Figure FDA0003474671680000033
进行求解:
在矩阵变量变分自编码器中编码器和解码器都是基于神经网络的,
1)当输入样本图像是二值的,即输入层的每个神经元只能取0或1,那么编码器的输出假设其服从伯努利分布,则损失函数由负交叉熵来定义:
Figure FDA0003474671680000034
Figure FDA0003474671680000035
其中,xij为输入矩阵变量X的某一元素值,yij为相对应的输出矩阵变量Y的一个元素值;首先,输入样本X经过编码器得到潜在变量Z,然后潜在变量Z经过解码器输出生成样本Y,fσ(·)是一个sigmoid激活函数,
Figure FDA0003474671680000036
是MLPs的权重和偏置;
2)而对于实值的神经网络,即输入是任意图像,则编码器的输出假设其服从矩阵高斯分布,高斯分布参数
Figure FDA0003474671680000037
为通过解码器输出的重构图像矩阵Y的均值,
Figure FDA0003474671680000038
Figure FDA0003474671680000039
分别为重构图像Y的行协方差和列协方差,M*,U*,V*均是通过MLPs学习得到,则用对数矩阵高斯分布定义损失函数,即:
Figure FDA00034746716800000310
这里,
Figure FDA00034746716800000311
Figure FDA00034746716800000312
以及
Figure FDA00034746716800000313
Figure FDA00034746716800000314
其中,
Figure FDA00034746716800000315
是MLPs的权重和偏置。
CN201810675121.4A 2018-06-27 2018-06-27 一种基于矩阵变量变分自编码器的图像处理方法 Active CN108932705B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810675121.4A CN108932705B (zh) 2018-06-27 2018-06-27 一种基于矩阵变量变分自编码器的图像处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810675121.4A CN108932705B (zh) 2018-06-27 2018-06-27 一种基于矩阵变量变分自编码器的图像处理方法

Publications (2)

Publication Number Publication Date
CN108932705A CN108932705A (zh) 2018-12-04
CN108932705B true CN108932705B (zh) 2022-05-03

Family

ID=64447277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810675121.4A Active CN108932705B (zh) 2018-06-27 2018-06-27 一种基于矩阵变量变分自编码器的图像处理方法

Country Status (1)

Country Link
CN (1) CN108932705B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993208B (zh) * 2019-03-04 2020-11-17 北京工业大学 一种有噪声图像的聚类处理方法
CN110108806B (zh) * 2019-04-04 2022-03-22 广东电网有限责任公司广州供电局 基于概率信息压缩的变压器油色谱数据表示方法
CN110458180B (zh) * 2019-04-28 2023-09-19 广东工业大学 一种基于小样本的分类器训练方法
CN111667342B (zh) * 2020-06-03 2022-05-17 南京工业大学 一种顾客发型推荐的模型
CN113642822B (zh) * 2020-12-04 2024-03-01 广东省建筑设计研究院有限公司 用于评估建筑群结构安全的基于vae的样本集指向性扩展法
CN114022442B (zh) * 2021-11-03 2022-11-29 武汉智目智能技术合伙企业(有限合伙) 一种基于无监督学习的织物疵点检测算法
CN114627196A (zh) * 2022-01-06 2022-06-14 福州大学 基于变分自动编码器的潜变量空间解耦方法
CN114640423B (zh) * 2022-01-13 2023-07-25 北京邮电大学 分布式语义信源信道联合编码传输方法及相关设备
CN116310462B (zh) * 2023-05-19 2023-08-11 浙江财经大学 一种基于秩约束自表示的图像聚类方法及装置
CN117036862B (zh) * 2023-08-21 2024-03-22 武汉纺织大学 基于高斯混合变分自编码器的图像生成方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886798A (zh) * 2017-03-10 2017-06-23 北京工业大学 基于矩阵变量的高斯分布受限玻尔兹曼机的图像识别方法
CN107679556A (zh) * 2017-09-18 2018-02-09 天津大学 基于变分自动编码器的零样本图像分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6957201B2 (en) * 1998-11-17 2005-10-18 Sofresud S.A. Controlled capacity modeling tool

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886798A (zh) * 2017-03-10 2017-06-23 北京工业大学 基于矩阵变量的高斯分布受限玻尔兹曼机的图像识别方法
CN107679556A (zh) * 2017-09-18 2018-02-09 天津大学 基于变分自动编码器的零样本图像分类方法

Also Published As

Publication number Publication date
CN108932705A (zh) 2018-12-04

Similar Documents

Publication Publication Date Title
CN108932705B (zh) 一种基于矩阵变量变分自编码器的图像处理方法
Batson et al. Noise2self: Blind denoising by self-supervision
Zhang et al. Image denoising method based on a deep convolution neural network
Zhang et al. Image restoration: From sparse and low-rank priors to deep priors [lecture notes]
Divakar et al. Image denoising via CNNs: An adversarial approach
Ranzato et al. Generating more realistic images using gated MRF's
Greff et al. Neural expectation maximization
Kavukcuoglu et al. Fast inference in sparse coding algorithms with applications to object recognition
Hou et al. Blind image quality assessment via deep learning
Cho Boltzmann machines and denoising autoencoders for image denoising
Polania et al. Exploiting restricted Boltzmann machines and deep belief networks in compressed sensing
CN112418261B (zh) 一种基于先验原型注意力机制的人体图像多属性分类方法
Hou et al. Saliency-guided deep framework for image quality assessment
Singh et al. ResDNN: deep residual learning for natural image denoising
CN111371611B (zh) 一种基于深度学习的加权网络社区发现方法及装置
Zhang et al. DRNet: A deep neural network with multi-layer residual blocks improves image denoising
Wen et al. The power of complementary regularizers: Image recovery via transform learning and low-rank modeling
CN112270650A (zh) 基于稀疏自编码器的图像处理方法、系统、介质、设备
Li et al. Matrix-variate variational auto-encoder with applications to image process
Chen et al. Removing structural noise in handwriting images using deep learning
Huang et al. A deep dictionary model to preserve and disentangle key features in a signal
CN112819822A (zh) 基于多重曲率张量稀疏分解的无参考图像清晰度评价方法
Zhang et al. SAR image despeckling based on convolutional denoising autoencoder
Wang et al. Image denoising using an improved generative adversarial network with Wasserstein distance
Yapici et al. A review of image denoising with deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant