CN109977989A - 一种图像张量数据的处理方法 - Google Patents

一种图像张量数据的处理方法 Download PDF

Info

Publication number
CN109977989A
CN109977989A CN201910042613.4A CN201910042613A CN109977989A CN 109977989 A CN109977989 A CN 109977989A CN 201910042613 A CN201910042613 A CN 201910042613A CN 109977989 A CN109977989 A CN 109977989A
Authority
CN
China
Prior art keywords
image
tensor
layer
model
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910042613.4A
Other languages
English (en)
Other versions
CN109977989B (zh
Inventor
孙艳丰
句福娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910042613.4A priority Critical patent/CN109977989B/zh
Publication of CN109977989A publication Critical patent/CN109977989A/zh
Priority to US16/735,722 priority patent/US11449965B2/en
Application granted granted Critical
Publication of CN109977989B publication Critical patent/CN109977989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2133Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on naturality criteria, e.g. with non-negative factorisation or negative correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种图像张量数据的处理方法,其能够大大降低模型中自由参数个数,权值层的限制灵活,可以适用于任意阶数的图像张量数据。这种图像张量数据的处理方法,该方法引入具有tensor train结构的受限玻尔兹曼机TTRBM模型,该方法的输入与输出数据均用张量表示,中间层的权值也用张量表示,限制权值具有Tensor Train的结构;通过调整张量Train分解的秩控制中间层中自由参数个数;调节TT分解的秩,尺寸相同的不同特征表示。

Description

一种图像张量数据的处理方法
技术领域
本发明涉及数据处理的技术领域,尤其涉及一种图像张量数据的处理方法,其能够直接应用于任意阶数的图像张量数据。
背景技术
受限玻尔兹曼机(Restricted Boltzmman Machine,RBM)是由可见层和隐含层组成的两层神经网络,由于其很强的特征表示能力,而被广泛应用到模式识别和机器学习中。传统RBM中的可见层和隐含层数据都是用向量形式表示。
然而,今天来源于实际生活中的数据常常具有高维度特性。为了在这些高维数据上应用RBM,常用的方法就是将数据向量化,向量化的过程往往会破坏高维数据中的内部结构,导致重要的关联信息丢失,或者是产生维度灾难的问题。另外,RBM是一种全连接的网络结构,随着数据维度的增长,模型中的参数将呈指数形式增长。因而需要更多的存储空间和更高的计算复杂度,这使得RBM算法不适合在普通设备或高维数据上应用。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种图像张量数据的处理方法,其能够大大降低模型中自由参数个数,权值层的限制灵活,可以适用于任意阶数的图像张量数据。
本发明的技术方案是:这种图像张量数据的处理方法,该方法引入具有 tensortrain结构的受限玻尔兹曼机TTRBM模型,该方法的输入与输出数据均用张量表示,中间层的权值也用张量表示,限制权值具有Tensor Train的结构;通过调整张量Train分解的秩控制中间层中自由参数个数;调节TT分解的秩,尺寸相同的不同特征表示。
本发明的模型输入与输出数据均用张量表示,中间层的权值也用张量表示,为了减少中间层的权值数量,发明中限制权值具有Tensor Train的结构,通过调整张量Train分解的秩控制中间层中自由参数个数,权值层的自由参数个数随着样本数据的维度呈线性增长,这样大大降低了模型中自由参数个数,权值层的限制灵活,可以适用于任意阶数的图像张量数据。
附图说明
图1展示了一部分手写数字的原图以及重构后的图像。
图2展示了FERET数据库中一些人脸图像的对比结果。
图3是本发明一个优选实施例的流程图。
具体实施方式
这种图像张量数据的处理方法,该方法引入具有tensor train结构的受限玻尔兹曼机TTRBM模型,该方法的输入与输出数据均用张量表示,中间层的权值也用张量表示,限制权值具有Tensor Train的结构;通过调整张量 Train分解的秩控制中间层中自由参数个数;调节TT分解的秩,尺寸相同的不同特征表示。
本发明的模型输入与输出数据均用张量表示,中间层的权值也用张量表示,为了减少中间层的权值数量,发明中限制权值具有Tensor Train的结构,通过调整张量Train分解的秩控制中间层中自由参数个数,权值层的自由参数个数随着样本数据的维度呈线性增长,这样大大降低了模型中自由参数个数,权值层的限制灵活,可以适用于任意阶数的图像张量数据。
优选地,TTRBM模型的能量函数为公式(1)
其中分别为可见单元和隐含单元,他们都是二值的, b∈RI以及是偏置项,是连接可见单元和隐含单元的权值矩阵,定义Θ={b,c,W}为所有模型的参数,Gd[id,jd] 为rd-1×rd的矩阵,Gd为rd-1×Id×Jd×rd大小的高维数据,为TT分解的秩,基于上述能量函数,定义可见层与隐含层之间的联合分布为
其中Θ表示偏置项模型中所有的参数为在上述联合分布中,Z(Θ)为归一化常数,其定义为,
其中表示的是可见层与隐含层的取值空间。
优选地,公式(1)中,每个可见单元在其他变量下的条件分布为,
以及每个隐含单元在其他变量下的条件分布为,
其中σ为sigmoid函数σ(x)=1/(1+e-x)。
优选地,假设为观测样本集,则数据集的似然函数的对数函数为,
对于Θ中任意的参数θ,
利用吉布斯采样的方式采集一系列样本集,首先从样本集中选定某个样本迭代采样得到
模型的期望通过样本进行近似,
定义两个指标以及从而可以将核矩阵分别写为,
以及
公式(1)对的导数为,
由于或者是二值的,则的均值等于的概率值,将公式(5)插入到公式(3),得到似然函数对的偏导数为,
对于偏置项得到
以及
优选地,如图3所示,该方法包括以下步骤:
(1)给定包含N个张量形式的训练样本集最大迭代次数为T,初始值设为10000以及∈,学习率α,初始值设为 0.05,权重β,初始值设为0.01,参数γ,初始值设为0.5,批量样本的大小b,初始值为100,以及K=1;
(2)随机初始化Gd[id,jd],以及
(3)t=1:T循环:
将样本集随机分为M个子样本集每个子样本集中包含b样本,则
m=1:M循环:
固定当前模型的参数Θ,从开始进行采样;
k=0:K-1
固定利用公式(3)对进行更新;
固定利用公式(2)对进行更新;循环结束;
利用(6)-(8)计算参数的梯度分别为:
迭代参数:θ→θ+Δθ,循环结束
计算e(t),如果|e(t)-e(t+1)|<∈成立,则终止迭代;循环结束。
优选地,该方法用于描述学习一种数据的生成模型,这种模型包含多种数据的输入,定义这种模型为多模态的TTRBM。
优选地,训练阶段,利用五种矩阵的图像块(X,Z1,Z2,Z3,Z4)作为训练集,X表示高分辨率图像块,它是从彩色图像的YCbCr空间的Y通道生成的图像,(Z1,Z2,Z3,Z4)表示的是低分辨率图像,它们分别是Y通道 x-,y-,xx-,yy-方向的图像的梯度,(X,Z1,Z2,Z3,Z4)是可见层的输入,它们连接着共同的隐含层Y,因此,公式(1)写为,
可见层与隐含层的联合分布为,
为了得到训练样本,从设定的69幅彩色图像中获取图像块,从而得到包含10,000个图像块的训练图像集
图像块的大小为15*15,隐含层的大小为20*20,
测试阶段,给定一幅低分辨图像,它的四个低分辨特征 Z={Z1,Z2,Z3,Z4},然后利用一种简单的高分辨重建方法,得到预期的X0, X0以Z被看作是可见层的输入,通过可见层的输入得到隐含层Y,进而,隐含层的值又传递回可见层,从而得到高分辨图像块X,最后再将图像块还原为原来图像的大小。
以下更详细地说明本发明。
本发明采用的技术方案为一种张量数据的受限玻尔兹曼机方法,该方法的具体实施过程如下:
二维模型构建
首先引入具有tensor train结构的受限玻尔兹曼机(TTRBM)模型。
传统RBM的能量函数为:
E(x,y;Θ)=-xTWy-bTx-cTy
其中分别为可见单元和隐含单元,他们都是二值的,b∈RI以及是偏置项,是连接可见单元和隐含单元的权值矩阵。定义Θ={b,c,W}为所有模型的参数。由于传统的RBM都是基于向量形式的输入和输出,为了避免向量化,引入张量形式的可见单元和隐含单元,这样,能量函数可变为,
其中分别为张量数据的可见单元和隐含单元。可见层中的第 (i1,...,iD)个单元与隐含层的第(j1,...,jD)个单元的连接权值可以表示为 W((i1,...,iD),(j1,...,jD)),其中id=1,...,Id以及jd=1,...,Jd。全连接的网络都是面对一个主要的问题,随之输入数据维度的增加,权值层中的自由参数的个数增长过快。为了控制参数的过快增长,引入tensor train 的结构对权值层加以约束。假设权值张量W具有tensor train(TT)结构,其核矩阵为Gd[id,jd](d=1,2,...,D)。因此,上述能量函数可以变为,
其中Gd[id,jd]为rd-1×rd的矩阵,Gd为rd-1×Id×Jd×rd大小的高维数据。为TT分解的秩。基于上述能量函数,可以定义可见层与隐含层之间的联合分布为,
其中Θ表示偏置项模型中所有的参数为在上述联合分布中,Z(Θ)为归一化常数,其定义为,
其中表示的是可见层与隐含层的取值空间。
模型的求解
在研究TTRBM模型算法之前,首先给出下面的理论。
定理1.在TTRBM模型中,每个可见单元在其他变量下的条件分布为,
以及每个隐含单元在其他变量下的条件分布为,
其中σ为sigmoid函数σ(x)=1/(1+e-x)。
证明:由于对称的,因此只需要证明其中一项成立即可。首先定义下式,
的证明进行说明。基于贝叶斯定理,可以得到,
其中,
定义中除去(i′1,...,i′D)后所有的元素集合,则
从而可以推导出
令(i1,...,iD)=(i′1,...,i′D)即得出结论。
假设为观测样本集,则数据集的似然函数的对数函数为,
对于Θ中任意的参数θ,可以证明
上式中等式右边第一项可以看作是数据的期望,第二项是模型的期望。由于模型的期望值需要计算样本空间中所有可见层和隐含层取值可能性的和,因此该式的计算难点在于计算模型的期望。为了避免这个问题,可以从模型中采样,利用采集的样本的期望来近似模型的期望。这就是对比散度的算法,该算法的思想很简单,即利用吉布斯采样的方式采集一系列样本集,首先从样本集中选定某个样本通过定理1迭代采样可以得到
因此,模型的期望可以通过样本进行近似,即,
从而可以得到,
为了清楚,下面定义两个指标以及从而可以将核矩阵分别写为,
以及
对于核矩阵我们以计算为例进行说明,其他参数的导数计算方式类似。能量函数(1)对的导数为,
又由于或者是二值的,则的均值等于的概率值,将(5)插入到(3)可以得到似然函数对的偏导数为,
利用同样的方法,对于偏置项,我们可以得到,
以及
从之前定义的能量函数(1)可以看出,能量函数只依赖 Gd[id,jd],d=1,...,D。当一个参数增长s倍时,其他参数降低1/s倍时,他们的乘积不变,不会影响能量函数的值,为了避免这个问题,在优化目标中,加上惩罚项
TTRBM的求解算法可以总结为下表1。定义原始样本集与重构样本集之间的重构误差为,
其中,另外,以及Gd表示第t步的迭代结果。为了终止迭代,设定最大迭代次数为T,以及当给定∈,迭代误差满足 |e(t)-e(t+1)|<∈。
表1
实验测试:
1.重构实验:
为了测试TTRBM算法的收敛性,下面从两个数据库上进行了重构的实验对比。该实验涉及到两个数据库:
·MINISI数据库中的一部分手写体数字集。
手写体数据集中共包含70,000幅带标签的手写体数字图像,每张图像都是灰度图像,大小为28*28。在这个数据集中,有60,000个训练样本以及10,000个测试样本。重构实验中,在每个数字中选取2,000幅图像(共20,000幅)做重构实验。
·FERET人脸数据库。
该数据库包含200个人的1400幅图像,每个人7幅图像。所有图像都经过灰度化的处理,并下采样到32*32。实验中,随机选取100个人的图像做测试。
实验中,γ,α以及β的初始值如算法1所示。当D=2并且TT分解的秩为 r=[1,1,1]时,TTRBM与MVRBM方法是类似的。每一层的参数实际上是两个矩阵的乘积形式。在TTRBM模型中,权值层的两个核矩阵G1和G2大小分别为 I1×J1以及I2×J2,然而,在MVRBM中,两个核矩阵的大小分别为J1×I1以及J2×I2。因此,主要对比了这两种方法在重构实验中的差别。
手写体数据集上,设定隐含矩阵的大小为25*25,最大迭代次数为T=150。结果表明,当r=[1,1,1]时,提出的方法的收敛速度比另一种方法稍快一些。但当r=[1,2,1]时,本方法的收敛速度要明显快与另一种方法。图1展示了一部分手写数字的原图以及重构后的图像。不同方法的重构图像视觉效果相似,这是因为不同算法几乎都收敛到同一误差值,MVRBM的重构误差为 10.2275/(28*28),TTRBM(r=[1,2,1])的重构误差为9.7783/(28*28)。
与MVRBM相比,本方法的优势在于可以调节TT分解的秩进而重构人脸图像。设定r=[1,5,1]以及r=[1,10,1]。实验结果表明,当r=[1,5,1]以及 r=[1,10,1],TTRBM的重构呈现逐渐递减的趋势,即适当调整TT分解的秩, TTRBM算法在重构人脸数据时是收敛的。图2展示了FERET数据库中一些人脸图像的对比结果,可以看出MVRBM以及TTRBM(r=[1,1,1])时都不能重构出正确的人脸图像,然而,当r=[1,10,1]时,TTRBM重构出的人脸图像具有较好的视觉效果。
2.高分辨率图像的重建
所提出的TTRBM也可以用来描述学习一种数据的生成模型,这种模型包含多种数据的输入,因此可以定义这种模型为多模态的TTRBM。在这个实验中,利用高分辨率图像的重建来测试该模型的性能。
训练阶段,利用五种矩阵的图像块(X,Z1,Z2,Z3,Z4)作为训练集,X表示高分辨率图像块,它是从彩色图像的YCbCr空间的Y通道生成的图像。 (Z1,Z2,Z3,Z4)表示的是低分辨率图像,它们分别是Y通道x-,y-,xx-,yy- 方向的图像的梯度。(X,Z1,Z2,Z3,Z4)可以看做是可见层的输入,它们连接着共同的隐含层Y,因此,能量函数可以写为,
可见层与隐含层的联合分布为,
为了得到训练样本,我们从69幅彩色图像中获取图像块,这些图像可以从网址http://decsai.ugr.es/cvg/dbimagenes/下载,从而可以得到包含10,000 个图像块的训练图像集图像块的大小为15*15,隐含层的大小为20*20。通过上述定义的能量函数可以看出,该实验中在训练阶段需要估计得参数有以及
测试阶段,给定一幅低分辨图像,它的四个低分辨特征可以得到 Z={Z1,Z2,Z3,Z4}。然后利用一种简单的高分辨重建方法,我们就可以得到预期的X0。因此X0以Z被看作是可见层的输入。通过可见层的输入,我们可以得到隐含层Y,进而,隐含层的值又传递回可见层,从而得到高分辨图像块X,最后再将图像块还原为原来图像的大小。
表2分别列出了这些方法的重建图像结果以及耗费的时间。
表2
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (7)

1.一种图像张量数据的处理方法,其特征在于:该方法引入具有tensortrain结构的受限玻尔兹曼机TTRBM模型,该方法的输入与输出数据均用张量表示,中间层的权值也用张量表示,限制权值具有TensorTrain的结构;通过调整张量Train分解的秩控制中间层中自由参数个数;调节TT分解的秩,尺寸相同的不同特征表示。
2.根据权利要求1所述的图像张量数据的处理方法,其特征在于:
TTRBM模型的能量函数为公式(1)
其中分别为可见单元和隐含单元,他们都是二值的,b∈RI以及是偏置项,是连接可见单元和隐含单元的权值矩阵,定义Θ={b,c,W}为所有模型的参数,Gd[id,jd]为rd-1×rd的矩阵,Gd为rd-1×Id×Jd×rd大小的高维数据,为TT分解的秩,基于上述能量函数,定义可见层与隐含层之间的联合分布为
其中Θ表示偏置项模型中所有的参数为在上述联合分布中,Z(Θ)为归一化常数,其定义为,
其中表示的是可见层与隐含层的取值空间。
3.根据权利要求2所述的图像张量数据的处理方法,其特征在于:
公式(1)中,每个可见单元在其他变量下的条件分布为,
以及每个隐含单元在其他变量下的条件分布为,
其中σ为sigmoid函数σ(x)=1/(1+e-x)。
4.根据权利要求3所述的图像张量数据的处理方法,其特征在于:
假设为观测样本集,则数据集的似然函数的对数函数为,
对于Θ中任意的参数θ,
利用吉布斯采样的方式采集一系列样本集,首先从样本集中选定某个样本迭代采样得到
模型的期望通过样本进行近似,
定义两个指标以及从而可以将核矩阵分别写为,
以及
公式(1)对的导数为,
由于或者是二值的,则的均值等于的概率值,将公式(5)插入到公式(3),得到似然函数对的偏导数为,
对于偏置项得到
以及
5.根据权利要求4所述的图像张量数据的处理方法,其特征在于:
该方法包括以下步骤:
(1)给定包含N个张量形式的训练样本集最大迭代次数为T,初始值设为10000以及∈,学习率α,初始值设为0.05,权重β,初始值设为0.01,参数γ,初始值设为0.5,批量样本的大小b,初始值为100,以及K=1;
(2)随机初始化Gd[id,jd],以及
(3)t=1:T循环:
将样本集随机分为M个子样本集每个子样本集中包含b样本,则
m=1:M循环:
固定当前模型的参数Θ,从开始进行采样;
k=0:K-1
固定利用公式(3)对进行更新;
固定利用公式(2)对进行更新;循环结束;
利用(6)-(8)计算参数的梯度分别为:
迭代参数:θ→θ+Δθ,循环结束
计算e(t),如果|e(t)-e(t+1)|<∈成立,则终止迭代;循环结束。
6.根据权利要求5所述的图像张量数据的处理方法,其特征在于:该方法用于描述学习一种数据的生成模型,这种模型包含多种数据的输入,定义这种模型为多模态的TTRBM。
7.根据权利要求6所述的图像张量数据的处理方法,其特征在于:
训练阶段,利用五种矩阵的图像块(X,Z1,Z2,Z3,Z4)作为训练集,X表示高分辨率图像块,它是从彩色图像的YCbCr空间的Y通道生成的图像,(Z1,Z2,Z3,Z4)表示的是低分辨率图像,它们分别是Y通道x-,y-,xx-,yy-方向的图像的梯度,(X,Z1,Z2,Z3,Z4)是可见层的输入,它们连接着共同的隐含层Y,因此,公式(1)写为,
可见层与隐含层的联合分布为,
为了得到训练样本,从设定的69幅彩色图像中获取图像块,从而得到包含10,000个图像块的训练图像集图像块的大小为15*15,隐含层的大小为20*20,
测试阶段,给定一幅低分辨图像,它的四个低分辨特征Z={Z1,Z2,Z3,Z4},然后利用一种简单的高分辨重建方法,得到预期的X0,X0以Z被看作是可见层的输入,通过可见层的输入得到隐含层Y,进而,隐含层的值又传递回可见层,从而得到高分辨图像块X,最后再将图像块还原为原来图像的大小。
CN201910042613.4A 2019-01-17 2019-01-17 一种图像张量数据的处理方法 Active CN109977989B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910042613.4A CN109977989B (zh) 2019-01-17 2019-01-17 一种图像张量数据的处理方法
US16/735,722 US11449965B2 (en) 2019-01-17 2020-01-07 Processing method for image tensor data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910042613.4A CN109977989B (zh) 2019-01-17 2019-01-17 一种图像张量数据的处理方法

Publications (2)

Publication Number Publication Date
CN109977989A true CN109977989A (zh) 2019-07-05
CN109977989B CN109977989B (zh) 2021-04-20

Family

ID=67076740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910042613.4A Active CN109977989B (zh) 2019-01-17 2019-01-17 一种图像张量数据的处理方法

Country Status (2)

Country Link
US (1) US11449965B2 (zh)
CN (1) CN109977989B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161366A (zh) * 2019-12-11 2020-05-15 中国科学院深圳先进技术研究院 一种图像重建方法、装置、终端设备及存储介质
CN111353581A (zh) * 2020-02-12 2020-06-30 北京百度网讯科技有限公司 轻量模型获取方法、装置、电子设备及存储介质
WO2021114143A1 (zh) * 2019-12-11 2021-06-17 中国科学院深圳先进技术研究院 一种图像重建方法、装置、终端设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114638365B (zh) * 2022-05-17 2022-09-06 之江实验室 一种机器阅读理解推理方法及装置、电子设备、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060126930A1 (en) * 1998-11-09 2006-06-15 Tetsujiro Kondo Data processing apparatus and data processing method
CN106886798A (zh) * 2017-03-10 2017-06-23 北京工业大学 基于矩阵变量的高斯分布受限玻尔兹曼机的图像识别方法
CN107967441A (zh) * 2017-09-19 2018-04-27 北京工业大学 一种基于双通道3d-2d rbm模型的视频行为识别方法
CN108073888A (zh) * 2017-08-07 2018-05-25 中国科学院深圳先进技术研究院 一种教学辅助方法及采用该方法的教学辅助系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060126930A1 (en) * 1998-11-09 2006-06-15 Tetsujiro Kondo Data processing apparatus and data processing method
CN106886798A (zh) * 2017-03-10 2017-06-23 北京工业大学 基于矩阵变量的高斯分布受限玻尔兹曼机的图像识别方法
CN108073888A (zh) * 2017-08-07 2018-05-25 中国科学院深圳先进技术研究院 一种教学辅助方法及采用该方法的教学辅助系统
CN107967441A (zh) * 2017-09-19 2018-04-27 北京工业大学 一种基于双通道3d-2d rbm模型的视频行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘思萌: ""高斯分布受限玻尔兹曼机及其高维扩展"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161366A (zh) * 2019-12-11 2020-05-15 中国科学院深圳先进技术研究院 一种图像重建方法、装置、终端设备及存储介质
WO2021114143A1 (zh) * 2019-12-11 2021-06-17 中国科学院深圳先进技术研究院 一种图像重建方法、装置、终端设备及存储介质
CN111353581A (zh) * 2020-02-12 2020-06-30 北京百度网讯科技有限公司 轻量模型获取方法、装置、电子设备及存储介质
CN111353581B (zh) * 2020-02-12 2024-01-26 北京百度网讯科技有限公司 轻量模型获取方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US11449965B2 (en) 2022-09-20
CN109977989B (zh) 2021-04-20
US20200234405A1 (en) 2020-07-23

Similar Documents

Publication Publication Date Title
Lin et al. Image super-resolution using a dilated convolutional neural network
CN109977989A (zh) 一种图像张量数据的处理方法
Rezende et al. Stochastic backpropagation and variational inference in deep latent gaussian models
CN105069400B (zh) 基于栈式稀疏自编码的人脸图像性别识别系统
Lin et al. Hyperspectral image denoising via matrix factorization and deep prior regularization
CN112818764B (zh) 一种基于特征重建模型的低分辨率图像人脸表情识别方法
CN109886881B (zh) 人脸妆容去除方法
Yokota et al. Simultaneous visual data completion and denoising based on tensor rank and total variation minimization and its primal-dual splitting algorithm
Lecouat et al. Fully trainable and interpretable non-local sparse models for image restoration
Kingma et al. Regularized estimation of image statistics by score matching
Li et al. Image super-resolution with parametric sparse model learning
CN114170088A (zh) 一种基于图结构数据的关系型强化学习系统及方法
Qu et al. Perceptual-DualGAN: perceptual losses for image to image translation with generative adversarial nets
Gao et al. Bayesian image super-resolution with deep modeling of image statistics
Chen et al. Distribution approximation and statistical estimation guarantees of generative adversarial networks
Wadhwani et al. Controllable image generation with semi-supervised deep learning and deformable-mean-template based geometry-appearance disentanglement
Huang et al. Learning deep analysis dictionaries for image super-resolution
Zheng et al. Extracting non-negative basis images using pixel dispersion penalty
CN111553250B (zh) 一种基于人脸特征点的精准面瘫程度评测方法及装置
CN109934281B (zh) 一种二分类网络的非监督训练方法
CN113128455A (zh) 一种细胞图像重构模型训练方法和系统
CN115346091B (zh) 一种Mura缺陷图像数据集的生成方法和生成装置
Gao et al. Rank-one network: An effective framework for image restoration
Moeller et al. Image denoising—old and new
Zou et al. WGAN-based image denoising algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant