CN109977989B - 一种图像张量数据的处理方法 - Google Patents

一种图像张量数据的处理方法 Download PDF

Info

Publication number
CN109977989B
CN109977989B CN201910042613.4A CN201910042613A CN109977989B CN 109977989 B CN109977989 B CN 109977989B CN 201910042613 A CN201910042613 A CN 201910042613A CN 109977989 B CN109977989 B CN 109977989B
Authority
CN
China
Prior art keywords
image
data
tensor
model
visible
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910042613.4A
Other languages
English (en)
Other versions
CN109977989A (zh
Inventor
孙艳丰
句福娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910042613.4A priority Critical patent/CN109977989B/zh
Publication of CN109977989A publication Critical patent/CN109977989A/zh
Priority to US16/735,722 priority patent/US11449965B2/en
Application granted granted Critical
Publication of CN109977989B publication Critical patent/CN109977989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2133Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on naturality criteria, e.g. with non-negative factorisation or negative correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种图像张量数据的处理方法,其能够大大降低模型中自由参数个数,权值层的限制灵活,可以适用于任意阶数的图像张量数据。这种图像张量数据的处理方法,该方法引入具有tensor train结构的受限玻尔兹曼机TTRBM模型,该方法的输入与输出数据均用张量表示,中间层的权值也用张量表示,限制权值具有Tensor Train的结构;通过调整张量Train分解的秩控制中间层中自由参数个数;调节TT分解的秩,尺寸相同的不同特征表示。

Description

一种图像张量数据的处理方法
技术领域
本发明涉及数据处理的技术领域,尤其涉及一种图像张量数据的处理方法,其能够直接应用于任意阶数的图像张量数据。
背景技术
受限玻尔兹曼机(Restricted Boltzmman Machine,RBM)是由可见层和隐含层组成的两层神经网络,由于其很强的特征表示能力,而被广泛应用到模式识别和机器学习中。传统RBM中的可见层和隐含层数据都是用向量形式表示。
然而,今天来源于实际生活中的数据常常具有高维度特性。为了在这些高维数据上应用RBM,常用的方法就是将数据向量化,向量化的过程往往会破坏高维数据中的内部结构,导致重要的关联信息丢失,或者是产生维度灾难的问题。另外,RBM是一种全连接的网络结构,随着数据维度的增长,模型中的参数将呈指数形式增长。因而需要更多的存储空间和更高的计算复杂度,这使得RBM算法不适合在普通设备或高维数据上应用。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种图像张量数据的处理方法,其能够大大降低模型中自由参数个数,权值层的限制灵活,可以适用于任意阶数的图像张量数据。
本发明的技术方案是:这种图像张量数据的处理方法,该方法引入具有 tensortrain结构的受限玻尔兹曼机TTRBM模型,该方法的输入与输出数据均用张量表示,中间层的权值也用张量表示,限制权值具有Tensor Train的结构;通过调整张量Train分解的秩控制中间层中自由参数个数;调节TT分解的秩,尺寸相同的不同特征表示。
本发明的模型输入与输出数据均用张量表示,中间层的权值也用张量表示,为了减少中间层的权值数量,发明中限制权值具有Tensor Train的结构,通过调整张量Train分解的秩控制中间层中自由参数个数,权值层的自由参数个数随着样本数据的维度呈线性增长,这样大大降低了模型中自由参数个数,权值层的限制灵活,可以适用于任意阶数的图像张量数据。
附图说明
图1展示了一部分手写数字的原图以及重构后的图像。
图2展示了FERET数据库中一些人脸图像的对比结果。
图3是本发明一个优选实施例的流程图。
具体实施方式
这种图像张量数据的处理方法,该方法引入具有tensor train结构的受限玻尔兹曼机TTRBM模型,该方法的输入与输出数据均用张量表示,中间层的权值也用张量表示,限制权值具有Tensor Train的结构;通过调整张量 Train分解的秩控制中间层中自由参数个数;调节TT分解的秩,尺寸相同的不同特征表示。
本发明的模型输入与输出数据均用张量表示,中间层的权值也用张量表示,为了减少中间层的权值数量,发明中限制权值具有Tensor Train的结构,通过调整张量Train分解的秩控制中间层中自由参数个数,权值层的自由参数个数随着样本数据的维度呈线性增长,这样大大降低了模型中自由参数个数,权值层的限制灵活,可以适用于任意阶数的图像张量数据。
优选地,TTRBM模型的能量函数为公式(1)
Figure RE-GDA0002017934430000031
其中
Figure RE-GDA0002017934430000032
分别为可见单元和隐含单元,他们都是二值的, b∈RI以及
Figure RE-GDA0002017934430000033
是偏置项,
Figure RE-GDA0002017934430000034
是连接可见单元和隐含单元的权值矩阵,定义Θ={b,c,W}为所有模型的参数,Gd[id,jd] 为rd-1×rd的矩阵,Gd为rd-1×Id×Jd×rd大小的高维数据,
Figure RE-GDA0002017934430000035
为TT分解的秩,基于上述能量函数,定义可见层
Figure RE-GDA0002017934430000036
与隐含层
Figure RE-GDA0002017934430000037
之间的联合分布为
Figure RE-GDA0002017934430000038
其中Θ表示偏置项
Figure RE-GDA0002017934430000039
模型中所有的参数为
Figure RE-GDA00020179344300000310
在上述联合分布中,Z(Θ)为归一化常数,其定义为,
Figure RE-GDA00020179344300000311
其中
Figure RE-GDA00020179344300000312
Figure RE-GDA00020179344300000313
表示的是可见层
Figure RE-GDA00020179344300000314
与隐含层
Figure RE-GDA00020179344300000315
的取值空间。
优选地,公式(1)中,每个可见单元
Figure RE-GDA00020179344300000316
在其他变量下的条件分布为,
Figure RE-GDA00020179344300000317
以及每个隐含单元
Figure RE-GDA00020179344300000318
在其他变量下的条件分布为,
Figure RE-GDA00020179344300000319
其中σ为sigmoid函数σ(x)=1/(1+e-x)。
优选地,假设
Figure RE-GDA0002017934430000041
为观测样本集,则数据集的似然函数的对数函数为,
Figure RE-GDA0002017934430000042
对于Θ中任意的参数θ,
Figure RE-GDA0002017934430000043
利用吉布斯采样的方式采集一系列样本集,首先从样本集中选定某个样本
Figure RE-GDA0002017934430000044
迭代采样得到
Figure RE-GDA0002017934430000045
模型的期望通过样本
Figure RE-GDA0002017934430000046
进行近似,
Figure RE-GDA0002017934430000047
定义两个指标
Figure RE-GDA0002017934430000048
以及
Figure RE-GDA0002017934430000049
从而可以将核矩阵分别写为,
Figure RE-GDA00020179344300000410
以及
Figure RE-GDA00020179344300000411
公式(1)对
Figure RE-GDA00020179344300000412
的导数为,
Figure RE-GDA00020179344300000413
由于
Figure RE-GDA00020179344300000414
或者
Figure RE-GDA00020179344300000415
是二值的,则
Figure RE-GDA00020179344300000416
的均值等于
Figure RE-GDA00020179344300000417
的概率值,将公式(5)插入到公式(3),得到似然函数对
Figure RE-GDA0002017934430000051
的偏导数为,
Figure RE-GDA0002017934430000052
对于偏置项得到
Figure RE-GDA0002017934430000053
以及
Figure RE-GDA0002017934430000054
优选地,如图3所示,该方法包括以下步骤:
(1)给定包含N个张量形式的训练样本集
Figure RE-GDA0002017934430000055
最大迭代次数为T,初始值设为10000以及∈,学习率α,初始值设为 0.05,权重β,初始值设为0.01,参数γ,初始值设为0.5,批量样本的大小b,初始值为100,以及K=1;
(2)随机初始化Gd[id,jd],
Figure RE-GDA0002017934430000056
以及
Figure RE-GDA0002017934430000057
(3)t=1:T循环:
将样本集
Figure RE-GDA0002017934430000058
随机分为M个子样本集
Figure RE-GDA0002017934430000059
每个子样本集中包含b样本,则
m=1:M循环:
固定当前模型的参数Θ,从
Figure RE-GDA0002017934430000061
开始进行采样;
k=0:K-1
固定
Figure RE-GDA0002017934430000062
利用公式(3)对
Figure RE-GDA0002017934430000063
进行更新;
固定
Figure RE-GDA0002017934430000064
利用公式(2)对
Figure RE-GDA0002017934430000065
进行更新;循环结束;
利用(6)-(8)计算参数的梯度分别为:
Figure RE-GDA0002017934430000066
Figure RE-GDA0002017934430000067
Figure RE-GDA0002017934430000068
迭代参数:θ→θ+Δθ,循环结束
计算e(t),如果|e(t)-e(t+1)|<∈成立,则终止迭代;循环结束。
优选地,该方法用于描述学习一种数据的生成模型,这种模型包含多种数据的输入,定义这种模型为多模态的TTRBM。
优选地,训练阶段,利用五种矩阵的图像块(X,Z1,Z2,Z3,Z4)作为训练集,X表示高分辨率图像块,它是从彩色图像的YCbCr空间的Y通道生成的图像,(Z1,Z2,Z3,Z4)表示的是低分辨率图像,它们分别是Y通道 x-,y-,xx-,yy-方向的图像的梯度,(X,Z1,Z2,Z3,Z4)是可见层的输入,它们连接着共同的隐含层Y,因此,公式(1)写为,
Figure RE-GDA0002017934430000071
可见层与隐含层的联合分布为,
Figure RE-GDA0002017934430000072
为了得到训练样本,从设定的69幅彩色图像中获取图像块,从而得到包含10,000个图像块的训练图像集
Figure RE-GDA0002017934430000073
图像块的大小为15*15,隐含层的大小为20*20,
测试阶段,给定一幅低分辨图像,它的四个低分辨特征 Z={Z1,Z2,Z3,Z4},然后利用一种简单的高分辨重建方法,得到预期的X0, X0以Z被看作是可见层的输入,通过可见层的输入得到隐含层Y,进而,隐含层的值又传递回可见层,从而得到高分辨图像块X,最后再将图像块还原为原来图像的大小。
以下更详细地说明本发明。
本发明采用的技术方案为一种张量数据的受限玻尔兹曼机方法,该方法的具体实施过程如下:
二维模型构建
首先引入具有tensor train结构的受限玻尔兹曼机(TTRBM)模型。
传统RBM的能量函数为:
E(x,y;Θ)=-xTWy-bTx-cTy
其中
Figure RE-GDA0002017934430000074
分别为可见单元和隐含单元,他们都是二值的,b∈RI以及
Figure RE-GDA0002017934430000081
是偏置项,
Figure RE-GDA0002017934430000082
是连接可见单元和隐含单元的权值矩阵。定义Θ={b,c,W}为所有模型的参数。由于传统的RBM都是基于向量形式的输入和输出,为了避免向量化,引入张量形式的可见单元和隐含单元,这样,能量函数可变为,
Figure 1
其中
Figure RE-GDA0002017934430000084
Figure RE-GDA0002017934430000085
分别为张量数据的可见单元和隐含单元。可见层中的第 (i1,...,iD)个单元与隐含层的第(j1,...,jD)个单元的连接权值可以表示为 W((i1,...,iD),(j1,...,jD)),其中id=1,...,Id以及jd=1,...,Jd。全连接的网络都是面对一个主要的问题,随之输入数据维度的增加,权值层中的自由参数的个数增长过快。为了控制参数的过快增长,引入tensor train 的结构对权值层加以约束。假设权值张量W具有tensor train(TT)结构,其核矩阵为Gd[id,jd](d=1,2,...,D)。因此,上述能量函数可以变为,
Figure RE-GDA0002017934430000086
其中Gd[id,jd]为rd-1×rd的矩阵,Gd为rd-1×Id×Jd×rd大小的高维数据。
Figure RE-GDA0002017934430000087
为TT分解的秩。基于上述能量函数,可以定义可见层
Figure RE-GDA0002017934430000088
与隐含层
Figure RE-GDA0002017934430000089
之间的联合分布为,
Figure RE-GDA00020179344300000810
其中Θ表示偏置项
Figure RE-GDA00020179344300000811
模型中所有的参数为
Figure RE-GDA00020179344300000812
在上述联合分布中,Z(Θ)为归一化常数,其定义为,
Figure RE-GDA00020179344300000813
其中
Figure RE-GDA00020179344300000814
Figure RE-GDA00020179344300000815
表示的是可见层
Figure RE-GDA00020179344300000816
与隐含层
Figure RE-GDA00020179344300000817
的取值空间。
模型的求解
在研究TTRBM模型算法之前,首先给出下面的理论。
定理1.在TTRBM模型中,每个可见单元
Figure RE-GDA0002017934430000091
在其他变量下的条件分布为,
Figure RE-GDA0002017934430000092
以及每个隐含单元
Figure RE-GDA0002017934430000093
在其他变量下的条件分布为,
Figure RE-GDA0002017934430000094
其中σ为sigmoid函数σ(x)=1/(1+e-x)。
证明:由于
Figure RE-GDA0002017934430000095
Figure RE-GDA0002017934430000096
对称的,因此只需要证明其中一项成立即可。首先定义下式,
Figure RE-GDA0002017934430000097
Figure RE-GDA0002017934430000098
的证明进行说明。基于贝叶斯定理,可以得到,
Figure RE-GDA0002017934430000099
其中,
Figure RE-GDA00020179344300000910
定义
Figure RE-GDA00020179344300000911
Figure RE-GDA00020179344300000912
中除去(i′1,...,i′D)后所有的元素集合,则
Figure RE-GDA0002017934430000101
从而可以推导出
Figure RE-GDA0002017934430000102
令(i1,...,iD)=(i′1,...,i′D)即得出结论。
假设
Figure RE-GDA0002017934430000103
为观测样本集,则数据集的似然函数的对数函数为,
Figure RE-GDA0002017934430000104
对于Θ中任意的参数θ,可以证明
Figure RE-GDA0002017934430000105
上式中等式右边第一项可以看作是数据的期望,第二项是模型的期望。由于模型的期望值需要计算样本空间中所有可见层和隐含层取值可能性的和,因此该式的计算难点在于计算模型的期望。为了避免这个问题,可以从模型中采样,利用采集的样本的期望来近似模型的期望。这就是对比散度的算法,该算法的思想很简单,即利用吉布斯采样的方式采集一系列样本集,首先从样本集中选定某个样本
Figure RE-GDA0002017934430000106
通过定理1迭代采样可以得到
Figure RE-GDA0002017934430000107
因此,模型的期望可以通过样本
Figure RE-GDA0002017934430000108
进行近似,即,
Figure RE-GDA0002017934430000109
Figure RE-GDA0002017934430000111
从而可以得到,
Figure RE-GDA0002017934430000112
为了清楚,下面定义两个指标
Figure RE-GDA0002017934430000113
以及
Figure RE-GDA0002017934430000114
从而可以将核矩阵分别写为,
Figure RE-GDA0002017934430000115
以及
Figure RE-GDA0002017934430000116
对于核矩阵
Figure RE-GDA0002017934430000117
我们以计算
Figure RE-GDA0002017934430000118
为例进行说明,其他参数的导数计算方式类似。能量函数(1)对
Figure RE-GDA0002017934430000119
的导数为,
Figure RE-GDA00020179344300001110
又由于
Figure RE-GDA00020179344300001111
或者
Figure RE-GDA00020179344300001112
是二值的,则
Figure RE-GDA00020179344300001113
的均值等于
Figure RE-GDA00020179344300001114
的概率值,将(5)插入到(3)可以得到似然函数对
Figure RE-GDA00020179344300001115
的偏导数为,
Figure RE-GDA00020179344300001116
Figure RE-GDA0002017934430000121
利用同样的方法,对于偏置项,我们可以得到,
Figure RE-GDA0002017934430000122
以及
Figure RE-GDA0002017934430000123
从之前定义的能量函数(1)可以看出,能量函数只依赖 Gd[id,jd],d=1,...,D。当一个参数增长s倍时,其他参数降低1/s倍时,他们的乘积不变,不会影响能量函数的值,为了避免这个问题,在优化目标中,加上惩罚项
Figure 2
TTRBM的求解算法可以总结为下表1。定义原始样本集与重构样本集之间的重构误差为,
Figure RE-GDA0002017934430000125
其中,
Figure RE-GDA0002017934430000126
另外,
Figure RE-GDA0002017934430000127
以及Gd表示第t步的迭代结果。为了终止迭代,设定最大迭代次数为T,以及当给定∈,迭代误差满足 |e(t)-e(t+1)|<∈。
表1
Figure RE-GDA0002017934430000131
Figure RE-GDA0002017934430000141
实验测试:
1.重构实验:
为了测试TTRBM算法的收敛性,下面从两个数据库上进行了重构的实验对比。该实验涉及到两个数据库:
·MINISI数据库中的一部分手写体数字集。
手写体数据集中共包含70,000幅带标签的手写体数字图像,每张图像都是灰度图像,大小为28*28。在这个数据集中,有60,000个训练样本以及10,000个测试样本。重构实验中,在每个数字中选取2,000幅图像(共20,000幅)做重构实验。
·FERET人脸数据库。
该数据库包含200个人的1400幅图像,每个人7幅图像。所有图像都经过灰度化的处理,并下采样到32*32。实验中,随机选取100个人的图像做测试。
实验中,γ,α以及β的初始值如算法1所示。当D=2并且TT分解的秩为 r=[1,1,1]时,TTRBM与MVRBM方法是类似的。每一层的参数实际上是两个矩阵的乘积形式。在TTRBM模型中,权值层的两个核矩阵G1和G2大小分别为 I1×J1以及I2×J2,然而,在MVRBM中,两个核矩阵的大小分别为J1×I1以及J2×I2。因此,主要对比了这两种方法在重构实验中的差别。
手写体数据集上,设定隐含矩阵的大小为25*25,最大迭代次数为T=150。结果表明,当r=[1,1,1]时,提出的方法的收敛速度比另一种方法稍快一些。但当r=[1,2,1]时,本方法的收敛速度要明显快与另一种方法。图1展示了一部分手写数字的原图以及重构后的图像。不同方法的重构图像视觉效果相似,这是因为不同算法几乎都收敛到同一误差值,MVRBM的重构误差为 10.2275/(28*28),TTRBM(r=[1,2,1])的重构误差为9.7783/(28*28)。
与MVRBM相比,本方法的优势在于可以调节TT分解的秩进而重构人脸图像。设定r=[1,5,1]以及r=[1,10,1]。实验结果表明,当r=[1,5,1]以及 r=[1,10,1],TTRBM的重构呈现逐渐递减的趋势,即适当调整TT分解的秩, TTRBM算法在重构人脸数据时是收敛的。图2展示了FERET数据库中一些人脸图像的对比结果,可以看出MVRBM以及TTRBM(r=[1,1,1])时都不能重构出正确的人脸图像,然而,当r=[1,10,1]时,TTRBM重构出的人脸图像具有较好的视觉效果。
2.高分辨率图像的重建
所提出的TTRBM也可以用来描述学习一种数据的生成模型,这种模型包含多种数据的输入,因此可以定义这种模型为多模态的TTRBM。在这个实验中,利用高分辨率图像的重建来测试该模型的性能。
训练阶段,利用五种矩阵的图像块(X,Z1,Z2,Z3,Z4)作为训练集,X表示高分辨率图像块,它是从彩色图像的YCbCr空间的Y通道生成的图像。 (Z1,Z2,Z3,Z4)表示的是低分辨率图像,它们分别是Y通道x-,y-,xx-,yy- 方向的图像的梯度。(X,Z1,Z2,Z3,Z4)可以看做是可见层的输入,它们连接着共同的隐含层Y,因此,能量函数可以写为,
Figure RE-GDA0002017934430000151
可见层与隐含层的联合分布为,
Figure RE-GDA0002017934430000161
为了得到训练样本,我们从69幅彩色图像中获取图像块,这些图像可以从网址http://decsai.ugr.es/cvg/dbimagenes/下载,从而可以得到包含10,000 个图像块的训练图像集
Figure RE-GDA0002017934430000162
图像块的大小为15*15,隐含层的大小为20*20。通过上述定义的能量函数可以看出,该实验中在训练阶段需要估计得参数有
Figure RE-GDA0002017934430000163
以及
Figure RE-GDA0002017934430000164
测试阶段,给定一幅低分辨图像,它的四个低分辨特征可以得到 Z={Z1,Z2,Z3,Z4}。然后利用一种简单的高分辨重建方法,我们就可以得到预期的X0。因此X0以Z被看作是可见层的输入。通过可见层的输入,我们可以得到隐含层Y,进而,隐含层的值又传递回可见层,从而得到高分辨图像块X,最后再将图像块还原为原来图像的大小。
表2分别列出了这些方法的重建图像结果以及耗费的时间。
表2
Figure RE-GDA0002017934430000165
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (6)

1.一种图像张量数据的处理方法,该方法引入具有TT结构的受限玻尔兹曼机TTRBM模型,该方法的输入与输出数据均用张量表示,中间层的权值也用张量表示,限制权值具有TT的结构;通过调整张量Train分解的秩控制中间层中自由参数个数;调节TT分解的秩,获得尺寸相同的不同特征表示;
其特征在于:TTRBM模型的能量函数为公式(1)
Figure FDA0002798247740000011
其中
Figure FDA0002798247740000012
分别为可见单元和隐含单元,他们都是二值的,
Figure FDA0002798247740000013
是偏置项,Gd[id,jd](d=1,...,D)为rd-1×rd的矩阵,Gd为rd-1×Id×Jd×rd大小的高维数据,
Figure FDA0002798247740000014
为TT分解的秩,基于上述能量函数,定义可见单元
Figure FDA0002798247740000015
与隐含单元
Figure FDA0002798247740000016
之间的联合分布为
Figure FDA0002798247740000017
其中Θ表示偏置项
Figure FDA0002798247740000018
模型中所有的参数为
Figure FDA0002798247740000019
在上述联合分布中,Z(Θ)为归一化常数,其定义为,
Figure FDA00027982477400000110
其中
Figure FDA00027982477400000111
Figure FDA00027982477400000112
表示的是可见单元
Figure FDA00027982477400000113
与隐含单元
Figure FDA00027982477400000114
的取值空间。
2.根据权利要求1所述的图像张量数据的处理方法,其特征在于:
公式(1)中,每个可见单元
Figure FDA00027982477400000115
在其他变量下的条件分布为,
Figure FDA00027982477400000116
以及每个隐含单元
Figure FDA0002798247740000021
在其他变量下的条件分布为,
Figure FDA0002798247740000022
其中σ为sigmoid函数σ(x)=1/(1+e-x)。
3.根据权利要求2所述的图像张量数据的处理方法,其特征在于:
假设
Figure FDA0002798247740000023
为观测样本集,则数据集的似然函数的对数函数为,
Figure FDA0002798247740000024
对于Θ中任意的参数θ,
Figure FDA0002798247740000025
利用吉布斯采样的方式采集一系列样本集,首先从样本集中选定某个样本
Figure FDA0002798247740000026
迭代采样得到
Figure FDA0002798247740000027
模型的期望通过样本
Figure FDA0002798247740000028
进行近似,
Figure FDA0002798247740000029
定义两个指标
Figure FDA00027982477400000210
以及
Figure FDA00027982477400000211
从而可以将核矩阵分别写为,
Figure FDA00027982477400000212
以及
Figure FDA0002798247740000031
公式(1)对
Figure FDA0002798247740000032
的导数为,
Figure FDA0002798247740000033
由于
Figure FDA0002798247740000034
或者
Figure FDA0002798247740000035
是二值的,则
Figure FDA0002798247740000036
的均值等于
Figure FDA0002798247740000037
的概率值,将公式(5)插入到公式(3),得到似然函数对
Figure FDA0002798247740000038
的偏导数为,
Figure FDA0002798247740000039
对于偏置项得到
Figure FDA00027982477400000310
以及
Figure FDA00027982477400000311
4.根据权利要求3所述的图像张量数据的处理方法,其特征在于:
该方法包括以下步骤:
(1)给定包含N个张量形式的训练样本集
Figure FDA00027982477400000312
最大迭代次数为T=10000,学习率α,初始值设为0.05,权重β,初始值设为0.01,参数γ,初始值设为0.5,批量样本的大小b,初始值为100,以及K=1;
(2)随机初始化Gd[id,jd],
Figure FDA0002798247740000041
以及
Figure FDA0002798247740000042
(3)t=1:T循环:
将样本集
Figure FDA0002798247740000043
随机分为M个子样本集
Figure FDA0002798247740000044
每个子样本集中包含b样本,则
m=1:M循环:
固定当前模型的参数Θ,从
Figure FDA0002798247740000045
开始进行采样;
k=0:K-1
固定
Figure FDA0002798247740000046
利用公式(3)对
Figure FDA0002798247740000047
进行更新;
固定
Figure FDA0002798247740000048
利用公式(2)对
Figure FDA0002798247740000049
进行更新;循环结束;
利用(6)-(8)计算参数的梯度分别为:
Figure FDA00027982477400000410
Figure FDA00027982477400000411
Figure FDA00027982477400000412
迭代参数:θ→θ+Δθ,循环结束;
计算e(t),如果|e(t)-e(t+1)|<∈成立,则终止迭代;循环结束。
5.根据权利要求4所述的图像张量数据的处理方法,其特征在于:该方法用于描述学习一种数据的生成模型,这种模型包含多种数据的输入,定义这种模型为多模态的TTRBM。
6.根据权利要求5所述的图像张量数据的处理方法,其特征在于:
训练阶段,利用五种矩阵的图像块(X,Z1,Z2,Z3,Z4)作为训练集,X表示高分辨率图像块,它是从彩色图像的YCbCr空间的Y通道生成的图像,(Z1,Z2,Z3,Z4)表示的是低分辨率图像,它们分别是Y通道x-,y-,xx-,yy-方向的图像的梯度,(X,Z1,Z2,Z3,Z4)是可见单元的输入,它们连接着共同的隐含单元Y,因此,公式(1)写为,
Figure FDA0002798247740000051
可见单元与隐含单元的联合分布为,
Figure FDA0002798247740000052
为了得到训练样本,从设定的69幅彩色图像中获取图像块,从而得到包含10,000个图像块的训练图像集
Figure FDA0002798247740000053
图像块的大小为15*15,隐含单元的大小为20*20,
测试阶段,给定一幅低分辨图像,它的四个低分辨特征
Figure FDA0002798247740000054
然后利用一种简单的高分辨重建方法,得到预期的X0,X0和Z被看作是可见单元的输入,通过可见单元的输入得到隐含单元Y,进而,隐含单元的值又传递回可见单元,从而得到高分辨图像块X,最后再将图像块还原为原来图像的大小。
CN201910042613.4A 2019-01-17 2019-01-17 一种图像张量数据的处理方法 Active CN109977989B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910042613.4A CN109977989B (zh) 2019-01-17 2019-01-17 一种图像张量数据的处理方法
US16/735,722 US11449965B2 (en) 2019-01-17 2020-01-07 Processing method for image tensor data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910042613.4A CN109977989B (zh) 2019-01-17 2019-01-17 一种图像张量数据的处理方法

Publications (2)

Publication Number Publication Date
CN109977989A CN109977989A (zh) 2019-07-05
CN109977989B true CN109977989B (zh) 2021-04-20

Family

ID=67076740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910042613.4A Active CN109977989B (zh) 2019-01-17 2019-01-17 一种图像张量数据的处理方法

Country Status (2)

Country Link
US (1) US11449965B2 (zh)
CN (1) CN109977989B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161366A (zh) * 2019-12-11 2020-05-15 中国科学院深圳先进技术研究院 一种图像重建方法、装置、终端设备及存储介质
WO2021114143A1 (zh) * 2019-12-11 2021-06-17 中国科学院深圳先进技术研究院 一种图像重建方法、装置、终端设备及存储介质
CN111353581B (zh) * 2020-02-12 2024-01-26 北京百度网讯科技有限公司 轻量模型获取方法、装置、电子设备及存储介质
CN114638365B (zh) * 2022-05-17 2022-09-06 之江实验室 一种机器阅读理解推理方法及装置、电子设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886798A (zh) * 2017-03-10 2017-06-23 北京工业大学 基于矩阵变量的高斯分布受限玻尔兹曼机的图像识别方法
CN107967441A (zh) * 2017-09-19 2018-04-27 北京工业大学 一种基于双通道3d-2d rbm模型的视频行为识别方法
CN108073888A (zh) * 2017-08-07 2018-05-25 中国科学院深圳先进技术研究院 一种教学辅助方法及采用该方法的教学辅助系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4517409B2 (ja) * 1998-11-09 2010-08-04 ソニー株式会社 データ処理装置およびデータ処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886798A (zh) * 2017-03-10 2017-06-23 北京工业大学 基于矩阵变量的高斯分布受限玻尔兹曼机的图像识别方法
CN108073888A (zh) * 2017-08-07 2018-05-25 中国科学院深圳先进技术研究院 一种教学辅助方法及采用该方法的教学辅助系统
CN107967441A (zh) * 2017-09-19 2018-04-27 北京工业大学 一种基于双通道3d-2d rbm模型的视频行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"高斯分布受限玻尔兹曼机及其高维扩展";刘思萌;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180715;第I140-119 *

Also Published As

Publication number Publication date
US11449965B2 (en) 2022-09-20
US20200234405A1 (en) 2020-07-23
CN109977989A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN109977989B (zh) 一种图像张量数据的处理方法
Liu et al. Frequency-domain dynamic pruning for convolutional neural networks
Murugan et al. Regularization and optimization strategies in deep convolutional neural network
Sprechmann et al. Supervised sparse analysis and synthesis operators
Bohra et al. Learning activation functions in deep (spline) neural networks
CN111696027B (zh) 一种基于适应性注意力机制的多模态的图像风格迁移方法
Mahdizadehaghdam et al. Sparse generative adversarial network
WO2015134900A1 (en) Neural network and method of neural network training
EP3469521A1 (en) Neural network and method of neural network training
US11836572B2 (en) Quantum inspired convolutional kernels for convolutional neural networks
CN110929798A (zh) 基于结构优化稀疏卷积神经网络的图像分类方法及介质
Hodgkinson et al. Stochastic normalizing flows
Bungert et al. A Bregman learning framework for sparse neural networks
CN116168197A (zh) 一种基于Transformer分割网络和正则化训练的图像分割方法
Chen et al. Distribution approximation and statistical estimation guarantees of generative adversarial networks
Wen et al. The power of complementary regularizers: Image recovery via transform learning and low-rank modeling
CN109934281B (zh) 一种二分类网络的非监督训练方法
CN110288002B (zh) 一种基于稀疏正交神经网络的图像分类方法
CN115280329A (zh) 用于查询训练的方法和系统
CN115346091B (zh) 一种Mura缺陷图像数据集的生成方法和生成装置
CN111046958A (zh) 基于数据依赖的核学习和字典学习的图像分类及识别方法
CN112132760B (zh) 基于可学习可微分矩阵逆及矩阵分解的图像恢复方法
Moeller et al. Image denoising—old and new
Bruno et al. Mini-batch consistent slot set encoder for scalable set encoding
Zeng et al. Slice-based online convolutional dictionary learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant