CN109977989B

CN109977989B - 一种图像张量数据的处理方法

Info

Publication number: CN109977989B
Application number: CN201910042613.4A
Authority: CN
Inventors: 孙艳丰; 句福娇
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2021-04-20
Anticipated expiration: 2039-01-17
Also published as: US11449965B2; US20200234405A1; CN109977989A

Abstract

本发明公开一种图像张量数据的处理方法，其能够大大降低模型中自由参数个数，权值层的限制灵活，可以适用于任意阶数的图像张量数据。这种图像张量数据的处理方法，该方法引入具有tensor train结构的受限玻尔兹曼机TTRBM模型，该方法的输入与输出数据均用张量表示，中间层的权值也用张量表示，限制权值具有Tensor Train的结构；通过调整张量Train分解的秩控制中间层中自由参数个数；调节TT分解的秩，尺寸相同的不同特征表示。

Description

一种图像张量数据的处理方法

技术领域

本发明涉及数据处理的技术领域，尤其涉及一种图像张量数据的处理方法，其能够直接应用于任意阶数的图像张量数据。

背景技术

受限玻尔兹曼机(Restricted Boltzmman Machine,RBM)是由可见层和隐含层组成的两层神经网络,由于其很强的特征表示能力,而被广泛应用到模式识别和机器学习中。传统RBM中的可见层和隐含层数据都是用向量形式表示。

然而,今天来源于实际生活中的数据常常具有高维度特性。为了在这些高维数据上应用RBM,常用的方法就是将数据向量化,向量化的过程往往会破坏高维数据中的内部结构,导致重要的关联信息丢失,或者是产生维度灾难的问题。另外,RBM是一种全连接的网络结构,随着数据维度的增长,模型中的参数将呈指数形式增长。因而需要更多的存储空间和更高的计算复杂度,这使得RBM算法不适合在普通设备或高维数据上应用。

发明内容

为克服现有技术的缺陷，本发明要解决的技术问题是提供了一种图像张量数据的处理方法，其能够大大降低模型中自由参数个数，权值层的限制灵活，可以适用于任意阶数的图像张量数据。

本发明的技术方案是：这种图像张量数据的处理方法，该方法引入具有 tensortrain结构的受限玻尔兹曼机TTRBM模型，该方法的输入与输出数据均用张量表示，中间层的权值也用张量表示，限制权值具有Tensor Train的结构；通过调整张量Train分解的秩控制中间层中自由参数个数；调节TT分解的秩，尺寸相同的不同特征表示。

本发明的模型输入与输出数据均用张量表示,中间层的权值也用张量表示，为了减少中间层的权值数量,发明中限制权值具有Tensor Train的结构，通过调整张量Train分解的秩控制中间层中自由参数个数,权值层的自由参数个数随着样本数据的维度呈线性增长,这样大大降低了模型中自由参数个数，权值层的限制灵活，可以适用于任意阶数的图像张量数据。

附图说明

图1展示了一部分手写数字的原图以及重构后的图像。

图2展示了FERET数据库中一些人脸图像的对比结果。

图3是本发明一个优选实施例的流程图。

具体实施方式

这种图像张量数据的处理方法，该方法引入具有tensor train结构的受限玻尔兹曼机TTRBM模型，该方法的输入与输出数据均用张量表示，中间层的权值也用张量表示，限制权值具有Tensor Train的结构；通过调整张量 Train分解的秩控制中间层中自由参数个数；调节TT分解的秩，尺寸相同的不同特征表示。

优选地，TTRBM模型的能量函数为公式(1)

其中

分别为可见单元和隐含单元，他们都是二值的， b∈R^I以及

是偏置项，

是连接可见单元和隐含单元的权值矩阵，定义Θ＝{b，c，W}为所有模型的参数，G_d[i_d，j_d] 为r_d-1×r_d的矩阵，G_d为r_d-1×I_d×J_d×r_d大小的高维数据，

为TT分解的秩，基于上述能量函数，定义可见层

与隐含层

之间的联合分布为

其中Θ表示偏置项

模型中所有的参数为

在上述联合分布中，Z(Θ)为归一化常数，其定义为，

其中

和

表示的是可见层

与隐含层

的取值空间。

优选地，公式(1)中，每个可见单元

在其他变量下的条件分布为，

以及每个隐含单元

在其他变量下的条件分布为，

其中σ为sigmoid函数σ(x)＝1/(1+e^-x)。

优选地，假设

为观测样本集，则数据集的似然函数的对数函数为，

对于Θ中任意的参数θ，

利用吉布斯采样的方式采集一系列样本集，首先从样本集中选定某个样本

迭代采样得到

模型的期望通过样本

进行近似，

定义两个指标

以及

从而可以将核矩阵分别写为，

以及

公式(1)对

的导数为，

由于

或者

是二值的，则

的均值等于

的概率值，将公式(5)插入到公式(3)，得到似然函数对

的偏导数为，

对于偏置项得到

以及

优选地，如图3所示，该方法包括以下步骤：

(1)给定包含N个张量形式的训练样本集

最大迭代次数为T，初始值设为10000以及∈，学习率α，初始值设为 0.05，权重β，初始值设为0.01，参数γ，初始值设为0.5，批量样本的大小b，初始值为100，以及K＝1；

(2)随机初始化G_d[i_d，j_d]，

以及

(3)t＝1：T循环：

将样本集

随机分为M个子样本集

每个子样本集中包含b样本，则

m＝1：M循环：

固定当前模型的参数Θ，从

开始进行采样；

k＝0：K-1

固定

利用公式(3)对

进行更新；

固定

利用公式(2)对

进行更新；循环结束；

利用(6)-(8)计算参数的梯度分别为：

迭代参数：θ→θ+Δθ，循环结束

计算e(t)，如果|e(t)-e(t+1)|＜∈成立，则终止迭代；循环结束。

优选地，该方法用于描述学习一种数据的生成模型，这种模型包含多种数据的输入，定义这种模型为多模态的TTRBM。

优选地，训练阶段，利用五种矩阵的图像块(X，Z¹，Z²，Z³，Z⁴)作为训练集，X表示高分辨率图像块，它是从彩色图像的YCbCr空间的Y通道生成的图像，(Z¹，Z²，Z³，Z⁴)表示的是低分辨率图像，它们分别是Y通道 x-,y-,xx-,yy-方向的图像的梯度，(X，Z¹，Z²，Z³，Z⁴)是可见层的输入，它们连接着共同的隐含层Y，因此，公式(1)写为，

可见层与隐含层的联合分布为，

为了得到训练样本，从设定的69幅彩色图像中获取图像块，从而得到包含10,000个图像块的训练图像集

图像块的大小为15*15，隐含层的大小为20*20，

测试阶段，给定一幅低分辨图像，它的四个低分辨特征 Z＝{Z¹，Z²，Z³，Z⁴}，然后利用一种简单的高分辨重建方法，得到预期的X⁰， X⁰以Z被看作是可见层的输入，通过可见层的输入得到隐含层Y，进而，隐含层的值又传递回可见层，从而得到高分辨图像块X，最后再将图像块还原为原来图像的大小。

以下更详细地说明本发明。

本发明采用的技术方案为一种张量数据的受限玻尔兹曼机方法，该方法的具体实施过程如下：

二维模型构建

首先引入具有tensor train结构的受限玻尔兹曼机(TTRBM)模型。

传统RBM的能量函数为：

E(x，y；Θ)＝-x^TWy-b^Tx-c^Ty

其中

分别为可见单元和隐含单元，他们都是二值的，b∈R^I以及

是偏置项，

是连接可见单元和隐含单元的权值矩阵。定义Θ＝{b，c，W}为所有模型的参数。由于传统的RBM都是基于向量形式的输入和输出，为了避免向量化，引入张量形式的可见单元和隐含单元，这样，能量函数可变为，

其中

和

分别为张量数据的可见单元和隐含单元。可见层中的第 (i₁，...，i_D)个单元与隐含层的第(j₁，...，j_D)个单元的连接权值可以表示为 W((i₁，...，i_D)，(j₁，...，j_D))，其中i_d＝1，...，I_d以及j_d＝1，...，J_d。全连接的网络都是面对一个主要的问题，随之输入数据维度的增加，权值层中的自由参数的个数增长过快。为了控制参数的过快增长，引入tensor train 的结构对权值层加以约束。假设权值张量W具有tensor train(TT)结构，其核矩阵为G_d[i_d，j_d](d＝1，2，...，D)。因此，上述能量函数可以变为，

其中G_d[i_d，j_d]为r_d-1×r_d的矩阵，G_d为r_d-1×I_d×J_d×r_d大小的高维数据。

为TT分解的秩。基于上述能量函数，可以定义可见层

与隐含层

之间的联合分布为，

其中Θ表示偏置项

模型中所有的参数为

在上述联合分布中，Z(Θ)为归一化常数，其定义为，

其中

和

表示的是可见层

与隐含层

的取值空间。

模型的求解

在研究TTRBM模型算法之前，首先给出下面的理论。

定理1.在TTRBM模型中，每个可见单元

在其他变量下的条件分布为，

以及每个隐含单元

在其他变量下的条件分布为，

其中σ为sigmoid函数σ(x)＝1/(1+e^-x)。

证明:由于

和

对称的，因此只需要证明其中一项成立即可。首先定义下式，

以

的证明进行说明。基于贝叶斯定理，可以得到，

其中，

定义

为

中除去(i′₁，...，i′_D)后所有的元素集合，则

从而可以推导出

令(i₁，...，i_D)＝(i′₁，...，i′_D)即得出结论。

假设

为观测样本集，则数据集的似然函数的对数函数为，

对于Θ中任意的参数θ，可以证明

上式中等式右边第一项可以看作是数据的期望，第二项是模型的期望。由于模型的期望值需要计算样本空间中所有可见层和隐含层取值可能性的和，因此该式的计算难点在于计算模型的期望。为了避免这个问题，可以从模型中采样，利用采集的样本的期望来近似模型的期望。这就是对比散度的算法，该算法的思想很简单，即利用吉布斯采样的方式采集一系列样本集，首先从样本集中选定某个样本

通过定理1迭代采样可以得到

因此，模型的期望可以通过样本

进行近似，即，

从而可以得到，

为了清楚，下面定义两个指标

以及

从而可以将核矩阵分别写为，

以及

对于核矩阵

我们以计算

为例进行说明，其他参数的导数计算方式类似。能量函数(1)对

的导数为，

又由于

或者

是二值的，则

的均值等于

的概率值，将(5)插入到(3)可以得到似然函数对

的偏导数为，

利用同样的方法，对于偏置项，我们可以得到，

以及

从之前定义的能量函数(1)可以看出，能量函数只依赖 G_d[i_d，j_d]，d＝1，...，D。当一个参数增长s倍时，其他参数降低1/s倍时，他们的乘积不变，不会影响能量函数的值，为了避免这个问题，在优化目标中，加上惩罚项

TTRBM的求解算法可以总结为下表1。定义原始样本集与重构样本集之间的重构误差为，

其中，

另外，

以及G_d表示第t步的迭代结果。为了终止迭代，设定最大迭代次数为T，以及当给定∈，迭代误差满足 |e(t)-e(t+1)|＜∈。

表1

实验测试：

1.重构实验：

为了测试TTRBM算法的收敛性，下面从两个数据库上进行了重构的实验对比。该实验涉及到两个数据库：

·MINISI数据库中的一部分手写体数字集。

手写体数据集中共包含70,000幅带标签的手写体数字图像，每张图像都是灰度图像，大小为28*28。在这个数据集中，有60,000个训练样本以及10,000个测试样本。重构实验中，在每个数字中选取2,000幅图像(共20,000幅)做重构实验。

·FERET人脸数据库。

该数据库包含200个人的1400幅图像，每个人7幅图像。所有图像都经过灰度化的处理，并下采样到32*32。实验中，随机选取100个人的图像做测试。

实验中，γ，α以及β的初始值如算法1所示。当D＝2并且TT分解的秩为 r＝[1,1,1]时，TTRBM与MVRBM方法是类似的。每一层的参数实际上是两个矩阵的乘积形式。在TTRBM模型中，权值层的两个核矩阵G₁和G₂大小分别为 I₁×J₁以及I₂×J₂，然而，在MVRBM中，两个核矩阵的大小分别为J₁×I₁以及J₂×I₂。因此，主要对比了这两种方法在重构实验中的差别。

手写体数据集上，设定隐含矩阵的大小为25*25，最大迭代次数为T＝150。结果表明，当r＝[1,1,1]时，提出的方法的收敛速度比另一种方法稍快一些。但当r＝[1,2,1]时，本方法的收敛速度要明显快与另一种方法。图1展示了一部分手写数字的原图以及重构后的图像。不同方法的重构图像视觉效果相似，这是因为不同算法几乎都收敛到同一误差值，MVRBM的重构误差为 10.2275/(28*28)，TTRBM(r＝[1,2,1])的重构误差为9.7783/(28*28)。

与MVRBM相比，本方法的优势在于可以调节TT分解的秩进而重构人脸图像。设定r＝[1,5,1]以及r＝[1,10,1]。实验结果表明，当r＝[1,5,1]以及 r＝[1,10,1]，TTRBM的重构呈现逐渐递减的趋势，即适当调整TT分解的秩， TTRBM算法在重构人脸数据时是收敛的。图2展示了FERET数据库中一些人脸图像的对比结果，可以看出MVRBM以及TTRBM(r＝[1,1,1])时都不能重构出正确的人脸图像，然而，当r＝[1,10,1]时，TTRBM重构出的人脸图像具有较好的视觉效果。

2.高分辨率图像的重建

所提出的TTRBM也可以用来描述学习一种数据的生成模型，这种模型包含多种数据的输入，因此可以定义这种模型为多模态的TTRBM。在这个实验中，利用高分辨率图像的重建来测试该模型的性能。

训练阶段，利用五种矩阵的图像块(X，Z¹，Z²，Z³，Z⁴)作为训练集，X表示高分辨率图像块，它是从彩色图像的YCbCr空间的Y通道生成的图像。 (Z¹，Z²，Z³，Z⁴)表示的是低分辨率图像，它们分别是Y通道x-,y-,xx-,yy- 方向的图像的梯度。(X，Z¹，Z²，Z³，Z⁴)可以看做是可见层的输入，它们连接着共同的隐含层Y，因此，能量函数可以写为，

可见层与隐含层的联合分布为，

为了得到训练样本，我们从69幅彩色图像中获取图像块，这些图像可以从网址http://decsai.ugr.es/cvg/dbimagenes/下载，从而可以得到包含10,000 个图像块的训练图像集

图像块的大小为15*15，隐含层的大小为20*20。通过上述定义的能量函数可以看出，该实验中在训练阶段需要估计得参数有

以及

测试阶段，给定一幅低分辨图像，它的四个低分辨特征可以得到 Z＝{Z¹，Z²，Z³，Z⁴}。然后利用一种简单的高分辨重建方法，我们就可以得到预期的X⁰。因此X⁰以Z被看作是可见层的输入。通过可见层的输入，我们可以得到隐含层Y，进而，隐含层的值又传递回可见层，从而得到高分辨图像块X，最后再将图像块还原为原来图像的大小。

表2分别列出了这些方法的重建图像结果以及耗费的时间。

表2

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种图像张量数据的处理方法，该方法引入具有TT结构的受限玻尔兹曼机TTRBM模型，该方法的输入与输出数据均用张量表示，中间层的权值也用张量表示，限制权值具有TT的结构；通过调整张量Train分解的秩控制中间层中自由参数个数；调节TT分解的秩，获得尺寸相同的不同特征表示；

其特征在于：TTRBM模型的能量函数为公式(1)

其中

分别为可见单元和隐含单元，他们都是二值的，

是偏置项，G_d[i_d，j_d](d＝1，...，D)为r_d-1×r_d的矩阵，G_d为r_d-1×I_d×J_d×r_d大小的高维数据，

为TT分解的秩，基于上述能量函数，定义可见单元

与隐含单元

之间的联合分布为

其中Θ表示偏置项

模型中所有的参数为

在上述联合分布中，Z(Θ)为归一化常数，其定义为，

其中

和

表示的是可见单元

与隐含单元

的取值空间。

2.根据权利要求1所述的图像张量数据的处理方法，其特征在于：

公式(1)中，每个可见单元

在其他变量下的条件分布为，

以及每个隐含单元

在其他变量下的条件分布为，

其中σ为sigmoid函数σ(x)＝1/(1+e^-x)。

3.根据权利要求2所述的图像张量数据的处理方法，其特征在于：

假设

为观测样本集，则数据集的似然函数的对数函数为，

对于Θ中任意的参数θ，

迭代采样得到

模型的期望通过样本

进行近似，

定义两个指标

以及

从而可以将核矩阵分别写为，

以及

公式(1)对

的导数为，

由于

或者

是二值的，则

的均值等于

的概率值，将公式(5)插入到公式(3)，得到似然函数对

的偏导数为，

对于偏置项得到

以及

4.根据权利要求3所述的图像张量数据的处理方法，其特征在于：

该方法包括以下步骤：

(1)给定包含N个张量形式的训练样本集

最大迭代次数为T＝10000，学习率α，初始值设为0.05，权重β，初始值设为0.01，参数γ，初始值设为0.5，批量样本的大小b，初始值为100，以及K＝1；

(2)随机初始化G_d[i_d，j_d]，

以及

(3)t＝1：T循环：

将样本集

随机分为M个子样本集

每个子样本集中包含b样本，则

m＝1：M循环：

固定当前模型的参数Θ，从

开始进行采样；

k＝0：K-1

固定

利用公式(3)对

进行更新；

固定

利用公式(2)对

进行更新；循环结束；

利用(6)-(8)计算参数的梯度分别为：

迭代参数：θ→θ+Δθ，循环结束；

5.根据权利要求4所述的图像张量数据的处理方法，其特征在于：该方法用于描述学习一种数据的生成模型，这种模型包含多种数据的输入，定义这种模型为多模态的TTRBM。

6.根据权利要求5所述的图像张量数据的处理方法，其特征在于：

训练阶段，利用五种矩阵的图像块(X，Z¹，Z²，Z³，Z⁴)作为训练集，X表示高分辨率图像块，它是从彩色图像的YCbCr空间的Y通道生成的图像，(Z¹，Z²，Z³，Z⁴)表示的是低分辨率图像，它们分别是Y通道x-,y-,xx-,yy-方向的图像的梯度，(X，Z¹，Z²，Z³，Z⁴)是可见单元的输入，它们连接着共同的隐含单元Y，因此，公式(1)写为，

可见单元与隐含单元的联合分布为，

图像块的大小为15*15，隐含单元的大小为20*20，

测试阶段，给定一幅低分辨图像，它的四个低分辨特征

然后利用一种简单的高分辨重建方法，得到预期的X⁰，X⁰和Z被看作是可见单元的输入，通过可见单元的输入得到隐含单元Y，进而，隐含单元的值又传递回可见单元，从而得到高分辨图像块X，最后再将图像块还原为原来图像的大小。