CN106886798A

CN106886798A - 基于矩阵变量的高斯分布受限玻尔兹曼机的图像识别方法

Info

Publication number: CN106886798A
Application number: CN201710141534.XA
Authority: CN
Inventors: 孙艳丰; 刘思萌; 胡永利; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-03-10
Filing date: 2017-03-10
Publication date: 2017-06-23

Abstract

本发明公开一种基于高斯分布的受限玻尔兹曼机模型的图像识别方法，所述受限玻尔兹曼机模型用于对二维图像进行特征提取，记为MVGRBM，所述模型能够直接对图像进行建模，而不需要向量化，保留了原始样本的结构信息；由于MVGRBM的可视层和隐藏层服从参数不同的高斯分布，可视层服从高斯分布能够更加精确地拟合输入值为实数的样本，隐藏层服从高斯分布可以使得特征矩阵分布在实数域上，故特征矩阵能够表达更加丰富的信息。采用本发明的技术方案，具有更好的识别准确率。

Description

基于矩阵变量的高斯分布受限玻尔兹曼机的图像识别方法

技术领域

本发明属于特征提取及神经网络领域，尤其涉及一种基于高斯分布的矩阵变量的受限玻尔兹曼机的图像识别方法。

背景技术

人工神经网络(Artificial Neural Network，ANN)是一种通过模仿生物神经网络的结构和功能而建立起来的计算模型，是很具有代表性的一类机器学习方法。典型的ANN是由大量的简单处理节点(人工神经元)构成，这些节点是具有层次结构的，并且以指定方式互相关联。一些节点对外部可见而另外一些对外部隐藏，两个节点间的关联即权重。训练一个ANN模型即是要根据训练数据计算权重系数。

玻尔兹曼机(Boltzmann Machine，BM)是Hinton和Sejnowski于1985年提出的一种根植于统计力学的随机神经网络。BM由一个可见层和一个隐藏层组成，两层节点之间以及隐藏层的节点间拥有对称的双向连接权重。在训练时，将训练数据集作为可见层的输入，神经元的输出只有两种状态(未激活、激活)，一般用二进制的0和1表示，状态的取值根据概率统计法则决定。

BM具有强大的无监督学习能力，能够学习数据中复杂的规则。但是，BM的同层节点间具有相互关联，所以导致其难以训练。为克服这一问题，Smolensky引入了一种限制的波尔兹曼机(Restricted Boltzmann Machine，RBM)。RBM与BM具有相同的层次结构，而不同的是RBM模型的同层节点间不再具有连接权重。RBM具有很好的性质：在给定可见层节点状态(输入数据)时，各隐藏层节点的激活条件独立；反之，在给定隐藏层节点状态时，可见层节点的激活亦条件独立。这种修改简化了涉及到的公式，并大大加快了算法的学习速度。此外，Roux和Bengio从理论上证明，只要隐单元的数目足够多，RBM能够拟合任意离散分布。在求解模型时，可通过Gibbs采样得到服从RBM节点分布的随机样本，但Gibbs采样迭代次数较多，而当RBM中节点数较多时，学习速度仍然很慢。为了解决采样速度慢的问题，Hinton提出了RBM的快速学习算法——对比散度(Contrastive Divergence，CD)，此方法可以通过一次迭代得到样本的近似。还有一些研究者在CD算法的基础上，对其作了进一步改进。例如Tieleman于年提出了持续对比散度(Persistent Contrastive Divergence，PCD)算法，Tieleman和Hinton进一步改进了PCD算法，提出了快速持续对比散度(Fast PersistentContrastive Divergence，FPCD)算法。目前，RBM被应用于深度信念网络(Deep BeliefNets，DBN)的多层结构的构建，以及不同的机器学习问题，如数据降维、人脸识别、协同过滤等。

原始的BM和RBM的输入和输出节点都是二值的，这就带来了两个主要的限制：(1)这种模型仅适用于二值数据的或近似于二值数据的数据集，而很多现实世界中的数据不能用二值数据近似；(2)二值的隐藏层节点不能完整地表达数据降维或特征提取后的信息。为了克服这些问题，人们改进RBM模型，使其接受连续值作为输入，例如GBRBM(GaussianBernoulli RBM):GBRBM的可见层节点服从高斯分布，其隐藏层节点仍然是二进制数据，服从伯努利分布。GBRBM比RBM拥有更好的表达能力，并且GBRBM能够适用于更多的领域。Cho等人于2011年提出了IGBRBM(Improved Gaussian Bernoulli RBM)，IGBRBM是对GBRBM进行了改进，应用了自适应的学习率，克服了模型训练难度大、收敛速度慢等问题。

经典的RBM模型主要用于输入为一维向量数据。然而，现实世界中的数据往往是高维的，并且其内部具有相关结构，例如图像、视频等。传统的RBM总是将高维数据进行向量化，得到一维数据。但向量化后，原始数据的结构被破坏，并且造成了维度灾难。因此出现了高阶玻尔兹曼机，Nguyen at al.提出了张量数据的RBM(Tensor-variate RBM,TvRBM),Qiat al.提出了矩阵数据的RBM(Matrix Variate RBM,MVRBM)。但它们的可视层和隐藏层都是满足Bernoulli分布的二值数据，并不能很好的拟合现实中的数据，因此对于分布在实数域上的图像的识别效果较差。

由于IGBRBM模型中，隐藏层节点取0或1值，服从二项分布，所以由此模型得到的隐藏层输出损失了原始数据的信息。所以本发明修改IGBRBM模型，假设RBM的可视层单元和隐藏层单元均不再取单一的0或1值，即不再令模型的可视层和隐藏层节点服从二项分布。由于Welling指出，RBM中的隐藏层节点和可见层节点的分布可以为任意的指数族分布，所以本发明假设RBM的可视层和隐藏层均满足高斯分布。由于经典的RBM模型只能对一维数据进行建模，而当高维数据作为输入时，需要先对输入样本进行向量化，这样做破坏了样本的空间内部结构。因此借鉴MVRBM的思想，对二维样本直接建模。最终形成了本发明的模型——矩阵变量高斯分布受限玻尔兹曼机(MVGRBM)。

发明内容

本发明提出了一种图像识别方法，采用基于高斯分布的受限玻尔兹曼机模型，用于对二维图像进行特征提取，记为MVGRBM。此模型能够直接对图像进行建模，而不需要向量化，保留了原始样本的结构信息。由于MVGRBM的可视层和隐藏层服从参数不同的高斯分布，可视层服从高斯分布能够更加精确地拟合输入值为实数的样本，隐藏层服从高斯分布可以使得特征矩阵分布在实数域上，故特征矩阵能够表达更加丰富的信息。

为实现上述目的，本发明采用如下的技术方案：

一种基于高斯分布的受限玻尔兹曼机模型的图像识别方法，包括以下步骤：

步骤1、建立基于高斯分布的矩阵变量受限玻尔兹曼机模型

将经典的受限玻尔兹曼机模型扩展到高维空间，给出其能量函数为：

E(X，Y)＝∑_i∑_jx_ija_ij+∑_k∑_ly_klb_kl-∑_i∑_j∑_k∑_lω_ijklx_ijy_kl

表示一张大小为I×J的原始图像，表示使用此模型提取的图像特征矩阵，其大小为K×L；表示图像的偏移量，表示图像特征矩阵的偏移量，

假设图像的每个像素点服从高斯分布，即图像的第(i，j)个像素点的方差为图像特征矩阵的每个元素服从高斯分布，即第(k，l)个元素的方差为原始图像与特征矩阵的连接权重是一个四阶张量此模型的能量函数为：

令w_ijkl＝u_kiv_lj，用两个矩阵和代替张量则需要求解的参数数量降低为K×I+L×J，

将能量函数改写成矩阵的形式：

其中，

分别计算出图像和特征矩阵的条件概率：

步骤2、矩阵变量受限玻尔兹曼机模型求解

使用极大似然估计训练MVGRBM模型。

其中，为模型需要求解的参数，表示在参数给定的情况下，得到原始图像的概率，要使得到原始图像的概率最大，需要求这个函数的极大值，假设图像集共有N张图片，那么图像集的对数极大似然估计定义为：

使用梯度上升法求解参数，首先对参数求偏导，得到参数偏导数的通式：

对于每个参数，其偏导数为：

其中，

利用上面求得的偏导数得到参数的梯度：

其中，α为学习率，λ为控制训练收敛速度的动量项，β控制权重参数在迭代更新时梯度太大；输入图像的训练集，利用参数梯度更新各参数，迭代多次，得到使似然函数达到最大的模型。

步骤3、基于高斯分布的矩阵变量受限玻尔兹曼机模型进行图像识别。

作为优选，步骤3中利用上文得到的模型，结合最近邻方法，对于图像的测试集做识别，具体方法为：

3.1、将测试图像输入到模型中，得到测试图像的特征矩阵；

3.2、此特征矩阵与训练集每一张图像的特征矩阵求距离，得到距离最小的训练样本；

3.3、将此训练样本的标签作为测试样本的标签；

3.4、对每张测试图像重复上述过程。

附图说明

图1为本发明图像识别方法的流程图。

具体实施方式

如图1所示，本发明提供一种基于高斯分布的受限玻尔兹曼机模型的图像识别方法，包括以下步骤：

步骤1、建立基于高斯分布的矩阵变量受限玻尔兹曼机模型

Qi at al.将经典的受限玻尔兹曼机模型扩展到高维空间，给出其能量函数为：

E(X，Y)＝Σ_iΣ_jx_ija_ij+Σ_kΣ_ly_klb_kl-Σ_iΣ_jΣ_kΣ_lw_ijklx_ijy_kl (1)

表示一张大小为I×J的原始图像，表示使用此模型提取的图像特征矩阵，其大小为K×L；表示图像的偏移量，表示图像特征矩阵的偏移量。

本发明假设图像的每个像素点服从高斯分布，即图像的第(i，j)个像素点的方差为图像特征矩阵的每个元素服从高斯分布，即第(k，l)个元素的方差为原始图像与特征矩阵的连接权重是一个四阶张量此模型的能量函数为：

由于原始图像与特征矩阵的连接权重是一个四阶张量，则需要计算I×J×K×L个参数，计算复杂度高。为了降低参数求解的复杂度，本发明令w_ijkl＝u_kiv_lj，用两个矩阵和代替张量则需要求解的参数数量降低为K×I+L×J。

将能量函数改写成矩阵的形式：

其中

分别计算出图像和特征矩阵的条件概率：

步骤2、矩阵变量受限玻尔兹曼机模型求解

本发明使用极大似然估计训练MVGRBM模型。

其中为模型需要求解的参数。表示在参数给定的情况下，得到原始图像的概率。要使得到原始图像的概率最大，需要求这个函数的极大值。为了简化计算复杂度通常采用对数似然函数。假设图像集共有N张图片，那么图像集的对数极大似然估计定义为：

使用梯度上升法求解参数。首先对参数求偏导，得到参数偏导数的通式：

对于每个参数，其偏导数为：

其中

利用上面求得的偏导数得到参数的梯度：

其中，α为学习率，λ为控制训练收敛速度的动量项，β控制权重参数在迭代更新时梯度太大。输入图像的训练集，利用参数梯度更新各参数，迭代多次，可以得到使似然函数达到最大的模型。

步骤3、基于高斯分布的矩阵变量受限玻尔兹曼机模型的图像识别

利用上文得到的模型，结合最近邻方法，对于图像的测试集做识别，具体方法为：

1)将测试图像输入到模型中，得到测试图像的特征矩阵；

2)此特征矩阵与训练集每一张图像的特征矩阵求距离，得到距离最小的训练样本；

3)将此训练样本的标签作为测试样本的标签；

4)对每张测试图像重复上述过程。

实施例1

本发明通过与同类方法的对比实验，来说明本发明对于图像识别的有效性，对比的方法有传统RBM，IGBRBM，MVRBM。本发明的实验还探索了训练过程中，迭代次数对于识别准确度的影响。

本发明在以下数据库上进行了实验：

MNIST Database：MNIST数据库为手写数字数据库，包含0～9十个数字的60,000张训练图片以及10,000张测试图片。每张图片的大小为28*28的灰度图像。

ETH-80 Database：ETH-80数据库包含8类物体，每一类包含10个不同的物体的41个不同视角的图片，总共3,280张图片。将每张图片下采样到32*32，并将每张图片转化为灰度图像。

Ballet Database：Ballet数据库包含从芭蕾舞DVD中截取的44段视频。每段视频包含107到506帧。整个数据集包含8种复杂动作。将每一帧图像下采样为32*32大小，并把图像转化为灰度图像。

1手写数字图像识别实验

表一MNIST数据库识别准确率

表一展示了在不同的迭代次数下，RBM、IGBRBM、MVRBM以及本发明的模型MVGRBM对于MNIST手写数字数据库的测试集的识别准确率。可以看到本发明的模型在迭代1000次时识别准确率最高，结果为0.9700。并且在迭代100次时，结果好于其他的三种方法，这说明本发明的方法在迭代次数较少时可以达到更好的效果，其效率优于其他三种方法。

2物体图像识别实验

本发明在ETH-80物体库上做分类实验。ETH-80库共有8类，每类物体的每个实例有41张不同视角的图片，故随机选出21张图片做训练，剩余的20张做测试。则训练集共1680张图片，测试集共1600张图片。测试集的分类准确率如表二所示。

表二ETH-80数据库识别准确率

从表二中可以看出，本发明的方法对于物体图像的识别准确率明显优于其他三种方法，识别准确率为0.8894。并且在迭代次数较少时，其识别准确率接近此方法的最好水平。但在迭代次数增加时，例如2000次，此时识别准确率反而低于迭代1000次时的值。这说明训练次数过大，会造成过拟合现象。

3芭蕾舞视频序列识别实验

在Ballet视频数据库上做分类实验。Ballet数据库共包含8种动作，每种动作随机选取200张图片作为训练集，剩下的图片作为测试集。分类准确率如表三所示。

表三Ballet数据库识别准确率

表三的结果表明使用本发明的方法对于芭蕾舞视频的识别效果好于同类方法，其识别准确率为0.9357.并且，本发明的方法在训练的迭代次数较少的情况下，仍能获得较好的识别准确率。

表一到表三均证明使用本发明的模型识别效果较好，这得益于模型假设输入图像与图像的特征矩阵都服从高斯分布。并且三组实验均在训练迭代次数较少的情况下，达到较高的识别准确度，这大大加速了模型的训练过程。

本发明提出了一种改进的受限玻尔兹曼机模型，并利用此模型进行图像识别。其关键点为模型的输入接受矩阵形式的图像，而不需要向量化，模型提取的图像的特征为矩阵形式，并且输入图像和特征矩阵均服从高斯分布。相比于经典的RBM，此模型能够直接对二维数据进行建模而不破坏其空间内部结构，并且可以更加精准的建模非二值数据，因此在重构效果上比传统RBM更好。此模型的隐藏层为模型提取的特征，也是分布在实数域上的，这意味着特征包含了更多的信息，利用此模型提取的信息进行作为分类器的输入，可以得到比同类方法更好的识别准确率。

以上所述，仅是本发明的较佳实验例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种基于高斯分布的受限玻尔兹曼机模型的图像识别方法，其特征在于，包括以下步骤：

步骤1、建立基于高斯分布的矩阵变量受限玻尔兹曼机模型

E(X，Y)＝∑_i∑_jx_ija_ij+∑_k∑_l y_klb_kl-∑_i∑_j∑_k∑_lw_ijklx_ijy_kl

E (X, Y) = Σ_{i} Σ_{j} \frac{{(x_{i j} - a_{i j})}^{2}}{2 σ_{i j}^{2}} + Σ_{k} Σ_{l} \frac{{(y_{k l} - b_{k l})}^{2}}{2 γ_{k l}^{2}} - Σ_{i} Σ_{j} Σ_{k} Σ_{l} \frac{w_{i j k l} x_{i j} y_{k l}}{σ_{i j}^{2} γ_{k l}^{2}}

将能量函数改写成矩阵的形式：

E (X, Y; Θ) = t r ({(X - B)}^{2} . / Σ^{2}) + t r ({(Y - C)}^{2} . / Γ^{2}) - t r (U^{T} \overset{&OverBar;}{Y} V {\overset{&OverBar;}{X}}^{T})

其中，

分别计算出图像和特征矩阵的条件概率：

步骤2、矩阵变量受限玻尔兹曼机模型求解

使用极大似然估计训练MVGRBM模型。

\frac{\partial l}{\partial θ} = - \frac{1}{N} Σ_{n = 1}^{N} Σ_{Y &Element; y} p (Y | X_{n}; Θ) \frac{\partial E (X_{n}, Y; Θ)}{\partial θ} + \frac{1}{N} Σ_{n = 1}^{N} Σ_{Y^{'} &Element; y} p (Y^{'} | X_{n}^{(k)}; Θ) \frac{\partial E (X_{n}^{(k)}, Y^{'}; Θ)}{\partial θ}

对于每个参数，其偏导数为：

\frac{\partial l}{\partial C} = \frac{1}{N} Σ_{n = 1}^{N} {\overset{&OverBar;}{Y}}_{n}^{(0)} - \frac{1}{N} Σ_{n = 1}^{N} {\overset{&OverBar;}{Y}}_{n}^{(k)}

\frac{\partial l}{\partial B} = \frac{1}{N} Σ_{n = 1}^{N} {\overset{&OverBar;}{X}}_{n} - \frac{1}{N} Σ_{n = 1}^{N} {\overset{&OverBar;}{X}}_{n}^{(k)}

\frac{\partial l}{\partial U} = \frac{1}{N} Σ_{n = 1}^{N} {\overset{&OverBar;}{Y}}_{n}^{(0)} V {\overset{&OverBar;}{X}}_{n}^{T} - \frac{1}{N} Σ_{n = 1}^{N} {\overset{&OverBar;}{Y}}_{n}^{(k)} V {\overset{&OverBar;}{X}}_{n}^{(k) T}

\frac{\partial l}{\partial V} = \frac{1}{N} Σ_{n = 1}^{N} {\overset{&OverBar;}{Y}}_{n}^{(0) T} U {\overset{&OverBar;}{X}}_{n} - \frac{1}{N} Σ_{n = 1}^{N} {\overset{&OverBar;}{Y}}_{n}^{(k) T} U {\overset{&OverBar;}{X}}_{n}^{(k)}

其中，

G_{n} = [g_{i j}^{(n)} = \frac{{(x_{i j}^{(n)} - b_{i j})}^{2}}{σ_{i j}^{3}}] a n d {\overset{\cdot}{X}}_{n} = [{\overset{\cdot}{x}}_{i j}^{(n)} = \frac{x_{i j}^{(n)}}{σ_{i j}^{3}}],

H_{n} = [h_{k l}^{(n)} = \frac{(y_{k l}^{(n)} - c_{k l})}{γ_{k l}^{3}}] a n d {\overset{\cdot}{Y}}_{n} = [{\overset{\cdot}{y}}_{k l}^{(n)} = \frac{y_{k l}^{(n)}}{γ_{k l}^{3}}] .

利用上面求得的偏导数得到参数的梯度：

Δ U = λ Δ U + α (\frac{\partial l}{\partial U} - β U);

Δ V = λ Δ V + α (\frac{\partial l}{\partial V} - β V);

Δ B = λ Δ B + α \frac{\partial l}{\partial B};

Δ C = λ Δ C + α \frac{\partial l}{\partial C};

Δ Σ = λ Δ Σ + α \frac{\partial l}{\partial Σ}

Δ Γ = λ Δ Γ + α \frac{\partial l}{\partial Γ}; - - - (20)

2.如权利要求1所述基于高斯分布的受限玻尔兹曼机模型的图像识别方法，其特征在于，步骤3中利用上文得到的模型，结合最近邻方法，对于图像的测试集做识别，具体方法为：

3.1、将测试图像输入到模型中，得到测试图像的特征矩阵；

3.3、将此训练样本的标签作为测试样本的标签；

3.4、对每张测试图像重复上述过程。