CN108510009A

CN108510009A - 一种基于判别矩阵变量受限玻尔兹曼机的图像识别方法

Info

Publication number: CN108510009A
Application number: CN201810336621.5A
Authority: CN
Inventors: 尹宝才; 田鹏宇; 李敬华; 孔德慧; 王立春
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-04-16
Filing date: 2018-04-16
Publication date: 2018-09-07
Also published as: CN109978080B; CN109978080A

Abstract

本发明公开一种基于判别式矩阵变量受限玻尔兹曼机模型的图像识别方法，采用基于判别的矩阵变量受限玻尔兹曼机用于二维图像分类，记为DisMVRBM，此模型能够直接对图像进行建模，而不需要向量化，保留了原始样本的结构信息。与MVRBM相比，本模型增加了标签层，意味着在提取特征的过程中融入了标签信息，使得提取的特征具有判别性，会提升分类性能；并且由于增加了标签层本模型可以直接当作一个独立的分类器，不用再链接其他的分类器，省去了对其他分类器的微调训练阶段。

Description

一种基于判别矩阵变量受限玻尔兹曼机的图像识别方法

技术领域

本发明属于模式识别技术领域，尤其涉及一种基于判别式矩阵变量受限玻尔兹曼机模型的图像识别方法。

背景技术

人工神经网络(Artificial Neural Network，ANN)是一种通过模仿生物神经网络的结构和功能而建立起来的计算模型，典型的ANN由大量的简单处理节点(人工神经元)构成，这些节点是具有层次结构的，并且以指定方式互相关联。一些节点对外部可见而另外一些对外部隐藏，两个节点间的关联即权重。训练一个ANN模型即是要根据训练数据计算权重系数。

受限波尔兹曼机(Restricted Boltzmann Machine，RBM)是基于统计力学的随机神经网络，能够拟合任意离散分布，常被用于深度信念网络(Deep Belief Nets，DBN)的多层结构的构建，以及不同的机器学习问题，如数据降维、人脸识别、协同过滤、重构、降噪等。RBM的输入层和隐层都是向量形式，当数据为高阶张量时，通常需要进行向量化处理，而高阶张量数据向量化会因破坏数据的空间结构而丢失有用的空间信息。为了不破坏数据的空间结构及其内在关联信息，Tu等人提出了张量变量受限玻尔兹曼机，但是这个模型的隐层依然是向量形式。齐光磊等人将RBM拓展为矩阵变量受限玻尔兹曼机(MVRBM)，该模型采用输入层与隐含层均为矩阵的表达形式。虽然这种矩阵形式能够保持数据的空间结构信息，但与RBM类似，也是无监督训练的，在提取特征时没有利用标签信息，因而提取到的特征不具有强判别性。

McCallum指出特征学习过程中利用标签信息是有益的。为了提取到有判别性的特征，很多人开始在训练过程中使用标签信息。Yang等人研究了对多模态数据和类别信息共同建模的方法并用于视频分类。Schmah提出了RBM的判别式训练方法，对每类数据训练一个RBM，这种方法和贝叶斯分类器相似。Hugo等人提出分类受限玻尔兹曼机学习算法。此外，受到具有判别性的监督子空间模型的启发，Guo等人将监督子空间约束增加到RBM隐层，上述模型都是面向向量变量的模型，即输入都是向量数据，对于图像/视频等高阶信号需要先将高维数据拉伸为向量，这种处理数据的方式必然会损失高维数据的空间结构信息。

本发明针对MVRBM不能提取具有判别性特征的问题改进了MVRBM，即在训练时充分利用数据的标签信息，使提取到的特征具有判别性；并且所提模型可直接用于分类而不需要额外的其他分类器执行分类任务。

发明内容

发明提供一种基于判别式矩阵变量受限玻尔兹曼机模型的图像识别方法，采用基于判别的矩阵变量受限玻尔兹曼机用于二维图像分类提出了一种基于判别的矩阵变量受限玻尔兹曼机用于二维图像分类，记为DisMVRBM。此模型能够直接对图像进行建模，而不需要向量化，保留了原始样本的结构信息。与MVRBM相比，本模型增加了标签层，意味着在提取特征的过程中融入了标签信息，使得提取的特征具有判别性，会提升分类性能；并且由于增加了标签层本模型可以直接当作一个独立的分类器，不用再链接其他的分类器，省去了对其他分类器的微调训练阶段。

附图说明

图1.本发明提出的DisMVRBM模型示意图。

具体实施方式

本发明提供一种基于判别式矩阵变量受限玻尔兹曼机模型的图像识别方法，包括以下步骤：

步骤1、判别式矩阵变量受限玻尔兹曼机模型

矩阵变量受限玻尔兹曼机模型的能量函数定义为：

这里，定义：为可视层矩阵变量，表示输入数据，即输入图像，每帧图像尺寸大小为I×J；为隐含层矩阵变量，表示基于该模型提取的输入数据的具有判别性的特征，即表示输入图像的特征，大小为K*L；为X与H的连接权重，是四阶张量变量，表示输入图像与模型提取到的特征之间的非线性映射关系；为可见层的偏置矩阵变量，表示输入数据的偏移量；为隐含层的偏置矩阵变量，表示输出特征的偏移量。

进一步地，可基于该能量函数定义可见层和隐含层的联合概率分布，即模型所拟合的输入图像与特征的联合概率,如公式(2)：

并基于该联合概率分布定义对数似然函数:

然后以最大化对数似然函数为目标，通过学习可见层和隐含层之间的模型参数，使在最优的一组模型参数下，所有样本发生的概率最大，从而得到输入数据的有效表示。

不过，MVRBM仍是一个具有表达力的无监督生成模型，能够很好地提取输入数据的特征；当被用于分类任务时，通常是结合传统的神经网络(NN)，基于MVRBM的模型参数初始化NN，并通过反向传播算法微调NN后进行分类。

为避免微调操作以及NN可能陷入局部最优的问题，本发明采用基于判别的矩阵变量受限玻尔兹曼机用于二维图像分类，记为DisMVRBM，即在原MVRBM模型基础上增加类别约束，使改进的MVRBM具有分类能力，如图1所示。

DisMVRBM旨在通过隐层特征H建模输入图像数

D_train＝{X⁽¹⁾,...,X⁽ⁿ⁾,...,X^(N)}和相应类别标签Y＝[Y_zt]∈R^Z*T,Z＝1的联合分布，因此定义有类别约束的能量函数如下：

这里，x，h，w，b和c的定义同上，增加的标签相关部分的定义如下：为可见层标签矩阵变量，标识输入数据的类别，即输入图像对应的标签，这里z＝Z＝1为常数，所以可视为向量变量；为Y与H的连接权重，是四阶张量变量，表示输入图像的标签与输出特征之间的非线性映射关系；为标签层的偏置矩阵变量，表示标签的偏移量，同理，可视为向量变量；

其中，标签层为一位有效编码向量，即如果输入数据的标签为第t类，则该数据对应的标签层向量的第t个分量为1，其他分量均置零。

由于模型的权重是四阶张量，数据量大大增加，使模型训练阶段有很高的时间复杂度。为减少模型参数，降低计算复杂度，本发明假定隐含层单元和可见层、以及隐含层和标签层的连接权重具有某种特定结构，从而大大减少自由参数数量，这种特定结构即对权重张量做分解：

w_ijkl＝u_kiv_lj和p_ztkl＝q_kzr_lt

通过定义矩阵形式：

从而得到变形后的DisMVRBM的能量函数为：

E(X,Y,H；Θ)＝-tr(U^THVX^T)-tr(X^TB)-tr(Q^THRY^T)-tr(Y^TD)-tr(H^TC)

(5)

其中，Θ＝{U,V,Q,R,B,C,D}表示模型所有参数。

基于以上公式，X,Y,H的联合概率，即输入图像、特征与对应标签的联合概率：

上式中归一化常量Z(Θ)定义为：

隐层某个单元被激活的概率，即某一个特征被激活的概率：

其中σ(a)＝1/(1+exp(-a))，以矩阵表示为：

p(H＝1|X,Y；Θ)＝σ(C+UXV^T+QYR^T) (9)

公式(8)表示逐一计算隐层H的每一个元素为1的概率，σ计算应用到相应的每一个矩阵元素。

可视层某个单元的激活概率，即某个输入图像像素点的激活概率：

矩阵形式表示为：

p(X＝1|H；Θ)＝σ(B+U^THV) (11)

同公式(8)，公式(10)表示逐一计算可见层X的任意一个元素为1的概率，σ计算应用到相应的每一个矩阵元素。

其中，y_zt＝1表示训练图像数据属于第t类。

矩阵形式表示：

这里,分母里涉及的下标t表示标签属于第t类，分子t^*表示所有可能的标签的类别。

给定参数Θ，X,Y的联合概率分布为：

步骤2、判别式矩阵变量受限玻尔兹曼机模型求解

假设给定一组包含N个样本的训练图像数据集D_train＝{X⁽¹⁾,...,X⁽ⁿ⁾,...,X^(N)}，本发明旨在以如下条件概率为目标函数，基于极大似然法进行参数Θ的估计，似然函数为

其中，N为样本个数；n表示第n个样本；y⁽ⁿ⁾是一个向量，所以此处以及下文中用y⁽ⁿ⁾代替Y⁽ⁿ⁾，第t个分量是1，其余的分量全为0，即表示y⁽ⁿ⁾的第t个分量，并且的值是1，表示数据X⁽ⁿ⁾的类别是t；Θ表示所有的模型参数。上述目标函数旨在求使在当前模型参数下，对于输入的样本X⁽ⁿ⁾，标签为y⁽ⁿ⁾的概率最大。

根据条件概率公式得：

目标函数对模型参数的导数：

为了计算(17)，需要分别计算(17)式中第二个等号右边的三个部分：p(H|X⁽ⁿ⁾,y⁽ⁿ⁾)，p(y,H|X⁽ⁿ⁾)。

下面分别计算这三个部分：

●计算

其中由(1)式的：

上面(18.1)～(18.6)为矩阵中每个元素的计算方式。

计算p(H|X⁽ⁿ⁾,y⁽ⁿ⁾)：

因为的结果中都含有h_kl,h_kl是矩阵变量H中的一个元素。

所以这里有：

上式为矩阵H中每一个元素的计算方式。

●计算p(y,H|X⁽ⁿ⁾)：

先化简：

上式分子y表述某一具体的类别；分母上的y*表示要遍历所有的类别。

其中分子：

至止，可得式(17)中目标函数对各个参数的偏导数，带入(18)，(19)，(20)的计算结果到(17)中即可。

鉴于(18.6)特殊性，这里单独给出:

其中，p(y_t|X⁽ⁿ⁾)表示由训练数据X⁽ⁿ⁾计算得到的第t类的概率值。

最后用梯度上升法优化使目标函数最大化，将(17)式的各个结果带入下式中更新：

其中θ∈Θ，λ是学习率，进行多次迭代后，得到优化后的模型即可。

实验验证：

本发明通过与同类方法的对比实验，来验证本发明对于图像识别的有效性。实验部分共设计两大类实验，实验一旨在验证所提判别式矩阵变量受限玻尔兹曼机(DisMVRBM)相对RBM、MVRBM以及其相应变体等无监督方法的优越性；实验二旨在验证所提判别式矩阵变量受限玻尔兹曼机(DisMVRBM)相对判别式向量变量受限玻尔兹曼机(DisRBM)的优越性。

本发明所用实验数据集如下：

MNIST Database：MNIST数据集为手写数字数据集，包含0～9十个数字的60,000张训练图像以及10,000张测试图像。每张图像是大小为28*28的灰度图像。

ETH-80 Database：ETH-80数据集包含8类物体(苹果，汽车，牛，水杯，狗，马，梨，西红柿)，在每类物体集合中，包含该类10个不同对象的41种不同视角下的图像，即每类里含10个不同对象，每个对象中含41帧图像数据，共8*10*41＝3,280帧图像。本发明首先将每张图像下采样到32*32，并将每张图像转化为灰度图像。

Ballet Database：整个数据集包含8种复杂的芭蕾舞动作，是从芭蕾舞DVD中截取的44段视频，每段视频包含107到506帧。本发明从8种动作中的每一种动作随机选取200帧作为训练数据。将每一帧图像下采样为32*32大小，并把图像转化为灰度图像。

Coil_20:包含20类不同的物体，每类物体有72张不同视角的图像，将每一帧图像下采样为32*32大小，以此作为训练数据。

实验一：DisMVRBM相对其它无监督RBM及其变体的效果对比。

实验一旨在验证增加了类别约束的判别式矩阵变量受限玻尔兹曼机相对其它无监督方法的优越性，对比方法包括传统RBM，IGBRBM(高斯分布受限玻尔兹曼机)，MVRBM以及MVGRBM(高斯分布矩阵变量受限玻尔兹曼机)。

实验一中，对比模型以及本发明所提模型的隐层大小均为28*28，所提模型的隐层与可视层之间的权重学习率为0.01，权值衰减为10^-3,隐层与标签层之间的权重学习率为0.01，权值衰减为10^-6，可视层与输入数据的大小一致。实验一的对比结果如表1：

表1判别式MVRBM相对其它非判别式方法的识别准确率对比

(单位：％)

	RBM	IGRBM	MVRBM	MVIGRBM	DisMVRBM
						MNIST	0.9494	0.9365	0.9658	0.9665	0.9725
Ballet_32	0.3566	0.7063	0.3505	0.9323	0.9509
						ETH-80	0.5281	0.8750	0.3319	0.88	0.9053

表1展示了不同模型在多个数据集下的识别准确率结果，可以看出本发明所提模型在MNIST、Ballet_32和ETH-80三个数据集上的识别准确率都高于对比模型RBM,IGRBM,MVRBM,MVIGRBM。

这是因为用于对比的四个模型均是生成模型，采用非监督训练方法，没有利用数据的标签信息。在执行本实验设计的分类任务时，是结合传统的神经网络(NN)，基于对比模型的训练结果初始化NN参数，然后通过反向传播算法微调NN参数，最后基于NN进行分类。而本发明所提的模型DisMVRBM融入了标签信息，一方面使所提模型提取的特征具有判别性，从而有助于分类任务；另一方面，由于本发明所提的模型增加了标签层，采用监督训练方法，多以可以作为一个独立的分类器直接执行分类任务。

实验二：DisMVRBM相对DisRBM的效果对比

实验二旨在验证判别式矩阵变量受限玻尔兹曼机相对判别式向量变量受限玻尔兹曼机的识别准确率。因此，在Ballet_32、ETH-80和Coil_20三个数据集上，测试了DisMVRBM和DisRBM的性能，所用参数设置同实验一。实验二的对比结果如表2：

表2 DisMVRBM与DisRBM的识别准确率对比 (单位：％)

	DisRBM	DisMVRBM
			Ballet_32	0.9114	0.9509
ETH-80	0.5078	0.9053
			Coil_20	0.9779	0.9896

表2展示了本发明所提DisMVRBM模型相对DisRBM模型在不同数据集上的识别准确率，结果表明本发明所提的矩阵变量判别式模型的分类效果要优于传统向量变量的判别式模型，因此验证了本发明提出模型的优越性。这是由于本发明所提的面向矩阵变量的分类模型，在执行图像分类任务时，不需要将二维图像拉伸为向量，即不会破坏图像原有的空间结构。因此本发明所提的模型的分类结果比一维的对比模型效果好。

Claims

1.一种基于判别式矩阵变量受限玻尔兹曼机模型的图像识别方法，其特征在于，包括以下步骤：

步骤1、判别式矩阵变量受限玻尔兹曼机模型

矩阵变量受限玻尔兹曼机模型的能量函数定义为：

其中，为可视层矩阵变量，表示输入数据，即输入图像，每帧图像尺寸大小为I×J；为隐含层矩阵变量，表示基于该模型提取的输入数据的具有判别性的特征，即表示输入图像的特征，大小为K*L；为X与H的连接权重，是四阶张量变量，表示输入图像与模型提取到的特征之间的非线性映射关系；为可见层的偏置矩阵变量，表示输入数据的偏移量；为隐含层的偏置矩阵变量，表示输出特征的偏移量；

可基于该能量函数定义可见层和隐含层的联合概率分布，即模型所拟合的输入图像与特征的联合概率,如公式(2)：

并基于该联合概率分布定义对数似然函数:

进一步，采用基于判别的矩阵变量受限玻尔兹曼机用于二维图像分类，记为DisMVRBM，即在原MVRBM模型基础上增加类别约束，使改进的MVRBM具有分类能力，

DisMVRBM旨在通过隐层特征H建模输入图像数D_train＝{X⁽¹⁾,...,X⁽ⁿ⁾,...,X^(N)}和相应类别标签Y＝[Y_zt]∈R^Z*T,Z＝1的联合分布，因此定义有类别约束的能量函数如下：

其中，为可见层标签矩阵变量，标识输入数据的类别，即输入图像对应的标签，z＝Z＝1为常数，所以可视为向量变量；为Y与H的连接权重，是四阶张量变量，表示输入图像的标签与输出特征之间的非线性映射关系；为标签层的偏置矩阵变量，表示标签的偏移量，同理，可视为向量变量；

假定隐含层单元和可见层、以及隐含层和标签层的连接权重具有特定结构，所述特定结构即对权重张量做分解：

和p_ztkl＝q_kzr_lt