CN108985312A

CN108985312A - 一种基于权值不确定性玻尔兹曼机的识别方法及系统

Info

Publication number: CN108985312A
Application number: CN201810430911.6A
Authority: CN
Inventors: 丁世飞; 张健
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2018-12-11

Abstract

本发明一种基于权值不确定性玻尔兹曼机的识别方法及系统，通过构建带有标签的Cifar‑10数据集图片作为样本集对卷积深度置信网进行训练，将训练好的神经网络保存，将待识别图片作为输入，根据输出向量得到识别结果。通过卷积深度置信网识别手写数字图像，避免了人工的特征提取过程，直接将图片作为网络的输入，识别准确率高；且网络一经训练即可反复使用，处理效率高；训练时间短。

Description

一种基于权值不确定性玻尔兹曼机的识别方法及系统

技术领域

本发明涉及模式识别和机器学习领域，具体涉及一种基于权值不确定性玻尔兹曼机的识别方法及系统。

背景技术

在概率图中，节点表示变量，边表示变量之间的依赖关系。按节点的连接方式，概率图可以分为有向图(Belief Nets)和无向图(Markov Nets)两类，有向图可以清晰的表示节点间的条件概率，适合知识的推理。随着深度学习的兴起，深度置信网(Deep BeliefNets，DBNs)是最早提出的基于有向图的混合图模型。然而，解释消除(explain-away)现象很大程度上影响了有向图模型的解释能力。与有向图不同，马尔可夫网的概率分布是通过“势”(potential)定义的，此时节点之间的连接是无向的，因此不存在解释消除问题。在物理学背景中，马尔可夫网又叫做马尔可夫随机场(Markov Random Fields，MRFs)，节点之间通过势φ(v) 相互关联，其中v是无向图的最大子图包含的节点。由此，MRFs的概率分布可以表达为：P_(s)＝Z^-1Π_iwiφ_i(v_i)，其中，Z为归一化因子，用来确保概率分布函数的取值在0到1之间，势φ(v)可以有多种表达方式。为了方便表述和计算，MRFs 的概率分布可以表达成指数族的形式：其中，f(v_i)＝log(φ(v_i))。由因子f(v_i)的不同表示形式和组合方式可以得到不同的无向图模型。在玻尔兹曼机模型中，f通过能量函数的形式表达。早期，与玻尔兹曼机相关的模型包括伊辛模型，指数族(Exponential FamilyHarmoniums,EFH)等。玻尔兹曼机是一种特殊的MRFs，其概率通常可以表示为：其中，E(s)称为能量函数， E(s)与MRFs中势的概念相对应。从玻尔兹曼机节点的连接方式看，玻尔兹曼机可以进一步分为指数族RBM(Exp-RBMs)、半受限的玻尔兹曼机(SRBMs)以及全连接的玻尔兹曼机，在Exp-RBMs模型中，最常使用的是普通的RBM。以 RBM为基础，深度玻尔兹曼机(Deep Boltzmann Machines，DBMs)和深度置信网(Deep BeliefNets，DBNs)等多层网络的提出促进了深度神经网络的发展。其中，DBNs是一种混合的概率图模型，其顶部的两层是无向的关联记忆，其余层之间的权值为自上而下的生成连接；DBMs是一种无向图模型，其结构可以看作是层次化的玻尔兹曼机，每一个节点的激活取决于相邻层中与它直接相连的所有节点。整个模型通过一个能量函数表达，DBMs是一种全连接的玻尔兹曼机。另一种成功的DNNs模型是卷积神经网络(Convolutional Neural Nets，CNNs)，不同于预训练的机制，CNNs从网络拓扑结构上优化DNNs，利用卷积和池化操作，将局部性信息和不变性信息引入到神经网络中，利用先验信息减少网络参数，进一步降低了计算复杂度。CNNs在自然图像处理、音频、视频等方面取得了很多研究成果。

发明内容

为了更好的解决图像的识别问题，本发明提出一种基于权值不确定性玻尔兹曼机的识别方法及系统，避免了显式的提取特征，直接将数字化的图像像素作为输入，训练得到卷积深度置信网(CDBNs)模型，选取神经网络最后一层的输出最为识别结果，有效的实现了图像的识别和重构过程。

本发明是通过以下方案实现的：

本发明涉及一种基于深度学习的图像识别方法，通过构建带标签的训练集作为样本集对卷积深度置信网进行训练，并将训练好的卷积神经网络处理待识别的图片，最后根据神经网络的输出向量判断识别结果。

本发明具体步骤如下：

步骤1：简单的预处理训练集并将像素点作为输入:首先将图像数据集进行分batch，每一个小的batch包括100个样本，然后把灰度图像归一化、并重新调节大小为28*28；

步骤2：构造深度学习模型:该网络包括：输入层、4个隐藏层和一个输出层，其中：输入层的数据是预处理完的图像像素点，是28*28像素点构成的矩阵，其中：输入层是2维的图像像素矩阵，由卷积层池化层交替连接，最终使用一个全连接层将二维数据转化为1维，每一层有32个卷积核，每一个卷积核尺寸为5*5，池化层采用最大池化方法，输出层设置为10个节点，该模型结构称为卷积深度置信网(CDBNs)；

步骤3：训练深度神经网络，首先初始化网络的权值，进行预训练过程，在预训练中，我们引入了权值不确定性(weight uncertainty)方法来缓解CRBM模型中的过拟合问题，先引入卷积和概率最大池化方法训练受限制的玻尔兹曼机，得到卷积受限制的玻尔兹曼机(CRBMs)模型，然后使用weight uncertainty方法来训练CRBMs，以缓解过拟合问题。接下来，将CRBMs堆叠成一个卷积深度置信网(CDBNs)模型；最后，结合BP反向传播算法或wake-sleep算法调整权重和偏置，具体过程如下：

步骤3.1：对网络初始化：对权值和偏置进行随机初始化；

步骤3.2：将训练样本和标签集导入初始化好的网络进行预训练，首先引入weight uncertainty方法训练CRBMs，然后使用weight uncertainty方法来训练 CDBNs；

步骤3.3：将实际输出与标签进行对比，得到误差，将CDBNs作为神经网络，利用weight uncertainty BP算法或wake-sleep算法进行微调，得到训练好的神经网络模型。

步骤4：图像识别系统，将获取的与训练数据相关的图片转化为灰度图，调整分辨率为28*28，进行归一化处理后，然后将其输入到训练好的CDBNs，最终得到识别结果。

通过以上内容可知，本申请提供的是一种基于权值不确定性玻尔兹曼机的识别方法及系统，首先制作根据实际需要制作训练集和标签，然后设计网络的层数等参数，之后进行预训练，然后利用weight uncertainty BP算法或wake-sleep算法完成对网络权重和偏置的调整，最后把预处理后的输入图像输入神经网络，完成对图像的识别。本申请通过神经网络识别与Cifar-10数据集相关的图像，避免了显示的特征提取，直接将图片作为网络的输入，识别准确率高；且网络一经训练即可反复使用，处理效率高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请所使用的CRBMs模型的训练示意图。

图2为本申请所使用的CDBNs网络结构示意图。

图3为本申请所使用的系统的信号传递流程示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

实施例1

本实施例包括以下步骤：

步骤1：图片预处理：

步骤1.1：获取Cifar-10数据集，将图像转化为灰度图像；

步骤1.2：把步骤1.1所得到的图像归一化为28*28大小，并保存在训练集中，然后根据训练集制作相应的标签集，10*1的矩阵代表一个图像的标签。

步骤2：构建CDBNs深度模型：

本实施例中采用的CDBNs模型是一个多层的神经网络，由输入层、中间层和输出层等多层组成，每层由多个节点单元组成。构造如图2所示的多层神经网络，包括输入层，4个隐藏层和1个输出层，每一层由于都是一种概率图模型，由图1所示的CRBMs模型组成；

步骤3：训练卷积神经网络：

步骤3.1：用不同的小随机数(0-1之间)对可训练参数初始化，对偏置初始化为0；

步骤3.2：对网络进行预训练网络模型的激活概率公式可以表示如下：

其中，h表示隐藏层单元，v表示可见层单元，W表示权值矩阵，b表示偏置，p表示池化层单元，*表示卷积操作。

然后引入weight uncertainty算法，这样，导数的计算改为如下形式：

根据上述公式，完成CDBNs的预训练过程，得到神经网络模型。

步骤3.3：计算残差，结合反向传播BP算法或wake-sleep算法更新可调整参数和偏置，完成对CDBNs的整个训练过程。

步骤4：图像识别：

步骤4.1：获取与Cifar-10相关的图像，调整分辨率，进行灰度化，归一化预处理；

步骤4.2：得到预处理之后的图片，输入到已经训练好的CDBNs网络中，等待输出，取输出向量最大值得行号为识别结果，即完成对图像的识别。

Claims

1.基于权值不确定性玻尔兹曼机的图像识别方法，其特征在于，通过构建带有标签的手写体数字图片作为样本集对神经网络进行训练，将训练好的神经网络保存，将待识别图片作为输入，根据输出向量得到识别结果。

2.根据权利要求1所述的方法，其特征是，所述的深度神经网络为多层神经网络，包括输入层、4个隐藏层和1个输出层，其中：输入层是2维的图像像素矩阵，由卷积层池化层交替连接，最终使用一个全连接层将二维数据转化为1维，每一层有32个卷积核，每一个卷积核尺寸为5*5，池化层采用最大池化方法，输出层设置为10个节点，该模型结构称为卷积深度置信网(CDBNs)。

3.根据权利要求1所述的方法，其特征是，所指的训练是指：将样本集(包括二维图像和对应的标签)输入到设置好结构的神经网络，进行预训练，然后对得到的卷积深度置信网(CDBNs)模型结合wake-sleep算法调整参数和偏置，完成对神经网络的完整的训练过程。

4.根据权利要求1或3所述的方法，其特征是，所述的训练包括：

4.1：对网络初始化：对卷积核、权值和偏置进行随机初始化；

4.2：将训练样本和标签集导入初始化好的网络进行预训练，首先引入卷积和概率最大池化方法训练受限制的玻尔兹曼机，得到卷积受限制的玻尔兹曼机(CRBMs)模型，然后使用weight uncertainty方法来训练CRBMs，以缓解过拟合问题。接下来，将CRBMs堆叠成一个卷积深度置信网(CDBNs)模型；

4.3：将实际输出与标签进行对比，得到误差，将CDBNs作为神经网络，利用weightuncertainty BP算法或者wake-sleep算法进行微调，得到训练好的神经网络模型。

5.根据权利要求4所述的方法，其特征是，所述的训练样本包括：输入向量和标签，输入向量经过逐层变换，在输出层输出，得到实际输出向量。

6.根据权利要求1所述的方法，其特征是，所述的识别包括：将待识别二维图像数据输入训练好的CDBNs模型中，得到输出向量从而识别图像的类别。

7.根据权利要求1或6所述的方法，其特征是，所述的识别包括：

7.1：获取二维图像数据，对图像的分辨率进行调整，使其适合网络的输入，我们使用的分辨率大小为28*28，然后对图像进行灰度化，归一化预处理；

7.2：得到预处理之后的图片，输入到已经训练好的CDBNs神经网络中，等待输出，取输出向量最大值得行号为识别结果，即完成图像的识别。

8.一种实现上述任一权利要求所述方法的系统，其特征在于：CDBNs神经网络模块及二维图像识别模块，其中CDBNs网络模块把CDBNs训练成一个能识别图像类别的分类器，二维图像识别模块完成图像识别工作。