CN108960275A - 一种基于深度玻尔兹曼机的图像识别方法及系统 - Google Patents

一种基于深度玻尔兹曼机的图像识别方法及系统 Download PDF

Info

Publication number
CN108960275A
CN108960275A CN201810430998.7A CN201810430998A CN108960275A CN 108960275 A CN108960275 A CN 108960275A CN 201810430998 A CN201810430998 A CN 201810430998A CN 108960275 A CN108960275 A CN 108960275A
Authority
CN
China
Prior art keywords
neural network
training
wsdbm
trained
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810430998.7A
Other languages
English (en)
Inventor
丁世飞
张健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN201810430998.7A priority Critical patent/CN108960275A/zh
Publication of CN108960275A publication Critical patent/CN108960275A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明一种基于深度玻尔兹曼机的图像识别方法及系统,通过构建带有标签的手写体数字图片作为样本集对深度玻尔兹曼机进行训练,将训练好的神经网络保存,将待识别图片作为输入,根据输出向量得到识别结果。通过深度波尔兹曼机识别手写数字图像,避免了人工的特征提取过程,直接将图片作为网络的输入,识别准确率很高;且网络一经训练即可反复使用,处理效率高;训练时间短。

Description

一种基于深度玻尔兹曼机的图像识别方法及系统
技术领域
本发明涉及模式识别和机器学习领域,具体涉及一种基于深度玻尔兹曼机的图像识别方法及系统。
背景技术
机器学习是研究如何使计算机模拟人类学习行为的一门学科。机器学习基于学习策略可分为机械学习、类比学习、演绎学习、基于解释的学习、归纳学习、基于神经网络的学习等。本文研究的重点在人工神经网络(ANN),简称为神经网络。神经网络是一种并行分布式信息处理的网络结构,具有很强的非线性映射能力和较高的容错能力等特点。ANN可追溯至1943年神经心理学家Mcculloch 和数学家Pitts从数理逻辑的角度提出的神经元模型(M-P模型),ANN自此开始发展。目前,常见的ANN模型种类很多,我们可以依据ANN的结构分为三种基本的网络模型:单层前馈网络、多层前馈网络、递归网络。多层前馈网络可以有一层或多层隐藏层。深度学习模型由于能够从输入样本直接逼近复杂的非线性映射,而被广泛用于许多领域,常用模型有卷积神经网络(CNN)和堆叠的自动编码器模型(SAE)以及深度置信网(DBN)深度波尔兹曼机(DBM)等。卷积神经网络是专门为处理二维数据的,被认为是第一个采用多层次网络结构的深度学习方法,近年来在图像识别领域取得了巨大的成功。由于采用局部连接和权值共享,保持网络深层结构的同时又大大减少了网络参数,使模型具有良好的泛化能力又较容易训练。
在经典的模式识别中,一般是事先提取特征。提取诸多特征后,要对这些特征进行相关性分析,找到最能代表字符的特征,去掉对分类无关和自相关的特征。然而,这些特征的提取太过依赖人的经验和主观意识,提取到的特征的不同对分类性能影响很大,甚至提取的特征的顺序也会影响最后的分类性能。同时,图像预处理的好坏也会影响到提取的特征。而深度学习算法需要对图像进行复杂的预处理操作,可以方便地把图像作为输入,通过大量的数据来学习特征的,避免了显示的特征提取,比以往的人工选取特征更可靠。
发明内容
为了更好的解决图像的识别问题,本发明提出一种基于深度玻尔兹曼机的图像识别方法及系统,避免了显式的提取特征,直接将数字化的图像像素作为输入,训练得到深度的玻尔兹曼机模型,选取神经网络最后一层的输出最为识别结果,有效的实现了图像的识别和重构过程。
本发明是通过以下方案实现的:
本发明涉及一种基于深度学习的图像识别方法,通过构建带标签的训练集作为样本集对卷积神经网络进行训练,并将训练好的卷积神经网络处理待识别的图片,最后根据神经网络的输出向量判断识别结果。
本发明具体步骤如下:
步骤1:简单的预处理训练集并将像素点作为输入:首先将图像数据集进行分batch,每一个小的batch包括100个样本,这样原来的图像数据集就分成了600 个batch,然后把灰度图像归一化、并重新调节大小为28*28;
步骤2:构造深度学习模型:该网络包括:输入层、2个隐藏层和一个输出层,其中:输入层的数据是预处理完的手写数字像素点,是28*28像素点构成的矩阵,为方便处理,我们将28*28的矩阵转化为1维的向量,最后一层的输出为预测输出;
步骤3:训练深度神经网络,首先初始化网络的权值,进行预训练过程,在预训练中,我们引入了weight uncertainty方法来缓解RBM模型中的过拟合问题,然后使用半受限的玻尔兹曼机(SRBM)作为第一个特征提取器,第二个特征提取器为常规的RBM,然后,逐层完成网络的预训练过程。最后,结合BP反向传播算法调整权重和偏置,具体过程如下:
步骤3.1:对网络初始化:对权值和偏置进行随机初始化;
步骤3.2:将60000个训练样本和标签集导入初始化好的网络进行预训练,首先引入weight uncertainty方法训练SRBM,得到WSRBM模型,然后使用weight uncertainty方法来训练RBM,得到WRBM模型,接下来,将整个网络作为一个 DBM模型再次进行预训练,其中仍然采用weight uncertainty方法,我们得到了 weight uncertainty Semi-RestrictedDeep Boltzmann Machine(WSDBM)模型。其中训练样本包括10个数字类别:数字0-9;
步骤3.3:将实际输出与标签进行对比,得到误差,将WSDBM作为神经网络,利用weight uncertainty BP算法进行微调,得到训练好的神经网络模型。
步骤4:手写数字的识别,在系统手写板中完成数字的书写后,转化为灰度图,进行归一化处理后,然后将其输入到训练好的卷积神经网络中,最终得到识别结果。
通过以上内容可知,本申请提供的是一种基于深度玻尔兹曼机的图像识别方法及系统,首先制作根据实际需要制作训练集和标签,然后设计网络的层数等参数,之后进行预训练,然后利用weight uncertainty BP算法完成对网络权重和偏置的调整,最后输入手写数字图像,预处理后输入神经网络,完成对数字图像的识别。本申请通过神经网络识别手写数字图像,避免了显示的特征提取,直接将图片作为网络的输入,识别准确率很高;且网络一经训练即可反复使用,处理效率高;训练时间短。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请所使用的WSDBM模型的训练示意图。
图2为本申请所使用的深度神经网络结构示意图。
图3为本申请所使用的系统的信号传递流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
实施例1
本实施例包括以下步骤:
步骤1:图片预处理:
步骤1.1:将手写数字图像转化为灰度图像;
步骤1.2:把步骤1.2所得到的图像归一化为28*28大小,把像素点转化为一维的向量,并保存在训练集中,然后根据训练集制作相应的标签集,10*1的矩阵代表一个数字的标签。
步骤2:构建WSDBM深度模型:
本实施例中采用的WSDBM模型是一个多层的神经网络,由输入层、中间层和输出层等多层组成,每层由多个节点单元组成。构造如图1所示的多层神经网络,包括输入层,两个隐藏层和一个输出层,每一层由于都是一种概率图模型,因此,基于能量函数,每一层单元的激活函数都是sigmoid函数的形式;
步骤3:训练卷积神经网络:
步骤3.1:用不同的小随机数(0-1之间)对可训练参数初始化,对偏置初始化为0;
步骤3.2:对网络进行预训练网络模型的激活概率公式可以表示如下:
其中,h表示隐藏层单元,v表示可见层单元,W表示权值矩阵,b表示偏置,第一个SRBM的训练公式如下:
其中L表示可见层单元之间的权值矩阵。
然后引入weight uncertainty算法,这样,导数的计算改为如下形式:
根据上述公式,完成WSDBM的预训练过程。然后将整个WSDBM作为一个玻尔兹曼机再进行训练,得到神经网络模型。
步骤3.3:计算残差,结合反向传播BP算法更新可调整参数和偏置,完成对WSDBM的整个训练过程。
步骤4:手写数字识别:
步骤4.1:在系统的手写板中写完数字保存之后,进行灰度化,归一化预处理;
步骤4.2:得到预处理之后的图片,输入到已经训练好的WSDBM网络中,等待输出,取输出向量最大值得行号为识别结果,即完成对手写数字的识别。

Claims (8)

1.基于深度玻尔兹曼机的图像识别方法,其特征在于,通过构建带有标签的手写体数字图片作为样本集对神经网络进行训练,将训练好的神经网络保存,将待识别图片作为输入,根据输出向量得到识别结果。
2.根据权利要求1所述的方法,其特征是,所述的深度神经网络为多层神经网络,包括输入层、两个隐藏层和一个输出层,其中:输入层是一维的灰度图像向量,每一个隐藏层有500个单元,输出层设置为10个节点。
3.根据权利要求1所述的方法,其特征是,所指的训练是指:将样本集(包括手写数字图像和标签)输入到设置好的神经网络,进行预训练,然后对得到的WSDBM模型结合反向传播BP算法调整参数和偏置,完成对神经网络的完整的训练过程。
4.根据权利要求1或3所述的方法,其特征是,所述的训练包括:
4.1:对网络初始化:对权值和偏置进行随机初始化;
4.2:将60000个训练样本和标签集导入初始化好的网络进行预训练,首先引入weightuncertainty方法训练SRBM,得到WSRBM模型,然后使用weight uncertainty方法来训练RBM,得到WRBM模型,接下来,将整个网络作为一个DBM模型再次进行预训练,其中仍然采用weight uncertainty方法,我们得到了weight uncertainty Semi-Restricted DeepBoltzmann Machine(WSDBM)模型。其中训练样本包括10个数字类别:数字0-9;
4.3:将实际输出与标签进行对比,得到误差,将WSDBM作为神经网络,利用weightuncertainty BP算法进行微调,得到训练好的神经网络模型。
5.根据权利要求4所述的方法,其特征是,所述的训练样本包括:输入向量和标签,输入向量经过逐层变换,在输出层输出,得到实际输出向量。
6.根据权利要求1所述的方法,其特征是,所述的识别包括:将待识别手写体数字图片输入训练好的WSDBM模型中,得到输出向量从而识别出数字的类别。
7.根据权利要求1或6所述的方法,其特征是,所述的识别包括:
7.1:在系统的手写板中写完数字保存之后,进行灰度化,归一化预处理;
7.2:得到预处理之后的图片,输入到已经训练好的WSDBM神经网络中,等待输出,取输出向量最大值得行号为识别结果,即完成对手写数字的识别。
8.一种实现上述任一权利要求所述方法的系统,其特征在于:WSDBM神经网络模块及手写数字识别模块,其中WSDBM网络模块把WSDBM训练成一个能识别数字0-9的分类器,手写数字识别模块得到数字手写模块的图像并输入训练好的WSDBM网络来进行识别。
CN201810430998.7A 2018-05-08 2018-05-08 一种基于深度玻尔兹曼机的图像识别方法及系统 Pending CN108960275A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810430998.7A CN108960275A (zh) 2018-05-08 2018-05-08 一种基于深度玻尔兹曼机的图像识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810430998.7A CN108960275A (zh) 2018-05-08 2018-05-08 一种基于深度玻尔兹曼机的图像识别方法及系统

Publications (1)

Publication Number Publication Date
CN108960275A true CN108960275A (zh) 2018-12-07

Family

ID=64499841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810430998.7A Pending CN108960275A (zh) 2018-05-08 2018-05-08 一种基于深度玻尔兹曼机的图像识别方法及系统

Country Status (1)

Country Link
CN (1) CN108960275A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563503A (zh) * 2020-05-09 2020-08-21 南宁市第三中学 一种少数民族文化象征物识别方法
CN113128296A (zh) * 2019-12-31 2021-07-16 重庆傲雄在线信息技术有限公司 一种电子手写签字模糊标签化识别系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153810A (zh) * 2016-03-04 2017-09-12 中国矿业大学 一种基于深度学习的手写体数字识别方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153810A (zh) * 2016-03-04 2017-09-12 中国矿业大学 一种基于深度学习的手写体数字识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIAN ZHANG等: "Weight Uncertainty in Boltzmann Machine", 《COGNITIVE COMPUTATION》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128296A (zh) * 2019-12-31 2021-07-16 重庆傲雄在线信息技术有限公司 一种电子手写签字模糊标签化识别系统
CN113128296B (zh) * 2019-12-31 2023-05-09 重庆傲雄在线信息技术有限公司 一种电子手写签字模糊标签化识别系统
CN111563503A (zh) * 2020-05-09 2020-08-21 南宁市第三中学 一种少数民族文化象征物识别方法

Similar Documents

Publication Publication Date Title
WO2021042828A1 (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
CN107145893A (zh) 一种基于卷积深度网络的图像识别算法及系统
Teow Understanding convolutional neural networks using a minimal model for handwritten digit recognition
CN103605972B (zh) 一种基于分块深度神经网络的非限制环境人脸验证方法
CN107153810A (zh) 一种基于深度学习的手写体数字识别方法及系统
CN107729872A (zh) 基于深度学习的人脸表情识别方法及装置
CN106326899A (zh) 一种基于高光谱图像和深度学习算法的烟叶分级方法
CN112801040B (zh) 嵌入高阶信息的轻量级无约束人脸表情识别方法及系统
CN107491729B (zh) 基于余弦相似度激活的卷积神经网络的手写数字识别方法
CN112784763A (zh) 基于局部与整体特征自适应融合的表情识别方法及系统
CN110222718B (zh) 图像处理的方法及装置
CN111832573B (zh) 一种基于类激活映射和视觉显著性的图像情感分类方法
CN111401156B (zh) 基于Gabor卷积神经网络的图像识别方法
CN109740539B (zh) 基于超限学习机和融合卷积网络的3d物体识别方法
CN112597873A (zh) 一种基于深度学习的双通道人脸表情识别方法
CN113221655B (zh) 基于特征空间约束的人脸欺骗检测方法
Lin et al. Building damage assessment from post-hurricane imageries using unsupervised domain adaptation with enhanced feature discrimination
Xu et al. Face expression recognition based on convolutional neural network
CN114898472B (zh) 基于孪生视觉Transformer网络的签名鉴定方法和系统
Hu et al. Deep learning for distinguishing computer generated images and natural images: A survey
Luan et al. Sunflower seed sorting based on convolutional neural network
Chowdhury et al. Privacy preserving ear recognition system using transfer learning in industry 4.0
CN108960275A (zh) 一种基于深度玻尔兹曼机的图像识别方法及系统
CN112800979B (zh) 一种基于表征流嵌入网络的动态表情识别方法及系统
Elaraby et al. A Novel Siamese Network for Few/Zero-Shot Handwritten Character Recognition Tasks.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181207