CN104077595A - 基于贝叶斯正则化的深度学习网络图像识别方法 - Google Patents

基于贝叶斯正则化的深度学习网络图像识别方法 Download PDF

Info

Publication number
CN104077595A
CN104077595A CN201410266127.8A CN201410266127A CN104077595A CN 104077595 A CN104077595 A CN 104077595A CN 201410266127 A CN201410266127 A CN 201410266127A CN 104077595 A CN104077595 A CN 104077595A
Authority
CN
China
Prior art keywords
formula
value
layer
network
hidden layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410266127.8A
Other languages
English (en)
Other versions
CN104077595B (zh
Inventor
乔俊飞
潘广源
韩红桂
柴伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201410266127.8A priority Critical patent/CN104077595B/zh
Publication of CN104077595A publication Critical patent/CN104077595A/zh
Application granted granted Critical
Publication of CN104077595B publication Critical patent/CN104077595B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

基于贝叶斯正则化的深度学习网络图像识别方法属于人工智能和机器学习领域。深度信念网络越来越多的在数字检测及图像识别领域发挥重要作用。为了解决该网络在训练过程中的过拟合问题,本文基于网络的稀疏特性及连接权值的变化,提出一种基于贝叶斯正则化的深度信念网。通过将贝叶斯正则化应用到网络训练过程中,有效地调节误差减小与权值增大之间的平衡。本文使用数字手写体数据库的分类实验来证明该改进算法的有效性。实验结果表明在深度信念网中,该方法能够有效克服过拟合现象,提高数字识别的正确率。

Description

基于贝叶斯正则化的深度学习网络图像识别方法
技术领域
本发明利用基于贝叶斯正则化(Bayesian Regularization)的深度学习网络(Deep BeliefNetwork,DBN)实现手写体数字图像的识别和分类。神经网络是人工智能和神经计算领域的重要方法,图像检测和识别是机器学习领域的重要任务之一,因此本发明属于人工智能和机器学习领域。
背景技术
数字识别技术在很多行业中占有一席之地,例如教育,交通运输,商业,邮政和银行等。数字的自动识别的实现和应用为人们的生活提供了重要的便利,与人们的生活息息相关,被广泛应用于车辆和道路的号码检测,个人成绩单的自动识别等。与印刷体的数字识别相比,手写体的数字识别由于其复杂性,多样性和不确定性,一直是该领域的重点和难点。手写体数据库数量不多但样本复杂,因此成为检验新技术和新方法的重要工具。
深度神经网络(DBN)能够以一种较好的方式模拟人类大脑的工作模式对数据进行分类和识别,且成功避免维数灾难问题,已成功应用于多种模式分类问题,其在信号处理中的应用对象不仅包含语音、图像和视频,同样也包含文本、语言和传递人类可获知的语义信息。但在手写体数字识别任务中,深度神经网络的过拟合现象影响正确识别率,网络的识别能力有待提高。针对这个问题,国内外学者提出许多改进方案,例如快速平稳的CD准则通过引入辅助变量来改进训练过程中的混合速率,稀疏性受限玻尔兹曼机通过在最大自然函数中引入惩罚项来减小次要神经元的作用。越来越多的工作表明,网络参数的正确设置与否,会在很大程度上影响结果。
过拟合是神经网络训练过程中的常见问题之一,为了提高网络泛化能力,传统的方式有简化网络结构和提前停止训练等方法,这些方法在不同程度上发挥作用,但不易于推广。贝叶斯正则化方法通过在训练中减小网络权值,有效抑制不重要的神经元发挥作用,从而达到抑制过拟合现象的目的。为了解决DBN网络在应用于手写体数字识别任务中的过拟合现象,本发明设计了一种基于贝叶斯正则化的DBN网络,通过引入贝叶斯正则化项,有效调节训练过程中的误差减小和权值增加之间的平衡,设置合适的性能参数α和β,提高识别正确率,实现对数字图像的识别。
发明内容
本发明的目的在于通过提出一种基于贝叶斯正则化的深度神经网络学习方法,改进DBN网络训练目标函数,通过分析连接权值的变化趋势,调节训练过程中训练误差减小与权值增大之间的平衡,保证网络中稀疏连接发挥作用,抑制过拟合现象的发生,提高网络泛化能力,增加对数字图像的识别准确度。
本发明采用了如下的技术方案及实现步骤:
基于贝叶斯正则化的深度神经网络学习方法,包括以下步骤:
(1确定输入对象及网络结构。采用含有两个隐含层的DBN网络,以数字图像作为网络输入,输入层神经元数量为一张图像含有的像素点数,设置隐含层神经元数,为保证训练精度,一般大于100,但如果太大则会造成过拟合,输出层为类别数量。
(2基于贝叶斯正则化的无监督训练步骤。根据已知的DBN运算准则,首先初始化网络权值及阈值为[0,1]区间的随机值,当信号从可视层传入隐含层,公式(1)为由已知的可视层节点得到的隐含层节点的值:
p ( h j = 1 ) = 1 1 + exp ( - b j - Σ i v i w ij ) - - - ( 1 )
第二,将信号从隐含层反传回可视层。由于RBM是对称网络,因此可以得到由隐含层节点得到可视层节点的值,见公式(2):
p ( v i = 1 ) = 1 1 + exp ( - c i - Σ j h j w ji ) - - - ( 2 )
式(1)为由已知的可视层节点得到的隐含层节点的值,(2)为由隐含层节点得到可视层节点的值中。vi和ci分别对应每一个RBM网络中可视层第i个节点的取值和阈值,hj和bj分别对应网络中隐含层第j个节点的取值和阈值,wij为可视节点i和隐藏节点j之间的权值,表示两个神经元之间连接信号的强弱,上述值在训练之前需初始化,均取[0,1]之间的随机值,p(hj=1)表示隐含层节点hj取值为1的概率,p(vi=1)表示可视层节点vi取值为1的概率。
公式(3)为可视层的特征向量v和隐含层的特征向量h的联合概率分布,在训练过程中计算其极小值,为改进算法之前的目标函数:
p ( v , h ) ∝ exp ( - E ( v , h ) ) = e h T Wv + b T v + c T h - - - ( 3 )
式中p(v,h)为函数运算目标,表示可视层和隐含层的联合概率分布,W是可视层和隐含层之间的权值矩阵,v和h分别为网络可视层和隐含层神经元的取值向量,c和b分别为网络可视层和隐含层神经元的阈值向量,T表示转置,E(v,h)是特征向量v和h的数学期望值,其绝对值的大小代表h能够保存的v的信息的多少,∝表示正相关。
过拟合是神经网络训练过程中的常见问题之一,为了提高网络泛化能力,传统的方式有简化网络结构和提前停止训练等方法,这些方法在不同程度上发挥作用,但不易于推广。贝叶斯正则化方法通过在训练中减小网络权值,有效抑制不重要的神经元发挥作用,从而达到抑制过拟合现象的目的。
本发明提出的基于贝叶斯正则化的网络训练目标函数为:
Fw=αP+βEW    (4)
式中,P为函数(3),EW为本发明使用的贝叶斯正则项,α和β是性能参数,其值大小通过经验选取,α+β=1且α>β,分别用于控制训练过程中训练误差的变化和权值的变化。公式(4)中的P和EW分别见(5)和(6),
P = p ( v , h ) ∝ exp ( - E ( v , h ) ) = e h T Wv + b T v + c T h - - - ( 5 )
E W = 1 m × n Σ j = 1 m Σ i = 1 n w ij 2 - - - ( 6 )
式(6)中,m为单个样本的像素数量,n为隐含层节点数量。
利用马尔科夫链蒙特卡洛方法(Markov Chain Monte Carlo,MCMC),使RBM的可视层和隐含层互为条件进行交替求解,当其共同趋于平稳状态时,P(v,h)达到最大,然后求得P(v,h)与初始状态的联合概率分布的斜率使用公式(7)更新权值:
θ ( τ + 1 ) = θ ( τ ) + η ∂ log P ( v , h ) ∂ θ - - - ( 7 )
式(7)为权值更新公式,其中,θ=(W,b,c),表示训练过程中的权值和阈值矩阵,τ为迭代次数,η为学习速度。
表示第i个可视层单元在t时刻的特征向量,v0是t=0时刻的可视层特征向量(即RBM的输入),h0是由v0根据公式(1)得到的隐含层特征向量,v1是在t=1时刻由h0根据公式(2)得到的可视层特征向量,以此类推,v和h分别是t=∞(即稳定状态)的可视层和隐含层的特征向量,公式(7)中的斜率可由公式(8)计算得出:
&PartialD; log P ( v , h ) &PartialD; W ij = < h j 0 ( v i 0 - v i 1 ) > + < v i 1 ( h j 0 - h j 1 ) > + &CenterDot; &CenterDot; &CenterDot; = < h j 0 v i 0 > - < h j &infin; v i &infin; > - - - ( 8 )
式中,<h0v0>为输入特征向量与其对应的隐含层特征向量的点乘的平均值,<hv>为马尔可夫链末端可视层特征向量与其对应的隐含层特征向量的乘积的平均值,已知<hv>是收敛的。由公式(8)可知,联合概率分布的斜率与中间状态无关,只与网络的初始状态和最终状态有关。于是权值及阈值更新公式为:
&theta; ( &tau; + 1 ) = &theta; ( &tau; ) + &eta; ( < h j 0 v i 0 > - < h j &infin; v i &infin; > ) - - - ( 9 )
式中参数意义同公式(7)。
最后,根据CD(Contrastive Divergence)快速运算准则,再运行一次公式(1),将信号重新传给隐含层,得到新的p(hj=1),利用(9)更新权值,至此第一层RBM训练完毕。将数据输出给第二个隐含层,重复上述步骤,训练第二层RBM,直至所有隐含层训练完毕。
(3有监督训练步骤。根据已知的误差反向传播进行实现,首先,将输入向量沿输入端传至输出端;然后使用反向传播,计算网络的输出结果与带有标签的正确结果的误差,将误差从输出端反向传播至输入端,以修改DBN的参数。具体实现步骤如下。
①初始化BP网络的参数,设定步长A。
②前向传播,对于第l层的j单元节点,有
y j l ( a ) = &Sigma; w ji ( a ) y i l - 1 ( a ) - - - ( 10 )
式中,首先判断神经元属于某一输出层,例如第L层,(l=L)。a为当前迭代步数,表示第l层第j个神经元的实际输出值,令dj(a)为理想输出值即正确信息,则误差
③计算权值调整大小δ,然后使用反向传播调整参数。
对于输出神经元有:
&delta; j l ( a ) = e j ( a ) y j l ( a ) [ 1 - y j l ( a ) ] - - - ( 11 )
对于非输出层神经元有:
&delta; j l ( a ) = y j l ( a ) [ 1 - y j l ( a ) ] &Sigma; &delta; i l + 1 ( a ) w ij l + 1 ( a ) - - - ( 12 )
式(11)、(12)中,ej(a)为第a步中第j个神经元的误差,表示第l层第j个神经元的实际输出值,表示第a步第l+1层第j个神经元和第l层第i个神经元的权值,表示第a步第l层第j个神经元的权值调整值,表示第a步第l+1层第i个神经元的权值调整值,∑为加和符号。
④权值调整:
w ij l ( a + 1 ) = w ij l ( a ) + &eta; &delta; j l y i l - 1 ( a ) - - - ( 13 )
η为学习速率,为第a+1迭代步数的权值,即调整后的权值,表示第a步第l层第j个神经元和第l-1层第i个神经元的权值,表示第l层第j个神经元的权值调整值,表示第a步第l-1层第i个神经元的实际输出值。
⑤如果a=A,则训练结束,反之,a=a+1,返回步骤②。
本发明与现有技术相比,具有以下明显的优势和有益效果:
(1)本发明针对当前数字识别是一个复杂的图像分类问题,不仅具有非线性、多样性等特点,而且同一种字体之间存在难以确定的关系,基于精确数学模型的检测技术针对该问题显得比较困难。根据神经网络可以逼近非线性函数的特点,采用基于贝叶斯正则化的深度学习网络,具有训练速度快,精确度高,稳定性好等特点,且通过增加隐含层数量有效避免了维数灾难问题,从而有效提高训练效率。
(2)本发明通过将贝叶斯正则化项加入训练目标函数中,对训练过程的权值进行实时控制和调整,该方法解决了训练过程中权值增大导致的过拟合现象,保证连接权值的稀疏特性,使网络既能减小重构误差、提高精度,又能避免因误差过度减小而导致鲁棒性降低。
特别要注意:本发明只是为了描述方便,采用的是对手写体图像识别,同样该发明也可适用其他图像的识别和分类等,只要采用了本发明的原理进行识别都应该属于本发明的范围。
附图说明
图1是本发明神经网络的结构及训练原理图。
图2是本发明训练200-200DBN的分类错误结果图
图3是本发明训练200-200DBN的最后一层RBM重构误差图
图4是本发明训练500-500DBN的分类错误结果图
图5是本发明训练500-500DBN的最后一层RBM重构误差图
具体实施方式
以下结合具体实施方式,对本发明做进一步说明;
请参阅图1所示,为本发明的DBN网络结构及训练原理示意图。
本发明获得了一种基于贝叶斯正则化的DBN网络训练方法,该方法通过引入贝叶斯正则化,控制训练过程中网络权值的变化量,提高权值稀疏特性,从而达到提高网络泛化能力的目的。
实验采用MNIST手写体数据库,从数据库中选取5,000个样本用于训练,选取另外1,000个不含标签的样本用于测试。
本发明采用了如下的技术方案及实现步骤:
基于贝叶斯正则化的深度神经网络学习方法,包括以下步骤:
(1确定输入对象和网络结构。选取MNIST手写体数字数据库中的样本作为网络输入,该数据库所含样本为0-9的阿拉伯数字,均为手写体,每个图像为28*28的像素,5,000个样本分为50批次,每批100个样本。采用含有两个隐含层的DBN网络,输入层神经元数量为一张图像含有的像素点数784个,设置隐含层神经元数为200或500,输出层为类别数量10。
(2基于贝叶斯正则化的无监督训练步骤。根据已知的DBN运算准则,首先,信号从可视层传入隐含层,公式(1)为由已知的可视层节点得到的隐含层节点的值:
p ( h j = 1 ) = 1 1 + exp ( - b j - &Sigma; i v i w ij ) - - - ( 14 )
第二,将信号从隐含层反传回可视层。由于RBM是对称网络,因此可以得到由隐含层节点得到可视层节点的值,见公式(15):
p ( v i = 1 ) = 1 1 + exp ( - c i - &Sigma; j h j w ji ) - - - ( 15 )
式(14)为由已知的可视层节点得到的隐含层节点的值,(15)为由隐含层节点得到可视层节点的值中。vi和ci分别对应每一个RBM网络中可视层第i个节点的取值和阈值,hj和bj分别对应网络中隐含层第j个节点的取值和阈值,wij为可视节点i和隐藏节点j之间的权值,表示两个神经元之间连接信号的强弱,p(hj=1)表示隐含层节点hj取值为1的概率,p(vi=1)表示可视层节点vi取值为1的概率。
公式(16)为可视层的特征向量v和隐含层的特征向量h的联合概率分布,在训练过程中计算其极小值,为改进算法之前的目标函数:
p ( v , h ) &Proportional; exp ( - E ( v , h ) ) = e h T Wv + b T v + c T h - - - ( 16 )
式中p(v,h)为函数运算目标,表示可视层和隐含层的联合概率分布,W是可视层和隐含层之间的权值矩阵,v和h分别为网络可视层和隐含层神经元的取值向量,c和b分别为网络可视层和隐含层神经元的阈值向量,T表示转置,E(v,h)是特征向量v和h的数学期望值,其绝对值的大小代表h能够保存的v的信息的多少,∝表示正相关。
过拟合是神经网络训练过程中的常见问题之一,为了提高网络泛化能力,传统的方式有简化网络结构和提前停止训练等方法,这些方法在不同程度上发挥作用,但不易于推广。贝叶斯正则化方法通过在训练中减小网络权值,有效抑制不重要的神经元发挥作用,从而达到抑制过拟合现象的目的。
本发明提出的基于贝叶斯正则化的网络训练目标函数为:
Fw=αP+βEW    (17)
式中,P为函数(16),EW为本发明使用的贝叶斯正则项,α和β是性能参数,其值大小通过经验选取,分别用于控制训练过程中训练误差的变化和权值的变化。公式(4)中的P和EW分别见(18)和(19),
P = p ( v , h ) &Proportional; exp ( - E ( v , h ) ) = e h T Wv + b T v + c T h - - - ( 18 )
E W = 1 m &times; n &Sigma; j = 1 m &Sigma; i = 1 n w ij 2 - - - ( 19 )
式中,m为输入层节点数量784,n为隐含层节点数量200或500,分别选取性能参数α=1,0.9,0.8,0.7,0.6;β=0,0.1,0.2,0.3,0.4。
利用马尔科夫链蒙特卡洛方法(Markov Chain Monte Carlo,MCMC),使RBM的可视层和隐含层互为条件进行交替求解,当其共同趋于平稳状态时,P(v,h)达到最大,然后求得P(v,h)与初始状态的联合概率分布的斜率使用公式(7)更新权值:
W ( &tau; + 1 ) = W ( &tau; ) + &eta; &PartialD; log P ( v , h ) &PartialD; W - - - ( 20 )
式(20)为权值更新公式,其中,W为训练过程中的权值矩阵,τ为迭代次数1,η为学习速度0.5。
表示第i个可视层单元在t=m时刻的特征向量,例如,v0是t=0时刻的可视层特征向量(即RBM的输入),h0是由v0根据公式(14)得到的隐含层特征向量,v1是在t=1时刻由h0根据公式(15)得到的可视层特征向量,以此类推,v和h分别是t=∞(即稳定状态)的可视层和隐含层的特征向量,公式(20)中的斜率可由公式(21)计算得出:
&PartialD; log P ( v , h ) &PartialD; &theta; ij = < h j 0 ( v i 0 - v i 1 ) > + < v i 1 ( h j 0 - h j 1 ) > + &CenterDot; &CenterDot; &CenterDot; = < h j 0 v i 0 > - < h j &infin; v i &infin; > - - - ( 21 )
式中,<h0v0>为输入特征向量与其对应的隐含层特征向量的点乘的平均值,<hv>为马尔可夫链末端可视层特征向量与其对应的隐含层特征向量的乘积的平均值,已知<hv>是收敛的。由公式(22)可知,联合概率分布的斜率与中间状态无关,只与网络的初始状态和最终状态有关。于是权值更新公式为:
W ( &tau; + 1 ) = W ( &tau; ) + &eta; ( < h j 0 v i 0 > - < h j &infin; v i &infin; > ) - - - ( 22 )
最后,根据CD(Contrastive Divergence)快速运算准则,再运行一次公式(13),将信号重新传给隐含层,得到新的p(hj=1),利用(23)更新权值,至此第一层RBM训练完毕。将数据输出给第二个隐含层,重复上述步骤,训练第二层RBM。
(3有监督训练过程。首先,将输入特征向量沿输入端传至输出端;然后使用反向传播,计算网络的输出结果与带有标签的正确结果的误差,将误差从输出端反向传播至输入端,以修改DBN的参数。利用sigmoid函数作为BP的网络节点的求值函数,具体实现步骤如下。
①初始化BP网络的参数,设定步长A为50;
②前向传播,对于第l层的j单元节点,有
y j l ( a ) = &Sigma; w ji ( a ) y i l - 1 ( a ) - - - ( 23 )
式中,首先判断神经元属于某一输出层,例如第L层,(l=L)。a为当前迭代步数,表示第l层第j个神经元的实际输出值,令dj(a)为理想输出值即正确信息,则误差
③计算权值调整大小δ,然后使用反向传播调整参数。
对于输出神经元有:
&delta; j l ( a ) = e j ( a ) y j l ( a ) [ 1 - y j l ( a ) ] - - - ( 24 )
对于非输出层神经元有:
&delta; j l ( a ) = y j l ( a ) [ 1 - y j l ( a ) ] &Sigma; &delta; i l + 1 ( a ) w ij l + 1 ( a ) - - - ( 25 )
式(11)、(12)中,ej(a)为第a步中第j个神经元的误差,表示第l层第j个神经元的实际输出值,表示第a步第l+1层第j个神经元和第l层第i个神经元的权值,表示第a步第l层第j个神经元的权值调整值,∑为加和符号。
④权值调整:
w ij l ( a + 1 ) = w ij l ( a ) + &eta; &delta; j l y i l - 1 ( a ) - - - ( 26 )
η为学习速率0.02,增大或减小可提高或降低收敛速度,为第a+1迭代步数的权值,即调整后的权值,表示第l层第j个神经元的权值调整值,表示第a步第l-1层第i个神经元的实际输出值。
⑤如果a=A,则训练结束,反之,a=a+1,返回步骤②。
(4网络测试步骤。使用未含标签的1,000个样本来测试训练网络的有效性,设置DBN的隐含层数量为2,神经元数为200-200或500-500,将数据传给输入层,运行至最后一层得到输出,与图像的实际值比较,将错误的结果标出。图二是图2是本发明训练200-200DBN的分类错误结果图,图3是本发明训练200-200DBN的最后一层RBM重构误差图,图4是本发明训练500-500DBN的分类错误结果图,图5是本发明训练500-500DBN的最后一层RBM重构误差图,下表为训练数据。结果表明,使用本发明的DBN网络能有有效提高训练网络的泛化性,减少错误数量,使用200个隐含层神经元的网络,正确率提高0.7%,使用500个隐含层神经元的网络,正确率提高0.4%。
表1改进DBN的训练数据

Claims (1)

1.基于贝叶斯正则化的深度学习网络图像识别方法,其特征在于:
1)确定网络结构:采用含有两个隐含层的DBN网络,输入层神经元数量为一张图像含有的像素点数,设置隐含层神经元数,大于100;
改进DBN网络训练目标函数;该DBN由多个叠加的受限玻尔兹曼机,以下简称RBM,和一个输出层组成;DBN的训练过程分为两步:首先,使用无监督学习方法训练每一层受限玻尔兹曼机,且每个RBM的输入为上一个RBM的输出,即每一层RBM都要单独训练;第二,使用最后一层网络接收最后一个RBM的输出,用有监督的方式反向训练整个网络,对其进行微调;具体步骤如下:
2).首先,初始化网络权值及阈值为[0,1]区间的随机值,当信号从可视层传入隐含层,公式(1)为由已知的可视层节点得到的隐含层节点的值:
p ( h j = 1 ) = 1 1 + exp ( - b j - &Sigma; i v i w ij ) - - - ( 1 )
第二,将信号从隐含层反传回可视层;由于RBM是对称网络,因此可以得到由隐含层节点得到可视层节点的值,见公式(2):
p ( v i = 1 ) = 1 1 + exp ( - c i - &Sigma; j h j w ji ) - - - ( 2 )
式(1)为由已知的可视层节点得到的隐含层节点的值,(2)为由隐含层节点得到可视层节点的值中;vi和ci分别对应每一个RBM网络中可视层第i个节点的取值和阈值,hj和bj分别对应网络中隐含层第j个节点的取值和阈值,wij为可视节点i和隐藏节点j之间的权值,表示两个神经元之间连接信号的强弱,上述值在训练之前需初始化,均取[0,1]之间的随机值,p(hj=1)表示隐含层节点hj取值为1的概率,p(vi=1)表示可视层节点vi取值为1的概率;
公式(3)为可视层的特征向量v和隐含层的特征向量h的联合概率分布,在训练过程中计算其极小值,为改进算法之前的目标函数:
p ( v , h ) &Proportional; exp ( - E ( v , h ) ) = e h T Wv + b T v + c T h - - - ( 3 )
式中p(v,h)为函数运算目标,表示可视层和隐含层的联合概率分布,W是可视层和隐含层之间的权值矩阵,v和h分别为网络可视层和隐含层神经元的取值向量,c和b分别为网络可视层和隐含层神经元的阈值向量,T表示转置,E(v,h)是特征向量v和h的数学期望值,其绝对值的大小代表h能够保存的v的信息的多少,∝表示正相关;
基于贝叶斯正则化的网络训练方法见公式(4)、(5)、(6),其中目标函数为:
Fw=αP+βEW    (4)
式中,P为函数(3),EW为贝叶斯正则项,α和β是性能参数,α+β=1且α>β,分别用于控制训练过程中训练误差的变化和权值的变化;公式(4)中的P和EW分别见(5)和(6),
P = p ( v , h ) &Proportional; exp ( - E ( v , h ) ) = e h T Wv + b T v + c T h - - - ( 5 )
E W = 1 m &times; n &Sigma; j = 1 m &Sigma; i = 1 n w ij 2 - - - ( 6 )
式(6)中,m为单个样本的像素数量,n为隐含层节点数量;
利用马尔科夫链蒙特卡洛方法,以下简称MCMC,使RBM的可视层和隐含层互为条件进行交替求解,当其共同趋于平稳状态时,P(v,h)达到最大,然后求得P(v,h)与初始状态的联合概率分布的斜率使用公式(7)更新权值及阈值:
&theta; ( &tau; + 1 ) = &theta; ( &tau; ) + &eta; &PartialD; log P ( v , h ) &PartialD; &theta; - - - ( 7 )
式(7)为权值更新公式,其中,θ=(W,b,c),表示训练过程中的权值和阈值矩阵,τ为迭代次数,η为学习速度;
表示第i个可视层单元在t时刻的特征向量,v0是t=0时刻的可视层特征向量即RBM的输入,h0是由v0根据公式(1)得到的隐含层特征向量,v1是在t=1时刻由h0根据公式(2)得到的可视层特征向量,以此类推,v和h分别是t=∞即稳定状态的可视层和隐含层的特征向量,公式(7)中的斜率由公式(8)计算得出:
&PartialD; log P ( v , h ) &PartialD; W ij = < h j 0 ( v i 0 - v i 1 ) > + < v i 1 ( h j 0 - h j 1 ) > + &CenterDot; &CenterDot; &CenterDot; = < h j 0 v i 0 > - < h j &infin; v i &infin; > - - - ( 8 )
式中,<h0v0>为输入特征向量与其对应的隐含层特征向量的点乘的平均值,<hv>为马尔可夫链末端可视层特征向量与其对应的隐含层特征向量的乘积的平均值,已知<hv>是收敛的;由公式(8)可知,联合概率分布的斜率与中间状态无关,只与网络的初始状态和最终状态有关;于是权值及阈值更新公式为:
&theta; ( &tau; + 1 ) = &theta; ( &tau; ) + &eta; ( < h j 0 v i 0 > - < h j &infin; v i &infin; > ) - - - ( 9 )
式中参数意义同公式(7);
根据CD快速运算准则,再运行一次公式(1),将信号重新传给隐含层,得到新的p(hj=1),利用(9)更新权值,至此第一层RBM训练完毕;将数据输出给第二个隐含层,重复上述步骤,训练第二层RBM,直至所有隐含层训练完毕;
3).有监督训练步骤:
根据已知的误差反向传播进行实现,首先,将输入向量沿输入端传至输出端;然后使用反向传播,计算网络的输出结果与带有标签的正确结果的误差,将误差从输出端反向传播至输入端,以修改DBN的参数;具体实现步骤如下;
①初始化BP网络的参数,设定步长A;
②前向传播,对于第l层的j单元节点,有
y j l ( a ) = &Sigma; w ji ( a ) y i l - 1 ( a ) - - - ( 10 )
式中,首先判断神经元属于某一输出层;a为当前迭代步数,表示第l层第j个神经元的实际输出值,令dj(a)为理想输出值即正确信息,则误差 e j ( a ) = d j ( a ) - y j l ( a ) ;
③计算权值调整大小δ,然后使用反向传播调整参数;
对于输出神经元有:
&delta; j l ( a ) = e j ( a ) y j l ( a ) [ 1 - y j l ( a ) ] - - - ( 11 )
对于非输出层神经元有:
&delta; j l ( a ) = y j l ( a ) [ 1 - y j l ( a ) ] &Sigma; &delta; i l + 1 ( a ) w ij l + 1 ( a ) - - - ( 12 )
式(11)、(12)中,ej(a)为第a步中第j个神经元的误差,表示第l层第j个神经元的实际输出值,表示第a步第l+1层第j个神经元和第l层第i个神经元的权值,表示第a步第l层第j个神经元的权值调整值,表示第a步第l+1层第i个神经元的权值调整值,∑为加和符号;
④权值调整:
w ij l ( a + 1 ) = w ij l ( a ) + &eta; &delta; j l y i l - 1 ( a ) - - - ( 13 )
η为学习速率,为第a+1迭代步数的权值,即调整后的权值,表示第a步第l层第j个神经元和第l-1层第i个神经元的权值,表示第l层第j个神经元的权值调整值,表示第a步第l-1层第i个神经元的实际输出值;
⑤如果a=A,则训练结束,反之,a=a+1,返回步骤②。
CN201410266127.8A 2014-06-15 2014-06-15 基于贝叶斯正则化的深度学习网络图像识别方法 Active CN104077595B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410266127.8A CN104077595B (zh) 2014-06-15 2014-06-15 基于贝叶斯正则化的深度学习网络图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410266127.8A CN104077595B (zh) 2014-06-15 2014-06-15 基于贝叶斯正则化的深度学习网络图像识别方法

Publications (2)

Publication Number Publication Date
CN104077595A true CN104077595A (zh) 2014-10-01
CN104077595B CN104077595B (zh) 2017-06-20

Family

ID=51598841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410266127.8A Active CN104077595B (zh) 2014-06-15 2014-06-15 基于贝叶斯正则化的深度学习网络图像识别方法

Country Status (1)

Country Link
CN (1) CN104077595B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732559A (zh) * 2015-02-02 2015-06-24 大连民族学院 一种基于rgb-d数据的多目标检测与跟踪方法
CN105046323A (zh) * 2015-04-29 2015-11-11 西北大学 一种正则化rbf网络多标签分类方法
CN105259757A (zh) * 2015-10-22 2016-01-20 山东科技大学 一种受控随机系统的无限时域鲁棒控制器的控制方法
CN105404865A (zh) * 2015-11-16 2016-03-16 杭州电子科技大学 基于概率态受限玻尔兹曼机级联的人脸检测方法
CN105512723A (zh) * 2016-01-20 2016-04-20 南京艾溪信息科技有限公司 一种用于稀疏连接的人工神经网络计算装置和方法
CN105550748A (zh) * 2015-12-09 2016-05-04 四川长虹电器股份有限公司 基于双曲正切函数的新型神经网络的构造方法
CN105550747A (zh) * 2015-12-09 2016-05-04 四川长虹电器股份有限公司 一种新型卷积神经网络的样本训练方法
CN105718959A (zh) * 2016-01-27 2016-06-29 中国石油大学(华东) 一种基于自编码的物体识别方法
CN105809693A (zh) * 2016-03-10 2016-07-27 西安电子科技大学 基于深度神经网络的sar图像配准方法
CN106548645A (zh) * 2016-11-03 2017-03-29 济南博图信息技术有限公司 基于深度学习的车辆路径寻优方法及系统
CN106709528A (zh) * 2017-01-10 2017-05-24 深圳大学 基于多目标函数深度学习的车辆重识别方法及装置
CN106991429A (zh) * 2017-02-27 2017-07-28 陕西师范大学 图像识别深度信念网络结构的构建方法
CN107203787A (zh) * 2017-06-14 2017-09-26 江西师范大学 一种无监督正则化矩阵分解特征选择方法
CN107219188A (zh) * 2017-06-02 2017-09-29 中国计量大学 一种基于改进dbn的近红外光谱分析纺织品棉含量的方法
CN107229914A (zh) * 2017-05-26 2017-10-03 北京工业大学 一种基于深度q学习策略的手写数字识别方法
CN107528824A (zh) * 2017-07-03 2017-12-29 中山大学 一种基于二维度稀疏化的深度信念网络入侵检测方法
CN108549899A (zh) * 2018-03-07 2018-09-18 中国银联股份有限公司 一种图像识别方法及装置
CN108805167A (zh) * 2018-05-04 2018-11-13 江南大学 一种基于Laplace函数约束的稀疏深度置信网络图像分类方法
CN110276442A (zh) * 2019-05-24 2019-09-24 西安电子科技大学 一种神经网络架构的搜索方法及装置
CN110290120A (zh) * 2019-06-12 2019-09-27 西安邮电大学 一种云平台的时序演化网络安全预警方法
CN111177966A (zh) * 2019-12-30 2020-05-19 北京航空航天大学 一种基于贝叶斯理论的导弹结构不确定载荷区间重构方法
CN113096792A (zh) * 2021-04-01 2021-07-09 宁波伟吉电力科技有限公司 一种基于机器学习的智能健康监测预警方法及系统
CN116911640A (zh) * 2023-09-11 2023-10-20 中国地质大学(北京) 一种基于机器深度学习的页岩储层含气量预测方法
CN117314763A (zh) * 2023-08-17 2023-12-29 贵州医科大学附属口腔医院 一种基于机器学习的口腔卫生管理方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729678A (zh) * 2013-12-12 2014-04-16 中国科学院信息工程研究所 一种基于改进dbn模型的水军检测方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729678A (zh) * 2013-12-12 2014-04-16 中国科学院信息工程研究所 一种基于改进dbn模型的水军检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王永乾等: "《基于BP 网络的手写体数字识别方法》", 《山东电子》 *
路过天堂_ELLEN: "《深度学习-深度信念网络》", 《HTTP://BLOG.163.COM/SILENCE_ELLEN/BLOG/STATIC/176104222201431710264087/》 *

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732559B (zh) * 2015-02-02 2017-08-01 大连民族学院 一种基于rgb‑d数据的多目标检测与跟踪方法
CN104732559A (zh) * 2015-02-02 2015-06-24 大连民族学院 一种基于rgb-d数据的多目标检测与跟踪方法
CN105046323B (zh) * 2015-04-29 2017-03-22 西北大学 一种正则化rbf网络多标签分类方法
CN105046323A (zh) * 2015-04-29 2015-11-11 西北大学 一种正则化rbf网络多标签分类方法
CN105259757A (zh) * 2015-10-22 2016-01-20 山东科技大学 一种受控随机系统的无限时域鲁棒控制器的控制方法
CN105404865A (zh) * 2015-11-16 2016-03-16 杭州电子科技大学 基于概率态受限玻尔兹曼机级联的人脸检测方法
CN105550748A (zh) * 2015-12-09 2016-05-04 四川长虹电器股份有限公司 基于双曲正切函数的新型神经网络的构造方法
CN105550747A (zh) * 2015-12-09 2016-05-04 四川长虹电器股份有限公司 一种新型卷积神经网络的样本训练方法
WO2017124646A1 (zh) * 2016-01-20 2017-07-27 北京中科寒武纪科技有限公司 一种用于稀疏连接的人工神经网络计算装置和方法
CN105512723A (zh) * 2016-01-20 2016-04-20 南京艾溪信息科技有限公司 一种用于稀疏连接的人工神经网络计算装置和方法
CN105718959A (zh) * 2016-01-27 2016-06-29 中国石油大学(华东) 一种基于自编码的物体识别方法
CN105718959B (zh) * 2016-01-27 2018-11-16 中国石油大学(华东) 一种基于自编码的物体识别方法
CN105809693A (zh) * 2016-03-10 2016-07-27 西安电子科技大学 基于深度神经网络的sar图像配准方法
CN105809693B (zh) * 2016-03-10 2018-11-16 西安电子科技大学 基于深度神经网络的sar图像配准方法
CN106548645A (zh) * 2016-11-03 2017-03-29 济南博图信息技术有限公司 基于深度学习的车辆路径寻优方法及系统
CN106548645B (zh) * 2016-11-03 2019-07-12 济南博图信息技术有限公司 基于深度学习的车辆路径寻优方法及系统
CN106709528A (zh) * 2017-01-10 2017-05-24 深圳大学 基于多目标函数深度学习的车辆重识别方法及装置
CN106991429B (zh) * 2017-02-27 2018-10-23 陕西师范大学 图像识别深度信念网络结构的构建方法
CN106991429A (zh) * 2017-02-27 2017-07-28 陕西师范大学 图像识别深度信念网络结构的构建方法
CN107229914A (zh) * 2017-05-26 2017-10-03 北京工业大学 一种基于深度q学习策略的手写数字识别方法
CN107229914B (zh) * 2017-05-26 2020-07-03 北京工业大学 一种基于深度q学习策略的手写数字识别方法
CN107219188B (zh) * 2017-06-02 2019-09-20 中国计量大学 一种基于改进dbn的近红外光谱分析纺织品棉含量的方法
CN107219188A (zh) * 2017-06-02 2017-09-29 中国计量大学 一种基于改进dbn的近红外光谱分析纺织品棉含量的方法
CN107203787B (zh) * 2017-06-14 2021-01-08 江西师范大学 一种无监督正则化矩阵分解特征选择方法
CN107203787A (zh) * 2017-06-14 2017-09-26 江西师范大学 一种无监督正则化矩阵分解特征选择方法
CN107528824B (zh) * 2017-07-03 2020-08-04 中山大学 一种基于二维度稀疏化的深度信念网络入侵检测方法
CN107528824A (zh) * 2017-07-03 2017-12-29 中山大学 一种基于二维度稀疏化的深度信念网络入侵检测方法
CN108549899B (zh) * 2018-03-07 2022-02-15 中国银联股份有限公司 一种图像识别方法及装置
CN108549899A (zh) * 2018-03-07 2018-09-18 中国银联股份有限公司 一种图像识别方法及装置
CN108805167A (zh) * 2018-05-04 2018-11-13 江南大学 一种基于Laplace函数约束的稀疏深度置信网络图像分类方法
CN108805167B (zh) * 2018-05-04 2022-05-13 江南大学 一种基于Laplace函数约束的稀疏深度置信网络图像分类方法
CN110276442B (zh) * 2019-05-24 2022-05-17 西安电子科技大学 一种神经网络架构的搜索方法及装置
CN110276442A (zh) * 2019-05-24 2019-09-24 西安电子科技大学 一种神经网络架构的搜索方法及装置
CN110290120A (zh) * 2019-06-12 2019-09-27 西安邮电大学 一种云平台的时序演化网络安全预警方法
CN110290120B (zh) * 2019-06-12 2021-09-17 西安邮电大学 一种云平台的时序演化网络安全预警方法
CN111177966B (zh) * 2019-12-30 2021-10-01 北京航空航天大学 一种基于贝叶斯理论的导弹结构不确定载荷区间重构方法
CN111177966A (zh) * 2019-12-30 2020-05-19 北京航空航天大学 一种基于贝叶斯理论的导弹结构不确定载荷区间重构方法
CN113096792A (zh) * 2021-04-01 2021-07-09 宁波伟吉电力科技有限公司 一种基于机器学习的智能健康监测预警方法及系统
CN113096792B (zh) * 2021-04-01 2024-04-19 宁波伟吉电力科技有限公司 一种基于机器学习的智能健康监测预警方法及系统
CN117314763A (zh) * 2023-08-17 2023-12-29 贵州医科大学附属口腔医院 一种基于机器学习的口腔卫生管理方法及系统
CN116911640A (zh) * 2023-09-11 2023-10-20 中国地质大学(北京) 一种基于机器深度学习的页岩储层含气量预测方法
CN116911640B (zh) * 2023-09-11 2023-12-26 中国地质大学(北京) 一种基于机器学习的页岩储层含气量预测方法

Also Published As

Publication number Publication date
CN104077595B (zh) 2017-06-20

Similar Documents

Publication Publication Date Title
CN104077595A (zh) 基于贝叶斯正则化的深度学习网络图像识别方法
EP3685316B1 (en) Capsule neural networks
EP3602413B1 (en) Projection neural networks
CN108734276B (zh) 一种基于对抗生成网络的模仿学习对话生成方法
CN108052512B (zh) 一种基于深度注意力机制的图像描述生成方法
EP3166049B1 (en) Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
Dong et al. Automatic age estimation based on deep learning algorithm
CN108376132B (zh) 相似试题的判定方法及系统
CN108389576B (zh) 压缩后的语音识别模型的优化方法及系统
CN110321361B (zh) 基于改进的lstm神经网络模型的试题推荐判定方法
Hu Teaching evaluation system by use of machine learning and artificial intelligence methods
US11836630B2 (en) Training neural networks using posterior sharpening
CN104866810A (zh) 一种深度卷积神经网络的人脸识别方法
CN105205448A (zh) 基于深度学习的文字识别模型训练方法和识别方法
CN103984959A (zh) 一种基于数据与任务驱动的图像分类方法
CN105787557A (zh) 一种计算机智能识别的深层神经网络结构设计方法
CN112967088A (zh) 基于知识蒸馏的营销活动预测模型结构和预测方法
CN107451596B (zh) 一种网络节点分类方法及装置
Li et al. Teacher-free distillation via regularizing intermediate representation
Dai et al. Hybrid deep model for human behavior understanding on industrial internet of video things
CN111144500A (zh) 基于解析高斯机制的差分隐私深度学习分类方法
CN106339718A (zh) 一种基于神经网络的分类方法及装置
CN109582974A (zh) 一种基于深度学习的在校大学生信用评估方法及装置
CN116796810A (zh) 一种基于知识蒸馏的深度神经网络模型压缩方法及装置
CN114881169A (zh) 使用随机特征损坏的自监督对比学习

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant