CN111461229B - 一种基于目标传递和线搜索的深层神经网络优化及图像分类方法 - Google Patents
一种基于目标传递和线搜索的深层神经网络优化及图像分类方法 Download PDFInfo
- Publication number
- CN111461229B CN111461229B CN202010252752.2A CN202010252752A CN111461229B CN 111461229 B CN111461229 B CN 111461229B CN 202010252752 A CN202010252752 A CN 202010252752A CN 111461229 B CN111461229 B CN 111461229B
- Authority
- CN
- China
- Prior art keywords
- layer
- hidden
- neuron
- hidden layer
- neurons
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 30
- 238000005457 optimization Methods 0.000 title claims abstract description 13
- 238000012546 transfer Methods 0.000 title claims description 4
- 238000012549 training Methods 0.000 claims abstract description 43
- 230000006870 function Effects 0.000 claims abstract description 32
- 230000004913 activation Effects 0.000 claims abstract description 7
- 210000002569 neuron Anatomy 0.000 claims description 109
- 238000013507 mapping Methods 0.000 claims description 31
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000003062 neural network model Methods 0.000 claims description 7
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 238000011423 initialization method Methods 0.000 claims description 2
- 239000007788 liquid Substances 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 6
- 210000004556 brain Anatomy 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 210000003850 cellular structure Anatomy 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000000946 synaptic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于目标传递和线搜索的深层神经网络优化方法,并在此基础上完成图像和多维数据分类,用于解决人工神经网络在训练过程中需要频繁手动调参的问题,涉及机器学习及人工智能以及计算机视觉技术。该方法能够在训练过程中通过分析基于ReLU激活函数构造的每一层网络的数学性质从而自动计算出对于本层网络的最优学习率,最终能够使神经网络在不依赖人工调参的情况下完成自适应训练任务。相比于反向传播算法,本方法能够更快完成训练任务,并获取不弱于反向传播算法的精度表现。
Description
技术领域
本发明涉及机器学习及人工智能以及计算机视觉技术,具体是一种对于分类神经网络的自适应训练方法,以及在此基础上进行的图像以及多维数据分类方法。
背景技术
借助神经科学的发展,计算机科学家通过构造神经元,模拟生物神经结构组建人工神经网络在一些智能任务如计算机视觉、自然语言处理等诸多领域中取得了优秀的表现。通过对神经多层结构的加深理解,计算机科学家已经认识到深层对于神经网络的重要性,即随着神经网络层数的增加,从数据中提取的特征会越来越高级,最终使模型精度越来越好。但是对于神经元的赋值过程,由于目前对于脑神经的认识仍略显不足,人们仍未找到比较令人信服的参数调节方式。随着网络层数的加深,多层嵌套的网络结构以及非线性激活函数使得最终的损失函数高度非突,这也导致了神经网络的训练困难。为解决此问题,计算机科学家采用反向传播算法(BP算法),通过梯度下降以链式法则形式将误差逐层传递回每一层网络。但是这种方法依赖诸多训练超参数,如学习率、批大小以及权值衰减等参数,这导在致训练神经网络时依赖经验以及调试困难。同时,采用反向传播算法在训练网络时也可能导致梯度爆炸或梯度消失现象的出现,即如果某一层网络由于自身状态以及激活函数性质无法稳定传递梯度信息,这将导致该层之前的网络训练失败。另外,这种方法缺乏生物合理性,目前脑科学家已经通过突触的结构验证了正向传播的存在,但是对于反向传播的方式,目前仍未发现相应的细胞结构予以证实。因此,寻找一种能够自适应学习超参数,且不依赖于反向传播算法的神经网络优化方法对于提升网络训练效率十分重要。
发明内容
为改善上述优化问题,本发明提出了一种基于目标传递和线搜索的深层神经网络优化方法以及在此基础上的图像和多维数据分类方法,本优化方法不依赖于反向传播算法,从而避免了由于梯度依赖所造成的训练失败的出现。同时,本优化方法通过分析网络每一层的状态,能够计算出该层最优的学习率,从而使得训练神经网络避免经验依赖并提高训练效率。
网络优化方法包括:
(1)准备训练数据集{X,Y},其中X为固定数量N的图片或多维数据,Y为此图片所对应的类别标签;若输入数据X为图像,其应具有相同尺寸;若输入数据X为多维数据,每一条数据的维度应相同;对于标签Y应为一单值标签,代表属于该条数据的正确类别;
(2)构造M层隐藏层神经网络模型,模型包括M层隐藏层fc、M-1层辅助层h、M-2层近似逆映射层g,其中,从第二层到第M层的所有隐藏层,每一个隐藏层配有一相同结构的辅助层h用于传递每层目标值的误差,同时对每相邻两层辅助层h之间设有一近似逆映射层g,用于计算辅助层的输出值,
所述隐藏层中,每一层隐藏层由若干神经元构成,其中每一层隐藏层的神经元个数可不同,但每一层隐藏层的激活函数需为ReLU函数,
即:其中x为该隐藏层的输出值;
其中,fcm表示第m层隐藏层,Wm代表第m层隐藏层的神经元,m=1,...,M;hm-1表示第m层隐藏层对应的辅助层;
gm-2代表辅助层hm-2与辅助层hm-1之间设置的近似逆映射层,Vm-2代表对应神经元;其中神经元Vm-2的个数与神经元Wm-1个数相同;
(3)初始化神经网络模型,
所述初始化包括隐藏层神经元W的初始化和近似逆映射层神经元V的初始化,其中所有M个神经元W以及所有M-2个神经元V初始化方法为随机初始化;其中,所有M-2个近似逆映射层g的初始化具体包括:构造并初始化所有M-2个近似逆映射层g,每一层g的构造方法相同,对于近似逆映射层gm-2的构造方法为近似逆映射层gm-2的神经元个数与第m-1个隐藏层fcm神经元个数相同,所有M-2个近似逆映射层g的神经元V的值由随机初始化获得;
(4)训练神经网络模型,所述的网络训练通过迭代更新所有隐藏层的神经元W和近似逆映射层的神经元V完成。
进一步的,近似逆映射层神经元V的更新过程如下,
1)对标签数据Y进行One-Hot编码,具体操作为对于每一标签值yi,构造一长度为标签种类数n的向量l,将此向量第yi分量值设为1,其余分量值设为0,所得向量l即为标签数据Y的One-Hot编码向量;
2)构造分类损失函数其中p(i)为第i个样本的标签数据One-Hot编码,q(i)为第i个样本的神经网络输出向量;
3)更新,具体分为两个阶段,第一阶段包括第M层隐藏层神经元WM的更新,第M-1层辅助层hM-1的输出值更新,
其中,所述第M层隐藏层神经元WM的更新方法具体为:将训练数据集X输入神经网络并完成一次前馈传播,根据分类损失函数Ltotal计算本次前馈传播的分类损失,并利用采用梯度下降法更新第M层隐藏层神经元WM;
所述第M-1层辅助层hM-1的输出值的更新方法具体为:根据本次前馈传播的损失函数Ltotal对第M-1层隐藏层fcM-1的输出值HM-1求梯度/>并令第M-1层辅助层hM-1的输出值为/>
第二阶段包括前M-2层辅助层的输出值更新,以及利用更新后的辅助层输出值完成近似逆映射层神经元V的更新,
其中,第m层辅助层的输出值的更新方法如下:
其中,利用更新后的第m层辅助层输出值完成第m层近似逆映射层gm对应神经元Vm的更新,具体方式如下:
其中ε~N(0,σ),为第m层隐藏层输出值Hm引入高斯噪声后的值,fm+1表示第m+1层对应ReLU函数。
进一步的,对于每一次迭代循环,神经元Wm进行自适应学习率有两种更新方式,其中Online方法如下:
1)对前M-1层隐藏层逐层构造损失函数,其中第m层隐藏层的逐层损失函数如下:
其中H0视为输入数据,
2)对于第1层至第M-1层隐藏层,由如下方法计算每一层隐藏层的Pos集用于寻找最优学习率,
Posm;j,k={Hm-1;j,k|Wm;jHm-1;k>0}
其中Hm-1代表第m-1层隐藏层输出值矩阵,Hm-1;j,k代表该矩阵第j行第k列的数值;Wm;j代表第m层隐含层神经元的第j个行向量,Hm-1;k为第m-1层隐藏层输出值矩阵的第k个列向量,Posm;j,k代表满足第m层隐藏层神经元的第j个行向量与第m-1层隐藏层输出值矩阵的第k个列向量内积大于0的所有第m-1层隐藏层输出值矩阵的分量;
3)使用如下方法逐层计算由第1层至第M-1层的可能最优学习率
其中为第m层隐藏层可能的最优学习率,/>为第m层辅助层输出值,Wm;j为第m层隐含层神经元的第j个行向量,Hm-1;k为第m-1层隐藏层输出值矩阵的第k个列向量,Wm;j′为第m层隐含层神经元的第j个行向量的梯度值;
4)根据逐层损失函数Llayer计算第1层至第M-1层隐藏层神经元梯度并利用可能最优学习率计算神经元预更新值/>其中,第m层隐藏层神经元预更新值/>计算公式如下:
利用神经元预更新值计算第m层隐藏层神经元预更新后的/>集,
其中Hm-1代表第m-1层隐藏层输出值矩阵,Hm-1;j,k代表该矩阵第j行第k列的数值;代表第m层隐含层神经元预更新值的第j个行向量,Hm-1;k为第m-1层隐藏层输出值矩阵的第k个列向量,/>代表满足第m层隐含层神经元预更新值的第j个行向量与第m-1层隐藏层输出值矩阵的第k个列向量内积大于0的所有第m-1层隐藏层输出值矩阵的分量;
5)若Pos集与预更新后的集一致,则接受此可能最优学习率为最优学习率,接受此神经元预更新,即:/>
若Pos集与预更新后的不一致时,不接受可能最优学习率以及神经元预更新,使用如下方法重新计算最优学习率:
其中为第m层隐藏层可能最优学习率,j为神经元下标,k为隐藏层列下标,Wm;j为第m层隐含层神经元的第j个行向量,Hm-1;k为第m-1层隐藏层输出值矩阵的第k个列向量,Wm;j′为第m层隐含层神经元的第j个行向量的梯度值;
根据逐层损失函数Llayer计算第1层至第M-1层隐藏层神经元梯度并使用最优学习率完成神经元更新,其中,第m层隐藏层神经元更新值计算公式如下:/>
进一步的,对于每一次迭代循环,神经元Wm进行自适应学习率有两种更新方式,其中线搜索更新方法如下:
a)初始化学习率ρ,默认为1;
b)由第1层至第M-1层隐藏层构造逐层损失函数,其中,第m层隐藏层的损失函数如下:
c)学习率ρ减半,依据当前损失函数分别计算前M-1层隐藏层神经元的梯度并使用当前学习率ρ分别计算前M-1层隐藏层神经元的预更新值,其中第m层隐藏层神经元的预更新值计算公式如下,
d)利用预更新神经元计算逐层损失函数,其中,第m层隐藏层的损失函数具体如下:
e)若每第m层隐藏层的返回4.2直至Lossafter≤Lossbefore,接受此时的神经元的预更新值,其中,第m层隐藏层神经元最终的更新值为/>
基于上述构建及训练方法,完成对神经网络的训练,即可对未知数据执行预测分类任务,具体包括将待分类数据输入训练完成的神经网络,经由所有隐藏层H1至Hm执行前馈传播得到网络输出,对网络输出执行softmax操作后取最大值对应的类别即为本网络预测该数据的分类结果。
有益效果
本发明可以通过基于目标传递和线搜索的深层神经网络优化方法自适应完成深度神经网络的训练工作,同时能够避免梯度爆炸或梯度消失现象的出现。这使得在训练神经网络时不再需要人工手动尝试合适的最有学习率也能获得较好的分类效果。
附图说明
图1为本发明实施例网络结构图。
图2为本发明所述网络训练方法流程图。
图3为UCISoybean数据集于本发明实施例分类精度曲线图
图4为UCISoybean数据集于本发明实施例分类损失曲线图
图5为MNIST数据集于本发明实施例分类精度曲线图
图6为MNIST数据集于本发明实施例分类损失曲线图其中sgd为传统梯度下降方法结果,online为本发明采用online更新方法结果,dtp为Different Target Propagation方法结果,line search为本发明采用线搜索更新方法结果。
具体实施方式
下面结合附图和实施例对本发明的方法作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了实施方式和具体操作过程,但本发明的保护范围不限于下述的实施例。
参见图1,本发明实施例1使用online更新方式训练网络,包括以下步骤:
1.准备UCISoybean数据集以及MNIST数据集作为本实施例训练集,分别对此二训练集构造输入数据X以及标签信息Y。对于UCISoybean数据集,其拥有47个样本,其中每个样本维度为35维,对于此数据集随机抽取35个样本用于训练,剩余12个样本用于测试。对于MNIST数据集,其拥有70000个样本,每个样本为一28*28图片,将此数据集前60000个样本用于训练,最后10000个样本用于测试。
如图1构造3隐含层的神经网络,其中fc1为第一隐藏层,其对应神经元为W1具有100个神经元,relu为激活函数层,H1为第一隐藏层输出结果;fc2为第二隐含层,具有50个神经元W2,H2为第二隐含层输出结果,h1为第二隐藏层fc2的辅助层,为辅助层h1的输出结果;fc3为第三隐含层,具有10个神经元W3,h2为第三隐藏层fc3的辅助层,/>为辅助层h2的输出结果;g1为辅助层h2与辅助层h1之间设置的近似逆映射层,具有100个神经元V1;loss为交叉熵函数/>通过标签信息p(i)以及softmax操作后的第三隐含层输出值q(i)以交叉熵计算获得。
2.随机初始化模型。
3.将样本标签Y转换成One-hot编码形式,并与输入数据X组成样本-标签对,输入模型。
4.开始训练模型,设置迭代次数为300次,其中每次作如下4-6操作:
通过前馈传播,计算Loss,并计算H2梯度令/>计算W3梯度/>使用梯度下降法更新/>
5.设置训练g1,构造近似逆映射损失函数
其中为H1引入高斯噪声后结果,即/>ε~N(0,1)。令Lg1对V求梯度/>更新/>即可完成训练g1。
6.构造逐层损失以及/>使用online方法获取最优学习率/>及/>分别对第一层隐藏层及第二层隐藏层使用/>及/>更新神经元:
至此完成一次循环迭代,若迭代次数小于300次,则继续迭代,否则退出,完成任务。
7.使用测试数据进行前馈传播,用于平价训练成果优劣。
参见图1,本发明实施例2使用线搜索更新方式训练网络,包括以下步骤:
1.准备UCISoybean数据集作为本实施例训练集,分别对此二训练集构造输入数据X以及标签信息Y。对于UCISoybean数据集,其拥有47个样本,其中每个样本维度为35维,对于此数据集随机抽取35个样本用于训练,剩余12个样本用于测试。
如图1构造3隐含层的神经网络,其中fc1为第一隐藏层,其对应神经元为W1具有100个神经元,relu为激活函数层,H1为第一隐藏层输出结果;fc2为第二隐含层,具有50个神经元W2,H2为第二隐含层输出结果,h1为第二隐藏层fc2的辅助层,为辅助层h1的输出结果;fc3为第三隐含层,具有10个神经元W3,h2为第三隐藏层fc3的辅助层,/>为辅助层h2的输出结果;g1为辅助层h2与辅助层h1之间设置的近似逆映射层,具有100个神经元V1;loss为交叉熵函数/>通过标签信息p(i)以及softmax操作后的第三隐含层输出值q(i)以交叉熵计算获得。
2.随机初始化模型。
3.将样本标签Y转换成One-hot编码形式,并与输入数据X组成样本-标签对,输入模型。
4.开始训练模型,设置迭代次数为300次,其中每次作如下4-6操作:通过前馈传播,计算Loss,并计算H2梯度令/>计算W3梯度/>使用梯度下降法更新
5.设置训练g1,构造近似逆映射损失函数
其中为H1引入高斯噪声后结果,即/>ε~N(0,1)。令Lg1对V求梯度/>更新/>即可完成训练g1。
6.构造逐层损失以及/>使用线搜索方法对可能的最优学习率进行试探,当逐层损失缩小时,接受最优学习率/>及/>分别对第一层隐藏层及第二层隐藏层使用/>及/>更新神经元:
至此完成一次循环迭代,若迭代次数小于300次,则继续迭代,否则退出,完成任务。
7.使用测试数据进行前馈传播,用于平价训练成果优劣。
本发明对于实施例1及实施例2的精度结果如表1及表2所示:
DTP | online | 线搜索 | SGD | |
训练 | 97% | 100% | 100% | 100% |
测试 | 75% | 100% | 100% | 100% |
表1UCISoybean数据集精度对比
表2MNIST数据集精度对比
Claims (3)
1.一种基于目标传递和在线搜索的深层神经网络优化方法,其特征在于包括:
步骤(1)准备训练数据集{X,Y},其中X为固定数量N的图片,Y为此图片所对应的类别标签;
步骤(2)构造M层隐藏层神经网络模型,模型包括M层隐藏层fc、M-1层辅助层h、M-2层近似逆映射层g,其中,从第二层到第M层的所有隐藏层,每一个隐藏层配有一相同结构的辅助层h用于传递每层目标值的误差,同时对每相邻两层辅助层h之间设有一近似逆映射层g,用于计算辅助层的输出值,
所述隐藏层中,每一层隐藏层由若干神经元构成,其中每一层隐藏层的神经元个数不同,但每一层隐藏层的激活函数为ReLU函数,
用fcm表示第m层隐藏层,Wm代表第m层隐藏层的神经元,m=1,...,M;
hm-1表示第m层隐藏层对应的辅助层;
gm-2代表辅助层hm-2与辅助层hm-1之间设置的近似逆映射层,Vm-2代表近似逆映射层gm-2对应的神经元;其中神经元Vm-2的个数与神经元Wm-1个数相同;
步骤(3)初始化神经网络模型,
所述初始化包括隐藏层神经元W的初始化和近似逆映射层神经元V的初始化,其中所有M个神经元W以及所有M-2个神经元V初始化方法为随机初始化;其中,所有M-2个近似逆映射层g的初始化具体包括:构造并初始化所有M-2个近似逆映射层g,每一层g的构造方法相同,对于近似逆映射层gm-2的构造方法为近似逆映射层gm-2的神经元个数与第m-1个隐藏层fcm-1神经元个数相同,所有M-2个近似逆映射层g的神经元V的值由随机初始化获得;
步骤(4)训练神经网络模型,所述的网络训练通过迭代更新所有隐藏层的神经元W和近似逆映射层的神经元V完成;
步骤(4)中,对于每一次迭代循环,近似逆映射层神经元V的更新过程如下,
对标签数据Y进行One-Hot编码,具体操作为对于每一标签值yi,构造一长度为标签种类数n的向量l,将此向量第yi分量值设为1,其余分量值设为0,所得向量l即为标签数据Y的One-Hot编码向量;
构造分类损失函数其中p(i)为第i个样本的标签数据One-Hot编码,q(i)为第i个样本的神经网络输出向量;
更新,具体分为两个阶段,第一阶段包括第M层隐藏层神经元WM的更新,第M-1层辅助层hM-1的输出值更新,
其中,所述第M层隐藏层神经元WM的更新方法具体为:将训练数据集X输入神经网络并完成一次前馈传播,根据分类损失函数Ltotal计算本次前馈传播的分类损失,并利用采用梯度下降法更新第M层隐藏层神经元WM;
所述第M-1层辅助层hM-1的输出值的更新方法具体为:根据本次前馈传播的损失函数Ltotal对第M-1层隐藏层fcM-1的输出值HM-1求梯度/>并令第M-1层辅助层hM-1的输出值为/>
第二阶段包括前M-2层辅助层的输出值更新,以及利用更新后的辅助层输出值完成近似逆映射层神经元V的更新,
具体的,第m层辅助层的输出值的更新方法如下:
利用更新后的第m层辅助层输出值完成第m层近似逆映射层gm对应神经元Vm的更新;
步骤(5)将待分类图片输入训练完成的神经网络,经由所有隐藏层H1至Hm执行前馈传播得到网络输出,对网络输出执行softmax操作后取最大值对应的类别即为本网络预测该图片的分类结果。
2.根据权利要求1所述的一种基于目标传递和在线搜索的深层神经网络优化方法,其特征在于:步骤(4)中,对于每一次迭代循环,神经元Wm进行自适应学习率有两种更新方式,其中Online方法如下:
对前M-1层隐藏层逐层构造损失函数,
对于第1层至第M-1层隐藏层,由如下方法计算每一层隐藏层的Pos集用于寻找最优学习率,
Posm;j,k={Hm-1;j,k|Wm;jHm-1;k>0}
其中Hm-1代表第m-1层隐藏层输出值矩阵,Hm-1;j,k代表该矩阵第j行第k列的数值;Wm;j代表第m层隐含层神经元的第j个行向量,Hm-1;k为第m-1层隐藏层输出值矩阵的第k个列向量,Posm;j,k代表满足第m层隐藏层神经元的第j个行向量与第m-1层隐藏层输出值矩阵的第k个列向量内积大于0的所有第m-1层隐藏层输出值矩阵的分量;
使用如下方法逐层计算由第1层至第M-1层的候选最优学习率
其中为第m层隐藏层候选最优学习率,/>为第m层辅助层输出值,Wm;j为第m层隐含层神经元的第j个行向量,Hm-1;k为第m-1层隐藏层输出值矩阵的第k个列向量,Wm;j′为第m层隐含层神经元的第j个行向量的梯度值;
根据逐层损失函数Llayer计算第1层至第M-1层隐藏层神经元梯度并利用候选最优学习率计算神经元预更新值/>其中,第m层隐藏层神经元预更新值/>计算公式如下:
利用神经元预更新值计算第m层隐藏层神经元预更新后的/>集,
其中Hm-1代表第m-1层隐藏层输出值矩阵,Hm-1;j,k代表该矩阵第j行第k列的数值;代表第m层隐含层神经元预更新值的第j个行向量,Hm-1;k为第m-1层隐藏层输出值矩阵的第k个列向量,/>代表满足第m层隐含层神经元预更新值的第j个行向量与第m-1层隐藏层输出值矩阵的第k个列向量内积大于0的所有第m-1层隐藏层输出值矩阵的分量;若Pos集与预更新后的/>集一致,则接受此候选最优学习率为最优学习率,接受此神经元预更新:
若Pos集与预更新后的不一致时,不接受候选最优学习率以及神经元预更新,使用如下方法重新计算最优学习率:
其中为第m层隐藏层候选最优学习率,j为神经元下标,k为隐藏层列下标,Wm;j为第m层隐含层神经元的第j个行向量,Hm-1;k为第m-1层隐藏层输出值矩阵的第k个列向量,Wm;j′为第m层隐含层神经元的第j个行向量的梯度值;
根据逐层损失函数Llayer计算第1层至第M-1层隐藏层神经元梯度并使用最优学习率完成神经元更新,其中,第m层隐藏层神经元更新值计算公式如下:/>
3.根据权利要求1所述的一种基于目标传递和在线搜索的深层神经网络优化方法,其特征在于:步骤(4)中,对于每一次迭代循环,神经元Wm进行自适应学习率有两种更新方式,其中线搜索更新方法如下:
初始化学习率ρ;
由第1层至第M-1层隐藏层构造逐层损失函数,其中,第m层隐藏层的损失函数如下:
学习率ρ减半,依据当前损失函数分别计算前M-1层隐藏层神经元的梯度并使用当前学习率ρ分别计算前M-1层隐藏层神经元的预更新值,其中第m层隐藏层神经元的预更新值计算公式如下,
利用预更新神经元计算逐层损失函数,其中,第m层隐藏层的损失函数具体如下:
若第m层隐藏层的学习率ρ减半,重新计算前M-1层隐藏层神经元的预更新值,直至/>接受此时的神经元的预更新值,其中,第m层隐藏层神经元最终的更新值为/>
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010252752.2A CN111461229B (zh) | 2020-04-01 | 2020-04-01 | 一种基于目标传递和线搜索的深层神经网络优化及图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010252752.2A CN111461229B (zh) | 2020-04-01 | 2020-04-01 | 一种基于目标传递和线搜索的深层神经网络优化及图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111461229A CN111461229A (zh) | 2020-07-28 |
CN111461229B true CN111461229B (zh) | 2023-10-31 |
Family
ID=71685803
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010252752.2A Active CN111461229B (zh) | 2020-04-01 | 2020-04-01 | 一种基于目标传递和线搜索的深层神经网络优化及图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111461229B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705724B (zh) * | 2021-09-13 | 2022-08-30 | 苏州大学 | 基于自适应l-bfgs算法的深度神经网络的批量学习方法 |
CN116050503B (zh) * | 2023-02-15 | 2023-11-10 | 哈尔滨工业大学 | 一种通用化的神经网络前向训练方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014203042A1 (en) * | 2013-06-21 | 2014-12-24 | Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi | Method for pseudo-recurrent processing of data using a feedforward neural network architecture |
CN105844332A (zh) * | 2016-03-10 | 2016-08-10 | 中国石油大学(华东) | 快速递归Elman神经网络建模学习算法 |
CN106951959A (zh) * | 2017-01-24 | 2017-07-14 | 上海交通大学 | 基于学习自动机的深度神经网络优化方法 |
CN107480777A (zh) * | 2017-08-28 | 2017-12-15 | 北京师范大学 | 基于伪逆学习的稀疏自编码器快速训练方法 |
EP3316595A1 (en) * | 2016-10-31 | 2018-05-02 | Harman International Industries, Incorporated | Adaptive correction of loudspeaker using recurrent neural network |
CN108764472A (zh) * | 2018-05-18 | 2018-11-06 | 南京信息工程大学 | 卷积神经网络分数阶误差反向传播方法 |
CN108957453A (zh) * | 2018-07-23 | 2018-12-07 | 航天恒星科技有限公司 | 一种基于多目标跟踪的高精度动目标成像及识别方法 |
CN109886405A (zh) * | 2019-02-20 | 2019-06-14 | 华南理工大学 | 一种抑制噪声的基于人工神经网络结构优化方法 |
CN110443364A (zh) * | 2019-06-21 | 2019-11-12 | 深圳大学 | 一种深度神经网络多任务超参数优化方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201402736D0 (en) * | 2013-07-26 | 2014-04-02 | Isis Innovation | Method of training a neural network |
US20190244093A1 (en) * | 2018-02-06 | 2019-08-08 | Qatar University | Generalized operational perceptrons: new generation artificial neural networks |
-
2020
- 2020-04-01 CN CN202010252752.2A patent/CN111461229B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014203042A1 (en) * | 2013-06-21 | 2014-12-24 | Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi | Method for pseudo-recurrent processing of data using a feedforward neural network architecture |
CN105844332A (zh) * | 2016-03-10 | 2016-08-10 | 中国石油大学(华东) | 快速递归Elman神经网络建模学习算法 |
EP3316595A1 (en) * | 2016-10-31 | 2018-05-02 | Harman International Industries, Incorporated | Adaptive correction of loudspeaker using recurrent neural network |
CN108024179A (zh) * | 2016-10-31 | 2018-05-11 | 哈曼国际工业有限公司 | 使用递归神经网络的扬声器自适应校正 |
CN106951959A (zh) * | 2017-01-24 | 2017-07-14 | 上海交通大学 | 基于学习自动机的深度神经网络优化方法 |
CN107480777A (zh) * | 2017-08-28 | 2017-12-15 | 北京师范大学 | 基于伪逆学习的稀疏自编码器快速训练方法 |
CN108764472A (zh) * | 2018-05-18 | 2018-11-06 | 南京信息工程大学 | 卷积神经网络分数阶误差反向传播方法 |
CN108957453A (zh) * | 2018-07-23 | 2018-12-07 | 航天恒星科技有限公司 | 一种基于多目标跟踪的高精度动目标成像及识别方法 |
CN109886405A (zh) * | 2019-02-20 | 2019-06-14 | 华南理工大学 | 一种抑制噪声的基于人工神经网络结构优化方法 |
CN110443364A (zh) * | 2019-06-21 | 2019-11-12 | 深圳大学 | 一种深度神经网络多任务超参数优化方法及装置 |
Non-Patent Citations (3)
Title |
---|
Wenle Zhang.On Training Optimization of the Generalized ADLINE Neural Network for Time Varying System Identification. 2009 Chinese Control and Decision Conference.2009,全文. * |
滚动轴承故障检测深度卷积稀疏自动编码器建模研究;冯玉伯等;机械科学与技术;第1567-1569页 * |
肖丽 等.基于禁忌搜索的模糊神经网络结构优化.计算机科学.2006,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111461229A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020682B (zh) | 一种基于小样本学习的注意力机制关系对比网络模型方法 | |
CN114492574A (zh) | 基于高斯均匀混合模型的伪标签损失无监督对抗域适应图片分类方法 | |
CN111881342A (zh) | 一种基于图孪生网络的推荐方法 | |
CN110188827B (zh) | 一种基于卷积神经网络和递归自动编码器模型的场景识别方法 | |
CN110619059B (zh) | 一种基于迁移学习的建筑物标定方法 | |
CN110197205A (zh) | 一种多特征来源残差网络的图像识别方法 | |
CN113010683B (zh) | 基于改进图注意力网络的实体关系识别方法及系统 | |
CN109817276A (zh) | 一种基于深度神经网络的蛋白质二级结构预测方法 | |
CN108764280B (zh) | 一种基于症状向量的医学数据处理方法和系统 | |
CN111461229B (zh) | 一种基于目标传递和线搜索的深层神经网络优化及图像分类方法 | |
CN115098620A (zh) | 一种注意力相似度迁移的跨模态哈希检索方法 | |
CN110533024A (zh) | 基于多尺度roi特征的双二次池化细粒度图像分类方法 | |
CN105095863A (zh) | 基于相似性权值的半监督字典学习的人体行为识别方法 | |
CN112905894B (zh) | 一种基于增强图学习的协同过滤推荐方法 | |
CN113377964B (zh) | 知识图谱链接预测方法、装置、设备及存储介质 | |
CN112560948B (zh) | 数据偏差下的眼底图分类方法及成像方法 | |
CN111753995A (zh) | 一种基于梯度提升树的局部可解释方法 | |
CN103020979A (zh) | 基于稀疏遗传聚类的图像分割方法 | |
CN114528835A (zh) | 基于区间判别的半监督专业术语抽取方法、介质及设备 | |
He et al. | Multilabel classification by exploiting data‐driven pair‐wise label dependence | |
CN116976405A (zh) | 基于免疫优化算法的变分阴影量子神经网络 | |
CN115423076A (zh) | 基于两步式框架的有向超图链式预测方法 | |
CN115588487A (zh) | 一种基于联邦学习和生成对抗网络的医学图像数据集制作方法 | |
CN115063374A (zh) | 模型训练、人脸图像质量评分方法、电子设备及存储介质 | |
CN114625886A (zh) | 基于知识图谱小样本关系学习模型的实体查询方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |