CN111461229A - 一种基于目标传递和线搜索的深层神经网络优化及图像分类方法 - Google Patents

一种基于目标传递和线搜索的深层神经网络优化及图像分类方法 Download PDF

Info

Publication number
CN111461229A
CN111461229A CN202010252752.2A CN202010252752A CN111461229A CN 111461229 A CN111461229 A CN 111461229A CN 202010252752 A CN202010252752 A CN 202010252752A CN 111461229 A CN111461229 A CN 111461229A
Authority
CN
China
Prior art keywords
layer
hidden
neuron
hidden layer
output value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010252752.2A
Other languages
English (en)
Other versions
CN111461229B (zh
Inventor
刘波
王铎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Langzhao Technology Beijing Co ltd
Original Assignee
Langzhao Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Langzhao Technology Beijing Co ltd filed Critical Langzhao Technology Beijing Co ltd
Priority to CN202010252752.2A priority Critical patent/CN111461229B/zh
Publication of CN111461229A publication Critical patent/CN111461229A/zh
Application granted granted Critical
Publication of CN111461229B publication Critical patent/CN111461229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于目标传递和线搜索的深层神经网络优化方法,并在此基础上完成图像和多维数据分类,用于解决人工神经网络在训练过程中需要频繁手动调参的问题,涉及机器学习及人工智能以及计算机视觉技术。该方法能够在训练过程中通过分析基于ReLU激活函数构造的每一层网络的数学性质从而自动计算出对于本层网络的最优学习率,最终能够使神经网络在不依赖人工调参的情况下完成自适应训练任务。相比于反向传播算法,本方法能够更快完成训练任务,并获取不弱于反向传播算法的精度表现。

Description

一种基于目标传递和线搜索的深层神经网络优化及图像分类 方法
技术领域
本发明涉及机器学习及人工智能以及计算机视觉技术,具体是一种对于分类神经网络的自适应训练方法,以及在此基础上进行的图像以及多维数据分类方法。
背景技术
借助神经科学的发展,计算机科学家通过构造神经元,模拟生物神经结构组建人工神经网络在一些智能任务如计算机视觉、自然语言处理等诸多领域中取得了优秀的表现。通过对神经多层结构的加深理解,计算机科学家已经认识到深层对于神经网络的重要性,即随着神经网络层数的增加,从数据中提取的特征会越来越高级,最终使模型精度越来越好。但是对于神经元的赋值过程,由于目前对于脑神经的认识仍略显不足,人们仍未找到比较令人信服的参数调节方式。随着网络层数的加深,多层嵌套的网络结构以及非线性激活函数使得最终的损失函数高度非突,这也导致了神经网络的训练困难。为解决此问题,计算机科学家采用反向传播算法(BP算法),通过梯度下降以链式法则形式将误差逐层传递回每一层网络。但是这种方法依赖诸多训练超参数,如学习率、批大小以及权值衰减等参数,这导在致训练神经网络时依赖经验以及调试困难。同时,采用反向传播算法在训练网络时也可能导致梯度爆炸或梯度消失现象的出现,即如果某一层网络由于自身状态以及激活函数性质无法稳定传递梯度信息,这将导致该层之前的网络训练失败。另外,这种方法缺乏生物合理性,目前脑科学家已经通过突触的结构验证了正向传播的存在,但是对于反向传播的方式,目前仍未发现相应的细胞结构予以证实。因此,寻找一种能够自适应学习超参数,且不依赖于反向传播算法的神经网络优化方法对于提升网络训练效率十分重要。
发明内容
为改善上述优化问题,本发明提出了一种基于目标传递和线搜索的深层神经网络优化方法以及在此基础上的图像和多维数据分类方法,本优化方法不依赖于反向传播算法,从而避免了由于梯度依赖所造成的训练失败的出现。同时,本优化方法通过分析网络每一层的状态,能够计算出该层最优的学习率,从而使得训练神经网络避免经验依赖并提高训练效率。
网络优化方法包括:
(1)准备训练数据集{X,Y},其中X为固定数量N的图片或多维数据,Y为此图片所对应的类别标签;若输入数据X为图像,其应具有相同尺寸;若输入数据X为多维数据,每一条数据的维度应相同;对于标签Y应为一单值标签,代表属于该条数据的正确类别;
(2)构造M层隐藏层神经网络模型,模型包括M层隐藏层fc、M-1层辅助层 h、M-2层近似逆映射层g,其中,从第二层到第M层的所有隐藏层,每一个隐藏层配有一相同结构的辅助层h用于传递每层目标值的误差,同时对每相邻两层辅助层h之间设有一近似逆映射层g,用于计算辅助层的输出值,
所述隐藏层中,每一层隐藏层由若干神经元构成,其中每一层隐藏层的神经元个数可不同,但每一层隐藏层的激活函数需为ReLU函数,
即:
Figure BDA0002435258050000021
其中x为该隐藏层的输出值;
其中,fcm表示第m层隐藏层,Wm代表第m层隐藏层的神经元,m=1,...,M; hm-1表示第m层隐藏层对应的辅助层;
gm-2代表辅助层hm-2与辅助层hm-1之间设置的近似逆映射层,Vm-2代表对应神经元;其中神经元Vm-2的个数与神经元Wm-1个数相同;
(3)初始化神经网络模型,
所述初始化包括隐藏层神经元W的初始化和近似逆映射层神经元V的初始化,其中所有M个神经元W以及所有M-2个神经元V初始化方法为随机初始化;其中,所有M-2个近似逆映射层g的初始化具体包括:构造并初始化所有 M-2个近似逆映射层g,每一层g的构造方法相同,对于近似逆映射层gm-2的构造方法为近似逆映射层gm-2的神经元个数与第m-1个隐藏层fcm神经元个数相同,所有M-2个近似逆映射层g的神经元V的值由随机初始化获得;
(4)训练神经网络模型,所述的网络训练通过迭代更新所有隐藏层的神经元 W和近似逆映射层的神经元V完成。
进一步的,近似逆映射层神经元V的更新过程如下,
1)对标签数据Y进行One-Hot编码,具体操作为对于每一标签值yi,构造一长度为标签种类数n的向量l,将此向量第yi分量值设为1,其余分量值设为0,所得向量l即为标签数据Y的One-Hot编码向量;
2)构造分类损失函数
Figure BDA0002435258050000031
其中p(i)为第i个样本的标签数据One-Hot编码,q(i)为第i个样本的神经网络输出向量;
3)更新,具体分为两个阶段,第一阶段包括第M层隐藏层神经元WM的更新,第M-1层辅助层hM-1的输出值
Figure BDA0002435258050000039
更新,
其中,所述第M层隐藏层神经元WM的更新方法具体为:将训练数据集X输入神经网络并完成一次前馈传播,根据分类损失函数Ltotal计算本次前馈传播的分类损失,并利用采用梯度下降法更新第M层隐藏层神经元WM
所述第M-1层辅助层hM-1的输出值
Figure BDA0002435258050000032
的更新方法具体为:根据本次前馈传播的损失函数Ltotal对第M-1层隐藏层fcM-1的输出值HM-1求梯度
Figure BDA00024352580500000310
并令第M-1层辅助层hM-1的输出值为
Figure BDA0002435258050000033
第二阶段包括前M-2层辅助层的输出值更新,以及利用更新后的辅助层输出值完成近似逆映射层神经元V的更新,
其中,第m层辅助层的输出值
Figure BDA0002435258050000034
的更新方法如下:
Figure BDA0002435258050000035
其中,利用更新后的第m层辅助层输出值
Figure BDA0002435258050000036
完成第m层近似逆映射层gm对应神经元Vm的更新,具体方式如下:
Figure BDA0002435258050000037
其中
Figure BDA0002435258050000038
ε~N(0,σ),为第m层隐藏层输出值Hm引入高斯噪声后的值,fm+1表示第m+1层对应ReLU函数。
进一步的,对于每一次迭代循环,神经元Wm进行自适应学习率有两种更新方式,其中Online方法如下:
1)对前M-1层隐藏层逐层构造损失函数,其中第m层隐藏层的逐层损失函数如下:
Figure BDA0002435258050000041
其中H0视为输入数据,
2)对于第1层至第M-1层隐藏层,由如下方法计算每一层隐藏层的Pos集用于寻找最优学习率,
Posm;j,k={Hm-1;j,k|Wm;jHm-1;k>0}
其中Hm-1代表第m-1层隐藏层输出值矩阵,Hm-1;j,k代表该矩阵第j行第k 列的数值;Wm;j代表第m层隐含层神经元的第j个行向量,Hm-1;k为第m-1层隐藏层输出值矩阵的第k个列向量,Posm;j,k代表满足第m层隐藏层神经元的第 j个行向量与第m-1层隐藏层输出值矩阵的第k个列向量内积大于0的所有第 m-1层隐藏层输出值矩阵的分量;
3)使用如下方法逐层计算由第1层至第M-1层的可能最优学习率
Figure BDA0002435258050000042
其中
Figure BDA0002435258050000043
为第m层隐藏层可能的最优学习率,
Figure BDA0002435258050000044
为第m层辅助层输出值, Wm;j为第m层隐含层神经元的第j个行向量,Hm-1;k为第m-1层隐藏层输出值矩阵的第k个列向量,Wm;j′为第m层隐含层神经元的第j个行向量的梯度值;
4)根据逐层损失函数Llayer计算第1层至第M-1层隐藏层神经元梯度
Figure BDA0002435258050000045
并利用可能最优学习率计算神经元预更新值
Figure BDA0002435258050000046
其中,第m层隐藏层神经元预更新值
Figure BDA0002435258050000047
计算公式如下:
Figure BDA0002435258050000048
利用神经元预更新值
Figure BDA0002435258050000049
计算第m层隐藏层神经元预更新后的
Figure BDA00024352580500000410
集,
Figure BDA00024352580500000411
其中Hm-1代表第m-1层隐藏层输出值矩阵,Hm-1;j,k代表该矩阵第j行第k 列的数值;
Figure BDA00024352580500000412
代表第m层隐含层神经元预更新值的第j个行向量,Hm-1;k为第m-1层隐藏层输出值矩阵的第k个列向量,
Figure BDA0002435258050000051
代表满足第m层隐含层神经元预更新值的第j个行向量与第m-1层隐藏层输出值矩阵的第k个列向量内积大于0的所有第m-1层隐藏层输出值矩阵的分量;
5)若Pos集与预更新后的
Figure BDA0002435258050000052
集一致,则接受此可能最优学习率为最优学习率,接受此神经元预更新,即:
Figure BDA0002435258050000053
若Pos集与预更新后的
Figure BDA0002435258050000054
不一致时,不接受可能最优学习率以及神经元预更新,使用如下方法重新计算最优学习率:
Figure BDA0002435258050000055
其中
Figure BDA0002435258050000056
为第m层隐藏层可能最优学习率,j为神经元下标,k为隐藏层列下标,Wm;j为第m层隐含层神经元的第j个行向量,Hm-1;k为第m-1层隐藏层输出值矩阵的第k个列向量,Wm;j′为第m层隐含层神经元的第j个行向量的梯度值;
根据逐层损失函数Llayer计算第1层至第M-1层隐藏层神经元梯度
Figure BDA0002435258050000057
并使用最优学习率完成神经元更新,其中,第m层隐藏层神经元更新值计算公式如下:
Figure BDA0002435258050000058
进一步的,对于每一次迭代循环,神经元Wm进行自适应学习率有两种更新方式,其中线搜索更新方法如下:
a)初始化学习率ρ,默认为1;
b)由第1层至第M-1层隐藏层构造逐层损失函数,其中,第m层隐藏层的损失函数如下:
Figure BDA0002435258050000059
c)学习率ρ减半,依据当前损失函数分别计算前M-1层隐藏层神经元的梯度
Figure BDA00024352580500000510
并使用当前学习率ρ分别计算前M-1层隐藏层神经元的预更新值,其中第 m层隐藏层神经元的预更新值计算公式如下,
Figure BDA0002435258050000061
d)利用预更新神经元计算逐层损失函数,其中,第m层隐藏层的损失函数
Figure BDA0002435258050000062
具体如下:
Figure BDA0002435258050000063
e)若每第m层隐藏层的
Figure BDA0002435258050000064
返回4.2直至Lossafter≤Lossbefore,接受此时的神经元的预更新值,其中,第m层隐藏层神经元最终的更新值为
Figure BDA0002435258050000065
基于上述构建及训练方法,完成对神经网络的训练,即可对未知数据执行预测分类任务,具体包括将待分类数据输入训练完成的神经网络,经由所有隐藏层H1至Hm执行前馈传播得到网络输出,对网络输出执行softmax操作后取最大值对应的类别即为本网络预测该数据的分类结果。
有益效果
本发明可以通过基于目标传递和线搜索的深层神经网络优化方法自适应完成深度神经网络的训练工作,同时能够避免梯度爆炸或梯度消失现象的出现。这使得在训练神经网络时不再需要人工手动尝试合适的最有学习率也能获得较好的分类效果。
附图说明
图1为本发明实施例网络结构图。
图2为本发明所述网络训练方法流程图。
图3为UCISoybean数据集于本发明实施例分类精度曲线图
图4为UCISoybean数据集于本发明实施例分类损失曲线图
图5为MNIST数据集于本发明实施例分类精度曲线图
图6为MNIST数据集于本发明实施例分类损失曲线图其中sgd为传统梯度下降方法结果,online为本发明采用online更新方法结果,dtp为Different Target Propagation方法结果,line search为本发明采用线搜索更新方法结果。
具体实施方式
下面结合附图和实施例对本发明的方法作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了实施方式和具体操作过程,但本发明的保护范围不限于下述的实施例。
参见图1,本发明实施例1使用online更新方式训练网络,包括以下步骤:
1.准备UCISoybean数据集以及MNIST数据集作为本实施例训练集,分别对此二训练集构造输入数据X以及标签信息Y。对于UCISoybean数据集,其拥有47 个样本,其中每个样本维度为35维,对于此数据集随机抽取35个样本用于训练,剩余12个样本用于测试。对于MNIST数据集,其拥有70000个样本,每个样本为一28*28图片,将此数据集前60000个样本用于训练,最后10000个样本用于测试。
如图1构造3隐含层的神经网络,其中fc1为第一隐藏层,其对应神经元为W1具有100个神经元,relu为激活函数层,H1为第一隐藏层输出结果;fc2 为第二隐含层,具有50个神经元W2,H2为第二隐含层输出结果,h1为第二隐藏层fc2的辅助层,
Figure BDA0002435258050000071
为辅助层h1的输出结果;fc3为第三隐含层,具有10 个神经元W3,h2为第三隐藏层fc3的辅助层,
Figure BDA0002435258050000072
为辅助层h2的输出结果;g1 为辅助层h2与辅助层h1之间设置的近似逆映射层,具有100个神经元V1;loss 为交叉熵函数
Figure BDA0002435258050000073
通过标签信息p(i)以及softmax操作后的第三隐含层输出值q(i)以交叉熵计算获得。
2.随机初始化模型。
3.将样本标签Y转换成One-hot编码形式,并与输入数据X组成样本-标签对,输入模型。
4.开始训练模型,设置迭代次数为300次,其中每次作如下4-6操作:
通过前馈传播,计算Loss,并计算H2梯度
Figure BDA0002435258050000074
Figure BDA0002435258050000075
计算W3梯度
Figure BDA0002435258050000076
使用梯度下降法更新
Figure BDA0002435258050000077
5.设置
Figure BDA0002435258050000078
训练g1,构造近似逆映射损失函数
Figure BDA0002435258050000079
其中
Figure BDA0002435258050000081
为H1引入高斯噪声后结果,即
Figure BDA0002435258050000082
ε~N(0,1)。令Lg1对V求梯度
Figure BDA0002435258050000083
更新
Figure BDA0002435258050000084
即可完成训练g1。
6.构造逐层损失
Figure BDA0002435258050000085
以及
Figure BDA0002435258050000086
使用online方法获取最优学习率
Figure BDA0002435258050000087
Figure BDA0002435258050000088
分别对第一层隐藏层及第二层隐藏层使用
Figure BDA0002435258050000089
Figure BDA00024352580500000810
更新神经元:
Figure BDA00024352580500000811
Figure BDA00024352580500000812
至此完成一次循环迭代,若迭代次数小于300次,则继续迭代,否则退出,完成任务。
7.使用测试数据进行前馈传播,用于平价训练成果优劣。
参见图1,本发明实施例2使用线搜索更新方式训练网络,包括以下步骤:
1.准备UCISoybean数据集作为本实施例训练集,分别对此二训练集构造输入数据X以及标签信息Y。对于UCISoybean数据集,其拥有47个样本,其中每个样本维度为35维,对于此数据集随机抽取35个样本用于训练,剩余12个样本用于测试。
如图1构造3隐含层的神经网络,其中fc1为第一隐藏层,其对应神经元为W1具有100个神经元,relu为激活函数层,H1为第一隐藏层输出结果;fc2为第二隐含层,具有50个神经元W2,H2为第二隐含层输出结果,h1为第二隐藏层 fc2的辅助层,
Figure BDA00024352580500000813
为辅助层h1的输出结果;fc3为第三隐含层,具有10个神经元W3,h2为第三隐藏层fc3的辅助层,
Figure BDA00024352580500000814
为辅助层h2的输出结果;g1为辅助层h2与辅助层h1之间设置的近似逆映射层,具有100个神经元V1;loss为交叉熵函数
Figure BDA00024352580500000815
通过标签信息p(i)以及softmax操作后的第三隐含层输出值q(i)以交叉熵计算获得。
2.随机初始化模型。
3.将样本标签Y转换成One-hot编码形式,并与输入数据X组成样本-标签对,输入模型。
4.开始训练模型,设置迭代次数为300次,其中每次作如下4-6操作:通过前馈传播,计算Loss,并计算H2梯度
Figure BDA0002435258050000091
Figure BDA0002435258050000092
计算W3梯度
Figure BDA0002435258050000093
使用梯度下降法更新
Figure BDA0002435258050000094
5.设置
Figure BDA0002435258050000095
训练g1,构造近似逆映射损失函数
Figure BDA0002435258050000096
其中
Figure BDA0002435258050000097
为H1引入高斯噪声后结果,即
Figure BDA0002435258050000098
ε~N(0,1)。令Lg1对V求梯度
Figure BDA0002435258050000099
更新
Figure BDA00024352580500000910
即可完成训练g1。
6.构造逐层损失
Figure BDA00024352580500000911
以及
Figure BDA00024352580500000912
使用线搜索方法对可能的最优学习率进行试探,当逐层损失缩小时,接受最优学习率
Figure BDA00024352580500000913
Figure BDA00024352580500000914
分别对第一层隐藏层及第二层隐藏层使用
Figure BDA00024352580500000915
Figure BDA00024352580500000916
更新神经元:
Figure BDA00024352580500000917
Figure BDA00024352580500000918
至此完成一次循环迭代,若迭代次数小于300次,则继续迭代,否则退出,完成任务。
7.使用测试数据进行前馈传播,用于平价训练成果优劣。
本发明对于实施例1及实施例2的精度结果如表1及表2所示:
DTP online 线搜索 SGD
训练 97% 100% 100% 100%
测试 75% 100% 100% 100%
表1 UCISoybean数据集精度对比
Figure BDA00024352580500000919
Figure BDA0002435258050000101
表2 MNIST数据集精度对比。

Claims (5)

1.一种基于目标传递和在线搜索的深层神经网络优化方法,其特征在于包括:
(1)准备训练数据集{X,Y},其中X为固定数量N的图片或多维数据,Y为此图片所对应的类别标签;若输入数据X为图像,其应具有相同尺寸;若输入数据X为多维数据,每一条数据的维度应相同;对于标签Y应为一单值标签,代表属于该条数据的正确类别;
(2)构造M层隐藏层神经网络模型,模型包括M层隐藏层fc、M-1层辅助层h、M-2层近似逆映射层g,其中,从第二层到第M层的所有隐藏层,每一个隐藏层配有一相同结构的辅助层h用于传递每层目标值的误差,同时对每相邻两层辅助层h之间设有一近似逆映射层g,用于计算辅助层的输出值,
所述隐藏层中,每一层隐藏层由若干神经元构成,其中每一层隐藏层的神经元个数可不同,但每一层隐藏层的激活函数需为ReLU函数,即:
Figure FDA0002435258040000011
Figure FDA0002435258040000012
其中x为该隐藏层的输出值;
其中,fcm表示第m层隐藏层,Wm代表第m层隐藏层的神经元,m=1,...,M;hm-1表示第m层隐藏层对应的辅助层;
gm-2代表辅助层hm-2与辅助层hm-1之间设置的近似逆映射层,Vm-2代表对应神经元;其中神经元Vm-2的个数与神经元Wm-1个数相同;
(3)初始化神经网络模型,
所述初始化包括隐藏层神经元W的初始化和近似逆映射层神经元V的初始化,其中所有M个神经元W以及所有M-2个神经元V初始化方法为随机初始化;其中,所有M-2个近似逆映射层g的初始化具体包括:构造并初始化所有M-2个近似逆映射层g,每一层g的构造方法相同,对于近似逆映射层gm-2的构造方法为近似逆映射层gm-2的神经元个数与第m-1个隐藏层fcm-1神经元个数相同,所有M-2个近似逆映射层g的神经元V的值由随机初始化获得;
(4)训练神经网络模型,所述的网络训练通过迭代更新所有隐藏层的神经元W和近似逆映射层的神经元V完成。
2.根据权利要求1所述的一种基于目标传递和在线搜索的深层神经网络优化方法,其特征在于:步骤(4)所述的,对于每一次迭代循环,近似逆映射层神经元V的更新过程如下,
2.1对标签数据Y进行One-Hot编码,具体操作为对于每一标签值yi,构造一长度为标签种类数n的向量l,将此向量第yi分量值设为1,其余分量值设为0,所得向量l即为标签数据Y的One-Hot编码向量;
2.2构造分类损失函数
Figure FDA0002435258040000021
其中p(i)为第i个样本的标签数据One-Hot编码,q(i)为第i个样本的神经网络输出向量;
2.3更新,具体分为两个阶段,第一阶段包括第M层隐藏层神经元WM的更新,第M-1层辅助层hM-1的输出值
Figure FDA0002435258040000022
更新,
其中,所述第M层隐藏层神经元WM的更新方法具体为:将训练数据集X输入神经网络并完成一次前馈传播,根据分类损失函数Ltotal计算本次前馈传播的分类损失,并利用采用梯度下降法更新第M层隐藏层神经元WM
所述第M-1层辅助层hM-1的输出值
Figure FDA0002435258040000023
的更新方法具体为:根据本次前馈传播的损失函数Ltotal对第M-1层隐藏层fcM-1的输出值HM-1求梯度
Figure FDA0002435258040000024
并令第M-1层辅助层hM-1的输出值为
Figure FDA0002435258040000025
第二阶段包括前M-2层辅助层的输出值更新,以及利用更新后的辅助层输出值完成近似逆映射层神经元V的更新,
其中,第m层辅助层的输出值
Figure FDA0002435258040000026
的更新方法如下:
Figure FDA0002435258040000027
其中,利用更新后的第m层辅助层输出值
Figure FDA0002435258040000028
完成第m层近似逆映射层gm对应神经元Vm的更新,具体方式如下:
Figure FDA0002435258040000029
其中
Figure FDA0002435258040000031
ε~N(0,σ),为第m层隐藏层输出值Hm引入高斯噪声后的值,fm+1表示第m+1层对应的ReLU函数。
3.根据权利要求1所述的一种基于目标传递和在线搜索的深层神经网络优化方法,其特征在于:步骤(4)所述的,对于每一次迭代循环,神经元Wm进行自适应学习率有两种更新方式,其中Online方法如下:
3.1.对前M-1层隐藏层逐层构造损失函数,其中第m层隐藏层的逐层损失函数如下:
Figure FDA0002435258040000032
其中H0视为输入数据,
3.2.对于第1层至第M-1层隐藏层,由如下方法计算每一层隐藏层的Pos集用于寻找最优学习率,
Posm;j,k={Hm-1;j,k|Wm;jHm-1;k>0}
其中Hm-1代表第m-1层隐藏层输出值矩阵,Hm-1;j,k代表该矩阵第j行第k列的数值;Wm;j代表第m层隐含层神经元的第j个行向量,Hm-1;k为第m-1层隐藏层输出值矩阵的第k个列向量,Posm;j,k代表满足第m层隐藏层神经元的第j个行向量与第m-1层隐藏层输出值矩阵的第k个列向量内积大于0的所有第m-1层隐藏层输出值矩阵的分量;
3.3.使用如下方法逐层计算由第1层至第M-1层的可能最优学习率
Figure FDA0002435258040000033
其中
Figure FDA0002435258040000034
为第m层隐藏层可能的最优学习率,
Figure FDA0002435258040000035
为第m层辅助层输出值,Wm;j为第m层隐含层神经元的第j个行向量,Hm-1;k为第m-1层隐藏层输出值矩阵的第k个列向量,Wm;j′为第m层隐含层神经元的第j个行向量的梯度值;
3.4.根据逐层损失函数Llayer计算第1层至第M-1层隐藏层神经元梯度
Figure FDA00024352580400000414
并利用可能最优学习率计算神经元预更新值
Figure FDA0002435258040000041
其中,第m层隐藏层神经元预更新值
Figure FDA0002435258040000042
计算公式如下:
Figure FDA0002435258040000043
利用神经元预更新值
Figure FDA0002435258040000044
计算第m层隐藏层神经元预更新后的
Figure FDA0002435258040000045
集,
Figure FDA0002435258040000046
其中Hm-1代表第m-1层隐藏层输出值矩阵,Hm-1;j,k代表该矩阵第j行第k列的数值;
Figure FDA0002435258040000047
代表第m层隐含层神经元预更新值的第j个行向量,Hm-1;k为第m-1层隐藏层输出值矩阵的第k个列向量,
Figure FDA0002435258040000048
代表满足第m层隐含层神经元预更新值的第j个行向量与第m-1层隐藏层输出值矩阵的第k个列向量内积大于0的所有第m-1层隐藏层输出值矩阵的分量;
3.5.若Pos集与预更新后的
Figure FDA0002435258040000049
集一致,则接受此可能最优学习率为最优学习率,接受此神经元预更新,即:
Figure FDA00024352580400000410
若Pos集与预更新后的
Figure FDA00024352580400000411
不一致时,不接受可能最优学习率以及神经元预更新,使用如下方法重新计算最优学习率:
Figure FDA00024352580400000412
其中
Figure FDA00024352580400000413
为第m层隐藏层可能最优学习率,j为神经元下标,k为隐藏层列下标,Wm;j为第m层隐含层神经元的第j个行向量,Hm-1;k为第m-1层隐藏层输出值矩阵的第k个列向量,Wm;j′为第m层隐含层神经元的第j个行向量的梯度值;
根据逐层损失函数Llayer计算第1层至第M-1层隐藏层神经元梯度
Figure FDA00024352580400000511
并使用最优学习率完成神经元更新,其中,第m层隐藏层神经元更新值计算公式如下:
Figure FDA0002435258040000051
4.根据权利要求1所述的一种基于目标传递和在线搜索的深层神经网络优化方法,其特征在于:步骤(4)所述的,对于每一次迭代循环,神经元Wm进行自适应学习率有两种更新方式,其中线搜索更新方法如下:
4.1初始化学习率p;
4.2由第1层至第M-1层隐藏层构造逐层损失函数,其中,第m层隐藏层的损失函数如下:
Figure FDA0002435258040000052
4.3学习率p减半,依据当前损失函数分别计算前M-1层隐藏层神经元的梯度
Figure FDA0002435258040000053
并使用当前学习率ρ分别计算前M-1层隐藏层神经元的预更新值,其中第m层隐藏层神经元的预更新值计算公式如下,
Figure FDA0002435258040000054
4.4利用预更新神经元计算逐层损失函数,其中,第m层隐藏层的损失函数
Figure FDA0002435258040000055
具体如下:
Figure FDA0002435258040000056
4.5若第m层隐藏层的
Figure FDA0002435258040000057
返回4.2直至
Figure FDA0002435258040000058
Figure FDA0002435258040000059
接受此时的神经元的预更新值,其中,第m层隐藏层神经元最终的更新值为
Figure FDA00024352580400000510
5.一种基于权利要求1的图像分类方法,利用权利要求1所述方法构建并训练神经网络,即可对未知数据执行预测分类任务,其特征在于:
将待分类数据输入训练完成的神经网络,经由所有隐藏层H1至Hm执行前馈传播得到网络输出,对网络输出执行softmax操作后取最大值对应的类别即为本网络预测该数据的分类结果。
CN202010252752.2A 2020-04-01 2020-04-01 一种基于目标传递和线搜索的深层神经网络优化及图像分类方法 Active CN111461229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010252752.2A CN111461229B (zh) 2020-04-01 2020-04-01 一种基于目标传递和线搜索的深层神经网络优化及图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010252752.2A CN111461229B (zh) 2020-04-01 2020-04-01 一种基于目标传递和线搜索的深层神经网络优化及图像分类方法

Publications (2)

Publication Number Publication Date
CN111461229A true CN111461229A (zh) 2020-07-28
CN111461229B CN111461229B (zh) 2023-10-31

Family

ID=71685803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010252752.2A Active CN111461229B (zh) 2020-04-01 2020-04-01 一种基于目标传递和线搜索的深层神经网络优化及图像分类方法

Country Status (1)

Country Link
CN (1) CN111461229B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705724A (zh) * 2021-09-13 2021-11-26 苏州大学 基于自适应l-bfgs算法的深度神经网络的批量学习方法
CN116050503A (zh) * 2023-02-15 2023-05-02 哈尔滨工业大学 一种通用化的神经网络前向训练方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014203042A1 (en) * 2013-06-21 2014-12-24 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Method for pseudo-recurrent processing of data using a feedforward neural network architecture
US20160162781A1 (en) * 2013-07-26 2016-06-09 Isis Innovation Ltd. Method of training a neural network
CN106951959A (zh) * 2017-01-24 2017-07-14 上海交通大学 基于学习自动机的深度神经网络优化方法
CN107480777A (zh) * 2017-08-28 2017-12-15 北京师范大学 基于伪逆学习的稀疏自编码器快速训练方法
CN109886405A (zh) * 2019-02-20 2019-06-14 华南理工大学 一种抑制噪声的基于人工神经网络结构优化方法
US20190244093A1 (en) * 2018-02-06 2019-08-08 Qatar University Generalized operational perceptrons: new generation artificial neural networks
CN110443364A (zh) * 2019-06-21 2019-11-12 深圳大学 一种深度神经网络多任务超参数优化方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105844332A (zh) * 2016-03-10 2016-08-10 中国石油大学(华东) 快速递归Elman神经网络建模学习算法
US10127921B2 (en) * 2016-10-31 2018-11-13 Harman International Industries, Incorporated Adaptive correction of loudspeaker using recurrent neural network
CN108764472A (zh) * 2018-05-18 2018-11-06 南京信息工程大学 卷积神经网络分数阶误差反向传播方法
CN108957453B (zh) * 2018-07-23 2022-03-04 航天恒星科技有限公司 一种基于多目标跟踪的高精度动目标成像及识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014203042A1 (en) * 2013-06-21 2014-12-24 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Method for pseudo-recurrent processing of data using a feedforward neural network architecture
US20160162781A1 (en) * 2013-07-26 2016-06-09 Isis Innovation Ltd. Method of training a neural network
CN106951959A (zh) * 2017-01-24 2017-07-14 上海交通大学 基于学习自动机的深度神经网络优化方法
CN107480777A (zh) * 2017-08-28 2017-12-15 北京师范大学 基于伪逆学习的稀疏自编码器快速训练方法
US20190244093A1 (en) * 2018-02-06 2019-08-08 Qatar University Generalized operational perceptrons: new generation artificial neural networks
CN109886405A (zh) * 2019-02-20 2019-06-14 华南理工大学 一种抑制噪声的基于人工神经网络结构优化方法
CN110443364A (zh) * 2019-06-21 2019-11-12 深圳大学 一种深度神经网络多任务超参数优化方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冯玉伯等: "滚动轴承故障检测深度卷积稀疏自动编码器建模研究", 机械科学与技术 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705724A (zh) * 2021-09-13 2021-11-26 苏州大学 基于自适应l-bfgs算法的深度神经网络的批量学习方法
CN116050503A (zh) * 2023-02-15 2023-05-02 哈尔滨工业大学 一种通用化的神经网络前向训练方法
CN116050503B (zh) * 2023-02-15 2023-11-10 哈尔滨工业大学 一种通用化的神经网络前向训练方法

Also Published As

Publication number Publication date
CN111461229B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
CN110020682B (zh) 一种基于小样本学习的注意力机制关系对比网络模型方法
US11461628B2 (en) Method for optimizing neural networks
CN107729999A (zh) 考虑矩阵相关性的深度神经网络压缩方法
CN111881342A (zh) 一种基于图孪生网络的推荐方法
CN110490320B (zh) 基于预测机制和遗传算法融合的深度神经网络结构优化方法
CN112560948B (zh) 数据偏差下的眼底图分类方法及成像方法
CN113190688A (zh) 基于逻辑推理和图卷积的复杂网络链接预测方法及系统
CN111461229A (zh) 一种基于目标传递和线搜索的深层神经网络优化及图像分类方法
CN116363423A (zh) 面向小样本学习的知识蒸馏方法、装置及存储介质
CN112905894B (zh) 一种基于增强图学习的协同过滤推荐方法
CN115905848A (zh) 基于多模型融合的化工过程故障诊断方法及系统
CN115280329A (zh) 用于查询训练的方法和系统
Lezmi et al. Improving the robustness of trading strategy backtesting with boltzmann machines and generative adversarial networks
Bah et al. An integer programming approach to deep neural networks with binary activation functions
CN110598737A (zh) 一种深度学习模型的在线学习方法、装置、设备及介质
CN113590748B (zh) 基于迭代网络组合的情感分类持续学习方法及存储介质
CN115796029A (zh) 基于显式及隐式特征解耦的nl2sql方法
CN112381070B (zh) 一种快速鲁棒人脸识别方法
CN115423076A (zh) 基于两步式框架的有向超图链式预测方法
CN115588487A (zh) 一种基于联邦学习和生成对抗网络的医学图像数据集制作方法
CN115063374A (zh) 模型训练、人脸图像质量评分方法、电子设备及存储介质
CN113963235A (zh) 一种跨类别图像识别模型重用方法和系统
Nakashika Deep relational model: A joint probabilistic model with a hierarchical structure for bidirectional estimation of image and labels
Kurtz et al. An integer programming approach to deep neural networks with binary activation functions
WO2022077343A1 (en) Method and apparatus for weight-sharing neural network with stochastic architectures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant