CN107784361B - 一种神经网络优化的图像识别方法 - Google Patents

一种神经网络优化的图像识别方法 Download PDF

Info

Publication number
CN107784361B
CN107784361B CN201711156691.4A CN201711156691A CN107784361B CN 107784361 B CN107784361 B CN 107784361B CN 201711156691 A CN201711156691 A CN 201711156691A CN 107784361 B CN107784361 B CN 107784361B
Authority
CN
China
Prior art keywords
neural network
formula
equation
lpom
solving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711156691.4A
Other languages
English (en)
Other versions
CN107784361A (zh
Inventor
林宙辰
方聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201711156691.4A priority Critical patent/CN107784361B/zh
Publication of CN107784361A publication Critical patent/CN107784361A/zh
Application granted granted Critical
Publication of CN107784361B publication Critical patent/CN107784361B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公布了一种神经网络优化方法,称为提升邻近算子机LPOM,涉及深度学习技术领域。本发明方法不需要使用现有的一阶或者二阶导数信息直接优化神经网络,而是将神经网络转化为新的LPOM优化问题,再通过交替极小化方法求解LPOM优化问题。采用本发明方法,求解过程消除了神经网络的层状结构;可通过交替迭代法进行求解;求解方法可在一定程度上转化为随机算法,使得迭代时保持较小的计算量;对于超过20层的神经网络,采用本发明方法仍能够使得训练误差稳定地下降。

Description

一种神经网络优化的图像识别方法
技术领域
本发明涉及深度学习技术领域,尤其涉及一种新的神经网络优化方法,命名为提升邻近算子机(Lifted Proximal Operator Machine,LPOM)。该方法将神经网络的优化问题转化为一个新的优化问题进行求解,该转化成的待求的优化问题的Karush–Kuhn–Tucker(KKT)条件与神经网络前向过程等价。
背景技术
近年来,深度神经网络在人工智能、图像识别、语音识别领域取得了巨大成功。相比于浅层的神经网络,深度的神经网络往往有着更多的模型参数与更大的容量,在数据量较大的情况下能取得更好的效果。然而求解神经网络的优化问题是一个典型的非凸优化问题,随着神经网络层数的增加,训练神经网络也变得更加困难。目前,训练神经网络的方法大致分为三类:
第一类:最主流优化神经网络的方法是一些一阶随机算法,例如,随机梯度下降法(Stochastic Gradient Descent)、文献[1]记载的Adagrad、文献[2]记载的Adadelta、文献[3]记载的RMSprop[3],以及文献[4]记载的Adam等。该类方法在迭代过程使用一个或者小批量的样本的梯度信息(或者预条件梯度信息)作为下降方向,梯度的计算过程通过反向传播算法计算获得。该类方法主要有如下两个优势:一是该类方法在迭代过程中,每次使用几个样本的梯度来估计整体样本的梯度,减小了每步迭代的计算量(从O(n)减小到O(1));二是由于在迭代过程中,使用的下降方向带有一定的噪声,这类随机方法往往可以避开一些不好的关键点,文献[5]证明了在一定条件下,随机梯度下降法可以避开一阶鞍点。然而,随着神经网络层数的增加,该类方法也展现出了一些局限性。对于深层的神经网络,该类方法容易出现难收敛或者收敛较慢的现象。例如,当神经网络的激活函数是Sigmoid函数时,梯度在反向传播过程中会出现湮灭现象。故在实际使用这类一阶随机算法时,经常需要使用一些工程技巧来辅助优化,例如:随机权重初始化、文献[6]记载的冲量(momentum)、文献[7]记载的梯度归一化、文献[8]记载的dropout、权重延迟等。
另一类优化神经网络的方法是一些近似的二阶方法,其中比较典型的方法有文献[9]记载的Hessian Free、文献[10]记载的自然梯度法(Nature Gradient)和文献[11]记载的K-FAC。该类方法由于使用了更高阶的信息去优化神经网络,在训练一些特定问题中,训练误差能够低于一阶随机算法。但在实际过程中,这类算法由于使用了更高阶的信息,很难转化为随机算法,所以算法的计算成本较大,收敛速度较慢。
第三类优化神经网络的方法是采用文献[12]~[13]记载的ADMM方法。使用ADMM方法优化神经网络有如下优势:一是算法不需要使用反向传播算法去获得梯度信息,故不会出现梯度爆炸或者湮灭现象;二是ADMM算法很容易大规模并行(分布式)实现。然而,在实践中,ADMM往往只能求解浅层的神经网络(大约4层)。对于深层的神经网络,ADMM方法的收敛速度将十分缓慢。
参考文献:
[1]Duchi J,Hazan E,Singer Y.Adaptive subgradient methods for onlinelearning and stochastic optimization[J].Journal of Machine Learning Research,2011,12(Jul):2121-2159.
[2]Zeiler M D.ADADELTA:an adaptive learning rate method[J].arXivpreprint arXiv:1212.5701, 2012.
[3]Dauphin Y,de Vries H,Bengio Y.Equilibrated adaptive learning ratesfor non-convex optimization[C]//Advances in Neural Information ProcessingSystems.2015:1504-1512.
[4]Kingma D,Ba J.Adam:A method for stochastic optimization[J].arXivpreprint arXiv:1412.6980,2014.
[5]Ge R,Huang F,Jin C,et al.Escaping From Saddle Points-OnlineStochastic Gradient for Tensor Decomposition[C]//Conference On LearningTheory.2015:797-842.
[6]Sutskever I,Martens J,Dahl G,et al.On the importance ofinitialization and momentum in deep learning[C]//International conference onmachine learning.2013:1139-1147.
[7]Pascanu R,Mikolov T,Bengio Y.On the difficulty of trainingrecurrent neural networks[C] //International conference on machine learning(3),2013,28:1310-1318.
[8]Srivastava N,Hinton G,Krizhevsky A,et al.Dropout:A simple way toprevent neural networks from overfitting[J].The Journal of Machine LearningResearch,2014,15(1):1929-1958.
[9]Martens J.Deep learning via Hessian-free optimization[C]//International Conference on Machine Learning.2010:735-742.
[10]Pascanu R,Bengio Y.Revisiting natural gradient for deep networks[J].arXiv preprint arXiv:1301.3584,2013.
[11]Martens J,Grosse R.Optimizing neural networks with Kronecker-factored approximate curvature[C]//International Conference on MachineLearning.2015:2408-2417.
[12]Taylor G,Burmeister R,Xu Z,et al.Training neural networks withoutgradients:A scalable ADMM approach[C]//International Conference on MachineLearning.2016.
[13]Zhang Z,Chen Y,Saligrama V.Supervised hashing with deep neuralnetworks[C]//Computer Vision and Pattern Recognition.2015.
发明内容
为了克服上述现有技术的不足,本发明提供一种新优化神经网络方法,称为提升邻近算子机(LPOM);该方法不直接使用神经网络的一阶或者二阶导数信息优化神经网络,而是通过临近算子将神经网络的优化问题转化为一个新的优化问题(称为LPOM问题);针对这个新的LPOM优化问题,采用交替极小化方法优化求解。对于超过20层的神经网络,现有方法(例如随机梯度下降法)收敛十分缓慢;而采用本发明提出的LPOM方法,训练误差能够稳定的下降。
本发明提供的技术方案是:
一种神经网络优化方法,称为提升邻近算子机(LPOM),不使用现有的一阶或者二阶导数信息直接优化神经网络,而将神经网络转化为一个新的优化问题(LPOM问题),再通过交替极小化方法优化LPOM问题;包括如下步骤:
1)将神经网络的前向过程转化为一个新的优化问题(LPOM问题);
文献[14](Parikh N,Boyd S.Proximal algorithms[J].Foundations and
Figure GDA0002397370790000034
in Optimization,2014,1(3):127-239.)记载的临近算子是一类最小化问题,该类最小化问题的特点是其最优解满足一个等式约束。而神经网络的前向过程实质是一个等式约束;本发明利用临近算子的这个特点将神经网络的前向过程转化为一个最小化问题,即LPOM问题;具体地:
将神经网络的前向过程描述成式1:
Figure GDA0002397370790000031
s.t.Xi=φ(Wi-1Xi-1),i=2,3,…,n,
其中,
Figure GDA0002397370790000032
分别为样本的数据和标签,n1为输入训练样本特征的维度,m为训练样本个数,c为类别数,n为神经网络层数,
Figure GDA0002397370790000033
为神经网络参数,Xi(i>1) 为神经网络第i层的输出,φ(X)为神经网络激活函数(常用激活函数包括sigmoid函数,tanh 函数,ReLU函数),L(X,T)为目标损失函数。
LPOM方法的核心是:将式1中的等式约束转化为一个最小化问题。
为方便起见,假设φ(x)是单元函数,φ(X)表示对矩阵X的每个元素做φ(·)的映射。同时,假设φ(x)为单调可导函数(常用的激活函数sigmoid,tanh函数满足该性质)。用φ-1(x)表示φ(x)的反函数。
文献[14]记载的一维临近算子,表示如式2:
Figure GDA0002397370790000041
其中,x、y为任意变量;式2中的临近算子恰好可将等式问题转化成为一个优化问题。
例如,要使式5所表示的极小化问题:
Figure GDA0002397370790000042
解为
Figure GDA0002397370790000043
则可以定义f(x)为:
f(x)=∫(φ-1(x)-x)dx。 (式6)
我们利用这个特性,将式5运用到神经网络(即式1)中,同时为了更好的转化问题,同时定义:
g(x)=∫(φ(x)-x)dx, (式7)
,为了方便,我们用函数g(X)表示矩阵X的每个元素做g(x)的映射。
由于一维临近算子可将等式问题转化成为一个优化问题,可将神经网络的优化问题(式 1)转化为式8表示的LPOM问题:
Figure GDA0002397370790000044
式8中参数含义同式1,
Figure GDA0002397370790000045
分别为样本的数据和标签,n1为输入训练样本特征的维度,m为训练样本个数,c为类别数,n为神经网络层数,
Figure GDA0002397370790000046
为神经网络参数,Xi(i>1)为神经网络第i层的输出,L(X,T)为目标损失函数,f(X),g(X)分别按照式6、式7定义,μi是引入的罚因子。
对式8中
Figure GDA0002397370790000047
求导,可以得出:
μi-1(Xi)-Wi-1Xi-1)+μi+1WiT(φ(WiXi)-Wi+1)=0,2≤i<n (式9)
式9中参数的定义同式1,Xi(i>1)为神经网络第i层的输出,φ(X)为神经网络激活函数。
对比神经网络的前向过程Xi=φ(Wi-1Xi-1),可发现其前向过程满足式9。
2)求解LPOM;
本发明采用交替极小化
Figure GDA0002397370790000051
Figure GDA0002397370790000052
求解式8;具体包括:
21)求解
Figure GDA0002397370790000053
求解
Figure GDA0002397370790000054
时,首先固定
Figure GDA0002397370790000055
可将式8改写成式10:
Figure GDA0002397370790000056
s.t.Xi=Zi,i=2,3,…,n,
Yi=Wi-1Xi-1,i=2,3,…,n,
在式10中,我们引用了两个中间变量,分别用Zi与Yi(i=2,3,…,n),其余符号定义与式 8相同。
式10的增广拉格朗日函数为式11:
Figure GDA0002397370790000057
其中,μi(i=2,3,…,n)为罚因子,
Figure GDA0002397370790000058
Figure GDA0002397370790000059
(i=2,3,…,n)为乘子。
本发明采用文献[15](Lin Z,Liu R,Su Z.Linearized alternating directionmethod with adaptive penalty for low-rank representation[C]//Advances inneural information processing systems.2011:612-620.)记载的ADMM求解式11。首先考虑优化
Figure GDA00023973707900000510
当i=n时,有式12:
Figure GDA00023973707900000511
若选择L(X,T)为简单的平方损失函数,即
Figure GDA00023973707900000512
则表示为式13:
Figure GDA00023973707900000513
当2≤i≤n-1,改写式11中
Figure GDA00023973707900000514
的极小化问题为式14:
Figure GDA00023973707900000515
所以,Xi的解为式15:
Figure GDA0002397370790000061
其中,I为对应大小的单位矩阵。矩阵求逆运算可在迭代计算
Figure GDA0002397370790000062
之前求出,在迭代过程中不需要重复计算。
式11中
Figure GDA0002397370790000063
的极小化问题表示为式16:
Figure GDA0002397370790000064
由于该问题不存在闭解,采用梯度下降求解,表示为式17:
Figure GDA0002397370790000065
其中,L1
Figure GDA0002397370790000066
的利普希茨常数。
对于
Figure GDA0002397370790000067
的极小化问题,直接有解表示为式18:
Figure GDA0002397370790000068
最后,更新乘子:
Figure GDA0002397370790000069
Figure GDA00023973707900000610
通过上述过程,即完成求解
Figure GDA00023973707900000611
22)求解
Figure GDA00023973707900000612
求解
Figure GDA00023973707900000613
首先固定
Figure GDA00023973707900000614
的极小化问题表示为式21:
Figure GDA00023973707900000615
式21符号表示同式11。
我们采用式22的梯度下降法求解:
Wi=Wi-γ(φ(WiXi)-Xi+1)(Xi)T,i=1,2,3,…,n-1 (式22)
其中,γ为步长。
23)在优化过程中,为了减小每步迭代的计算量,可先选择一小批样本求出
Figure GDA00023973707900000616
而后对
Figure GDA00023973707900000617
采用随机梯度下降法进行优化。
通过上述提升邻近算子机(LPOM)的优化神经网络方法,不需要使用神经网络的一阶或者二阶导数信息直接优化神经网络,而将神经网络转化为一个新的优化问题(LPOM问题),再求解LPOM问题,从而达到优化神经网络的目的。采用本发明LPOM方法,能够使得神经网络的训练误差稳定下降。
与现有技术相比,本发明的有益效果是:
本文提出了一种新的优化神经网络算法:提升邻近算子机(LPOM),该方法将神经网络的优化问题转化为一个新的优化问题LPOM,在求解LPOM时有如下技术优势:
(一)求解过程消除了神经网络的层状结构,故梯度不存在湮灭问题;
(二)LPOM可以较好的通过交替迭代法进行求解;
(三)求解方法可以在一定程度上转化为随机算法,使得迭代时保持较小的计算量。
LPOM在标准数据集进行了实验,对于超过20层的神经网络,采用传统的优化方法如随机梯度下降法则较慢收敛,而采用本发明提出的LPOM方法,能够使得训练误差稳定地下降,从而提高训练效率。
附图说明
图1为本发明提出的LPOM优化算法的流程框图。
图2为本发明具体实施中ADMM算法求解
Figure GDA0002397370790000071
的流程框图。
图3为本发明具体实施中使用随机梯度下降求解
Figure GDA0002397370790000072
的流程框图。
图4为本发明实施例中18个隐层的神经网络训练过程中训练误差相对于算法迭代次数的曲线。
图5为本发明实施例中19个隐层的神经网络训练过程中训练误差相对于算法迭代次数的曲线。
图6为本发明实施例中20个隐层的神经网络训练过程中训练误差相对于算法迭代次数的曲线。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种优化神经网络方法,称为提升邻近算子机(LPOM),不需要使用现有的一阶或者二阶导数信息直接优化神经网络,而是将神经网络转化为一个新的优化问题。对于超过20层的神经网络,现有方法如随机梯度下降法较慢收敛;而采用本发明LPOM方法,训练误差能够稳定的下降。
图1为本发明LPOM方法的流程框图;包括如下步骤:
(一)在LPOM方法中,神经网络的前向过程可以描述成式1:
Figure GDA0002397370790000081
s.t.Xi=φ(Wi-1Xi-1),i=2,3,…,n,
其中,
Figure GDA0002397370790000082
分别为样本的数据和标签,n1为输入训练样本特征的维度,m为训练样本个数,c为类别数,n为神经网络层数,
Figure GDA0002397370790000083
为神经网络参数,Xi(i>1) 为神经网络第i层的输出,φ(X)为神经网络激活函数(常用激活函数包括sigmoid函数,tanh 函数,ReLU函数),L(X,T)为目标损失函数。
为方便起见,我们假设φ(x)是单元函数,φ(X)表示对矩阵X的每个元素做φ(·)的映射。我们同时假设φ(x)为单调可导函数(常用的激活函数sigmoid,tanh函数满足该性质)。我们用φ-1(x)表示φ(x)的反函数。
我们考虑一维临近算子(文献[14]):
Figure GDA0002397370790000084
如前所述,LPOM方法的主要思想是将(1)式中的等式约束转化为一个最小化问题。观察式2,可以发现临近算子恰好可将等式问题转化成为一个优化问题。例如,要使得:
Proxf(y)=φ(y), (式3)
则可以定义f(x)为:
f(x)=∫(φ-1(x)-x)dx。 (式4)
类似地,函数f(X)表示矩阵X的每个元素做f(x)的映射。可以发现,对于极小化问题:
Figure GDA0002397370790000085
的KKT条件满足:
φ-1(X)=Y。 (式6)
为了更好的转化我们的问题,我们同时定义
g(x)=∫(φ(x)-x)dx, (式7)
函数g(X)表示矩阵X的每个元素做g(x)的映射。运用这个技巧,可将神经网络的优化问题转化 (式1)转化为如下问题(LPOM):
Figure GDA0002397370790000086
其中同式1,
Figure GDA0002397370790000091
分别为样本的数据和标签,n1为输入训练样本特征的维度,m为训练样本个数,c为类别数,n为神经网络层数,
Figure GDA0002397370790000092
为神经网络参数,Xi(i>1)为神经网络第i层的输出,L(X,T)为目标损失函数,f(X),g(X)分别按照式6,式7 定义。
对式8中
Figure GDA0002397370790000093
求导,可以得出:
μi-1(Xi)-Wi-1Xi-1)+μi+1WiT(φ(WiXi)-Wi+1)=0,2≤i<n。 (式9)
对比神经网络的前向过程Xi=φ(Wi-1Xi-1),可发现其前向过程满足式9。
(二)求解LPOM:
具体实施中,我们采用交替极小化
Figure GDA0002397370790000094
Figure GDA0002397370790000095
求解式8,整个算法展示在算法1中。
1.求解
Figure GDA0002397370790000096
图2为本发明具体实施中ADMM算法求解
Figure GDA0002397370790000097
的流程框图。求解
Figure GDA0002397370790000098
时,首先固定
Figure GDA0002397370790000099
可将式(8)改写成:
Figure GDA00023973707900000910
s.t.Xi=Zi,i=2,3,…,n,
Yi=Wi-1Xi-1,i=2,3,…,n。
在式10中,我们引用了两个中间变量,分别用Zi与Yi(i=2,3,…,n),其余符号定义与式8相同。
式10的增广拉格朗日函数为:
Figure GDA00023973707900000911
其中,μi(i=2,3,…,n)为罚因子,
Figure GDA00023973707900000912
Figure GDA00023973707900000913
(i=2,3,…,n)为乘子。
我们采用ADMM求解式11。首先我们考虑优化
Figure GDA00023973707900000914
当i=n时,我们有:
Figure GDA00023973707900000915
若L(X,T)选择简单的平方损失函数,即
Figure GDA00023973707900000916
有:
Figure GDA00023973707900000917
当2≤i≤n-1,改写式11中
Figure GDA0002397370790000101
的极小化问题,我们有:
Figure GDA0002397370790000102
所以Xi的解为:
Figure GDA0002397370790000103
其中I为对应大小的单位矩阵。矩阵求逆运算可在迭代计算
Figure GDA0002397370790000104
之前求出,在迭代过程中不需要重复计算。
式11中
Figure GDA0002397370790000105
的极小化问题为:
Figure GDA0002397370790000106
由于该问题不存在闭解,我们采用梯度下降求解:
Figure GDA0002397370790000107
其中L1
Figure GDA0002397370790000108
的利普希茨常数。对于
Figure GDA0002397370790000109
的极小化问题,我们直接有解:
Figure GDA00023973707900001010
最后,我们更新乘子:
Figure GDA00023973707900001011
Figure GDA00023973707900001012
2.求解
Figure GDA00023973707900001013
图3为本发明具体实施中使用随机梯度下降求解
Figure GDA00023973707900001014
的流程框图。
求解
Figure GDA00023973707900001015
首先固定
Figure GDA00023973707900001016
的极小化问题为:
Figure GDA00023973707900001017
式21符号表示同式11。
采用梯度下降法求解:
Wi=Wi-γ(φ(WiXi)-Xi+1)(Xi)T,i=2,3,…,n, (式22)
其中γ为步长。
3.小批量样本处理。
在实际优化过程中,为了减小每步迭代的计算量,可以首先选择一小批样本求出
Figure GDA00023973707900001018
而后对
Figure GDA0002397370790000111
采用随机梯度下降优化。
整个LPOM优化神经网络具体计算过程可见以下算法伪代码:
Figure GDA0002397370790000112
Figure GDA0002397370790000113
Figure GDA0002397370790000114
以下实施例采用文献[16](LeCun Y,Bottou L,Bengio Y,et al.Gradient-basedlearning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.)记载的标准数据集MNIST进行了具体实施。MNIST数据集是一个由10个类的手写数字数据集。该数据集有60000张训练图片,10000张测试图片。每张图片为28×28像素的灰度图像。在实施中,我们使用sigmoid函数
Figure GDA0002397370790000121
作为神经网络的激活函数。我们将LPOM方法与随机梯度下降方法进行比较。
实施例一:浅层网络
针对一个三层(n=3)的神经网络,神经网络隐层的单元数为300,采用LPOM算法,我们设置超参数μi=2i-n,K1=600,K2=100,m1=1000,b=100。
直接对比最终的识别率结果。当我们采用LPOM算法优化神经网络时,最终的识别率为95.6%。而当采用随机梯度下降方法优化问题时,最终的识别结果为95.3%(该结果直接从 MNIST官方网站http://yann.lecun.com/exdb/mnist/上获得)。由此可以看出,LPOM方法在浅层的神经网络上能获得与随机梯度下降方法可比较的识别结果。
实施例二:深层网络
在深层的神经网络上采用本发明方法。我们设置神经网络的结构为
Figure GDA0002397370790000122
Figure GDA0002397370790000123
其中n-2为网络隐层个数,我们设置n-2为18,19,和20。对于LPOM算法,使用相同的超参数μi=2i-n,K1=600,K2=100,m1=1000,b=100。对于随机梯度下降方法,我们搜索超参数满足:1)从0.001,0.005,0.01,0.05,0.1,0.5,1中搜索步长参数,2)从0,0.2,0.5, 0.9搜索冲量参数。对于LPOM算法以及SGD算法(随机梯度下降法),使用文献[17](Glorot X,Bengio Y.Understanding the difficulty of training deepfeedforward neural networks[C]// Artificial Intelligence and Statistics.2010,9:249-256.)记载的初始化方法:参数
Figure GDA0002397370790000124
Figure GDA0002397370790000125
的均匀分布中获取,其中ni和no为对应层的输入和输出维度。
图4、图5和图6分别表示训练过程中训练误差相对于算法迭代次数的曲线。可以看出对于随机梯度下降法,算法很难收敛,而对于LPOM方法,训练误差能够稳定的下降。
由于随机梯度下降方法不能够收敛,最终的识别率不能超多20%。而对于LPOM方法,识别率仍然分别能够达到82.1%,79.8%,和75.3%。
综上所述,本发明提出了一种新的优化神经网络的方法:提升邻近算子机(LPOM)。该方法将神经网络优化问题使用邻近算子转化为一个新问题。而该问题可以较方便的通过交替迭代法求解。实验证明LPOM优化20个隐层的神经网络时训练误差仍可以稳定的下降。故 LPOM对于优化深层的网络有更好的训练效率。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (2)

1.一种神经网络优化的图像识别方法,称为提升邻近算子机LPOM,针对图像数据集进行图像处理,将神经网络转化为新的LPOM优化问题,再通过交替极小化方法求解LPOM优化问题;包括如下步骤:
1)将神经网络的前向过程转化为LPOM优化问题;执行如下操作:
11)将神经网络的前向过程描述成式1:
Figure FDA0002397370780000011
s.t.Xi=φ(Wi-1Xi-1),i=2,3,…,n
其中,
Figure FDA0002397370780000012
分别为样本的数据和标签;n1为输入训练样本特征的维度;m为训练样本个数;c为类别数;n为神经网络层数;
Figure FDA0002397370780000013
为神经网络参数;Xi(i>1)为神经网络第i层的输出;φ(X)为神经网络激活函数;L(X,T)为目标损失函数;所述样本为图像数据集中的图像;
12)将式1中的等式约束转化为一个最小化问题;
设φ(x)是单元函数,φ(X)表示对矩阵X的每个元素做φ(·)的映射;同时,设φ(x)为单调可导函数;φ-1(x)表示φ(x)的反函数;
利用一维临近算子将式1表示的优化问题转化为式8表示的LPOM问题:
Figure FDA0002397370780000014
式8中,f(X)、g(X)分别按照式6、式7定义:
f(x)=∫(φ-1(x)-x)dx (式6)
g(x)=∫(φ(x)-x)dx (式7)
式7中,函数g(x)表示矩阵X的每个元素做g(x)的映射;
13)对式8中
Figure FDA0002397370780000015
求导,得到式9:
μi-1(Xi)-Wi-1Xi-1)+μi+1WiT(φ(WiXi)-Wi+1)=0,2≤i<n (式9)
神经网络的前向过程Xi=φ(Wi-1Xi-1)满足式9;
2)求解LPOM优化问题:
采用交替极小化
Figure FDA0002397370780000016
Figure FDA0002397370780000017
求解式8,包括如下操作:
21)求解
Figure FDA0002397370780000018
211)首先固定
Figure FDA0002397370780000019
通过引用两个中间变量Zi与Yi(i=2,3,…,n),将式8改写成式10:
Figure FDA0002397370780000021
s.t.Xi=Zi,i=2,3,…,n,
Yi=Wi-1Xi-1,i=2,3,…,n,
式10的增广拉格朗日函数表示为式11:
Figure FDA0002397370780000022
其中,μi(i=2,3,…,n)为罚因子;
Figure FDA0002397370780000023
Figure FDA0002397370780000024
为乘子;
212)求解式11:
首先考虑优化
Figure FDA0002397370780000025
当i=n时,得式12:
Figure FDA0002397370780000026
选择L(X,T)为简单的平方损失函数,即
Figure FDA0002397370780000027
得式13:
Figure FDA0002397370780000028
当2≤i≤n-1时,式11中
Figure FDA0002397370780000029
的极小化问题改写为式14:
Figure FDA00023973707800000210
Xi的解为式15:
Figure FDA00023973707800000211
其中,I为对应大小的单位矩阵;
其次,式11中
Figure FDA00023973707800000212
的极小化问题表示为式16:
Figure FDA00023973707800000213
采用梯度下降求解,表示为式17:
Figure FDA00023973707800000214
其中,L1
Figure FDA00023973707800000215
的利普希茨常数;
再者,对于
Figure FDA00023973707800000216
的极小化问题,直接有解表示为式18:
Figure FDA00023973707800000217
最后,更新乘子:
Figure FDA00023973707800000218
Figure FDA0002397370780000031
通过上述过程,即完成求解
Figure FDA0002397370780000032
22)求解
Figure FDA0002397370780000033
221)首先固定
Figure FDA0002397370780000034
的极小化问题表示为式21:
Figure FDA0002397370780000035
采用梯度下降法求解如式22:
Wi=Wi-γ(φ(WiXi)-Xi+1)(Xi)T,i=1,2,3,…,n-1 (式22)
其中,γ为步长;
通过上述步骤求解LPOM优化问题,从而完成神经网络优化。
2.如权利要求1所述神经网络优化的图像识别方法,其特征是,在优化过程中,首先选择一小批样本求出
Figure FDA0002397370780000036
然后对
Figure FDA0002397370780000037
采用随机梯度下降法进行优化,由此达到减小每步迭代的计算量的目的。
CN201711156691.4A 2017-11-20 2017-11-20 一种神经网络优化的图像识别方法 Active CN107784361B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711156691.4A CN107784361B (zh) 2017-11-20 2017-11-20 一种神经网络优化的图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711156691.4A CN107784361B (zh) 2017-11-20 2017-11-20 一种神经网络优化的图像识别方法

Publications (2)

Publication Number Publication Date
CN107784361A CN107784361A (zh) 2018-03-09
CN107784361B true CN107784361B (zh) 2020-06-26

Family

ID=61429587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711156691.4A Active CN107784361B (zh) 2017-11-20 2017-11-20 一种神经网络优化的图像识别方法

Country Status (1)

Country Link
CN (1) CN107784361B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416753B (zh) * 2018-03-14 2020-06-12 大连理工大学 一种基于非参数化交替方向乘子法的图像去噪算法
WO2019219846A1 (en) * 2018-05-17 2019-11-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concepts for distributed learning of neural networks and/or transmission of parameterization updates therefor
CN111062474B (zh) * 2018-10-16 2023-04-28 北京大学 一种求解提升邻近算子机的神经网络优化方法
US10860900B2 (en) 2018-10-30 2020-12-08 International Business Machines Corporation Transforming source distribution to target distribution using Sobolev Descent
CN110932734B (zh) * 2019-11-14 2021-06-08 浙江大学 一种基于交替方向乘子法的深度学习信道译码方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968762A (zh) * 2012-10-24 2013-03-13 浙江理工大学 一种基于稀疏化和泊松模型的pet重建方法
CN102982373A (zh) * 2012-12-31 2013-03-20 山东大学 一种混合svm回归算法的oin神经网络训练方法
CN105160400A (zh) * 2015-09-08 2015-12-16 西安交通大学 基于l21范数的提升卷积神经网络泛化能力的方法
CN105678715A (zh) * 2016-02-15 2016-06-15 江苏大学 一种基于核回归全变分的去除图像噪声的方法
CN106920220A (zh) * 2017-02-24 2017-07-04 西北工业大学 基于暗原色和交替方向乘子法优化的湍流图像盲复原方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170300811A1 (en) * 2016-04-14 2017-10-19 Linkedin Corporation Dynamic loss function based on statistics in loss layer of deep convolutional neural network

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968762A (zh) * 2012-10-24 2013-03-13 浙江理工大学 一种基于稀疏化和泊松模型的pet重建方法
CN102982373A (zh) * 2012-12-31 2013-03-20 山东大学 一种混合svm回归算法的oin神经网络训练方法
CN105160400A (zh) * 2015-09-08 2015-12-16 西安交通大学 基于l21范数的提升卷积神经网络泛化能力的方法
CN105678715A (zh) * 2016-02-15 2016-06-15 江苏大学 一种基于核回归全变分的去除图像噪声的方法
CN106920220A (zh) * 2017-02-24 2017-07-04 西北工业大学 基于暗原色和交替方向乘子法优化的湍流图像盲复原方法

Also Published As

Publication number Publication date
CN107784361A (zh) 2018-03-09

Similar Documents

Publication Publication Date Title
CN107784361B (zh) 一种神经网络优化的图像识别方法
CN109992670B (zh) 一种基于知识图谱邻域结构的图谱完备化方法
CN107516129B (zh) 基于维度自适应的Tucker分解的深度网络压缩方法
US12112256B2 (en) Loss-error-aware quantization of a low-bit neural network
CN109033095B (zh) 基于注意力机制的目标变换方法
CN109657156B (zh) 一种基于循环生成对抗网络的个性化推荐方法
US20210383238A1 (en) Knowledge distillation by utilizing backward pass knowledge in neural networks
CN113905391B (zh) 集成学习网络流量预测方法、系统、设备、终端、介质
CN110175951B (zh) 基于时域一致性约束的视频风格迁移方法
CN110648292B (zh) 一种基于深度卷积网络的高噪声图像去噪方法
CN108121975B (zh) 一种联合原始数据和生成数据的人脸识别方法
CN111353534B (zh) 一种基于自适应分数阶梯度的图数据类别预测方法
CN104866900A (zh) 一种反卷积神经网络训练方法
CN108985457B (zh) 一种受优化算法启发的深度神经网络结构设计方法
WO2021243473A1 (en) Improved knowledge distillation by utilizing backward pass knowledge in neural networks
CN112183742A (zh) 基于渐进式量化和Hessian信息的神经网络混合量化方法
CN110473267A (zh) 基于注意力特征提取网络的社交网络图像描述生成方法
Lee et al. Deeptwist: Learning model compression via occasional weight distortion
CN111158912A (zh) 云雾协同计算环境下一种基于深度学习的任务卸载决策方法
CN117236201B (zh) 一种基于Diffusion和ViT的降尺度方法
CN111461978A (zh) 一种基于注意力机制的逐分辨率提升图像超分辨率复原方法
CN114881134A (zh) 一种应用于数据异构的联邦域适应方法
CN113590748B (zh) 基于迭代网络组合的情感分类持续学习方法及存储介质
Zhang et al. The WuC-Adam algorithm based on joint improvement of Warmup and cosine annealing algorithms
CN111062474A (zh) 一种求解提升邻近算子机的神经网络优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant