CN103065191A - 一种快速的神经网络学习方法 - Google Patents

一种快速的神经网络学习方法 Download PDF

Info

Publication number
CN103065191A
CN103065191A CN2011103192175A CN201110319217A CN103065191A CN 103065191 A CN103065191 A CN 103065191A CN 2011103192175 A CN2011103192175 A CN 2011103192175A CN 201110319217 A CN201110319217 A CN 201110319217A CN 103065191 A CN103065191 A CN 103065191A
Authority
CN
China
Prior art keywords
relm
model
error
elm
beta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011103192175A
Other languages
English (en)
Inventor
邓万宇
陈琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Post & Telecommunication College
Xian University of Posts and Telecommunications
Original Assignee
Xi'an Post & Telecommunication College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Post & Telecommunication College filed Critical Xi'an Post & Telecommunication College
Priority to CN2011103192175A priority Critical patent/CN103065191A/zh
Publication of CN103065191A publication Critical patent/CN103065191A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于人工智能领域,涉及风险最小化与加权最小二乘理论,公开了一种神经网络的正则快速学习方法(Regularized Extreme Learning Machine,RELM)。它包括:(1)修正代价函数:权衡经验风险和结构风险,并通过参数调节两种风险的比例,最终取得两种风险的最佳折中;(2)修正模型训练:为了降低离群点对模型的干扰,获得一个抗干扰模型,采用对不同样本进行误差加权的方式;(3)输出权计算:首先利用无权模型训练输出权的初始值;采用极速学习机技术得到单隐藏层神经网络模型的各个连接权值以及隐藏层阈值;最终得到加权模型的输出权值。

Description

一种快速的神经网络学习方法
一、技术领域
本发明属于人工智能领域,涉及风险最小化与加权最小二乘理论,公开了一种基于极速神经网络模型的正则快速学习方法(Regularized Extreme LearningMachine,RELM)。
二、背景技术
单隐藏层前馈神经网络(SLFN:Single-hidden Layer Feedforward NeuralNetwork)之所以能够在很多领域得到广泛应用,是因为它有很多优点:(1)具有很强的学习能力,能够逼近复杂非线性函数;(2)能够解决传统参数方法无法解决的问题。但另一方面缺乏快速学习方法,也使其很多时候无法满足实际需要。
对于SLFN的学习能力,很多文献分别从紧集(compact input sets)和有限集(infinite input sets)两种输入情况进行了深入研究。Hornik研究表明:如果激励函数连续、有界且不是常量函数,那么SLFN能够在紧集情况下逼近任何连续函数[1];Leshno在Hornik基础的进一步研究表明:使用非多项式激励函数的SLFN能够逼近任何连续函数[2]。在实际应用中,神经网络的输入往往是有限集,对于有限集情况下SLFN的学习能力,Huang和Babri的进行了研究,结果表明:对于含有N个不同实例的有限集,一个具有非线性激励函数的SLFN最多只需N个隐藏层结点,就可以无误差的逼近这N个实例[3][4]。这就是说,一个具有N个隐藏层结点的SLFN,即使输入权值随机取值,它也能够准确拟合N个不同的实例,更明确的讲就是:SLFN的学习能力只和隐藏层结点的数目有关,而和输入层的权值无关。虽然这一点对于提出一种新的学习算法很有启发,但并未引起研究者的注意,迭代调整的思想一直坚持到现在,很多算法都只是围绕这一思想进行技巧性的改进。不同于传统的学习方法,Huang基于以上研究结论为SLFN提出了一种称为极速学习机(Extreme Learning Machine,ELM)的学习方法[5]:设置合适的隐藏层结点数,为输入权和隐藏层偏差进行随机赋值,然后输出层权值然通过最小二乘法得到。整个过程一次完成,无需迭代,与BP相比速度显著提高(通常10倍以上)。
但是ELM基于经验风险最小化原理,这可能会导致过度拟合问题[6]。此外因为ELM不考虑误差的权重,当数据集中存在离群点时,它的性能将会受到严重影响[7]。为了克服这些缺点,我们结合结构风险最小化理论以及加权最小二乘方法对ELM算法进行改进,使得ELM在保持“快速”这一优势的前提下,泛化性能得到进一步的提高。
三、发明内容
本发明的目的在于克服上述现有技术的不足,借鉴ELM的一次学习思想并基于结构风险最小化理论提出一种快速学习方法(RELM),避免了多次迭代和局部最小值,具有良好的泛化性、鲁棒性与可控性。包括以下几方面内容:
(1)修正代价函数
根据Huang为SLFN提出的一种称为极速学习机(Extreme LearningMachine,ELM)的学习方法[5],并结合统计学理论可知,实际风险包括经验风险和结构风险两种成分[8]。因此一个具有较好泛化性能的模型应该能权衡这两种风险,并取得最佳的折中。RELM将同时考虑这两种风险因素,并通过参数γ调节两种风险的比例。RELM的修正后的代价函数表示为:
arg min β E ( W ) = arg min β ( 1 2 | | β | | 2 + 1 2 γ | | ϵ | | 2 )
s . t . Σ i = 1 N ~ β i g ( a i · x j + b i ) - t j = ϵ j , j = 1 , . . . , N
其中,误差的平方和||ε||2代表经验风险;||β||2代表结构风险,它源于统计理论中边缘距离最大化原理[13,14];而γ则是两种风险的比例参数,通过交叉验证的方式确定γ来获得两种风险的最佳折中点。
(2)修正模型训练
当数据集中存在离群点时,ELM模型性能将会受到很大影响,鲁棒性较差。为了获得一个抗干扰模型,我们为不同样本的误差进行加权,||ε||2被扩展为||Dε||2。其中D=diag(v1,v2,...,vN)表示误差的权值对角阵。RELM的模型进一步修正为:
arg min β ( 1 2 | | β | | 2 + 1 2 γ | | Dϵ | | 2 )
s . t . Σ i = 1 N ~ β i g ( a i · x j + b i ) - t j = ϵ j , j = 1 , . . . , N
加权RELM需要计算误差的权值,权值计算已有很多论述[7,11],这里采用[16]提到的方法:
d j = 1 | ϵ j / s ^ | ≤ c 1 c 2 - | ϵ j / s ^ | c 2 - c 1 c 1 ≤ | ϵ j / s ^ | ≤ c 2 10 - 4 otherwise
其中
Figure BSA00000594780500034
它是无权RELM计算得到的样本误差,
Figure BSA00000594780500035
是误差εj的标准偏差(standard deviation)估计,可通过公式
Figure BSA00000594780500036
计算。MAD(medianabsolute deviation)表示绝对中位差。根据高斯分布可知:基本不存在大于
Figure BSA00000594780500037
的误差,因此常量c1和c2通常被置为c1=2.5,c2=3[7]。
(3)输出权计算:
首先利用无权模型训练输出权的初始值;采用极速学习机技术得到单隐藏层神经网络模型的各个连接权值以及隐藏层阈值;最终得到加权模型的输出权值。RELM与ELM相比,方程组的解是Hβ=T的一个加权最小二乘解:
Figure BSA00000594780500041
这个解不但可以达到最小的训练误差,同时对离群点具有一定的抗干扰能力。
四、附图说明
图1单隐藏层神经网络模型;
图2加入离群点前后“SinC”曲线拟合效果比较:ELM拟合曲线(无离群点);
图3加入离群点前后“SinC”曲线拟合效果比较:RELM拟合曲线(无离群点);
图4加入离群点前后“SinC”曲线拟合效果比较:ELM拟合曲线(有离群点);
图5加入离群点前后“SinC”曲线拟合效果比较:RELM拟合曲线(有离群点);
图6RELM的性能随γ变化的曲线;
五、具体实施方式
为了更清楚的理解本发明,下面结合附图和具体实施方式对本发明的内容作进一步详细说明。
1、RELM模型建立:
(1)SLFN的统一模型:
对于N个不同样本(xi,ti),其中xi=[xi1,xi2,...,xin]T∈Rn,ti=[ti1,ti2,...,tim]T∈Rm,一个隐藏层结点数目为
Figure BSA00000594780500042
激励函数为g(x)的SLFN的统一模型(如图1)为:
Σ i = 1 N ~ β i g i ( x j ) = Σ i = 1 N ~ β i g ( a i · x j + b i ) = t j , j = 1 , . . . , N - - - ( 1 )
其中ai=[ai1,ai2,...,ain]T是连接第i个隐藏层结点的输入权值;bi是i个隐藏层结点的偏差(bias);βi=[βi1,βi2,...,βim]T是连接i个隐藏层结点的输出权值;ai·xj表示ai和xj的内积。激励函数g(x)可以是“Sigmoid”、“Sine”或“RBF”等。
上述N个方程的矩阵形式可写为:
Hβ=T,其中
H ( a 1 , . . . , a N ~ , b 1 , . . . , b N ~ , x 1 , . . . , x N ) = g ( a 1 · x 1 + b 1 ) . . . g ( a N ~ · x 1 + b N ~ ) . . . . . . . . . g ( a 1 · x N + b 1 ) . . . g ( a N ~ · x N + b N ~ ) N × N ~ , β = β 1 T . . . β N ~ T N ~ × m , T = t 1 T . . . t N T N × m
E(w)表示期望值和实际值之间的误差平方和,问题求解就是寻找最优的权值w=(a,b,β)使代价函数E(W)最小,其数学模型可表示为:
arg min W = ( a , b , β ) E ( W ) = arg min W = ( a , b , β ) | | ϵ | | 2
s . t . Σ i = 1 N ~ β i g ( a i · x j + b i ) - t j = ϵ j , j = 1 , . . . , N - - - ( 2 )
其中εj=[εj1,εj2,...,εjm]是第j个样本的误差。
为了方便讨论,在后文中将以一维输出(m=1)为例进行研究,但所得结论仍适用于多维情况。
(2)BP
由Rumelhart和McClelland提出的BP神经网络模型是目前应用最广泛的模型之一[8],BP训练方法是通过反向误差传播原理不断调整网络权值使得实际输出与期望输出之间的误差平方和达到最小或小于某个阈值。当H未知时,通常采用梯度下降法迭代调整w:
W k = W k - 1 - η ∂ E ( W ) ∂ W
其中η代表学习速率。
基于梯度下降法的BP存在以下缺点:
训练速度慢。因为需要多次的迭代,所以时间消耗很长。
Figure BSA00000594780500061
参数选择很敏感,必须选取合适的η与w初值,才能取得理想的结果。若η太小,算法收敛很慢,而η太大,算法不太稳定甚至不再收敛;
局部最小值。由于E(W)非凸,因此在下降过程中可能会陷入局部最小点,无法达到全局最小[9];
过渡拟合。在有限样本上训练时,仅以训练误差最小为目标的训练可能导致过渡拟合。
(3)ELM
为了解决以上问题,Huang基于以下定理为SLFN提出了ELM学习算法。
定理1.[5]对于任意N个不同样本(xi,ti),其中xi=[xi1,xi2,...,xin]T∈Rn,ti=[ti1,ti2,...,tim]T∈Rm,N个隐藏层结点和一个任意区间无限可导的激活函数g:R→R,则SLFN在ai∈Rn和bi∈R任意赋值的情况下,所形成的隐藏层矩阵H可逆,即方程组有精确解,代价函数E(W)=0。
定理2.[5]给定任意N个不同样本(xi,ti),任意小误差e>0,及在任意区间无限可导的激活函数g:R→R,总存在一个包含
Figure BSA00000594780500064
个隐藏层结点的SLFN,使得在ai∈Rn和bi∈R任意取值情况下,误差E(W)≤e。
定理1和定理2的详细证明可参考文献[4,5,10]。定理表明:只要隐含层结点数足够多,SLFN就能在输入权随机赋值情况下逼近任何连续函数。但为了使SLFN具有良好的泛化性能,通常
Figure BSA00000594780500065
当输入权以随机赋值的方式确定后,所得隐藏层矩阵H便是一个确定的矩阵,因此训练SLFN就转化为计算Hβ=T的最小二乘解问题。关于ELM的细节请参考[5]。
与BP相比ELM需要调整的参数只有隐含层结点个数
Figure BSA00000594780500066
目前虽没有精确估计
Figure BSA00000594780500067
的方法,但大大缩小了搜索范围,在实际应用中可以通过交叉验证的方式的确定。在标准UCI数据集上的大量实验表明ELM训练速度快,泛化性能良好,但ELM仍有一些缺点:
Figure BSA00000594780500071
ELM仅考虑经验风险,没有考虑到结构化风险,因此可能导致过度拟合问题;
Figure BSA00000594780500072
ELM直接计算最小二乘解,用户无法根据数据集的特征进行微调,可控性差;
当数据集中存在离群点时,模型性能将会受到很大影响,鲁棒性较差。
为了克服这些缺点,我们把结构风险最小化理论以及加权最小二乘方法引入到ELM中,提出一种正则极速学习机(Regularized Extreme Learning Machine,RELM)。
(4)RELM
根据统计学理论可知,实际风险包括经验风险和结构风险两种成分[8]。一个具有较好泛化性能的模型应该能权衡这两种风险,并取得最佳的折中。RELM将同时考虑这两种风险因素,并通过参数γ调节两种风险的比例,RELM的数学模型可表示为:
arg min β E ( W ) = arg min β ( 1 2 | | β | | 2 + 1 2 γ | | ϵ | | 2 )
s . t . Σ i = 1 N ~ β i g ( a i · x j + b i ) - t j = ϵ j , j = 1 , . . . , N
其中,误差的平方和||ε||2代表经验风险;||β||2代表结构风险,它源于统计理论中边缘距离最大化原理[13,14];而γ则是两种风险的比例参数,通过交叉验证的方式确定γ来获得两种风险的最佳折中点。
为了获得一个抗干扰模型,我们为不同样本的误差进行加权,||ε||2被扩展为||Dε||2。其中D=diag(v1,v2,...,vN)表示误差的权值对角阵。RELM的模型进一步修正为:
arg min β ( 1 2 | | β | | 2 + 1 2 γ | | Dϵ | | 2 )
s . t . Σ i = 1 N ~ β i g ( a i · x j + b i ) - t j = ϵ j , j = 1 , . . . , N
上式是条件极值问题,通过拉格朗日方程转换为无条件极值问题进行求解:
l ( β , ϵ , α ) = γ 2 | | Dϵ | | 2 + 1 2 | | β | | 2 - Σ j = 1 N α j ( g ( a i · x j + b i ) - t j - ϵ j ) (4)
= γ 2 | | Dϵ | | 2 + 1 2 | | β | | 2 - α ( Hβ - T - ϵ )
其中α=[α1,α2,...,αN];αj∈Rm(j=1,2,...,N)代表拉格朗日乘子。
求拉格朗日方程的梯度并令其为0:
Figure BSA00000594780500085
把方程③代入方程②得:α=-γ(Hβ-T)TD2    (6)
把(6)代入方程①得:
Figure BSA00000594780500086
表达式(7)只含有一个
Figure BSA00000594780500087
矩阵的逆操作,所以计算β的速度非常快。
2、权值计算方法:
(1)无权RELM
在实际应用中,如果数据集中离群点很少,对模型没有太大影响,那么为了加快训练速度,可以认为每个样本的误差权值相同,此时矩阵D=diag(v1,v2,...,vN)将是一个单位阵,无须计算。我们称这种情况的RELM为无权RELM,无权RELM算法可归结为:
Figure BSA00000594780500088
通过观察不难看出,RELM与ELM计算量基本一样。其实ELM是未加权RELM得一种特殊情况:
定理3:当γ→∞时,未加权RELM将退化为ELM。
证明:若γ→∞,则
Figure BSA00000594780500092
因此有:
Figure BSA00000594780500093
证毕。
(2)加权RELM
与无权RELM相反,如果数据含有离群点,那么使用加权RELM有一定的抗干扰能力,这可以从后面“SinC”数据集离群点加入前后的实验对比中看出。加权RELM需要计算误差的权值,权值计算已有很多论述[7,11],这里采用[16]提到的方法:
d j = 1 | ϵ j / s ^ | ≤ c 1 c 2 - | ϵ j / s ^ | c 2 - c 1 c 1 ≤ | ϵ j / s ^ | ≤ c 2 10 - 4 otherwise
其中
Figure BSA00000594780500095
它是无权RELM计算得到的样本误差,
Figure BSA00000594780500096
是误差εj的标准偏差(standard deviation)估计,可通过公式
Figure BSA00000594780500097
计算。MAD(medianabsolute deviation)表示绝对中位差。根据高斯分布可知:基本不存在大于
Figure BSA00000594780500098
的误差,因此常量c1和c2通常被置为c1=2.5,c2=3[7]。
综上所述,RELM算法可归结为:
Figure BSA00000594780500099
加权RELM多了计算权值的过程,时间消耗有所延长,因此如果实际应用中对训练时间要求很强,那么用无权RELM比较合适。在下面的实验中,除为了验证RELM的鲁棒性在“SinC”数据集上采用加权RELM和ELM进行比较外,其他数据集的实验一律采用无权RELM和ELM进行比较。
RELM与ELM相比,具有如下特点:
方程组的解是Hβ=T的一个加权最小二乘解:
Figure BSA00000594780500102
这个解不但可以达到最小的训练误差,同时对离群点具有一定的抗干扰能力。
通过引入调节参数γ,代价函数不仅包括经验风险,还包括结构风险,这使得方程组的解不仅获得尽可能小的训练误差,而且能使边缘距离最大化,从而具有更好的泛化性能:
Figure BSA00000594780500103
实施例
这里通过实验的方式比较RELM、ELM、BP和支持向量机(Support VectorMachine,SVM)[13,14]的性能。RELM、ELM和BP的执行环境是Matlab7.0,SVM的执行环境是C语言。RELM由我们自己实现,ELM的源代码可以从Huang的个人主页直接下载1,而BP算法已经集成在Matlab自带的神经网络工具箱中,可以直接使用。BP算法有很多变种,我们选择最快的Levenberg-Marquardt算法来进行实验。SVM算法我们采用C语言实现的SVM包:LibSVM2。RELM、ELM和BP的激励函数都选择“Sigmoid”函数:g(x)=1/(1+exp(-x)),而SVM的核函数选择径向基函数。实验数据的输入一律归一化到[0,1]范围内,而输出则归一化到[-1,1]范围内。
值得指出的是,这里汇总的实验结果都是每种算法能够达到的最优实验结果。对于SVM,我们采用Hsu和Lin提出的排列组合方式[12]选择最优的参数γ和C:γ=[24,23,...,2-10],C=[212,211,...,2-2]。共有15*15=225种组合,对每一种组合(γ,C),进行50次随机实验,并对最佳平均值进行汇总。对于RELM,我们采用类似于SVM的方式选择最优的参数γ和隐藏层结点数
Figure BSA00000594780500111
γ=[2-50,2-49,...,250],
Figure BSA00000594780500112
(
Figure BSA00000594780500113
根据具体数据集设定)。对于所产生每个组合
Figure BSA00000594780500114
进行50次随机实验,并对最佳平均值进行汇总。对于ELM和BP,隐藏层结点的个数初始取5,每次递增5,并基于5-折交叉验证的方法选择最优(接近)的数目,然后进行50次实验并将最佳平均结果进行汇总。
实验一:回归问题:加入离群点前后“SinC”曲线拟合效果比较
“SinC”函数表达式: y ( x ) = sin x / x , x ≠ 0 1 x = 0
数据产生方法:在区间(-10,10)内随机产生5000个训练样本和测试样本,并在所有训练样本上附加取值范围为[-0.2,0.2]的随机噪声,而测试数据无噪声。各种算法的性能见表1。从表6-1可以看出RELM的RMSE(root mean square
                               
1 ELM Source Codes:http://www.ntu.edu sg/home/egbhuang/.
2 SVM Source Codes:http://www.csie.ntu.edu.tw/~cjlin/libsvm/.
error,均方根误差)比ELM小,分别为0.0078和0.0097;不过RELM训练时间比ELM稍长;RELM的RMSE明显比BP算法和SVM算法要小,而训练时间确比BP和SVM缩短了上百倍。由此可见在“SinC”数据集上,RELM综合性能最好。
表1四种算法在“SinC”数据集上的性能比较
Tab.1.Performance comparison for learning noise free function:SinC
Figure BSA00000594780500121
为了比较RELM和ELM算法的鲁棒性,“SinC”训练集中加入了一些离群点后进行重新实验。实验结果见图2--图5,从图中可以看出ELM的预测曲线明显脱离实际曲线,说明其受到离群点的干扰很大。而RELM的预测曲线仍能完好的拟合实际曲线,说明RELM具有一定的抗干扰能力。
实验二:实际回归问题
我们在13种真实数据集3上将RELM与ELM、BP、SVM进行比较,数据集信息见表2。四种算法的RMSE见表3。从表3可以看出,RELM在大多数据集上的测试RMSE比ELM,BP,SVM小,说明其有更好的泛化性能(如果两种算法的RMSE相差大于0.005时,较好的RMSE加粗表示);表4汇总了四种算法的时间消耗,从表4可以看出RELM的训练速度和ELM相差无几,却比BP和SVM快很多倍。但是由于BP具有最紧凑网络结构(隐藏层结点数最少),在四种算法中BP测试时间最短;表5汇总了四种算法的标准偏差。
                    
3 http://www.niaad.liacc.up.pt/~ltorgo/Regression/ds_menu.html.
表2:回归数据集信息
Tab.6-2.Specification of real-world regression cases
Figure BSA00000594780500131
表3四种不同算法的均方差(RMSE)比较
Tab.6-3.Comparison of training RMSE and testing RMSE of BP,SVM,ELM and RELM
表4四种不同算法的时间比较,单位:秒(s)
Tab.6-4.Comparison of training and testing time of BP,SVM,ELM and RELM
Figure BSA00000594780500133
实验三:RELM的性能随γ变化的曲线
前面提到当γ→∞时,RELM将退化为ELM。为了说明这一点,我们以数据集“Triazines”为例展示RELM的性能(RMSE)随γ变化情况。如图6所示,可以看出RELM的性能首先随着γ的增大不断提高(越小越好),当γ=2-2时,RELM的性能达到最好,比ELM提高了0.05。之后,随着γ的增大,RELM的性能不断降低,并逐渐与ELM的性能曲线重叠在一起,这说明当γ→∞时,RELM退化为ELM,由此可见RELM的精度至少能与ELM相当。
表5四种不同算法的标准偏差(standard deviations)比较
Tab.6-5.Comparison of standard deviations of BP,SVM,ELM and RELM
Figure BSA00000594780500141

Claims (3)

1.一种快速的神经网络学习方法,其特征在于:修正代价函数
Huang为SLFN提出了一种称为极速学习机(Extreme Learning Machine,ELM)的学习方法:设置合适的隐藏层结点数,为输入权和隐藏层偏差进行随机赋值,然后输出层权值然通过最小二乘法得到。整个过程一次完成,无需迭代,与BP相比速度显著提高(通常10倍以上)。但是ELM仅考虑经验风险,没有考虑到结构化风险,因此可能导致过度拟合问题。
根据统计学理论,实际风险包括经验风险和结构风险两种成分。一个具有较好泛化性能的模型应该能权衡这两种风险,并取得最佳的折中。
本专利RELM将同时考虑这两种风险因素,并通过参数γ调节两种风险的比例,RELM的数学模型可表示为:
arg min β E ( W ) = arg min β ( 1 2 | | β | | 2 + 1 2 γ | | ϵ | | 2 )
s . t . Σ i = 1 N ~ β i g ( a i · x j + b i ) - t j = ϵ j , j = 1 , . . . , N
其中,误差的平方和||ε||2代表经验风险;||β||2代表结构风险,它源于统计理论中边缘距离最大化原理;而γ则是两种风险的比例参数,通过交叉验证的方式确定γ来获得两种风险的最佳折中点。
2.一种快速的神经网络学习方法,其特征在于:修正模型训练
当数据集中存在离群点时,ELM模型性能将会受到很大影响,鲁棒性较差。为了获得一个抗干扰模型,我们为不同样本的误差进行加权,||ε||2被扩展为||Dε||2。其中D=diag(v1,v2,...,vN)表示误差的权值对角阵。RELM的模型进一步修正为:
arg min β ( 1 2 | | β | | 2 + 1 2 γ | | Dϵ | | 2 )
s . t . Σ i = 1 N ~ β i g ( a i · x j + b i ) - t j = ϵ j , j = 1 , . . . , N
加权RELM需要计算误差的权值,权值计算已有很多论述,这里采用提到的方法:
d j = 1 | ϵ j / s ^ | ≤ c 1 c 2 - | ϵ j / s ^ | c 2 - c 1 c 1 ≤ | ϵ j / s ^ | ≤ c 2 10 - 4 otherwise
其中
Figure FSA00000594780400022
它是无权RELM计算得到的样本误差,
Figure FSA00000594780400023
是误差εj的标准偏差(standard deviation)估计,可通过公式
Figure FSA00000594780400024
计算。MAD(medianabsolute deviation)表示绝对中位差。根据高斯分布可知:基本不存在大于
Figure FSA00000594780400025
的误差,因此常量c1和c2通常被置为c1=2.5,c2=3。
3.一种快速的神经网络学习方法,其特征在于:输出权计算:
首先利用无权模型训练输出权的初始值;采用极速学习机技术得到单隐藏层神经网络模型的各个连接权值以及隐藏层阈值;最终得到加权模型的输出权值。RELM与ELM相比,方程组的解是Hβ=T的一个加权最小二乘解:
Figure FSA00000594780400026
这个解不但可以达到最小的训练误差,同时对离群点具有一定的抗干扰能力。
CN2011103192175A 2011-10-19 2011-10-19 一种快速的神经网络学习方法 Pending CN103065191A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011103192175A CN103065191A (zh) 2011-10-19 2011-10-19 一种快速的神经网络学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011103192175A CN103065191A (zh) 2011-10-19 2011-10-19 一种快速的神经网络学习方法

Publications (1)

Publication Number Publication Date
CN103065191A true CN103065191A (zh) 2013-04-24

Family

ID=48107814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011103192175A Pending CN103065191A (zh) 2011-10-19 2011-10-19 一种快速的神经网络学习方法

Country Status (1)

Country Link
CN (1) CN103065191A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102946613A (zh) * 2012-10-10 2013-02-27 北京邮电大学 一种用于测量用户业务体验质量的方法
CN103914711A (zh) * 2014-03-26 2014-07-09 中国科学院计算技术研究所 一种改进的极速学习模型及其模式分类方法
CN104283393A (zh) * 2014-09-25 2015-01-14 南京工程学院 一种单绕组磁悬浮开关磁阻电机结构参数的优化方法
CN105913450A (zh) * 2016-06-22 2016-08-31 武汉理工大学 基于神经网络图像处理的轮胎橡胶炭黑分散度评价方法及系统
CN107290305A (zh) * 2017-07-19 2017-10-24 中国科学院合肥物质科学研究院 一种基于集成学习的近红外光谱定量建模方法
CN111279276A (zh) * 2017-11-02 2020-06-12 西门子股份公司 用于控制复杂系统的随机化加强学习
CN111279276B (zh) * 2017-11-02 2024-05-31 西门子股份公司 用于控制复杂系统的随机化加强学习

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101694652A (zh) * 2009-09-30 2010-04-14 西安交通大学 一种基于极速神经网络的网络资源个性化推荐方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101694652A (zh) * 2009-09-30 2010-04-14 西安交通大学 一种基于极速神经网络的网络资源个性化推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
邓万宇等: "神经网络极速学习方法研究", 《计算机学报》, vol. 33, no. 2, 28 February 2010 (2010-02-28), pages 279 - 287 *
陈琳等: "基于极速神经网络的协作过滤方法研究", 《计算机工程与设计》, no. 4, 30 April 2011 (2011-04-30), pages 1430 - 1437 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102946613A (zh) * 2012-10-10 2013-02-27 北京邮电大学 一种用于测量用户业务体验质量的方法
CN102946613B (zh) * 2012-10-10 2015-01-21 北京邮电大学 一种用于测量用户业务体验质量的方法
CN103914711A (zh) * 2014-03-26 2014-07-09 中国科学院计算技术研究所 一种改进的极速学习模型及其模式分类方法
CN103914711B (zh) * 2014-03-26 2017-07-14 中国科学院计算技术研究所 一种改进的极速学习装置及其模式分类方法
CN104283393A (zh) * 2014-09-25 2015-01-14 南京工程学院 一种单绕组磁悬浮开关磁阻电机结构参数的优化方法
CN104283393B (zh) * 2014-09-25 2017-02-15 南京工程学院 一种单绕组磁悬浮开关磁阻电机结构参数的优化方法
CN105913450A (zh) * 2016-06-22 2016-08-31 武汉理工大学 基于神经网络图像处理的轮胎橡胶炭黑分散度评价方法及系统
CN107290305A (zh) * 2017-07-19 2017-10-24 中国科学院合肥物质科学研究院 一种基于集成学习的近红外光谱定量建模方法
CN107290305B (zh) * 2017-07-19 2019-11-01 中国科学院合肥物质科学研究院 一种基于集成学习的近红外光谱定量建模方法
CN111279276A (zh) * 2017-11-02 2020-06-12 西门子股份公司 用于控制复杂系统的随机化加强学习
US11164077B2 (en) 2017-11-02 2021-11-02 Siemens Aktiengesellschaft Randomized reinforcement learning for control of complex systems
CN111279276B (zh) * 2017-11-02 2024-05-31 西门子股份公司 用于控制复杂系统的随机化加强学习

Similar Documents

Publication Publication Date Title
Xiao et al. A self-adaptive kernel extreme learning machine for short-term wind speed forecasting
Liu et al. A novel hybrid methodology for short-term wind power forecasting based on adaptive neuro-fuzzy inference system
Wang et al. Bi-directional long short-term memory method based on attention mechanism and rolling update for short-term load forecasting
Tian et al. Short-term wind speed prediction based on improved PSO algorithm optimized EM-ELM
Xiao et al. An improved combination approach based on Adaboost algorithm for wind speed time series forecasting
Qiao et al. Growing echo-state network with multiple subreservoirs
Xu et al. Composite quantile regression neural network with applications
Wang et al. Effective wind power prediction using novel deep learning network: Stacked independently recurrent autoencoder
Xiao et al. A multiple hidden layers extreme learning machine method and its application
Wang et al. Improved extreme learning machine for multivariate time series online sequential prediction
CN103065191A (zh) 一种快速的神经网络学习方法
Chen Local regularization assisted orthogonal least squares regression
Du et al. Time series prediction using evolving radial basis function networks with new encoding scheme
Castellon et al. A comparative study of wind-induced dynamic response models of long-span bridges using artificial neural networks, support vector regression and buffeting theory
Lin et al. Improving the generalization performance of RBF neural networks using a linear regression technique
Tabari et al. Utility of coactive neuro-fuzzy inference system for pan evaporation modeling in comparison with multilayer perceptron
Yang et al. Design of polynomial echo state networks for time series prediction
Niu et al. Model turbine heat rate by fast learning network with tuning based on ameliorated krill herd algorithm
CN103886395A (zh) 一种基于神经网络模型的水库优化调度方法
Li et al. Deep learning nonlinear multiscale dynamic problems using Koopman operator
CN103279672B (zh) 基于噪声模型支持向量回归技术的短期风速预报方法
Wang et al. Echo state network with logistic mapping and bias dropout for time series prediction
CN104778506A (zh) 基于局部集成学习的短期风速预报方法
Xie et al. Maximum power point tracking algorithm of PV system based on irradiance estimation and multi-Kernel extreme learning machine
Wang et al. A pseudo-inverse decomposition-based self-organizing modular echo state network for time series prediction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130424