CN103065191A

CN103065191A - 一种快速的神经网络学习方法

Info

Publication number: CN103065191A
Application number: CN2011103192175A
Authority: CN
Inventors: 邓万宇; 陈琳
Original assignee: Xi'an Post & Telecommunication College
Current assignee: Xi'an Post & Telecommunication College; Xian University of Posts and Telecommunications
Priority date: 2011-10-19
Filing date: 2011-10-19
Publication date: 2013-04-24

Abstract

本发明属于人工智能领域，涉及风险最小化与加权最小二乘理论，公开了一种神经网络的正则快速学习方法(Regularized Extreme Learning Machine，RELM)。它包括：(1)修正代价函数：权衡经验风险和结构风险，并通过参数调节两种风险的比例，最终取得两种风险的最佳折中；(2)修正模型训练：为了降低离群点对模型的干扰，获得一个抗干扰模型，采用对不同样本进行误差加权的方式；(3)输出权计算：首先利用无权模型训练输出权的初始值；采用极速学习机技术得到单隐藏层神经网络模型的各个连接权值以及隐藏层阈值；最终得到加权模型的输出权值。

Description

一种快速的神经网络学习方法

一、技术领域

本发明属于人工智能领域，涉及风险最小化与加权最小二乘理论，公开了一种基于极速神经网络模型的正则快速学习方法(Regularized Extreme LearningMachine，RELM)。

二、背景技术

单隐藏层前馈神经网络(SLFN：Single-hidden Layer Feedforward NeuralNetwork)之所以能够在很多领域得到广泛应用，是因为它有很多优点：(1)具有很强的学习能力，能够逼近复杂非线性函数；(2)能够解决传统参数方法无法解决的问题。但另一方面缺乏快速学习方法，也使其很多时候无法满足实际需要。

对于SLFN的学习能力，很多文献分别从紧集(compact input sets)和有限集(infinite input sets)两种输入情况进行了深入研究。Hornik研究表明：如果激励函数连续、有界且不是常量函数，那么SLFN能够在紧集情况下逼近任何连续函数[1]；Leshno在Hornik基础的进一步研究表明：使用非多项式激励函数的SLFN能够逼近任何连续函数[2]。在实际应用中，神经网络的输入往往是有限集，对于有限集情况下SLFN的学习能力，Huang和Babri的进行了研究，结果表明：对于含有N个不同实例的有限集，一个具有非线性激励函数的SLFN最多只需N个隐藏层结点，就可以无误差的逼近这N个实例[3][4]。这就是说，一个具有N个隐藏层结点的SLFN，即使输入权值随机取值，它也能够准确拟合N个不同的实例，更明确的讲就是：SLFN的学习能力只和隐藏层结点的数目有关，而和输入层的权值无关。虽然这一点对于提出一种新的学习算法很有启发，但并未引起研究者的注意，迭代调整的思想一直坚持到现在，很多算法都只是围绕这一思想进行技巧性的改进。不同于传统的学习方法，Huang基于以上研究结论为SLFN提出了一种称为极速学习机(Extreme Learning Machine，ELM)的学习方法[5]：设置合适的隐藏层结点数，为输入权和隐藏层偏差进行随机赋值，然后输出层权值然通过最小二乘法得到。整个过程一次完成，无需迭代，与BP相比速度显著提高(通常10倍以上)。

但是ELM基于经验风险最小化原理，这可能会导致过度拟合问题[6]。此外因为ELM不考虑误差的权重，当数据集中存在离群点时，它的性能将会受到严重影响[7]。为了克服这些缺点，我们结合结构风险最小化理论以及加权最小二乘方法对ELM算法进行改进，使得ELM在保持“快速”这一优势的前提下，泛化性能得到进一步的提高。

三、发明内容

本发明的目的在于克服上述现有技术的不足，借鉴ELM的一次学习思想并基于结构风险最小化理论提出一种快速学习方法(RELM)，避免了多次迭代和局部最小值，具有良好的泛化性、鲁棒性与可控性。包括以下几方面内容：

(1)修正代价函数

根据Huang为SLFN提出的一种称为极速学习机(Extreme LearningMachine，ELM)的学习方法[5]，并结合统计学理论可知，实际风险包括经验风险和结构风险两种成分[8]。因此一个具有较好泛化性能的模型应该能权衡这两种风险，并取得最佳的折中。RELM将同时考虑这两种风险因素，并通过参数γ调节两种风险的比例。RELM的修正后的代价函数表示为：

\underset{β}{\arg \min} E (W) = \underset{β}{\arg \min} (\frac{1}{2} {| | β | |}^{2} + \frac{1}{2} γ {| | ϵ | |}^{2})

s . t . Σ_{i = 1}^{\tilde{N}} β_{i} g (a_{i} \cdot x_{j} + b_{i}) - t_{j} = ϵ_{j}, j = 1, . . ., N

其中，误差的平方和||ε||²代表经验风险；||β||²代表结构风险，它源于统计理论中边缘距离最大化原理[13，14]；而γ则是两种风险的比例参数，通过交叉验证的方式确定γ来获得两种风险的最佳折中点。

(2)修正模型训练

当数据集中存在离群点时，ELM模型性能将会受到很大影响，鲁棒性较差。为了获得一个抗干扰模型，我们为不同样本的误差进行加权，||ε||²被扩展为||Dε||²。其中D＝diag(v₁，v₂，...，v_N)表示误差的权值对角阵。RELM的模型进一步修正为：

\underset{β}{\arg \min} (\frac{1}{2} {| | β | |}^{2} + \frac{1}{2} γ {| | Dϵ | |}^{2})

s . t . Σ_{i = 1}^{\tilde{N}} β_{i} g (a_{i} \cdot x_{j} + b_{i}) - t_{j} = ϵ_{j}, j = 1, . . ., N

加权RELM需要计算误差的权值，权值计算已有很多论述[7，11]，这里采用[16]提到的方法：

d_{j} = \{\begin{matrix} 1 & | ϵ_{j} / \hat{s} | \leq c_{1} \\ \frac{c_{2} - | ϵ_{j} / \hat{s} |}{c_{2} - c_{1}} & c_{1} \leq | ϵ_{j} / \hat{s} | \leq c_{2} \\ 10^{- 4} & otherwise \end{matrix}

其中

它是无权RELM计算得到的样本误差，

是误差ε_j的标准偏差(standard deviation)估计，可通过公式

计算。MAD(medianabsolute deviation)表示绝对中位差。根据高斯分布可知：基本不存在大于

的误差，因此常量c₁和c₂通常被置为c₁＝2.5，c₂＝3[7]。

(3)输出权计算：

首先利用无权模型训练输出权的初始值；采用极速学习机技术得到单隐藏层神经网络模型的各个连接权值以及隐藏层阈值；最终得到加权模型的输出权值。RELM与ELM相比，方程组的解是Hβ＝T的一个加权最小二乘解：

这个解不但可以达到最小的训练误差，同时对离群点具有一定的抗干扰能力。

四、附图说明

图1单隐藏层神经网络模型；

图2加入离群点前后“SinC”曲线拟合效果比较：ELM拟合曲线(无离群点)；

图3加入离群点前后“SinC”曲线拟合效果比较：RELM拟合曲线(无离群点)；

图4加入离群点前后“SinC”曲线拟合效果比较：ELM拟合曲线(有离群点)；

图5加入离群点前后“SinC”曲线拟合效果比较：RELM拟合曲线(有离群点)；

图6RELM的性能随γ变化的曲线；

五、具体实施方式

为了更清楚的理解本发明，下面结合附图和具体实施方式对本发明的内容作进一步详细说明。

1、RELM模型建立：

(1)SLFN的统一模型：

对于N个不同样本(x_i，t_i)，其中x_i＝[x_i1，x_i2，...，x_in]^T∈Rⁿ，t_i＝[t_i1，t_i2，...，t_im]^T∈R^m，一个隐藏层结点数目为

激励函数为g(x)的SLFN的统一模型(如图1)为：

Σ_{i = 1}^{\tilde{N}} β_{i} g_{i} (x_{j}) = Σ_{i = 1}^{\tilde{N}} β_{i} g (a_{i} \cdot x_{j} + b_{i}) = t_{j}, j = 1, . . ., N - - - (1)

其中a_i＝[a_i1，a_i2，...，a_in]^T是连接第i个隐藏层结点的输入权值；b_i是i个隐藏层结点的偏差(bias)；β_i＝[β_i1，β_i2，...，β_im]^T是连接i个隐藏层结点的输出权值；a_i·x_j表示a_i和x_j的内积。激励函数g(x)可以是“Sigmoid”、“Sine”或“RBF”等。

上述N个方程的矩阵形式可写为：

Hβ＝T，其中

H (a_{1}, . . ., a_{\tilde{N}}, b_{1}, . . ., b_{\tilde{N}}, x_{1}, . . ., x_{N}) = {[\begin{matrix} g (a_{1} \cdot x_{1} + b_{1}) & . . . & g (a_{\tilde{N}} \cdot x_{1} + b_{\tilde{N}}) \\ . & . \\ . & . . . & . \\ . & . \\ g (a_{1} \cdot x_{N} + b_{1}) & . . . & g (a_{\tilde{N}} \cdot x_{N} + b_{\tilde{N}}) \end{matrix}]}_{N \times \tilde{N}},

β = {[\begin{matrix} β_{1}^{T} \\ . \\ . \\ . \\ β_{\tilde{N}}^{T} \end{matrix}]}_{\tilde{N} \times m},

T = {[\begin{matrix} t_{1}^{T} \\ . \\ . \\ . \\ t_{N}^{T} \end{matrix}]}_{N \times m}

E(w)表示期望值和实际值之间的误差平方和，问题求解就是寻找最优的权值w＝(a，b，β)使代价函数E(W)最小，其数学模型可表示为：

\underset{W = (a, b, β)}{\arg \min} E (W) = \underset{W = (a, b, β)}{\arg \min} {| | ϵ | |}^{2}

s . t . Σ_{i = 1}^{\tilde{N}} β_{i} g (a_{i} \cdot x_{j} + b_{i}) - t_{j} = ϵ_{j}, j = 1, . . ., N - - - (2)

其中ε_j＝[ε_j1，ε_j2，...，ε_jm]是第j个样本的误差。

为了方便讨论，在后文中将以一维输出(m＝1)为例进行研究，但所得结论仍适用于多维情况。

(2)BP

由Rumelhart和McClelland提出的BP神经网络模型是目前应用最广泛的模型之一[8]，BP训练方法是通过反向误差传播原理不断调整网络权值使得实际输出与期望输出之间的误差平方和达到最小或小于某个阈值。当H未知时，通常采用梯度下降法迭代调整w：

W_{k} = W_{k - 1} - η \frac{&PartialD; E (W)}{&PartialD; W}

其中η代表学习速率。

基于梯度下降法的BP存在以下缺点：

训练速度慢。因为需要多次的迭代，所以时间消耗很长。

参数选择很敏感，必须选取合适的η与w初值，才能取得理想的结果。若η太小，算法收敛很慢，而η太大，算法不太稳定甚至不再收敛；

局部最小值。由于E(W)非凸，因此在下降过程中可能会陷入局部最小点，无法达到全局最小[9]；

过渡拟合。在有限样本上训练时，仅以训练误差最小为目标的训练可能导致过渡拟合。

(3)ELM

为了解决以上问题，Huang基于以下定理为SLFN提出了ELM学习算法。

定理1.[5]对于任意N个不同样本(x_i，t_i)，其中x_i＝[x_i1，x_i2，...，x_in]^T∈Rⁿ，t_i＝[t_i1，t_i2，...，t_im]^T∈R^m，N个隐藏层结点和一个任意区间无限可导的激活函数g：R→R，则SLFN在a_i∈Rⁿ和b_i∈R任意赋值的情况下，所形成的隐藏层矩阵H可逆，即方程组有精确解，代价函数E(W)＝0。

定理2.[5]给定任意N个不同样本(x_i，t_i)，任意小误差e＞0，及在任意区间无限可导的激活函数g：R→R，总存在一个包含

个隐藏层结点的SLFN，使得在a_i∈Rⁿ和b_i∈R任意取值情况下，误差E(W)≤e。

定理1和定理2的详细证明可参考文献[4，5，10]。定理表明：只要隐含层结点数足够多，SLFN就能在输入权随机赋值情况下逼近任何连续函数。但为了使SLFN具有良好的泛化性能，通常

当输入权以随机赋值的方式确定后，所得隐藏层矩阵H便是一个确定的矩阵，因此训练SLFN就转化为计算Hβ＝T的最小二乘解问题。关于ELM的细节请参考[5]。

与BP相比ELM需要调整的参数只有隐含层结点个数

目前虽没有精确估计

的方法，但大大缩小了搜索范围，在实际应用中可以通过交叉验证的方式的确定。在标准UCI数据集上的大量实验表明ELM训练速度快，泛化性能良好，但ELM仍有一些缺点：

ELM仅考虑经验风险，没有考虑到结构化风险，因此可能导致过度拟合问题；

ELM直接计算最小二乘解，用户无法根据数据集的特征进行微调，可控性差；

当数据集中存在离群点时，模型性能将会受到很大影响，鲁棒性较差。

为了克服这些缺点，我们把结构风险最小化理论以及加权最小二乘方法引入到ELM中，提出一种正则极速学习机(Regularized Extreme Learning Machine，RELM)。

(4)RELM

根据统计学理论可知，实际风险包括经验风险和结构风险两种成分[8]。一个具有较好泛化性能的模型应该能权衡这两种风险，并取得最佳的折中。RELM将同时考虑这两种风险因素，并通过参数γ调节两种风险的比例，RELM的数学模型可表示为：

\underset{β}{\arg \min} E (W) = \underset{β}{\arg \min} (\frac{1}{2} {| | β | |}^{2} + \frac{1}{2} γ {| | ϵ | |}^{2})

s . t . Σ_{i = 1}^{\tilde{N}} β_{i} g (a_{i} \cdot x_{j} + b_{i}) - t_{j} = ϵ_{j}, j = 1, . . ., N

为了获得一个抗干扰模型，我们为不同样本的误差进行加权，||ε||²被扩展为||Dε||²。其中D＝diag(v₁，v₂，...，v_N)表示误差的权值对角阵。RELM的模型进一步修正为：

\underset{β}{\arg \min} (\frac{1}{2} {| | β | |}^{2} + \frac{1}{2} γ {| | Dϵ | |}^{2})

s . t . Σ_{i = 1}^{\tilde{N}} β_{i} g (a_{i} \cdot x_{j} + b_{i}) - t_{j} = ϵ_{j}, j = 1, . . ., N

上式是条件极值问题，通过拉格朗日方程转换为无条件极值问题进行求解：

l (β, ϵ, α) = \frac{γ}{2} {| | Dϵ | |}^{2} + \frac{1}{2} {| | β | |}^{2} - Σ_{j = 1}^{N} α_{j} (g (a_{i} \cdot x_{j} + b_{i}) - t_{j} - ϵ_{j})

(4)

= \frac{γ}{2} {| | Dϵ | |}^{2} + \frac{1}{2} {| | β | |}^{2} - α (Hβ - T - ϵ)

其中α＝[α₁，α₂，...，α_N]；α_j∈R^m(j＝1，2，...，N)代表拉格朗日乘子。

求拉格朗日方程的梯度并令其为0：

把方程③代入方程②得：α＝-γ(Hβ-T)^TD² (6)

把(6)代入方程①得：

表达式(7)只含有一个

矩阵的逆操作，所以计算β的速度非常快。

2、权值计算方法：

(1)无权RELM

在实际应用中，如果数据集中离群点很少，对模型没有太大影响，那么为了加快训练速度，可以认为每个样本的误差权值相同，此时矩阵D＝diag(v₁，v₂，...，v_N)将是一个单位阵，无须计算。我们称这种情况的RELM为无权RELM，无权RELM算法可归结为：

通过观察不难看出，RELM与ELM计算量基本一样。其实ELM是未加权RELM得一种特殊情况：

定理3：当γ→∞时，未加权RELM将退化为ELM。

证明：若γ→∞，则

因此有：

证毕。

(2)加权RELM

与无权RELM相反，如果数据含有离群点，那么使用加权RELM有一定的抗干扰能力，这可以从后面“SinC”数据集离群点加入前后的实验对比中看出。加权RELM需要计算误差的权值，权值计算已有很多论述[7，11]，这里采用[16]提到的方法：

d_{j} = \{\begin{matrix} 1 & | ϵ_{j} / \hat{s} | \leq c_{1} \\ \frac{c_{2} - | ϵ_{j} / \hat{s} |}{c_{2} - c_{1}} & c_{1} \leq | ϵ_{j} / \hat{s} | \leq c_{2} \\ 10^{- 4} & otherwise \end{matrix}

其中

它是无权RELM计算得到的样本误差，

是误差ε_j的标准偏差(standard deviation)估计，可通过公式

的误差，因此常量c₁和c₂通常被置为c₁＝2.5，c₂＝3[7]。

综上所述，RELM算法可归结为：

加权RELM多了计算权值的过程，时间消耗有所延长，因此如果实际应用中对训练时间要求很强，那么用无权RELM比较合适。在下面的实验中，除为了验证RELM的鲁棒性在“SinC”数据集上采用加权RELM和ELM进行比较外，其他数据集的实验一律采用无权RELM和ELM进行比较。

RELM与ELM相比，具有如下特点：

方程组的解是Hβ＝T的一个加权最小二乘解：

通过引入调节参数γ，代价函数不仅包括经验风险，还包括结构风险，这使得方程组的解不仅获得尽可能小的训练误差，而且能使边缘距离最大化，从而具有更好的泛化性能：

实施例

这里通过实验的方式比较RELM、ELM、BP和支持向量机(Support VectorMachine，SVM)[13，14]的性能。RELM、ELM和BP的执行环境是Matlab7.0，SVM的执行环境是C语言。RELM由我们自己实现，ELM的源代码可以从Huang的个人主页直接下载1，而BP算法已经集成在Matlab自带的神经网络工具箱中，可以直接使用。BP算法有很多变种，我们选择最快的Levenberg-Marquardt算法来进行实验。SVM算法我们采用C语言实现的SVM包：LibSVM2。RELM、ELM和BP的激励函数都选择“Sigmoid”函数：g(x)＝1/(1+exp(-x))，而SVM的核函数选择径向基函数。实验数据的输入一律归一化到[0，1]范围内，而输出则归一化到[-1，1]范围内。

值得指出的是，这里汇总的实验结果都是每种算法能够达到的最优实验结果。对于SVM，我们采用Hsu和Lin提出的排列组合方式[12]选择最优的参数γ和C：γ＝[2⁴，2³，...，2^-10]，C＝[2¹²，2¹¹，...，2^-2]。共有15*15＝225种组合，对每一种组合(γ，C)，进行50次随机实验，并对最佳平均值进行汇总。对于RELM，我们采用类似于SVM的方式选择最优的参数γ和隐藏层结点数

γ＝[2^-50，2^-49，...，2⁵⁰]，

(

根据具体数据集设定)。对于所产生每个组合

进行50次随机实验，并对最佳平均值进行汇总。对于ELM和BP，隐藏层结点的个数初始取5，每次递增5，并基于5-折交叉验证的方法选择最优(接近)的数目，然后进行50次实验并将最佳平均结果进行汇总。

实验一：回归问题：加入离群点前后“SinC”曲线拟合效果比较

“SinC”函数表达式：

y (x) = \{\begin{matrix} \sin x / x, & x &NotEqual; 0 \\ 1 & x = 0 \end{matrix}

数据产生方法：在区间(-10，10)内随机产生5000个训练样本和测试样本，并在所有训练样本上附加取值范围为[-0.2，0.2]的随机噪声，而测试数据无噪声。各种算法的性能见表1。从表6-1可以看出RELM的RMSE(root mean square

¹ ELM Source Codes：http://www.ntu.edu sg/home/egbhuang/.

² SVM Source Codes：http://www.csie.ntu.edu.tw/～cjlin/libsvm/.

error，均方根误差)比ELM小，分别为0.0078和0.0097；不过RELM训练时间比ELM稍长；RELM的RMSE明显比BP算法和SVM算法要小，而训练时间确比BP和SVM缩短了上百倍。由此可见在“SinC”数据集上，RELM综合性能最好。

表1四种算法在“SinC”数据集上的性能比较

Tab.1.Performance comparison for learning noise free function：SinC

为了比较RELM和ELM算法的鲁棒性，“SinC”训练集中加入了一些离群点后进行重新实验。实验结果见图2--图5，从图中可以看出ELM的预测曲线明显脱离实际曲线，说明其受到离群点的干扰很大。而RELM的预测曲线仍能完好的拟合实际曲线，说明RELM具有一定的抗干扰能力。

实验二：实际回归问题

我们在13种真实数据集3上将RELM与ELM、BP、SVM进行比较，数据集信息见表2。四种算法的RMSE见表3。从表3可以看出，RELM在大多数据集上的测试RMSE比ELM，BP，SVM小，说明其有更好的泛化性能(如果两种算法的RMSE相差大于0.005时，较好的RMSE加粗表示)；表4汇总了四种算法的时间消耗，从表4可以看出RELM的训练速度和ELM相差无几，却比BP和SVM快很多倍。但是由于BP具有最紧凑网络结构(隐藏层结点数最少)，在四种算法中BP测试时间最短；表5汇总了四种算法的标准偏差。

³ http://www.niaad.liacc.up.pt/～ltorgo/Regression/ds_menu.html.

表2：回归数据集信息

Tab.6-2.Specification of real-world regression cases

表3四种不同算法的均方差(RMSE)比较

Tab.6-3.Comparison of training RMSE and testing RMSE of BP，SVM，ELM and RELM

表4四种不同算法的时间比较，单位：秒(s)

Tab.6-4.Comparison of training and testing time of BP，SVM，ELM and RELM

实验三：RELM的性能随γ变化的曲线

前面提到当γ→∞时，RELM将退化为ELM。为了说明这一点，我们以数据集“Triazines”为例展示RELM的性能(RMSE)随γ变化情况。如图6所示，可以看出RELM的性能首先随着γ的增大不断提高(越小越好)，当γ＝2^-2时，RELM的性能达到最好，比ELM提高了0.05。之后，随着γ的增大，RELM的性能不断降低，并逐渐与ELM的性能曲线重叠在一起，这说明当γ→∞时，RELM退化为ELM，由此可见RELM的精度至少能与ELM相当。

表5四种不同算法的标准偏差(standard deviations)比较

Tab.6-5.Comparison of standard deviations of BP，SVM，ELM and RELM

Claims

1.一种快速的神经网络学习方法，其特征在于：修正代价函数

Huang为SLFN提出了一种称为极速学习机(Extreme Learning Machine，ELM)的学习方法：设置合适的隐藏层结点数，为输入权和隐藏层偏差进行随机赋值，然后输出层权值然通过最小二乘法得到。整个过程一次完成，无需迭代，与BP相比速度显著提高(通常10倍以上)。但是ELM仅考虑经验风险，没有考虑到结构化风险，因此可能导致过度拟合问题。

根据统计学理论，实际风险包括经验风险和结构风险两种成分。一个具有较好泛化性能的模型应该能权衡这两种风险，并取得最佳的折中。

本专利RELM将同时考虑这两种风险因素，并通过参数γ调节两种风险的比例，RELM的数学模型可表示为：