CN105469142A

CN105469142A - 一种基于样本增量驱动的神经网络增量型前馈算法

Info

Publication number: CN105469142A
Application number: CN201510778688.0A
Authority: CN
Inventors: 牛培峰; 马云鹏; 李国强; 武怀勤; 李霞
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2015-11-13
Filing date: 2015-11-13
Publication date: 2016-04-06

Abstract

一种基于样本增量驱动的神经网络增量型前馈算法，神经网络的输入权值和隐层阈值根据输入样本的特性，采用最小二乘方法计算所得，完成模型参数初始化；模型的输入权值和隐层阈值根据新样本与旧样本之间的增量进行更新，建立模型参数与输入样本之间的函数关系，实现样本自适应性和在线前馈调整的功能。本发明算法具有预测精度高、泛化能力强、可在线前馈调节等优点。

Description

一种基于样本增量驱动的神经网络增量型前馈算法

技术领域

本发明涉及在线学习神经网络领域，尤其是一种在线学习单隐层前馈神经网络的算法。

背景技术

从上个世纪八十年代至今，神经网络已经衍生出多种模型结构和学习规则，像最早提出的基于误差反传学习方式的BP神经网络、径向基神经网络、离散和连续型Hopfield神经网络、SOM神经网络等。上述各种神经网络可用于分类和回归问题，而且都取得了很好的模型效果。近年来提出的极端学习机算法成为研究热点，其属于一种单隐层前馈神经网络，单隐层前馈神经网络具有良好的非线性辨识能力，而且具有结构简单、可调参数少、学习速度快、模型精度高等优点，单隐层前馈神经网络既可用于基于数据块的离线学习模式，也可用于时间序列数据的在线学习模式，在各个领域得到广泛应用。

目前，所有的实际工程应用系统建模都是基于时间序列数据的，而且大部分的神经网络的输入权值和隐层阈值都是随机初始化产生的，产生的模型参数与实际系统的输入样本数据没有内在的规律性，这导致神经网络的预测效果和稳定性较差。因此建立一种在线学习模式神经网络具有很强的应用使用价值。

发明内容

本发明目的在于提供一种模型稳定性高、预测精度高、泛化能力强、具有前馈调节功能的基于样本增量驱动的神经网络增量型前馈算法。

为实现上述目的，采用了以下技术方案，本发明所述算法步骤如下：

步骤1，在神经网络中，选取任意时刻L₀个训练样本进行模型参数初始化；

步骤2，计算得出输入权值和隐层阈值；

步骤3，再计算得出隐层输出矩阵H₀；

步骤4，根据最小二乘法和MP广义逆法计算得出输出权值矩阵β₀；

步骤5，引入新样本X₁，计算新样本与初始训练样本的第L₀个样本之间是否有增量，如果有样本增量，根据样本增量对输入权值和隐层阈值进行更新；如果没有样本增量，则不修改输入权值和隐层阈值，不进行更新；

步骤6，计算新样本的隐层输出矩阵；

步骤7，动态更新输出权值矩阵，计算得到模型输出权值矩阵；

步骤8，判断所有样本是否测试完毕，若测试完毕，则模型建立完成，否则返回步骤5重新检测新旧样本增量继续学习；

建立模型参数与输入样本之间的函数关系，根据样本增量对优化模型的输入权值和隐层阈值进行在线前馈调节。

在步骤5中，当样本增量的秩等于0时，即样本增量为0，此时输入权值和隐层阈值不进行更新；当样本增量的秩不等于0时，输入权值和隐层阈值进行更新。

在步骤8中，当有新增样本时，需删除远端的旧样本，使输出权值只依赖于限定个数的最新数据信息。

与现有技术相比，本发明具有如下优点：

1、建立了输入权阈值和输入样本之间的函数关系，根据输入样本确定模型参数，实现模型参数的样本自适应性，即根据不同的样本，产生不同的模型。

2、本发明算法是在线学习模式，神经网络的输入权值和隐层阈值也会随着样本的序列增加，实现模型参数在线更新。相对于模型输出误差反传机制更新方式，样本增量驱动的神经网络具有前馈调节功能。

3、本发明算法提高了模型的稳定性，提高了神经网络模型的预测精度和泛化能力，满足了变工况运行时的动态优化控制要求。

附图说明

图1是本发明算法的流程图。

具体实施方式

下面结合附图对本发明做进一步说明：

如图1所示，本发明所述算法步骤如下：

步骤1，在神经网络中，选取任意时刻L₀个训练样本进行模型参数初始化；随机设置一个m×n的矩阵P，m为隐层节点个数，n为输入节点个数。计算复合矩阵

步骤2，计算得出输入权值和隐层阈值；

步骤3，再计算得出隐层输出矩阵H₀；

步骤4，根据最小二乘法和MP广义逆法计算得出输出权值矩阵β₀；设置参数k＝0，k为样本增加的序列数。

步骤5，引入新样本X₁，计算新样本与初始训练样本的第L₀个样本之间是否有增量，如果有样本增量，根据样本增量对输入权值和隐层阈值进行更新；如果没有样本增量，则不修改输入权值和隐层阈值，不进行更新；当样本增量的秩等于0时，即样本增量为0，此时输入权值和隐层阈值不进行更新；当样本增量的秩不等于0时，输入权值和隐层阈值进行更新。

步骤6，计算新样本的隐层输出矩阵；

步骤8，判断所有样本是否测试完毕，若测试完毕，则模型建立完成。否则，设置k＝k+1，返回步骤5重新检测新旧样本增量继续学习；当有新增样本时，需删除远端的旧样本，使输出权值只依赖于限定个数的最新数据信息。

详细推导过程如下：

模型参数推导：

对于任意的N个随机样本(x_i,t_i)，x_i＝[x_i1,x_i2,…,x_in]^T∈Rⁿ，n为输入层节点个数，t_i＝[t_i1,t_i2,…,t_il]^T∈R^l，输出层节点数为l个，隐藏层激励函数为g(x)，则数学模型如下所示：

Σ_{j = 1}^{m} β_{j} g_{j} (x_{i}) = Σ_{j = 1}^{m} β_{j} g (ω_{j} \times x_{i} + b_{j}) = t_{i} - - - (1)

式(1)中，(i＝1,2,…,N)，ω_j＝[ω_j1,ω_j2,…,ω_jn]^T为第j个隐层节点与输入节点之间的权值，第j个隐层节点阈值为b_j，输出层节点与第j个隐层节点的连接权值为β_j＝[β_j1,β_j2,…,β_jm]^T。上述N个方程可以简写为：

H = {[\begin{matrix} g (ω_{1} x_{1} + b_{1}) & ... & g (ω_{m} x_{1} + b_{m}) \\ . & . \\ . & . \\ . & . \\ g (ω_{1} x_{N} + b_{1}) & ... & g (ω_{m} x_{N} + b_{m}) \end{matrix}]}_{N \times m} - - - (2)

β = {[β_{1}, β_{2}, ..., β_{k}]}_{k \times m}^{T} - - - (3)

T = {[t_{1}, t_{2}, ..., t_{N}]}_{k \times N}^{T} - - - (4)

H被称作隐藏层输出矩阵，β是输出层权值矩阵，T是期望输出，k是输出层节点个数。

根据上述方程的最小范数二乘解的求法可得：

隐层输出矩阵可以作如下变形：

其中，参数和表示如下：

首先，假设隐藏层激活函数g(x)为可逆函数，则式(6)可表示为：

假设存在一个矩阵P_m×n，使得

PX＝g^-1(Tβ⁺)(10)

则由式(9)和(10)可知：

由式(11)可以通过下式分析计算得到：

根据最小二乘法的原理可以计算出：

由以上推导可以得出输出权值和隐层阈值：

上述模型参数推导过程为根据最小二乘法初始化神经网络的输入权值和隐层阈值。在输入权值和隐藏层阈值确定的过程中，虽然矩阵P是随机设定的，但是采用最小二乘法确定模型参数使随机数从(n+1)×m降到了m×n，所以在保证模型的训练精度的前提下，减小了随机数的影响。

根据模型参数推导过程，样本增量驱动的神经网络增量型前馈算法如下：

(1)初始化阶段

首先，任选L个初始化训练样本X₀，随机设置矩阵P，根据公式(13)求取复合权值矩阵：

由复合矩阵求得初始输入权值和隐层阈值，分别记作ω₀和b₀：

然后，根据公式(2)计算隐层输出矩阵H₀。

最后，计算输出权值矩阵β₀：

β_{0} = {(H_{0} H_{0}^{T})}^{- 1} H_{0}^{T} T_{0} - - - (19)

(2)序列学习阶段

该方法采用单个样本采样方式，加入新样本，根据公式(20)计算复合矩阵

令增益矩阵得到的复合矩阵如公式(21)所示。

在公式(21)的基础上，引入样本增量，即根据新样本与旧样本之间的增量调整复合矩阵，如公式(22)所示。

式中

得到的输入权值和隐层阈值分别如式(25)、(26)所示：

当样本增量Δx₁的秩等于0时，即样本增量为零，此时输入权值和隐层阈值不进行更新；相反则根据公式(22)进行更新。当样本增加到第k个时，复合矩阵、输入权值矩阵和隐层阈值计算如下所示：

根据公式(30)计算输出权值。

\begin{matrix} β_{1} = {(H_{1}^{T} H_{1})}^{- 1} H_{1}^{T} T_{1} \\ = {({[\begin{matrix} H_{0} \\ h_{L + 1} \end{matrix}]}^{T} [\begin{matrix} H_{0} \\ h_{L + 1} \end{matrix}])}^{- 1} {[\begin{matrix} H_{0} \\ h_{L + 1} \end{matrix}]}^{T} [\begin{matrix} T_{0} \\ t_{L + 1} \end{matrix}] \\ = {(H_{0}^{T} H_{0} + h_{L + 1}^{T} h_{L + 1})}^{- 1} (H_{0}^{T} T_{0} + h_{L + 1}^{T} t_{L + 1}) \\ = Q_{1}^{- 1} (Q_{0} Q_{0}^{- 1} H_{0}^{T} T_{0} + h_{L + 1}^{T} t_{L + 1}) \\ = Q_{1}^{- 1} (Q_{0} β_{0} + h_{L + 1}^{T} t_{L + 1}) \\ = Q_{1}^{- 1} ((Q_{1} - h_{L + 1}^{T} h_{L + 1}) β_{0} + h_{L + 1}^{T} t_{L + 1}) \\ = β_{0} + Q_{1}^{- 1} h_{L + 1}^{T} (t_{L + 1} - h_{L + 1} β_{0}) \end{matrix} - - - (30)

Q_{1} = H_{0}^{T} H_{0} + h_{L + 1}^{T} h_{L + 1} = Q_{0} + h_{L + 1}^{T} h_{L + 1} - - - (31)

式中为隐层输出矩阵，h_L+1为新增样本的隐层输出向量，t_L+1为新增样本的目标值。

当样本增加到第k个时，输出权值矩阵的更新公式如下所示：

β_{k + 1} = β_{k} + Q_{k + 1}^{- 1} h_{L + k + 1}^{T} (t_{L + k + 1} - h_{L + k + 1} β_{k}) - - - (32)

随着样本的增加，增益矩阵有可能趋近于零，逐渐失去修正能力，使得输出权值出现病态情况。为了防止这种情况发生，当新增样本时，删除远端的旧样本，使输出权值只依赖于限定个数的最新数据信息。

\begin{matrix} β_{2} = {(H_{2}^{T} H_{2})}^{- 1} H_{2}^{T} T_{2} \\ = Q_{2}^{- 1} (Q_{1} β_{1} - h_{1}^{T} t_{1}) \\ = Q_{2}^{- 1} [(Q_{2} + h_{1}^{T} h_{1}) β_{1} - h_{1}^{T} t_{1}] \\ = β_{1} + Q_{2}^{- 1} h_{1}^{T} (h_{1} β_{1} - t_{1}) \end{matrix} - - - (33)

H_{1} = {[\begin{matrix} h_{1}^{T} & H_{2}^{T} \end{matrix}]}^{T} - - - (34)

T_{1} = {[\begin{matrix} t_{1}^{T} & t_{2}^{T} \end{matrix}]}^{T} - - - (35)

Q_{2} = H_{2}^{T} H_{2} - - - (36)

上式中，h₁为最远端删除样本的隐层输出，t₁为最远端删除样本对应的目标输出。

当样本增加到第k个时，输出权值矩阵的更新公式如下所示：

β_{k + 2} = β_{k + 1} + Q_{k + 2}^{- 1} h^{T} ({hβ}_{k + 1} - t) - - - (37)

公式(37)中，h为最远端删除样本的隐层输出，t为最远端删除样本对应的目标输出。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于样本增量驱动的神经网络增量型前馈算法，其特征在于，所述算法步骤如下：

步骤2，计算得出输入权值和隐层阈值；

步骤3，再计算得出隐层输出矩阵H₀；

步骤6，计算新样本的隐层输出矩阵；

2.根据权利要求1所述的一种基于样本增量驱动的神经网络增量型前馈算法，其特征在于：在步骤5中，当样本增量的秩等于0时，即样本增量为0，此时输入权值和隐层阈值不进行更新；当样本增量的秩不等于0时，输入权值和隐层阈值进行更新。

3.根据权利要求1所述的一种基于样本增量驱动的神经网络增量型前馈算法，其特征在于：在步骤8中，当有新增样本时，需删除远端的旧样本，使输出权值只依赖于限定个数的最新数据信息。