CN103926832A

CN103926832A - 一种神经网络跟踪控制的自适应学习率调节方法

Info

Publication number: CN103926832A
Application number: CN201410158182.5A
Authority: CN
Inventors: 袁赣南; 杜雪; 吴迪; 夏庚磊; 常帅; 李旺; 贾韧锋; 张靖靖
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2014-04-18
Filing date: 2014-04-18
Publication date: 2014-07-16

Abstract

本发明一种神经网络跟踪控制的自适应学习率调节方法，包括以下几个步骤：建立控制系统；将神经网络的所有权值按层进行单位化；引入训练样本集得到误差信号e(n)和训练代价函数ε(n)；得到线性化后的活化函数s(x)；确定各神经元的诱导局部域及神经元输出；求解各个局部梯度函数δ_j(n)及线性化表示δ_jL(n)；选择的自适应调整学习率；训练神经元突触权值；循环次数加1，直至满足停止准则，输出跟踪控制信号。本发明提出一种能够使步长迭代均值不受噪声影响，具有平滑迭代曲线，并可充分利用误差信号的一种基于活化函数及多误差信号的学习率自适应调节方法，从而可实时更新学习率，且减小计算复杂度。

Description

一种神经网络跟踪控制的自适应学习率调节方法

技术领域

本发明涉及神经网络优化技术领域，特别涉及一种神经网络跟踪控制的自适应学习率调节方法。

背景技术

人工神经网络是由人工神经元互联而成的网络系统，它从微观结构和功能上对人脑进行了抽象和简化，可以看作是一个由简单处理单元构成的规模宏大的高度并行处理器，天然具有存储经验知识和使之可用的特性。神经网络与人脑的相似处在于，神经网络所获取的知识是从外界环境学习而来，同时相互连接的神经元间的连接权值用于存储获得的知识。在处理计算上，虽然每个处理单元的功能看似简单，但大量简单处理单元的并行活动使网络在保证较快速度的前提下呈现出丰富的功能，加之神经网络的自适应能力为解决复杂的非线性、不确定、不确知系统的问题开辟了新途径，所以目前人工神经网络已受到非线性系统辨识与分析、控制系统和计算机等许多领域的青睐，并得到广泛应用。在神经网络的研究中，作为前向多层神经网络训练方法的BP算法应用最为广泛，但其还存在一些缺陷，例如：①计算量大，尤其是复杂问题和涉及到大规模网络时，其计算量急剧上升；②没有知识的积累性。因此人们针对这类问题提出了各种改进方案，其中合理选择修改权重的学习率是一种研究趋势。

由于神经网络在控制中具有静态非线性映射以及动态处理的优势，使其在许多具有非线性、强耦合的复杂系统中也逐步被采纳。以往对神经网络控制的改进多注重反向学习方式和网络结构，而权值学习率依旧采用固定值(Invariable Step Size，ISS)目前国内外学者就神经网络的权值学习率选择已先后提出一些方法，例如潘昊等学者提出的《前向多层神经网络的步长搜索调整研究》中采用函数变步长搜索调整法就是BP网络学习率调整的代表方法，此类相关的方法至今在BP训练中所沿用。而这种学习率只与迭代次数有关，不能有效地与样本进行结合。同时这类方法是基于试探法的思想，无论当前学习率好坏都会将权值修改一遍，所以会以网络层数为单位成倍地增加计算量，尤其在多层BP网络中会给原有的权值训练带来成倍的计算冗余。而LMS问题的最陡下降法是BP学习算法的一种特殊形式，当训练样本只有一个且激励函数为线性时，其等效于LMS问题中的随机逼近法。在LMS变步长研究方面国内外学者也获得了一定的成果，其中Aboulnasr等学者提出的Aboulnasr算法是具有代表性的一类利用误差信号进行迭代的LMS方法，在该方法中，步长由平滑后的相邻时刻误差的互相关函数控制，从而步长迭代的均值不受噪声的影响，其迭代曲线将更加平滑，但这类方法的迭代过程具有一定复杂性，同时对于误差信号的利用也仅限于瞬时误差及其前一时刻的误差。

发明内容

本发明的目的是提供一种具有高跟踪效果的神经网络跟踪控制的自适应学习率调节方法。

本发明是通过以下技术方案实现的：

一种神经网络跟踪控制的自适应学习率调节方法，包括以下几个步骤，

步骤一：建立控制系统，神经网络采用MISO的多层反馈网结构，各神经元函数为活化函数，设置循环停止准则；

神经网络的状态空间的权值空间W_k和网络输出Z_k为：

\{\begin{matrix} W_{k} = W_{k - 1} + φ_{k} \\ Z_{k} = ψ (W_{k}, U_{k}) \end{matrix}

其中U_k为网络输入，φ_k为权值更新函数，ψ(W_k,U_k)为参数化的非线性函数，小波网络的权值空间为W_k，将权值空间中的每个权值生成[-1,1]区间上均匀分布的随机数；

步骤二：将神经网络的所有权值按层进行单位化；

步骤三：引入训练样本集{x(n),norm(n)}，依次输入向量x(1)，x(2)……x(n)，并记录网络输出z(1)，z(2)……z(n)，得到误差信号e(n)和训练代价函数ε(n)：

e(n)＝norm(n)-z(n)

ϵ (n) = \frac{1}{2} e^{2} (n);

步骤四：得到线性化后的活化函数s(v(n))：

s (v (n)) = \{\begin{matrix} a, & v (n) > θ_{1} \\ c (m) v (n) + d (m), & θ_{2} < v (n) < θ_{1}, m = 1 m 2 . . . M \\ b, & v (θ) < θ_{2} \end{matrix}

M＝λ(θ₁+θ₂),M为奇数

s(v(n))分为上下饱和边界和线性拟合区域，其中M为奇数以保证(0,0)或(0,y₀)不在分割界上，a和b分别为函数的上下饱和边界，θ₁和θ₂分别为饱和边界的阈值，c(m)和d(m)为线性区域系数，λ为常值系数；

步骤五：确定各神经元的诱导局部域及神经元输出，诱导局部域和神经元j的输出信号分别为：

v_{j} (n) = Σ_{i = 1}^{I} w_{ij} z_{i} (n) = Z_{i}^{T} (n) W_{ij} (n)

其中v_j(n)为诱导局部域，w_ij为权值，z_i(n)为上层神经元输出，W_ij和Z_i(n)分别为w_ij和z_i(n)构成的向量，I为上层神经元总数，为j层的活化函数；

步骤六：求解各个局部梯度函数δ_j(n)及线性化表示δ_jL(n)；

步骤七：选择自适应调整学习率为：

μ(n+1)＝αμ(n)+γ[(1-β)+e(n)e(n-1)+βe(n-1)e(n-2)+...+β^ν-1e(n-ν+1)e(n-ν)]

其中0＜α＜1，0＜β＜1，γ＞0，同时学习率满足条件：

μ (n + 1) = \{\begin{matrix} μ_{\max} & μ > μ_{\max} \\ g (μ (n), e (n), e (n - 1), . . ., e (n - v)) & μ_{\min} < μ < μ_{\max} \\ μ_{\min} & μ < μ_{\min} \end{matrix};

步骤八：训练神经元突触权值；突触权值的调整过程中采用局部梯度δ_j(n)，具体描述如下：

w_ij(n+1)＝w_ij(n)+Δw_ij(n)

Δw_ij(n)＝μ(n)δ_j(n)z_i(n)；

步骤九：循环次数加1，返回步骤五，直至满足停止准则，输出跟踪控制信号；

步骤十：将控制信号输入执行机构并与系统进行计算融合，输出被控参数值，并与预期量进行比较，完成闭环反馈控制过程。

本发明的有益效果：

本发明能够使步长迭代均值不受噪声影响，具有平滑迭代曲线，并可充分利用误差信号，从而可实时更新学习率，且减小计算复杂度。与传统算法相比，能够有效地提高学习效率，减小网络输出振荡幅度，加快算法收敛速度，同时摆脱了原有学习率调节方法带来的冗余困扰，提高控制系统跟踪效率。

附图说明

附图1：自适应学习率的神经网络结构图

附图2：神经网络自适应训练流程图

附图3：复杂系统的神经网络跟踪控制原理图

附图4：神经元j的输入信号流图

附图5-a：非线性函数1的跟踪控制拟合曲线

附图5-b：非线性函数1的跟踪控制误差信号

附图6-a：非线性函数2的跟踪控制拟合曲线

附图6-b：非线性函数2的跟踪控制误差信号

具体实施方式

下面将结合附图对本发明进行详细说明。

本发明提出一种自适应学习率调节方法，建立一种基于活化函数及多误差信号的学习率自适应调节方法。该方法的具体实施包括用建立控制模型及神经网络模型，线性化sigmoid函数，建立学习率函数模型等关键内容。本发明所述的学习率自适应调节方法在神经网络在线学习平台中进行，图1所示是神经网络中实现的反向传播学习与学习率调节的系统结构图。下面将按照流程详述本发明提出的技术方案的具体实施，流程如图2所示。该实施方式主要包含以下几个关键内容：

步骤1建立控制系统模型，如附图3所示，令神经网络采用MISO的多层反馈网结构，各神经元函数为活化函数，如sigmoid函数、logistic函数等，设置循环停止准则。BP网络的状态空间模型可表述为：

\{\begin{matrix} W_{k} = W_{k - 1} + φ_{k} \\ Z_{k} = ψ (W_{k}, U_{k}) \end{matrix}

其中W_k为权值空间，U_k为网络输入，Z_k为网络输出，φ_k为权值更新函数，ψ(W_k,U_k)为参数化的非线性函数。令小波网络的权值空间为W_k，将权值空间中的每个权值生成[-1,1]区间上均匀分布的随机数。

步骤2在步骤1的基础上，取[-1,1]区间上均匀分布的随机数为权值初始值，并将BP网络的所有权值按层进行单位化。例如设W_MN为由w_mn(m＝1...M；n＝1...N)组成的第M层至第N层间的权值矩阵，则单位化后的权值矩阵W_MN为：

W_{MN} = \frac{W_{MN}}{\sqrt{Σ_{m = 1}^{M} Σ_{n = 1}^{N} w_{mn}^{2}}}

步骤3引入训练样本集{x(n),norm(n)}。依次输入向量x(1)，x(2)……x(n)，并记录网络输出z(1)，z(2)……z(n)。求解误差信号e(n)和训练代价函数ε(n)：

e(n)＝norm(n)-z(n)

ϵ (n) = \frac{1}{2} e^{2} (n)

步骤4活化函数线性化过程。本文分别采用sigmoid函数和logistic函数作为活化函数，由于其具有连续可微性，可进行线性拟合，同时这些函数具有饱和特性，而且分别以(0,0)和(0,y₀)为中心，因此其线性描述为：

s (v (n)) = \{\begin{matrix} a, & v (n) > θ_{1} \\ c (m) v (n) + d (m), & θ_{2} < v (n) < θ_{1}, m = 1 m 2 . . . M \\ b, & v (θ) < θ_{2} \end{matrix}

M＝λ(θ₁+θ₂),M为奇数

s(x)为线性化后的活化函数，由上式可知，活化函数被分成三个部分，上下饱和边界和线性拟合区域，其中拟合区域还将分割成M个线性子区域，要求M为奇数以保证(0,0)或(0,y₀)不在分割界上。a和b分别为函数的上下饱和边界，θ₁和θ₂分别为饱和边界的阈值，c(m)和d(m)为线性区域系数，λ为常值系数。

步骤5求解各神经元的诱导局部域及神经元输出，其中输入层的诱导局部域为输入向量本身，同时输入神经元不含活化函数。图4描述了第n次迭代时，除输入层外的神经元j的输入信号流图，其诱导局部域的函数信号来自于其上层神经元输出及输出与神经元j之间的权值向量：

v_{j} (n) = Σ_{i = 1}^{I} w_{ij} z_{i} (n) = Z_{i}^{T} (n) W_{ij} (n)

神经元j的输出信号为：

其中v_j(n)为诱导局部域，w_ij为权值，z_i(n)为上层神经元输出，W_ij和Z_i(n)分别为w_ij和z_i(n)构成的向量，I为上层神经元总数，为j层的活化函数。

步骤6求解各个局部梯度函数δ_j(n)。局部梯度δ_j(n)可表示为：

经步骤4的活化函数线性化后，函数δ_jL(n)的线性化表示为：

步骤7自适应调整学习率。在步骤4—6基础上，网络中的权值更新过程如下式：

其中c和均为常数，z_i为神经元j的输入信号，e(n)为误差信号，而LMS算法的权系数更新公式为：

w(n+1)＝w(n)+μx(n)e(n)

结合LMS的应用原理可知，线性化后的神经网络权值调整与LMS权系数具有近似相同的结构，LMS算法只是BP网络的特殊形式。为提高误差信号的利用率，采用如下方案自适应调整学习率：

μ(n+1)＝g(μ(n),e(n),e(n-1),e(n-ν))其中

＝αμ(n)+γ[(1-β)+e(n)e(n-1)+βe(n-1)e(n-2)+...+β^ν-1e(n-ν+1)e(n-ν)]

0＜α＜1，0＜β＜1，γ＞0，且γ通常较小，β趋近于1。为了保证μ(n+1)的有效性，本发明对其加以阈值的限制：

μ (n + 1) = \{\begin{matrix} μ_{\max} & μ > μ_{\max} \\ g (μ (n), e (n), e (n - 1), . . ., e (n - v)) & μ_{\min} < μ < μ_{\max} \\ μ_{\min} & μ < μ_{\min} \end{matrix}

步骤8神经元突触权值的训练过程。突触权值的调整过程中引入步骤7的μ(n)自适应学习率，但为保持活化函数原有的优势，其局部梯度采用δ_j(n)，具体描述如下：

w_ij(n+1)＝w_ij(n)+Δw_ij(n)

Δw_ij(n)＝μ(n)δ_j(n)z_i(n)

步骤9循环次数加1，返回步骤5，直至满足停止准则，输出跟踪控制信号。

步骤10将控制信号输入执行机构并与系统进行计算融合，在一定的外界干扰条件下，输出被控参数值，并与预期量进行比较，完成闭环反馈控制的一个过程。如附图5和6所示，网络分别对非线性函数norm＝a₁sin(b₁πn)+c₁log_dn和norm＝a₂cos(b₂πn)+c₂n进行拟合训练，分别采用Aboulnasr算法与本发明的MEVSS算法以及固定学习率进行对比仿真验证。

Claims

1.一种神经网络跟踪控制的自适应学习率调节方法，其特征在于：包括以下几个步骤，

神经网络的状态空间的权值空间W_k和网络输出Z_k为：

\{\begin{matrix} W_{k} = W_{k - 1} + φ_{k} \\ Z_{k} = ψ (W_{k}, U_{k}) \end{matrix}

步骤二：将神经网络的所有权值按层进行单位化；

e(n)＝norm(n)-z(n)

ϵ (n) = \frac{1}{2} e^{2} (n);

步骤四：得到线性化后的活化函数s(v(n))：

s (v (n)) = \{\begin{matrix} a, & v (n) > θ_{1} \\ c (m) v (n) + d (m), & θ_{2} < v (n) < θ_{1}, m = 1 m 2 . . . M \\ b, & v (θ) < θ_{2} \end{matrix}

M＝λ(θ₁+θ₂),M为奇数

v_{j} (n) = Σ_{i = 1}^{I} w_{ij} z_{i} (n) = Z_{i}^{T} (n) W_{ij} (n)

步骤六：求解各个局部梯度函数δ_j(n)及线性化表示δ_jL(n)；

步骤七：选择自适应调整学习率为：

其中0＜α＜1，0＜β＜1，γ＞0，同时学习率满足条件：

μ (n + 1) = \{\begin{matrix} μ_{\max} & μ > μ_{\max} \\ g (μ (n), e (n), e (n - 1), . . ., e (n - v)) & μ_{\min} < μ < μ_{\max} \\ μ_{\min} & μ < μ_{\min} \end{matrix};

w_ij(n+1)＝w_ij(n)+Δw_ij(n)

Δw_ij(n)＝μ(n)δ_j(n)z_i(n)；