CN107451660A

CN107451660A - 模糊神经网络bp训练过程中的步长优化方法

Info

Publication number: CN107451660A
Application number: CN201710599093.8A
Authority: CN
Inventors: 熊伟丽; 孙文心; 陈树
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2017-07-21
Filing date: 2017-07-21
Publication date: 2017-12-08

Abstract

本发明在批量梯度下降(BGD)的基础上，提出了一种步长优化的BP算法。在每次迭代中先使用反向传播算法计算代价函数的梯度；然后沿着梯度方向计算代价函数关于步长的二阶导数；最后利用一阶、二阶导数信息估计最优步长并进行参数调整。所提方法一方面免去了步长选择问题；另一方面，由于利用了二阶导数信息，能提高每次参数调整的效率。

Description

模糊神经网络BP训练过程中的步长优化方法

技术领域

本发明涉及模糊神经网络BP训练过程中的步长优化方法，属于优化算法领域。

背景技术

模糊神经网络是模糊系统同神经网络相结合的产物，作为模糊系统，能够很好地描述不确定信息或定性的知识，能充分利用已有的知识来设计系统结构和配置初始值，且现在已能直接从检测数据中提取模糊规则来初始化参数；作为神经网络，能利用BP算法进行自学习，并已证明能以很好的精度逼近期望的模型。因此被广泛应用于智能控制与软测量建模等多个方面。

然而，标准的BP算法收敛速度通常较慢，其原因有几方面。首先，标准算法的计算代价过大，需要对每一个样本进行计算后才能调整参数，实践中随机梯度下降法(SGD)是解决这一问题的主要方法 ^[9]，每次迭代中仅根据小部分训练样本对模型参数进行调整，由于减小了每次参数调整的计算代价，当样本信息高度冗余时能得到很快的收敛速度；其次，标准算法仅考虑了一阶导数信息，仅能得到小范围内的最速下降方向但并不能确保方向一定最优，通常利用二阶导数信息，如高斯-牛顿法、柯西-牛顿法，能找到更加合理的参数调整方向并得到更高的训练效率，但是这些类方法需要存储和处理Hessian矩阵，因此不适用于训练大型模型；除此之外，步长的选择也是影响BP算法收敛速度的关键因素，步长选择过大会使训练过程发生振荡甚至不收敛，选择过小则会使训练收敛缓慢。

发明内容

针对于模糊神经网络BP算法训练缓慢且步长难以选择，训练过程缓慢且不稳定的问题，本发明提供一种步长优化方法。

在每次迭代中先使用反向传播算法计算代价函数的梯度；然后沿着梯度方向计算代价函数关于步长的二阶导数；最后利用一阶、二阶导数信息估计最优步长并进行参数调整。

本发明的目的是通过以下技术方案实现的：

模糊神经网络BP训练过程中的步长优化方法，所述方法包括以下过程：首先使用反向传播算法计算代价函数的梯度。

然后沿着梯度方向计算代价函数关于步长的二阶导数，最后利用一阶、二阶导数信息估计最优步长并进行参数调整。

附图说明

图1是Mamdani模型的模糊神经网络；

图2是情况1下的步长估计示意图；

图3是情况2下的步长估计示意图；

图4是步长优化的BP算法流程图；

图5是数值仿真效果对比；

具体实施方式

图1是基于Mamdani模型的模糊神经网络结构示意图

模型参数的训练步骤如下：

步骤1：构造基于Mamdani模型的模糊神经网络，模型描述如下：

第一层：将精确集合上的输入变量X＝[x₁,…,x_n]传入模糊神经网络。

该层节点数N₁＝n(输入变量的维数)

第二层：用m_i个语言变量来描述精确变量x_i，并输出x_i隶属于语言变量的隶属度其中i＝1,2…n；l_i＝1,2…m_i。

该层节点数(语言变量总数量)，涉及模型参数变量和(语言变量的中心位置和宽度)。

第三层：计算模糊规则库中规则R_j对输入变量X的适用度z^j(j＝1,2…m；j_i＝1,2…m_i)。规则R_j的形式如下：

then f is B^j

其中f是模型的精确输出量，B^j是描述f的语言变量。用乘法推理机计算R_j的适用度

该层节点数N₃＝m(规则库中的规则数量)。

第四层：归一化计算

该层节点数N₄＝m。

第五层：解模糊计算，利用中心平均解模糊器得出模型的精确输出

由于设计的是MISO模糊神经网络，所以该层节点数N₅＝1。该层涉及模型参数w^k，表示语言变量B^k的中心。

定义模型参数θ、误差E(θ)和代价函数J(θ)分别为：

E(θ)≡(f(X)-y)²/2 (6)

步骤2：设置精度要求和步长的最大取值α_max

步骤3：利用BP算法求出代价函数关于模型参数的梯度，公式如下：

其中，α表示训练步长，θ(q)表示参数变量经过q次迭代后的取值，q为大于1的整数。

步骤4：估计最优步长并调整模型参数

首先定义负梯度为Δθ

将步长的确定转化为如下优化问题：

min J(α)＝J(θ(q-1)+αΔθ(q-1))

s.t.α＞0 (14)

利用负梯度Δθ(q-1)方向上代价函数关于步长α的一阶、二阶导数来估计每次迭代的最佳步长α，从而提高参数调整的效率。

二次导数的求导步骤如下：

Step 1:首先定义和g^j为

Step 2:逐层求导：

第1、2、3层：

第4、5层：

Step 3：求出代价函数关于步长的导数：

Step 4：确定步长：

如图(2)和图(3)所示，步长的确定分为两种情况：

情况一：

情况二：

Step 5：判断选取步长是否超过最大允许范围，若超过范围，则令α(q):＝α_max

步骤5：利用梯度和所选步长调整模型参数

θ(q):＝θ(q-1)+α(q)Δθ(q) (26)

步骤6：判断调整后的模型是否满足精度有求，若满足，则停止训练；否则跳回步骤3。

整个算法流程图如图(4)所示。图(5)是本方法在数值仿真中的训练误差曲线，并且与其他BP算法的改进方法进行了比较。由图可知，本方法使BP算法的收敛速度得到了很大的提升。

Claims

1.模糊神经网络BP训练过程中的步长优化方法，其特征在于，该方法步骤为：

步骤1：构造基于Mamdani模型的模糊神经网络，模型描述如下；

基于Mamdani模型的模糊神经网络的描述如下：

第一层：将精确集合上的输入变量X＝[x₁,…,x_n]传入模糊神经网络；

该层节点数N₁＝n，n为输入变量的维数

第二层：用m_i个语言变量来描述精确变量x_i，并输出x_i隶属于语言变量的隶属度其中i＝1,2…n；l_i＝1,2…m_i；

该层节点数(语言变量总数量)，涉及模型参数变量和(语言变量的中心位置和宽度)；

第三层：计算模糊规则库中规则R_j对输入变量X的适用度z^j(j＝1,2…m；j_i＝1,2…m_i)；规则R_j的形式如下：

then f is B^j

其中f是模型的精确输出量，B^j是描述f的语言变量；用乘法推理机计算R_j的适用度

该层节点数N₃＝m(规则库中的规则数量)；

第四层：归一化计算

该层节点数N₄＝m；

由于设计的是MISO模糊神经网络，所以该层节点数N₅＝1；该层涉及模型参数w^k，表示语言变量B^k的中心；

步骤2：设置精度要求和步长的最大取值α_max

其中，α表示训练步长，θ(q)表示参数变量经过q次迭代后的取值，q为大于1的整数；

步骤4：估计最优步长并调整模型参数；