CN106842948A

CN106842948A - 基于bp网络的hdp分子蒸馏系统的最优控制方法

Info

Publication number: CN106842948A
Application number: CN201710117212.1A
Authority: CN
Inventors: 李慧; 孙文杰; 李颖
Original assignee: Changchun University of Technology
Current assignee: Changchun University of Technology
Priority date: 2017-03-01
Filing date: 2017-03-01
Publication date: 2017-06-13
Anticipated expiration: 2037-03-01
Also published as: CN106842948B

Abstract

基于BP网络的HDP分子蒸馏系统的最优控制方法涉及分子蒸馏最优控制技术领域，该方法充分利用了非线性拟合能力较强的神经网络和动态规划算法，通过将两种方法相结合，使各自的优点充分发挥，能在很大的程度上克服传统方法的缺陷，完成网络的训练、检验和最优评价，为生产过程的决策和控制提供可靠的依据。本发明方法具体是利用BP神经网络算法建立分子蒸馏系统的模型网络、评价网络以及执行网络，模型网络能够准确预测出系统的下一个状态，评价网络能够对控制效果进行评价，执行网络能够根据上一个状态给出此时的最优控制量，使得影响馏出物产品质量的关键因素得到合理有效的控制，从而保证产品的纯度和得率在规定范围内。

Description

基于BP网络的HDP分子蒸馏系统的最优控制方法

技术领域

本发明涉及分子蒸馏最优控制技术领域，具体涉及一种基于BP网络的启发式动态规划(Heuristic Dynamic Programming HDP)分子蒸馏系统的最优控制方法。

背景技术

分子蒸馏技术，又称短程蒸馏技术，具有操作温度低、蒸馏压强低、受热时间短等特点，适用于高沸点、热敏、高粘度物质的提取、分离和精制，在诸如精细化工、药品、香精、食用添加剂、石化实际工程领域的应用中，具有常规蒸馏技术无法比拟的优势。然而由于分子蒸馏系统参数多、耦合、非线性、滞后性等特点，传统控制技术无法满足现在工业生产高效、节能要求，限制了分子蒸馏的最大产能。为了进一步提高分子蒸馏生产过程的自动化水平、稳定性以及最大产能，需要探求新的控制方式。

在现有的分子蒸馏设备上，刮膜电机转速、蒸发温度以及压力的控制多是采用工业上最常用的PID控制技术，相应的多个控制量的控制必然是通过解耦之后，用多路PID完成控制的。但在分子蒸馏系统中，参数之间的耦合非常严重，在解耦过程中，必然会忽略很多因素，导致各个参数的运行实际值也不符合他们的设定值，最终使得整个系统控制精确度变差，在分子蒸馏系统中表现为参数之间的匹配不合理，最终导致被分离物的纯度和得率不理想。自适应动态规划由人工智能和控制领域交汇发展形成的，以传统的最优控制为理论基础，融合人工智能的先进方法，为大规模复杂非线性系统优化控制问题的解决提供了方案。自适应动态规划的基本思想是利用函数近似结构，逼近动态规划中的性能指标函数和控制策略，以满足最优性原理从而获得最优控制和最优性能指标函数。启发式动态规划(HDP)是自适应动态规划的一种，也是应用最普遍的一种，在分子蒸馏中，该方法的使用避免了分子蒸馏的建模及解耦问题，它能够直接给出分子蒸馏系统所需的最优控制量。

发明内容

为了解决传统方法确定的分子蒸馏工艺参数不准确，馏出物的纯度和得率低的问题，本发明提供基于BP网络的HDP分子蒸馏系统的最优控制方法，实现分子蒸馏的工艺参数的最优化，为系统提供最优的控制量u。

本发明的方法首先要建立起模型网络、评价网络、执行网络、定义效用函数，如下：

模型网络采用具有n+m个输入层神经元、km个隐含层神经元和n个输出层神经元的结构，n+m个输入分别为系统k时刻的状态向量x(k)的n个分量以及执行网络对状态向量x(k)的控制向量u(k)的m个分量，n个输出则是对系统在k+1时刻的状态向量x(k+1)的预测向量的n个分量；模型网络的隐含层采用双极性sigmoidal函数，输出层采用线性函数purelin，模型网络结构如图2所示。

评价网络采用具有n个输入层神经元、kj个隐含层神经元和1个输出层神经元的结构，n个输入是系统k时刻的状态向量x(k)的n个分量，输出是与输入状态对应的最优性能指标的估计；评价网络的隐含层采用双极性sigmoidal函数，输出层采用线性函数purelin，评价网络的结构如图3所示。

执行网络采用具有n个输入层神经元、ku个隐含层神经元和m个输出层神经元的结构，n个输入是系统在k时刻的状态向量x(k)的n个分量，m个输出则是与输入状态向量x(k)对应的控制向量u(k)的m个分量；执行网络的隐藏层采用双极性sigmoidal函数，输出层采用线性函数purelin，执行网络结构如图4所示。

效用函数定义为U(k)＝x^T(k)Ax(k)+u^T(k)Bu(k)，其中A、B为正定矩阵，x(k)为状态向量，u(k)为控制向量。

在分子蒸馏系统中，蒸发面温度、蒸发器内真空度、进料速度、一级刮膜电机转速、二级刮膜电机转速是影响被分离物得率和纯度的主要因素，并且这几个量都是可测的，所以选择蒸发面温度、蒸发器内真空度、进料速度、一级刮膜电机转速和二级刮膜电机转速作为控制向量u(k)，得率和纯度作为分子蒸馏系统的状态向量x(k)。

本发明基于BP网络的HDP分子蒸馏系统的最优控制方法，具体包括以下步骤：

步骤一：采用梯度下降法训练模型网络：如图1所示，模型网络的输入包括分子蒸馏系统在k时刻的控制向量u(k)、状态向量x(k)，输出为k+1时刻的状态向量x(k+1)，模型网络的结构为7—14—2即输入层包含7个节点、隐层包含14个节点、输出层包含2个节点；

步骤1.1、随机初始化模型网络的权值w_m1，w_m2(w_m1为输入层到隐层的权值，w_m2为隐层到输出层之间的权值)，设置训练次数c，允许误差ε，学习效率l_m；

步骤1.2、以多组真实实验数据建立实验样本库，即，将分子蒸馏系统在k时刻的控制向量u(k)、状态向量x(k)作为模型网络的输入向量M(k)＝[u(k) x(k)]^T，将k+1时刻的状态向量x(k+1)作为模型网络的输出向量为x(k+1)，建立具有映射对应关系的多组实验数据组作为实验样本；从实验样本库中选择N个样本训练模型网络；

步骤1.3、模型网络的正向计算：

步骤1.4、计算误差

式中，x(k+1)是模型网络k+1时刻的期望输出，是模型网络的预测输出；模型网络的权值按下面的式子进行更新：

步骤1.5、判断误差(式中，x(k+1)是模型网络k+1时刻的期望输出，是模型网络的预测输出)是否小于ε，若误差大于ε且训练次数小于c，则转到步骤1.6；若误差小于ε或训练次数大于等于c则转步骤1.8；

步骤1.6、更新权值w_m1和w_m2，如下：

①w_m2更新：

w_m2(k+1)＝w_m2(k)+Δw_m2(k) (6)

②w_m1更新：

w_m1(k+1)＝w_m1(k)+Δw_m1(k) (8)

步骤1.7、返回步骤1.3；

步骤1.8、模型网络训练完成；

步骤二：定义效用函数U(k)＝U[x(k),u(k),k]：对于分子蒸馏系统，效用函数定义为U(k)＝x^T(k)Ax(k)+u^T(k)Bu(k)，其中A为5阶单位阵、B为2阶单位阵；

步骤三：确定执行网络与评价网络的结构并初始化神经网络：执行网络的结构为2—8—5，输入层到隐含层的权值为w_a1，隐含层到输出层的权值为w_a2，学习效率为l_a；评价网络的结构为2—5—1，输入层到隐含层的权值为w_c1，隐含层到输出层的权值为w_c2，学习效率为l_c，允许误差为ε_c，设定训练次数为n_c，已训练次数为c(初始值c＝0)；

步骤四：从已有的实验数据中，选择N组数据作为训练样本，并设定分子蒸馏系统的初始状态x(k)；

步骤五：将x(k)作为执行网络(如图4所示)的输入，产生控制向量u(k)，得到u(k)的计算过程如下：

步骤六：求解效用函数U(k)的值：

U(k)＝x^T(k)Ax(k)+u^T(k)Bu(k)

步骤七：将x(k)输入到评价网络，得到k时刻的计算过程如下：

步骤八：将当前阶段的状态x(k)与执行网络输出的控制向量u(k)作为输入向量M(k)输入到模型网络(如图2所示)得到k+1时刻状态向量x(k+1)，得到x(k+1)的计算过程如下：

步骤九：将状态x(k+1)输入到评价网络获得的计算过程如下：

步骤十：计算评价网络误差E_c(k)，并判断E_c(k)与ε_c的大小；如果E_c(k)大于ε_c，则转步骤十一，如果E_c(k)<＝ε_c则转步骤十二；误差E_c(k)的计算如下式所示：

其中，

步骤十一：更新评价网络的权值w_c1和w_c2，评价网络的训练也采用梯度下降法，权值更新过程如下：

步骤11.1、w_c2的更新：

w_c2(k+1)＝w_c2(k)+Δw_c2(k)

步骤11.2、w_c1的更新：

w_c1(k+1)＝w_c1(k)+Δw_c1(k)

步骤十二：计算执行网络的误差E_a：

步骤十三：更新执行网络的权值w_a2和w_a1：执行网络的训练以最小化为目标，训练也采用梯度下降法，权值更新过程如下：

步骤13.1、w_a2的更新：

式中，共m个，w_m1u＝w_m1(1:m,:)即w_m1的前m行；w_a2(k+1)＝w_a2(k)+Δw_a2(k)

步骤13.2、w_a1的更新：

式中共m个，w_a2(k+1)＝w_a2(k)+Δw_a2(k)；

步骤十四：判断训练是否失败，如果失败(E_c(k+1)＞ε_c)，返回步骤五，否则转步骤十五；

步骤十五：判断是否达到最大训练次数，如果达即c＞n_c，转步骤十六，否则，令c＝c+1，k＝k+1；如果c＜＝n_a转步骤五，进行下一次训练；

步骤十六：训练结束，此时HDP的执行网络产生的u(k)能够使目标函数J(k)最小，即此时的u(k)是分子蒸馏系统的最优控制向量。

本发明的有益效果是：该方法能够从已积累的生产数据中挖掘规律，给出分子蒸馏系统的最优的控制量，并使得影响馏出物产品质量的关键因素得到合理有效的控制，从而保证产品的纯度和得率在规定范围内，有效地提高企业的生产效率，节约能源，降低企业的生产成本。

附图说明

图1是本发明中HDP算法的基本结构示意图。

图2是本发明中模型网络的结构示意图。

图3是本发明中评价网络的结构示意图。

图4是本发明中执行网络结构图示意图。

具体实施方式

下面结合附图和实例对本发明做进一步详细说明。

如图1所示，本发明采用基于BP网络的HDP算法(HDP的执行网络、模型网络、评价网络都采用BP神经网络)来实现分子蒸馏的最优控制，根据产品的指标要求，通过设定效用函数U可以灵活的调整控制代价与控制效果之间的关系。图中x(k)为系统k时刻的状态向量，x(k+1)为系统k+1时刻的状态向量，J(k)为系统的性能指标函数(即代价函数)，J(k+1)为系统k+1时刻代价函数，U(k)为效用函数，γ为折扣因子，u(k)为系统k时刻的控制向量。动态规划的目的是选择一个控制序列u(i),i＝k,k+1,...,l，使得代价函数最小化。

本发明以分子蒸馏法提取五味子精油的生产实验为例，实验以干燥果实五味子为原料，首先，通过超临界CO₂萃取装置萃取得到五味子粗油，然后以该五味子粗油为原料，通过长春工业大学的mds-80-II自动控制二级刮膜式分子蒸馏装置进行分子蒸馏，提取五味子精油的实验。

本发明的方法是以实验采集的真实数据为样本数据，对样本数据进行统计、分析、整合，并在此基础上设计基于BP网络的HDP分子蒸馏系的最优控制方法，给出分子蒸馏系统的最优输入，保证馏出物的纯度和得率。

本发明基于BP网络的HDP分子蒸馏系的最优控制方法包括以下步骤：

步骤一：建立模型网络，其结构为7—14—2，初始化模型网络的权值w_m1、w_m2，设定学习效率l_m、训练次数c、允许误差ε。选择100组数据作为训练样本，50组数据作为测试样本。输入样本M(k)＝[u(k)x(k)]^T(k＝1,2,...,100)，期望输出样本为x(k)，其中控制向量u(k)的5个分量分别为蒸发面温度、蒸发器内真空度、进料速度、一级刮膜电机转速和二级刮膜电机转速，x(k)的两个分量分别为馏出物的纯度和得率。将这100个训练样本按发明内容中步骤一所述的方式训练模型网络，并用50个测试样本进行测试，直到得到一个可靠的能够准确预测出分子蒸馏系统下一个状态的模型网络，否则重新设定上述参数，再进行训练。

步骤二：定义效用函数U(k)＝U[x(k),u(k),k]。对于分子蒸馏系统，效用函数定义为U(k)＝x^T(k)Ax(k)+u^T(k)Bu(k)，其中A为5阶单位阵、B为2阶单位阵。

步骤三：确定评价网络与执行网络的结构，并初始化它们的权值。定义学习效率l_c(评价网络的学习效率)、l_a(执行网络的学习效率)及折扣因子γ的值。执行网络的结构为2—8—5，输入层到隐含层的权值为w_a1，隐含层到输出层的权值为w_a2；评价网络的结构为2—5—1，输入层到隐含层的权值为w_c1，隐含层到输出层的权值为w_c2，评价网络允许误差ε_c，设定学习次数n_c，已学习次数c(c的初始值为0)并从采集的实验数据中取100个样本数据用于训练评价网络与执行网络。

步骤四：从步骤三所给的训练样本中任取一个样本作为蒸馏系统的初始状态x(k)(k＝1,2,...,100)，并将其输入执行网络产生控制向量u(k)。

步骤五：将x(k)输入到评价网络，产生J(k)。

步骤六：求解效用函数U(k)的值。

步骤七：将当前阶段的状态x(k)与执行网络输出的控制动作u(k)输入到模型网络得到k+1时刻状态计算过程如发明内容中的公式(1)、(2)、(3)所示。

步骤八：将状态x(k+1)输入到评价网络获得

步骤九：计算评价网络误差E_c(k)，并判断E_c(k)与ε_c的大小。如果E_c(k)大于ε_c，则转步骤十，如果E_c(k)<＝ε_c则转步骤十一。

步骤十：更新评价网络的权值，计算过程如发明内容中步骤十一所示，此时的m等于2。

步骤十一：更新执行网络的权值，计算过程如发明内容中步骤十三所示，此时的m等于2。

步骤十二：判断训练是否失败，如果失败，返回步骤四。

步骤十三：判断是否达到最大训练次数100次，如果达到，转步骤十四，否则令c＝c+1，k＝k+1，转步骤四，进行下一次训练。

步骤十四：训练结束，此时HDP的执行网络产生的u(k)能够使目标函数J(k)最小，即此时的u(k)是分子蒸馏系统的最优控制向量。

在分子蒸馏实验过程中，本发明充分利用了非线性拟合能力较强的神经网络和动态规划算法，通过将两种方法相结合，使各自的优点充分发挥，能在很大的程度上克服传统方法的缺陷，完成网络的训练、检验和最优评价，为生产过程的决策和控制提供可靠的依据。本发明利用BP神经网络算法建立了分子蒸馏系统的模型网络、评价网络以及执行网络。模型网络能够准确预测出系统的下一个状态，评价网络能够对控制效果进行评价，执行网络能够根据上一个状态给出此时的最优控制量。本发明的方法与传统的方法相比，算法简单，计算精度高，有很强的自学习能力。

Claims

1.基于BP网络的HDP分子蒸馏系统的最优控制方法，其特征在于，该方法包括如下步骤：

步骤一：采用梯度下降法训练模型网络：模型网络的输入包括分子蒸馏系统在k时刻的控制向量u(k)、状态向量x(k)，输出为k+1时刻的状态向量x(k+1)，模型网络的结构为输入层包含7个节点、隐含层包含14个节点、输出层包含2个节点；具体方法如下：

步骤1.1、随机初始化模型网络的权值w_m1，w_m2，其中，w_m1为输入层到隐含层的权值，w_m2为隐含层到输出层的权值，设置训练次数c，允许误差ε，学习效率l_m；

步骤1.3、模型网络的正向计算，如下：

m_{1 j} (k) = Σ_{i = 1}^{n + m} M_{i} (k) \cdot w_{m 1 i j} (k), j = 1, 2, ..., k m - - - (1)

m_{2 j} (k) = \frac{1 - e^{- m_{1 j} (k)}}{1 + e^{- m_{1 j} (k)}}, j = 1, 2, ..., k m - - - (2)

\overset{Λ}{x_{j}} (k + 1) = Σ_{i = 1}^{k m} m_{2 j} (k) \cdot w_{m 2 i j} (k), j = 1, 2, ..., n - - - (3)

步骤1.4、计算误差

\begin{matrix} E_{m} (k + 1) = \frac{1}{2} Σ_{i = 1}^{n} {[x_{i} (k + 1) - \overset{Λ}{x_{i}} (k + 1)]}^{2} \\ = \frac{1}{2} e_{m} (k + 1) \times e_{m}^{T} (k + 1) \end{matrix} - - - (4)

式中，x(k+1)是模型网络k+1时刻的期望输出，是模型网络的预测输出；

步骤1.5、判断误差是否小于ε，若误差大于ε且训练次数小于c，则转到步骤1.6；若误差小于ε或训练次数大于等于c，则转到步骤1.8；

步骤1.6、更新权值w_m1和w_m2，如下：

①w_m2更新：

{Δw}_{m 2} (k) = l_{m} \cdot m_{h 2}^{T} (k) \times e_{m} (k + 1) - - - (5)

w_{m 2} (k + 1) = w_{m 2} (k) + {Δw}_{m 2} (k) - - - (6)

②w_m1更新：

{Δw}_{m 1} (k) = \frac{1}{2} l_{m} \cdot M_{m 2}^{T} (k) \times {[e_{m} (k + 1) \times w_{m 2}^{T} (k)] &CircleTimes; [1 - m_{h 2} (k) &CircleTimes; m_{h 2} (k)]} - - - (7)

w_m1(k+1)＝w_m1(k)+Δw_m1(k) (8)

步骤1.7、返回步骤1.3；

步骤1.8、模型网络训练完成；

步骤二：定义效用函数U(k)＝U[x(k),u(k),k]，对于分子蒸馏系统，效用函数定义为U(k)＝x^T(k)Ax(k)+u^T(k)Bu(k)，其中A为5阶单位阵、B为2阶单位阵；

步骤三：确定执行网络与评价网络的结构并初始化神经网络：执行网络的结构为输入层包含2个节点、隐含层包含8个节点、输出层包含5个节点，输入层到隐含层的权值为w_a1，隐含层到输出层的权值为w_a2，学习效率为l_a；评价网络的结构为输入层包含2个节点、隐含层包含5个节点、输出层包含1个节点，输入层到隐含层的权值为w_c1，隐含层到输出层的权值为w_c2，学习效率为l_c，允许误差为ε_c，设定训练次数为n_c，已训练次数为c(初始值c＝0)；

步骤五：将x(k)作为执行网络的输入，产生控制向量u(k)，得到u(k)的计算过程如下：

a_{h 1 j} (k) = Σ_{i = 1}^{n} x_{i} (k) \cdot w_{a 1 i j} (k), j = 1, 2, ..., k u - - - (9)

a_{h 2 j} (k) = \frac{1 - e^{- a_{h 1 j} (k)}}{1 + e^{- a_{h 1 j} (k)}}, j = 1, 2, ..., k u - - - (10)

u_{j} (k) = Σ_{i = 1}^{k u} a_{h 2 j} (k) \cdot w_{a 2 i j} (k), j = 1, 2, ..., k u - - - (11)

步骤六：求解效用函数U(k)的值：

U(k)＝x^T(k)Ax(k)+u^T(k)Bu(k)

c_{h 1 j} (k) = Σ_{i = 1}^{n} \overset{Λ}{x_{i}} (k) \cdot w_{c 1 i j} (k), j = 1, 2, ..., k j - - - (12)

c_{h 2 j} (k) = \frac{1 - e^{- c_{h 1 j} (k)}}{1 + e^{- c_{h 1 j} (k)}}, j = 1, 2, ..., k j - - - (13)

\overset{Λ}{J} (k) = \overset{k j}{Σ} c_{h 2 j} (k) \cdot w_{c 2 j} (k) - - - (14)

步骤八：将当前阶段的状态x(k)与执行网络输出的控制向量u(k)作为输入向量M(k)输入到模型网络得到k+1时刻状态向量x(k+1)，得到x(k+1)的计算过程如下：

m_{1 j} (k) = \overset{n + m}{Σ} M_{i} (k) \cdot w_{m 1 i j} (k), j = 1, 2, ..., k m

m_{2 j} (k) = \frac{1 - e^{- m_{1 j} (k)}}{1 + e^{- m_{1 j} (k)}}, j = 1, 2, ..., k m

x_{j} (k + 1) = \overset{k m}{Σ} m_{2 j} (k) \cdot w_{m 2 i j} (k), j = 1, 2, ..., n

步骤九：将状态x(k+1)输入到评价网络获得的计算过程如下：

c_{h 1 j} (k + 1) = Σ_{i = 1}^{n} \overset{Λ}{x_{i}} (k + 1) \cdot w_{c 1 i j} (k), j = 1, 2, ..., k j - - - (12)

c_{h 2 j} (k + 1) = \frac{1 - e^{- c_{h 1 j} (k + 1)}}{1 + e^{- c_{h 1 j} (k + 1)}}, j = 1, 2, ..., k j - - - (13)

\overset{Λ}{J} (k + 1) = \overset{k j}{Σ} c_{h 2 j} (k + 1) \cdot w_{c 2 j} (k) - - - (14)

步骤十：计算评价网络误差E_c(k)，并判断E_c(k)与ε_c的大小；如果E_c(k)大于ε_c，则转到步骤十一，如果E_c(k)<＝ε_c则转到步骤十二；误差E_c(k)的计算如下：

| | E_{c} | | = \underset{k}{Σ} E_{c} (k + 1) = \frac{1}{2} \underset{k}{Σ} e_{c}^{2} (k + 1)

其中，

步骤11.1、w_c2的更新：

{Δw}_{c 2} (k) = - l_{c} \cdot e_{c} (k + 1) \cdot c_{h 2}^{T} (k)

w_c2(k+1)＝w_c2(k)+Δw_c2(k)

步骤11.2、w_c1的更新：

{Δw}_{c 1} (k) = - \frac{1}{2} \cdot l_{c} \cdot e_{c} (k + 1) \cdot {\overset{Λ}{x}}^{T} (k + 1) \times {w_{c 2}^{T} (k) &CircleTimes; [1 - c_{h 2} (k) &CircleTimes; c_{h 2} (k)]}

w_c1(k+1)＝w_c1(k)+Δw_c1(k)

步骤十二：计算执行网络的误差E_a，如下：

E_{a} (k) = \overset{Λ}{J} (k) = γ \overset{Λ}{J} (k + 1) + U (k)

步骤十三：更新执行网络的权值w_a2和w_a1，执行网络的训练以最小化为目标，训练也采用梯度下降法，权值更新过程如下：

步骤13.1、w_a2的更新：

\begin{matrix} {Δw}_{a 2} (k) = - l_{a} \cdot a_{h 2}^{T} (k) \times [2 u (k) + γ \frac{\partial \overset{Λ}{J} (k + 1)}{\partial u (k)}] \\ = - l_{a} \cdot a_{h 2}^{T} (k) \times (2 u (k) + \frac{γ}{4} {w_{c 2}^{T} (k) &CircleTimes; [1 - c_{h 2} (k) &CircleTimes; c_{h 2} (k)]} \times w_{c 1}^{T} (k) \times \end{matrix}

w_{m 2}^{T} (k) \times {w_{m 1 u} (k) &CircleTimes; [1 - m_{h 2} (k) &CircleTimes; m_{h 2} (k); ...; 1 - m_{h 2} (k) &CircleTimes; m_{h 2} (k)]}^{T})

式中，共m个，w_m1u＝w_m1(1:m,:)即w_m1的前m行，w_a2(k+1)＝w_a2(k)+Δw_a2(k)；

步骤13.2、w_a1的更新：

\begin{matrix} {Δw}_{a 1} (k) = - \frac{1}{2} l_{a} \cdot x^{T} (k) \times {[2 u (k) + \frac{γ}{4} {w_{c 2}^{T} (k) &CircleTimes; [1 - c_{h 2} (k + 1) &CircleTimes; c_{h 2} (k + 1)]} \\ \times w_{c 1}^{T} (k) \times w_{m 2}^{T} (k) \times {w_{m 1 u} (k) &CircleTimes; [1 - m_{h 2} (k) &CircleTimes; m_{h 2} (k); ...; 1 - m_{h 2} (k) &CircleTimes; \\ &CircleTimes; m_{h 2} (k)]}^{T}) \times w_{a 2}^{T} (k)] &CircleTimes; [1 - a_{h 2} (k) &CircleTimes; a_{h 2} (k)]} \end{matrix}

式中共m个，w_a2(k+1)＝w_a2(k)+Δw_a2(k)；

步骤十四：判断训练是否失败，如果失败(即E_c(k+1)＞ε_c)，则返回步骤五，否则转到步骤十五；

步骤十五：判断是否达到最大训练次数，如果达到即c＞n_c，则转到步骤十六，否则，令c＝c+1，k＝k+1；如果c＜＝n_a，则转到步骤五，进行下一次训练；