CN107544261A

CN107544261A - 不确定环境接触下的可重构机器人分散学习最优控制方法

Info

Publication number: CN107544261A
Application number: CN201711017777.9A
Authority: CN
Inventors: 董博; 王梓旭; 周帆; 李岩; 刘克平; 李元春
Original assignee: Changchun University of Technology
Current assignee: Changchun University of Technology
Priority date: 2017-10-26
Filing date: 2017-10-26
Publication date: 2018-01-05
Anticipated expiration: 2037-10-26
Also published as: CN107544261B

Abstract

不确定环境接触下的可重构机器人分散学习最优控制方法，属于机器人控制算法领域，为了解决传统的可重构机器人控制方法中存在机器人关节的抖振效应及稳定性和控制精度低的问题，首先建立可重构机器人系统动力学模型，通过对可重构机器人关节子系统间的耦合力矩交联项的分析，然后构建代价函数与HJB方程，通过基于策略迭代的学习算法，来求HJB方程的解，接下来采用神经网络对代价函数进行近似，最后通过仿真验证所提出控制方法的有效性；该方法可以在面向不确定环境接触的条件下，使机器人系统实现良好的稳定性与控制精度，可以在提高可重构机器人控制精度的同时，降低系统执行器的能耗，并降低了机器人系统动力学模型的复杂性。

Description

不确定环境接触下的可重构机器人分散学习最优控制方法

技术领域

本发明涉及一种可重构机器人系统的分散学习最优控制方法，属于机器人控制算法领域。

背景技术

可重构机器人由电源、处理系统、执行器和传感器等模块组成。这些模块组合满足不同构形的标准机电接口来适应复杂工作环境的各种任务要求，基于上述优点，可重构机器人经常应用于不确定性和危险的环境中，如太空探测、灾害救援、高低温环境作业等。此外，在复杂和不确定的环境面前，可重构机器人需要兼顾控制精度和功耗的合适控制系统。

一般来说，为了实现模块化和可重构的特点，可重构机器人应该具有可以添加、删除或者根据任务需要来替换的重要属性，这对于可重构机器人控制系统的设计是一个挑战。分散控制是构建可重构机器人控制系统的一种有效的控制策略。由于仅需要采用每个关节模块的局部信息，使得分散控制策略可以为机器人控制系统提供结构上的灵活性，使得可重构机器人可以根据不同任务的需求重组成不同的构形而无需调整控制器的参数。

由于可重构机器人的子系统动力学模型具有关节子系统间的耦合力矩交联项，包括哥式力项、离心力项和重力项，因此对关节子系统间的耦合力矩交联项的处理是一个难题。近期的一类研究，如[李元春，宋扬，赵博，环境约束可重构机械臂模块化力/位置控制，上海交通大学学报，vol.51，no.6,709-714,2017]，该技术将可重构机器人关节子系统间的耦合力矩交联项考虑为一类完全未知的非线性函数，并利用神经网络对其进行近似逼近。然而，如果对于所有的关节模块，都简单的将关节子系统间的耦合力矩交联项视为未知的非线性函数，势必将极大的增大系统不确定性的数量级，从而导致所采用的分散补偿控制器必须具备更大的控制增益以获得理想的控制性能，但是这会使执行器产生瞬时的大功率输出，从而导致机器人关节的抖振效应并降低控制器的稳定性与控制精度。

发明内容

本发明为了解决传统的可重构机器人控制方法中存在机器人关节的抖振效应及稳定性和控制精度低的问题，提出一种性能良好的分散学习最优控制方法，以实现不确定环境接触下可重构机器人系统的高精度分散最优控制。将可重构机器人系统的动力学模型描述为一个相互关联的子系统的合成，通过策略迭代算法求解HJB方程，结合神经网络与近似性能指标函数对位置和速度跟踪性能及各关节模块的控制力矩进行优化，并最终实现完备的分散学习最优控制。

本发明解决技术问题的方案是：

不确定环境接触下的可重构机器人分散学习最优控制方法，其特征是，首先建立可重构机器人系统动力学模型，通过对可重构机器人关节子系统间的耦合力矩交联项的分析，然后构建代价函数与HJB方程，通过基于策略迭代的学习算法，来求HJB方程的解，接下来采用神经网络对代价函数进行近似，最后通过仿真验证所提出控制方法的有效性。

该方法包括如下步骤：

步骤一，建立可重构机器人系统动力学模型如下：

上式中，下标i代表第i个模块，I_mi是转动轴的转动惯量，γ_i是齿轮传动比，θ_i，和分别是关节位置，速度和加速度，是关节摩擦项，是关节子系统间的耦合力矩交联项，τf_i是关节输出转矩，τ_i是电机输出转矩；

定义系统的状态向量控制输入u_i＝τ_i；

则子系统的状态空间的形式可以表示为：

上式中，B_i＝(I_miγ_i)^-1，代表已建模的动力学模型部分，是模型不确定项，包括摩擦模型误差和关节子系统间的耦合力矩交联项，x是关节的位置向量，是关节的速度向量，是关节的加速度向量；

步骤二，考虑式(11)，构建代价函数如下：

其中，s_i(e_i)定义为且e_i＝x_i1-x_id和分别代表第i个关节的位置和速度跟踪误差，x_id与分别是第i个关节的期望位置和速度，α_ei为确定常数，为效用函数，和是确定的正常数矩阵，D_i∈R⁺为已知的上界函数；

构建哈密顿方程和最优代价函数如下：

其中，是第i个关节期望的加速度，为代价函数J_i(s_i)的梯度；

在最优控制设计下，满足如下HJB方程：

令满足式(16)的分散最优控制律定义为如下形式：

其中，u_i1是反馈控制律，是最优补偿控制律；

处理式(11)中的和将(16)式的HJB方程改写成：

接下来，定义反馈控制律u_i1为

其中，u_i1是利用第i个关节模块的已知局部信息设计，设计分散最优控制的律的问题可以转化为找到一个最优补偿控制律来处理可重构机器人系统的不确定项；

步骤三，通过神经网络来近似代价函数J_i(s_i)，定义如下：

其中，W_ci是理想的权值向量，σ_ci(s_i)是激活函数，ε_ci是神经网络的逼近误差，J_i(s_i)的梯度通过神经网络近似为：

将式(21)带入式(18)可得：

理想权值W_ci是未知的，用近似权值来建立一个评价神经网络去估计代价函数：

根据哈密顿方程(14)和HJB方程(16)，哈密顿方程可以进一步改写为：

其中，u_i2是补偿控制律，e_cHi是由神经网络逼近误差而得到的残差，它可以定义为：

以同样的方式近似哈密顿方程，可得：

定义误差方程为权值估计误差为结合式(24)与式(26)，可以得到一个用表示e_ci的方程为：

训练和调整评价网络的权值信息，采用目标函数它可以被训练来取到最小值，且神经网络的权值可以通过下式进行更新：

其中，α_ci＞0表示评价神经网络的学习速率；

推导出神经网络权值的动态误差，引入下式：

通过式(27)，(28)和(29)，得到评价神经网络的动态误差如下所示：

在实现在线策略迭代算法来对策略进行改进时，得到了近似最优控制律如下所示：

结合式(19)与(31)，得到本发明的分散学习最优控制律为：

本发明的有益效果如下：

1、本发明所述的可重构机器人分散学习最优控制方法，可以在面向不确定环境接触的条件下，使机器人系统实现良好的稳定性与控制精度。

2、本发明所述的分散学习最优控制方法，可以在提高可重构机器人控制精度的同时，降低系统执行器的能耗。

3、本发明解决了关节子系统间耦合力矩交联项数量级过大的问题，并降低了机器人系统动力学模型的复杂性。

附图说明

图1为本发明不确定环境接触下的可重构机器人分散学习最优控制方法原理图。

图2为本发明仿真验证中考虑的时变约束力图2(a)和碰撞力图2(b)曲线。

图3为本发明仿真验证中的可重构机器人构形A的位置图3(a)和速度图3(b)跟踪误差曲线。

图4为本发明仿真验证中的可重构机器人构形B的位置图4(a)和速度图4(b)跟踪误差曲线。

图5为本发明仿真验证中的可重构机器人构形A图5(a)和构形B图5(b)的控制力矩曲线。

图6为本发明仿真验证中的可重构机器人构形A关节1图6(a)和关节2图6(b)的评价神经网络权值曲线。

图7为本发明仿真验证中的可重构机器人构形B关节1图7(a)和关节2图7(b)的评价神经网络权值曲线。

具体实施方式

下面结合附图对本发明做进一步详细说明。

如图1所示，采用本发明的可重构机器人分散学习最优控制方法，其实现中关键处理方法及过程如下：

1、动力学模型的建立。

建立可重构机机器人系统的动力学模型如下：

上式中，下标i代表第i个模块，I_mi是转动轴的转动惯量，γ_i是齿轮传动比，θ_i，和分别是关节位置，速度和加速度，是关节摩擦项，是关节子系统间的耦合力矩交联项，τf_i是关节输出转矩，τ_i是电机输出转矩。

(1)式中，关节摩擦项可以考虑为如下的关于关节位置和速度的函数：

其中，b_fi是粘性摩擦系数，f_ci是库伦摩擦相关系数，f_si是静态相关系数，f_τi是关于Stribeck效应的位置参数，是位置误差和其他摩擦模型误差。假设f_si和f_τi的标称值和他们的实际值是相接近的，我们就可以通过标称参数值和来线性化忽略高阶项后可以得到：

结合式(2)和式(3)，关节摩擦项可以近似等于：

其中，表示摩擦参数不确定项，分别为给定的摩擦参数的估计值，且表示为：

此外，(1)式子中的关节子系统间的耦合力矩交联项可以表示为：

其中，z_mi是第i个转子旋转轴上的单位矢量，z_lj是第i个关节旋转轴上的单位矢量，z_lk是第k个转子旋转轴上的单位矢量。

为了便于分析关节子系统间的耦合力矩交联项，将与表示为：

其中，下脚标i,j,k分别代表第i,j,k个关节。是单位向量z_mi与z_lj的点积，是校正误差；是单位向量z_mi与z_lk×z_lj的点积，是校正误差。

不同于现有的对于包含哥式力项、离心力项、重力项等项的交联项的研究，该方法中由于柔轮输出转矩τ_fi可以反映出负载转矩和第i个关节与外部环境接触时的转矩，所以子系统交联项只包含降阶关节的动态信息(从基座到第i个关节)。这可以大大降低交联项的数量级，并且降低动力学模型的复杂性。

重新改写式(1)中第i个子系统的动力学模型可以得到：

其中，B_i＝(I_miγ_i)^-1∈R⁺与表示动力学模型中的已精确建模和估计的部分，是模型不确定项，包括摩擦模型误差和关节子系统间的耦合力矩交联项。定义系统的状态向量控制输入u_i＝τ_i。

子系统的状态空间的形式可以表示为：

性质1：根据摩擦力模型(4)，如果参数b_fi，f_ci，f_si和f_τi都是有界的，我们可以得出是有界的，且ρ_Fil＝[ρ_Fi1,ρ_Fi2,ρ_Fi3,ρ_Fi4]是一个已知的常数向量，ρ_Fi1,ρ_Fi2,ρ_Fi3,ρ_Fi4为已知的正常数上界。因此，摩擦力模型的上界可以定义为

性质2：摩擦力项有界，且ρ_fpi对于任意的位置θ_i与速度是一个已知的有界常数。

性质3：z_mi，z_lk与z_lj是沿着相应关节旋转方向的单位矢量，与得到的向量乘积是有界的。此外，当关节稳定时，它的加速度与速度一定是有界的，因此，根据在(8)与(9)中交联项的形式，可以得出这样的结论：如果关节j和关节k是稳定的(j,k＜i)，那么与是有界的，且满足 ρ_Uj与ρ_Vj是已知正常数上界。由此可知，性质3说明了如果关节j和关节k是稳定的(j,k＜i)，那么与是有界的，这意味着当我们设计第i个关节的控制器时，低阶关节i-1也已经是稳定的。

2、代价函数与哈密顿函数的构建。

首先，构建代价函数为：

其中，s_i(e_i)定义为且e_i＝x_i1-x_id和分别代表第i个关节的位置和速度跟踪误差，x_id与分别是第i个关节期望的位置和速度，α_ei为确定常数，为效用函数，和是确定的正常数矩阵，D_i∈R⁺为已知的上界函数。

定义哈密顿方程如下：

其中，是第i个关节的期望加速度，为代价函数J_i(s_i)的梯度。

定义如下最优代价函数：

易知在最优控制设计下，满足如下HJB方程：

令满足式(16)的分散最优控制律定义为如下形式：

其中，u_i1是反馈控制律，是最优补偿控制律。

为了处理式(11)中的和HJB方程(16)可以改写成：

定义反馈控制律u_i1为：

由于u_i1是根据第i个关节模块的局部动态信息来设计的，因此，设计分散最优控制律的问题可以被转化为寻找一个最优补偿控制律来处理可重构模块机器人系统的不确定项。

通过基于策略迭代的学习算法，来求HJB方程的解。令δ＝0，从初始控制策略开始，选择一个很小的正常数ε，基于控制策略根据与求解而后采用对控制策略进行更新，如果δ＞0且则停止运算，得到近似最优控制，否则δ＝δ+1然后继续求解

3、基于神经网络的代价函数近似实现。

利用单隐层神经网络来近似代价函数J_i(s_i)，定义如下：

将式(21)带入式(18)可得：

由于理想权值W_ci是未知的，所以用近似权值建立一个评价神经网络来估计代价函数：

其中，u_i2是补偿控制律。e_cHi是由神经网络逼近误差而得到的残差，它可以定义为：

以同样的方式近似哈密顿方程，可得：

定义误差方程为权值估计误差为结合式(24)与式(26)，可以得到一个用表示e_ci的方程：

为了训练和调整评价网络的权值信息，采用目标函数它可以被训练来取到最小值，且神经网络的权值可以通过下式进行更新：

其中，α_ci＞0表示评价神经网络的学习速率。为了推导出神经网络权值的动态误差，引入下式：

通过式(27)，(28)和(29)，得到评价神经网络的动态误差如下所示

在实现在线策略迭代算法来完成策略改进时，得到了近似最优控制率如下所示：

结合式(19)与(31)，可得可重构机器人系统的分散学习最优控制律为：

4、仿真验证。

为了验证所提出的分散最优控制方法的有效性，对不确定环境接触的二自由度可重构机器人模型的两种不同构形进行仿真验证，其中，控制器参数由表1给出：

表1控制器参数

可重构机器人的两种不同构形的初始位置均选为x₁₀＝[1,1]^T，x₂₀＝[0,0]^T，两种构形的理想轨迹如下所示：

构形A：

x_1d＝0.4cos(0.3t)-0.1sin(0.5t)

构形B：

x_1d＝0.2cos(0.5t)-0.2sin(0.4t)

x_1d＝0.3cos(0.6t)-0.4sin(0.6t)

选取权值向量为：激活函数σ_ci(s_i)(i＝1,2)选取为：摩擦模型参数选取为：

f_ci＝0.35+0.7sin(10θ_i)n·m

f_si＝0.5+sin(10θ_i)n·m

f_τi＝0.1+0.2sin(10θ_i)s²/rad²

b_fi＝0.5+0.3sin(10θ_i)n·m·s/rad

在仿真中考虑了两种类型的外部环境接触，包括连续时变环境约束(构形A)和随机时间点处的碰撞(构形B)。

对于构形A，其所受到的外界接触力被考虑成由一个长度l_c＝0.5m，质量m_c＝4kg，以时变角度变量α(t)＝0.75π+0.2sin(t/2)旋转的刚性长杆接触所产生的时变接触力f_cont，可以表示为：

对于构形B，在30秒和45秒的时间点上，在垂直于末端执行器的方向上施加50N的碰撞力。

图2所示分别为仿真过程中考虑的时变约束力图2(a)和碰撞力图2(b)曲线。需要注意的是，约束力和碰撞力的信息只用于仿真设计中，而不用于控制器设计中，因为对可重构机器人系统的控制器来说，环境接触力一直是未知的。

图3所示分别为可重构机器人构形A的位置图3(a)和速度图3(b)跟踪误差曲线。在前10秒，由于分散学习最优控制器需要一段时间来训练评价网络，因此这种情况下的跟踪误差都比较明显。在此之后，由于模型的不确定项得到补偿，跟踪误差会收敛到一个很小的范围(小于10e-2弧度)。

图4所示分别为可重构机器人构形B的位置图4(a)和速度图4(b)跟踪误差曲线。由仿真结果可知，瞬时位置误差和速度误差发生30秒和45秒的时间点上，这是由于与环境发生了碰撞的原因，在此之后，跟踪误差在分散最优控制的作用下迅速收敛。

图5所示分别为可重构机器人构形A图5(a)和构形B图5(b)的控制力矩曲线。从中我们可以得出这样的结论：这些控制力矩连续而平滑，可以用于实际的可重构机器人系统中。此外，受益于最优控制策略，力矩消耗在适当的范围内进行了最优化，以匹配每个关节模块的输出功率。值得注意的是，本发明的分散学习最优控制器适用于可重构模块机器人的不同构形，而无需调整控制器参数。

图6所示分别为可重构机器人构形A关节1图6(a)和关节2图6(b)的评价神经网络权值曲线。在线迭代策略算法和评价神经网络训练的实现过程中，对于每个独立的子系统，我们得到了每种情况下两秒钟后的权值收敛的结果，实际上，构形A的评价神经网络的权值会收敛到：

图7所示分别为可重构机器人构形B关节1图7(a)和关节2图7(b)的评价神经网络权值曲线，由仿真结果可知，构形B的评价神经网络的权值会收敛到：

通过上述仿真结果可知，采用本发明所示的分散学习最优控制方法，可以使可重构机器人系统在面向不确定环境接触的条件下实现高性能的轨迹跟踪控制。

Claims

1.不确定环境接触下的可重构机器人分散学习最优控制方法，其特征是，首先建立可重构机器人系统动力学模型，通过对可重构机器人关节子系统间的耦合力矩交联项的分析，然后构建代价函数与HJB方程，通过基于策略迭代的学习算法，来求HJB方程的解，接下来采用神经网络对代价函数进行近似，最后通过仿真验证所提出控制方法的有效性。

2.根据权利要求1所述的不确定环境接触下的可重构机器人分散学习最优控制方法，其特征在于，该方法包括以下步骤：

步骤一，建立可重构机器人系统动力学模型如下：

<mrow> <msub> <mi>I</mi> <mrow> <mi>m</mi> <mi>i</mi> </mrow> </msub> <msub> <mi>&gamma;</mi> <mi>i</mi> </msub> <msub> <mover> <mi>&theta;</mi> <mo>&CenterDot;&CenterDot;</mo> </mover> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>&theta;</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mover> <mi>&theta;</mi> <mo>&CenterDot;</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>Z</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>,</mo> <mover> <mi>&theta;</mi> <mo>&CenterDot;</mo> </mover> <mo>,</mo> <mover> <mi>&theta;</mi> <mo>&CenterDot;&CenterDot;</mo> </mover> <mo>)</mo> </mrow> <mo>+</mo> <mfrac> <mrow> <msub> <mi>&tau;f</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>&gamma;</mi> <mi>i</mi> </msub> </mfrac> <mo>=</mo> <msub> <mi>&tau;</mi> <mi>i</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

定义系统的状态向量控制输入u_i＝τ_i；

则子系统的状态空间的形式可以表示为：

<mrow> <msub> <mi>S</mi> <mi>i</mi> </msub> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mover> <mi>x</mi> <mo>&CenterDot;</mo> </mover> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>=</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mover> <mi>x</mi> <mo>&CenterDot;</mo> </mover> <mrow> <mi>i</mi> <mn>2</mn> </mrow> </msub> <mo>=</mo> <mo>-</mo> <mrow> <mo>(</mo> <msub> <mi>&phi;</mi> <mi>i</mi> </msub> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mover> <mi>x</mi> <mo>&CenterDot;</mo> </mover> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>+</mo> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>(</mo> <mrow> <mi>x</mi> <mo>,</mo> <mover> <mi>x</mi> <mo>&CenterDot;</mo> </mover> <mo>,</mo> <mover> <mi>x</mi> <mo>&CenterDot;&CenterDot;</mo> </mover> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <msub> <mi>u</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>y</mi> <mo>=</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>

步骤二，考虑式(11)，构建代价函数如下：

<mrow> <msub> <mi>J</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>(</mo> <msub> <mi>e</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mo>&Integral;</mo> <mn>0</mn> <mi>&infin;</mi> </msubsup> <mo>{</mo> <msub> <mi>U</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>(</mo> <mrow> <msub> <mi>e</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>&tau;</mi> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>,</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>(</mo> <mi>&tau;</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mi>D</mi> <mi>i</mi> <mi>T</mi> </msubsup> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>}</mo> <mi>d</mi> <mi>&tau;</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>

构建哈密顿方程和最优代价函数如下：

<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mi>H</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>,</mo> <mo>&dtri;</mo> <msub> <mi>J</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>U</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>(</mo> <msub> <mi>e</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>,</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mo>&dtri;</mo> <msub> <mi>J</mi> <mi>i</mi> </msub> <msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>T</mi> </msup> <msub> <mover> <mi>s</mi> <mo>&CenterDot;</mo> </mover> <mi>i</mi> </msub> <mo>+</mo> <msubsup> <mi>D</mi> <mi>i</mi> <mi>T</mi> </msubsup> <msub> <mi>D</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <msub> <mi>U</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mo>&dtri;</mo> <msub> <mi>J</mi> <mi>i</mi> </msub> <msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mrow> <mo>(</mo> <mo>-</mo> <msub> <mi>&phi;</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>&alpha;</mi> <mrow> <mi>e</mi> <mi>i</mi> </mrow> </msub> <msub> <mover> <mi>e</mi> <mo>&CenterDot;</mo> </mover> <mi>i</mi> </msub> <mo>-</mo> <msub> <mover> <mi>x</mi> <mo>&CenterDot;&CenterDot;</mo> </mover> <mrow> <mi>i</mi> <mi>d</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mi>D</mi> <mi>i</mi> <mi>T</mi> </msubsup> <msub> <mi>D</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>14</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msubsup> <mi>J</mi> <mi>i</mi> <mo>*</mo> </msubsup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>min</mi> <msub> <mi>u</mi> <mi>i</mi> </msub> </munder> <msubsup> <mo>&Integral;</mo> <mn>0</mn> <mi>&infin;</mi> </msubsup> <mo>{</mo> <msub> <mi>U</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>(</mo> <mrow> <msub> <mi>e</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>&tau;</mi> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>,</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>(</mo> <mi>&tau;</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mi>D</mi> <mi>i</mi> <mi>T</mi> </msubsup> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>}</mo> <mi>d</mi> <mi>&tau;</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>15</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

在最优控制设计下，满足如下HJB方程：

令满足式(16)的分散最优控制律定义为如下形式：

其中，u_i1是反馈控制律，是最优补偿控制律；

处理式(11)中的和将(16)式的HJB方程改写成：

<mrow> <mn>0</mn> <mo>=</mo> <msub> <mi>U</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>,</mo> <msubsup> <mi>u</mi> <mi>i</mi> <mo>*</mo> </msubsup> <mo>)</mo> </mrow> <mo>+</mo> <mo>&dtri;</mo> <msubsup> <mi>J</mi> <mi>i</mi> <mo>*</mo> </msubsup> <msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mrow> <mo>(</mo> <mo>-</mo> <msub> <mi>&phi;</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <msub> <mi>u</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <msubsup> <mi>u</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> <mo>*</mo> </msubsup> <mo>+</mo> <msub> <mi>&alpha;</mi> <mrow> <mi>e</mi> <mi>i</mi> </mrow> </msub> <msub> <mover> <mi>e</mi> <mo>&CenterDot;</mo> </mover> <mi>i</mi> </msub> <mo>-</mo> <msub> <mover> <mi>x</mi> <mo>&CenterDot;&CenterDot;</mo> </mover> <mrow> <mi>i</mi> <mi>d</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mi>D</mi> <mi>i</mi> <mi>T</mi> </msubsup> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>18</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

接下来，定义反馈控制律u_i1为

<mrow> <msub> <mi>u</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>=</mo> <msub> <mover> <mi>b</mi> <mo>^</mo> </mover> <mrow> <mi>f</mi> <mi>i</mi> </mrow> </msub> <msub> <mover> <mi>x</mi> <mo>&CenterDot;</mo> </mover> <mi>i</mi> </msub> <mo>+</mo> <mrow> <mo>(</mo> <msub> <mover> <mi>f</mi> <mo>^</mo> </mover> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mo>+</mo> <msub> <mover> <mi>f</mi> <mo>^</mo> </mover> <mrow> <mi>s</mi> <mi>i</mi> </mrow> </msub> <msup> <mi>e</mi> <mrow> <mo>(</mo> <mo>-</mo> <msub> <mover> <mi>f</mi> <mo>^</mo> </mover> <mrow> <mi>&tau;</mi> <mi>i</mi> </mrow> </msub> <msubsup> <mover> <mi>x</mi> <mo>&CenterDot;</mo> </mover> <mi>i</mi> <mn>2</mn> </msubsup> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mi>sgn</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>x</mi> <mo>&CenterDot;</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mfrac> <msub> <mi>&tau;</mi> <mrow> <mi>f</mi> <mi>i</mi> </mrow> </msub> <msub> <mi>&gamma;</mi> <mi>i</mi> </msub> </mfrac> <mo>-</mo> <msubsup> <mi>B</mi> <mi>i</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mrow> <mo>(</mo> <msub> <mi>&alpha;</mi> <mrow> <mi>e</mi> <mi>i</mi> </mrow> </msub> <msub> <mover> <mi>e</mi> <mo>&CenterDot;</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mi>B</mi> <mi>i</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <msub> <mover> <mi>x</mi> <mo>&CenterDot;&CenterDot;</mo> </mover> <mrow> <mi>i</mi> <mi>d</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>19</mn> <mo>)</mo> </mrow> </mrow>

步骤三，通过神经网络来近似代价函数J_i(s_i)，定义如下：

<mrow> <msub> <mi>J</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>W</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> <mi>T</mi> </msubsup> <msub> <mi>&sigma;</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>&epsiv;</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>20</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mo>&dtri;</mo> <msub> <mi>J</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mrow> <mo>(</mo> <mo>&dtri;</mo> <msub> <mi>&sigma;</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mi>T</mi> </msup> <msub> <mi>W</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mo>+</mo> <mo>&dtri;</mo> <msub> <mi>&epsiv;</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>21</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

将式(21)带入式(18)可得：

<mrow> <mn>0</mn> <mo>=</mo> <msub> <mi>U</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>,</mo> <msubsup> <mi>u</mi> <mi>i</mi> <mo>*</mo> </msubsup> <mo>)</mo> </mrow> <mo>+</mo> <msup> <mrow> <mo>(</mo> <msup> <mrow> <mo>(</mo> <mrow> <mo>&dtri;</mo> <msub> <mi>&sigma;</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mi>T</mi> </msup> <msub> <mi>W</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mo>+</mo> <mo>&dtri;</mo> <msub> <mi>&epsiv;</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mrow> <mo>(</mo> <mo>-</mo> <msub> <mi>&phi;</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <msub> <mi>u</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <msubsup> <mi>u</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> <mo>*</mo> </msubsup> <mo>+</mo> <msub> <mi>&alpha;</mi> <mrow> <mi>e</mi> <mi>i</mi> </mrow> </msub> <msub> <mover> <mi>e</mi> <mo>&CenterDot;</mo> </mover> <mi>i</mi> </msub> <mo>-</mo> <msub> <mover> <mi>x</mi> <mo>&CenterDot;&CenterDot;</mo> </mover> <mrow> <mi>i</mi> <mi>d</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mi>D</mi> <mi>i</mi> <mi>T</mi> </msubsup> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>22</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mover> <mi>J</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mover> <mi>W</mi> <mo>^</mo> </mover> <mrow> <mi>c</mi> <mi>i</mi> </mrow> <mi>T</mi> </msubsup> <msub> <mi>&sigma;</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>23</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <msub> <mi>H</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>,</mo> <mo>&dtri;</mo> <msub> <mi>J</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>U</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mi>D</mi> <mi>i</mi> <mi>T</mi> </msubsup> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>+</mo> <mrow> <mo>(</mo> <msubsup> <mi>W</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> <mi>T</mi> </msubsup> <msub> <mi>&sigma;</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mo>-</mo> <msub> <mi>&phi;</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <msub> <mi>u</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <msub> <mi>u</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>&alpha;</mi> <mrow> <mi>e</mi> <mi>i</mi> </mrow> </msub> <msub> <mover> <mi>e</mi> <mo>&CenterDot;</mo> </mover> <mi>i</mi> </msub> <mo>-</mo> <msub> <mover> <mi>x</mi> <mo>&CenterDot;&CenterDot;</mo> </mover> <mrow> <mi>i</mi> <mi>d</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>e</mi> <mrow> <mi>c</mi> <mi>H</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>24</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>e</mi> <mrow> <mi>c</mi> <mi>H</mi> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mo>-</mo> <mo>&dtri;</mo> <msubsup> <mi>&epsiv;</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> <mi>T</mi> </msubsup> <mrow> <mo>(</mo> <mo>-</mo> <msub> <mi>&phi;</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <msub> <mi>u</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <msub> <mi>u</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>&alpha;</mi> <mrow> <mi>e</mi> <mi>i</mi> </mrow> </msub> <msub> <mover> <mi>e</mi> <mo>&CenterDot;</mo> </mover> <mi>i</mi> </msub> <mo>-</mo> <msub> <mover> <mi>x</mi> <mo>&CenterDot;&CenterDot;</mo> </mover> <mrow> <mi>i</mi> <mi>d</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>25</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

以同样的方式近似哈密顿方程，可得：

<mrow> <msub> <mover> <mi>H</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mover> <mi>W</mi> <mo>^</mo> </mover> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>U</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mi>D</mi> <mi>i</mi> <mi>T</mi> </msubsup> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>+</mo> <mrow> <mo>(</mo> <msubsup> <mi>W</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> <mi>T</mi> </msubsup> <msub> <mi>&sigma;</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mo>-</mo> <msub> <mi>&phi;</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <msub> <mi>u</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <msub> <mi>u</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>&alpha;</mi> <mrow> <mi>e</mi> <mi>i</mi> </mrow> </msub> <msub> <mover> <mi>e</mi> <mo>&CenterDot;</mo> </mover> <mi>i</mi> </msub> <mo>-</mo> <msub> <mover> <mi>x</mi> <mo>&CenterDot;&CenterDot;</mo> </mover> <mrow> <mi>i</mi> <mi>d</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>26</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <msub> <mi>e</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>e</mi> <mrow> <mi>c</mi> <mi>H</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msubsup> <mover> <mi>W</mi> <mo>~</mo> </mover> <mrow> <mi>c</mi> <mi>i</mi> </mrow> <mi>T</mi> </msubsup> <mo>&dtri;</mo> <msub> <mi>&sigma;</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mo>-</mo> <msub> <mi>&phi;</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <msub> <mi>u</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <msub> <mi>u</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>&alpha;</mi> <mrow> <mi>e</mi> <mi>i</mi> </mrow> </msub> <msub> <mover> <mi>e</mi> <mo>&CenterDot;</mo> </mover> <mi>i</mi> </msub> <mo>-</mo> <msub> <mover> <mi>x</mi> <mo>&CenterDot;&CenterDot;</mo> </mover> <mrow> <mi>i</mi> <mi>d</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>27</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <msub> <mover> <mover> <mi>W</mi> <mo>^</mo> </mover> <mo>&CenterDot;</mo> </mover> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mo>-</mo> <msub> <mi>&alpha;</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>&part;</mo> <msub> <mi>E</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> </mrow> <mrow> <mo>&part;</mo> <msub> <mover> <mi>W</mi> <mo>^</mo> </mover> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>28</mn> <mo>)</mo> </mrow> </mrow>

其中，α_ci＞0表示评价神经网络的学习速率；

推导出神经网络权值的动态误差，引入下式：

<mrow> <mfrac> <mrow> <mo>&part;</mo> <msub> <mi>e</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> </mrow> <mrow> <mo>&part;</mo> <msub> <mover> <mi>W</mi> <mo>^</mo> </mover> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> </mrow> </mfrac> <mo>=</mo> <mo>&dtri;</mo> <msub> <mi>&sigma;</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mo>-</mo> <msub> <mi>&phi;</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <msub> <mi>u</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <msub> <mi>u</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>&alpha;</mi> <mrow> <mi>e</mi> <mi>i</mi> </mrow> </msub> <msub> <mover> <mi>e</mi> <mo>&CenterDot;</mo> </mover> <mi>i</mi> </msub> <mo>-</mo> <msub> <mover> <mi>x</mi> <mo>&CenterDot;&CenterDot;</mo> </mover> <mrow> <mi>i</mi> <mi>d</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>29</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <msub> <mover> <mover> <mi>W</mi> <mo>~</mo> </mover> <mo>&CenterDot;</mo> </mover> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>&alpha;</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mrow> <mi>c</mi> <mi>H</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msubsup> <mover> <mi>W</mi> <mo>~</mo> </mover> <mrow> <mi>c</mi> <mi>i</mi> </mrow> <mi>T</mi> </msubsup> <mfrac> <mrow> <mo>&part;</mo> <msub> <mi>e</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> </mrow> <mrow> <mo>&part;</mo> <msub> <mover> <mi>W</mi> <mo>^</mo> </mover> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>&times;</mo> <mfrac> <mrow> <mo>&part;</mo> <msub> <mi>e</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> </mrow> <mrow> <mo>&part;</mo> <msub> <mover> <mi>W</mi> <mo>^</mo> </mover> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>30</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <msubsup> <mover> <mi>u</mi> <mo>^</mo> </mover> <mrow> <mi>i</mi> <mn>2</mn> </mrow> <mo>*</mo> </msubsup> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msubsup> <mi>R</mi> <mi>i</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <msubsup> <mi>B</mi> <mi>i</mi> <mi>T</mi> </msubsup> <msup> <mrow> <mo>(</mo> <mo>&dtri;</mo> <msub> <mi>&sigma;</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mi>T</mi> </msup> <msub> <mover> <mi>W</mi> <mo>^</mo> </mover> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>31</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

结合式(19)与(31)，得到本发明的分散学习最优控制律为：

<mrow> <msubsup> <mi>u</mi> <mi>i</mi> <mo>*</mo> </msubsup> <mo>=</mo> <msub> <mover> <mi>b</mi> <mo>^</mo> </mover> <mrow> <mi>f</mi> <mi>i</mi> </mrow> </msub> <msub> <mover> <mi>x</mi> <mo>&CenterDot;</mo> </mover> <mi>i</mi> </msub> <mo>+</mo> <mo>(</mo> <mrow> <msub> <mover> <mi>f</mi> <mo>^</mo> </mover> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mo>+</mo> <msub> <mover> <mi>f</mi> <mo>^</mo> </mover> <mrow> <mi>s</mi> <mi>i</mi> </mrow> </msub> <msup> <mi>e</mi> <mrow> <mo>(</mo> <mo>-</mo> <msub> <mover> <mi>f</mi> <mo>^</mo> </mover> <mrow> <mi>&tau;</mi> <mi>i</mi> </mrow> </msub> <msubsup> <mover> <mi>x</mi> <mo>&CenterDot;</mo> </mover> <mi>i</mi> <mn>2</mn> </msubsup> <mo>)</mo> </mrow> </msup> <mi>sgn</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>x</mi> <mo>&CenterDot;</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mfrac> <mrow> <msub> <mi>&tau;f</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>&gamma;</mi> <mi>i</mi> </msub> </mfrac> </mrow> <mo>)</mo> <mo>-</mo> <msubsup> <mi>B</mi> <mi>i</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mrow> <mo>(</mo> <msub> <mi>&alpha;</mi> <mrow> <mi>e</mi> <mi>i</mi> </mrow> </msub> <msub> <mover> <mi>e</mi> <mo>&CenterDot;</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mi>B</mi> <mi>i</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <msub> <mover> <mi>x</mi> <mo>&CenterDot;&CenterDot;</mo> </mover> <mrow> <mi>i</mi> <mi>d</mi> </mrow> </msub> <mo>-</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msubsup> <mi>R</mi> <mi>i</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <msubsup> <mi>B</mi> <mi>i</mi> <mi>T</mi> </msubsup> <msup> <mrow> <mo>(</mo> <mo>&dtri;</mo> <msub> <mi>&sigma;</mi> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mi>T</mi> </msup> <msub> <mover> <mi>W</mi> <mo>^</mo> </mover> <mrow> <mi>c</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>37</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow>