CN111880414A

CN111880414A - 一种基于匹配或不匹配不确定性的dt仿射非线性系统的自适应交错强化学习方法

Info

Publication number: CN111880414A
Application number: CN202010840032.8A
Authority: CN
Inventors: 李金娜; 肖振飞; 王佳琦; 王春彦; 闫立鹏
Original assignee: Liaoning Shihua University
Current assignee: Liaoning Shihua University
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2020-11-03
Anticipated expiration: 2040-08-20
Also published as: CN111880414B

Abstract

一种基于匹配或不匹配不确定性的DT仿射非线性系统的自适应交错强化学习方法，属于工业控制技术领域，包括如下步骤：(1)基于最优控制的问题，推导匹配和不匹配DT仿射非线性系统鲁棒稳定条件；(2)结合神经网络逼近的交错RL方法寻找一致最终有界(UUB)稳定性的鲁棒控制策略。本发明通过建立一种简化哈密顿‑雅可比贝尔曼(HJB)方程来求解DT仿射非线性系统的鲁棒控制器，在未知结构匹配不确定性和非结构匹配不确定性的适用性意义上更具一般性。

Description

一种基于匹配或不匹配不确定性的DT仿射非线性系统的自适应交错强化学习方法

技术领域

本发明属于工业控制技术领域，具体涉及一种基于匹配或不匹配不确定性的不确定仿射非线性离散时间(DT)仿射非线性系统的自适应交错强化学习方。

背景技术

虽然在鲁棒控制领域已经有了大量的研究成果，但从离散时间采样的角度设计非线性系统的鲁棒控制器仍然是一个值得研究的问题。上述关于鲁棒控制的结果仅适用于连续时间线性或非线性系统。由于离散时间控制器具有可以用现代嵌入式硬件直接以数字形式实现的重要优点，那么如何直接在离散时间内为系统，特别是非线性DT系统设计鲁棒控制器就自然而然地提出了一个问题。DT系统与连续时间系统的本质差异对解决这一问题提出了挑战，而DT系统的非线性特性又会使其变得更加复杂。利用求解广义HJB方程的思想，提出了一种具有匹配不确定性的DT非线性系统的鲁棒控制策略。应该关注的包括两个方面。其一是针对DT非线性系统在自适应动态规划ADP结构下的鲁棒控制方法，该方法既适用于匹配的未知不确定性，也适用于不匹配的未知不确定性。另一种是在求解优化问题时，用简化的HJB方程代替Generalized Hamilton-Jacobi-Bellman(GHJB)方程，使得DT仿射非线性系统的鲁棒控制器可以用交错RL方法学习，计算量较小。

发明内容

本发明涉及一种基于匹配或不匹配不确定性的DT仿射非线性系统的自适应交错强化学习方法，是一种针对非线性离散系统在自适应动态规划结构下的鲁棒控制方法。该方法既适用于结构匹配的未知确定性，也适用于非结构匹配的未知确定性。在用ADP方法求解优化问题时，提出一种简化的HJB方程使得离散仿射非线性系统的鲁棒控制器可以用交错RL方法学习。

本发明的目的是通过以下技术方案实现的：

一种基于匹配或不匹配不确定性的DT仿射非线性系统的自适应交错强化学习方法，包括如下步骤：(1)基于最优控制的问题，推导匹配和不匹配不确定DT仿射非线性系统鲁棒稳定条件；(2)结合神经网络逼近的交错RL方法寻找UUB稳定性的鲁棒控制策略；

所述步骤(1)分为三个阶段：1)鲁棒控制问题；2)增广效用函数的标准系统的最优控制问题；3)设计鲁棒控制器：

阶段1)鲁棒控制问题具体为：建立具有任意有界不确定性的DT仿射非线性系统的鲁棒控制问题，基于给出假设和定义，跟踪关注鲁棒控制问题；DT仿射非线性系统(1)描述为：

x_k+1＝f(x_k)+g(x_k)u_k+Δf(x_k) (1)

其中x_k∈Rⁿ和u_k∈R^m分别为状态和控制输入，Δf(x_k)为未建模的动力学、扰动或系统识别不准确引起的不确定性Δf(0)＝0，这里，一般不确定性的一种形式的

对系统(1)，D(x_k)是一个有界函数，其中

是一个未知项被

界定，h(x_k)∈R^m×n是已知的函数矩阵；

阶段2)最优控制的优化问题求解具体为：首先基于动态规划方法和不动点原理，获得耦合协同博弈Hamiltonian-Jacobi-Bellman(HJB)方程，然后基于李雅普诺夫(Lyapunov)稳定性理论证明求解耦合协同博弈HJB方程得到的控制策略，然后找出系统的鲁棒控制与相应标准系统的最优控制之间的内在联系，找到两类不确定DT仿射非线性系统的鲁棒控制器通过最优控制的方法；具体为：

关于系统(1)的标称系统(2)，

x_k+1＝f(x_k)+g(x_k)u_k (2)

假设，对于系统(2)，希望找到控制律u_k使下面的特定性能指标最小化:

其中r(x_k,u_k)称为效用函数

最优控制策略u_k针对系统(2)最小化性能指标(3)可以通过求解下面的HJB方程得到:

其中

得到最优控制律为

其中

和V^*(x_k)被称为最优值函数，其定义是

阶段3)基于阶段2)获得的耦合协同博弈HJB方程，扩展到系统模型完全未知的优化控制中，所述阶段3)中具体为：①给出最优值函数；②利用最优值函数，在控制策略下沿不确定系统的轨迹产生泰勒级数展开式；③基于李亚普诺夫稳定性理论，证明控制策略确保系统对于不确定性系统的所有可能实现的稳定性；

对于系统(2)，如果假设1成立，则控制策略

保证系统(1)具有匹配不确定性

鲁棒稳定，且在集合Ω上存在一个正定且二次连续可微的函数V^*(x_k)，如果β(x_k)设为：

简化后的HJB方程成立。

其中，

代表Hessian矩阵，定义为

满足(8)的函数V^*(x_k)是名义系统(2)优化问题的最优值函数；

利用满足(8)的最优值函数V^*(x_k)，在控制策略(5)下沿不确定系统(1)的轨迹产生关于操作点x_k+1的泰勒级数展开式：

其中，

为梯度向量，定义

和(5)，利用

(a和b是具有适当维数的向量)的事实产生；

所述步骤(2)具体为：

1)值函数和控制协议估计控制策略分别使用基于Value函数近似的带误差的神经网络(NNs)来表示，给出近似策略迭代方法，估计最右控制性；

2)分析算法的收敛性：分别定义在系统中的值函数和控制策略在时间步长k处交替迭代足够多的次数，使得任意接近简化的HJB方程的解；如果增加批判神经网络和行为者神经网络的神经元数目，并选择合适的学习率，则神经网络的估计误差尽可能小，采用在时间步长处的权重和权重的交织单步更新，从而开发出以下交织RL方法，在本方法中，权重和将与迭代指数交错训练，直到在每个时间步长k收敛为止；

3)自适应控制协议设计：采用梯度下降法执行三重指标迭代策略，方法是最小化近似误差；

具体为：用于强化控制策略的交错式RL；

提出交错的RL方法逼近鲁棒控制器，使得DT仿射非线性系统(1)的轨迹为UUB；平滑值函数和控制策略分别使用基于Value函数近似的带误差的NNs来表示为：

分别定义在(1)和(2)中的值函数和控制策略在时间步长k处交替迭代足够多的次数，使得任意接近简化的HJB方程的解；具体地说，在每个迭代i处，NN被表示为:

因此

并且在每次迭代i时，控制策略由下式给出：

其中ω_ci(k)和ω_ai(k)是

和

的近似值，

和

被选为常数向量，ω_ci(k)是通过使用梯度下降算法来实现的，方法是最小化近似误差；

式中，

同样权重ω_ai(k)可以通过以下形式训练:

其中l_a表示学习率，近似误差e_ai(k)定义为：

其中x_k+1是由最后一个时间步长k的

产生的，如果增加批判神经网络和行为者神经网络的神经元数目，并选择合适的学习率，则神经网络的估计误差可以尽可能小，采用在时间步长k处的权重ω_ci(k)和权重ω_ai(k)的交织单步更新，从而开发出以下交错RL算法；

不确定系统的交错RL方法：

Ⅰ.初始化：设置时间步长k＝1，迭代指数i＝0，给定初始状态x₁和x₂；

Ⅱ.交错迭代：给定权重υ_c和υ_a，初始化评论者NN和执行者NN的权重ω_ci(k)和ω_ai(k)，并设置初始学习率l_c和l_a；根据(7)更新权重ω_ci(k)；根据(8)更新权重ω_ai(k)；

如果不满足

和

则进行i的迭代

Ⅲ.设置ω_c(k)＝ω_ci(k)和ω_a(k)＝ω_ai(k)，得到

它应用于标称系统作为输入以产生数据x_k+1和x_k+2；

Ⅳ.||ω_a(k)-ω_a(k-1)||≤ε，||ω_c(k)-ω_c(k-1)||≤ε进行下一步；否则进行k的迭代并返回步骤Ⅱ；

Ⅴ.得到

和

的近似值ω_c(k)和ω_a(k)，从而得到u_k的近似值

权重ω_ci(k)和ω_ai(k)与迭代指数i交错训练，直到在每个时间步长收敛为止，得到控制动作并行为系统(2)用于下次生成新数据。

进一步地，所述阶段1)给出假设和定义具体为：

假设1:系统(1)无漂移，即f(0)＝0，g(0)＝0，f(x_k)∈Rⁿ，g(x_k)∈Rⁿ假定有界，且f(x_k)+g(x_k)u_k在包含原点的

上是连续的；

定义1:如果存在一种控制策略u_k，该策略下系统(1)对于所有不确定性Δf(x_k)渐近稳定，则系统(1)称为鲁棒可稳定，该控制策略u_k称为鲁棒控制器；

定义2:系统(1)假设在原点,如果存在一个绑定M和时间步N(N是一个正整数),这样解集x_k∈Ω上的||x_k||≤M。

进一步地，还包括证明所提方法的收敛性和系统在学习控制策略下的UUB稳定性；对所提方法的有效性进行验证，采用仿真软件，联合验证理论方法和结果的有效性。

进一步地，所述证明所提方法的收敛性和系统在学习控制策略下的UUB稳定性的具体步骤如下：

①收敛性验证：

首先，根据获得的无模型性能和控制行为迭代方程，利用梯度下降法，选择调节因子，构建关于神经网络的递归方程，此神经网络权有三重指标，包括近似策略迭代步骤指标i，神经网络权递归方程步骤指标j和时间指标k(i,j为正整数，k为第k次采样时刻)；然后，参考无模型性能和控制行为迭代方程，分析神经网络权的收敛性；

②不确定系统的UBB稳定性：

首先简化的HJB方程的解作为Lyapunov函数候选，其后进行泰勒展开，

则V(x_k+1)-V(x_k)＜0即表明本方法所学习的控制策略

保证系统的轨迹为UUB。

进一步地，所述方法实现后，采用学习到的鲁棒控制策略的近似值作为系统的控制行为，以容忍不确定性。

本发明的优点与效果是：本发明提出的方法的主要优点是首次建立了一种简化的HJB方程，用于求解DT仿射非线性系统的鲁棒控制器，在未知匹配不确定性和非匹配不确定性的适用性意义上更具一般性。此外，本发明还对所设计的控制器下的交错RL方法的收敛性和有界不确定闭环系统的UUB稳定性进行了严格的证明。这种方法的提出，从长远来看，可以保证工业上的系统高效，稳定的运行，从而提高了效率。

附图说明

图1为不确定性交错RL方法框图；

图2为批判者NN和行为者NN的权重演变；

图3为案例模拟中评论家和演员NN的权重的训练结果。

具体实施方式

一种基于匹配或不匹配不确定性DT仿射非线性系统的自适应交错强化学习方法，通过选择合适的效用函数，将鲁棒控制问题转化为标准系统的最优控制问题，在求解简化的HJB方程时，在每个时间步交替实施性能评估和控制策略更新，结合神经网络逼近，从而保证DT仿射非线性系统的一致最终有界(UUB)稳定性，允许所有未知有界不确定性的实现。对所提出的交错RL方法的收敛性和不确定系统的UUB稳定性进行了严格的理论证明；具体步骤如下：(1)基于最优控制的问题，推导匹配和不匹配不确定DT仿射非线性系统鲁棒稳定条件。(2)提出结合神经网络逼近的交错RL来寻找UUB稳定性意义下的鲁棒控制策略。(3)证明所提方法的收敛性和系统在学习控制策略下的UUB稳定性。对所提方法的有效性进行验证，采用仿真软件，联合验证理论方法和结果的有效性。

所述步骤(1)分为三个阶段：1)鲁棒控制问题2)增广效用函数的标准系统的最优控制问题3)鲁棒控制器设计。

阶段2)优化问题求解具体为：首先基于动态规划方法和不动点原理，获得耦合协同博弈Hamiltonian-Jacobi-Bellman(HJB)方程，然后基于李雅普诺夫(Lyapunov)稳定性理论证明求解耦合协同博弈HJB方程得到的控制策略。然后找出系统(1)的鲁棒控制与相应标准系统(2)的最优控制之间的内在联系，找到两类不确定DT仿射非线性系统的鲁棒控制器可以通过最优控制的方法。

阶段3)基于阶段2获得的耦合协同博弈HJB方程，扩展到系统模型完全未知的优化控制中。所述阶段3)中具体为：①给出最优值函数；②利用最优值函数，在控制策略下沿不确定系统(1)的轨迹产生泰勒级数展开式；③基于李亚普诺夫稳定性理论，证明控制策略可以确保系统(1)对于不确定性系统的所有可能实现的稳定性。

所述步骤(2)具体为：

1)值函数和控制协议估计控制策略可以分别使用基于Value函数近似的带误差的神经网络(NNs)来表示。给出近似策略迭代方法，估计最右控制性。

2)分析收敛性：由于交错RL具有折衷系统的方法和控制更新的收敛速度的能力，因此与标准策略迭代(PI)和值迭代(VI)RLS不同，分别定义在(1)和(2)中的值函数和控制策略在时间步长k处交替迭代足够多的次数，使得我们可以任意接近简化的HJB方程的解。如果增加批判神经网络和行为者神经网络的神经元数目，并选择合适的学习率，则神经网络的估计误差可以尽可能小。采用在时间步长处的权重和权重的交织单步更新，从而开发出以下交织RL方法。在方法中，权重和将与迭代指数交错训练，直到在每个时间步长k收敛为止。

3)自适应控制协议设计：采用梯度下降法执行三重指标迭代策略，方法是最小化近似误差。

所述步骤(3)具体步骤如下：

①神经网络权的收敛性：

②不确定系统的UBB稳定性：

则V(x_k+1)-V(x_k)＜0即表明方法所学习的控制策略

可以保证系统(1)的轨迹为UUB。

所述步骤③具体步骤如下：

①通过三个案例说明提出的交错RL方法的有效性。

一是使用具有匹配不确定性的扭摆系统来检查所开发的方法的性能；二是具有匹配不确定性的仿射非线性系统；最后是使用具有不匹配不确定性的仿射非线性系统来展示其有效性。

②在仿真平台上进行数据挖掘和优化控制方法的验证。

在本发明中，通过集成动态规划，Lyapunov理论和泰勒级数展开式给出了简化的HJB方程，从而解决该问题使控制器能够保证仿射非线性DT系统的UUB稳定性受到未知匹配和不匹配不确定性的影响。逐次交错地执行值函数逼近和控制策略更新，并在每个时间步使用迭代索引来逐次逼近简化的HJB方程的解，从而得出控制器，在该控制器下，具有匹配和不匹配不确定性的DT仿射非线性系统可以是UUB。提出了针对一般DT仿射非线性系统的鲁棒控制方法的系统推导和分析。对于不考虑不确定性的线性二次调节，所提出的交错式RL方法可以学习近似最优控制器，否则它是一种能够保证DT仿射非线性系统为UUB的控制器。仿真结果证明了该方法的有效。

一、鲁棒控制问题

建立具有任意有界不确定性的DT仿射非线性系统的鲁棒控制问题。此外，还给出了一些假设和定义，以便更容易地跟踪关注的鲁棒控制问题。考虑描述为的DT仿射非线性系统(1)：

x_k+1＝f(x_k)+g(x_k)u_k+Δf(x_k) (1)

对系统(1)，D(x_k)是一个有界函数，其中

是一个未知项被

界定，h(x_k)∈R^m×n是已知的函数矩阵；

上是连续的。

定义1:如果存在一种控制策略u_k，该策略下系统(1)对于所有不确定性Δf(x_k)渐近稳定，则系统(1)称为鲁棒可稳定，该控制策略u_k称为鲁棒控制器。

二、鲁棒控制器设计及简化HJB方程推导

具增广效用函数的标称系统的最优控制问题，分别推导了允许匹配不确定性和不匹配不确定性的DT仿射非线性系统鲁棒稳定性的两个充分条件。在推导过程中，给出了简化的HJB方程。

关于系统(1)的标称系统(2)，

x_k+1＝f(x_k)+g(x_k)u_k (2)

假设，对于系统(2)，希望找到控制律u_k使下面的特定性能指标最小化

其中r(x_k,u_k)称为效用函数

最优控制策略u_k针对系统(2)最小化性能指标(3)可以通过求解下面的HJB方程得到

其中

得到最优控制律为

其中

和V^*(x_k)被称为最优值函数，其定义是

对于系统(2)，如果假设1成立，则控制策略

保证系统(1)具有匹配不确定性

简化后的HJB方程成立

其中，

代表Hessian矩阵，定义为

满足(8)的函数V^*(x_k)是名义系统(2)优化问题的最优值函数；

其中，

为梯度向量，定义

这表明V^*(x_k)可以是系统(1)的Lyapunov函数候选者，并且(5)中的控制策略可以确保系统(1)对于不确定性Δf(x_k)的所有可能实现都是稳定的根据李雅普诺夫稳定性理论。在展开关于操作点的最优值函数时，高阶项已被忽略。此外，考虑泰勒级数展开的高阶项V^*(x_k)可能会以增加计算量为代价提高近似精度，因此应从实际实现的角度来权衡精度和计算复杂度。

将定理1的结果扩展到系统(1)具有无与伦比的不确定性的鲁棒稳定性。定理2：对于系统(2)，若假设1成立则需将γ(x_k)设置为：

Ω上存在一个正定的两次连续可微函数，V(x_k)满足以下简化的HJB方程：

则控制策略u_k确保具有不匹配不确定性

的系统(1)鲁棒稳定，

控制策略u_k可以保证不确定系统(1)的稳定性。将由(14)导出的函数V(x_k)视为李雅普诺夫函数候选，在运算点x_k+1沿系统(1)的轨迹进行泰勒展开，有

这表明系统(1)对于限制在范围内的不确定性的所有可能实现是稳定的。

三、用于强化控制策略的交错式RL

开发一种交错的RL来逼近鲁棒控制器，使得DT仿射非线性系统(1)的轨迹为UUB。众所周知，平滑值函数V(x_k)和控制策略u_k可以分别使用基于Value函数近似的带误差的NNs来表示为：

在每个迭代i处，NN被表示为:

因此

并且在每次迭代i时，u_k由下式给出：

其中ω_ci(k)和ω_ai(k)分别是

和

的近似值。在这里，

和

被选为常数向量。

ω_ci(k)是通过使用梯度下降来实现的，方法是最小化近似误差。

式中，

同样权重ω_ai(k)可以如下训练：

其中l_a表示学习率，近似误差e_ai(k)定义为

其中x_k+1是由最后一个时间步长k的

产生的。如果增加批判者神经网络和行为者神经网络的神经元数目，并选择合适的学习率，则神经网络的估计误差可以尽可能小。现在将采用在时间步长k处的权重ω_ci(k)和ω_ai(k)的交错单步更新，从而开发出以下交错RL。

四、不确定系统的交错RL方法

Ⅰ.初始化：设置时间步长k＝1，迭代指数i＝0。给定初始状态x₁和x₂；

Ⅱ.交错迭代：给定权重υ_c和υ_a，初始化评论者NN和执行者NN的权重ω_ci(k)和ω_ai(k)，并设置初始学习率l_c和l_a；根据(7)更新权重ω_ci(k)；根据(8)更新权重ω_ai(k)。

如果不满足

和

则进行i的迭代

Ⅲ.设置ω_c(k)＝ω_ci(k)和ω_a(k)＝ω_ai(k)。可以得到

它应用于标称系统(2)作为输入以产生数据x_k+1和x_k+2；

Ⅳ.||ω_a(k)-ω_a(k-1)||≤ε，||ω_c(k)-ω_c(k-1)||≤ε进行下一步；否则进行k的迭代并返回步骤2；

Ⅴ.得到

和

的近似值ω_c(k)和ω_a(k)，从而可以得到u_k的近似值

在本方法中，权重ω_ci(k)和ω_ai(k)将与迭代指数i交错训练，直到在每个时间步长收敛为止，此时可以得到控制动作并行为系统(2)用于下次生成新数据。从这个意义上讲，方法实际上是交错的RL，而不是策略迭代(PI)或值迭代(VI)。

注意，在所示的时间步长k处，使用执行者NN估计控制策略可以成功地克服由于未来状态不可用而造成的困难。

方法实现后，将采用学习到的鲁棒控制策略的近似值作为系统(1)的控制行为，以容忍不确定性。为了消除在大多数实际工业中非常常见的死区、间隙、饱和执行器非线性对系统性能甚至稳定性的负面影响，可以用类在效用函数中增加一个非二次泛函，这样即使对于不确定系统(1)，也可以处理这些非线性控制约束。

五、理论分析

在这一部分中，对方法1的收敛性和不确定系统的UUB稳定性进行了全面的分析。

假设迭代值函数Vⁱ(x_k)的值可以精确地表示为,

其中，

是权重向量，ε_ci(x_k)表示重建误差。

的实际值应该具有如下精确表达式：

其中

是权重向量，ε_ai(x_k)表示重建误差。

给出了下面的定理，以证明方法1学习的权重ω_c(k)和

是有界的。

定理3：对于系统(2)，权重ω_ci(k)根据获得的近似控制策略

进行更新。然后，当i和k足够大时，存在满足λ_ω＞0和λ_μ＞0，

根据定理3，通过实现方法1，经过i和k的迭代，可以得到控制策略

和近似值函数

需要指出的是，控制策略

是的u_k近似值，并且界λ_μ取决于评论者和参与者NNS的神经元数量、学习率和初始权重。进一步可以证明

可以保证不确定系统(1)的UUB稳定性。

定理4：在学习控制策略

方法1下，不确定闭环系统(1)的动力学是UUB。证明：在学习的控制策略下系统(1)的动力学为

选择简化的HJB方程的解V(x_k)作为Lyapunov函数候选，有

此外，将(45)改写为使用泰勒级数展开式

其中ω_k+1＝f(x_k)+(u_k)^Tu_k

而后，可推导出

因此，如果

则V(x_k+1)-V(x_k)＜0。这表明方法1所学习的控制策略

可以保证系统(1)的轨迹为UUB。

六、案例模拟

通过代表性的例子说明了所提出的交错RL的有效性。

例：通过使用具有匹配不确定性的扭摆系统来检查所开发的方法1的性能。扭转摆的动力学描述如下：

其中,角度θ和角速度ω被视为系统状态。参数J，M，l，f_d分别表示旋转惯性，质量，摆杆的长度和摩擦系数，如果采样周期选择为Δt＝0.1s，则可以将系统离散化为以下形式:

x_k+1＝f(x_k)+g(x_k)(u_k+psin(x₁(k))x₂(k)) (34)

其中p∈[-10,10]是未知的有界参数，

通过使用具有匹配不确定性的倒立摆系统来检查所开发的方法的性能。在实现方法之前，将批判网络和行为者网络的结构分别设置。选择Q＝diag(1,1)和NNs激活函数σ(·)＝tanh(·)。让评论网和行动网的学习率分别为0.1和0.3。在这个例子中，我们发现在计算机仿真中，对于批判神经网络和演员神经网络，在隐含层中选择8个神经元和2个神经元可以得到令人满意的结果。

选择探测噪声为e_k＝0.2rand(1,1)，以满足持续激励条件。实现方法产生图2(a)和图2(a)的训练结果，表明了这些权重的收敛性。为了验证学习控制策略的有效性，我们假设p＝10。选择初始状态x₀＝[0.3,0.3]^T，图3(a)显示了学习控制策略下的系统状态轨迹，图3(b)表明方法学习的控制策略可以保证系统即使在系统存在不确定性的情况下也是稳定的。

综上，本发明以具有匹配不确定性的倒立摆系统为例，来检验本发明提出的方法的性能。仿真结果表明了学习的控制策略的有效性和可行性以及系统即使在不确定性的情况下，系统仍然能够保持稳定。因此，这种方法的提出，从长远来看，可以保证工业上的系统高效，稳定的运行，从而提高了效率。

Claims

1.一种基于匹配或不匹配不确定性的DT仿射非线性系统的自适应交错强化学习方法，其特征在于：包括如下步骤：(1)基于最优控制的问题，推导匹配和不匹配不确定DT仿射非线性系统鲁棒稳定条件；(2)结合神经网络逼近的交错RL方法寻找UUB稳定性的鲁棒控制策略；

x_k+1＝f(x_k)+g(x_k)u_k+Δf(x_k) (1)

对系统(1)，D(x_k)是一个有界函数，其中

是一个未知项被

界定，h(x_k)∈R^m×n是已知的函数矩阵；

关于系统(1)的标称系统(2)，

x_k+1＝f(x_k)+g(x_k)u_k (2)

其中r(x_k,u_k)称为效用函数

其中

得到最优控制律为

其中

和V^*(x_k)被称为最优值函数，其定义是

对于系统(2)，如果假设1成立，则控制策略

保证系统(1)具有匹配不确定性

简化后的HJB方程成立；

其中，

代表Hessian矩阵，定义为

满足(8)的函数V^*(x_k)是名义系统(2)优化问题的最优值函数；

其中，

为梯度向量，定义

所述步骤(2)具体为：

2)分析算法的收敛性：分别定义在系统中的值函数和控制策略在时间步长k处交替迭代足够多的次数，使得任意接近简化的HJB方程的解；如果增加批判神经网络和行为者神经网络的神经元数目，并选择合适的学习率，则神经网络的估计误差尽可能小，采用在时间步长处的权重和权重的交织单步更新，从而开发出以下交错RL方法，在本方法中，权重和将与迭代指数交错训练，直到在每个时间步长k收敛为止；

具体为：用于强化控制策略的交错式RL；