CN116661307A

CN116661307A - 非线性系统执行器故障ppb-siadp容错控制方法

Info

Publication number: CN116661307A
Application number: CN202310551647.2A
Authority: CN
Inventors: 张绍杰; 季坤
Original assignee: Qinhuai Innovation Research Institute Of Nanjing University Of Aeronautics And Astronautics; Nanjing University of Aeronautics and Astronautics
Current assignee: Qinhuai Innovation Research Institute Of Nanjing University Of Aeronautics And Astronautics; Nanjing University of Aeronautics and Astronautics
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-08-29

Abstract

本发明公开了一种非线性系统执行器故障PPB‑SIADP容错控制方法。对于标称非线性系统经过预定性能边界变换得到新的误差跟踪系统，利用增量非线性技术得到一个近似线性时变系统；根据执行器的冗余特性和功能，提出一种执行器的分组方案，并设计一个增量神经网络观测器来逼近多重执行器故障；设计泛函性能指标去处理执行器饱和问题，推导出相对应的哈密顿‑雅克比‑贝尔曼方程；采用单网络增量自适应动态规划算法来实现最优控制。新的单网络增量自适应动态规划方案由一个优化的评价网络构成，本发明可以缩短学习时间并减少控制过程中的计算负担。

Description

非线性系统执行器故障PPB-SIADP容错控制方法

技术领域

本发明涉及容错控制领域，具体涉及一种非线性系统执行器故障PPB-SIADP容错控制方法。

背景技术

工程系统越来越复杂，在运行过程中可能会出现各种故障。由于长期频繁地执行控制任务，执行器容易出现故障。在执行器发生故障后，不仅不能执行原始控制律，而且直接影响被控对象的输出，从而降低整个系统的性能。然而，容错控制(Fault-tolerantContro1，FTC)方法为提高复杂非线性系统的可靠性和安全性提供了有效途径。开发FTC方案来处理此类故障并保持可接受的系统性能具有重要意义。

通常，FTC方法可分为两类：被动容错控制(Passive Fault-tolerant Control，PFTC)和主动容错控制(Active Fault-tolerant Control，AFTC)。PFTC主要依靠控制器本身的鲁棒性来减少一类假定故障的影响，从而达到容错控制的目的。PFTC控制器的特点是需要预先知道所有可能的故障类型，其保守的设计使其难以实现更好的控制性能。从处理故障的功能性角度来看，其他研究人员还将主动容错控制方案(Active Fault-tolerantControl Scheme，AFTCS)分类为故障检测、识别(诊断)和调节方案。AFTC主要利用实时故障检测和诊断(Fault Detection and Diagnosis，FDD)模块在线检测和获取故障信息，然后重构控制律，使系统获得更满意的控制效果。AFTC主要包含三个方面：FDD模块、可重构的控制器模块以及控制器重组设计机制。相对于被动容错控制，主动容错控制的控制效果会更加。

在考虑优化的情况下，将自适应动态规划(ADP，Approximate DynamicProgramming)引入FTC方案的设计中，从而得到更好的控制效果。ADP通过将强化学习、神经网络等理论与经典的动态规划相结合，克服了传统DP的缺点，能够获得近似最优的控制律，是一种解决非线性系统最优控制的有效方法。传统的动态规划(Dynamic Programming，DP)由于“维数的诅咒”而难以实现，也就是随着非线性系统的状态信号和输入信号维数增长的时候，DP的数据存储量和计算量都会增加。为了克服这些缺点，作为强化学习的一个重要分支，ADP框架通过神经网络来估计代价函数，在线或离线的近似迭代有效地处理了这个问题。推导非线性最优控制问题解的核心挑战通常归结为求解某些哈密顿-雅可比-贝尔曼(Hamilton-Jacobi-Bellman，HJB)方程。HJB方程是非线性的，对于一般的非线性动力系统很难求解。事实上，除了非常特殊的问题外，此类方程不存在封闭形式的解。因此，工程师们开发了HJB方程的数值解。为了获得这样的数值解，可以使用ADP的高效算法去获得。增量控制常与自适应控制相结合，以减少对动力学知识的依赖，该算法可以在不辨识全局系统的情况下处理系统非线性和不确定性。有相关文献中引入了增量自适应动态规划(IncrementalAdaptive Dynamic Programming，IADP)算法来解决非线性系统的自适应跟踪控制问题。然而，相关工作中未给出系统稳定性分析。并且在这些算法中，大量的调谐参数是常见的不足。根据标准梯度下降算法，应该更新神经网络的期望权重的估计值，这不可避免地需要在线计算大量数据，并大大增加了计算负担。值得注意的是，一些研究人员已经对基于较少学习参数的控制策略进行了研究，但是这些控制方案没有考虑优化的FTC。因此，如何开发一种具有较少学习参数和较少在线计算负担的新型单网络自适应动态规划(SIADP，Single-network Incremental Adaptive Dynamic Programming)并将其推广到FTC策略是一个重要的问题。

发明内容

本发明公开了一种非线性系统执行器故障PPB-SIADP容错控制方法，首先对于标称非线性系统经过预定性能边界变换得到新的误差跟踪系统。利用增量非线性技术得到一个近似线性时变系统，其中系统相关矩阵参数通过递推最小二乘辨识算法来获得。根据执行器的冗余特性和功能，提出了一种执行器的分组方案，并设计了一个增量神经网络观测器来逼近多重执行器故障。设计泛函性能指标去处理执行器饱和问题，推导出相对应的哈密顿-雅克比-贝尔曼方程。针对性能指标中的抗饱和函数是非二次型的，难以求解哈密顿-雅克比-贝尔曼方程，采用单网络增量自适应动态规划算法来实现最优控制。新的单网络增量自适应动态规划方案由一个优化的评价网络构成，以缩短学习时间并减少控制过程中的计算负担，其中更新了评价网络的权重估计的范数。

为实现上述技术目的，本发明采取的技术方案为：

一种非线性系统执行器故障PPB-SIADP容错控制方法，所述非线性系统PPB-SIADP容错控制方法包括以下步骤：

S1，建立执行器故障模型，并根据执行器的冗余特性和功能，将m个执行器分成q个组；考虑具有未知执行器故障的连续MIMO非线性系统为：

式中，是系统状态向量，f(.)：/>是未知的非线性函数，sat(·)表示饱和非线性函数；/>和ξ_G(t)是执行器分组之后的附加故障，μ_G(t)＝[μ₁(t) μ₂(t) … μ_q(t)]^T＝Bμ(t)，/>是理想虚拟控制律，/>是理想的输入向量，/>是控制分配矩阵，/>p_i是第i个分组的执行器数量；

S2，对状态跟踪误差设置约束边界，根据预定性能边界对系统进行等价变换，将存在误差约束的状态跟踪问题转化为无约束条件的状态调节问题；转化后的跟踪误差动力学模型为：

z(t)＝Γ^-(z(t)，ρ_l(t)，ρ_u(t))；

式中，ρ_u(t)和ρ_l(t)为预定动态性能函数的上界与下界；

S3，针对变换后的非线性系统全量模型，对含有执行器故障且具有饱和特性的误差系统进行增量建模，得到的离散线性误差增量模型为：

其中，Δz_t＝z_t-z_t-1，Δsat(μ_Gξ,t)＝Δsat(μ_G,t)-Δsat(ξ_G，t)，Δsat(μ_G,t)＝sat(μ_G,t)-sat(μ_G,t-1)；将ρ_u(t)和ρ_l(t)表述为ρ_u，t、ρ_l，t，则有Δρ_u,t＝ρ_u，t-ρ_u,t-1、Δρ_l，t＝ρ_l，t-ρ_l，t-1；参数矩阵F_t-1、G_t-1、和P _t-1分别为t-1时刻的F°(x_t-1,sat(μ_Gξ,t-1)，ρ_l，t-1，ρ_u,t-1)、G°(x_t-1,sat(μ_Gξ,t-1)，ρ_l，t-1，ρ_u,t-1)、/>和P°(x_t-1,sat(μ_Gξ,t-1)，ρ_l,t-1，ρ_u,t-1)；

S4，采用递推最小二乘辨识对线性误差增量模型的系统矩阵进行辨识；

S5，基于RBF神经网络的自适应增量故障观测器对执行器故障进行估计；其中，自适应增量故障神经网络定义为：

式中，是Δz(t)的近似值，/>是W_o的近似值，/>是正定矩阵；F^o、G^o、/>和P°分别表示t₀时刻的参数矩阵F°[z(t₀),sat(μ_Gξ(t₀))，ρ_l(t₀),ρ_u(t₀)]、G°[z(t₀),sat(μ_Gξ(t₀))，ρ_l(t₀)，ρ_u(t₀)]、/>和P°[z(t₀),sat(μ_Gξ(t₀))，ρ_l(t₀)，ρ_u(t₀)]；

估计得到的执行器故障为：

式中，η_o＞0是学习率，/>是Δz(t)的近似误差，/>是激活函数，l_o＞1是隐藏层神经元的数量；v_s是采样周期；

S6，设定抗饱和的最优性能指标，提出单网络增量自适应动态规划控制方法得到近似最优容错控制策略，得到的最优增量控制策略为：

式中，为饱和器模型，根据实际执行器输出范围选用有界单调递增函数，并且满足||φ(·)||≤φ_max，φ_max为正常数；/>为对角正定矩阵，为执行器饱和界对角阵，是第i个执行器的饱和界；折扣因子γ∈(0，1)，用于控制短期代价或长期代价的关注程度；/>μ_G(t-1)是t-1时刻的控制策略；/>是权重W_c(t)的估计值，/>

与现有技术相比，本发明的有益效果如下：

第一，本发明的非线性系统执行器故障PPB-SIADP容错控制方法，与传统的IADP控制算法相比，使用了单神经网络结构来逼近HJB的解，而不是使用执行网络-评价网络结构，并且可以通过使用评价网络的信息直接获得控制信号。更重要的是，只更新权重估计的欧几里德范数，而不是直接更新权重估计，这大大减少了自适应学习参数并降低了在线计算负担；

第二，本发明的非线性系统执行器故障PPB-SIADP容错控制方法，基于离散线性增量系统，提出了一种增量神经网络观测器来估计多个执行器故障。考虑了硬件冗余和执行器分组方案，提高了执行器故障的处理效率；

第三，本发明的非线性系统执行器故障PPB-SIADP容错控制方法，通过重新设计抗饱和性能指标，得到了一种基于SIADP的新型抗饱和方案；

第四，本发明的非线性系统执行器故障PPB-SIADP容错控制方法，首次将PPB和SIADP相结合，提出来一种新型的预定性能的无模型最优跟踪控制方案；

第五，本发明的非线性系统执行器故障PPB-SIADP容错控制方法，所提出的自适应最优FTC方案在没有任何非线性动力学先验知识的情况下实现，这提高了控制方法的适用性。

附图说明

图1为执行器分组框图；

图2为无尾式飞翼飞行器的结构图；

图3为飞翼飞行器的姿态控制双环路控制框图；

图4为本发明具有执行器故障及饱和特性的非线性系统PPB-SIADP容错控制示意图。

具体实施方式

以下结合附图对本发明的实施例作进一步详细描述。

本申请公开了一种非线性系统执行器故障PPB-SIADP容错控制方法，包括以下步骤：

步骤1：首先建立执行器故障模型，并根据执行器的冗余特性和功能，提出了一种执行器的分组方案；

考虑具有未知执行器故障的连续MIMO非线性系统：

其中是系统状态向量，/>是带有执行器故障的实际输入向量，/>是理想的输入向量，/>是附加的执行器故障，f(·)：/>是未知的非线性函数，sat(·)表示饱和非线性函数，即：

假设1所有系统状态都是可控可观的，并且所有的系统状态也是可以直接测量的。

假设2附加的执行器故障ξ(t)是未知的，并且满足||ξ(t)||≤δ1，其中δ1是一个正整数。

本申请考虑了未知执行器故障(卡死和失效)。故障模型描述为：

其中λ_i∈[0，1]代表μ_i(t)的效能值，表示被控系统的第i个执行器发生卡死。详细的故障见表1，其中t_i表示相应故障发生的不同时刻。

表1执行器故障

则附加的执行器故障可以写成：

假设3当式(1)的非线性系统发生如式(6)形式的执行器故障，控制系统依然可以使用无故障或者故障后仍可用的执行器完成任务。假设3是非线性系统(1)的FTC方案的必要条件。为了处理执行器冗余，根据执行器的物理意义将m执行器分成q个组：

其中p₁+p₂+…p_q＝m，并且p_j代表第j(0＜j≤q)组执行器的数量。执行器分组的对应图如图1所示，式(7)可改写为：

μ_G(t)＝[μ₁(t) μ₂(t) … μ_q(t)]^T＝Bμ(t) (8)；

其中是理想虚拟控制律，/>是控制分配矩阵。b_ij是B的元素，这可以表示为：

根据式(8)，式(1)可以写成：

其中和ξ_G(t)是执行器分组之后的附加故障。

步骤2：对状态跟踪误差设置约束边界，根据预定性能边界对系统进行等价变换，将存在误差约束的状态跟踪问题转化为无约束条件的状态调节问题；

定义期望的状态信号为则可以得到非线性系统(10)的跟踪误差为：

e(t)＝x(t)-x_d(t) (11)；

在所提出的控制目标中，预定的性能表明跟踪误差e_i(t)被限制在预设范围内区域，可以描述为：

其中ρ_ui(t)和ρ_li(t)为预定动态性能函数的上界与下界，它们的具体定义为：

ρ_li(t)＝-σ_liρ_i(t),ρ_ui(t)＝σ_uiρ_i(t) (13)；

在式(13)中，正数σ_ui和σ_li用于调整边界，这也表示着上下界之间的关系。ρ_i(t)：是连续且充分平滑的、恒正且单调递减的函数，满足/>在本申请中，选择ρ_i(t)为式(14)所示的指数型函数：

其中ρ_i0、ρ_i∞和k_i是用于调整预定边界的正数。具体而言，ρ_i0限制了e_i(t)的正向超调和负向超调。ρ_i∞是e_i(t)的稳定状态上限允许的范围。e_i(t)的收敛速度的约束取决于ρ_i(t)的递减率，该递减率由k_i进行调整。随后的控制律设计旨在将跟踪误差强制在预定域范围内。

定义一个连续的变量表示原非线性系统(10)经过预定性能变换之后等价的系统变量，它满足下面这个等式：

其中是一个待设计的严格递增的函数，它满足式(16)所有的条件：

为了设计出一个S(z_i)满足式(16)，在本申请中设计S(z_i)为式(17)-(18)这种形式：

结合式(17)-(18)，可以推得：

对式(19)求一阶导数，可以得到：

对进行简单的变换，可得：

则式(20)可以写成：

因此，根据式(19)和式(22)，可以将转换之后的跟踪误差动力学模型改写成：

根据式(15)，式(20)可以改写为：

同理，根据式(15)，式(22)可以改写为：

新的跟踪误差动力学模型为：

步骤3：针对变换后的非线性系统全量模型，对含有执行器故障且具有饱和特性的误差系统进行增量建模；

为了获得存在执行器故障且具有执行器饱和特性的误差系统动力学模型(26)的增量形式，考虑围绕着z(t₀)和μ_Gξ(t₀)进行一阶泰勒级数展开：

其中H.O.T＝O[(z(t)-z(t₀))²，(sat(μ_Gξ(t)-μ_Gξ(t₀)))²，(ρ_l(t)-ρ_l(t₀))²，(ρ_u(t)-ρ_u(t₀))²]代表剩余的高阶项。系统(26)状态转移矩阵F(·)、控制能效矩阵G(·)、预定性能上界参数矩阵和预定性能下界参数矩阵为P(·)：

因此，通过改写(27)，在t₀时刻可以获得一个连续线性增量模型：

尽管系统是连续的，但实际上，计算机使用数字信号进行数据采集和处理，因此有必要对连续系统进行离散化。通过假设采样频率1/v_s足够高，状态导数可以表示为：

则式(29)可以写成：

z_t+1＝z_t+v_sΞ^-(z(t)，ρ_l(t)，ρ_u(t),sat(μ_Gξ(t))) (31)；

通过式(27)-式(29)的相同步骤，可以得到：

根据式(28)和式(31)，F°[z(t₀)，μ_Gξ(t₀)，ρ_l(t₀),ρ_u(t₀)]、G°[z(t₀)，μ_Gξ(t₀)，ρ_l(t₀),ρ_u(t₀)]、和P°[z(t₀)，μ_Gξ(t₀)，ρ_l(t₀),ρ_u(t₀)]可以表示为：

其中F°[z(t₀),sat(μ_Gξ(t₀))，ρ_l(t₀),ρ_u(t₀)]、G°[z(t₀),sat(μ_Gξ(t₀))，ρ_l(t₀),ρ_u(t₀)]、，ρ_u(t₀)]和P°[z(t₀),sat(μ_Gξ(t₀))，ρ_l(t₀)，ρ_u(t₀)]在本章节中可以简化为F^o、G^o、/>和P°。

系统在每一步都通过这种增量方法进行处理，因此可以用z_t-1、sat(μ_Gξ，t-1)、ρ_l,t-1和ρ_u,t-1代替z(t₀)、sat(μ_Gξ(t₀))、ρ_l(t₀)和ρ_u(t₀)。然后离散线性增量模型显示为：

其中Δz_t＝z_t-z_t-1、Δsat(μ_Gξ，t)＝Δsat(μ_G,t)-Δsat(ζ_G，t)、Δsat(μ_G,t)＝sat(μ_G,t)-sat(μ_G，t-1)、Δρ_l,t＝ρ_l，t-ρ_l，t-1和Δρ_u,t＝ρ_u,t-ρ_u,t-1。参数矩阵F°(x_t-1,sat(μ_Gξ,t-1)，ρ_l,t-1,ρ_u,t-1)、G°(x_t-1，sat(μ_Gξ,t-1)，ρ_l,t-1，ρ_u,t-1)、和P°(x_t-1,sat(μ_Gξ,t-1)，ρ_l,t-1，ρ_u,t-1)在本章节中可以简化为F_t-1、G_t-1、/>和P _t-1。因为系统的状态和控制信号是有界的，所以系统的状态转移矩阵F_t-1和输入分配矩阵G_t-1也是有界的。因此，假设||F_t-1||≤F_max和||G_t-1||≤G_max。也因为预定性能上界函数ρ_u，t和下界函数ρ_l，t本身都是有界的，所以通过重新构建的/>和P _t-1也是有界的。

步骤4：采用递推最小二乘辨识对线性误差增量模型的系统矩阵进行辨识；

RLS是LS的一种改进方法，是一种不依赖大量数据、辨识精度高的在线辨识算法。

RLS的原理是在获得新的采样数据后，修改上一时刻的辨识参数，通过递归得到新的参数估计，从而实现在线辨识的功能。

首先，定义输入信息矩阵和参数矩阵/>

其次，RLS的核心公式为：

其中是从式(34)和式(36)得到的预测误差，/>是增益矩阵，是协方差矩阵的估计。在每一个采样步长，该模型的辨识结果可以通过依次执行式(37)-式(40)来获得。

步骤5：基于RBF神经网络的自适应增量故障观测器对执行器故障进行估计；

由于附加的执行器故障值未知，提出了一种基于RBF神经网络的自适应增量故障观测器。由于系统(29)是增量的，故障观测器以增量形式设计。相应的增量执行器故障定义为：

其中是期望的权重向量，/>是激活函数，l_o＞1是隐藏层神经元的数量，并且/>是RBF神经网络的近似误差。

则Δμ_Gξ(t)可以表示为：

将式(42)代入连续的增量系统(29)，可以得到：

则自适应增量故障神经网络可以定义为：

其中是Δz(t)的近似值，/>是W_o的近似值，/>是正定矩阵。

权值向量可以更新为：

其中η_o＞0是学习率，是Δz(t)的近似误差。

为了使执行器故障估计结果与离散RLS辨识和最优控制律设计相匹配，(45)应改写为：

然后以增量形式获得近似离散执行器故障：

/>

则相对应的执行器故障可以构建为：

步骤6：设定抗饱和的最优性能指标，提出单网络增量自适应动态规划控制方法得到近似最优容错控制策略。

考虑无限时域二次型代价函数为：

其中R＞0和Q≥0。是在每一个采样步长下的代价函数。折扣因子γ∈(0，1)确保任意状态下的代价(49)都是有限的。通过调整γ，它能够控制短期代价或长期代价的关注程度。

若式(49)中取s(μ_G,t-1+Δ_μG，t)＝(μ_G,t-1+Δμ_G，t)^TR(μ_G,t-1+Δμ_G，t)作为性能指标函数，则对于带饱和执行器的控制系统设计得到的最优控制律难以能保证系统达到最优，甚至可能导致系统的不稳定。因此，在考虑执行器饱和问题后，代价函数(49)可以改写为：

其中为抗饱和性能指标函数。设/>为对角正定矩阵，/>为执行器饱和界对角阵，是第i个执行器的饱和界。/>为饱和器模型，可根据实际执行器输出范围选用有界单调递增函数，并且满足||φ（·)||≤φ_max，φ_max为正常数。φ^-1(Δμ_G(i)+μ_G(t-1))＝[φ^-1(Δμ_G，1(i)+μ_G,1(i-1))，…，φ^-1(Δμ_G，m(i)+μ_G，m(i-1))]^T。

式(50)可以改写为：

其中然后，离散形式的Hamilton函数：

最优代价函数J^*(z_t)可以定义为：

根据贝尔曼最优性原理，J^*(z_t)满足HJB方程：

通过求解式(54)的偏导数，也就是则可以得到闭式增量最优控制策略/>

/>

其中则可以构建相对应的最优控制策略：

将式(56)代入式(54)，可以得到离散形式的HJB方程：

与直接设计总体控制策略的传统ADP不同。本章节首先设计了闭环增量控制策略/>然后在μ_G,t-1和/>的基础上构建了整体控制策略/>

由于HJB方程(57)的解很难直接找到，因此提出了如表2的一种自适应在线策略迭代(PI)控制算法来逼近HJB方程的解。

表2

在自适应在线PI控制算法的基础上，提出了一种新的SIADP最优控制算法，以逼近增量最优控制律。最优代价函数J^*(z_t)可以近似为：

其中是期望的权重向量，/>激活函数，l＞1是隐藏层中神经元的数量，/>是评价网络的近似误差。

一种新型的ANN被用于如下估计最优代价函数：

其中以及/>是相对应的评价网络的近似误差。

那么离散形式的哈密顿函数可以表示为：

其中和/>因为评价网络的近似误差是有界的，所以/>也是有界的，也就是/>

因为期望的权重W_c(t)是未知的，所以代价函数的估计可以定义为：

那么近似哈密顿函数可以表示为：

根据梯度下降算法和链式规则，通过最小化以平方残差形式设计的目标函数来实现权重更新：

评价网络的权重更新法则更新为式(64)和式(65)：

其中η_c＞0是评价网络的学习率。

根据式(60)和式(62)，可以得到：

其中和/>

根据式(55)-式(66)，可以得到：

因此，根据式(55)和式(59)，期望的增量最优控制策略可以描述为：

其中和/>因此，假设/>和

则对应的实际的最优增量控制策略为：

实例

步骤1：以飞翼飞行器非线性系统为例，如图2所示。建立飞翼飞行器模型以及执行器故障模型，并根据执行器的冗余特性和功能，提出了一种执行器的分组方案；

根据时间尺度分离原理，状态变量可以分为具有不同响应速度的四组，其中内侧两环分别为角速率环和姿态环。数学模型表达式为：

其中是惯性矩阵。u＝[μ_a μ_e μ_r]^T是控制输入向量。μ_a、μ_e和μ_r分别表示副翼、升降舵和阻力舵的总偏转角度。ω＝[p q r]^T是机体参考坐标系下的角速率向量，p为俯仰角速率，q为滚转角速率，r为偏航角速率。/>是动压，b是翼展，S_ω是机翼面积，c_A是平均空气动力弦，C_nβ、C_np、C_nr、C_nμa和C_nμr是偏航力矩的气动导数，C_lβ、C_lp、C_lr、C_lμa和C_lμr是滚动力矩的气动导数。C_m0、C_mα、/>C_mq和C_mμe是俯仰力矩的气动导数。M_T是发动机提供的俯仰力矩。令/>和。[μ，α，β]^T为姿态角矢量，μ为滚转角，α为迎角，β为侧滑角。χ为飞行方位角，γ为飞行航迹角。

令则可以得到飞翼飞行器的双环模型如式(72)所示：

其中x₁(t)＝[μ，α，β]^T、x₂(t)＝[p，q，r]^T、μ(t)＝[μ_a(t)，μ_e(t)，μ_r(t)]^T。该飞翼飞行器姿态控制的双环控制框图如图2所示。图3中显示了每个控制回路产生的参考信号和期望的指令信号。

考虑具有未知执行器故障及饱和特性，式(72)可以改写为：

假设2附加的执行器故障ξ(t)是未知的，并且满足||ξ(t)||≤δ₁，其中δ₁是一个正整数。

本章考虑了未知执行器故障(卡死和失效)。故障模型描述为：

其中λ_i∈[0,1]代表μ_i(t)的效能值，表示被控系统的第i个执行器发生卡死。详细的故障见表1，其中t_i表示相应故障发生的不同时刻。

则附加的执行器故障可以写成：

假设3当非线性系统(73)发生(78)形式的执行器故障，控制系统依然可以使用无故障或者故障后仍可用的执行器完成任务。

假设3是非线性系统(73)的FTC方案的必要条件。为了处理执行器冗余，根据执行器的物理意义将m执行器分成q个组。

其中p₁+p₂+…p_q＝m，并且p_i代表第j(0＜j≤q)组执行器的数量。执行器分组的对应图如图1所示，式(79)可改写为：

μ_G(t)＝[μ₁(t) μ₂(t) … μ_q(t)]^T＝Bμ(t) (80)；

根据式(80)，式(73)可以写成：

其中和ξ_G(t)是执行器分组之后的附加故障。

定义期望的状态信号为则可以得到非线性系统(73)的跟踪误差为：

e(t)＝x(t)-x_d(t) (83)；

ρ_li(t)＝-σ_liρ_i(t)，ρ_ui(t)＝σ_uiρ_i(t) (85)；

在式(85)中，正数σ_ui和σ_li用于调整边界，这也表示着上下界之间的关系。ρ_i(t)：是连续且充分平滑的、恒正且单调递减的函数，满足/>在本文中，选择ρ_i(t)为式(86)所示的指数型函数：

定义一个连续的变量表示原非线性系统(73)经过预定性能变换之后等价的系统变量，它满足下面这个等式：

其中是一个待设计的严格递增的函数，它满足式(88)所有的条件：

为了设计出一个满足式(88)，在本实例中设计/>为式(89)-(90)这种形式：

结合式(89)-(90)，可以推得：

对式(91)求一阶导数，可以得到：

对进行简单的变换，可得：

则式(92)可以写成：

因此，根据式(91)和式(94)，可以将转换之后的跟踪误差动力学模型改写成：

根据式(87)，式(91)可以改写为：

同理，根据式(87)，式(94)可以改写为：

新的跟踪误差动力学模型为：

为了获得存在执行器故障且具有执行器饱和特性的误差系统动力学模型(82)的增量形式，考虑围绕着z(t₀)和μ_Gξ(t₀)进行一阶泰勒级数展开：

其中H.O.T＝o[(z(t)-z(t₀))²，(sat(μ_Gξ(t)-μ_Gξ(t₀)))²，(ρ_l(t)-ρ_l(t₀))²，(ρ_u(t)-ρ_u(t₀))²]代表剩余的高阶项。系统(82)状态转移矩阵F(·)、控制能效矩阵G(·)、预定性能上界参数矩阵和预定性能下界参数矩阵为P(·)为：

因此，通过改写(99)，在t₀时刻可以获得一个连续线性增量模型：

则式(98)可以写成：

z_t+1＝z_t+v_sΞ^-(z(t)，ρ_l(t)，ρ_u(t),sat(μ_Gξ(t))) (103)；

通过式(99)-式(101)的相同步骤，可以得到：

根据式(100)和式(104)，F°[z(t₀)，μ_Gξ(t₀)，ρ_l(t₀)，ρ_u(t₀)]、G°[z(t₀)，μ_Gξ(t₀)，ρ_l(t₀)，ρ_u(t₀)]、和P°[z(t₀)，μ_Gξ(t₀)，ρ_l(t₀)，ρ_u(t₀)]可以表示为：/>

其中F°[z(t₀),sat(μ_Gξ(t₀))，ρ_l(t₀),ρ_u(t₀)]、G°[z(t₀),sat(μ_Gξ(t₀))，ρ_l(t₀),ρ_u(t₀)]、和P°[z(t₀)，sat(μ_Gξ(t₀))，ρ_l(t₀)，ρ_u(t₀)]在本章节中可以简化为F^o、G^o、/>和P°。

系统在每一步都通过这种增量方法进行处理，因此可以用z_t-1、sat(μ_Gξ,t-1)、ρ_l，t-1和ρ_u，t-1代替z(t₀)、sat(μ_Gξ(t₀))、ρ_l(t₀)和ρ_u(t₀)。然后离散线性增量模型显示为：

其中Δz_t＝z_t-z_t-1、Δsat(μ_Gξ，t)＝Δsat(μ_G,t)-Δsat(ζ_G，t)、Δsat(μ_G,t)＝sat(μ_G,t)-sat(μ_G,t-1)、Δρ_l，t＝ρ_l，t-ρ_l,t-1和Δρ_u,t＝ρ_u，t-ρ_u,t-1。参数矩阵F°(x_t-1,sat(μ_Gξ,t-1)，ρ_l,t-1，ρ_u,t-1)、G°(x_t-1,sat(μ_Gξ,t-1)，ρ_l,t-1，ρ_u,t-1)、和P°(x_t-1，sat(μ_Gξ,t-1)，ρ_l,t-1，ρ_u，t-1)在本章节中可以简化为F_t-1、G_t-1、/>和P _t-1。因为系统的状态和控制信号是有界的，所以系统的状态转移矩阵F_t-1和输入分配矩阵G_t-1也是有界的。因此，假设||F_t-1||≤F_max和||G_t-1||≤G_max。也因为预定性能上界函数ρ_u，t和下界函数ρ_l，t本身都是有界的，所以通过重新构建的/>和P _t-1也是有界的。

首先，定义输入信息矩阵和参数矩阵/>

其次，RLS的核心公式为：

/>

其中是从式(106)和式(108)得到的预测误差，/>是增益矩阵，是协方差矩阵的估计。在每一个采样步长，该模型的辨识结果可以通过依次执行式(109)-式(112)来获得。

由于附加的执行器故障值未知，提出了一种基于RBF神经网络的自适应增量故障观测器。由于系统(101)是增量的，故障观测器以增量形式设计。相应的增量执行器故障定义为：

其中是期望的权重向量，/>是激活函数，l_o＞1是隐藏层神经元的数量，并且/>是RBF神经网络的近似误差；

则Δμ_Gξ(t)可以表示为：

将式(114)代入连续的增量系统(101)，可以得到：

则自适应增量故障神经网络可以定义为：

其中是Δz(t)的近似值，/>是W_o的近似值，/>是正定矩阵。权值向量/>可以更新为：

其中η_o＞0是学习率，是Δz(t)的近似误差。

为了使执行器故障估计结果与离散RLS辨识和最优控制律设计相匹配，(117)应改写为：

然后以增量形式获得近似离散执行器故障：

则相对应的执行器故障可以构建为：

考虑无限时域二次型代价函数：

若式(121)中取s(μ_G,t-1+Δμ_G,t)＝(μ_G,t-1+Δμ_G,t)^TR(μ_G,t-1+Δμ_G，t)作为性能指标函数，则对于带饱和执行器的控制系统设计得到的最优控制律难以能保证系统达到最优，甚至可能导致系统的不稳定。因此，在考虑执行器饱和问题后，代价函数(121)可以改写为：

其中为抗饱和性能指标函数。设/>为对角正定矩阵，/>为执行器饱和界对角阵，是第i个执行器的饱和界。/>为饱和器模型，可根据实际执行器输出范围选用有界单调递增函数，并且满足||φ(·)||≤φ_max，φ_max为正常数。φ^-1(Δμ_G(i)+μ_G(i-1))＝[φ^-1(Δμ_G，1(i)+μ_G,1(i-1))，…，φ^-1(Δμ_G，m(i)+μ_G，m(i-1))]^T。

式(122)可以改写为：

其中然后，离散形式的Hamilton函数：

最优代价函数J^*(z_t)可以定义为：

根据贝尔曼最优性原理，J^*(z_t)满足HJB方程：

通过求解式(126)的偏导数，也就是则可以得到闭式增量最优控制策略/>

其中则可以构建相对应的最优控制策略：

将式(128)代入式(126)，可以得到离散形式的HJB方程：

与直接设计总体控制策略的传统ADP不同。本章节首先设计了闭环增量控制策略/>然后在u_G,t-1和/>的基础上构建了整体控制策略/>

由于HJB方程(129)的解很难直接找到，因此提出了如表2的一种自适应在线策略迭代(PI)控制算法来逼近HJB方程的解。

一种新型的ANN被用于如下估计最优代价函数：

其中以及/>是相对应的评价网络的近似误差。

那么离散形式的哈密顿函数可以表示为：

那么近似哈密顿函数可以表示为：

评价网络的权重更新法则更新为式(136)和式(137)：

其中η_c＞0是评价网络的学习率。

根据式(132)和式(134)，可以得到：

其中和/>

根据式(137)-式(138)，可以得到：

因此，根据式(127)和式(131)，期望的增量最优控制策略可以描述为：

其中和/>因此，假设/>和

则对应的实际的最优增量控制策略为：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器运行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上运行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上运行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种非线性系统执行器故障PPB-SIADP容错控制方法，其特征在于，所述非线性系统PPB-SIADP容错控制方法包括以下步骤：

式中，是系统状态向量，f(·)：/>是未知的非线性函数，sat(·)表示饱和非线性函数；/>和ξ_G(t)是执行器分组之后的附加故障，μ_G(t)＝[μ₁(t) μ₂(t) … μ_q(t)]^T＝Bμ(t)，/>是理想虚拟控制律，/>是理想的输入向量，是控制分配矩阵，/>p_i是第i个分组的执行器数量；

z(t)＝Γ^-(z(t)，ρ_l(t)，ρ_u(t))；

式中，ρ_u(t)和ρ_l(t)为预定动态性能函数的上界与下界；

其中，Δz_t＝z_t-z_t+1，Δsat(μ_Gξ，t)＝Δsat(μ_G,t)-Δsat(ζ_G，t)，Δsat(μ_c,t)＝sat(μ_G,t)-sat(μ_G,t-1)；将ρ_u(t)和ρ_l(t)表述为ρ_u，t、ρ_l，t，则有Δρ_u，t＝ρ_u，t-ρ_u,t-1、Δρ_l，t＝ρ_l，t-ρ_l,t-1；参数矩阵F_t-1、G_t-1、和P _t-1分别为t-1时刻的F°(x_t-1,sat(μ_Gξ,t-1)，ρ_l，t-1，ρ_u,t-1)、G°(x_t-1,sat(μ_Gξ,t-1)，ρ_l，t-1，ρ_u,t-1)、/>和P°(x_t-1,sat(μ_Gξ,t-1)，ρ_l,t-1，ρ_u，t-1)；

式中，是Δz(t)的近似值，/>是W_o的近似值，/>是正定矩阵；F^o、G^o、/>和P°分别表示t₀时刻的参数矩阵F°[z(t₀),sat(μ_Gξ(t₀))，ρ_l(t₀),ρ_u(t₀)]、G°[z(t₀),sat(μ_Gξ(t₀))，ρ_l(t₀),ρ_u(t₀)]、/>和P°[z(t₀),sat(μ_Gξ(t₀))，ρ_l(t₀)，ρ_u(t₀)]；

估计得到的执行器故障为：

式中，η_o>0是学习率，/>是Δz(t)的近似误差，/>是激活函数，l_o>1是隐藏层神经元的数量；ν_s是采样周期；

2.根据权利要求1所述的非线性系统执行器故障PPB-SIADP容错控制方法，其特征在于，步骤S1中，建立执行器故障模型的步骤包括以下步骤：

S11，构建得到具有未知执行器故障的连续MIMO非线性系统：

其中是系统状态向量，/>是带有执行器故障的实际输入向量，是理想的输入向量，/>是附加的执行器故障，f(·)：/>是未知的非线性函数，sat(·)表示饱和非线性函数：

S12，做如下假设：所有系统状态都是可控可观的，并且所有的系统状态是直接测量的；附加的执行器故障ξ(t)是未知的，并且满足||ξ(t)||≤δ₁，其中δ₁是一个正整数；

对故障模型进行如下描述：

式中，λ_i∈[0，1]代表μ_i(t)的效能值，表示被控系统的第i个执行器发生卡死，执行器故障如表1所示，其中t_i表示相应故障发生的不同时刻：

表1

则附加的执行器故障为：

S13，根据执行器的物理意义将m执行器分成q个组：

式中，p₁+p₂+…p_q＝m，并且p_j代表第j组执行器的数量，0＜j≤q；

将执行器分组改写为：

μ_G(t)＝[μ₁(t) μ₂(t) … μ_q(t)]^T＝Bμ(t)；

其中是理想虚拟控制律，/>是控制分配矩阵；b_ij是B的元素，表示为：

将步骤S11的连续MIMO非线性系统改写成：

其中和ξ_G(t)是执行器分组之后的附加故障。

3.根据权利要求1所述的非线性系统执行器故障PPB-SIADP容错控制方法，其特征在于，步骤S2中，对状态跟踪误差设置约束边界，根据预定性能边界对系统进行等价变换，将存在误差约束的状态跟踪问题转化为无约束条件的状态调节间题的过程包括以下步骤：

S21，定义期望的状态信号为得到非线性系统的跟踪误差为：

e(t)＝x(t)-x_d(t)；

在所提出的控制目标中，预定的性能表明跟踪误差e_i(t)被限制在预设范围内区域，即：

ρ_li(t)＝-σ_liρ_i(t)，ρ_ui(t)＝σ_uiρ_i(t)；

式中，正数σ_ui和σ_li用于调整边界，表示着上下界之间的关系；ρ_i(t)：是连续且充分平滑的、恒正且单调递减的函数，满足/>ρ_i(t)为指数型函数：

其中ρ_i0、ρ_i∞和k_i是用于调整预定边界的正数；ρ_i0限制e_i(t)的正向超调和负向超调，ρ_i∞是e_i(t)的稳定状态上限允许的范围；e_i(t)的收敛速度的约束取决于ρ_i(t)的递减率，该递减率由k_i进行调整；

S22，定义一个连续的变量表示非线性系统经过预定性能变换之后等价的系统变量，它满足下面这个等式：

其中是一个待设计的严格递增的函数，它满足以下条件：

S23，对S(z_i)进行设计：

推得：

对z_i求一阶导数，得到：

对进行变换：

则z_i的一阶导数转换成：

S24，将转换之后的跟踪误差动力学模型改写成：

z(t)＝Γ(e(t)，ρ_l(t)，ρ_u(t))；

求得z_i为：

求得为：

转化后的跟踪误差动力学模型为：

z(t)＝Γ^-(z(t)，ρ_l(t)，ρ_u(t))；

4.根据权利要求3所述的非线性系统执行器故障PPB-SIADP容错控制方法，其特征在于，步骤S3中，针对变换后的非线性系统全量模型，对含有执行器故障且具有饱和特性的误差系统进行增量建模的过程包括以下步骤：

围绕着z(t₀)和μ_Gξ(t₀)进行一阶泰勒级数展开：

其中H.O.T＝o[(z(t)-z(t₀))²，(sat(μ_Gξ(t)-μ_Gξ(t₀)))²，(ρ_l(t)-ρ_l(t₀))²，(ρ_u(t)-ρ_u(t₀))²]代表剩余的高阶项；状态转移矩阵F(·)、控制能效矩阵G(·)、预定性能上界参数矩阵和预定性能下界参数矩阵为P(·)为：

获得t₀时刻的连续线性增量模型：

对连续系统进行离散化，状态导数表示为：

推得：

F°[z(t₀)，μ_Gξ(t₀)，ρ_l(t₀)，ρ_u(t₀)]、G°[z(t₀)，μ_Gξ(t₀)，ρ_l(t₀)，ρ_u(t₀)]、和P°[z(t₀)，μ_Gξ(t₀)，ρ_l(t₀)，ρ_u(t₀)]表示为：

用z_t-1、sat(μ_Gξ,t-1)、ρ_l，t-1和ρ_u，t-1代替z(t₀)、sat(μ_cξ(t₀))、ρ_l(t₀)和ρ_u(t₀)，离散线性增量模型显示为：

5.根据权利要求4所述的非线性系统执行器故障PPB-SIADP容错控制方法，其特征在于，步骤S4中，采用递推最小二乘辨识对线性误差增量模型的系统矩阵进行辨识的过程包括以下步骤：

定义输入信息矩阵和参数矩阵/>

得到递推最小二乘辨识的核心公式：

其中是预测误差，/>是增益矩阵，/>是协方差矩阵的估计。

6.根据权利要求5所述的非线性系统执行器故障PPB-SIADP容错控制方法，其特征在于，步骤S5中，基于RBF神经网络的自适应增量故障观测器对执行器故障进行估计的过程包括以下步骤：

S51，以增量形式设计故障观测器，相应的增量执行器故障定义为：

其中是期望的权重向量，/>是激活函数，l_o>1是隐藏层神经元的数量，并且/>是RBF神经网络的近似误差；

S52，Δμ_Gξ(t)表示为：

代入连续的增量系统得到：

则自适应增量故障神经网络定义为：

其中是Δz(t)的近似值，/>是W_o的近似值，/>是正定矩阵；权值向量/>更新为：

其中η_o>0是学习率，是Δz(t)的近似误差；

S53，为了使执行器故障估计结果与离散RLS辨识和最优控制律设计相匹配，权值向量改写为：

以增量形式获得近似离散执行器故障：

则相对应的执行器故障构建为：

7.根据权利要求6所述的非线性系统执行器故障PPB-SIADP容错控制方法，其特征在于，步骤S6中，设定抗饱和的最优性能指标，提出单网络增量自适应动态规划控制方法得到近似最优容错控制策略的过程包括以下步骤：

S61，考虑无限时域二次型代价函数：

其中R>0和Q≥0；是在每一个采样步长下的代价函数；折扣因子γ∈(0，1)确保任意状态下的代价都是有限的；通过调整γ控制短期代价或长期代价的关注程度；

S62，在考虑执行器饱和问题后，将二次型代价函数改写为：

其中为抗饱和性能指标函数；设/>为对角正定矩阵，/>为执行器饱和界对角阵，是第i个执行器的饱和界；/>为饱和器模型，根据实际执行器输出范围选用有界单调递增函数，并且满足||φ(·)||≤φ_max，φ_max为正常数；

S63，将二次型代价函数进一步改写为：

其中

S64，定义离散形式的Hamilton函数为：

将最优代价函数J^*(z_t)定义为：

根据贝尔曼最优性原理，J^*(z_t)满足HJB方程：

通过HJB方程的偏导数得到闭式增量最优控制策略/>

其中构建相对应的最优控制策略为：

得到离散形式的HJB方程：

采用自适应在线策略迭代控制算法来逼近HJB方程的解；

S65，在自适应在线PI控制算法的基础上，采用优化后的SIADP最优控制算法，以逼近增量最优控制律；最优代价函数J^*(z_t)近似为：

其中是期望的权重向量，/>激活函数，l>1是隐藏层中神经元的数量，是评价网络的近似误差；

估计最优代价函数为：

其中以及/>是相对应的评价网络的近似误差；

离散形式的哈密顿函数表示为：

其中和/> 是有界的；

S66，将代价函数的估计定义为：

近似哈密顿函数表示为：

评价网络的权重更新法更新为：

其中η_c>0是评价网络的学习率；

得到：

其中和/>

推得：期望的增量最优控制策略为：

其中和/>

对应的实际的最优增量控制策略为：

8.根据权利要求7所述的非线性系统执行器故障PPB-SIADP容错控制方法，其特征在于，步骤S64中，采用自适应在线策略迭代控制算法来逼近HJB方程的解的过程包括：

S641，选择初始容许增量控制策略t-1时刻的控制策略μ_G，t-1和正数ε；

S642，根据下述公式进行策略评估，求解Jⁱ(z_t)：

S643，更新增量控制策略为：

S644，如果||Jⁱ(z_t)-J^i-1(z_t)||≤ε，停止迭代，得到近似增量最优控制策略；否则令i＝i+1，并且返回S642。