CN116661307A - 非线性系统执行器故障ppb-siadp容错控制方法 - Google Patents

非线性系统执行器故障ppb-siadp容错控制方法 Download PDF

Info

Publication number
CN116661307A
CN116661307A CN202310551647.2A CN202310551647A CN116661307A CN 116661307 A CN116661307 A CN 116661307A CN 202310551647 A CN202310551647 A CN 202310551647A CN 116661307 A CN116661307 A CN 116661307A
Authority
CN
China
Prior art keywords
actuator
fault
steps
function
method comprises
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310551647.2A
Other languages
English (en)
Inventor
张绍杰
季坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qinhuai Innovation Research Institute Of Nanjing University Of Aeronautics And Astronautics
Nanjing University of Aeronautics and Astronautics
Original Assignee
Qinhuai Innovation Research Institute Of Nanjing University Of Aeronautics And Astronautics
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qinhuai Innovation Research Institute Of Nanjing University Of Aeronautics And Astronautics, Nanjing University of Aeronautics and Astronautics filed Critical Qinhuai Innovation Research Institute Of Nanjing University Of Aeronautics And Astronautics
Priority to CN202310551647.2A priority Critical patent/CN116661307A/zh
Publication of CN116661307A publication Critical patent/CN116661307A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种非线性系统执行器故障PPB‑SIADP容错控制方法。对于标称非线性系统经过预定性能边界变换得到新的误差跟踪系统,利用增量非线性技术得到一个近似线性时变系统;根据执行器的冗余特性和功能,提出一种执行器的分组方案,并设计一个增量神经网络观测器来逼近多重执行器故障;设计泛函性能指标去处理执行器饱和问题,推导出相对应的哈密顿‑雅克比‑贝尔曼方程;采用单网络增量自适应动态规划算法来实现最优控制。新的单网络增量自适应动态规划方案由一个优化的评价网络构成,本发明可以缩短学习时间并减少控制过程中的计算负担。

Description

非线性系统执行器故障PPB-SIADP容错控制方法
技术领域
本发明涉及容错控制领域,具体涉及一种非线性系统执行器故障PPB-SIADP容错控制方法。
背景技术
工程系统越来越复杂,在运行过程中可能会出现各种故障。由于长期频繁地执行控制任务,执行器容易出现故障。在执行器发生故障后,不仅不能执行原始控制律,而且直接影响被控对象的输出,从而降低整个系统的性能。然而,容错控制(Fault-tolerantContro1,FTC)方法为提高复杂非线性系统的可靠性和安全性提供了有效途径。开发FTC方案来处理此类故障并保持可接受的系统性能具有重要意义。
通常,FTC方法可分为两类:被动容错控制(Passive Fault-tolerant Control,PFTC)和主动容错控制(Active Fault-tolerant Control,AFTC)。PFTC主要依靠控制器本身的鲁棒性来减少一类假定故障的影响,从而达到容错控制的目的。PFTC控制器的特点是需要预先知道所有可能的故障类型,其保守的设计使其难以实现更好的控制性能。从处理故障的功能性角度来看,其他研究人员还将主动容错控制方案(Active Fault-tolerantControl Scheme,AFTCS)分类为故障检测、识别(诊断)和调节方案。AFTC主要利用实时故障检测和诊断(Fault Detection and Diagnosis,FDD)模块在线检测和获取故障信息,然后重构控制律,使系统获得更满意的控制效果。AFTC主要包含三个方面:FDD模块、可重构的控制器模块以及控制器重组设计机制。相对于被动容错控制,主动容错控制的控制效果会更加。
在考虑优化的情况下,将自适应动态规划(ADP,Approximate DynamicProgramming)引入FTC方案的设计中,从而得到更好的控制效果。ADP通过将强化学习、神经网络等理论与经典的动态规划相结合,克服了传统DP的缺点,能够获得近似最优的控制律,是一种解决非线性系统最优控制的有效方法。传统的动态规划(Dynamic Programming,DP)由于“维数的诅咒”而难以实现,也就是随着非线性系统的状态信号和输入信号维数增长的时候,DP的数据存储量和计算量都会增加。为了克服这些缺点,作为强化学习的一个重要分支,ADP框架通过神经网络来估计代价函数,在线或离线的近似迭代有效地处理了这个问题。推导非线性最优控制问题解的核心挑战通常归结为求解某些哈密顿-雅可比-贝尔曼(Hamilton-Jacobi-Bellman,HJB)方程。HJB方程是非线性的,对于一般的非线性动力系统很难求解。事实上,除了非常特殊的问题外,此类方程不存在封闭形式的解。因此,工程师们开发了HJB方程的数值解。为了获得这样的数值解,可以使用ADP的高效算法去获得。增量控制常与自适应控制相结合,以减少对动力学知识的依赖,该算法可以在不辨识全局系统的情况下处理系统非线性和不确定性。有相关文献中引入了增量自适应动态规划(IncrementalAdaptive Dynamic Programming,IADP)算法来解决非线性系统的自适应跟踪控制问题。然而,相关工作中未给出系统稳定性分析。并且在这些算法中,大量的调谐参数是常见的不足。根据标准梯度下降算法,应该更新神经网络的期望权重的估计值,这不可避免地需要在线计算大量数据,并大大增加了计算负担。值得注意的是,一些研究人员已经对基于较少学习参数的控制策略进行了研究,但是这些控制方案没有考虑优化的FTC。因此,如何开发一种具有较少学习参数和较少在线计算负担的新型单网络自适应动态规划(SIADP,Single-network Incremental Adaptive Dynamic Programming)并将其推广到FTC策略是一个重要的问题。
发明内容
本发明公开了一种非线性系统执行器故障PPB-SIADP容错控制方法,首先对于标称非线性系统经过预定性能边界变换得到新的误差跟踪系统。利用增量非线性技术得到一个近似线性时变系统,其中系统相关矩阵参数通过递推最小二乘辨识算法来获得。根据执行器的冗余特性和功能,提出了一种执行器的分组方案,并设计了一个增量神经网络观测器来逼近多重执行器故障。设计泛函性能指标去处理执行器饱和问题,推导出相对应的哈密顿-雅克比-贝尔曼方程。针对性能指标中的抗饱和函数是非二次型的,难以求解哈密顿-雅克比-贝尔曼方程,采用单网络增量自适应动态规划算法来实现最优控制。新的单网络增量自适应动态规划方案由一个优化的评价网络构成,以缩短学习时间并减少控制过程中的计算负担,其中更新了评价网络的权重估计的范数。
为实现上述技术目的,本发明采取的技术方案为:
一种非线性系统执行器故障PPB-SIADP容错控制方法,所述非线性系统PPB-SIADP容错控制方法包括以下步骤:
S1,建立执行器故障模型,并根据执行器的冗余特性和功能,将m个执行器分成q个组;考虑具有未知执行器故障的连续MIMO非线性系统为:
式中,是系统状态向量,f(.):/>是未知的非线性函数,sat(·)表示饱和非线性函数;/>和ξG(t)是执行器分组之后的附加故障,μG(t)=[μ1(t) μ2(t) … μq(t)]T=Bμ(t),/>是理想虚拟控制律,/>是理想的输入向量,/>是控制分配矩阵,/>pi是第i个分组的执行器数量;
S2,对状态跟踪误差设置约束边界,根据预定性能边界对系统进行等价变换,将存在误差约束的状态跟踪问题转化为无约束条件的状态调节问题;转化后的跟踪误差动力学模型为:
z(t)=Γ-(z(t),ρl(t),ρu(t));
式中,ρu(t)和ρl(t)为预定动态性能函数的上界与下界;
S3,针对变换后的非线性系统全量模型,对含有执行器故障且具有饱和特性的误差系统进行增量建模,得到的离散线性误差增量模型为:
其中,Δzt=zt-zt-1,Δsat(μGξ,t)=Δsat(μG,t)-Δsat(ξG,t),Δsat(μG,t)=sat(μG,t)-sat(μG,t-1);将ρu(t)和ρl(t)表述为ρu,t、ρl,t,则有Δρu,t=ρu,tu,t-1、Δρl,t=ρl,tl,t-1;参数矩阵Ft-1、Gt-1P t-1分别为t-1时刻的F°(xt-1,sat(μGξ,t-1),ρl,t-1,ρu,t-1)、G°(xt-1,sat(μGξ,t-1),ρl,t-1,ρu,t-1)、/>和P°(xt-1,sat(μGξ,t-1),ρl,t-1,ρu,t-1);
S4,采用递推最小二乘辨识对线性误差增量模型的系统矩阵进行辨识;
S5,基于RBF神经网络的自适应增量故障观测器对执行器故障进行估计;其中,自适应增量故障神经网络定义为:
式中,是Δz(t)的近似值,/>是Wo的近似值,/>是正定矩阵;Fo、Go、/>和P°分别表示t0时刻的参数矩阵F°[z(t0),sat(μ(t0)),ρl(t0),ρu(t0)]、G°[z(t0),sat(μ(t0)),ρl(t0),ρu(t0)]、/>P°[z(t0),sat(μ(t0)),ρl(t0),ρu(t0)];
估计得到的执行器故障为:
式中,ηo>0是学习率,/>是Δz(t)的近似误差,/>是激活函数,lo>1是隐藏层神经元的数量;vs是采样周期;
S6,设定抗饱和的最优性能指标,提出单网络增量自适应动态规划控制方法得到近似最优容错控制策略,得到的最优增量控制策略为:
式中,为饱和器模型,根据实际执行器输出范围选用有界单调递增函数,并且满足||φ(·)||≤φmax,φmax为正常数;/>为对角正定矩阵,为执行器饱和界对角阵,是第i个执行器的饱和界;折扣因子γ∈(0,1),用于控制短期代价或长期代价的关注程度;/>μG(t-1)是t-1时刻的控制策略;/>是权重Wc(t)的估计值,/>
与现有技术相比,本发明的有益效果如下:
第一,本发明的非线性系统执行器故障PPB-SIADP容错控制方法,与传统的IADP控制算法相比,使用了单神经网络结构来逼近HJB的解,而不是使用执行网络-评价网络结构,并且可以通过使用评价网络的信息直接获得控制信号。更重要的是,只更新权重估计的欧几里德范数,而不是直接更新权重估计,这大大减少了自适应学习参数并降低了在线计算负担;
第二,本发明的非线性系统执行器故障PPB-SIADP容错控制方法,基于离散线性增量系统,提出了一种增量神经网络观测器来估计多个执行器故障。考虑了硬件冗余和执行器分组方案,提高了执行器故障的处理效率;
第三,本发明的非线性系统执行器故障PPB-SIADP容错控制方法,通过重新设计抗饱和性能指标,得到了一种基于SIADP的新型抗饱和方案;
第四,本发明的非线性系统执行器故障PPB-SIADP容错控制方法,首次将PPB和SIADP相结合,提出来一种新型的预定性能的无模型最优跟踪控制方案;
第五,本发明的非线性系统执行器故障PPB-SIADP容错控制方法,所提出的自适应最优FTC方案在没有任何非线性动力学先验知识的情况下实现,这提高了控制方法的适用性。
附图说明
图1为执行器分组框图;
图2为无尾式飞翼飞行器的结构图;
图3为飞翼飞行器的姿态控制双环路控制框图;
图4为本发明具有执行器故障及饱和特性的非线性系统PPB-SIADP容错控制示意图。
具体实施方式
以下结合附图对本发明的实施例作进一步详细描述。
本申请公开了一种非线性系统执行器故障PPB-SIADP容错控制方法,包括以下步骤:
步骤1:首先建立执行器故障模型,并根据执行器的冗余特性和功能,提出了一种执行器的分组方案;
考虑具有未知执行器故障的连续MIMO非线性系统:
其中是系统状态向量,/>是带有执行器故障的实际输入向量,/>是理想的输入向量,/>是附加的执行器故障,f(·):/>是未知的非线性函数,sat(·)表示饱和非线性函数,即:
假设1所有系统状态都是可控可观的,并且所有的系统状态也是可以直接测量的。
假设2附加的执行器故障ξ(t)是未知的,并且满足||ξ(t)||≤δ1,其中δ1是一个正整数。
本申请考虑了未知执行器故障(卡死和失效)。故障模型描述为:
其中λi∈[0,1]代表μi(t)的效能值,表示被控系统的第i个执行器发生卡死。详细的故障见表1,其中ti表示相应故障发生的不同时刻。
表1执行器故障
则附加的执行器故障可以写成:
假设3当式(1)的非线性系统发生如式(6)形式的执行器故障,控制系统依然可以使用无故障或者故障后仍可用的执行器完成任务。假设3是非线性系统(1)的FTC方案的必要条件。为了处理执行器冗余,根据执行器的物理意义将m执行器分成q个组:
其中p1+p2+…pq=m,并且pj代表第j(0<j≤q)组执行器的数量。执行器分组的对应图如图1所示,式(7)可改写为:
μG(t)=[μ1(t) μ2(t) … μq(t)]T=Bμ(t) (8);
其中是理想虚拟控制律,/>是控制分配矩阵。bij是B的元素,这可以表示为:
根据式(8),式(1)可以写成:
其中和ξG(t)是执行器分组之后的附加故障。
步骤2:对状态跟踪误差设置约束边界,根据预定性能边界对系统进行等价变换,将存在误差约束的状态跟踪问题转化为无约束条件的状态调节问题;
定义期望的状态信号为则可以得到非线性系统(10)的跟踪误差为:
e(t)=x(t)-xd(t) (11);
在所提出的控制目标中,预定的性能表明跟踪误差ei(t)被限制在预设范围内区域,可以描述为:
其中ρui(t)和ρli(t)为预定动态性能函数的上界与下界,它们的具体定义为:
ρli(t)=-σliρi(t),ρui(t)=σuiρi(t) (13);
在式(13)中,正数σui和σli用于调整边界,这也表示着上下界之间的关系。ρi(t):是连续且充分平滑的、恒正且单调递减的函数,满足/>在本申请中,选择ρi(t)为式(14)所示的指数型函数:
其中ρi0、ρi∞和ki是用于调整预定边界的正数。具体而言,ρi0限制了ei(t)的正向超调和负向超调。ρi∞是ei(t)的稳定状态上限允许的范围。ei(t)的收敛速度的约束取决于ρi(t)的递减率,该递减率由ki进行调整。随后的控制律设计旨在将跟踪误差强制在预定域范围内。
定义一个连续的变量表示原非线性系统(10)经过预定性能变换之后等价的系统变量,它满足下面这个等式:
其中是一个待设计的严格递增的函数,它满足式(16)所有的条件:
为了设计出一个S(zi)满足式(16),在本申请中设计S(zi)为式(17)-(18)这种形式:
结合式(17)-(18),可以推得:
对式(19)求一阶导数,可以得到:
进行简单的变换,可得:
则式(20)可以写成:
因此,根据式(19)和式(22),可以将转换之后的跟踪误差动力学模型改写成:
根据式(15),式(20)可以改写为:
同理,根据式(15),式(22)可以改写为:
新的跟踪误差动力学模型为:
步骤3:针对变换后的非线性系统全量模型,对含有执行器故障且具有饱和特性的误差系统进行增量建模;
为了获得存在执行器故障且具有执行器饱和特性的误差系统动力学模型(26)的增量形式,考虑围绕着z(t0)和μ(t0)进行一阶泰勒级数展开:
其中H.O.T=O[(z(t)-z(t0))2,(sat(μ(t)-μ(t0)))2,(ρl(t)-ρl(t0))2,(ρu(t)-ρu(t0))2]代表剩余的高阶项。系统(26)状态转移矩阵F(·)、控制能效矩阵G(·)、预定性能上界参数矩阵和预定性能下界参数矩阵为P(·):
因此,通过改写(27),在t0时刻可以获得一个连续线性增量模型:
尽管系统是连续的,但实际上,计算机使用数字信号进行数据采集和处理,因此有必要对连续系统进行离散化。通过假设采样频率1/vs足够高,状态导数可以表示为:
则式(29)可以写成:
zt+1=zt+vsΞ-(z(t),ρl(t),ρu(t),sat(μ(t))) (31);
通过式(27)-式(29)的相同步骤,可以得到:
根据式(28)和式(31),F°[z(t0),μGξ(t0),ρl(t0),ρu(t0)]、G°[z(t0),μ(t0),ρl(t0),ρu(t0)]、P°[z(t0),μ(t0),ρl(t0),ρu(t0)]可以表示为:
其中F°[z(t0),sat(μ(t0)),ρl(t0),ρu(t0)]、G°[z(t0),sat(μ(t0)),ρl(t0),ρu(t0)]、,ρu(t0)]和P°[z(t0),sat(μ(t0)),ρl(t0),ρu(t0)]在本章节中可以简化为Fo、Go、/>P°。
系统在每一步都通过这种增量方法进行处理,因此可以用zt-1、sat(μGξ,t-1)、ρl,t-1和ρu,t-1代替z(t0)、sat(μ(t0))、ρl(t0)和ρu(t0)。然后离散线性增量模型显示为:
其中Δzt=zt-zt-1、Δsat(μGξ,t)=Δsat(μG,t)-Δsat(ζG,t)、Δsat(μG,t)=sat(μG,t)-sat(μG,t-1)、Δρl,t=ρl,tl,t-1和Δρu,t=ρu,tu,t-1。参数矩阵F°(xt-1,sat(μGξ,t-1),ρl,t-1u,t-1)、G°(xt-1,sat(μGξ,t-1),ρl,t-1,ρu,t-1)、P°(xt-1,sat(μGξ,t-1),ρl,t-1,ρu,t-1)在本章节中可以简化为Ft-1、Gt-1、/>P t-1。因为系统的状态和控制信号是有界的,所以系统的状态转移矩阵Ft-1和输入分配矩阵Gt-1也是有界的。因此,假设||Ft-1||≤Fmax和||Gt-1||≤Gmax。也因为预定性能上界函数ρu,t和下界函数ρl,t本身都是有界的,所以通过重新构建的/>P t-1也是有界的。
步骤4:采用递推最小二乘辨识对线性误差增量模型的系统矩阵进行辨识;
RLS是LS的一种改进方法,是一种不依赖大量数据、辨识精度高的在线辨识算法。
RLS的原理是在获得新的采样数据后,修改上一时刻的辨识参数,通过递归得到新的参数估计,从而实现在线辨识的功能。
首先,定义输入信息矩阵和参数矩阵/>
其次,RLS的核心公式为:
其中是从式(34)和式(36)得到的预测误差,/>是增益矩阵,是协方差矩阵的估计。在每一个采样步长,该模型的辨识结果可以通过依次执行式(37)-式(40)来获得。
步骤5:基于RBF神经网络的自适应增量故障观测器对执行器故障进行估计;
由于附加的执行器故障值未知,提出了一种基于RBF神经网络的自适应增量故障观测器。由于系统(29)是增量的,故障观测器以增量形式设计。相应的增量执行器故障定义为:
其中是期望的权重向量,/>是激活函数,lo>1是隐藏层神经元的数量,并且/>是RBF神经网络的近似误差。
则Δμ(t)可以表示为:
将式(42)代入连续的增量系统(29),可以得到:
则自适应增量故障神经网络可以定义为:
其中是Δz(t)的近似值,/>是Wo的近似值,/>是正定矩阵。
权值向量可以更新为:
其中ηo>0是学习率,是Δz(t)的近似误差。
为了使执行器故障估计结果与离散RLS辨识和最优控制律设计相匹配,(45)应改写为:
然后以增量形式获得近似离散执行器故障:
/>
则相对应的执行器故障可以构建为:
步骤6:设定抗饱和的最优性能指标,提出单网络增量自适应动态规划控制方法得到近似最优容错控制策略。
考虑无限时域二次型代价函数为:
其中R>0和Q≥0。是在每一个采样步长下的代价函数。折扣因子γ∈(0,1)确保任意状态下的代价(49)都是有限的。通过调整γ,它能够控制短期代价或长期代价的关注程度。
若式(49)中取s(μG,t-1μG,t)=(μG,t-1+ΔμG,t)TR(μG,t-1+ΔμG,t)作为性能指标函数,则对于带饱和执行器的控制系统设计得到的最优控制律难以能保证系统达到最优,甚至可能导致系统的不稳定。因此,在考虑执行器饱和问题后,代价函数(49)可以改写为:
其中为抗饱和性能指标函数。设/>为对角正定矩阵,/>为执行器饱和界对角阵,是第i个执行器的饱和界。/>为饱和器模型,可根据实际执行器输出范围选用有界单调递增函数,并且满足||φ(·)||≤φmax,φmax为正常数。φ-1(ΔμG(i)+μG(t-1))=[φ-1(ΔμG,1(i)+μG,1(i-1)),…,φ-1(ΔμG,m(i)+μG,m(i-1))]T
式(50)可以改写为:
其中然后,离散形式的Hamilton函数:
最优代价函数J*(zt)可以定义为:
根据贝尔曼最优性原理,J*(zt)满足HJB方程:
通过求解式(54)的偏导数,也就是则可以得到闭式增量最优控制策略/>
/>
其中则可以构建相对应的最优控制策略:
将式(56)代入式(54),可以得到离散形式的HJB方程:
与直接设计总体控制策略的传统ADP不同。本章节首先设计了闭环增量控制策略/>然后在μG,t-1和/>的基础上构建了整体控制策略/>
由于HJB方程(57)的解很难直接找到,因此提出了如表2的一种自适应在线策略迭代(PI)控制算法来逼近HJB方程的解。
表2
在自适应在线PI控制算法的基础上,提出了一种新的SIADP最优控制算法,以逼近增量最优控制律。最优代价函数J*(zt)可以近似为:
其中是期望的权重向量,/>激活函数,l>1是隐藏层中神经元的数量,/>是评价网络的近似误差。
一种新型的ANN被用于如下估计最优代价函数:
其中以及/>是相对应的评价网络的近似误差。
那么离散形式的哈密顿函数可以表示为:
其中和/>因为评价网络的近似误差是有界的,所以/>也是有界的,也就是/>
因为期望的权重Wc(t)是未知的,所以代价函数的估计可以定义为:
那么近似哈密顿函数可以表示为:
根据梯度下降算法和链式规则,通过最小化以平方残差形式设计的目标函数来实现权重更新:
评价网络的权重更新法则更新为式(64)和式(65):
其中ηc>0是评价网络的学习率。
根据式(60)和式(62),可以得到:
其中和/>
根据式(55)-式(66),可以得到:
因此,根据式(55)和式(59),期望的增量最优控制策略可以描述为:
其中和/>因此,假设/>
则对应的实际的最优增量控制策略为:
实例
步骤1:以飞翼飞行器非线性系统为例,如图2所示。建立飞翼飞行器模型以及执行器故障模型,并根据执行器的冗余特性和功能,提出了一种执行器的分组方案;
根据时间尺度分离原理,状态变量可以分为具有不同响应速度的四组,其中内侧两环分别为角速率环和姿态环。数学模型表达式为:
其中是惯性矩阵。u=[μa μe μr]T是控制输入向量。μa、μe和μr分别表示副翼、升降舵和阻力舵的总偏转角度。ω=[p q r]T是机体参考坐标系下的角速率向量,p为俯仰角速率,q为滚转角速率,r为偏航角速率。/>是动压,b是翼展,Sω是机翼面积,cA是平均空气动力弦,C、Cnp、Cnr、Cnμa和Cnμr是偏航力矩的气动导数,C、Clp、Clr、Clμa和Clμr是滚动力矩的气动导数。Cm0、C、/>Cmq和Cmμe是俯仰力矩的气动导数。MT是发动机提供的俯仰力矩。令/>。[μ,α,β]T为姿态角矢量,μ为滚转角,α为迎角,β为侧滑角。χ为飞行方位角,γ为飞行航迹角。
则可以得到飞翼飞行器的双环模型如式(72)所示:
其中x1(t)=[μ,α,β]T、x2(t)=[p,q,r]T、μ(t)=[μa(t),μe(t),μr(t)]T。该飞翼飞行器姿态控制的双环控制框图如图2所示。图3中显示了每个控制回路产生的参考信号和期望的指令信号。
考虑具有未知执行器故障及饱和特性,式(72)可以改写为:
其中是系统状态向量,/>是带有执行器故障的实际输入向量,/>是理想的输入向量,/>是附加的执行器故障,f(·):/>是未知的非线性函数,sat(·)表示饱和非线性函数,即:
假设1所有系统状态都是可控可观的,并且所有的系统状态也是可以直接测量的。
假设2附加的执行器故障ξ(t)是未知的,并且满足||ξ(t)||≤δ1,其中δ1是一个正整数。
本章考虑了未知执行器故障(卡死和失效)。故障模型描述为:
其中λi∈[0,1]代表μi(t)的效能值,表示被控系统的第i个执行器发生卡死。详细的故障见表1,其中ti表示相应故障发生的不同时刻。
则附加的执行器故障可以写成:
假设3当非线性系统(73)发生(78)形式的执行器故障,控制系统依然可以使用无故障或者故障后仍可用的执行器完成任务。
假设3是非线性系统(73)的FTC方案的必要条件。为了处理执行器冗余,根据执行器的物理意义将m执行器分成q个组。
其中p1+p2+…pq=m,并且pi代表第j(0<j≤q)组执行器的数量。执行器分组的对应图如图1所示,式(79)可改写为:
μG(t)=[μ1(t) μ2(t) … μq(t)]T=Bμ(t) (80);
其中是理想虚拟控制律,/>是控制分配矩阵。bij是B的元素,这可以表示为:
根据式(80),式(73)可以写成:
其中和ξG(t)是执行器分组之后的附加故障。
步骤2:对状态跟踪误差设置约束边界,根据预定性能边界对系统进行等价变换,将存在误差约束的状态跟踪问题转化为无约束条件的状态调节问题;
定义期望的状态信号为则可以得到非线性系统(73)的跟踪误差为:
e(t)=x(t)-xd(t) (83);
在所提出的控制目标中,预定的性能表明跟踪误差ei(t)被限制在预设范围内区域,可以描述为:
其中ρui(t)和ρli(t)为预定动态性能函数的上界与下界,它们的具体定义为:
ρli(t)=-σliρi(t),ρui(t)=σuiρi(t) (85);
在式(85)中,正数σui和σli用于调整边界,这也表示着上下界之间的关系。ρi(t):是连续且充分平滑的、恒正且单调递减的函数,满足/>在本文中,选择ρi(t)为式(86)所示的指数型函数:
其中ρi0、ρi∞和ki是用于调整预定边界的正数。具体而言,ρi0限制了ei(t)的正向超调和负向超调。ρi∞是ei(t)的稳定状态上限允许的范围。ei(t)的收敛速度的约束取决于ρi(t)的递减率,该递减率由ki进行调整。随后的控制律设计旨在将跟踪误差强制在预定域范围内。
定义一个连续的变量表示原非线性系统(73)经过预定性能变换之后等价的系统变量,它满足下面这个等式:
其中是一个待设计的严格递增的函数,它满足式(88)所有的条件:
为了设计出一个满足式(88),在本实例中设计/>为式(89)-(90)这种形式:
结合式(89)-(90),可以推得:
对式(91)求一阶导数,可以得到:
进行简单的变换,可得:
则式(92)可以写成:
因此,根据式(91)和式(94),可以将转换之后的跟踪误差动力学模型改写成:
根据式(87),式(91)可以改写为:
同理,根据式(87),式(94)可以改写为:
新的跟踪误差动力学模型为:
步骤3:针对变换后的非线性系统全量模型,对含有执行器故障且具有饱和特性的误差系统进行增量建模;
为了获得存在执行器故障且具有执行器饱和特性的误差系统动力学模型(82)的增量形式,考虑围绕着z(t0)和μ(t0)进行一阶泰勒级数展开:
其中H.O.T=o[(z(t)-z(t0))2,(sat(μ(t)-μ(t0)))2,(ρl(t)-ρl(t0))2,(ρu(t)-ρu(t0))2]代表剩余的高阶项。系统(82)状态转移矩阵F(·)、控制能效矩阵G(·)、预定性能上界参数矩阵和预定性能下界参数矩阵为P(·)为:
因此,通过改写(99),在t0时刻可以获得一个连续线性增量模型:
尽管系统是连续的,但实际上,计算机使用数字信号进行数据采集和处理,因此有必要对连续系统进行离散化。通过假设采样频率1/vs足够高,状态导数可以表示为:
则式(98)可以写成:
zt+1=zt+vsΞ-(z(t),ρl(t),ρu(t),sat(μ(t))) (103);
通过式(99)-式(101)的相同步骤,可以得到:
根据式(100)和式(104),F°[z(t0),μ(t0),ρl(t0),ρu(t0)]、G°[z(t0),μ(t0),ρl(t0),ρu(t0)]、P°[z(t0),μ(t0),ρl(t0),ρu(t0)]可以表示为:/>
其中F°[z(t0),sat(μ(t0)),ρl(t0),ρu(t0)]、G°[z(t0),sat(μ(t0)),ρl(t0),ρu(t0)]、 和P°[z(t0),sat(μ(t0)),ρl(t0),ρu(t0)]在本章节中可以简化为Fo、Go、/>P°。
系统在每一步都通过这种增量方法进行处理,因此可以用zt-1、sat(μGξ,t-1)、ρl,t-1和ρu,t-1代替z(t0)、sat(μ(t0))、ρl(t0)和ρu(t0)。然后离散线性增量模型显示为:
其中Δzt=zt-zt-1、Δsat(μGξ,t)=Δsat(μG,t)-Δsat(ζG,t)、Δsat(μG,t)=sat(μG,t)-sat(μG,t-1)、Δρl,t=ρl,tl,t-1和Δρu,t=ρu,tu,t-1。参数矩阵F°(xt-1,sat(μGξ,t-1),ρl,t-1,ρu,t-1)、G°(xt-1,sat(μGξ,t-1),ρl,t-1,ρu,t-1)、和P°(xt-1,sat(μGξ,t-1),ρl,t-1,ρu,t-1)在本章节中可以简化为Ft-1、Gt-1、/>P t-1。因为系统的状态和控制信号是有界的,所以系统的状态转移矩阵Ft-1和输入分配矩阵Gt-1也是有界的。因此,假设||Ft-1||≤Fmax和||Gt-1||≤Gmax。也因为预定性能上界函数ρu,t和下界函数ρl,t本身都是有界的,所以通过重新构建的/>P t-1也是有界的。
步骤4:采用递推最小二乘辨识对线性误差增量模型的系统矩阵进行辨识;
RLS是Ls的一种改进方法,是一种不依赖大量数据、辨识精度高的在线辨识算法。
RLS的原理是在获得新的采样数据后,修改上一时刻的辨识参数,通过递归得到新的参数估计,从而实现在线辨识的功能。
首先,定义输入信息矩阵和参数矩阵/>
其次,RLS的核心公式为:
/>
其中是从式(106)和式(108)得到的预测误差,/>是增益矩阵,是协方差矩阵的估计。在每一个采样步长,该模型的辨识结果可以通过依次执行式(109)-式(112)来获得。
步骤5:基于RBF神经网络的自适应增量故障观测器对执行器故障进行估计;
由于附加的执行器故障值未知,提出了一种基于RBF神经网络的自适应增量故障观测器。由于系统(101)是增量的,故障观测器以增量形式设计。相应的增量执行器故障定义为:
其中是期望的权重向量,/>是激活函数,lo>1是隐藏层神经元的数量,并且/>是RBF神经网络的近似误差;
则Δμ(t)可以表示为:
将式(114)代入连续的增量系统(101),可以得到:
则自适应增量故障神经网络可以定义为:
其中是Δz(t)的近似值,/>是Wo的近似值,/>是正定矩阵。权值向量/>可以更新为:
其中ηo>0是学习率,是Δz(t)的近似误差。
为了使执行器故障估计结果与离散RLS辨识和最优控制律设计相匹配,(117)应改写为:
然后以增量形式获得近似离散执行器故障:
则相对应的执行器故障可以构建为:
步骤6:设定抗饱和的最优性能指标,提出单网络增量自适应动态规划控制方法得到近似最优容错控制策略。
考虑无限时域二次型代价函数:
其中R>0和Q≥0。是在每一个采样步长下的代价函数。折扣因子γ∈(0,1)确保任意状态下的代价(49)都是有限的。通过调整γ,它能够控制短期代价或长期代价的关注程度。
若式(121)中取s(μG,t-1+ΔμG,t)=(μG,t-1+ΔμG,t)TR(μG,t-1+ΔμG,t)作为性能指标函数,则对于带饱和执行器的控制系统设计得到的最优控制律难以能保证系统达到最优,甚至可能导致系统的不稳定。因此,在考虑执行器饱和问题后,代价函数(121)可以改写为:
其中为抗饱和性能指标函数。设/>为对角正定矩阵,/>为执行器饱和界对角阵,是第i个执行器的饱和界。/>为饱和器模型,可根据实际执行器输出范围选用有界单调递增函数,并且满足||φ(·)||≤φmax,φmax为正常数。φ-1(ΔμG(i)+μG(i-1))=[φ-1(ΔμG,1(i)+μG,1(i-1)),…,φ-1(ΔμG,m(i)+μG,m(i-1))]T
式(122)可以改写为:
其中然后,离散形式的Hamilton函数:
最优代价函数J*(zt)可以定义为:
根据贝尔曼最优性原理,J*(zt)满足HJB方程:
通过求解式(126)的偏导数,也就是则可以得到闭式增量最优控制策略/>
其中则可以构建相对应的最优控制策略:
将式(128)代入式(126),可以得到离散形式的HJB方程:
与直接设计总体控制策略的传统ADP不同。本章节首先设计了闭环增量控制策略/>然后在uG,t-1和/>的基础上构建了整体控制策略/>
由于HJB方程(129)的解很难直接找到,因此提出了如表2的一种自适应在线策略迭代(PI)控制算法来逼近HJB方程的解。
在自适应在线PI控制算法的基础上,提出了一种新的SIADP最优控制算法,以逼近增量最优控制律。最优代价函数J*(zt)可以近似为:
其中是期望的权重向量,/>激活函数,l>1是隐藏层中神经元的数量,/>是评价网络的近似误差。
一种新型的ANN被用于如下估计最优代价函数:
其中以及/>是相对应的评价网络的近似误差。
那么离散形式的哈密顿函数可以表示为:
其中和/>因为评价网络的近似误差是有界的,所以/>也是有界的,也就是/>
因为期望的权重Wc(t)是未知的,所以代价函数的估计可以定义为:
那么近似哈密顿函数可以表示为:
根据梯度下降算法和链式规则,通过最小化以平方残差形式设计的目标函数来实现权重更新:
评价网络的权重更新法则更新为式(136)和式(137):
其中ηc>0是评价网络的学习率。
根据式(132)和式(134),可以得到:
其中和/>
根据式(137)-式(138),可以得到:
因此,根据式(127)和式(131),期望的增量最优控制策略可以描述为:
其中和/>因此,假设/>
则对应的实际的最优增量控制策略为:
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器运行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上运行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上运行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (8)

1.一种非线性系统执行器故障PPB-SIADP容错控制方法,其特征在于,所述非线性系统PPB-SIADP容错控制方法包括以下步骤:
S1,建立执行器故障模型,并根据执行器的冗余特性和功能,将m个执行器分成q个组;考虑具有未知执行器故障的连续MIMO非线性系统为:
式中,是系统状态向量,f(·):/>是未知的非线性函数,sat(·)表示饱和非线性函数;/>和ξG(t)是执行器分组之后的附加故障,μG(t)=[μ1(t) μ2(t) … μq(t)]T=Bμ(t),/>是理想虚拟控制律,/>是理想的输入向量,是控制分配矩阵,/>pi是第i个分组的执行器数量;
S2,对状态跟踪误差设置约束边界,根据预定性能边界对系统进行等价变换,将存在误差约束的状态跟踪问题转化为无约束条件的状态调节问题;转化后的跟踪误差动力学模型为:
z(t)=Γ-(z(t),ρl(t),ρu(t));
式中,ρu(t)和ρl(t)为预定动态性能函数的上界与下界;
S3,针对变换后的非线性系统全量模型,对含有执行器故障且具有饱和特性的误差系统进行增量建模,得到的离散线性误差增量模型为:
其中,Δzt=zt-zt+1,Δsat(μGξ,t)=Δsat(μG,t)-Δsat(ζG,t),Δsat(μc,t)=sat(μG,t)-sat(μG,t-1);将ρu(t)和ρl(t)表述为ρu,t、ρl,t,则有Δρu,t=ρu,tu,t-1、Δρl,t=ρl,tl,t-1;参数矩阵Ft-1、Gt-1P t-1分别为t-1时刻的F°(xt-1,sat(μGξ,t-1),ρl,t-1,ρu,t-1)、G°(xt-1,sat(μGξ,t-1),ρl,t-1,ρu,t-1)、/>P°(xt-1,sat(μGξ,t-1),ρl,t-1,ρu,t-1);
S4,采用递推最小二乘辨识对线性误差增量模型的系统矩阵进行辨识;
S5,基于RBF神经网络的自适应增量故障观测器对执行器故障进行估计;其中,自适应增量故障神经网络定义为:
式中,是Δz(t)的近似值,/>是Wo的近似值,/>是正定矩阵;Fo、Go、/>P°分别表示t0时刻的参数矩阵F°[z(t0),sat(μ(t0)),ρl(t0),ρu(t0)]、G°[z(t0),sat(μ(t0)),ρl(t0),ρu(t0)]、/>P°[z(t0),sat(μ(t0)),ρl(t0),ρu(t0)];
估计得到的执行器故障为:
式中,ηo>0是学习率,/>是Δz(t)的近似误差,/>是激活函数,lo>1是隐藏层神经元的数量;νs是采样周期;
S6,设定抗饱和的最优性能指标,提出单网络增量自适应动态规划控制方法得到近似最优容错控制策略,得到的最优增量控制策略为:
式中,为饱和器模型,根据实际执行器输出范围选用有界单调递增函数,并且满足||φ(·)||≤φmax,φmax为正常数;/>为对角正定矩阵,为执行器饱和界对角阵,是第i个执行器的饱和界;折扣因子γ∈(0,1),用于控制短期代价或长期代价的关注程度;/>μG(t-1)是t-1时刻的控制策略;/>是权重Wc(t)的估计值,/>
2.根据权利要求1所述的非线性系统执行器故障PPB-SIADP容错控制方法,其特征在于,步骤S1中,建立执行器故障模型的步骤包括以下步骤:
S11,构建得到具有未知执行器故障的连续MIMO非线性系统:
其中是系统状态向量,/>是带有执行器故障的实际输入向量,是理想的输入向量,/>是附加的执行器故障,f(·):/>是未知的非线性函数,sat(·)表示饱和非线性函数:
S12,做如下假设:所有系统状态都是可控可观的,并且所有的系统状态是直接测量的;附加的执行器故障ξ(t)是未知的,并且满足||ξ(t)||≤δ1,其中δ1是一个正整数;
对故障模型进行如下描述:
式中,λi∈[0,1]代表μi(t)的效能值,表示被控系统的第i个执行器发生卡死,执行器故障如表1所示,其中ti表示相应故障发生的不同时刻:
表1
则附加的执行器故障为:
S13,根据执行器的物理意义将m执行器分成q个组:
式中,p1+p2+…pq=m,并且pj代表第j组执行器的数量,0<j≤q;
将执行器分组改写为:
μG(t)=[μ1(t) μ2(t) … μq(t)]T=Bμ(t);
其中是理想虚拟控制律,/>是控制分配矩阵;bij是B的元素,表示为:
将步骤S11的连续MIMO非线性系统改写成:
其中和ξG(t)是执行器分组之后的附加故障。
3.根据权利要求1所述的非线性系统执行器故障PPB-SIADP容错控制方法,其特征在于,步骤S2中,对状态跟踪误差设置约束边界,根据预定性能边界对系统进行等价变换,将存在误差约束的状态跟踪问题转化为无约束条件的状态调节间题的过程包括以下步骤:
S21,定义期望的状态信号为得到非线性系统的跟踪误差为:
e(t)=x(t)-xd(t);
在所提出的控制目标中,预定的性能表明跟踪误差ei(t)被限制在预设范围内区域,即:
其中ρui(t)和ρli(t)为预定动态性能函数的上界与下界,它们的具体定义为:
ρli(t)=-σliρi(t),ρui(t)=σuiρi(t);
式中,正数σui和σli用于调整边界,表示着上下界之间的关系;ρi(t):是连续且充分平滑的、恒正且单调递减的函数,满足/>ρi(t)为指数型函数:
其中ρi0、ρi∞和ki是用于调整预定边界的正数;ρi0限制ei(t)的正向超调和负向超调,ρi∞是ei(t)的稳定状态上限允许的范围;ei(t)的收敛速度的约束取决于ρi(t)的递减率,该递减率由ki进行调整;
S22,定义一个连续的变量表示非线性系统经过预定性能变换之后等价的系统变量,它满足下面这个等式:
其中是一个待设计的严格递增的函数,它满足以下条件:
S23,对S(zi)进行设计:
推得:
对zi求一阶导数,得到:
进行变换:
则zi的一阶导数转换成:
S24,将转换之后的跟踪误差动力学模型改写成:
z(t)=Γ(e(t),ρl(t),ρu(t));
求得zi为:
求得为:
转化后的跟踪误差动力学模型为:
z(t)=Γ-(z(t),ρl(t),ρu(t));
4.根据权利要求3所述的非线性系统执行器故障PPB-SIADP容错控制方法,其特征在于,步骤S3中,针对变换后的非线性系统全量模型,对含有执行器故障且具有饱和特性的误差系统进行增量建模的过程包括以下步骤:
围绕着z(t0)和μ(t0)进行一阶泰勒级数展开:
其中H.O.T=o[(z(t)-z(t0))2,(sat(μ(t)-μ(t0)))2,(ρl(t)-ρl(t0))2,(ρu(t)-ρu(t0))2]代表剩余的高阶项;状态转移矩阵F(·)、控制能效矩阵G(·)、预定性能上界参数矩阵和预定性能下界参数矩阵为P(·)为:
获得t0时刻的连续线性增量模型:
对连续系统进行离散化,状态导数表示为:
推得:
F°[z(t0),μ(t0),ρl(t0),ρu(t0)]、G°[z(t0),μ(t0),ρl(t0),ρu(t0)]、P°[z(t0),μ(t0),ρl(t0),ρu(t0)]表示为:
用zt-1、sat(μGξ,t-1)、ρl,t-1和ρu,t-1代替z(t0)、sat(μ(t0))、ρl(t0)和ρu(t0),离散线性增量模型显示为:
5.根据权利要求4所述的非线性系统执行器故障PPB-SIADP容错控制方法,其特征在于,步骤S4中,采用递推最小二乘辨识对线性误差增量模型的系统矩阵进行辨识的过程包括以下步骤:
定义输入信息矩阵和参数矩阵/>
得到递推最小二乘辨识的核心公式:
其中是预测误差,/>是增益矩阵,/>是协方差矩阵的估计。
6.根据权利要求5所述的非线性系统执行器故障PPB-SIADP容错控制方法,其特征在于,步骤S5中,基于RBF神经网络的自适应增量故障观测器对执行器故障进行估计的过程包括以下步骤:
S51,以增量形式设计故障观测器,相应的增量执行器故障定义为:
其中是期望的权重向量,/>是激活函数,lo>1是隐藏层神经元的数量,并且/>是RBF神经网络的近似误差;
S52,Δμ(t)表示为:
代入连续的增量系统得到:
则自适应增量故障神经网络定义为:
其中是Δz(t)的近似值,/>是Wo的近似值,/>是正定矩阵;权值向量/>更新为:
其中ηo>0是学习率,是Δz(t)的近似误差;
S53,为了使执行器故障估计结果与离散RLS辨识和最优控制律设计相匹配,权值向量改写为:
以增量形式获得近似离散执行器故障:
则相对应的执行器故障构建为:
7.根据权利要求6所述的非线性系统执行器故障PPB-SIADP容错控制方法,其特征在于,步骤S6中,设定抗饱和的最优性能指标,提出单网络增量自适应动态规划控制方法得到近似最优容错控制策略的过程包括以下步骤:
S61,考虑无限时域二次型代价函数:
其中R>0和Q≥0;是在每一个采样步长下的代价函数;折扣因子γ∈(0,1)确保任意状态下的代价都是有限的;通过调整γ控制短期代价或长期代价的关注程度;
S62,在考虑执行器饱和问题后,将二次型代价函数改写为:
其中为抗饱和性能指标函数;设/>为对角正定矩阵,/>为执行器饱和界对角阵,是第i个执行器的饱和界;/>为饱和器模型,根据实际执行器输出范围选用有界单调递增函数,并且满足||φ(·)||≤φmax,φmax为正常数;
S63,将二次型代价函数进一步改写为:
其中
S64,定义离散形式的Hamilton函数为:
将最优代价函数J*(zt)定义为:
根据贝尔曼最优性原理,J*(zt)满足HJB方程:
通过HJB方程的偏导数得到闭式增量最优控制策略/>
其中构建相对应的最优控制策略为:
得到离散形式的HJB方程:
采用自适应在线策略迭代控制算法来逼近HJB方程的解;
S65,在自适应在线PI控制算法的基础上,采用优化后的SIADP最优控制算法,以逼近增量最优控制律;最优代价函数J*(zt)近似为:
其中是期望的权重向量,/>激活函数,l>1是隐藏层中神经元的数量,是评价网络的近似误差;
估计最优代价函数为:
其中 以及/>是相对应的评价网络的近似误差;
离散形式的哈密顿函数表示为:
其中和/> 是有界的;
S66,将代价函数的估计定义为:
近似哈密顿函数表示为:
根据梯度下降算法和链式规则,通过最小化以平方残差形式设计的目标函数来实现权重更新:
评价网络的权重更新法更新为:
其中ηc>0是评价网络的学习率;
得到:
其中和/>
推得:期望的增量最优控制策略为:
其中和/>
对应的实际的最优增量控制策略为:
8.根据权利要求7所述的非线性系统执行器故障PPB-SIADP容错控制方法,其特征在于,步骤S64中,采用自适应在线策略迭代控制算法来逼近HJB方程的解的过程包括:
S641,选择初始容许增量控制策略t-1时刻的控制策略μG,t-1和正数ε;
S642,根据下述公式进行策略评估,求解Ji(zt):
S643,更新增量控制策略为:
S644,如果||Ji(zt)-Ji-1(zt)||≤ε,停止迭代,得到近似增量最优控制策略;否则令i=i+1,并且返回S642。
CN202310551647.2A 2023-05-16 2023-05-16 非线性系统执行器故障ppb-siadp容错控制方法 Pending CN116661307A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310551647.2A CN116661307A (zh) 2023-05-16 2023-05-16 非线性系统执行器故障ppb-siadp容错控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310551647.2A CN116661307A (zh) 2023-05-16 2023-05-16 非线性系统执行器故障ppb-siadp容错控制方法

Publications (1)

Publication Number Publication Date
CN116661307A true CN116661307A (zh) 2023-08-29

Family

ID=87723471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310551647.2A Pending CN116661307A (zh) 2023-05-16 2023-05-16 非线性系统执行器故障ppb-siadp容错控制方法

Country Status (1)

Country Link
CN (1) CN116661307A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116819976A (zh) * 2023-08-31 2023-09-29 中国人民解放军空军工程大学 控制输入受约束动力学系统的预定时间容错控制设计方法
CN117151932B (zh) * 2023-10-27 2024-01-12 武汉纺织大学 一种非平稳输出的电流互感器误差状态预测方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116819976A (zh) * 2023-08-31 2023-09-29 中国人民解放军空军工程大学 控制输入受约束动力学系统的预定时间容错控制设计方法
CN116819976B (zh) * 2023-08-31 2023-11-10 中国人民解放军空军工程大学 控制输入受约束动力学系统的预定时间容错控制设计方法
CN117151932B (zh) * 2023-10-27 2024-01-12 武汉纺织大学 一种非平稳输出的电流互感器误差状态预测方法和系统

Similar Documents

Publication Publication Date Title
Bounemeur et al. Indirect adaptive fuzzy fault-tolerant tracking control for MIMO nonlinear systems with actuator and sensor failures
CN113093536B (zh) 非线性系统执行器故障的自适应增量优化容错控制方法
CN116661307A (zh) 非线性系统执行器故障ppb-siadp容错控制方法
Xu et al. Composite learning control of MIMO systems with applications
Sundararajan et al. Fully tuned radial basis function neural networks for flight control
Guan et al. Robust adaptive tracking control for manipulators based on a TSK fuzzy cerebellar model articulation controller
CN108594837A (zh) 基于pd-smc和rise的无模型四旋翼无人机轨迹跟踪控制器及方法
Qi et al. Adaptive dynamic programing design for the neural control of hypersonic flight vehicles
CN116382071B (zh) 深度学习网络修正补偿的气动参数智能辨识方法
CN105867138A (zh) 一种基于pid控制器的稳定平台控制方法及装置
Rego et al. Lyapunov-based continuous-time nonlinear control using deep neural network applied to underactuated systems
CN113128035A (zh) 民用飞机飞控传感器信号重构容错控制方法
Zhang et al. Adaptive neural control of unknown non-affine nonlinear systems with input deadzone and unknown disturbance
Zhang et al. Prescribed performance incremental adaptive optimal fault-tolerant control for nonlinear systems with actuator faults
Lu et al. Friction coefficient estimation in servo systems using neural dynamic programming inspired particle swarm search
Wei et al. Monte Carlo-based reinforcement learning control for unmanned aerial vehicle systems
CN113276114B (zh) 一种基于终端任务指派的可重构机械臂协同力/运动控制系统与方法
CN115167102A (zh) 一种基于并行优势动作评价的强化学习自适应pid控制方法
Zhang et al. Neural adaptive compensation control for a class of MIMO uncertain nonlinear systems with actuator failures
Lu et al. Adaptive closed-loop control allocation-based fault tolerant flight control for an overactuated aircraft
Abdulla et al. Roll control system design using auto tuning LQR technique
CN116088556A (zh) 一种基于深度强化学习的飞行器智能容错控制方法
Mohler Nonlinear stability and control study of highly maneuverable high performance aircraft
Hussain et al. Aircraft sensor estimation for fault tolerant flight control system using fully connected cascade neural network
Wang et al. A Robust Adaptive CMAC Neural Network‐Based Multisliding Mode Control Method for Unmatched Uncertain Nonlinear Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination