CN111240201B - 一种扰动抑制控制方法 - Google Patents

一种扰动抑制控制方法 Download PDF

Info

Publication number
CN111240201B
CN111240201B CN202010050128.4A CN202010050128A CN111240201B CN 111240201 B CN111240201 B CN 111240201B CN 202010050128 A CN202010050128 A CN 202010050128A CN 111240201 B CN111240201 B CN 111240201B
Authority
CN
China
Prior art keywords
disturbance
control
observer
state
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010050128.4A
Other languages
English (en)
Other versions
CN111240201A (zh
Inventor
叶秀芬
王潇洋
刘文智
李海波
李响
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202010050128.4A priority Critical patent/CN111240201B/zh
Publication of CN111240201A publication Critical patent/CN111240201A/zh
Application granted granted Critical
Publication of CN111240201B publication Critical patent/CN111240201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开一种扰动抑制控制方法,在经典的最优控制器损失函数中考虑扰动作用,计算包含扰动前馈控制和状态反馈控制两部分的最优控制器的解析表达式。其中前馈控制律由系统输入动力学参数和扰动作用共同决定;反馈控制律由系统输入动力学参数和损失预测值的梯度共同决定。系统输入动力学参数和扰动作用由所设计的观测器提供,算法通过优化汉密尔顿方程的神经网络估计得出。因此与基于观测器的扰动补偿控制相比具有更好的自适应能力,在扰动和系统控制输入维数不匹配的情况下最小化全局状态摄动。适用于未知系统参数并对稳定性要求较高的应用场合。

Description

一种扰动抑制控制方法
技术领域
本发明涉及一种扰动抑制控制方法,特别是一种能够在线估计模型参数和扰动作用力的自适应扰动前馈补偿控制方法,具体的说是一种利用观测器估计的系统参数,建立动力学模型进而利用基于模型的自适应动态规划算法实现动态系统的扰动前馈补偿控制方法。
背景技术
自适应动态规划方法在自适应控制领域得到越来越广泛的关注,并广泛应用于自动化作业系统和工业过程控制系统中。自适应动态规划方法的优势在于:表征控制性能的损失函数的值可以通过跟踪记录控制过程中系统状态轨迹并结合贝尔曼方程或HJB方程得到准确预测。进而得到最小化损失函数的最优控制策略的解析解。由于自适应动态规划方法对于损失函数的形式没有严格限制,并且不依赖于系统动力学模型,因此被广泛应用于解决各类复杂的控制任务中。例如鲁棒控制和无模型控制。然而,对于系统模型参数持续变化的情况,经典的动态规划方法无法给出精确的性能预测,导致策略的学习陷入局部极小点。因此不确定系统的自适应动态规划控制一直以来面临巨大挑战。例如Dipak等设计了一种包含控制输出约束和不确定性上界的控制器,Ding等发现不确定性的上界的权重大于R矩阵的最大特征值可以保证系统的有界稳定性。Jiang等将一个小增益加入到控制策略中并证明了其鲁棒最优性。这些方法运用自适应动态规划方法解决了鲁棒控制问题,保证了在扰动存在的前提下系统的鲁棒性。但是在扰动上界以及系统动力学参数难以确定的情况下,仍然面临收敛慢和难以保证自适应过程中的稳定性的问题。相比于策略搜索方法,直接计算最优策略的解析解是一种相对高效的方式,然而这种方法在系统模型完全未知的情况下难以实现。
扰动和系统不确定性抑制是一种行之有效的提升控制系统鲁棒性的方法。其特点是使用观测器对特定系统的扰动作用和不确定性进行在线估计。使用扰动前馈策略可以抑制或消除扰动作用对系统的影响。相似的机制也可以用于抵消系统中的不确定性作用,进而提升系统的鲁棒性。然而观测器的设计一般依赖于系统的动力学模型,建模精度在一定程度上影响扰动作用的估计精度。为了降低观测器对于系统动力学模型的依赖程度,Han等人提出了状态扩展观测器,该方法仅需考虑模型的相对阶,最小化了观测器对于模型的依赖程度。Johnson等提出了未知输入观测器,同时估计系统状态和系统扰动。其本质是在ESO的基础上引入了扰动作用的动力学模型,并使用两个状态观测器分别对系统动力学模型和扰动作用动力学模型进行状态估计。Ohnishi等人将该滤波器应用于估计机械系统的负载扭矩,提升了系统速度控制和扭矩控制的性能。
本发明使用自适应动态规划方法解决基于扰动观测器的非匹配扰动抑制问题。首先对扰动观测器进行改进,提出一种可以在线估计系统输入动力学参数和外界扰动作用的观测器。相比于单纯估计扰动作用的观测器,使用该观测器有助于直接获得最优策略的解析解,消除了在线估计策略的必要性。通过将传统扰动补偿控制器作为最优控制器反推出对应的效能函数,我们发现该效能函数不能很好地表征扰动作用对系统的影响。为此我们修改了该效能函数并使用自适应动态规划方法重新得到了抑制非匹配扰动作用的最优控制器。打破了以往只能在系统输出端实现扰动解耦的限制。此外我们使用神经网络预测损失函数关于系统状态的梯度,该神经网络的权值参数是在保证系统稳定性的前提下,最小化汉密尔顿方程的准侧进行优化的。由于预测的是损失函数的梯度,因此该网络的输出可以直接用于计算汉密尔顿方程和最优反馈控制律。仿真实验结果显示,所提出的方法策略收敛速度更快,并且可以抑制系统每个维度状态的扰动。相比于从系统输出端解耦扰动作用的方法,该方法将扰动作用在系统状态轨迹上造成的摄动降低了12%。相比于鲁棒自适应动态规划方法,本发明所提出的系统将控制性能提升了50%。
发明内容
针对上述现有技术,本发明要解决的技术问题是在于基于自适应动态规划方法提出一种基于观测器的扰动抑制控制方法,最小化非匹配扰动作用对系统状态的影响,即自适应最优扰动抑制控制方法。
为解决上述技术问题,本发明一种扰动抑制控制方法,包括扰动观测器、估值网络、最优控制器、估值网络参数优化器和汉密尔顿函数计算单元;
设当前时刻为i,记n维矢量xi由i时刻系统所有可观测的状态变量组成,将i-1时刻控制器输出ui-1和系统状态变量xi作为扰动观测器的输入,扰动观测器输出扰动和不确定性w(t)的估计值
Figure BDA0002370840110000021
和系统输入动力学参数矩阵B的估计值
Figure BDA0002370840110000022
将当前时刻估计得到的
Figure BDA0002370840110000023
Figure BDA0002370840110000024
代入
Figure BDA00023708401100000211
并结合i时刻状态变量xi计算汉密尔顿函数hi,zi和梯度矩阵P;然后将hi,zi和P传递给估值网络参数优化器,通过计算
Figure BDA0002370840110000025
Figure BDA0002370840110000026
得到最优的网络权值估计
Figure BDA0002370840110000027
估值网络的输入为xi,权值为
Figure BDA0002370840110000028
输出值函数J(xi)关于i时刻系统状态xi的梯度
Figure BDA0002370840110000029
最后将
Figure BDA00023708401100000210
Figure BDA00023708401100000212
传递给最优非匹配扰动抑制控制器并利用公式
Figure BDA00023708401100000213
计算得到i时刻控制器的输出ui
本发明还包括:
扰动观测器的动力学方程为:
Figure BDA0002370840110000031
Figure BDA0002370840110000032
Figure BDA0002370840110000033
Figure BDA0002370840110000034
其中:
Figure BDA0002370840110000035
为系统状态矢量x的估计值,
Figure BDA0002370840110000036
为扰动和模型不确定性作用估计值,
Figure BDA0002370840110000037
为系统输入传递矩阵的估计值,
Figure BDA0002370840110000038
为λ的估计值,L1-4为人为设置的参数估计动力学模型参数。
本发明的有益效果:本发明的特色是将扰动观测器与自适应动态规划方法相结合,在无需对系统状态进行微分的前提下估计扰动和不确定性作用。结合参数估计方法建立动力学模型,并基于该模型在保证系统状态渐进稳定的前提下学习最优反馈控制律。最优前馈控制律利用扰动作用的在线估计值实现扰动抑制,减弱扰动和不确定性作用对控制系统的影响。
本发明的优点在于克服了只能在系统输出端解耦扰动作用的限制,放宽对研究对象的限制条件。实现了针对非匹配扰动的最优抑制作用。同时基于观测器针对扰动和系统输入动力学模型参数进行在线估计,在系统动力学模型未知的条件下实现基于模型的自适应最优控制,所估计的参数收敛过程耗时短,同时保证了自适应过程中系统的渐进稳定性。
本发明所设计的控制器由扰动观测器,扰动前馈补偿控制器,估值网络和状态反馈控制四部分组成。与现有方法独立设计前馈控制器和反馈控制器不同,控制系统在前馈补偿控制器和状态反馈控制器的共同作用下最小化非匹配扰动作用对于系统状态的影响,克服了原有方法仅能从系统输出端进行扰动解耦的难题,在扰动作用下实现最优的系统动态响应性能和稳态抗扰性能。
本发明控制系统中的扰动观测器针对扰动作用、系统动力学模型的输入矩阵参数和系统状态进行在线估计,观测器以线性回归的方式建立扰动作用的动力学模型,因此避免计算系统状态关于时间导数,其中系统输入矩阵是实现扰动前馈补偿和最优反馈控制所必需的系统参数,因此该控制方法在系统模型未知的情况下实现最优扰动补偿控制,又能够基于在线估计的系统动力学模型由实时调整估值网络的在线更新过程,保证系统稳定性。具有自适应速度快;对模型参数摄动不敏感的特点。
本发明控制系统中的估值网络预测损失函数关于系统状态的梯度,基于凸优化理论对网络权值的优化过程施加了系统渐进稳定的约束。表现为学习算法采用合理的步长实现策略搜索,在估值网络对损失函数的分布实现准确预测之前维持系统的稳定性,避免了在策略搜索过程中由于采用了不当的控制策略对硬件系统造成损坏。
附图说明
图1为本发明控制系统结构框图。
图2为本发明估值网络迭代学习算法的算法流程图。
图3为观测器针对系统参数的在线估计的仿真曲线。
图4为自适应最优扰动抑制控制方法的控制作用下,训练阶段和测试阶段系统状态变化轨迹的对比图,左图为训练阶段,右图为测试阶段;
图5为自适应最优扰动抑制控制方法在训练阶段和测试阶段控制器的控制指令随时间变化的曲线对比图,左图为训练阶段,右图为测试阶段。
图6为不同控制方法作用下系统的状态轨迹对比图。
图7为估值网络网络参数在训练阶段的变化曲线。
具体实施方式
下面结合附图对本发明具体实施方式做进一步说明。
本发明所述方法的控制对象的动力学模型参数是部分已知的:
Figure BDA0002370840110000041
其中:
A——系统状态转移矩阵的已知部分。
B——未知的系统输入传递矩阵。
x——完全可观测的n维系统状态矢量。
u——系统输入信号。
w(t)——扰动及模型不确定性作用。
λ——w(t)的状态转移矩阵
这里假设w(t)各参量为相互独立的时变过程,λ为对角矩阵。
1.扰动观测器
扰动观测器以测量的系统状态x和控制输入u作为输入,将估计得到的系统输入动力学参数
Figure BDA0002370840110000042
和扰动作用
Figure BDA0002370840110000043
传递给最优控制器和估值网络参数优化器。扰动观测器的动力学方程为:
Figure BDA0002370840110000051
其中:
Figure BDA0002370840110000052
——系统状态矢量x的估计值
Figure BDA0002370840110000053
——扰动和模型不确定性作用估计值
Figure BDA0002370840110000054
——系统输入传递矩阵的估计值
Figure BDA0002370840110000055
——λ的估计值。
L1-4——人为设置的参数估计动力学模型参数。
考虑如下李雅普诺夫函数V(t)
Figure BDA0002370840110000056
上述观测器的稳定性可通过证明
Figure BDA0002370840110000057
的负定性得以判定。观测器动力学模型(2)中包含针对w(t)的估计误差为未知参量,为了获得该变量采用如下辅助状态观测器针对(2)所述观测器的参数估计误差进行在线估计。将(2)带入系统动力学方程(1)得到如下参数估计误差的动力学模型:
Figure BDA0002370840110000058
其中:
Figure BDA0002370840110000059
——观测器(2)的状态观测误差矢量,
Figure BDA00023708401100000510
Figure BDA00023708401100000511
Figure BDA00023708401100000512
容易证明系统(4)是完全可观测的,故设计估计误差观测器如下:
Figure BDA00023708401100000513
其中Po为黎卡提方程
Figure BDA0002370840110000061
的解。通过引入该观测器的误差动力学方程
Figure BDA0002370840110000062
并证明
Figure BDA0002370840110000063
单调递减进而证明xo收敛于e。
基于(1)、(2)和(5)构成的系统,其中可测得状态变量
Figure BDA0002370840110000064
Figure BDA0002370840110000065
分别收敛于(1)中未知变量B和w的真实值,对于控制系统而言,系统参数B和w是已知的。控制器中涉及B和w的参量都可以根据实际情况实时调整,因此所提出的方法具有较强的自适应能力。
2.最优控制器
最优控制器的输入包括估值网络和扰动观测器的估计结果。本发明所述的控制方法的控制目标为最小化以下损失函数:
J(x,u,w)=∫xTQx+(Bu+w)TR(Bu+w)dt (6)
其中:
Q∈Rd×d——正定实对称状态二次型权值矩阵
R∈Rd×d——正定实对称扰动和控制输入作用混合二次型权重矩阵
对于控制系统(1),损失函数关于系统状态的梯度满足如下汉密尔顿-雅克比-贝尔曼方程:
Figure BDA00023708401100000613
定义汉密尔顿函数
Figure BDA0002370840110000066
最优的控制律满足:
Figure BDA0002370840110000067
解得:
Figure BDA0002370840110000068
其中
Figure BDA0002370840110000069
控制率中的
Figure BDA00023708401100000610
Figure BDA00023708401100000611
由观测器估计得出,
Figure BDA00023708401100000614
为估值网络的输出。最优控制器的输出u*传递至被控系统的执行机构。
3.估值网络
使用解析法求解满足方程(7)的函数
Figure BDA00023708401100000615
是非常困难的。本发明使用神经网络基于当前系统状态估计损失函数关于系统状态的梯度。
Figure BDA00023708401100000612
其中:
Figure BDA0002370840110000071
——权值矩阵
σ(·)——非线性输出激活函数
网络的输出分别传递给汉密尔顿函数(8)和最优控制器(10)。
4.估值网络参数优化器
估值网络参数优化器获取系统输入动力学参数
Figure BDA0002370840110000072
扰动作用
Figure BDA0002370840110000073
和测量得到的系统状态x以及估值网络的输出计算汉密尔顿函数。采用梯度下降法计算最优的估值网络参数变化律。为了保证系统稳定性,应保证损失函数单调递减的情况下求解使汉密尔顿函数最小的估值网络权值参数
Figure BDA0002370840110000074
网络参数优化的目标函数为:
Figure BDA0002370840110000075
其中xi,ui,wi分别代表第i时刻采样得到的系统状态,控制输入和扰动作用观测值。
Figure BDA0002370840110000076
将(13)写成递推的形式:
Figure BDA0002370840110000077
将(14)代入计算得到最优的乘子为:
Figure BDA0002370840110000078
其中
Figure BDA0002370840110000079
φ=2P2/L1,2+zi
Figure BDA00023708401100000710
根据KKT条件,需要先通过计算李雅普诺夫函数对时间的导数
Figure BDA00023708401100000711
确定不等式约束条件是否能够被满足。当
Figure BDA00023708401100000712
αi=0;当
Figure BDA00023708401100000713
再通过(15)计算αi的值。自适应动态规划控制的训练算法流程如图2所示。基于(14)更新估值网络的权值。
本发明所述的非匹配扰动抑制控制方法的计算流程如下:设当前时刻为i,记n维矢量xi由i时刻系统所有可观测的状态变量组成。将i-1时刻控制器输出ui-1和系统状态变量xi作为扰动观测器的输入,观测器输出扰动和不确定性w(t)的估计值
Figure BDA00023708401100000714
和系统输入动力学参数矩阵B的估计值
Figure BDA0002370840110000081
将当前时刻估计得到的
Figure BDA0002370840110000082
Figure BDA0002370840110000083
代入公式(8)并结合i时刻状态变量xi计算汉密尔顿函数hi,zi和梯度矩阵P。然后将hi,zi和P传递给第三节所述的神经网络权值估计器,估计器通过计算公式(15)和(13)得到最优的网络权值估计
Figure BDA0002370840110000084
估值网络的输入为xi,权值为
Figure BDA0002370840110000085
输出值函数J(xi)关于i时刻系统状态xi的梯度
Figure BDA0002370840110000086
最后将
Figure BDA0002370840110000087
Figure BDA00023708401100000811
传递给最优非匹配扰动抑制控制器并利用公式(10)计算得到i时刻控制器的输出ui
实施例:针对如下非线性系统实现自适应扰动抑制控制:
Figure BDA0002370840110000088
图1中基于扰动观测器的自适应扰动抑制控制系统的实现单元包括:1.汉密尔顿函数计算单元,2.估值网络参数优化器;3.被控对象;4.估值网络;5.扰动观测器;6.最优控制器。系统状态(102)包含(17)中所述系统的状态变量x1和x2。系统控制输入信号(101)对应于(17)中所述系统输入u。(101)和(102)同时输入到扰动观测器中,扰动观测器输出扰动作用估计值和系统输入动力学参数(103),该动力学参数用于计算更新最优控制器前馈和反馈分量的增益。此外,系统状态(102)输入给估值网络预测损失函数的梯度
Figure BDA0002370840110000089
(105)。结合(101),(105)和(103)可计算汉密尔顿函数值(104),神经网络参数优化器结合最优迭代步长计算神经网络权值改变量
Figure BDA00023708401100000810
最后更新估值网络的输出(105)并传递给反馈控制器计算新的反馈控制输出(101),对被控对象施控。
图2描述了由图1框图中1,2,3,6四个单元构成的递归学习算法的计算流程图。步骤1中设置的参数N为最大迭代次数,c<0为松弛变量,代表系统稳定性裕量。该算法的输入包括图1中(101),(104)和(106)三路信号,在步骤2中进行实时更新。步骤三利用步骤二中采集到的数据计算汉密尔顿函数(8)和李雅普诺夫函数(16)。当李雅普诺夫函数不满足约束条件,即系统不满足给定的稳定裕量时,使用(15)计算乘子αi。否则设αi=0。结合乘子和汉密尔顿函数值在步骤4中更新网络权值参数并在步骤5中更新损失函数梯度预测值。步骤6中更新控制器输出。最后将计数器增加一并返回步骤2开始新一轮迭代。
将初始的状态向量设置为x1=1,x2=-0.5,并将损失函数(6)的参数设置为Q=I3,R=0.3I3。启动系统,使用本发明提出的控制系统对(17)施加控制,该阶段为训练阶段。控制系统运行10秒后重置(17)的状态变量,保持控制器和观测器的参数不变,重启系统,进入测试阶段,运行10秒后结束。从图3中从左至右分别对应观测器输出的系统状态轨迹,扰动和不确定性估计值和系统输入动力学参数估计值变化曲线。证明了观测器的有界稳定性。其中系统输入动力学参数估计值最终收敛到b1=1,b2=0。与系统状态收敛到0后的系统输入动力学参数相一致。仿真结果包括系统状态轨迹估计;系统扰动和不确定性作用的二维估计值和模型输入动力学参数得二维估计值。系统状态估计参数的初始值为[0,0]T。所估计的状态轨迹起始于状态空间的原点并最终收敛回原点。在系统状态收敛至状态空间原点时,系统输入动力学参数收敛至[1,0]T,该仿真结果与基于(17)模型的结果一致。
图4代表训练阶段系统的状态轨迹和控制输出指令,图5代表测试阶段系统的状态轨迹和控制输出指令。仿真结果包含前馈控制指令和反馈控制指令,测试阶段控制系统的控制性能有显著提升。反馈控制器的响应明显不同,而前馈控制器对扰动作用的响应则没有显著变化。保持系统初始状态不变,分别使用无模型鲁棒行动者-评论家算法、鲁棒自适应动态规划方法以及本专利所提出的控制方法对(17)所描述的控制系统施加控制作用,对比控制性能。与本专利所述方法不同,无模型行动者-评论家算法和鲁棒自适应动态规划方法的估值网络直接预测损失函数的值,其网络的具体结构为:
Figure BDA0002370840110000091
Figure BDA0002370840110000092
——三维参数矢量
Figure BDA0002370840110000093
——激活函数
图6仿真结果对比了无模型鲁棒自适应控制方法,基于参数估计的鲁棒自适应动态规划控制方法和本专利提出的方法作用下系统状态随时间变化曲线。对比了三种不同控制系统作用下系统状态变量x1,x2随时间变化曲线随时间变化曲线,为了定量表征在[0,T]时间范围内控制系统的性能,这里采用状态变量的二次型关于时间的积分即:
Figure BDA0002370840110000094
三种控制方法作用下对应的测量结果分别为2.1887,3.0877,0.8755。相较于对照方法,本专利所提出的方法将控制性能提升了50%以上。系统调节时间和调节过程的超调量都有显著降低。
图7为估值网络网络参数在训练阶段的变化曲线。仿真结果对比了无模型鲁棒自适应控制方法,基于参数估计的鲁棒自适应动态规划控制方法和本专利提出的方法的估值网络参数随时间变化曲线。
本发明控制方法主要由扰动观测器和基于动态规划方法的最优抗扰控制器组成。系统结构如图所示。其中观测器用于估计扰动作用力和系统输入端的动力学参数。最优抗扰控制器利用控制过程中采集到的系统状态轨迹和观测到的动力学参数规划出控制策略,使系统具有最优的动态控制性能和稳态抗扰性能。其核心思想是:在经典的最优控制器损失函数中考虑扰动作用,计算包含扰动前馈控制和状态反馈控制两部分的最优控制器的解析表达式。其中前馈控制律由系统输入动力学参数和扰动作用共同决定;反馈控制律由系统输入动力学参数和损失预测值的梯度共同决定。系统输入动力学参数和扰动作用由所设计的观测器提供,算法通过优化汉密尔顿方程的神经网络估计得出。因此与基于观测器的扰动补偿控制相比具有更好的自适应能力,在扰动和系统控制输入维数不匹配的情况下最小化全局状态摄动。适用于未知系统参数并对稳定性要求较高的应用场合。

Claims (2)

1.一种扰动抑制控制方法,其特征在于,包括扰动观测器、估值网络、最优控制器、估值网络参数优化器和汉密尔顿函数计算单元;
已知动力学模型
Figure FDA0003924511740000011
其中A表示系统状态转移矩阵的已知部分,B表示未知的系统输入传递矩阵,x表示完全可观测的n维系统状态矢量,u表示系统输入信号,w(t)表示扰动及模型不确定性作用,λ表示w(t)的状态转移矩阵;
设当前时刻为i,记n维矢量xi由i时刻系统所有可观测的状态变量组成,将i-1时刻控制器输出ui-1和系统状态变量xi作为扰动观测器的输入,扰动观测器输出扰动和不确定性w(t)的估计值
Figure FDA0003924511740000012
和参数矩阵B的估计值
Figure FDA0003924511740000013
将当前时刻估计得到的
Figure FDA0003924511740000014
Figure FDA0003924511740000015
代入
Figure FDA0003924511740000016
并结合i时刻状态变量xi计算汉密尔顿函数hi,zi和梯度矩阵P;然后将hi,zi和P传递给估值网络参数优化器,通过计算
Figure FDA0003924511740000017
Figure FDA0003924511740000018
得到最优的网络权值估计
Figure FDA0003924511740000019
估值网络的输入为xi,权值为
Figure FDA00039245117400000110
输出值函数J(xi)关于i时刻系统状态xi的梯度
Figure FDA00039245117400000111
最后将
Figure FDA00039245117400000112
Figure FDA00039245117400000113
传递给最优非匹配扰动抑制控制器并利用公式
Figure FDA00039245117400000114
计算得到i时刻控制器的输出ui
Figure FDA00039245117400000115
2.根据权利要求1所述的一种扰动抑制控制方法,其特征在于:扰动观测器的动力学方程为:
Figure FDA00039245117400000116
Figure FDA00039245117400000117
Figure FDA00039245117400000118
Figure FDA00039245117400000119
其中:
Figure FDA00039245117400000120
为系统状态矢量x的估计值,
Figure FDA00039245117400000121
为扰动和模型不确定性作用估计值,
Figure FDA00039245117400000122
为系统输入传递矩阵的估计值,
Figure FDA00039245117400000123
为λ的估计值,L1-4为人为设置的参数估计动力学模型参数。
CN202010050128.4A 2020-01-17 2020-01-17 一种扰动抑制控制方法 Active CN111240201B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010050128.4A CN111240201B (zh) 2020-01-17 2020-01-17 一种扰动抑制控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010050128.4A CN111240201B (zh) 2020-01-17 2020-01-17 一种扰动抑制控制方法

Publications (2)

Publication Number Publication Date
CN111240201A CN111240201A (zh) 2020-06-05
CN111240201B true CN111240201B (zh) 2023-01-03

Family

ID=70865045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010050128.4A Active CN111240201B (zh) 2020-01-17 2020-01-17 一种扰动抑制控制方法

Country Status (1)

Country Link
CN (1) CN111240201B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283534B (zh) * 2021-06-11 2024-03-19 浙江工业大学 基于支持向量机模型线性逼近的黑盒测试方法及系统
CN115718427B (zh) * 2022-11-16 2023-06-13 哈尔滨理工大学 一种保安全的非脆弱网络化预测控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107703746A (zh) * 2017-09-21 2018-02-16 北京理工大学 一种基于自抗扰的反馈‑前馈控制器及设计方法
CN109062049A (zh) * 2018-08-20 2018-12-21 西北工业大学 基于集总复合估计的严格反馈系统神经网络控制方法
CN109358501A (zh) * 2018-09-28 2019-02-19 中国科学院长春光学精密机械与物理研究所 自抗扰控制方法、控制器及精跟踪控制系统
CN110501909A (zh) * 2019-09-09 2019-11-26 南京工程学院 基于扰动观测器的增强鲁棒特性的模糊预测控制方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7437201B2 (en) * 2003-01-14 2008-10-14 Cullen Christopher P Electric motor controller
US20190184561A1 (en) * 2017-12-15 2019-06-20 The Regents Of The University Of California Machine Learning based Fixed-Time Optimal Path Generation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107703746A (zh) * 2017-09-21 2018-02-16 北京理工大学 一种基于自抗扰的反馈‑前馈控制器及设计方法
CN109062049A (zh) * 2018-08-20 2018-12-21 西北工业大学 基于集总复合估计的严格反馈系统神经网络控制方法
CN109358501A (zh) * 2018-09-28 2019-02-19 中国科学院长春光学精密机械与物理研究所 自抗扰控制方法、控制器及精跟踪控制系统
CN110501909A (zh) * 2019-09-09 2019-11-26 南京工程学院 基于扰动观测器的增强鲁棒特性的模糊预测控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Sliding mode controller design for supercavitating vehicles;Xinhua Zhao .etal;《Ocean Engineering》;20190502;第184卷;第173-183页 *

Also Published As

Publication number Publication date
CN111240201A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
Cho et al. Composite model reference adaptive control with parameter convergence under finite excitation
Pan et al. Composite learning from adaptive backstepping neural network control
Zhang et al. Event-triggered adaptive dynamic programming for non-zero-sum games of unknown nonlinear systems via generalized fuzzy hyperbolic models
Zribi et al. A new PID neural network controller design for nonlinear processes
Bechlioulis et al. A low-complexity global approximation-free control scheme with prescribed performance for unknown pure feedback systems
Van den Broeck et al. A model predictive control approach for time optimal point-to-point motion control
CN108132599B (zh) 一种基于迭代反馈整定的ude控制系统设计方法
Xiao et al. Online optimal control of unknown discrete-time nonlinear systems by using time-based adaptive dynamic programming
Jiang et al. Robust adaptive dynamic programming
CN110471276B (zh) 用于为物理系统创建模型函数的装置
Radac et al. Three-level hierarchical model-free learning approach to trajectory tracking control
CN111240201B (zh) 一种扰动抑制控制方法
CN113874865A (zh) 借助于贝叶斯优化方法确定技术系统的调节策略的模型参数的方法和装置
Wang et al. Adaptive-critic-based hybrid intelligent optimal tracking for a class of nonlinear discrete-time systems
CN105867138A (zh) 一种基于pid控制器的稳定平台控制方法及装置
Beyhan et al. Stable modeling based control methods using a new RBF network
CN111930010A (zh) 一种基于lstm网络的通用mfa控制器设计方法
Wang et al. Output adaptive controller for a class of MIMO systems with input delay and multisinusoidal disturbance
Perez et al. Offset-free ARX-based adaptive model predictive control applied to a nonlinear process
CN112068446B (zh) 一种基于离散时间模糊模型的直流电机系统抗干扰控制方法
Li et al. Adaptive optimal trajectory tracking control of AUVs based on reinforcement learning
CN112564557A (zh) 一种永磁同步电机的控制方法、装置、设备及存储介质
Wang et al. Survey of transient performance control
CN116880191A (zh) 一种基于时序预测的过程工业生产系统的智能控制方法
Nguyen et al. On-policy and off-policy Q-learning strategies for spacecraft systems: An approach for time-varying discrete-time without controllability assumption of augmented system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant