CN112445131A - 一种线性系统自适应最优跟踪控制方法 - Google Patents
一种线性系统自适应最优跟踪控制方法 Download PDFInfo
- Publication number
- CN112445131A CN112445131A CN201910818741.3A CN201910818741A CN112445131A CN 112445131 A CN112445131 A CN 112445131A CN 201910818741 A CN201910818741 A CN 201910818741A CN 112445131 A CN112445131 A CN 112445131A
- Authority
- CN
- China
- Prior art keywords
- control
- optimal
- function
- state
- quadratic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种线性系统自适应最优跟踪控制方法,首先将系统的跟踪控制转化为增广系统的稳定性控制,然后针对增广系统,引入Q函数重构系统性能指标函数,建立基于控制依赖二次启发式规划的系统目标方程;再设计一个模型网络来近似估计系统的下一时刻的状态x(k+1)及系统矩阵A和B,对系统进行辨识;在模型网络辨识器的基础上,构建基于控制依赖二次启发式规划的Q‑learning算法,迭代获得系统的近似最优控制律。本发明在系统动态未知的情况下求解的最优控制,这使得系统的最优跟踪问题在未知精确系统模型情况下也能被解决,且有效提高了最优控制的精准度。
Description
技术领域
本发明涉及线性离散系统的最优跟踪控制技术领域,更具体地,涉及一种线性系统自适应最优跟踪控制方法。
背景技术
对于线性离散系统,跟踪控制是一种常见的控制问题。系统的跟踪控制往往要求达到最优,即不仅要求使系统稳定,使其完成跟踪上参考系统的目的,还应该使系统的性能指标函数达到最小化,即达到最优跟踪控制。现实应用中,系统动态往往由于各种原因而不易或者不能获取,这种情况导致了一些需要系统动态信息的方法不能得以实施,于是必须设计出一种无模型最优控制算法来解决此棘手问题。
强化学习,又称再励学习,是机器学习方法之一,用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习方法是最优控制的重要方法。策略迭代和值迭代是强化学习里常用的两种学习算法。强化学习可以解决不同的最优控制问题,例如具有约束控制的最优稳定控制,具有时间延迟的最优控制,最优跟踪控制,最优一致性控制,以及零和和非零和博弈的最优控制等。
动态规划是求解最优控制问题的有效工具。在动态规划中,哈密顿-雅可比-贝尔曼方程因为存在维数灾问题。很难直接求解。Werbos首先提出了基于动态规划的自适应动态规划方法,其主要思想是利用一个函数近似结构,例如神经网络、模糊模型、多项式等,来估计系统的代价函数,用于按时间正向求解动态规划问题。自适应动态规划是强化学习中的重要方法之一。在自适应动态规划中,控制依赖启发式动态规划和控制依赖二次启发式规划分别是估计系统代价函数和其梯度的方法。Q-learning,亦称控制依赖启发式动态规划,用于估计任何策略的Q函数的方法,最优或非最优,是一种无模型强化学习算法,其不需要系统的信息便能求取最优控制,Q-learning应用广泛,例如控制系统的跟踪控制、零和博弈、事件触发控制、鲁棒控制等。神经网络,是使用最广泛的机器学习算法。神经网络是一种模仿生物神经网络的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。神经网络可以用来解决各种问题,包括自然语言处理、视觉识别、回归、分类问题。自适应动态规划方法通常由神经网络实现,利用神经网络和自适应动态规划相结合的方法是一种解决最优控制的重要方法。
发明内容
本发明为解决现有技术的不足,提供了一种线性系统自适应最优跟踪控制方法,在系统动态未知的情况下,能使系统输出有效地跟踪参考系统输出。
本发明是通过以下技术方案实现的:
一种线性系统自适应最优跟踪控制方法,其特征在于,包括如下步骤:
步骤(1):将系统的跟踪控制转化为增广系统的稳定性控制;
步骤(2):针对增广系统,引入Q函数重构系统性能指标函数,建立基于控制依赖二次启发式规划的系统目标方程;
步骤(3):设计一个模型网络来近似估计系统的下一时刻的状态x(k+1)及系统矩阵A和B,对系统进行辨识;
在上述技术方案中,步骤(1)包括下述步骤:
(1-1)线性离散系统的系统动态如下:
期望的参考系统的轨迹动态如下:
(1-2)构造增广系统,使原系统的跟踪控制问题转化为增广系统的镇定控制问题;基于控制系统的式(1)和参考系统的式(2),增广系统定义为
当前时刻的增广状态X(k)和系统矩阵A1,B1,C1为
(1-3)定义如下的性能指标函数:
其中
性能指标函数(7)可以重新表示为
其中U(X(k),u(k))=XT(k)Q1X(k)+uT(k)Ru(k)为时刻k的效应函数;
(1-4)由式(3)和式(7)可以得知,最优线性二次型跟踪问题转化为了最优线性二次镇定问题。针对线性二次镇定问题,最优控制可以通过状态反馈实现。控制形式如下:
u(k)=-KX(k).(10)
其中K为反馈增益矩阵。由代价函数(7),可以推导出
将式(10)代入式(3)中,推导出下式
X(k+1)=(A1-B1K)X(k)=K1X(k),(12)
其中K1=A1-B1K。将式(12)代入式(11)中,可以得到性能指标函数关于增广状态X(k)的二次型形式
(1-5)结合公式(9)和(13),得到增广系统的贝尔曼方程表示如下
XT(k)PX(k)=XT(k)Q1X(k)+uT(k)Ru(k)+γXT(k+1)PX(k+1).(14)
其中P是核对称矩阵;
定义哈密尔顿方程如下:
通过下式计算
可以获得最优控制为
将式(3)和式(17)代入式(14)中,可以获得增广代数黎卡提方程
根据式(17)和式(18),最优控制律可以通过计算(18)中的核心矩阵P的最优值获得。然而由于(18)对于P是非线性的,因此通过(18)直接计算P是困难的,而且需要系统动态的信息。
在上述技术方案中,步骤(2)进一步包括下述步骤:
(2-1)基于贝尔曼方程(14),离散Q函数被定义如下:
Q(X(k),u(k))=XT(k)Q1X(k)+uT(k)Ru(k)+γXT(k+1)PX(k+1).(19)
代入增广系统(3),(19)写作:
简化公式(20),定义
(2-2)计算如下方程
通过(22),计算出最优控制
代入公式(20)中HuX,Huu,控制u(k)形式如下
(2-3)基于公式(14)和(19),Q函数重新表示为
Q(X(k),u(k))=XT(k)Q1X(k)+uT(k)Ru(k)+γQ(X(k+1),u(k+1)),(25)
其中u(k+1)=-KX(k+1);
在控制依赖二次启发式规划中,对Q函数的梯度进行建模和估计,通过取(25)的梯度并利用公式(3)、(21)、(23),得到Q函数相对于X(k)和u(k)的梯度:
(2-4)结合式(28)和(29),控制依赖二次启发式规划中Q函数的梯度方程,即目标方程表示为
在上述技术方案中,步骤(3)进一步包括以下步骤:
(3-1)将系统状态x(k)和时间步长为k的控制u(k)用作模型网络的输入,模型网络的输出是时间步长为k+1的系统状态x(k+1),基于神经网络的通用逼近理论,时间步长为k+1的系统状态x(k+1)由下式拟合:
其中是输入向量,和是理想的输入层-隐层权重矩阵和隐层-输出层权重矩阵。输入层神经元个数为(n+m),隐层神经元个数为lm,输出层神经元个数为n。是激活函数。ε(k)是重构误差,表示模型网络对受控系统的近似程度。
(3-2)模型网络的输出近似为
更新模型网络中的权重以最小化辨识误差的二次形式Em(k)
基于梯度下降法和链式法则更新模型网络的输入层-隐层权重:
基于梯度下降法和链式法则更新模型网络的隐层-输出层权重:
其中β>0是模型网络的学习率。经过充分的训练阶段后,权重保持不变;
(3-4)当神经网络训练完成时,可以获得最终收敛权重,此时,模型网络表示如下:
公式(40)和(41)重构了系统矩阵A和B,假设输入层-隐层的权重被随机初始化并且保持不变,根据神经网络的通用逼近定理,如果隐层神经元的数量足够大,则近似误差可以任意小。
在上述技术方案中,步骤(4)进一步包括下述步骤:
其中
因此,目标方程(30)替换为
(4-2)采用以下基于控制依赖二次启发式规划的策略迭代Q-learning算法来获得最优控制律;
步骤1)初始化:给定一个初始稳定控制策略K0,令j=0,其中j表示迭代步数,设置最大训练循环步数N;
步骤2)策略估计:计算核心矩阵Hj+1
步骤3)策略更新:
其中,
步骤4)当j=N停止迭代过程,获得近似最优控制律uj(k),否则增加迭代步数j=j+1并转到步骤2);
如果Ξ(k)满足满秩条件,则由(49),H计算为
本发明的优点和有益效果为:
(1)设计了模型网络辨识器,利用获取的系统数据对系统动态进行辨识,考虑到现实应用中许多系统模型难以或不能获取的情况,此方法能使系统动态在未知情况下,进一步设计需要的最优控制器实现系统要求的最优控制目标,有效提高了一些最优设计算法的应用范围问题。
(2)在训练完成的模型网络辨识器的基础上,设计了一种基于控制依赖二次启发式规划的策略迭代Q-learning算法,并采用最小二乘法迭代地在线获得最优控制律,达到最优跟踪目标。采用最小二乘法的优点是得到的控制律是解析解,和用神经网络实现算法相比,不会产生额外的近似误差,大大提高了结果的准确性。
附图说明
图1是针对策略迭代算法实现过程的简单控制结构图;
图2是模型网络的隐层-输出层权重矩阵ωm2中第八隐层节点到第一输出层节点的权值收敛图;
图3是核矩阵H收敛到最优H*的迭代过程图;
图4是反馈增益矩阵K收敛到最优K*的迭代过程图;
图5是系统目标函数Ξ(k)的变化曲线图;
图6是系统输出y(k)跟踪参考系统输出s(k)的轨迹图;
图7是系统输出和参考系统输出的跟踪误差y(k)-s(k)的轨迹图;
图8是系统控制u(k)的轨迹图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
一种线性系统自适应最优跟踪控制方法,包括如下步骤:
步骤(1):将系统的跟踪控制转化为增广系统的稳定性控制,即将线性二次型跟踪问题转化为线性二次型调节问题,并定义性能指标函数;
步骤(2):针对增广系统,引入Q函数重构系统性能指标函数,建立基于控制依赖二次启发式规划的系统目标方程;
步骤(3):设计一个模型网络来近似估计系统的下一时刻的状态x(k+1)及系统矩阵A和B,对系统进行辨识;
下面具体详述以上各个步骤:
步骤(1)涉及目标问题转化,即系统转化问题,将系统的跟踪控制转化为增广系统的稳定性控制,并定义性能指标函数,得到贝尔曼方程和增广代数黎卡提方程。步骤(1)进一步包括下述步骤:
(1-1)线性离散系统的系统动态如下:
期望的参考系统的轨迹动态如下:
(1-2)构造增广系统,使原系统的跟踪控制问题转化为增广系统的镇定控制问题。基于控制系统(1)和参考系统(2),增广系统定义为
当前时刻的增广状态X(k)和系统矩阵A1,B1,C1为
(1-3)定义如下的性能指标函数:
其中
性能指标函数(7)可以重新表示为
其中U(X(k),u(k))=XT(k)Q1X(k)+uT(k)Ru(k)为时刻k的效应函数。
(1-4)由(3)和(7)可以得知,最优线性二次型跟踪问题转化为了最优线性二次镇定问题。针对线性二次镇定问题,最优控制可以通过状态反馈实现。控制形式如下:
u(k)=-KX(k).(10)
其中K为反馈增益矩阵。由代价函数(7),可以推导出
将(10)代入(3)中,推导出下式
X(k+1)=(A1-B1K)X(k)=K1X(k),(12)
其中K1=A1-B1K。将(12)代入(11)中,可以得到性能指标函数关于增广状态X(k)的二次型形式
(1-5)结合公式(9)和(13),得到增广系统的贝尔曼方程表示如下
XT(k)PX(k)=XT(k)Q1X(k)+uT(k)Ru(k)+γXT(k+1)PX(k+1).(14)
其中P是核对称矩阵。
定义哈密尔顿方程如下
通过下式计算
可以获得最优控制为
将式(3)和式(17)代入式(14)中,可以获得增广代数黎卡提方程
根据式(17)和式(18),最优控制律可以通过计算(18)中的核心矩阵P的最优值获得。然而由于(18)对于P是非线性的,因此通过(18)直接计算P是困难的,而且需要系统动态的信息。
步骤(2)由于设定系统动态信息未知,且根据步骤(1)中的代数黎卡提方程求解最优控制困难,则针对增广系统,采用Q函数重构性能指标函数,并建立基于控制依赖二次启发式规划的系统目标方程。
步骤(2)进一步包括下述步骤:
(2-1)基于贝尔曼方程(14),离散Q函数被定义如下:
Q(X(k),u(k))=XT(k)Q1X(k)+uT(k)Ru(k)+γXT(k+1)PX(k+1).(19)
代入增广系统(3),(19)写作
简化公式(20),定义
(2-2)计算如下方程
通过(22),计算出最优控制
代入公式(20)中HuX,Huu,控制u(k)形式如下
(2-3)基于公式(14)和(19),Q函数重新表示为
Q(X(k),u(k))=XT(k)Q1X(k)+uT(k)Ru(k)+γQ(X(k+1),u(k+1)),(25)
其中u(k+1)=-KX(k+1)。
在控制依赖二次启发式规划中,对Q函数的梯度进行建模和估计。通过取(25)的梯度并利用公式(3)、(21)、(23),得到Q函数相对于X(k)和u(k)的梯度:
(2-4)结合(28)和(29),控制依赖二次启发式规划中Q函数的梯度方程,即目标方程表示为
步骤(3)设计三层模型网络来近似估计系统的下一时刻的状态x(k+1)及系统矩阵A和B,对系统进行辨识,进而估计Q函数梯度方程(30)中的A1和B1。步骤如下:
(3-1)将系统状态x(k)和时间步长为k的控制u(k)用作模型网络的输入,模型网络的输出是时间步长为k+1的系统状态x(k+1)。基于神经网络的通用逼近理论,时间步长为k+1的系统状态x(k+1)由下式拟合:
其中z(k)=[xT(k) uT(k)]T是输入向量,和是理想的输入层-隐层权重矩阵和隐层-输出层权重矩阵。输入层神经元个数为(n+m),隐层神经元个数为lm,输出层神经元个数为n。是激活函数。ε(k)是重构误差,表示模型网络对受控系统的近似程度。
(3-2)模型网络的输出近似为
更新模型网络中的权重以最小化辨识误差的二次形式Em(k)
基于梯度下降法和链式法则更新模型网络的输入层-隐层权重:
基于梯度下降法和链式法则更新模型网络的隐层-输出层权重:
其中β>0是模型网络的学习率。经过充分的训练阶段后,权重保持不变。
(3-4)当神经网络训练完成时,可以获得最终收敛权重,此时,模型网络表示如下:
公式(40)和(41)重构了系统矩阵A和B。假设输入层-隐层的权重被随机初始化并且保持不变。根据神经网络的通用逼近定理,如果隐层神经元的数量足够大,则近似误差可以任意小。
其中
因此,目标方程(30)替换为
(4-2)可以采用以下基于控制依赖二次启发式规划的策略迭代Q-learning算法来获得最优控制律。
步骤1)初始化:给定一个初始稳定控制策略K0,令j=0,其中j表示迭代步数,设置最大训练循环步数N。
步骤2)策略估计:计算核心矩阵Hj+1
步骤3)策略更新:
其中,
步骤4)当j=N停止迭代过程,获得近似最优控制律uj(k),否则增加迭代步数j=j+1并转到步骤2)。
如果Ξ(k)满足满秩条件,则由(49),H计算为
图1是针对策略迭代算法实现过程的简单控制结构图。
为了使本领域人员更好地理解本发明,下面结合具体实施例,对本发明的线性系统自适应最优跟踪控制方法进行详细说明。
仿真中采用如下线性离散二阶系统:
参考系统如下:
针对二阶系统(51)和参考轨迹(52)执行基于控制依赖二次启发式规划的策略迭代Q-learning算法。两个系统的初始值为
X(0)=[0.2 -0.2 -0.2 0.2]T,#
#
K0=[-0.2330 -0.2909 0.1466 -0.2098].#
根据P*和Q函数的定义(20),H*计算为
K*=[-0.1074 0.0578 -0.3192 -0.0190].#
性能指标函数(6)中的参数选择为,R=1,Q=30,γ=0.6。使用一个结构为3-8-2的三层前馈神经网络构建模型网络,其中3,8,2分别是输入层,隐层和输出层的神经元个数。在时间步长k=0时应用Q-learning算法。神经网络的输入层-隐层权重向量ωm1和隐层-输出层权重向量ωm2在[-0.1,0.1]中随机初始化。激活函数选为φ(·)=tanh(·)。选择模型网络的学习率为β=0.01,选择1000个测量的状态-控制对[x(k),u(k)]数据样本用于训练模型神经网络。训练过程完成后,权重向量在后续过程中保持不变。图2中描述了随着迭代步骤增加,模型网络中从八个隐层节点到第一输出层节点的权重轨迹收敛。通过最小化模型网络误差函数的二次形式来更新权重。由图中结果可知神经网络权重从[-0.1,0.1]中的随机值开始,并在若干迭代步骤之后收敛。
为了解决线性二次型跟踪问题,将训练好的模型网络应用到Q-learning算法中。为了确保学习过程中的持续激励条件,将包括不同频率的正弦曲线的探测信号添加到系统输入。探测信号选为
δ=a(0.5sin(2k)2cos(10.1k)+0.9sin(1.1k)2cos(4k)+0.3sin(2k)2cos(7k)
+0.3sin(10k)3+0.7sin(3k)3cos(4k)+0.3sin(3k)cos(1.2k)2
+0.4sin(1.1k)2+0.5cos(2.4k)sin(8k)2+0.3sin(k)cos(0.8k)2
+0.3sin(4k)3+0.4cos(2k)sin(5k)4+0.3sin(10k)3),
其中a选为0.0097。最大迭代次数设置为N=200。在控制律的每次迭代过程中,收集5个数据样本用来执行最小二乘法。从图3可以看出,所提出的算法最小化了目标函数(44),其实现过程仅基于系统数据,证明了算法的有效性。经过14次迭代,H和K收敛到
和
K=[-0.1075 0.0579 -0.3188 -0.0189].
图4和图5描述了最优H*矩阵与迭代的H矩阵之间差的范数,最佳控制增益K*与迭代的控制增益矩阵K之差的范数。根据图4和图5,以及得到的矩阵H*,K*,H,K,可以知道,随着迭代步长的增加,H和K会收敛到H*,K*。图6描述了输出y(k)跟踪参考轨迹s(k)的过程,这验证了算法的稳定性。跟踪误差曲线如图7所示。可以观察到最终误差曲线在0周围波动,表现为正弦形式,误差值很小。控制曲线如图8所示。所有仿真结果表明,利用算法,可以保证在未知系统动力学条件下获得最优控制,最小化代价函数,使系统(51)的输出很好地跟踪参考系统(52)。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
2.根据权利要求1所述的线性系统自适应最优跟踪控制方法,其特征在于,步骤(1)包括下述步骤:
(1-1)线性离散系统的系统动态如下:
期望的参考系统的轨迹动态如下:
(1-2)构造增广系统,使原系统的跟踪控制问题转化为增广系统的镇定控制问题;基于控制系统的式(1)和参考系统的式(2),增广系统定义为
当前时刻的增广状态X(k)和系统矩阵A1,B1,C1为
(1-3)定义如下的性能指标函数:
其中
性能指标函数(7)可以重新表示为
其中U(X(k),u(k))=XT(k)Q1X(k)+uT(k)Ru(k)为时刻k的效应函数;
(1-4)由式(3)和式(7)可以得知,最优线性二次型跟踪问题转化为了最优线性二次镇定问题。针对线性二次镇定问题,最优控制可以通过状态反馈实现。控制形式如下:
u(k)=-KX(k).(10)
其中K为反馈增益矩阵。由代价函数(7),可以推导出
将式(10)代入式(3)中,推导出下式
X(k+1)=(A1-B1K)X(k)=K1X(k),(12)
其中K1=A1-B1K。将式(12)代入式(11)中,可以得到性能指标函数关于增广状态X(k)的二次型形式
(1-5)结合公式(9)和(13),得到增广系统的贝尔曼方程表示如下
XT(k)PX(k)=XT(k)Q1X(k)+uT(k)Ru(k)+γXT(k+1)PX(k+1).(14)
其中P是核对称矩阵;
定义哈密尔顿方程如下:
通过下式计算
可以获得最优控制为
将式(3)和式(17)代入式(14)中,可以获得增广代数黎卡提方程
根据式(17)和式(18),最优控制律可以通过计算(18)中的核心矩阵P的最优值获得。然而由于(18)对于P是非线性的,因此通过(18)直接计算P是困难的,而且需要系统动态的信息。
3.根据权利要求2所述的线性系统自适应最优跟踪控制方法,其特征在于,步骤(2)进一步包括下述步骤:
(2-1)基于贝尔曼方程(14),离散Q函数被定义如下:
Q(X(k),u(k))=XT(k)Q1X(k)+uT(k)Ru(k)+γXT(k+1)PX(k+1).(19)
代入增广系统(3),(19)写作:
简化公式(20),定义
(2-2)计算如下方程
通过(22),计算出最优控制
代入公式(20)中HuX,Huu,控制u(k)形式如下
(2-3)基于公式(14)和(19),Q函数重新表示为
Q(X(k),u(k))=XT(k)Q1X(k)+uT(k)Ru(k)+γQ(X(k+1),u(k+1)),(25)
其中u(k+1)=-KX(k+1);
在控制依赖二次启发式规划中,对Q函数的梯度进行建模和估计,通过取(25)的梯度并利用公式(3)、(21)、(23),得到Q函数相对于X(k)和u(k)的梯度:
(2-4)结合式(28)和(29),控制依赖二次启发式规划中Q函数的梯度方程,即目标方程表示为
4.根据权利要求3所述的线性系统自适应最优跟踪控制方法,其特征在于,步骤(3)进一步包括以下步骤:
(3-1)将系统状态x(k)和时间步长为k的控制u(k)用作模型网络的输入,模型网络的输出是时间步长为k+1的系统状态x(k+1),基于神经网络的通用逼近理论,时间步长为k+1的系统状态x(k+1)由下式拟合:
其中z(k)=[xT(k) uT(k)]T是输入向量, 和是理想的输入层-隐层权重矩阵和隐层-输出层权重矩阵。输入层神经元个数为(n+m),隐层神经元个数为lm,输出层神经元个数为n。是激活函数。ε(k)是重构误差,表示模型网络对受控系统的近似程度。
(3-2)模型网络的输出近似为
更新模型网络中的权重以最小化辨识误差的二次形式Em(k)
基于梯度下降法和链式法则更新模型网络的输入层-隐层权重:
基于梯度下降法和链式法则更新模型网络的隐层-输出层权重:
其中β>0是模型网络的学习率。经过充分的训练阶段后,权重保持不变;
(3-4)当神经网络训练完成时,可以获得最终收敛权重,此时,模型网络表示如下:
公式(40)和(41)重构了系统矩阵A和B,假设输入层-隐层的权重被随机初始化并且保持不变,根据神经网络的通用逼近定理,如果隐层神经元的数量足够大,则近似误差可以任意小。
5.根据权利要求4所述的线性系统自适应最优跟踪控制方法,其特征在于,步骤(4)进一步包括下述步骤:
其中
因此,目标方程(30)替换为
(4-2)采用以下基于控制依赖二次启发式规划的策略迭代Q-learning算法来获得最优控制律;
步骤1)初始化:给定一个初始稳定控制策略K0,令j=0,其中j表示迭代步数,设置最大训练循环步数N;
步骤2)策略估计:计算核心矩阵Hj+1
步骤3)策略更新:
其中,
步骤4)当j=N停止迭代过程,获得近似最优控制律uj(k),否则增加迭代步数j=j+1并转到步骤2);
如果Ξ(k)满足满秩条件,则由(49),H计算为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910818741.3A CN112445131A (zh) | 2019-08-30 | 2019-08-30 | 一种线性系统自适应最优跟踪控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910818741.3A CN112445131A (zh) | 2019-08-30 | 2019-08-30 | 一种线性系统自适应最优跟踪控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112445131A true CN112445131A (zh) | 2021-03-05 |
Family
ID=74734212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910818741.3A Pending CN112445131A (zh) | 2019-08-30 | 2019-08-30 | 一种线性系统自适应最优跟踪控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112445131A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113364386A (zh) * | 2021-05-26 | 2021-09-07 | 潍柴动力股份有限公司 | 永磁同步电机的基于强化学习的h∞电流控制方法及系统 |
CN113641100A (zh) * | 2021-07-14 | 2021-11-12 | 苏州国科医工科技发展(集团)有限公司 | 针对未知非线性系统的通用辩识方法 |
CN113641193A (zh) * | 2021-08-20 | 2021-11-12 | 电子科技大学 | 一种非最小相位系统精确跟踪控制方法 |
CN113733117A (zh) * | 2021-09-09 | 2021-12-03 | 长春工业大学 | 一种可重构机器人人类意图辨识最优控制方法及装置 |
CN113910241A (zh) * | 2021-11-11 | 2022-01-11 | 白城师范学院 | 一种多人零和博弈可重构机器人最优控制方法及系统 |
CN114114905A (zh) * | 2021-10-25 | 2022-03-01 | 南京理工大学 | 一种数据驱动的舰载火箭炮发射装置最优跟踪控制方法 |
CN114237184A (zh) * | 2021-12-20 | 2022-03-25 | 杭州电子科技大学 | 一种工业过程的优化学习控制性能提升方法 |
CN115236988A (zh) * | 2022-08-17 | 2022-10-25 | 广东工业大学 | 基于在线数据的压电微驱动器无模型预测控制方法 |
CN116047753A (zh) * | 2022-12-30 | 2023-05-02 | 中国科学院长春光学精密机械与物理研究所 | 光学系统正交优化模型的构建及优化方法 |
CN116382084A (zh) * | 2023-04-04 | 2023-07-04 | 天津大学 | 一种基于自适应动态规划的直升机智能减振方法 |
CN117130379A (zh) * | 2023-07-31 | 2023-11-28 | 南通大学 | 一种基于lqr近视距的无人机空战攻击方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109946975A (zh) * | 2019-04-12 | 2019-06-28 | 北京理工大学 | 一种未知伺服系统的强化学习最优跟踪控制方法 |
-
2019
- 2019-08-30 CN CN201910818741.3A patent/CN112445131A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109946975A (zh) * | 2019-04-12 | 2019-06-28 | 北京理工大学 | 一种未知伺服系统的强化学习最优跟踪控制方法 |
Non-Patent Citations (1)
Title |
---|
CHAOXU MU等: "An ADDHP-based Q-learning algorithm for optimal tracking control of linear discrete-time systems with unknown dynamics", 《APPLIED SOFT COMPUTING JOURNAL》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113364386B (zh) * | 2021-05-26 | 2023-03-21 | 潍柴动力股份有限公司 | 永磁同步电机的基于强化学习的h∞电流控制方法及系统 |
CN113364386A (zh) * | 2021-05-26 | 2021-09-07 | 潍柴动力股份有限公司 | 永磁同步电机的基于强化学习的h∞电流控制方法及系统 |
CN113641100A (zh) * | 2021-07-14 | 2021-11-12 | 苏州国科医工科技发展(集团)有限公司 | 针对未知非线性系统的通用辩识方法 |
CN113641100B (zh) * | 2021-07-14 | 2023-11-28 | 苏州国科医工科技发展(集团)有限公司 | 针对未知非线性系统的通用辩识方法 |
CN113641193A (zh) * | 2021-08-20 | 2021-11-12 | 电子科技大学 | 一种非最小相位系统精确跟踪控制方法 |
CN113641193B (zh) * | 2021-08-20 | 2023-04-04 | 电子科技大学 | 一种非最小相位系统精确跟踪控制方法 |
CN113733117A (zh) * | 2021-09-09 | 2021-12-03 | 长春工业大学 | 一种可重构机器人人类意图辨识最优控制方法及装置 |
CN113733117B (zh) * | 2021-09-09 | 2023-09-08 | 长春工业大学 | 一种可重构机器人人类意图辨识控制方法及装置 |
CN114114905A (zh) * | 2021-10-25 | 2022-03-01 | 南京理工大学 | 一种数据驱动的舰载火箭炮发射装置最优跟踪控制方法 |
CN114114905B (zh) * | 2021-10-25 | 2023-02-28 | 南京理工大学 | 一种数据驱动的舰载火箭炮发射装置最优跟踪控制方法 |
CN113910241B (zh) * | 2021-11-11 | 2023-09-22 | 白城师范学院 | 一种多人零和博弈可重构机器人最优控制方法及系统 |
CN113910241A (zh) * | 2021-11-11 | 2022-01-11 | 白城师范学院 | 一种多人零和博弈可重构机器人最优控制方法及系统 |
CN114237184A (zh) * | 2021-12-20 | 2022-03-25 | 杭州电子科技大学 | 一种工业过程的优化学习控制性能提升方法 |
CN115236988A (zh) * | 2022-08-17 | 2022-10-25 | 广东工业大学 | 基于在线数据的压电微驱动器无模型预测控制方法 |
CN116047753A (zh) * | 2022-12-30 | 2023-05-02 | 中国科学院长春光学精密机械与物理研究所 | 光学系统正交优化模型的构建及优化方法 |
CN116047753B (zh) * | 2022-12-30 | 2024-03-12 | 中国科学院长春光学精密机械与物理研究所 | 光学系统正交优化模型的构建及优化方法 |
CN116382084A (zh) * | 2023-04-04 | 2023-07-04 | 天津大学 | 一种基于自适应动态规划的直升机智能减振方法 |
CN116382084B (zh) * | 2023-04-04 | 2023-12-05 | 天津大学 | 一种基于自适应动态规划的直升机智能减振方法 |
CN117130379A (zh) * | 2023-07-31 | 2023-11-28 | 南通大学 | 一种基于lqr近视距的无人机空战攻击方法 |
CN117130379B (zh) * | 2023-07-31 | 2024-04-16 | 南通大学 | 一种基于lqr近视距的无人机空战攻击方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112445131A (zh) | 一种线性系统自适应最优跟踪控制方法 | |
Ahn et al. | Online tuning fuzzy PID controller using robust extended Kalman filter | |
CN111618864B (zh) | 基于自适应神经网络的机器人模型预测控制方法 | |
Lawson et al. | A data assimilation technique applied to a predator-prey model | |
Xiang et al. | Discrete-time noise-tolerant Zhang neural network for dynamic matrix pseudoinversion | |
CN112800675A (zh) | 一种基于kpca和elm的时空分离分布参数系统建模方法 | |
Mu et al. | An ADDHP-based Q-learning algorithm for optimal tracking control of linear discrete-time systems with unknown dynamics | |
Shafiei et al. | Application of neural network and genetic algorithm in identification of a model of a variable mass underwater vehicle | |
CN108762072B (zh) | 基于核范数子空间法和增广向量法的预测控制方法 | |
Nagel et al. | Autoencoder-inspired Identification of LTI systems | |
Malachivskyy et al. | Uniform approximation of functions of two variables | |
Malladi et al. | FastNorm: improving numerical stability of deep network training with efficient normalization | |
Constanda et al. | The Robin problem for bending of elastic plates | |
Kulikov et al. | Regularization methods for the stable identification of probabilistic characteristics of stochastic structures | |
CN114186477A (zh) | 一种基于Elman神经网络的轨道预测算法 | |
Norkin | Generalized gradients in dynamic optimization, optimal control, and machine learning problems | |
Jiang et al. | Fast and smooth composite local learning-based adaptive control | |
JP2002520719A (ja) | ニューラルネット及びニューラルネットのトレーニング方法及び装置 | |
Chen et al. | LPV sliding mode observers for sensor fault reconstruction with erroneous scheduling parameter measurements | |
Chowdhury | A new approach to real‐time training of dynamic neural networks | |
Ji et al. | Data preprocessing method and fault diagnosis based on evaluation function of information contribution degree | |
Wang et al. | A nonlinear PLS modeling method based on extreme learning machine | |
George et al. | Development of a novel robust identification scheme for nonlinear dynamic systems | |
Yusoff et al. | Modeling neural plasticity in echo state networks for time series prediction | |
Mahmoud | Observer-based control design: Basics, progress, and outlook |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210305 |
|
RJ01 | Rejection of invention patent application after publication |