CN112445131A - 一种线性系统自适应最优跟踪控制方法 - Google Patents

一种线性系统自适应最优跟踪控制方法 Download PDF

Info

Publication number
CN112445131A
CN112445131A CN201910818741.3A CN201910818741A CN112445131A CN 112445131 A CN112445131 A CN 112445131A CN 201910818741 A CN201910818741 A CN 201910818741A CN 112445131 A CN112445131 A CN 112445131A
Authority
CN
China
Prior art keywords
control
optimal
function
state
quadratic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910818741.3A
Other languages
English (en)
Inventor
穆朝絮
赵倩
孙长银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910818741.3A priority Critical patent/CN112445131A/zh
Publication of CN112445131A publication Critical patent/CN112445131A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种线性系统自适应最优跟踪控制方法,首先将系统的跟踪控制转化为增广系统的稳定性控制,然后针对增广系统,引入Q函数重构系统性能指标函数,建立基于控制依赖二次启发式规划的系统目标方程;再设计一个模型网络来近似估计系统的下一时刻的状态x(k+1)及系统矩阵A和B,对系统进行辨识;在模型网络辨识器的基础上,构建基于控制依赖二次启发式规划的Q‑learning算法,迭代获得系统的近似最优控制律。本发明在系统动态未知的情况下求解的最优控制,这使得系统的最优跟踪问题在未知精确系统模型情况下也能被解决,且有效提高了最优控制的精准度。

Description

一种线性系统自适应最优跟踪控制方法
技术领域
本发明涉及线性离散系统的最优跟踪控制技术领域,更具体地,涉及一种线性系统自适应最优跟踪控制方法。
背景技术
对于线性离散系统,跟踪控制是一种常见的控制问题。系统的跟踪控制往往要求达到最优,即不仅要求使系统稳定,使其完成跟踪上参考系统的目的,还应该使系统的性能指标函数达到最小化,即达到最优跟踪控制。现实应用中,系统动态往往由于各种原因而不易或者不能获取,这种情况导致了一些需要系统动态信息的方法不能得以实施,于是必须设计出一种无模型最优控制算法来解决此棘手问题。
强化学习,又称再励学习,是机器学习方法之一,用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习方法是最优控制的重要方法。策略迭代和值迭代是强化学习里常用的两种学习算法。强化学习可以解决不同的最优控制问题,例如具有约束控制的最优稳定控制,具有时间延迟的最优控制,最优跟踪控制,最优一致性控制,以及零和和非零和博弈的最优控制等。
动态规划是求解最优控制问题的有效工具。在动态规划中,哈密顿-雅可比-贝尔曼方程因为存在维数灾问题。很难直接求解。Werbos首先提出了基于动态规划的自适应动态规划方法,其主要思想是利用一个函数近似结构,例如神经网络、模糊模型、多项式等,来估计系统的代价函数,用于按时间正向求解动态规划问题。自适应动态规划是强化学习中的重要方法之一。在自适应动态规划中,控制依赖启发式动态规划和控制依赖二次启发式规划分别是估计系统代价函数和其梯度的方法。Q-learning,亦称控制依赖启发式动态规划,用于估计任何策略的Q函数的方法,最优或非最优,是一种无模型强化学习算法,其不需要系统的信息便能求取最优控制,Q-learning应用广泛,例如控制系统的跟踪控制、零和博弈、事件触发控制、鲁棒控制等。神经网络,是使用最广泛的机器学习算法。神经网络是一种模仿生物神经网络的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。神经网络可以用来解决各种问题,包括自然语言处理、视觉识别、回归、分类问题。自适应动态规划方法通常由神经网络实现,利用神经网络和自适应动态规划相结合的方法是一种解决最优控制的重要方法。
发明内容
本发明为解决现有技术的不足,提供了一种线性系统自适应最优跟踪控制方法,在系统动态未知的情况下,能使系统输出有效地跟踪参考系统输出。
本发明是通过以下技术方案实现的:
一种线性系统自适应最优跟踪控制方法,其特征在于,包括如下步骤:
步骤(1):将系统的跟踪控制转化为增广系统的稳定性控制;
步骤(2):针对增广系统,引入Q函数重构系统性能指标函数,建立基于控制依赖二次启发式规划的系统目标方程;
步骤(3):设计一个模型网络来近似估计系统的下一时刻的状态x(k+1)及系统矩阵A和B,对系统进行辨识;
步骤(4):在模型网络辨识器的基础上,构建基于控制依赖二次启发式规划的Q-learning算法,迭代获得系统的近似最优控制律
Figure BDA0002186959890000021
在上述技术方案中,步骤(1)包括下述步骤:
(1-1)线性离散系统的系统动态如下:
Figure BDA0002186959890000022
其中
Figure BDA00021869598900000218
表示系统当前时刻的状态向量,
Figure BDA0002186959890000023
表示系统下一时刻的状态向量,
Figure BDA0002186959890000024
表示系统的控制向量,
Figure BDA0002186959890000025
是系统的输出,
Figure BDA0002186959890000026
是常数矩阵,假设(A,B)是可控的,(A,C)是可观测的;
期望的参考系统的轨迹动态如下:
Figure BDA0002186959890000027
其中是
Figure BDA0002186959890000028
是系统当前时刻的动态,
Figure BDA0002186959890000029
是系统下一时刻的动态,
Figure BDA00021869598900000210
是系统的输出,
Figure BDA00021869598900000211
Figure BDA00021869598900000212
是常数矩阵;
(1-2)构造增广系统,使原系统的跟踪控制问题转化为增广系统的镇定控制问题;基于控制系统的式(1)和参考系统的式(2),增广系统定义为
Figure BDA00021869598900000213
Figure BDA00021869598900000214
当前时刻的增广状态X(k)和系统矩阵A1,B1,C1
Figure BDA00021869598900000215
其中
Figure BDA00021869598900000216
是增广系统下一时刻的状态,
Figure BDA00021869598900000217
是增广系统的输出;
(1-3)定义如下的性能指标函数:
Figure BDA0002186959890000031
其中0<γ≤1是折扣因子,Ui是时刻i的效应函数,
Figure BDA0002186959890000032
Figure BDA0002186959890000033
分别是半正定对称权重矩阵和正定对称权重矩阵,代价函数(6)可以表示为
Figure BDA0002186959890000034
其中
Figure BDA0002186959890000035
性能指标函数(7)可以重新表示为
Figure BDA0002186959890000036
其中U(X(k),u(k))=XT(k)Q1X(k)+uT(k)Ru(k)为时刻k的效应函数;
(1-4)由式(3)和式(7)可以得知,最优线性二次型跟踪问题转化为了最优线性二次镇定问题。针对线性二次镇定问题,最优控制可以通过状态反馈实现。控制形式如下:
u(k)=-KX(k).(10)
其中K为反馈增益矩阵。由代价函数(7),可以推导出
Figure BDA0002186959890000037
将式(10)代入式(3)中,推导出下式
X(k+1)=(A1-B1K)X(k)=K1X(k),(12)
其中K1=A1-B1K。将式(12)代入式(11)中,可以得到性能指标函数关于增广状态X(k)的二次型形式
Figure BDA0002186959890000041
其中
Figure BDA0002186959890000042
(1-5)结合公式(9)和(13),得到增广系统的贝尔曼方程表示如下
XT(k)PX(k)=XT(k)Q1X(k)+uT(k)Ru(k)+γXT(k+1)PX(k+1).(14)
其中P是核对称矩阵;
定义哈密尔顿方程如下:
Figure BDA0002186959890000043
通过下式计算
Figure BDA0002186959890000044
可以获得最优控制为
Figure BDA0002186959890000045
其中
Figure BDA0002186959890000046
将式(3)和式(17)代入式(14)中,可以获得增广代数黎卡提方程
Figure BDA0002186959890000047
根据式(17)和式(18),最优控制律可以通过计算(18)中的核心矩阵P的最优值获得。然而由于(18)对于P是非线性的,因此通过(18)直接计算P是困难的,而且需要系统动态的信息。
在上述技术方案中,步骤(2)进一步包括下述步骤:
(2-1)基于贝尔曼方程(14),离散Q函数被定义如下:
Q(X(k),u(k))=XT(k)Q1X(k)+uT(k)Ru(k)+γXT(k+1)PX(k+1).(19)
代入增广系统(3),(19)写作:
Figure BDA0002186959890000048
简化公式(20),定义
Figure BDA0002186959890000051
其中
Figure BDA0002186959890000052
核矩阵H满足H=HT
(2-2)计算如下方程
Figure BDA0002186959890000053
通过(22),计算出最优控制
Figure BDA0002186959890000054
代入公式(20)中HuX,Huu,控制u(k)形式如下
Figure BDA0002186959890000055
其中
Figure BDA0002186959890000056
(2-3)基于公式(14)和(19),Q函数重新表示为
Q(X(k),u(k))=XT(k)Q1X(k)+uT(k)Ru(k)+γQ(X(k+1),u(k+1)),(25)
其中u(k+1)=-KX(k+1);
在控制依赖二次启发式规划中,对Q函数的梯度进行建模和估计,通过取(25)的梯度并利用公式(3)、(21)、(23),得到Q函数相对于X(k)和u(k)的梯度:
Figure BDA0002186959890000057
Figure BDA0002186959890000061
将(26)和(27)合并为
Figure BDA0002186959890000062
Figure BDA0002186959890000063
其中,
Figure BDA0002186959890000064
根据(21),有如下推导
Figure BDA0002186959890000065
(2-4)结合式(28)和(29),控制依赖二次启发式规划中Q函数的梯度方程,即目标方程表示为
Figure BDA0002186959890000066
在上述技术方案中,步骤(3)进一步包括以下步骤:
(3-1)将系统状态x(k)和时间步长为k的控制u(k)用作模型网络的输入,模型网络的输出是时间步长为k+1的系统状态x(k+1),基于神经网络的通用逼近理论,时间步长为k+1的系统状态x(k+1)由下式拟合:
Figure BDA0002186959890000067
其中
Figure BDA0002186959890000068
是输入向量,
Figure BDA0002186959890000069
Figure BDA00021869598900000610
是理想的输入层-隐层权重矩阵和隐层-输出层权重矩阵。输入层神经元个数为(n+m),隐层神经元个数为lm,输出层神经元个数为n。
Figure BDA00021869598900000611
是激活函数。ε(k)是重构误差,表示模型网络对受控系统的近似程度。
(3-2)模型网络的输出近似为
Figure BDA00021869598900000612
其中,
Figure BDA0002186959890000071
是重构的在k+1时刻的系统状态。
Figure BDA0002186959890000072
Figure BDA0002186959890000073
是估计的权重矩阵,被训练接近最优权重ωm1和ωm2
(3-3)模型网络的辨识误差
Figure BDA0002186959890000074
定义为
Figure BDA0002186959890000075
更新模型网络中的权重以最小化辨识误差的二次形式Em(k)
Figure BDA0002186959890000076
基于梯度下降法和链式法则更新模型网络的输入层-隐层权重:
Figure BDA00021869598900000716
Figure BDA0002186959890000077
基于梯度下降法和链式法则更新模型网络的隐层-输出层权重:
Figure BDA0002186959890000078
Figure BDA0002186959890000079
其中β>0是模型网络的学习率。经过充分的训练阶段后,权重保持不变;
(3-4)当神经网络训练完成时,可以获得最终收敛权重,此时,模型网络表示如下:
Figure BDA00021869598900000710
其中
Figure BDA00021869598900000711
Figure BDA00021869598900000712
为系统矩阵A和B的估计。分别取(39)关于状态x(k)和控制u(k)的偏导数,得到
Figure BDA00021869598900000713
Figure BDA00021869598900000714
Figure BDA00021869598900000715
Figure BDA0002186959890000081
公式(40)和(41)重构了系统矩阵A和B,假设输入层-隐层的权重被随机初始化并且保持不变,根据神经网络的通用逼近定理,如果隐层神经元的数量足够大,则近似误差可以任意小。
在上述技术方案中,步骤(4)进一步包括下述步骤:
(4-1)用
Figure BDA0002186959890000082
Figure BDA0002186959890000083
代替A和B,式(3)则可以重新表示为
Figure BDA0002186959890000084
其中
Figure BDA0002186959890000085
因此,目标方程(30)替换为
Figure BDA0002186959890000086
其中
Figure BDA0002186959890000087
(4-2)采用以下基于控制依赖二次启发式规划的策略迭代Q-learning算法来获得最优控制律;
步骤1)初始化:给定一个初始稳定控制策略K0,令j=0,其中j表示迭代步数,设置最大训练循环步数N;
步骤2)策略估计:计算核心矩阵Hj+1
Figure BDA0002186959890000088
步骤3)策略更新:
Figure BDA0002186959890000089
其中,
Figure BDA00021869598900000810
步骤4)当j=N停止迭代过程,获得近似最优控制律uj(k),否则增加迭代步数j=j+1并转到步骤2);
策略迭代需要持续激励条件,
Figure BDA00021869598900000811
其中δ为持续激励,为算法迭代过程中真正的系统控制,持续激励条件确保了充分探索状态空间;
通过沿着模型网络获取的系统轨迹的数据对
Figure BDA00021869598900000812
Figure BDA00021869598900000813
最小二乘法方法实施如下定义
Figure BDA0002186959890000091
其中
Figure BDA0002186959890000092
公式(44)转化为
Figure BDA0002186959890000094
如果Ξ(k)满足满秩条件,则由(49),H计算为
Figure BDA0002186959890000093
本发明的优点和有益效果为:
(1)设计了模型网络辨识器,利用获取的系统数据对系统动态进行辨识,考虑到现实应用中许多系统模型难以或不能获取的情况,此方法能使系统动态在未知情况下,进一步设计需要的最优控制器实现系统要求的最优控制目标,有效提高了一些最优设计算法的应用范围问题。
(2)在训练完成的模型网络辨识器的基础上,设计了一种基于控制依赖二次启发式规划的策略迭代Q-learning算法,并采用最小二乘法迭代地在线获得最优控制律,达到最优跟踪目标。采用最小二乘法的优点是得到的控制律是解析解,和用神经网络实现算法相比,不会产生额外的近似误差,大大提高了结果的准确性。
附图说明
图1是针对策略迭代算法实现过程的简单控制结构图;
图2是模型网络的隐层-输出层权重矩阵ωm2中第八隐层节点到第一输出层节点的权值收敛图;
图3是核矩阵H收敛到最优H*的迭代过程图;
图4是反馈增益矩阵K收敛到最优K*的迭代过程图;
图5是系统目标函数Ξ(k)的变化曲线图;
图6是系统输出y(k)跟踪参考系统输出s(k)的轨迹图;
图7是系统输出和参考系统输出的跟踪误差y(k)-s(k)的轨迹图;
图8是系统控制u(k)的轨迹图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
一种线性系统自适应最优跟踪控制方法,包括如下步骤:
步骤(1):将系统的跟踪控制转化为增广系统的稳定性控制,即将线性二次型跟踪问题转化为线性二次型调节问题,并定义性能指标函数;
步骤(2):针对增广系统,引入Q函数重构系统性能指标函数,建立基于控制依赖二次启发式规划的系统目标方程;
步骤(3):设计一个模型网络来近似估计系统的下一时刻的状态x(k+1)及系统矩阵A和B,对系统进行辨识;
步骤(4):在模型网络辨识器的基础上,构建基于控制依赖二次启发式规划的Q-learning算法,迭代获得系统的近似最优控制律
Figure BDA0002186959890000101
下面具体详述以上各个步骤:
步骤(1)涉及目标问题转化,即系统转化问题,将系统的跟踪控制转化为增广系统的稳定性控制,并定义性能指标函数,得到贝尔曼方程和增广代数黎卡提方程。步骤(1)进一步包括下述步骤:
(1-1)线性离散系统的系统动态如下:
Figure BDA0002186959890000102
其中
Figure BDA0002186959890000103
表示系统当前时刻的状态向量,
Figure BDA0002186959890000104
表示系统下一时刻的状态向量,
Figure BDA0002186959890000105
表示系统的控制向量,
Figure BDA0002186959890000106
是系统的输出。
Figure BDA0002186959890000107
是常数矩阵。假设(A,B)是可控的,(A,C)是可观测的。
期望的参考系统的轨迹动态如下:
Figure BDA0002186959890000108
其中是
Figure BDA0002186959890000109
是系统当前时刻的动态,
Figure BDA00021869598900001010
是系统下一时刻的动态,
Figure BDA00021869598900001011
是系统的输出,
Figure BDA00021869598900001012
Figure BDA00021869598900001013
是常数矩阵。
(1-2)构造增广系统,使原系统的跟踪控制问题转化为增广系统的镇定控制问题。基于控制系统(1)和参考系统(2),增广系统定义为
Figure BDA00021869598900001014
Figure BDA00021869598900001015
当前时刻的增广状态X(k)和系统矩阵A1,B1,C1
Figure BDA00021869598900001016
其中
Figure BDA00021869598900001017
是增广系统下一时刻的状态,
Figure BDA0002186959890000111
是增广系统的输出。
(1-3)定义如下的性能指标函数:
Figure BDA0002186959890000112
其中0<γ≤1是折扣因子。Ui是时刻i的效应函数,
Figure BDA0002186959890000113
Figure BDA0002186959890000114
分别是半正定对称权重矩阵和正定对称权重矩阵。代价函数(6)可以表示为
Figure BDA0002186959890000115
其中
Figure BDA0002186959890000116
性能指标函数(7)可以重新表示为
Figure BDA0002186959890000117
其中U(X(k),u(k))=XT(k)Q1X(k)+uT(k)Ru(k)为时刻k的效应函数。
(1-4)由(3)和(7)可以得知,最优线性二次型跟踪问题转化为了最优线性二次镇定问题。针对线性二次镇定问题,最优控制可以通过状态反馈实现。控制形式如下:
u(k)=-KX(k).(10)
其中K为反馈增益矩阵。由代价函数(7),可以推导出
Figure BDA0002186959890000118
将(10)代入(3)中,推导出下式
X(k+1)=(A1-B1K)X(k)=K1X(k),(12)
其中K1=A1-B1K。将(12)代入(11)中,可以得到性能指标函数关于增广状态X(k)的二次型形式
Figure BDA0002186959890000121
其中
Figure BDA0002186959890000122
(1-5)结合公式(9)和(13),得到增广系统的贝尔曼方程表示如下
XT(k)PX(k)=XT(k)Q1X(k)+uT(k)Ru(k)+γXT(k+1)PX(k+1).(14)
其中P是核对称矩阵。
定义哈密尔顿方程如下
Figure BDA0002186959890000123
通过下式计算
Figure BDA0002186959890000124
可以获得最优控制为
Figure BDA0002186959890000125
其中
Figure BDA0002186959890000126
将式(3)和式(17)代入式(14)中,可以获得增广代数黎卡提方程
Figure BDA0002186959890000127
根据式(17)和式(18),最优控制律可以通过计算(18)中的核心矩阵P的最优值获得。然而由于(18)对于P是非线性的,因此通过(18)直接计算P是困难的,而且需要系统动态的信息。
步骤(2)由于设定系统动态信息未知,且根据步骤(1)中的代数黎卡提方程求解最优控制困难,则针对增广系统,采用Q函数重构性能指标函数,并建立基于控制依赖二次启发式规划的系统目标方程。
步骤(2)进一步包括下述步骤:
(2-1)基于贝尔曼方程(14),离散Q函数被定义如下:
Q(X(k),u(k))=XT(k)Q1X(k)+uT(k)Ru(k)+γXT(k+1)PX(k+1).(19)
代入增广系统(3),(19)写作
Figure BDA0002186959890000131
简化公式(20),定义
Figure BDA0002186959890000132
其中
Figure BDA0002186959890000133
核矩阵H满足H=HT
(2-2)计算如下方程
Figure BDA0002186959890000134
通过(22),计算出最优控制
Figure BDA0002186959890000135
代入公式(20)中HuX,Huu,控制u(k)形式如下
Figure BDA0002186959890000136
其中
Figure BDA0002186959890000137
(2-3)基于公式(14)和(19),Q函数重新表示为
Q(X(k),u(k))=XT(k)Q1X(k)+uT(k)Ru(k)+γQ(X(k+1),u(k+1)),(25)
其中u(k+1)=-KX(k+1)。
在控制依赖二次启发式规划中,对Q函数的梯度进行建模和估计。通过取(25)的梯度并利用公式(3)、(21)、(23),得到Q函数相对于X(k)和u(k)的梯度:
Figure BDA0002186959890000138
Figure BDA0002186959890000141
将(26)和(27)合并为
Figure BDA0002186959890000142
Figure BDA0002186959890000143
其中,
Figure BDA0002186959890000144
根据(21),有如下推导
Figure BDA0002186959890000145
(2-4)结合(28)和(29),控制依赖二次启发式规划中Q函数的梯度方程,即目标方程表示为
Figure BDA0002186959890000146
步骤(3)设计三层模型网络来近似估计系统的下一时刻的状态x(k+1)及系统矩阵A和B,对系统进行辨识,进而估计Q函数梯度方程(30)中的A1和B1。步骤如下:
(3-1)将系统状态x(k)和时间步长为k的控制u(k)用作模型网络的输入,模型网络的输出是时间步长为k+1的系统状态x(k+1)。基于神经网络的通用逼近理论,时间步长为k+1的系统状态x(k+1)由下式拟合:
Figure BDA0002186959890000147
其中z(k)=[xT(k) uT(k)]T是输入向量,
Figure BDA0002186959890000148
Figure BDA0002186959890000149
是理想的输入层-隐层权重矩阵和隐层-输出层权重矩阵。输入层神经元个数为(n+m),隐层神经元个数为lm,输出层神经元个数为n。
Figure BDA00021869598900001410
是激活函数。ε(k)是重构误差,表示模型网络对受控系统的近似程度。
(3-2)模型网络的输出近似为
Figure BDA00021869598900001516
其中,
Figure BDA0002186959890000151
是重构的在k+1时刻的系统状态。
Figure BDA0002186959890000152
Figure BDA0002186959890000153
是估计的权重矩阵,被训练接近最优权重ωm1和ωm2
(3-3)模型网络的辨识误差
Figure BDA0002186959890000154
定义为
Figure BDA00021869598900001517
更新模型网络中的权重以最小化辨识误差的二次形式Em(k)
Figure BDA0002186959890000155
基于梯度下降法和链式法则更新模型网络的输入层-隐层权重:
Figure BDA0002186959890000156
Figure BDA0002186959890000157
基于梯度下降法和链式法则更新模型网络的隐层-输出层权重:
Figure BDA0002186959890000158
Figure BDA0002186959890000159
其中β>0是模型网络的学习率。经过充分的训练阶段后,权重保持不变。
(3-4)当神经网络训练完成时,可以获得最终收敛权重,此时,模型网络表示如下:
Figure BDA00021869598900001510
其中
Figure BDA00021869598900001511
Figure BDA00021869598900001512
为系统矩阵A和B的估计。分别取(39)关于状态x(k)和控制u(k)的偏导数,得到
Figure BDA00021869598900001513
Figure BDA00021869598900001514
Figure BDA00021869598900001515
Figure BDA0002186959890000161
公式(40)和(41)重构了系统矩阵A和B。假设输入层-隐层的权重被随机初始化并且保持不变。根据神经网络的通用逼近定理,如果隐层神经元的数量足够大,则近似误差可以任意小。
步骤(4)在模型网络辨识器的基础上,构建基于控制依赖二次启发式规划的Q-learning算法,迭代获得系统的近似最优控制律
Figure BDA0002186959890000162
主要包括以下步骤:
(4-1)用
Figure BDA0002186959890000163
Figure BDA0002186959890000164
代替A和B,(3)则可以重新表示为
Figure BDA0002186959890000165
其中
Figure BDA00021869598900001612
因此,目标方程(30)替换为
Figure BDA0002186959890000166
其中
Figure BDA0002186959890000167
(4-2)可以采用以下基于控制依赖二次启发式规划的策略迭代Q-learning算法来获得最优控制律。
步骤1)初始化:给定一个初始稳定控制策略K0,令j=0,其中j表示迭代步数,设置最大训练循环步数N。
步骤2)策略估计:计算核心矩阵Hj+1
Figure BDA0002186959890000168
步骤3)策略更新:
Figure BDA0002186959890000169
其中,
Figure BDA00021869598900001610
步骤4)当j=N停止迭代过程,获得近似最优控制律uj(k),否则增加迭代步数j=j+1并转到步骤2)。
以上步骤的策略迭代是基于系统数据采用最小二乘法执行的,不需要任何系统动态知识。策略迭代需要持续激励条件,
Figure BDA00021869598900001611
其中δ为持续激励,为算法迭代过程中真正的系统控制。持续激励条件确保了充分探索状态空间。
通过沿着模型网络获取的系统轨迹的数据对
Figure BDA0002186959890000171
Figure BDA0002186959890000172
最小二乘法方法实施如下定义
Figure BDA0002186959890000173
其中
Figure BDA0002186959890000174
公式(44)转化为
Figure BDA00021869598900001712
如果Ξ(k)满足满秩条件,则由(49),H计算为
Figure BDA0002186959890000175
图1是针对策略迭代算法实现过程的简单控制结构图。
为了使本领域人员更好地理解本发明,下面结合具体实施例,对本发明的线性系统自适应最优跟踪控制方法进行详细说明。
仿真中采用如下线性离散二阶系统:
Figure BDA0002186959890000176
参考系统如下:
Figure BDA0002186959890000177
其中
Figure BDA0002186959890000178
Figure BDA0002186959890000179
分别是系统的状态向量和控制变量。通过解增广代数黎卡提方程(18),得到的P*
Figure BDA00021869598900001710
针对二阶系统(51)和参考轨迹(52)执行基于控制依赖二次启发式规划的策略迭代Q-learning算法。两个系统的初始值为
Figure BDA00021869598900001711
X(0)=[0.2 -0.2 -0.2 0.2]T,#
#
K0=[-0.2330 -0.2909 0.1466 -0.2098].#
根据P*和Q函数的定义(20),H*计算为
Figure BDA0002186959890000181
使用最优控制增益
Figure BDA0002186959890000182
K*计算为
K*=[-0.1074 0.0578 -0.3192 -0.0190].#
性能指标函数(6)中的参数选择为,R=1,Q=30,γ=0.6。使用一个结构为3-8-2的三层前馈神经网络构建模型网络,其中3,8,2分别是输入层,隐层和输出层的神经元个数。在时间步长k=0时应用Q-learning算法。神经网络的输入层-隐层权重向量ωm1和隐层-输出层权重向量ωm2在[-0.1,0.1]中随机初始化。激活函数选为φ(·)=tanh(·)。选择模型网络的学习率为β=0.01,选择1000个测量的状态-控制对[x(k),u(k)]数据样本用于训练模型神经网络。训练过程完成后,权重向量在后续过程中保持不变。图2中描述了随着迭代步骤增加,模型网络中从八个隐层节点到第一输出层节点的权重轨迹收敛。通过最小化模型网络误差函数的二次形式来更新权重。由图中结果可知神经网络权重从[-0.1,0.1]中的随机值开始,并在若干迭代步骤之后收敛。
为了解决线性二次型跟踪问题,将训练好的模型网络应用到Q-learning算法中。为了确保学习过程中的持续激励条件,将包括不同频率的正弦曲线的探测信号添加到系统输入。探测信号选为
δ=a(0.5sin(2k)2cos(10.1k)+0.9sin(1.1k)2cos(4k)+0.3sin(2k)2cos(7k)
+0.3sin(10k)3+0.7sin(3k)3cos(4k)+0.3sin(3k)cos(1.2k)2
+0.4sin(1.1k)2+0.5cos(2.4k)sin(8k)2+0.3sin(k)cos(0.8k)2
+0.3sin(4k)3+0.4cos(2k)sin(5k)4+0.3sin(10k)3),
其中a选为0.0097。最大迭代次数设置为N=200。在控制律的每次迭代过程中,收集5个数据样本用来执行最小二乘法。从图3可以看出,所提出的算法最小化了目标函数(44),其实现过程仅基于系统数据,证明了算法的有效性。经过14次迭代,H和K收敛到
Figure BDA0002186959890000191
K=[-0.1075 0.0579 -0.3188 -0.0189].
图4和图5描述了最优H*矩阵与迭代的H矩阵之间差的范数,最佳控制增益K*与迭代的控制增益矩阵K之差的范数。根据图4和图5,以及得到的矩阵H*,K*,H,K,可以知道,随着迭代步长的增加,H和K会收敛到H*,K*。图6描述了输出y(k)跟踪参考轨迹s(k)的过程,这验证了算法的稳定性。跟踪误差曲线如图7所示。可以观察到最终误差曲线在0周围波动,表现为正弦形式,误差值很小。控制曲线如图8所示。所有仿真结果表明,利用算法,可以保证在未知系统动力学条件下获得最优控制,最小化代价函数,使系统(51)的输出很好地跟踪参考系统(52)。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种线性系统自适应最优跟踪控制方法,其特征在于,包括如下步骤:
步骤(1):将系统的跟踪控制转化为增广系统的稳定性控制;
步骤(2):针对增广系统,引入Q函数重构系统性能指标函数,建立基于控制依赖二次启发式规划的系统目标方程;
步骤(3):设计一个模型网络来近似估计系统的下一时刻的状态x(k+1)及系统矩阵A和B,对系统进行辨识;
步骤(4):在模型网络辨识器的基础上,构建基于控制依赖二次启发式规划的Q-learning算法,迭代获得系统的近似最优控制律
Figure FDA0002186959880000011
2.根据权利要求1所述的线性系统自适应最优跟踪控制方法,其特征在于,步骤(1)包括下述步骤:
(1-1)线性离散系统的系统动态如下:
Figure FDA0002186959880000012
其中
Figure FDA0002186959880000013
表示系统当前时刻的状态向量,
Figure FDA0002186959880000014
表示系统下一时刻的状态向量,
Figure FDA0002186959880000015
表示系统的控制向量,
Figure FDA0002186959880000016
是系统的输出,
Figure FDA0002186959880000017
是常数矩阵,假设(A,B)是可控的,(A,C)是可观测的;
期望的参考系统的轨迹动态如下:
Figure FDA0002186959880000018
其中是
Figure FDA0002186959880000019
是系统当前时刻的动态,
Figure FDA00021869598800000110
是系统下一时刻的动态,
Figure FDA00021869598800000111
是系统的输出,
Figure FDA00021869598800000112
Figure FDA00021869598800000113
是常数矩阵;
(1-2)构造增广系统,使原系统的跟踪控制问题转化为增广系统的镇定控制问题;基于控制系统的式(1)和参考系统的式(2),增广系统定义为
Figure FDA00021869598800000114
Figure FDA00021869598800000115
当前时刻的增广状态X(k)和系统矩阵A1,B1,C1
Figure FDA00021869598800000116
其中
Figure FDA00021869598800000117
是增广系统下一时刻的状态,
Figure FDA00021869598800000118
是增广系统的输出;
(1-3)定义如下的性能指标函数:
Figure FDA0002186959880000021
其中0<γ≤1是折扣因子,Ui是时刻i的效应函数,
Figure FDA0002186959880000022
Figure FDA0002186959880000023
分别是半正定对称权重矩阵和正定对称权重矩阵,代价函数(6)可以表示为
Figure FDA0002186959880000024
其中
Figure FDA0002186959880000025
性能指标函数(7)可以重新表示为
Figure FDA0002186959880000026
其中U(X(k),u(k))=XT(k)Q1X(k)+uT(k)Ru(k)为时刻k的效应函数;
(1-4)由式(3)和式(7)可以得知,最优线性二次型跟踪问题转化为了最优线性二次镇定问题。针对线性二次镇定问题,最优控制可以通过状态反馈实现。控制形式如下:
u(k)=-KX(k).(10)
其中K为反馈增益矩阵。由代价函数(7),可以推导出
Figure FDA0002186959880000027
将式(10)代入式(3)中,推导出下式
X(k+1)=(A1-B1K)X(k)=K1X(k),(12)
其中K1=A1-B1K。将式(12)代入式(11)中,可以得到性能指标函数关于增广状态X(k)的二次型形式
Figure FDA0002186959880000031
其中
Figure FDA0002186959880000032
(1-5)结合公式(9)和(13),得到增广系统的贝尔曼方程表示如下
XT(k)PX(k)=XT(k)Q1X(k)+uT(k)Ru(k)+γXT(k+1)PX(k+1).(14)
其中P是核对称矩阵;
定义哈密尔顿方程如下:
Figure FDA0002186959880000033
通过下式计算
Figure FDA0002186959880000034
可以获得最优控制为
Figure FDA0002186959880000035
其中
Figure FDA0002186959880000036
将式(3)和式(17)代入式(14)中,可以获得增广代数黎卡提方程
Figure FDA0002186959880000037
根据式(17)和式(18),最优控制律可以通过计算(18)中的核心矩阵P的最优值获得。然而由于(18)对于P是非线性的,因此通过(18)直接计算P是困难的,而且需要系统动态的信息。
3.根据权利要求2所述的线性系统自适应最优跟踪控制方法,其特征在于,步骤(2)进一步包括下述步骤:
(2-1)基于贝尔曼方程(14),离散Q函数被定义如下:
Q(X(k),u(k))=XT(k)Q1X(k)+uT(k)Ru(k)+γXT(k+1)PX(k+1).(19)
代入增广系统(3),(19)写作:
Figure FDA0002186959880000038
简化公式(20),定义
Figure FDA0002186959880000041
其中
Figure FDA0002186959880000042
核矩阵H满足H=HT
(2-2)计算如下方程
Figure FDA0002186959880000043
通过(22),计算出最优控制
Figure FDA0002186959880000044
代入公式(20)中HuX,Huu,控制u(k)形式如下
Figure FDA0002186959880000045
其中
Figure FDA0002186959880000046
(2-3)基于公式(14)和(19),Q函数重新表示为
Q(X(k),u(k))=XT(k)Q1X(k)+uT(k)Ru(k)+γQ(X(k+1),u(k+1)),(25)
其中u(k+1)=-KX(k+1);
在控制依赖二次启发式规划中,对Q函数的梯度进行建模和估计,通过取(25)的梯度并利用公式(3)、(21)、(23),得到Q函数相对于X(k)和u(k)的梯度:
Figure FDA0002186959880000047
Figure FDA0002186959880000051
将(26)和(27)合并为
Figure FDA0002186959880000052
Figure FDA0002186959880000053
其中,
Figure FDA0002186959880000054
根据(21),有如下推导
Figure FDA0002186959880000055
(2-4)结合式(28)和(29),控制依赖二次启发式规划中Q函数的梯度方程,即目标方程表示为
Figure FDA0002186959880000056
4.根据权利要求3所述的线性系统自适应最优跟踪控制方法,其特征在于,步骤(3)进一步包括以下步骤:
(3-1)将系统状态x(k)和时间步长为k的控制u(k)用作模型网络的输入,模型网络的输出是时间步长为k+1的系统状态x(k+1),基于神经网络的通用逼近理论,时间步长为k+1的系统状态x(k+1)由下式拟合:
Figure FDA0002186959880000057
其中z(k)=[xT(k) uT(k)]T是输入向量,
Figure FDA0002186959880000058
Figure FDA0002186959880000059
Figure FDA00021869598800000510
是理想的输入层-隐层权重矩阵和隐层-输出层权重矩阵。输入层神经元个数为(n+m),隐层神经元个数为lm,输出层神经元个数为n。
Figure FDA00021869598800000511
是激活函数。ε(k)是重构误差,表示模型网络对受控系统的近似程度。
(3-2)模型网络的输出近似为
Figure FDA0002186959880000061
其中,
Figure FDA0002186959880000062
是重构的在k+1时刻的系统状态。
Figure FDA0002186959880000063
Figure FDA0002186959880000064
是估计的权重矩阵,被训练接近最优权重ωm1和ωm2
(3-3)模型网络的辨识误差
Figure FDA00021869598800000617
定义为
Figure FDA0002186959880000065
更新模型网络中的权重以最小化辨识误差的二次形式Em(k)
Figure FDA0002186959880000066
基于梯度下降法和链式法则更新模型网络的输入层-隐层权重:
Figure FDA0002186959880000067
Figure FDA0002186959880000068
基于梯度下降法和链式法则更新模型网络的隐层-输出层权重:
Figure FDA0002186959880000069
Figure FDA00021869598800000610
其中β>0是模型网络的学习率。经过充分的训练阶段后,权重保持不变;
(3-4)当神经网络训练完成时,可以获得最终收敛权重,此时,模型网络表示如下:
Figure FDA00021869598800000611
其中
Figure FDA00021869598800000612
Figure FDA00021869598800000613
为系统矩阵A和B的估计。分别取(39)关于状态x(k)和控制u(k)的偏导数,得到
Figure FDA00021869598800000614
Figure FDA00021869598800000615
Figure FDA00021869598800000616
Figure FDA0002186959880000071
公式(40)和(41)重构了系统矩阵A和B,假设输入层-隐层的权重被随机初始化并且保持不变,根据神经网络的通用逼近定理,如果隐层神经元的数量足够大,则近似误差可以任意小。
5.根据权利要求4所述的线性系统自适应最优跟踪控制方法,其特征在于,步骤(4)进一步包括下述步骤:
(4-1)用
Figure FDA0002186959880000072
Figure FDA0002186959880000073
代替A和B,式(3)则可以重新表示为
Figure FDA0002186959880000074
其中
Figure FDA0002186959880000075
因此,目标方程(30)替换为
Figure FDA0002186959880000076
其中
Figure FDA0002186959880000077
(4-2)采用以下基于控制依赖二次启发式规划的策略迭代Q-learning算法来获得最优控制律;
步骤1)初始化:给定一个初始稳定控制策略K0,令j=0,其中j表示迭代步数,设置最大训练循环步数N;
步骤2)策略估计:计算核心矩阵Hj+1
Figure FDA0002186959880000078
步骤3)策略更新:
Figure FDA0002186959880000079
其中,
Figure FDA00021869598800000710
步骤4)当j=N停止迭代过程,获得近似最优控制律uj(k),否则增加迭代步数j=j+1并转到步骤2);
策略迭代需要持续激励条件,
Figure FDA00021869598800000711
其中δ为持续激励,为算法迭代过程中真正的系统控制,持续激励条件确保了充分探索状态空间;
通过沿着模型网络获取的系统轨迹的数据对
Figure FDA00021869598800000712
Figure FDA00021869598800000713
最小二乘法方法实施如下定义
Figure FDA0002186959880000081
其中
Figure FDA0002186959880000082
公式(44)转化为
Figure FDA0002186959880000083
如果Ξ(k)满足满秩条件,则由(49),H计算为
Figure FDA0002186959880000084
CN201910818741.3A 2019-08-30 2019-08-30 一种线性系统自适应最优跟踪控制方法 Pending CN112445131A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910818741.3A CN112445131A (zh) 2019-08-30 2019-08-30 一种线性系统自适应最优跟踪控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910818741.3A CN112445131A (zh) 2019-08-30 2019-08-30 一种线性系统自适应最优跟踪控制方法

Publications (1)

Publication Number Publication Date
CN112445131A true CN112445131A (zh) 2021-03-05

Family

ID=74734212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910818741.3A Pending CN112445131A (zh) 2019-08-30 2019-08-30 一种线性系统自适应最优跟踪控制方法

Country Status (1)

Country Link
CN (1) CN112445131A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113364386A (zh) * 2021-05-26 2021-09-07 潍柴动力股份有限公司 永磁同步电机的基于强化学习的h∞电流控制方法及系统
CN113641100A (zh) * 2021-07-14 2021-11-12 苏州国科医工科技发展(集团)有限公司 针对未知非线性系统的通用辩识方法
CN113641193A (zh) * 2021-08-20 2021-11-12 电子科技大学 一种非最小相位系统精确跟踪控制方法
CN113733117A (zh) * 2021-09-09 2021-12-03 长春工业大学 一种可重构机器人人类意图辨识最优控制方法及装置
CN113910241A (zh) * 2021-11-11 2022-01-11 白城师范学院 一种多人零和博弈可重构机器人最优控制方法及系统
CN114114905A (zh) * 2021-10-25 2022-03-01 南京理工大学 一种数据驱动的舰载火箭炮发射装置最优跟踪控制方法
CN114237184A (zh) * 2021-12-20 2022-03-25 杭州电子科技大学 一种工业过程的优化学习控制性能提升方法
CN115236988A (zh) * 2022-08-17 2022-10-25 广东工业大学 基于在线数据的压电微驱动器无模型预测控制方法
CN116047753A (zh) * 2022-12-30 2023-05-02 中国科学院长春光学精密机械与物理研究所 光学系统正交优化模型的构建及优化方法
CN116382084A (zh) * 2023-04-04 2023-07-04 天津大学 一种基于自适应动态规划的直升机智能减振方法
CN117130379A (zh) * 2023-07-31 2023-11-28 南通大学 一种基于lqr近视距的无人机空战攻击方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109946975A (zh) * 2019-04-12 2019-06-28 北京理工大学 一种未知伺服系统的强化学习最优跟踪控制方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109946975A (zh) * 2019-04-12 2019-06-28 北京理工大学 一种未知伺服系统的强化学习最优跟踪控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHAOXU MU等: "An ADDHP-based Q-learning algorithm for optimal tracking control of linear discrete-time systems with unknown dynamics", 《APPLIED SOFT COMPUTING JOURNAL》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113364386B (zh) * 2021-05-26 2023-03-21 潍柴动力股份有限公司 永磁同步电机的基于强化学习的h∞电流控制方法及系统
CN113364386A (zh) * 2021-05-26 2021-09-07 潍柴动力股份有限公司 永磁同步电机的基于强化学习的h∞电流控制方法及系统
CN113641100A (zh) * 2021-07-14 2021-11-12 苏州国科医工科技发展(集团)有限公司 针对未知非线性系统的通用辩识方法
CN113641100B (zh) * 2021-07-14 2023-11-28 苏州国科医工科技发展(集团)有限公司 针对未知非线性系统的通用辩识方法
CN113641193A (zh) * 2021-08-20 2021-11-12 电子科技大学 一种非最小相位系统精确跟踪控制方法
CN113641193B (zh) * 2021-08-20 2023-04-04 电子科技大学 一种非最小相位系统精确跟踪控制方法
CN113733117A (zh) * 2021-09-09 2021-12-03 长春工业大学 一种可重构机器人人类意图辨识最优控制方法及装置
CN113733117B (zh) * 2021-09-09 2023-09-08 长春工业大学 一种可重构机器人人类意图辨识控制方法及装置
CN114114905A (zh) * 2021-10-25 2022-03-01 南京理工大学 一种数据驱动的舰载火箭炮发射装置最优跟踪控制方法
CN114114905B (zh) * 2021-10-25 2023-02-28 南京理工大学 一种数据驱动的舰载火箭炮发射装置最优跟踪控制方法
CN113910241B (zh) * 2021-11-11 2023-09-22 白城师范学院 一种多人零和博弈可重构机器人最优控制方法及系统
CN113910241A (zh) * 2021-11-11 2022-01-11 白城师范学院 一种多人零和博弈可重构机器人最优控制方法及系统
CN114237184A (zh) * 2021-12-20 2022-03-25 杭州电子科技大学 一种工业过程的优化学习控制性能提升方法
CN115236988A (zh) * 2022-08-17 2022-10-25 广东工业大学 基于在线数据的压电微驱动器无模型预测控制方法
CN116047753A (zh) * 2022-12-30 2023-05-02 中国科学院长春光学精密机械与物理研究所 光学系统正交优化模型的构建及优化方法
CN116047753B (zh) * 2022-12-30 2024-03-12 中国科学院长春光学精密机械与物理研究所 光学系统正交优化模型的构建及优化方法
CN116382084A (zh) * 2023-04-04 2023-07-04 天津大学 一种基于自适应动态规划的直升机智能减振方法
CN116382084B (zh) * 2023-04-04 2023-12-05 天津大学 一种基于自适应动态规划的直升机智能减振方法
CN117130379A (zh) * 2023-07-31 2023-11-28 南通大学 一种基于lqr近视距的无人机空战攻击方法
CN117130379B (zh) * 2023-07-31 2024-04-16 南通大学 一种基于lqr近视距的无人机空战攻击方法

Similar Documents

Publication Publication Date Title
CN112445131A (zh) 一种线性系统自适应最优跟踪控制方法
Ahn et al. Online tuning fuzzy PID controller using robust extended Kalman filter
CN111618864B (zh) 基于自适应神经网络的机器人模型预测控制方法
Lawson et al. A data assimilation technique applied to a predator-prey model
Xiang et al. Discrete-time noise-tolerant Zhang neural network for dynamic matrix pseudoinversion
CN112800675A (zh) 一种基于kpca和elm的时空分离分布参数系统建模方法
Mu et al. An ADDHP-based Q-learning algorithm for optimal tracking control of linear discrete-time systems with unknown dynamics
Shafiei et al. Application of neural network and genetic algorithm in identification of a model of a variable mass underwater vehicle
CN108762072B (zh) 基于核范数子空间法和增广向量法的预测控制方法
Nagel et al. Autoencoder-inspired Identification of LTI systems
Malachivskyy et al. Uniform approximation of functions of two variables
Malladi et al. FastNorm: improving numerical stability of deep network training with efficient normalization
Constanda et al. The Robin problem for bending of elastic plates
Kulikov et al. Regularization methods for the stable identification of probabilistic characteristics of stochastic structures
CN114186477A (zh) 一种基于Elman神经网络的轨道预测算法
Norkin Generalized gradients in dynamic optimization, optimal control, and machine learning problems
Jiang et al. Fast and smooth composite local learning-based adaptive control
JP2002520719A (ja) ニューラルネット及びニューラルネットのトレーニング方法及び装置
Chen et al. LPV sliding mode observers for sensor fault reconstruction with erroneous scheduling parameter measurements
Chowdhury A new approach to real‐time training of dynamic neural networks
Ji et al. Data preprocessing method and fault diagnosis based on evaluation function of information contribution degree
Wang et al. A nonlinear PLS modeling method based on extreme learning machine
George et al. Development of a novel robust identification scheme for nonlinear dynamic systems
Yusoff et al. Modeling neural plasticity in echo state networks for time series prediction
Mahmoud Observer-based control design: Basics, progress, and outlook

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210305

RJ01 Rejection of invention patent application after publication