CN114488786A - 一种基于a3c和事件触发的网络化伺服系统控制方法 - Google Patents

一种基于a3c和事件触发的网络化伺服系统控制方法 Download PDF

Info

Publication number
CN114488786A
CN114488786A CN202111224264.1A CN202111224264A CN114488786A CN 114488786 A CN114488786 A CN 114488786A CN 202111224264 A CN202111224264 A CN 202111224264A CN 114488786 A CN114488786 A CN 114488786A
Authority
CN
China
Prior art keywords
networked
event
designing
servo
controller
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111224264.1A
Other languages
English (en)
Inventor
张栋辉
张丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202111224264.1A priority Critical patent/CN114488786A/zh
Publication of CN114488786A publication Critical patent/CN114488786A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

一种基于A3C和事件触发的网络化伺服系统控制方法,属于网络化电机控制技术领域。它包括以下步骤:1、建立网络化伺服控制系统的系统模型;2、设计考虑离散系统的事件触发策略3、基于事件触发的网络化伺服系统控制方案设计;4、控制器设计;5、强化学习A3C方案设计。本发明给出网络化伺服系统的数学模型,并使用时延系统的分析方法,提出了一个事件触发机制和状态反馈控制的闭环时延系统;导出控制器的设计方法;设计一个基于事件触发状态反馈控制算法,利用线性矩阵不等式工具箱获得控制器参数;最后,通过A3C方案的优化,设计了一个基于A3C和事件触发的动态阈值状态反馈控制算法;能够自主调节触发参数的动态事件触发策略。

Description

一种基于A3C和事件触发的网络化伺服系统控制方法
技术领域
本发明属于网络化电机控制技术领域,具体涉及一种基于A3C和 事件触发的网络化伺服系统控制方法。
背景技术
近些年来,数字计算机飞速发展,已经成为了控制系统设计的重 要工具,而微型处理器的发展,也为控制系统增添了新的可能。随着 工业应用需求的不断扩大,网络控制系统(NCS)为实现远程控制提 供了有效的方案,并且在一些工作环境存在一定危险的方向有一定的 运用。与传统的点对点布线系统相比较,网络控制系统中的通信通道 可以大大降低成本,简化系统结构,并具有容易调试和维护系统的优 点。同时,网络控制系统由于其成本效益高,功耗要求低,可靠性高 等特点,广泛地应用在各个领域中。
在网络控制系统中,网络中的通信资源和计算资源往往是有限的, 传统的控制方法大多数都是采取周期触发控制方法,这种触发方式会 将很多不必要的信号通过网络发送,增大通信带宽的压力,降低通信 资源的利用率。为了有效地应对上述问题,D.Yue教授团队提出了基 于事件触发的控制方法,其可以在保证系统性能的情况下,减少网络 通信中不必要数据的传输数量。虽然事件触发机制可以提高通信资源 的利用率,减小通信带宽的压力,但现有的大多数事件触发条件中的 触发参数是固定不变的。这使系统在运行过程中,信号的触发频率非 常机械,不会对系统中的干扰进行反应。若能使触发参数随着系统的 变化而进行自动调节,系统将变得更加灵活,从而使系统能够拥有尽 可能好的性能和尽可能少的触发次数。因此,设计一种能自主调节触 发参数的动态事件触发策略显得尤为重要。
发明内容
针对现有技术中存在的上述问题,本发明的目的在于考虑网络控 制中通信资源和计算资源受限的问题,提出一种强化学习和事件触发 相结合的动态阈值控制方法。
本发明提供如下技术方案:
一种基于A3C和事件触发的网络化伺服系统控制方法,包括以下 步骤;
1)建立网络化伺服控制系统的系统模型:
定义x(k)∈Rp表示系统的状态向量,u(k)∈Rm表示系统的控制输入, ω(k)∈Rq表示系统的干扰,y(k)∈Rp表示系统输出,其中p、m、q分 别表示x(k)、u(k)、ω(k)的维度,A,B,F,C都是满足维数要求的系统 参数矩阵,则系统模型为:
x(k+1)=Ax(k)+Bu(k)+Fω(k)
y(k)=Cx(k)
设计基于状态反馈信号的伺服系统控制器:
u(k)=Kx(k),K表示控制器增益。
2)设计考虑离散系统的事件触发策略:
在网络系统中,受到通信资源受限和长距离传输的影响,存在传 输延迟τj,其中
Figure BDA0003312815990000039
Figure BDA00033128159900000310
为大于0的实数,应用零阶保持器,系统 在事件产生器下的动态模型表示为:
Figure BDA0003312815990000031
其中,kj表示系统的采样时刻,当前采样时刻的数据x(kj)是否被 发送用来更新控制器由以下的条件判断:
[x(k)-x(kj)]TΦj[x(k)-x(kj)]
≤εjxT(k)Φjx(k)
通过公式推导得到,延时函数为:
Figure BDA0003312815990000032
定义最大采样时间
Figure BDA0003312815990000033
得到:
Figure BDA0003312815990000034
其中,
Figure BDA0003312815990000035
Figure BDA0003312815990000036
Figure BDA0003312815990000037
3)基于事件触发的网络化伺服系统控制方案设计:
定义上一时刻与下一时刻采样时间之间状态误差为:
Figure BDA0003312815990000038
事件触发的判断条件可改写为:
ek(k)TΦje(k)k≤εjxT(k-d(k))Φjx(k-d(k))
基于事件触发的网络化伺服控制系统模型可以被描述为:
Figure BDA0003312815990000041
其中
Figure BDA0003312815990000042
表示系统的初始状态;
4)控制器设计:
给定0≤εj≤1,γ>0,τM>0和适当维度的矩阵 Pj>0,Qj>0,Rj>0,Zj>0,Φj>0和K使得下列不等式成立:
Figure BDA0003312815990000043
Figure BDA0003312815990000044
Figure BDA0003312815990000045
Figure BDA0003312815990000046
Figure BDA0003312815990000047
Figure BDA0003312815990000048
则基于事件触发的网络化伺服控制系统模型在均方意义上是指 数稳定的并且具有给定的H性能水平γ,可得控制器增益K为:
Figure BDA0003312815990000049
5)强化学习A3C方案设计:
基于A3C的强化学习方法对阈值进行优化,得到在保证系统性能 的情况下,触发次数较少的动态阈值。强化学习的问题通常可以转化 为一个动态规划问题,所以将动态阈值问题转化为一个多维动态规划 问题,并用一个五元组(Sr,Ar,Pr,λr,r)表示,其中,Sr设计状态空间、Ar为设计动作空间、Pr为概率转移矩阵、λr为设计折扣函数、r为设计 奖励函数。
所述的一种基于A3C和事件触发的网络化伺服系统控制方法,所 述步骤2)中,延时函数的推导过程如下:
由于网络中存在的长时延和短时延,所以,考虑两种延时情况:
2.1.、当
Figure BDA0003312815990000051
时,定义延时函数:
d(k)=k-kj,k∈[kjj,kj+1j+1)
可知:
Figure BDA0003312815990000052
2.1.、当
Figure BDA0003312815990000053
时,
定义两种时间间隔:
Figure BDA0003312815990000054
其中
Figure BDA0003312815990000055
l≥1,
Figure BDA0003312815990000056
得到:
Figure BDA0003312815990000057
因此,当l=1,2,3,...d-1时,x(kj)和x(kj+l)满足:
[x(kj+l)-x(kj)]TΦj[x(kj+l)-x(kj)]
≤εjxT(kj+l)Φjx(kj+l)
定义:
Figure BDA0003312815990000061
Figure BDA0003312815990000062
Figure BDA0003312815990000063
得到:
Figure BDA0003312815990000064
通过采用上述技术,与现有技术相比,本发明的有益效果如下:
本发明给出网络化伺服系统的数学模型,并使用时延系统的分析 方法,提出了一个事件触发机制和状态反馈控制的闭环时延系统;然 后,利用Lyapunov理论分析系统的渐近稳定性和鲁棒性,并导出控 制器的设计方法;随后,设计一个基于事件触发状态反馈控制算法, 利用线性矩阵不等式工具箱获得控制器参数;最后,通过A3C方案的 优化,设计了一个基于A3C和事件触发的动态阈值状态反馈控制算法; 能够自主调节触发参数的动态事件触发策略。
附图说明
图1为本发明网络化事件触发伺服系统模型的结构示意图;
图2为本发明强化学习A3C方案的结构示意图;
图3为本发明伺服系统平台实验结果,横坐标表示时间,单位是 秒,纵坐标表示电机的速度,单位是厘米,其中,图3-1表示:固定 阈值0.01的系统性能;图3-3表示:固定阈值0.1的系统性能;图 3-5表示:经过A3C方法优化后阈值的系统性能;图3-2为图3-1的 放大视图,图3-4为图3-3的放大视图,图3-6为图3-5的放大视图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合 说明书附图及实施例,对本发明进行进一步详细说明。应当理解,此 处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围 上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发 明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特 定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可 以完全理解本发明。
参照图1~图2,一种基于A3C和事件触发的动态阈值伺服系统控 制方案设计,包括以下步骤:
1)建立网络化伺服控制系统的系统模型:
定义x(k)∈Rp表示系统的状态向量,u(k)∈Rm表示系统的控制输入, ω(k)∈Rq表示系统的干扰,y(k)∈Rp表示系统输出,其中p、m、q分 别表示x(k)、u(k)、ω(k),A,B,F,C都是满足维数要求的系统参数 矩阵,则系统模型为:
Figure BDA0003312815990000071
设计基于状态反馈信号的伺服系统控制器:
u(k)=Kx(k)
2)设计考虑离散系统的事件触发策略:
在网络系统中,受到通信资源受限和长距离传输的影响,存在传 输延迟τj,其中
Figure BDA00033128159900000811
Figure BDA00033128159900000812
为大于0的实数。应用零阶保持器,系统 在事件产生器下的动态模型表示为:
Figure BDA0003312815990000081
其中,kj表示系统的采样时刻。当前采样时刻的数据x(kj)是否被 发送用来更新控制器由以下的条件判断:
Figure BDA0003312815990000082
由于网络中存在的长时延和短时延,所以,考虑两种延时情况:
情况1、当
Figure BDA0003312815990000083
时,定义延时函数:
d(k)=k-kj,k∈[kjj,kj+1j+1) (4)
可知:
Figure BDA0003312815990000084
情况2、当
Figure BDA0003312815990000085
时,定义两种时间见间隔:
Figure BDA0003312815990000086
其中
Figure BDA0003312815990000087
l≥1,
Figure BDA0003312815990000088
得到:
Figure BDA0003312815990000089
因此,x(kj)和x(kj+l)当l=1,2,3,...d-1时,满足:
Figure BDA00033128159900000810
定义:
Figure BDA0003312815990000091
得到:
Figure BDA0003312815990000092
定义最大采样时间
Figure BDA0003312815990000093
得到:
Figure BDA0003312815990000094
3)基于事件触发的网络化伺服系统控制方案设计:
根据公式(9),定义:
Figure BDA0003312815990000095
结合公式(10)和公式(12),事件触发的判断条件可改写为:
ek(k)TΦje(k)k≤εjxT(k-d(k))Φjx(k-d(k)) (13)
根据公式(2),(10)和(12),基于事件触发的网络化伺服控制 系统模型可以被描述为;
Figure BDA0003312815990000096
其中
Figure BDA0003312815990000097
表示系统的初始状态。
4)控制器设计:
若存在给定的正数0≤εj≤1,γ>0,τM>0和适当维度的矩阵 Pj>0,Qj>0,Rj>0,Zj>0,Φj>0和K使得下列不等式成立:
Figure BDA0003312815990000101
Figure BDA0003312815990000102
Figure BDA0003312815990000103
Figure BDA0003312815990000104
Figure BDA0003312815990000105
Figure BDA0003312815990000106
则系统模型公式(14)在均方意义上是指数稳定的并且具有给定 的H性能水平γ,可得控制器增益K为:
Figure BDA0003312815990000107
5)强化学习A3C方案设计:
基于A3C的强化学习方法对阈值进行优化,得到在保证系统性能 的情况下,触发次数较少的动态阈值。强化学习的问题通常可以转化 为一个动态规划问题,所以将动态阈值问题转化为一个多维动态规划 问题,并用一个五元组(Sr,Ar,Pr,λr,r)表示。
5.1)设计状态空间Sr,Sr用来表示系统的状态集。为了让训练 的阈值使系统能够在保持良好性能的情况下尽可能地减少触发次数, 将第n段时间内触发的总数记为tn,将这段时间内系统的平均输出值 记为yn。因此,定义sr,n=[Xn yn tn]T,其中Xn表示第n段时间内系统 的最后一次输出的状态;
5.2)设计动作空间Ar,Ar是由一组在环境中执行的Agent组成, Agent的每一次执行,都会对环境进行更新。Agent的输出是所需要 的事件触发条件的阈值。对Agent进行扩张,定义ar,n=εj,n,ar,n≤εj, 其中εj,n表示第n段时间内的阈值,εj表示阈值的上限。将第n段时 间内的阈值进行扩张处理,所以定义 ar,n,i=εj,n,i=εj,n+0.001*h,h∈[-5,4],i∈[1,2,...,10];
5.3)概率转移矩阵Pr:Sr*Ar→Λ(Sr)表示在当前环境执行当前动 作ar,n后,下一个环境状态sr,n+1的分布,即推导出来的基于事件触发的 伺服系统状态空间方程。
5.4)设计折扣函数λr:λr的大小决定了对长期奖励的影响, λr∈[0,1],其中λr=0.9。
5.5)设计奖励函数r(sr,n,ar,n):r(sr,n,ar,n)是将一组相对应的状态- 动作映射到一个标量上的函数,其表示当前动作ar,n施加在以sr,n为状 态的当前环境后得到的即时奖励。同时使用双奖励函数,首先,在对 Agent进行扩张的情况下,计算出每一条子线程的即时奖励,定义
Figure BDA0003312815990000111
其中,εr,n,i表示第n段时间内第i条子线程最后 的环境状态。并筛选出最小的奖励
Figure BDA0003312815990000112
定义总奖励 函数,
Figure BDA0003312815990000113
其中sr,n,b表示εj,n,i=εj,n的子线程的阈值。
Figure BDA0003312815990000114
表示奖励为
Figure BDA0003312815990000115
的环境 状态。rr,b表示状态为sr,n,b的即时奖励。
Figure BDA0003312815990000121
表示对触发频率和收敛速 度的比重,可人为设置。
结合图3,事件触发中阈值参数选取如下所示:
通过系统辨识,伺服系统状态方程参数矩阵如下:
Figure BDA0003312815990000122
Figure BDA0003312815990000123
Cj=[1 0]
其中,系统的采样时间Ts=0.005s,干扰ω(k)=sin(x(k)),选择 τM=3,εj=0.1,求解LMI,得到控制增益K和参数矩阵Φj,系统的初始 状态
Figure BDA0003312815990000124
图3-1:固定阈值0.1。
图3-2:固定阈值0.01。
图3-3:动态阈值,以2000个采样周期为一个训练过程,通过 A3C算法,训练出最优的动态阈值。超过2000个采样后,系统已经 稳定,此时的阈值都为动态阈值中第2000个阈值。定义:
Figure BDA0003312815990000125
训练的阈值ε3∈[0.01,0.1]。
根据实验结果可知,从性能方面看,在固定阈值下,当阈值为 0.01时,电机速度稳定在0.1左右,当阈值为0.1时,电机速度稳定 在1.3左右。根据A3C方法得到的动态阈值,电机速度稳定在0.3左 右。得到结论,基于A3C算法得到的阈值与固定阈值0.01相比,电 机性能相差不大,从而体现出根据A3C算法优化后的动态阈值可以 使系统保持良好的性能。
在事件触发次数方面,本实验只计算前1000次采样时间内的触 发次数。在固定阈值下,当阈值为0.01时,在1000次采样时间内, 触发次数为100次左右,当阈值为0.1时,在1000次采样时间内, 触发次数为10次左右。根据A3C算法得到的动态阈值,在1000次 采样时间内,触发次数为30次左右。得出结论,基于A3C算法得到 的阈值与固定阈值0.01相比,触发次数有大幅度下降。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明, 凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等, 均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于A3C和事件触发的网络化伺服系统控制方法,其特征在于,包括以下步骤;
1)建立网络化伺服控制系统的系统模型:
定义x(k)∈Rp表示系统的状态向量,u(k)∈Rm表示系统的控制输入,ω(k)∈Rq表示系统的干扰,y(k)∈Rp表示系统输出,其中p、m、q分别表示x(k)、u(k)、ω(k)的维度,A,B,F,C都是满足维数要求的系统参数矩阵,则系统模型为:
x(k+1)=Ax(k)+Bu(k)+Fω(k)
y(k)=Cx(k)
设计基于状态反馈信号的伺服系统控制器:
u(k)=Kx(k),K表示控制器增益;
2)设计考虑离散系统的事件触发策略:
在网络系统中,受到通信资源受限和长距离传输的影响,存在传输延迟τj,其中
Figure FDA0003312815980000011
Figure FDA0003312815980000012
为大于0的实数,应用零阶保持器,系统在事件产生器下的动态模型表示为:
Figure FDA0003312815980000013
其中,kj表示系统的采样时刻,当前采样时刻的数据x(kj)是否被发送用来更新控制器由以下的条件判断:
Figure FDA0003312815980000014
其中,Φj为正定矩阵,然后通过公式推导得到延时函数为:
Figure FDA0003312815980000021
定义最大采样时间
Figure FDA0003312815980000022
得到:
Figure FDA0003312815980000023
其中,
Figure FDA0003312815980000024
Figure FDA0003312815980000025
Figure FDA0003312815980000026
3)基于事件触发的网络化伺服系统控制方案设计:
定义上一时刻与下一时刻采样时间之间状态误差为:
Figure FDA0003312815980000027
事件触发的判断条件可改写为:
ek(k)TΦje(k)k≤εjxT(k-d(k))Φjx(k-d(k))
基于事件触发的网络化伺服控制系统模型可以被描述为:
Figure FDA0003312815980000028
其中
Figure FDA0003312815980000029
表示系统的初始状态;
4)控制器设计:
给定0≤εj≤1,γ>0,τM>0和适当维度的矩阵Pj>0,Qj>0,Rj>0,Zj>0,Φj>0和K使得下列不等式成立:
Figure FDA0003312815980000031
Figure FDA0003312815980000032
Figure FDA0003312815980000033
Figure FDA0003312815980000034
Figure FDA0003312815980000035
Figure FDA0003312815980000036
则基于事件触发的网络化伺服控制系统模型为在均方意义上是指数稳定的并且具有给定的H性能水平γ,可得控制器增益K:
Figure FDA0003312815980000037
5)强化学习A3C方案设计:
基于A3C的强化学习方法对阈值进行优化,得到在保证系统性能的情况下,触发次数较少的动态阈值,强化学习的问题通常可以转化为一个动态规划问题,所以将动态阈值问题转化为一个多维动态规划问题,并用一个五元组(Sr,Ar,Pr,λr,r)表示,其中,Sr设计状态空间、Ar为设计动作空间、Pr为概率转移矩阵、λr为设计折扣函数、r为设计奖励函数。
2.根据权利要求1所述的一种基于A3C和事件触发的网络化伺服系统控制方法,其特征在于所述步骤2)中,延时函数的推导过程如下:
由于网络中存在的长时延和短时延,所以,考虑两种延时情况:
2.1.、当
Figure FDA0003312815980000041
时,定义延时函数:
d(k)=k-kj,k∈[kjj,kj+1j+1)
可知:
Figure FDA0003312815980000042
2.1.、当
Figure FDA0003312815980000043
时,
定义两种时间间隔:
Figure FDA0003312815980000044
其中
Figure FDA0003312815980000045
得到:
Figure FDA0003312815980000046
因此,当l=1,2,3,...d-1时,x(kj)和x(kj+l)满足:
Figure FDA0003312815980000047
定义:
Figure FDA0003312815980000048
Figure FDA0003312815980000049
Figure FDA00033128159800000410
得到:
Figure FDA00033128159800000411
CN202111224264.1A 2021-10-20 2021-10-20 一种基于a3c和事件触发的网络化伺服系统控制方法 Pending CN114488786A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111224264.1A CN114488786A (zh) 2021-10-20 2021-10-20 一种基于a3c和事件触发的网络化伺服系统控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111224264.1A CN114488786A (zh) 2021-10-20 2021-10-20 一种基于a3c和事件触发的网络化伺服系统控制方法

Publications (1)

Publication Number Publication Date
CN114488786A true CN114488786A (zh) 2022-05-13

Family

ID=81492686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111224264.1A Pending CN114488786A (zh) 2021-10-20 2021-10-20 一种基于a3c和事件触发的网络化伺服系统控制方法

Country Status (1)

Country Link
CN (1) CN114488786A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117032052A (zh) * 2023-10-07 2023-11-10 华能信息技术有限公司 一种基于动态事件的安全管控方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117032052A (zh) * 2023-10-07 2023-11-10 华能信息技术有限公司 一种基于动态事件的安全管控方法及系统
CN117032052B (zh) * 2023-10-07 2024-02-27 华能信息技术有限公司 一种基于动态事件的安全管控方法及系统

Similar Documents

Publication Publication Date Title
Ni et al. Fixed-time adaptive neural network control for nonstrict-feedback nonlinear systems with deadzone and output constraint
US10281897B2 (en) Model predictive control with uncertainties
CN108445748B (zh) 一种基于事件触发机制的自适应航天器姿态跟踪控制方法
Diehl et al. Fast direct multiple shooting algorithms for optimal robot control
CN113110059B (zh) 基于事件触发的单连杆机械臂系统实际跟踪的控制方法
Arif et al. Incorporation of experience in iterative learning controllers using locally weighted learning
CN111596545A (zh) 一种多输入多输出机械系统自适应容错预设性能控制方法
Kosmatopoulos Control of unknown nonlinear systems with efficient transient performance using concurrent exploitation and exploration
CN114488786A (zh) 一种基于a3c和事件触发的网络化伺服系统控制方法
Wang et al. Adaptive fuzzy control of underwater vehicle manipulator system with dead-zone band input nonlinearities via fuzzy performance and disturbance observers
Wanigasekara et al. Performance of neural network based controllers and ΔΣ-based PID controllers for networked control systems: a comparative investigation
Wang et al. Prescribed performance control for dynamic positioning vessels with a dynamic event-triggered mechanism
CN113110063A (zh) 单轴进给系统的鲁棒单调收敛点对点迭代学习控制方法
JP2023517142A (ja) データ駆動型モデル適応を用いる制御のための装置および方法
CN116859713A (zh) 基于模糊pid的水下机器人的控制方法、装置、设备及介质
Grimble et al. Polynomial approach to non-linear predictive generalised minimum variance control
Liu et al. Online expectation maximization for reinforcement learning in POMDPs
CN112859891B (zh) 一种基于粒子群算法优化自适应滑模控制参数的auv航向角控制方法
CN114859725A (zh) 一种非线性系统自适应事件触发控制方法及系统
Huang et al. Learning Koopman Operators with Control Using Bi-Level Optimization
Okulski et al. Development of a model predictive controller for an unstable heavy self-balancing robot
Inanc et al. Long short-term memory for improved transients in neural network adaptive control
Curtis et al. A model-predictive satisficing approach to a nonlinear tracking problem
Zhang et al. MPC for 3-D Trajectory Tracking of UUV with Constraints Using Laguerre Functions
Pandey et al. Learning koopman operators with control using bi-level optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination