CN112034715B - 一种基于改进q学习算法的电机伺服系统无模型反馈控制器设计方法 - Google Patents

一种基于改进q学习算法的电机伺服系统无模型反馈控制器设计方法 Download PDF

Info

Publication number
CN112034715B
CN112034715B CN202010978195.2A CN202010978195A CN112034715B CN 112034715 B CN112034715 B CN 112034715B CN 202010978195 A CN202010978195 A CN 202010978195A CN 112034715 B CN112034715 B CN 112034715B
Authority
CN
China
Prior art keywords
matrix
performance
performance index
phi
motor servo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010978195.2A
Other languages
English (en)
Other versions
CN112034715A (zh
Inventor
陈剑
徐哲壮
陈丹
林烨
连岩杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202010978195.2A priority Critical patent/CN112034715B/zh
Publication of CN112034715A publication Critical patent/CN112034715A/zh
Application granted granted Critical
Publication of CN112034715B publication Critical patent/CN112034715B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Electric Motors In General (AREA)

Abstract

本发明涉及一种基于改进Q学习算法的电机伺服系统无模型反馈控制器设计方法,包括以下步骤:步骤S1:设有离散电机伺服系统
Figure DEST_PATH_IMAGE002
,步骤S2:针对步骤S1所述的系统给定一个初始的反馈矩阵
Figure DEST_PATH_IMAGE004
对系统进行控制,获得一组充分激励的数据,即由系统状态矢量
Figure DEST_PATH_IMAGE006
和输入信号矢量
Figure DEST_PATH_IMAGE008
组成的数据集;步骤S3:计算系统未知参数矩阵
Figure DEST_PATH_IMAGE010
;将计算所得的参数按照将
Figure 2
作为矩阵对角线元素得到新的反馈阵;步骤S5:根据反馈阵
Figure 1
,计算系统的性能指标;本发明采用岭回归代替现有算法中的最小二乘回归。由于岭回归能够处理数据集中存在的多重共线性,因此对于电机伺服系统,改进Q算法能够有效完成无模型控制器的设计。

Description

一种基于改进Q学习算法的电机伺服系统无模型反馈控制器 设计方法
技术领域
本发明涉及机器学习算法领域以及电机伺服系统的无模型控制器设计领域,特别是一种基于改进Q学习算法的电机伺服系统无模型反馈控制器设计方法。
背景技术
PID控制器由于具有结构简单、参数整定方便、控制性能好和鲁棒性强等优点,一直是工业控制中应用最多的控制器。然而它的缺点也很明显,即对于被控对象的结构和参数依赖性较强。若运行过程中参数或结构发生变化,PID控制器参数无法及时随之调整,会造成控制效果变差甚至系统不稳定。因此在经典PID控制器的基础上探索它的改进形式,是控制理论和应用领域中具有重要实际意义的研究方向。
Q学习算法作为强化学习算法中的一种重要方法,被用于解决线性离散系统的二次型最优控制问题,并由此得到了一种基于采集到的数据,不依赖于被控对象数学模型的二次型最优控制器的求解方法。满足一定条件时,基于Q学习算法得出的控制器能够收敛于最优值。因此在对被控对象的数学模型存在部分不确定甚至完全未知的情况下,采用Q学习算法根据从系统中采集到的数据进行计算,得出系统的最优控制器,这类方案就被称作基于Q学习算法的无模型控制方法。
无模型控制器不依赖于对象的数学模型,根据运行过程中采集到的数据就可以计算出适当的控制器。在目前物联网应用的背景下,许多从前孤立的确定性系统在纳入物联网后会增加许多不确定性。因此无模型控制器设计方案的研究具有现实意义且将是未来控制器的发展趋势之一。
在对电机伺服系统进行无模型控制器设计的研究中,基于Q学习算法的控制器设计方案被广泛采用。该方案不需要预先知道被控对象的数学模型,只需要采集对象的运行数据,并使用Q学习算法,经过计算可得出无限趋近最优值的反馈控制器。然而在已有的方案中,并未考虑采集到的数据集中可能存在的多重共线性问题。对于工程中常见的电机伺服系统而言,采集到的数据集中存在多重共线性问题的可能性几乎是确定的,即便系统中存在各种非线性因素,比如扰动、控制器的饱和特性、元器件参数漂移等,数据集中的多重共线性特性依然明显。在现有的基于Q学习方法的二次型最优控制器设计方案中,计算过程采用了最小二乘回归,对于具有多重共线性的数据集无法完成计算过程。
发明内容
有鉴于此,本发明的目的是提供一种基于改进Q学习算法的电机伺服系统无模型反馈控制器设计方法,采用岭回归代替现有算法中的最小二乘回归。由于岭回归能够处理数据集中存在的多重共线性,因此对于电机伺服系统,改进Q算法能够有效完成无模型控制器的设计。
本发明采用以下方案实现:一种基于改进Q学习算法的电机伺服系统无模型反馈控制器设计方法,包括以下步骤:
步骤S1:提供一离散电机伺服系统x(l+1)=Ax(l)+Bu(l),式中x(l)表示系统状态,u(l)表示输入信号,A为n×n阶系统矩阵;B为n×p阶输入矩阵;
步骤S2:针对步骤S1所述的系统给定一个初始的反馈矩阵K0对系统进行控制,获得一组充分激励的数据,即由系统状态矢量x(l)和输入信号矢量u(l)组成的数据集;
步骤S3:计算系统未知参数矩阵Θ(H);
步骤S4:将计算所得的参数矩阵Θ(H)中的元素hij重新排列为矩阵形式,hii作为矩阵对角线元素,
Figure BDA0002686170150000031
分别作为上半和下半三角矩阵元素的顺序,重新构造矩阵
Figure BDA0002686170150000032
则新的反馈阵为
Figure BDA0002686170150000033
步骤S5:根据反馈阵K1,计算系统的性能指标;此时的性能指标能够选取单步性能指标v(l)、选取总的性能指标V(l)或以按照需求选取其他性能指标,包括ITA和ITAE;判断系统性能是否满足计算出的性能指标小于某个预设值的要求,若满足则停止计算,新的反馈控制器为K1,否则令K0=K1,回到步骤S1,重复计算过程,直至性能指标达到要求,或达到预设最大的计算次数;若性能指标达到要求,所要计算的反馈控制器即为
Figure BDA0002686170150000034
进一步地,步骤S2中所述获得充分激励数据的具体内容为:
在获取数据的过程中,令系统状态x(l)具有随机初始值x(0),共有N个采样时刻;根据随机指定的p×n维初始反馈矩阵K0的值,采样时刻l=N时有输入量u(N)=Kox(N-1),则有x(N)=(A+BK0)x(N-1);经过N个采样时刻后,得数据集
Figure BDA0002686170150000035
Figure BDA0002686170150000036
)。
进一步地,所述步骤S3的具体内容为:
将步骤S1中所示离散电机伺服系统在第l时刻的单步性能指标记为:v(l)=xT(l)Qx(l)+uT(l)Ru(l),其中Q=QT≥0是n×n阶权系数矩阵,R>0是p×p阶权系数矩阵;将从第l时刻起的总性能指标记为:
Figure BDA0002686170150000037
其中0≤γ≤1为折扣系数,该指标由当前时刻的单步性能指标以及第l时刻以后所有的性能指标依次与折扣系数指数的乘积构成;
令Q函数为Q(x(l),u(l))=v(l)+γV(x(l+1)),该函数与第l时刻的性能指标以及第l+1时刻起总的性能指标相关,代表了系统从第l时刻起预期的性能;
由v(l)、V(l)、x(l)和u(l)的表达式可知,可将Q函数表示为:
Figure BDA0002686170150000041
其中
Figure BDA0002686170150000042
为由第l时刻的系统数据x(l)和u(l)构成,即
Figure BDA0002686170150000043
进而可将Q函数写为:
Figure BDA0002686170150000044
其中数据矩阵φT(l)由系统运行期间采集到的数据集
Figure BDA0002686170150000045
中的元素xi(i=1,…,n+p)构成,具体形式如下:
Figure BDA0002686170150000046
相应地,参数矩阵Θ(H)为矩阵Η中包含的所有未知参数,其具体形式表示为:Θ(H)=[h11 h12 … h1(n+p) h22 h23 … h2(n+p) … h(n+p)(n+p)];根据Q函数的定义式以及Q(x(l),u(l))关于φT(l)和Θ(H)的表达式,得:(φ(l)-γφ(l+1))TΘ(H)=v(l),v(l)即为第l时刻的单步性能指标;由于l从1到N,因此有N个如前所述的方程,将它们合并后写成:ΦTΘ(H)=V,其中
Figure BDA0002686170150000047
由于φ(l)、φ(l+1)和v(l)均为已知量,则采用基于岭回归的最小二乘法,由公式Θ(H)=(ΦTΦ+λI)-1ΦTv计算得出系统未知参数阵Θ(H)。
进一步地,步骤S5中所述计算条件包括系统满足的性能要求、计算出的反馈阵K趋于稳定即在连续L,L≥5个计算周期内无显著变化以及达到预设最大的计算次数即最大计算次数视计算条件和精度要求而定,范围取100~1000;系统满足的性能要求包括单步性能指标v(l),N步总性能指标V、或ITA、ITAE性能指标。
与现有技术相比,本发明具有以下有益效果:
(1)针对离散电机伺服系统,本发明能够不依赖于对象的数学模型,通过采集系统运行数据即可计算出可用的反馈控制器,即前述反馈矩阵K。
(2)本发明能够克服离散电机伺服系统运行数据集中常见的多重共线性特性,避免由此引起的病态矩阵或奇异矩阵,进而造成现有基于Q学习算法的二次型最优控制器设计方法的计算过程无法正确完成的问题。
(3)本发明所提出的方案,经反复执行,可无限趋近于二次型最优控制器的理论值。
附图说明
图1为本发明实施例的流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供一种基于改进Q学习算法的电机伺服系统在线附加控制器设计方法,包括以下步骤:
步骤S1:提供一离散电机伺服系统x(l+1)=Ax(l)+Bu(l),式中x(l)表示系统状态,u(l)表示输入信号,A为n×n阶系统矩阵;B为n×p阶输入矩阵;
步骤S2:针对步骤S1所述的系统给定一个初始的反馈矩阵K0对系统进行控制,获得一组充分激励的数据,即由系统状态矢量x(l)和输入信号矢量u(l)组成的数据集;
步骤S3:计算系统未知参数矩阵Θ(H);
步骤S4:将计算所得的参数矩阵Θ(H)中的元素hij重新排列为矩阵形式,hii作为矩阵对角线元素,
Figure BDA0002686170150000061
分别作为上半和下半三角矩阵元素的顺序,重新构造矩阵
Figure BDA0002686170150000062
则新的反馈阵为
Figure BDA0002686170150000063
步骤S5:根据反馈阵K1,计算系统的性能指标;此时的性能指标能够选取单步性能指标v(l)、选取总的性能指标V(l)或以按照需求选取其他性能指标,包括ITA和ITAE;判断系统性能是否满足计算出的性能指标小于某个预设值的要求,若满足则停止计算,新的反馈控制器为K1,否则令K0=K1,回到步骤S1,重复计算过程,直至性能指标达到要求,或达到预设最大的计算次数;若性能指标达到要求,所要计算的反馈控制器即为
Figure BDA0002686170150000071
在本实施例中,步骤S2中所述获得充分激励数据的具体内容为:在获取数据的过程中,令系统状态x(l)具有随机初始值x(0),共有N个采样时刻;根据随机指定的p×n维初始反馈矩阵K0的值,采样时刻l=N时有输入量u(N)=Kox(N-1),则有x(N)=(A+BK0)x(N-1);经过N个采样时刻后,得数据集
Figure BDA0002686170150000072
Figure BDA0002686170150000073
)。
在本实施例中,K0为随机值。
在本实施例中,所述步骤S3的具体内容为:
将步骤S1中所示离散电机伺服系统在第l时刻的单步性能指标记为:v(l)=xT(l)Qx(l)+uT(l)Ru(l),其中Q=QT≥0是n×n阶权系数矩阵,R>0是p×p阶权系数矩阵;将从第l时刻起的总性能指标记为:
Figure BDA0002686170150000074
其中0≤γ≤1为折扣系数,该指标由当前时刻的单步性能指标以及第l时刻以后所有的性能指标依次与折扣系数指数的乘积构成;
令Q函数为Q(x(l),u(l))=v(l)+γV(x(l+1)),该函数与第l时刻的性能指标以及第l+1时刻起总的性能指标相关,代表了系统从第l时刻起预期的性能;
由v(l)、V(l)、x(l)和u(l)的表达式可知,可将Q函数表示为:
Figure BDA0002686170150000075
其中
Figure BDA0002686170150000076
为由第l时刻的系统数据x(l)和u(l)构成,即
Figure BDA0002686170150000081
进而可将Q函数写为:
Figure BDA0002686170150000082
其中数据矩阵φT(l)由系统运行期间采集到的数据集
Figure BDA0002686170150000083
中的元素xi(i=1,…,n+p)构成,具体形式如下:
Figure BDA0002686170150000084
相应地,参数矩阵Θ(H)为矩阵Η中包含的所有未知参数,其具体形式表示为:Θ(H)=[h11 h12 … h1(n+p) h22 h23 … h2(n+p) … h(n+p)(n+p)];根据Q函数的定义式以及Q(x(l),u(l))关于φT(l)和Θ(H)的表达式,得:(φ(l)-γφ(l+1))TΘ(H)=v(l),v(l)即为第l时刻的单步性能指标;由于l从1到N,因此有N个如前所述的方程,将它们合并后写成:ΦTΘ(H)=V,其中
Figure BDA0002686170150000085
由于φ(l)、φ(l+1)和v(l)均为已知量,则采用基于岭回归的最小二乘法,由公式Θ(H)=(ΦTΦ+λI)-1ΦTv计算得出系统未知参数阵Θ(H)。
在本实施例中,步骤S5中所述计算条件包括系统满足性能要求、计算出的反馈阵K趋于稳定即在连续L,L≥5个计算周期内无显著变化以及达到预设最大的计算次数即最大计算次数视计算条件和精度要求而定,范围取100~1000;系统满足的性能要求包括单步性能指标v(l),N步总性能指标V、或ITA、ITAE性能指标。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (3)

1.一种基于改进Q学习算法的电机伺服系统无模型反馈控制器设计方法,其特征在于:包括以下步骤:
步骤S1:提供一离散电机伺服系统x(l+1)=Ax(l)+Bu(l),式中x(l)表示系统状态矢量,u(l)表示输入信号矢量,A为n×n阶系统矩阵;B为n×p阶输入矩阵;
步骤S2:针对步骤S1所述的系统给定一个初始的反馈矩阵K0对系统进行控制,获得一组充分激励的数据,即由系统状态矢量x(l)和输入信号矢量u(l)组成的数据集;
步骤S3:计算系统未知参数矩阵Θ(H);
步骤S4:将计算所得的参数矩阵Θ(H)中的元素hij重新排列为矩阵形式,hii作为矩阵对角线元素,
Figure FDA0003095960590000011
分别作为上半和下半三角矩阵元素的顺序,重新构造矩阵
Figure FDA0003095960590000012
则新的反馈阵为
Figure FDA0003095960590000013
步骤S5:根据反馈阵K1,计算系统的性能指标;此时的性能指标能够选取单步性能指标v(l)、选取总性能指标V(l)或以按照需求选取其他性能指标,包括ITA和ITAE;判断系统性能是否满足计算出的性能指标小于某个预设值的要求,若满足则停止计算,新的反馈控制器为K1,否则令K0=K1,回到步骤S1,重复计算过程,直至性能指标达到要求,或达到预设最大的计算次数;若性能指标达到要求,所要计算的反馈控制器即为
Figure FDA0003095960590000014
其中,步骤S5中所述计算条件包括系统满足的性能要求、计算出的反馈阵K趋于稳定即在连续L,L≥5个计算周期内无显著变化以及达到预设最大的计算次数, 最大计算次数视计算条件和精度要求而定,范围取100~1000;系统满足的性能要求包括单步性能指标v(l),N步总性能指标V (l) 、或ITA、ITAE性能指标。
2.根据权利要求1所述的一种基于改进Q学习算法的电机伺服系统无模型反馈控制器设计方法,其特征在于:步骤S2中所述获得一组充分激励的数据的具体内容为:
在获取数据的过程中,令系统状态x(l)具有随机初始值x(0),共有N个采样时刻;根据随机指定的p×n维初始反馈矩阵K0的值,采样时刻l=N时有输入量u(N)=Kox(N-1),则有x(N)=(A+BK0)x(N-1);经过N个采样时刻后,得数据集
Figure FDA0003095960590000021
Figure FDA0003095960590000022
3.根据权利要求1所述的一种基于改进Q学习算法的电机伺服系统无模型反馈控制器设计方法,其特征在于:所述步骤S3的具体内容为:
将步骤S1中所示离散电机伺服系统在第l时刻的单步性能指标记为:v(l)=xT(l)Qx(l)+uT(l)Ru(l),其中Q=QT≥0是n×n阶权系数矩阵,R>0是p×p阶权系数矩阵;将从第l时刻起的总性能指标记为:
Figure FDA0003095960590000023
其中0≤γ≤1为折扣系数,该指标由当前时刻的单步性能指标以及第l时刻以后所有的性能指标依次与折扣系数指数的乘积构成;
令Q函数为Q(x(l),u(l))=v(l)+γV(x(l+1)),该函数与第l时刻的性能指标以及第l+1时刻起总性能指标相关,代表了系统从第l时刻起预期的性能;
由v(l)、V(l)、x(l)和u(l)的表达式可知,可将Q函数表示为:
Figure FDA0003095960590000031
其中
Figure FDA0003095960590000032
为由第l时刻的系统数据x(l)和u(l)构成,即
Figure FDA0003095960590000033
进而可将Q函数写为:
Figure FDA0003095960590000034
其中数据矩阵φT(l)由系统运行期间采集到的数据集
Figure FDA0003095960590000035
中的元素xi(i=1,…,n+p)构成,具体形式如下:
Figure FDA0003095960590000036
相应地,参数矩阵Θ(H)为矩阵Η中包含的所有未知参数,其具体形式表示为:Θ(H)=[h11 h12…h1(n+p) h22 h23…h2(n+p)…h(n+p)(n+p)];根据Q函数的定义式以及Q(x(l),u(l))关于φT(l)和Θ(H)的表达式,得:(φ(l)-γφ(l+1))TΘ(H)=v(l),v(l)即为第l时刻的单步性能指标;由于l从1到N,因此有N个如前所述的方程,将它们合并后写成:
ΦTΘ(H)=V,其中
Figure FDA0003095960590000037
由于φ(l)、φ(l+1)和v(l)均为已知量,则采用基于岭回归的最小二乘法,由公式Θ(H)=(ΦTΦ+λI)-1ΦTv计算得出系统未知参数阵Θ(H)。
CN202010978195.2A 2020-09-17 2020-09-17 一种基于改进q学习算法的电机伺服系统无模型反馈控制器设计方法 Active CN112034715B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010978195.2A CN112034715B (zh) 2020-09-17 2020-09-17 一种基于改进q学习算法的电机伺服系统无模型反馈控制器设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010978195.2A CN112034715B (zh) 2020-09-17 2020-09-17 一种基于改进q学习算法的电机伺服系统无模型反馈控制器设计方法

Publications (2)

Publication Number Publication Date
CN112034715A CN112034715A (zh) 2020-12-04
CN112034715B true CN112034715B (zh) 2021-07-13

Family

ID=73589588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010978195.2A Active CN112034715B (zh) 2020-09-17 2020-09-17 一种基于改进q学习算法的电机伺服系统无模型反馈控制器设计方法

Country Status (1)

Country Link
CN (1) CN112034715B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109946975A (zh) * 2019-04-12 2019-06-28 北京理工大学 一种未知伺服系统的强化学习最优跟踪控制方法
DE102019209104A1 (de) * 2018-06-28 2020-01-02 Fanuc Corporation Ausgabevorrichtung, Steuervorrichtung und Ausgabeverfahren für einen Bewertungsfunktionswert
CN111526527A (zh) * 2020-04-17 2020-08-11 东南大学 一种无线通信中性能切换与用户服务质量联合优化方法
CN111665718A (zh) * 2020-06-05 2020-09-15 长春工业大学 一种基于q学习算法的对角递归神经网络控制策略

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6856591B2 (ja) * 2018-09-11 2021-04-07 ファナック株式会社 制御装置、cnc装置及び制御装置の制御方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019209104A1 (de) * 2018-06-28 2020-01-02 Fanuc Corporation Ausgabevorrichtung, Steuervorrichtung und Ausgabeverfahren für einen Bewertungsfunktionswert
CN109946975A (zh) * 2019-04-12 2019-06-28 北京理工大学 一种未知伺服系统的强化学习最优跟踪控制方法
CN111526527A (zh) * 2020-04-17 2020-08-11 东南大学 一种无线通信中性能切换与用户服务质量联合优化方法
CN111665718A (zh) * 2020-06-05 2020-09-15 长春工业大学 一种基于q学习算法的对角递归神经网络控制策略

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Output Feedback Reinforcement Q-learning for Optimal Quadratic Tracking Control of Unknown Discrete-Time Linear Systems and Its Application;Guangyue Zhao等;《2018 15th International Conference on Control, Automation, Robotics and Vision》;20181121;第750-755页 *
基于在线附加Q学习的伺服电机速度最优跟踪控制方法;邹晓敏等;《电工技术学报》;20190331;第34卷(第5期);第917-923页 *

Also Published As

Publication number Publication date
CN112034715A (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
Ding et al. Projective synchronization of nonidentical fractional-order neural networks based on sliding mode controller
Seer et al. Stabilization and PID tuning algorithms for second-order unstable processes with time-delays
Chen Stability analysis and robustness design of nonlinear systems: an NN-based approach
Li et al. Finite-time synchronization for competitive neural networks with mixed delays and non-identical perturbations
CN108008627B (zh) 一种并行优化的强化学习自适应pid控制方法
CN103439887B (zh) 低阶系统itae最优的pi控制器参数整定方法及系统
CN114047706B (zh) 面向可重入工业制造系统的模糊动态积分滑模控制方法
CN109634108A (zh) 参数自整定的mimo异因子全格式无模型控制方法
CN112051734A (zh) 一种基于确定学习的轮式移动机器人事件触发跟踪控制方法
CN115167102A (zh) 一种基于并行优势动作评价的强化学习自适应pid控制方法
CN112034715B (zh) 一种基于改进q学习算法的电机伺服系统无模型反馈控制器设计方法
CN111399376B (zh) 一种t-s模糊系统的二维重复控制器设计优化方法
CN109782586A (zh) 参数自整定的miso异因子紧格式无模型控制方法
Boulkroune et al. Adaptive fuzzy controller for non-affine systems with zero dynamics
Behn et al. Adaptive versus fuzzy control of uncertain mechanical systems
CN111624872A (zh) 一种基于自适应动态规划的pid控制器参数整定方法及系统
CN109814389A (zh) 参数自整定的mimo异因子紧格式无模型控制方法
CN115016273A (zh) 一种单连杆机械手臂的预定义时间稳定控制方法及系统
Triwiyatno et al. A new method of robust fuzzy control: Case study of engine torque control of spark ignition engine
CN110504709B (zh) 光伏集群无功电压调控方法、终端设备及存储介质
Hanafy et al. Dynamic EvolvingNeuro Fuzzy Systems of Qualitative Process
Shah et al. On-line control of a nonlinear system using radial basis function neural networks
JP7327569B1 (ja) 情報処理装置
Gray et al. Toward the numerical design of non linear feedback systems by Zakian's method of inequalities
CN111694595B (zh) 基于误差容忍的软件行为调节方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant