CN112034715B - 一种基于改进q学习算法的电机伺服系统无模型反馈控制器设计方法 - Google Patents
一种基于改进q学习算法的电机伺服系统无模型反馈控制器设计方法 Download PDFInfo
- Publication number
- CN112034715B CN112034715B CN202010978195.2A CN202010978195A CN112034715B CN 112034715 B CN112034715 B CN 112034715B CN 202010978195 A CN202010978195 A CN 202010978195A CN 112034715 B CN112034715 B CN 112034715B
- Authority
- CN
- China
- Prior art keywords
- matrix
- performance
- performance index
- phi
- motor servo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Electric Motors In General (AREA)
Abstract
Description
技术领域
本发明涉及机器学习算法领域以及电机伺服系统的无模型控制器设计领域,特别是一种基于改进Q学习算法的电机伺服系统无模型反馈控制器设计方法。
背景技术
PID控制器由于具有结构简单、参数整定方便、控制性能好和鲁棒性强等优点,一直是工业控制中应用最多的控制器。然而它的缺点也很明显,即对于被控对象的结构和参数依赖性较强。若运行过程中参数或结构发生变化,PID控制器参数无法及时随之调整,会造成控制效果变差甚至系统不稳定。因此在经典PID控制器的基础上探索它的改进形式,是控制理论和应用领域中具有重要实际意义的研究方向。
Q学习算法作为强化学习算法中的一种重要方法,被用于解决线性离散系统的二次型最优控制问题,并由此得到了一种基于采集到的数据,不依赖于被控对象数学模型的二次型最优控制器的求解方法。满足一定条件时,基于Q学习算法得出的控制器能够收敛于最优值。因此在对被控对象的数学模型存在部分不确定甚至完全未知的情况下,采用Q学习算法根据从系统中采集到的数据进行计算,得出系统的最优控制器,这类方案就被称作基于Q学习算法的无模型控制方法。
无模型控制器不依赖于对象的数学模型,根据运行过程中采集到的数据就可以计算出适当的控制器。在目前物联网应用的背景下,许多从前孤立的确定性系统在纳入物联网后会增加许多不确定性。因此无模型控制器设计方案的研究具有现实意义且将是未来控制器的发展趋势之一。
在对电机伺服系统进行无模型控制器设计的研究中,基于Q学习算法的控制器设计方案被广泛采用。该方案不需要预先知道被控对象的数学模型,只需要采集对象的运行数据,并使用Q学习算法,经过计算可得出无限趋近最优值的反馈控制器。然而在已有的方案中,并未考虑采集到的数据集中可能存在的多重共线性问题。对于工程中常见的电机伺服系统而言,采集到的数据集中存在多重共线性问题的可能性几乎是确定的,即便系统中存在各种非线性因素,比如扰动、控制器的饱和特性、元器件参数漂移等,数据集中的多重共线性特性依然明显。在现有的基于Q学习方法的二次型最优控制器设计方案中,计算过程采用了最小二乘回归,对于具有多重共线性的数据集无法完成计算过程。
发明内容
有鉴于此,本发明的目的是提供一种基于改进Q学习算法的电机伺服系统无模型反馈控制器设计方法,采用岭回归代替现有算法中的最小二乘回归。由于岭回归能够处理数据集中存在的多重共线性,因此对于电机伺服系统,改进Q算法能够有效完成无模型控制器的设计。
本发明采用以下方案实现:一种基于改进Q学习算法的电机伺服系统无模型反馈控制器设计方法,包括以下步骤:
步骤S1:提供一离散电机伺服系统x(l+1)=Ax(l)+Bu(l),式中x(l)表示系统状态,u(l)表示输入信号,A为n×n阶系统矩阵;B为n×p阶输入矩阵;
步骤S2:针对步骤S1所述的系统给定一个初始的反馈矩阵K0对系统进行控制,获得一组充分激励的数据,即由系统状态矢量x(l)和输入信号矢量u(l)组成的数据集;
步骤S3:计算系统未知参数矩阵Θ(H);
步骤S5:根据反馈阵K1,计算系统的性能指标;此时的性能指标能够选取单步性能指标v(l)、选取总的性能指标V(l)或以按照需求选取其他性能指标,包括ITA和ITAE;判断系统性能是否满足计算出的性能指标小于某个预设值的要求,若满足则停止计算,新的反馈控制器为K1,否则令K0=K1,回到步骤S1,重复计算过程,直至性能指标达到要求,或达到预设最大的计算次数;若性能指标达到要求,所要计算的反馈控制器即为
进一步地,步骤S2中所述获得充分激励数据的具体内容为:
在获取数据的过程中,令系统状态x(l)具有随机初始值x(0),共有N个采样时刻;根据随机指定的p×n维初始反馈矩阵K0的值,采样时刻l=N时有输入量u(N)=Kox(N-1),则有x(N)=(A+BK0)x(N-1);经过N个采样时刻后,得数据集和)。
进一步地,所述步骤S3的具体内容为:
将步骤S1中所示离散电机伺服系统在第l时刻的单步性能指标记为:v(l)=xT(l)Qx(l)+uT(l)Ru(l),其中Q=QT≥0是n×n阶权系数矩阵,R>0是p×p阶权系数矩阵;将从第l时刻起的总性能指标记为:其中0≤γ≤1为折扣系数,该指标由当前时刻的单步性能指标以及第l时刻以后所有的性能指标依次与折扣系数指数的乘积构成;
令Q函数为Q(x(l),u(l))=v(l)+γV(x(l+1)),该函数与第l时刻的性能指标以及第l+1时刻起总的性能指标相关,代表了系统从第l时刻起预期的性能;
由v(l)、V(l)、x(l)和u(l)的表达式可知,可将Q函数表示为:其中为由第l时刻的系统数据x(l)和u(l)构成,即进而可将Q函数写为:其中数据矩阵φT(l)由系统运行期间采集到的数据集中的元素xi(i=1,…,n+p)构成,具体形式如下:
相应地,参数矩阵Θ(H)为矩阵Η中包含的所有未知参数,其具体形式表示为:Θ(H)=[h11 h12 … h1(n+p) h22 h23 … h2(n+p) … h(n+p)(n+p)];根据Q函数的定义式以及Q(x(l),u(l))关于φT(l)和Θ(H)的表达式,得:(φ(l)-γφ(l+1))TΘ(H)=v(l),v(l)即为第l时刻的单步性能指标;由于l从1到N,因此有N个如前所述的方程,将它们合并后写成:ΦTΘ(H)=V,其中
由于φ(l)、φ(l+1)和v(l)均为已知量,则采用基于岭回归的最小二乘法,由公式Θ(H)=(ΦTΦ+λI)-1ΦTv计算得出系统未知参数阵Θ(H)。
进一步地,步骤S5中所述计算条件包括系统满足的性能要求、计算出的反馈阵K趋于稳定即在连续L,L≥5个计算周期内无显著变化以及达到预设最大的计算次数即最大计算次数视计算条件和精度要求而定,范围取100~1000;系统满足的性能要求包括单步性能指标v(l),N步总性能指标V、或ITA、ITAE性能指标。
与现有技术相比,本发明具有以下有益效果:
(1)针对离散电机伺服系统,本发明能够不依赖于对象的数学模型,通过采集系统运行数据即可计算出可用的反馈控制器,即前述反馈矩阵K。
(2)本发明能够克服离散电机伺服系统运行数据集中常见的多重共线性特性,避免由此引起的病态矩阵或奇异矩阵,进而造成现有基于Q学习算法的二次型最优控制器设计方法的计算过程无法正确完成的问题。
(3)本发明所提出的方案,经反复执行,可无限趋近于二次型最优控制器的理论值。
附图说明
图1为本发明实施例的流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供一种基于改进Q学习算法的电机伺服系统在线附加控制器设计方法,包括以下步骤:
步骤S1:提供一离散电机伺服系统x(l+1)=Ax(l)+Bu(l),式中x(l)表示系统状态,u(l)表示输入信号,A为n×n阶系统矩阵;B为n×p阶输入矩阵;
步骤S2:针对步骤S1所述的系统给定一个初始的反馈矩阵K0对系统进行控制,获得一组充分激励的数据,即由系统状态矢量x(l)和输入信号矢量u(l)组成的数据集;
步骤S3:计算系统未知参数矩阵Θ(H);
步骤S5:根据反馈阵K1,计算系统的性能指标;此时的性能指标能够选取单步性能指标v(l)、选取总的性能指标V(l)或以按照需求选取其他性能指标,包括ITA和ITAE;判断系统性能是否满足计算出的性能指标小于某个预设值的要求,若满足则停止计算,新的反馈控制器为K1,否则令K0=K1,回到步骤S1,重复计算过程,直至性能指标达到要求,或达到预设最大的计算次数;若性能指标达到要求,所要计算的反馈控制器即为
在本实施例中,步骤S2中所述获得充分激励数据的具体内容为:在获取数据的过程中,令系统状态x(l)具有随机初始值x(0),共有N个采样时刻;根据随机指定的p×n维初始反馈矩阵K0的值,采样时刻l=N时有输入量u(N)=Kox(N-1),则有x(N)=(A+BK0)x(N-1);经过N个采样时刻后,得数据集和)。
在本实施例中,K0为随机值。
在本实施例中,所述步骤S3的具体内容为:
将步骤S1中所示离散电机伺服系统在第l时刻的单步性能指标记为:v(l)=xT(l)Qx(l)+uT(l)Ru(l),其中Q=QT≥0是n×n阶权系数矩阵,R>0是p×p阶权系数矩阵;将从第l时刻起的总性能指标记为:其中0≤γ≤1为折扣系数,该指标由当前时刻的单步性能指标以及第l时刻以后所有的性能指标依次与折扣系数指数的乘积构成;
令Q函数为Q(x(l),u(l))=v(l)+γV(x(l+1)),该函数与第l时刻的性能指标以及第l+1时刻起总的性能指标相关,代表了系统从第l时刻起预期的性能;
由v(l)、V(l)、x(l)和u(l)的表达式可知,可将Q函数表示为:其中为由第l时刻的系统数据x(l)和u(l)构成,即进而可将Q函数写为:其中数据矩阵φT(l)由系统运行期间采集到的数据集中的元素xi(i=1,…,n+p)构成,具体形式如下:
相应地,参数矩阵Θ(H)为矩阵Η中包含的所有未知参数,其具体形式表示为:Θ(H)=[h11 h12 … h1(n+p) h22 h23 … h2(n+p) … h(n+p)(n+p)];根据Q函数的定义式以及Q(x(l),u(l))关于φT(l)和Θ(H)的表达式,得:(φ(l)-γφ(l+1))TΘ(H)=v(l),v(l)即为第l时刻的单步性能指标;由于l从1到N,因此有N个如前所述的方程,将它们合并后写成:ΦTΘ(H)=V,其中
由于φ(l)、φ(l+1)和v(l)均为已知量,则采用基于岭回归的最小二乘法,由公式Θ(H)=(ΦTΦ+λI)-1ΦTv计算得出系统未知参数阵Θ(H)。
在本实施例中,步骤S5中所述计算条件包括系统满足性能要求、计算出的反馈阵K趋于稳定即在连续L,L≥5个计算周期内无显著变化以及达到预设最大的计算次数即最大计算次数视计算条件和精度要求而定,范围取100~1000;系统满足的性能要求包括单步性能指标v(l),N步总性能指标V、或ITA、ITAE性能指标。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (3)
1.一种基于改进Q学习算法的电机伺服系统无模型反馈控制器设计方法,其特征在于:包括以下步骤:
步骤S1:提供一离散电机伺服系统x(l+1)=Ax(l)+Bu(l),式中x(l)表示系统状态矢量,u(l)表示输入信号矢量,A为n×n阶系统矩阵;B为n×p阶输入矩阵;
步骤S2:针对步骤S1所述的系统给定一个初始的反馈矩阵K0对系统进行控制,获得一组充分激励的数据,即由系统状态矢量x(l)和输入信号矢量u(l)组成的数据集;
步骤S3:计算系统未知参数矩阵Θ(H);
步骤S5:根据反馈阵K1,计算系统的性能指标;此时的性能指标能够选取单步性能指标v(l)、选取总性能指标V(l)或以按照需求选取其他性能指标,包括ITA和ITAE;判断系统性能是否满足计算出的性能指标小于某个预设值的要求,若满足则停止计算,新的反馈控制器为K1,否则令K0=K1,回到步骤S1,重复计算过程,直至性能指标达到要求,或达到预设最大的计算次数;若性能指标达到要求,所要计算的反馈控制器即为
其中,步骤S5中所述计算条件包括系统满足的性能要求、计算出的反馈阵K趋于稳定即在连续L,L≥5个计算周期内无显著变化以及达到预设最大的计算次数, 最大计算次数视计算条件和精度要求而定,范围取100~1000;系统满足的性能要求包括单步性能指标v(l),N步总性能指标V (l) 、或ITA、ITAE性能指标。
3.根据权利要求1所述的一种基于改进Q学习算法的电机伺服系统无模型反馈控制器设计方法,其特征在于:所述步骤S3的具体内容为:
将步骤S1中所示离散电机伺服系统在第l时刻的单步性能指标记为:v(l)=xT(l)Qx(l)+uT(l)Ru(l),其中Q=QT≥0是n×n阶权系数矩阵,R>0是p×p阶权系数矩阵;将从第l时刻起的总性能指标记为:其中0≤γ≤1为折扣系数,该指标由当前时刻的单步性能指标以及第l时刻以后所有的性能指标依次与折扣系数指数的乘积构成;
令Q函数为Q(x(l),u(l))=v(l)+γV(x(l+1)),该函数与第l时刻的性能指标以及第l+1时刻起总性能指标相关,代表了系统从第l时刻起预期的性能;
由v(l)、V(l)、x(l)和u(l)的表达式可知,可将Q函数表示为:其中为由第l时刻的系统数据x(l)和u(l)构成,即进而可将Q函数写为:其中数据矩阵φT(l)由系统运行期间采集到的数据集中的元素xi(i=1,…,n+p)构成,具体形式如下:
相应地,参数矩阵Θ(H)为矩阵Η中包含的所有未知参数,其具体形式表示为:Θ(H)=[h11 h12…h1(n+p) h22 h23…h2(n+p)…h(n+p)(n+p)];根据Q函数的定义式以及Q(x(l),u(l))关于φT(l)和Θ(H)的表达式,得:(φ(l)-γφ(l+1))TΘ(H)=v(l),v(l)即为第l时刻的单步性能指标;由于l从1到N,因此有N个如前所述的方程,将它们合并后写成:
由于φ(l)、φ(l+1)和v(l)均为已知量,则采用基于岭回归的最小二乘法,由公式Θ(H)=(ΦTΦ+λI)-1ΦTv计算得出系统未知参数阵Θ(H)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010978195.2A CN112034715B (zh) | 2020-09-17 | 2020-09-17 | 一种基于改进q学习算法的电机伺服系统无模型反馈控制器设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010978195.2A CN112034715B (zh) | 2020-09-17 | 2020-09-17 | 一种基于改进q学习算法的电机伺服系统无模型反馈控制器设计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112034715A CN112034715A (zh) | 2020-12-04 |
CN112034715B true CN112034715B (zh) | 2021-07-13 |
Family
ID=73589588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010978195.2A Active CN112034715B (zh) | 2020-09-17 | 2020-09-17 | 一种基于改进q学习算法的电机伺服系统无模型反馈控制器设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112034715B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109946975A (zh) * | 2019-04-12 | 2019-06-28 | 北京理工大学 | 一种未知伺服系统的强化学习最优跟踪控制方法 |
DE102019209104A1 (de) * | 2018-06-28 | 2020-01-02 | Fanuc Corporation | Ausgabevorrichtung, Steuervorrichtung und Ausgabeverfahren für einen Bewertungsfunktionswert |
CN111526527A (zh) * | 2020-04-17 | 2020-08-11 | 东南大学 | 一种无线通信中性能切换与用户服务质量联合优化方法 |
CN111665718A (zh) * | 2020-06-05 | 2020-09-15 | 长春工业大学 | 一种基于q学习算法的对角递归神经网络控制策略 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6856591B2 (ja) * | 2018-09-11 | 2021-04-07 | ファナック株式会社 | 制御装置、cnc装置及び制御装置の制御方法 |
-
2020
- 2020-09-17 CN CN202010978195.2A patent/CN112034715B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102019209104A1 (de) * | 2018-06-28 | 2020-01-02 | Fanuc Corporation | Ausgabevorrichtung, Steuervorrichtung und Ausgabeverfahren für einen Bewertungsfunktionswert |
CN109946975A (zh) * | 2019-04-12 | 2019-06-28 | 北京理工大学 | 一种未知伺服系统的强化学习最优跟踪控制方法 |
CN111526527A (zh) * | 2020-04-17 | 2020-08-11 | 东南大学 | 一种无线通信中性能切换与用户服务质量联合优化方法 |
CN111665718A (zh) * | 2020-06-05 | 2020-09-15 | 长春工业大学 | 一种基于q学习算法的对角递归神经网络控制策略 |
Non-Patent Citations (2)
Title |
---|
Output Feedback Reinforcement Q-learning for Optimal Quadratic Tracking Control of Unknown Discrete-Time Linear Systems and Its Application;Guangyue Zhao等;《2018 15th International Conference on Control, Automation, Robotics and Vision》;20181121;第750-755页 * |
基于在线附加Q学习的伺服电机速度最优跟踪控制方法;邹晓敏等;《电工技术学报》;20190331;第34卷(第5期);第917-923页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112034715A (zh) | 2020-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ding et al. | Projective synchronization of nonidentical fractional-order neural networks based on sliding mode controller | |
Seer et al. | Stabilization and PID tuning algorithms for second-order unstable processes with time-delays | |
Chen | Stability analysis and robustness design of nonlinear systems: an NN-based approach | |
Li et al. | Finite-time synchronization for competitive neural networks with mixed delays and non-identical perturbations | |
CN108008627B (zh) | 一种并行优化的强化学习自适应pid控制方法 | |
CN103439887B (zh) | 低阶系统itae最优的pi控制器参数整定方法及系统 | |
CN114047706B (zh) | 面向可重入工业制造系统的模糊动态积分滑模控制方法 | |
CN109634108A (zh) | 参数自整定的mimo异因子全格式无模型控制方法 | |
CN112051734A (zh) | 一种基于确定学习的轮式移动机器人事件触发跟踪控制方法 | |
CN115167102A (zh) | 一种基于并行优势动作评价的强化学习自适应pid控制方法 | |
CN112034715B (zh) | 一种基于改进q学习算法的电机伺服系统无模型反馈控制器设计方法 | |
CN111399376B (zh) | 一种t-s模糊系统的二维重复控制器设计优化方法 | |
CN109782586A (zh) | 参数自整定的miso异因子紧格式无模型控制方法 | |
Boulkroune et al. | Adaptive fuzzy controller for non-affine systems with zero dynamics | |
Behn et al. | Adaptive versus fuzzy control of uncertain mechanical systems | |
CN111624872A (zh) | 一种基于自适应动态规划的pid控制器参数整定方法及系统 | |
CN109814389A (zh) | 参数自整定的mimo异因子紧格式无模型控制方法 | |
CN115016273A (zh) | 一种单连杆机械手臂的预定义时间稳定控制方法及系统 | |
Triwiyatno et al. | A new method of robust fuzzy control: Case study of engine torque control of spark ignition engine | |
CN110504709B (zh) | 光伏集群无功电压调控方法、终端设备及存储介质 | |
Hanafy et al. | Dynamic EvolvingNeuro Fuzzy Systems of Qualitative Process | |
Shah et al. | On-line control of a nonlinear system using radial basis function neural networks | |
JP7327569B1 (ja) | 情報処理装置 | |
Gray et al. | Toward the numerical design of non linear feedback systems by Zakian's method of inequalities | |
CN111694595B (zh) | 基于误差容忍的软件行为调节方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |