CN112034715B

CN112034715B - 一种基于改进q学习算法的电机伺服系统无模型反馈控制器设计方法

Info

Publication number: CN112034715B
Application number: CN202010978195.2A
Authority: CN
Inventors: 陈剑; 徐哲壮; 陈丹; 林烨; 连岩杰
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2021-07-13
Anticipated expiration: 2040-09-17
Also published as: CN112034715A

Abstract

本发明涉及一种基于改进Q学习算法的电机伺服系统无模型反馈控制器设计方法，包括以下步骤：步骤S1：设有离散电机伺服系统

，步骤S2：针对步骤S1所述的系统给定一个初始的反馈矩阵

对系统进行控制，获得一组充分激励的数据，即由系统状态矢量

和输入信号矢量

组成的数据集；步骤S3：计算系统未知参数矩阵

；将计算所得的参数按照将

作为矩阵对角线元素得到新的反馈阵；步骤S5：根据反馈阵

，计算系统的性能指标；本发明采用岭回归代替现有算法中的最小二乘回归。由于岭回归能够处理数据集中存在的多重共线性，因此对于电机伺服系统，改进Q算法能够有效完成无模型控制器的设计。

Description

一种基于改进Q学习算法的电机伺服系统无模型反馈控制器设计方法

技术领域

本发明涉及机器学习算法领域以及电机伺服系统的无模型控制器设计领域，特别是一种基于改进Q学习算法的电机伺服系统无模型反馈控制器设计方法。

背景技术

PID控制器由于具有结构简单、参数整定方便、控制性能好和鲁棒性强等优点,一直是工业控制中应用最多的控制器。然而它的缺点也很明显，即对于被控对象的结构和参数依赖性较强。若运行过程中参数或结构发生变化，PID控制器参数无法及时随之调整，会造成控制效果变差甚至系统不稳定。因此在经典PID控制器的基础上探索它的改进形式，是控制理论和应用领域中具有重要实际意义的研究方向。

Q学习算法作为强化学习算法中的一种重要方法，被用于解决线性离散系统的二次型最优控制问题，并由此得到了一种基于采集到的数据，不依赖于被控对象数学模型的二次型最优控制器的求解方法。满足一定条件时，基于Q学习算法得出的控制器能够收敛于最优值。因此在对被控对象的数学模型存在部分不确定甚至完全未知的情况下，采用Q学习算法根据从系统中采集到的数据进行计算，得出系统的最优控制器，这类方案就被称作基于Q学习算法的无模型控制方法。

无模型控制器不依赖于对象的数学模型，根据运行过程中采集到的数据就可以计算出适当的控制器。在目前物联网应用的背景下，许多从前孤立的确定性系统在纳入物联网后会增加许多不确定性。因此无模型控制器设计方案的研究具有现实意义且将是未来控制器的发展趋势之一。

在对电机伺服系统进行无模型控制器设计的研究中，基于Q学习算法的控制器设计方案被广泛采用。该方案不需要预先知道被控对象的数学模型，只需要采集对象的运行数据，并使用Q学习算法，经过计算可得出无限趋近最优值的反馈控制器。然而在已有的方案中，并未考虑采集到的数据集中可能存在的多重共线性问题。对于工程中常见的电机伺服系统而言，采集到的数据集中存在多重共线性问题的可能性几乎是确定的，即便系统中存在各种非线性因素，比如扰动、控制器的饱和特性、元器件参数漂移等，数据集中的多重共线性特性依然明显。在现有的基于Q学习方法的二次型最优控制器设计方案中，计算过程采用了最小二乘回归，对于具有多重共线性的数据集无法完成计算过程。

发明内容

有鉴于此，本发明的目的是提供一种基于改进Q学习算法的电机伺服系统无模型反馈控制器设计方法，采用岭回归代替现有算法中的最小二乘回归。由于岭回归能够处理数据集中存在的多重共线性，因此对于电机伺服系统，改进Q算法能够有效完成无模型控制器的设计。

本发明采用以下方案实现：一种基于改进Q学习算法的电机伺服系统无模型反馈控制器设计方法，包括以下步骤：

步骤S1：提供一离散电机伺服系统x(l+1)＝Ax(l)+Bu(l)，式中x(l)表示系统状态，u(l)表示输入信号，A为n×n阶系统矩阵；B为n×p阶输入矩阵；

步骤S2：针对步骤S1所述的系统给定一个初始的反馈矩阵K₀对系统进行控制，获得一组充分激励的数据，即由系统状态矢量x(l)和输入信号矢量u(l)组成的数据集；

步骤S3：计算系统未知参数矩阵Θ(H)；

步骤S4：将计算所得的参数矩阵Θ(H)中的元素h_ij重新排列为矩阵形式，h_ii作为矩阵对角线元素，

分别作为上半和下半三角矩阵元素的顺序，重新构造矩阵

则新的反馈阵为

步骤S5：根据反馈阵K₁，计算系统的性能指标；此时的性能指标能够选取单步性能指标v(l)、选取总的性能指标V(l)或以按照需求选取其他性能指标，包括ITA和ITAE；判断系统性能是否满足计算出的性能指标小于某个预设值的要求，若满足则停止计算，新的反馈控制器为K₁，否则令K₀＝K₁，回到步骤S1，重复计算过程，直至性能指标达到要求，或达到预设最大的计算次数；若性能指标达到要求，所要计算的反馈控制器即为

进一步地，步骤S2中所述获得充分激励数据的具体内容为：

在获取数据的过程中，令系统状态x(l)具有随机初始值x(0)，共有N个采样时刻；根据随机指定的p×n维初始反馈矩阵K₀的值，采样时刻l＝N时有输入量u(N)＝K_ox(N-1)，则有x(N)＝(A+BK₀)x(N-1)；经过N个采样时刻后，得数据集

和

)。

进一步地，所述步骤S3的具体内容为：

将步骤S1中所示离散电机伺服系统在第l时刻的单步性能指标记为：v(l)＝x^T(l)Qx(l)+u^T(l)Ru(l)，其中Q＝Q^T≥0是n×n阶权系数矩阵，R＞0是p×p阶权系数矩阵；将从第l时刻起的总性能指标记为：

其中0≤γ≤1为折扣系数，该指标由当前时刻的单步性能指标以及第l时刻以后所有的性能指标依次与折扣系数指数的乘积构成；

令Q函数为Q(x(l),u(l))＝v(l)+γV(x(l+1))，该函数与第l时刻的性能指标以及第l+1时刻起总的性能指标相关，代表了系统从第l时刻起预期的性能；

由v(l)、V(l)、x(l)和u(l)的表达式可知，可将Q函数表示为：

其中

为由第l时刻的系统数据x(l)和u(l)构成，即

进而可将Q函数写为：

其中数据矩阵φ^T(l)由系统运行期间采集到的数据集

中的元素x_i(i＝1,…,n+p)构成，具体形式如下：

相应地，参数矩阵Θ(H)为矩阵Η中包含的所有未知参数，其具体形式表示为：Θ(H)＝[h₁₁ h₁₂ … h_1(n+p) h₂₂ h₂₃ … h_2(n+p) … h_(n+p)(n+p)]；根据Q函数的定义式以及Q(x(l),u(l))关于φ^T(l)和Θ(H)的表达式，得：(φ(l)-γφ(l+1))^TΘ(H)＝v(l)，v(l)即为第l时刻的单步性能指标；由于l从1到N，因此有N个如前所述的方程，将它们合并后写成：Φ^TΘ(H)＝V，其中

由于φ(l)、φ(l+1)和v(l)均为已知量，则采用基于岭回归的最小二乘法，由公式Θ(H)＝(Φ^TΦ+λI)^-1Φ^Tv计算得出系统未知参数阵Θ(H)。

进一步地，步骤S5中所述计算条件包括系统满足的性能要求、计算出的反馈阵K趋于稳定即在连续L，L≥5个计算周期内无显著变化以及达到预设最大的计算次数即最大计算次数视计算条件和精度要求而定，范围取100～1000；系统满足的性能要求包括单步性能指标v(l)，N步总性能指标V、或ITA、ITAE性能指标。

与现有技术相比，本发明具有以下有益效果：

(1)针对离散电机伺服系统，本发明能够不依赖于对象的数学模型，通过采集系统运行数据即可计算出可用的反馈控制器，即前述反馈矩阵K。

(2)本发明能够克服离散电机伺服系统运行数据集中常见的多重共线性特性，避免由此引起的病态矩阵或奇异矩阵，进而造成现有基于Q学习算法的二次型最优控制器设计方法的计算过程无法正确完成的问题。

(3)本发明所提出的方案，经反复执行，可无限趋近于二次型最优控制器的理论值。

附图说明

图1为本发明实施例的流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供一种基于改进Q学习算法的电机伺服系统在线附加控制器设计方法，包括以下步骤：

步骤S3：计算系统未知参数矩阵Θ(H)；

分别作为上半和下半三角矩阵元素的顺序，重新构造矩阵

则新的反馈阵为

在本实施例中，步骤S2中所述获得充分激励数据的具体内容为：在获取数据的过程中，令系统状态x(l)具有随机初始值x(0)，共有N个采样时刻；根据随机指定的p×n维初始反馈矩阵K₀的值，采样时刻l＝N时有输入量u(N)＝K_ox(N-1)，则有x(N)＝(A+BK₀)x(N-1)；经过N个采样时刻后，得数据集

和

)。

在本实施例中，K₀为随机值。

在本实施例中，所述步骤S3的具体内容为：

由v(l)、V(l)、x(l)和u(l)的表达式可知，可将Q函数表示为：

其中

为由第l时刻的系统数据x(l)和u(l)构成，即

进而可将Q函数写为：

其中数据矩阵φ^T(l)由系统运行期间采集到的数据集

中的元素x_i(i＝1,…,n+p)构成，具体形式如下：

在本实施例中，步骤S5中所述计算条件包括系统满足性能要求、计算出的反馈阵K趋于稳定即在连续L，L≥5个计算周期内无显著变化以及达到预设最大的计算次数即最大计算次数视计算条件和精度要求而定，范围取100～1000；系统满足的性能要求包括单步性能指标v(l)，N步总性能指标V、或ITA、ITAE性能指标。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于改进Q学习算法的电机伺服系统无模型反馈控制器设计方法，其特征在于：包括以下步骤：

步骤S1：提供一离散电机伺服系统x(l+1)＝Ax(l)+Bu(l)，式中x(l)表示系统状态矢量，u(l)表示输入信号矢量，A为n×n阶系统矩阵；B为n×p阶输入矩阵；

步骤S3：计算系统未知参数矩阵Θ(H)；

分别作为上半和下半三角矩阵元素的顺序，重新构造矩阵

则新的反馈阵为

步骤S5：根据反馈阵K₁，计算系统的性能指标；此时的性能指标能够选取单步性能指标v(l)、选取总性能指标V(l)或以按照需求选取其他性能指标，包括ITA和ITAE；判断系统性能是否满足计算出的性能指标小于某个预设值的要求，若满足则停止计算，新的反馈控制器为K₁，否则令K₀＝K₁，回到步骤S1，重复计算过程，直至性能指标达到要求，或达到预设最大的计算次数；若性能指标达到要求，所要计算的反馈控制器即为

其中，步骤S5中所述计算条件包括系统满足的性能要求、计算出的反馈阵K趋于稳定即在连续L，L≥5个计算周期内无显著变化以及达到预设最大的计算次数，最大计算次数视计算条件和精度要求而定，范围取100～1000；系统满足的性能要求包括单步性能指标v(l)，N步总性能指标V (l) 、或ITA、ITAE性能指标。

2.根据权利要求1所述的一种基于改进Q学习算法的电机伺服系统无模型反馈控制器设计方法，其特征在于：步骤S2中所述获得一组充分激励的数据的具体内容为：

和

。

3.根据权利要求1所述的一种基于改进Q学习算法的电机伺服系统无模型反馈控制器设计方法，其特征在于：所述步骤S3的具体内容为：

令Q函数为Q(x(l),u(l))＝v(l)+γV(x(l+1))，该函数与第l时刻的性能指标以及第l+1时刻起总性能指标相关，代表了系统从第l时刻起预期的性能；

由v(l)、V(l)、x(l)和u(l)的表达式可知，可将Q函数表示为：

其中

为由第l时刻的系统数据x(l)和u(l)构成，即

进而可将Q函数写为：

其中数据矩阵φ^T(l)由系统运行期间采集到的数据集

中的元素x_i(i＝1,…,n+p)构成，具体形式如下：

相应地，参数矩阵Θ(H)为矩阵Η中包含的所有未知参数，其具体形式表示为：Θ(H)＝[h₁₁ h₁₂…h_1(n+p) h₂₂ h₂₃…h_2(n+p)…h_(n+p)(n+p)]；根据Q函数的定义式以及Q(x(l),u(l))关于φ^T(l)和Θ(H)的表达式，得：(φ(l)-γφ(l+1))^TΘ(H)＝v(l)，v(l)即为第l时刻的单步性能指标；由于l从1到N，因此有N个如前所述的方程，将它们合并后写成：

Φ^TΘ(H)＝V，其中