CN114488786A

CN114488786A - 一种基于a3c和事件触发的网络化伺服系统控制方法

Info

Publication number: CN114488786A
Application number: CN202111224264.1A
Authority: CN
Inventors: 张栋辉; 张丹
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-05-13

Abstract

一种基于A3C和事件触发的网络化伺服系统控制方法，属于网络化电机控制技术领域。它包括以下步骤：1、建立网络化伺服控制系统的系统模型；2、设计考虑离散系统的事件触发策略3、基于事件触发的网络化伺服系统控制方案设计；4、控制器设计；5、强化学习A3C方案设计。本发明给出网络化伺服系统的数学模型，并使用时延系统的分析方法，提出了一个事件触发机制和状态反馈控制的闭环时延系统；导出控制器的设计方法；设计一个基于事件触发状态反馈控制算法，利用线性矩阵不等式工具箱获得控制器参数；最后，通过A3C方案的优化，设计了一个基于A3C和事件触发的动态阈值状态反馈控制算法；能够自主调节触发参数的动态事件触发策略。

Description

一种基于A3C和事件触发的网络化伺服系统控制方法

技术领域

本发明属于网络化电机控制技术领域，具体涉及一种基于A3C和事件触发的网络化伺服系统控制方法。

背景技术

近些年来，数字计算机飞速发展，已经成为了控制系统设计的重要工具，而微型处理器的发展，也为控制系统增添了新的可能。随着工业应用需求的不断扩大，网络控制系统(NCS)为实现远程控制提供了有效的方案，并且在一些工作环境存在一定危险的方向有一定的运用。与传统的点对点布线系统相比较，网络控制系统中的通信通道可以大大降低成本，简化系统结构，并具有容易调试和维护系统的优点。同时，网络控制系统由于其成本效益高，功耗要求低，可靠性高等特点，广泛地应用在各个领域中。

在网络控制系统中，网络中的通信资源和计算资源往往是有限的，传统的控制方法大多数都是采取周期触发控制方法，这种触发方式会将很多不必要的信号通过网络发送，增大通信带宽的压力，降低通信资源的利用率。为了有效地应对上述问题，D.Yue教授团队提出了基于事件触发的控制方法，其可以在保证系统性能的情况下，减少网络通信中不必要数据的传输数量。虽然事件触发机制可以提高通信资源的利用率，减小通信带宽的压力，但现有的大多数事件触发条件中的触发参数是固定不变的。这使系统在运行过程中，信号的触发频率非常机械，不会对系统中的干扰进行反应。若能使触发参数随着系统的变化而进行自动调节，系统将变得更加灵活，从而使系统能够拥有尽可能好的性能和尽可能少的触发次数。因此，设计一种能自主调节触发参数的动态事件触发策略显得尤为重要。

发明内容

针对现有技术中存在的上述问题，本发明的目的在于考虑网络控制中通信资源和计算资源受限的问题，提出一种强化学习和事件触发相结合的动态阈值控制方法。

本发明提供如下技术方案：

一种基于A3C和事件触发的网络化伺服系统控制方法，包括以下步骤；

1)建立网络化伺服控制系统的系统模型：

定义x(k)∈R^p表示系统的状态向量，u(k)∈R^m表示系统的控制输入， ω(k)∈R^q表示系统的干扰，y(k)∈R^p表示系统输出，其中p、m、q分别表示x(k)、u(k)、ω(k)的维度，A，B，F，C都是满足维数要求的系统参数矩阵，则系统模型为：

x(k+1)＝Ax(k)+Bu(k)+Fω(k)

y(k)＝Cx(k)

设计基于状态反馈信号的伺服系统控制器：

u(k)＝Kx(k)，K表示控制器增益。

2)设计考虑离散系统的事件触发策略：

在网络系统中，受到通信资源受限和长距离传输的影响，存在传输延迟τ_j，其中

为大于0的实数，应用零阶保持器，系统在事件产生器下的动态模型表示为：

其中，k_j表示系统的采样时刻，当前采样时刻的数据x(k_j)是否被发送用来更新控制器由以下的条件判断：

[x(k)-x(k_j)]^TΦ_j[x(k)-x(k_j)]

≤ε_jx^T(k)Φ_jx(k)

通过公式推导得到，延时函数为：

定义最大采样时间

得到：

其中，

3)基于事件触发的网络化伺服系统控制方案设计：

定义上一时刻与下一时刻采样时间之间状态误差为：

事件触发的判断条件可改写为：

e_k(k)^TΦ_je(k)_k≤ε_jx^T(k-d(k))Φ_jx(k-d(k))

基于事件触发的网络化伺服控制系统模型可以被描述为：

其中

表示系统的初始状态；

4)控制器设计：

给定0≤ε_j≤1，γ＞0，τ_M＞0和适当维度的矩阵 P_j＞0，Q_j＞0，R_j＞0，Z_j＞0，Φ_j＞0和K使得下列不等式成立：

则基于事件触发的网络化伺服控制系统模型在均方意义上是指数稳定的并且具有给定的H_∞性能水平γ，可得控制器增益K为：

5)强化学习A3C方案设计：

基于A3C的强化学习方法对阈值进行优化，得到在保证系统性能的情况下，触发次数较少的动态阈值。强化学习的问题通常可以转化为一个动态规划问题，所以将动态阈值问题转化为一个多维动态规划问题，并用一个五元组(S_r，A_r，P_r，λ_r，r)表示，其中，S_r设计状态空间、A_r为设计动作空间、P_r为概率转移矩阵、λ_r为设计折扣函数、r为设计奖励函数。

所述的一种基于A3C和事件触发的网络化伺服系统控制方法，所述步骤2)中，延时函数的推导过程如下：

由于网络中存在的长时延和短时延，所以，考虑两种延时情况：

2.1.、当

时，定义延时函数：

d(k)＝k-k_j，k∈[k_j+τ_j，k_j+1+τ_j+1)

可知：

2.1.、当

时，

定义两种时间间隔：

其中

l≥1，

得到：

因此，当l＝1，2，3，...d-1时，x(k_j)和x(k_j+l)满足：

[x(k_j+l)-x(k_j)]^TΦ_j[x(k_j+l)-x(k_j)]

≤ε_jx^T(k_j+l)Φ_jx(k_j+l)

定义：

得到：

通过采用上述技术，与现有技术相比，本发明的有益效果如下：

本发明给出网络化伺服系统的数学模型，并使用时延系统的分析方法，提出了一个事件触发机制和状态反馈控制的闭环时延系统；然后，利用Lyapunov理论分析系统的渐近稳定性和鲁棒性，并导出控制器的设计方法；随后，设计一个基于事件触发状态反馈控制算法，利用线性矩阵不等式工具箱获得控制器参数；最后，通过A3C方案的优化，设计了一个基于A3C和事件触发的动态阈值状态反馈控制算法；能够自主调节触发参数的动态事件触发策略。

附图说明

图1为本发明网络化事件触发伺服系统模型的结构示意图；

图2为本发明强化学习A3C方案的结构示意图；

图3为本发明伺服系统平台实验结果，横坐标表示时间，单位是秒，纵坐标表示电机的速度，单位是厘米，其中，图3-1表示：固定阈值0.01的系统性能；图3-3表示：固定阈值0.1的系统性能；图 3-5表示：经过A3C方法优化后阈值的系统性能；图3-2为图3-1的放大视图，图3-4为图3-3的放大视图，图3-6为图3-5的放大视图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合说明书附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参照图1～图2，一种基于A3C和事件触发的动态阈值伺服系统控制方案设计，包括以下步骤：

1)建立网络化伺服控制系统的系统模型：

定义x(k)∈R^p表示系统的状态向量，u(k)∈R^m表示系统的控制输入， ω(k)∈R^q表示系统的干扰，y(k)∈R^p表示系统输出，其中p、m、q分别表示x(k)、u(k)、ω(k)，A，B，F，C都是满足维数要求的系统参数矩阵，则系统模型为：

设计基于状态反馈信号的伺服系统控制器：

u(k)＝Kx(k)

2)设计考虑离散系统的事件触发策略：

为大于0的实数。应用零阶保持器，系统在事件产生器下的动态模型表示为：

其中，k_j表示系统的采样时刻。当前采样时刻的数据x(k_j)是否被发送用来更新控制器由以下的条件判断：

情况1、当

时，定义延时函数：

d(k)＝k-k_j，k∈[k_j+τ_j，k_j+1+τ_j+1) (4)

可知：

情况2、当

时，定义两种时间见间隔：

其中

l≥1，

得到：

因此，x(k_j)和x(k_j+l)当l＝1，2，3，...d-1时，满足：

定义：

得到：

定义最大采样时间

得到：

3)基于事件触发的网络化伺服系统控制方案设计：

根据公式(9)，定义：

结合公式(10)和公式(12)，事件触发的判断条件可改写为：

e_k(k)^TΦ_je(k)_k≤ε_jx^T(k-d(k))Φ_jx(k-d(k)) (13)

根据公式(2)，(10)和(12)，基于事件触发的网络化伺服控制系统模型可以被描述为；

其中

表示系统的初始状态。

4)控制器设计：

若存在给定的正数0≤ε_j≤1，γ＞0，τ_M＞0和适当维度的矩阵 P_j＞0，Q_j＞0，R_j＞0，Z_j＞0，Φ_j＞0和K使得下列不等式成立：

则系统模型公式(14)在均方意义上是指数稳定的并且具有给定的H_∞性能水平γ，可得控制器增益K为：

5)强化学习A3C方案设计：

基于A3C的强化学习方法对阈值进行优化，得到在保证系统性能的情况下，触发次数较少的动态阈值。强化学习的问题通常可以转化为一个动态规划问题，所以将动态阈值问题转化为一个多维动态规划问题，并用一个五元组(S_r，A_r，P_r，λ_r，r)表示。

5.1)设计状态空间S_r，S_r用来表示系统的状态集。为了让训练的阈值使系统能够在保持良好性能的情况下尽可能地减少触发次数，将第n段时间内触发的总数记为t_n，将这段时间内系统的平均输出值记为y_n。因此，定义s_r，n＝[X_n y_n t_n]^T，其中X_n表示第n段时间内系统的最后一次输出的状态；

5.2)设计动作空间A_r，A_r是由一组在环境中执行的Agent组成， Agent的每一次执行，都会对环境进行更新。Agent的输出是所需要的事件触发条件的阈值。对Agent进行扩张，定义a_r，n＝ε_j，n，a_r，n≤ε_j，其中ε_j，n表示第n段时间内的阈值，ε_j表示阈值的上限。将第n段时间内的阈值进行扩张处理，所以定义 a_r，n，i＝ε_j，n，i＝ε_j，n+0.001*h，h∈[-5，4]，i∈[1，2，...，10]；

5.3)概率转移矩阵P_r：S_r*A_r→Λ(S_r)表示在当前环境执行当前动作a_r，n后，下一个环境状态s_r，n+1的分布，即推导出来的基于事件触发的伺服系统状态空间方程。

5.4)设计折扣函数λ_r：λ_r的大小决定了对长期奖励的影响， λ_r∈[0，1]，其中λ_r＝0.9。

5.5)设计奖励函数r(s_r，n，a_r，n)：r(s_r，n，a_r，n)是将一组相对应的状态- 动作映射到一个标量上的函数，其表示当前动作a_r，n施加在以s_r，n为状态的当前环境后得到的即时奖励。同时使用双奖励函数，首先，在对 Agent进行扩张的情况下，计算出每一条子线程的即时奖励，定义

其中，ε_r，n，i表示第n段时间内第i条子线程最后的环境状态。并筛选出最小的奖励

定义总奖励函数，

其中s_r，n，b表示ε_j，n，i＝ε_j，n的子线程的阈值。

表示奖励为

的环境状态。r_r，b表示状态为s_r，n，b的即时奖励。

表示对触发频率和收敛速度的比重，可人为设置。

结合图3，事件触发中阈值参数选取如下所示：

通过系统辨识，伺服系统状态方程参数矩阵如下：

C_j＝[1 0]

其中，系统的采样时间T_s＝0.005s，干扰ω(k)＝sin(x(k))，选择 τ_M＝3，ε_j＝0.1，求解LMI，得到控制增益K和参数矩阵Φ_j，系统的初始状态

图3-1：固定阈值0.1。

图3-2：固定阈值0.01。

图3-3：动态阈值，以2000个采样周期为一个训练过程，通过 A3C算法，训练出最优的动态阈值。超过2000个采样后，系统已经稳定，此时的阈值都为动态阈值中第2000个阈值。定义：

训练的阈值ε₃∈[0.01，0.1]。

根据实验结果可知，从性能方面看，在固定阈值下，当阈值为 0.01时，电机速度稳定在0.1左右，当阈值为0.1时，电机速度稳定在1.3左右。根据A3C方法得到的动态阈值，电机速度稳定在0.3左右。得到结论，基于A3C算法得到的阈值与固定阈值0.01相比，电机性能相差不大，从而体现出根据A3C算法优化后的动态阈值可以使系统保持良好的性能。

在事件触发次数方面，本实验只计算前1000次采样时间内的触发次数。在固定阈值下，当阈值为0.01时，在1000次采样时间内，触发次数为100次左右，当阈值为0.1时，在1000次采样时间内，触发次数为10次左右。根据A3C算法得到的动态阈值，在1000次采样时间内，触发次数为30次左右。得出结论，基于A3C算法得到的阈值与固定阈值0.01相比，触发次数有大幅度下降。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于A3C和事件触发的网络化伺服系统控制方法，其特征在于，包括以下步骤；

1)建立网络化伺服控制系统的系统模型：

定义x(k)∈R^p表示系统的状态向量，u(k)∈R^m表示系统的控制输入，ω(k)∈R^q表示系统的干扰，y(k)∈R^p表示系统输出，其中p、m、q分别表示x(k)、u(k)、ω(k)的维度，A，B，F，C都是满足维数要求的系统参数矩阵，则系统模型为：

x(k+1)＝Ax(k)+Bu(k)+Fω(k)

y(k)＝Cx(k)

设计基于状态反馈信号的伺服系统控制器：

u(k)＝Kx(k)，K表示控制器增益；

2)设计考虑离散系统的事件触发策略：

其中，Φ_j为正定矩阵，然后通过公式推导得到延时函数为：

定义最大采样时间

得到：

其中，

3)基于事件触发的网络化伺服系统控制方案设计：

定义上一时刻与下一时刻采样时间之间状态误差为：

事件触发的判断条件可改写为：

e_k(k)^TΦ_je(k)_k≤ε_jx^T(k-d(k))Φ_jx(k-d(k))

基于事件触发的网络化伺服控制系统模型可以被描述为：

其中

表示系统的初始状态；

4)控制器设计：

给定0≤ε_j≤1，γ＞0，τ_M＞0和适当维度的矩阵P_j＞0，Q_j＞0，R_j＞0，Z_j＞0，Φ_j＞0和K使得下列不等式成立：

则基于事件触发的网络化伺服控制系统模型为在均方意义上是指数稳定的并且具有给定的H_∞性能水平γ，可得控制器增益K：

5)强化学习A3C方案设计：

基于A3C的强化学习方法对阈值进行优化，得到在保证系统性能的情况下，触发次数较少的动态阈值，强化学习的问题通常可以转化为一个动态规划问题，所以将动态阈值问题转化为一个多维动态规划问题，并用一个五元组(S_r，A_r，P_r，λ_r，r)表示，其中，S_r设计状态空间、A_r为设计动作空间、P_r为概率转移矩阵、λ_r为设计折扣函数、r为设计奖励函数。

2.根据权利要求1所述的一种基于A3C和事件触发的网络化伺服系统控制方法，其特征在于所述步骤2)中，延时函数的推导过程如下：

2.1.、当