CN114488786A - 一种基于a3c和事件触发的网络化伺服系统控制方法 - Google Patents
一种基于a3c和事件触发的网络化伺服系统控制方法 Download PDFInfo
- Publication number
- CN114488786A CN114488786A CN202111224264.1A CN202111224264A CN114488786A CN 114488786 A CN114488786 A CN 114488786A CN 202111224264 A CN202111224264 A CN 202111224264A CN 114488786 A CN114488786 A CN 114488786A
- Authority
- CN
- China
- Prior art keywords
- networked
- event
- designing
- servo
- controller
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
一种基于A3C和事件触发的网络化伺服系统控制方法,属于网络化电机控制技术领域。它包括以下步骤:1、建立网络化伺服控制系统的系统模型;2、设计考虑离散系统的事件触发策略3、基于事件触发的网络化伺服系统控制方案设计;4、控制器设计;5、强化学习A3C方案设计。本发明给出网络化伺服系统的数学模型,并使用时延系统的分析方法,提出了一个事件触发机制和状态反馈控制的闭环时延系统;导出控制器的设计方法;设计一个基于事件触发状态反馈控制算法,利用线性矩阵不等式工具箱获得控制器参数;最后,通过A3C方案的优化,设计了一个基于A3C和事件触发的动态阈值状态反馈控制算法;能够自主调节触发参数的动态事件触发策略。
Description
技术领域
本发明属于网络化电机控制技术领域,具体涉及一种基于A3C和 事件触发的网络化伺服系统控制方法。
背景技术
近些年来,数字计算机飞速发展,已经成为了控制系统设计的重 要工具,而微型处理器的发展,也为控制系统增添了新的可能。随着 工业应用需求的不断扩大,网络控制系统(NCS)为实现远程控制提 供了有效的方案,并且在一些工作环境存在一定危险的方向有一定的 运用。与传统的点对点布线系统相比较,网络控制系统中的通信通道 可以大大降低成本,简化系统结构,并具有容易调试和维护系统的优 点。同时,网络控制系统由于其成本效益高,功耗要求低,可靠性高 等特点,广泛地应用在各个领域中。
在网络控制系统中,网络中的通信资源和计算资源往往是有限的, 传统的控制方法大多数都是采取周期触发控制方法,这种触发方式会 将很多不必要的信号通过网络发送,增大通信带宽的压力,降低通信 资源的利用率。为了有效地应对上述问题,D.Yue教授团队提出了基 于事件触发的控制方法,其可以在保证系统性能的情况下,减少网络 通信中不必要数据的传输数量。虽然事件触发机制可以提高通信资源 的利用率,减小通信带宽的压力,但现有的大多数事件触发条件中的 触发参数是固定不变的。这使系统在运行过程中,信号的触发频率非 常机械,不会对系统中的干扰进行反应。若能使触发参数随着系统的 变化而进行自动调节,系统将变得更加灵活,从而使系统能够拥有尽 可能好的性能和尽可能少的触发次数。因此,设计一种能自主调节触 发参数的动态事件触发策略显得尤为重要。
发明内容
针对现有技术中存在的上述问题,本发明的目的在于考虑网络控 制中通信资源和计算资源受限的问题,提出一种强化学习和事件触发 相结合的动态阈值控制方法。
本发明提供如下技术方案:
一种基于A3C和事件触发的网络化伺服系统控制方法,包括以下 步骤;
1)建立网络化伺服控制系统的系统模型:
定义x(k)∈Rp表示系统的状态向量,u(k)∈Rm表示系统的控制输入, ω(k)∈Rq表示系统的干扰,y(k)∈Rp表示系统输出,其中p、m、q分 别表示x(k)、u(k)、ω(k)的维度,A,B,F,C都是满足维数要求的系统 参数矩阵,则系统模型为:
x(k+1)=Ax(k)+Bu(k)+Fω(k)
y(k)=Cx(k)
设计基于状态反馈信号的伺服系统控制器:
u(k)=Kx(k),K表示控制器增益。
2)设计考虑离散系统的事件触发策略:
其中,kj表示系统的采样时刻,当前采样时刻的数据x(kj)是否被 发送用来更新控制器由以下的条件判断:
[x(k)-x(kj)]TΦj[x(k)-x(kj)]
≤εjxT(k)Φjx(k)
通过公式推导得到,延时函数为:
其中,
3)基于事件触发的网络化伺服系统控制方案设计:
定义上一时刻与下一时刻采样时间之间状态误差为:
事件触发的判断条件可改写为:
ek(k)TΦje(k)k≤εjxT(k-d(k))Φjx(k-d(k))
基于事件触发的网络化伺服控制系统模型可以被描述为:
4)控制器设计:
给定0≤εj≤1,γ>0,τM>0和适当维度的矩阵 Pj>0,Qj>0,Rj>0,Zj>0,Φj>0和K使得下列不等式成立:
则基于事件触发的网络化伺服控制系统模型在均方意义上是指 数稳定的并且具有给定的H∞性能水平γ,可得控制器增益K为:
5)强化学习A3C方案设计:
基于A3C的强化学习方法对阈值进行优化,得到在保证系统性能 的情况下,触发次数较少的动态阈值。强化学习的问题通常可以转化 为一个动态规划问题,所以将动态阈值问题转化为一个多维动态规划 问题,并用一个五元组(Sr,Ar,Pr,λr,r)表示,其中,Sr设计状态空间、Ar为设计动作空间、Pr为概率转移矩阵、λr为设计折扣函数、r为设计 奖励函数。
所述的一种基于A3C和事件触发的网络化伺服系统控制方法,所 述步骤2)中,延时函数的推导过程如下:
由于网络中存在的长时延和短时延,所以,考虑两种延时情况:
d(k)=k-kj,k∈[kj+τj,kj+1+τj+1)
可知:
定义两种时间间隔:
因此,当l=1,2,3,...d-1时,x(kj)和x(kj+l)满足:
[x(kj+l)-x(kj)]TΦj[x(kj+l)-x(kj)]
≤εjxT(kj+l)Φjx(kj+l)
定义:
得到:
通过采用上述技术,与现有技术相比,本发明的有益效果如下:
本发明给出网络化伺服系统的数学模型,并使用时延系统的分析 方法,提出了一个事件触发机制和状态反馈控制的闭环时延系统;然 后,利用Lyapunov理论分析系统的渐近稳定性和鲁棒性,并导出控 制器的设计方法;随后,设计一个基于事件触发状态反馈控制算法, 利用线性矩阵不等式工具箱获得控制器参数;最后,通过A3C方案的 优化,设计了一个基于A3C和事件触发的动态阈值状态反馈控制算法; 能够自主调节触发参数的动态事件触发策略。
附图说明
图1为本发明网络化事件触发伺服系统模型的结构示意图;
图2为本发明强化学习A3C方案的结构示意图;
图3为本发明伺服系统平台实验结果,横坐标表示时间,单位是 秒,纵坐标表示电机的速度,单位是厘米,其中,图3-1表示:固定 阈值0.01的系统性能;图3-3表示:固定阈值0.1的系统性能;图 3-5表示:经过A3C方法优化后阈值的系统性能;图3-2为图3-1的 放大视图,图3-4为图3-3的放大视图,图3-6为图3-5的放大视图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合 说明书附图及实施例,对本发明进行进一步详细说明。应当理解,此 处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围 上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发 明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特 定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可 以完全理解本发明。
参照图1~图2,一种基于A3C和事件触发的动态阈值伺服系统控 制方案设计,包括以下步骤:
1)建立网络化伺服控制系统的系统模型:
定义x(k)∈Rp表示系统的状态向量,u(k)∈Rm表示系统的控制输入, ω(k)∈Rq表示系统的干扰,y(k)∈Rp表示系统输出,其中p、m、q分 别表示x(k)、u(k)、ω(k),A,B,F,C都是满足维数要求的系统参数 矩阵,则系统模型为:
设计基于状态反馈信号的伺服系统控制器:
u(k)=Kx(k)
2)设计考虑离散系统的事件触发策略:
其中,kj表示系统的采样时刻。当前采样时刻的数据x(kj)是否被 发送用来更新控制器由以下的条件判断:
由于网络中存在的长时延和短时延,所以,考虑两种延时情况:
d(k)=k-kj,k∈[kj+τj,kj+1+τj+1) (4)
可知:
因此,x(kj)和x(kj+l)当l=1,2,3,...d-1时,满足:
定义:
得到:
3)基于事件触发的网络化伺服系统控制方案设计:
根据公式(9),定义:
结合公式(10)和公式(12),事件触发的判断条件可改写为:
ek(k)TΦje(k)k≤εjxT(k-d(k))Φjx(k-d(k)) (13)
根据公式(2),(10)和(12),基于事件触发的网络化伺服控制 系统模型可以被描述为;
4)控制器设计:
若存在给定的正数0≤εj≤1,γ>0,τM>0和适当维度的矩阵 Pj>0,Qj>0,Rj>0,Zj>0,Φj>0和K使得下列不等式成立:
则系统模型公式(14)在均方意义上是指数稳定的并且具有给定 的H∞性能水平γ,可得控制器增益K为:
5)强化学习A3C方案设计:
基于A3C的强化学习方法对阈值进行优化,得到在保证系统性能 的情况下,触发次数较少的动态阈值。强化学习的问题通常可以转化 为一个动态规划问题,所以将动态阈值问题转化为一个多维动态规划 问题,并用一个五元组(Sr,Ar,Pr,λr,r)表示。
5.1)设计状态空间Sr,Sr用来表示系统的状态集。为了让训练 的阈值使系统能够在保持良好性能的情况下尽可能地减少触发次数, 将第n段时间内触发的总数记为tn,将这段时间内系统的平均输出值 记为yn。因此,定义sr,n=[Xn yn tn]T,其中Xn表示第n段时间内系统 的最后一次输出的状态;
5.2)设计动作空间Ar,Ar是由一组在环境中执行的Agent组成, Agent的每一次执行,都会对环境进行更新。Agent的输出是所需要 的事件触发条件的阈值。对Agent进行扩张,定义ar,n=εj,n,ar,n≤εj, 其中εj,n表示第n段时间内的阈值,εj表示阈值的上限。将第n段时 间内的阈值进行扩张处理,所以定义 ar,n,i=εj,n,i=εj,n+0.001*h,h∈[-5,4],i∈[1,2,...,10];
5.3)概率转移矩阵Pr:Sr*Ar→Λ(Sr)表示在当前环境执行当前动 作ar,n后,下一个环境状态sr,n+1的分布,即推导出来的基于事件触发的 伺服系统状态空间方程。
5.4)设计折扣函数λr:λr的大小决定了对长期奖励的影响, λr∈[0,1],其中λr=0.9。
5.5)设计奖励函数r(sr,n,ar,n):r(sr,n,ar,n)是将一组相对应的状态- 动作映射到一个标量上的函数,其表示当前动作ar,n施加在以sr,n为状 态的当前环境后得到的即时奖励。同时使用双奖励函数,首先,在对 Agent进行扩张的情况下,计算出每一条子线程的即时奖励,定义 其中,εr,n,i表示第n段时间内第i条子线程最后 的环境状态。并筛选出最小的奖励定义总奖励 函数,
结合图3,事件触发中阈值参数选取如下所示:
通过系统辨识,伺服系统状态方程参数矩阵如下:
图3-1:固定阈值0.1。
图3-2:固定阈值0.01。
图3-3:动态阈值,以2000个采样周期为一个训练过程,通过 A3C算法,训练出最优的动态阈值。超过2000个采样后,系统已经 稳定,此时的阈值都为动态阈值中第2000个阈值。定义:
训练的阈值ε3∈[0.01,0.1]。
根据实验结果可知,从性能方面看,在固定阈值下,当阈值为 0.01时,电机速度稳定在0.1左右,当阈值为0.1时,电机速度稳定 在1.3左右。根据A3C方法得到的动态阈值,电机速度稳定在0.3左 右。得到结论,基于A3C算法得到的阈值与固定阈值0.01相比,电 机性能相差不大,从而体现出根据A3C算法优化后的动态阈值可以 使系统保持良好的性能。
在事件触发次数方面,本实验只计算前1000次采样时间内的触 发次数。在固定阈值下,当阈值为0.01时,在1000次采样时间内, 触发次数为100次左右,当阈值为0.1时,在1000次采样时间内, 触发次数为10次左右。根据A3C算法得到的动态阈值,在1000次 采样时间内,触发次数为30次左右。得出结论,基于A3C算法得到 的阈值与固定阈值0.01相比,触发次数有大幅度下降。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明, 凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等, 均应包含在本发明的保护范围之内。
Claims (2)
1.一种基于A3C和事件触发的网络化伺服系统控制方法,其特征在于,包括以下步骤;
1)建立网络化伺服控制系统的系统模型:
定义x(k)∈Rp表示系统的状态向量,u(k)∈Rm表示系统的控制输入,ω(k)∈Rq表示系统的干扰,y(k)∈Rp表示系统输出,其中p、m、q分别表示x(k)、u(k)、ω(k)的维度,A,B,F,C都是满足维数要求的系统参数矩阵,则系统模型为:
x(k+1)=Ax(k)+Bu(k)+Fω(k)
y(k)=Cx(k)
设计基于状态反馈信号的伺服系统控制器:
u(k)=Kx(k),K表示控制器增益;
2)设计考虑离散系统的事件触发策略:
其中,kj表示系统的采样时刻,当前采样时刻的数据x(kj)是否被发送用来更新控制器由以下的条件判断:
其中,Φj为正定矩阵,然后通过公式推导得到延时函数为:
其中,
3)基于事件触发的网络化伺服系统控制方案设计:
定义上一时刻与下一时刻采样时间之间状态误差为:
事件触发的判断条件可改写为:
ek(k)TΦje(k)k≤εjxT(k-d(k))Φjx(k-d(k))
基于事件触发的网络化伺服控制系统模型可以被描述为:
4)控制器设计:
给定0≤εj≤1,γ>0,τM>0和适当维度的矩阵Pj>0,Qj>0,Rj>0,Zj>0,Φj>0和K使得下列不等式成立:
则基于事件触发的网络化伺服控制系统模型为在均方意义上是指数稳定的并且具有给定的H∞性能水平γ,可得控制器增益K:
5)强化学习A3C方案设计:
基于A3C的强化学习方法对阈值进行优化,得到在保证系统性能的情况下,触发次数较少的动态阈值,强化学习的问题通常可以转化为一个动态规划问题,所以将动态阈值问题转化为一个多维动态规划问题,并用一个五元组(Sr,Ar,Pr,λr,r)表示,其中,Sr设计状态空间、Ar为设计动作空间、Pr为概率转移矩阵、λr为设计折扣函数、r为设计奖励函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111224264.1A CN114488786A (zh) | 2021-10-20 | 2021-10-20 | 一种基于a3c和事件触发的网络化伺服系统控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111224264.1A CN114488786A (zh) | 2021-10-20 | 2021-10-20 | 一种基于a3c和事件触发的网络化伺服系统控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114488786A true CN114488786A (zh) | 2022-05-13 |
Family
ID=81492686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111224264.1A Pending CN114488786A (zh) | 2021-10-20 | 2021-10-20 | 一种基于a3c和事件触发的网络化伺服系统控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114488786A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117032052A (zh) * | 2023-10-07 | 2023-11-10 | 华能信息技术有限公司 | 一种基于动态事件的安全管控方法及系统 |
-
2021
- 2021-10-20 CN CN202111224264.1A patent/CN114488786A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117032052A (zh) * | 2023-10-07 | 2023-11-10 | 华能信息技术有限公司 | 一种基于动态事件的安全管控方法及系统 |
CN117032052B (zh) * | 2023-10-07 | 2024-02-27 | 华能信息技术有限公司 | 一种基于动态事件的安全管控方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ni et al. | Fixed-time adaptive neural network control for nonstrict-feedback nonlinear systems with deadzone and output constraint | |
US10281897B2 (en) | Model predictive control with uncertainties | |
CN108445748B (zh) | 一种基于事件触发机制的自适应航天器姿态跟踪控制方法 | |
Diehl et al. | Fast direct multiple shooting algorithms for optimal robot control | |
CN113110059B (zh) | 基于事件触发的单连杆机械臂系统实际跟踪的控制方法 | |
Arif et al. | Incorporation of experience in iterative learning controllers using locally weighted learning | |
CN111596545A (zh) | 一种多输入多输出机械系统自适应容错预设性能控制方法 | |
Kosmatopoulos | Control of unknown nonlinear systems with efficient transient performance using concurrent exploitation and exploration | |
CN114488786A (zh) | 一种基于a3c和事件触发的网络化伺服系统控制方法 | |
Wang et al. | Adaptive fuzzy control of underwater vehicle manipulator system with dead-zone band input nonlinearities via fuzzy performance and disturbance observers | |
Wanigasekara et al. | Performance of neural network based controllers and ΔΣ-based PID controllers for networked control systems: a comparative investigation | |
Wang et al. | Prescribed performance control for dynamic positioning vessels with a dynamic event-triggered mechanism | |
CN113110063A (zh) | 单轴进给系统的鲁棒单调收敛点对点迭代学习控制方法 | |
JP2023517142A (ja) | データ駆動型モデル適応を用いる制御のための装置および方法 | |
CN116859713A (zh) | 基于模糊pid的水下机器人的控制方法、装置、设备及介质 | |
Grimble et al. | Polynomial approach to non-linear predictive generalised minimum variance control | |
Liu et al. | Online expectation maximization for reinforcement learning in POMDPs | |
CN112859891B (zh) | 一种基于粒子群算法优化自适应滑模控制参数的auv航向角控制方法 | |
CN114859725A (zh) | 一种非线性系统自适应事件触发控制方法及系统 | |
Huang et al. | Learning Koopman Operators with Control Using Bi-Level Optimization | |
Okulski et al. | Development of a model predictive controller for an unstable heavy self-balancing robot | |
Inanc et al. | Long short-term memory for improved transients in neural network adaptive control | |
Curtis et al. | A model-predictive satisficing approach to a nonlinear tracking problem | |
Zhang et al. | MPC for 3-D Trajectory Tracking of UUV with Constraints Using Laguerre Functions | |
Pandey et al. | Learning koopman operators with control using bi-level optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |