CN115933383B - 一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法 - Google Patents

一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法 Download PDF

Info

Publication number
CN115933383B
CN115933383B CN202211454633.0A CN202211454633A CN115933383B CN 115933383 B CN115933383 B CN 115933383B CN 202211454633 A CN202211454633 A CN 202211454633A CN 115933383 B CN115933383 B CN 115933383B
Authority
CN
China
Prior art keywords
slow
fast
neural network
reinforcement learning
disturbance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211454633.0A
Other languages
English (en)
Other versions
CN115933383A (zh
Inventor
刘晓敏
厉功贺
余梦君
王浩宇
杨春雨
周林娜
马磊
王国庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202211454633.0A priority Critical patent/CN115933383B/zh
Publication of CN115933383A publication Critical patent/CN115933383A/zh
Application granted granted Critical
Publication of CN115933383B publication Critical patent/CN115933383B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,包括:利用奇异摄动理论,将原始H无穷控制问题进行分解得到快子问题和慢子问题,并引入坐标转换将快慢子问题重塑成两个标准的子问题;解决快慢子系统数据不可测的问题,进一步推导基于重构数据的H无穷强化学习迭代算法;在快慢时间尺度内分别引入执行‑评价‑扰动神经网络近似控制器、性能指标和扰动,基于最小二乘法迭代更新神经网络的权重,得到基于强化学习的快、慢H无穷控制器;再进行组合,得到非线性双时间尺度工业控制系统跨尺度强化学习组合H无穷控制器。本发明避免了在强化学习框架下设计双时间尺度工业系统控制器时潜在的高维和病态数值问题。

Description

一种基于强化学习的非线性双时间尺度工业系统H无穷组合 控制方法
技术领域
本发明涉及非线性双时间尺度工业系统数据驱动控制领域,主要涉及一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,具体非线性双时间尺度工业系统包括但不限于电机系统、流程工业系统等。
背景技术
双时间尺度工业系统是一类广泛存在于电力系统、过程工业等领域的具有快、慢动态耦合的高阶系统。大多数实际系统都是非线性的,且外部干扰不可避免地存在,对系统性能造成诸多不利影响。因此,研究非线性双时间尺度工业系统鲁棒控制以抑制干扰带来的不利影响具有重要的意义。现有的非线性双时间尺度鲁棒控制方法主要基于扰动观测器、滑模控制、自抗扰控制等。近十几年,H无穷控制方法发展势头迅猛,它可使系统满足预定的干扰衰减指标。然而,现有结果都是通过广义系统理论设计全阶系统的H无穷控制器,无法避免高维问题。时间尺度分解方法在双时间尺度系统分析和综合中展现出强大功能。它通过将原始系统分解为独立于时间尺度参数的快慢子系统,并为两个子系统分别设计控制器,从而避免高维和病态数值。虽已有结果引入时间尺度分解来设计非线性双时间尺度的组合鲁棒控制器,但要求系统模型完全已知,虚拟子系统状态要求完全可测。目前,尚未有动力学未知的非线性双时间尺度的H无穷控制。
强化学习是一种处理动力学未知系统最优控制问题的有效方法。通过执行-评价神经网络与系统之间的信息交互,以迭代的方式进行价值函数评估和控制策略更新的过程,最终收敛到最优解。如今,已经出现了很多方法可在强化学习框架下克服干扰带来的不利影响。作为一种主流的抗扰方法,基于强化学习的H无穷控制引起了广泛关注。将H无穷控制问题转化为零和博弈问题并利用最优控制思想求解已被证明是一种有效的方法。然而,由于双时间尺度系统具有高维数和快慢动态耦合特性,已有强化学习方法不适用于非线性双时间尺度工业系统,甚至会导致迭代学习过程中发生病态数值问题。针对含未知动态的非线性双时间尺度系统,虽已有一些最优控制结果并用于倒立摆、电机等系统的仿真中,但具有未知动力学的非线性双时间尺度系统干扰抑制问题研究仍是空白,仍有待开发。
因此,迫切需要开发一种具有自学习能力的非线性双时间尺度H无穷控制策略,在含有未知动态和数据不完美情况下,仍可实现非线性双时间尺度工业系统如电机、流程工业等系统的H无穷控制。迫切需要在强化学习框架下设计一种组合控制方法,避免双时间尺度系统分析和设计过程中潜在的高维和病态数值问题。
发明内容
本发明提供了一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,解决含有未建模慢动态和不完美数据的工业系统干扰抑制问题,实现了非线性双时间尺度工业系统H无穷控制策略的自学习改进,避免了在强化学习框架下设计双时间尺度工业系统控制器时潜在的高维和病态数值问题,详见下文描述:
一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,所述方法包括:
步骤1,利用奇异摄动理论,将原始H无穷控制问题进行分解得到快子问题和慢子问题,并引入坐标转换,将慢子问题重塑成标准子问题,其性能指标中不含有状态量、控制量和扰动量的耦合项;
步骤2,基于原系统的输入状态数据,提出虚拟子系统的状态重构机制,并融合跨尺度信息交互修正时间尺度带来的偏置,解决快慢子系统数据不可测的问题,进一步推导基于重构数据的H无穷强化学习迭代算法;
步骤3,在快慢时间尺度内分别引入执行-评价神经网络近似控制器和性能指标,基于最小二乘法迭代更新神经网络的权重,得到基于强化学习的快、慢H无穷控制器;
步骤4,对快慢H无穷控制器进行组合,得到非线性双时间尺度工业控制系统跨尺度强化学习组合H无穷控制器。
进一步的,步骤1具体包括如下内容:
步骤101、针对的非线性双时间尺度工业系统,可以为常见的电机系统、流程工业系统等;不失一般性,系统的状态空间模型描述为:
Figure GDA0004208088450000031
其中,
Figure GDA0004208088450000032
分别是慢、快变量,如在电机系统中慢变量为电机转速,快变量为电流,在混合分离增稠工艺流程中慢变量为底流浓度,快变量为泥浆流量,/>
Figure GDA0004208088450000033
是控制输入,/>
Figure GDA0004208088450000034
是外部扰动,0<ε<<1为时间尺度参数,
Figure GDA0004208088450000035
Figure GDA0004208088450000036
为适当维数的向量或矩阵方程;(0,0)为系统平衡点,f11,f12,g1,k1已知,f21,f22,g2,k2未知;
步骤102,所述原始H无穷控制问题为:设计状态反馈控制器u(t)=u*(x)使非线性双时间尺度工业系统渐近稳定(当ω(t)≡0时)且以下L2增益小于或等于γ:
Figure GDA0004208088450000037
其中,ω∈L2[0,∞),γ>0是提前给定的干扰衰减水平,
Figure GDA0004208088450000038
Q=[C1 C2]T[C1 C2]>0,R>0;
步骤103,所述快子问题为:设计状态反馈控制器uf=uf(x2f)使得快子系统
Figure GDA0004208088450000039
渐近稳定(当ω(t)≡0时)且以下L2增益小于或等于γf
Figure GDA00042080884500000310
其中,Ff(x2f)=f22(x1)x2f,Gf(x2f)=g2(x1),Kf(x2f)=k2(x1),
Figure GDA00042080884500000311
γf>0是提前给定的快子系统干扰衰减水平;
步骤104,所述慢子问题为:设计状态反馈控制器us(t)=us(x1s)使得慢子系统
Figure GDA00042080884500000312
渐近稳定(当ω(t)≡0时)且以下L2增益小于或等于γs
Figure GDA0004208088450000041
其中,
Figure GDA0004208088450000042
Figure GDA0004208088450000043
Figure GDA0004208088450000044
γs>0是提前给定的慢子系统干扰衰减水平;
步骤105,所述引入的坐标转换为:
Figure GDA0004208088450000045
Figure GDA0004208088450000046
其中,
Figure GDA0004208088450000047
Figure GDA0004208088450000048
Ms=qTq+R,/>
Figure GDA00042080884500000413
Ns=N+rTσr;
步骤106,所述重塑后的标准慢子问题为:
设计状态反馈控制器vs(t)=vs(x1s)使得慢子系统
Figure GDA00042080884500000410
渐近稳定(当ωs(t)≡0时)且满足:
Figure GDA00042080884500000411
其中,
Figure GDA00042080884500000412
进一步的,步骤2具体包括如下内容;
步骤201,虚拟慢子系统的状态重构机制为:利用原系统慢动态状态x1重构不可测的虚拟慢子系统状态,基于重构数据x1的慢子系统H无穷强化学习迭代算法为:
Figure GDA0004208088450000051
其中,
Figure GDA0004208088450000052
i为慢控制器迭代指标;
步骤202,虚拟子系统的状态重构机制为:利用原系统快动态状态x2f并融合跨尺度信息x1和us构造得状态
Figure GDA0004208088450000053
进而对不可测的快子系统状态进行重构,所述的基于重构数据/>
Figure GDA0004208088450000054
的快子系统H无穷强化学习迭代算法为:
Figure GDA0004208088450000055
其中,
Figure GDA0004208088450000056
Figure GDA0004208088450000057
j为快控制器迭代指标。
进一步的,步骤3具体包括如下内容;
步骤301,设计基于强化学习的慢控制器,具体为:
(1)选取慢评价神经网络、第k个慢执行神经网络以及第l个慢扰动神经网络的线性独立激活函数向量分别为:
Figure GDA0004208088450000058
Figure GDA0004208088450000059
Figure GDA00042080884500000510
其中,k=1,…,n1,l=1,…,n2,Cs,As,Ds为隐层神经元个数,设计评价-执行-扰动神经网络用于近似慢性能指标Js(x1)、第k个慢控制器vs(k)(x1)以及第l个慢扰动ωs(l)(x1):
Figure GDA0004208088450000061
Figure GDA0004208088450000062
Figure GDA0004208088450000063
其中,
Figure GDA0004208088450000064
Figure GDA0004208088450000065
分别表示慢评价神经网络、第k个慢执行神经网络以及第l个慢扰动神经网络的权重向量;
(2)初始化神经网络权值向量
Figure GDA0004208088450000066
给定一个容许控制uf0,在不同的执行策略及扰动策略vs(n)s(n)作用下,从原系统中采集数据对{x1(n),vs(n)s(n),x′1(n)}并将其放入样本集/>
Figure GDA0004208088450000067
中,收集的样本数目为Ns,n=1,…,Ns
(3)利用
Figure GDA0004208088450000068
和/>
Figure GDA0004208088450000069
进一步构造数据库/>
Figure GDA00042080884500000610
基于最小二乘法同时更新评价-执行-扰动神经网络的权重:
Figure GDA00042080884500000611
/>
其中,
Figure GDA00042080884500000612
(4)利用坐标转换及
Figure GDA00042080884500000613
并结合迭代所得的慢执行神经网络权值得到基于强化学习的慢H无穷控制器/>
Figure GDA00042080884500000614
步骤302,设计基于强化学习的慢控制器,具体为:
(1)选取快评价神经网络、第k个快执行神经网络以及第l个快扰动神经网络的线性独立激活函数向量分别为
Figure GDA00042080884500000615
Figure GDA00042080884500000616
Figure GDA00042080884500000617
Cf,Af,Df为隐层神经元个数,设计评价-执行-扰动神经网络用于近似快性能指标/>
Figure GDA00042080884500000618
第k个快控制器/>
Figure GDA00042080884500000619
以及第l个快扰动/>
Figure GDA00042080884500000620
Figure GDA00042080884500000621
Figure GDA00042080884500000622
Figure GDA0004208088450000071
其中,
Figure GDA0004208088450000072
Figure GDA0004208088450000073
分别表示快评价神经网络、第k个快执行神经网络以及第l个快扰动神经网络的权重向量;
(2)初始化神经网络权值向量
Figure GDA0004208088450000074
选定慢子系统控制器为/>
Figure GDA0004208088450000075
在不同的执行策略及扰动策略uf(n)f(n)作用下,从原系统中采集数据对/>
Figure GDA0004208088450000076
并将其放入样本集/>
Figure GDA0004208088450000077
中,收集的样本数目为Nf,n=1,…,Nf
(3)利用
Figure GDA0004208088450000078
和/>
Figure GDA0004208088450000079
进一步构造数据库/>
Figure GDA00042080884500000710
基于最小二乘法同时更新评价-执行-扰动神经网络的权重:
Figure GDA00042080884500000711
其中,
Figure GDA00042080884500000712
(4)基于迭代所得的快执行神经网络权值得到强化学习快H无穷控制器
Figure GDA00042080884500000713
进一步的,步骤4中非线性双时间尺度工业控制系统跨尺度强化学习组合H无穷控制器:
Figure GDA00042080884500000714
本发明提供的技术方案的有益效果是:
1)本发明针对非线性双时间尺度工业系统,考虑未建模慢动态和不完美数据,设计了一种基于强化学习的组合H无穷控制方法,可以实现不完美测量数据下慢动态未知非线性双时间尺度工业系统的H无穷控制,相比已有的双时间尺度系统H无穷控制方法,更具自学习能力;
2)引入适当的坐标转换,将快慢子H无穷问题进行标准化重塑,进一步设计了基于原系统测量数据的虚拟子系统状态重构机制,解决了虚拟子系统数据不可完美测量的问题。
3)将经典的强化学习H无穷控制算法推广到具有双时间尺度特性的工业控制系统中,在快慢尺度内分别设计了基于重构数据的强化学习迭代算法,避免了高维和病态数值问题,适用性更广。
附图说明
图1是基于强化学习的H无穷控制框架图;
图2是慢子系统评价神经网络权值迭代过程示意图;
图3是快子系统执行神经网络权值迭代过程示意图;
图4是组合控制下闭环电机系统状态轨迹曲线图;
图5是组合控制下闭环电机系统扰动衰减曲线图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
本发明的一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,如图1所示,该方法包括如下步骤:
步骤1:利用奇异摄动理论,将原始H无穷控制问题进行分解得到快子问题和慢子问题,并引入坐标转换,将慢子问题重塑成标准子问题,其性能指标中不含有状态量、控制量和扰动量的耦合项;具体内容如下:
步骤101、针对的非线性双时间尺度工业系统,可以为常见的电机系统、流程工业系统等。不失一般性,系统的状态空间模型描述为:
Figure GDA0004208088450000081
其中,
Figure GDA0004208088450000082
分别是慢、快变量,如在电机系统中慢变量为电机转速,快变量为电流,在混合分离增稠工艺流程中慢变量为底流浓度,快变量为泥浆流量,/>
Figure GDA0004208088450000083
是控制输入,/>
Figure GDA0004208088450000084
是外部扰动,0<ε<<1为时间尺度参数,
Figure GDA0004208088450000085
Figure GDA0004208088450000086
为适当维数的向量或矩阵方程,(0,0)为系统平衡点,f11,f12,g1,k1已知,f21,f22,g2,k2未知。
步骤102,所述原始H无穷控制问题为:设计状态反馈控制器u(t)=u*(x)使非线性双时间尺度工业系统渐近稳定(当ω(t)≡0时)且以下L2增益小于或等于γ:
Figure GDA0004208088450000091
其中,ω∈L2[0,∞),γ>0是提前给定的干扰衰减水平,
Figure GDA0004208088450000092
Q=[C1 C2]T[C1 C2]>0,R>0。
步骤103,所述快子问题为:设计状态反馈控制器uf=uf(x2f)使得快子系统
Figure GDA0004208088450000093
渐近稳定(当ω(t)≡0时)且以下L2增益小于或等于γf
Figure GDA0004208088450000094
其中,Ff(x2f)=f22(x1)x2f,Gf(x2f)=g2(x1),Kf(x2f)=k2(x1),
Figure GDA0004208088450000095
γf>0是提前给定的快子系统干扰衰减水平。
步骤104,所述慢子问题为:设计状态反馈控制器us(t)=us(x1s)使得慢子系统
Figure GDA0004208088450000096
渐近稳定(当ω(t)≡0时)且以下L2增益小于或等于γs
Figure GDA0004208088450000097
其中,
Figure GDA0004208088450000098
Figure GDA0004208088450000099
Figure GDA00042080884500000910
γs>0是提前给定的慢子系统干扰衰减水平。
步骤105,所述引入的坐标转换为:
Figure GDA00042080884500000911
Figure GDA0004208088450000101
其中,
Figure GDA0004208088450000102
Figure GDA0004208088450000103
Ms=qTq+R,/>
Figure GDA0004208088450000104
Ns=N+rTσr。
步骤106,所述重塑后的标准慢子问题为:
设计状态反馈控制器vs(t)=vs(x1s)使得慢子系统
Figure GDA0004208088450000105
渐近稳定(当ωs(t)≡0时)且满足:
Figure GDA0004208088450000106
其中,Qs=I-σ+(σr-r)Ns -1(σ-r)T>0。
步骤2:基于原系统的输入状态数据,提出虚拟子系统的状态重构机制,并融合跨尺度信息交互修正时间尺度带来的偏置,解决快慢子系统数据不可测的问题,进一步推导基于重构数据的H无穷强化学习迭代算法;具体包括如下;
步骤201,虚拟慢子系统的状态重构机制为:利用原系统慢动态状态x1重构不可测的虚拟慢子系统状态,基于重构数据x1的慢子系统H无穷强化学习迭代算法为:
Figure GDA0004208088450000107
其中,
Figure GDA0004208088450000108
i为慢控制器迭代指标。
步骤202,虚拟子系统的状态重构机制为:利用原系统快动态状态x2f并融合跨尺度信息x1和us构造得状态
Figure GDA0004208088450000109
进而对不可测的快子系统状态进行重构,所述的基于重构数据
Figure GDA00042080884500001010
的快子系统H无穷强化学习迭代算法为:
Figure GDA0004208088450000111
其中,
Figure GDA0004208088450000112
Figure GDA0004208088450000113
j为迭代次数。
步骤3,在快慢时间尺度内分别引入执行-评价神经网络近似控制器和性能指标,基于最小二乘法迭代更新神经网络的权重,得到基于强化学习的快、慢H无穷控制器;具体包括如下:
步骤301,设计基于强化学习的慢控制器,具体为:
(1)选取慢评价神经网络、第k个慢执行神经网络以及第l个慢扰动神经网络的线性独立激活函数向量分别为:
Figure GDA0004208088450000114
Figure GDA0004208088450000115
Figure GDA0004208088450000116
其中,k=1,…,n1,l=1,…,n2,Cs,As,Ds为隐层神经元个数,设计评价-执行-扰动神经网络用于近似慢性能指标Js(x1)、第k个慢控制器vs(k)(x1)以及第l个慢扰动ωs(l)(x1):
Figure GDA0004208088450000117
Figure GDA0004208088450000118
Figure GDA0004208088450000119
其中,
Figure GDA00042080884500001110
Figure GDA00042080884500001111
分别表示慢评价神经网络、第k个慢执行神经网络以及第l个慢扰动神经网络的权重向量。
(2)初始化神经网络权值向量
Figure GDA00042080884500001112
给定一个容许控制uf0,在不同的执行策略及扰动策略vs(n)s(n)作用下,从原系统中采集数据对{x1(n),vs(n)s(n),x′1(n)}并将其放入样本集/>
Figure GDA0004208088450000121
中,收集的样本数目为Ns,n=1,…,Ns
(3)利用
Figure GDA0004208088450000122
和/>
Figure GDA0004208088450000123
进一步构造数据库/>
Figure GDA0004208088450000124
基于最小二乘法同时更新评价-执行-扰动神经网络的权重:
Figure GDA0004208088450000125
其中,
Figure GDA0004208088450000126
(4)利用坐标转换及
Figure GDA0004208088450000127
并结合迭代所得的慢执行神经网络权值得到基于强化学习的慢H无穷控制器/>
Figure GDA0004208088450000128
步骤302,设计基于强化学习的慢控制器,具体为:
(1)选取快评价神经网络、第k个快执行神经网络以及第l个快扰动神经网络的线性独立激活函数向量分别为
Figure GDA0004208088450000129
Figure GDA00042080884500001210
Figure GDA00042080884500001211
Cf,Af,Df为隐层神经元个数,设计评价-执行-扰动神经网络用于近似快性能指标/>
Figure GDA00042080884500001212
第k个快控制器/>
Figure GDA00042080884500001213
以及第l个快扰动/>
Figure GDA00042080884500001214
Figure GDA00042080884500001215
Figure GDA00042080884500001216
Figure GDA00042080884500001217
其中,
Figure GDA00042080884500001218
Figure GDA00042080884500001219
分别表示快评价神经网络、第k个快执行神经网络以及第l个快扰动神经网络的权重向量。
(2)初始化神经网络权值向量
Figure GDA00042080884500001220
选定慢子系统控制器为/>
Figure GDA00042080884500001221
在不同的执行策略及扰动策略uf(n)f(n)作用下,从原系统中采集数据对/>
Figure GDA0004208088450000131
并将其放入样本集/>
Figure GDA0004208088450000132
中,收集的样本数目为Nf,n=1,…,Nf
(3)利用
Figure GDA0004208088450000133
和/>
Figure GDA0004208088450000134
进一步构造数据库/>
Figure GDA0004208088450000135
基于最小二乘法同时更新评价-执行-扰动神经网络的权重:
Figure GDA0004208088450000136
其中,
Figure GDA0004208088450000137
/>
(4)基于迭代所得的快执行神经网络权值得到强化学习快H无穷控制器
Figure GDA0004208088450000138
步骤4:对快慢H无穷控制器进行组合,得到非线性双时间尺度工业控制系统跨尺度强化学习组合H无穷控制器为:
Figure GDA0004208088450000139
本发明方法适用于伺服电机、流程工业等系统。为使本领域技术人员更好的理解本发明,下面结合具体实施例,对基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法进行详细说明。
考虑如下表贴式永磁同步电机:
Figure GDA00042080884500001310
其中,极对数np=4,粘性摩擦系数Bυ=0.005N·m·s,定子电阻Rs=10.7Ω,合成转子磁链
Figure GDA00042080884500001311
直轴和交轴电感Ld=Lq=0.0098mH,转动惯量/>
Figure GDA00042080884500001312
选择状态变量/>
Figure GDA00042080884500001313
为电机转速、直轴电流、交轴电流,控制输入u=[u1 u2]T=[ud uq]T为直轴和交轴电压,外部扰动/>
Figure GDA00042080884500001314
为负载转矩,时间尺度参数/>
Figure GDA00042080884500001315
得到
Figure GDA0004208088450000141
该实施例的控制目标是设计一个状态反馈控制器使电机系统(23)在ω(t)≡0时渐近稳定,且满足L2增益
Figure GDA0004208088450000142
选择Q和R分别为二阶、三阶单位矩阵,γ=5。
在设计慢H无穷控制器时,引入四个神经网络,包括一个慢评价神经网络,两个慢执行神经网络和一个慢扰动神经网络。激活函数函数选为
Figure GDA0004208088450000143
初始权值选为
Figure GDA0004208088450000144
Figure GDA0004208088450000145
迭代终止阈值设为10-6。施加探测噪声,令uf0=0,采集样本数据。经过16次迭代,四个神经网络权值同时收敛至/>
Figure GDA0004208088450000146
Figure GDA0004208088450000147
Figure GDA0004208088450000148
慢子系统评价神经网络权值迭代过程如图2所示。基于慢执行神经网络权值并结合式(7)(8)(14),可得慢子系统H无穷控制器/>
Figure GDA0004208088450000149
在设计快控制器时,由于快子系统与干扰无关,因此快子系统H无穷控制问题本质上转化为最优控制问题。引入一个快评价神经网络和两个快执行神经网络,其激活函数
Figure GDA00042080884500001410
Figure GDA00042080884500001411
初始权值选为
Figure GDA00042080884500001412
迭代终止阈值设为10-6。施加探测噪声,令/>
Figure GDA00042080884500001413
采集样本数据。经过6次迭代,三个神经网络权值同时收敛至
Figure GDA0004208088450000151
Figure GDA0004208088450000152
快子系统执行神经网络权值迭代过程如图3所示。基于快执行神经网络权值可得快子系统H无穷控制器/>
Figure GDA0004208088450000153
基于慢H无穷控制器和快控制器,得组合H无穷控制器为
Figure GDA0004208088450000154
组合控制器作用下闭环电机系统状态轨迹曲线如图4所示,可见,系统在没有扰动的情况下实现了渐近稳定。组合控制下闭环电机系统扰动衰减曲线如图5所示,其中
Figure GDA0004208088450000155
反应组合控制器下闭环电机系统扰动衰减趋势,随着时间推移γd收敛至3.947(<5),满足L2增益。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,其特征在于,包括如下步骤:
步骤1,利用奇异摄动理论,将原始H无穷控制问题进行分解得到快子问题和慢子问题,并引入坐标转换,将慢子问题重塑成标准子问题,其性能指标中不含有状态量、控制量和扰动量的耦合项,具体包括如下内容:
步骤101、非线性双时间尺度工业系统用以下状态空间模型描述:
Figure FDA0004208088440000011
其中,
Figure FDA0004208088440000012
分别是慢、快变量,/>
Figure FDA0004208088440000013
是控制输入,/>
Figure FDA0004208088440000014
是外部扰动,0<ε<<1为时间尺度参数,/>
Figure FDA0004208088440000015
Figure FDA0004208088440000016
为适当维数的向量或矩阵方程;(0,0)为系统平衡点,f11,f12,g1,k1已知,f21,f22,g2,k2未知;
步骤102,所述原始H无穷控制问题为:设计状态反馈控制器u(t)=u*(x),当ω(t)≡0时,使非线性双时间尺度工业系统渐近稳定,且以下L2增益小于或等于γ:
Figure FDA0004208088440000017
其中,ω∈L2[0,∞),γ>0是提前给定的干扰衰减水平,
Figure FDA0004208088440000018
Q=[C1 C2]T[C1 C2]>0,R>0;
步骤103,所述快子问题为:设计状态反馈控制器uf=uf(x2f)使得快子系统
Figure FDA0004208088440000019
渐近稳定且以下L2增益小于或等于γf
Figure FDA00042080884400000110
其中,Ff(x2f)=f22(x1)x2f,Gf(x2f)=g2(x1),Kf(x2f)=k2(x1),
Figure FDA00042080884400000111
γf>0是提前给定的快子系统干扰衰减水平;
步骤104,所述慢子问题为:设计状态反馈控制器us(t)=us(x1s)使得慢子系统
Figure FDA00042080884400000112
渐近稳定且以下L2增益小于或等于γs
Figure FDA0004208088440000021
其中,
Figure FDA0004208088440000022
Figure FDA0004208088440000023
γs>0是提前给定的慢子系统干扰衰减水平;
步骤105,所述引入的坐标转换为:
Figure FDA0004208088440000024
Figure FDA0004208088440000025
其中,
Figure FDA0004208088440000026
Ms=qTq+R,/>
Figure FDA0004208088440000027
Ns=N+rTσr;
步骤106,所述重塑后的标准慢子问题为:
设计状态反馈控制器vs(t)=vs(x1s)使得慢子系统
Figure FDA00042080884400000210
渐近稳定且满足:
Figure FDA0004208088440000028
其中,
Figure FDA0004208088440000029
步骤2,基于原系统的输入状态数据,提出虚拟子系统的状态重构机制,并融合跨尺度信息交互修正时间尺度带来的偏置,解决快慢子系统数据不可测的问题,进一步推导基于重构数据的H无穷强化学习迭代算法;
步骤3,在快慢时间尺度内分别引入执行-评价神经网络近似控制器和性能指标,基于最小二乘法迭代更新神经网络的权重,得到基于强化学习的快、慢H无穷控制器;
步骤4,对快慢H无穷控制器进行组合,得到非线性双时间尺度工业控制系统跨尺度强化学习组合H无穷控制器。
2.根据权利要求1所述一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,其特征在于,步骤2具体包括如下内容;
步骤201,虚拟慢子系统的状态重构机制为:利用原系统慢动态状态x1重构不可测的虚拟慢子系统状态,基于重构数据x1的慢子系统H无穷强化学习迭代算法为:
Figure FDA0004208088440000031
其中,Js(x1)=Js(x1,vs(x1),
Figure FDA0004208088440000032
i为迭代次数;
步骤202,虚拟子系统的状态重构机制为:利用原系统快动态状态x2f并融合跨尺度信息x1和us构造得状态
Figure FDA0004208088440000033
进而对不可测的快子系统状态进行重构,所述的基于重构数据/>
Figure FDA0004208088440000034
的快子系统H无穷强化学习迭代算法为:/>
Figure FDA0004208088440000035
其中,
Figure FDA0004208088440000036
Figure FDA0004208088440000037
j为迭代次数。
3.根据权利要求2所述一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,其特征在于,步骤3具体包括如下内容;
步骤301,设计基于强化学习的慢控制器,具体为:
(1)选取慢评价神经网络、第k个慢执行神经网络以及第l个慢扰动神经网络的线性独立激活函数向量分别为:
Figure FDA0004208088440000038
Figure FDA0004208088440000039
Figure FDA00042080884400000310
其中,k=1,…,n1,l=1,…,n2,Cs,As,Ds为隐层神经元个数,设计评价-执行-扰动神经网络用于近似慢性能指标Js(x1)、第k个慢控制器vs(k)(x1)以及第l个慢扰动ωs(l)(x1):
Figure FDA00042080884400000311
Figure FDA0004208088440000041
Figure FDA0004208088440000042
其中,
Figure FDA0004208088440000043
分别表示慢评价神经网络、第k个慢执行神经网络以及第l个慢扰动神经网络的权重向量;
(2)初始化神经网络权值向量
Figure FDA0004208088440000044
给定一个容许控制uf0,在不同的执行策略及扰动策略vs(n)s(n)作用下,从原系统中采集数据对{x1(n),vs(n)s(n),x'1(n)}并将其放入样本集
Figure FDA0004208088440000045
中,收集的样本数目为Ns,n=1,…,Ns
(3)利用
Figure FDA0004208088440000046
和/>
Figure FDA0004208088440000047
进一步构造数据库/>
Figure FDA0004208088440000048
基于最小二乘法同时更新评价-执行-扰动神经网络的权重:
Figure FDA0004208088440000049
其中,
Figure FDA00042080884400000410
(4)利用坐标转换及
Figure FDA00042080884400000411
并结合迭代所得的慢执行神经网络权值得到基于强化学习的慢H无穷控制器/>
Figure FDA00042080884400000412
步骤302,设计基于强化学习的快控制器,具体为:
(1)选取快评价神经网络、第k个快执行神经网络以及第l个快扰动神经网络的线性独立激活函数向量分别为
Figure FDA00042080884400000413
Figure FDA00042080884400000414
k=1,…,n1,l=1,…,n2Cf,Af,Df为隐层神经元个数,设计评价-执行-扰动神经网络用于近似快性能指标/>
Figure FDA00042080884400000415
第k个快控制器/>
Figure FDA00042080884400000416
以及第l个快扰动/>
Figure FDA00042080884400000417
Figure FDA00042080884400000418
Figure FDA00042080884400000419
Figure FDA00042080884400000420
其中,
Figure FDA00042080884400000421
分别表示快评价神经网络、第k个快执行神经网络以及第l个快扰动神经网络的权重向量;
(2)初始化神经网络权值向量
Figure FDA0004208088440000051
选定慢子系统控制器为/>
Figure FDA0004208088440000052
在不同的执行策略及扰动策略uf(n)f(n)作用下,从原系统中采集数据对/>
Figure FDA0004208088440000053
并将其放入样本集/>
Figure FDA0004208088440000054
中,收集的样本数目为Nf,n=1,…,Nf
(3)利用
Figure FDA0004208088440000055
和/>
Figure FDA0004208088440000056
进一步构造数据库/>
Figure FDA0004208088440000057
基于最小二乘法同时更新评价-执行-扰动神经网络的权重:
Figure FDA0004208088440000058
其中,
Figure FDA0004208088440000059
(4)基于迭代所得的快执行神经网络权值得到强化学习快H无穷控制器
Figure FDA00042080884400000510
4.根据权利要求3所述一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,其特征在于,步骤4中非线性双时间尺度工业控制系统跨尺度强化学习组合H无穷控制器:
Figure FDA00042080884400000511
/>
CN202211454633.0A 2022-11-21 2022-11-21 一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法 Active CN115933383B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211454633.0A CN115933383B (zh) 2022-11-21 2022-11-21 一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211454633.0A CN115933383B (zh) 2022-11-21 2022-11-21 一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法

Publications (2)

Publication Number Publication Date
CN115933383A CN115933383A (zh) 2023-04-07
CN115933383B true CN115933383B (zh) 2023-05-30

Family

ID=85836224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211454633.0A Active CN115933383B (zh) 2022-11-21 2022-11-21 一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法

Country Status (1)

Country Link
CN (1) CN115933383B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109946975A (zh) * 2019-04-12 2019-06-28 北京理工大学 一种未知伺服系统的强化学习最优跟踪控制方法
CN110336318A (zh) * 2019-06-25 2019-10-15 陕西科技大学 一种单相光伏并网发电系统及控制方法
CN114826075A (zh) * 2022-05-20 2022-07-29 金陵科技学院 一种针对高速永磁电机的双时间尺度并联式双环控制方法
CN115016286A (zh) * 2022-07-01 2022-09-06 天津大学 非线性工业系统数据驱动强化学习鲁棒控制方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10246542B2 (en) * 2015-09-14 2019-04-02 Exxonmobil Chemical Patents Inc. Atactic polypropylene comb block polyolefins useful as modifiers in polyolefins and hydrocarbons
CN108121202A (zh) * 2016-11-30 2018-06-05 中国科学院沈阳自动化研究所 一种基于滞后切换策略的状态反馈切换控制器设计方法
CN108964544B (zh) * 2018-07-23 2022-05-03 中国矿业大学 一种永磁直线同步电机双时间尺度滑模控制系统及方法
CN111022254B (zh) * 2019-12-25 2021-02-26 金陵科技学院 奇异摄动风力发电模型最大功率点跟踪的时滞控制方法
CN114740732A (zh) * 2022-04-27 2022-07-12 厦门理工学院 一种无人机模态转换非线性控制方法、设备、介质
CN115328093B (zh) * 2022-08-26 2023-09-29 中国矿业大学 一种双时间尺度工业信息物理系统的安全状态估计方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109946975A (zh) * 2019-04-12 2019-06-28 北京理工大学 一种未知伺服系统的强化学习最优跟踪控制方法
CN110336318A (zh) * 2019-06-25 2019-10-15 陕西科技大学 一种单相光伏并网发电系统及控制方法
CN114826075A (zh) * 2022-05-20 2022-07-29 金陵科技学院 一种针对高速永磁电机的双时间尺度并联式双环控制方法
CN115016286A (zh) * 2022-07-01 2022-09-06 天津大学 非线性工业系统数据驱动强化学习鲁棒控制方法

Also Published As

Publication number Publication date
CN115933383A (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
Wu et al. Practical adaptive fuzzy control of nonlinear pure-feedback systems with quantized nonlinearity input
Li et al. Robust simultaneous fault estimation and nonfragile output feedback fault-tolerant control for Markovian jump systems
CN106788044B (zh) 一种基于干扰观测器的永磁同步电机自适应非奇异终端滑模控制方法
Yan et al. Non‐linear‐disturbance‐observer‐enhanced MPC for motion control systems with multiple disturbances
Yu et al. Trajectory switching control of robotic manipulators based on RBF neural networks
Morato et al. Sub‐optimal recursively feasible Linear Parameter‐Varying predictive algorithm for semi‐active suspension control
CN112987573A (zh) 基于离策强化学习的小车倒立摆系统的鲁棒最优控制方法
CN112068446B (zh) 一种基于离散时间模糊模型的直流电机系统抗干扰控制方法
Ma et al. Filter-and observer-based finite-time adaptive fuzzy control for induction motors systems considering stochastic disturbance and load variation
Priyanka et al. Anti‐disturbance resilient tracking control for semi‐Markov jumping systems
CN115933383B (zh) 一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法
Ileš et al. Linear matrix inequalities based H∞ control of gantry crane using tensor product transformation
Yu et al. Adaptive finite/fixed‐time stabilizing control for nonlinear systems with parametric uncertainty
Pang et al. Exponentially stable guaranteed cost control for continuous and discrete-time Takagi–Sugeno fuzzy systems
Arshad et al. Deep Deterministic Policy Gradient to Regulate Feedback Control Systems Using Reinforcement Learning.
Moez et al. Takagi-Sugeno fuzzy control of induction motor
Humaidi et al. Block backstepping control design of two-wheeled inverted pendulum via zero dynamic analysis
Shahraki et al. Two wheel self-balanced mobile robot identification based on experimental data
Zhang et al. Adaptive backstepping control of dual-motor driving servo systems with friction
Yi et al. A neural network adaptive interval observer design for nonlinear systems
Precup et al. Charged system search algorithms for optimal tuning of PI controllers
Visavakitcharoen et al. Event-triggered fuzzy integral control for a class of nonlinear singularly perturbed systems
Mao et al. Global stabilization for a class of upper‐triangular stochastic nonlinear systems with input delay via sampled‐data output feedback
Chen et al. Reinforcement learning‐based event‐triggered optimal control for unknown nonlinear systems with input delay
CN110879531A (zh) 一种随机扰动系统的数据驱动自适应优化控制方法及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant