CN115933383A - 一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法 - Google Patents

一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法 Download PDF

Info

Publication number
CN115933383A
CN115933383A CN202211454633.0A CN202211454633A CN115933383A CN 115933383 A CN115933383 A CN 115933383A CN 202211454633 A CN202211454633 A CN 202211454633A CN 115933383 A CN115933383 A CN 115933383A
Authority
CN
China
Prior art keywords
slow
fast
neural network
reinforcement learning
infinite
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211454633.0A
Other languages
English (en)
Other versions
CN115933383B (zh
Inventor
刘晓敏
厉功贺
余梦君
王浩宇
杨春雨
周林娜
马磊
王国庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202211454633.0A priority Critical patent/CN115933383B/zh
Publication of CN115933383A publication Critical patent/CN115933383A/zh
Application granted granted Critical
Publication of CN115933383B publication Critical patent/CN115933383B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,包括:利用奇异摄动理论,将原始H无穷控制问题进行分解得到快子问题和慢子问题,并引入坐标转换将快慢子问题重塑成两个标准的子问题;解决快慢子系统数据不可测的问题,进一步推导基于重构数据的H无穷强化学习迭代算法;在快慢时间尺度内分别引入执行‑评价‑扰动神经网络近似控制器、性能指标和扰动,基于最小二乘法迭代更新神经网络的权重,得到基于强化学习的快、慢H无穷控制器;再进行组合,得到非线性双时间尺度工业控制系统跨尺度强化学习组合H无穷控制器。本发明避免了在强化学习框架下设计双时间尺度工业系统控制器时潜在的高维和病态数值问题。

Description

一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法
技术领域
本发明涉及非线性双时间尺度工业系统数据驱动控制领域,主要涉及一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,具体非线性双时间尺度工业系统包括但不限于电机系统、流程工业系统等。
背景技术
双时间尺度工业系统是一类广泛存在于电力系统、过程工业等领域的具有快、慢动态耦合的高阶系统。大多数实际系统都是非线性的,且外部干扰不可避免地存在,对系统性能造成诸多不利影响。因此,研究非线性双时间尺度工业系统鲁棒控制以抑制干扰带来的不利影响具有重要的意义。现有的非线性双时间尺度鲁棒控制方法主要基于扰动观测器、滑模控制、自抗扰控制等。近十几年,H无穷控制方法发展势头迅猛,它可使系统满足预定的干扰衰减指标。然而,现有结果都是通过广义系统理论设计全阶系统的H无穷控制器,无法避免高维问题。时间尺度分解方法在双时间尺度系统分析和综合中展现出强大功能。它通过将原始系统分解为独立于时间尺度参数的快慢子系统,并为两个子系统分别设计控制器,从而避免高维和病态数值。虽已有结果引入时间尺度分解来设计非线性双时间尺度的组合鲁棒控制器,但要求系统模型完全已知,虚拟子系统状态要求完全可测。目前,尚未有动力学未知的非线性双时间尺度的H无穷控制。
强化学习是一种处理动力学未知系统最优控制问题的有效方法。通过执行-评价神经网络与系统之间的信息交互,以迭代的方式进行价值函数评估和控制策略更新的过程,最终收敛到最优解。如今,已经出现了很多方法可在强化学习框架下克服干扰带来的不利影响。作为一种主流的抗扰方法,基于强化学习的H无穷控制引起了广泛关注。将H无穷控制问题转化为零和博弈问题并利用最优控制思想求解已被证明是一种有效的方法。然而,由于双时间尺度系统具有高维数和快慢动态耦合特性,已有强化学习方法不适用于非线性双时间尺度工业系统,甚至会导致迭代学习过程中发生病态数值问题。针对含未知动态的非线性双时间尺度系统,虽已有一些最优控制结果并用于倒立摆、电机等系统的仿真中,但具有未知动力学的非线性双时间尺度系统干扰抑制问题研究仍是空白,仍有待开发。
因此,迫切需要开发一种具有自学习能力的非线性双时间尺度H无穷控制策略,在含有未知动态和数据不完美情况下,仍可实现非线性双时间尺度工业系统如电机、流程工业等系统的H无穷控制。迫切需要在强化学习框架下设计一种组合控制方法,避免双时间尺度系统分析和设计过程中潜在的高维和病态数值问题。
发明内容
本发明提供了一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,解决含有未建模慢动态和不完美数据的工业系统干扰抑制问题,实现了非线性双时间尺度工业系统H无穷控制策略的自学习改进,避免了在强化学习框架下设计双时间尺度工业系统控制器时潜在的高维和病态数值问题,详见下文描述:
一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,所述方法包括:
步骤1,利用奇异摄动理论,将原始H无穷控制问题进行分解得到快子问题和慢子问题,并引入坐标转换,将慢子问题重塑成标准子问题,其性能指标中不含有状态量、控制量和扰动量的耦合项;
步骤2,基于原系统的输入状态数据,提出虚拟子系统的状态重构机制,并融合跨尺度信息交互修正时间尺度带来的偏置,解决快慢子系统数据不可测的问题,进一步推导基于重构数据的H无穷强化学习迭代算法;
步骤3,在快慢时间尺度内分别引入执行-评价神经网络近似控制器和性能指标,基于最小二乘法迭代更新神经网络的权重,得到基于强化学习的快、慢H无穷控制器;
步骤4,对快慢H无穷控制器进行组合,得到非线性双时间尺度工业控制系统跨尺度强化学习组合H无穷控制器。
进一步的,步骤1具体包括如下内容:
步骤101、针对的非线性双时间尺度工业系统,可以为常见的电机系统、流程工业系统等;不失一般性,系统的状态空间模型描述为:
Figure BDA0003952707870000031
其中,
Figure BDA0003952707870000032
分别是慢、快变量,如在电机系统中慢变量为电机转速,快变量为电流,在混合分离增稠工艺流程中慢变量为底流浓度,快变量为泥浆流量,
Figure BDA0003952707870000033
是控制输入,
Figure BDA0003952707870000034
是外部扰动,0<ε<<1为时间尺度参数,
Figure BDA0003952707870000035
Figure BDA0003952707870000036
为适当维数的向量或矩阵方程;(0,0)为系统平衡点,f11,f12,g1,k1已知,f21,f22,g2,k2未知;
步骤102,所述原始H无穷控制问题为:设计状态反馈控制器u(t)=u*(x)使上述闭环非线性双时间尺度系统渐近稳定(当ω(t)≡0时)且以下L2增益小于或等于γ:
Figure BDA0003952707870000037
其中,ω∈L2[0,∞),γ>0是提前给定的干扰衰减水平,
Figure BDA0003952707870000038
Q=[C1 C2]T[C1 C2]>0,R>0;
步骤103,所述快子问题为:设计状态反馈控制器uf=uf(x2f)使得快子系统
Figure BDA0003952707870000039
渐近稳定(当ω(t)≡0时)且以下L2增益小于或等于γf
Figure BDA00039527078700000310
其中,Ff(x2f)=f22(x1)x2f,Gf(x2f)=g2(x1),Kf(x2f)=k2(x1),
Figure BDA00039527078700000311
γf>0是提前给定的快子系统干扰衰减水平;
步骤104,所述慢子问题为:设计状态反馈控制器us(t)=us(x1s)使得慢子系统
Figure BDA00039527078700000312
渐近稳定(当ω(t)≡0时)且以下L2增益小于或等于γs
Figure BDA0003952707870000041
其中,
Figure BDA0003952707870000042
Figure BDA0003952707870000043
Figure BDA0003952707870000044
γs>0是提前给定的慢子系统干扰衰减水平;
步骤105,所述引入的坐标转换为:
Figure BDA0003952707870000045
Figure BDA0003952707870000046
其中,
Figure BDA0003952707870000047
Figure BDA0003952707870000048
Ms=qTq+R,
Figure BDA00039527078700000413
Ns=N+rTsr;
步骤106,所述重塑后的标准慢子问题为:
设计状态反馈控制器vs(t)=vs(x1s)使得慢子系统
Figure BDA00039527078700000410
渐近稳定(当ωs(t)≡0时)且满足:
Figure BDA00039527078700000411
其中,
Figure BDA00039527078700000412
进一步的,步骤2具体包括如下内容;
步骤201,虚拟慢子系统的状态重构机制为:利用原系统慢动态状态x1重构不可测的虚拟慢子系统状态,基于重构数据x1的慢子系统H无穷强化学习迭代算法为:
Figure BDA0003952707870000051
其中,
Figure BDA0003952707870000052
i为慢控制器迭代指标;
步骤202,虚拟子系统的状态重构机制为:利用原系统快动态状态x2f并融合跨尺度信息x1和us构造得状态
Figure BDA0003952707870000053
进而对不可测的快子系统状态进行重构,所述的基于重构数据
Figure BDA0003952707870000054
的快子系统H无穷强化学习迭代算法为:
Figure BDA0003952707870000055
其中,
Figure BDA0003952707870000056
Figure BDA0003952707870000057
j为快控制器迭代指标。
进一步的,步骤3具体包括如下内容;
步骤301,设计基于强化学习的慢控制器,具体为:
(1)选取慢评价神经网络、第k个慢执行神经网络以及第l个慢扰动神经网络的线性独立激活函数向量分别为:
Figure BDA0003952707870000058
Figure BDA0003952707870000059
Figure BDA00039527078700000510
其中,k=1,…,n1,l=1,…,n2,Cs,As,Ds为隐层神经元个数,设计评价-执行-扰动神经网络用于近似慢性能指标Js(x1)、第k个慢控制器vs(k)(x1)以及第l个慢扰动ωs(l)(x1):
Figure BDA0003952707870000061
Figure BDA0003952707870000062
Figure BDA0003952707870000063
其中,
Figure BDA0003952707870000064
Figure BDA0003952707870000065
分别表示慢评价神经网络、第k个慢执行神经网络以及第l个慢扰动神经网络的权重向量;
(2)初始化神经网络权值向量
Figure BDA0003952707870000066
给定一个容许控制uf0,在不同的执行策略及扰动策略vs(n)s(n)作用下,从原系统中采集数据对{x1(n),vs(n)s(n),x’1(n)}并将其放入样本集
Figure BDA0003952707870000067
中,收集的样本数目为Ns,n=1,…,Ns
(3)利用
Figure BDA0003952707870000068
Figure BDA0003952707870000069
进一步构造数据库
Figure BDA00039527078700000610
基于最小二乘法同时更新评价-执行-扰动神经网络的权重:
Figure BDA00039527078700000611
其中,
Figure BDA00039527078700000612
(4)利用坐标转换及
Figure BDA00039527078700000613
并结合迭代所得的慢执行神经网络权值得到基于强化学习的慢H无穷控制器
Figure BDA00039527078700000614
步骤302,设计基于强化学习的慢控制器,具体为:
(1)选取快评价神经网络、第k个快执行神经网络以及第l个快扰动神经网络的线性独立激活函数向量分别为
Figure BDA00039527078700000615
Figure BDA00039527078700000616
k=1,…,n1,l=1,…,n2Cf,Af,Df为隐层神经元个数,设计评价-执行-扰动神经网络用于近似快性能指标
Figure BDA00039527078700000617
第k个快控制器
Figure BDA00039527078700000618
以及第l个快扰动
Figure BDA00039527078700000619
Figure BDA00039527078700000620
Figure BDA00039527078700000621
Figure BDA0003952707870000071
其中,
Figure BDA0003952707870000072
Figure BDA0003952707870000073
分别表示快评价神经网络、第k个快执行神经网络以及第l个快扰动神经网络的权重向量;
(2)初始化神经网络权值向量
Figure BDA0003952707870000074
选定慢子系统控制器为
Figure BDA0003952707870000075
在不同的执行策略及扰动策略uf(n)f(n)作用下,从原系统中采集数据对
Figure BDA0003952707870000076
并将其放入样本集
Figure BDA0003952707870000077
中,收集的样本数目为Nf,n=1,…,Nf
(3)利用
Figure BDA0003952707870000078
Figure BDA0003952707870000079
进一步构造数据库
Figure BDA00039527078700000710
基于最小二乘法同时更新评价-执行-扰动神经网络的权重:
Figure BDA00039527078700000711
其中,
Figure BDA00039527078700000712
(4)基于迭代所得的快执行神经网络权值得到强化学习快H无穷控制器
Figure BDA00039527078700000713
进一步的,步骤4中非线性双时间尺度工业控制系统跨尺度强化学习组合H无穷控制器:
Figure BDA00039527078700000714
本发明提供的技术方案的有益效果是:
1)本发明针对非线性双时间尺度工业系统,考虑未建模慢动态和不完美数据,设计了一种基于强化学习的组合H无穷控制方法,可以实现不完美测量数据下慢动态未知非线性双时间尺度工业系统的H无穷控制,相比已有的双时间尺度系统H无穷控制方法,更具自学习能力;
2)引入适当的坐标转换,将快慢子H无穷问题进行标准化重塑,进一步设计了基于原系统测量数据的虚拟子系统状态重构机制,解决了虚拟子系统数据不可完美测量的问题。
3)将经典的强化学习H无穷控制算法推广到具有双时间尺度特性的工业控制系统中,在快慢尺度内分别设计了基于重构数据的强化学习迭代算法,避免了高维和病态数值问题,适用性更广。
附图说明
图1是基于强化学习的H无穷控制框架图;
图2是慢子系统评价神经网络权值迭代过程示意图;
图3是快子系统执行神经网络权值迭代过程示意图;
图4是组合控制下闭环电机系统状态轨迹曲线图;
图5是组合控制下闭环电机系统扰动衰减曲线图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
本发明的一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,如图1所示,该方法包括如下步骤:
步骤1:利用奇异摄动理论,将原始H无穷控制问题进行分解得到快子问题和慢子问题,并引入坐标转换,将慢子问题重塑成标准子问题,其性能指标中不含有状态量、控制量和扰动量的耦合项;具体内容如下:
步骤101、针对的非线性双时间尺度工业系统,可以为常见的电机系统、流程工业系统等。不失一般性,系统的状态空间模型描述为:
Figure BDA0003952707870000081
其中,
Figure BDA0003952707870000082
分别是慢、快变量,如在电机系统中慢变量为电机转速,快变量为电流,在混合分离增稠工艺流程中慢变量为底流浓度,快变量为泥浆流量,
Figure BDA0003952707870000083
是控制输入,
Figure BDA0003952707870000084
是外部扰动,0<ε<<1为时间尺度参数,
Figure BDA0003952707870000085
Figure BDA0003952707870000086
为适当维数的向量或矩阵方程,(0,0)为系统平衡点,f11,f12,g1,k1已知,f21,f22,g2,k2未知。
步骤102,所述原始H无穷控制问题为:设计状态反馈控制器u(t)=u*(x)使上述闭环非线性双时间尺度系统渐近稳定(当ω(t)≡0时)且以下L2增益小于或等于γ:
Figure BDA0003952707870000091
其中,ω∈L2[0,∞),γ>0是提前给定的干扰衰减水平,
Figure BDA0003952707870000092
Q=[C1 C2]T[C1 C2]>0,R>0。
步骤103,所述快子问题为:设计状态反馈控制器uf=uf(x2f)使得快子系统
Figure BDA0003952707870000093
渐近稳定(当ω(t)≡0时)且以下L2增益小于或等于γf
Figure BDA0003952707870000094
其中,Ff(x2f)=f22(x1)x2f,Gf(x2f)=g2(x1),Kf(x2f)=k2(x1),
Figure BDA00039527078700000911
γf>0是提前给定的快子系统干扰衰减水平。
步骤104,所述慢子问题为:设计状态反馈控制器us(t)=us(x1s)使得慢子系统
Figure BDA0003952707870000095
渐近稳定(当ω(t)≡0时)且以下L2增益小于或等于γs
Figure BDA0003952707870000096
其中,
Figure BDA0003952707870000097
Figure BDA0003952707870000098
Figure BDA0003952707870000099
γs>0是提前给定的慢子系统干扰衰减水平。
步骤105,所述引入的坐标转换为:
Figure BDA00039527078700000910
Figure BDA0003952707870000101
其中,
Figure BDA0003952707870000102
Figure BDA0003952707870000103
Ms=qTq+R,
Figure BDA0003952707870000104
Ns=N+rTσr。
步骤106,所述重塑后的标准慢子问题为:
设计状态反馈控制器vs(t)=vs(x1s)使得慢子系统
Figure BDA0003952707870000105
渐近稳定(当ωs(t)≡0时)且满足:
Figure BDA0003952707870000106
其中,
Figure BDA0003952707870000107
步骤2:基于原系统的输入状态数据,提出虚拟子系统的状态重构机制,并融合跨尺度信息交互修正时间尺度带来的偏置,解决快慢子系统数据不可测的问题,进一步推导基于重构数据的H无穷强化学习迭代算法;具体包括如下;
步骤201,虚拟慢子系统的状态重构机制为:利用原系统慢动态状态x1重构不可测的虚拟慢子系统状态,基于重构数据x1的慢子系统H无穷强化学习迭代算法为:
Figure BDA0003952707870000108
其中,
Figure BDA0003952707870000109
i为慢控制器迭代指标。
步骤202,虚拟子系统的状态重构机制为:利用原系统快动态状态x2f并融合跨尺度信息x1和us构造得状态
Figure BDA00039527078700001010
进而对不可测的快子系统状态进行重构,所述的基于重构数据
Figure BDA00039527078700001011
的快子系统H无穷强化学习迭代算法为:
Figure BDA0003952707870000111
其中,
Figure BDA0003952707870000112
Figure BDA0003952707870000113
j为迭代次数。
步骤3,在快慢时间尺度内分别引入执行-评价神经网络近似控制器和性能指标,基于最小二乘法迭代更新神经网络的权重,得到基于强化学习的快、慢H无穷控制器;具体包括如下:
步骤301,设计基于强化学习的慢控制器,具体为:
(1)选取慢评价神经网络、第k个慢执行神经网络以及第l个慢扰动神经网络的线性独立激活函数向量分别为:
Figure BDA0003952707870000114
Figure BDA0003952707870000115
Figure BDA0003952707870000116
其中,k=1,…,n1,l=1,…,n2,Cs,As,Ds为隐层神经元个数,设计评价-执行-扰动神经网络用于近似慢性能指标Js(x1)、第k个慢控制器vs(k)(x1)以及第l个慢扰动ωs(l)(x1):
Figure BDA0003952707870000117
Figure BDA0003952707870000118
Figure BDA0003952707870000119
其中,
Figure BDA00039527078700001110
Figure BDA00039527078700001111
分别表示慢评价神经网络、第k个慢执行神经网络以及第l个慢扰动神经网络的权重向量。
(2)初始化神经网络权值向量
Figure BDA00039527078700001112
给定一个容许控制uf0,在不同的执行策略及扰动策略vs(n)s(n)作用下,从原系统中采集数据对{x1(n),vs(n)s(n),x’1(n)}并将其放入样本集
Figure BDA0003952707870000121
中,收集的样本数目为Ns,n=1,…,Ns
(3)利用
Figure BDA0003952707870000122
Figure BDA0003952707870000123
进一步构造数据库
Figure BDA0003952707870000124
基于最小二乘法同时更新评价-执行-扰动神经网络的权重:
Figure BDA0003952707870000125
其中,
Figure BDA0003952707870000126
(4)利用坐标转换及
Figure BDA0003952707870000127
并结合迭代所得的慢执行神经网络权值得到基于强化学习的慢H无穷控制器
Figure BDA0003952707870000128
步骤302,设计基于强化学习的慢控制器,具体为:
(1)选取快评价神经网络、第k个快执行神经网络以及第l个快扰动神经网络的线性独立激活函数向量分别为
Figure BDA0003952707870000129
Figure BDA00039527078700001210
k=1,…,n1,l=1,…,n2Cf,Af,Df为隐层神经元个数,设计评价-执行-扰动神经网络用于近似快性能指标
Figure BDA00039527078700001211
第k个快控制器
Figure BDA00039527078700001212
以及第l个快扰动
Figure BDA00039527078700001213
Figure BDA00039527078700001214
Figure BDA00039527078700001215
Figure BDA00039527078700001216
其中,
Figure BDA00039527078700001217
Figure BDA00039527078700001218
分别表示快评价神经网络、第k个快执行神经网络以及第l个快扰动神经网络的权重向量。
(2)初始化神经网络权值向量
Figure BDA00039527078700001219
选定慢子系统控制器为
Figure BDA00039527078700001220
在不同的执行策略及扰动策略uf(n)f(n)作用下,从原系统中采集数据对
Figure BDA0003952707870000131
并将其放入样本集
Figure BDA0003952707870000132
中,收集的样本数目为Nf,n=1,…,Nf
(3)利用
Figure BDA0003952707870000133
Figure BDA0003952707870000134
进一步构造数据库
Figure BDA0003952707870000135
基于最小二乘法同时更新评价-执行-扰动神经网络的权重:
Figure BDA0003952707870000136
其中,
Figure BDA0003952707870000137
(4)基于迭代所得的快执行神经网络权值得到强化学习快H无穷控制器
Figure BDA0003952707870000138
步骤4:对快慢H无穷控制器进行组合,得到非线性双时间尺度工业控制系统跨尺度强化学习组合H无穷控制器为:
Figure BDA0003952707870000139
本发明方法适用于伺服电机、流程工业等系统。为使本领域技术人员更好的理解本发明,下面结合具体实施例,对基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法进行详细说明。
考虑如下表贴式永磁同步电机:
Figure BDA00039527078700001310
其中,极对数np=4,粘性摩擦系数Bu=0.005N·m·s,定子电阻Rs=10.7Ω,合成转子磁链
Figure BDA00039527078700001311
直轴和交轴电感Ld=Lq=0.0098mH,转动惯量
Figure BDA00039527078700001312
选择状态变量
Figure BDA00039527078700001313
为电机转速、直轴电流、交轴电流,控制输入u=[u1 u2]T=[ud uq]T为直轴和交轴电压,外部扰动
Figure BDA00039527078700001314
为负载转矩,时间尺度参数
Figure BDA00039527078700001315
得到
Figure BDA0003952707870000141
该实施例的控制目标是设计一个状态反馈控制器使电机系统(23)在ω(t)≡0时渐近稳定,且满足L2增益
Figure BDA0003952707870000142
选择Q和R分别为二阶、三阶单位矩阵,γ=5。
在设计慢H无穷控制器时,引入四个神经网络,包括一个慢评价神经网络,两个慢执行神经网络和一个慢扰动神经网络。激活函数函数选为
Figure BDA0003952707870000143
初始权值选为
Figure BDA0003952707870000144
Figure BDA0003952707870000145
迭代终止阈值设为10-6。施加探测噪声,令uf0=0,采集样本数据。经过16次迭代,四个神经网络权值同时收敛至
Figure BDA0003952707870000146
Figure BDA0003952707870000147
Figure BDA0003952707870000148
慢子系统评价神经网络权值迭代过程如图2所示。基于慢执行神经网络权值并结合式(7)(8)(14),可得慢子系统H无穷控制器
Figure BDA0003952707870000149
在设计快控制器时,由于快子系统与干扰无关,因此快子系统H无穷控制问题本质上转化为最优控制问题。引入一个快评价神经网络和两个快执行神经网络,其激活函数
Figure BDA00039527078700001410
Figure BDA00039527078700001411
初始权值选为
Figure BDA00039527078700001412
迭代终止阈值设为10-6。施加探测噪声,令
Figure BDA00039527078700001413
采集样本数据。经过6次迭代,三个神经网络权值同时收敛至
Figure BDA0003952707870000151
Figure BDA0003952707870000152
快子系统执行神经网络权值迭代过程如图3所示。基于快执行神经网络权值可得快子系统H无穷控制器
Figure BDA0003952707870000153
基于慢H无穷控制器和快控制器,得组合H无穷控制器为
Figure BDA0003952707870000154
组合控制器作用下闭环电机系统状态轨迹曲线如图4所示,可见,系统在没有扰动的情况下实现了渐近稳定。组合控制下闭环电机系统扰动衰减曲线如图5所示,其中
Figure BDA0003952707870000155
反应组合控制器下闭环电机系统扰动衰减趋势,随着时间推移γd收敛至3.947(<5),满足L2增益。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,其特征在于,包括如下步骤:
步骤1,利用奇异摄动理论,将原始H无穷控制问题进行分解得到快子问题和慢子问题,并引入坐标转换,将慢子问题重塑成标准子问题,其性能指标中不含有状态量、控制量和扰动量的耦合项;
步骤2,基于原系统的输入状态数据,提出虚拟子系统的状态重构机制,并融合跨尺度信息交互修正时间尺度带来的偏置,解决快慢子系统数据不可测的问题,进一步推导基于重构数据的H无穷强化学习迭代算法;
步骤3,在快慢时间尺度内分别引入执行-评价神经网络近似控制器和性能指标,基于最小二乘法迭代更新神经网络的权重,得到基于强化学习的快、慢H无穷控制器;
步骤4,对快慢H无穷控制器进行组合,得到非线性双时间尺度工业控制系统跨尺度强化学习组合H无穷控制器。
2.根据权利要求1所述一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,其特征在于,步骤1具体包括如下内容:
步骤101、非线性双时间尺度工业系统用以下状态空间模型描述:
Figure FDA0003952707860000011
其中,
Figure FDA0003952707860000012
分别是慢、快变量,如在电机系统中慢变量为电机转速,快变量为电流,在混合分离增稠工艺流程中慢变量为底流浓度,快变量为泥浆流量,
Figure FDA0003952707860000013
是控制输入,
Figure FDA0003952707860000014
是外部扰动,0<ε<<1为时间尺度参数,
Figure FDA0003952707860000015
Figure FDA0003952707860000016
为适当维数的向量或矩阵方程;(0,0)为系统平衡点,f11,f12,g1,k1已知,f21,f22,g2,k2未知;
步骤102,所述原始H无穷控制问题为:设计状态反馈控制器u(t)=u*(x)使上述闭环非线性双时间尺度系统渐近稳定(当ω(t)≡0时)且以下L2增益小于或等于γ:
Figure FDA0003952707860000017
其中,ω∈L2[0,∞),γ>0是提前给定的干扰衰减水平,
Figure FDA0003952707860000021
Q=[C1 C2]T[C1 C2]>0,R>0;
步骤103,所述快子问题为:设计状态反馈控制器uf=uf(x2f)使得快子系统
Figure FDA0003952707860000022
渐近稳定(当ω(t)≡0时)且以下L2增益小于或等于γf
Figure FDA0003952707860000023
其中,Ff(x2f)=f22(x1)x2f,Gf(x2f)=g2(x1),Kf(x2f)=k2(x1),
Figure FDA0003952707860000024
γf>0是提前给定的快子系统干扰衰减水平;
步骤104,所述慢子问题为:设计状态反馈控制器us(t)=us(x1s)使得慢子系统
Figure FDA0003952707860000025
渐近稳定(当ω(t)≡0时)且以下L2增益小于或等于γs
Figure FDA0003952707860000026
其中,
Figure FDA0003952707860000027
Figure FDA0003952707860000028
Figure FDA0003952707860000029
γs>0是提前给定的慢子系统干扰衰减水平;
步骤105,所述引入的坐标转换为:
Figure FDA00039527078600000210
Figure FDA00039527078600000211
其中,
Figure FDA00039527078600000212
Figure FDA00039527078600000213
Ms=qTq+R,
Figure FDA00039527078600000214
Ns=N+rTσr;
步骤106,所述重塑后的标准慢子问题为:
设计状态反馈控制器vs(t)=vs(x1s)使得慢子系统
Figure FDA0003952707860000031
渐近稳定(当ωs(t)≡0时)且满足:
Figure FDA0003952707860000032
其中,
Figure FDA0003952707860000033
3.根据权利要求2所述一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,其特征在于,步骤2具体包括如下内容;
步骤201,虚拟慢子系统的状态重构机制为:利用原系统慢动态状态x1重构不可测的虚拟慢子系统状态,基于重构数据x1的慢子系统H无穷强化学习迭代算法为:
Figure FDA0003952707860000034
其中,
Figure FDA0003952707860000035
i为迭代次数;
步骤202,虚拟子系统的状态重构机制为:利用原系统快动态状态x2f并融合跨尺度信息x1和us构造得状态
Figure FDA0003952707860000036
进而对不可测的快子系统状态进行重构,所述的基于重构数据
Figure FDA0003952707860000037
的快子系统H无穷强化学习迭代算法为:
Figure FDA0003952707860000038
其中,
Figure FDA0003952707860000039
Figure FDA00039527078600000310
j为迭代次数。
4.根据权利要求3所述一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,其特征在于,步骤3具体包括如下内容;
步骤301,设计基于强化学习的慢控制器,具体为:
(1)选取慢评价神经网络、第k个慢执行神经网络以及第l个慢扰动神经网络的线性独立激活函数向量分别为:
Figure FDA0003952707860000041
Figure FDA0003952707860000042
Figure FDA0003952707860000043
其中,k=1,…,n1,l=1,…,n2,Cs,As,Ds为隐层神经元个数,设计评价-执行-扰动神经网络用于近似慢性能指标Js(x1)、第k个慢控制器vs(k)(x1)以及第l个慢扰动ωs(l)(x1):
Figure FDA0003952707860000044
Figure FDA0003952707860000045
Figure FDA0003952707860000046
其中,
Figure FDA0003952707860000047
Figure FDA0003952707860000048
分别表示慢评价神经网络、第k个慢执行神经网络以及第l个慢扰动神经网络的权重向量;
(2)初始化神经网络权值向量
Figure FDA0003952707860000049
给定一个容许控制uf0,在不同的执行策略及扰动策略vs(n)s(n)作用下,从原系统中采集数据对{x1(n),vs(n)s(n),x’1(n)}并将其放入样本集
Figure FDA00039527078600000410
中,收集的样本数目为Ns,n=1,…,Ns
(3)利用
Figure FDA00039527078600000411
Figure FDA00039527078600000412
进一步构造数据库
Figure FDA00039527078600000413
基于最小二乘法同时更新评价-执行-扰动神经网络的权重:
Figure FDA00039527078600000414
其中,
Figure FDA0003952707860000051
(4)利用坐标转换及
Figure FDA0003952707860000052
并结合迭代所得的慢执行神经网络权值得到基于强化学习的慢H无穷控制器
Figure FDA0003952707860000053
步骤302,设计基于强化学习的快控制器,具体为:
(1)选取快评价神经网络、第k个快执行神经网络以及第l个快扰动神经网络的线性独立激活函数向量分别为
Figure FDA0003952707860000054
Figure FDA0003952707860000055
Figure FDA0003952707860000056
Cf,Af,Df为隐层神经元个数,设计评价-执行-扰动神经网络用于近似快性能指标
Figure FDA0003952707860000057
第k个快控制器
Figure FDA0003952707860000058
以及第l个快扰动
Figure FDA0003952707860000059
Figure FDA00039527078600000510
Figure FDA00039527078600000511
Figure FDA00039527078600000512
其中,
Figure FDA00039527078600000513
Figure FDA00039527078600000514
分别表示快评价神经网络、第k个快执行神经网络以及第l个快扰动神经网络的权重向量;
(2)初始化神经网络权值向量
Figure FDA00039527078600000515
选定慢子系统控制器为
Figure FDA00039527078600000516
在不同的执行策略及扰动策略uf(n)f(n)作用下,从原系统中采集数据对
Figure FDA00039527078600000517
并将其放入样本集
Figure FDA00039527078600000518
中,收集的样本数目为Nf,n=1,…,Nf
(3)利用
Figure FDA00039527078600000519
Figure FDA00039527078600000520
进一步构造数据库
Figure FDA00039527078600000521
基于最小二乘法同时更新评价-执行-扰动神经网络的权重:
Figure FDA00039527078600000522
其中,
Figure FDA0003952707860000061
(4)基于迭代所得的快执行神经网络权值得到强化学习快H无穷控制器
Figure FDA0003952707860000062
5.根据权利要求4所述一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,其特征在于,步骤4中非线性双时间尺度工业控制系统跨尺度强化学习组合H无穷控制器:
Figure FDA0003952707860000063
CN202211454633.0A 2022-11-21 2022-11-21 一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法 Active CN115933383B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211454633.0A CN115933383B (zh) 2022-11-21 2022-11-21 一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211454633.0A CN115933383B (zh) 2022-11-21 2022-11-21 一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法

Publications (2)

Publication Number Publication Date
CN115933383A true CN115933383A (zh) 2023-04-07
CN115933383B CN115933383B (zh) 2023-05-30

Family

ID=85836224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211454633.0A Active CN115933383B (zh) 2022-11-21 2022-11-21 一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法

Country Status (1)

Country Link
CN (1) CN115933383B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170073448A1 (en) * 2015-09-14 2017-03-16 Exxonmobil Chemical Patents Inc. Atactic Polypropylene Comb Block Polyolefins Useful as Modifiers in Polyolefins and Hydrocarbons
CN108121202A (zh) * 2016-11-30 2018-06-05 中国科学院沈阳自动化研究所 一种基于滞后切换策略的状态反馈切换控制器设计方法
CN108964544A (zh) * 2018-07-23 2018-12-07 中国矿业大学 一种永磁直线同步电机双时间尺度滑模控制系统及方法
CN109946975A (zh) * 2019-04-12 2019-06-28 北京理工大学 一种未知伺服系统的强化学习最优跟踪控制方法
CN110336318A (zh) * 2019-06-25 2019-10-15 陕西科技大学 一种单相光伏并网发电系统及控制方法
CN111022254A (zh) * 2019-12-25 2020-04-17 金陵科技学院 奇异摄动风力发电模型最大功率点跟踪的时滞控制方法
CN114740732A (zh) * 2022-04-27 2022-07-12 厦门理工学院 一种无人机模态转换非线性控制方法、设备、介质
CN114826075A (zh) * 2022-05-20 2022-07-29 金陵科技学院 一种针对高速永磁电机的双时间尺度并联式双环控制方法
CN115016286A (zh) * 2022-07-01 2022-09-06 天津大学 非线性工业系统数据驱动强化学习鲁棒控制方法
CN115328093A (zh) * 2022-08-26 2022-11-11 中国矿业大学 一种双时间尺度工业信息物理系统的安全状态估计方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170073448A1 (en) * 2015-09-14 2017-03-16 Exxonmobil Chemical Patents Inc. Atactic Polypropylene Comb Block Polyolefins Useful as Modifiers in Polyolefins and Hydrocarbons
CN108121202A (zh) * 2016-11-30 2018-06-05 中国科学院沈阳自动化研究所 一种基于滞后切换策略的状态反馈切换控制器设计方法
CN108964544A (zh) * 2018-07-23 2018-12-07 中国矿业大学 一种永磁直线同步电机双时间尺度滑模控制系统及方法
CN109946975A (zh) * 2019-04-12 2019-06-28 北京理工大学 一种未知伺服系统的强化学习最优跟踪控制方法
CN110336318A (zh) * 2019-06-25 2019-10-15 陕西科技大学 一种单相光伏并网发电系统及控制方法
CN111022254A (zh) * 2019-12-25 2020-04-17 金陵科技学院 奇异摄动风力发电模型最大功率点跟踪的时滞控制方法
CN114740732A (zh) * 2022-04-27 2022-07-12 厦门理工学院 一种无人机模态转换非线性控制方法、设备、介质
CN114826075A (zh) * 2022-05-20 2022-07-29 金陵科技学院 一种针对高速永磁电机的双时间尺度并联式双环控制方法
CN115016286A (zh) * 2022-07-01 2022-09-06 天津大学 非线性工业系统数据驱动强化学习鲁棒控制方法
CN115328093A (zh) * 2022-08-26 2022-11-11 中国矿业大学 一种双时间尺度工业信息物理系统的安全状态估计方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JIANGUO ZHAO等: "Reinforcement Learning-Based Composite Optimal Operational Control of Industrial Systems With Multiple Unit Devices", 《 IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS 》, vol. 18, no. 2, XP011885684, DOI: 10.1109/TII.2021.3076471 *
LEI MA等: "H∞ Control for a Class of Two-Time-Scale Cyber-Physical Systems: An Asynchronous Dynamic Event-Triggered Protocol", 《IEEE TRANSACTIONS ON CYBERNETICS 》 *
YING ZHANG等: "Reinforcement Learning-Based Sliding Mode Tracking Control for the Two-Time-Scale Systems: Dealing With Actuator Attacks", 《 IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS II: EXPRESS BRIEFS》, vol. 69, no. 9 *
刘晓敏: "非线性双时间尺度系统自学习优化控制", 《中国博士学位论文全文数据库信息科技辑》, no. 2, pages 140 - 4 *
吕永峰,等: "非线性多输入系统的近似动态规划H∞控制", 《控制理论与应用》, vol. 38, no. 10, pages 1662 - 1670 *

Also Published As

Publication number Publication date
CN115933383B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
López-Estrada et al. A review of convex approaches for control, observation and safety of linear parameter varying and Takagi-Sugeno systems
Szollosi et al. Influence of the tensor product model representation of qLPV models on the feasibility of linear matrix inequality
Lagerberg et al. Backlash estimation with application to automotive powertrains
CN108572548B (zh) 一种扰动感知控制方法
Li et al. Robust control for permanent magnet in-wheel motor in electric vehicles using adaptive fuzzy neural network with inverse system decoupling
Morato et al. Sub‐optimal recursively feasible Linear Parameter‐Varying predictive algorithm for semi‐active suspension control
Yang et al. A CMAC-PD compound torque controller with fast learning capacity and improved output smoothness for electric load simulator
Rahman et al. Fractional transformation-based intelligent H-infinity controller of a direct current servo motor
Utkin et al. Block control principle for mechanical systems
Savarapu et al. Modified brain emotional controller-based ripple minimization for SVM-DTC of sensorless induction motor drive
Gu et al. Parametric design of functional interval observer for time-delay systems with additive disturbances
Li et al. Intelligent parameter identification for robot servo controller based on improved integration method
Ileš et al. Linear matrix inequalities based H∞ control of gantry crane using tensor product transformation
CN115933383A (zh) 一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法
Arshad et al. Deep Deterministic Policy Gradient to Regulate Feedback Control Systems Using Reinforcement Learning.
Han et al. Command filter-based adaptive neural control for permanent magnet synchronous motor stochastic nonlinear systems with input saturation
Wei et al. New results on sampled‐data output‐feedback control of linear parameter‐varying systems
Zhang et al. Non‐zero‐sum games of discrete‐time Markov jump systems with unknown dynamics: An off‐policy reinforcement learning method
Humaidi et al. Block backstepping control design of two-wheeled inverted pendulum via zero dynamic analysis
Shahraki et al. Two wheel self-balanced mobile robot identification based on experimental data
CN110879531B (zh) 一种随机扰动系统的数据驱动自适应优化控制方法及介质
Yang et al. Input‐mapping based data‐driven model predictive control for unknown linear systems via online learning
Zhang et al. Prescribed Performance Active Braking Control with Reference Adaptation for High-Speed Trains
CN116208041A (zh) 基于强化学习的电机系统h无穷降阶输出跟踪控制方法
Precup et al. Charged system search algorithms for optimal tuning of PI controllers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant