CN115933383B - 一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法 - Google Patents
一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法 Download PDFInfo
- Publication number
- CN115933383B CN115933383B CN202211454633.0A CN202211454633A CN115933383B CN 115933383 B CN115933383 B CN 115933383B CN 202211454633 A CN202211454633 A CN 202211454633A CN 115933383 B CN115933383 B CN 115933383B
- Authority
- CN
- China
- Prior art keywords
- slow
- fast
- neural network
- reinforcement learning
- disturbance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000013528 artificial neural network Methods 0.000 claims abstract description 83
- 238000006243 chemical reaction Methods 0.000 claims abstract description 8
- 230000005624 perturbation theories Effects 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 21
- 238000011156 evaluation Methods 0.000 claims description 20
- 238000013461 design Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 7
- 210000002569 neuron Anatomy 0.000 claims description 6
- 230000008878 coupling Effects 0.000 claims description 5
- 238000010168 coupling process Methods 0.000 claims description 5
- 238000005859 coupling reaction Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 description 15
- 238000000926 separation method Methods 0.000 description 8
- 230000008719 thickening Effects 0.000 description 8
- 230000009977 dual effect Effects 0.000 description 7
- 230000002411 adverse Effects 0.000 description 3
- 238000011217 control strategy Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000001575 pathological effect Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000000087 stabilizing effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,包括:利用奇异摄动理论,将原始H无穷控制问题进行分解得到快子问题和慢子问题,并引入坐标转换将快慢子问题重塑成两个标准的子问题;解决快慢子系统数据不可测的问题,进一步推导基于重构数据的H无穷强化学习迭代算法;在快慢时间尺度内分别引入执行‑评价‑扰动神经网络近似控制器、性能指标和扰动,基于最小二乘法迭代更新神经网络的权重,得到基于强化学习的快、慢H无穷控制器;再进行组合,得到非线性双时间尺度工业控制系统跨尺度强化学习组合H无穷控制器。本发明避免了在强化学习框架下设计双时间尺度工业系统控制器时潜在的高维和病态数值问题。
Description
技术领域
本发明涉及非线性双时间尺度工业系统数据驱动控制领域,主要涉及一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,具体非线性双时间尺度工业系统包括但不限于电机系统、流程工业系统等。
背景技术
双时间尺度工业系统是一类广泛存在于电力系统、过程工业等领域的具有快、慢动态耦合的高阶系统。大多数实际系统都是非线性的,且外部干扰不可避免地存在,对系统性能造成诸多不利影响。因此,研究非线性双时间尺度工业系统鲁棒控制以抑制干扰带来的不利影响具有重要的意义。现有的非线性双时间尺度鲁棒控制方法主要基于扰动观测器、滑模控制、自抗扰控制等。近十几年,H无穷控制方法发展势头迅猛,它可使系统满足预定的干扰衰减指标。然而,现有结果都是通过广义系统理论设计全阶系统的H无穷控制器,无法避免高维问题。时间尺度分解方法在双时间尺度系统分析和综合中展现出强大功能。它通过将原始系统分解为独立于时间尺度参数的快慢子系统,并为两个子系统分别设计控制器,从而避免高维和病态数值。虽已有结果引入时间尺度分解来设计非线性双时间尺度的组合鲁棒控制器,但要求系统模型完全已知,虚拟子系统状态要求完全可测。目前,尚未有动力学未知的非线性双时间尺度的H无穷控制。
强化学习是一种处理动力学未知系统最优控制问题的有效方法。通过执行-评价神经网络与系统之间的信息交互,以迭代的方式进行价值函数评估和控制策略更新的过程,最终收敛到最优解。如今,已经出现了很多方法可在强化学习框架下克服干扰带来的不利影响。作为一种主流的抗扰方法,基于强化学习的H无穷控制引起了广泛关注。将H无穷控制问题转化为零和博弈问题并利用最优控制思想求解已被证明是一种有效的方法。然而,由于双时间尺度系统具有高维数和快慢动态耦合特性,已有强化学习方法不适用于非线性双时间尺度工业系统,甚至会导致迭代学习过程中发生病态数值问题。针对含未知动态的非线性双时间尺度系统,虽已有一些最优控制结果并用于倒立摆、电机等系统的仿真中,但具有未知动力学的非线性双时间尺度系统干扰抑制问题研究仍是空白,仍有待开发。
因此,迫切需要开发一种具有自学习能力的非线性双时间尺度H无穷控制策略,在含有未知动态和数据不完美情况下,仍可实现非线性双时间尺度工业系统如电机、流程工业等系统的H无穷控制。迫切需要在强化学习框架下设计一种组合控制方法,避免双时间尺度系统分析和设计过程中潜在的高维和病态数值问题。
发明内容
本发明提供了一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,解决含有未建模慢动态和不完美数据的工业系统干扰抑制问题,实现了非线性双时间尺度工业系统H无穷控制策略的自学习改进,避免了在强化学习框架下设计双时间尺度工业系统控制器时潜在的高维和病态数值问题,详见下文描述:
一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,所述方法包括:
步骤1,利用奇异摄动理论,将原始H无穷控制问题进行分解得到快子问题和慢子问题,并引入坐标转换,将慢子问题重塑成标准子问题,其性能指标中不含有状态量、控制量和扰动量的耦合项;
步骤2,基于原系统的输入状态数据,提出虚拟子系统的状态重构机制,并融合跨尺度信息交互修正时间尺度带来的偏置,解决快慢子系统数据不可测的问题,进一步推导基于重构数据的H无穷强化学习迭代算法;
步骤3,在快慢时间尺度内分别引入执行-评价神经网络近似控制器和性能指标,基于最小二乘法迭代更新神经网络的权重,得到基于强化学习的快、慢H无穷控制器;
步骤4,对快慢H无穷控制器进行组合,得到非线性双时间尺度工业控制系统跨尺度强化学习组合H无穷控制器。
进一步的,步骤1具体包括如下内容:
步骤101、针对的非线性双时间尺度工业系统,可以为常见的电机系统、流程工业系统等;不失一般性,系统的状态空间模型描述为:
其中,分别是慢、快变量,如在电机系统中慢变量为电机转速,快变量为电流,在混合分离增稠工艺流程中慢变量为底流浓度,快变量为泥浆流量,/>是控制输入,/>是外部扰动,0<ε<<1为时间尺度参数, 为适当维数的向量或矩阵方程;(0,0)为系统平衡点,f11,f12,g1,k1已知,f21,f22,g2,k2未知;
步骤102,所述原始H无穷控制问题为:设计状态反馈控制器u(t)=u*(x)使非线性双时间尺度工业系统渐近稳定(当ω(t)≡0时)且以下L2增益小于或等于γ:
步骤103,所述快子问题为:设计状态反馈控制器uf=uf(x2f)使得快子系统
渐近稳定(当ω(t)≡0时)且以下L2增益小于或等于γf:
步骤104,所述慢子问题为:设计状态反馈控制器us(t)=us(x1s)使得慢子系统
渐近稳定(当ω(t)≡0时)且以下L2增益小于或等于γs:
γs>0是提前给定的慢子系统干扰衰减水平;
步骤105,所述引入的坐标转换为:
步骤106,所述重塑后的标准慢子问题为:
设计状态反馈控制器vs(t)=vs(x1s)使得慢子系统
渐近稳定(当ωs(t)≡0时)且满足:
进一步的,步骤2具体包括如下内容;
步骤201,虚拟慢子系统的状态重构机制为:利用原系统慢动态状态x1重构不可测的虚拟慢子系统状态,基于重构数据x1的慢子系统H无穷强化学习迭代算法为:
进一步的,步骤3具体包括如下内容;
步骤301,设计基于强化学习的慢控制器,具体为:
(1)选取慢评价神经网络、第k个慢执行神经网络以及第l个慢扰动神经网络的线性独立激活函数向量分别为:
其中,k=1,…,n1,l=1,…,n2,Cs,As,Ds为隐层神经元个数,设计评价-执行-扰动神经网络用于近似慢性能指标Js(x1)、第k个慢控制器vs(k)(x1)以及第l个慢扰动ωs(l)(x1):
(2)初始化神经网络权值向量给定一个容许控制uf0,在不同的执行策略及扰动策略vs(n),ωs(n)作用下,从原系统中采集数据对{x1(n),vs(n),ωs(n),x′1(n)}并将其放入样本集/>中,收集的样本数目为Ns,n=1,…,Ns;
步骤302,设计基于强化学习的慢控制器,具体为:
进一步的,步骤4中非线性双时间尺度工业控制系统跨尺度强化学习组合H无穷控制器:
本发明提供的技术方案的有益效果是:
1)本发明针对非线性双时间尺度工业系统,考虑未建模慢动态和不完美数据,设计了一种基于强化学习的组合H无穷控制方法,可以实现不完美测量数据下慢动态未知非线性双时间尺度工业系统的H无穷控制,相比已有的双时间尺度系统H无穷控制方法,更具自学习能力;
2)引入适当的坐标转换,将快慢子H无穷问题进行标准化重塑,进一步设计了基于原系统测量数据的虚拟子系统状态重构机制,解决了虚拟子系统数据不可完美测量的问题。
3)将经典的强化学习H无穷控制算法推广到具有双时间尺度特性的工业控制系统中,在快慢尺度内分别设计了基于重构数据的强化学习迭代算法,避免了高维和病态数值问题,适用性更广。
附图说明
图1是基于强化学习的H无穷控制框架图;
图2是慢子系统评价神经网络权值迭代过程示意图;
图3是快子系统执行神经网络权值迭代过程示意图;
图4是组合控制下闭环电机系统状态轨迹曲线图;
图5是组合控制下闭环电机系统扰动衰减曲线图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
本发明的一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,如图1所示,该方法包括如下步骤:
步骤1:利用奇异摄动理论,将原始H无穷控制问题进行分解得到快子问题和慢子问题,并引入坐标转换,将慢子问题重塑成标准子问题,其性能指标中不含有状态量、控制量和扰动量的耦合项;具体内容如下:
步骤101、针对的非线性双时间尺度工业系统,可以为常见的电机系统、流程工业系统等。不失一般性,系统的状态空间模型描述为:
其中,分别是慢、快变量,如在电机系统中慢变量为电机转速,快变量为电流,在混合分离增稠工艺流程中慢变量为底流浓度,快变量为泥浆流量,/>是控制输入,/>是外部扰动,0<ε<<1为时间尺度参数, 为适当维数的向量或矩阵方程,(0,0)为系统平衡点,f11,f12,g1,k1已知,f21,f22,g2,k2未知。
步骤102,所述原始H无穷控制问题为:设计状态反馈控制器u(t)=u*(x)使非线性双时间尺度工业系统渐近稳定(当ω(t)≡0时)且以下L2增益小于或等于γ:
步骤103,所述快子问题为:设计状态反馈控制器uf=uf(x2f)使得快子系统
渐近稳定(当ω(t)≡0时)且以下L2增益小于或等于γf:
步骤104,所述慢子问题为:设计状态反馈控制器us(t)=us(x1s)使得慢子系统
渐近稳定(当ω(t)≡0时)且以下L2增益小于或等于γs:
γs>0是提前给定的慢子系统干扰衰减水平。
步骤105,所述引入的坐标转换为:
步骤106,所述重塑后的标准慢子问题为:
设计状态反馈控制器vs(t)=vs(x1s)使得慢子系统
渐近稳定(当ωs(t)≡0时)且满足:
其中,Qs=I-σ+(σr-r)Ns -1(σ-r)T>0。
步骤2:基于原系统的输入状态数据,提出虚拟子系统的状态重构机制,并融合跨尺度信息交互修正时间尺度带来的偏置,解决快慢子系统数据不可测的问题,进一步推导基于重构数据的H无穷强化学习迭代算法;具体包括如下;
步骤201,虚拟慢子系统的状态重构机制为:利用原系统慢动态状态x1重构不可测的虚拟慢子系统状态,基于重构数据x1的慢子系统H无穷强化学习迭代算法为:
步骤3,在快慢时间尺度内分别引入执行-评价神经网络近似控制器和性能指标,基于最小二乘法迭代更新神经网络的权重,得到基于强化学习的快、慢H无穷控制器;具体包括如下:
步骤301,设计基于强化学习的慢控制器,具体为:
(1)选取慢评价神经网络、第k个慢执行神经网络以及第l个慢扰动神经网络的线性独立激活函数向量分别为:
其中,k=1,…,n1,l=1,…,n2,Cs,As,Ds为隐层神经元个数,设计评价-执行-扰动神经网络用于近似慢性能指标Js(x1)、第k个慢控制器vs(k)(x1)以及第l个慢扰动ωs(l)(x1):
(2)初始化神经网络权值向量给定一个容许控制uf0,在不同的执行策略及扰动策略vs(n),ωs(n)作用下,从原系统中采集数据对{x1(n),vs(n),ωs(n),x′1(n)}并将其放入样本集/>中,收集的样本数目为Ns,n=1,…,Ns。
步骤302,设计基于强化学习的慢控制器,具体为:
(1)选取快评价神经网络、第k个快执行神经网络以及第l个快扰动神经网络的线性独立激活函数向量分别为 Cf,Af,Df为隐层神经元个数,设计评价-执行-扰动神经网络用于近似快性能指标/>第k个快控制器/>以及第l个快扰动/>
步骤4:对快慢H无穷控制器进行组合,得到非线性双时间尺度工业控制系统跨尺度强化学习组合H无穷控制器为:
本发明方法适用于伺服电机、流程工业等系统。为使本领域技术人员更好的理解本发明,下面结合具体实施例,对基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法进行详细说明。
考虑如下表贴式永磁同步电机:
其中,极对数np=4,粘性摩擦系数Bυ=0.005N·m·s,定子电阻Rs=10.7Ω,合成转子磁链直轴和交轴电感Ld=Lq=0.0098mH,转动惯量/>选择状态变量/>为电机转速、直轴电流、交轴电流,控制输入u=[u1 u2]T=[ud uq]T为直轴和交轴电压,外部扰动/>为负载转矩,时间尺度参数/>得到
在设计慢H无穷控制器时,引入四个神经网络,包括一个慢评价神经网络,两个慢执行神经网络和一个慢扰动神经网络。激活函数函数选为初始权值选为 迭代终止阈值设为10-6。施加探测噪声,令uf0=0,采集样本数据。经过16次迭代,四个神经网络权值同时收敛至/> 慢子系统评价神经网络权值迭代过程如图2所示。基于慢执行神经网络权值并结合式(7)(8)(14),可得慢子系统H无穷控制器/>
在设计快控制器时,由于快子系统与干扰无关,因此快子系统H无穷控制问题本质上转化为最优控制问题。引入一个快评价神经网络和两个快执行神经网络,其激活函数 初始权值选为迭代终止阈值设为10-6。施加探测噪声,令/>采集样本数据。经过6次迭代,三个神经网络权值同时收敛至 快子系统执行神经网络权值迭代过程如图3所示。基于快执行神经网络权值可得快子系统H无穷控制器/>
基于慢H无穷控制器和快控制器,得组合H无穷控制器为组合控制器作用下闭环电机系统状态轨迹曲线如图4所示,可见,系统在没有扰动的情况下实现了渐近稳定。组合控制下闭环电机系统扰动衰减曲线如图5所示,其中反应组合控制器下闭环电机系统扰动衰减趋势,随着时间推移γd收敛至3.947(<5),满足L2增益。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,其特征在于,包括如下步骤:
步骤1,利用奇异摄动理论,将原始H无穷控制问题进行分解得到快子问题和慢子问题,并引入坐标转换,将慢子问题重塑成标准子问题,其性能指标中不含有状态量、控制量和扰动量的耦合项,具体包括如下内容:
步骤101、非线性双时间尺度工业系统用以下状态空间模型描述:
其中,分别是慢、快变量,/>是控制输入,/>是外部扰动,0<ε<<1为时间尺度参数,/> 为适当维数的向量或矩阵方程;(0,0)为系统平衡点,f11,f12,g1,k1已知,f21,f22,g2,k2未知;
步骤102,所述原始H无穷控制问题为:设计状态反馈控制器u(t)=u*(x),当ω(t)≡0时,使非线性双时间尺度工业系统渐近稳定,且以下L2增益小于或等于γ:
步骤103,所述快子问题为:设计状态反馈控制器uf=uf(x2f)使得快子系统
渐近稳定且以下L2增益小于或等于γf:
步骤104,所述慢子问题为:设计状态反馈控制器us(t)=us(x1s)使得慢子系统
渐近稳定且以下L2增益小于或等于γs:
γs>0是提前给定的慢子系统干扰衰减水平;
步骤105,所述引入的坐标转换为:
步骤106,所述重塑后的标准慢子问题为:
设计状态反馈控制器vs(t)=vs(x1s)使得慢子系统
渐近稳定且满足:
步骤2,基于原系统的输入状态数据,提出虚拟子系统的状态重构机制,并融合跨尺度信息交互修正时间尺度带来的偏置,解决快慢子系统数据不可测的问题,进一步推导基于重构数据的H无穷强化学习迭代算法;
步骤3,在快慢时间尺度内分别引入执行-评价神经网络近似控制器和性能指标,基于最小二乘法迭代更新神经网络的权重,得到基于强化学习的快、慢H无穷控制器;
步骤4,对快慢H无穷控制器进行组合,得到非线性双时间尺度工业控制系统跨尺度强化学习组合H无穷控制器。
3.根据权利要求2所述一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法,其特征在于,步骤3具体包括如下内容;
步骤301,设计基于强化学习的慢控制器,具体为:
(1)选取慢评价神经网络、第k个慢执行神经网络以及第l个慢扰动神经网络的线性独立激活函数向量分别为:
其中,k=1,…,n1,l=1,…,n2,Cs,As,Ds为隐层神经元个数,设计评价-执行-扰动神经网络用于近似慢性能指标Js(x1)、第k个慢控制器vs(k)(x1)以及第l个慢扰动ωs(l)(x1):
(2)初始化神经网络权值向量给定一个容许控制uf0,在不同的执行策略及扰动策略vs(n),ωs(n)作用下,从原系统中采集数据对{x1(n),vs(n),ωs(n),x'1(n)}并将其放入样本集中,收集的样本数目为Ns,n=1,…,Ns;
步骤302,设计基于强化学习的快控制器,具体为:
(1)选取快评价神经网络、第k个快执行神经网络以及第l个快扰动神经网络的线性独立激活函数向量分别为 k=1,…,n1,l=1,…,n2Cf,Af,Df为隐层神经元个数,设计评价-执行-扰动神经网络用于近似快性能指标/>第k个快控制器/>以及第l个快扰动/>
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211454633.0A CN115933383B (zh) | 2022-11-21 | 2022-11-21 | 一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211454633.0A CN115933383B (zh) | 2022-11-21 | 2022-11-21 | 一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115933383A CN115933383A (zh) | 2023-04-07 |
CN115933383B true CN115933383B (zh) | 2023-05-30 |
Family
ID=85836224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211454633.0A Active CN115933383B (zh) | 2022-11-21 | 2022-11-21 | 一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115933383B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109946975A (zh) * | 2019-04-12 | 2019-06-28 | 北京理工大学 | 一种未知伺服系统的强化学习最优跟踪控制方法 |
CN110336318A (zh) * | 2019-06-25 | 2019-10-15 | 陕西科技大学 | 一种单相光伏并网发电系统及控制方法 |
CN114826075A (zh) * | 2022-05-20 | 2022-07-29 | 金陵科技学院 | 一种针对高速永磁电机的双时间尺度并联式双环控制方法 |
CN115016286A (zh) * | 2022-07-01 | 2022-09-06 | 天津大学 | 非线性工业系统数据驱动强化学习鲁棒控制方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10246542B2 (en) * | 2015-09-14 | 2019-04-02 | Exxonmobil Chemical Patents Inc. | Atactic polypropylene comb block polyolefins useful as modifiers in polyolefins and hydrocarbons |
CN108121202A (zh) * | 2016-11-30 | 2018-06-05 | 中国科学院沈阳自动化研究所 | 一种基于滞后切换策略的状态反馈切换控制器设计方法 |
CN108964544B (zh) * | 2018-07-23 | 2022-05-03 | 中国矿业大学 | 一种永磁直线同步电机双时间尺度滑模控制系统及方法 |
CN111022254B (zh) * | 2019-12-25 | 2021-02-26 | 金陵科技学院 | 奇异摄动风力发电模型最大功率点跟踪的时滞控制方法 |
CN114740732A (zh) * | 2022-04-27 | 2022-07-12 | 厦门理工学院 | 一种无人机模态转换非线性控制方法、设备、介质 |
CN115328093B (zh) * | 2022-08-26 | 2023-09-29 | 中国矿业大学 | 一种双时间尺度工业信息物理系统的安全状态估计方法 |
-
2022
- 2022-11-21 CN CN202211454633.0A patent/CN115933383B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109946975A (zh) * | 2019-04-12 | 2019-06-28 | 北京理工大学 | 一种未知伺服系统的强化学习最优跟踪控制方法 |
CN110336318A (zh) * | 2019-06-25 | 2019-10-15 | 陕西科技大学 | 一种单相光伏并网发电系统及控制方法 |
CN114826075A (zh) * | 2022-05-20 | 2022-07-29 | 金陵科技学院 | 一种针对高速永磁电机的双时间尺度并联式双环控制方法 |
CN115016286A (zh) * | 2022-07-01 | 2022-09-06 | 天津大学 | 非线性工业系统数据驱动强化学习鲁棒控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115933383A (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Practical adaptive fuzzy control of nonlinear pure-feedback systems with quantized nonlinearity input | |
Li et al. | Robust simultaneous fault estimation and nonfragile output feedback fault-tolerant control for Markovian jump systems | |
CN106788044B (zh) | 一种基于干扰观测器的永磁同步电机自适应非奇异终端滑模控制方法 | |
Yan et al. | Non‐linear‐disturbance‐observer‐enhanced MPC for motion control systems with multiple disturbances | |
Yu et al. | Trajectory switching control of robotic manipulators based on RBF neural networks | |
Morato et al. | Sub‐optimal recursively feasible Linear Parameter‐Varying predictive algorithm for semi‐active suspension control | |
CN112987573A (zh) | 基于离策强化学习的小车倒立摆系统的鲁棒最优控制方法 | |
CN112068446B (zh) | 一种基于离散时间模糊模型的直流电机系统抗干扰控制方法 | |
Ma et al. | Filter-and observer-based finite-time adaptive fuzzy control for induction motors systems considering stochastic disturbance and load variation | |
Priyanka et al. | Anti‐disturbance resilient tracking control for semi‐Markov jumping systems | |
CN115933383B (zh) | 一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法 | |
Ileš et al. | Linear matrix inequalities based H∞ control of gantry crane using tensor product transformation | |
Yu et al. | Adaptive finite/fixed‐time stabilizing control for nonlinear systems with parametric uncertainty | |
Pang et al. | Exponentially stable guaranteed cost control for continuous and discrete-time Takagi–Sugeno fuzzy systems | |
Arshad et al. | Deep Deterministic Policy Gradient to Regulate Feedback Control Systems Using Reinforcement Learning. | |
Moez et al. | Takagi-Sugeno fuzzy control of induction motor | |
Humaidi et al. | Block backstepping control design of two-wheeled inverted pendulum via zero dynamic analysis | |
Shahraki et al. | Two wheel self-balanced mobile robot identification based on experimental data | |
Zhang et al. | Adaptive backstepping control of dual-motor driving servo systems with friction | |
Yi et al. | A neural network adaptive interval observer design for nonlinear systems | |
Precup et al. | Charged system search algorithms for optimal tuning of PI controllers | |
Visavakitcharoen et al. | Event-triggered fuzzy integral control for a class of nonlinear singularly perturbed systems | |
Mao et al. | Global stabilization for a class of upper‐triangular stochastic nonlinear systems with input delay via sampled‐data output feedback | |
Chen et al. | Reinforcement learning‐based event‐triggered optimal control for unknown nonlinear systems with input delay | |
CN110879531A (zh) | 一种随机扰动系统的数据驱动自适应优化控制方法及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |