CN115933383B

CN115933383B - 一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法

Info

Publication number: CN115933383B
Application number: CN202211454633.0A
Authority: CN
Inventors: 刘晓敏; 厉功贺; 余梦君; 王浩宇; 杨春雨; 周林娜; 马磊; 王国庆
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2022-11-21
Filing date: 2022-11-21
Publication date: 2023-05-30
Anticipated expiration: 2042-11-21
Also published as: CN115933383A

Abstract

本发明公开了一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法，包括：利用奇异摄动理论，将原始H无穷控制问题进行分解得到快子问题和慢子问题，并引入坐标转换将快慢子问题重塑成两个标准的子问题；解决快慢子系统数据不可测的问题，进一步推导基于重构数据的H无穷强化学习迭代算法；在快慢时间尺度内分别引入执行‑评价‑扰动神经网络近似控制器、性能指标和扰动，基于最小二乘法迭代更新神经网络的权重，得到基于强化学习的快、慢H无穷控制器；再进行组合，得到非线性双时间尺度工业控制系统跨尺度强化学习组合H无穷控制器。本发明避免了在强化学习框架下设计双时间尺度工业系统控制器时潜在的高维和病态数值问题。

Description

一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法

技术领域

本发明涉及非线性双时间尺度工业系统数据驱动控制领域，主要涉及一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法，具体非线性双时间尺度工业系统包括但不限于电机系统、流程工业系统等。

背景技术

双时间尺度工业系统是一类广泛存在于电力系统、过程工业等领域的具有快、慢动态耦合的高阶系统。大多数实际系统都是非线性的，且外部干扰不可避免地存在，对系统性能造成诸多不利影响。因此，研究非线性双时间尺度工业系统鲁棒控制以抑制干扰带来的不利影响具有重要的意义。现有的非线性双时间尺度鲁棒控制方法主要基于扰动观测器、滑模控制、自抗扰控制等。近十几年，H无穷控制方法发展势头迅猛，它可使系统满足预定的干扰衰减指标。然而，现有结果都是通过广义系统理论设计全阶系统的H无穷控制器，无法避免高维问题。时间尺度分解方法在双时间尺度系统分析和综合中展现出强大功能。它通过将原始系统分解为独立于时间尺度参数的快慢子系统，并为两个子系统分别设计控制器，从而避免高维和病态数值。虽已有结果引入时间尺度分解来设计非线性双时间尺度的组合鲁棒控制器，但要求系统模型完全已知，虚拟子系统状态要求完全可测。目前，尚未有动力学未知的非线性双时间尺度的H无穷控制。

强化学习是一种处理动力学未知系统最优控制问题的有效方法。通过执行-评价神经网络与系统之间的信息交互，以迭代的方式进行价值函数评估和控制策略更新的过程，最终收敛到最优解。如今，已经出现了很多方法可在强化学习框架下克服干扰带来的不利影响。作为一种主流的抗扰方法，基于强化学习的H无穷控制引起了广泛关注。将H无穷控制问题转化为零和博弈问题并利用最优控制思想求解已被证明是一种有效的方法。然而，由于双时间尺度系统具有高维数和快慢动态耦合特性，已有强化学习方法不适用于非线性双时间尺度工业系统，甚至会导致迭代学习过程中发生病态数值问题。针对含未知动态的非线性双时间尺度系统，虽已有一些最优控制结果并用于倒立摆、电机等系统的仿真中，但具有未知动力学的非线性双时间尺度系统干扰抑制问题研究仍是空白，仍有待开发。

因此，迫切需要开发一种具有自学习能力的非线性双时间尺度H无穷控制策略，在含有未知动态和数据不完美情况下，仍可实现非线性双时间尺度工业系统如电机、流程工业等系统的H无穷控制。迫切需要在强化学习框架下设计一种组合控制方法，避免双时间尺度系统分析和设计过程中潜在的高维和病态数值问题。

发明内容

本发明提供了一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法，解决含有未建模慢动态和不完美数据的工业系统干扰抑制问题，实现了非线性双时间尺度工业系统H无穷控制策略的自学习改进，避免了在强化学习框架下设计双时间尺度工业系统控制器时潜在的高维和病态数值问题，详见下文描述：

一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法，所述方法包括：

步骤1，利用奇异摄动理论，将原始H无穷控制问题进行分解得到快子问题和慢子问题，并引入坐标转换，将慢子问题重塑成标准子问题，其性能指标中不含有状态量、控制量和扰动量的耦合项；

步骤2，基于原系统的输入状态数据，提出虚拟子系统的状态重构机制，并融合跨尺度信息交互修正时间尺度带来的偏置，解决快慢子系统数据不可测的问题，进一步推导基于重构数据的H无穷强化学习迭代算法；

步骤3，在快慢时间尺度内分别引入执行-评价神经网络近似控制器和性能指标，基于最小二乘法迭代更新神经网络的权重，得到基于强化学习的快、慢H无穷控制器；

步骤4，对快慢H无穷控制器进行组合，得到非线性双时间尺度工业控制系统跨尺度强化学习组合H无穷控制器。

进一步的，步骤1具体包括如下内容：

步骤101、针对的非线性双时间尺度工业系统，可以为常见的电机系统、流程工业系统等；不失一般性，系统的状态空间模型描述为：

其中，

分别是慢、快变量，如在电机系统中慢变量为电机转速，快变量为电流，在混合分离增稠工艺流程中慢变量为底流浓度，快变量为泥浆流量，/>

是控制输入，/>

是外部扰动，0<ε＜＜1为时间尺度参数，

为适当维数的向量或矩阵方程；(0,0)为系统平衡点，f₁₁,f₁₂,g₁,k₁已知，f₂₁,f₂₂,g₂,k₂未知；

步骤102，所述原始H无穷控制问题为：设计状态反馈控制器u(t)＝u^*(x)使非线性双时间尺度工业系统渐近稳定(当ω(t)≡0时)且以下L₂增益小于或等于γ：

其中，ω∈L₂[0,∞),γ>0是提前给定的干扰衰减水平，

Q＝[C₁ C₂]^T[C₁ C₂]>0，R>0；

步骤103，所述快子问题为：设计状态反馈控制器u_f＝u_f(x_2f)使得快子系统

渐近稳定(当ω(t)≡0时)且以下L₂增益小于或等于γ_f：

其中，F_f(x_2f)＝f₂₂(x₁)x_2f,G_f(x_2f)＝g₂(x₁),K_f(x_2f)＝k₂(x₁),

γ_f>0是提前给定的快子系统干扰衰减水平；

步骤104，所述慢子问题为：设计状态反馈控制器u_s(t)＝u_s(x_1s)使得慢子系统

渐近稳定(当ω(t)≡0时)且以下L₂增益小于或等于γ_s：

其中，

γ_s>0是提前给定的慢子系统干扰衰减水平；

步骤105，所述引入的坐标转换为：

其中，

M_s＝q^Tq+R，/>

N_s＝N+r^Tσr；

步骤106，所述重塑后的标准慢子问题为：

设计状态反馈控制器v_s(t)＝v_s(x_1s)使得慢子系统

渐近稳定(当ω_s(t)≡0时)且满足：

其中，

进一步的，步骤2具体包括如下内容；

步骤201，虚拟慢子系统的状态重构机制为：利用原系统慢动态状态x₁重构不可测的虚拟慢子系统状态，基于重构数据x₁的慢子系统H无穷强化学习迭代算法为：

其中，

i为慢控制器迭代指标；

步骤202，虚拟子系统的状态重构机制为：利用原系统快动态状态x_2f并融合跨尺度信息x₁和u_s构造得状态

进而对不可测的快子系统状态进行重构，所述的基于重构数据/>

的快子系统H无穷强化学习迭代算法为：

其中，

j为快控制器迭代指标。

进一步的，步骤3具体包括如下内容；

步骤301，设计基于强化学习的慢控制器，具体为：

(1)选取慢评价神经网络、第k个慢执行神经网络以及第l个慢扰动神经网络的线性独立激活函数向量分别为：

其中，k＝1,…,n₁,l＝1,…,n₂，C_s,A_s,D_s为隐层神经元个数，设计评价-执行-扰动神经网络用于近似慢性能指标J_s(x₁)、第k个慢控制器v_s(k)(x₁)以及第l个慢扰动ω_s(l)(x₁)：

其中，

分别表示慢评价神经网络、第k个慢执行神经网络以及第l个慢扰动神经网络的权重向量；

(2)初始化神经网络权值向量

给定一个容许控制u_f0，在不同的执行策略及扰动策略v_s(n),ω_s(n)作用下，从原系统中采集数据对{x_1(n),v_s(n),ω_s(n),x′_1(n)}并将其放入样本集/>

中，收集的样本数目为N_s，n＝1,…,N_s；

(3)利用

和/>

进一步构造数据库/>

基于最小二乘法同时更新评价-执行-扰动神经网络的权重：

/>

其中，

(4)利用坐标转换及

并结合迭代所得的慢执行神经网络权值得到基于强化学习的慢H无穷控制器/>

步骤302，设计基于强化学习的慢控制器，具体为：

(1)选取快评价神经网络、第k个快执行神经网络以及第l个快扰动神经网络的线性独立激活函数向量分别为

C_f,A_f,D_f为隐层神经元个数，设计评价-执行-扰动神经网络用于近似快性能指标/>

第k个快控制器/>

以及第l个快扰动/>

其中，

分别表示快评价神经网络、第k个快执行神经网络以及第l个快扰动神经网络的权重向量；

(2)初始化神经网络权值向量

选定慢子系统控制器为/>

在不同的执行策略及扰动策略u_f(n),ω_f(n)作用下，从原系统中采集数据对/>

并将其放入样本集/>

中，收集的样本数目为N_f，n＝1,…,N_f；

(3)利用

和/>

进一步构造数据库/>

基于最小二乘法同时更新评价-执行-扰动神经网络的权重：

其中，

(4)基于迭代所得的快执行神经网络权值得到强化学习快H无穷控制器

进一步的，步骤4中非线性双时间尺度工业控制系统跨尺度强化学习组合H无穷控制器：

本发明提供的技术方案的有益效果是：

1)本发明针对非线性双时间尺度工业系统，考虑未建模慢动态和不完美数据，设计了一种基于强化学习的组合H无穷控制方法，可以实现不完美测量数据下慢动态未知非线性双时间尺度工业系统的H无穷控制，相比已有的双时间尺度系统H无穷控制方法，更具自学习能力；

2)引入适当的坐标转换，将快慢子H无穷问题进行标准化重塑，进一步设计了基于原系统测量数据的虚拟子系统状态重构机制，解决了虚拟子系统数据不可完美测量的问题。

3)将经典的强化学习H无穷控制算法推广到具有双时间尺度特性的工业控制系统中，在快慢尺度内分别设计了基于重构数据的强化学习迭代算法，避免了高维和病态数值问题，适用性更广。

附图说明

图1是基于强化学习的H无穷控制框架图；

图2是慢子系统评价神经网络权值迭代过程示意图；

图3是快子系统执行神经网络权值迭代过程示意图；

图4是组合控制下闭环电机系统状态轨迹曲线图；

图5是组合控制下闭环电机系统扰动衰减曲线图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

本发明的一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法，如图1所示，该方法包括如下步骤：

步骤1：利用奇异摄动理论，将原始H无穷控制问题进行分解得到快子问题和慢子问题，并引入坐标转换，将慢子问题重塑成标准子问题，其性能指标中不含有状态量、控制量和扰动量的耦合项；具体内容如下：

步骤101、针对的非线性双时间尺度工业系统，可以为常见的电机系统、流程工业系统等。不失一般性，系统的状态空间模型描述为：

其中，

是控制输入，/>

是外部扰动，0<ε＜＜1为时间尺度参数，

为适当维数的向量或矩阵方程，(0,0)为系统平衡点，f₁₁,f₁₂,g₁,k₁已知，f₂₁,f₂₂,g₂,k₂未知。

其中，ω∈L₂[0,∞),γ>0是提前给定的干扰衰减水平，

Q＝[C₁ C₂]^T[C₁ C₂]>0，R>0。

渐近稳定(当ω(t)≡0时)且以下L₂增益小于或等于γ_f：

γ_f>0是提前给定的快子系统干扰衰减水平。

渐近稳定(当ω(t)≡0时)且以下L₂增益小于或等于γ_s：

其中，

γ_s>0是提前给定的慢子系统干扰衰减水平。

步骤105，所述引入的坐标转换为：

其中，

M_s＝q^Tq+R，/>

N_s＝N+r^Tσr。

步骤106，所述重塑后的标准慢子问题为：

设计状态反馈控制器v_s(t)＝v_s(x_1s)使得慢子系统

渐近稳定(当ω_s(t)≡0时)且满足：

其中，Q_s＝I-σ+(σr-r)N_s ^-1(σ-r)^T>0。

步骤2：基于原系统的输入状态数据，提出虚拟子系统的状态重构机制，并融合跨尺度信息交互修正时间尺度带来的偏置，解决快慢子系统数据不可测的问题，进一步推导基于重构数据的H无穷强化学习迭代算法；具体包括如下；

其中，

i为慢控制器迭代指标。

进而对不可测的快子系统状态进行重构，所述的基于重构数据

的快子系统H无穷强化学习迭代算法为：

其中，

j为迭代次数。

步骤3，在快慢时间尺度内分别引入执行-评价神经网络近似控制器和性能指标，基于最小二乘法迭代更新神经网络的权重，得到基于强化学习的快、慢H无穷控制器；具体包括如下：

步骤301，设计基于强化学习的慢控制器，具体为：

其中，

分别表示慢评价神经网络、第k个慢执行神经网络以及第l个慢扰动神经网络的权重向量。

(2)初始化神经网络权值向量

中，收集的样本数目为N_s，n＝1,…,N_s。

(3)利用

和/>

进一步构造数据库/>

基于最小二乘法同时更新评价-执行-扰动神经网络的权重：

其中，

(4)利用坐标转换及

步骤302，设计基于强化学习的慢控制器，具体为：

第k个快控制器/>

以及第l个快扰动/>

其中，

分别表示快评价神经网络、第k个快执行神经网络以及第l个快扰动神经网络的权重向量。

(2)初始化神经网络权值向量

选定慢子系统控制器为/>

并将其放入样本集/>

中，收集的样本数目为N_f，n＝1,…,N_f。

(3)利用

和/>

进一步构造数据库/>

基于最小二乘法同时更新评价-执行-扰动神经网络的权重：

其中，

/>

步骤4：对快慢H无穷控制器进行组合，得到非线性双时间尺度工业控制系统跨尺度强化学习组合H无穷控制器为：

本发明方法适用于伺服电机、流程工业等系统。为使本领域技术人员更好的理解本发明，下面结合具体实施例，对基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法进行详细说明。

考虑如下表贴式永磁同步电机：

其中，极对数n_p＝4,粘性摩擦系数B_υ＝0.005N·m·s,定子电阻R_s＝10.7Ω,合成转子磁链

直轴和交轴电感L_d＝L_q＝0.0098mH,转动惯量/>

选择状态变量/>

为电机转速、直轴电流、交轴电流，控制输入u＝[u₁ u₂]^T＝[u_d u_q]^T为直轴和交轴电压，外部扰动/>

为负载转矩，时间尺度参数/>

得到

该实施例的控制目标是设计一个状态反馈控制器使电机系统(23)在ω(t)≡0时渐近稳定，且满足L₂增益

选择Q和R分别为二阶、三阶单位矩阵，γ＝5。

在设计慢H无穷控制器时，引入四个神经网络，包括一个慢评价神经网络，两个慢执行神经网络和一个慢扰动神经网络。激活函数函数选为

初始权值选为

迭代终止阈值设为10^-6。施加探测噪声，令u_f0＝0，采集样本数据。经过16次迭代，四个神经网络权值同时收敛至/>

慢子系统评价神经网络权值迭代过程如图2所示。基于慢执行神经网络权值并结合式(7)(8)(14)，可得慢子系统H无穷控制器/>

在设计快控制器时，由于快子系统与干扰无关，因此快子系统H无穷控制问题本质上转化为最优控制问题。引入一个快评价神经网络和两个快执行神经网络，其激活函数

初始权值选为

迭代终止阈值设为10^-6。施加探测噪声，令/>

采集样本数据。经过6次迭代，三个神经网络权值同时收敛至

快子系统执行神经网络权值迭代过程如图3所示。基于快执行神经网络权值可得快子系统H无穷控制器/>

基于慢H无穷控制器和快控制器，得组合H无穷控制器为

组合控制器作用下闭环电机系统状态轨迹曲线如图4所示，可见，系统在没有扰动的情况下实现了渐近稳定。组合控制下闭环电机系统扰动衰减曲线如图5所示，其中

反应组合控制器下闭环电机系统扰动衰减趋势，随着时间推移γ_d收敛至3.947(<5)，满足L₂增益。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法，其特征在于，包括如下步骤：

步骤1，利用奇异摄动理论，将原始H无穷控制问题进行分解得到快子问题和慢子问题，并引入坐标转换，将慢子问题重塑成标准子问题，其性能指标中不含有状态量、控制量和扰动量的耦合项，具体包括如下内容：

步骤101、非线性双时间尺度工业系统用以下状态空间模型描述：

其中，

分别是慢、快变量，/>

是控制输入，/>

是外部扰动，0＜ε＜＜1为时间尺度参数，/>

步骤102，所述原始H无穷控制问题为：设计状态反馈控制器u(t)＝u^*(x)，当ω(t)≡0时，使非线性双时间尺度工业系统渐近稳定，且以下L₂增益小于或等于γ：

其中，ω∈L₂[0,∞),γ>0是提前给定的干扰衰减水平，

Q＝[C₁ C₂]^T[C₁ C₂]>0，R>0；

渐近稳定且以下L₂增益小于或等于γ_f：

γ_f>0是提前给定的快子系统干扰衰减水平；

渐近稳定且以下L₂增益小于或等于γ_s：

其中，

γ_s>0是提前给定的慢子系统干扰衰减水平；

步骤105，所述引入的坐标转换为：

其中，

M_s＝q^Tq+R，/>

N_s＝N+r^Tσr；

步骤106，所述重塑后的标准慢子问题为：

设计状态反馈控制器v_s(t)＝v_s(x_1s)使得慢子系统

渐近稳定且满足：

其中，

2.根据权利要求1所述一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法，其特征在于，步骤2具体包括如下内容；

其中，J_s(x₁)＝J_s(x₁,v_s(x₁),

i为迭代次数；

的快子系统H无穷强化学习迭代算法为：/>

其中，

j为迭代次数。

3.根据权利要求2所述一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法，其特征在于，步骤3具体包括如下内容；

步骤301，设计基于强化学习的慢控制器，具体为：

其中，

(2)初始化神经网络权值向量

给定一个容许控制u_f0，在不同的执行策略及扰动策略v_s(n),ω_s(n)作用下，从原系统中采集数据对{x_1(n),v_s(n),ω_s(n),x'_1(n)}并将其放入样本集

中，收集的样本数目为N_s，n＝1,…,N_s；

(3)利用

和/>

进一步构造数据库/>

基于最小二乘法同时更新评价-执行-扰动神经网络的权重：

其中，

(4)利用坐标转换及

步骤302，设计基于强化学习的快控制器，具体为：

k＝1,…,n₁,l＝1,…,n₂C_f,A_f,D_f为隐层神经元个数，设计评价-执行-扰动神经网络用于近似快性能指标/>

第k个快控制器/>

以及第l个快扰动/>

其中，

(2)初始化神经网络权值向量

选定慢子系统控制器为/>

并将其放入样本集/>

中，收集的样本数目为N_f，n＝1,…,N_f；

(3)利用

和/>

进一步构造数据库/>

基于最小二乘法同时更新评价-执行-扰动神经网络的权重：

其中，

4.根据权利要求3所述一种基于强化学习的非线性双时间尺度工业系统H无穷组合控制方法，其特征在于，步骤4中非线性双时间尺度工业控制系统跨尺度强化学习组合H无穷控制器：

/>