CN114237184A

CN114237184A - 一种工业过程的优化学习控制性能提升方法

Info

Publication number: CN114237184A
Application number: CN202111559757.0A
Authority: CN
Inventors: 刘陈鹏; 吴锋; 张日东
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-03-25

Abstract

本发明公开了一种工业过程的优化学习控制性能提升方法。本发明在传统状态空间模型的基础上，通过构建包含跟踪误差和状态增量的新型状态空间模型，在执行器新模型的基础上提出性能指标并构建值函数与Q函数，最后通过设计非策略Q‑学习算法进行最优控制律学习及性能指标的优化，得到最优的控制器增益，进而提升控制性能。本发明不依赖于系统的数学模型而是对大量在线数据的强化学习，这在实际系统状态很难直接测量或者只能测量部分状态信息的环境下有着突出优势，可以有效地改善实际过程生产的控制性能，使得控制效果与控制精度得到提升。

Description

一种工业过程的优化学习控制性能提升方法

技术领域

本发明属于自动化过程控制领域，涉及一种工业过程的优化学习控制性能提升方法。

背景技术

随着现代工业的不断发展，其过程的复杂性也在不断提升，这使得在实际生产过程中会产生许多因素导致控制性能的下降，无法进行精准控制。这不仅影响了工业生产的生产效率，严重时甚至会产生危险。在这种工业背景下，寻求有效可行的控制方法来提高控制性能，对工业过程控制具有重要的意义。

目前对工业过程进行控制的方法主要分为基于模型的方法与基于数据驱动的方法，基于模型的控制方法主要通过建立系统的数学模型对系统进行控制，但现阶段的工业过程系统大多庞大而复杂，运行过程中干扰因素众多，这导致传统基于模型的方法无法精准建立系统的数学模型。随着工业过程控制的发展，现阶段诸多生产过程能在制造进程中产生大量的在线数据，基于模型的控制方法的局限性及弊端在当前背景下显得愈发突出，故在此背景下基于数据驱动的控制方法便应运而生。数据驱动控制指的是直接利用系统的数据而不使用系统数学模型的信息去设计控制器的控制理论，相比较基于模型的控制，基于数据驱动的控制方法更具有灵活性、鲁棒性、更低的建模成本等特性。

基于数据驱动的工业过程控制方法与机器学习的发展密切相关，而强化学习是机器学习的一个重要分支，它是一种从环境状态到动作映射的学习，并期望动作从环境中获得的累积奖赏最大，在解决优化与控制问题上具有很好的前景。但现阶段利用数据驱动的优化学习控制方法还有大片的空白需要填补与优化，针对目前现有的过程控制方法，主要存在以下两方面的问题：

1、控制方法的控制效果与控制范围不足；

2、在未知参数情况下的控制精度不够；

发明内容

本发明要解决的技术问题是，克服传统基于模型控制方法的不足，提供一种工业过程的优化学习控制性能提升方法，针对现代工业复杂的过程控制系统，根据系统所提供的大量过程数据，设计系统模型的性能指标并设计最优控制策略，通过优化学习提升系统的控制性能。该方法可用于工业过程庞大复杂，过程干扰因素多的系统模型中，对系统的控制性能进行提升。

本发明采取的技术方案为：

一种工业过程的优化学习控制性能提升方法，所述方法在传统状态空间模型的基础上，通过构建包含跟踪误差和状态增量的新型状态空间模型，在执行器新模型的基础上设计性能指标并构建值函数与Q函数，最后通过设计非策略Q-学习算法进行最优控制律学习及性能指标的优化，得到最优的控制器增益，进而提升控制性能，具体实现包括以下步骤：

步骤一：建立过程控制系统的等价模型。首先采取线性离散系统作为过程控制系统的描述，然后设计迭代学习规律获取系统的跟踪误差方程与差分方程，根据迭代学习规律，对工业过程的线性离散系统进行转变，得到过程控制系统的等价模型以及故障模型。通过调节故障参数α，来模拟执行器所处的各种工作状态。包括当α＝1时，表示执行器处于理想工作状态，当0＜α＜1，表示执行器实际输入偏小，当α＞1，表示执行器实际输入偏大。

步骤二：根据系统的等价模型，设计系统的性能指标。系统的性能指标用J表示。

步骤三：根据最优控制策略，设计最优控制器增益K。根据最优控制策略，值函数与Q函数都具有二次形式，对Q函数进行矩阵分解，得出矩阵H的表达式，根据矩阵H的矩阵参数，得出最优控制器增益K的表达式。

步骤四：设计非策略Q-学习算法。首先进行数据收集，选取输入序列作用于系统，收集在各个时刻的数据；然后进行初始化，选择初始稳定的控制策略；接着对策略进行更新，根据最小二乘法进行学习，进而更新控制的输入；最后进行判断，如果本次迭代的控制策略与上一次的迭代控制策略相差的绝对值若足够小，停止迭代，否则，继续迭代并更新控制策略。

本发明的有益效果：本发明不依赖于系统的数学模型而是对大量在线数据的强化学习，这在实际系统状态很难直接测量或者只能测量部分状态信息的环境下有着突出优势，可以有效地改善实际过程生产的控制性能，使得控制效果与控制精度得到提升。

具体实施方式

下面结合具体实施例进一步说明本发明。

一种工业过程的优化学习控制性能提升方法，其具体包括以下步骤：

步骤一：建立过程控制系统的等价模型。仿真对象以电加热炉为例，首先建立电加热炉系统的等价模型

式中，k表示工业过程所在的运行时刻，x_k，u_k，y_k分别表示系统在k时刻的状态、输入和输出，A，B，C分表示维度与状态和输入维度相匹配的系统矩阵。

设计迭代学习规律u_k＝u_k-1+r_k，获取系统的跟踪误差方程e_k＝y_r-y_k与差分方程Δx_k＝x_k-x_k-1。

式中，y_r表示给定的期望输出轨迹，r_k表示k时刻的迭代更新率。

根据迭代学习规律，对电加热炉的线性离散系统进行转变，得到电加热炉控制系统的等价模型Z_k+1＝A₁Z_k+B₁αr_k以及故障模型u_k ^F＝αu_k，包括当α＝1时，表示执行器处于理想工作状态，当0＜α＜1，表示执行器实际输入偏小，当α＞1，表示执行器实际输入偏大。

式中，Z_k表示k时刻的状态量，A₁，B₁表示与Z_k，r_k维数相匹配的系统矩阵，u_k ^F表示执行器实际的输入，α表示故障参数。

步骤二：根据系统的等价模型，设计系统的性能指标。系统的性能指标为：

式中，q、R是与状态、输入维数相匹配的正定矩阵，表示控制器的参数。

步骤三：根据最优控制策略，设计最优控制器增益K。根据最优控制策略r_k＝KZ_k，值函数与Q函数都具有二次形式，对Q函数进行矩阵分解，得出矩阵H的表达式

根据矩阵H的分块矩阵，可以出最优控制器增益K的表达式K＝H_rr ^-1(H_Zr)^T。

式中，H_ZZ，H_Zr，H_rr均为矩阵H的分块矩阵。

引入目标策略r_k ^j，r_k ^j＝K^jZ_k，将r_k ^j代入等价模型并进行改写，可得控制策略的改写式θ^j(k)L^j＝ρ_k ^j。

式中：

ρ_k ^j＝Z_k ^T(q+(K^j)^TRK^j)Z_k

L^j+1＝[(vec(L₁ ^j+1))^T (vec(L₂ ^j+1))^T (vec(L₃ ^j+1))^T]^T

θ^j(k)＝[θ₁ ^j(k) θ₂ ^j(k) θ₃ ^j(k)]

K^j+1＝-(R+L₃ ^j+1)^-1(L₂ ^j+1)^T

其中，vec表示一种矢量化操作，

表示矩阵的叉乘操作，j表示迭代的次数，ρ_k ^j表示k时刻第j次迭代时的策略，L^j+1表示第j+1次迭代时的学习参数，L₁ ^j+1、L₂ ^j+1、L₃ ^j+1表示学习参数L^j+1的组成参数，θ^j(k)表示k时刻第j次迭代时数据，θ₁ ^j(k)、θ₂ ^j(k)、θ₃ ^j(k)则表示迭代数据θ^j(k)矩阵的组成参数。

步骤四：设计非策略Q-学习算法：

1、首先进行数据收集，选取输入序列作用于系统，收集在各个时刻的数据θ^j(k)及ρ_k ^j。

2、进行初始化，选择初始稳定的控制增益K⁰。

3、对策略进行更新，用最小二乘法学习求解表达式θ^j(k)L^j＝ρ_k ^j，进而更新控制输入。

4、进行判断，若||K^j-K^j+1||≤l，l＞0(l是非常小的正整数)，停止迭代，否则，继续返回算法第三步继续迭代并更新控制策略。

实施例

考虑电加热炉的线性离散系统如下：

选择的控制器参数为

R＝0.1，以正常情况即故障参数为α＝1为例，给定初始的H，通过学习分别能够得到Q函数里最优的H^*以及最优的K^*：

K^*＝[-0.0153 -0.0002 0.0096]

实现无模型非策略Q学习算法，经过多次学习之后，本发明提出来的方法求出的矩阵H和K逐渐收敛到最优的H^*以及最优的K^*。仿真结果如下：

Case1.正常情况：

控制性能良好，即α＝1。在这种情况下优化学习控制方法和基于模型的控制方法在此类情况下具有近乎相同的控制效果。

Case2.异常情况：

控制性能下降，又可分为两种情况：一种是0＜α＜1，另一种则是α＞1。就仿真对象而言，0＜α＜1的情况表明此类情况下会导致实际产生的热量小于计划产生的热量，而α＞1的情况则相反。在控制性能不良的情况下，优化学习控制方法在跟踪效果与控制精度上，都远高于基于模型的控制方法。

通过实施例，本发明所提出优化学习控制的方法能够有效地改善控制性能，相比传统的基于模型控制的方法，能够应对的范围更广泛，极大程度上优于传统的、对模型依赖性过强的控制方法，使得系统的控制性能得到了有效的提升。

Claims

1.一种工业过程的优化学习控制性能提升方法，其特征在于该方法包括以下步骤：

步骤一：建立过程控制系统的等价模型；

首先采取线性离散系统作为过程控制系统的描述；

然后设计迭代学习规律获取系统的跟踪误差方程与差分方程，根据迭代学习规律，对工业过程的线性离散系统进行转变，得到过程控制系统的等价模型以及故障模型；

通过调节故障参数α，来模拟执行器所处的各种工作状态；

步骤二：根据系统的等价模型，设计系统的性能指标；

步骤三：根据最优控制策略，设计最优控制器增益K；

根据最优控制策略，值函数与Q函数都具有二次形式，对Q函数进行矩阵分解，得出矩阵H的表达式，根据矩阵H的矩阵参数，得出最优控制器增益K的表达式；

步骤四：设计非策略Q-学习算法；

首先进行数据收集，选取输入序列作用于系统，收集在各个时刻的数据；

然后进行初始化，选择初始稳定的控制策略；

接着对控制策略进行更新，根据最小二乘法进行学习，进而更新控制的输入；

最后进行判断，如果本次迭代的控制策略与上一次的迭代控制策略相差的绝对值若足够小，停止迭代，否则，继续迭代并更新控制策略。

2.根据权利要求1所述的一种工业过程的优化学习控制性能提升方法，其特征在于：当α＝1时，表示执行器处于理想工作状态，当0<α<1，表示执行器实际输入偏小，当α>1，表示执行器实际输入偏大。

3.根据权利要求1所述的一种工业过程的优化学习控制性能提升方法，其特征在于：所述的系统的性能指标J为

式中，r_i表示i时刻的迭代更新率，q是与状态相匹配的正定矩阵，R是与输入维数相匹配的正定矩阵，Z_i表示i时刻的状态量。