CN114237184A - 一种工业过程的优化学习控制性能提升方法 - Google Patents

一种工业过程的优化学习控制性能提升方法 Download PDF

Info

Publication number
CN114237184A
CN114237184A CN202111559757.0A CN202111559757A CN114237184A CN 114237184 A CN114237184 A CN 114237184A CN 202111559757 A CN202111559757 A CN 202111559757A CN 114237184 A CN114237184 A CN 114237184A
Authority
CN
China
Prior art keywords
control
learning
model
control strategy
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111559757.0A
Other languages
English (en)
Inventor
刘陈鹏
吴锋
张日东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202111559757.0A priority Critical patent/CN114237184A/zh
Publication of CN114237184A publication Critical patent/CN114237184A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/41885Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by modeling, simulation of the manufacturing system
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/32Operator till task planning
    • G05B2219/32339Object oriented modeling, design, analysis, implementation, simulation language
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Manufacturing & Machinery (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种工业过程的优化学习控制性能提升方法。本发明在传统状态空间模型的基础上,通过构建包含跟踪误差和状态增量的新型状态空间模型,在执行器新模型的基础上提出性能指标并构建值函数与Q函数,最后通过设计非策略Q‑学习算法进行最优控制律学习及性能指标的优化,得到最优的控制器增益,进而提升控制性能。本发明不依赖于系统的数学模型而是对大量在线数据的强化学习,这在实际系统状态很难直接测量或者只能测量部分状态信息的环境下有着突出优势,可以有效地改善实际过程生产的控制性能,使得控制效果与控制精度得到提升。

Description

一种工业过程的优化学习控制性能提升方法
技术领域
本发明属于自动化过程控制领域,涉及一种工业过程的优化学习控制性能提升方法。
背景技术
随着现代工业的不断发展,其过程的复杂性也在不断提升,这使得在实际生产过程中会产生许多因素导致控制性能的下降,无法进行精准控制。这不仅影响了工业生产的生产效率,严重时甚至会产生危险。在这种工业背景下,寻求有效可行的控制方法来提高控制性能,对工业过程控制具有重要的意义。
目前对工业过程进行控制的方法主要分为基于模型的方法与基于数据驱动的方法,基于模型的控制方法主要通过建立系统的数学模型对系统进行控制,但现阶段的工业过程系统大多庞大而复杂,运行过程中干扰因素众多,这导致传统基于模型的方法无法精准建立系统的数学模型。随着工业过程控制的发展,现阶段诸多生产过程能在制造进程中产生大量的在线数据,基于模型的控制方法的局限性及弊端在当前背景下显得愈发突出,故在此背景下基于数据驱动的控制方法便应运而生。数据驱动控制指的是直接利用系统的数据而不使用系统数学模型的信息去设计控制器的控制理论,相比较基于模型的控制,基于数据驱动的控制方法更具有灵活性、鲁棒性、更低的建模成本等特性。
基于数据驱动的工业过程控制方法与机器学习的发展密切相关,而强化学习是机器学习的一个重要分支,它是一种从环境状态到动作映射的学习,并期望动作从环境中获得的累积奖赏最大,在解决优化与控制问题上具有很好的前景。但现阶段利用数据驱动的优化学习控制方法还有大片的空白需要填补与优化,针对目前现有的过程控制方法,主要存在以下两方面的问题:
1、控制方法的控制效果与控制范围不足;
2、在未知参数情况下的控制精度不够;
发明内容
本发明要解决的技术问题是,克服传统基于模型控制方法的不足,提供一种工业过程的优化学习控制性能提升方法,针对现代工业复杂的过程控制系统,根据系统所提供的大量过程数据,设计系统模型的性能指标并设计最优控制策略,通过优化学习提升系统的控制性能。该方法可用于工业过程庞大复杂,过程干扰因素多的系统模型中,对系统的控制性能进行提升。
本发明采取的技术方案为:
一种工业过程的优化学习控制性能提升方法,所述方法在传统状态空间模型的基础上,通过构建包含跟踪误差和状态增量的新型状态空间模型,在执行器新模型的基础上设计性能指标并构建值函数与Q函数,最后通过设计非策略Q-学习算法进行最优控制律学习及性能指标的优化,得到最优的控制器增益,进而提升控制性能,具体实现包括以下步骤:
步骤一:建立过程控制系统的等价模型。首先采取线性离散系统作为过程控制系统的描述,然后设计迭代学习规律获取系统的跟踪误差方程与差分方程,根据迭代学习规律,对工业过程的线性离散系统进行转变,得到过程控制系统的等价模型以及故障模型。通过调节故障参数α,来模拟执行器所处的各种工作状态。包括当α=1时,表示执行器处于理想工作状态,当0<α<1,表示执行器实际输入偏小,当α>1,表示执行器实际输入偏大。
步骤二:根据系统的等价模型,设计系统的性能指标。系统的性能指标用J表示。
步骤三:根据最优控制策略,设计最优控制器增益K。根据最优控制策略,值函数与Q函数都具有二次形式,对Q函数进行矩阵分解,得出矩阵H的表达式,根据矩阵H的矩阵参数,得出最优控制器增益K的表达式。
步骤四:设计非策略Q-学习算法。首先进行数据收集,选取输入序列作用于系统,收集在各个时刻的数据;然后进行初始化,选择初始稳定的控制策略;接着对策略进行更新,根据最小二乘法进行学习,进而更新控制的输入;最后进行判断,如果本次迭代的控制策略与上一次的迭代控制策略相差的绝对值若足够小,停止迭代,否则,继续迭代并更新控制策略。
本发明的有益效果:本发明不依赖于系统的数学模型而是对大量在线数据的强化学习,这在实际系统状态很难直接测量或者只能测量部分状态信息的环境下有着突出优势,可以有效地改善实际过程生产的控制性能,使得控制效果与控制精度得到提升。
具体实施方式
下面结合具体实施例进一步说明本发明。
一种工业过程的优化学习控制性能提升方法,其具体包括以下步骤:
步骤一:建立过程控制系统的等价模型。仿真对象以电加热炉为例,首先建立电加热炉系统的等价模型
Figure BDA0003420306720000021
式中,k表示工业过程所在的运行时刻,xk,uk,yk分别表示系统在k时刻的状态、输入和输出,A,B,C分表示维度与状态和输入维度相匹配的系统矩阵。
设计迭代学习规律uk=uk-1+rk,获取系统的跟踪误差方程ek=yr-yk与差分方程Δxk=xk-xk-1
式中,yr表示给定的期望输出轨迹,rk表示k时刻的迭代更新率。
根据迭代学习规律,对电加热炉的线性离散系统进行转变,得到电加热炉控制系统的等价模型Zk+1=A1Zk+B1αrk以及故障模型uk F=αuk,包括当α=1时,表示执行器处于理想工作状态,当0<α<1,表示执行器实际输入偏小,当α>1,表示执行器实际输入偏大。
式中,Zk表示k时刻的状态量,A1,B1表示与Zk,rk维数相匹配的系统矩阵,uk F表示执行器实际的输入,α表示故障参数。
步骤二:根据系统的等价模型,设计系统的性能指标。系统的性能指标为:
Figure BDA0003420306720000022
式中,q、R是与状态、输入维数相匹配的正定矩阵,表示控制器的参数。
步骤三:根据最优控制策略,设计最优控制器增益K。根据最优控制策略rk=KZk,值函数与Q函数都具有二次形式,对Q函数进行矩阵分解,得出矩阵H的表达式
Figure BDA0003420306720000023
根据矩阵H的分块矩阵,可以出最优控制器增益K的表达式K=Hrr -1(HZr)T
式中,HZZ,HZr,Hrr均为矩阵H的分块矩阵。
引入目标策略rk j,rk j=KjZk,将rk j代入等价模型并进行改写,可得控制策略的改写式θj(k)Lj=ρk j
式中:
ρk j=Zk T(q+(Kj)TRKj)Zk
Lj+1=[(vec(L1 j+1))T (vec(L2 j+1))T (vec(L3 j+1))T]T
θj(k)=[θ1 j(k) θ2 j(k) θ3 j(k)]
Figure BDA0003420306720000031
Figure BDA0003420306720000032
Figure BDA0003420306720000033
Kj+1=-(R+L3 j+1)-1(L2 j+1)T
其中,vec表示一种矢量化操作,
Figure BDA0003420306720000035
表示矩阵的叉乘操作,j表示迭代的次数,ρk j表示k时刻第j次迭代时的策略,Lj+1表示第j+1次迭代时的学习参数,L1 j+1、L2 j+1、L3 j+1表示学习参数Lj+1的组成参数,θj(k)表示k时刻第j次迭代时数据,θ1 j(k)、θ2 j(k)、θ3 j(k)则表示迭代数据θj(k)矩阵的组成参数。
步骤四:设计非策略Q-学习算法:
1、首先进行数据收集,选取输入序列作用于系统,收集在各个时刻的数据θj(k)及ρk j
2、进行初始化,选择初始稳定的控制增益K0
3、对策略进行更新,用最小二乘法学习求解表达式θj(k)Lj=ρk j,进而更新控制输入。
4、进行判断,若||Kj-Kj+1||≤l,l>0(l是非常小的正整数),停止迭代,否则,继续返回算法第三步继续迭代并更新控制策略。
实施例
考虑电加热炉的线性离散系统如下:
Figure BDA0003420306720000036
选择的控制器参数为
Figure BDA0003420306720000037
R=0.1,以正常情况即故障参数为α=1为例,给定初始的H,通过学习分别能够得到Q函数里最优的H*以及最优的K*
Figure BDA0003420306720000038
K*=[-0.0153 -0.0002 0.0096]
实现无模型非策略Q学习算法,经过多次学习之后,本发明提出来的方法求出的矩阵H和K逐渐收敛到最优的H*以及最优的K*。仿真结果如下:
Case1.正常情况:
控制性能良好,即α=1。在这种情况下优化学习控制方法和基于模型的控制方法在此类情况下具有近乎相同的控制效果。
Case2.异常情况:
控制性能下降,又可分为两种情况:一种是0<α<1,另一种则是α>1。就仿真对象而言,0<α<1的情况表明此类情况下会导致实际产生的热量小于计划产生的热量,而α>1的情况则相反。在控制性能不良的情况下,优化学习控制方法在跟踪效果与控制精度上,都远高于基于模型的控制方法。
通过实施例,本发明所提出优化学习控制的方法能够有效地改善控制性能,相比传统的基于模型控制的方法,能够应对的范围更广泛,极大程度上优于传统的、对模型依赖性过强的控制方法,使得系统的控制性能得到了有效的提升。

Claims (3)

1.一种工业过程的优化学习控制性能提升方法,其特征在于该方法包括以下步骤:
步骤一:建立过程控制系统的等价模型;
首先采取线性离散系统作为过程控制系统的描述;
然后设计迭代学习规律获取系统的跟踪误差方程与差分方程,根据迭代学习规律,对工业过程的线性离散系统进行转变,得到过程控制系统的等价模型以及故障模型;
通过调节故障参数α,来模拟执行器所处的各种工作状态;
步骤二:根据系统的等价模型,设计系统的性能指标;
步骤三:根据最优控制策略,设计最优控制器增益K;
根据最优控制策略,值函数与Q函数都具有二次形式,对Q函数进行矩阵分解,得出矩阵H的表达式,根据矩阵H的矩阵参数,得出最优控制器增益K的表达式;
步骤四:设计非策略Q-学习算法;
首先进行数据收集,选取输入序列作用于系统,收集在各个时刻的数据;
然后进行初始化,选择初始稳定的控制策略;
接着对控制策略进行更新,根据最小二乘法进行学习,进而更新控制的输入;
最后进行判断,如果本次迭代的控制策略与上一次的迭代控制策略相差的绝对值若足够小,停止迭代,否则,继续迭代并更新控制策略。
2.根据权利要求1所述的一种工业过程的优化学习控制性能提升方法,其特征在于:当α=1时,表示执行器处于理想工作状态,当0<α<1,表示执行器实际输入偏小,当α>1,表示执行器实际输入偏大。
3.根据权利要求1所述的一种工业过程的优化学习控制性能提升方法,其特征在于:所述的系统的性能指标J为
Figure FDA0003420306710000011
式中,ri表示i时刻的迭代更新率,q是与状态相匹配的正定矩阵,R是与输入维数相匹配的正定矩阵,Zi表示i时刻的状态量。
CN202111559757.0A 2021-12-20 2021-12-20 一种工业过程的优化学习控制性能提升方法 Pending CN114237184A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111559757.0A CN114237184A (zh) 2021-12-20 2021-12-20 一种工业过程的优化学习控制性能提升方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111559757.0A CN114237184A (zh) 2021-12-20 2021-12-20 一种工业过程的优化学习控制性能提升方法

Publications (1)

Publication Number Publication Date
CN114237184A true CN114237184A (zh) 2022-03-25

Family

ID=80758926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111559757.0A Pending CN114237184A (zh) 2021-12-20 2021-12-20 一种工业过程的优化学习控制性能提升方法

Country Status (1)

Country Link
CN (1) CN114237184A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083064A (zh) * 2019-04-29 2019-08-02 辽宁石油化工大学 一种基于非策略q-学习的网络最优跟踪控制方法
CN112286052A (zh) * 2020-09-24 2021-01-29 辽宁石油化工大学 一种利用线性系统数据解决工业控制最优跟踪控制方法
CN112445131A (zh) * 2019-08-30 2021-03-05 天津大学 一种线性系统自适应最优跟踪控制方法
WO2021097696A1 (zh) * 2019-11-20 2021-05-27 大连理工大学 一种航空发动机在最优加速跟踪控制中的自适应动态规划方法
CN112859604A (zh) * 2021-01-11 2021-05-28 辽宁石油化工大学 一种针对未知动态注塑成型过程的二维数据驱动最优跟踪控制方法
US20210178600A1 (en) * 2019-12-12 2021-06-17 Mitsubishi Electric Research Laboratories, Inc. System and Method for Robust Optimization for Trajectory-Centric ModelBased Reinforcement Learning

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083064A (zh) * 2019-04-29 2019-08-02 辽宁石油化工大学 一种基于非策略q-学习的网络最优跟踪控制方法
CN112445131A (zh) * 2019-08-30 2021-03-05 天津大学 一种线性系统自适应最优跟踪控制方法
WO2021097696A1 (zh) * 2019-11-20 2021-05-27 大连理工大学 一种航空发动机在最优加速跟踪控制中的自适应动态规划方法
US20210178600A1 (en) * 2019-12-12 2021-06-17 Mitsubishi Electric Research Laboratories, Inc. System and Method for Robust Optimization for Trajectory-Centric ModelBased Reinforcement Learning
CN112286052A (zh) * 2020-09-24 2021-01-29 辽宁石油化工大学 一种利用线性系统数据解决工业控制最优跟踪控制方法
CN112859604A (zh) * 2021-01-11 2021-05-28 辽宁石油化工大学 一种针对未知动态注塑成型过程的二维数据驱动最优跟踪控制方法

Similar Documents

Publication Publication Date Title
CN106933105B (zh) 受限条件下的轨迹更新综合预测迭代学习控制算法
CN107168293A (zh) 一种批次化工过程的模型预测跟踪控制方法
CN111158237B (zh) 基于神经网络的工业炉炉温多步预测控制方法
CN105389623A (zh) 一种采用改进蚁群算法的热工过程模型参数辨识方法
CN104516268A (zh) 一种基于模糊神经网络的机器人标定误差补偿方法
CN109634108A (zh) 参数自整定的mimo异因子全格式无模型控制方法
CN109581864A (zh) 参数自整定的mimo异因子偏格式无模型控制方法
CN111123708B (zh) 基于分布式动态矩阵控制优化的焦化炉炉膛压力控制方法
CN111506037A (zh) 动态矩阵优化的工业加热炉系统分布式控制方法
CN109782586B (zh) 参数自整定的miso异因子紧格式无模型控制方法
CN111143968A (zh) 一种质子交换膜燃料电池变遗忘因子递推子空间辨识方法
CN109814389A (zh) 参数自整定的mimo异因子紧格式无模型控制方法
Li et al. Robust asynchronous fuzzy predictive fault-tolerant tracking control for nonlinear multi-phase batch processes with time-varying reference trajectories
CN114237184A (zh) 一种工业过程的优化学习控制性能提升方法
CN110597055B (zh) 抗不确定性的2d分段仿射间歇过程最小-最大优化的预测控制方法
CN115167150B (zh) 具有未知系统动态的批次过程二维离轨策略交错q学习最优跟踪控制方法
CN111427261A (zh) 一种基于猫群算法的pid参数整定方法
CN109101683B (zh) 燃煤分质利用与清洁预处理系统热解釜的模型更新方法
CN116430726A (zh) 基于减法聚类和模糊神经网络的涡轮机组控制方法
CN109814388B (zh) 参数自整定的miso异因子偏格式无模型控制方法
CN108897219B (zh) 一种化工不确定工业过程约束预测控制方法
CN113848839B (zh) 一种基于迭代学习控制的双层结构经济性能提升策略
CN112859598B (zh) 一种重组式经验变换型迭代学习控制方法
CN114048842A (zh) 梯度下降优化神经网络的主轴可靠性预测方法
CN111459030B (zh) 一种用于锅炉闭环燃烧优化的自适应建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination