CN115327904A - 二维间歇过程非策略无模型输出反馈最优跟踪控制方法 - Google Patents
二维间歇过程非策略无模型输出反馈最优跟踪控制方法 Download PDFInfo
- Publication number
- CN115327904A CN115327904A CN202210962598.7A CN202210962598A CN115327904A CN 115327904 A CN115327904 A CN 115327904A CN 202210962598 A CN202210962598 A CN 202210962598A CN 115327904 A CN115327904 A CN 115327904A
- Authority
- CN
- China
- Prior art keywords
- strategy
- equation
- output
- dimensional
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000008569 process Effects 0.000 title claims abstract description 24
- 230000002787 reinforcement Effects 0.000 claims abstract description 7
- 238000004886 process control Methods 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000011217 control strategy Methods 0.000 claims description 9
- 238000010923 batch production Methods 0.000 claims description 5
- 230000006399 behavior Effects 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 238000012887 quadratic function Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 abstract description 14
- 238000013461 design Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000001746 injection moulding Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000000243 solution Substances 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000000465 moulding Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
二维间歇过程非策略无模型输出反馈最优跟踪控制方法,属于工业过程控制技术领域,具体步骤如下:步骤一:描述二维间歇过程控制问题;步骤二:设计二维间歇过程的最优控制器;步骤三:引入易于测量的输入输出序列信息;步骤四:设计输出反馈最优控制器;步骤五:分析控制算法的无偏性与收敛性;此方法能够有效避免动态信息未知的二维间歇过程难以精确建模以及难以测量完整状态信息等复杂问题,利用易于测量的输入输出信息,可以有效的避免状态观测器的设计,仅利用批次方向与时间方向的数据,避免了对模型的依赖;同时,此方法采用非策略强化学习技术,可以高效的利用数据,降低成本,提高性能。
Description
技术领域
本发明属于工业过程控制技术领域,具体涉及二维间歇过程非策略无模型输出反馈最优跟踪控制方法。
背景技术
现代流程工业过程为兼顾环保、提高生产质量、生产效率和市场竞争力,缩减生产成本,更新生产设备使其自动化程度更高,导致生产过程越来越复杂,很难对其建立精确的数学模型。而间歇过程由于其具有高灵活性和强适用性的特点,能够满足现代社会的市场需求,在面对小规模、高附加值产品的需求日益增加的情况下,间歇过程已经受到越来越多的关注。早期大部分工业批处理都是手动或者简单的序列导致人们将连续过程中的控制方法应用到间歇过程,由于间歇过程的重复性,迭代学习控制被应用到间歇过程。上述方法设计的控制器都依赖于模型,这会引起闭环系统的鲁棒性、收敛性等控制性能下降。实际生产过程中难以建立十分精确的模型,因此在间歇过程中使用无模型的方法设计控制器是必要的。
强化学习是机器学习的一个分支,在各路学者对机器学习的研究有了突破后,强化学习也成为了一个研究热点。本文所提出的算法是利用强化学习中的非策略技术,通过“智能体”与环境实时交互产生的数据进行学习。可以更好的应用于难以建模的实际生产过程。同时,由于现代生产过程的复杂性,存在系统状态难以精确测量的困难。因此更希望能够通过易于测量的输出信息来寻找到系统最优的控制策略。为此,研究一种未知系统动态信息的二维间歇过程非策略无模型输出反馈最优跟踪控制方法,仅利用数据进行学习得到最优的控制器增益。
发明内容
本发明考虑到在系统动态信息未知的情况下,针对间歇过程,提出一种非策略无模型输出反馈最优跟踪控制方法,该方法可以有效解决间歇生产过程难以建立精确模型的问题,同时,仅利用输入输出数据进行控制,避免了状态观测器的设置,经过多次学习,得到最优的控制器增益,可以很好的跟踪设定值,提高系统性能。
本发明是通过以下技术方案实现的:
本发明针对系统动态信息未知的二维间歇过程采用包含输出误差的二维增广状态空间方程进行描述,紧接着设计基于模型的最优控制器增益用于后续的对比,然后引入输入输出序列到状态中,设计新的无模型的控制算法,最后对所提算法进行无偏性于收敛性的分析。本发明所提出的算法可以克服控制器对模型的依赖,同时避免了对状态观测器的设计,利用非策略强化学习技术,高效利用数据,提高了系统性能。
步骤一:描述二维间歇过程控制问题;
首先,间歇过程的状态空间可表示为:
其中,x(k,p)表示当前时间当前批次的系统状态,u(k,p)表示系统在当前时间当前批次下的控制输入,y(k,p)表示当前时间当前批次的系统输出,k表示时间方向,p表示批次;为了提高系统的稳定性,用系统状态沿批次方向的增量和输出误差的组合来代表扩展后的状态,根据等式(1),具体可以表示为:
其中,定义Δpθ(k,p)=θ(k,p)-θ(k,p-1)为变量θ沿批次方向的差值;
为了提高系统的跟踪性能以及自由度,将输出误差扩展到状态中,扩展后的状态方程表示为:
表示适当维数的单位矩阵;
给出一个具有代价函数形式的极值问题来处理最优跟踪控制问题
以及控制策略
r(k,p)=K1X(k,p)+K2X(k+1,p-1) (5)
f(X(i,j),X(i+1,j-1),r(i,j))函数采用如下的二次型:
其中,Qy1>0,Qy2>0和R>0是用户定义的加权矩阵;
步骤二:设计二维间歇过程的最优控制器;
由等式(4)给出的二次函数可定义如下的成本函数
在控制策略r(k,p)可控的条件下,可以给出如下的二维成本函数:
可定义Q函数:
进一步等式(9)可以化为:
其中,
根据Q函数可得到二维贝尔曼方程:
步骤三:引入易于测量的输入输出序列信息;
当系统可观时,系统状态可以用容易测量的输入输出信息进行表示:
X(k,p)=Mξ(k,p) (15)
其中,
M=[Mr Mp My],
步骤四:设计输出反馈最优控制器;
基于等式(15)引入的序列信息,构建新的控制策略:
在引入易于测量的输入输出信息后,等式(13)可以表示为:
基于非策略强化学习算法,引入目标策略rj(k,p)用以学习由行为策略r(k,p)产生的数据,得到:
在引入新的策略后,二维贝尔曼方程如下所示:
依据克罗内克积、最小二乘原理可得到:
θj(k,p)Lj+1=ρj(k,p) (20)
经计算可得控制器增益为:
在二维系统中,收集由行为策略产生的批次和时间方向的数据,将其分别存放在θj(k,p)和ρj(k,p)中;接着给定一个可以使系统稳定的初始控制器增益;利用等式(20)和等式(21)求解和直到相邻两次迭代产生的控制器增益的差值极小时,停止求解。
步骤五:分析控制算法的无偏性与收敛性;
为验证所提算法无偏,在行为策略r(k,p)中引入探测噪声n(k,p),新的状态空间为:
新的二维贝尔曼方程为:
将等式(22)带入等式(23)中,则有
为验证算法收敛,首先,二维贝尔曼方程可写为:
将等式(13)带入等式(25)中可得到:
其中
本发明的优点与效果为:
本发明针对动态信息未知的二维间歇过程难以精确建模以及难以测量完整状态信息等复杂问题,提出一种二维间歇过程非策略无模型输出反馈最优跟踪控制方法;此发明利用易于测量的输入输出信息,可以有效的避免状态观测器的设计,仅利用批次方向与时间方向的数据,在系统动态信息未知的情况下,设计控制器,避免了对模型的依赖;同时,此发明采用非策略强化学习技术,可以高效的利用数据,降低成本,提高性能;通过分析无偏性与收敛性,保证了所提算法的合理性。
附图说明
图1为控制器增益K1矩阵的收敛过程;
图2为控制器增益K2矩阵的收敛过程;
图3为此发明所提算法下的控制输入曲线;
图4为此发明所提算法下的输出跟踪曲线。
具体实施方式
为了进一步说明本发明,下面结合附图及实例对本发明进行详细地描述,但不能将它们理解为对本发明保护范围的限定。
实施例1:
注塑成型工艺是一种将塑料微粒转化成各种产品的方式,属于典型的间歇过程。它具有高效的生产效率和稳定的生产质量,满足工业文明向高加工化发展的趋势,主要应用于电子产品、汽车工业产品、建筑工程及防腐工程等领域。填充阶段是注塑成型工艺的第一步,注塑时间越短,成型效率越高;因此,通过控制喷射速度与阀门开度是十分重要的。在这部分,使用本发明所提出的算法来处理这两个参数。
在大量实验的基础上,二维注塑过程的喷射速度与阀门开度之间的离散输入输出形式为:
其中,y(z)和u(z)分别为输出量和输入量的Z变换,z为Z变换因子。等式(30)可以进一步写为:
y(k+1,p)=1.582y(k,p)-0.5916y(k-1,p)+1.69u(k,p)+1.419u(k-1,p) (31)
在仿真中,设置权重参数Q1=20*diag[1 1 1 1],Q2=10*diag[1 1 1 1]以及R=1。为验证所提方法的有效性,首先,利用黎卡提方程求解出最优的P*矩阵,得到依赖模型的最优的控制器增益;其次,利用所提方法产生的控制器增益与前者进行对比,进而确定所提方法的合理性。最优的控制器增益如下:
经过多次学习,本文所提出方法生成的控制器增益为:
由1、2所示,随着批次数量的增加,控制器增益K1、K2逐渐收敛到最优。因此,该方法的优化效果较好。二维间歇过程非策略无模型输出反馈最优跟踪控制方法所得到的控制输入曲线与输出跟踪曲线如图3、4所示。给定输出设定值yr=40mm/s,由图可知,随着批次数量的增加,跟踪误差逐渐减小,跟踪效果不断提升。
综上,本发明针对动态信息未知的二维间歇过程难以精确建模以及难以测量完整状态信息等复杂问题,提出一种二维间歇过程非策略无模型输出反馈最优跟踪控制方法;此发明利用易于测量的输入输出信息,可以有效的避免状态观测器的设计,仅利用批次方向与时间方向的数据,在系统动态信息未知的情况下,设计控制器,避免了对模型的依赖;同时,此发明采用非策略强化学习技术,可以高效的利用数据,降低成本,提高性能;通过分析无偏性与收敛性,保证了所提算法的合理性。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (1)
1.二维间歇过程非策略无模型输出反馈最优跟踪控制方法,具体步骤如下:
步骤一:描述二维间歇过程控制问题;
首先,间歇过程的状态空间可表示为:
其中,x(k,p)表示当前时间当前批次的系统状态,u(k,p)表示系统在当前时间当前批次下的控制输入,y(k,p)表示当前时间当前批次的系统输出,k表示时间方向,p表示批次;
为了提高系统的稳定性,用系统状态沿批次方向的增量和输出误差的组合来代表扩展后的状态,根据等式(1),具体可以表示为:
其中,定义Δpθ(k,p)=θ(k,p)-θ(k,p-1)为变量θ沿批次方向的差值;
为了提高系统的跟踪性能以及自由度,将输出误差扩展到状态中,扩展后的状态方程表示为:
其中,为扩展后的新的状态,e(k,p)=yr-y(k,p)为期望输出yr与实际输出y(k,p)的误差,r(k,p)=Δpu(k,p)为控制输入的增量,Y(k,p)=Δpy(k,p),I表示适当维数的单位矩阵;
给出一个具有代价函数形式的极值问题来处理最优跟踪控制问题
以及控制策略
r(k,p)=K1X(k,p)+K2X(k+1,p-1) (5)
f(X(i,j),X(i+1,j-1),r(i,j))函数采用如下的二次型:
步骤二:设计二维间歇过程的最优控制器;
由等式(4)给出的二次函数可定义如下的成本函数
在控制策略r(k,p)可控的条件下,可以给出如下的二维成本函数:
可定义Q函数:
进一步等式(9)可以化为:
其中,
以及最优的Q函数Q*(X(k,p),X(k+1,p-1),r(k,p)),比较二者关系可以得到
根据Q函数可得到二维贝尔曼方程:
步骤三:引入易于测量的输入输出序列信息;
当系统可观时,系统状态可以用容易测量的输入输出信息进行表示:
X(k,p)=Mξ(k,p) (16)
步骤四:设计输出反馈最优控制器;
基于等式(16)引入的序列信息,构建新的控制策略:
在引入易于测量的输入输出信息后,等式(14)可以表示为:
基于非策略强化学习算法,引入目标策略rj(k,p)用以学习由行为策略r(k,p)产生的数据,得到:
在引入新的策略后,二维贝尔曼方程如下所示:
依据克罗内克积、最小二乘原理可得到:
θj(k,p)Lj+1=ρj(k,p) (21)
经计算可得控制器增益为:
步骤五:分析控制算法的无偏性与收敛性;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210962598.7A CN115327904B (zh) | 2022-08-11 | 2022-08-11 | 二维间歇过程非策略无模型输出反馈最优跟踪控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210962598.7A CN115327904B (zh) | 2022-08-11 | 2022-08-11 | 二维间歇过程非策略无模型输出反馈最优跟踪控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115327904A true CN115327904A (zh) | 2022-11-11 |
CN115327904B CN115327904B (zh) | 2024-09-06 |
Family
ID=83924105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210962598.7A Active CN115327904B (zh) | 2022-08-11 | 2022-08-11 | 二维间歇过程非策略无模型输出反馈最优跟踪控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115327904B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199993A (zh) * | 2014-02-18 | 2014-12-10 | 广州市香港科大霍英东研究院 | 一种针对间歇过程的二维动态卡尔曼滤波器设计方法 |
CN109932905A (zh) * | 2019-03-08 | 2019-06-25 | 辽宁石油化工大学 | 一种基于非策略的观测器状态反馈的优化控制方法 |
GB201912280D0 (en) * | 2019-07-02 | 2019-10-09 | Univ Northwestern Polytechnical | Dynamic gain control method for multi-spacecraft consensus |
CN114200834A (zh) * | 2021-11-30 | 2022-03-18 | 辽宁石油化工大学 | 丢包环境下批次过程无模型离轨策略最优跟踪控制方法 |
-
2022
- 2022-08-11 CN CN202210962598.7A patent/CN115327904B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199993A (zh) * | 2014-02-18 | 2014-12-10 | 广州市香港科大霍英东研究院 | 一种针对间歇过程的二维动态卡尔曼滤波器设计方法 |
CN109932905A (zh) * | 2019-03-08 | 2019-06-25 | 辽宁石油化工大学 | 一种基于非策略的观测器状态反馈的优化控制方法 |
GB201912280D0 (en) * | 2019-07-02 | 2019-10-09 | Univ Northwestern Polytechnical | Dynamic gain control method for multi-spacecraft consensus |
CN114200834A (zh) * | 2021-11-30 | 2022-03-18 | 辽宁石油化工大学 | 丢包环境下批次过程无模型离轨策略最优跟踪控制方法 |
Non-Patent Citations (2)
Title |
---|
李春富;郑松;葛铭;: "基于递推非线性部分最小二乘模型的间歇过程批到批优化", 计算机与应用化学, no. 07, 28 July 2011 (2011-07-28) * |
王涛;罗敏娜;王娜;崔黎黎;: "基于Q学习的有限时间随机线性二次最优控制", 沈阳师范大学学报(自然科学版), no. 03, 9 June 2020 (2020-06-09) * |
Also Published As
Publication number | Publication date |
---|---|
CN115327904B (zh) | 2024-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107942667B (zh) | 基于时变时滞和干扰的注塑过程混杂2d跟踪控制方法 | |
CN112859604B (zh) | 一种针对未知动态注塑成型过程的二维数据驱动最优跟踪控制方法 | |
CN110764414B (zh) | 针对多种干扰的多阶段批次异步切换过程的鲁棒预测控制方法 | |
CN109407512B (zh) | 依赖时滞的间歇过程2d输入输出约束控制方法 | |
Fu et al. | Intelligent decoupling control of nonlinear multivariable systems and its application to a wind tunnel system | |
CN104330972A (zh) | 一种基于模型自适应的综合预测迭代学习控制方法 | |
CN110968961A (zh) | 一种连续回转电液伺服马达参数辨识方法 | |
CN114200834A (zh) | 丢包环境下批次过程无模型离轨策略最优跟踪控制方法 | |
CN111624872B (zh) | 一种基于自适应动态规划的pid控制器参数整定方法及系统 | |
CN115327904A (zh) | 二维间歇过程非策略无模型输出反馈最优跟踪控制方法 | |
CN110888323A (zh) | 一种用于切换系统智能优化的控制方法 | |
CN115167150B (zh) | 具有未知系统动态的批次过程二维离轨策略交错q学习最优跟踪控制方法 | |
CN111061155B (zh) | 一种基于遗传算法优化的间歇过程2d模型预测控制方法 | |
CN108829058B (zh) | 一种化工批次过程模糊迭代学习控制方法 | |
CN114911162A (zh) | 具有时变时滞异步切换多阶段间歇过程的迭代学习鲁棒预测控制方法 | |
CN109212972A (zh) | 间歇过程的受限滚动时域混杂2d跟踪控制方法 | |
Gao et al. | Adaptive control of four motor servo systems based on characteristic model and gradient projection estimator | |
CN113791542A (zh) | 基于二维系统的伺服电机转速控制方法、系统及装置 | |
CN115248554A (zh) | 一种运动控制系统的最优迭代前馈调参方法及系统 | |
CN108803314A (zh) | 一种化工间歇过程的新型复合跟踪控制方法 | |
CN112286052A (zh) | 一种利用线性系统数据解决工业控制最优跟踪控制方法 | |
Zhang et al. | Data-driven adaptive iterative learning control based on a local dynamic linearization | |
CN108897219B (zh) | 一种化工不确定工业过程约束预测控制方法 | |
Ramelan et al. | Embedded Position Control of Permanent Magnet Synchronous Motor Using Model Predictive Control | |
CN115542741A (zh) | 基于李雅普诺夫-拉祖米欣函数的多阶段间歇过程迭代学习鲁棒预测控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |