CN114200834A - 丢包环境下批次过程无模型离轨策略最优跟踪控制方法 - Google Patents

丢包环境下批次过程无模型离轨策略最优跟踪控制方法 Download PDF

Info

Publication number
CN114200834A
CN114200834A CN202111442738.XA CN202111442738A CN114200834A CN 114200834 A CN114200834 A CN 114200834A CN 202111442738 A CN202111442738 A CN 202111442738A CN 114200834 A CN114200834 A CN 114200834A
Authority
CN
China
Prior art keywords
packet loss
dimensional
strategy
model
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111442738.XA
Other languages
English (en)
Other versions
CN114200834B (zh
Inventor
施惠元
文馨
姜雪莹
苏成利
李平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Shihua University
Original Assignee
Liaoning Shihua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Shihua University filed Critical Liaoning Shihua University
Priority to CN202111442738.XA priority Critical patent/CN114200834B/zh
Publication of CN114200834A publication Critical patent/CN114200834A/zh
Application granted granted Critical
Publication of CN114200834B publication Critical patent/CN114200834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及丢包环境下批次过程无模型离轨策略最优跟踪控制方法,属于工业过程控制技术领域,具体步骤如下:步骤一:描述丢包环境下二维批次过程控制问题;步骤二:构建网络环境下丢包模型,引入具有丢包补偿的二维史密斯预估器;步骤三:设计基于模型的最优过程控制器;步骤四:设计丢包环境下的二维批次过程无模型离轨策略最优跟踪控制方法;步骤五:进行控制算法的无偏性与收敛性分析。本发明所设计的方法能极大地降低控制器设计时系统的模型依赖性,同时引入二维史密斯预估器,有效地进行了数据丢包补偿,还采用了离轨策略,保证了数据的充分挖掘,降低了计算成本。

Description

丢包环境下批次过程无模型离轨策略最优跟踪控制方法
技术领域
本发明属于工业过程控制技术领域,具体涉及丢包环境下批次过程无模型离轨策略最优跟踪控制方法。
背景技术
随着计算机技术、控制技术和网络通信技术的迅速发展,三者之间的交叉融合也越来越紧密,控制系统的空间分布变得越来越广,控制结构也越来越复杂,无线网络环境下的批次过程控制问题也引起了控制、通信、数学等多学科研究者的广泛关注。以往在对这类系统进行控制器分析设计时,大多数都是在传感器到控制器有完美数据传输的假设下进行的。而在实际工业生产中,由于网络传输的不可靠性、带宽限制以及网络拥塞等原因,难以避免出现如数据包丢失等情况,这在一定条件下会显著降低系统性能甚至使系统失稳,在以往具有数据包丢失的二维批次过程的相关研究中,学者们通常使用依赖系统模型的方法对控制器进行设计,这对控制对象的要求极高,在一定程度上限制了这类方法在工业实际中的应用,因此,这类过于依赖模型的算法通常难以在丢包环境下的批次过程控制器设计中得到满意的效果。
批次过程作为一种小规模多工序的生产过程,每天都在产生并存储着大量的数据,这些数据隐含着工况变化、产品质量、生产效率和工业设备运行等重要信息。为了有效利用这些数据,以及在难以对受控系统建立较为准确的机理动态模型的条件下,实现对工业生产过程的控制,数据驱动控制方法应运而生。而作为其中之一的强化学习算法,更是在智能控制、数据预测、图像处理等诸多领域有了广泛应用,并且取得了良好的效果。但是这些研究仅局限于不涉及批次信息的一维系统,对于包含批次方向和时间方向的批次过程出现丢包问题的情况,一维强化学习算法难以解决。另外很多基于强化学习的算法采用的都是同轨策略,限制了数据挖掘的深度和广度。因此,在存在数据丢包且无法获得过程精确模型的情况下,如何有效地利用这些二维数据直接进行批次生产过程的控制器设计,是我们有待解决的问题。为此,研究一种融合史密斯预估器的二维框架下的无模型离轨策略最优跟踪控制方法,在存在数据包丢失的情况下,能得到有效补偿,还能克服模型依赖的问题,仅仅利用数据不断学习,得到最优的控制律。
发明内容
本发明考虑到无线网络环境下,数据传输不稳定出现丢包现象会对系统性能带来影响,以及考虑到系统模型信息未知的情况下,针对二维批次过程,提出一种二维框架下的无模型离轨策略最优跟踪控制方法,该方法可有效地解决批次过程无法精确建模的问题,仅仅利用采集到的历史数据即可求解控制律,克服了控制器对模型的依赖,此外,还对网络传输丢包问题进行了史密斯预估补偿,将其融合在无模型离轨策略中,经过不断地学习寻优,得到最优的控制律,并很好地跟踪上设定值,提高系统的控制和跟踪性能。
本发明是通过以下技术方案实现的:
本发明针对丢包环境下二维批次过程这个控制对象采用一般状态空间方程进行描述,为了减少系统的稳态误差并提高控制器的调节能力,使用系统的增量状态和输出误差作为扩展的系统状态,从而可形成新的状态空间方程,接着构建网络环境下的丢包模型,引入具有丢包补偿的二维史密斯预估器用来补偿丢失的数据,再设计基于模型的最优过程控制器用于对所提出的无模型离轨策略最优跟踪控制方法进行控制效果的对比,接着提出基于强化学习离轨策略的数据驱动最优跟踪控制方法,用于学习及求解最优控制增益,最后进行无模型离轨策略最优跟踪控制方法的无偏性与收敛性分析。本发明所设计的方法能有效克服控制器设计时对模型的过度依赖问题,同时引入二维史密斯预估器,有效地进行了数据丢包补偿,保证了系统的控制性能,并且由于采用离轨策略,避免了不停地采样,减少了时间损耗,也能有效保证数据被充分挖掘,充分学习。
步骤一:描述丢包环境下二维批次过程控制问题;
通常情况下,二维批次过程的输入输出关系可用如下的状态空间方程描述:
Figure BDA0003383207700000021
其中,x表示系统状态,u表示系统控制输入,y表示系统输出,t表示时间方向,k表示批次;
为了减少系统的稳态误差并提高控制器的调节能力,在以下扩展状态空间模型中使用系统的增量状态和输出误差作为扩展的系统状态,根据上面的状态空间方程,可以将两个相邻批次间的增量系统表示为
Figure BDA0003383207700000031
其中,Δkx(t,k)=x(t,k)-x(t,k-1)表示状态变量沿着批次方向的差值,r(t,k)=u(t,k)-u(t,k-1)表示控制输入沿着批次方向的差值,同样地,Δky(t,k)表示输出变量沿着批次方向的差值;
在无线网络环境下,考虑到数据包丢失对过程控制变量传输的影响,在经过无线网络传输后,包含丢包情况的系统状态可描述为:
xf(t,k)=δ(t,k)x(t,k)+(1-δ(t,k))xf(t,k-1) (30)
其中,xf(t,k)表示经过无线网络传输后得到的过程控制状态,δ(t,k)表示为传输是否成功的标志,可取值为0或1,δ(t,k)=0时,表示传输过程中出现了数据包的丢失,δ(t,k)=1时,表示传输成功,传输过程未发生数据包的丢失;
在控制器设计过程中,设计目标为利用网络传输反馈得到的数据xf(t,k)设计控制器,使得过程控制的输出信号y(t,k)在丢包情况下仍能跟踪其设定值yr。因此,将实际输出和设定输出的差值定义为e(t,k)=yr-y(t,k),再令
Figure BDA0003383207700000032
则可根据状态空间方程(28)和增量状态空间方程(29)得到如下扩展的系统方程:
Figure BDA0003383207700000033
其中Y(t,k)=Δky(t,k),
Figure BDA0003383207700000034
I表示适当维数的单位矩阵;
给出如下批次过程的线性二次型最优跟踪问题的性能指标:
Figure BDA0003383207700000035
Figure DA00033832077048872356
以及控制策略
Figure BDA0003383207700000042
其中,Q1和Q2是半正定矩阵,表示状态权重,R为正定矩阵,表示控制变量权重;
步骤二:构建网络环境下丢包模型,引入具有丢包补偿的二维史密斯预估器;
xf(t,k)是控制器接收到的系统状态,其表达式如下:
xf(t,k)=x(t-θfn(t,k),k) (34)
其中θfn(t,k)是数据传输过程中的连续丢包数,且满足0≤θfn(t,k)≤θfmax(t,k)的取值范围,θfmax(t,k)是连续丢包数的最大值,则可从式(28)中获得以下公式,来预测当前时间的状态量;
Figure BDA0003383207700000043
在TCP或UDP协议的情况下,可以认为丢包的数量是已知的;
当θfn(t,k)=0时,
Figure BDA0003383207700000044
当θfn(t,k)=1时,
Figure BDA0003383207700000045
按照这种方式类推,当θfn(t,k)=θfmax(t,k)时,
Figure BDA0003383207700000046
再结合式(35),可构建出如下所示的史密斯预估器:
X(t,k)=Mη(t,k)(38)其中
Figure BDA0003383207700000051
步骤三:设计基于模型的最优过程控制器;
从系统状态出发,可由性能指标(32)定义出如下所示的值函数:
Figure BDA0003383207700000052
则在初始状态时,指定第一步控制策略后设计Q函数如下所示:
Q*(X(t,k),X(t+1,k-1),r(t,k))
=XT(t,k)Q1X(t,k)+XT(t+1,k-1)Q2X(t+1,k-1)+r(t,k)TRr(t,k)
+V*(X(t+1,k),X(t+1,k))
(40)
值函数和Q函数的二次型形式可表述为:
Figure BDA0003383207700000053
Figure BDA0003383207700000054
其中H*可表示为:
Figure BDA0003383207700000061
其中,为了简化表达,H*矩阵下角标中的X1用来表示状态X(t,k),X2用来表示状态X(t+1,k-1);
基于动态规划,可得到如下所示的基于Q函数的二维贝尔曼方程:
Figure BDA0003383207700000062
其中s(t,k)=[XT(t,k),XT(t+1,k-1),rT(t,k)]T
根据最优性的必要条件,令
Figure BDA0003383207700000063
得到最优控制输入:
Figure BDA0003383207700000064
步骤四:设计丢包环境下的二维批次过程无模型离轨策略最优跟踪控制方法;
根据引入的史密斯预估器,可先构建出基于史密斯补偿的控制策略
Figure BDA0003383207700000065
其中
Figure BDA0003383207700000066
同样地,在引入史密斯预估器后,等式(44)中的二维贝尔曼方程阐述如下:
Figure BDA0003383207700000071
其中
Figure BDA0003383207700000072
Figure BDA0003383207700000073
M*=MT(MMT)-1
行为控制策略和学习的目标策略都为r(t,k)时,每次需要更新参数时都需要重新采样,此外,使用当前控制策略产生数据,同时对当前控制策略进行优化改进,这容易导致一些数据始终没有被探索过,为了更好地解决数据挖掘与数据利用的矛盾,在系统中引入辅助变量
Figure BDA0003383207700000074
得到:
Figure BDA0003383207700000075
其中
Figure BDA0003383207700000076
r(t,k)为行为策略,用于产生算法学习所需的数据,rj(t,k)是所提算法需要学习的目标控制策略,沿着新系统的轨迹,二维贝尔曼方程表示为如下形式:
Figure BDA0003383207700000077
其中
Figure BDA0003383207700000078
进一步化简变形,则等式(49)的等号左边部分可表述为:
Figure BDA0003383207700000081
根据克罗内克积的表达形式:
Figure BDA0003383207700000082
进一步将(49)式改写为如下形式:
Figure BDA0003383207700000083
进而得到如下表达式:
Figure BDA0003383207700000091
其中
Figure BDA0003383207700000092
Figure BDA0003383207700000093
Figure BDA0003383207700000094
Figure BDA0003383207700000095
Figure BDA00033832077000000918
Figure BDA0003383207700000096
Figure BDA0003383207700000097
Figure BDA0003383207700000098
Figure BDA0003383207700000099
Figure BDA00033832077000000910
通过对上述各项的计算,得到控制器增益:
Figure BDA00033832077000000911
Figure BDA00033832077000000912
得到上述控制器增益的迭代表达式后,首先利用行为策略产生时间方向和批次方向的二维数据,将数据存储在Φj(t,k)和
Figure BDA00033832077000000913
中,接着给定能使系统稳定的初始控制器增益,再通过(53)和(54)迭代求解
Figure BDA00033832077000000914
Figure BDA00033832077000000915
一直到满足
Figure BDA00033832077000000916
Figure BDA00033832077000000917
差值的绝对值小于一个极小的正整数,则停止求解;
步骤五:进行控制算法的无偏性与收敛性分析;
为了证明所设计的无模型离轨策略最优跟踪控制方法的无偏性,将探测噪声n(t,k)引入到行为策略r(t,k)中,状态空间则可以写成如下形式:
Figure BDA0003383207700000101
则二维贝尔曼方程则被改写成:
Figure BDA0003383207700000102
将(55)式代入(56)式,则有
Figure BDA0003383207700000103
显然,等式(57)等价于等式(49),那么两者的解
Figure BDA0003383207700000104
也等价。因此引入的探测噪声时,二维贝尔曼方程求解出的
Figure BDA0003383207700000105
不会出现偏差,那么由
Figure BDA0003383207700000106
矩阵求出的控制器增益也不会变化。因此,所提出的二维无模型离轨策略最优跟踪控制方法具有无偏性。
在分析算法的收敛性时,二维贝尔曼方程可以被简化为如下形式:
Figure BDA0003383207700000111
考虑到
Figure BDA0003383207700000112
矩阵和
Figure BDA0003383207700000113
矩阵在(19)式中的关系,并将其代入到(58),则可以得到:
Figure BDA0003383207700000114
Figure BDA0003383207700000115
Figure BDA0003383207700000116
则可以得到
Figure BDA0003383207700000117
矩阵的迭代关系为:
Figure BDA0003383207700000118
其中
Figure BDA0003383207700000119
Figure BDA00033832077000001110
可以看出,
Figure BDA00033832077000001111
矩阵和
Figure BDA00033832077000001112
矩阵迭代过程类似。因此,当给定了初始迭代条件且迭代次数接近无穷大时,满足黎卡提方程的解
Figure BDA00033832077000001113
矩阵在迭代过程中逐渐收敛到最优解,由于
Figure BDA00033832077000001114
矩阵和
Figure BDA00033832077000001115
矩阵收敛迭代趋势类似,因此无模型离轨策略最优跟踪控制方法的解
Figure BDA0003383207700000121
矩阵也逐渐收敛到最优
Figure BDA0003383207700000122
矩阵。
本发明的优点与效果为:
本发明考虑到无线网络环境下,数据传输不稳定出现丢包现象会对系统性能带来影响,以及考虑到系统模型信息未知的情况下,针对二维批次过程,提出一种二维框架下的无模型离轨策略最优跟踪控制方法;此发明设计了二维史密斯预测器,可以基于通信网络上测量的历史数据来预测当前状态,有效地补偿了数据丢包,保证了系统的控制性能;采用了数据驱动方式,可有效地解决批次系统无法精确建模的问题,仅仅利用批次过程在时间方向以及批次方向的输出数据和控制输入数据,在系统动态未知的情况下,实现控制器的设计并求解出最优的控制器增益,克服了控制器对模型的依赖;此外,采用离轨策略,避免了需要不停地采样的问题,减少了时间损耗,也能有效保证数据被充分挖掘,充分学习;通过进行的无偏性及收敛性分析,有效地保证了系统性能。
附图说明
图1为连续最大丢包数为1时的随机丢包序列;
图2为
Figure BDA0003383207700000123
的收敛过程;
图3为控制器增益
Figure BDA0003383207700000124
的收敛过程;
图4为控制器增益
Figure BDA0003383207700000125
的收敛过程;
图5为连续最大丢包数为1时的输出曲线;
图6为连续最大丢包数为1时的控制输入曲线;
图7为连续最大丢包数为2时的随机丢包序列;
图8为连续最大丢包数为2时的输出曲线;
图9为连续最大丢包数为2时的控制输入曲线;
具体实施方式
为了进一步说明本发明,下面结合附图及实例对本发明进行详细地描述,但不能将它们理解为对本发明保护范围的限定。
实施例1:
注塑成型是重要的塑料制品成型方式,也是一种典型的批次过程。随着注塑产品应用范围越来越广,对产品质量的要求也越来越高。在注塑成型过程中,工艺参数直接影响模具内熔体的流动状态和最终制品的质量,获取并保持优化的工艺参数是得到高质量制品的前提。完整的注塑过程上共包括塑化、填充、保压和冷却四个主要阶段,在注塑过程将近结束时,螺杆停止旋转,只是向前推进,此时注塑进入保压阶段。保压过程中,熔体流速极低,流动不再起主导作用,压力成为了影响保压过程的主要因素。因此,在注塑成型保压阶段,通过阀门开度的大小来控制喷嘴压力是非常重要的。在这一部分中,用所提出的无模型离轨策略最优跟踪控制方法来控制这一阶段的两个参数。
在大量试验的基础上,二维注塑成型过程保压阶段喷嘴压力(NP)与阀门开度(VO)的关系式为下式:
NP(t+1,k)=1.317NP(t,k)+171.8VO(t,k)-(0.3259NP(t-1,k)+156.8VO(t-1,k)) (63)
其中,VO(t,k)表示系统在k批次t时刻的阀门开度,单位%,VO(t-1,k)表示系统k批次t-1时刻的阀门开度,单位%,NP(t+1,k)表示系统k批次t+1时刻的腔内压力,单位bar,NP(t,k)表示表示系统k批次t时刻的腔内压力,单位bar,系统k批次t-1时刻的腔内压力用NP(t-1,k)表示,单位bar,腔内压力的范围为:200bar≤NP(t,k)≤400bar;
取状态变量x(t,k)=[NP(t,k)-0.3259NP(t-1,k)-156.8VO(t-1,k)]T,控制量u(t,k)=VO(t,k),系统输出y(t,k)=NP(t,k),得到保压阶段的状态空间方程:
Figure BDA0003383207700000131
其中,
Figure BDA0003383207700000132
C=[1 0];
仿真中所采用的控制器参数为:Q1=Q2=diag[6,6,6],R=1。为了更好地证明所提出的离轨算法的有效性,用黎卡提方程求解得到的最优的P*矩阵,进而采用设计的基于模型的控制器求得最优的控制器增益,这些最优的参数将被用来作为一个参照,用于验证所提出的二维无模型离轨策略最优跟踪控制方法的准确性和有效性,最优的控制器增益如下:
Figure BDA0003383207700000141
Figure BDA0003383207700000142
接着用本文所提出的无模型离轨策略最优跟踪控制方法来验证,无线网络数据包丢失的情况下二维批次过程的最优跟踪控制效果,图1为连续最大丢包数为1的时候,丢包率为0.3时的随机丢包序列。
图2和图3,4分别为在不断学习的过程中,
Figure BDA0003383207700000143
矩阵以及
Figure BDA0003383207700000144
逐渐收敛到
Figure BDA0003383207700000145
的过程。从这三张图可以看出,随着运行批次的增加,
Figure BDA0003383207700000146
Figure BDA0003383207700000147
之间的偏差越来越小,两者越来越接近,控制器增益
Figure BDA0003383207700000148
Figure BDA0003383207700000149
的收敛情况也类似,在第10批次往后,学习过程中的
Figure BDA00033832077000001410
与最优的
Figure BDA00033832077000001411
已基本上相等。
图5和图6分别表示二维离轨策略最优跟踪控制方法的输出跟踪轨迹和控制输入轨迹。从这两张图可以看出,在网络最大连续丢包数为1的情况下,采用本文所提出来的不依赖于模型的具有史密斯预估器的最优跟踪控制,系统的跟踪性能良好,且随着运行批次的增加,系统的实际输出与设定值越来越接近,在第10批次之后,系统的实际输出已经达到设定值300。
接下来考虑最大连续丢包数为2时的情况,此时的随机丢包序列如图7所示,经过所提出算法的学习后,得到目前系统的输出跟踪轨迹与控制输入轨迹如图8和9所示。仿真结果表明,在网络最大连续丢包数为2的情况下,采用本文所设计的融合了二维史密斯预估器的批次过程无模型离轨最优跟踪控制方法,系统输出能够跟踪上参考输入。因此可以看出,在使用所提出的算法进行控制时,随着网络性能变差,跟踪性能几乎不受影响。同时,系统对丢包数的容忍范围较大,当最大连续丢包数增大时,系统的稳定性也可以得到保障。
综上,本发明考虑到无线网络环境下,数据传输不稳定出现丢包现象会对系统性能带来影响,以及考虑到系统模型信息未知的情况下,针对二维批次过程,提出一种二维框架下的无模型离轨策略最优跟踪控制方法;此发明设计出了二维史密斯预测器,可以基于通信网络上测量的历史数据来预测当前状态,有效地补偿了数据丢包,保证了系统的控制性能;采用了数据驱动方式,可有效地解决批次系统无法精确建模的问题,仅仅利用注塑成型过程输出数据和控制输入数据,在系统动态未知的情况下,实现控制器的设计并求解出最优的控制器增益,克服了控制器对模型的依赖;此外,采用离轨策略,避免了需要不停地采样的问题,减少了时间损耗,也能有效保证数据被充分挖掘,充分学习;通过进行的无偏性及收敛性分析,有效地保证了系统性能。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (1)

1.丢包环境下批次过程无模型离轨策略最优跟踪控制方法,其特征在于:具体步骤如下:
步骤一:描述丢包环境下二维批次过程控制问题;
通常情况下,二维批次过程的输入输出关系可用如下的状态空间方程描述:
Figure FDA0003383207690000011
其中,x表示系统状态,u表示系统控制输入,y表示系统输出,t表示时间方向,k表示批次;
为了减少系统的稳态误差并提高控制器的调节能力,使用系统的增量状态和输出误差作为新的系统状态来建立扩展的状态空间方程,根据式(1),可以将两个相邻批次间的增量系统状态空间方程表示为
Figure FDA0003383207690000012
其中,Δkx(t,k)=x(t,k)-x(t,k-1)表示状态变量沿着批次方向的差值,r(t,k)=u(t,k)-u(t,k-1)表示控制输入沿着批次方向的差值,同样地,Δky(t,k)表示输出变量沿着批次方向的差值;
在无线网络环境下,考虑到数据包丢失对过程控制变量传输的影响,在经过无线网络传输后,包含丢包情况的系统状态可描述为:
xf(t,k)=δ(t,k)x(t,k)+(1-δ(t,k))xf(t,k-1) (3)
其中,xf(t,k)表示经过无线网络传输后得到的过程控制状态,δ(t,k)表示为传输是否成功的标志,可取值为0或1,δ(t,k)=0时,表示传输过程中出现了数据包的丢失,δ(t,k)=1时,表示传输成功,传输过程未发生数据包的丢失;
在控制器设计过程中,设计目标为利用网络传输反馈得到的数据xf(t,k)设计控制器,使得过程控制的输出信号y(t,k)在丢包情况下仍能跟踪其设定值yr,因此,将实际输出和设定输出的差值定义为e(t,k)=yr-y(t,k),再令
Figure FDA0003383207690000021
则可根据状态空间方程(1)和增量状态空间方程(2)得到如下扩展的系统方程:
Figure FDA0003383207690000022
其中Y(t,k)=Δky(t,k),
Figure FDA0003383207690000023
I表示适当维数的单位矩阵;
给出如下批次过程的线性二次型最优跟踪问题的性能指标
Figure FDA0003383207690000024
以及控制策略
Figure FDA0003383207690000025
其中,Q1和Q2是半正定矩阵,表示状态权重,R为正定矩阵,表示控制变量权重;
步骤二:构建网络环境下丢包模型,引入具有丢包补偿的二维史密斯预估器;
xf(t,k)是经过网络传输后,控制器接收到的系统状态,其表达式如下:
xf(t,k)=x(t-θfn(t,k),k) (7)
其中θfn(t,k)是数据传输过程中的连续丢包数,且满足0≤θfn(t,k)≤θfmax(t,k)的取值范围,θfmax(t,k)是连续丢包数的最大值,则可从式(1)中获得以下公式,来预测当前时间的状态量;
Figure FDA0003383207690000026
在TCP或UDP协议的情况下,可以认为丢包的数量是已知的;
当θfn(t,k)=0时,
Figure FDA0003383207690000031
当θfn(t,k)=1时,
Figure FDA0003383207690000032
按照这种方式类推,当θfn(t,k)=θfmax(t,k)时,
Figure FDA0003383207690000033
再结合式(8),可构建出如下所示的史密斯预估器:
X(t,k)=Mη(t,k) (12)
其中
Figure FDA0003383207690000034
步骤三:设计基于模型的最优过程控制器;
由性能指标(5)可定义如下所示的值函数
Figure FDA0003383207690000035
以及如下所示的Q函数
Figure FDA0003383207690000036
再利用动态规划原理,可以得到如下关系:
V*(X(t,k),X(t+1,k-1))=Q*(X(t,k),X(t+1,k-1),r*(t,k)) (15)
如果策略r(t,k)是可允许控制的,那么批次过程的二维值函数和二维Q函数都可以表示为如下所示的二次型形式:
Figure FDA0003383207690000041
Q*(X(t,k),X(t+1,k-1),r(t,k))=s(t,k)TH*s(t,k) (17)
其中P*和H*均为正定矩阵,s(t,k)=[XT(t,k),XT(t+1,k-1),rT(t,k)]T,H*可表示为:
Figure FDA0003383207690000042
其中,为了简化表达,H*矩阵下角标中的X1用于表示状态X(t,k),X2用于表示状态X(t+1,k-1),r用于表示r(t,k),根据(16)式和(17)式的关系,可以得到
Figure FDA0003383207690000043
其中
Figure FDA0003383207690000044
基于动态规划,可得到如下所示的基于二维Q函数的二维贝尔曼方程:
Figure FDA0003383207690000045
根据最优控制原理,令
Figure FDA0003383207690000046
得到最优控制输入:
Figure FDA0003383207690000051
其中
Figure FDA0003383207690000052
步骤四:设计丢包环境下的二维批次过程无模型离轨策略最优跟踪控制方法;
根据引入的史密斯预估器(12),可构建出基于史密斯补偿的控制策略
Figure FDA0003383207690000053
其中
Figure FDA0003383207690000054
同样地,在引入史密斯预估器后,等式(20)中的二维贝尔曼方程阐述如下:
Figure FDA0003383207690000055
其中
Figure FDA0003383207690000056
Figure FDA0003383207690000057
Figure FDA0003383207690000058
M*=MT(MMT)-1
为了更好地解决数据挖掘与数据利用的矛盾,在系统中引入辅助变量
Figure FDA0003383207690000059
得到:
Figure FDA00033832076900000510
其中
Figure FDA00033832076900000511
r(t,k)为行为策略,用于产生算法学习所需的数据,rj(t,k)是所提算法需要学习的目标控制策略,沿着新系统的轨迹,二维贝尔曼方程表示为如下形式:
Figure FDA0003383207690000061
其中
Figure FDA0003383207690000062
根据克罗内克积的表达形式,进一步将上式改写为如下形式:
Figure FDA0003383207690000063
其中
Figure FDA0003383207690000064
Figure FDA0003383207690000065
Figure FDA0003383207690000066
Figure FDA0003383207690000067
Figure FDA0003383207690000068
Figure FDA0003383207690000069
Figure FDA00033832076900000610
Figure FDA00033832076900000611
Figure FDA00033832076900000612
Figure FDA0003383207690000071
通过对上述各项的计算,得到控制器增益:
Figure FDA0003383207690000072
Figure FDA0003383207690000073
得到上述控制器增益的迭代表达式后,首先利用行为策略作用于系统产生时间方向和批次方向的二维数据,将数据存储在Φj(t,k)和
Figure FDA0003383207690000074
中,接着给定能使系统稳定的初始控制器增益,再通过(26)式和(27)式迭代求解
Figure FDA0003383207690000075
Figure FDA0003383207690000076
一直到满足条件,即
Figure FDA0003383207690000077
Figure FDA0003383207690000078
差值的绝对值以及
Figure FDA0003383207690000079
Figure FDA00033832076900000710
差值的绝对值小于一个极小的正整数,则停止求解;
步骤五:进行控制算法的无偏性与收敛性分析;
丢包环境下,将探测噪声n(t,k)引入到行为策略r(t,k)中,无论引入的探测噪声是否为零,贝尔曼方程(25)求解出的
Figure FDA00033832076900000711
都不会变化,所以,探测噪声的加入并不会对所提出的算法的学习结果造成影响;
算法的收敛性在于当给定了初始迭代条件且迭代次数接近无穷大时,满足黎卡提方程的解
Figure FDA00033832076900000712
矩阵在迭代过程中逐渐收敛到最优解,由于
Figure FDA00033832076900000713
矩阵和
Figure FDA00033832076900000714
矩阵收敛趋势类似,因此所提出的无模型离轨策略最优跟踪控制方法的解
Figure FDA00033832076900000715
矩阵也逐渐收敛到最优
Figure FDA00033832076900000716
矩阵。
CN202111442738.XA 2021-11-30 2021-11-30 丢包环境下批次过程无模型离轨策略最优跟踪控制方法 Active CN114200834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111442738.XA CN114200834B (zh) 2021-11-30 2021-11-30 丢包环境下批次过程无模型离轨策略最优跟踪控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111442738.XA CN114200834B (zh) 2021-11-30 2021-11-30 丢包环境下批次过程无模型离轨策略最优跟踪控制方法

Publications (2)

Publication Number Publication Date
CN114200834A true CN114200834A (zh) 2022-03-18
CN114200834B CN114200834B (zh) 2023-06-30

Family

ID=80649703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111442738.XA Active CN114200834B (zh) 2021-11-30 2021-11-30 丢包环境下批次过程无模型离轨策略最优跟踪控制方法

Country Status (1)

Country Link
CN (1) CN114200834B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115167150A (zh) * 2022-08-15 2022-10-11 辽宁石油化工大学 具有未知系统动态的批次过程二维离轨策略交错q学习最优跟踪控制方法
CN115327904A (zh) * 2022-08-11 2022-11-11 辽宁石油化工大学 二维间歇过程非策略无模型输出反馈最优跟踪控制方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103529702A (zh) * 2013-09-18 2014-01-22 杭州电子科技大学 批次过程的预测函数容错控制方法
CN104932263A (zh) * 2015-06-03 2015-09-23 辽宁石油化工大学 一种多阶段间歇过程的最小运行时间控制方法
CN105353619A (zh) * 2015-11-26 2016-02-24 杭州电子科技大学 一种批次注塑过程的滚动时域跟踪控制方法
CN105373098A (zh) * 2015-11-26 2016-03-02 江南大学 一种基于变量时段分解的间歇过程无模型在线滚动优化方法
CN105446292A (zh) * 2015-11-24 2016-03-30 江南大学 一种基于变量时段分解的间歇过程无模型摄动优化方法
CN105911868A (zh) * 2016-06-15 2016-08-31 南京工业大学 多批次间歇反应器二维迭代学习反馈控制方法
WO2016205944A1 (en) * 2015-06-23 2016-12-29 Trojan Technologies Process and device for the treatment of a fluid containing a contaminant
CN108628270A (zh) * 2018-06-11 2018-10-09 哈尔滨工程大学 一种基于plc远程监控终端的优化网络控制装置与方法
US20190097948A1 (en) * 2017-09-28 2019-03-28 Intel Corporation Packet sequence batch processing
US20190102360A1 (en) * 2017-09-29 2019-04-04 Rockwell Automation Technologies, Inc. Base analytics engine modeling for monitoring, diagnostics optimization and control
CN110083064A (zh) * 2019-04-29 2019-08-02 辽宁石油化工大学 一种基于非策略q-学习的网络最优跟踪控制方法
CN110083063A (zh) * 2019-04-29 2019-08-02 辽宁石油化工大学 一种基于非策略q学习的多个体优化控制方法
CN111385147A (zh) * 2020-03-06 2020-07-07 腾讯科技(深圳)有限公司 故障模拟方法、装置和计算机可读存储介质
CN112367132A (zh) * 2020-10-27 2021-02-12 西北工业大学 基于强化学习解决认知无线电中的功率分配算法
CN112859604A (zh) * 2021-01-11 2021-05-28 辽宁石油化工大学 一种针对未知动态注塑成型过程的二维数据驱动最优跟踪控制方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103529702A (zh) * 2013-09-18 2014-01-22 杭州电子科技大学 批次过程的预测函数容错控制方法
CN104932263A (zh) * 2015-06-03 2015-09-23 辽宁石油化工大学 一种多阶段间歇过程的最小运行时间控制方法
WO2016205944A1 (en) * 2015-06-23 2016-12-29 Trojan Technologies Process and device for the treatment of a fluid containing a contaminant
CN105446292A (zh) * 2015-11-24 2016-03-30 江南大学 一种基于变量时段分解的间歇过程无模型摄动优化方法
CN105373098A (zh) * 2015-11-26 2016-03-02 江南大学 一种基于变量时段分解的间歇过程无模型在线滚动优化方法
CN105353619A (zh) * 2015-11-26 2016-02-24 杭州电子科技大学 一种批次注塑过程的滚动时域跟踪控制方法
CN105911868A (zh) * 2016-06-15 2016-08-31 南京工业大学 多批次间歇反应器二维迭代学习反馈控制方法
US20190097948A1 (en) * 2017-09-28 2019-03-28 Intel Corporation Packet sequence batch processing
US20190102360A1 (en) * 2017-09-29 2019-04-04 Rockwell Automation Technologies, Inc. Base analytics engine modeling for monitoring, diagnostics optimization and control
CN108628270A (zh) * 2018-06-11 2018-10-09 哈尔滨工程大学 一种基于plc远程监控终端的优化网络控制装置与方法
CN110083064A (zh) * 2019-04-29 2019-08-02 辽宁石油化工大学 一种基于非策略q-学习的网络最优跟踪控制方法
CN110083063A (zh) * 2019-04-29 2019-08-02 辽宁石油化工大学 一种基于非策略q学习的多个体优化控制方法
CN111385147A (zh) * 2020-03-06 2020-07-07 腾讯科技(深圳)有限公司 故障模拟方法、装置和计算机可读存储介质
CN112367132A (zh) * 2020-10-27 2021-02-12 西北工业大学 基于强化学习解决认知无线电中的功率分配算法
CN112859604A (zh) * 2021-01-11 2021-05-28 辽宁石油化工大学 一种针对未知动态注塑成型过程的二维数据驱动最优跟踪控制方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
WANG, LM等: "A 2D-FM model-based robust iterative learning model predictive control for batch processes", vol. 110 *
WANG, LM等: "Iterative Learning Control for a Type of Modified Smith Predictor", vol. 142, no. 4 *
张起源: "基于时滞的间歇过程2D迭代学习预测控制", no. 04 *
汤吉瑞: "基于迭代学习方法的网络化批次过程容错控制", no. 09 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115327904A (zh) * 2022-08-11 2022-11-11 辽宁石油化工大学 二维间歇过程非策略无模型输出反馈最优跟踪控制方法
CN115167150A (zh) * 2022-08-15 2022-10-11 辽宁石油化工大学 具有未知系统动态的批次过程二维离轨策略交错q学习最优跟踪控制方法

Also Published As

Publication number Publication date
CN114200834B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN107942667B (zh) 基于时变时滞和干扰的注塑过程混杂2d跟踪控制方法
CN107966902B (zh) 一种不确定性间歇过程的约束2d跟踪控制方法
CN109212971B (zh) 多阶段间歇过程2d线性二次跟踪容错控制方法
CN114200834A (zh) 丢包环境下批次过程无模型离轨策略最优跟踪控制方法
CN107976942B (zh) 无穷时域优化的间歇过程2d约束容错控制方法
Wang et al. Robust fuzzy adaptive funnel control of nonlinear systems with dynamic uncertainties
Ma et al. A new approach to time-optimal trajectory planning with torque and jerk limits for robot
CN104698842B (zh) 一种基于内点法的lpv模型非线性预测控制方法
CN102681489A (zh) 多轴联动数控系统运动平稳性和轮廓加工精度控制方法
CN110764414B (zh) 针对多种干扰的多阶段批次异步切换过程的鲁棒预测控制方法
CN112859604B (zh) 一种针对未知动态注塑成型过程的二维数据驱动最优跟踪控制方法
CN110579970B (zh) 一种2d滚动优化下间歇过程终端约束预测控制方法
Wang et al. A 2D-FM model-based robust iterative learning model predictive control for batch processes
Wang et al. Terminal constrained robust hybrid iterative learning model predictive control for complex time-delayed batch processes
Zhou et al. A two-stage robust iterative learning model predictive control for batch processes
CN112180738B (zh) 针对非线性注塑成型异步切换过程鲁棒模糊预测控制方法
Salt et al. Multirate control strategies for avoiding sample losses. Application to UGV path tracking
Dutta et al. Nonlinear disturbance observer‐based adaptive feedback linearized model predictive controller design for a class of nonlinear systems
Xiang et al. Genetic-algorithm-optimization-based predictive functional control for chemical industry processes against partial actuator faults
Lu et al. Stability and fuel economy of nonlinear vehicle platoons: A distributed economic MPC approach
CN111061155B (zh) 一种基于遗传算法优化的间歇过程2d模型预测控制方法
Gao et al. Lateral path tracking control of autonomous land vehicle based on active disturbance rejection control
Wu et al. Adaptive prescribed performance control for nonlinear pure-feedback systems: a scalarly virtual parameter adaptation approach
CN114911162A (zh) 具有时变时滞异步切换多阶段间歇过程的迭代学习鲁棒预测控制方法
Darío Luis‐Delgado et al. Design of switching hyperplanes for multi‐inputs multi‐outputs discrete‐time linear systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Shi Huiyuan

Inventor after: Wen Xin

Inventor after: Jiang Xueying

Inventor after: Lv Mengdi

Inventor after: Su Chengli

Inventor after: Li Ping

Inventor before: Shi Huiyuan

Inventor before: Wen Xin

Inventor before: Jiang Xueying

Inventor before: Su Chengli

Inventor before: Li Ping

GR01 Patent grant
GR01 Patent grant