CN114200834B - 丢包环境下批次过程无模型离轨策略最优跟踪控制方法 - Google Patents

丢包环境下批次过程无模型离轨策略最优跟踪控制方法 Download PDF

Info

Publication number
CN114200834B
CN114200834B CN202111442738.XA CN202111442738A CN114200834B CN 114200834 B CN114200834 B CN 114200834B CN 202111442738 A CN202111442738 A CN 202111442738A CN 114200834 B CN114200834 B CN 114200834B
Authority
CN
China
Prior art keywords
packet loss
dimensional
strategy
model
equation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111442738.XA
Other languages
English (en)
Other versions
CN114200834A (zh
Inventor
施惠元
文馨
姜雪莹
吕梦迪
苏成利
李平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Shihua University
Original Assignee
Liaoning Shihua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Shihua University filed Critical Liaoning Shihua University
Priority to CN202111442738.XA priority Critical patent/CN114200834B/zh
Publication of CN114200834A publication Critical patent/CN114200834A/zh
Application granted granted Critical
Publication of CN114200834B publication Critical patent/CN114200834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及丢包环境下批次过程无模型离轨策略最优跟踪控制方法,属于工业过程控制技术领域,具体步骤如下:步骤一:描述丢包环境下二维批次过程控制问题;步骤二:构建网络环境下丢包模型,引入具有丢包补偿的二维史密斯预估器;步骤三:设计基于模型的最优过程控制器;步骤四:设计丢包环境下的二维批次过程无模型离轨策略最优跟踪控制方法;步骤五:进行控制算法的无偏性与收敛性分析。本发明所设计的方法能极大地降低控制器设计时系统的模型依赖性,同时引入二维史密斯预估器,有效地进行了数据丢包补偿,还采用了离轨策略,保证了数据的充分挖掘,降低了计算成本。

Description

丢包环境下批次过程无模型离轨策略最优跟踪控制方法
技术领域
本发明属于工业过程控制技术领域,具体涉及丢包环境下批次过程无模型离轨策略最优跟踪控制方法。
背景技术
随着计算机技术、控制技术和网络通信技术的迅速发展,三者之间的交叉融合也越来越紧密,控制系统的空间分布变得越来越广,控制结构也越来越复杂,无线网络环境下的批次过程控制问题也引起了控制、通信、数学等多学科研究者的广泛关注。以往在对这类系统进行控制器分析设计时,大多数都是在传感器到控制器有完美数据传输的假设下进行的。而在实际工业生产中,由于网络传输的不可靠性、带宽限制以及网络拥塞等原因,难以避免出现如数据包丢失等情况,这在一定条件下会显著降低系统性能甚至使系统失稳,在以往具有数据包丢失的二维批次过程的相关研究中,学者们通常使用依赖系统模型的方法对控制器进行设计,这对控制对象的要求极高,在一定程度上限制了这类方法在工业实际中的应用,因此,这类过于依赖模型的算法通常难以在丢包环境下的批次过程控制器设计中得到满意的效果。
批次过程作为一种小规模多工序的生产过程,每天都在产生并存储着大量的数据,这些数据隐含着工况变化、产品质量、生产效率和工业设备运行等重要信息。为了有效利用这些数据,以及在难以对受控系统建立较为准确的机理动态模型的条件下,实现对工业生产过程的控制,数据驱动控制方法应运而生。而作为其中之一的强化学习算法,更是在智能控制、数据预测、图像处理等诸多领域有了广泛应用,并且取得了良好的效果。但是这些研究仅局限于不涉及批次信息的一维系统,对于包含批次方向和时间方向的批次过程出现丢包问题的情况,一维强化学习算法难以解决。另外很多基于强化学习的算法采用的都是同轨策略,限制了数据挖掘的深度和广度。因此,在存在数据丢包且无法获得过程精确模型的情况下,如何有效地利用这些二维数据直接进行批次生产过程的控制器设计,是我们有待解决的问题。为此,研究一种融合史密斯预估器的二维框架下的无模型离轨策略最优跟踪控制方法,在存在数据包丢失的情况下,能得到有效补偿,还能克服模型依赖的问题,仅仅利用数据不断学习,得到最优的控制律。
发明内容
本发明考虑到无线网络环境下,数据传输不稳定出现丢包现象会对系统性能带来影响,以及考虑到系统模型信息未知的情况下,针对二维批次过程,提出一种二维框架下的无模型离轨策略最优跟踪控制方法,该方法可有效地解决批次过程无法精确建模的问题,仅仅利用采集到的历史数据即可求解控制律,克服了控制器对模型的依赖,此外,还对网络传输丢包问题进行了史密斯预估补偿,将其融合在无模型离轨策略中,经过不断地学习寻优,得到最优的控制律,并很好地跟踪上设定值,提高系统的控制和跟踪性能。
本发明是通过以下技术方案实现的:
本发明针对丢包环境下二维批次过程这个控制对象采用一般状态空间方程进行描述,为了减少系统的稳态误差并提高控制器的调节能力,使用系统的增量状态和输出误差作为扩展的系统状态,从而可形成新的状态空间方程,接着构建网络环境下的丢包模型,引入具有丢包补偿的二维史密斯预估器用来补偿丢失的数据,再设计基于模型的最优过程控制器用于对所提出的无模型离轨策略最优跟踪控制方法进行控制效果的对比,接着提出基于强化学习离轨策略的数据驱动最优跟踪控制方法,用于学习及求解最优控制增益,最后进行无模型离轨策略最优跟踪控制方法的无偏性与收敛性分析。本发明所设计的方法能有效克服控制器设计时对模型的过度依赖问题,同时引入二维史密斯预估器,有效地进行了数据丢包补偿,保证了系统的控制性能,并且由于采用离轨策略,避免了不停地采样,减少了时间损耗,也能有效保证数据被充分挖掘,充分学习。
步骤一:描述丢包环境下二维批次过程控制问题;
通常情况下,二维批次过程的输入输出关系可用如下的状态空间方程描述:
Figure SMS_1
其中,x表示系统状态,u表示系统控制输入,y表示系统输出,t表示时间方向,k表示批次;
为了减少系统的稳态误差并提高控制器的调节能力,在以下扩展状态空间模型中使用系统的增量状态和输出误差作为扩展的系统状态,根据上面的状态空间方程,可以将两个相邻批次间的增量系统表示为
Figure SMS_2
其中,△kx(t,k)=x(t,k)-x(t,k-1)表示状态变量沿着批次方向的差值,r(t,k)=u(t,k)-u(t,k-1)表示控制输入沿着批次方向的差值,同样地,△ky(t,k)表示输出变量沿着批次方向的差值;
在无线网络环境下,考虑到数据包丢失对过程控制变量传输的影响,在经过无线网络传输后,包含丢包情况的系统状态可描述为:
xf(t,k)=δ(t,k)x(t,k)+(1-δ(t,k))xf(t,k-1) (30)
其中,xf(t,k)表示经过无线网络传输后得到的过程控制状态,δ(t,k)表示为传输是否成功的标志,可取值为0或1,δ(t,k)=0时,表示传输过程中出现了数据包的丢失,δ(t,k)=1时,表示传输成功,传输过程未发生数据包的丢失;
在控制器设计过程中,设计目标为利用网络传输反馈得到的数据xf(t,k)设计控制器,使得过程控制的输出信号y(t,k)在丢包情况下仍能跟踪其设定值yr。因此,将实际输出和设定输出的差值定义为e(t,k)=yr-y(t,k),再令
Figure SMS_3
则可根据状态空间方程(28)和增量状态空间方程(29)得到如下扩展的系统方程:
Figure SMS_4
其中Y(t,k)=△ky(t,k),
Figure SMS_5
I表示适当维数的单位矩阵;
给出如下批次过程的线性二次型最优跟踪问题的性能指标:
Figure SMS_6
Figure SMS_7
以及控制策略
Figure SMS_8
其中,Q1和Q2是半正定矩阵,表示状态权重,R为正定矩阵,表示控制变量权重;
步骤二:构建网络环境下丢包模型,引入具有丢包补偿的二维史密斯预估器;
xf(t,k)是控制器接收到的系统状态,其表达式如下:
Figure SMS_9
(34)
其中
Figure SMS_10
是数据传输过程中的连续丢包数,且满足/>
Figure SMS_11
的取值范围,/>
Figure SMS_12
是连续丢包数的最大值,则可从式(28)中获得以下公式,来预测当前时间的状态量;
Figure SMS_13
在TCP或UDP协议的情况下,可以认为丢包的数量是已知的;
Figure SMS_14
时,
Figure SMS_15
Figure SMS_16
时,
Figure SMS_17
按照这种方式类推,当
Figure SMS_18
时,
Figure SMS_19
再结合式(35),可构建出如下所示的史密斯预估器:
X(t,k)=Mη(t,k) (38)
其中
Figure SMS_20
步骤三:设计基于模型的最优过程控制器;
从系统状态出发,可由性能指标(32)定义出如下所示的值函数:
Figure SMS_21
则在初始状态时,指定第一步控制策略后设计Q函数如下所示:
Q*(X(t,k),X(t+1,k-1),r(t,k))
=XT(t,k)Q1X(t,k)+XT(t+1,k-1)Q2X(t+1,k-1)+r(t,k)TRr(t,k)+V*(X(t+1,k),X(t+1,k))
(40)
值函数和Q函数的二次型形式可表述为:
Figure SMS_22
Figure SMS_23
其中H*可表示为:
Figure SMS_24
其中,为了简化表达,H*矩阵下角标中的X1用来表示状态X(t,k),X2用来表示状态X(t+1,k-1);
基于动态规划,可得到如下所示的基于Q函数的二维贝尔曼方程:
Figure SMS_25
其中s(t,k)=[XT(t,k),XT(t+1,k-1),rT(t,k)]T
根据最优性的必要条件,令
Figure SMS_26
得到最优控制输入:
Figure SMS_27
步骤四:设计丢包环境下的二维批次过程无模型离轨策略最优跟踪控制方法;
根据引入的史密斯预估器,可先构建出基于史密斯补偿的控制策略
Figure SMS_28
其中
Figure SMS_29
同样地,在引入史密斯预估器后,等式(44)中的二维贝尔曼方程阐述如下:
Figure SMS_30
其中
Figure SMS_31
Figure SMS_32
M*=MT(MMT)-1
行为控制策略和学习的目标策略都为r(t,k)时,每次需要更新参数时都需要重新采样,此外,使用当前控制策略产生数据,同时对当前控制策略进行优化改进,这容易导致一些数据始终没有被探索过,为了更好地解决数据挖掘与数据利用的矛盾,在系统中引入辅助变量
Figure SMS_33
得到:
Figure SMS_34
其中
Figure SMS_35
r(t,k)为行为策略,用于产生算法学习所需的数据,rj(t,k)是所提算法需要学习的目标控制策略,沿着新系统的轨迹,二维贝尔曼方程表示为如下形式:
Figure SMS_36
其中
Figure SMS_37
进一步化简变形,则等式(49)的等号左边部分可表述为:
Figure SMS_38
根据克罗内克积的表达形式:
Figure SMS_39
进一步将(49)式改写为如下形式:
Figure SMS_40
进而得到如下表达式:
Figure SMS_41
其中
Figure SMS_44
Figure SMS_46
Figure SMS_48
Figure SMS_43
Figure SMS_47
Figure SMS_49
Figure SMS_51
Figure SMS_42
Figure SMS_45
Figure SMS_50
通过对上述各项的计算,得到控制器增益:
Figure SMS_52
Figure SMS_53
得到上述控制器增益的迭代表达式后,首先利用行为策略产生时间方向和批次方向的二维数据,将数据存储在Φj(t,k)和
Figure SMS_54
中,接着给定能使系统稳定的初始控制器增益,再通过(53)和(54)迭代求解/>
Figure SMS_55
和/>
Figure SMS_56
一直到满足/>
Figure SMS_57
和/>
Figure SMS_58
差值的绝对值小于一个极小的正整数,则停止求解;
步骤五:进行控制算法的无偏性与收敛性分析;
为了证明所设计的无模型离轨策略最优跟踪控制方法的无偏性,将探测噪声n(t,k)引入到行为策略r(t,k)中,状态空间则可以写成如下形式:
Figure SMS_59
则二维贝尔曼方程则被改写成:
Figure SMS_60
将(55)式代入(56)式,则有
Figure SMS_61
显然,等式(57)等价于等式(49),那么两者的解
Figure SMS_62
也等价。因此引入的探测噪声时,二维贝尔曼方程求解出的/>
Figure SMS_63
不会出现偏差,那么由/>
Figure SMS_64
矩阵求出的控制器增益也不会变化。因此,所提出的二维无模型离轨策略最优跟踪控制方法具有无偏性。
在分析算法的收敛性时,二维贝尔曼方程可以被简化为如下形式:
Figure SMS_65
考虑到
Figure SMS_66
矩阵和/>
Figure SMS_67
矩阵在(19)式中的关系,并将其代入到(58),则可以得到:
Figure SMS_68
Figure SMS_69
Figure SMS_70
则可以得到
Figure SMS_71
矩阵的迭代关系为:
Figure SMS_72
其中
Figure SMS_73
Figure SMS_74
可以看出,
Figure SMS_75
矩阵和/>
Figure SMS_76
矩阵迭代过程类似。因此,当给定了初始迭代条件且迭代次数接近无穷大时,满足黎卡提方程的解/>
Figure SMS_77
矩阵在迭代过程中逐渐收敛到最优解,由于/>
Figure SMS_78
矩阵和/>
Figure SMS_79
矩阵收敛迭代趋势类似,因此无模型离轨策略最优跟踪控制方法的解
Figure SMS_80
矩阵也逐渐收敛到最优/>
Figure SMS_81
矩阵。
本发明的优点与效果为:
本发明考虑到无线网络环境下,数据传输不稳定出现丢包现象会对系统性能带来影响,以及考虑到系统模型信息未知的情况下,针对二维批次过程,提出一种二维框架下的无模型离轨策略最优跟踪控制方法;此发明设计了二维史密斯预测器,可以基于通信网络上测量的历史数据来预测当前状态,有效地补偿了数据丢包,保证了系统的控制性能;采用了数据驱动方式,可有效地解决批次系统无法精确建模的问题,仅仅利用批次过程在时间方向以及批次方向的输出数据和控制输入数据,在系统动态未知的情况下,实现控制器的设计并求解出最优的控制器增益,克服了控制器对模型的依赖;此外,采用离轨策略,避免了需要不停地采样的问题,减少了时间损耗,也能有效保证数据被充分挖掘,充分学习;通过进行的无偏性及收敛性分析,有效地保证了系统性能。
附图说明
图1为连续最大丢包数为1时的随机丢包序列;
图2为
Figure SMS_82
的收敛过程;
图3为控制器增益
Figure SMS_83
的收敛过程;
图4为控制器增益
Figure SMS_84
的收敛过程;
图5为连续最大丢包数为1时的输出曲线;
图6为连续最大丢包数为1时的控制输入曲线;
图7为连续最大丢包数为2时的随机丢包序列;
图8为连续最大丢包数为2时的输出曲线;
图9为连续最大丢包数为2时的控制输入曲线;
具体实施方式
为了进一步说明本发明,下面结合附图及实例对本发明进行详细地描述,但不能将它们理解为对本发明保护范围的限定。
实施例1:
注塑成型是重要的塑料制品成型方式,也是一种典型的批次过程。随着注塑产品应用范围越来越广,对产品质量的要求也越来越高。在注塑成型过程中,工艺参数直接影响模具内熔体的流动状态和最终制品的质量,获取并保持优化的工艺参数是得到高质量制品的前提。完整的注塑过程上共包括塑化、填充、保压和冷却四个主要阶段,在注塑过程将近结束时,螺杆停止旋转,只是向前推进,此时注塑进入保压阶段。保压过程中,熔体流速极低,流动不再起主导作用,压力成为了影响保压过程的主要因素。因此,在注塑成型保压阶段,通过阀门开度的大小来控制喷嘴压力是非常重要的。在这一部分中,用所提出的无模型离轨策略最优跟踪控制方法来控制这一阶段的两个参数。
在大量试验的基础上,二维注塑成型过程保压阶段喷嘴压力(NP)与阀门开度(VO)的关系式为下式:
NP(t+1,k)=1.317NP(t,k)+171.8VO(t,k)-(0.3259NP(t-1,k)+156.8VO(t-1,k))
(63)其中,VO(t,k)表示系统在k批次t时刻的阀门开度,单位%,VO(t-1,k)表示系统k批次t-1时刻的阀门开度,单位%,NP(t+1,k)表示系统k批次t+1时刻的腔内压力,单位bar,NP(t,k)表示表示系统k批次t时刻的腔内压力,单位bar,系统k批次t-1时刻的腔内压力用NP(t-1,k)表示,单位bar,腔内压力的范围为:200bar≤NP(t,k)≤400bar;
取状态变量x(t,k)=[NP(t,k)-0.3259NP(t-1,k)-156.8VO(t-1,k)]T,控制量u(t,k)=VO(t,k),系统输出y(t,k)=NP(t,k),得到保压阶段的状态空间方程:
Figure SMS_85
其中,
Figure SMS_86
C=[1 0];
仿真中所采用的控制器参数为:Q1=Q2=diag[6,6,6],R=1。为了更好地证明所提出的离轨算法的有效性,用黎卡提方程求解得到的最优的P*矩阵,进而采用设计的基于模型的控制器求得最优的控制器增益,这些最优的参数将被用来作为一个参照,用于验证所提出的二维无模型离轨策略最优跟踪控制方法的准确性和有效性,最优的控制器增益如下:
Figure SMS_87
Figure SMS_88
接着用本文所提出的无模型离轨策略最优跟踪控制方法来验证,无线网络数据包丢失的情况下二维批次过程的最优跟踪控制效果,图1为连续最大丢包数为1的时候,丢包率为0.3时的随机丢包序列。
图2和图3,4分别为在不断学习的过程中,
Figure SMS_90
矩阵以及/>
Figure SMS_94
逐渐收敛到
Figure SMS_96
的过程。从这三张图可以看出,随着运行批次的增加,/>
Figure SMS_91
与/>
Figure SMS_93
之间的偏差越来越小,两者越来越接近,控制器增益/>
Figure SMS_95
和/>
Figure SMS_97
的收敛情况也类似,在第10批次往后,学习过程中的/>
Figure SMS_89
与最优的/>
Figure SMS_92
已基本上相等。
图5和图6分别表示二维离轨策略最优跟踪控制方法的输出跟踪轨迹和控制输入轨迹。从这两张图可以看出,在网络最大连续丢包数为1的情况下,采用本文所提出来的不依赖于模型的具有史密斯预估器的最优跟踪控制,系统的跟踪性能良好,且随着运行批次的增加,系统的实际输出与设定值越来越接近,在第10批次之后,系统的实际输出已经达到设定值300。
接下来考虑最大连续丢包数为2时的情况,此时的随机丢包序列如图7所示,经过所提出算法的学习后,得到目前系统的输出跟踪轨迹与控制输入轨迹如图8和9所示。仿真结果表明,在网络最大连续丢包数为2的情况下,采用本文所设计的融合了二维史密斯预估器的批次过程无模型离轨最优跟踪控制方法,系统输出能够跟踪上参考输入。因此可以看出,在使用所提出的算法进行控制时,随着网络性能变差,跟踪性能几乎不受影响。同时,系统对丢包数的容忍范围较大,当最大连续丢包数增大时,系统的稳定性也可以得到保障。
综上,本发明考虑到无线网络环境下,数据传输不稳定出现丢包现象会对系统性能带来影响,以及考虑到系统模型信息未知的情况下,针对二维批次过程,提出一种二维框架下的无模型离轨策略最优跟踪控制方法;此发明设计出了二维史密斯预测器,可以基于通信网络上测量的历史数据来预测当前状态,有效地补偿了数据丢包,保证了系统的控制性能;采用了数据驱动方式,可有效地解决批次系统无法精确建模的问题,仅仅利用注塑成型过程输出数据和控制输入数据,在系统动态未知的情况下,实现控制器的设计并求解出最优的控制器增益,克服了控制器对模型的依赖;此外,采用离轨策略,避免了需要不停地采样的问题,减少了时间损耗,也能有效保证数据被充分挖掘,充分学习;通过进行的无偏性及收敛性分析,有效地保证了系统性能。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (1)

1.丢包环境下批次过程无模型离轨策略最优跟踪控制方法,其特征在于:具体步骤如下:
步骤一:描述丢包环境下二维批次过程控制问题;
通常情况下,二维批次过程的输入输出关系可用如下的状态空间方程描述:
Figure QLYQS_1
其中,x表示系统状态,u表示系统控制输入,y表示系统输出,t表示时间方向,k表示批次;
为了减少系统的稳态误差并提高控制器的调节能力,使用系统的增量状态和输出误差作为新的系统状态来建立扩展的状态空间方程,根据式(1),可以将两个相邻批次间的增量系统状态空间方程表示为
Figure QLYQS_2
其中,△kx(t,k)=x(t,k)-x(t,k-1)表示状态变量沿着批次方向的差值,r(t,k)=u(t,k)-u(t,k-1)表示控制输入沿着批次方向的差值,同样地,△ky(t,k)表示输出变量沿着批次方向的差值;
在无线网络环境下,考虑到数据包丢失对过程控制变量传输的影响,在经过无线网络传输后,包含丢包情况的系统状态可描述为:
xf(t,k)=δ(t,k)x(t,k)+(1-δ(t,k))xf(t,k-1) (3)
其中,xf(t,k)表示经过无线网络传输后得到的过程控制状态,δ(t,k)表示为传输是否成功的标志,可取值为0或1,δ(t,k)=0时,表示传输过程中出现了数据包的丢失,δ(t,k)=1时,表示传输成功,传输过程未发生数据包的丢失;
在控制器设计过程中,设计目标为利用网络传输反馈得到的数据xf(t,k)设计控制器,使得过程控制的输出信号y(t,k)在丢包情况下仍能跟踪其设定值yr,因此,将实际输出和设定输出的差值定义为e(t,k)=yr-y(t,k),再令
Figure QLYQS_3
则可根据状态空间方程(1)和增量状态空间方程(2)得到如下扩展的系统方程:
Figure QLYQS_4
其中Y(t,k)=△ky(t,k),
Figure QLYQS_5
I表示适当维数的单位矩阵;
给出如下批次过程的线性二次型最优跟踪问题的性能指标
Figure QLYQS_6
以及控制策略
Figure QLYQS_7
其中,Q1和Q2是半正定矩阵,表示状态权重,R为正定矩阵,表示控制变量权重;
步骤二:构建网络环境下丢包模型,引入具有丢包补偿的二维史密斯预估器;
xf(t,k)是经过网络传输后,控制器接收到的系统状态,其表达式如下:
Figure QLYQS_8
(7)
其中
Figure QLYQS_9
是数据传输过程中的连续丢包数,且满足/>
Figure QLYQS_10
的取值范围,/>
Figure QLYQS_11
是连续丢包数的最大值,则可从式(1)中获得以下公式,来预测当前时间的状态量;
Figure QLYQS_12
在TCP或UDP协议的情况下,可以认为丢包的数量是已知的;
Figure QLYQS_13
时,
Figure QLYQS_14
Figure QLYQS_15
时,
Figure QLYQS_16
按照这种方式类推,当
Figure QLYQS_17
时,
Figure QLYQS_18
再结合式(8),可构建出如下所示的史密斯预估器:
X(t,k)=Mη(t,k) (12)
其中
Figure QLYQS_19
步骤三:设计基于模型的最优过程控制器;
由性能指标(5)可定义如下所示的值函数
Figure QLYQS_20
以及如下所示的Q函数
Figure QLYQS_21
再利用动态规划原理,可以得到如下关系:
V*(X(t,k),X(t+1,k-1))=Q*(X(t,k),X(t+1,k-1),r*(t,k)) (15)
如果策略r(t,k)是可允许控制的,那么批次过程的二维值函数和二维Q函数都可以表示为如下所示的二次型形式:
Figure QLYQS_22
Q*(X(t,k),X(t+1,k-1),r(t,k))=s(t,k)TH*s(t,k) (17)
其中P*和H*均为正定矩阵,s(t,k)=[XT(t,k),XT(t+1,k-1),rT(t,k)]T,H*可表示为:
Figure QLYQS_23
其中,为了简化表达,H*矩阵下角标中的X1用于表示状态X(t,k),X2用于表示状态X(t+1,k-1),r用于表示r(t,k),根据(16)式和(17)式的关系,可以得到
Figure QLYQS_24
其中
Figure QLYQS_25
基于动态规划,可得到如下所示的基于二维Q函数的二维贝尔曼方程:
Figure QLYQS_26
根据最优控制原理,令
Figure QLYQS_27
得到最优控制输入:
Figure QLYQS_28
其中
Figure QLYQS_29
步骤四:设计丢包环境下的二维批次过程无模型离轨策略最优跟踪控制方法;
根据引入的史密斯预估器(12),可构建出基于史密斯补偿的控制策略
Figure QLYQS_30
其中
Figure QLYQS_31
同样地,在引入史密斯预估器后,等式(20)中的二维贝尔曼方程阐述如下:
Figure QLYQS_32
其中
Figure QLYQS_33
Figure QLYQS_34
Figure QLYQS_35
M*=MT(MMT)-1
为了更好地解决数据挖掘与数据利用的矛盾,在系统中引入辅助变量
Figure QLYQS_36
得到:
Figure QLYQS_37
其中
Figure QLYQS_38
r(t,k)为行为策略,用于产生算法学习所需的数据,rj(t,k)是所提算法需要学习的目标控制策略,沿着新系统的轨迹,二维贝尔曼方程表示为如下形式:
Figure QLYQS_39
其中
Figure QLYQS_40
根据克罗内克积的表达形式,进一步将上式改写为如下形式:
Figure QLYQS_41
其中
Figure QLYQS_42
Figure QLYQS_43
Figure QLYQS_44
Figure QLYQS_45
Figure QLYQS_46
Figure QLYQS_47
Figure QLYQS_48
Figure QLYQS_49
Figure QLYQS_50
Figure QLYQS_51
通过对上述各项的计算,得到控制器增益:
Figure QLYQS_52
Figure QLYQS_53
得到上述控制器增益的迭代表达式后,首先利用行为策略作用于系统产生时间方向和批次方向的二维数据,将数据存储在Φj(t,k)和
Figure QLYQS_54
中,接着给定能使系统稳定的初始控制器增益,再通过(26)式和(27)式迭代求解/>
Figure QLYQS_55
和/>
Figure QLYQS_56
一直到满足条件,即/>
Figure QLYQS_57
和/>
Figure QLYQS_58
差值的绝对值以及/>
Figure QLYQS_59
和/>
Figure QLYQS_60
差值的绝对值小于一个极小的正整数,则停止求解;
步骤五:进行控制算法的无偏性与收敛性分析;
丢包环境下,将探测噪声n(t,k)引入到行为策略r(t,k)中,无论引入的探测噪声是否为零,贝尔曼方程(25)求解出的
Figure QLYQS_61
都不会变化,所以,探测噪声的加入并不会对所提出的算法的学习结果造成影响;
算法的收敛性在于当给定了初始迭代条件且迭代次数接近无穷大时,满足黎卡提方程的解
Figure QLYQS_62
矩阵在迭代过程中逐渐收敛到最优解,由于/>
Figure QLYQS_63
矩阵和/>
Figure QLYQS_64
矩阵收敛趋势类似,因此所提出的无模型离轨策略最优跟踪控制方法的解/>
Figure QLYQS_65
矩阵也逐渐收敛到最优/>
Figure QLYQS_66
矩阵。
CN202111442738.XA 2021-11-30 2021-11-30 丢包环境下批次过程无模型离轨策略最优跟踪控制方法 Active CN114200834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111442738.XA CN114200834B (zh) 2021-11-30 2021-11-30 丢包环境下批次过程无模型离轨策略最优跟踪控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111442738.XA CN114200834B (zh) 2021-11-30 2021-11-30 丢包环境下批次过程无模型离轨策略最优跟踪控制方法

Publications (2)

Publication Number Publication Date
CN114200834A CN114200834A (zh) 2022-03-18
CN114200834B true CN114200834B (zh) 2023-06-30

Family

ID=80649703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111442738.XA Active CN114200834B (zh) 2021-11-30 2021-11-30 丢包环境下批次过程无模型离轨策略最优跟踪控制方法

Country Status (1)

Country Link
CN (1) CN114200834B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115327904B (zh) * 2022-08-11 2024-09-06 辽宁石油化工大学 二维间歇过程非策略无模型输出反馈最优跟踪控制方法
CN115167150B (zh) * 2022-08-15 2024-07-05 辽宁石油化工大学 具有未知系统动态的批次过程二维离轨策略交错q学习最优跟踪控制方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105373098A (zh) * 2015-11-26 2016-03-02 江南大学 一种基于变量时段分解的间歇过程无模型在线滚动优化方法
CN112367132A (zh) * 2020-10-27 2021-02-12 西北工业大学 基于强化学习解决认知无线电中的功率分配算法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103529702A (zh) * 2013-09-18 2014-01-22 杭州电子科技大学 批次过程的预测函数容错控制方法
CN104932263B (zh) * 2015-06-03 2017-07-18 辽宁石油化工大学 一种多阶段间歇过程的最小运行时间控制方法
WO2016205944A1 (en) * 2015-06-23 2016-12-29 Trojan Technologies Process and device for the treatment of a fluid containing a contaminant
CN105446292B (zh) * 2015-11-24 2018-01-09 江南大学 一种基于变量时段分解的间歇过程无模型摄动优化方法
CN105353619B (zh) * 2015-11-26 2018-12-21 杭州电子科技大学 一种批次注塑过程的滚动时域跟踪控制方法
CN105911868B (zh) * 2016-06-15 2021-06-15 南京工业大学 多批次间歇反应器二维迭代学习反馈控制方法
US20190097948A1 (en) * 2017-09-28 2019-03-28 Intel Corporation Packet sequence batch processing
US11126692B2 (en) * 2017-09-29 2021-09-21 Rockwell Automation Technologies, Inc. Base analytics engine modeling for monitoring, diagnostics optimization and control
CN108628270B (zh) * 2018-06-11 2020-11-20 哈尔滨工程大学 一种基于plc远程监控终端的优化网络控制装置与方法
CN110083064B (zh) * 2019-04-29 2022-02-15 辽宁石油化工大学 一种基于非策略q-学习的网络最优跟踪控制方法
CN110083063B (zh) * 2019-04-29 2022-08-12 辽宁石油化工大学 一种基于非策略q学习的多个体优化控制方法
CN111385147B (zh) * 2020-03-06 2021-07-27 腾讯科技(深圳)有限公司 故障模拟方法、装置和计算机可读存储介质
CN112859604B (zh) * 2021-01-11 2022-10-14 辽宁石油化工大学 一种针对未知动态注塑成型过程的二维数据驱动最优跟踪控制方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105373098A (zh) * 2015-11-26 2016-03-02 江南大学 一种基于变量时段分解的间歇过程无模型在线滚动优化方法
CN112367132A (zh) * 2020-10-27 2021-02-12 西北工业大学 基于强化学习解决认知无线电中的功率分配算法

Also Published As

Publication number Publication date
CN114200834A (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
CN114200834B (zh) 丢包环境下批次过程无模型离轨策略最优跟踪控制方法
CN107966902B (zh) 一种不确定性间歇过程的约束2d跟踪控制方法
CN107942667B (zh) 基于时变时滞和干扰的注塑过程混杂2d跟踪控制方法
Shi et al. Robust design of integrated feedback and iterative learning control of a batch process based on a 2D Roesser system
CN109212971A (zh) 多阶段间歇过程2d线性二次跟踪容错控制方法
Wang et al. H∞ design of 2D controller for batch processes with uncertainties and interval time-varying delays
CN110579970B (zh) 一种2d滚动优化下间歇过程终端约束预测控制方法
Wang et al. A 2D-FM model-based robust iterative learning model predictive control for batch processes
Rosenfelder et al. Cooperative distributed nonlinear model predictive control of a formation of differentially-driven mobile robots
CN109541940A (zh) 基于2d模型多阶段间歇过程受限预测混杂容错控制方法
CN106933105A (zh) 受限条件下的轨迹更新综合预测迭代学习控制算法
Wang et al. Terminal constrained robust hybrid iterative learning model predictive control for complex time-delayed batch processes
Lakshmanan et al. Estimation and model predictive control of non-linear batch processes using linear parameter varying models
Ruan et al. Trajectory optimization and positioning control for batch process using learning control
Zhou et al. A two-stage robust iterative learning model predictive control for batch processes
Li et al. Robust asynchronous fuzzy predictive fault-tolerant tracking control for nonlinear multi-phase batch processes with time-varying reference trajectories
CN112180738B (zh) 针对非线性注塑成型异步切换过程鲁棒模糊预测控制方法
CN114879508B (zh) 一种基于模型预测控制的磨削机器人路径跟踪控制方法
CN111061155B (zh) 一种基于遗传算法优化的间歇过程2d模型预测控制方法
Shi et al. Two-dimensional model-free optimal tracking control for batch processes with packet loss
Li et al. A novel two‐dimensional PID controller design using two‐dimensional model predictive iterative learning control optimization for batch processes
CN114911162A (zh) 具有时变时滞异步切换多阶段间歇过程的迭代学习鲁棒预测控制方法
Zhang et al. An online control approach for forging machine using reinforcement learning and taboo search
CN115327903B (zh) 二维状态时滞批处理过程的离轨策略最优跟踪控制方法
Yi et al. Improved H-infinity hybrid model predictive fault-tolerant control for time-delayed batch processes against disturbances

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Shi Huiyuan

Inventor after: Wen Xin

Inventor after: Jiang Xueying

Inventor after: Lv Mengdi

Inventor after: Su Chengli

Inventor after: Li Ping

Inventor before: Shi Huiyuan

Inventor before: Wen Xin

Inventor before: Jiang Xueying

Inventor before: Su Chengli

Inventor before: Li Ping

GR01 Patent grant
GR01 Patent grant