CN114200834B - 丢包环境下批次过程无模型离轨策略最优跟踪控制方法 - Google Patents
丢包环境下批次过程无模型离轨策略最优跟踪控制方法 Download PDFInfo
- Publication number
- CN114200834B CN114200834B CN202111442738.XA CN202111442738A CN114200834B CN 114200834 B CN114200834 B CN 114200834B CN 202111442738 A CN202111442738 A CN 202111442738A CN 114200834 B CN114200834 B CN 114200834B
- Authority
- CN
- China
- Prior art keywords
- packet loss
- dimensional
- strategy
- model
- equation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000010923 batch production Methods 0.000 title claims abstract description 26
- 101000606504 Drosophila melanogaster Tyrosine-protein kinase-like otk Proteins 0.000 title abstract description 14
- 230000008569 process Effects 0.000 claims abstract description 15
- 238000004458 analytical method Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 26
- 230000005540 biological transmission Effects 0.000 claims description 22
- 238000011217 control strategy Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 230000006399 behavior Effects 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 7
- 238000004886 process control Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000007418 data mining Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 2
- 238000012938 design process Methods 0.000 claims description 2
- 238000012804 iterative process Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 abstract 1
- 238000005065 mining Methods 0.000 abstract 1
- 238000001746 injection moulding Methods 0.000 description 8
- 239000000047 product Substances 0.000 description 5
- 230000002787 reinforcement Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000000243 solution Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000009776 industrial production Methods 0.000 description 2
- 239000000155 melt Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000465 moulding Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及丢包环境下批次过程无模型离轨策略最优跟踪控制方法,属于工业过程控制技术领域,具体步骤如下:步骤一:描述丢包环境下二维批次过程控制问题;步骤二:构建网络环境下丢包模型,引入具有丢包补偿的二维史密斯预估器;步骤三:设计基于模型的最优过程控制器;步骤四:设计丢包环境下的二维批次过程无模型离轨策略最优跟踪控制方法;步骤五:进行控制算法的无偏性与收敛性分析。本发明所设计的方法能极大地降低控制器设计时系统的模型依赖性,同时引入二维史密斯预估器,有效地进行了数据丢包补偿,还采用了离轨策略,保证了数据的充分挖掘,降低了计算成本。
Description
技术领域
本发明属于工业过程控制技术领域,具体涉及丢包环境下批次过程无模型离轨策略最优跟踪控制方法。
背景技术
随着计算机技术、控制技术和网络通信技术的迅速发展,三者之间的交叉融合也越来越紧密,控制系统的空间分布变得越来越广,控制结构也越来越复杂,无线网络环境下的批次过程控制问题也引起了控制、通信、数学等多学科研究者的广泛关注。以往在对这类系统进行控制器分析设计时,大多数都是在传感器到控制器有完美数据传输的假设下进行的。而在实际工业生产中,由于网络传输的不可靠性、带宽限制以及网络拥塞等原因,难以避免出现如数据包丢失等情况,这在一定条件下会显著降低系统性能甚至使系统失稳,在以往具有数据包丢失的二维批次过程的相关研究中,学者们通常使用依赖系统模型的方法对控制器进行设计,这对控制对象的要求极高,在一定程度上限制了这类方法在工业实际中的应用,因此,这类过于依赖模型的算法通常难以在丢包环境下的批次过程控制器设计中得到满意的效果。
批次过程作为一种小规模多工序的生产过程,每天都在产生并存储着大量的数据,这些数据隐含着工况变化、产品质量、生产效率和工业设备运行等重要信息。为了有效利用这些数据,以及在难以对受控系统建立较为准确的机理动态模型的条件下,实现对工业生产过程的控制,数据驱动控制方法应运而生。而作为其中之一的强化学习算法,更是在智能控制、数据预测、图像处理等诸多领域有了广泛应用,并且取得了良好的效果。但是这些研究仅局限于不涉及批次信息的一维系统,对于包含批次方向和时间方向的批次过程出现丢包问题的情况,一维强化学习算法难以解决。另外很多基于强化学习的算法采用的都是同轨策略,限制了数据挖掘的深度和广度。因此,在存在数据丢包且无法获得过程精确模型的情况下,如何有效地利用这些二维数据直接进行批次生产过程的控制器设计,是我们有待解决的问题。为此,研究一种融合史密斯预估器的二维框架下的无模型离轨策略最优跟踪控制方法,在存在数据包丢失的情况下,能得到有效补偿,还能克服模型依赖的问题,仅仅利用数据不断学习,得到最优的控制律。
发明内容
本发明考虑到无线网络环境下,数据传输不稳定出现丢包现象会对系统性能带来影响,以及考虑到系统模型信息未知的情况下,针对二维批次过程,提出一种二维框架下的无模型离轨策略最优跟踪控制方法,该方法可有效地解决批次过程无法精确建模的问题,仅仅利用采集到的历史数据即可求解控制律,克服了控制器对模型的依赖,此外,还对网络传输丢包问题进行了史密斯预估补偿,将其融合在无模型离轨策略中,经过不断地学习寻优,得到最优的控制律,并很好地跟踪上设定值,提高系统的控制和跟踪性能。
本发明是通过以下技术方案实现的:
本发明针对丢包环境下二维批次过程这个控制对象采用一般状态空间方程进行描述,为了减少系统的稳态误差并提高控制器的调节能力,使用系统的增量状态和输出误差作为扩展的系统状态,从而可形成新的状态空间方程,接着构建网络环境下的丢包模型,引入具有丢包补偿的二维史密斯预估器用来补偿丢失的数据,再设计基于模型的最优过程控制器用于对所提出的无模型离轨策略最优跟踪控制方法进行控制效果的对比,接着提出基于强化学习离轨策略的数据驱动最优跟踪控制方法,用于学习及求解最优控制增益,最后进行无模型离轨策略最优跟踪控制方法的无偏性与收敛性分析。本发明所设计的方法能有效克服控制器设计时对模型的过度依赖问题,同时引入二维史密斯预估器,有效地进行了数据丢包补偿,保证了系统的控制性能,并且由于采用离轨策略,避免了不停地采样,减少了时间损耗,也能有效保证数据被充分挖掘,充分学习。
步骤一:描述丢包环境下二维批次过程控制问题;
通常情况下,二维批次过程的输入输出关系可用如下的状态空间方程描述:
其中,x表示系统状态,u表示系统控制输入,y表示系统输出,t表示时间方向,k表示批次;
为了减少系统的稳态误差并提高控制器的调节能力,在以下扩展状态空间模型中使用系统的增量状态和输出误差作为扩展的系统状态,根据上面的状态空间方程,可以将两个相邻批次间的增量系统表示为
其中,△kx(t,k)=x(t,k)-x(t,k-1)表示状态变量沿着批次方向的差值,r(t,k)=u(t,k)-u(t,k-1)表示控制输入沿着批次方向的差值,同样地,△ky(t,k)表示输出变量沿着批次方向的差值;
在无线网络环境下,考虑到数据包丢失对过程控制变量传输的影响,在经过无线网络传输后,包含丢包情况的系统状态可描述为:
xf(t,k)=δ(t,k)x(t,k)+(1-δ(t,k))xf(t,k-1) (30)
其中,xf(t,k)表示经过无线网络传输后得到的过程控制状态,δ(t,k)表示为传输是否成功的标志,可取值为0或1,δ(t,k)=0时,表示传输过程中出现了数据包的丢失,δ(t,k)=1时,表示传输成功,传输过程未发生数据包的丢失;
在控制器设计过程中,设计目标为利用网络传输反馈得到的数据xf(t,k)设计控制器,使得过程控制的输出信号y(t,k)在丢包情况下仍能跟踪其设定值yr。因此,将实际输出和设定输出的差值定义为e(t,k)=yr-y(t,k),再令则可根据状态空间方程(28)和增量状态空间方程(29)得到如下扩展的系统方程:
给出如下批次过程的线性二次型最优跟踪问题的性能指标:
以及控制策略
其中,Q1和Q2是半正定矩阵,表示状态权重,R为正定矩阵,表示控制变量权重;
步骤二:构建网络环境下丢包模型,引入具有丢包补偿的二维史密斯预估器;
xf(t,k)是控制器接收到的系统状态,其表达式如下:
在TCP或UDP协议的情况下,可以认为丢包的数量是已知的;
再结合式(35),可构建出如下所示的史密斯预估器:
X(t,k)=Mη(t,k) (38)
步骤三:设计基于模型的最优过程控制器;
从系统状态出发,可由性能指标(32)定义出如下所示的值函数:
则在初始状态时,指定第一步控制策略后设计Q函数如下所示:
Q*(X(t,k),X(t+1,k-1),r(t,k))
=XT(t,k)Q1X(t,k)+XT(t+1,k-1)Q2X(t+1,k-1)+r(t,k)TRr(t,k)+V*(X(t+1,k),X(t+1,k))
(40)
值函数和Q函数的二次型形式可表述为:
其中H*可表示为:
其中,为了简化表达,H*矩阵下角标中的X1用来表示状态X(t,k),X2用来表示状态X(t+1,k-1);
基于动态规划,可得到如下所示的基于Q函数的二维贝尔曼方程:
其中s(t,k)=[XT(t,k),XT(t+1,k-1),rT(t,k)]T;
步骤四:设计丢包环境下的二维批次过程无模型离轨策略最优跟踪控制方法;
根据引入的史密斯预估器,可先构建出基于史密斯补偿的控制策略
同样地,在引入史密斯预估器后,等式(44)中的二维贝尔曼方程阐述如下:
M*=MT(MMT)-1;
行为控制策略和学习的目标策略都为r(t,k)时,每次需要更新参数时都需要重新采样,此外,使用当前控制策略产生数据,同时对当前控制策略进行优化改进,这容易导致一些数据始终没有被探索过,为了更好地解决数据挖掘与数据利用的矛盾,在系统中引入辅助变量得到:
根据克罗内克积的表达形式:
进一步将(49)式改写为如下形式:
进而得到如下表达式:
通过对上述各项的计算,得到控制器增益:
得到上述控制器增益的迭代表达式后,首先利用行为策略产生时间方向和批次方向的二维数据,将数据存储在Φj(t,k)和中,接着给定能使系统稳定的初始控制器增益,再通过(53)和(54)迭代求解/>和/>一直到满足/>和/>差值的绝对值小于一个极小的正整数,则停止求解;
步骤五:进行控制算法的无偏性与收敛性分析;
为了证明所设计的无模型离轨策略最优跟踪控制方法的无偏性,将探测噪声n(t,k)引入到行为策略r(t,k)中,状态空间则可以写成如下形式:
则二维贝尔曼方程则被改写成:
将(55)式代入(56)式,则有
显然,等式(57)等价于等式(49),那么两者的解也等价。因此引入的探测噪声时,二维贝尔曼方程求解出的/>不会出现偏差,那么由/>矩阵求出的控制器增益也不会变化。因此,所提出的二维无模型离轨策略最优跟踪控制方法具有无偏性。
在分析算法的收敛性时,二维贝尔曼方程可以被简化为如下形式:
其中
可以看出,矩阵和/>矩阵迭代过程类似。因此,当给定了初始迭代条件且迭代次数接近无穷大时,满足黎卡提方程的解/>矩阵在迭代过程中逐渐收敛到最优解,由于/>矩阵和/>矩阵收敛迭代趋势类似,因此无模型离轨策略最优跟踪控制方法的解矩阵也逐渐收敛到最优/>矩阵。
本发明的优点与效果为:
本发明考虑到无线网络环境下,数据传输不稳定出现丢包现象会对系统性能带来影响,以及考虑到系统模型信息未知的情况下,针对二维批次过程,提出一种二维框架下的无模型离轨策略最优跟踪控制方法;此发明设计了二维史密斯预测器,可以基于通信网络上测量的历史数据来预测当前状态,有效地补偿了数据丢包,保证了系统的控制性能;采用了数据驱动方式,可有效地解决批次系统无法精确建模的问题,仅仅利用批次过程在时间方向以及批次方向的输出数据和控制输入数据,在系统动态未知的情况下,实现控制器的设计并求解出最优的控制器增益,克服了控制器对模型的依赖;此外,采用离轨策略,避免了需要不停地采样的问题,减少了时间损耗,也能有效保证数据被充分挖掘,充分学习;通过进行的无偏性及收敛性分析,有效地保证了系统性能。
附图说明
图1为连续最大丢包数为1时的随机丢包序列;
图5为连续最大丢包数为1时的输出曲线;
图6为连续最大丢包数为1时的控制输入曲线;
图7为连续最大丢包数为2时的随机丢包序列;
图8为连续最大丢包数为2时的输出曲线;
图9为连续最大丢包数为2时的控制输入曲线;
具体实施方式
为了进一步说明本发明,下面结合附图及实例对本发明进行详细地描述,但不能将它们理解为对本发明保护范围的限定。
实施例1:
注塑成型是重要的塑料制品成型方式,也是一种典型的批次过程。随着注塑产品应用范围越来越广,对产品质量的要求也越来越高。在注塑成型过程中,工艺参数直接影响模具内熔体的流动状态和最终制品的质量,获取并保持优化的工艺参数是得到高质量制品的前提。完整的注塑过程上共包括塑化、填充、保压和冷却四个主要阶段,在注塑过程将近结束时,螺杆停止旋转,只是向前推进,此时注塑进入保压阶段。保压过程中,熔体流速极低,流动不再起主导作用,压力成为了影响保压过程的主要因素。因此,在注塑成型保压阶段,通过阀门开度的大小来控制喷嘴压力是非常重要的。在这一部分中,用所提出的无模型离轨策略最优跟踪控制方法来控制这一阶段的两个参数。
在大量试验的基础上,二维注塑成型过程保压阶段喷嘴压力(NP)与阀门开度(VO)的关系式为下式:
NP(t+1,k)=1.317NP(t,k)+171.8VO(t,k)-(0.3259NP(t-1,k)+156.8VO(t-1,k))
(63)其中,VO(t,k)表示系统在k批次t时刻的阀门开度,单位%,VO(t-1,k)表示系统k批次t-1时刻的阀门开度,单位%,NP(t+1,k)表示系统k批次t+1时刻的腔内压力,单位bar,NP(t,k)表示表示系统k批次t时刻的腔内压力,单位bar,系统k批次t-1时刻的腔内压力用NP(t-1,k)表示,单位bar,腔内压力的范围为:200bar≤NP(t,k)≤400bar;
取状态变量x(t,k)=[NP(t,k)-0.3259NP(t-1,k)-156.8VO(t-1,k)]T,控制量u(t,k)=VO(t,k),系统输出y(t,k)=NP(t,k),得到保压阶段的状态空间方程:
仿真中所采用的控制器参数为:Q1=Q2=diag[6,6,6],R=1。为了更好地证明所提出的离轨算法的有效性,用黎卡提方程求解得到的最优的P*矩阵,进而采用设计的基于模型的控制器求得最优的控制器增益,这些最优的参数将被用来作为一个参照,用于验证所提出的二维无模型离轨策略最优跟踪控制方法的准确性和有效性,最优的控制器增益如下:
接着用本文所提出的无模型离轨策略最优跟踪控制方法来验证,无线网络数据包丢失的情况下二维批次过程的最优跟踪控制效果,图1为连续最大丢包数为1的时候,丢包率为0.3时的随机丢包序列。
图2和图3,4分别为在不断学习的过程中,矩阵以及/>逐渐收敛到的过程。从这三张图可以看出,随着运行批次的增加,/>与/>之间的偏差越来越小,两者越来越接近,控制器增益/>和/>的收敛情况也类似,在第10批次往后,学习过程中的/>与最优的/>已基本上相等。
图5和图6分别表示二维离轨策略最优跟踪控制方法的输出跟踪轨迹和控制输入轨迹。从这两张图可以看出,在网络最大连续丢包数为1的情况下,采用本文所提出来的不依赖于模型的具有史密斯预估器的最优跟踪控制,系统的跟踪性能良好,且随着运行批次的增加,系统的实际输出与设定值越来越接近,在第10批次之后,系统的实际输出已经达到设定值300。
接下来考虑最大连续丢包数为2时的情况,此时的随机丢包序列如图7所示,经过所提出算法的学习后,得到目前系统的输出跟踪轨迹与控制输入轨迹如图8和9所示。仿真结果表明,在网络最大连续丢包数为2的情况下,采用本文所设计的融合了二维史密斯预估器的批次过程无模型离轨最优跟踪控制方法,系统输出能够跟踪上参考输入。因此可以看出,在使用所提出的算法进行控制时,随着网络性能变差,跟踪性能几乎不受影响。同时,系统对丢包数的容忍范围较大,当最大连续丢包数增大时,系统的稳定性也可以得到保障。
综上,本发明考虑到无线网络环境下,数据传输不稳定出现丢包现象会对系统性能带来影响,以及考虑到系统模型信息未知的情况下,针对二维批次过程,提出一种二维框架下的无模型离轨策略最优跟踪控制方法;此发明设计出了二维史密斯预测器,可以基于通信网络上测量的历史数据来预测当前状态,有效地补偿了数据丢包,保证了系统的控制性能;采用了数据驱动方式,可有效地解决批次系统无法精确建模的问题,仅仅利用注塑成型过程输出数据和控制输入数据,在系统动态未知的情况下,实现控制器的设计并求解出最优的控制器增益,克服了控制器对模型的依赖;此外,采用离轨策略,避免了需要不停地采样的问题,减少了时间损耗,也能有效保证数据被充分挖掘,充分学习;通过进行的无偏性及收敛性分析,有效地保证了系统性能。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (1)
1.丢包环境下批次过程无模型离轨策略最优跟踪控制方法,其特征在于:具体步骤如下:
步骤一:描述丢包环境下二维批次过程控制问题;
通常情况下,二维批次过程的输入输出关系可用如下的状态空间方程描述:
其中,x表示系统状态,u表示系统控制输入,y表示系统输出,t表示时间方向,k表示批次;
为了减少系统的稳态误差并提高控制器的调节能力,使用系统的增量状态和输出误差作为新的系统状态来建立扩展的状态空间方程,根据式(1),可以将两个相邻批次间的增量系统状态空间方程表示为
其中,△kx(t,k)=x(t,k)-x(t,k-1)表示状态变量沿着批次方向的差值,r(t,k)=u(t,k)-u(t,k-1)表示控制输入沿着批次方向的差值,同样地,△ky(t,k)表示输出变量沿着批次方向的差值;
在无线网络环境下,考虑到数据包丢失对过程控制变量传输的影响,在经过无线网络传输后,包含丢包情况的系统状态可描述为:
xf(t,k)=δ(t,k)x(t,k)+(1-δ(t,k))xf(t,k-1) (3)
其中,xf(t,k)表示经过无线网络传输后得到的过程控制状态,δ(t,k)表示为传输是否成功的标志,可取值为0或1,δ(t,k)=0时,表示传输过程中出现了数据包的丢失,δ(t,k)=1时,表示传输成功,传输过程未发生数据包的丢失;
在控制器设计过程中,设计目标为利用网络传输反馈得到的数据xf(t,k)设计控制器,使得过程控制的输出信号y(t,k)在丢包情况下仍能跟踪其设定值yr,因此,将实际输出和设定输出的差值定义为e(t,k)=yr-y(t,k),再令则可根据状态空间方程(1)和增量状态空间方程(2)得到如下扩展的系统方程:
给出如下批次过程的线性二次型最优跟踪问题的性能指标
以及控制策略
其中,Q1和Q2是半正定矩阵,表示状态权重,R为正定矩阵,表示控制变量权重;
步骤二:构建网络环境下丢包模型,引入具有丢包补偿的二维史密斯预估器;
xf(t,k)是经过网络传输后,控制器接收到的系统状态,其表达式如下:
在TCP或UDP协议的情况下,可以认为丢包的数量是已知的;
再结合式(8),可构建出如下所示的史密斯预估器:
X(t,k)=Mη(t,k) (12)
步骤三:设计基于模型的最优过程控制器;
由性能指标(5)可定义如下所示的值函数
以及如下所示的Q函数
再利用动态规划原理,可以得到如下关系:
V*(X(t,k),X(t+1,k-1))=Q*(X(t,k),X(t+1,k-1),r*(t,k)) (15)
如果策略r(t,k)是可允许控制的,那么批次过程的二维值函数和二维Q函数都可以表示为如下所示的二次型形式:
Q*(X(t,k),X(t+1,k-1),r(t,k))=s(t,k)TH*s(t,k) (17)
其中P*和H*均为正定矩阵,s(t,k)=[XT(t,k),XT(t+1,k-1),rT(t,k)]T,H*可表示为:
其中,为了简化表达,H*矩阵下角标中的X1用于表示状态X(t,k),X2用于表示状态X(t+1,k-1),r用于表示r(t,k),根据(16)式和(17)式的关系,可以得到
基于动态规划,可得到如下所示的基于二维Q函数的二维贝尔曼方程:
步骤四:设计丢包环境下的二维批次过程无模型离轨策略最优跟踪控制方法;
根据引入的史密斯预估器(12),可构建出基于史密斯补偿的控制策略
同样地,在引入史密斯预估器后,等式(20)中的二维贝尔曼方程阐述如下:
M*=MT(MMT)-1;
根据克罗内克积的表达形式,进一步将上式改写为如下形式:
通过对上述各项的计算,得到控制器增益:
得到上述控制器增益的迭代表达式后,首先利用行为策略作用于系统产生时间方向和批次方向的二维数据,将数据存储在Φj(t,k)和中,接着给定能使系统稳定的初始控制器增益,再通过(26)式和(27)式迭代求解/>和/>一直到满足条件,即/>和/>差值的绝对值以及/>和/>差值的绝对值小于一个极小的正整数,则停止求解;
步骤五:进行控制算法的无偏性与收敛性分析;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111442738.XA CN114200834B (zh) | 2021-11-30 | 2021-11-30 | 丢包环境下批次过程无模型离轨策略最优跟踪控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111442738.XA CN114200834B (zh) | 2021-11-30 | 2021-11-30 | 丢包环境下批次过程无模型离轨策略最优跟踪控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114200834A CN114200834A (zh) | 2022-03-18 |
CN114200834B true CN114200834B (zh) | 2023-06-30 |
Family
ID=80649703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111442738.XA Active CN114200834B (zh) | 2021-11-30 | 2021-11-30 | 丢包环境下批次过程无模型离轨策略最优跟踪控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114200834B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115327904B (zh) * | 2022-08-11 | 2024-09-06 | 辽宁石油化工大学 | 二维间歇过程非策略无模型输出反馈最优跟踪控制方法 |
CN115167150B (zh) * | 2022-08-15 | 2024-07-05 | 辽宁石油化工大学 | 具有未知系统动态的批次过程二维离轨策略交错q学习最优跟踪控制方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105373098A (zh) * | 2015-11-26 | 2016-03-02 | 江南大学 | 一种基于变量时段分解的间歇过程无模型在线滚动优化方法 |
CN112367132A (zh) * | 2020-10-27 | 2021-02-12 | 西北工业大学 | 基于强化学习解决认知无线电中的功率分配算法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103529702A (zh) * | 2013-09-18 | 2014-01-22 | 杭州电子科技大学 | 批次过程的预测函数容错控制方法 |
CN104932263B (zh) * | 2015-06-03 | 2017-07-18 | 辽宁石油化工大学 | 一种多阶段间歇过程的最小运行时间控制方法 |
WO2016205944A1 (en) * | 2015-06-23 | 2016-12-29 | Trojan Technologies | Process and device for the treatment of a fluid containing a contaminant |
CN105446292B (zh) * | 2015-11-24 | 2018-01-09 | 江南大学 | 一种基于变量时段分解的间歇过程无模型摄动优化方法 |
CN105353619B (zh) * | 2015-11-26 | 2018-12-21 | 杭州电子科技大学 | 一种批次注塑过程的滚动时域跟踪控制方法 |
CN105911868B (zh) * | 2016-06-15 | 2021-06-15 | 南京工业大学 | 多批次间歇反应器二维迭代学习反馈控制方法 |
US20190097948A1 (en) * | 2017-09-28 | 2019-03-28 | Intel Corporation | Packet sequence batch processing |
US11126692B2 (en) * | 2017-09-29 | 2021-09-21 | Rockwell Automation Technologies, Inc. | Base analytics engine modeling for monitoring, diagnostics optimization and control |
CN108628270B (zh) * | 2018-06-11 | 2020-11-20 | 哈尔滨工程大学 | 一种基于plc远程监控终端的优化网络控制装置与方法 |
CN110083064B (zh) * | 2019-04-29 | 2022-02-15 | 辽宁石油化工大学 | 一种基于非策略q-学习的网络最优跟踪控制方法 |
CN110083063B (zh) * | 2019-04-29 | 2022-08-12 | 辽宁石油化工大学 | 一种基于非策略q学习的多个体优化控制方法 |
CN111385147B (zh) * | 2020-03-06 | 2021-07-27 | 腾讯科技(深圳)有限公司 | 故障模拟方法、装置和计算机可读存储介质 |
CN112859604B (zh) * | 2021-01-11 | 2022-10-14 | 辽宁石油化工大学 | 一种针对未知动态注塑成型过程的二维数据驱动最优跟踪控制方法 |
-
2021
- 2021-11-30 CN CN202111442738.XA patent/CN114200834B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105373098A (zh) * | 2015-11-26 | 2016-03-02 | 江南大学 | 一种基于变量时段分解的间歇过程无模型在线滚动优化方法 |
CN112367132A (zh) * | 2020-10-27 | 2021-02-12 | 西北工业大学 | 基于强化学习解决认知无线电中的功率分配算法 |
Also Published As
Publication number | Publication date |
---|---|
CN114200834A (zh) | 2022-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114200834B (zh) | 丢包环境下批次过程无模型离轨策略最优跟踪控制方法 | |
CN107966902B (zh) | 一种不确定性间歇过程的约束2d跟踪控制方法 | |
CN107942667B (zh) | 基于时变时滞和干扰的注塑过程混杂2d跟踪控制方法 | |
Shi et al. | Robust design of integrated feedback and iterative learning control of a batch process based on a 2D Roesser system | |
CN109212971A (zh) | 多阶段间歇过程2d线性二次跟踪容错控制方法 | |
Wang et al. | H∞ design of 2D controller for batch processes with uncertainties and interval time-varying delays | |
CN110579970B (zh) | 一种2d滚动优化下间歇过程终端约束预测控制方法 | |
Wang et al. | A 2D-FM model-based robust iterative learning model predictive control for batch processes | |
Rosenfelder et al. | Cooperative distributed nonlinear model predictive control of a formation of differentially-driven mobile robots | |
CN109541940A (zh) | 基于2d模型多阶段间歇过程受限预测混杂容错控制方法 | |
CN106933105A (zh) | 受限条件下的轨迹更新综合预测迭代学习控制算法 | |
Wang et al. | Terminal constrained robust hybrid iterative learning model predictive control for complex time-delayed batch processes | |
Lakshmanan et al. | Estimation and model predictive control of non-linear batch processes using linear parameter varying models | |
Ruan et al. | Trajectory optimization and positioning control for batch process using learning control | |
Zhou et al. | A two-stage robust iterative learning model predictive control for batch processes | |
Li et al. | Robust asynchronous fuzzy predictive fault-tolerant tracking control for nonlinear multi-phase batch processes with time-varying reference trajectories | |
CN112180738B (zh) | 针对非线性注塑成型异步切换过程鲁棒模糊预测控制方法 | |
CN114879508B (zh) | 一种基于模型预测控制的磨削机器人路径跟踪控制方法 | |
CN111061155B (zh) | 一种基于遗传算法优化的间歇过程2d模型预测控制方法 | |
Shi et al. | Two-dimensional model-free optimal tracking control for batch processes with packet loss | |
Li et al. | A novel two‐dimensional PID controller design using two‐dimensional model predictive iterative learning control optimization for batch processes | |
CN114911162A (zh) | 具有时变时滞异步切换多阶段间歇过程的迭代学习鲁棒预测控制方法 | |
Zhang et al. | An online control approach for forging machine using reinforcement learning and taboo search | |
CN115327903B (zh) | 二维状态时滞批处理过程的离轨策略最优跟踪控制方法 | |
Yi et al. | Improved H-infinity hybrid model predictive fault-tolerant control for time-delayed batch processes against disturbances |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Shi Huiyuan Inventor after: Wen Xin Inventor after: Jiang Xueying Inventor after: Lv Mengdi Inventor after: Su Chengli Inventor after: Li Ping Inventor before: Shi Huiyuan Inventor before: Wen Xin Inventor before: Jiang Xueying Inventor before: Su Chengli Inventor before: Li Ping |
|
GR01 | Patent grant | ||
GR01 | Patent grant |