CN114200834A

CN114200834A - 丢包环境下批次过程无模型离轨策略最优跟踪控制方法

Info

Publication number: CN114200834A
Application number: CN202111442738.XA
Authority: CN
Inventors: 施惠元; 文馨; 姜雪莹; 苏成利; 李平
Original assignee: Liaoning Shihua University
Current assignee: Liaoning Shihua University
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-18
Anticipated expiration: 2041-11-30
Also published as: CN114200834B

Abstract

本发明涉及丢包环境下批次过程无模型离轨策略最优跟踪控制方法，属于工业过程控制技术领域，具体步骤如下：步骤一：描述丢包环境下二维批次过程控制问题；步骤二：构建网络环境下丢包模型，引入具有丢包补偿的二维史密斯预估器；步骤三：设计基于模型的最优过程控制器；步骤四：设计丢包环境下的二维批次过程无模型离轨策略最优跟踪控制方法；步骤五：进行控制算法的无偏性与收敛性分析。本发明所设计的方法能极大地降低控制器设计时系统的模型依赖性，同时引入二维史密斯预估器，有效地进行了数据丢包补偿，还采用了离轨策略，保证了数据的充分挖掘，降低了计算成本。

Description

丢包环境下批次过程无模型离轨策略最优跟踪控制方法

技术领域

本发明属于工业过程控制技术领域，具体涉及丢包环境下批次过程无模型离轨策略最优跟踪控制方法。

背景技术

随着计算机技术、控制技术和网络通信技术的迅速发展，三者之间的交叉融合也越来越紧密，控制系统的空间分布变得越来越广，控制结构也越来越复杂，无线网络环境下的批次过程控制问题也引起了控制、通信、数学等多学科研究者的广泛关注。以往在对这类系统进行控制器分析设计时，大多数都是在传感器到控制器有完美数据传输的假设下进行的。而在实际工业生产中，由于网络传输的不可靠性、带宽限制以及网络拥塞等原因，难以避免出现如数据包丢失等情况，这在一定条件下会显著降低系统性能甚至使系统失稳，在以往具有数据包丢失的二维批次过程的相关研究中，学者们通常使用依赖系统模型的方法对控制器进行设计，这对控制对象的要求极高，在一定程度上限制了这类方法在工业实际中的应用，因此，这类过于依赖模型的算法通常难以在丢包环境下的批次过程控制器设计中得到满意的效果。

批次过程作为一种小规模多工序的生产过程，每天都在产生并存储着大量的数据，这些数据隐含着工况变化、产品质量、生产效率和工业设备运行等重要信息。为了有效利用这些数据，以及在难以对受控系统建立较为准确的机理动态模型的条件下，实现对工业生产过程的控制，数据驱动控制方法应运而生。而作为其中之一的强化学习算法，更是在智能控制、数据预测、图像处理等诸多领域有了广泛应用，并且取得了良好的效果。但是这些研究仅局限于不涉及批次信息的一维系统，对于包含批次方向和时间方向的批次过程出现丢包问题的情况，一维强化学习算法难以解决。另外很多基于强化学习的算法采用的都是同轨策略，限制了数据挖掘的深度和广度。因此，在存在数据丢包且无法获得过程精确模型的情况下，如何有效地利用这些二维数据直接进行批次生产过程的控制器设计，是我们有待解决的问题。为此，研究一种融合史密斯预估器的二维框架下的无模型离轨策略最优跟踪控制方法，在存在数据包丢失的情况下，能得到有效补偿，还能克服模型依赖的问题，仅仅利用数据不断学习，得到最优的控制律。

发明内容

本发明考虑到无线网络环境下，数据传输不稳定出现丢包现象会对系统性能带来影响，以及考虑到系统模型信息未知的情况下，针对二维批次过程，提出一种二维框架下的无模型离轨策略最优跟踪控制方法，该方法可有效地解决批次过程无法精确建模的问题，仅仅利用采集到的历史数据即可求解控制律，克服了控制器对模型的依赖，此外，还对网络传输丢包问题进行了史密斯预估补偿，将其融合在无模型离轨策略中，经过不断地学习寻优，得到最优的控制律，并很好地跟踪上设定值，提高系统的控制和跟踪性能。

本发明是通过以下技术方案实现的：

本发明针对丢包环境下二维批次过程这个控制对象采用一般状态空间方程进行描述，为了减少系统的稳态误差并提高控制器的调节能力，使用系统的增量状态和输出误差作为扩展的系统状态，从而可形成新的状态空间方程，接着构建网络环境下的丢包模型，引入具有丢包补偿的二维史密斯预估器用来补偿丢失的数据，再设计基于模型的最优过程控制器用于对所提出的无模型离轨策略最优跟踪控制方法进行控制效果的对比，接着提出基于强化学习离轨策略的数据驱动最优跟踪控制方法，用于学习及求解最优控制增益，最后进行无模型离轨策略最优跟踪控制方法的无偏性与收敛性分析。本发明所设计的方法能有效克服控制器设计时对模型的过度依赖问题，同时引入二维史密斯预估器，有效地进行了数据丢包补偿，保证了系统的控制性能，并且由于采用离轨策略，避免了不停地采样，减少了时间损耗，也能有效保证数据被充分挖掘，充分学习。

步骤一：描述丢包环境下二维批次过程控制问题；

通常情况下，二维批次过程的输入输出关系可用如下的状态空间方程描述：

其中，x表示系统状态，u表示系统控制输入，y表示系统输出，t表示时间方向，k表示批次；

为了减少系统的稳态误差并提高控制器的调节能力，在以下扩展状态空间模型中使用系统的增量状态和输出误差作为扩展的系统状态，根据上面的状态空间方程，可以将两个相邻批次间的增量系统表示为

其中，Δ_kx(t,k)＝x(t,k)-x(t,k-1)表示状态变量沿着批次方向的差值，r(t,k)＝u(t,k)-u(t,k-1)表示控制输入沿着批次方向的差值，同样地，Δ_ky(t,k)表示输出变量沿着批次方向的差值；

在无线网络环境下，考虑到数据包丢失对过程控制变量传输的影响，在经过无线网络传输后，包含丢包情况的系统状态可描述为：

x_f(t,k)＝δ(t,k)x(t,k)+(1-δ(t,k))x_f(t,k-1) (30)

其中，x_f(t,k)表示经过无线网络传输后得到的过程控制状态，δ(t,k)表示为传输是否成功的标志，可取值为0或1，δ(t,k)＝0时，表示传输过程中出现了数据包的丢失，δ(t,k)＝1时，表示传输成功，传输过程未发生数据包的丢失；

在控制器设计过程中，设计目标为利用网络传输反馈得到的数据x_f(t,k)设计控制器，使得过程控制的输出信号y(t,k)在丢包情况下仍能跟踪其设定值y_r。因此，将实际输出和设定输出的差值定义为e(t,k)＝y_r-y(t,k)，再令

则可根据状态空间方程(28)和增量状态空间方程(29)得到如下扩展的系统方程：

其中Y(t,k)＝Δ_ky(t,k)，

I表示适当维数的单位矩阵；

给出如下批次过程的线性二次型最优跟踪问题的性能指标：

以及控制策略

其中，Q₁和Q₂是半正定矩阵，表示状态权重，R为正定矩阵，表示控制变量权重；

步骤二：构建网络环境下丢包模型，引入具有丢包补偿的二维史密斯预估器；

x_f(t,k)是控制器接收到的系统状态，其表达式如下：

x_f(t,k)＝x(t-θ_fn(t,k),k) (34)

其中θ_fn(t,k)是数据传输过程中的连续丢包数，且满足0≤θ_fn(t,k)≤θ_fmax(t,k)的取值范围，θ_fmax(t,k)是连续丢包数的最大值，则可从式(28)中获得以下公式，来预测当前时间的状态量；

在TCP或UDP协议的情况下，可以认为丢包的数量是已知的；

当θ_fn(t,k)＝0时，

当θ_fn(t,k)＝1时，

按照这种方式类推，当θ_fn(t,k)＝θ_fmax(t,k)时，

再结合式(35)，可构建出如下所示的史密斯预估器：

X(t,k)＝Mη(t,k)(38)其中

步骤三：设计基于模型的最优过程控制器；

从系统状态出发，可由性能指标(32)定义出如下所示的值函数：

则在初始状态时，指定第一步控制策略后设计Q函数如下所示：

Q^*(X(t,k),X(t+1,k-1),r(t,k))

＝X^T(t,k)Q₁X(t,k)+X^T(t+1,k-1)Q₂X(t+1,k-1)+r(t,k)^TRr(t,k)

+V^*(X(t+1,k),X(t+1,k))

(40)

值函数和Q函数的二次型形式可表述为：

其中H^*可表示为：

其中，为了简化表达，H^*矩阵下角标中的X1用来表示状态X(t,k)，X2用来表示状态X(t+1,k-1)；

基于动态规划，可得到如下所示的基于Q函数的二维贝尔曼方程：

其中s(t,k)＝[X^T(t,k),X^T(t+1,k-1),r^T(t,k)]^T；

根据最优性的必要条件，令

得到最优控制输入：

步骤四：设计丢包环境下的二维批次过程无模型离轨策略最优跟踪控制方法；

根据引入的史密斯预估器，可先构建出基于史密斯补偿的控制策略

其中

同样地，在引入史密斯预估器后，等式(44)中的二维贝尔曼方程阐述如下：

其中

M^*＝M^T(MM^T)^-1；

行为控制策略和学习的目标策略都为r(t,k)时，每次需要更新参数时都需要重新采样，此外，使用当前控制策略产生数据，同时对当前控制策略进行优化改进，这容易导致一些数据始终没有被探索过，为了更好地解决数据挖掘与数据利用的矛盾，在系统中引入辅助变量

得到：

其中

r(t,k)为行为策略，用于产生算法学习所需的数据，r^j(t,k)是所提算法需要学习的目标控制策略，沿着新系统的轨迹，二维贝尔曼方程表示为如下形式：

其中

进一步化简变形，则等式(49)的等号左边部分可表述为：

根据克罗内克积的表达形式：

进一步将(49)式改写为如下形式：

进而得到如下表达式：

其中

通过对上述各项的计算，得到控制器增益：

得到上述控制器增益的迭代表达式后，首先利用行为策略产生时间方向和批次方向的二维数据，将数据存储在Φ^j(t,k)和

中，接着给定能使系统稳定的初始控制器增益，再通过(53)和(54)迭代求解

和

一直到满足

和

差值的绝对值小于一个极小的正整数，则停止求解；

步骤五：进行控制算法的无偏性与收敛性分析；

为了证明所设计的无模型离轨策略最优跟踪控制方法的无偏性，将探测噪声n(t,k)引入到行为策略r(t,k)中，状态空间则可以写成如下形式：

则二维贝尔曼方程则被改写成：

将(55)式代入(56)式，则有

显然，等式(57)等价于等式(49)，那么两者的解

也等价。因此引入的探测噪声时，二维贝尔曼方程求解出的

不会出现偏差，那么由

矩阵求出的控制器增益也不会变化。因此，所提出的二维无模型离轨策略最优跟踪控制方法具有无偏性。

在分析算法的收敛性时，二维贝尔曼方程可以被简化为如下形式：

考虑到

矩阵和

矩阵在(19)式中的关系，并将其代入到(58)，则可以得到：

则可以得到

矩阵的迭代关系为：

其中

可以看出，

矩阵和

矩阵迭代过程类似。因此，当给定了初始迭代条件且迭代次数接近无穷大时，满足黎卡提方程的解

矩阵在迭代过程中逐渐收敛到最优解，由于

矩阵和

矩阵收敛迭代趋势类似，因此无模型离轨策略最优跟踪控制方法的解

矩阵也逐渐收敛到最优

矩阵。

本发明的优点与效果为：

本发明考虑到无线网络环境下，数据传输不稳定出现丢包现象会对系统性能带来影响，以及考虑到系统模型信息未知的情况下，针对二维批次过程，提出一种二维框架下的无模型离轨策略最优跟踪控制方法；此发明设计了二维史密斯预测器，可以基于通信网络上测量的历史数据来预测当前状态，有效地补偿了数据丢包，保证了系统的控制性能；采用了数据驱动方式，可有效地解决批次系统无法精确建模的问题，仅仅利用批次过程在时间方向以及批次方向的输出数据和控制输入数据，在系统动态未知的情况下，实现控制器的设计并求解出最优的控制器增益，克服了控制器对模型的依赖；此外，采用离轨策略，避免了需要不停地采样的问题，减少了时间损耗，也能有效保证数据被充分挖掘，充分学习；通过进行的无偏性及收敛性分析，有效地保证了系统性能。

附图说明

图1为连续最大丢包数为1时的随机丢包序列；

图2为

的收敛过程；

图3为控制器增益

的收敛过程；

图4为控制器增益

的收敛过程；

图5为连续最大丢包数为1时的输出曲线；

图6为连续最大丢包数为1时的控制输入曲线；

图7为连续最大丢包数为2时的随机丢包序列；

图8为连续最大丢包数为2时的输出曲线；

图9为连续最大丢包数为2时的控制输入曲线；

具体实施方式

为了进一步说明本发明，下面结合附图及实例对本发明进行详细地描述，但不能将它们理解为对本发明保护范围的限定。

实施例1：

注塑成型是重要的塑料制品成型方式，也是一种典型的批次过程。随着注塑产品应用范围越来越广，对产品质量的要求也越来越高。在注塑成型过程中，工艺参数直接影响模具内熔体的流动状态和最终制品的质量，获取并保持优化的工艺参数是得到高质量制品的前提。完整的注塑过程上共包括塑化、填充、保压和冷却四个主要阶段，在注塑过程将近结束时，螺杆停止旋转，只是向前推进，此时注塑进入保压阶段。保压过程中，熔体流速极低，流动不再起主导作用，压力成为了影响保压过程的主要因素。因此，在注塑成型保压阶段，通过阀门开度的大小来控制喷嘴压力是非常重要的。在这一部分中，用所提出的无模型离轨策略最优跟踪控制方法来控制这一阶段的两个参数。

在大量试验的基础上，二维注塑成型过程保压阶段喷嘴压力(NP)与阀门开度(VO)的关系式为下式：

NP(t+1,k)＝1.317NP(t,k)+171.8VO(t,k)-(0.3259NP(t-1,k)+156.8VO(t-1,k)) (63)

其中，VO(t,k)表示系统在k批次t时刻的阀门开度，单位％，VO(t-1,k)表示系统k批次t-1时刻的阀门开度，单位％，NP(t+1,k)表示系统k批次t+1时刻的腔内压力，单位bar，NP(t,k)表示表示系统k批次t时刻的腔内压力，单位bar，系统k批次t-1时刻的腔内压力用NP(t-1,k)表示，单位bar，腔内压力的范围为：200bar≤NP(t,k)≤400bar；

取状态变量x(t,k)＝[NP(t,k)-0.3259NP(t-1,k)-156.8VO(t-1,k)]^T，控制量u(t,k)＝VO(t,k)，系统输出y(t,k)＝NP(t,k)，得到保压阶段的状态空间方程：

其中，

C＝[1 0]；

仿真中所采用的控制器参数为：Q₁＝Q₂＝diag[6,6,6]，R＝1。为了更好地证明所提出的离轨算法的有效性，用黎卡提方程求解得到的最优的P^*矩阵，进而采用设计的基于模型的控制器求得最优的控制器增益，这些最优的参数将被用来作为一个参照，用于验证所提出的二维无模型离轨策略最优跟踪控制方法的准确性和有效性，最优的控制器增益如下：

接着用本文所提出的无模型离轨策略最优跟踪控制方法来验证，无线网络数据包丢失的情况下二维批次过程的最优跟踪控制效果，图1为连续最大丢包数为1的时候，丢包率为0.3时的随机丢包序列。

图2和图3，4分别为在不断学习的过程中，

矩阵以及

逐渐收敛到

的过程。从这三张图可以看出，随着运行批次的增加，

与

之间的偏差越来越小，两者越来越接近，控制器增益

和

的收敛情况也类似，在第10批次往后，学习过程中的

与最优的

已基本上相等。

图5和图6分别表示二维离轨策略最优跟踪控制方法的输出跟踪轨迹和控制输入轨迹。从这两张图可以看出，在网络最大连续丢包数为1的情况下，采用本文所提出来的不依赖于模型的具有史密斯预估器的最优跟踪控制，系统的跟踪性能良好，且随着运行批次的增加，系统的实际输出与设定值越来越接近，在第10批次之后，系统的实际输出已经达到设定值300。

接下来考虑最大连续丢包数为2时的情况，此时的随机丢包序列如图7所示，经过所提出算法的学习后，得到目前系统的输出跟踪轨迹与控制输入轨迹如图8和9所示。仿真结果表明，在网络最大连续丢包数为2的情况下，采用本文所设计的融合了二维史密斯预估器的批次过程无模型离轨最优跟踪控制方法，系统输出能够跟踪上参考输入。因此可以看出，在使用所提出的算法进行控制时，随着网络性能变差，跟踪性能几乎不受影响。同时，系统对丢包数的容忍范围较大，当最大连续丢包数增大时，系统的稳定性也可以得到保障。

综上，本发明考虑到无线网络环境下，数据传输不稳定出现丢包现象会对系统性能带来影响，以及考虑到系统模型信息未知的情况下，针对二维批次过程，提出一种二维框架下的无模型离轨策略最优跟踪控制方法；此发明设计出了二维史密斯预测器，可以基于通信网络上测量的历史数据来预测当前状态，有效地补偿了数据丢包，保证了系统的控制性能；采用了数据驱动方式，可有效地解决批次系统无法精确建模的问题，仅仅利用注塑成型过程输出数据和控制输入数据，在系统动态未知的情况下，实现控制器的设计并求解出最优的控制器增益，克服了控制器对模型的依赖；此外，采用离轨策略，避免了需要不停地采样的问题，减少了时间损耗，也能有效保证数据被充分挖掘，充分学习；通过进行的无偏性及收敛性分析，有效地保证了系统性能。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.丢包环境下批次过程无模型离轨策略最优跟踪控制方法，其特征在于：具体步骤如下：

步骤一：描述丢包环境下二维批次过程控制问题；

为了减少系统的稳态误差并提高控制器的调节能力，使用系统的增量状态和输出误差作为新的系统状态来建立扩展的状态空间方程，根据式(1)，可以将两个相邻批次间的增量系统状态空间方程表示为

其中，Δ_kx(t，k)＝x(t，k)-x(t，k-1)表示状态变量沿着批次方向的差值，r(t，k)＝u(t，k)-u(t，k-1)表示控制输入沿着批次方向的差值，同样地，Δ_ky(t，k)表示输出变量沿着批次方向的差值；

x_f(t，k)＝δ(t，k)x(t，k)+(1-δ(t，k))x_f(t，k-1) (3)

其中，x_f(t，k)表示经过无线网络传输后得到的过程控制状态，δ(t，k)表示为传输是否成功的标志，可取值为0或1，δ(t，k)＝0时，表示传输过程中出现了数据包的丢失，δ(t，k)＝1时，表示传输成功，传输过程未发生数据包的丢失；

在控制器设计过程中，设计目标为利用网络传输反馈得到的数据x_f(t，k)设计控制器，使得过程控制的输出信号y(t，k)在丢包情况下仍能跟踪其设定值y_r，因此，将实际输出和设定输出的差值定义为e(t，k)＝y_r-y(t，k)，再令

则可根据状态空间方程(1)和增量状态空间方程(2)得到如下扩展的系统方程：

其中Y(t，k)＝Δ_ky(t，k)，

I表示适当维数的单位矩阵；

给出如下批次过程的线性二次型最优跟踪问题的性能指标

以及控制策略

x_f(t，k)是经过网络传输后，控制器接收到的系统状态，其表达式如下：

x_f(t，k)＝x(t-θ_fn(t，k)，k) (7)

其中θ_fn(t，k)是数据传输过程中的连续丢包数，且满足0≤θ_fn(t，k)≤θ_fmax(t，k)的取值范围，θ_fmax(t，k)是连续丢包数的最大值，则可从式(1)中获得以下公式，来预测当前时间的状态量；

在TCP或UDP协议的情况下，可以认为丢包的数量是已知的；

当θ_fn(t，k)＝0时，

当θ_fn(t，k)＝1时，

按照这种方式类推，当θ_fn(t，k)＝θ_fmax(t，k)时，

再结合式(8)，可构建出如下所示的史密斯预估器：

X(t，k)＝Mη(t，k) (12)

其中

步骤三：设计基于模型的最优过程控制器；

由性能指标(5)可定义如下所示的值函数

以及如下所示的Q函数

再利用动态规划原理，可以得到如下关系：

V^*(X(t，k)，X(t+1，k-1))＝Q^*(X(t，k)，X(t+1，k-1)，r^*(t，k)) (15)

如果策略r(t，k)是可允许控制的，那么批次过程的二维值函数和二维Q函数都可以表示为如下所示的二次型形式：

Q^*(X(t，k)，X(t+1，k-1)，r(t，k))＝s(t，k)^TH^*s(t，k) (17)

其中P^*和H^*均为正定矩阵，s(t，k)＝[X^T(t，k)，X^T(t+1，k-1)，r^T(t，k)]^T，H^*可表示为：

其中，为了简化表达，H^*矩阵下角标中的X1用于表示状态X(t，k)，X2用于表示状态X(t+1，k-1)，r用于表示r(t，k)，根据(16)式和(17)式的关系，可以得到

其中

基于动态规划，可得到如下所示的基于二维Q函数的二维贝尔曼方程：

根据最优控制原理，令

得到最优控制输入：

其中

根据引入的史密斯预估器(12)，可构建出基于史密斯补偿的控制策略

其中

同样地，在引入史密斯预估器后，等式(20)中的二维贝尔曼方程阐述如下：

其中

M^*＝M^T(MM^T)^-1；

为了更好地解决数据挖掘与数据利用的矛盾，在系统中引入辅助变量

得到：

其中

r(t，k)为行为策略，用于产生算法学习所需的数据，r^j(t，k)是所提算法需要学习的目标控制策略，沿着新系统的轨迹，二维贝尔曼方程表示为如下形式：

其中

根据克罗内克积的表达形式，进一步将上式改写为如下形式：

其中

通过对上述各项的计算，得到控制器增益：

得到上述控制器增益的迭代表达式后，首先利用行为策略作用于系统产生时间方向和批次方向的二维数据，将数据存储在Φ^j(t，k)和

中，接着给定能使系统稳定的初始控制器增益，再通过(26)式和(27)式迭代求解

和

一直到满足条件，即

和

差值的绝对值以及

和

差值的绝对值小于一个极小的正整数，则停止求解；

步骤五：进行控制算法的无偏性与收敛性分析；

丢包环境下，将探测噪声n(t，k)引入到行为策略r(t，k)中，无论引入的探测噪声是否为零，贝尔曼方程(25)求解出的

都不会变化，所以，探测噪声的加入并不会对所提出的算法的学习结果造成影响；

算法的收敛性在于当给定了初始迭代条件且迭代次数接近无穷大时，满足黎卡提方程的解

矩阵在迭代过程中逐渐收敛到最优解，由于

矩阵和

矩阵收敛趋势类似，因此所提出的无模型离轨策略最优跟踪控制方法的解

矩阵也逐渐收敛到最优

矩阵。