CN112859604A

CN112859604A - 一种针对未知动态注塑成型过程的二维数据驱动最优跟踪控制方法

Info

Publication number: CN112859604A
Application number: CN202110031486.5A
Authority: CN
Inventors: 施惠元; 文馨; 苏成利; 姜雪莹; 彭博; 杨晨; 李平
Original assignee: Liaoning Shihua University
Current assignee: Liaoning Shihua University
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2021-05-28
Anticipated expiration: 2041-01-11
Also published as: CN112859604B

Abstract

一种针对未知动态注塑成型过程的二维数据驱动最优跟踪控制方法，属于工业过程控制技术领域，具体步骤如下：步骤一：建立具有未知动态的二维注塑成型过程的状态空间模型；步骤二：将构建的二维注塑成型过程状态空间模型转化为新的增广状态空间模型；步骤三：设计具有未知动态注塑成型系统的二维增广状态空间模型的控制器；步骤四：设计控制律以及控制器增益K₁，K₂；步骤五：通过Q学习算法求解控制器增益K₁，K₂。本发明所设计的方法能有效地避免具有未知动态注塑成型过程建模困难以及具有重复性等复杂特性的问题，通过采用数据驱动的方式，极大地降低了系统的模型依赖性，降低了计算成本。

Description

一种针对未知动态注塑成型过程的二维数据驱动最优跟踪控制方法

技术领域

本发明属于工业过程控制技术领域，具体涉及一种针对未知动态注塑成型过程的二维数据驱动最优跟踪控制方法。

背景技术

随着市场经济的发展，产品生产越来越趋向于高质量、小批量的形式，因此以满足客户性能需求的小容量、高附加值的间歇生产过程开始成为研究热点，并被广泛应用于医药产品、化工原料以及塑料制品的生产制备中。作为一种典型的间歇生产过程，塑料制品行业的注塑成型过程有着较强的非线性、重复特性和模型复杂性，这就导致了难以对此过程进行精确的数学建模。因而传统的控制方法通常由于过于依赖模型而难以得到满意的控制效果，更无法满足注塑成型生产过程中柔性制造的需求。

鉴于注塑成型生产过程中每时每刻都会产生并储存大量的、包含时间方向和批次方向上的数据，在无法获得过程精确模型的情况下，如何有效地利用这些二维数据直接进行注塑成型生产过程的控制器设计，是我们有待解决的问题。强化学习由于具有可以在先验信息较少或者无先验信息的情况下，仅仅利用数据，对复杂系统进行优化控制的优势，发展几十年来，在系统的最优跟踪控制问题方面有着大量的研究。但这些研究主要都是针对一维系统，在具有二维特性的间歇过程控制问题方面尚未有相关研究。为此，研究一种基于强化学习的数据驱动控制方法，能使系统不依赖于模型，仅仅依靠时间方向和批次方向的数据不断学习，得到最优的控制律。

发明内容

本发明是针对具有未知系统动态的注塑成型过程，提出的一种二维框架下的数据驱动最优跟踪控制方法，该方法可有效地解决系统无法精确建模的问题，降低系统的模型依赖性，仅仅依靠时间方向和批次方向上的数据不断学习，得到最优的控制律，并很好地跟踪设定值，提高系统的控制和跟踪性能。

本发明是通过以下技术方案实现的：

本发明针对具有未知系统动态的注塑成型过程进行描述，可得相应的二维注塑成型过程状态空间模型，然后通过将输出误差增广到上述模型中，从而可形成新的二维注塑成型过程增广状态空间模型；其次选择合适的二维值函数和二维Q函数，通过分析二维值函数和二维Q函数之间的关系，给出不依赖于模型参数的二维贝尔曼方程；接着设计沿时间方向和沿批次方向的复合型迭代控制律，结合二维贝尔曼方程，用注塑成型过程产生的二维数据进行多次学习后，可获得注塑成型过程的最优控制增益；通过控制增益可得到性能指标下的最优控制律，随后作用于执行器控制系统可使系统的输出逐渐跟踪上设定值；

步骤一：建立具有未知动态的二维注塑成型过程的状态空间模型：

二维注塑成型过程的保压阶段的离散输入输出模型如下：

NP(k+1,p)＝1.317NP(k,p)+171.8VO(k,p)-(0.3259NP(k-1,p)+156.8VO(k-1,p))

(21)

其中VO(k,p)表示系统在p批次k时刻的阀门开度，VO(k-1,p)表示系统p批次k-1时刻的阀门开度，NP(k+1,p)表示系统p批次k+1时刻的腔内压力，NP(k,p)表示系统p批次k时刻的腔内压力，NP(k-1,p)表示系统p批次k-1时刻的腔内压力。

取状态变量x(k,p)＝[NP(k,p)-0.3259NP(k-1,p)-156.8VO(k-1,p)]^T,控制量u(k,p)＝VO(k,p)，系统输出y(k,p)＝NP(k,p)得到保压阶段状态空间模型：

其中，

C＝[1 0]

步骤二：将构建的二维注塑成型过程状态空间模型转化为新的增广状态空间模型；

为了得到系统的增量式模型，利用式(22)，用p批次k+1时刻的状态空间减去p-1批次k+1时刻的状态空间，可以得到如下所示的状态空间增量模型：

其中，r(k,p)＝u(k,p)-u(k,p-1)表示系统p批次k时刻的更新律；

定义y_r为保压阶段腔内压力的设定值，该设定值在各批次及各时刻均保持不变，则系统在p批次k+1时刻的输出跟踪误差为e(k+1,p)＝y_r-y(k+1,p)，将系统的状态空间模型(22)代入腔内压力y(k+1,p)，可得到

e(k+1,p)＝e(k+1,p-1)-CAΔ_px(k,p)-CBΔ_pr(k,p) (24)

将输出跟踪误差和增量的状态变量引入新的状态空间变量中，可以得到新的扩展的状态空间模型，结果如下：

其中，

e(k+1,p)＝y_r(k+1,p)-y(k+1,p)，

步骤三：设计具有未知动态注塑成型系统的二维增广状态空间模型的控制器；

根据模型(25)，可设计具有未知动态注塑成型系统的控制器增益为：

式中K₁为系统p批次k时刻对应的控制器增益，K₂为系统p-1批次k+1时刻对应的控制器增益；

同时可设计具有未知动态注塑成型系统的最优跟踪控制问题的性能指标为如下形式：

根据性能指标可设计出系统的二维值函数：

其二次型形式如下所示：

根据性能指标以及二维值函数，可设计系统对状态评估的二维Q函数为：

类似于二维值函数，二维Q函数也可表示为如下形式：

因此，将二维值函数和二维Q函数的二次型形式作比较，可得到P矩阵和H矩阵的基于控制器增益的关系：

将注塑成型过程的状态空间模型代入二维Q函数求解，可表达出H矩阵的基于模型参数的具体形式：

其中，为了简化表达，用x₁表示χ(k,p)，用x₂表示χ(k+1,p-1)；

基于动态规划，得到基于Q函数的二维贝尔曼方程，此二维贝尔曼方程不依赖于注塑成型系统的模型参数，仅仅与系统状态有关，具体形式如下：

其中z(k,p)＝[χ^T(k,p),χ^T(k+1,p-1),r^T(k,p)]^T；

根据最优性的必要条件，令

可得到最优控制输入：

步骤四：设计控制律以及控制器增益K₁，K₂；

采用数据驱动的二维Q学习算法来求解H矩阵参数H_rr，

和

从而根据

以及

设计出控制器增益K₁，K₂；

在这里，为了更好地解决Q学习中探索数据和利用数据之间的矛盾，在系统中引入了目标策略r^j(k,p)，目标策略是在通过行为策略生成的数据中不断优化和学习；在这两种策略的作用下，既保证了数据的全面性，又保证了学习的全局最优性，此时得到了如下的新系统：

其中

沿着新系统(36)的轨迹，二维贝尔曼方程可以被表示为如下形式：

将系统(36)以及P矩阵和H矩阵的关系代入到(37)式中，得到如下所示的二维贝尔曼方程表达式：

接着，则用采集到的系统状态数据来求解贝尔曼方程，用克罗内克积、最小二乘计算等理论将(18)式描述为如下形式：

其中

通过对上述各项的计算，可得到控制器增益：

步骤五：通过Q学习算法求解控制器增益K₁，K₂；

1.数据产生与收集：用稳定的行为策略产生时间和批次方向的注塑成型过程状态数据，并将其存储在

和θ^j+1(p)中；

2.初始化：给定能使系统稳定的初始控制器增益K₁₀，K₂₀，并设j＝0，其中j表示迭代次数；

3.算法执行：通过最小二乘以及存储的数据

和θ^j+1(p)，可由(19)式计算出L^j+1，接着通过(40)式计算并更新控制器增益K₁，K₂；

4.算法执行至控制器增益满足||K^j+1-K^j||<ε的条件时停止，其中ε是非常小的正整数，若不满足停止条件，令j＝j+1，且算法跳转至第2步骤并继续循环执行。

本发明的优点与效果为：

本发明针对具有未知动态注塑成型过程建模困难以及具有重复性等复杂特性的问题，提出一种具有未知动态注塑成型系统的二维数据驱动最优跟踪控制方法；此发明采用完全的数据驱动方式，仅仅利用注塑成型过程在批次和时间方向所测量的数据，不同于以往的对此类间歇过程精确建模的方法，更区别于传统的一维模式，在二维理论的框架下，采用数据驱动的方式，实现二维Q-学习算法对注塑成型过程的最优跟踪控制。所建立的引入输出误差的增广状态空间模型，为控制器的设计提供了更多的自由度，且保证了控制器的跟踪性能；通过采用数据驱动的方式，极大地降低了系统的模型依赖性，降低了计算成本；在求解控制器增益时，将行为策略和目标策略分开考虑，在对数据充分挖掘利用的同时，使系统即使在加入探测噪声后也能保证无偏性；且在多次迭代学习后，H矩阵逐渐趋近于最优的H矩阵，控制器增益也会收敛于最优控制输入。

附图说明

图1为H矩阵的收敛过程；

图2为控制器增益K₁的收敛过程；

图3为控制器增益K₂的收敛过程；

图4为二维Q学习算法下的控制输入曲线；

图5为二维Q学习算法下的输出跟踪曲线。

具体实施方式

为了进一步说明本发明，下面结合附图及实例对本发明进行详细地描述，但不能将它们理解为对本发明保护范围的限定。

实施例1：

注塑成型作为一种典型的间歇过程，在塑料制品工业中占有重要地位。它具有生产效率高、自动化程度高、加工精度高等特点，并被广泛应用于汽车、电气、通讯、航空航天等领域。压力的大小对塑性材料的密度分布有着重要的影响，也就是说，压力大的部分相对紧实，而压力小的部分相对松散。因此，在注塑成型保压阶段，通过阀门开度的大小来控制喷嘴压力是非常重要的。在这一部分中，用所提出的控制方法来控制这一阶段的两个参数。

在大量试验的基础上，二维注塑成型过程保压阶段喷嘴压力(NP)与阀门开度(VO)的关系式为下式：

NP(k+1,p)＝1.317NP(k,p)+171.8VO(k,p)-(0.3259NP(k-1,p)+156.8VO(k-1,p))

(41)

其中，VO(k,p)表示系统在p批次k时刻的阀门开度，VO(k-1,p)表示系统p批次k-1时刻的阀门开度，NP(k+1,p)表示系统p批次k+1时刻的腔内压力，NP(k,p)表示系统p批次k时刻的腔内压力，NP(k-1,p)表示系统p批次k-1时刻的腔内压力。

取状态变量x(k,p)＝[NP(k,p) -0.3259NP(k-1,p) -156.8VO(k-1,p)]^T,控制量u(k,p)＝VO(k,p)，系统输出y(k,p)＝NP(k,p)得到保压阶段状态空间模型：

其中，

C＝[1 0]

仿真中所采用的控制器参数为：Q₁＝Q₂＝diag[6,6,6]，R＝1。这里，首先用二维离散黎卡提方程求解出最优的P矩阵，结合(12)式求得最优的H矩阵如下(43)式，再代入(20)式即可得出最优的控制器增益如下(44)、(45)式。

经过多次学习之后，本发明提出的二维数据驱动最优跟踪控制方法求得的H矩阵(46)式和控制器增益(47)式、(48)式，逐渐收敛到最优H矩阵和最优控制器增益。

由图1可知，在学习过程中，随着批次数量的增加，H矩阵逐渐接近于最优H矩阵。此外，控制器增益K₁ K₂逐渐收敛于最优控制器增益的变化趋势如图2和图3所示。为了更直观地展示收敛效果，选取第四、十三、二十、三十批数据进行呈现。从以上三张图可以看出，该方法具有较好的优化效果，且随着批次数量的增加，收敛效果更好。

图4和图5分别展示了二维数据驱动最优跟踪控制方法控制下获得的系统的控制输入曲线和输出跟踪曲线，其中输出的设定值为y_r＝300。从上面的图片可以看出，在此方法控制下，系统的输出响应与目标轨迹的偏差大大减小并无限趋近于零。并且随着批次数量的增加，跟踪误差越来越小，跟踪效果越来越好。

综上，本发明以具有未知动态注塑成型系统的控制设计为例，来验证本发明所提出的控制方法的有效性和可行性；此发明在模型参数未知的情况下，采用完全的数据驱动方式，仅仅利用注塑成型过程在批次和时间方向所测量的数据，不同于传统的对此类间歇过程精确建模，更区别于传统的一维模式，极大地降低了系统的模型依赖性，降低了计算成本；仿真结果表明系统在多次学习后，可以更好的跟踪输出设定值，具有较好的跟踪性能和收敛性；因此，这种发明方法的提出，为具有未知动态的二维注塑成型过程的控制问题提供全新的设计方案，可以在保证系统跟踪控制效果的同时减少系统建模和计算成本。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。