CN110794782A

CN110794782A - 基于jy-mkpls的间歇工业过程在线质量预测方法

Info

Publication number: CN110794782A
Application number: CN201911088664.7A
Authority: CN
Inventors: 褚菲; 彭闯; 王嘉琛; 王�琦; 尚超; 陆宁云; 赵峻; 张淑宁; 贾润达; 熊刚
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2020-02-14

Abstract

一种基于JY‑MKPLS的间歇工业过程在线质量预测方法，通过a过程、b过程的三维输入数据得到二维输入矩阵X_a、X_b，二维输出矩阵Y_a、Y_b；进行标准化处理；从低维原始空间投影到高维特征空间F，并在高维特征空间中计算核矩阵K_a、K_b；标准化核矩阵K_a、K_b；运行JY‑MKPLS算法；计算K_ai、K_bi的负载矩阵；重复上述步骤直至提取出A个主元；计算输入数据矩阵K的得分矩阵T、负载矩阵P、输出数据矩阵Y的得分矩阵U、负载矩阵Q；进行批次过程质量预测；在线获得最新的输出数据y_new，并计算该批次的预测误差β_n；模型预测误差的检验；用新产生的a过程数据对其进行替换；进行模型更新。该方法能快速建立精度较高的新过程预测模型，可提高建模的效率和预测精度，有效控制企业的操作成本。

Description

基于JY-MKPLS的间歇工业过程在线质量预测方法

技术领域

本发明属于工业生产间歇过程的质量预测领域，具体涉及一种基于JY-MKPLS的间歇工业过程在线质量预测方法。

背景技术

间歇过程一般用来生产小批量、多种类、高附加值的产品，以应对当前市场品种多、规格高的产品需求，因而在现代工业生产中具有十分重要的地位。在一个工业过程中，产品质量一直是人们关注的重点，因为产品质量不仅影响着一个企业的经济效益，也影响着其口碑信誉。然而，在实际的间歇工业过程生产中，往往只有在一个批次生产结束后才可以通过离线测量得到产品质量，并且离线测量方式的采样周期一般较长，即滞后时间长，导致对产品的质量把控不及时，也不利于生产的优化控制。如今，随着工业自动化不断发展，在线实时预测产品质量的技术应运而生。目前质量预测方法主要有两大类，一类是基于机理建模的方法；另一类是基于数据驱动的方法。机理建模法是指根据生产对象、生产过程的内部机制或者相关生产过程的物理化学原理等建立起来的精确数学模型。但是对于实际情况中某些比较复杂的生产过程，人们通常难以直接写出它的数学表达式，或者根本无法确定表达式中的某些系数，使得机理建模的方法不能被广泛使用，几乎无法适应现代各种复杂的工业过程的建模要求。而基于数据建模的方法，一般只需要采集过程中的数据，运用数据分析处理的方法，对其进行回归分析，建立与实际相符的模型。基于数据建模的方法不需要精确写出整个生产过程的数学表达式，仅依靠工业生产过程的数据就可以建立起较为准确的模型，建模速度快，精度高。

对于数据进行回归分析的方法有很多，其中偏最小二乘法PLS(Partial leastsquares)，具有对训练数据量要求较少，运算复杂度较低，解释效果较好等优点，具有较好的鲁棒性和预测稳定性，被广泛地用于过程建模和过程监控领域。此外，还有不少利用数据建模进行批次过程质量预测的等研究。利用上述建模方法结合足够的过程数据即可建立一个很好的反映过程特性的模型,并且这些方法已经被理论验证且经过了广泛的应用。但如果这个批次过程是一个还未投入使用或者使用不久的新过程，其过程数据稀缺，按照常规的基于数据建模的方法仅仅用少量的新过程数据建模不能保证预测的精度需要，此时就需要设计生产实验来获取足够多的新过程数据。但是这样不仅会加大投入成本，带来较长的滞后时间，而且建模效率低下，使得质量预测失去其意义，不利于企业实时调整生产策略与扩大生产规模，严重拖慢了生产运行优化的速度。此外，实际工业生产过程往往是非线性的，而且由于扰动以及其他因素的存在,使得数据分布会呈现出不均匀、不平坦的现象。如何快速建立精度较高的新过程预测模型以及处理非线性、数据分布不均匀、不平坦的问题具有十分重要的意义。在实际的生产过程中，由于新旧过程的内在机理的是一致的，它们之间必然存在一定的相似性。如果能够采用某种策略，利用相似过程中有用的旧过程数据来辅助新过程建模，就能够提高建模效率，有效控制企业的操作成本；利用多尺度核的方法在解决非线性问题的同时，能够改善数据分布不均匀、不平坦的问题，从而提高模型预测效率。

发明内容

针对上述现有技术存在的问题，本发明提供一种基于JY-MKPLS的间歇工业过程在线质量预测方法，该方法能快速建立精度较高的新过程预测模型，可提高建模的效率，有效控制企业的操作成本，同时，能有效处理非线性、数据分布不均匀、不平坦的问题，可有效解决非线性建模的问题，能够显著提高模型在实际工业中的预测精度。

为了实现上述目的，本发明提供一种基于JY-MKPLS的间歇工业过程在线质量预测方法，包括两套完全一样的的生产设备，两套生产设备的内部参数设置各不相同；一套为新投入生产的生产设备，其具有a过程，另一套为已经投入生产的生产设备，其具有b过程；a过程为新投入生产的间歇过程，其投产时间短，数据较少，b过程为已经投入生产一段时间的相似的旧间歇过程，数据充足；a过程和b过程均具有J个过程变量，且每一个批次内有K个采样时间点；对于a过程和b过程均收集I个批次数得到典型的间歇过程三维输入数据X∈R^I ^×J×K和输出数据矩阵为Y∈R^I×K；

具体包括以下步骤：

步骤1：将a过程、b过程的三维输入数据按照批次方向展开成二维矩阵，得到二维输入矩阵X_a、X_b；将a过程、b过程的三维输出数据按照批次方向展开成二维矩阵，得到二维输出矩阵Y_a、Y_b；

步骤2：对a过程、b过程的输入矩阵X_a、X_b和a过程、b过程的输出数据矩阵Y_a、Y_b进行标准化处理，即对各列进行零均值和单位方差处理；

步骤3：将输入数据矩阵X_a、X_b利用非线性映射Φ:x_i∈Rⁿ→Φ(x_i)∈F从低维原始空间投影到高维特征空间F，并在高维特征空间中计算核矩阵K_a、K_b：

其中核矩阵的计算公式采用不同尺度的高斯核函数组合

步骤4：标准化核矩阵K_a、K_b：

其中，I是I×I单位矩阵，1_I是矩阵元素都为1的I×I矩阵；

步骤5：对a过程和b过程的核矩阵K_a、K_b和输出数据矩阵Y_a、Y_b运行JY-MKPLS算法，此时，输入数据矩阵变为K_a、K_b，输出矩阵依旧是Y_a、Y_b，对于从输出矩阵Y中提取收敛的u_i，令i＝1，，K_ai，＝，K_a K_bi＝K_b Y_ai＝Y_a Y_bi＝Y_b，i代表提取的潜变量的序号，联合输出矩阵为Y_J＝[Y_ai；Y_bi]；具体步骤如下：

S1：从联合输出矩阵Y_Ji中提取任一列作为Y_ai、Y_bi的得分向量u_ai、u_bi的初始值，记：

S2：分别计算K_ai、K_bi的得分向量t_ai、t_bi；

S3:通过回归分析得到联合输出变量的负载矩阵q_Ji：

其中，

标准化后负载矩阵为：

计算Y_ai、Y_bi的得分向量u_ai＝Y^T _aiq_Ji，u_ai←u_ai/||u_ai||；u_bi＝Y^T _biq_Ji，u_bi←u_bi/||u_bi||，若两个得分向量均收敛，则进行步骤6的计算，否则转至步骤1；

步骤6：计算K_ai、K_bi的负载矩阵：

步骤7：b_i＝[u_ai；u_bi]^T[t_ai；t_bi]；

步骤8：

步骤9:令i＝i+1；重复步骤5到步骤9直至提取出A个主元；

步骤10：提取出全部主成分，计算输入数据矩阵K的得分矩阵T、负载矩阵P、输出数据矩阵Y的得分矩阵U、负载矩阵Q，具体如下：

T_a＝[t₁,K,t_A]，T_b＝[t₁,K,t_A]，P_b＝[p₁,K,p_A]，U_b＝[u₁,K,u_A]，Q_J＝[q₁,K,q_A]；

若输出数据矩阵Y为单输出变量，则JY-MKPLS模型的表达式如下：

其中，是a过程和b过程输出变量的联合矩阵，

是a过程和b过程潜变量的联合矩阵，是质量预测模型建立的最为关键的变量；

引入新的样本k_new，k_new是新样本x_new的核函数，可由下式计算得到：

k_new＝Φ(X)Φ(x_new)＝[k(x₁,x_new),K k(x_n,x_new)]^T；

其中,k_new也需要进行标准化处理,对k_new进行均值化可得：

其中，1_t＝1/n·[11K 1]^T∈Rⁿ。

在步骤9中，主元个数A通过交叉验证得到；

其中，1_t＝1/n·[11K 1]^T∈Rⁿ；

步骤11：进行批次过程质量预测；开始一个新的生产批次，在线获得新的输入数据数据x_new，进行数据标准化和均值补齐，利用输入数据x_new依据模型进行在线质量预测获得预测值

并依据预测结果改变生产操作参数以便优化生产；

步骤12：判断该生产批次是否结束，若结束，在线获得最新的输出数据y_new，并计算该批次的预测误差β_n，其中

若没有结束返回步骤11；

步骤13：模型预测误差的检验；当过程的批次数大于2J次时，获取除最新批次外所有的预测误差β_n-1，当最新的批次预测误差δ_n连续m次落在稳定区间内时，则进入步骤14，否则，进入步骤15；

步骤14：观察数据替换是否完成，如果完成，则进入步骤15，直接填充新数据进行更新，否则，进行相似度的计算，剔除b过程中与a过程相似程度最小的b过程数据，用新产生的a过程数据对其进行替换，旧过程与新过程的相似程度用相似性θ(x_i)表示，利用欧式距离可求得θ(x_i)，公式如下：

式中，||·||为欧式距离，

为新过程输入数据的均值,θ(x_i)的取值范围为0到1；

步骤15：进行模型更新，将该预测批次获得数据添加到a过程原始数据中组成新的增广矩阵X_a、Y_a，并返回步骤1，进行新批次的预测，具体公式如下：

直至所有批次预测结束。

通过引入核函数方法，将非线性变换后的高维特征空间中的内积运算转换为原始输入空间中的简单核函数的计算。回归矩阵Φ为从原始低维输入空间到高维特征空间F的非线性映射，核矩阵K表示所有映射的输入数据的交叉点积，而且通过引入多尺度的核方法来解决数据分布不均匀、不平坦的问题。在每一个过程批次结束后，将获得的新数据补充到原始建模数据中构成增广矩阵重新建立预测模型，能够不断地使预测模型更符合新过程，实现模型更新。当生产过程进行了一段时间后，已经获得了足够的新过程数据，由于新旧过程之间的偏差，一些旧过程数据会影响预测模型精度的提升，需要对旧过程数据进行有选择地剔除才能进一步提高模型预测精度。旧数据剔除的原则是通过计算新旧过程数据之间的相似度，优先剔除与新过程相似性较低的旧过程数据。

与现有技术相比，本发明采用的JY-MKPLS方法，通过将相似生产过程的隐变量迁移至新生产过程的建模过程中，利用已知的历史数据和迁移的隐变量相结合，对新生产过程进行质量预测，解决了新投入生产过程数据稀缺而无法建立准确模型的问题。核函数的应用使得该方法可以用于非线性的批次过程建模。在利用联合Y的核偏最小二乘法技术基础上引入多尺度核的方法,将核函数多尺度化可以解决数据分布不均匀、不平坦的问题，能够显著增加模型的预测精度以及其在实际复杂工业应用中的可靠性，还能够充分反映学习样本的分布特性，提高模型的泛化能力。最终，通过模型预测得到的终点处的产品质量的预测值可以为操作人员实时调整生产策略提供决策依据，从而优化生产过程，能够提高企业的生产效率和经济效益。

附图说明

图1是本发明中实施例中青霉素生产过程的示意图；

图2是本发明中MKPLS与KPLS方法下青霉素终点浓度预测值的均方根误差对比示意图，主要突出显示在基本的PLS方法上使用多尺度核相比单尺度核的预测效果；

图3是本发明中JY-KPLS与KPLS方法下青霉素终点浓度预测值的均方根误差对比，主要突出显示在单尺度核的PLS情况下引入迁移相比不引入不迁移的预测效果；

图4是本发明中JY-MKPLS与JY-KPLS方法下青霉素终点浓度预测值的均方根误差对比，主要突出显示在引入迁移的基础上多尺度核相比单尺度核的预测效果；

图5是本发明基于JY-MKPLS间歇工业过程在线质量预测方法的流程图。

具体实施方式

如图5所示，本发明提供了一种基于JY-MKPLS的间歇工业过程在线质量预测方法，包括两套完全一样的的生产设备，两套生产设备的内部参数设置各不相同；一套为新投入生产的生产设备，其具有a过程，另一套为已经投入生产的生产设备，其具有b过程；a过程为新投入生产的间歇过程，其投产时间短，数据较少，b过程为已经投入生产一段时间的相似的旧间歇过程，数据充足；a过程和b过程均具有J个过程变量，且每一个批次内有K个采样时间点；对于a过程和b过程均收集I个批次数得到典型的间歇过程三维输入数据X∈R^I×J×K和输出数据矩阵为Y∈R^I×K；

具体包括以下步骤：

其中核矩阵的计算公式采用不同尺度的高斯核函数组合

步骤4：标准化核矩阵K_a、K_b：

其中，I是I×I单位矩阵，1_I是矩阵元素都为1的I×I矩阵；

S2：分别计算K_ai、K_bi的得分向量t_ai、t_bi；

S3:通过回归分析得到联合输出变量的负载矩阵q_Ji：

其中，

标准化后负载矩阵为：

步骤6：计算K_ai、K_bi的负载矩阵：

步骤7：b_i＝[u_ai；u_bi]^T[t_ai；t_bi]；

步骤8：

步骤9:令i＝i+1；重复步骤5到步骤9直至提取出A个主元；

其中，

是a过程和b过程输出变量的联合矩阵，

k_new＝Φ(X)Φ(x_new)＝[k(x₁,x_new),K k(x_n,x_new)]^T；

其中,k_new也需要进行标准化处理,对k_new进行均值化可得：

其中，1_t＝1/n·[11K 1]^T∈Rⁿ；

并依据预测结果改变生产操作参数以便优化生产；

若没有结束返回步骤11；

式中，||·||为欧式距离，

为新过程输入数据的均值,θ(x_i)的取值范围为0到1；

直至所有批次预测结束。

在步骤9中，主元个数A通过交叉验证得到；交叉验证法主要是通过验证集的预测残差平方和来判断引入新成分后模型的预测能力是否有统计意义上的改进，从而给出最佳的主成分个数A。

本发明中的方法通过构建相似过程联合质量指标得分空间，利用性质相似的旧生产过程信息辅助新生产过程的建模，在确保一定预测精度的前提下加快新过程预测模型的建立，解决了新生产过程数据稀缺导致的难以精准建模的问题。同时，引入核函数将原始低维空间自变量映射到高维特征空间，在高维空间进行基于线性运算的特征提取，利用核函数代替高维空间的内积运算，解决了非线性建模的问题。此外，将核函数进行多尺度化，解决了过程数据分布不均匀、不平坦的情况，引入多尺度核方法使本方法能够适用于处理具有高度非线性的复杂的实际工业生产过程，且能够显著提高模型在实际工业中的预测精度。

下面将通过青霉素生产的仿真实例，对本发明的技术方案做更加细致具体的说明介绍。

青霉素是一种非常重要的抗生素，在目前的制药工业中占有举足轻重的地位，生产规模非常大。青霉素是微生物的次级代谢产物，其生产过程具有高成本、高耗能的特点。从经济角度来说，研究和优化其生产过程可以提高产量，减少原料及生产所用的能量消耗，提高经济效益；从社会角度来说，优化其生产过程有益于医药事业的发展和人类的健康。为了能够及时观测青霉素的终点浓度，实现青霉素发酵过程的实时优化，减少生产成本，进行基于数据建模的质量预测十分重要。青霉素的生产过程是一个典型的非线性、动态、多阶段间歇生产过程，其发酵过程的流程示意图如图1所示。PH值和温度采用闭环控制，而补料采用开环控制，通过控制反应过程中PH值和发酵反应器内的温度，可以使反应在最佳条件下运行。该发酵过程通常的做法是首先在一定条件下进行微生物的培养，也就是初始培养阶段，然后通过不断地补充葡萄糖促进青霉素的合成，也就是青霉素发酵阶段。其整个生产周期包含了4个生理期：反应滞后期、菌体迅速生长期、青霉素合成期、菌体死亡。

在对于青霉素的生产过程有一定了解的基础上，结合其实际生产过程，选取了6个输入变量和1个输出变量进行质量预测模型的建立。6个输入变量分别为：通风率、二氧化碳的浓度、培养基体积、底物喂料温度、搅拌功率和培养基的ph值；1个输出变量选择了青霉素的终点浓度。

模拟旧间歇过程b的工作条件如表1所示：

表1旧间歇过程工作条件

Table 4-1 Old batch process working conditions

新间歇过程a的工作条件如表2所示：

表2新间歇过程工作条件

Table 4-2 New batch process working conditions

1)浓度预测模型的数据获取

在仿真中利用Pensim软件产生若干组数据，该软件能够对不同操作条件下青霉素生产过程的微生物浓度、浓度、CO₂值、PH值、青霉素浓度、碳浓度、氧浓度以及产生的热量等进行仿真。利用此软件获得了a生产过程的50个批次的数据，其中5个批次的数据用于建模，45个批次的数据用于测试检验。b生产过程获取60个批次的数据，用于青霉素浓度预测模型的建立。利用a生产过程的5个批次和b过程的60个批次数据按照上述的方法进行建模，然后利用a过程剩余的45个批次数据进行检测。

2)基于JY-MKPLS的青霉素质量在线预测

为了对基于JY-MKPLS的质量预测方法效果进行检验，这里使用相同的批次数据与基于KPLS、MKPLS、JY-KPLS的质量预测方法进行比较，结果如图2、图3、图4所示。从图2可以看出，多尺度核相比单尺度核在不进行数据迁移时能够更好地解决数据分布不均匀的问题；从图3可以看出，加入迁移能够更好地提高初期模型的预测精度；从图4可以看出，引入迁移的基础上多尺度核相比单尺度核的预测效果更理想。综合以上三张图，可以看到基于JY-MKPLS的质量预测方法效果更好，不仅可以更好地提高初期模型的预测精度，而且还能在此基础上更好地解决数据分布不平坦、不均匀的问题。三种预测方法的均方根误差如表3所示。

表3几种预测方法的均方根误差

预测方法	均方根误差
		KPLS	0.0071
MKPLS	0.0053
		JY-KPLS	0.0047
JY-MKPLS	0.0038

通过以上几种建模方法的仿真结果对比，可以明显发现JY-MKPLS模型建立速度更快，预测精度更高。

3)模型更新和旧过程数据的剔除与替换

随着生产过程不断进行，新过程数据不断累积。由于新旧过程的差异，使用的旧过程的建模数据可能影响预测效果。为了保证JY-MKPLS方法的预测精度，需要从某一时间开始剔除与新过程差异较大的旧过程数据。

根据说明书中的方法，即从过程输入变量的2倍批次数开始进行剔除策略(6个过程输入变量)，因此从第12个批次开始对旧数据进行剔除的判断，从仿真图可以看到，随着相似度最低的旧数据的不断剔除与替换以及预测批次数的增加，质量预测模型得到了更新。在舍弃掉一些旧过程数据中对于回归分析有害的信息后，剩下的都是对回归分析有益的数据信息，质量预测的模型更快地达到更高的精度，并且预测精度也在一定程度内不断提高，实现更好的预测效果，更符合人们的期望。

通过仿真结果可以看出，本发明利用相似旧过程的信息辅助新过程的建模，能够快速准确地建立新过程的预测模型，很好地解决了青霉素生产初期过程数据较少、难以建立模型的问题。引入多尺度核函数，在解决了非线性、时变性的非线性建模问题的同时，也有效解决了数据分布不均匀的情况，利用该方法进行青霉素终点处浓度预测，加快了离线建模的速度。而随着预测批次数目的不断增加，又会利用新过程数据进行模型更新，同时剔除掉旧过程数据中相似度最小的干扰数据，从而不断提高预测模型的精度，实现更好地预测效果。依据模型的预测值，操作人员可以及时调整生产策略，优化生产过程，因此该方法具有重要的实际意义。

Claims

1.一种基于JY-MKPLS的间歇工业过程在线质量预测方法，其特征在于，包括两套完全一样的的生产设备，两套生产设备的内部参数设置各不相同；一套为新投入生产的生产设备，其具有a过程，另一套为已经投入生产的生产设备，其具有b过程；a过程为新投入生产的间歇过程，其投产时间短，数据较少，b过程为已经投入生产一段时间的相似的旧间歇过程，数据充足；a过程和b过程均具有J个过程变量，且每一个批次内有K个采样时间点；对于a过程和b过程均收集I个批次数得到典型的间歇过程三维输入数据X∈R^I×J×K和输出数据矩阵为Y∈R^I×K；

具体包括以下步骤：