CN112199829A

CN112199829A - 基于密度峰值聚类和即时学习的多工况多阶段批次过程监测方法

Info

Publication number: CN112199829A
Application number: CN202011031988.XA
Authority: CN
Inventors: 张新民; 范赛特; 魏驰航; 宋执环
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2021-01-08
Anticipated expiration: 2040-09-27
Also published as: CN112199829B

Abstract

本发明公开了一种基于密度峰值聚类和即时学习的多工况多阶段批次过程监测方法，该方法结合密度峰值聚类和即时学习等算法，用来解决多模式多阶段的批次过程监测问题。为解决批次过程数据中批次间差异和非高斯分布的问题，首先使用密度峰值聚类对批次过程数据的工况和阶段进行分类和识别。由于相同工况和阶段下的质量变量轨迹存在多样性，采用即时学习提取相似轨迹，以获得具有相似质量变量轨迹的子数据集。因此，对于某个子工况中的每个子阶段的每条质量变量轨迹，都将建立一个子模型，以实现准确的建模和监控方案。最后，引入贝叶斯融合方法作为集成策略来确定故障的最终概率。相比其他现存方法，本发明的方法有良好的效果和适用性。

Description

基于密度峰值聚类和即时学习的多工况多阶段批次过程监测方法

技术领域

本发明属于工业过程控制领域，尤其涉及一种基于密度峰值聚类和即时学习的多工况多阶段批次过程监测方法。

背景技术

近几年，工业生产中的过程监测技术作为过程系统工程的重要部分，越来越受到工业界和学术的关注。对于保障安全生产和提高产品质量，有着非常重要的作用，因此具有非常重大的研究价值。传统的工业工程监测一般基于过程机理，现在因为分布式计算机控制系统(DCS)技术的发展，搜集了大量过程数据，所以基于数据驱动的多元统计分析的方法逐渐受到关注。其中主元分析方法(PCA)和偏最小二乘法等使用广泛。实际工业过程监测中，工业状况多并且相对复杂，包含的问题有非线性、非高斯性、多阶段、多模态等，单一的监测方法存在一些局限性，很难找到普适的数据驱动模型。为了克服单一方法的劣势，需要针对不同问题提出不同的融合监测方法。并且现阶段过程监控策略通常仅限于单工况多阶段高斯批次过程，无法处理多工况多阶段非高斯的批次过程监测问题。

发明内容

本发明的目的在于提供一种基于密度峰值聚类和即时学习的多工况多阶段批次过程监测方法，其能在多工况多阶段非高斯的情况下，也能获得较好的批次过程监测结果。具体技术方案如下：

一种基于密度峰值聚类和即时学习的多工况多阶段批次过程监测方法，包括以下步骤：

S1：离线建模

S1.1：收集c种工况的历史离线批次过程数据样本，其中每种工况包含b个批次的过程数据样本；

S1.2：按时间段将一个批次分为p个阶段，分别是时间顺序采样点1到t₁，t₁+1到t₂，…，t_p-1+1到t_p；

S1.3：将p个阶段的三维历史离线批次过程数据按可变方向展开成二维；

S1.4：对于每个工况中的每个阶段的过程数据样本，用密度峰值聚类为其生成对应的簇类，并用相应的簇类信息在离线建模中，标记每个样本的类别；

S1.5：针对不同质量变量轨迹，构造偏最小二乘子模型；

S2：在线建模

S2.1：获取在线样本；

S2.2：基于S1.4得到的密度峰值聚类得到的簇类信息，采用密度峰值分类方法，找到在线样本对应的工况和阶段；

S2.3：对于同一工况和同一阶段下不同的质量变量轨迹的问题，先求出该工况该阶段相似质量变量轨迹的均值；再使用即时学习来计算质量变量轨迹均值和当前在线样本的质量变量轨迹之间的相似性；

S2.4：利用S1.5构造的同一工况和同一阶段下的所有质量变量轨迹的偏最小二乘子模型，计算得到每个偏最小二乘子模型的T²和SPE的过程监测统计信息；

S2.5：利用S2.3得到的相似性作为贝叶斯融合策略中的参数，合并同一工况和同一阶段下的所有质量变量轨迹的偏最小二乘子模型的T²和SPE的过程监测统计信息，获得贝叶斯融合结果；若在线样本计算得到的贝叶斯融合结果超过设定的控制限，则判定为故障；否则为正常样本。

进一步地，其特征在于，所述S1.3中的可变维度具体为变量维度。

进一步地，其特征在于，所述S1.4中的密度峰值聚类具体为：

对于每个样本，计算两个统计量：局部密度ρ_i、样本与比其密度高的任何其他样本之间的最小距离δ_i；

其中，样本的局部密度ρ_i的定义如下：

其中，d_ij是样本之间的距离，d_c是截止距离，其需要预先指定；数据集

I_s＝{1，2，...，N}是相应的指标集；

的下标是降序的，它满足

ρ_q1≥ρ_q2≥…≥ρ_qN

其中δ_i的定义如下：

进一步地，所述S1.5具体为：

(1)定义输入矩阵X∈R^n*m，质量变量Y∈R^n*1，n是样本数量，m是样本变量维度。用偏最小二乘算法将[X，Y]投影到隐变量空间T，得：

其中T＝[t₁，t₂，...，t_o]为得分矩阵，o为隐变量个数，P＝[p₁，p₂，...，p_o]和Q＝[q₁，q₂，...，q_o]分别X和Y的负载矩阵；E和F分别是X和Y的残差矩阵；

(2)构建求解偏最小二乘模型的最优化问题：

max w_i ^TX_i ^TY_iq_i

s.t.||w_i||＝||q_i||＝1

其中w_i与q_i分别是X和Y的权重向量，被用于计算隐变量t_i＝X_iw_i，u_i＝Y_iq_i；

令W＝[w₁，w₂，...，w_o]，由于隐变量空间T不能由X计算得出的W表示，令权重矩阵R＝[r₁，r₂，...，r_o]，且T＝XR；定义

其中R和P的关系为P^TR＝R^TP＝I_o，R＝W(P^TW)^-1,I_o为o维的单位矩阵；

(3)进行最小二乘的迭代：

将X和Y进行归一化；设i＝1，H₁＝X；

①取u为Y矩阵的第一列；

②计算w_i＝H_i ^Tu_i/||H_i ^Tu_i||；

③算出得分向量t_i＝H_iw_i；

④计算q_i＝Y^Tt_i/t_i ^Tt_i，在T中把Y的各列进行回归；

⑤算出Y的新得分u_i＝Yq_i，此时判断t_i是否收敛，如果是，则进行第⑥步；否则，进行第②步；

⑥算出X的负载矩阵p_i＝H_i ^Tt_i/(t_i ^Tt_i)；

⑦算出残差矩阵H_i+1＝H_i-t_ip_i ^T；

⑧取i＝i+1，返回第①步，直到所有隐变量都被提取；迭代完成得到P和R；

(4)将偏最小二乘算法在原始变量的投影空间表达为：

然后计算SPE以及T²统计量来检测异常，计算公式如下：

其中

进一步地，所述S2.2具体为：

(1)计算每个在线样本的局部密度ρ_i及其与较高密度点的距离δ_i；

(2)选择距离在线样本最近、且局部密度大于该在线样本的离线样本的类别作为该在线样本的分类类别。

进一步地，所述S2.3具体为：

(1)计算所有工况和所有阶段下的不同的质量变量轨迹的均值；

(2)采用如下公式计算质量变量轨迹均值和当前在线样本的质量变量轨迹之间的相似性s_i，

其中，d(z_q，z_i)＝||z_q，z_i||₂，γ是权重参数，θ_i是z_q与z_i之间的夹角。γ和s_i的值在0到1之间。s_i如果接近1，则表示z_q与z_i非常相似，如果相应的数据为负，则该批次过程数据将被丢弃并且不会在子数据集中使用，其中，

为在线轨迹变化趋势，

为离线轨迹变化趋势。

进一步地，所述S2.4中的T²和SPE的过程监测统计信息的计算公式如下：

其中，

为在线样本的T²概率，p_SPE(X_new)为在线样本的SPE概率，X_new为在线样本，N和F代表批次过程的正常和故障。

和

分别是正常和故障样本的T²先验概率；p_SPE(N)和p_SPE(F)分别是正常和故障样本的SPE先验概率；当显著性级别选择为α时，

p_SPE(N)的值为1-α，

p_SPE(F)的值为α。

进一步地，所述的S2.5具体如下：

按如下公式合并

和p_SPE(F|X_new)，

如果为

p_SPE(F|X_new)＜α，则批次过程样本正常。否则，样品被判定为故障。

本发明的有益效果如下：

本发明对于多工况多阶段批次间差异和非高斯分布的问题具有独特的效果，在批次间有差异且非高斯的数据上获得的聚类兰德指数更高，使得本发明相比其他聚类方法更加适合处理非高斯分布的数据。同时对于同工况同阶段批次过程中多轨迹的问题，本发明所采用的贝叶斯融合方法具有独特的故障检测能力，检测效果更好，误报率更低。

附图说明

图1为本发明的方法的流程图；

图2为多工况多阶段的批次过程数据的按变量展开说明的示意图；

图3为3种工况第1阶段数据进行多种模型聚类得到的结果示意图，其中，图3a为对3种工况第1阶段数据进行K均值聚类得到的结果图，图3b为对3种工况第1阶段数据进行高斯混合模型聚类得到的结果图,图3c对3种工况第1阶段数据进行密度峰值聚类得到的结果图；

图4为3种工况第1阶段数据进行多种模型聚类得到的结果示意图，其中，图3a为对3种工况第2阶段数据进行K均值聚类得到的结果图，图3b为对3种工况第2阶段数据进行高斯混合模型聚类得到的结果图,图3c对3种工况第2阶段数据进行密度峰值聚类得到的结果图；

图5为3种工况第1阶段数据进行多种模型聚类得到的结果示意图，其中，图3a为对3种工况第3阶段数据进行K均值聚类得到的结果图，图3b为对3种工况第3阶段数据进行高斯混合模型聚类得到的结果图,图3c对3种工况第3阶段数据进行密度峰值聚类得到的结果图；

图6为批次数据正常条件下监测结果图；

图7为第40–80时刻发生阶跃5％故障条件下的监测结果图；

图8为第40–80时刻发生阶跃10％故障条件下的监测结果图。

具体实施方式

因此在本发明中，针对多工况多阶段非高斯的数据分布问题，提出了一种新的基于数据驱动的批次过程监测方法。

本发明针对批次过程监测中的多工况多阶段非高斯的问题，首先划定离线和在线数据集，并用密度峰值聚类标记非高斯离线数据集的类别，结合簇类信息，用密度峰值分类把在线数据分类到对应簇类中，并用离线阶段训练好的多工况多阶段非高斯多质量变量轨迹的模型用于计算在线数据的统计量，用贝叶斯融合的方法计算后验概率，用控制限来判断是正常样本还是异常样本。

本发明的基于密度峰值聚类和即时学习的多工况多阶段批次过程监测方法，如图1所示，包括以下步骤：

S1：离线建模

S1.3：将p个阶段的三维历史离线批次过程数据按可变方向展开成二维。本发明使用的方法是将批次过程数据按变量方向展开为二维，更加适合于数据驱动的建模。如图2所示。

其中，样本的局部密度ρ_i的定义如下：

I_s＝{1，2，...，N}是相应的指标集；

的下标是降序的，它满足

ρ_q1≥ρ_q2≥…≥ρ_qN，

其中，δ_i的定义如下：

同时，聚类中心被认为是ρ_i最大的点。换句话说，聚类中心具有比邻近点高的密度ρ_i和与比其密度更高样本的较大距离。

S1.5：针对不同质量变量轨迹，构造偏最小二乘子模型，以获得满意的过程监测结果。该步骤通过如下的子步骤来实现：

(1)定义输入矩阵X∈R^n*m，质量变量Y∈R^n*1，用偏最小二乘算法将[X，Y]投影到隐变量空间T，得：

(2)构建求解偏最小二乘模型的最优化问题：

max w_i ^TX_i ^TY_iq_i，

s.t.||w_i||＝||q_i||＝1，

令W＝[w₁，w₂，...，w_o]，由于隐变量空间T不能由X计算得出的W表示，令权重矩阵R＝[r₁，r₂，…，r_o]，且T＝XR；定义

其中R和P的关系为P^TR＝R^TP＝I_o，R＝W(P^TW)^-1，I_o为o维的单位矩阵；

(3)进行最小二乘的迭代：

将X和Y进行归一化；设i＝1，H₁＝X；

①取u为Y矩阵的第一列；

②计算w_i＝H_i ^Tu_i/||H_i ^Tu_i||；

③算出得分向量t_i＝H_iw_i；

④计算q_i＝Y^Tt_i/t_i ^Tt_i，在T中把Y的各列进行回归；

⑥算出X的负载矩阵p_i＝H_i ^Tt_i/(t_i ^Tt_i)；

⑦算出残差矩阵H_i+1＝H_i-t_ip_i ^T；

(4)将偏最小二乘算法在原始变量的投影空间表达为：

偏最小二乘算法使用监测指标平方预测误差(Squared Prediction Error，SPE)也称为Q统计量以及Hotelling T²来检测异常，两者的计算公式如下：

其中

S2：在线建模

S2.1：获取在线样本；

S2.2：基于S1.4得到的密度峰值聚类得到的簇类信息，采用密度峰值分类方法，找到在线样本对应的工况和阶段，具体过程如下：

S2.3：对于同一工况和同一阶段下不同的质量变量轨迹的问题，先求出所有工况和所有阶段下的不同的质量变量轨迹的均值；再使用即时学习来计算质量变量轨迹均值和当前在线样本的质量变量轨迹之间的相似性，相似性s_i的计算公式如下：

为在线轨迹变化趋势，

为离线轨迹变化趋势。

S2.4：利用S1.5构造的同一工况和同一阶段下的所有质量变量轨迹的偏最小二乘子模型，计算得到每个偏最小二乘子模型的T²和SPE的过程监测统计信息；其中，T²和SPE的过程监测统计信息的计算公式如下：

其中，

为在线样本的T²概率，p_SPE(X_new)为在线样本的SPE概率，X_new为在线样本，N and F代表批次过程的正常和故障。

和

p_SPE(N)的值为1-α，

p_SPE(F)的值为α；

S2.5：利用S2.3得到的相似性作为贝叶斯融合策略中的参数，合并同一工况和同一阶段下的所有质量变量轨迹的偏最小二乘子模型的T²和SPE的过程监测统计信息，获得贝叶斯融合结果，若在线样本计算得到的T²和SPE的过程监测统计信息超过设定的控制限，则判定为故障；否则为正常样本。具体为：

合并

和p_SPE(F|X_new)，如果为

p_SPE(F|X_new)＜α，则批次过程样本正常。否则，样品被判定为故障

以下结合一个具体的工业例子来说明本发明的有效性。青霉素补料分批发酵过程平台PenSim v2.0的仿真实验来验证数据驱动框架的有效性。将过程设置为1小时的采样间隔。表1给出了分批补料青霉素发酵的详细测量变量。

表1：批次进料青霉素发酵的测量变量

变量号.	变量描述
		2	搅拌功率(W)
3	基质进给速度(L/h)
		5	基质浓度(g/L)
6	溶解氧浓度(g/L)
		7	生物量浓度(g/L)
10	二氧化碳浓度(g/L)

每批次的总运行时间为400小时，可以分为三种阶段。第一种阶段是大约1-40小时的生物质积累的进料阶段。第二阶段持续时间从第41小时到第200小时，这是持续生产青霉素的阶段。第三阶段持续时间从第201小时到第400小时，这是青霉素稳定生产的阶段。因此，训练样本分为三个阶段。然后，将训练样本以相同的方式进行聚类以标记样本。为了展示三种聚类算法在性能上的差异，从训练数据集中为每个子模型随机选择30个正常批次。

直观地，密度峰值聚类的性能如图3-5所示。同时，使用高斯混合模型和K均值聚类进行比较。聚类结果由二维相对位置显示，而不是实际位置。青霉素发酵的整个时期分为三个阶段，分别为阶段1(1h-40h)，阶段2(41h-200h)，阶段3(201h-400h)，和建模数据划分相同。根据经验，可以选择用样本总数2％的临近点的距离作为d_c。

从图3-5可以看出，密度峰值聚类的效果要优于其他聚类方法。K-均值的效果次之。为了详细体现每种聚类算法的效果，使用了调整的兰德指数来评估聚类效果。经过统计计算，三种聚类算法的调整的兰德指数见表2。

表2：三种聚类算法的调整的兰德指数

本发明对于青霉素批次过程的多工况多阶段过程数据离线样本聚类的兰德指数更高，特别是青霉素批次过程的阶段1(1h-40h)，阶段2(41h-200h)。阶段1，相对于K均值聚类提升126％，相对于高斯混合模型提升124％；阶段2，相对于K均值聚类提升93％，相对于高斯混合模型提升85％。准确的离线样本聚类得到的簇类信息才能进行在线样本的分类。

解决了不同工况青霉素数据的聚类问题后，离线数据的聚类结果可用于在线数据的分类。然后，考虑对相同工况和阶段下的各种质量变量轨迹进行过程监测。为了开发子模型，从训练数据集中为每个子模型随机选择30个正常批次。为了获得相同工况和阶段下的质量变量轨迹，关于质量变量与测量变量的关系如下：

其中t是时间；P青霉素浓度；X是生物质浓度；S是底物浓度；V是容量；另外，它还包含一些模型参数，例如青霉素水解速率相关常数K，青霉素生产速率相关常数μ_p，青霉素生产抑制相关常数K_p和K_I。

在获得每批次数据的轨迹之后，建立子模型以实现精确的建模和监测。对于在线样本，先用密度峰值分类将其划分到具体工况和阶段，再用贝叶斯融合作为整体策略来融合多质量变量轨迹的子模型，以确定故障或异常的最终概率。在所有子模型中，贝叶斯融合的置信极限确定为0.95。为了评估数据驱动框架的性能，设计了3种工况，每个工况在正常批次中包含3个阶段，每个阶段有3中质量变量轨迹，它们被构造为训练数据集。

正常批次的监测结果如图6所示，贝叶斯融合监测的结果优于全批次只用一个模型的监测。在生物质积累的进料阶段，由于剧烈反应，所监测的各种指标发生了剧烈变化，导致监测不力。全局监视中存在大量超过控制限的错误监测。但是，在贝叶斯融合监测中，监测的T²和SPE更稳定。

对于有故障的批次过程数据，监测结果如图7和图8所示。从图7和图8可以看出，对比的监测方法的效果虽然能检测出故障，但基于贝叶斯融合方法的多工况多阶段多轨迹的故障检测效果要好于全局未对多轨迹进行贝叶斯融合的方法，特别是阶段1检测效果最明显。

如上所述，本发明中所提的基于密度峰值聚类和即时学习的多工况多阶段批次过程监测方法，具有令人满意的监测效果。