CN106547899B

CN106547899B - 一种基于多尺度时变聚类中心变化的间歇过程时段划分的方法

Info

Publication number: CN106547899B
Application number: CN201610976112.XA
Authority: CN
Inventors: 王建林; 刘伟旻; 于涛; 赵利强
Original assignee: Beijing University of Chemical Technology
Current assignee: Beijing University of Chemical Technology
Priority date: 2016-11-07
Filing date: 2016-11-07
Publication date: 2020-05-19
Anticipated expiration: 2036-11-07
Also published as: CN106547899A

Abstract

本发明公开了一种基于多尺度时变聚类中心变化的间歇过程时段划分的方法，属于间歇过程监测技术领域。该方法首先对每批次间歇过程的二维数据按照变量方向标准化，去除量纲的影响；然后设置间歇过程的所有数据均划分为同一类，同时引入分类尺度辅助因子，用以调节聚类中心的差异程度，求得各个数据点的整体聚类中心；最后从数据最初时刻开始，逐个添加数据点作为新的数据集，迭代计算数据点聚类中心，通过多次比较时变的聚类中心与整体聚类中心的差异，进而实现间歇过程各批次时变聚类划分。本方法避免了人为设定聚类个数与聚类中心对聚类结果的影响，能够从时变的尺度上实现聚类划分，从而提高了间歇过程时段划分精度。

Description

一种基于多尺度时变聚类中心变化的间歇过程时段划分的方法

技术领域

本发明属于间歇过程监测技术领域，尤其涉及一种多尺度时变聚类中心变化的间歇过程时段划分的方法。

背景技术

间歇过程是精细化工、生物制药、食品、微电子等行业的主要生产方式，广泛应用于医药、生物制品、半导体器件等高附加值产品的生产中。

间歇过程中随着操作进程变化或过程机理特性变化，发生过程变量相关性的改变，在时间上呈现多时段特性，每个时段具有不同的过程变量轨迹、运行模式等，对间歇过程进行多时段划分能够提高过程批次数据分段建模的精度及过程监测性能。

针对间歇过程时段划分，模糊聚类方法无需先验知识，能够很好地实现非时变数据集合的划分，然而，由于间歇过程具有时变多时段特性，现有的聚类分析方法仅从过程数据整体结构特征划分数据类别，并没有从时间尺度上考虑间歇过程时段划分。因此，难以获得准确的间歇过程时段划分，而且，模糊聚类算法需要人为设定聚类的个数与中心点，无法保证最终迭代结果为最优聚类。

发明内容

本发明针对未监督的间歇过程的单批次数据，设定所有间歇过程数据均划分为同一类，在求解聚类结果的收敛目标函数基础上，引入分类尺度辅助因子，根据过程数据样本情况调节样本细分程度，迭代求解获得数据聚类中心，最后通过对比时变聚类中心与全局聚类中心的差异程度，进而获得每批次的时段划分。本方法避免了人为设定聚类个数与聚类中心对聚类结果的影响，能够从时变的尺度上获得最优时段划分结果，提高了间歇过程多时段划分精度。

一种基于多尺度时变聚类中心变化的间歇过程时段划分的方法，包括以下步骤：

步骤一：从间歇过程的历史批次数据集

中提取每个批次数据X_i(J×K)，并分别对每个批次数据进行变量方向上的标准化，得到标准化数据

K为每个批次的采样点个数，J为变量个数，I为批次的数目，i为批次序号；

步骤二：选择标准化后的间歇过程历史批次数据

迭代计算多尺度时变聚类的目标函数使其收敛，获得其每个时间点k的全局聚类中心

k为采样时刻序号；

步骤三：基于标准化后的间歇过程历史批次数据

对模糊指数、分类尺度辅助因子和迭代次数进行参数分析并选择最优参数；

步骤四：针对标准化后的间歇过程历史批次数据

从数据集最初时刻开始，按照时间发展逐次添加数据点，建立一个时变数据集，并逐次计算更新数据集的聚类中心V_k；

步骤五：对于k时刻，对比步骤四所计算出的聚类中心V_k和步骤二所计算出来的全局聚类中心

若同时满足

α为最优分段尺度，则将该批次k时刻之前的数据点划分为一个时段，并清空时变数据集，从k时刻开始，重新添加标准化后的历史批次数据

第k时刻后的数据点，重复步骤三和步骤四，最终获得该批次的整体时段划分。

所述步骤二，具体包括：

针对标准化后的间歇过程历史批次数据

多尺度时变聚类的目标函数为

式中，d_k＝||x_k-v_k||，||·||为L2范式，m为模糊指数，V＝[v₁,v₂,…,v_k]为每一数据点的聚类中心集合，U＝[u₁,u₂,…,u_k]为每一数据点隶属于v_k中心的隶属度集合。利用拉格朗日函数求解聚类目标函数

可得聚类中心函数与隶属度求解式

设定分类尺度辅助因子η，以每个时刻的样本点x_k作为聚类中心初始迭代点，利用上述式(1-3)和(1-4)进行迭代计算直到收敛，获得该样本点的全局聚类中心

所述步骤三，具体包括：

(1)针对标准化后的间歇过程历史批次数据

设定分类尺度辅助因子η＝0，迭代次数变化范围[1,2,…,20]，模糊指数m变化范围[1,2,3,4]，通过计算聚类中心的均值与方差，求得聚类结果收敛与迭代次数的关系，从而获得最优迭代次数结果。

(2)针对标准化后的间歇过程历史批次数据

设定分类尺度辅助因子η_k取值情况[0.01,0.1,1,5,100]，选择步骤1中较优迭代次数，模糊指数m变化范围1～10，求得变异系数(Coefficient of Variation，CV)与分类尺度辅助因子η的关系。

所述步骤四，具体包括：

针对标准化后的间歇过程历史批次数据

使用式(1-3)和(1-4)迭代计算出每个样本点的全局聚类中心，建立时变数据集

逐次添加k时刻的样本点

合成新的数据集

迭代计算时变数据集

的聚类中心V_k。

所述步骤五，具体包括：

逐次对比全局聚类中心

与时变数据集聚类中心V_k，若同时满足

则将该批次k时刻之前的样本点划分为一个时段，并清空时变数据集，从k时刻开始，重新逐次添加标准化后的历史批次数据

第k时刻后的数据点作为新的时变数据集，并计算时变聚类中心。

针对所有间歇过程历史批次数据，设置较优迭代次数、模糊指数和分类尺度辅助因子η，设定分段尺度α变化范围和变化间隔，获得所有批次的单独时段划分情况，判断分段数一样的情况下，若α变化区间较大，则选择此α区间的均值作为最优分段尺度，且确定最优时段划分。

本发明的优点：针对实际间歇过程数据集，根据样本情况调节聚类细分程度，能够获得适当的分类尺度辅助因子与分段尺度因子，进而迭代训练获得最优的时变聚类时段划分结果，提高了对间歇过程多时段划分精度，同时也提高了时段划分过程抗噪性能，且计算过程简单、稳定。

附图说明

图1是本发明所述的一种基于多尺度时变聚类中心变化的间歇过程时段划分方法的流程图；

图2是本发明所述步骤三(1)中，在不同迭代次数和模糊指数情况下，聚类中心的均值和标准差对比图；

图3、4和5是本发明所述步骤三(2)中，在不同的分类尺度辅助因子和模糊指数情况下，聚类中心的变异系数、均值和标准差对比图；

图6是在不同分段尺度情况下，20个训练批次的分段结果图。

具体实施方式

下面结合实例及附图对本发明作进一步的描述，需要说明的是，实施例并不限定本发明要求保护的范围。

实施例

利用青霉素发酵过程仿真平台(PenSimv2.0)生成实验数据，用于生成初始值各有不同的批次训练样本数据

批次数目为I＝20，每批次持续时间K＝400小时，从多个变量中选择J＝10个分段的关键变量如表1所示，并分别对各个批次数据进行变量方向上的标准化，得到标准化数据

用作时段划分批次。

选择20个训练批次中的一个批次数据，根据公式(1-3)和(1-4)，设定分类尺度辅助因子η＝0，迭代次数变化范围[1,2,…,20]，模糊指数m变化范围[1,2,3,4]，计算该批次的全局聚类中心点，并相应计算聚类中心的均值与方差，如图2所示，当迭代次数到达20时，聚类中心的均值与方差趋于稳定，能够获得相对稳定的聚类中心点。

表1间歇过程关键变量

选择一个批次数据，设定分类尺度辅助因子η变化范围[0.01,0.1,1,5,100]，选择步骤1中较优迭代次数，模糊指数m变化范围[1,2,…,10]，通过对比聚类中心的变异系数(Coefficient of Variation，CV)，均值和方差的变化情况，如图3、4和5所示，当模糊指数m＞3时，均值的增长率开始降低，但是标准差值继续增长，导致变异系数继续增大，因此，较大的模糊指数容易导致聚类结果更具不确定性，在不失模糊性情况下，选择模糊指数m＝2；同时可以看出，当分类尺度辅助因子η越大，所有样本点的聚类中心差异越小，分类尺度辅助因子η越小，聚类中心差异越大，当模糊指数m＝2，分类尺度辅助因子η_k＝1时，变异系数(Coefficient of Variation，CV)达到最小，能够在避免错分的情况下区分样本聚类中心。

针对20个训练批次数据，设置迭代次数为20、模糊指数m＝2和分类尺度辅助因子η＝1，设定分段尺度α变化范围为[1,1.01,…,1.60]，获得20个批次的时段划分结果，如图6所示，判断分段数一样的情况下，若α变化区间较大，则选择此α区间的均值作为最优分段尺度，且确定最优时段划分情况，如表2所示，确定最优分段数为3及每批次最优α＝1.35，获得的分段区间如表4所示。

表3不同分段尺度α

表4 20个历史批次数据分段情况