CN109754010B

CN109754010B - 一种时序约束模糊聚类的间歇过程多模态划分方法

Info

Publication number: CN109754010B
Application number: CN201811633128.6A
Authority: CN
Inventors: 王建林; 韩锐; 邱科鹏
Original assignee: Beijing University of Chemical Technology
Current assignee: Beijing University of Chemical Technology
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2021-04-02
Anticipated expiration: 2038-12-29
Also published as: CN109754010A

Abstract

本发明公开了一种时序约束模糊聚类的间歇过程多模态划分方法，属于间歇过程监测技术领域。该方法首先对间歇过程的多批次过程数据按照采样时间方向展开为二维数据矩阵并进行标准化，构建标准化后的过程数据样本集；然后将间歇过程的所有过程数据样本均划分为同一类，通过模糊聚类算法计算各个样本的初始隶属度；最后从最初采样时刻开始，逐个添加过程数据样本作为新的时序样本集，迭代计算新添加样本的隶属度，通过比较新添加样本的隶属度和对应时刻初始隶属度的大小，进而划分间歇过程的模态。本方法不需要间歇过程先验知识和统计模型，不需要设定模态个数，根据间歇过程的时序隶属度变化自动划分不同模态，提高了模态划分的准确性。

Description

一种时序约束模糊聚类的间歇过程多模态划分方法

技术领域

本发明属于间歇过程监测技术领域，尤其涉及一种时序约束模糊聚类的间歇过程多模态划分方法。

背景技术

间歇过程已广泛应用于精细化工、制药、半导体器件等工业生产中。在间歇生产过程中，由于生产过程固有特性、生产策略变动，都会导致生产过程存在多个运行模态，多模态特性是间歇过程的重要特征之一，对间歇过程进行多模态划分能够提高过程批次数据多模态建模的精度及过程监测性能。

针对间歇过程的多模态划分，模糊聚类方法无需先验知识，能够很好地实现非时变数据集合的划分，然而，由于间歇过程具有多模态特性和时变特性，现有的模糊聚类分析方法存在以下两个问题：第一，均需要确定模态个数和初始模态的中心，模态划分结果容易受到初始聚类中心的影响导致陷入局部最优，得到不合理的模态划分结果；第二，仅考虑目标函数的最优值，不能保证每个模态内的所有样本按照实际的时序排列。因此，模糊聚类方法难以获得准确的间歇过程多模态划分结果。在模糊聚类方法的基础上，多尺度时变聚类中心变化的划分方法引入分类尺度辅助因子，通过迭代对比时变聚类中心与全局中心的差异程度来获取模态划分点，虽然能保证每个模态内的所有样本按照实际的时序排列，但是时变聚类中心对噪声和异常值较敏感，影响模态划分点的准确性。

发明内容

本发明以提高间歇过程的多模态划分准确性为目的，提出一种时序约束模糊聚类的间歇过程多模态划分方法，包括以下步骤：

步骤一：采集间歇过程的多批次过程数据，按照采样时间方向展开为二维数据矩阵并进行标准化，去除量纲的影响；

步骤二：通过模糊聚类算法计算单分类设定下各个间歇过程数据样本的初始隶属度；

步骤三：从最初采样时刻开始，逐个添加过程数据样本作为新的时序样本集，迭代计算新添加样本的隶属度，通过多次比较新添加样本的隶属度和对应初始隶属度的大小，进而划分间歇过程的模态；

步骤四：计算综合评价指标(partition performance combination index，PPCI)，确定最佳的间歇过程模态个数和模态划分结果。

所述步骤一，具体包括：

采集I个间歇过程批次的过程数据X _i(J×K)，其中，i(1≤i≤I)为批次的序号，J为测量变量的个数，K为采样点个数。按照采样时间方向展开为二维数据矩阵

对数据矩阵

的每列减去其均值再除以其标准差，得到标准化的批次过程数据X(K×IJ)。

所述步骤二，具体包括：

针对间歇过程标准化后的多批次数据X(K×IJ)，假设所有数据隶属于同一类，模糊聚类的目标函数为

其中，x_i为数据集X的第i个样本，u_i表示样本x_i隶属于该一类的程度，s表示模糊加权指数，一般取值为2，d_i＝||x_i-m||表示样本x_i和聚类中心m的欧氏距离。通过拉格朗日乘数法求解式(1)的约束优化问题，定义新函数

最小化J_o时的必要条件为对式(2)的一阶导数满足

通过式(3)可以得到：

代入式(3)可以得到：

因此

代入式(4)可以得到u_i的求解式为

同理，对式(2)中的m求导：

可以得到m的求解式为

通过不断地迭代式(7)和式(9)，直至|ΔJ_o|＜ε，ε为设定的收敛精度，获取最终的聚类中心m和隶属度矩阵U＝{u₁,u₂,…,u_K}。

所述步骤三，具体包括：

在隶属度矩阵U的基础上，对样本集X进行模态划分，具体包括如下流程：

(1)从间歇过程数据集X的最初采样时刻开始，按照时序依次构建新时序样本集Y_k＝{x₁,x₂,…,x_k}，通过步骤二所述方法迭代计算新添加样本的隶属度

k代表当前过程运行时间；

(2)比较新添加样本的初始隶属度u_k和更新后的隶属度

的大小。如果连续三次呈现

说明新加入的样本与当前数据集的隶属度较低，即为当前样本点时刻之前的所有样本隶属于同一个类；τ是动态调节因子；

(3)根据流程(2)获取聚类结果的边界点，移除该聚类结果，将剩下的样本作为新的时序样本集初始点，重复进行流程(1)～流程(2)，直至获取所有的模态划分结果。

所述步骤四，具体包括：

模态个数为i的PPCI计算如式(10)所示。

其中

式中，mean(·)和std(·)分别代表计算集合元素的均值和标准差。最佳模态个数对应的PPCI最小。

本发明的优点：针对实际间歇过程的多批次过程数据集，不需要设定模态个数和初始模态中心，根据间歇过程的时序性样本的隶属度变化自动划分不同模态，结合动态调节因子τ和PPCI指标，在保证间歇过程多模态划分结果的准确性上选取最佳模态划分结果。

附图说明

图1是本发明所述的一种时序约束模糊聚类的间歇过程多模态划分方法的流程图；

图2是不同模态个数的PPCI结果图；

图3是本发明所述方法得到的模态划分结果。

具体实施方式

下面结合实例及附图对本发明作进一步的描述，需要说明的是，实施例并不限定本发明要求保护的范围。

实施例

青霉素是一种具有广泛临床医用价值的抗生素，其生产过程是一个典型的非线性、动态和多模态的间歇生产过程。利用青霉素发酵过程仿真平台(PenSim v2.0)生成不同初始值的20个批次的过程数据，每批次持续时间K＝400小时，采样周期为1小时。利用基质浓度(g/L)、溶氧量浓度(g/L)、生物质浓度(g/L)、青霉素浓度(g/L)、反应热(kcal)等5个模态敏感变量的过程数据样本构建青霉素发酵过程的模态划分样本集。

将本发明应用到青霉素发酵过程的具体步骤如下：

步骤一：采集20个青霉素发酵过程模态敏感变量的批次过程数据

展开得到模态划分数据样本集

标准化后的模态划分数据样本集为X(400×100)。

步骤二：通过模糊聚类算法计算单分类设定下模态划分数据样本集X(400×100)的初始隶属度矩阵U＝{u₁,u₂,…,u₄₀₀}；

步骤三：从模态划分数据样本集X的最初采样时刻开始，按照时序依次构建新时序数据样本集，并通过步骤二所述的方法更新新添加样本的隶属度

k为当前过程运行时间，设置动态调节因子τ的范围为2×10^-5～3×10^-5，并多次比较新添加样本的隶属度

和对应时刻初始隶属度u_k的大小，得到多种模态划分结果。

步骤四：利用式(10)～式(13)计算不同模态的PPCI，如图2所示，模态个数为3的时候PPCI的值最小，因此，最佳模态个数设置为3。

具体的模态划分结果如图3所示，第1模态为1～48小时，第2模态为49～177小时，第3模态为178～400小时。

本发明能针对实际间歇过程的多批次过程数据集，不需要设定模态个数和初始模态中心，根据间歇过程的时序性样本的隶属度变化自动划分不同模态，结合动态调节因子τ和PPCI指标，在保证间歇过程多模态划分结果的准确性上选取最佳模态划分结果。