CN107403196B

CN107403196B - 基于谱聚类分析的即时学习建模对脱丁烷塔底丁烷浓度进行预测的方法

Info

Publication number: CN107403196B
Application number: CN201710632210.6A
Authority: CN
Inventors: 熊伟丽; 史旭东
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2017-07-28
Filing date: 2017-07-28
Publication date: 2020-05-12
Anticipated expiration: 2037-07-28
Also published as: CN107403196A

Abstract

本发明提供基于谱聚类分析的即时学习建模对脱丁烷塔底丁烷浓度进行预测的方法，为使软测量模型在即时学习时能够进行更有效的相似样本选择，借助聚类分析构建新的相似度测度，提出了基于谱聚类分析的即时学习软测量建模方法。为获得可靠的过程阶段划分，采用了聚类稳定性和鲁棒性都较强的谱聚类，并在基于传统欧式距离相似度测度的基础上，结合聚类分析得出查询样本属于各类的后验概率，定义出一个更合适描述过程复杂特性的相似度测度，从而根据查询样本选择相似样本构建局部模型进行在线质量预报。

Description

基于谱聚类分析的即时学习建模对脱丁烷塔底丁烷浓度进行预测的方法

本发明涉及基于谱聚类分析的即时学习建模对脱丁烷塔底丁烷浓度进行预测的方法，属于复杂工业过程建模和软测量领域。

背景技术

目前，化工过程的复杂性正在日益增加，对产品质量的要求也在不断提高，现代工业往往需要装备一些先进的监控系统。然而由于某些关键质量变量的传感器价格昂贵、可靠性差或者具有很大的测量滞后性等缺点，导致一些重要的过程变量不能实时有效地测量。

软测量技术根据某种最优准则构造数学模型，建立易测辅助变量与难测主导变量之间的映射关系，可以有效解决此类问题。软测量模型大体可以分为基于机理、基于数据驱动和两者相结合的三大类。由于现代工业的日益复杂，基于机理的精确模型往往难以获得，发展了大量基于数据驱动的软测量模型，例如：主元回归(Principle ComponentRegression，PCR)、偏最小二乘回归(Partial Least Square Regression，PLSR)和支持向量回归(Support Vector Regression，SVR)等。

一般为了保证软测量模型的性能，要求建模数据必须能够覆盖工业过程中所有工况以适应工况变化。然而对于某一特定的查询样本，其工况特性虽未知却是唯一的，如果采用全部样本建模会将与查询样本特性无关甚至相差较大的样本也用于建模，会导致参数求解不够精确、模型精度低。同时软测量模型在实际应用中，受到外界环境和反应器内部变动的影响，如催化剂活性降低、原料属性变化、设备老化等，其特性难免漂移出之前建立模型的工作点，出现“模型老化”的现象。在这种情况下如果继续采用旧模型进行在线预测，输出预测值与真实值会产生较大的偏差，得不到理想的预测效果，因此模型在线校正能力对实际工业具有重要意义。

即时学习(Just In Time Learning,JITL)是一种常见的模型自适应校正策略。该方法对于查询样本，在历史数据中找出与其最相似的若干样本建立局部模型进行在线质量预报。当新的查询样本到来后，丢弃旧的模型并再次以上述程序为其建立局部模型。相似度测度的构造是JITL建模的核心，对建立局部模型起关键作用。

发明内容

本专利定义了一种基于聚类结果的相似度测度用于即时学习相似样本选择。离线建模时，采用聚类效果较可靠的谱聚类对过程阶段进行划分。在线更新时，将查询样本属于各类的后验概率结合欧氏距离，得到更合理的相似度从而建立更精确的局部模型。该方法不仅能够使模型具备自适应能力以处理时变过程，而且考虑到过程的多阶段特性，充分提取查询样本的特性，更为合理地选择样本建立局部模型，以提升模型在线预测性能。

本发明的目的是通过以下技术方案实现的：

离线建模时，采用聚类效果较可靠的谱聚类对过程阶段进行划分。

在线更新时，将查询样本属于各类的后验概率结合欧氏距离，得到更合理的相似度从而建立更精确的局部模型。

根据相似度选择样本建立软测量模型，在下个查询样本来时，在对其重新计算相似度，选择样本构建局部模型。

附图说明

图1是基于谱聚类分析的即时学习建模流程图；

图2不同相似样本下的RMSE；

具体实施方式

下面结合图1所示，对本发明做进一步详述：

以常见的化工过程——脱丁烷塔过程为例。实验数据来自于脱丁烷塔过程，对塔底丁烷浓度进行预测。

步骤1：收集输入输出数据组成历史训练数据库

步骤2：实施谱聚类把训练数据划分到不同的操作阶段，所述的谱聚类算法为：

输入数据集X∈R^N×J，其中，J是过程变量的维数，N是训练样本的个数，x_i∈R^J为输入数据集X中第i个样本的值，i＝1,2,…,N,

定义相似度矩阵W，本文采用式(1)定义的相似度测度

其中，|x_i-x_j|表示x_i与x_j之间欧式距离，τ为此相似度测度的参数。

计算拉普拉斯矩阵

L＝D-W (2)

其中，

对L进行特征值分解，得到特征值集合

与特征向量集合

特征向量按特征值有小到大顺序排列。

选取前c个特征向量

对

实施k-means，得到聚类结果

其中k为设定的聚类个数，X_g表示第g阶段的全部样本。

步骤3：k-means的详细步骤：

随机选取个k聚类质心点初始值，μ_g(g＝1,2,...,k)，

重复下面过程直到聚类质心点收敛{

对于每一个样本x_i，计算其应该属于的类

其中，g(x_i)表示x_i属于的类

}

对于每一个类g，重新计算该类的质心

其中，N(X_g)表示第g阶段的全部样本的个数。

步骤4：通过离线训练阶段，对历史数据进行谱聚类，得到分类好的数据集

当新的查询样本到来时，先计算其隶属于各类的后验概率，计算方式为式(6)-式(8)

其中，p(g)为第g类的先验概率，n(X_g)和n(X)分别表示第g类和整个训练集中的样本个数；p(x|g)是似然函数，μ_g表示第g类样本的聚类质心。

步骤5：计算训练样本中的样本x_i与查询样本x_q之间相似度

步骤6：最终，对于某个查询样本，将训练样本按照与其的相似度从大到小的顺序排列，选择L个样本构建局部软测量模型。当下一个的查询样本到来时丢弃旧的模型，再按照上述程序再次建立局部模型。

图2是数据在不同相似样本个数下丁烷浓度预测值和实际值拟合曲线，并且与传统即时学习所建立的软测量模型进行了比较。由图可知，本专利的预测效果更好。