CN115017671B

CN115017671B - 基于数据流在线聚类分析的工业过程软测量建模方法、系统

Info

Publication number: CN115017671B
Application number: CN202111662376.5A
Authority: CN
Inventors: 金怀平; 王月晨; 杨彪; 刘海鹏; 张志坤
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Filing date: 2021-12-31
Publication date: 2024-07-02
Anticipated expiration: 2041-12-31

Abstract

本发明公开了一种基于数据流在线聚类分析的工业过程软测量建模方法、系统，本发明借鉴了局部学习思想，通过在线聚类分析对过程状态进行动态识别，并为其在线构建局部化高斯过程回归软测量模型。首先将到达的部分初始流数据进行了在线聚类，形成部分初始微簇，使得同一类之间的数据特征相似度尽可能高，不同类之间的数据特征相似度尽可能低，最大程度地利用了数据的空间分布特征；然后对新到达的样本进行聚类，对聚类成功的样本使用对应类的所有历史样本点建立GPR训练模型，对在线测试样本点进行预测，对聚类不成功的样本点利用即时学习思想从历史样本点中挑选与在线测试样本点最相似的部分样本点建立GPR训练模型，对在线测试样本点进行预测。

Description

基于数据流在线聚类分析的工业过程软测量建模方法、系统

技术领域

本发明涉及一种基于数据流在线聚类分析的工业过程软测量建模方法、系统，属于过程控制领域。

背景技术

在化工生产过程中存在一些与产品质量密切相关的过程变量难以实时测量，大多采用软测量技术进行离线建模分析实现关键过程变量的估计。然而，传统的离线建模所需的训练成本较高，往往是批处理模式，对于新的训练数据，模型往往要从头开始重新训练，造成了传统的批量学习方法时间和空间成本效率低的问题，对大规模应用的可扩展性差。

软测量技术的核心是通过某种最优准则，构建辅助变量(易测变量)与主导变量(难测变量)之间的函数关系式，并通过计算机软件，实现主导变量的在线估计。软测量建模方法的全局建模试图建立一个在所有过程状态上都能发挥良好性能的单一预测模型，然而由于工业过程中的强非线性、多模式、多时段以及时变性的特点，全局模型并不总是能发挥良好的作用。

发明内容

本发明提供了一种基于数据流在线聚类分析的工业过程软测量建模方法、系统，以用于对以流的形式到达的数据利用在线聚类的方法进行过程状态识别，并进一步实现测试样本点的主导变量的预测，再进一步通过本发明的软测量建模方法用于金霉素基质浓度的预测方法。

本发明的技术方案是：一种基于数据流在线聚类分析的工业过程软测量建模方法，包括：

划分步骤，收集实时工业过程标记数据形成样本集，将样本集划分为初始训练集XY_trn以及测试集X_test；

获得步骤，对以流的形式依次到达的初始训练集XY_trn中的n维辅助变量构建的每个样本点使用在线聚类方法进行聚类，获得m个初始微簇；

预测步骤，在初始微簇的基础上，对以流的形式依次到达的在线测试样本点x_new采用在线聚类方法进行聚类，并根据聚类结果的不同采用不同的训练模型进行预测。

所述初始训练集XY_trn和测试集X_test中的每个样本均包括真实主导变量和n维辅助变量。

所述在线聚类方法，包括：

S2.1、设置聚类参数；其中，聚类参数包括：聚类半径R和最小密度阈值M；

S2.2、对于每一个到达的样本点X，进行聚类，聚类分为三种情况：归类、新类、离群值。

所述聚类分类过程如下：

如果历史样本点形成了已有聚类，则计算样本点X与已有聚类的每一个聚类中心之间的欧氏距离：如果存在一个聚类中心与X的欧氏距离小于等于聚类半径R，则将样本点X归类至符合判断条件的聚类中心所代表的微簇；如果存在多个聚类中心与样本点X的欧氏距离小于等于聚类半径R，则将X归类至符合判断条件的所有聚类中心所代表的微簇，完成归类；否则，计算样本点X与所有历史离群值之间的欧氏距离：如果欧氏距离小于等于聚类半径R且达到最小密度阈值M，则将满足条件的历史离群值与样本点X形成一个新的微簇并计算微簇的聚类中心，完成新类动作，其它不符合判断条件的，则不做处理，仍为离群值；否则，将到达的样本点作为离群值；其中，聚类中心为微簇中所有样本点的平均值；

所述欧氏距离d：

其中，x_i表示样本点的第i维辅助变量，y_i表示聚类中心/离群值的第i维辅助变量。

所述预测步骤，具体为：

在初始微簇的基础上，对逐个到达的在线测试样本点x_new的中的n维辅助变量采用在线聚类方法进行聚类，如果聚类的结果为归类或者新类，则采用对应类中所有历史样本点的真实主导变量和n维辅助变量训练GPR模型，采用训练好的GPR模型，对在线测试样本点x_new进行预测，获得预测主导变量；如果聚类的结果为离群值，则采用基于即时学习思想，从带有真实主导变量的历史样本点中挑选与在线测试样本点x_new最相似的部分样本点用于训练GPR模型，采用训练好的GPR模型，对在线测试样本点x_new进行预测，获得预测主导变量；

所述在线测试样本点x_new采用测试集X_test构建；或者采用实时采集的工业过程非标记数据构建。

采用欧氏距离相似度、马氏距离相似度、协方差加权距离相似度、曼哈顿距离相似度或皮尔逊系数相似度作为相似度准则进行最相似的部分的选取。

一种基于数据流在线聚类分析的工业过程软测量建模系统，包括：

划分单元，用于收集实时工业过程标记数据形成样本集，将样本集划分为初始训练集XY_trn以及测试集X_test；

获得单元，用于对以流的形式依次到达的初始训练集XY_trn中的n维辅助变量构建的每个样本点使用在线聚类方法进行聚类，获得m个初始微簇；

预测单元，用于在初始微簇的基础上，对以流的形式依次到达的在线测试样本点x_new采用在线聚类方法进行聚类，并根据聚类结果的不同采用不同的训练模型进行预测。

一种金霉素基质浓度预测方法，采用上述中任一项所述的基于数据流在线聚类分析的工业过程软测量建模方法进行。

本发明的有益效果是：本发明针对过程工业重要变量难以在线实时预测以及预测精度不高的问题，借鉴了局部学习思想，通过在线聚类分析对过程状态进行动态识别，并为其在线构建局部化高斯过程回归(GPR)软测量模型。首先将到达的部分初始流数据进行了在线聚类，形成部分初始微簇，使得同一类之间的数据特征相似度尽可能高，不同类之间的数据特征相似度尽可能低，最大程度地利用了数据的空间分布特征；然后对新到达的样本进行聚类，对聚类成功的样本使用对应类的所有历史样本点建立GPR训练模型，对在线测试样本点进行预测，对聚类不成功(即离群值)的样本点利用即时学习思想从历史样本点中挑选与在线测试样本点最相似的部分样本点建立GPR训练模型，对在线测试样本点进行预测。相比较其他的软测量建模方法，本发明在实时提供预测结果的同时有效的提高了在线预测的精度，在线聚类分析和建模过程较好的克服了工业过程中在线学习存在的非线性和时变性对预测精度的影响。

附图说明

图1为本发明方法的流程图；

图2为移动窗口高斯过程回归方法MWGPR和所提ODSCGPR方法的金霉素基质浓度第93批-第97批测试数据的局部预测值与预测误差对比图；

图3为移动窗口高斯过程回归方法MWGPR和所提ODSCGPR方法的金霉素基质浓度第104批-第107批测试数据的局部预测值与预测误差对比图；

图4为移动窗口高斯过程回归方法和所提ODSCGPR方法的金霉素基质浓度在第92批-第112批测试样本上的局部预测散点图。

具体实施方式

下面结合附图和实施例，对发明做进一步的说明，但本发明的内容并不限于所述范围。

实施例1：如图1所示，一种基于数据流在线聚类分析的工业过程软测量建模方法，包括：

划分步骤，收集实时工业过程标记数据形成样本集，将样本集划分为少量初始训练集XY_trn以及大量测试集X_test；

获得步骤，对以流的形式依次到达的初始训练集XY_trn中的n维辅助变量构建的每个样本点使用在线聚类方法进行聚类，获得m个初始微簇；其中，以流的形式依次到达表示数据样本点按顺序逐个到达；

进一步地，可以设置所述初始训练集XY_trn和测试集X_test中的每个样本均包括真实主导变量和n维辅助变量。

进一步地，可以设置所述在线聚类方法，包括：

S2.1、设置聚类参数；其中，聚类参数包括：聚类半径R和最小密度阈值M；聚类半径R：对于任何一组数据，数据样本之间都有距离，根据数据特征选择最合适的聚类半径，此值为最大允许半径；最小密度阈值M：能够构成一个微簇的最小数据量。当数据之间的距离小于半径且数据量达到最小密度阈值时可以形成一个微簇；

进一步地，可以设置所述聚类分类过程如下：

如果历史样本点形成了已有聚类，则计算样本点X与已有聚类的每一个聚类中心之间的欧氏距离：如果存在一个聚类中心与X的欧氏距离小于等于聚类半径R，则将样本点X归类至符合判断条件的聚类中心所代表的微簇；如果存在多个聚类中心与样本点X的欧氏距离小于等于聚类半径R，则将X归类至符合判断条件的所有聚类中心所代表的微簇，完成归类(通过该步骤，可以实现将欧氏距离小于等于聚类半径R的样本点归去所有满足条件的已有类中，从而可以增加类中的数据信息；)；否则，计算样本点X与所有历史离群值之间的欧氏距离：如果欧氏距离小于等于聚类半径R且达到最小密度阈值M，则将满足条件的历史离群值与样本点X形成一个新的微簇并计算微簇的聚类中心，完成新类动作，其它不符合判断条件的，则不做处理，仍为离群值；否则，将到达的样本点作为离群值；其中，聚类中心为微簇中所有样本点的平均值；

具体而言，聚类的三种情况可解释如下：

(a)归类：样本点达到，与已有聚类的聚类中心C.C的欧氏距离小于或等于半径时，此测试样本点将被归类。为了增加类中的数据信息，每个测试样本点可同时归去所有满足条件的已有类中。

(b)新类：样本点X到达，与离群值之间的欧氏距离小于半径R且半径范围内的数据量达到最小密度阈值M时，由离群值和测试样本点形成一个新类，计算类中所有数据的平均距离得到新类的聚类中心C.C，用于后续聚类的更新；

(c)离群值：样本点X到达，当不符合上述两种聚类情况，此样本点被定义为离群值，孤立的存在于空间之中，等待后续的聚类；

进一步地，可以设置所述欧氏距离：

进一步地，可以设置所述预测步骤，具体为：

在初始微簇的基础上，对逐个到达的在线测试样本点x_new的中的n维辅助变量采用在线聚类方法进行聚类，如果聚类的结果为归类或者新类，则采用对应类中所有历史样本点的真实主导变量和n维辅助变量训练GPR模型，采用训练好的GPR模型，对在线测试样本点x_new进行预测，获得预测主导变量；如果聚类的结果为离群值，则采用基于即时学习思想，从带有真实主导变量的历史样本点中挑选与在线测试样本点x_new最相似的部分样本点用于训练GPR模型，采用训练好的GPR模型，对在线测试样本点x_new进行预测，获得预测主导变量；本步骤中对于训练GPR模型的历史样本点为模型训练集，预测结束后将样本点的n维辅导变量以及离线采集得到的真实主导变量加入训练集，实现训练集的动态更新。

进一步地，可以设置所述在线测试样本点x_new采用测试集X_test构建；或者采用实时采集的工业过程非标记数据构建。具体而言，测试集X_test构建的在线测试样本点x_new为离线数据，不仅带有n维辅助变量还有真实主导变量，可以进一步用于训练模型，并参与预测，实现模型的验证。而采用实时采集的工业过程标记数据构建的在线测试样本点x_new为在线数据，包括n维辅助变量，而真实主导变量不管是否存在都能采用GPR模型进行预测，同时存在真实主导变量的在线数据，可以进一步丰富用于训练GPR模型的历史样本点。

进一步地，可以设置采用欧氏距离相似度、马氏距离相似度、协方差加权距离相似度、曼哈顿距离相似度或皮尔逊系数相似度作为相似度准则进行最相似的部分的选取。

根据实施例的另一方面，还提供了一种基于数据流在线聚类分析的工业过程软测量建模系统，包括：

划分单元，用于收集实时工业过程标记数据形成样本集，将样本集划分为少量初始训练集XY_trn以及大量测试集X_test；

获得单元，用于对以流的形式依次到达的初始训练集XY_trn中的n维辅助变量构建的每个样本点使用在线聚类方法进行聚类，获得m个初始微簇；其中，以流的形式依次到达表示数据样本点按顺序逐个到达；

在流程工业中，过程数据的过程特征包括非线性、多模式、多时段以及时变性等是影响软测量模型性能好坏的主要因素；传统聚类它在概念漂移、数据流的数据结构、时间窗口模型和异常值检测等方面存在很大的挑战。而本发明主要解决两个问题：一方面针对工业数据输入输出变量之间的非线性提出了在线聚类分析，有效识别局部区域，为建立高性能局部模型做准备；另一方面针对数据流的演化或动态性质导致的数据分布可能会随时间而变化而导致的概念漂移(即时变性)问题建立自适应软测量模型，利用即时学习思想建立新模型、丢弃旧模型。较好的克服了非线性及时变性对模型性能的影响，有效的提升了在线预测精度。

根据本发明实施例的另一方面，还提供了一种金霉素基质浓度预测方法，采用上述中任一项所述的基于数据流在线聚类分析的工业过程软测量建模方法进行。

金霉素，又称氯四环素，是一种广谱抗生素，具有抑菌、促生长、饲料利用率高等特点。在金霉素反馈发酵控制过程中，一个十分重要的关键指标是金霉素基质浓度，但是目前仍然不能在线检测金霉素基质浓度，为了改善金霉素发酵控制水平需要对金霉素基质浓度进行软测量建模。

将基质浓度作为主导变量，表1给出了针对关键预测变量金霉素基质浓度所选择的10个辅助变量。

表1 辅助变量说明

如图1所示，具体实施步骤如下：

(1)采集金霉素发酵过程共112批有标记数据，其中，第1-17批有标记批次共278个样本作为初始训练集，第18-112批共1535个有标记样本作为测试集；

(2)数据以流的形式依次到达，设置聚类半径为3、最小密度阈值为15。首先对初始的17批共278个有标记样本依次进行聚类，形成了3个初始微簇；

所述聚类过程具体步骤为：

1)设置聚类参数

(a)半径R：对于任何一组数据，数据样本之间都有距离，根据数据特征选择最合适的聚类半径，此值为最大允许半径；

(b)最小密度阈值M：能够构成一个微簇的最小数据量。当数据之间的距离小于半径且数据量达到最小密度阈值时可以形成一个微簇。

2)聚类：对于每一个到达的样本点X，进行聚类，聚类分为三种情况：归类、新类、离群值。

采用欧氏距离，计算测试样本点与数据之间的欧氏距离。

(3)在初始微簇的基础上，对以流的形式依次到达的在线测试样本点x_new采用在线聚类方法进行聚类，并根据聚类结果的不同采用不同的训练模型进行预测：对聚类成功的样本使用对应类的GPR模型进行预测，对聚类不成功(即离群值)的样本使用即时学习JITGPR模型进行预测，得到测试样本点x_new的预测输出。每一个参与预测后的样本点将变成历史样本点，然后将此样本直实主导变量加入对应类更新数据库，用做后续训练模型的训练集；

所述GPR建模具体过程为：

假设有输入为X、输出为y的数据集其回归模型可以描述为：

其中，n表示数据集中样本的个数，x表示输入向量，y表示输出，f(·)表示未知的回归函数，ε为高斯噪声，服从均值为0、方差为的高斯分布；从函数空间角度来看，一个高斯过程可以由协方差函数C(x,x′)和均值函数m(x)确定，其定义分别表示如下：

因此，高斯过程描述为：

f(x)～GP(m(x),C(x,x'))

通常，对建模数据进行归一化数据预处理，假设训练样本集产生于一个零均值高斯过程，表示如下：

y～GP(0,C)

其中，C是一个n×n阶对称正定的协方差矩阵，0表示零矩阵；

当新的在线测试样本点x_new到来时，所述高斯过程回归模型描述为：

其中，k_new＝[C(x_new，x₁)，...，C(x_new，x_n))]^T，C(x_new，x_new)表示x_new自身的协方差，表示k_new的转置，和分别为高斯过程回归的预测均值和方差。

所述即时学习JITGPR建模具体过程为：

通过历史样本构建JITGPR子模型，基于JIT即时学习思想，从历史样本点中挑选与新样本最相似的部分样本作为GPR模型训练集，离群值作为GPR模型的测试样本，得到离群值的预测输出。

根据不同的数据特征，选择最合适的相似度度量方法，对于金霉素实施例，选择协方差加权距离相似度。

表1为使用在线移动窗高斯过程回归模型与本发明的基于数据流聚类的监督学习工业过程在线软测量建模方法ODSCGPR的比较，本发明使用均方根误差RMSE和决定系数R²作为模型的性能评价指标：

式中，N_test为测试样本数，y_i和分别为输出的预测值、实际值和实际值的均值。RMSE越小、R²越大表示模型对基质浓度的预测性能越好。

表2 不同方法对金霉素基质浓度预测结果比较

通过表2可以看出，本发明的基于数据流聚类的监督学习工业过程在线软测量建模方法ODSCGPR的性能优于MWGPR模型。由于数据量较大，图2-图4列出了部分批次数据的预测对比图以及预测散点图。从图2和图3可以看出本发明ODSCGPR方法预测曲线拟合度优于MWGPR模型，预测误差小于MWGPR模型；从图4可以看出，本发明ODSCGPR方法的散点更接近真实值。因此，本发明所提方法可以显著提升金霉素基质浓度的预测精度。

需要说明的是，本发明针对的是流程工业中部分重要参数无法在线检测或在线检测精度不高的问题提出的方法，不仅限于保护实施与某个案例，案例只是举例用于验证本方法的有效性，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于数据流在线聚类分析的工业过程软测量建模方法，其特征在于：包括：

预测步骤，在初始微簇的基础上，对以流的形式依次到达的在线测试样本点x_new采用在线聚类方法进行聚类，并根据聚类结果的不同采用不同的训练模型进行预测；

所述在线聚类方法，包括：

S2.2、对于每一个到达的样本点X，进行聚类，聚类分为三种情况：归类、新类、离群值；

所述聚类分类过程如下：

如果历史样本点形成了已有聚类，则计算样本点X与已有聚类的每一个聚类中心之间的欧氏距离：如果存在一个聚类中心与X的欧氏距离小于等于聚类半径R，则将样本点X归类至符合判断条件的聚类中心所代表的微簇；如果存在多个聚类中心与样本点X的欧氏距离小于等于聚类半径R，则将X归类至符合判断条件的所有聚类中心所代表的微簇，完成归类；否则，计算样本点X与所有历史离群值之间的欧氏距离：如果欧氏距离小于等于聚类半径R且达到最小密度阈值M，则将满足条件的历史离群值与样本点X形成一个新的微簇并计算微簇的聚类中心，完成新类动作，其它不符合判断条件的，则不做处理，仍为离群值；否则，将到达的样本点作为离群值；其中，聚类中心为微簇中所有样本点的平均值。

2.根据权利要求1所述的基于数据流在线聚类分析的工业过程软测量建模方法，其特征在于：所述初始训练集XY_trn和测试集X_test中的每个样本均包括真实主导变量和n维辅助变量。

3.根据权利要求1所述的基于数据流在线聚类分析的工业过程软测量建模方法，其特征在于：所述欧氏距离d：

4.根据权利要求1所述的基于数据流在线聚类分析的工业过程软测量建模方法，其特征在于：所述预测步骤，具体为：

在初始微簇的基础上，对逐个到达的在线测试样本点x_new的中的n维辅助变量采用在线聚类方法进行聚类，如果聚类的结果为归类或者新类，则采用对应类中所有历史样本点的真实主导变量和n维辅助变量训练GPR模型，采用训练好的GPR模型，对在线测试样本点x_new进行预测，获得预测主导变量；如果聚类的结果为离群值，则采用基于即时学习思想，从带有真实主导变量的历史样本点中挑选与在线测试样本点x_new最相似的部分样本点用于训练GPR模型，采用训练好的GPR模型，对在线测试样本点x_new进行预测，获得预测主导变量。

5.根据权利要求1所述的基于数据流在线聚类分析的工业过程软测量建模方法，其特征在于：所述在线测试样本点x_new采用测试集X_test构建；或者采用实时采集的工业过程非标记数据构建。

6.根据权利要求4所述的基于数据流在线聚类分析的工业过程软测量建模方法，其特征在于：采用欧氏距离相似度、马氏距离相似度、协方差加权距离相似度、曼哈顿距离相似度或皮尔逊系数相似度作为相似度准则进行最相似的部分的选取。

7.一种基于数据流在线聚类分析的工业过程软测量建模系统，其特征在于：包括：

预测单元，用于在初始微簇的基础上，对以流的形式依次到达的在线测试样本点x_new采用在线聚类方法进行聚类，并根据聚类结果的不同采用不同的训练模型进行预测；

所述在线聚类方法，包括：

所述聚类分类过程如下：

8.一种金霉素基质浓度预测方法，其特征在于：采用权利要求1-6中任一项所述的基于数据流在线聚类分析的工业过程软测量建模方法进行。