CN115017671B - 基于数据流在线聚类分析的工业过程软测量建模方法、系统 - Google Patents
基于数据流在线聚类分析的工业过程软测量建模方法、系统 Download PDFInfo
- Publication number
- CN115017671B CN115017671B CN202111662376.5A CN202111662376A CN115017671B CN 115017671 B CN115017671 B CN 115017671B CN 202111662376 A CN202111662376 A CN 202111662376A CN 115017671 B CN115017671 B CN 115017671B
- Authority
- CN
- China
- Prior art keywords
- clustering
- cluster
- online
- sample points
- sample point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 33
- 238000005259 measurement Methods 0.000 title claims abstract description 30
- 238000007621 cluster analysis Methods 0.000 title claims abstract description 19
- 238000012360 testing method Methods 0.000 claims abstract description 74
- 238000012549 training Methods 0.000 claims abstract description 42
- 230000008569 process Effects 0.000 claims description 29
- CYDMQBQPVICBEU-UHFFFAOYSA-N chlorotetracycline Natural products C1=CC(Cl)=C2C(O)(C)C3CC4C(N(C)C)C(O)=C(C(N)=O)C(=O)C4(O)C(O)=C3C(=O)C2=C1O CYDMQBQPVICBEU-UHFFFAOYSA-N 0.000 claims description 19
- CYDMQBQPVICBEU-XRNKAMNCSA-N chlortetracycline Chemical compound C1=CC(Cl)=C2[C@](O)(C)[C@H]3C[C@H]4[C@H](N(C)C)C(O)=C(C(N)=O)C(=O)[C@@]4(O)C(O)=C3C(=O)C2=C1O CYDMQBQPVICBEU-XRNKAMNCSA-N 0.000 claims description 19
- 229960004475 chlortetracycline Drugs 0.000 claims description 19
- 235000019365 chlortetracycline Nutrition 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 17
- 230000009471 action Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 abstract description 4
- 238000004458 analytical method Methods 0.000 description 4
- 239000004099 Chlortetracycline Substances 0.000 description 3
- 238000000855 fermentation Methods 0.000 description 3
- 230000004151 fermentation Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003115 biocidal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012824 chemical production Methods 0.000 description 1
- 238000004925 denaturation Methods 0.000 description 1
- 230000036425 denaturation Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Abstract
本发明公开了一种基于数据流在线聚类分析的工业过程软测量建模方法、系统,本发明借鉴了局部学习思想,通过在线聚类分析对过程状态进行动态识别,并为其在线构建局部化高斯过程回归软测量模型。首先将到达的部分初始流数据进行了在线聚类,形成部分初始微簇,使得同一类之间的数据特征相似度尽可能高,不同类之间的数据特征相似度尽可能低,最大程度地利用了数据的空间分布特征;然后对新到达的样本进行聚类,对聚类成功的样本使用对应类的所有历史样本点建立GPR训练模型,对在线测试样本点进行预测,对聚类不成功的样本点利用即时学习思想从历史样本点中挑选与在线测试样本点最相似的部分样本点建立GPR训练模型,对在线测试样本点进行预测。
Description
技术领域
本发明涉及一种基于数据流在线聚类分析的工业过程软测量建模方法、系统,属于过程控制领域。
背景技术
在化工生产过程中存在一些与产品质量密切相关的过程变量难以实时测量,大多采用软测量技术进行离线建模分析实现关键过程变量的估计。然而,传统的离线建模所需的训练成本较高,往往是批处理模式,对于新的训练数据,模型往往要从头开始重新训练,造成了传统的批量学习方法时间和空间成本效率低的问题,对大规模应用的可扩展性差。
软测量技术的核心是通过某种最优准则,构建辅助变量(易测变量)与主导变量(难测变量)之间的函数关系式,并通过计算机软件,实现主导变量的在线估计。软测量建模方法的全局建模试图建立一个在所有过程状态上都能发挥良好性能的单一预测模型,然而由于工业过程中的强非线性、多模式、多时段以及时变性的特点,全局模型并不总是能发挥良好的作用。
发明内容
本发明提供了一种基于数据流在线聚类分析的工业过程软测量建模方法、系统,以用于对以流的形式到达的数据利用在线聚类的方法进行过程状态识别,并进一步实现测试样本点的主导变量的预测,再进一步通过本发明的软测量建模方法用于金霉素基质浓度的预测方法。
本发明的技术方案是:一种基于数据流在线聚类分析的工业过程软测量建模方法,包括:
划分步骤,收集实时工业过程标记数据形成样本集,将样本集划分为初始训练集XYtrn以及测试集Xtest;
获得步骤,对以流的形式依次到达的初始训练集XYtrn中的n维辅助变量构建的每个样本点使用在线聚类方法进行聚类,获得m个初始微簇;
预测步骤,在初始微簇的基础上,对以流的形式依次到达的在线测试样本点xnew采用在线聚类方法进行聚类,并根据聚类结果的不同采用不同的训练模型进行预测。
所述初始训练集XYtrn和测试集Xtest中的每个样本均包括真实主导变量和n维辅助变量。
所述在线聚类方法,包括:
S2.1、设置聚类参数;其中,聚类参数包括:聚类半径R和最小密度阈值M;
S2.2、对于每一个到达的样本点X,进行聚类,聚类分为三种情况:归类、新类、离群值。
所述聚类分类过程如下:
如果历史样本点形成了已有聚类,则计算样本点X与已有聚类的每一个聚类中心之间的欧氏距离:如果存在一个聚类中心与X的欧氏距离小于等于聚类半径R,则将样本点X归类至符合判断条件的聚类中心所代表的微簇;如果存在多个聚类中心与样本点X的欧氏距离小于等于聚类半径R,则将X归类至符合判断条件的所有聚类中心所代表的微簇,完成归类;否则,计算样本点X与所有历史离群值之间的欧氏距离:如果欧氏距离小于等于聚类半径R且达到最小密度阈值M,则将满足条件的历史离群值与样本点X形成一个新的微簇并计算微簇的聚类中心,完成新类动作,其它不符合判断条件的,则不做处理,仍为离群值;否则,将到达的样本点作为离群值;其中,聚类中心为微簇中所有样本点的平均值;
所述欧氏距离d:
其中,xi表示样本点的第i维辅助变量,yi表示聚类中心/离群值的第i维辅助变量。
所述预测步骤,具体为:
在初始微簇的基础上,对逐个到达的在线测试样本点xnew的中的n维辅助变量采用在线聚类方法进行聚类,如果聚类的结果为归类或者新类,则采用对应类中所有历史样本点的真实主导变量和n维辅助变量训练GPR模型,采用训练好的GPR模型,对在线测试样本点xnew进行预测,获得预测主导变量;如果聚类的结果为离群值,则采用基于即时学习思想,从带有真实主导变量的历史样本点中挑选与在线测试样本点xnew最相似的部分样本点用于训练GPR模型,采用训练好的GPR模型,对在线测试样本点xnew进行预测,获得预测主导变量;
所述在线测试样本点xnew采用测试集Xtest构建;或者采用实时采集的工业过程非标记数据构建。
采用欧氏距离相似度、马氏距离相似度、协方差加权距离相似度、曼哈顿距离相似度或皮尔逊系数相似度作为相似度准则进行最相似的部分的选取。
一种基于数据流在线聚类分析的工业过程软测量建模系统,包括:
划分单元,用于收集实时工业过程标记数据形成样本集,将样本集划分为初始训练集XYtrn以及测试集Xtest;
获得单元,用于对以流的形式依次到达的初始训练集XYtrn中的n维辅助变量构建的每个样本点使用在线聚类方法进行聚类,获得m个初始微簇;
预测单元,用于在初始微簇的基础上,对以流的形式依次到达的在线测试样本点xnew采用在线聚类方法进行聚类,并根据聚类结果的不同采用不同的训练模型进行预测。
一种金霉素基质浓度预测方法,采用上述中任一项所述的基于数据流在线聚类分析的工业过程软测量建模方法进行。
本发明的有益效果是:本发明针对过程工业重要变量难以在线实时预测以及预测精度不高的问题,借鉴了局部学习思想,通过在线聚类分析对过程状态进行动态识别,并为其在线构建局部化高斯过程回归(GPR)软测量模型。首先将到达的部分初始流数据进行了在线聚类,形成部分初始微簇,使得同一类之间的数据特征相似度尽可能高,不同类之间的数据特征相似度尽可能低,最大程度地利用了数据的空间分布特征;然后对新到达的样本进行聚类,对聚类成功的样本使用对应类的所有历史样本点建立GPR训练模型,对在线测试样本点进行预测,对聚类不成功(即离群值)的样本点利用即时学习思想从历史样本点中挑选与在线测试样本点最相似的部分样本点建立GPR训练模型,对在线测试样本点进行预测。相比较其他的软测量建模方法,本发明在实时提供预测结果的同时有效的提高了在线预测的精度,在线聚类分析和建模过程较好的克服了工业过程中在线学习存在的非线性和时变性对预测精度的影响。
附图说明
图1为本发明方法的流程图;
图2为移动窗口高斯过程回归方法MWGPR和所提ODSCGPR方法的金霉素基质浓度第93批-第97批测试数据的局部预测值与预测误差对比图;
图3为移动窗口高斯过程回归方法MWGPR和所提ODSCGPR方法的金霉素基质浓度第104批-第107批测试数据的局部预测值与预测误差对比图;
图4为移动窗口高斯过程回归方法和所提ODSCGPR方法的金霉素基质浓度在第92批-第112批测试样本上的局部预测散点图。
具体实施方式
下面结合附图和实施例,对发明做进一步的说明,但本发明的内容并不限于所述范围。
实施例1:如图1所示,一种基于数据流在线聚类分析的工业过程软测量建模方法,包括:
划分步骤,收集实时工业过程标记数据形成样本集,将样本集划分为少量初始训练集XYtrn以及大量测试集Xtest;
获得步骤,对以流的形式依次到达的初始训练集XYtrn中的n维辅助变量构建的每个样本点使用在线聚类方法进行聚类,获得m个初始微簇;其中,以流的形式依次到达表示数据样本点按顺序逐个到达;
预测步骤,在初始微簇的基础上,对以流的形式依次到达的在线测试样本点xnew采用在线聚类方法进行聚类,并根据聚类结果的不同采用不同的训练模型进行预测。
进一步地,可以设置所述初始训练集XYtrn和测试集Xtest中的每个样本均包括真实主导变量和n维辅助变量。
进一步地,可以设置所述在线聚类方法,包括:
S2.1、设置聚类参数;其中,聚类参数包括:聚类半径R和最小密度阈值M;聚类半径R:对于任何一组数据,数据样本之间都有距离,根据数据特征选择最合适的聚类半径,此值为最大允许半径;最小密度阈值M:能够构成一个微簇的最小数据量。当数据之间的距离小于半径且数据量达到最小密度阈值时可以形成一个微簇;
S2.2、对于每一个到达的样本点X,进行聚类,聚类分为三种情况:归类、新类、离群值。
进一步地,可以设置所述聚类分类过程如下:
如果历史样本点形成了已有聚类,则计算样本点X与已有聚类的每一个聚类中心之间的欧氏距离:如果存在一个聚类中心与X的欧氏距离小于等于聚类半径R,则将样本点X归类至符合判断条件的聚类中心所代表的微簇;如果存在多个聚类中心与样本点X的欧氏距离小于等于聚类半径R,则将X归类至符合判断条件的所有聚类中心所代表的微簇,完成归类(通过该步骤,可以实现将欧氏距离小于等于聚类半径R的样本点归去所有满足条件的已有类中,从而可以增加类中的数据信息;);否则,计算样本点X与所有历史离群值之间的欧氏距离:如果欧氏距离小于等于聚类半径R且达到最小密度阈值M,则将满足条件的历史离群值与样本点X形成一个新的微簇并计算微簇的聚类中心,完成新类动作,其它不符合判断条件的,则不做处理,仍为离群值;否则,将到达的样本点作为离群值;其中,聚类中心为微簇中所有样本点的平均值;
具体而言,聚类的三种情况可解释如下:
(a)归类:样本点达到,与已有聚类的聚类中心C.C的欧氏距离小于或等于半径时,此测试样本点将被归类。为了增加类中的数据信息,每个测试样本点可同时归去所有满足条件的已有类中。
(b)新类:样本点X到达,与离群值之间的欧氏距离小于半径R且半径范围内的数据量达到最小密度阈值M时,由离群值和测试样本点形成一个新类,计算类中所有数据的平均距离得到新类的聚类中心C.C,用于后续聚类的更新;
(c)离群值:样本点X到达,当不符合上述两种聚类情况,此样本点被定义为离群值,孤立的存在于空间之中,等待后续的聚类;
进一步地,可以设置所述欧氏距离:
其中,xi表示样本点的第i维辅助变量,yi表示聚类中心/离群值的第i维辅助变量。
进一步地,可以设置所述预测步骤,具体为:
在初始微簇的基础上,对逐个到达的在线测试样本点xnew的中的n维辅助变量采用在线聚类方法进行聚类,如果聚类的结果为归类或者新类,则采用对应类中所有历史样本点的真实主导变量和n维辅助变量训练GPR模型,采用训练好的GPR模型,对在线测试样本点xnew进行预测,获得预测主导变量;如果聚类的结果为离群值,则采用基于即时学习思想,从带有真实主导变量的历史样本点中挑选与在线测试样本点xnew最相似的部分样本点用于训练GPR模型,采用训练好的GPR模型,对在线测试样本点xnew进行预测,获得预测主导变量;本步骤中对于训练GPR模型的历史样本点为模型训练集,预测结束后将样本点的n维辅导变量以及离线采集得到的真实主导变量加入训练集,实现训练集的动态更新。
进一步地,可以设置所述在线测试样本点xnew采用测试集Xtest构建;或者采用实时采集的工业过程非标记数据构建。具体而言,测试集Xtest构建的在线测试样本点xnew为离线数据,不仅带有n维辅助变量还有真实主导变量,可以进一步用于训练模型,并参与预测,实现模型的验证。而采用实时采集的工业过程标记数据构建的在线测试样本点xnew为在线数据,包括n维辅助变量,而真实主导变量不管是否存在都能采用GPR模型进行预测,同时存在真实主导变量的在线数据,可以进一步丰富用于训练GPR模型的历史样本点。
进一步地,可以设置采用欧氏距离相似度、马氏距离相似度、协方差加权距离相似度、曼哈顿距离相似度或皮尔逊系数相似度作为相似度准则进行最相似的部分的选取。
根据实施例的另一方面,还提供了一种基于数据流在线聚类分析的工业过程软测量建模系统,包括:
划分单元,用于收集实时工业过程标记数据形成样本集,将样本集划分为少量初始训练集XYtrn以及大量测试集Xtest;
获得单元,用于对以流的形式依次到达的初始训练集XYtrn中的n维辅助变量构建的每个样本点使用在线聚类方法进行聚类,获得m个初始微簇;其中,以流的形式依次到达表示数据样本点按顺序逐个到达;
预测单元,用于在初始微簇的基础上,对以流的形式依次到达的在线测试样本点xnew采用在线聚类方法进行聚类,并根据聚类结果的不同采用不同的训练模型进行预测。
在流程工业中,过程数据的过程特征包括非线性、多模式、多时段以及时变性等是影响软测量模型性能好坏的主要因素;传统聚类它在概念漂移、数据流的数据结构、时间窗口模型和异常值检测等方面存在很大的挑战。而本发明主要解决两个问题:一方面针对工业数据输入输出变量之间的非线性提出了在线聚类分析,有效识别局部区域,为建立高性能局部模型做准备;另一方面针对数据流的演化或动态性质导致的数据分布可能会随时间而变化而导致的概念漂移(即时变性)问题建立自适应软测量模型,利用即时学习思想建立新模型、丢弃旧模型。较好的克服了非线性及时变性对模型性能的影响,有效的提升了在线预测精度。
根据本发明实施例的另一方面,还提供了一种金霉素基质浓度预测方法,采用上述中任一项所述的基于数据流在线聚类分析的工业过程软测量建模方法进行。
金霉素,又称氯四环素,是一种广谱抗生素,具有抑菌、促生长、饲料利用率高等特点。在金霉素反馈发酵控制过程中,一个十分重要的关键指标是金霉素基质浓度,但是目前仍然不能在线检测金霉素基质浓度,为了改善金霉素发酵控制水平需要对金霉素基质浓度进行软测量建模。
将基质浓度作为主导变量,表1给出了针对关键预测变量金霉素基质浓度所选择的10个辅助变量。
表1 辅助变量说明
如图1所示,具体实施步骤如下:
(1)采集金霉素发酵过程共112批有标记数据,其中,第1-17批有标记批次共278个样本作为初始训练集,第18-112批共1535个有标记样本作为测试集;
(2)数据以流的形式依次到达,设置聚类半径为3、最小密度阈值为15。首先对初始的17批共278个有标记样本依次进行聚类,形成了3个初始微簇;
所述聚类过程具体步骤为:
1)设置聚类参数
(a)半径R:对于任何一组数据,数据样本之间都有距离,根据数据特征选择最合适的聚类半径,此值为最大允许半径;
(b)最小密度阈值M:能够构成一个微簇的最小数据量。当数据之间的距离小于半径且数据量达到最小密度阈值时可以形成一个微簇。
2)聚类:对于每一个到达的样本点X,进行聚类,聚类分为三种情况:归类、新类、离群值。
(a)归类:样本点达到,与已有聚类的聚类中心C.C的欧氏距离小于或等于半径时,此测试样本点将被归类。为了增加类中的数据信息,每个测试样本点可同时归去所有满足条件的已有类中。
(b)新类:样本点X到达,与离群值之间的欧氏距离小于半径R且半径范围内的数据量达到最小密度阈值M时,由离群值和测试样本点形成一个新类,计算类中所有数据的平均距离得到新类的聚类中心C.C,用于后续聚类的更新;
(c)离群值:样本点X到达,当不符合上述两种聚类情况,此样本点被定义为离群值,孤立的存在于空间之中,等待后续的聚类;
采用欧氏距离,计算测试样本点与数据之间的欧氏距离。
其中,xi表示样本点的第i维辅助变量,yi表示聚类中心/离群值的第i维辅助变量。
(3)在初始微簇的基础上,对以流的形式依次到达的在线测试样本点xnew采用在线聚类方法进行聚类,并根据聚类结果的不同采用不同的训练模型进行预测:对聚类成功的样本使用对应类的GPR模型进行预测,对聚类不成功(即离群值)的样本使用即时学习JITGPR模型进行预测,得到测试样本点xnew的预测输出。每一个参与预测后的样本点将变成历史样本点,然后将此样本直实主导变量加入对应类更新数据库,用做后续训练模型的训练集;
所述GPR建模具体过程为:
假设有输入为X、输出为y的数据集其回归模型可以描述为:
其中,n表示数据集中样本的个数,x表示输入向量,y表示输出,f(·)表示未知的回归函数,ε为高斯噪声,服从均值为0、方差为的高斯分布;从函数空间角度来看,一个高斯过程可以由协方差函数C(x,x′)和均值函数m(x)确定,其定义分别表示如下:
因此,高斯过程描述为:
f(x)~GP(m(x),C(x,x'))
通常,对建模数据进行归一化数据预处理,假设训练样本集产生于一个零均值高斯过程,表示如下:
y~GP(0,C)
其中,C是一个n×n阶对称正定的协方差矩阵,0表示零矩阵;
当新的在线测试样本点xnew到来时,所述高斯过程回归模型描述为:
其中,knew=[C(xnew,x1),...,C(xnew,xn))]T,C(xnew,xnew)表示xnew自身的协方差,表示knew的转置,和分别为高斯过程回归的预测均值和方差。
所述即时学习JITGPR建模具体过程为:
通过历史样本构建JITGPR子模型,基于JIT即时学习思想,从历史样本点中挑选与新样本最相似的部分样本作为GPR模型训练集,离群值作为GPR模型的测试样本,得到离群值的预测输出。
根据不同的数据特征,选择最合适的相似度度量方法,对于金霉素实施例,选择协方差加权距离相似度。
表1为使用在线移动窗高斯过程回归模型与本发明的基于数据流聚类的监督学习工业过程在线软测量建模方法ODSCGPR的比较,本发明使用均方根误差RMSE和决定系数R2作为模型的性能评价指标:
式中,Ntest为测试样本数,yi和分别为输出的预测值、实际值和实际值的均值。RMSE越小、R2越大表示模型对基质浓度的预测性能越好。
表2 不同方法对金霉素基质浓度预测结果比较
通过表2可以看出,本发明的基于数据流聚类的监督学习工业过程在线软测量建模方法ODSCGPR的性能优于MWGPR模型。由于数据量较大,图2-图4列出了部分批次数据的预测对比图以及预测散点图。从图2和图3可以看出本发明ODSCGPR方法预测曲线拟合度优于MWGPR模型,预测误差小于MWGPR模型;从图4可以看出,本发明ODSCGPR方法的散点更接近真实值。因此,本发明所提方法可以显著提升金霉素基质浓度的预测精度。
需要说明的是,本发明针对的是流程工业中部分重要参数无法在线检测或在线检测精度不高的问题提出的方法,不仅限于保护实施与某个案例,案例只是举例用于验证本方法的有效性,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于数据流在线聚类分析的工业过程软测量建模方法,其特征在于:包括:
划分步骤,收集实时工业过程标记数据形成样本集,将样本集划分为初始训练集XYtrn以及测试集Xtest;
获得步骤,对以流的形式依次到达的初始训练集XYtrn中的n维辅助变量构建的每个样本点使用在线聚类方法进行聚类,获得m个初始微簇;
预测步骤,在初始微簇的基础上,对以流的形式依次到达的在线测试样本点xnew采用在线聚类方法进行聚类,并根据聚类结果的不同采用不同的训练模型进行预测;
所述在线聚类方法,包括:
S2.1、设置聚类参数;其中,聚类参数包括:聚类半径R和最小密度阈值M;
S2.2、对于每一个到达的样本点X,进行聚类,聚类分为三种情况:归类、新类、离群值;
所述聚类分类过程如下:
如果历史样本点形成了已有聚类,则计算样本点X与已有聚类的每一个聚类中心之间的欧氏距离:如果存在一个聚类中心与X的欧氏距离小于等于聚类半径R,则将样本点X归类至符合判断条件的聚类中心所代表的微簇;如果存在多个聚类中心与样本点X的欧氏距离小于等于聚类半径R,则将X归类至符合判断条件的所有聚类中心所代表的微簇,完成归类;否则,计算样本点X与所有历史离群值之间的欧氏距离:如果欧氏距离小于等于聚类半径R且达到最小密度阈值M,则将满足条件的历史离群值与样本点X形成一个新的微簇并计算微簇的聚类中心,完成新类动作,其它不符合判断条件的,则不做处理,仍为离群值;否则,将到达的样本点作为离群值;其中,聚类中心为微簇中所有样本点的平均值。
2.根据权利要求1所述的基于数据流在线聚类分析的工业过程软测量建模方法,其特征在于:所述初始训练集XYtrn和测试集Xtest中的每个样本均包括真实主导变量和n维辅助变量。
3.根据权利要求1所述的基于数据流在线聚类分析的工业过程软测量建模方法,其特征在于:所述欧氏距离d:
其中,xi表示样本点的第i维辅助变量,yi表示聚类中心/离群值的第i维辅助变量。
4.根据权利要求1所述的基于数据流在线聚类分析的工业过程软测量建模方法,其特征在于:所述预测步骤,具体为:
在初始微簇的基础上,对逐个到达的在线测试样本点xnew的中的n维辅助变量采用在线聚类方法进行聚类,如果聚类的结果为归类或者新类,则采用对应类中所有历史样本点的真实主导变量和n维辅助变量训练GPR模型,采用训练好的GPR模型,对在线测试样本点xnew进行预测,获得预测主导变量;如果聚类的结果为离群值,则采用基于即时学习思想,从带有真实主导变量的历史样本点中挑选与在线测试样本点xnew最相似的部分样本点用于训练GPR模型,采用训练好的GPR模型,对在线测试样本点xnew进行预测,获得预测主导变量。
5.根据权利要求1所述的基于数据流在线聚类分析的工业过程软测量建模方法,其特征在于:所述在线测试样本点xnew采用测试集Xtest构建;或者采用实时采集的工业过程非标记数据构建。
6.根据权利要求4所述的基于数据流在线聚类分析的工业过程软测量建模方法,其特征在于:采用欧氏距离相似度、马氏距离相似度、协方差加权距离相似度、曼哈顿距离相似度或皮尔逊系数相似度作为相似度准则进行最相似的部分的选取。
7.一种基于数据流在线聚类分析的工业过程软测量建模系统,其特征在于:包括:
划分单元,用于收集实时工业过程标记数据形成样本集,将样本集划分为初始训练集XYtrn以及测试集Xtest;
获得单元,用于对以流的形式依次到达的初始训练集XYtrn中的n维辅助变量构建的每个样本点使用在线聚类方法进行聚类,获得m个初始微簇;
预测单元,用于在初始微簇的基础上,对以流的形式依次到达的在线测试样本点xnew采用在线聚类方法进行聚类,并根据聚类结果的不同采用不同的训练模型进行预测;
所述在线聚类方法,包括:
S2.1、设置聚类参数;其中,聚类参数包括:聚类半径R和最小密度阈值M;
S2.2、对于每一个到达的样本点X,进行聚类,聚类分为三种情况:归类、新类、离群值;
所述聚类分类过程如下:
如果历史样本点形成了已有聚类,则计算样本点X与已有聚类的每一个聚类中心之间的欧氏距离:如果存在一个聚类中心与X的欧氏距离小于等于聚类半径R,则将样本点X归类至符合判断条件的聚类中心所代表的微簇;如果存在多个聚类中心与样本点X的欧氏距离小于等于聚类半径R,则将X归类至符合判断条件的所有聚类中心所代表的微簇,完成归类;否则,计算样本点X与所有历史离群值之间的欧氏距离:如果欧氏距离小于等于聚类半径R且达到最小密度阈值M,则将满足条件的历史离群值与样本点X形成一个新的微簇并计算微簇的聚类中心,完成新类动作,其它不符合判断条件的,则不做处理,仍为离群值;否则,将到达的样本点作为离群值;其中,聚类中心为微簇中所有样本点的平均值。
8.一种金霉素基质浓度预测方法,其特征在于:采用权利要求1-6中任一项所述的基于数据流在线聚类分析的工业过程软测量建模方法进行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111662376.5A CN115017671B (zh) | 2021-12-31 | 基于数据流在线聚类分析的工业过程软测量建模方法、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111662376.5A CN115017671B (zh) | 2021-12-31 | 基于数据流在线聚类分析的工业过程软测量建模方法、系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115017671A CN115017671A (zh) | 2022-09-06 |
CN115017671B true CN115017671B (zh) | 2024-07-02 |
Family
ID=
Non-Patent Citations (1)
Title |
---|
面向数据流的在线自适应软测量建模研究;王月晨;《中国优秀硕士学位论文全文数据库工程科技Ⅰ辑》;20240415(第04期);B015-1 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107451101B (zh) | 一种分层集成的高斯过程回归软测量建模对脱丁烷塔底丁烷浓度进行预测的方法 | |
CN107742168B (zh) | 一种基于物联技术的生产车间动态瓶颈预测方法 | |
CN103927412B (zh) | 基于高斯混合模型的即时学习脱丁烷塔软测量建模方法 | |
CN106448151B (zh) | 一种短时交通流预测方法 | |
CN108694502B (zh) | 一种基于XGBoost算法的机器人制造单元自适应调度方法 | |
CN113012766B (zh) | 一种基于在线选择性集成的自适应软测量建模方法 | |
CN109657847A (zh) | 基于粒子群优化支持向量回归的工业生产中故障预测方法 | |
Sallehuddin et al. | Application of grey relational analysis for multivariate time series | |
CN106933105A (zh) | 受限条件下的轨迹更新综合预测迭代学习控制算法 | |
CN113095550A (zh) | 基于变分递归网络和自注意力机制的空气质量预测方法 | |
CN110708318A (zh) | 基于改进的径向基神经网络算法的网络异常流量预测方法 | |
CN110757510B (zh) | 一种机器人剩余寿命预测方法及系统 | |
CN111768000A (zh) | 在线自适应微调深度学习的工业过程数据建模方法 | |
CN112765894B (zh) | 一种基于k-lstm的铝电解槽状态预测方法 | |
CN110598902A (zh) | 一种基于支持向量机与knn相结合的水质预测方法 | |
CN112947300A (zh) | 一种加工质量虚拟量测方法、系统、介质及设备 | |
CN114678080A (zh) | 转炉终点磷含量预测模型及构建方法、磷含量预测方法 | |
CN114239400A (zh) | 基于局部双加权概率隐变量回归模型的多工况过程自适应软测量建模方法 | |
CN111242387A (zh) | 一种人才离职预测方法、装置、电子设备及存储介质 | |
CN112308298A (zh) | 一种面向半导体生产线的多场景性能指标预测方法及系统 | |
CN115860211A (zh) | 一种基于局部在线建模的铸坯质量预测方法 | |
CN111737294A (zh) | 一种基于动态增量集成模糊的数据流分类方法 | |
CN115759552A (zh) | 一种基于多智能体架构的面向智慧工厂的实时调度方法 | |
CN115017671B (zh) | 基于数据流在线聚类分析的工业过程软测量建模方法、系统 | |
CN109359664A (zh) | 自我学习更新训练样本的高效质检模型构建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |