CN106547899B - 一种基于多尺度时变聚类中心变化的间歇过程时段划分的方法 - Google Patents

一种基于多尺度时变聚类中心变化的间歇过程时段划分的方法 Download PDF

Info

Publication number
CN106547899B
CN106547899B CN201610976112.XA CN201610976112A CN106547899B CN 106547899 B CN106547899 B CN 106547899B CN 201610976112 A CN201610976112 A CN 201610976112A CN 106547899 B CN106547899 B CN 106547899B
Authority
CN
China
Prior art keywords
time
data
batch
varying
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610976112.XA
Other languages
English (en)
Other versions
CN106547899A (zh
Inventor
王建林
刘伟旻
于涛
赵利强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Chemical Technology
Original Assignee
Beijing University of Chemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Chemical Technology filed Critical Beijing University of Chemical Technology
Priority to CN201610976112.XA priority Critical patent/CN106547899B/zh
Publication of CN106547899A publication Critical patent/CN106547899A/zh
Application granted granted Critical
Publication of CN106547899B publication Critical patent/CN106547899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Automation & Control Theory (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多尺度时变聚类中心变化的间歇过程时段划分的方法,属于间歇过程监测技术领域。该方法首先对每批次间歇过程的二维数据按照变量方向标准化,去除量纲的影响;然后设置间歇过程的所有数据均划分为同一类,同时引入分类尺度辅助因子,用以调节聚类中心的差异程度,求得各个数据点的整体聚类中心;最后从数据最初时刻开始,逐个添加数据点作为新的数据集,迭代计算数据点聚类中心,通过多次比较时变的聚类中心与整体聚类中心的差异,进而实现间歇过程各批次时变聚类划分。本方法避免了人为设定聚类个数与聚类中心对聚类结果的影响,能够从时变的尺度上实现聚类划分,从而提高了间歇过程时段划分精度。

Description

一种基于多尺度时变聚类中心变化的间歇过程时段划分的 方法
技术领域
本发明属于间歇过程监测技术领域,尤其涉及一种多尺度时变聚类中心变化的间歇过程时段划分的方法。
背景技术
间歇过程是精细化工、生物制药、食品、微电子等行业的主要生产方式,广泛应用于医药、生物制品、半导体器件等高附加值产品的生产中。
间歇过程中随着操作进程变化或过程机理特性变化,发生过程变量相关性的改变,在时间上呈现多时段特性,每个时段具有不同的过程变量轨迹、运行模式等,对间歇过程进行多时段划分能够提高过程批次数据分段建模的精度及过程监测性能。
针对间歇过程时段划分,模糊聚类方法无需先验知识,能够很好地实现非时变数据集合的划分,然而,由于间歇过程具有时变多时段特性,现有的聚类分析方法仅从过程数据整体结构特征划分数据类别,并没有从时间尺度上考虑间歇过程时段划分。因此,难以获得准确的间歇过程时段划分,而且,模糊聚类算法需要人为设定聚类的个数与中心点,无法保证最终迭代结果为最优聚类。
发明内容
本发明针对未监督的间歇过程的单批次数据,设定所有间歇过程数据均划分为同一类,在求解聚类结果的收敛目标函数基础上,引入分类尺度辅助因子,根据过程数据样本情况调节样本细分程度,迭代求解获得数据聚类中心,最后通过对比时变聚类中心与全局聚类中心的差异程度,进而获得每批次的时段划分。本方法避免了人为设定聚类个数与聚类中心对聚类结果的影响,能够从时变的尺度上获得最优时段划分结果,提高了间歇过程多时段划分精度。
一种基于多尺度时变聚类中心变化的间歇过程时段划分的方法,包括以下步骤:
步骤一:从间歇过程的历史批次数据集
Figure GDA0002069011270000011
中提取每个批次数据Xi(J×K),并分别对每个批次数据进行变量方向上的标准化,得到标准化数据
Figure GDA0002069011270000012
K为每个批次的采样点个数,J为变量个数,I为批次的数目,i为批次序号;
步骤二:选择标准化后的间歇过程历史批次数据
Figure GDA0002069011270000021
迭代计算多尺度时变聚类的目标函数使其收敛,获得其每个时间点k的全局聚类中心
Figure GDA0002069011270000022
k为采样时刻序号;
步骤三:基于标准化后的间歇过程历史批次数据
Figure GDA0002069011270000023
对模糊指数、分类尺度辅助因子和迭代次数进行参数分析并选择最优参数;
步骤四:针对标准化后的间歇过程历史批次数据
Figure GDA0002069011270000024
从数据集最初时刻开始,按照时间发展逐次添加数据点,建立一个时变数据集,并逐次计算更新数据集的聚类中心Vk
步骤五:对于k时刻,对比步骤四所计算出的聚类中心Vk和步骤二所计算出来的全局聚类中心
Figure GDA0002069011270000025
若同时满足
Figure GDA0002069011270000026
α为最优分段尺度,则将该批次k时刻之前的数据点划分为一个时段,并清空时变数据集,从k时刻开始,重新添加标准化后的历史批次数据
Figure GDA0002069011270000027
第k时刻后的数据点,重复步骤三和步骤四,最终获得该批次的整体时段划分。
所述步骤二,具体包括:
针对标准化后的间歇过程历史批次数据
Figure GDA0002069011270000028
多尺度时变聚类的目标函数为
Figure GDA0002069011270000029
式中,dk=||xk-vk||,||·||为L2范式,m为模糊指数,V=[v1,v2,…,vk]为每一数据点的聚类中心集合,U=[u1,u2,…,uk]为每一数据点隶属于vk中心的隶属度集合。利用拉格朗日函数求解聚类目标函数
Figure GDA00020690112700000210
可得聚类中心函数与隶属度求解式
Figure GDA0002069011270000031
Figure GDA0002069011270000032
设定分类尺度辅助因子η,以每个时刻的样本点xk作为聚类中心初始迭代点,利用上述式(1-3)和(1-4)进行迭代计算直到收敛,获得该样本点的全局聚类中心
Figure GDA0002069011270000033
所述步骤三,具体包括:
(1)针对标准化后的间歇过程历史批次数据
Figure GDA0002069011270000034
设定分类尺度辅助因子η=0,迭代次数变化范围[1,2,…,20],模糊指数m变化范围[1,2,3,4],通过计算聚类中心的均值与方差,求得聚类结果收敛与迭代次数的关系,从而获得最优迭代次数结果。
(2)针对标准化后的间歇过程历史批次数据
Figure GDA0002069011270000035
设定分类尺度辅助因子ηk取值情况[0.01,0.1,1,5,100],选择步骤1中较优迭代次数,模糊指数m变化范围1~10,求得变异系数(Coefficient of Variation,CV)与分类尺度辅助因子η的关系。
所述步骤四,具体包括:
针对标准化后的间歇过程历史批次数据
Figure GDA0002069011270000036
使用式(1-3)和(1-4)迭代计算出每个样本点的全局聚类中心,建立时变数据集
Figure GDA0002069011270000037
逐次添加k时刻的样本点
Figure GDA0002069011270000038
合成新的数据集
Figure GDA0002069011270000039
迭代计算时变数据集
Figure GDA00020690112700000310
的聚类中心Vk
所述步骤五,具体包括:
逐次对比全局聚类中心
Figure GDA00020690112700000311
与时变数据集聚类中心Vk,若同时满足
Figure GDA0002069011270000041
则将该批次k时刻之前的样本点划分为一个时段,并清空时变数据集,从k时刻开始,重新逐次添加标准化后的历史批次数据
Figure GDA0002069011270000042
第k时刻后的数据点作为新的时变数据集,并计算时变聚类中心。
针对所有间歇过程历史批次数据,设置较优迭代次数、模糊指数和分类尺度辅助因子η,设定分段尺度α变化范围和变化间隔,获得所有批次的单独时段划分情况,判断分段数一样的情况下,若α变化区间较大,则选择此α区间的均值作为最优分段尺度,且确定最优时段划分。
本发明的优点:针对实际间歇过程数据集,根据样本情况调节聚类细分程度,能够获得适当的分类尺度辅助因子与分段尺度因子,进而迭代训练获得最优的时变聚类时段划分结果,提高了对间歇过程多时段划分精度,同时也提高了时段划分过程抗噪性能,且计算过程简单、稳定。
附图说明
图1是本发明所述的一种基于多尺度时变聚类中心变化的间歇过程时段划分方法的流程图;
图2是本发明所述步骤三(1)中,在不同迭代次数和模糊指数情况下,聚类中心的均值和标准差对比图;
图3、4和5是本发明所述步骤三(2)中,在不同的分类尺度辅助因子和模糊指数情况下,聚类中心的变异系数、均值和标准差对比图;
图6是在不同分段尺度情况下,20个训练批次的分段结果图。
具体实施方式
下面结合实例及附图对本发明作进一步的描述,需要说明的是,实施例并不限定本发明要求保护的范围。
实施例
利用青霉素发酵过程仿真平台(PenSimv2.0)生成实验数据,用于生成初始值各有不同的批次训练样本数据
Figure GDA0002069011270000043
批次数目为I=20,每批次持续时间K=400小时,从多个变量中选择J=10个分段的关键变量如表1所示,并分别对各个批次数据进行变量方向上的标准化,得到标准化数据
Figure GDA0002069011270000051
用作时段划分批次。
选择20个训练批次中的一个批次数据,根据公式(1-3)和(1-4),设定分类尺度辅助因子η=0,迭代次数变化范围[1,2,…,20],模糊指数m变化范围[1,2,3,4],计算该批次的全局聚类中心点,并相应计算聚类中心的均值与方差,如图2所示,当迭代次数到达20时,聚类中心的均值与方差趋于稳定,能够获得相对稳定的聚类中心点。
表1间歇过程关键变量
Figure GDA0002069011270000052
选择一个批次数据,设定分类尺度辅助因子η变化范围[0.01,0.1,1,5,100],选择步骤1中较优迭代次数,模糊指数m变化范围[1,2,…,10],通过对比聚类中心的变异系数(Coefficient of Variation,CV),均值和方差的变化情况,如图3、4和5所示,当模糊指数m>3时,均值的增长率开始降低,但是标准差值继续增长,导致变异系数继续增大,因此,较大的模糊指数容易导致聚类结果更具不确定性,在不失模糊性情况下,选择模糊指数m=2;同时可以看出,当分类尺度辅助因子η越大,所有样本点的聚类中心差异越小,分类尺度辅助因子η越小,聚类中心差异越大,当模糊指数m=2,分类尺度辅助因子ηk=1时,变异系数(Coefficient of Variation,CV)达到最小,能够在避免错分的情况下区分样本聚类中心。
针对20个训练批次数据,设置迭代次数为20、模糊指数m=2和分类尺度辅助因子η=1,设定分段尺度α变化范围为[1,1.01,…,1.60],获得20个批次的时段划分结果,如图6所示,判断分段数一样的情况下,若α变化区间较大,则选择此α区间的均值作为最优分段尺度,且确定最优时段划分情况,如表2所示,确定最优分段数为3及每批次最优α=1.35,获得的分段区间如表4所示。
表3不同分段尺度α
Figure GDA0002069011270000061
表4 20个历史批次数据分段情况
Figure GDA0002069011270000062

Claims (5)

1.一种基于多尺度时变聚类中心变化的间歇过程时段划分的方法,其特征在于:该方法包括以下步骤,
步骤一:从间歇过程的历史批次数据集
Figure FDA0002408573680000011
中提取每个批次数据Xi(J×K),并分别对每个批次数据进行变量方向上的标准化,得到标准化数据
Figure FDA0002408573680000012
K为每个批次的采样点个数,J为变量个数,I为批次的数目,i为批次序号;
步骤二:选择标准化后的间歇过程历史批次数据
Figure FDA0002408573680000013
迭代计算多尺度时变聚类的目标函数使其收敛,获得其每个时间点k的全局聚类中心
Figure FDA0002408573680000014
k为采样时刻序号;
步骤三:基于标准化后的间歇过程历史批次数据
Figure FDA0002408573680000015
对模糊指数、分类尺度辅助因子和迭代次数进行参数分析并选择最优参数;
步骤四:针对标准化后的间歇过程历史批次数据
Figure FDA0002408573680000016
从数据集最初时刻开始,按照时间发展逐次添加数据点,建立一个时变数据集,并逐次计算更新数据集的聚类中心Vk
步骤五:对于k时刻,对比步骤四所计算出的聚类中心Vk和步骤二所计算出来的全局聚类中心
Figure FDA0002408573680000017
若同时满足
Figure FDA0002408573680000018
α为最优分段尺度,则将该批次k时刻之前的数据点划分为一个时段,并清空时变数据集,从k时刻开始,重新添加标准化后的历史批次数据
Figure FDA0002408573680000019
第k时刻后的数据点,重复步骤三和步骤四,最终获得该批次的整体时段划分。
2.根据权利要求1所述的一种基于多尺度时变聚类中心变化的间歇过程时段划分的方法,其特征在于:所述步骤二,具体包括:
针对标准化后的间歇过程历史批次数据
Figure FDA00024085736800000110
多尺度时变聚类的目标函数为
Figure FDA00024085736800000111
式中,dk=||xk-vk||,||·||为L2范式,m为模糊指数,V=[v1,v2,…,vk]为每一数据点的聚类中心集合,U=[u1,u2,…,uk]为每一数据点隶属于vk中心的隶属度集合;利用拉格朗日函数求解聚类目标函数
Figure FDA0002408573680000021
可得聚类中心函数与隶属度求解式
Figure FDA0002408573680000022
Figure FDA0002408573680000023
设定分类尺度辅助因子η,以每个时刻的样本点xk作为聚类中心初始迭代点,利用上述式(1-3)和(1-4)进行迭代计算直到收敛,获得该样本点的全局聚类中心
Figure FDA0002408573680000024
3.根据权利要求1所述的一种基于多尺度时变聚类中心变化的间歇过程时段划分的方法,其特征在于:所述步骤三,具体包括:
(1)针对标准化后的间歇过程历史批次数据
Figure FDA0002408573680000025
设定分类尺度辅助因子η=0,迭代次数变化范围[1,2,…,20],模糊指数m变化范围[1,2,3,4],通过计算聚类中心的均值与方差,求得聚类结果收敛与迭代次数的关系,从而获得最优迭代次数结果;
(2)针对标准化后的间歇过程历史批次数据
Figure FDA0002408573680000026
设定分类尺度辅助因子ηk取值情况[0.01,0.1,1,5,100],选择步骤1中较优迭代次数,模糊指数m变化范围1~10,求得变异系数(Coefficient of Variation,CV)与分类尺度辅助因子η的关系。
4.根据权利要求2所述的一种基于多尺度时变聚类中心变化的间歇过程时段划分的方法,其特征在于:所述步骤四,具体包括:
针对标准化后的间歇过程历史批次数据
Figure FDA0002408573680000031
使用式(1-3)和(1-4)迭代计算出每个样本点的全局聚类中心,建立时变数据集
Figure FDA0002408573680000032
逐次添加k时刻的样本点
Figure FDA0002408573680000033
合成新的数据集
Figure FDA0002408573680000034
迭代计算时变数据集
Figure FDA0002408573680000035
的聚类中心Vk
5.根据权利要求1所述的一种基于多尺度时变聚类中心变化的间歇过程时段划分的方法,其特征在于:所述步骤五,具体包括:
逐次对比全局聚类中心与时变数据集聚类中心Vk,若同时满足
Figure FDA0002408573680000037
则将该批次k时刻之前的样本点划分为一个时段,并清空时变数据集,从k时刻开始,重新逐次添加标准化后的历史批次数据
Figure FDA0002408573680000038
第k时刻后的数据点作为新的时变数据集,并计算时变聚类中心;
针对所有间歇过程历史批次数据,设置较优迭代次数、模糊指数和分类尺度辅助因子η,设定分段尺度α变化范围和变化间隔,获得所有批次的单独时段划分情况,判断分段数一样的情况下,若α变化区间较大,则选择此α区间的均值作为最优分段尺度,且确定最优时段划分。
CN201610976112.XA 2016-11-07 2016-11-07 一种基于多尺度时变聚类中心变化的间歇过程时段划分的方法 Active CN106547899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610976112.XA CN106547899B (zh) 2016-11-07 2016-11-07 一种基于多尺度时变聚类中心变化的间歇过程时段划分的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610976112.XA CN106547899B (zh) 2016-11-07 2016-11-07 一种基于多尺度时变聚类中心变化的间歇过程时段划分的方法

Publications (2)

Publication Number Publication Date
CN106547899A CN106547899A (zh) 2017-03-29
CN106547899B true CN106547899B (zh) 2020-05-19

Family

ID=58394230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610976112.XA Active CN106547899B (zh) 2016-11-07 2016-11-07 一种基于多尺度时变聚类中心变化的间歇过程时段划分的方法

Country Status (1)

Country Link
CN (1) CN106547899B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109254531B (zh) * 2017-11-29 2021-10-22 辽宁石油化工大学 具有时滞和干扰的多阶段间歇过程的最优成本控制方法
CN109754010B (zh) * 2018-12-29 2021-04-02 北京化工大学 一种时序约束模糊聚类的间歇过程多模态划分方法
CN112508320B (zh) * 2020-09-21 2024-05-24 浙江大学 一种批生产的自动过程阶段划分工作流
CN112800253B (zh) * 2021-04-09 2021-07-06 腾讯科技(深圳)有限公司 数据聚类方法、相关设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102431136A (zh) * 2011-09-16 2012-05-02 广州市香港科大霍英东研究院 一种基于多向主元分析法的多阶段批次过程阶段划分方法
CN104679844A (zh) * 2015-02-13 2015-06-03 电子科技大学 基于改进dtw算法的间歇过程批次数据同步方法
WO2015130262A1 (en) * 2014-02-25 2015-09-03 Hewlett-Packard Development Company, L.P. Multiple pools in a multi-core system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102431136A (zh) * 2011-09-16 2012-05-02 广州市香港科大霍英东研究院 一种基于多向主元分析法的多阶段批次过程阶段划分方法
WO2015130262A1 (en) * 2014-02-25 2015-09-03 Hewlett-Packard Development Company, L.P. Multiple pools in a multi-core system
CN104679844A (zh) * 2015-02-13 2015-06-03 电子科技大学 基于改进dtw算法的间歇过程批次数据同步方法

Also Published As

Publication number Publication date
CN106547899A (zh) 2017-03-29

Similar Documents

Publication Publication Date Title
CN106547899B (zh) 一种基于多尺度时变聚类中心变化的间歇过程时段划分的方法
Cannoodt et al. Computational methods for trajectory inference from single‐cell transcriptomics
CN108647272B (zh) 一种基于数据分布的小样本扩充对脱丁烷塔底丁烷浓度进行预测的方法
CN108920863B (zh) 一种机器人伺服系统能耗估计模型的建立方法
CN104914723B (zh) 基于协同训练偏最小二乘模型的工业过程软测量建模方法
CN109472088B (zh) 一种页岩气调产井生产压力动态预测方法
CN110516818A (zh) 一种基于集成学习技术的高维度数据预测方法
CN111638707B (zh) 基于som聚类和mpca的间歇过程故障监测方法
CN113031553B (zh) 一种基于自动聚类结合偏最小二乘的间歇过程质量预测方法
CN110020680B (zh) 一种基于随机矩阵理论和模糊c均值聚类算法的pmu数据分类方法
CN112668104A (zh) 一种高超声速飞行器气动参数在线辨识方法
CN103226728B (zh) 高密度聚乙烯串级聚合反应过程智能检测与收率优化方法
CN109145421B (zh) 一种应用于分布参数系统的时空模糊建模方法
CN109086686B (zh) 基于自适应动量因子的时变信道下的盲源分离方法
CN111079856A (zh) 一种基于csjitl-rvm的多时段间歇过程软测量建模方法
CN110084301B (zh) 一种基于隐马尔可夫模型的多工况过程工况辨识方法
CN108537249B (zh) 一种密度峰值聚类的工业过程数据聚类方法
CN110619176A (zh) 一种基于dbn-rlssvm的航煤闪点预测方法
CN115017671B (zh) 基于数据流在线聚类分析的工业过程软测量建模方法、系统
CN104298213A (zh) 一种基于参考批次的指数时变增益型迭代学习控制算法
CN111160464B (zh) 基于多隐层加权动态模型的工业高阶动态过程软测量方法
CN112508320B (zh) 一种批生产的自动过程阶段划分工作流
CN109754010B (zh) 一种时序约束模糊聚类的间歇过程多模态划分方法
CN109613618A (zh) 一种重力敏感器的长期漂移误差补偿方法
CN112069592B (zh) 一种航天器外弹道跟踪测速数据特征点识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant