CN112183569A - 基于fda与som的间歇工业过程反应阶段聚类以及故障分类可视化 - Google Patents

基于fda与som的间歇工业过程反应阶段聚类以及故障分类可视化 Download PDF

Info

Publication number
CN112183569A
CN112183569A CN202010287728.2A CN202010287728A CN112183569A CN 112183569 A CN112183569 A CN 112183569A CN 202010287728 A CN202010287728 A CN 202010287728A CN 112183569 A CN112183569 A CN 112183569A
Authority
CN
China
Prior art keywords
data
clustering
reaction
visualization
som
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010287728.2A
Other languages
English (en)
Inventor
姜庆超
黄键
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010287728.2A priority Critical patent/CN112183569A/zh
Publication of CN112183569A publication Critical patent/CN112183569A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于FDA与SOM的间歇工业过程反应阶段聚类以及故障分类可视化的方法。间歇工业过程一般需要经历几个固定的反应阶段,即具有多阶段的特性,准确区分各个反应阶段有助于确认反应过程进度和反应过程是否正常;同时,针对批次过程中可能产生的故障,准确对故障进行识别并确认故障类型对于安全生产至关重要。本方法通过在仿真平台pensim2.0上模拟青霉素的发酵过程获得所需的间歇过程数据,利用线性判别分析(FDA)进行数据的特征提取,通过改进K均值算法预先对反应模态进行聚类,通过自组织映射神经网络(SOM)完成各阶段的聚类结果可视化,同时对于不同的故障批次利用SOM进行分类可视化。

Description

基于FDA与SOM的间歇工业过程反应阶段聚类以及故障分类可 视化
技术领域
本发明涉及一种对间歇工业过程进行反应阶段聚类以及故障分类可视化的方法,主要涉及间歇工业过程的不同阶段聚类与各种故障状态分类的可视化。
背景技术
间歇工业过程在现代工业生产中所占的比重越来越大,其生产过程已广泛的应用于生物制药,化学化工,食品生产以及半导体等行业,通常用于生产具有较高附加值的产品。为了实现间歇工业过程的大规模生产,对间歇工业过程输出的产品质量、操作环境的安全性以及产品的稳定性具有很高的要求,需要对间歇过程进行有效的监督以保证多阶段生产过程和各种质量指标稳定在可接受的范围内。由于间歇工业过程的非线性、时变性以及阶段性等特点,某些关键的生产变量即使发生很小的改变,经过时间和批次双重的累积,也会造成其不断地传播,从而影响批次中产品的质量。因此对间歇工业过程进行有效的监控,对于保障产品质量和过程安全都具有十分重要的意义。
当前对于间歇工业过程普遍采用的在线监控,多采用多元统计分析的方法,例如多向主成分分析法(MPCA)和多向偏最小二乘法(MPLS)等一般传统的统计分析法,基本可以实现对间歇工业过程的监控,但这些方法要求各变量须服从高斯分布,且在进行监控时仅仅用到了系统的二阶统计信息,忽略了变量之间的相关性;多向独立成分分析法(MICA)是一种基于独立成分分析(ICA)对间歇工业过程进行监控的方法,这种方法不需要假设数据服从高斯分布,并且利用了数据的高阶信息,对间歇工业过程也可以实现较好的监控;还有基于神经网络和小波变换等非统计方法用来对间歇工业过程进行过程监控的研究,通过对大量间歇工业过程数据的学习和归纳,实现了较好的监控效果。
通过对间歇工业过程的多阶段特性进行可视化监控,可以对间歇工业过程的运行模态进行清楚地界定,确定各阶段的起止反应点,从而可以进一步实现对各阶段内部状态的监控,为阶段内部的故障检测与识别提供依据;而通过对间歇工业过程的多状态特性进行可视化监控,可以有效对正常状态与各种不同故障状态进行识别,从而及时发现故障批次,确定故障批次的故障类型及故障可能发生位置的定位,并进一步分离故障批次产物,保证产品质量的稳定性。
发明内容
本发明的目的是提供一种针对于间歇工业过程具有的多阶段和多状态特性进行可视化的方法。本发明主要分为两部分,第一部分是对间歇工业过程的模态进行可视化,第二部分是对间歇工业过程的不同状态进行可视化。采用pensim 2.0青霉素发酵过程模拟器产生需要的间歇工业过程数据,对数据进行展开以及标准化,通过线性判别分析(FDA)进行关键变量的特征提取,对于反应阶段的可视化,首先采用K-means算法对数据进行预聚类,并将预聚类结果运用序列分割以确定各阶段分界点,然后输入到SOM网络进行训练、输出,实现模态可视化;对于状态可视化,数据经FDA特征提取后,直接输入SOM网络训练、输出,实现状态可视化。
1.数据采集和预处理
采集间歇工业过程的正常和各故障状态所对应的数据,其数据形式X(I×J×K)是一个三维矩阵,其中I代表批次数,J代表变量个数,K代表采样次数。对于模态可视化的数据矩阵
Figure 393719DEST_PATH_IMAGE001
,首先将数据按照时间片展开,然后进行重新组合,对重新组合后的数据矩阵进行总体标准化;对于状态可视化的数据矩阵
Figure 576439DEST_PATH_IMAGE002
,同样首先将数据按照时间片方式展开,按照求均值预处理后,进行重新组合,然后进行标准化。
2.特征提取
采用线性判别分析(FDA),按照类间离散度最大、类内离散度最小原则,通过构造目标函数
Figure 1
,其中
Figure 423489DEST_PATH_IMAGE004
,对标准化后的模态数据矩阵
Figure 503440DEST_PATH_IMAGE001
和状态数据矩阵
Figure 545477DEST_PATH_IMAGE002
进行特征提取。
3.阶段预聚类
采用改进的K-means算法进行阶段预聚类,指定预先确定的聚类中心个数,采用欧氏距离度量每个样本与指定样本中心的距离并将各样本对应的模态进行归类,重新计算聚类中心,以此迭代,直到类中心位置不变,即
Figure 281352DEST_PATH_IMAGE005
等于零时停止迭代,实现反应阶段预聚类,至此完成了各样本模态的初次标记;
为了减小阶段聚类过程中在阶段交界处数据剧烈波动带来的震荡,运用时间序列分割,依照各状态转移的概率,对阶段交界处的数据作划分,使阶段划分更加清晰。
4.可视化
1)将改进的K-means算法预聚类后的数据输入到SOM网络中,根据预聚类后对各样本的阶段标记进行分段,采用seq训练算法进行学习聚类,将聚类结果投影,实现反应阶段的可视化;
2)对特征提取后的状态数据矩阵
Figure 683514DEST_PATH_IMAGE006
,对其中正常和故障数据进行分类标记,采用seq训练算法进行学习,经分类结果投影,实现各状态的可视化;
5.将测试数据经过数据展开和预处理后,经过特征提取,输入到SOM已经训练好的网络中,实现反应模态和状态的可视化。
方法优势
本方法与其他方法相比,具有以下优点:(1)完全以采集的过程数据为基础,不需要建立精确地数学模型,具有很强的适应和推广性;(2)对数据的处理采用了时间片思想,不仅能体现不同操作批次之间的变化,还考虑了其随时间变化的动态特性;(3)通过采用线性判别分析提取特征,有效降低了数据维度,减小了后续步骤的运算量,节约了建模过程等待时间;(4)通过SOM网络实现了间歇工业过程模态和状态的可视化,在工业生产中操作者可以直观的对间歇生产过程进行监控,及时发现模态异常和故障批次,对提高间歇生产过程的产品质量具有重要意义。
附图说明
图1:青霉素过程图。
图2:K-means预聚类后阶段聚类结果。
图3:序列分割后阶段聚类结果。
图4:SOM网络的阶段聚类训练结果。
图5:SOM网络的阶段聚类测试结果。
图6:SOM网络的状态分类训练结果。
图7:SOM网络的状态分类测试结果。
具体实施方式
本发明通过在pensim2青霉素发酵过程仿真平台获得间歇工业过程所需的过程数据,pensim2仿真平台是由美国伊利诺伊州立理工学院的研发小组所开发的一款青霉素发酵过程的模拟软件,在间歇工业过程的故障监控和识别领域具有广泛的应用。
本发明在pensim2仿真平台上的初始条件和设定值如表1所示,发酵周期为200h,采样周期为1h,引入3个故障变量,分别为:空气流量、搅拌器功率和物料进给速率;引入了阶跃和斜坡两种故障类型。将一个发酵周期的所有数据作为青霉素发酵过程的一个批次,共收集了正常工况和2种故障工况的训练数据100批次,测试数据20批次。
表1青霉素仿真发酵过程的初始条件和设定值
Figure 2
将本发明的方法应用于以上所述的间歇工业过程——青霉素发酵过程包括以下五个步骤。
1.数据展开和预处理
1)对于模态可视化的数据矩阵
Figure 80177DEST_PATH_IMAGE009
,提取20个批次训练数据,将原始数据矩阵
Figure 552616DEST_PATH_IMAGE009
(I×J×K)按照时间片展开成
Figure 758469DEST_PATH_IMAGE009
(I×JK),再将其重新合成为
Figure 485117DEST_PATH_IMAGE009
(IK×J),进行总体标准化;
2)对于状态可视化的数据矩阵
Figure 383803DEST_PATH_IMAGE006
,从100批次的训练数据中随机挑选70个批次,将原始数据矩阵
Figure 891007DEST_PATH_IMAGE006
(I×J×K)按照时间片展开成
Figure 382775DEST_PATH_IMAGE006
(I×KJ),对整体求均值后,再将其重新合成为
Figure 495088DEST_PATH_IMAGE006
(IK×J),进行标准化。
2.特征提取
定义:
总体离散度矩阵:
Figure 33517DEST_PATH_IMAGE010
类内离散度矩阵:
Figure 231280DEST_PATH_IMAGE011
,其中
Figure 575673DEST_PATH_IMAGE012
类间离散度矩阵:
Figure 791760DEST_PATH_IMAGE013
FDA通过对以下目标函数:
Figure 766669DEST_PATH_IMAGE014
其中
Figure 186149DEST_PATH_IMAGE015
,进行最优求解解得最优的分离向量,即类间最大离散度,类内最小离散度。FDA向量也等价于以下广义特征值问题的特征向量:
Figure 537496DEST_PATH_IMAGE016
。本发明通过使用FDA降维算法将预处理后的模态数据矩阵
Figure 155559DEST_PATH_IMAGE009
从16维降至8维,减少了一半的计算量;对预处理后的状态数据矩阵
Figure 317681DEST_PATH_IMAGE006
从从16维降至2维,完成了类间离散度最大,类内离散度最小的目标。
3.阶段预聚类
(1)随机选取的k个聚类中心为
Figure 224458DEST_PATH_IMAGE017
,因为青霉素发酵过程的整个生产周期一般分为三个阶段:细胞指数增长、产物合成和细胞消亡,因此取k=3;
(2)计算每一个样本对应的类:
Figure 848337DEST_PATH_IMAGE018
(3)然后重新计算聚类中心:
Figure 789748DEST_PATH_IMAGE019
,再返回(2);
(4)直到定义的畸变函数:
Figure 621307DEST_PATH_IMAGE020
代表每个样本点到聚类中心的平方和最小,也即聚类中心位置不再改变停止迭代。至此完成了各样本模态的初次标记;
考虑到实际工况下过程的操作条件不会频繁的发生改变,因此过程的模态也不会频繁的跳变,因此为了减小阶段聚类过程中在阶段交界处数据剧烈波动带来的震荡,运用时间序列分割,求出每个时刻三种模态的发生概率,依照各模态发生的概率,认为当只有同一时刻的所有批次数据中,有一半以上的采样点发生模态转移时才认为进入了下一阶段,通过这种方法对阶段交界处的数据作划分,使阶段划分更加清晰。
4.可视化
(1)在开始训练前,对网络连接权重
Figure 15379DEST_PATH_IMAGE021
进行随机初始化,使
Figure 708529DEST_PATH_IMAGE021
赋值为[0 1]内的任意值;
(2)对输入向量
Figure 35605DEST_PATH_IMAGE022
做归一化;
(3)对于网络中竞争层的每一个神经元,计算输入向量
Figure 788797DEST_PATH_IMAGE023
与各个神经元连接权矢量:
Figure 417968DEST_PATH_IMAGE024
之间的相似度,即两者之间的欧氏距离,选取距离最小的作为获胜神经元,竞争层神经元的稳态输出值为
Figure 649229DEST_PATH_IMAGE025
(4)根据邻域半径
Figure 299653DEST_PATH_IMAGE026
确定获胜邻域将要包含的节点数,并根据选择的邻域函数计算邻域内各神经元的更新幅度;
(5)根据公式
Figure 958168DEST_PATH_IMAGE027
更新获胜邻域内神经元的权值
Figure 123570DEST_PATH_IMAGE028
,其中,0<
Figure DEST_PATH_IMAGE029
<1为学习因子,并返回第(2)步,直到满足收敛条件停止迭代,即完成了阶段聚类可视化和状态分类可视化。
5.测试
将测试数据按照相同的数据展开和预处理后,经过特征提取,输入到SOM已经训练好的网络中,实现反应模态和状态的可视化。

Claims (8)

1.对间歇工业过程反应阶段聚类以及故障分类的可视化方法,是结合了改进K均值算法的基于FDA与SOM结合的可视化方法;所述的间歇工业过程的定义是原料以批次的形式输入,生产过程按照预先设定的流程以及相关的工艺参数进行控制,最终产品批量化输出;间歇工业过程没有稳定的工作状态,其工作状态通常是从一个状态变化到另一个状态,因此间歇工业过程往往具备多变量,多状态,非线性,时变性等特点。
2.根据权利要求1所述的间歇工业过程反应阶段聚类以及故障分类的可视化方法,其特征是,采集典型间歇工业过程青霉素发酵过程的过程数据,基于FDA进行特征提取,采用改进的K-means算法进行预聚类,再利用SOM实现对反应阶段聚类以及故障分类可视化的方法。
3.根据权利要求1所述的间歇工业过程反应阶段聚类以及故障分类的可视化方法,其特征是,对于采集到的批次过程数据,其数据结构在分布上是三维的(I×J×K),其中I代表批次数,J代表数据维数,K代表采样次数,将其按照时间片展开成I×(J×K)的形式,经数据预处理后,再重新组合成(I×K)×J的形式,对每一个变量采用该变量所对应的所有数据进行整体标准化。
4.根据权利要求1所述的间歇工业过程反应阶段聚类以及故障分类的可视化方法,其特征是,采用FDA对预处理后的数据进行特征提取,使得特征提取后的数据类间离散度最大,类内离散度最小,同时降低了数据维度。
5.根据权利要求1所述的间歇工业过程反应阶段聚类以及故障分类的可视化方法,其特征是,根据K均值算法随机确定指定个数的聚类中心,并计算每个样本与各个聚类中心的欧式距离,选择最短欧氏距离将样本归类,并重新计算类中心,以此迭代,直到类中心位置不变停止迭代,实现反应阶段预聚类;同时,为了优化阶段聚类过程中阶段交界处数据波动大带来的震荡,运用时间序列分割对阶段交界处的数据作划分,使阶段划分更加清晰。
6.根据权利要求5所述的间歇工业过程反应阶段聚类以及故障分类的可视化方法,其特征是,将K均值算法预聚类的数据输入到SOM网络中进一步进行学习聚类,实现反应阶段的可视化。
7.根据权利要求4所述的间歇工业过程反应阶段聚类以及故障分类的可视化方法,其特征是,将特征提取后的数据进行反映状态标记,输入至SOM网络进行训练,实现反应状态的可视化。
8.根据权利要求1所述的间歇工业过程反应阶段聚类以及故障分类的可视化方法,其特征是,将测试数据经过预处理和特征提取后,输入到训练好的网络中,实现反应阶段聚类以及故障分类的可视化。
CN202010287728.2A 2020-04-13 2020-04-13 基于fda与som的间歇工业过程反应阶段聚类以及故障分类可视化 Pending CN112183569A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010287728.2A CN112183569A (zh) 2020-04-13 2020-04-13 基于fda与som的间歇工业过程反应阶段聚类以及故障分类可视化

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010287728.2A CN112183569A (zh) 2020-04-13 2020-04-13 基于fda与som的间歇工业过程反应阶段聚类以及故障分类可视化

Publications (1)

Publication Number Publication Date
CN112183569A true CN112183569A (zh) 2021-01-05

Family

ID=73918848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010287728.2A Pending CN112183569A (zh) 2020-04-13 2020-04-13 基于fda与som的间歇工业过程反应阶段聚类以及故障分类可视化

Country Status (1)

Country Link
CN (1) CN112183569A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313294A (zh) * 2021-05-19 2021-08-27 国网山东省电力公司淄博供电公司 一种电力系统重要节点、重要输电线路预测算法
CN113311796A (zh) * 2021-06-04 2021-08-27 北京工业大学 基于联合典型变量矩阵的发酵过程阶段划分方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313294A (zh) * 2021-05-19 2021-08-27 国网山东省电力公司淄博供电公司 一种电力系统重要节点、重要输电线路预测算法
CN113311796A (zh) * 2021-06-04 2021-08-27 北京工业大学 基于联合典型变量矩阵的发酵过程阶段划分方法
CN113311796B (zh) * 2021-06-04 2022-04-22 北京工业大学 基于联合典型变量矩阵的发酵过程阶段划分方法

Similar Documents

Publication Publication Date Title
CN107368809B (zh) 一种基于稀疏表示和字典学习的轴承故障分类方法
Yuan-Fu A deep learning model for identification of defect patterns in semiconductor wafer map
CN108875772B (zh) 一种基于堆叠稀疏高斯伯努利受限玻尔兹曼机和强化学习的故障分类模型及方法
CN111638707B (zh) 基于som聚类和mpca的间歇过程故障监测方法
CN112183569A (zh) 基于fda与som的间歇工业过程反应阶段聚类以及故障分类可视化
Kaur et al. Computer vision-based tomato grading and sorting
CN110782546A (zh) 基于组合树模型的半导体pvd制程的电阻率虚拟量测方法
CN111340110A (zh) 一种基于工业过程运行状态趋势分析的故障预警方法
CN110554667A (zh) 基于卷积神经网络(cnn)的间歇工业过程故障诊断
CN109164794A (zh) 基于偏f值selm的多变量工业过程故障分类方法
CN110378035A (zh) 一种基于深度学习的加氢裂化软测量建模方法
Yimyam et al. Agricultural produce grading by computer vision using genetic programming
Song et al. Fault diagnosis and process monitoring using a statistical pattern framework based on a self-organizing map
CN109389313B (zh) 一种基于加权近邻决策的故障分类诊断方法
CN111341390A (zh) 定量构效关系辅助匹配分子对分析方法
CN116361722A (zh) 一种改进线性局部切空间排列模型的多故障分类方法
CN114548295A (zh) 基于多尺度领域自适应网络的轴承故障分类系统及方法
CN108053093A (zh) 一种基于平均影响值数据变换的k-近邻故障诊断方法
CN110647922B (zh) 基于公共和特有特征提取的分层式非高斯过程监测方法
Huang et al. Outlier detection method based on improved two-step clustering algorithm and synthetic hypothesis testing
Guo et al. Batch process monitoring based on multilinear principal component analysis
Wang et al. Multimode process fault detection method based on variable local outlier factor
Bao et al. Integration of digital twin and machine learning for geometric feature online inspection system
Yang et al. Research on the improved apple classification method of AlexNet
CN108596210A (zh) 一种机械部件对接状态的智能识别系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210105