CN112183569A - 基于fda与som的间歇工业过程反应阶段聚类以及故障分类可视化 - Google Patents
基于fda与som的间歇工业过程反应阶段聚类以及故障分类可视化 Download PDFInfo
- Publication number
- CN112183569A CN112183569A CN202010287728.2A CN202010287728A CN112183569A CN 112183569 A CN112183569 A CN 112183569A CN 202010287728 A CN202010287728 A CN 202010287728A CN 112183569 A CN112183569 A CN 112183569A
- Authority
- CN
- China
- Prior art keywords
- data
- clustering
- reaction
- visualization
- som
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 47
- 238000012800 visualization Methods 0.000 title claims abstract description 26
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 43
- 230000008569 process Effects 0.000 claims abstract description 14
- 238000000855 fermentation Methods 0.000 claims abstract description 11
- 230000004151 fermentation Effects 0.000 claims abstract description 11
- 229930182555 Penicillin Natural products 0.000 claims abstract description 10
- JGSARLDLIJGVTE-MBNYWOFBSA-N Penicillin G Chemical compound N([C@H]1[C@H]2SC([C@@H](N2C1=O)C(O)=O)(C)C)C(=O)CC1=CC=CC=C1 JGSARLDLIJGVTE-MBNYWOFBSA-N 0.000 claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 10
- 229940049954 penicillin Drugs 0.000 claims abstract description 10
- 238000010923 batch production Methods 0.000 claims abstract description 4
- 239000006185 dispersion Substances 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 3
- 230000010355 oscillation Effects 0.000 claims 1
- 239000002994 raw material Substances 0.000 claims 1
- 238000007794 visualization technique Methods 0.000 claims 1
- 238000004088 simulation Methods 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000013528 artificial neural network Methods 0.000 abstract description 2
- 238000013507 mapping Methods 0.000 abstract 1
- 239000011159 matrix material Substances 0.000 description 14
- 238000012544 monitoring process Methods 0.000 description 9
- 210000002569 neuron Anatomy 0.000 description 8
- 239000013598 vector Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000012880 independent component analysis Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000009776 industrial production Methods 0.000 description 2
- 230000035939 shock Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于FDA与SOM的间歇工业过程反应阶段聚类以及故障分类可视化的方法。间歇工业过程一般需要经历几个固定的反应阶段,即具有多阶段的特性,准确区分各个反应阶段有助于确认反应过程进度和反应过程是否正常;同时,针对批次过程中可能产生的故障,准确对故障进行识别并确认故障类型对于安全生产至关重要。本方法通过在仿真平台pensim2.0上模拟青霉素的发酵过程获得所需的间歇过程数据,利用线性判别分析(FDA)进行数据的特征提取,通过改进K均值算法预先对反应模态进行聚类,通过自组织映射神经网络(SOM)完成各阶段的聚类结果可视化,同时对于不同的故障批次利用SOM进行分类可视化。
Description
技术领域
本发明涉及一种对间歇工业过程进行反应阶段聚类以及故障分类可视化的方法,主要涉及间歇工业过程的不同阶段聚类与各种故障状态分类的可视化。
背景技术
间歇工业过程在现代工业生产中所占的比重越来越大,其生产过程已广泛的应用于生物制药,化学化工,食品生产以及半导体等行业,通常用于生产具有较高附加值的产品。为了实现间歇工业过程的大规模生产,对间歇工业过程输出的产品质量、操作环境的安全性以及产品的稳定性具有很高的要求,需要对间歇过程进行有效的监督以保证多阶段生产过程和各种质量指标稳定在可接受的范围内。由于间歇工业过程的非线性、时变性以及阶段性等特点,某些关键的生产变量即使发生很小的改变,经过时间和批次双重的累积,也会造成其不断地传播,从而影响批次中产品的质量。因此对间歇工业过程进行有效的监控,对于保障产品质量和过程安全都具有十分重要的意义。
当前对于间歇工业过程普遍采用的在线监控,多采用多元统计分析的方法,例如多向主成分分析法(MPCA)和多向偏最小二乘法(MPLS)等一般传统的统计分析法,基本可以实现对间歇工业过程的监控,但这些方法要求各变量须服从高斯分布,且在进行监控时仅仅用到了系统的二阶统计信息,忽略了变量之间的相关性;多向独立成分分析法(MICA)是一种基于独立成分分析(ICA)对间歇工业过程进行监控的方法,这种方法不需要假设数据服从高斯分布,并且利用了数据的高阶信息,对间歇工业过程也可以实现较好的监控;还有基于神经网络和小波变换等非统计方法用来对间歇工业过程进行过程监控的研究,通过对大量间歇工业过程数据的学习和归纳,实现了较好的监控效果。
通过对间歇工业过程的多阶段特性进行可视化监控,可以对间歇工业过程的运行模态进行清楚地界定,确定各阶段的起止反应点,从而可以进一步实现对各阶段内部状态的监控,为阶段内部的故障检测与识别提供依据;而通过对间歇工业过程的多状态特性进行可视化监控,可以有效对正常状态与各种不同故障状态进行识别,从而及时发现故障批次,确定故障批次的故障类型及故障可能发生位置的定位,并进一步分离故障批次产物,保证产品质量的稳定性。
发明内容
本发明的目的是提供一种针对于间歇工业过程具有的多阶段和多状态特性进行可视化的方法。本发明主要分为两部分,第一部分是对间歇工业过程的模态进行可视化,第二部分是对间歇工业过程的不同状态进行可视化。采用pensim 2.0青霉素发酵过程模拟器产生需要的间歇工业过程数据,对数据进行展开以及标准化,通过线性判别分析(FDA)进行关键变量的特征提取,对于反应阶段的可视化,首先采用K-means算法对数据进行预聚类,并将预聚类结果运用序列分割以确定各阶段分界点,然后输入到SOM网络进行训练、输出,实现模态可视化;对于状态可视化,数据经FDA特征提取后,直接输入SOM网络训练、输出,实现状态可视化。
1.数据采集和预处理
采集间歇工业过程的正常和各故障状态所对应的数据,其数据形式X(I×J×K)是一个三维矩阵,其中I代表批次数,J代表变量个数,K代表采样次数。对于模态可视化的数据矩阵,首先将数据按照时间片展开,然后进行重新组合,对重新组合后的数据矩阵进行总体标准化;对于状态可视化的数据矩阵,同样首先将数据按照时间片方式展开,按照求均值预处理后,进行重新组合,然后进行标准化。
2.特征提取
3.阶段预聚类
采用改进的K-means算法进行阶段预聚类,指定预先确定的聚类中心个数,采用欧氏距离度量每个样本与指定样本中心的距离并将各样本对应的模态进行归类,重新计算聚类中心,以此迭代,直到类中心位置不变,即等于零时停止迭代,实现反应阶段预聚类,至此完成了各样本模态的初次标记;
为了减小阶段聚类过程中在阶段交界处数据剧烈波动带来的震荡,运用时间序列分割,依照各状态转移的概率,对阶段交界处的数据作划分,使阶段划分更加清晰。
4.可视化
1)将改进的K-means算法预聚类后的数据输入到SOM网络中,根据预聚类后对各样本的阶段标记进行分段,采用seq训练算法进行学习聚类,将聚类结果投影,实现反应阶段的可视化;
5.将测试数据经过数据展开和预处理后,经过特征提取,输入到SOM已经训练好的网络中,实现反应模态和状态的可视化。
方法优势
本方法与其他方法相比,具有以下优点:(1)完全以采集的过程数据为基础,不需要建立精确地数学模型,具有很强的适应和推广性;(2)对数据的处理采用了时间片思想,不仅能体现不同操作批次之间的变化,还考虑了其随时间变化的动态特性;(3)通过采用线性判别分析提取特征,有效降低了数据维度,减小了后续步骤的运算量,节约了建模过程等待时间;(4)通过SOM网络实现了间歇工业过程模态和状态的可视化,在工业生产中操作者可以直观的对间歇生产过程进行监控,及时发现模态异常和故障批次,对提高间歇生产过程的产品质量具有重要意义。
附图说明
图1:青霉素过程图。
图2:K-means预聚类后阶段聚类结果。
图3:序列分割后阶段聚类结果。
图4:SOM网络的阶段聚类训练结果。
图5:SOM网络的阶段聚类测试结果。
图6:SOM网络的状态分类训练结果。
图7:SOM网络的状态分类测试结果。
具体实施方式
本发明通过在pensim2青霉素发酵过程仿真平台获得间歇工业过程所需的过程数据,pensim2仿真平台是由美国伊利诺伊州立理工学院的研发小组所开发的一款青霉素发酵过程的模拟软件,在间歇工业过程的故障监控和识别领域具有广泛的应用。
本发明在pensim2仿真平台上的初始条件和设定值如表1所示,发酵周期为200h,采样周期为1h,引入3个故障变量,分别为:空气流量、搅拌器功率和物料进给速率;引入了阶跃和斜坡两种故障类型。将一个发酵周期的所有数据作为青霉素发酵过程的一个批次,共收集了正常工况和2种故障工况的训练数据100批次,测试数据20批次。
表1青霉素仿真发酵过程的初始条件和设定值
将本发明的方法应用于以上所述的间歇工业过程——青霉素发酵过程包括以下五个步骤。
1.数据展开和预处理
2.特征提取
定义:
FDA通过对以下目标函数:
其中,进行最优求解解得最优的分离向量,即类间最大离散度,类内最小离散度。FDA向量也等价于以下广义特征值问题的特征向量:。本发明通过使用FDA降维算法将预处理后的模态数据矩阵从16维降至8维,减少了一半的计算量;对预处理后的状态数据矩阵从从16维降至2维,完成了类间离散度最大,类内离散度最小的目标。
3.阶段预聚类
(4)直到定义的畸变函数:
代表每个样本点到聚类中心的平方和最小,也即聚类中心位置不再改变停止迭代。至此完成了各样本模态的初次标记;
考虑到实际工况下过程的操作条件不会频繁的发生改变,因此过程的模态也不会频繁的跳变,因此为了减小阶段聚类过程中在阶段交界处数据剧烈波动带来的震荡,运用时间序列分割,求出每个时刻三种模态的发生概率,依照各模态发生的概率,认为当只有同一时刻的所有批次数据中,有一半以上的采样点发生模态转移时才认为进入了下一阶段,通过这种方法对阶段交界处的数据作划分,使阶段划分更加清晰。
4.可视化
(5)根据公式
5.测试
将测试数据按照相同的数据展开和预处理后,经过特征提取,输入到SOM已经训练好的网络中,实现反应模态和状态的可视化。
Claims (8)
1.对间歇工业过程反应阶段聚类以及故障分类的可视化方法,是结合了改进K均值算法的基于FDA与SOM结合的可视化方法;所述的间歇工业过程的定义是原料以批次的形式输入,生产过程按照预先设定的流程以及相关的工艺参数进行控制,最终产品批量化输出;间歇工业过程没有稳定的工作状态,其工作状态通常是从一个状态变化到另一个状态,因此间歇工业过程往往具备多变量,多状态,非线性,时变性等特点。
2.根据权利要求1所述的间歇工业过程反应阶段聚类以及故障分类的可视化方法,其特征是,采集典型间歇工业过程青霉素发酵过程的过程数据,基于FDA进行特征提取,采用改进的K-means算法进行预聚类,再利用SOM实现对反应阶段聚类以及故障分类可视化的方法。
3.根据权利要求1所述的间歇工业过程反应阶段聚类以及故障分类的可视化方法,其特征是,对于采集到的批次过程数据,其数据结构在分布上是三维的(I×J×K),其中I代表批次数,J代表数据维数,K代表采样次数,将其按照时间片展开成I×(J×K)的形式,经数据预处理后,再重新组合成(I×K)×J的形式,对每一个变量采用该变量所对应的所有数据进行整体标准化。
4.根据权利要求1所述的间歇工业过程反应阶段聚类以及故障分类的可视化方法,其特征是,采用FDA对预处理后的数据进行特征提取,使得特征提取后的数据类间离散度最大,类内离散度最小,同时降低了数据维度。
5.根据权利要求1所述的间歇工业过程反应阶段聚类以及故障分类的可视化方法,其特征是,根据K均值算法随机确定指定个数的聚类中心,并计算每个样本与各个聚类中心的欧式距离,选择最短欧氏距离将样本归类,并重新计算类中心,以此迭代,直到类中心位置不变停止迭代,实现反应阶段预聚类;同时,为了优化阶段聚类过程中阶段交界处数据波动大带来的震荡,运用时间序列分割对阶段交界处的数据作划分,使阶段划分更加清晰。
6.根据权利要求5所述的间歇工业过程反应阶段聚类以及故障分类的可视化方法,其特征是,将K均值算法预聚类的数据输入到SOM网络中进一步进行学习聚类,实现反应阶段的可视化。
7.根据权利要求4所述的间歇工业过程反应阶段聚类以及故障分类的可视化方法,其特征是,将特征提取后的数据进行反映状态标记,输入至SOM网络进行训练,实现反应状态的可视化。
8.根据权利要求1所述的间歇工业过程反应阶段聚类以及故障分类的可视化方法,其特征是,将测试数据经过预处理和特征提取后,输入到训练好的网络中,实现反应阶段聚类以及故障分类的可视化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010287728.2A CN112183569A (zh) | 2020-04-13 | 2020-04-13 | 基于fda与som的间歇工业过程反应阶段聚类以及故障分类可视化 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010287728.2A CN112183569A (zh) | 2020-04-13 | 2020-04-13 | 基于fda与som的间歇工业过程反应阶段聚类以及故障分类可视化 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112183569A true CN112183569A (zh) | 2021-01-05 |
Family
ID=73918848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010287728.2A Pending CN112183569A (zh) | 2020-04-13 | 2020-04-13 | 基于fda与som的间歇工业过程反应阶段聚类以及故障分类可视化 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112183569A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313294A (zh) * | 2021-05-19 | 2021-08-27 | 国网山东省电力公司淄博供电公司 | 一种电力系统重要节点、重要输电线路预测算法 |
CN113311796A (zh) * | 2021-06-04 | 2021-08-27 | 北京工业大学 | 基于联合典型变量矩阵的发酵过程阶段划分方法 |
-
2020
- 2020-04-13 CN CN202010287728.2A patent/CN112183569A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313294A (zh) * | 2021-05-19 | 2021-08-27 | 国网山东省电力公司淄博供电公司 | 一种电力系统重要节点、重要输电线路预测算法 |
CN113311796A (zh) * | 2021-06-04 | 2021-08-27 | 北京工业大学 | 基于联合典型变量矩阵的发酵过程阶段划分方法 |
CN113311796B (zh) * | 2021-06-04 | 2022-04-22 | 北京工业大学 | 基于联合典型变量矩阵的发酵过程阶段划分方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107368809B (zh) | 一种基于稀疏表示和字典学习的轴承故障分类方法 | |
Yuan-Fu | A deep learning model for identification of defect patterns in semiconductor wafer map | |
CN108875772B (zh) | 一种基于堆叠稀疏高斯伯努利受限玻尔兹曼机和强化学习的故障分类模型及方法 | |
CN111638707B (zh) | 基于som聚类和mpca的间歇过程故障监测方法 | |
CN112183569A (zh) | 基于fda与som的间歇工业过程反应阶段聚类以及故障分类可视化 | |
Kaur et al. | Computer vision-based tomato grading and sorting | |
CN110782546A (zh) | 基于组合树模型的半导体pvd制程的电阻率虚拟量测方法 | |
CN111340110A (zh) | 一种基于工业过程运行状态趋势分析的故障预警方法 | |
CN110554667A (zh) | 基于卷积神经网络(cnn)的间歇工业过程故障诊断 | |
CN109164794A (zh) | 基于偏f值selm的多变量工业过程故障分类方法 | |
CN110378035A (zh) | 一种基于深度学习的加氢裂化软测量建模方法 | |
Yimyam et al. | Agricultural produce grading by computer vision using genetic programming | |
Song et al. | Fault diagnosis and process monitoring using a statistical pattern framework based on a self-organizing map | |
CN109389313B (zh) | 一种基于加权近邻决策的故障分类诊断方法 | |
CN111341390A (zh) | 定量构效关系辅助匹配分子对分析方法 | |
CN116361722A (zh) | 一种改进线性局部切空间排列模型的多故障分类方法 | |
CN114548295A (zh) | 基于多尺度领域自适应网络的轴承故障分类系统及方法 | |
CN108053093A (zh) | 一种基于平均影响值数据变换的k-近邻故障诊断方法 | |
CN110647922B (zh) | 基于公共和特有特征提取的分层式非高斯过程监测方法 | |
Huang et al. | Outlier detection method based on improved two-step clustering algorithm and synthetic hypothesis testing | |
Guo et al. | Batch process monitoring based on multilinear principal component analysis | |
Wang et al. | Multimode process fault detection method based on variable local outlier factor | |
Bao et al. | Integration of digital twin and machine learning for geometric feature online inspection system | |
Yang et al. | Research on the improved apple classification method of AlexNet | |
CN108596210A (zh) | 一种机械部件对接状态的智能识别系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210105 |