CN108805202B - 一种用于电解槽故障预警的机器学习方法及其应用 - Google Patents

一种用于电解槽故障预警的机器学习方法及其应用 Download PDF

Info

Publication number
CN108805202B
CN108805202B CN201810592263.4A CN201810592263A CN108805202B CN 108805202 B CN108805202 B CN 108805202B CN 201810592263 A CN201810592263 A CN 201810592263A CN 108805202 B CN108805202 B CN 108805202B
Authority
CN
China
Prior art keywords
fault
model
sequence data
data
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810592263.4A
Other languages
English (en)
Other versions
CN108805202A (zh
Inventor
沈佳杰
王彦婷
邱振鲁
陈宜川
韩彩亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai New Hope Data Technology Co ltd
Original Assignee
Shanghai New Hope Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai New Hope Data Technology Co ltd filed Critical Shanghai New Hope Data Technology Co ltd
Priority to CN201810592263.4A priority Critical patent/CN108805202B/zh
Publication of CN108805202A publication Critical patent/CN108805202A/zh
Application granted granted Critical
Publication of CN108805202B publication Critical patent/CN108805202B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Abstract

本文提供了一种用于电解槽故障预警的机器学习方法,用于对电解槽故障建立预判模型,主要过程包括:提取检测点序列数据、数据预处理、训练数据集输入GMM聚类模型、定义异常判别规则、优化判别参数、改进GMM聚类模型、训练模型拟合效果评估,还提供了一种用于电解槽故障预警的机器学习方法的应用,主要过程包括:提取检测点新序列数据、数据预处理、时间序列预测、训练模型预警故障判断。本发明能有效降低传统条件值报警对操作人员的麻痹,替代有经验的操作人员判断故障,避免人为因素的判断错误。

Description

一种用于电解槽故障预警的机器学习方法及其应用
技术领域
本发明涉及机器学习的聚类、预测的方法技术领域,具体涉及电解槽设备运行参数故障预警的机器学习方法及其应用,适用于运行参数可自动采集、自动传输的电解槽设备。
背景技术
目前在生产设备的维护上,大部分企业还停留在设备的预防性维护上,耗费大量人力物力,而且一旦发现,问题已经产生,造成连锁停车,给生产带来极大损失。然而现代化工企业生产,已经实现生产数据计量自动化,生产、消耗数据可以通过传感设备传输到DCS系统,过程中的操作数据(流量、压力、温度)等也可以做到实时传输与监控。但单个操作数据偶尔超过阈值,并不必然会对设备造成损失,过多的这种误报警容易让操作人员麻痹,因此,有效利用DCS系统数据,通过分析数据序列自身的分布规律、数据间的相关关系,在故障发生之前,就设备的运行参数的异常,预知设备即将出现的问题,具有极大意义。
大数据机器学习,是利用统计学方法理论,利用训练样本的信息,涉及一套算法模型,去学习并评估模型的拟合优度,通过参数调优,不断提高模型的拟合效果,训练好的算法模型,可以应用到新的样本数据中。机器学习方法,包括聚类、分类、预测和关联分析等大类。
高斯混合模型(GMM)是一种无监督学习的聚类方法,由k个高斯分布叠加而成,这些高斯分布的概率密度线性加成在一起,就组成了GMM的概率密度函数:
Figure BDA0001690953630000021
其中,αk是系数,
Figure BDA0001690953630000022
Figure BDA0001690953630000023
是高斯分布密度,
Figure BDA0001690953630000024
Figure BDA0001690953630000025
称为第k个分模型。模型求解中,参数(高斯分布的叠加系数αk、以及每个高斯分布的参数(均值μk,方差
Figure BDA0001690953630000026
),设定给定初始值,然后利用EM算法求解参数的最优解,最后模型输出每个样本点归属各个类的概率,可用拟合模型估计数据集各样本点的概率,作为我们判别异常点的依据。
自回归移动平均模型(ARIMA)是常见的一种用来做时间序列预测的方法。将预测对象随时间推移而形成的数据序列,视为一个随机序列,用数学模型来近似描述这个序列。根据原序列是否平稳以及回归中所含部分的不同,包括自回归过程(AR)、移动平均过程(MA)、自回归移动平均过程(ARMA)以及ARIMA过程。如果模型的拟合效果较好,就可以用拟合的模型预测数据将来的走势。
发明内容
本文提出了一种在电解槽运行过程中,提前预知故障发生的方法。可以从电解槽运行的历史数据中,基于维修工人的经验记录,学习出发生过故障时运行序列数据的特征规律,得到故障预警的训练模型。在线实施时,由最近一段时间的运行序列数据,预测电解槽即将产生的运行序列数据,然后根据训练模型的知识经验,对电解槽是否即将出现故障进行预警,有效降低传统条件值报警对操作人员的麻痹,替代有经验的操作人员判断故障,避免人为因素的判断错误。
为了达到上述目的,本发明采用以下技术方案:一种用于电解槽故障预警的机器学习方法,是通过从电解槽检测点采集以时间为序列的各电解工艺参数时间序列数据训练GMM聚类改进模型和异常判断规则,将预测的时间序列数据输入GMM聚类改进模型和异常判断规则,进行故障预警,所述训练GMM聚类改进模型的过程包括以下步骤,
S01.从电解槽检测点采集以时间为序列的各电解工艺参数时间序列数据,构建训练集数据库,并计算训练集数据库中每个时间序列的置信区间,抽取位于对应置信区间外的时间序列数据,即出现概率分布在
Figure BDA0001690953630000031
之外,y为任一个时间序列,μy为时间序列的均值,σy为时间序列的标准差,
Figure BDA0001690953630000032
为任意给定的标准分数,分别作为置信分布预测故障点;
S02.根据电解槽运行日志,为序列数据库内的数据逐条附上故障标签值,统计不同故障标签值所对应的时间序列数据点个数;
S03.通过z-score标准化算法对训练集数据库内的时间序列数据进行无量纲化处理,得标准化训练集数据库,检测标准化数据库中各时间序列数据是否线性相关,若是,则对线性相关的各时间序列数据进行主成分降维,使标准化数据库中各时间序列数据相互独立,得训练集标准数据库;
S04.将步骤S03中训练集标准数据库输入GMM聚类模型,设置初始类别参数第k个分布权重αk、第k个分布均值μk、第k个分布标准差
Figure BDA0001690953630000033
k表示分布的数量,利用EM算法求解训练集标准数据库中每个时间序列数据点归属的类别,及每个时间序列数据点归属各类别的概率,统计每个类别内时间序列数据点数Sk,记录时间序列数据归属各类别的最大概率Pmax,若某个类别的样本特别少,即Sk小于阈值
Figure BDA0001690953630000041
Figure BDA0001690953630000042
为任意给定的初始值,则抽取对应类别内的时间序列数据,分别作为类别规模预测故障点;若Pmax小于阈值
Figure BDA0001690953630000043
则抽取对应的时间序列数据点,作为概率预测故障点;
S05.汇总置信分布预测故障点、类别规模预测故障点、概率预测故障点作为模型预测故障点数,用于计算模型预测的故障点总数和非故障点总数,结合不同故障标签值对应的时间序列数据点数,建立混淆矩阵的F1评价函数:
tp=sum(模型预测=0&日志记录=0)
fp=sum(模型预测=0&日志记录=1)
tn=sum(模型预测=1&日志记录=1)
fn=sum(模型预测=1&日志记录=0)
精确率:P=tp/(tp+fp)
真阳率/召回率:TPR=R=tp/(tp+fn)
假阳率:FPR=fp/(tp+fn)
F1=P*R/(P+R)
利用遗传算法,输入初始参数
Figure BDA0001690953630000044
求出当F1评价函数达到最大时,故障预测模型的判别参数m1,m2,Pg,得到GMM聚类改进模型和异常判断规则,sum()表示合计函数;
S06.计算GMM聚类改进模型拟合优度的评价指标:ROC曲线和AUC值,判断GMM聚类改进模型拟合的准确率,当GMM聚类改进模型拟合优度的评价指标中ROC曲线接近左上角,AUC值为0.83,模型通过评估。
进一步地,所述异常判别规则包括以下规则:
W01.当任何一个预测时间序列数据在置信区间μy±m1y之外,判断对应的预测时间序列数据为故障点;
W02.当GMM聚类改进模型中,某个类别内数据点数小于m2,且任何一个预测时间序列数据分布在该类别中,判断对应的预测时间序列数据为故障点;
W03.当任何一个预测时间序列数据归属GMM聚类改进模型中类别的最大概率小于Pg,判断对应的预测时间序列数据为故障点;
W04.当任何一个预测时间序列数据归属GMM聚类改进模型中类别的最大概率小于该类别中任一时间序列数据的概率,判断对应的预测时间序列数据为故障点。
由上地,所述步骤S01中电解槽检测点包括:电解槽阴阳室压差、电解槽前后端电压差、阳极循环流量、阴极循环流量、补充盐水流量、阴极纯水流量、碱液密度计、阴极液循环槽碱液温度、氯气总管压力、氢气总管压力、氯气/氢气总管压力差;所述时间序列数据为上一个月整月从各检测点按单位时间为每分钟采集的时间序列数据,所述时间序列数据还经过缺失值向上填补处理。
由上地,所述步骤S02还包括为所述序列数据库内的数据逐条赋予故障标签值的方法,包括以下步骤:
T01.若电解槽运行日志中检测点运行正常,则该检测点对应时间采集的该电解工艺参数时间序列数据被赋予故障标签值1;
T02.若电解槽运行日志中检测点运行故障,则该检测点对应时间采集的该电解工艺参数时间序列数据被赋予故障标签值0。
优选地,所述步骤S03中z-score标准化算法为:
Z=(x-μy)/σy
其中,x为原始时间序列数据的某一个数据,μy为时间序列数据均值,σy为时间序列数据标准差。从而消除各检测点数据序列量纲差异,获得标准化序列数据。
优选地,所述步骤S04还包括为训练集标准数据库构建GMM聚类模型的方法,包括以下步骤:
R01.根据各检测点采集的电解工艺参数经验值,设置GMM聚类模型初始参数αk、μk
Figure BDA0001690953630000061
其中αk表示第k个分布的权重,μk表示第k个分布的均值,
Figure BDA0001690953630000062
表示第k个分布的方差,k表示分布的数量;
R02.将步骤S03中训练集标准数据库输入步骤R01中的GMM聚类模型,利用贝叶斯公式,求出各时间序列数据点yj分别取自高斯分布(z1,z2,…,zk)的概率值,其中zk表示第k个高斯分布;
R03.对R02步骤计算的概率值,作对数变换,用极大似然估计的方法优化步骤R01中初始参数,求得模型参数αk、μk
Figure BDA0001690953630000063
R04.重复步骤R02~R03,直到均值收敛。
进一步地,所述步骤S06中ROC曲线,AUC值通过计算ROC曲线下面积获得。
基于所述的用于电解槽故障预警的机器学习方法在故障预警中的应用,其步骤是:
Q01.提取当前时间往前6个小时的各个检测点的时间序列数据;判断各检测点的时间序列数据是否是平稳序列、白噪声序列,若各检测点的时间序列数据不平稳,则进行差分处理,移动平均处理,得到平稳化的时间序列数据,计算时间序列数据的自相关函数AFC、偏自相关函数PAFC,估计ARIMA模型的参数:自回归阶数p、差分阶数d,移动平均阶数q;利用ARIMA模型,设置模型参数p、d、q,预测未来6分钟内各检测点的时间序列数据取值,得到预测时间序列数据;步骤Q01中预测未来时间序列数值的算法已被广泛地运用于工业装置中数据的短时间预测,例如在专利104951842A《一种新的油田产量预测方法》中就具有很好的效果。
Q02.利用训练过的GMM聚类改进模型和异常判别规则,对预处理后的预测时间序列数据判别是否出现故障,若模型结果出现在异常判别范围内,则标为即将出现故障,向相关责任人发送邮件提醒即将发生的故障。
本发明与现有技术相比,具有以下优点:
1.本方法中异常点检测的判别依据,为高斯混合模型的输出概率,模型拟合效果更优;
2.本方法对异常点判别规则的参数,利用遗传算法做了优化,异常判别效果更好;
3.本方法采用模型在线检测,数据客观,不可篡改,可以自动、实时地检测故障发生;
4.本方法采用时间序列预测方法,预测电解槽将来的运行序列数据,可以提前预知故障发生,及时避免停车带来的生产事故。
附图说明
图1是本发明的一种用于电解槽故障预警的机器学习方法的流程图。
图2是本发明所选取的电解槽运行相关的检测点。
图3是本发明时间序列数据的高斯分布曲线,及置信区间
Figure BDA0001690953630000071
之外的标识。
图4是本发明对GMM输出结果,定义异常判别规则时所使用的参数,进行优化时,所使用的遗传算法流程。
图5是本发明的ROC曲线,评估所训练的优化后的GMM模型的拟合效果。
具体实施方式
为了使本发明所要解决的技术问题、技术方案和优点更加清楚,下面将对具体实施步骤进行详细阐述。
如图1所示,GMM模型在电解槽故障预警中的应用,主要通过以下步骤实现:
步骤1,数据准备,用于建模分析的数据源,需通过几个步骤获取到:
步骤1.1,选择检测点,如图2所示,根据经验,确定对电解槽运行有影响的相关检测点,所选取的检测点包括电解槽阴阳室压差、电解槽前后端电压差、阳极循环流量、阴极循环流量、补充盐水流量、阴极纯水流量、碱液密度计、阴极液循环槽碱液温度、氯气总管压力、氢气总管压力、氯气/氢气总管压力差。
步骤1.2,数据清洗,即获取高质量的规范数据集。具体为:获取上个月整月的各个检测点的序列数据,做缺失值向上填补,然后将各检测点的序列数据整理为按照分钟间隔排布的分钟级序列数据。
步骤1.3,标记故障标签,根据电解槽运行日志,通过故障标签标记各个检测点的分钟级序列数据,故障标记为电脑根据采样点的阈值范围进行标记的标签,具体步骤为:
T01.若电解槽运行日志中检测点运行正常,则该检测点对应时间采集的该电解工艺参数时间序列数据被赋予故障标签值1;
T02.若电解槽运行日志中检测点运行故障,则该检测点对应时间采集的该电解工艺参数时间序列数据被赋予故障标签值0。
步骤2,数据预处理,包括变量标准化、相关性检验、主成分分析,提高建模的准确性。
步骤2.1,变量标准化,对检测点分钟级序列数据,做z-score标准化,将分钟级序列数据,按照大小关系,换算成[-1,1]之间的数,消除数据序列量纲上的差异。z-score标准化的计算公式:
Z=(x-μy)/σy
其中,x为原始分钟级序列数据的某一个具体的数,μy为时间序列数据的均值,σy为时间序列数据的标准差,从而消除各检测点序列数据在数量级上的差异,获得标准化序列数据。
步骤2.2,然后对标准化序列数据,用R语言绘制散点图矩阵,获取变量间的相关关系,发现变量间存在较强的相关关系,故对标准化序列数据做主成分分析PCA:提取标准化序列数据方差贡献率达98%的主成分因子,输出降维后相互独立的数据集作为GMM聚类模型的输入样本。通过主成分分析可以有效地消除冗余特征,减少参数特征维度,从而能够提高GMM聚类模型的训练效率。
对后续GMM聚类训练模型的训练数据集,以分钟级时间为样本标记,相互独立的变量为GMM聚类训练模型的输入变量。
PCA算法步骤:
a01.获取n行m列标准化后的数据,写成n*m的矩阵形式;
a02.数据中心化,即把每个属性的均值处理设为0,即每一行的数据进行零均值化,即减去这一行的均值;
a03.根据标准化后的矩阵求协方差矩阵,协方差有三种值,0表示属性之间相互独立,没有影响;正值表示属性是正相关的关系,若属性A和属性B是正相关关系,则A增加B也增加,A减小B也减小;负值表示属性是负相关的关系,若属性C和属性D是负相关关系,则C增加D减小,C减小D增加,所以,协方差矩阵即相关系数矩阵,表示属性间的相关程度;
a04.根据协方差矩阵求特征值矩阵,特征值矩阵只有对角线上的元素有值,上三角和下三角元素都为0;
a05.根据特征值矩阵求对应的特征向量;
a06.对特征值矩阵进行排序,并设定一个阈值,若前k个特征矩阵的和大于等于设定的阈值98%,则就有k个主成分,取其对应的特征向量,定为主成分向量矩阵;
a07.原始矩阵乘以转置后的主成分向量即得降维后的矩阵,比如,原始数据是n*m的矩阵,在步骤a06中取得了5个主成分,那么主成分矩阵就是5*m的矩阵;n*m的矩阵乘以m*5的矩阵,即得n*5的矩阵,体现了降维效果。
步骤3,构建GMM聚类模型,判断异常点,将训练数据集输入GMM聚类模型,由背景技术介绍可知,GMM聚类是用k个高斯分布密度函数的叠加,去拟合数据分布,然后利用EM算法求解,具体算法步骤如下:
步骤3.1,初始化,对各类别密度分布待估计的参数,设置初始值,包括类别的比例αk、均值μk、方差
Figure BDA0001690953630000101
其中αk表示第k个分布的权重,μk表示第k个分布的均值,
Figure BDA0001690953630000102
表示第k个分布的方差,k表示分布的数量。
步骤3.2,计算期望(E步骤),利用贝叶斯公式,求出数据点yj,j=1,2,…,N,分别取自高斯分布(z1,z2,…,zk)的概率值,其中zk表示第k个高斯分布的概率,对于第j个样本yj来说,它由第k个高斯分布生成的概率为:
Figure BDA0001690953630000103
步骤3.3,期望最大化(M步骤),对E步骤计算的概率值,做对数变换,即将zj(k)变换成,logzj(k)
用极大似然估计的方法,利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值,即使得数据点取自第k个高斯分布的概率最大时,优化步骤3.1中参数初始值,求得模型参数:αk、μk
Figure BDA0001690953630000111
步骤3.4,重复3.2~3.3的过程直到均值收敛。
模型输出结果:为每个样本点(即训练数据集中分钟级时间)归属的类别,以及样本点归属各类别的概率值。
步骤4,改进GMM聚类模型,对GMM聚类模型的输出结果:包括样本点归属的类别,和样本点归属各类别的概率值,重新定义异常判别规则4.1,尤其是故障类别,异常判别规则定义如下:
1)如图3所示,步骤1.2输出的分钟级序列数据,都是正态分布序列,对于每个序列中出现的概率在置信区间范围外的(出现概率分布在
Figure BDA0001690953630000112
之外,
Figure BDA0001690953630000113
为任意给定的初始值),作为训练模型预测的故障点;
2)根据步骤3中GMM聚类模型,输出的每个样本点归属的类,若某个类的样本数特别少小于给定参数
Figure BDA0001690953630000114
(
Figure BDA0001690953630000115
为任意给定的初始值),作为训练模型预测的故障点;
3)根据步骤3中GMM聚类模型,输出的每个样本点归属的类,及样本点归属各类别的概率,若样本点归属各类的最大概率小于给定概率参数
Figure BDA0001690953630000116
(
Figure BDA0001690953630000117
为任意给定的初始值),作为训练模型预测的故障点;
汇总以上三种模型预测的故障点,电解槽运行日志的记录结果,与步骤1.3中根据日志记录标记的故障标签,建立混淆矩阵的F1评价函数:
tp=sum(模型预测=0&日志记录=0)
fp=sum(模型预测=0&日志记录=1)
tn=sum(模型预测=1&日志记录=1)
fn=sum(模型预测=1&日志记录=0)
精确率:P=tp/(tp+fp)
真阳率/召回率:TPR=R=tp/(tp+fn)
假阳率:FPR=fp/(tp+fn)
F1=P*R/(P+R)
为了使模型效果更优,需使得F1评价函数达到最大。如图4所示,为遗传算法的算法过程,利用遗传算法,输入初始参数
Figure BDA0001690953630000121
和概率参数
Figure BDA0001690953630000122
利用遗传算法(“Introduction to Genetic Algorithm&their application in data science.MACHINELEARNING”),当F1评价函数达到最大时,求出最优的参数m1,m2和概率参数Pg
步骤5,模型评估,评估改进的GMM聚类模型的拟合效果,即模型是否可以用于电解故障预警的在线实施中,需通过R编程计算模型拟合优度的评价指标(受试者工作特征曲线ROC曲线、曲线下方的面积AUC值)判断训练模型的优劣。通过计算出不同的FPR,TPR值,以假阳性率FPR为X轴、真阳性率TPR为Y轴绘制ROC曲线,ROC曲线越靠近左上角,分类效果越接近真实值,AUC值代表着ROC曲线下方的面积,也就是表示AUC值越大,分类效果越接近真实值。如图5所示,模型评价结果中ROC曲线,AUC值为0.83,预测准确性较高,可以投入在线实施应用中。
步骤6,用于电解槽故障预警的机器学习方法的应用,ARIMA时间序列预测,提取当前时间往前6个小时的各个检测点的序列数据,对每个检测点的序列数据,做平稳化处理,采用自回归、移动平均的方法,预测将来短时间内的序列数据,具体实施分为以下步骤:
步骤6.1,对当前时间往6个小时的各个检测点的序列数据,做缺失值向上填补,然后将各检测点的序列数据整理为按照分钟间隔排布的分钟级序列数据。
步骤6.2,判断检测点的序列数据是否是平稳序列(就是围绕着一个常数上下波动且波动范围有限,即有常数均值和常数方差。如果有明显的趋势或周期性,那它通常不是平稳序列)、白噪声序列(序列的各项数值之间没有任何相关关系,序列在进行完全无序的随机波动),若检测点的序列数据不平稳,进行平稳时间序列建模:进行差分处理(用于进行d阶差分运算后化为平稳时间序列),移动平均处理,得到平稳化的序列数据计算序列数据的自相关函数AFC(用于得到最佳的阶数p)、偏自相关函数PAFC(得到移动平均阶数q),估计ARIMA模型的参数:自回归阶数AR(p)、差分阶数(d),移动平均阶数MA(q)。文献“基于ARIMA的鸡肉价格预测建模与应用.畜牧经济”已公布了步骤6.2中时间序列预处理的步骤。
步骤6.3,利用ARIMA模型,设置模型参数p、d、q,预测未来6分钟的各检测点的序列数据取值,得到预测序列数据。例如在专利104951842A《一种新的油田产量预测方法》中就具有很好的效果
步骤7,模型应用,利用训练过的GMM聚类模型和定义的异常判别规则,对预处理后的预测序列数据判别是否会出现故障,若模型结果出现在异常判别范围内,则标为即将出现故障,然后通知相关负责人。
异常判断规则如下:
1)新序列数据样本分布概率在μy±m1y之外,定义为故障点;
2)GMM模型预测,若某个类的样本数小于优化参数m2,标为故障点;
3)GMM模型预测,若样本点归属类的概率小于优化概率参数Pg,标为故障点。
4)GMM模型预测,若样本点归属类的概率,小于类中任意训练样本的概率,标为故障点。
本发明的应用价值,体现在利用改进的GMM模型,作用于新的数据集,模型结果可以判断电解槽是否即将出现故障。改进的GMM模型在线应用步骤:将语言与DCS数据库直连,定时抽取、清洗检测点当前时间段内的序列数据集,新数据集采用时间序列预测每个检测点未来小时间段内的取值,将由当前时间点前后时间区间的新数据集,作预处理(标准化、降维),输入训练好的GMM模型,输出结果预警电解槽是否将会出现故障。

Claims (8)

1.一种用于电解槽故障预警的机器学习方法,其特征在于,是通过从电解槽检测点采集以时间为序列的各电解工艺参数时间序列数据训练GMM聚类改进模型和异常判断规则,将预测的时间序列数据输入GMM聚类改进模型和异常判断规则,进行故障预警,所述训练GMM聚类改进模型的过程包括以下步骤,
S01.从电解槽检测点采集以时间为序列的各电解工艺参数时间序列数据,构建训练集数据库,并计算训练集数据库中每个时间序列的置信区间,抽取位于对应置信区间外的时间序列数据,即出现概率分布在
Figure FDA0001690953620000011
之外,y为任一个时间序列,μy为时间序列的均值,σy为时间序列的标准差,
Figure FDA0001690953620000012
为任意给定的标准分数,分别作为置信分布预测故障点;
S02.根据电解槽运行日志,为序列数据库内的数据逐条附上故障标签值,统计不同故障标签值所对应的时间序列数据点个数;
S03.通过z-score标准化算法对训练集数据库内的时间序列数据进行无量纲化处理,得标准化训练集数据库,检测标准化数据库中各时间序列数据是否线性相关,若是,则对线性相关的各时间序列数据进行主成分降维,使标准化数据库中各时间序列数据相互独立,得训练集标准数据库;
S04.将步骤S03中训练集标准数据库输入GMM聚类模型,设置初始类别参数第k个分布的权重αk、第k个分布的均值μk、第k个分布的方差
Figure FDA0001690953620000013
k表示分布的数量,利用EM算法求解训练集标准数据库中每个时间序列数据点归属的类别,及每个时间序列数据点归属各类别的概率,统计每个类别内时间序列数据点数Sk,记录时间序列数据归属各类别的最大概率Pmax,若某个类别的样本特别少,即Sk小于阈值
Figure FDA0001690953620000021
Figure FDA0001690953620000022
为任意给定的初始值,则抽取对应类别内的时间序列数据,分别作为类别规模预测故障点;若Pmax小于阈值
Figure FDA0001690953620000023
则抽取对应的时间序列数据点,作为概率预测故障点;
S05.汇总置信分布预测故障点、类别规模预测故障点、概率预测故障点作为模型预测故障点数,用于计算模型预测的故障点总数和非故障点总数,结合不同故障标签值对应的时间序列数据点数,建立混淆矩阵的F1评价函数:
tp=sum(模型预测=0&日志记录=0)
fp=sum(模型预测=0&日志记录=1)
tn=sum(模型预测=1&日志记录=1)
fn=sum(模型预测=1&日志记录=0)
精确率:P=tp/(tp+fp)
真阳性率/召回率:TPR=R=tp/(tp+fn)
假阳性率:FPR=fp/(tp+fn)
F1=P*R/(P+R)
利用遗传算法,输入初始参数
Figure FDA0001690953620000024
求出当F1评价函数达到最大时,故障预测模型的判别参数m1,m2,Pg,得到GMM聚类改进模型和异常判别规则,sum()表示合计函数;
S06.计算GMM聚类改进模型拟合优度的评价指标:ROC曲线和AUC值,判断GMM聚类改进模型拟合的准确率,当GMM聚类改进模型拟合优度的评价指标中ROC曲线接近左上角,AUC值为0.83,模型通过评估。
2.根据权利要求1所述的用于电解槽故障预警的机器学习方法,其特征在于,所述异常判别规则包括以下规则:
W01.当任何一个预测时间序列数据在置信区间μy±m1y之外,判断对应的预测时间序列数据为故障点;
W02.当GMM聚类改进模型中,某个类别内数据点数小于m2,且任何一个预测时间序列数据分布在该类别中,判断对应的预测时间序列数据为故障点;
W03.当任何一个预测时间序列数据归属GMM聚类改进模型中类别的最大概率小于Pg,判断对应的预测时间序列数据为故障点;
W04.当任何一个预测时间序列数据归属GMM聚类改进模型中类别的最大概率小于该类别中任一时间序列数据的概率,判断对应的预测时间序列数据为故障点。
3.根据权利要求1所述的用于电解槽故障预警的机器学习方法,其特征在于,所述步骤S01中电解槽检测点包括:电解槽阴阳室压差、电解槽前后端电压差、阳极循环流量、阴极循环流量、补充盐水流量、阴极纯水流量、碱液密度计、阴极液循环槽碱液温度、氯气总管压力、氢气总管压力、氯气/氢气总管压力差;所述时间序列数据为上一个月整月从各检测点按单位时间为每分钟采集的时间序列数据,所述时间序列数据还经过缺失值向上填补处理。
4.根据权利要求1所述的用于电解槽故障预警的机器学习方法,其特征在于,所述步骤S02还包括为所述序列数据库内的数据逐条赋予故障标签值的方法,包括以下步骤:
T01.若电解槽运行日志中检测点运行正常,则该检测点对应时间采集的该电解工艺参数时间序列数据被赋予故障标签值1;
T02.若电解槽运行日志中检测点运行故障,则该检测点对应时间采集的该电解工艺参数时间序列数据被赋予故障标签值0。
5.根据权利要求1所述的用于电解槽故障预警的机器学习方法,其特征在于,所述步骤S03中z-score标准化算法为:
Z=(x-μy)/σy
其中,x为原始时间序列数据的某一个数据,μy为时间序列数据的均值,σy为时间序列数据的标准差,从而消除各检测点数据序列量纲差异,获得标准化序列数据。
6.根据权利要求1所述的用于电解槽故障预警的机器学习方法,其特征在于,所述步骤S04还包括为训练集标准数据库构建GMM聚类模型的方法,包括以下步骤:
R01.根据各检测点采集的电解工艺参数经验值,设置GMM聚类模型初始参数αk、μk
Figure FDA0001690953620000041
其中αk表示第k个分布的权重,μk表示第k个分布的均值,
Figure FDA0001690953620000042
表示第k个分布的方差,k表示分布的数量;
R02.将步骤S03中训练集标准数据库输入步骤R01中的GMM聚类模型,利用贝叶斯公式,求出各时间序列数据点yj分别取自高斯分布(z1,z2,…,zk)的概率值,其中zk表示第k个高斯分布;
R03.对R02步骤计算的概率值,作对数变换,用极大似然估计的方法优化步骤R01中初始参数,求得模型参数αk、μk
Figure FDA0001690953620000051
R04.重复步骤R02~R03,直到均值收敛。
7.根据权利要求1所述的用于电解槽故障预警的机器学习方法,其特征在于,所述步骤S06中ROC曲线,AUC值通过计算ROC曲线下面积获得。
8.权利要求1所述的用于电解槽故障预警的机器学习方法在故障预警中的应用,其步骤是:
Q01.提取当前时间往前6个小时的各个检测点的时间序列数据;判断各检测点的时间序列数据是否是平稳序列、白噪声序列,若各检测点的时间序列数据不平稳,则进行差分处理,移动平均处理,得到平稳化的时间序列数据,计算时间序列数据的自相关函数AFC、偏自相关函数PAFC,估计ARIMA模型的参数:自回归阶数p、差分阶数d,移动平均阶数q;利用ARIMA模型,设置模型参数p、d、q,预测未来6分钟内各检测点的时间序列数据取值,得到预测时间序列数据;
Q02.利用训练过的GMM聚类改进模型和异常判别规则,对预处理后的预测时间序列数据判别是否出现故障,若模型结果出现在异常判别范围内,则标为即将出现故障,向相关责任人发送邮件提醒即将发生的故障。
CN201810592263.4A 2018-06-11 2018-06-11 一种用于电解槽故障预警的机器学习方法及其应用 Active CN108805202B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810592263.4A CN108805202B (zh) 2018-06-11 2018-06-11 一种用于电解槽故障预警的机器学习方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810592263.4A CN108805202B (zh) 2018-06-11 2018-06-11 一种用于电解槽故障预警的机器学习方法及其应用

Publications (2)

Publication Number Publication Date
CN108805202A CN108805202A (zh) 2018-11-13
CN108805202B true CN108805202B (zh) 2021-07-30

Family

ID=64088222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810592263.4A Active CN108805202B (zh) 2018-06-11 2018-06-11 一种用于电解槽故障预警的机器学习方法及其应用

Country Status (1)

Country Link
CN (1) CN108805202B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109559045A (zh) * 2018-11-30 2019-04-02 四川九洲电器集团有限责任公司 一种人员智能化管控的方法及系统
JP7107830B2 (ja) * 2018-12-21 2022-07-27 ファナック株式会社 学習用データ確認支援装置、機械学習装置、故障予知装置
CN110322049B (zh) * 2019-06-03 2023-06-09 浙江图灵软件技术有限公司 一种公安大数据预警方法
CN112131069B (zh) * 2019-06-24 2023-07-21 中船重工特种设备有限责任公司 基于聚类的设备运行监测方法及系统
CN110503133A (zh) * 2019-07-26 2019-11-26 东北大学 一种基于深度学习的离心式压缩机故障预测方法
CN110570012B (zh) * 2019-08-05 2022-05-20 华中科技大学 一种基于Storm的电厂生产设备故障预警方法及系统
CN110689140A (zh) * 2019-09-27 2020-01-14 广东毓秀科技有限公司 一种通过大数据进行轨交报警数据智能管理的方法
CN110941648A (zh) * 2019-11-19 2020-03-31 广州市自来水有限公司 基于聚类分析的异常数据识别方法、系统和存储介质
CN111027615B (zh) * 2019-12-05 2022-06-10 江苏方天电力技术有限公司 基于机器学习的中间件故障预警方法和系统
CN113926865B (zh) * 2020-06-29 2024-03-08 宝山钢铁股份有限公司 铸坯夹渣预报方法、机清控制方法、计算设备及存储介质
CN112731903B (zh) * 2020-11-27 2022-05-10 成都飞机工业(集团)有限责任公司 一种全电传飞控故障的诊断系统及方法
CN113255965A (zh) * 2021-04-26 2021-08-13 大连海事大学 一种雷达发射机退化故障预后智能处理系统
CN113158480A (zh) * 2021-04-29 2021-07-23 南京林业大学 基于amsaa的车辆变环境可靠性增长模型的评估方法
CN113312851A (zh) * 2021-06-16 2021-08-27 华电山东新能源有限公司 一种风力发电机主轴承温度异常预警方法
CN114252828A (zh) * 2021-12-21 2022-03-29 安徽福晴医疗科技有限公司 一种磁共振成像系统及其预加重涡流校正方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103103570A (zh) * 2013-01-30 2013-05-15 重庆科技学院 基于主元相似性测度的铝电解槽况诊断方法
CN103451680A (zh) * 2012-06-05 2013-12-18 沈阳铝镁设计研究院有限公司 基于多元统计方法的电解铝全流程监测及故障诊断系统
CN105703954A (zh) * 2016-03-17 2016-06-22 福州大学 一种基于arima模型的网络数据流预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130197854A1 (en) * 2012-01-30 2013-08-01 Siemens Corporation System and method for diagnosing machine tool component faults

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103451680A (zh) * 2012-06-05 2013-12-18 沈阳铝镁设计研究院有限公司 基于多元统计方法的电解铝全流程监测及故障诊断系统
CN103103570A (zh) * 2013-01-30 2013-05-15 重庆科技学院 基于主元相似性测度的铝电解槽况诊断方法
CN105703954A (zh) * 2016-03-17 2016-06-22 福州大学 一种基于arima模型的网络数据流预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Aluminum Reduction Cell’s Fault Monitoring Based on LS-SVM》;Wang, Shuping et al;《Advanced Materials Research》;20131231;第734-737卷;第2833-2837页 *
《一种动态校正的AGMM-GPR多模型软测量建模方法》;熊伟丽,等;《大连理工大学学报》;20160131;第56卷(第1期);第77-85页 *

Also Published As

Publication number Publication date
CN108805202A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN108805202B (zh) 一种用于电解槽故障预警的机器学习方法及其应用
CN113255795B (zh) 一种基于多指标集群分析的设备状态监测方法
CN110263846B (zh) 基于故障数据深度挖掘及学习的故障诊断方法
CN113255848B (zh) 基于大数据学习的水轮机空化声信号辨识方法
CN109583680B (zh) 一种基于支持向量机的窃电辨识方法
CN114358152A (zh) 一种智能电力数据异常检测方法及系统
CN106959400B (zh) 一种基于异常点监测和大数据分析的二次设备隐患故障诊断方法
CN113762329A (zh) 一种大型轧机状态预测模型的构建方法及构建系统
CN112414694B (zh) 基于多元状态估计技术的设备多级异常状态识别方法及装置
CN115412455A (zh) 一种基于时间序列的服务器多性能指标异常检测方法及装置
CN111538311B (zh) 一种基于数据挖掘的机械设备柔性多状态自适应预警方法及装置
CN115858794B (zh) 用于网络运行安全监测的异常日志数据识别方法
CN109947815B (zh) 一种基于离群点算法的窃电辨识方法
CN111797533B (zh) 一种核动力装置运行参数异常检测方法及系统
CN113627735A (zh) 工程建设项目安全风险的预警方法及系统
CN117193222A (zh) 一种基于工业物联网和大数据的智能质量控制系统及其控制方法
CN111833175A (zh) 基于knn算法的互联网金融平台申请欺诈行为检测方法
CN113569462A (zh) 一种计及天气因素的配电网故障等级预测方法及系统
CN112906738A (zh) 一种水质检测及处理方法
Grebenyuk Monitoring and identification of structural shifts in processes with a unit root
CN111474476B (zh) 一种电机故障预测方法
CN113283546A (zh) 加热炉完整性管理集控装置的炉况异常报警方法及系统
CN109635008B (zh) 一种基于机器学习的设备故障检测方法
CN112256686A (zh) 一种基于mes的故障数据压缩与预测方法及系统
CN116204825A (zh) 一种基于数据驱动的生产线设备故障检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant