CN103020006B - 一种基于海量数据挖掘的设备状态预测方法 - Google Patents

一种基于海量数据挖掘的设备状态预测方法 Download PDF

Info

Publication number
CN103020006B
CN103020006B CN201110286146.3A CN201110286146A CN103020006B CN 103020006 B CN103020006 B CN 103020006B CN 201110286146 A CN201110286146 A CN 201110286146A CN 103020006 B CN103020006 B CN 103020006B
Authority
CN
China
Prior art keywords
vector
cluster
data
stage
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110286146.3A
Other languages
English (en)
Other versions
CN103020006A (zh
Inventor
唐胜
胡洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA REALTIME DATABASE Co Ltd
State Grid Corp of China SGCC
Original Assignee
CHINA REALTIME DATABASE Co Ltd
State Grid Corp of China SGCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA REALTIME DATABASE Co Ltd, State Grid Corp of China SGCC filed Critical CHINA REALTIME DATABASE Co Ltd
Priority to CN201110286146.3A priority Critical patent/CN103020006B/zh
Publication of CN103020006A publication Critical patent/CN103020006A/zh
Application granted granted Critical
Publication of CN103020006B publication Critical patent/CN103020006B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明属于基于工业设备海量数据的数据挖掘领域,提供一种设备状态预测方法,该方法从历史数据中充分挖掘有用知识,结合设备实时情况对设备状态进行的有效的预测,能在较低开销下以较高的效率完成知识学习,并且实时的给出设备状态的预测与诊断结果,为企业实现大型设备的状态监测、预警诊断等起到良好的作用。

Description

一种基于海量数据挖掘的设备状态预测方法
技术领域
本发明属于基于工业设备海量数据的数据挖掘领域,特别是涉及一种基于海量数据挖掘的设备状态预测算法。
背景技术
现代大型工业企业的发展离不开设备。这些设备稳定、持续的运行与企业的利益息息相关,它们的故障甚至是异常停机将给企业带来难以想象的重大损失。因此在其运行过程中,提前发现可能的故障并加以预防和排除非常重要。对此有一些传统方法,如定期的人工巡视、设备停工进行例行检查等。这些传统方法有几个问题:1.定期的检测需要耗费大量的人力、物力,效率很低2.对一些不必要的设备也进行了检测,造成资源的浪费3.停机检测可能会带来巨大的经济上的损失。在这样的背景下,企业对设备状态预警方面的需求日益突出。近年来设备状态预警技术逐渐进入人们的视野,该技术是利用现代传感技术和计算机技术对运行中的设备进行监测,获取反映运行状态的各种数据值,并对其进行分析处理,预测运行状况,在必要时提供报警和故障诊断信息,避免因故障的进一步扩大而导致事故的发生,为状态检修提供实时数据。状态预警技术在很多领域,如电力、医学、航空、核工业等都有着深刻而广阔的应用前景。本发明立足设备状态预警技术,实现了一种基于工业设备海量数据的设备状态预测算法。
发明内容
本发明的目的是提供一种设备状态预测方法,该方法从历史数据中充分挖掘有用知识,结合设备实时情况对设备状态进行的有效的预测。
本发明的技术方案为:包括阶段一:学习算法;阶段二:预测算法;
所述阶段一:学习算法包括步骤如下:
反映设备历史运行状态的数据样本作为训练数据集D=(o1,o2,...,om),聚类结果的类集合为C,其中,oi=(oi1,...,oik,...oin),n≥1,1≤k≤n,vik为数据集D中向量oi的第k维参数的值,n为每个数据向量的维度;
步骤1,初始化:C=φ,读入第一个训练数据向量并对其标准化,记录结果为o1,生成初始聚类C1,并记录upper limit和lower limit,C={C1};
步骤2,处理新数据向量:读入一个新的训练数据向量并对其标准化,记录结果为o2,如果使得dis tan ce(oi,Cj)=0,那么转至步骤3,否则转至步骤4;
步骤3,oi并入Cj:Cj=Cj∪oi,同时更新Cj的参数,现有的类总个数不变;
步骤4,oi自成一类:由Cn+1={oi},C=C∪Cn+1其中n为聚类结果集中聚类的个数;
步骤5:所有历史训练数据向量都已经处理完,阶段一终止;否则,返回步骤2;
阶段二:预测算法包括如下步骤:
步骤6,初始化:i=0;
步骤7,计算距离:计算向量o与聚类结果集C={C1,C2,...,Cm}中聚类的距离,若di=0,转至步骤9;若i=m,转至步骤8;否则,令i=i+1,转至步骤7;
步骤8,寻找最近距离:从距离集合d={d1,d2,...,dm}中找到一个di,使得di为集合d中的最小值;
步骤9,确定相似模型:根据di确定聚类模型在聚类结果集中的序号为i,即相似的聚类模型为Ci
步骤10,计算预测向量:根据聚类模型Ci得到向量o的预测向量o'。
根据阶段一:学习算法设定预测向量o'安全范围。
本发明方法的有益效果是,能在较低开销下以较高的效率完成知识学习,并且实时的给出设备状态的预测与诊断结果,为企业实现大型设备的状态监测、预警诊断等起到良好的作用。
附图说明
图1是算法模拟实际应用模型。
图2是初始类Ci的第k维分量的可吸收范围示意图。
图3是聚类Ci经过扩展后的第k维分量的可吸收范围示意图。
图4是实时数据向量o各维度与类模型Ci计算距离示意图。
图5是实时数据向量o通过相似类模型Ci确定各维度预测值示意图。、
具体实施方式
下面结合附图详细说明本发明的优选实施例。
算法的实现分为两大步骤,一是利用设备运行的历史数据建立起设备运行状态模型,这一步通过聚类算法实现;二是利用经过聚类得到的设备状态模型,结合设备运行的实时状态数据对当前运行状态进行回归预测。在此之后再结合一些报警规则实现设备的在线实时预警,算法的整体应用模型如附图1所示。
算法步骤一:学习算法。该算法将反映设备历史运行状态的数据样本作为训练数据集,依次读入训练集中的数据向量(Data Vector),根据训练集的最大值、最小值向量将其标准化,然后确定其所在的类(或者属于某个当前已有类,或者自成一个新的类),直到所有数据向量被扫描一遍,聚类过程结束。这样的处理过程避免了需要把所有数据一次性全部读入内存而后才能进行聚类的弊端,是凝聚型层次聚类算法的一种改进方法。该算法思想的实现过程如下:
假定数据向量训练集经标准化后为D=(o1,o2,…,om),聚类结果的类集合为C,其中,oi=(oi1,…,oik,…oin),n≥1,1≤k≤n,vik为数据集D中向量oi的第k维参数的值。n为每个数据向量的维度。
步骤1[初始化].C=φ,读入第一个训练数据向量并对其标准化,记录结果为o1,生成初始聚类C1,并记录upper limit和lower limit,C={C1},生成过程的示意图如附图2所示;
步骤2[处理新数据向量].读入一个新的训练数据向量并对其标准化,记录结果为o2,如果使得dis tan ce(oi,Cj)=0,那么转至步骤3,否则转至步骤;
/*dis tan ce(oi,Cj)表示向量o与某个类C各个维度的欧式距离之和,如果o的每个维度分量值都在类C对应的分量值范围内(包括扩展和扰动范围),那么dis tan ce(oi,Cj)=0*/
步骤3[oi并入Cj].Cj=Cj∪oi,同时更新Cj的参数,现有的类总个数不变;
步骤4[oi自成一类].由Cn+1={oi},C=C∪Cn+1其中n为聚类结果集中聚类的个数;
/*此时,C中类的总个数要加1*/
步骤5.若所有历史训练数据向量都已经处理完,则算法终止,终止后的训练结果示意图如附图三所示;否则,返回步骤步骤2。
算法步骤二:预测算法。按照学习算法的聚类结果,每个类代表了设备运行过程中的一种正常状态,当异常的实时数据输入时,将无法把它合并到任何一个正常类中。基于历史训练数据集的完整性,算法结果正确性,正常的设备状态必定落在学习算法聚类结果中的某个类中。如果测得的实时数据向量正常,根据其相似的聚类模型得到的预测值必定与其自身相差不大,而若实时数据向量异常,那么预测值与其相差会很明显。预测算法正是利用这种原理给出设备运行状态的实时情况。该算法思想的实现过程如下:
步骤1[初始化].i=0;
步骤2[计算距离].计算向量o(该向量为接收到的实时的数据向量)与聚类结果集C={C1,C2,...,Cm}中聚类的距离,计算距离的示意图如附图4所示,若di=0,转至步骤4;若i=m,转至步骤3;否则,令i=i+1,转至步骤2;
步骤3[寻找最近距离].从距离集合d={d1,d2,...,dm}中找到一个di,使得di为集合d中的最小值;
步骤4[确定相似模型].根据di确定聚类模型在聚类结果集中的序号为i,即相似的聚类模型为Ci
步骤5[计算预测向量].根据聚类模型Ci得到向量o的预测向量o',得到预测向量的示意图如附图5所示。
根据阶段一:学习算法设定预测向量o'安全范围。该安全范围可根据设备可靠性要求调整范围大小,并辅以超范围报警机制,即可更好实现大型设备的状态监测、预警诊断等。
本发明按照优选实施例进行了说明,应当理解,但上述实施例不以任何形式限定本发明,凡采用等同替换或等效变换的形式所获得的技术方案,均落在本发明的保护范围之内。

Claims (2)

1.一种基于海量数据挖掘的设备状态预测方法,其特征在于:包括阶段一:学习算法;阶段二:预测算法;
所述阶段一:学习算法包括步骤如下:
反映设备历史运行状态的数据样本作为训练数据集D=(o1,o2,…,om),聚类结果的类集合为C,其中,oi=(oi1,…,oik,…oin),n≥1,1≤k≤n,vik为数据集D中向量oi的第k维参数的值,n为每个数据向量的维度;
步骤1,初始化:C=φ,读入第一个训练数据向量并对其标准化,记录结果为o1,生成初始聚类C1,并记录聚类上限和聚类下限,C={C1};
步骤2,处理新数据向量:读入一个新的训练数据向量并对其标准化,记录结果为o2,如果使得distance(oi,Cj)=0,那么转至步骤3,否则转至步骤4;
步骤3,oi并入Cj:Cj=Cj∪oi,同时更新Cj的参数,现有的类总个数不变;
步骤4,oi自成一类:由Cn+1={oi},C=C∪Cn+1其中n为聚类结果集中聚类的个数;
步骤5:所有历史训练数据向量都已经处理完,阶段一终止;否则,返回步骤2;
阶段二:预测算法包括如下步骤:
步骤6,初始化:i=0;
步骤7,计算距离:计算向量o与聚类结果集C={C1,C2,…,Cm}中聚类的距离,若di=0,转至步骤9;若i=m,转至步骤8;否则,令i=i+1,转至步骤7;
步骤8,寻找最近距离:从距离集合d={d1,d2,…,dm}中找到一个di,使得di为集合d中的最小值;
步骤9,确定相似模型:根据di确定聚类模型在聚类结果集中的序号为i,即相似的聚类模型为Ci
步骤10,计算预测向量:根据聚类模型Ci得到向量o的预测向量o'。
2.根据权利要求1所述的方法,其特征在于:根据阶段一:学习算法设定预测向量o'安全范围。
CN201110286146.3A 2011-09-24 2011-09-24 一种基于海量数据挖掘的设备状态预测方法 Expired - Fee Related CN103020006B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110286146.3A CN103020006B (zh) 2011-09-24 2011-09-24 一种基于海量数据挖掘的设备状态预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110286146.3A CN103020006B (zh) 2011-09-24 2011-09-24 一种基于海量数据挖掘的设备状态预测方法

Publications (2)

Publication Number Publication Date
CN103020006A CN103020006A (zh) 2013-04-03
CN103020006B true CN103020006B (zh) 2016-09-07

Family

ID=47968628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110286146.3A Expired - Fee Related CN103020006B (zh) 2011-09-24 2011-09-24 一种基于海量数据挖掘的设备状态预测方法

Country Status (1)

Country Link
CN (1) CN103020006B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105187239A (zh) * 2015-08-17 2015-12-23 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于数据挖掘的通信告警分析系统及其处理方法
CN105306252A (zh) * 2015-09-19 2016-02-03 北京暴风科技股份有限公司 一种自动判别服务器故障的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975720A (zh) * 2006-12-27 2007-06-06 章毅 一种基于Web的数据挖掘系统及其控制方法
CN101609986A (zh) * 2008-06-20 2009-12-23 上海申瑞电力科技股份有限公司 基于决策树的多级联合协调自动电压控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030119063A1 (en) * 2002-09-03 2003-06-26 Pham Thang T. High accuracy protein identification

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975720A (zh) * 2006-12-27 2007-06-06 章毅 一种基于Web的数据挖掘系统及其控制方法
CN101609986A (zh) * 2008-06-20 2009-12-23 上海申瑞电力科技股份有限公司 基于决策树的多级联合协调自动电压控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
聚类算法研究;孙吉贵等;《软件学报》;20080131;第19卷(第1期);第48-61页 *

Also Published As

Publication number Publication date
CN103020006A (zh) 2013-04-03

Similar Documents

Publication Publication Date Title
CN106662072B (zh) 风力发电机状态监控方法与系统
CN103793853B (zh) 基于双向贝叶斯网络的架空输电线路运行状态评估方法
US20190285517A1 (en) Method for evaluating health status of mechanical equipment
CN103581186B (zh) 一种网络安全态势感知方法及系统
CN107843718A (zh) 一种变压器绝缘油老化状态评估的方法
CN109858140B (zh) 一种基于信息熵离散型贝叶斯网络冷水机组故障诊断方法
Kosek et al. Ensemble regression model-based anomaly detection for cyber-physical intrusion detection in smart grids
CN109858104A (zh) 一种滚动轴承健康评估与故障诊断方法及监测系统
CN102289682A (zh) 基于集成学习Bagging算法的变压器故障诊断方法
CN108680807A (zh) 基于条件生成式对抗网络的变压器故障诊断方法和系统
CN104765965A (zh) 基于模糊Petri的GIS故障诊断与可靠性分析方法
CN103400040A (zh) 采用多步时域差值学习的故障诊断与预测方法
CN106503439A (zh) 一种基于数据挖掘的采集故障预警系统的方法
CN102179722A (zh) 基于比例故障率模型的数控机床运行可靠性评估方法
CN107133632A (zh) 一种风电设备故障诊断方法及系统
Chen et al. Acoustical damage detection of wind turbine yaw system using Bayesian network
CN110118928A (zh) 一种基于误差逆传播算法的断路器故障诊断方法
CN108415810A (zh) 一种硬盘状态监控方法和装置
CN110596490A (zh) 铁路道岔故障的智能检测方法
Zhou et al. Structural health monitoring of offshore wind power structures based on genetic algorithm optimization and uncertain analytic hierarchy process
CN103020006B (zh) 一种基于海量数据挖掘的设备状态预测方法
Sima et al. Diagnosis of small-sample measured electromagnetic transients in power system using DRN-LSTM and data augmentation
Fu et al. Trimming outliers using trees: winning solution of the large-scale energy anomaly detection (LEAD) competition
CN107607342A (zh) 空调机房设备群的健康能效检测方法
CN117056678B (zh) 一种基于小样本的机泵设备运行故障诊断方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160907

Termination date: 20190924