CN103020006A - 一种基于海量数据挖掘的设备状态预测方法 - Google Patents

一种基于海量数据挖掘的设备状态预测方法 Download PDF

Info

Publication number
CN103020006A
CN103020006A CN2011102861463A CN201110286146A CN103020006A CN 103020006 A CN103020006 A CN 103020006A CN 2011102861463 A CN2011102861463 A CN 2011102861463A CN 201110286146 A CN201110286146 A CN 201110286146A CN 103020006 A CN103020006 A CN 103020006A
Authority
CN
China
Prior art keywords
vector
data
stage
equipment
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011102861463A
Other languages
English (en)
Other versions
CN103020006B (zh
Inventor
唐胜
胡洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA REALTIME DATABASE Co Ltd
State Grid Corp of China SGCC
Original Assignee
CHINA REALTIME DATABASE Co Ltd
State Grid Corp of China SGCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA REALTIME DATABASE Co Ltd, State Grid Corp of China SGCC filed Critical CHINA REALTIME DATABASE Co Ltd
Priority to CN201110286146.3A priority Critical patent/CN103020006B/zh
Publication of CN103020006A publication Critical patent/CN103020006A/zh
Application granted granted Critical
Publication of CN103020006B publication Critical patent/CN103020006B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明属于基于工业设备海量数据的数据挖掘领域,提供一种设备状态预测方法,该方法从历史数据中充分挖掘有用知识,结合设备实时情况对设备状态进行的有效的预测,能在较低开销下以较高的效率完成知识学习,并且实时的给出设备状态的预测与诊断结果,为企业实现大型设备的状态监测、预警诊断等起到良好的作用。

Description

一种基于海量数据挖掘的设备状态预测方法
技术领域
本发明属于基于工业设备海量数据的数据挖掘领域,特别是涉及一种基于海量数据挖掘的设备状态预测算法。 
背景技术
现代大型工业企业的发展离不开设备。这些设备稳定、持续的运行与企业的利益息息相关,它们的故障甚至是异常停机将给企业带来难以想象的重大损失。因此在其运行过程中,提前发现可能的故障并加以预防和排除非常重要。对此有一些传统方法,如定期的人工巡视、设备停工进行例行检查等。这些传统方法有几个问题:1.定期的检测需要耗费大量的人力、物力,效率很低 2.对一些不必要的设备也进行了检测,造成资源的浪费 3.停机检测可能会带来巨大的经济上的损失。在这样的背景下,企业对设备状态预警方面的需求日益突出。近年来设备状态预警技术逐渐进入人们的视野,该技术是利用现代传感技术和计算机技术对运行中的设备进行监测,获取反映运行状态的各种数据值,并对其进行分析处理,预测运行状况,在必要时提供报警和故障诊断信息,避免因故障的进一步扩大而导致事故的发生,为状态检修提供实时数据。状态预警技术在很多领域,如电力、医学、航空、核工业等都有着深刻而广阔的应用前景。本发明立足设备状态预警技术,实现了一种基于工业设备海量数据的设备状态预测算法。 
发明内容
本发明的目的是提供一种设备状态预测方法,该方法从历史数据中充分挖掘有用知识,结合设备实时情况对设备状态进行的有效的预测。 
本发明的技术方案为:包括阶段一:学习算法;阶段二:预测算法; 
所述阶段一:学习算法包括步骤如下:
反映设备历史运行状态的数据样本作为训练数据集 ,聚类结果的类集合为
Figure DEST_PATH_IMAGE004
,其中,
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE008
为数据集
Figure DEST_PATH_IMAGE010
中向量的第
Figure DEST_PATH_IMAGE014
维参数的值,
Figure DEST_PATH_IMAGE016
为每个数据向量的维度;
步骤1[初始化]:
Figure DEST_PATH_IMAGE018
,读入第一个训练数据向量并对其标准化,记录结果为,生成初始聚类
Figure DEST_PATH_IMAGE022
,并记录upper limit和lower limit ,
Figure DEST_PATH_IMAGE024
步骤2[处理新数据向量]:读入一个新的训练数据向量并对其标准化,记录结果为
Figure DEST_PATH_IMAGE026
,如果
Figure DEST_PATH_IMAGE028
,使得
Figure DEST_PATH_IMAGE030
,那么转至步骤3,否则转至步骤4;
步骤3[
Figure 409405DEST_PATH_IMAGE012
并入
Figure DEST_PATH_IMAGE032
]:
Figure DEST_PATH_IMAGE034
,同时更新
Figure 388862DEST_PATH_IMAGE032
的参数,现有的类总个数不变;
步骤4[
Figure 168599DEST_PATH_IMAGE012
自成一类]:由
Figure DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE038
其中n为聚类结果集中聚类的个数;
步骤5:所有历史训练数据向量都已经处理完,则阶段一终止;否则,返回步骤2;
阶段二:预测算法包括如下步骤:
步骤6[初始化]:
Figure DEST_PATH_IMAGE040
步骤7[计算距离]:计算向量
Figure DEST_PATH_IMAGE042
与聚类结果集
Figure DEST_PATH_IMAGE044
中聚类的距离,若
Figure DEST_PATH_IMAGE046
,转至步骤9;若
Figure DEST_PATH_IMAGE048
,转至步骤8;否则,令,转至步骤7;
步骤8[寻找最近距离]:从距离集合
Figure DEST_PATH_IMAGE052
中找到一个
Figure DEST_PATH_IMAGE054
,使得
Figure 130520DEST_PATH_IMAGE054
为集合
Figure DEST_PATH_IMAGE056
中的最小值;
步骤9[确定相似模型]:根据确定聚类模型在聚类结果集中的序号为
Figure DEST_PATH_IMAGE058
,即相似的聚类模型为
Figure DEST_PATH_IMAGE060
步骤10[计算预测向量]:根据聚类模型
Figure 642721DEST_PATH_IMAGE060
得到向量的预测向量
Figure DEST_PATH_IMAGE062
根据阶段一:学习算法设定预测向量
Figure 170971DEST_PATH_IMAGE062
安全范围。 
本发明方法的有益效果是,能在较低开销下以较高的效率完成知识学习,并且实时的给出设备状态的预测与诊断结果,为企业实现大型设备的状态监测、预警诊断等起到良好的作用。 
附图说明
图1是算法模拟实际应用模型。 
图2是初始类
Figure 652899DEST_PATH_IMAGE060
的第
Figure 646263DEST_PATH_IMAGE014
维分量的可吸收范围示意图。 
图3是聚类
Figure 462910DEST_PATH_IMAGE060
经过扩展后的第
Figure 199921DEST_PATH_IMAGE014
维分量的可吸收范围示意图。 
图4是实时数据向量
Figure 723307DEST_PATH_IMAGE042
各维度与类模型
Figure 966200DEST_PATH_IMAGE060
计算距离示意图。 
图5是实时数据向量
Figure 207826DEST_PATH_IMAGE042
通过相似类模型
Figure 545266DEST_PATH_IMAGE060
确定各维度预测值示意图。 
具体实施方式
下面结合附图详细说明本发明的优选实施例。 
算法的实现分为两大步骤,一是利用设备运行的历史数据建立起设备运行状态模型,这一步通过聚类算法实现;二是利用经过聚类得到的设备状态模型,结合设备运行的实时状态数据对当前运行状态进行回归预测。在此之后再结合一些报警规则实现设备的在线实时预警,算法的整体应用模型如附图1所示。 
算法步骤一:学习算法。该算法将反映设备历史运行状态的数据样本作为训练数据集,依次读入训练集中的数据向量(Data Vector),根据训练集的最大值、最小值向量将其标准化,然后确定其所在的类(或者属于某个当前已有类,或者自成一个新的类),直到所有数据向量被扫描一遍,聚类过程结束。这样的处理过程避免了需要把所有数据一次性全部读入内存而后才能进行聚类的弊端,是凝聚型层次聚类算法的一种改进方法。该算法思想的实现过程如下: 
假定数据向量训练集经标准化后为
Figure 188737DEST_PATH_IMAGE002
,聚类结果的类集合为
Figure 523903DEST_PATH_IMAGE004
,其中,
Figure 62945DEST_PATH_IMAGE006
Figure 141759DEST_PATH_IMAGE008
为数据集中向量
Figure 473700DEST_PATH_IMAGE012
的第
Figure 237388DEST_PATH_IMAGE014
维参数的值。
Figure 119894DEST_PATH_IMAGE016
为每个数据向量的维度。 
步骤1[初始化]. 
Figure 472377DEST_PATH_IMAGE018
,读入第一个训练数据向量并对其标准化,记录结果为
Figure 477243DEST_PATH_IMAGE020
,生成初始聚类
Figure 915177DEST_PATH_IMAGE022
,并记录upper limit和lower limit ,
Figure 148844DEST_PATH_IMAGE024
,生成过程的示意图如附图2所示; 
步骤2[处理新数据向量]. 读入一个新的训练数据向量并对其标准化,记录结果为
Figure 621413DEST_PATH_IMAGE026
,如果
Figure 734863DEST_PATH_IMAGE028
,使得
Figure 722410DEST_PATH_IMAGE030
,那么转至步骤3,否则转至步骤;
/*
Figure DEST_PATH_IMAGE064
表示向量
Figure 759768DEST_PATH_IMAGE042
与某个类
Figure 821264DEST_PATH_IMAGE004
各个维度的欧式距离之和,如果
Figure DEST_PATH_IMAGE066
的每个维度分量值都在类
Figure 167932DEST_PATH_IMAGE004
对应的分量值范围内(包括扩展和扰动范围),那么
Figure 580459DEST_PATH_IMAGE030
*/
步骤3[并入
Figure 430238DEST_PATH_IMAGE032
]. 
Figure 682228DEST_PATH_IMAGE034
,同时更新
Figure 582051DEST_PATH_IMAGE032
的参数,现有的类总个数不变;
步骤4[自成一类]. 由
Figure 262879DEST_PATH_IMAGE036
其中n为聚类结果集中聚类的个数;
/*此时,
Figure 72889DEST_PATH_IMAGE004
中类的总个数要加1*/
步骤5. 若所有历史训练数据向量都已经处理完,则算法终止,终止后的训练结果示意图如附图3所示;否则,返回步骤步骤2。
算法步骤二:预测算法。按照学习算法的聚类结果,每个类代表了设备运行过程中的一种正常状态,当异常的实时数据输入时,将无法把它合并到任何一个正常类中。基于历史训练数据集的完整性,算法结果正确性,正常的设备状态必定落在学习算法聚类结果中的某个类中。如果测得的实时数据向量正常,根据其相似的聚类模型得到的预测值必定与其自身相差不大,而若实时数据向量异常,那么预测值与其相差会很明显。预测算法正是利用这种原理给出设备运行状态的实时情况。该算法思想的实现过程如下: 
步骤1[初始化]. 
Figure 442691DEST_PATH_IMAGE040
步骤2[计算距离]. 计算向量
Figure 333286DEST_PATH_IMAGE042
(该向量为接收到的实时的数据向量)与聚类结果集
Figure 943390DEST_PATH_IMAGE044
中聚类的距离,计算距离的示意图如附图4所示,若,转至步骤4;若
Figure 788035DEST_PATH_IMAGE048
,转至步骤3;否则,令
Figure 798717DEST_PATH_IMAGE050
,转至步骤2;
步骤3[寻找最近距离]. 从距离集合
Figure 579722DEST_PATH_IMAGE052
中找到一个
Figure 675854DEST_PATH_IMAGE054
,使得
Figure 387458DEST_PATH_IMAGE054
为集合
Figure 314963DEST_PATH_IMAGE056
中的最小值;
步骤4[确定相似模型]. 根据
Figure 453820DEST_PATH_IMAGE054
确定聚类模型在聚类结果集中的序号为
Figure 847368DEST_PATH_IMAGE058
,即相似的聚类模型为
Figure 97084DEST_PATH_IMAGE060
步骤5[计算预测向量]. 根据聚类模型
Figure 82357DEST_PATH_IMAGE060
得到向量
Figure 454433DEST_PATH_IMAGE042
的预测向量
Figure 525157DEST_PATH_IMAGE062
,得到预测向量的示意图如附图5所示。
根据阶段一:学习算法设定预测向量
Figure 391613DEST_PATH_IMAGE062
安全范围。该安全范围可根据设备可靠性要求调整范围大小,并辅以超范围报警机制,即可更好实现大型设备的状态监测、预警诊断等。 
本发明按照优选实施例进行了说明,应当理解,但上述实施例不以任何形式限定本发明,凡采用等同替换或等效变换的形式所获得的技术方案,均落在本发明的保护范围之内。 

Claims (2)

1.一种基于海量数据挖掘的设备状态预测方法,其特征在于:包括阶段一:学习算法;阶段二:预测算法;
所述阶段一:学习算法包括步骤如下:
反映设备历史运行状态的数据样本作为训练数据集                                                
Figure DEST_PATH_IMAGE001
,聚类结果的类集合为
Figure 587261DEST_PATH_IMAGE002
,其中,
Figure 737619DEST_PATH_IMAGE004
为数据集
Figure DEST_PATH_IMAGE005
中向量
Figure 4653DEST_PATH_IMAGE006
的第维参数的值,
Figure 16602DEST_PATH_IMAGE008
为每个数据向量的维度;
步骤1[初始化]:,读入第一个训练数据向量并对其标准化,记录结果为
Figure 482218DEST_PATH_IMAGE010
,生成初始聚类
Figure DEST_PATH_IMAGE011
,并记录upper limit和lower limit ,
Figure 551281DEST_PATH_IMAGE012
步骤2[处理新数据向量]:读入一个新的训练数据向量并对其标准化,记录结果为
Figure DEST_PATH_IMAGE013
,如果
Figure 367927DEST_PATH_IMAGE014
,使得,那么转至步骤3,否则转至步骤4;
步骤3[
Figure 104939DEST_PATH_IMAGE006
并入
Figure 441374DEST_PATH_IMAGE016
]:
Figure DEST_PATH_IMAGE017
,同时更新
Figure 933535DEST_PATH_IMAGE016
的参数,现有的类总个数不变;
步骤4[
Figure 909581DEST_PATH_IMAGE006
自成一类]:由
Figure 450284DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
其中n为聚类结果集中聚类的个数;
步骤5:所有历史训练数据向量都已经处理完,则阶段一终止;否则,返回步骤2;
阶段二:预测算法包括如下步骤:
步骤6[初始化]:
Figure 906804DEST_PATH_IMAGE020
步骤7[计算距离]:计算向量
Figure DEST_PATH_IMAGE021
与聚类结果集
Figure 304288DEST_PATH_IMAGE022
中聚类的距离,若
Figure DEST_PATH_IMAGE023
,转至步骤9;若,转至步骤8;否则,令
Figure DEST_PATH_IMAGE025
,转至步骤7;
步骤8[寻找最近距离]:从距离集合
Figure 987390DEST_PATH_IMAGE026
中找到一个
Figure DEST_PATH_IMAGE027
,使得
Figure 485367DEST_PATH_IMAGE027
为集合中的最小值;
步骤9[确定相似模型]:根据
Figure 23632DEST_PATH_IMAGE027
确定聚类模型在聚类结果集中的序号为
Figure DEST_PATH_IMAGE029
,即相似的聚类模型为
Figure 968454DEST_PATH_IMAGE030
步骤10[计算预测向量]:根据聚类模型
Figure 320938DEST_PATH_IMAGE030
得到向量
Figure 76535DEST_PATH_IMAGE021
的预测向量
2.根据权利要求1所述的方法,其特征在于:根据阶段一:学习算法设定预测向量
Figure 576787DEST_PATH_IMAGE031
安全范围。
CN201110286146.3A 2011-09-24 2011-09-24 一种基于海量数据挖掘的设备状态预测方法 Expired - Fee Related CN103020006B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110286146.3A CN103020006B (zh) 2011-09-24 2011-09-24 一种基于海量数据挖掘的设备状态预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110286146.3A CN103020006B (zh) 2011-09-24 2011-09-24 一种基于海量数据挖掘的设备状态预测方法

Publications (2)

Publication Number Publication Date
CN103020006A true CN103020006A (zh) 2013-04-03
CN103020006B CN103020006B (zh) 2016-09-07

Family

ID=47968628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110286146.3A Expired - Fee Related CN103020006B (zh) 2011-09-24 2011-09-24 一种基于海量数据挖掘的设备状态预测方法

Country Status (1)

Country Link
CN (1) CN103020006B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105187239A (zh) * 2015-08-17 2015-12-23 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于数据挖掘的通信告警分析系统及其处理方法
CN105306252A (zh) * 2015-09-19 2016-02-03 北京暴风科技股份有限公司 一种自动判别服务器故障的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030119063A1 (en) * 2002-09-03 2003-06-26 Pham Thang T. High accuracy protein identification
CN1975720A (zh) * 2006-12-27 2007-06-06 章毅 一种基于Web的数据挖掘系统及其控制方法
CN101609986A (zh) * 2008-06-20 2009-12-23 上海申瑞电力科技股份有限公司 基于决策树的多级联合协调自动电压控制方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030119063A1 (en) * 2002-09-03 2003-06-26 Pham Thang T. High accuracy protein identification
CN1975720A (zh) * 2006-12-27 2007-06-06 章毅 一种基于Web的数据挖掘系统及其控制方法
CN101609986A (zh) * 2008-06-20 2009-12-23 上海申瑞电力科技股份有限公司 基于决策树的多级联合协调自动电压控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙吉贵等: "聚类算法研究", 《软件学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105187239A (zh) * 2015-08-17 2015-12-23 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于数据挖掘的通信告警分析系统及其处理方法
CN105306252A (zh) * 2015-09-19 2016-02-03 北京暴风科技股份有限公司 一种自动判别服务器故障的方法

Also Published As

Publication number Publication date
CN103020006B (zh) 2016-09-07

Similar Documents

Publication Publication Date Title
Pang et al. Spatio-temporal fusion neural network for multi-class fault diagnosis of wind turbines based on SCADA data
CN104102773B (zh) 一种设备故障预警及状态监测方法
CN102520697B (zh) 一种远程协同诊断的现场信息预处理方法
CN102521604B (zh) 一种基于巡检系统的设备性能退化评估装置及方法
CN110162445A (zh) 基于主机日志及性能指标的主机健康评价方法及装置
CN111817880A (zh) 一种油气田生产设备健康管理系统以及实现方法
CN110175324A (zh) 一种基于数据挖掘的电网运行操作指令校验方法及系统
CN105571638A (zh) 一种机械设备故障组合预测系统及方法
Peng et al. Review of key technologies and progress in industrial equipment health management
CN108536130A (zh) 一种群智能寻优的化工故障诊断系统
CN105574604A (zh) 一种面向电网运行事件的监控预判分析系统
CN108051637A (zh) 一种智能电能表时钟电池故障诊断方法
Huang et al. Turnout fault diagnosis based on CNNs with self-generated samples
CN107607342A (zh) 空调机房设备群的健康能效检测方法
Liang et al. Multi-running state health assessment of wind turbines drive system based on BiLSTM and GMM
CN103425845B (zh) 一种用于核动力装置的安全可靠性评价系统及方法
CN103020006A (zh) 一种基于海量数据挖掘的设备状态预测方法
CN104879295A (zh) 一种基于多层流模型和故障树最小割集的大型复杂系统故障诊断方法
Duan et al. Diagnosis strategy for complex systems based on reliability analysis and MA DM under epistemic uncertainty
CN114320773B (zh) 一种基于功率曲线分析与神经网络的风电机组故障预警方法
CN115641549B (zh) 一种主推进柴油机组健康监测方法和系统
CN102024084A (zh) 具有模糊多态特性的可靠性模型的建立及其使用方法
CN103646095A (zh) 一种基于数据驱动的共因失效的可靠性判断系统及方法
Jadidi et al. A survey of cyber-physical systems applications (2017–2022)
CN102707228A (zh) 基于神经网络专家系统的电机故障智能诊断系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160907

Termination date: 20190924

CF01 Termination of patent right due to non-payment of annual fee