CN112288014A

CN112288014A - 一种基于数据挖掘的设备全生命周期管理方法

Info

Publication number: CN112288014A
Application number: CN202011189047.9A
Authority: CN
Inventors: 尹春林; 刘柱揆; 赵现平; 杨政; 潘侃; 朱华
Original assignee: Electric Power Research Institute of Yunnan Power Grid Co Ltd
Current assignee: Electric Power Research Institute of Yunnan Power Grid Co Ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2021-01-29
Anticipated expiration: 2040-10-30
Also published as: CN112288014B

Abstract

本申请公开了一种基于数据挖掘的设备全生命周期管理方法，包括：采集设备台账数据、运行数据和检修数据；对数据进行特征分析和统一化表征；通过K‑means数据聚类算法对数据进行降维处理生成相似簇；利用Apriori算法挖掘数据属性之间的关联规则；依据所述关联规则进行故障分类，构建设备故障预测模型；依据设备运行数据和检修数据的权重，构建设备画像标签体系；基于设备台账数据、运行数据和检修数据训练所述设备故障预测模型得到资产设备画像预测模型；通过资产设备画像预测模型预测得到全生命周期运行的设备画像预测结果，通过设备画像预测结果和设备画像标签体系，优化企业设备资产需求采购、使用维护、报废环节。

Description

一种基于数据挖掘的设备全生命周期管理方法

技术领域

本申请涉及电网资产管理技术领域，尤其涉及一种基于数据挖掘的设备全生命周期管理方法。

背景技术

现代企业装备的特点，给企业的生产机构和设备维修管理业务带来许多变化。一方面，现代化设备在投产后会带来较高的经济效益。另一方面，由于设备的连续高速运转也带来了零部件的磨损加剧，使用寿命周期缩短。同时，它的停机损失，维修难度，维修成本等一系列问题，也给设备管理部门的工作增加了难度。

企业内部的资产全生命周期管理系统,它处于资产管理的核心地位，因为它是连接企业内部生产运行作业区和资产检修作业区之间的桥梁。传统的资产全生命周期管理是根据企业资产运行及库存情况，进行采购需求的提报，对于新购进的资产由验收人对设备的内部参数进行登记、存档，并将资产使用、维护、报废等运行及检修信息维护到资产全生命周期管理系统中。虽然企业有专门人工整点，但也增加了繁重的手工劳动。它存在着一系列缺点，例如由于大量零乱、没有相关联系的数据，编号不统一而且存在可能丢失纸质方案等因素的存在，导致了在检修和维护的过程中对相关有用资料的不方便的查找或信息缺失，这样就增加了检修成本和检修工期，企业生产力也因此受拖累而降低了，同时由于并未对设备台账、运行数据、检修数据等之间的存在的关系进行深入的分析及挖掘，企业无法对设备的可靠性、运行年限、检修计划进行有效的预测，因此无法根据各类型资产设备实际运行情况评估采购需求。

企业追求的价值最大化，最大程度的降低人工，材料方面的投资，这就要求企业把设备管理由被动管理转为主动管理，在这种前提下就需要有一套能够完全为设备管理的多种要求而设计的管理系统，能够满足有效的发挥设备的可有性，合理的安排检修，降低设备的库存需要,提高企业生产力，降低成本。

发明内容

本申请提供了一种基于数据挖掘的设备全生命周期管理方法，以解决现有技术中无法对设备的可靠性、运行年限、检修计划进行有效的预测，因此无法根据各类型资产设备实际运行情况使资产运行整体实现高收益的问题。

本申请采用的技术方案如下：

一种基于数据挖掘的设备全生命周期管理方法，包括以下步骤：

采集设备台账数据、运行数据和检修数据；

对采集到的所述设备台账数据、运行数据和检修数据进行特征分析和统一化表征；

按照实际需求设定所述设备运行数据和检修数据的数据标签和标签权重；

依据所述设备运行数据和检修数据的标签权重，构建设备画像标签体系；

通过K-means数据聚类算法对统一化表征后的所述设备台账数据、运行数据和检修数据属性进行降维处理，生成相似簇；

利用Apriori算法挖掘设备异常或故障数据与造成故障因素数据之间的关联规则；

依据所述关联规则对数据属性进行故障分类，构建设备故障预测模型；

基于所述设备台账数据、运行数据和检修数据，训练所述设备故障预测模型，得到资产设备画像预测模型；

通过所述资产设备画像预测模型得到全生命周期运行的设备画像预测结果；

通过所述设备画像预测结果和所述设备画像标签体系，优化企业设备资产全生命周期过程中的需求、采购、使用、维护、报废环节。

优选地，所述对采集到的所述设备台账数据、运行数据和检修数据进行特征分析和统一化表征之前，包括：

将采集到的所述设备台账数据、运行数据和检修数据处理空值数据、去除噪声数据和异常值；

将数据格式转换成挖掘所需的格式。

优选地，所述对采集到的所述设备台账数据、运行数据和检修数据进行特征分析和统一化表征，包括：

对于同一故障断面下的数据集进行表征如下，

式中，D_j，t表示在t时刻下发生j类故障采集到的数据集，F表示故障类别数目，包含电气量数据

环境监测数据

设备运行状态数据

安防监测数据

将上述数据进行统一化表示为：

D_j＝(x_j1，x_j2，...，x_jn)，n＝m^*N^*T

式中，m表示单一监测指标的个数，N表示在故障断面下采集数据的频率，T表示在故障断面下采集数据时长，x_j1，x_j2，...，x_jn分别表示发生j类故障时采集到的各个相关的造成故障因素数据，n表示故障数据类别。

优选地，所述通过K-means数据聚类算法对统一化表征后的所述设备台账数据、运行数据和检修数据属性进行降维处理，生成相似簇，包括：

对于数据集D，

D＝{D₁，D₂，...，D_j，...，D_F}，D＝(x_j1，x_j2，...，x_jn)

则相关样本D_s、D_j的欧式距离为：

其平均误差准则函数I_c为：

式中，x_si表示样本D_s数据集中的第i个个体,x_ji表示样本D_j的数据集中的第i个个体,x_j表示数据集D中第j个个体，k表示聚类族数，n_i表示第j族数据均值，t_j表示第j族数据个数；

根据数据集中的各个样本到预选中心的距离将其归到距离最小的类中；

通过上式计算所有归到各个类中数据的平均值；

更新每个类的中心，直到平方误差准则函数稳定在最小值，生成相似簇，实现数据分类。

优选地，所述利用Apriori算法挖掘数据属性之间的关联规则之前，包括：

当故障数据有限时，采用SMOTE算法结合故障数据特征，生成合成数据，扩充故障数据集。

优选地，利用Apriori算法挖掘数据属性之间的关联规则，包括：

设I＝{i₁，i₂，...，i_m}是项的集合，事务数据库D是由一系列具有唯一标志的事务组成，每个事务对应I上的一个子集，即

关联规则表示为

的逻辑蕴含式，其中

且X∩Y＝φ；

关联规则

支持度sup(X∪Y)是指事务数据库中包含X∪Y的事务占事务数据库中事务数的百分比；

关联规则

信度

是指事务数据库中包含X∪Y的事务数与包含X的事务数之比：

式中sum(X)表示包含X的事务数，N为事务数据库D中的事务数总数，sup(X)表示事务数据库中包含X的事务占事务数据库D中事务数的百分比；

利用Apriori算法找出设备异常或故障事务与造成故障因素事务之间的关联规则支持度不小于最小支持度阈值的项集，生成与设备异常或故障相关的所有频繁项集；

利用Apriori算法找出所述频繁项集中不小于最小置信度阈值的关联规则，生成设备异常或故障数据与造成故障因素数据之间的关联规则。

优选地，所述依据所述关联规则对数据属性进行故障分类，构建设备故障预测模型，包括：

依据所述关联规则确定设备故障分类的类别集合、分类结果的影响因素集以及所述影响因素集与所述类别集合之间的映射关系；

根据所述影响因素集与所述类别集合之间的映射关系，构建设备故障预测模型。

优选地，所述基于所述设备台账数据、运行数据和检修数据，训练所述设备故障预测模型，得到资产设备画像预测模型，和通过所述资产设备画像预测模型得到全生命周期运行的设备画像预测结果，包括：

将所述设备台账数据、运行数据和检修数据随机抽取一部分作为训练样本，其余数据作为预测样本；

对所述训练样本和所述预测样本进行归一化处理，离散化处理以及属性约简，确定校正后的训练样本和所述预测样本；

对所述校正后的训练样本进行训练，并采用十折交叉验证法作为测试模式，建立基于朴素贝叶斯分类器的资产设备画像预测模型；

通过所述资产设备画像预测模型对所述校正后的预测样本进行数据分类、挖掘分析，得到全生命周期运行的设备画像预测结果。

采用本申请的技术方案的有益效果如下：

本申请根据资产台账数据、运行数据、检修数据，利用数据挖掘技术对设备进行故障预测，在资产全生命周期管理流程中根据数据间的关系，帮助企业资产管理部门有效的安排设备检修计划、提出合理的采购需求，极大地提高工作效率，帮助设备管理人员解脱了繁重的手工劳动，同时能够合理的利用数据的潜在价值，通过信息的预测，使各级管理技术人员能够更好的掌握设备信息，合理的安排设备的检修和使用时间，提高了企业的整体生产力。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一种基于数据挖掘的设备全生命周期管理方法中进行故障分类的流程图；

图2为本申请一种基于数据挖掘的设备全生命周期管理方法中构建设备台账画像模型的流程图。

具体实施方式

下面将详细地对实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。

参见图1，为一种基于数据挖掘的设备全生命周期管理方法中进行故障分类的流程图。

如图1和图2所示，本申请提供的一种基于数据挖掘的设备全生命周期管理方法，包括以下步骤：

采集设备台账数据、运行数据和检修数据；

通过所述设备画像预测结果和所述设备画像标签体系，优化企业设备资产全生命周期过程中的需求、采购、使用、维护、报废环节，通过数据的提取、分析，挖掘出有价值的信息辅助企业进行决策分析。

所述对采集到的所述设备台账数据、运行数据和检修数据进行特征分析和统一化表征之前，包括：

将数据格式转换成挖掘所需的格式。

所述对采集到的所述设备台账数据、运行数据和检修数据进行特征分析和统一化表征，包括：

对于同一故障断面下的数据集进行表征如下，

环境监测数据

设备运行状态数据

安防监测数据

将上述数据进行统一化表示为：

D_j＝(x_j1，x_j2，...，x_jn)，n＝m^*N^*T

资产设备在运行过程中会产生多时间尺度、多时空维度的海量数据，对数据进行特征分析和统一化表征，便于后续进行数据分类和挖掘，使得挖掘精准度更高。

所述通过K-means数据聚类算法对统一化表征后的所述设备台账数据、运行数据和检修数据属性进行降维处理，生成相似簇，包括：

对于数据集D，

D＝{D₁，D₂，...，D_j，...，D_F}，D＝(x_j1，x_j2，...，x_jn)

则相关样本D_s、D_j的欧式距离为：

其平均误差准则函数I_c为：

通过上式计算所有归到各个类中数据的平均值；

所述利用Apriori算法挖掘数据属性之间的关联规则之前，包括：

利用Apriori算法挖掘数据属性之间的关联规则，包括：

关联规则表示为

的逻辑蕴含式，其中

且X∩Y＝φ；

关联规则

持度sup(X∪Y)是指事务数据库中包含X∪Y的事务占事务数据库D中事务数的百分比；

关联规则

置信度

是指事务数据库中包含X∪Y的事务数与包含X的事务数之比：

所述依据所述关联规则对数据属性进行故障分类，构建设备故障预测模型，包括：

所述基于所述设备台账数据、运行数据和检修数据，训练所述设备故障预测模型，得到资产设备画像预测模型，和通过所述资产设备画像预测模型得到全生命周期运行的设备画像预测结果，包括：

本申请针对电力设备运维与决策关联规则的挖掘，借助于实验模拟以及历史运行的实际数据信息，先通过K-means数据聚类算法对统一化表征后的所述设备台账数据、运行数据和检修数据属性进行降维处理，生成相似簇，再利用Apriori算法挖掘发现与特定设备异常/故障相关的所有频繁多项集，并建立关联规则，利用关联规则构建设备故障预测模型，然后训练所述设备故障预测模型得到资产设备画像预测模型，通过所述资产设备画像预测模型得到全生命周期运行的设备画像预测结果，通过所述设备画像预测结果和所述设备画像标签体系，优化企业设备资产全生命周期过程中的需求、采购、使用、维护、报废环节。本申请利用数据挖掘技术对设备进行故障预测，在资产全生命周期管理流程中根据数据间的关系，帮助企业资产管理部门有效的安排设备检修计划、提出合理的采购需求，同时能够合理的利用数据的潜在价值，通过信息的预测，使各级管理技术人员能够更好的掌握设备信息，合理的安排设备的检修和使用时间，提高了企业的整体生产效率。

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。