CN107025293A - 一种电力二次设备缺陷数据挖掘方法及系统 - Google Patents
一种电力二次设备缺陷数据挖掘方法及系统 Download PDFInfo
- Publication number
- CN107025293A CN107025293A CN201710243390.9A CN201710243390A CN107025293A CN 107025293 A CN107025293 A CN 107025293A CN 201710243390 A CN201710243390 A CN 201710243390A CN 107025293 A CN107025293 A CN 107025293A
- Authority
- CN
- China
- Prior art keywords
- power equipment
- defect
- defective data
- data
- collection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002950 deficient Effects 0.000 title claims abstract description 125
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000007547 defect Effects 0.000 claims abstract description 207
- 238000007418 data mining Methods 0.000 claims description 23
- 238000004140 cleaning Methods 0.000 claims description 17
- 230000005611 electricity Effects 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 238000005065 mining Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 230000008676 import Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 abstract description 18
- 238000009412 basement excavation Methods 0.000 abstract description 10
- 238000010168 coupling process Methods 0.000 abstract description 10
- 238000005859 coupling reaction Methods 0.000 abstract description 10
- 238000005516 engineering process Methods 0.000 abstract description 10
- 230000008878 coupling Effects 0.000 abstract description 9
- 238000007405 data analysis Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 7
- 238000007689 inspection Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000009131 signaling function Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2425—Iterative querying; Query formulation based on the results of a preceding query
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种电力二次设备缺陷数据挖掘方法及系统,用于解决现有技术中对于二次设备缺陷数据的挖掘和分析仍然缺乏理论性和系统性,导致数据之间的耦合和关联关系等重要特性在简单的分析中被忽略及数据分析的自动化和智能化程度不高,分析技术和工具欠缺的技术问题。本发明实施例方法包括:根据获取到的电力二次设备缺陷数据构建电力二次设备的缺陷集,缺陷集包括电力二次设备的信息、电力二次设备的缺陷信息及缺陷原因;根据Apriori算法对缺陷集进行迭代搜索,获得缺陷集中的所有频繁项集,并根据频繁项集的置信度确定缺陷集的强关联规则。
Description
技术领域
本发明涉及电力二次设备技术领域,尤其涉及一种电力二次设备缺陷数据挖掘方法及系统。
背景技术
二次设备的可靠运行是电力系统安全稳定的重要保障。近年来,随着经济的飞速发展,电网规模不断扩大,电网中二次设备的数量也发生了跨越式的增长,“设备多人少”的矛盾给二次设备的运维人员带来了相当大的工作负担,同时也给电网运行带来了风险,二次设备的运维和管控水平亟待提高。
二次设备的运维人员在日常工作中会对所发现和处理的缺陷进行记录和归档,方便日后的查看、统计和分析。这些二次设备缺陷数据中蕴含着大量的有用信息,对缺陷数据进行挖掘和分析将对提升二次设备的运维和管控水平有着重要的意义。但当前对于二次设备缺陷数据的挖掘和分析仍然缺乏理论性和系统性,主要体现在分析方法简单,仅进行简单的分类和统计,对于数据之间的关联关系等重要特性并未涉及。
目前所采用的传统二次设备缺陷数据分析方法仅仅是针对传统二次设备进行简单的对比、统计、异常识别等,一方面数据之间的耦合和关联关系等重要特性在简单的分析中被忽略,另一方面自动化和智能化程度不高,分析技术和工具欠缺,制约了应用效果。
发明内容
本发明实施例提供了一种电力二次设备缺陷数据挖掘方法及系统,解决了现有技术中对于二次设备缺陷数据的挖掘和分析仍然缺乏理论性和系统性,导致数据之间的耦合和关联关系等重要特性在简单的分析中被忽略及数据分析的自动化和智能化程度不高,分析技术和工具欠缺的技术问题。
本发明实施例提供的一种电力二次设备缺陷数据挖掘方法,其特征在于,包括:
根据获取到的电力二次设备缺陷数据构建电力二次设备的缺陷集,缺陷集包括电力二次设备的信息、电力二次设备的缺陷信息及缺陷原因;
根据Apriori算法对缺陷集进行迭代搜索,获得缺陷集中的所有频繁项集,并根据频繁项集的置信度确定缺陷集的强关联规则。
可选地,根据获取到的电力二次设备缺陷数据构建电力二次设备的缺陷集,缺陷集包括电力二次设备的信息、电力二次设备的缺陷信息及缺陷原因之前包括:
导入原始的电力二次设备缺陷数据并将电力二次设备缺陷数据转化为数据库格式:
对电力二次设备缺陷数据进行数据清洗,通过语义识别统一电力二次设备缺陷数据的所有缺陷数据的描述方式及去除无关的缺陷数据,获得清洗后的电力二次设备缺陷数据。
可选地,对电力二次设备缺陷数据进行数据清洗,通过语义识别统一电力二次设备缺陷数据的所有缺陷数据的描述方式及去除无关的缺陷数据之后包括:
对原始的电力二次设备缺陷数据和清洗后的电力二次设备缺陷数据进行存储。
可选地,根据获取到的电力二次设备缺陷数据构建电力二次设备的缺陷集具体包括:
根据清洗后的电力二次设备缺陷数据通过公式一构建电力二次设备的缺陷集,公式一具体为:
Q=(F,T,R,P,L);
其中,向量F表示电力二次设备的生产厂家,向量T表示电力二次设备的型号,向量R代表电力二次设备的缺陷原因,向量P代表电力二次设备的缺陷部位,向量L表示电力二次设备的缺陷等级。
可选地,根据Apriori算法对缺陷集进行迭代搜索,获得缺陷集中的所有频繁项集,并根据频繁项集的置信度确定缺陷集的强关联规则之后包括:
对缺陷集的强关联规则进行图形化展示。
本发明实施例提供的一种电力二次设备缺陷数据挖掘系统,包括:
缺陷集构建模块,用于根据获取到的电力二次设备缺陷数据构建电力二次设备的缺陷集,缺陷集包括电力二次设备的信息、电力二次设备的缺陷信息及缺陷原因;
关联规则挖掘模块,用于根据Apriori算法对缺陷集进行迭代搜索,获得缺陷集中的所有频繁项集,并根据频繁项集的置信度确定缺陷集的强关联规则。
可选地,还包括:
缺陷数据接入模块,用于导入原始的电力二次设备缺陷数据并将电力二次设备缺陷数据转化为数据库格式;
缺陷数据清洗模块,用于对电力二次设备缺陷数据进行数据清洗,通过语义识别统一电力二次设备缺陷数据的所有缺陷数据的描述方式及去除无关的缺陷数据,获得清洗后的电力二次设备缺陷数据。
可选地,还包括:
缺陷数据存储模块,用于对原始的电力二次设备缺陷数据和清洗后的电力二次设备缺陷数据进行存储。
可选地,缺陷集构建模块具体包括:
缺陷集构建单元,用于根据清洗后的电力二次设备缺陷数据通过公式一构建电力二次设备的缺陷集,公式一具体为:
Q=(F,T,R,P,L);
其中,向量F表示电力二次设备的生产厂家,向量T表示电力二次设备的型号,向量R代表电力二次设备的缺陷原因,向量P代表电力二次设备的缺陷部位,向量L表示电力二次设备的缺陷等级。
可选地,还包括:
图形化展示模块,用于对缺陷集的强关联规则进行图形化展示。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例提供了一种电力二次设备缺陷数据挖掘方法及系统,包括:根据获取到的电力二次设备缺陷数据构建电力二次设备的缺陷集,缺陷集包括电力二次设备的信息、电力二次设备的缺陷信息及缺陷原因;根据Apriori算法对缺陷集进行迭代搜索,获得缺陷集中的所有频繁项集,并根据频繁项集的置信度确定缺陷集的强关联规则,本发明实施例中通过构建电力二次设备的缺陷集并利用Apriori算法对缺陷集进行数据挖掘,得到缺陷数据间的强关联规则,有效地分析了二次设备的薄弱环节,并能够追根溯源的找到诱发薄弱环节的原因,给二次设备运维和管控提供参考依据;还能够分析出设备厂家及其相应型号设备的家族性缺陷,对同一型号的设备验收和运维具有指导意义及分析各厂家在生产设备时存在的问题,使得设备质量的改进方案更加具有针对性,解决了现有技术中对于二次设备缺陷数据的挖掘和分析仍然缺乏理论性和系统性,导致数据之间的耦合和关联关系等重要特性在简单的分析中被忽略及数据分析的自动化和智能化程度不高,分析技术和工具欠缺的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种电力二次设备缺陷数据挖掘方法的一个实施例的流程示意图;
图2为本发明实施例提供的一种电力二次设备缺陷数据挖掘方法的另一个实施例的流程示意图;
图3为本发明实施例提供的一种基于数据挖掘结果的图形化展示示意图;
图4为本发明实施例提供的一种电力二次设备缺陷数据挖掘系统的结构示意图。
具体实施方式
本发明实施例提供了一种电力二次设备缺陷数据挖掘方法及系统,用于解决现有技术中对于二次设备缺陷数据的挖掘和分析仍然缺乏理论性和系统性,导致数据之间的耦合和关联关系等重要特性在简单的分析中被忽略及数据分析的自动化和智能化程度不高,分析技术和工具欠缺的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例提供的一种电力二次设备缺陷数据挖掘方法的一个实施例包括:
101、根据获取到的电力二次设备缺陷数据构建电力二次设备的缺陷集,缺陷集包括电力二次设备的信息、电力二次设备的缺陷信息及缺陷原因;
首先,根据目前的人员进行巡检时获得的或已有的电力二次设备缺陷数据构建电力二次设备的缺陷集。其中,电网二次设备的运行和维护人员在日常处理二次设备缺陷时往往会对缺陷相关的许多信息进行记录,主要可以分为三类:
1)与出现缺陷的二次设备本身紧密相关的信息,如设备的生产厂家、设备型号、设备的投运时间、发生缺陷的二次设备部位等;
2)针对缺陷的简要评价信息,如缺陷的级别,缺陷的主要原因等;
3)针对缺陷事件本身的发现处理等流程性的信息,如发现缺陷的时间,处理的时间,所涉及的专业等。
102、根据Apriori算法对缺陷集进行迭代搜索,获得缺陷集中的所有频繁项集,并根据频繁项集的置信度确定缺陷集的强关联规则。
然后,根据Apriori算法对缺陷集进行迭代搜索,获得缺陷集中的所有频繁项集,并根据频繁项集的置信度确定缺陷集的强关联规则。关联规则的挖掘算法采用Apriori算法。其核心思想是通过候选集生成和向下封闭检测来寻找频繁项集,即利用逐层搜索的迭代方法,利用“K-1项集”来搜索“K项集”。数据挖掘过程主要可以分为以下两步:
1)通过迭代,检索出样本中的所有频繁项集,即支持度不低于用户设定的最小支持度的项集;
2)通过比较频繁项集的置信度和最小置信度,确定强关联规则。
因此,确定缺陷集的强关联规则了之后,即可得到电力二次设备的信息、缺陷信息、缺陷原因之间的强关联规则,根据该强关联规则即可以获得电力二次设备缺陷之间的关联性。
本发明实施例提供了一种电力二次设备缺陷数据挖掘方法,包括:根据获取到的电力二次设备缺陷数据构建电力二次设备的缺陷集,缺陷集包括电力二次设备的信息、电力二次设备的缺陷信息及缺陷原因;根据Apriori算法对缺陷集进行迭代搜索,获得缺陷集中的所有频繁项集,并根据频繁项集的置信度确定缺陷集的强关联规则,本发明实施例中通过构建电力二次设备的缺陷集并利用Apriori算法对缺陷集进行数据挖掘,得到缺陷数据间的强关联规则,有效地分析了二次设备的薄弱环节,并能够追根溯源的找到诱发薄弱环节的原因,给二次设备运维和管控提供参考依据;还能够分析出设备厂家及其相应型号设备的家族性缺陷,对同一型号的设备验收和运维具有指导意义及分析各厂家在生产设备时存在的问题,使得设备质量的改进方案更加具有针对性,解决了现有技术中对于二次设备缺陷数据的挖掘和分析仍然缺乏理论性和系统性,导致数据之间的耦合和关联关系等重要特性在简单的分析中被忽略及数据分析的自动化和智能化程度不高,分析技术和工具欠缺的技术问题。
以上为对本发明实施例提供的一种电力二次设备缺陷数据挖掘方法的一个实施例进行的详细描述,以下将对本发明实施例提供的一种电力二次设备缺陷数据挖掘方法的另一个实施例进行详细的描述。
请参阅图2,本发明实施例提供的一种电力二次设备缺陷数据挖掘方法的另一个实施例包括:
201、导入原始的电力二次设备缺陷数据并将电力二次设备缺陷数据转化为数据库格式;
首先,由于当前电力二次设备缺陷数据主要以Excel表格的形式进行存储,为方便本方法的数据挖掘,需要将目前的人员进行巡检时获得的或已有的电力二次设备缺陷数据的Excel表格信息先进行导入,并转化为数据库格式。
202、对电力二次设备缺陷数据进行数据清洗,通过语义识别统一电力二次设备缺陷数据的所有缺陷数据的描述方式及去除无关的缺陷数据,获得清洗后的电力二次设备缺陷数据;
其次,电力二次设备缺陷数据都是由人工录入的,在许多缺陷的描述方法上存在一定的不统一性,为方便后续数据挖掘,需要对导入的电力二次设备缺陷数据进行数据清洗,通过语义识别统一电力二次设备缺陷数据的所有缺陷数据的描述方式及去除无关的缺陷数据,获得清洗后的电力二次设备缺陷数据。
203、对原始的电力二次设备缺陷数据和清洗后的电力二次设备缺陷数据进行存储;
然后,对原始的电力二次设备缺陷数据和清洗后的电力二次设备缺陷数据进行存储,为接下来的数据挖掘步骤提供数据来源。
204、根据清洗后的电力二次设备缺陷数据通过公式一构建电力二次设备的缺陷集,公式一具体为:
Q=(F,T,R,P,L);
其中,向量F表示电力二次设备的生产厂家,向量T表示电力二次设备的型号,向量R代表电力二次设备的缺陷原因,向量P代表电力二次设备的缺陷部位,向量L表示电力二次设备的缺陷等级;
数据的关联规则的挖掘主要是基于关联规则的二次设备缺陷数据挖掘模型,下面介绍模型的建立过程。
电网二次设备的运行和维护人员在日常处理二次设备缺陷时往往会对缺陷相关的许多信息进行记录,主要可以分为三类:
1)与出现缺陷的二次设备本身紧密相关的信息,如设备的生产厂家、设备型号、设备的投运时间、发生缺陷的二次设备部位等;
2)针对缺陷的简要评价信息,如缺陷的级别,缺陷的主要原因等;
3)针对缺陷事件本身的发现处理等流程性的信息,如发现缺陷的时间,处理的时间,所涉及的专业等。
其中,前两类信息主要用于缺陷的事后分析,而第三类更偏向于缺陷的管理。本文针对前两类信息,并考虑部分类型的信息之间存在冗余关系,提取出二次设备的生产厂家,二次设备型号,二次设备缺陷的原因,发生缺陷的设备部位以及缺陷等级等5项重要信息作为数据挖掘和缺陷分析的对象。
在数据挖掘中考虑二次设备的生产厂家与型号能有助于分析二次设备的共性问题和家族性缺陷;考虑二次设备缺陷原因和缺陷发生部位有助于分析设备的薄弱环节,为设计、调试和检修等提供建设性的参考依据;考虑缺陷的严重程度能够给不同的缺陷样本提供客观的区分度。
因此,构建关联规则项集Q用于表示二次设备的缺陷集,如公式一所示:
Q=(F,T,R,P,L);
其中,向量F表示电力二次设备的生产厂家,向量T表示电力二次设备的型号,向量R代表电力二次设备的缺陷原因,向量P代表电力二次设备的缺陷部位,向量L表示电力二次设备的缺陷等级。
二次设备的缺陷原因多种多样,主要包括参数设置错误,产品设计问题(如不满足设计要求、不满足反措要求等),产品质量问题(如工艺、原材料或品控等),超期服役,接触不良,施工不满足要求,未按要求进行验收以及强电场作用等。二次设备可能发生缺陷的部位包括程序固件,电源模块,功能插板,二次回路以及显示器等。缺陷的级别分为三个层次:一般、重大和紧急。
205、根据Apriori算法对缺陷集进行迭代搜索,获得缺陷集中的所有频繁项集,并根据频繁项集的置信度确定缺陷集的强关联规则;
最后,根据Apriori算法对缺陷集进行迭代搜索,获得缺陷集中的所有频繁项集,并根据频繁项集的置信度确定缺陷集的强关联规则。关联规则的挖掘算法采用Apriori算法。其核心思想是通过候选集生成和向下封闭检测来寻找频繁项集,即利用逐层搜索的迭代方法,利用“K-1项集”来搜索“K项集”。数据挖掘过程主要可以分为以下两步:
1)通过迭代,检索出样本中的所有频繁项集,即支持度不低于用户设定的最小支持度的项集;
2)通过比较频繁项集的置信度和最小置信度,确定强关联规则。
可见,每一个缺陷样本都是由这五类缺陷信息构建的五维空间上的一个点,通过Apriori算法挖掘最多可能获得频繁“5项集”。假设二次设备共有n个厂家,m个型号,p个缺陷原因,q个缺陷部位以及3个缺陷级别,则初始候选项集共包含有总数为n+m+p+q+3个项,在此基础上基于Apriori算法进行频繁项集的筛选以及关联规则的挖掘。
206、对缺陷集的强关联规则进行图形化展示。
最后,对挖掘出来的缺陷数据关联关系(即缺陷集的强关联规则)进行图形化的展示,给数据分析人员提供明显直观的数据挖掘结果,如图3所示,即为一个基于数据挖掘结果的图形化展示示意图。通过该图形化结果可以直观得出数据挖掘的分析结论,例如,图中显示重大缺陷很大程度上是由超期服役引发的,而基于这个强关联规则可知电源模块的缺陷主要是由超期服役引发的,解决了超期服役问题很大程度上能够管控测控装置的电源模块缺陷;再例如,厂家H所生产的测控装置出现功能插板(遥信板和遥测板)问题也比较多,常出现遥测信号和遥信信号错误等问题,在针对厂家H的装置进行出厂验收和现场验收时可以有针对性的对遥测和遥信功能进行重点检验。
本发明实施例提供了一种电力二次设备缺陷数据挖掘方法,包括:导入原始的电力二次设备缺陷数据并将电力二次设备缺陷数据转化为数据库格式;对电力二次设备缺陷数据进行数据清洗,通过语义识别统一电力二次设备缺陷数据的所有缺陷数据的描述方式及去除无关的缺陷数据,获得清洗后的电力二次设备缺陷数据;根据获取到的电力二次设备缺陷数据构建电力二次设备的缺陷集,缺陷集包括电力二次设备的信息、电力二次设备的缺陷信息及缺陷原因;根据Apriori算法对缺陷集进行迭代搜索,获得缺陷集中的所有频繁项集,并根据频繁项集的置信度确定缺陷集的强关联规则;对缺陷集的强关联规则进行图形化展示,本发明实施例中通过构建电力二次设备的缺陷集并利用Apriori算法对缺陷集进行数据挖掘,得到缺陷数据间的强关联规则,有效地分析了二次设备的薄弱环节,并能够追根溯源的找到诱发薄弱环节的原因,给二次设备运维和管控提供参考依据;还能够分析出设备厂家及其相应型号设备的家族性缺陷,对同一型号的设备验收和运维具有指导意义及分析各厂家在生产设备时存在的问题,使得设备质量的改进方案更加具有针对性,解决了现有技术中对于二次设备缺陷数据的挖掘和分析仍然缺乏理论性和系统性,导致数据之间的耦合和关联关系等重要特性在简单的分析中被忽略及数据分析的自动化和智能化程度不高,分析技术和工具欠缺的技术问题。
以上为对本发明实施例提供的一种电力二次设备缺陷数据挖掘方法的另一个实施例进行的详细描述,以下将对本发明实施例提供的一种电力二次设备缺陷数据挖掘系统进行详细的描述。
请参阅图4,本发明实施例提供的一种电力二次设备缺陷数据挖掘系统包括:
缺陷数据接入模块301,用于导入原始的电力二次设备缺陷数据并将电力二次设备缺陷数据转化为数据库格式;
缺陷数据清洗模块302,用于对电力二次设备缺陷数据进行数据清洗,通过语义识别统一电力二次设备缺陷数据的所有缺陷数据的描述方式及去除无关的缺陷数据,获得清洗后的电力二次设备缺陷数据;
缺陷数据存储模块303,用于对原始的电力二次设备缺陷数据和清洗后的电力二次设备缺陷数据进行存储;
缺陷集构建模块304,用于根据获取到的电力二次设备缺陷数据构建电力二次设备的缺陷集,缺陷集包括电力二次设备的信息、电力二次设备的缺陷信息及缺陷原因;缺陷集构建模块304包括缺陷集构建单元,用于根据清洗后的电力二次设备缺陷数据通过公式一构建电力二次设备的缺陷集,公式一具体为:
Q=(F,T,R,P,L);
其中,向量F表示电力二次设备的生产厂家,向量T表示电力二次设备的型号,向量R代表电力二次设备的缺陷原因,向量P代表电力二次设备的缺陷部位,向量L表示电力二次设备的缺陷等级。
关联规则挖掘模块305,用于根据Apriori算法对缺陷集进行迭代搜索,获得缺陷集中的所有频繁项集,并根据频繁项集的置信度确定缺陷集的强关联规则;
图形化展示模块306,用于对缺陷集的强关联规则进行图形化展示。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种电力二次设备缺陷数据挖掘方法,其特征在于,包括:
根据获取到的电力二次设备缺陷数据构建电力二次设备的缺陷集,所述缺陷集包括电力二次设备的信息、电力二次设备的缺陷信息及缺陷原因;
根据Apriori算法对所述缺陷集进行迭代搜索,获得所述缺陷集中的所有频繁项集,并根据所述频繁项集的置信度确定所述缺陷集的强关联规则。
2.根据权利要求1所述的电力二次设备缺陷数据挖掘方法,其特征在于,所述根据获取到的电力二次设备缺陷数据构建电力二次设备的缺陷集,所述缺陷集包括电力二次设备的信息、电力二次设备的缺陷信息及缺陷原因之前包括:
导入原始的电力二次设备缺陷数据并将所述电力二次设备缺陷数据转化为数据库格式;
对所述电力二次设备缺陷数据进行数据清洗,通过语义识别统一所述电力二次设备缺陷数据的所有缺陷数据的描述方式及去除无关的缺陷数据,获得清洗后的电力二次设备缺陷数据。
3.根据权利要求2所述的电力二次设备缺陷数据挖掘方法,其特征在于,所述对所述电力二次设备缺陷数据进行数据清洗,通过语义识别统一所述电力二次设备缺陷数据的所有缺陷数据的描述方式及去除无关的缺陷数据之后包括:
对所述原始的电力二次设备缺陷数据和所述清洗后的电力二次设备缺陷数据进行存储。
4.根据权利要求2所述的电力二次设备缺陷数据挖掘方法,其特征在于,所述根据获取到的电力二次设备缺陷数据构建电力二次设备的缺陷集具体包括:
根据所述清洗后的电力二次设备缺陷数据通过公式一构建电力二次设备的缺陷集,所述公式一具体为:
Q=(F,T,R,P,L);
其中,向量F表示电力二次设备的生产厂家,向量T表示电力二次设备的型号,向量R代表电力二次设备的缺陷原因,向量P代表电力二次设备的缺陷部位,向量L表示电力二次设备的缺陷等级。
5.根据权利要求1所述的电力二次设备缺陷数据挖掘方法,其特征在于,所述根据Apriori算法对所述缺陷集进行迭代搜索,获得所述缺陷集中的所有频繁项集,并根据所述频繁项集的置信度确定所述缺陷集的强关联规则之后包括:
对所述缺陷集的强关联规则进行图形化展示。
6.一种电力二次设备缺陷数据挖掘系统,其特征在于,包括:
缺陷集构建模块,用于根据获取到的电力二次设备缺陷数据构建电力二次设备的缺陷集,所述缺陷集包括电力二次设备的信息、电力二次设备的缺陷信息及缺陷原因;
关联规则挖掘模块,用于根据Apriori算法对所述缺陷集进行迭代搜索,获得所述缺陷集中的所有频繁项集,并根据所述频繁项集的置信度确定所述缺陷集的强关联规则。
7.根据权利要求6所述的电力二次设备缺陷数据挖掘系统,其特征在于,还包括:
缺陷数据接入模块,用于导入原始的电力二次设备缺陷数据并将所述电力二次设备缺陷数据转化为数据库格式;
缺陷数据清洗模块,用于对所述电力二次设备缺陷数据进行数据清洗,通过语义识别统一所述电力二次设备缺陷数据的所有缺陷数据的描述方式及去除无关的缺陷数据,获得清洗后的电力二次设备缺陷数据。
8.根据权利要求7所述的电力二次设备缺陷数据挖掘系统,其特征在于,还包括:
缺陷数据存储模块,用于对所述原始的电力二次设备缺陷数据和所述清洗后的电力二次设备缺陷数据进行存储。
9.根据权利要求7所述的电力二次设备缺陷数据挖掘系统,其特征在于,所述缺陷集构建模块具体包括:
缺陷集构建单元,用于根据所述清洗后的电力二次设备缺陷数据通过公式一构建电力二次设备的缺陷集,所述公式一具体为:
Q=(F,T,R,P,L);
其中,向量F表示电力二次设备的生产厂家,向量T表示电力二次设备的型号,向量R代表电力二次设备的缺陷原因,向量P代表电力二次设备的缺陷部位,向量L表示电力二次设备的缺陷等级。
10.根据权利要求6所述的电力二次设备缺陷数据挖掘系统,其特征在于,还包括:
图形化展示模块,用于对所述缺陷集的强关联规则进行图形化展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710243390.9A CN107025293A (zh) | 2017-04-13 | 2017-04-13 | 一种电力二次设备缺陷数据挖掘方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710243390.9A CN107025293A (zh) | 2017-04-13 | 2017-04-13 | 一种电力二次设备缺陷数据挖掘方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107025293A true CN107025293A (zh) | 2017-08-08 |
Family
ID=59527788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710243390.9A Pending CN107025293A (zh) | 2017-04-13 | 2017-04-13 | 一种电力二次设备缺陷数据挖掘方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107025293A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107741990A (zh) * | 2017-11-01 | 2018-02-27 | 深圳汇生通科技股份有限公司 | 数据清洗整合方法及系统 |
CN110244184A (zh) * | 2019-07-04 | 2019-09-17 | 国网江苏省电力有限公司 | 一种频繁项集的配网线路故障规律挖掘方法、系统及介质 |
CN111797146A (zh) * | 2020-07-20 | 2020-10-20 | 贵州电网有限责任公司电力科学研究院 | 一种基于大数据的设备缺陷关联分析方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090271354A1 (en) * | 2006-10-05 | 2009-10-29 | International Business Machines Corporation | Method and system for obtaining a combination of faulty parts from a dispersed parts tree |
CN103341506A (zh) * | 2013-07-10 | 2013-10-09 | 鞍钢股份有限公司 | 一种基于数据模式的板形时间序列数据挖掘方法 |
CN103871003A (zh) * | 2014-03-31 | 2014-06-18 | 国家电网公司 | 一种应用历史故障数据的配电网故障诊断方法 |
CN104123298A (zh) * | 2013-04-26 | 2014-10-29 | 华为技术有限公司 | 产品缺陷的分析方法和设备 |
CN105843210A (zh) * | 2016-03-22 | 2016-08-10 | 清华大学 | 电力变压器缺陷信息数据挖掘方法 |
CN106529580A (zh) * | 2016-10-24 | 2017-03-22 | 浙江工业大学 | 结合edsvm的软件缺陷数据关联分类方法 |
-
2017
- 2017-04-13 CN CN201710243390.9A patent/CN107025293A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090271354A1 (en) * | 2006-10-05 | 2009-10-29 | International Business Machines Corporation | Method and system for obtaining a combination of faulty parts from a dispersed parts tree |
CN104123298A (zh) * | 2013-04-26 | 2014-10-29 | 华为技术有限公司 | 产品缺陷的分析方法和设备 |
CN103341506A (zh) * | 2013-07-10 | 2013-10-09 | 鞍钢股份有限公司 | 一种基于数据模式的板形时间序列数据挖掘方法 |
CN103871003A (zh) * | 2014-03-31 | 2014-06-18 | 国家电网公司 | 一种应用历史故障数据的配电网故障诊断方法 |
CN105843210A (zh) * | 2016-03-22 | 2016-08-10 | 清华大学 | 电力变压器缺陷信息数据挖掘方法 |
CN106529580A (zh) * | 2016-10-24 | 2017-03-22 | 浙江工业大学 | 结合edsvm的软件缺陷数据关联分类方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107741990A (zh) * | 2017-11-01 | 2018-02-27 | 深圳汇生通科技股份有限公司 | 数据清洗整合方法及系统 |
CN107741990B (zh) * | 2017-11-01 | 2023-05-16 | 深圳汇生通科技股份有限公司 | 数据清洗整合方法及系统 |
CN110244184A (zh) * | 2019-07-04 | 2019-09-17 | 国网江苏省电力有限公司 | 一种频繁项集的配网线路故障规律挖掘方法、系统及介质 |
CN111797146A (zh) * | 2020-07-20 | 2020-10-20 | 贵州电网有限责任公司电力科学研究院 | 一种基于大数据的设备缺陷关联分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Detection of power grid disturbances and cyber-attacks based on machine learning | |
WO2021184630A1 (zh) | 基于知识图谱定位排污对象的方法及相关设备 | |
CN111343161B (zh) | 异常信息处理节点分析方法、装置、介质及电子设备 | |
CN109204389B (zh) | 一种地铁设备故障诊断和自愈方法、系统 | |
CN111352971A (zh) | 银行系统监控数据异常检测方法及系统 | |
CN109936582A (zh) | 构建基于pu学习的恶意流量检测模型的方法及装置 | |
CN102667775B (zh) | 训练和使用具有关联规则模型的分类模型的方法 | |
CN111709765A (zh) | 一种用户画像评分方法、装置和存储介质 | |
CN109993189A (zh) | 一种网络故障预警方法、装置和介质 | |
CN111796957B (zh) | 基于应用日志的交易异常根因分析方法及系统 | |
CN116882978B (zh) | 一种基于产品信息框架的深海潜水器运维保障系统 | |
CN111126820A (zh) | 反窃电方法及系统 | |
CN109002810A (zh) | 模型评价方法、雷达信号识别方法及对应装置 | |
US11704186B2 (en) | Analysis of deep-level cause of fault of storage management | |
CN114760172B (zh) | 射频基带综合特征信号识别方法与装置 | |
CN107025293A (zh) | 一种电力二次设备缺陷数据挖掘方法及系统 | |
Duan et al. | Automated security assessment for the internet of things | |
CN116932523B (zh) | 一种整合和监管第三方环境检测机构的平台 | |
CN115358481A (zh) | 一种企业外迁预警识别的方法、系统及装置 | |
CN112581271B (zh) | 一种商户交易风险监测方法、装置、设备及存储介质 | |
CN116318925A (zh) | 一种多cnn融合入侵检测方法、系统、介质、设备及终端 | |
CN105930430A (zh) | 一种基于非累积属性的实时欺诈检测方法及装置 | |
CN111798237B (zh) | 基于应用日志的异常交易诊断方法及系统 | |
KR102448114B1 (ko) | 기술동향분석장치 및 그 동작 방법 | |
CN113807462A (zh) | 一种基于ai的网络设备故障原因定位方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170808 |
|
RJ01 | Rejection of invention patent application after publication |