CN105654392A - 一种基于聚类算法的设备家族性缺陷的分析方法 - Google Patents
一种基于聚类算法的设备家族性缺陷的分析方法 Download PDFInfo
- Publication number
- CN105654392A CN105654392A CN201510834878.XA CN201510834878A CN105654392A CN 105654392 A CN105654392 A CN 105654392A CN 201510834878 A CN201510834878 A CN 201510834878A CN 105654392 A CN105654392 A CN 105654392A
- Authority
- CN
- China
- Prior art keywords
- data
- canopy
- algorithm
- value
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007547 defect Effects 0.000 title claims abstract description 40
- 238000004458 analytical method Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000010606 normalization Methods 0.000 claims abstract description 5
- 238000013507 mapping Methods 0.000 claims abstract description 4
- 230000007812 deficiency Effects 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000006116 polymerization reaction Methods 0.000 abstract description 3
- 239000002699 waste material Substances 0.000 abstract description 2
- 238000011161 development Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000002950 deficient Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 206010061619 Deformity Diseases 0.000 description 1
- 206010033799 Paralysis Diseases 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001012 protector Effects 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于电力系统调度自动化技术领域,涉及一种基于聚类算法的设备家族性缺陷的分析方法。步骤如下:(1)从设备告警信息数据与日常管理数据中提取出N种特征,将他们组成一个N维向量,完成从原始数据集合到N维向量空间的映射。(2)使用特征标准化的归一化方法,将数据进行处理,消除数据量级差异带来的误差;(3)用canopy算法将数据集合进行“粗“聚合求出K值。(4)用KMeans算法将数据集合进行“精“聚类。(5)使用粗糙集算法计算出关键属性。(6)手肘法(Elbow?method)确定K值。本发明减少了人力资源的浪费,从原来的经验判断转化为通过算法分析得出,提高了事件处置效率。
Description
技术领域
本发明属于电力系统调度自动化技术领域,通过主站系统采集的设备告警信息数据、监控日志缺陷数据及设备台帐数据,采用大数据挖掘技术,研究一种基于聚类算法的设备家族性缺陷的分析方法。
背景技术
随着经济的快速发展,社会用电量同比快速增长,电网规模快速扩张,电网结构日益复杂;母线、变压器、刀闸等电力设备数量快速增长,电力设备运行产生的数据信息也越来越多。众所周知保证电网安全稳定运行是电网工作重要环节之一,而电力设备缺陷对电网安全运行影响极大;传统的对电力设备的研究,是通过人工对电力设备产生的数据信息进行分析,按照过往经验分析电力设备的状态,然而随着电网规模快速扩张这种传统的方式已经逐渐不能满足生产和运行的需要。通过大数据技术分析设备监控数据,得出设备的缺陷情况,进而保证电网的安全运行,是近年来对电力设备管理分析发展趋势之一。
保证电力设备的正常运行是保证电网安全稳定运行的重要组成部分,随着电网规模和结构的发展,对电力设备的可靠性要求越来越高,需要在电网运行中,及时发现设备缺陷及是否影响电网安全运行风险,调控人员分析出家族性设备缺陷于萌芽之中。在电网运行过程中电力设备发生缺陷,家族性缺陷影响更大。家族性缺陷是指同一厂家生产的不同型号、不同规格、不同系列,甚至不同品种电力设备,在运行中出现的同一类缺陷,可能由产品工艺、材料、设计理念和思路等因素造成。在电网运行的过程中,潜在的家族性缺陷对电网运行的威胁性极大,一旦出现将会造成大范围的不良影响,甚至导致供电瘫痪。因此,在发现某些设备存在缺陷时,及时分析家族性缺陷存在的可能性显得尤其重要。
分析设备的家族性缺陷情况,通过保护装置告警信号及厂站运维人员上报数据发现设备缺陷,并记录在监控日志中。由于厂站逐年建设增加,电网设备告警信息量也在增加。分析厂家生产的设备缺陷情况,减少设备告警对电网运行安全核心技术问题。随着研究的深入,依据缺陷告警信号、缺陷日志和设备台帐信息关键参数,结合聚类算法分析家族性设备缺陷。
发明内容
本发明要解决的技术问题如下:
(1)数据量级差异
在算法的实现过程中,数据量级从个位数到10n都有,数据本身量级的差异会导致数据湮灭对分析过程产生不良影响,导致分析出的结果集出现偏差,进而影响最终分析得出的家族性缺陷。
(2)初始划分问题
家族性缺陷是一类多种缺陷,而最初并不确定在当前数据集合中存在家族性缺陷的数目,因此如何定义K值及将数据集划分为K簇和选定初始化中心点,对K-means算法很重要。
(3)关键属性问题
每一条缺陷信息都有一组N个属性与之对应,然而并非所有的属性都是决定此条缺陷信息可能归属与哪一类家族性缺陷的关键属性。如何通过算法找出隐藏其中的关键属性也是实现该算法的重要组成部分。
(4)如何选取最终的K值
在(2)中我们解决了如何初始化选择一个K值,来使用聚类算法分析家族性缺陷,但是此K值并不一定是最佳K值,需要给定一个合适的类簇指标,来衡量K值。
本发明的技术方案如下:
(1)从设备告警信息数据与日常管理数据中提取出N种特征,将他们组成一个N维向量,完成从原始数据集合到N维向量空间的映射。
(2)使用特征标准化的归一化方法,将数据进行处理,消除数据量级差异带来的误差;
(3)用canopy算法将数据集合进行“粗“聚合求出K值。
(4)用KMeans算法将数据集合进行“精“聚类。
(5)使用粗糙集算法计算出关键属性。关键告警信号集合就是指,其中的属性满足以下条件:删除该属性后,新的属性集合导致原有系统发生决策冲突,即缺陷发现和缺陷未发现的情况。
(6)手肘法(Elbowmethod)确定K值。
本发明的有益效果在于:
与现有技术相比,本发明具有如下优点:
(1)更加智能化,将通过K-Means算法分析出的家族性缺陷维护到规则库中,当出现一条新的缺陷信息时,分别计算此条信息与已知家族性缺陷的匹配度,进而推送出对应的处置预案。
(2)提高效率,与传统方式相比,减少了人力资源的浪费,从原来的经验判断转化为通过算法分析得出,提高了事件处置效率;
(3)由于规则库的存在,当出现新老调度员交接时,不再像之前需要很长一段时间交接,当出现缺陷事故时,调度员可参照规则库过往案例自行处置。
(4)由被动变主动,过去往往发生缺陷之后才能判断是否是家族性缺陷,而且当样本数量少时,即缺陷发生次数少时,并不能判断是否是家族性缺陷,当发生缺陷时,只能被动处理,现在可以提前预判那些缺陷可能是家族性缺陷,从而提前处理或者制定处置预案。
附图说明
图1:家族性缺陷分析建模。
图2:具体实现流程图。
具体实施方式
下面结合附图,对本发明的技术方案作进一步的阐述。
本发明的技术方案具体如下:
(1)从设备告警信息与日常管理数据提取N中特征,完成从原始数据集合到N维向量(x1,x2,x3......,xn)的映射。
(2)将数据归一化;样本数据集合每一个维度都具有零均值和单位方差。计算每一个维度上数据的均值和标准差,先在每一个维度上与该均值求差,然后在数据的每个维度上与该维度上数据的标准差相除。具体如下:
(其中μi为xi这个维度上的均值,σi为xi该维度上的标准差)
(3)将原始设备缺陷数据向量化得到一个结果集result后放入内存中,选择两个距离阈值:S1和S2,其中S1>S2;
(4)从结果集result中任取一个数据向量用低计算成本方法ranggeCanopy)快速计算与所有Canopy之间的距离(如果当前不存在Canopy,则把作为一个Canopy),如果T与某个Canopy距离在S1以内,则将加入到这个Canopy;
(5)如果曾经与某个Canopy的距离在S2以内,则需要把从result中删除,此时认为与这个Canopy已经足够接近,它不可以再做其它Canopy的中心;
(6)重复步骤2、3,直到result为空结束。进而得出一个“粗“聚类,进而得到K值;
(7)遍历数据集合result,将每个数据划分到最近的中心点中;计算每个聚类的平均值,并作为新的中心点,每个点到中心点的距离公式如下:
其中xi为当前数据向量第i个向量分量,ki为聚类中心点第i个分量;
重复6-7,直到这k个中心点收敛或达到要求;
(8)确定最佳K值:类簇的半径是指类簇内所有点到类簇中心距离的最大值。可选择K个类簇的平均质心加权平均值作为衡量指标,当类簇数目等于或者高于真实的类簇数目时,该指标会上升缓慢,而一旦想得到少于真实数目的类簇时,该指标会急剧上升,该点即为手肘(Elbow)对应的最佳的K值。
(9)针对每一个类簇中的对象向量,如果剔除其中的某几个向量分量(xj...xk...xm),计算类簇内的向量相似度,如果依然有很高相似度,说明踢出的向量分量不是关键元素,如果相似度明显降低,说明此向量分量为关键元素,进而提炼出导致家族性缺陷的关键属性。
Claims (2)
1.一种基于聚类算法的设备家族性缺陷的分析方法,其特征在于,所述方法步骤如下:
(1)从设备告警信息与日常管理数据提取N种特征,完成从原始数据集合到N维向量(x1,x2,x3……,xn)的映射;
(2)将数据归一化;
(3)将原始设备缺陷数据向量化得到一个结果集result后放入内存中,选择两个距离阈值:S1和S2,其中S1>S2;
(4)从结果集result中任取一个数据向量用低计算成本方法rangge快速计算与所有Canopy之间的距离,如果当前不存在Canopy,则把作为一个Canopy;如果T与某个Canopy距离在S1以内,则将加入到这个Canopy;
(5)如果曾经与某个Canopy的距离在S2以内,则需要把从result中删除,此时认为与这个Canopy已经足够接近,它不可以再做其它Canopy的中心;
(6)重复步骤(2)、(3),直到result为空结束,进而得出一个“粗“聚类,进而得到K值;
(7)遍历数据集合result,将每个数据划分到最近的中心点中;计算每个聚类的平均值,并作为新的中心点,每个点到中心点的距离公式如下:
其中xi为当前数据向量第i个向量分量,ki为聚类中心点第i个分量;重复6-7,直到这k个中心点收敛或达到要求;
(8)确定最佳K值:类簇的半径是指类簇内所有点到类簇中心距离的最大值;可选择K个类簇的平均质心加权平均值作为衡量指标,当类簇数目等于或者高于真实的类簇数目时,该指标会上升缓慢,而一旦想得到少于真实数目的类簇时,该指标会急剧上升,该点即为手肘(Elbow)对应的最佳的K值;
(9)针对每一个类簇中的对象向量,如果剔除其中的某几个向量分量(xj…xk…xm),计算类簇内的向量相似度,如果依然有很高相似度,说明踢出的向量分量不是关键元素,如果相似度明显降低,说明此向量分量为关键元素,进而提炼出导致家族性缺陷的关键属性。
2.根据权利要求1所述的一种基于聚类算法的设备家族性缺陷的分析方法,其特征在于,所述步骤(2)数据归一化具体方法如下:
样本数据集合每一个维度都具有零均值和单位方差;计算每一个维度上数据的均值和标准差,先在每一个维度上与该均值求差,然后在数据的每个维度上与该维度上数据的标准差相除;具体如下:
(其中μi为xi这个维度上的均值,σi为xi该维度上的标准差)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510834878.XA CN105654392A (zh) | 2015-11-26 | 2015-11-26 | 一种基于聚类算法的设备家族性缺陷的分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510834878.XA CN105654392A (zh) | 2015-11-26 | 2015-11-26 | 一种基于聚类算法的设备家族性缺陷的分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105654392A true CN105654392A (zh) | 2016-06-08 |
Family
ID=56481809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510834878.XA Pending CN105654392A (zh) | 2015-11-26 | 2015-11-26 | 一种基于聚类算法的设备家族性缺陷的分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105654392A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106484838A (zh) * | 2016-09-30 | 2017-03-08 | 中国南方电网有限责任公司 | 基于数据挖掘的安全检查标准库动态更新方法 |
CN107180267A (zh) * | 2017-06-01 | 2017-09-19 | 国家电网公司 | 一种二次运维管理系统的家族性缺陷诊断方法 |
CN107515892A (zh) * | 2017-07-07 | 2017-12-26 | 国网浙江省电力公司 | 一种基于大数据挖掘的电网低电压成因诊断方法 |
CN107608990A (zh) * | 2016-07-12 | 2018-01-19 | 上海视畅信息科技有限公司 | 一种直播个性化推荐方法 |
CN112435078A (zh) * | 2020-12-14 | 2021-03-02 | 四川长虹电器股份有限公司 | 一种用户忠诚度分类的方法 |
-
2015
- 2015-11-26 CN CN201510834878.XA patent/CN105654392A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608990A (zh) * | 2016-07-12 | 2018-01-19 | 上海视畅信息科技有限公司 | 一种直播个性化推荐方法 |
CN107608990B (zh) * | 2016-07-12 | 2023-03-24 | 上海视畅信息科技有限公司 | 一种直播个性化推荐方法 |
CN106484838A (zh) * | 2016-09-30 | 2017-03-08 | 中国南方电网有限责任公司 | 基于数据挖掘的安全检查标准库动态更新方法 |
CN107180267A (zh) * | 2017-06-01 | 2017-09-19 | 国家电网公司 | 一种二次运维管理系统的家族性缺陷诊断方法 |
CN107180267B (zh) * | 2017-06-01 | 2020-05-05 | 国家电网公司 | 一种二次运维管理系统的家族性缺陷诊断方法 |
CN107515892A (zh) * | 2017-07-07 | 2017-12-26 | 国网浙江省电力公司 | 一种基于大数据挖掘的电网低电压成因诊断方法 |
CN112435078A (zh) * | 2020-12-14 | 2021-03-02 | 四川长虹电器股份有限公司 | 一种用户忠诚度分类的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105654392A (zh) | 一种基于聚类算法的设备家族性缺陷的分析方法 | |
CN106504116B (zh) | 基于电网运行与暂态稳定裕度指标关联的稳定评估方法 | |
CN106446016A (zh) | 一种基于并行关联规则挖掘的配电网运行可靠性预测方法 | |
CN116148679B (zh) | 一种电池健康状态的预测方法及相关装置 | |
CN105372557A (zh) | 基于关联规则的电网资源故障诊断方法 | |
CN104463709A (zh) | 一种基于决策树的变电站告警信息处理方法 | |
CN103455563A (zh) | 一种适用于智能变电站一体化监控系统的数据挖掘方法 | |
CN102982394A (zh) | 配电网负荷参数辨识方法及系统 | |
CN104020396A (zh) | 一种基于数据挖掘的电网故障诊断方法 | |
CN110110907B (zh) | 一种低压台区特征参数的提取方法 | |
CN108448721A (zh) | 电力系统主站监控信号与标准信号自动匹配的方法 | |
CN103632306A (zh) | 一种基于聚类分析的配电网供电区域划分方法 | |
CN110348683A (zh) | 电能质量扰动事件主成因分析方法、装置设备及存储介质 | |
CN105373620A (zh) | 大规模电池储能电站海量电池数据异常检测方法及系统 | |
Gao et al. | Defect analysis of the same batch of substation equipment based on big data analysis algorithm | |
CN110826735A (zh) | 一种电力scada智能多维查询检修方法 | |
CN114491081A (zh) | 基于数据血缘关系图谱的电力数据溯源方法及系统 | |
CN105429138B (zh) | 基于小波变换的同调机群识别方法及装置 | |
CN115912359B (zh) | 基于大数据的数字化安全隐患识别排查治理方法 | |
CN111382763A (zh) | 一种光伏集群划分方法及系统 | |
CN114880380A (zh) | 一种基于密度聚类和自组织网络的电网告警数据关联溯源系统的实现方法 | |
Zhou et al. | A review of a text classification technique: K-Nearest Neighbor | |
CN113191409A (zh) | 标签数据扩充与深度学习的居民异常用电行为检测方法 | |
CN107992590B (zh) | 一种有利于信息比对的大数据系统 | |
CN112668834A (zh) | 一种基于数据增维及随机张量理论的配网台区智能电表运行状态监测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160608 |
|
RJ01 | Rejection of invention patent application after publication |