CN114187471A - 一种基于Canopy+FCM聚类的设备故障率模糊分类方法 - Google Patents

一种基于Canopy+FCM聚类的设备故障率模糊分类方法 Download PDF

Info

Publication number
CN114187471A
CN114187471A CN202111437613.8A CN202111437613A CN114187471A CN 114187471 A CN114187471 A CN 114187471A CN 202111437613 A CN202111437613 A CN 202111437613A CN 114187471 A CN114187471 A CN 114187471A
Authority
CN
China
Prior art keywords
clustering
canopy
data
fcm
fault rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111437613.8A
Other languages
English (en)
Inventor
陈丽娟
吴建军
王刚
代子阔
代东旭
刘永阔
佟锐
李卫家
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Liaoning Electric Power Co Ltd
Benxi Power Supply Co of Liaoning Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Liaoning Electric Power Co Ltd
Benxi Power Supply Co of Liaoning Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Liaoning Electric Power Co Ltd, Benxi Power Supply Co of Liaoning Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202111437613.8A priority Critical patent/CN114187471A/zh
Publication of CN114187471A publication Critical patent/CN114187471A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Canopy+FCM聚类的设备故障率模糊分类方法,将具有相同或相似特性的设备归为一类,类内采用同一故障率。具体包括以下步骤:S1.对数据进行预处理,采用Canopy聚类对故障率影响因素集数据进行粗聚类,确定聚类数和各聚类中心;S2.将步骤S1中的聚类结果作为FCM聚类算法的输入,进行第二次模糊聚类;S3.根据给定的故障率与各因素之间的分布模型,将聚类结果中各聚类中心代入,求得每一类设备的故障率。本发明采用的两重聚类法降低了人为选取聚类数和初始聚类中心的主观性,聚类结果具有较高的客观性,弥补了FCM聚类的不足。

Description

一种基于Canopy+FCM聚类的设备故障率模糊分类方法
技术领域
本发明涉及配电网设备模糊分类技术领域,具体地说,涉及一种基于Canopy+FCM聚类的设备故障率模糊分类方法。
背景技术
在我国配电网可靠性评估中,元件设备的故障率主要是以某一区域的平均值为输入,当故障率不再是一个定常数,而是一个跟多重因素相关的变化值时,在目前配电网规模越来越大的背景下,配电网可靠性的计算量和复杂度会大大增加。因此,对于研究提升配电网可靠性评估计算效率、减少计算量的方法具有重大的现实意义。
考虑配电网元件数量大,在实际配电网中有较多的元件具有比较相似的特性,如果将这些元件分为一类,如此可大大减小计算量。因此,可以对元件进行模糊聚类分析。这是一种多元统计“物以类聚”的分类方法,根据收集到的样本元件的特性进行模糊分类。因此,研究出一种有效的设备模糊分类方法十分必要。
发明内容
本发明提出了一种基于Canopy+FCM聚类的设备故障率模糊分类方法,将具有相同或相似特性的设备归为一类,类内采用同一故障率。该方法首先对数据进行预处理,采用Canopy聚类对故障率影响因素集数据进行粗聚类,确定聚类数和各聚类中心,其次将Canopy聚类结果的聚类中心和聚类数作为FCM聚类算法的初始聚类中心和聚类数目,进行第二次模糊聚类,最后根据故障率的分布模型,将C-FCM聚类的结果代入到分布模型中,计算出相应类别设备的故障率。
本发明提出的这种基于Canopy+FCM聚类的设备故障率模糊分类方法,包括如下步骤:
S1.对数据进行预处理,采用Canopy聚类对故障率影响因素集数据进行粗聚类,确定聚类数和各聚类中心;
S2.将步骤S1中的聚类结果作为FCM聚类算法的输入,进行第二次模糊聚类;
S3.根据给定的故障率与各因素之间的分布模型,将聚类结果中各聚类中心代入,求得每一类设备的故障率。
在步骤S1中,由于故障影响因素集合里的元素具有不同的单位和数量级,因此需要首先对其进行预处理:
假设被分类设备的论域U={x1,x2,...,xn},每个设备又由其m个影响因素表示其性状:xi={xi1,xi1,...,xim},i=1,2,...,n。
故障影响因素集的原始数据矩阵可表示为:
Figure BDA0003382304870000021
首先将原始数据矩阵中的元素进行标准差变换,消除量纲的影响:
Figure BDA0003382304870000022
式中:xik为原始数据矩阵dn×m中第i组数据的第k个因素;
Figure BDA0003382304870000023
为第k个因素的平均值;sk为第k个因素的标准差。
其次进行极差变换使原始数据矩阵中的元素标准化:
Figure BDA0003382304870000024
经过上述两次变换,标准化后有:xik∈[0,1]。
求取n组m维数据两两之间的欧氏距离dist(i,j),并求所有距离的平均值作为平均距离
Figure BDA0003382304870000025
设定阈值T1和T2,满足T1>T2。一般根据经验,可取
Figure BDA0003382304870000026
T1取T2的两倍。
从n组数据标准集中任取一组,在多维空间上为一个点,作为第一个Canopy,并将该点从数据标准集中删除。
计算数据标准集中其余n-1个点与该Canopy点的空间欧式距离dist(i,1)。若dist(i,1)<T2,则将该点所代表的数据集划入此Canopy点所代表的类别中。若存在dist(i,1)>T1,则将此点作为一个新的Canopy。将每一个已经分类的点从原始数据集中删除。并不断重复上述过程,求每组数据到所有Canopy的欧氏距离,通过判断其与阈值T1和T2的大小关系,将其分类。
另外,当一组数据所代表的点到每一个Canopy的欧氏距离都满足T2<dist(i,j)<T1时,同样将其视为一个新的Canopy。重复上述步骤,直至数据标准集为空集。
Canopy聚类结束,得到聚类数L和聚类中心集合C=[C1,C2,K,CL]。
在步骤S2中,首先基于步骤S1的粗聚类结果,可以获得标准化的数据矩阵dn×m、聚类数目L和初始聚类中心C=[C1,C2,K,CL]。
FCM将每一个数据标准集中的数据隶属于每一个聚类中心的程度模糊为一个0到1的值,主要是根据待聚类数据对C个聚类中心的隶属度大小来划分样本的。FCM的聚类模型为:
Figure BDA0003382304870000031
式中,xi为第i个待聚类数据;vk为第k个聚类中心;uki为第i个待聚类数据xi归属于第k个聚类中心的模糊隶属度;m为模糊指数,m∈[1,∞],其值既能影响FCM的聚类性能,又能衡量FCM算法的模糊程度。U为uki组成的模糊隶属度矩阵,又称划分矩阵;V为C个聚类中心vk组成的矩阵。
将上式变换为带约束的优化问题,将模型变为:
Figure BDA0003382304870000032
因此,FCM问题就转化为了带拉格朗日乘子λ的条件极值问题,分别对聚类中心vk和模糊隶属度uki求偏导,得到两者的更新迭代规则:
Figure BDA0003382304870000033
通过不断迭代更新vk和uki,当
Figure BDA0003382304870000034
FCM停止运行,输出模糊隶属度矩阵U和中心矩阵V。
在步骤S3中,假设设备的故障率与天气因子θw、维修因子γ和役龄t相关,给定设备的故障率分布模型为:
Figure BDA0003382304870000041
式中,θw为表示天气好坏程度的因子;γ为维修对设备性能的提升效果,类似于役龄回退因子,降低故障率的效果;t为设备投入运行的年限;T0为设备的设计寿命;b,β为拟合参数。
将C-FCM聚类结果的c个聚类中心的数据分别代入故障率分布模型λ(θw,γ,t)。得到了λi,i=1,2,...,c。分别作为c个类别的总体故障率情况。
综上所述,本发明提供一种基于Canopy+FCM聚类的设备故障率模糊分类方法,用于解决现有配电网元件较多、规模较大导致的配电网可靠性计算量较大的问题。在模糊C均值聚类方法的基础上,提出了基于Canopy法的粗聚类,算法自动求取最佳分类数和聚类中心,作为模糊C均值的初始输入。基于C-FCM的配电网设备模糊分类方法较单一的模糊分类方法更具客观性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。
图1为本发明公开的一种基于Canopy+FCM聚类的设备故障率模糊分类方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚、明确,下面结合附图并举实施例对本发明作进一步详细描述。
实施例:
如图1所示,一种基于Canopy+FCM聚类的设备故障率模糊分类方法,包括以下步骤:
S1.对数据进行预处理,采用Canopy聚类对故障率影响因素集数据进行粗聚类,确定聚类数和各聚类中心;
S2.将步骤S1中的聚类结果作为FCM聚类算法的输入,进行第二次模糊聚类;
S3.根据给定的故障率与各因素之间的分布模型,将聚类结果中各聚类中心代入,求得每一类设备的故障率。
具体实施时,步骤S1中:
针对辽宁某地电网10kV架空线的故障数据,其故障因素集里的元素主要是代表天气条件、运行年限、维修情况的天气因子、役龄、维修因子。
由于故障影响因素集合里的元素具有不同的单位和数量级,因此需要首先对其进行预处理:
假设被分类设备的论域U={x1,x2,...,xn},每个设备又由其m个影响因素表示其性状:xi={xi1,xi1,...,xim},i=1,2,...,n。
故障影响因素集的原始数据矩阵可表示为:
Figure BDA0003382304870000051
首先将原始数据矩阵中的元素进行标准差变换,消除量纲的影响:
Figure BDA0003382304870000052
式中:xik为原始数据矩阵dn×m中第i组数据的第k个因素;
Figure BDA0003382304870000053
为第k个因素的平均值;sk为第k个因素的标准差。
其次进行极差变换使原始数据矩阵中的元素标准化:
Figure BDA0003382304870000054
经过上述两次变换,标准化后有:xik∈[0,1]。
求取n组m维数据两两之间的欧氏距离dist(i,j),并求所有距离的平均值作为平均距离
Figure BDA0003382304870000055
设定阈值T1和T2,满足T1>T2。一般根据经验,可取
Figure BDA0003382304870000056
T1取T2的两倍。
从n组数据标准集中任取一组,在多维空间上为一个点,作为第一个Canopy,并将该点从数据标准集中删除。
计算数据标准集中其余n-1个点与该Canopy点的空间欧式距离dist(i,1)。若dist(i,1)<T2,则将该点所代表的数据集划入此Canopy点所代表的类别中。若存在dist(i,1)>T1,则将此点作为一个新的Canopy。将每一个已经分类的点从原始数据集中删除。并不断重复上述过程,求每组数据到所有Canopy的欧氏距离,通过判断其与阈值T1和T2的大小关系,将其分类。
另外,当一组数据所代表的点到每一个Canopy的欧氏距离都满足T2<dist(i,j)<T1时,同样将其视为一个新的Canopy。重复上述步骤,直至数据标准集为空集。
Canopy聚类结束,得到聚类数L=3;聚类中心集合C=[C1,C2,C3],结果如下表所示:
在步骤S2中,将L和C作为第二次模糊聚类的输入,避免人为确定最佳聚类数和聚类中心的主观性。
FCM将每一个数据标准集中的数据隶属于每一个聚类中心的程度模糊为一个0到1的值,主要是根据待聚类数据对C个聚类中心的隶属度大小来划分样本的。FCM的聚类模型为:
Figure BDA0003382304870000061
式中,xi为第i个待聚类数据;vk为第k个聚类中心;uki为第i个待聚类数据xi归属于第k个聚类中心的模糊隶属度;m为模糊指数,m∈[1,∞],其值既能影响FCM的聚类性能,又能衡量FCM算法的模糊程度。U为uki组成的模糊隶属度矩阵,又称划分矩阵;V为C个聚类中心vk组成的矩阵。
将上式变换为带约束的优化问题,将模型变为:
Figure BDA0003382304870000062
因此,FCM问题就转化为了带拉格朗日乘子λ的条件极值问题,分别对聚类中心vk和模糊隶属度uki求偏导,得到两者的更新迭代规则:
Figure BDA0003382304870000063
通过不断迭代更新vk和uki,当
Figure BDA0003382304870000071
FCM停止运行,输出模糊隶属度矩阵U和中心矩阵V。
在步骤S3中,假设设备的故障率是天气因子θw、维修因子γ和役龄t的函数,给定设备的故障率分布模型为:
Figure BDA0003382304870000072
式中,θw为表示天气好坏程度的因子;γ为维修对设备性能的提升效果,类似于役龄回退因子,降低故障率的效果;t为设备投入运行的年限;T0为设备的设计寿命;b,β为拟合参数。
将C-FCM聚类结果的3个聚类中心的数据分别代入故障率分布模型λ(θw,γ,t)。得到了λi,i=1,2,...,c。分别作为3个类别的总体故障率情况。
得到3个聚类中心如下表所示:
聚类中心 天气因子 维修因子 役龄
C<sub>1</sub> 0.083 0.624 17.2
C<sub>2</sub> 0.106 0.763 22.4
C<sub>3</sub> 0.121 0.912 26.8
将上述数据代入拟合过的故障率分布模型中,得到三种设备的故障率情况如下表所示:
设备类别 故障率
C<sub>1</sub> 0.0301
C<sub>2</sub> 0.0644
C<sub>3</sub> 0.1057

Claims (4)

1.一种基于Canopy+FCM聚类的设备故障率模糊分类方法,将具有相同或相似特性的设备归为一类,类内采用同一故障率;其特征在于,包含以下步骤:
S1.对数据进行预处理,采用Canopy聚类对故障率影响因素集数据进行粗聚类,确定聚类数和各聚类中心;
S2.将步骤S1中的聚类结果作为FCM聚类算法的输入,进行第二次模糊聚类;
S3.根据给定的故障率与各因素之间的分布模型,将聚类结果中各聚类中心代入,求得每一类设备的故障率。
2.根据权利要求1所述的一种基于Canopy+FCM聚类的设备故障率模糊分类方法,其特征在于,所述的步骤S1中,采用canopy聚类算法进行粗聚类,确定聚类数和其聚类中心,增加聚类结果的客观性;
为了避免各因素间单位和量级的差异性,采用下列式子对故障因素集数据C采用进行预处理:标准化以消除量纲的影响;
首先将数据集进行标准差变换消除量纲的影响:
Figure FDA0003382304860000011
式中:xik为第i组数据的第k个因素;
其次进行极差变换使原始数据集标准化:
Figure FDA0003382304860000012
设立阈值T1和T2,任选一组数据作为第一个canopy,并计算其余每组数据xi和canopy(j)的欧氏距离dist(i,j);
判断dist(i,j)与阈值T1和T2的关系,若dist(i,j)<T2成立,则将数据组xi划入canopy(j)类中;若dist(i,j)>T1成立,则将数据组xi视为一个新的canopy;若dist(i,j)<T1,且当数据组xi与所有canopy的欧氏距离计算完毕后仍然大于T2,即仍未加入任何一个canopy,则将该数据组xi视为一个新的canopy。
3.根据权利要求1所述的一种基于Canopy+FCM聚类的设备故障率模糊分类方法,其特征在于,所述的步骤S2中FCM模糊聚类的初始聚类数和聚类中心由步骤S1中的canopy算法运行结果确定而不是人为设定,进行二重聚类。
4.根据权利要求1所述的一种基于Canopy+FCM聚类的设备故障率模糊分类方法,其特征在于,所述的步骤S3中将二重聚类中心代入到故障率的分布模型中,计算出相应的故障率,并将其作为每一类的故障率代表值。
CN202111437613.8A 2021-11-30 2021-11-30 一种基于Canopy+FCM聚类的设备故障率模糊分类方法 Pending CN114187471A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111437613.8A CN114187471A (zh) 2021-11-30 2021-11-30 一种基于Canopy+FCM聚类的设备故障率模糊分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111437613.8A CN114187471A (zh) 2021-11-30 2021-11-30 一种基于Canopy+FCM聚类的设备故障率模糊分类方法

Publications (1)

Publication Number Publication Date
CN114187471A true CN114187471A (zh) 2022-03-15

Family

ID=80602960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111437613.8A Pending CN114187471A (zh) 2021-11-30 2021-11-30 一种基于Canopy+FCM聚类的设备故障率模糊分类方法

Country Status (1)

Country Link
CN (1) CN114187471A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115967683A (zh) * 2022-12-23 2023-04-14 重庆邮电大学 基于Canopy-FCM加权属性的未知协议分类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115967683A (zh) * 2022-12-23 2023-04-14 重庆邮电大学 基于Canopy-FCM加权属性的未知协议分类方法

Similar Documents

Publication Publication Date Title
WO2021073462A1 (zh) 基于相似日负荷曲线的10kV静态负荷模型参数辨识方法
CN111199016B (zh) 一种基于DTW的改进K-means的日负荷曲线聚类方法
CN111429027B (zh) 一种基于大数据的地区输电网运行多维度分析方法
WO2018045642A1 (zh) 一种母线负荷预测方法
CN110533331B (zh) 一种基于输电线路数据挖掘的故障预警方法和系统
CN111612053B (zh) 一种线损率合理区间的计算方法
CN111291822B (zh) 基于模糊聚类最优k值选择算法的设备运行状态判断方法
CN110610121B (zh) 基于曲线聚类的小时级源荷功率异常数据辨识与修复方法
CN111461921B (zh) 一种基于机器学习的负荷建模典型用户数据库更新方法
CN111539657B (zh) 结合用户日用电量曲线的典型用电行业负荷特性分类与综合方法
CN110738232A (zh) 一种基于数据挖掘技术的电网电压越限成因诊断方法
CN108428055A (zh) 一种考虑负荷纵向特性的负荷聚类方法
WO2024131524A1 (zh) 一种基于食物图像分割的抑郁症膳食管理方法
CN113361202A (zh) 一种基于特征负荷预测的配变重过载快速预警方法
CN114187471A (zh) 一种基于Canopy+FCM聚类的设备故障率模糊分类方法
CN111339167A (zh) 基于K-means和主成分线性回归的台区线损率影响因素分析方法
CN113158817B (zh) 一种基于快速密度峰聚类的客观天气分型方法
CN113327047A (zh) 基于模糊综合模型的电力营销服务渠道决策方法及系统
CN116975535A (zh) 一种基于土壤环境监测数据的多参数数据分析方法
CN115049136A (zh) 一种变压器负荷预测方法
CN115358797A (zh) 基于聚类分析法的综合能源用户用能行为分析方法、系统及存储介质
CN110852628B (zh) 考虑发展模式影响的农村中长期负荷预测方法
CN115392102A (zh) 能耗预测模型的建立方法及装置、能耗预测方法及系统
CN112991093A (zh) 一种基于边缘计算的窃电检测方法及系统
CN112508259A (zh) 一种针对独立用户类别的中长期用电量预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination