CN114187471A

CN114187471A - 一种基于Canopy＋FCM聚类的设备故障率模糊分类方法

Info

Publication number: CN114187471A
Application number: CN202111437613.8A
Authority: CN
Inventors: 陈丽娟; 吴建军; 王刚; 代子阔; 代东旭; 刘永阔; 佟锐; 李卫家
Original assignee: State Grid Corp of China SGCC; State Grid Liaoning Electric Power Co Ltd; Benxi Power Supply Co of Liaoning Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Liaoning Electric Power Co Ltd; Benxi Power Supply Co of Liaoning Electric Power Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-15

Abstract

本发明公开了一种基于Canopy+FCM聚类的设备故障率模糊分类方法，将具有相同或相似特性的设备归为一类，类内采用同一故障率。具体包括以下步骤：S1.对数据进行预处理，采用Canopy聚类对故障率影响因素集数据进行粗聚类，确定聚类数和各聚类中心；S2.将步骤S1中的聚类结果作为FCM聚类算法的输入，进行第二次模糊聚类；S3.根据给定的故障率与各因素之间的分布模型，将聚类结果中各聚类中心代入，求得每一类设备的故障率。本发明采用的两重聚类法降低了人为选取聚类数和初始聚类中心的主观性，聚类结果具有较高的客观性，弥补了FCM聚类的不足。

Description

一种基于Canopy+FCM聚类的设备故障率模糊分类方法

技术领域

本发明涉及配电网设备模糊分类技术领域，具体地说，涉及一种基于Canopy+FCM聚类的设备故障率模糊分类方法。

背景技术

在我国配电网可靠性评估中，元件设备的故障率主要是以某一区域的平均值为输入，当故障率不再是一个定常数，而是一个跟多重因素相关的变化值时，在目前配电网规模越来越大的背景下，配电网可靠性的计算量和复杂度会大大增加。因此，对于研究提升配电网可靠性评估计算效率、减少计算量的方法具有重大的现实意义。

考虑配电网元件数量大，在实际配电网中有较多的元件具有比较相似的特性，如果将这些元件分为一类，如此可大大减小计算量。因此，可以对元件进行模糊聚类分析。这是一种多元统计“物以类聚”的分类方法，根据收集到的样本元件的特性进行模糊分类。因此，研究出一种有效的设备模糊分类方法十分必要。

发明内容

本发明提出了一种基于Canopy+FCM聚类的设备故障率模糊分类方法，将具有相同或相似特性的设备归为一类，类内采用同一故障率。该方法首先对数据进行预处理，采用Canopy聚类对故障率影响因素集数据进行粗聚类，确定聚类数和各聚类中心，其次将Canopy聚类结果的聚类中心和聚类数作为FCM聚类算法的初始聚类中心和聚类数目，进行第二次模糊聚类，最后根据故障率的分布模型，将C-FCM聚类的结果代入到分布模型中，计算出相应类别设备的故障率。

本发明提出的这种基于Canopy+FCM聚类的设备故障率模糊分类方法，包括如下步骤：

S1.对数据进行预处理，采用Canopy聚类对故障率影响因素集数据进行粗聚类，确定聚类数和各聚类中心；

S2.将步骤S1中的聚类结果作为FCM聚类算法的输入，进行第二次模糊聚类；

S3.根据给定的故障率与各因素之间的分布模型，将聚类结果中各聚类中心代入，求得每一类设备的故障率。

在步骤S1中，由于故障影响因素集合里的元素具有不同的单位和数量级，因此需要首先对其进行预处理：

假设被分类设备的论域U＝{x₁,x₂,...,x_n}，每个设备又由其m个影响因素表示其性状：x_i＝{x_i1,x_i1,...,x_im},i＝1,2,...,n。

故障影响因素集的原始数据矩阵可表示为：

首先将原始数据矩阵中的元素进行标准差变换，消除量纲的影响：

式中：x_ik为原始数据矩阵d_n×m中第i组数据的第k个因素；

为第k个因素的平均值；s_k为第k个因素的标准差。

其次进行极差变换使原始数据矩阵中的元素标准化：

经过上述两次变换，标准化后有：x_i″_k∈[0,1]。

求取n组m维数据两两之间的欧氏距离dist(i,j)，并求所有距离的平均值作为平均距离

设定阈值T₁和T₂，满足T₁＞T₂。一般根据经验，可取

T₁取T₂的两倍。

从n组数据标准集中任取一组，在多维空间上为一个点，作为第一个Canopy，并将该点从数据标准集中删除。

计算数据标准集中其余n-1个点与该Canopy点的空间欧式距离dist(i,1)。若dist(i,1)＜T₂，则将该点所代表的数据集划入此Canopy点所代表的类别中。若存在dist(i,1)＞T₁，则将此点作为一个新的Canopy。将每一个已经分类的点从原始数据集中删除。并不断重复上述过程，求每组数据到所有Canopy的欧氏距离，通过判断其与阈值T₁和T₂的大小关系，将其分类。

另外，当一组数据所代表的点到每一个Canopy的欧氏距离都满足T₂＜dist(i,j)＜T₁时，同样将其视为一个新的Canopy。重复上述步骤，直至数据标准集为空集。

Canopy聚类结束，得到聚类数L和聚类中心集合C＝[C₁,C₂,K,C_L]。

在步骤S2中，首先基于步骤S1的粗聚类结果，可以获得标准化的数据矩阵d_n×m、聚类数目L和初始聚类中心C＝[C₁,C₂,K,C_L]。

FCM将每一个数据标准集中的数据隶属于每一个聚类中心的程度模糊为一个0到1的值，主要是根据待聚类数据对C个聚类中心的隶属度大小来划分样本的。FCM的聚类模型为：

式中，x_i为第i个待聚类数据；v_k为第k个聚类中心；u_ki为第i个待聚类数据x_i归属于第k个聚类中心的模糊隶属度；m为模糊指数，m∈[1,∞]，其值既能影响FCM的聚类性能，又能衡量FCM算法的模糊程度。U为u_ki组成的模糊隶属度矩阵，又称划分矩阵；V为C个聚类中心v_k组成的矩阵。

将上式变换为带约束的优化问题，将模型变为：

因此，FCM问题就转化为了带拉格朗日乘子λ的条件极值问题，分别对聚类中心v_k和模糊隶属度u_ki求偏导，得到两者的更新迭代规则：

通过不断迭代更新v_k和u_ki，当

FCM停止运行，输出模糊隶属度矩阵U和中心矩阵V。

在步骤S3中，假设设备的故障率与天气因子θ_w、维修因子γ和役龄t相关，给定设备的故障率分布模型为：

式中，θ_w为表示天气好坏程度的因子；γ为维修对设备性能的提升效果，类似于役龄回退因子，降低故障率的效果；t为设备投入运行的年限；T₀为设备的设计寿命；b，β为拟合参数。

将C-FCM聚类结果的c个聚类中心的数据分别代入故障率分布模型λ(θ_w,γ,t)。得到了λ_i，i＝1,2,...,c。分别作为c个类别的总体故障率情况。

综上所述，本发明提供一种基于Canopy+FCM聚类的设备故障率模糊分类方法，用于解决现有配电网元件较多、规模较大导致的配电网可靠性计算量较大的问题。在模糊C均值聚类方法的基础上，提出了基于Canopy法的粗聚类，算法自动求取最佳分类数和聚类中心，作为模糊C均值的初始输入。基于C-FCM的配电网设备模糊分类方法较单一的模糊分类方法更具客观性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明公开的一种基于Canopy+FCM聚类的设备故障率模糊分类方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚、明确，下面结合附图并举实施例对本发明作进一步详细描述。

实施例：

如图1所示，一种基于Canopy+FCM聚类的设备故障率模糊分类方法，包括以下步骤：

具体实施时，步骤S1中：

针对辽宁某地电网10kV架空线的故障数据，其故障因素集里的元素主要是代表天气条件、运行年限、维修情况的天气因子、役龄、维修因子。

由于故障影响因素集合里的元素具有不同的单位和数量级，因此需要首先对其进行预处理：

故障影响因素集的原始数据矩阵可表示为：

式中：x_ik为原始数据矩阵d_n×m中第i组数据的第k个因素；

为第k个因素的平均值；s_k为第k个因素的标准差。

其次进行极差变换使原始数据矩阵中的元素标准化：

经过上述两次变换，标准化后有：x_i″_k∈[0,1]。

设定阈值T₁和T₂，满足T₁＞T₂。一般根据经验，可取

T₁取T₂的两倍。

Canopy聚类结束，得到聚类数L＝3；聚类中心集合C＝[C₁,C₂,C₃]，结果如下表所示：

在步骤S2中，将L和C作为第二次模糊聚类的输入，避免人为确定最佳聚类数和聚类中心的主观性。

将上式变换为带约束的优化问题，将模型变为：

通过不断迭代更新v_k和u_ki，当

FCM停止运行，输出模糊隶属度矩阵U和中心矩阵V。

在步骤S3中，假设设备的故障率是天气因子θ_w、维修因子γ和役龄t的函数，给定设备的故障率分布模型为：

将C-FCM聚类结果的3个聚类中心的数据分别代入故障率分布模型λ(θ_w,γ,t)。得到了λ_i，i＝1,2,...,c。分别作为3个类别的总体故障率情况。

得到3个聚类中心如下表所示：

聚类中心	天气因子	维修因子	役龄
				C<sub>1</sub>	0.083	0.624	17.2
C<sub>2</sub>	0.106	0.763	22.4
				C<sub>3</sub>	0.121	0.912	26.8

将上述数据代入拟合过的故障率分布模型中，得到三种设备的故障率情况如下表所示：

设备类别	故障率
		C<sub>1</sub>	0.0301
C<sub>2</sub>	0.0644
		C<sub>3</sub>	0.1057

Claims

1.一种基于Canopy+FCM聚类的设备故障率模糊分类方法，将具有相同或相似特性的设备归为一类，类内采用同一故障率；其特征在于，包含以下步骤：

2.根据权利要求1所述的一种基于Canopy+FCM聚类的设备故障率模糊分类方法，其特征在于，所述的步骤S1中，采用canopy聚类算法进行粗聚类，确定聚类数和其聚类中心，增加聚类结果的客观性；

为了避免各因素间单位和量级的差异性，采用下列式子对故障因素集数据C采用进行预处理：标准化以消除量纲的影响；

首先将数据集进行标准差变换消除量纲的影响：

式中：x_ik为第i组数据的第k个因素；

其次进行极差变换使原始数据集标准化：

设立阈值T₁和T₂，任选一组数据作为第一个canopy，并计算其余每组数据x_i和canopy(j)的欧氏距离dist(i,j)；

判断dist(i,j)与阈值T₁和T₂的关系，若dist(i,j)＜T₂成立，则将数据组x_i划入canopy(j)类中；若dist(i,j)＞T₁成立，则将数据组x_i视为一个新的canopy；若dist(i,j)＜T₁，且当数据组x_i与所有canopy的欧氏距离计算完毕后仍然大于T₂，即仍未加入任何一个canopy，则将该数据组x_i视为一个新的canopy。

3.根据权利要求1所述的一种基于Canopy+FCM聚类的设备故障率模糊分类方法，其特征在于，所述的步骤S2中FCM模糊聚类的初始聚类数和聚类中心由步骤S1中的canopy算法运行结果确定而不是人为设定，进行二重聚类。

4.根据权利要求1所述的一种基于Canopy+FCM聚类的设备故障率模糊分类方法，其特征在于，所述的步骤S3中将二重聚类中心代入到故障率的分布模型中，计算出相应的故障率，并将其作为每一类的故障率代表值。