CN112016602B

CN112016602B - 电网故障原因与状态量的关联分析方法，设备和存储介质

Info

Publication number: CN112016602B
Application number: CN202010832232.9A
Authority: CN
Inventors: 易淑智; 杨帆; 张景围; 贾恒杰; 刘云凯; 彭显刚
Original assignee: Shaoguan Power Supply Bureau Guangdong Power Grid Co Ltd
Current assignee: Shaoguan Power Supply Bureau Guangdong Power Grid Co Ltd
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2021-08-10
Anticipated expiration: 2040-08-18
Also published as: CN112016602A

Abstract

本发明公开了电网故障原因与状态量的关联分析方法，设备和存储介质。包括：采集电网发生故障时的包含保护动作信息的系统故障状态记录数据T，并将系统故障状态记录数据T划分为离散型数据R和连续型数据S；对连续型数据S进行凝聚型的层次聚类分析，确定聚类结果S′；构建故障样本数据集T′，故障样本数据集T′包括离散型数据R和聚类结果S′；利用改进的关联规则Apriori算法，将故障样本数据集T′转换为布尔矩阵M；根据布尔矩阵M，通过计算支持度和压缩矩阵来确定频繁项集L，并从频繁项集L中挖掘出电网故障原因与状态量的关联规则。能够从电网故障数据中快速准确地挖掘出电网故障原因与状态量的关联规则，辅助电力工作人员对故障原因进行分析和诊断。

Description

电网故障原因与状态量的关联分析方法，设备和存储介质

技术领域

本发明实施例涉及电网安全技术领域，尤其涉及电网故障原因与状态量的关联分析方法，设备和存储介质。

背景技术

随着电网规模的不断扩大，电网结构也日益复杂，当电网发生故障时，调度中心在短时间内会接收到大量故障信息，容易给运维人员的故障处理工作带来不少困难。因此，如何从海量故障数据中提取有效信息，辅助运维人员快速分析、处理故障，成为当前电网故障在线诊断亟需解决的难题。

发明内容

本发明实施例提供一种电网故障原因与状态量的关联分析方法，设备和存储介质，能够从电网故障数据中快速准确地挖掘出电网故障原因与状态量间的关联规则，辅助电力工作人员对故障原因进行分析和诊断。

第一方面，本发明实施例提供了一种电网故障原因与状态量的关联分析方法，包括：

采集电网发生故障时的包含保护动作信息的系统故障状态记录数据T，并将系统故障状态记录数据T划分为离散型数据R和连续型数据S；

对连续型数据S进行凝聚型的层次聚类分析，确定聚类结果S′；

构建故障样本数据集T′，其中，故障样本数据集T′包括离散型数据R和聚类结果S′；

利用改进的关联规则Apriori算法，将故障样本数据集T′转换为布尔矩阵M；

根据布尔矩阵M，通过计算支持度和压缩矩阵来确定频繁项集L，并从频繁项集L中挖掘出电网故障原因与状态量的关联规则。

可选的，在对连续型数据S进行凝聚型的层次聚类分析前，还包括：

对连续型数据S进行归一化处理，得到归一化后的连续型数据

归一化处理采用的公式为：

其中，

为进行归一化处理后的数据值，s(i)为进行归一化处理前的数据值，s_min和s_max分别为连续型数据S中最小值和最大值。

可选的，对连续型数据S进行凝聚型的层次聚类分析，确定聚类结果S′包括：

将预设聚类数的取值设为最小聚类数，并对连续型数据S进行凝聚型的层次聚类分析，获取聚类簇；

对聚类簇进行聚类算法评价，计算聚类簇的戴维斯-博尔丁指数DBI值；

将预设聚类数的取值加一，并返回执行对连续型数据S进行凝聚型的层次聚类分析，获取聚类簇，对聚类簇进行聚类算法评价，计算聚类簇的DBI值的步骤，直至预设聚类数的取值为最大聚类数为止，选择DBI值最小的聚类簇的聚类数作为最佳聚类数，确定聚类结果S′。

可选的，对连续型数据S进行凝聚型的层次聚类分析，获取聚类簇包括：

步骤a)对于归一化后的连续型数据

中的

将

中的任意一个数据

设置为

的聚类中心，形成

的聚类集合C＝(c₁,c₂,…,c_j,…,c_n)，其中，i＝(1,2,…,p)；

步骤b)计算聚类集合C中每个聚类对(c_j,c_k)之间的相似度sim(c_j,c_k)，其中，

j＝(1,2,…,n)，j≠k；

步骤c)选取相似度最大的聚类对argmax sim(c_j,c_k)，将相似度最大的聚类对合并成更新后的聚类中心c_l，并合并相似度最大的聚类对的特征矢量，更新

的聚类集合C＝(c₁,c₂,…,c_l,…,c_n-1)，l＝(1,2,…,n-1)；

返回执行步骤b)和步骤c)，直至更新后的

的聚类集合C达到预设聚类数为止。

可选的，聚类簇的DBI值采用如下公式进行计算：

其中，M为聚类簇，

d(X_m)和d(X_j)分别为X_m和X_j的矩阵内部距离，d(c_m,c_j)为向量c_m和c_j间的距离，X_m和c_m分别表示第m个类簇及其聚类中心，X_j和c_j分别表示第j个类簇及其聚类中心。

可选的，布尔矩阵

其中，布尔矩阵M包括n个事务(T₁,T₂,…,T_n)和m个项(I₁,I₂,…,I_m)。

可选的，根据布尔矩阵M，通过计算支持度和压缩矩阵来确定频繁项集L包括：

步骤a)计算布尔矩阵M的k-项集支持度，其中，k-项集支持度采用如下公式

进行计算，C_k＝{I_i1,I_i2,…,I_ik}为从布尔矩阵M的m行中任取k行所形成的k项集，∧是对行向量各分量的与运算符；

步骤b)根据k-项集支持度，生成k-项集索引表；

步骤c)从k-项集索引表中选出支持度大于最小支持度的频繁项L_k；

步骤d)对布尔矩阵M进行压缩，并返回执行步骤a)-步骤d)，直至步骤c)不再生成频繁项L_k为止，得到频繁项集L＝∪L_k。

可选的，从频繁项集L中挖掘出电网故障原因与状态量间的关联规则包括：

计算频繁项集L中每个频繁项的置信度，并选择置信度大于最小置信度的频繁项作为电网故障原因与状态量的关联规则，其中，每个频繁项的置信度采用如下公式

进行计算，X∈L，Y∈L且X∩Y＝Φ。

第二方面，本发明实施例还提供了一种计算机设备，包括：处理器，处理器用于在执行计算机程序时实现上述任一实施例的方法。

第三方面，本发明实施例还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述任一实施例的方法。

本发明提供一种电网故障原因与状态量的关联分析方法，设备和存储介质，该方法包括：采集电网发生故障时的包含保护动作信息的系统故障状态记录数据T，并将系统故障状态记录数据T划分为离散型数据R和连续型数据S；对连续型数据S进行凝聚型的层次聚类分析，确定聚类结果S′；构建故障样本数据集T′，其中，故障样本数据集T′包括离散型数据R和聚类结果S′；利用改进的关联规则Apriori算法，将故障样本数据集T′转换为布尔矩阵M；根据布尔矩阵M，通过计算支持度和压缩矩阵来确定频繁项集L，并从频繁项集L中挖掘出电网故障原因与状态量的关联规则。通过层次聚类分析将连续型数据离散化，并结合改进的关联规则Apriori算法对故障样本数据集进行分析处理，从而能够从电网故障数据中快速准确地挖掘出电网故障原因与状态量间的关联规则，辅助电力工作人员对故障原因进行分析和诊断。

附图说明

图1是实施例一提供的一种电网故障原因与状态量的关联分析方法的流程示意图；

图2是实施例二提供的一种电网故障原因与状态量的关联分析方法的流程示意图；

图3是实施例二提供的一种DBI指标评价结果示意图；

图4是实施例二提供的一种传统的Apriori算法与本发明提供的方法在不同故障记录数下进行比较实验的结果示意图；

图5是实施例三提供的一种电网故障原因与状态量的关联分析装置的结构示意图；

图6是实施例四提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

随着社会的发展和电力需求的扩大，用户对电网的可靠性要求越来越高，然而由于自然、人为等因素，电力系统的故障发生是不可避免的。尤其是近年来，电网规模不断扩大，电网结构也日益复杂，当电网发生故障时，调度中心在短时间内会接收到大量故障信息，容易给运维人员的故障处理工作带来不少困难。因此，如何从海量故障数据中提取有效信息，辅助运维人员快速分析、处理故障，成为当前电网故障在线诊断亟需解决的难题。

数据挖掘技术通过特定的搜索算法，可以从大量含噪声的数据集中挖掘项集之间有价值的关联规则，从而描述数据集中的关联关系与特征。关联规则可帮助运维人员分析历史数据潜在的知识和规律，提高数据的利用价值。

现有的电网故障原因与状态量间的关联分析中通常采用频繁模式增长(FrequentPattern Growth，FP-Growth)算法或者传统的Apriori算法来挖掘电网故障原因与状态量间的关联规则。其中，FP-Growth算法是一种基于FP-tree(频繁模式树)的挖掘关联规则的算法，其主要步骤是采用分治策略，通过两次扫描故障样本集建立FP-tree，利用树结构对样本进行压缩，不需产生候选项集，然后采用增长频繁集的方法挖掘满足故障关联规则的频繁项；传统的Apriori算法采用逐层搜索的迭代方法对事务集进行不断的连接、遍历与剪枝，直至找到最大频繁项集及其关联规则。

然而，采用FP-Growth算法或者传统的Apriori算法挖掘电网故障原因与状态量间的关联规则常常存在如下问题：

1.FP-Growth算法采用递归增长频繁项的模式自底向上挖掘时需要反复搜索FP-tree，容易产生较多的指针链，并且当FP-tree的分支数很多且长度较长时，存储项集将占用大量存储空间，内存开销大；

2.传统的Apriori算法在生成候选项集后需要对大量候选项集计算支持度，再加上重复扫描数据集将显著增加运算时间，很大程度上影响算法效率；

3.现有的关联规则的挖掘算法只能针对离散数据，对于连续数据需要先进行离散化预处理，然而传统的离散化方法是根据数值区间划分具体类型的，由于故障数据的复杂性，数值分布不均匀，按区间划分存在一定的主观性，难以有效表达故障数据的特征。

为解决上述问题，本发明提供一种电网故障原因与状态量的关联分析方法，设备和存储介质，通过层次聚类分析将连续型数据离散化，并结合改进的关联规则Apriori算法对故障样本数据集进行分析处理，从而能够从电网故障数据中快速准确地挖掘出电网故障原因与状态量间的关联规则，辅助电力工作人员对故障原因进行分析和诊断。

需要说明的是，本发明下述各个实施例可以单独执行，各个实施例之间也可以相互结合执行，本发明实施例对此不作具体限制。

下面，对电网故障原因与状态量的关联分析方法，设备及其技术效果进行详细描述。

实施例一

图1为实施例一提供的一种电网故障原因与状态量的关联分析方法的流程示意图，如图1所示，本实施例提供的方法适用于电网故障原因与状态量的关联分析装置(如计算机设备等)，该方法包括如下步骤。

S101、采集电网发生故障时的包含保护动作信息的系统故障状态记录数据T，并将系统故障状态记录数据T划分为离散型数据R和连续型数据S。

电网在发生故障时会产生大量的包含保护动作信息的系统故障状态记录数据T，将系统故障状态记录数据T按照数值类型划分，得到离散型数据R和连续型数据S。即T＝(S,R)，其中，S＝(S₁,S₂,…,S_p)，R＝(R₁,R₂,…,R_q)，离散型数据R和连续型数据S的下标代表不同的状态类型。

S102、对连续型数据S进行凝聚型的层次聚类分析，确定聚类结果S′。

层次聚类分析是一种通过某种相似性测度计算节点之间的相似性，并按相似度由高到低排序，逐步重新连接各节点的无监督学习方法。对连续型数据S进行凝聚型的层次聚类分析，可以将连续型数据S离散化为类间相似性较小、类内相似性较大的数据，以实现数据离散化预处理。

S103、构建故障样本数据集T′，其中，故障样本数据集T′包括离散型数据R和聚类结果S′。

聚类结果S′记为S′＝(S′₁,S′₂,…,S′_p)，故障样本数据集T′包括离散型数据R和聚类结果S′。即T′＝(S′,R)，故障样本数据集T′可以作为改进的关联规则Apriori算法的输入样本集，进行电网故障原因与状态量的关联规则的确定。

S104、利用改进的关联规则Apriori算法，将故障样本数据集T′转换为布尔矩阵M。

将故障样本数据集T′转换为布尔矩阵M，克服了FP-Growth算法增长频繁集受限于存储空间的局限性。并且，针对传统Apriori算法存在较高时间复杂度的问题，改进的关联规则Apriori算法采用动态压缩矩阵方法减少数据扫描的规模，并且利用按位与运算代替传统Apriori算法连接步的低速查找比较运算，从而节约了运算时间，提高算法效率。

S105、根据布尔矩阵M，通过计算支持度和压缩矩阵来确定频繁项集L，并从频繁项集L中挖掘电网故障原因与状态量的关联规则。

根据布尔矩阵M，通过计算支持度和压缩矩阵来确定频繁项集L，并从频繁项集L中挖掘电网故障原因与状态量的关联规则，电网故障原因与状态量的关联规则可用于体现电网故障原因与状态量之间的关联关系，辅助电力工作人员对故障原因进行分析和诊断，提高电网故障数据分析和在线诊断的能力，对实现未来智能电网故障自愈具有积极意义。

实施例二

图2为实施例二提供的一种电网故障原因与状态量的关联分析方法的流程示意图，如图2所示，本实施例提供的方法适用于电网故障原因与状态量的关联分析装置(如计算机设备等)，该方法包括如下步骤。

S201、采集电网发生故障时的包含保护动作信息的系统故障状态记录数据T，并将系统故障状态记录数据T划分为离散型数据R和连续型数据S。

S202、对连续型数据S进行归一化处理，得到归一化后的连续型数据

在将系统故障状态记录数据T划分为离散型数据R和连续型数据S后，需要对连续型数据S进行预处理。在本实施例中，为避免不同物理量纲带来的计算影响，预处理可以为归一化处理，得到归一化后的连续型数据

记为

具体的，归一化处理所采用的公式为：

其中，

S203、将预设聚类数的取值设为最小聚类数。

在本实施例中，最小聚类数的取值可以根据实际情况进行设定。

S204、对连续型数据S进行凝聚型的层次聚类分析，获取聚类簇。

具体的，假设连续型数据S进行了归一化处理，那么对连续型数据S进行凝聚型的层次聚类分析，获取聚类簇的方法可以包括如下步骤：

步骤a)对于归一化后的连续型数据

中的

将

中的任意一个数据

设置为

的聚类中心，形成

的聚类集合C＝(c₁,c₂,…,c_j,…,c_n)，其中，i＝(1,2,…,p)。

j＝(1,2,…,n),k＝(1,2,…,n)，j≠k。

的聚类集合C＝(c₁,c₂,…,c_l,…,c_n-1)，l＝(1,2,…,n-1)。

其中，c_l＝c_j∪c_k，合并相似度最大的聚类对的特征矢量即为合并c_j和c_k特征矢量。

返回执行步骤b)和步骤c)，直至更新后的

的聚类集合C达到预设聚类数为止。

S205、对聚类簇进行聚类算法评价，计算聚类簇的戴维斯-博尔丁指数DBI值。

戴维斯-博尔丁指数(Davies-Bouldin Index，DBI)值，又称为戴维森堡丁指数或者分类适确性指标，是一种评估聚类算法优劣的指标。

具体的，在本实施例中，聚类簇的DBI值采用如下公式进行计算：

其中，M为聚类簇，

S206、将预设聚类数的取值加一，并返回执行步骤S204和S205，直至预设聚类数的取值为最大聚类数为止，选择DBI值最小的聚类簇的聚类数作为最佳聚类数，确定聚类结果S′。

在本实施例中，最大聚类数的取值可以根据实际情况进行设定。

聚类簇的DBI值I_DBI越小表示聚类效果越好，当预设聚类数的取值为最大聚类数时，选择DBI值最小的聚类簇的聚类数作为最佳聚类数，即可确定出聚类结果S′，聚类结果S′记为S′＝(S′₁,S′₂,…,S′_p)。

采用凝聚型的层次聚类算法对连续型数据S进行离散化数据预处理，能够以无监督学习的方式避免对参数的主观依赖，而且对含噪声的数据具有较高的分辨率以及聚类效果。

S207、构建故障样本数据集T′，其中，故障样本数据集T′包括离散型数据R和聚类结果S′。

故障样本数据集T′包括离散型数据R和聚类结果S′。即T′＝(S′,R)，故障样本数据集T′可以作为改进的关联规则Apriori算法的输入样本集，进行电网故障原因与状态量的关联规则的确定。

S208、利用改进的关联规则Apriori算法，将故障样本数据集T′转换为布尔矩阵M。

其中，布尔矩阵

其中，布尔矩阵M包括n个事务(T₁,T₂,…,T_n)和m个项(I₁,I₂,…,I_m)。事务T_j所在的列(d_1j,d_2j,…,d_mj)称为T_j对应列向量，以T_j记之，事务I_i所在的行(d_i1,d_i2,…,d_in)称为I_i对应行向量，以I_i记之。行列按顺序排序，若第i个项集在第j个事务中，则矩阵的第i行、第j列的值d_ij为1，否则d_ij为0。

S209、根据布尔矩阵M，通过计算支持度和压缩矩阵来确定频繁项集L。

具体的，根据布尔矩阵M，通过计算支持度和压缩矩阵来确定频繁项集L的方法可以包括如下步骤：

进行计算，C_k＝{I_i1,I_i2,…,I_ik}为从布尔矩阵M的m行中任取k行所形成的k项集，∧是对行向量各分量的与运算符。

其中，当k＝1时，布尔矩阵M的1-项集支持度为：

步骤b)根据k-项集支持度，生成k-项集索引表。

利用项集索引表可以避免产生大量的候选项集，而且每经过一次数据扫描由于布尔矩阵M的压缩，所占用的存储空间也在变小，有利于提高算法运行性能

步骤c)从k-项集索引表中选出支持度大于最小支持度的频繁项L_k。

在本实施例中，对布尔矩阵M进行压缩的方法可以为：

先对布尔矩阵M进行列压缩，再对列压缩后的矩阵进行行压缩；或者，

先对布尔矩阵M进行行压缩，再对行压缩后的矩阵进行列压缩。

其中，列压缩的规则为：若列向量T_j不包含频繁项，则从布尔矩阵M中删除T_j，各列向量逐列检测，得到列压缩后的矩阵；行压缩的规则为：若行向量I_k是非频繁项，则从布尔矩阵M中删除I_k，各行向量依次检查，得到压缩后的矩阵。通过对矩阵进行行列压缩将大幅减少扫描统计的数据量，对压缩后的矩阵向量作按位与运算来得到项集支持度，能够有效提高对关联规则挖掘的计算效率。

S210、从频繁项集L中挖掘电网故障原因与状态量的关联规则。

具体的，从频繁项集L中挖掘电网故障原因与状态量的关联规则的方法为：计算频繁项集L中每个频繁项的置信度，并选择置信度大于最小置信度的频繁项作为电网故障原因与状态量的关联规则，其中，每个频繁项的置信度采用如下公式

进行计算，X∈L，Y∈L且X∩Y＝Φ。

电网故障原因与状态量的关联规则可用于体现电网故障原因与状态量之间的关联关系，辅助电力工作人员对故障原因进行分析和诊断，提高电网故障数据分析和在线诊断的能力，对实现未来智能电网故障自愈具有积极意义。

示例性的，选取A公司某地区输电网2017年至2019年共计300条故障记录数据作为实验数据，包含故障状态变量X＝{X₁:厂站；X₂:电压等级；X₃:故障年月；X₄:故障相别；X₅:故障类型；X₆:初次故障持续时间；X₇:合于故障持续时间；X₈:故障电流一二次值；X₉:重合是否成功；X₁₀:故障情况；X₁₁:故障测距；X₁₂:断路器断弧时间；X₁₃:元件动作情况}和故障原因变量Y＝{y₁:雷击；y₂:外力破坏；y₃:异物；y₄:风偏；y₅:其它}。对本发明提供的电网故障原因与状态量的关联分析方法进行示例性说明，即对故障原因Y与故障状态X之间的关联性分析进行仿真验证。

假设最小聚类数为2，最大聚类数为20，对连续变量X₆聚类的DBI指标评价结果如图3所示。如图3所示，当聚类数为5时DBI指标值最小，其对应的聚类效果最佳，因此选用聚类数为5对变量X₆进行层次聚类。同理，对其它连续变量依次确定最佳聚类数后再进行层次聚类，实现离散化预处理。

在离散化得到的故障样本集上采用改进的Apriori算法挖掘故障原因Y与故障状态X之间的关联规则。通过多次实验比较，设定最小支持度为30％，最小置信度为75％。仿真生成的频繁项共计218个，关联规则共计615条，部分结果如表1和表2所示。

表1故障关联性分析之频繁项集(部分)

表2故障关联性分析之关联规则(部分)

通过对表1频繁项集的分析可发现，故障设备、类型、重合是否成功、合于故障持续时间与故障原因有密切关系，而且该地区输电网由雷击引起的故障事故较为频繁，可重点加强对雷击故障的预防与治理手段。通过对表2关联规则的分析可知，当故障类型为单瞬、重合成功以及故障电流一二次值为第一类时有较大概率判断是由雷击造成的故障事故，可将规则前项列入重点关注对象，当该地区输电网发生故障时可进一步作为特征量用于故障原因的具体分析。

为进一步说明本发明的改进效果，选用传统的Apriori算法(图4中记为Apriori)与本发明提供的方法(图4中记为改进Apriori)在不同故障记录数下进行比较实验，故障记录数范围为100至300条，设定的最小支持度与最小置信度保持一致。实验结果如图4所示。

由图4可知，随着记录数量的增加，两种算法的运行时间也在递增，然而本发明提供的方法在计算效率上更快，所需时间更少，说明了改进的Apriori算法克服了传统Apriori算法的不足。综合上述仿真实验，验证了本发明提供的方法的实用性与有效性。

本发明提供一种电网故障原因与状态量的关联分析方法，包括：采集电网发生故障时的包含保护动作信息的系统故障状态记录数据T，并将系统故障状态记录数据T划分为离散型数据R和连续型数据S；对连续型数据S进行凝聚型的层次聚类分析，确定聚类结果S′；构建故障样本数据集T′，其中，故障样本数据集T′包括离散型数据R和聚类结果S′；利用改进的关联规则Apriori算法，将故障样本数据集T′转换为布尔矩阵M；根据布尔矩阵M，通过计算支持度和压缩矩阵来确定频繁项集L，并从频繁项集L中挖掘电网故障原因与状态量的关联规则。通过层次聚类分析将连续型数据离散化，并结合改进的关联规则Apriori算法对故障样本数据集进行分析处理，从而能够从电网故障数据中快速准确地挖掘出电网故障原因与状态量间的关联规则，辅助电力工作人员对故障原因进行分析和诊断。

实施例三

图5为实施例三提供的一种电网故障原因与状态量的关联分析装置的结构示意图，如图5所示，包括：数据采集模块10，层次聚类分析模块11，样本构建模块12，转换模块13和关联规则确定模块14。

数据采集模块10，用于采集电网发生故障时的包含保护动作信息的系统故障状态记录数据T，并将系统故障状态记录数据T划分为离散型数据R和连续型数据S；

层次聚类分析模块11，用于对连续型数据S进行凝聚型的层次聚类分析，确定聚类结果S′；

样本构建模块12，用于构建故障样本数据集T′，其中，故障样本数据集T′包括离散型数据R和聚类结果S′；

转换模块13，用于利用改进的关联规则Apriori算法，将故障样本数据集T′转换为布尔矩阵M；

关联规则确定模块14，用于根据布尔矩阵M，通过计算支持度和压缩矩阵来确定频繁项集L，并从频繁项集L中挖掘电网故障原因与状态量的关联规则。

本实施例提供的电网故障原因与状态量的关联分析装置为实现上述实施例的电网故障原因与状态量的关联分析方法，本实施例提供的电网故障原因与状态量的关联分析装置实现原理和技术效果与上述实施例类似，此处不再赘述。

可选的，数据采集模块10，还用于在层次聚类分析模块11对连续型数据S进行凝聚型的层次聚类分析前，对连续型数据S进行归一化处理，得到归一化后的连续型数据

归一化处理采用的公式为：

其中，

可选的，层次聚类分析模块11，具体用于将预设聚类数的取值设为最小聚类数，并对连续型数据S进行凝聚型的层次聚类分析，获取聚类簇；对聚类簇进行聚类算法评价，计算聚类簇的戴维斯-博尔丁指数DBI值；将预设聚类数的取值加一，并返回执行对连续型数据S进行凝聚型的层次聚类分析，获取聚类簇，对聚类簇进行聚类算法评价，计算聚类簇的DBI值的步骤，直至预设聚类数的取值为最大聚类数为止，选择DBI值最小的聚类簇的聚类数作为最佳聚类数，确定聚类结果S′。

可选的，层次聚类分析模块11，具体用于执行步骤a)对于归一化后的连续型数据

中的

将

中的任意一个数据

设置为

的聚类中心，形成

的聚类集合C＝(c₁,c₂,…,c_j,…,c_n)，其中，i＝(1,2,…,p)；步骤b)计算聚类集合C中每个聚类对(c_j,c_k)之间的相似度sim(c_j,c_k)，其中，

j＝(1,2,…,n),k＝(1,2,…,n)，j≠k；步骤c)选取相似度最大的聚类对argmax sim(c_j,c_k)，将相似度最大的聚类对合并成更新后的聚类中心c_l，并合并相似度最大的聚类对的特征矢量，更新

的聚类集合C＝(c₁,c₂,…,c_l,…,c_n-1)，l＝(1,2,…,n-1)；返回执行步骤b)和步骤c)，直至更新后的

的聚类集合C达到预设聚类数为止。

可选的，聚类簇的DBI值采用如下公式进行计算：

其中，M为聚类簇，

可选的，布尔矩阵

可选的，关联规则确定模块14，具体用于执行步骤a)计算布尔矩阵M的k-项集支持度，其中，k-项集支持度采用如下公式

进行计算，C_k＝{I_i1,I_i2,…,I_ik}为从布尔矩阵M的m行中任取k行所形成的k项集，∧是对行向量各分量的与运算符；步骤b)根据k-项集支持度，生成k-项集索引表；步骤c)从k-项集索引表中选出支持度大于最小支持度的频繁项L_k；步骤d)对布尔矩阵M进行压缩，并返回执行步骤a)-步骤d)，直至步骤c)不再生成频繁项L_k为止，得到频繁项集L＝∪L_k。

可选的，关联规则确定模块14，具体用于计算频繁项集L中每个频繁项的置信度，并选择置信度大于最小置信度的频繁项作为电网故障原因与状态量的关联规则，其中，每个频繁项的置信度采用如下公式

进行计算，X∈L，Y∈L且X∩Y＝Φ。

实施例四

图6为实施例四提供的一种计算机设备的结构示意图，如图6所示，该计算机设备包括处理器30、存储器31和通信接口32；计算机设备中处理器30的数量可以是一个或多个，图6中以一个处理器30为例；计算机设备中的处理器30、存储器31、通信接口32可以通过总线或其他方式连接，图6中以通过总线连接为例。总线表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器31作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。处理器30通过运行存储在存储器31中的软件程序、指令以及模块，从而执行计算机设备的至少一种功能应用以及数据处理，即实现上述的方法。

存储器31可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器31可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器31可包括相对于处理器30远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信接口32可设置为数据的接收与发送。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如本发明任意实施例所提供的方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质包括(非穷举的列表)：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、可擦式可编程只读存储器(electrically erasable,programmable Read-Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，数据信号中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或多种程序设计语言组合来编写用于执行本公开操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言诸如Java、Smalltalk、C++、Ruby、Go，还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括局域网(Local Area Network，LAN)或广域网(Wide Area Network，WAN))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本领域内的技术人员应明白，术语用户终端涵盖任何适合类型的无线用户设备，例如移动电话、便携数据处理装置、便携网络浏览器或车载移动台。

一般来说，本发明的多种实施例可以在硬件或专用电路、软件、逻辑或其任何组合中实现。例如，一些方面可以被实现在硬件中，而其它方面可以被实现在可以被控制器、微处理器或其它计算装置执行的固件或软件中，尽管本发明不限于此。

本发明的实施例可以通过移动装置的数据处理器执行计算机程序指令来实现，例如在处理器实体中，或者通过硬件，或者通过软件和硬件的组合。计算机程序指令可以是汇编指令、指令集架构(Instruction Set Architecture，ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码。

本发明附图中的任何逻辑流程的框图可以表示程序步骤，或者可以表示相互连接的逻辑电路、模块和功能，或者可以表示程序步骤与逻辑电路、模块和功能的组合。计算机程序可以存储在存储器上。存储器可以具有任何适合于本地技术环境的类型并且可以使用任何适合的数据存储技术实现，例如但不限于只读存储器(ROM)、随机访问存储器(RAM)、光存储器装置和系统(数码多功能光碟DVD或CD光盘)等。计算机可读介质可以包括非瞬时性存储介质。数据处理器可以是任何适合于本地技术环境的类型，例如但不限于通用计算机、专用计算机、微处理器、数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑器件(Field－Programmable Gate Array，FGPA)以及基于多核处理器架构的处理器。