CN112016602B - 电网故障原因与状态量的关联分析方法,设备和存储介质 - Google Patents
电网故障原因与状态量的关联分析方法,设备和存储介质 Download PDFInfo
- Publication number
- CN112016602B CN112016602B CN202010832232.9A CN202010832232A CN112016602B CN 112016602 B CN112016602 B CN 112016602B CN 202010832232 A CN202010832232 A CN 202010832232A CN 112016602 B CN112016602 B CN 112016602B
- Authority
- CN
- China
- Prior art keywords
- cluster
- data
- fault
- clustering
- power grid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000003860 storage Methods 0.000 title claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims abstract description 70
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 50
- 238000007417 hierarchical cluster analysis Methods 0.000 claims abstract description 31
- 230000006835 compression Effects 0.000 claims abstract description 23
- 238000007906 compression Methods 0.000 claims abstract description 23
- 238000005065 mining Methods 0.000 claims abstract description 17
- 230000009471 action Effects 0.000 claims abstract description 11
- 238000005354 coacervation Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 21
- 230000002776 aggregation Effects 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000005054 agglomeration Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000010219 correlation analysis Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000012423 maintenance Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000012098 association analyses Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 208000025274 Lightning injury Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Public Health (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Fuzzy Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了电网故障原因与状态量的关联分析方法,设备和存储介质。包括:采集电网发生故障时的包含保护动作信息的系统故障状态记录数据T,并将系统故障状态记录数据T划分为离散型数据R和连续型数据S;对连续型数据S进行凝聚型的层次聚类分析,确定聚类结果S′;构建故障样本数据集T′,故障样本数据集T′包括离散型数据R和聚类结果S′;利用改进的关联规则Apriori算法,将故障样本数据集T′转换为布尔矩阵M;根据布尔矩阵M,通过计算支持度和压缩矩阵来确定频繁项集L,并从频繁项集L中挖掘出电网故障原因与状态量的关联规则。能够从电网故障数据中快速准确地挖掘出电网故障原因与状态量的关联规则,辅助电力工作人员对故障原因进行分析和诊断。
Description
技术领域
本发明实施例涉及电网安全技术领域,尤其涉及电网故障原因与状态量的关联分析方法,设备和存储介质。
背景技术
随着电网规模的不断扩大,电网结构也日益复杂,当电网发生故障时,调度中心在短时间内会接收到大量故障信息,容易给运维人员的故障处理工作带来不少困难。因此,如何从海量故障数据中提取有效信息,辅助运维人员快速分析、处理故障,成为当前电网故障在线诊断亟需解决的难题。
发明内容
本发明实施例提供一种电网故障原因与状态量的关联分析方法,设备和存储介质,能够从电网故障数据中快速准确地挖掘出电网故障原因与状态量间的关联规则,辅助电力工作人员对故障原因进行分析和诊断。
第一方面,本发明实施例提供了一种电网故障原因与状态量的关联分析方法,包括:
采集电网发生故障时的包含保护动作信息的系统故障状态记录数据T,并将系统故障状态记录数据T划分为离散型数据R和连续型数据S;
对连续型数据S进行凝聚型的层次聚类分析,确定聚类结果S′;
构建故障样本数据集T′,其中,故障样本数据集T′包括离散型数据R和聚类结果S′;
利用改进的关联规则Apriori算法,将故障样本数据集T′转换为布尔矩阵M;
根据布尔矩阵M,通过计算支持度和压缩矩阵来确定频繁项集L,并从频繁项集L中挖掘出电网故障原因与状态量的关联规则。
可选的,在对连续型数据S进行凝聚型的层次聚类分析前,还包括:
可选的,对连续型数据S进行凝聚型的层次聚类分析,确定聚类结果S′包括:
将预设聚类数的取值设为最小聚类数,并对连续型数据S进行凝聚型的层次聚类分析,获取聚类簇;
对聚类簇进行聚类算法评价,计算聚类簇的戴维斯-博尔丁指数DBI值;
将预设聚类数的取值加一,并返回执行对连续型数据S进行凝聚型的层次聚类分析,获取聚类簇,对聚类簇进行聚类算法评价,计算聚类簇的DBI值的步骤,直至预设聚类数的取值为最大聚类数为止,选择DBI值最小的聚类簇的聚类数作为最佳聚类数,确定聚类结果S′。
可选的,对连续型数据S进行凝聚型的层次聚类分析,获取聚类簇包括:
步骤c)选取相似度最大的聚类对argmax sim(cj,ck),将相似度最大的聚类对合并成更新后的聚类中心cl,并合并相似度最大的聚类对的特征矢量,更新的聚类集合C=(c1,c2,…,cl,…,cn-1),l=(1,2,…,n-1);
可选的,聚类簇的DBI值采用如下公式进行计算:
其中,布尔矩阵M包括n个事务(T1,T2,…,Tn)和m个项(I1,I2,…,Im)。
可选的,根据布尔矩阵M,通过计算支持度和压缩矩阵来确定频繁项集L包括:
步骤b)根据k-项集支持度,生成k-项集索引表;
步骤c)从k-项集索引表中选出支持度大于最小支持度的频繁项Lk;
步骤d)对布尔矩阵M进行压缩,并返回执行步骤a)-步骤d),直至步骤c)不再生成频繁项Lk为止,得到频繁项集L=∪Lk。
可选的,从频繁项集L中挖掘出电网故障原因与状态量间的关联规则包括:
第二方面,本发明实施例还提供了一种计算机设备,包括:处理器,处理器用于在执行计算机程序时实现上述任一实施例的方法。
第三方面,本发明实施例还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例的方法。
本发明提供一种电网故障原因与状态量的关联分析方法,设备和存储介质,该方法包括:采集电网发生故障时的包含保护动作信息的系统故障状态记录数据T,并将系统故障状态记录数据T划分为离散型数据R和连续型数据S;对连续型数据S进行凝聚型的层次聚类分析,确定聚类结果S′;构建故障样本数据集T′,其中,故障样本数据集T′包括离散型数据R和聚类结果S′;利用改进的关联规则Apriori算法,将故障样本数据集T′转换为布尔矩阵M;根据布尔矩阵M,通过计算支持度和压缩矩阵来确定频繁项集L,并从频繁项集L中挖掘出电网故障原因与状态量的关联规则。通过层次聚类分析将连续型数据离散化,并结合改进的关联规则Apriori算法对故障样本数据集进行分析处理,从而能够从电网故障数据中快速准确地挖掘出电网故障原因与状态量间的关联规则,辅助电力工作人员对故障原因进行分析和诊断。
附图说明
图1是实施例一提供的一种电网故障原因与状态量的关联分析方法的流程示意图;
图2是实施例二提供的一种电网故障原因与状态量的关联分析方法的流程示意图;
图3是实施例二提供的一种DBI指标评价结果示意图;
图4是实施例二提供的一种传统的Apriori算法与本发明提供的方法在不同故障记录数下进行比较实验的结果示意图;
图5是实施例三提供的一种电网故障原因与状态量的关联分析装置的结构示意图;
图6是实施例四提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
随着社会的发展和电力需求的扩大,用户对电网的可靠性要求越来越高,然而由于自然、人为等因素,电力系统的故障发生是不可避免的。尤其是近年来,电网规模不断扩大,电网结构也日益复杂,当电网发生故障时,调度中心在短时间内会接收到大量故障信息,容易给运维人员的故障处理工作带来不少困难。因此,如何从海量故障数据中提取有效信息,辅助运维人员快速分析、处理故障,成为当前电网故障在线诊断亟需解决的难题。
数据挖掘技术通过特定的搜索算法,可以从大量含噪声的数据集中挖掘项集之间有价值的关联规则,从而描述数据集中的关联关系与特征。关联规则可帮助运维人员分析历史数据潜在的知识和规律,提高数据的利用价值。
现有的电网故障原因与状态量间的关联分析中通常采用频繁模式增长(FrequentPattern Growth,FP-Growth)算法或者传统的Apriori算法来挖掘电网故障原因与状态量间的关联规则。其中,FP-Growth算法是一种基于FP-tree(频繁模式树)的挖掘关联规则的算法,其主要步骤是采用分治策略,通过两次扫描故障样本集建立FP-tree,利用树结构对样本进行压缩,不需产生候选项集,然后采用增长频繁集的方法挖掘满足故障关联规则的频繁项;传统的Apriori算法采用逐层搜索的迭代方法对事务集进行不断的连接、遍历与剪枝,直至找到最大频繁项集及其关联规则。
然而,采用FP-Growth算法或者传统的Apriori算法挖掘电网故障原因与状态量间的关联规则常常存在如下问题:
1.FP-Growth算法采用递归增长频繁项的模式自底向上挖掘时需要反复搜索FP-tree,容易产生较多的指针链,并且当FP-tree的分支数很多且长度较长时,存储项集将占用大量存储空间,内存开销大;
2.传统的Apriori算法在生成候选项集后需要对大量候选项集计算支持度,再加上重复扫描数据集将显著增加运算时间,很大程度上影响算法效率;
3.现有的关联规则的挖掘算法只能针对离散数据,对于连续数据需要先进行离散化预处理,然而传统的离散化方法是根据数值区间划分具体类型的,由于故障数据的复杂性,数值分布不均匀,按区间划分存在一定的主观性,难以有效表达故障数据的特征。
为解决上述问题,本发明提供一种电网故障原因与状态量的关联分析方法,设备和存储介质,通过层次聚类分析将连续型数据离散化,并结合改进的关联规则Apriori算法对故障样本数据集进行分析处理,从而能够从电网故障数据中快速准确地挖掘出电网故障原因与状态量间的关联规则,辅助电力工作人员对故障原因进行分析和诊断。
需要说明的是,本发明下述各个实施例可以单独执行,各个实施例之间也可以相互结合执行,本发明实施例对此不作具体限制。
下面,对电网故障原因与状态量的关联分析方法,设备及其技术效果进行详细描述。
实施例一
图1为实施例一提供的一种电网故障原因与状态量的关联分析方法的流程示意图,如图1所示,本实施例提供的方法适用于电网故障原因与状态量的关联分析装置(如计算机设备等),该方法包括如下步骤。
S101、采集电网发生故障时的包含保护动作信息的系统故障状态记录数据T,并将系统故障状态记录数据T划分为离散型数据R和连续型数据S。
电网在发生故障时会产生大量的包含保护动作信息的系统故障状态记录数据T,将系统故障状态记录数据T按照数值类型划分,得到离散型数据R和连续型数据S。即T=(S,R),其中,S=(S1,S2,…,Sp),R=(R1,R2,…,Rq),离散型数据R和连续型数据S的下标代表不同的状态类型。
S102、对连续型数据S进行凝聚型的层次聚类分析,确定聚类结果S′。
层次聚类分析是一种通过某种相似性测度计算节点之间的相似性,并按相似度由高到低排序,逐步重新连接各节点的无监督学习方法。对连续型数据S进行凝聚型的层次聚类分析,可以将连续型数据S离散化为类间相似性较小、类内相似性较大的数据,以实现数据离散化预处理。
S103、构建故障样本数据集T′,其中,故障样本数据集T′包括离散型数据R和聚类结果S′。
聚类结果S′记为S′=(S′1,S′2,…,S′p),故障样本数据集T′包括离散型数据R和聚类结果S′。即T′=(S′,R),故障样本数据集T′可以作为改进的关联规则Apriori算法的输入样本集,进行电网故障原因与状态量的关联规则的确定。
S104、利用改进的关联规则Apriori算法,将故障样本数据集T′转换为布尔矩阵M。
将故障样本数据集T′转换为布尔矩阵M,克服了FP-Growth算法增长频繁集受限于存储空间的局限性。并且,针对传统Apriori算法存在较高时间复杂度的问题,改进的关联规则Apriori算法采用动态压缩矩阵方法减少数据扫描的规模,并且利用按位与运算代替传统Apriori算法连接步的低速查找比较运算,从而节约了运算时间,提高算法效率。
S105、根据布尔矩阵M,通过计算支持度和压缩矩阵来确定频繁项集L,并从频繁项集L中挖掘电网故障原因与状态量的关联规则。
根据布尔矩阵M,通过计算支持度和压缩矩阵来确定频繁项集L,并从频繁项集L中挖掘电网故障原因与状态量的关联规则,电网故障原因与状态量的关联规则可用于体现电网故障原因与状态量之间的关联关系,辅助电力工作人员对故障原因进行分析和诊断,提高电网故障数据分析和在线诊断的能力,对实现未来智能电网故障自愈具有积极意义。
实施例二
图2为实施例二提供的一种电网故障原因与状态量的关联分析方法的流程示意图,如图2所示,本实施例提供的方法适用于电网故障原因与状态量的关联分析装置(如计算机设备等),该方法包括如下步骤。
S201、采集电网发生故障时的包含保护动作信息的系统故障状态记录数据T,并将系统故障状态记录数据T划分为离散型数据R和连续型数据S。
电网在发生故障时会产生大量的包含保护动作信息的系统故障状态记录数据T,将系统故障状态记录数据T按照数值类型划分,得到离散型数据R和连续型数据S。即T=(S,R),其中,S=(S1,S2,…,Sp),R=(R1,R2,…,Rq),离散型数据R和连续型数据S的下标代表不同的状态类型。
S203、将预设聚类数的取值设为最小聚类数。
在本实施例中,最小聚类数的取值可以根据实际情况进行设定。
S204、对连续型数据S进行凝聚型的层次聚类分析,获取聚类簇。
具体的,假设连续型数据S进行了归一化处理,那么对连续型数据S进行凝聚型的层次聚类分析,获取聚类簇的方法可以包括如下步骤:
步骤c)选取相似度最大的聚类对argmax sim(cj,ck),将相似度最大的聚类对合并成更新后的聚类中心cl,并合并相似度最大的聚类对的特征矢量,更新的聚类集合C=(c1,c2,…,cl,…,cn-1),l=(1,2,…,n-1)。
其中,cl=cj∪ck,合并相似度最大的聚类对的特征矢量即为合并cj和ck特征矢量。
S205、对聚类簇进行聚类算法评价,计算聚类簇的戴维斯-博尔丁指数DBI值。
戴维斯-博尔丁指数(Davies-Bouldin Index,DBI)值,又称为戴维森堡丁指数或者分类适确性指标,是一种评估聚类算法优劣的指标。
具体的,在本实施例中,聚类簇的DBI值采用如下公式进行计算:
S206、将预设聚类数的取值加一,并返回执行步骤S204和S205,直至预设聚类数的取值为最大聚类数为止,选择DBI值最小的聚类簇的聚类数作为最佳聚类数,确定聚类结果S′。
在本实施例中,最大聚类数的取值可以根据实际情况进行设定。
聚类簇的DBI值IDBI越小表示聚类效果越好,当预设聚类数的取值为最大聚类数时,选择DBI值最小的聚类簇的聚类数作为最佳聚类数,即可确定出聚类结果S′,聚类结果S′记为S′=(S′1,S′2,…,S′p)。
采用凝聚型的层次聚类算法对连续型数据S进行离散化数据预处理,能够以无监督学习的方式避免对参数的主观依赖,而且对含噪声的数据具有较高的分辨率以及聚类效果。
S207、构建故障样本数据集T′,其中,故障样本数据集T′包括离散型数据R和聚类结果S′。
故障样本数据集T′包括离散型数据R和聚类结果S′。即T′=(S′,R),故障样本数据集T′可以作为改进的关联规则Apriori算法的输入样本集,进行电网故障原因与状态量的关联规则的确定。
S208、利用改进的关联规则Apriori算法,将故障样本数据集T′转换为布尔矩阵M。
其中,布尔矩阵M包括n个事务(T1,T2,…,Tn)和m个项(I1,I2,…,Im)。事务Tj所在的列(d1j,d2j,…,dmj)称为Tj对应列向量,以Tj记之,事务Ii所在的行(di1,di2,…,din)称为Ii对应行向量,以Ii记之。行列按顺序排序,若第i个项集在第j个事务中,则矩阵的第i行、第j列的值dij为1,否则dij为0。
将故障样本数据集T′转换为布尔矩阵M,克服了FP-Growth算法增长频繁集受限于存储空间的局限性。并且,针对传统Apriori算法存在较高时间复杂度的问题,改进的关联规则Apriori算法采用动态压缩矩阵方法减少数据扫描的规模,并且利用按位与运算代替传统Apriori算法连接步的低速查找比较运算,从而节约了运算时间,提高算法效率。
S209、根据布尔矩阵M,通过计算支持度和压缩矩阵来确定频繁项集L。
具体的,根据布尔矩阵M,通过计算支持度和压缩矩阵来确定频繁项集L的方法可以包括如下步骤:
其中,当k=1时,布尔矩阵M的1-项集支持度为:
步骤b)根据k-项集支持度,生成k-项集索引表。
利用项集索引表可以避免产生大量的候选项集,而且每经过一次数据扫描由于布尔矩阵M的压缩,所占用的存储空间也在变小,有利于提高算法运行性能
步骤c)从k-项集索引表中选出支持度大于最小支持度的频繁项Lk。
步骤d)对布尔矩阵M进行压缩,并返回执行步骤a)-步骤d),直至步骤c)不再生成频繁项Lk为止,得到频繁项集L=∪Lk。
在本实施例中,对布尔矩阵M进行压缩的方法可以为:
先对布尔矩阵M进行列压缩,再对列压缩后的矩阵进行行压缩;或者,
先对布尔矩阵M进行行压缩,再对行压缩后的矩阵进行列压缩。
其中,列压缩的规则为:若列向量Tj不包含频繁项,则从布尔矩阵M中删除Tj,各列向量逐列检测,得到列压缩后的矩阵;行压缩的规则为:若行向量Ik是非频繁项,则从布尔矩阵M中删除Ik,各行向量依次检查,得到压缩后的矩阵。通过对矩阵进行行列压缩将大幅减少扫描统计的数据量,对压缩后的矩阵向量作按位与运算来得到项集支持度,能够有效提高对关联规则挖掘的计算效率。
S210、从频繁项集L中挖掘电网故障原因与状态量的关联规则。
具体的,从频繁项集L中挖掘电网故障原因与状态量的关联规则的方法为:计算频繁项集L中每个频繁项的置信度,并选择置信度大于最小置信度的频繁项作为电网故障原因与状态量的关联规则,其中,每个频繁项的置信度采用如下公式进行计算,X∈L,Y∈L且X∩Y=Φ。
电网故障原因与状态量的关联规则可用于体现电网故障原因与状态量之间的关联关系,辅助电力工作人员对故障原因进行分析和诊断,提高电网故障数据分析和在线诊断的能力,对实现未来智能电网故障自愈具有积极意义。
示例性的,选取A公司某地区输电网2017年至2019年共计300条故障记录数据作为实验数据,包含故障状态变量X={X1:厂站;X2:电压等级;X3:故障年月;X4:故障相别;X5:故障类型;X6:初次故障持续时间;X7:合于故障持续时间;X8:故障电流一二次值;X9:重合是否成功;X10:故障情况;X11:故障测距;X12:断路器断弧时间;X13:元件动作情况}和故障原因变量Y={y1:雷击;y2:外力破坏;y3:异物;y4:风偏;y5:其它}。对本发明提供的电网故障原因与状态量的关联分析方法进行示例性说明,即对故障原因Y与故障状态X之间的关联性分析进行仿真验证。
假设最小聚类数为2,最大聚类数为20,对连续变量X6聚类的DBI指标评价结果如图3所示。如图3所示,当聚类数为5时DBI指标值最小,其对应的聚类效果最佳,因此选用聚类数为5对变量X6进行层次聚类。同理,对其它连续变量依次确定最佳聚类数后再进行层次聚类,实现离散化预处理。
在离散化得到的故障样本集上采用改进的Apriori算法挖掘故障原因Y与故障状态X之间的关联规则。通过多次实验比较,设定最小支持度为30%,最小置信度为75%。仿真生成的频繁项共计218个,关联规则共计615条,部分结果如表1和表2所示。
表1故障关联性分析之频繁项集(部分)
表2故障关联性分析之关联规则(部分)
通过对表1频繁项集的分析可发现,故障设备、类型、重合是否成功、合于故障持续时间与故障原因有密切关系,而且该地区输电网由雷击引起的故障事故较为频繁,可重点加强对雷击故障的预防与治理手段。通过对表2关联规则的分析可知,当故障类型为单瞬、重合成功以及故障电流一二次值为第一类时有较大概率判断是由雷击造成的故障事故,可将规则前项列入重点关注对象,当该地区输电网发生故障时可进一步作为特征量用于故障原因的具体分析。
为进一步说明本发明的改进效果,选用传统的Apriori算法(图4中记为Apriori)与本发明提供的方法(图4中记为改进Apriori)在不同故障记录数下进行比较实验,故障记录数范围为100至300条,设定的最小支持度与最小置信度保持一致。实验结果如图4所示。
由图4可知,随着记录数量的增加,两种算法的运行时间也在递增,然而本发明提供的方法在计算效率上更快,所需时间更少,说明了改进的Apriori算法克服了传统Apriori算法的不足。综合上述仿真实验,验证了本发明提供的方法的实用性与有效性。
本发明提供一种电网故障原因与状态量的关联分析方法,包括:采集电网发生故障时的包含保护动作信息的系统故障状态记录数据T,并将系统故障状态记录数据T划分为离散型数据R和连续型数据S;对连续型数据S进行凝聚型的层次聚类分析,确定聚类结果S′;构建故障样本数据集T′,其中,故障样本数据集T′包括离散型数据R和聚类结果S′;利用改进的关联规则Apriori算法,将故障样本数据集T′转换为布尔矩阵M;根据布尔矩阵M,通过计算支持度和压缩矩阵来确定频繁项集L,并从频繁项集L中挖掘电网故障原因与状态量的关联规则。通过层次聚类分析将连续型数据离散化,并结合改进的关联规则Apriori算法对故障样本数据集进行分析处理,从而能够从电网故障数据中快速准确地挖掘出电网故障原因与状态量间的关联规则,辅助电力工作人员对故障原因进行分析和诊断。
实施例三
图5为实施例三提供的一种电网故障原因与状态量的关联分析装置的结构示意图,如图5所示,包括:数据采集模块10,层次聚类分析模块11,样本构建模块12,转换模块13和关联规则确定模块14。
数据采集模块10,用于采集电网发生故障时的包含保护动作信息的系统故障状态记录数据T,并将系统故障状态记录数据T划分为离散型数据R和连续型数据S;
层次聚类分析模块11,用于对连续型数据S进行凝聚型的层次聚类分析,确定聚类结果S′;
样本构建模块12,用于构建故障样本数据集T′,其中,故障样本数据集T′包括离散型数据R和聚类结果S′;
转换模块13,用于利用改进的关联规则Apriori算法,将故障样本数据集T′转换为布尔矩阵M;
关联规则确定模块14,用于根据布尔矩阵M,通过计算支持度和压缩矩阵来确定频繁项集L,并从频繁项集L中挖掘电网故障原因与状态量的关联规则。
本实施例提供的电网故障原因与状态量的关联分析装置为实现上述实施例的电网故障原因与状态量的关联分析方法,本实施例提供的电网故障原因与状态量的关联分析装置实现原理和技术效果与上述实施例类似,此处不再赘述。
可选的,层次聚类分析模块11,具体用于将预设聚类数的取值设为最小聚类数,并对连续型数据S进行凝聚型的层次聚类分析,获取聚类簇;对聚类簇进行聚类算法评价,计算聚类簇的戴维斯-博尔丁指数DBI值;将预设聚类数的取值加一,并返回执行对连续型数据S进行凝聚型的层次聚类分析,获取聚类簇,对聚类簇进行聚类算法评价,计算聚类簇的DBI值的步骤,直至预设聚类数的取值为最大聚类数为止,选择DBI值最小的聚类簇的聚类数作为最佳聚类数,确定聚类结果S′。
可选的,层次聚类分析模块11,具体用于执行步骤a)对于归一化后的连续型数据中的将中的任意一个数据设置为的聚类中心,形成的聚类集合C=(c1,c2,…,cj,…,cn),其中,i=(1,2,…,p);步骤b)计算聚类集合C中每个聚类对(cj,ck)之间的相似度sim(cj,ck),其中,j=(1,2,…,n),k=(1,2,…,n),j≠k;步骤c)选取相似度最大的聚类对argmax sim(cj,ck),将相似度最大的聚类对合并成更新后的聚类中心cl,并合并相似度最大的聚类对的特征矢量,更新的聚类集合C=(c1,c2,…,cl,…,cn-1),l=(1,2,…,n-1);返回执行步骤b)和步骤c),直至更新后的的聚类集合C达到预设聚类数为止。
可选的,聚类簇的DBI值采用如下公式进行计算:
其中,布尔矩阵M包括n个事务(T1,T2,…,Tn)和m个项(I1,I2,…,Im)。
可选的,关联规则确定模块14,具体用于执行步骤a)计算布尔矩阵M的k-项集支持度,其中,k-项集支持度采用如下公式进行计算,Ck={Ii1,Ii2,…,Iik}为从布尔矩阵M的m行中任取k行所形成的k项集,∧是对行向量各分量的与运算符;步骤b)根据k-项集支持度,生成k-项集索引表;步骤c)从k-项集索引表中选出支持度大于最小支持度的频繁项Lk;步骤d)对布尔矩阵M进行压缩,并返回执行步骤a)-步骤d),直至步骤c)不再生成频繁项Lk为止,得到频繁项集L=∪Lk。
可选的,关联规则确定模块14,具体用于计算频繁项集L中每个频繁项的置信度,并选择置信度大于最小置信度的频繁项作为电网故障原因与状态量的关联规则,其中,每个频繁项的置信度采用如下公式进行计算,X∈L,Y∈L且X∩Y=Φ。
实施例四
图6为实施例四提供的一种计算机设备的结构示意图,如图6所示,该计算机设备包括处理器30、存储器31和通信接口32;计算机设备中处理器30的数量可以是一个或多个,图6中以一个处理器30为例;计算机设备中的处理器30、存储器31、通信接口32可以通过总线或其他方式连接,图6中以通过总线连接为例。总线表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储器31作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。处理器30通过运行存储在存储器31中的软件程序、指令以及模块,从而执行计算机设备的至少一种功能应用以及数据处理,即实现上述的方法。
存储器31可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器31可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器31可包括相对于处理器30远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
通信接口32可设置为数据的接收与发送。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如本发明任意实施例所提供的方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质包括(非穷举的列表):具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、可擦式可编程只读存储器(electrically erasable,programmable Read-Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,数据信号中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或多种程序设计语言组合来编写用于执行本公开操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言诸如Java、Smalltalk、C++、Ruby、Go,还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络(包括局域网(Local Area Network,LAN)或广域网(Wide Area Network,WAN))连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本领域内的技术人员应明白,术语用户终端涵盖任何适合类型的无线用户设备,例如移动电话、便携数据处理装置、便携网络浏览器或车载移动台。
一般来说,本发明的多种实施例可以在硬件或专用电路、软件、逻辑或其任何组合中实现。例如,一些方面可以被实现在硬件中,而其它方面可以被实现在可以被控制器、微处理器或其它计算装置执行的固件或软件中,尽管本发明不限于此。
本发明的实施例可以通过移动装置的数据处理器执行计算机程序指令来实现,例如在处理器实体中,或者通过硬件,或者通过软件和硬件的组合。计算机程序指令可以是汇编指令、指令集架构(Instruction Set Architecture,ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码。
本发明附图中的任何逻辑流程的框图可以表示程序步骤,或者可以表示相互连接的逻辑电路、模块和功能,或者可以表示程序步骤与逻辑电路、模块和功能的组合。计算机程序可以存储在存储器上。存储器可以具有任何适合于本地技术环境的类型并且可以使用任何适合的数据存储技术实现,例如但不限于只读存储器(ROM)、随机访问存储器(RAM)、光存储器装置和系统(数码多功能光碟DVD或CD光盘)等。计算机可读介质可以包括非瞬时性存储介质。数据处理器可以是任何适合于本地技术环境的类型,例如但不限于通用计算机、专用计算机、微处理器、数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑器件(Field-Programmable Gate Array,FGPA)以及基于多核处理器架构的处理器。
Claims (4)
1.一种电网故障原因与状态量的关联分析方法,其特征在于,包括:
采集电网发生故障时的包含保护动作信息的系统故障状态记录数据T,并将所述系统故障状态记录数据T划分为离散型数据R和连续型数据S;
对所述连续型数据S进行凝聚型的层次聚类分析,确定聚类结果S′;
构建故障样本数据集T′,其中,所述故障样本数据集T′包括所述离散型数据R和所述聚类结果S′;
利用改进的关联规则Apriori算法,将所述故障样本数据集T′转换为布尔矩阵M;
根据所述布尔矩阵M,通过计算支持度和压缩矩阵来确定频繁项集L,并从所述频繁项集L中挖掘出电网故障原因与状态量的关联规则;
所述对所述连续型数据S进行凝聚型的层次聚类分析,确定聚类结果S′包括:
将预设聚类数的取值设为最小聚类数,并对所述连续型数据S进行凝聚型的层次聚类分析,获取聚类簇;
对所述聚类簇进行聚类算法评价,计算所述聚类簇的戴维斯-博尔丁指数DBI值;
将所述预设聚类数的取值加一,并返回执行对所述连续型数据S进行凝聚型的层次聚类分析,获取聚类簇,对所述聚类簇进行聚类算法评价,计算所述聚类簇的DBI值的步骤,直至所述预设聚类数的取值为最大聚类数为止,选择DBI值最小的聚类簇的聚类数作为最佳聚类数,确定聚类结果S′;
所述对所述连续型数据S进行凝聚型的层次聚类分析,获取聚类簇包括:
步骤c)选取相似度最大的聚类对argmax sim(cj,ck),将所述相似度最大的聚类对合并成更新后的聚类中心cl,并合并所述相似度最大的聚类对的特征矢量,更新的聚类集合C=(c1,c2,…,cl,…,cn-1),l=(1,2,…,n-1);
所述聚类簇的DBI值采用如下公式进行计算:
其中,所述布尔矩阵M包括n个事务(T1,T2,…,Tn)和m个项(I1,I2,…,Im);
所述根据所述布尔矩阵M,通过计算支持度和压缩矩阵来确定频繁项集L包括:
步骤a)计算所述布尔矩阵M的k-项集支持度,其中,所述k-项集支持度采用如下公式进行计算,Ck={Ii1,Ii2,…,Iik}为从布尔矩阵M的m行中任取k行所形成的k项集,∧是对行向量各分量的与运算符;
步骤b)根据所述k-项集支持度,生成k-项集索引表;
步骤c)从所述k-项集索引表中选出支持度大于最小支持度的频繁项Lk;
步骤d)对所述布尔矩阵M进行压缩,并返回执行步骤a)-步骤d),直至步骤c)不再生成频繁项Lk为止,得到频繁项集L=∪Lk;
所述从所述频繁项集L中挖掘出电网故障原因与状态量的关联规则包括:
3.一种计算机设备,其特征在于,包括:处理器,所述处理器用于在执行计算机程序时实现如权利要求1-2中任一所述的电网故障原因与状态量的关联分析方法。
4.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-2中任一所述的电网故障原因与状态量的关联分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010832232.9A CN112016602B (zh) | 2020-08-18 | 2020-08-18 | 电网故障原因与状态量的关联分析方法,设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010832232.9A CN112016602B (zh) | 2020-08-18 | 2020-08-18 | 电网故障原因与状态量的关联分析方法,设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112016602A CN112016602A (zh) | 2020-12-01 |
CN112016602B true CN112016602B (zh) | 2021-08-10 |
Family
ID=73504991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010832232.9A Active CN112016602B (zh) | 2020-08-18 | 2020-08-18 | 电网故障原因与状态量的关联分析方法,设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112016602B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112714462A (zh) * | 2020-12-25 | 2021-04-27 | 南京邮电大学 | 基于改进Apriori算法的电力无线专网特定网络攻击监测方法 |
CN112925806B (zh) * | 2021-04-14 | 2023-07-25 | 中国人民解放军海军航空大学岸防兵学院 | 基于关联规则的性能退化特征参数提取方法、系统、介质及设备 |
CN113297291A (zh) * | 2021-05-08 | 2021-08-24 | 上海电气风电集团股份有限公司 | 监测方法、系统、可读存储介质和风力发电机 |
CN113610278B (zh) * | 2021-07-15 | 2024-09-06 | 华中科技大学 | 一种故障风险预测分析方法、装置、电子设备及存储介质 |
CN113553358B (zh) * | 2021-07-27 | 2022-12-06 | 国网天津市电力公司电力科学研究院 | 一种基于数据挖掘的电网设备无效数据辨识方法及装置 |
CN113872768B (zh) * | 2021-09-23 | 2024-01-09 | 国网陕西省电力公司汉中供电公司 | 一种输变电设备状态量采集存储方法及系统 |
CN114090647A (zh) * | 2021-10-22 | 2022-02-25 | 国家电网公司西南分部 | 一种电力通信设备缺陷关联性分析方法及缺陷排查方法 |
CN114881259A (zh) * | 2022-04-24 | 2022-08-09 | 广东电网有限责任公司 | 中压配电线路的典型故障提取方法、装置、设备及介质 |
CN114637793B (zh) * | 2022-05-19 | 2022-08-02 | 四川观想科技股份有限公司 | 一种基于大数据分析的装备故障频发区域定位方法 |
CN117474013B (zh) * | 2023-12-27 | 2024-03-22 | 卓世科技(海南)有限公司 | 一种大语言模型知识增强方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103871003A (zh) * | 2014-03-31 | 2014-06-18 | 国家电网公司 | 一种应用历史故障数据的配电网故障诊断方法 |
CN108600000A (zh) * | 2018-04-12 | 2018-09-28 | 咪咕文化科技有限公司 | 一种故障预测方法、服务器和计算机存储介质 |
CN110334208A (zh) * | 2019-05-09 | 2019-10-15 | 湖南中车时代通信信号有限公司 | 基于贝叶斯信念网络的lkj故障预测诊断方法和系统 |
CN110705824A (zh) * | 2019-08-30 | 2020-01-17 | 广东电网有限责任公司 | 一种基于聚类分析和关联分析的电压暂降分析方法 |
CN111222556A (zh) * | 2019-12-31 | 2020-06-02 | 中国南方电网有限责任公司 | 一种基于决策树算法识别用电类别的方法及系统 |
-
2020
- 2020-08-18 CN CN202010832232.9A patent/CN112016602B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103871003A (zh) * | 2014-03-31 | 2014-06-18 | 国家电网公司 | 一种应用历史故障数据的配电网故障诊断方法 |
CN108600000A (zh) * | 2018-04-12 | 2018-09-28 | 咪咕文化科技有限公司 | 一种故障预测方法、服务器和计算机存储介质 |
CN110334208A (zh) * | 2019-05-09 | 2019-10-15 | 湖南中车时代通信信号有限公司 | 基于贝叶斯信念网络的lkj故障预测诊断方法和系统 |
CN110705824A (zh) * | 2019-08-30 | 2020-01-17 | 广东电网有限责任公司 | 一种基于聚类分析和关联分析的电压暂降分析方法 |
CN111222556A (zh) * | 2019-12-31 | 2020-06-02 | 中国南方电网有限责任公司 | 一种基于决策树算法识别用电类别的方法及系统 |
Non-Patent Citations (2)
Title |
---|
基于关联规则挖掘技术的配电网故障数据分析;王海龙 等;《中国高等学校电力系统及其自动化专业第29届学术年会会议》;20131113;第1-5页 * |
面向故障诊断的并行关联规则算法研究与实现;李栋;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20130315;第23-28页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112016602A (zh) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112016602B (zh) | 电网故障原因与状态量的关联分析方法,设备和存储介质 | |
He et al. | Experience report: System log analysis for anomaly detection | |
Razavi-Far et al. | Correlation clustering imputation for diagnosing attacks and faults with missing power grid data | |
CN111343161B (zh) | 异常信息处理节点分析方法、装置、介质及电子设备 | |
CN111563524A (zh) | 一种多站融合系统运行态势异常监测和告警合并方法 | |
CN113111305B (zh) | 一种异常检测方法、装置、存储介质及电子设备 | |
CN115544519A (zh) | 对计量自动化系统威胁情报进行安全性关联分析的方法 | |
Wu et al. | Research on network intrusion detection technology based on machine learning | |
CN111726351B (zh) | 基于Bagging改进的GRU并行网络流量异常检测方法 | |
CN114064723A (zh) | 关联规则挖掘方法、装置、计算机设备和存储介质 | |
CN118313812A (zh) | 一种基于机器学习的电力大数据采集处理方法 | |
Jia et al. | Robust and transferable log-based anomaly detection | |
CN118113999A (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN116451116A (zh) | 故障识别模型构建方法、装置、计算机设备和存储介质 | |
CN114385472A (zh) | 一种异常数据的检测方法、装置、设备及存储介质 | |
CN112860648A (zh) | 一种基于日志平台的智能分析方法 | |
CN113076217A (zh) | 基于国产平台的磁盘故障预测方法 | |
Duan et al. | Data mining technology for structural health monitoring | |
CN117272170B (zh) | 一种基于知识图谱的it运维故障根因分析方法 | |
CN116881087B (zh) | 数据库运维智能平台 | |
Shi et al. | LogFold: Enhancing Log Anomaly Detection Through Sequence Folding and Reconstruction | |
CN118113503A (zh) | 一种智能运维系统故障预测方法、装置、设备和存储介质 | |
Zejian et al. | Power Outage Detection and Prediction Model Using Data Mining Technique | |
CN118779693A (zh) | 一种基于差异感知的属性网络异常检测方法 | |
Zhu et al. | Methods for Correlation Analysis of Alarm Information in Multi-Microservice Application Environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |