CN113886396B

CN113886396B - 基于高效用频繁模式挖掘的电力系统故障检测方法及系统

Info

Publication number: CN113886396B
Application number: CN202111218067.9A
Authority: CN
Inventors: 牛新征; 刘鹏飞; 吴鹏; 王仕民; 荣先钊; 崔涌泉; 欧阳宇翔; 秦志旗
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-03-29
Anticipated expiration: 2041-10-20
Also published as: CN113886396A

Abstract

本发明公开了一种基于高效用频繁模式挖掘的电力系统故障检测方法及系统，属于电力系统故障检测技术领域，解决现有技术无法快速挖掘出电力系统故障，从而无法及时获知故障信息。本发明包括：基于历史故障信息初始化数据库，得到初始的故障数据库，其中，故障数据库包括时刻、故障信息和专家结论，故障信息包括系统id属性、ip属性和多个故障内容属性,专家结论是指使用领域知识对故障的重要性的评估；基于故障数据库中各故障内容属性的数据频段构建效用事务数据库；基于效用事务数据库和树状数组优化的效用列表，挖掘高效用频繁模式；根据挖掘的高效用频繁模式，采用关联规则分析技术对电力系统的故障进行分析。本发明用于电力系统故障检测。

Description

基于高效用频繁模式挖掘的电力系统故障检测方法及系统

技术领域

一种基于高效用频繁模式挖掘的电力系统故障检测方法及系统，用于电力系统故障检测，属于电力系统故障检测技术领域。

背景技术

当前的高效用频繁模式挖掘算法中，较为常见有基于候选项，基于树形结构和基于垂直数据结构的改进。由于基于候选项的算法需要遍历所有的事项，而基于树形结构的算法往往需要较大的存储空间。因此主要的研究都集中在如何改进基于垂直数据结构的检测方法。

电力系统故障是指设备不能按照预期的指标进行工作的一种状态，也就是说设备未达到其应该达到的功能，其故障有以下几种：发电机组故障、输电线路故障、变电所故障、母线故障等。电力系统故障会严重影响生产经营或生活需求。现有技术常采用基于故障树的诊断专家系统对电力系统进行故障检测。但故障树方法有扩充难、极度依赖领域知识、判定死板、非基于数据构建模型等缺陷。因此，在电力系统故障检测中引入基于数据的垂直数据结构挖掘方法是十分有必要的。但电力系统故障数据体量大，采用现有的垂直数据结构的检测方法存在如下技术问题：

1.无法快速挖掘出电力系统故障，从而无法及时获知故障信息；

2.缺乏对故障重要性的评估，无法挖掘更贴近实际的潜在故障；

3.长时间占用CPU资源对系统正常运行造成影响。

发明内容

针对上述研究的问题，本发明的目的在于提供一种基于高效用频繁模式挖掘的电力系统故障检测方法及系统，解决现有技术无法快速挖掘出电力系统故障，从而无法及时获知故障信息。

为了达到上述目的，本发明采用如下技术方案：

一种基于高效用频繁模式挖掘的电力系统故障检测方法，包括：

步骤1、基于历史故障信息，初始化数据库，得到初始的故障数据库，其中，故障数据库包括时刻、故障信息和专家结论，故障信息包括系统id属性、ip属性和多个故障内容属性,专家结论是指使用领域知识对故障的重要性的评估；

步骤2、基于故障数据库中各故障内容属性的数据频段构建效用事务数据库；

步骤3、基于效用事务数据库和树状数组优化的效用列表，挖掘高效用频繁模式；

步骤4、根据挖掘的高效用频繁模式，采用关联规则分析技术对电力系统的故障进行分析。

进一步，所述步骤2的具体步骤为：

基于数据频段的划分标准或经验对各故障内容属性的数据频段进行频段划分，划分后得到不带效用信息的事务数据库；

给事务数据库中各属性的各段频段进行重要性赋值，赋值后得到效用事务数据库。

进一步，所述步骤3基于主程序、BuildTreeArray程序、SearchTreeArray程序和SAVE程序得到树状数组优化的效用列表来挖掘效用事务数据库中的高效用频繁模式；

主程序：

1.1、给定阈值参数min_util；

1.2、遍历效用事务数据库，获取效用列表，即根据每个单项，记录各单项出现的事务tid，形成事务列表tidset并将各单项在各事务中的效用值进行记录，记录后得到各单项的效用列表，所有效用列表构成效用列表集合，其中，单项是指各故障内容属性的各频段，效用值是指重要性赋值；

1.3、过滤效用列表，即计算各单项对应的效用列表的效用值之和，并将效用值之和低于阈值参数min_util的效用列表直接删除；

1.4、过滤后，根据BuildTreeArray程序对各单项对应的效用列表新建树状数组，并根据该单项的效用值之和在效用事务数据库中所占的比例，确定该单项的效用列表中的各事务的求和区间范围；

1.5、对步骤1.4得到的效用列表集合中的单项进行添加后缀操作，即任选两个未进行过交集操作处理的单项，并对选择的单项的效用列表中的事务列表tidset进行取交集操作，交集操作具体为：根据确定的求和区间范围，通过调用SearchTreeArray程序计算得到各个求和区间的效用值之各，并获得求和区间标记False或True，获得求和区间标记后，忽略标记为False的区间，只在两个效用列表的区间发生重叠时，即标记为True时进行逐个事务的求交集操作，得到交集信息，交集信息包括两个事务和两个事务交集区间的效用值之和，其中，两个事务为当前高效用频繁模式的前项项集，两个事务交集区间的效用值之和为高效用频繁模式的后项；

1.6、新建新效用列表，将交集信息存储进新效用列表中，存储后，当新效用列表的效用值之和大于等于min_util时，调用SAVE程序将其存储至模式数据库PDB中，同时将新效用列表加入效用列表集合，用于添加后缀操作，否则，效用列表保持不变；

1.7、若效用列表集合中的所有单项的效用列表都被遍历一遍后，该程序停止，否则，重复执行步骤1.5-1.7；

BuildTreeArray程序：

2.1、按事务id的升序顺序提取效用列表中事务的一id对应的当前位置x的效用值，通过x&(-x)操作得到树状数组存储位置下标；

2.2、再将当前事务id的效用值存储至树状数组对应的下标位置上；

2.3、若当前效用列表中所有事务tid的效用值都存在至树状数组，即得到该单项对应的效用列表的树状数组，否则提取下一个事务的id对应的位置作为当前位置x，再执行步骤2.1；

SearchTreeArray程序：

3.1、已知求和区间在树状数组中的起始下标x与结束下标y，从起始下标x开始，通过x&(-x)计算更新下标x的位置，更新后得到效用值的下标；

3.2、将当前更新得到的下标对应的效用值与之前更新了下标对应的效用值相加，若更新到结束下标y，即得到最终的效用值之和，否则转到步骤3.1对下一个下标进行更新；

3.3、遍历整个树状数组，将最终的效用值之和为0的区间赋值为False，将其余的区间赋值为True；

SAVE程序：

将当前高效用频繁模式的前项项集存储至模式数据库PDB中；

将高效用频繁模式的后项存储至模式数据库PDB中；

将前项和后项组成的高效用频繁模式添加至效用列表中。

一种基于高效用频繁模式挖掘的电力系统故障检测系统，包括：

存储模块：基于历史故障信息，初始化数据库，得到初始的故障数据库，其中，故障数据库包括时刻、故障信息和专家结论，故障信息包括系统id属性、ip属性和多个故障内容属性,专家结论是指使用领域知识对故障的重要性的评估；

效用事务数据库构建模块：基于故障数据库中各故障内容属性的数据频段构建效用事务数据库；

挖掘模块：基于效用事务数据库和树状数组优化的效用列表，挖掘高效用频繁模式；

故障分析模块：根据挖掘的高效用频繁模式，采用关联规则分析技术对电力系统的故障进行分析。

进一步，所述效用事务数据库构建模块的具体步骤为：

进一步，所述挖掘模块基于主程序、BuildTreeArray程序、SearchTreeArray程序和SAVE程序得到树状数组优化的效用列表来挖掘效用事务数据库中的高效用频繁模式；

主程序：

1.1、给定阈值参数min_util；

BuildTreeArray程序：

SearchTreeArray程序：

SAVE程序：

将当前高效用频繁模式的前项项集存储至模式数据库PDB中；

将高效用频繁模式的后项存储至模式数据库PDB中；

将前项和后项组成的高效用频繁模式添加至效用列表中。

本发明同现有技术相比，其有益效果表现在：

一、本发明基于树状数组优化的新数据结构，对每个数据结构中存储的事务信息进行动态分段，更加高效地挖掘出高效用频繁模式，并将其用于电力系统中的故障检测，与现有技术相比内存占用减少了20％，CPU占用率降低了30％。

二、本发明引入了效用值的概念对故障重要性进行评估，从而得到更加具有实际意义的效用模式，比现有技术的频繁模式挖掘方法提升了40％的准确率。

三、本发明减少了CPU占用时间，减小对系统运行的影响，运行时间比现有技术减少了40％；

四、本发明优化了现有技术中数据可伸缩性敏感的问题，数据量增加至原来的10倍时，运行时间的增加是现有技术增加量的60％。

附图说明

图1为本发明的流程示意图；

图2为本发明中BuildTreeArray程序得到的树状数组；

图3为本发明中SearchTreeArray程序得到的树状数组。

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

电力系统中经常发生某些故障，而故障之间存在着某些关联，其往往通过频繁模式的形式表示。挖掘潜在频繁模式对管理电力系统，迅速修复故障有着极大的帮助。但是频繁模式挖掘存在缺陷，无法表示每一个故障的重要程度。因此，高效用频繁模式挖掘引入了故障数量与重要性的概念，能够将原本忽略但重要的故障模式挖掘出来。同时，由于该模式挖掘的困难性，如何提升高效用频繁模式挖掘的效率有着重要意义。

1.根据历史故障信息初始化数据库，得到初始的故障数据库，其中，故障数据库包括时刻、故障信息和专家结论，故障信息包括系统id属性、ip属性和多个故障内容属性,专家结论是指使用领域知识对故障的重要性的评估，如发生CPU占有过高故障，专家为此评定重要性为85分(总分100)，则专家结论为{CPU占用过高:85}；

针对初始的故障数据库，假设有以下格式的数据：

其中，每行的故障信息代表着某一时刻系统发生的一个故障，故障信息中的数据11、数据12......数据1N，一般而言包含系统id、ip和多个故障内容等属性，多个故障内容包括CPU占用率和CPU温度，此处每条故障信息的数据数(N)相同。之后，专家根据故障信息对故障进行标记，将故障划分至事先规定好的频段中。

2.基于故障数据库中各故障内容属性的数据频段构建效用事务数据库

一般而言，不同的故障内容属性数据取值范围完全不同。例如，CPU占用率的取值为[0，1]，而CPU温度的取值则有可能是[0，100]。因此，将两项属性划分至不同的频段中，有利于事务数据库统一格式的构建。例如将CPU占用率与CPU温度的取值频段划分如下：

此处频段名仅作代词，不代表占用率与温度的命名相同。假设专家对故障的标记准确无误，则对每一条故障内容，故障内容属性都被转化为了可唯一标识的故障序号，则故障内容被转换为一条与顺序无关的序列，整个故障数据库中的故障内容属性被转换为不带效用信息的传统事务数据库。

之后，针对每一个故障内容属性的每一个频段，专家基于数据频段的划分标准或经验都给出一个重要性评估，表格格式如下：

频段命名	B1	B2	B3	B4	B5
						重要性	3	2	1	4	6

表中的重要性取值(重要性赋值)没有限制，可以取任意非负自然数，保证重要的频段拥有更大的重要性即可。

将重要性赋值记录在事务数据库中，即得到构建好的效用事务数据库。

3.基于效用事务数据库和树状数组优化的效用列表，挖掘高效用频繁模式

我们将故障内容属性频段称为单项。现有的高效用频繁模式挖掘以基于Eclat的算法为主流，而效用列表是其中重要的数据结构。但是，使用效用列表需要进行大量的交集运算，该运算占据了算法大部分运行时间。现有的算法使用了许多数据结构来提升其效率，但是依然缺少一个能够有效减少该运算的方法。因此，我们提出了一种基于树状数组优化的新型效用列表。树状数组能够快速地更新与计算求和区间问题，我们将效用事务数据库中的所有事务(T1,T2……)在当前模式中的信息使用树状数组储存，每条模式在每条事务中都有一个效用值(重要性赋值)，树状数组便能够迅速地得出该模式在某段连续的事务中出现。如果一段区间内的效用值为0，则说明这段事务区间不可能有事务需要处理，我们通过跳过这些区间来加速高效用频繁模式挖掘。

主程序：

假设事务数据库库如下：

事务1：A1:1B1:2C2:3

事务2：A2:2B1:1C2:3

事务3：A2:1B3:2C3:3

事务4：A2:2B1:1C5:3

其中，A1、B1、B3、C2、C3、C5分别表示A、B、C故障内容属性中的频段。

主程序：

1.1、给定阈值参数min_util；此处假设min_util＝5；

1.2、遍历效用事务数据库，获取效用列表，即根据每个单项，记录各单项出现的事务tid，形成事务列表tidset并将各单项在各事务中的效用值进行记录，记录后得到各单项的效用列表，所有效用列表构成效用列表集合，其中，单项是指各故障内容属性的各频段，效用值是指重要性赋值；如A2的事务列表tidset为{2:2，3：1，4：2},B1的事务列表tidset为{1:2,2:1,4:1}，即以事务号:效用值的格式存储。

1.3、过滤效用列表，即计算各单项对应的效用列表的效用值之和，并将效用值之和低于阈值参数min_util的效用列表直接删除；如B1的效用值之和为2+1+1＝4，因此将其删除；A2的效用值之和为2+1+2＝5,因此保留。

1.4、过滤后，根据BuildTreeArray程序对各单项对应的效用列表新建树状数组，并根据该单项的效用值之和在效用事务数据库中所占的比例，确定该单项的效用列表中的各事务的求和区间范围；如在A2中，效用值之和的占比为5/24，且整个效用事务数据库有7个不同的单项，因此求和区间的长度为5/24*7≈1.5，向上取正为2。即从事务1开始，本案例中，每2个事务构成一段求和区间。则对A2而言，事务1至事务2为求和区间1，事务3至事务4为求和区间2。同理，C2的求和与A2相同。

1.5、对步骤1.4得到的效用列表集合中的单项进行添加后缀操作，即任选两个未进行过交集操作处理的单项，并对选择的单项的效用列表中的事务列表tidset进行取交集操作，交集操作具体为：根据确定的求和区间范围，通过调用SearchTreeArray程序计算得到各个求和区间的效用值之各，并获得求和区间标记False或True，获得求和区间标记后，忽略标记为False的区间，只在两个效用列表的区间发生重叠时，即标记为True时进行逐个事务的求交集操作，得到交集信息，交集信息包括两个事务和两个事务交集区间的效用值之和，其中，两个事务为当前高效用频繁模式的前项项集，两个事务交集区间的效用值之和为高效用频繁模式的后项；如A2和C2有求和区间1和求和区间2，A2添加后缀C2形成{A2,C2}，由于C2的求和区间2的效用值之和为0，因此其SearchTreeArray程序返回的该求和区间标记应为False，计算交集时只需考虑求和区间1即可。在求和区间1中，A2与C2只在事务2共同出现，因此{A2,C2}的事务交集为{2}。并且，事务2中A2的效用值为2，C2的效用值为3，则{A2,C2}的效用值为二者之和2+3＝5。最终可得{A2,C2}的交集为{2:5}，其中，{A2,C2}为当前高效用频繁模式的前项项集，5为高效用频繁模式的后项。C2在A2的添加后缀过程中不会再出现，但{A2,C2}以及C2依然有可能出现，同样，A2也有可能会有其他的后缀。

1.6、新建新效用列表，将交集信息存储进新效用列表中，存储后，当新效用列表的效用值之和大于等于min_util时，调用SAVE程序将其存储至模式数据库PDB中，同时将新效用列表加入效用列表集合，交集信息之后会再度添加后缀形成新的效用列表，否则，效用列表保持不变；

BuildTreeArray程序：

2.1、按事务id的升序顺序提取效用列表中事务的一id对应的当前位置x的效用值，通过x&(-x)操作得到树状数组存储位置下标；如当前位置3，可得到树状数组中的下标为1。

2.2、再将当前事务id的效用值存储至树状数组对应的下标位置上；如效用值为2，当前位置为3，就会存储在数组下标为1的位置上；

SearchTreeArray程序：

3.1、已知求和区间在树状数组中的起始下标x与结束下标y，从起始下标x开始，通过x&(-x)计算更新下标x的位置，更新后得到效用值的下标；如求和区间在树状数组中的起始下标为3，可得到更新后的下标为1。

3.2、将当前更新得到的下标对应的效用值与之前更新了下标对应的效用值相加，如遍历下标1的数据时，则将其效用值2与之前更新了下标的效用值累加，若更新到结束下标y，即得到最终的效用值之和，否则转到步骤3.1对下一个下标进行更新。

3.3、遍历整个树状数组，将最终的效用值之和为0的区间赋值为False，将其余的区间赋值为True；如C2的求和区间长度为2，求和区间[0,2]的最终的效用值之和为0，因此赋值为0；

图3所示，假设求和区间1的数值1与数值2都为0，深灰色区域代表false，浅灰色区域代表true。由于树状数组求和区间范围决定了求和判定的粒度，若取更大的求和区间范围，则会有更多的数组元素在一个区间内处理。例如，求和区间1和求和区间2为依次划分的区间，若求和区间范围为2，则结果为求和区间1，若求和区间范围为4，则结果为求和区间2。

SAVE程序：

将当前高效用频繁模式的前项项集存储至模式数据库PDB中；如{A2,C2}为当前模式。

将高效用频繁模式的后项存储至模式数据库PDB中；如5即为效用值。

将前项和后项组成的高效用频繁模式添加至效用列表中。如{A2,C2}:5即为一个完整模式。

4、根据挖掘的高效用频繁模式，采用关联规则分析技术对电力系统的故障进行分析，最后得到的高效用频繁模式格式如下：

模式1	{A1,E2......}:85
		模式2	{C1,D7,E1......}:90
......	......
		模式k	{A5,D9......}:86

每条模式都代表着在系统中经常一起出现的故障与其对应的重要性。如{A1,E2}：85就代表故障内容A第1频段和故障内容E的第2个频段等故障经常一起出现，并且其效用值为85，代表其故障重要性赋值超过了用户预设的阈值，二者有重要的故障关联。之后根据重要性赋值与高效用频繁模式中属性的关系对模式进行排序，最后得到一个重要故障清单。然后根据故障类别，将不同的故障分析结果记录在不同人员的处理表上。最后，一轮分析结束后，等待新增的故障条目达到阈值后，再设定新的阈值参数min_util，重新运行分析算法即可。

以上仅是本发明众多具体应用范围中的代表性实施例，对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案，均落在本发明权利保护范围之内。

Claims

1.一种基于高效用频繁模式挖掘的电力系统故障检测方法，其特征在于，包括：

步骤4、根据挖掘的高效用频繁模式，采用关联规则分析技术对电力系统的故障进行分析;

所述步骤3基于主程序、BuildTreeArray程序、SearchTreeArray程序和SAVE程序得到树状数组优化的效用列表来挖掘效用事务数据库中的高效用频繁模式；

主程序：

1.1、给定阈值参数min_util；

BuildTreeArray程序：

SearchTreeArray程序：

SAVE程序：

将当前高效用频繁模式的前项项集存储至模式数据库PDB中；

将高效用频繁模式的后项存储至模式数据库PDB中；

将前项和后项组成的高效用频繁模式添加至效用列表中。

2.根据权利要求1所述的一种基于高效用频繁模式挖掘的电力系统故障检测方法，其特征在于，所述步骤2的具体步骤为：

3.一种基于高效用频繁模式挖掘的电力系统故障检测系统，其特征在于，包括：

故障分析模块：根据挖掘的高效用频繁模式，采用关联规则分析技术对电力系统的故障进行分析;

所述挖掘模块基于主程序、BuildTreeArray程序、SearchTreeArray程序和SAVE程序得到树状数组优化的效用列表来挖掘效用事务数据库中的高效用频繁模式；

主程序：

1.1、给定阈值参数min_util；

BuildTreeArray程序：

SearchTreeArray程序：

SAVE程序：

将当前高效用频繁模式的前项项集存储至模式数据库PDB中；

将高效用频繁模式的后项存储至模式数据库PDB中；

将前项和后项组成的高效用频繁模式添加至效用列表中。

4.根据权利要求3所述的一种基于高效用频繁模式挖掘的电力系统故障检测系统，其特征在于，所述效用事务数据库构建模块的具体步骤为：