CN115203290A - 一种基于多维prefixspan算法的故障诊断方法 - Google Patents

一种基于多维prefixspan算法的故障诊断方法 Download PDF

Info

Publication number
CN115203290A
CN115203290A CN202210856532.XA CN202210856532A CN115203290A CN 115203290 A CN115203290 A CN 115203290A CN 202210856532 A CN202210856532 A CN 202210856532A CN 115203290 A CN115203290 A CN 115203290A
Authority
CN
China
Prior art keywords
fault
item
sequence
prefix
frequent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210856532.XA
Other languages
English (en)
Inventor
吕磊
田园
王卓
周里涛
张瑞强
杨茜
贾文瑞
毛启均
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Sichuan Electric Power Co Ltd
Original Assignee
State Grid Sichuan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Sichuan Electric Power Co Ltd filed Critical State Grid Sichuan Electric Power Co Ltd
Priority to CN202210856532.XA priority Critical patent/CN115203290A/zh
Publication of CN115203290A publication Critical patent/CN115203290A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Abstract

本发明涉及电力系统故障诊断领域,提供了一种基于多维prefixspan算法的故障诊断方法。目的在于针对当前基于Eclat高效用频繁模式挖掘算法中频繁求交集导致的效率降低问题。主要方案包括:对历史故障日志数据进行收集,得到历史故障信息;对所有故障进行权重划分,针对特定的、重要的故障项给予更高的权重值,以此得到故障权重表;为相同故障事件项通过UUID进行标识,结合故障权重表,生成由单条故障项组成的故障序列集作为算法模型的输入;运用改进后的prefixspan算法模型,对故障序列集进行关联规则挖掘,得到当前时间段内的频繁序列集;将得到的频繁序列集作为关联故障项集合整理生成故障知识库存储;根据当下故障的历史故障关联规则制定故障解决方案,完成故障诊断。

Description

一种基于多维prefixspan算法的故障诊断方法
技术领域
本发明涉及电力系统故障诊断领域,提供了一种基于多维prefixspan算法的故障诊断方法。
背景技术
序列模式挖掘是从序列数据库中挖掘相对时间或其他模式出现频率高的模式。在针对电力信息系统故障诊断过程中,研究多个时间段中发生的不同故障之间的关联关系对最终故障诊断有着巨大帮助。使用基于prefixspan算法的序列模式挖掘能够在时间维度上找到不同故障之间的关联关系,但由于电力信息系统日益增长的系统规模,故障事件项趋于高粒度化发展。对故障事件项进行多维定义,将事件空间、时间和重要性信息引入其中,不仅能够将稀疏的故障事件项进行过滤,还能够保留以往被忽视的重要事件。
PrefixSpan算法的基本思想是使用频繁前缀划分搜索空间和投影序列数据库,并搜索相关序列,检查前缀子序列,将其相应的后缀子序列投影到数据库中。该算法同时采用分治的策略。不断产生更多更小的投影数据库。然后在名投影数据库上进行序列模式控掘。针对所有的事件项都有同样的支持度计数规则,缺少针对不同事件的支持度划分策略。
发明内容
本发明的目的在于针对当前基于Eclat高效用频繁模式挖掘算法中频繁求交集导致的效率降低问题。
为了实现上述目的本发明采用以下技术方案:
一种基于多维prefixspan算法的故障诊断方法,包括以下步骤:
步骤1:对历史故障日志数据进行收集,过滤其中的故障噪声数据项,得到历史故障信息;
步骤2:根据历史故障信息以及单一故障造成的系统危害对已经发生的所有故障进行权重划分,针对特定的、重要的故障项给予更高的权重值,以此得到故障权重表;
步骤3:为相同故障事件项通过UUID进行标识,结合故障权重表,生成由单条故障项组成的故障序列集作为算法模型的输入;
步骤4;运用改进后的prefixspan算法模型,对故障序列集进行关联规则挖掘,得到当前时间段内的频繁序列集;
步骤5:将步骤4得到的频繁序列集作为关联故障项集合整理生成故障知识库存储;
步骤7:根据当下故障的历史故障关联规则制定故障解决方案,完成故障诊断。
上述技术方案中,步骤4包括以下以下步骤:
步骤4.1:将由单条故障项组成的故障序列集转换为SQLS链表格式,链表包含故障信息的两个字段,分别为序列编码、权重值,以及包含指向下一个链表项的指针的SQLS字段,通过SQLS字段实现链表链接,得到链表数据集S,单条故障称为故障项的链表结构如下:
Figure BDA0003754447790000021
步骤4.1.1:链表SQLS中序列编码字段为当前故障的UUID,不同链表中相同的故障具有相同的序列编码。
步骤4.1.2:链表SQLS中权重值字段为故障在权重表中被给予的权重值。
步骤4.1.3:链表SQLS中的SQLS为指向下一个链表项的指针。
步骤4.2:将所有时间段内的多条链表数据集S作为prefixspan算法的输入,进行故障关联规则的挖掘。
步骤4.2.1:首先遍历多条链表数据集S,判断当前链表数据集S中所有长度为1的故障项,并计算故障项支持度,支持度=权值*出现次数,其中长度为1指的是单个故障;
步骤4.2.2:在当前链表数据集S将不满足最小支持度阈值的故障项从当前链表数据集S中删除,满足最小支持度阈值的故障项作为前缀,删除前缀和支持度不达标的故障项后的链表数据集作为投影,得到前缀投影序列,直到处理完所有链表数据集S,
步骤4.2.3:生成链表结构的前缀数组A1以此来记录所有长度为1的前缀得到前缀序列,前缀数组A1是频繁1项序列集,记为序列集A1;。
步骤4.2.4:对频繁1项集的投影序列进行挖掘,得到频繁2项集:
步骤4.2.5:将序列集A2作为新的前缀序列集执行重复执行步骤4.2.4操作得到频繁3项集A3,序列集A3;
步骤4.2.6:在支持度阈值的限制下,递归操作最终收敛于频繁N项集,记为AN,程序终止;
步骤4.2.7:最终得到的前缀序列项集A1、A2、……AN即为最终的频繁序列集。
上述技术方案中,步骤4.2.4包括以下步骤:
步骤4.2.4.1:若前缀数组A1的投影序列为空,则返回;
步骤4.2.4.2:通过对前缀数组A1的投影序列中各事件项权值作为其支持度进行计数,若各个单项的支持度计数都低于支持度阈值,则返回;
步骤4.2.4.3:遍历前缀投影序列,将支持度计数大于或等于阈值的各个故障项和当前投影序列的前缀进行合并,获得若干的频繁2项集,记为序列集A2。
上述技术方案中,步骤4.2.5包括以下步骤:
将序列集A2作为新的前缀序列集执行重复执行步骤4.2.4.1-步骤4.2.4.3的操作得到频繁3项集A3,序列集A3。
上述技术方案中,步骤7具体包括以下步骤:
步骤7.1:对实时发生的故障进行知识库匹配,输入故障名称,查询与之关联的故障信息;
步骤7.2:若不存在关联故障信息,对当前故障进行权重划分并存入历史故障信息库,若存在关联故障信息,分析当前故障前后的故障信息,将发生在该故障之前的关联故障作为故障源头,发生在之后的关联故障视作即将可能发生的故障,进行故障溯源和故障预测;
步骤7.3:通过故障溯源和故障预测,实现故障诊断。
因为本发明采用上述技术方案,因此具备以下有益效果:
一、针对当前基于Eclat高效用频繁模式挖掘算法中频繁求交集导致的效率降低问题,对效用列表结构进行优化,提出了一种基于树状数组优化的新数据结构,对每个数据结构中存储的事务信息进行动态分段,更加高效地挖掘出高效用频繁模式,并将其用于电力系统中的故障检测。
二、针对Prefi×Span算法存在构造投影数据库开销巨大、扫描效率不高的问题,主要通过使用链表形式的序列结构,将每次扫描到的频繁项作为其整个前缀的投影项集,避免每次递归挖掘之后创建新的投影数据库,从而减少了保存投影数据库所需内存空间,不用再为扫描不可能出现的序列模式而花费不必要的挖掘时间,因而提高了内存的使用效率和算法的挖掘效率。
三、基于权值的支持度计数方式,将事件的二维信息融合进了时间序列中,使得prefixspan算法更具科学性和生产意义,其输出结果更能反映电力信息系统中发生的故障之间的关联关系,为故障诊断提供了实际可靠的依据。同时,在算法层面,降低了噪声对数据递归运算的影响,减少了数据集的高粒度性,提高了算法运行效率和其对系统内存的消耗。
附图说明
图1本发明流程示意图。
具体实施方式
以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明,但需要注意的是本发明并不仅仅只局限于这些实施方式。相反,对本发明进行的修改或者等同替换,均应涵盖在本发明的权利要求范围当中。
另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解,没有这些具体细节,本发明同样可以实施。
构建事件项支持度数据库
根据历史故障数据库的信息,将故障事件项进行多维分解。根据所属系统、网络级别进行分类。形成下列数据;
Figure BDA0003754447790000041
Figure BDA0003754447790000051
针对故障所属的不同系统,进行权重划分,权重值满足a<b……<1。对于重要系统部分发生的故障需要引起调度人员的重点关注,同时也能够减少噪点对后续算法结果的影响。
Figure BDA0003754447790000052
针对故障所在网络级别,进行权重划分,权重值满足c<d……<1。在高级别网络拓扑网中发生的故障同样需要引起调度人员的重点关注。
根据以上两个权重表,对故障项权重进行加权计算。所属系统权重和网络级别权重分别各占总权重的50%。事件权重=所属系统权重*50%+网络级别权重*50%。
Figure BDA0003754447790000053
a、b……权重值均小于1
本申请不同于传统的prefixspan算法直接将事件项序列作为算法模型的输入,该改进方法融合了对应故障的权重信息。高权重的信息往往是比较重要或者需要专家特别关注的。将根据故障事件的所属系统和网络级别划分的权重作为故障关联规则挖掘的支持度。不同于传统的prefixspan算法构建序列数据库,将序列及其权重通过链表的形式存储,避免在生成前缀投影时频繁构建投影数据库造成系统不必要的开销。链表结构如下;
Figure BDA0003754447790000054
针对PrefixSpan算法存在构造投影数据库开销巨大、扫描效率不高的问题,主要通过使用链表形式的序列结构,将每次扫描到的频繁项作为其整个前缀的投影项集,避免每次递归挖掘之后创建新的投影数据库,从而减少了保存投影数据库所需内存空间,不用再为扫描不可能出现的序列模式而花费不必要的挖掘时间,因而提高了内存的使用效率和算法的挖掘效率。
基于权值的支持度计数方式,将事件的二维信息融合进了时间序列中,使得prefixspan算法更具科学性和生产意义,其输出结果更能反映电力信息系统中发生的故障之间的关联关系,为故障诊断提供了实际可靠的依据。同时,在算法层面,降低了噪声对数据递归运算的影响,减少了数据集的高粒度性,提高了算法运行效率和其对系统内存的消耗。
实施例1
一种基于多维prefixspan算法的故障诊断方法,包括以下步骤:
步骤1:将历史故障数据按照时间先后顺序排列,以二十四小时为间隔进行分割,得到N条故障信息。
步骤2:结合历史故障数据,对已经发生的故障进行评估,对高危险性故障给予一个较高的权重值,例如“一级网络故障”,因其会对整个系统造成较大影响,所以会被给予一个较高权重值。
步骤3:对相同的故障进行UUID编码,作为其唯一标识符。再结合权重分配表,为每一个故障项赋予权重值,通过链表彼此连接,得到N条故障序列。例如故障A“一级网络中断”,鉴于此故障会对整个系统产生较大危害,为其分配较高的权重T,其在链表中为:
Figure BDA0003754447790000061
步骤4:针对故障A,计算其在N条故障序列中出现的次数,通过支持度等于权重值乘以出现次数公式,得到故障A的支持度。若支持度大于设定的阈值,则将故障A作为前缀,进一步挖掘与之相关联的故障信息。
步骤4.1:将故障A从所有故障序列中删除,剩下的序列作为其投影序列。故障A作为一个频繁1项集,从其投影序列中找出满足支持度阈值的故障项,和故障A形成频繁2项集。对所有的频繁一项集执行相同的操作,得到所有的频繁2项集。
步骤4.2:从频繁2项集的投影序列中挖掘满足支持度阈值的故障项形成频繁3项集。若频繁2项集的投影序列为空或者其投影序列中没有满足支持度阈值的故障项,则算法结束。
步骤4.3:在支持度阈值的限制下,算法收敛于频繁K项集。得到若干故障频繁项集。
步骤5:将步骤4中得到的所有频繁项集整理生成故障知识库。
步骤6:针对实时发生的故障,在知识库中检索与之相关联的频繁项集,位于该故障前的故障项集视作故障源头,位于该故障之后的故障项集视作可能将会出现的故障,以此对所有发生的故障进行溯源和预防,实现故障诊断。

Claims (5)

1.一种基于多维prefixspan算法的故障诊断方法,其特征在于,包括以下步骤:
步骤1:对历史故障日志数据进行收集,过滤其中的故障噪声数据项,得到历史故障信息;
步骤2:根据历史故障信息以及单一故障造成的系统危害对已经发生的所有故障进行权重划分,针对特定的、重要的故障项给予更高的权重值,以此得到故障权重表;
步骤3:为相同故障事件项通过UUID进行标识,结合故障权重表,生成由单条故障项组成的故障序列集作为算法模型的输入;
步骤4;运用改进后的prefixspan算法模型,对故障序列集进行关联规则挖掘,得到当前时间段内的频繁序列集;
步骤5:将步骤4得到的频繁序列集作为关联故障项集合整理生成故障知识库存储;
步骤7:根据当下故障的历史故障关联规则制定故障解决方案,完成故障诊断。
2.根据权利要求1所述的一种基于多维prefixspan算法的故障诊断方法,其特征在于,步骤4包括以下以下步骤:
步骤4.1:将由单条故障项组成的故障序列集转换为SQLS链表格式,链表包含故障信息的两个字段,分别为序列编码、权重值,以及包含指向下一个链表项的指针的SQLS字段,通过SQLS字段实现链表链接,得到链表数据集S,单条故障称为故障项的链表结构如下:
ListSQLS{
序列编码String;
权重值Float;
链表SQLS
}
步骤4.1.1:链表SQLS中序列编码字段为当前故障的UUID,不同链表中相同的故障具有相同的序列编码。
步骤4.1.2:链表SQLS中权重值字段为故障在权重表中被给予的权重值。
步骤4.1.3:链表SQLS中的SQLS为指向下一个链表项的指针。
步骤4.2:将所有时间段内的多条链表数据集S作为pretixspan算法的输入,进行故障关联规则的挖掘。
步骤4.2.1:首先遍历多条链表数据集S,判断当前链表数据集S中所有长度为1的故障项,并计算故障项支持度,支持度=权值*出现次数,其中长度为1指的是单个故障;
步骤4.2.2:在当前链表数据集S将不满足最小支持度阈值的故障项从当前链表数据集S中删除,满足最小支持度阈值的故障项作为前缀,删除前缀和支持度不达标的故障项后的链表数据集作为投影,得到前缀投影序列,直到处理完所有链表数据集S,
步骤4.2.3:生成链表结构的前缀数组A1以此来记录所有长度为1的前缀得到前缀序列,前缀数组A1是频繁1项序列集,记为序列集A1;。
步骤4.2.4:对频繁1项集的投影序列进行挖掘,得到频繁2项集:
步骤4.2.5:将序列集A2作为新的前缀序列集执行重复执行步骤4.2.4操作得到频繁3项集A3,序列集A3;
步骤4.2.6:在支持度阈值的限制下,递归操作最终收敛于频繁N项集,记为AN,程序终止;
步骤4.2.7:最终得到的前缀序列项集A1、A2、……AN即为最终的频繁序列集。
3.根据权利要求2所述的一种基于多维prefixspan算法的故障诊断方法,其特征在于,步骤4.2.4包括以下步骤:
步骤4.2.4.1:若前缀数组A1的投影序列为空,则返回;
步骤4.2.4.2:通过对前缀数组A1的投影序列中各事件项权值作为其支持度进行计数,若各个单项的支持度计数都低于支持度阈值,则返回;
步骤4.2.4.3:遍历前缀投影序列,将支持度计数大于或等于阈值的各个故障项和当前投影序列的前缀进行合并,获得若干的频繁2项集,记为序列集A2。
4.根据权利要求3所述的一种基于多维prefixspan算法的故障诊断方法,其特征在于,步骤4.2.5包括以下步骤:
将序列集A2作为新的前缀序列集执行重复执行步骤4.2.4.1-步骤4.2.4.3的操作得到频繁3项集A3,序列集A3。
5.根据权利要求3所述的一种基于多维prefixspan算法的故障诊断方法,其特征在于,步骤7具体包括以下步骤:
步骤7.1:对实时发生的故障进行知识库匹配,输入故障名称,查询与之关联的故障信息;
步骤7.2:若不存在关联故障信息,对当前故障进行权重划分并存入历史故障信息库,若存在关联故障信息,分析当前故障前后的故障信息,将发生在该故障之前的关联故障作为故障源头,发生在之后的关联故障视作即将可能发生的故障,进行故障溯源和故障预测;
步骤7.3:通过故障溯源和故障预测,实现故障诊断。
CN202210856532.XA 2022-07-20 2022-07-20 一种基于多维prefixspan算法的故障诊断方法 Pending CN115203290A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210856532.XA CN115203290A (zh) 2022-07-20 2022-07-20 一种基于多维prefixspan算法的故障诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210856532.XA CN115203290A (zh) 2022-07-20 2022-07-20 一种基于多维prefixspan算法的故障诊断方法

Publications (1)

Publication Number Publication Date
CN115203290A true CN115203290A (zh) 2022-10-18

Family

ID=83582476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210856532.XA Pending CN115203290A (zh) 2022-07-20 2022-07-20 一种基于多维prefixspan算法的故障诊断方法

Country Status (1)

Country Link
CN (1) CN115203290A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115422263A (zh) * 2022-11-01 2022-12-02 广东亿能电力股份有限公司 一种电力现场多功能通用型故障分析方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115422263A (zh) * 2022-11-01 2022-12-02 广东亿能电力股份有限公司 一种电力现场多功能通用型故障分析方法及系统

Similar Documents

Publication Publication Date Title
CN102098175B (zh) 一种移动互联网告警关联规则获取方法
CN111639237B (zh) 一种基于聚类和关联规则挖掘的电力通信网风险评估系统
CN101888309B (zh) 在线日志分析方法
Tong et al. Discovering threshold-based frequent closed itemsets over probabilistic data
Assent et al. INSCY: Indexing subspace clusters with in-process-removal of redundancy
CN103733195A (zh) 管理用于基于范围的搜索的数据的存储
CN108074022A (zh) 一种基于集中运维的硬件资源分析与评估方法
CN112183656B (zh) 一种电网故障中scada数据频繁项集挖掘方法
CN110309200A (zh) 改进的产品质量异常数据FP-Growth关联分析方法
CN109308290B (zh) 一种基于cim的高效数据清洗转换方法
CN115203290A (zh) 一种基于多维prefixspan算法的故障诊断方法
CN106503811A (zh) 一种基于大数据的基础设施全生命周期管理方法
CN104991741A (zh) 一种基于键值模型的情境适配电网大数据存储方法
CN112699281B (zh) 一种基于gspan算法的告警事件规则挖掘方法与系统
CN111628888B (zh) 一种故障诊断方法、装置、设备及计算机存储介质
CN107766452B (zh) 一种适合电力调度数据高速存取的索引系统及其索引方法
CN111292201A (zh) 一种基于Apriori和RETE的电力通信网现场运维信息推送的方法
CN110413602B (zh) 一种分层清洗式大数据清洗方法
Zhao et al. Mining fault association rules in the perception layer of electric power sensor network based on improved Eclat
Guyet et al. Incremental mining of frequent sequences from a window sliding over a stream of itemsets
Kiran et al. Mining periodic-frequent patterns with maximum items' support constraints
Bin et al. An Improved Algorithm for High Speed Train's Maintenance Data Mining Based on MapReduce
Zhenguo et al. An improved fp-growth algorithm based on compound single linked list
Yang et al. IMBT--A Binary Tree for Efficient Support Counting of Incremental Data Mining
CN102609777A (zh) 用于减灾应急决策知识库系统的控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination