CN114880584A

CN114880584A - 一种基于社区发现的发电机组故障分析方法

Info

Publication number: CN114880584A
Application number: CN202210525424.4A
Authority: CN
Inventors: 张洪涛; 房康; 胡波; 龚登位; 王远洪; 陈川; 彭程; 蔡金华; 胡涵; 董顺; 常志增; 刘畅; 王珩; 张斌; 李亚都
Original assignee: NR Engineering Co Ltd; Xian Thermal Power Research Institute Co Ltd; Huaneng Lancang River Hydropower Co Ltd
Current assignee: NR Engineering Co Ltd; Xian Thermal Power Research Institute Co Ltd; Huaneng Lancang River Hydropower Co Ltd
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-08-09

Abstract

本发明公开了一种基于社区发现的发电机组故障分析方法，采用文本筛选和关系提取的方法从文本中筛选出重要告警语料中的关键词的关系，然后对该关键词的关系进行数据挖掘，依据频繁性找出因果关系，获得有向图，在使用社区发现的方法，找出不同关键词关系的关联性，划分为各个社区。

Description

一种基于社区发现的发电机组故障分析方法

技术领域

本发明涉及电力系统的故障数据分析领域，具体涉及基于社区发现的发电机组故障分析方法。

背景技术

当前的电力工控系统具有异构、网络规模大、分布式部署并且网络的结构和状态经常会发生变化等特征。同时同一类型的网络设备有众多的生产厂家。、不同技术体制的系统和设备，这些系统和设备会以光、电方式通过各种物理介质连接起来，相互之间存在着复杂的关联关系。在运行中的通信网络中，一个故障往往会引发不同系统/设备之间，以及同一设备不同层次的多个告警事件，而且告警事件的种类和原因各不相同，在这样的大规模分布式网络环境中实际运行的网络设备会由于各种原因而产生种类繁多的告警，告警与故障呈现出的不确定性关系十分凸显，不同的监控设备产生告警时互不协商，因此对同一种故障原因在相同或相近时间点产生多个冗余故障，给故障的精确分析和消除带来了难度，且同一个告警消息的诱因可能是多个故障共同的结果，也可能是单故障的结果，且很多告警消息包含很多的冗余信息不易与故障进行直接关联，这些众多的告警信息错综叠加，使得发生故障的真正根原因告警被掩盖掉了，运维人员不得不花费大量时间与精力来诊断故障原因，造成运行维护效率低下，现场故障处置缓慢等问题。目前利用数据挖掘分析海量告警，从中挖掘出告警之间的关联关系，仅适用于告警在整个事件序列上均匀分布的情况，在实际情况下可能在有些时间区域内告警密度非常大，而在有些区域则完全没有告警，这造成许多无意义的窗口以及空窗口的产生，且前后告警的关联难以被发现。挖掘频繁发生的告警无法直观可视化的呈现给运行维护人员。

因而难以根据收集到的告警消息确定根故障以及确切的需要消除的故障数目。此外，电力工控系统网络复杂、异质的特性决定了运行维护人员在告警监视的实时性与故障处置的及时性方面始终面临着极大的挑战。

发明内容

本发明要解决的技术问题是，提供一种基于社区发现的发电机组故障分析方法，利用关系提取算法处理文本获得重要信息，再结合GSP算法和社区发现，使对电力告警的关联分析具有较好的准确性及适用性。

为解决上述技术问题，本发明采用的技术方案是：该基于改进GSP的电力通信网络告警关联挖掘方法，具体包括以下步骤：

(1)收集同一工控系统生成的不同对象的历史告警语料，对各对象的历史告警语料分别进行降噪处理，筛选出各对象的故障语料，将各对象的故障语料分词为分词队列并标注词性，则利用命名实体识别模型识别分词队列中特殊特征词的命名实体的边界及类别，从各对象的分词队列中挑出含有词性组合模型的各对象的候选分词队列，将词性对应词性组合模型中源实体/目标实体关键词词性的分词从中提取分别作为实体组成实体元组，其中词性组合模型含有源实体关键词和目标实体关键词的词性和其之间的一个向量关键词词性；

(2)基于已知的具有故障关系的实体关系表，使用关系抽取算法发现实体元组的实体关联规则，根据实体关联规则发现实体元组中的关联实体组；

(3)将实体关系表替换为关联实体组，使用步骤(2)的关系抽取算法发现关联实体组直至不再有新的关联实体组产生，每一种关联实体组赋予唯一的事件代码；

(4)对各对象的候选分词队列标记其对应的事件代码，将与各对象有关的所有事件代码按历史告警语料中对应的时间戳增序排序，同一对象具有相同时间戳的一个或多个事件代码组成一个事务，得到各对象的序列S即事务数据库；

(5)采用GSP算法对事务数据库进行多遍扫描，获得频繁序列，依据频繁序列中事务的方向关系形成有向图G＝(V、E)，并获取有向图G的邻接矩阵A＝[a_ij]，V和E分别表示节点和边的集合，节点是事务中的事件，边是频繁序列内事件的顺序关系，若节点i和节点j相连，则a_ij＝1，反之a_ij＝0；

(6)基于随机游走的标签传播重叠社区发现方法获得社区集合，同时确定重叠社区。

采用上述技术方案，采用步骤(1)处理告警语料可发掘告警语料中的源实体和目标实体，删除告警语料中与告警事件无关的冗余信息，从而更精准的标注告警语料，使告警语料依据其的实体特征分类，源实体是告警语料中第一个实体名词，代表工控系统监控的设备、或参数指标，目标实体是告警语料中与源实体有关系的第二个名词或数词，被代表工控系统监控的与源实体有关联的设备或参数指标，步骤(2)～(4)再根据源实体和目标实体的组合(实体元组)和现有的故障实体关系，将种类繁多无规律的实体元组聚类成少量事件标签，将种类繁多的告警语料压缩为若干种事项，这样就形成了由有限数量的事项按时间戳排序的有规律序列，步骤(5)使用序列挖掘算法GSP挖掘出频繁序列，即发掘频繁序列之后的频繁序列，前后频繁序列之间存在因果关系；步骤(6)再使用社区发现分离出主要社区节点，将主要社区节点基于随机游走图核进行相似度计算，将相似度较高的社区节点抽取出来，使用标签传播进行相似度计算，降低了标签传播的随机性，使对应告警语料中的实体元组的节点被按照频繁度和相似性划分为各个社区，这样运行维护人员可根据发现的社区判断节点对应的实体元组和其他哪些实体元组关联性高，具有故障传播关系，从而为后续待分析告警语料的相似性分析提供科学依据，最终实现根告警的准确定位，便于运行维护人员快速消除重要的告警。

作为本发明的优选技方方案，所述步骤(5)中GSP算法包括以下步骤：S1.设置最小支持度，遍历事务数据库，生成长度为1，且满足最小支持度的初始频繁序列集L₁；

S2.遍历长度为i的频繁序列集L_i，通过连接操作和剪枝操作生成长度为i+1的候选序列集C_i+1；

S3.遍历事务数据库，计算候选序列集C_i+1中；每个候选序列的支持度，若支持度满足最小支持度，则将其放入长度为i+1的频繁序列集L_i+1；

S4.若长度为i+1的频繁序列集L_i+1为空，表示无新的频繁序列产生，则算法结束；否则令i＝i+1，重复步骤S2。

作为本发明的优选技方方案，所述步骤S2中的连接操作的具体方法为：若长度为n的两个频繁序列S₁＝{s₁，s₂，…，s_n}和S₂＝{s′₁，s′₂，…，s′_n}，满足条件s₂＝s′₁，s₃＝s′₄，…，s_n＝s′_n-1，则S₁和S₂可通过连接生成长度为n+1的候选序列C_i+1＝{s₁，s₂，…，s_n，s′_n}；

1)若S₂的最后两个事件属于相同的事务，则S₂的最后一个事件在合并后的序列中是S₁的最后一个事务的一部分；

2)若S₂的最后两个事件属于不同的事务，则S₂的最后一个事件在合并后的序列中成为连接到S₁的尾部的单独事务。

作为本发明的优选技方方案，所述步骤S2中的剪枝操作的具体方法为：若候选序列C_i+1＝{s₁，s₂，…，s_n，s′_n}中只要存在一个不是频繁序列的子序列，则C_i+1肯定不是频繁序列，可将C_i+1从候选序列集C_i+1中去除。

作为本发明的优选技方方案，所述步骤(1)中对各对象的历史告警语料分别进行降噪处理，包括将历史告警语料分别与标准故障句子比较计算相似度，保留相似度满足最小相似度的历史告警语料。

具体的通过已知的标准告警语料与历史告警语料进行相似度计算，就可以排除不代表被监控的设备的告警语料和被监控的参数指标的告警语料，或不代表重点被监控设备的告警语料和重点被监控的参数指标的告警语料。

作为本发明的优选技方方案，所述步骤(1)中词性组合模型为：<S,P,O>，分别表示源实体、关系、目标实体。

作为本发明的优选技方方案，所述步骤(2)中具有故障关系的实体关系表的格式为五元组形式，分别为：<left>，实体1类型，<middle>，实体2类型，<right>；len为可任意设定长度，<left>为实体1左边len个词汇的向量表示，<middle>为实体1和实体2间的词汇向量表示，<right>为实体2右边len个词汇的向量表示；所述步骤(2)中将步骤(1)获得的实体元组按实体关系表的格式转化为相同格式的模板，使用关系收取算法Snowball比较模板间相似度，将满足最小相似度的模板聚类为新模板形成实体关联规则，再逐一将实体元组的模板与规则比较相似度，满足最小相似度的模板为关联实体组。

作为本发明的优选技方方案，通过PageRank算法计算出所述有向图G中各节点的重要性，所述重要性为各节点在所述有向图G中的概率分布；

根据各节点的重要性获得种子节点集合；

为所述种子节点集合中各所述种子节点赋予唯一标签；

为各所述种子节点的邻居节点赋予对应所述种子节点的标签；

通过标签传播使所述有向图G中各节点包括至少一个标签；

重复进行“通过标签传播，将各节点的邻居节点中标签权重大于设定权重阈值的标签更新到各对应节点”操作，直到各所述节点的标签不再发生变化；

根据各节点的标签划分社区，获得社区集合；各社区中各节点具有相同的标签；

根据所述社区集合确定重叠社区。

作为本发明的优选技方方案，所述根据各节点的重要性获得种子节点集合，具体包括：

选择重要性均大于邻居节点的重要性的节点为所述种子节点；所述种子节点构成所述种子节点集合；

获得所述种子节点集合中每两个种子节点的公共邻居节点的个数，若公共邻居节点的个数大于设定个数阈值，则分别计算公共邻居节点与两个种子节点的相似度，从所述两个种子节点中删除与所述公共邻居节点相似度之和较小的一个种子节点，得到更新的种子节点集合；

相邻两个节点的相似度计算公式为：

其中n_ij表示节点v_i和节点v_j之间共同邻居的数量，k_i和k_j分别代表节点v_i和节点v_j的节点度。

本方法的优势在于采用文本筛选和关系提取的方法从文本中筛选出重要告警语料中的关键词的关系，然后对该关键词的关系进行数据挖掘，依据频繁性找出因果关系，获得有向图，在使用社区发现的方法，找出不同关键词关系的关联性，划分为各个社区。

附图说明

图1为本发明的方法步骤(4)获得的事务数据库的参照图；

图2为事务数据库转化为的长度为1的初始频繁序列列表；

图3为连接剪枝后的频繁序列。

具体实施方式

该基于社区发现的发电机组故障分析方法，具体包括以下步骤：

(1)收集同一工控系统生成的不同对象的历史告警语料，对各对象的历史告警语料分别进行降噪处理，如将历史告警语料分别与标准故障句子比较计算相似度，保留相似度满足最小相似度的历史告警语料；

然后再筛选出各对象的故障语料，将各对象的故障语料分词为分词队列并标注词性，则利用命名实体识别模型识别分词队列中特殊特征词的命名实体的边界及类别，从各对象的分词队列中挑出含有词性组合模型的各对象的候选分词队列，将词性对应词性组合模型中源实体/目标实体关键词词性的分词从中提取分别作为实体组成实体元组，其中词性组合模型含有源实体关键词和目标实体关键词的词性和其之间的一个向量关键词词性，词性组合模型为：<S,P,O>，分别表示源实体、关系、目标实体。源实体是告警语料中第一个实体名词，代表工控系统监控的设备、或参数指标，目标实体是告警语料中与源实体有关系的第二个名词或数词，被代表工控系统监控的与源实体有关联的设备或参数指标。识别源实体和目标实体需要根据分词的词性进行判断，实体的词性为名称或专用名词或数词，命名实体的边界和类别可以将字符、时间的词性和边界与名词、数词、专有名词进行区分；

具有故障关系的实体关系表的格式为五元组形式，分别为：<left>，实体1类型，<middle>，实体2类型，<right>；len为可任意设定长度，<left>为实体1左边len个词汇的向量表示，<middle>为实体1和实体2间的词汇向量表示，<right>为实体2右边len个词汇的向量表示；步骤(2)中将步骤(1)获得的实体元组按实体关系表的格式转化为相同格式的模板，使用关系收取算法Snowball比较模板间相似度，将满足最小相似度的模板聚类为新模板形成实体关联规则，再逐一将实体元组的模板与规则比较相似度，满足最小相似度的模板为关联实体组。

步骤(2)至步骤(3)根据源实体和目标实体的组合(实体元组)和现有的故障实体关系，将种类繁多无规律的实体元组聚类成少量事件标签，将种类繁多的告警语料压缩为若干种事项；

(4)对各对象的候选分词队列标记其对应的事件代码，将与各对象有关的所有事件代码按历史告警语料中对应的时间戳增序排序，同一对象具有相同时间戳的一个或多个事件代码组成一个事务，得到各对象的序列S即事务数据库，如图1；

(5)采用GSP算法对事务数据库进行多遍扫描，获得频繁序列，GSP算法包括以下步骤：

S1.如图2，设置最小支持度，遍历事务数据库，生成长度为1，且满足最小支持度的初始频繁序列集L₁；

以上过程如图3。支持度＝序列出现次数/总序列数。

连接操作的具体方法为：若长度为n的两个频繁序列S₁＝{s₁，s₂，…，s_n}和S₂＝{s′₁，s′₂，…，s′_n}，满足条件s₂＝s′₁，s₃＝s′₄，…，s_n＝s′_n-1，则S₁和S₂可通过连接生成长度为n+1的候选序列C_i+1＝{s₁，s₂，…，s_n，s′_n}；

剪枝操作的具体方法为：若候选序列C_i+1＝{s₁，s₂，…，s_n，s′_n}中只要存在一个不是频繁序列的子序列，则C_i+1肯定不是频繁序列，可将C_i+1从候选序列集。

再依据频繁序列中事务的方向关系形成有向图G＝(V、E)，并获取有向图G的邻接矩阵A＝[a_ij]，V和E分别表示节点和边的集合，节点是事务中的事件，边是频繁序列内事件的顺序关系，若节点i和节点j相连，则a_ij＝1，反之a_ij＝0；

包括以下步骤：

1)通过PageRank算法计算出所述有向图G中各节点的重要性，所述重要性为各节点在所述有向图G中的概率分布；pagerank是Google排名公式的一部分，是Google用于用来标识网页的。

重要性的一种方法。

2)根据各节点的重要性获得种子节点集合：选择重要性均大于邻居节点的重要性的节点为所述种子节点；所述种子节点构成所述种子节点集合；

相邻两个节点的相似度计算公式为：

3)为所述种子节点集合中各所述种子节点赋予唯一标签；

4)为各所述种子节点的邻居节点赋予对应所述种子节点的标签；

5)通过标签传播使所述有向图G中各节点包括至少一个标签；

6)重复进行“通过标签传播，将各节点的邻居节点中标签权重大于设定权重阈值的标签更新到各对应节点”操作，直到各所述节点的标签不再发生变化；

节点i的标签k的权重p(i,k)定义为：

其中，p(i,k)表示节点i中标签k的权重，PRk为标签k的初始节点的重要性，NC(i)为节点i的邻居节点的个数，N(i)为节点i的邻居节点域，w(j)为节点j的标签个数，δ(k,j)表示节点j是否存在标签k，如果存在标签k，则δ(k,j)为1，否则δ(k,j)为0。节点标签的权重通过标签占比及标签初始节点的PR值衡量每个标签的重要性。

7)根据各节点的标签划分社区，获得社区集合；各社区中各节点具有相同的标签；

8)根据所述社区集合确定重叠社区。

上面结合附图对本发明的实施方式作了详细的说明，但是本发明不限于上述实施方式，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于社区发现的发电机组故障分析方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤(5)中GSP算法包括以下步骤：S1.设置最小支持度，遍历事务数据库，生成长度为1，且满足最小支持度的初始频繁序列集L₁；

3.根据权利要求2所述的方法，其特征在于，所述步骤S2中的连接操作的具体方法为：若长度为n的两个频繁序列S₁＝{s₁，s₂，…，s_n}和S₂＝{s′₁，s′₂，…，s′_n}，满足条件s₂＝s′₁，s₃＝s′₄，…，s_n＝s′_n-1，则S₁和S₂可通过连接生成长度为n+1的候选序列C_i+1＝{s₁，s₂，…，s_n，s′_n}；

4.根据权利要求3所述的方法，其特征在于，所述步骤S2中的剪枝操作的具体方法为：若候选序列C_i+1＝{s₁，s₂，…，s_n，s′_n}中只要存在一个不是频繁序列的子序列，则C_i+1肯定不是频繁序列，可将C_i+1从候选序列集C_i+1中去除。

5.根据权利要求1所述方法，其特征在于，所述步骤(1)中对各对象的历史告警语料分别进行降噪处理，包括将历史告警语料分别与标准故障句子比较计算相似度，保留相似度满足最小相似度的历史告警语料。

6.根据权利要求1所述的方法，其特征在于，所述步骤(1)中词性组合模型为：<S,P,O>，分别表示源实体、关系、目标实体。

7.根据权利要求1所述的方法，其特征在于，所述步骤(2)中具有故障关系的实体关系表的格式为五元组形式，分别为：<left>，实体1类型，<middle>，实体2类型，<right>；len为可任意设定长度，<left>为实体1左边len个词汇的向量表示，<middle>为实体1和实体2间的词汇向量表示，<right>为实体2右边len个词汇的向量表示；所述步骤(2)中将步骤(1)获得的实体元组按实体关系表的格式转化为相同格式的模板，使用关系收取算法Snowball比较模板间相似度，将满足最小相似度的模板聚类为新模板形成实体关联规则，再逐一将实体元组的模板与规则比较相似度，满足最小相似度的模板为关联实体组。

8.根据权利要求1所述的方法，其特征在于，所述步骤(6)包括以下步骤：

通过PageRank算法计算出所述有向图G中各节点的重要性，所述重要性为各节点在所述有向图G中的概率分布；

根据各节点的重要性获得种子节点集合；

为所述种子节点集合中各所述种子节点赋予唯一标签；

通过标签传播使所述有向图G中各节点包括至少一个标签；

根据所述社区集合确定重叠社区。

9.根据权利要求8所述的方法，其特征在于，所述根据各节点的重要性获得种子节点集合，具体包括：

相邻两个节点的相似度计算公式为：