CN114880584B - 一种基于社区发现的发电机组故障分析方法 - Google Patents
一种基于社区发现的发电机组故障分析方法 Download PDFInfo
- Publication number
- CN114880584B CN114880584B CN202210525424.4A CN202210525424A CN114880584B CN 114880584 B CN114880584 B CN 114880584B CN 202210525424 A CN202210525424 A CN 202210525424A CN 114880584 B CN114880584 B CN 114880584B
- Authority
- CN
- China
- Prior art keywords
- entity
- node
- nodes
- seed
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title abstract description 7
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000012216 screening Methods 0.000 claims abstract description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 24
- 238000013138 pruning Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 229910052717 sulfur Inorganic materials 0.000 claims description 6
- 238000005295 random walk Methods 0.000 claims description 4
- 235000019013 Viburnum opulus Nutrition 0.000 claims description 3
- 244000071378 Viburnum opulus Species 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 229910052760 oxygen Inorganic materials 0.000 claims description 3
- 229910052698 phosphorus Inorganic materials 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims 1
- 238000011946 reduction process Methods 0.000 claims 1
- 230000001364 causal effect Effects 0.000 abstract description 3
- 238000007418 data mining Methods 0.000 abstract description 3
- 238000005065 mining Methods 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Library & Information Science (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于社区发现的发电机组故障分析方法,采用文本筛选和关系提取的方法从文本中筛选出重要告警语料中的关键词的关系,然后对该关键词的关系进行数据挖掘,依据频繁性找出因果关系,获得有向图,在使用社区发现的方法,找出不同关键词关系的关联性,划分为各个社区。
Description
技术领域
本发明涉及电力系统的故障数据分析领域,具体涉及基于社区发现的发电机组故障分析方法。
背景技术
当前的电力工控系统具有异构、网络规模大、分布式部署并且网络的结构和状态经常会发生变化等特征。同时同一类型的网络设备有众多的生产厂家。、不同技术体制的系统和设备,这些系统和设备会以光、电方式通过各种物理介质连接起来,相互之间存在着复杂的关联关系。在运行中的通信网络中,一个故障往往会引发不同系统/设备之间,以及同一设备不同层次的多个告警事件,而且告警事件的种类和原因各不相同,在这样的大规模分布式网络环境中实际运行的网络设备会由于各种原因而产生种类繁多的告警,告警与故障呈现出的不确定性关系十分凸显,不同的监控设备产生告警时互不协商,因此对同一种故障原因在相同或相近时间点产生多个冗余故障,给故障的精确分析和消除带来了难度,且同一个告警消息的诱因可能是多个故障共同的结果,也可能是单故障的结果,且很多告警消息包含很多的冗余信息不易与故障进行直接关联,这些众多的告警信息错综叠加,使得发生故障的真正根原因告警被掩盖掉了,运维人员不得不花费大量时间与精力来诊断故障原因,造成运行维护效率低下,现场故障处置缓慢等问题。目前利用数据挖掘分析海量告警,从中挖掘出告警之间的关联关系,仅适用于告警在整个事件序列上均匀分布的情况,在实际情况下可能在有些时间区域内告警密度非常大,而在有些区域则完全没有告警,这造成许多无意义的窗口以及空窗口的产生,且前后告警的关联难以被发现。挖掘频繁发生的告警无法直观可视化的呈现给运行维护人员。
因而难以根据收集到的告警消息确定根故障以及确切的需要消除的故障数目。此外,电力工控系统网络复杂、异质的特性决定了运行维护人员在告警监视的实时性与故障处置的及时性方面始终面临着极大的挑战。
发明内容
本发明要解决的技术问题是,提供一种基于社区发现的发电机组故障分析方法,利用关系提取算法处理文本获得重要信息,再结合GSP算法和社区发现,使对电力告警的关联分析具有较好的准确性及适用性。
为解决上述技术问题,本发明采用的技术方案是:该基于改进GSP的电力通信网络告警关联挖掘方法,具体包括以下步骤:
(1)收集同一工控系统生成的不同对象的历史告警语料,对各对象的历史告警语料分别进行降噪处理,筛选出各对象的故障语料,将各对象的故障语料分词为分词队列并标注词性,则利用命名实体识别模型识别分词队列中特殊特征词的命名实体的边界及类别,从各对象的分词队列中挑出含有词性组合模型的各对象的候选分词队列,将词性对应词性组合模型中源实体/目标实体关键词词性的分词从中提取分别作为实体组成实体元组,其中词性组合模型含有源实体关键词和目标实体关键词的词性和其之间的一个向量关键词词性;
(2)基于已知的具有故障关系的实体关系表,使用关系抽取算法发现实体元组的实体关联规则,根据实体关联规则发现实体元组中的关联实体组;
(3)将实体关系表替换为关联实体组,使用步骤(2)的关系抽取算法发现关联实体组直至不再有新的关联实体组产生,每一种关联实体组赋予唯一的事件代码;
(4)对各对象的候选分词队列标记其对应的事件代码,将与各对象有关的所有事件代码按历史告警语料中对应的时间戳增序排序,同一对象具有相同时间戳的一个或多个事件代码组成一个事务,得到各对象的序列S即事务数据库;
(5)采用GSP算法对事务数据库进行多遍扫描,获得频繁序列,依据频繁序列中事务的方向关系形成有向图G=(V、E),并获取有向图G的邻接矩阵A=[aij],V和E分别表示节点和边的集合,节点是事务中的事件,边是频繁序列内事件的顺序关系,若节点i和节点j相连,则aij=1,反之aij=0;
(6)基于随机游走的标签传播重叠社区发现方法获得社区集合,同时确定重叠社区。
采用上述技术方案,采用步骤(1)处理告警语料可发掘告警语料中的源实体和目标实体,删除告警语料中与告警事件无关的冗余信息,从而更精准的标注告警语料,使告警语料依据其的实体特征分类,源实体是告警语料中第一个实体名词,代表工控系统监控的设备、或参数指标,目标实体是告警语料中与源实体有关系的第二个名词或数词,被代表工控系统监控的与源实体有关联的设备或参数指标,步骤(2)~(4)再根据源实体和目标实体的组合(实体元组)和现有的故障实体关系,将种类繁多无规律的实体元组聚类成少量事件标签,将种类繁多的告警语料压缩为若干种事项,这样就形成了由有限数量的事项按时间戳排序的有规律序列,步骤(5)使用序列挖掘算法GSP挖掘出频繁序列,即发掘频繁序列之后的频繁序列,前后频繁序列之间存在因果关系;步骤(6)再使用社区发现分离出主要社区节点,将主要社区节点基于随机游走图核进行相似度计算,将相似度较高的社区节点抽取出来,使用标签传播进行相似度计算,降低了标签传播的随机性,使对应告警语料中的实体元组的节点被按照频繁度和相似性划分为各个社区,这样运行维护人员可根据发现的社区判断节点对应的实体元组和其他哪些实体元组关联性高,具有故障传播关系,从而为后续待分析告警语料的相似性分析提供科学依据,最终实现根告警的准确定位,便于运行维护人员快速消除重要的告警。
作为本发明的优选技方方案,所述步骤(5)中GSP算法包括以下步骤:S1.设置最小支持度,遍历事务数据库,生成长度为1,且满足最小支持度的初始频繁序列集L1;
S2.遍历长度为i的频繁序列集Li,通过连接操作和剪枝操作生成长度为i+1的候选序列集Ci+1;
S3.遍历事务数据库,计算候选序列集Ci+1中;每个候选序列的支持度,若支持度满足最小支持度,则将其放入长度为i+1的频繁序列集Li+1;
S4.若长度为i+1的频繁序列集Li+1为空,表示无新的频繁序列产生,则算法结束;否则令i=i+1,重复步骤S2。
作为本发明的优选技方方案,所述步骤S2中的连接操作的具体方法为:若长度为n的两个频繁序列S1={s1,s2,…,sn}和S2={s′1,s′2,…,s′n},满足条件s2=s′1,s3=s′4,…,sn=s′n-1,则S1和S2可通过连接生成长度为n+1的候选序列Ci+1={s1,s2,…,sn,s′n};
1)若S2的最后两个事件属于相同的事务,则S2的最后一个事件在合并后的序列中是S1的最后一个事务的一部分;
2)若S2的最后两个事件属于不同的事务,则S2的最后一个事件在合并后的序列中成为连接到S1的尾部的单独事务。
作为本发明的优选技方方案,所述步骤S2中的剪枝操作的具体方法为:若候选序列Ci+1={s1,s2,…,sn,s′n}中只要存在一个不是频繁序列的子序列,则Ci+1肯定不是频繁序列,可将Ci+1从候选序列集Ci+1中去除。
作为本发明的优选技方方案,所述步骤(1)中对各对象的历史告警语料分别进行降噪处理,包括将历史告警语料分别与标准故障句子比较计算相似度,保留相似度满足最小相似度的历史告警语料。
具体的通过已知的标准告警语料与历史告警语料进行相似度计算,就可以排除不代表被监控的设备的告警语料和被监控的参数指标的告警语料,或不代表重点被监控设备的告警语料和重点被监控的参数指标的告警语料。
作为本发明的优选技方方案,所述步骤(1)中词性组合模型为:<S,P,O>,分别表示源实体、关系、目标实体。
作为本发明的优选技方方案,所述步骤(2)中具有故障关系的实体关系表的格式为五元组形式,分别为:<left>,实体1类型,<middle>,实体2类型,<right>;len为可任意设定长度,<left>为实体1左边len个词汇的向量表示,<middle>为实体1和实体2间的词汇向量表示,<right>为实体2右边len个词汇的向量表示;所述步骤(2)中将步骤(1)获得的实体元组按实体关系表的格式转化为相同格式的模板,使用关系收取算法Snowball比较模板间相似度,将满足最小相似度的模板聚类为新模板形成实体关联规则,再逐一将实体元组的模板与规则比较相似度,满足最小相似度的模板为关联实体组。
作为本发明的优选技方方案,通过PageRank算法计算出所述有向图G中各节点的重要性,所述重要性为各节点在所述有向图G中的概率分布;
根据各节点的重要性获得种子节点集合;
为所述种子节点集合中各所述种子节点赋予唯一标签;
为各所述种子节点的邻居节点赋予对应所述种子节点的标签;
通过标签传播使所述有向图G中各节点包括至少一个标签;
重复进行“通过标签传播,将各节点的邻居节点中标签权重大于设定权重阈值的标签更新到各对应节点”操作,直到各所述节点的标签不再发生变化;
根据各节点的标签划分社区,获得社区集合;各社区中各节点具有相同的标签;
根据所述社区集合确定重叠社区。
作为本发明的优选技方方案,所述根据各节点的重要性获得种子节点集合,具体包括:
选择重要性均大于邻居节点的重要性的节点为所述种子节点;所述种子节点构成所述种子节点集合;
获得所述种子节点集合中每两个种子节点的公共邻居节点的个数,若公共邻居节点的个数大于设定个数阈值,则分别计算公共邻居节点与两个种子节点的相似度,从所述两个种子节点中删除与所述公共邻居节点相似度之和较小的一个种子节点,得到更新的种子节点集合;
相邻两个节点的相似度计算公式为:其中nij表示节点vi和节点vj之间共同邻居的数量,ki和kj分别代表节点vi和节点vj的节点度。
本方法的优势在于采用文本筛选和关系提取的方法从文本中筛选出重要告警语料中的关键词的关系,然后对该关键词的关系进行数据挖掘,依据频繁性找出因果关系,获得有向图,在使用社区发现的方法,找出不同关键词关系的关联性,划分为各个社区。
附图说明
图1为本发明的方法步骤(4)获得的事务数据库的参照图;
图2为事务数据库转化为的长度为1的初始频繁序列列表;
图3为连接剪枝后的频繁序列。
具体实施方式
该基于社区发现的发电机组故障分析方法,具体包括以下步骤:
(1)收集同一工控系统生成的不同对象的历史告警语料,对各对象的历史告警语料分别进行降噪处理,如将历史告警语料分别与标准故障句子比较计算相似度,保留相似度满足最小相似度的历史告警语料;
然后再筛选出各对象的故障语料,将各对象的故障语料分词为分词队列并标注词性,则利用命名实体识别模型识别分词队列中特殊特征词的命名实体的边界及类别,从各对象的分词队列中挑出含有词性组合模型的各对象的候选分词队列,将词性对应词性组合模型中源实体/目标实体关键词词性的分词从中提取分别作为实体组成实体元组,其中词性组合模型含有源实体关键词和目标实体关键词的词性和其之间的一个向量关键词词性,词性组合模型为:<S,P,O>,分别表示源实体、关系、目标实体。源实体是告警语料中第一个实体名词,代表工控系统监控的设备、或参数指标,目标实体是告警语料中与源实体有关系的第二个名词或数词,被代表工控系统监控的与源实体有关联的设备或参数指标。识别源实体和目标实体需要根据分词的词性进行判断,实体的词性为名称或专用名词或数词,命名实体的边界和类别可以将字符、时间的词性和边界与名词、数词、专有名词进行区分;
(2)基于已知的具有故障关系的实体关系表,使用关系抽取算法发现实体元组的实体关联规则,根据实体关联规则发现实体元组中的关联实体组;
具有故障关系的实体关系表的格式为五元组形式,分别为:<left>,实体1类型,<middle>,实体2类型,<right>;len为可任意设定长度,<left>为实体1左边len个词汇的向量表示,<middle>为实体1和实体2间的词汇向量表示,<right>为实体2右边len个词汇的向量表示;步骤(2)中将步骤(1)获得的实体元组按实体关系表的格式转化为相同格式的模板,使用关系收取算法Snowball比较模板间相似度,将满足最小相似度的模板聚类为新模板形成实体关联规则,再逐一将实体元组的模板与规则比较相似度,满足最小相似度的模板为关联实体组。
(3)将实体关系表替换为关联实体组,使用步骤(2)的关系抽取算法发现关联实体组直至不再有新的关联实体组产生,每一种关联实体组赋予唯一的事件代码;
步骤(2)至步骤(3)根据源实体和目标实体的组合(实体元组)和现有的故障实体关系,将种类繁多无规律的实体元组聚类成少量事件标签,将种类繁多的告警语料压缩为若干种事项;
(4)对各对象的候选分词队列标记其对应的事件代码,将与各对象有关的所有事件代码按历史告警语料中对应的时间戳增序排序,同一对象具有相同时间戳的一个或多个事件代码组成一个事务,得到各对象的序列S即事务数据库,如图1;
(5)采用GSP算法对事务数据库进行多遍扫描,获得频繁序列,GSP算法包括以下步骤:
S1.如图2,设置最小支持度,遍历事务数据库,生成长度为1,且满足最小支持度的初始频繁序列集L1;
S2.遍历长度为i的频繁序列集Li,通过连接操作和剪枝操作生成长度为i+1的候选序列集Ci+1;
S3.遍历事务数据库,计算候选序列集Ci+1中;每个候选序列的支持度,若支持度满足最小支持度,则将其放入长度为i+1的频繁序列集Li+1;
S4.若长度为i+1的频繁序列集Li+1为空,表示无新的频繁序列产生,则算法结束;否则令i=i+1,重复步骤S2。
以上过程如图3。支持度=序列出现次数/总序列数。
连接操作的具体方法为:若长度为n的两个频繁序列S1={s1,s2,…,sn}和S2={s′1,s′2,…,s′n},满足条件s2=s′1,s3=s′4,…,sn=s′n-1,则S1和S2可通过连接生成长度为n+1的候选序列Ci+1={s1,s2,…,sn,s′n};
1)若S2的最后两个事件属于相同的事务,则S2的最后一个事件在合并后的序列中是S1的最后一个事务的一部分;
2)若S2的最后两个事件属于不同的事务,则S2的最后一个事件在合并后的序列中成为连接到S1的尾部的单独事务。
剪枝操作的具体方法为:若候选序列Ci+1={s1,s2,…,sn,s′n}中只要存在一个不是频繁序列的子序列,则Ci+1肯定不是频繁序列,可将Ci+1从候选序列集。
再依据频繁序列中事务的方向关系形成有向图G=(V、E),并获取有向图G的邻接矩阵A=[aij],V和E分别表示节点和边的集合,节点是事务中的事件,边是频繁序列内事件的顺序关系,若节点i和节点j相连,则aij=1,反之aij=0;
(6)基于随机游走的标签传播重叠社区发现方法获得社区集合,同时确定重叠社区。
包括以下步骤:
1)通过PageRank算法计算出所述有向图G中各节点的重要性,所述重要性为各节点在所述有向图G中的概率分布;pagerank是Google排名公式的一部分,是Google用于用来标识网页的。
重要性的一种方法。
2)根据各节点的重要性获得种子节点集合:选择重要性均大于邻居节点的重要性的节点为所述种子节点;所述种子节点构成所述种子节点集合;
获得所述种子节点集合中每两个种子节点的公共邻居节点的个数,若公共邻居节点的个数大于设定个数阈值,则分别计算公共邻居节点与两个种子节点的相似度,从所述两个种子节点中删除与所述公共邻居节点相似度之和较小的一个种子节点,得到更新的种子节点集合;
相邻两个节点的相似度计算公式为:其中nij表示节点vi和节点vj之间共同邻居的数量,ki和kj分别代表节点vi和节点vj的节点度。
3)为所述种子节点集合中各所述种子节点赋予唯一标签;
4)为各所述种子节点的邻居节点赋予对应所述种子节点的标签;
5)通过标签传播使所述有向图G中各节点包括至少一个标签;
6)重复进行“通过标签传播,将各节点的邻居节点中标签权重大于设定权重阈值的标签更新到各对应节点”操作,直到各所述节点的标签不再发生变化;
节点i的标签k的权重p(i,k)定义为:
其中,p(i,k)表示节点i中标签k的权重,PRk为标签k的初始节点的重要性,NC(i)为节点i的邻居节点的个数,N(i)为节点i的邻居节点域,w(j)为节点j的标签个数,δ(k,j)表示节点j是否存在标签k,如果存在标签k,则δ(k,j)为1,否则δ(k,j)为0。节点标签的权重通过标签占比及标签初始节点的PR值衡量每个标签的重要性。
7)根据各节点的标签划分社区,获得社区集合;各社区中各节点具有相同的标签;
8)根据所述社区集合确定重叠社区。
上面结合附图对本发明的实施方式作了详细的说明,但是本发明不限于上述实施方式,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (8)
1.一种基于社区发现的发电机组故障分析方法,其特征在于,具体包括以下步骤:
(1)收集同一工控系统生成的不同对象的历史告警语料,对各对象的历史告警语料分别进行降噪处理,筛选出各对象的故障语料,将各对象的故障语料分词为分词队列并标注词性,则利用命名实体识别模型识别分词队列中特殊特征词的命名实体的边界及类别,从各对象的分词队列中挑出含有词性组合模型的各对象的候选分词队列,将词性对应词性组合模型中源实体/目标实体关键词词性的分词从中提取分别作为实体组成实体元组,其中词性组合模型含有源实体关键词和目标实体关键词的词性和其之间的一个向量关键词词性;
(2)基于已知的具有故障关系的实体关系表,使用关系抽取算法发现实体元组的实体关联规则,根据实体关联规则发现实体元组中的关联实体组;
(3)将实体关系表替换为关联实体组,使用步骤(2)的关系抽取算法发现关联实体组直至不再有新的关联实体组产生,每一种关联实体组赋予唯一的事件代码;
(4)对各对象的候选分词队列标记其对应的事件代码,将与各对象有关的所有事件代码按历史告警语料中对应的时间戳增序排序,同一对象具有相同时间戳的一个或多个事件代码组成一个事务,得到各对象的序列S即事务数据库;
(5)采用GSP算法对事务数据库进行多遍扫描,获得频繁序列,依据频繁序列中事务的方向关系形成有向图G=(V、E),并获取有向图G的邻接矩阵A=[a ij ],V和E分别表示节点和边的集合,节点是事务中的事件,边是频繁序列内事件的顺序关系,若节点i和节点j相连,则a ij =1,反之a ij =0;
(6)基于随机游走的标签传播重叠社区发现方法获得社区集合,同时确定重叠社区;
所述步骤(6)包括以下步骤:
通过PageRank算法计算出所述有向图G中各节点的重要性,所述重要性为各节点在所述有向图G中的概率分布;
根据各节点的重要性获得种子节点集合;
为所述种子节点集合中各所述种子节点赋予唯一标签;
为各所述种子节点的邻居节点赋予对应所述种子节点的标签;
通过标签传播使所述有向图G中各节点包括至少一个标签;
重复进行“通过标签传播,将各节点的邻居节点中标签权重大于设定权重阈值的标签更新到各对应节点”操作,直到各所述节点的标签不再发生变化;
根据各节点的标签划分社区,获得社区集合;各社区中各节点具有相同的标签;
根据所述社区集合确定重叠社区。
2.根据权利要求1所述的方法,其特征在于,所述步骤(5)中GSP算法包括以下步骤:S1.设置最小支持度,遍历事务数据库,生成长度为1,且满足最小支持度的初始频繁序列集L 1 ;
S2.遍历长度为i的频繁序列集L i ,通过连接操作和剪枝操作生成长度为i+1的候选序列集C i+1 ;
S3.遍历事务数据库,计算候选序列集C i+1 中;每个候选序列的支持度,若支持度满足最小支持度,则将其放入长度为i+1的频繁序列集L i+1 ;
S4.若长度为i+1的频繁序列集L i+1 为空,表示无新的频繁序列产生,则算法结束;否则令i=i+1,重复步骤S2。
3.根据权利要求2所述的方法,其特征在于,所述步骤S2中的连接操作的具体方法为:若长度为n的两个频繁序列S 1 ={s1,s2,…,sn}和S 2 ={s′ 1 ,s′ 2 ,…,s′ n },满足条件 S2=s′ 1 , S3=s′ 4 ,…, S n =s′ n-1 ,则S 1 和S 2 可通过连接生成长度为n+1的候选序列C i+1 ={s 1 , s 2 ,… , s n , s′ n };
1)若S2的最后两个事件属于相同的事务,则S2的最后一个事件在合并后的序列中是S1的最后一个事务的一部分;
2)若S2的最后两个事件属于不同的事务,则S2的最后一个事件在合并后的序列中成为连接到S1的尾部的单独事务。
4.根据权利要求3所述的方法,其特征在于,所述步骤S2中的剪枝操作的具体方法为:若候选序列C i+1 ={s 1 , s 2 ,… , s n , s′ n }中只要存在一个不是频繁序列的子序列,则C i+1 肯定不是频繁序列,可将C i+1 从候选序列集C i+1 中去除。
5.根据权利要求1所述方法,其特征在于,所述步骤(1)中对各对象的历史告警语料分别进行降噪处理,包括将历史告警语料分别与标准故障句子比较计算相似度,保留相似度满足最小相似度的历史告警语料。
6.根据权利要求1所述的方法,其特征在于,所述步骤(1)中词性组合模型为:<S,P,O>,分别表示源实体、关系、目标实体。
7.根据权利要求1所述的方法,其特征在于,所述步骤(2)中具有故障关系的实体关系表的格式为五元组形式,分别为:<left>,实体1类型,<middle>,实体2类型,<right>;len为可任意设定长度,<left>为实体1左边len个词汇的向量表示,<middle>为实体1和实体2间的词汇向量表示,<right>为实体2右边len个词汇的向量表示;所述步骤(2)中将步骤(1)获得的实体元组按实体关系表的格式转化为相同格式的模板,使用关系收取算法Snowball比较模板间相似度,将满足最小相似度的模板聚类为新模板形成实体关联规则,再逐一将实体元组的模板与规则比较相似度,满足最小相似度的模板为关联实体组。
8.根据权利要求1所述的方法,其特征在于,所述根据各节点的重要性获得种子节点集合,具体包括:
选择重要性均大于邻居节点的重要性的节点为所述种子节点;所述种子节点构成所述种子节点集合;
获得所述种子节点集合中每两个种子节点的公共邻居节点的个数,若公共邻居节点的个数大于设定个数阈值,则分别计算公共邻居节点与两个种子节点的相似度,从所述两个种子节点中删除与所述公共邻居节点相似度之和较小的一个种子节点,得到更新的种子节点集合;
相邻两个节点的相似度计算公式为:,其中n ij 表示节点v i 和节点v j 之间共同邻居的数量,k i 和k j 分别代表节点v i 和节点v j 的节点度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210525424.4A CN114880584B (zh) | 2022-05-16 | 2022-05-16 | 一种基于社区发现的发电机组故障分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210525424.4A CN114880584B (zh) | 2022-05-16 | 2022-05-16 | 一种基于社区发现的发电机组故障分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114880584A CN114880584A (zh) | 2022-08-09 |
CN114880584B true CN114880584B (zh) | 2024-05-28 |
Family
ID=82675043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210525424.4A Active CN114880584B (zh) | 2022-05-16 | 2022-05-16 | 一种基于社区发现的发电机组故障分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114880584B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116910175B (zh) * | 2023-09-13 | 2023-12-01 | 人工智能与数字经济广东省实验室(广州) | 自动化移动设备故障层级树构建方法、装置及储存介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2927150A1 (en) * | 2013-10-25 | 2015-04-30 | Sysomos L.P. | Systems and methods for determining influencers in a social data network |
CN107578136A (zh) * | 2017-09-14 | 2018-01-12 | 福州大学 | 基于随机游走与种子扩展的重叠社区发现方法 |
WO2018077039A1 (zh) * | 2016-10-27 | 2018-05-03 | 腾讯科技(深圳)有限公司 | 社区发现方法、装置、服务器及计算机存储介质 |
CN110445665A (zh) * | 2019-09-06 | 2019-11-12 | 国网江苏省电力公司信息通信分公司 | 基于改进gsp的电力通信网络告警关联挖掘方法 |
CN110838072A (zh) * | 2019-10-24 | 2020-02-25 | 华中科技大学 | 一种基于社区发现的社交网络影响力最大化方法及系统 |
CN111930803A (zh) * | 2020-08-07 | 2020-11-13 | 河北工业大学 | 无重叠自适应频繁序列模式挖掘方法 |
CN112312443A (zh) * | 2020-10-13 | 2021-02-02 | 西安电子科技大学 | 海量告警数据处理方法、系统、介质、计算机设备及应用 |
CN113010813A (zh) * | 2021-03-16 | 2021-06-22 | 北京信息科技大学 | 一种基于随机游走的标签传播重叠社区发现方法及系统 |
CN113312500A (zh) * | 2021-06-24 | 2021-08-27 | 河海大学 | 一种面向大坝安全运行的事件图谱构建方法 |
CN113918558A (zh) * | 2021-11-25 | 2022-01-11 | 浙江浙能技术研究院有限公司 | 基于社区发现和关联规则分析的供应商紧密关系识别方法 |
CN114266197A (zh) * | 2021-12-21 | 2022-04-01 | 华能澜沧江水电股份有限公司 | 一种水电站设备故障诊断方法 |
-
2022
- 2022-05-16 CN CN202210525424.4A patent/CN114880584B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2927150A1 (en) * | 2013-10-25 | 2015-04-30 | Sysomos L.P. | Systems and methods for determining influencers in a social data network |
WO2018077039A1 (zh) * | 2016-10-27 | 2018-05-03 | 腾讯科技(深圳)有限公司 | 社区发现方法、装置、服务器及计算机存储介质 |
CN107578136A (zh) * | 2017-09-14 | 2018-01-12 | 福州大学 | 基于随机游走与种子扩展的重叠社区发现方法 |
CN110445665A (zh) * | 2019-09-06 | 2019-11-12 | 国网江苏省电力公司信息通信分公司 | 基于改进gsp的电力通信网络告警关联挖掘方法 |
CN110838072A (zh) * | 2019-10-24 | 2020-02-25 | 华中科技大学 | 一种基于社区发现的社交网络影响力最大化方法及系统 |
CN111930803A (zh) * | 2020-08-07 | 2020-11-13 | 河北工业大学 | 无重叠自适应频繁序列模式挖掘方法 |
CN112312443A (zh) * | 2020-10-13 | 2021-02-02 | 西安电子科技大学 | 海量告警数据处理方法、系统、介质、计算机设备及应用 |
CN113010813A (zh) * | 2021-03-16 | 2021-06-22 | 北京信息科技大学 | 一种基于随机游走的标签传播重叠社区发现方法及系统 |
CN113312500A (zh) * | 2021-06-24 | 2021-08-27 | 河海大学 | 一种面向大坝安全运行的事件图谱构建方法 |
CN113918558A (zh) * | 2021-11-25 | 2022-01-11 | 浙江浙能技术研究院有限公司 | 基于社区发现和关联规则分析的供应商紧密关系识别方法 |
CN114266197A (zh) * | 2021-12-21 | 2022-04-01 | 华能澜沧江水电股份有限公司 | 一种水电站设备故障诊断方法 |
Non-Patent Citations (3)
Title |
---|
基于关键词共现和社区发现的微博热点主题识别研究;丁晟春;王楠;吴靓婵媛;;现代情报;20180315(第03期);12-20 * |
基于复杂网络的文本关键词提取算法研究;刘通;;计算机应用研究;20161231(第02期);51-55 * |
基于社区发现和关联规则分析的供应商围串标审计方法探索;程向华;李汉秋;章崎峰;尤震;罗天;;中国内部审计;20200915(第09期);11-14 * |
Also Published As
Publication number | Publication date |
---|---|
CN114880584A (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110609759B (zh) | 一种故障根因分析的方法及装置 | |
US6047277A (en) | Self-organizing neural network for plain text categorization | |
US5671333A (en) | Training apparatus and method | |
CN111428054A (zh) | 一种网络空间安全领域知识图谱的构建与存储方法 | |
CN105335752A (zh) | 一种基于主成分分析多变量决策树的接线方式识别方法 | |
CN111986792B (zh) | 医疗机构评分方法、装置、设备及存储介质 | |
CN111427775B (zh) | 一种基于Bert模型的方法层次缺陷定位方法 | |
CN109800349A (zh) | 基于用户发布内容量化新闻价值的数据处理方法和装置 | |
CN112395881B (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
CN113191707B (zh) | 快递编码生成方法、装置、设备及存储介质 | |
CN114138968B (zh) | 一种网络热点的挖掘方法、装置、设备及存储介质 | |
CN114398891B (zh) | 基于日志关键词生成kpi曲线并标记波段特征的方法 | |
CN112183656A (zh) | 一种电网故障中scada数据频繁项集挖掘方法 | |
WO2023174431A1 (zh) | 一种kpi曲线数据处理方法 | |
CN114880584B (zh) | 一种基于社区发现的发电机组故障分析方法 | |
CN114398898B (zh) | 基于日志事件关系生成kpi曲线并标记波段特征的方法 | |
CN116541782A (zh) | 一种电力营销数据异常识别方法 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
CN117155771B (zh) | 一种基于工业物联网的设备集群故障溯源方法及装置 | |
CN111737993B (zh) | 一种配电网设备的故障缺陷文本提取设备健康状态方法 | |
CN117056510A (zh) | 一种多元社会矛盾纠纷信息自动归集方法 | |
CN116737947A (zh) | 实体关系图构建方法、装置、设备及存储介质 | |
CN116432099A (zh) | 日志分类方法、装置、电子设备及存储介质 | |
CN115712720A (zh) | 一种基于知识图谱的降雨动态预警方法 | |
US20200193090A1 (en) | Word extraction assistance system and word extraction assistance method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |