CN110321411A - 一种电网监控告警信息分类方法、系统及可读存储介质 - Google Patents
一种电网监控告警信息分类方法、系统及可读存储介质 Download PDFInfo
- Publication number
- CN110321411A CN110321411A CN201910563074.9A CN201910563074A CN110321411A CN 110321411 A CN110321411 A CN 110321411A CN 201910563074 A CN201910563074 A CN 201910563074A CN 110321411 A CN110321411 A CN 110321411A
- Authority
- CN
- China
- Prior art keywords
- monitoring alarm
- alarm event
- information
- sample
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012544 monitoring process Methods 0.000 claims abstract description 407
- 238000012549 training Methods 0.000 claims abstract description 70
- 238000010801 machine learning Methods 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000012512 characterization method Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 4
- 239000012141 concentrate Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 6
- 239000000203 mixture Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000004146 energy storage Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005194 fractionation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Alarm Systems (AREA)
Abstract
本发明实施例公开了一种电网监控告警信息分类方法、系统及可读存储介质。该方法包括获取原始电网监控告警信息;将获取到的所述原始电网监控告警信息预处理,得到监控告警信息;从监控告警信息提取包含监控告警信息的监控告警事件样本,并构建训练样本库;向量化处理各监控告警事件样本中的文本信息,并得到监控告警事件样本的特征向量;根据训练样本库和监控告警事件样本的特征向量,建立机器学习模型,并获得监控告警信息的监控告警事件分类结果。本发明实施例的技术方案可以实现监控告警信息的监控告警事件自动分类,具有处理监控告警信号效率高,任务处置规范性性强的特点。
Description
技术领域
本发明实施例涉及电网运行监控告警信息分类技术领域,尤其涉及一种电网监控告警信息分类方法、系统及可读存储介质。
背景技术
随着电网设备规模扩大及智能监测水平提升,设备故障产生的监控告警信息数量呈现几何级增长趋势,现有的电网监控业务依赖告警信息逐条响应的监视方式,需要对每一条信息逐一进行判别、分析并做出反馈,凭借传统的告警信息窗、光字牌列表等技术手段容易出现设备故障或异常时的漏判误判,同时对监控人员造成了较大的监屏压力,已无法适应当前形势下电网监控业务的更高要求。
目前电网监控业务中存在监控告警信号实时处理方式效率低、监控告警事件分析及其任务处置规范性需要提升、无法实现面向多业务场景的监控告警事件识别以及对电网监控事件的主动实时感知能力有待提高等问题亟待解决。
发明内容
本发明实施例提供一种电网监控告警信息分类方法、系统及可读存储介质,以克服现有电网监控业务中存在处理监控告警信号效率低的问题。
为实现上述技术问题,本发明采用以下技术方案:
第一方面,本发明实施例提供了一种电网监控告警信息分类方法,该方法应用于电网监控告警信息分类系统,该方法包括:
获取原始电网监控告警信息;
将获取到的原始电网监控告警信息预处理,得到监控告警信息;
从监控告警信息提取包含监控告警信息的监控告警事件样本,并构建训练样本库;
向量化处理各监控告警事件样本中的文本信息,并得到监控告警事件样本的特征向量;
根据训练样本库和监控告警事件样本的特征向量,建立机器学习模型,并获得监控告警信息的监控告警事件分类结果。
进一步地,将获取到的所述原始电网监控告警信息预处理,包括:
对原始电网监控告警信息进行分词处理,并统计原始电网监控告警信息文本中的所有词语;
根据电力词典,将无法表征告警特征的词语作为停用词,并建立停用词表;
对照停用词表,剔除原始电网监控告警信息文本中的停用词。
进一步地,从监控告警信息提取包含监控告警信息的监控告警事件样本,并构建训练样本库,包括:
基于监控告警事件的特征,提取包含监控告警信息的监控告警事件;
结合调度日志对自动识别的监控告警事件进行校核;其中,监控告警事件的名称即为类别标签;
提取带类别标签的监控告警事件样本,生成训练样本库。
进一步地,基于监控告警事件的特征,提取包含监控告警信息的监控告警事件,包括:
根据监控告警信息的关键词自动识别对应的监控告警事件;
其中,每个监控告警事件对应几个监控告警信息的关键词,与关键词相关的词语为触发特征词,每个监控告警事件包含所有触发特征词的监控告警信息。
进一步地,向量化处理各监控告警事件样本中的文本信息,包括:
采用词频-逆文件频率模型对提取的各监控告警事件样本中的文本信息进行向量化处理。
进一步地,采用词频-逆文件频率模型对提取的各监控告警事件样本中的文本信息进行向量化处理,包括:
统计各监控告警事件样本中的文本信息中每个词语的词频;
统计各监控告警事件样本中的文本信息中每个词语的逆文档频率;
将每个词语的词频与逆文档频率相乘得到词频-逆文件频率值。
进一步地,词频通过下述公式计算得到:
其中,n为训练样本库中的监控告警事件的文本的词语数量,I()为指示函数,当训练样本库中的第i个词语yi遍历训练样本库中监控告警信息的文本A的词语时,遇到相同时取I(true)=1;否则I(false)=0;由此统计出给定的词语yi在监控告警信息的文本中出现的次数,得到词语在监控告警事件的文本中的词频;
逆文档频率通过下述公式计算得到:
其中,z为训练样本集中所有监控告警事件的个数,I()为指示函数,当训练样本库中第i个词语yi遍历整个训练样本词语库Bj,在某一监控告警事件中搜索到相同时,所述监控告警事件的标记取I(true)=1;否则I(false)=0,得到所述词语在所述训练样本词语库中的逆文档频率。
进一步地,根据训练样本库和监控告警事件样本的特征向量,建立机器学习模型,并获得监控告警信息的监控告警事件分类结果,包括:
根据训练样本库和监控告警事件样本的特征向量,采用基于词频-逆文件频率的朴素贝叶斯算法建立机器学习模型;
根据机器学习模型,对监控告警信息的事件分类;
获得监控告警信息的监控告警事件分类结果。
进一步地,根据机器学习模型,对监控告警信息的事件分类,包括:
根据机器学习模型,输入训练样本库和监控告警事件样本的特征向量进行统计学习;
计算监控告警事件类别的先验概率;
统计在各监控告警事件样本的类别下,待分类的监控告警事件中所有词语的条件概率估计;其中,各监控告警事件中各个词语之间相互独立;
在监控告警事件已知的条件下,计算监控告警事件分别属于各类监控告警事件样本的类别的条件概率;
比较条件概率,得到监控告警事件属于监控告警事件样本的类别的最大可能概率。
进一步地,先验概率通过下述公式计算得到:
其中,I()为指示函数,I(true)=1;I(false)=0;P(A=yi)为训练样本库的不同监控告警事件样本的类别发生的概率;
待分类的监控告警事件A中所有词语的条件概率估计P(A|yi)为:
P(A|yi)=P(x1|yi)P(x2|yi)…P(xi|yi)…P(xn|yi);
其中,P(xn|yi)表示第yi个监控告警事件样本发生的条件下,待分类的监控告警事件A中的词语xn的条件概率估计;
条件概率通过下述公式计算得到:
其中,某一特定的监控告警事件A分类识别时的概率P(A)不变,P(yi|A)为监控告警事件A已知的条件下,监控告警事件A分别属于各类监控告警事件样本的类别的条件概率;
监控告警事件类别的最大可能概率通过下述公式计算得到:
其中,某一特定的监控告警事件A分类识别时的概率P(A)不变,P(yi|A)为监控告警事件A已知的条件下,监控告警事件A分别属于各类监控告警事件样本的类别的条件概率的最大条件概率。
进一步地,原始电网监控告警信息包括:
历史监控告警信息、变电站及线路名称统计信息、事件发生时间信息以及事件发生时的设备状态和电压电流信息;
其中,历史监控告警信息,包括必要告警信息和伴生告警信息;
必要告警信息,包括保护动作信息、事故总动作信息以及保护重合闸动作信息;伴生告警信息,包括开关控制回路断线动作、开关控制回路断线复归以及开关弹簧未储能动作。
第二方面,本发明实施例还提供了一种电网监控告警信息分类系统,包括:
信息获取模块,用于获取原始电网监控告警信息;
信息预处理模块,用于将获取到的原始电网监控告警信息预处理,得到监控告警信息;
样本提取模块,用于从监控告警信息提取包含监控告警信息的监控告警事件样本,并构建训练样本库;
向量化处理模块,用于向量化处理各监控告警事件样本中的文本信息,并得到监控告警事件样本的特征向量;
机器学习分类模块,用于根据训练样本库和监控告警事件样本的特征向量,建立机器学习模型,并获得监控告警信息的监控告警事件分类结果。
第三方面,本发明实施例还提供了一种可读存储介质,当可读存储介质中的指令由电网监控告警信息分类系统的处理器执行时,使得电网监控告警信息分类系统能够执行如第一方面任一项提到的电网监控告警信息分类方法。
本发明实施例提供的电网监控告警信息分类方法,包括获取原始电网监控告警信息,将获取到的所述原始电网监控告警信息预处理,得到监控告警信息,从监控告警信息提取包含监控告警信息的监控告警事件样本,并构建训练样本库,向量化处理各监控告警事件样本中的文本信息,并得到监控告警事件样本的特征向量,根据训练样本库和监控告警事件样本的特征向量,建立机器学习模型,并获得监控告警信息的监控告警事件分类结果。本发明实施例的技术方案应用统计学中的词频-逆文件频率模型和深度学习中的朴素贝叶斯分类算法相融合的方法,首先对原始电网监控告警信息进行数据预处理,然后采用半自动化方法提取带类别标签的监控告警事件样本构造合适的建训练样本库,并进行监控告警事件样本中的文本信息的向量化处理,避免了无关词对分类结果产生的影响,建立机器学习模型,即电网监控告警信息分类模型,获得任意输入电网监控告警信息的事件分类结果,实现监控告警信息的监控告警事件自动分类,具有处理监控告警信号效率高,任务处置规范性性强的特点。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本发明实施例的内容和这些附图获得其他的附图。
图1是本发明实施例提供的一种电网监控告警信息分类方法的流程图;
图2是本发明实施例提供的一种将原始电网监控告警信息预处理的方法流程图;
图3是本发明实施例提供的一种提取监控告警事件样本并构建训练样本库的方法流程图;
图4是本发明实施例提供的一种对各监控告警事件样本中的文本信息进行向量化处理的方法流程图;
图5是本发明实施例提供的一种建立机器学习模型并获得监控告警事件分类结果的方法流程图;
图6是本发明实施例提供的一种根据机器学习模型对监控告警信息的事件分类的方法流程图;
图7是本发明实施例提供的一种电网监控告警信息分类系统的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明实施例提供一种电网监控告警信息分类方法。图1是本发明实施例提供的一种电网监控告警信息分类方法的流程图。参见图1,本发明实施例提供的电网监控告警信息分类方法,应用于电网监控告警信息分类系统,该方法包括:
S101、获取原始电网监控告警信息;
具体地,收集电网监控告警信息分类方法所需的基本数据,即原始电网监控告警信息,原始电网监控告警信息是由各电网终端上传的,表征监控告警事件发生时电网设备的状态信息、每条监控告警信息发生的时间窗以及与告警信息对应的变电站或线路名称等信息。
S102、将获取到的原始电网监控告警信息预处理,得到监控告警信息;
具体地,对原始监控告警信息进行数据预处理包括对告警信息进行精确的处理,并统计所有可以表征监控告警事件特征的词语作为监控告警信息。
S103、从监控告警信息提取包含监控告警信息的监控告警事件样本,并构建训练样本库;
具体地,监控告警事件是由多个监控告警信息构成的,某些特定的监控告警信息构成某一监控告警事件,经过预处理的监控告警信息,构成的多个监控告警事件,作为监控告警事件样本,将多个监控告警事件样本构建为训练样本库,以备机器学习使用。
S104、向量化处理各监控告警事件样本中的文本信息,并得到监控告警事件样本的特征向量;
具体地,每个监控告警事件中的文本信息包括多个词语,不同词语的含义不同,作为监控告警信息的优先级也不同,即不同词语代表的紧急程度不同,将监控告警事件样本中的文本信息的词语向量化处理,得到监控告警事件样本的特征向量,监控告警事件样本的特征向量表征监控告警事件中不同词语的权重值,可以反映该词语在此条监控告警信息中的重要程度。
S105、根据训练样本库和监控告警事件样本的特征向量,建立机器学习模型,并获得监控告警信息的监控告警事件分类结果。
具体地,根据训练样本库中的监控告警事件样本和监控告警事件样本的特征向量,建立机器学习模型,获得任意输入监控告警信息的对应的监控告警事件的分类结果。
本发明实施例提供的电网监控告警信息分类方法,应用统计学中的词频-逆文件频率模型和深度学习中的朴素贝叶斯分类算法相融合的方法,首先对原始电网监控告警信息进行数据预处理,然后采用半自动化方法提取带类别标签的监控告警事件样本构造合适的建训练样本库,并进行监控告警事件样本中的文本信息的向量化处理,避免了无关词对分类结果产生的影响,建立机器学习模型,即电网监控告警信息分类模型,获得任意输入电网监控告警信息的事件分类结果,实现监控告警信息的监控告警事件自动分类,具有处理监控告警信号效率高,任务处置规范性性强的特点。
可选地,原始电网监控告警信息包括:历史监控告警信息、变电站及线路名称统计信息、事件发生时间信息以及事件发生时的设备状态和电压电流信息等;其中,历史监控告警信息,包括必要告警信息和伴生告警信息;必要告警信息,包括保护动作信息、事故总动作信息以及保护重合闸动作信息;伴生告警信息,包括开关控制回路断线动作、开关控制回路断线复归以及开关弹簧未储能动作等。
具体地,同时包括准确记录每条监控告警信息发生的时间窗和与监控告警信息对应的变电站或线路名称。
可选地,图2是本发明实施例提供的一种将原始电网监控告警信息预处理的方法流程图。参见图2,将获取到的所述原始电网监控告警信息预处理,包括:
S201、对原始电网监控告警信息进行分词处理,并统计原始电网监控告警信息文本中的所有词语;
具体地,对原始电网监控告警信息中的文本信息进行精确的分词处理,将拆分后的词语进行统计,统计涵盖原始电网监控告警信息文本中的所有词语。
S202、根据电力词典,将无法表征告警特征的词语作为停用词,并建立停用词表;
具体地,根据专业的电力词典,将无法表征电网监控告警信息特征的词语从监控告警信息文本中剔除,根据实际应用,将无法表征告警特征的词语作为停用词,并建立停用词表;
S203、对照停用词表,剔除原始电网监控告警信息文本中的停用词。
具体地,对照建立好的停用词表,剔除监控告警信息文本中的停用词,使原始电网监控告警信息中的无效词剔除。
可选地,图3是本发明实施例提供的一种提取监控告警事件样本并构建训练样本库的方法流程图。参见图3,从监控告警信息提取包含监控告警信息的监控告警事件样本,并构建训练样本库,包括:
S301、基于监控告警事件的特征,提取包含监控告警信息的监控告警事件;
具体地,一个监控告警事件会对应几个特定的监控告警信息文本关键词,监控告警事件的特征由监控告警信息文本关键词表征,根据几个监控告警信息的关键词自动判断其对应的监控告警事件。监控告警事件判定中,需要考虑监控告警事件的特征与监控告警事件之间的逻辑关系,以及监控告警事件的特征信息是否出现在时间窗之中等条件,在一定时间内,具有一定逻辑关系的监控告警事件的特征都满足时,则判定监控告警事件成立,构成监控告警事件。
S302、结合调度日志对自动识别的监控告警事件进行校核;其中,监控告警事件的名称即为类别标签;
具体地,通过对照监控告警事件调度日志进行人工核查,核查通过的监控告警事件的名称即为监控告警事件的类别标签,类别标签是在对监控告警信息的文本进行自然语言处理时,运用不同监控告警事件有特定的监控告警信息文本关键词形成的。
S303、提取带类别标签的监控告警事件样本,生成训练样本库。
具体地,根据不同监控告警事件所对应的不同触发关键词组提取的监控告警事件样本,通过程序式进行监控告警事件样本标签化,提取带类别标签的监控告警事件样本,构造合适的训练样本库,每个监控告警事件样本包含所有触发的监控告警信息。
可选地,基于监控告警事件的特征,提取包含监控告警信息的监控告警事件,包括:根据监控告警信息的关键词,自动识别对应的监控告警事件;其中,每个监控告警事件对应几个监控告警信息的关键词,与关键词相关的词语为触发特征词,每个监控告警事件包含所有触发特征词的监控告警信息。
具体地,一个监控告警事件会对应几个特定的监控告警信息文本关键词,如母线故障,触发特征会有:母线、差动/母差、跳闸、事故总以及分闸等,监控告警事件的特征由监控告警信息文本关键词表征,根据几个监控告警信息的关键词自动判断其对应的监控告警事件。例如当监控告警事件的特征信息满足:存在“母线/母”、“差动/母差”、“跳闸”、“事故总/事故”以及“分闸”时,则自动判定监控告警事件为“母线故障”。例如,实际操作中以带分闸关键词的信息为标签,提取该监控告警信息前p秒后q秒时间窗内的监控告警信息的集合。
可选地,向量化处理各监控告警事件样本中的文本信息,包括:
采用词频-逆文件频率模型对提取的各监控告警事件样本中的文本信息进行向量化处理。
具体地,采用统计监控告警事件中特征频率的基于词频-逆文件频率(TermFrequency-Inverse Document Frequency,TF-IDF)模型,向量化处理各监控告警事件样本中的文本信息,得到监控告警事件样本的特征向量,可以反映该词语在此条监控告警信息中的重要程度和权重值。
可选地,图4是本发明实施例提供的一种对各监控告警事件样本中的文本信息进行向量化处理的方法流程图。参见图4,采用词频-逆文件频率模型对提取的各监控告警事件样本中的文本信息进行向量化处理,具体包括:
S401、统计各监控告警事件样本中的文本信息中每个词语的词频;
具体地,统计各监控告警事件样本中的文本信息中每个词语的词频,即统计出给定的词语在训练样本库中该条监控告警信息文本中出现的次数,结合训练样本库中该条监控告警信息文本的词语总数,得到该词语在训练样本库中的该条监控告警信息中的词频。
S402、统计各监控告警事件样本中的文本信息中每个词语的逆文档频率;
具体地,当训练样本库中某个词语遍历整个训练样本词语库,在某个监控告警事件中搜索到相同词语的个数,结合训练样本库中所有监控告警事件的个数,得到该词在训练样本词语库中的逆文档频率。
S403、将每个词语的词频与逆文档频率相乘得到词频-逆文件频率值。
具体地,由每个词语的词频与逆文档频率相乘得到词频-逆文件频率(TF-IDF)值,由此将每个监控告警事件向量化为如(0.1,0.2,0.3)的形式,为后续监控告警事件的分类打下基础。
可选地,词频通过下述公式计算得到:
其中,n为训练样本库中的监控告警事件的文本的词语数量,I()为指示函数,当训练样本库中的第i个词语yi遍历训练样本库中监控告警信息的文本A的词语时,遇到相同时取I(true)=1;否则I(false)=0;由此统计出给定的词语yi在监控告警信息的文本中出现的次数,得到词语在监控告警事件的文本中的词频;
逆文档频率通过下述公式计算得到:
其中,z为训练样本集中所有监控告警事件的个数,I()为指示函数,当训练样本库中第i个词语yi遍历整个训练样本词语库Bj,在某一监控告警事件中搜索到相同时,所述监控告警事件的标记取I(true)=1;否则I(false)=0,得到所述词语在所述训练样本词语库中的逆文档频率。
可选地,图5是本发明实施例提供的一种建立机器学习模型并获得监控告警事件分类结果的方法流程图。参见图5,根据训练样本库和监控告警事件样本的特征向量,建立机器学习模型,并获得监控告警信息的监控告警事件分类结果,包括:
S501、根据训练样本库和监控告警事件样本的特征向量,采用基于词频-逆文件频率的朴素贝叶斯算法建立机器学习模型;
具体地,朴素贝叶斯算法是选择具有最高后验概率作为确定类别的分类方法,它基于贝叶斯定理与特征条件独立假设。根据训练样本库中的监控告警事件样本和监控告警事件样本的特征向量,采用基于TF-IDF的朴素贝叶斯算法建立分类模型,建立机器学习模型,所需估计的参数很少,对缺失数据不太敏感,算法简单可靠性高。
S502、根据机器学习模型,对监控告警信息的事件分类;
具体地,基于TF-IDF的朴素贝叶斯算法建立的机器学习模型,进行统计学习,比较任意输入监控告警信息的对应的监控告警事件的概率,根据对应的监控告警事件的概率,完成对监控告警信息的事件分类。
S503、获得监控告警信息的监控告警事件分类结果。
具体地,监控告警信息的监控告警事件分类结果为监控告警信息对应的监控告警事件属于训练样本库中监控告警事件样本中的类别。
可选地,图6是本发明实施例提供的一种根据机器学习模型对监控告警信息的事件分类的方法流程图。参见图6,根据机器学习模型,对监控告警信息的事件分类,包括:
S601、根据机器学习模型,输入训练样本库和监控告警事件样本的特征向量进行统计学习;
具体地,将训练样本库和监控告警事件样本的特征向量输入机器学习模型,进行统计学习。
S602、计算监控告警事件类别的先验概率;
具体地,监控告警事件类别的先验概率,即训练样本库的不同监控告警事件样本的类别发生的概率。
S603、统计在各监控告警事件样本的类别下,待分类的监控告警事件中所有词语的条件概率估计;其中,各监控告警事件中各个词语之间相互独立;
具体地,假设各监控告警事件中各个词语之间相互独立,计算某监控告警事件样本发生的条件下,待分类的监控告警事件中的词语的条件概率估计。
S604、在监控告警事件已知的条件下,计算监控告警事件分别属于各类监控告警事件样本的类别的条件概率;
具体地,计算某一特定的监控告警事件分类识别时的概率不变,监控告警事件已知的条件下,监控告警事件分别属于各类监控告警事件样本的类别的条件概率。
S605、比较条件概率,得到监控告警事件属于监控告警事件样本的类别的最大可能概率。
具体地,对各类监控告警事件样本的类别的条件概率进行比较,得到监控告警事件属于监控告警事件样本的类别的最大可能概率。
监控告警事件库T={(A1,Y1),(A2,Y2),…,(A2,Y2),…,(An,Yn)},其中监控告警事件样本的特征向量Ai=(xi1,xi2,…,xij,…,xin)。
其中,xij表示第i个监控告警事件样本Ai的第j个词语的TF-IDF值,第i个输入Ai的事件分类结果为Yi∈{y1,y2,…,yk},共有k个事件分类结果。
其中,特征向量表示了当前监控告警事件样本的所有词语的权重值,权重值越大表示出现该词后有越大的可能性属于当前监控告警事件,其值可用于后续朴素贝叶斯模型计算中。事件分类结果是指对照监控告警事件调度日志,采用半自动半人工的方式,从监控告警信息中提取出的监控告警事件,例如瞬时故障(重合成功)、永久故障(重合失败)、永久故障(重合闸未动)、容抗器故障和所变/接地变故障等。
可选地,先验概率通过下述公式计算得到:
其中,I()为指示函数,I(true)=1;I(false)=0;P(A=yi)为训练样本库的不同监控告警事件样本的类别发生的概率;
待分类的监控告警事件A中所有词语的条件概率估计P(A|yi)为:
P(A|yi)=P(x1|yi)P(x2|yi)…P(xi|yi)…P(xn|yi);
其中,P(xn|yi)表示第yi个监控告警事件样本发生的条件下,待分类的监控告警事件A中的词语xn的条件概率估计;
条件概率通过下述公式计算得到:
其中,某一特定的监控告警事件A分类识别时的概率P(A)不变,P(yi|A)为监控告警事件A已知的条件下,监控告警事件A分别属于各类监控告警事件样本的类别的条件概率;
监控告警事件类别的最大可能概率通过下述公式计算得到:
其中,某一特定的监控告警事件A分类识别时的概率P(A)不变,P(yi|A)为监控告警事件A已知的条件下,监控告警事件A分别属于各类监控告警事件样本的类别的条件概率的最大条件概率。
图7是本发明实施例提供的一种电网监控告警信息分类系统的结构示意图。参见图7,本发明实施例还提供了一种电网监控告警信息分类系统,包括:
信息获取模块1,用于获取原始电网监控告警信息;
信息预处理模块2,用于将获取到的原始电网监控告警信息预处理,得到监控告警信息;
样本提取模块3,用于从监控告警信息提取包含监控告警信息的监控告警事件样本,并构建训练样本库;
向量化处理模块4,用于向量化处理各监控告警事件样本中的文本信息,并得到监控告警事件样本的特征向量;
机器学习分类模块5,用于根据训练样本库和监控告警事件样本的特征向量,建立机器学习模型,并获得监控告警信息的监控告警事件分类结果。
本发明实施例提供的电网监控告警信息分类系统,包括信息获取模块、信息预处理模块、样本提取模块、向量化处理模块以及机器学习分类模块,通过监控告警信息分类技术,构建电网设备运行状态信息与各监控告警事件间的映射知识模型。将监控实时监控告警信息、日常操作以及大数据分析结果转化为监控告警事件,实现集中监控应用、综合智能告警等决策支持功能,为电网调度故障判断处置和设备监控运行提供技术支撑,解决了监控告警信号实时处理方式效率低、监控告警事件分析及其任务处置规范性需要提升、无法实现面向多业务场景的监控事件识别、对电网监控告警事件的主动实时感知有待提高等问题,获得任意输入电网监控告警信息的事件分类结果,实现监控告警信息的监控告警事件自动分类,具有处理监控告警信号效率高,任务处置规范性性强的特点。
本发明实施例还提供了一种可读存储介质,其上存储有软件程序,当可读存储介质中的指令由电网监控告警信息分类系统的处理器执行时,使得电网监控告警信息分类系统能够执行上述任一实施例提到的电网监控告警信息分类方法。该方法包括:包括获取原始电网监控告警信息;将获取到的所述原始电网监控告警信息预处理,得到监控告警信息;从监控告警信息提取包含监控告警信息的监控告警事件样本,并构建训练样本库;向量化处理各监控告警事件样本中的文本信息,并得到监控告警事件样本的特征向量;根据训练样本库和监控告警事件样本的特征向量,建立机器学习模型,并获得监控告警信息的监控告警事件分类结果。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的电网监控告警信息分类方法操作,还可以执行本发明任意实施例所提供的电网监控告警信息分类方法中的相关操作,且具备相应的功能和有益效果。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品可以存储在可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的电网监控告警信息分类方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (13)
1.一种电网监控告警信息分类方法,其特征在于,所述方法应用于电网监控告警信息分类系统,所述方法包括:
获取原始电网监控告警信息;
将获取到的所述原始电网监控告警信息预处理,得到监控告警信息;
从所述监控告警信息提取包含所述监控告警信息的监控告警事件样本,并构建训练样本库;
向量化处理各所述监控告警事件样本中的文本信息,并得到所述监控告警事件样本的特征向量;
根据所述训练样本库和所述监控告警事件样本的特征向量,建立机器学习模型,并获得所述监控告警信息的监控告警事件分类结果。
2.根据权利要求1所述的方法,其特征在于,所述将获取到的所述原始电网监控告警信息预处理,包括:
对所述原始电网监控告警信息进行分词处理,并统计所述原始电网监控告警信息文本中的所有词语;
根据电力词典,将无法表征告警特征的所述词语作为停用词,并建立停用词表;
对照所述停用词表,剔除所述原始电网监控告警信息文本中的停用词。
3.根据权利要求1所述的方法,其特征在于,所述从所述监控告警信息提取包含所述监控告警信息的监控告警事件样本,并构建训练样本库,包括:
基于监控告警事件的特征,提取包含所述监控告警信息的监控告警事件;
结合调度日志对自动识别的所述监控告警事件进行校核;其中,所述监控告警事件的名称即为类别标签;
提取带所述类别标签的所述监控告警事件样本,生成所述训练样本库。
4.根据权利要求3所述的方法,其特征在于,
基于监控告警事件的特征,提取包含所述监控告警信息的监控告警事件,包括:
根据所述监控告警信息的关键词自动识别对应的所述监控告警事件;
其中,每个所述监控告警事件对应几个监控告警信息的关键词,与所述关键词相关的词语为触发特征词,每个所述监控告警事件包含所有触发特征词的监控告警信息。
5.根据权利要求1所述的方法,其特征在于,所述向量化处理各所述监控告警事件样本中的文本信息,包括:
采用词频-逆文件频率模型对提取的各所述监控告警事件样本中的文本信息进行向量化处理。
6.根据权利要求5所述的方法,其特征在于,所述采用词频-逆文件频率模型对提取的各所述监控告警事件样本中的文本信息进行向量化处理,包括:
统计各所述监控告警事件样本中的文本信息中每个词语的词频;
统计各所述监控告警事件样本中的文本信息中每个词语的逆文档频率;
将每个词语的所述词频与所述逆文档频率相乘得到词频-逆文件频率值。
7.根据权利要求6所述的方法,其特征在于,所述词频通过下述公式计算得到:
其中,n为训练样本库中的监控告警事件的文本的词语数量,I()为指示函数,当所述训练样本库中的第i个词语yi遍历所述训练样本库中所述监控告警信息的文本A的词语时,遇到相同时取I(true)=1;否则I(false)=0;由此统计出给定的所述词语yi在所述监控告警信息的文本中出现的次数,得到所述词语在所述监控告警事件的文本中的词频;
所述逆文档频率通过下述公式计算得到:
其中,z为训练样本集中所有监控告警事件的个数,I()为指示函数,当所述训练样本库中第i个词语yi遍历整个所述训练样本词语库Bj,在某一所述监控告警事件中搜索到相同时,所述监控告警事件的标记取I(true)=1;否则I(false)=0,得到所述词语在所述训练样本词语库中的逆文档频率。
8.根据权利要求1所述的方法,其特征在于,所述根据所述训练样本库和所述监控告警事件样本的特征向量,建立机器学习模型,并获得所述监控告警信息的监控告警事件分类结果,包括:
根据所述训练样本库和所述监控告警事件样本的特征向量,采用基于词频-逆文件频率的朴素贝叶斯算法建立机器学习模型;
根据所述机器学习模型,对所述监控告警信息的事件分类;
获得所述监控告警信息的监控告警事件分类结果。
9.根据权利要求8所述的方法,其特征在于,所述根据所述机器学习模型,对所述监控告警信息的事件分类,包括:
根据所述机器学习模型,输入所述训练样本库和所述监控告警事件样本的特征向量进行统计学习;
计算监控告警事件类别的先验概率;
统计在各所述监控告警事件样本的类别下,待分类的所述监控告警事件中所有词语的条件概率估计;其中,各所述监控告警事件中各个词语之间相互独立;
在所述监控告警事件已知的条件下,计算所述监控告警事件分别属于各类所述监控告警事件样本的类别的条件概率;
比较所述条件概率,得到所述监控告警事件属于所述监控告警事件样本的类别的最大可能概率。
10.根据权利要求9所述的方法,其特征在于,所述先验概率通过下述公式计算得到:
其中,I()为指示函数,I(true)=1;I(false)=0;P(A=yi)为训练样本库的不同监控告警事件样本的类别发生的概率;
待分类的所述监控告警事件A中所有词语的条件概率估计P(A|yi)为:
P(A|yi)=P(x1|yi)P(x2|yi)…P(xi|yi)…P(xn|yi);
其中,P(xn|yi)表示第yi个监控告警事件样本发生的条件下,待分类的所述监控告警事件A中的词语xn的条件概率估计;
所述条件概率通过下述公式计算得到:
其中,某一监控告警事件A分类识别时的概率P(A)不变,P(yi|A)为所述监控告警事件A已知的条件下,所述监控告警事件A分别属于各类所述监控告警事件样本的类别的条件概率;
所述监控告警事件类别的最大可能概率通过下述公式计算得到:
其中,某一特定的监控告警事件A分类识别时的概率P(A)不变,P(yi|A)为监控告警事件A已知的条件下,监控告警事件A分别属于各类监控告警事件样本的类别的条件概率的最大条件概率。
11.根据权利要求1所述的方法,其特征在于,所述原始电网监控告警信息包括:
历史监控告警信息、变电站及线路名称统计信息、事件发生时间信息以及事件发生时的设备状态和电压电流信息;
其中,所述历史监控告警信息,包括必要告警信息和伴生告警信息;
所述必要告警信息,包括保护动作信息、事故总动作信息以及保护重合闸动作信息;所述伴生告警信息,包括开关控制回路断线动作、开关控制回路断线复归以及开关弹簧未储能动作。
12.一种电网监控告警信息分类系统,其特征在于,所述电网监控告警信息分类系统,包括:
信息获取模块,用于获取原始电网监控告警信息;
信息预处理模块,用于将获取到的所述原始电网监控告警信息预处理,得到监控告警信息;
样本提取模块,用于从所述监控告警信息提取包含所述监控告警信息的监控告警事件样本,并构建训练样本库;
向量化处理模块,用于向量化处理各所述监控告警事件样本中的文本信息,并得到所述监控告警事件样本的特征向量;
机器学习分类模块,用于根据所述训练样本库和所述监控告警事件样本的特征向量,建立机器学习模型,并获得所述监控告警信息的监控告警事件分类结果。
13.一种可读存储介质,其特征在于,当所述存储介质中的指令由电网监控告警信息分类系统的处理器执行时,使得电网监控告警信息分类系统能够执行如权利要求1至11任一所述的电网监控告警信息分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910563074.9A CN110321411A (zh) | 2019-06-26 | 2019-06-26 | 一种电网监控告警信息分类方法、系统及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910563074.9A CN110321411A (zh) | 2019-06-26 | 2019-06-26 | 一种电网监控告警信息分类方法、系统及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110321411A true CN110321411A (zh) | 2019-10-11 |
Family
ID=68120380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910563074.9A Pending CN110321411A (zh) | 2019-06-26 | 2019-06-26 | 一种电网监控告警信息分类方法、系统及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110321411A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110932881A (zh) * | 2019-10-16 | 2020-03-27 | 国网浙江省电力有限公司温州供电公司 | 一种基于监控告警信号的设备画像的方法 |
CN111475804A (zh) * | 2020-03-05 | 2020-07-31 | 浙江省北大信息技术高等研究院 | 一种告警预测方法及系统 |
CN111857097A (zh) * | 2020-07-27 | 2020-10-30 | 中国南方电网有限责任公司超高压输电公司昆明局 | 一种基于词频与逆文档频率的工控系统异常诊断信息识别方法 |
CN112564988A (zh) * | 2021-02-19 | 2021-03-26 | 腾讯科技(深圳)有限公司 | 告警处理方法、装置及电子设备 |
WO2021082697A1 (zh) * | 2019-11-01 | 2021-05-06 | 平安科技(深圳)有限公司 | 基于批量告警事件的定位方法、装置、电子设备及介质 |
CN112988509A (zh) * | 2021-03-09 | 2021-06-18 | 京东数字科技控股股份有限公司 | 一种告警消息过滤方法、装置、电子设备及存储介质 |
CN113313280A (zh) * | 2021-03-31 | 2021-08-27 | 阿里巴巴新加坡控股有限公司 | 云平台的巡检方法、电子设备及非易失性存储介质 |
CN113778792A (zh) * | 2021-08-19 | 2021-12-10 | 济南浪潮数据技术有限公司 | 一种it设备的告警归类方法及系统 |
CN114519114A (zh) * | 2020-11-20 | 2022-05-20 | 北京达佳互联信息技术有限公司 | 多媒体资源分类模型构建方法、装置、服务器及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102024045A (zh) * | 2010-12-14 | 2011-04-20 | 成都市华为赛门铁克科技有限公司 | 信息分类处理方法、装置和终端 |
CN109800305A (zh) * | 2018-12-31 | 2019-05-24 | 南京理工大学 | 基于自然标注的微博情绪分类方法 |
-
2019
- 2019-06-26 CN CN201910563074.9A patent/CN110321411A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102024045A (zh) * | 2010-12-14 | 2011-04-20 | 成都市华为赛门铁克科技有限公司 | 信息分类处理方法、装置和终端 |
CN109800305A (zh) * | 2018-12-31 | 2019-05-24 | 南京理工大学 | 基于自然标注的微博情绪分类方法 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110932881A (zh) * | 2019-10-16 | 2020-03-27 | 国网浙江省电力有限公司温州供电公司 | 一种基于监控告警信号的设备画像的方法 |
CN110932881B (zh) * | 2019-10-16 | 2022-07-26 | 国网浙江省电力有限公司温州供电公司 | 一种基于监控告警信号的设备画像的方法 |
WO2021082697A1 (zh) * | 2019-11-01 | 2021-05-06 | 平安科技(深圳)有限公司 | 基于批量告警事件的定位方法、装置、电子设备及介质 |
CN111475804A (zh) * | 2020-03-05 | 2020-07-31 | 浙江省北大信息技术高等研究院 | 一种告警预测方法及系统 |
CN111475804B (zh) * | 2020-03-05 | 2023-10-24 | 杭州未名信科科技有限公司 | 一种告警预测方法及系统 |
CN111857097A (zh) * | 2020-07-27 | 2020-10-30 | 中国南方电网有限责任公司超高压输电公司昆明局 | 一种基于词频与逆文档频率的工控系统异常诊断信息识别方法 |
CN111857097B (zh) * | 2020-07-27 | 2023-10-31 | 中国南方电网有限责任公司超高压输电公司昆明局 | 基于词频与逆文档频率的工控系统异常诊断信息识别方法 |
CN114519114A (zh) * | 2020-11-20 | 2022-05-20 | 北京达佳互联信息技术有限公司 | 多媒体资源分类模型构建方法、装置、服务器及存储介质 |
CN112564988A (zh) * | 2021-02-19 | 2021-03-26 | 腾讯科技(深圳)有限公司 | 告警处理方法、装置及电子设备 |
CN112988509A (zh) * | 2021-03-09 | 2021-06-18 | 京东数字科技控股股份有限公司 | 一种告警消息过滤方法、装置、电子设备及存储介质 |
CN112988509B (zh) * | 2021-03-09 | 2024-08-20 | 京东科技控股股份有限公司 | 一种告警消息过滤方法、装置、电子设备及存储介质 |
CN113313280B (zh) * | 2021-03-31 | 2023-09-19 | 阿里巴巴新加坡控股有限公司 | 云平台的巡检方法、电子设备及非易失性存储介质 |
CN113313280A (zh) * | 2021-03-31 | 2021-08-27 | 阿里巴巴新加坡控股有限公司 | 云平台的巡检方法、电子设备及非易失性存储介质 |
CN113778792A (zh) * | 2021-08-19 | 2021-12-10 | 济南浪潮数据技术有限公司 | 一种it设备的告警归类方法及系统 |
CN113778792B (zh) * | 2021-08-19 | 2023-12-26 | 济南浪潮数据技术有限公司 | 一种it设备的告警归类方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321411A (zh) | 一种电网监控告警信息分类方法、系统及可读存储介质 | |
CN110263172B (zh) | 一种电网监控告警信息事件化自主识别方法 | |
KR101984730B1 (ko) | 서버 장애 자동 예측 시스템 및 자동 예측 방법 | |
CN104598367B (zh) | 数据中心故障事件管理自动化系统及方法 | |
CN109726246A (zh) | 一种基于数据挖掘和可视化的电网事故关联原因回溯方法 | |
CN109787979B (zh) | 一种电力网络事件和入侵的检测方法 | |
CN108304567B (zh) | 高压变压器工况模式识别与数据分类方法及系统 | |
CN113515434B (zh) | 异常分类方法、装置、异常分类设备及存储介质 | |
KR102509374B1 (ko) | 언어학적 분석 기법을 이용한 it 인프라 장애 학습 및 분석 시스템 | |
CN111667108A (zh) | 一种配网抢修时长预测方法 | |
CN110334127A (zh) | 一种配电网线路故障规律挖掘方法、系统及存储介质 | |
CN110888973A (zh) | 一种监控信息表自动结构化梳理的方法 | |
CN111044845B (zh) | 基于Apriori算法的配电网事故识别方法及系统 | |
CN114090393B (zh) | 一种告警级别的确定方法、装置及设备 | |
CN114978877B (zh) | 一种异常处理方法、装置、电子设备及计算机可读介质 | |
Madi et al. | Comparative analysis of classification techniques for network fault management | |
CN109558486A (zh) | 电力客服客户诉求智能识别方法 | |
CN111382564A (zh) | 一种基于网络拓扑的电网监视告警事件化分析及推送方法 | |
CN118300860A (zh) | 一种基于机器学习和高级语义映射的电力网络异常检测系统 | |
CN118035910A (zh) | 面向新型电力系统的电网资源聚类预警方法、系统、设备及存储介质 | |
CN110991812A (zh) | 一种基于自然语言处理技术的电网数据管理系统 | |
CN117932295A (zh) | 多源数据融合的电网监控运行特征信息提取方法及系统 | |
CN113626480A (zh) | 一种基于改进关联规则的直流换流站ser事件集诊断方法 | |
CN113379214A (zh) | 基于事理图谱的电网事故信息自动填报及辅助决策的方法 | |
KR20190104759A (ko) | 지능형 장비 이상 증상 사전 탐지 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191011 |
|
RJ01 | Rejection of invention patent application after publication |