CN111737950B - 一种电厂区域设备异常判断方法 - Google Patents
一种电厂区域设备异常判断方法 Download PDFInfo
- Publication number
- CN111737950B CN111737950B CN202010874389.8A CN202010874389A CN111737950B CN 111737950 B CN111737950 B CN 111737950B CN 202010874389 A CN202010874389 A CN 202010874389A CN 111737950 B CN111737950 B CN 111737950B
- Authority
- CN
- China
- Prior art keywords
- log
- power plant
- format
- shunt
- carrier format
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000005856 abnormality Effects 0.000 title claims description 7
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 238000003860 storage Methods 0.000 claims abstract description 18
- 230000011218 segmentation Effects 0.000 claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims description 35
- 230000002159 abnormal effect Effects 0.000 claims description 22
- 238000000926 separation method Methods 0.000 claims description 16
- 238000012423 maintenance Methods 0.000 claims description 10
- 238000007726 management method Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 6
- 238000012545 processing Methods 0.000 abstract description 4
- 238000011064 split stream procedure Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011369 optimal treatment Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明提供了一种基于自然语言的日志载体格式提取方法和装置,涉及日志处理技术领域,所述方法包括以下步骤:通过语境分词,将接入的原始日志流拆分为与各个日志数据段对应的分流;获取每个分流内部的变量与常量,并将其中的变量的字符串删除,将其中的常量的字符串保留;利用字符串拼接的方式将每个分流中常量的字符串进行组合,得到日志载体格式进行保存。本发明还提供了一种电厂设备日志解析方法、电厂设备日志异常判断方法和电厂区域设备异常判断方法。本发明可以在不事先设置关键字的情况下,对日志载体格式进行提取,并用于解析日志和异常判断。
Description
技术领域
本发明涉及日志处理技术领域,特别是涉及一种基于自然语言的日志载体格式提取方法和装置,以及电厂设备日志解析方法、电厂设备日志异常判断方法和电厂区域设备异常判断方法。
背景技术
目前,各种设备在运作时会产生用于记录事件的日志,每一行日志都记载着对于日期、时间、设备信息等相关信息的描述。日志分析在故障排查、性能分析方面有着非常重要的作用。
通常直接使用已经预设好关键词的日志载体格式对日志进行解析。例如已经预设
关键词date(日志日期)、time(日志时间)、devname(电厂设备编号)、BaseTrapSeverity(基
线平均值),并得到日志载体格式为以下字符串构成“date= ,time=,devname=,
BaseTrapSeverity=”。当新获取日志的字符串为“date=2020-03-01,time=20:39:01,
devname=S124DN3W08051005, BaseTrapSeverity=6”时,其中“date”、“time”、“devname”、
“BaseTrapSeverity”为各个日志数据段的数据字段(key),“2020-03-01”、“20:39:01”、
“S124DN3W08051005”、“6”分别为与上述数据字段(key)对应的数据值(value)。通过预先设
置的上述日志载体格式可以匹配并提取出对应的数据字段(key)的数据值(value)。但是,
每个设备的日志载体格式可能不同,例如当获取的某些设备的日志字符串为“date=1972-
03-29,time=12:30:33, devname=S124DN3W16007342,device is up,server is not
down”时,则因为日志载体格式中缺少关键词“device”和“server”,而导致无法识别和提取
相关信息。
因此当需要对多种设备日志进行解析时,需要人工预先设置多种日志载体格式,增加了技术人员的工作量,也不利于提高日志处理效率。
发明内容
本发明所要解决的技术问题是,针对现有技术中只能预先设定关键词来得到日志载体格式的缺陷,提供一种基于自然语言的日志载体格式提取分类方法和装置,以及电厂设备日志解析方法、电厂设备日志异常判断方法和电厂区域设备异常判断方法,可以在不事先设置关键字的情况下,对日志进行拆分从而提取数据字段得到日志载体格式。
第一方面,本发明提供了一种基于自然语言的日志载体格式提取方法,包括以下步骤:
通过语境分词,将接入的原始日志流拆分为与各个日志数据段对应的分流;
获取每个分流内部的变量与常量,并将其中的变量的字符串删除,将其中的常量的字符串保留;
利用字符串拼接的方式将每个分流中常量的字符串进行组合,得到日志载体格式进行保存。
在根据本发明所述的日志载体格式提取方法中,优选地,所述通过语境分词,将接入的原始日志流拆分为与各个日志数据段对应的分流,具体包括:提取出原始日志流中以分隔符号分隔开的字符串作为与各个日志数据段对应的分流。
在根据本发明所述的日志载体格式提取方法中,优选地,所述获取每个分流内部的变量与常量包括:通过正则匹配的方式匹配出每个分流中的运算符或连接符,并提取运算符或连接符左侧的值作为常量的字符串,将运算符或连接符右侧的值作为变量的字符串。
在根据本发明所述的日志载体格式提取方法中,优选地,所述利用字符串拼接的方式将每个分流中的常量的字符串进行组合,包括:利用字符串拼接的方式依次将每个分流的格式字符串拼接起来,其中每个分流的格式字符串包括当前分流的常量的字符串、当前分流包含的运算符或连接符,以及固定格式符;且每个分流的格式字符串之间采用分隔符号连接。
在根据本发明所述的日志载体格式提取方法中,优选地,所述原始日志流为电厂设备日志,所述日志数据段包括:日志日期、日志时间、电厂设备编号、电厂设备状态和电厂服务器状态。
第二方面,本发明提供了一种电厂设备日志解析方法,包括以下步骤:
获取存储的日志载体格式,并利用存储的日志载体格式对接入的原始日志流进行匹配解析;
在匹配解析成功时,输出日志解析结果;
在匹配解析失败时,利用如前所述的基于自然语言的日志载体格式提取方法提取新的日志载体格式并保存;利用新的日志载体格式对原始日志流进行匹配解析。
第三方面,本发明提供了一种电厂设备日志异常判断方法,包括:
利用如上所述的基于自然语言的日志载体格式提取方法提取电厂设备正常运行时间段内的日志载体格式并保存;
利用保存的日志载体格式对新获取的日志进行解析匹配,如果匹解析配成功,则判断电厂设备正常,如果匹配解析不成功,则判断电厂设备故障,生成报警信息。
第四方面,本发明提供了一种电厂区域设备异常判断方法,所述方法包括:
利用如上所述的基于自然语言的日志载体格式提取方法预先提取并保存正常运行时间段内第一电厂区域的日志载体格式、第二电厂区域的日志载体格式以及第三电厂区域的日志载体格式;
利用保存的日志载体格式在第一时间段内对新获取的日志进行匹配解析;在匹配解析成功时,输出日志解析结果;在匹配解析失败时,利用如上所述的基于自然语言的日志载体格式提取方法提取新的日志载体格式并保存为对应电厂区域的日志载体格式;
利用以下公式计算在第一时间段运行结束时第i电厂区域的日志载体格式匹配异常因子:
检测至少一个电厂区域的日志载体格式匹配异常因子超过预设数值时,将超出预设数值的电厂区域内的日志载体格式匹配异常因子进行排序,并按照日志载体格式匹配异常因子从高到低的顺序发送预警信号给维修人员终端设备。
第五方面,本发明提供了一种基于自然语言的日志载体格式提取装置,包括:
日志分流模块,用于通过语境分词,将接入的原始日志流拆分为与各个日志数据段对应的分流;
正则匹配模块,用于获取每个分流内部的变量与常量,并将其中的变量的字符串删除,将其中的常量的字符串保留;
格式保存模块,用于利用字符串拼接的方式将每个分流中常量的字符串进行组合,得到日志载体格式进行保存。
在根据本发明所述的日志载体格式提取装置中,优选地,所述日志分流模块提取出原始日志流中以分隔符号分隔开的字符串作为与各个日志数据段对应的分流。
在根据本发明所述的日志载体格式提取装置中,优选地,所述正则匹配模块通过正则匹配的方式匹配出每个分流中的运算符或连接符,并提取运算符或连接符左侧的值作为常量的字符串,将运算符或连接符右侧的值作为变量的字符串。
在根据本发明所述的日志载体格式的提取装置中,优选地,所述格式保存模块利用字符串拼接的方式依次将每个分流的格式字符串拼接起来,其中每个分流的格式字符串包括当前分流的常量的字符串、当前分流包含的运算符或连接符,以及固定格式符;且每个分流的格式字符串之间采用分隔符号连接。
与现有技术相比,本发明具有以下优点:本发明通过自然语言分词,自动解析日志,可以解析例如电厂设备日志载体格式,不需要提前设置关键词,减少了人工干预,提升对例如电厂设备日志的解析,更快速的完成复杂情况下的日志载体格式的提取和日志解析工作。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例的基于自然语言的日志载体格式的提取方法的流程图;
图2为本发明实施例的电厂设备日志解析方法的流程图;
图3为本发明实施例的基于自然语言的日志载体格式的提取装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
图1为本发明实施例的一种基于自然语言的日志载体格式提取方法,可以包括:
S101、通过语境分词,将接入的原始日志流拆分为与各个日志数据段对应的分流。优选地,该步骤中提取出原始日志流中以分隔符号分隔开的字符串作为与各个日志数据段对应的分流。
本发明适用于采用预定格式的原始日志流,优选为以分隔符号来分隔多个日志数据段的日志,且每个日志数据段包括数据字段(key)、连接符或者运算符、数据值(value)。例如电厂设备状态信息日志,简称为电厂设备日志。该电厂设备日志含有的日志数据段包括但不限于:日志日期、日志时间、电厂设备编号、电厂设备状态和电厂服务器状态。该分隔符号可以为英文逗号“,”或者分号“;”等。
以电厂设备日志为例,一条典型的电厂设备日志包括如下字符串:
“date=1972-03-29,time=12:30:33,devname=S124DN3W16007342,device is up,server is not down”
其中,字符串“date=1972-03-29”表示描述该日志日期的日志数据段,字符串“time=12:30:33”表示描述该日志时间的日志数据段,字符串“devname=S124DN3W16007342”表示描述电厂设备编号的日志数据段,字符串“device is up”表示描述电厂设备状态的日志数据段,字符串“server is not down”表示描述电厂服务器状态的日志数据段。“date”、“time”、“devname”、“device”和“server”为各个日志数据段的数据字段(key),“=”为运算符,“is”、“is not”为连接符。“1972-03-29”、“12:30:33”、“S124DN3W16007342”、“up”和“down”分别为与上述数据字段(key)对应的数据值(value)。
上述电厂设备日志以英文逗号“,”来分隔各个日志数据段,因此在拆分时可以通过提取出原始日志流中以英文逗号“,”分隔开的字符串作为与各个日志数据段对应的分流。具体地,可以采用implode函数进行提取,例如采用以下代码:
implode (‘,’,原始日志);
当原始日志流中使用的分隔符号未知时,可以采用implode函数对多种可能采用的分割符号进行识别来提取所需字符串。
通过步骤1可以将上述日志拆分成以下不同的分流:
第一分流即Stream1的字符串为: date=1972-03-29
第二分流即Stream2的字符串为: time=12:30:33
第三分流即Stream3的字符串为: devname=S124DN3W16007342
第四分流即Stream4的字符串为: device is up
第五分流即Stream5的字符串为: server is not down
S102、获取每个分流内部的变量与常量,将其中的变量的字符串删除,将其中的常量的字符串保留。
本发明充分利用日志的特点,其中数据字段(key)一般为常量,数据值(value)一般为变量,且两者以连接符或者运算符分隔,由此可以通过识别常量和变量的方式提取所需的数据字段(key)。本发明中的运算符包括但不限于以下字符:“=”、“<”、“>”、“!= ”、“<=”、“>=”、“>>”、“<<”。连接符包括但不限于以下字符:“||”、“&&”、“!!”、“is”、“is not”、“eq”、“neq”。
在本发明的一种优选实施方式中,本发明通过正则匹配的方式匹配出每个分流中的运算符或连接符,并提取运算符或连接符左侧的值作为常量的字符串,将运算符或连接符右侧的值作为变量的字符串。
优选地,可以采用re.match函数来提取运算符或连接符两侧的字符串。
例如,通过以下正则匹配式:
其中line为原始日志,re.M|re.I为对匹配大小写不敏感和多行匹配。
本发明也可以将可能涉及的运算符或连接符预先写入re.match函数中,从而同时对多种运算符或连接符两侧的字符串进行提取。
上述每个分流中的提取出的常量和变量的字符串如下:
Stream1:常量date 变量 1972-03-29
Stream2:常量time 变量 12:30:33
Stream3:常量devname 变量 S124DN3W16007342
Stream4:常量 device 变量 up
Stream5:常量 server 变量 down
可以将上述各个分流中常量的字符串删除,从而保留常量的字符串。
虽然该实施例中给出了采用re.match函数来提取运算符或连接符两侧的字符串分别作为常量字符串和变量字符串的具体实现方式,但是本发明不仅限于此,还可以采用本领域基础技术人员熟知并能应用的其它方式来识别出其中的常量和变量,例如采用基于PHP语言的字符串分割技术implode(“=”,字符流)或者基于JAVA的str.spilt(“=”)。
S103、利用字符串拼接的方式将每个分流中常量的字符串进行组合,得到日志载体格式进行保存。
优选地,本发明利用字符串拼接的方式依次将每个分流的格式字符串拼接起来,其中每个分流的格式字符串包括当前分流的常量的字符串、当前分流包含的运算符或连接符,以及固定格式符。每个分流的格式字符串之间加入分隔符号。也就是说,将各个分流(即Stream1- Stream5)中常量的字符串、连接符/运算符、固定格式符、分隔符号依次拼接起来,组成一个新的日志载体格式,其字符串的具体组成为:
例如,对于上述具体的日志而言,可以将Stream1至Stream5的常量组合起来,得到日志载体格式的具体字符串为:
本发明实施例采用常量和变量识别的方法,基于预定格式日志本身的特点,例如电厂设备日志,先找到其中分隔符号,如英文逗号“,”,将原始日志流拆分为对应的分流,再通过正则匹配的方式匹配出连接符或者运算符,例如“is”或“<”等,提取该连接符或者运算符左侧的值作为常量保存,右侧的值作为变量,由此可以方法快速地提取出各种设备的日志载体格式。本发明尤其适用于复杂的电厂设备运行环境,其日志载体格式的提取过程无需人工干预,省时省力。
实施例二
本发明在实施例一的基础上,还提供了一种电厂设备日志解析方法,其流程图如图2所示。
该实施例二的电厂设备日志解析方法包括以下步骤:
S1、接入原始日志流;
S2、获取存储的日志载体格式;
S3、利用存储的日志载体格式对接入的原始日志流进行匹配解析,匹配解析成功则转步骤S6,否则转步骤S4;该步骤中可以利用所有存储的日志载体格式依次对原始日志流进行匹配解析,只要能够成功匹配出一种日志载体格式,则认为匹配解析成功,如果所有日志载体格式均无法匹配,则认为匹配解析失败;
该步骤中可以采用以下正则式对接入的原始日志流进行匹配解析:
preg_match_all($pattern, 原始日志, $matches),$matches即为匹配结果,$matches 为NULL则视为匹配解析失败,$matches输出日志的日期、时间、电厂设备编号、电厂设备状态和电厂服务器状态的字符串时表明匹配解析成功;
S4、利用实施例一所述的基于自然语言的日志载体格式提取方法提取新的日志载体格式;
S5、保存新的日志载体格式,转步骤S2,以便于利用该新的日志载体格式对日志流进行解析;
S6、输出日志解析结果。该日志解析结果包括日志数据段的各个数据字段(key)对应的数据值(value)。
本发明不管遇到什么格式的日志,都可以通过载体解析获取相应的信息,避免了日志格式库需要人工维护,需要有数据才能对日志进行解析的方式,提高了日志解析的效率与成功率。尤其适用于对电厂设备日志进行解析,可以在复杂的电厂设备运行环境中自动识别新添加设备的日志载体格式,并实现自动解析。
实施例三
本发明在实施例一的基础上,还提供了一种电厂设备日志异常判断方法。
该实施例三的电厂设备日志异常判断方法可以利用实施例一的基于自然语言的日志载体格式提取方法提取电厂设备正常运行时间段内的日志载体格式并保存;再利用保存的日志载体格式对新获取的日志进行匹配解析。如果匹配解析成功,则判断电厂设备正常,如果匹配解析不成功,则判断电厂设备故障,生成报警信息。优选地,上述匹配方式为正则匹配,例如采用以下正则式:
preg_match_all($pattern, 原始日志, $matches),$matches即为匹配结果。$matches 为NULL则视为匹配解析失败,$matches输出日志的日期、时间、电厂设备编号、电厂设备状态和电厂服务器状态的字符串时表明匹配解析成功。
本发明适用于对同一电厂设备日志进行采集时,可以对异常的日志进行识别,从而判断电厂设备是否发生故障。
实施例四
本发明在实施例一的基础上,还提供了电厂区域设备异常判断方法,该方法包括以下步骤:
(1)利用实施例一的基于自然语言的日志载体格式提取方法预先提取并保存正常运行时间段内第一电厂区域的日志载体格式、第二电厂区域的日志载体格式以及第三电厂区域的日志载体格式。通常情况下,电厂分为第一电厂区域、第二电厂区域和第三电厂区域,其中第一电厂区域包括用于生产的电厂设备,例如发电设备等;第二电厂区域包括用于管理的电厂设备,第三电厂区域包括用于监控的电厂设备。在具体对日志进行提取时,可以通过日志中的sensor_id=1 or sensor_id=2 or sensor_id = 3来区分设备所在的区域,也就是电厂区域,从而可以将基于该日志提取的日志载体格式归属至对应的电厂区域。
(2)利用上述保存的日志载体格式在第一时间段内对新获取的日志进行匹配解析;在匹配解析成功时,输出日志解析结果;在匹配解析失败时,利用实施例一所述的基于自然语言的日志载体格式提取方法提取新获取的日志的日志载体格式并保存为对应电厂区域的日志载体格式。也就是说,在对获取的各个日志进行处理时,可以利用已有的日志载体格式进行解析,当无法解析时则提取该日志的日志载体格式,并根据sensor_id(设备分区标识)这个数据字段来识别该日志载体格式所属的电厂区域。
(3)利用以下公式计算在第一时间段运行结束时第i电厂区域的日志载体格式匹配异常因子:
第一电厂区域属于核心的生产区域,因此其权重系数最高,为0.5~0.7,优选为
0.6。例如,当运行第一时间段(例如一个小时)后,检测到第一电厂区域的日志载体格式从5
个增加至7个,则计算的日志载体格式匹配异常因子。第二电厂区域主
要为用于管理的电厂设备,其权重系数为0.15~0.3,优选为0.25。第三电厂区域主要为用于
监控的电厂设备,其权重系数为0.1~0.2,优选为0.15。由于第一电厂区域和第二电厂区域
内网隔离,属于局域网,而第三电厂区域属于对外的互联网。虽然第二电厂区域和第三电厂
区域对于功能划分来说,其安全性级别相对较低,但是其通常更容易受攻击导致异常。尤其
是第三电厂区域经常被攻击,如果没有渗透到第二电厂区域则不影响系统的基本运行。当
攻击至第二电厂区域产生设备异常时,还可以通过内网隔离的设置让第一电厂区域独立运
行。当攻击至第一电厂区域时,则整个电厂将彻底不能工作。因此,本发明需要对于三个电
厂区域的重要性和日志异常程度进行合理地评估,进而确定维修顺序。
(4)检测至少一个电厂区域的日志载体格式匹配异常因子超过预设数值时,将超出预设数值的电厂区域内的日志载体格式匹配异常因子进行排序,并按照日志载体格式匹配异常因子从高到低的顺序发送预警信号给维修人员终端设备。
例如。本发明可以设置预设数值为0.2,当第一电厂区域和第二电厂区域的日志载体格式匹配异常因子超过该预设数值时,将超出预设数值的电厂区域内的日志载体格式匹配异常因子进行排序,例如计算得到的第一电厂区域的日志载体格式匹配异常因子高于第二电厂区域的日志载体格式匹配异常因子,则依次发送第一电厂区域预警信号和第二电厂区域预警信号给维修人员终端设备。如果仅检测到一个电厂区域的日志载体格式匹配异常因子超过该预设数值时,则仅发送该电厂区域的预警信号给维修人员终端设备。
该实施例可以通过日志载体格式的增加量来判断该电厂区域的设备异常程度,并且通过阈值判断的方法避免因个别日志数据异常而产生的误报警,提高了设备故障判断的准确度。并且可以结合各个区域的功能划分的重要性来合理调度维修资源,既保障了对重点区域的优先维修处理,又能够根据提取的日志数据来判定各个区域的设备日志异常程度,从而为维修人员提供最优的处置优先级方案。
实施例五
如图3所示,本发明实施例提供一种基于自然语言的日志载体格式提取装置,可以包括:
日志分流模块100,用于通过语境分词,将接入的原始日志流拆分为与各个日志数据段对应的分流。
正则匹配模块200,用于获取每个分流内部的变量与常量,并将其中的变量的字符串删除,将其中的常量的字符串保留。
格式保存模块300,用于利用字符串拼接的方式将每个分流中常量的字符串进行组合,得到日志载体格式进行保存。
本发明实施例中,优选地,所述日志分流模块100提取出原始日志流中以分隔符号分隔开的字符串作为与各个日志数据段对应的分流。
本发明实施例中,优选地,所述正则匹配模块200设置为通过正则匹配的方式匹配出每个分流中的运算符或连接符,并提取运算符或连接符左侧的值作为常量的字符串,将运算符或连接符右侧的值作为变量的字符串。
本发明实施例中,优选地,所述格式保存模块300利用字符串拼接的方式依次将每个分流的格式字符串拼接起来,其中每个分流的格式字符串包括当前分流的常量的字符串、当前分流包含的运算符或连接符,以及固定格式符;且每个分流的格式字符串之间采用分隔符号连接。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于 RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
Claims (1)
1.一种电厂区域设备异常判断方法,其特征在于,所述方法包括:
利用基于自然语言的日志载体格式提取方法预先提取并保存正常运行时间段内第一电厂区域的日志载体格式、第二电厂区域的日志载体格式以及第三电厂区域的日志载体格式;
利用保存的日志载体格式在第一时间段内对新获取的日志进行匹配解析;在匹配解析成功时,输出日志解析结果;在匹配解析失败时,利用基于自然语言的日志载体格式提取方法提取新的日志载体格式并保存为对应电厂区域的日志载体格式;其中,电厂设备日志包括以分隔符号分隔的多个日志数据段,且每个日志数据段包括数据字段、连接符或者运算符、数据值;
利用以下公式计算在第一时间段运行结束时第i电厂区域的日志载体格式匹配异常因子:
其中,为第i电厂区域设备重要性的权重系数,为运行第一时间段后保存的第i电厂区域的日志载体格式的总数量,为预先保存的正常运行时间段内第i电厂区域的日志载体格式的总数量,i的取值为1、2、3;其中第一电厂区域包括用于生产的电厂设备,其权重系数为0.5~0.7;第二电厂区域包括用于管理的电厂设备,其权重系数为0.15~0.3;第三电厂区域包括用于监控的电厂设备,其权重系数为0.1~0.2;
检测至少一个电厂区域的日志载体格式匹配异常因子超过预设数值时,将超出预设数值的电厂区域内的日志载体格式匹配异常因子进行排序,并按照日志载体格式匹配异常因子从高到低的顺序发送预警信号给维修人员终端设备;
所述基于自然语言的日志载体格式提取方法,包括以下步骤:
通过语境分词,将接入的原始日志流拆分为与各个日志数据段对应的分流;
获取每个分流内部的变量与常量,并将其中的变量的字符串删除,将其中的常量的字符串保留;
利用字符串拼接的方式将每个分流中常量的字符串进行组合,得到日志载体格式进行保存;
所述通过语境分词,将接入的原始日志流拆分为与各个日志数据段对应的分流,具体包括:
提取出原始日志流中以分隔符号分隔开的字符串作为与各个日志数据段对应的分流;
所述获取每个分流内部的变量与常量包括:
通过正则匹配的方式匹配出每个分流中的运算符或连接符,并提取运算符或连接符左侧的值作为常量的字符串,将运算符或连接符右侧的值作为变量的字符串;
所述利用字符串拼接的方式将每个分流中的常量的字符串进行组合,包括:
利用字符串拼接的方式依次将每个分流的格式字符串拼接起来,其中每个分流的格式字符串包括当前分流的常量的字符串、当前分流包含的运算符或连接符,以及固定格式符;且每个分流的格式字符串之间采用分隔符号连接;
所述原始日志流为电厂设备日志,所述日志数据段包括:日志日期、日志时间、电厂设备编号、电厂设备状态和电厂服务器状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010874389.8A CN111737950B (zh) | 2020-08-27 | 2020-08-27 | 一种电厂区域设备异常判断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010874389.8A CN111737950B (zh) | 2020-08-27 | 2020-08-27 | 一种电厂区域设备异常判断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111737950A CN111737950A (zh) | 2020-10-02 |
CN111737950B true CN111737950B (zh) | 2020-12-08 |
Family
ID=72658832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010874389.8A Active CN111737950B (zh) | 2020-08-27 | 2020-08-27 | 一种电厂区域设备异常判断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737950B (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7424421B2 (en) * | 2004-03-03 | 2008-09-09 | Microsoft Corporation | Word collection method and system for use in word-breaking |
CN108563629B (zh) * | 2018-03-13 | 2022-04-19 | 北京仁和诚信科技有限公司 | 一种日志解析规则自动生成方法和装置 |
CN111435343B (zh) * | 2019-01-15 | 2023-02-24 | 北京大学 | 计算机系统日志模板的自动生成和在线更新方法与系统 |
CN110321371B (zh) * | 2019-07-01 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 日志数据异常检测方法、装置、终端及介质 |
CN110377576B (zh) * | 2019-07-24 | 2021-10-29 | 中国工商银行股份有限公司 | 创建日志模板的方法和装置、日志分析方法 |
CN111160021A (zh) * | 2019-10-12 | 2020-05-15 | 华为技术有限公司 | 日志模板提取方法及装置 |
-
2020
- 2020-08-27 CN CN202010874389.8A patent/CN111737950B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111737950A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10261967B2 (en) | Data extraction | |
CN112114995B (zh) | 基于进程的终端异常分析方法、装置、设备及存储介质 | |
US20200021511A1 (en) | Performance analysis for transport networks using frequent log sequence discovery | |
CN111078513B (zh) | 日志处理方法、装置、设备、存储介质及日志告警系统 | |
CN116383742A (zh) | 基于特征分类的规则链设置处理方法、系统及介质 | |
CN111737950B (zh) | 一种电厂区域设备异常判断方法 | |
CN117009911B (zh) | 一种目标事件的异常判定方法、装置、介质及电子设备 | |
CN113037365B (zh) | 一种识别光通道生命周期运维状态的方法与装置 | |
CN112565232B (zh) | 一种基于模板和流量状态的日志解析方法及系统 | |
CN103347005B (zh) | 一种控制数据上报的方法以及客户端设备和服务器设备 | |
CN111181785B (zh) | 基于反馈式链路的监控方法和装置 | |
CN117170724A (zh) | 用于检测业务异常的ai模型自动化更新方法、装置及设备 | |
CN117150488A (zh) | 一种基于时序分析与内存取证的离地攻击检测方法及系统 | |
CN115062144A (zh) | 一种基于知识库和集成学习的日志异常检测方法与系统 | |
CN113886202A (zh) | 车辆日志的分析方法、系统、装置、介质及车辆 | |
CN114090372A (zh) | 一种故障处理的方法和装置 | |
CN118487872B (zh) | 一种面向核电行业的网络异常行为检测分析方法 | |
Adegbehingbe et al. | Improved Decay Tolerant Inference of Previously Uninstalled Computer Applications | |
US20240119090A1 (en) | Methods and systems for automated template mining for observability | |
CN114721861B (zh) | 一种基于日志差异化比对的故障定位方法与系统 | |
CN113194108B (zh) | 攻击工具选择方法、装置、设备和计算机可读存储介质 | |
CN115906642B (zh) | 轴承生产检测控制方法及装置 | |
CN117220998B (zh) | 一种防火墙策略统一范式化方法 | |
CN116319445A (zh) | 防火墙的异常监测方法、装置及系统、电子设备 | |
CN113407373A (zh) | 告警处理方法、装置、计算机可读存储介质及处理器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |