CN111162950B - 故障事件处理方法、装置及系统 - Google Patents

故障事件处理方法、装置及系统 Download PDF

Info

Publication number
CN111162950B
CN111162950B CN201911416039.0A CN201911416039A CN111162950B CN 111162950 B CN111162950 B CN 111162950B CN 201911416039 A CN201911416039 A CN 201911416039A CN 111162950 B CN111162950 B CN 111162950B
Authority
CN
China
Prior art keywords
fault
event
alarm message
alarm
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911416039.0A
Other languages
English (en)
Other versions
CN111162950A (zh
Inventor
王君
李世宁
张明
金星
韩广乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN201911416039.0A priority Critical patent/CN111162950B/zh
Publication of CN111162950A publication Critical patent/CN111162950A/zh
Application granted granted Critical
Publication of CN111162950B publication Critical patent/CN111162950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Abstract

本发明提供了一种故障事件处理方法、装置及系统,该方法包括:依据关键字确定故障事件的告警级别,经过预设的第一时长后,若内存队列中存在与故障事件对应的故障恢复事件,则依据关联规则对故障事件和故障恢复事件进行关联处理,得到第一告警消息和该第一告警消息的告警级别,并当存在与第一告警消息中包含的关键字相匹配的聚合规则时,经过预设的第二时长后,若内存队列中存在与第一告警消息对应的表象故障事件,则依据聚合规则对第一告警消息和表象故障事件进行聚合处理得到第二告警消息和第二告警消息的告警级别,依据第二告警消息和第二告警消息的告警级别进行告警,可见,本技术方案可实现对告警消息数量的压缩,从而提高网络故障处理效率。

Description

故障事件处理方法、装置及系统
技术领域
本发明涉及网络通信技术领域,尤其涉及一种故障事件处理方法、装置及系统。
背景技术
随着通信与网络技术的飞速发展和广泛应用,网络规模日益庞大,结构复杂程度不断增加,产生的网络故障问题也越来越多,使得网络的运营维护变得越来越复杂。
现有技术中,当发生网络故障,即存在故障事件时,直接生成故障事件对应的告警消息进行告警,然后由网络运维人员对告警消息进行分析查找故障原因。由于网络规模的庞大,若直接对故障事件进行告警,将会产生大量的告警消息,从而需要大量的人力和时间进行甄别、排查,以确定故障原因,导致确定故障原因所花费的时间较长,网络故障处理效率较低。
发明内容
本发明提供了一种故障事件处理方法、装置及系统,目的在于解决直接对故障事件进行告警,导致确定故障原因花费时间较长,网络故障处理效率较低的问题。
为了实现上述目的,本发明提供了以下技术方案:
一种故障事件处理方法,包括:
当监测到内存队列中存在故障事件时,解析所述故障事件,得到所述故障事件中包含的关键字;
依据所述关键字,确定所述故障事件的告警级别,并判断是否存在与所述关键字相匹配的关联规则;
若存在,则经过预设的第一时长后,判断所述内存队列中是否存在与所述故障事件对应的故障恢复事件,若所述内存队列中存在与所述故障事件对应的故障恢复事件,则依据所述关联规则,对所述故障事件和所述故障恢复事件进行关联处理,得到第一告警消息和所述第一告警消息的告警级别;
判断是否存在与所述第一告警消息中包含的关键字相匹配的聚合规则;
若存在与所述第一告警消息中包含的关键字相匹配的聚合规则,则经过预设的第二时长后,若所述内存队列中存在与所述第一告警消息对应的表象故障事件,则依据所述聚合规则,对所述第一告警消息和所述表象故障事件进行聚合处理,得到第二告警消息和所述第二告警消息的告警级别;
依据所述第二告警消息和所述第二告警消息的告警级别进行告警。
上述的方法,可选的,还包括:
若不存在与所述关键字相匹配的关联规则,则将所述故障事件作为第一告警消息,并将所述故障事件的告警级别作为所述第一告警消息的告警级别;
判断是否存在与所述第一告警消息中包含的关键字相匹配的聚合规则;
若存在与所述第一告警消息中包含的关键字相匹配的聚合规则,则经过预设的第二时长后,若所述内存队列中存在与所述第一告警消息对应的表象故障事件,则依据所述聚合规则,对所述第一告警消息和所述表象故障事件进行聚合处理,得到第二告警消息和所述第二告警消息的告警级别;
依据所述第二告警消息和所述第二告警消息的告警级别进行告警。
上述的方法,可选的,还包括:
若不存在与所述第一告警消息中包含的关键字相匹配的聚合规则,则依据所述第一告警消息和所述第一告警消息的告警级别进行告警。
上述的方法,可选的,还包括:
采集系统日志和多个故障日志字段,依据预设的拼接规则,对各个所述故障日志字段进行拼接,得到故障日志;
将所述故障日志和所述系统日志作为故障事件,并将所述故障事件写入所述内存队列中。
一种故障事件处理装置,包括:
解析单元,用于当监测到内存队列中存在故障事件时,解析所述故障事件,得到所述故障事件中包含的关键字;
第一判断单元,用于依据所述关键字,确定所述故障事件的告警级别,并判断是否存在与所述关键字相匹配的关联规则;
关联单元,用于若存在,则经过预设的第一时长后,判断所述内存队列中是否存在与所述故障事件对应的故障恢复事件,若所述内存队列中存在与所述故障事件对应的故障恢复事件,则依据所述关联规则,对所述故障事件和所述故障恢复事件进行关联处理,得到第一告警消息和所述第一告警消息的告警级别;
第二判断单元,用于判断是否存在与所述第一告警消息中包含的关键字相匹配的聚合规则;
第一聚合单元,用于若存在与所述第一告警消息中包含的关键字相匹配的聚合规则,则经过预设的第二时长后,若所述内存队列中存在与所述第一告警消息对应的表象故障事件,则依据所述聚合规则,对所述第一告警消息和所述表象故障事件进行聚合处理,得到第二告警消息和所述第二告警消息的告警级别;
第一告警单元,依据所述第二告警消息和所述第二告警消息的告警级别进行告警。
上述的装置,可选的,还包括:
确定单元,用于若不存在与所述关键字相匹配的关联规则,则将所述故障事件作为第一告警消息,并将所述故障事件的告警级别作为所述第一告警消息的告警级别;
第三判断单元,用于判断是否存在与所述第一告警消息中包含的关键字相匹配的聚合规则;
第二聚合单元,用于若存在与所述第一告警消息中包含的关键字相匹配的聚合规则,则经过预设的第二时长后,若所述内存队列中存在与所述第一告警消息对应的表象故障事件,则依据所述聚合规则,对所述第一告警消息和所述表象故障事件进行聚合处理,得到第二告警消息和所述第二告警消息的告警级别;
第二告警单元,用于依据所述第二告警消息和所述第二告警消息的告警级别进行告警。
上述的装置,可选的,还包括:
第三告警单元,用于若不存在与所述第一告警消息中包含的关键字相匹配的聚合规则,则依据所述第一告警消息和所述第一告警消息的告警级别进行告警。
上述的装置,可选的,还包括:
采集单元,用于采集系统日志和多个故障日志字段,依据预设的拼接规则,对各个所述故障日志字段进行拼接,得到故障日志;
写入单元,用于将所述故障日志和所述系统日志作为故障事件,并将所述故障事件写入所述内存队列中。
一种故障事件处理系统,包括:
采集器、存储器、事件解析器、消息总线和事件平台;
所述采集器,用于采集系统日志和故障日志,并所述系统日志和所述故障日志作为故障事件发送至所述存储器;
所述存储器,用于将所述故障事件写入内存队列中;
所述事件解析器,用于检测内存队列中是否存在故障事件,若存在,则解析所述故障事件,得到所述故障事件中包含的关键字,并依据所述关键字,确定所述故障事件的告警级别,判断是否存在与所述关键字相匹配的关联规则,若存在与所述关键字相匹配的关联规则,则经过预设的第一时长后,判断所述内存队列中是否存在与所述故障事件对应的故障恢复事件,若所述内存队列中存在与所述故障事件对应的故障恢复事件,则依据所述关联规则,对所述故障事件和所述故障恢复事件进行关联处理,得到第一告警消息和所述第一告警消息的告警级别,当存在与所述第一告警消息中包含的关键字相匹配的聚合规则时,经过预设的第二时长后,若所述内存队列中存在与所述第一告警消息对应的表象故障事件,则依据所述聚合规则,对所述第一告警消息和所述表象故障事件进行聚合处理,得到第二告警消息和所述第二告警消息的告警级别,将所述第二告警消息和所述第二告警消息的告警级别通过所述消息总线发送至所述事件平台;
所述事件平台,用于依据所述第二告警消息和所述第二告警消息的告警级别进行告警。
上述的系统,可选的,所述采集器,包括:
第一采集模块、第一传输模块和第二采集模块;
所述第一采集模块,用于采集系统日志,并将所述系统日志发送至所述第一传输模块;
所述第一传输模块,用于将所述系统日志作为故障事件,并将所述故障事件传输至所述存储器;
所述第二采集模块,用于采集多个故障日志字段,并依据预设的拼接规则,对各个所述故障日志字段进行拼接,得到故障日志,将所述故障日志作为故障事件,并将所述故障事件传输至所述存储器。
一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述的故障事件处理方法。
一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行上述的故障事件处理方法。
与现有技术相比,本发明包括以下优点:
本发明提供了一种故障事件方法、装置及系统,该方法包括:当监测到内存队列中存在故障事件时,解析故障事件,得到故障事件中包含的关键字,依据关键字,确定故障事件的告警级别,并判断是否存在与关键字相匹配的关联规则,若存在,则经过预设的第一时长后,判断内存队列中是否存在与故障事件对应的故障恢复事件,若内存队列中存在与故障事件对应的故障恢复事件,则依据关联规则,对故障事件和故障恢复事件进行关联处理,得到第一告警消息和该第一告警消息的告警级别,并当存在与第一告警消息中包含的关键字相匹配的聚合规则时,经过预设的第二时长后,若内存队列中存在与第一告警消息对应的表象故障事件,则依据聚合规则,对第一告警消息和表象故障事件进行聚合处理得到第二告警消息和该第二告警消息的告警级别,依据第二告警消息和第二告警消息的告警级别进行告警。本发明所提供的技术方案,经过预设的第一时长后,判断内存队列中是否存在与故障事件对应的故障恢复事件,即对故障事件进行延时处理,以减少自愈网络故障的告警,从而减少运维人员的工作量,并基于关联规则对故障事件进行关联处理,即实现将一个根源故障事件和由该根源故障事件所导致的多个表象故障事件进行聚合处理,以减少其他告警干扰,压缩告警消息的数量,从而帮助运维人员快速定位告警根源,提高网络故障处理效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种故障事件处理方法的方法流程图;
图2为本发明提供的一种故障事件处理方法的又一方法流程图;
图3为本发明提供的一种故障事件处理装置的结构示意图;
图4为本发明提供的一种故障事件处理系统的结构示意图;
图5为本发明提供的一种故障事件处理系统的又一结构示意图;
图6为本发明提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本发明实施例提供了一种故障事件处理方法,该方法可以应用在多种系统平台,其执行主体可以运行在计算机终端或各种移动设备的事件解析器,所述方法的方法流程图如图1所示,具体包括:
S101、当监测到内存队列中存在故障事件时,解析故障事件,得到故障事件中包含的关键字。
实时监测内存队列中是否存在故障事件,其中,内存队列为存储器中的队列,当检测到内存队列中存在故障事件时,获取故障事件,并解析故障事件,得到故障事件中包含的关键字。
S102、依据关键字,确定故障事件的告警级别。
基于关键字,确定故障事件的告警级别,具体可以包括:基于关键字,查找预先构建的关键字告警级别映射表,获得关键字对应的告警级别,将所获得的告警级别作为故障事件的告警级别。可选的,关键字告警级别映射表的构建可以在前端进行构建,也就是在事件平台上进行构建,事件解析器接收前端发送的关键字告警级别映射表,并同步到运行环境中,即将关键字告警级别映射表存储到内存中,以便于后续对该关键字告警级别映射表的调用。
需要说明的是,关键字告警级别映射表中的内容可以人为进行定义和修改,即可人为定义和修改关键字和告警级别的对应关系,例如,可以定义关键字key为ERROR的告警级别severity为5,后期可以根据需求对已定义的关键和告警级别的对应关系进行修改。
可选的,关键字告警级别映射表如表1所示:
key severity
ERROR 5
表1关键字告警级别映射表
S103、判断是否存在与关键字相匹配的关联规则。
判断是否存在与关键字相匹配的关键规则,具体可以包括:基于故障事件的关键字,在预先构建的事件关联延时映射表中查找与关键字相匹配的关联规则,若在事件关联延时映射表中查找到与关键字相匹配的关联规则,则执行步骤S104,若在事件关联延时映射表中未查找到与关键字相匹配的关联规则,则执行步骤S105,其中,事件关联延时映射表的构建过程同关键字告警级别映射表的构建过程类似,可以在前端进行构建,也就是在事件平台上进行构建,事件解析器接收前端发送的事件关联延时映射表,并同步到运行环境中,即将事件关联延时映射表存储到内存中,以便于后续对该事件关联延时映射表的调用。
需要说明的是,事件关联延时映射表中的内容可以人为进行定义和修改。可选的,事件关联延时映射表中包含的属性可以包括但不限于key1、key2、wait_time、wait_proc和description,key1和key2为关键字,wait_time用于标识需要延时的时长,可选的,延时时长的单位可以是以秒为单位,wait_proc用于标识延时后需要经过的处理规则,即关联规则,需要说明的是,本发明实施例所提及的关联规则为自定义的规则,可以根据实际需求进行规则的定义,description用于为故障事件设置标识信息,可选的,一对故障事件的标识信息是相同的,其中,故障事件和与故障事件对应的恢复故障事件称之为一对故障事件,例如,满足关键字为ospf和down的故障事件,与满足关键字为ospf和up的故障事件,称为一对故障事件,并为以关联规则comp_main对该对故障事件进行关联处理,以及为该对故障事件设置OSPF标识信息。
可选的,事件关联延时映射表如表2所示:
key1 key2 wait_time wait_proc description
ospf down 60 comp_main OSPF
ospf up OSPF
表2事件关联延时映射表
需要说明的是,属性wait_time和wait_proc对应的信息可以是空字段,即对于部分故障事件,可以不用延时处理,也需要设置与其对应的关联规则,因为该故障事件本身可能属于某一故障事件的故障恢复事件。
S104、经过预设的第一时长后,判断内存队列中是否存在与故障事件对应的故障恢复事件。
若在事件关联延时映射表中查找到与关键字相匹配的关联规则,则经过预设的第一时长后,判断内存队列中是否存在与故障事件对应的故障恢复事件,其中,预设的第一时长为事件关联延时映射表中与关联规则对应的延时时长,即事件关联延时映射表中关键字对应的wait_time中的延时时间。
判断内存队列中是否存在与故障事件对应的故障恢复事件具体可以为,确定故障事件的端口标识,基于该故障事件的端口标识,判断内存队列中是否存在与该端口标识相同的故障事件,若存在,在将与该端口标识相同的故障事件确定为故障恢复事件,其中确定故障事件端口标识可以通过解析该故障事件,获得故障事件中包含的表征端口标识的字段,基于所获得的字段,确定该故障事件的端口标识。
经过预设的第一时长后,若内存队列中存在与故障事件对应的故障恢复事件,则说明该故障为能够自愈的故障,并执行步骤S106,若内存队列中不存在与故障事件对应的故障恢复事件,则说明该故障为不能自愈的故障,并执行步骤S105。
S105、将故障事件作为第一告警消息,并将故障事件的告警级别作为第一告警消息的告警级别。
若在事件关联延时映射表中未查找到与关键字相匹配的关联规则,或在时间关联延时映射表中查找到与关键字相匹配的关联规则,但经过预设的第一时长后,内存队列中不存在与故障事件对应的恢复故障事件,则将故障事件作为第一告警消息,并将故障事件的告警级别作为第一告警消息的告警级别。
S106、依据关联规则,对故障事件和故障恢复事件进行关联处理,得到第一告警消息和第一告警消息的告警级别。
若内存队列中存在与故障事件对应的故障恢复事件,则依据关联规则,对故障事件和故障恢复事件进行关联处理,获得第一告警消息和第一告警消息的告警级别,所述依据关联规则,对故障事件和故障恢复事件进行关联处理,获得第一告警消息和第一告警消息的告警级别,具体可以包括以下步骤:
确定关联规则中包含的告警消息模板,并确定告警消息模板中包含的各个数据项;
从故障事件和故障恢复事件中提取与每个数据项对应的信息;
并所提取的每个数据项对应的信息对应写入告警消息模板中,得到第一告警消息,并将关联规则中包含的预设告警级别确定第一告警消息的告警级别。
确定关联规则中包含的数据提取规则;
依据该数据提取规则,从故障事件和故障恢复事件中提取多个数据项;
依据关联规则中包含的数据项拼接规则,对多个数据项进行拼接,得到第一告警消息,并将关联规则中包含的预设告警级别确定第一告警消息的告警级别。
本发明实施例提供的方法中,关联规则为人为设定的规则,包括但不限于上述所提及的预设告警消息模板、预设数据提取规则和预设数据项拼接规则,本发明还可以设定其他关联规则对故障事件和故障恢复事件进行关联处理,基于关联规则,将故障事件和故障事件的故障恢复事件进行关联处理,以及对故障事件的告警级别进行更新,将更新后的告警级别作为第一告警消息的告警级别。
对上述本发明提及的依据关联规则,对故障事件和故障恢复事件进行关联处理,得到第一告警消息和第一告警消息的告警级别进行举例说明如下:
对于相同端口的up/down相关故障事件,当监测到一条ospf down故障事件,延时60秒后处理,若内存队列中存在ospf up故障事件,且ospf up故障事件和ospf down故障事件均为来自同一端口的故障事件,则将ospf up故障事件作为ospf down故障事件的故障恢复事件,并基于关联规则,将ospf up故障事件和ospf down故障事件处理成一条低级别的告警消息,即将ospf up故障事件和ospf down故障事件进行关联处理,得到第一告警消息,以声明该端口发生一次闪断,无业务影响。
S107、判断是否存在与第一告警消息中包含的关键字相匹配的聚合规则。
判断是否存在与第一告警消息中包含的关键字相匹配的聚合规则,具体可以包括:基于第一告警消息中包含的关键字,在预先构建的事件聚合映射表中查找与第一告警消息中包含的关键字相匹配的聚合规则,若在预先构建的事件聚合映射表中查找到与第一告警消息中包含的关键字相匹配的聚合规则,则执行步骤S108,若在预先构建的事件聚合映射表中未查找到与第一告警消息中包含的关键字相匹配的聚合规则,则执行步骤S109。
其中,事件聚合映射表的构建可以在前端进行构建,并在构建完成后发送至事件解析器,事件解析器接收前端发送的事件聚合映射表,并将该事件聚合映射表存储至内存中。
需要说明的是,事件聚合映射表中的内容可以人为进行定义和修改。可选的,事件聚合映射表中包含的属性可以包括但不限于key3、wait_time、wait_proc和description,key3为关键字,wait_time用于标识需要延时的时长,可选的,延时时长的单位可以是以秒为单位,wait_proc用于标识延时后需要经过的处理规则,即聚合规则,description用于为故障事件设置标识信息,可选的,根源故障事件,和根源故障事件对应的表象故障事件的标识信息是相同的。其中,关键字与聚合规则相匹配的故障事件即为根源故障事件,需要说明的是,一个根源故障事件可能会导致多种表象故障事件的产生。
可选的,事件聚合映射表如表3所示:
Figure BDA0002351205740000111
表3事件聚合映射表
S108、经过预设的第二时长后,判断内存队列中是否存在与第一告警消息对应的表象故障事件;
若在事件聚合映射表中查找到与第一告警消息中包含的关键字相匹配的聚合规则,则经过预设的第二时长后,判断内存队列中是否存在第一告警消息对应的表象故障事件,其中,预设的第二时长即为事件聚合映射表中延时时长wait_time,判断内存队列中是否存在与第一告警消息对应的表象告警消息,具体可以是将第一告警消息作为根源故障事件,基于聚合规则中对根源故障事件对应的表象故障事件的定义,查找内存队列中与第一告警消息对应的表象故障事件,若内存队列中存在与第一告警消息对应的表象故障事件,则执行步骤S110,若内存队列中不存在与第一告警消息对应的表象故障事件,则执行步骤S109。
S109、依据第一告警消息和第一告警消息的告警级别进行告警。
若在预先构建的事件聚合映射表中未查找到与第一告警消息中包含的关键字相匹配的聚合规则,或在预先构建的事件聚合映射表中查找到与第一告警消息中包含的关键字相匹配的聚合规则,但在经过预设的第二时长后,内存队列中不存在与第一告警消息对应的表象故障事件,则依据第一告警消息和第一告警消息的告警级别进行告警,可选的,可以是将第一告警消息和第一告警消息的告警级别写入预设的告警消息协议中,得到目标告警消息,依据目标告警消息进行告警,即实现将第一告警消息和第一告警消息的告警级别转换为约定格式的消息,将约定格式的消息进行上报,依据目标告警消息进行告警可以是,通过消息总线将目标告警消息传输至事件平台,事件平台展示目标告警消息或基于目标告警消息通知运维人员进行故障处理。
S110、依据聚合规则,对第一告警消息和表象故障事件进行聚合处理,得到第二告警消息和第二告警消息的告警级别。
若内存队列中存在与第一告警消息对应的表象故障事件,则依据聚合规则,对第一告警消息和表象故障事件进行聚合处理,可选的,可以是将第一告警消息和表象故障事件聚合成一个告警消息,得到第二告警消息和第二告警消息的告警级别,即实现对第一告警消息的告警级别进行更新,第二告警消息用于说明告警根源、导致的影响等。例如一台设备某端口发生物理down的故障事件,随后会接连引发各种协议down的相关故障事件,单根源是端口的物理down,可以根据聚合规则,将物理down作为根源故障事件,其他的故障事件作为表象故障事件,设定15秒为第二时长,在15秒后,将根源故障事件和其他表象故障事件聚合成一条告警消息,该告警消息用于说明根源,导致的影响等。
S111、依据第二告警消息和第二告警消息的告警级别进行告警。
若在经过预设的第二时长后,内存队列中存在与第一告警消息对应的表象故障事件,则依据第二告警消息和第二告警消息的告警级别进行告警,可选的,可以是将第二告警消息和第二告警消息的告警级别写入预设的告警消息协议中,得到目标告警消息,依据目标告警消息进行告警,即实现将第二告警消息和第二告警消息的告警级别转换为约定格式的消息,将约定格式的消息进行上报,依据目标告警消息进行告警可以是,通过消息总线将目标告警消息传输至事件平台,事件平台展示目标告警消息或基于目标告警消息通知运维人员进行故障处理。
需要说明的是,若不存在与故障事件的关键字相匹配的关联规则和聚合规则,则直接基于故障事件和故障事件的告警级别进行告警。
本发明实施例提供的故障事件处理方法,当监测到内存队列中存在故障事件时,解析故障事件,得到故障事件中包含的关键字,依据关键字,确定故障事件的告警级别,并判断是否存在与关键字相匹配的关联规则,若存在,则经过预设的第一时长后,判断内存队列中是否存在与故障事件对应的故障恢复事件,若内存队列中存在与故障事件对应的故障恢复事件,则依据关联规则,对故障事件和故障恢复事件进行关联处理,得到第一告警消息和该第一告警消息的告警级别,并当存在与第一告警消息中包含的关键字相匹配的聚合规则时,经过预设的第二时长后,若内存队列中存在与第一告警消息对应的表象故障事件,则依据聚合规则,对第一告警消息和表象故障事件进行聚合处理得到第二告警消息和该第二告警消息的告警级别,依据第二告警消息和第二告警消息的告警级别进行告警。应用本发明实施例提供故障事件处理方法,经过预设的第一时长后,判断内存队列中是否存在与故障事件对应的故障恢复事件,即对故障事件进行延时处理,以减少自愈网络故障的告警,从而减少运维人员的工作量,并基于关联规则对故障事件进行关联处理,即实现将一个根源故障事件和由该根源故障事件所导致的多个表象故障事件进行聚合处理,以减少其他告警干扰,压缩告警消息的数量,从而帮助运维人员快速定位告警根源,提高网络故障处理效率,并将复杂的规则设置抽象成简单的映射表设置,从而提高运维人员实时根据运维经验的需求实施规则变更的效率。
上述本发明实施例图1公开的各个步骤,流程图如图2所示,还可以包括以下步骤:
S201、采集系统日志和多个故障日志字段,依据预设的拼接规则,对各个故障日志字段进行拼接,得到故障日志。
在事件解析器对故障事件进行处理过程,可以实时采集系统日志和多个故障日志字段,其中,采集系统日志可以通过开源组件rsyslogd进行采集,可选的,本发明实施例提供的方法,可以使用两个rsyslogd组件进行采集,也可以通过一个rsyslogd组件进行采集,若使用两个rsyslogd组件进行采集,则将一个rsyslogd组件作为系统日志的守护进程syslog daemon,即实时采集系统日志,另一个rsyslogd组件可以是改造的rsyslogd,将经过改造的rsyslogd组件确定为Gppsyslogd组件,Gppsyslogd组件是在开源rsyslogd组件的基础上增加或改造了系统日志的守护进程syslog daemon,即Gppsyslogd组件用于将rsyslogd组件采集到的系统日志写入内存队列中,可选的,可以以root身份启动rsyslogd组件,即以管理员身份启动rsyslogd组件,可以以普通用户身份启动Gpprsyslogd组件。
采集故障日志字段可以通过Trapload组件进行采集,并依据预设的拼接规则,对各个故障日志字段进行拼接,得到故障日志,即实现对多个故障日志段进行格式化并序列化,得到故障日志。
S202、将故障日志和系统日志作为故障事件,并将故障事件写入内存队列中。
将故障日志和系统日志作为故障事件,并故障事件写入内存队列中,可选的,内存队列为存储器中的队列。
本发明实施例提供的故障事件处理方法中,在事件解析器对故障事件进行处理的过程中,实时采集系统日志和故障日志,并将所采集的系统日志和故障日志作为故障事件写入内存队列中,以实现对故障事件的及时处理,从而减小网络故障带来的损失。
与图1所述的方法相对应,本发明实施例还提供了一种故障事件处理装置,用于对图1中方法的具体实现,其结构示意图如图3所示,具体包括:
解析单元301,用于当监测到内存队列中存在故障事件时,解析所述故障事件,得到所述故障事件中包含的关键字;
第一判断单元302,用于依据所述关键字,确定所述故障事件的告警级别,并判断是否存在与所述关键字相匹配的关联规则;
关联单元303,用于若存在,则经过预设的第一时长后,判断所述内存队列中是否存在与所述故障事件对应的故障恢复事件,若所述内存队列中存在与所述故障事件对应的故障恢复事件,则依据所述关联规则,对所述故障事件和所述故障恢复事件进行关联处理,得到第一告警消息和所述第一告警消息的告警级别;
第二判断单元304,用于判断是否存在与所述第一告警消息中包含的关键字相匹配的聚合规则;
第一聚合单元305,用于若存在与所述第一告警消息中包含的关键字相匹配的聚合规则,则经过预设的第二时长后,若所述内存队列中存在与所述第一告警消息对应的表象故障事件,则依据所述聚合规则,对所述第一告警消息和所述表象故障事件进行聚合处理,得到第二告警消息和所述第二告警消息的告警级别;
第一告警单元306,依据所述第二告警消息和所述第二告警消息的告警级别进行告警。
本发明实施例提供的故障事件处理装置,当监测到内存队列中存在故障事件时,解析故障事件,得到故障事件中包含的关键字,依据关键字,确定故障事件的告警级别,并判断是否存在与关键字相匹配的关联规则,若存在,则经过预设的第一时长后,判断内存队列中是否存在与故障事件对应的故障恢复事件,若内存队列中存在与故障事件对应的故障恢复事件,则依据关联规则,对故障事件和故障恢复事件进行关联处理,得到第一告警消息和该第一告警消息的告警级别,并当存在与第一告警消息中包含的关键字相匹配的聚合规则时,经过预设的第二时长后,若内存队列中存在与第一告警消息对应的表象故障事件,则依据聚合规则,对第一告警消息和表象故障事件进行聚合处理得到第二告警消息和该第二告警消息的告警级别,依据第二告警消息和第二告警消息的告警级别进行告警。应用本发明实施例提供故障事件处理装置,经过预设的第一时长后,判断内存队列中是否存在与故障事件对应的故障恢复事件,即对故障事件进行延时处理,以减少自愈网络故障的告警,从而减少运维人员的工作量,并基于关联规则对故障事件进行关联处理,即实现将一个根源故障事件和由该根源故障事件所导致的多个表象故障事件进行聚合处理,以减少其他告警干扰,压缩告警消息的数量,从而帮助运维人员快速定位告警根源,提高网络故障处理效率。
在本发明的一个实施例中,基于前述方案,还可以配置为:
确定单元,用于若不存在与所述关键字相匹配的关联规则,则将所述故障事件作为第一告警消息,并将所述故障事件的告警级别作为所述第一告警消息的告警级别;
第三判断单元,用于判断是否存在与所述第一告警消息中包含的关键字相匹配的聚合规则;
第二聚合单元,用于若存在与所述第一告警消息中包含的关键字相匹配的聚合规则,则经过预设的第二时长后,若所述内存队列中存在与所述第一告警消息对应的表象故障事件,则依据所述聚合规则,对所述第一告警消息和所述表象故障事件进行聚合处理,得到第二告警消息和所述第二告警消息的告警级别;
第二告警单元,用于依据所述第二告警消息和所述第二告警消息的告警级别进行告警。
在本发明的一个实施例中,基于前述方案,还可以配置为:
第三告警单元,用于若不存在与所述第一告警消息中包含的关键字相匹配的聚合规则,则依据所述第一告警消息和所述第一告警消息的告警级别进行告警。
在本发明的一个实施例中,基于前述方案,还可以配置为:
采集单元,用于采集系统日志和多个故障日志字段,依据预设的拼接规则,对各个所述故障日志字段进行拼接,得到故障日志;
写入单元,用于将所述故障日志和所述系统日志作为故障事件,并将所述故障事件写入所述内存队列中。
本发明实施例在上述故障事件处理方法及装置的基础上,还提供了一种故障事件处理装置,其结构示意图如图4所示,所述故障事件处理系统具体包括:
采集器401、存储器402、事件解析器403、消息总线404和事件平台405。
采集器401,用于采集系统日志和故障日志,并系统日志和故障日志作为故障事件发送至存储器402。
存储器402,用于将故障事件写入内存队列中。
事件解析器403,用于检测内存队列中是否存在故障事件,若存在,则解析故障事件,得到故障事件中包含的关键字,并依据关键字,确定故障事件的告警级别,判断是否存在与关键字相匹配的关联规则,若存在与关键字相匹配的关联规则,则经过预设的第一时长后,判断内存队列中是否存在与故障事件对应的故障恢复事件,若内存队列中存在与故障事件对应的故障恢复事件,则依据关联规则,对故障事件和故障恢复事件进行关联处理,得到第一告警消息和第一告警消息的告警级别,当存在与第一告警消息中包含的关键字相匹配的聚合规则时,经过预设的第二时长后,若内存队列中存在与第一告警消息对应的表象故障事件,则依据聚合规则,对第一告警消息和表象故障事件进行聚合处理,得到第二告警消息和第二告警消息的告警级别,将第二告警消息和第二告警消息的告警级别通过消息总线404发送至事件平台405。
事件平台405,用于依据第二告警消息和第二告警消息的告警级别进行告警。
可选的,消息总线作为消息中间件,用于传输前后台配置同步消息,即实现将告警消息传输至事件平台,以及将配置信息,各个映射表传输至事件解析器。
需要说明的是,本发明实施例所提供的事件解析器可以用于实现上述提及的故障事件处理方法。
参考图5,本发明实施例提供的采集器具体可以包括:
第一采集模块4011、第一传输模块4012和第二采集模块4013。
第一采集模块4011,用于采集系统日志,并将系统日志发送至第一传输模块4012;
第一传输模块4012,用于将系统日志作为故障事件,并将故障事件传输至存储器402;
第二采集模块4013,用于采集多个故障日志字段,并依据预设的拼接规则,对各个故障日志字段进行拼接,得到故障日志,将故障日志作为故障事件,并将故障事件传输至存储器402。
可选的,第一采集模块可以是rsyslogd组件,用于采集系统日志,第一传输模块可以是Gppsyslogd组件,用于将系统日志传输至存储器,第二采集模块可以是Trapload组件,用于采集故障日志,并将故障日志传输至存储器。
本发明实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述故障事件处理方法。
本发明实施例还提供了一种电子设备,其结构示意图如图6所示,具体包括存储器601,以及一个或者一个以上的指令602,其中一个或者一个以上指令602存储于存储器601中,且经配置以由一个或者一个以上处理器603执行所述一个或者一个以上指令602进行以下操作:
当监测到内存队列中存在故障事件时,解析所述故障事件,得到所述故障事件中包含的关键字;
依据所述关键字,确定所述故障事件的告警级别,并判断是否存在与所述关键字相匹配的关联规则;
若存在,则经过预设的第一时长后,判断所述内存队列中是否存在与所述故障事件对应的故障恢复事件,若所述内存队列中存在与所述故障事件对应的故障恢复事件,则依据所述关联规则,对所述故障事件和所述故障恢复事件进行关联处理,得到第一告警消息和所述第一告警消息的告警级别;
判断是否存在与所述第一告警消息中包含的关键字相匹配的聚合规则;
若存在与所述第一告警消息中包含的关键字相匹配的聚合规则,则经过预设的第二时长后,若所述内存队列中存在与所述第一告警消息对应的表象故障事件,则依据所述聚合规则,对所述第一告警消息和所述表象故障事件进行聚合处理,得到第二告警消息和所述第二告警消息的告警级别;
依据所述第二告警消息和所述第二告警消息的告警级别进行告警。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明所提供的一种故障事件处理方法、装置及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种故障事件处理方法,其特征在于,包括:
当监测到内存队列中存在故障事件时,解析所述故障事件,得到所述故障事件中包含的关键字;
依据所述关键字,确定所述故障事件的告警级别,并判断是否存在与所述关键字相匹配的关联规则;
若存在,则经过预设的第一时长后,判断所述内存队列中是否存在与所述故障事件对应的故障恢复事件,若所述内存队列中存在与所述故障事件对应的故障恢复事件,则依据所述关联规则,对所述故障事件和所述故障恢复事件进行关联处理,得到第一告警消息和所述第一告警消息的告警级别;
判断是否存在与所述第一告警消息中包含的关键字相匹配的聚合规则;
若存在与所述第一告警消息中包含的关键字相匹配的聚合规则,则经过预设的第二时长后,若所述内存队列中存在与所述第一告警消息对应的表象故障事件,则依据所述聚合规则,对所述第一告警消息和所述表象故障事件进行聚合处理,得到第二告警消息和所述第二告警消息的告警级别;
依据所述第二告警消息和所述第二告警消息的告警级别进行告警;
所述依据关联规则,对故障事件和故障恢复事件进行关联处理,获得第一告警消息和第一告警消息的告警级别,具体可以包括以下步骤:
确定关联规则中包含的告警消息模板,并确定告警消息模板中包含的各个数据项;
从故障事件和故障恢复事件中提取与每个数据项对应的信息;
并所提取的每个数据项对应的信息对应写入告警消息模板中,得到第一告警消息,并将关联规则中包含的预设告警级别确定第一告警消息的告警级别;
或,
确定关联规则中包含的数据提取规则;
依据该数据提取规则,从故障事件和故障恢复事件中提取多个数据项;
依据关联规则中包含的数据项拼接规则,对多个数据项进行拼接,得到第一告警消息,并将关联规则中包含的预设告警级别确定第一告警消息的告警级别。
2.根据权利要求1所述的方法,其特征在于,还包括:
若不存在与所述关键字相匹配的关联规则,则将所述故障事件作为第一告警消息,并将所述故障事件的告警级别作为所述第一告警消息的告警级别;
判断是否存在与所述第一告警消息中包含的关键字相匹配的聚合规则;
若存在与所述第一告警消息中包含的关键字相匹配的聚合规则,则经过预设的第二时长后,若所述内存队列中存在与所述第一告警消息对应的表象故障事件,则依据所述聚合规则,对所述第一告警消息和所述表象故障事件进行聚合处理,得到第二告警消息和所述第二告警消息的告警级别;
依据所述第二告警消息和所述第二告警消息的告警级别进行告警。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
若不存在与所述第一告警消息中包含的关键字相匹配的聚合规则,则依据所述第一告警消息和所述第一告警消息的告警级别进行告警。
4.根据权利要求1所述的方法,其特征在于,还包括:
采集系统日志和多个故障日志字段,依据预设的拼接规则,对各个所述故障日志字段进行拼接,得到故障日志;
将所述故障日志和所述系统日志作为故障事件,并将所述故障事件写入所述内存队列中。
5.一种故障事件处理装置,其特征在于,包括:
解析单元,用于当监测到内存队列中存在故障事件时,解析所述故障事件,得到所述故障事件中包含的关键字;
第一判断单元,用于依据所述关键字,确定所述故障事件的告警级别,并判断是否存在与所述关键字相匹配的关联规则;
关联单元,用于若存在,则经过预设的第一时长后,判断所述内存队列中是否存在与所述故障事件对应的故障恢复事件,若所述内存队列中存在与所述故障事件对应的故障恢复事件,则依据所述关联规则,对所述故障事件和所述故障恢复事件进行关联处理,得到第一告警消息和所述第一告警消息的告警级别;
第二判断单元,用于判断是否存在与所述第一告警消息中包含的关键字相匹配的聚合规则;
第一聚合单元,用于若存在与所述第一告警消息中包含的关键字相匹配的聚合规则,则经过预设的第二时长后,若所述内存队列中存在与所述第一告警消息对应的表象故障事件,则依据所述聚合规则,对所述第一告警消息和所述表象故障事件进行聚合处理,得到第二告警消息和所述第二告警消息的告警级别;
第一告警单元,依据所述第二告警消息和所述第二告警消息的告警级别进行告警;
所述关联单元,具体用于:
确定关联规则中包含的告警消息模板,并确定告警消息模板中包含的各个数据项;
从故障事件和故障恢复事件中提取与每个数据项对应的信息;
并所提取的每个数据项对应的信息对应写入告警消息模板中,得到第一告警消息,并将关联规则中包含的预设告警级别确定第一告警消息的告警级别;
确定关联规则中包含的数据提取规则;
依据该数据提取规则,从故障事件和故障恢复事件中提取多个数据项;
依据关联规则中包含的数据项拼接规则,对多个数据项进行拼接,得到第一告警消息,并将关联规则中包含的预设告警级别确定第一告警消息的告警级别。
6.根据权利要求5所述的装置,其特征在于,还包括:
确定单元,用于若不存在与所述关键字相匹配的关联规则,则将所述故障事件作为第一告警消息,并将所述故障事件的告警级别作为所述第一告警消息的告警级别;
第三判断单元,用于判断是否存在与所述第一告警消息中包含的关键字相匹配的聚合规则;
第二聚合单元,用于若存在与所述第一告警消息中包含的关键字相匹配的聚合规则,则经过预设的第二时长后,若所述内存队列中存在与所述第一告警消息对应的表象故障事件,则依据所述聚合规则,对所述第一告警消息和所述表象故障事件进行聚合处理,得到第二告警消息和所述第二告警消息的告警级别;
第二告警单元,用于依据所述第二告警消息和所述第二告警消息的告警级别进行告警。
7.根据权利要求5或6所述的装置,其特征在于,还包括:
第三告警单元,用于若不存在与所述第一告警消息中包含的关键字相匹配的聚合规则,则依据所述第一告警消息和所述第一告警消息的告警级别进行告警。
8.根据权利要求5所述的装置,其特征在于,还包括:
采集单元,用于采集系统日志和多个故障日志字段,依据预设的拼接规则,对各个所述故障日志字段进行拼接,得到故障日志;
写入单元,用于将所述故障日志和所述系统日志作为故障事件,并将所述故障事件写入所述内存队列中。
9.一种故障事件处理系统,其特征在于,包括:
采集器、存储器、事件解析器、消息总线和事件平台;
所述采集器,用于采集系统日志和故障日志,并所述系统日志和所述故障日志作为故障事件发送至所述存储器;
所述存储器,用于将所述故障事件写入内存队列中;
所述事件解析器,用于检测内存队列中是否存在故障事件,若存在,则解析所述故障事件,得到所述故障事件中包含的关键字,并依据所述关键字,确定所述故障事件的告警级别,判断是否存在与所述关键字相匹配的关联规则,若存在与所述关键字相匹配的关联规则,则经过预设的第一时长后,判断所述内存队列中是否存在与所述故障事件对应的故障恢复事件,若所述内存队列中存在与所述故障事件对应的故障恢复事件,则依据所述关联规则,对所述故障事件和所述故障恢复事件进行关联处理,得到第一告警消息和所述第一告警消息的告警级别,当存在与所述第一告警消息中包含的关键字相匹配的聚合规则时,经过预设的第二时长后,若所述内存队列中存在与所述第一告警消息对应的表象故障事件,则依据所述聚合规则,对所述第一告警消息和所述表象故障事件进行聚合处理,得到第二告警消息和所述第二告警消息的告警级别,将所述第二告警消息和所述第二告警消息的告警级别通过所述消息总线发送至所述事件平台;
所述事件平台,用于依据所述第二告警消息和所述第二告警消息的告警级别进行告警;
所述事件解析器,具体用于:确定关联规则中包含的告警消息模板,并确定告警消息模板中包含的各个数据项;
从故障事件和故障恢复事件中提取与每个数据项对应的信息;
并所提取的每个数据项对应的信息对应写入告警消息模板中,得到第一告警消息,并将关联规则中包含的预设告警级别确定第一告警消息的告警级别;
确定关联规则中包含的数据提取规则;
依据该数据提取规则,从故障事件和故障恢复事件中提取多个数据项;
依据关联规则中包含的数据项拼接规则,对多个数据项进行拼接,得到第一告警消息,并将关联规则中包含的预设告警级别确定第一告警消息的告警级别。
10.根据权利要求9所述的系统,其特征在于,所述采集器,包括:
第一采集模块、第一传输模块和第二采集模块;
所述第一采集模块,用于采集系统日志,并将所述系统日志发送至所述第一传输模块;
所述第一传输模块,用于将所述系统日志作为故障事件,并将所述故障事件传输至所述存储器;
所述第二采集模块,用于采集多个故障日志字段,并依据预设的拼接规则,对各个所述故障日志字段进行拼接,得到故障日志,将所述故障日志作为故障事件,并将所述故障事件传输至所述存储器。
CN201911416039.0A 2019-12-31 2019-12-31 故障事件处理方法、装置及系统 Active CN111162950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911416039.0A CN111162950B (zh) 2019-12-31 2019-12-31 故障事件处理方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911416039.0A CN111162950B (zh) 2019-12-31 2019-12-31 故障事件处理方法、装置及系统

Publications (2)

Publication Number Publication Date
CN111162950A CN111162950A (zh) 2020-05-15
CN111162950B true CN111162950B (zh) 2022-09-20

Family

ID=70560183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911416039.0A Active CN111162950B (zh) 2019-12-31 2019-12-31 故障事件处理方法、装置及系统

Country Status (1)

Country Link
CN (1) CN111162950B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111786833A (zh) * 2020-07-01 2020-10-16 浪潮云信息技术股份公司 一种基于云服务平台的告警匹配处理的实现方法
CN111881153A (zh) * 2020-07-24 2020-11-03 北京金山云网络技术有限公司 数据处理方法、装置、电子设备和机器可读存储介质
CN112636962A (zh) * 2020-12-15 2021-04-09 广东华兴银行股份有限公司 一种提高网络监控效率的方法、设备及介质
CN113139658A (zh) * 2021-04-23 2021-07-20 上海中通吉网络技术有限公司 基于变更和告警事件流处理故障的管道理论方法
CN113434366A (zh) * 2021-06-28 2021-09-24 中国建设银行股份有限公司 一种事件处理方法和系统
CN113949590B (zh) * 2021-12-21 2022-07-01 济南市康养事业发展中心 一种安全告警事件等级确定方法、系统及终端

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103684828A (zh) * 2012-09-18 2014-03-26 亿阳信通股份有限公司 一种电信设备故障的处理方法和装置
CN105740121A (zh) * 2016-01-26 2016-07-06 中国银行股份有限公司 一种日志文本监控与预警方法、装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101562826B (zh) * 2008-04-15 2012-04-18 中兴通讯股份有限公司 一种告警归并的方法
CN101425924B (zh) * 2008-06-12 2011-08-17 广东高新兴通信股份有限公司 一种对集中监控系统的告警数据的处理方法
US7904753B2 (en) * 2009-01-06 2011-03-08 International Business Machines Corporation Method and system to eliminate disruptions in enterprises
CN105553750A (zh) * 2016-02-29 2016-05-04 北京英诺威尔科技股份有限公司 一种可配置的告警前转处理方法
CN108712294A (zh) * 2018-06-05 2018-10-26 陈艳 一种基于Syslog知识库实现网络设备监控告警的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103684828A (zh) * 2012-09-18 2014-03-26 亿阳信通股份有限公司 一种电信设备故障的处理方法和装置
CN105740121A (zh) * 2016-01-26 2016-07-06 中国银行股份有限公司 一种日志文本监控与预警方法、装置

Also Published As

Publication number Publication date
CN111162950A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN111162950B (zh) 故障事件处理方法、装置及系统
CN110740141A (zh) 一体化网络安全态势感知方法、装置及计算机设备
CN113342564B (zh) 日志审计方法、装置、电子设备和介质
US10200506B2 (en) Method, system and device for monitoring data
CN111866016B (zh) 日志的分析方法及系统
US20170364561A1 (en) Telemetry data contextualized across datasets
US20200021511A1 (en) Performance analysis for transport networks using frequent log sequence discovery
CN110716842B (zh) 集群故障检测方法和装置
US20180357214A1 (en) Log analysis system, log analysis method, and storage medium
CN107124289B (zh) 网络日志时间对齐方法、装置及主机
CN112306700A (zh) 一种异常rpc请求的诊断方法和装置
CN112350854B (zh) 一种流量故障定位方法、装置、设备及存储介质
CN106941493A (zh) 一种网络安全态势感知结果输出方法及装置
CN107168844B (zh) 一种性能监控的方法及装置
CN112306802A (zh) 系统的数据获取方法、装置、介质和电子设备
US11681606B2 (en) Automatic configuration of logging infrastructure for software deployments using source code
CN114465741B (zh) 一种异常检测方法、装置、计算机设备及存储介质
CN114528457A (zh) Web指纹检测方法及相关设备
CN110879771A (zh) 一种基于关键词序列挖掘的用户异常检测的日志分析系统
WO2023273529A1 (zh) 业务日志监控方法、装置、存储介质及电子设备
CN112256470B (zh) 故障服务器定位方法及装置、存储介质及电子设备
CN110830416A (zh) 网络入侵检测方法和装置
CN113032341A (zh) 一种基于可视化配置的日志处理方法
CN115883328A (zh) 大数据集群故障分析方法、装置、设备、介质及产品
CN116192607A (zh) 故障告警方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant