CN114095339A - 一种报警处理方法、装置、设备以及存储介质 - Google Patents

一种报警处理方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN114095339A
CN114095339A CN202111275081.2A CN202111275081A CN114095339A CN 114095339 A CN114095339 A CN 114095339A CN 202111275081 A CN202111275081 A CN 202111275081A CN 114095339 A CN114095339 A CN 114095339A
Authority
CN
China
Prior art keywords
alarm
grade
alarm information
notification
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111275081.2A
Other languages
English (en)
Other versions
CN114095339B (zh
Inventor
樊迪
王冰清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111275081.2A priority Critical patent/CN114095339B/zh
Publication of CN114095339A publication Critical patent/CN114095339A/zh
Application granted granted Critical
Publication of CN114095339B publication Critical patent/CN114095339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/18Status alarms
    • G08B21/182Level alarms, e.g. alarms responsive to variables exceeding a threshold
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Emergency Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Alarm Systems (AREA)

Abstract

本公开提供了一种报警处理方法、装置、设备和存储介质,涉及互联网领域,尤其涉及互联网故障监测领域。具体实现方案为:接收报警信息;根据预设的报警等级划分策略,确定报警信息对应的报警等级;根据报警信息对应的报警等级,确定报警信息对应的报警通知方式和故障处理方式;根据确定的报警通知方式执行相应的报警通知,并根据确定的故障处理方式执行相应的故障处理。

Description

一种报警处理方法、装置、设备以及存储介质
技术领域
本公开涉及互联网技术领域,尤其涉及互联网故障监测领域的一种报警处理方法、装置、设备以及存储介质。
背景技术
内容分发网络(CDN,Content Delivery Network)是构建并覆盖在现有承载网之上,由分布在不同区域的边缘节点服务器组成的分布式网络。通过DNS解析,使用户可就近访问所需资源,提高响应速度和命中率;为达到此目的,CDN厂商需要在全国乃至世界各地建立边缘节点服务器机房用于进行内容的缓存,各机房通过数百台服务器部署相关服务来承接用户流量。随着用户数量的飞速增长,CDN服务器的数量与各服务器部署的应用数量不断增加,如何保证服务可用性成为关键。面对日常故障的报警和处理,在CDN内部需要有一套完善的报警通知及处理机制,以保证故障时有准确的通知、有高效的故障处理机制,避免存在由于报警遗漏导致故障程度放大,造成服务受损。
发明内容
本公开提供了一种用于对网络故障报警做到准确高效处理的报警处理方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种报警处理方法,包括:
接收报警信息;
根据预设的报警等级划分策略,确定所述报警信息对应的报警等级;
根据所述报警信息对应的报警等级,确定所述报警信息对应的报警通知方式和故障处理方式;
根据确定的所述报警通知方式执行相应的报警通知,并根据确定的所述故障处理方式执行相应的故障处理。
根据本公开的另一方面,提供了一种报警处理装置,包括:
接收单元,用于接收报警信息;
划分单元,用于根据预设的报警等级划分策略,确定所述报警信息对应的报警等级;
确定单元,用于根据所述报警信息对应的报警等级,确定所述报警信息对应的报警通知方式和故障处理方式;
执行单元,用于根据确定的所述报警通知方式执行相应的报警通知,并根据确定的所述故障处理方式执行相应的故障处理。
根据本公开的又一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开所述的方法。
根据本公开的再一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开所述的方法。
根据本公开的还一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开所述的方法。
本公开的一种报警处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品,提供了一种完善的报警通知及处理机制,以保证故障时有准确的通知、有高效的故障处理机制,避免存在由于报警遗漏导致故障程度放大,造成服务受损。并且,本公开提供报警等级划分机制,对不同的报警等级采用不同的报警通知逻辑,能够提供报警通知的准确性和合理性,保证不同等级的报警信息准确高效的通知到对应级别的用户。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的报警处理方法的流程示意图;
图2是根据本公开第二实施例的报警等级划分方法的流程示意图;
图3是根据本公开第三实施例的CDN报警等级划分示意图;
图4是根据本公开第四实施例的CDN报警通知流程示意图;
图5是根据本公开第八实施例的报警处理装置的组成结构示意图;
图6是根据本公开第九实施例的报警处理系统的组成结构示意图;
图7是用来实现本公开实施例的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
为提出一种完善的报警通知及处理机制,以保证故障时有准确的通知、有高效的故障处理机制,提出本公开的报警处理方法,下面结合具体实施例进行详细阐述。本公开的报警处理方法可适用于CDN网络,但也不仅限于CDN网络,对于其他类型的组网架构同样也适用。
图1为本公开第一实施例的报警处理方法的流程示意图,该方法主要包括:
步骤101,接收报警信息。
报警信息是由网络的监控系统或平台根据报警源数据,并结合报警策略产生的。
步骤102,根据预设的报警等级划分策略,确定报警信息对应的报警等级。
报警等级划分策略是预先设置的,其并非一张记录报警信息和对应等级的映射表,而是包含了报警等级的复杂计算规则。本公开后续将有实施例详细介绍报警等级划分策略。
步骤103,根据报警信息对应的报警等级,确定报警信息对应的报警通知方式和故障处理方式。
本公开的实施例针对不同的报警等级,对报警信息设置了不同的报警通知方式和故障处理方式;在对报警信息划分报警等级后,需要根据确定的报警等级进一步确定该报警信息相对应的报警通知方式和故障处理方式。
步骤104,根据确定的报警通知方式执行相应的报警通知,并根据确定的故障处理方式执行相应的故障处理。
确定的报警通知方式规定了该报警信息应以何种逻辑和途径来通知到用户,确定的故障处理方式规定了该报警信息应以何种方式逻辑来被处理。此报警通知方式和故障处理方式的确定都是与报警信息的等级划分相关的,报警信息所处的报警等级决定了需要采用何种报警通知方式和故障处理方式。
由此,本公开实施例一的报警处理方法,提供了一种完善的报警通知及处理机制,以保证故障时有准确的通知(根据报警等级确定的报警通知方式)、有高效的故障处理机制(根据报警等级确定的故障处理方式);并且,提供报警等级划分机制,对不同的报警等级采用不同的报警通知逻辑,能够提供报警通知的准确性和合理性,保证不同等级的报警信息准确高效的通知到对应级别的用户。
图2为本公开第二实施例的报警等级划分方法的流程示意图,该方法主要包括:
步骤201,确定报警信息所属类别。
在获得报警信息后,先确定该报警信息所述的类别,本公开针对不同类别的报警信息设置有不同的等级分析策略,这也就意味着,针对不同的报警信息,需要用其所属类别对应的等级分析策略来进行报警等级的划分。
报警信息的类别有多种划分方式,本公开的实施例不做报警信息类别的划分方式限制,一种可实施的报警信息类别包括:网络报警、机器报警、业务报警、服务报警等。
步骤202,调用所属类别对应的等级分析策略对报警信息进行等级分析,获得第一分析结果。
在确定报警信息所属类别后,调用其所属类别对应的等级分析策略对报警信息进行等级分析,获得的第一分析结果作为报警信息的初始报警等级。
步骤203,根据报警信息对应的历史等级比例和历史等级准确率对第一分析结果进行修正,获得第二分析结果,并确定第二分析结果为报警信息对应的报警等级。
本公开的报警等级划分并非一种静态配置报警等级的过程,而是基于算法动态计算学习报警等级的过程,因此,在步骤202获得报警信息的初始报警等级后,还会根据该报警信息对应的历史等级比例和历史等级准确率来对初始报警等级进行动态修正,从而将修正后的第二分析结果作为最终确定的报警等级。此种报警等级的动态计算学习划分方式,充分结合了该报警信息的历史参考信息,能够提高报警等级划分的准确率。
其中,根据报警信息对应的历史等级比例和历史等级准确率对第一分析结果进行修正,包括:
根据报警信息对应的第一分析结果,获取历史相同的报警信息被分析为第一分析结果的历史等级比例、以及历史相同的报警信息被分析为第一分析结果的历史等级准确率;
根据历史等级比例和历史等级准确率计算第一分析结果的修正概率;
确定修正概率大于第一设定阈值的第一分析结果需要进行修正,确定修正概率小于等于第一设定阈值的第一分析结果不需要进行修正。
一种可实施的修正概率计算方式为:修正概率=历史等级比例*历史等级准确率*修正因子;其中,历史等级比例是指历史相同的报警信息被初始分析为第一分析结果的历史比例,历史等级准确率是指历史相同的报警信息被初始分析为第一分析结果的历史等级准确率,也即第一分析结果被作为最终分析结果的被统计为正确、第二分析结果未被作为最终分析结果的被统计为错误;修正因子为人为设定的用于计算修正概率的调整因子,该修正因子为预设的经验值。
通过修正概率的计算,如果计算的修正概率大于第一设定阈值,则需要对第一分析结果进行修正;如果修正概率小于第一设定阈值,则无需对第一分析结果进行修正,将第一分析结果作为最终的分析结果。
在确定需要对第一分析结果进行修正时,一种可实施的修正方式为:
获取历史相同的报警信息被分析为其他分析结果所对应的历史等级比例、以及历史相同的报警信息被分析为其他分析结果所对应的历史等级准确率;
根据其他分析结果所对应的历史等级比例和历史等级准确率计算对应其他分析结果的修正概率:历史等级比例*历史等级准确率*修正因子;
其他分析结果对应的修正概率中选择取值大于第二设定阈值的分析结果中的最高报警等级,作为第二分析结果。
下面以CDN为例,结合图3所示的CDN报警等级划分示意图,来介绍一种报警等级划分的实施例。如图3所示,本公开实施例三的CDN中将报警信息划分为四大类:网络报警、机器报警、业务报警和服务报警。针对不同类别的报警信息设置有不同的等级分析策略,如:
针对网络报警,会根据报警信息对应的故障范围、故障程度、异常报警数量来分析和确定其对应的报警等级;
针对机器报警,会根据报警信息对应的异常程度、异常报警数量和机器重要性来分析和确定其对应的报警等级;
针对业务报警,会根据报警信息对应的指标异常程度、业务重要性、业务报障和业务影响范围来分析和确定其对应的报警等级;
针对服务报警,会根据服务重要性和服务异常程度来分析和确定其对应的报警等级。
基于上述等级分析策略确定的报警等级作为报警信息的初始报警等级,然后,根据报警信息对应的历史等级比例和历史等级准确率对该初始报警等级进行修正,将修正的结果作为该报警信息最终的报警等级。图3所示的实施例将报警等级划分为A、B、C三类,A类报警等级最高,表示报警最严重,B类报警等级低于A类但高于C类,B类报警的严重性低于A类但高于C类。假设某条报警信息对应的第一分析结果为A类报警,那么根据历史相同的该条报警信息被初始分析为A类报警的历史比例、以及历史相同的该条报警信息被初始分析为A类报警的历史等级准确率,计算该条报警信息作为A类报警的修正概率;若计算所得修正概率大于0.5,则确定需要对该初始分析结果进行修正。从而,计算该条报警信息作为B类报警和C类报警的修正概率,该条报警信息作为B类报警的修正概率=该条报警信息作为B类报警的历史等级比例*该条报警信息作为B类报警的历史等级准确率*修正因子;该条报警信息作为C类报警的修正概率=该条报警信息作为C类报警的历史等级比例*该条报警信息作为C类报警的历史等级准确率*修正因子。若最终计算该条报警信息作为B类报警的修正概率取值最大,则将该条报警信息对应的分析结果修正为B类报警。
在本公开实施例四中,根据报警信息对应的报警等级,确定报警信息对应的报警通知方式,包括:
在报警信息对应的报警等级是第一类报警信息时,确定第一类报警信息对应的报警通知方式为第一报警通知方式;
在报警信息对应的报警等级是非第一类报警信息时,确定非第一类报警信息对应的报警通知方式为第二报警通知方式;
第一类报警信息的报警等级最高,第一报警通知方式的时效性高于第二报警通知方式。
以CDN报警为例,在确定报警信息对应的报警等级为A类报警时,确定其对应的报警通知方式为第一报警通知方式;在确定报警信息对应的报警等级为非A类报警时,确定其对应的报警通知方式为第二报警通知方式。第一报警通知方式的时效性要求高于第二报警通知方式,因为A类报警的严重程度最高,所以要求针对A类报警要采用时效性要求更高的报警通知方式通知到相应用户,以保证A类报警通知能够更及时高效的被通知到用户。
具体的报警通知方式根据报警等级提前配置,由用户、用户组、电话、邮件、短信、顺序、并行、多次等多种形式进行通知。
在一实施例中,步骤104中根据确定的报警通知方式执行相应的报警通知,包括:
在确定的报警通知方式为第一报警通知方式时,通过第一通知路径和第二通知路径分别发送报警通知消息至第一级用户;
监测报警通知对应的报警状态,在发送报警通知消息至第一级用户后达到第一预设时长,且报警状态仍为未处理或未恢复时,再次通过第二通知路径重发报警通知消息至第一级用户;
在重发的次数达到预设阈值时,通过第三通知路径发送报警通知消息至第二级用户,第三通知路径与第二通知路径相同或不同;
在发送报警通知消息至第二级用户后达到第二预设时长,且报警状态仍为未处理或未恢复时,再次通过第三通知路径重发报警通知消息至第二级用户。其中,第二级用户级别比第一级用户级别要高,如:第二级用户可以是紧急通知链上的用户,第一级用户可以是值班用户。第二通知路径相比第一通知路径,时效性更高;第三通知路径相比第二通知路径,时效性更高或相同。
设置以上通知方式的目的是,希望提供一种完善的报警通知机制,保证报警通知能够准确及时的通知到相应等级的用户。
下面再结合CDN实例,介绍一种报警通知流程,如图4所示,一种适用于CDN场景的报警通知流程包括:
在有新报警信息产生时,开始报警通知;
发送报警通知消息至报警处理平台,并通过email和/或即时通信的途径发送通知消息至当前值班用户;其中,email和/或即时通信即作为第一通知路径,即时通信如微信、如流、QQ、钉钉等等,当前值班用户即作为第一级用户;
判断报警信息的分类是否为A类报警;
如果不是A类报警,则报警通知链完成;也就是说,对于B类和C类报警,由于其严重性一般,因此仅发送报警通知消息至报警处理平台,同时通过email和/或即时通信通知值班用户即可;
如果是A类报警,则第一次电话通知值班用户;也就是说,针对A类报警,不仅发送报警通知消息至报警处理平台,通过email和/或即时通信通知值班用户,还要电话通知值班用户,以确保此类严重性报警多种途径被值班用户所接收;
监测此报警状态,判断在电话通知值班用户达到第一预设时长时,报警状态是否变更为已处理或已恢复,以确认报警是否恢复或已人为干预;
若是,则报警通知链完成;若否,则第二次电话通知值班用户;
在第二次电话通知值班用户后,继续监测此报警状态,判断在第二次电话通知值班用户达到第一预设时长时,报警状态是否变更为已处理或已恢复;若是,则报警通知链完成;若否,则第三次电话通知值班用户;
在第三次电话通知值班用户后,继续监测此报警状态,判断在第三次电话通知值班用户达到第一预设时长时,报警状态是否变更为已处理或已恢复;若是,则报警通知链完成;若否,则证明此报警依旧故障中并且无人工干预则开启电话通知紧急通知链,即依次通知紧急通知链上的第二级用户,该第二级用户(如经理)可以是一个或多个,若是多个,则按顺序依次通知,直到报警状态变更为已处理或已恢复。
上述实例中设置3次电话通知值班用户后报警状态仍未变更为已处理或已恢复时,启动紧急通知链通知第二级用户。当然,实际应用中不仅限于3次,可以灵活设置。其中,已恢复是用来表示报警是否已经恢复的状态,已处理是用来表征报警是否已被处理的操作状态。也就是说,对应每条报警信息有两个关键状态,操作状态和监测状态,操作状态包含未处理/正在处理/已处理,是人工介入修改的,比如当一个报警处理时将此状态修改为正在处理,当处理完成后将此状态修改为已处理,可达到检测是否人工介入的目的;监测状态包含未恢复/已恢复,是监控系统内部逻辑修改,当报警恢复时将此状态修改为已恢复,达到通知恢复功能,故一条新报警信息刚产生时,此两个状态为未处理和未恢复。
作为上述方案的进一步优化,对于B类报警,在通过email和/或即时通信等第一通知路径通知值班用户后,由于没有电话通知值班用户,故可能存在遗漏处理;因此,在通过第一通知路径通知值班用户达到第二预设时长时,判断报警状态是否变更为已处理或已恢复;若是,则此B类报警通知链完成;若否,则可通过第一通知路径通知给第二级用户。
对于C类报警,在通过email和/或即时通信等第一通知路径通知值班用户后,由于没有电话通知值班用户,故可能存在遗漏处理;因此,在通过第一通知路径通知值班用户达到第三预设时长时,判断报警状态是否变更为已处理或已恢复;若是,则此C类报警通知链完成;若否,则可通过第一通知路径通知给第二级用户。由于C类报警的严重性低于B类报警,因此,第三预设时长可以设置的比第二预设时长要长。
在本公开实施例五中,步骤103中的根据报警信息对应的报警等级,确定报警信息对应的故障处理方式,包括:
根据报警信息对应的故障历史处理方式,确定与报警信息对应的报警等级所匹配的故障处理方式。
根据报警信息对应的报警等级,可以根据预设的报警处理逻辑,参照此报警信息对应的故障历史处理方式进行本次故障处理方式的推荐,推荐与报警信息对应的报警等级所匹配的故障处理方式。
步骤104中根据确定的故障处理方式执行相应的故障处理,包括:
根据确定的故障处理方式,确定相应故障是否适合执行自愈处理;所谓自愈处理是指报警处理平台根据推荐的故障处理方式自动的完成故障的修复工作,无人工干预;
在确定相应故障适合于执行自愈处理时,执行系统自愈的故障处理方式;
在执行系统自愈的故障处理方式失败时,转入人工干预处理方式。如此,自动化程度高,优先采用自愈处理方式执行故障修复,能节省人工成本。
一种确定相应故障是否适合执行自愈处理的实施方式可以为:首先由报警等级做初步筛选,报警等级高于或等于设定等级的相应故障不执行自愈处理;对于报警等级低于设定等级的相应故障,则按照相应故障的历史的自愈处理方式、及对应的处理成功率,来确定是否适合执行自愈处理,以及执行何种自愈处理方式。
另外,在本公开实施例六中,报警等级支持动态升级,系统会监测非第一类报警信息所对应故障的发展程度,在确定故障的发展程度满足报警升级条件时,对非第一类报警信息执行报警等级升级处理,并根据执行报警等级升级处理后的报警信息对应的报警等级,调整相应的报警通知方式和故障处理方式。
例如,在CDN实例中,B类或C类报警在故障程度变大的情况下,可能会升级为A类报警。当产生一个B类或C类报警后,系统的升级分析模块会继续主动监听故障池中的报警、故障工单系统、以及监听其他辅助数据流,并结合此报警的历史升级概率及准确率判断该报警是否应该进行故障等级升级,从而根据判断结果决定是否执行B类或C类报警的报警升级操作。其中,B类报警可升级到A类报警,C类报警可升级到B类报警并进一步再升级到A类报警。
在本公开实施例七中,提供报警的收敛,当某些报警信息为一个故障引起时,通过算法收敛报警向用户展示故障根因及推荐的故障处理方式。另外,对需要人工知晓的报警信息进行策略合并和展示,也可人工修改报警状态达到已有人工干预的通知效果。
图5为本公开第八实施例的报警处理装置的组成结构示意图,该装置主要包括:
接收单元10,用于接收报警信息;
划分单元20,用于根据预设的报警等级划分策略,确定报警信息对应的报警等级;
确定单元30,用于根据报警信息对应的报警等级,确定报警信息对应的报警通知方式和故障处理方式;
执行单元40,用于根据确定的报警通知方式执行相应的报警通知,并根据确定的故障处理方式执行相应的故障处理。
在一可实施方式中,划分单元20进一步用于,确定报警信息所属类别;调用所属类别对应的等级分析策略对报警信息进行等级分析,获得第一分析结果;根据报警信息对应的历史等级比例和历史等级准确率对第一分析结果进行修正,获得第二分析结果,并确定第二分析结果为报警信息对应的报警等级。
其中,根据报警信息对应的历史等级比例和历史等级准确率对第一分析结果进行修正,包括:
根据报警信息对应的第一分析结果,获取历史相同的报警信息被分析为第一分析结果的历史等级比例、以及历史相同的报警信息被分析为第一分析结果的历史等级准确率;
根据历史等级比例和历史等级准确率计算第一分析结果的修正概率;
确定修正概率大于第一设定阈值的第一分析结果需要进行修正,确定修正概率小于等于第一设定阈值的第一分析结果不需要进行修正。
一种可实施的修正概率计算方式为:修正概率=历史等级比例*历史等级准确率*修正因子;其中,历史等级比例是指历史相同的报警信息被初始分析为第一分析结果的历史比例,历史等级准确率是指历史相同的报警信息被初始分析为第一分析结果的历史等级准确率,也即第一分析结果被作为最终分析结果的被统计为正确、第二分析结果未被作为最终分析结果的被统计为错误;修正因子为人为设定的用于计算修正概率的调整因子,该修正因子为预设的经验值。
通过修正概率的计算,如果计算的修正概率大于第一设定阈值,则需要对第一分析结果进行修正;如果修正概率小于第一设定阈值,则无需对第一分析结果进行修正,将第一分析结果作为最终的分析结果。
在确定需要对第一分析结果进行修正时,一种可实施的修正方式为:
获取历史相同的报警信息被分析为其他分析结果所对应的历史等级比例、以及历史相同的报警信息被分析为其他分析结果所对应的历史等级准确率;
根据其他分析结果所对应的历史等级比例和历史等级准确率计算对应其他分析结果的修正概率:历史等级比例*历史等级准确率*修正因子;
其他分析结果对应的修正概率中选择最大值对应的分析结果,作为第二分析结果。
假设某条报警信息对应的第一分析结果为A类报警,那么根据历史相同的该条报警信息被初始分析为A类报警的历史比例、以及历史相同的该条报警信息被初始分析为A类报警的历史等级准确率,计算该条报警信息作为A类报警的修正概率;若计算所得修正概率大于0.5,则确定需要对该初始分析结果进行修正。从而,计算该条报警信息作为B类报警和C类报警的修正概率,该条报警信息作为B类报警的修正概率=该条报警信息作为B类报警的历史等级比例*该条报警信息作为B类报警的历史等级准确率*修正因子;该条报警信息作为C类报警的修正概率=该条报警信息作为C类报警的历史等级比例*该条报警信息作为C类报警的历史等级准确率*修正因子。若最终计算该条报警信息作为B类报警的修正概率取值最大,则将该条报警信息对应的分析结果修正为B类报警。
在一可实施方式中,确定单元30进一步用于,在报警信息对应的报警等级是第一类报警信息时,确定第一类报警信息对应的报警通知方式为第一报警通知方式;在报警信息对应的报警等级是非第一类报警信息时,确定非第一类报警信息对应的报警通知方式为第二报警通知方式;第一类报警信息的报警等级最高,第一报警通知方式的时效性高于第二报警通知方式。
在一可实施方式中,执行单元40进一步用于,在确定的报警通知方式为第一报警通知方式时,通过第一通知路径和第二通知路径分别发送报警通知消息至第一级用户;监测报警通知对应的报警状态,在发送报警通知消息至第一级用户后达到第一预设时长,且报警状态仍为未处理或未恢复时,再次通过第二通知路径重发报警通知消息至第一级用户;在重发的次数达到预设阈值时,通过第三通知路径发送报警通知消息至第二级用户,第三通知路径与第二通知路径相同或不同;在发送报警通知消息至第二级用户后达到第二预设时长,且报警状态仍为未处理或未恢复时,再次通过第三通知路径重发报警通知消息至第二级用户。
在一可实施方式中,确定单元30进一步用于,根据报警信息对应的故障历史处理方式,确定与报警信息对应的报警等级所匹配的故障处理方式。
在一可实施方式中,执行单元40进一步用于,根据确定的故障处理方式,确定相应故障是否适合执行自愈处理;在确定相应故障适合执行自愈处理时,执行系统自愈的故障处理方式;在执行系统自愈的故障处理方式失败时,转入人工干预处理方式。
在一可实施方式中,划分单元20进一步用于,监测非第一类报警信息所对应故障的发展程度,在确定故障的发展程度满足报警升级条件时,对非第一类报警信息执行报警等级升级处理,并根据执行报警等级升级处理后的报警信息对应的报警等级,调整相应的报警通知方式和故障处理方式。
图6为本公开第九实施例的报警处理系统的组成结构示意图,该系统主要包括监控系统和报警处理系统,图中上半部分示意监控系统,下半部分示意报警处理系统。报警源数据来自于监控机器和故障接口,监控系统的中央模块根据报警源数据结合报警策略生成报警信息,该报警信息以通知消息的方式发送给报警处理平台,同时监控系统会对报警信息进行报警等级划分,根据报警等级确定报警信息对应的报警通知方式和故障处理方式;监控系统根据确定的报警通知方式执行相应的报警通知,报警处理系统根据确定的故障处理方式执行相应的故障处理。故障处理包括自愈处理和人工处理,在自愈处理失败时可转人工处理;本公开的实施例还支持调用超级中控的批量故障处理,以提升故障的处理效率。根据报警升级策略,对于未处理或未恢复的报警信息,在确定报警信息对应的故障的发展程度满足报警升级条件时,可执行报警等级升级处理,并根据执行报警等级升级处理后的报警信息对应的报警等级,调整相应的报警通知方式和故障处理方式。
本公开的实施例应用于CDN场景时,由于CDN的特点是边缘服务器数量众多,监控精度也要求非常高,本公开能准确分析报警严重性,并提供完善的通知及升级机制,保证最快的人工干预,处理平台提供高效的操作,联合自愈系统和超级中控实现故障的自动化处理,大大降低故障处理时延和减轻人工负担。
另外,对于报警的处理支持直接在页面点击并输出处理命令或其他处理方式直接处理报警,系统后端调用CDN运维操作系统接口,将处理集成在平台,不用一个个登陆机器执行处理操作。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备300的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备300包括计算单元301,其可以根据存储在只读存储器(ROM)302中的计算机程序或者从存储单元308加载到随机访问存储器(RAM)303中的计算机程序,来执行各种适当的动作和处理。在RAM 303中,还可存储设备300操作所需的各种程序和数据。计算单元301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
设备300中的多个部件连接至I/O接口305,包括:输入单元306,例如键盘、鼠标等;输出单元307,例如各种类型的显示器、扬声器等;存储单元308,例如磁盘、光盘等;以及通信单元309,例如网卡、调制解调器、无线通信收发机等。通信单元309允许设备300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元301执行上文所描述的各个方法和处理,例如本公开的报警处理方法。例如,在一些实施例中,报警处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元308。在一些实施例中,计算机程序的部分或者全部可以经由ROM 302和/或通信单元309而被载入和/或安装到设备300上。当计算机程序加载到RAM 303并由计算单元301执行时,可以执行上文描述的报警处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行报警处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、或部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (12)

1.一种报警处理方法,包括:
接收报警信息;
根据预设的报警等级划分策略,确定所述报警信息对应的报警等级;
根据所述报警信息对应的报警等级,确定所述报警信息对应的报警通知方式和故障处理方式;
根据确定的所述报警通知方式执行相应的报警通知,并根据确定的所述故障处理方式执行相应的故障处理。
2.根据权利要求1所述的方法,其中,所述根据预设的报警等级划分策略,确定报警信息对应的报警等级,包括:
确定所述报警信息所属类别;
调用所属类别对应的等级分析策略对所述报警信息进行等级分析,获得第一分析结果;
根据所述报警信息对应的历史等级比例和历史等级准确率对所述第一分析结果进行修正,获得第二分析结果,并确定所述第二分析结果为所述报警信息对应的报警等级。
3.根据权利要求2所述的方法,其中,所述根据报警信息对应的历史等级比例和历史等级准确率对第一分析结果进行修正,包括:
根据所述报警信息对应的第一分析结果,获取历史相同的报警信息被分析为所述第一分析结果的历史等级比例、以及所述历史相同的报警信息被分析为所述第一分析结果的历史等级准确率;
根据所述历史等级比例和历史等级准确率计算所述第一分析结果的修正概率;
确定所述修正概率大于第一设定阈值的所述第一分析结果需要进行修正。
4.根据权利要求1所述的方法,其中,所述根据报警信息对应的报警等级,确定所述报警信息对应的报警通知方式,包括:
在所述报警信息对应的报警等级是第一类报警信息时,确定所述第一类报警信息对应的报警通知方式为第一报警通知方式;
在所述报警信息对应的报警等级是非第一类报警信息时,确定所述非第一类报警信息对应的报警通知方式为第二报警通知方式;
所述第一类报警信息的报警等级最高,所述第一报警通知方式的时效性高于所述第二报警通知方式。
5.根据权利要求4所述的方法,其中,所述根据确定的报警通知方式执行相应的报警通知,包括:
在确定的报警通知方式为所述第一报警通知方式时,通过第一通知路径和第二通知路径分别发送报警通知消息至第一级用户;
监测所述报警通知对应的报警状态,在发送所述报警通知消息至第一级用户后达到第一预设时长,且所述报警状态仍为未处理或未恢复时,再次通过所述第二通知路径重发所述报警通知消息至所述第一级用户;
在所述重发的次数达到预设阈值时,通过第三通知路径发送所述报警通知消息至第二级用户,所述第三通知路径与所述第二通知路径相同或不同;
在发送所述报警通知消息至第二级用户后达到第二预设时长,且所述报警状态仍为未处理或未恢复时,再次通过所述第三通知路径重发所述报警通知消息至所述第二级用户。
6.根据权利要求1所述的方法,其中,所述根据报警信息对应的报警等级,确定所述报警信息对应的故障处理方式,包括:
根据所述报警信息对应的故障历史处理方式,确定与所述报警信息对应的报警等级所匹配的故障处理方式。
7.根据权利要求6所述的方法,其中,所述根据确定的故障处理方式执行相应的故障处理,包括:
根据确定的所述故障处理方式,确定相应故障是否适合执行自愈处理;
在确定相应故障适合执行自愈处理时,执行系统自愈的所述故障处理方式;
在所述执行系统自愈的故障处理方式失败时,转入人工干预处理方式。
8.根据权利要求1至7任一项所述的方法,其中,所述方法还包括:
监测非第一类报警信息所对应故障的发展程度,在确定所述故障的发展程度满足报警升级条件时,对所述非第一类报警信息执行报警等级升级处理,并根据执行报警等级升级处理后的报警信息对应的报警等级,调整相应的报警通知方式和故障处理方式。
9.一种报警处理装置,包括:
接收单元,用于接收报警信息;
划分单元,用于根据预设的报警等级划分策略,确定所述报警信息对应的报警等级;
确定单元,用于根据所述报警信息对应的报警等级,确定所述报警信息对应的报警通知方式和故障处理方式;
执行单元,用于根据确定的所述报警通知方式执行相应的报警通知,并根据确定的所述故障处理方式执行相应的故障处理。
10.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
11.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。
12.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。
CN202111275081.2A 2021-10-29 2021-10-29 一种报警处理方法、装置、设备以及存储介质 Active CN114095339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111275081.2A CN114095339B (zh) 2021-10-29 2021-10-29 一种报警处理方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111275081.2A CN114095339B (zh) 2021-10-29 2021-10-29 一种报警处理方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
CN114095339A true CN114095339A (zh) 2022-02-25
CN114095339B CN114095339B (zh) 2023-08-08

Family

ID=80298375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111275081.2A Active CN114095339B (zh) 2021-10-29 2021-10-29 一种报警处理方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN114095339B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130290783A1 (en) * 2012-04-27 2013-10-31 General Instrument Corporation Estimating a Severity Level of a Network Fault
US20140172842A1 (en) * 2012-12-17 2014-06-19 Hewlett-Packard Development Company, L..P. Prioritizing Network Faults
WO2016026510A1 (en) * 2014-08-18 2016-02-25 Telefonaktiebolaget L M Ericsson (Publ) Hardware fault identification management in a network
CN105933316A (zh) * 2016-04-21 2016-09-07 国家电网公司 网络安全级别的确定方法和装置
CN109002384A (zh) * 2018-06-29 2018-12-14 郑州云海信息技术有限公司 一种服务器故障的报警方法、装置、设备及存储介质
CN110198224A (zh) * 2018-02-27 2019-09-03 贵州白山云科技股份有限公司 一种报警处理方法、装置及系统
CN110650036A (zh) * 2019-08-30 2020-01-03 中国人民财产保险股份有限公司 告警处理方法、装置及电子设备
CN110784355A (zh) * 2019-10-30 2020-02-11 网宿科技股份有限公司 一种故障识别方法及装置
CN112233385A (zh) * 2020-09-25 2021-01-15 国家卫星气象中心(国家空间天气监测预警中心) 一种业务故障预警系统
CN112235162A (zh) * 2020-10-14 2021-01-15 北京嘀嘀无限科技发展有限公司 基于业务的监控方法、装置、电子设备及存储介质
WO2021068831A1 (zh) * 2019-10-10 2021-04-15 平安科技(深圳)有限公司 一种业务告警方法、设备及存储介质
CN113497726A (zh) * 2020-04-01 2021-10-12 中国移动通信集团山东有限公司 告警监控方法、系统、计算机可读存储介质及电子设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130290783A1 (en) * 2012-04-27 2013-10-31 General Instrument Corporation Estimating a Severity Level of a Network Fault
US20140172842A1 (en) * 2012-12-17 2014-06-19 Hewlett-Packard Development Company, L..P. Prioritizing Network Faults
WO2016026510A1 (en) * 2014-08-18 2016-02-25 Telefonaktiebolaget L M Ericsson (Publ) Hardware fault identification management in a network
CN105933316A (zh) * 2016-04-21 2016-09-07 国家电网公司 网络安全级别的确定方法和装置
CN110198224A (zh) * 2018-02-27 2019-09-03 贵州白山云科技股份有限公司 一种报警处理方法、装置及系统
CN109002384A (zh) * 2018-06-29 2018-12-14 郑州云海信息技术有限公司 一种服务器故障的报警方法、装置、设备及存储介质
CN110650036A (zh) * 2019-08-30 2020-01-03 中国人民财产保险股份有限公司 告警处理方法、装置及电子设备
WO2021068831A1 (zh) * 2019-10-10 2021-04-15 平安科技(深圳)有限公司 一种业务告警方法、设备及存储介质
CN110784355A (zh) * 2019-10-30 2020-02-11 网宿科技股份有限公司 一种故障识别方法及装置
CN113497726A (zh) * 2020-04-01 2021-10-12 中国移动通信集团山东有限公司 告警监控方法、系统、计算机可读存储介质及电子设备
CN112233385A (zh) * 2020-09-25 2021-01-15 国家卫星气象中心(国家空间天气监测预警中心) 一种业务故障预警系统
CN112235162A (zh) * 2020-10-14 2021-01-15 北京嘀嘀无限科技发展有限公司 基于业务的监控方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN114095339B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
US9009307B2 (en) Automated alert management
US10389801B2 (en) Service request processing method, related apparatus, and system
CN107204894B (zh) 网络业务质量的监控方法及装置
EP3226471A1 (en) Methods and systems to improve correlation between overlay and underlay networks in data centers
US9779377B2 (en) Customization of event management and incident management policies
CN109450691B (zh) 服务网关监控方法、设备及计算机可读存储介质
CN109861856B (zh) 系统故障信息的通知方法、装置、存储介质及计算机设备
CN112965823B (zh) 调用请求的控制方法、装置、电子设备和存储介质
CN110875841A (zh) 报警信息的推送方法、装置及可读存储介质
CN113592337A (zh) 故障处理方法、装置、电子设备及存储介质
CN109639490B (zh) 一种宕机通知方法及装置
CN113656252B (zh) 故障定位方法、装置、电子设备以及存储介质
CN114095339B (zh) 一种报警处理方法、装置、设备以及存储介质
CN115296979B (zh) 一种故障处理方法、装置、设备及存储介质
CN113760634A (zh) 一种数据处理方法和装置
CN113556671B (zh) 故障定位方法、装置和存储介质
CN110989518B (zh) 一种集成制造现场的控制方法和控制系统
CN113656239A (zh) 针对中间件的监控方法、装置及计算机程序产品
CN114567536B (zh) 异常数据处理方法、装置、电子设备和存储介质
CN110955647A (zh) 数据库辅助方法、装置、计算机设备和存储介质
US20220131955A1 (en) Message Processing Method and Device, Electronic Equipment, Storage Medium and Program Product
CN117640729A (zh) 流量控制方法、配置信息的发送方法、装置和电子设备
CN113672446B (zh) 监控参数确定方法、装置、设备以及存储介质
CN114327819B (zh) 一种任务管理方法、装置、设备及存储介质
CN113835733B (zh) 云应用更新方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant