CN113835976A - 针对互联网数据中心进行告警处理的方法及装置 - Google Patents

针对互联网数据中心进行告警处理的方法及装置 Download PDF

Info

Publication number
CN113835976A
CN113835976A CN202111113459.9A CN202111113459A CN113835976A CN 113835976 A CN113835976 A CN 113835976A CN 202111113459 A CN202111113459 A CN 202111113459A CN 113835976 A CN113835976 A CN 113835976A
Authority
CN
China
Prior art keywords
alarm
equipment
fault
target
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111113459.9A
Other languages
English (en)
Other versions
CN113835976B (zh
Inventor
吕畅
王冠
曹峻
张动动
曾峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202111113459.9A priority Critical patent/CN113835976B/zh
Publication of CN113835976A publication Critical patent/CN113835976A/zh
Application granted granted Critical
Publication of CN113835976B publication Critical patent/CN113835976B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Alarm Systems (AREA)

Abstract

本说明书实施例提供了针对互联网数据中心进行告警处理的方法及装置,互联网数据中心包括多个机房,其中的机房设置有配电拓扑结构和暖通拓扑结构,该方法包括:响应于获取到第一告警,在故障场景集合中确定目标故障场景,目标故障场景配置有规则集合和作用范围,规则集合包括触发规则和至少一个收敛规则,第一告警满足触发规则;根据产生第一告警的故障设备所在的配电拓扑结构或暖通拓扑结构,确定故障设备在作用范围内的关联设备;在第一告警恢复前,获取关联设备产生的满足该至少一个收敛规则中任意的收敛规则的第二告警,并将第二告警合并到第一告警中。

Description

针对互联网数据中心进行告警处理的方法及装置
技术领域
本说明书实施例涉及计算机技术领域,具体地,涉及针对互联网数据中心进行告警处理的方法及装置。
背景技术
现有的互联网数据中心(Internet Data Center,IDC),一般缺乏有效的告警收敛机制,致使在互联网数据中心应急响应的情况下,各机房人员时常被告警风暴淹没,无法有效从告警中得知故障根因。
因此,迫切需要一种合理、可靠的方案,可以针对互联网数据中心进行有效的告警收敛。
发明内容
本说明书实施例提供了针对互联网数据中心进行告警处理的方法及装置,能针对互联网数据中心进行有效的告警收敛。
第一方面,本说明书实施例提供了一种针对互联网数据中心进行告警处理的方法,所述互联网数据中心包括多个机房,其中的机房设置有配电拓扑结构和暖通拓扑结构,所述方法包括:响应于获取到第一告警,在故障场景集合中确定目标故障场景,所述目标故障场景配置有规则集合和作用范围,所述规则集合包括触发规则和至少一个收敛规则,所述第一告警满足所述触发规则;根据产生所述第一告警的故障设备所在的配电拓扑结构或暖通拓扑结构,确定所述故障设备在所述作用范围内的关联设备;在所述第一告警恢复前,获取所述关联设备产生的满足所述至少一个收敛规则中任意的收敛规则的第二告警,并将所述第二告警合并到所述第一告警中。
在一些实施例中,所述规则集合还包括用于有效告警识别的判断规则;以及在所述第一告警满足所述触发规则的同时,所述作用范围内存在满足所述判断规则的第三告警,并且所述第一告警和所述第三告警在同一目标时间窗口内产生。
在一些实施例中,所述目标故障场景还配置有场景描述信息,其中至少包括故障根因;以及在故障场景集合中确定目标故障场景之后,还包括:将所述场景描述信息补充到所述第一告警中。
在一些实施例中,所述场景描述信息还包括以下至少一项:告警内容、因故障而产生的现象、维修建议。
在一些实施例中,所述作用范围包括以下任一项:同园区、同楼栋、同系统、同包间、同机列、同机柜。
在一些实施例中,所述目标故障场景还配置有与目标系统有关的设备扣分信息和权重信息,所述目标系统为所述故障设备所在的配电拓扑结构所属的电气系统,或者所述故障设备所在的暖通拓扑结构所属的暖通系统;以及在所述将所述第二告警合并到所述第一告警中之后,还包括:根据所述第一告警和所述第二告警涉及的多个故障设备,所述设备扣分信息,以及所述权重信息,确定所述目标系统的系统健康分。
在一些实施例中,所述目标系统由多个子系统组成,所述多个子系统中任意的子系统由至少一个设备组组成,所述至少一个设备组中任意的设备组由所述故障设备所在的配电拓扑结构或暖通拓扑结构中示出的多个设备组成;所述权重信息包括所述多个子系统分别对应的子系统权重,所述多个子系统分别包括的设备组对应的设备组权重,以及所述目标系统涉及的多个设备类型分别对应的设备权重,所述设备扣分信息包括所述多个设备类型分别对应的设备扣分;以及所述根据所述第一告警和所述第二告警涉及的多个故障设备,所述设备扣分信息,以及所述权重信息,确定所述目标系统的系统健康分,包括:根据预设的设备总分,以及所述多个故障设备分别所属的设备类型对应的设备扣分,确定所述多个故障设备各自的设备健康分;根据所述设备健康分,所述设备总分,所述多个故障设备分别所属的设备类型对应的设备权重,以及预设的设备组总分,确定所述多个故障设备所在的目标设备组的设备组健康分;根据所述设备组健康分,所述设备组总分,所述目标设备组对应的设备组权重,以及预设的子系统总分,确定所述目标设备组所在的目标子系统的子系统健康分;根据所述子系统健康分,所述子系统总分,所述目标子系统对应的子系统权重,以及预设的系统总分,确定所述目标系统的系统健康分。
第二方面,本说明书实施例提供了一种针对互联网数据中心进行告警处理的装置,所述互联网数据中心包括多个机房,其中的机房设置有配电拓扑结构和暖通拓扑结构,所述装置包括:场景确定单元,被配置成响应于获取到第一告警,在故障场景集合中确定目标故障场景,所述目标故障场景配置有规则集合和作用范围,所述规则集合包括触发规则和至少一个收敛规则,所述第一告警满足所述触发规则;设备确定单元,被配置成根据产生所述第一告警的故障设备所在的配电拓扑结构或暖通拓扑结构,确定所述故障设备在所述作用范围内的关联设备;告警收敛单元,被配置成在所述第一告警恢复前,获取所述关联设备产生的满足所述至少一个收敛规则中任意的收敛规则的第二告警,并将所述第二告警合并到所述第一告警中。
第三方面,本说明书实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,当该计算机程序在计算机中执行时,令该计算机执行如第一方面中任一实现方式描述的方法。
第四方面,本说明书实施例提供了一种计算设备,包括存储器和处理器,其中,该存储器中存储有可执行代码,该处理器执行该可执行代码时,实现如第一方面中任一实现方式描述的方法。
第五方面,本说明书实施例提供了一种计算机程序,其中,当该计算机程序在计算机中执行时,令该计算机执行如第一方面中任一实现方式描述的方法。
本说明书的上述实施例提供的方案中的互联网数据中心包括多个机房,其中的机房设置有配电拓扑结构和暖通拓扑结构。在该方案中,可以响应于获取到第一告警,在故障场景集合中确定目标故障场景,目标故障场景配置有规则集合和作用范围,规则集合包括触发规则和至少一个收敛规则,第一告警满足该触发规则,而后可以根据产生第一告警的故障设备所在的配电拓扑结构或暖通拓扑结构,确定故障设备在该作用范围内的关联设备,然后可以在第一告警恢复前,获取该关联设备产生的满足该至少一个收敛规则中任意的收敛规则的第二告警,并将第二告警合并到第一告警中。基于此,实现了场景化告警收敛,通过引用拓扑关系,能使告警收敛可以基于给定作用范围内经过规则配置的相关告警,而且在第一告警恢复前,可不限制时间的按照规则进行收敛,这样能打破现有技术中告警收敛只能依赖简单的告警时间、告警设备所在位置的局限性,以及能有效避免误收敛、漏收敛的风险。因此,能针对互联网数据中心进行有效的告警收敛。
附图说明
为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本说明书的一些实施例可以应用于其中的一个示例性系统架构图;
图2是针对互联网数据中心进行告警处理的方法的一个实施例的流程图;
图3是层级结构的一个示意图;
图4是针对互联网数据中心进行告警处理的装置的一个结构示意图。
具体实施方式
下面结合附图和实施例对本说明书作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本说明书中的实施例及实施例中的特征可以相互组合。另外,本说明书中的“第一”、“第二”等词,仅用于信息区分,不起任何限定作用。
如前所述,在互联网数据中心应急响应的情况下,各机房人员时常被告警风暴淹没,无法有效从告警中得知故障根因。
基于此,本说明书的一些实施例提供了针对互联网数据中心进行告警处理的方法,通过该方法,可以实现针对互联网数据中心进行有效的告警收敛。具体地,图1示出了适用于这些实施例的示例性系统架构图。
如图1所示,系统架构例如可以包括互联网数据中心,以及用于针对互联网数据中心进行告警收敛的告警收敛系统。
互联网数据中心可以包括多个机房。如图1中所示,该多个机房例如可以包括机房A1,机房A2,…,机房AN。其中,N为大于1的自然数。对于该多个机房中任意的一个机房,该机房可以属于某一种电气架构和某一种暖通架构,而且该机房可以设置有该电气架构下的配电拓扑结构,以及该暖通架构下的暖通拓扑结构。应该理解,该配电拓扑结构可以示出该机房中的配电设备,该暖通拓扑结构可以示出该机房中的暖通设备。
实践中,互联网数据中心可以关联故障场景集合,其中任意的故障场景可以配置有规则集合和作用范围。规则集合例如可以包括触发规则和至少一个收敛规则。进一步地,触发规则例如可以包括触发告警类型。该触发告警类型可以理解成,对需要采用该故障场景的告警的类型要求。该至少一个收敛规则可以包括不同的收敛告警类型。该收敛告警类型可以理解成,对需要进行收敛的告警的类型要求。该作用范围例如可以包括,同园区,同楼栋,同系统,同包间,同机列,或同机柜,等等,在此不做具体限定。
需要说明,故障场景集合中的各个故障场景,以及针对该各个故障场景分别配置的各项信息,可以是通过将各个机房现场员工的故障诊断最佳实践逻辑化、标准化而设计出的,具体地,可由专家编写、审核,不存在后台固化的情况,具备高度的可编辑性、可靠性和普适性。
以机房A1中的冷却塔B为例,如果该冷却塔B出现风机停机故障,告警收敛系统可以如图1中所示,获取到针对该冷却塔B触发的第一告警,如“机房A1中的冷却塔B风机停机”。而后,告警收敛系统可以根据第一告警,在如前所述的故障场景集合中确定目标故障场景,其中,第一告警满足目标故障场景的触发规则。
作为示例,目标故障场景的触发规则例如可以包括冷却塔风机停机,至少一个收敛规则例如可以包括温升告警、机柜高温告警,作用范围例如可以包括同楼栋。其中,该触发规则中的“冷却塔风机停机”可以视为触发告警类型,该至少一个收敛规则中的“温升告警”和“机柜高温告警”,可以均视为收敛告警类型。基于此,第一告警满足目标故障场景的触发规则,可以理解为,第一告警归属于该触发规则所包括的触发告警类型,例如归属于“冷却塔风机停机”。
之后,若从故障场景集合中确定出目标故障场景,则告警收敛系统可以根据冷却塔B所在的暖通拓扑结构,确定出冷却塔B在同楼栋内的关联设备。接着,在第一告警恢复前,例如在接收到针对第一告警的恢复通知前,告警收敛系统可以持续的获取该关联设备产生的属于温升告警或机柜高温告警的第二告警,并将第二告警合并到第一告警中。例如,可以将第二告警作为第一告警的子告警合并到第一告警中。
由此,实现了场景化告警收敛,通过引用拓扑关系,能使告警收敛可以基于给定作用范围内经过规则配置的相关告警,而且在第一告警恢复前,可不限制时间的按照规则进行收敛,这样能打破现有技术中告警收敛只能依赖简单的告警时间、告警设备所在位置的局限性,以及能有效避免误收敛、漏收敛的风险。因此,能针对互联网数据中心进行有效的告警收敛。
下面,结合具体的实施例,描述上述方法的具体实施步骤。
参看图2,其示出了针对互联网数据中心进行告警处理的方法的一个实施例的流程200。该方法的执行主体例如可以为图1所示的告警收敛系统,或者告警收敛系统所归属的产品(例如故障诊断系统或监控系统等)。互联网数据中心包括多个机房,其中的机房(例如该多个机房中任意的机房)设置有配电拓扑结构和暖通拓扑结构。该方法包括以下步骤:
步骤202,响应于获取到第一告警,在故障场景集合中确定目标故障场景;
步骤206,根据产生第一告警的故障设备所在的配电拓扑结构或暖通拓扑结构,确定故障设备在目标故障场景的作用范围内的关联设备;
步骤208,在第一告警恢复前,获取关联设备产生的满足目标故障场景的至少一个收敛规则中任意的收敛规则的第二告警,并将第二告警合并到第一告警中。
下面对以上各步骤做进一步说明。
在步骤202中,可以响应于获取到第一告警,根据第一告警,在故障场景集合中确定目标故障场景。目标故障场景可以配置有规则集合和作用范围,规则集合可以包括触发规则和至少一个收敛规则,第一告警满足该触发规则。
实践中,故障场景集合中任意的故障场景可以包括规则集合和作用范围。规则集合可以包括触发规则和至少一个收敛规则。这里,关于触发规则、收敛规则和作用范围的解释,可参考前文中的相关说明,在此不再赘述。
作为示例,对于故障场景集合中的故障场景,若第一告警满足该故障场景中的触发规则,则可以将该故障场景确定为目标故障场景。
通常,某一告警R(例如图1中示出的“机房A1中的冷却塔B风机停机”)产生时,在一定时间段内一般会产生与告警R有关的其他告警(例如“室外干球温度>21度”),其中,告警R和该其他告警的产生时间位于该时间段内。该时间段的时长例如可以为60、70或80秒等。在获取到告警R后,通过检测该时间段内是否产生该其他告警,可以辨别告警R是有效告警还是误告警。基于此,规则集合还可以包括用于有效告警识别的判断规则。判断规则例如可以包括判断告警类型(也可称为辅助告警类型),该判断告警类型的告警能帮助识别触发告警类型的告警是否为有效告警。
因此,在一些实施例中,对于故障场景集合中的故障场景,若第一告警满足该故障场景中的触发规则,并且在该故障场景的作用范围内存在满足该故障场景的判断规则的第三告警,而且第一告警和第三告警在同一目标时间窗口内产生,则可以将该故障场景确定为目标故障场景。其中,目标时间窗口的时长例如可以为60、70或80秒等,在此不做具体限定。需要说明,通过采用此种目标故障场景确定方式,可以有效防止误告警,而且能大幅降低对告警产生时间的要求,例如第一告警产生的时间不要求一定要在第三告警产生之前,只需要第一告警和第三告警均在同一个时间窗口内产生即可。
接着,在步骤206中,可以根据产生第一告警的故障设备所在的配电拓扑结构或暖通拓扑结构,确定故障设备在目标故障场景的作用范围内的关联设备。众所周知,配电拓扑结构可以用于描述其所属的机房中的配电设备之间的关联关系,暖通拓扑结构可以用于描述其所属的机房中的暖通设备之间的关联关系,因此,基于该故障设备所在的配电拓扑结构或暖通拓扑结构,可以分析出该故障设备在该作用范围内的关联设备。
接着,在步骤208中,在第一告警恢复前,可以获取该关联设备产生的满足目标故障场景的至少一个收敛规则中任意的收敛规则的第二告警,并将第二告警合并到第一告警中。例如,可以将第二告警作为第一告警的子告警合并到第一告警中。
可以理解的是,在步骤208中,会在故障恢复前持续的收敛该关联设备产生的第二告警,直到第一告警恢复正常状态。需要指出,第二告警的产生时间可以晚于第一告警的产生时间,或者,第二告警和第一告警可以在如前所述的同一目标时间窗口内产生。
另外,在步骤208执行完成后,可以得到收敛后的告警(例如经收敛处理后的第一告警)。之后,可以将收敛后的告警提供给相关人员,如此能有效避免该相关人员时常被告警风暴淹没,从而能使得该相关人员有效地从收敛后的告警中得知故障根因。
在图2对应的实施例中,通过对步骤202、206、208的执行,可以实现场景化告警收敛,通过引用拓扑关系,能使告警收敛可以基于给定作用范围内经过规则配置的相关告警,而且在第一告警恢复前,可不限制时间的按照规则进行收敛,这样能打破现有技术中告警收敛只能依赖简单的告警时间、告警设备所在位置的局限性,以及能有效避免误收敛、漏收敛的风险。因此,能针对互联网数据中心进行有效的告警收敛。另外,该实施例提供的方案,能为同架构的机房提供标准化服务,具有较高的普适性。
在一些实施例中,任意的故障场景还可以配置有场景描述信息,该场景描述信息至少包括故障根因。基于此,在步骤202之后,还可以包括:步骤204,将场景描述信息补充到第一告警中。如此,后续得到的收敛后的告警可以包含故障根因,通过将该收敛后的告警提供给相关人员,可以使得该相关人员从告警信息中快速准确获知故障根因,从而能在最佳抢修时间对故障设备进行抢修,进而能尽可能地避免机房内的IT设备(例如服务器、网络设备)因不满足运行条件而宕机,最终导致业务受损。
可选地,场景描述信息还可以包括告警内容,因故障而产生的现象,和/或维修建议,等等,在此不做具体限定。作为示例,如果风冷冷水机组发生故障,通常会导致供水温度短暂升高。假设某个故障场景的场景名称为“NA62-B风冷冷水机组故障导致供水温度短暂升高”,该故障场景的场景描述信息中的告警内容例如可以为“供水温度异常”,因故障而产生的现象例如可以为“冷冻水供水温度大于19.5度”。
需要说明,在目标故障场景的场景描述信息包括维修建议的情况下,通过执行步骤204,将该场景描述信息补充到第一告警中,可以使得后续得到的收敛后的告警同时包含故障根因和维修建议。通过将该收敛后的告警提供给相关人员,能有助于该相关人员在最佳抢修时间快速完成对故障设备的抢修。
在一些实施例中,目标故障场景还可以配置有与目标系统有关的设备扣分信息和权重信息,目标系统为产生第一告警的故障设备所在的配电拓扑结构所属的电气系统,或者该故障设备所在的暖通拓扑结构所属的暖通系统。
需要说明,设备扣分信息和权重信息例如可以是在目标故障场景下,针对目标系统对应的电气架构或暖通架构设置的。作为示例,该权重信息例如可以包括多个设备类型分别对应的设备权重,该多个设备类型可以为该电气架构或暖通架构下的设备类型。该设备扣分信息例如可以包括一个通用的设备扣分。其中,该设备扣分可以理解为单个故障设备的故障扣减分。应该理解,故障场景集合中的各个故障场景均可以配置有设备扣分信息、权重信息。其中,不同的故障场景可以配置有不同的设备扣分信息、权重信息。
基于此,在步骤208之后,还可以包括:步骤210,根据第一告警和第二告警涉及的多个故障设备,以及针对目标故障场景配置的设备扣分信息和权重信息,确定目标系统的系统健康分。应该理解,该多个故障设备可以包括产生第一告警的故障设备,以及产生第二告警的故障设备,并且该多个故障设备包含在目标系统内。
作为一个示例,假设该权重信息包括多个设备类型分别对应的设备权重,该设备扣分信息包括一个通用的设备扣分,在步骤210中,可以从该权重信息中确定出第一告警和第二告警涉及的多个故障设备分别所属的设备类型对应的设备权重,而后可以计算确定出的各个设备权重和设备扣分的乘积,接着可以计算各个乘积的和值,然后可以将预设的系统总分和该和值的差值确定为目标系统的系统健康分。
作为另一个示例,电气架构下的电气系统和暖通架构下的暖通系统可以均采用层级结构,如图3所示,该层级结构中的各个层级从上往下可以依次为系统层、子系统层、设备组层、设备层。设备层可以包括该层级结构所属的电气系统或暖通系统中的各个设备。设备组层可以包括由该各个设备组成的多个设备组,其中,每个设备组可以包括多个设备。子系统层可以包括由该多个设备组组成的多个子系统,其中,每个子系统可以由至少一个设备组组成。系统层可以包括由子系统层中的各个子系统组成的系统,例如该层级结构所属的电气系统或暖通系统。
需要指出,图3示出的是示例性的层级结构,在实际应用中,层级结构可根据实际需求设计,在此不做具体限定。
基于此,目标系统可以由多个子系统组成,该多个子系统中任意的子系统可以由至少一个设备组组成,该至少一个设备组中任意的设备组可以由产生第一告警的故障设备所在的配电拓扑结构或暖通拓扑结构中示出的多个设备组成。针对目标故障场景配置的权重信息可以包括,该多个子系统分别对应的子系统权重,该多个子系统分别包括的设备组对应的设备组权重,以及目标系统涉及的多个设备类型分别对应的设备权重。针对目标故障场景配置的设备扣分信息例如可以包括,该多个设备类型分别对应的设备扣分。其中,该多个设备类型具体包括目标系统中的各个设备分别所属的设备类型。
需要说明,设备类型对应的设备权重,可根据该设备类型的设备出现故障后对目标系统的影响程度来设定。例如,如果影响程度较高,则可以为该设备类型设置较大的权重;如果影响程度较低,则可以为该设备类型设置较小的权重。同理,设备类型对应的设备扣分,以及设备组对应的设备组权重和子系统对应的子系统权重,也可以采用类似的设置策略。
在步骤210中,可以具体执行以下子步骤:步骤2101,根据预设的设备总分,以及上述多个故障设备分别所属的设备类型对应的设备扣分,确定上述多个故障设备各自的设备健康分;步骤2102,根据该设备健康分,该设备总分,上述多个故障设备分别所属的设备类型对应的设备权重,以及预设的设备组总分,确定上述多个故障设备所在的目标设备组的设备组健康分;步骤2103,根据该设备组健康分,该设备组总分,目标设备组对应的设备组权重,以及预设的子系统总分,确定目标设备组所在的目标子系统的子系统健康分;步骤2104,根据该子系统健康分,该子系统总分,目标子系统对应的子系统权重,以及预设的系统总分,确定目标系统的系统健康分。
具体地,在步骤2101中,对于上述多个故障设备中任意的故障设备,可以将设备总分和该故障设备所属的设备类型对应的设备扣分的差值,确定为该故障设备的设备健康分。
在步骤2102中,对于上述多个故障设备中任意的故障设备,可以计算出设备总分和该故障设备的设备健康分的差值,并将该差值和该故障设备所属的设备类型对应的设备权重的乘积,确定为该故障设备的实际扣减分。对于上述多个故障设备分别所在的目标设备组,如果上述多个故障设备中的单个设备归属于该目标设备组,则可以将设备组总分和该单个设备的实际扣减分的差值确定为该目标设备组的设备组健康分;如果上述多个故障设备中的多个设备归属于该目标设备组,则可以计算出该多个设备的实际扣减分的和值,并将设备组总分和该和值的差值确定为该目标设备组的设备组健康分。
在步骤2103中,对于如前所述的目标子系统,可以针对该目标子系统中的目标设备组,计算出设备组总分和该目标设备组的设备组健康分的差值,并将该目标设备组对应的设备组权重和该差值的乘积确定为该目标设备组的实际扣减分。如果该目标子系统中存在单个目标设备组,则可以将子系统总分和该目标设备组的实际扣减分的差值,确定为该目标子系统的子系统健康分。如果该目标子系统中存在多个目标设备组,则可以计算出该多个目标设备组的实际扣减分的和值,并将子系统总分和该和值的差值确定为该目标子系统的子系统健康分。
在步骤2104中,针对目标系统中的目标子系统,可以计算出子系统总分和该目标子系统的子系统健康分的差值,并将该目标子系统对应的子系统权重和该差值的乘积确定为该目标子系统的实际扣减分。如果目标系统中存在单个目标子系统,则可以将系统总分和该目标子系统的实际扣减分的差值确定为目标系统的系统健康分。如果目标系统中存在多个目标子系统,则可以计算出该多个目标子系统的实际扣减分的和值,并将系统总分和该和值的差值确定为目标系统的系统健康分。
在一些实施例中,在步骤202后,可以响应于从故障场景集合中确定出目标故障场景,根据产生第一告警的故障设备,针对目标故障场景配置的设备扣分信息和权重信息,确定目标系统的系统健康分。这里,确定方法与前文中描述的相关方法类似,在此不再赘述。
以目标系统为暖通系统,产生第一告警的故障设备为冷却塔B为例,假设设备总分、设备组总分、子系统总分和系统总分(可称为暖通系统总分)均为100,设备类型“冷却塔”对应的设备权重和设备扣分依次为100%、30,冷却塔B所在的设备组T对应的设备组权重为33%,设备组T所在的子系统S对应的子系统权重为50%,计算过程如以下所示:
冷却塔B的设备健康分=设备总分(100)-设备扣分(30)=70;
设备组T的设备组健康分=设备组总分(100)-设备权重(100%)*(设备总分(100)-冷却塔B的设备健康分(70))=70;
子系统S的子系统健康分=子系统总分(100)-设备组权重(33%)*(设备组总分(100)-设备组T的设备组健康分(70))=90.1;
暖通系统健康分=暖通系统总分(100)-子系统权重(50%)*(子系统总分(100)-子系统S的子系统健康分(90.1))=95.05。
实践中,当系统健康分大于95且小于等于100时,可以表示正常。当系统健康分大于90且小于等于95时,可以表示亚健康。当系统健康分大于70且小于等于90时,可以表示危险。
在以目标系统为暖通系统的示例中,产生第一告警的故障设备所在的机房的暖通系统整体的系统健康分为95.05,高于95,系统可用度依旧很高,无须担心业务受损。
需要说明,通过对步骤210的执行,可以量化故障下的机房运行健康度,提高机房故障应急响应整条链路的时效,从而提升机房的稳定性。另外,经量化所得的系统健康分,可以通过已有的事件应急系统透传,提高整体的应急时效,有助于业务方快速实现应急预案进行迁移,避免损失。
综合前文中的描述,可以确定本说明书实施例提供的方案具有以下特点:
1、打破了现有技术中告警收敛只能依赖简单的告警时间、告警设备所在位置的局限性,创新的引用了拓扑关系、时间窗口等概念,使告警收敛可以基于给定作用范围内的经过规则配置的相关告警,不要求所有告警严格按照逻辑上的时间顺序产生,增大了容错率;
2、可按照专家配置的规则进行逐项告警收敛,并且在数据中心监控领域实现了低代码形式的逻辑编写系统;本方案是基于可配置规则的收敛方式,一旦满足规则,则在触发告警(如前文中的第一告警)恢复前,可不限制时间的按照规则进行收敛,并且收敛规则均经过专家评审,极大的降低了误收敛的概率;若发生漏收敛的情况,因为漏收敛不影响根因分析的准确性,只需要事后进行专家规则补充编辑即可,十分方便和灵活;
3、通过按场景编辑的触发规则、判断规则和收敛规则,在满足告警收敛的需要同时,也进行了根因定位,解决了现有技术中无法准确进行告警分析的难题;根因定位的颗粒度可以随规则灵活改变,对于现阶段无法量化,还是需要人工跑位的场景,可以进行粗略定位(如二次系统问题),但像单路市电中断这种场景清晰的情况,可以定位到具体的市电进线柜;
4、创新的使用了多层级权重、扣分的方式,具现化不同场景下不同设备故障时整体系统的健康得分,为故障应急链路上的所有系统提供了一个标准化的参考线。
进一步参考图4,本说明书提供了一种针对互联网数据中心进行告警处理的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置可以应用于如图1所示的告警收敛系统,或者告警收敛系统所归属的产品(例如故障诊断系统或监控系统等)。其中,互联网数据中心可以包括多个机房,其中的机房可以设置有配电拓扑结构和暖通拓扑结构。
如图4所示,本实施例的针对互联网数据中心进行告警处理的装置400包括:场景确定单元401、设备确定单元402和告警收敛单元403。其中,场景确定单元401被配置成响应于获取到第一告警,在故障场景集合中确定目标故障场景,目标故障场景配置有规则集合和作用范围,规则集合包括触发规则和至少一个收敛规则,第一告警满足该触发规则;设备确定单元402被配置成根据产生第一告警的故障设备所在的配电拓扑结构或暖通拓扑结构,确定故障设备在该作用范围内的关联设备;告警收敛单元403被配置成在第一告警恢复前,获取关联设备产生的满足该至少一个收敛规则中任意的收敛规则的第二告警,并将第二告警合并到第一告警中。
在一些实施例中,上述规则集合还可以包括用于有效告警识别的判断规则;以及在第一告警满足上述触发规则的同时,上述作用范围内存在满足该判断规则的第三告警,并且第一告警和第三告警在同一目标时间窗口内产生。
在一些实施例中,目标故障场景还可以配置有场景描述信息,其中至少包括故障根因;以及上述装置400还可以包括:信息补充单元(图中未示出),被配置成在场景确定单元401在故障场景集合中确定出目标故障场景之后,将该场景描述信息补充到第一告警中。
在一些实施例中,场景描述信息还可以包括告警内容、因故障而产生的现象和/或维修建议等。
在一些实施例中,上述作用范围可以包括同园区、同楼栋、同系统、同包间、同机列或同机柜等。
在一些实施例中,目标故障场景还可以配置有与目标系统有关的设备扣分信息和权重信息,目标系统为上述故障设备所在的配电拓扑结构所属的电气系统,或者上述故障设备所在的暖通拓扑结构所属的暖通系统;以及上述装置400还可以包括:系统健康评估单元(图中未示出),被配置成根据第一告警和第二告警涉及的多个故障设备,该设备扣分信息,以及该权重信息,确定目标系统的系统健康分。
在一些实施例中,目标系统可以由多个子系统组成,该多个子系统中任意的子系统可以由至少一个设备组组成,该至少一个设备组中任意的设备组可以由上述故障设备所在的配电拓扑结构或暖通拓扑结构中示出的多个设备组成;上述权重信息可以包括该多个子系统分别对应的子系统权重,该多个子系统分别包括的设备组对应的设备组权重,以及目标系统涉及的多个设备类型分别对应的设备权重,设备扣分信息可以包括该多个设备类型分别对应的设备扣分;以及系统健康评估单元可以进一步被配置成:根据预设的设备总分,以及上述多个故障设备分别所属的设备类型对应的设备扣分,确定上述多个故障设备各自的设备健康分;根据该设备健康分,该设备总分,上述多个故障设备分别所属的设备类型对应的设备权重,以及预设的设备组总分,确定上述多个故障设备所在的目标设备组的设备组健康分;根据该设备组健康分,该设备组总分,目标设备组对应的设备组权重,以及预设的子系统总分,确定目标设备组所在的目标子系统的子系统健康分;根据该子系统健康分,该子系统总分,目标子系统对应的子系统权重,以及预设的系统总分,确定目标系统的系统健康分。
在本实施例中,各单元的具体处理及其带来的技术效果可参考图2对应实施例中的相关说明,在此不再赘述。
本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,当该计算机程序在计算机中执行时,令计算机执行以上各方法实施例分别描述的针对互联网数据中心进行告警处理的方法。
本说明书实施例还提供了一种计算设备,包括存储器和处理器,其中,该存储器中存储有可执行代码,该处理器执行该可执行代码时,实现以上各方法实施例分别描述的针对互联网数据中心进行告警处理的方法。
本说明书实施例还提供了一种计算机程序,其中,当该计算机程序在计算机中执行时,令计算机执行以上各方法实施例分别描述的针对互联网数据中心进行告警处理的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书披露的多个实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述的具体实施方式,对本说明书披露的多个实施例的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书披露的多个实施例的具体实施方式而已,并不用于限定本说明书披露的多个实施例的保护范围,凡在本说明书披露的多个实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书披露的多个实施例的保护范围之内。

Claims (10)

1.一种针对互联网数据中心进行告警处理的方法,所述互联网数据中心包括多个机房,其中的机房设置有配电拓扑结构和暖通拓扑结构,所述方法包括:
响应于获取到第一告警,在故障场景集合中确定目标故障场景,所述目标故障场景配置有规则集合和作用范围,所述规则集合包括触发规则和至少一个收敛规则,所述第一告警满足所述触发规则;
根据产生所述第一告警的故障设备所在的配电拓扑结构或暖通拓扑结构,确定所述故障设备在所述作用范围内的关联设备;
在所述第一告警恢复前,获取所述关联设备产生的满足所述至少一个收敛规则中任意的收敛规则的第二告警,并将所述第二告警合并到所述第一告警中。
2.根据权利要求1所述的方法,其中,所述规则集合还包括用于有效告警识别的判断规则;以及
在所述第一告警满足所述触发规则的同时,所述作用范围内存在满足所述判断规则的第三告警,并且所述第一告警和所述第三告警在同一目标时间窗口内产生。
3.根据权利要求1或2所述的方法,其中,所述目标故障场景还配置有场景描述信息,其中至少包括故障根因;以及
在故障场景集合中确定目标故障场景之后,还包括:
将所述场景描述信息补充到所述第一告警中。
4.根据权利要求3所述的方法,其中,所述场景描述信息还包括以下至少一项:告警内容、因故障而产生的现象、维修建议。
5.根据权利要求1所述的方法,其中,所述作用范围包括以下任一项:同园区、同楼栋、同系统、同包间、同机列、同机柜。
6.根据权利要求1-2、4-5之一所述的方法,其中,所述目标故障场景还配置有与目标系统有关的设备扣分信息和权重信息,所述目标系统为所述故障设备所在的配电拓扑结构所属的电气系统,或者所述故障设备所在的暖通拓扑结构所属的暖通系统;以及
在所述将所述第二告警合并到所述第一告警中之后,还包括:
根据所述第一告警和所述第二告警涉及的多个故障设备,所述设备扣分信息,以及所述权重信息,确定所述目标系统的系统健康分。
7.根据权利要求6所述的方法,其中,所述目标系统由多个子系统组成,所述多个子系统中任意的子系统由至少一个设备组组成,所述至少一个设备组中任意的设备组由所述故障设备所在的配电拓扑结构或暖通拓扑结构中示出的多个设备组成;所述权重信息包括所述多个子系统分别对应的子系统权重,所述多个子系统分别包括的设备组对应的设备组权重,以及所述目标系统涉及的多个设备类型分别对应的设备权重,所述设备扣分信息包括所述多个设备类型分别对应的设备扣分;以及
所述根据所述第一告警和所述第二告警涉及的多个故障设备,所述设备扣分信息,以及所述权重信息,确定所述目标系统的系统健康分,包括:
根据预设的设备总分,以及所述多个故障设备分别所属的设备类型对应的设备扣分,确定所述多个故障设备各自的设备健康分;
根据所述设备健康分,所述设备总分,所述多个故障设备分别所属的设备类型对应的设备权重,以及预设的设备组总分,确定所述多个故障设备所在的目标设备组的设备组健康分;
根据所述设备组健康分,所述设备组总分,所述目标设备组对应的设备组权重,以及预设的子系统总分,确定所述目标设备组所在的目标子系统的子系统健康分;
根据所述子系统健康分,所述子系统总分,所述目标子系统对应的子系统权重,以及预设的系统总分,确定所述目标系统的系统健康分。
8.一种针对互联网数据中心进行告警处理的装置,所述互联网数据中心包括多个机房,其中的机房设置有配电拓扑结构和暖通拓扑结构,所述装置包括:
场景确定单元,被配置成响应于获取到第一告警,在故障场景集合中确定目标故障场景,所述目标故障场景配置有规则集合和作用范围,所述规则集合包括触发规则和至少一个收敛规则,所述第一告警满足所述触发规则;
设备确定单元,被配置成根据产生所述第一告警的故障设备所在的配电拓扑结构或暖通拓扑结构,确定所述故障设备在所述作用范围内的关联设备;
告警收敛单元,被配置成在所述第一告警恢复前,获取所述关联设备产生的满足所述至少一个收敛规则中任意的收敛规则的第二告警,并将所述第二告警合并到所述第一告警中。
9.一种计算机可读存储介质,其上存储有计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-7中任一项所述的方法。
10.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-7中任一项所述的方法。
CN202111113459.9A 2021-09-23 2021-09-23 针对互联网数据中心进行告警处理的方法及装置 Active CN113835976B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111113459.9A CN113835976B (zh) 2021-09-23 2021-09-23 针对互联网数据中心进行告警处理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111113459.9A CN113835976B (zh) 2021-09-23 2021-09-23 针对互联网数据中心进行告警处理的方法及装置

Publications (2)

Publication Number Publication Date
CN113835976A true CN113835976A (zh) 2021-12-24
CN113835976B CN113835976B (zh) 2024-03-29

Family

ID=78969199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111113459.9A Active CN113835976B (zh) 2021-09-23 2021-09-23 针对互联网数据中心进行告警处理的方法及装置

Country Status (1)

Country Link
CN (1) CN113835976B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6253339B1 (en) * 1998-10-28 2001-06-26 Telefonaktiebolaget Lm Ericsson (Publ) Alarm correlation in a large communications network
US20180152338A1 (en) * 2016-11-25 2018-05-31 Accenture Global Solutions Limited On-demand fault reduction framework
US20180211167A1 (en) * 2017-01-25 2018-07-26 Cisco Technology, Inc. Heuristic alarm and event aggregation and correlation method for service provider network operation
CN109241282A (zh) * 2018-08-08 2019-01-18 麒麟合盛网络技术股份有限公司 一种报警信息汇聚方法及装置
CN109684181A (zh) * 2018-11-20 2019-04-26 华为技术有限公司 告警根因分析方法、装置、设备及存储介质
CN111352808A (zh) * 2020-03-03 2020-06-30 腾讯云计算(北京)有限责任公司 告警数据处理方法、装置、设备及存储介质
CN112596990A (zh) * 2020-12-24 2021-04-02 科华恒盛股份有限公司 告警风暴的处理方法、装置及终端设备
CN112711493A (zh) * 2020-12-25 2021-04-27 上海精鲲计算机科技有限公司 一种场景化根因分析应用
CN112882796A (zh) * 2021-02-25 2021-06-01 深信服科技股份有限公司 异常根因分析方法和装置,及存储介质
CN113268399A (zh) * 2021-06-15 2021-08-17 上海天正信息科技有限公司 一种告警处理方法、装置和电子设备
CN113342603A (zh) * 2021-06-07 2021-09-03 平安证券股份有限公司 告警数据处理方法、装置、计算机设备和存储介质
CN113395108A (zh) * 2020-03-12 2021-09-14 华为技术有限公司 故障处理的方法、装置以及系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6253339B1 (en) * 1998-10-28 2001-06-26 Telefonaktiebolaget Lm Ericsson (Publ) Alarm correlation in a large communications network
US20180152338A1 (en) * 2016-11-25 2018-05-31 Accenture Global Solutions Limited On-demand fault reduction framework
US20180211167A1 (en) * 2017-01-25 2018-07-26 Cisco Technology, Inc. Heuristic alarm and event aggregation and correlation method for service provider network operation
CN109241282A (zh) * 2018-08-08 2019-01-18 麒麟合盛网络技术股份有限公司 一种报警信息汇聚方法及装置
CN109684181A (zh) * 2018-11-20 2019-04-26 华为技术有限公司 告警根因分析方法、装置、设备及存储介质
CN111352808A (zh) * 2020-03-03 2020-06-30 腾讯云计算(北京)有限责任公司 告警数据处理方法、装置、设备及存储介质
CN113395108A (zh) * 2020-03-12 2021-09-14 华为技术有限公司 故障处理的方法、装置以及系统
WO2021179643A1 (zh) * 2020-03-12 2021-09-16 华为技术有限公司 故障处理的方法、装置以及系统
CN112596990A (zh) * 2020-12-24 2021-04-02 科华恒盛股份有限公司 告警风暴的处理方法、装置及终端设备
CN112711493A (zh) * 2020-12-25 2021-04-27 上海精鲲计算机科技有限公司 一种场景化根因分析应用
CN112882796A (zh) * 2021-02-25 2021-06-01 深信服科技股份有限公司 异常根因分析方法和装置,及存储介质
CN113342603A (zh) * 2021-06-07 2021-09-03 平安证券股份有限公司 告警数据处理方法、装置、计算机设备和存储介质
CN113268399A (zh) * 2021-06-15 2021-08-17 上海天正信息科技有限公司 一种告警处理方法、装置和电子设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
万莹;洪玫;陈宇星;王帅;樊哲宁;: "基于时间、空间和规则的无线网络告警关联方法", 计算机科学, no. 2 *
万莹;洪玫;陈宇星;王帅;樊哲宁;: "基于时间、空间和规则的无线网络告警关联方法", 计算机科学, no. 2, 15 November 2018 (2018-11-15) *
徐彪;尹项根;张哲;李旭升;: "基于拓扑建模的电网故障诊断优化模型", 电网技术, no. 10 *
杨滟;黄小红;马严;: "基于园区网络拓扑的告警关联规则挖掘算法", 中国教育网络, no. 12 *
运维部落: "告警平台设计及告警收敛通用解决方案", Retrieved from the Internet <URL:https://www.sohu.com/a/465035422_494937> *

Also Published As

Publication number Publication date
CN113835976B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
US20190361759A1 (en) System and method to identify failed points of network impacts in real time
CN111814999B (zh) 一种故障工单生成方法、装置、设备
CN105099783B (zh) 一种实现业务系统告警应急处置自动化的方法及系统
CN107612756A (zh) 一种具有智能故障分析处理功能的运维管理系统
CN111897671A (zh) 故障恢复方法、计算机设备及存储介质
CN113391943B (zh) 一种基于因果推断的微服务故障根因定位方法及装置
CN103414581A (zh) 一种基于数据挖掘的设备故障报警预测处理机制
Shin et al. STPA-based hazard and importance analysis on NPP safety I&C systems focusing on human–system interactions
CN112039695A (zh) 基于贝叶斯推理的传输网络故障定位方法及装置
CN110825549A (zh) 一种信息系统故障根因的确定方法、装置、设备及存储介质
Bukowski et al. Defining mean time-to-failure in a particular failure-state for multi-failure-state systems
CN114726642B (zh) 一种基于电力监控系统网络威胁的量化系统
CN115794588A (zh) 内存故障预测方法、装置、系统及监测服务器
CN111144720B (zh) 运维场景的关联分析方法、装置及计算机可读存储介质
Lukasik et al. A fault diagnostic methodology for railway automatics systems
CN105469186A (zh) 一种能够自监测的风险监测系统及自监测方法
CN113835976A (zh) 针对互联网数据中心进行告警处理的方法及装置
CN110389892A (zh) 一种基于云平台历史故障数据的故障注入方法
KR20190002280A (ko) 5g 분산 클라우드 시스템의 빅 데이터를 이용하여 장애를 관리하는 장치 및 방법
CN116089197A (zh) 一种故障设备切换演练方法、装置、设备及存储介质
CN114244864B (zh) 电力监控系统跨区互联检测方法、装置和计算机设备
CN115664928A (zh) 一种可解释的基于图的根因定位方法及装置
CN116192681A (zh) 一种板卡监控结合算力的网络设备健康评估方法
CN106571969B (zh) 一种云服务可用性评估方法和系统
CN115643158A (zh) 设备集群修复方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40065224

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant