CN100452017C - 用于网络报警类选的方法和装置 - Google Patents

用于网络报警类选的方法和装置 Download PDF

Info

Publication number
CN100452017C
CN100452017C CNB2005800151706A CN200580015170A CN100452017C CN 100452017 C CN100452017 C CN 100452017C CN B2005800151706 A CNB2005800151706 A CN B2005800151706A CN 200580015170 A CN200580015170 A CN 200580015170A CN 100452017 C CN100452017 C CN 100452017C
Authority
CN
China
Prior art keywords
monitored
monitored entity
value
entity
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005800151706A
Other languages
English (en)
Other versions
CN1954310A (zh
Inventor
约翰·巴瑞罗
瑞图哈·济迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cisco Technology Inc
Original Assignee
Cisco Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cisco Technology Inc filed Critical Cisco Technology Inc
Publication of CN1954310A publication Critical patent/CN1954310A/zh
Application granted granted Critical
Publication of CN100452017C publication Critical patent/CN100452017C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0609Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time based on severity or priority
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0613Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time based on the type or category of the network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种方法和装置,用于对从网络中的被监控实体发送的报警进行类选。为一个或多个被监控实体中的每个维护相对重要性值和健康值。被监控实体可以是能够发出报警的任何硬件和软件组件。响应于在监控设备处接收到报警,基于与所接收到的报警相关联的被监控实体的相对重要性值和健康值二者确定类选值。类选值反映出发出报警的被监控实体与另一个被监控实体共享的任何依赖性。类选值还反映出发出报警的被监控实体的当前工作状态。监控设备可以基于与每个报警相关联的类选值确定一个或多个接收到的报警应当被解决的顺序。

Description

用于网络报警类选的方法和装置
技术领域
本发明涉及对网络组件发出的报警进行处理。
背景技术
网络设备可能周期性地向对网络设备的状态进行监控的实体发送报警。报警是不期望的条件或事件已在网络设备处发生或者正在发生的通知。例如,如果对一个设备可用的网络带宽低于规定水平,或者若干计算机网络上的设备遭遇规定的条件(例如,对该设备上的处理器的利用超过90%),则可能导致报警。可以利用多种技术发起报警,例如,网络设备的报警可由设备自身发起也可由另一个实体发起。
多种组件可以监控网络设备发出的报警。例如,网络管理台(下文称作NMS)就是允许管理员对运行连接到NMS的网络设备的状态进行监控的网络元件。管理员可以查看由NMS从该NMS监控的网络设备接收到的所有报警。
在另一个示例中,被管理的服务提供者(下文称作MSP)也可以监控由网络设备发出的报警。MSP是一个实体,通常是一个企业,其管理每个都由其他实体(通常是MSP的客户)使用的一个或多个计算机网络。在小企业希望将对其自己的计算机网络的管理外包给MSP时MSP是有益的。为了对其每个客户的一个或多个计算机网络有效地进行管理,MSP要求准确地查看其客户的计算机网络。MSP可以对由该MSP管理的一个或多个计算机网络中的每个的网络设备所导致的报警进行监控,以监控这一个或多个计算机网络的状态。
对由网络设备导致的报警进行监控的实体可能接收到大量的报警。管理员负责对在监控实体处接收到的所有报警进行分类,以确定哪些报警最重要,例如,接下来应当解决哪个报警。为了减轻管理员的负担,一些对报警进行监控的实体可以将一组规则应用到所接收到的报警,来对源自指定网络设备的或者与指定问题相关联的那些报警给予更大的权重。例如,从必须保持工作的特定电子邮件服务器发出的报警或者与网络设备上的异常中断过程相关联的任何报警可以被标记来使这些报警引起管理员的注意。
然而,这种方法是有问题的,因为这要求管理员通过推测来确定何种网络设备或何种问题要求监控实体以特殊的方式对与那些网络设备或问题相关联的报警进行处理,来给予这些报警更大的权重。如果特定的网络设备或问题未在监控实体所应用的规则中被捕捉到,则监控实体可能不能区分出与该特定网络设备或问题相关联的报警的重要程度。结果,实现该方法的管理员必须向监控实体提供一组更详细的规则,这可能未能准确地反映出网络的当前商业条件或工作状态。因此,一些报警可能被给予比它们应该被给予的权重更大的权重,而应当立即解决的其他报警却未被管理员注意到。
因此,在确定由网络组件发出的报警应当被解决的顺序,同时避免本领域当前的问题和困难方面存在尚未解决的需求。该部分中所述的方法是可实现的方法,但是不一定是先前已被设想出或者实现的方法。因此,除非另行指出,否则不应当认为仅因为本部分所述的任何方法包括在本部分中就是现有技术。
附图说明
在附图的图示中以示例方式而不是限制方式示出了这里所述的实施例,其中类似的标号标识相似的元件,在附图中:
图1是示出了根据一个实施例的系统的框图;
图2是示出了根据一个实施例的功能步骤的流程图;
图3是示出了在一个实施例中获得特定被监控实体的相对重要性值的功能步骤的流程图。
图4A是示出了在第一网络中实现的实施例的框图;
图4B是示出了在第二网络中实现的实施例的框图;以及
图5是示出了可以在其上实现一个实施例的计算机系统的框图。
具体实施方式
在下面的描述中,为了说明目的,阐述了许多特定细节,以便提供对这里所述的实施例的全面理解。但是,将清楚没有这些特定细节也可以实现这些实施例。在其他实例中,以框图形式示出了公知的结构和设备,以免不必要地混淆了这里所述的实施例。
功能概述
实施例被提供来用于基于发出报警的实体的健康和相对重要性确定表达该报警的重要程度的类选值(triage value)。该类选值可以用来以描述那些报警应当首先被解决和每个报警的相对重要性的方式对显示给管理员的报警进行排序。
在一个实施例中,为一个或多个被监控实体中的每个维护相对重要性值和健康值。被监控的实体可以是能够发出报警的任何硬件或软件组件,例如,在网络设备上执行的网络设备或进程。被监控的实体的相对重要性值表达该被监控实体相对应系统中的其他被监控实体的重要性程度。被监控实体的健康值表达被监控实体的健壮性。系统中的每个被监控实体的相对重要性值和健康值可以在诸如NMS之类的监控设备处被维护。
一个或多个报警在监控设备处被接收到。这一个或多个报警中的每个是系统中的被监控实体之一发送的。对于每个接收到的报警,基于与该接收到的报警相关联的被监控实体的相对重要性值和健康值而确定类选值。每个报警的类选值反映出发出该报警的被监控实体与另一个被监控实体共享的任何依赖关系。类选值还反映出发出该报警的被监控实体的当前工作状态。
监控设备可以基于与每个报警相关联的类选值来确定一个或多个接收到的报警应当被解决的顺序。这一个或多个报警可以按照该确定的顺序显示在图形用户界面(GUI)上。利用类选值,管理员可以快速确定一个或多个接收到的报警应当被解决的顺序和每个报警的重要性的相对值。
下面描述其他实施例。
体系结构概述
图1是示出了根据一个实施例的系统100的框图。图1示出的实施例可以利用类选值来确定一个或多个接收到的报警的重要性顺序。系统100包括被监控实体110、112和114,监控设备120和通信链路130。
诸如被监控实体110、112和114之类的被监控实体每个都可由能发出报警的任何硬件或软件组件实现。被监控实体的非限定性的说明性的示例包括网络设备(例如,PC、服务器、路由器、防火墙、无线设备和蜂窝电话)和在网络设备上执行的进程(例如,在膝上型计算机上执行的软件应用或在无线设备上执行的进程)。尽管在图1中仅示出了三个被监控实体,即,被监控实体110、112和114,但是系统100可以包括任何数目的被监控实体。
被监控实体可能与另一个被监控实体具有依赖关系。如果第一被监控实体向第二被监控实体提供服务,则认为第二被监控实体具有对第一被监控实体的依赖关系。例如,如图1所示,被监控实体110向监控实体112提供服务;因此,被监控实体112具有对被监控实体110的依赖关系。如果第一被监控实体工作或不工作影响第二被监控实体工作或不工作则也可以在两个被监控实体之间建立依赖关系,在这种情形中第二被监控实体将具有对第一被监控实体的依赖关系。一些被监控实体可能不具有与另一个被监控实体的依赖关系,例如,被监控实体114就不具有与另一个被监控实体的依赖关系。
监控设备(例如监控设备120)可由系统100中的能够接收来自被监控实体的报警的任何硬件或软件实现。监控实体的非限定性的说明性的示例包括网络管理台(NMS)和用来接收和查看报警的任何功能组件。尽管在图1中仅示出了一个监控设备,即,监控设备120,但是系统100可以包括任何数目的监控设备。
通信链路130可由在被监控实体之间或被监控实体和监控设备之间提供数据交换的任何介质或机制实现。通信链路130的示例包括但不限于诸如局域网(LAN)、广域网(WAN)、以太网或因特网,或者一个或多个地面、卫星或无线链接之类的网络。
利用类选值来确定报警的重要性
图2是示出了根据一个实施例的功能步骤的流程图。通过执行图2的功能步骤,可以基于发出报警的实体的健康和相对重要性来确定表达该报警的重要程度的类选值。类选值可用于对被显示给管理员的报警排序,排序的方式描述了报警应当被解决的顺序和每个报警的相对重要性。
在步骤210中,描述一个或多个被监控实体中的每个的依赖关系的数据被存储在监控设备120中。被监控实体之间的依赖关系可由管理员标识或者可利用提供探查功能的软件标识。依赖关系可由向另一个被监控实体提供服务的被监控实体建立,例如,如果第一被监控实体向第二被监控实体提供服务,则认为第二被监控实体具有对第一被监控实体的依赖关系。如果第一被监控实体工作或不工作影响第二被监控实体工作或不工作则也可以在两个被监控实体之间建立依赖关系,在这种情形中第二被监控实体将具有对第一被监控实体的依赖关系。步骤210仅需被执行一次来初始化系统。无论何时只要被监控实体被添加到系统或者从系统被移除,则在步骤210中存储的描述一个或多个被监控实体中的每个的依赖关系的数据可能需要被更新,以反映系统中的被监控实体的新集合。在执行步骤210后,处理前进到步骤220。
在步骤220中,为系统中的一个或多个被监控实体中的每个维护相对重要性值和健康值。被监控实体的相对重要性值表达被监控实体相对于系统中的其他被监控实体的重要性程度。被监控实体的健康值表达该被监控实体的健壮程度。在一个实施例中,系统中的每个被监控实体的相对重要性值和健康值可在监控设备(例如,NMS)处被维护。在另一个实施例中,被监控实体的健康值被存储在该被监控实体处,并且被监控实体的健康值被包括在由该被监控实体发送的每个报警中。因此,在这种实施例中,监控设备120可以通过用包含在从特定被监控实体接收到的报警中的该特定被监控实体的新健康值来更新在监控设备120处维护的该特定被监控实体的健康值,从而维护该特定被监控实体的健康值。
为了为系统中的一个或多个被监控实体中的每个维护相对重要性值和健康值,必须首先确定健康值和相对重要性值二者,然后针对系统中的一个或多个被监控实体的中的每个进行必要的更新。在一个实施例中,系统中的一个或多个被监控实体的每个的健康值最初被分配一个值,该值指示该被监控实体是完全健康的,即,该被监控实体没有任何问题。例如,值100分或100%可用来代表完全健康。此后,只要被监控实体遭遇工作条件改变,该被监控实体的健康值就被调整来反映新的工作条件。
如果被监控实体遇到了问题,则该被监控实体的健康值被减小某一百分比或分值。同样地,如果被监控实体克服了问题,则该被监控实体的健康值被增大某一百分比或分值。无论何时被监控实体遇到工作条件改变时健康值被调整的量可由管理员确定,或者可以例如利用参考查找表的软件以编程方式确定。在一个实施例中,只要监控设备120接收到来自一个或多个被监控实体的报警,监控设备120就维护并更新系统中的一个或多个被监控实体中的每个的健康值。
下面参考图3更详细地描述根据一个实施例为一个或多个被监控实体中的每个维护相对重要性值的过程,图3是示出了在一个实施例中获得特定被监控实体的相对重要性值的功能步骤的流程图。
在步骤310中,确定一个或多个被监控实体中的每个的固有重要性(intrinsic importance)值。被监控实体的固有重要性值表达对于企业来说管理员认为该被监控实体的重要性程度。固有重要性值是由管理员确定的。被监控实体的固有重要性值可以是任意值,例如,范围从1到100的整数值,其中100代表最高的固有重要性,而1代表最低的固有重要性。该范围仅是说明性的,并且管理员可以使用任何范围的数来代表固有重要性值。
为了说明,下面将参考图4A讨论为若干个被监控实体确定固有重要性值的情形,图4A是示出了在第一网络中实现的实施例的框图400。图4A示出了被监控实体410、412和414,这些被监控实体中的每个具有到被监控实体416的依赖关系。为了确定图4A中的每个被监控实体的固有重要性值,管理员基于被监控实体对企业的工作的重要程度分配每个被监控实体的固有重要性值。
例如,假设被监控实体412代表企业的CEO的蜂窝电话;因此,管理员给予该设备较高的优先级。即使CEO在他的蜂窝电话(被监控实体412)上从被监控实体416接收服务,例如,通过因特网查询股票报价,管理员也可以将被监控实体412分配为具有最高优先级的被监控实体。管理员可以在不考虑任何依赖关系的情况下分配固有重要性值,例如,管理员可以向被监控实体412分配一个高固有重要性值,即“10”,而向被监控实体410、414和416分配低固有重要性值,即“1”,即使被监控实体412具有与被监控实体416的依赖关系时也是如此。在执行了步骤310之后,处理前进到步骤320。
在步骤320中,确定一个或多个被监控实体中的每个的表观重要性(extrinsic importance)值。被监控实体的表观重要性值表达被监控实体和具有对该被监控实体的依赖关系的任何被监控实体对企业的重要性程度。在一个实施例中,被监控实体的表观重要性值是与任何从属被监控实体相关联的固有重要性值的总和。例如,在图4A中,由于被监控实体410、412和414不具有任何从属被监控实体,所以被监控实体410、412和414的表观重要性值为零。被监控实体416的表观重要性值为“12”,这是因为被监控实体410和414每个都具有固有重要性值“1”,并且被监控实体412具有固有重要性值“10”,因此“10”、“1”和“1”的总和为“12”。在步骤320的处理之后,处理前进到步骤330。
在步骤330中,确定一个或多个被监控实体中的每个的相对重要性值。被监控实体的相对重要性值表达被监控实体相对于系统中的其他被监控实体的重要性程度。
在一个实施例中,相对重要性值可以被表达为百分比。被监控实体的相对重要性值可以通过下述过程确定:计算该被监控实体的固有重要性值和表观重要性值的总和,然后用产生最大值的被监控实体的固有重要性值和表观重要性值的总和来除。例如,在图4A中,被监控实体416的固有重要性值和表观重要性值的总和为“13”,该值比任何其他被监控实体的固有重要性值和表观重要性值的总和都大。因此,通过用13除1得到被监控实体410的相对重要性值,该值等于8(为简化起见,所有相对重要性值都被取整),通过用13除10得到被监控实体412的相对重要性值,该值等于77,并且通过用13除13得到被监控实体416的相对重要性值,该值等于100。
相对重要性值提供了一种用于确定哪些被监控实体比其他被监控实体更重要的机制。例如,如果通过相对重要性值排列图4A中的被监控实体,则被监控实体416最重要,被监控实体412次之,被监控实体410和414最后。相对重要性值还提供了一种用于确定第一被监控实体比另一个被监控实体重要多少的机制。例如,因为被监控实体412具有相对重要性值77,而被监控实体414具有相对重要性值“8”,所以管理员可以确定出被监控实体412对于系统来说也相当重要,而被监控实体414就没有那么重要。
示例1用伪代码描述了在一个实施例中确定相对重要性值的算法。
示例1
 Let MAX_INTRINSIC_IMPORTANCE be initialized to 0Let MAX_EXTRINSIC_IMPORTANCE be initialized to 0COMPUTING EXTRINSIC_IMPORTANCE given a MANAGED_OBJECTvisited:=null setMi.RELATIVE_IMPORTANCE:=Compute_Importance(Mi,visited)Compute_Extrinsic_Importance(MANAGED_OBJECT Mi,visted)if visited.contains(Mi){return Mi.EXTRINSIC_IMPORTANCE}
            for{Md|each Managed Object in Mi.DEPENDENTS}if(Md.DEPENDENTS.isEmpty){if(Mi.LOCAL_IMPORTANCE>MAX_LOCAL IMPORTANCE)}MAX_LOCAL_IMPORTANCE=Mi.LOCAL_IMPORTANCE}return Mi.LOCAL_IMPORTANCE}else{Mi.EXTRINSIC_IMPORTANCE=Compute_Extrinsic_Importance(Md)+Mi.LOCAL_IMPORTANCEif(Mi.EXTRINSIC_IMPORTANCE>MAX_EXTRINSIC_IMPORTANCE){MAX_EXTRINSIC_IMPORTANCE=Mi.EXTRINSIC_IMPORTANCE}visited.add(Mi)return Mi.EXTRINSIC_IMPORTANCE}}RELATIVE IMPORTANCE given a MANAGED_OBJECT MxRELATIVE_IMPORTANCE:=TRUNC(((Mx.INTRINSIC_IMPORTANCE+Mx.EXTRINSIC_IMPORTANCE)(MAX_INTRINSIC_IMPORTANCE+MAX.EXTRINSIC IMPORTANCE)*100)+5)INSERT DEPENDENT Mx for MANAGED_OBJECT MiMi.DEPENDENTS=Mi.DEPENDENTS+MxMx.SUPPORTER=Mx.SUPPORTERS+MiMi.EXTRINSIC_IMPORTANCE=Compute_Extrinsic_Importance(Mi)DELETE DEPENDENT Mx for MANAGED_OBJECT Mi
         Mi.DEPENDENTS=Mi.DEPEDNENTS-MxMx.SUPPORTER=Mx.SUPPORTS-MiMi.EXTRINSIC_IMPORTANCE=Compute_Extrinsic_Importance(Mi)UPDATE INTRINSIC_importance to x for MANAGED_object MiMi.INTRINSIC_IMPORTANCE:=XIF(x>MAX_INTRINSIC_IMPORTANCE){MAX_INTRINACI_IMPORTANCE=x}Compute_Intrinsic_Importance(Mi)Compute_Intrisic_Importance(Mi)for{Md|each Managed Object in Mi.SUPPORTS}{if(Md.SUPPORTERS.isEmpty){Compute_Extrinsic_Importance(Mi)}else{Compute_Intrinsic_Importance(Md)}Compute_Extrinsic_Importance(Mi)}ALARM TRIAGE ValueGiven an Alarm Ax for Managed Object MxAx.TRIAGE_VALUE=Mx.HEALTH X Mx.RELATIVE_IMPORTANCE
注意,上述方法和在示例1中描述的用于确定固有重要性值、表观重要性值和相对重要性值的那些方法仅是说明性的;本发明的其他实施例可以采用不同的方法来确定固有重要性值、表观重要性值和相对重要性值。在执行了步骤220后,处理前进到步骤230。
返回图2,在步骤230中,接收到每个都与系统中的一个或多个被监控实体相关联的一个或多个报警。监控设备120可以接收步骤230中的报警。在一个实施例中,无论何时只要在被监控实体上遇到问题或者发生事件,与该被监控实体相关联的一个或多个报警中的每个就可以从该被监控实体被发送到监控设备120。例如,报警可在发生了改变被监控实体的健康值的事件的任何时刻由该被监控实体发送。在执行了步骤230之后,处理前进到步骤240。
在步骤240中,对于在步骤230中接收到的一个或多个报警中的每个,确定基于与该报警相关联的被监控实体的相对重要性值和健康值二者的类选值。类选值是报警对于系统的重要性程度的表达,该表达是基于与该报警相关联的被监控实体的相对重要性值和健康值的。在一个实施例中,报警的类选值是基于与该报警相关联的被监控实体的相对重要性值和与该报警相关联的被监控实体的健康值的乘积的。在其他实施例中,类选值可以是基于与报警相关联的被监控实体的加权相对重要性值和与该报警相关联的被监控实体的加权健康值的乘积的。加权相对重要性值是用可配置量放大或缩小的相对重要性值,并且加权健康值是用可配置量放大或缩小的健康值。在执行了步骤240后,处理前进到步骤250。
在步骤250中,基于与每个报警相关联的类选值确定出一个或多个报警应当被解决的顺序。在一个实施例中,可以通过下述过程确定出一个或多个报警应当被解决的顺序:按照一个或多个报警的关联类选值以降序排列,例如,具有最高类选值的报警应当首先被解决,具有下一个最高类选值的报警应当下一个被解决,依次类推。
一旦基于与每个报警相关联的类选值确定了一个或多个报警应当被解决的顺序后,管理员可以使用该信息来快速确定哪些报警应当首先解决。另外,管理员还可以基于与每个报警相关联的类选值来快速确定每个报警的重要性程度。具有较高类选值的报警比具有较低类选值的报警重要。通过检查报警的类选值,管理员可以确定该报警的关键程度。
一个或多个报警可以显示在图形用户界面(GUI)上,伴有描述与每个报警相关联的类选值的信息。例如,一个或多个报警可以以按照它们的类选值排列的顺序显示在GUI上,这将允许管理员快速确定关于该报警的有用信息,例如,哪些报警应当首先被解决,以及每个报警对于企业的关键程度。
显示一个或多个报警的GUI可以以不同的颜色显示关于特定报警的信息,例如,如果报警的类选值比规定的阈值高则用红色。可以提供图表、图形或者GUI上的其他图示来允许管理员可视地评估与报警相关联的被监控实体的类选值、健康值、固有重要性、表观重要性或者相对重要性。利用这种信息,管理员可以快速确定哪些报警应当首先被解决,以及每个报警对于企业的关键程度。因此,管理员从在GUI上显示的信息可以快速确定与报警相关联的问题对企业的影响。
上面的用于计算固有重要性值、表观重要性值、相对重要性值和类选值的方法仅是示例性的;本发明的其他实施例可以在不脱离这里的教导的精神和范围的情况下采用计算上述值的其他方法。
向系统添加新的被监控实体
被监控实体可以被添加到实施例或者从实施例移除。为了示出在一个实施例的系统中改变被监控实体的数目所涉及的功能步骤,参考图4B,该图是示出了一个实施例的框图。除了被监控实体418已被添加到图4B的系统450之外,图4B的系统450与图4A的系统400类似。
当新的被监控实体418被添加到系统450时,必须在监控设备(在图4B中未示出)处存储被监控实体418的相对重要性值和健康值。此后,无论何时只要检测到任一值的改变,被监控实体418的相对重要性值和健康值都被更新。在一个实施例中,被监控实体418的健康值可以在被监控实体418处被维护,并且被包括在由被监控实体418发送的任意报警中。
除了维护被监控实体418的相对重要性值和健康值以外,与被监控实体410、412、414和416中的每个相关联的相对重要性值也被更新以反映出新的被监控实体418。如图4B所示,被监控实体410、412、414和416的相对重要性已改变来反映被监控实体418的添加。
另外,无论何时只要被监控实体被添加到系统450或者从系统450移除,则对一个或多个被监控实体中的每个的依赖关系进行描述的数据可能需要被更新来反映系统中的被监控实体的新集合。结果,可能需要执行参考图2的步骤210描述的功能来确保对一个或多个被监控实体中的每个的依赖关系进行描述的数据反映出系统450的当前状态。
实现机制
在一个实施例中,监控实体或被监控设备可以被实现在计算机系统中。图5是示出了可以在其上实现实施例的计算机系统500的框图。计算机系统500包括总线502或用于传输信息的其他通信机制,以及与总线502耦合用于处理信息的处理器504。计算机系统500还包括主存储器506,例如,随机访问存储器(RAM)或其他动态存储设备,其耦合到总线502,用于存储信息和要由处理器504执行的指令。主存储器506还可以被用于在执行要由处理器504执行的指令期间存储临时变量或其他中间信息。计算机系统500还包括只读存储器(ROM)508或其他静态存储设备,其耦合到总线502,用于存储静态信息和处理器504的指令。还提供了诸如磁盘或光盘之类的存储设备510,其耦合到总线502,用于存储信息和指令。
计算机系统500可以经由总线502耦合到用于向计算机用户显示信息的显示器512,例如阴极射线管(CRT)。包括字母和其他键的输入设备514耦合到总线502,用于传输信息和命令选择到处理器504。另一种用户输入设备是光标控制设备516,例如,鼠标、轨迹球或者光标方向键,用于传输方向信息和命令选择到处理器504和用于控制光标在显示器512上移动。这种输入设备一般具有沿两个轴(第一轴,例如x;和第二轴,例如y)的两个自由度,其允许设备指定平面上的位置。
本发明涉及利用用于实现这里所述的技术的计算机系统500。根据本发明一个实施例,那些技术由计算机系统500响应于处理器504执行主存储器506中包含的一条或多条指令的一个或多个序列而执行。这种指令可以从另一机器可读介质(例如,存储设备510)被读到主存储器506中。执行主存储器506中包含的指令序列致使处理器504执行这里所述的过程步骤。在替换实施例中,可以用硬连线电路来替换软件指令或者与软件指令结合来实现本发明。因此,本发明的实施例不限于硬件电路和软件的任何特定组合。
这里使用的术语“机器可读介质”指参与来提供致使机器以特定方式工作的数据的任何介质。在利用计算机系统500实现的实施例中,例如在向处理器504提供指令执行时涉及多种机器可读介质。这种介质可以采用多种形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘或磁盘,例如,存储设备510。易失性介质包括动态存储器,例如,主存储器506。传输介质包括同轴电缆、铜线和光纤,包括包含总线502的线路。传输介质也可以采用声波或光波的形式,例如,在无线电波和红外数据通信期间产生的那些。
机器可读介质的常见形式包括例如软盘、柔性盘、硬盘、磁带或者任何其他磁介质,CD-ROM、或者任何其他光介质,穿孔卡、纸带、具有孔状图案的任何物理介质,RAM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或卡带,下文所述载波,或者计算机可从其读取的任何其他介质。
在传送一条或多条指令的一个或多个序列到处理器504执行时可能涉及多种形式的机器可读介质。例如,指令最初可能被存储在远程计算机的磁盘上。该远程计算机可以将指令加载到其动态存储器中,然后利用调制解调器通过电话线路发送这些指令。计算机系统500本地的调制解调器可以接收电话线路上的数据,并且使用红外发射器将数据转换成红外信号。红外探测器可以接收红外信号中承载的数据,并且适当的电路可以将该数据放置到总线502上。总线502将数据传送到主存储器506,处理器504从主存储器506提取数据并且执行这些指令。由主存储器506接收的指令可以可选地在由处理器504执行之前或之后被存储到存储设备510上。
计算机500还包括耦合到总线502的通信接口518。通信接口518提供耦合到网络链路520的双向数据通信,网络链路520被连接到本地网络522。例如,通信接口518可以是综合业务数字网(ISDN)卡或调制解调器,用来提供到相应类型的电话线路的通信连接。作为另一个示例,通信接口518可以是局域网(LAN)卡,用来提供到兼容LAN的数据通信连接。也可以实现无线链路。在任何这种实现方式中,通信接口518发送和接收电、电磁和光信号,这些信号承载代表各种类型的信息的数字数据流。
网络链路520一般提供通过一个或多个网络到其他数据设备的数据通信。例如,网络链路520可以提供通过局域网522到主计算机524或者到由因特网服务提供商(ISP)526操作的数据装备的连接。ISP 526又提供通过全球分组数据通信网络(现在通常称作“因特网”528)的数据通信服务,本地网络522和因特网528二者都使用承载数字数据流的电、电磁或者光信号。通过各种网络的信号和网络链路520上的通过通信接口518的信号(这些信号承载去往和来自计算机系统500的数字数据)是传输信息的载波的示例形式。
计算机系统500可以通过网络、网络链路520和通信接口518发送消息和接收数据,包括程序代码。在因特网示例中,服务器530可能通过因特网528、ISP 526、本地网络522和通信接口518传输请求应用程序的请求代码。
接收到的代码可以在其被接收到时由处理器504执行,和/或存储在存储设备510或者其他非易失性存储设备中用于以后执行。这样,计算机系统500可以以载波形式获得应用代码。
在前面的说明书中,已参考许多特定细节描述了本发明的实施例,这些特定细节可能随实现方式而变。因此,本发明和申请人期望的发明的唯一的排他的指示符是从本申请(包括任何后续补正)得出的权利要求的集合。在这里明确阐述的对这些权利要求中包含的术语的任何定义应当约束在权利要求中使用的这些术语。因此,在权利要求中未明确引用的限制、元素、特性、特征、优点或属性不应当以任何方式限制这种权利要求的范围。因此,说明书和附图应当被认为是说明性的而不是限制性的。

Claims (12)

1.一种用于网络报警类选的方法,包括:
为一个或多个被监控实体中的每个维护相对重要性值和健康值,其中被监控的实体的相对重要性值表达该被监控实体相对应系统中的其他被监控实体的重要性程度,被监控实体的健康值表达被监控实体的健壮性;
接收各自与所述一个或多个被监控实体之一相关联的一个或多个报警;
针对所述一个或多个报警中的每个,基于与所述报警相关联的被监控实体的相对重要性值和健康值二者确定类选值,其中类选值是报警对于系统的重要性程度的表达;以及
基于与所述一个或多个报警中的每个报警相关联的所述类选值,确定所述一个或多个报警应当被解决的顺序。
2.如权利要求1所述的方法,其中,所述一个或多个报警中的每个报警的类选值是基于与所述报警相关联的被监控实体的相对重要性值和与所述报警相关联的被监控实体的健康值的乘积的。
3.如权利要求1所述的方法,其中,所述一个或多个被监控实体中至少一个是网络设备。
4.如权利要求1所述的方法,其中,所述一个或多个被监控实体中的至少一个是在网络设备上执行的进程。
5.如权利要求1所述的方法,其中,所述一个或多个被监控实体中的特定被监控实体的相对重要性值反映出所述特定被监控实体的表观重要性值对与所述一个或多个被监控实体中的所有其他被监控实体相关联的表观重要性值的比较,其中被监控实体的表观重要性值表达被监控实体和具有对该被监控实体的依赖关系的任何被监控实体对企业的重要性程度。
6.如权利要求5所述的方法,其中,所述一个或多个被监控实体中的每个关联有固有重要性值,并且其中与所述一个或多个被监控实体中的具体被监控实体相关联的表观重要性值反映出与具有对所述具体被监控实体的依赖性的任何被监控实体相关联的所有固有重要性值的总和,其中被监控实体的固有重要性值表达对于企业来说管理员认为该被监控实体的重要性程度。
7.如权利要求1所述的方法,还包括:
为一个或多个被监控实体中的每个维护固有重要性值,其中被监控实体的固有重要性值表达对于企业来说管理员认为该被监控实体的重要性程度。
8.如权利要求1所述的方法,还包括:
为一个或多个被监控实体中的每个维护表观重要性值,其中被监控实体的表观重要性值表达被监控实体和具有对该被监控实体的依赖关系的任何被监控实体对企业的重要性程度。
9.如权利要求1所述的方法,还包括:
基于所述类选值按照所述一个或多个报警应当被解决的顺序在图形用户界面(GUI)上显示所述一个或多个报警。
10.如权利要求1所述的方法,还包括:
添加新的被监控实体到所述一个或多个被监控实体中,其中添加所述新的被监控实体包括:
为所述新的被监控实体维护所述相对重要性值和所述健康值;
更新与所述一个或多个被监控实体中的每个相关联的表观重要性值和相对重要性值来反映所述新的被监控实体,其中被监控实体的表观重要性值表达被监控实体和具有对该被监控实体的依赖关系的任何被监控实体对企业的重要性程度;以及
更新描述所述一个或多个被监控实体中的每个的依赖关系的数据的集合来反映所述新的被监控实体。
11.如权利要求1所述的方法,其中,所述一个或多个报警中的特定报警被关联到所述一个或多个被监控实体中的特定被监控实体,并且其中响应于与所述特定被监控实体相关联的所述健康值的改变而发送所述特定报警。
12.如权利要求1所述的方法,还包括:
存储描述所述一个或多个被监控实体中的每个的依赖关系的数据。
CNB2005800151706A 2004-05-12 2005-04-26 用于网络报警类选的方法和装置 Expired - Fee Related CN100452017C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/844,652 US7084752B2 (en) 2004-05-12 2004-05-12 Method and apparatus for triage of network alarms
US10/844,652 2004-05-12

Publications (2)

Publication Number Publication Date
CN1954310A CN1954310A (zh) 2007-04-25
CN100452017C true CN100452017C (zh) 2009-01-14

Family

ID=35308891

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005800151706A Expired - Fee Related CN100452017C (zh) 2004-05-12 2005-04-26 用于网络报警类选的方法和装置

Country Status (5)

Country Link
US (1) US7084752B2 (zh)
EP (1) EP1759302A4 (zh)
CN (1) CN100452017C (zh)
CA (1) CA2565528C (zh)
WO (1) WO2005114609A2 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2383881A1 (en) * 2002-04-29 2003-10-29 Ibm Canada Limited-Ibm Canada Limitee Generic control interface with multi-level status
US9201420B2 (en) * 2005-04-08 2015-12-01 Rosemount, Inc. Method and apparatus for performing a function in a process plant using monitoring data with criticality evaluation data
US7899720B1 (en) 2005-10-27 2011-03-01 Intuit Inc. Method and apparatus for managing alerts
CN100479385C (zh) * 2006-06-01 2009-04-15 华为技术有限公司 一种多设备集中维护方法和系统
US7792036B2 (en) 2007-01-23 2010-09-07 Cisco Technology, Inc. Event processing in rate limited network devices
US7902973B2 (en) * 2008-11-17 2011-03-08 Cisco Technology, Inc. Alarm reordering to handle alarm storms in large networks
US8732501B1 (en) * 2009-02-09 2014-05-20 Cisco Technology, Inc. System and method for intelligent energy management in a network environment
US8352769B1 (en) 2009-02-09 2013-01-08 Cisco Technology, Inc. System and method for querying for energy data in a network environment
US8276010B2 (en) * 2009-02-12 2012-09-25 Cisco Technology, Inc. Network based system to control and monitor power consumption of networked elements
US8996900B2 (en) * 2010-02-04 2015-03-31 Cisco Technology, Inc. System and method for managing power consumption in data propagation environments
US9026812B2 (en) 2010-06-29 2015-05-05 Cisco Technology, Inc. System and method for providing intelligent power management in a network environment
US9122995B2 (en) 2011-03-15 2015-09-01 Microsoft Technology Licensing, Llc Classification of stream-based data using machine learning
US8849473B2 (en) 2011-08-17 2014-09-30 Cisco Technology, Inc. System and method for notifying and for controlling power demand
US9058167B2 (en) 2011-09-06 2015-06-16 Cisco Technology, Inc. Power conservation in a distributed digital video recorder/content delivery network system
US20130132745A1 (en) 2011-11-22 2013-05-23 Cisco Technology Inc. System and method for network enabled wake for networks
US9141169B2 (en) 2012-01-20 2015-09-22 Cisco Technology, Inc. System and method to conserve power in an access network without loss of service quality
US9405291B2 (en) * 2012-07-31 2016-08-02 Fisher-Rosemount Systems, Inc. Systems and methods to monitor an asset in an operating process unit
WO2014054051A1 (en) * 2012-10-03 2014-04-10 Forbes Marshall Pvt. Ltd. Health monitoring system for a process plant and a method thereof
US9958924B2 (en) 2013-08-28 2018-05-01 Cisco Technology, Inc. Configuration of energy savings
CN106164795B (zh) * 2014-03-06 2020-06-05 Abb瑞士股份有限公司 用于分类报警的优化方法
CN104270277B (zh) * 2014-10-24 2018-07-10 深圳中兴网信科技有限公司 报警信息处理方法和报警信息处理装置
US10235516B2 (en) 2016-05-10 2019-03-19 Cisco Technology, Inc. Method for authenticating a networked endpoint using a physical (power) challenge
CN112419655B (zh) * 2020-11-16 2022-09-20 浙江大华技术股份有限公司 一种报警信息推送方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1267415A (zh) * 1997-08-14 2000-09-20 诺基亚网络有限公司 通信设备的集中管理
US20020103674A1 (en) * 2000-05-05 2002-08-01 Reeder Ryan Anthony Hospital monitoring and control system and method
US20030117278A1 (en) * 2000-03-23 2003-06-26 Hiroshi Fukuda System and method for operating a plurality of power generation stations

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4247846A (en) * 1979-04-11 1981-01-27 Conoco, Inc. Alarm notification apparatus
US5400246A (en) * 1989-05-09 1995-03-21 Ansan Industries, Ltd. Peripheral data acquisition, monitor, and adaptive control system via personal computer
FI107312B (fi) * 1997-10-14 2001-06-29 Nokia Networks Oy Verkonvalvontamenetelmä tietoliikenneverkkoa varten
US5967975A (en) * 1997-11-13 1999-10-19 Ridgeway; Donald G. Home health parameter monitoring system
JP2004535624A (ja) * 2001-03-02 2004-11-25 コンピュータ アソシエイツ シンク,インコーポレイテッド コンテクストに基づいてメッセージをフィルタリングする方法及び装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1267415A (zh) * 1997-08-14 2000-09-20 诺基亚网络有限公司 通信设备的集中管理
US20030117278A1 (en) * 2000-03-23 2003-06-26 Hiroshi Fukuda System and method for operating a plurality of power generation stations
US20020103674A1 (en) * 2000-05-05 2002-08-01 Reeder Ryan Anthony Hospital monitoring and control system and method

Also Published As

Publication number Publication date
US20050253701A1 (en) 2005-11-17
CA2565528C (en) 2012-03-06
EP1759302A4 (en) 2013-01-09
WO2005114609A2 (en) 2005-12-01
US7084752B2 (en) 2006-08-01
EP1759302A2 (en) 2007-03-07
WO2005114609A3 (en) 2006-07-27
CA2565528A1 (en) 2005-12-01
CN1954310A (zh) 2007-04-25

Similar Documents

Publication Publication Date Title
CN100452017C (zh) 用于网络报警类选的方法和装置
US9246777B2 (en) Computer program and monitoring apparatus
CN101207623B (zh) 用于监控服务于业务事务的资源的系统和方法
US8634330B2 (en) Inter-cluster communications technique for event and health status communications
EP1116121A1 (en) Interface system for integrated monitoring and management of network devices in a telecommunications network
US20110208826A1 (en) Method and apparatus for providing notification of network alarms using a plurality of distributed layers
CN113328872A (zh) 故障修复方法、装置和存储介质
CN101790868B (zh) 用于监视具有服务级目的的计算机网络资源的方法和系统
CN104487989A (zh) 自主网络哨兵
US10862738B2 (en) System and method for alarm correlation and root cause determination
CN106993043A (zh) 基于代理的数据通信系统和方法
US20140059154A1 (en) Leader Node Appointment
CN105681404A (zh) 用于分布式缓存系统的元数据节点管理方法和装置
CN101227327B (zh) 一种集中网管系统以及上载下级告警信息的方法
CN113590437A (zh) 一种告警信息处理方法、装置、设备和介质
CN105490835A (zh) 信息监控方法和装置
CN113065953A (zh) 一种基于分布式的期货中继交易系统
CN100486183C (zh) 用于检测一个节点的操作风险的方法和系统
US8059548B1 (en) Automatic displaying of alarms in a communications network
KR20200113995A (ko) 엣지 인공지능 서비스에 대한 고가용성 보장을 위한 삼중화 이상 다중화 구조 및 방법
CN116300564A (zh) 一种支持跨地域跨集群混合基础设施自动化监控运维平台
CN114928529A (zh) 一种信息系统及信息系统故障检测方法
CN111382035A (zh) 一种运维系统的告警触发规则的全局匹配装置及方法
TWI814587B (zh) 告警系統及其方法
CN105956920A (zh) 监控交易的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090114

Termination date: 20180426