CN1672362B

CN1672362B - 用于故障测量的方法和装置

Info

Publication number: CN1672362B
Application number: CN03818320.XA
Authority: CN
Inventors: 黄建东; 宋瑟君; 马达夫·马拉泰
Original assignee: Cisco Technology Inc
Current assignee: Cisco Technology Inc
Priority date: 2002-07-30
Filing date: 2003-07-30
Publication date: 2010-05-12
Anticipated expiration: 2023-07-30
Also published as: AU2003257943B2; CA2493525C; CA2783206A1; US20070028147A1; US7523355B2; EP1525713A2; CN1672362A; WO2004012395A2; CA2783206C; WO2004012395A3; US20040024865A1; US7149917B2; CA2493525A1; AU2003257943A1; EP1525713B1

Abstract

一种故障测量系统(OMS)在网络处理设备处监控并且测量故障数据。故障数据可以被存储在设备中，并且可以被传送到网络管理系统(NMS)或者其它相关分析工具以导出故障信息。OMS使故障测量处理自动化，并且与现有故障测量系统相比更加准确、有效和成本有效。

Description

用于故障测量的方法和装置

技术领域

本发明涉及用于故障测量的方法和装置。

背景技术

高可用性是支持诸如电话、视频会议和在线事务处理之类应用的因特网协议(IP)网络和其它电信网络中的关键系统需求。故障测量对于评估和提高网络可用性很关键。大多数因特网服务提供商(ISP)使用诸如基于网络管理系统(NMS)的轮询等自动化工具或者手动使用事故单(trouble ticket)数据库进行故障测量。

两种故障测量基准已被用于测量网络故障：网络设备故障和用户连接停机时间(downtime)。由于可量测性的限制，大多数系统仅提供到ISP的接入路由器程度的故障测量。接入路由器和用户器件之间的任何故障测量和计算都不得不手动进行。随着网络变得更大，该过程变得冗长、耗时、易出错并且代价高昂。

当前的故障测量方案也不能充分满足对准确性、可量测性、性能、成本效率和易管理的需求。一个原因是从故障管理服务器到用户器件的端到端网络监控在网络路径上引入了开销，从而可量测性有限。从故障管理服务器到用户器件的多跳(hop)还降低了测量的准确性。例如，管理服务器和用户器件之间的一些失效可能不是由用户连接故障引起的，而是由IP网络中别处的故障引起的。基于故障管理服务器的监控工具还需要服务器来进行网络可用性测量，并且还需要ISP更新或者替换现有的故障管理软件。

几种现有的管理信息库(MIB)被用于对象运行/停机(up/down)状态监控，所述现有的MIB包括因特网工程任务组(IETF)接口MIB、IETF实体MIB和其它实体警告MIB。但是，这些MIB并不保持对就每个对象的失效计数和累积故障时间而言的故障数据的跟踪，并且缺乏某些故障测量可能需要的数据存储能力。

本发明解决了和现有技术相关联的该问题和其它问题。

发明内容

一种故障测量系统(OMS)在网络处理设备处监控并测量故障数据。故障数据可以被传送到网络管理系统或者其它相关分析工具，以得到故障信息。故障数据被存储在开放访问数据结构中，例如管理信息库(MIB)，所述开放访问数据结构允许为不同的过滤和相关分析工具轮询故障数据或者提供故障数据的通知。OMS使故障测量处理自动化，并且与现有的故障测量系统相比更加准确、有效并且成本有效。

根据本发明的第一方面，提供了一种用于标识故障的方法，包括：使用位于网络处理设备本地中的故障测量系统来自动测量故障，测量到的故障包括由与测量到的故障相关联的一个或多个对象中的本地对象引起的本地故障和由所述一个或多个对象中的远程对象引起的远程故障；使用故障测量结果来标识所述本地对象的累积故障时间和所述远程对象的累积故障时间；以及将所述本地对象的累积故障时间和所述远程对象的累积故障时间进行比较。

根据本发明的第二方面，提供了一种标识故障的方法，包括：在网络处理设备处本地监控与所述网络处理设备相关联的对象的流量统计信息；监控与所述网络处理设备相关联的对象的链路状态；ping被连接到所述网络处理设备的远程设备；监控所述ping的结果；以及根据所监控的流量统计、所监控的链路状态和所监控的ping来检测故障。

根据本发明的第三方面，提供了一种标识故障的方法，包括：通过监控所接收的流量来在网络处理设备处本地标识故障事件；响应于通过监控所接收的流量来标识故障事件，启动对被连接到所述网络处理设备的邻近设备的测试分组ping操作；以及向网络管理服务器或者相关分析工具提供所述故障事件和所述ping的结果，以进行故障分析。

根据本发明的第四方面，提供了一种网络处理设备，包括：一个或多个处理器，所述一个或多个处理器被配置成管理与所述网络处理设备相关联的对象的故障监控，监控到的故障包括由所监控对象中的本地对象引起的本地故障和由所监控对象中的远程对象引起的远程故障；并且所述一个或多个处理器还被配置为确定所述本地对象的累积故障时间和所述远程对象的累积故障时间，并且将所述本地对象的累积故障时间和所述远程对象的累积故障时间进行比较。

根据本发明的第五方面，提供了一种测量故障的方法，包括：在网络处理设备处本地监控故障；标识与相同线路卡相关联的不同故障；将所述不同的线路卡故障过滤成单个线路卡故障指示；以及向故障相关分析系统发送所述单个线路卡故障指示。

根据本发明的第六方面，提供了一种用于测量网络处理设备的故障的方法，包括：产生所述网络处理设备的时间戳；将所述时间戳本地存储在所述网络处理设备中；周期性地用所述网络处理设备的最新近的时间戳更新所存储的时间戳；在网络处理设备故障期间保持所述最新近的所存储时间戳；以及使用所保持的最新近的所存储时间戳来确定所述网络处理设备的故障时间。

根据本发明的第七方面，提供了一种用于标识故障的系统，包括：用于使用位于网络处理设备本地中的故障测量系统来自动测量故障的装置，测量到的故障包括由与测量到的故障相关联的一个或多个对象中的本地对象引起的本地故障和由所述一个或多个对象中的远程对象引起的远程故障；用于使用故障测量来标识所述本地对象的累积故障时间和所述远程对象的累积故障时间的装置；以及用于将所述本地对象的累积故障时间和所述远程对象的累积故障时间进行比较的装置。

由下面本发明优选实施例的详细说明和附图，本发明的上述和其它目的、特征和优点将变得更加清楚。

附图说明

图1是示出了使用故障测量系统(OMS)的网络的图。

图2是示出了可由OMS检测的不同故障中的一些的框图。

图3是示出了如何使用多层方案进行故障测量的框图。

图4是OMS的详细框图。

图5示出了OMS中所使用的事件历史表和对象故障表。

图6示出了在OMS中如何使用配置表和配置文件。

图7示出了如何由OMS处理命令的一个示例。

图8示出了累积故障时间(AOT)如何用于故障测量。

图9示出了累积失效次数(NAF)如何用于故障测量。

图10示出了平均失效间隔时间(MTBF)和平均失效前时间(MTTF)是如何由OMS故障数据计算得到的。

图11A和11B示出了如何区分本地故障和远程故障。

图12示出了故障数据是如何传送到网络管理系统(NMS)的。

图13是示出了OMS如何进行路由器处理器-磁盘检查点(checkpoint)操作的图。

图14是示出了OMS如何进行路由器处理器-路由器处理器检查点操作的图。

具体实施方式

图1示出了IP网络10，IP网络10包括位于不同网络处理设备16中的一个或多个故障测量系统(OMS)15。在一个示例中，网络处理设备16是接入路由器16A和16B、交换机或者核心路由器16C。但是，这些仅为示例，OMS 15可以位于任何需要故障监控和测量的网络设备中。网络管理系统(NMS)12位于网络10中的任何服务器或者其它网络处理设备，其处理由OMS 15产生的故障数据。

所示出的接入路由器16A连接到用户器件20和另一接入路由器16B。本例中的用户器件20是路由器，但可以是用于将端点(未示出)连接到IP网络10的任何设备。端点可以是任何个人计算机、局域网(LAN)、T1线路或者任何其它在IP网络10上通信的设备或接口。

所示出的核心路由器16C耦合到接入路由器16D和16E。但是核心路由器16C代表组成IP网络10部分的任何网络处理设备。为简单起见，路由器、核心路由器、交换机、接入路由器和其它网络处理设备在下面被通称为“路由器”或者“网络处理设备”。

在一个示例中，OMS 15选择性地位于网络处理设备16中，其中网络处理设备16组成网络10中的单一失效点(single point of failure)。单一失效点可以指包括使设备可在网络10上通信的单个路径的任何网络处理设备、链路或者接口。例如，接入路由器16A可能是用户器件20可用来接入网络10的唯一设备。这样，接入路由器16A可以被认为是用户路由器20的单一失效点。

路由器16中的OMS 15实施故障监控和测量。来自这些测量的故障数据然后被传送到NMS 12。NMS 12然后对故障数据进行相关分析(correlation)，并且计算不同的故障统计和故障值。

图2标识了由OMS 15自动监控和测量的故障。这些不同类型的故障包括路由器处理器(RP)30失效。RP失效可以包括对处理器30的拒绝服务(DOS)攻击22。这指的是下述情况：在某段时间内处理器30被100％使用，从而导致对用户请求拒绝服务的情况。OMS 15还检测可在网络处理设备中运行的软件进程的失效。

OMS 15还可以检测线路卡33中线路卡33的失效、一个或多个物理接口34的失效(第2层故障)或者一个或多个逻辑接口35的失效(第3层故障)。在一个示例中，逻辑接口35可以包括多个T1信道。OMS 15还可以检测路由器16和用户器件20之间的链路36的失效，或者检测路由器16和对等路由器39之间的链路36的失效。也可检测多路复用机(MUX)、集线器或者交换机37的失效，或者MUX 37和用户器件20之间的链路38的失效.还可以检测远程用户器件20的失效.

OMS 15中的故障监控管理器40在本地监控这些不同的失效，并且存储与该故障监控和测量相关联的故障数据42。故障数据42可以由NMS 12或者其它工具访问，以进行进一步的相关分析和计算操作。

图3示出了如何使用混合两层方法来处理故障。第一层使用路由器16来自治地并且自动地进行本地故障监控、测量以及原始(raw)故障数据存储。第二层(tier)包括路由器制造商工具78、第三方工具76和网络管理系统(NMS)12，用于使用路由器16中的故障数据个别地或者组合地进行相关分析以及计算故障值。

故障管理信息库(MIB)14提供由不同的过滤和相关分析工具76、78和NMS 12对故障数据的开放访问。工具76和78输出的相关分析后的故障信息可以与NMS 12结合使用以标识故障。在替代性实施例中，NMS 12直接从路由器16接收原始故障数据，然后进行任何必要的过滤和相关分析操作。在另一实施例中，过滤和相关分析操作的一些或者全部是在路由器16本地或者另一工作站中进行的，然后被传送到NMS 12。

故障事件过滤操作可以尽可能地在故障事件源附近进行，以减少IP网络中所需的处理开销，以及减少在上面的相关分析层处所需的系统资源。例如，路由器16中的OMS 15可以仅发送指示线路卡失效的一条通知，而不是发送和同一线路卡相关联的许多逻辑接口的失效指示。故障数据被存储于路由器16中，然后由NMS 12或者其它工具轮询。这避免了由于不可靠的网络传输、链路故障或者链路拥塞导致某些数据丢失。

故障MIB 14可以支持进行故障计算的不同工具76和78，所述故障计算例如平均失效间隔时间(MTBF)，平均修复时间(MTTR)和每个对象、设备或者网络的可用性。故障MIB 14还可以用于用户服务级别协议(SLA)分析。

图4A和4B示出了在路由器16内部运行的OMS 15的不同的功能元件。故障测量44是从路由器系统日志50、错误管理器(FM)52和路由器处理器30获得的。故障测量44是根据命令行接口58上管理的配置数据62进行的。CLI命令和配置信息是从NMS 12或者其它上层故障工具发送的。通过MIB 56管理并且向NMS12中的一个或多个或者其它上层工具发送从故障测量44获得的故障数据42。

故障测量44由故障监控管理器40来控制。配置数据62是通过CLI解析器60产生的。MIB 56包括使用故障MIB 14传送的故障MIB数据42。

故障监控管理器40实施系统日志消息过滤64和来自路由器操作系统(OS)74的第2层(L2)轮询66，以及操作系统错误管理器68。故障监控管理器40还控制流量监控与第3层(L3)轮询70以及用户器件检测器72。

故障MIB数据结构

图5更详细地示出了图4中先前示出的故障MIB 14的一个示例。在一个示例中，在故障MIB 14中使用对象故障表80和事件历史表82。故障MIB 14跟踪就每个对象的累积故障时间(AOT)和累积失效数(NAF)而言的故障数据。

故障MIB 14维持基于每个对象的故障信息，从而NMS 12或者上层工具可以轮询MIB 14以查找感兴趣对象的故障信息。监控对象的数目是可配置的，这取决于路由器存储器的可用性和性能权衡考虑。表1.0更详细地描述了两个表80和82中的参数。

表1.0故障MIB数据结构

故障MIB变量	表类型	说明/注释
故障MIB变量	表类型	说明/注释	对象名字	历史/	此对象包含监控对象的标识。对象名字是字符
	对象	串。例如，对象名字可以是槽号(slot number)“3”、控制器名字“3/0/0”、序列接口名字“3/0/0/2:0”或者进程ID。该名字值必须唯一。	对象名字	历史/	此对象包含监控对象的标识。对象名字是字符
	对象		对象类型	历史	代表不同的故障事件对象类型。定义类型如下：·routerObject：低级失效或者恢复。·rpslotObject：路由处理槽(route processslot)失效或者恢复。·lcslotObject：线路卡槽失效或者恢复。·layer2InterfaceObject：配置后的本地接口失效或者恢复。例如，控制器或者串行接口对象。·layer3IPObject：远程第3层协议失效或者恢复。例如，对远程设备的ping失效。·protocolSwObject：协议处理(protocol process)失效或者恢复，这导致网络故障。例如，BGP协议处理失效，但是RP正常。
事件类型	历史	标识事件类型的对象，例如失效事件(1)或者恢复事件(2)。	对象类型	历史
事件类型	历史	标识事件类型的对象，例如失效事件(1)或者恢复事件(2)。	事件时刻	历史	标识事件时刻的对象。其使用所谓的“UNIX格式”。其被存储为从1970年1月0000UTC起算的秒的32位计数。
事件前间隔(Pre-EventInterval)	历史	标识事件之间的持续时间的对象。如果事件为恢复，则间隔时间是TTR(恢复时间)。如果事件是失效，则间隔时间是TTF(失效时间)。	事件时刻	历史	标识事件时刻的对象。其使用所谓的“UNIX格式”。其被存储为从1970年1月0000UTC起算的秒的32位计数。
事件前间隔(Pre-EventInterval)	历史		事件原因	历史	指示对象运行/停机事件的潜在原因。这样的原因可以包括例如线上插拔(OIR)以及目的地不可到达。

故障MIB变量	表类型	说明/注释
故障MIB变量	表类型	说明/注释	当前状态	对象	指示当前对象的协议状态。接口运行(1)和接口停机(2)
自测量启动后的AOT	对象	从已启动故障测量起的对象上的累积故障时间。AOT用来计算一段时间上的对象可用性和DPM(每百万次缺陷数)。AOT和NAF被用来确定对象MTTR(平均修复时间)、MTBF(平均失效间隔时间)和MTTF(平均失效时间)。	当前状态	对象	指示当前对象的协议状态。接口运行(1)和接口停机(2)
自测量启动后的AOT	对象		自测量启动后的NAF	对象	指示从启动故障测量起的对象上的累积失效数。AOT和NAF被用来确定对象MTTR(平均修复时间)，MTBF(平均失效间隔时间)和MTTF(平均失效时间)。

表2.0中图示了对象故障表80的示例。作为示例，“FastEthernet0/0/0”接口对象当前在运行。该对象累积故障时间(AOT)为7分钟。累积失效数(NAF)为2。

表2.0对象故障表

对象索引	对象名字	当前状态	从测量启动起的AOT	从测量启动起的NAF
对象索引	对象名字	当前状态	从测量启动起的AOT	从测量启动起的NAF	1	FastEthernet0/0/0	运行	7	2
2					1	FastEthernet0/0/0	运行	7	2
2					...
M					...

AOT：累积故障时间

NAF：累积失效数

对象故障表80的大小决定了所监控对象的数目。操作方可以基于应用需求和路由器资源(存储器和CPU)限制来选择对哪些对象和多少对象进行故障监控。例如，路由器可以具有10,000个用户电路。操作方可能由于SLA需求或者路由器资源的限制而仅希望监控2,000个用户电路。

事件历史表82维持对象故障表中所标识的对象的故障事件历史.事件历史表82的大小是可以配置的，这取决于路由器存储器的可用性和性能权衡考虑.表3.0示出了事件历史表82的示例.表3.0中所示出的事件历史表中所记录的第一事件是在时刻13:28:05接口对象“serial3/0/0/1.0”关机.在此事件之前，接口处于“运行”状态有525600分钟的持续时间.

表3.0故障MIB中的事件历史表

事件索引	对象名字	对象类型	事件类型	对象时刻	事件前间隔	事件原因
事件索引	对象名字	对象类型	事件类型	对象时刻	事件前间隔	事件原因	1	Serial3/0/0/1.0	串行	接口停机	13:28:05	525600	接口关机
2							1	Serial3/0/0/1.0	串行	接口停机	13:28:05	525600	接口关机
2							...
N							...

事件历史表82是可选的，并且操作方可以确定是否需要维持该表，这取决于应用需求和路由器资源(存储器和CPU)限制。

配置

图6示出了OMS是如何配置的。路由器16维持配置表92，其中表92不是由来自NMS 12的配置文件86、操作方输入90占着，就是由用户器件检测器72占着。也可以将配置表92从路由器16导出到NMS 12。

表4.0描述了可用在配置表92中的参数的类型。

表4.0配置表参数定义

参数	定义
参数	定义	L2对象ID	要被监控的对象
进程ID	要被监控的SW进程	L2对象ID	要被监控的对象
进程ID	要被监控的SW进程	L3对象ID	远程用户设备的IP地址
Ping模式	使能/禁止用ping进行活动探测	L3对象ID	远程用户设备的IP地址
Ping模式	使能/禁止用ping进行活动探测	Ping速率	Ping远程用户设备的周期

配置文件86可以由远程配置下载88或者由操作方输入90来创建。CLI解析器60解释CLI命令和配置文件86，并且向配置表92写入与表4.0中所示出的相类似的配置参数。

故障管理命令

操作方输入90被用于向故障监控管理器40发送命令。操作方输入90被用于复位、添加、去除、使能、禁止和停止不同的故障操作。表5.0中描述了这些操作的示例列表。

表5.0故障管理命令

命令	解释
命令	解释	start-filefilename	启动具有配置文件的故障测量进程
start-default	启动不具有配置文件的故障测量进程	start-filefilename	启动具有配置文件的故障测量进程
start-default	启动不具有配置文件的故障测量进程	add object	向故障配置条目添加对象
group-addfilename	用配置文件添加多个对象	add object	向故障配置条目添加对象
group-addfilename	用配置文件添加多个对象	remove object	从故障测量条目中去除对象
group-removefilename	用配置文件去除多个对象	remove object	从故障测量条目中去除对象
group-removefilename	用配置文件去除多个对象	ping-enableobjectID/all rateperiod	用周期使能远程用户设备ping
ping-disableobjectID/all	禁止远程用户设备ping	ping-enableobjectID/all rateperiod	用周期使能远程用户设备ping
ping-disableobjectID/all	禁止远程用户设备ping	auto-discoveryenable	使能用户设备发现功能
auto-discoverydisable	禁止用户设备发现功能	auto-discoveryenable	使能用户设备发现功能
auto-discoverydisable	禁止用户设备发现功能	export filename	向配置文件输出当前条目表
Quit	停止故障测量进程	export filename	向配置文件输出当前条目表

图7示出了如何使用故障管理命令来控制OMS 15的示例。下面所示出的一系列命令被从NMS 12发送到路由器16中的OMS 15。

(1)start-file config 1.data；

(2)add IF2；

(3)auto-discovery enable；

(4)ping-enable all rate 60；

(5)remove IF1；和

(6)export config2.data

在命令(1)中，start-file命令和配置文件86一起被发送到路由器16。配置文件86指引故障监控管理器40启动监控接口IF1，并且使能远程用户路由器C1的监控持续60秒周期。配置文件86还向配置表92(图6)添加用户路由器C2，但是禁止测试路由器C2。

在命令(2)中，接口IF2被添加到配置表92，并且启动监控接口IF2。命令(3)使能通过图6中所示出的用户器件检测器72的auto-discovery。用户器件检测器72仅发现了连接到路由器16的远程路由器设备C3和C4，并且将他们添加到配置表92。将对用户路由器C3和C4的监控被置于禁止模式。下面进一步详细描述Auto-discovery。

命令(4)启动对所有用户路由器C1、C2、C3和C4的ping操作。这使能了对先前被禁止的远程路由器C2、C3和C4的ping操作。命令(5)从配置表92中去除作为监控条目的接口IF1。连接到IF1的远程设备C1和C2作为监控条目也被从配置表92中去除。命令(6)向NMS 12或者某些其它故障分析工具输出配置文件86中的当前条目(config2.data)。这包括第2层和第3层、模式以及速率参数。

自动用户器件检测

现再参考图6，用户器件检测器72自动搜索连接到路由器16的网络设备的当前配置。然后将所标识的配置写入配置表92中。当执行故障监控管理器40时，故障监控管理器40试图打开配置表92。如果配置表92不存在，则故障监控管理器40可以使用用户器件检测器72来搜索路由器16中所有的线路卡和接口，然后自动创建配置表92。用户器件检测器72还可以被用于补充配置表92中已经标识出的任何对象。当检测器72位于核心路由器中时，检测器72可以用来辨识其它被连接的核心路由器、交换机或者设备。

任何专有(proprietary)设备标识协议都可以用于检测邻近的用户设备。如果没有专有协议，则可以请求ping广播来检测邻近的用户设备。一旦用户器件检测器72向子网内的邻接设备发送ping广播请求消息，则接收到该请求的邻近设备发回ping应答消息。如果ping应答消息的源地址是新的，则该地址将作为新的远程用户设备被存储到配置表92中。这快速标识了邻近设备中的变化，并且在更新后的静态配置信息变为可从NMS操作方获得之前就启动监控用户器件。

图4和图6中所示出的用户器件检测器72可以使用各种现有协议来标识邻近设备。例如，Cisco发现协议(CDP)、地址解析协议(ARP)协议、因特网控制消息协议(ICMP)或者追踪路由(traceroute)可以被用于标识附接到路由器16上的设备的IP地址。CDP协议可用于Cisco设备，并且ping广播可以用于非Cisco用户假定器件。

第2层轮询

参考图4和图6，第2层(L2)轮询功能66轮询位于路由器16和用户器件20之间的本地接口的第2层状态。一个示例中的第2层故障是通过从系统日志50收集UP/DOWN接口状态信息来测量的。第2层连接性信息可由路由器操作系统74提供，所述第2层连接性信息例如是连接到接口的所有用户器件20的链路状态和协议状态。

如果OS错误管理器(FM)68在系统上可用，则FM 68可以检测诸如“接口UP”或者“接口DOWN”的接口状态。故障监控管理器40可以通过注册接口ID来监控该接口状态。当第2层轮询已被注册时，FM 68报告接口的当前状态。基于该状态，L2接口被故障监控管理器310注册为“接口UP”或者“接口DOWN”。

如果FM 68不可用，则故障监控管理器40使用它自己的第2层轮询66.故障监控管理器40在时间调度表上注册对象，并且该调度表基于特定轮询时间段产生轮询事件.除了监控第2层接口状态外，第2层轮询66还可以通过注册线路卡33的槽号来测量线路卡失效事件.

第3层轮询

除了检查第2层链路状态外，诸如“输入速率”、“输出速率”、“输出队列分组丢失”和“输入队列分组丢失”的第3层(L3)流量可以可选地由流量监控与L3轮询功能70来监控。虽然接口的第2层链路状态可以是“UP”，但是在延长的时间段内没有流量交换，或者用户设备的分组丢失，这可以指示路径失效。

可以进行两种级别的第3层测试。第一级别标识输入速率、输入速率和输出队列分组丢失信息，这些信息通常是由路由器操作系统74跟踪的。但是，较长的休眠状态可能导致低分组速率。因而，对于怀疑具有第3层故障的用户设备，在轮询功能70中使用诸如活动探测(ping)的额外检测机制。在活动探测期间，OMS 15向连接到路由器16的设备发送测试分组。在图11A中更详细地示出了这种情况。

配置文件86(图6)指定第3层轮询是否发生以及向用户器件20发送ping测试分组的速率。例如，无论OS 74指示哪里在某一特定时间段内链路上没有活动，都可以发送ping分组。或者，可以周期性地从接入路由器16向用户器件20发送测试分组。故障监控管理器40监控本地链路，以确定用户器件20是否发回测试分组。

故障监控示例

故障监控的目标被称作“对象”，这是对路由器16本地的物理与逻辑接口、在路由器16、用户器件20和对等路由器39(图2)中间的逻辑链路、远程接口、线路卡、路由器处理器或者软件进程的一般概括。

由故障监控管理器40从路由器16的内部对下述对象状态进行监控：即，运行/停机状态、从启动测量起的累积故障时间(AOT)以及从启动测量起的累积失效数(NAF)。NMS 12或者更高层工具78或76(图3)然后使用此原始数据导出和计算诸如对象的平均失效间隔时间(MTBF)、平均修复时间(MTTR)和可用性的信息。下面提供了几个应用示例。

参考图8，故障监控管理器40测量在从时刻T1到时刻T2的某时间段内对象的运行或停机状态。在此示例中，时间段为1,400,000分钟。在此持续时间期间，故障监控管理器40自动确定所监控对象的任何失效的持续时间。由故障监控管理器40导出修复时间(TTR)、失效间隔时间(RBF)以及失效前时间(TTF)。

在图8的示例中，检测出对象i的第一故障持续了10分钟，检测出对象i的第二故障持续了4分钟。路由器16中的故障监控管理器40计算AOTi＝10分钟+4分钟＝14分钟。AOT信息被传送到NMS 12或者更高层工具，NMS 12或者更高层工具然后计算对象可用性(Ai)以及每百万次缺陷数(DPM)。例如，对于起始时刻为T1而终止时刻为T2，可用性Ai＝1-AOTi/(T2-T1)＝1-14/1,400,000＝99.999％。DPMi＝[AOTi/(T2-T1)]×10⁶＝10DPM。

存在两种不同的故障监控管理器40可以自动计算AOTi的途径。在一种方案中，每次失效发生时，故障监控管理器40从路由器操作系统74(图4)接收中断，而当对象回到运行态(back up)时接收另一中断。在第二方案中，故障监控管理器40不断地轮询对象状态，以在每个轮询周期跟踪对象是运行还是停机。

图9示出了如何由NMS 12导出对象i的平均恢复时间(MTTR)的一个示例。故障监控管理器40在测量间隔100期间计数累积失效数(NAFi)。AOTi和NAFi值被传送到NMS 12或者更高层工具。NMS 12或者更高层工具然后计算MTTRi＝AOTi/NAFi＝14/2＝7分钟。

图10示出了NMS 12或者更高层工具如何使用AOT和NAF来从NAFi信息确定对象i的平均失效间隔时间(MTBF)和平均恢复时间(MTTF)，其中：

MTBFi＝(T2-T1)/NAFi；以及

MTTFi＝MTBFi-MTTRi。

卖方或网络处理器件或者网络处理器器件的操作方可能被要求签订服务水平协议(SLA)，以确保网络器件在某百分比时间内是可操作的。图11A示出了由故障监控管理器40产生的AOT信息是如何用于确定器件是否满足SLA协议的以及本地或远程器件是否对故障负有责任的。

在图11A中，OMS 15监控路由器16中的本地接口对象34，并且还监控位于远程设备102处的对应远程接口对象17。远程设备102可以是用户路由器、对等路由器或者其它网络处理设备。由单个链路19连接路由器16和远程设备102。

在一个示例中，可使用对物理接口的状态信息的第2层轮询来监控本地接口对象34。在此示例中，可通过OMS 15向远程设备102发送测试分组104来监控远程接口17和远程设备102。OMS 15然后监控测试分组104向路由器16的返回。图11B中示出了本地接口对象34和其对应的远程接口对象17的运行/停机期间。

NMS 12对来自两个对象34和17的所测量AOT进行相关分析，并且确定是否存在直接和链路19的远程端相关联的任何停机时间。在此示例中，本地IF对象34的AOT₃₄＝30分钟，远程IF对象17的AOT17＝45分钟。在接入路由器16和远程设备102之间仅存在一条物理链路19。这意味着比IF 34的30分钟故障时间超出的任何故障时间都很可能是由链路19或者远程设备102上的故障引起的。从而，NMS 12确定远程设备102或者链路19的AOT＝(远程IF对象17的AOT)-(本地IF对象34的AOT)＝15分钟。

应该理解，图11A中的IF 34可以实际上具有耦合在IF 34和不同的远程设备之间的许多逻辑链路。OMS 15可以监控存在于路由器16中的每个逻辑接口或者链路的状态。通过仅在本地ping路由器16和其邻近之间的测试分组104，在网络带宽上的负担少得多。

对象运行/停机事件的潜在原因可以被记入日志并且和事件相关联。这样的原因可以包括例如线上插拔(OIR)和目的地不可到达。

事件过滤

事件过滤的简单形式可以在路由器16之内执行，以抑制对NMS 12的“事件风暴(event storm)”，以及减少由于事件风暴引起的网络/NMS资源消耗。事件风暴和事件风暴过滤的一个示例可以和线路卡失效有关。故障监控管理器40可以识别相同线路卡的所有故障事件，并且向NMS 12仅报告一个LC失效事件，而不是将和相同线路卡相关联的成百上千个信道接口失效事件通知NMS 12。这样，OMS 15仅发送根本原因通知，而不是发送许多失效。如果需要将根本原因事件报告给NMS 12，则将不进行事件过滤。事件过滤可以是基于规则的或者是由个体操作方定义的。

分辨率

分辨率指的是故障测量时间的粒度。当采用基于轮询的测量方法时，故障时间分辨率和故障监控频率之间存在关系。例如，给定用户故障时间分辨率为一分钟，则故障监控管理器40可以每30秒轮询一次。通常，故障监控的轮询速率应该是故障时间分辨率频率的两倍。但是，取决于对象和期望的分辨率，可以选择不同的轮询速率。

ping用户或者对等路由器接口

如上面图11A中所述，OMS 15可以提供ping功能(发送测试分组)，以监控诸如用户路由器或对等路由器的远程设备102和测量路由器16之间的物理和逻辑链路的故障。可基于每个对象来配置ping功能，从而用户能够基于应用需要来使能/禁止ping。

ping功能的可配置性可以依赖于几个因素。首先，IP因特网控制消息协议(ICMP)ping需要使用要被ping的远程接口的IP地址。但是，该地址可能并不总是轻易可得的，或者可能是随时间变化的。此外，由于远程设备可能出于安全和/或性能的考虑而关闭发现协议，所以远程设备地址可能不能经由这样的自动发现协议获得。对很多远程接口的频繁ping操作也可能导致路由器性能降级。

为了避免这些问题，可以对被认为是对用户SLA很关键的少数选定远程设备应用ping操作。在这些情况下，OMS 15配置使用户能够如表4.0所示基于每个对象选取ping功能。

当ping功能被使能时，可以执行某些监控机制和方案来降低开销。这些基本序列中的一些包括检查线路卡状态、检查物理链路完整性、检查分组流统计。然后，如果需要的话，则ping远程设备处的远程接口。利用此监控序列，ping可以变成仅当最先三个测量步骤不能完全令人满意时的最后动作。

故障数据收集

参考图12，OMS 15为NMS 12或者上层工具78或76(图3)收集测量后的故障数据108。OMS 15可以提供不同的数据收集功能，例如基于事件的通知、本地存储和数据访问。

OMS 15可以经由基于SNMP的“推(push)”机制114将故障事件110和相关联的故障数据108一起通知给NMS 12。SNMP可以提供两种基本的通知功能，“陷阱(trap)”和“告知(inform)”114。当然也可以使用其它类型的通知方案。陷阱和告知通知功能114都从嵌入到路由器16中的SNMP代理112向NMS 12发送事件。陷阱功能依赖于可能不可靠的用户数据报协议(UDP)传输。告知功能通过简单请求-应答协议以可靠的方式使用UDP。

通过简单网络管理协议(SNMP)和MIB 14，NMS 12不是通过来自路由器16的事件通知就是通过对路由器16的数据访问来收集原始故障数据。利用事件通知机制，NMS 12可以在故障事件发生后就接收故障数据。利用数据访问机制，NMS 12时常读取存储在路由器16中的故障数据108。换言之，不是由路由器16向NMS 12推出故障数据108，就是由NMS 12从路由器16中拉取故障数据108。

NMS 12时常经由基于SNMP的“拉(pull)”机制116访问或者轮询存储于路由器16中的测量后的故障数据108。SNMP提供两种基本的收集MIB数据的访问功能，“取(get)”和“大量取(getbulk)”。取功能检索一条数据项，而大量取功能检索数据项的集合。

测量路由器崩溃

参考图13，OMS 15可以测量“软(soft)”路由器崩溃和“硬(hard)”路由器崩溃的时刻和持续时间.整个路由器120可能在某些失效模式下崩溃.“软”路由器崩溃指允许路由器在路由器完全崩溃前产生崩溃信息的路由器失效类型，例如软件崩溃或者奇偶校验错引起的崩溃.产生的该软件崩溃信息可以具有崩溃事件的时间戳，并且被存储在非易失存储器124中.当系统重新启动时，崩溃信息中的时间戳可以用来计算路由器故障持续时间.“硬”路由器崩溃是指崩溃时路由器没有时间产生崩溃信息的路由器崩溃.硬崩溃的一个示例是由于突然断电导致的瞬时路由器停机.捕获硬崩溃信息的一种方法是采用永久存储，例如非易失存储器124或者磁盘存储器126，其本地留驻于测量路由器120中.

利用这种方法，OMS 15周期性地向永久存储器124或126中的固定位置写系统时间。例如，每分钟写一次。当路由器120从崩溃中重新启动时，OMS 15从永久存储设备124或126读取时间戳。则路由器故障时刻位于盖戳时刻后的一分钟之内。故障持续时间是盖戳时刻和当前系统时间之间的间隔。

这排除了另一网络处理设备不得不周期性地ping路由器120以及使用网络带宽。由于内部产生的时间戳更准确地代表了路由器120的当前操作时间，所以该方法也比ping更准确。

测量硬崩溃的另一方法是让一个或者多个外部设备周期性地轮询路由器120。例如，NMS 12(图1)或者(一个或多个)邻近路由器可以每分钟都ping被监控的路由器120，以确定路由器120的可用性。

本地存储

故障信息也可以被存储在邻近路由器处或路由器120内的冗余存储器124或者126中，以避免单一存储失效点。除了路由器120和路由器处理器对象121外的所有被监控对象的故障数据可以被存储在易失存储器122中，并且由NMS周期性地轮询。

当存储空间和运行时间(run-time)性能允许时，包括路由器120和路由器处理器对象121在内的所有被监控对象的故障数据可以被存储在永久非易失存储器124或盘126中。

在路由器120中本地存储故障信息增加了信息的可靠性，并且防止当网络的其它部分中出现故障或者链路拥塞时数据丢失。使用永久存储器124或126存储故障信息也使得能够测量路由器崩溃。

当易失存储器122被用于故障信息存储时，NMS或者其它设备可以周期性地或在要求时轮询来自路由器120的故障数据，以避免由于易失存储器122或者路由器120失效而导致故障信息丢失。OMS 15可以为所有被监控对象使用永久存储器124或者126，这取决于大小和性能开销限制。

双路由器处理器检查点

参考图14，一些路由器120可以用双处理器121A和121B来配置。在故障数据更新期间，OMS 15可以将来自活动路由器处理器的存储器122A或者124A(永久的和非永久的)的故障数据复制到备用路由器处理器121B的备用存储器122B或者124B(永久的和非永久的)。

这允许OMS 15在从活动处理器121A切换到备用处理器121B之后继续故障测量功能。这还允许即使包含故障数据的处理器121A或者121B之一被物理替换，路由器120也保持路由器崩溃信息。

故障测量差距(gap)

OMS 15捕获路由器崩溃并防止故障数据丢失，以避免故障测量差距。由进行故障测量的对象的类型支配可能的故障测量差距。例如，路由器处理器(RP)对象与其它对象。还由路由器崩溃的类型(软与硬)和故障数据存储的类型(易失的与永久的-非易失存储器或磁盘)来支配测量差距。表6总结了用于捕获路由器崩溃和防止测量差距的解决方案。

表6.捕获路由器崩溃的故障

即使使用永久存储设备，所存储的故障数据也可能潜在地由于存储设备的替换或者单一失效点而丢失，冗余是解决此问题的一种方法。一些潜在的冗余解决方案包括从路由器处理器上的存储器到本地盘(图13)的数据检查点操作、从活动路由器处理器上的存储器到备用路由器处理器上的存储器(图14)的数据检查点操作、或者从路由器120到邻近路由器的数据检查点操作。

上述系统可以使用专用的处理器系统、微控制器、可编程逻辑设备或者微处理器，这些器件执行操作的一些或全部.上述操作的一些可用软件实现，而其它操作可用硬件实现.

为方便起见，操作被描述为各种互连的功能块或者不同的软件模块。但是，这并不是必需的，可以存在下述情况：即这些功能块或者模块被等同地聚集到具有不清楚界限的单个逻辑设备、程序或者操作中。无论如何，功能块和软件模块或者灵活接口的特征可以以硬件或者软件形式由自己实现，或者和其它操作结合来实现。

在已经以优选实施例描述和说明了本发明的原理后，应该很清楚，可以在安排和细节上修改本发明，而不背离这样的原理。所有修改和改变都落入权利要求的精神和范围内。

Claims

1.一种用于标识故障的方法，包括：

使用位于网络处理设备本地中的故障测量系统来自动测量故障，测量到的故障包括由与测量到的故障相关联的一个或多个对象中的本地对象引起的本地故障和由所述一个或多个对象中的远程对象引起的远程故障；

使用故障测量来标识所述本地对象的累积故障时间和所述远程对象的累积故障时间；以及

将所述本地对象的累积故障时间和所述远程对象的累积故障时间进行比较。

2.如权利要求1所述的方法，包括使用所述故障测量系统来测量直接附接到所述网络处理设备的设备的故障。

3.如权利要求1所述的方法，其中所述对象是与所述网络处理设备相集成的本地对象，并且所述方法还包括测量所述本地对象的故障。

4.如权利要求1所述的方法，包括将故障数据本地存储于所述网络处理设备中。

5.如权利要求4所述的方法，包括使用永久存储设备来存储所述故障数据。

6.如权利要求4所述的方法，包括将所述故障数据存储于管理信息库中。

7.如权利要求6所述的方法，包括使用简单网络管理协议来传送所述管理信息库中的所述故障数据。

8.如权利要求1所述的方法，包括向网络管理系统或者上层工具传送所述故障数据以进行相关分析。

9.如权利要求1所述的方法，包括利用所述故障测量系统轮询找到第2层故障。

10.如权利要求1所述的方法，包括利用所述故障测量系统轮询找到第3层故障。

11.如权利要求1所述的方法，包括自动发现被连接到所述本地网络处理设备的设备，以及自动轮询找到与所述被发现的设备相关联的故障。

12.如权利要求1所述的方法，包括：

在所述网络处理设备处从网络管理系统接收配置数据；以及

根据所接收的配置数据，利用所述故障测量系统自动监控故障。

13.如权利要求12所述的方法，包括将所述配置数据保持在位于所述网络处理设备中的配置表中。

14.如权利要求1所述的方法，包括利用所述故障测量系统来过滤本地故障数据。

15.如权利要求1所述的方法，还包括：

将所述测量到的故障中的本地故障与所述测量到的故障中的远程故障相比较，以对所述本地故障和所述远程故障进行区分。

16.如权利要求15所述的方法，还包括：

通过将所述本地对象的所述累积故障时间和所述远程对象的所述累积故障时间进行比较，来区分所述本地故障和所述远程故障。

17.一种标识故障的方法，包括：

在网络处理设备处本地监控与所述网络处理设备相关联的对象的流量统计信息；

监控与所述网络处理设备相关联的对象的链路状态；

ping被连接到所述网络处理设备的远程设备；

监控所述ping的结果；以及

根据所监控的流量统计、所监控的链路状态和所监控的ping来检测故障。

18.如权利要求17所述的方法，包括监控所述网络处理设备中一个或多个处理器的利用情况，以及使用所监控的利用情况来标识所述网络处理设备中的拒绝服务状况。

19.一种标识故障的方法，包括：

通过监控所接收的流量来在网络处理设备处本地标识故障事件；

响应于通过监控所接收的流量来标识故障事件，启动对被连接到所述网络处理设备的邻近设备的测试分组ping操作；以及

向网络管理服务器或者相关分析工具提供所述故障事件和所述ping的结果，以进行故障分析。

20.如权利要求19所述的方法，包括至少在所述故障事件的故障数据被提供给所述网络管理服务器或者相关分析工具之前，将所述故障数据本地存储在所述网络处理设备中。

21.如权利要求20所述的方法，包括将所述故障数据存储在故障管理信息库中。

22.如权利要求19所述的方法，包括根据从所述网络管理服务器发送的配置文件来轮询找到所述故障事件。

23.如权利要求22所述的方法，包括根据从所述网络管理服务器发送的命令来修改在所述网络设备中监控哪些故障事件。

24.如权利要求19所述的方法，包括将对象故障表存储在所述网络处理设备中，所述对象故障表标识所述邻近设备。

25.如权利要求24所述的方法，包括：

自动发现所述邻近设备；以及

用所发现的邻近设备来自动更新所述对象故障表。

26.如权利要求19所述的方法，包括：

过滤在所述网络处理设备处标识的所述故障事件；以及

向所述网络管理系统或者相关分析工具发送所述过滤后的事件。

27.一种网络处理设备，包括：

一个或多个处理器，所述一个或多个处理器被配置成管理与所述网络处理设备相关联的对象的故障监控，监控到的故障包括由所监控对象中的本地对象引起的本地故障和由所监控对象中的远程对象引起的远程故障；并且

所述一个或多个处理器还被配置为确定所述本地对象的累积故障时间和所述远程对象的累积故障时间，并且将所述本地对象的累积故障时间和所述远程对象的累积故障时间进行比较。

28.如权利要求27所述的网络处理设备，包括用于存储所监控对象的故障数据的存储器。

29.如权利要求28所述的网络处理设备，其中所述存储器包括当所述网络处理设备掉电时永久存储故障监控数据的永久存储装置。

30.如权利要求27所述的网络处理设备，其中所述故障数据被存储在管理信息库中。

31.如权利要求28所述的网络处理设备，其中所述一个或多个处理器通过监控在所述网络处理设备内的本地对象来监控故障。

32.如权利要求31所述的网络处理设备，其中所述本地对象与在所述网络处理设备内部的路由器处理器、线路卡或者软件程序相关联.

33.如权利要求27所述的网络处理设备，其中所述一个或多个处理器根据故障监控结果启动对被连接到到所述网络处理设备的邻近设备的测试分组ping操作。

34.如权利要求27所述的网络处理设备，其中所述一个或多个处理器自动发现耦合到所述网络处理设备的对象，以及自动轮询找到所发现对象的故障。

35.如权利要求27所述的网络处理设备，包括一个或多个备份处理器和相关联的备份存储器，所述一个或多个处理器将来自故障监控的数据存储在所述备份存储器中。

36.一种测量故障的方法，包括：

在网络处理设备处本地监控故障；

标识与相同线路卡相关联的不同故障；

将所述不同的线路卡故障过滤成单个线路卡故障指示；以及

向故障相关分析系统发送所述单个线路卡故障指示。

37.如权利要求36所述的方法，包括从所监控的故障计算累积故障时间故障参数或累积失效数故障参数，以及向所述相关分析系统发送所述累积故障时间或累积失效数。

38.如权利要求37所述的方法，包括利用所述相关分析系统从所述累积故障时间或累积失效数参数导出平均故障间隔时间或者平均修复时间值。

39.如权利要求36所述的方法，包括从系统日志文件过滤所监控的故障。

40.一种用于测量网络处理设备的故障的方法，包括：

产生所述网络处理设备的时间戳；

将所述时间戳本地存储在所述网络处理设备中；

周期性地用所述网络处理设备的最新近的时间戳更新所存储的时间戳；

在网络处理设备故障期间保持所述最新近的所存储时间戳；以及

使用所保持的最新近的所存储时间戳来确定所述网络处理设备的故障时间。

41.如权利要求40所述的方法，包括：

标识当所述网络处理设备已经从所述故障恢复时的系统运行时间；以及

将所存储时间戳和所述系统运行时间相比较，以确定所述故障时间。

42.如权利要求40所述的方法，包括周期性地将所述最新近的时间戳存储在永久存储器中。

43.如权利要求40所述的方法，其中所述故障包括所述网络处理设备掉电。

44.如权利要求40所述的方法，其中存储于所述网络处理设备中的所述时间戳大约每分钟更新一次。

45.一种用于标识故障的系统，包括：

用于使用位于网络处理设备本地中的故障测量系统来自动测量故障的装置，测量到的故障包括由与测量到的故障相关联的一个或多个对象中的本地对象引起的本地故障和由所述一个或多个对象中的远程对象引起的远程故障；

用于使用故障测量来标识所述本地对象的累积故障时间和所述远程对象的累积故障时间的装置；以及

用于将所述本地对象的累积故障时间和所述远程对象的累积故障时间进行比较的装置。

46.如权利要求45所述的系统，包括用于将故障数据本地存储在所述网络处理设备中的装置。

47.如权利要求45所述的系统，包括用于将所述故障数据传送到网络管理系统或上层工具以进行相关分析的装置。

48.如权利要求45所述的系统，包括用于自动发现被连接到本地网络处理设备的设备以及自动轮询找到与所发现设备相关联的故障的装置。

49.如权利要求45所述的系统，包括：

用于在所述网络处理设备处从网络管理系统接收配置数据的装置；以及

用于根据所接收的配置数据利用所述故障测量系统自动监控故障的装置。