CN101032123B - 用于确定故障对网络服务的影响的方法和装置 - Google Patents

用于确定故障对网络服务的影响的方法和装置 Download PDF

Info

Publication number
CN101032123B
CN101032123B CN2005800330123A CN200580033012A CN101032123B CN 101032123 B CN101032123 B CN 101032123B CN 2005800330123 A CN2005800330123 A CN 2005800330123A CN 200580033012 A CN200580033012 A CN 200580033012A CN 101032123 B CN101032123 B CN 101032123B
Authority
CN
China
Prior art keywords
equipment
discovery
network
service
warning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2005800330123A
Other languages
English (en)
Other versions
CN101032123A (zh
Inventor
卡罗斯·C.·阿劳约
詹姆斯·H.·卡雷
约汉·丁格
保罗·塔西罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN101032123A publication Critical patent/CN101032123A/zh
Application granted granted Critical
Publication of CN101032123B publication Critical patent/CN101032123B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F16ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
    • F16JPISTONS; CYLINDERS; SEALINGS
    • F16J15/00Sealings
    • F16J15/44Free-space packings
    • F16J15/445Free-space packings with means for adjusting the clearance
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F16ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
    • F16JPISTONS; CYLINDERS; SEALINGS
    • F16J15/00Sealings
    • F16J15/44Free-space packings
    • F16J15/441Free-space packings with floating ring
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F16ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
    • F16JPISTONS; CYLINDERS; SEALINGS
    • F16J15/00Sealings
    • F16J15/44Free-space packings
    • F16J15/441Free-space packings with floating ring
    • F16J15/442Free-space packings with floating ring segmented
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5009Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF]
    • H04L41/5012Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF] determining service availability, e.g. which services are available at a certain point in time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

提供了一种用于报告由节点和网络故障或停歇所引起的对网络中的服务的影响的方法和装置。作为一种方法,向所指定的网络设备的操作者提供关于网络故障对与所指定的设备相关联地运行的一个或多个服务的影响的通知。所述方法包括步骤:发现在所述网络中的分别被连接到所述指定设备以便帮助执行预期任务的一个或多个设备,继而发现被配置为在同样支持任务执行的每个所发现的设备上运行的每个服务。所述方法进一步包括:以预先指定的间隔来监视各个发现的设备的状态,以便检测在网络中故障的出现。当检测到故障时,产生用于表明所检测到的故障对各个所发现的服务的影响的警告。

Description

用于确定故障对网络服务的影响的方法和装置
技术领域
这里所公开并要求保护的本发明通常涉及一种用于监视网络来检测故障、以便确定该故障对该网络上运行的预先指定的服务的影响的方法和装置。本发明尤其涉及一种上述类型的、用于在网络中自动发现耦合到特定操作者设备的设备或节点以及发现被配置为在所发现的节点上运行的服务的方法。更特别的是,本发明涉及一种上述类型的、用于向网络操作者警告网络停歇或故障对所发现服务的影响的方法。
背景技术
被设置为结合诸如因特网之类的网络操作的商业系统在典型情况下要求用于运行特定的服务器程序或服务的服务器。此外,商业系统使用除了运行特定服务之外还运行一个或多个服务的服务器,是非常普遍的。例如,诸如目录订购系统之类的商业系统可以要求运行诸如数据处理系统以及web应用服务之类的服务的服务器。此外,附加服务可能继而依赖于与其它服务的网络通信,以便整体上实现所述商业系统。据此,可以看出,可能要求在不同网络节点上操作的多个服务以便实现商业系统。
上述类型的商业系统的操作者通常十分熟悉用于访问因特网或其它网络的特定服务器。然而,操作者可能不知道被要求操作如上所述的商业系统的所有其它网络设备或分别在其上运行的服务。因此,网络故障或停歇对这些服务的影响也可能会不为操作者所知。据此,希望向商业系统的操作者提供对于网络停歇的影响、以及由此使什么服务变得不可用的可见性。此信息可能会帮助操作者纠正由网络停歇所引起的服务问题。例如,如果操作者正在操作的两个服务器机器都停止响应,并且所述操作者被告知一个机器具有
Figure G2005800330123D00021
服务而另一个机器上没有运行的服务,那么操作者可以优先把运行所述DB2服务的服务器固定为第一。(DB2是国际商业机器公司的注册商标。)
在现有技术中,商业系统管理器可用来向操作者表明商业影响。一个这种系统是
Figure G2005800330123D00022
Business Systems Manager(商业系统管理器),
Figure G2005800330123D00023
是国际商业机器公司(IBM)的专有商标并且在美国注册了。这些系统根据网络停歇提供了更高的服务影响级别。然而,此现有技术的系统要求操作者手动地定义为商业系统所要求的网络组件之间的关系。
发明内容
据此,提供了一种用于向指定的网络设备的操作者提供关于网络故障对在所述网络设备上运行的一个或多个服务的影响的通知的方法,所述方法包括步骤:发现在所述网络中所包括的、分别被连接到所述指定的设备以便帮助执行预期任务的一个或多个设备;发现被配置为在支持执行所述预期任务的任何一个所述发现的设备上运行的每个服务;连续地监视各个所发现的设备的状态,以便检测在所述网络中故障的出现;并且产生用于表明所检测的故障对所述发现的服务的影响的警告。
优选为提供了一种全自动化的解决方案,借此向操作者自动通知网络故障对目前看起来似乎是可用的必要服务的影响。
依照本发明的优选实施例,根据使网络停歇与被自动发现在节点(终端系统)上运行的服务相关,来向网络操作者报告所述节点和网络故障或停歇的服务影响。这优选为使操作者能够根据停歇对各个服务的可比较性影响来优先纠正由网络停歇事件所引起的服务问题。本发明的一个有用实施例旨在提供一种用于向指定的网络设备的操作者提供关于网络故障对与所指定的设备相关联地运行的一个或多个服务的影响的通知的方法。所述方法包括步骤:发现网络中分别被连接到所指定的设备以便帮助执行预期任务的一个或多个设备,继而发现在用来同样支持任务执行的每个所发现的设备上运行的每个服务。所述方法进一步包括:以预先指定的间隔来监视各个所发现的设备的状态,以便检测在网络中故障的出现。当检测到故障时,产生用于表明所检测到的故障对各个所发现的服务的影响的警告。
所发现的设备和所述指定的设备优选为分别被包括在至少具有服务器、工作站、路由器及它们之间的连接的组中。
优选的是,在持续更新的数据库中维护分别用于标识所述发现的设备和所述发现的服务中的每一个的信息。
在优选实施例中,把每个所述发现的设备与所述网络的节点相关联,并且把每个所述发现的设备与在其相关联的节点上的一个或多个IP地址相关联。优选的是,所述数据库包含用于标识在每个所述IP地址上的每个所述节点上运行的每个服务的信息。
在优选实施例中,使用在所述指定的设备的操作系统中所包含的IP地址来发现各自的设备。
在优选实施例中,为了发现每个服务,建立到所述网络的所选择端口的TCP端口连接,其中TCP端口连接使用所述发现的设备中特定的一个设备的IP地址。优选的是,然后试图连接到所述端口以便确定是否有任何服务正在所述特定的所发现设备上运行。
在优选实施例中,对于在相关联的网络管理系统上配置的每个服务来尝试TCP端口连接。
在一个实施例中,在所述网络中检测故障,并且为了产生警告,搜索数据库,以便标识在所述网络中在其上运行有任何所述发现的服务的每个设备。然后,产生警告来提供通知,用于表明被发现正在所述标识的设备上运行的任何所述发现的服务已经受到了所述检测到的网络故障的影响。
在一个实施例中,在所述网络的给定设备中检测到故障,并且为了产生警告,搜索数据库,以便确定在所述给定设备上是否正在运行任何所述发现的服务。然后,产生警告来提供通知,用于表明被发现正在所述给定设备上运行的任何所述发现的服务已经受到了在所述给定设备上所检测到的所述故障的影响。
在优选实施例中,所述警告被发送给所述指定的设备的所述操作者。
依照另一方面,提供了一种在计算机可读介质中的计算机程序产品,用于向所指定的网络设备的操作者提供关于网络故障对在所述网络上运行的一个或多个服务的影响的通知,所述计算机程序产品包括:第一指令,用于发现在所述网络中所包括的、分别被连接到所述指定设备以便帮助执行预期任务的一个或多个设备;第二指令,用于发现被配置为在支持执行所述预期任务的任何所述发现的设备上运行的每个服务;第三指令,用于连续地监视各个发现的设备的状态以便检测在所述网络中故障的出现;和第四指令,用于产生用来表明所检测的故障对所述发现的服务的影响的警告。
依照另一方面,提供了一种用于向所指定的网络设备的操作者提供关于网络故障对在所述网络上运行的一个或多个服务的影响的通知的装置,所述装置包括:网络监视器,被布置来发现在所述网络中所包括的、分别被连接到所述指定设备以便帮助执行预期任务的一个或多个设备,所述网络监视器被进一步布置来连续地监视各个发现的设备的状态以便检测在所述网络中故障的出现;服务监视器,用于发现被配置为在支持执行所述预期任务的任何所述发现的设备上运行的每个服务;和警告装置,用于产生用来表明所检测到的故障对所述发现的服务的影响的警告。
附图说明
现在将仅以举例的形式参考以下附图来描述本发明的优选实施例:
图1是用于示出可以用来与本发明实施例一起使用的网络和相关联组件的示意图。
图2是示出本发明实施例的框图。
图3是用于图示使用图2的实施例的流程图。
图4是示出用于图2的实施例的简化控制的框图。
具体实施方式
参照图1,示出了包括因特网或其所选择部件或部分的网络100,其具有可以用来与本发明的实施例一起使用的组件。更特别的是,图1示出了连接到LAN 103的服务器102,其还具有到路由器104的连接。服务器102经由LAN 103和路由器104连接到一般的因特网连接106。因特网连接106没有详细地示出,但是如本领域技术人员所公知的那样,它包括路由器及其它组件的配置,用于将全球范围上的诸如服务器、工作站等的设备互连。因此,服务器102可连接到路由器108,并且可进一步连接到局域网(LAN)110的各个设备或节点(未示出)。服务器102还可经由路由器108连接到LAN 112,LAN 112具有与之耦合的服务器114和诸如工作站118之类的设备。经由路由器108和122,服务器102可连接到包括服务器的节点120,并且可连接到LAN124的各个设备或节点(未示出)。
图1进一步示出了可经由路由器104和130连接到LAN 126和128的各个节点(未示出)的服务器102。工作站132和134被示为连接到LAN 103的设备,并且可被操作者用来控制并指导服务器102的操作。
为了图示本发明的实施例,假定操作者操作服务器102来建立用于执行指定任务的商业系统,所述任务诸如为目录订购等。进一步假定在服务器102上为此目的而运行的服务必须依赖于其它服务以便实现整个商业系统。因此,服务器102的操作系统建立与服务器120的连接。服务器120被配置为运行服务136和138,所述服务136和138均被要求来实现所述商业系统。此外,还在服务器102和LAN 112中的服务器114之间建立连接,所述服务器114被配置为运行另一所要求的服务140。
参照图2,示出了包括本发明实施例的网络管理系统200,其中系统200包括网络管理工具202和事件服务器204。网络管理工具继而包括网络监视器206和服务监视器208。提供了网络管理工具202以便获取关于网络100中变为连接到服务器102的设备的信息,以便实现如上所述的商业系统。工具202还获取关于与所连接的设备相关联的服务的信息。
网络监视器206适合于在服务器IP地址上经由网络100向服务器102发送ICMP(因特网控制消息协议)网络。ICMP响应或其缺乏使得监视器206能够确定机器在IP地址上是否有效。经由SNMP(Simple Network Management Protocol,简单网络管理协议)协议请求来获取关于设备的进一步信息。因此,网络监视器206能够确定或发现各个连接的设备,其中包括服务器120和114以及任何其它服务器、路由器和工作站。然后,在驻留于网络管理工具202中的数据库210中列出这些发现的设备或节点中的每一个。
在连接到服务器102的各个设备已经被发现并在数据库210中列出之后,网络监视器206继续每隔一段时间评定或监视每个所发现的设备的可用性状态,所述间隔可由操作者来配置。从而,网络监视器206能够确定节点(即,服务器或工作站)或者包括任何所发现的节点的整个网络何时由于一些故障而变得不可用。
应当理解,这里所用的术语“网络”可以指的是诸如网络100之类的大型全球网路,以及其某些部分和连接到其的、包括所发现的设备的较小网络。
进一步参照图2,示出了被提供来发现任何预先配置的一个或多个服务的服务监视器208,所述服务在网络100中的各个发现的设备上运行。这些服务可以包括诸如HTTP服务器之类的应用或被称为DB2的的产品。
如本领域技术人员所知的那样,依照TCP/IP协议使用端口来指定在网络计算机等上运行的特定服务器程序或服务。因此,为了发现在所发现的设备中特定的一个设备上运行的服务,服务监视器208在所述特定设备的IP地址上连接到网络100。然后,监视器208试图连接到特定的端口号,以便确定与特定端口号相关联的服务是否正在特定的所发现设备上运行。如果在特定的端口号上在特定的设备上发现服务,那么此信息被存储或列出在数据库210中。此后,所列出服务的状态由服务监视器208连续地监视,以便确定它是否维持在特定的设备上。
在试图连接到特定的端口号上之后,服务监视器210被操作来试图在特定设备的相同IP地址上连接到其它端口号,以便发现在这种设备上运行的任何其它服务。以类似的方式,服务监视器208被操作来发现被配置为在其它所发现设备中的每一个上运行的服务。在此处理过程结束时,数据库210将会包含网络100中的所有节点或设备的完整列表,所述节点或设备连接到支持商业系统的服务器102,如以上所述的那样。数据库210还包含被发现正在各个所发现的设备上运行的所有服务的列表,所述设备同样支持所述商业系统。此外,通过操作网络监视器206和服务监视器208以连续地监视各个节点和服务的状态,来以非常频繁的间隔在数据库210中连续地更新所发现的节点和服务的列表。
在本发明的其它实施例中,还可以使用应用编程接口(API)来发现在连接到服务器102的设备上运行的服务。
当网络管理工具202在上述连续的状态监视过程期间发现网络故障或停歇时,网络管理系统200还将确定任何网络节点上的服务是否受到影响。在节点(例如,终端站或工作站)上出现故障的情况下,网络管理系统200搜索数据库210,以便查看是否已知任何服务正在所关注的节点上运行。如果是的话,那么这些服务将会受到在此节点上的网络故障的影响。据此,操作网络管理系统200的网络管理工具202,以便产生用于阐明节点故障事件对这些服务的影响的警告。然后,此警告被发送给服务器102的操作者的管理控制台(未示出)。
在停歇或故障影响整个网络的情况下,搜索数据库210以便确定在特定网络内是否有任何在其上运行有服务的节点。如果存在的话,那么这些节点将会受到网络故障的影响,以致在这些节点上的服务也将会受到影响。在这种情况下,网络管理系统202产生用于阐明网络故障事件对这些服务的影响的警告。同样地,此警告被发送给服务器102的操作者的管理控制台。
通过向服务器102的操作者提供如上所述的警告,所述操作者能够设置优先级以纠正由故障所导致的服务问题。
参照图3,示出了通常描绘了网络管理系统200的操作的流程图。功能块302-306分别阐明了以下的顺序步骤:发现连接到操作者的服务器102的节点,发现正在所发现的节点上运行的服务,并且在数据库中列出所发现的节点和服务。功能块308表明连续地监视所列出的节点和所列出的服务的状态。监视所列出的服务,使得当一个服务不再在所列出的节点上运行时可以从数据库中移除该服务。连续地监视节点,以便检测在任何节点中或在分别连接到其的任何网络中出现的任何故障。
进一步参照图3,示出了用于检测所列出的节点中的网络故障的判定块310。当检测到这种故障时,必须确定任何所列出的服务是否正在该节点上运行,如判定块312所表明的那样。如果任何这种服务正在运行,那么用于表明服务受节点故障影响的警告被发送到服务器102的操作者。判定块316和318以及功能320分别表明当检测到影响所列出的节点和服务的网络故障时进行类似的步骤。
参照图4,示出了用于网络管理系统200的控制212的简化配置。控制212包括处理器或处理单元402、数据存储设备404和计算机可读介质406。组件402-406借助于总线408互连。处理单元402例如可以包括各种各样的处理器和ASIC设备。计算机可读介质406例如可以包括可记录介质或媒介,诸如硬盘驱动器、软盘、RAM、CD-ROM或DVD-ROM,但是它决不局限于此。介质406被布置为包括处理器指令,所述处理器指令被配置为由处理器402读取,并且由此使所述处理器操作如上所述的工具管理系统200及其各个组件。
已经为了图示和描述的目的而给出了对本发明的描述,并且该描述并不是穷举性的,也不打算将本发明局限为所公开的形式。许多修改和变化对于本领域普通技术人员来说是显而易见的。选择并描述了所述实施例,以便更好地解释本发明的原理及实际应用,并且使本领域技术人员能够理解本发明的具有适于所预期的特定用途的各种修改的各个实施例。

Claims (27)

1.一种用于向指定的网络设备的操作者提供关于网络故障对在所述网络设备上运行的一个或多个服务的影响的通知的方法,所述方法包括步骤:
发现在所述网络中所包括的、分别被连接到所述指定设备以便帮助执行预期任务的一个或多个设备;
发现被配置为在支持执行所述预期任务的任何所述发现的设备上运行的每个服务;
在连续更新的数据库中维护分别用于标识所述发现的设备和所述发现的服务中的每一个的信息;
连续地监视各个发现的设备的状态以便检测在所述网络中故障的出现;并且
产生用于表明所检测到的故障对所述发现的服务的影响的警告。
2.如权利要求1所述的方法,其中:
所述发现的设备和所述指定的设备分别被包括在至少具有服务器、工作站、路由器及它们之间的连接的组中。
3.如权利要求1所述的方法,其中,把每个所述发现的设备与所述网络的节点相关联,并且把每个所述发现的设备与在其相关联的节点上的一个或多个IP地址相关联,并且其中:
所述数据库包含用于标识在每个所述IP地址上的每个所述节点上运行的每个服务的信息。
4.如权利要求3所述的方法,其中:
使用在所述指定设备的操作系统中所包含的IP地址来发现各个设备。
5.如权利要求4所述的方法,其中,所述发现每个服务的步骤包括:
建立到所述网络的选定端口的TCP端口连接,其中所述TCP端口连接使用所述发现的设备中特定的一个设备的IP地址;并且
试图连接到所述端口,以便确定是否有任何服务正在所述特定的所发现设备上运行。
6.如权利要求5所述的方法,其中:
对于在相关联的网络管理系统上配置的每个服务来尝试TCP端口连接。
7.如权利要求1至6中任一项所述的方法,其中,在所述网络中检测到所述故障,并且所述警告产生步骤包括:
搜索所述数据库,以便标识在所述网络中的其上运行有任何所述发现的服务的每个设备;并且
产生警告来提供通知,用于表明被发现正在所述标识的设备上运行的任何所述发现的服务已经受到了所述检测到的网络故障的影响。
8.如权利要求1至6中任一项所述的方法,其中,在所述网络的发现的设备中检测到所述故障,并且所述警告产生步骤包括:
搜索所述数据库,以便确定是否有任何所述发现的服务正在所述发现的设备上运行;并且
产生警告来提供通知,用于表明被发现正在所述发现的设备上运行的任何所述发现的服务已经受到了在所述发现的设备上所检测到的所述故障的影响。
9.如权利要求8所述的方法,其中:
所述警告被发送到所述指定设备的所述操作者。
10.一种用于向指定的网络设备的操作者提供关于网络故障对在所述网络上运行的一个或多个服务的影响的通知的系统,所述系统包括:
第一模块,用于发现在所述网络中所包括的、分别被连接到所述指定设备以便帮助执行预期任务的一个或多个设备;
第二模块,用于发现被配置为在支持执行所述预期任务的任何所述发现的设备上运行的每个服务;
第三模块,用于在连续更新的数据库中维护分别用于标识所述发现的设备和所述发现的服务中的每一个的信息;
第四模块,用于连续地监视各个发现的设备的状态以便检测在所述网络中故障的出现;和
第五模块,用于产生用来表明所检测到的故障对所述发现的服务的影响的警告。
11.如权利要求10所述的系统,其中:
所述发现的设备和所述指定的设备分别被包括在至少具有服务器、工作站、路由器及它们之间的连接的组中。
12.如权利要求10所述的系统,其中,把每个所述发现的设备与所述网络的节点相关联,并且把每个所述发现的设备与在其相关联的节点上的一个或多个IP地址相关联,并且其中:
所述数据库包含用于标识在每个所述IP地址上的每个所述节点上运行的每个服务的信息。
13.如权利要求12所述的系统,其中:
使用在所述指定设备的操作系统中所包含的IP地址来发现各个设备。
14.如权利要求13所述的系统,其中,所述用于发现每个服务的第二模块包括:
第六模块,用于建立到所述网络的选定端口的TCP端口连接,其中所述TCP端口连接使用所述发现的设备中特定的一个设备的IP地址;和
第七模块,用于试图连接到所述端口以便确定是否有任何服务正在所述特定的所发现设备上运行。
15.如权利要求14所述的系统,其中:
对于在相关联的网络管理系统上配置的每个服务来尝试TCP端口连接。
16.如权利要求10至15中任一项所述的系统,其中,在所述网络中检测到所述故障,并且所述第五模块用于:
搜索所述数据库,以便标识在所述网络中的其上运行有任何所述发现的服务的每个设备;并且
产生警告来提供通知,用于表明被发现正在所述标识的设备上运行的任何所述发现的服务已经受到了所述检测到的网络故障的影响。
17.如权利要求10至15中任一项所述的系统,其中,在所述网络的发现的设备中检测到所述故障,并且所述第五模块用于:
搜索所述数据库,以便确定是否有任何所述发现的服务正在所述发现的设备上运行;并且
产生警告来提供通知,用于表明被发现正在所述发现的设备上运行的任何所述发现的服务已经受到在所述发现的设备上所检测到的所述故障的影响。
18.如权利要求17所述的系统,其中:
所述警告被发送到所述指定设备的所述操作者。
19.一种用于向指定的网络设备的操作者提供关于网络故障对在所述网络上运行的一个或多个服务的影响的通知的装置,所述装置包括:
网络监视器,被布置为发现在所述网络中所包括的、分别被连接到所述指定设备以便帮助执行预期任务的一个或多个设备,所述网络监视器进一步被布置为连续地监视各个发现的设备的状态以便检测在所述网络中故障的出现;
服务监视器,用于发现被配置为在支持执行所述预期任务的任何所述发现的设备上运行的每个服务;
数据库,用于存储分别用于标识所述发现的设备和所述发现的服务中的每一个的信息,所述数据库中的所述信息被连续地更新;和
警告装置,用于产生用来表明所检测到的故障对所述发现的服务的影响的警告。
20.如权利要求19所述的装置,其中:
所述发现的设备和所述指定的设备分别被包括在至少具有服务器、工作站、路由器及它们之间的连接的组中。
21.如权利要求19所述的装置,其中,把每个所述发现的设备与所述网络的节点相关联,并且把每个所述发现的设备与在其相关联的节点上的一个或多个IP地址相关联,并且其中:
所述数据库包含用于标识在每个所述IP地址上的每个所述节点上运行的每个服务的信息。
22.如权利要求21所述的装置,其中:
使用在所述指定设备的操作系统中所包含的IP地址来发现各个设备。
23.如权利要求22所述的装置,其中,所述用于发现每个服务的服务监视器包括:
用于建立到所述网络的选定端口的TCP端口连接的装置,其中所述TCP端口连接使用所述发现的设备中特定的一个设备的IP地址;和
用于试图连接到所述端口以便确定是否有任何服务正在所述特定的所发现设备上运行的装置。
24.如权利要求23所述的装置,其中:
对于在相关联的网络管理系统上配置的每个服务来尝试TCP端口连接。
25.如权利要求19至24中任一项所述的装置,其中,所检测到的故障出现在所述网络中,所述装置包括:
用于搜索所述数据库以便标识在所述网络中的其上运行有任何所述发现的服务的每个设备的装置,并且其中:
所述警告装置可操作来产生警告以提供通知,用于表明被发现正在所述标识的设备上运行的每个所发现的服务已经受到了所述检测到的网络故障的影响。
26.如权利要求19至24中任一项所述的装置,其中,所检测到的故障出现在所述网络的发现的设备中,所述装置包括:
用于搜索所述数据库以便确定是否有任何所述发现的服务正在所述发现的设备上运行的装置,并且其中:
所述警告装置可操作来产生警告以提供通知,用于表明被发现正在所述发现的设备上运行的每个所发现的服务已经受到了在所述发现的设备上所检测到的所述故障的影响。
27.如权利要求26所述的装置,其中:
所述警告被发送到所述指定设备的所述操作者。
CN2005800330123A 2004-09-30 2005-09-28 用于确定故障对网络服务的影响的方法和装置 Expired - Fee Related CN101032123B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/955,081 US20060072707A1 (en) 2004-09-30 2004-09-30 Method and apparatus for determining impact of faults on network service
US10/955,081 2004-09-30
PCT/EP2005/054869 WO2006035040A1 (en) 2004-09-30 2005-09-28 Method and apparatus for determining impact of faults on network service

Publications (2)

Publication Number Publication Date
CN101032123A CN101032123A (zh) 2007-09-05
CN101032123B true CN101032123B (zh) 2010-06-23

Family

ID=35311760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800330123A Expired - Fee Related CN101032123B (zh) 2004-09-30 2005-09-28 用于确定故障对网络服务的影响的方法和装置

Country Status (5)

Country Link
US (1) US20060072707A1 (zh)
EP (1) EP1800436A1 (zh)
CN (1) CN101032123B (zh)
TW (1) TW200637242A (zh)
WO (1) WO2006035040A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7933211B2 (en) * 2006-12-19 2011-04-26 Nokia Corporation Method and system for providing prioritized failure announcements
US8468165B2 (en) * 2007-12-02 2013-06-18 Leviton Manufacturing Company, Inc. Method for discovering network of home or building control devices
US8689058B2 (en) * 2010-03-26 2014-04-01 Microsoft Corporation Centralized service outage communication
JP6306499B2 (ja) * 2014-12-25 2018-04-04 クラリオン株式会社 障害情報提供サーバ、障害情報提供方法
US10708151B2 (en) * 2015-10-22 2020-07-07 Level 3 Communications, Llc System and methods for adaptive notification and ticketing
EP4008934A3 (en) * 2016-02-23 2023-03-29 John Crane UK Ltd. System and method for predictive diagnostics for mechanical systems
US10417044B2 (en) 2017-04-21 2019-09-17 International Business Machines Corporation System interventions based on expected impacts of system events on scheduled work units
US11645131B2 (en) * 2017-06-16 2023-05-09 Cisco Technology, Inc. Distributed fault code aggregation across application centric dimensions
CN110417915B (zh) * 2019-08-22 2021-12-31 北京大米科技有限公司 一种推送消息传输方法、装置、存储介质及电子设备
US20230030168A1 (en) * 2021-07-27 2023-02-02 Dell Products L.P. Protection of i/o paths against network partitioning and component failures in nvme-of environments
CN113965486B (zh) * 2021-10-20 2023-04-21 中国工商银行股份有限公司 一种垂直定位故障的线路探测方法及装置
CN115473828B (zh) * 2022-08-18 2024-01-05 阿里巴巴(中国)有限公司 基于仿真网络的故障检测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1430386A (zh) * 2001-12-17 2003-07-16 阿尔卡塔尔加拿大公司 传输操作、管理和维护分组的系统及方法
US6658586B1 (en) * 1999-10-07 2003-12-02 Andrew E. Levi Method and system for device status tracking

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5832196A (en) * 1996-06-28 1998-11-03 Mci Communications Corporation Dynamic restoration process for a telecommunications network
US6253339B1 (en) * 1998-10-28 2001-06-26 Telefonaktiebolaget Lm Ericsson (Publ) Alarm correlation in a large communications network
US6414958B1 (en) * 1998-11-30 2002-07-02 Electronic Data Systems Corporation Four-port secure ethernet VLAN switch supporting SNMP and RMON
US6694362B1 (en) * 2000-01-03 2004-02-17 Micromuse Inc. Method and system for network event impact analysis and correlation with network administrators, management policies and procedures
US7383191B1 (en) * 2000-11-28 2008-06-03 International Business Machines Corporation Method and system for predicting causes of network service outages using time domain correlation
US20020194319A1 (en) * 2001-06-13 2002-12-19 Ritche Scott D. Automated operations and service monitoring system for distributed computer networks
US8032625B2 (en) * 2001-06-29 2011-10-04 International Business Machines Corporation Method and system for a network management framework with redundant failover methodology
CA2355426A1 (en) * 2001-08-17 2003-02-17 Luther Haave A system and method for asset tracking
US7379993B2 (en) * 2001-09-13 2008-05-27 Sri International Prioritizing Bayes network alerts
US6687574B2 (en) * 2001-11-01 2004-02-03 Telcordia Technologies, Inc. System and method for surveying utility outages
JP2003162510A (ja) * 2001-11-27 2003-06-06 Allied Tereshisu Kk 管理システム及び方法
US6907549B2 (en) * 2002-03-29 2005-06-14 Nortel Networks Limited Error detection in communication systems
US7200779B1 (en) * 2002-04-26 2007-04-03 Advanced Micro Devices, Inc. Fault notification based on a severity level
US7426560B2 (en) * 2002-06-27 2008-09-16 Intel Corporation Method and system for managing quality of service in a network

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6658586B1 (en) * 1999-10-07 2003-12-02 Andrew E. Levi Method and system for device status tracking
CN1430386A (zh) * 2001-12-17 2003-07-16 阿尔卡塔尔加拿大公司 传输操作、管理和维护分组的系统及方法

Also Published As

Publication number Publication date
CN101032123A (zh) 2007-09-05
WO2006035040A1 (en) 2006-04-06
EP1800436A1 (en) 2007-06-27
TW200637242A (en) 2006-10-16
US20060072707A1 (en) 2006-04-06

Similar Documents

Publication Publication Date Title
CN101032123B (zh) 用于确定故障对网络服务的影响的方法和装置
RU2375746C2 (ru) Способ и устройство для обнаружения сетевых устройств
US7721152B1 (en) Integration of cluster information with root cause analysis tool
EP1320217B1 (en) Method of installing monitoring agents, system and computer program for monitoring objects in an IT network
US6557122B1 (en) Notification system for informing a network user of a problem in the network
US7016955B2 (en) Network management apparatus and method for processing events associated with device reboot
US20010037473A1 (en) Backup apparatus and a backup method
JP5287402B2 (ja) ネットワーク監視制御装置
JP2004021549A (ja) ネットワーク監視システムおよびプログラム
JP4345987B2 (ja) 通信ネットワークにおける障害発生箇所を特定する装置および方法
KR20000076842A (ko) 네트워크-부착 단말기를 구성하는 시스템 및 방법
JP2002141905A (ja) ノード監視方法,ノード監視システム、および記録媒体
JP2016536920A (ja) ネットワークパフォーマンス監視のための機器および方法
EP1661367B1 (en) Packet sniffer
JP2010041604A (ja) ネットワーク管理方法
US20020143917A1 (en) Network management apparatus and method for determining network events
JP3416604B2 (ja) ネットワーク監視装置
JP2006229700A (ja) ネットワーク間経路情報の監視代行サービスシステムとその方法、および装置、ならびにそのプログラム
JP4238834B2 (ja) ネットワーク管理システムおよびネットワーク管理プログラム
CN101958925A (zh) 一种控制远程设备的方法以及装置
JP2000047912A (ja) ネットワークサービス監視方法および装置とネットワークサービス監視プログラムを記録した記録媒体
JPH08171524A (ja) ネットワーク機器情報管理システム
JP3305248B2 (ja) ネットワーク監視制御方法とシステム
JP6015056B2 (ja) ネットワーク管理システム、ネットワーク管理方法、ネットワーク監視システム、及び、ネットワーク管理プログラム
JP2007052756A (ja) ワイヤレスデバイスの不具合診断に適用する学習型診断データベース

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100623

Termination date: 20100928