CN101627379A - 分布式网络管理系统和方法 - Google Patents

分布式网络管理系统和方法 Download PDF

Info

Publication number
CN101627379A
CN101627379A CN200880004958A CN200880004958A CN101627379A CN 101627379 A CN101627379 A CN 101627379A CN 200880004958 A CN200880004958 A CN 200880004958A CN 200880004958 A CN200880004958 A CN 200880004958A CN 101627379 A CN101627379 A CN 101627379A
Authority
CN
China
Prior art keywords
server
network
nms
function
servers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200880004958A
Other languages
English (en)
Other versions
CN101627379B (zh
Inventor
R·E·阿尔韦斯
R·F·博纳
N·塞雷亚
J·M·利斯
S·A·萨比特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sarbocom Co., Ltd.
Original Assignee
Tyco Telecommunication US Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tyco Telecommunication US Inc filed Critical Tyco Telecommunication US Inc
Publication of CN101627379A publication Critical patent/CN101627379A/zh
Application granted granted Critical
Publication of CN101627379B publication Critical patent/CN101627379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • H04L41/044Network management architectures or arrangements comprising hierarchical management structures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0695Management of faults, events, alarms or notifications the faulty arrangement being the maintenance, administration or management system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 
    • H04L67/1051Group master selection mechanisms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

用于管理网络的方法的系统和方法。多个服务器的每个服务器包括用于管理网络内的网元的网元管理系统(EMS)功能和用于管理多个服务器中运行EMS功能的服务器的网络管理系统(NMS)功能。在多个服务器共享一个网络域时,NMS功能在服务器之一上被激活。网络域例如由于网络故障而被分成多个域时,NMS功能在多个服务器的至少另一服务器上被激活,由此多网络域的每个具有至少一个相关联的活动NMS功能。

Description

分布式网络管理系统和方法
相关申请交叉引用
本申请受益于2007年2月15日提出的美国临时申请60/890155,该申请由此作为整体通过引用结合于本文中。
技术领域
本公开内容涉及网络管理,并且具体地说,涉及分布式网络管理系统。
背景技术
网络管理可在各种类型的网络中的不同层进行以避免网络故障和确保网络性能。在通信网络中,网元管理系统(EMS)可用于监督和管理网络内的网元。通信网络也可包括网络管理系统(NMS)以通过与若干EMS通信来管理整个网络。
在诸如波分复用(WDM)系统等光通信系统中,终端或电缆站(cable station)可通过电缆段互连以形成网络。光通信系统中的网元可包括位于电缆站的设备(例如,终端设备和馈电设备)及连接到电缆站的设备(例如,中继器和均衡器)。在此类系统中,EMS可位于电缆站(或在单独的位置)并用于管理与此电缆站相关联的网元。EMS可包括用于执行网元管理功能的一个或多个服务器和用于提供用户界面的一个或多个工作站(例如,以显示与由EMS管理的网元相关联的信息)。NMS可位于电缆站之一,或者在单独的位置以管理整个光通信系统或网络。
网络的管理可包括配置管理、故障管理和性能管理。EMS可通过获取、存储和/或显示由EMS管理的网元转发的警报、事件和系统消息,提供故障管理。EMS可通过获取、存储、显示和/或测量传输质量数据,提供性能管理。NMS能通过管理每个EMS转发的所有警报、事件和系统消息及传输质量数据,为整个网络提供故障管理和性能管理。NMS可例如在网络拓扑图上显示从每个EMS收到的故障和性能信息。
如图1所示,可由NMS显示的一种类型的信息是如基础EMS管理的网络警报状态。用户(例如,网络管理员或操作员)可监视显示的信息以确定网络警报是否指示网络中可导致网络中断的故障。警报摘要信息可指示警报级别(例如,重大(major)、次要(minor)、无、不可用/不报告)和重大与次要警报的警报计数。
如图2所示,警报状态信息可在每个EMS服务器20与NMS 22之间使用分层方案传递。根据一种实现,在NMS的一个或多个计算机可配置为从EMS服务器20接收信息的一个或多个服务器(例如,单个服务器或冗余服务器)。NMS随后可显示网络中每个EMS的警报摘要信息(例如,如图1所示)。
根据另一可能实现,通过将NMS功能分布到EMS服务器(即,内置于每个EMS中的微NMS特性(feature)),可形成NMS而无物理NMS服务器或层。然而,通过不具有NMS层的分布式NMS,仍希望提供完整网络的状态的概观。为实现此目的,每个EMS可通过向“主”服务器呈现最高级警报状态而与单个“主”服务器通信。“主”服务器又可向每个EMS服务器提供整个网络内所有EMS服务器的警报状态的统一视图。网络中每个EMS的警报摘要信息(例如,如图1所示)随后可在EMS工作站上显示。因此,此分布式NMS方案也使用分层方案,即,带有主EMS服务器而不是NMS服务器。
在分层方案中的系统操作严重取决于NMS服务器或主服务器,该服务器承担了处理的主要压力,并可以是单故障点。如果NMS服务器或主服务器失败,或者如果有网络光纤断开,则警报和状态共享特性可能失败。此外,可用于分布式NMS系统的、基于简单TCP/IP客户端/服务器的通信模型可能无效,并且可需要处理和传输资源。
附图说明
通过结合附图,阅读以下详细说明,将更好地理解与本公开内容一致的这些和其它特性和优点,其中:
图1是用于网络管理系统(NMS)的图形用户界面(GUI)报告的图示。
图2是示出在网元管理系统(EMS)与NMS之间共享数据的分层方案的示意图。
图3是示出与本公开内容一致的使用EMS-NMS的分布式网络管理方案的示意图。
图4是示出在发生网络故障的情况下与本公开内容一致的使用EMS-NMS(如上所述)的分布式网络管理方案的示意图。
图5是与本公开内容一致的分布式网络管理系统一部分的逻辑高层架构的实施例。
图6是与本公开内容一致的网络管理系统功能的实施例。
图7是与本公开内容一致的NMS服务器应用的状态转换图的实施例。
图8是示出与本公开内容一致、检查另一NMS服务器的运行时间状态的流程图。
图9是示出与本公开内容一致、在DCN故障发生并随后得到修复时NMS服务器的激活和去激活的时序/状态图。
图10是示出与本公开内容一致、在两个活动NMS服务器之间确定运行时间优先权的流程图。
图11示出与本公开内容一致的光传输层网络。
图12是与本公开内容一致的一个示范工作站功能的GUI的图示。
图13是示出与本公开内容一致的网元的单元视图示例的工作站功能的GUI的图示。
具体实施方式
通常,与本公开内容一致的分布式网络管理系统可包括网络中每个硬件服务器处的NMS功能。每个硬件服务器也可包括EMS功能。在本文中使用时,包括NMS功能和EMS功能的硬件服务器可称为EMS-NMS服务器。在完整的网络域起作用时,服务器之一可被指配为托管(host)该域的NMS功能,而它和其它服务器可执行EMS类型功能。如果主机服务器变得不可用,则网络中的任何其它服务器可被指配为承担主机角色。此外,在发生例如网络光纤断开等网络故障的情况下,可自动指配单独的主机服务器,即,无需操作员干预,以便在任何单独的网络“岛(island)”或域上执行NMS功能。在一个示例中,原主机NMS可被指配为岛中第一个岛的主机,而新NMS主机被指配为岛中第二个岛的主机。在网络故障得到消除,域或“岛”可自动消失,即,无需操作员干预,并且NMS功能可在例如原主机服务器等服务器之一上自动指配。
根据本文所述的示范实施例,每个EMS-NMS服务器可使用数据通信网络(DCN)与每个其它EMS-NMS服务器共享网络信息。在本文中使用时,术语服务器指管理网络资源的软件和/或硬件,并且不限于单个计算机或装置。在一个示例中,网络状态数据包括表示由EMS-NMS管理的网元转发到EMS-NMS的警报的EMS警报状态数据。除警报状态外,网络状态数据可包括要在EMS-NMS之间共享的其它类型信息,如线路监视设备的状态或其它状态数据。然而,本公开内容不限于警报状态数据或EMS-NMS状态数据。在本文中使用时,网络状态数据可包括通常与网络的状态和/或与网络中一个或多个特定网元有关的任何类型的数据。一些共享网络状态数据(例如,摘要警报信息)可使用用户界面显示,例如,使用登录到主机EMS-NMS服务器中的客户端工作站上的图形用户界面(GUI)显示。
参照图3,EMS-NMS服务器30-1...30-n共享EMS-NMS服务器30-1...30-n之间的网络状态数据。网络中的每个EMS-NMS服务器30-1...30-n可传送和接收指示与所有EMS-NMS服务器相关联的网络状态数据的消息或通知。EMS-NMS服务器可例如使用EMS-NMS服务器将消息广播到其它服务器所用的星/广播方法,或者使用EMS-NMS服务器30-1...30-n将消息传送到相邻服务器的循环消息队列(CMQ)方法,将消息传送到其它登记的EMS-NMS服务器。可传送另外的消息和/或通知以确定EMS-NMS服务器30-1...30-n中的一个或多个服务器是否(例如由于服务器关闭或DCN链路关闭的原因)未报告或不可用。
例如服务器30-1的EMS-NMS服务器之一可被指配为用于执行NMS功能的主机服务器。此指配可例如通过使用客户端服务器处的查找表以分立或自动的方式进行。如果主机EMS-NMS服务器失败,则例如30-2...30-n的其它服务器的任一个可自动被指配为主机服务器。
如果网络被分成单独的域或岛,则可为每个单独的域将一个EMS-NMS服务器指配为主机服务器,即,其中每个域一个主机服务器的多个主机服务器。如图4所示,诸如DCN光纤断开等网络故障可促使网络分成单独的域402、404。单独的域402、404可以是隔离的,即,可无法相互通信。在所示实施例中,例如,服务器30-1和30-8...30-n可被分成第一域402,并且服务器30-2...30-7可被分成第二域404。由于网络故障的原因,例如第一域402等域中的EMS-NMS服务器无法与例如第二域404等另一域中的服务器通信,但每个域内服务器之间的通信仍可进行。
在与本公开内容一致的系统中,单独域的创建可促使例如使用客户端服务器处的查找表或本地主机服务器规则,为每个域自动指配主机服务器。例如,服务器30-2可被指配为域404的主机EMS-NMS服务器,并且服务器30-1可被指配为域402的主机服务器。在网络故障被消除,并且网络域或“岛”消失时,用于单独岛的主机服务器可产生到例如服务器30-1等用于已修复网络的自动指配的主机服务器的主机服务器状态。
图5示出与本公开内容一致的分布式网络管理系统一部分的逻辑高层架构500的实施例。逻辑架构500可包括一个或多个网元管理系统功能(EMS),例如,EMS 50-1、EMS 50-2。每个EMS功能可位于(resident)EMS-NMS硬件服务器上。EMS的功能可包括管理传输网络58组件。传输网络组件可包括线路端接设备、馈电设备、电缆(例如,海底电缆)和/或其它设备。
EMS的功能可还包括与例如NMS 54等网络管理系统功能(NMS)的通信。NMS功能可位于EMS-NMS硬件服务器上。NMS 54可经例如NBI 52-1、NBI 52-2等北向接口,与例如EMS 50-1、EMS 50-2等基础EMS通信。在一个实施例中,北向接口可以是CORBA(公共对象请求代理架构)北向接口。CORBA北向接口可提供在分布式应用(即可在不同计算机上运行并且不可共享相同的操作系统)的应用之间的通信。此外,应用可使用不同的编程语言实现。在另一实施例中,北向接口可以是SNMP(简单网络管理协议)接口。在另一实施例中,北向接口可以是TL1(事项处理语言1)接口。
NMS 54可还与例如WSF 56-1、WSF 56-2等客户端工作站功能(WSF)通信。WSF可以位于工作站上。工作站可与例如在电缆站处的EMS-NMS硬件服务器布置在一起。另外或备选,工作站可以是独立的,例如在诸如NOC(网络操作中心)等客户站点处。WSF可包括图形用户界面(GUI)。分布式网络的状态可通过WSF GUI向用户显示。网络管理信息可通过WSF GUI向用户显示。例如,用户可使用WSF GUI来请求状态和/或来提示网络的重新发现。
如上所述,例如NMS 54等NMS功能、例如EMS 50-1等EMS功能和例如NBI 52-1等NBI可共处在硬件服务器(EMS-NMS服务器)中。例如WSF 56-1等WSF可位于可与EMS-NMS服务器布置在一起的工作站中。在一些实施例中,每个网络域仅仅一个NMS功能可在给定时间点有效地管理该域。NMS功能因此可包括确保仅仅一个NMS功能在有效管理域的功能。NMS功能可还包括在发生引起岛的网络故障和/或硬件服务器故障和/或在有效管理网络的NMS功能的故障时允许激活另一NMS功能。NMS功能可包括支持在引起岛的网络故障修复后去激活另外的NMS功能的功能。
图6示出与本公开内容一致的NMS功能600的实施例。NMS功能600可包括一个或多个模块。每个模块可以是独立的运行时间进程,并且可包括一个或多个应用组件。每个应用组件可专用于执行特定的管理功能,例如,实现专用CORBA伺服器。在本文中使用时,CORBA伺服器可包括使用某个编程语言的、用于实现CORBA对象的功能的数据结构或对象。
NMS功能600可包括OSF(操作支持功能)模块610、NBI(北向接口)模块620、相关性管理器模块630、CORBA名称服务640和CORBA事件服务650。每个模块610、620、630可分别具有相关联的应用管理器组件612、622、632。OSF模块610可还包括拓扑管理器组件614、性能管理器组件616和故障管理器组件618。NBI模块620可还包括协议组件624。相关性管理器模块630可还包括相关性管理器组件634。每个模块610、620、630可将其CORBA伺服器对象参考发布到CORBA名称服务640中,并且可通过CORBA事件服务650发送和/或接收自发通知消息。模块的生命周期可由其相关联的应用管理器组件控制,并且它的其它组件可相应地被激活和/或去激活。
OSF模块610可独立于NMS功能600中任何其它模块执行。OSF模块应用管理器组件612可控制NMS功能600的运行时间行为。例如,OSF模块应用管理器组件612可确定是否可有效地支持客户端。
图7示出与本公开内容一致的OSF模块应用管理器组件(“服务器应用”)的状态转换图700的实施例。状态转换图700包括状态和状态转换。状态可包括服务器应用执行的一个或多个任务。状态可还标识服务器应用在该状态能支持哪些服务。例如,服务可包括当用户(例如,通过WSF GUI)请求时的运行时间状态检查。状态转换可由应用管理器组件执行、自稳健(Self-sanity)检查操作和/或用户发出请求中达到的里程碑管控(gover)。状态转换可以是状态间和/或状态内转换,并且可通过自发消息通知到客户端应用。
启动710后,服务器应用可先检查其初始化可能需要的本地资源的可用性。服务器应用也可为它提供的特性检查运行时间支持的可用性。换而言之,服务器应用可验证其运行时间环境配置适当,并且资源可用于要发起的服务器会话。例如,服务器应用可验证应用配置文件、服务器配置和/或系统资源的可用性。如果本地资源和/或运行时间支持可用,则服务器应用可转换到初始化状态720。否则,服务器应用可记录适当的消息(例如,初始化失败),并且可转换到关闭状态780。
当处于初始化状态720中,服务器应用可处理其运行时间配置文件,该文件可定义运行时间的服务器应用行为,并且可管控服务器应用将继续的步骤。在一个实施例中,运行时间配置文件可确定服务器应用是否将执行电缆系统拓扑发现或者处理以前创建的网络拓扑配置文件。服务器应用可还确定在执行拓扑发现后是否自动改写拓扑配置文件(如果存在)。在另一实施例中,运行时间配置文件可确定服务器应用是否可与其它服务器应用实例共存和服务器应用的实例激活优先级状态。在另一实施例中,运行时间配置文件可包括用于服务器应用冲突检测的时间间隔,并且可指示其它服务器主机(即,EMS-NMS硬件服务器或EMS或NMS软件服务器)是否可用。
在初始化状态720时,服务器应用可为涉及其运行时间状态的客户端用户请求服务。响应用户请求,例如,用户发出的激活请求,服务器应用可从例如待机状态770转换到此状态中。服务器应用可也从启动状态710转换到初始化状态720中(即,资源可用于初始化和/或运行时间支持)。
服务器应用可在初始化状态720中执行一个或多个任务。任务可包括使用例如CORBA名称服务(例如,CORBA名称服务640)创建并登记服务器应用伺服器。任务可还包括使用例如CORBA事件服务(例如,CORBA事件服务650)为自发消息创建事件信道。在一个实施例中,任务可包括检测和防止与其它可能活动的服务器应用(即,其它NMS功能)冲突。任务可还包括确保用户定义的应用配置的同步。任务可还包括检测和触发适当的拓扑上载选项。
例如,检测服务器冲突可产生未检测到服务器冲突或检测到服务器冲突。如果未检测到服务器冲突,则服务器应用可转换到下一适当的状态。下一适当的状态可以根据服务器应用的运行时间配置文件确定。例如,服务器应用可转换到上载配置文件状态730或发现拓扑状态740。
如果检测到服务器冲突,并且无法联系到冲突服务器,则服务器应用可转换到下一适当状态。下一适当的状态可以根据服务器应用的运行时间配置文件确定。例如,服务器应用可转换到上载配置文件状态730或发现拓扑状态740。例如,如果在服务器应用本地发生DCN故障,则可隔离服务器应用。这种情况下,服务器应用无法联系另一可能有冲突的NMS实例。修复DCN故障可消除此情况。
如果检测到冲突,并且能联系到冲突服务器,则可发生以下情形。如果冲突服务器具有比初始化服务器应用实例更高的激活优先权,则服务器应用可记录适当的消息,并转换到待机状态770。如果冲突服务器相对于初始化服务器应用实例具有更低的激活优先权,则服务器应用可根据其运行时间配置文件继续到下一适当的状态。如果冲突服务器与初始化服务器应用实例具有相同的激活优先权,则在初始化服务器应用的激活优先级别高于冲突服务器的激活优先级别时,服务器应用可根据其运行时间配置文件继续到下一适当的状态。否则,服务器应用可记录适当的消息,并转换到待机状态770。激活优先权可如下面更详细论述的一样,基于运行时间状态检查和冲突检测协议。
服务器应用可如下从初始化状态720转出。服务器应用可在完成时根据其运行时间配置文件转换到上载配置文件状态730和/或发现拓扑状态740。服务器应用可由于服务器冲突检测和/或由于响应客户端发出的待机请求而转换到待机状态770。响应关闭请求,服务器应用可转换到关闭780。在此状态期间可被服务的用户请求包括运行时间状态检查、服务器待机和/或服务器关闭。
在待机状态770中,服务器应用可能不可有效地监视网络。如果收到激活请求,则服务器应用可转换到初始化状态720,并且可根据其运行时间配置继续。响应客户端发起的请求,服务器应用可转换到待机状态770。例如,在执行系统维护时,用户可使用WSF GUI发出待机请求。
服务器应用可由于服务器冲突检测而转换到待机状态770。例如,在单服务器环境中,可在初始化状态720期间和/或在活动网络管理(即,运行状态760)期间检测服务器冲突。服务器应用随后可根据NMS实例统一协议(在下面更详细论述),自行实施到待机状态770的转换。
服务器应用可响应客户端发出的激活请求从待机状态770转出到初始化状态720,和/或响应关闭请求可从待机状态770转出到关闭状态780。在待机状态770期间可服务的用户请求可包括运行时间状态检查、服务器激活、服务器待机和服务器关闭。
在上载配置文件状态730中,服务器应用可尝试处理先前存在的拓扑配置文件,并基于其内容创建受网络管理的实体。仅可联系基础EMS系统以提供网络配置实体的运行时间状态的更新。服务器应用可在上载配置文件状态730期间执行一个或多个任务。任务可包括创建受管理网元、创建拓扑有关的事件信道和/或更新受管理的信息。可记录执行这些任务期间可发生的异常和/或例外。
在拓扑上载成功完成后,服务器应用可从上载配置文件状态730转出到同步警报状态750。如果无法上载拓扑配置,则服务器应用可转换到发现拓扑状态740。
响应客户端发出的待机请求,服务器应用可从上载配置文件状态730转出到待机状态770,和/或响应关闭请求服务器应用可从上载配置文件状态730转出到关闭状态780。在上载配置文件状态730期间可被服务的用户请求可包括运行时间状态检查、服务器待机和服务器关闭。
在发现拓扑状态740中,服务器应用可执行网络拓扑发现和/或可创建受网络管理的实体。服务器应用可依赖于基础NBI系统提供拓扑和最新配置信息。服务器应用可在发现拓扑状态740期间执行一个或多个任务。任务可包括联系NBI电缆系统命名服务(例如,CORBA命名服务640)、发现系统拓扑、创建受管理网元、更新受管理信息、创建拓扑有关事件信道,根据运行时间配置文件生成拓扑配置文件,以及根据运行时间配置文件生成用于服务器应用的路径踪迹(trailtrace)。可向客户端通知可发生的异常和/或例外并将异常和例外记录到专用文件。只有成功创建的网络实体可受到管理。
响应客户端发起的请求,例如,WSF客户端发出发现拓扑请求,服务器应用可转换到发现拓扑状态740。在服务器正启动并且尚未检测到服务器冲突时,服务器应用可转换到发现拓扑状态740。在上载拓扑信息不成功时,服务器应用可从上载配置文件状态730转入发现拓扑状态740。
在拓扑发现成功完成时,服务器应用可从发现拓扑状态740转出到同步警报状态750。服务器应用可响应客户端发出的待机请求从发现拓扑状态740转出到待机状态770和/或响应关闭请求从发现拓扑状态740转出到关闭状态780。在发现拓扑状态740期间可被服务的用户请求可包括运行时间状态检查、服务器待机和服务器关闭。
在同步警报状态750中,服务器应用可能已发现并上载了网络拓扑。服务器应用随后可清理活动警报列表的内容。服务器应用可通过NBI接口(例如,NBI 52-1、52-2)重新同步故障信息与基础EMS系统。服务器应用可在同步警报状态750期间执行一个或多个任务。任务可包括清理当前警报列表、连接到EMS创建的事件信道、同步警报和基础EMS以及通知客户端(例如,WSF 56-1、56-2)未响应的EMS NBI和事件信道。
在警报同步成功完成时,服务器应用可从同步警报状态750转出到运行状态760。服务器应用可响应客户端发出的待机请求从同步警报状态750转出到待机状态770和/或响应关闭请求从同步警报状态750转出到关闭状态780。在同步警报状态750期间可被服务的用户请求可包括运行时间状态检查、服务器待机和服务器关闭。
在运行状态760中,服务器应用可允许服务客户端请求和/或可处理从基础EMS系统收到的输入通知。输入通知可包括警报设置和警报清除。服务器应用可在运行状态760期间执行一个或多个任务。任务可包括收听和/或处理自发消息、管理事件信道连接、服务客户端请求以及发送心跳通知(heart beat)到客户端。
心跳通知可以是在服务器(例如,服务器应用)与客户端(例如,WSF)之间指示服务器在运行的周期信号。在发送心跳通知前,服务器应用可重置其运行时间进度状态。在收到心跳通知后,客户端可发出对服务器应用的运行时间状态的请求。服务器应用可通过为收到的每个运行时间状态请求增大其活动客户端的数量而更新其运行时间进度状态。
响应客户端发出的请求,服务器应用可从运行状态760转出到发现拓扑状态740。响应客户端发出的请求,服务器应用可从运行状态760转出到同步警报状态750。响应客户端发出的待机请求和/或由于服务器冲突检测,服务器应用可从运行状态760转出到待机状态770。响应关闭请求和/或由于服务器冲突检测,服务器应用可从运行状态760转出到关闭状态780。在运行状态760期间可服务的用户请求可包括运行时间状态检查、服务器待机和服务器关闭。
在从运行状态760转出时,服务器应用可停止可能已调度的任何运行状态有关的周期任务,并无条件地释放可能已授权的任何未完成资源锁定(outstanding resource locks)。
在关闭状态780中,服务器应用不再为运行时间状态外的其它客户端请求服务。一旦启动后,便不可中断服务器关闭过程,并且丢弃输入通知。服务器应用在关闭时,它可断开与EMS事件信道的连接、取消命名服务的登记、通知客户端、关闭日志文件和/或释放服务器应用使用的服务器主机系统资源。
在操作期间,分布式网络管理系统可如下起作用。在启动时,客户端用户(例如,WSF 56-1)可尝试连接到现有活动NMS实例。如果未找到活动NMS实例,则客户端可通过发送启动请求来激活NMS实例。
如上所述,NMS功能可在电缆系统内每个电缆站中的EMS-NMS硬件服务器中安装和配置。某些电缆站EMS-NMS硬件服务器可选择为不托管NMS服务器。在正常条件下,至少一个NMS实例可在网络中是活动的,除非用户手动关闭或将每个NMS实例设置为待机。
给定网络的服务器套件可配置为支持单NMS实例或多NMS实例。在配置用于多实例时,服务器应用可禁用其冲突检测协议执行。在配置的是单实例模式时,可执行冲突检测协议以在网络中实施单活动NMS实例。协议可基于服务器运行时间状态检查操作。
运行时间状态检查可允许NMS和WSF实例请求另一NMS实例的运行时间状态。基于收到的结果,NMS和WSF实例可决定其与该NMS实例的关系。WSF客户端例如可决定是否查找不同的NMS实例。NMS实例可在启动时和DCN通信中断恢复后使用该响应来解决实例激活冲突。
运行时间状态可包括三个组成部分:服务器应用的运行时间状态、其进度状态及其激活优先级。服务器应用的运行时间状态可对应于实例当前在执行的其生命周期(例如,如图7所示)状态。生命周期状态可包括优先顺序。例如,优先顺序(最高到最低)可以是运行、同步警报、发现拓扑、上载配置文件、初始化、待机和关闭。WSF可使用服务器应用运行时间状态确定NMS实例是否已准备好为请求服务。WSF也可使用应用运行时间状态来确定如何控制服务器应用的运行时间行为以确保WSF将由该NMS实例或另一NMS实例服务。
服务器应用的进度状态可以是服务器应用在初始化或运行状态中执行时的相对进度。冲突解决可在初始化和运行状态中解决。例如,在初始化期间,进度状态可指示已联系了多少个可能的NMS服务器。系统已配置为只允许每个域一个活动服务器时,此信息可用于检测和防止服务器多实例。在运行状态期间,进度状态可指示多少个WSF实例已登记为要由NMS实例支持。由于冲突解决协议可在初始化和运行状态期间执行,因此,在结合其它运行时间状态报告时,进度状态可能毫无意义。
服务器应用的激活优先级别可以是可在系统配置时确定的优先权指示符。激活优先级别可用于在不允许多NMS实例时,识别托管监视网络的活动NMS实例的优选EMS-NMS硬件服务器。激活优先级定义可取决于网络拓扑和资源可用性。
服务器应用的运行时间进度状态和激活优先级别可支持冲突检测协议。服务器应用的运行时间进度状态和激活优先级别可允许NMS实例将其运行时间状态与其它NMS实例的运行时间状态进行比较。在一个实施例中,在检查运行时间冲突中,这些属性的相对优先权可能是可配置的。例如,如果运行时间进度设为比激活优先级别更高的优先权,则在初始化进程中前进得更远的和/或在服务更多客户端的NMS实例可具有保持活动状态的优先权。此配置可将与可受NMS实例去激活(即,NMS实例关闭或进入待机模式中)影响的客户端相关联的开销降到最低。在激活优先级设为比运行时间进度更高优先权时,具有更高激活优先级的NMS实例可具有保持或转为活动状态的优先权。带有更低优先权的NMS实例可继续进行自行实施的去激活。
类似于其它请求,运行时间状态检查可为服务器提供请求者标识。请求者标识可包含其实例类型(NMS或WSF)和其主机,以允许服务器识别请求者。此信息可在DCN中断后检测冲突时有用。
服务器运行时间配置文件可确定多个NMS实例是否可在网络中同时是活动的。此机制可用于在配置单个活动NMS实例时确保只有单个NMS实例是活动的,而不是实施多个NMS实例。是否允许多个NMS实例可在系统配置时确定。允许多个NMS实例可增大NMS可用性,但也可增大运行时间开销。相对成本效益可以取决于系统。
服务器启动时,NMS实例可尝试管理网络,并且可移到初始化状态。如果允许多个实例,则NMS实例可通过应用生命周期(例如,如图7所示)继续,直至它达到运行状态,而不检查冲突。如果已选择单个活动NMS实例,则可如下面部分中所述,执行服务器冲突检测协议。
冲突检测可在初始化状态和/或运行状态期间发生。可能冲突的NMS实例可在服务器的运行时间配置文件中指示。在初始化状态,为检测活动NMS实例,每个NMS可从本地服务器开始,联系在其运行时间配置文件中标识的每个可能服务器主机。在本地命名服务,NMS实例可发布自己并使自己可用于客户端访问(例如,通过WSF实例)。
例如,参照图8,如果选择单NMS实例模式,则初始化服务器可联系远程服务器并查询其运行时间状态810。远程服务器可作出响应820。初始化服务器可将响应和其自己的运行时间状态进行比较830,以确定是否继续其初始化进程850或转换到待机状态860。如果远程NMS实例的运行时间状态具有比本地服务器的运行时间状态更高的优先权,则本地服务器可中止其初始化并转换到待机状态860。否则,本地服务器可继续变为活动NMS实例850。与NMS服务器列表组合,在服务器运行时间配置文件中定义的服务器冲突检测机制可为服务器部署增加灵活性。例如,可定义优选服务器主机集。优选服务器主机的选择可取决于网络拓扑、资源可用性和运行时间工作负荷分析与估计。
在操作期间,DCN(数据通信网络)可由于例如电缆故障而中断。DCN中断可形成EMS和/或WSF客户端的一个或多个不同的域。在域内通信可存在的同时,可丢失域间通信。在中断前,假设无引起岛的故障,并且假设采用单服务器配置,则一个服务器可有效地管理网络。在DCN中断时,网络分区可发生,并且与活动服务器隔离的WSF实例可激活一个或多个另外的NMS实例。相应地,多个NMS实例可同时变为活动的。如果每个域只有一个服务器是活动的,则多个NMS实例不可有冲突。在DCN恢复时,多个NMS实例可能有冲突,即,一个域中有多个活动服务器。在一个实施例中,活动NMS实例可解决此类冲突,并且统一为每个域单个活动服务器。
冲突解决和统一可如下实现。每个活动服务器的运行时间配置文件可包含可能的NMS服务器的列表。每个活动(即,在运行状态中)NMS服务器可定期检查每个其它可能的NMS服务器的运行时间状态并相应地移入或不移入待机状态。每个NMS实例可缓存网络中每个NMS服务器的运行时间状态。此信息最初可在NMS服务器第一次启动时作为其初始化进程的一部分获得。
图9示出指示两个NMS服务器(服务器A和服务器B)的状态和另一服务器的缓存状态(分别为服务器B和服务器A)的示范时序图900。两个NMS服务器的状态及其缓存内容可随时间而更改和响应某些事件(例如,DCN形成岛的故障的发生和/或解决)而更改。图900中所示的时间间隔是任意的,并且用于说明目的。为简明起见,图900只包括两个NMS服务器。所述功能可适用于任何数量的NMS服务器。
例如,在电缆系统启动时,活动服务器可最终请求所有其它NMS实例的运行时间状态。已经执行和成功联系到的NMS实例将处于初始化、待机或关闭状态。活动服务器可将未成功联系到的任何NMS实例的运行时间状态设为未知状态。对于收到的每个运行时间状态请求,接收请求的服务器可更新其缓存的请求者服务器的运行时间状态,将它设为未知。
参照图9,在时间t=0-,服务器A可处于运行状态910,并且服务器B可处于待机状态915。服务器A和B可在同一域中,即,在服务器A与服务器B之间无形成岛的故障。在t=0-前的某个时间点,服务器A可成功地请求了服务器B的运行时间状态。由于服务器A请求服务器B的运行时间状态原因,服务器的高速缓存可指示A的运行时间状态为未知915。服务器B处于待机状态中时,服务器B不可请求服务器A的运行时间状态。服务器A的高速缓存可指示服务器B的运行时间状态为待机910。
在稳定的系统中,所有非活动NMS实例可最终处于待机状态中。待机状态中的NMS实例不可请求活动服务器的运行时间状态。活动服务器高速缓冲存储器可包含指示其它服务器的运行时间状态的数据。由于处于待机状态的服务器不可请求活动服务器的运行时间状态,因此,在活动服务器高速缓存中的其运行时间状态不可更改。因此,活动服务器不可进一步请求其它服务器运行时间状态,消除了另外的通信开销。
例如,如果DCN中断发生,则一个或多个NMS实例可被激活,并且可达到运行状态。新激活的服务器(例如,服务器B)未成功联系到活动NMS实例(例如,服务器A)。如果服务器B成功联系到服务器A,则服务器B不可被激活,即,服务器A和服务器B将在同一域中。由于服务器B未成功联系到服务器A,因此,在服务器B的缓存的信息中服务器A的运行时间状态可设为未知。
再参照图9,在时间t=0,发生了DCN故障。由于此故障原因,服务器A和服务器B可不再能够通信。服务器A和服务器B可在单独的域和/或岛中。在时间t=0+,服务器B可例如从WSF收到激活请求。相应地,服务器B可处于初始化状态925。服务器B未成功请求服务器A的状态,并且因此在服务器B的高速缓存中将服务器A的运行时间状态设为未知925,并且服务器B可继续其初始化功能。服务器A可保持在运行状态920中。在时间t=0与时间t=0+之间,服务器A可请求服务器B的运行时间状态。由于DCN故障,服务器B不可对服务器A响应,因此,服务器A的高速缓存中服务器B的运行时间状态也可设为未知920。在时间t=T-,服务器B可转换到运行状态935。服务器A可保持在运行状态930中。由于服务器A与服务器B之间无通信,因此,服务器A和服务器B的相应高速缓存可指示对方服务器的状态为未知930、935。
服务器B可定期请求服务器A的运行时间状态。例如,在时间t=T,可重新建立DCN连接。服务器A和服务器B可再次成功地通信。在DCN连接已重新建立后,在下一运行时间检查间隔,例如,在时间t=T+1,服务器B可成功地联系到服务器A。服务器A和服务器B可均在运行状态940、945中,并且服务器B的高速缓存中服务器A的状态可设为运行945。服务器B随后可基于服务器A的响应决定是保持在活动状态还是进入待机模式中。此运行时间状态请求可将服务器A的缓存的信息中服务器B的运行时间状态更新为未知940,并且可在下一次检查间隔,例如,在时间t=T+2使服务器A检查服务器B的运行时间状态。由于服务器A请求服务器B的运行时间状态,在服务器B的高速缓存中服务器A的运行时间状态可设为未知955。服务器A和服务器B两者的运行时间状态可保持在运行950、955。服务器A随后可根据服务器B的响应,决定是保持在活动状态还是进入待机模式中。
如果服务器B保持在活动状态,则服务器A可进入待机状态中,并且服务器B可成为网络中的唯一活动服务器。例如,在时间t=T+3,服务器A可转换到待机状态960,并且服务器B可保持在运行状态965中。两个服务器的高速缓存可保持不变,设为未知960、965。服务器B可在其下一查询间隔,例如在时间t=T+4请求服务器A的运行时间状态。由于此请求的原因,在服务器A的高速缓存中服务器B的运行时间状态可设为(即,保持在)未知970,并且在服务器B的高速缓存中服务器A的运行时间状态可设为待机975。在待机状态中,服务器A不可请求服务器B的运行时间状态,因此,在服务器A的高速缓存中服务器B的运行时间状态可保持设为未知970。
现在参照图10,由于服务器A和服务器B两者均在运行状态1010中,因此,进入待机模式中的决定可取决于服务器的相对运行时间优先权1020。如果运行时间优先权取决于运行时间进度,则将可根据每个NMS实例的相对进度1050,即,每个服务器在服务的WSF客户端数量,以及最终每个服务器的激活优先级,确定将保持在活动状态的NMS实例。如果运行时间优先权取决于激活优先级1030,则具有最高优先级的服务器可保持在活动状态1040。如果两个服务器均具有相同的激活优先级,则具有最高运行时间进度的服务器可保持在活动状态1060。如果两个服务器具有相同的运行时间进度,则两者均可转换到待机状态1070,并且它们之一可由WSF客户端重新激活。
在EMS-NMS服务器将EMS单独发现的端接点“缝合”成适当的网络路径(network trail)时,可实现配置管理。此缝合可在新NMS服务器转为活动状态的任何时候或者用户例如使用GUI面板(panel))强制网络的重新发现的任何时候发生。
图11示出例如海底光纤网络等分布式网络的高层视图。分布式网络可包括三个层。第一层可以是光传输段(OTS)层1110。OTS层1110可包括光纤及其互连。第二层可以是光复用段(OMS)层1120。OMS层1120可包括光信号的复用信道。第三层可以是光信道(OCH)层1130。
一个层可包括一条或多条路径。路径可包括一个或多个连接和至少一个端接点。例如,OCH路径1135可包括两个终端和连接它们的信道。OMS路径1125可通过按顺序链接一个或多个OMS连接而形成。OMS连接可由OTS路径1115支持,而该路径可对应于例如光纤等物理链路。
NMS功能(例如,NMS 54)可通过发现端接点及其连接指示器,然后通过将端接点及其连接指示器组合/缝合成适当的网络路径,来实现动态路径生成。发现和缝合可实时执行,并且对于较大的系统可只花费几分钟时间。路径生成和路径目录(inventory)信息可由例如故障管理组件618等故障管理特性和例如性能管理器组件616等性能管理特性使用。
WSF配置管理特性可支持用户指定可与例如OCH路径1135等OCH路径相关联的客户名称、注释等。位于EMS-NMS硬件服务器上的EMS功能可保持设备目录的数据库。例如,NMS 54等NMS功能可通过例如NBI 52-1等北向接口,从例如EMS 50-1等EMS获取和存储信息。通过根据传输系统指配客户名称,操作员可较快和直观地将EMS-NMS警报报告与传输系统NMS生成的那些报告相关,以帮助将可能的传输故障与海底故障手动相关。
受管理网络的故障或警报管理可通过通过例如NBI 52-1等NBI、来自每个EMS功能的包括警报同步的自动事件通知来实现。在此架构中,报告的警报可包括NMS系统警报(例如,故障硬盘、CPU警报、DCN警报等)。因此,故障管理可包括管理系统本身的故障管理。NMS功能可保持网络的活动警报列表的实时复制,并且可为每个登记的客户端(例如,WSF)提供自动更新。可影响业务的警报可与一个或多个路径相关联。WSF客户端可在本地仔细研究(scope)和过滤警报,而不发出NMS功能查询,这可不增加DCN业务。活动警报可以表格形式列出或在始发位置(例如,受监视的电缆站或段)在主网络拓扑示图(例如,如图12所示)上指示。图13示出可对用户WSF可用的视图的示例。此视图包括可允许用户基于设备访问信息的“直通”。用于海底段的线路监视系统(LMS)所识别的警报也可包括在内。颜色可用于指定在指定位置报告的最高严重性警报。
基于用户选定的拓扑范围,另外的图形路径视图也可按位置指示警报起源。这可允许用户快速确定设备故障的影响及可能的常见原因,可能无需扩大调查。活动警报列表也可由根本原因分析(RCA)功能使用。
RCA功能可在用户请求时分析特定范围内的任何当前警报,并可确定原始原因(parent cause)或根本原因。RCA功能可还提供可基于准确的、基于拓扑的故障分析的可能纠正措施。RCA功能可指定用于海底电缆网络架构,因此可能无需用户配置,如规则。然而,如果基于非典型网络管理策略或行为,用户要识别新的可能根本原因或取代自动RCA算法,则可提供定义规则的部件。RCA功能可利用与海底网络的拓扑模型组合的受管理网元(NE)行为模型,以准确地得出可能的根本原因。RCA功能可考虑警报的NE的时间和空间关系,并且由此可有效地过滤无关警报以便在复杂网络故障的情况下,将可向用户呈现的众多警报事件降到最低。这些特性可有效地消除基于设备来定义规则的需要。RCA特性可补充其它路径视图机制以便快速地定位海底警报的根本原因。视在路径层次中可发起RCA的位置而定,输送到RCA功能的警报信息的适当范围划分可自动执行,并且可在所需的网络范围确定根本原因。
性能管理功能可依赖由上述配置管理功能创建的路径,并且只可在客户端WSF请求时激活。在EMS-NMS服务器上的EMS功能可保持与受管理网元有关的历史数据的数据库。相应地,可无需复制与NMS功能相关联的持久数据库中的数据。相反,在客户端(也可包括EMS-NMS自动PM报告生成器特性)通过可选的过滤器和范围划分(scoping)请求基于路径的报告时,托管NMS服务器可经NBI发起仅对适当EMS功能的优化数据库查询。这些服务器可保持与路径相关联设备的历史数据。性能管理和查询响应可进行优化以将NMS DCN业务降到最低。此范例可在数秒内提供WSF响应。
例如EMS-NMS服务器的NMS和EMS功能等分布式网络管理系统和方法的实施例能实现为与计算机系统一起使用的计算机程序产品。此类实现包括但不限于一系列计算机指令,这些指令实施相对于该系统和方法在本文中前面描述的所有或部分功能。该系列的计算机指令可存储在任何机器可读媒体中,如半导体、磁性、光学或其它存储器装置,并且可使用任何通信技术传送,如光学、红外、微波或其它传输技术。预期此类计算机程序产品可作为可移动机器可读媒体(例如,软盘、CD-ROM)分发,与计算机系统一起预加载(例如,在系统ROM或固定磁盘上)或通过网络从服务器或电子布告板分发(例如,因特网或万维网)。
本领域的技术人员将理解,此类计算机指令能以多种编程语言编写以便与许多计算机架构或操作系统一起使用。例如,优选实施例可以过程式编程语言(例如,“C”)或面向对象的编程语言(例如,“C++”或Java)实现。与本公开内容一致的备选实施例可作为预编程硬件元件、固件或作为硬件、软件和固件的组合实现。
相应地,使用分布式网络管理系统和方法允许数据在网络中的服务器之间共享,同时将对于一个服务器的依赖性降到最低。分布式消息传递也可降低业务流量,并消除系统瓶颈。
根据公开内容的一个方面,提供了一种包括多个服务器的分布式网络管理系统,多个服务器中的每个服务器包括用于管理网络内的网元的网元管理系统(EMS)功能和用于管理多个服务器中的、运行EMS功能的服务器的网络管理系统(NMS)功能。多个服务器配置为确保在多个服务器共享一个网络域时,NMS功能在多个服务器之一上是活动的,并在多个服务器的其它服务器上是不活动的。在网络域被分成多域时,多个服务器配置为自动激活在与每个多域相关联的多个服务器之一上的NMS功能,并确保包括多个网络域中每个网络域的其它服务器上的NMS功能是不活动的。
根据公开内容的另一方面,提供有一种管理网络的方法,包括在多个服务器中的每个服务器上提供用于管理网络内的网元的网元管理系统(EMS)功能和用于管理多个服务器中的、运行EMS功能的服务器的网络管理系统(NMS)功能;在多个服务器共享一个网络域时,在服务器之一上激活NMS功能;以及在一个网络域被分成多网络域时,在多个服务器中的至少一个其它服务器上自动激活NMS功能,由此多网络域的每个网络域具有至少一个相关联的活动NMS功能。
根据公开内容的另一方面,提供了一种在包括多个服务器的分布式网络管理系统中指配主机服务器的方法,多个服务器中的每个服务器包括用于管理网络内的网元的网元管理系统(EMS)功能和用于管理多个服务器中的、运行EMS功能的服务器的NMS功能,方法包括:操作多个服务器中的第一服务器,以请求多个服务器中的远程服务器的NMS功能的运行时间状态;从服务器的远程服务器接收响应;比较多个服务器中的第一服务器的运行时间状态和服务器中的远程服务器的运行时间状态;以及响应比较运行时间状态,初始化第一服务器为主机服务器。
根据公开内容仍有的另一方面,提供了一种机器可读媒体,其内容使计算机系统执行在包括多个服务器的分布式网络管理系统中指配主机服务器的方法,多个服务器中的每个服务器包括用于管理网络内的网元的网元管理系统(EMS)功能和用于管理多个服务器中的、运行EMS功能的服务器的NMS功能,方法包括:操作多个服务器中的第一服务器,以请求多个服务器中的远程服务器的NMS功能的运行时间状态;从服务器中的远程服务器接收响应;比较多个服务器中的第一服务器的运行时间状态和服务器中的远程服务器的运行时间状态;以及响应比较运行时间状态,初始化第一服务器为主机服务器。
虽然与本公开内容一致的原理已在本文中描述,但本领域的技术人员要理解,此描述只是作为示例,并且不应作为本公开内容的范围的限制。除本文中所示和所述的示范实施例外,其它实施例也考虑在本公开内容的范围内。由本领域技术人员进行的修改和替代被视为在只由以下权利要求限制的本公开内容的范围内。

Claims (23)

1.一种分布式网络管理系统,包括:
多个服务器,所述多个服务器的每个服务器包括用于管理所述网络内的网元的网元管理系统(EMS)功能和用于管理所述多个服务器中的、运行所述EMS功能的服务器的网络管理系统(NMS)功能,
所述多个服务器配置为确保在所述多个服务器共享一个网络域时,所述NMS功能在所述多个服务器之一上是活动的,并在所述多个服务器的其它服务器上是不活动的,以及在所述一个网络域被分成多域时,所述多个服务器配置为自动激活与所述多域中的每个多域相关联的所述多个服务器之一上的所述NMS功能,并确保包括所述多个网络域的每个网络域的所述服务器的其它服务器上的所述NMS功能是不活动的。
2.如权利要求1所述的系统,所述多个服务器配置为在所述多域组合成所述一个网络域时去激活与多个所述多域的每个多域相关联的NMS功能,以确保所述NMS功能在所述多个服务器中的主机服务器上是活动的。
3.如权利要求1所述的系统,其中所述多个服务器配置为确保在所述多个服务器中的、所述NMS功能在其中是不活动的服务器上所述EMS功能是活动的。
4.如权利要求1所述的系统,其中所述NMS功能配置为自动发现所述NMS功能在其中活动的域的网络拓扑。
5.如权利要求1所述的系统,其中所述多个服务器不维护用于由所述NMS功能使用的网络信息的持久数据库。
6.如权利要求1所述的系统,其中所述NMS功能配置为自动发现所述NMS功能在其中活动的域中的端接点,并连接所述端接点以便为所述NMS功能在其中活动的所述域确立网络路径。
7.如权利要求6所述的系统,其中所述NMS功能配置为使用所述网络路径为所述网络执行故障管理。
8.如权利要求1所述的系统,其中所述多个服务器中的每个服务器还包括用于向用户显示所述网络的状态的客户端工作站功能(WSF)。
9.一种管理网络的方法,包括:
在多个服务器中的每个服务器上提供用于管理所述网络内的网元的网元管理系统(EMS)功能和用于管理所述多个服务器中的、运行所述EMS功能的服务器的网络管理系统(NMS)功能;
在所述多个服务器共享一个网络域时,在所述服务器之一上激活所述NMS功能;以及
在所述一个网络域被分成多网络域时,在所述多个服务器中的至少一个其它服务器上自动激活所述NMS功能,由此所述多网络域中的每个具有至少一个相关联的活动NMS功能。
10.如权利要求9所述的方法,所述方法还包括在所述多域组合成所述一个网络域时,自动去激活与多个所述多域的每个多域相关联的NMS功能。
11.如权利要求9所述的方法,所述方法还包括在所述多个服务器中的、所述NMS功能在其中不活动的服务器上激活所述EMS功能。
12.如权利要求9所述的方法,所述方法还包括在所述服务器中的、所述NMS功能在其中活动的服务器中自动发现网络拓扑。
13.如权利要求9所述的方法,所述方法还包括在所述服务器中的、所述NMS功能在其中活动的服务器中自动发现端接点,并连接所述端接点以确立网络路径。
14.如权利要求13所述的方法,所述方法还包括使用所述网络路径为所述网络执行故障管理。
15.如权利要求9所述的方法,所述方法还包括在所述多个服务器中的每个服务器上提供用于向用户显示所述网络的状态的客户端工作站功能(WSF)。
16.一种在包括多个服务器的分布式网络管理系统中指配主机服务器的方法,所述多个服务器中的每个服务器包括用于管理所述网络内的网元的网元管理系统(EMS)功能和用于管理所述多个服务器中的、运行所述EMS功能的服务器的NMS功能,所述方法包括:
操作所述多个服务器中的第一服务器,以便请求所述多个服务器中的远程服务器的NMS功能的运行时间状态;
从所述服务器中的所述远程服务器接收响应;
比较所述多个服务器中的所述第一服务器的运行时间状态和所述服务器中的所述远程服务器的运行时间状态;以及
响应所述比较运行时间状态,将所述第一服务器初始化为主机服务器。
17.如权利要求16所述的方法,所述方法还包括自动发现与所述多个服务器相关联的网络拓扑。
18.如权利要求16所述的方法,所述方法还包括自动发现与所述多个服务器相关联的端接点,并连接所述端接点以确立网络路径。
19.如权利要求18所述的方法,所述方法还包括使用所述网络路径为所述网络执行故障管理。
20.一种机器可读媒体,其内容促使计算机系统在包括多个服务器的分布式网络管理系统中执行一种指配主机服务器的方法,所述多个服务器中的每个服务器包括用于管理所述网络内的网元的网元管理系统(EMS)功能和用于管理所述多个服务器中的、运行所述EMS功能的服务器的NMS功能,所述方法包括:
操作所述多个服务器中的第一服务器,以便请求所述多个服务器中的远程服务器的NMS功能的运行时间状态;
从所述服务器中的所述远程服务器接收响应;
比较所述多个服务器中的所述第一服务器的运行时间状态和所述服务器的所述远程服务器的所述运行时间状态;以及
响应所述比较运行时间状态,将所述第一服务器初始化为主机服务器。
21.如权利要求21所述的机器可读媒体,所述方法还包括自动发现与所述多个服务器相关联的网络拓扑。
22.如权利要求21所述的机器可读媒体,所述方法还包括自动发现与所述多个服务器相关联的端接点,并连接所述端接点以确立网络路径。
23.如权利要求22所述的机器可读媒体,所述方法还包括使用所述网络路径为所述网络执行故障管理。
CN2008800049580A 2007-02-15 2008-02-15 分布式网络管理系统和方法 Active CN101627379B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US89015507P 2007-02-15 2007-02-15
US60/890,155 2007-02-15
PCT/US2008/054100 WO2008101169A2 (en) 2007-02-15 2008-02-15 Distributed network management system and method

Publications (2)

Publication Number Publication Date
CN101627379A true CN101627379A (zh) 2010-01-13
CN101627379B CN101627379B (zh) 2012-08-15

Family

ID=39690817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008800049580A Active CN101627379B (zh) 2007-02-15 2008-02-15 分布式网络管理系统和方法

Country Status (7)

Country Link
US (1) US8775589B2 (zh)
EP (1) EP2109827B1 (zh)
JP (1) JP5123955B2 (zh)
CN (1) CN101627379B (zh)
CA (1) CA2676925C (zh)
ES (1) ES2545776T3 (zh)
WO (1) WO2008101169A2 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102263651A (zh) * 2010-05-28 2011-11-30 烽火通信科技股份有限公司 Snmp网络管理系统中局端设备连接状态的检测方法
CN103222253A (zh) * 2010-11-17 2013-07-24 阿尔卡特朗讯 用于网络单元服务恢复的方法和系统
TWI492577B (zh) * 2012-07-19 2015-07-11 Hon Hai Prec Ind Co Ltd 伺服器及其設定工作模式的方法
WO2016000382A1 (zh) * 2014-06-30 2016-01-07 中兴通讯股份有限公司 管理配置信息的方法、设备、网元管理系统及存储介质

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8495157B2 (en) * 2007-03-07 2013-07-23 International Business Machines Corporation Method and apparatus for distributed policy-based management and computed relevance messaging with remote attributes
WO2008109848A2 (en) 2007-03-07 2008-09-12 Bigfix, Inc. Pseudo-agent
US20080222296A1 (en) * 2007-03-07 2008-09-11 Lisa Ellen Lippincott Distributed server architecture
US20080307036A1 (en) * 2007-06-07 2008-12-11 Microsoft Corporation Central service allocation system
US7958386B2 (en) * 2007-12-12 2011-06-07 At&T Intellectual Property I, L.P. Method and apparatus for providing a reliable fault management for a network
US7870251B2 (en) * 2008-01-10 2011-01-11 At&T Intellectual Property I, L.P. Devices, methods, and computer program products for real-time resource capacity management
CN101753610B (zh) 2008-12-19 2012-11-21 华为技术有限公司 分布式网络构造方法、装置和系统以及任务处理方法
CN101616024B (zh) * 2009-07-16 2012-07-04 中兴通讯股份有限公司 一种业务开通/阻断的方法和系统
US8305877B2 (en) * 2009-09-10 2012-11-06 Tyco Electronics Subsea Communications Llc System and method for distributed fault sensing and recovery
US8966110B2 (en) 2009-09-14 2015-02-24 International Business Machines Corporation Dynamic bandwidth throttling
CN102685784A (zh) * 2011-03-17 2012-09-19 中兴通讯股份有限公司 一种实现故障告警的方法及装置
CN102761426B (zh) * 2011-04-25 2015-11-18 腾讯科技(深圳)有限公司 一种sns平台唤醒道具的方法及系统
US9639452B2 (en) * 2013-03-15 2017-05-02 Red Hat, Inc. Automated update testing and deployment
CN106470912A (zh) * 2014-07-22 2017-03-01 雀巢产品技术援助有限公司 具有手柄的可重新闭合的包装以及用于制作这类包装的方法和装置
JP6378057B2 (ja) * 2014-11-13 2018-08-22 株式会社東芝 接続制御装置、接続制御方法、接続制御システムおよびコンピュータプログラム
CN105743673B (zh) * 2014-12-10 2020-04-03 中兴通讯股份有限公司 北向接口及其处理通知消息的方法
US10120552B2 (en) 2015-09-25 2018-11-06 International Business Machines Corporation Annotating collaborative content to facilitate mining key content as a runbook
US10425452B2 (en) * 2015-09-25 2019-09-24 International Business Machines Corporation Identifying changes in multiple resources related to a problem
US10320797B2 (en) 2015-09-25 2019-06-11 International Business Machines Corporation Enabling a multi-dimensional collaborative effort system
US10110466B2 (en) 2015-11-23 2018-10-23 Tyco Electronics Subsea Communications Llc Optical communication system with distributed wet plant manager
US10230472B2 (en) 2016-06-08 2019-03-12 Subcom, Llc Polarization modulation of supervisory signals for reducing interference with data signals
US10056978B2 (en) * 2016-06-10 2018-08-21 Tyco Electronics Subsea Communications Llc Techniques for provisioning network elements of a data communications network (DCN) and an optical communication system using the same
CN106254540B (zh) * 2016-09-26 2019-11-15 国云科技股份有限公司 一种适用于分布式系统的节点服务监控系统及实现方法
US10466984B2 (en) 2017-05-01 2019-11-05 At&T Intellectual Property I, L.P. Identifying and associating computer assets impacted by potential change to a particular computer asset
US11894969B2 (en) * 2021-07-12 2024-02-06 Ciena Corporation Identifying root causes of network service degradation
US11838172B2 (en) * 2021-08-31 2023-12-05 Juniper Networks, Inc. Identifying root cause of failures through detection of network scope failures
US11871165B2 (en) * 2022-01-21 2024-01-09 Subcom, Llc Enhanced line monitoring and parameter reporting for high fiber count undersea fiber optic transmission systems with multiple switchable branches
CN114760015B (zh) * 2022-03-21 2023-10-13 傲普(上海)新能源有限公司 基于冗余设计和策略控制的ems遥调遥控成功率提升方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010949A (ja) 1998-06-19 2000-01-14 Nec Corp リレー型分散ヘルスチェック制御システム及び方法
JP3887130B2 (ja) 1999-07-30 2007-02-28 株式会社東芝 高可用性計算機システム及び同システムにおけるデータバックアップ方法
US6732189B1 (en) * 2000-03-20 2004-05-04 International Business Machines Corporation Method and apparatus for fault tolerant tunneling of multicast datagrams
WO2001082678A2 (en) * 2000-05-02 2001-11-08 Sun Microsystems, Inc. Cluster membership monitor
US6785726B1 (en) * 2000-05-08 2004-08-31 Citrix Systems, Inc. Method and apparatus for delivering local and remote server events in a similar fashion
US20030202645A1 (en) * 2000-05-25 2003-10-30 Fujitsu Network Communications, Inc., A California Corporation Element management system with adaptive interface based on autodiscovery from element identifier
US7693976B2 (en) * 2000-07-11 2010-04-06 Ciena Corporation Granular management of network resources
WO2002006971A1 (en) * 2000-07-13 2002-01-24 Aprisma Management Technologies, Inc. Method and apparatus for a comprehensive network management system
US7409432B1 (en) * 2000-10-19 2008-08-05 International Business Machines Corporation Efficient process for handover between subnet managers
US7403980B2 (en) * 2000-11-08 2008-07-22 Sri International Methods and apparatus for scalable, distributed management of virtual private networks
US20020174207A1 (en) * 2001-02-28 2002-11-21 Abdella Battou Self-healing hierarchical network management system, and methods and apparatus therefor
US20030069953A1 (en) * 2001-09-28 2003-04-10 Bottom David A. Modular server architecture with high-availability management capability
JP3577025B2 (ja) 2001-10-22 2004-10-13 株式会社東芝 サービス提供装置の動作方法
US6993686B1 (en) * 2002-04-30 2006-01-31 Cisco Technology, Inc. System health monitoring and recovery
US20040010538A1 (en) * 2002-07-11 2004-01-15 International Business Machines Corporation Apparatus and method for determining valid data during a merge in a computer cluster
JP4134916B2 (ja) * 2003-02-14 2008-08-20 松下電器産業株式会社 ネットワーク接続装置、およびネットワーク接続切替方法
CA2425442A1 (en) 2003-04-15 2004-10-15 Felix Katz Connectivity verification for internet protocol/multi-protocol label switching data communications networks
US7197632B2 (en) * 2003-04-29 2007-03-27 International Business Machines Corporation Storage system and cluster maintenance
CA2467939A1 (en) * 2004-05-20 2005-11-20 Fernando Cuervo Architecture for configuration and management of cross-domain network services
US8180882B2 (en) * 2004-07-22 2012-05-15 Tyco Electronics Subsea Communications Llc Distributed messaging system and method for sharing network status data
CN1305280C (zh) * 2004-09-17 2007-03-14 清华大学 层次光网络中的并行层次光标记交换通道的建立方法
US7787763B2 (en) * 2005-04-04 2010-08-31 Fujitsu Limited System and method for protecting optical light-trails
US20060280117A1 (en) 2005-06-14 2006-12-14 Alcatel Redundancy group status management apparatus and methods
US7742425B2 (en) * 2006-06-26 2010-06-22 The Boeing Company Neural network-based mobility management for mobile ad hoc radio networks

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102263651A (zh) * 2010-05-28 2011-11-30 烽火通信科技股份有限公司 Snmp网络管理系统中局端设备连接状态的检测方法
CN103222253A (zh) * 2010-11-17 2013-07-24 阿尔卡特朗讯 用于网络单元服务恢复的方法和系统
US9130967B2 (en) 2010-11-17 2015-09-08 Alcatel Lucent Method and system for network element service recovery
CN103222253B (zh) * 2010-11-17 2016-03-16 阿尔卡特朗讯 用于网络单元服务恢复的方法和系统
TWI492577B (zh) * 2012-07-19 2015-07-11 Hon Hai Prec Ind Co Ltd 伺服器及其設定工作模式的方法
US9584365B2 (en) 2012-07-19 2017-02-28 Ambit Microsystems (Shanghai) Ltd. Server and method for setting a mode of the server
WO2016000382A1 (zh) * 2014-06-30 2016-01-07 中兴通讯股份有限公司 管理配置信息的方法、设备、网元管理系统及存储介质
CN105282765A (zh) * 2014-06-30 2016-01-27 中兴通讯股份有限公司 一种管理配置信息的方法、设备及网元管理系统
US10270648B2 (en) 2014-06-30 2019-04-23 Zte Corporation Configuration information management method, device, network element management system and storage medium

Also Published As

Publication number Publication date
EP2109827B1 (en) 2015-06-24
JP5123955B2 (ja) 2013-01-23
WO2008101169A3 (en) 2008-10-23
US20080201462A1 (en) 2008-08-21
CA2676925C (en) 2016-01-05
US8775589B2 (en) 2014-07-08
JP2010519819A (ja) 2010-06-03
EP2109827A4 (en) 2013-04-03
ES2545776T3 (es) 2015-09-15
EP2109827A2 (en) 2009-10-21
CA2676925A1 (en) 2008-08-21
WO2008101169A2 (en) 2008-08-21
CN101627379B (zh) 2012-08-15

Similar Documents

Publication Publication Date Title
CN101627379B (zh) 分布式网络管理系统和方法
CN108270669B (zh) Sdn网络的业务恢复装置、主控制器、系统及方法
US6134671A (en) System and method for dynamically generating restoration routes within a communications network
US5964837A (en) Computer network management using dynamic switching between event-driven and polling type of monitoring from manager station
US8370466B2 (en) Method and system for providing operator guidance in network and systems management
US8266272B2 (en) Methods for IT network representation and associated computer program products
US6665262B1 (en) Distributed fault management architecture
US5920257A (en) System and method for isolating an outage within a communications network
US6457050B1 (en) System and method for dynamically restoring communications within a network
US20020059417A1 (en) Status polling failover of devices in a distributed network management hierarchy
JP3206644B2 (ja) ネットワーク管理方式
EP1116121A1 (en) Interface system for integrated monitoring and management of network devices in a telecommunications network
JP2005521334A (ja) ネットワーク管理システム
CN102263651A (zh) Snmp网络管理系统中局端设备连接状态的检测方法
US5781736A (en) Method for obtaining the state of network resources in a distributed computing environment by utilizing a provider associated with indicators of resource states
EP2119113B1 (en) System, method, and network node for checking the consistency of node relationship information in the nodes of a strongly connected network
CN110196721B (zh) 一种互联网数据中心管理方法、系统及介质
US20050259572A1 (en) Distributed high availability system and method
Wilson et al. Multiwavelength optical networking management and control
US5793977A (en) System for obtaining the state of network resources in a distributed computing environment
CN107248935B (zh) 一种网管发现并监控网元的系统及方法
Cisco Getting Started With CiscoWorks Blue Maps
EP0511925A2 (en) Dynamic backup and recovery of focal points in a computer network
WO2000062158A2 (en) Method and apparatus for managing communications between multiple processes
CN112714035A (zh) 监控方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: new jersey

Patentee after: Sarbocom Co., Ltd.

Address before: new jersey

Patentee before: Thai department's electronic submarine communication limited company