CN103620560A - 计算机网络中的故障防御 - Google Patents

计算机网络中的故障防御 Download PDF

Info

Publication number
CN103620560A
CN103620560A CN201280032206.1A CN201280032206A CN103620560A CN 103620560 A CN103620560 A CN 103620560A CN 201280032206 A CN201280032206 A CN 201280032206A CN 103620560 A CN103620560 A CN 103620560A
Authority
CN
China
Prior art keywords
computer network
resource
guard mode
network
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201280032206.1A
Other languages
English (en)
Inventor
希奥尔希奥·帕拉多瑞
帕斯夸里·唐纳迪奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alcatel Optical Networks Israel Ltd
Original Assignee
Alcatel Optical Networks Israel Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcatel Optical Networks Israel Ltd filed Critical Alcatel Optical Networks Israel Ltd
Publication of CN103620560A publication Critical patent/CN103620560A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • H04L41/0661Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities by reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Environmental & Geological Engineering (AREA)
  • Mathematical Physics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公布了一种用于防御计算机网络故障的方法。该方法包括:识别在所述计算机网络中可能发生的一些可能故障,所述一些可能故障包含至少一种可能故障;并且,基于在所述计算机网络中的资源被检测到的可用性,来确定所述计算机网络的允许克服所述可能故障的保护状态,并且基于所述被检测到的可用性的变化来动态地更新所述被确定的保护状态。本方法还包括,当所述故障发生时,如果所述发生的故障对应于所述可能故障,则使所述计算机网络进入与所述被确定的并被动态更新的保护状态相对应的状态。

Description

计算机网络中的故障防御
技术领域
本发明一般涉及计算机网络领域。尤其地,本发明涉及计算机网络的故障防御。
背景技术
如所知的,通信网络包含多个被传送数据流的路径所连接起来的节点,该数据流与为该网络的用户的服务提供(provision of service)相关。通信网络的示范性的传输技术有SDH/Sonet,以太网,波分复用/密集波分复用(WDM/DWDM),因特网协议(IP),多协议标签交换(MPLS)。
基于任意的根据属于ISO-OSI协议栈层1到层3(即,从物理层到网络层)协议的网络传输技术,来实现通信网络中节点间连通性的系统和装置(如物理链路,发送器,接收器,路由器,交换机,等等)通常被称为网络资源。
通信网络上服务的提供是通过使用IT(信息技术)系统和装置,比如计算单元(如CPU),存储单元或磁盘,I/O单元等等来实现的。典型地,这些系统和装置被称为IT资源。这些IT资源可以是在通信网络的节点中与网络资源位于一处,或者,另一个选择是,他们可以是单独的系统和装置。
恢复机制为人所知的是用于管理影响网络资源的故障,比如通信网络链路的故障(如WDM网络中的光纤切断)。这些机制允许网络在故障存在的情况下继续运行,尤其是,按其各自的服务级别来继续传送数据流(并且,因此,来提供由这样的数据流传送的服务)。
EP1473887公开了一种用于在光网络中在多种故障的场景下实现共享的保护方案的系统和方法。在该发明的一个实施例中,响应在网络中接收到的连接请求,在入节点(ingress node)和出节点间(egressnode)的工作路径被计算出来。在入节点和出节点间的一个或多个备份路径被计算出来,这些备份路径在与工作路径或备份路径相关的故障条件下是可激活的。备份路径可以是基于链路和/或节点的不相交,也可以是基于资源的成本约束。
EP1931113公开了一种基于网络服务器的电力消耗,在一组网络服务器中负载平衡网络流量的网络设备。
Lai,以及其他人,“RFC3386:网络层次和多层生存性”,2002年11月7日,XP002239553,公开了在分组和非分组网络中的一组可互操作的生存性方法。
发明内容
各个实施例提供了一种防御计算机网络的故障的方法,该方法允许以一种非常有效的方式来利用计算机网络的网络资源和/或IT资源,同时保证可接受的故障恢复时间。
特别是,根据一些实施例,该方法提供了为可能在网络中发生的至少一种故障来预先计算该计算机网络的保护状态,并且基于在所述计算机网络中的网络资源和/或IT资源的当前的可用性来动态地不断地更新该保护状态。在发生该故障时,该计算机网络被带入该预先计算的并动态更新的保护状态。
这允许有效地利用网络资源,因为该保护状态涉及到的网络资源和/或IT资源仅在该故障发生时被动态地分配,在其他时间可做更多使用。另一方面,从故障中恢复所需的时间被缩短了并允许保证所需的服务级别。事实上,保护状态是预先计算的并且在该故障发生时不需要被实时计算。
此外,如发生故障时,通过利用IT资源副本/冗余,按照实施例所述的本方法可直接应用到与该网络资源协作的IT资源。
而且,按照实施例所述的本方法独立于网络技术。事实上,当不同的网络传输技术(如SDH/Sonet,WDM,等等)被使用时,提供不同的路径重计算算法不是必需的。
除此之外,按照一些实施例所述的本方法允许考虑特定约束,这些特定约束可能对于该计算机网络运行时操作是需要的。例如,一种可能的特定约束可以是与该通信网络的电力消耗相关的,其可能被要求不超过一定的量以降低成本。
在当前说明书中和在权利要求书中,表述“计算机网络”将意味着一个包含网络资源,IT资源或网络资源和IT资源的组合的网络。进一步地,在当前说明书中和在权利要求书中,表述“资源”将意味着如上所定义的网络资源或者IT资源。
在第一个实施例中,一种用于防御计算机网络故障的方法包括:
a)识别在所述计算机网络中可能发生的一些可能故障,所述一些可能故障包含至少一种可能故障;
b)基于在所述计算机网络中的资源的被检测到的可用性,来确定所述计算机网络的允许克服所述可能故障的保护状态,并且基于所述被检测到的可用性的变化来动态地更新所述被确定的保护状态;
该方法还包括,当所述故障发生时:
c)如果所述发生的故障对应于所述可能故障,则使所述计算机网络进入与所述被确定的并被动态更新的保护状态相对应的状态(operative protection state)。
在一些实施例中,资源包括网络资源和/或信息技术资源。
在一些实施例中,在步骤a)所述一些可能故障是基于关于所述计算机网络的拓扑信息来被识别的。
步骤b)还可以包括识别其配置应被改变以使所述计算机网络进入所述保护状态的至少一个资源。
步骤b)还可以包括确定所述至少一个被识别的资源的一组配置参数。
在一些实施例中,该组配置参数是基于关于所述计算机网络的拓扑的信息来确定的。
在一些实施例中,步骤b)包括:
–确定所述计算机网络的至少两种允许克服所述可能故障的保护状态,并且基于所述被检测到的可用性的变化来动态地更新所述被确定的至少两个保护状态;并且
–通过考虑所述计算机网络应满足的至少一种约束来选择所述被确定的并被动态更新的至少两种保护状态中的一种。
所述至少一种约束包含下列约束中的至少一种:
–关于所述计算机网络的电力消耗的约束;
–关于所述被选定的保护状态所涉及到的所述至少一个资源的约束;以及
–关于从所述可能的故障恢复的时间的约束。
在第二个实施例中,一种计算机程序产品,包含计算机可执行的指令,用于,当所述程序在计算机上运行时,执行根据前述权利要求中任一项所述的方法的所述步骤。
在第三种实施例中,一种用于计算机网络的保护管理器包括:
–监控单元,被配置为用于:
-识别在所述计算机网络中可能发生的一些可能故障,所述一些可能故障包含至少一种可能故障;
-基于在所述计算机网络中的资源被检测到的可用性,来确定所述计算机网络的允许克服所述可能故障的保护状态,并且基于所述被检测到的可用性的变化来动态地更新所述被确定的保护状态;
–驱动单元,被配置为用于,如果所述发生的故障对应于所述可能故障,则使所述计算机网络进入与所述被确定的并被动态更新的保护状态对应的状态。
在一些实施例中,所述监控单元进一步被配置为用于识别其配置应被改变以使所述计算机网络进入所述保护状态的至少一个资源
所述监控单元进一步被配置为确定所述至少一个被识别的资源的一组配置参数。
所述保护管理器可以进一步包括存储单元,被配置为用于存储所述被确定的并被动态更新的保护状态和所述至少一个被识别的资源的所述被确定的该组配置参数。
在第四个实施例中,计算机网络包含如上所述包含保护管理器。
附图说明
通过阅读以下详述,本发明的实施例将会被更好地理解,详述以实例而非限制的方式给出,应参考附图来阅读,其中,
–图1示出一个示例性的通信网络;
–图2示出通信网络中节点的示意图;
–图3示出根据本发明实施例的通信网络的保护管理器的示意图;
–图4示出保护管理器的操作的第一流程图;
–图5示出保护管理器的操作的第二流程图。
具体实施方式
图1示出根据本发明的一个优选实施例的适合于实现本方法的通信网络CN的示意图。这不是限制性的。将于后文被描述的本方法可以被应用于任何类型的计算机网络,也即是包含网络资源和/或IT资源的任何计算机网络。特别地,本方法也可以被应用于仅包含IT资源的计算机网络,和包含网络资源和IT资源的组合的计算机网络。
通信网络CN包含若干节点和将他们互联的链路。在图1中,为清楚起见,仅示出五个通信网络CN的节点N1,…N5。
通信网络CN包含一组遍布于网络CN的网络资源和一组分布在网络CN的节点中的IT资源。
特别地,每个节点N1,…N5可以支持单一网络传输技术(例如,其可以是以太网交换机,IP路由器,SDH节点,WDM节点,等等)。或者,每个节点N1,…N5可以包含不同的子系统,每个子系统被配置为用于支持不同的传输技术。节点N1,…N5可以属于相同的类型(也即它们可以支持同样的网络传输技术)或者他们可以属于不同的类型(也即它们可以支持不同的网络传输技术)。
每个节点可以包含一组Rj个网络资源NR(i,j),i=1,…Rj,Rj是等于或大于1的整数。图2示出一个包含四个网络资源NR(1,j),NR(2,j),NR(3,j)和NR(4,j)的通信网络CN的示例性节点Nj的示意图。每个网络资源NR(i,j)包含系统,子系统或装置,被配置为用于实现根据属于ISO-OSI协议栈的任何层1到层3(也即从物理层到网络层)的协议的网络传输技术。
特别地,每个网络资源NR(i,j)可以包含终结进入和离开节点Nj的链路的传输接口。例如,节点Nj可以支持WDM传输技术。在这种情况下,节点Nj的各个网络资源NR(i,j)可以包含光发射器,该光发射器依次包含激光器,光放大器,耦合器,等等来沿着连接节点Nj到网络的另外的节点的给定光纤来发射光。
此外,每个节点可以包含一组Ij个IT资源IR(k,j),k=1,…Ij,Ij是等于或大于1的整数。每个IT资源IR(k,j)包含计算系统或装置比如计算单元(如CPU),存储单元或磁盘,I/O单元。在图2中,通过非限制性的实例,示例节点Nj包含两个IT资源IR(1,j),IR(2,j)(如CPU和磁盘)。
通信网络CN的节点N1,…N5可以仅包含网络资源NR(i,j)(Ij=0),仅包含IT资源IR(k,j)(Rj=0)或者其组合(Rj和Ij都不等于0),如图2所示。
在运行条件(operative conditions)下,通信网络CN连接多个用户,他们通过网络CN的节点N1,…N5交换数据。在网络节点N1,…N5间的数据交换可以承载不同的服务,每种与各自的服务级别相关联。
通信网络CN还可以包含保护管理器PM。保护管理器PM可以被配置为用于与通信网络CN的所有节点N1,…N5协作。
保护管理器PM可以被以集中的方式或以分布的方式来实现。在前一种情况下,保护管理器PM可以被实现为连接到节点N1,…N5中任一个的单独的装置。或者,保护管理器PM可以被集成到通信网络CN中的节点N1,…N5中的任一个中。在分布式实现的情况下,保护管理器PM可以被实现为一组连接到通信网络CN的节点N1,…N5的单独的装置。或者,保护管理器PM可以被集成到通信网络CN中的一个或多个节点N1,…N5中。通过非限制性实例的方式,保护管理器PM在图1中被示为与节点N1相连的单独的装置。通信网络CN的每个节点N1,…N5被配置为以服务的形式来调用保护管理器PM的功能,如同将在后文中将被更大量的细节来描述的一样。
图3示出根据本发明的一个实施例的保护管理器PM的功能框图。保护管理器PM可以包含监控单元MU,存储单元SU和驱动单元AU。
监控单元MU和驱动单元AU被配置为用于访问存储单元来写和/或读信息。监控单元MU和驱动单元AU都可以通过各自的专用程序(存储在程序存储设备中)组件来实现,或通过可以执行软件的硬件,与专用程序(存储在程序存储设备中)相结合来实现。
保护管理器PM(并且,尤其是,监控单元MU)的操作现在将参考图4和图5的流程图来详细地描述。
参考图4,监控单元MU首先可以识别一组可能会发生在通信网络CN中的可能故障F(n)(步骤400)。这组可能故障F(n)可以被网络操作员(通过维护终端)提供给监控单元MU。或者,这组可能故障F(n)可以在指示通信网路CN的拓扑结构的信息的基础上被监控单元MU自动地识别,监控单元MU可以使用合适的控制平面协议通过自动学习机制来获得该指示通信网路CN的拓扑结构的信息。
监控单元MU也可以监控通信网络CN的网络资源NR(i,j)和/或IT资源IR(k,j)的可用性(步骤401)。特别地,监控单元MU可以确定通信网络CN的节点的网络资源NR(i,j)和/或IT资源IR(k,j)的哪些是当前可用的,也即是当前未被使用的。
然后,为任何在步骤400中识别出的可能故障F(n),监控单元MU确定一个或多个配置(后文也叫做“保护状态”)PS(n),可使通信网络CN进入该状态来克服故障F(n)(步骤402)。每个保护状态PS(n)基本上是通信网络CN的一幅“图”,因为其应被操作以克服该故障。换言之,每种保护状态PS(n)包含操作状态(operative state)的描述,应使网络资源NR(i,j)和/或IT资源IR(k,j)进入该操作状态以克服故障。
确定保护状态PS(n)的操作可以基于网络资源NR(i,j)和/或IT资源IR(k,j)的可用性,如在步骤401所确定。
在步骤402被监控单元MU所执行的确定可以考虑保护管理器PM应致力的一般目标。该保护管理器PM应致力的一般目标取决于保护管理器PM是否应仅为网络资源NR(i,j),仅为IT资源IR(k,j)或为网络资源和IT资源的组合NR(i,j),IR(k,j)来提供保护。在后一种情况下,保护管理器PM应致力的目标可以是保护通信网络CN传送的服务,该服务的提供依赖于网络资源NR(i,j)以及IT资源IR(k,j)(如保存对提供该服务有用的信息的存储单元)的使用,同时保证一定的服务级别。
对于每一个可能故障F(n),监控单元MU可以确定多于一个的可供选择的保护状态PS(n),其可以用当前可用的网络资源NR(i,j)和/或IT资源IR(k,j)来实现并且其允许达到此一般目标。例如,就影响通信网络CN中节点N1和节点N3之间的链路的一种可能故障F(n)而言,监控单元MU可以确定两种可供选择的保护状态PS(n)。在第一保护状态中,由发生故障的链路承载的N1和N3之间的流量(traffic)被切换到通过节点N2的第一保护路径。在第二保护状态,由发生故障的链路承载的N1和N3之间的流量被切换到通过节点N4和N5的第二保护路径。
在这种情况下,监控单元MU可以通过考虑如发生故障,通信网络CN应满足的一种或多种特定约束来从所述的可供选择的保护状态PS(n)中随意选择一种。该一种或多种可选约束可以从下述约束条件中选出,
-关于被通信网络CN消耗的电力的约束条件,即,保护状态PS(n)应保证通信网络CN的电力消耗最小;
–关于保护状态PS(n)所涉及的网络资源NR(i,j)和/或IT资源IR(k,j)的约束条件(如,在保护状态PS(n)中被激活的保护路径应包含长度最小的链路);以及
–关于从故障中恢复的时间的约束条件F(n),即,保护状态PS(n)应保证从故障中恢复的时间最短。
例如,根据上述通信网络CN中的示例性的可供选择的保护状态PS(n),监控单元MU可以选择第一保护状态为保护状态,该保护状态使网络的电力消耗最少(因为它的实现涉及了最小数目的节点)。
监控单元MU可以接收来自于网络操作员的其应致力的一般目标以及一种或多种可选的如发生故障通信网络CN应满足的特定约束,这些是该网络操作员可以通过如与保护管理器PM协作的维护终端来输入的。
然后监控单元MU,对于每一种确定的保护状态PS(n)(或对于每一种选定的保护状态PS(n),如果特定约束已被应用),可以识别网络资源NR(i,j)和/或IT资源IR(k,j),其配置应被改变以使通信网络进入保护状态PS(n),并且,对每一种被识别的网络资源NR(i,j)和/或IT资源IR(k,j),它确定应被应用到该资源的一组配置参数,该组配置参数应被应用到该资源上用于配置该资源以使通信网络进入保护状态PS(n)(步骤403)。
配置参数可以被确定(如通过数值模拟和/或实验性测量)并被网络操作员通过维护终端提供给监控单元MU。
或者,配置参数可以被监控单元MU自己在指示通信网络CN拓扑结构的信息的基础上来确定,该信息监控单元可以通过如上所述的自动学习机制来获得该信息。
例如,参考上面的在节点N1和N3间的链路的可能故障F(n)的例子,如果与该故障F(n)相关联的保护状态PS(n)提供给通过节点N2的保护路径的激活,监控单元MU识别出节点N1,节点N2和节点N3应改变他们的配置以使通信网络CN进入该保护状态PS(n)。假定通信网络CN是WDM网络,监控单元MU确定节点N1到节点N3的光发射器应被关闭,节点N1到节点N2的光发射器应被开启并且节点N2到节点N3的光发射器应被开启。进一步地,对于需要被开启的光发射器,监控单元MU确定激光校准参数(输出功率,相位,增益,等等)。
然后,监控单元MU在存储单元SU中保存在步骤400中识别的可能故障F(n),和在步骤402中确定的各自的保护状态PS(n)与在步骤403中确定的各自的一组配置参数(步骤404)。这些数据可以按例如表的形式被存储。
步骤401-404是以实质上连续的方式执行的。在当前说明书中及在权利要求书中,表述“实质上连续的方式”表明步骤401-404是以连续的,异步的方式(也即,监控单元MU永远监听资源可用性的可能的变化并且,当检测到变化时,执行步骤402-404)或以周期性的,同步的方式(也即,监控单元MU周期性地检查资源可用性的可能的变化并且,当检测到变化时,执行步骤402-404)来执行的。
这允许监控单元MU不断地更新关于通信网络CN中资源NR(i,j),IR(k,j)的可用性的知识,并相应地更新保护状态PS(n)和相关的配置参数。换言之,由监控单元MU确定的并被存储在存储单元SU中的保护状态PS(n)动态地考虑在通信网络中的资源NR(i,j),IR(k,j)的可用性的可能的变化。
参考图5的流程图,首先假定通信网络CN是在无故障状态下运行的(状态501)。
在检测到发现通信网络CN中发生的故障F(n*)时(步骤502),监控单元MU可以识别与所发现的故障F(n*)相对应的状态PS(n*)(步骤503)。在步骤502,故障F(n*)可以通过检测包含故障F(n*)的指示信息的告警消息(如受故障影响的资源,故障类型,等)来被检测。在步骤503,监控单元MU可以使用包含在告警消息中的信息来浏览存储单元SU,并且从其中保存的保护状态PS(n)中选择与由这样的信息所描述的该故障F(n*)相对应的状态PS(n*)。
然后,驱动单元AU可以使通信网络CN从无故障状态进入所确定的状态PS(n*)(步骤504)。
为达到此目的,驱动单元AU可以包含驱动表AT和驱动逻辑AL。驱动表AT可以为每种可能的故障类型(如光纤切断,磁盘故障,等)存储各自的一组适合于基于网络资源NR(i,j)和/或IT资源IR(k,j)来克服该故障的动作。在步骤504,驱动逻辑AL从监控单元MU接收故障类型的指示,以及使它可以从存储单元SU中检索与应使通信网络CN进入的状态PS(n*)相关的配置参数的信息。
然后,驱动逻辑AL,在从监控单元(MU)接收的信息的基础上,从存储单元SU检索配置参数,并将存储在驱动表AT中的针对该故障类型的该组动作应用于被检索到的配置参数上。为了执行这组动作,驱动逻辑AL基本上向涉及到的节点发送适合的包含指令的信令消息或管理消息,当这些指令被节点执行时,将重配置涉及到的网络资源NR(i,j)和/或IT资源IR(k,j),从而使通信网络CN进入状态PS(n*)(状态505)。
基于状态PS(n*)的实现,通信网络中一些之前可用的资源变得不可用。由于监控单元MU不断地更新它的关于在通信网络CN中的资源NR(i,j),IR(k,j)的可用性的知识(也即,它实质上连续地执行步骤401),监控单元MU意识到这些资源当前的不可用性,并在步骤402更新保护状态PS(n)时相应地将其考虑进去。
在故障F(n*)被修复后,监控单元MU可以使通信网络又回到无故障状态,从而释放用于实现状态PS(n*)的网络资源NR(i,j)和/或IT资源IR(k,j)。再一次,资源可用性的改变是被监控单元MU检测到的,其相应地更新保护状态PS(n)。
所以,有利地,上述方法允许以非常有效的方式来利用网络CN的网络资源NR(i,j)和/或IT资源IR(k,j)并且,同时,保证从故障F(n*)恢复的时间是可接受的。
事实上,资源NR(i,j),IR(k,j)仅当在故障发生时才被动态地分配用于保护(假定当故障发生时他们当前未被使用),与恢复方案类似。然而,不同于恢复方案,保护状态是在故障发生前,与允许实现保护状态的配置参数一起,被预先计算的。预先计算的状态被不断地基于当前资源的可用性来更新。这使得故障发生后恢复时间非常短,因为保护管理器PM,在故障发生时,仅仅需要应用那些参数已经被确定了的配置。
此外,上述方法不仅适用于网络资源NR(i,j),而且适用于IT资源IR(k,j),或适用于网络资源与IT资源的组合NR(i,j),IR(k,j)。例如,假如本方法被应用于包含IT资源如存储某些数据的磁盘的计算机网络,该磁盘通过链接被连接到其他网络装置,假使故障影响了该链接,两个可供选择的保护状态可以被设想。在第一状态中,另一个允许到达该磁盘的路径或链接可以被激活。在第二状态中,另一个磁盘可以被提供,其保存着同样的数据。取决于资源的可用性和可能的约束,监控单元MU可以选择任一个可供选择的保护状态。
进一步地,上述方法可以被应用到任何计算机网络中,不依赖于它的网络技术。事实上,保护管理器PM在面对不同类型的故障时可以执行正确的动作,其可以影响基于不同的技术的资源。
进一步地,上述方法可以考虑不同的一般目标和,可选地,通信网络在运行时操作所必需的特定约束。
图1,2和3中示出的各种部件的功能可以是通过使用专用软件,专用硬件来提供,也可以通过使用能够执行软件的硬件与适当的软件向联合来提供。各种部件的功能可以被单一专用处理器,单一共享处理器或多个,其中一些可以是共享的,单独处理器来提供。此外,部件可以包含,并无限制,数字信号处理器(DSP)硬件,网络处理器,专用集成电路(ASIC),现场可编程门阵列(FPGA),用于存储软件的只读存储器(ROM),随机存取存储器(RAM)和非易失性存储器。其他的硬件,普通的和/或定制的,也可以被包括。
本领域熟练技术人员应理解此处任何框图,如图1,2和3,表示实施本发明原理的说明性电路的概念视图。类似地,应理解任何流程图,流图,状态转换图,伪码,以及诸如此类,如图4和5,表示各种过程,这些过程可以在计算机可读介质中充分地表示出并因此可以被计算机或处理器执行,无论这样的计算机或处理器是否被明确地示出。

Claims (14)

1.一种用于防御计算机网络(CN)故障(F(n*)的方法,所述方法包括:
a)识别在所述计算机网络(CN)中可能发生的一些可能故障,所述一些可能故障包含至少一种可能故障(F(n));
b)基于在所述计算机网络(CN)中的资源(NR(i,j),IR(k,j))的被检测到的可用性,来确定所述计算机网络(CN)的允许克服所述可能故障(F(n))的保护状态(PS(n)),并且基于所述被检测到的可用性的变化来动态地更新所述被确定的保护状态(PS(n))。
所述方法还包括,当所述故障(F(n*))发生时:
c)如果所述发生的故障(F(n*))对应于所述可能故障(F(n)),则使所述计算机网络(CN)进入与所述被确定的并被动态更新的保护状态(PS(n))相对应的状态(PS(n*))。
2.根据权利要求1所述的方法,其中,所述资源(NR(i,j),IR(k,j))包含网络资源(NR(i,j))和/或信息技术资源(IR(k,j))。
3.根据权利要求1或2所述的方法,其中,在所述步骤a),所述一些可能故障(F(n))是基于关于所述计算机网络(CN)的拓扑信息来被识别的。
4.根据前述权利要求中任一项所述的方法,其中,所述步骤b)还包括识别其配置应被改变以使所述计算机网络(CN)进入所述保护状态(PS(n))的至少一个资源(NR(i,j),IR(k,j))。
5.根据权利要求4所述的方法,其中,所述步骤b)还包括确定所述至少一个被识别的资源(NR(i,j),IR(k,j))的一组配置参数。
6.根据权利要求5所述的方法,其中,该组配置参数是基于关于所述计算机网络(CN)的拓扑的信息来确定的。
7.根据权利要求4至6中任一项所述的方法,其中,所述步骤b)包括:
-确定所述计算机网络(CN)的至少两种允许克服所述可能故障(F(n))的保护状态(PS(n)),并且基于所述被检测到的可用性的变化来动态地更新所述被确定的至少两个保护状态(PS(n));并且
-通过考虑所述计算机网络(CN)应满足的至少一种约束来选择所述被确定的并被动态更新的至少两个保护状态(PS(n))中的一个。
8.根据权利要求7所述的方法,其中,所述至少一种约束包含下列约束中的至少一种:
-关于所述计算机网络(CN)的电力消耗的约束;
-关于所述被选定的保护状态(PS(n))所涉及到的所述至少一个资源(NR(i,j),IR(k,j))的约束;以及
-关于从所述可能故障(F(n))恢复的时间的约束。
9.一种计算机程序产品,包含计算机可执行的指令,用于,当所述程序在计算机上运行时,执行根据前述权利要求中任一项所述的方法的所述步骤。
10.一种用于计算机网络(CN)的保护管理器(PM),所述保护管理器(PM)包括:
-监控单元(MU)被配置为用于:
-识别在所述计算机网络(CN)中可能发生的一些可能故障(F(n)),所述一些可能故障包含至少一种可能故障(F(n));
-基于在所述计算机网络(CN)中的资源(NR(i,j),IR(k,j))被检测到的可用性,来确定所述计算机网络(CN)的允许克服所述可能故障(F(n))的保护状态(PS(n)),并且基于所述被检测到的可用性的变化来动态地更新所述被确定的保护状态(PS(n));
-驱动单元(AU)被配置为用于,如果所述发生的故障(F(n*))对应于所述可能故障(F(n)),则使所述计算机网络(CN)进入与所述被确定的并被动态更新的保护状态(PS(n))对应的状态(PS(n*))。
11.根据权利要求10所述的保护管理器(PM),其中所述监控单元(MU)进一步被配置为用于识别其配置应被改变以使所述计算机网络(CN)进入所述保护状态(PS(n))的至少一个资源(NR(i,j),IR(k,j)。
12.根据权利要求11所述的保护管理器(PM),其中,所述监控单元(MU)进一步被配置为确定所述至少一个被识别的资源(NR(i,j),IR(k,j))的一组配置参数。
13.根据权利要求12所述的保护管理器(PM),其中,还包括存储单元(SU)被配置为用于存储所述被确定的并被动态更新的保护状态(PS(n))和所述至少一个被识别的资源(NR(i,j),IR(k,j))的所述被确定的该组配置参数。
14.一种计算机网络(CN),包含根据权利要求10至13中任一项所述的保护管理器(PM)。
CN201280032206.1A 2011-06-27 2012-06-22 计算机网络中的故障防御 Pending CN103620560A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP11305817.6 2011-06-27
EP11305817.6A EP2541416B1 (en) 2011-06-27 2011-06-27 Protection against a failure in a computer network
PCT/EP2012/062083 WO2013000831A1 (en) 2011-06-27 2012-06-22 Protection against a failure in a computer network

Publications (1)

Publication Number Publication Date
CN103620560A true CN103620560A (zh) 2014-03-05

Family

ID=46397224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280032206.1A Pending CN103620560A (zh) 2011-06-27 2012-06-22 计算机网络中的故障防御

Country Status (7)

Country Link
US (1) US9372753B2 (zh)
EP (1) EP2541416B1 (zh)
JP (1) JP2014519783A (zh)
KR (1) KR20140026639A (zh)
CN (1) CN103620560A (zh)
TW (1) TWI505668B (zh)
WO (1) WO2013000831A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI554059B (zh) * 2013-11-12 2016-10-11 Using a distributed network of large number of nodes in the MPLS network architecture
US9112890B1 (en) * 2014-08-20 2015-08-18 E8 Storage Systems Ltd. Distributed storage over shared multi-queued storage device
US9274720B1 (en) 2014-09-15 2016-03-01 E8 Storage Systems Ltd. Distributed RAID over shared multi-queued storage devices
US9519666B2 (en) 2014-11-27 2016-12-13 E8 Storage Systems Ltd. Snapshots and thin-provisioning in distributed storage over shared storage devices
EP3043514A1 (en) * 2015-01-09 2016-07-13 Xieon Networks S.à r.l. A method and system for reconfiguring a network
US9525737B2 (en) 2015-04-14 2016-12-20 E8 Storage Systems Ltd. Lockless distributed redundant storage and NVRAM cache in a highly-distributed shared topology with direct memory access capable interconnect
US9529542B2 (en) 2015-04-14 2016-12-27 E8 Storage Systems Ltd. Lockless distributed redundant storage and NVRAM caching of compressed data in a highly-distributed shared topology with direct memory access capable interconnect
US10496626B2 (en) 2015-06-11 2019-12-03 EB Storage Systems Ltd. Deduplication in a highly-distributed shared topology with direct-memory-access capable interconnect
US9842084B2 (en) 2016-04-05 2017-12-12 E8 Storage Systems Ltd. Write cache and write-hole recovery in distributed raid over shared multi-queue storage devices
US10031872B1 (en) 2017-01-23 2018-07-24 E8 Storage Systems Ltd. Storage in multi-queue storage devices using queue multiplexing and access control
US10685010B2 (en) 2017-09-11 2020-06-16 Amazon Technologies, Inc. Shared volumes in distributed RAID over shared multi-queue storage devices
US11481262B1 (en) 2020-06-25 2022-10-25 Amazon Technologies, Inc. Rapid autoscaling with preinitialized instance quantity based on historical scale up rate
US11520638B1 (en) * 2020-06-25 2022-12-06 Amazon Technologies, Inc. Combined active and preinitialized resource management for rapid autoscaling
US20240205095A1 (en) * 2021-06-28 2024-06-20 Northeastern University Distributed Deep Reinforcement Learning Framework for Software-Defined Unmanned Aerial Vehicle Network Control

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1473887A2 (en) * 2003-04-29 2004-11-03 Alcatel Protection scheme for a communications network under multiple failures
CN1606277A (zh) * 2004-11-18 2005-04-13 上海交通大学 快速高效可扩展的网络保护方法
EP1931113A1 (en) * 2006-12-07 2008-06-11 Juniper Networks, Inc. Distribution of network communication based on server power consumption

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06132959A (ja) 1992-10-20 1994-05-13 Oki Electric Ind Co Ltd ルーティング管理システム
US5526414A (en) 1994-10-26 1996-06-11 Northern Telecom Limited Dynamically controlled routing using virtual nodes
US6400681B1 (en) 1996-06-20 2002-06-04 Cisco Technology, Inc. Method and system for minimizing the connection set up time in high speed packet switching networks
US7593321B2 (en) * 1997-02-11 2009-09-22 Cisco Technology, Inc. Method and system for a local and fast non-disruptive path switching in high speed packet switching networks
JP2001034592A (ja) 1999-05-14 2001-02-09 Mitsubishi Electric Corp ネットワーク構成管理システムおよびネットワーク構成管理方法
US8018860B1 (en) * 2003-03-12 2011-09-13 Sprint Communications Company L.P. Network maintenance simulator with path re-route prediction
US7564780B2 (en) 2004-01-15 2009-07-21 Fujitsu Limited Time constrained failure recovery in communication networks
US7813263B2 (en) * 2004-06-30 2010-10-12 Conexant Systems, Inc. Method and apparatus providing rapid end-to-end failover in a packet switched communications network
US7407108B1 (en) 2005-05-24 2008-08-05 Sprint Spectrum L.P. Web content power consumption notification for wireless devices
JP5049902B2 (ja) 2007-09-27 2012-10-17 株式会社日立製作所 ネットワークシステム
US7971094B1 (en) * 2009-03-03 2011-06-28 Netapp, Inc. Method, system and apparatus for creating and executing a failover plan on a computer network

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1473887A2 (en) * 2003-04-29 2004-11-03 Alcatel Protection scheme for a communications network under multiple failures
CN1606277A (zh) * 2004-11-18 2005-04-13 上海交通大学 快速高效可扩展的网络保护方法
EP1931113A1 (en) * 2006-12-07 2008-06-11 Juniper Networks, Inc. Distribution of network communication based on server power consumption

Also Published As

Publication number Publication date
US9372753B2 (en) 2016-06-21
US20140195849A1 (en) 2014-07-10
EP2541416B1 (en) 2019-07-24
JP2014519783A (ja) 2014-08-14
WO2013000831A1 (en) 2013-01-03
EP2541416A1 (en) 2013-01-02
TW201310943A (zh) 2013-03-01
KR20140026639A (ko) 2014-03-05
TWI505668B (zh) 2015-10-21

Similar Documents

Publication Publication Date Title
CN103620560A (zh) 计算机网络中的故障防御
US11303565B2 (en) Traffic matrix prediction and fast reroute path computation in packet networks
US10560212B2 (en) Systems and methods for mesh restoration in networks due to intra-node faults
US9203732B2 (en) Recovery of traffic in a connection-oriented network
CA2568219C (en) Method and devices for implementing group protection in mpls network
Sengupta et al. From network design to dynamic provisioning and restoration in optical cross-connect mesh networks: An architectural and algorithmic overview
US20130294228A1 (en) Optimal Segment Identification for Shared Mesh Protection
US20100208584A1 (en) Communication node apparatus, communication system, and path resource assignment method
CN104205728A (zh) 面向连接的网络中的恢复
US20140093231A1 (en) Procedure, apparatus, system, and computer program for network recovery
EP1746762B1 (en) Recovery of network element configuration
JP2014241536A (ja) 監視装置、及び監視方法
US7564780B2 (en) Time constrained failure recovery in communication networks
Li et al. Fiber span failure protection in mesh optical networks
JP5056097B2 (ja) 装置内警報抑止機能を有する基幹伝送装置と方法
CN102792636A (zh) 提供恢复生存性的方法、设备和通信网络
KR101802037B1 (ko) Sdn 환경에서 서비스 기능 체이닝을 위한 oam 메시지 전송 방법 및 시스템
Kim et al. Rapid and efficient protection for all-optical WDM mesh networks
KR20150145805A (ko) 다계층 네트워크에서 링크 관리 방법 및 장치
Kebede Constraint-Based Hybrid Resiliency Mechanisms for Better Resource Utilization and Service Performance Quality in ASON SLA
WO2021192000A1 (ja) 管理装置及び管理方法
JP2006203721A (ja) 故障箇所発見方法および故障箇所発見装置
Mukherjee et al. Fault management for next-generation IP-over-WDM networks
KR100462852B1 (ko) 부가 mpls 서비스를 위한 레이블 포워딩 정보 관리방법 및 레이블 에지 라우터
EP3043514A1 (en) A method and system for reconfiguring a network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140305