CN104126285A - 用于在云网络中进行快速灾难恢复准备的方法和设备 - Google Patents

用于在云网络中进行快速灾难恢复准备的方法和设备 Download PDF

Info

Publication number
CN104126285A
CN104126285A CN201380009523.6A CN201380009523A CN104126285A CN 104126285 A CN104126285 A CN 104126285A CN 201380009523 A CN201380009523 A CN 201380009523A CN 104126285 A CN104126285 A CN 104126285A
Authority
CN
China
Prior art keywords
disaster
resource
network
internet resources
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201380009523.6A
Other languages
English (en)
Inventor
E·J·鲍尔
R·S·亚当斯
D·W·尤斯塔斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alcatel Lucent SAS
Nokia of America Corp
Original Assignee
Alcatel Lucent SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcatel Lucent SAS filed Critical Alcatel Lucent SAS
Publication of CN104126285A publication Critical patent/CN104126285A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0896Bandwidth or capacity management, i.e. automatically increasing or decreasing capacities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5009Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF]
    • H04L41/5012Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF] determining service availability, e.g. which services are available at a certain point in time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/40Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Environmental & Geological Engineering (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)
  • Telephonic Communication Services (AREA)
  • Alarm Systems (AREA)

Abstract

各种实施方式提供了一种用于在云网络中提供快速灾难恢复准备的方法和设备,所述方法和设备主动检测灾难事件并快速分配云资源。快速灾难恢复准备可以通过在恢复业务的激增冲击恢复应用/资源之前主动增加恢复应用/资源的性能来缩短恢复时间目标(RTO)。而且,快速灾难恢复准备可以通过比在“正常操作”期间更快地增加性能来缩短RTO,在“正常操作”中在负载超过使用阈值后通过一段时间的适度增加来提高性能。

Description

用于在云网络中进行快速灾难恢复准备的方法和设备
技术领域
本发明总体上涉及一种用于提供云网络中的灾难恢复的方法和设备。
背景技术
本部分介绍有助于促进对本发明更好地理解的方面。因此,要从这个角度阅读本部分的描述,而不应该将本部分的描述理解为承认什么是现有技术,什么不是现有技术。对地理冗余数据中心的服务恢复可以保证使主数据中心站点对服务不可用的不可抗力或灾难事件后的业务连续性。在一些已知的云网络灾难恢复方案中,用于应用的云资源基于传统的资源分配方案被分配。这些方案通常增大和缩小分配的应用资源以响应由灾难事件造成的新模式的进入的应用请求。
在一些其他的已知的灾难恢复方案中,系统的某些部分可以包括过剩的资源,从而满足预计的灾难恢复资源需求。
发明内容
各种实施方式提供了一种用于在云网络中提供快速灾难恢复准备的方法和设备,所述方法和设备主动检测灾难事件并快速分配云资源。快速灾难恢复准备可以通过在恢复业务的激增冲击恢复应用/资源之前主动增加恢复应用/资源的性能来缩短恢复时间目标(RTO)——需要在灾难事件之后还原恢复数据中心中的用户服务的时间。而且,快速灾难恢复准备可以通过比在“正常操作”期间更快地增加性能来缩短RTO,在“正常操作”中在负载超过使用阈值后通过一段时间的适度增加来提高性能。有利地,检测灾难事件并安排快速扩大云网络资源到恢复站点降低了网络阻塞、饱和或超载的风险而不需要保留过剩的资源,从而加速了对受影响用户的服务恢复。
在一个实施方式中,提供了一种用于提供快速灾难恢复准备的设备。该设备包括数据存储器和通信耦合到所述数据存储器的处理器。所述处理器被配置成监测来自第一网络资源的网络度量,基于接收的网络度量确定已经发生了影响第二网络资源的可用性的灾难条件,并发送灾害预警警报消息到第三网络资源。其中第一、第二和第三网络资源是不同的资源。
在上述一些实施方式中,监测的网络度量包括监测的业务流量。监测的业务流量包括一个或多个流量值。
在上述一些实施方式中,对灾难条件发生的所述确定是基于检测到监测的业务流量被中断而做出的。
在上述一些实施方式中,对灾难条件发生的所述确定是基于检测到监测的业务流量具有异常的流量模式而做出的。
在上述一些实施方式中,监测的网络度量包括预警机制信息。
在上述一些实施方式中,所述预警机制信息为外部的传感器信息。
在上述一些实施方式中,对灾难条件发生的所述确定是基于置信水平而做出的。
在上述一些实施方式中,对灾难条件发生的所述确定还包括处理器被编程以确定灾难严重等级。
在上述一些实施方式中,处理器还被编程以:分析多个网络资源,基于多个网络资源确定灾难恢复建议,和基于灾难恢复建议选择第三网络资源。
在上述一些实施方式中,处理器还被编程以基于灾难恢复建议选择第三网络资源。
在上述一些实施方式中,处理器还被编程以基于灾难恢复建议创建灾难预警警报消息。
在第二实施方式中,提供了一种用于提供快速灾难恢复准备的设备。该设备包括数据存储器和通信耦合到所述数据存储器的处理器。所述处理器被编程以:接收灾难预警警报消息和执行快速弹性增加操作,所述快速弹性增加操作包括:在超过使用阈值之前增加网络资源。
在上述一些实施方式中,所述快速弹性增加操作还包括当超过使用阈值时大于分配的资源的正常增加速率的两倍的增加速率。
在上述一些实施方式中,所述快速弹性增加操作还包括基于接收的灾难预警警报消息的增加速率。
在上述一些实施方式中,处理器还被编程以:监测业务负载,基于监测的业务负载确定灾难条件不存在,以及响应于灾难条件不存在的确定,而执行弹性缩小操作,所述弹性缩小操作释放至少一部分网络资源的增加。
在第三实施方式中,提供了一种用于提供快速灾难恢复准备的系统。该系统包括:至少一个网络资源,多个数据中心,和通信耦合到所述至少一个网络资源和所述多个数据中心的资源监视器。所述多个数据中心包括灾难影响的数据中心和恢复数据中心。资源监视器被编程为:从至少一个网络资源接收网络度量,基于接收的网络度量确定发生了影响灾难影响的数据中心的可用性的灾难条件,并发送灾害预警警报消息到恢复数据中心。所述恢复数据中心被编程为:接收所述灾难预警警报消息并执行快速弹性增加操作,所述快速弹性增加操作包括:在超过使用阈值之前增加网络资源。
在上述一些实施方式中,所述快速弹性增加操作还包括当超过使用阈值时大于分配的资源的正常增加速率的两倍的增加速率。
在上述一些实施方式中,所述快速弹性增加操作还包括基于接收的灾难预警警报消息的增加速率。
在第四实施方式中,提供了一种用于提供快速灾难恢复准备的方法。该方法包括:从第一网络资源接收网络度量,基于接收的网络度量确定发生了影响第二网络资源的可用性的灾难条件,并发送灾害预警警报消息到第三网络资源。其中第一、第二和第三网络资源是不同的资源。
在上述一些实施方式中,所述接收的网络度量包括监测的业务流量,所述监测的业务流量包括一个或多个流量值。
在上述一些实施方式中,对灾难条件发生的确定步骤是基于检测到监测的业务流量被中断而做出的。
在上述一些实施方式中,对灾难条件发生的确定步骤是基于置信水平而做出的。
在上述一些实施方式中,该方法还包括:接收灾难预警警报消息并执行快速弹性增加操作,所述快速弹性增加操作包括:在超过使用阈值之前增加网络资源。
附图说明
附图中示出了各种实施方式,其中:
图1示出了包括快速灾难恢复准备架构110的云网络;
图2描绘了示出用于在云网络中提供快速灾难恢复准备的方法200的实施方式的流程图;
图3描绘了示出如图2的步骤230所示的用于资源监视器(例如,图1的资源监视器150)基于云网络度量检测灾难的方法300的实施方式的流程图;
图4描绘了示出如图2的步骤240所示用于恢复资源(例如,图1的数据中心180中的应用或网络130中的资源)执行快速灾难恢复准备的方法400的实施方式的流程图;以及
图5图示了诸如图1的资源监视器150、图1的数据中心180的一个数据中心或网络130的资源中的一个资源的虚拟机的各种设备500的实施方式。
为了便于理解,相同的参考标记用于指示具有基本相同或相似结构或基本相同或相似功能的元件。
具体实施方式
说明书和附图仅示出本发明的原理。从而可以理解,本领域的技术人员能够想出虽然在此没有明确地描述或者显示但是可以实现本发明的原理并包括在本发明的范围内的各种安排。而且,在此列出的所有示例主要旨在仅特别用于教导的目的,以帮助读者理解本发明的原理和发明人所贡献的用来促进本领域的概念,并应解释为不限于这些具体引用的示例和条件。另外,这里使用的术语“或”除非另有说明,否则指的是非排他的或。而且,这里所述的各种实施方式不必要互相排斥,因为一些实施方式可以与一个或多个其他实施方式结合起来形成新的实施方式。
各种实施方式提供了一种在云网络中提供快速灾难恢复准备的方法和设备,所述方法和设备主动检测灾难事件并快速分配云资源。快速灾难恢复准备可以通过在恢复业务的激增冲击恢复应用/资源之前主动增加恢复应用/资源上的性能来缩短RTO。而且,快速灾难恢复准备可以通过比在“正常操作”期间更快地增加性能来缩短RTO,在“正常操作”中在负载超过使用阈值后通过一段时间的适度增加来提高性能。
图1示出了云网络100,该云网络100包括快速灾难恢复准备架构的一个实施方式。云网络100包括一个或多个客户端120-a–120-c(统称为客户端120),该客户端经由通信路径向数据中心180-a–180-c(统称为数据中心180)中的应用发送应用请求。通信路径可以包括客户通信信道125-a、125-b和125-c(统称为客户端通信信道125)中的一者、网络130、和数据中心通信信道185-a、185-b和185-c(统称为数据中心通信信道185)中的一者。云网络100还包括资源监视器150,该资源监视器150监测云网络资源,并通过资源监测通信信道155发送灾难预警警报消息。
这里所用的术语“云网络”应该被理解为广泛地包括任何分配的资源。例如,云网络资源可以包括设备(例如,路由器和无线基站)或设施(例如,光纤和同轴电缆)。
客户端120可以为任何类型或任何数量的发起专用于在数据中心180上实例化的一个应用实例的应用请求的客户机。例如,客户端可以为:服务器、移动电话、平板电脑、计算机、个人数字助理(PDA)、电子阅读器、网络设备(如交换机或路由器)等等。
通信信道125和185可以支持在一个或多个通信信道上获取或响应应用请求,所述通信信道诸如:无线通信(例如,LTE、GSM、CDMA、蓝牙);毫微微蜂窝基站通信(例如,WiFi);分组网络的通信(例如,IP);宽带通信(例如,DOCSIS和DSL);存储通信(例如,光纤信道、iSCSI)等等。应该理解,虽然示出为单个连接,但是通信信道125和185可以为任何数量的支持客户端120与在数据中心180上实例化的应用实例之间的通信的通信信道或其组合。
网络130可以为任何合适的便于在客户端120与在数据中心180上实例化的应用实例之间的通信的网络。例如,网络130可以为以下的结合:局域网(LAN)、无线局域网(WLAN)、广域网(WAN)、城域网(MAN)等等。
资源监视器150监测云网络资源或预警机制。特别地,当资源监视器150检测到指示影响数据中心(例如,数据中心180-a)的灾难的条件时,资源监视器150发送灾难预警警报消息到恢复应用/资源(例如,在数据中心180-b上实例化的应用实例或网络130中的路由器)。应该理解,虽然资源监视器150画在网络130的外部,但是资源监视器150也可以位于网络130内。
资源监测通信信道155可以支持通过一个或多个通信信道接收消息或向客户端120、网络130的资源(未示出)或数据中心180中的应用传送消息,所述通信信道诸如:无线通信(例如,LTE、GSM、CDMA、蓝牙);毫微微蜂窝基站通信(例如,WiFi);分组网络的通信(例如,IP);宽带通信(例如,DOCSIS和DSL);存储通信(例如,光纤信道、iSCSI)等等。应该理解,虽然示出为单个连接,但是资源监测通信信道155可以为任何数量的支持资源监视器150与客户端120、网络130的资源(未示出)或数据中心180上的应用之间的通信的通信信道或其组合。
数据中心180在地理上分散,并可以具有任何配置。数据中心180包括具有被创建以便为来自客户端120的应用请求提供服务的虚拟机运行的应用的资源。特别地,数据中心180中的至少一个应用被配置为从资源监视器150接收灾难预警警报消息。响应于接收的灾难预警警报消息,数据中心180主动分配恢复应用/资源,以加速受影响客户端120的服务恢复。
应该理解,通过主动和快速分配恢复应用/资源,在大多数需要恢复的客户端120启动恢复动作之前性能的弹性激增在线。例如,灾难事件可能使得大量的客户端120尝试恢复到简要窗口中的恢复站点(例如,连接、登录和被验证、和创建会话),这可能会使恢复数据中心超载。从而,可以有效为快速增加的负载服务,而不需要用拥塞控制触发超载(这可能降低客户服务质量)。
在资源监视器150的一些实施方式中,指示灾难的条件(即,灾难条件)可以包括业务流量的显著改变、异常的业务模式或明确的警报/故障指示(如信号丢失指示符)。在进一步的实施方式中,资源监视器150在接收到阈值数的信号丢失指示符后将确定存在灾难条件。应该理解,多个信号丢失指示符可以指示传输介质(诸如光纤)的损坏。
在资源监视器150的一些实施方式中,警报机制可以包括外部的传感器或来自监测数据馈送的输入。在这些实施方式中的一些实施方式中,外部的传感器是地震仪监视器。在这些实施方式中的一些实施方式中,监测数据馈送是到国内/国际海啸或其他灾难预警机构的互联网连接。
在一些实施方式中,数据中心180可以包括诸如处理器/CPU核心、网络接口、存储器装置或数据存储装置的资源。而且,数据中心180可以为任何合适的物理硬件配置,诸如:一个或多个服务器、包括诸如处理器的组件的刀片、存储器、网络接口或存储装置。在这些实施方式中的一些实施方式中,数据中心可以包括彼此远离的云网络资源。应该理解,通过分配诸如处理器、网络接口、存储设备或数据存储器的资源,数据中心可以调整(scale)应用实例或虚拟机的处理、带宽、RAM和永久存储性能。
图2描绘了示出用于在云网络中提供快速灾难恢复准备的方法200的实施方式的流程图。
在方法200中,步骤220包括监测来自云网络资源(例如通过图1的网络130的资源(未示出)或图1的数据中心180中的应用)或预警机构的云网络度量。云网络度量可以为任何合适的可以用来确定灾难条件的存在或用来确定便于从灾难条件恢复的网络条件的度量。例如,云网络度量可以包括:业务流量值、负载/性能值、网络配置、健康消息(例如,心跳消息)、网络警报(如,多个断纤)、外部的警报、数据馈送等等。
在方法200中,步骤230包括基于云网络度量(例如通过图1的资源监视器150)检测灾难条件。特别地,分析云网络度量以确定收集到的云网络指示符的特征是否指示灾难条件已经发生。如果已经发生了灾难条件,则执行方法的设备发送灾难预警警报消息到恢复应用/资源,并进行到步骤240,否则,设备返回步骤220。应该理解,对灾难条件的检测不需要实际灾难已经或将要发生。而是,灾难条件检测仅指示监测的云网络度量指示可能发生了灾难。有利地,通过在完全确定灾难之前发送灾难预警警报消息,可以给恢复应用/资源提供增加的时间间隔以在潜在的恢复业务激增之前完成恢复准备。
在方法200中,步骤240包括执行快速灾难恢复准备(例如,通过图1的网络130的资源(未示出)或在图1的数据中心180上执行的应用实例)。特别地,恢复应用/资源接收灾难预警警报消息并主动分配云网络资源,从而处理预计的恢复业务的激增,所述恢复业务预计从灾难影响的应用/资源转移。
在一些实施方式中,通过图1的资源监视器150执行步骤220。
图3描绘了示出如图2的步骤230所示的用于资源监视器(例如,图1的资源监视器150)基于云网络度量检测灾难的方法300的实施方式的流程图。该方法包括监测诸如在图2的步骤220期间捕获的云网络度量(步骤320)。执行该方法的设备然后确定接收的云网络度量是否指示灾难事件(步骤330),如果是,则可选择地确定缓解策略(步骤340),并创建(步骤350)和发送一个或多个灾难预警警报消息(步骤360)到诸如图2和图4的步骤240中所述的恢复应用/资源。
在方法300中,步骤320包括(例如,通过资源监测通信信道155或直接从资源监视器150)监测来自一个或多个资源的一个或多个云网络度量。在一些实施方式中,资源监视器可以选择或提供要被监视的云网络度量。例如,资源监视器可以监测到一个或多个数据中心或来自一个或多个数据中心(例如,图1的数据中心180)的业务流量。
在方法300中,步骤330包括基于接收的云度量检测灾难。特别地,分析云网络度量以确定搜集的云网络度量的特征是否指示发生了灾难条件。
方法300可选择地包括步骤340。步骤340包括确定缓解策略。特别地,资源监视器可以了解网络配置、状态、性能、或云网络资源(例如,网络130或图1的数据中心180中的应用)的损害。基于该了解,资源管理器可以做出灾难恢复建议。
在方法300中,步骤350包括创建灾难预警警报消息。特别地,所述消息包括表明灾难条件被检测到的指示符或提供恢复配置信息。
在方法300中,步骤360包括向恢复应用/资源发送一个或多个灾难预警警报消息。特别地,一个或多个灾难预警警报消息将针对执行该方法的设备确定将会使用灾难预警警报消息执行快速灾难恢复准备的如图2和图4的步骤240中所述的恢复应用/资源。
方法300可选择地包括步骤370。步骤370包括发送灾难释放消息。特别地,在灾难预警或事件结束后,向恢复应用/资源发送消息以释放被保留用来处理签字的灾难的恢复云网络资源。
在一些实施方式中,步骤320包括资源监视器(例如,图1的资源监视器150)从自身采集云网络度量。例如,如果资源监视器被定位为网络运营商的网络和数据中心之间的路由器/IP网络连接。
在一些实施方式中,步骤320包括监测从网络中的资源(例如,是图1的网络130的一部分的网络运营商的网络(未示出)中的路由器)到数据中心(例如,图1的数据中心180-b)的IP网络连接。在这些实施方式中的一些实施方式中,步骤330包括当IP业务流量立即下降或到数据中心的访问连接故障或中断时检测到所监测的数据中心可能正经历灾难。应该理解,可以监测任何业务流量,而不只是IP业务流量。
在一些实施方式中,步骤330包括,采集多个云网络度量以确定灾难条件是否存在。
在一些事实方式中,步骤330包括,基于灾难发生的“置信水平”确定灾难条件存在。在这些实施方式中的一些实施方式中,置信水平可能是积极的(aggressive)。例如,当实际灾难的“置信水平”小于等于百分之五十(50%)时可以触发灾难条件。应该理解,服务供应商可能比起误报(false positive)(即,为从来未发生的灾难做准备)更关心的是漏报(falsenegative)(即,没有为实际灾难积极做准备)。
在步骤330的第一实施方式中,使用基于规则的模型检测在步骤320中接收到的云网络度量是否指示灾难事件。例如,如果被监测的业务流量的通信水平在一段时间阈值期间降到或低于业务阈值(例如,持续一分钟业务流量降到0),则检测到灾难。
在步骤330的第二实施方式中,使用传统的预测分析程序检测在步骤320中接收到的云网络度量是否指示灾难事件。例如,如果被监测的业务流量可以输入到传统的预测分析程序。然后该预测分析程序可以相对于存储的培训业务流量模式对输入的业务流量模式进行分类,以确定是否检测到灾难。在这些实施方式中的一些实施方式中,可以将预测分析程序训练为基于置信水平做出灾难检测分类。
在一些实施方式中,步骤340包括基于网络状态/性能/损害信息确定缓解策略。在这些实施方式中的一些实施方式中,缓解策略的确定包括以下一个或多个步骤:
1)推导哪个或哪些数据中心(S)/应用实例(S)可能会受到影响(例如,圣何塞的地震可能会影响硅谷地区的数据中心);
2)确定灾难预警警报消息要指向的恢复应用/资源(例如,网络130中的路由器或图1的数据中心180-b中的应用);
3)确定恢复准备,诸如使恢复资源或恢复策略激增,从而在确定的恢复应用/资源处准备有效恢复受影响用户的服务(例如,改变网络130的路由器的QoS策略或激增图1的数据中心180-b中的应用的资源)。
在一些实施方式中,步骤340包括建立多个灾难严重等级。在这些实施方式中的一些实施方式中,灾难严重等级基于灾难条件的置信水平。在这些实施方式中的一些实施方式中,灾难严重等级基于灾难的潜在影响。例如,断纤可能只影响一个数据中心,而地震或海啸可能影响包括多个数据中心的整个地区。应该理解,对影响一个数据中心的灾难的响应跟对影响多个数据中心的灾难的响应相比可以不同。例如,可以应用不同的QoS策略或可以将资源在分配给不重要的消费者服务之前分配给紧急服务。在这些实施方式中的一些实施方式中,灾难预警警报消息将基于灾难严重等级。
在一些实施方式中,步骤340包括建立多个对对应的多个灾难严重等级的灾难响应。例如,如果创建红色、黄色、和绿色的灾难严重等级,则针对每个灾难级要应用的QoS策略或要保留的资源数量的建议可以不同。
在一些实施方式中,步骤340包括确定用于恢复应用/资源的地理信息,和进一步将缓解策略基于地理信息。例如,如果确定在地理区域检测到了受灾难影响的数据中心的阈值,则资源监视器可以选择在受影响的地理区域外的恢复数据中心。
在步骤340的一些实施方式中,缓解策略包括确定将恢复负载分布到恢复应用/资源。例如,来自受影响的数据中心(例如,图1的数据中心180-a)的负载将被分布到恢复数据中心(例如,图1的数据中心180-a和180-b)并进行负载平衡。
在一些实施方式中,步骤340包括将消息与一个或多个云网络资源(例如,图1的数据中心180的一个或多个应用或网络130的一个或多个资源(未示出))交换。例如,资源监视器(例如,图1的资源监视器150)可以发送消息到潜在的恢复数据中心(例如,数据中心180-b)上的应用,要么推荐资源能力要么请求恢复数据中心是否可以处理包含在消息请求中的指定的资源能力。在这些实施方式中,缓解策略建议可以基于该消息交换。
在一些实施方式中,步骤340包括自动将业务重新定向(例如,自动改变DNS来使业务离开受灾难影响的数据中心并转移到恢复数据中心)。
在一些实施方式中,步骤340包括采集运行在受灾难影响的数据中心上的应用的需求。特别地,可以采集应用的需求和应用的各种资源的布局,包括诸如存在多少虚拟机、虚拟机如何连接、应用的数据访问模式和应用的服务需求的信息。例如,如果资源监视器150知道在检测到灾难之前就使用数据中心180-a的资源,则资源监视器150可以基于至少所述需求的子集建立恢复建议(例如,预计的负载值)并将其传到恢复数据中心(例如,180-b)。
在步骤340的一些实施方式中,可以确定对于一个或多个恢复应用/资源的恢复建议。在这些实施方式的进一步的实施方式中,灾难预警警报消息包括灾难恢复建议。
在步骤340的一些实施方式中,恢复建议可以包括:资源分配建议、资源需求或恢复参数(例如,预计的负载或RTO需求)。
在一些实施方式中,步骤350包括基于网络状态/性能/损坏/建议信息或来自步骤340的应用需求在一个或多个灾难预警警报消息中合并信息。
在一些实施方式中,步骤370包括基于随后接收的云网络度量确定灾难预警或事件到期。例如,如果基于监测的来自数据中心(例如,数据中心180-a)的下降的业务流量确定灾难预警,如果随后接收的云网络度量指示监测的业务流量复原则灾难预警可以到期。
在一些实施方式中,步骤370包括基于时间阈值确定灾难预警或时间到期。例如,如果在三十(30)分钟内未记录到实际灾难,则系统可以使灾难预警到期。
在进一步的实施方式中,步骤370可以包括修改步骤330的灾难条件确定。例如,如果系统基于监测的在11:30PM下降的业务流量反复发送灾难预警,但当业务恢复时灾难预警在12:00PM永远到期,可以修改步骤330来尝试减轻这些误报。在另一个示例中,如果基于时间阈值的到期灾难预警到期,则可以将步骤330修改为包括更严格的确定特性,以免在灾害预警到期后迅速触发其他报警。
在步骤350中,应该理解,基于来自任何其他方法步骤的信息创建灾难预警消息可以包括以任何形式包含信息,并不需要“复制”灾害预警警报消息中的信息。
图4描绘了示出如图2的步骤240所示用于恢复资源(例如,图1的数据中心180中的应用或网络130中的资源)执行快速灾难恢复准备的方法400的实施方式的流程图。方法包括接收一个或多个灾难预警警报消息(步骤420),诸如在图3中的步骤360期间发送的灾难预警警报消息。然后执行该方法的设备解析接收的灾难预警警报消息(步骤430),并然后:(i)快速执行弹性(步骤440);(ii)对操作恢复策略进行预处理(步骤450);或(iii)对网络进行预处理(步骤460)。最后,方法包括使设备回到正常操作(步骤470)。
在方法400中,步骤420包括(例如,通过数据中心通信信道185、通过网络130中的通信信道(未示出)或直接由自己)接收一个或多个灾难预警警报消息。
在方法400中,步骤430包括解析接收到的灾难预警警报消息。特别地,解析灾难预警警报消息以确定是否应该执行步骤440、450或460中的任何步骤。应该理解,设备可以只执行一个步骤(例如,步骤440),以及灾难预警警报消息可以简化为灾难预警指示符。
方法400可选地包括步骤440。步骤440包括执行快速弹性。特别地,执行该方法的设备基于接收灾难预警警报消息启动快速弹性增加,即使设备没有检测到拥塞条件。快速弹性增加与正常弹性增加不同。在正常弹性增加中,负载超过使用阈值一段时间期间后性能以稳定状态增加。在快速弹性增加中,为预测的业务激增做准备来增加性能(即,不基于负载超过使用阈值的确定)。
方法400可选地包括步骤450。步骤450包括对恢复策略进行预处理。特别地,执行该方法的设备可以基于灾难预警警报消息的接收针对一个或多个其云网络资源修改其操作策略。修改操作策略可以包括:(1)对服务参数的质量进行配置;(ii)使低优先级/离线任务推迟;或(iii)其他。
方法400可选地包括步骤460。步骤460包括对网络进行预处理。特别地,执行该方法的设备可以对业务流量进行预配置,增加恢复应用/资源的带宽等等。
方法400可选地包括步骤470。步骤470包括使设备回到正常模式的操作。特别地,步骤440、450和460中做的准备可以“回退(roll back)”。
在一些实施方式中,步骤440包括大量的弹性增加。大量的弹性增加是比常规增加2倍大的恢复云网络资源的增加。在这些实施方式中的一些实施方式中,大量的弹性增加是正常增加的10倍大。
在一些实施方式中,步骤440基于存储的值启动弹性增加操作。例如,存储的值可以指示恢复数据中心上的应用为恢复关键路径上的元件(诸如,认证服务器)增加100%或更多的能力。在进一步的实施方式中,可以基于诸如时间或日期、一周中的日期等等的动态信息存储多个值。
在一些实施方式中,步骤440包括基于设备可用的信息启动弹性增加操作。特别地,设备可以分配足够的资源/启动足够的应用实例,以满足一个或多个单独的应用程序的预期负载或RTO需求。例如,如果信息指定15分钟RTO用于应用,托管用户证书的恢复设备上的认证数据库可以基于在小于15分钟的时间帧内为每个用户(例如,图1中的客户端120)验证证书的能力来进行弹性增加操作。应该理解,弹性增加操作可以比正常操作所需的更积极地增加能力,从而适应用户对灾难事件后的恢复数据中心的认证请求的激增。
在一些实施方式中,步骤440包括基于灾难预警警报消息中包括的信息来启动弹性增加操作。灾难预警警报消息可以包括任何合适的信息,以基于诸如以下各项进行弹性增加操作:(i)预计要承受的负载;(ii)RTO需求;(iii)QoS策略;(iv)网络配置;或(v)其他。预计的负载可以包括任何合适的信息,以基于诸如以下各项进行弹性增加操作:负载、资源需求、受影响的用户数量或任何其他相关的次要信息,所述次要信息诸如受影响的数据中心的大小。例如,如果灾难预警警报消息包括关于受灾难影响的数据中心的大小的信息,则恢复数据中心中(例如,图1的数据中心180-b)的应用可以为小的受灾难影响的数据中心增加百分之五十(50%)的资源,和为大的受灾难影响的数据中心增加百分之百(100%)资源。
在一些实施方式中,步骤440包括启动“刚好的”弹性增加操作。“刚好的”弹性增加操作使性能激增到大约到预计的瞬时业务增加。例如,如果灾难预警警报消息包括对要传输的负载的估计,执行该方法的设备可以使能力充分激增以处理预测的负载。在这些实施方式的进一步的实施方式中,应用可以使得能力激增到预测的负载之上,以提供缓冲区。在一些实施方式中,安全区可以小于等于百分之十(10%)。
在一些实施方式中,步骤450包括修改操作策略。在这些实施方式的进一步的实施方式中,执行该方法的设备可以使低优先级或离线任务推迟。在这些实施方式的进一步的实施方式中,执行该方法的设备可以修改QoS以使更多的资源可用于服务受影响的用户。
在一些实施方式中,步骤450包括基于灾难预警警报消息中包含的信息设置自适应比特率(例如,使用HTTP自适应比特率流)。例如,可以向诸如视频传输设备的恢复资源发送带有建议在某时间期间减少视频的比特率的信息的灾难预警警报消息。该视频带宽的减少可以使系统在灾难后迅速处理业务(例如,认证业务)激增。
在一些实施方式中,步骤450包括设置QoS业务管理策略。在一个进一步的实施方式中,可以向诸如路由器的恢复资源发送带有建议在时间期间将排队策略设置为严格的优先级队列的信息的灾难预警警报消息。例如,为了帮助便于传输高优先级分组或实时分组——以牺牲其他分组类型为代价。在第二个进一步的实施方式中,可以向诸如路由器的恢复资源发送带有建议减少某类型的分组(例如,视频)的信息的灾难预警警报消息。在第三个进一步的实施方式中,可以向诸如数据中心中的应用的恢复应用发送带有建议在时间期间减缓备份策略以减缓处理开销或强制进行即时备份(例如,如果资源监视器确定数据中心在危险区域中,可以强制进行到远程位置的备份,以保护数据存储的完整性)的信息的灾难预警警报消息。
在一些实施方式中,步骤470包括如果在时间间隔期间不产生业务高峰则进行回退。在一些实施方式中,回退间隔可以小于等于30分钟。在这些实施方式的进一步的实施方式中,回退间隔基于如何对作为基础设施的服务进行收费。例如,可以按小时对服务提供商对服务提供商用于其应用的资源量进行收费。在该示例中,服务提供商可以按小时设置回退间隔。
在一些实施方式中,步骤470包括如果设备接收随后的“清除所有(allclear)”则回退。例如,资源监视器(例如,图10的资源监视器150)可以确定由于误报的条件或由于灾难已过去而灾难条件过期。在该实施方式中,资源监视器可以发送随后的消息到设备,通知设备灾难条件过期。
虽然主要以特定顺序进行了描述和绘示,但是应当理解的是,方法200中、300和400中所示的步骤可以以任何适当的顺序来执行。而且,由一个步骤识别的步骤可以按顺序在一个或多个其他步骤中执行,或者可以只一次就执行多个步骤的普通操作。
应该理解,可以有可编程计算机执行各种上述方法的步骤。这里,一些实施方式还旨在覆盖程序存储装置,例如数据存储介质,该数据存储介质为机器或计算机可读的,并对机器可执行或计算机可执行的指令程序进行编码,其中所述指令执行上述方法的步骤中的一些或所有步骤。程序存储装置例如可以为数字存储器、磁存储介质(诸如磁盘和磁带)、硬盘驱动器或光可读数据存储介质。实施方式还旨在覆盖被编程为执行上述方法的所述步骤的计算机。
图5图示了诸如图1的资源监视器150、图1的数据中心180的数据中心180中的一个数据中心的虚拟机或网络130的资源中的一个资源的各种设备500的实施方式。设备500包括处理器、数据存储器511和I/O接口530。
处理器510控制设备500的操作。处理器510与数据存储器511相配合。
数据存储器511可以视情况而存储诸如云网络度量(例如,来自图3的步骤320)的程序数据、采集的云网络资源特征(例如,来自图3的步骤340)、QoS需求(例如,来自图4的步骤450)、或新的数据(例如,来自图3的步骤460)。数据存储511还存储处理器510可执行的程序520。
处理器可执行的程序520可以包括I/O接口程序521、灾难条件检测程序523、或快速灾难恢复准备程序525。处理器510与处理器可执行程序520相配合。
I/O接口530与处理器510和I/O接口程序521相配合,以支持如上所述的通过图1的通信信道125、155或185的通信(例如,在图3的步骤320中监测云网络度量、在图3的步骤360中发送灾难预警警报消息和在图4的步骤420中接收灾难预警警报消息的过程中)。
灾难条件检测程序523执行如上所述的图2的步骤230和图3的方法300的步骤。
快速灾难恢复准备程序525执行如上所述的图2的步骤240和图4的方法400的步骤。
在一些实施方式中,设备500可以为虚拟机。在这些实施方式的一些实施方式中,虚拟机可以包括来自不同机器的组件,或者可以在地理上分散。例如,数据存储器511和处理器510可以在两个不同的物理机中。
当在处理器510上实施处理器可执行的程序520时,程序代码段与处理器结合以提供和特定逻辑电路进行类似操作的独特装置。
虽然关于实施方式在此进行了绘示和描述,其中,例如在数据存储器和存储器中存储的程序和逻辑通信连接到处理器,应该理解,可以以任何其他合适的方式(例如使用合适数目的存储器、存储单元或数据库),使用通信耦合到任何合适布置的装置的任何合适布置的存储器、存储单元或数据库;将信息存储在存储器、存储单元或内部或外部数据库的任何合适的组合中;或使用任何合适数量的可访问外部存储器、存储单元或数据库来存储该信息。这样,这里提到的术语数据存储指的是包括存储器、存储单元和数据库的所有合适的组合。
说明书和附图仅示出了本发明的原理。从而可以理解,虽然这里没有明确说明和示出,但是本领域的技术人员能够做出各种实施本发明的原理的安排,这些安排可以包括在本发明的实质和范围内。而且,这里所述的所有示例主要旨在为了教导的目的,以帮助读者理解本发明的原理和发明人贡献的用于促进本领域技术的概念,应该被解释为不限制于这些特别引用的示例和条件。而且,这里说明本发明的原理、方面和实施方式的所有陈述及其特定示例旨在包括其等价变化方式。
可以通过使用专用硬件和能够执行与合适的软件相关的软件的硬件来提供图中所述的各种元件的功能,包括标为“处理器”的任何功能块。当由处理器提供功能时,该功能可以由单个专用处理器、单个共享处理器或多个单独个处理器(其中一些处理器可以共享)提供。而且,明确使用的术语“处理器”或“控制器”应该被解释为仅指的是能够执行软件的硬件,并且可以暗中包括但不限于数字信号处理器(DSP)硬件、网络处理器、专用集成电路(ASIC)、场可编程门阵列(FPGA)、存储软件的只读存储器(ROM)、随机存取存储器(RAM)和非易失性存储单元。也可以包括其他传统或定制的硬件。类似的,如图中所述的任何开关仅是概念性的。可以通过程序逻辑的操作,通过专用逻辑、通过程序控制和专用逻辑的交互或甚至手动来执行其功能,可以由实施者根据更具体地理解上下文来选择特定的技术。
应该理解,这里的任何框图表示实现本发明原理的示例电路的概念视图。类似的,应该理解,任何流程表、流程图、状态转换图、伪码等表示实质上可以在计算机可读介质上表示从而由计算机或处理器执行(无论是否明确示出该计算机或处理器)的各种过程。

Claims (10)

1.一种用于提供快速灾难恢复准备的设备,该设备包括:
数据存储器;以及
通信耦合到所述数据存储器的处理器,该处理器被配置成:
监测来自第一网络资源的网络度量;
基于接收到的网络度量确定已经发生了影响第二网络资源的可用性的灾难条件;以及
发送灾害预警警报消息到第三网络资源;
其中所述第一网络资源、第二网络资源和第三网络资源是不同的资源。
2.根据权利要求1所述的设备,其中监测的网络度量包括监测的业务流量,所监测的业务流量包括一个或多个流量值;并且其中对灾难条件已经发生的确定是基于以下至少一者做出的:检测到所监测的业务流量已经被中断、或者检测到所监测的业务流量具有异常的流量模式。
3.根据权利要求1所述的设备,其中所监测的网络度量包括外部的传感器信息。
4.根据权利要求1所述的设备,其中对灾难条件发生的确定是基于置信水平作出的。
5.根据权利要求1所述的设备,其中所述处理器还被配置成:
分析多个网络资源;
基于所述多个网络资源确定灾难恢复建议;以及
基于所述灾难恢复建议选择第三网络资源。
6.一种用于提供快速灾难恢复准备的设备,该设备包括:
数据存储器;以及
通信耦合到所述数据存储器的处理器,所述处理器被配置成:
接收灾难预警警报消息;以及
执行快速弹性增加操作,所述快速弹性增加操作包括:在超过使
用阈值之前增加网络资源。
7.根据权利要求6所述的设备,其中所述快速弹性增加操作还包括基于所接收到的灾难预警警报消息的增加速率。
8.根据权利要求6所述的设备,其中所述处理器还被配置成:
监测业务负载;
基于所监测的业务负载确定灾难条件不存在;以及
响应于确定灾难条件不存在,而执行弹性缩小操作,所述弹性缩小操作释放至少一部分网络资源的增加。
9.一种用于提供快速灾难恢复准备的方法,该方法包括:
在通信耦合到数据存储器的处理器上,从第一网络资源接收网络度量;
通过与所述数据存储器合作的所述处理器,基于所接收到的网络度量确定已经发生了影响第二网络资源的可用性的灾难条件;以及
通过与所述数据存储器合作的所述处理器,发送灾害预警警报消息到第三网络资源;
其中所述第一网络资源、第二网络资源和第三网络资源是不同的资源。
10.根据权利要求9所述的方法,该方法还包括:
通过所述第三网络资源,接收灾难预警警报消息;以及
通过所述第三网络资源,执行快速弹性增加操作,所述快速弹性增加操作包括:在超过使用阈值之前增加网络资源。
CN201380009523.6A 2012-02-14 2013-02-01 用于在云网络中进行快速灾难恢复准备的方法和设备 Pending CN104126285A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/372,630 2012-02-14
US13/372,630 US8977886B2 (en) 2012-02-14 2012-02-14 Method and apparatus for rapid disaster recovery preparation in a cloud network
PCT/US2013/024335 WO2013122755A2 (en) 2012-02-14 2013-02-01 Method and apparatus for rapid disaster recovery preparation in a cloud network

Publications (1)

Publication Number Publication Date
CN104126285A true CN104126285A (zh) 2014-10-29

Family

ID=47716174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380009523.6A Pending CN104126285A (zh) 2012-02-14 2013-02-01 用于在云网络中进行快速灾难恢复准备的方法和设备

Country Status (6)

Country Link
US (1) US8977886B2 (zh)
EP (1) EP2815538B1 (zh)
JP (1) JP2015510201A (zh)
KR (1) KR20140116498A (zh)
CN (1) CN104126285A (zh)
WO (1) WO2013122755A2 (zh)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8935561B2 (en) * 2012-02-23 2015-01-13 City University Of Hong Kong Progressive network recovery
US8862948B1 (en) * 2012-06-28 2014-10-14 Emc Corporation Method and apparatus for providing at risk information in a cloud computing system having redundancy
US9716746B2 (en) 2013-07-29 2017-07-25 Sanovi Technologies Pvt. Ltd. System and method using software defined continuity (SDC) and application defined continuity (ADC) for achieving business continuity and application continuity on massively scalable entities like entire datacenters, entire clouds etc. in a computing system environment
US20150169353A1 (en) * 2013-12-18 2015-06-18 Alcatel-Lucent Usa Inc. System and method for managing data center services
GB2524951A (en) * 2014-03-13 2015-10-14 Vodafone Ip Licensing Ltd Management of resource allocation in a mobile telecommunication network
EP3117315A1 (en) * 2014-03-13 2017-01-18 Vodafone IP Licensing Limited Management of resource allocation in a mobile telecommunication network
US9483299B2 (en) * 2014-06-30 2016-11-01 Bmc Software, Inc. Capacity risk management for virtual machines
JP6413517B2 (ja) * 2014-09-04 2018-10-31 富士通株式会社 管理装置、マイグレーション制御プログラム、情報処理システム
US10061833B2 (en) * 2014-09-25 2018-08-28 Senslytics Corporation Data insight and intuition system for tank storage
CN105592127B (zh) * 2014-11-20 2019-10-25 中国银联股份有限公司 用于云计算环境的应用管理系统
KR102296903B1 (ko) * 2015-02-25 2021-09-01 에스케이플래닛 주식회사 클라우드 스트리밍 서비스 시스템의 에러 복구 장치 및 방법
US10270668B1 (en) * 2015-03-23 2019-04-23 Amazon Technologies, Inc. Identifying correlated events in a distributed system according to operational metrics
US10073724B2 (en) * 2015-04-24 2018-09-11 Senslytics Corporation Method of intuition generation
US11226856B2 (en) 2015-04-24 2022-01-18 Senslytics Corporation Methods and systems correlating hypotheses outcomes using relevance scoring for intuition based forewarning
US9923965B2 (en) 2015-06-05 2018-03-20 International Business Machines Corporation Storage mirroring over wide area network circuits with dynamic on-demand capacity
US10509704B2 (en) * 2015-08-24 2019-12-17 Acronis International Gmbh System and method for automatic data backup based on multi-factor environment monitoring
US10031807B2 (en) 2015-11-04 2018-07-24 International Business Machines Corporation Concurrent data retrieval in networked environments
US10177993B2 (en) 2015-11-25 2019-01-08 International Business Machines Corporation Event-based data transfer scheduling using elastic network optimization criteria
US9923784B2 (en) 2015-11-25 2018-03-20 International Business Machines Corporation Data transfer using flexible dynamic elastic network service provider relationships
US10216441B2 (en) 2015-11-25 2019-02-26 International Business Machines Corporation Dynamic quality of service for storage I/O port allocation
US10581680B2 (en) 2015-11-25 2020-03-03 International Business Machines Corporation Dynamic configuration of network features
US9923839B2 (en) 2015-11-25 2018-03-20 International Business Machines Corporation Configuring resources to exploit elastic network capability
US10057327B2 (en) 2015-11-25 2018-08-21 International Business Machines Corporation Controlled transfer of data over an elastic network
US11070395B2 (en) 2015-12-09 2021-07-20 Nokia Of America Corporation Customer premises LAN expansion
US9798635B2 (en) * 2015-12-11 2017-10-24 International Business Machines Corporation Service level agreement-based resource allocation for failure recovery
US10528433B2 (en) * 2016-04-01 2020-01-07 Acronis International Gmbh Systems and methods for disaster recovery using a cloud-based data center
US10235211B2 (en) * 2016-04-22 2019-03-19 Cavium, Llc Method and apparatus for dynamic virtual system on chip
US9898359B2 (en) 2016-04-26 2018-02-20 International Business Machines Corporation Predictive disaster recovery system
WO2018079867A1 (ko) * 2016-10-24 2018-05-03 주식회사 아이티스테이션 지능형 지속위협 환경의 네트워크 복구 시스템을 이용한 복구 방법
US10223218B2 (en) * 2016-11-29 2019-03-05 International Business Machines Corporation Disaster recovery of managed systems
KR101868115B1 (ko) * 2017-02-06 2018-07-18 경기엔지니어링(주) 재난발생 자동 검지 및 피난 관제 통신 시스템
US10303573B2 (en) 2017-06-19 2019-05-28 International Business Machines Corporation Scaling out a hybrid cloud storage service
US10379964B2 (en) 2017-07-10 2019-08-13 International Business Machines Corporation Integrating resources at a backup site
US10970174B2 (en) 2017-12-04 2021-04-06 International Business Machines Corporation Pre-emptive data production site swap
US10797940B2 (en) * 2018-02-02 2020-10-06 Storage Engine, Inc. Methods, apparatuses and systems for cloud-based disaster recovery
US10769174B2 (en) 2018-05-31 2020-09-08 International Business Machines Corporation Site-consolidated disaster-recovery with synchronous-to-asynchronous traffic conversion
US10776394B2 (en) 2018-05-31 2020-09-15 International Business Machines Corporation Synchronous site-consolidated data backup with synchronous-to-asynchronous traffic conversion
US11068351B2 (en) 2018-11-19 2021-07-20 International Business Machines Corporation Data consistency when switching from primary to backup data storage
US20200159638A1 (en) * 2018-11-20 2020-05-21 International Business Machines Corporation Collaborative Decision Making to Enhance Resiliency of Workloads in Data Center Environments
US11063907B2 (en) * 2019-01-18 2021-07-13 Cobalt Iron, Inc. Data protection automatic optimization system and method
JP7183862B2 (ja) 2019-02-26 2022-12-06 日本電信電話株式会社 通信ネットワーク制御システム、中央通信制御装置、通信制御方法及び通信制御プログラム
US11768740B2 (en) 2019-03-29 2023-09-26 International Business Machines Corporation Restoring operation of data storage systems at disaster recovery sites
US11656959B2 (en) * 2019-08-01 2023-05-23 Druva Inc. Disaster recovery region recommendation system and method
US11677582B2 (en) * 2020-12-09 2023-06-13 Raytheon Company Detecting anomalies on a controller area network bus
US20230022959A1 (en) * 2021-07-20 2023-01-26 Cisco Technology, Inc. Detecting critical regions and paths in the core network for application-driven predictive routing
CN113499648B (zh) * 2021-09-13 2021-11-19 江苏中科机械有限公司 一种蓄热式废气氧化炉的分离预处理装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1921409A (zh) * 2006-07-27 2007-02-28 上海交通大学 可共享带宽的预置网络保护方法
CN101106789A (zh) * 2007-07-10 2008-01-16 中国移动通信集团江苏有限公司 Gsm网络智能小区自适应调整系统及其方法
US20080225716A1 (en) * 2007-03-13 2008-09-18 Lange Andrew S Quality of service admission control network
US20100097944A1 (en) * 2008-10-21 2010-04-22 Zhenzhen Wang Layer 2 network rule-based non-intrusive testing verification methodology
CN201800737U (zh) * 2010-09-21 2011-04-20 中国铁道科学研究院电子计算技术研究所 铁路防灾安全监控系统
CN102299970A (zh) * 2011-09-27 2011-12-28 惠州紫旭科技有限公司 基于云计算的数据黑匣子系统

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5870540A (en) * 1995-11-20 1999-02-09 Ncr Corporation Low overhead method for detecting communication failures on a network
US5913036A (en) 1996-06-28 1999-06-15 Mci Communications Corporation Raw performance monitoring correlated problem alert signals
US7167860B1 (en) * 1999-03-25 2007-01-23 Nortel Networks Limited Fault tolerance for network accounting architecture
JP2001312783A (ja) * 2000-04-28 2001-11-09 Japan Science & Technology Corp 災害推定システム及び方法
US6848062B1 (en) * 2001-12-21 2005-01-25 Ciena Corporation Mesh protection service in a communications network
US7580994B1 (en) 2004-01-21 2009-08-25 Nortel Networks Limited Method and apparatus for enabling dynamic self-healing of multi-media services
US8738760B2 (en) 2005-04-14 2014-05-27 Verizon Business Global Llc Method and system for providing automated data retrieval in support of fault isolation in a managed services network
US9418040B2 (en) * 2005-07-07 2016-08-16 Sciencelogic, Inc. Dynamically deployable self configuring distributed network management system
DE602006015719D1 (de) * 2006-06-26 2010-09-02 Ericsson Telefon Ab L M Netzwerkknoten und Verfahren zur schnellen Verkehrsmessung und Überwachung
US20080102772A1 (en) 2006-10-26 2008-05-01 Gandhi Asif D Carrier growth planning based on measured airlink transmission latency in 1x-EVDO wireless network
JP4764810B2 (ja) * 2006-12-14 2011-09-07 富士通株式会社 異常トラヒック監視装置、エントリ管理装置およびネットワークシステム
US20080165685A1 (en) * 2007-01-09 2008-07-10 Walter Weiss Methods, systems, and computer program products for managing network bandwidth capacity
US9106800B2 (en) * 2007-08-31 2015-08-11 At&T Intellectual Property I, L.P. System and method of monitoring video data packet delivery
US7660893B2 (en) * 2007-09-04 2010-02-09 International Business Machines Corporation Method and system for monitoring and instantly identifying faults in data communication cables
JP5129705B2 (ja) * 2008-09-24 2013-01-30 株式会社日立ソリューションズ 緊急災害警報転送システム
GB2466207B (en) * 2008-12-11 2013-07-24 Advanced Risc Mach Ltd Use of statistical representations of traffic flow in a data processing system
JP5286135B2 (ja) * 2009-03-31 2013-09-11 富士通エフ・アイ・ピー株式会社 コンピュータ機能の災害対応移行システムと方法、同方法を実行させるコンピュータプログラムおよび同コンピュータプログラムを格納した記憶媒体
JP2010245702A (ja) * 2009-04-02 2010-10-28 Ntt Docomo Inc 通信システム、通信装置、およびデータ伝送制御方法
US8429453B2 (en) * 2009-07-16 2013-04-23 Hitachi, Ltd. Management system for outputting information denoting recovery method corresponding to root cause of failure

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1921409A (zh) * 2006-07-27 2007-02-28 上海交通大学 可共享带宽的预置网络保护方法
US20080225716A1 (en) * 2007-03-13 2008-09-18 Lange Andrew S Quality of service admission control network
CN101106789A (zh) * 2007-07-10 2008-01-16 中国移动通信集团江苏有限公司 Gsm网络智能小区自适应调整系统及其方法
US20100097944A1 (en) * 2008-10-21 2010-04-22 Zhenzhen Wang Layer 2 network rule-based non-intrusive testing verification methodology
CN201800737U (zh) * 2010-09-21 2011-04-20 中国铁道科学研究院电子计算技术研究所 铁路防灾安全监控系统
CN102299970A (zh) * 2011-09-27 2011-12-28 惠州紫旭科技有限公司 基于云计算的数据黑匣子系统

Also Published As

Publication number Publication date
US20130212422A1 (en) 2013-08-15
EP2815538A2 (en) 2014-12-24
US8977886B2 (en) 2015-03-10
WO2013122755A3 (en) 2013-10-24
WO2013122755A2 (en) 2013-08-22
KR20140116498A (ko) 2014-10-02
EP2815538B1 (en) 2016-08-24
JP2015510201A (ja) 2015-04-02

Similar Documents

Publication Publication Date Title
CN104126285A (zh) 用于在云网络中进行快速灾难恢复准备的方法和设备
US20190124523A1 (en) Method and system for managed service restoration in packet data networks
CN101189895B (zh) 异常检测方法和系统以及维护方法和系统
CN103220173B (zh) 一种报警监控方法及监控系统
WO2007106649A2 (en) Method and apparatus for dynamically prioritize network faults based on real-time service degradation
US8861360B2 (en) Device and method for network troubleshooting
EP3264723B1 (en) Method, related apparatus and system for processing service request
US9729418B2 (en) Method for heterogeneous network policy based management
US20160080248A1 (en) Network service restoration-on-demand
US11683703B2 (en) Network monitoring system and method
US10708155B2 (en) Systems and methods for managing network operations
EP3310093B1 (en) Traffic control method and apparatus
CN112422684A (zh) 目标消息的处理方法及装置、存储介质、电子装置
JP4901796B2 (ja) ログレベル収集装置およびログレベル収集方法
JP7364940B2 (ja) 系判定装置、系判定方法および系判定プログラム
GB2593529A (en) Network monitoring system and method
CA3101259A1 (en) Automated network monitoring and control
WO2014040470A1 (zh) 告警消息的处理方法及装置
US10291490B1 (en) System and method for collecting data from low-availability devices
CN111200520A (zh) 网络监控方法、服务器和计算机可读存储介质
CN112689280A (zh) 监测终端切换基站的方法以及接入和移动性管理功能
JP2009088672A (ja) 無線通信システム及び管理サーバ
CN105099819A (zh) 一种监控网站状态的系统和方法
EP3815303B1 (en) Automated network monitoring and control
WO2021159437A1 (en) Method and apparatus for customer's control of network events

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141029