CN105187249B - 一种故障恢复方法及装置 - Google Patents

一种故障恢复方法及装置 Download PDF

Info

Publication number
CN105187249B
CN105187249B CN201510608782.1A CN201510608782A CN105187249B CN 105187249 B CN105187249 B CN 105187249B CN 201510608782 A CN201510608782 A CN 201510608782A CN 105187249 B CN105187249 B CN 105187249B
Authority
CN
China
Prior art keywords
network element
processing unit
service processing
service
success rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510608782.1A
Other languages
English (en)
Other versions
CN105187249A (zh
Inventor
张文革
徐日东
陈勇
刘清明
陈太洲
熊福祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201510608782.1A priority Critical patent/CN105187249B/zh
Publication of CN105187249A publication Critical patent/CN105187249A/zh
Priority to EP16848012.7A priority patent/EP3340535B1/en
Priority to PCT/CN2016/098344 priority patent/WO2017050130A1/zh
Priority to JP2018514977A priority patent/JP6556346B2/ja
Priority to US15/928,367 priority patent/US10601643B2/en
Application granted granted Critical
Publication of CN105187249B publication Critical patent/CN105187249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0686Additional information in the notification, e.g. enhancement of specific meta-data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0894Policy-based network configuration management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0895Configuration of virtualised networks or elements, e.g. virtualised network function or OpenFlow elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/40Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using virtualisation of network functions or resources, e.g. SDN or NFV entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/20Arrangements for monitoring or testing data switching networks the monitoring system or the monitored elements being virtualised, abstracted or software-defined entities, e.g. SDN or NFV

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Monitoring And Testing Of Exchanges (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请提供了一种故障恢复方法及装置。所述故障恢复方法包括:获取被监测网元中的各个业务处理单元的关键绩效指标信息;根据所述关键绩效指标信息,确定故障对象;根据所述故障对象,确定故障恢复策略;将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元,以便所述管理单元采用所述故障恢复策略进行故障恢复。采用本申请的方法或装置,可以解决根据网元的心跳消息对于故障进行定位的精度较低的问题。

Description

一种故障恢复方法及装置
技术领域
本申请涉及网络数据处理领域,特别是涉及一种故障恢复方法及装置。
背景技术
通信系统中,当设备出现故障时,需要采取一定的方法对故障进行恢复,以避免故障长时间无法恢复而对通信系统的性能造成严重影响。
对于故障的恢复方法,可以采用人工方式进行。但是,人工检测故障,再对故障进行恢复所花费的时间和人工成本通常较高。因此,业内逐渐倾向于通过通信系统中的设备对于通信系统自身的故障进行自动恢复,以此提高故障恢复效率并降低人工成本。
现有技术中的故障恢复方法,主要是根据设备的心跳消息来判断设备是否出现故障。具体的,监测设备可以定期向被监测设备发送心跳消息,被监测设备在接收到心跳消息后,可以向监测设备返回响应消息。如果监测设备在发送心跳消息后,在规定时间内未接收到被监测设备返回的响应消息,则判定该被监测设备发生故障,进而对该被监测设备整体进行复位,或者将该被监测设备所承载的功能倒换至另外的设备,以恢复故障。
然而,监测设备在规定时间内未接收到响应消息的原因,可能有多种。例如,可以是被监测设备用于发送响应消息的接口单元发生故障。此时,可以调用被监测设备的其它接口单元替换前述接口单元,而无需对被监测设备整体进行复位或者功能倒换。对被监测设备整体进行复位或者功能倒换的风险较高,且会造成较多的业务受到影响。
综上所述,现有技术中的故障恢复方法,由于根据设备的心跳消息对于故障进行分析和恢复,导致对于故障进行定位的精度较低。
发明内容
本申请的目的是提供一种故障恢复方法及装置,能够通过关键绩效指标信息对于故障进行定位,解决根据设备的心跳消息对于故障进行定位的精度较低问题。
为实现上述目的,本申请提供了如下方案:
根据本申请的第一方面的第一种可能的实现方式,本申请提供一种故障恢复方法,包括:
获取被监测网元中的各个业务处理单元的关键绩效指标信息;
根据所述关键绩效指标信息,确定故障对象;
根据所述故障对象,确定故障恢复策略;
将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元,以便所述管理单元采用所述故障恢复策略进行故障恢复。
结合第一方面的第二种可能的实现方式,所述确定故障对象,具体包括:
确定故障对象为所述被监测网元中的业务处理单元;
或者确定故障对象为所述业务处理单元之间的通信路径;
所述根据所述故障对象,确定故障恢复策略,具体包括:
当所述故障对象为所述被监测网元中的业务处理单元或者所述业务处理单元之间的通信路径时,确定网元级的故障恢复策略;所述网元级的故障恢复策略用于在所述被监测网元内部执行故障恢复操作。
结合第一方面的第三种可能的实现方式,所述确定故障对象,具体包括:
确定故障对象为所述被监测网元;
或者,确定故障对象为所述被监测网元与另外的网元之间的通信路径;
所述根据所述故障对象,确定故障恢复策略,具体包括:
当所述故障对象为所述被监测网元或者所述被监测网元与另外的网元之间的通信路径时,确定网络级的故障恢复策略;所述网络级的故障恢复策略用于对所述被监测网元所处网络中的一个或多个网元执行故障恢复操作。
结合第一方面的第二种可能的实现方式的第一种具体实现方式,所述确定故障对象为所述被监测网元中的业务处理单元,具体包括:
根据所述关键绩效指标信息中的业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数,计算业务处理单元执行的业务的业务成功率;
将所述业务成功率与第一参考值进行比较;
确定所述业务成功率低于第一参考值的业务处理单元为所述故障对象。
结合第一方面的第二种可能的实现方式的第一种具体实现方式的第一种更具体的实现方式,所述将所述业务成功率与第一参考值进行比较,具体包括:
将所述业务成功率与预设参考值进行比较;
或者,确定同质化业务处理单元的平均业务成功率;
将所述平均业务成功率减去预设数值得到同质化参考值;
将所述业务成功率与所述同质化参考值进行比较;
其中,所述同质化业务处理单元为与所述业务处理单元所承载的业务的业务逻辑相同,且所述业务被离散分配的业务处理单元。
结合第一方面的第二种可能的实现方式的第一种具体实现方式的第二种更具体的实现方式,确定所述业务成功率低于第一参考值的业务处理单元为所述故障对象之前,还包括:
确定同质化业务处理单元中业务成功率大于第一参考值的第一单元集;
确定同质化业务处理单元中业务成功率小于第一参考值的第二单元集;
确定所述第一单元集包含的单元在全体所述同质化业务处理单元中所占的比例大于第一预设比例;
其中,所述同质化业务处理单元为与所述业务处理单元所承载的业务的业务逻辑相同,且所述业务被离散分配至的业务处理单元。
结合第一方面的第二种可能的实现方式的第二种具体实现方式,所述确定故障对象为所述业务处理单元之间的通信路径,具体包括:
根据所述关键绩效指标信息中的通信路径故障导致的业务失败数,计算通信路径的业务成功率;
将所述业务成功率与第三参考值进行比较;
确定所述业务成功率低于第三参考值的通信路径为所述故障对象。
结合第一方面的第三种可能的实现方式的第一种具体实现方式,所述确定故障对象为所述被监测网元,具体包括:
根据各个业务处理单元的所述关键绩效指标信息中的各个业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数,统计所述各个业务处理单元的业务成功率;
将所述业务成功率与第二参考值进行比较;
确定所述业务成功率低于第二参考值的业务处理单元的数量;
根据所述数量确定所述业务成功率低于第二参考值的业务处理单元在所述被监测网元中的全部业务处理单元中所占的比例;
当所述比例大于第二预设比例时,确定所述被监测网元为所述故障对象。
结合第一方面的第三种可能的实现方式的第一种具体实现方式的第一种更具体的实现方式,所述将所述业务成功率与第二参考值进行比较,具体包括:
将所述业务成功率与预设参考值进行比较;
或者,确定同质化网元的平均业务成功率;
将所述平均业务成功率减去预设数值得到同质化参考值;
将所述业务成功率与所述同质化参考值进行比较;
其中,所述同质化网元为承载的业务的业务逻辑与所述被监测网元相同,且所述业务被离散分配至的被监测网元。
结合第一方面的第二种可能的实现方式的第三种具体实现方式,所述确定故障对象为所述被监测网元中的业务处理单元之后,或者,确定故障对象为所述业务处理单元之间的通信路径之后,所述将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元,具体包括:
将所述故障恢复策略发送至网络功能虚拟化系统中所述被监测网元中的的系统管理模块。
结合第一方面的第三种可能的实现方式的第二种具体实现方式,所述确定故障对象为所述被监测网元之后,或者,确定故障对象为所述被监测网元与另外的网元之间的通信路径之后,所述将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元,具体包括:
将所述故障恢复策略发送至网络功能虚拟化系统中的管理和编排MANO单元。
结合第一方面的第二种可能的实现方式的第四种具体实现方式,所述确定故障对象为所述被监测网元中的业务处理单元之后,还包括:
确定发生故障的所述业务处理单元的数量达到预设阈值;
确定网络级的故障恢复策略;所述网络级的故障恢复策略用于对所述被监测网元所处网络中的一个或多个网元执行故障恢复操作。
结合第一方面的第三种可能的实现方式的第三种具体实现方式,所述确定网络级的故障恢复策略,具体包括:
获取与被确定为故障对象的所述被监测网元相关的冗余网元的状态信息;
根据所述状态信息,确定处于正常工作状态的冗余网元;
生成网络级的故障恢复指示信息,所述故障恢复指示信息用于指示所述管理单元采用所述处于正常工作状态的冗余网元替换被确定为故障对象的所述被监测网元;
或者,所述确定网络级的故障恢复策略,具体包括:获取被确定为故障对象的所述通信路径中的后端网元的冗余网元的状态信息;
根据所述状态信息,确定处于正常工作状态的冗余网元;
生成网络级的故障恢复指示信息,所述故障恢复指示信息用于指示所述管理单元将所述通信路径中的前端网元对应的后端网元切换为所述处于正常工作状态的冗余网元。
根据本申请的第二方面的第一种可能的实现方式,本申请提供一种故障恢复装置,包括:
获取单元,用于获取被监测网元中的各个业务处理单元的关键绩效指标信息;
确定单元,用于根据所述关键绩效指标信息,确定故障对象;
根据所述故障对象,确定故障恢复策略;
发送单元,用于将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元,以便所述管理单元采用所述故障恢复策略进行故障恢复。
结合第二方面的第二种可能的实现方式,所述确定单元,具体用于:
确定故障对象为所述被监测网元中的业务处理单元;
或者确定故障对象为所述业务处理单元之间的通信路径;
当所述故障对象为所述被监测网元中的业务处理单元或者所述业务处理单元之间的通信路径时,确定网元级的故障恢复策略;所述网元级的故障恢复策略用于在所述被监测网元内部执行故障恢复操作。
结合第二方面的第三种可能的实现方式,所述确定单元,具体用于:
确定故障对象为所述被监测网元;
或者,确定故障对象为所述被监测网元与另外的网元之间的通信路径;
当所述故障对象为所述被监测网元或者所述被监测网元与另外的网元之间的通信路径时,确定网络级的故障恢复策略;所述网络级的故障恢复策略用于对所述被监测网元所处网络中的一个或多个网元执行故障恢复操作。
结合第二方面的第二种可能的实现方式的第一种具体的实现方式,所述确定单元,具体用于:
根据所述关键绩效指标信息中的业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数,计算业务处理单元执行的业务的业务成功率;
将所述业务成功率与第一参考值进行比较;
确定所述业务成功率低于第一参考值的业务处理单元为所述故障对象。
结合第二方面的第二种可能的实现方式的第一种具体的实现方式的第一种更具体的实现方式,所述确定单元,具体用于:
将所述业务成功率与预设参考值进行比较;
或者,确定同质化业务处理单元的平均业务成功率;
将所述平均业务成功率减去预设数值得到同质化参考值;
将所述业务成功率与所述同质化参考值进行比较;
其中,所述同质化业务处理单元为与所述业务处理单元所承载的业务的业务逻辑相同,且所述业务被离散分配的业务处理单元。
结合第二方面的第二种可能的实现方式的第一种具体的实现方式的第二种更具体的实现方式,所述确定单元还用于:
在确定所述业务成功率低于第一参考值的业务处理单元为所述故障对象之前,确定同质化业务处理单元中业务成功率大于第一参考值的第一单元集;
确定同质化业务处理单元中业务成功率小于第一参考值的第二单元集;
确定所述第一单元集包含的单元在全体所述同质化业务处理单元中所占的比例大于第一预设比例;
其中,所述同质化业务处理单元为与所述业务处理单元所承载的业务的业务逻辑相同,且所述业务被离散分配至的业务处理单元。
结合第二方面的第二种可能的实现方式的第二种具体的实现方式,所述确定单元,具体用于:
根据所述关键绩效指标信息中的通信路径故障导致的业务失败数,计算通信路径的业务成功率;
将所述业务成功率与第三参考值进行比较;
确定所述业务成功率低于第三参考值的通信路径为所述故障对象。
结合第二方面的第三种可能的实现方式的第一种具体的实现方式,所述确定单元,具体用于:
根据各个业务处理单元的所述关键绩效指标信息中的各个业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数,统计所述各个业务处理单元的业务成功率;
将所述业务成功率与第二参考值进行比较;
确定所述业务成功率低于第二参考值的业务处理单元的数量;
根据所述数量确定所述业务成功率低于第二参考值的业务处理单元在所述被监测网元中的全部业务处理单元中所占的比例;
当所述比例大于第二预设比例时,确定所述被监测网元为所述故障对象。
结合第二方面的第三种可能的实现方式的第一种具体的实现方式的第一种更具体的实现方式,所述确定单元,具体用于:
将所述业务成功率与预设参考值进行比较;
或者,确定同质化网元的平均业务成功率;
将所述平均业务成功率减去预设数值得到同质化参考值;
将所述业务成功率与所述同质化参考值进行比较;
其中,所述同质化网元为承载的业务的业务逻辑与所述被监测网元相同,且所述业务被离散分配至的被监测网元。
结合第二方面的第二种可能的实现方式的第三种具体的实现方式,所述发送单元,具体用于:
确定故障对象为所述被监测网元中的业务处理单元之后,或者,确定故障对象为所述业务处理单元之间的通信路径之后,将所述故障恢复策略发送至网络功能虚拟化系统中所述被监测网元中的的系统管理模块。
结合第二方面的第三种可能的实现方式的第二种具体的实现方式,所述发送单元,具体用于:
确定故障对象为所述被监测网元之后,或者,确定故障对象为所述被监测网元与另外的网元之间的通信路径之后,将所述故障恢复策略发送至网络功能虚拟化系统中的管理和编排MANO单元。
结合第二方面的第二种可能的实现方式的第四种具体的实现方式,所述确定单元还用于:
在确定故障对象为所述被监测网元中的业务处理单元之后,确定发生故障的所述业务处理单元的数量达到预设阈值;
确定网络级的故障恢复策略;所述网络级的故障恢复策略用于对所述被监测网元所处网络中的一个或多个网元执行故障恢复操作。
结合第二方面的第三种可能的实现方式的第三种具体的实现方式,所述获取单元还用于:
获取与被确定为故障对象的所述被监测网元相关的冗余网元的状态信息;
所述确定单元,还用于根据所述状态信息,确定处于正常工作状态的冗余网元;
生成网络级的故障恢复指示信息,所述故障恢复指示信息用于指示所述管理单元采用所述处于正常工作状态的冗余网元替换被确定为故障对象的所述被监测网元;
或者,所述获取单元还用于,获取被确定为故障对象的所述通信路径中的后端网元的冗余网元的状态信息;
所述确定单元还用于,根据所述状态信息,确定处于正常工作状态的冗余网元;
生成网络级的故障恢复指示信息,所述故障恢复指示信息用于指示所述管理单元将所述通信路径中的前端网元对应的后端网元切换为所述处于正常工作状态的冗余网元。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
本申请公开的故障恢复方法或装置,通过获取被监测网元中的各个业务处理单元的关键绩效指标信息;根据所述关键绩效指标信息,确定故障对象;根据所述故障对象,确定故障恢复策略;将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元;可以通过关键绩效指标信息对于故障进行定位,解决根据网元的心跳消息对于故障进行定位的精度较低的问题。
此外,由于根据所述故障对象,确定故障恢复策略;将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元;所以可以采用适当的故障恢复策略,减小故障恢复过程带来的风险,降低故障恢复过程对业务的影响。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请的网络功能虚拟化(NFV)系统的架构图;
图2为本申请的故障恢复方法实施例1的流程图;
图3为本申请的故障恢复方法实施例2的流程图;
图4为本申请的故障恢复方法实施例3的流程图;
图5为本申请的故障恢复装置实施例的结构图;
图6为本申请的计算节点的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
图1为本申请的网络功能虚拟化(NFV)系统的架构图。本申请的故障恢复方法主要应用于NFV系统中。如图1所示,NFV系统中主要包括如下网元:
运营支撑系统(Operations Support System,OSS)/业务支撑系统(BusinessSupport System,BSS),用于向网络功能虚拟化编排器(NFV Orchestrator)发起服务请求,及服务所需的资源,负责故障处理。
编排器(Orchestrator),负责根据OSS/BSS的服务请求,实现NFV服务;负责网络服务(Network Service,NS)的生命周期管理,编排管理资源,实时监测虚拟化网络功能(Virtualized Network Function,VNF)、网络功能虚拟化基础设施(Network FunctionVirtulization Infrastructure,NFVI)资源及运行状态信息。
虚拟化网络功能管理器(VNF Manager,VNFM),负责VNF生成周期管理,如启动、生存时间、VNF运行状态信息。
虚拟化基础设施管理器(Virtualized Infrastructure Manager,VIM),负责管理、分配NFVI的资源;监测收集NFVI运行状态信息。
网元管理系统(Element Management System,EMS),负责网元的故障管理,配置管理,计费管理,性能管理,安全管理(Fault Management,Configuration Management,Accounting Management,Performance Management,Security Management,FCAPS)。
NFVI资源:包括所有NFVI资源状态,可用的/已预留的/已分配的NFVI资源。
本申请的故障恢复方法的执行主体可以是网元关键绩效指标(Key PerformanceIndicator,KPI)监控与恢复决策模块或者。所述网元KPI监控与恢复决策模块或者网络KPI监控与恢复决策模块可以部署在NFV系统中的VNF、EMS、管理和编排(Management andOrchestrator,MANO)单元、或独立的网络节点上。两者物理上可以合一部署,也可以分开部署。
图2为本申请的故障恢复方法实施例1的流程图。本实施例的方法的执行主体可以是网元KPI监控与恢复决策模块或者网络KPI监控与恢复决策模块。如图2所示,该方法可以包括:
步骤101:获取被监测网元中的各个业务处理单元的关键绩效指标(KeyPerformance Indicator,KPI)信息;
所述被监测网元可以是网络功能虚拟化(Network Function Virtualization,NFV)系统中的网元,例如VNF。
所述被监测网元中可以具有一个或多个业务处理单元。
所述关键绩效指标信息可以包括业务处理单元接收到的业务请求数、所述业务请求数对应的业务的失败数、和/或每次业务失败的原因等信息。实际应用中,所述关键绩效指标信息中包含的信息种类,可以根据需求进行设定。例如,所述关键绩效指标信息中还可以包括业务时延信息等。
所述被监测网元可以周期性上报所述关键绩效指标信息。
需要说明的是,在执行步骤101之前,还可以根据EMS、和/或MANO的信息,确定需要监测的网元。可以获取EMS、和/或MANO记录的网元内部署的业务处理单元信息,以及网络上部署的网元信息,将记录的网络上部署的网元信息对应的网元,确定为所述被监测网元;将记录的网元内部署的业务处理单元信息对应的业务处理单元,确定为需要被监测的业务处理单元。
步骤102:根据所述关键绩效指标信息,确定故障对象;
例如,根据所述关键绩效指标信息可以计算业务处理单元执行业务的成功率。当所述成功率低于一定比例时,可以确定故障对象为所述业务处理单元。当成功率较低的业务处理单元的个数较多(例如超过被监测网元的业务处理单元的总数的80%)时,可以确定故障对象为所述被监测网元外部的网元。又例如,当所述关键绩效指标信息中记录的被监测网元到下一级网元通信超时导致的业务失败数较高时,可以确定被监测网元至下一级网元的通信路径发生故障或者下一级网元发生故障。
步骤103:根据所述故障对象,确定故障恢复策略;
当所述故障对象为所述被监测网元内部的业务处理单元时,可以确定网元级的的故障恢复策略;所述网元级的故障恢复策略用于在所述被监测网元内部执行故障恢复操作。
当所述故障对象为所述被监测网元外部的网元时,可以确定网络级的的故障恢复策略;所述网络级的故障恢复策略用于对所述被监测网元所处网络中的一个或多个网元执行故障恢复操作。
步骤104:将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元,以便所述管理单元采用所述故障恢复策略进行故障恢复。
所述管理单元可以是网络功能虚拟化系统中所述被监测网元中的的系统管理模块,也可以是网络功能虚拟化系统中的管理和编排MANO单元。
采用网元级的故障恢复策略,进行故障恢复,可以包括以下方式:
确定发生故障的所述业务处理单元的备用单元;将发生故障的所述业务处理单元承载的业务切换至所述备用单元。
或者,对发生故障的所述业务处理单元进行复位。
其中,当所述备用单元出现故障时,可以对发生故障的所述业务处理单元以及所述备用单元进行隔离。
采用网络级的故障恢复策略,进行故障恢复,可以包括以下方式:
确定发生故障的所述网元的备用网元;
将发生故障的所述网元承载的业务切换至所述备用网元。
或者,确定发生故障的所述路径的备用路径;
将发生故障的所述路径承载的业务切换至所述备用路径。
其中,当确定所述备用路径发生故障时,还可以确定所述备用路径一端的网元的备用网元;
将所述备用路径一端的网元承载的业务切换至所述备用网元。
综上所述,本实施例中,通过获取被监测网元中的各个业务处理单元的关键绩效指标信息;根据所述关键绩效指标信息,确定故障对象;根据所述故障对象,确定故障恢复策略;将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元;可以通过关键绩效指标信息对于故障进行定位,解决根据网元的心跳消息对于故障进行定位的精度较低的问题。此外,由于根据所述故障对象,确定故障恢复策略;将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元;所以可以采用适当的故障恢复策略,减小故障恢复过程带来的风险,降低故障恢复过程对业务的影响。
实际应用中,所述确定故障对象,具体可以包括:
确定故障对象为所述被监测网元中的业务处理单元;
或者确定故障对象为所述业务处理单元之间的通信路径;
所述根据所述故障对象,确定故障恢复策略,具体可以包括:
当所述故障对象为所述被监测网元中的业务处理单元或者所述业务处理单元之间的通信路径时,确定网元级的故障恢复策略;所述网元级的故障恢复策略用于在所述被监测网元内部执行故障恢复操作。
实际应用中,所述确定故障对象,具体还可以包括:
确定故障对象为所述被监测网元。
或者,确定故障对象为所述被监测网元与另外的网元之间的通信路径。
所述根据所述故障对象,确定故障恢复策略,具体可以包括:
当所述故障对象为所述被监测网元或者所述被监测网元与另外的网元之间的通信路径时,确定网络级的故障恢复策略;所述网络级的故障恢复策略用于对所述被监测网元所处网络中的一个或多个网元执行故障恢复操作。
需要说明的是,基于本申请实施例中的方法,在实际应用中,对于网元级的故障,可以先采用网元级的故障恢复策略进行故障恢复;如果恢复失败,可以再采用网络级的故障恢复策略进行故障恢复。
实际应用中,所述确定故障对象为所述被监测网元中的业务处理单元,具体可以采用以下步骤:
根据所述关键绩效指标信息中的业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数,计算业务处理单元执行的业务的业务成功率;
将所述业务成功率与参考值进行比较;
确定所述业务成功率低于参考值的业务处理单元为所述故障对象。
上述步骤中,所述业务失败数,可以是由于业务处理单元自身原因导致的业务失败数。具体的,所述关键绩效指标信息可以记录业务失败的原因,可以根据业务失败的原因,统计由于业务处理单元自身原因导致的业务失败数。
还需要说明的是,上述步骤中,所述参考值可以是预先设定的数值,也可以是根据同质化业务处理单元的平均业务成功率统计得到的同质化参考值。因此,所述将所述业务成功率与参考值进行比较,具体可以包括:
将所述业务成功率与预设参考值进行比较;
或者,确定同质化业务处理单元的平均业务成功率;
将所述平均业务成功率减去预设数值得到同质化参考值;
将所述业务成功率与所述同质化参考值进行比较;
其中,所述同质化业务处理单元为与所述业务处理单元所承载的业务的业务逻辑相同,且所述业务被离散分配至的业务处理单元。
需要说明的是,对于同质化业务处理单元,有时会存在以下现象:由于某种原因,导致多个同质化业务处理单元的业务成功率均低于预设参考值,此时并不一定是低于预设参考值的同质化业务处理单元发生故障。可以是其他设备故障导致的大多数同质化业务处理单元的业务成功率下降。在上述情况中,为了避免错误地确定同质化业务处理单元发生故障,确定所述业务成功率低于参考值的业务处理单元为所述故障对象之前,还可以采用以下步骤:
确定同质化业务处理单元中业务成功率大于预设参考值的第一单元集;
确定同质化业务处理单元中业务成功率小于预设参考值的第二单元集;
确定所述第一单元集包含的单元在全体所述同质化业务处理单元中所占的比例大于预设比例。
上述步骤中,所述预设比例可以根据实际需求进行设置,例如可以设置为90%。即,当90%或以上的同质化业务处理单元的业务成功率高于预设参考值,而10%或以下的同质化业务处理单元的业务成功率低于预设参考值时,可以确定所述业务成功率低于参考值的同质化业务处理单元为所述故障对象。
实际应用中,所述确定故障对象为所述业务处理单元之间的通信路径,具体可以包括:
根据所述关键绩效指标信息中的通信路径故障导致的业务失败数,计算通信路径的业务成功率;
将所述业务成功率与参考值进行比较;
确定所述业务成功率低于参考值的通信路径为所述故障对象。
实际应用中,所述确定故障对象为所述被监测网元所归属的网络中的网元,具体可以包括:
根据所述关键绩效指标信息中的业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数,统计所述被监测网元的业务成功率;
将所述业务成功率与参考值进行比较;
确定所述业务成功率低于参考值的所述被监测网元为所述故障对象。
需要说明的是,一个网元中可以包括多个业务处理单元。因此,可以获取一个网元中各个业务处理单元的关键绩效指标信息;根据各个业务处理单元的关键绩效指标信息中包含的业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数,统计所述网元接收到的业务请求数以及所述业务请求数对应的业务的失败数,进而计算所述被监测网元的业务成功率。
实际应用中,所述将所述业务成功率与参考值进行比较,具体可以包括:
将所述业务成功率与预设参考值进行比较;
或者,确定同质化网元的平均业务成功率;
将所述平均业务成功率减去预设数值得到同质化参考值;
将所述业务成功率与所述同质化参考值进行比较;
其中,所述同质化网元为承载的业务的业务逻辑与所述被监测网元相同,且所述业务被离散分配至的被监测网元。
图3为本申请的故障恢复方法实施例2的流程图。本实施例的方法的执行主体可以是网元KPI监控与恢复决策模块。如图3所示,该方法可以包括:
步骤201:获取被监测网元中的各个业务处理单元的关键绩效指标信息;
本实施例中,所述业务处理单元可以包括线程、进程、虚拟机(Virtual Machine,VM)等。所述关键绩效指标信息至少可以包括以下信息:业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数。
步骤202:根据所述关键绩效指标信息中的业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数,计算业务处理单元执行的业务的业务成功率;
所述业务成功率可以采用所述业务请求数减去所述失败数,再除以所述业务请求数,乘以100%得到。
步骤203:将所述业务成功率与参考值进行比较;
所述参考值可以根据实际需求进行设置。例如,当正常的业务处理单元的业务成功率在95%以上时,所述参考值可以设置为95%。
或者,所述参考值可以根据同质化业务处理单元的平均业务成功率进行计算得到。其中,所述同质化业务处理单元为与所述业务成功率对应的业务处理单元所承载的业务逻辑相同且外部业务组网也相同的业务处理单元。多个同质化业务处理单元接收到(被分发)的业务请求消息是随机离散的。因此,多个同质化业务处理单元的业务成功率应该基本相似。所以,可以根据同质化业务处理单元的平均业务成功率进行计算得到同质化参考值。
具体的,可以将所述平均业务成功率减去预设数值得到同质化参考值。所述预设数值可以根据实际需求设置。例如,可以是20%,10%等等。
步骤204:确定所述业务成功率低于参考值的业务处理单元为所述故障对象。
步骤205:当所述故障对象为业务处理单元时,确定网元级的故障恢复策略;
步骤206:将所述故障恢复策略发送至网络功能虚拟化系统中所述被监测网元中的的系统管理模块。
步骤205中的所述网元级的故障恢复策略,可以是指示所述系统管理模块对发生故障的所述业务处理单元进行复位。所述系统管理模块接收到所述网元级的故障恢复策略后,可以对发生故障的所述业务处理单元进行复位。
需要说明的是,如果复位后的业务处理单元依然出现故障,还可以对发生故障的所述业务处理单元进行隔离。进一步的,当确定隔离的业务处理单元的数量达到第二预设阈值时,可以执行网络级的故障恢复策略;所述网络级的故障恢复策略用于在所述被监测网元所处网络中的一个或多个网元执行故障恢复操作。例如,可以对被监测网元的下一跳故障网元或通信路径进行倒换等。倒换的目标网元或通信路径可以根据容灾组内各网元或通信路径的健康状态进行选取。
还需要说明的是,当发生故障的业务处理单元为主备型的业务处理单元时,所述故障恢复策略可以是:确定发生故障的所述业务处理单元的备用单元;将发生故障的所述业务处理单元承载的业务切换至所述备用单元。进一步的,当确定所述备用单元出现故障时,可以对发生故障的所述业务处理单元以及所述备用单元进行隔离。
图4为本申请的故障恢复方法实施例3的流程图。本实施例的方法的执行主体可以是网络KPI监控与恢复决策模块。如图4所示,该方法可以包括:
步骤301:获取被监测网元中的各个业务处理单元的关键绩效指标信息;
步骤302:根据所述关键绩效指标信息中的业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数,计算各个业务处理单元执行的业务的业务成功率;
步骤303:将所述业务成功率与参考值进行比较;
步骤304:确定所述业务成功率低于参考值的业务处理单元的数量;
步骤305:根据所述数量确定所述业务成功率低于参考值的业务处理单元在所述被监测网元中的全部业务处理单元中所占的比例;
假设业务成功率低于参考值的业务处理单元的数量为8个,所述被监测网元中的全部业务处理单元数量为10个,则所述比例为80%。
步骤306:当所述比例大于预设比例时,确定故障对象为所述被监测网元。
所述预设比例可以根据实际需求进行设置。例如,所述预设比例可以设置为50%、80%等等。
步骤307:当所述故障对象为所述被监测网元所归属的网络中的网元时,确定网络级的故障恢复策略;
当故障发生位置为所述被监测网元所归属的网络中的网元时,需要采用网络级的故障恢复策略,以便对发生故障的网元进行修复。
实际应用中,所述确定网络级的故障恢复策略,具体可以有多种实现方式。例如,可以采用以下步骤:
获取与被确定为故障对象的所述被监测网元相关的冗余网元的状态信息;
根据所述状态信息,确定处于正常工作状态的冗余网元;
生成网络级的故障恢复指示信息,所述故障恢复指示信息用于指示所述管理单元采用所述处于正常工作状态的冗余网元替换被确定为故障对象的所述被监测网元。
上述步骤,可以确保用于替换发生故障的被监测网元的冗余网元是可以正常工作的。如果被监测网元的冗余网元均出现异常,则可以不再采用预先设定的冗余网元替换发生故障的被监测网元,可以查找其它可以正常工作的网元来替换所述发生故障的被监测网元。
又例如,可以采用以下步骤:
获取被确定为故障对象的所述通信路径中的后端网元的冗余网元的状态信息;
根据所述状态信息,确定处于正常工作状态的冗余网元;
生成网络级的故障恢复指示信息,所述故障恢复指示信息用于指示所述管理单元将所述通信路径中的前端网元对应的后端网元切换为所述处于正常工作状态的冗余网元。
上述步骤,可以确保切换后的冗余网元是可以正常工作的。如果所述通信路径中的后端网元的冗余网元均出现异常,则可以不再采用预先设定的冗余网元进行切换,可以查找其它可以正常工作的网元来进行切换。
步骤308:将所述故障恢复策略发送至网络功能虚拟化系统中的管理和编排MANO单元。
所述网络级的故障恢复策略可以指示MANO单元确定发生故障的所述网元的备用网元;将发生故障的所述网元承载的业务切换至所述备用网元。
MANO接收到所述网络级的故障恢复策略,可以确定发生故障的所述网元的备用网元。确定发生故障的所述网元的备用网元之后,MANO可以向VNFM发送指示信令,指示VNFM将发生故障的所述网元承载的业务切换至所述备用网元。VNFM收到所述指示信令后,可以将发生故障的所述网元承载的业务切换至所述备用网元。
还需要说明的是,本申请实施例中,所述关键绩效指标信息中还可以包括业务失败原因信息,以及该业务失败原因导致的业务失败次数信息。所述业务失败原因可以包括:到下游网元通信超时、资源不足、被监测网元的内部模块之间通信超时、软件内部错误(例如软件内部数据非法、代码走入异常分支等)等。因此,本申请中所述根据所述关键绩效指标信息,确定故障对象,具体还可以包括:
根据关键绩效指标信息中包含的业务失败原因信息,确定故障对象。
可以根据所述关键绩效指标信息中记录的由于业务处理超时导致的业务失败次数以及所述被监测网元发往下游网元的业务请求数,确定由于业务处理超时导致的失败业务比例;
当所述失败业务比例大于或等于预设阈值时,可以确定故障发生位置为所述被监测网元。所述被监测网元归属的网络中的网元可以包括所述网元的外部网元和所述网元本身。相应的,此时也可以采用网络级的故障恢复策略。
另外,对于前面提到的所述同质化业务处理单元,在统计业务失败数时,可以将资源不足导致的业务失败次数排除,不计入业务失败的统计总数中。因为这种情况的成因主要是业务数量过多,而业务处理单元自身通常并没有发生故障。
本申请还提供了一种故障恢复装置。
图5为本申请的故障恢复装置实施例的结构图。如图5所示,该装置可以包括:
获取单元501,用于获取被监测网元中的各个业务处理单元的关键绩效指标信息;
确定单元502,用于根据所述关键绩效指标信息,确定故障对象;
根据所述故障对象,确定故障恢复策略;
发送单元503,用于将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元,以便所述管理单元采用所述故障恢复策略进行故障恢复。
本实施例中,通过获取被监测网元中的各个业务处理单元的关键绩效指标信息;根据所述关键绩效指标信息,确定故障对象;根据所述故障对象,确定故障恢复策略;将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元;可以通过关键绩效指标信息对于故障进行定位,解决根据网元的心跳消息对于故障进行定位的精度较低问题。此外,由于根据所述故障对象,确定故障恢复策略;将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元;所以可以采用适当的故障恢复策略,减小故障恢复过程带来的风险,降低故障恢复过程对业务的影响。
实际应用中,所述确定单元502,具体可以用于:
确定故障对象为所述被监测网元中的业务处理单元;
或者确定故障对象为所述业务处理单元之间的通信路径;
当所述故障对象为所述被监测网元中的业务处理单元或者所述业务处理单元之间的通信路径时,确定网元级的故障恢复策略;所述网元级的故障恢复策略用于在所述被监测网元内部执行故障恢复操作。
实际应用中,所述确定单元502,具体可以用于:
确定故障对象为所述被监测网元;
或者,确定故障对象为所述被监测网元与另外的网元之间的通信路径;
当所述故障对象为所述被监测网元或者所述被监测网元与另外的网元之间的通信路径时,确定网络级的故障恢复策略;所述网络级的故障恢复策略用于对所述被监测网元所处网络中的一个或多个网元执行故障恢复操作。
实际应用中,所述确定单元502,具体可以用于:
根据所述关键绩效指标信息中的业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数,计算业务处理单元执行的业务的业务成功率;
将所述业务成功率与第一参考值进行比较;
确定所述业务成功率低于第一参考值的业务处理单元为所述故障对象。
实际应用中,所述确定单元502,具体可以用于:
将所述业务成功率与预设参考值进行比较;
或者,确定同质化业务处理单元的平均业务成功率;
将所述平均业务成功率减去预设数值得到同质化参考值;
将所述业务成功率与所述同质化参考值进行比较;
其中,所述同质化业务处理单元为与所述业务处理单元所承载的业务的业务逻辑相同,且所述业务被离散分配的业务处理单元。
实际应用中,所述确定单元502还可以用于:
在确定所述业务成功率低于第一参考值的业务处理单元为所述故障对象之前,确定同质化业务处理单元中业务成功率大于第一参考值的第一单元集;
确定同质化业务处理单元中业务成功率小于第一参考值的第二单元集;
确定所述第一单元集包含的单元在全体所述同质化业务处理单元中所占的比例大于第一预设比例;
其中,所述同质化业务处理单元为与所述业务处理单元所承载的业务的业务逻辑相同,且所述业务被离散分配至的业务处理单元。
实际应用中,所述确定单元502,具体可以用于:
根据所述关键绩效指标信息中的通信路径故障导致的业务失败数,计算通信路径的业务成功率;
将所述业务成功率与第三参考值进行比较;
确定所述业务成功率低于第三参考值的通信路径为所述故障对象。
实际应用中,所述确定单元502,具体可以用于:
根据各个业务处理单元的所述关键绩效指标信息中的各个业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数,统计所述各个业务处理单元的业务成功率;
将所述业务成功率与第二参考值进行比较;
确定所述业务成功率低于第二参考值的业务处理单元的数量;
根据所述数量确定所述业务成功率低于第二参考值的业务处理单元在所述被监测网元中的全部业务处理单元中所占的比例;
当所述比例大于第二预设比例时,确定所述被监测网元为所述故障对象。
实际应用中,所述确定单元502,具体可以用于:
将所述业务成功率与预设参考值进行比较;
或者,确定同质化网元的平均业务成功率;
将所述平均业务成功率减去预设数值得到同质化参考值;
将所述业务成功率与所述同质化参考值进行比较;
其中,所述同质化网元为承载的业务的业务逻辑与所述被监测网元相同,且所述业务被离散分配至的被监测网元。
实际应用中,所述发送单元503,具体可以用于:
确定故障对象为所述被监测网元中的业务处理单元之后,或者,确定故障对象为所述业务处理单元之间的通信路径之后,将所述故障恢复策略发送至网络功能虚拟化系统中所述被监测网元中的的系统管理模块。
实际应用中,所述发送单元503,具体可以用于:
确定故障对象为所述被监测网元之后,或者,确定故障对象为所述被监测网元与另外的网元之间的通信路径之后,将所述故障恢复策略发送至网络功能虚拟化系统中的管理和编排MANO单元。
实际应用中,所述确定单元502还可以用于:
在确定故障对象为所述被监测网元中的业务处理单元之后,确定发生故障的所述业务处理单元的数量达到预设阈值;
确定网络级的故障恢复策略;所述网络级的故障恢复策略用于对所述被监测网元所处网络中的一个或多个网元执行故障恢复操作。
实际应用中,所述获取单元501还可以用于:
获取与被确定为故障对象的所述被监测网元相关的冗余网元的状态信息;
所述确定单元502,还可以用于根据所述状态信息,确定处于正常工作状态的冗余网元;
生成网络级的故障恢复指示信息,所述故障恢复指示信息用于指示所述管理单元采用所述处于正常工作状态的冗余网元替换被确定为故障对象的所述被监测网元;
或者,所述获取单元501还可以用于,获取被确定为故障对象的所述通信路径中的后端网元的冗余网元的状态信息;
所述确定单元502还可以用于,根据所述状态信息,确定处于正常工作状态的冗余网元;
生成网络级的故障恢复指示信息,所述故障恢复指示信息用于指示所述管理单元将所述通信路径中的前端网元对应的后端网元切换为所述处于正常工作状态的冗余网元。
另外,本申请实施例还提供了一种计算节点,计算节点可能是包含计算能力的主机服务器,或者是个人计算机PC,或者是可携带的便携式计算机或终端等等,本申请具体实施例并不对计算节点的具体实现做限定。
图6为本申请的计算节点的结构图。如图6所示,计算节点600包括:
处理器(processor)610,通信接口(Communications Interface)620,存储器(memory)630,总线640。
处理器610,通信接口620,存储器630通过总线640完成相互间的通信。
处理器610,用于执行程序632。
具体地,程序632可以包括程序代码,所述程序代码包括计算机操作指令。
处理器610可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。
存储器630,用于存放程序632。存储器630可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。程序632具体可以包括图5所示实施例中的相应模块或单元,在此不赘述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (20)

1.一种故障恢复方法,其特征在于,包括:
获取被监测网元中的各个业务处理单元的关键绩效指标信息;
根据所述关键绩效指标信息,确定故障对象,所述故障对象为所述被监测网元中的业务处理单元或者所述业务处理单元之间的通信路径;或,所述故障对象为所述被监测网元或所述被监测网元与另外的网元之间的通信路径;
根据所述故障对象,确定故障恢复策略;
将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元,以便所述管理单元采用所述故障恢复策略进行故障恢复;
其中,当所述故障对象为所述被监测网元中的业务处理单元时,根据所述关键绩效指标信息,确定故障对象,包括:
根据所述关键绩效指标信息中的业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数,计算业务处理单元执行的业务的业务成功率;
将所述业务处理单元执行的业务的业务成功率与第一参考值进行比较;
确定所述业务处理单元执行的业务的业务成功率低于第一参考值的业务处理单元为所述故障对象;
所述确定故障对象为所述业务处理单元之间的通信路径,具体包括:
根据所述关键绩效指标信息中的通信路径故障导致的业务失败数,计算通信路径的业务成功率;
将所述通信路径的业务成功率与第三参考值进行比较;
确定所述通信路径的业务成功率低于第三参考值的通信路径为所述故障对象;
当所述故障对象为所述被监测网元时,根据所述关键绩效指标信息,确定故障对象,包括:
根据各个业务处理单元的所述关键绩效指标信息中的各个业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数,统计所述各个业务处理单元的业务成功率;
将所述各个业务处理单元的业务成功率与第二参考值进行比较;
确定所述各个业务处理单元的业务成功率低于第二参考值的业务处理单元的数量;
根据所述数量确定所述各个业务处理单元的业务成功率低于第二参考值的业务处理单元在所述被监测网元中的全部业务处理单元中所占的比例;
当所述比例大于第二预设比例时,确定所述被监测网元为所述故障对象。
2.根据权利要求1所述的方法,其特征在于,
所述根据所述故障对象,确定故障恢复策略,具体包括:
当所述故障对象为所述被监测网元中的业务处理单元或者所述业务处理单元之间的通信路径时,确定网元级的故障恢复策略;所述网元级的故障恢复策略用于在所述被监测网元内部执行故障恢复操作。
3.根据权利要求1所述的方法,其特征在于;
所述根据所述故障对象,确定故障恢复策略,具体包括:
当所述故障对象为所述被监测网元或者所述被监测网元与另外的网元之间的通信路径时,确定网络级的故障恢复策略;所述网络级的故障恢复策略用于对所述被监测网元所处网络中的一个或多个网元执行故障恢复操作。
4.根据权利要求1所述的方法,其特征在于,所述将所述业务处理单元执行的业务的业务成功率与第一参考值进行比较,具体包括:
将所述业务处理单元执行的业务的业务成功率与预设参考值进行比较;
或者,确定同质化业务处理单元的平均业务成功率;
将所述平均业务成功率减去预设数值得到同质化参考值;
将所述业务处理单元执行的业务的业务成功率与所述同质化参考值进行比较;
其中,所述同质化业务处理单元为与所述业务处理单元所承载的业务的业务逻辑相同,且所述业务被离散分配的业务处理单元。
5.根据权利要求1所述的方法,其特征在于,确定所述业务处理单元执行的业务的业务成功率低于第一参考值的业务处理单元为所述故障对象之前,还包括:
确定同质化业务处理单元中业务成功率大于第一参考值的第一单元集;
确定同质化业务处理单元中业务成功率小于第一参考值的第二单元集;
确定所述第一单元集包含的单元在全体所述同质化业务处理单元中所占的比例大于第一预设比例;
其中,所述同质化业务处理单元为与所述业务处理单元所承载的业务的业务逻辑相同,且所述业务被离散分配至的业务处理单元。
6.根据权利要求1所述的方法,其特征在于,所述将所述各个业务处理单元的业务成功率与第二参考值进行比较,具体包括:
将所述各个业务处理单元的业务成功率与预设参考值进行比较;
或者,确定同质化网元的平均业务成功率;
将所述平均业务成功率减去预设数值得到同质化参考值;
将所述各个业务处理单元的业务成功率与所述同质化参考值进行比较;
其中,所述同质化网元为承载的业务的业务逻辑与所述被监测网元相同,且所述业务被离散分配至的被监测网元。
7.根据权利要求2所述的方法,其特征在于,所述确定故障对象为所述被监测网元中的业务处理单元之后,或者,确定故障对象为所述业务处理单元之间的通信路径之后,所述将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元,具体包括:
将所述故障恢复策略发送至网络功能虚拟化系统中所述被监测网元中的的系统管理模块。
8.根据权利要求3所述的方法,其特征在于,所述确定故障对象为所述被监测网元之后,或者,确定故障对象为所述被监测网元与另外的网元之间的通信路径之后,所述将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元,具体包括:
将所述故障恢复策略发送至网络功能虚拟化系统中的管理和编排MANO单元。
9.根据权利要求2所述的方法,其特征在于,所述确定故障对象为所述被监测网元中的业务处理单元之后,还包括:
确定发生故障的所述业务处理单元的数量达到预设阈值;
确定网络级的故障恢复策略;所述网络级的故障恢复策略用于对所述被监测网元所处网络中的一个或多个网元执行故障恢复操作。
10.根据权利要求3所述的方法,其特征在于,所述确定网络级的故障恢复策略,具体包括:
获取与被确定为故障对象的所述被监测网元相关的冗余网元的状态信息;
根据所述状态信息,确定处于正常工作状态的冗余网元;
生成网络级的故障恢复指示信息,所述故障恢复指示信息用于指示所述管理单元采用所述处于正常工作状态的冗余网元替换被确定为故障对象的所述被监测网元;
或者,所述确定网络级的故障恢复策略,具体包括:获取被确定为故障对象的所述通信路径中的后端网元的冗余网元的状态信息;
根据所述状态信息,确定处于正常工作状态的冗余网元;
生成网络级的故障恢复指示信息,所述故障恢复指示信息用于指示所述管理单元将所述通信路径中的前端网元对应的后端网元切换为所述处于正常工作状态的冗余网元。
11.一种故障恢复装置,其特征在于,包括:
获取单元,用于获取被监测网元中的各个业务处理单元的关键绩效指标信息;
确定单元,用于根据所述关键绩效指标信息,确定故障对象,所述故障对象为所述被监测网元中的业务处理单元或者所述业务处理单元之间的通信路径;或,所述故障对象为所述被监测网元或所述被监测网元与另外的网元之间的通信路径;
根据所述故障对象,确定故障恢复策略;
发送单元,用于将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元,以便所述管理单元采用所述故障恢复策略进行故障恢复;
当所述故障对象为所述被监测网元中的业务处理单元,所述确定单元,具体用于:
根据所述关键绩效指标信息中的业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数,计算业务处理单元执行的业务的业务成功率;
将所述业务处理单元执行的业务的业务成功率与第一参考值进行比较;
确定所述业务处理单元执行的业务的业务成功率低于第一参考值的业务处理单元为所述故障对象;
所述确定单元,具体用于:
根据所述关键绩效指标信息中的通信路径故障导致的业务失败数,计算通信路径的业务成功率;
将所述通信路径的业务成功率与第三参考值进行比较;
确定所述通信路径的业务成功率低于第三参考值的通信路径为所述故障对象;
当所述故障对象为所述被监测网元时,所述确定单元,具体用于:
根据各个业务处理单元的所述关键绩效指标信息中的各个业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数,统计所述各个业务处理单元的业务成功率;
将所述各个业务处理单元的业务成功率与第二参考值进行比较;
确定所述各个业务处理单元的业务成功率低于第二参考值的业务处理单元的数量;
根据所述数量确定所述各个业务处理单元的业务成功率低于第二参考值的业务处理单元在所述被监测网元中的全部业务处理单元中所占的比例;
当所述比例大于第二预设比例时,确定所述被监测网元为所述故障对象。
12.根据权利要求11所述的装置,其特征在于,所述确定单元,具体用于:
当所述故障对象为所述被监测网元中的业务处理单元或者所述业务处理单元之间的通信路径时,确定网元级的故障恢复策略;所述网元级的故障恢复策略用于在所述被监测网元内部执行故障恢复操作。
13.根据权利要求11所述的装置,其特征在于,所述确定单元,具体用于:
当所述故障对象为所述被监测网元或者所述被监测网元与另外的网元之间的通信路径时,确定网络级的故障恢复策略;所述网络级的故障恢复策略用于对所述被监测网元所处网络中的一个或多个网元执行故障恢复操作。
14.根据权利要求11所述的装置,其特征在于,所述确定单元,具体用于:
将所述业务处理单元执行的业务的业务成功率与预设参考值进行比较;
或者,确定同质化业务处理单元的平均业务成功率;
将所述平均业务成功率减去预设数值得到同质化参考值;
将所述业务处理单元执行的业务的业务成功率与所述同质化参考值进行比较;
其中,所述同质化业务处理单元为与所述业务处理单元所承载的业务的业务逻辑相同,且所述业务被离散分配的业务处理单元。
15.根据权利要求11所述的装置,其特征在于,所述确定单元还用于:
在确定所述业务处理单元执行的业务的业务成功率低于第一参考值的业务处理单元为所述故障对象之前,确定同质化业务处理单元中业务成功率大于第一参考值的第一单元集;
确定同质化业务处理单元中业务成功率小于第一参考值的第二单元集;
确定所述第一单元集包含的单元在全体所述同质化业务处理单元中所占的比例大于第一预设比例;
其中,所述同质化业务处理单元为与所述业务处理单元所承载的业务的业务逻辑相同,且所述业务被离散分配至的业务处理单元。
16.根据权利要求11所述的装置,其特征在于,所述确定单元,具体用于:
将所述各个业务处理单元的业务成功率与预设参考值进行比较;
或者,确定同质化网元的平均业务成功率;
将所述平均业务成功率减去预设数值得到同质化参考值;
将所述各个业务处理单元的业务成功率与所述同质化参考值进行比较;
其中,所述同质化网元为承载的业务的业务逻辑与所述被监测网元相同,且所述业务被离散分配至的被监测网元。
17.根据权利要求12所述的装置,其特征在于,所述发送单元,具体用于:
确定故障对象为所述被监测网元中的业务处理单元之后,或者,确定故障对象为所述业务处理单元之间的通信路径之后,将所述故障恢复策略发送至网络功能虚拟化系统中所述被监测网元中的的系统管理模块。
18.根据权利要求13所述的装置,其特征在于,所述发送单元,具体用于:
确定故障对象为所述被监测网元之后,或者,确定故障对象为所述被监测网元与另外的网元之间的通信路径之后,将所述故障恢复策略发送至网络功能虚拟化系统中的管理和编排MANO单元。
19.根据权利要求12所述的装置,其特征在于,所述确定单元还用于:
在确定故障对象为所述被监测网元中的业务处理单元之后,确定发生故障的所述业务处理单元的数量达到预设阈值;
确定网络级的故障恢复策略;所述网络级的故障恢复策略用于对所述被监测网元所处网络中的一个或多个网元执行故障恢复操作。
20.根据权利要求13所述的装置,其特征在于,所述获取单元还用于:
获取与被确定为故障对象的所述被监测网元相关的冗余网元的状态信息;
所述确定单元,还用于根据所述状态信息,确定处于正常工作状态的冗余网元;
生成网络级的故障恢复指示信息,所述故障恢复指示信息用于指示所述管理单元采用所述处于正常工作状态的冗余网元替换被确定为故障对象的所述被监测网元;
或者,所述获取单元还用于,获取被确定为故障对象的所述通信路径中的后端网元的冗余网元的状态信息;
所述确定单元还用于,根据所述状态信息,确定处于正常工作状态的冗余网元;
生成网络级的故障恢复指示信息,所述故障恢复指示信息用于指示所述管理单元将所述通信路径中的前端网元对应的后端网元切换为所述处于正常工作状态的冗余网元。
CN201510608782.1A 2015-09-22 2015-09-22 一种故障恢复方法及装置 Active CN105187249B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201510608782.1A CN105187249B (zh) 2015-09-22 2015-09-22 一种故障恢复方法及装置
EP16848012.7A EP3340535B1 (en) 2015-09-22 2016-09-07 Failure recovery method and device
PCT/CN2016/098344 WO2017050130A1 (zh) 2015-09-22 2016-09-07 一种故障恢复方法及装置
JP2018514977A JP6556346B2 (ja) 2015-09-22 2016-09-07 トラブルシューティング方法及び装置
US15/928,367 US10601643B2 (en) 2015-09-22 2018-03-22 Troubleshooting method and apparatus using key performance indicator information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510608782.1A CN105187249B (zh) 2015-09-22 2015-09-22 一种故障恢复方法及装置

Publications (2)

Publication Number Publication Date
CN105187249A CN105187249A (zh) 2015-12-23
CN105187249B true CN105187249B (zh) 2018-12-07

Family

ID=54909103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510608782.1A Active CN105187249B (zh) 2015-09-22 2015-09-22 一种故障恢复方法及装置

Country Status (5)

Country Link
US (1) US10601643B2 (zh)
EP (1) EP3340535B1 (zh)
JP (1) JP6556346B2 (zh)
CN (1) CN105187249B (zh)
WO (1) WO2017050130A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105187249B (zh) * 2015-09-22 2018-12-07 华为技术有限公司 一种故障恢复方法及装置
CN105681077B (zh) * 2015-12-31 2019-04-05 华为技术有限公司 故障处理方法、装置及系统
CN105760214B (zh) * 2016-04-19 2019-02-26 华为技术有限公司 一种设备状态及资源信息监测方法、相关设备及系统
JP6690093B2 (ja) * 2016-08-10 2020-04-28 富士通株式会社 判定プログラム、通信装置、および、判定方法
US11277420B2 (en) 2017-02-24 2022-03-15 Ciena Corporation Systems and methods to detect abnormal behavior in networks
CN109905261A (zh) * 2017-12-08 2019-06-18 华为技术有限公司 故障诊断方法及装置
CN109995574A (zh) * 2018-01-02 2019-07-09 中兴通讯股份有限公司 一种修复vnfm故障的方法、监测器、vim、vnfm及存储介质
US10972588B2 (en) 2018-06-27 2021-04-06 T-Mobile Usa, Inc. Micro-level network node failover system
CN110750354B (zh) * 2018-07-24 2023-01-10 中国移动通信有限公司研究院 一种vCPU资源分配方法、装置和计算机可读存储介质
CN112544055B (zh) * 2018-08-09 2023-11-07 苹果公司 用于5gc网络功能的性能测量
CN112015681B (zh) * 2020-08-19 2022-08-26 苏州鑫信腾科技有限公司 一种io端口的处理方法、装置、设备和介质
US11374849B1 (en) * 2020-12-18 2022-06-28 Versa Networks, Inc. High availability router switchover decision using monitoring and policies
CN112995051B (zh) * 2021-02-05 2022-08-09 中国工商银行股份有限公司 网络流量恢复方法及装置
WO2022178127A1 (en) * 2021-02-19 2022-08-25 Intel Corporation Performance measurements for data management and background data transfer policy control for next-generation systems
WO2022232038A1 (en) * 2021-04-26 2022-11-03 Intel Corporation Performance measurements for unified data repository (udr)
WO2022264289A1 (ja) * 2021-06-15 2022-12-22 楽天モバイル株式会社 ネットワーク管理装置、ネットワーク管理方法およびプログラム
CN113766444B (zh) * 2021-09-23 2023-07-04 中国联合网络通信集团有限公司 故障定位方法、装置及设备
CN115834332A (zh) * 2022-11-23 2023-03-21 中国联合网络通信集团有限公司 一种故障处理方法、服务器及系统
CN116757679B (zh) * 2023-08-11 2024-02-06 南方电网调峰调频发电有限公司检修试验分公司 检修策略的确定方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101984697A (zh) * 2010-10-19 2011-03-09 中兴通讯股份有限公司 一种无线数据业务排障方法及系统
CN102111797A (zh) * 2011-02-15 2011-06-29 大唐移动通信设备有限公司 一种故障的诊断方法和设备
CN102158360A (zh) * 2011-04-01 2011-08-17 华中科技大学 一种基于时间因子因果关系定位的网络故障自诊断方法
CN103457792A (zh) * 2013-08-19 2013-12-18 大唐移动通信设备有限公司 一种故障检测方法和装置
CN104796277A (zh) * 2014-01-21 2015-07-22 中国移动通信集团湖南有限公司 一种网络故障监测方法及装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8285121B2 (en) * 2007-10-07 2012-10-09 Fall Front Wireless Ny, Llc Digital network-based video tagging system
US20110122761A1 (en) * 2009-11-23 2011-05-26 Sundar Sriram KPI Driven High Availability Method and apparatus for UMTS radio access networks
EP2849064B1 (en) * 2013-09-13 2016-12-14 NTT DOCOMO, Inc. Method and apparatus for network virtualization
CN108418711B (zh) * 2013-09-30 2021-05-18 华为技术有限公司 故障管理的存储介质
CN105960777A (zh) * 2013-10-21 2016-09-21 尼妍萨有限公司 使用远程网络管理器观察和控制可编程网络的系统和方法
RU2641706C1 (ru) * 2014-01-21 2018-01-22 Хуавэй Текнолоджиз Ко., Лтд. Способ обработки отказа сетевой службы, система управления службами и модуль управления системой
US10664297B2 (en) * 2014-02-24 2020-05-26 Hewlett Packard Enterprise Development Lp Activating pre-created VNFCs when a monitored performance level of a VNF exceeds a maximum value attainable by the combined VNFCs that form a VNF
US9401851B2 (en) * 2014-03-28 2016-07-26 Verizon Patent And Licensing Inc. Network management system
US10447555B2 (en) * 2014-10-09 2019-10-15 Splunk Inc. Aggregate key performance indicator spanning multiple services
US9674046B2 (en) * 2014-10-21 2017-06-06 At&T Intellectual Property I, L.P. Automatic detection and prevention of network overload conditions using SDN
US9584377B2 (en) * 2014-11-21 2017-02-28 Oracle International Corporation Transparent orchestration and management of composite network functions
WO2016103006A1 (en) * 2014-12-23 2016-06-30 Telefonaktiebolaget Lm Ericsson (Publ) Media performance monitoring and analysis
US9769065B2 (en) * 2015-05-06 2017-09-19 Telefonaktiebolaget Lm Ericsson (Publ) Packet marking for L4-7 advanced counting and monitoring
CN107534570B (zh) * 2015-06-16 2021-08-24 慧与发展有限责任合伙企业 用于虚拟化网络功能监控的计算机系统、方法和介质
CN105187249B (zh) * 2015-09-22 2018-12-07 华为技术有限公司 一种故障恢复方法及装置
US10284434B1 (en) * 2016-06-29 2019-05-07 Sprint Communications Company L.P. Virtual network function (VNF) relocation in a software defined network (SDN)

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101984697A (zh) * 2010-10-19 2011-03-09 中兴通讯股份有限公司 一种无线数据业务排障方法及系统
CN102111797A (zh) * 2011-02-15 2011-06-29 大唐移动通信设备有限公司 一种故障的诊断方法和设备
CN102158360A (zh) * 2011-04-01 2011-08-17 华中科技大学 一种基于时间因子因果关系定位的网络故障自诊断方法
CN103457792A (zh) * 2013-08-19 2013-12-18 大唐移动通信设备有限公司 一种故障检测方法和装置
CN104796277A (zh) * 2014-01-21 2015-07-22 中国移动通信集团湖南有限公司 一种网络故障监测方法及装置

Also Published As

Publication number Publication date
EP3340535A1 (en) 2018-06-27
EP3340535A4 (en) 2018-07-25
CN105187249A (zh) 2015-12-23
WO2017050130A1 (zh) 2017-03-30
JP2018533280A (ja) 2018-11-08
US20180212819A1 (en) 2018-07-26
JP6556346B2 (ja) 2019-08-07
US10601643B2 (en) 2020-03-24
EP3340535B1 (en) 2020-07-29

Similar Documents

Publication Publication Date Title
CN105187249B (zh) 一种故障恢复方法及装置
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
CN107544839B (zh) 虚拟机迁移系统、方法及装置
CN103607297B (zh) 一种计算机集群系统的故障处理方法
CN108847982B (zh) 一种分布式存储集群及其节点故障切换方法和装置
CN108039964B (zh) 基于网络功能虚拟化的故障处理方法及装置、系统
CN105095001B (zh) 分布式环境下虚拟机异常恢复方法
CN110430071A (zh) 业务节点故障自愈方法、装置、计算机设备及存储介质
CN111158962B (zh) 一种异地容灾方法、装置、系统、电子设备及存储介质
TWI701916B (zh) 用於在分布式系統中使管理能力自恢復的方法和裝置
CN109257195A (zh) 集群中节点的故障处理方法及设备
CN106789306A (zh) 通信设备软件故障检测收集恢复方法和系统
CN106487486A (zh) 业务处理方法和数据中心系统
CN103490914A (zh) 一种网络应用设备多机热备的切换系统及方法
CN111181780A (zh) 基于ha集群的主机池切换方法、系统、终端及存储介质
CN102984184A (zh) 一种分布式系统的服务负载均衡方法及装置
CN109582459A (zh) 应用的托管进程进行迁移的方法及装置
CN111176888A (zh) 云存储的容灾方法、装置及系统
CN105915426A (zh) 环形网络的故障恢复方法及装置
CN107656847A (zh) 基于分布式集群的节点管理方法、系统、装置及存储介质
CN106951445A (zh) 一种分布式文件系统及其存储节点上线方法
CN113965576A (zh) 基于容器的大数据采集方法、装置、存储介质和设备
CN111817892B (zh) 一种网络管理方法、系统、电子设备及存储介质
CN116668269A (zh) 一种用于双活数据中心的仲裁方法、装置及系统
CN103036744B (zh) 一种监控多机分布式复制块设备的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant