CN108418711B - 故障管理的存储介质 - Google Patents

故障管理的存储介质 Download PDF

Info

Publication number
CN108418711B
CN108418711B CN201810143222.7A CN201810143222A CN108418711B CN 108418711 B CN108418711 B CN 108418711B CN 201810143222 A CN201810143222 A CN 201810143222A CN 108418711 B CN108418711 B CN 108418711B
Authority
CN
China
Prior art keywords
fault
information
entity
nfvi
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810143222.7A
Other languages
English (en)
Other versions
CN108418711A (zh
Inventor
刘建宁
朱雷
余芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201810143222.7A priority Critical patent/CN108418711B/zh
Publication of CN108418711A publication Critical patent/CN108418711A/zh
Application granted granted Critical
Publication of CN108418711B publication Critical patent/CN108418711B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0627Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time by acting on the notification or alarm source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0686Additional information in the notification, e.g. enhancement of specific meta-data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0894Policy-based network configuration management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0895Configuration of virtualised networks or elements, e.g. virtualised network function or OpenFlow elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/40Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using virtualisation of network functions or resources, e.g. SDN or NFV entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45595Network integration; Enabling network access in virtual machine instances
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0896Bandwidth or capacity management, i.e. automatically increasing or decreasing capacities
    • H04L41/0897Bandwidth or capacity management, i.e. automatically increasing or decreasing capacities by horizontal or vertical scaling of resources, or by migrating entities, e.g. virtual resources or entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种故障管理方法,能够实现NFV环境下的故障上报及处理。该方法包括:获取网络功能虚拟化基础设施NFVI实体的包含故障实体标识和故障类型的第一故障信息,第一故障信息用于指示具有故障实体标识的第一NFVI实体发生故障;根据第一故障信息生成第一故障综合信息,第一故障综合信息包含第一故障信息和第一故障信息的关联故障信息;根据第一故障综合信息进行故障修复或上报处理。本发明实施例通过获取硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。

Description

故障管理的存储介质
技术领域
本发明涉及通信领域,并且更具体地,涉及故障管理的存储介质。
背景技术
网络功能虚拟化(Network Function Virtulization,NFV)旨在利用通用的高性能大容量服务器、交换机和存储设备来实现一些网络功能的软件化。NFV端到端(End toEnd,E2E)架构相对于原有的普通虚拟环境增加了许多软件实例和管理实体,例如虚拟网络功能(Virtual Network Function,VNF)实例/实体,虚拟化基础设施管理器(Virtualization Management System,VIM)实体,VNF管理器实体等等,使得NFV环境比普通虚拟环境更加复杂。普通虚拟环境下的故障上报及处理方法无法适用于NFV环境。因此,需要考虑在复杂的NFV环境下如何进行故障上报及处理。
发明内容
本发明实施例提供一种故障管理方法,能够实现NFV环境下的故障上报及处理。
第一方面,提供了一种故障管理方法,包括:虚拟化基础设施管理器VIM获取网络功能虚拟化基础设施NFVI实体的包含故障实体标识和故障类型的第一故障信息,所述第一故障信息用于指示具有所述故障实体标识的第一NFVI实体发生故障;所述VIM根据所述第一故障信息生成第一故障综合信息,所述第一故障综合信息包含所述第一故障信息和所述第一故障信息的关联故障信息;所述VIM根据所述第一故障综合信息进行故障修复或上报处理。
结合第一方面,在其第一种实现方式中,所述VIM获取NFVI实体的包含故障实体标识和故障类型的第一故障信息,包括:接收所述第一NFVI实体发送的所述第一故障信息;或者确定所述第一NFVI实体发生故障,并根据所述第一NFVI实体发生的故障生成所述第一故障信息。
结合第一方面及其上述实现方式,在其第二种实现方式中,所述第一NFVI实体为所述NFVI实体中的任意一个硬件HW、主操作系统Host OS、虚拟机管理器或虚拟机VM实体,所述VIM根据所述第一故障信息生成第一故障综合信息,包括:确定与所述第一NFVI实体相关联的NFVI实体发送的故障信息为所述第一故障信息的关联故障信息;生成包含有所述第一故障信息和所述关联故障信息的第一故障综合信息。
结合第一方面及其上述实现方式,在其第三种实现方式中,所述VIM根据所述第一故障综合信息进行故障修复或上报处理,包括:根据所述第一故障综合信息中的第一故障信息的故障类型或者所述关联故障信息的故障类型,确定所述VIM是否包含与所述第一故障信息的故障类型或者所述关联故障信息的故障类型相对应的故障修复策略;在所述VIM包含与所述第一故障信息的故障类型或者所述关联故障信息的故障类型相对应的故障修复策略时,根据所述故障修复策略修复所述第一NFVI实体和/或与所述第一NFVI实体相关联的NFVI实体的故障;或者在所述VIM不包含与所述第一故障信息的故障类型或者所述关联故障信息的故障类型相对应的故障修复策略时,向VNFM发送所述第一故障综合信息或者向编排器发送所述第一故障综合信息。
结合第一方面及其上述实现方式,在其第四种实现方式中,所述根据所述第一故障综合信息中的第一故障信息的故障类型或者所述关联故障信息的故障类型,确定所述VIM是否包含与所述第一故障信息的故障类型或者所述关联故障信息的故障类型相对应的故障修复策略,包括:在所述第一NFVI实体和与所述第一NFVI实体相关联的NFVI实体中确定优先级最高的NFVI实体,其中,HW的优先级高于Host OS的优先级,Host OS的优先级高于虚拟机管理器的优先级,虚拟机管理器的优先级高于VM的优先级;根据所述优先级最高的NFVI实体的故障类型确定所述VIM是否包含相对应的故障修复策略;在所述VIM包含与所述优先级最高的NFVI实体的故障类型相对应的故障修复策略时,根据所述故障修复策略修复所述优先级最高的NFVI实体的故障。
结合第一方面及其上述实现方式,在其第五种实现方式中,所述根据所述故障修复策略修复所述第一NFVI实体和/或与所述第一NFVI实体相关联的NFVI实体的故障之后,还包括:在所述故障修复成功时,向所述编排器发送成功指示消息;在所述故障修复失败时,向所述VNFM发送所述第一故障综合信息或者向所述编排器发送所述第一故障综合信息。
结合第一方面及其上述实现方式,在其第六种实现方式中,所述向VNFM发送所述第一故障综合信息之后,还包括:接收所述VNFM发送的用于指示所述VNFM无法处理所述第一故障综合信息的指示消息;向编排器发送所述第一故障综合信息。
结合第一方面及其上述实现方式,在其第七种实现方式中,所述向编排器发送所述第一故障综合信息之前,还包括:向VNFM请求与所述第一NFVI实体相关联的VNF实体的故障信息;将所述与所述第一NFVI实体相关联的VNF实体的故障信息加入所述第一故障综合信息。
结合第一方面及其上述实现方式,在其第八种实现方式中,所述方法还包括:接收所述VNFM发送的请求信息,所述请求信息用于向所述VIM请求与发生故障的VNF实体相关联的NFVI实体的故障信息;向所述VNFM发送所述与发生故障的VNF实体相关联的NFVI实体的故障信息。
结合第一方面及其上述实现方式,在其第九种实现方式中,所述VIM根据所述第一故障信息生成第一故障综合信息之后,还包括:根据所述第一故障综合信息检测所述VIM是否包含与所述第一故障综合信息相同的故障综合信息;在所述VIM包含与所述第一故障综合信息相同的故障综合信息时,删除所述第一故障综合信息。
结合第一方面及其上述实现方式,在其第十种实现方式中,所述第一故障信息还被用于向运营和业务支撑系统OSS/BSS上报,以便于所述OSS/BSS监控并呈现所述第一故障信息。
结合第一方面及其上述实现方式,在其第十一种实现方式中,所述第一故障信息还包括以下至少一项:运行状态、故障时间;所述第一故障综合信息还包括故障状态信息,所述故障状态包含未处理,处理中,已修复和未修复中的至少一种。
第二方面,提供了一种故障管理方法,包括:虚拟网络功能管理器VNFM获取虚拟网络功能VNF实体的包含故障实体标识和故障类型的第二故障信息,所述第二故障信息用于指示具有所述故障实体标识的第一VNF实体发生故障;所述VNFM根据所述第二故障信息生成第二故障综合信息;所述VNFM根据所述第二故障综合信息进行故障修复或上报处理。
结合第二方面,在其第一种实现方式中,所述VNFM获取VNF实体的包含故障实体标识和故障类型的第二故障信息,包括:接收所述第一VNF实体发送的所述第二故障信息;或者确定所述第一VNF实体发生故障,并根据所述第一VNF实体发生的故障生成所述第二故障信息。
结合第二方面及其上述实现方式,在其第二种实现方式中,所述VNFM根据所述第二故障信息生成第二故障综合信息,包括:确定与所述第一VNF实体相关联的VNF实体发送的故障信息为所述第二故障信息的关联故障信息;生成包含有所述第二故障信息和所述关联故障信息的第二故障综合信息。
结合第二方面及其上述实现方式,在其第三种实现方式中,所述VNFM根据所述第二故障综合信息进行故障修复或上报处理,包括:根据所述第二故障综合信息中的第二故障信息的故障类型或者所述关联故障信息的故障类型,确定所述VNFM是否包含与所述第二故障信息的故障类型或者所述关联故障信息的故障类型相对应的故障修复策略;在所述VNFM包含与所述第二故障信息的故障类型或者所述关联故障信息的故障类型相对应的故障修复策略时,根据所述故障修复策略修复所述第一VNF实体和/或与所述第一VNF实体相关联的VNF实体的故障;或者在所述VNFM不包含与所述第二故障信息的故障类型或者所述关联故障信息的故障类型相对应的故障修复策略时,向编排器发送所述第二故障综合信息。
结合第二方面及其上述实现方式,在其第四种实现方式中,所述根据所述故障修复策略修复所述第一VNF实体和/或与所述第一VNF实体相关联的VNF实体的故障之后,还包括:在所述故障修复成功时,向所述编排器发送成功指示消息;在所述故障修复失败时,向所述编排器发送所述第二故障综合信息。
结合第二方面及其上述实现方式,在其第五种实现方式中,所述向所述编排器发送所述第二故障综合信息之前,还包括:向虚拟化基础设施管理器VIM请求与所述第一VNF实体相关联的NFVI实体的故障信息,其中所述NFVI实体为所述NFVI中的任意一个硬件HW、主操作系统Host OS、虚拟机管理器或虚拟机VM实体;将所述与所述第一VNF实体相关联的NFVI实体的故障信息加入所述第二故障综合信息。
结合第二方面及其上述实现方式,在其第六种实现方式中,所述方法还包括:接收VIM发送的第一故障综合信息,所述第一故障综合信息包含所述第一故障信息和所述第一故障信息的关联故障信息,所述第一故障信息用于指示第一NFVI实体发生故障;确定所述VNFM是否包含与所述第一故障综合信息中的第一故障信息的故障类型或者所述关联故障信息的故障类型相对应的故障修复策略;在所述VNFM包含与所述第一故障信息的故障类型或者所述关联故障信息的故障类型相对应的故障修复策略时,根据所述故障修复策略修复所述第一NFVI实体和/或与所述第一NFVI实体相关联的NFVI实体的故障;或者在所述VNFM不包含与所述第一故障信息的故障类型或者所述关联故障信息的故障类型相对应的故障修复策略时,向编排器发送所述第一故障综合信息,或者向所述VIM发送用于指示所述VNFM无法处理所述第一故障综合信息的指示消息,以便于所述VIM向所述编排器发送所述第一故障综合信息。
结合第二方面及其上述实现方式,在其第七种实现方式中,所述接收VIM发送的第一故障综合信息之后,还包括:根据所述第一故障综合信息确定与所述第一NFVI实体和/或与所述第一NFVI实体相关联的NFVI实体相关联的所述第一VNF实体的故障信息;将所述第一VNF实体的故障信息加入所述第一故障综合信息,以便于所述VNFM对所述第一故障综合信息进行修复或上报处理。
结合第二方面及其上述实现方式,在其第八种实现方式中,所述VNFM根据所述第二故障综合信息进行修复或上报处理之后,还包括:根据所述第二故障综合信息检测所述VNFM是否包含与所述第二故障综合信息相同的故障综合信息;在所述VNFM包含与所述第二故障综合信息相同的故障综合信息时,删除所述第二故障综合信息。
结合第二方面及其上述实现方式,在其第九种实现方式中,所述方法还包括:接收所述VIM发送的请求信息,所述请求信息用于向所述VNFM请求与发生故障的NFVI实体相关联的VNF实体的故障信息;向所述VIM发送所述与发生故障的NFVI实体相关联的VNF实体的故障信息。
结合第二方面及其上述实现方式,在其第十种实现方式中,所述第二故障信息还被用于向运营和业务支撑系统OSS/BSS上报,以便于所述OSS/BSS监控并呈现所述第二故障信息。
结合第二方面及其上述实现方式,在其第十一种实现方式中,所述第二故障信息还包括以下至少一项:运行状态、故障时间;所述第二故障综合信息还包括故障状态信息,所述故障状态包含未处理,处理中,已修复和未修复中的至少一种。
第三方面,提供了一种故障管理方法,包括:编排器接收虚拟化基础设施管理器VIM发送的第一故障综合信息,其中,所述第一故障综合信息包括第一故障信息,所述第一故障信息包含故障实体标识和故障类型,所述第一故障信息用于指示具有所述故障实体标识的第一网络功能虚拟化基础设施NFVI实体发生故障;所述编排器根据所述第一故障综合信息进行故障修复或上报处理。
结合第三方面,在其第一种实现方式中,所述第一故障综合信息还包括:与所述第一NFVI实体相关联的NFVI实体的故障信息;和/或与所述第一NFVI实体相关联的虚拟网络功能VNF实体的故障信息。
结合第三方面及其上述实现方式,在其第二种实现方式中,所述编排器根据所述第一故障综合信息进行故障修复或上报处理,包括:根据所述第一故障综合信息中的故障类型,确定所述编排器是否包含与所述故障类型相对应的故障修复策略;在所述编排器包含与所述故障类型相对应的故障修复策略时,根据所述故障修复策略修复所述第一NFVI实体和/或与所述第一NFVI实体相关联的NFVI实体的故障;或者在所述编排器不包含与所述故障类型相对应的故障修复策略时,向运营和业务支撑系统OSS/BSS发送所述第一故障综合信息。
结合第三方面及其上述实现方式,在其第三种实现方式中,所述编排器根据所述第一故障综合信息进行故障修复或上报处理,包括:根据所述第一故障综合信息中的故障类型,确定所述编排器是否包含与所述故障类型相对应的故障修复策略;在所述编排器包含与所述故障类型相对应的故障修复策略时,根据所述故障修复策略修复所述第一NFVI实体和与所述第一NFVI实体相关联的NFVI实体的故障和与所述第一NFVI实体相关联的VNF实体的故障;或者在所述编排器不包含与所述故障类型相对应的故障修复策略时,向OSS/BSS发送所述第一故障综合信息。
结合第三方面及其上述实现方式,在其第四种实现方式中,所述编排器根据所述第一故障综合信息进行故障修复或上报处理之前,还包括:根据所述第一故障综合信息检测所述编排器是否包含与所述第一故障综合信息相同的故障综合信息;在所述编排器包含与所述第一故障综合信息相同的故障综合信息时,删除所述第一故障综合信息。
结合第三方面及其上述实现方式,在其第五种实现方式中,所述第一故障信息还包括以下至少一项:运行状态、故障时间;所述第一故障综合信息还包括故障状态信息,所述故障状态包含未处理,处理中,已修复和未修复中的至少一种。
第四方面,提供了一种故障管理方法,包括:编排器接收虚拟网络功能管理器VNFM发送的第二故障综合信息,其中,所述第二故障综合信息包括第二故障信息,所述第二故障信息包含故障实体标识和故障类型,所述第二故障信息用于指示具有所述故障实体标识的第一虚拟网络功能VNF实体发生故障;所述编排器根据所述第二故障综合信息进行故障修复或上报处理。
结合第四方面,在其第一种实现方式中,所述第二故障综合信息还包括:与所述第一VNF实体相关联的VNF实体的故障信息;和/或与所述第一VNF实体相关联的虚拟化基础设施管理NFVI实体的故障信息。
结合第四方面及其上述实现方式,在其第二种实现方式中,所述编排器根据所述第二故障综合信息进行故障修复或上报处理,包括:根据所述第二故障综合信息中的故障类型,确定所述编排器是否包含与所述故障类型相对应的故障修复策略;在所述编排器包含与所述故障类型相对应的故障修复策略时,根据所述故障修复策略修复所述第一VNF实体和/或与所述第一VNF实体相关联的VNF实体的故障;或者在所述编排器不包含与所述故障类型相对应的故障修复策略时,向运营和业务支撑系统OSS/BSS发送所述第二故障综合信息。
结合第四方面及其上述实现方式,在其第三种实现方式中,所述编排器根据所述第二故障综合信息进行故障修复或上报处理,包括:根据所述第二故障综合信息中的故障类型,确定所述编排器是否包含与所述故障类型相对应的故障修复策略;在所述编排器包含与所述故障类型相对应的故障修复策略时,根据所述故障修复策略修复所述第一VNF实体和与所述第一VNF实体相关联的VNF实体的故障和与所述第一VNF实体相关联的NFVI实体的故障;或者在所述编排器不包含与所述故障类型相对应的故障修复策略时,向OSS/BSS发送所述第二故障综合信息。
结合第四方面及其上述实现方式,在其第四种实现方式中,所述编排器根据所述第二故障综合信息进行故障修复或上报处理之前,还包括:根据所述第二故障综合信息检测所述编排器是否包含与所述第二故障综合信息相同的故障综合信息;在所述编排器包含与所述第二故障综合信息相同的故障综合信息时,删除所述第二故障综合信息。
结合第四方面及其上述实现方式,在其第五种实现方式中,所述第二故障信息还包括以下至少一项:运行状态、故障时间;所述第二故障综合信息还包括故障状态信息,所述故障状态包含未处理,处理中,已修复和未修复中的至少一种。
第五方面,提供了一种虚拟化基础设施管理器,包括:获取单元,用于获取网络功能虚拟化基础设施NFVI实体的包含故障实体标识和故障类型的第一故障信息,所述第一故障信息用于指示具有所述故障实体标识的第一NFVI实体发生故障;生成单元,用于根据所述第一故障信息生成第一故障综合信息,所述第一故障综合信息包含所述第一故障信息和所述第一故障信息的关联故障信息;处理单元,用于所述VIM根据所述第一故障综合信息进行故障修复或上报处理。
结合第五方面,在其第一种实现方式中,所述管理器还包括确定单元和接收单元,所述获取单元具体用于:通过所述接收单元接收所述第一NFVI实体发送的所述第一故障信息;或者通过所述确定单元确定所述第一NFVI实体发生故障,并根据所述第一NFVI实体发生的故障生成所述第一故障信息。
结合第五方面及其上述实现方式,在其第二种实现方式中,所述第一NFVI实体为所述NFVI实体中的任意一个硬件HW、主操作系统Host OS、虚拟机管理器或虚拟机VM实体,所述生成单元具体用于:通过所述确定单元确定与所述第一NFVI实体相关联的NFVI实体发送的故障信息为所述第一故障信息的关联故障信息;生成包含有所述第一故障信息和所述关联故障信息的第一故障综合信息。
结合第五方面及其上述实现方式,在其第三种实现方式中,所述处理单元包括发送单元,所述处理单元具体用于:根据所述第一故障综合信息中的第一故障信息的故障类型或者所述关联故障信息的故障类型,通过所述确定单元确定所述VIM是否包含与所述第一故障信息的故障类型或者所述关联故障信息的故障类型相对应的故障修复策略;在所述VIM包含与所述第一故障信息的故障类型或者所述关联故障信息的故障类型相对应的故障修复策略时,根据所述故障修复策略修复所述第一NFVI实体和/或与所述第一NFVI实体相关联的NFVI实体的故障;或者在所述VIM不包含与所述第一故障信息的故障类型或者所述关联故障信息的故障类型相对应的故障修复策略时,通过所述发送单元向VNFM发送所述第一故障综合信息或者向编排器发送所述第一故障综合信息。
结合第五方面及其上述实现方式,在其第四种实现方式中,所述处理单元具体用于:通过所述确定单元在所述第一NFVI实体和与所述第一NFVI实体相关联的NFVI实体中确定优先级最高的NFVI实体,其中,HW的优先级高于Host OS的优先级,Host OS的优先级高于虚拟机管理器的优先级,虚拟机管理器的优先级高于VM的优先级;根据所述优先级最高的NFVI实体的故障类型,通过所述确定单元确定所述VIM是否包含相对应的故障修复策略;在所述VIM包含与所述优先级最高的NFVI实体的故障类型相对应的故障修复策略时,根据所述故障修复策略修复所述优先级最高的NFVI实体的故障。
结合第五方面及其上述实现方式,在其第五种实现方式中,所述发送单元具体用于:在所述故障修复成功时,向所述编排器发送成功指示消息;在所述故障修复失败时,向所述VNFM发送所述第一故障综合信息或者向所述编排器发送所述第一故障综合信息。
结合第五方面及其上述实现方式,在其第六种实现方式中,所述接收单元还用于:接收所述VNFM发送的用于指示所述VNFM无法处理所述第一故障综合信息的指示消息;所述发送单元还用于:向编排器发送所述第一故障综合信息。
结合第五方面及其上述实现方式,在其第七种实现方式中,所述处理单元还用于:向VNFM请求与所述第一NFVI实体相关联的VNF实体的故障信息;将所述与所述第一NFVI实体相关联的VNF实体的故障信息加入所述第一故障综合信息。
结合第五方面及其上述实现方式,在其第八种实现方式中,所述接收单元还用于:接收所述VNFM发送的请求信息,所述请求信息用于向所述VIM请求与发生故障的VNF实体相关联的NFVI实体的故障信息;所述发送单元还用于向所述VNFM发送所述与发生故障的VNF实体相关联的NFVI实体的故障信息。
结合第五方面及其上述实现方式,在其第九种实现方式中,所述管理器还包括检测单元和删除单元,所述检测单元具体用于:根据所述第一故障综合信息检测所述VIM是否包含与所述第一故障综合信息相同的故障综合信息;所述删除单元具体用于在所述VIM包含与所述第一故障综合信息相同的故障综合信息时,删除所述第一故障综合信息。
第六方面,提供了一种虚拟网络功能管理器,包括:获取单元,用于获取虚拟网络功能VNF实体的包含故障实体标识和故障类型的第二故障信息,所述第二故障信息用于指示具有所述故障实体标识的第一VNF实体发生故障;生成单元,用于根据所述第二故障信息生成第二故障综合信息;处理单元,用于根据所述第二故障综合信息进行故障修复或上报处理。
结合第六方面,在其第一种实现方式中,所述管理器还包括确定单元和接收单元,所述获取单元具体用于:通过所述接收单元接收所述第一VNF实体发送的所述第二故障信息;或者通过所述确定单元确定所述第一VNF实体发生故障,并根据所述第一VNF实体发生的故障通过所述生成单元生成所述第二故障信息。
结合第六方面及其上述实现方式,在其第二种实现方式中,所述生成单元具体用于:通过所述确定单元确定与所述第一VNF实体相关联的VNF实体发送的故障信息为所述第二故障信息的关联故障信息;生成包含有所述第二故障信息和所述关联故障信息的第二故障综合信息。
结合第六方面及其上述实现方式,在其第三种实现方式中,所述处理单元包括发送单元,所述处理单元具体用于:根据所述第二故障综合信息中的第二故障信息的故障类型或者所述关联故障信息的故障类型,通过所述确定单元确定所述VNFM是否包含与所述第二故障信息的故障类型或者所述关联故障信息的故障类型相对应的故障修复策略;在所述VNFM包含与所述第二故障信息的故障类型或者所述关联故障信息的故障类型相对应的故障修复策略时,根据所述故障修复策略修复所述第一VNF实体和/或与所述第一VNF实体相关联的VNF实体的故障;或者在所述VNFM不包含与所述第二故障信息的故障类型或者所述关联故障信息的故障类型相对应的故障修复策略时,通过所述发送单元向编排器发送所述第二故障综合信息。
结合第六方面及其上述实现方式,在其第四种实现方式中,所述发送单元具体用于:在所述故障修复成功时,向所述编排器发送成功指示消息;在所述故障修复失败时,向所述编排器发送所述第二故障综合信息。
结合第六方面及其上述实现方式,在其第五种实现方式中,所述处理单元还用于:向虚拟化基础设施管理器VIM请求与所述第一VNF实体相关联的NFVI实体的故障信息,其中所述NFVI实体为所述NFVI中的任意一个硬件HW、主操作系统Host OS、虚拟机管理器或虚拟机VM实体;将所述与所述第一VNF实体相关联的NFVI实体的故障信息加入所述第二故障综合信息。
结合第六方面及其上述实现方式,在其第六种实现方式中,所述处理单元还用于:接收VIM发送的第一故障综合信息,所述第一故障综合信息包含所述第一故障信息和所述第一故障信息的关联故障信息,所述第一故障信息用于指示第一NFVI实体发生故障;确定所述VNFM是否包含与所述第一故障综合信息中的第一故障信息的故障类型或者所述关联故障信息的故障类型相对应的故障修复策略;在所述VNFM包含与所述第一故障信息的故障类型或者所述关联故障信息的故障类型相对应的故障修复策略时,根据所述故障修复策略修复所述第一NFVI实体和/或与所述第一NFVI实体相关联的NFVI实体的故障;或者在所述VNFM不包含与所述第一故障信息的故障类型或者所述关联故障信息的故障类型相对应的故障修复策略时,向编排器发送所述第一故障综合信息,或者向所述VIM发送用于指示所述VNFM无法处理所述第一故障综合信息的指示消息,以便于所述VIM向所述编排器发送所述第一故障综合信息。
结合第六方面及其上述实现方式,在其第七种实现方式中,所述处理单元还具体用于:根据所述第一故障综合信息确定与所述第一NFVI实体和/或与所述第一NFVI实体相关联的NFVI实体相关联的所述第一VNF实体的故障信息;将所述第一VNF实体的故障信息加入所述第一故障综合信息,以便于所述VNFM对所述第一故障综合信息进行修复或上报处理。
结合第六方面及其上述实现方式,在其第八种实现方式中,所述管理器还包括检测单元和删除单元,所述检测单元具体用于:根据所述第二故障综合信息检测所述VNFM是否包含与所述第二故障综合信息相同的故障综合信息;所述删除单元具体用于在所述VNFM包含与所述第二故障综合信息相同的故障综合信息时,删除所述第二故障综合信息。
结合第六方面及其上述实现方式,在其第九种实现方式中,所述接收单元还用于:接收所述VIM发送的请求信息,所述请求信息用于向所述VNFM请求与发生故障的NFVI实体相关联的VNF实体的故障信息;所述发送单元还用于:向所述VIM发送所述与发生故障的NFVI实体相关联的VNF实体的故障信息。
第七方面,提供了一种编排器,包括:接收单元,用于接收虚拟化基础设施管理器VIM发送的第一故障综合信息,其中,所述第一故障综合信息包括第一故障信息,所述第一故障信息包含故障实体标识和故障类型,所述第一故障信息用于指示具有所述故障实体标识的第一网络功能虚拟化基础设施NFVI实体发生故障;处理单元,用于根据所述第一故障综合信息进行故障修复或上报处理。
结合第七方面,在其第一种实现方式中,所述第一故障综合信息还包括:与所述第一NFVI实体相关联的NFVI实体的故障信息;和/或与所述第一NFVI实体相关联的虚拟网络功能VNF实体的故障信息。
结合第七方面及其上述实现方式,在其第二种实现方式中,所述处理单元具体用于:根据所述第一故障综合信息中的故障类型,确定所述编排器是否包含与所述故障类型相对应的故障修复策略;在所述编排器包含与所述故障类型相对应的故障修复策略时,根据所述故障修复策略修复所述第一NFVI实体和/或与所述第一NFVI实体相关联的NFVI实体的故障;或者在所述编排器不包含与所述故障类型相对应的故障修复策略时,向运营和业务支撑系统OSS/BSS发送所述第一故障综合信息。
结合第七方面及其上述实现方式,在其第三种实现方式中,所述处理单元具体用于:根据所述第一故障综合信息中的故障类型,确定所述编排器是否包含与所述故障类型相对应的故障修复策略;在所述编排器包含与所述故障类型相对应的故障修复策略时,根据所述故障修复策略修复所述第一NFVI实体和与所述第一NFVI实体相关联的NFVI实体的故障和与所述第一NFVI实体相关联的VNF实体的故障;或者在所述编排器不包含与所述故障类型相对应的故障修复策略时,向OSS/BSS发送所述第一故障综合信息。
结合第七方面及其上述实现方式,在其第四种实现方式中,所述编排器还包括检测单元和删除单元,所述检测单元用于:根据所述第一故障综合信息检测所述编排器是否包含与所述第一故障综合信息相同的故障综合信息;所述删除单元用于在所述编排器包含与所述第一故障综合信息相同的故障综合信息时,删除所述第一故障综合信息。
第八方面,提供了一种编排器,包括:接收单元,用于接收虚拟网络功能管理器VNFM发送的第二故障综合信息,其中,所述第二故障综合信息包括第二故障信息,所述第二故障信息包含故障实体标识和故障类型,所述第二故障信息用于指示具有所述故障实体标识的第一虚拟网络功能VNF实体发生故障;处理单元,用于根据所述第二故障综合信息进行故障修复或上报处理。
结合第八方面,在其第一种实现方式中,所述第二故障综合信息还包括:与所述第一VNF实体相关联的VNF实体的故障信息;和/或与所述第一VNF实体相关联的虚拟化基础设施管理NFVI实体的故障信息。
结合第八方面及其上述实现方式,在其第二种实现方式中,所述处理单元具体用于:根据所述第二故障综合信息中的故障类型,确定所述编排器是否包含与所述故障类型相对应的故障修复策略;在所述编排器包含与所述故障类型相对应的故障修复策略时,根据所述故障修复策略修复所述第一VNF实体和/或与所述第一VNF实体相关联的VNF实体的故障;或者在所述编排器不包含与所述故障类型相对应的故障修复策略时,向运营和业务支撑系统OSS/BSS发送所述第二故障综合信息。
结合第八方面及其上述实现方式,在其第三种实现方式中,所述处理单元具体用于:根据所述第二故障综合信息中的故障类型,确定所述编排器是否包含与所述故障类型相对应的故障修复策略;在所述编排器包含与所述故障类型相对应的故障修复策略时,根据所述故障修复策略修复所述第一VNF实体和与所述第一VNF实体相关联的VNF实体的故障和与所述第一VNF实体相关联的NFVI实体的故障;或者在所述编排器不包含与所述故障类型相对应的故障修复策略时,向OSS/BSS发送所述第二故障综合信息。
结合第八方面及其上述实现方式,在其第四种实现方式中,所述编排器还包括检测单元和删除单元,所述检测单元用于:根据所述第二故障综合信息检测所述编排器是否包含与所述第二故障综合信息相同的故障综合信息;所述删除单元用于在所述编排器包含与所述第二故障综合信息相同的故障综合信息时,删除所述第二故障综合信息。
本发明实施例提供了一种故障管理方法,通过VIM和VNFM获取硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明网络功能虚拟化NFV的系统架构图。
图2是本发明一个实施例的故障管理的方法的流程图。
图3是本发明一个实施例的故障管理的方法的流程图。
图4是本发明一个实施例的故障管理的方法的流程图。
图5是本发明一个实施例的故障管理的方法的流程图。
图6a是本发明一个实施例的故障管理的方法的交互图。
图6b是本发明一个实施例的实体之间的关联关系的示意图。
图7是本发明另一实施例的故障管理的方法的交互图。
图8是本发明另一实施例的故障管理的方法的交互图。
图9是本发明另一实施例的故障管理的方法的交互图。
图10是本发明另一实施例的故障管理的方法的交互图。
图11是本发明一个实施例的虚拟化基础设施管理VIM实体的示意框图。
图12是本发明一个实施例的虚拟网络功能管理VNFM实体的示意框图。
图13是本发明一个实施例的编排器Orchestrator实体的示意框图。
图14是本发明另一实施例的VIM实体的示意框图。
图15是本发明另一实施例的VNFM实体的示意框图。
图16是本发明另一实施例的Orchestrator实体的示意框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
图1是本发明网络功能虚拟化NFV的系统架构图。
在网络功能虚拟化(Network Function Virtualization,NFV)端到端(End toEnd,E2E)架构中,网络功能虚拟化基础设施(Network Function VirtualizationInfrastructure,NFVI)包含底层硬件(Hardware,HW)资源,具体可分为计算硬件、存储硬件、网络硬件等等。硬件层之上为虚拟化层(Virtualization Layer),包括主操作系统(Host Operating System,Host OS)和超级管理程序/虚拟机管理器(Hypervisor),在虚拟化层之上运行有多个虚拟机(Virtual Machine,VM)。其中,HW和Hypervisor通过网元管理系统(Element Management System,EMS)与运营和业务支撑系统(Operation andBusiness Support System,OSS/BSS)相连。在NFVI之上有多个网络虚拟功能(VirtualNetwork Function,VNF)实例通过vEMS与OSS/BSS相连。
NFVI通过Nf-Vi接口与虚拟化基础设施管理器(Virtualization InfrastructureManager,VIM)相连,VNF通过Ve-Vnfm接口与VNF管理器(VNFM)相连,VIM与VNFM之间通过Vi-Vnfm接口相连。NFVI通过Or-Vi与编排器Orchestrator相连,VNFM通过Or-Vnfm与Orchestrator相连,Orchestrator通过Os-Ma接口与OSS/BSS相连。
其中,OSS/BSS用于向Orchestrator发起服务请求,Orchestrator负责根据OSS/BSS服务请求,编排管理资源,实现NFV服务,并实时检测VNF、NFVI资源及运行状态信息。VNFM负责VNF生命周期管理,如启动、生存时间、检测收集VNF的运行状态信息。VIM负责管理、分配NFVI的资源,检测收集NFVI运行状态信息。
图2是本发明一个实施例的故障管理的方法的流程图。图2的方法由VIM执行。
201,虚拟化基础设施管理器VIM获取网络功能虚拟化基础设施NFVI实体的包含故障实体标识和故障类型的第一故障信息,第一故障信息用于指示具有故障实体标识的第一NFVI实体发生故障。
202,VIM根据第一故障信息生成第一故障综合信息,第一故障综合信息包含第一故障信息和第一故障信息的关联故障信息。
203,VIM根据第一故障综合信息进行故障修复或上报处理。
本发明实施例提供的故障管理方法,通过VIM获取硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。
可选地,作为一个实施例,步骤201包括:接收第一NFVI实体发送的第一故障信息;或者确定第一NFVI实体发生故障,并根据第一NFVI实体发生的故障生成第一故障信息。也就是说,VIM可以被动接受发生故障的实体的故障信息,也可以在检测到故障后主动生成故障信息。
可选地,作为一个实施例,第一NFVI实体为NFVI实体中的任意一个硬件HW、主操作系统Host OS、虚拟机管理器或虚拟机VM实体,步骤202包括:确定与第一NFVI实体相关联的NFVI实体发送的故障信息为第一故障信息的关联故障信息;生成包含有第一故障信息和关联故障信息的第一故障综合信息。由于某些HW、Host OS、Hypervisor和VM实体之间具有关联关系,因此其中的第一NFVI实体发生故障时,可能与第一NFVI具有关联关系的其他NFVI实体也发生故障。VIM可以收集所有相关的故障信息以便于进行统一地综合处理。
可选地,作为一个实施例,步骤203,包括:根据第一故障综合信息中的第一故障信息的故障类型或者关联故障信息的故障类型,确定VIM是否包含与第一故障信息的故障类型或者关联故障信息的故障类型相对应的故障修复策略;在VIM包含与第一故障信息的故障类型或者关联故障信息的故障类型相对应的故障修复策略时,根据故障修复策略修复第一NFVI实体和/或与第一NFVI实体相关联的NFVI实体的故障;或者在VIM不包含与第一故障信息的故障类型或者关联故障信息的故障类型相对应的故障修复策略时,向VNFM发送第一故障综合信息或者向编排器发送第一故障综合信息。
具体地,生成故障综合信息后,VIM首先需要确定VIM本地是否能够处理该故障综合信息。如果能够处理则对故障综合信息所涉及的NFVI实体中的一个进行故障修复。如果无法处理或者修复失败则进行上报处理。
可选地,作为一个实施例,根据第一故障综合信息中的第一故障信息的故障类型或者关联故障信息的故障类型,确定VIM是否包含与第一故障信息的故障类型或者关联故障信息的故障类型相对应的故障修复策略,包括:在第一NFVI实体和与第一NFVI实体相关联的NFVI实体中确定优先级最高的NFVI实体,其中,HW的优先级高于Host OS的优先级,Host OS的优先级高于虚拟机管理器的优先级,虚拟机管理器的优先级高于VM的优先级;根据优先级最高的NFVI实体的故障类型确定VIM是否包含相对应的故障修复策略;在VIM包含与优先级最高的NFVI实体的故障类型相对应的故障修复策略时,根据故障修复策略修复优先级最高的NFVI实体的故障。
可选地,作为一个实施例,根据故障修复策略修复第一NFVI实体和/或与第一NFVI实体相关联的NFVI实体的故障之后,还可以包括:在故障修复成功时,向编排器发送成功指示消息;在故障修复失败时,向VNFM发送第一故障综合信息或者向编排器发送第一故障综合信息。其中,成功指示消息可以是运行状态置为“正常”的故障信息,也可以是其他形式的用于指示修复成功的消息。本发明对此不作限定。
可选地,作为一个实施例,向VNFM发送第一故障综合信息之后,还包括:接收VNFM发送的用于指示VNFM无法处理第一故障综合信息的指示消息;向编排器发送第一故障综合信息。在VIM无法处理第一故障综合信息并上报给VNFM的情况下,如果VNFM也无法处理,则VNFM继续将第一故障综合信息上报给Orchestrator。
可选地,作为一个实施例,向编排器发送第一故障综合信息之前,还包括:向VNFM请求与第一NFVI实体相关联的VNF实体的故障信息;将与第一NFVI实体相关联的VNF实体的故障信息加入第一故障综合信息。在VIM无法处理第一故障综合信息,或者修复失败时,可以向VNFM发起请求,以获取与发生故障的NFVI实体相关联的VNF实体的故障信息,综合上报,以便于上层管理实体能够进行综合处理。
可选地,作为一个实施例,该方法还包括:接收VNFM发送的请求信息,请求信息用于向VIM请求与发生故障的VNF实体相关联的NFVI实体的故障信息;向VNFM发送与发生故障的VNF实体相关联的NFVI实体的故障信息。具体地,在VNFM无法处理VNF实体的故障综合信息时同样可以向VIM请求相关的NFVI故障信息,综合上报,以便于上层管理实体能够进行综合处理。
可选地,作为一个实施例,VIM根据第一故障信息生成第一故障综合信息之后,还包括:根据第一故障综合信息检测VIM是否包含与第一故障综合信息相同的故障综合信息;在VIM包含与第一故障综合信息相同的故障综合信息时,删除第一故障综合信息。
具体地,由于多个具有关联关系的NFVI实体发生关联性故障时,VIM会获取到多个相同的故障综合信息,这里的相同指的是故障综合信息中的故障信息内容相同,此时,VIM可以进行重复报警检测。对于正在进行处理的故障综合信息继续处理,对于未处理的相同的故障综合信息做删除处理。
可选地,作为一个实施例,第一故障信息还被用于向运营和业务支撑系统OSS/BSS上报,以便于OSS/BSS监控并呈现第一故障信息。
可选地,作为一个实施例,第一故障信息还包括以下至少一项:运行状态、故障时间;第一故障综合信息还包括故障状态信息,故障状态包含未处理,处理中,已修复和未修复中的至少一种。
本发明实施例提供的故障管理方法,通过VIM获取硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。此外,由于对相关联的故障信息进行综合处理,并且通过重复报警检测对相同的故障综合信息进行删除处理,从而提高了故障处理的效率和准确度。
图3是本发明一个实施例的故障管理的方法的流程图。图3的方法由VNFM执行。
301,虚拟网络功能管理器VNFM获取虚拟网络功能VNF实体的包含故障实体标识和故障类型的第二故障信息,第二故障信息用于指示具有故障实体标识的第一VNF实体发生故障。
302,VNFM根据第二故障信息生成第二故障综合信息。
303,VNFM根据第二故障综合信息进行故障修复或上报处理。
本发明实施例提供的故障管理方法,通过VNFM获取硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。
可选地,作为一个实施例,步骤301包括:接收第一VNF实体发送的第二故障信息;或者确定第一VNF实体发生故障,并根据第一VNF实体发生的故障生成第二故障信息。也就是说,VNFM可以被动接受发生故障的实体的故障信息,也可以在检测到故障后主动生成故障信息。
可选地,作为一个实施例,步骤302包括:确定与第一VNF实体相关联的VNF实体发送的故障信息为第二故障信息的关联故障信息;生成包含有第二故障信息和关联故障信息的第二故障综合信息。由于VNF实体之间可能具有关联关系,因此其中的第一VNF实体发生故障时,可能与第一VNF具有关联关系的其他VNF实体也发生故障。VNFM可以收集所有相关的故障信息以便于进行统一地综合处理。
可选地,作为一个实施例,步骤303包括:根据第二故障综合信息中的第二故障信息的故障类型或者关联故障信息的故障类型,确定VNFM是否包含与第二故障信息的故障类型或者关联故障信息的故障类型相对应的故障修复策略;在VNFM包含与第二故障信息的故障类型或者关联故障信息的故障类型相对应的故障修复策略时,根据故障修复策略修复第一VNF实体和/或与第一VNF实体相关联的VNF实体的故障;或者在VNFM不包含与第二故障信息的故障类型或者关联故障信息的故障类型相对应的故障修复策略时,向编排器发送第二故障综合信息。
具体地,生成故障综合信息后,VNFM首先需要确定VNFM本地是否能够处理该故障综合信息。如果能够处理则对故障综合信息所涉及的VNF实体中的一个进行故障修复。如果无法处理或者修复失败则进行上报处理。
可选地,作为一个实施例,根据故障修复策略修复第一VNF实体和/或与第一VNF实体相关联的VNF实体的故障之后,还包括:在故障修复成功时,向编排器发送成功指示消息;在故障修复失败时,向编排器发送第二故障综合信息。其中,成功指示消息可以是运行状态置为“正常”的故障信息,也可以是其他形式的用于指示修复成功的消息。本发明对此不作限定。
可选地,作为一个实施例,向编排器发送第二故障综合信息之前,还包括:向虚拟化基础设施管理器VIM请求与第一VNF实体相关联的NFVI实体的故障信息,其中NFVI实体为NFVI中的任意一个硬件HW、主操作系统Host OS、虚拟机管理器或虚拟机VM实体;将与第一VNF实体相关联的NFVI实体的故障信息加入第二故障综合信息。在VNFM无法处理第二故障综合信息,或者修复失败时,可以向VIM发起请求,以获取与发生故障的VNF实体相关联的NFVI实体的故障信息,综合上报,以便于上层管理实体能够进行综合处理。
可选地,作为一个实施例,该方法还包括:接收VIM发送的第一故障综合信息,第一故障综合信息包含第一故障信息和第一故障信息的关联故障信息,第一故障信息用于指示第一NFVI实体发生故障;确定VNFM是否包含与第一故障综合信息中的第一故障信息的故障类型或者关联故障信息的故障类型相对应的故障修复策略;在VNFM包含与第一故障信息的故障类型或者关联故障信息的故障类型相对应的故障修复策略时,根据故障修复策略修复第一NFVI实体和/或与第一NFVI实体相关联的NFVI实体的故障;或者在VNFM不包含与第一故障信息的故障类型或者关联故障信息的故障类型相对应的故障修复策略时,向编排器发送第一故障综合信息,或者向VIM发送用于指示VNFM无法处理第一故障综合信息的指示消息,以便于VIM向编排器发送第一故障综合信息。在VIM无法处理NFVI实体的第一故障综合信息,或者修复失败时,向VNFM上报第一故障综合信息,如果VNFM也无法处理或者修复失败时,则通知VIM,以便于VIM将第一故障综合信息上报给Orchestrator。
可选地,作为一个实施例,接收VIM发送的第一故障综合信息之后,还包括:根据第一故障综合信息确定与第一NFVI实体和/或与第一NFVI实体相关联的NFVI实体相关联的第一VNF实体的故障信息;将第一VNF实体的故障信息加入第一故障综合信息,以便于VNFM对第一故障综合信息进行修复或上报处理。
可选地,作为一个实施例,VNFM根据第二故障综合信息进行修复或上报处理之后,还包括:根据第二故障综合信息检测VNFM是否包含与第二故障综合信息相同的故障综合信息;在VNFM包含与第二故障综合信息相同的故障综合信息时,删除第二故障综合信息。
具体地,由于多个具有关联关系的VNF实体发生关联性故障时,VNFM会获取到多个相同的故障综合信息,这里的相同指的是故障综合信息中的故障信息内容相同,此时,VNFM可以进行重复报警检测。对于正在进行处理的故障综合信息继续处理,对于未处理的相同的故障综合信息做删除处理。
可选地,作为一个实施例,方法还包括:接收VIM发送的请求信息,请求信息用于向VNFM请求与发生故障的NFVI实体相关联的VNF实体的故障信息;向VIM发送与发生故障的NFVI实体相关联的VNF实体的故障信息。
可选地,作为一个实施例,第二故障信息还被用于向运营和业务支撑系统OSS/BSS上报,以便于OSS/BSS监控并呈现第二故障信息。
可选地,作为一个实施例,第二故障信息还包括以下至少一项:运行状态、故障时间;第二故障综合信息还包括故障状态信息,故障状态包含未处理,处理中,已修复和未修复中的至少一种。
本发明实施例提供的故障管理方法,通过VNFM获取硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。此外,由于对相关联的故障信息进行综合处理,并且通过重复报警检测对相同的故障综合信息进行删除处理,从而提高了故障处理的效率和准确度。
图4是本发明一个实施例的故障管理的方法的流程图。图4的方法由Orchestrator执行。
401,编排器接收虚拟化基础设施管理器VIM发送的第一故障综合信息,其中,第一故障综合信息包括第一故障信息,第一故障信息包含故障实体标识和故障类型,第一故障信息用于指示具有故障实体标识的第一网络功能虚拟化基础设施NFVI实体发生故障。
402,编排器根据第一故障综合信息进行故障修复或上报处理。
本发明实施例提供的故障管理方法,通过Orchestrator获取硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。
可选地,作为一个实施例,第一故障综合信息还包括:与第一NFVI实体相关联的NFVI实体的故障信息;和/或与第一NFVI实体相关联的虚拟网络功能VNF实体的故障信息。也就是说,Orchestrator从VIM获取的故障综合信息可以包含NFVI实体的故障信息,也可以包含NFVI实体以及相关的VNF实体的故障信息。
可选地,作为一个实施例,步骤402包括:根据第一故障综合信息中的故障类型,确定编排器是否包含与故障类型相对应的故障修复策略;在编排器包含与故障类型相对应的故障修复策略时,根据故障修复策略修复第一NFVI实体和/或与第一NFVI实体相关联的NFVI实体的故障;或者在编排器不包含与故障类型相对应的故障修复策略时,向运营和业务支撑系统OSS/BSS发送第一故障综合信息。
可选地,作为一个实施例,步骤402包括:根据第一故障综合信息中的故障类型,确定编排器是否包含与故障类型相对应的故障修复策略;在编排器包含与故障类型相对应的故障修复策略时,根据故障修复策略修复第一NFVI实体和与第一NFVI实体相关联的NFVI实体的故障和与第一NFVI实体相关联的VNF实体的故障;或者在编排器不包含与故障类型相对应的故障修复策略时,向OSS/BSS发送第一故障综合信息。
可选地,作为一个实施例,步骤402之前,还包括:根据第一故障综合信息检测编排器是否包含与第一故障综合信息相同的故障综合信息;在编排器包含与第一故障综合信息相同的故障综合信息时,删除第一故障综合信息。具体地,由于多个具有关联关系的NFVI实体或VNF实体发生关联性故障时,Orchestrator会获取到多个相同的故障综合信息,这里的相同指的是故障综合信息中的故障信息内容相同,此时,Orchestrator可以进行重复报警检测。对于正在进行处理的故障综合信息继续处理,对于未处理的相同的故障综合信息做删除处理。
可选地,作为一个实施例,第一故障信息还包括以下至少一项:运行状态、故障时间;第一故障综合信息还包括故障状态信息,故障状态包含未处理,处理中,已修复和未修复中的至少一种。
本发明实施例提供的故障管理方法,通过Orchestrator接收VIM上报的故障综合信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。此外,由于对相关联的故障信息进行综合处理,并且通过重复报警检测对相同的故障综合信息进行删除处理,从而提高了故障处理的效率和准确度。
图5是本发明一个实施例的故障管理的方法的流程图。图5的方法由Orchestrator执行。
501,编排器接收虚拟网络功能管理器VNFM发送的第二故障综合信息,其中,第二故障综合信息包括第二故障信息,第二故障信息包含故障实体标识和故障类型,第二故障信息用于指示具有故障实体标识的第一虚拟网络功能VNF实体发生故障。
502,编排器根据第二故障综合信息进行故障修复或上报处理。
本发明实施例提供的故障管理方法,通过Orchestrator获取硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。
可选地,作为一个实施例,第二故障综合信息还包括:与第一VNF实体相关联的VNF实体的故障信息;和/或与第一VNF实体相关联的虚拟化基础设施管理NFVI实体的故障信息。也就是说,Orchestrator从VNFM获取的故障综合信息可以包含NFVI实体的故障信息,可以包含VNF实体的故障信息,也可以包含NFVI实体以及相关的VNF实体的故障信息。
可选地,作为一个实施例,步骤502包括:根据第二故障综合信息中的故障类型,确定编排器是否包含与故障类型相对应的故障修复策略;在编排器包含与故障类型相对应的故障修复策略时,根据故障修复策略修复第一VNF实体和/或与第一VNF实体相关联的VNF实体的故障;或者在编排器不包含与故障类型相对应的故障修复策略时,向运营和业务支撑系统OSS/BSS发送第二故障综合信息。
可选地,作为一个实施例,步骤502包括:根据第二故障综合信息中的故障类型,确定编排器是否包含与故障类型相对应的故障修复策略;在编排器包含与故障类型相对应的故障修复策略时,根据故障修复策略修复第一VNF实体和与第一VNF实体相关联的VNF实体的故障和与第一VNF实体相关联的NFVI实体的故障;或者在编排器不包含与故障类型相对应的故障修复策略时,向OSS/BSS发送第二故障综合信息。
可选地,作为一个实施例,步骤502之前还包括:根据第二故障综合信息检测编排器是否包含与第二故障综合信息相同的故障综合信息;在编排器包含与第二故障综合信息相同的故障综合信息时,删除第二故障综合信息。具体地,由于多个具有关联关系的NFVI实体或VNF实体发生关联性故障时,Orchestrator会获取到多个相同的故障综合信息,这里的相同指的是故障综合信息中的故障信息内容相同,此时,Orchestrator可以进行重复报警检测。对于正在进行处理的故障综合信息继续处理,对于未处理的相同的故障综合信息做删除处理。
可选地,作为一个实施例,第二故障信息还包括以下至少一项:运行状态、故障时间;第二故障综合信息还包括故障状态信息,故障状态包含未处理,处理中,已修复和未修复中的至少一种。
本发明实施例提供的故障管理方法,通过Orchestrator接收VNFM上报的故障综合信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。此外,由于对相关联的故障信息进行综合处理,并且通过重复报警检测对相同的故障综合信息进行删除处理,从而提高了故障处理的效率和准确度。
图6a是本发明一个实施例的故障管理的方法的交互图。图6a所示的方法可以由图1所示的NFV系统执行。
601,VIM获取故障信息。
当VIM检测到NFVI中的任意HW、Host OS、Hypervisor和VM发生故障时,VIM获取发生故障的NFVI实体的故障信息。具体地,获取故障信息可以是由发生故障的NFVI实体生成并上报给VIM的,也可以是VIM根据检测到的故障在本地生成的。
VIM检测NFVI实体发生故障的方法可以有以下几种方法:
为了方便描述,以下以第一NFVI实体发生故障为例进行描述,该第一NFVI实体可以为NFVI中的任意HW、Host OS、Hypervisor和VM实体。其中,实体可以包括硬件实体或软件实体。
方法一,
第一NFVI实体发生故障时,第一NFVI实体生成故障信息,该故障信息至少包含用于唯一标识第一NFVI实体的故障实体标识,通过该标识可以唯一确定发生故障的第一NFVI实体的实际位置或在拓扑关系中的位置。该故障信息还包含有故障标识,用于唯一标识一个故障信息。该故障信息还包含有故障类型,用于表示该故障发生的原因,例如过载、断电、内存泄漏、端口错误、无故障等。此外,故障信息还可以包含运行状态和故障时间,运行状态用于标记第一NFVI实体当前是否能够正常运行,故障时间可以用于记录故障发生的时间。作为一个例子,故障信息的格式可以如表一所示:
故障信息
Figure GDA0002822473980000171
表一
第一NFVI生成上述格式的故障信息后,可以通过Nf-Vi接口发送给VIM,可选地,还可以同时通过EMS将故障信息发送给OSS/BSS以供管理、记录、呈现。
方法二,
VIM可以周期性地或者在需要的时候向第一NFVI实体发送指示消息,指示第一NFVI实体进行故障检测,第一NFVI实体如果检测到故障可以向VIM返回与上述表一相类似的故障信息,如果第一NFVI没有故障,可以不返回任何消息,也可以返回故障类型为“无故障”,运行状态为“正常”的如表一所示的故障信息。
方法三,
第一NFVI实体可以周期性地向VIM发送表示第一NFVI实体运行正常的心跳指示消息。VIM则周期性地接收到第一NFVI实体的心跳,感知到第一NFVI实体工作正常,当第一NFVI实体心跳中断,则VIM判定第一NFVI实体发生故障。VIM可以生成第一NFVI的故障信息,具体格式与上述表一的故障信息相类似,此处不再赘述。
当NFVI实体发生断电等突然性事故而无法上报故障信息时,VIM依然能够在第一时间感知到第一NFVI实体发生故障。
方法四,
VIM可以周期性地或者在需要的时候对NFVI进行故障检测,之后VIM根据故障检测结果生成第一NFVI的故障信息,具体格式与上述表一的故障信息相类似,此处不再赘述。
综上所述,VIM检测NFVI实体的故障可以通过以上任意一种方法进行,当然可以通过多种方法结合进行检测,例如,可以将方法一和方法三结合,NFVI实体周期性向VIM发送心跳,在发生故障时向VIM发送故障信息,如果NFVI实体发生灾难性故障无法上报故障信息,则VIM可以通过心跳停止感知到NFVI实体发生故障。
602,VIM生成故障综合信息
在VIM接收到第一NFVI实体发送的故障信息,或者VIM根据第一NFVI实体发生的故障生成故障信息后,VIM需要根据收集与第一NFVI实体相关联的其他NFVI实体的故障信息,以生成故障综合信息,以便于进行综合处理。
具体地,由于HW、Host OS、Hypervisor、VM实体之间存在有关联关系,因此当第一NFVI实体发生故障时,可能与第一NFVI实体有关联关系的某些实体也会发生故障。图6b示例性地示出了HW、Host OS、Hypervisor、VM实体之间的关联关系。例如,与HW1有关联关系的包括Host OS1、Hypervisor1、VM1和VM2。也就是说,当HW1发生故障时,建立在其上的虚拟化实体Host OS1、Hypervisor1、VM1和VM2会发生故障。此时,VIM可以收集Host OS1、Hypervisor1、VM1和VM2上报的故障信息,结合HW1的故障信息生成故障综合信息。具体地,可以生成如表二所示的故障综合信息:
故障综合信息
Figure GDA0002822473980000181
表二
其中HW、Host OS、Hypervisor和VM实体的故障信息格式与上述表一相类似。故障综合信息标识用于唯一标识一个故障综合信息。应理解,表二所示的故障综合信息为一个具体的例子,故障综合信息具体包含哪些实体的故障信息根据关联关系而定。其中故障综合信息刚生成时可以将故障状态置为“未处理”。
603,报警重复检测
VIM生成故障综合信息后,可以在VIM本地检测已生成的故障综合信息,确定是否存在相同的信息。具体地,由于一个NFVI实体发生故障后,与之具有关联关系的发生故障的NFVI实体都会上报故障信息,因此VIM很可能就同一个故障生成多个相同的故障综合信息。例如,HW1发生故障,与HW1具有关联关系的Host OS1、Hypervisor1、VM1和VM2也发生故障并且与HW1执行相同的操作,VIM在进行关联故障信息收集后会生成多个同样的故障综合信息,此时可以只处理其中的一个故障综合信息,将其他相同的故障综合信息丢弃。应理解,这里的相同的故障综合信息指的是HW、Host OS、Hypervisor和VM故障信息部分相同,故障标识和故障状态可以不同。
具体地,可以通过故障综合信息的故障状态来保留或丢弃故障综合信息,例如,刚生成的故障综合信息的故障状态为“未处理”,对该故障综合信息进行报警重复检测,如果发现故障状态为“处理中”的相同的故障综合信息,则对未处理的故障综合信息做丢弃处理。保留即继续执行对故障状态为“处理中”的故障综合信息中的故障的处理。
604,VIM自愈判断
当VIM中故障综合信息生成,VIM首先可以判断故障综合信息中的故障类型是否为VIM能够处理的故障类型。
具体地,VIM中具有故障修复策略,该故障修复策略包括故障实体标识、故障类型和故障修复方法的映射关系。可以通过判断故障综合信息中的故障类型是否存在于故障修复策略中而确定是否能够进行处理。例如,HW1的故障类型为“低性能”,相对应的故障修复方法为“重启”。
此外,当故障综合信息中包含多个关联的NFVI实体的故障信息时,VIM可以根据NFVI实体的优先级确定针对哪个NFVI实体的故障信息中的故障类型进行自愈判断。优先级为:HW高于Host OS高于Hypervisor高于VM。例如,如表二所示,当故障综合信息包含HW1、Host OS1、Hypervisor1、VM1和VM2的故障信息时,VIM可以优先处理HW1的故障,也就是说,根据HW1的故障信息中的故障类型,例如“低性能”,确定故障修复方法“重启”。
具体地,故障修复方法可以包括但不限于下面列举的方法中的一种:重启硬件设备、重新加载软件(Host OS、Hypervisor等)、迁移VM、重新加载VNF安装软件、重新实例化VNF,增加VNF实例,迁移VNF(即给VNF重新分配资源),重新实例化VNF转发图(VNFForwarding Graph)。
605a,VIM能够进行自愈处理
如果VIM判断能够处理,则根据故障修复方法对NFVI实体进行故障修复。如果故障修复成功,并且具有关联关系的NFVI实体的故障都得到修复,则通知Orchestrator修复成功,并终结该故障修复处理过程。
如果故障综合信息包含多个NFVI实体,被优先处理的NFVI实体的故障修复成功,但是其他关联的NFVI实体的故障依然存在,则重复进行604的步骤,对余下的依然存在故障的NFVI实体中优先级最高的NFVI实体进行判断,并修复,直到该故障综合信息中的所有NFVI实体的故障都得到修复,则通知Orchestrator修复成功,并终结该故障修复处理过程。
具体地,对于能够处理的故障综合信息,VIM可以将修复状态置为“处理中”以防止对后续生成的相同的“未处理”的故障综合信息进行重复处理。
修复成功的NFVI实体可以通过上报运行状态为“正常”的类似于表一的故障信息来通知VIM故障修复成功。当故障综合信息中具有关联关系的所有的NFVI实体的故障都得到修复,VIM可以将故障综合信息的故障状态置为“已修复”并通过Or-Vi接口上报Orchestrator。应理解,修复成功也可以通过预定义的信令进行上报,本发明对此不做限定。
此外,可以将正在进行修复的NFVI实体进行隔离,以避免该故障体与相邻的其他实体交互而导致进一步的故障传染。
605b,VIM不能够进行自愈处理
如果VIM中的故障修复策略中不包含待修复的NFVI实体的故障类型,则VIM可以将故障综合信息的故障状态置为“未修复”并通过Or-Vi接口上报Orchestrator。
606,Orchestrator自愈判断
当Orchestrator接收到VIM发送的故障综合信息,Orchestrator检测是否能够进行自愈处理,与VIM的自愈判断相类似,Orchestrator查询本地故障修复策略,如果能够进行处理且修复成功,则将故障综合信息中的故障状态置为“已修复”并向OSS/BSS上报。如果Orchestrator不能够进行修复处理或者能进行修复处理但是修复失败,则将NFVI的故障综合信息的故障状态置为“未修复”并向OSS/BSS上报。应理解,由于Orchestrator负责编排管理资源,并实现NFV服务,因此Orchestrator具有较高的管理权限以及处理能力,能够修复大部分的故障。只有极少数的无法处理或者修复失败的故障才会被上报的OSS/BSS
具体的,故障修复方法可以包括但不限于下面列举的方法中的一种:重启硬件设备、重新加载软件(Host OS、Hypervisor等)、迁移VM、重新加载VNF安装软件、重新实例化VNF,增加VNF实例,迁移VNF(即给VNF重新分配资源),重新实例化VNF转发图(VNFForwarding Graph)。
607,OSS/BSS进行故障修复
OSS/BSS将该接收到的故障综合信息的故障状态改为“处理中”。然后OSS/BSS根据故障修复策略中的方法进行故障恢复。故障恢复后,OSS/BSS会收到NFVI实体发送的故障恢复通知,之后将OSS/BSS故障综合信息中的故障状态修改为“已修复”。其中OSS/BSS中的故障修复策略默认包含所有故障类型的处理方法。
本发明实施例提供的故障管理方法,通过VIM获取硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。此外,由于对相关联的故障信息进行综合处理,并且通过重复报警检测对相同的故障综合信息进行删除处理,并且对于正在处理的故障实体进行隔离处理,从而提高了故障处理的效率和准确度,且有效的防止了故障传染。
图7是本发明另一实施例的故障管理的方法的交互图。图7所示的方法可以由图1所示的NFV系统执行。
701,VNFM获取故障信息。
当VNFM检测到VNF中的任意VNF实体发生故障时,VNFM获取发生故障的VNF实体的故障信息。具体地,获取故障信息可以是由发生故障的VNF实体生成并上报给VNFM的,也可以是VNFM根据检测到的故障在VNFM本地生成的。
VNFM检测VNF实体发生故障的方法可以有以下几种方法:
为了方便描述,以下以第一VNF实体发生故障为例进行描述,该第一VNF实体可以为VNF中的任意VNF实体。其中,实体可以包括硬件实体或软件实体或实例。
方法一,
第一VNF实体发生故障时,第一VNF实体生成故障信息,该故障信息至少包含用于唯一标识第一VNF实体的故障实体标识,通过该标识可以唯一确定发生故障的第一VNF实体的实际位置或在拓扑关系中的位置。故障标识用于唯一标识一个故障信息。该故障信息还包含有故障类型,用于表示该故障发生的原因,例如过载、断电、内存泄漏、端口错误或无故障等。此外,故障信息还可以包含运行状态和故障时间,运行状态用于标记第一VNF实体当前是否能够正常运行,故障时间可以用于记录故障发生的时间。作为一个例子,故障信息的格式可以如表三所示:
故障信息
Figure GDA0002822473980000201
表三
第一VNF生成上述格式的故障信息后,可以通过Ve-Vnfm接口发送给VNFM,可选地,还可以同时通过vEMS将故障信息发送给OSS/BSS以供管理、记录、呈现。
方法二,
VNFM可以周期性地或者在需要的时候向第一VNF实体发送指示消息,指示第一VNF实体进行故障检测,第一VNF实体如果检测到故障可以向VNFM返回与上述表三相类似的故障信息,如果第一VNF没有故障,可以不返回任何消息,也可以返回故障类型为“无故障”,运行状态为“正常”的如表三所示的故障信息。
方法三,
第一VNF实体可以周期性地向VNFM发送表示第一VNF实体运行正常的心跳指示消息。VNFM则周期性地接收到第一VNF实体的心跳,感知到第一VNF实体工作正常,当第一VNF实体心跳中断,则VNFM判定第一VNF实体发生故障。VNFM可以生成第一VNF的故障信息,具体格式与上述表三的故障信息相类似,此处不再赘述。
当VNF实体发生突然性故障而无法上报故障信息时,VNFM依然能够在第一时间感知到第一VNF实体发生故障。
方法四,
VNFM可以周期性地或者在需要的时候对VNF进行故障检测,之后VNFM根据故障检测结果生成第一VNF的故障信息,具体格式与上述表三的故障信息相类似,此处不再赘述。
综上所述,VNFM检测VNF实体的故障可以通过以上任意一种方法进行,当然可以通过多种方法结合进行检测,例如,可以将方法一和方法三结合,VNF实体周期性向VNFM发送心跳,在发生故障时向VNFM发送故障信息,如果VNF实体发生灾难性故障无法上报故障信息,则VNFM可以通过心跳停止感知到VNF实体发生故障。
702,VNFM生成故障综合信息
在VNFM接收到第一VNF实体发送的故障信息,或者VNFM根据第一VNF实体发生的故障生成故障信息后,VNFM可以根据第一VNF的故障信息生成故障综合信息。可选地,VNFM可以收集与第一VNF实体相关联的其他VNF实体的故障信息,以生成故障综合信息,以便于进行综合处理。
具体地,由于VNF实体之间存在有关联关系,因此当第一VNF实体发生故障时,往往与第一VNF实体有关联关系的其他VNF实体也会发生故障。图6b示例性地示出了VNF实体之间的关联关系。例如,VNF1与VNF2都基于VM1,即VNF1与VNF2之间具有关联关系。当VNF1发生了故障,VNF2有可能也发生了故障。
此时,VNFM可以收集VNF1上报的故障信息,结合VNF2的故障信息生成故障综合信息。具体地,可以生成如表四所示的故障综合信息:
故障综合信息
Figure GDA0002822473980000211
表四
其中VNF1,VNF2实体的故障信息格式与上述表三相类似。应理解,表四所示的故障综合信息为一个具体的例子,故障综合信息具体包含哪些实体的故障信息根据关联关系而定。其中故障综合信息刚生成时可以将故障状态置为“未处理”。
703,报警重复检测
VNFM生成故障综合信息后,可以在VNFM本地检测已生成的故障综合信息,确定是否存在相同的信息。具体地,由于一个VNF实体发生故障后,与之具有关联关系的发生故障的VNF实体都会上报故障信息,因此VNFM很可能就同一个故障生成多个相同的故障综合信息。例如,VNF1发生故障,与VNF1具有关联关系的VNF2也发生故障并且与VNF1执行相同的操作,VNFM在进行关联故障信息收集后会生成多个同样的故障综合信息,此时可以只处理其中的一个故障综合信息,将其他相同的故障综合信息丢弃。应理解,这里的相同的故障综合信息指的是VNF状态信息部分相同,故障状态可以不同。
具体地,可以通过故障综合信息的故障状态来保留或丢弃故障综合信息,例如,刚生成的故障综合信息的故障状态为“未处理”,对该故障综合信息进行报警重复检测,如果发现故障状态为“处理中”的相同的故障综合信息,则对未处理的故障综合信息做丢弃处理。
704,VNFM自愈判断
当VNFM有故障综合信息生成,VNFM首先可以判断故障综合信息中的故障类型是否为VNFM能够处理的故障类型。
具体地,VNFM中具有故障修复策略,该故障修复策略包括故障实体标识、故障类型和故障修复方法的映射关系。可以通过判断故障综合信息中的故障类型是否存在于故障修复策略中而确定是否能够进行处理。例如,VNF1的故障类型为“低性能”,相对应的故障修复方法为“增加一个VNF实例”。
具体的,故障修复方法可以包括但不限于下面列举的方法中的一种:重启硬件设备、重新加载软件(Host OS、Hypervisor等)、迁移VM、重新加载VNF安装软件、重新实例化VNF,增加VNF实例,迁移VNF(即给VNF重新分配资源),重新实例化VNF转发图(VNFForwarding Graph)。
705a,VNFM能够进行自愈处理
如果VNFM判断能够处理,则根据故障修复方法对VNF实体进行故障修复。如果故障修复成功,并且具有关联关系的VNF实体的故障都得到修复,则通知Orchestrator修复成功,并终结该故障修复处理过程。
如果故障综合信息包含多个VNF实体,被优先处理的VNF实体的故障修复成功,但是其他关联的VNF实体的故障依然存在,则重复进行704的步骤,对余下的依然存在故障的VNF实体进行判断,并修复,直到该故障综合信息中的所有VNF实体的故障都得到修复,则通知Orchestrator修复成功,并终结该故障修复处理过程。
具体地,对于能够处理的故障综合信息,VNFM可以将修复状态置为“处理中”以防止对后续生成的相同的“未处理”的故障综合信息进行重复处理。
修复成功的VNF实体可以通过上报运行状态为“正常”的类似于表三的故障信息来通知VNFM故障修复成功。当故障综合信息中具有关联关系的所有的VNF实体的故障都得到修复,VNFM可以将故障综合信息的故障状态置为“已修复”并通过Or-Vnfm接口上报Orchestrator。应理解,修复成功也可以通过预定义的信令进行上报,本发明对此不做限定。
此外,可以将正在进行修复的VNF实体进行隔离,以避免该故障体与相邻的其他实体交互而导致进一步的故障传染。
705b,VNFM不能够进行自愈处理
如果VNFM中的故障修复策略中不包含待修复的VNF实体的故障类型,则VNFM可以将故障综合信息的故障状态置为“未修复”并通过Or-Vnfm接口上报Orchestrator。
706,Orchestrator自愈判断
当Orchestrator接收到VNFM发送的故障综合信息,Orchestrator检测是否能够进行自愈处理,与VNFM的自愈判断相类似,Orchestrator查询本地故障修复策略,如果能够进行处理且修复成功,则将故障综合信息中的故障状态置为“已修复”并向OSS/BSS上报。如果Orchestrator不能够进行修复处理或者能进行修复处理但是修复失败,则将VNF的故障综合信息的故障状态置为“未修复”并向OSS/BSS上报。应理解,由于Orchestrator负责编排管理资源,并实现NFV服务,因此Orchestrator具有较高的管理权限以及处理能力,能够修复大部分的故障。只有极少数的无法处理或者修复失败的故障才会被上报的OSS/BSS
707,OSS/BSS进行故障修复
OSS/BSS将该接收到的故障综合信息的故障状态改为“处理中”。然后OSS/BSS根据故障修复策略中的方法进行故障恢复。故障恢复后,OSS/BSS会收到VNF实体发送的故障恢复通知,之后将OSS/BSS故障综合信息中的故障状态修改为“已修复”。其中OSS/BSS中的故障修复策略默认包含所有故障类型的处理方法。
具体的,故障修复方法可以包括但不限于下面列举的方法中的一种:重启硬件设备、重新加载软件(Host OS、Hypervisor等)、迁移VM、重新加载VNF安装软件、重新实例化VNF,增加VNF实例,迁移VNF(即给VNF重新分配资源),重新实例化VNF转发图(VNFForwarding Graph)。
本发明实施例提供的故障管理方法,通过VIM获取硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。此外,由于对相关联的故障信息进行综合处理,并且通过重复报警检测对相同的故障综合信息进行删除处理,并且对于正在处理的故障实体进行隔离处理,从而提高了故障处理的效率和准确度,且有效的防止了故障传染。
图8是本发明另一实施例的故障管理的方法的交互图。图8所示的方法可以由图1所示的NFV系统执行。
801,VIM获取故障信息。
当VIM检测到NFVI中的任意HW、Host OS、Hypervisor和VM实体发生故障时,VIM获取发生故障的NFVI实体的故障信息。具体地,获取故障信息可以是由发生故障的NFVI实体生成并上报给VIM的,也可以是VIM根据检测到的故障在本地生成的。具体地,VIM检测NFVI实体发生故障的方法与上述图6a步骤601所述的方法相类似,此处不再赘述。
802,VIM生成故障综合信息
在VIM接收到第一NFVI实体发送的故障信息,或者VIM根据第一NFVI实体发生的故障生成故障信息后,VIM需要根据收集与第一NFVI实体相关联的其他NFVI实体的故障信息,以生成故障综合信息,以便于进行综合处理。具体地,与上述图6a步骤602所述的方法相类似,此处不再赘述。
803,报警重复检测
VIM生成故障综合信息后,可以在VIM本地检测已生成的故障综合信息,确定是否存在相同的信息。具体检测方法与上述图6a步骤603所述的方法相类似,此处不再赘述。
804,VIM自愈判断
当VIM有故障综合信息生成,VIM首先可以判断故障综合信息中的故障类型是否为VIM能够处理的故障类型。具体判断方法与上述图6a步骤604所述的方法相类似,此处不再赘述。
805a,VIM能够进行自愈处理
如果VIM判断能够处理,则根据故障修复方法对NFVI实体进行故障修复。如果故障修复成功,并且具有关联关系的NFVI实体的故障都得到修复,则通知Orchestrator修复成功,并终结该故障修复处理过程。
如果故障综合信息包含多个NFVI实体,被优先处理的NFVI实体的故障修复成功,但是其他关联的NFVI实体的故障依然存在,则重复进行804的步骤,对余下的依然存在故障的NFVI实体中优先级最高的NFVI实体进行判断,并修复,直到该故障综合信息中的所有NFVI实体的故障都得到修复,则通知Orchestrator修复成功,并终结该故障修复处理过程。具体方法与上述图6a步骤605a所述的方法相类似,此处不再赘述。
此外,可以将正在进行修复的NFVI实体进行隔离,以避免该故障体与相邻的其他实体交互而导致进一步的故障传染。
805b,VIM不能够进行自愈处理则上报VNFM
如果VIM中的故障修复策略中不包含待修复的NFVI实体的故障类型,则VIM可以将故障综合信息的故障状态置为“未修复”并通过Vi-Vnfm接口上报VNFM。
当VNFM接收到VIM发送的故障综合信息,VNFM检测是否能够进行自愈处理,与VIM的自愈判断相类似,VNFM查询本地故障修复策略,如果能够进行处理且修复成功,则将故障综合信息中的故障状态置为“已修复”并向Orchestrator上报。如果VNFM不能够进行修复处理或者能进行修复处理但是修复失败,则将NFVI的故障综合信息的故障状态置为“未修复”并向Orchestrator上报。
806,Orchestrator自愈判断
当Orchestrator接收到VNFM发送的NFVI的故障综合信息,Orchestrator检测是否能够进行自愈处理,与VIM的自愈判断相类似,Orchestrator查询本地故障修复策略,如果能够进行处理且修复成功,则将故障综合信息中的故障状态置为“已修复”并向OSS/BSS上报。如果Orchestrator不能够进行修复处理或者能进行修复处理但是修复失败,则将NFVI的故障综合信息的故障状态置为“未修复”并向OSS/BSS上报。应理解,由于Orchestrator负责编排管理资源,并实现NFV服务,因此Orchestrator具有较高的管理权限以及处理能力,能够修复大部分的故障。只有极少数的无法处理或者修复失败的故障才会被上报的OSS/BSS。
807,OSS/BSS进行故障修复
OSS/BSS将该接收到的故障综合信息的故障状态改为“处理中”。然后OSS/BSS根据故障修复策略中的方法进行故障恢复。故障恢复后,OSS/BSS会收到NFVI实体发送的故障恢复通知,之后将OSS/BSS故障综合信息中的故障状态修改为“已修复”。其中OSS/BSS中的故障修复策略默认包含所有故障类型的处理方法。
具体的,故障修复方法可以包括但不限于下面列举的方法中的一种:重启硬件设备、重新加载软件(Host OS、Hypervisor等)、迁移VM、重新加载VNF安装软件、重新实例化VNF,增加VNF实例,迁移VNF(即给VNF重新分配资源),重新实例化VNF转发图(VNFForwarding Graph)。
本发明实施例提供的故障管理方法,通过VIM获取硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。此外,由于对相关联的故障信息进行综合处理,并且通过重复报警检测对相同的故障综合信息进行删除处理,并且对于正在处理的故障实体进行隔离处理,从而提高了故障处理的效率和准确度,且有效的防止了故障传染。
图9是本发明另一实施例的故障管理的方法的交互图。图9所示的方法可以由图1所示的NFV系统执行。
901,VIM获取故障信息。
当VIM检测到NFVI中的任意HW、Host OS、Hypervisor和VM发生故障时,VIM获取发生故障的NFVI实体的故障信息。具体地,获取故障信息可以是由发生故障的NFVI实体生成并上报给VIM的,也可以是VIM根据检测到的故障在本地生成的。具体地,VIM检测NFVI实体发生故障的方法与上述图6a步骤601所述的方法相类似,此处不再赘述。
902,VIM生成故障综合信息
在VIM接收到第一NFVI实体发送的故障信息,或者VIM根据第一NFVI实体发生的故障生成故障信息后,VIM需要根据收集与第一NFVI实体相关联的其他NFVI实体的故障信息,以生成故障综合信息,以便于进行综合处理。具体地,与上述图6a步骤602所述的方法相类似,此处不再赘述。
903,报警重复检测
VIM生成故障综合信息后,可以在VIM本地检测已生成的故障综合信息,确定是否存在相同的信息。具体检测方法与上述图6a步骤603所述的方法相类似,此处不再赘述。
904,VIM自愈判断
当VIM有故障综合信息生成,VIM首先可以判断故障综合信息中的故障类型是否为VIM能够处理的故障类型。具体判断方法与上述图6a步骤604所述的方法相类似,此处不再赘述。
905a,VIM能够进行自愈处理
如果VIM判断能够处理,则根据故障修复方法对NFVI实体进行故障修复。如果故障修复成功,并且具有关联关系的NFVI实体的故障都得到修复,则通知Orchestrator修复成功,并终结该故障修复处理过程。
如果故障综合信息包含多个NFVI实体,被优先处理的NFVI实体的故障修复成功,但是其他关联的NFVI实体的故障依然存在,则重复进行904的步骤,对余下的依然存在故障的NFVI实体中优先级最高的NFVI实体进行判断,并修复,直到该故障综合信息中的所有NFVI实体的故障都得到修复,则通知Orchestrator修复成功,并终结该故障修复处理过程。具体方法与上述图6a步骤605a所述的方法相类似,此处不再赘述。
此外,可以将正在进行修复的NFVI实体进行隔离,以避免该故障体与相邻的其他实体交互而导致进一步的故障传染。
905b,VIM不能够进行自愈处理则上报VNFM
如果VIM中的故障修复策略中不包含待修复的NFVI实体的故障类型,则VIM可以将故障综合信息的故障状态置为“未修复”并通过Vi-Vnfm接口上报VNFM。
当VNFM接收到VIM发送的故障综合信息,VNFM检测是否能够进行自愈处理,与VIM的自愈判断相类似,VNFM查询本地故障修复策略,如果能够进行处理且修复成功,则将故障综合信息中的故障状态置为“已修复”并向Orchestrator上报。如果VNFM不能够进行修复处理或者能进行修复处理但是修复失败,则将NFVI的故障综合信息的故障状态置为“未修复”并将故障综合信息返回给VIM。
906,Orchestrator自愈判断
之后VIM将NFVI的故障综合信息通过Or-Vi接口上报给Orchestrator,Orchestrator检测是否能够进行自愈处理,与VIM的自愈判断相类似,Orchestrator查询本地故障修复策略,如果能够进行处理且修复成功,则将故障综合信息中的故障状态置为“已修复”并向OSS/BSS上报。如果Orchestrator不能够进行修复处理或者能进行修复处理但是修复失败,则将NFVI的故障综合信息的故障状态置为“未修复”并向OSS/BSS上报。应理解,由于Orchestrator负责编排管理资源,并实现NFV服务,因此Orchestrator具有较高的管理权限以及处理能力,能够修复大部分的故障。只有极少数的无法处理或者修复失败的故障才会被上报的OSS/BSS。
907,OSS/BSS进行故障修复
OSS/BSS将该接收到的故障综合信息的故障状态改为“处理中”。然后OSS/BSS根据故障修复策略中的方法进行故障恢复。故障恢复后,OSS/BSS会收到NFVI实体发送的故障恢复通知,之后将OSS/BSS故障综合信息中的故障状态修改为“已修复”。其中OSS/BSS中的故障修复策略默认包含所有故障类型的处理方法。
具体的,故障修复方法可以包括但不限于下面列举的方法中的一种:重启硬件设备、重新加载软件(Host OS、Hypervisor等)、迁移VM、重新加载VNF安装软件、重新实例化VNF,增加VNF实例,迁移VNF(即给VNF重新分配资源),重新实例化VNF转发图(VNFForwarding Graph)。
应理解,图6a、图8和图9为VIM对NFVI实体的故障的修复和管理过程,图7为VNFM对VNF实体的故障的修复和管理过程。VIM对NFVI实体、VNFM对VNF实体的修复和管理这两个过程可以为相对独立的两个过程,也可以为同时进行的两个过程,本发明对此不做限定。
本发明实施例提供的故障管理方法,通过VIM获取硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。此外,由于对相关联的故障信息进行综合处理,并且通过重复报警检测对相同的故障综合信息进行删除处理,并且对于正在处理的故障实体进行隔离处理,从而提高了故障处理的效率和准确度,且有效的防止了故障传染。
图10本发明另一实施例的故障管理的方法的交互图。图10所示的方法可以由图1所示的NFV系统执行。
1001a,VIM获取故障信息。
当VIM检测到NFVI中的任意HW、Host OS、Hypervisor和VM发生故障时,VIM获取发生故障的NFVI实体的故障信息。具体地,获取故障信息可以是由发生故障的NFVI实体生成并上报给VIM的,也可以是VIM根据检测到的故障在本地生成的。
VIM检测NFVI实体发生故障的方法可以有以下几种方法:
为了方便描述,以下以第一NFVI实体发生故障为例进行描述,该第一NFVI实体可以为NFVI中的任意HW、Host OS、Hypervisor和VM实体。其中,实体可以包括硬件实体或软件实体。
方法一,
第一NFVI实体发生故障时,第一NFVI实体生成故障信息,该故障信息至少包含用于唯一标识第一NFVI实体的故障实体标识,通过该标识可以唯一确定发生故障的第一NFVI实体的实际位置或在拓扑关系中的位置。故障信息还包含故障标识,用于唯一标识一个故障信息。该故障信息还包含有故障类型,用于表示该故障发生的原因,例如断电、过载、无故障等。此外,故障信息还可以包含运行状态和故障时间,运行状态用于标记第一NFVI实体当前是否能够正常运行,故障时间可以用于记录故障发生的时间。作为一个例子,故障信息的格式可以如上述表一所示。
第一NFVI生成上述格式的故障信息后,可以通过Nf-Vi接口发送给VIM,可选地,还可以同时通过EMS将故障信息发送给OSS/BSS以供管理、记录、呈现。
方法二,
VIM可以周期性地或者在需要的时候向第一NFVI实体发送指示消息,指示第一NFVI实体进行故障检测,第一NFVI实体如果检测到故障可以向VIM返回与上述表一相类似的故障信息,如果第一NFVI没有故障,可以不返回任何消息,也可以返回故障类型为“无故障”,运行状态为“正常”的如表一所示的故障信息。
方法三,
第一NFVI实体可以周期性地向VIM发送表示第一NFVI实体运行正常的心跳指示消息。VIM则周期性地接收到第一NFVI实体的心跳,感知到第一NFVI实体工作正常,当第一NFVI实体心跳中断,则VIM判定第一NFVI实体发生故障。VIM可以生成第一NFVI的故障信息,具体格式与上述表一的故障信息相类似,此处不再赘述。
当NFVI实体发生断电等突然性事故而无法上报故障信息时,VIM依然能够在第一时间感知到第一NFVI实体发生故障。
方法四,
VIM可以周期性地或者在需要的时候对NFVI进行故障检测,之后VIM根据故障检测结果生成第一NFVI的故障信息,具体格式与上述表一的故障信息相类似,此处不再赘述。
综上所述,VIM检测NFVI实体的故障可以通过以上任意一种方法进行,当然可以通过多种方法结合进行检测,例如,可以将方法一和方法三结合,NFVI实体周期性向VIM发送心跳,在发生故障时向VIM发送故障信息,如果NFVI实体发生灾难性故障无法上报故障信息,则VIM可以通过心跳停止感知到NFVI实体发生故障。
1001b,VNFM获取故障信息。
当VNFM检测到VNF中的任意VNF实体发生故障时,VNFM获取发生故障的VNF实体的故障信息。具体地,获取故障信息可以是由发生故障的VNF实体生成并上报给VNFM的,也可以是VNFM根据检测到的故障在VNFM本地生成的。
VNFM检测VNF实体发生故障的方法可以有以下几种方法:
为了方便描述,以下以第一VNF实体发生故障为例进行描述,该第一VNF实体可以为VNF中的任意VNF实体。其中,实体可以包括硬件实体或软件实体或实例。
方法一,
第一VNF实体发生故障时,第一VNF实体生成故障信息,该故障信息至少包含用于唯一标识第一VNF实体的故障实体标识,通过该标识可以唯一确定发生故障的第一VNF实体的实际位置或在拓扑关系中的位置。该故障信息还包含有故障类型,用于表示该故障发生的原因或者结果。此外,故障信息还可以包含运行状态和故障时间,运行状态用于标记第一VNF实体当前是否能够正常运行,故障时间可以用于记录故障发生的时间。作为一个例子,故障信息的格式可以如上述表三所示。
第一VNF生成上述格式的故障信息后,可以通过Ve-Vnfm接口发送给VNFM,可选地,还可以同时通过vEMS将故障信息发送给OSS/BSS以供管理、记录、呈现。
方法二,
VNFM可以周期性地或者在需要的时候向第一VNF实体发送指示消息,指示第一VNF实体进行故障检测,第一VNF实体如果检测到故障可以向VNFM返回与上述表三相类似的故障信息,如果第一VNF没有故障,可以不返回任何消息,也可以返回故障类型为“无故障”,运行状态为“正常”的如表三所示的故障信息。
方法三,
第一VNF实体可以周期性地向VNFM发送表示第一VNF实体运行正常的心跳指示消息。VNFM则周期性地接收到第一VNF实体的心跳,感知到第一VNF实体工作正常,当第一VNF实体心跳中断,则VNFM判定第一VNF实体发生故障。VNFM可以生成第一VNF的故障信息,具体格式与上述表三的故障信息相类似,此处不再赘述。
当VNF实体发生突然性故障而无法上报故障信息时,VNFM依然能够在第一时间感知到第一VNF实体发生故障。
方法四,
VNFM可以周期性地或者在需要的时候对VNF进行故障检测,之后VNFM根据故障检测结果生成第一VNF的故障信息,具体格式与上述表三的故障信息相类似,此处不再赘述。
综上所述,VNFM检测VNF实体的故障可以通过以上任意一种方法进行,当然可以通过多种方法结合进行检测,例如,可以将方法一和方法三结合,VNF实体周期性向VNFM发送心跳,在发生故障时向VNFM发送故障信息,如果VNF实体发生灾难性故障无法上报故障信息,则VNFM可以通过心跳停止感知到VNF实体发生故障。
应理解,步骤1001a和1001b可以为两个相对独立的过程,也可以为两个相关的过程,在本发明实施例当中可以理解为基本同时发生的两个过程,也就是说,本发明实施例是在NFVI和VNF发生关联性故障的情况下进行故障管理和修复的具体描述。
1002a,VIM生成故障综合信息
在VIM接收到第一NFVI实体发送的故障信息,或者VIM根据第一NFVI实体发生的故障生成故障信息,即步骤1001a后,VIM需要根据收集与第一NFVI实体相关联的其他NFVI实体的故障信息,以生成故障综合信息,以便于进行综合处理。
具体地,由于HW、Host OS、Hypervisor、VM实体之间存在有关联关系,因此当第一NFVI实体发生故障时,往往与第一NFVI实体有关联关系的实体也会发生故障。图6b示例性地示出了HW、Host OS、Hypervisor、VM实体之间的关联关系。例如,与HW1有关联关系的包括Host OS1、Hypervisor1、VM1和VM2。也就是说,当HW1发生故障时,建立在其上的虚拟化实体Host OS1、Hypervisor1、VM1和VM2都会发生故障。
此时,VIM可以收集Host OS1、Hypervisor1、VM1和VM2上报的故障信息,结合HW1的故障信息生成故障综合信息。具体地,可以生成如上述表二所示的故障综合信息,其中HW、Host OS、Hypervisor和VM实体的故障信息格式与上述表一相类似。应理解,表二所示的故障综合信息为一个具体的例子,故障综合信息具体包含哪些实体的故障信息根据关联关系而定。其中故障综合信息刚生成时可以将故障状态置为“未处理”。
1002b,VNFM生成故障综合信息
在VNFM接收到第一VNF实体发送的故障信息,或者VNFM根据第一VNF实体发生的故障生成故障信息后,即步骤1001b后,VNFM可以根据第一VNF的故障信息生成故障综合信息。可选地,VNFM可以收集与第一VNF实体相关联的其他VNF实体的故障信息,以生成故障综合信息,以便于进行综合处理。
具体地,由于VNF实体之间存在有关联关系,因此当第一VNF实体发生故障时,往往与第一VNF实体有关联关系的其他VNF实体也会发生故障。图6b示例性地示出了VNF实体之间的关联关系。例如,VNF1与VNF2都基于VM1,即VNF1与VNF2之间具有关联关系。当VNF1发生了故障,VNF2有可能也发生了故障。
此时,VNFM可以收集VNF1上报的故障信息,结合VNF2的故障信息生成故障综合信息。具体地,可以生成如上述表四所示的故障综合信息。
其中VNF1,VNF2实体的故障信息格式与上述表三相类似。应理解,表四所示的故障综合信息为一个具体的例子,故障综合信息具体包含哪些实体的故障信息根据关联关系而定。其中故障综合信息刚生成时可以将故障状态置为“未处理”。
同样地,步骤1002a和1002b可以为两个相对独立的过程,也可以为两个相关的过程,在本发明实施例当中可以理解为基本同时发生的两个过程。
1003a,VIM报警重复检测
VIM生成故障综合信息后,可以在VIM本地检测已生成的故障综合信息,确定是否存在相同的信息。具体地,由于一个NFVI实体发生故障后,与之具有关联关系的发生故障的NFVI实体都会上报故障信息,因此VIM很可能就同一个故障生成多个相同的故障综合信息。例如,HW1发生故障,与HW1具有关联关系的Host OS1、Hypervisor1、VM1和VM2也发生故障并且与HW1执行相同的操作,VIM在进行关联故障信息收集后会生成多个同样的故障综合信息,此时可以只处理其中的一个故障综合信息,将其他相同的故障综合信息丢弃。应理解,这里的相同的故障综合信息指的是HW、Host OS、Hypervisor和VM故障信息部分相同,故障状态可以不同。
具体地,可以通过故障综合信息的故障状态来保留或丢弃故障综合信息,例如,刚生成的故障综合信息的故障状态为“未处理”,对该故障综合信息进行报警重复检测,如果发现故障状态为“处理中”的相同的故障综合信息,则对未处理的故障综合信息做丢弃处理。保留即继续执行对故障状态为“处理中”的故障综合信息中的故障的处理。
1003b,VNFM报警重复检测
VNFM生成故障综合信息后,可以在VNFM本地检测已生成的故障综合信息,确定是否存在相同的信息。具体地,由于一个VNF实体发生故障后,与之具有关联关系的发生故障的VNF实体都会上报故障信息,因此VNFM很可能就同一个故障生成多个相同的故障综合信息。例如,VNF1发生故障,与VNF1具有关联关系的VNF2也发生故障并且与VNF1执行相同的操作,VNFM在进行关联故障信息收集后会生成多个同样的故障综合信息,此时可以只处理其中的一个故障综合信息,将其他相同的故障综合信息丢弃。应理解,这里的相同的故障综合信息指的是VNF状态信息部分相同,故障状态可以不同。
具体地,可以通过故障综合信息的故障状态来保留或丢弃故障综合信息,例如,刚生成的故障综合信息的故障状态为“未处理”,对该故障综合信息进行报警重复检测,如果发现故障状态为“处理中”的相同的故障综合信息,则对未处理的故障综合信息做丢弃处理。保留即继续执行对故障状态为“处理中”的故障综合信息中的故障的处理。
1004a,VIM自愈判断
当VIM有故障综合信息生成,VIM首先可以判断故障综合信息中的故障类型是否为VIM能够处理的故障类型。
具体地,VIM中具有故障修复策略,该故障修复策略包括故障实体标识、故障类型和故障修复方法的映射关系。可以通过判断故障综合信息中的故障类型是否存在于故障修复策略中而确定是否能够进行处理。例如,HW1的故障类型为“低性能”,相对应的故障修复方法为“重启”。
此外,当故障综合信息中包含多个关联的NFVI实体的故障信息时,VIM可以根据NFVI实体的优先级确定针对哪个NFVI实体的故障信息中的故障类型进行自愈判断。优先级为:HW高于Host OS高于Hypervisor高于VM。例如,如表二所示,当故障综合信息包含HW1、Host OS1、Hypervisor1、VM1和VM2的故障信息时,VIM可以优先处理HW1的故障,也就是说,根据HW1的故障信息中的故障类型,例如“低性能”,确定故障修复方法“重启”。
1004b,VNFM自愈判断
当VNFM有故障综合信息生成,VNFM首先可以判断故障综合信息中的故障类型是否为VNFM能够处理的故障类型。
具体地,VNFM中具有故障修复策略,该故障修复策略包括故障实体标识、故障类型和故障修复方法的映射关系。可以通过判断故障综合信息中的故障类型是否存在于故障修复策略中而确定是否能够进行处理。例如,VNF1的故障类型为“低性能”,相对应的故障修复方法为“增加一个VNF实例”。
具体的,故障修复方法可以包括但不限于下面列举的方法中的一种:重启硬件设备、重新加载软件(Host OS、Hypervisor等)、迁移VM、重新加载VNF安装软件、重新实例化VNF,增加VNF实例,迁移VNF(即给VNF重新分配资源),重新实例化VNF转发图(VNFForwarding Graph)。
1005a,VIM能够进行自愈处理
如果VIM判断能够处理,则根据故障修复方法对NFVI实体进行故障修复。如果故障修复成功,并且具有关联关系的NFVI实体的故障都得到修复,则通知Orchestrator修复成功,并终结该故障修复处理过程。
如果故障综合信息包含多个NFVI实体,被优先处理的NFVI实体的故障修复成功,但是其他关联的NFVI实体的故障依然存在,则重复进行1004a的步骤,对余下的依然存在故障的NFVI实体中优先级最高的NFVI实体进行判断,并修复,直到该故障综合信息中的所有NFVI实体的故障都得到修复,则通知Orchestrator修复成功,并终结该故障修复处理过程。
具体地,对于能够处理的故障综合信息,VIM可以将修复状态置为“处理中”以防止对后续生成的相同的“未处理”的故障综合信息进行重复处理。
修复成功的NFVI实体可以通过上报运行状态为“正常”的类似于表一的故障信息来通知VIM故障修复成功。当故障综合信息中具有关联关系的所有的NFVI实体的故障都得到修复,VIM可以将故障综合信息的故障状态置为“已修复”并通过Or-Vi接口上报Orchestrator。应理解,修复成功也可以通过预定义的信令进行上报,本发明对此不做限定。
此外,可以将正在进行修复的NFVI实体进行隔离,以避免该故障体与相邻的其他实体交互而导致进一步的故障传染。
1005b,VNFM能够进行自愈处理
如果VNFM判断能够处理,则根据故障修复方法对VNF实体进行故障修复。如果故障修复成功,并且具有关联关系的VNF实体的故障都得到修复,则通知Orchestrator修复成功,并终结该故障修复处理过程。
如果故障综合信息包含多个VNF实体,被优先处理的VNF实体的故障修复成功,但是其他关联的VNF实体的故障依然存在,则重复进行1004b的步骤,对余下的依然存在故障的VNF实体进行判断,并修复,直到该故障综合信息中的所有VNF实体的故障都得到修复,则通知Orchestrator修复成功,并终结该故障修复处理过程。
具体地,对于能够处理的故障综合信息,VNFM可以将修复状态置为“处理中”以防止对后续生成的相同的“未处理”的故障综合信息进行重复处理。
修复成功的VNF实体可以通过上报运行状态为“正常”的类似于表三的故障信息来通知VNFM故障修复成功。当故障综合信息中具有关联关系的所有的VNF实体的故障都得到修复,VNFM可以将故障综合信息的故障状态置为“已修复”并通过Or-Vnfm接口上报Orchestrator。应理解,修复成功也可以通过预定义的信令进行上报,本发明对此不做限定。
此外,可以将正在进行修复的VNF实体进行隔离,以避免该故障体与相邻的其他实体交互而导致进一步的故障传染。
1005c VIM不能够进行自愈处理
经过步骤1005a中的判断,如果VIM中的故障修复策略中不包含待修复的NFVI实体的故障类型,VIM向VNFM请求与第一VNFI实体相关联的VNF实体的故障信息。之后VIM接收VNFM发送的与第一VNFI实体相关联的VNF实体的故障信息,并将接收的故障信息加入原有NFVI的故障综合信息,然后通过Or-Vi接口向Orchestrator上报综合后的故障综合信息。例如,如上述图6a所示的关联关系,与HW1相关联的NFVI实体有Host OS1、Hypervisor1、VM1和VM2,进一步向VNF关联,VNF1和VNF2也与HW1具有关联关系,如果其中的VNF1也发生了故障,即VNFM处有VNF1的故障信息,则VNFM将VNF1的故障信息通过Vi-Vnfm接口发送给VIM,以便VIM进行综合处理上报。
1005d VNFM不能够进行自愈处理
经过步骤1005b中的判断,如果VNFM中的故障修复策略中不包含待修复的VNF实体的故障类型,VNFM向VIM请求与第一VNF实体相关联的NFVI实体的故障信息。之后VNFM接收VIM发送的与第一VNF实体相关联的NFVI实体的故障信息,并将接收的故障信息加入原有VNF的故障综合信息,然后通过Or-Vnfm接口向Orchestrator上报综合后的故障综合信息。例如,如上述图6a所示的关联关系,与VNF1相关联的NFVI实体有VM1、Host OS1、Hypervisor1、HW1和HW2,如果其中的VM1、Host OS1、Hypervisor1、HW1也发生了故障则VIM将VM1、Host OS1、Hypervisor1和HW1的故障信息通过Vi-Vnfm接口发送给VNFM,以便VNFM进行综合处理上报。
1006,Orchestrator自愈判断
Orchestrator接收到VNFM或VIM上报的经过综合处理的故障综合信息(1005c或1005d),Orchestrator检测是否能够对该故障综合信息进行自愈处理,与VIM的自愈判断相类似,Orchestrator查询本地故障修复策略,如果能够进行处理且修复成功,则将故障综合信息中的故障状态置为“已修复”并向OSS/BSS上报。如果Orchestrator不能够进行修复处理或者能进行修复处理但是修复失败,则将NFVI的故障综合信息的故障状态置为“未修复”并向OSS/BSS上报。应理解,由于Orchestrator负责编排管理资源,并实现NFV服务,因此Orchestrator具有较高的管理权限以及处理能力,能够修复大部分的故障。只有极少数的无法处理或者修复失败的故障才会被上报的OSS/BSS。
1007,OSS/BSS进行故障修复
OSS/BSS将该接收到的故障综合信息的故障状态改为“处理中”。然后OSS/BSS根据故障修复策略中的方法进行故障恢复。故障恢复后,OSS/BSS会收到NFVI实体发送的故障恢复通知,之后将OSS/BSS故障综合信息中的故障状态修改为“已修复”。其中OSS/BSS中的故障修复策略默认包含所有故障类型的处理方法。
本发明实施例提供的故障管理方法,通过VIM获取硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。此外,由于对相关联的故障信息进行综合处理,并且通过重复报警检测对相同的故障综合信息进行删除处理,并且对于正在处理的故障实体进行隔离处理,从而提高了故障处理的效率和准确度,且有效的防止了故障传染。
图11是本发明一个实施例的虚拟化基础设施管理VIM实体的示意框图。图11所示的VIM实体1100包括获取单元1101、生成单元1102和处理单元1103。
获取单元1101获取网络功能虚拟化基础设施NFVI实体的包含故障实体标识和故障类型的第一故障信息,第一故障信息用于指示具有故障实体标识的第一NFVI实体发生故障。
生成单元1102根据获取单元1101获取的第一故障信息生成第一故障综合信息,第一故障综合信息包含第一故障信息和第一故障信息的关联故障信息;
处理单元1103根据生成单元1102生成的第一故障综合信息进行故障修复或上报处理。
本发明实施例提供的VIM实体1100获取硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。
可选地,作为一个实施例,VIM实体1100还包括确定单元和接收单元,获取单元具体用于:通过接收单元接收第一NFVI实体发送的第一故障信息;或者通过确定单元确定第一NFVI实体发生故障,并根据第一NFVI实体发生的故障生成第一故障信息。
可选地,作为一个实施例,第一NFVI实体为NFVI实体中的任意一个硬件HW、主操作系统Host OS、虚拟机管理器或虚拟机VM实体,生成单元1102具体用于:通过确定单元确定与第一NFVI实体相关联的NFVI实体发送的故障信息为第一故障信息的关联故障信息;生成包含有第一故障信息和关联故障信息的第一故障综合信息。
可选地,作为一个实施例,处理单元1103包括发送单元,处理单元1103具体用于:根据第一故障综合信息中的第一故障信息的故障类型或者关联故障信息的故障类型,通过确定单元确定VIM实体1100是否包含与第一故障信息的故障类型或者关联故障信息的故障类型相对应的故障修复策略;在VIM实体1100包含与第一故障信息的故障类型或者关联故障信息的故障类型相对应的故障修复策略时,根据故障修复策略修复第一NFVI实体和/或与第一NFVI实体相关联的NFVI实体的故障;或者在VIM实体1100不包含与第一故障信息的故障类型或者关联故障信息的故障类型相对应的故障修复策略时,通过发送单元向VNFM发送第一故障综合信息或者向编排器发送第一故障综合信息。
可选地,作为一个实施例,处理单元1103具体用于:通过确定单元在第一NFVI实体和与第一NFVI实体相关联的NFVI实体中确定优先级最高的NFVI实体,其中,HW的优先级高于Host OS的优先级,Host OS的优先级高于虚拟机管理器的优先级,虚拟机管理器的优先级高于VM的优先级;根据优先级最高的NFVI实体的故障类型,通过确定单元确定VIM实体1100是否包含相对应的故障修复策略;在VIM实体1100包含与优先级最高的NFVI实体的故障类型相对应的故障修复策略时,根据故障修复策略修复优先级最高的NFVI实体的故障。
可选地,作为一个实施例,发送单元具体用于:在故障修复成功时,向编排器发送成功指示消息;在故障修复失败时,向VNFM发送第一故障综合信息或者向编排器发送第一故障综合信息。
可选地,作为一个实施例,接收单元还用于:接收VNFM发送的用于指示VNFM无法处理第一故障综合信息的指示消息;发送单元还用于:向编排器发送第一故障综合信息。
可选地,作为一个实施例,处理单元1103还用于:向VNFM请求与第一NFVI实体相关联的VNF实体的故障信息;将与第一NFVI实体相关联的VNF实体的故障信息加入第一故障综合信息。
可选地,作为一个实施例,接收单元还用于:接收VNFM发送的请求信息,请求信息用于向VIM实体1100请求与发生故障的VNF实体相关联的NFVI实体的故障信息;发送单元还用于向VNFM发送与发生故障的VNF实体相关联的NFVI实体的故障信息。
可选地,作为一个实施例,VIM实体1100还包括检测单元和删除单元,检测单元具体用于:根据第一故障综合信息检测VIM实体1100是否包含与第一故障综合信息相同的故障综合信息;删除单元具体用于在VIM实体1100包含与第一故障综合信息相同的故障综合信息时,删除第一故障综合信息。
本发明实施例提供的VIM实体1100硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。此外,由于对相关联的故障信息进行综合处理,并且通过重复报警检测对相同的故障综合信息进行删除处理,从而提高了故障处理的效率和准确度。
图12是本发明一个实施例的虚拟网络功能管理VNFM实体的示意框图。图12所示的VNFM实体1200包括获取单元1201、生成单元1202和处理单元1203。
获取单元1201获取虚拟网络功能VNF实体的包含故障实体标识和故障类型的第二故障信息,第二故障信息用于指示具有故障实体标识的第一VNF实体发生故障。生成单元1202根据第二故障信息生成第二故障综合信息。处理单元1203根据第二故障综合信息进行故障修复或上报处理。
本发明实施例提供的VNFM实体1200获取硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。
可选地,作为一个实施例,VNFM实体1200还包括确定单元和接收单元,获取单元具体用于:通过接收单元接收第一VNF实体发送的第二故障信息;或者通过确定单元确定第一VNF实体发生故障,并根据第一VNF实体发生的故障通过生成单元生成第二故障信息。
可选地,作为一个实施例,生成单元1202具体用于:通过确定单元确定与第一VNF实体相关联的VNF实体发送的故障信息为第二故障信息的关联故障信息;生成包含有第二故障信息和关联故障信息的第二故障综合信息。
可选地,作为一个实施例,处理单元1203包括发送单元,处理单元具体用于:根据第二故障综合信息中的第二故障信息的故障类型或者关联故障信息的故障类型,通过确定单元确定VNFM实体1200是否包含与第二故障信息的故障类型或者关联故障信息的故障类型相对应的故障修复策略;在VNFM实体1200包含与第二故障信息的故障类型或者关联故障信息的故障类型相对应的故障修复策略时,根据故障修复策略修复第一VNF实体和/或与第一VNF实体相关联的VNF实体的故障;或者在VNFM实体1200不包含与第二故障信息的故障类型或者关联故障信息的故障类型相对应的故障修复策略时,通过发送单元向编排器发送第二故障综合信息。
可选地,作为一个实施例,发送单元具体用于:在故障修复成功时,向编排器发送成功指示消息;在故障修复失败时,向编排器发送第二故障综合信息。
可选地,作为一个实施例,处理单元1203还用于:向虚拟化基础设施管理器VIM请求与第一VNF实体相关联的NFVI实体的故障信息,其中NFVI实体为NFVI中的任意一个硬件HW、主操作系统Host OS、虚拟机管理器或虚拟机VM实体;将与第一VNF实体相关联的NFVI实体的故障信息加入第二故障综合信息。
可选地,作为一个实施例,处理单元1203还用于:接收VIM发送的第一故障综合信息,第一故障综合信息包含第一故障信息和第一故障信息的关联故障信息,第一故障信息用于指示第一NFVI实体发生故障;确定VNFM实体1200是否包含与第一故障综合信息中的第一故障信息的故障类型或者关联故障信息的故障类型相对应的故障修复策略;在VNFM实体1200包含与第一故障信息的故障类型或者关联故障信息的故障类型相对应的故障修复策略时,根据故障修复策略修复第一NFVI实体和/或与第一NFVI实体相关联的NFVI实体的故障;或者在VNFM实体1200不包含与第一故障信息的故障类型或者关联故障信息的故障类型相对应的故障修复策略时,向编排器发送第一故障综合信息,或者向VIM发送用于指示VNFM实体1200无法处理第一故障综合信息的指示消息,以便于VIM向编排器发送第一故障综合信息。
可选地,作为一个实施例,处理单元1203还具体用于:根据第一故障综合信息确定与第一NFVI实体和/或与第一NFVI实体相关联的NFVI实体相关联的第一VNF实体的故障信息;将第一VNF实体的故障信息加入第一故障综合信息,以便于VNFM实体1200对第一故障综合信息进行修复或上报处理。
可选地,作为一个实施例,VNFM实体1200还包括检测单元和删除单元,检测单元具体用于:根据第二故障综合信息检测VNFM实体1200是否包含与第二故障综合信息相同的故障综合信息;删除单元具体用于在VNFM实体1200包含与第二故障综合信息相同的故障综合信息时,删除第二故障综合信息。
可选地,作为一个实施例,接收单元还用于:接收VIM发送的请求信息,请求信息用于向VNFM实体1200请求与发生故障的NFVI实体相关联的VNF实体的故障信息;发送单元还用于:向VIM发送与发生故障的NFVI实体相关联的VNF实体的故障信息。
本发明实施例提供的VNFM实体1200硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。此外,由于对相关联的故障信息进行综合处理,并且通过重复报警检测对相同的故障综合信息进行删除处理,从而提高了故障处理的效率和准确度。
图13是本发明一个实施例的编排器Orchestrator实体的示意框图。图12所示的Orchestrator实体1300包括接收单元1301和处理单元1302。
接收单元1301接收虚拟化基础设施管理器VIM发送的第一故障综合信息,其中,第一故障综合信息包括第一故障信息,第一故障信息包含故障实体标识和故障类型,第一故障信息用于指示具有故障实体标识的第一网络功能虚拟化基础设施NFVI实体发生故障。处理单元1302根据第一故障综合信息进行故障修复或上报处理。
或者
接收单元1301接收虚拟网络功能管理器VNFM发送的第二故障综合信息,其中,第二故障综合信息包括第二故障信息,第二故障信息包含故障实体标识和故障类型,第二故障信息用于指示具有故障实体标识的第一虚拟网络功能VNF实体发生故障。处理单元1302根据第二故障综合信息进行故障修复或上报处理。
本发明实施例提供的Orchestrator实体1300从VNFM或VIM获取硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。
可选地,作为一个实施例,第一故障综合信息还包括:与第一NFVI实体相关联的NFVI实体的故障信息;和/或与第一NFVI实体相关联的虚拟网络功能VNF实体的故障信息。
可选地,作为一个实施例,第二故障综合信息还包括:与第一VNF实体相关联的VNF实体的故障信息;和/或与第一VNF实体相关联的虚拟化基础设施管理NFVI实体的故障信息。
可选地,作为一个实施例,处理单元1302具体用于:根据第一故障综合信息中的故障类型,确定Orchestrator实体1300是否包含与故障类型相对应的故障修复策略;在Orchestrator实体1300包含与故障类型相对应的故障修复策略时,根据故障修复策略修复第一NFVI实体和/或与第一NFVI实体相关联的NFVI实体的故障;或者在Orchestrator实体1300不包含与故障类型相对应的故障修复策略时,向运营和业务支撑系统OSS/BSS发送第一故障综合信息。
可选地,作为一个实施例,处理单元1302具体用于:根据第二故障综合信息中的故障类型,确定Orchestrator实体1300是否包含与故障类型相对应的故障修复策略;在Orchestrator实体1300包含与故障类型相对应的故障修复策略时,根据故障修复策略修复第一VNF实体和/或与第一VNF实体相关联的VNF实体的故障;或者在Orchestrator实体1300不包含与故障类型相对应的故障修复策略时,向运营和业务支撑系统OSS/BSS发送第二故障综合信息。
可选地,作为一个实施例,处理单元1302具体用于:根据第一故障综合信息中的故障类型,确定Orchestrator实体1300是否包含与故障类型相对应的故障修复策略;在Orchestrator实体1300包含与故障类型相对应的故障修复策略时,根据故障修复策略修复第一NFVI实体和与第一NFVI实体相关联的NFVI实体的故障和与第一NFVI实体相关联的VNF实体的故障;或者在Orchestrator实体1300不包含与故障类型相对应的故障修复策略时,向OSS/BSS发送第一故障综合信息。
可选地,作为一个实施例,处理单元1302具体用于:根据第二故障综合信息中的故障类型,确定Orchestrator实体1300是否包含与故障类型相对应的故障修复策略;在Orchestrator实体1300包含与故障类型相对应的故障修复策略时,根据故障修复策略修复第一VNF实体和与第一VNF实体相关联的VNF实体的故障和与第一VNF实体相关联的NFVI实体的故障;或者在Orchestrator实体1300不包含与故障类型相对应的故障修复策略时,向OSS/BSS发送第二故障综合信息。
可选地,作为一个实施例,Orchestrator实体1300还包括检测单元和删除单元,检测单元用于:根据第一/第二故障综合信息检测Orchestrator实体1300是否包含与第一/第二故障综合信息相同的故障综合信息;删除单元用于在Orchestrator实体1300包含与第一/第二故障综合信息相同的故障综合信息时,删除第一/第二故障综合信息。
本发明实施例提供的Orchestrator实体1300从VIM或VNFM获取硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。此外,由于对相关联的故障信息进行综合处理,并且通过重复报警检测对相同的故障综合信息进行删除处理,从而提高了故障处理的效率和准确度。
图14是本发明另一实施例的VIM实体的示意框图。图14的VIM实体1400包括处理器1401和存储器1402。处理器1401和存储器1402通过总线系统1403相连。
存储器1402用于存储使得处理器1401执行以下操作的指令:获取NFVI实体的包含故障实体标识和故障类型的第一故障信息,第一故障信息用于指示具有故障实体标识的第一NFVI实体发生故障;根据第一故障信息生成第一故障综合信息,第一故障综合信息包含第一故障信息和第一故障信息的关联故障信息;根据第一故障综合信息进行故障修复或上报处理。
本发明实施例提供的VIM实体1400获取硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。
此外,VIM实体1400还可以包括发射电路1404、接收电路1405。处理器1401控制VIM实体1400的操作,处理器1401还可以称为CPU(Central Processing Unit,中央处理单元)。存储器1402可以包括只读存储器和随机存取存储器,并向处理器1401提供指令和数据。存储器1402的一部分还可以包括非易失性随机存取存储器(NVRAM)。VIM实体1400的各个组件通过总线系统1403耦合在一起,其中总线系统1403除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统1403。
上述本发明实施例揭示的方法可以应用于处理器1401中,或者由处理器1401实现。处理器1401可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1401可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1402,处理器1401读取存储器1402中的信息,结合其硬件完成上述方法的步骤。
本发明实施例提供的VIM实体1400硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。此外,由于对相关联的故障信息进行综合处理,并且通过重复报警检测对相同的故障综合信息进行删除处理,从而提高了故障处理的效率和准确度。
图15是本发明另一实施例的VNFM实体的示意框图。图15的VNFM实体1500包括处理器1501和存储器1502。处理器1501和存储器1502通过总线系统1503相连。
存储器1502用于存储使得处理器1501执行以下操作的指令:获取虚拟网络功能VNF实体的包含故障实体标识和故障类型的第二故障信息,第二故障信息用于指示具有故障实体标识的第一VNF实体发生故障。根据第二故障信息生成第二故障综合信息。根据第二故障综合信息进行故障修复或上报处理。
本发明实施例提供的VNFM实体1500获取硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。
此外,VNFM实体1500还可以包括发射电路1504、接收电路1505。处理器1501控制VNFM实体1500的操作,处理器1501还可以称为CPU(Central Processing Unit,中央处理单元)。存储器1502可以包括只读存储器和随机存取存储器,并向处理器1501提供指令和数据。存储器1502的一部分还可以包括非易失性随机存取存储器(NVRAM)。VNFM实体1500的各个组件通过总线系统1503耦合在一起,其中总线系统1503除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统1503。
上述本发明实施例揭示的方法可以应用于处理器1501中,或者由处理器1501实现。处理器1501可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1501可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1502,处理器1501读取存储器1502中的信息,结合其硬件完成上述方法的步骤。
本发明实施例提供的VNFM实体1500硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。此外,由于对相关联的故障信息进行综合处理,并且通过重复报警检测对相同的故障综合信息进行删除处理,从而提高了故障处理的效率和准确度。
图16是本发明另一实施例的Orchestrator实体的示意框图。图16的Orchestrator实体1600包括处理器1601和存储器1602。处理器1601和存储器1602通过总线系统1603相连。
存储器1602用于存储使得处理器1601执行以下操作的指令:接收虚拟化基础设施管理器VIM发送的第一故障综合信息,其中,第一故障综合信息包括第一故障信息,第一故障信息包含故障实体标识和故障类型,第一故障信息用于指示具有故障实体标识的第一网络功能虚拟化基础设施NFVI实体发生故障。根据第一故障综合信息进行故障修复或上报处理。
或者接收虚拟网络功能管理器VNFM发送的第二故障综合信息,其中,第二故障综合信息包括第二故障信息,第二故障信息包含故障实体标识和故障类型,第二故障信息用于指示具有故障实体标识的第一虚拟网络功能VNF实体发生故障;根据第二故障综合信息进行故障修复或上报处理。
本发明实施例提供的Orchestrator实体1600获取硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。
此外,Orchestrator实体1600还可以包括发射电路1604、接收电路1605。处理器1601控制Orchestrator实体1600的操作,处理器1601还可以称为CPU(Central ProcessingUnit,中央处理单元)。存储器1602可以包括只读存储器和随机存取存储器,并向处理器1601提供指令和数据。存储器1602的一部分还可以包括非易失性随机存取存储器(NVRAM)。Orchestrator实体1600的各个组件通过总线系统1603耦合在一起,其中总线系统1603除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统1603。
上述本发明实施例揭示的方法可以应用于处理器1601中,或者由处理器1601实现。处理器1601可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1601可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1602,处理器1601读取存储器1602中的信息,结合其硬件完成上述方法的步骤。
本发明实施例提供的Orchestrator实体1600硬件和/或软件实体的故障信息,对具有关联关系的故障信息进行综合处理,从而能够实现能够实现NFV环境下的故障上报及处理。此外,由于对相关联的故障信息进行综合处理,并且通过重复报警检测对相同的故障综合信息进行删除处理,从而提高了故障处理的效率和准确度。
本领域普通技术人员可以意识到,结合本文中所公开的实施例中描述的各方法步骤和单元,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各实施例的步骤及组成。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或步骤可以用硬件、处理器执行的软件程序,或者二者的结合来实施。软件程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内。

Claims (8)

1.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序或指令,当所述计算机程序或指令被处理器执行时,以完成以下功能:
获取网络功能虚拟化基础设施NFVI实体的包含故障实体标识和故障类型的第一故障信息,所述第一故障信息用于指示具有所述故障实体标识的第一NFVI实体发生故障;
根据所述第一故障信息生成第一故障综合信息,所述第一故障综合信息包含所述第一故障信息和所述第一故障信息的关联故障信息;
根据所述第一故障综合信息进行故障修复或上报处理。
2.根据权利要求1所述的存储介质,其特征在于,
所述第一故障信息还包括以下至少一项:运行状态、故障时间;
所述第一故障综合信息还包括故障状态信息,所述故障状态信息包含未处理,处理中,已修复和未修复中的至少一种。
3.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序或指令,当所述计算机程序或指令被处理器执行时,以完成以下功能:
获取虚拟网络功能VNF实体的包含故障实体标识和故障类型的第二故障信息,所述第二故障信息用于指示具有所述故障实体标识的第一VNF实体发生故障;
根据所述第二故障信息生成第二故障综合信息;
根据所述第二故障综合信息进行故障修复或上报处理。
4.根据权利要求3所述的存储介质,其特征在于,
所述第二故障信息还包括以下至少一项:运行状态、故障时间;
所述第二故障综合信息还包括故障状态信息,所述故障状态信息包含未处理,处理中,已修复和未修复中的至少一种。
5.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序或指令,当所述计算机程序或指令被处理器执行时,以完成以下功能:
接收虚拟化基础设施管理器VIM发送的第一故障综合信息,其中,所述第一故障综合信息包括第一故障信息,所述第一故障信息包含故障实体标识和故障类型,所述第一故障信息用于指示具有所述故障实体标识的第一网络功能虚拟化基础设施NFVI实体发生故障;
根据所述第一故障综合信息进行故障修复或上报处理。
6.根据权利要求5所述的存储介质,其特征在于,
所述第一故障信息还包括以下至少一项:运行状态、故障时间;
所述第一故障综合信息还包括故障状态信息,所述故障状态信息包含未处理,处理中,已修复和未修复中的至少一种。
7.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序或指令,当所述计算机程序或指令被处理器执行时,以完成以下功能:
接收虚拟网络功能管理器VNFM发送的第二故障综合信息,其中,所述第二故障综合信息包括第二故障信息,所述第二故障信息包含故障实体标识和故障类型,所述第二故障信息用于指示具有所述故障实体标识的第一虚拟网络功能VNF实体发生故障;
根据所述第二故障综合信息进行故障修复或上报处理。
8.根据权利要求7所述的存储介质,其特征在于,
所述第二故障信息还包括以下至少一项:运行状态、故障时间;
所述第二故障综合信息还包括故障状态信息,所述故障状态信息包含未处理,处理中,已修复和未修复中的至少一种。
CN201810143222.7A 2013-09-30 2013-09-30 故障管理的存储介质 Active CN108418711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810143222.7A CN108418711B (zh) 2013-09-30 2013-09-30 故障管理的存储介质

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201380002104.XA CN104685830B (zh) 2013-09-30 2013-09-30 故障管理的方法、实体和系统
PCT/CN2013/084686 WO2015042937A1 (zh) 2013-09-30 2013-09-30 故障管理的方法、实体和系统
CN201810143222.7A CN108418711B (zh) 2013-09-30 2013-09-30 故障管理的存储介质

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201380002104.XA Division CN104685830B (zh) 2013-09-30 2013-09-30 故障管理的方法、实体和系统

Publications (2)

Publication Number Publication Date
CN108418711A CN108418711A (zh) 2018-08-17
CN108418711B true CN108418711B (zh) 2021-05-18

Family

ID=52741866

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201810143222.7A Active CN108418711B (zh) 2013-09-30 2013-09-30 故障管理的存储介质
CN201380002104.XA Active CN104685830B (zh) 2013-09-30 2013-09-30 故障管理的方法、实体和系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201380002104.XA Active CN104685830B (zh) 2013-09-30 2013-09-30 故障管理的方法、实体和系统

Country Status (8)

Country Link
US (1) US10073729B2 (zh)
EP (2) EP3322125B1 (zh)
JP (1) JP6212207B2 (zh)
KR (1) KR101908465B1 (zh)
CN (2) CN108418711B (zh)
BR (1) BR112016006902B1 (zh)
RU (1) RU2644146C2 (zh)
WO (1) WO2015042937A1 (zh)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9806979B1 (en) * 2013-12-19 2017-10-31 Amdocs Software Systems Limited System, method, and computer program for optimizing a chain of virtual network functions in a network based on network function virtualization (NFV)
US10606718B1 (en) * 2013-12-19 2020-03-31 Amdocs Development Limited System, method, and computer program for managing fault recovery in network function virtualization (Nfv) based networks
WO2015099035A1 (ja) * 2013-12-27 2015-07-02 株式会社Nttドコモ 管理システム、仮想通信機能管理ノード及び管理方法
US10481935B2 (en) * 2013-12-27 2019-11-19 Ntt Docomo, Inc. Management system, overall management node, and management method for managing virtualization resources in a mobile communication network
RU2641706C1 (ru) * 2014-01-21 2018-01-22 Хуавэй Текнолоджиз Ко., Лтд. Способ обработки отказа сетевой службы, система управления службами и модуль управления системой
CN105591784A (zh) * 2014-10-24 2016-05-18 中兴通讯股份有限公司 告警处理方法及装置
US9946614B2 (en) * 2014-12-16 2018-04-17 At&T Intellectual Property I, L.P. Methods, systems, and computer readable storage devices for managing faults in a virtual machine network
CN105873114B (zh) * 2015-01-21 2020-12-11 中兴通讯股份有限公司 一种虚拟网络功能性能监控的方法及相应的系统
WO2016161605A1 (zh) 2015-04-09 2016-10-13 华为技术有限公司 基于网络功能虚拟化的故障处理方法和装置
CN106301828A (zh) * 2015-05-21 2017-01-04 中兴通讯股份有限公司 一种虚拟化网络功能业务故障的处理方法及装置
CN106330501A (zh) * 2015-06-26 2017-01-11 中兴通讯股份有限公司 一种故障关联方法和装置
EP3300298B1 (en) 2015-06-30 2020-11-25 Huawei Technologies Co., Ltd. Method and apparatus for switching vnf
CN106375101B (zh) * 2015-07-20 2019-08-27 华为技术有限公司 一种生命周期管理方法及装置
WO2017015965A1 (zh) * 2015-07-30 2017-02-02 华为技术有限公司 一种统计可用度的装置及方法
CN108141375B (zh) * 2015-08-10 2021-10-29 诺基亚通信公司 云部署中的自动征兆数据收集
CN105049293B (zh) * 2015-08-21 2018-03-30 中国联合网络通信集团有限公司 监控的方法及装置
CN107409063B (zh) 2015-08-25 2019-12-24 华为技术有限公司 一种获取vnf信息的方法、装置及系统
CN106533714A (zh) * 2015-09-09 2017-03-22 中兴通讯股份有限公司 重新实例化虚拟网络功能的方法和装置
CN105187249B (zh) 2015-09-22 2018-12-07 华为技术有限公司 一种故障恢复方法及装置
CN107534575B (zh) * 2015-10-21 2020-07-10 北京航天天盾信息有限公司 一种网络虚拟化环境下的监控方法、监控装置和网络节点
WO2017078790A1 (en) * 2015-11-02 2017-05-11 Intel IP Corporation Restoring virtual network function (vnf) performance via vnf reset of lifecycle management
CN106878096B (zh) * 2015-12-10 2019-12-06 中国电信股份有限公司 Vnf状态检测通告方法、装置以及系统
CN105681077B (zh) * 2015-12-31 2019-04-05 华为技术有限公司 故障处理方法、装置及系统
WO2017157903A1 (en) * 2016-03-14 2017-09-21 Nokia Solutions And Networks Oy End-to-end virtualized network function healing
CN105847237B (zh) * 2016-03-15 2019-01-15 中国联合网络通信集团有限公司 一种基于nfv的安全管理方法和装置
US11288086B2 (en) * 2016-03-31 2022-03-29 Nec Corporation Network system, management method and apparatus thereof, and server
US10547511B2 (en) * 2016-05-04 2020-01-28 Alcatel Lucent Infrastructure resource states
US10083098B1 (en) 2016-06-07 2018-09-25 Sprint Communications Company L.P. Network function virtualization (NFV) virtual network function (VNF) crash recovery
EP3472971B1 (en) * 2016-06-16 2022-09-14 Telefonaktiebolaget LM Ericsson (publ) Technique for resolving a link failure
JP6607572B2 (ja) * 2016-08-10 2019-11-20 日本電信電話株式会社 復旧制御システム及び方法
WO2018040042A1 (zh) * 2016-08-31 2018-03-08 华为技术有限公司 一种告警信息上报方法及装置
IL248285B (en) * 2016-10-10 2018-01-31 Adva Optical Networking Israel Ltd A method and system for the secure operation of a virtual network
US11012883B2 (en) * 2017-01-06 2021-05-18 Apple Inc. Measurement job suspension and resumption in network function virtualization
CN108347339B (zh) * 2017-01-24 2020-06-16 华为技术有限公司 一种业务恢复方法及装置
JP6778151B2 (ja) * 2017-06-20 2020-10-28 日本電信電話株式会社 ネットワーク管理装置およびネットワーク管理方法
CN107623596A (zh) * 2017-09-15 2018-01-23 郑州云海信息技术有限公司 一种nfv平台中启动测试网元定位排查故障的方法
EP3503614B1 (en) * 2017-12-22 2022-06-08 Deutsche Telekom AG Devices and methods for monitoring and handling faults in a network slice of a communication network
CN109995568B (zh) * 2018-01-02 2022-03-29 中国移动通信有限公司研究院 故障联动处理方法、网元及存储介质
CN109995569B (zh) * 2018-01-02 2022-06-03 中国移动通信有限公司研究院 故障联动处理方法、网元及存储介质
KR102019927B1 (ko) * 2018-09-12 2019-11-04 숭실대학교산학협력단 네트워크 기능 가상화 운영 장치 및 방법
CN112840609A (zh) * 2018-11-01 2021-05-25 慧与发展有限责任合伙企业 虚拟网络功能对服务中断的响应
US10979321B2 (en) * 2018-12-10 2021-04-13 Nec Corporation Method and system for low-latency management and orchestration of virtualized resources
US10887156B2 (en) * 2019-01-18 2021-01-05 Vmware, Inc. Self-healing Telco network function virtualization cloud
CN110601905A (zh) * 2019-09-29 2019-12-20 苏州浪潮智能科技有限公司 一种故障检测方法和装置
CN112860496A (zh) 2019-11-27 2021-05-28 华为技术有限公司 故障修复操作推荐方法、装置及存储介质
CN113541988B (zh) * 2020-04-17 2022-10-11 华为技术有限公司 一种网络故障的处理方法及装置
CN114363144B (zh) * 2020-09-28 2023-06-27 华为技术有限公司 一种面向分布式系统的故障信息关联上报方法及相关设备
WO2022264289A1 (ja) * 2021-06-15 2022-12-22 楽天モバイル株式会社 ネットワーク管理装置、ネットワーク管理方法およびプログラム
WO2023228233A1 (ja) * 2022-05-23 2023-11-30 楽天モバイル株式会社 障害発生時における自動復旧のためのネットワーク管理

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009294972A (ja) * 2008-06-06 2009-12-17 Fujitsu Ltd 監視システム、監視装置、被監視装置、監視方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006057588A1 (en) * 2004-11-29 2006-06-01 Telefonaktiebolaget Lm Ericsson (Publ) Service alarm correlation
WO2004061681A1 (ja) * 2002-12-26 2004-07-22 Fujitsu Limited 運用管理方法および運用管理サーバ
KR100805820B1 (ko) * 2006-09-29 2008-02-21 한국전자통신연구원 센서 네트워크의 노드 장애 관리 방법 및 이를 위한 장애 발생 보고 장치
US7877760B2 (en) * 2006-09-29 2011-01-25 Microsoft Corporation Distributed hardware state management in virtual machines
EP1976185B1 (en) * 2007-03-27 2019-05-01 Nokia Solutions and Networks GmbH & Co. KG Operating network entities in a communication system comprising a management network with agent and management levels
JP5140633B2 (ja) * 2008-09-04 2013-02-06 株式会社日立製作所 仮想化環境において生じる障害の解析方法、管理サーバ、及びプログラム
JP5287402B2 (ja) * 2009-03-19 2013-09-11 富士通株式会社 ネットワーク監視制御装置
US7975165B2 (en) * 2009-06-25 2011-07-05 Vmware, Inc. Management of information technology risk using virtual infrastructures
US8055933B2 (en) * 2009-07-21 2011-11-08 International Business Machines Corporation Dynamic updating of failover policies for increased application availability
US8122290B2 (en) * 2009-12-17 2012-02-21 Hewlett-Packard Development Company, L.P. Error log consolidation
JP5494298B2 (ja) * 2010-07-06 2014-05-14 富士通株式会社 計算機装置,障害復旧制御プログラムおよび障害復旧制御方法
US8887006B2 (en) * 2011-04-04 2014-11-11 Microsoft Corporation Proactive failure handling in database services
CN102394774B (zh) * 2011-10-31 2014-03-26 广东电子工业研究院有限公司 一种云计算操作系统的控制器服务状态监控和故障恢复方法
CN102523257A (zh) * 2011-11-30 2012-06-27 广东电子工业研究院有限公司 一种基于iaas云平台的虚拟机容错方法
US9262253B2 (en) * 2012-06-28 2016-02-16 Microsoft Technology Licensing, Llc Middlebox reliability
US9292376B2 (en) * 2012-08-24 2016-03-22 Vmware, Inc. Proactive resource reservation for protecting virtual machines
CN103037019B (zh) * 2013-01-07 2016-05-18 北京华胜天成科技股份有限公司 一种基于云计算的分布式数据采集系统及方法
KR101718374B1 (ko) * 2013-01-11 2017-03-21 후아웨이 테크놀러지 컴퍼니 리미티드 네트워크 장치에 대한 네트워크 기능 가상화
US9973375B2 (en) * 2013-04-22 2018-05-15 Cisco Technology, Inc. App store portal providing point-and-click deployment of third-party virtualized network functions
US9350632B2 (en) * 2013-09-23 2016-05-24 Intel Corporation Detection and handling of virtual network appliance failures

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009294972A (ja) * 2008-06-06 2009-12-17 Fujitsu Ltd 監視システム、監視装置、被監視装置、監視方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Network Function Virtual(NFV) Mangement and Orchestration;ETSI;《GS NFV-MAN 001 V<0.0.5>》;20130917;全文 *

Also Published As

Publication number Publication date
WO2015042937A1 (zh) 2015-04-02
KR20160060741A (ko) 2016-05-30
BR112016006902A2 (zh) 2017-09-19
US20160224409A1 (en) 2016-08-04
RU2644146C2 (ru) 2018-02-07
RU2016117218A (ru) 2017-11-14
JP2016533655A (ja) 2016-10-27
EP3024174B1 (en) 2017-11-22
CN104685830A (zh) 2015-06-03
JP6212207B2 (ja) 2017-10-11
CN104685830B (zh) 2018-03-06
KR101908465B1 (ko) 2018-12-10
CN108418711A (zh) 2018-08-17
EP3024174A1 (en) 2016-05-25
EP3322125A1 (en) 2018-05-16
EP3322125B1 (en) 2019-11-13
BR112016006902B1 (pt) 2022-10-04
EP3024174A4 (en) 2016-08-17
US10073729B2 (en) 2018-09-11

Similar Documents

Publication Publication Date Title
CN108418711B (zh) 故障管理的存储介质
JP6443895B2 (ja) 障害管理方法、仮想化ネットワーク機能マネージャ(vnfm)、及びプログラム
US8910172B2 (en) Application resource switchover systems and methods
US10037238B2 (en) System and method for encoding exception conditions included at a remediation database
US8381028B2 (en) Accelerating recovery in MPI environments
US9652326B1 (en) Instance migration for rapid recovery from correlated failures
US9229820B2 (en) Information processing device with memory dump function, memory dump method, and recording medium
US10353786B2 (en) Virtualization substrate management device, virtualization substrate management system, virtualization substrate management method, and recording medium for recording virtualization substrate management program
US20210105179A1 (en) Fault management method and related apparatus
CN108347339B (zh) 一种业务恢复方法及装置
WO2008135875A1 (en) Dynamic cli mapping for clustered software entities
US20150121144A1 (en) Synchronized debug information generation
US8990608B1 (en) Failover of applications between isolated user space instances on a single instance of an operating system
JP5642725B2 (ja) 性能分析装置、性能分析方法及び性能分析プログラム
US20230088318A1 (en) Remotely healing crashed processes
RU2672184C1 (ru) Способ, устройство и система управления обработкой отказов
WO2019170133A1 (zh) 一种数据存储方法及装置
CN108268367B (zh) 一种应用程序亲和性判断方法及相关应用程序
CN114416304A (zh) 一种虚拟机疏散方法和系统
CN116566804A (zh) 一种云环境下智能网卡硬件卸载的单点故障避免方法
CN115705261A (zh) 内存故障的修复方法、cpu、os、bios及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant