CN105790980B - 一种故障修复方法及装置 - Google Patents

一种故障修复方法及装置 Download PDF

Info

Publication number
CN105790980B
CN105790980B CN201410811245.2A CN201410811245A CN105790980B CN 105790980 B CN105790980 B CN 105790980B CN 201410811245 A CN201410811245 A CN 201410811245A CN 105790980 B CN105790980 B CN 105790980B
Authority
CN
China
Prior art keywords
fault
vnf
repairing
repair
faults
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410811245.2A
Other languages
English (en)
Other versions
CN105790980A (zh
Inventor
倪华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201410811245.2A priority Critical patent/CN105790980B/zh
Priority to PCT/CN2015/078370 priority patent/WO2016101486A1/zh
Publication of CN105790980A publication Critical patent/CN105790980A/zh
Application granted granted Critical
Publication of CN105790980B publication Critical patent/CN105790980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/40Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using virtualisation of network functions or resources, e.g. SDN or NFV entities

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种故障修复方法及装置,其中,该方法包括:监控VNF或VM是否上报故障;在上报故障的情况下,确定故障类型,其中,故障类型包括以下之一:部分VM故障,全部VM故障,VNF故障;按照故障类型确定故障修复策略,并根据故障修复策略进行故障修复。本发明提供了一种故障修复方法,该方法主动监控VNF或VM是否上报故障,在上报故障的情况下,根据故障类型来自动采取不同的故障修复策略,上述过程中NFV的架构下的虚拟设备在遇到故障时自动修复,响应时间短,还节省人力,解决了现有NFV的架构下的故障修复方式都是人工修复,但人工修复对业务的影响时间长,也浪费大量的人力成本的问题。

Description

一种故障修复方法及装置
技术领域
本发明涉及通讯领域,特别是涉及一种故障修复方法及装置。
背景技术
NFV(Network Function Virtualization,网络功能虚拟化)后的管理架构,如图1所示,NFV-MANO(NFV Management and Orchestration,NFV管理和编制)的架构图及参考点。其中,NFVO(Network Functions Virtualization Orchestrator,NFV协调器)负责网络服务的生命周期管理、跨VIM(Virtualised Infrastructure Manager,虚拟化基础设施经理)的NFVI(Network Functions Virtualization Infrastructure,网络功能虚拟化基础设施)资源调度等功能,VNFM(Virtualised Network Function Manager,虚拟化网络功能经理)负责VNF(Virtualised Network Function)实例的生命周期管理,每个VNF实例假设都有一个关联的VNFM,VIM负责控制和管理NFVI计算,存储和网络资源,其中,图中示出的是虚拟架构,但并未示出VIM下的各个VM(Virtual Machine,虚拟机)实体。
在NFV的架构下,告警的来源可以分成多种,包括物理架构(比如,NFVI的计算、存储和网络相关告警)、虚拟架构(比如,虚拟机VM相关告警)、应用逻辑(比如,VNF实例相关的告警)。其中,NFVI相关告警由NFVI产生并通过VIM上报给VNFM或NFVO,虚拟机相关告警由VIM产生并上报给VNFM或NFVO,VNF应用层告警由VNF产生并上报给VNFM或EM。无论是什么样的告警,一旦出现故障,最终都可能对网络服务产生影响,需要尽快解决。现有的修复方式都是人工修复,但人工修复对业务的影响时间长,也浪费大量的人力成本。
发明内容
本发明提供一种故障修复方法及装置,用以解决现有技术中,NFV的架构下的故障修复方式都是人工修复,但人工修复对业务的影响时间长,也浪费大量的人力成本的问题。
为解决上述技术问题,一方面,本发明提供一种故障修复方法,包括:监控VNF或VM是否上报故障;在上报故障的情况下,确定故障类型,其中,所述故障类型包括以下之一:部分VM故障,全部VM故障,VNF故障;按照所述故障类型确定故障修复策略,并根据所述故障修复策略进行故障修复。
进一步,在所述故障类型为部分VM故障的情况下,按照所述故障类型确定故障修复策略,并根据所述故障修复策略进行故障修复包括:判断VM中是否存在主用VM和备用VM;如果是,则在故障VM为所述主用VM情况下,进行主备VM倒换,再将故障的所述主用VM从所述VNF中删除,在所述故障VM为所述备用VM的情况下,将故障的所述备用VM从所述VNF中删除;如果不是,则缩小所述VNF的功能,再将所述故障VM从所述VNF中删除。
进一步,将故障VM从所述VNF中删除之后,还包括:发送分配请求,以请求分配新的VM;在分配所述新的VM的情况下,将所述新的VM加入到所述VNF中。
进一步,在所述故障类型为全部VM故障或VNF故障的情况下,按照所述故障类型确定故障修复策略,并根据所述故障修复策略进行故障修复包括:按照所述故障修复策略对所述VNF进行故障修复,其中,所述故障修复策略包括:主用VNF与备用VNF进行倒换操作,或者,内部逻辑修复操作;在所述故障修复失败的情况下,重建一个新的VNF。
进一步,监控VNF与VM是否存在故障之前,还包括:记录VNF与VM的映射关系。
进一步,所述方法还包括:实时监听是否存在故障解除消息;在存在所述故障解除消息的情况下,重新使用解除故障后的VNF或VM。
进一步,根据所述故障修复策略进行故障修复之后,还包括:检测执行所述故障修复策略的次数是否达到预设次数;在未达到所述预定次数的情况下,继续根据所述故障修复策略进行故障修复;在达到所述预定次数的情况下,不再继续执行所述故障修复策略。
另一方面,还提供了一种故障修复装置,包括:监控模块,用于监控VNF或VM是否上报故障;确定模块,用于在上报故障的情况下,确定故障类型,其中,所述故障类型包括以下之一:部分VM故障,全部VM故障,VNF故障;故障修复模块,用于按照所述故障类型确定故障修复策略,并根据所述故障修复策略进行故障修复。
进一步,所述故障修复模块包括:判断单元,用于在所述故障类型为部分VM故障的情况下,判断VM中是否存在主用VM和备用VM;第一修复单元,用于在存在所述主用VM和所述备用VM时,在故障VM为所述主用VM情况下,进行主备VM倒换,再将故障的所述主用VM从所述VNF中删除,在所述故障VM为所述备用VM的情况下,将故障的所述备用VM从所述VNF中删除;第二修复单元,用于在不存在所述主用VM和所述备用VM时,缩小所述VNF的功能,再将所述故障VM从所述VNF中删除。
进一步,所述故障修复模块包括:第三修复单元,用于在所述故障类型为全部VM故障或VNF故障的情况下,按照所述故障修复策略对所述VNF进行故障修复,其中,所述故障修复策略包括:主用VNF与备用VNF进行倒换操作,或者,内部逻辑修复操作;重建单元,用于在所述故障修复失败的情况下,重建一个新的VNF。
进一步,所述装置还包括:记录模块,用于记录VNF与VM的映射关系。
进一步,所述装置还包括:第一检测模块,用于实时监听是否存在故障解除消息;添加模块,用于在存在所述故障解除消息的情况下,重新使用解除故障后的VNF或VM。
进一步,所述装置还包括:第二检测模块,用于检测执行所述故障修复策略的次数是否达到预设次数;所述故障修复模块,还用于在达到所述预定次数的情况下,不再继续执行所述故障修复策略;或者,在未达到所述预定次数的情况下,继续根据所述故障修复策略进行故障修复。
本发明提供了一种故障修复方法,该方法主动监控VNF或VM是否上报故障,在上报故障的情况下,根据故障类型来自动采取不同的故障修复策略,上述过程中NFV的架构下的虚拟设备在遇到故障时自动修复,响应时间短,还节省人力,解决了现有NFV的架构下的故障修复方式都是人工修复,但人工修复对业务的影响时间长,也浪费大量的人力成本的问题。
附图说明
图1是现有技术中NFV-MANO架构图;
图2是本发明实施例中故障修复方法的流程图;
图3是本发明实施例中故障修复装置的结构示意图;
图4是本发明实施例中故障修复装置故障修复模块的第一种结构示意图;
图5是本发明实施例中故障修复装置故障修复模块的第二种结构示意图;
图6是本发明实施例中故障修复装置的优选结构示意图;
图7是本发明可选实施例中故障上报后自愈处理方法的流程图;
图8是本发明可选实施例中故障恢复上报后的自愈处理方法的流程图;
图9是本发明可选实施例中EM的跨VNFM的故障修复示意图。
具体实施方式
为了解决现有技术中,NFV的架构下的故障修复方式都是人工修复,但人工修复对业务的影响时间长,也浪费大量的人力成本的问题,本发明提供了一种故障修复方法及装置,以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
本发明实施例提供了一种故障修复方法,该方法的流程如图2所示,包括S202至S206:
S202,监控VNF或VM是否上报故障;
S204,在上报故障的情况下,确定故障类型,其中,故障类型包括以下之一:部分VM故障,全部VM故障,VNF故障;
S206,按照故障类型确定故障修复策略,并根据故障修复策略进行故障修复。
本发明实施例提供了一种故障修复方法,该方法主动监控VNF或VM是否上报故障,在上报故障的情况下,根据故障类型来自动采取不同的故障修复策略,上述过程中NFV的架构下的虚拟设备在遇到故障时自动修复,响应时间短,还节省人力,解决了现有NFV的架构下的故障修复方式都是人工修复,但人工修复对业务的影响时间长,也浪费大量的人力成本的问题。
在监控VNF与VM是否存在故障之前,还可以记录VNF与VM的映射关系,并进行保存,以便后续根据该映射关系确定哪一个VNF出现问题。
实现过程中,根据故障类型不同,采取不同的故障修复策略。如果故障类型为部分VM故障,则判断VM中是否存在主用VM和备用VM;如果是,则在故障VM为主用VM情况下,进行主备VM倒换,再将故障的主用VM从VNF中删除,在故障VM为备用VM的情况下,将故障的备用VM从VNF中删除;如果不是,则缩小VNF的功能,再将故障VM从VNF中删除。不管是否存在主用VM和备用VM,在将故障VM从VNF中删除之后,都可以发送分配请求,来请求分配新的VM;在分配新的VM的情况下,将新的VM加入到VNF中。
如果故障类型为全部VM故障或VNF故障,则都会导致VNF处于不可用状态,按照故障修复策略对VNF进行故障修复,其中,故障修复策略可以是主用VNF与备用VNF进行倒换操作(在存在主备VNF的情况下),或者,内部逻辑修复操作。如果故障修复失败的情况下,重建一个新的VNF。
在已经发现存在故障之后,实时检测是否存在故障解除消息,如果存在故障解除消息,说明原来出现故障的VNF或VM已经可以使用了,则可以重新使用解除故障后的VNF或VM。上述过程中是实时检测是否存在故障解除消息,本领域技术人员也可以设置一个时间间隔较短的时间,然后按照预定时间间隔检测是否存在故障解除消息,其实施方式属于本发明上述实施方式等价变换,也在本发明的保护范围内。
在根据故障修复策略进行故障修复之后,检测执行故障修复策略的次数是否达到预设次数,如果达到预定次数仍然没有修复好,则说明自动修复无法将该故障解除,需要人工修复,便不再继续执行故障修复策略,如果没有达到预定次数,则继续根据故障修复策略进行故障修复。
在实施过程中,确定故障类型后,还可以为不同的故障类型设置为VNF设置不同的故障修复状态,以便后续操作,例如,在故障类型为部分VM故障的情况下,设置VNF的故障修复状态为VNF部分故障状态,在故障类型为全部VM故障或VNF故障的情况下,设置VNF的故障修复状态为VNF全部故障状态,在把故障VM从VNF中删除后,设置VNF的故障修复状态为VNF故障隔离修复。
本发明实施例还提供了一种故障修复装置,其结构示意如图3所示,包括:监控模块10,用于监控虚拟化网络功能VNF或虚拟机VM是否上报故障;确定模块20,与监控模块10耦合,用于在上报故障的情况下,确定故障类型,其中,故障类型包括以下之一:部分VM故障,全部VM故障,VNF故障;故障修复模块30,与确定模块20耦合,用于按照故障类型确定故障修复策略,并根据故障修复策略进行故障修复。优选的,上述装置还可以包括记录模块,可以设置在监控模块10和确定模块20之间,用于记录VNF与VM的映射关系,以便后续根据该映射关系确定哪一个VNF出现问题。
其中,故障修复模块30的结构示意如图4所示,包括:判断单元301,用于在故障类型为部分VM故障的情况下,判断VM中是否存在主用VM和备用VM;第一修复单元302,与判断单元301耦合,用于在存在主用VM和备用VM时,在故障VM为主用VM情况下,进行主备VM倒换,再将故障的主用VM从VNF中删除,在故障VM为备用VM的情况下,将故障的备用VM从VNF中删除;第二修复单元303,与判断单元301耦合,用于在不存在主用VM和备用VM时,缩小VNF的功能,再将故障VM从VNF中删除。
故障修复模块30还可以如图5所示,包括:第三修复单元304,用于在故障类型为全部VM故障或VNF故障的情况下,按照故障修复策略对VNF进行故障修复,其中,故障修复策略包括:主用VNF与备用VNF进行倒换操作,或者,内部逻辑修复操作;重建单元305,与第三修复单元304耦合,用于在故障修复失败的情况下,重建一个新的VNF。
在本发明实施例中,并未将图4和图5两种故障修复模块30进行结合设置,当然,本领域技术人员在设置时,可以将上述图3和图4中的两种结构进行结合设置,这样故障修复模块30能够具备较为完备的功能。
实施过程中,装置还可以如图6所示,还包括:第一检测模块40,用于实时监听检测是否存在故障解除消息;添加模块50,与第一检测模块40和监控模块10耦合,用于在存在故障解除消息的情况下,重新使用解除故障后的VNF或VM;第二检测模块60,与故障修复模块30耦合,用于检测执行故障修复策略的次数是否达到预设次数;故障修复模块30,还用于在故障修复策略的次数达到预定次数的情况下,不再继续执行故障修复策略;或者,在未达到预定次数的情况下,继续根据故障修复策略进行故障修复。在本实施例中,第一检测模块40可以与监控模块10耦合设置,也可以与故障修复模块30耦合设置,也可以独立设置,此处不进行限定。
可选实施例
目前网络虚拟化后,还未提出可实施的网络故障自动修复的方法。本发明实施例为解决此问题,提出一种网络功能虚拟化后的故障修复方法,实现尽快解决故障、对网络服务的影响降到最低。
通常,NFVI相关告警,与硬件直接相关,此类告警可能导致VM不正常工作,可能完全失效或部分失效。现有技术下,可能做到由虚拟机来隔离硬件故障,如某些磁盘故障,但整个磁阵是可共享的,从虚拟硬盘来看,还可以认为虚拟硬盘正常,只是总容量有所降低。因此,本发明实施例中不直接考虑NFVI告警带来的影响,仅考虑VM故障后的自愈处理。
本发明实施例提供的故障修复方法在虚拟机故障(VM故障)、应用逻辑故障(VNF故障)发生时,尽快自动修复故障,保证网络服务不中断或尽快恢复,技术方案包括以下方面:
(1)记录VNF和VM间的映射关系。VNFM在VNF的创建、删除、变更时记录下VNF和VM的映射关系,一个VNF可能有多个VM。
(2)记录VNF的故障修复状态。故障修复状态可以包括但不限于以下取值:正常、完全故障、部分故障、故障隔离修复、自动修复失败。
(3)使用VNF和VM的映射关系、VNF故障修复状态,由故障触发或定时触发自动修复。
(4)故障触发:监控VNF和VM上报的故障。VNF和VM都可能上报故障。针对不同的故障,分别开始进行自动修复处理。
若上报了VM故障,逐个修复VM故障;支撑某个VNF的一个或多个VM发生故障,但不是全部VM发生故障,则标识VNF状态为部分故障,其执行如下过程。
a)首先隔离故障点。若VM已经存在主备,且故障VM为备VM,则直接把故障VM从VNF中删除;若故障VM为主VM,则执行主备VM倒换后,再故障VM从VNF中删除。若非主备VM,则对VNF执行缩小操作,避免对现有业务产生影响,再把VM从VNF中删除。
b)隔离完成后,设置VNF状态为故障隔离修复。
c)再尝试申请新的VM,申请成功后把新的VM分配给VNF,设置VNF状态为正常。
d)若由于资源不足或其他原因,VM无法申请成功,则进入步骤6),由定时修复模块来完成故障修复。
(5)若全部VM发生故障,或全部VM正常,而VNF上报故障,其执行如下过程。
设置VNF状态为完全故障,执行VNF修复动作;若VNF支持修复,则先调用修复(修复可能是主备倒换或其他VNF内部定义的修复操作)。修复失败后,再执行重建VNF动作,重建VNF时,可指明使用原有的VM(原VM正常时)或申请新的VM。重建成功,设置VNF状态为正常;重建失败,进入步骤(6),由定时修复模块来完成故障修复。
(6)监控VM故障恢复消息,或定时触发执行修复操作。
当VM故障恢复,表示有新的VM资源可用,可以继续自动修复;或者,网络中增加了新的物理设置,也可以继续自动修复。
遍历检查所有的VNF状态,若为完全故障状态,则执行(5),尝试再次自动修复;若为部分故障状态,则执行(4),尝试再次自动修复;若为故障隔离状态,则为VNF申请新的VM,申请成功后把新的VM分配给VNF,设置VNF状态为正常;若依然失败,则继续进入(6)。
(7)可预先设置每个VNF自动修复次数,当自动修复次数大于预先指定的次数,则退出自动修复流程。无法自动修复,通常需要人工修复了。维护人员可以查询VNF告警和VNF的故障修复状态,当VNF的故障修复状态为“自动修复失败”,可以进行人工处理。
(8)无论是自动修复,还是人工修复,VNF告警恢复时,将VNF的故障修复状态设置为正常。
根据上述方法,可以实现如下网络功能虚拟化后的故障修复装置:
该装置包括:
故障修复信息记录模块:负责记录VNF和VM的映射关系,记录VNF的故障修复状态。
故障自动修复模块(相当于监控模块、确定模块和故障修复模块):监听到VM或VNF上报的故障后,发起对故障的自动修复,并根据修复情况,更新VNF的故障修复状态。
故障定时修复模块(相当于第一检测模块和第二检测模块进行检测的过程):监听到VM的故障恢复消息,或定时遍历VNF的故障修复状态,通过故障自动修复模块对处于故障状态的VNF继续实施自动修复。
上述故障修复装置,既可以部署在VNFM,也可以部署在EM或NFVO中。部署在EM或NFVO中,可以实现多VNFM的管理。如果一个VNFM下的资源不足或其他故障,可以到另一个VNFM中重建VNF。其中故障修复信息记录模块,若部署在EM中,需要VNFM在发出VNF的增删改通知时,携带对应VM的标识信息。
下面结合附图对上述实施例作进一步的详细描述。
实施方式一
如图7所示的流程,本发明实施例所述NFV中故障上报后自动修复处理实施方式如下,假设故障修复装置部署在VNFM上,流程包括S701至S710。
S701,故障自动修复模块监控VM和VNF上报的故障,确定故障类型。其中,收到VM和VNF的故障后,在故障信息记录中查找VNF和VM间的映射关系、VNF的故障处理状态后,分别处理。
S702,若为VM故障,则判断是否所有VM均故障。如果是,则执行S708,否则执行S703。
S703,对应的VNF中只有部分VM故障,其余VM依然可正常提供服务。则首先屏蔽故障VM对业务带来的影响。VNFM可给VNF下发缩小请求,参数中携带希望卸载的故障VM。VNF缩小后,相当于隔离了故障设备点,提供的网络服务可能降质,但基本功能依然可保证。成功缩小后,VNFM设置VNF状态为故障隔离修复。
被隔离的故障VM,将在VIM中被管理。VIM中可以进一步分析VM故障的真正来源,是NFVI引起的硬件相关故障,还是VM逻辑对象自身问题。根据分析结果采用自愈或用户手工处理的方式解决。此部分不在本发明考虑范围内。
S704,隔离故障VM后,VNFM再发出申请,要求扩展VNF,请求给VNF分配新的VM,判断是否分配新的VM。如果是,则执行S705,否则S706。
S705,若系统有足够的资源,申请扩展可能成功,成功后分配VM,VNF状态为正常。执行S710。
S706,若由于资源不足或其他原因,申请扩展失败,则设置定时器,等待下一次自动修复(该过程会在实施方式二中描述)。执行S710。
S707,若为VM故障,且查询后发现该VNF所有的VM都出现故障,则设置VNF状态为完全故障,开始执行VNF的修复动作。VNFM先查询VNF是否支持修复动作,若支持修复,先调用修复(修复可能是主备倒换或其他VNF内部定义的修复操作,VNF可以提供修复接口,具体修复操作由VNF内部决定)。
S708,修复失败后再执行重建VNF动作,判断重建是否成功。如果没成功,则执行S706,否则S709。
S709,重建成功,设置VNF状态为正常。执行S710。
S710,结束流程。
实施方式二
如图8所示的流程,本发明所述NFV中故障恢复上报后的自动修复处理实施方式如下,假设故障修复装置部署在VNFM上,流程包括S801至S810。
S801,故障定时修复模块监控VM和VNF上报的故障恢复。收到VM和VNF的故障恢复,或定时器到消息,开始再次自动修复。
S802,若收到VNF的故障恢复,则执行S803。
S803,设置VNF的故障恢复状态为正常,执行S810。
S804,若收到VM的故障恢复,或定时器到消息,则执行S805。
S805,遍历检查所有的VNF状态,根据情况执行S806或S807。
S806,若为完全故障状态或部分故障状态,尝试修复,并判断修复是否成功。如果成功,则执行S803,否则执行S807。其中,若为完全故障状态和部分故障状态的修复过程可参见实施方式一,此处不再赘述。
S807,等待下一次修复操作。执行S810。
S808,若为故障隔离状态,则VNFM发出申请,要求扩展VNF,请求给VNF分配新的VM,并判断是否成功申请VM。若系统有足够的资源,申请扩展可能成功,执行S809,若由于资源不足或其他原因,申请扩展失败。则设置定时器,执行S807。
S809,成功后VNF状态为正常。执行S810。
S810,结束流程。
在上述过程中,若定时器设置次数已经达到指定上限,自动修复过程失败,结束。
实施方式三
本发明实施例所述NFV中故障恢复上报后的自动修复处理装置,可部署在VNFM上,也可以部署在EM或NFVO中。本实施例描述自动修复装置部署在EM上的实施方式,如图9所示,设置在NFVO中与此类似。
EM可接收从多个VNFM上报的VNF的创建、删除、修改、缩放等消息,收到消息后,在故障信息记录模块中记录VNF和VM的映射关系。
EM可接收多个VNFM上报的VNF和VM的故障上报和故障恢复,并在故障信息记录模块中记录VNF的故障修复状态。
EM收到VNF和VM的故障上报消息后,可以采用实施方式一和实施方式二中的流程来修复故障,只是实施方式一和实施方式二中由VNFM发出的指令,需要改为EM先发送给VNFM,再由VNFM执行命令。
对于VNF重建的修复过程,若在EM管理的一个VNFM中重建失败,则EM可以查找在其管理的其他VNFM中,是否可管理相同类型的VNF,若可以,则可以尝试在其他的VNFM中发起故障VNF的重建。如图9所示,具体过程为:EM先发送VNF1停止的命令给VNFM1,再给VNFM2发送创建VNF2的请求,其中VNF2的参数与原VNF1完全相同。若可创建成功,故障VNF状态为正常,同时给VNFM1发送VNF1删除命令。若VNF2创建失败,则给VNFM1发送VNF1恢复命令,VNF依然是故障状态。
采用本发明实施例提供的方法和装置,可以自动监测NFV系统中的VNF和VM告警,并尝试自动修复。且在自动修复失败时,能够自动隔离故障点。在故障点恢复后,再次尝试自动修复,让VNF提供的网络服务维持在预期的目标。
尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。

Claims (8)

1.一种故障修复方法,其特征在于,包括:
监控虚拟化网络功能VNF或虚拟机VM是否上报故障;
在上报故障的情况下,确定故障类型,其中,所述故障类型包括以下之一:部分VM故障,全部VM故障,VNF故障;
按照所述故障类型确定故障修复策略,并根据所述故障修复策略进行故障修复,具体地:
在所述故障类型为部分VM故障的情况下,按照所述故障类型确定故障修复策略,并根据所述故障修复策略进行故障修复包括:
判断VM中是否存在主用VM和备用VM;
如果是,则在故障VM为所述主用VM情况下,进行主备VM倒换,再将故障的所述主用VM从所述VNF中删除,在所述故障VM为所述备用VM的情况下,将故障的所述备用VM从所述VNF中删除;
如果不是,则缩小所述VNF的功能,再将所述故障VM从所述VNF中删除;
将故障VM从所述VNF中删除之后,还包括:
发送分配请求,以请求分配新的VM;
在分配到所述新的VM的情况下,将所述新的VM加入到所述VNF中;
在所述故障类型为全部VM故障或VNF故障的情况下,按照所述故障类型确定故障修复策略,并根据所述故障修复策略进行故障修复包括:
按照所述故障修复策略对所述VNF进行故障修复,其中,所述故障修复策略包括:主用VNF与备用VNF进行倒换操作,或者,内部逻辑修复操作;
在所述故障修复失败的情况下,重建一个新的VNF。
2.如权利要求1所述的故障修复方法,其特征在于,监控VNF与VM是否存在故障之前,还包括:
记录VNF与VM的映射关系。
3.如权利要求1至2中任一项所述的故障修复方法,其特征在于,所述方法还包括:
实时监听是否存在故障解除消息;
在存在所述故障解除消息的情况下,重新使用解除故障后的VNF或VM。
4.如权利要求1至2中任一项所述的故障修复方法,其特征在于,根据所述故障修复策略进行故障修复之后,还包括:
检测执行所述故障修复策略的次数是否达到预定 次数;
在未达到所述预定次数的情况下,继续根据所述故障修复策略进行故障修复;
在达到所述预定次数的情况下,不再继续执行所述故障修复策略。
5.一种故障修复装置,其特征在于,包括:
监控模块,用于监控虚拟化网络功能VNF或虚拟机VM是否上报故障;
确定模块,用于在上报故障的情况下,确定故障类型,其中,所述故障类型包括以下之一:部分VM故障,全部VM故障,VNF故障;
故障修复模块,用于按照所述故障类型确定故障修复策略,并根据所述故障修复策略进行故障修复;所述故障修复模块包括:
判断单元,用于在所述故障类型为部分VM故障的情况下,判断VM中是否存在主用VM和备用VM;
第一修复单元,用于在存在所述主用VM和所述备用VM时,在故障VM为所述主用VM情况下,进行主备VM倒换,再将故障的所述主用VM从所述VNF中删除,在所述故障VM为所述备用VM的情况下,将故障的所述备用VM从所述VNF中删除;
第二修复单元,用于在不存在所述主用VM和所述备用VM时,缩小所述VNF的功能,再将所述故障VM从所述VNF中删除;
第三修复单元,用于在所述故障类型为全部VM故障或VNF故障的情况下,按照所述故障修复策略对所述VNF进行故障修复,其中,所述故障修复策略包括:主用VNF与备用VNF进行倒换操作,或者,内部逻辑修复操作;
重建单元,用于在所述故障修复失败的情况下,重建一个新的VNF。
6.如权利要求5所述的故障修复装置,其特征在于,所述装置还包括:
记录模块,用于记录VNF与VM的映射关系。
7.如权利要求5至6中任一项所述的故障修复装置,其特征在于,所述装置还包括:
第一检测模块,用于实时监听是否存在故障解除消息;
添加模块,用于在存在所述故障解除消息的情况下,重新使用解除故障后的VNF或VM。
8.如权利要求5至6中任一项所述的故障修复装置,其特征在于,所述装置还包括:
第二检测模块,用于检测执行所述故障修复策略的次数是否达到预定 次数;
所述故障修复模块,还用于在达到所述预定次数的情况下,不再继续执行所述故障修复策略;或者,在未达到所述预定次数的情况下,继续根据所述故障修复策略进行故障修复。
CN201410811245.2A 2014-12-22 2014-12-22 一种故障修复方法及装置 Active CN105790980B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410811245.2A CN105790980B (zh) 2014-12-22 2014-12-22 一种故障修复方法及装置
PCT/CN2015/078370 WO2016101486A1 (zh) 2014-12-22 2015-05-06 一种故障修复方法、装置及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410811245.2A CN105790980B (zh) 2014-12-22 2014-12-22 一种故障修复方法及装置

Publications (2)

Publication Number Publication Date
CN105790980A CN105790980A (zh) 2016-07-20
CN105790980B true CN105790980B (zh) 2020-01-31

Family

ID=56149079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410811245.2A Active CN105790980B (zh) 2014-12-22 2014-12-22 一种故障修复方法及装置

Country Status (2)

Country Link
CN (1) CN105790980B (zh)
WO (1) WO2016101486A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783855B (zh) * 2016-08-30 2022-12-06 中兴通讯股份有限公司 虚拟网元的故障自愈控制装置及方法
CN106338982A (zh) * 2016-09-26 2017-01-18 深圳前海弘稼科技有限公司 故障处理方法、故障处理装置和服务器
CN108268021A (zh) * 2016-12-30 2018-07-10 北京金风科创风电设备有限公司 故障处理方法及装置
CN108347339B (zh) * 2017-01-24 2020-06-16 华为技术有限公司 一种业务恢复方法及装置
CN108540298B (zh) * 2017-03-01 2022-06-17 中兴通讯股份有限公司 一种自动处理垃圾业务的方法及装置
CN106992877B (zh) * 2017-03-08 2019-07-09 中国人民解放军国防科学技术大学 基于sdn架构的网络故障检测与修复方法
CN107395710B (zh) * 2017-07-17 2020-09-22 苏州浪潮智能科技有限公司 一种云平台网元的配置和高可用ha实现方法和装置
CN109391481A (zh) * 2017-08-02 2019-02-26 中国电信股份有限公司 虚拟化网元故障自愈方法和装置
CN107623596A (zh) * 2017-09-15 2018-01-23 郑州云海信息技术有限公司 一种nfv平台中启动测试网元定位排查故障的方法
CN109995574A (zh) * 2018-01-02 2019-07-09 中兴通讯股份有限公司 一种修复vnfm故障的方法、监测器、vim、vnfm及存储介质
US10880370B2 (en) 2018-11-27 2020-12-29 At&T Intellectual Property I, L.P. Virtual network manager system
CN112434819B (zh) * 2019-08-09 2023-09-05 中国移动通信集团浙江有限公司 业务保障方法及装置
CN112366694A (zh) * 2020-10-29 2021-02-12 国网山东省电力公司泰安供电公司 一种基于多站协同的电力系统故障自动修复方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102325192A (zh) * 2011-09-30 2012-01-18 上海宝信软件股份有限公司 云计算实现方法和系统
CN102801806A (zh) * 2012-08-10 2012-11-28 薛海强 一种云计算系统及云计算资源管理方法
CN103607296A (zh) * 2013-11-01 2014-02-26 杭州华三通信技术有限公司 一种虚拟机故障处理方法和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102325192A (zh) * 2011-09-30 2012-01-18 上海宝信软件股份有限公司 云计算实现方法和系统
CN102801806A (zh) * 2012-08-10 2012-11-28 薛海强 一种云计算系统及云计算资源管理方法
CN103607296A (zh) * 2013-11-01 2014-02-26 杭州华三通信技术有限公司 一种虚拟机故障处理方法和设备

Also Published As

Publication number Publication date
WO2016101486A1 (zh) 2016-06-30
CN105790980A (zh) 2016-07-20

Similar Documents

Publication Publication Date Title
CN105790980B (zh) 一种故障修复方法及装置
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
EP3493471B1 (en) Data disaster recovery method, apparatus and system
CN108847982B (zh) 一种分布式存储集群及其节点故障切换方法和装置
CN109669762B (zh) 云计算资源管理方法、装置、设备及计算机可读存储介质
CN102708018B (zh) 一种异常处理方法及系统、代理设备与控制装置
CN103152419B (zh) 一种云计算平台的高可用集群管理方法
CN105933407B (zh) 一种实现Redis集群高可用的方法及系统
EP3142011B9 (en) Anomaly recovery method for virtual machine in distributed environment
WO2016045439A1 (zh) 一种vnfm容灾保护的方法、装置和nfvo、存储介质
CN112181660A (zh) 一种基于服务器集群的高可用方法
CN102394914A (zh) 集群脑裂处理方法和装置
CN103580915A (zh) 集群系统中确定主控节点的方法及装置
CN111506391B (zh) 一种容器部署方法及装置
CN104320274A (zh) 一种容灾方法及装置
CN115562911B (zh) 虚拟机数据备份方法及装置、系统、电子设备、存储介质
CN104503861A (zh) 一种异常处理方法及系统、代理设备与控制装置
CN111342986B (zh) 分布式节点管理方法及装置、分布式系统、存储介质
CN103902401A (zh) 基于监控的虚拟机容错方法及装置
WO2017092539A1 (zh) 虚拟机修复方法、虚拟机装置、系统及业务功能网元
CN116185697B (zh) 容器集群管理方法、装置、系统、电子设备及存储介质
CN115599310B (zh) 存储节点中存储资源的控制方法、装置以及存储节点
CN105743696A (zh) 一种云计算平台管理方法
WO2017124829A1 (zh) 恢复虚拟机的方法和装置
CN112612652A (zh) 分布式存储系统异常节点重启方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant