CN105790980B - 一种故障修复方法及装置 - Google Patents
一种故障修复方法及装置 Download PDFInfo
- Publication number
- CN105790980B CN105790980B CN201410811245.2A CN201410811245A CN105790980B CN 105790980 B CN105790980 B CN 105790980B CN 201410811245 A CN201410811245 A CN 201410811245A CN 105790980 B CN105790980 B CN 105790980B
- Authority
- CN
- China
- Prior art keywords
- fault
- vnf
- repairing
- repair
- faults
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/40—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using virtualisation of network functions or resources, e.g. SDN or NFV entities
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
- Hardware Redundancy (AREA)
Abstract
本发明公开了一种故障修复方法及装置,其中,该方法包括:监控VNF或VM是否上报故障;在上报故障的情况下,确定故障类型,其中,故障类型包括以下之一:部分VM故障,全部VM故障,VNF故障;按照故障类型确定故障修复策略,并根据故障修复策略进行故障修复。本发明提供了一种故障修复方法,该方法主动监控VNF或VM是否上报故障,在上报故障的情况下,根据故障类型来自动采取不同的故障修复策略,上述过程中NFV的架构下的虚拟设备在遇到故障时自动修复,响应时间短,还节省人力,解决了现有NFV的架构下的故障修复方式都是人工修复,但人工修复对业务的影响时间长,也浪费大量的人力成本的问题。
Description
技术领域
本发明涉及通讯领域,特别是涉及一种故障修复方法及装置。
背景技术
NFV(Network Function Virtualization,网络功能虚拟化)后的管理架构,如图1所示,NFV-MANO(NFV Management and Orchestration,NFV管理和编制)的架构图及参考点。其中,NFVO(Network Functions Virtualization Orchestrator,NFV协调器)负责网络服务的生命周期管理、跨VIM(Virtualised Infrastructure Manager,虚拟化基础设施经理)的NFVI(Network Functions Virtualization Infrastructure,网络功能虚拟化基础设施)资源调度等功能,VNFM(Virtualised Network Function Manager,虚拟化网络功能经理)负责VNF(Virtualised Network Function)实例的生命周期管理,每个VNF实例假设都有一个关联的VNFM,VIM负责控制和管理NFVI计算,存储和网络资源,其中,图中示出的是虚拟架构,但并未示出VIM下的各个VM(Virtual Machine,虚拟机)实体。
在NFV的架构下,告警的来源可以分成多种,包括物理架构(比如,NFVI的计算、存储和网络相关告警)、虚拟架构(比如,虚拟机VM相关告警)、应用逻辑(比如,VNF实例相关的告警)。其中,NFVI相关告警由NFVI产生并通过VIM上报给VNFM或NFVO,虚拟机相关告警由VIM产生并上报给VNFM或NFVO,VNF应用层告警由VNF产生并上报给VNFM或EM。无论是什么样的告警,一旦出现故障,最终都可能对网络服务产生影响,需要尽快解决。现有的修复方式都是人工修复,但人工修复对业务的影响时间长,也浪费大量的人力成本。
发明内容
本发明提供一种故障修复方法及装置,用以解决现有技术中,NFV的架构下的故障修复方式都是人工修复,但人工修复对业务的影响时间长,也浪费大量的人力成本的问题。
为解决上述技术问题,一方面,本发明提供一种故障修复方法,包括:监控VNF或VM是否上报故障;在上报故障的情况下,确定故障类型,其中,所述故障类型包括以下之一:部分VM故障,全部VM故障,VNF故障;按照所述故障类型确定故障修复策略,并根据所述故障修复策略进行故障修复。
进一步,在所述故障类型为部分VM故障的情况下,按照所述故障类型确定故障修复策略,并根据所述故障修复策略进行故障修复包括:判断VM中是否存在主用VM和备用VM;如果是,则在故障VM为所述主用VM情况下,进行主备VM倒换,再将故障的所述主用VM从所述VNF中删除,在所述故障VM为所述备用VM的情况下,将故障的所述备用VM从所述VNF中删除;如果不是,则缩小所述VNF的功能,再将所述故障VM从所述VNF中删除。
进一步,将故障VM从所述VNF中删除之后,还包括:发送分配请求,以请求分配新的VM;在分配所述新的VM的情况下,将所述新的VM加入到所述VNF中。
进一步,在所述故障类型为全部VM故障或VNF故障的情况下,按照所述故障类型确定故障修复策略,并根据所述故障修复策略进行故障修复包括:按照所述故障修复策略对所述VNF进行故障修复,其中,所述故障修复策略包括:主用VNF与备用VNF进行倒换操作,或者,内部逻辑修复操作;在所述故障修复失败的情况下,重建一个新的VNF。
进一步,监控VNF与VM是否存在故障之前,还包括:记录VNF与VM的映射关系。
进一步,所述方法还包括:实时监听是否存在故障解除消息;在存在所述故障解除消息的情况下,重新使用解除故障后的VNF或VM。
进一步,根据所述故障修复策略进行故障修复之后,还包括:检测执行所述故障修复策略的次数是否达到预设次数;在未达到所述预定次数的情况下,继续根据所述故障修复策略进行故障修复;在达到所述预定次数的情况下,不再继续执行所述故障修复策略。
另一方面,还提供了一种故障修复装置,包括:监控模块,用于监控VNF或VM是否上报故障;确定模块,用于在上报故障的情况下,确定故障类型,其中,所述故障类型包括以下之一:部分VM故障,全部VM故障,VNF故障;故障修复模块,用于按照所述故障类型确定故障修复策略,并根据所述故障修复策略进行故障修复。
进一步,所述故障修复模块包括:判断单元,用于在所述故障类型为部分VM故障的情况下,判断VM中是否存在主用VM和备用VM;第一修复单元,用于在存在所述主用VM和所述备用VM时,在故障VM为所述主用VM情况下,进行主备VM倒换,再将故障的所述主用VM从所述VNF中删除,在所述故障VM为所述备用VM的情况下,将故障的所述备用VM从所述VNF中删除;第二修复单元,用于在不存在所述主用VM和所述备用VM时,缩小所述VNF的功能,再将所述故障VM从所述VNF中删除。
进一步,所述故障修复模块包括:第三修复单元,用于在所述故障类型为全部VM故障或VNF故障的情况下,按照所述故障修复策略对所述VNF进行故障修复,其中,所述故障修复策略包括:主用VNF与备用VNF进行倒换操作,或者,内部逻辑修复操作;重建单元,用于在所述故障修复失败的情况下,重建一个新的VNF。
进一步,所述装置还包括:记录模块,用于记录VNF与VM的映射关系。
进一步,所述装置还包括:第一检测模块,用于实时监听是否存在故障解除消息;添加模块,用于在存在所述故障解除消息的情况下,重新使用解除故障后的VNF或VM。
进一步,所述装置还包括:第二检测模块,用于检测执行所述故障修复策略的次数是否达到预设次数;所述故障修复模块,还用于在达到所述预定次数的情况下,不再继续执行所述故障修复策略;或者,在未达到所述预定次数的情况下,继续根据所述故障修复策略进行故障修复。
本发明提供了一种故障修复方法,该方法主动监控VNF或VM是否上报故障,在上报故障的情况下,根据故障类型来自动采取不同的故障修复策略,上述过程中NFV的架构下的虚拟设备在遇到故障时自动修复,响应时间短,还节省人力,解决了现有NFV的架构下的故障修复方式都是人工修复,但人工修复对业务的影响时间长,也浪费大量的人力成本的问题。
附图说明
图1是现有技术中NFV-MANO架构图;
图2是本发明实施例中故障修复方法的流程图;
图3是本发明实施例中故障修复装置的结构示意图;
图4是本发明实施例中故障修复装置故障修复模块的第一种结构示意图;
图5是本发明实施例中故障修复装置故障修复模块的第二种结构示意图;
图6是本发明实施例中故障修复装置的优选结构示意图;
图7是本发明可选实施例中故障上报后自愈处理方法的流程图;
图8是本发明可选实施例中故障恢复上报后的自愈处理方法的流程图;
图9是本发明可选实施例中EM的跨VNFM的故障修复示意图。
具体实施方式
为了解决现有技术中,NFV的架构下的故障修复方式都是人工修复,但人工修复对业务的影响时间长,也浪费大量的人力成本的问题,本发明提供了一种故障修复方法及装置,以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
本发明实施例提供了一种故障修复方法,该方法的流程如图2所示,包括S202至S206:
S202,监控VNF或VM是否上报故障;
S204,在上报故障的情况下,确定故障类型,其中,故障类型包括以下之一:部分VM故障,全部VM故障,VNF故障;
S206,按照故障类型确定故障修复策略,并根据故障修复策略进行故障修复。
本发明实施例提供了一种故障修复方法,该方法主动监控VNF或VM是否上报故障,在上报故障的情况下,根据故障类型来自动采取不同的故障修复策略,上述过程中NFV的架构下的虚拟设备在遇到故障时自动修复,响应时间短,还节省人力,解决了现有NFV的架构下的故障修复方式都是人工修复,但人工修复对业务的影响时间长,也浪费大量的人力成本的问题。
在监控VNF与VM是否存在故障之前,还可以记录VNF与VM的映射关系,并进行保存,以便后续根据该映射关系确定哪一个VNF出现问题。
实现过程中,根据故障类型不同,采取不同的故障修复策略。如果故障类型为部分VM故障,则判断VM中是否存在主用VM和备用VM;如果是,则在故障VM为主用VM情况下,进行主备VM倒换,再将故障的主用VM从VNF中删除,在故障VM为备用VM的情况下,将故障的备用VM从VNF中删除;如果不是,则缩小VNF的功能,再将故障VM从VNF中删除。不管是否存在主用VM和备用VM,在将故障VM从VNF中删除之后,都可以发送分配请求,来请求分配新的VM;在分配新的VM的情况下,将新的VM加入到VNF中。
如果故障类型为全部VM故障或VNF故障,则都会导致VNF处于不可用状态,按照故障修复策略对VNF进行故障修复,其中,故障修复策略可以是主用VNF与备用VNF进行倒换操作(在存在主备VNF的情况下),或者,内部逻辑修复操作。如果故障修复失败的情况下,重建一个新的VNF。
在已经发现存在故障之后,实时检测是否存在故障解除消息,如果存在故障解除消息,说明原来出现故障的VNF或VM已经可以使用了,则可以重新使用解除故障后的VNF或VM。上述过程中是实时检测是否存在故障解除消息,本领域技术人员也可以设置一个时间间隔较短的时间,然后按照预定时间间隔检测是否存在故障解除消息,其实施方式属于本发明上述实施方式等价变换,也在本发明的保护范围内。
在根据故障修复策略进行故障修复之后,检测执行故障修复策略的次数是否达到预设次数,如果达到预定次数仍然没有修复好,则说明自动修复无法将该故障解除,需要人工修复,便不再继续执行故障修复策略,如果没有达到预定次数,则继续根据故障修复策略进行故障修复。
在实施过程中,确定故障类型后,还可以为不同的故障类型设置为VNF设置不同的故障修复状态,以便后续操作,例如,在故障类型为部分VM故障的情况下,设置VNF的故障修复状态为VNF部分故障状态,在故障类型为全部VM故障或VNF故障的情况下,设置VNF的故障修复状态为VNF全部故障状态,在把故障VM从VNF中删除后,设置VNF的故障修复状态为VNF故障隔离修复。
本发明实施例还提供了一种故障修复装置,其结构示意如图3所示,包括:监控模块10,用于监控虚拟化网络功能VNF或虚拟机VM是否上报故障;确定模块20,与监控模块10耦合,用于在上报故障的情况下,确定故障类型,其中,故障类型包括以下之一:部分VM故障,全部VM故障,VNF故障;故障修复模块30,与确定模块20耦合,用于按照故障类型确定故障修复策略,并根据故障修复策略进行故障修复。优选的,上述装置还可以包括记录模块,可以设置在监控模块10和确定模块20之间,用于记录VNF与VM的映射关系,以便后续根据该映射关系确定哪一个VNF出现问题。
其中,故障修复模块30的结构示意如图4所示,包括:判断单元301,用于在故障类型为部分VM故障的情况下,判断VM中是否存在主用VM和备用VM;第一修复单元302,与判断单元301耦合,用于在存在主用VM和备用VM时,在故障VM为主用VM情况下,进行主备VM倒换,再将故障的主用VM从VNF中删除,在故障VM为备用VM的情况下,将故障的备用VM从VNF中删除;第二修复单元303,与判断单元301耦合,用于在不存在主用VM和备用VM时,缩小VNF的功能,再将故障VM从VNF中删除。
故障修复模块30还可以如图5所示,包括:第三修复单元304,用于在故障类型为全部VM故障或VNF故障的情况下,按照故障修复策略对VNF进行故障修复,其中,故障修复策略包括:主用VNF与备用VNF进行倒换操作,或者,内部逻辑修复操作;重建单元305,与第三修复单元304耦合,用于在故障修复失败的情况下,重建一个新的VNF。
在本发明实施例中,并未将图4和图5两种故障修复模块30进行结合设置,当然,本领域技术人员在设置时,可以将上述图3和图4中的两种结构进行结合设置,这样故障修复模块30能够具备较为完备的功能。
实施过程中,装置还可以如图6所示,还包括:第一检测模块40,用于实时监听检测是否存在故障解除消息;添加模块50,与第一检测模块40和监控模块10耦合,用于在存在故障解除消息的情况下,重新使用解除故障后的VNF或VM;第二检测模块60,与故障修复模块30耦合,用于检测执行故障修复策略的次数是否达到预设次数;故障修复模块30,还用于在故障修复策略的次数达到预定次数的情况下,不再继续执行故障修复策略;或者,在未达到预定次数的情况下,继续根据故障修复策略进行故障修复。在本实施例中,第一检测模块40可以与监控模块10耦合设置,也可以与故障修复模块30耦合设置,也可以独立设置,此处不进行限定。
可选实施例
目前网络虚拟化后,还未提出可实施的网络故障自动修复的方法。本发明实施例为解决此问题,提出一种网络功能虚拟化后的故障修复方法,实现尽快解决故障、对网络服务的影响降到最低。
通常,NFVI相关告警,与硬件直接相关,此类告警可能导致VM不正常工作,可能完全失效或部分失效。现有技术下,可能做到由虚拟机来隔离硬件故障,如某些磁盘故障,但整个磁阵是可共享的,从虚拟硬盘来看,还可以认为虚拟硬盘正常,只是总容量有所降低。因此,本发明实施例中不直接考虑NFVI告警带来的影响,仅考虑VM故障后的自愈处理。
本发明实施例提供的故障修复方法在虚拟机故障(VM故障)、应用逻辑故障(VNF故障)发生时,尽快自动修复故障,保证网络服务不中断或尽快恢复,技术方案包括以下方面:
(1)记录VNF和VM间的映射关系。VNFM在VNF的创建、删除、变更时记录下VNF和VM的映射关系,一个VNF可能有多个VM。
(2)记录VNF的故障修复状态。故障修复状态可以包括但不限于以下取值:正常、完全故障、部分故障、故障隔离修复、自动修复失败。
(3)使用VNF和VM的映射关系、VNF故障修复状态,由故障触发或定时触发自动修复。
(4)故障触发:监控VNF和VM上报的故障。VNF和VM都可能上报故障。针对不同的故障,分别开始进行自动修复处理。
若上报了VM故障,逐个修复VM故障;支撑某个VNF的一个或多个VM发生故障,但不是全部VM发生故障,则标识VNF状态为部分故障,其执行如下过程。
a)首先隔离故障点。若VM已经存在主备,且故障VM为备VM,则直接把故障VM从VNF中删除;若故障VM为主VM,则执行主备VM倒换后,再故障VM从VNF中删除。若非主备VM,则对VNF执行缩小操作,避免对现有业务产生影响,再把VM从VNF中删除。
b)隔离完成后,设置VNF状态为故障隔离修复。
c)再尝试申请新的VM,申请成功后把新的VM分配给VNF,设置VNF状态为正常。
d)若由于资源不足或其他原因,VM无法申请成功,则进入步骤6),由定时修复模块来完成故障修复。
(5)若全部VM发生故障,或全部VM正常,而VNF上报故障,其执行如下过程。
设置VNF状态为完全故障,执行VNF修复动作;若VNF支持修复,则先调用修复(修复可能是主备倒换或其他VNF内部定义的修复操作)。修复失败后,再执行重建VNF动作,重建VNF时,可指明使用原有的VM(原VM正常时)或申请新的VM。重建成功,设置VNF状态为正常;重建失败,进入步骤(6),由定时修复模块来完成故障修复。
(6)监控VM故障恢复消息,或定时触发执行修复操作。
当VM故障恢复,表示有新的VM资源可用,可以继续自动修复;或者,网络中增加了新的物理设置,也可以继续自动修复。
遍历检查所有的VNF状态,若为完全故障状态,则执行(5),尝试再次自动修复;若为部分故障状态,则执行(4),尝试再次自动修复;若为故障隔离状态,则为VNF申请新的VM,申请成功后把新的VM分配给VNF,设置VNF状态为正常;若依然失败,则继续进入(6)。
(7)可预先设置每个VNF自动修复次数,当自动修复次数大于预先指定的次数,则退出自动修复流程。无法自动修复,通常需要人工修复了。维护人员可以查询VNF告警和VNF的故障修复状态,当VNF的故障修复状态为“自动修复失败”,可以进行人工处理。
(8)无论是自动修复,还是人工修复,VNF告警恢复时,将VNF的故障修复状态设置为正常。
根据上述方法,可以实现如下网络功能虚拟化后的故障修复装置:
该装置包括:
故障修复信息记录模块:负责记录VNF和VM的映射关系,记录VNF的故障修复状态。
故障自动修复模块(相当于监控模块、确定模块和故障修复模块):监听到VM或VNF上报的故障后,发起对故障的自动修复,并根据修复情况,更新VNF的故障修复状态。
故障定时修复模块(相当于第一检测模块和第二检测模块进行检测的过程):监听到VM的故障恢复消息,或定时遍历VNF的故障修复状态,通过故障自动修复模块对处于故障状态的VNF继续实施自动修复。
上述故障修复装置,既可以部署在VNFM,也可以部署在EM或NFVO中。部署在EM或NFVO中,可以实现多VNFM的管理。如果一个VNFM下的资源不足或其他故障,可以到另一个VNFM中重建VNF。其中故障修复信息记录模块,若部署在EM中,需要VNFM在发出VNF的增删改通知时,携带对应VM的标识信息。
下面结合附图对上述实施例作进一步的详细描述。
实施方式一
如图7所示的流程,本发明实施例所述NFV中故障上报后自动修复处理实施方式如下,假设故障修复装置部署在VNFM上,流程包括S701至S710。
S701,故障自动修复模块监控VM和VNF上报的故障,确定故障类型。其中,收到VM和VNF的故障后,在故障信息记录中查找VNF和VM间的映射关系、VNF的故障处理状态后,分别处理。
S702,若为VM故障,则判断是否所有VM均故障。如果是,则执行S708,否则执行S703。
S703,对应的VNF中只有部分VM故障,其余VM依然可正常提供服务。则首先屏蔽故障VM对业务带来的影响。VNFM可给VNF下发缩小请求,参数中携带希望卸载的故障VM。VNF缩小后,相当于隔离了故障设备点,提供的网络服务可能降质,但基本功能依然可保证。成功缩小后,VNFM设置VNF状态为故障隔离修复。
被隔离的故障VM,将在VIM中被管理。VIM中可以进一步分析VM故障的真正来源,是NFVI引起的硬件相关故障,还是VM逻辑对象自身问题。根据分析结果采用自愈或用户手工处理的方式解决。此部分不在本发明考虑范围内。
S704,隔离故障VM后,VNFM再发出申请,要求扩展VNF,请求给VNF分配新的VM,判断是否分配新的VM。如果是,则执行S705,否则S706。
S705,若系统有足够的资源,申请扩展可能成功,成功后分配VM,VNF状态为正常。执行S710。
S706,若由于资源不足或其他原因,申请扩展失败,则设置定时器,等待下一次自动修复(该过程会在实施方式二中描述)。执行S710。
S707,若为VM故障,且查询后发现该VNF所有的VM都出现故障,则设置VNF状态为完全故障,开始执行VNF的修复动作。VNFM先查询VNF是否支持修复动作,若支持修复,先调用修复(修复可能是主备倒换或其他VNF内部定义的修复操作,VNF可以提供修复接口,具体修复操作由VNF内部决定)。
S708,修复失败后再执行重建VNF动作,判断重建是否成功。如果没成功,则执行S706,否则S709。
S709,重建成功,设置VNF状态为正常。执行S710。
S710,结束流程。
实施方式二
如图8所示的流程,本发明所述NFV中故障恢复上报后的自动修复处理实施方式如下,假设故障修复装置部署在VNFM上,流程包括S801至S810。
S801,故障定时修复模块监控VM和VNF上报的故障恢复。收到VM和VNF的故障恢复,或定时器到消息,开始再次自动修复。
S802,若收到VNF的故障恢复,则执行S803。
S803,设置VNF的故障恢复状态为正常,执行S810。
S804,若收到VM的故障恢复,或定时器到消息,则执行S805。
S805,遍历检查所有的VNF状态,根据情况执行S806或S807。
S806,若为完全故障状态或部分故障状态,尝试修复,并判断修复是否成功。如果成功,则执行S803,否则执行S807。其中,若为完全故障状态和部分故障状态的修复过程可参见实施方式一,此处不再赘述。
S807,等待下一次修复操作。执行S810。
S808,若为故障隔离状态,则VNFM发出申请,要求扩展VNF,请求给VNF分配新的VM,并判断是否成功申请VM。若系统有足够的资源,申请扩展可能成功,执行S809,若由于资源不足或其他原因,申请扩展失败。则设置定时器,执行S807。
S809,成功后VNF状态为正常。执行S810。
S810,结束流程。
在上述过程中,若定时器设置次数已经达到指定上限,自动修复过程失败,结束。
实施方式三
本发明实施例所述NFV中故障恢复上报后的自动修复处理装置,可部署在VNFM上,也可以部署在EM或NFVO中。本实施例描述自动修复装置部署在EM上的实施方式,如图9所示,设置在NFVO中与此类似。
EM可接收从多个VNFM上报的VNF的创建、删除、修改、缩放等消息,收到消息后,在故障信息记录模块中记录VNF和VM的映射关系。
EM可接收多个VNFM上报的VNF和VM的故障上报和故障恢复,并在故障信息记录模块中记录VNF的故障修复状态。
EM收到VNF和VM的故障上报消息后,可以采用实施方式一和实施方式二中的流程来修复故障,只是实施方式一和实施方式二中由VNFM发出的指令,需要改为EM先发送给VNFM,再由VNFM执行命令。
对于VNF重建的修复过程,若在EM管理的一个VNFM中重建失败,则EM可以查找在其管理的其他VNFM中,是否可管理相同类型的VNF,若可以,则可以尝试在其他的VNFM中发起故障VNF的重建。如图9所示,具体过程为:EM先发送VNF1停止的命令给VNFM1,再给VNFM2发送创建VNF2的请求,其中VNF2的参数与原VNF1完全相同。若可创建成功,故障VNF状态为正常,同时给VNFM1发送VNF1删除命令。若VNF2创建失败,则给VNFM1发送VNF1恢复命令,VNF依然是故障状态。
采用本发明实施例提供的方法和装置,可以自动监测NFV系统中的VNF和VM告警,并尝试自动修复。且在自动修复失败时,能够自动隔离故障点。在故障点恢复后,再次尝试自动修复,让VNF提供的网络服务维持在预期的目标。
尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。
Claims (8)
1.一种故障修复方法,其特征在于,包括:
监控虚拟化网络功能VNF或虚拟机VM是否上报故障;
在上报故障的情况下,确定故障类型,其中,所述故障类型包括以下之一:部分VM故障,全部VM故障,VNF故障;
按照所述故障类型确定故障修复策略,并根据所述故障修复策略进行故障修复,具体地:
在所述故障类型为部分VM故障的情况下,按照所述故障类型确定故障修复策略,并根据所述故障修复策略进行故障修复包括:
判断VM中是否存在主用VM和备用VM;
如果是,则在故障VM为所述主用VM情况下,进行主备VM倒换,再将故障的所述主用VM从所述VNF中删除,在所述故障VM为所述备用VM的情况下,将故障的所述备用VM从所述VNF中删除;
如果不是,则缩小所述VNF的功能,再将所述故障VM从所述VNF中删除;
将故障VM从所述VNF中删除之后,还包括:
发送分配请求,以请求分配新的VM;
在分配到所述新的VM的情况下,将所述新的VM加入到所述VNF中;
在所述故障类型为全部VM故障或VNF故障的情况下,按照所述故障类型确定故障修复策略,并根据所述故障修复策略进行故障修复包括:
按照所述故障修复策略对所述VNF进行故障修复,其中,所述故障修复策略包括:主用VNF与备用VNF进行倒换操作,或者,内部逻辑修复操作;
在所述故障修复失败的情况下,重建一个新的VNF。
2.如权利要求1所述的故障修复方法,其特征在于,监控VNF与VM是否存在故障之前,还包括:
记录VNF与VM的映射关系。
3.如权利要求1至2中任一项所述的故障修复方法,其特征在于,所述方法还包括:
实时监听是否存在故障解除消息;
在存在所述故障解除消息的情况下,重新使用解除故障后的VNF或VM。
4.如权利要求1至2中任一项所述的故障修复方法,其特征在于,根据所述故障修复策略进行故障修复之后,还包括:
检测执行所述故障修复策略的次数是否达到预定 次数;
在未达到所述预定次数的情况下,继续根据所述故障修复策略进行故障修复;
在达到所述预定次数的情况下,不再继续执行所述故障修复策略。
5.一种故障修复装置,其特征在于,包括:
监控模块,用于监控虚拟化网络功能VNF或虚拟机VM是否上报故障;
确定模块,用于在上报故障的情况下,确定故障类型,其中,所述故障类型包括以下之一:部分VM故障,全部VM故障,VNF故障;
故障修复模块,用于按照所述故障类型确定故障修复策略,并根据所述故障修复策略进行故障修复;所述故障修复模块包括:
判断单元,用于在所述故障类型为部分VM故障的情况下,判断VM中是否存在主用VM和备用VM;
第一修复单元,用于在存在所述主用VM和所述备用VM时,在故障VM为所述主用VM情况下,进行主备VM倒换,再将故障的所述主用VM从所述VNF中删除,在所述故障VM为所述备用VM的情况下,将故障的所述备用VM从所述VNF中删除;
第二修复单元,用于在不存在所述主用VM和所述备用VM时,缩小所述VNF的功能,再将所述故障VM从所述VNF中删除;
第三修复单元,用于在所述故障类型为全部VM故障或VNF故障的情况下,按照所述故障修复策略对所述VNF进行故障修复,其中,所述故障修复策略包括:主用VNF与备用VNF进行倒换操作,或者,内部逻辑修复操作;
重建单元,用于在所述故障修复失败的情况下,重建一个新的VNF。
6.如权利要求5所述的故障修复装置,其特征在于,所述装置还包括:
记录模块,用于记录VNF与VM的映射关系。
7.如权利要求5至6中任一项所述的故障修复装置,其特征在于,所述装置还包括:
第一检测模块,用于实时监听是否存在故障解除消息;
添加模块,用于在存在所述故障解除消息的情况下,重新使用解除故障后的VNF或VM。
8.如权利要求5至6中任一项所述的故障修复装置,其特征在于,所述装置还包括:
第二检测模块,用于检测执行所述故障修复策略的次数是否达到预定 次数;
所述故障修复模块,还用于在达到所述预定次数的情况下,不再继续执行所述故障修复策略;或者,在未达到所述预定次数的情况下,继续根据所述故障修复策略进行故障修复。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410811245.2A CN105790980B (zh) | 2014-12-22 | 2014-12-22 | 一种故障修复方法及装置 |
PCT/CN2015/078370 WO2016101486A1 (zh) | 2014-12-22 | 2015-05-06 | 一种故障修复方法、装置及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410811245.2A CN105790980B (zh) | 2014-12-22 | 2014-12-22 | 一种故障修复方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105790980A CN105790980A (zh) | 2016-07-20 |
CN105790980B true CN105790980B (zh) | 2020-01-31 |
Family
ID=56149079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410811245.2A Active CN105790980B (zh) | 2014-12-22 | 2014-12-22 | 一种故障修复方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105790980B (zh) |
WO (1) | WO2016101486A1 (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107783855B (zh) * | 2016-08-30 | 2022-12-06 | 中兴通讯股份有限公司 | 虚拟网元的故障自愈控制装置及方法 |
CN106338982A (zh) * | 2016-09-26 | 2017-01-18 | 深圳前海弘稼科技有限公司 | 故障处理方法、故障处理装置和服务器 |
CN108268021A (zh) * | 2016-12-30 | 2018-07-10 | 北京金风科创风电设备有限公司 | 故障处理方法及装置 |
CN108347339B (zh) * | 2017-01-24 | 2020-06-16 | 华为技术有限公司 | 一种业务恢复方法及装置 |
CN108540298B (zh) * | 2017-03-01 | 2022-06-17 | 中兴通讯股份有限公司 | 一种自动处理垃圾业务的方法及装置 |
CN106992877B (zh) * | 2017-03-08 | 2019-07-09 | 中国人民解放军国防科学技术大学 | 基于sdn架构的网络故障检测与修复方法 |
CN107395710B (zh) * | 2017-07-17 | 2020-09-22 | 苏州浪潮智能科技有限公司 | 一种云平台网元的配置和高可用ha实现方法和装置 |
CN109391481A (zh) * | 2017-08-02 | 2019-02-26 | 中国电信股份有限公司 | 虚拟化网元故障自愈方法和装置 |
CN107623596A (zh) * | 2017-09-15 | 2018-01-23 | 郑州云海信息技术有限公司 | 一种nfv平台中启动测试网元定位排查故障的方法 |
CN109995574A (zh) * | 2018-01-02 | 2019-07-09 | 中兴通讯股份有限公司 | 一种修复vnfm故障的方法、监测器、vim、vnfm及存储介质 |
US10880370B2 (en) | 2018-11-27 | 2020-12-29 | At&T Intellectual Property I, L.P. | Virtual network manager system |
CN112434819B (zh) * | 2019-08-09 | 2023-09-05 | 中国移动通信集团浙江有限公司 | 业务保障方法及装置 |
CN112366694A (zh) * | 2020-10-29 | 2021-02-12 | 国网山东省电力公司泰安供电公司 | 一种基于多站协同的电力系统故障自动修复方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102325192A (zh) * | 2011-09-30 | 2012-01-18 | 上海宝信软件股份有限公司 | 云计算实现方法和系统 |
CN102801806A (zh) * | 2012-08-10 | 2012-11-28 | 薛海强 | 一种云计算系统及云计算资源管理方法 |
CN103607296A (zh) * | 2013-11-01 | 2014-02-26 | 杭州华三通信技术有限公司 | 一种虚拟机故障处理方法和设备 |
-
2014
- 2014-12-22 CN CN201410811245.2A patent/CN105790980B/zh active Active
-
2015
- 2015-05-06 WO PCT/CN2015/078370 patent/WO2016101486A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102325192A (zh) * | 2011-09-30 | 2012-01-18 | 上海宝信软件股份有限公司 | 云计算实现方法和系统 |
CN102801806A (zh) * | 2012-08-10 | 2012-11-28 | 薛海强 | 一种云计算系统及云计算资源管理方法 |
CN103607296A (zh) * | 2013-11-01 | 2014-02-26 | 杭州华三通信技术有限公司 | 一种虚拟机故障处理方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2016101486A1 (zh) | 2016-06-30 |
CN105790980A (zh) | 2016-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105790980B (zh) | 一种故障修复方法及装置 | |
TWI746512B (zh) | 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統 | |
EP3493471B1 (en) | Data disaster recovery method, apparatus and system | |
CN108847982B (zh) | 一种分布式存储集群及其节点故障切换方法和装置 | |
CN109669762B (zh) | 云计算资源管理方法、装置、设备及计算机可读存储介质 | |
CN102708018B (zh) | 一种异常处理方法及系统、代理设备与控制装置 | |
CN103152419B (zh) | 一种云计算平台的高可用集群管理方法 | |
CN105933407B (zh) | 一种实现Redis集群高可用的方法及系统 | |
EP3142011B9 (en) | Anomaly recovery method for virtual machine in distributed environment | |
WO2016045439A1 (zh) | 一种vnfm容灾保护的方法、装置和nfvo、存储介质 | |
CN112181660A (zh) | 一种基于服务器集群的高可用方法 | |
CN102394914A (zh) | 集群脑裂处理方法和装置 | |
CN103580915A (zh) | 集群系统中确定主控节点的方法及装置 | |
CN111506391B (zh) | 一种容器部署方法及装置 | |
CN104320274A (zh) | 一种容灾方法及装置 | |
CN115562911B (zh) | 虚拟机数据备份方法及装置、系统、电子设备、存储介质 | |
CN104503861A (zh) | 一种异常处理方法及系统、代理设备与控制装置 | |
CN111342986B (zh) | 分布式节点管理方法及装置、分布式系统、存储介质 | |
CN103902401A (zh) | 基于监控的虚拟机容错方法及装置 | |
WO2017092539A1 (zh) | 虚拟机修复方法、虚拟机装置、系统及业务功能网元 | |
CN116185697B (zh) | 容器集群管理方法、装置、系统、电子设备及存储介质 | |
CN115599310B (zh) | 存储节点中存储资源的控制方法、装置以及存储节点 | |
CN105743696A (zh) | 一种云计算平台管理方法 | |
WO2017124829A1 (zh) | 恢复虚拟机的方法和装置 | |
CN112612652A (zh) | 分布式存储系统异常节点重启方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |