CN107783855A - 虚拟网元的故障自愈控制装置及方法 - Google Patents

虚拟网元的故障自愈控制装置及方法 Download PDF

Info

Publication number
CN107783855A
CN107783855A CN201610761361.7A CN201610761361A CN107783855A CN 107783855 A CN107783855 A CN 107783855A CN 201610761361 A CN201610761361 A CN 201610761361A CN 107783855 A CN107783855 A CN 107783855A
Authority
CN
China
Prior art keywords
self
healing
virtual
empty machine
functional unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610761361.7A
Other languages
English (en)
Other versions
CN107783855B (zh
Inventor
王德永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201610761361.7A priority Critical patent/CN107783855B/zh
Publication of CN107783855A publication Critical patent/CN107783855A/zh
Application granted granted Critical
Publication of CN107783855B publication Critical patent/CN107783855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种虚拟网元的故障自愈控制装置,所述虚拟网元包括1个或多个虚机,每个虚机包括1个或多个功能组件,所述装置包括:检测模块,用于检测所述虚拟网元的运行情况;组件自愈模块,用于当某功能组件出现故障时,调用该功能组件对应的预置组件自愈策略对该功能组件进行自愈处理;虚机自愈模块,用于当某虚机出现故障时,调用该虚机对应的预置虚机自愈策略对该虚机进行自愈处理;VNF自愈模块,用于当所述虚拟网元出现故障时,调用预置网元自愈策略对所述虚拟网元进行自愈处理。本发明实现了VNF的故障检测和自愈。

Description

虚拟网元的故障自愈控制装置及方法
技术领域
本发明涉及通信领域,特别是涉及一种虚拟网元的故障自愈控制装置。
背景技术
“网络功能虚拟化”NFV(Network Functions Virtualization)简单讲是把电信设备从目前的专用平台迁移到通用的服务器平台上。目前虚拟化技术已经应用于通信领域,较为流行的一种平台为Iaas平台。平台可以通过提供虚拟的磁盘、内存、CPU等资源提供虚机来为其上的应用(APP)来提供服务,本文的应用(APP)指的是虚拟网元即VNF(虚拟化网元,Virtual Network Function)。
VNF对于可靠性和容灾有很高的要求,但由于资源是虚拟的,虚机是虚拟的,在使用中总会有稳定性的问题出现。
目前,Iass平台对于故障检测和恢复也有自己相关机制,并不能完全实现VNF的故障检测。首先Iaas平台本身只能处理平台本身或硬件资源或虚机本身的故障,其次因为Iaas平台对于故障的处理也不一定符合VNF本身的要求,甚至它的处理会对VNF造成不可挽回的损失。
发明内容
为了克服上述现有技术的缺陷,本发明要解决的技术问题是提供虚拟网元的故障自愈控制装置及方法,用以实现VNF的故障检测和自愈。
为解决上述技术问题,本发明中的一种虚拟网元的故障自愈控制装置,所述虚拟网元包括1个或多个虚机,每个虚机包括1个或多个功能组件,所述装置包括:
检测模块,用于检测所述虚拟网元的运行情况;
组件自愈模块,用于当某功能组件出现故障时,调用该功能组件对应的预置组件自愈策略对该功能组件进行自愈处理;
虚机自愈模块,用于当某虚机出现故障时,调用该虚机对应的预置虚机自愈策略对该虚机进行自愈处理;
VNF自愈模块,用于当所述虚拟网元出现故障时,调用预置网元自愈策略对所述虚拟网元进行自愈处理。
进一步,1个或多个虚拟网元具有1个虚拟化网元管理器;所述装置还包括:
组件故障判断模块,用于在达到预设的检测周期的情况下,若接收不到某功能组件的状态数据,或者,接收到该功能组件的状态数据,但接收到的状态数据属于预设组件异常状态,或者,检测到该功能组件的关键绩效指标异常,则判定该功能组件出现故障;
虚机故障判断模块,用于若某虚机的所有功能组件均出现故障,向所述虚拟化网元管理器查询该虚机的实际状态,在收到所述虚拟化网元管理器返回的实际状态属于预设虚机异常状态时,判定该虚机出现故障;
VNF故障判断模块,用于若所述虚拟网元的所有虚机均出现故障或者所述虚拟网元的关键绩效指标异常,向所述虚拟化网元管理器查询该虚拟网元的实际状态,在收到所述虚拟化网元管理器返回的实际状态属于预设网元异常状态时,则判定该虚机出现故障。
进一步,所述装置还包括:
多个自愈代理模块,每个自愈代理模块对应一个功能组件和一个组件故障判断模块,分别用于检测对应功能组件的状态数据,以及将检测的状态数据发送给对应的所述组件故障判断模块;
所述组件自愈策略包括重启组件;所述虚机自愈策略包括重启虚机、删除虚机、创建虚机或者重建虚机;所述网元自愈策略包括向备用的容灾虚拟网元发起容灾倒换。
进一步,所述网元自愈策略还包括完成容灾倒换后禁止回切。
进一步,所述装置还包括:
防频繁自愈模块,用于若出现故障的功能组件为多个,则相同功能的功能组件禁止同时进行自愈处理;
若一个功能组件在自愈处理后的预设时间内,再次出现故障,则禁止再次进行自愈处理。
可选地,所述装置还包括备用故障自愈控制装置和切换模块:
所述切换模块,用于在检测到当前虚拟网元的故障自愈控制装置出现故障时,向所述虚拟化网元管理器查询虚机或当前虚拟网元的实际状态,并根据查询到的实际状态判断需要对所述虚机或当前虚拟网元进行自愈处理时,将当前虚拟网元的故障自愈控制装置切换到所述备用故障自愈控制装置。
为解决上述技术问题,本发明中的一种虚拟网元的故障自愈控制方法,所述虚拟网元包括1个或多个虚机,每个虚机包括1个或多个功能组件,所述方法包括:
检测所述虚拟网元的运行情况;
当某功能组件出现故障时,调用该功能组件对应的预置组件自愈策略对该功能组件进行自愈处理;
当某虚机出现故障时,调用该虚机对应的预置虚机自愈策略对该虚机进行自愈处理;
当所述虚拟网元出现故障时,调用预置网元自愈策略对所述虚拟网元进行自愈处理。
进一步,1个或多个虚拟网元具有1个虚拟化网元管理器;判定某功能组件出现故障的方式包括:
在达到预设的检测周期的情况下,若接收不到某功能组件发送的状态数据,或者,接收到该功能组件发送的状态数据,但接收到的状态数据属于预设组件异常状态,或者,检测到该功能组件的关键绩效指标异常,则判定该功能组件出现故障;
判定某虚机出现故障的方式包括:
若某虚机的所有功能组件均出现故障,向所述虚拟化网元管理器查询该虚机的实际状态,在收到所述虚拟化网元管理器返回的实际状态属于预设虚机异常状态时,判定该虚机出现故障;
判定所述虚拟网元出现故障的方式包括:
若所述虚拟网元的所有虚机均出现故障或者所述虚拟网元的关键绩效指标异常,向所述虚拟化网元管理器查询该虚拟网元的实际状态,在收到所述虚拟化网元管理器返回的实际状态属于预设网元异常状态时,则判定该虚机出现故障。
进一步,所述组件自愈策略包括重启组件;
所述虚机自愈策略包括重启虚机、删除虚机、创建虚机或者重建虚机;
所述网元自愈策略包括向备用的容灾虚拟网元发起容灾倒换。
可选地,所述方法还包括:
若出现故障的功能组件为多个,则相同功能的功能组件禁止同时进行自愈处理;
若一个功能组件在自愈处理后的预设时间内,再次出现故障,则禁止再次进行自愈处理。
本发明有益效果如下:
本发明中装置及方法分3个层次的故障检测和自愈,第一个层次为组件层,第二个层次为虚机层,第三个层次为VNF层,从而实现了VNF的故障检测和自愈,有效解决了平台的自愈机制带来的问题。
附图说明
图1是本发明实施例中一种虚拟网元的故障自愈控制装置的结构示意图;
图2是本发明实施例中故障自愈控制装置的原理结构图;
图3是本发明实施例中VNF功能组件层次自愈的流程图;
图4是本发明实施例中VNF虚机层次自愈的流程图;
图5是本发明实施例中VNF层次自愈的流程图;
图6是本发明实施例中VNF的自愈控制组件自愈的流程图;
图7是本发明实施例中一种虚拟网元的故障自愈控制方法的流程图。
具体实施方式
为了实现VNF的故障检测和自愈,本发明提供了一种虚拟网元的故障自愈控制装置及方法,以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不限定本发明。
如图1所示,本发明实施例中一种虚拟网元的故障自愈控制装置,所述虚拟网元包括1个或多个虚机,每个虚机包括1个或多个功能组件,所述装置包括:
检测模块,用于检测所述虚拟网元的运行情况;
组件自愈模块,用于当某功能组件出现故障时,调用该功能组件对应的预置组件自愈策略对该功能组件进行自愈处理;
虚机自愈模块,用于当某虚机出现故障时,调用该虚机对应的预置虚机自愈策略对该虚机进行自愈处理;
VNF自愈模块,用于当所述虚拟网元出现故障时,调用预置网元自愈策略对所述虚拟网元进行自愈处理。
为了更好的理解本发明实施例,以下简述现有相关技术。
涉及的部分技术术语:
NFV--Network Functions Virtualization(网络功能虚拟化)。
VNF–Virtual Network Function(虚拟化网元)。
VNFM–VNF Manager(虚拟化网元管理器)。
IaaS--Infrastructure-as-a-Service(基础设施即服务)。
PaaS--Platform-as-a-Service(平台即服务)。
SaaS--Software-as-a-Service(软件即服务)。
MANO:Management and Orchestrator(管理和协调器)。
VIM:Virtualised Infrastracture Manager(虚拟化基础设施管理器)。
当前电信网络使用的各种设备,均是基于私有平台部署的,各种网元间硬件资源无法互用,每个网元扩容必须增加硬件,缩容后硬件资源闲置,耗时长,弹性差,成本高;在NFV方法中,各种网元变成了独立的应用,可以灵活部署在基于标准的服务器、存储、交换机构建的统一平台上,这样软硬件解耦,每个应用可以通过快速增加减少虚拟资源来达到快速缩扩容的目的,大大提升网络的弹性。
云计算(cloud computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。通俗的来说云计算就是以前的服务器计算的升级版,其主要有扩展性强、廉价、虚拟化、计算能力强这几个特点。云计算的服务模式SaaS、PaaS和IaaS这三个大类或层次。
1.IaaS:提供给消费者的服务是对所有计算基础设施的利用,包括处理CPU、内存、存储、网络和其它基本的计算资源,用户能够部署和运行任意软件,包括操作系统和应用程序。
2.PaaS:提供给消费者的服务是把客户采用提供的开发语言和工具开发的或收购的应用程序部署到供应商的云计算基础设施上去。
3.SaaS:提供给客户的服务是运营商运行在云计算基础设施上的应用程序,用户可以在各种设备上通过客户端界面访问,如浏览器。
虽然Iass平台对于故障检测和恢复也有自己相关机制,但有很大的局限性。首先Iaas平台本身只能处理平台本身或硬件资源或虚机本身的故障,其次因为Iaas平台对于故障的处理也不一定符合VNF本身的要求,甚至它的处理会对VNF造成不可挽回的损失。
本发明实施例通过3个层次的故障检测和自愈,第一个层次为组件层,第二个层次为虚机层,第三个层次为VNF层,实现了VNF的故障检测和自愈,有效解决了现有技术存在的问题。
在上述实施例的基础上,进一步提出上述实施例的变型实施方式,在此需要说明的是,为了使描述简要,在各变型实施方法中仅描述与上述实施例的不同之处。
在本发明的一个实施方式中,1个或多个虚拟网元具有1个虚拟化网元管理器;所述装置还可以包括:
组件故障判断模块,用于在达到预设的检测周期的情况下,若接收不到某功能组件发送的状态数据,接收到该功能组件发送的状态数据,但接收到的状态数据属于预设组件异常状态,或者,检测到该功能组件的关键绩效指标异常,则判定该功能组件出现故障;
虚机故障判断模块,用于若某虚机的所有功能组件均出现故障,向所述虚拟化网元管理器查询该虚机的实际状态,在收到所述虚拟化网元管理器返回的实际状态属于预设虚机异常状态时,判定该虚机出现故障;
VNF故障判断模块,用于若所述虚拟网元的所有虚机均出现故障或者所述虚拟网元的关键绩效指标异常,向所述虚拟化网元管理器查询该虚拟网元的实际状态,在收到所述虚拟化网元管理器返回的实际状态属于预设网元异常状态时,则判定该虚机出现故障。
进一步说,所述装置还可以包括:
多个自愈代理模块,每个自愈代理模块对应一个功能组件和一个组件故障判断模块,分别用于检测对应功能组件的状态数据,以及将检测的状态数据发送给对应的所述组件故障判断模块;
所述组件自愈策略包括重启组件;所述虚机自愈策略包括重启虚机、删除虚机、创建虚机或者重建虚机;所述网元自愈策略包括向备用的容灾虚拟网元发起容灾倒换。
其中,所述网元自愈策略还包括完成容灾倒换后禁止回切。
在本发明的另一个实施方式中,所述装置还可以包括:
防频繁自愈模块,用于若出现故障的功能组件为多个,则相同功能的功能组件禁止同时进行自愈处理;
若一个功能组件在自愈处理后的预设时间内,再次出现故障,则禁止再次进行自愈处理。
在本发明的又一个实施方式中,所述装置还可以包括:
备用故障自愈控制装置和切换装置:
所述切换装置,用于在检测到当前虚拟网元的故障自愈控制装置出现故障时,向所述虚拟化网元管理器查询虚机或当前虚拟网元的实际状态,并根据查询到的实际状态判断需要对所述虚机或当前虚拟网元进行自愈处理时,将当前虚拟网元的故障自愈控制装置切换到所述备用故障自愈控制装置。
举一具体应用例详细说明本发明实施例。
如图2所示,本发明实施中虚拟网元的故障自愈控制装置存在3个层次的故障检测和自愈,第一个层次为组件层,第二个层次为虚机层,第三个层次为VNF层。也就是说,各VNF将存在一个自愈控制组件(即虚拟网元的故障自愈控制装置,主备模式)和若干自愈代理组件(自愈代理模块)。补充说明:本装置不限于VNF应用,其他虚拟化应用也可使用该装置。
自愈控制组件负责VNF内部检测和自愈,它可以通过与VNFM交互执行虚机层次的自愈,并可以与相关的容灾VNF自愈控制组件交互实现VNF层次的自愈容灾。
自愈代理组件负责检测VNF内部各个功能组件状态和KPI(关键绩效指标)数据,并定时上报给自愈控制组件。其中,KPI可以根据实际情况设置。
当自愈控制组件检测到某VNF内部组件长时间不上报或状态异常或该组件KPI异常时可以通过发送组件重启指令或其他规定动作使相应组件自愈。这是第一个层次也就是组件层次的自愈。
当自愈控制组件检测到某VNF的某个虚机VM上的所有组件长时间不上报或状态异常或组件KPI异常,则判定该虚机VM异常。VNF需要到VNFM查询该虚机VM实际状态,并根据实际状态根据既定的策略采取规定的VM自愈措施。比如可以重启该虚机,或删除该虚机,或者创建该虚机,或者重建该虚机等等。这是第二个层次也就是虚机层次的自愈。
当自愈控制组件检测到整个VNF的虚机都异常长时间不上报或整个VNF的KPI异常时,它需要查询VFNM确认VNF虚机实际状态,并根据实际状态和既定策略采取规定的VNF自愈措施。比如可以跟容灾VNF自愈控制组件交互,发起容灾倒换,关闭该VNF的对外链路,以使VNF业务切换到备用的容灾VNF网元上。这是第三个层次也就是VNF层次的自愈。
当然自愈控制组件主用可以监控备用自愈控制组件,但无法监控他自己,因此当自愈控制组件出现异常时需要更高层次的组件干预,据此可以在VNFM设置监控组件,用于监控各VNF自愈控制组件正常与否,如果某VNF自愈控制组件异常,则可以VNFM可以采取对主用自愈控制组件进行自愈,此时备用的自愈控制组件自动切换为主用。
通常自愈代理不上报状态代表组件异常,其他异常检测和KPI检测可以根据不同功能组件定义不同的检测标准,同时制定的自愈动作也可以不同。不同层次自愈对VNF系统产生的影响是不同的,对不同层次自愈进行单独开关控制是必要的。同时为了不使组件或虚机自愈频繁发生,防止误操作,自愈可以规定更苛刻的条件,比如相同功能组件不能同时自愈,自愈发生后一定时间内不能再进行自愈等等。而为了VNF层次自愈的频繁发生,可设定VNF容灾倒换后是否允许自动回切等动作。
以下详细描述各模块的具体实现流程。
如图3所示,组件自愈模块实现的组件层次自愈的正常流程:
步骤1,组件z异常不再上报状态到控制组件,其他组件正常上报。
步骤2,超过检测周期后控制组件判定组件z异常,向系统发起重启组件z指令。
步骤3,组件z正常启动后向控制组件发送上报消息,其他组件依然正常上报。
如图4所示,虚机自愈模块实现的虚机层次自愈的正常流程:
步骤1,VNF的虚机VM1发生异常,其上的所有组件都不再上报状态。
步骤2,超过检测周期后控制组件判定虚机VM1异常,向VNFM查询VM1状态。
步骤3,控制组件收到VNFM的响应判定VM1需要进行自愈,并结合VM实际状态采取自愈措施,如向VNFM发起重启虚机命令。
步骤4,VNFM和NFVO操作完虚机后,虚机恢复正常,则其上组件开始正常向控制组件上报状态。
如图5所示,VNF自愈模块实现的VNF层次自愈的正常流程:
步骤1,VNF1的控制组件检测到本VNF的KPI异常,需要发起VNF层次自愈。
步骤2,VNF1的控制组件向其容灾VNF2的控制组件发起容灾倒换请求。
步骤3,VNF1的控制组件收到容灾VNF2的响应后采取闭塞自身链路等措施,使本局业务切换到VNF2处理。
步骤4,VNF1的控制组件继续自身的组件或虚机的自愈处理,直至VNF1恢复正常。
如图6所示,切换模块实现的自愈控制组件自身的自愈正常流程:
步骤1,VNF1的控制组件1(即当前故障自愈控制)正常向VNFM上报自身状态,在某时刻异常,但底层系统没有进行主备倒换。
步骤2,过了检测周期后,VNFM检测到VNF1控制组件1异常,查询虚机状态后,判断需要对控制组件所在虚机进行处理,比如重启,则向NFVO发起操作。
步骤3,操作系统自动将VNF1的控制组件2(备用故障自愈控制)切换为主用(即当前),开始向VFNM上报状态。
步骤4,VNF1的控制组件1启动正常后进入备用态。
如图7所示,本发明实施例中一种虚拟网元的故障自愈控制方法,所述虚拟网元包括1个或多个虚机,每个虚机包括1个或多个功能组件,所述方法包括:
S701,检测所述虚拟网元的运行情况;
S702,当某功能组件出现故障时,调用该功能组件对应的预置组件自愈策略对该功能组件进行自愈处理;
S703,当某虚机出现故障时,调用该虚机对应的预置虚机自愈策略对该虚机进行自愈处理;
S704,当所述虚拟网元出现故障时,调用预置网元自愈策略对所述虚拟网元进行自愈处理。
在本发明的一个实施方式中,1个或多个虚拟网元具有1个虚拟化网元管理器;判定某功能组件出现故障的方式包括:
在达到预设的检测周期的情况下,若接收不到某功能组件发送的状态数据,接收到该功能组件发送的状态数据,但接收到的状态数据属于预设组件异常状态,或者,检测到该功能组件的关键绩效指标异常,则判定该功能组件出现故障;
判定某虚机出现故障的方式包括:
若某虚机的所有功能组件均出现故障,向所述虚拟化网元管理器查询该虚机的实际状态,在收到所述虚拟化网元管理器返回的实际状态属于预设虚机异常状态时,判定该虚机出现故障;
判定所述虚拟网元出现故障的方式包括:
若所述虚拟网元的所有虚机均出现故障或者所述虚拟网元的关键绩效指标异常,向所述虚拟化网元管理器查询该虚拟网元的实际状态,在收到所述虚拟化网元管理器返回的实际状态属于预设网元异常状态时,则判定该虚机出现故障。
具体说,所述组件自愈策略包括重启组件;
所述虚机自愈策略包括重启虚机、删除虚机、创建虚机或者重建虚机;
所述网元自愈策略包括向备用的容灾虚拟网元发起容灾倒换。
其中,所述网元自愈策略还包括完成容灾倒换后禁止回切。
在本发明的另一个实施方式中,所述方法还包括:
若出现故障的功能组件为多个,则相同功能的功能组件禁止同时进行自愈处理;
若一个功能组件在自愈处理后的预设时间内,再次出现故障,则禁止再次进行自愈处理。
本发明实施例方法存在3个层次的故障检测和自愈,第一个层次为组件层,第二个层次为虚机层,第三个层次为VNF层。各VNF将存在一个自愈控制组件(主备模式)和若干自愈代理组件。
虽然本申请描述了本发明的特定示例,但本领域技术人员可以在不脱离本发明概念的基础上设计出来本发明的变型。
本领域技术人员在本发明技术构思的启发下,在不脱离本发明内容的基础上,还可以对本发明的方法做出各种改进,这仍落在本发明的保护范围之内。

Claims (10)

1.一种虚拟网元的故障自愈控制装置,其特征在于,所述虚拟网元包括1个或多个虚机,每个虚机包括1个或多个功能组件,所述装置包括:
检测模块,用于检测所述虚拟网元的运行情况;
组件自愈模块,用于当某功能组件出现故障时,调用该功能组件对应的预置组件自愈策略对该功能组件进行自愈处理;
虚机自愈模块,用于当某虚机出现故障时,调用该虚机对应的预置虚机自愈策略对该虚机进行自愈处理;
VNF自愈模块,用于当所述虚拟网元出现故障时,调用预置网元自愈策略对所述虚拟网元进行自愈处理。
2.如权利要求1所述的装置,其特征在于,1个或多个虚拟网元具有1个虚拟化网元管理器;所述装置还包括:
组件故障判断模块,用于在达到预设的检测周期的情况下,若接收不到某功能组件的状态数据,或者,接收到该功能组件的状态数据,但接收到的状态数据属于预设组件异常状态,或者,检测到该功能组件的关键绩效指标异常,则判定该功能组件出现故障;
虚机故障判断模块,用于若某虚机的所有功能组件均出现故障,向所述虚拟化网元管理器查询该虚机的实际状态,在收到所述虚拟化网元管理器返回的实际状态属于预设虚机异常状态时,判定该虚机出现故障;
VNF故障判断模块,用于若所述虚拟网元的所有虚机均出现故障或者所述虚拟网元的关键绩效指标异常,向所述虚拟化网元管理器查询该虚拟网元的实际状态,在收到所述虚拟化网元管理器返回的实际状态属于预设网元异常状态时,则判定该虚机出现故障。
3.如权利要求2所述的装置,其特征在于,所述装置还包括:
多个自愈代理模块,每个自愈代理模块对应一个功能组件和一个组件故障判断模块,分别用于检测对应功能组件的状态数据,以及将检测的状态数据发送给对应的所述组件故障判断模块;
所述组件自愈策略包括重启组件;所述虚机自愈策略包括重启虚机、删除虚机、创建虚机或者重建虚机;所述网元自愈策略包括向备用的容灾虚拟网元发起容灾倒换。
4.如权利要求3所述的装置,其特征在于,所述网元自愈策略还包括完成容灾倒换后禁止回切。
5.如权利要求1-4中任意一项所述的装置,其特征在于,所述装置还包括:
防频繁自愈模块,用于若出现故障的功能组件为多个,则相同功能的功能组件禁止同时进行自愈处理;
若一个功能组件在自愈处理后的预设时间内,再次出现故障,则禁止再次进行自愈处理。
6.如权利要求1-4中任意一项所述的装置,其特征在于,所述装置还包括备用故障自愈控制装置和切换模块:
所述切换模块,用于在检测到当前虚拟网元的故障自愈控制装置出现故障时,向所述虚拟化网元管理器查询虚机或当前虚拟网元的实际状态,并根据查询到的实际状态判断需要对所述虚机或当前虚拟网元进行自愈处理时,将当前虚拟网元的故障自愈控制装置切换到所述备用故障自愈控制装置。
7.一种虚拟网元的故障自愈控制方法,其特征在于,所述虚拟网元包括1个或多个虚机,每个虚机包括1个或多个功能组件,所述方法包括:
检测所述虚拟网元的运行情况;
当某功能组件出现故障时,调用该功能组件对应的预置组件自愈策略对该功能组件进行自愈处理;
当某虚机出现故障时,调用该虚机对应的预置虚机自愈策略对该虚机进行自愈处理;
当所述虚拟网元出现故障时,调用预置网元自愈策略对所述虚拟网元进行自愈处理。
8.如权利要求7所述的方法,其特征在于,1个或多个虚拟网元具有1个虚拟化网元管理器;判定某功能组件出现故障的方式包括:
在达到预设的检测周期的情况下,若接收不到某功能组件发送的状态数据,或者,接收到该功能组件发送的状态数据,但接收到的状态数据属于预设组件异常状态,或者,检测到该功能组件的关键绩效指标异常,则判定该功能组件出现故障;
判定某虚机出现故障的方式包括:
若某虚机的所有功能组件均出现故障,向所述虚拟化网元管理器查询该虚机的实际状态,在收到所述虚拟化网元管理器返回的实际状态属于预设虚机异常状态时,判定该虚机出现故障;
判定所述虚拟网元出现故障的方式包括:
若所述虚拟网元的所有虚机均出现故障或者所述虚拟网元的关键绩效指标异常,向所述虚拟化网元管理器查询该虚拟网元的实际状态,在收到所述虚拟化网元管理器返回的实际状态属于预设网元异常状态时,则判定该虚机出现故障。
9.如权利要求8所述的方法,其特征在于,所述组件自愈策略包括重启组件;
所述虚机自愈策略包括重启虚机、删除虚机、创建虚机或者重建虚机;
所述网元自愈策略包括向备用的容灾虚拟网元发起容灾倒换。
10.如权利要求7-9中任意一项所述的方法,其特征在于,所述方法还包括:
若出现故障的功能组件为多个,则相同功能的功能组件禁止同时进行自愈处理;
若一个功能组件在自愈处理后的预设时间内,再次出现故障,则禁止再次进行自愈处理。
CN201610761361.7A 2016-08-30 2016-08-30 虚拟网元的故障自愈控制装置及方法 Active CN107783855B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610761361.7A CN107783855B (zh) 2016-08-30 2016-08-30 虚拟网元的故障自愈控制装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610761361.7A CN107783855B (zh) 2016-08-30 2016-08-30 虚拟网元的故障自愈控制装置及方法

Publications (2)

Publication Number Publication Date
CN107783855A true CN107783855A (zh) 2018-03-09
CN107783855B CN107783855B (zh) 2022-12-06

Family

ID=61440226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610761361.7A Active CN107783855B (zh) 2016-08-30 2016-08-30 虚拟网元的故障自愈控制装置及方法

Country Status (1)

Country Link
CN (1) CN107783855B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112203311A (zh) * 2019-07-08 2021-01-08 中国移动通信集团浙江有限公司 网元异常诊断方法、装置、设备及计算机存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110030A (zh) * 2009-12-28 2011-06-29 北京安码科技有限公司 一种支持软件自修复的并行计算方法及其装置
CN102983990A (zh) * 2012-11-07 2013-03-20 曙光云计算技术有限公司 虚拟机的管理方法和装置
CN105468435A (zh) * 2015-12-25 2016-04-06 赛特斯信息科技股份有限公司 Nfv动态资源分配方法
CN105493444A (zh) * 2013-12-31 2016-04-13 华为技术有限公司 一种网络功能虚拟化nfv故障管理装置、设备及方法
WO2016101486A1 (zh) * 2014-12-22 2016-06-30 中兴通讯股份有限公司 一种故障修复方法、装置及计算机存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110030A (zh) * 2009-12-28 2011-06-29 北京安码科技有限公司 一种支持软件自修复的并行计算方法及其装置
CN102983990A (zh) * 2012-11-07 2013-03-20 曙光云计算技术有限公司 虚拟机的管理方法和装置
CN105493444A (zh) * 2013-12-31 2016-04-13 华为技术有限公司 一种网络功能虚拟化nfv故障管理装置、设备及方法
WO2016101486A1 (zh) * 2014-12-22 2016-06-30 中兴通讯股份有限公司 一种故障修复方法、装置及计算机存储介质
CN105468435A (zh) * 2015-12-25 2016-04-06 赛特斯信息科技股份有限公司 Nfv动态资源分配方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112203311A (zh) * 2019-07-08 2021-01-08 中国移动通信集团浙江有限公司 网元异常诊断方法、装置、设备及计算机存储介质
CN112203311B (zh) * 2019-07-08 2022-12-27 中国移动通信集团浙江有限公司 网元异常诊断方法、装置、设备及计算机存储介质

Also Published As

Publication number Publication date
CN107783855B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
KR102059251B1 (ko) 노드 시스템, 서버 장치, 스케일링 제어 방법 및 프로그램
US10601657B2 (en) Instance node management method and management device
CN108234158B (zh) Vnf的建立方法、nfvo以及网络系统
CN105933407B (zh) 一种实现Redis集群高可用的方法及系统
CN106533736B (zh) 一种网络设备重启方法和装置
CN108347339B (zh) 一种业务恢复方法及装置
CN112948063B (zh) 云平台的创建方法、装置、云平台以及云平台实现系统
EP3806395B1 (en) Virtual network function (vnf) deployment method and apparatus
CN110581785B (zh) 一种可靠性评估方法和装置
CN112395047A (zh) 虚拟机故障疏散方法、系统及计算机可读介质
CN105554130A (zh) 基于分布式存储系统的NameNode切换方法和切换装置
EP3806392A1 (en) Fault management method and related device
CN111209265A (zh) 一种数据库切换方法和终端设备
CN105959145B (zh) 一种适用高可用性集群的并行管理服务器的方法及系统
JP2006285443A (ja) オブジェクト救済システム及び方法
CN107783855A (zh) 虚拟网元的故障自愈控制装置及方法
CN106411643B (zh) Bmc检测方法以及装置
CN105743696A (zh) 一种云计算平台管理方法
CN115712521A (zh) 一种集群节点故障处理方法、系统及介质
CN107122228B (zh) 超融合系统的管理平台的部署方法和装置
CN104601350A (zh) 一种自动容灾切换方法及装置
CN114691304A (zh) 实现集群虚拟机高可用的方法和装置、设备和介质
CN116466613A (zh) 控制指令的执行方法、被控设备、车站服务器及执行装置
CN108153484B (zh) 一种虚拟化环境下的共享式存储系统及其管理方法
CN107870801B (zh) 虚拟机高可用功能自动开通方法、装置和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant