CN109995569B - 故障联动处理方法、网元及存储介质 - Google Patents

故障联动处理方法、网元及存储介质 Download PDF

Info

Publication number
CN109995569B
CN109995569B CN201810000580.2A CN201810000580A CN109995569B CN 109995569 B CN109995569 B CN 109995569B CN 201810000580 A CN201810000580 A CN 201810000580A CN 109995569 B CN109995569 B CN 109995569B
Authority
CN
China
Prior art keywords
fault
clearing
vim
vnfm
fault clearing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810000580.2A
Other languages
English (en)
Other versions
CN109995569A (zh
Inventor
陈佳媛
孔丽丽
吕启迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN201810000580.2A priority Critical patent/CN109995569B/zh
Publication of CN109995569A publication Critical patent/CN109995569A/zh
Application granted granted Critical
Publication of CN109995569B publication Critical patent/CN109995569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例公开了一种故障联动处理方法、网元及存储介质。所述故障联动处理方法,应用于虚拟化基础设施管理器VIM,包括:接收第一故障告警;根据所述第一故障告警确定是否需要触发联动机制;若触发所述联动机制,进入等待状态;当接收到虚拟网络功能管理器VNFM发送故障清除请求时,退出所述等待状态基于第一故障清除策略进行故障清除。

Description

故障联动处理方法、网元及存储介质
技术领域
本发明涉及网络虚拟化技术,尤其涉及一种故障联动处理方法、网元及存储介质。
背景技术
虚拟化技术是一种资源管理技术,可以将计算机的各种实体资源。所述实体资源可包括:硬件设备提供的通信资源及网络资源等,如,服务器、传输媒介、内存及存储等,予以抽象转换后呈现出来,打破实体结构间的不可切割的障碍,使用户可以比原本的组态更好的方式来应用这些资源。这些资源的新虚拟部分不受现有资源的架设方式、地域或物理组态所限制。
之前虚拟化系统通常采用两层架构,分别是基础设施层(即I层)和虚拟网络(Virtual Network Function,VNF)层。且I层和VNF层均来自同一个厂商,若某一个层发生了故障,该厂商在其内部监控系统内都可以查询到或被通知到,从而可以通过内部故障清除,实现功能恢复。为了实现层次架构的分层解耦,引入了三层架构,分别是硬件资源层、虚拟资源层及虚拟网络功能层。且同时引入了利用管理与编排(management andorchestration,MNNO)实体对VNF进行管理和编排。而MAM又分为三层,分别是虚拟化基础设施管理器(Virtual Infrastructure Manager,VIM)、虚拟网络功能管理器(VirtualNetwork Function Manager,VNFM)及网络功能虚拟化编排器(Network FunctionVirtualization Orchestrator,NFVO)。
VIM,用于对基础设施的软硬件资源进行管理,对应于之前的I层。
VNFM位于VIM和NFVO之间,用于对虚拟网元进行生命周期进行管理。
NFVO为网络功能虚拟化之后进行编排。
随着技术发展,VIM和VNFM可能来自不同的厂商的,若某一个层发生故障,会影响到其他层的正常工作时则之前的内部故障清除就不再适用。故如何进行三层架构下的故障清除,保证网络提供的业务的可考性是需要进一步解决的问题。
发明内容
有鉴于此,本发明实施例期望提供一种故障联动处理方法、网元及存储介质,至少部分解决上述问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例第一方面提供一种故障联动处理方法,应用于虚拟化基础设施管理器VIM,包括:
接收第一故障告警;
根据所述第一故障告警确定是否需要触发联动机制;
若触发所述联动机制,进入等待状态;
当接收到虚拟网络功能管理器VNFM发送故障清除请求时,退出所述等待状态基于第一故障清除策略进行故障清除。
可选地,所述方法还包括:
将基于所述第一故障清除策略的故障清除结果发送给所述VNFM;
接收所述VNFM的第二故障清除策略,其中,所述第二故障清除策略是所述VNFM在收到所述VIM故障清除失败之后发送的;
根据所述第二故障清除策略进行故障清除。
可选地,所述方法还包括:
接收所述VNFM的第二故障清除策略,其中,所述第二故障清除策略是:所述VNFM在进入等待状态的等待时长超过时长阈值时发送的;
根据所述第二故障清除策略进行故障清除。
可选地,所述根据所述第二故障清除策略进行故障清除,包括:
根据所述第二故障清除策略,删除故障的虚拟机VM并创建新的VM。
可选地,所述基于第一故障清除策略进行故障清除,包括以下至少之一:
对故障的VM进行本地重启;
对故障的VM进行异地重生。
可选地,所述根据所述第一故障告警确定是否需要触发联动机制,包括:
确定所述第一故障告警对应的故障是否影响业务服务的正常提供,
当所述第一故障告警对应的故障影响业务服务的正常提供,则确定需要触发联动机制。
本发明实施例第二方面提供一种故障联动处理方法,应用于虚拟网络功能管理器VNFM,包括:
接收第二故障告警;
根据所述第二故障告警,进行业务拉起;
若所述业务拉起失败,触发联动机制;
在所述联动机制下,向虚拟化基础设施管理器VIM发送的故障清除请求,其中,所述故障清除请求,用于触发所述VIM进行故障清除。
可选地,所述方法还包括:
接收所述VIM基于第一故障清除策略进行故障清除的故障清除结果;
若所述故障清除结果表明所述VIM的故障清除失败,向所述VIM发送第二故障清除策略;其中,所述第二故障清除策略用于所述VIM进行VM故障清除。
可选地,所述方法还包括:
设定处于所述等待状态的时长阈值;
当所述VNFM在所述等待状态的等待时长超过时长阈值之后,向所述VIM发送第二故障清除策略;其中,所述第二故障清除策略用于所述VIM进行VM故障清除。
本发明实施例第三方面提供一种网元,所述网元为虚拟化基础设施管理器VIM,包括:
第一接收单元,用于接收第一故障告警;
第一确定单元,用于根据所述第一故障告警确定是否需要触发联动机制;
第一等待单元,用于若触发所述联动机制,进入等待状态;
故障清除单元,用于当接收到虚拟网络功能管理器VNFM发送故障清除请求时,退出所述等待状态基于第一故障清除策略进行故障清除。
本发明实施例第四方面提供一种网元,所述网元为虚拟网络功能管理器VNFM,包括:
第二接收单元,用于接收第二故障告警;
拉起单元,用于根据所述第二故障告警,进行业务拉起;
联动触发单元,用于若所述业务拉起失败,触发联动机制;
第二发送单元,用于在所述联动机制下,向虚拟化基础设施管理器VIM发送的故障清除请求,其中,所述故障清除请求,用于触发所述VIM进行故障清除。
本发明实施例第五方面提供一种网元,包括:网络接口、存储器、处理器及存储在所述存储器上并由所述处理器执行的计算机程序;
所述处理器,分别与所述网络接口及存储器连接,用于通过执行所述计算机程序实现应用于VIM中任一项或应用于VNFM中任一项提供的故障联动处理方法。
本发明实施例第六方面提供一种计算机存储介质,所述计算机存储介质存储有计算机程序;所述计算机程序被执行后,能够所述计算机程序实现应用于VIM中任一项或应用于VNFM中任一项提供的故障联动处理方法。
本发明实施例提供的故障联动处理方法、网元及存储介质,若VIM收到故障告警,首先会确定是否需要触发联动机制,若需要触发联动机制则会先进入等待状态。因为该故障可能是通过VNFM的业务拉起就能够清除的故障,故无需进行I层的VM重启等处理。若接收到VNFM,在业务拉起失败时发送的故障清除请求时,才基于本地的第一故障清除策略进行故障清除,从而很好的实现了故障清除在VM和VNFM之间的协作,从而解决了VNFM和VIM之间各自依照自己的故障清除策略进行故障清除导致的不必要的清除以及一些故障清除冲突,例如,只要在VNFM发送了故障清除请求的情况下,VIM才会下发故障清除策略,避免VIM接收到VNFM的故障清除策略与自身默认的故障清除策略冲突的问题。
附图说明
图1为本发明实施例提供的第一种故障联动处理方法的流程示意图;
图2为本发明实施例提供的第二种故障联动处理方法的流程示意图;
图3为本发明实施例提供的第三种故障联动处理方法的流程示意图;
图4为本发明实施例提供的一种VIM的结构示意图;
图5为本发明实施例提供的一种VNFM的结构示意图;
图6为本发明实施例提供的一种网元的结构示意图;
图7为本发明实施例提供的一种故障联动处理方法的流程示意图。
具体实施方式
以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。
如图1所示,本实施例提供一种故障联动处理方法,应用于虚拟化基础设施管理器VIM,包括:
步骤S110:接收第一故障告警;
步骤S120:根据所述第一故障告警确定是否需要触发联动机制;
步骤S130:若触发所述联动机制,进入等待状态;
步骤S140:当接收到虚拟网络功能管理器VNFM发送故障清除请求时,退出所述等待状态基于第一故障清除策略进行故障清除。
在本实施例中所述第一故障告警可来自与VIM连接的各种物理机或虚拟机(VM)发送的故障告警。在本实施例中若VIM接收到故障的第一故障告警的告警消息后,会判断是否需要触发联动机制。确定是否需要触发联动机制的方式有多种,以下提供两种可选方式:
可选方式一:
确定所述第一故障告警对应的故障是否影响业务服务的正常提供,
当所述第一故障告警对应的故障影响业务服务的正常提供,则确定需要触发联动机制。
例如,判断第一故障告警对应的故障是否位于需要提供业务服务的虚拟化资源,若是则认为是影响业务服务的正常提供的故障。
可选方式二:
所述VIM中预先存储有需要触发联动机制的故障信息,例如,故障类型等;
当所述第一故障告警对应的故障类型为需要触发联动机制的类型,则确定需要触发所述联动机制。
例如,通常若故障类型为硬件故障,可能会影响VNFM的业务执行;还有些软件故障,也会影响VNFM的业务执行。通常情况下,若故障发生在提供业务的虚拟机等虚拟化资源上时,可认为是会影响业务是否正常的故障,是需要触发联动机制的。有一些故障仅是在I层自身管理或管控方面的故障,是不会影响业务的正常进行的,这些故障是不会触发联动机制的。在一些实施例中,所述VIM可能存储有故障类型和联动机制的对应关系,VIM在接收到第一故障告警时,根据所述第一故障告警确定出故障类型,根据故障类型查询所述对应关系,确定是否触发联动机制。
所述业务可为VNFM提供的各种应用,典型的包括多媒体信息业务、通信业务等。所述多媒体信息业务包括:视频业务、音频业务等。所述通信业务可包括:电信通话业务等。所述VNFM可为直接面向用户设备提供各种应用(Application,APP)的服务。基于视频业务服务,用户观看视频;基于音频业务服务,用户可以收听音频等。
与此同时,VIM为了加速故障清除首先会按照第一故障清除策进行故障的处理,从而尽可能快的排除VM故障。若按照第一故障清除策略就能够完成故障的排除,这样的话,即便该故障会影响到VNFM的业务,也可以使得VNFM业务尽快回复。所述第一故障清除策略可为所述VIM进行故障清除的默认策略,可以为所述VIM本地存储的故障清除策略,或者,是从NFVO或者数据库请求的故障清除策略。
所述等待状态为等待是否由VIM进行故障清除的状态。
在VIM处于等待状态时,VNFM会通过业务拉起等操作,以试图从业务面完成故障的清除,从而无需进行虚拟机重启等比较复杂的故障清除操作,从而尽可能的降低故障清除操作的成本。与此同时,若VNFM无法实现故障清除,则会向VIM发送的故障清除请求,在这种情况下,所述VIM会突出所述等待状态,并基于本地的第一故障清除策略进行故障清除。
在一些实施例中,所述方法还包括:
若无需触发了所述联动机制,则所述VIM仅需根据所述第一故障策略执行故障清除即可,不用进入等待状态以再接收到VNFM的故障清除请求之后再进行故障清除。
为了尽可能的清除故障或及时清除故障,如图2所示,所述方法还包括:
步骤S150:将基于所述第一故障清除策略的故障清除结果发送给所述VNFM;
步骤S160:接收所述VNFM的第二故障清除策略,其中,所述第二故障清除策略是所述VNFM在收到所述VIM故障清除失败之后发送的;
步骤S170:根据所述第二故障清除策略进行故障清除。
在步骤S150中会将故障清除的故障清除结果告知给VNFM,所述故障清除结果可包括:故障清除失败和故障清除成功两种故障清除结果。不管是故障清除失败还是故障清除成功,所述VIM均需要告知VNFM。在本实施例中,若VNFM接收到VIM发送的故障清除失败的故障清除结果,则会向VIM下发故障清除策略;这样的话,VIM会根据VNFM下发的策略进行再次的故障清除。故可选地,所述步骤S150可包括:向所述VNFM发送故障清除失败的故障清除结果。在本实施例中,VIM在接收到第一故障告警时,首先采用自身的第一故障清除策略进行故障清除,若处理失败则会根据来自VNFM的第二故障清除策略进行故障处理,这样的话,显然确定了两个故障清除策略的优先使用顺序,从而解决了VNFM发送有故障清除策略,自身也有故障清除策略,当两个策略冲突时,导致的故障处理中的冲突问题。
所述VNFM在向VIM发送故障清除请求这时候,所述VNFM进入故障清除的等待状态。在等待状态下,VNFM暂时中止业务服务的提供。但是在所述等待状态是设定了一定时长的(即时长阈值),若一旦超过设定的时长阈值,表明VIM的故障清除不能自身清除,或者,VIM的故障清除速度过慢,此时,VNFM会下发所述第二故障清除策略给VIM。故在一些实施例中,所述方法还包括:接收所述VNFM的第二故障清除策略,其中,所述第二故障清除策略是所述VNFM在所述等待状态的等待时长超过时长阈值之后发送的;根据所述第二故障清除策略进行故障清除。
所述VIM接收到第二故障清除策略之后,会终止依据第一故障清除策略的故障处理,按照第二故障清除策略进行故障清除,以避免冲突及不必要的故障清除操作。
可选地,所述根据所述第二故障清除策略进行故障清除,包括:根据所述第二故障清除策略,删除故障的所述VM并建立新的VM。
根据所述故障发生的位置,可包括:VM故障、传输媒介故障等。以下以VM故障为例,若是VM故障,第二故障清除策略是删除故障的VM,并创新创建一个VM。删除的VM和新创建的VM可能使用的资源类型、实现的功能都相同或相似,但是不同的虚拟机,分配的是不同的虚拟机标识,在VIM中是一个全新的虚拟机。
通常情况下,VNFM下发的第二故障清除策略相对于第一故障清除策略而言,是故障清除能力更强但可是故障清除代价更大的策略。
所述按照第一故障清除策略处理对应的故障,包括以下至少之一:对故障的所述VM进行本地重启;对故障的所述VM进行异地重生。
所述VM的本地重启可包括:在相同的计算节点上先关闭故障VM,再启动所述VM。
所述VM的异地重生可包括:先关闭位于第一物理资源上的故障VM,沿用VM的虚拟机号以及资源参数等,在第二物理资源上重新启动一个VM。这里的第一物理资源和第二物理资源使用的资源至少部分不同。这里的物理资源可包括:物理机。例如,故障VM原本是运行在第一计算节点上,若进行异地重生,则可能会在第二计算节点上重新启动一个VM。而在第二故障清除策略中,直接清除故障的VM然后重新创建一个新的VM。
在一些实施例中,VIM基于第一故障清除策略进行故障处理包括:
先对故障VM进行本地重启;
当本地重启失败之后,进行所述VM的异地重生,这样可以尽可能减少VM故障清除的成本。
在另一些实施中,为了尽可能快的实现故障清除,所述VIM基于第一故障清除策略可包括:直接进行故障VM的异地重生,若异地重生失败,则认为基于第一故障清除策略的故障清除失败。一般状况下异地重生的故障清除概率略高于VM的本地重生,故直接进行VM的异地重生,一方面可以确保基于第一故障清除策略的VM故障的成功概率,另一方面还可以减少依次进行本地重启和异地重生导致的时延,从而提升故障清除速率。
在还有一些实施例中,基于第一故障清除策略的故障处理还可仅包括:故障VM的本地重启。
虚拟化网络的三层架构的耦合模式包括:直接模式和间接模式。在所述直接模式下,所述VIM和VNFM之间可能设置有通信接口,所述VIM和VNFM之间可以直接进行信息交互。在间接模式下,所述VIM和所述VNFM之间未设置有通信接口,所述VIM和所述VNFM之间的通信需要通过NFVO来中转。
即若耦合模式为直接模式,所述VIM和VNFM之间交互的故障清除请求、故障清除结果及第二故障清除策略等,可以通过VIM和VNFM之间的通信接口直接传递。若耦合模式为间接模式,则VIM和VNFM之间传递的故障清除请求、故障清除结果及第二故障清除策略等信息均是通过NFVO中转的。
总之,在本发明实施例中不管VIM是基于第一故障清除策略进行故障清除,还是进行第二故障清除策略进行故障清除,都可以将故障清除结果发送给VNFM,方便VNFM在故障清除成功时,尽快的恢复业务服务的提供。
如图3所示,本实施例提供一种故障联动处理方法,应用于VNFM,包括:
步骤S210:接收第二故障告警;所述第二故障告警又可以称之为业务故障告警;
步骤S220:根据所述第二故障告警,进行业务拉起;
步骤S230:若所述业务拉起失败,触发联动机制;
步骤S240:在所述联动机制下,向虚拟化基础设施管理器VIM发送的故障清除请求,其中,所述故障清除请求,用于触发所述VIM进行故障清除。
首先VNFM会收到来自虚拟化的网络功能模块组件(VNFC)等业务面的网元发送的第二故障告警之后,VNFM首先会执行业务拉起的操作,例如,所述VNFM执行对与业务相关的文件倒换工作,通过文件倒换工作将因故障暂时停止的工作重新恢复。又例如,VNFM重新启动对应业务的应用,若业务拉起成功则认为清除VIM上报的故障对业务的影响,从而不存在业务故障。
VNFM收到第二故障告警之后,会及时采取相应的处理策略进行业务面的故障排除,尽可能的确保业务正常进行,减少业务面的故障清楚的时延,减少用户的抱怨,提升用户体验;若业务层面的故障处理不能清除故障,还会向VIM发送的故障清除请求,触发VIM进行I层的故障清除来促使业务服务提供的恢复。通常情况下,若所述VNFM进入了等待状态,则所述VNFM还会提供对应业务服务的提供。
所述方法还包括:所述VNFM会接收VIM发送的基于第一故障清除策略的故障清除结果。所述故障清除结果可包括:清除成功的结果和清除失败的结果。若当前接收到的是清除成功的结果,则所述VNFM暂停的业务可以恢复了。
在另一些实施例中,若VNFM接收的为VIM基于第一故障清除策略的故障清除失败的故障清除结果,则所述VNFM会向所述VIM发送第二故障清除策略;其中,所述第二故障清除策略用于所述VIM进行VM故障清除。这样可以通过第二故障清除策略的发送,协助VIM清除故障或加速故障清除。
在一些实施例中,所述方法还包括:
设定处于所述等待状态的时长阈值;
当所述VNFM在所述等待状态的等待时长超过时长阈值之后,向所述VIM发送第二故障清除策略;其中,所述第二故障清除策略用于所述VIM进行VM故障清除。
在等待时长超过时长阈值之后,所述VNFM还未接收到VIM发送的故障清除结果,则可认为VIM基于第一故障策略进行故障清除存在清除不了或者清除速度慢等问题,则所述VNFM会向VIM发送第二故障清除策略,以触发VIM根据第二故障清除策略进行故障清除,以确保故障清除的效果。
如图4所示,本实施例提供一种网元,所述网元为器VIM,包括:
第一接收单元110,用于接收第一故障告警;
第一确定单元120,用于根据所述第一故障告警确定是否需要触发联动机制;
第一等待单元130,用于若触发所述联动机制,进入等待状态;
故障清除单元140,用于当接收到虚拟网络功能管理器VNFM发送故障清除请求时,退出所述等待状态基于第一故障清除策略进行故障清除。
在本实施例中所述第一接收单元110可对应于网络接口,可用于从VM等I层资源接收所述第一故障告警。
所述第一确定单元120及第一等待单元130可对应于处理器,可以根据第一故障告警的发生方和/或第一故障告警携带的信息,确定出是否需要触发联动机制。
所述故障清除单元140,可包括:处理器及网络接口,所述处理器可用于基于第一故障清除策略进行故障清除,而所述网络接口,可用于接收所述VNFM发送所述故障清除请求。
可选地,所述VIM还包括:
第一发送单元,对应于网络接口,用于将基于所述第一故障清除策略的故障清除结果发送给所述VNFM;
所述第一接收单元110,还用于接收所述VNFM的第二故障清除策略,其中,所述第二故障清除策略是所述VNFM在收到所述VIM故障清除失败之后发送的;
所述故障清除单元140,还用于根据所述第二故障清除策略进行故障清除。
在本发明实施例中所述处理器可包括:中央处理器、微处理器、数字信号处理器、应用处理器、可编程阵列或专用集成电路等。
在一些实施例中,所述故障清除单元140,还用于接收所述VNFM的第二故障清除策略,其中,所述第二故障清除策略是:所述VNFM在进入等待状态的等待时长超过时长阈值时发送的;根据所述第二故障清除策略进行故障清除。
可选地,所述故障清除单元140,具体用于根据所述第二故障清除策略,删除故障的虚拟机VM并创建新的VM。
在一些实施例中,所述故障清除单元140,具体用于基于第一故障清除策略对故障的VM进行本地重启;和/或,对故障的VM进行异地重生
在还有些实施例中,所述第一确定单元120,具体用于确定所述第一故障告警对应的故障是否影响业务服务的正常提供,当所述第一故障告警对应的故障影响业务服务的正常提供,则确定需要触发联动机制。
如图5所示,本实施例提供一种网元,所述网元为VNFM,包括:
第二接收单元210,用于接收第二故障告警;
拉起单元220,用于根据所述第二故障告警,进行业务拉起;
联动触发单元230,用于若所述业务拉起失败,触发联动机制;
第二发送单元240,用于在所述联动机制下,向虚拟化基础设施管理器VIM发送的故障清除请求,其中,所述故障清除请求,用于触发所述VIM进行故障清除。
所述第二接收单元210可对应于VNFM的网络接口,可用于接收第二故障告警。
拉起单元220及联动触发单元230,同样可对应于处理器,可用于用于执行所述业务拉起和在业务拉起失败时触发联动机制。
进一步地,所述第二接收单元210,还用于接收所述VIM基于第一故障清除策略进行故障清除的故障清除结果;
所述第二发送单元240,还用于若所述故障清除结果表明所述VIM的故障清除失败,向所述VIM发送第二故障清除策略;其中,所述第二故障清除策略用于所述VIM进行VM故障清除。
在一些实施例中,所述VNFM还包括:
设定单元,可对应于处理器,可用于设定处于所述等待状态的时长阈值;
所述第二发送单元240,还用于当所述VNFM在所述等待状态的等待时长超过时长阈值之后,向所述VIM发送第二故障清除策略;其中,所述第二故障清除策略用于所述VIM进行VM故障清除。
如图6所示,本实施例提供一种网元,包括:网络接口310、存储器320、处理器330及存储在存储器310上并由所述处理器330执行的计算机程序;
所述处理器330,分别与所述网络接口310及存储器320连接,例如,通过集成电路总线IIC,分别与网络接口及存储器320连接。
所述处理器330,可用于通过执行所述计算机程序执行应用于VIM中的一个或多个技术方案提供的故障联动处理方法,或执行应用于VNFM中的一个或多个技术方案提供的故障联动处理方法。
所述网络接口310可为电缆接口或光缆接口等各种类型可用于通信的接口。
所述存储器320可为通信设备中包括存储介质的存储器320件,可为随机存储器320、只读存储器320、存储硬盘等。
所述处理器330可为各种类型的处理器,中央处理器、微处理器、应用处理器、可编程阵列或专用集成电路等。
本发明实施例提供一种计算机存储介质,所述计算机存储介质存储有计算机程序;所述计算机程序被处理后,执行应用于VIM中的一个或多个技术方案提供的故障联动处理方法,或执行应用于VNFM中的一个或多个技术方案提供的故障联动处理方法。
所述计算机存储介质可为:移动存储设备、只读存储器(ROM,Read-Only Mem或y)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。可选为,所述计算机存储介质优选为非瞬间存储介质,或非易失性存储介质。
以下结合上述任意实施例提供几个示例:
示例1:
当VM故障时,VIM收到故障够告警的告消息并按策略进行VM本地重启或者异地重生,VNFM在收到VNFC的业务告警信息后定位问题,会下发新的策略(例如删除VM再重建)给VIM,VIM在VM重启到一半的时候收到VNFM的消息,此时VNFM的策略与VIM的策略相冲突,VIM不知道应该继续执行自己的策略还是放弃去执行VNFM下发给它的策略,从而出现问题,无法保障可靠性。因此本示例提案制定了高可靠性联动策略来避免上述问题的发生。
IM对故障的处理:VIM在收到虚机故障告警后,判断故障类型,若该故障不影响上层业务,则VIM立即触发故障清除策略;若影响上层业务,则首先进入等待状态,在接到VNFM的请求后,再进行故障清除。
VNFM对故障的处理:VNFM在收到业务告警后,首先尝试将业务拉起,若拉起成功,则故障清除;若拉起失败,则触发联动机制,向VIM下发故障清除请求,同时设置定时器。若VIM恢复失败或者定时器超时,则下发策略给VIM。在联动机制下,VIM修复失败时,上报告警给VNFM,VNFM会接着下发新的策略给VIM(删除VM并创建新的VM)。
示例2:
本示例基于示例1提供一种故障联动处理的具体示例,如图7所示,可包括如下步骤:
1:VM发生故障,同时导致VNFC故障。
2:VNFM收到业务告警,先内部进行处理,尝试把业务拉起,若拉起成功,则故障解除;若拉起失败,则判定为底层的硬件资源故障,触发联动机制,向VIM发送故障清除请求并启动一个定时器。
3:VIM收到虚拟机故障告警后,通过查询数据库判断故障类型,若该故障不影响上层业务,则VIM立即触发故障清除,执行步骤4;若该故障影响上层业务,则触发联动机制,首先进入等待状态,执行步骤5。
4:VIM对故障VM进行本地重启,若重启成功则故障消除,若重启失败则进行异地重生。若异地重生成功则故障消除,则失败则上报告警信息给NFVO,请求人工干预。例如,VIM通过向管理员设备发送信息,从而请求人工干预。
5:VIM收到故障清除请求后对故障VM进行本地重启,若重启成功,VM和VNFC恢复工作,VIM反向通知VNFM,故障清除;若重启失败,则进行异地重生,继续执行步骤6。
6:若VM异地重生成功,VNFC恢复工作,VIM反向通知VNFM,故障清除;若重生失败,则VIM发送故障清除的通知给VNFM,继续执行步骤7。
7:VNFM收到VIM发送的通知,通知VIM删除故障VM。
8:VNFM收到VIM发送的VM删除的结果,再通知VIM新建一个VM。VM会将新建VM的结果上报给VNFM。
9:VM新建成功,VNFC恢复,故障清除。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种故障联动处理方法,其特征在于,应用于虚拟化基础设施管理器VIM,包括:
接收第一故障告警;
确定所述第一故障告警对应的故障是否影响业务服务的正常提供;
当所述第一故障告警对应的故障影响所述业务服务的正常提供,则确定需要触发联动机制;
或者,当所述第一故障告警对应的故障类型为需要触发联动机制的类型,则确定需要触发所述联动机制;其中,所述故障类型为所述VIM中预先存储的需要触发所述联动机制的故障信息;
若触发所述联动机制,进入等待状态;
当接收到虚拟网络功能管理器VNFM发送故障清除请求时,退出所述等待状态基于第一故障清除策略进行故障清除。
2.根据权利要求1所述的方法,其特征在于,
所述方法还包括:
将基于所述第一故障清除策略的故障清除结果发送给所述VNFM;
接收所述VNFM的第二故障清除策略,其中,所述第二故障清除策略是所述VNFM在收到所述VIM故障清除失败之后发送的;
根据所述第二故障清除策略进行故障清除。
3.根据权利要求1所述的方法,其特征在于,
所述方法还包括:
接收所述VNFM的第二故障清除策略,其中,所述第二故障清除策略是:所述VNFM在进入所述等待状态的等待时长超过时长阈值时发送的;
根据所述第二故障清除策略进行故障清除。
4.根据权利要求2或3所述的方法,其特征在于,
所述根据所述第二故障清除策略进行故障清除,包括:
根据所述第二故障清除策略,删除故障的虚拟机VM并创建新的VM。
5.根据权利要求1至3任一项所述的方法,其特征在于,
所述基于第一故障清除策略进行故障清除,包括以下至少之一:
对故障的VM进行本地重启;
对故障的VM进行异地重生。
6.一种故障联动处理方法,其特征在于,应用于虚拟网络功能管理器VNFM,包括:
接收第二故障告警;
根据所述第二故障告警,进行业务拉起;
若所述业务拉起失败,触发联动机制;
在所述联动机制下,向虚拟化基础设施管理器VIM发送故障清除请求,其中,所述故障清除请求,用于触发所述VIM进行故障清除。
7.根据权利要求6所述的方法,其特征在于,
所述方法还包括:
接收所述VIM基于第一故障清除策略进行故障清除的故障清除结果;
若所述故障清除结果表明所述VIM的故障清除失败,向所述VIM发送第二故障清除策略;其中,所述第二故障清除策略用于所述VIM进行VM故障清除。
8.根据权利要求6或7所述的方法,其特征在于,
所述方法还包括:
设定处于等待状态的时长阈值;
当所述VNFM在所述等待状态的等待时长超过时长阈值之后,向所述VIM发送第二故障清除策略;其中,所述第二故障清除策略用于所述VIM进行VM故障清除。
9.一种网元,其特征在于,所述网元为虚拟化基础设施管理器VIM,包括:
第一接收单元,用于接收第一故障告警;
第一确定单元,用于确定所述第一故障告警对应的故障是否影响业务服务的正常提供;当所述第一故障告警对应的故障影响所述业务服务的正常提供,则确定需要触发联动机制;或者,当所述第一故障告警对应的故障类型为需要触发联动机制的类型,则确定需要触发所述联动机制;其中,所述故障类型为所述VIM中预先存储的需要触发所述联动机制的故障信息;
第一等待单元,用于若触发所述联动机制,进入等待状态;
故障清除单元,用于当接收到虚拟网络功能管理器VNFM发送故障清除请求时,退出所述等待状态基于第一故障清除策略进行故障清除。
10.一种网元,其特征在于,所述网元为虚拟网络功能管理器VNFM,包括:
第二接收单元,用于接收第二故障告警;
拉起单元,用于根据所述第二故障告警,进行业务拉起;
联动触发单元,用于若所述业务拉起失败,触发联动机制;
第二发送单元,用于在所述联动机制下,向虚拟化基础设施管理器VIM发送故障清除请求,其中,所述故障清除请求,用于触发所述VIM进行故障清除。
11.一种网元,包括:网络接口、存储器、处理器及存储在所述存储器上并由所述处理器执行的计算机程序;
所述处理器,分别与所述网络接口及存储器连接,用于通过执行所述计算机程序实现权利要求1至5任一项或权利要求6至8任一项提供的故障联动处理方法。
12.一种计算机存储介质,所述计算机存储介质存储有计算机程序;所述计算机程序被执行后,能够实现权利要求1至5任一项或权利要求6至8任一项提供的故障联动处理方法。
CN201810000580.2A 2018-01-02 2018-01-02 故障联动处理方法、网元及存储介质 Active CN109995569B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810000580.2A CN109995569B (zh) 2018-01-02 2018-01-02 故障联动处理方法、网元及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810000580.2A CN109995569B (zh) 2018-01-02 2018-01-02 故障联动处理方法、网元及存储介质

Publications (2)

Publication Number Publication Date
CN109995569A CN109995569A (zh) 2019-07-09
CN109995569B true CN109995569B (zh) 2022-06-03

Family

ID=67128229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810000580.2A Active CN109995569B (zh) 2018-01-02 2018-01-02 故障联动处理方法、网元及存储介质

Country Status (1)

Country Link
CN (1) CN109995569B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104170323A (zh) * 2014-04-09 2014-11-26 华为技术有限公司 基于网络功能虚拟化的故障处理方法及装置、系统
WO2015042937A1 (zh) * 2013-09-30 2015-04-02 华为技术有限公司 故障管理的方法、实体和系统
WO2016127482A1 (zh) * 2015-02-12 2016-08-18 华为技术有限公司 一种告警信息处理方法、相关设备和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015042937A1 (zh) * 2013-09-30 2015-04-02 华为技术有限公司 故障管理的方法、实体和系统
CN104170323A (zh) * 2014-04-09 2014-11-26 华为技术有限公司 基于网络功能虚拟化的故障处理方法及装置、系统
WO2016127482A1 (zh) * 2015-02-12 2016-08-18 华为技术有限公司 一种告警信息处理方法、相关设备和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NFV故障关联及故障自愈方案研究;毛斌宏;《电信科学》;20171120;全文 *
TR 32.842 V13.1.0;3GPP;《3GPP》;20151231;全文 *

Also Published As

Publication number Publication date
CN109995569A (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
CN105790980B (zh) 一种故障修复方法及装置
US11706080B2 (en) Providing dynamic serviceability for software-defined data centers
JP2001101033A (ja) オペレーティングシステム及びアプリケーションプログラムの障害監視方法
TW201738747A (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
CN104199753B (zh) 一种虚拟机应用服务故障恢复系统及其故障恢复方法
CN104205060A (zh) 提供用于ha集群的管理程序的基于应用的监控及恢复
CN102394914A (zh) 集群脑裂处理方法和装置
WO2017049997A1 (zh) 一种基于云计算服务的虚拟机监控方法、装置及系统
WO2016045439A1 (zh) 一种vnfm容灾保护的方法、装置和nfvo、存储介质
CN109995568B (zh) 故障联动处理方法、网元及存储介质
CN109361542A (zh) 客户端的故障处理方法、装置、系统、终端和服务器
CN109582459A (zh) 应用的托管进程进行迁移的方法及装置
CN111506391A (zh) 一种容器部署方法及装置
CN108776579A (zh) 一种分布式存储集群扩容方法、装置、设备及存储介质
CN110196749B (zh) 虚拟机的恢复方法及装置、存储介质及电子装置
CN111342986B (zh) 分布式节点管理方法及装置、分布式系统、存储介质
CN111124761A (zh) 一种设备重启方法、装置、设备及介质
CN109995569B (zh) 故障联动处理方法、网元及存储介质
CN105743696A (zh) 一种云计算平台管理方法
CN109474694A (zh) 一种基于san存储阵列的nas集群的管控方法及装置
WO2017092539A1 (zh) 虚拟机修复方法、虚拟机装置、系统及业务功能网元
CN112596371A (zh) 控制卡切换方法、装置、电子设备及存储介质
CN102073523A (zh) 实现软件版本同步的方法及装置
CN111897626A (zh) 一种面向云计算场景的虚拟机高可靠系统和实现方法
CN106972963B (zh) 业务模块的启用控制方法、崩溃重启后的启用控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant