CN109995568B - 故障联动处理方法、网元及存储介质 - Google Patents

故障联动处理方法、网元及存储介质 Download PDF

Info

Publication number
CN109995568B
CN109995568B CN201810000386.4A CN201810000386A CN109995568B CN 109995568 B CN109995568 B CN 109995568B CN 201810000386 A CN201810000386 A CN 201810000386A CN 109995568 B CN109995568 B CN 109995568B
Authority
CN
China
Prior art keywords
fault
clearing
vim
vnfm
fault clearing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810000386.4A
Other languages
English (en)
Other versions
CN109995568A (zh
Inventor
孔丽丽
陈佳媛
吕启迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN201810000386.4A priority Critical patent/CN109995568B/zh
Publication of CN109995568A publication Critical patent/CN109995568A/zh
Application granted granted Critical
Publication of CN109995568B publication Critical patent/CN109995568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions

Abstract

本发明实施例公开了一种故障联动处理方法、网元及存储介质。所述故障联动处理方法,应用于虚拟化基础设施管理器VIM,包括:接收第一故障告警;根据所述第一故障告警确定是否需要触发联动机制;若触发所述联动机制,基于第一故障清除策略处理对应的故障,并向虚拟网络功能管理器VNFM发送故障清除结果,其中,所述故障清除结果,用于触发所述VNFM执行业务面的故障清除。

Description

故障联动处理方法、网元及存储介质
技术领域
本发明涉及网络虚拟化技术,尤其涉及一种故障联动处理方法、网元及存储介质。
背景技术
虚拟化技术是一种资源管理技术,可以将计算机的各种实体资源。所述实体资源可包括:硬件设备提供的通信资源及网络资源等,如,服务器、传输媒介、内存及存储等,予以抽象转换后呈现出来,打破实体结构间的不可切割的障碍,使用户可以比原本的组态更好的方式来应用这些资源。这些资源的新虚拟部分不受现有资源的架设方式、地域或物理组态所限制。
之前虚拟化系统通常采用两层架构,分别是基础设施层(即I层)和虚拟网络(Virtual Network Function,VNF)层。且I层和VNF层均来自同一个厂商,若某一个层发生了故障,该厂商在其内部监控系统内都可以查询到或被通知到,从而可以通过内部故障清除,实现功能恢复。为了实现层次架构的分层解耦,引入了三层架构,分别是硬件资源层、虚拟资源层及虚拟网络功能层。且同时引入了利用管理与编排(management andorchestration,MANO)实体对VNF进行管理和编排。而MANO又分为三层,分别是虚拟化基础设施管理器(Virtual Infrastructure Manager,VIM)、虚拟网络功能管理器(VirtualNetwork Function Manager,VNFM)及网络功能虚拟化编排器(Network FunctionVirtualization Orchestrator,NFVO)。
VIM,用于对基础设施的软硬件资源进行管理。
VNFM位于VIM和NFVO之间,用于对虚拟网元进行生命周期进行管理。
NFVO为网络功能虚拟化之后进行编排。
随着技术发展,VIM和VNFM可能来自不同的厂商的,若某一个层发生故障,会影响到其他层的正常工作时则之前的内部故障清除就不再适用。故如何进行三层架构下的故障清除,保证网络提供的业务的可考性是需要进一步解决的问题。
发明内容
有鉴于此,本发明实施例期望提供一种故障联动处理方法、网元及存储介质,至少部分解决上述问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例第一方面提供一种故障联动处理方法,应用于虚拟化基础设施管理器VIM,包括:
接收第一故障告警;
根据所述第一故障告警确定是否需要触发联动机制;
若触发所述联动机制,基于第一故障清除策略处理对应的故障,并向虚拟网络功能管理器VNFM发送故障清除结果,其中,所述故障清除结果,用于触发所述VNFM执行业务面的故障清除。
可选地,所述方法还包括:
接收所述VNFM的第二故障清除策略,其中,所述第二故障清除策略是所述VNFM在收到所述VIM故障清除失败之后发送的;
根据所述第二故障清除策略进行故障清除。
可选地,所述方法还包括:
接收所述VNFM的第二故障清除策略,其中,所述第二故障清除策略是:所述VNFM在进入等待状态的等待时长超过时长阈值时发送的;
根据所述第二故障清除策略进行故障清除。
可选地,所述根据所述第二故障清除策略进行故障清除,包括:
根据所述第二故障清除策略,删除故障的虚拟机VM并创建新的VM。
可选地,所述基于第一故障清除策略处理对应的故障,包括以下至少之一:
对故障的VM进行本地重启;
对故障的VM进行异地重生。
可选地,所述根据所述第一故障告警确定是否需要触发联动机制,包括:
确定所述第一故障告警对应的故障是否影响业务服务的正常提供,
当所述第一故障告警对应的故障影响业务服务的正常提供,则确定需要触发联动机制。
本发明实施例第二方面提供一种故障联动处理方法,应用于虚拟网络功能管理器VNFM,包括:
接收第二故障告警;
根据所述第二故障告警,进行业务拉起;
若所述业务拉起失败,则中止业务服务的提供并进入等待状态;
接收虚拟化基础设施管理器VIM发送的故障清除结果;
当所述故障清除结果表明所述VIM基于第一故障处理策略的故障清除成功,则恢复所述业务服务的提供。
可选地,所述方法还包括:
设定处于所述等待状态的时长阈值;
当所述VNFM在所述等待状态的等待时长超过时长阈值之后,向所述VIM发送第二故障清除策略;其中,所述第二故障清除策略用于所述VIM进行VM故障清除。
可选地,所述方法还包括:
若所述故障清除结果表明所述VIM的故障清除失败,向所述VIM发送第二故障清除策略;其中,所述第二故障清除策略用于所述VIM进行VM故障清除。
本发明实施例第三方面提供一种网元,所述网元为虚拟化基础设施管理器VIM,包括:
第一接收单元,用于接收第一故障告警;
第一确定单元,用于根据所述第一故障告警确定是否需要触发联动机制;
联动处理单元,用于若触发所述联动机制,基于第一故障清除策略处理对应的故障,并向虚拟网络功能管理器VNFM发送故障清除结果,其中,所述故障清除结果,用于触发所述VNFM执行业务面的故障清除。
本发明实施例第四方面提供一种网元,所述网元为虚拟网络功能管理器VNFM,包括:第二接收单元、拉起单元、中止单元及恢复单元;
所述第二接收单元,用于接收第二故障告警;
所述拉起单元,用于根据所述第二故障告警,进行业务拉起;
所述等待单元,用于若所述业务拉起失败,则中止业务服务的提供并进入等待状态;
所述第二接收单元,还用于接收虚拟化基础设施管理器VIM发送的故障清除结果;
所述恢复单元,用于当所述故障清除结果表明所述VIM基于第一故障处理策略的故障清除成功,则恢复所述业务服务的提供。
本发明实施例第五方面提供一种网元,包括:网络接口、存储器、处理器及存储在所述存储器上并由所述处理器执行的计算机程序;
所述处理器,分别与所述网络接口及存储器连接,用于通过执行所述计算机程序实现应用于VIM中任一项或应用于VNFM中任一项提供的故障联动处理方法。
本发明实施例第六方面提供一种计算机存储介质,所述计算机存储介质存储有计算机程序;所述计算机程序被执行后,能够所述计算机程序实现应用于VIM中任一项或应用于VNFM中任一项提供的故障联动处理方法。
本发明实施例提供的故障联动处理方法、网元及存储介质,若VIM收到故障告警,首先会确定是否需要触发联动机制,若需要触发联动机制则会自动上报故障清除结果给VNFM,这样的话VNFM可以根据VIM的故障清除结果执行业务面的业务故障清除,从而实现了不同网元之间的故障清除情况的相互告知,从而避免各自孤立的处理故障导致的冲突问题。例如,只要在故障清除失败或者在VNFM进入等待时长超时的情况下才会下发故障清除策略,避免VIM接收到VNFM的故障清除策略与自身默认故障清除策略冲突的问题。
附图说明
图1为本发明实施例提供的第一种故障联动处理方法的流程示意图;
图2为本发明实施例提供的第二种故障联动处理方法的流程示意图;
图3为本发明实施例提供的第三种故障联动处理方法的流程示意图;
图4为本发明实施例提供的一种VIM的结构示意图;
图5为本发明实施例提供的一种VNFM的结构示意图;
图6为本发明实施例提供的一种网元的结构示意图;
图7为本发明实施例提供的一种故障联动处理方法的流程示意图。
具体实施方式
以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。
如图1所示,本实施例提供一种故障联动处理方法,应用于虚拟化基础设施管理器VIM,包括:
步骤S110:接收第一故障告警;
步骤S120:根据所述第一故障告警确定是否需要触发联动机制;
步骤S130:若触发所述联动机制,基于第一故障清除策略处理对应的故障,并向虚拟网络功能管理器VNFM发送故障清除结果,其中,所述故障清除结果,用于触发所述VNFM执行业务面的故障清除。
在本实施例中所述第一故障告警可来自与VIM连接的各种物理机或虚拟机(VM)发送的故障告警。在本实施例中若VIM接收到故障的第一故障告警的告警消息后,会判断是否需要触发联动机制。确定是否需要触发联动机制的方式有多种,以下提供两种可选方式:
可选方式一:
确定所述第一故障告警对应的故障是否影响业务服务的正常提供,
当所述第一故障告警对应的故障影响业务服务的正常提供,则确定需要触发联动机制。
例如,判断第一故障告警对应的故障是否位于需要提供业务服务的虚拟化资源,若是则认为是影响业务服务的正常提供的故障。
可选方式二:
所述VIM中预先存储有需要触发联动机制的故障信息,例如,故障类型等;
当所述第一故障告警对应的故障类型为需要触发联动机制的类型,则确定需要触发所述联动机制。
例如,通常若故障类型为硬件故障,可能会影响VNFM的业务执行;还有些软件故障,也会影响VNFM的业务执行。通常情况下,若故障发生在提供业务的虚拟机等虚拟化资源上时,可认为是会影响业务是否正常的故障,是需要触发联动机制的。有一些故障仅是在I层自身管理或管控方面的故障,是不会影响业务的正常进行的,这些故障是不会触发联动机制的。在一些实施例中,所述VIM可能存储有故障类型和联动机制的对应关系,VIM在接收到第一故障告警时,根据所述第一故障告警确定出故障类型,根据故障类型查询所述对应关系,确定是否触发联动机制。
所述业务可为VNFM提供的各种应用,典型的包括多媒体信息业务、通信业务等。所述多媒体信息业务包括:视频业务、音频业务等。所述通信业务可包括:电信通话业务等。所述VNFM可为直接面向用户设备提供各种应用(Application,APP)的服务。基于视频业务服务,用户观看视频;基于音频业务服务,用户可以收听音频等。
与此同时,VIM为了加速故障清除首先会基于第一故障清除策进行故障的处理,从而尽可能快的排除VM故障。若基于第一故障清除策略就能够完成故障的排除,这样的话,即便该故障会影响到VNFM的业务,也可以使得VNFM业务尽快回复。所述第一故障清除策略可为所述VIM进行故障清除的默认策略,可以为所述VIM本地存储的故障清除策略,或者,是从NFVO或者数据库请求的故障清除策略。
总之,一方面VIM还会优先基于自身存储的第一故障策略开始进行故障清除,这样的话,尽可能的使得故障在最短的时间内被排除,尽快的实现故障清除,确保网络的运行正常。另一方面,VIM会将故障清除结果及时告知VNFM,以方便所述VNFM在接收到故障清除结果之后,可以采用相对的策略尽快确保业务恢复正常。
在一些实施例中,所述方法还包括:
若无需触发了所述联动机制,则所述VIM仅需根据所述第一故障策略执行故障清除即可,不用向所述VNFM发送所述故障清除结果。
为了尽可能的清除故障或及时清除故障,如图2所示,所述方法还包括:
步骤S140:接收所述VNFM的第二故障清除策略,其中,所述第二故障清除策略是所述VNFM在收到所述VIM故障清除失败之后发送的;
步骤S150:根据所述第二故障清除策略进行故障清除。
在步骤S130中会将故障清除的故障清除结果告知给VNFM,所述故障清除结果可包括:故障清除失败和故障清除成功两种故障清除结果。不管是故障清除失败还是故障清除成功,所述VIM均需要告知VNFM。在本实施例中,若VNFM接收到VIM发送的故障清除失败的故障清除结果,则会向VIM下发故障清除策略;这样的话,VIM会根据VIM下发的策略进行再次的故障清除。故可选地,所述步骤S130可包括:向所述VNFM发送故障清除失败的故障清除结果。在本实施例中,VIM在接收到第一故障告警时,首先采用自身的第一故障清除策略进行故障清除,若处理失败则会根据来自VNFM的第二故障清除策略进行故障处理,这样的话,显然确定了两个故障清除策略的优先使用顺序,从而解决了VNFM发送有故障清除策略,自身也有故障清除策略,当两个策略冲突时,导致的故障处理中的冲突问题。
在一些实施例中,所述VNFM会接收到第二故障告警,所述第二故障告警将触发所述VNFM进入故障清除的等待状态。在等待状态下,VNFM暂时中止业务服务的提供。但是在所述等待状态是设定了一定时长的(即时长阈值),若一旦超过设定的时长阈值,表明VIM的故障清除不能自身清除,或者,VIM的故障清除速度过慢,此时,VNFM会下发所述第二故障清除策略给VIM。故在一些实施例中,所述方法还包括:接收所述VNFM的第二故障清除策略,其中,所述第二故障清除策略是所述VNFM在所述等待状态的等待时长超过时长阈值之后发送的;根据所述第二故障清除策略进行故障清除。
所述VIM接收到第二故障清除策略之后,会终止依据第一故障清除策略的故障处理,基于第二故障清除策略进行故障清除,以避免冲突及不必要的故障清除操作。
可选地,所述根据所述第二故障清除策略进行故障清除,包括:根据所述第二故障清除策略,删除故障的所述VM并建立新的VM。
根据所述故障发生的位置,可包括:VM故障、传输媒介故障等。以下以VM故障为例,若是VM故障,第二故障清除策略是删除故障的VM,并创新创建一个VM。删除的VM和新创建的VM可能使用的资源类型、实现的功能都相同或相似,但是不同的虚拟机,分配的是不同的虚拟机标识,在VIM中是一个全新的虚拟机。
通常情况下,VNFM下发的第二故障清除策略相对于第一故障清除策略而言,是故障清除能力更强但可是故障清除代价更大的策略。
所述基于第一故障清除策略处理对应的故障,包括以下至少之一:对故障的所述VM进行本地重启;对故障的所述VM进行异地重生。
所述VM的本地重启可包括:在相同的计算节点上先关闭故障VM,再启动所述VM。
所述VM的异地重生可包括:先关闭位于第一物理资源上的故障VM,沿用VM的虚拟机号以及资源参数等,在第二物理资源上重新启动一个VM。这里的第一物理资源和第二物理资源使用的资源至少部分不同。这里的物理资源可包括:计算节点。例如,故障VM原本是运行在第一计算节点上,若进行异地重生,则可能会在第二计算节点上重新启动一个VM。而在第二故障清除策略中,直接清除故障的VM然后重新创建一个新的VM。
在一些实施例中,VIM基于第一故障清除策略进行故障处理包括:
先对故障VM进行本地重启;
当本地重启失败之后,进行所述VM的异地重生,这样可以尽可能减少VM故障清除的成本。
在另一些实施中,为了尽可能快的实现故障清除,所述VIM基于第一故障清除策略可包括:直接进行故障VM的异地重生,若异地重生失败,则认为基于第一故障清除策略的故障清除失败。一般状况下异地重生的故障清除概率略高于VM的本地重生,故直接进行VM的异地重生,一方面可以确保基于第一故障清除策略的VM故障的成功概率,另一方面还可以减少依次进行本地重启和异地重生导致的时延,从而提升故障清除速率。
在还有一些实施例中,基于第一故障清除策略的故障处理还可仅包括:故障VM的本地重启。
虚拟化网络的三层架构的耦合模式包括:直接模式和间接模式。在所述直接模式下,所述VIM和VNFM之间可能设置有通信接口,所述VIM和VNFM之间可以直接进行信息交互。在间接模式下,所述VIM和所述VNFM之间未设置有通信接口,所述VIM和所述VNFM之间的通信需要通过NFVO来中转。
即若耦合模式为直接模式,所述VIM和VNFM之间交互的故障清除结果及第二故障清除策略等,可以通过VIM和VNFM之间的通信接口直接传递。若耦合模式为间接模式,则VIM和VNFM之间传递的故障清除结果及第二故障清除策略等信息均是通过NFVO中转的。
总之,在本发明实施例中不管VIM是基于第一故障清除策略进行故障清除,还是进行第二故障清除策略进行故障清除,都可以将故障清除结果发送给VNFM,方便VNFM在故障清除成功时,尽快的恢复业务服务的提供。
如图3所示,本实施例提供一种故障联动处理方法,应用于VNFM,包括:
步骤S210:接收第二故障告警;所述第二故障告警又可以称之为业务故障告警;
步骤S220:根据所述第二故障告警,进行业务拉起;
步骤S230:若所述业务拉起失败,则中止业务服务的提供并进入等待状态;
步骤S240:接收虚拟化基础设施管理器VIM发送的故障清除结果;
步骤S250:当所述故障清除结果表明所述VIM基于第一故障处理策略的故障清除成功,则恢复所述业务服务的提供。
首先VNFM会收到来自虚拟化的网络功能模块组件(VNFC)等业务面的网元发送的第二故障告警之后,VNFM首先会执行业务拉起的操作,例如,所述VNFM执行对与业务相关的文件倒换工作,通过文件倒换工作将因故障暂时停止的工作重新恢复。又例如,VNFM重新启动对应业务的应用,若业务拉起成功则认为清除VIM上报的故障对业务的影响,从而不存在业务故障。
VNFM收到第二故障告警之后,会及时采取相应的处理策略进行业务面的故障排除,尽可能的确保业务正常进行,减少业务面的故障清楚的时延,减少用户的抱怨,提升用户体验;若业务层面的故障处理不能清除故障,还会根据VIM发送的故障清除结果,通过向VIM发送第二故障清除策略,通过VIM的故障的再次清除,以尽可能快的实现业务故障的清除。
在一些实施例中,所述方法还包括:若所述业务拉起失败,则进入等待状态。
若业务拉起失败,则表明VNFM不能仅通过业务面的文件倒换和/或应用重新启动等操作,实现业务面的故障排除,当前的故障应该是位于I层,则进入等待状态。进入等待状态之后,VNFM会暂时中止业务相关的服务的提供。故,所述方法还包括:若所述业务拉起失败,则暂时停止业务服务的提供并进入等待状态。
在一些实施例中,所述方法还包括:设定处于所述等待状态的时长阈值;
当所述VNFM在所述等待状态的等待时长超过时长阈值之后,向所述VIM发送第二故障清除策略;其中,所述第二故障清除策略用于所述VIM进行VM故障清除。
在等待时长超过时长阈值之后,所述VNFM还未接收到VIM发送的故障清除结果,则可认为VIM基于第一故障策略进行故障清除存在清除不了或者清除速度慢等问题,则所述VNFM会向VIM发送第二故障清除策略,以触发VIM根据第二故障清除策略进行故障清除,以确保故障清除的效果。
所述方法还包括:所述VNFM会接收VIM发送的故障清除结果。所述故障清除结果可包括:清除成功的结果和清除失败的结果。若当前接收到的是清除成功的结果,则所述VNFM暂停的业务可以恢复了。
在另一些实施例中,若VNFM接收的为VIM基于第一故障清除策略的故障清除失败的故障清除结果,则所述VNFM会向所述VIM发送第二故障清除策略;其中,所述第二故障清除策略用于所述VIM进行VM故障清除。这样可以通过第二故障清除策略的发送,协助VIM清除故障或加速故障清除。
如图4所示,本实施例提供一种网元,所述网元为器VIM,包括:
第一接收单元110,用于接收第一故障告警;
第一确定单元120,用于根据所述第一故障告警确定是否需要触发联动机制;
联动处理单元130,用于若触发所述联动机制,基于第一故障清除策略处理对应的故障,并向虚拟网络功能管理器VNFM发送故障清除结果,其中,所述故障清除结果,用于触发所述VNFM执行业务面的故障清除。
在本实施例中所述第一接收单元可对应于网络接口,可用于从VM等I层资源接收所述第一故障告警。
所述第一确定单元120可对应于处理器,可以根据第一故障告警的发生方和/或第一故障告警携带的信息,确定出是否需要触发联动机制。
所述联动处理单元130,可包括:处理器及网络接口,所述处理器可用于基于第一故障清除策略进行故障清除,而所述网络接口,可用于向所述VNFM发送所述第二故障告警。
可选地,所述联动处理单元130包括:
通信模块,对应于网络接口,可用于向所述VNFM发送故障的故障清除结果;并接收所述VNFM的第二故障清除策略,其中,所述第二故障清除策略是所述VNFM在收到所述VIM故障清除失败之后发送的;
故障清除模块,可对应于处理器,可用于根据所述第二故障清除策略进行故障清除。
在本发明实施例中所述处理器可包括:中央处理器、微处理器、数字信号处理器、应用处理器、可编程阵列或专用集成电路等。
在一些实施例中,所述联动处理单元130,还用于接收所述VNFM的第二故障清除策略,其中,所述第二故障清除策略是所述VNFM在收到所述VIM故障清除失败之后发送的;根据所述第二故障清除策略进行故障清除。
在另一些实施例中,所述联动处理单元130,还用于接收所述VNFM的第二故障清除策略,其中,所述第二故障清除策略是:所述VNFM在进入等待状态的等待时长超过时长阈值时发送的;根据所述第二故障清除策略进行故障清除
可选地,所述联动处理单元130的故障清除模块,具体用于根据所述第二故障清除策略,删除故障的虚拟机VM并创建新的VM。
在一些实施例中,所述联动处理模块的故障清除模块,至少用于执行以下之一:对故障的VM进行本地重启;对故障的VM进行异地重生。
在还有些实施例中,所述第一确定单元120,具体用于确定所述第一故障告警对应的故障是否影响业务服务的正常提供,当所述第一故障告警对应的故障影响业务服务的正常提供,则确定需要触发联动机制。
如图5所示,本实施例提供一种网元,所述网元为VNFM,包括:第二接收单元210、拉起单元220、中止单元230及恢复单元240;
所述第二接收单元210,用于接收第二故障告警;
所述拉起单元220,用于根据所述第二故障告警,进行业务拉起;
所述中止单元230,用于若所述业务拉起失败,则中止业务服务的提供并进入等待状态;
所述第二接收单元210,还用于接收虚拟化基础设施管理器VIM发送的故障清除结果;
所述恢复单元240,用于当所述故障清除结果表明所述VIM基于第一故障处理策略的故障清除成功,则恢复所述业务服务的提供。
所述第二接收单元210可对应于VNFM的网络接口,可用于接收第二故障告警。等待单元及恢复单元240,同样可对应于处理器,可用于若所述业务拉起失败中止业务服务的提供和/或故障清除后的业务恢复。
进一步地,所述网元还包括:
设定单元,可联动处理单元,可用于设定处于所述等待状态的时长阈值;
第二发送单元,对应于网络接口,可用于当所述VNFM在所述等待状态的等待时长超过时长阈值之后,向所述VIM发送第二故障清除策略;其中,所述第二故障清除策略用于所述VIM进行VM故障清除。
在一些实施例中,所述VNFM的第二发送单元,还用于若所述故障清除结果表明所述VIM的故障清除失败,向所述VIM发送第二故障清除策略;其中,所述第二故障清除策略用于所述VIM进行VM故障清除。
如图6所示,本实施例提供一种网元,包括:网络接口310、存储器320、处理器330及存储在存储器310上并由所述处理器330执行的计算机程序;
所述处理器330,分别与所述网络接口310及存储器320连接,例如,通过集成电路总线IIC,分别与网络接口及存储器320连接。
所述处理器330,可用于通过执行所述计算机程序执行应用于VIM中的一个或多个技术方案提供的故障联动处理方法,或执行应用于VNFM中的一个或多个技术方案提供的故障联动处理方法。
所述网络接口310可为电缆接口或光缆接口等各种类型可用于通信的接口。
所述存储器320可为通信设备中包括存储介质的存储器320件,可为随机存储器320、只读存储器320、存储硬盘等。
所述处理器330可为各种类型的处理器,中央处理器、微处理器、应用处理器、可编程阵列或专用集成电路等。
该网元可为前述的VIM,若为VIM则可用于执行应用于VIM中的故障联动处理方法,例如,图1和/或图2所示的方法。
该网元还可为前述的VNFM,若为VNFM则可用于执行VNFM中的故障联动处理方法,例如,图3所示的方法。
本发明实施例提供一种计算机存储介质,所述计算机存储介质存储有计算机程序;所述计算机程序被处理后,执行应用于VIM中的一个或多个技术方案提供的故障联动处理方法,或执行应用于VNFM中的一个或多个技术方案提供的故障联动处理方法。
所述计算机存储介质可为:移动存储设备、只读存储器(ROM,Read-Only Mem或y)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。可选为,所述计算机存储介质优选为非瞬间存储介质,或非易失性存储介质。
以下结合上述任意实施例提供几个示例:
示例1:
当VM故障时,VIM收到故障够告警的告消息并按策略进行VM本地重启或者异地重生,VNFM在收到VNFC的业务告警信息后定位问题,会下发新的策略(例如删除VM再重建)给VIM,VIM在VM重启到一半的时候收到VNFM的消息,此时VNFM的策略与VIM的策略相冲突,VIM不知道应该继续执行自己的策略还是放弃去执行VNFM下发给它的策略,从而出现问题,无法保障可靠性。因此本示例提案制定了高可靠性联动策略来避免上述问题的发生。
VIM对故障的处理:VIM在收到VM的故障告警后,判断故障类型,若该故障不影响上层的业务服务的提供,则VIM立即触发故障清除策略;若影响上层业务,则触发联动机制。在联动机制下,VIM基于本地的故障清除策略进行故障清除,而且会将基于自身的故障清除策略的故障清除结果上报给VNFM。
VNFM对故障的处理:VNFM在收VNFC发送的故障告警后,首先尝试将业务拉起,若拉起成功则故障清除;若拉起失败,则判定为I层故障,启动定时器并进入等待状态。在收到VIM的故障清除失败的故障清除结果后或定时器超时之后,会向VIM下发故障清除策略,触发VIM进行再次的故障清除。
示例2:
本示例基于示例1提供一种故障联动处理的具体示例,如图7所示,可包括如下步骤:
1:VM发生故障,同时导致虚拟化的网络功能模块组件(VNFC)故障。
2:VNFM收到业务告警,先内部进行处理,尝试把业务拉起,若拉起成功,则故障清除;若拉起失败,则判定为底层资源故障即故障未清除,则启动一个定时器并进入等待状态。
3:VIM收到虚机故障告警后,通过查询数据库判断故障类型,若该故障不影响上层业务,则VIM基于固有策略进行故障清除,执行步骤4;若该故障影响上层业务,则触发联动机制,执行步骤5。
4:VIM对故障VM进行本地重启,若重启成功则故障清除,若重启失败则进行异地重生。若异地重生成功则故障清除,失败则上报故障清除失败的结果给NFVO,请求人工干预。例如,VIM通过向管理员设备发送信息,从而请求人工干预。
5:VIM对故障VM进行本地重启,若重启成功,VM和VNFC恢复工作,VIM反向通知VNFM,故障清除;若重启失败,则进行异地重生,继续执行步骤6。
6:若VM异地重生成功,VNFC恢复工作,VIM反向通知VNFM,故障清除;若重生失败,则VIM发送故障清除失败给VNFM,继续执行步骤7。
7:VNFM收到VIM发送故障清除失败的通知或者定时器超时,通知VIM删除故障的VM。
8:VIM收到VNFM发送的请求,停止当前工作删除故障VM,删除成功后反向通知VNFM。
9:VNFM收到VIM发送的删除成功的通知,再通知VIM新建VM。VM在新建VM之后还会向VNFM发送新建VM的结果。
10:VM新建成功,VNFC恢复,故障清除。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (13)

1.一种故障联动处理方法,其特征在于,应用于虚拟化基础设施管理器VIM,包括:
接收第一故障告警;
根据所述第一故障告警确定是否需要触发联动机制;
若触发所述联动机制,基于第一故障清除策略处理对应的故障,并向虚拟网络功能管理器VNFM发送故障清除结果,其中,所述故障清除结果,用于触发所述VNFM执行业务面的故障清除。
2.根据权利要求1所述的方法,其特征在于,
所述方法还包括:
接收所述VNFM的第二故障清除策略,其中,所述第二故障清除策略是所述VNFM在收到所述VIM故障清除失败之后发送的;
根据所述第二故障清除策略进行故障清除。
3.根据权利要求1所述的方法,其特征在于,
所述方法还包括:
接收所述VNFM的第二故障清除策略,其中,所述第二故障清除策略是:所述VNFM在进入等待状态的等待时长超过时长阈值时发送的;
根据所述第二故障清除策略进行故障清除。
4.根据权利要求2或3所述的方法,其特征在于,
所述根据所述第二故障清除策略进行故障清除,包括:
根据所述第二故障清除策略,删除故障的虚拟机VM并创建新的VM。
5.根据权利要求1至3任一项所述的方法,其特征在于,
所述基于第一故障清除策略处理对应的故障,包括以下至少之一:
对故障的VM进行本地重启;
对故障的VM进行异地重生。
6.根据权利要求1所述的方法,其特征在于,
所述根据所述第一故障告警确定是否需要触发联动机制,包括:
确定所述第一故障告警对应的故障是否影响业务服务的正常提供,
当所述第一故障告警对应的故障影响业务服务的正常提供,则确定需要触发联动机制。
7.一种故障联动处理方法,其特征在于,应用于虚拟网络功能管理器VNFM,包括:
接收第二故障告警;
根据所述第二故障告警,进行业务拉起;
若所述业务拉起失败,则中止业务服务的提供并进入等待状态;
接收虚拟化基础设施管理器VIM发送的故障清除结果;
当所述故障清除结果表明所述VIM基于第一故障处理策略的故障清除成功,则恢复所述业务服务的提供。
8.根据权利要求7所述的方法,其特征在于,
所述方法还包括:
设定处于所述等待状态的时长阈值;
当所述VNFM在所述等待状态的等待时长超过时长阈值之后,向所述VIM发送第二故障清除策略;其中,所述第二故障清除策略用于所述VIM进行VM故障清除。
9.根据权利要求7或8所述的方法,其特征在于,所述方法还包括:
若所述故障清除结果表明所述VIM的故障清除失败,向所述VIM发送第二故障清除策略;其中,所述第二故障清除策略用于所述VIM进行VM故障清除。
10.一种网元,其特征在于,所述网元为虚拟化基础设施管理器VIM,包括:
第一接收单元,用于接收第一故障告警;
第一确定单元,用于根据所述第一故障告警确定是否需要触发联动机制;
联动处理单元,用于若触发所述联动机制,基于第一故障清除策略处理对应的故障,并向虚拟网络功能管理器VNFM发送故障清除结果,其中,所述故障清除结果,用于触发所述VNFM执行业务面的故障清除。
11.一种网元,其特征在于,所述网元为虚拟网络功能管理器VNFM,包括:第二接收单元、拉起单元、等待单元、中止单元及恢复单元;
所述第二接收单元,用于接收第二故障告警;
所述拉起单元,用于根据所述第二故障告警,进行业务拉起;
所述等待单元,用于若所述业务拉起失败,则中止业务服务的提供并进入等待状态;
所述第二接收单元,还用于接收虚拟化基础设施管理器VIM发送的故障清除结果;
所述恢复单元,用于当所述故障清除结果表明所述VIM基于第一故障处理策略的故障清除成功,则恢复所述业务服务的提供。
12.一种网元,包括:网络接口、存储器、处理器及存储在所述存储器上并由所述处理器执行的计算机程序;
所述处理器,分别与所述网络接口及存储器连接,用于通过执行所述计算机程序实现权利要求1至6任一项或权利要求7至9任一项提供的故障联动处理方法。
13.一种计算机存储介质,所述计算机存储介质存储有计算机程序;所述计算机程序被执行后,能够实现权利要求1至6任一项或权利要求7至9任一项提供的故障联动处理方法。
CN201810000386.4A 2018-01-02 2018-01-02 故障联动处理方法、网元及存储介质 Active CN109995568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810000386.4A CN109995568B (zh) 2018-01-02 2018-01-02 故障联动处理方法、网元及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810000386.4A CN109995568B (zh) 2018-01-02 2018-01-02 故障联动处理方法、网元及存储介质

Publications (2)

Publication Number Publication Date
CN109995568A CN109995568A (zh) 2019-07-09
CN109995568B true CN109995568B (zh) 2022-03-29

Family

ID=67128259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810000386.4A Active CN109995568B (zh) 2018-01-02 2018-01-02 故障联动处理方法、网元及存储介质

Country Status (1)

Country Link
CN (1) CN109995568B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111953566B (zh) * 2020-08-13 2022-03-11 北京中电兴发科技有限公司 一种基于分布式故障监控的方法和虚拟机高可用系统
CN114928533B (zh) * 2022-06-13 2024-02-23 中国电信股份有限公司 虚拟网元故障处理方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015042937A1 (zh) * 2013-09-30 2015-04-02 华为技术有限公司 故障管理的方法、实体和系统
CN105634785A (zh) * 2014-11-07 2016-06-01 中国移动通信集团公司 一种故障上报方法、系统及相关装置
CN105681077A (zh) * 2015-12-31 2016-06-15 华为技术有限公司 故障处理方法、装置及系统
CN106302210A (zh) * 2015-06-23 2017-01-04 中兴通讯股份有限公司 一种弹性扩容方法、装置及系统
CN106464541A (zh) * 2015-03-19 2017-02-22 华为技术有限公司 基于网络功能虚拟化的故障处理方法及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015042937A1 (zh) * 2013-09-30 2015-04-02 华为技术有限公司 故障管理的方法、实体和系统
CN105634785A (zh) * 2014-11-07 2016-06-01 中国移动通信集团公司 一种故障上报方法、系统及相关装置
CN106464541A (zh) * 2015-03-19 2017-02-22 华为技术有限公司 基于网络功能虚拟化的故障处理方法及设备
CN106302210A (zh) * 2015-06-23 2017-01-04 中兴通讯股份有限公司 一种弹性扩容方法、装置及系统
CN105681077A (zh) * 2015-12-31 2016-06-15 华为技术有限公司 故障处理方法、装置及系统

Also Published As

Publication number Publication date
CN109995568A (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
CN108847982B (zh) 一种分布式存储集群及其节点故障切换方法和装置
JP2001101033A (ja) オペレーティングシステム及びアプリケーションプログラムの障害監視方法
CN109656742B (zh) 一种节点异常处理方法、装置及存储介质
US11706080B2 (en) Providing dynamic serviceability for software-defined data centers
TW201738747A (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
CN106856489A (zh) 一种分布式存储系统的服务节点切换方法和装置
CN111953566B (zh) 一种基于分布式故障监控的方法和虚拟机高可用系统
CN104205060A (zh) 提供用于ha集群的管理程序的基于应用的监控及恢复
CN102394914A (zh) 集群脑裂处理方法和装置
CN111506391B (zh) 一种容器部署方法及装置
WO2017049997A1 (zh) 一种基于云计算服务的虚拟机监控方法、装置及系统
WO2018019242A1 (zh) 网站服务器的自恢复方法和自恢复系统
CN109995568B (zh) 故障联动处理方法、网元及存储介质
CN110673981B (zh) 故障恢复方法、装置和系统
CN102487342B (zh) 虚拟互联网协议地址绑定控制装置及方法
CN109582459A (zh) 应用的托管进程进行迁移的方法及装置
CN114064414A (zh) 一种高可用的集群状态监控方法及系统
CN110995472A (zh) 一种微服务业务熔断方法和系统
CN108776579A (zh) 一种分布式存储集群扩容方法、装置、设备及存储介质
CN110196749B (zh) 虚拟机的恢复方法及装置、存储介质及电子装置
CN111342986A (zh) 分布式节点管理方法及装置、分布式系统、存储介质
CN109995569B (zh) 故障联动处理方法、网元及存储介质
CN111897626A (zh) 一种面向云计算场景的虚拟机高可靠系统和实现方法
WO2017092539A1 (zh) 虚拟机修复方法、虚拟机装置、系统及业务功能网元
CN114691304B (zh) 实现集群虚拟机高可用的方法和装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant