CN110635930A - 故障诊断方法及相关装置 - Google Patents
故障诊断方法及相关装置 Download PDFInfo
- Publication number
- CN110635930A CN110635930A CN201810647069.1A CN201810647069A CN110635930A CN 110635930 A CN110635930 A CN 110635930A CN 201810647069 A CN201810647069 A CN 201810647069A CN 110635930 A CN110635930 A CN 110635930A
- Authority
- CN
- China
- Prior art keywords
- nfv system
- fault
- data
- faults
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0823—Errors, e.g. transmission errors
- H04L43/0829—Packet loss
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/16—Threshold monitoring
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请提供一种故障诊断方法及相关装置,该方法可包括:获取NFV系统中的运行数据和对象部署数据;根据运行数据和对象部署数据,确定NFV系统的故障原因,该故障原因导致了NFV系统中的一个或复数个故障。实施本申请,可简便、准确地诊断内部结构动态变化的NFV系统的故障原因。
Description
技术领域
本申请涉及网络功能虚拟化(network function virtualization,NFV)技术领域,特别涉及故障诊断方法及相关装置。
背景技术
随着网络规模的增长,网络系统越来越复杂,带来了诸多的挑战,包括新增业务的开发上线、系统的运维、资源利用率等。目前,为了应对这些挑战,提出了NFV技术,用软件来安装、控制、操作那些运行在通用硬件上的网络功能,融合了云和虚拟化技术,可使得新一代网络业务拥有更好的伸缩性和自动化能力。
参见图1,全球主要的电信运营商联合开发制定了NFV系统的虚拟化架构。如图所示,NFV架构主要包括:NFV管理和编排系统(NFV management and orchestration,NFVMANO)、NFV基础设施层(NFV infrastructure,NFVI)、虚拟网络功能(virtual networkfunction,VNF)、网元管理(element management,EM)、业务支持管理系统(operation-support system/business support system,OSS/BSS)。
其中,NFVMANO、EM、OSS/BSS为管理层,用于联合管理NFV系统;NFVI和VNF为业务层,用于处理相关业务。
具体的,NFVI包括硬件资源层(hardware resources)和虚拟化层(virtualisation layer)。硬件资源层包括计算硬件(如服务器)、存储硬件(如磁阵)、网络硬件(如以太网交换机)等物理资源。虚拟化层实现对硬件资源的虚拟化,提供VNF运行所需的虚拟资源,包括虚拟计算、虚拟存储、虚拟网络等资源。
VNF是部署在NFVI上的应用软件,实现电信网络中各网元的业务功能。从VNF的角度来看,NFVI为其提供了一台或多台支持与外部通信的具有一定资源规格的虚拟机(virtual machine,VM)或其他形式的虚拟容器,用于VNF部署和运行。
由于NFV用软件实现典型网络中的硬件功能,使得物理网元的功能可以被拆分开,NFV系统分层提供业务。在NFV架构中分层提供业务的情况下,NFV系统发生故障时,如何实现跨层故障诊断,确定故障原因,是亟需解决的问题。
发明内容
本申请提供了故障诊断方法及相关装置,可简便、准确地诊断内部结构动态变化的NFV系统的故障原因。
第一方面,本申请提供一种故障诊断方法,该方法可包括:获取NFV系统中的运行数据和对象部署数据;根据运行数据和对象部署数据,确定NFV系统的故障原因,该故障原因导致了NFV系统中的一个或复数个故障。
第一方面的故障诊断方法可由故障诊断装置或软件、应用等执行,第一方面的方法可适用于内部结构动态变化的NFV系统,可简便、准确地诊断出NFV系统的故障原因。
可选的,根据运行数据和对象部署数据确定NFV系统的故障原因时,可通过如下步骤实现:根据运行数据确定NFV系统中的故障;根据NFV系统中的故障和对象部署数据,确定NFV系统中的故障之间的关联关系;根据故障之间的关联关系确定NFV系统的故障原因。这里,NFV系统中的故障之间的关联关系可以为因果关系。
可选的,根据NFV系统中的故障和对象部署数据确定NFV系统中的故障之间的关联关系时,可通过如下步骤实现:确定NFV系统中的故障分别所属的故障类型之间的关联关系;根据对象部署数据,确定NFV系统中的故障分别对应的对象之间的关联关系;根据故障类型之间的关联关系和对象之间的关联关系,确定NFV系统中的故障之间的关联关系。这里,NFV系统中的故障分别所属的故障类型之间的关联关系可以为因果关系,对象之间的关联关系可以为全包含、全等于、上下游等关系。
可选的,根据运行数据确定NFV系统中的故障时,可确定运行数据符合的预设条件,将该预设条件对应的故障作为NFV系统中的故障。这里,执行本申请的故障诊断方法的装置或软件可预先存储预设条件和对应的故障,该对应关系可在NFV的运行过程中根据实际情况进行调整。
可选的,NFV系统中的故障之间的关联关系为因果关系,根据NFV系统中的故障之间的因果关系,确定NFV系统中的故障中的初始故障为NFV系统的故障原因。这里,NFV系统的故障原因可以有一个或复数个。
可选的,在确定NFV系统的故障原因之前,第一方面的方法还包括:判断运行数据出现异常。即,在运行数据出现异常,可能出现故障的情况下,根据运行数据和对象部署数据对NFV系统做故障诊断。
可选的,周期性确定NFV系统的故障原因。周期性确定NFV系统的故障原因可保证NFV系统的正常运行,诊断周期可由用户预先设置,也可由NFV系统在运行过程中根据实际情况动态调整。
可选的,获取NFV系统中的运行数据之后,第一方面的方法还包括:对运行数据做预处理,得到故障诊断所需数据。那么,在根据运行数据和对象部署数据确定NFV系统的故障原因时,实际是根据故障诊断所需数据和对象部署数据确定NFV系统的故障原因。对运行数据做预处理,相当于对原始的运行数据做了筛选,可提高故障诊断的效率。
可选的,运行数据至少包括:告警信息、运行日志或性能统计信息中的一个或复数个。
可选的,对象部署数据包括所述NFV系统中各个对象(VM、Host、VNF等)的部署情况。
第二方面,本申请提供一种故障诊断装置,用于执行第一方面或第一方面可能的实施方式所提供的方法。该故障诊断装置可包括:存储器以及与所述存储器耦合的处理器、通信接口,其中:所述通信接口用于与其他设备或系统(如NFV系统)通信,所述存储器用于存储第一方面或第一方面可能的实施方式描述的故障诊断方法的实现代码,所述处理器用于执行所述存储器中存储的程序代码,即执行第一方面所提供的方法,或者第一方面可能的实施方式中的任意一种所提供的方法。
第三方面,本申请提供一种故障诊断装置,该故障诊断装置可包括多个功能模块,用于执行第一方面或第一方面任意一种可能的实施方式所提供的方法。
第四方面,本申请提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面或者第一方面任意一种可能的实施方式描述的故障诊断方法。
第五方面,本申请提供一种计算机可读存储介质,所述可读存储介质上存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或者第一方面可能的实施方式描述的故障诊断方法。
实施本申请,根据NFV系统的运行数据和对象部署数据确定NFV系统的故障原因,适用于内部结构动态变化的NFV系统,诊断过程简便、准确。
附图说明
图1为NFV系统的结构示意图;
图2为VM的迁移示意图;
图3为本申请提供的故障诊断方法的流程示意图;
图4、图5为本申请提供的故障因果关系图;
图6为本申请提供的故障诊断装置的结构示意图;
图7为本申请提供的故障诊断装置的功能框图。
具体实施方式
本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
目前,典型的故障分析方法有多种,例如故障模式和影响分析法、故障树分析法(fault tree analysis,FTA)、事件树分析法、共因故障分析法等。上述的故障分析方法适用于内部结构需具有稳定性、不会经常发生变化的系统的。
举例说明,故障树分析法是一种故障关联分析的常用方法,故障树是一种倒立树状的逻辑因果关系图,它用事件符号、逻辑门符号和转移符号描述系统中各种事件之间的因果关系。逻辑门的输入事件是输出事的"因",逻辑门的输出事件是输入事件的"果"。故障树分析通过分析故障事件之间的逻辑关系,找到导致根事件的叶子事件或叶子事件集合,即最底层的故障原因。
使用故障树分析法时,首先要建立故障树,故障树的建立强关联于待分析系统的内部结构。内部结构包括:系统内部包含哪些对象、各个对象如何配合实现某个功能。简单地说,分析系统故障时,基于上述内部结构确定系统内部各故障之间的因果关系,从而建立对应的故障树。
由于NFV系统的内部结构通常是不稳定的,甚至是经常变化的,因此,上述常见的故障分析方法不适用于NFV系统。
其中,NFV系统内部结构的不稳定性主要可体现在如下几方面:
1、NFV系统中各类对象的数量可能动态变化。
具体的,由于NFV具有弹性伸缩(scalein/out)的特性,NFV系统内VM、Host等对象的数量都有可能动态增加或减少。
2、NFV系统中各个对象的部署位置可能动态变化。
具体的,由于NFV技术用软件来安装、控制、操作那些运行在通用硬件上的网络功能,因此,NFV系统中各个网元功能的实现位置,即VM、Host等的部署位置都有可能发生变化。例如,一个VM的部署位置有可能根据实际情况的不同,从一台Host切换到另一台Host中。
参见图2,图2使出了一种可能的VM的迁移场景图。如左图所示,Host1上部署了3个VM(分别为VM1,VM2,VM3),则存在以下因果关系:“Host1异常退出”导致“VM1,VM2,VM3异常退出”。如果某个时间发生了VM迁移,VM1被迁移到其他的Host上(迁移后的VM部署形态如右图所示),则“Host1异常退出”和“VM1,VM2,VM3异常退出”之间的因果关系将不再成立。
基于现有的故障分析方法的局限性,本申请提出一种故障诊断方法及相关装置,适用于内部结构动态变化的NFV系统,可对NFV系统进行故障诊断。
本申请中,将主要讨论NFV系统中业务层的故障诊断,即主要针对NFV系统中的NFVI和VNF层进行故障诊断。
为了更好地描述本申请,下面先介绍本申请涉及的几个基本概念。
(一)故障
本申请中,故障用于描述NFV系统中各层中对象出现的异常表现。也就是说,故障可从哪个对象、有何异常表现两个方面进行定义。
首先,NFV系统中的对象可根据不同的层进行划分。例如,可分为以下两种:
(1)VNF层中的对象。
具体的,VNF层中的对象可包括VNF功能网元和VNF软件模块。其中,VNF功能网元为应用软件,由多个VNF软件模块共同组成,用于实现电信网络中各个网元的业务功能。
(2)NFVI层中的对象。
具体的,NFVI层可进一步分为虚拟化层和硬件资源层。
虚拟化层中的对象可包括VM和Host。Host是基于硬件资源层的应用软件,可以看作是操作系统(operating system,OS)和虚拟化软件,Host上可部署一个或复数个VM。VM是指可以像真实机器一样运行程序的计算机的软件,其可以在计硬件资源和终端用户之间创建一种环境,终端用户可基于VM所创建的环境来操作软件。
硬件资源层中的对象为真实存在的物理资源,可包括实现服务器、交换机、存储资源(如磁阵、硬盘)等。
可理解的,上述仅为示例性举例,具体实现中,NFV系统还可包括更多的对象,例如虚拟化层的通信拓扑(topology,TOPO)、硬件资源层的通信拓扑、VNF层的业务通信拓扑等。不限于上述的对象划分方式,本申请还可使用其他方式划分对象。例如,在VNF层,由于VNF通过软件实现的电信网络中不同网元,还可将实现不同功能的软件划分为不同的对象,例如可划分为呼叫会话控制功能(call session control function,CSCF)、应用服务器(application sServer,AS)等。
其次,对象不同,其对应的异常表现也不完全相同,下面列举几种对象可能出现的异常表现。
(1)VNF的异常表现
VNF的异常表现可包括异常重启、异常退出、业务处理成功率低于阈值、业务流量(如VNF和数据网络通信时产生的业务流量、和终端用户通信时产生的电话流量等)超过阈值、业务资源(如存储资源、计算资源等)过载、与其他VNF通信中断、与其他VNF之间的通信丢包率超过阈值、软件缺陷等。其中,软件缺陷可包括导致业务资源泄漏(如内存泄漏(memory leak)等)的软件缺陷、导致业务处理逻辑异常的软件缺陷等。
(2)VNF软件模块的异常表现
VNF软件模块的异常表现可包括挂死(即VNF软件模块无响应)、异常退出、业务处理成功率低于阈值、业务流量超过阈值、业务资源过载、与其他对象/模块通信中断、与其他对象/模块之间的通信丢包率超过阈值、软件缺陷等。
(3)VM的异常表现
VM的异常表现可包括挂死、异常退出、计算资源(如CPU等)过载、虚拟网口断开、虚拟网口丢包率超过阈值、与其他VM通信中断、与其他VM之间的通信丢包率超过阈值、存储的输入/输出(input/output,I/O)中断(如存储硬盘、总线等异常时,存储IO中断)、存储IO时延超过阈值等。
(4)Host的异常表现
Host的异常表现可包括挂死、异常退出、计算资源(CPU、内存)过载、虚拟网口断开、虚拟网口丢包率超过阈值等。
(5)服务器的异常表现
服务器的异常表现可包括异常重启、异常掉电、关键器件(CPU、内存、网卡、硬盘)故障等。
(6)交换机的异常表现
交换机的异常表现可包括异常重启、异常掉电、端口断开、端口丢包率超过阈值、端口流量超过阈值、CPU资源过载等。
(7)磁阵的异常表现
磁阵的异常表现可包括异常重启、异常掉电、存储IO中断、存储IO时延超过阈值等。
这里,上述涉及的阈值可由用户根据实际情况预先设定,也可以由NFV系统在运行过程中自行动态调整,本申请不作限制。
可理解的,上述仅为示例性举例,具体实现中,各个对象的异常表现可根据实际情况进行定义,本申请不作限制。
本申请中,可根据NFV系统内的运行数据判断NFV系统是否发生故障、发生何种故障,可参见后续方法实施例的相关描述。
(二)故障类型
本申请中,可根据不同的标准将NFV系统中可能发生的故障分为不同的故障类型。例如,按照不同的层区分故障类型时,可分为硬件资源层故障、虚拟化层故障、VNF层故障等。又例如,按照不同的对象及异常表现区分故障类型时,可分为单个服务器异常掉电、单个Host异常退出、多个VM异常退出、多个VNF软件模块异常退出等。
由于NFV系统通过软件实现网络中的硬件功能,分层提供业务,因此,NFV系统中出现某种类型的故障时,通常会引发其他类型的故障,即故障类型之间可能存在关联关系。这里,关联关系可包括因果关系、并列关系、递进关系等。
具体的,两个故障类型之间的因果关系表示其中的某个类型的故障是导致另一个类型的故障的直接原因。故障类型之间的因果关系通常和NFV系统中的部署方式相关,例如,一般情况下,VNF软件模块部署在VM之上,VM部署在Host之上,Host部署在物理服务器之上,因此,故障类型之间的因果关系可如下:单个服务器异常掉电导致单个Host异常退出、单个Host异常退出导致多个VM异常退出、多个VM异常退出导致多个软件模块异常退出。
(三)对象之间的关联关系
具体的,对象之间的关联关系指对象之间的实际部署关系。这里,对象之间的关联关系可包括全包含关系、部分包含关系、全等于关系、上下游关系等。
以对象集合A和对象集合B为例进行说明。假设对象集合A包含VM1和VM2,对象集合B包含Host1,若VM1和VM2全部部署在Host1上,并且,Host1上没有部署其他VM,则对象集合B全包含对象集合A;若VM1或VM2部署在Host1上,则对象集合B部分包含对象集合A。假设对象集合A包含VM1和VM2,对象集合B也包含VM1和VM2,则对象集合B全等于对象集合A。假设对象集合A包含VM1和VM2,对象集合B包含VM3,若VM3处于VM1和VM2的上/下游,则对象集合B为对象集合A的上/下游。
由于NFV系统通过软件实现网络中的硬件功能,NFV系统内各个对象(例如VM、Host等)的部署位置可能动态变化,数量也有可能动态增加或减少,因此,对象之间的关联关系也可能动态变化。也就是说,NFV系统中对象之间的关联关系和实时的对象部署情况有关。
(四)故障之间的关联关系
由于NFV系统通过软件实现网络中的硬件功能,分层提供业务,因此,NFV系统中的一个故障通常会引发其他层的故障,多个故障之间可能存在关联关系。这里,关联关系可包括因果关系、并列关系、递进关系等。
具体的,两个故障之间的因果关系表示其中的某个故障是导致另一个故障的直接原因。当多个故障之间存在因果关系时,其中的某个故障可能导致了另一个故障,该另一个故障可能导致了后续的一个故障,以此类推。
具体的,两个故障之间若存在因果关系,需要满足以下两个条件:
(1)两个故障所属的故障类型之间存在因果关系。
具体的,故障类型之间存在的因果关系可参照上述第(二)点故障类型的相关描述。例如,单个服务器异常掉电和单个Host异常退出之间存在因果关系,单个Host异常退出和多个VM异常退出之间存在因果关系,多个VM异常退出和多个软件模块异常退出之间存在因果关系。
(2)两个故障分别对应的对象之间存在预设的关联关系。
这里,第(2)个条件中对象之间的预设关联关系可预先根据实际情况设置,例如根据实际的对象部署情况设置等。对象之间的关联关系可参照上述第(三)点的相关描述。
结合上述2个条件举例说明,假设NFV系统出现两个故障,故障一为:VM1和VM2异常退出,故障二为:Host1异常退出。即,故障一所属故障类型为多个VM异常退出,故障二所属故障类型为单个Host异常退出,故障二所属故障类型和故障一所属故障类型之间存在因果关系。假设对象之间的预设关联关系为全包含关系,那么,在VM1和VM2都部署在Host1上时,故障二导致了故障一,故障二和故障一存在因果关系。
上述详细介绍了本申请涉及的几个基本概念,下面介绍本申请提供的故障诊断方法。本申请的故障诊断方法适用于内部结构动态变化的NFV系统,能够简便、准确地诊断出NFV系统的故障原因。
参见图3,图3为本申请提供的故障诊断方法的流程示意图。如图所示,该方法可包括如下步骤:
S101、获取NFV系统中的运行数据和对象部署数据。
本申请的故障诊断方法可由故障诊断装置或软件、应用等执行。
具体的,NFV系统中的运行数据反映了NFV系统的运行状况,可至少包括:告警信息、运行日志或性能统计信息中的一个或复数个。其中,告警日志可反映NFV系统中出现的异常情况,运行日志可反映NFV系统的运行状态,性能统计信息可反映NFV系统的各类性能(如通信丢包率、存储性能等)。可选的,当由NFV系统中的软件或其他系统中的软件执行本申请的故障诊断方法时,可通过数据接口从EM、MANO处获取NFV系统的运行数据;当由故障诊断装置执行本申请的故障诊断方法时,可从数据接口从EM、MANO处获取NFV系统的运行数据,还可通过其他通信方式(如蓝牙、WiFi、移动数据等)从EM、MANO处获取NFV系统的运行数据。可理解的,不限于上述提到的几项,任何可反映NFV系统运行状况的数据都可作为NFV系统的运行数据,本申请不再列举。
具体的,NFV系统中的对象部署数据反映了NFV系统的实时对象部署情况,可包括NFV系统中各个对象(如VM、Host、VNF等)的部署情况。可选的,对象部署数据的获取方式和运行数据的获取方式类似,可参照相关描述。
在可选实施例中,获取到NFV系统的运行数据之后,还可对运行数据做预处理,得到故障诊断所需数据。具体的,通过数据接口从EM、MANO处获取NFV系统的运行数据为原始数据,原始数据中可能包括部分和故障诊断无关的数据,可对运行数据做预处理,过滤掉和故障诊断无关的运行数据,得到故障诊断所需数据。其中,和故障诊断无关的运行数据即和NFV中出现的故障无关的数据。这里,对运行数据做预处理的方法可以有多种,可以根据数据获取来源进行过滤、根据数据的关键字符进行过滤等,本申请不作限制。
S102、根据运行数据和对象部署数据,确定NFV系统的故障原因,该故障原因导致了NFV系统中的一个或复数个故障。
可选的,执行本申请的故障诊断方法的装置或软件可周期性执行步骤S102,例如每半个小时、每一个小时等周期性地根据运行数据和对象部署数据确定NFV系统的故障原因。周期性对NFV系统做故障诊断可及时发现NFV系统中的故障原因,从而修正故障,保证NFV系统正常运行。
可选的,执行本申请的故障诊断方法的装置或软件还可在运行数据出现异常的情况下执行步骤S102,即,获取到运行数据后,对运行数据做初步判断,如果发现运行数据异常,则判断NFV系统有可能出现故障,触发执行步骤S102。这里,运行数据异常至少可包括运行数据中有部分数据急剧变化或部分数据缺失等情况。
可选的,NFV系统在运行过程中,出现某个故障时,该故障可能不会导致其他故障,该故障也可能会导致其他故障(例如Host1异常退出,会导致部署在Host1上的VM1、VM2异常退出),即该故障是NFV系统出现的一个或复数个故障的初始故障,该初始故障即为NFV系统的故障原因。
可选的,NFV系统的故障原因可能有一个或复数个。当NFV的故障原因有多个时,各个故障原因可分别导致NFV系统中的不同故障。
具体的,根据运行数据和对象部署数据确定NFV系统的故障原因。其中,运行数据可反映NFV系统中的运行状况,对象部署数据可反映NFV系统中的对象部署情况,可结合运行数据和对象部署数据,确定NFV系统的故障原因。
可选的,在对运行数据做预处理,得到故障诊断所需数据后,还可根据故障诊断所需数据和对象部署数据,确定NFV系统的故障原因。这里,对运行数据做预处理相当于对运行数据进行过滤,去除无用数据,可提高NFV系统的故障诊断效率。
可选的,在根据运行数据和对象部署数据确定NFV系统的故障原因时,可根据以下步骤确定:
步骤1021、根据运行数据,确定NFV系统中的故障。
具体的,运行数据反映NFV系统中的运行状况,可根据运行数据确定NFV系统中的故障,即可根据运行数据确定NFV系统中哪个对象出现了什么样的异常表现。
可选的,可确定运行数据符合的预设条件,将该预设条件对应的故障作为NFV系统中的故障。这里,预设条件即为判断NFV系统是否出现对应故障的依据。执行本申请的故障诊断方法的装置或软件可预先存储多个预设条件以及对应的故障,参见下表,表1示出了一种可能的预设条件和故障的对应关系。举例说明,当运行数据中的运行日志中预设时间内没有VM1和其他VM的通信记录,则该运行数据满足预设条件“VM1和其他VM超过预设时间无通信”,可判断当前NFV系统出现故障“VM1和其他VM通信中断”。这里,预设条件和故障之间的对应关系还可在NFV系统的运行过程中动态调整,本申请不作限制。
预设条件 | 故障 |
VM和其他VM超过预设时间无通信 | VM和其他VM通信中断 |
VM超过预设时间没有写入/读出数据 | VMI/O中断 |
… | … |
表1
举例说明,运行数据中的性能统计信息中可包括统计的各个VM的计算资源,若性能统计信息统计到的VM1的虚拟网口的收发数据信息,若符合VM1在一段时间内没有收发数据,则可确定NFV系统出现“VM1的虚拟网口断开”的故障。
步骤1022、根据NFV系统中的故障和对象部署数据,确定NFV系统中的故障之间的关联关系。
具体的,确定NFV系统中的故障后,可获知NFV系统中有哪些对象分别出现了什么样的异常表现,结合NFV系统中的对象部署数据,可确定NFV系统中的故障之间的关联关系。可选的,故障之间的关联关系为因果关系。举例说明,故障之间的因果关系可如图4及图5所示,图中列举了几种NFV系统中各层可能出现的故障,线条填充部分为根据NFV系统中的故障和对象部署数据确定的NFV系统中当前的故障,箭头走向表示故障之间的因果关系。如图4所示,硬件资源层的故障3导致了虚拟化层的故障7,故障7导致了VNF层的故障11。如图5所示,不仅不同层的故障之间可能存在因果关系,同一层的故障之间也可能存在因果关系。
可选的,根据NFV系统中的故障和对象部署数据确定NFV系统中的故障之间的关联关系时,可首先确定NFV系统中的故障分别所属的故障类型之间的关联关系,然后根据对象部署数据确定NFV系统中的故障分别对应的对象之间的关联关系,最后根据故障类型之间的关联关系和NFV系统中的故障分别对应的对象之间的关联关系,确定NFV系统中的故障之间的关联关系。这里,NFV系统中的故障之间的关联关系可参照上述基本概念(四)的相关描述,在此不赘述。
步骤1023、根据NFV系统中的故障之间的关联关系确定NFV系统的故障原因。
可选的,可根据故障之间的因果关系,确定NFV系统的故障原因。举例说明,参见图4,根据图中各个故障之间的因果关系,可确定NFV系统中的故障原因为故障3。类似的,参见图5,NFV系统中的故障原因为故障3。
实施图3所示的故障诊断方法,根据NFV系统的运行数据和对象部署数据确定NFV系统的故障原因,适用于内部结构动态变化的NFV系统,诊断过程简便、准确。
在一个具体的实施例中,图3所示的故障诊断方法可以通过Python代码实现。下面提供几个可能的Python分析函数,其中各行代码的作用参考“#”符号后的文字。
(1)故障“多个VM异常退出”的分析函数
(2)故障“单个Host异常退出”分析函数
(3)故障诊断的入口函数
可理解的,上述Python仅为示例性举例,具体实现中,可通过其他不同的Python代码实现本申请的故障诊断方法,还可通过其他类型的代码(如C语言、C++、JAVA等)实现本申请的故障诊断方法,本申请不作限制。
上述详细描述了本申请的故障诊断方法,为了更好地实施本申请的上述方法,相应地,下面提供了本申请的相关装置。
参见图6,图6为本申请提供的故障诊断装置10的结构示意图,如图所示,故障诊断装置可包括:通信接口101、一个或多个处理器102和存储器103。这些部件可通过总线或者其它方式连接。其中:
通信接口101可用于故障诊断装置与其他设备或系统通信,例如NFV系统中的EM、MANO等。具体实现中,通信接口101可包括有线通信接口(例如以太网接口)和无线通信接口。
存储器103与处理器102耦合,用于存储各种软件程序和/或多组指令。具体实现中,存储器103可包括高速随机存取的存储器,并且也可包括非易失性存储器,例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。存储器103可以存储操作系统,例如uCOS、VxWorks、RTLinux等嵌入式操作系统。存储器103还可以存储网络通信程序,该网络通信程序可用于与NFV系统进行通信。
在本申请的一些实施例中,存储器103可用于存储本申请的一个或多个实施例提供的故障诊断方法在故障诊断装置侧的实现程序。关于本申请的一个或多个实施例提供的故障诊断方法的实现,请参考图3所示方法实施例。
处理器102可用于进行无线信道管理和通信链路的建立和拆除等。可以是通用处理器,例如CPU,处理器102还可包括硬件芯片,上述硬件芯片可以是以下一种或多种的组合:ASIC、FPGA,CPLD。处理器102可处理通信接口101接收到的数据,处理器102还可处理将被发送到通信接口101以通过有线传输介质传送的数据。
本申请中,处理器102可用于读取和执行计算机可读指令。具体的,处理器102可用于调用存储于存储器103中的程序,例如本申请的一个或多个实施例提供的故障诊断方法在故障诊断装置侧的实现程序,并执行该程序包含的指令。
这里,图6所示的故障诊断装置仅仅是本申请的一种实现方式,实际应用中,故障诊断装置还可以包括更多或更少的部件,这里不作限制。
参见图7,图7为本申请提供的一种故障诊断装置20的功能框图。如图所示,故障诊断装置20可包括:获取单元201、确定单元202,其中,
获取单元201,用于获取NFV系统中的运行数据和对象部署数据;
确定单元202,用于根据运行数据和对象部署数据,确定NFV系统的故障原因,故障原因导致了NFV系统中的一个或复数个故障。
即,获取单元201可用于执行图3所示方法中的步骤S101,确定单元202可用于执行图3所示方法中的步骤S102。
可选的,确定单元202具体用于根据运行数据,确定NFV系统中的故障;根据NFV系统中的故障和对象部署数据,确定NFV系统中的故障之间的关联关系;根据故障之间的关联关系确定NFV系统的故障原因。
可选的,确定单元202根据NFV系统中的故障和对象部署数据确定NFV系统中的故障之间的关联关系时,首先确定NFV系统中的故障分别所属的故障类型之间的关联关系;根据对象部署数据,确定NFV系统中的故障分别对应的对象之间的关联关系;根据故障类型之间的关联关系和对象之间的关联关系,确定NFV系统中的故障之间的关联关系。
可选的,确定单元202根据所述运行数据,确定所述NFV系统中的故障时,确定运行数据符合的预设条件,将预设条件对应的故障作为NFV系统中的故障。
可选的,NFV系统中的故障之间的关联关系为因果关系,确定单元202具体用于根据NFV系统中的故障之间的因果关系,确定NFV系统中的故障中的初始故障为NFV系统的故障原因。
可选的,故障诊断装置20还可包括判断单元203,用于判断所述运行数据出现异常。
可选的,确定单元202周期性确定NFV系统的故障原因。
可选的,故障诊断装置20还可包括预处理单元204,用于对运行数据做预处理,得到故障诊断所需数据;确定单元202具体用于根据故障诊断所需数据和对象部署数据,确定NFV系统的故障原因。
可选的,运行数据至少包括:告警信息、运行日志或性能统计信息中的一个或复数个。
可选的,对象部署数据包括NFV系统中各个对象的部署情况。
可理解的,故障诊断装置20包括的各个功能单元的具体实现可参考前述方法实施例的相关描述,这里不再赘述。
综上,实施本申请提供的技术方案,可简便、准确地诊断内部结构动态变化的NFV系统的故障原因。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidStateDisk)等。
Claims (22)
1.一种故障诊断方法,其特征在于,包括:
获取NFV系统中的运行数据和对象部署数据;
根据所述运行数据和所述对象部署数据,确定所述NFV系统的故障原因,所述故障原因导致了所述NFV系统中的一个或复数个故障。
2.根据权利要求1所述的方法,其特征在于,所述根据所述运行数据和所述对象部署数据,确定所述NFV系统的故障原因,包括:
根据所述运行数据,确定所述NFV系统中的故障;
根据所述NFV系统中的故障和所述对象部署数据,确定所述NFV系统中的故障之间的关联关系;
根据所述故障之间的关联关系确定所述NFV系统的故障原因。
3.根据权利要求2所述的方法,其特征在于,所述根据所述NFV系统中的故障和所述对象部署数据,确定所述NFV系统中的故障之间的关联关系,包括:
确定所述NFV系统中的故障分别所属的故障类型之间的关联关系;
根据所述对象部署数据,确定所述NFV系统中的故障分别对应的对象之间的关联关系;
根据所述故障类型之间的关联关系和所述对象之间的关联关系,确定所述NFV系统中的故障之间的关联关系。
4.根据权利要求2或3所述的方法,其特征在于,根据所述运行数据,确定所述NFV系统中的故障,包括:
确定所述运行数据符合的预设条件;
将所述预设条件对应的故障作为所述NFV系统中的故障。
5.根据权利要求2-4任一项所述的方法,所述NFV系统中的故障之间的关联关系为因果关系,
所述根据所述故障之间的关联关系确定所述NFV系统的故障原因,包括:根据所述NFV系统中的故障之间的因果关系,确定所述NFV系统中的故障中的初始故障为所述NFV系统的故障原因。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述确定NFV系统的故障原因之前,所述方法还包括:
判断所述运行数据出现异常。
7.根据权利要求1-5任一项所述的方法,其特征在于,周期性确定所述NFV系统的故障原因。
8.根据权利要求1-7任一项所述的方法,其特征在于,
所述获取NFV系统中的运行数据之后,所述方法还包括:对所述运行数据做预处理,得到故障诊断所需数据;
所述根据所述运行数据和对象部署数据,确定所述NFV系统的故障原因,包括:根据所述故障诊断所需数据和所述对象部署数据,确定所述NFV系统的故障原因。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述运行数据至少包括:告警信息、运行日志或性能统计信息中的一个或复数个。
10.根据权利要求1-9任一项所述的方法,其特征在于,所述对象部署数据包括所述NFV系统中各个对象的部署情况。
11.一种故障诊断装置,其特征在于,包括:
获取单元,用于获取NFV系统中的运行数据和对象部署数据;
确定单元,用于根据所述运行数据和所述对象部署数据,确定所述NFV系统的故障原因,所述故障原因导致了所述NFV系统中的一个或复数个故障。
12.根据权利要求11所述的装置,其特征在于,
所述确定单元,具体用于根据所述运行数据,确定所述NFV系统中的故障;
根据所述NFV系统中的故障和所述对象部署数据,确定所述NFV系统中的故障之间的关联关系;
根据所述故障之间的关联关系确定所述NFV系统的故障原因。
13.根据权利要求12所述的装置,其特征在于,
所述确定单元,具体用于根据所述NFV系统中的故障和所述对象部署数据,确定所述NFV系统中的故障之间的关联关系,包括:
所述确定单元,具体用于确定所述NFV系统中的故障分别所属的故障类型之间的关联关系;
根据所述对象部署数据,确定所述NFV系统中的故障分别对应的对象之间的关联关系;
根据所述故障类型之间的关联关系和所述对象之间的关联关系,确定所述NFV系统中的故障之间的关联关系。
14.根据权利要求12或13所述的装置,其特征在于,
所述确定单元,具体用于根据所述运行数据,确定所述NFV系统中的故障,包括:
所述确定单元,具体用于确定所述运行数据符合的预设条件,将所述预设条件对应的故障作为所述NFV系统中的故障。
15.根据权利要求12-14任一项所述的装置,其特征在于,所述NFV系统中的故障之间的关联关系为因果关系,
所述确定单元,具体用于根据所述故障之间的关联关系确定所述NFV系统的故障原因,包括:
所述确定单元,具体用于根据所述NFV系统中的故障之间的因果关系,确定所述NFV系统中的故障中的初始故障为所述NFV系统的故障原因。
16.根据权利要求11-15任一项所述的装置,其特征在于,还包括判断单元,
所述判断单元,用于判断所述运行数据出现异常。
17.根据权利要求11-15任一项所述的装置,其特征在于,所述确定单元周期性确定所述NFV系统的故障原因。
18.根据权利要求11-17任一项所述的装置,其特征在于,还包括:预处理单元,
所述预处理单元,用于对所述运行数据做预处理,得到故障诊断所需数据;
所述确定单元,具体用于根据所述故障诊断所需数据和所述对象部署数据,确定所述NFV系统的故障原因。
19.根据权利要求11-18任一项所述的装置,其特征在于,所述运行数据至少包括:告警信息、运行日志或性能统计信息中的一个或复数个。
20.根据权利要求11-19任一项所述的装置,其特征在于,所述对象部署数据包括所述NFV系统中各个对象的部署情况。
21.一种计算机可读存储介质,其特征在于,所述可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行权利要求1-10任一项所述的故障诊断方法。
22.一种包含指令的计算机程序产品,其特征在于,当所述指令在计算机上运行时,使得所述计算机执行权利要求1-10任一项所述的故障诊断方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810647069.1A CN110635930A (zh) | 2018-06-21 | 2018-06-21 | 故障诊断方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810647069.1A CN110635930A (zh) | 2018-06-21 | 2018-06-21 | 故障诊断方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110635930A true CN110635930A (zh) | 2019-12-31 |
Family
ID=68966968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810647069.1A Pending CN110635930A (zh) | 2018-06-21 | 2018-06-21 | 故障诊断方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110635930A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106452930A (zh) * | 2016-12-16 | 2017-02-22 | 北京邮电大学 | 一种基于探测的服务功能链的故障诊断方法及系统 |
KR20170133781A (ko) * | 2016-05-26 | 2017-12-06 | 한국전자통신연구원 | 가상 인프라 스트럭처의 시험 및 진단 장치 및 방법 |
CN107623596A (zh) * | 2017-09-15 | 2018-01-23 | 郑州云海信息技术有限公司 | 一种nfv平台中启动测试网元定位排查故障的方法 |
-
2018
- 2018-06-21 CN CN201810647069.1A patent/CN110635930A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170133781A (ko) * | 2016-05-26 | 2017-12-06 | 한국전자통신연구원 | 가상 인프라 스트럭처의 시험 및 진단 장치 및 방법 |
CN106452930A (zh) * | 2016-12-16 | 2017-02-22 | 北京邮电大学 | 一种基于探测的服务功能链的故障诊断方法及系统 |
CN107623596A (zh) * | 2017-09-15 | 2018-01-23 | 郑州云海信息技术有限公司 | 一种nfv平台中启动测试网元定位排查故障的方法 |
Non-Patent Citations (1)
Title |
---|
段美宽: ""网络功能虚拟化环境下的故障管理"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200379805A1 (en) | Automated cloud-edge streaming workload distribution and bidirectional migration with lossless, once-only processing | |
US10048996B1 (en) | Predicting infrastructure failures in a data center for hosted service mitigation actions | |
US10489232B1 (en) | Data center diagnostic information | |
Zheng et al. | Co-analysis of RAS log and job log on Blue Gene/P | |
US20230370500A1 (en) | Distributed interface for data capture from multiple sources | |
US10397164B2 (en) | Deputizing agents to reduce a volume of event logs sent to a coordinator | |
US8516295B2 (en) | System and method of collecting and reporting exceptions associated with information technology services | |
EP3956771B1 (en) | Timeout mode for storage devices | |
CN108347339B (zh) | 一种业务恢复方法及装置 | |
US11372871B1 (en) | Programmable framework for distributed computation of statistical functions over time-based data | |
US11743237B2 (en) | Utilizing machine learning models to determine customer care actions for telecommunications network providers | |
US11409704B2 (en) | Method, device and computer program product for managing storage system | |
US11599404B2 (en) | Correlation-based multi-source problem diagnosis | |
JP5642725B2 (ja) | 性能分析装置、性能分析方法及び性能分析プログラム | |
CN112134752B (zh) | 一种基于bmc监控交换机的方法、系统、设备及介质 | |
US8935695B1 (en) | Systems and methods for managing multipathing configurations for virtual machines | |
CN110635930A (zh) | 故障诊断方法及相关装置 | |
US11226879B2 (en) | Fencing non-responding ports in a network fabric | |
CN110377396A (zh) | 一种虚拟机自动迁移方法、系统及电子设备 | |
US11645164B2 (en) | Adjusting data backups based on system details | |
US8661296B2 (en) | Dynamic data store for failed jobs in a systems complex | |
JP2012168816A (ja) | プロセス再起動装置、プロセス再起動方法およびプロセス再起動プログラム | |
US20240248778A1 (en) | Distributed hardware and software component monitoring | |
US11074093B2 (en) | Virtual machine migration using tracked error statistics for target fibre channel ports | |
Qunaibi | Improving Cluster Scheduling Resiliency to Network Faults |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191231 |
|
RJ01 | Rejection of invention patent application after publication |