CN111106944B - 一种故障告警信息处理方法及设备 - Google Patents

一种故障告警信息处理方法及设备 Download PDF

Info

Publication number
CN111106944B
CN111106944B CN201811256638.6A CN201811256638A CN111106944B CN 111106944 B CN111106944 B CN 111106944B CN 201811256638 A CN201811256638 A CN 201811256638A CN 111106944 B CN111106944 B CN 111106944B
Authority
CN
China
Prior art keywords
fault
target
result
alarm
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811256638.6A
Other languages
English (en)
Other versions
CN111106944A (zh
Inventor
付乔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN201811256638.6A priority Critical patent/CN111106944B/zh
Publication of CN111106944A publication Critical patent/CN111106944A/zh
Application granted granted Critical
Publication of CN111106944B publication Critical patent/CN111106944B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/064Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种故障告警信息处理方法及设备,涉及通信技术领域。该方法包括:获取目标故障告警信息;根据所述目标故障告警信息以及在学习阶段的学习结果,获得故障分析结果。本发明的方案,解决了现有NFV系统中故障分析依赖人工处理而造成的处理流程长,处理时间慢,不灵活等问题。

Description

一种故障告警信息处理方法及设备
技术领域
本发明涉及通信技术领域,特别是指一种故障告警信息处理方法及设备。
背景技术
网络功能虚拟化NFV旨在将现有的基于物理硬件网元的网络改造为基于虚拟化技术和通用IT设备的网络。采用NFV技术可大大降低网络构造成本、提高网络的灵活性。
然而,目前NFV系统中负责故障报警收集的有三个组件,虚拟化基础设施管理器VIM、物理基础设施管理器PIM和网元管理系统EMS。所有报警均会上报到网络功能虚拟化编排器NFVO,NFVO会将简单处理后的报警进一步上传至运营支撑系统OSS(比如对VNF的报警,NFVO负责匹配该VNF所在的主机名称Hostname,之后上传至OSS)。目前NFVO不具备故障根因分析的能力,仅对大量故障报警进行简单的管理和处理,之后将该故障信息全量转交给OSS。OSS也不具备故障根因分析的能力。故障的判断大量依靠人工处理,处理流程长,处理时间慢,不灵活。
发明内容
本发明的目的是提供一种故障告警信息处理方法及设备,以实现更高效的故障告警信息处理。
为达到上述目的,本发明的实施例提供一种故障告警信息处理方法,包括:
获取目标故障告警信息;
根据所述目标故障告警信息以及在学习阶段的学习结果,获得故障分析结果。
其中,在获得故障分析结果后,所述方法还包括:
根据所述故障分析结果,上报结果信息或者进行故障处理。
其中,获取目标故障告警信息,包括:
将在预设时间窗内,连续性接收的故障告警信息作为目标故障告警信息。
其中,在根据所述目标故障告警信息以及在学习阶段的学习结果,获得故障分析结果之前,所述方法还包括:
在学习阶段,将故障告警采样数据输入神经网络模型,并获得输出结果;
根据所述输出结果进行误差判断;
在判断结果指示预测失败的情况下,更新所述神经网络模型的权重,并重新将故障告警采样数据输入神经网络模型;
在判断结果指示预测成功且预测成功次数大于第一预设次数的情况下,将目标神经网络模型确定为学习结果,所述目标神经网络模型包括预测成功时的权重。
其中,根据所述目标故障告警信息以及在学习阶段的学习结果,获得故障分析结果,包括:
将所述目标故障告警信息输入到所述目标神经网络模型;
将所述目标神经网络模型的输出结果作为故障分析结果。
其中,在将所述目标神经网络模型的输出结果作为故障分析结果之前,还包括:
根据所述输出结果进行误差判断;
在判断结果指示预测失败且预设失败次数大于第二预设次数的情况下,返回学习阶段,更新权重,并重新将故障告警采样数据输入神经网络模型。
其中,根据所述输出结果进行误差判断,包括:
根据公式E=∑[Yi-Yi']2,得到判断标准值E;其中,Yi为输出结果,Yi’为实际故障;
若E大于预设阈值,则预测失败;若E等于预设阈值,则预测成功。
其中,所述故障告警信息包括:告警标题、告警状态、事件发生时间、告警唯一标识、告警设备身份标识UID、告警设备名称、告警设备类型以及告警设备的虚实性。
其中,所述故障告警信息还包括:告警原始级别。
其中,根据所述故障分析结果进行故障处理,包括:
发送处理指令至目标设备。
其中,所述目标设备为网络功能虚拟化编排器NFVO,
所述处理指令包括:自愈标题、自愈类别、自愈具体操作、自愈唯一标识、自愈设备UID、自愈设备名称以及自愈设备类型。
其中,所述处理指令还包括:自愈时间。
其中,所述结果信息包括:故障标题、故障状态、事件发生时间、故障唯一标识、故障设备UID、故障设备名称以及故障设备类型。
其中,所述结果信息还包括:故障原始级别。
为达到上述目的,本发明的实施例提供一种故障告警信息处理设备,包括处理器和收发器,其中,
所述收发器用于获取目标故障告警信息;
所述处理器用于根据所述目标故障告警信息以及在学习阶段的学习结果,获得故障分析结果。
其中,所述处理器还用于根据所述故障分析结果,上报结果信息或者进行故障处理。
其中,所述收发器还用于将在预设时间窗内,连续性接收的故障告警信息作为目标故障告警信息。
其中,所述处理器还用于:
在学习阶段,将故障告警采样数据输入神经网络模型,并获得输出结果;
根据所述输出结果进行误差判断;
在判断结果指示预测失败的情况下,更新所述神经网络模型的权重,并重新将故障告警采样数据输入神经网络模型;
在判断结果指示预测成功且预测成功次数大于第一预设次数的情况下,将目标神经网络模型确定为学习结果,所述目标神经网络模型包括预测成功时的权重。
其中,所述处理器还用于:
将所述目标故障告警信息输入到所述目标神经网络模型;
将所述目标神经网络模型的输出结果作为故障分析结果。
其中,所述处理器还用于:
根据所述输出结果进行误差判断;
在判断结果指示预测失败且预设失败次数大于第二预设次数的情况下,反馈学习阶段,更新权重,并重新将故障告警采样数据输入神经网络模型。
其中,所述处理器还用于:
根据公式E=∑[Yi-Yi']2,得到判断标准值E;其中,Yi为输出结果,Yi’为实际故障;
若E大于预设阈值,则预测失败;若E等于预设阈值,则预测成功。
其中,所述故障告警信息包括:告警标题、告警状态、事件发生时间、告警唯一标识、告警设备身份标识UID、告警设备名称、告警设备类型以及告警设备的虚实性。
其中,所述故障告警信息还包括:告警原始级别。
其中,所述收发器还用于:发送处理指令至目标设备。
其中,所述目标设备为网络功能虚拟化编排器NFVO,
所述处理指令包括:自愈标题、自愈类别、自愈具体操作、自愈唯一标识、自愈设备UID、自愈设备名称以及自愈设备类型。
其中,所述处理指令还包括:自愈时间。
其中,所述结果信息包括:故障标题、故障状态、事件发生时间、故障唯一标识、故障设备UID、故障设备名称以及故障设备类型。
其中,所述结果信息还包括:故障原始级别。
为达到上述目的,本发明的实施例提供一种故障告警信息处理设备,包括收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述处理器执行所述计算机程序时实现如上所述的故障告警信息处理方法。
为达到上述目的,本发明的实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的故障告警信息处理方法中的步骤。
本发明的上述技术方案的有益效果如下:
本发明实施例的故障告警信息处理方法,获取目标故障告警信息后,就能够结合学习阶段的学习结果,进行分析,从而得到故障分析结果,减少了对人工经验的依赖程度,简化了处理流程,缩短了处理时间,提升了处理效率,具有更佳的灵活性,实现了NFV系统的自动化运维。
附图说明
图1为本发明实施例的故障告警信息处理方法的流程图之一;
图2为本发明实施例的故障告警信息处理方法的流程图之二;
图3为NFVO设计态的处理流程图;
图4为NFVO运行态的处理流程图;
图5为独立于NFVO和OSS的故障告警信息处理装置的连接示意图;
图6为本发明实施例的故障告警信息处理装置的结构图;
图7为本发明另一实施例的故障告警信息处理装置的结构图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
如图1所示,本发明实施例的一种故障告警信息处理方法,包括:
步骤101,获取目标故障告警信息;
步骤102,根据所述目标故障告警信息以及在学习阶段的学习结果,获得故障分析结果。
通过上述步骤,在获取目标故障告警信息后,就能够结合学习阶段的学习结果,进行分析,从而得到故障分析结果,而不再需要依靠人工进行故障分析,简化了处理流程,缩短了处理时间,提升了处理效率,具有更佳的灵活性。
应该知道的是,在NFV系统中,故障告警信息主要包括以下9种:
1)vim类型的告警消息的网络设备类型neType包括:主机host、虚拟机vm、其它other;
2)pim类型的告警消息的neType包括:服务server、交换switch、防火墙firewall、磁盘阵列diskArray、其它other;
3)EMS告警消息。
而且,每个告警组件又可以包括4种告警:紧急告警Critical;主要告警Major;次要告警Minor;警告告警Warning。因此,在该实施例中,考虑各个告警间的时序管理关系,会提前合理设计一预设时间窗T,来整合故障告警信息,可选地,步骤101包括:
将在预设时间窗内,连续性接收的故障告警信息作为目标故障告警信息。
如此,对于具有时序关联关系的告警信息可进行整合,以达到更有效的故障分析,明确出故障的发生原因(即根因)。
在该实施例中,具体的故障分析算法,优选采用神经网络算法,来应对海量的故障数据输入,因此,在步骤102之前,如图2所示,所述方法还包括:
步骤201,在学习阶段,将故障告警采样数据输入神经网络模型,并获得输出结果;
步骤202,根据所述输出结果进行误差判断;
步骤203,在判断结果指示预测失败的情况下,更新所述神经网络模型的权重,并重新将故障告警采样数据输入神经网络模型;
步骤204,在判断结果指示预测成功且预测成功次数大于第一预设次数的情况下,将目标神经网络模型确定为学习结果,所述目标神经网络模型包括预测成功时的权重。
这里,最初的神经网络模型是基于神经网络算法所构建的,其中包括有未确定的权重。而将故障告警采样数据输入该神经网络模型之后,由所得的输出结果进行误差判断,既可对当前神经网络模型是否适用(即当前模型中的权重是否适用)完成校验。最终,由误差判断结果,若预测成功且预测成功次数大于第一预设次数,则可将此时的神经网络模型(具有预测成功时的权重的神经网络模型)用于对目标故障告警信息的故障分析;若预测失败,则更新神经网络模型的权重,再重新将故障告警采样数据输入神经网络模型,直至预测成功,完成对神经网络模型的训练,找到目标神经网络模型。
进一步,可选地,步骤102包括:
将所述目标故障告警信息输入到所述目标神经网络模型;
将所述目标神经网络模型的输出结果作为故障分析结果。
这里,基于上述在学习阶段经训练得到的目标神经网络模型,会将目标故障告警信息输入到该目标神经网络模型,而后将该目标神经网络模型的输出结果作为故障分析结果。
当然,为了保证目标神经网络模型的使用有效性,可选地,在将所述目标神经网络模型的输出结果作为故障分析结果之前,还包括:
根据所述输出结果进行误差判断;
在判断结果指示预测失败且预设失败次数大于第二预设次数的情况下,反馈学习阶段,更新权重,并重新将故障告警采样数据输入神经网络模型。
这里,会根据所得的输出结果进行误差判断,也是对目标神经网络模型是否适用(即当前模型中的权重是否适用)的校验。若预测失败且预设失败次数大于第二预设次数,则返回学习阶段,更新权重,并重新将故障告警采样数据输入神经网络模型,直至预测成功,才完成对神经网络模型的训练,找到新目标神经网络模型。当然,若预测成功,则可确认目标神经网络模型可实现有效的故障分析,继续使用目标神经网络模型用于对后续目标故障告警信息的故障分析。
在该实施例中,可选地,根据所述输出结果进行误差判断,包括:
根据公式E=∑[Yi-Yi']2,得到判断标准值E;其中,Yi为输出结果,Yi’为实际故障;
若E大于预设阈值,则预测失败;若E等于预设阈值,则预测成功。
在学习阶段或者针对目标故障告警信息进行故障分析的过程中,都可通过公式E=∑[Yi-Yi']2实现对模型准确性的校验,从而在准确性降低的情况下,重返学习阶段进行权重更新。
而对于获得的故障分析结果,在该实施例中,可选地,在获得故障分析结果后,所述方法还包括:
根据所述故障分析结果,上报结果信息或者进行故障处理。
如此,一方面,可将对应故障分析结果的结果信息告知OSS,另一方面,可针对故障分析结果进行对应的故障处理,如,对应PIM的故障,会通过服务器重新启动、交换机重启、磁振重启等。当然,两者可择一执行,也可共同执行,具体实现需结合故障分析结果而确定。
可选地,所述结果信息包括:故障标题、故障状态、事件发生时间、故障唯一标识、故障设备UID、故障设备名称以及故障设备类型。
可选地,所述结果信息还包括:故障原始级别。
其中,故障状态包括:活动故障和故障消除。故障原始级别包括:Critical、Major、Minor和Warning。事件发生时间包括:活动告警时间(即故障发送的时间)和清除告警时间(故障清除的时间)。故障唯一标识,活动故障与已清除的故障的Id相同。故障设备UID,故障设备的ID,vim类型的故障消息的neUID包括:host为SerialNumber、vm为VmId、other为VimId。pim类型的故障消息的neUID包括:server为SerialNumber、switch为switch的Id、firewall为firewall的Id、diskArray为diskArrayChassis的Id,other为VimId。故障设备名称,vim类型的故障消息的neName包括:host为Hostname、vm为VM的Name、other为VimId。pim类型的故障消息的neName包括:server为Name、switch为swich的Name、firewall为firewall的Name、diskArray为diskArrayChassis的Name,other为VimId。故障设备类型,vim类型的故障消息的neType包括:包括host、vm、other,pim类型的故障消息的neType包括:包括server、switch、firewall、diskArray、other。
在该实施例中,根据所述故障分析结果进行故障处理,包括:
发送处理指令至目标设备。
通过处理指令指示目标设备进行故障清除,达到系统自愈的目的。
应该了解的是,本发明实施例的故障告警信息处理方法,可应用于NFVO,也可应用于独立于NFVO和OSS的故障告警信息处理装置。
其中,NFVO为实现本发明实施例的故障告警信息处理方法,在如图3所示的NFVO设计态(即学习阶段),将故障告警采样数据(当期NFV系统的故障告警信息)作为告警输入Xi,在经故障输入处理后,输入到神经网络模型,而神经网络模型的输出结果Yi则会基于公式E=∑[Yi-Yi']2进行误差判断,若E>0(此时,0为误差判断的预设阈值),则会对神经网络模型的权重更新,如将实际故障Yi’与告警输入Xi作为输出和输入重新拟合权重;若E=0,则预测成功计数器进行加1计数,当预设成功次数大于第一预设次数(如10次),即认为训练结束,将包括此时权重的神经网络模型确定为学习结果,进入运行态使用。在如图4所示的NFVO运行态,将目标故障告警信息(即当前在预设时间窗T内连续性接收的故障告警信息)作为告警输入Xi,在经故障输入处理后,输入到神经网络模型(即设计态得到的目标神经网络模型),而对于神经网络模型的输出结果Yi,会上报结果信息至OSS,和/或执行故障处理,消除故障。另外,在NFVO运行态,对于输出结果Yi,也会基于公式E=∑[Yi-Yi']2进行误差判断,并在E>0时对预测失败计数器进行加1计数,当预设失败次数大于第二预设次数(如5次),即认为当前神经网络模型失效,返回设计态,更新权重,并重新将故障告警采样数据输入神经网络模型,再次训练。此时,误差判断使用的实际故障Yi’往往是系统管理员启动自检查模式,在确定NFV系统实际故障后反馈的。
其中,故障输入处理为对输入的初步处理过程,可包括去干扰、分类等。
需要知道的是,NFVO能够接收VIM、PIM和EMS的故障告警信息,因此,无需更改NFVO与VIM、PIM和EMS间的结构,而为了将故障分析结果对应的结果信息上报,上报结果信息格式如下表1所示:
Figure BDA0001842870940000091
Figure BDA0001842870940000101
表1
而对于NFVO对应故障分析结果的故障处理,主要是通知系统内设备进行自愈操作消除故障,NFVO会向VNFM、VIM和PIM下发处理指令,需支持以下接口定义(包括但不限于):
·PIM自愈接口(如服务器重新启动、交换机重启、磁振重启等);
·VM自愈接口(包括VM re-built,VM re-boot,VM migration等);
·VIM自愈(包括service重启、HA-Proxy重启、pacemaker重启等);
·VNF自愈(包括VNF重启等)。
由上述内容可知,NFVO要实现本发明实施例的故障告警信息处理方法,需支持对多个故障报警的整理,使其满足神经网络模型输入要求;需支持自动将实际故障反馈进行误差判断的能力,也可支持由管理员输入实际故障反馈的能力;需支持由误差判断结果驱动由运行态到设计态、由设计态到运行态转变的能力。同时,该转变不应影响当前已在NFV系统运行的网元的正常操作。
另外,如图5所示,对于独立于NFVO和OSS的故障告警信息处理装置,会增加其与NFVO、EMS、软件定义网络SDN控制器以及OSS的接口。其中,因需要从NFVO、SDN控制器和EMS拿到故障告警数据,定义了故障告警接口。
可选地,所述故障告警信息包括:告警标题、告警状态、事件发生时间、告警唯一标识、告警设备身份标识UID、告警设备名称、告警设备类型以及告警设备的虚实性。
可选地,所述故障告警信息还包括:告警原始级别。
因此,独立于NFVO和OSS的故障告警信息处理装置,其故障告警接口定义如下表2所示:
Figure BDA0001842870940000111
Figure BDA0001842870940000121
表2
独立于NFVO和OSS的故障告警信息处理装置,在学习阶段对神经网络模型进行训练,之后可接收NFVO收集后发送的故障告警信息,进行故障分析。而在获得故障分析结果后,上报结果信息或者进行故障处理。此时,独立于NFVO和OSS的故障告警信息处理装置会经与OSS构建的接口上报结果信息,该结果信息如上表1所示,在此不再赘述。对于故障处理的实现,独立于NFVO和OSS的故障告警信息处理装置,是依赖NFVO实现的,需定义与NFVO的自愈接口,向NFVO发布系统自愈建议。具体地,发送携带用于系统自主消除故障的自愈信息的处理指令至NFVO。
可选地,在该实施例中,所述目标设备为网络功能虚拟化编排器NFVO,
所述处理指令包括:自愈标题、自愈类别、自愈具体操作、自愈唯一标识、自愈设备UID、自愈设备名称以及自愈设备类型。
所述处理指令还包括:自愈时间。
独立于NFVO和OSS的故障告警信息处理装置,其下发的处理指令包括的信息项如下表3所示:
Figure BDA0001842870940000131
Figure BDA0001842870940000141
表3
NFVO接收到包括上述信息项的处理指令后,会对应将具体的自愈操作作为处理指令下发给VNFM、VIM、PIM,此时,NFVO需支持的接口与NFVO在对应故障分析结果的故障处理下发处理指令的接口相同,不再赘述。
综上所述,本发明实施例的故障告警信息处理方法,在获取目标故障告警信息后,就能够结合学习阶段的学习结果,进行分析,从而得到故障分析结果,减少了对人工经验的依赖程度,简化了处理流程,缩短了处理时间,提升了处理效率,具有更佳的灵活性,实现了NFV系统的自动化运维。
如图6所示,本发明实施例的一种故障告警信息处理设备600,包括处理器610和收发器620,其中,
所述收发器620用于获取目标故障告警信息;
所述处理器610用于根据所述目标故障告警信息以及在学习阶段的学习结果,获得故障分析结果。
可选地,所述处理器610还用于根据所述故障分析结果,上报结果信息或者进行故障处理。
可选地,所述收发器620还用于将在预设时间窗内,连续性接收的故障告警信息作为目标故障告警信息。
可选地,所述处理器610还用于:
在学习阶段,将故障告警采样数据输入神经网络模型,并获得输出结果;
根据所述输出结果进行误差判断;
在判断结果指示预测失败的情况下,更新所述神经网络模型的权重,并重新将故障告警采样数据输入神经网络模型;
在判断结果指示预测成功且预测成功次数大于第一预设次数的情况下,将目标神经网络模型确定为学习结果,所述目标神经网络模型包括预测成功时的权重。
可选地,所述处理器610还用于:
将所述目标故障告警信息输入到所述目标神经网络模型;
将所述目标神经网络模型的输出结果作为故障分析结果。
可选地,所述处理器610还用于:
根据所述输出结果进行误差判断;
在判断结果指示预测失败且预设失败次数大于第二预设次数的情况下,反馈学习阶段,更新权重,并重新将故障告警采样数据输入神经网络模型。
可选地,所述处理器610还用于:
根据公式E=∑[Yi-Yi']2,得到判断标准值E;其中,Yi为输出结果,Yi’为实际故障;
若E大于预设阈值,则预测失败;若E等于预设阈值,则预测成功。
可选地,所述故障告警信息包括:告警标题、告警状态、事件发生时间、告警唯一标识、告警设备身份标识UID、告警设备名称、告警设备类型以及告警设备的虚实性。
可选地,所述故障告警信息还包括:告警原始级别。
可选地,所述收发器620还用于:发送处理指令至目标设备。
可选地,所述目标设备为网络功能虚拟化编排器NFVO,
所述处理指令包括:自愈标题、自愈类别、自愈具体操作、自愈唯一标识、自愈设备UID、自愈设备名称以及自愈设备类型。
可选地,所述处理指令还包括:自愈时间。
可选地,所述结果信息包括:故障标题、故障状态、事件发生时间、故障唯一标识、故障设备UID、故障设备名称以及故障设备类型。
可选地,所述结果信息还包括:故障原始级别。
本发明实施例的故障告警信息处理设备,在获取目标故障告警信息后,就能够结合学习阶段的学习结果,进行分析,从而得到故障分析结果,减少了对人工经验的依赖程度,简化了处理流程,缩短了处理时间,提升了处理效率,具有更佳的灵活性,实现了NFV系统的自动化运维。
本发明另一实施例的故障告警信息处理设备,如图7所示,包括收发器710、存储器720、处理器700及存储在所述存储器720上并可在所述处理器700上运行的计算机程序;所述处理器700执行所述计算机程序时实现上述故障告警信息处理方法。
所述收发器710,用于在处理器700的控制下接收和发送数据。
其中,在图7中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器700代表的一个或多个处理器和存储器720代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发器710可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元。处理器700负责管理总线架构和通常的处理,存储器720可以存储处理器700在执行操作时所使用的数据。
本发明实施例的一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的故障告警信息处理方法中的步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
进一步需要说明的是,此说明书中所描述的终端包括但不限于智能手机、平板电脑等,且所描述的许多功能部件都被称为模块,以便更加特别地强调其实现方式的独立性。
本发明实施例中,模块可以用软件实现,以便由各种类型的处理器执行。举例来说,一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块,举例来说,其可以被构建为对象、过程或函数。尽管如此,所标识模块的可执行代码无需物理地位于一起,而是可以包括存储在不同位里上的不同的指令,当这些指令逻辑上结合在一起时,其构成模块并且实现该模块的规定目的。
实际上,可执行代码模块可以是单条指令或者是许多条指令,并且甚至可以分布在多个不同的代码段上,分布在不同程序当中,以及跨越多个存储器设备分布。同样地,操作数据可以在模块内被识别,并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集,或者可以分布在不同位置上(包括在不同存储设备上),并且至少部分地可以仅作为电子信号存在于系统或网络上。
在模块可以利用软件实现时,考虑到现有硬件工艺的水平,所以可以以软件实现的模块,在不考虑成本的情况下,本领域技术人员都可以搭建对应的硬件电路来实现对应的功能,所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备,诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。
上述范例性实施例是参考该些附图来描述的,许多不同的形式和实施例是可行而不偏离本发明精神及教示,因此,本发明不应被建构成为在此所提出范例性实施例的限制。更确切地说,这些范例性实施例被提供以使得本发明会是完善又完整,且会将本发明范围传达给那些熟知此项技术的人士。在该些图式中,组件尺寸及相对尺寸也许基于清晰起见而被夸大。在此所使用的术语只是基于描述特定范例性实施例目的,并无意成为限制用。如在此所使用地,除非该内文清楚地另有所指,否则该单数形式“一”、“一个”和“该”是意欲将该些多个形式也纳入。会进一步了解到该些术语“包含”及/或“包括”在使用于本说明书时,表示所述特征、整数、步骤、操作、构件及/或组件的存在,但不排除一或更多其它特征、整数、步骤、操作、构件、组件及/或其族群的存在或增加。除非另有所示,陈述时,一值范围包含该范围的上下限及其间的任何子范围。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (24)

1.一种故障告警信息处理方法,其特征在于,包括:
获取目标故障告警信息;所述目标故障告警信息为预设时间窗内连续性接收的故障告警信息;
根据所述目标故障告警信息以及在学习阶段的学习结果,获得故障分析结果;
在根据所述目标故障告警信息以及在学习阶段的学习结果,获得故障分析结果之前,所述方法还包括:
在学习阶段,将故障告警采样数据输入神经网络模型,并获得输出结果;
根据所述输出结果进行误差判断;
在判断结果指示预测失败的情况下,更新所述神经网络模型的权重,并重新将故障告警采样数据输入神经网络模型;
在判断结果指示预测成功且预测成功次数大于第一预设次数的情况下,将目标神经网络模型确定为学习结果,进入运行态使用,所述目标神经网络模型包括预测成功时的权重;
所述根据所述目标故障告警信息以及在学习阶段的学习结果,获得故障分析结果,包括:
将所述目标故障告警信息输入到所述目标神经网络模型;
将所述目标神经网络模型的输出结果作为故障分析结果;
其中,所述目标神经网络模型通过所述学习阶段经训练得到;
在将所述目标神经网络模型的输出结果作为故障分析结果之前,还包括:
根据所述输出结果进行误差判断;
在判断结果指示预测失败且预设失败次数大于第二预设次数的情况下,返回学习阶段,更新权重,并重新将故障告警采样数据输入神经网络模型;
若预测成功,继续使用目标神经网络模型用于对后续目标故障告警信息的故障分析。
2.如权利要求1所述的方法,其特征在于,在获得故障分析结果后,所述方法还包括:
根据所述故障分析结果,上报结果信息或者进行故障处理。
3.如权利要求1所述的方法,其特征在于,获取目标故障告警信息,包括:
将在预设时间窗内,连续性接收的故障告警信息作为目标故障告警信息。
4.如权利要求1所述的方法,其特征在于,根据所述输出结果进行误差判断,包括:
根据公式E=∑[Yi-Yi']2,得到判断标准值E;其中,Yi为输出结果,Yi’为实际故障;
若E大于预设阈值,则预测失败;若E等于预设阈值,则预测成功。
5.如权利要求1所述的方法,其特征在于,所述故障告警信息包括:告警标题、告警状态、事件发生时间、告警唯一标识、告警设备身份标识UID、告警设备名称、告警设备类型以及告警设备的虚实性。
6.如权利要求5所述的方法,其特征在于,所述故障告警信息还包括:告警原始级别。
7.如权利要求2所述的方法,其特征在于,根据所述故障分析结果进行故障处理,包括:
发送处理指令至目标设备。
8.如权利要求7所述的方法,其特征在于,所述目标设备为网络功能虚拟化编排器NFVO,
所述处理指令包括:自愈标题、自愈类别、自愈具体操作、自愈唯一标识、自愈设备UID、自愈设备名称以及自愈设备类型。
9.如权利要求8所述的方法,其特征在于,所述处理指令还包括:自愈时间。
10.如权利要求2所述的方法,其特征在于,所述结果信息包括:故障标题、故障状态、事件发生时间、故障唯一标识、故障设备UID、故障设备名称以及故障设备类型。
11.如权利要求10所述的方法,其特征在于,所述结果信息还包括:故障原始级别。
12.一种故障告警信息处理设备,其特征在于,包括处理器和收发器,其中,
所述收发器用于获取目标故障告警信息;所述目标故障告警信息为预设时间窗内连续性接收的故障告警信息;
所述处理器用于根据所述目标故障告警信息以及在学习阶段的学习结果,获得故障分析结果;
所述处理器还用于:
在学习阶段,将故障告警采样数据输入神经网络模型,并获得输出结果;
根据所述输出结果进行误差判断;
在判断结果指示预测失败的情况下,更新所述神经网络模型的权重,并重新将故障告警采样数据输入神经网络模型;
在判断结果指示预测成功且预测成功次数大于第一预设次数的情况下,将目标神经网络模型确定为学习结果,进入运行态使用,所述目标神经网络模型包括预测成功时的权重;
所述根据所述目标故障告警信息以及在学习阶段的学习结果,获得故障分析结果,包括:
将所述目标故障告警信息输入到所述目标神经网络模型;
将所述目标神经网络模型的输出结果作为故障分析结果;
其中,所述目标神经网络模型通过所述学习阶段经训练得到;
在将所述目标神经网络模型的输出结果作为故障分析结果之前,所述处理器还用于:
根据所述输出结果进行误差判断;
在判断结果指示预测失败且预设失败次数大于第二预设次数的情况下,返回学习阶段,更新权重,并重新将故障告警采样数据输入神经网络模型;
若预测成功,继续使用目标神经网络模型用于对后续目标故障告警信息的故障分析。
13.如权利要求12所述的故障告警信息处理设备,其特征在于,
所述处理器还用于根据所述故障分析结果,上报结果信息或者进行故障处理。
14.如权利要求12所述的故障告警信息处理设备,其特征在于,
所述收发器还用于将在预设时间窗内,连续性接收的故障告警信息作为目标故障告警信息。
15.如权利要求12所述的故障告警信息处理设备,其特征在于,所述处理器还用于:
根据公式E=∑[Yi-Yi']2,得到判断标准值E;其中,Yi为输出结果,Yi’为实际故障;
若E大于预设阈值,则预测失败;若E等于预设阈值,则预测成功。
16.如权利要求12所述的故障告警信息处理设备,其特征在于,所述故障告警信息包括:告警标题、告警状态、事件发生时间、告警唯一标识、告警设备身份标识UID、告警设备名称、告警设备类型以及告警设备的虚实性。
17.如权利要求16所述的故障告警信息处理设备,其特征在于,所述故障告警信息还包括:告警原始级别。
18.如权利要求13所述的故障告警信息处理设备,其特征在于,
所述收发器还用于:发送处理指令至目标设备。
19.如权利要求18所述的故障告警信息处理设备,其特征在于,所述目标设备为网络功能虚拟化编排器NFVO,
所述处理指令包括:自愈标题、自愈类别、自愈具体操作、自愈唯一标识、自愈设备UID、自愈设备名称以及自愈设备类型。
20.如权利要求19所述的故障告警信息处理设备,其特征在于,所述处理指令还包括:自愈时间。
21.如权利要求13所述的故障告警信息处理设备,其特征在于,所述结果信息包括:故障标题、故障状态、事件发生时间、故障唯一标识、故障设备UID、故障设备名称以及故障设备类型。
22.如权利要求21所述的故障告警信息处理设备,其特征在于,所述结果信息还包括:故障原始级别。
23.一种故障告警信息处理设备,包括收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-11任一项所述的故障告警信息处理方法。
24.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-11任一项所述的故障告警信息处理方法中的步骤。
CN201811256638.6A 2018-10-26 2018-10-26 一种故障告警信息处理方法及设备 Active CN111106944B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811256638.6A CN111106944B (zh) 2018-10-26 2018-10-26 一种故障告警信息处理方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811256638.6A CN111106944B (zh) 2018-10-26 2018-10-26 一种故障告警信息处理方法及设备

Publications (2)

Publication Number Publication Date
CN111106944A CN111106944A (zh) 2020-05-05
CN111106944B true CN111106944B (zh) 2023-01-03

Family

ID=70417755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811256638.6A Active CN111106944B (zh) 2018-10-26 2018-10-26 一种故障告警信息处理方法及设备

Country Status (1)

Country Link
CN (1) CN111106944B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111740868B (zh) * 2020-07-07 2023-12-15 腾讯科技(深圳)有限公司 告警数据的处理方法和装置及存储介质
CN112087323B (zh) * 2020-08-19 2021-08-10 烽火通信科技股份有限公司 告警相关性分析方法、装置、设备及可读存储介质
CN112087334B (zh) * 2020-09-09 2022-10-18 中移(杭州)信息技术有限公司 告警根因分析方法、电子设备和存储介质
CN114584452A (zh) * 2020-11-16 2022-06-03 华为技术服务有限公司 处理故障的方法、装置及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102130783A (zh) * 2011-01-24 2011-07-20 浪潮通信信息系统有限公司 神经网络的智能化告警监控方法
CN105471643A (zh) * 2015-11-30 2016-04-06 中国联合网络通信集团有限公司 一种应用于nfv网络的告警关联方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10027530B2 (en) * 2015-10-30 2018-07-17 Telefonaktiebolaget Lm Ericsson (Publ) System and method for troubleshooting SDN networks using flow statistics

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102130783A (zh) * 2011-01-24 2011-07-20 浪潮通信信息系统有限公司 神经网络的智能化告警监控方法
CN105471643A (zh) * 2015-11-30 2016-04-06 中国联合网络通信集团有限公司 一种应用于nfv网络的告警关联方法及系统

Also Published As

Publication number Publication date
CN111106944A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN111106944B (zh) 一种故障告警信息处理方法及设备
US10579459B2 (en) Log events for root cause error diagnosis
EP2828765B1 (en) Cluster wide consistent detection of interconnect failures
US11625315B2 (en) Software regression recovery via automated detection of problem change lists
EP3575975A1 (en) Method and apparatus for operating smart network interface card
CN103201724A (zh) 在高可用性虚拟机环境中提供高可用性应用程序
US9355005B2 (en) Detection apparatus and detection method
CN112506702B (zh) 数据中心容灾方法、装置、设备及存储介质
CN113132144B (zh) 一种告警处理方法、装置以及存储介质
CN113704052B (zh) 一种微服务架构的运维系统、方法、设备及介质
CN105051692A (zh) 通过隔离的自动化故障处理
CN111224970A (zh) Sdn网络系统、网络攻击防御方法、设备及存储介质
CN109828945B (zh) 一种业务报文处理方法及系统
CN114172803A (zh) 基于以太网交换技术的多fpga版本控制和配置系统及方法
CN112817883A (zh) 接口平台的适配方法、设备、系统及计算机可读存储介质
KR101026637B1 (ko) 센서 네트워크에서 결함을 치유하는 방법 및 이를 실행하기위한 센서 네트워크
CN113169903A (zh) 同时测试经由通信网络连接的多个电子设备是否正确处理异常
CN110569163A (zh) 监测伸缩组内云主机健康状态的方法、装置、设备及介质
CN115495195A (zh) 一种数据处理方法、装置及相关设备
CN114500327A (zh) 一种服务器集群的检测方法、检测装置及计算设备
CN110474787B (zh) 一种节点故障检测方法和装置
KR19980026888A (ko) 비동기식전송방식(atm) 장치에서 단순망관리규약(snmp)을 사용한 원격지에서의 장애관리방법
CN107608483B (zh) 一种控制服务器风扇的方法及装置
CN115297012B (zh) Sdn控制器的离线测试方法、装置、控制器及介质
CN109218129A (zh) 一种基于日志的升级检测方法、装置、存储器及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant