CN115865611A - 一种网络设备的故障处理方法、装置及电子设备 - Google Patents

一种网络设备的故障处理方法、装置及电子设备 Download PDF

Info

Publication number
CN115865611A
CN115865611A CN202111122565.3A CN202111122565A CN115865611A CN 115865611 A CN115865611 A CN 115865611A CN 202111122565 A CN202111122565 A CN 202111122565A CN 115865611 A CN115865611 A CN 115865611A
Authority
CN
China
Prior art keywords
alarm
target
relationship
training
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111122565.3A
Other languages
English (en)
Inventor
章喀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Henan Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Henan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Henan Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202111122565.3A priority Critical patent/CN115865611A/zh
Publication of CN115865611A publication Critical patent/CN115865611A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例提供了一种网络设备的故障处理方法、装置及电子设备,该方法包括:获取目标网络设备的告警信息,并从告警关系集合中确定目标告警关系;其中,所述目标网络设备为预设的存在关联的网络设备,所述告警关系集合中的告警关系用于指示存在依赖关系的告警信息;根据所述告警信息,通过与所述目标告警关系对应的故障预测模型,得到在所述目标告警关系下的故障预测结果;其中,所述故障预测模型为,以所述目标告警关系对应的告警训练消息为样本,进行训练得到的。通过本发明实施例,实现了快速对故障根因进行定位并对可能产生的故障或告警进行及时预警,向运维管理人员给出可能将要发生的其他故障。

Description

一种网络设备的故障处理方法、装置及电子设备
技术领域
本发明涉及网络设备技术领域,尤其涉及一种网络设备的故障处理方法、装置及电子设备。
背景技术
现有的对网络设备进行告警监控的过程中,故障管理处于故障运维的中间环节,主要负责的工作是采集各类告警信息,并对告警信息进行业务填充、运维标准化填充。同时,对告警进行关联分析、预处理操作、消息通知、故障派单等操作。以告警流水窗的形式呈现当前告警,选择告警过滤器,告警流水支持进一步查看告警详情与派单状态等信息。
运维人员在接到故障派单后,运维人员花费大量时间都用来定位故障根因,传统的故障预处理规则,都是通过经验梳理,以需求的方式进行驱动建设,受限于厂家开发能力、建设周期等情况影响。5G网络的到来,多张网络并存将使得网络结构更加复杂,对运维人员能力提出了更高的要求,无法快速对故障根因进行定位并对故障进行及时预警。
发明内容
本发明实施例的目的是提供一种网络设备的故障处理方法、装置及电子设备,以解决无法快速对故障根因进行定位并对故障进行及时预警的问题。
为了解决上述技术问题,本发明实施例是这样实现的:
第一方面,本发明实施例提供了一种网络设备的故障处理方法,包括:
获取目标网络设备的告警信息,并从告警关系集合中确定目标告警关系;其中,所述目标网络设备为预设的存在关联的网络设备,所述告警关系集合中的告警关系用于指示存在依赖关系的告警信息;
根据所述告警信息,通过与所述目标告警关系对应的故障预测模型,得到在所述目标告警关系下的故障预测结果;其中,所述故障预测模型为,以所述目标告警关系对应的告警训练消息为样本,进行训练得到的。
第二方面,本发明实施例提供了一种网络设备的故障处理装置,包括:
采集模块,用于获取目标网络设备的告警信息,并从告警关系集合中确定目标告警关系;其中,所述目标网络设备为预设的存在关联的网络设备,所述告警关系集合中的告警关系用于指示存在依赖关系的告警信息;
执行模块,用于根据所述告警信息,通过与所述目标告警关系对应的故障预测模型,得到在所述目标告警关系下的故障预测结果;其中,所述故障预测模型为,以所述目标告警关系对应的告警训练消息为样本,进行训练得到的。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线;其中,所述处理器、所述通信接口以及所述存储器通过总线完成相互间的通信;所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存放的程序,实现如第一方面所述的网络设备的故障处理方法步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如第一方面所述的网络设备的故障处理方法步骤。
由以上本发明实施例提供的技术方案可见,本发明实施例通过获取目标网络设备的告警信息,并从告警关系集合中确定目标告警关系;其中,所述目标网络设备为预设的存在关联的网络设备,所述告警关系集合中的告警关系用于指示存在依赖关系的告警信息;根据所述告警信息,通过与所述目标告警关系对应的故障预测模型,得到在所述目标告警关系下的故障预测结果;其中,所述故障预测模型为,以所述目标告警关系对应的告警训练消息为样本,进行训练得到的。通过本发明实施例,实现了快速对故障根因进行定位并对可能产生的故障或告警进行及时预警,向运维管理人员给出可能将要发生的其他故障。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的网络设备的故障处理方法的一种流程示意图;
图2为本发明实施例提供的网络设备的故障处理方法的另一种流程示意图;
图3为本发明实施例提供的网络设备的故障处理方法的另一种流程示意图
图4为本发明实施例提供的网络设备的故障处理装置的结构示意图;
图5为本发明实施例提供的电子设备的结构示意图。
具体实施方式
本发明实施例提供了一种网络设备的故障处理方法、装置及电子设备。
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
如图1所示,本发明实施例提供一种网络设备的故障处理方法,该方法的执行主体可以为服务器,其中,该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群,而且,该服务器可以是能够进行网络操作处理的数据处理平台等。该方法具体可以包括以下步骤:
步骤S110、获取目标网络设备的告警信息,并从告警关系集合中确定目标告警关系;其中,所述目标网络设备为预设的存在关联的网络设备,所述告警关系集合中的告警关系用于指示存在依赖关系的告警信息。
服务器可实时获取到各网络设备的告警信息,并从中确定目标网络设备的告警信息。
所述目标网络设备可以为预先通过设置选定的网络设备,也可以是根据实时获取到的告警信息对应的网络设备确定的,例如,可根据在预设时间窗口内获取到的告警信息对应的网络设备和关联的网络设备来确定目标网络设备。
服务器预先保存有告警关系集合,可以表示为R={r1,r2,…,rn},其中,ri为告警关系,n表示告警关系的数量。
所述告警关系用于指示存在依赖关系的告警信息,具体可以通过告警信息的标题或告警类型进行关联。在一种实施方式中,所述告警关系可以是针对特定网络设备间的告警关系,也可以是针对所有网络设备的告警关系。
所述目标网络关系可以为预先通过设置选定的网络关系,也可以是根据实时获取到的告警信息确定的,例如可根据预设时间窗口内获取到的告警信息的标题或告警类型从告警关系集合中筛选出适用的目标网络关系。
步骤S120、根据所述告警信息,通过与所述目标告警关系对应的故障预测模型,得到在所述目标告警关系下的故障预测结果;其中,所述故障预测模型为,以所述目标告警关系对应的告警训练消息为样本,进行训练得到的。
服务器预先构建并训练了故障预测模型,所述故障预测模型可适用于所有的网络设备和所有的告警关系,也可以分别适用于不同的网络设备或不同的告警关系。
应理解的是,所述故障预测模型可以通过模型设计平台,例如人工智能(AI)平台,进行管理,所述AI平台包括数据处理、数据训练、数据标注、模型输出等能力。通过AI平台进行对故障预测模型的数据训练、数据标注、模型输出、模型测试,并通过设计态完成模型的发布工作。AI平台完成对故障预测模型的训练后,服务器可通过AI平台提供的接口,将故障预测模型的信息同步至服务器的模型管理模块。在运行态通过模型管理模块根据业务需求进行规则的制定。通过实时监控模块或历史告警信息模块,根据故障预测模型进行故障的预警和分析。
应理解的是,对所述故障预测模型的管理,可以根据不同的条件,如模型名称、模型类型、专业、创建人、是否启用等进行模型的多维检索功能,并提供各故障预测模型的详情、修改、删除功能。故障预测模型信息可以包括模型编号、模型名称、模型分类、模型描述、专业、是否验证、是否发布、版本、创建人、创建时间、更新时间。
应理解的是,对故障预测模型的验证,可利用样本数据、验证方法对导入的故障预测模型进行准确性验证,故障专家可以根据验证结果对验证结果进行人工确认,确认验证通过的模型可以进行发布。其中,样本数据可根据实际的需要进行选择,通过查询特定的样本数据,选择合适的样本数据对故障预测模型进行验证,并可以查看样本数据详情,并支持删除操作。所述验证方法,可通过泛化误差验证数据的误差。选择完样本数据后,可根据不同的故障预测模型选择合适的验证方法,如泛化误差、ROC曲线、KS检验等,对模型的准确性进行评估验证。
服务器将实时获取到的告警信息输入到根据目标告警关系调用的故障预设模型中,输出得到的故障预测结果可包括在所述目标告警关系下最可能发生的告警和其他可能的告警,以及各告警发生要概率等,从而向运维管理人员给出可能将要发生的其他故障,并可进一步推送故障处理意见和建议。
由以上本发明实施例提供的技术方案可见,本发明实施例通过获取目标网络设备的告警信息,并从告警关系集合中确定目标告警关系;其中,所述目标网络设备为预设的存在关联的网络设备,所述告警关系集合中的告警关系用于指示存在依赖关系的告警信息;根据所述告警信息,通过与所述目标告警关系对应的故障预测模型,得到在所述目标告警关系下的故障预测结果;其中,所述故障预测模型为,以所述目标告警关系对应的告警训练消息为样本,进行训练得到的。通过本发明实施例,实现了快速对故障根因进行定位并对可能产生的故障或告警进行及时预警,向运维管理人员给出可能将要发生的其他故障。
基于上述实施例,进一步的,如图2所示,在步骤S110之前,所述故障预测模型的训练方法有很多,本申请实施例仅给出了其中的一种实施方式。
步骤S101、将所述目标告警关系ri下的告警训练消息按照时间进行排序,得到告警训练消息的序列集Ai={ai1,ai2,…,aim},i=1,2,…,n。其中,aij是目标告警关系ri下时刻j的告警信息,所述告警信息中可以包含对应的网络设备,例如,ai1为时刻1的告警信息,ai2时刻2的告警信息,且时刻1不晚于时刻2,依次类推从而组成序列集Ai
步骤S102、通过设置窗口值w=2,3,…,将序列集Ai中的告警训练消息划分为多个训练组,形成新的序列集Ai′,并以各训练组中最后一个告警训练消息为标签,其它告警训练消息为样本,对所述目标告警关系的故障预测模型进行训练。
以w=3为例对所述序列集Ai进行分组,形成的新的序列集A′i={(ai1,ai2,ai3),(ai2,ai3,ai4)…,(aim-2,aim-1,aim)},即每个分组为一个三元组。以此,来构建故障预测模型,以每个三元组的前两个告警训练消息作为的模型输入的样本,最后一个告警训练消息作为标签对所述故障预测模型进行训练。具体的训练方法有很多,例如可利用贝叶斯法训练,可以得到告警关系ri下不同窗口值w时训练后的故障预测模型的集合M={m1,m2,…,mk},k=1,2,…。
步骤S103、根据预设的评估方法,将各窗口值下训练完成的所述目标告警关系的故障预测模型进行比较,并根据比较结果确定所述目标告警关系的故障预测模型。
对故障预测模型进行评估的方法可以多种多样,本申请实施例仅给出了其中的一种评估方法。根据10折交叉验证(10-fold cross-validation)利用相同的评估方法从故障预测模型的集合M中选择最好的一个模型mbest作为告警关系ri下的故障预测模型。
在一种实施方式中,可以分别在告警关系ri下针对不同的窗口值w分别评估得到一个模型mbest作为告警关系ri下该窗口值w对应的故障预测模型,并在应用该故障预测模型进行故障预测时。根据目标告警关系和选定的窗口值调用故障预测模型来进行故障预测。
应理解的是,所述10-fold cross-validation是将样本数据集分成十分,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证,例如10次10折交叉验证,再求其均值,作为对算法准确性的估计。
由以上本发明实施例提供的技术方案可见,本发明实施例通过将所述目标告警关系下的告警训练消息按照时间进行排序,得到告警训练消息的序列集;通过设置窗口值将序列集中的告警训练消息划分为多个训练组,并以各训练组中最后一个告警训练消息为标签,其它告警训练消息为样本,对所述目标告警关系的故障预测模型进行训练;根据预设的评估方法,将各窗口值下训练完成的所述目标告警关系的故障预测模型进行比较,并根据比较结果确定所述目标告警关系的故障预测模型。通过本发明实施例,实现了针对不同告警关系下故障预测模型的训练,从而能够根据实际的情况对故障进行灵活、准确地预测。
基于上述实施例,进一步的,如图3所示,在所述步骤S101之前,所述方法还包括:
步骤S1001、确定存在关联的网络设备和目标告警类型,以及所述存在关联的网络设备对应的告警信息。
确定各网络设备的关联关系的方法有很多,在一种实施方式中,可以根据基站来进行确认,将与同一基站连接的网络设备作为存在关联的网络设备。在实际应用过程,可以先对每个基站所对应的网络设备的数量进行统计,从中选择合适的基站,然后将与该基站对应的网络设备确定为存在关联的网络设备。例如,可以选择对应的网络设备的数量超过预设阈值或者在一定区域内对应的网络设备的数量排名前例的基站作为合适的基站。
应理解的是,所述目标告警类型可以根据与所述关联的网络设备产生的告警信息来确认的多个告警类型。在一种实施方式中,可以先统计所述关联的网络设备产生的所有告警信息的告警类型,从而筛选出需要处理的告警类型,例如,从中筛选出对应告警信息的数量最多的告警类型,或者是与预设的主要告警类型相同或相关的告警类型。例如,目标告警类型为以下10种告警类型:{BBUCPRI接口异常告警,NR小区不可用告警,射频单元维护链路异常告警,射频单元温度异常告警,射频单元直流掉电告警,网元连接中断,射频单元硬件故障告警,射频单元光接口性能恶化告警,射频单元CPRI接口异常告警,小区不可用告警}。
步骤S1002、根据预设的周期,在各周期内的所述存在关联的网络设备对应的告警信息中,统计各目标告警类型对应的告警信息的数量,得到各周期的统计向量,并合并为统计矩阵。
先对所有的告警信息进行预处理,将时间标识INSERTTIME统一格式,并去除无效告警信息,统一后的时间标识可以表示为“%Y-%m-%d%H:%M:%S”。
根据时间标识按照发发生时间先后进行排序,并根据预设周期,例如每5分钟,统计各目标告警类型对应的告警信息的数量,得到各周期的统计向量。再将各统计向量根据时间进行合并,得到统计矩阵,并保存为npy矩阵,所述npy矩阵举例如下:
Figure BDA0003277500150000071
在如上所示的npy矩阵中包括22044条统计向量。
步骤S1003、根据所述统计矩阵,得到各目标告警类型之间的有向无环图(Directed Acyclic Graph,DAG)。
统计矩阵中的统计向量是按照时间顺序排序。网络设备发生某条告警信息后,可能会引起其它关联的网络设备产生另一条告警信息。因此,根据统计矩阵指示的各目标告警类型发生的时间顺序,可以生成各目标告警类型之间的有向无环图。例如,根据如上所示的npy矩阵涉及到的10个目标告警类型,可以得到具有10个节点的有向无环图,从而根据所述有向无环图可以得到各目标告警类型之间的依赖关系。例如,若有向无环图中存在网元连接中断的节点向频射单元维护链路异常告警的节点的连线,则指示网元连接中断可能会引起频射单元维护链路异常告警。
步骤S1004、基于预设的打分方式,根据各有向无环图,训练得到因果关系图;其中,所述因果关系图用于指示各告警类型之间的依赖关系,并用于产生所述告警关系。
对有向无环图进行打分的方法有很多,例如,可通过如下所示的公式进行打分。
Figure BDA0003277500150000081
通过控制打分的上限和下限,不断调整参数,以及对结果的无环性约束,最终可以得一个d×d的邻接矩阵,d为目标告警类型的数量,也就是最终得到的因果关系图。
不同目标告警类型的因果关系图可以进行合并以得到全网的因果关系图。
通过对所述因果关系图的解析可以得到告警关系,从而组成告警关系集合,用于训练各告警关系下的故障预测模型。
由以上本发明实施例提供的技术方案可见,本发明实施例通过确定存在关联的网络设备和目标告警类型,以及所述存在关联的网络设备对应的告警信息;根据预设的周期,在各周期内的所述存在关联的网络设备对应的告警信息中,统计各目标告警类型对应的告警信息的数量,得到各周期的统计向量,并合并为统计矩阵;根据所述统计矩阵,得到各目标告警类型之间的有向无环图;基于预设的打分方式,根据各有向无环图,训练得到因果关系图;其中,所述因果关系图用于指示各告警类型之间的依赖关系,并用于产生所述告警关系。通过本发明实施例,实现了对告警关联规则的挖掘,得到各关联类型之间的依赖关系,以及告警关系集合,用于训练故障预测模型,从而提升对故障预测的准确性。
基于上述实施例,进一步地,所述方法还包括:
将各网络设备的资源数据、性能数据和告警信息进行关联,并通过可视化系统进行呈现。
所述资源数据具体可以为网络设备的设备信息和连接关系信息,例如:厂家信息、地域信息、网元信息、机房位置信息等。
所述性能数据具体可以为衡量网络设备运行性能的指标,例如,接通率、掉话率、上/下行速率、时延、CPU利用率等。
所述告警信息具体可以为网元发生故障时,监控单元将视故障级别给出的告警信息,并向监控中心发送。所述告警信息可以包含:发生时间、设备类型、网元名称、专业、告警标题、告警级别、告警消息正文等。
所述资源数据、性能数据和告警信息的关联方式有很多,在一种实施方式中,所述资源数据、性能数据和告警信息可以通过网络设备的标识,例如,网络设备的网元名称,进行关联。通过关联可以定位故障发生具体位置,可视化呈现在地理信息系统(GeographicInformation System,GIS)地图上,方便运维人员快速找到故障位置,消除故障。
在一种实施方式中,所述告警信息与资源数据的关联,可以通过资源管理系统进行关联,填充相关资源属性,对于一些无法直接定位资源的告警信息,通过告警与资源数据关联静态表、告警正文提取等方式进行资源数据关联填充。
在一种实施方式中,所述告警信息与性能数据的关联,可以通过网管系统接入实时性能数据文件,所述性能数据文件可以包含但不限于无线、核心、传输相关实时性能数据,并对性能数据进行原始网元粒度的数据汇聚,关联资源数据补充相关资源属性并入库,并提供给可视化系统。
在一种实施方式中,可将告警信息与投诉信息进行关联,通过接入全网网络投诉数据,结合实时告警信息对相关投诉号码及投诉地点位置信息的相关故障进行初步关联分析。
所述可视化系统可以为沙盘应用提供的GIS视图功能,按照地市整体呈现基准站分布,地市边界高亮显示。默认只呈现故障、离线基准站。GIS视图定位查询支持按照地址、经纬度搜索功能,快速定位到搜索位置。
所述可视化系统支持资源拓扑查看。通过在网络拓扑图上叠加告警信息、性能数据等实时信息,基于网络组网结构呈现网络运行实时信息,能够帮助运维管理人员分析和定位故障原因。
进一步地,所述方法还包括:
在所述可视化系统中,根据接收到的告警信息的告警级别,对所述告警信息对应的网络设备和/或网络设备间的连线进行渲染。
根据告警信息对拓扑图中的节点进行渲染。告警信息可以包括设备告警信息和性能告警信息。告警范围可以根据告警级别、告警标题等进行配置,配置要求同告警监控规范的过滤器设置。在一种实施方式中,可视化系统预先设置需要进行渲染的告警级别,例如,可以默认对一、二级告警对应的网络设备的节点进行渲染,并且每个网络设备的节点根据其最高级别告警信息进行渲染。所述告警监控规范的过滤器用于过滤掉较低告警级别的告警消息,例如,过滤掉三级、四级对业务无影响的告警信息,从而避免大量网络设备的节点在拓扑图上进行渲染。通过保留对网络影响较大,会造成业务中断或者业务质量下降的较高级级别的告警信息,例如,一、二级等紧急重要告警信息,以使运维管理人员重点关注。
在一种实施方式中,可视化系统中各节点间的连线可以支持根据相关性能指标是否超过门限,渲染相应颜色。例如,可视化系统支持四段门限,渲染颜色标准同告警渲染颜色。当某连线为聚合连线时,例如局向连线,根据该连线包含的所有连线的最高拥塞情况进行渲染。
根据电路代码查询电路拓扑数据进行呈现,并对出现告警信息的段落和网络设备的节点进行渲染。
进一步地,所述方法还包括:
在所述可视化系统中显示各网络设备的以下至少一项信息:
性能变化趋势;
关联告警列表,所述关联告警列表包括在预设时间窗口内存在依赖关系的告警信息;
告警信息的生命周期管理信息;
历史告警信息。
根据告警信息,可以检索和筛选出相关的基站和网络设备,并将其当前实时性能指标以及变化趋势进行汇总和记录,供决策者进行分析使用。支持同一指标、相同时间粒度的不同对象性能趋势图的比对,如不同地市、不同网络设备间的比对。可通过修改时间跨度来呈现更宏观或更详细的指标变化趋势。
关联告警列表可以包括在预设窗口时间内将具有相依赖关系的一组告警信息关联在一起,从而支撑告警定位分析。通过关联告警列表,可进行压缩派单,减少运维管理人员工单处理工作量。
所述关联告警列表的呈现方式可以多种多样,在一种实施方式中,所述关联告警列表可以以树状结构呈现,缺省仅列出主告警、衍生告警。点击主告警、衍生告警前面的“+”号,展开列出次告警和被衍生告警。点击主告警、衍生告警前面的“-”号,可收缩被关联告警。
通过告警信息的生命周期管理信息,实现对每一条告警信息从基站、操作维护中心(Operation and Maintenance Center,OMC)内部告警处理、集团全流程可视。其中,OMC内部告警处理环节包括数据采集、告警生成、标准化、工程标注、故障定位、关联全程可视,实现故障闭环监控能力。
服务器还可以提供历史告警信息发生情况查询功能。基于历史告警信息的相关性,对当前的告警信息的处理状态可能造成的影响进行预测判断,能够对未来可能发生的告警进行预警,从而实现故障的智能预测。
由以上本发明实施例提供的技术方案可见,本发明实施例通过将各网络设备的资源数据、性能数据和告警信息进行关联,并通过可视化系统进行呈现。通过本发明实施例,实现了对网络设备及告警信息的全方位图像呈现,有助于提升对故障的准确定位。
对应上述实施例提供的网络设备的故障处理方法,基于相同的技术构思,本发明实施例还提供了一种网络设备的故障处理装置,图4为本发明实施例提供的网络设备的故障处理装置的模块组成示意图,该网络设备的故障处理装置用于执行图1至图3描述的网络设备的故障处理方法,如图4所示,该网络设备的故障处理装置包括:采集模块401和执行模块402。
所述采集模块401用于获取目标网络设备的告警信息,并从告警关系集合中确定目标告警关系;其中,所述目标网络设备为预设的存在关联的网络设备,所述告警关系集合中的告警关系用于指示存在依赖关系的告警信息;所述执行模块402用于根据所述告警信息,通过与所述目标告警关系对应的故障预测模型,得到在所述目标告警关系下的故障预测结果;其中,所述故障预测模型为,以所述目标告警关系对应的告警训练消息为样本,进行训练得到的。
由以上本发明实施例提供的技术方案可见,本发明实施例通过获取目标网络设备的告警信息,并从告警关系集合中确定目标告警关系;其中,所述目标网络设备为预设的存在关联的网络设备,所述告警关系集合中的告警关系用于指示存在依赖关系的告警信息;根据所述告警信息,通过与所述目标告警关系对应的故障预测模型,得到在所述目标告警关系下的故障预测结果;其中,所述故障预测模型为,以所述目标告警关系对应的告警训练消息为样本,进行训练得到的。通过本发明实施例,实现了快速对故障根因进行定位并对可能产生的故障或告警进行及时预警,向运维管理人员给出可能将要发生的其他故障。
基于上述实施例,进一步地,所述执行模块还用于:
将所述目标告警关系下的告警训练消息按照时间进行排序,得到告警训练消息的序列集;
通过设置窗口值将序列集中的告警训练消息划分为多个训练组,并以各训练组中最后一个告警训练消息为标签,其它告警训练消息为样本,对所述目标告警关系的故障预测模型进行训练;
根据预设的评估方法,将各窗口值下训练完成的所述目标告警关系的故障预测模型进行比较,并根据比较结果确定所述目标告警关系的故障预测模型。
由以上本发明实施例提供的技术方案可见,本发明实施例将所述目标告警关系下的告警训练消息按照时间进行排序,得到告警训练消息的序列集;通过设置窗口值将序列集中的告警训练消息划分为多个训练组,并以各训练组中最后一个告警训练消息为标签,其它告警训练消息为样本,对所述目标告警关系的故障预测模型进行训练;根据预设的评估方法,将各窗口值下训练完成的所述目标告警关系的故障预测模型进行比较,并根据比较结果确定所述目标告警关系的故障预测模型。通过本发明实施例,实现了针对不同告警关系下故障预测模型的训练,从而能够根据实际的情况对故障进行灵活、准确地预测。
基于上述实施例,进一步地,所述执行模块还用于
确定存在关联的网络设备和目标告警类型,以及所述存在关联的网络设备对应的告警信息;
根据预设的周期,在各周期内的所述存在关联的网络设备对应的告警信息中,统计各目标告警类型对应的告警信息的数量,得到各周期的统计向量,并合并为统计矩阵;
根据所述统计矩阵,得到各目标告警类型之间的有向无环图;
基于预设的打分方式,根据各有向无环图,训练得到因果关系图;其中,所述因果关系图用于指示各告警类型之间的依赖关系,并用于产生所述告警关系。
由以上本发明实施例提供的技术方案可见,本发明实施例通过确定存在关联的网络设备和目标告警类型,以及所述存在关联的网络设备对应的告警信息;根据预设的周期,在各周期内的所述存在关联的网络设备对应的告警信息中,统计各目标告警类型对应的告警信息的数量,得到各周期的统计向量,并合并为统计矩阵;根据所述统计矩阵,得到各目标告警类型之间的有向无环图;基于预设的打分方式,根据各有向无环图,训练得到因果关系图;其中,所述因果关系图用于指示各告警类型之间的依赖关系,并用于产生所述告警关系。通过本发明实施例,实现了对告警关联规则的挖掘,得到各关联类型之间的依赖关系,以及告警关系集合,用于训练故障预测模型,从而提升对故障预测的准确性。
基于上述实施例,进一步地,所述执行模块还用于将各网络设备的资源数据、性能数据和告警信息进行关联,并通过可视化系统进行呈现。
进一步地,所述执行模块还用于在所述可视化系统中,根据接收到的告警信息的告警级别,对所述告警信息对应的网络设备和/或网络设备间的连线进行渲染。
进一步地,所述执行模块还用于在所述可视化系统中显示各网络设备的以下至少一项信息:
性能变化趋势;
关联告警列表,所述关联告警列表包括在预设时间窗口内存在依赖关系的告警信息;
告警信息的生命周期管理信息;
历史告警信息。
由以上本发明实施例提供的技术方案可见,本发明实施例通过将各网络设备的资源数据、性能数据和告警信息进行关联,并通过可视化系统进行呈现。通过本发明实施例,实现了对网络设备及告警信息的全方位图像呈现,有助于提升对故障的准确定位。
本发明实施例提供的网络设备的故障处理装置能够实现上述网络设备的故障处理方法对应的实施例中的各个过程,为避免重复,这里不再赘述。
需要说明的是,本发明实施例提供的网络设备的故障处理装置与本发明实施例提供的网络设备的故障处理方法基于同一发明构思,因此该实施例的具体实施可以参见前述网络设备的故障处理方法的实施,重复之处不再赘述。
对应上述实施例提供的网络设备的故障处理方法,基于相同的技术构思,本发明实施例还提供了一种电子设备,该电子设备用于执行上述的网络设备的故障处理方法,图5为实现本发明各个实施例的一种电子设备的结构示意图,如图5所示。电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器501和存储器502,存储器502中可以存储有一个或一个以上存储应用程序或数据。其中,存储器502可以是短暂存储或持久存储。存储在存储器502的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对电子设备中的一系列计算机可执行指令。更进一步地,处理器501可以设置为与存储器502通信,在电子设备上执行存储器502中的一系列计算机可执行指令。电子设备还可以包括一个或一个以上电源503,一个或一个以上有线或无线网络接口504,一个或一个以上输入输出接口505,一个或一个以上键盘506。
具体在本实施例中,电子设备包括有处理器、通信接口、存储器和通信总线;其中,所述处理器、所述通信接口以及所述存储器通过总线完成相互间的通信;所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存放的程序,实现以下方法步骤:
获取目标网络设备的告警信息,并从告警关系集合中确定目标告警关系;其中,所述目标网络设备为预设的存在关联的网络设备,所述告警关系集合中的告警关系用于指示存在依赖关系的告警信息;
根据所述告警信息,通过与所述目标告警关系对应的故障预测模型,得到在所述目标告警关系下的故障预测结果;其中,所述故障预测模型为,以所述目标告警关系对应的告警训练消息为样本,进行训练得到的。
本申请实施例还提供一种计算机可读存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现以下方法步骤:
获取目标网络设备的告警信息,并从告警关系集合中确定目标告警关系;其中,所述目标网络设备为预设的存在关联的网络设备,所述告警关系集合中的告警关系用于指示存在依赖关系的告警信息;
根据所述告警信息,通过与所述目标告警关系对应的故障预测模型,得到在所述目标告警关系下的故障预测结果;其中,所述故障预测模型为,以所述目标告警关系对应的告警训练消息为样本,进行训练得到的。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,电子设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、装置或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种网络设备的故障处理方法,其特征在于,所述方法包括:
获取目标网络设备的告警信息,并从告警关系集合中确定目标告警关系;其中,所述目标网络设备为预设的存在关联的网络设备,所述告警关系集合中的告警关系用于指示存在依赖关系的告警信息;
根据所述告警信息,通过与所述目标告警关系对应的故障预测模型,得到在所述目标告警关系下的故障预测结果;其中,所述故障预测模型为,以所述目标告警关系对应的告警训练消息为样本,进行训练得到的。
2.根据权利要求1所述的方法,其特征在于,在获取目标网络设备的告警信息之前,所述方法还包括:
将所述目标告警关系下的告警训练消息按照时间进行排序,得到告警训练消息的序列集;
通过设置窗口值将序列集中的告警训练消息划分为多个训练组,并以各训练组中最后一个告警训练消息为标签,其它告警训练消息为样本,对所述目标告警关系的故障预测模型进行训练;
根据预设的评估方法,将各窗口值下训练完成的所述目标告警关系的故障预测模型进行比较,并根据比较结果确定所述目标告警关系的故障预测模型。
3.根据权利要求2所述的方法,其特征在于,在将所述目标告警关系下的告警训练消息按照时间进行排序,得到告警训练消息的序列集之前,所述方法还包括:
确定存在关联的网络设备和目标告警类型,以及所述存在关联的网络设备对应的告警信息;
根据预设的周期,在各周期内的所述存在关联的网络设备对应的告警信息中,统计各目标告警类型对应的告警信息的数量,得到各周期的统计向量,并合并为统计矩阵;
根据所述统计矩阵,得到各目标告警类型之间的有向无环图;
基于预设的打分方式,根据各有向无环图,训练得到因果关系图;其中,所述因果关系图用于指示各告警类型之间的依赖关系,并用于产生所述告警关系。
4.根据权利要求1-3任一所述的方法,其特征在于,所述方法还包括:
将各网络设备的资源数据、性能数据和告警信息进行关联,并通过可视化系统进行呈现。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
在所述可视化系统中,根据接收到的告警信息的告警级别,对所述告警信息对应的网络设备和/或网络设备间的连线进行渲染。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
在所述可视化系统中显示各网络设备的以下至少一项信息:
性能变化趋势;
关联告警列表,所述关联告警列表包括在预设时间窗口内存在依赖关系的告警信息;
告警信息的生命周期管理信息;
历史告警信息。
7.一种网络设备的故障处理装置,其特征在于,所述装置包括:
采集模块,用于获取目标网络设备的告警信息,并从告警关系集合中确定目标告警关系;其中,所述目标网络设备为预设的存在关联的网络设备,所述告警关系集合中的告警关系用于指示存在依赖关系的告警信息;
执行模块,用于根据所述告警信息,通过与所述目标告警关系对应的故障预测模型,得到在所述目标告警关系下的故障预测结果;其中,所述故障预测模型为,以所述目标告警关系对应的告警训练消息为样本,进行训练得到的。
8.根据权利要求7所述的装置,其特征在于,所述执行模块还用于:
将所述目标告警关系下的告警训练消息按照时间进行排序,得到告警训练消息的序列集;
通过设置窗口值将序列集中的告警训练消息划分为多个训练组,并以各训练组中最后一个告警训练消息为标签,其它告警训练消息为样本,对所述目标告警关系的故障预测模型进行训练;
根据预设的评估方法,将各窗口值下训练完成的所述目标告警关系的故障预测模型进行比较,并根据比较结果确定所述目标告警关系的故障预测模型。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线;其中,所述处理器、所述通信接口以及所述存储器通过总线完成相互间的通信;所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存放的程序,实现如权利要求1-6任一项所述的网络设备的故障处理方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的网络设备的故障处理方法步骤。
CN202111122565.3A 2021-09-24 2021-09-24 一种网络设备的故障处理方法、装置及电子设备 Pending CN115865611A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111122565.3A CN115865611A (zh) 2021-09-24 2021-09-24 一种网络设备的故障处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111122565.3A CN115865611A (zh) 2021-09-24 2021-09-24 一种网络设备的故障处理方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN115865611A true CN115865611A (zh) 2023-03-28

Family

ID=85652592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111122565.3A Pending CN115865611A (zh) 2021-09-24 2021-09-24 一种网络设备的故障处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN115865611A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089224A (zh) * 2023-04-11 2023-05-09 宇动源(北京)信息技术有限公司 告警分析方法、装置、计算节点及计算机可读存储介质
CN117591970A (zh) * 2024-01-18 2024-02-23 昆山曼赫电子科技有限公司 一种全自动组装设备的故障预警方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653424A (zh) * 2015-12-28 2016-06-08 中国民航信息网络股份有限公司 航班查询系统可靠性评估方法及装置
CN110247792A (zh) * 2019-05-28 2019-09-17 广东南方通信建设有限公司 一种基于网络告警关联的故障处理方法及装置
CN111585799A (zh) * 2020-04-29 2020-08-25 杭州迪普科技股份有限公司 网络故障预测模型建立方法及装置
CN111666198A (zh) * 2020-06-10 2020-09-15 创新奇智(上海)科技有限公司 日志异常监控方法、装置及电子设备
CN111831857A (zh) * 2019-04-23 2020-10-27 烽火通信科技股份有限公司 一种网络告警规则多维关联生成方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653424A (zh) * 2015-12-28 2016-06-08 中国民航信息网络股份有限公司 航班查询系统可靠性评估方法及装置
CN111831857A (zh) * 2019-04-23 2020-10-27 烽火通信科技股份有限公司 一种网络告警规则多维关联生成方法及系统
CN110247792A (zh) * 2019-05-28 2019-09-17 广东南方通信建设有限公司 一种基于网络告警关联的故障处理方法及装置
CN111585799A (zh) * 2020-04-29 2020-08-25 杭州迪普科技股份有限公司 网络故障预测模型建立方法及装置
CN111666198A (zh) * 2020-06-10 2020-09-15 创新奇智(上海)科技有限公司 日志异常监控方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
汤亿则;庄毅;: "电力通信网根告警诊断的原理与研究", 电力系统通信, no. 11, 10 November 2011 (2011-11-10), pages 1 - 4 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089224A (zh) * 2023-04-11 2023-05-09 宇动源(北京)信息技术有限公司 告警分析方法、装置、计算节点及计算机可读存储介质
CN117591970A (zh) * 2024-01-18 2024-02-23 昆山曼赫电子科技有限公司 一种全自动组装设备的故障预警方法及系统
CN117591970B (zh) * 2024-01-18 2024-04-05 昆山曼赫电子科技有限公司 一种全自动组装设备的故障预警方法及系统

Similar Documents

Publication Publication Date Title
EP3798846B1 (en) Operation and maintenance system and method
CN113542039A (zh) 一种通过ai算法定位5g网络虚拟化跨层问题的方法
CN113254254B (zh) 系统故障的根因定位方法、装置、存储介质及电子装置
CN115865611A (zh) 一种网络设备的故障处理方法、装置及电子设备
CN111897705B (zh) 服务状态处理、模型训练方法、装置、设备和存储介质
CN111314137A (zh) 信息通信网络自动化运维方法、装置、存储介质和处理器
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
WO2019137052A1 (zh) 网络运维的方法及装置
CN115102834B (zh) 一种变更风险评估方法、设备及存储介质
CN107548087A (zh) 一种告警关联分析的方法及装置
CN115730749A (zh) 基于融合电力数据的电力调度风险预警方法及装置
CN110555452A (zh) 一种基于智能聚类的网络问题处理方法及装置
CN108039971A (zh) 一种告警方法及装置
CN110807014B (zh) 一种基于交叉验证的台区数据异常甄别方法和装置
CN117541217A (zh) 基于三维可视化电网设备管理业务的运维方法
CN116826961A (zh) 电网智能调度和运维系统、方法及存储介质
CN116074215A (zh) 网络质量检测方法、装置、设备及存储介质
CN115334560A (zh) 基站异常的监测方法、装置、设备及计算机可读存储介质
CN107517474A (zh) 一种网络分析优化方法及装置
CN114157035A (zh) 一种配电自动化管控方法及系统
CN114490303A (zh) 故障根因确定方法、装置和云设备
CN113360563A (zh) 一种航行大数据平台监控系统及方法
CN111784538A (zh) 一种智能电网大数据信息管理方法及系统
CN116150257B (zh) 电力通信光缆资源可视化分析方法、系统及存储介质
CN114363933B (zh) 一种网络诊断方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination