CN115102836A - 网络设备故障分析方法、装置及存储介质 - Google Patents

网络设备故障分析方法、装置及存储介质 Download PDF

Info

Publication number
CN115102836A
CN115102836A CN202210822462.6A CN202210822462A CN115102836A CN 115102836 A CN115102836 A CN 115102836A CN 202210822462 A CN202210822462 A CN 202210822462A CN 115102836 A CN115102836 A CN 115102836A
Authority
CN
China
Prior art keywords
classification model
data
target
alarm information
sample network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210822462.6A
Other languages
English (en)
Inventor
班瑞
王佳
华润多
张振超
汪云海
芦吉昆
陈昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
China Information Technology Designing and Consulting Institute Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
China Information Technology Designing and Consulting Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd, China Information Technology Designing and Consulting Institute Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202210822462.6A priority Critical patent/CN115102836A/zh
Publication of CN115102836A publication Critical patent/CN115102836A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种网络设备故障分析方法、装置及存储介质,涉及数据处理技术领域,用于确定出与所述目标告警信息关联的数据特征,进而可以对故障原因进行准确定位。该方法包括:获取预先训练得到的目标分类模型;目标分类模型用于根据待检测网络设备的运行数据对应的数据特征判断待检测网络设备是否产生目标告警信息;目标分类模型为基于多个样本网络设备的运行数据对应的数据特征以及多个样本网络设备的标签训练得到的,标签包括产生目标告警信息或者不产生目标告警信息;确定各数据特征在目标分类模型中的重要程度,将重要程度大于或者等于预设阈值的数据特征,确定为与目标告警信息关联的数据特征。

Description

网络设备故障分析方法、装置及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种网络设备故障分析方法、装置及存储介质。
背景技术
网络设备在运行过程中,会产生各种不同类型的网络设备运行数据,例如,中央处理器(central processing unit,CPU)利用率、内存利用率、光模块接收、发送功率、循环冗余校验(cyclic redundancy check,CRC)误码率等。任意一种或者多种类型的网络设备运行数据出现异常,都有可能导致网络设备产生故障告警信息。
然而,现有的故障告警信息通常只能反映出故障设备的标识、故障发生的时间以及故障内容(例如设备温度超标、设备物理端口故障等),运维人员无法根据告警信息将故障原因与网络设备运行数据进行关联,因此无法对故障原因进行准确定位。
发明内容
本发明提供一种网络设备故障分析方法、装置及存储介质,用于确定出与所述目标告警信息关联的数据特征,进而可以对故障原因进行准确定位。
为达到上述目的,本发明采用如下技术方案:
第一方面,提供一种网络设备故障分析方法,方法包括:获取预先训练得到的目标分类模型;目标分类模型用于根据待检测网络设备的运行数据对应的数据特征判断待检测网络设备是否产生目标告警信息;目标分类模型为基于多个样本网络设备的运行数据对应的数据特征以及多个样本网络设备的标签训练得到的,标签包括产生目标告警信息或者不产生目标告警信息;确定各数据特征在目标分类模型中的重要程度,将重要程度大于或者等于预设阈值的数据特征,确定为与目标告警信息关联的数据特征。
可选的,方法还包括:获取多个样本网络设备的运行数据以及标签;确定多个样本网络设备的运行数据对应的数据特征,并根据多个样本网络设备的运行数据以及标签,对预设的分类模型进行训练,得到目标分类模型。
可选的,根据多个样本网络设备的运行数据以及标签,对预设的分类模型进行训练,得到目标分类模型,包括:将第一样本网络设备的多个数据特征作为分类模型的输出,将第一样本网络设备的标签作为分类模型的目标输出,对分类模型进行训练,得到目标分类模型;第一样本网络设备为多个样本网络设备中的任意一个。
可选的,分类模型为梯度提升XGBoost模型,XGBoost模型包括重要程度函数,确定各数据特征在目标分类模型中的重要程度,包括:根据重要程度函数,确定各数据特征在目标分类模型中的重要程度。
可选的,分类模型为梯度提升XGBoost模型,XGBoost模型包括多个子分类模型,确定各数据特征在目标分类模型中的重要程度,包括:计算各子分类模型的信息增益;根据一个子分类模型的信息增益,确定一个数据特征的重要程度;一个子分类模型用于根据一个数据特征得到一个子分类结果;子分类结果包括产生目标告警信息或者不产生目标告警信息。
第二方面,提供一种故障分析装置,故障分析装置包括获取单元以及确定单元;获取单元,用于获取预先训练得到的目标分类模型;目标分类模型用于根据待检测网络设备的运行数据对应的数据特征判断待检测网络设备是否产生目标告警信息;目标分类模型为基于多个样本网络设备的运行数据对应的数据特征以及多个样本网络设备的标签训练得到的,标签包括产生目标告警信息或者不产生目标告警信息;确定单元,用于确定各数据特征在目标分类模型中的重要程度,并将重要程度大于或者等于预设阈值的数据特征,确定为与目标告警信息关联的数据特征。
可选的,获取单元还用于:获取多个样本网络设备的运行数据以及标签;确定单元还用于确定多个样本网络设备的运行数据对应的数据特征,并根据多个样本网络设备的运行数据以及标签,对预设的分类模型进行训练,得到目标分类模型。
可选的,确定单元具体用于:将第一样本网络设备的多个数据特征作为分类模型的输出,将第一样本网络设备的标签作为分类模型的目标输出,对分类模型进行训练,得到目标分类模型;第一样本网络设备为多个样本网络设备中的任意一个。
可选的,分类模型为梯度提升XGBoost模型,XGBoost模型包括重要程度函数,确定单元具体用于:根据重要程度函数,确定各数据特征在目标分类模型中的重要程度。
可选的,分类模型为梯度提升XGBoost模型,XGBoost模型包括多个子分类模型,确定单元具体用于:计算各子分类模型的信息增益;根据一个子分类模型的信息增益,确定一个数据特征的重要程度;一个子分类模型用于根据一个数据特征得到一个子分类结果;子分类结果包括产生目标告警信息或者不产生目标告警信息。
第三方面,提供一种电子设备,包括:处理器、用于存储处理器可执行的指令的存储器;其中,处理器被配置为执行指令,以实现上述第一方面的网络设备故障分析方法。
第四方面,提供一种计算机可读存储介质,计算机可读存储介质上存储有指令,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述第一方面的网络设备故障分析方法。
本发明提供的技术方案至少带来以下有益效果:故障分析装置获取预先训练得到的目标分类模型;由于目标分类模型可以根据待检测网络设备的运行数据判断待检测网络设备是否产生目标告警信息;且目标分类模型为基于多个样本网络设备的运行数据以及标签训练得到的,运行数据包括多个数据特征,标签包括产生目标告警信息或者不产生目标告警信息;因此,该目标分类模型本质上反映了待检测网络设备的各数据特征与最终是否产生目标告警信息之间的关系。进一步的,故障分析装置确定各数据特征在目标分类模型中的重要程度,以挖掘每个数据特征的重要性的特点,并将重要程度大于或者等于预设阈值的数据特征,确定为与目标告警信息关联的数据特征。这样一来,成功确定出了与目标告警信息关联的数据特征,进而可以对故障原因进行准确定位。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种故障分析系统的结构示意图;
图2为本发明实施例提供的一种故障分析方法的流程示意图一;
图3为本发明实施例提供的一种故障分析方法的流程示意图二;
图4为本发明实施例提供的一种数据特征的重要程度柱状图;
图5为本发明实施例提供的一种故障分析装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
还需要说明的是,本发明实施例中,“的(英文:of)”,“相应的(英文:corresponding,relevant)”和“对应的(英文:corresponding)”有时可以混用,应当指出的是,在不强调其区别时,其所要表达的含义是一致的。
为了便于清楚描述本发明实施例的技术方案,在本发明的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。
在对本发明实施例进行详细地解释说明之前,先对本发明实施例涉及到的一些相关技术术语以及相关技术进行介绍。
关联分析:关联分析是一种简单、实用的分析技术,用于发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式。
相关技术在分析故障告警信息与原因因素的关联关系这个问题上主要包括根因分析方法以及概率量化方法。其中,根因分析方法为依据告警设备地址对告警系统产生的告警进行分组;来自同一地址的告警归属于同一分组;对于任一分组,依据该分组内各告警之间的时间关联对该分组内的告警进行聚类,得到至少一个告警聚类段;对同一分组内各告警聚类段进行因果关联分析,依据同一分组内各告警聚类段之间的因果关联,确定至少一个关联告警集;对关联告警集中的告警进行关键字段提取,并确定各关键字段的权重系数和频数;依据各关键字段的权重系数和频数,确定根因告警。概率量化方法为从概率统计方法思想出发,依据历史数据和当前状态,针对不同因素提出了有效的诱因导致故障概率量化方法,在概率量化方法的基础上分析出故障与业务指标之间的关联关系,以有效指导实际的工程运维和风险防范。
但是,相关技术在分析故障告警与原因因素的关联关系这个问题上,有其一定的局限性。如根因分析方法,更多的是关注各类故障告警之间的根因关系,对探究其根本原因、找出引发该故障告警的真实因素的帮助并不大;而概率量化方法,采用诱因导致故障概率量化方法,来尝试探求故障告警与原因因素之间的关联关系,虽然可以定量地进行分析,但这一方法的稳定性与可解释性有一定的局限性。
Boosting:Boosting是一种集成学习算法,其主要思想是将许多弱分类器集合在一起,形成一个强大的组合分类器以提高分类精度。Gradient Boosting是Boosting中的一大类算法,它的思想借鉴于梯度下降法,其基本原理是根据当前模型损失函数的负梯度信息来训练新加入的弱分类器,然后将训练好的弱分类器以累加的形式结合到现有模型中。
XGBoost:XGBoost是一个优化的分布式梯度增强库(又称梯度提升模型),旨在实现高效,灵活和便携,它在Gradient Boosting框架下实现机器学习算法。XGBoost最大的特点在于,它能够自动利用CPU的多线程进行并行,同时在算法上加以改进提高了精度。其核心算法思想包括:1)根据泰勒二阶展开生成的目标函数,不断地添加树,不断地进行特征分裂来生成一棵树,每次添加一个树,其实是学习一个新的函数f(x),去拟合上次预测的残差。2)当训练完得到k棵树,要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数。3)最后只需要将每棵树对应的分数加起来就是该样本的预测值。每一次迭代,都在现有树的基础上,增加一棵树去拟合前面树的预测结果与真实值之间的残差。因此迭代次数t代表了建立的决策树的棵数,迭代次数越大,建立的决策树越多,对预测结果与真实值之间的残差处理次数越多。
网络设备在运行过程中,会产生各种不同类型的网络设备运行数据,例如,中央处理器(central processing unit,CPU)利用率、内存利用率、光模块接收、发送功率、循环冗余校验(cyclic redundancy check,CRC)误码率等。任意一种或者多种类型的网络设备运行数据出现异常,都有可能导致网络设备产生故障告警信息。
然而,现有的故障告警信息通常只能反映出故障设备的标识、故障发生的时间以及故障内容(例如设备温度超标、设备物理端口故障等),运维人员无法根据告警信息将故障原因与网络设备运行数据进行关联,因此无法对故障原因进行准确定位。
本发明实施例提供的网络设备故障分析方法(以下简称故障分析方法),用于确定出与目标告警信息关联的数据特征,进而可以对故障原因进行准确定位。本发明实施例提供的故障分析方法可以适用于故障分析系统,图1示出了该故障分析系统的一种结构示意图。如图1所示,故障分析系统10包括故障分析装置11以及电子设备12。其中,故障分析装置11与电子设备12连接。故障分析装置11与电子设备12连接之间可以采用有线方式连接,也可以采用无线方式连接,本发明实施例对此不作限定。
故障分析装置11用于获取预先训练得到的目标分类模型;故障分析装置11还用于确定各数据特征在目标分类模型中的重要程度,将重要程度大于或者等于预设阈值的数据特征,确定为与目标告警信息关联的数据特征。
故障分析装置11可以在各种可以处理网络设备的运行数据的电子设备12中实现。比如,电子设备12可以是个人电脑、服务器等固定式计算机设备,还可以是平板电脑、智能手机等移动式计算机设备,本发明实施例对此不进行具体限定。
在不同的应用场景中,故障分析装置11和电子设备12可以为相互独立的设备,也可以集成于同一设备中,本发明实施例对此不作具体限定。
故障分析装置11和电子设备12集成于同一设备时,故障分析装置11和电子设备12之间的数据传输方式为该设备内部模块之间的数据传输。这种情况下,二者之间的数据传输流程与“故障分析装置11和电子设备12之间相互独立的情况下,二者之间的数据传输流程”相同。
在本发明实施例提供的以下实施例中,以故障分析装置11和电子设备12相互独立设置为例进行说明。
图2是根据一些示例性实施例示出的一种故障分析方法的流程示意图。在一些实施例中,上述故障分析方法可以应用到如图1所示的故障分析装置、电子设备,也可以应用到其他类似设备。
如图2所示,本发明实施例提供的故障分析方法,包括下述S201-S203。
S201、故障分析装置获取预先训练得到的目标分类模型。
其中,目标分类模型用于根据待检测网络设备的运行数据对应的数据特征判断待检测网络设备是否产生目标告警信息;目标分类模型为基于多个样本网络设备的运行数据对应的数据特征以及多个样本网络设备的标签训练得到的,标签包括产生目标告警信息或者不产生目标告警信息。
作为一种可能的实现方式,故障分析装置从电子设备中获取预先训练得到的目标分类模型。
需要说明的,目标分类模型为基于多个样本网络设备的运行数据以及标签预先训练好的模型,并存储在电子设备中。
网络设备在运行过程中将产生很多具有时序特点的运行数据,例如,CPU利用率、内存利用率、光模块接收、发送功率、CRC误码率等。同时,网络设备在运行过程中也可能产生故障告警信息,例如,设备1在1月1日19点00分实体温度超阈值。任意一种或者多种类型的网络设备运行数据出现异常,都有可能导致网络设备产生故障告警信息,即运行数据与故障告警信息在深层次存在一定的关联关系,但单凭故障告警信息的表层内容来看,运维人员并不能得到二者之间具体的关联关系。
目标分类模型则将运行数据对应的数据特征作为输入,将是否产生目标告警信息作为标签进行训练,将二者进行绑定。例如,设备1在1月1日19点00分产生了目标告警信息,那么将设备1运行数据对应的数据特征输入目标分类模型后,目标分类模型应判断设备1产生目标告警信息。
数据特征则是根据网络设备一段时间内的运行数据提取得到的。例如,数据特征可以为网络设备在一段时间内CPU利用率的平均值(cpu_value)、CPU利用率的最小值(cpu_min)、CPU利用率的最大值(cpu_max),CPU利用率最大值与最小值之间的差值(cpu_index_min)、CPU利用率的方差中的一个或多个。
S202、故障分析装置确定各数据特征在目标分类模型中的重要程度。
作为一种可能的实现方式,故障分析装置根据目标分类模型中自带的函数模型,确定各数据特征在目标分类模型中的重要程度。
此步骤的具体实施方式,可以参照本发明实施例的后续描述,此处不再进行赘述。
S203、故障分析装置将重要程度大于或者等于预设阈值的数据特征,确定为与目标告警信息关联的数据特征。
作为一种可能的实现方式,故障分析装置将确定到各数据特征在目标分类模型中的重要程度与预设阈值进行比较,判断各数据特征在目标分类模型中的重要程度是否大于或者等于预设阈值。进一步的,故障分析装置将重要程度大于或者等于预设阈值的数据特征,确定为与目标告警信息关联的数据特征。
需要说明的,预设阈值为运维人员预先在故障分析装置中设置的。
本发明提供的技术方案至少带来以下有益效果:故障分析装置获取预先训练得到的目标分类模型;由于目标分类模型可以根据待检测网络设备的运行数据判断待检测网络设备是否产生目标告警信息;且目标分类模型为基于多个样本网络设备的运行数据以及标签训练得到的,运行数据包括多个数据特征,标签包括产生目标告警信息或者不产生目标告警信息;因此,该目标分类模型本质上反映了待检测网络设备的各数据特征与最终是否产生目标告警信息之间的关系。进一步的,故障分析装置确定各数据特征在目标分类模型中的重要程度,以挖掘每个数据特征的重要性的特点,并将重要程度大于或者等于预设阈值的数据特征,确定为与目标告警信息关联的数据特征。这样一来,成功确定出了与目标告警信息关联的数据特征,进而可以对故障原因进行准确定位。
在一种设计中,如图3所示,为了得到目标分类模型,本发明实施例提供的故障分析方法还包括下述S301-S303。
S301、故障分析装置获取多个样本网络设备的运行数据以及标签。
作为一种可能的实现方式,故障分析装置从电子设备中获取多个样本网络设备的运行数据以及标签。
在网络设备运行中,会产生多种运行数据,这些运行数据通常与故障告警信息有关。本发明实施例选用最常用的几种运行数据:CPU利用率,内存利用率,光模块接收与发送功率、CRC误码率。这些运行数据都是时序数据,来自不同的样本网络设备,以设备号进行区分。不同的运行数据在每个设备上也可能有不同的资源,如对于CPU利用率和内存利用率,一个设备有不同的板卡,每个板卡都有各自的CPU利用率和内存利用率。
在网络设备运行中,通常也会产生各种告警信息,这些告警信息也为时序数据,即这些告警信息按照时间顺序的先后记录了每个告警的名称、发生时间、对应设备名称、端口号、告警信息详细描述、告警重要程度等。
在实际应用中,故障分析装置通常需要对各种运行数据以及各种告警信息进行预处理。具体的,(1)对于运行数据,故障分析装置将不同的运行数据保存到各自对应的以设备名称命名的逗号分隔值(comma-separated values,CSV)文件中。对于告警信息,按告警级别(trapLevel)分组后保存到以trapLevel命名的CSV文件中。进一步处理告警文件,遍历所有各项运行数据完整的设备名称,在告警文件中查找对应设备名称的告警信息,按照key/value对(key为告警名称,value为告警持续的时间段)的形式保存将告警文件为以设备名称命名的pickle文件。告警持续的判断依赖一个阈值,如两次告警间隔不超过30分钟可以认为告警是连续的。(2)为了处理网络时延等因素造成的不同运行数据和告警信息记录时间不能对齐问题,将告警信息的时间戳转换为datetime类型,并以离散化的方式对齐到运行数据所在时间段的结尾,方便进行同设备上多运行数据和告警信息同时刻对比。(3)针对设备上的同一资源(板卡、端口等),若在连续时间上存在运行数据缺失,则用缺失后方出现的第一个值填补中间缺失的所有值。
需要说明的,样本网络设备的标签包括产生目标告警信息或者不产生目标告警信息。其中,目标告警信息为多个告警信息中的任意一个。
S302、故障分析装置确定多个样本网络设备的运行数据对应的数据特征。
作为一种可能的实现方式,故障分析装置计算各样本网络设备中各运行数据的平均值、最小值、最大值、最大值与最小值之间的差值以及方差,并各运行数据的平均值、最小值、最大值、最大值与最小值之间的差值以及方差作为数据特征。
例如,一个样本网络设备的数据特征可以为网络设备在一段时间内CPU利用率的平均值(cpu_value)、CPU利用率的最小值(cpu_min)、CPU利用率的最大值(cpu_max),CPU利用率最大值与最小值之间的差值(cpu_index_min)、CPU利用率的方差中的一个或多个。
S303、故障分析装置根据多个样本网络设备的运行数据以及标签,对预设的分类模型进行训练,得到目标分类模型。
作为一种可能的实现方式,故障分析装置将第一样本网络设备的多个数据特征作为分类模型的输出,将第一样本网络设备的标签作为分类模型的目标输出,若分类模型输出的输出结果与第一样本网络设备的标签相同,故障分析装置则确定该分类模型训练成功,并将该分类模型作为目标分类模型。第一样本网络设备为多个样本网络设备中的任意一个。
在一些实施例中,分类模型为XGBoost模型,在训练XGBoost模型时,故障分析装置可以将75%的第一样本网络设备的运行数据作为训练数据,25%的第一样本网络设备的运行数据作为测试数据,并将完成训练后的XGBoost模型存储在电子设备中。
可选的,XGBoost模型包括重要程度函数,故障分析装置可以在完成训练的XGBoost模型中调用重要程度函数,得到各数据特征在目标分类模型中的重要程度。例如,如图4所示,重要程度函数可以为XGBoost模型自带的“get_score”函数,故障分析装置调用“get_score”函数得到重要程度排在前三名的数据特征:cpu_max、cpu_index_min、cpu_min,以及各数据特征对应的重要程度得分。
可选的,XGBoost模型包括多个子分类模型,故障分析装置计算各子分类模型的信息增益;根据一个子分类模型的信息增益,确定一个数据特征的重要程度;一个子分类模型用于根据一个数据特征得到一个子分类结果;子分类结果包括产生目标告警信息或者不产生目标告警信息。例如,如表一所示,子分类模型1用于根据cpu_min判断待待检测网络设备是否产生目标告警信息,若子分类模型1的信息增益为0.5,则cpu_min的重要程度为0.5,与目标告警信息的关联程度为50%;子分类模型2用于根据cpu_max判断待待检测网络设备是否产生目标告警信息,若子分类模型2的信息增益为0.3,则cpu_max的重要程度为0.3,与目标告警信息的关联程度为30%;子分类模型3用于根据cpu_index_min判断待待检测网络设备是否产生目标告警信息,若子分类模型3的信息增益为0.2,则cpu_max的重要程度为0.2,与目标告警信息的关联程度为20%。
表一
数据特征 信息增益 重要程度
cpu_min 0.5 50%
cpu_max 0.3 30%
cpu_index_min 0.2 20%
上述实施例主要从装置(设备)的角度对本发明实施例提供的方案进行了介绍。可以理解的是,为了实现上述方法,装置或设备包含了执行各个方法流程相应的硬件结构和/或软件模块,这些执行各个方法流程相应的硬件结构和/或软件模块可以构成一个物料信息的确定装置。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的算法步骤,本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本发明实施例可以根据上述方法示例对装置或设备进行功能模块的划分,例如,装置或设备可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图5是根据一示例性实施例示出的故障分析装置的结构示意图。参照图5所示,本公开实施例提供的故障分析装置40,包括获取单元401以及确定单元402。
获取单元401,用于获取预先训练得到的目标分类模型;目标分类模型用于根据待检测网络设备的运行数据对应的数据特征判断待检测网络设备是否产生目标告警信息;目标分类模型为基于多个样本网络设备的运行数据对应的数据特征以及多个样本网络设备的标签训练得到的,标签包括产生目标告警信息或者不产生目标告警信息;确定单元402,用于确定各数据特征在目标分类模型中的重要程度,并将重要程度大于或者等于预设阈值的数据特征,确定为与目标告警信息关联的数据特征。
可选的,获取单元401还用于:获取多个样本网络设备的运行数据以及标签;确定单元402还用于确定多个样本网络设备的运行数据对应的数据特征,并根据多个样本网络设备的运行数据以及标签,对预设的分类模型进行训练,得到目标分类模型。
可选的,确定单元402具体用于:将第一样本网络设备的多个数据特征作为分类模型的输出,将第一样本网络设备的标签作为分类模型的目标输出,对分类模型进行训练,得到目标分类模型;第一样本网络设备为多个样本网络设备中的任意一个。
可选的,分类模型为梯度提升XGBoost模型,XGBoost模型包括重要程度函数,确定单元402具体用于:根据重要程度函数,确定各数据特征在目标分类模型中的重要程度。
可选的,分类模型为梯度提升XGBoost模型,XGBoost模型包括多个子分类模型,确定单元402具体用于:计算各子分类模型的信息增益;根据一个子分类模型的信息增益,确定一个数据特征的重要程度;一个子分类模型用于根据一个数据特征得到一个子分类结果;子分类结果包括产生目标告警信息或者不产生目标告警信息。
图6是本公开提供的一种电子设备的结构示意图。如图6,该电子设备50可以包括至少一个处理器501以及用于存储处理器可执行指令的存储器502其中,处理器501被配置为执行存储器502中的指令,以实现上述实施例中的故障分析方法。
另外,电子设备50还可以包括通信总线503以及至少一个通信接口504。
处理器501可以是一个处理器(central processing units,CPU),微处理单元,ASIC,或一个或多个用于控制本公开方案程序执行的集成电路。
通信总线503可包括一通路,在上述组件之间传送信息。
通信接口504,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN)等。
存储器502可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理单元402相连接。存储器也可以和处理单元402集成在一起。
其中,存储器502用于存储执行本公开方案的指令,并由处理器501来控制执行。处理器501用于执行存储器502中存储的指令,从而实现本公开方法中的功能。
作为一个示例,结合图5,故障分析装置40中的获取单元401、确定单元402实现的功能与图6中的处理器501的功能相同。
在具体实现中,作为一种实施例,处理器501可以包括一个或多个CPU,例如图6中的CPU0和CPU1。
在具体实现中,作为一种实施例,电子设备50可以包括多个处理器,例如图6中的处理器501和处理器507。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
在具体实现中,作为一种实施例,电子设备50还可以包括输出设备505和输入设备506。输出设备505和处理器501通信,可以以多种方式来显示信息。例如,输出设备505可以是液晶显示器(liquid crystal display,LCD),发光二级管(light emitting diode,LED)显示设备,阴极射线管(cathode ray tube,CRT)显示设备,或投影仪(projector)等。输入设备506和处理器501通信,可以以多种方式接受用户对象的输入。例如,输入设备506可以是鼠标、键盘、触摸屏设备或传感设备等。
本领域技术人员可以理解,图6中示出的结构并不构成对电子设备50的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
另外,本公开还提供一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述实施例所提供的故障分析方法。
另外,本公开还提供一种计算机程序产品,包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行如上述实施例所提供的故障分析方法。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

Claims (12)

1.一种网络设备故障分析方法,其特征在于,所述方法包括:
获取预先训练得到的目标分类模型;所述目标分类模型用于根据待检测网络设备的运行数据对应的数据特征判断所述待检测网络设备是否产生目标告警信息;所述目标分类模型为基于多个样本网络设备的运行数据对应的数据特征以及多个样本网络设备的标签训练得到的,所述标签包括产生目标告警信息或者不产生目标告警信息;
确定各所述数据特征在所述目标分类模型中的重要程度,将所述重要程度大于或者等于预设阈值的数据特征,确定为与所述目标告警信息关联的数据特征。
2.根据权利要求1所述的网络设备故障分析方法,其特征在于,所述方法还包括:
获取所述多个样本网络设备的运行数据以及标签;
确定所述多个样本网络设备的运行数据对应的数据特征,并根据所述多个样本网络设备的运行数据以及标签,对预设的分类模型进行训练,得到所述目标分类模型。
3.根据权利要求2所述的网络设备故障分析方法,其特征在于,所述根据所述多个样本网络设备的运行数据以及标签,对预设的分类模型进行训练,得到所述目标分类模型,包括:
将第一样本网络设备的多个数据特征作为所述分类模型的输出,将所述第一样本网络设备的标签作为所述分类模型的目标输出,对所述分类模型进行训练,得到所述目标分类模型;所述第一样本网络设备为所述多个样本网络设备中的任意一个。
4.根据权利要求3所述的网络设备故障分析方法,其特征在于,所述分类模型为梯度提升XGBoost模型,所述XGBoost模型包括重要程度函数,所述确定各所述数据特征在所述目标分类模型中的重要程度,包括:
根据所述重要程度函数,确定各所述数据特征在所述目标分类模型中的重要程度。
5.根据权利要求3所述的网络设备故障分析方法,其特征在于,所述分类模型为梯度提升XGBoost模型,所述XGBoost模型包括多个子分类模型,所述确定各所述数据特征在所述目标分类模型中的重要程度,包括:
计算各所述子分类模型的信息增益;
根据所述一个子分类模型的所述信息增益,确定所述一个数据特征的所述重要程度;所述一个子分类模型用于根据所述一个数据特征得到一个子分类结果;所述子分类结果包括产生所述目标告警信息或者不产生所述目标告警信息。
6.一种故障分析装置,其特征在于,所述故障分析装置包括获取单元以及确定单元;
所述获取单元,用于获取预先训练得到的目标分类模型;所述目标分类模型用于根据待检测网络设备的运行数据对应的数据特征判断所述待检测网络设备是否产生目标告警信息;所述目标分类模型为基于多个样本网络设备的运行数据对应的数据特征以及多个样本网络设备的标签训练得到的,所述标签包括产生目标告警信息或者不产生目标告警信息;
所述确定单元,用于确定各所述数据特征在所述目标分类模型中的重要程度,并将所述重要程度大于或者等于预设阈值的数据特征,确定为与所述目标告警信息关联的数据特征。
7.根据权利要求6所述的故障分析装置,其特征在于,所述获取单元还用于:
获取所述多个样本网络设备的运行数据以及标签;
所述确定单元还用于确定所述多个样本网络设备的运行数据对应的数据特征,并根据所述多个样本网络设备的运行数据以及标签,对预设的分类模型进行训练,得到所述目标分类模型。
8.根据权利要求7所述的故障分析装置,其特征在于,所述确定单元具体用于:
将第一样本网络设备的多个数据特征作为所述分类模型的输出,将所述第一样本网络设备的标签作为所述分类模型的目标输出,对所述分类模型进行训练,得到所述目标分类模型;所述第一样本网络设备为所述多个样本网络设备中的任意一个。
9.根据权利要求8所述的故障分析装置,其特征在于,所述分类模型为梯度提升XGBoost模型,所述XGBoost模型包括重要程度函数,所述确定单元具体用于:
根据所述重要程度函数,确定各所述数据特征在所述目标分类模型中的重要程度。
10.根据权利要求8所述的故障分析装置,其特征在于,所述分类模型为梯度提升XGBoost模型,所述XGBoost模型包括多个子分类模型,所述确定单元具体用于:
计算各所述子分类模型的信息增益;
根据所述一个子分类模型的所述信息增益,确定所述一个数据特征的所述重要程度;所述一个子分类模型用于根据所述一个数据特征得到一个子分类结果;所述子分类结果包括产生所述目标告警信息或者不产生所述目标告警信息。
11.一种电子设备,其特征在于,包括:处理器、用于存储所述处理器可执行的指令的存储器;其中,所述处理器被配置为执行指令,以实现所述权利要求1-5中任一项所述的网络设备故障分析方法。
12.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1-5中任一项所述的网络设备故障分析方法。
CN202210822462.6A 2022-07-13 2022-07-13 网络设备故障分析方法、装置及存储介质 Pending CN115102836A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210822462.6A CN115102836A (zh) 2022-07-13 2022-07-13 网络设备故障分析方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210822462.6A CN115102836A (zh) 2022-07-13 2022-07-13 网络设备故障分析方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN115102836A true CN115102836A (zh) 2022-09-23

Family

ID=83297095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210822462.6A Pending CN115102836A (zh) 2022-07-13 2022-07-13 网络设备故障分析方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115102836A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115514613A (zh) * 2022-11-15 2022-12-23 阿里云计算有限公司 告警策略获得方法、装置
CN116112341A (zh) * 2022-12-30 2023-05-12 中国电信股份有限公司 网络设备的检测方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749763A (zh) * 2021-01-27 2021-05-04 武汉理工大学 用于玻璃质量影响因素的时间序列分类分析方法及系统
US11169288B1 (en) * 2017-12-07 2021-11-09 Triad National Security, Llc Failure prediction and estimation of failure parameters
CN114004052A (zh) * 2022-01-04 2022-02-01 南京信息工程大学 一种面向网络管理系统的故障检测方法及装置
WO2022028120A1 (zh) * 2020-08-06 2022-02-10 中兴通讯股份有限公司 指标检测模型获取及故障定位方法、装置、设备及存储介质
CN114268981A (zh) * 2021-09-10 2022-04-01 南京星航通信技术有限公司 网络故障检测与诊断方法及系统
CN114266294A (zh) * 2021-12-08 2022-04-01 中国联合网络通信集团有限公司 分类模型的训练方法、目标链路的故障分析方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11169288B1 (en) * 2017-12-07 2021-11-09 Triad National Security, Llc Failure prediction and estimation of failure parameters
WO2022028120A1 (zh) * 2020-08-06 2022-02-10 中兴通讯股份有限公司 指标检测模型获取及故障定位方法、装置、设备及存储介质
CN112749763A (zh) * 2021-01-27 2021-05-04 武汉理工大学 用于玻璃质量影响因素的时间序列分类分析方法及系统
CN114268981A (zh) * 2021-09-10 2022-04-01 南京星航通信技术有限公司 网络故障检测与诊断方法及系统
CN114266294A (zh) * 2021-12-08 2022-04-01 中国联合网络通信集团有限公司 分类模型的训练方法、目标链路的故障分析方法及装置
CN114004052A (zh) * 2022-01-04 2022-02-01 南京信息工程大学 一种面向网络管理系统的故障检测方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIAOPENG LIU ET AL.: "A Satellite Fault Diagnosis and Analysis Method based on Extreme Gradient Boosting", IEEE, pages 109 *
刘宜荣: "基于SCADA数据的风电机组故障诊断与预警的研究", 《中国优秀硕士学位论文全文数据库》, pages 4 *
张金晔;刘慧超;郭蔚;赵昌健;贾培伟;: "网络设备故障预测与健康管理系统设计", 软件导刊, no. 04, pages 140 - 146 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115514613A (zh) * 2022-11-15 2022-12-23 阿里云计算有限公司 告警策略获得方法、装置
CN115514613B (zh) * 2022-11-15 2023-04-11 阿里云计算有限公司 告警策略获得方法、装置
CN116112341A (zh) * 2022-12-30 2023-05-12 中国电信股份有限公司 网络设备的检测方法、装置、电子设备及存储介质
CN116112341B (zh) * 2022-12-30 2024-04-30 中国电信股份有限公司 网络设备的检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN115102836A (zh) 网络设备故障分析方法、装置及存储介质
CN111045902A (zh) 服务器的压力测试方法及装置
CN114461644A (zh) 一种数据采集方法、装置、电子设备及存储介质
CN112925883A (zh) 搜索请求处理方法、装置、电子设备及可读存储介质
CN112363814A (zh) 任务调度方法、装置、计算机设备及存储介质
CN112783508B (zh) 文件的编译方法、装置、设备以及存储介质
CN113392920A (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN113408280A (zh) 负例构造方法、装置、设备和存储介质
CN116755974A (zh) 云计算平台运维方法、装置、电子设备及存储介质
CN116155541A (zh) 面向网络安全应用的自动化机器学习平台以及方法
CN114896418A (zh) 知识图谱构建方法、装置、电子设备及存储介质
EP3855316A1 (en) Optimizing breakeven points for enhancing system performance
CN114443738A (zh) 异常数据挖掘方法、装置、设备及介质
CN114548307A (zh) 分类模型训练方法和装置、分类方法和装置
CN114866437A (zh) 一种节点检测方法、装置、设备及介质
CN113807391A (zh) 任务模型的训练方法、装置、电子设备及存储介质
CN115481594A (zh) 计分板实现方法、计分板、电子设备及存储介质
CN113360798B (zh) 泛滥数据识别方法、装置、设备和介质
CN117271373B (zh) 测试用例的自动化构建方法、装置、电子设备及存储介质
CN115794195B (zh) 一种基于Viper构架的银行业务管理及维护方法及装置
CN116820826B (zh) 一种基于调用链的根因定位方法、装置、设备及存储介质
CN115048999A (zh) 标签优化方法、装置、电子设备和可读介质
CN117609723A (zh) 一种对象识别方法、装置、电子设备及存储介质
CN114298273A (zh) 一种深度学习模型自动训练的方法、装置及系统
CN115204424A (zh) 云原生系统的智能运维方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220923