CN114358312A - 网络告警事件识别模型的训练方法、设备及存储介质 - Google Patents

网络告警事件识别模型的训练方法、设备及存储介质 Download PDF

Info

Publication number
CN114358312A
CN114358312A CN202111676696.6A CN202111676696A CN114358312A CN 114358312 A CN114358312 A CN 114358312A CN 202111676696 A CN202111676696 A CN 202111676696A CN 114358312 A CN114358312 A CN 114358312A
Authority
CN
China
Prior art keywords
network alarm
network
alarm event
event
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111676696.6A
Other languages
English (en)
Inventor
臧寅
徐立平
任云龙
邵阳
刘洪东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202111676696.6A priority Critical patent/CN114358312A/zh
Publication of CN114358312A publication Critical patent/CN114358312A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提供一种网络告警事件识别模型的训练方法、设备及存储介质。该方法包括获取待训练的网络告警事件;确定所述网络告警事件的历史相关性,所述历史相关性为所述网络告警事件之间的伴生概率;确定所述网络告警事件的拓扑相关性,所述拓扑相关性为发生所述网络告警事件的网络设备的相关性;对所述历史相关性和所述拓扑相关性进行训练,获取所述网络告警事件的事件相关性;对所述事件相关性进行聚类和根因识别,得到网络告警事件识别模型。由于网络告警事件识别模型是基于由历史相关性和拓扑相关性得到的网络告警事件的事件相关性得到的,通过网络告警事件识别模型对网络告警事件进行根因识别,提高了网络告警事件的识别准确率。

Description

网络告警事件识别模型的训练方法、设备及存储介质
技术领域
本申请涉及运维技术领域,尤其涉及一种网络告警事件识别模型的训练方法、设备及存储介质。
背景技术
由于网络系统规模逐渐增大,发生故障的频率也越来越高。为保证网络系统的正常运行,需要识别发生故障的根因事件。
目前,现有的网络告警事件识别方法是基于告警事件聚类结果进行根因事件的识别。然而,在对告警事件进行聚类时,仅采用时间窗口聚类的方式,即对一定时间内发生的告警事件进行聚类。
由于仅基于时间窗口对告警事件进行聚类会受到干扰事件的影响,聚类结果准确率较低,从而导致根因事件的识别准确率较低。
发明内容
本申请提供一种网络告警事件识别模型的训练方法、设备及存储介质,用以解决网络告警事件识别准确率较低的问题。
第一方面,本申请提供一种网络告警事件识别模型的训练方法,包括:
获取待训练的网络告警事件;
确定网络告警事件的历史相关性,历史相关性为网络告警事件之间的伴生概率;
确定网络告警事件的拓扑相关性,拓扑相关性为发生网络告警事件的网络设备的相关性;
对历史相关性和拓扑相关性进行训练,获取网络告警事件的事件相关性;
对事件相关性进行聚类和根因识别,得到网络告警事件识别模型。
第二方面,本申请提供一种网络告警事件识别模型的训练装置,包括:
获取模块,用于获取待训练的网络告警事件;
确定模块,用于确定网络告警事件的历史相关性,历史相关性为网络告警事件之间的伴生概率;
确定模块,还用于确定网络告警事件的拓扑相关性,拓扑相关性为发生网络告警事件的网络设备的相关性;
训练模块,用于对历史相关性和拓扑相关性进行训练;
获取模块,还用于获取网络告警事件的事件相关性;
聚类和根因识别模块,用于对事件相关性进行聚类和根因识别,得到网络告警事件识别模型。
第三方面,本申请提供一种网络告警事件识别模型的训练装置,包括:处理器、存储器,存储器中存储代码,处理器运行存储器中存储的代码,以执行如第一方面任一项的网络告警事件识别模型的训练方法。
第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如第一方面任一项的网络告警事件识别模型的训练方法。
本申请提供的一种网络告警事件识别模型的训练方法,获取待训练的网络告警事件,确定网络告警事件的历史相关性和拓扑相关性,其中历史相关性为网络告警事件之间的伴生概率,拓扑相关性为发生网络告警事件的网络设备的相关性。对历史相关性和拓扑相关性进行训练,获取网络告警事件的事件相关性,对事件相关性进行聚类和根因识别,得到可以识别网络告警事件的网络告警事件识别模型。当需要识别某一网络告警事件的根因事件时,可将该网络告警事件输入至网络告警事件识别模型中,网络告警事件识别模型则输出该网络告警事件的根因识别结果。事件相关性是由历史相关性和拓扑相关性共同确定的,因此提高了网络告警事件聚类的准确度,进而提高了网络告警事件的识别准确率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的一种网络告警事件识别模型的应用场景图;
图2为本申请实施例提供的一种网络告警事件识别模型的训练方法流程图一;
图3为本申请实施例提供的一种网络告警事件识别模型的训练方法流程图二;
图4为本申请实施例提供的OSPF down与接口down网络告警事件分布关系模型图;
图5为本申请实施例提供的一种网络告警事件识别模型应用方法流程图;
图6为本申请实施例提供的一种网络告警事件识别系统架构示意图一;
图7为本申请实施例提供的一种事件集群引擎对网络告警事件进行聚类和根因识别的示意图;
图8为本申请实施例提供的一种网络告警事件识别系统架构示意图二;
图9为本申请实施例提供的一种网络告警事件识别模型的训练设备示意图一;
图10为本申请实施例提供的一种网络告警事件识别模型的训练设备示意图二。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
本申请提供一种网络告警事件识别模型的训练方法,首先获取待训练的网络告警事件,由于网络告警事件的事件相关性与历史相关性有关外,还会受到网络告警事件拓扑相关性大小的影响,因此为了提高网络告警事件的识别效率,需要确定网络告警事件的历史相关性和拓扑相关性。通过对历史相关性和拓扑相关性进行训练,获取网络告警事件的事件相关性,最终对事件相关性进行聚类和根因识别,得到网络告警识别模型。当产生网络告警事件后,将需要识别的网络告警事件输入至网络告警识别模型,网络告警事件识别模型可输出网络告警事件的聚类和根因识别结果。由于事件相关性是通过历史相关性和拓扑相关性共同得到的,因此可以提高事件相关性的准确率,从而提高了网络告警事件的识别准确率。
图1为本申请实施例提供的一种网络告警事件识别模型的应用场景图,如图1所示,当发生网络告警事件后,可将网络告警事件输入至网络告警事件识别模型,网络告警事件识别模型对网络告警事件进行识别,输出该网络告警事件聚类和根因识别的结果。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请实施例提供的一种网络告警事件识别模型的训练方法流程图一,本方法的执行主体可以是网络告警事件识别模型的训练设备,网络告警事件识别模型的训练设备可以为任意具有数据处理功能的设备,例如计算机等。本实施例中的方法可以通过软件、硬件或者软硬件结合的方式来实现。
如图2所示,本方法可以包括:
S201:获取待训练的网络告警事件。
当发生网络告警事件时,表明网络发生故障。需要说明的是,一次网络故障中可以包含一个或多个网络告警事件,其中一个网络事件为网络发生故障的根因事件。
待训练的网络告警事件为已经发生的网络告警事件。网络告警事件的事件类型可以是设备类、配置类、业务类以及协议类。其中,设备类网络告警事件为网络设备发生故障从而发生告警。网络设备为进行网络通信的设备,包括但不限于服务器、交换机、路由器等设备。配置类告警事件为由于网络配置错误导致的告警事件。业务类告警事件为网络业务进行过程中发生的告警事件。协议类网络告警事件是指网络协议出现错误的告警事件,网络协议可以是TCP/IP协议(Transport Control Protocol/Internet Protocol,传输控制协议/Internet协议)、NetBEUI(NetBios Enhanced User Interface)协议等。
获取的网络告警事件一般包含描述网络告警事件的文本信息、网络告警事件发生的时间以及网络告警事件发生设备等多种信息。已经发生的网络告警事件可以从所在网络系统对应的服务器中获取。
S202:确定网络告警事件的历史相关性,历史相关性为网络告警事件之间的伴生概率。
历史相关性的大小是影响网络告警事件之间的事件相关性的因素之一。历史相关性为网络告警事件之间的伴生概率。举例而言,在一定时间内,当网络告警事件A发生后,网络告警事件B或其他多个网络告警事件也随之发生。
在另一种实施场景下,网络告警事件A发生两次,网络告警事件B发生三次,网络告警事件C发生一次。
可选地,可以基于设定的时间窗口获取网络告警事件的历史相关性。
还可以设定多个不同的时间窗口,获取网络告警事件在每个时间窗口下的历史相关性,从而提高网络告警事件的历史相关性。
S203:确定网络告警事件的拓扑相关性,拓扑相关性为发生网络告警事件的网络设备的相关性。
为实现通信,网络设备之间存在特定的网络结构布局。当某一网络设备出现故障时,有可能会引发其他的网络设备发生故障。举例而言,在一定时间内,网络设备1发生网络告警事件后,网络设备2或其他多个网络设备也发生网络告警事件,表明网络设备之间存在一定的相关性,因此拓扑相关性的大小会影响网络告警事件的事件相关性。
可选地,可以根据网络设备的组网架构和网络协议配置,获取网络告警事件的拓扑相关性。
S204:对历史相关性和拓扑相关性进行训练,获取网络告警事件的事件相关性。
网络告警事件的事件相关性与网络告警事件的历史相关性和拓扑相关性相关,因此,本申请中以历史相关性和拓扑相关性为主要因素来确定事件相关性。可选地,事件相关性可以由历史相关性和拓扑相关性的乘积表示,具体如下:
事件相关性=历史相关性*拓扑相关性
历史相关性和拓扑相关性还可以以其他方式计算、融合得到事件相关性。
S205:对事件相关性进行聚类和根因识别,得到网络告警事件识别模型。
本申请中,对事件相关性进行聚类,以实现对网络告警事件的事件类型进行识别。在聚类的基础上进一步进行根因识别以确定网络告警事件的成因。
可以采用各种聚类算法和根因识别算法来实现。举例而言,可以基于事件相关性,生成网络告警事件的概率分布矩阵。概率分布矩阵中的每个数据表示网络告警事件的事件相关系数。
对概率分布矩阵进行聚类和根因识别,得到网络告警事件识别模型。
网络告警事件识别模型建立之后,还可以对已建立的模型进行更新和优化。例如,可将更新的网络告警事件输入至网络告警事件识别模型,通过网络告警事件识别模型输出对更新的网络告警事件进行聚类和根因识别的结果。
本申请实施例提供一种网络告警事件识别模型的训练方法,获取待训练的网络告警事件。由于网络告警事件的事件相关性与历史相关性和拓扑相关性相关,因此需要确定网络告警事件的历史相关性和拓扑相关性。对历史相关性和拓扑相关性进行训练,获取网络告警事件的事件相关性。对事件相关性进行聚类和根因识别,从而得到网络告警事件识别模型。当需要对网络告警事件进行识别时,可将该网络告警事件输入至网络告警事件识别模型,从而输出网络告警事件的聚类和根因识别的结果。由于本申请在网络告警事件历史相关性的基础上,还确定了影响网络告警事件的扑相关性,从而提高了网络告警事件的识别准确率。
在上述实施例的基础上,下面提供一个具体的实施例对网络告警事件识别模型的训练方法进行详细介绍。
图3为本申请实施例提供的一种网络告警事件识别模型的训练方法流程图二,具体如下:
S301:获取待训练的网络告警事件。
网络告警事件可以是网络中异常的事件,比如设备告警、异常日志、iFIT(In-situFlow Information Telemetry,随流检测)质差事件等。获取的网络告警事件中含有标识该网络告警事件的信息,可以是告警名称、日志名称、告警定位信息中的关键信息和iFIT质差信息等。
需要说明的是,一次网络故障可能包含一个或多个网络告警事件,其中一个网络告警事件为导致网络故障的根因事件。
S302:基于设定的时间窗口获取网络告警事件的历史相关性。
当某一网络告警事件A发生后的一段时间内,由于受到网络告警事件A的影响,网络告警事件B也随之发生,因此网络告警事件会存在历史相关性。
时间窗口可以根据实际情况调整。可以理解的,时间窗口的大小会影响历史相关性的相关系数,因此可以设定多个时间窗口获取网络告警事件的历史相关性。
在一种实施场景下,设定时间窗口为200s,则以每一个网络告警事件为中心分析其前后200s内出现的其他网络告警事件,获取网络告警事件的历史相关性。
S303:根据网络设备的组网架构和网络协议配置确定网络告警事件发生设备的拓扑位置。
其中,网络设备包括但不限于服务器、交换机、路由器等设备。
网络设备的组网架构是网络设备实现互联的组织结构。举例而言,可以是星型结构,还可以是环形结构等。
网络协议是网络设备之间通信规则的集合,例如:TCP/IP协议、NetBEUI协议等。
网络告警事件发生设备的拓扑位置可以为该设备在网络系统中所处的节点位置。
S304:根据发生网络告警事件的网络设备的拓扑位置计算网络告警事件发生设备之间的拓扑距离。
可选地,拓扑距离可以是发生网络告警事件的网络设备所处节点的节点距离。根据发生网络告警事件的网络设备所处的节点位置确定节点距离。节点距离为两个节点到达最近的共同设备的距离总和。
S305:根据拓扑距离,获取网络告警事件的拓扑相关性。
当网络告警事件发生设备之间的拓扑距离较近时,表明网络告警事件的拓扑相关性较大。当网络告警事件的历史相关性一致时,拓扑相关性越大,表明网络告警时间的事件相关性越大。
可以理解的,当网络告警事件发生设备之间的拓扑距离较远时,网络告警事件的拓扑相关性较小。
S306:对网络告警事件进行训练,生成网络告警事件之间的告警传播关系。
对某一局点大量的历史网络告警事件进行训练,生成告警传播关系。可以根据告警传播关系图对网络告警事件进行聚类和根因推理,其优势在于无需注入人工规则,无需确定聚类时间窗口,而是通过对大量历史网络告警事件数据的概率统计,分析网络告警事件之间的传播关系,局点泛化性较好。
局点可以表示某一特定区域。
S307:基于设定的时间窗口,对网络告警传播关系进行训练,获取网络告警事件的事件相关性。
任意两个网络告警事件存在的传播关系可以是正态分布的关系,还可以是白噪声分布的关系。网络告警传播关系不同,表明网络告警事件的事件相关性的强弱不同。举例而言,OSPF down与接口down两个网络告警事件存在正态分布的关系,OSPF down大概率在接口down之后3秒钟之后出现,虽然会有协议震荡以及其他接口的干扰,使得OSPF down会在接口down之前出现,但是随着学习数据的增加,会逐渐收敛成正态分布的模型,如图4所示,表明OSPF down与接口down两个网络告警事件的事件相关性较强。
S308:基于事件相关性,生成网络告警事件的概率分布矩阵。
将事件相关性转化为矩阵的形式,则可以得到表征网络告警事件相关性大小的概率分布矩阵。概率分布矩阵中的数据为网络告警事件之间的事件相关系数。
在一种实施场景下,若一个局点共有435种网络告警事件,则得到435*435的概率分布矩阵。
S309:根据概率分布矩阵,对网络告警事件进行聚类,生成告警类簇。
根据概率分布矩阵能够确定任意两个网络告警事件相关性的大小,将相关性较大的两个网络告警事件进行聚类。
在一种实施场景下,若两个网络告警事件之间的统计分布是白噪声分布,说明网络告警事件告警关联很弱,不应该聚类在一起。
在另一种实施场景下,若两个网络告警事件之间的统计分布是正态分布,说明两个网络告警事件关联较强,则将这两个网络告警事件聚类在一起。
S310:对概率分布矩阵中每个告警节点初始化分配相同的权值。
概率分布矩阵中的每一行或每一个均表示一个告警节点。由于需要根据告警节点的权值确定根因网络告警事件,因此需要对每个告警节点进行初始化,权值保持相同的状态。
S311:根据告警传播关系,迭代更新每个告警节点的权值,获取告警节点的根因权重。
对每个告警节点的权值进行迭代的迭代公式如下:
Figure BDA0003451570410000091
其中,childen(i)是节点在关联矩阵中所有的孩子节点,parents(j)是节点在关联矩阵中所有的父亲节点,Prob(i,j)是i为父亲节点的情况下j为孩子节点的概率,α是每轮传播的默认信息值,w是每个节点的根因权重,k代表节点j的所有父亲节点的集合。
该公式可以理解为每个节点的直接子节点会给其父节点贡献一部分权重,不断迭代后会出现越靠近根因位置越重要的节点,其权重会越来越大,最终可作为根因系数进行排序。
在一种实施场景下,在数据采集过程中出现前后因果倒置或出现局部环路的情况,倒置权值爆炸,在上述迭代公式的基础上加入了随机因果项。
Figure BDA0003451570410000092
表示孩子节点j给父亲节点i,带来的信息量,则将原迭代公式更新为:
ωi=ωi+∑j∈childen(i)(1-d)*Δω(i,random(node))+d*Δω(i,j)
式中d为阻尼系数,可设为0.8,即表示有0.8的概率遵从关联矩阵里的父子关联关系,还有0.2的概率随机选取一个节点作为子节点,可以有效防止由于局部环路带来的系数爆炸。
S312:根据根因权重,确定告警类簇的根因网络告警事件。
随着迭代获得的信息量越大,基于多轮迭代后可以获得每个节点的根因权重。若两个节点之间依然存在双向边,则将权重低指向权重高的边去掉,最终形成有向无环图。根据有向无环图及根因权重,可以确定每个告警类簇的根因网络告警事件,以及某一个告警序列中的根因网络告警事件,最终生成网络告警事件识别模型。
本申请实施例提供一种网络告警事件识别模型的训练方法,获取带训练的网络告警事件,基于设定的时间窗口得到网络告警事件的历史相关性。同时根据网络设备的组网架构和网络协议配置确定网络告警事件发生设备的拓扑位置和拓扑距离,根据拓扑距离确定网络告警事件的拓扑相关性。对网络告警事件进行训练,生成网络告警事件之间的告警传播关系,并基于设定的时间窗口,对网络告警传播关系进行训练,获取网络告警事件的事件相关性。将事件相关性生成概率分布矩阵,根据概率分布矩阵对网络告警事件进行聚类,生成告警类簇。对概率分布矩阵中的每个告警节点初始化分配相同的权值。根据告警传播关系,对每个告警节点的权值进行迭代更新,获取告警节点的根因权重,最终确定根因网络告警事件,生成网络告警事件识别模型。由于本申请实施例中的网络告警事件识别模型是基于网络告警事件的事件相关系数决定的聚类结果进行根因识别,事件相关性是由历史相关性和拓扑相关性共同确定的,因此提高了网络告警事件聚类的准确度,进而提高了网络告警事件的识别准确率。
在上述实施例的基础上,下面提供一个实施例对网络告警事件识别模型的应用过程进行详细描述。
图5为本申请实施例提供的一种网络告警事件识别模型应用方法流程图,由于现网使用过程中网络告警事件是顺序到达的流式数据,因此网络告警事件识别模型也需适应流式数据的特点。如图所示,本方法具体如下:
S501:接收网络告警事件e。
发送网络告警事件e的可以是上述实施例中网络告警事件识别系统中的其他模块。网络告警事件e可以是设备告警、异常日志、iFIT质差事件等。
S502:判断故障集SituationPool是否为空。若故障集为空则执行步骤S503,否则执行步骤S504-S505。
故障集为从其他模块接收到的网络告警事件的集合,故障集中可以包含多种故障情况,每种故障中可包含一个或多个网络告警事件。当故障集为空时,表明现有的网络告警事件已经处理结束,后续没有其他待处理的网络告警事件。
S503:以网络告警事件e创建一个故障Situation,并将网络告警事件e设为该故障的根因事件,最后将该故障添加至故障集中后结束流程。
由于一次网络故障中可以包含一个或多个网络告警事件,其中一个网络事件为网络发生故障的根因事件。当故障集为空时,则表明造成该网络故障的根因事件为网络告警事件e。
S504:根据概率分布矩阵,确定与网络告警事件e最相关的故障,记为s。
根据上述实施例提供的概率分布矩阵,可以确定与网络告警事件e事件相关系数较大的网络告警事件,从而确定与网络告警事件e最相关的故障。
S505:判断网络告警事件e与s的事件相关性是否大于设定阈值。若大于,则执行S506,否则返回S503。
设定阈值可以由下列公式表示:
σ(rootRate)·HyperParameters.confidenceThreshold
式中,HyperParameters.confidenceThreshold为一个sigmoid函数计算的动态门限,
Figure BDA0003451570410000111
其中,e为常数,rootRate为根因系数。
S506:将网络告警事件e聚类至s,同时完成根因识别,结束流程。
如果网络告警事件e与s的事件相关性大于设定阈值,表明该网络告警事件e是造成故障s的一个网络告警事件,因此将e关联至s中,对s中的所有网络告警事件进行根因识别,获取造成该故障的根因事件。
本申请实施例提供一种网络告警事件识别模型应用方法,接收网络告警事件e,判断故障集是否为空。若故障集为空,则以网络告警事件e创建一个新的故障,并将e设为该故障的根因事件,最后将该故障添加至故障集中后结束流程。当故障集不为空时,则根据概率分布矩阵,确定与e最相关的故障,并判断网络告警事件e与故障的事件相关性是否大于设定阈值。若大于设定阈值,网络告警事件识别模型则将网络告警事件e聚类至s,同时完成根因识别。本申请实施例提供的网络告警事件识别模型应用方法可以对网络告警事件进行聚类和识别造成该故障的根因网络告警事件,由于网络告警事件识别模型是基于网络告警事件的事件相关性即概率分布矩阵进行识别的,使得网络告警事件识别准确率较高。
在上述实施例的基础上,下面提供一个实施例对网络告警事件识别系统进行详细描述。
图6为本申请实施例提供的一种网络告警事件识别系统架构示意图一。如图6所示,本申请实施例提供的系统事件集群引擎(Event Cluster Engine)包括事件集群引擎超级(Event Cluster Engine Super)模块601以及多个事件集群引擎域内(Event ClusterEngineDomain)模块602。事件集群引擎对网络告警事件进行聚类和根因识别的示意图如图7所示。
具体地,事件集群引擎超级模块601以及事件集群引擎域内模块602的结构如图8所示。
如图8所示,事件集群引擎超级模块601包含聚类模型聚合模块6011和聚类模型同步模块6012。其中,聚类模型聚合模块6011可以对来自多个事件集群引擎域内模块602的数据进行聚合。聚合的数据可以是网络告警事件的概率分布矩阵。
事件集群引擎超级模块601中的聚类模型同步模块6012和事件集群引擎域内模块602中的聚类模型同步模块6024实现数据同步。需要进行同步的数据为网络告警事件的概率分布矩阵。
事件集群引擎域内模块602包含接收网络告警事件的网络事件接收模块6021、对网络告警事件进行聚类和根因识别的聚类与根因识别模块6022,以及输出聚类和根因识别结果的结果发送模块6023。
其中,结果发送模块6023可将聚类和根因识别结果发送至终端设备进行呈现。终端设备可以是手机、平板电脑或PC设备等。
事件集群引擎域内模块602还包含聚类模型在线增量学习模块6025。当对更新的网络告警事件完成聚类和根因识别后,基于在线增量学习和联邦学习,对更新的待训练的网络告警事件进行训练,以提高网络告警事件识别的准确度。
其他模块用于将网络告警事件传输至网络事件接收模块6021,可以是路由器、服务器等设备。
当发生网络告警事件后,其他模块将其传输至网络事件接收模块6021,网络事件接收模块6021将网络告警事件发送至聚类和根因识别模块6022进行聚类和根因识别,聚类和根因识别结果通过结果发送模块6023发送至终端设备。
本申请实施例提供一种网络告警事件识别系统,包括事件集群引擎超级模块以及多个事件集群引擎域内模块。当发生网络告警事件后,其他模块将网络告警事件发送至网络事件接收模块,聚类和根因识别模块对接收的网络告警事件进行聚类和根因识别,并将聚类和根因识别结果通过结果发送模块发送给可以呈现结果的终端设备,实现对网络告警事件的根因识别。本申请实施例提供的系统还可以通过聚类模型在线增量学习模块对更新的网络告警事件进行训练,提高了网络告警事件识别的准确度。
图9为本申请实施例提供的一种网络告警事件识别模型的训练设备示意图一。如图9所示,本申请提供的网络告警事件识别模型的训练设备900,可以包括:获取模块901、确定模块902、训练模块903和聚类和根因识别模块904。
获取模块901,用于获取待训练的网络告警事件;
确定模块902,用于确定网络告警事件的历史相关性,历史相关性为网络告警事件之间的伴生概率;
确定模块902,还用于确定网络告警事件的拓扑相关性,拓扑相关性为发生网络告警事件的网络设备的相关性;
训练模块903,用于对历史相关性和拓扑相关性进行训练;
获取模块901,还用于获取网络告警事件的事件相关性;
聚类和根因识别模块904,用于对事件相关性进行聚类和根因识别,得到网络告警事件识别模型。
图10为本申请实施例提供的一种网络告警事件识别模型的训练设备示意图二。如图10所示,本申请实施例提供一种网络告警事件识别模型的训练设备1000包括处理器1001和存储器1002,其中,处理器1001、存储器1002通过总线1003连接。
在具体实现过程中,存储器1002中存储代码,处理器1001运行存储器1002中存储的代码,以执行上述方法实施例的网络告警事件识别模型的训练方法。
处理器1001的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述的图10所示的实施例中,应理解,处理器1001可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器1002可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线1003可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线1003可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线1003并不限定仅有一根总线或一种类型的总线。
本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述方法实施例的网络告警事件识别模型的训练方法。
上述的计算机可读存储介质,可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
本申请实施例提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现上述本申请实施例中任意实施例提供的网络告警事件识别模型的训练方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (11)

1.一种网络告警事件识别模型的训练方法,其特征在于,包括:
获取待训练的网络告警事件;
确定所述网络告警事件的历史相关性,所述历史相关性为所述网络告警事件之间的伴生概率;
确定所述网络告警事件的拓扑相关性,所述拓扑相关性为发生所述网络告警事件的网络设备的相关性;
对所述历史相关性和所述拓扑相关性进行训练,获取所述网络告警事件的事件相关性;
对所述事件相关性进行聚类和根因识别,得到网络告警事件识别模型。
2.根据权利要求1所述的方法,其特征在于,所述对所述事件相关性进行聚类和根因识别,得到网络告警事件识别模型,包括:
基于所述事件相关性,生成所述网络告警事件的概率分布矩阵;
对所述概率分布矩阵进行聚类和根因识别,得到网络告警事件识别模型。
3.根据权利要求1所述的方法,其特征在于,所述获取所述网络告警事件的拓扑相关性,包括:
根据网络设备的组网架构和网络协议配置,获取所述网络告警事件的拓扑相关性。
4.根据权利要求3所述的方法,其特征在于,所述根据网络设备的组网架构和网络协议配置,获取所述网络告警事件的拓扑相关性,包括:
根据网络设备的组网架构和网络协议配置确定所述网络告警事件发生设备的拓扑位置;
根据发生所述网络告警事件的网络设备的拓扑位置计算所述网络告警事件发生设备之间的拓扑距离;
根据所述拓扑距离,获取所述网络告警事件的拓扑相关性。
5.根据权利要求1所述的方法,其特征在于,所述确定所述网络告警事件的历史相关性包括:
基于设定的时间窗口获取所述网络告警事件的历史相关性。
6.根据权利要求1所述的方法,其特征在于,所述对所述历史相关性和所述拓扑相关性进行训练,获取所述网络告警事件的事件相关性,包括:
对所述网络告警事件进行训练,生成所述网络告警事件之间的告警传播关系;
基于设定的时间窗口,对所述网络告警传播关系进行训练,获取所述网络告警事件的事件相关性。
7.根据权利要求6所述的方法,其特征在于,所述对所述概率分布矩阵进行聚类和根因识别,得到网络告警事件识别模型,包括:
根据所述概率分布矩阵,对所述网络告警事件进行聚类,生成告警类簇;
对所述概率分布矩阵中每个告警节点初始化分配相同的权值;
根据所述告警传播关系,迭代更新所述每个告警节点的权值,获取所述告警节点的根因权重;
根据所述根因权重,确定所述告警类簇的根因网络告警事件。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于在线增量学习和联邦学习,对更新的所述待训练的网络告警事件进行训练,以提高所述网络告警事件识别的准确度。
9.一种网络告警事件识别模型的训练设备,其特征在于,包括:
获取模块,用于获取待训练的网络告警事件;
确定模块,用于确定所述网络告警事件的历史相关性,所述历史相关性为所述网络告警事件之间的伴生概率;
所述确定模块,还用于确定所述网络告警事件的拓扑相关性,所述拓扑相关性为发生所述网络告警事件的网络设备的相关性;
训练模块,用于对所述历史相关性和所述拓扑相关性进行训练;
所述获取模块,还用于获取所述网络告警事件的事件相关性;
聚类和根因识别模块,用于对所述事件相关性进行聚类和根因识别,得到网络告警事件识别模型。
10.一种网络告警事件识别模型的训练设备,其特征在于,包括:处理器、存储器,所述存储器中存储代码,所述处理器运行所述存储器中存储的代码,以执行如权利要求1-8中任一项所述的网络告警事件识别模型的训练方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至8任一项所述的网络告警事件识别模型的训练方法。
CN202111676696.6A 2021-12-31 2021-12-31 网络告警事件识别模型的训练方法、设备及存储介质 Pending CN114358312A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111676696.6A CN114358312A (zh) 2021-12-31 2021-12-31 网络告警事件识别模型的训练方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111676696.6A CN114358312A (zh) 2021-12-31 2021-12-31 网络告警事件识别模型的训练方法、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114358312A true CN114358312A (zh) 2022-04-15

Family

ID=81106150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111676696.6A Pending CN114358312A (zh) 2021-12-31 2021-12-31 网络告警事件识别模型的训练方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114358312A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114978878A (zh) * 2022-05-12 2022-08-30 亚信科技(中国)有限公司 定位方法、装置、电子设备及计算机可读存储介质
CN115022218A (zh) * 2022-05-27 2022-09-06 中电信数智科技有限公司 一种分布式Netconf协议订阅告警阈值设置方法
CN115174355A (zh) * 2022-07-26 2022-10-11 杭州东方通信软件技术有限公司 故障根因定位模型的生成方法,故障根因定位方法和装置
CN116016121A (zh) * 2023-03-24 2023-04-25 卡奥斯工业智能研究院(青岛)有限公司 告警数据的关联数据确定方法、装置、设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114978878A (zh) * 2022-05-12 2022-08-30 亚信科技(中国)有限公司 定位方法、装置、电子设备及计算机可读存储介质
CN114978878B (zh) * 2022-05-12 2024-03-08 亚信科技(中国)有限公司 定位方法、装置、电子设备及计算机可读存储介质
CN115022218A (zh) * 2022-05-27 2022-09-06 中电信数智科技有限公司 一种分布式Netconf协议订阅告警阈值设置方法
CN115022218B (zh) * 2022-05-27 2024-01-19 中电信数智科技有限公司 一种分布式Netconf协议订阅告警阈值设置方法
CN115174355A (zh) * 2022-07-26 2022-10-11 杭州东方通信软件技术有限公司 故障根因定位模型的生成方法,故障根因定位方法和装置
CN115174355B (zh) * 2022-07-26 2024-01-19 杭州东方通信软件技术有限公司 故障根因定位模型的生成方法,故障根因定位方法和装置
CN116016121A (zh) * 2023-03-24 2023-04-25 卡奥斯工业智能研究院(青岛)有限公司 告警数据的关联数据确定方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN114358312A (zh) 网络告警事件识别模型的训练方法、设备及存储介质
CN110445653B (zh) 网络状态预测方法、装置、设备及介质
CN110443274B (zh) 异常检测方法、装置、计算机设备及存储介质
US9817893B2 (en) Tracking changes in user-generated textual content on social media computing platforms
US20190196938A1 (en) Machine Defect Prediction Based on a Signature
US7590513B2 (en) Automated modeling and tracking of transaction flow dynamics for fault detection in complex systems
USRE47933E1 (en) Reliability estimator for ad hoc applications
US8438189B2 (en) Local computation of rank contributions
US11810000B2 (en) Systems and methods for expanding data classification using synthetic data generation in machine learning models
US20200065160A1 (en) Automated api evaluation based on api parameter resolution
CN110619019B (zh) 数据的分布式存储方法及系统
US20200394448A1 (en) Methods for more effectively moderating one or more images and devices thereof
US10635521B2 (en) Conversational problem determination based on bipartite graph
CN117041019B (zh) 内容分发网络cdn的日志分析方法、装置及存储介质
CN110502432B (zh) 智能测试方法、装置、设备及可读存储介质
CN113792892A (zh) 联邦学习建模优化方法、设备、可读存储介质及程序产品
CN115361295B (zh) 基于topsis的资源备份方法、装置、设备及介质
CN113824797B (zh) 一种授课资源自适应同步方法及装置
US20230205618A1 (en) Performing root cause analysis on data center incidents
CN112861115B (zh) 基于区块链安全认证的加密策略调用方法及云认证服务器
CN117480510A (zh) 生成用于机器学习模型预测的置信度分数
JP2022037107A (ja) 障害分析装置、障害分析方法および障害分析プログラム
CN111062800A (zh) 数据处理方法、装置、电子设备及计算机可读介质
Cancela et al. Efficient estimation of distance‐dependent metrics in edge‐failing networks
CN109344049A (zh) 测试数据处理系统的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination