CN112953738B - 根因告警的定位系统、方法、装置、计算机设备 - Google Patents

根因告警的定位系统、方法、装置、计算机设备 Download PDF

Info

Publication number
CN112953738B
CN112953738B CN201911173566.3A CN201911173566A CN112953738B CN 112953738 B CN112953738 B CN 112953738B CN 201911173566 A CN201911173566 A CN 201911173566A CN 112953738 B CN112953738 B CN 112953738B
Authority
CN
China
Prior art keywords
alarm
information
equipment
root cause
alarm information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911173566.3A
Other languages
English (en)
Other versions
CN112953738A (zh
Inventor
王健
宋春咏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Shandong Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Shandong Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Shandong Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201911173566.3A priority Critical patent/CN112953738B/zh
Publication of CN112953738A publication Critical patent/CN112953738A/zh
Application granted granted Critical
Publication of CN112953738B publication Critical patent/CN112953738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Abstract

本发明实施例提供的一种根因告警的定位系统、方法、装置、存储介质和计算机设备的技术方案中,从告警信息的告警正文中提取出设备告警信息和链路告警信息,通过图团体检测算法对多个设备告警信息和多个链路告警信息进行计算,生成聚类结构,根据所述聚类结构确定出主因故障设备,根据获取的主因故障设备的告警信息,计算出根因告警,根据根因告警确定出发生根因告警的故障点的定位信息。通过图团体算法和根因告警计算公式,能够快速确定出故障点的定位信息,从而缩短了故障定位的时间,提高了故障的处理效率。

Description

根因告警的定位系统、方法、装置、计算机设备
【技术领域】
本发明涉及网络故障告警领域,具体地涉及一种根因告警的定位系统、方法、装置、存储介质和计算机设备。
【背景技术】
在相关技术中,告警监控使用的最为普及的技术是通过SOCKET、SNMP、COBA等协议经北向接口向故障管理系统网管传送设备告警CDR话单,故障管理系统根据设备侧提供的告警CDR话单进行解析,根据告警时间、设备名称、告警标题、告警级别等KEY字段进行标准化输出,形成故障管理系统的设备实时告警。
故障管理系统网管只进行批量的告警标准化转换,逐条呈现显示告警。因移动通信领域涉及多个专业,成千上万台设备,当出现大面积设备故障时,一秒内会同时上报数千条甚至数万条告警信息,而告警监控窗口最多也就同时呈现50条告警,当数万条告警同时上报时,就会导致监控窗口不停刷屏。要通过告警进行告警查看和故障定位,只能通过人工选定时间段将告警导出,再进行告警筛选分析,进行故障定位。因为告警量庞大,人工的告警导出和告警分析往往耗费了大量的时间,从而导致了延长了故障定位时间,降低了故障处理效率。
【发明内容】
有鉴于此,本发明提供一种根因告警的定位方法、装置、存储介质和计算机设备,通过图团体算法和根因告警计算公式,能够快速确定出故障点的定位信息,从而缩短了故障定位的时间,提高了故障的处理效率。
一方面,本发明实施例提供了一种根因告警的定位系统,包括:核心网设备、数据网设备、传输网设备、内容网设备、IT网设备、核心网网管、数据网网管、传输网网管、内容网网管、IT网网管、告警采集服务器以及运算服务器;
所述核心网网管,用于采集核心网设备的告警信息;所述数据网网管用于采集数据网设备的告警信息;所述传输网网管用于采集传输网设备的告警信息;所述内容网网管用于采集内容网设备的告警信息;所述IT网网管用于采集IT网设备的告警信息;
所述采集告警服务器,用于采集从所述核心网网管、所述数据网网管、所述传输网网管、所述内容网网管、以及所述IT网网管发送的告警信息,并将所述告警信息上传至告警数据库;
所述运算服务器,用于获取告警信息,所述告警信息包括告警正文;从所述告警正文中提取出设备告警信息和链路告警信息;通过图团体检测算法对多个设备告警信息和多个链路告警信息进行计算,生成聚类结构;根据所述聚类结构确定出主因故障设备;根据获取的主因故障设备的告警信息,计算出根因告警;根据根因告警确定出发生根因告警的故障点的定位信息。
可选地,该系统还包括:告警数据库和告警数据清洗模块;
所述告警数据库用于存储告警信息;
所述告警数据清洗模块用于在所述运算服务器从所述告警数据库获取告警信息之后,将所述告警信息进行数据清洗处理。
另一方面,本发明实施例提供了一种根因告警的定位方法,包括:
获取告警信息,所述告警信息包括告警正文;
从所述告警正文中提取出设备告警信息和链路告警信息;
通过图团体检测算法对多个设备告警信息和多个链路告警信息进行计算,生成聚类结构;
根据所述聚类结构确定出主因故障设备;
根据获取的主因故障设备的告警信息,计算出根因告警;
根据所述根因告警确定出发生根因告警的故障点的定位信息。
可选地,所述告警设备包括本端告警设备和对端告警设备;
所述通过图团体检测算法对多个设备告警信息和多个链路告警信息进行计算,生成聚类结构,包括:
从多个设备告警信息中筛选出多个告警设备;
从多个链路告警信息中筛选出多个告警链路;
若判断出所述多个告警链路为本端告警设备和对端告警设备的互联链路,将多个告警链路作为邻接矩阵的边;
将多个告警设备作为邻接矩阵的顶点,以形成邻接矩阵;
将所述邻接矩阵的每一行或每一列的交点处的值相加,得到每个顶点的顶点设备度;
将顶点设备度相同的告警设备中每个告警设备作为当前告警团体;
根据公式
Figure BDA0002289375990000031
计算出当前告警风暴的模块性,所述当前告警风暴包括多个当前告警团体,其中,M为告警团体的模块值,k为告警设备的顶点设备度,L为告警团体包含的边的数,N表示顶点的数量,ki表示顶点i的度,Aij的值为邻接矩阵中的值,ci表示顶点i的聚类,cj表示顶点j的聚类,
Figure BDA0002289375990000032
表示使用克罗内克函数δ计算后,若ci和cj相等返回1,表明ci和cj属于同一聚类;若ci和cj不相等返回0,表明ci和cj不属于同一聚类;
将克罗内克函数δ计算后ci和cj相等返回1的当前告警团体进行融合,生成下一个告警团体;
查询是否存在未被融合的告警团体;
若查询出存在所述未被融合的告警团体,则将下一个告警团体作为当前告警团体,继续执行所述根据公式
Figure BDA0002289375990000033
计算出当前告警风暴的模块性的步骤;
若查询出不存在所述未被融合的告警团体,则从多个当前告警风暴的模块性中选取出模块性最高的当前告警风暴,并生成模块性最高的当前告警风暴对应的聚类结构。
可选地,在所述将邻接矩阵的每一行或每一列的交点处的值相加,得到每个顶点的顶点设备度之前,还包括:
若所述本端告警设备与所述对端告警设备之间存在互联链路,则位于邻接矩阵中的所述本端告警设备和所述对端告警设备的交点处的值为1;
若所述本端告警设备与所述对端告警设备之间不存在互联链路,则位于邻接矩阵中的所述本端告警设备和所述对端告警设备的交点处的值为0。
可选地,所述告警信息包括告警级别;
所述根据获取的主因故障设备的告警信息,计算出根因告警,包括:
从主因故障设备的告警信息中统计出发生告警的故障点产生告警的次数,并将发生告警的故障点产生告警的次数确定为告警次数;
统计出与发生告警的故障点相关联的告警设备或告警链路产生告警的次数,并将发生告警的故障点相关联的告警设备或告警链路产生告警的次数确定为关联告警次数;
根据所述告警级别获取告警级别对应的告警级别权重;
根据公式告警值=(告警次数+关联告警次数)*告警级别权重,计算出多个告警值;
从多个告警值中选取最大的告警值作为根因告警。
可选地,所述告警信息包括告警发生地点;
所述根据根因告警确定出发生根因告警的故障点的定位信息,包括:
获取根因告警对应的告警信息,从所述根因告警对应的告警信息获取告警发生地点;
将告警发生地点确定为发生根因告警的故障点的定位信息。
另一方面,本发明实施例提供了一种根因告警的定位装置,所述装置包括:
获取模块,用于获取告警信息,所述告警信息包括告警正文;
第一计算模块,用于通过图团体检测算法对多个设备告警信息和多个链路告警信息进行计算,生成聚类结构;
确定模块,用于根据所述聚类结构确定出主因故障设备;根据根因告警确定出发生根因告警的故障点的定位信息;
第二计算模块,用于根据获取的主因故障设备的告警信息,计算出根因告警。
另一方面,本发明实施例提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述的根因告警的定位方法。
另一方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,所述程序指令被处理器加载并执行上述的根因告警的定位方法的步骤。
本发明实施例提供的技术方案中,从告警信息的告警正文中提取出设备告警信息和链路告警信息,通过图团体检测算法对多个设备告警信息和多个链路告警信息进行计算,生成聚类结构,根据所述聚类结构确定出主因故障设备,根据获取的主因故障设备的告警信息,计算出根因告警,根据根因告警确定出发生根因告警的故障点的定位信息。通过图团体算法和根因告警计算公式,能够快速确定出故障点的定位信息,从而缩短了故障定位的时间,提高了故障的处理效率。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明一实施例所提供的一种根因告警的定位系统的架构图;
图2是本发明一实施例所提供的一种根因告警的定位方法的流程图;
图3是本发明又一实施例所提供的一种根因告警的定位方法的流程图;
图4是本发明一实施例所提供的一种告警风暴的结构示意图;
图5是本发明一实施例所提供的一种聚类结构的结构示意图;
图6是本发明一实施例所提供的一种根因告警的定位装置的结构示意图;
图7为本发明实施例提供的一种计算机设备的示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,甲和/或乙,可以表示:单独存在甲,同时存在甲和乙,单独存在乙这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本发明一实施例提供的一种根因告警的定位系统的架构图,如图1所示,该系统包括:设备层1、告警接入层2以及操作维护中心(Operation and MaintenanceCenter,简称OMC)运算层3。
设备层1包括核心网设备101、数据网设备102、传输网设备103、内容网设备104、IT网设备105、核心网网管111、数据网网管112、传输网网管113、内容网网管114以及IT网网管115。其中,核心网网管111用于采集核心网设备101的告警信息。数据网网管112数据网网管112用于采集数据网设备102的告警信息。传输网网管113传输网网管113用于采集传输网设备103的告警信息。内容网网管114内容网网管114用于采集内容网设备104的告警信息。IT网网管115用于采集IT网设备105的告警信息。
本发明实施例中,当各个网管采集各自设备的告警信息之后,通过SOCKET、SNMP、COBA等协议经北向接口传送至采集服务器201。
告警接入层2包括告警采集服务器201、告警数据库202以及告警数据清洗模块203。采集告警服务器201用于采集从核心网网管111、数据网网管112、传输网网管113、内容网网管114以及IT网网管115发送的告警信息,并将告警信息上传至告警数据库202。告警数据库202用于存储告警信息。告警数据清洗模块203用于在运算服务器301从告警数据库202获取告警信息之后,将告警信息进行数据清洗处理。
OMC运算层3包括运算服务器301。运算服务器301用于获取告警信息,告警信息包括告警正文;从告警正文中提取出设备告警信息和链路告警信息;通过图团体检测算法对多个设备告警信息和多个链路告警信息进行计算,生成聚类结构;根据聚类结构确定出主因故障设备;根据获取的主因故障设备的告警信息,计算出根因告警;根据根因告警确定出发生根因告警的设备的定位信息。
图2为本发明一实施例提供的一种根因告警的定位方法的流程图,如图2所示,该方法包括:
步骤101、获取告警信息,告警信息包括告警正文。
步骤102、从告警正文中提取出告警设备信息和告警链路信息。
步骤103、通过图团体检测算法对多个告警设备信息和告警链路信息进行计算,生成聚类结构。
步骤104、根据聚类结构确定出主因故障设备。
步骤105、根据获取的主因故障设备的告警信息,计算出根因告警。
步骤106、根据根因告警确定出发生根因告警的故障点的定位信息。
本发明实施例提供的技术方案中,从告警信息的告警正文中提取出设备告警信息和链路告警信息,通过图团体检测算法对多个设备告警信息和多个链路告警信息进行计算,生成聚类结构,根据所述聚类结构确定出主因故障设备,根据获取的主因故障设备的告警信息,计算出根因告警,根据根因告警确定出发生根因告警的故障点的定位信息。通过图团体算法和根因告警计算公式,能够快速确定出故障点的定位信息,从而缩短了故障定位的时间,提高了故障的处理效率。
图3为本发明又一实施例提供的一种根因告警的定位方法的流程图,如图3所示,该方法包括:
步骤201、获取告警信息,告警信息包括告警正文、告警级别以及告警发生地点。
本发明实施例中,各步骤由运算服务器301执行。
本发明实施例中,运算服务器301可从告警数据库获取告警信息,告警信息除了包括告警正文、告警级别以及告警发生地点之外,还包括告警发生的设备名称、告警标题、告警发生的网管名称、告警发生的网元、故障原因描述等信息。
当运算服务器301可从告警数据库202获取告警信息之后,告警数据清洗模块203将告警信息进行数据清洗处理。例如数据清洗处理的过程可包括:清洗告警信息中的重复信息;剔除告警信息中冗余的信息;将告警信息中的信息进行标准化处理;剔除告警信息中的无用字段信息等。例如,核心网设备中设备A和设备B之间的链路发生故障,核心网网管会采集到由核心网设备中的设备A发送的告警信息和核心网设备中的设备B发送的告警信息,而实际上两个告警信息是相同的,只是告警信息中发生故障的本端告警设备和对端告警设备不同。因此告警数据清洗模块203从相同的两个告警信息中删除其中一个告警信息。
步骤202、从告警正文中提取出设备告警信息和链路告警信息。
本发明实施例中,告警正文包括设备告警信息、链路告警信息、告警发生时间等信息。
步骤203、从多个设备告警信息中筛选出多个告警设备。
将多个设备告警信息进行聚类,确定出多个告警设备。
在本发明实施例中,例如A地市的告警采集服务器在某一时刻获取了大量的告警信息,告警采集服务器将大量的告警信息上传至告警数据库之后,运算服务器经过告警数据清洗模块,从告警数据库获取到大量的告警信息,通过从告警信息中的告警正文中筛选出设备告警信息和链路告警信息。将多个设备告警信息进行聚类后,筛选出告警设备。例如,该告警设备包括网元CE1、网元CE2、交换机JNBSC1、交换机JNBSC2、交换机JNBSC3、交换机JNBSC4、路由器AR1、路由器AR2。所述聚类表示为将不同类型的设备的告警信息进行分类,将同一类型的设备的告警信息聚集。例如,从多个设备告警信息中聚类出网元CE1的告警信息有6个,网元CE2的告警信息有3个,从而确定出告警设备包括网元CE1和网元CE2。
在本发明实施例中,告警设备包括本端告警设备和对端告警设备。例如,网元CE1与网元CE2之间存在故障告警,在网元CE1的设备告警信息中,网元CE1为本端告警设备,网元CE2为对端告警设备。反之,在网元CE2的设备告警信息中,网元CE2为本端告警设备,网元CE1为对端告警设备。
步骤204、从多个链路告警信息中筛选出多个告警链路。
本发明实施例中,将多个链路告警信息进行聚类后,筛选出多个告警链路。例如从多个链路告警信息中,获取到网元CE1与网元CE2之间存在链路告警问题;网元CE1与路由器AR1之间存在链路告警问题;网元CE1与交换机JNBSC1之间存在链路告警问题;网元CE1与交换机JNBSC2之间存在链路告警问题;网元CE1与交换机JNBSC3之间存在链路告警问题;网元CE1与交换机JNBSC4之间存在链路告警问题;网元CE2与路由器AR2之间存在链路告警问题,因此将多个链路告警信息进行聚类后,筛选出出告警链路包括CE1-CE2、CE1-AR1、CE1-JNBSC1、CE1-JNBSC2、CE1-JNBSC3、CE1-JNBSC4、CE2-AR2。
本发明实施例中,在步骤204之后,还包括:根据多个告警设备和多个告警链路生成告警风暴。
本发明实施例中,如图4所示,在告警风暴中,发生故障告警的设备包括:网元CE1、网元CE2、交换机JNBSC1、交换机JNBSC2、交换机JNBSC3、交换机JNBSC4、路由器AR1、路由器AR2。发送故障告警的链路包括:CE1-CE2、CE1-AR1、CE1-JNBSC1、CE1-JNBSC2、CE1-JNBSC3、CE1-JNBSC4、CE2-AR2。
步骤205、若判断出多个告警链路为本端告警设备和对端告警设备的互联链路,将多个告警链路作为邻接矩阵的边。
本发明实施例中,例如,网元CE1与网元CE2的链路存在故障告警,若该链路为网元CE1和网元CE2的互联链路,将网元CE1与网元CE2的告警链路作为邻接矩阵的边。
步骤206、将多个告警设备作为邻接矩阵的顶点,以形成邻接矩阵。
在本发明实施例中,根据步骤203,确定出告警设备包括网元CE1、网元CE2、交换机JNBSC1、交换机JNBSC2、交换机JNBSC3、交换机JNBSC4、路由器AR1、路由器AR2,因此将网元CE1、网元CE2、交换机JNBSC1、交换机JNBSC2、交换机JNBSC3、交换机JNBSC4、路由器AR1、路由器AR2作为邻接矩阵的顶点。
步骤207、将邻接矩阵的每一行或每一列的交点处的值相加,得到每个顶点的顶点设备度。
本发明实施例中,在步骤207之前,还包括:若本端告警设备与对端告警设备之间存在互联链路,则位于邻接矩阵中的本端告警设备和对端告警设备的交点处的值为1;若本端告警设备与对端告警设备之间不存在互联链路,则位于邻接矩阵中的本端告警设备和对端告警设备的交点处的值为0。因此结合步骤206,得到的邻接矩阵如下表1所示:
表1
AR1 AR2 CE1 CE2 JNBSC1 JNBSC2 JNBSC3 JNBSC4
AR1 0 0 1 0 0 0 0 0
AR2 0 0 0 1 0 0 0 0
CE1 1 0 0 1 1 1 1 1
CE2 0 1 1 0 0 0 0 0
JNBSC1 0 0 1 0 0 0 0 0
JNBSC2 0 0 1 0 0 0 0 0
JNBSC3 0 0 1 0 0 0 0 0
JNBSC4 0 0 1 0 0 0 0 0
因此,根据上表1的邻接矩阵,可计算出每个顶点的顶点设备度。例如顶点AR1的顶点设备度为1,顶点AR2的顶点设备度为1,顶点CE1的顶点设备度为6,顶点CE2的顶点设备度为2,顶点JNBSC1的顶点设备度为1,顶点JNBSC2的顶点设备度为1,顶点JNBSC3的顶点设备度为1,顶点JNBSC4的顶点设备度为1。
步骤208、将顶点设备度相同的告警设备中每个告警设备作为当前告警团体。
本发明实施例中,将步骤207中,顶点设备度相同的告警设备分别作为当前告警团体。例如AR1、AR2、JNBSC1、JNBSC2、JNBSC3、JNBSC4的顶点设备度相同,分别将AR1、AR2、JNBSC1、JNBSC2、JNBSC3、JNBSC4分别作为当前告警团体。
步骤209、根据公式
Figure BDA0002289375990000111
计算出当前告警风暴的模块性,其中,M为告警团体的模块值,k为告警设备的顶点设备度,L为告警团体包含的边的数,N表示顶点的数量,ki表示顶点i的度,Aij的值为邻接矩阵中的值,ci表示顶点i的聚类,cj表示顶点j的聚类,
Figure BDA0002289375990000112
表示使用克罗内克函数δ计算后,若ci和cj相等返回1,表明ci和cj属于同一聚类;若ci和cj不相等返回0,表明ci和cj不属于同一聚类。
本发明实施例中,当前告警风暴包括多个当前告警团体。
步骤210、将克罗内克函数δ计算后ci和cj相等返回1的当前告警团体进行融合,生成下一个告警团体。
本发明实施例中,例如克罗内克函数δ计算后ci和cj相等返回1的当前告警团体包括JNBSC1、JNBSC2,将这两个当前告警团体进行融合,生成下一个告警团体。例如克罗内克函数δ计算后ci和cj相等返回1的当前告警团体还包括AR1、AR2,将这两个当前告警团体进行融合,生成下一个告警团体。
步骤211、查询是否存在未被融合的告警团体,若是,将下一个告警团体作为当前告警团体,并继续执行步骤209,若否,则执行步骤212。
本发明实施例中,若查询出存在未被融合的告警团体,表明还存在克罗内克函数δ计算后ci和cj相等返回1的当前告警团体可继续进行融合,因此继续执行步骤209。若查询出不存在未被融合的告警团体,表明不存在克罗内克函数δ计算后ci和cj相等返回1的当前告警团体,不能将当前告警团体再继续进行融合,因此执行步骤209。
步骤212、从多个当前告警风暴的模块性中选取出模块性最高的当前告警风暴,并生成模块性最高的当前告警风暴对应的聚类结构。
本发明实施例中,如图5所示,通过运算服务器选取出模块性最高的当前告警风暴之后,可生成模块性最高的当前告警风暴对应的聚类结构。该聚类结构中包告警团体CE1、告警团体CE2、告警团体AR1、告警团体AR2、告警团体JNBSC1、告警团体JNBSC2、告警团体JNBSC3、告警团体JNBSC4。该聚类结构中包括3个告警团体,其中,告警团体CE1为一个聚类,告警团体CE2为一个聚类,告警团体AR1、告警团体AR2、告警团体JNBSC1、告警团体JNBSC2、告警团体JNBSC3、告警团体JNBSC4为同一个聚类。
步骤213、根据聚类结构确定出主因故障设备。
具体地,从聚类结构中选取出中心度最大的告警团体,将中心度最大的告警团体确定为主因故障设备。
本发明实施例中,如图5所示,根据生成的聚类结构,可判断出中心度最大的是告警团体CE1。中心度为告警团体的团体面积,中心度越大,表明导致告警风暴的主因越大。从而根据聚类结构可确定出主因故障设备为CE1。
步骤214、从主因故障设备的告警信息中统计出发生告警的故障点产生告警的次数,并将发生告警的故障点产生告警的次数确定为告警次数。
本发明实施例中,通过获取CE1的告警信息,统计出CE1中的发送告警的设备产生的告警次数,将发生告警的故障点产生告警的次数确定为告警次数。例如,统计到网元CE1中故障点A发送告警的次数为5次,将5作为设备A的告警次数。
步骤215、统计出与发生告警的故障点相关联的告警设备或告警链路产生告警的次数,并将发生告警的故障点相关联的告警设备或告警链路产生告警的次数确定为关联告警次数。
本发明实施例中,例如统计到与故障点A相关联的告警设备AR1发送了告警2次告警,故障点A相关联的告警链路产生了1次告警,则关联告警次数为3次。
步骤216、根据告警级别获取告警级别对应的告警级别权重。
本发明实施例中,告警信息包括告警级别。告警级别包括一级告警、二级告警、三级告警以及四级告警。告警级别权重包括一级告警权重、二级告警权重、三级告警权重以及四级告警权重。其中,一级告警权重为100%,二级告警权重为30%,三级告警权重为1%,四级告警权重为0.3%。在本发明实施例中的告警级别权重是根据历史统计数据进行设置的,可根据不同的需求设置不同的告警级别权重值。
步骤217、根据公式告警值=(告警次数+关联告警次数)*告警级别权重,计算出多个告警值。
本发明实施例中,该告警值表示为发生告警的故障点产生故障告警的严重程度比值。例如从网元CE1中的故障点A的告警信息中获取到告警级别为一级告警,告警次数为5次,关联告警次数为3次,因此故障点A的告警值=(5+3)*100%=8。
步骤218、从多个告警值中选取最大的告警值作为根因告警。
步骤219、获取根因告警对应的告警信息,从根因告警对应的告警信息获取告警发生地点。
本发明实施例中,告警信息包括告警发生地点和告警发生的设备名称。例如告警值中最大的告警值为8,根据根因告警对应的告警信息获取到告警发生地点和告警发生的设备名称为故障点A。
步骤220、将告警发生地点确定为发生根因告警的故障点的定位信息。
本发明实施例中,例如将故障点A的告警发生的地点确定为根因告警的设备的定位信息。
本发明实施例提供的技术方案中,从告警信息的告警正文中提取出设备告警信息和链路告警信息,通过图团体检测算法对多个设备告警信息和多个链路告警信息进行计算,生成聚类结构,根据所述聚类结构确定出主因故障设备,根据获取的主因故障设备的告警信息,计算出根因告警,根据根因告警确定出发生根因告警的故障点的定位信息。通过图团体算法和根因告警计算公式,能够快速确定出故障点的定位信息,从而缩短了故障定位的时间,提高了故障的处理效率。
图6是本发明一实施例所提供的一种根因告警的定位装置的结构示意图,如图6所示,该装置包括:获取模块11、第一计算模块12、确定模块13以及第二计算模块14。
获取模块11用于获取告警信息,所述告警信息包括告警正文。
第一计算模块12用于通过图团体检测算法对多个设备告警信息和多个链路告警信息进行计算,生成聚类结构。
确定模块13用于根据所述聚类结构确定出主因故障设备;根据根因告警确定出发生根因告警的故障点的定位信息。
第二计算模块14用于根据获取的主因故障设备的告警信息,计算出根因告警。
本发明实施例中,该装置的第一计算模块12具体包括:筛选子模块121、判断子模块122、确定模块123、生成子模块124以及查询子模块125。
筛选子模块121用于从多个设备告警信息中筛选出多个告警设备;从多个链路告警信息中筛选出多个告警链路。
判断子模块122用于判断出所述多个告警链路是否为本端告警设备和对端告警设备的互联链路。
确定子模块123用于若判断子模块122判断出所述多个告警链路为本端告警设备和对端告警设备的互联链路,将多个告警链路作为邻接矩阵的边。
确定子模块123还用于将多个告警设备作为邻接矩阵的顶点,以形成邻接矩阵。
计算子模块122用于将所述邻接矩阵的每一行或每一列的交点处的值相加,得到每个顶点的顶点设备度。
确定子模块123还用于将顶点设备度相同的告警设备中每个告警设备作为当前告警团体。
计算子模块122还用于根据公式
Figure BDA0002289375990000151
计算出当前告警风暴的模块性,所述当前告警风暴包括多个当前告警团体,其中,M为告警团体的模块值,k为告警设备的顶点设备度,L为告警团体包含的边的数,N表示顶点的数量,ki表示顶点i的度,Aij的值为邻接矩阵中的值,ci表示顶点i的聚类,cj表示顶点j的聚类,
Figure BDA0002289375990000152
表示使用克罗内克函数δ计算后,若ci和cj相等返回1,表明ci和cj属于同一聚类;若ci和cj不相等返回0,表明ci和cj不属于同一聚类。
生成子模块124用于将克罗内克函数δ计算后ci和cj相等返回1的当前告警团体进行融合,生成下一个告警团体。
查询子模块125用于查询是否存在未被融合的告警团体。
若查询子模块125查询出存在未被融合的告警团体,则将下一个告警团体作为当前告警团体,触发计算模块122继续执行所述根据公式
Figure BDA0002289375990000161
Figure BDA0002289375990000162
计算出当前告警风暴的模块性的步骤。
若查询子模块125查询出不存在未被融合的告警团体,则触发选取子模块126从多个当前告警风暴的模块性中选取出模块性最高的当前告警风暴,并触发生成子模块124生成模块性最高的当前告警风暴对应的聚类结构。
本发明实施例中,该装置第一计算模块12,还包括:
若判断子模块122判断出所述本端告警设备与所述对端告警设备之间存在互联链路,则位于邻接矩阵中的所述本端告警设备和所述对端告警设备的交点处的值为1;
若判断子模块122判断出所述本端告警设备与所述对端告警设备之间不存在互联链路,则位于邻接矩阵中的所述本端告警设备和所述对端告警设备的交点处的值为0。
本发明实施例中,该装置第二计算模块14还包括:统计子模块141、确定子模块142、获取子模块143、计算子模块144以及选取子模块145。
统计子模块141用于从主因故障设备的告警信息中统计出发生告警的故障点产生告警的次数;统计出与发生告警的故障点相关联的设备产生告警的次数。
确定子模块142用于将发生告警的故障点产生告警的次数确定为告警次数;将发生告警的故障点相关联的设备产生告警的次数确定为关联告警次数。
获取子模块143用于根据所述告警级别获取告警级别对应的告警级别权重。
计算子模块144用于根据公式告警值=(告警次数+关联告警次数)*告警级别权重,计算出多个告警值。
选取子模块145用于从多个告警值中选取最大的告警值作为根因告警。
本发明实施例中,该装置确定模块13还包括:获取子模块131和确定子模块132。
获取子模块131用于获取根因告警对应的告警信息,从所述根因告警对应的告警信息获取告警发生地点。
确定子模块132用于将告警发生地点确定为发生根因告警的故障点的定位信息。
本发明实施例提供的技术方案中,从告警信息的告警正文中提取出设备告警信息和链路告警信息,通过图团体检测算法对多个设备告警信息和多个链路告警信息进行计算,生成聚类结构,根据所述聚类结构确定出主因故障设备,根据获取的主因故障设备的告警信息,计算出根因告警,根据根因告警确定出发生根因告警的故障点的定位信息。通过图团体算法和根因告警计算公式,能够快速确定出故障点的定位信息,从而缩短了故障定位的时间,提高了故障的处理效率。
本发明实施例提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述根因告警的定位方法的实施例的各步骤,具体描述可参见上述根因告警的定位方法的实施例。
本发明实施例提供了一种计算机设备,包括存储器和处理器,存储器用于存储包括程序指令的信息,处理器用于控制程序指令的执行,程序指令被处理器加载并执行时实现上述根因告警的定位方法的步骤。具体描述可参见上述根因告警的定位方法的实施例。
图7为本发明实施例提供的一种计算机设备的示意图。如图7所示,该实施例的计算机设备4包括:处理器41、存储器42以及存储在存储42中并可在处理器41上运行的计算机程序43,该计算机程序43被处理器41执行时实现实施例中的应用于根因告警的定位方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器41执行时实现实施例中应用于根因告警的定位装置中各模型/单元的功能,为避免重复,此处不一一赘述。
计算机设备4包括,但不仅限于,处理器41、存储器42。本领域技术人员可以理解,图7仅仅是计算机设备4的示例,并不构成对计算机设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备4还可以包括输入输出设备、网络接入设备、总线等。
所称处理器41可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器42可以是计算机设备4的内部存储单元,例如计算机设备4的硬盘或内存。存储器42也可以是计算机设备4的外部存储设备,例如计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。进一步地,存储器42还可以既包括计算机设备4的内部存储单元也包括外部存储设备。存储器42用于存储计算机程序以及计算机设备4所需的其他程序和数据。存储器42还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种根因告警的定位系统,其特征在于,包括:核心网设备、数据网设备、传输网设备、内容网设备、IT网设备、核心网网管、数据网网管、传输网网管、内容网网管、IT网网管、告警采集服务器以及运算服务器;
所述核心网网管,用于采集核心网设备的告警信息;所述数据网网管用于采集数据网设备的告警信息;所述传输网网管用于采集传输网设备的告警信息;所述内容网网管用于采集内容网设备的告警信息;所述IT网网管用于采集IT网设备的告警信息;
所述采集告警服务器,用于采集从所述核心网网管、所述数据网网管、所述传输网网管、所述内容网网管、以及所述IT网网管发送的告警信息,并将所述告警信息上传至告警数据库;
所述运算服务器,用于获取告警信息,所述告警信息包括告警正文;从所述告警正文中提取出设备告警信息和链路告警信息;通过图团体检测算法对多个设备告警信息和多个链路告警信息进行计算,生成聚类结构;根据所述聚类结构确定出主因故障设备;根据获取的主因故障设备的告警信息,计算出根因告警;根据根因告警确定出发生根因告警的故障点的定位信息。
2.根据权利要求1所述的系统,其特征在于,还包括:告警数据库和告警数据清洗模块;
所述告警数据库用于存储告警信息;
所述告警数据清洗模块用于在所述运算服务器从所述告警数据库获取告警信息之后,将所述告警信息进行数据清洗处理。
3.一种根因告警的定位方法,其特征在于,包括:
获取告警信息,所述告警信息包括告警正文;
从所述告警正文中提取出设备告警信息和链路告警信息;
通过图团体检测算法对多个设备告警信息和多个链路告警信息进行计算,生成聚类结构;
根据所述聚类结构确定出主因故障设备;
根据获取的主因故障设备的告警信息,计算出根因告警;
根据所述根因告警确定出发生根因告警的故障点的定位信息。
4.根据权利要求3所述的方法,其特征在于,所述告警设备包括本端告警设备和对端告警设备;
所述通过图团体检测算法对多个设备告警信息和多个链路告警信息进行计算,生成聚类结构,包括:
从多个设备告警信息中筛选出多个告警设备;
从多个链路告警信息中筛选出多个告警链路;
若判断出所述多个告警链路为本端告警设备和对端告警设备的互联链路,将多个告警链路作为邻接矩阵的边;
将多个告警设备作为邻接矩阵的顶点,以形成邻接矩阵;
将所述邻接矩阵的每一行或每一列的交点处的值相加,得到每个顶点的顶点设备度;
将顶点设备度相同的告警设备中每个告警设备作为当前告警团体;
根据公式
Figure FDA0003503834640000021
计算出当前告警风暴的模块性,所述当前告警风暴包括多个当前告警团体,其中,M为告警团体的模块值,k为告警设备的顶点设备度,L为告警团体包含的边的数,N表示顶点的数量,ki表示顶点i的度,Aij的值为邻接矩阵中的值,ci表示顶点i的聚类,cj表示顶点j的聚类,
Figure FDA0003503834640000022
表示使用克罗内克函数δ计算后,若ci和cj相等返回1,表明ci和cj属于同一聚类;若ci和cj不相等返回0,表明ci和cj不属于同一聚类;
将克罗内克函数δ计算后ci和cj相等返回1的当前告警团体进行融合,生成下一个告警团体;
查询是否存在未被融合的告警团体;
若查询出存在所述未被融合的告警团体,则将下一个告警团体作为当前告警团体,继续执行所述根据公式
Figure FDA0003503834640000031
计算出当前告警风暴的模块性的步骤;
若查询出不存在所述未被融合的告警团体,则从多个当前告警风暴的模块性中选取出模块性最高的当前告警风暴,并生成模块性最高的当前告警风暴对应的聚类结构。
5.根据权利要求4所述的方法,其特征在于,在所述将邻接矩阵的每一行或每一列的交点处的值相加,得到每个顶点的顶点设备度之前,还包括:
若所述本端告警设备与所述对端告警设备之间存在互联链路,则位于邻接矩阵中的所述本端告警设备和所述对端告警设备的交点处的值为1;
若所述本端告警设备与所述对端告警设备之间不存在互联链路,则位于邻接矩阵中的所述本端告警设备和所述对端告警设备的交点处的值为0。
6.根据权利要求3所述的方法,其特征在于,所述告警信息包括告警级别;
所述根据获取的主因故障设备的告警信息,计算出根因告警,包括:
从主因故障设备的告警信息中统计出发生告警的故障点产生告警的次数,并将发生告警的故障点产生告警的次数确定为告警次数;
统计出与发生告警的故障点相关联的告警设备或告警链路产生告警的次数,并将发生告警的故障点相关联的告警设备或告警链路产生告警的次数确定为关联告警次数;
根据所述告警级别获取告警级别对应的告警级别权重;
根据公式告警值=(告警次数+关联告警次数)*告警级别权重,计算出多个告警值;
从多个告警值中选取最大的告警值作为根因告警。
7.根据权利要求3所述的方法,其特征在于,所述告警信息包括告警发生地点;
所述根据根因告警确定出发生根因告警的故障点的定位信息,包括:
获取根因告警对应的告警信息,从所述根因告警对应的告警信息获取告警发生地点;
将告警发生地点确定为发生根因告警的故障点的定位信息。
8.一种根因告警的定位装置,其特征在于,所述装置包括:
获取模块,用于获取告警信息,所述告警信息包括告警正文;
第一计算模块,用于通过图团体检测算法对多个设备告警信息和多个链路告警信息进行计算,生成聚类结构;
确定模块,用于根据所述聚类结构确定出主因故障设备;根据根因告警确定出发生根因告警的故障点的定位信息;
第二计算模块,用于根据获取的主因故障设备的告警信息,计算出根因告警。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求3至7中任意一项所述的根因告警的定位方法。
10.一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,其特征在于,所述程序指令被处理器加载并执行时实现权利要求3至7任意一项所述的根因告警的定位方法的步骤。
CN201911173566.3A 2019-11-26 2019-11-26 根因告警的定位系统、方法、装置、计算机设备 Active CN112953738B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911173566.3A CN112953738B (zh) 2019-11-26 2019-11-26 根因告警的定位系统、方法、装置、计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911173566.3A CN112953738B (zh) 2019-11-26 2019-11-26 根因告警的定位系统、方法、装置、计算机设备

Publications (2)

Publication Number Publication Date
CN112953738A CN112953738A (zh) 2021-06-11
CN112953738B true CN112953738B (zh) 2022-06-10

Family

ID=76225193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911173566.3A Active CN112953738B (zh) 2019-11-26 2019-11-26 根因告警的定位系统、方法、装置、计算机设备

Country Status (1)

Country Link
CN (1) CN112953738B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113691311B (zh) * 2021-08-27 2022-12-06 中国科学院半导体研究所 光网络的故障定位方法、电子设备及计算机可读存储介质
CN113740666B (zh) * 2021-08-27 2022-12-09 西安交通大学 一种数据中心电力系统告警风暴根源故障的定位方法
CN113641526B (zh) * 2021-09-01 2024-04-05 京东科技信息技术有限公司 告警根因定位方法、装置、电子设备及计算机存储介质
CN113708977B (zh) * 2021-09-27 2023-05-23 中国工商银行股份有限公司 获取根因告警信息的方法、装置、计算机设备和存储介质
CN116155692B (zh) * 2023-02-24 2023-11-24 北京优特捷信息技术有限公司 告警解决方案推荐方法、装置、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10805185B2 (en) * 2018-02-14 2020-10-13 Cisco Technology, Inc. Detecting bug patterns across evolving network software versions
CN110309009B (zh) * 2019-05-21 2022-05-13 北京云集智造科技有限公司 基于情境的运维故障根因定位方法、装置、设备及介质
CN110351118B (zh) * 2019-05-28 2020-12-01 华为技术有限公司 根因告警决策网络构建方法、装置和存储介质
CN110493042B (zh) * 2019-08-16 2022-09-13 中国联合网络通信集团有限公司 故障诊断方法、装置及服务器

Also Published As

Publication number Publication date
CN112953738A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN112953738B (zh) 根因告警的定位系统、方法、装置、计算机设备
WO2018103453A1 (zh) 检测网络的方法和装置
CN110096410A (zh) 告警信息处理方法、系统、计算机装置及可读存储介质
CN110851321B (zh) 一种业务告警方法、设备及存储介质
CN101997709A (zh) 一种根告警数据分析的方法及其系统
CN113297042B (zh) 一种告警消息的处理方法、装置及设备
CN111596924A (zh) 一种微服务划分方法和装置
CN111756560A (zh) 一种数据处理方法、装置及存储介质
CN112769605A (zh) 一种异构多云的运维管理方法及混合云平台
CN113271224A (zh) 节点的定位方法、装置、存储介质及电子装置
CN113497716B (zh) 相似故障推荐方法及相关设备
Solmaz et al. ALACA: A platform for dynamic alarm collection and alert notification in network management systems
CN112784025B (zh) 一种目标事件的确定方法和装置
CN116668264A (zh) 一种告警聚类的根因分析方法、装置、设备及存储介质
CN116074215B (zh) 网络质量检测方法、装置、设备及存储介质
CN105634781B (zh) 一种多故障数据解耦方法和装置
CN111431733A (zh) 服务告警覆盖信息的评估方法及装置
CN112528132A (zh) 一种管理网络的方法和一种网管系统
CN115514627A (zh) 一种故障根因定位方法、装置、电子设备及可读存储介质
CN115827363A (zh) 资源告警分析方法、装置、电子设备和存储介质
CN112187543A (zh) 一种云平台事件监控系统、方法及电子设备
CN114422324B (zh) 一种告警信息的处理方法、装置、电子设备及存储介质
CN117555501B (zh) 基于边缘计算的云打印机运维数据处理方法以及相关装置
CN115001147B (zh) 一种光伏发电数据采集方法、系统及云平台
US20230099325A1 (en) Incident management system for enterprise operations and a method to operate the same

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant