CN114327988B - 一种可视化网络故障关系确定方法和装置 - Google Patents

一种可视化网络故障关系确定方法和装置 Download PDF

Info

Publication number
CN114327988B
CN114327988B CN202111672125.5A CN202111672125A CN114327988B CN 114327988 B CN114327988 B CN 114327988B CN 202111672125 A CN202111672125 A CN 202111672125A CN 114327988 B CN114327988 B CN 114327988B
Authority
CN
China
Prior art keywords
equipment
alarm
alarm event
fault
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111672125.5A
Other languages
English (en)
Other versions
CN114327988A (zh
Inventor
胡天奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan Shenzhou Taiyue Software Co ltd
Original Assignee
Hainan Shenzhou Taiyue Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan Shenzhou Taiyue Software Co ltd filed Critical Hainan Shenzhou Taiyue Software Co ltd
Priority to CN202111672125.5A priority Critical patent/CN114327988B/zh
Publication of CN114327988A publication Critical patent/CN114327988A/zh
Application granted granted Critical
Publication of CN114327988B publication Critical patent/CN114327988B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提供一种可视化网络故障关系确定方法和装置。该可视化网络故障关系确定方法包括:获取多个设备的告警事件;分析告警事件,得到一个或多个告警事件集合,其中,每个告警事件集合包括多个具有关联关系的告警事件;根据告警事件集合和设备关系拓扑图确定与告警事件集合对应的设备集合;其中,告警事件集合中的告警事件与设备集合中的设备相对应;在设备关系拓扑图中标注设备集合,得到故障关系拓扑图。通过该方法,可以得到故障关系拓扑图,而用户可以快捷直观的了解所出现的告警事件集合中告警事件的分布和影响范围,以及告警事件集合对应的设备集合中设备间的连接关系,以对告警事件进一步进行分析。

Description

一种可视化网络故障关系确定方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及一种可视化网络故障关系确定方法、装置、电子设备及存储介质。
背景技术
在通讯系统中,设备通过告警提示用户设备发生故障或者设备因为受到其他故障设备的影响无法正常工作,然而由于网络环境复杂,部署的设备的繁多,导致告警数据的数量非常大。在这种情况下,运维人员需要从繁复的告警数据中对告警数据进行分析,而由于庞大的告警事件数据缺乏逻辑性和归纳性,运维人员无法直观的从告警数据中得到各告警事件的关联性以及与告警事件关联设备的分布情况,从而难以对告警数据做出合理的分析。
发明内容
本申请实施例的目的在于提供一种可视化网络故障关系确定方法、装置、电子设备及存储介质,以改善上述无法直观的从告警数据中得到各告警事件的关联性以及与告警事件关联设备的分布情况的技术问题。
第一方面,本申请实施例提供了一种可视化网络故障关系确定方法,方法包括:获取多个设备的告警事件;分析告警事件,得到一个或多个告警事件集合,其中,每个告警事件集合包括多个具有关联关系的告警事件;根据告警事件集合和设备关系拓扑图确定与告警事件集合对应的设备集合;其中,告警事件集合中的告警事件与设备集合中的设备相对应;在设备关系拓扑图中标注设备集合,得到故障关系拓扑图。在上述实现过程中,通过对告警信息分析得到关联关系,进而得到告警事件集合并进一步得到该告警事件集合对应的设备集合,然后在设备关系拓扑图中标注设备集合以得到故障关系拓扑图。通过故障关系拓扑图用户可以快捷直观的了解所出现的告警事件的分布和影响范围,以及告警事件集合对应的设备集合中设备之间的连接关系,以对告警事件进一步进行分析。
可选地,在本申请实施例中,其中,告警事件对应的设备包括:故障设备和影响设备,影响设备为受到故障设备影响而出现告警事件的设备;在设备关系拓扑图中标注设备集合,得到故障关系拓扑图,包括:根据设备集合中多个设备在设备关系拓扑图中的连接关系,使用中心性算法对设备集合中多个设备的度中心性进行计算,确定故障设备和影响设备。在上述实现过程中,通过中心算法可以进一步可以在告警事件对应的设备中高效地定位出哪些是故障设备哪些是影响设备。
可选地,在本申请实施例中,在设备关系拓扑图中标注设备集合,得到故障关系拓扑图,还包括:在设备关系拓扑图中标注设备集合中的故障设备和影响设备。在上述实现过程中,在设备关系拓扑图中标注故障设备和影响设备使得用户可以通过故障拓扑关系图直观的了解告警事件中故障设备和影响设备的分布,基于上述故障关系拓扑图,用户可以准确地对告警事件进行分析。
可选地,在本申请实施例中,分析告警事件,得到一个或多个告警事件集合,包括:将多个设备的告警事件与关系规则模型匹配,确定告警事件之间的关联关系,并根据告警事件之间的关联关系确定一个或多个告警事件集合;其中,关系规则模型通过以下步骤获取:采集多个设备的历史告警数据;其中,多个设备包括故障设备和影响设备;对历史告警数据进行预处理,并根据预设的时间窗口汇聚具有事件相关性和资源相关性的告警数据,得到训练集;以及使用关联规则挖掘算法对训练集进行数据挖掘,得到关系规则模型。在上述实现过程中,通过关联规则挖掘算法对大量的历史告警数据进行挖掘得到关系规则模型,进而得到告警事件值之间的关联关系,从而方便在后续对告警事件分析时可以对具有关联性的告警事件合并分析,以提高在后续在确定与告警事件关联的设备中哪些是故障设备,哪些是影响设备时的准确性。
可选地,在本申请实施例中,其中,事件相关性包括多个历史告警事件的告警类型相同和/或多个历史告警事件之间具有因果关系、类型关系。
可选地,在本申请实施例中,其中,资源相关性包括多个历史告警事件之间的资源具有逻辑关系。
可选地,在本申请实施例中,方法还包括:根据具有关联关系的告警事件,进行故障分析,并展示故障分析结果。。在上述实现过程中,用户可以直接得到故障分析,根据该故障分析,用户可以根据实际情况进一步分析,减少了用户分析的工作量。
第二方面,本申请实施例还提供了一种可视化网络故障关系确定装置,装置包括:获取模块,用于获取多个设备的告警事件;分析模块,用于分析告警事件,得到一个或多个告警事件集合,其中,每个告警事件集合包括多个具有关联关系的告警事件;分析模块,还用于根据告警事件集合和设备关系拓扑图确定与告警事件集合对应的设备集合;其中,告警事件集合中的告警事件与设备集合中的设备相对应;拓扑图生成模块,用于在设备关系拓扑图中标注设备集合,得到故障关系拓扑图。
可选地,在本申请实施例中,其中,告警事件对应的设备包括:故障设备和影响设备,影响设备为受到故障设备影响而出现告警事件的设备;分析模块具体用于根据设备集合中多个设备在设备关系拓扑图中的连接关系,使用中心性算法对设备集合中多个设备的度中心性进行计算,确定故障设备和影响设备。
可选地,在本申请实施例中,拓扑图生成模块具体用于在设备关系拓扑图中标注设备集合中的故障设备和影响设备。
可选地,在本申请实施例中,分析模块具体用于将多个设备的告警事件与关系规则模型匹配,确定告警事件之间的关联关系,并根据告警事件之间的关联关系确定一个或多个告警事件集合;其中,关系规则模型通过以下步骤获取:采集多个设备的历史告警数据;其中,多个设备包括故障设备和影响设备;对历史告警数据进行预处理,并根据预设的时间窗口汇聚具有事件相关性和资源相关性的告警数据,得到训练集;以及使用关联规则挖掘算法对训练集进行数据挖掘,得到关系规则模型。
可选地,在本申请实施例中,装置还包括:故障分析模块,用于根据具有关联关系的告警事件,进行故障分析,并展示故障分析结果。
可选地,在本申请实施例中,装置还包括:展示模块,用于展示故障关系拓扑图和故障分析。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上面第一方面描述的方法。
本申请实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上面第一方面描述的方法。
通过申请实施例提供了一种可视化网络故障关系确定方法,本方法首先获取多个设备的告警事件,然后通过对告警信息分析得到告警事件集合并进一步结合设备关系拓扑图得到设备集合,然后在设备关系拓扑图中标注设备集合以得到故障关系拓扑图。通过故障关系拓扑图用户可以快捷直观的了解所出现的告警事件的分布以及设备集合中设备之间的连接关系和影响范围,以对告警事件进一步进行分析。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种可视化网络故障关系确定方法的流程示意图;
图2为本申请实施例提供的故障关系拓扑图;
图3为本申请实施例提供的网络故障可视化的另一种流程图;
图4为本申请实施例提供的一种可视化网络故障关系确定装置的结构示意图;以及
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
术语“第一”、“第二”等仅用于将一个实体或者操作与另一个实体或操作区分开来,而不能理解为指示或暗示相对重要性,也不能理解为要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
需要说明的是,本申请实施例提供的可视化网络故障关系确定方法可以被电子设备执行,这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器,设备终端例如:个人电脑(personal computer,PC)、平板电脑、个人数字助理(personal digitalassistant,PDA)、移动上网设备(mobile Internet device,MID)、网络交换机或网络路由器等。
在介绍本申请实施例提供的可视化网络故障关系确定方法之前,先介绍该可视化网络故障关系确定方法适用的应用场景,这里的应用场景包括:在云网融合架构系统下,需要将大量的设备连接且设备之间的连接关系复杂程度很高,若一个设备出现故障往往可能导致多个设备发出告警,若仅仅是汇聚所有的告警事件数据发送给用户,由于庞大的告警事件数据缺乏逻辑性,用户难以对其做出合理的分析。因此,可以使用本发明中所提供的可视化网络故障关系确定方法对告警信息进行分析,并对网络故障关系通过故障关系拓扑图进行展示,以使得用户可以全面直观的了解所出现的告警事件的分布以及告警事件对应的设备之间的分布情况和连接关系,以对告警事件进一步进行分析。
请参照图1,图1为本申请实施例提供的一种可视化网络故障关系确定方法的流程示意图,该一种可视化网络故障关系确定方法,包括:
步骤S100:获取多个设备的告警事件。
上述步骤S100中,多个设备包括因为发生故障而发出告警的故障设备和因为受到故障设备的影响而发出告警的影响设备。
步骤S200:分析告警事件,得到一个或多个告警事件集合。
上述步骤S200中,其中,每个告警事件集合包括多个具有关联关系的告警事件。
步骤S300:根据告警事件集合和设备关系拓扑图确定与告警事件集合对应的设备集合。
上述步骤S300中,告警事件集合中的告警事件与设备集合中的设备相对应。
上述步骤S200-步骤S300,请参见图2,图2为本申请实施例提供的故障关系拓扑图;具体例如,在步骤S100获取的告警事件包括:路由器1出现的告警事件1,交换机1出现的告警事件2、交换机2出现的告警事件3、路由器2出现的告警事件4、路由器3出现的告警事件5、交换机4出现的告警事件6、主机6出现的告警事件7和主机7出现的告警事件8,通过步骤S300对告警事件分析得到告警事件1、告警事件2、告警事件3、告警事件4和告警事件5具有关联关系,也就是说告警事件1、告警事件2、告警事件3、告警事件4和告警事件5为一个告警事件集合(以下称告警事件集合1));通过告警事件集合1)可以得到对应的设备集合,即交换机1、交换机2、路由器1、路由器2以及路由器3为告警事件集合1)对应的设备集合(以下称设备集合1)。同理,通过步骤S300对分析告警事件得到告警事件6、告警事件7以及告警事件8具有关联关系,也就是说告警事件6、告警事件7以及告警事件8为另一个告警事件集合(以下称告警事件集合2),找到告警事件集合2对应的设备集合,即交换机4、主机6和主机7为另一个设备集合(以下称告警事件集合2)。
步骤S400:在设备关系拓扑图中标注设备集合,得到故障关系拓扑图。
上述步骤S400中,在一个优选的实施例中,可以通过将多个不同设备集合的连接线用不同样式以在故障关系拓扑图中区分不同的设备集合。具体例如,请继续参见图2,其中虚线相连接的为设备集合1,粗实线为设备集合2。需要说明的是,上述区别不同关联设备集合的方式仅仅为示意性的,在实际应用场景中还可以通过其他方式对不同的关联设备集合进行区分,例如同一关联设备集合的设备缩略图采用同一颜色等等,本实施例提供的通过连接线的样式区分不同关联设备集合不应理解为对本申请的限制。同时,通过对标注设备集合可以区分设备关系拓扑图中哪些设备处于正常状态,哪些设备处理异常状态。请继续参见图2,设备集合1和设备集合2中的设备处于异常状态,即交换机1、交换机2、路由器1、路由器2以及路由器3,以及交换机4、主机6和主机7处于异常状态,其余设备(主机1、主机2、主机3、主机4、主机5、主机8、交换机3、交换机5和路由器4)处于正常状态。
在上述实现过程中,通过对告警信息分析得到关联关系,进而得到告警事件集合并进一步得到该告警事件集合对应的设备集合,然后在设备关系拓扑图中标注设备集合以得到故障关系拓扑图。通过故障关系拓扑图用户可以快捷直观的了解所出现的告警事件集合中告警事件的分布和影响范围,以及告警事件集合对应的设备集合中设备之间的连接关系,以对告警事件进一步进行分析。
需要说明的是,在实际应用场景中,可能出现一个告警事件集合中只包括一个告警事件的情况,对于上述情况则直接在设备关系拓扑图中将该告警事件对应的设备标注出来即可。
另外,设备关系拓扑图的图数据库中存储了设备标识、设备型号、设备名称、设备IP、设备CPU、内存等设备数据,在一个优选的实施例中,设备拓扑图中的设备之间的连接关系是根据云网融合架构系统中设备的连接关系设置的。
在一些可选的实施例中,其中,告警事件对应的设备包括:故障设备和影响设备,影响设备为受到故障设备影响而出现告警事件的设备;步骤S300(在设备关系拓扑图中标注设备集合,得到故障关系拓扑图)包括:根据设备集合中多个设备在设备关系拓扑图中的连接关系,使用中心性算法对设备集合中多个设备的度中心性进行计算,确定故障设备和影响设备。
需要说明的是,度中心性(Degree Centrality)的大小可以表现测量网络中一个节点与所有其它节点相联系的程度,度中心性越高说明该节点与所有其它节点相联系的程度越高,在网络中与该节点直接连接的其他节点数量也就越多。具体例如,对于一个拥有g个节点的无向图,节点i的度中心性是i与其它(g-1)个节点的直接联系总数。
可以理解的是,在本申请中,故障设备与该关联设备集合中的所有影响设备相连,因此,度中心性最高的设备即为故障设备,其他的设备即为影响设备。以图2中设备集合1为例,路由器1与4个设备(路由器2、路由器3、交换机1和交换机2)相连,可以得到路由器1的度中心性值为4;路由器2与两个设备相连(交换机1和路由器1),可以得到路由器2的度中心性值为2,同理,交换机1、交换机2和路由器3的度中心性值也为2。在设备集合1中路由器1的中心性值为4,比其他设备更高,因此,路由器1为故障设备,路由器2、路由器3、交换机1和交换机2为影响设备。
在一个优选的实施例中,其中,告警事件对应的设备包括:故障设备和影响设备,影响设备为受到故障设备影响而出现告警事件的设备;步骤S300(在设备关系拓扑图中标注设备集合,得到故障关系拓扑图)包括:根据告警事件集合查询数据库,确定故障设备和影响设备。
上述实现过程中,在数据库中存储有每种告警事件集合对应的故障设备和影响设备。这样,在实际的应用场景中,只需要查询该告警事件集合下对应的故障设备和影响设备,不需要进行计算,可以节省计算资源。
在一些可选的实施例中,步骤S400(在设备关系拓扑图中标注设备集合,得到故障关系拓扑图)还包括:在设备关系拓扑图中标注设备集合中的故障设备和影响设备。在一个优选的实施例中,故障设备的旁边将会显示“故障设备”的标识,影响设备的旁边将会显示“影响设备”的标识。请继续参见图2,其中在设备集合1中故障设备为路由器1,影响设备为交换机1、交换机2、路由器2以及路由器3。在设备集合2中故障设备为交换机4,影响设备为主机6和主机7。
在上述实现过程中,在设备关系拓扑图中标注故障设备和影响设备使得用户可以通过故障拓扑关系图直观的了解告警事件中故障设备和影响设备的分布,基于上述故障关系拓扑图,用户可以准确地对告警事件进行分析。
在一些可选的实施例中,步骤S200(分析告警事件,得到一个或多个告警事件集合)包括:将多个设备的告警事件与关系规则模型匹配,确定告警事件之间的关联关系,并根据告警事件之间的关联关系确定一个或多个告警事件集合。其中,关系规则模型匹配通过以下步骤获得:
步骤S1:采集多个设备的历史告警数据。
步骤S1中,多个设备包括故障设备和影响设备。
步骤S2:对历史告警数据进行预处理,并根据预设的时间窗口汇聚具有事件相关性和资源相关性的告警数据,得到训练集。
步骤S2中,对历史告警数据进行预处理的作用是检查数据的质量,如果数据有缺失或数据范围超出、数据类型错误等进行处理,对不符合标准的数据进行缺失值处理、标准化、规范化等。
另外,步骤S2中汇聚预设的时间窗口内的告警数据可以保证告警事件之间具有时间相关性。可以理解地,具有关联关系的告警数据出现的时间都比较接近,出现时间间隔过长的告警数据往往不具有关联性。具体例如,A设备发生了故障从而使得A设备出现了告警事件A,B设备因为A设备的影响而不能正常工作因此出现告警事件B,由于这种影响往往是直接快速的,因此告警事件B和告警事件A的出现时间会相对接近不会间隔过于的长。若A设备发生了故障从而使得A设备出现了告警事件A,设备B在一小时后出现告警事件B不设置时间窗口,则B出现的告警事件B与A设备发的故障没有关系而是由于其他的故障原因导致的,A设备的告警事件A与B设备的告警事件B没有关联性。因此,可以通过设置预设的时间窗口使得汇聚的告警数据尽可能的具有关联性。这样也可以减少步骤S3在进行数据挖掘时的计算资源的浪费。
步骤S3:使用关联规则挖掘算法对训练集进行数据挖掘,得到关系规则模型。
在一个可选的实施例中,在步骤S3(使用关联规则挖掘算法对训练集进行数据挖掘,得到关系规则模型)之后,还包括:采集预设事件窗口内另一组历史告警数据,得到测试集并使用测试集对关系规则模型进行测试。可以理解的是,通过使用测试集对关系规则模型进行测试可以保证关系规则模型的准确性。
需要说明的是,步骤S3中关联规则挖掘算法包括Apriori算法、EP-Growth算法等等。下面以Apriori为例说明使用关联规则挖掘算法对训练集进行数据挖掘的实现过程,使用关联规则挖掘算法对训练集进行数据挖掘包括:首先,设置支持度阈值α并扫描汇聚的所有的告警数据,得到所有出现过的数据,作为候选频繁1项集并计算所有1项集的支持度,根据支持度阈值α和,剪枝去掉低于支持度阈值α的候选1项集,得到频繁1项集;对频繁1项集进行自连接得到候选2项集,再次进行剪枝去掉低于支持度阈值α的候选2项集,得到频繁2项集;如此迭代下去,直到不能再找到任何频繁k项集。接着,从频繁项集合中生成满足最小置信度的关联规则,再将生成的关联规则的集合进行排序,得到关系规则模型。
在上述实现过程中,通过关联规则挖掘算法对大量的历史告警数据进行挖掘得到关系规则模型,关联规则模型中存储有告警事件之间的关联关系,因此,在步骤S100(获取多个设备的告警事件)后,将多个设备的告警事件与该关系规则模型进行对比,可以得到哪些告警事件是相关联的(属于同一告警事件集合),即来源于同一故障;以方便在后续对告警事件分析时可以对具有关联性的告警事件合并分析。同时,通过关联的告警事件可以确定告警事件集合以及与该告警事集合对应的设备集合。
在一些可选的实施例中,其中,事件相关性包括多个历史告警事件的告警类型相同和/或多个历史告警事件之间具有因果关系、类型关系。
上述事件相关性具体例如,请参照图2,其中路由器1出现了网络连接断开的告警,路由器2也出现了网络连接断开的告警,由图可知且路由器1与路由器2相互连接,则路由器1出现的网络连接断开的告警与路由器2出现的网络连接断开的告警具有事件相关性。
在一些可选的实施例中,其中,资源相关性包括多个历史告警事件之间的资源具有逻辑关系。
上述资源相关性具体表现为设备之间存在地域关系、对端关系或者承载关系等等。
在一些可选的实施例中,方法还包括:根据具有关联关系的告警事件,进行故障分析,并展示故障分析结果。
在一个优选的实施例中,根据关联关系,人工进行了初步的故障分析并存储于数据库中,当实际应用场景中出现了关联关系则可以查询并展示该故障分析,从而用户可以直接得到初步故障分析,根据该故障分析,用户可以根据实际情况进行业务影响分析等进一步分析,减少了用户分析的工作量。
请参见图3,图3为本申请实施例提供的网络故障可视化的另一种流程图;如图3,首先,在数据采集阶段,对设备信息即设备标识、设备型号、设备名称、设备IP、设备CPU、内存进行采集存储于设备拓扑图的数据库中,并且还需要对告警数据进行采集为后续形成训练集做准备工作。然后,在数据预处理阶段,对采集的数据进行缺失值处理、标准化、规范化处理并按时间窗口将告警数据分组并将设备数据相互关联形成训练集,接着使用图数据库引擎对测试集进行数据挖掘得到关联规则模型并将时间关联关系存储于图数据库引擎中。在应用场景中,从实时告警队列中获取告警事件,然后将告警事件与图数据库中的告警事件之间关联关系进行匹配得到告警事件集合,并根据告警事件集合得到对应的设备集合,将该设备集合标注于设备关系拓扑图中得到故障关系拓扑图。
请参照图4,图4为本申请实施例提供的可视化网络故障关系确定装置的结构示意图,该可视化网络故障关系确定装置400,包括:
获取模块410,用于获取多个设备的告警事件。
分析模块420,用于分析告警事件,得到一个或多个告警事件集合,其中,每个告警事件集合包括多个具有关联关系的告警事件;
分析模块420,还用于根据告警事件集合和设备关系拓扑图确定与告警事件集合对应的设备集合;其中,告警事件集合中的告警事件与设备集合中的设备相对应;
拓扑图生成模块430,用于在设备关系拓扑图中标注设备集合,得到故障关系拓扑图。
在一些可选的实施例中,其中,告警事件对应的设备包括:故障设备和影响设备,影响设备为受到故障设备影响而出现告警事件的设备;分析模块420,具体用于根据设备集合中多个设备在设备关系拓扑图中的连接关系,使用中心性算法对设备集合中多个设备的度中心性进行计算,确定故障设备和影响设备。
如图2所示,其中,在设备集合1中,故障设备为路由器1,影响设备包括交换机1、交换机2、路由器2和路由器3;在设备集合2中,故障设备为交换机4,影响设备为主机6和主机7。
在一些可选的实施例中,拓扑图生成模块430,具体用于在设备关系拓扑图中标注设备集合中的故障设备和影响设备。
在一些可选的实施例中,分析模块420,具体用于将多个设备的告警事件与关系规则模型匹配,确定告警事件之间的关联关系,并根据告警事件之间的关联关系确定一个或多个告警事件集合;其中,关系规则模型通过以下步骤获取:采集多个设备的历史告警数据;其中,多个设备包括故障设备和影响设备;对历史告警数据进行预处理,并根据预设的时间窗口汇聚具有事件相关性和资源相关性的告警数据,得到训练集;以及使用关联规则挖掘算法对训练集进行数据挖掘,得到关系规则模型。
在一些可选的实施例中,故障分析模块,用于根据具有关联关系的告警事件,进行故障分析,并展示故障分析结果。
在一些可选的实施例中,展示模块,用于展示故障关系拓扑图和故障分析。
本申请实施例提供的可视化网络故障关系确定装置,其实现原理及产生的技术效果在前述方法实施例中已经介绍,为简要描述,装置实施例部分未提及之处,可参考方法实施例中相应内容。
图5为本申请实施例提供的一种电子设备的结构示意图。参照图5,电子设备4包括:处理器401、存储器402,这些组件通过通信总线403和/或其他形式的连接机构(未示出)互连并相互通讯。
其中,存储器402包括一个或多个(图中仅示出一个),其可以是,但不限于,随机存取存储器(Random Access Memory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),电可擦除可编程只读存储器(Electric Erasable Programmable Read-Only Memory,简称EEPROM)等。处理器401以及其他可能的组件可对存储器402进行访问,读和/或写其中的数据。
处理器401包括一个或多个(图中仅示出一个),其可以是一种集成电路芯片,具有信号的处理能力。上述的处理器401可以是通用处理器,包括中央处理器(CentralProcessing Unit,简称CPU)、微控制单元(Micro Controller Unit,简称MCU)、网络处理器(Network Processor,简称NP)或者其他常规处理器;还可以是专用处理器,包括神经网络处理器(Neural-network Processing Unit,简称NPU)、图形处理器(Graphics ProcessingUnit,简称GPU)、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuits,简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。并且,在处理器401为多个时,其中的一部分可以是通用处理器,另一部分可以是专用处理器。
在存储器402中可以存储一个或多个计算机程序指令,处理器401可以读取并运行这些计算机程序指令,以实现本申请实施例提供的可视化网络故障关系确定方法。
可以理解的,图5所示的结构仅为示意,电子设备4还可以包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的结构。图5中所示的各组件可以采用硬件、软件或其组合实现。电子设备4可能是实体设备,例如PC机、笔记本电脑、平板电脑、手机、服务器、嵌入式设备等,也可能是虚拟设备,例如虚拟机、虚拟化容器等。并且,电子设备4也不限于单台设备,也可以是多台设备的组合或者大量设备构成的集群。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被计算机的处理器读取并运行时,执行本申请实施例提供的可视化网络故障关系确定方法。例如,计算机可读存储介质可以实现为图5中电子设备4中的存储器402。
在本申请所提供的实施例中,应该理解到,所揭露装置以及系统,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (7)

1.一种可视化网络故障关系确定方法,其特征在于,所述方法包括:
获取多个设备的告警事件;
分析所述告警事件,得到一个或多个告警事件集合,其中,每个所述告警事件集合包括多个具有关联关系的告警事件;
根据所述告警事件集合和设备关系拓扑图确定与所述告警事件集合对应的设备集合;其中,所述告警事件集合中的告警事件与所述设备集合中的设备相对应;
在所述设备关系拓扑图中标注所述设备集合,得到故障关系拓扑图;
所述告警事件对应的设备包括:故障设备和影响设备,所述影响设备为受到所述故障设备影响而出现告警事件的设备;
所述在所述设备关系拓扑图中标注所述设备集合,得到故障关系拓扑图,包括:
根据所述设备集合中多个设备在所述设备关系拓扑图中的连接关系,使用中心性算法对所述设备集合中多个设备的度中心性进行计算,确定所述故障设备和所述影响设备;所述故障设备与关联设备集合中的所有所述影响设备相连,其中,度中心性最高的设备即为所述故障设备,其他的设备即为所述影响设备;
所述在所述设备关系拓扑图中标注所述设备集合,得到故障关系拓扑图,还包括:
在所述设备关系拓扑图中标注所述设备集合中的故障设备和所述影响设备;
所述分析所述告警事件,得到一个或多个告警事件集合,包括:将所述多个设备的告警事件与关系规则模型匹配,确定所述告警事件之间的关联关系,并根据所述告警事件之间的关联关系确定一个或多个告警事件集合;
其中,所述关系规则模型通过以下步骤获取:
采集所述多个设备的历史告警数据;其中,所述多个设备包括故障设备和影响设备;
对所述历史告警数据进行预处理,并根据预设的时间窗口汇聚具有事件相关性和资源相关性的告警数据,得到训练集;以及
使用关联规则挖掘算法对所述训练集进行数据挖掘,得到所述关系规则模型。
2.根据权利要求1所述方法,其特征在于,其中,所述事件相关性包括多个历史告警事件的告警类型相同和/或所述多个历史告警事件之间具有因果关系、类型关系。
3.根据权利要求1所述方法,其特征在于,其中,所述资源相关性包括多个历史告警事件之间的资源具有逻辑关系。
4.根据权利要求1所述方法,其特征在于,所述方法还包括:根据具有关联关系的告警事件,进行故障分析,并展示故障分析结果。
5.一种可视化网络故障关系确定装置,其特征在于,所述装置包括:
获取模块,用于获取多个设备的告警事件;
分析模块,用于分析所述告警事件,得到一个或多个告警事件集合,其中,每个所述告警事件集合包括多个具有关联关系的告警事件;
所述分析模块,还用于根据所述告警事件集合和设备关系拓扑图确定与所述告警事件集合对应的设备集合;其中,所述告警事件集合中的告警事件与所述设备集合中的设备相对应;
所述告警事件对应的所述设备包括:故障设备和影响设备,所述影响设备为受到所述故障设备影响而出现告警事件的设备;
拓扑图生成模块,用于在所述设备关系拓扑图中标注所述设备集合,得到故障关系拓扑图;
所述拓扑图生成模块,还用于:根据所述设备集合中多个设备在所述设备关系拓扑图中的连接关系,使用中心性算法对所述设备集合中多个设备的度中心性进行计算,确定所述故障设备和所述影响设备;所述故障设备与关联设备集合中的所有所述影响设备相连,其中,度中心性最高的设备即为所述故障设备,其他的设备即为所述影响设备;
所述拓扑图生成模块,还用于:在所述设备关系拓扑图中标注所述设备集合中的故障设备和所述影响设备;
所述分析模块,还用于:将所述多个设备的告警事件与关系规则模型匹配,确定所述告警事件之间的关联关系,并根据所述告警事件之间的关联关系确定一个或多个告警事件集合;其中,所述关系规则模型通过以下步骤获取:采集所述多个设备的历史告警数据;其中,所述多个设备包括故障设备和影响设备;对所述历史告警数据进行预处理,并根据预设的时间窗口汇聚具有事件相关性和资源相关性的告警数据,得到训练集;以及使用关联规则挖掘算法对所述训练集进行数据挖掘,得到所述关系规则模型。
6.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如权利要求1至4任一所述的方法。
7.一种计算机可读存储介质,其特征在于,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至4任一所述的方法。
CN202111672125.5A 2021-12-31 2021-12-31 一种可视化网络故障关系确定方法和装置 Active CN114327988B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111672125.5A CN114327988B (zh) 2021-12-31 2021-12-31 一种可视化网络故障关系确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111672125.5A CN114327988B (zh) 2021-12-31 2021-12-31 一种可视化网络故障关系确定方法和装置

Publications (2)

Publication Number Publication Date
CN114327988A CN114327988A (zh) 2022-04-12
CN114327988B true CN114327988B (zh) 2024-01-23

Family

ID=81021776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111672125.5A Active CN114327988B (zh) 2021-12-31 2021-12-31 一种可视化网络故障关系确定方法和装置

Country Status (1)

Country Link
CN (1) CN114327988B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114978878B (zh) * 2022-05-12 2024-03-08 亚信科技(中国)有限公司 定位方法、装置、电子设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104219070A (zh) * 2013-05-31 2014-12-17 华为技术有限公司 网络故障监测的方法和网络故障监测系统
CN108234168A (zh) * 2016-12-15 2018-06-29 腾讯科技(深圳)有限公司 一种基于业务拓扑的数据展示方法及系统
WO2019199457A1 (en) * 2018-04-08 2019-10-17 Microsoft Technology Licensing, Llc Anomaly detection based on topological relationship graphs
CN111294217A (zh) * 2018-12-06 2020-06-16 云智慧(北京)科技有限公司 告警分析方法、装置、系统及存储介质
CN113821367A (zh) * 2021-09-23 2021-12-21 中国建设银行股份有限公司 确定故障设备影响范围的方法及相关装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104219070A (zh) * 2013-05-31 2014-12-17 华为技术有限公司 网络故障监测的方法和网络故障监测系统
CN108234168A (zh) * 2016-12-15 2018-06-29 腾讯科技(深圳)有限公司 一种基于业务拓扑的数据展示方法及系统
WO2019199457A1 (en) * 2018-04-08 2019-10-17 Microsoft Technology Licensing, Llc Anomaly detection based on topological relationship graphs
CN111294217A (zh) * 2018-12-06 2020-06-16 云智慧(北京)科技有限公司 告警分析方法、装置、系统及存储介质
CN113821367A (zh) * 2021-09-23 2021-12-21 中国建设银行股份有限公司 确定故障设备影响范围的方法及相关装置

Also Published As

Publication number Publication date
CN114327988A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
US11657309B2 (en) Behavior analysis and visualization for a computer infrastructure
CN110351150B (zh) 故障根源确定方法及装置、电子设备和可读存储介质
CN108763038B (zh) 告警数据的管理方法、装置、计算机设备及存储介质
CN113328872B (zh) 故障修复方法、装置和存储介质
JP6643211B2 (ja) 異常検知システム及び異常検知方法
US11042476B2 (en) Variability system and analytics for continuous reliability in cloud-based workflows
CN103069749B (zh) 虚拟环境中的问题的隔离的方法和系统
CN111814999B (zh) 一种故障工单生成方法、装置、设备
CN111010291A (zh) 业务流程异常告警方法、装置、电子设备及存储介质
CN112966056B (zh) 一种信息处理方法、装置、设备、系统及可读存储介质
CN112529223A (zh) 一种设备故障报修方法、装置、服务器及储存介质
CN113672456A (zh) 应用平台的模块化自监听方法、系统、终端及存储介质
WO2024148857A1 (zh) 服务器故障根因的过滤方法和装置、非易失性可读存储介质及电子装置
CN111738463A (zh) 运维方法、装置、系统、电子设备及存储介质
CN114327988B (zh) 一种可视化网络故障关系确定方法和装置
CN114885014A (zh) 一种外场设备状态的监测方法、装置、设备及介质
CN117931589A (zh) 运维故障的识别方法及装置
CN117827784A (zh) 噪音日志的过滤方法、系统
CN111813872A (zh) 一种故障排查模型的生成方法、装置、设备
CN115580528A (zh) 故障根因定位方法、装置、设备及可读存储介质
ZHANG et al. Approach to anomaly detection in microservice system with multi-source data streams
CN114896653A (zh) 一种基于bim的建筑物数据监测方法及其系统
CN111581044A (zh) 集群优化方法、装置、服务器及介质
CN116991684B (zh) 一种告警信息处理方法、装置、设备及介质
CN116824515B (zh) 一种基于图形故障诊断方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant