CN111865667B - 网络连通性故障根因定位方法及装置 - Google Patents
网络连通性故障根因定位方法及装置 Download PDFInfo
- Publication number
- CN111865667B CN111865667B CN202010599040.8A CN202010599040A CN111865667B CN 111865667 B CN111865667 B CN 111865667B CN 202010599040 A CN202010599040 A CN 202010599040A CN 111865667 B CN111865667 B CN 111865667B
- Authority
- CN
- China
- Prior art keywords
- connectivity
- fault
- node
- faults
- node equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
- H04L41/064—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/069—Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
Abstract
本公开提供了一种网络连通性故障根因定位方法及装置。本公开基于ERSPAN对TCP镜像流进行采集分析,针对产生连通性故障的TCP会话链路中最后一跳的节点设备和节点设备的端口进行故障数量累加计数,对各时间段内全局各节点设备和设备端口新增的连通性故障数量求和后根据预设异常检测算法确定连通性故障数量变化异常的时间段,并通过故障数量排序确定异常时间段内最有可能产生故障的节点设备或节点设备端口,最后再关联设备告警日志从而准确确定产生网络连通性故障的根因。
Description
技术领域
本公开涉及通信领域,尤其涉及一种网络连通性故障根因定位方法及装置。
背景技术
远程封装交换机端口分析(Encapsulated Remote Switch Port ANalyzer,ERSPAN)技术是利用交换机的远程流镜像能力,通过在交换机上配置流分类匹配TCP报文,将报文通过ERSPAN协议,发送给监控设备(采集器)。
TCP协议中,一条TCP连接的建立需要经过三次握手,连接关闭需要经过四次挥手。为了监控网络中应用之间TCP的建链和拆链,需要将TCP协议中的建链报文SYN、拆链报文FIN、断链报文RST镜像到采集器上。
假设两个虚拟机VM之间跨叶子Leaf节点进行交互,报文从源虚拟机经过Leaf节点->Spine骨干节点->Leaf叶子节点到达目的虚拟机。在报文传输路径上的各交换机上,使能入方向的远程镜像,报文会被所经过的节点上的交换机分别镜像一次后转发给采集器,采集器集群通过大数据平台保存所采集的TCP协议报文,分析器根据所采集的TCP报文,对TCP应用会话进行跟踪分析。如获取TCP流的报文转发路径、计算报文转发时延、分析TCP会话异常、进行应用分析等。
现有的基于ERSPAN技术的网络连通性分析方法不能方便高效的检测出异常链路的原因、时间及地点,不利于实现网络智能化的管理和维护。
发明内容
有鉴于此,本公开提供了一种网络连通性故障根因定位方法及装置,用于不能智能化的准确定位网络连通性故障根因的技术问题。
基于本公开一实施例,提供了一种网络连通性故障根因定位方法,所述方法包括:
通过远程封装交换机端口分析ERSPAN技术采集TCP会话信息;
对所采集的TCP会话信息进行分析,针对每一个产生连通性故障的TCP会话的链路中,产生连通性故障的节点设备和节点设备的端口进行故障数量累加计数;
以预设时间周期为单位,对各时间段内全局各节点设备和节点设备端口新增的连通性故障数量求和,并根据动态基线异常检测算法确定连通性故障数量变化异常的时间段;
针对连通性故障数量变化异常的时间段,对各节点设备和节点设备端口进行连通性故障数量排序,确定该连通性故障数量变化异常的时间段内具有最大概然性的故障节点设备或节点设备端口;
将所确定的具有最大概然性的故障节点设备或节点设备端口与设备警日志进行关联,从而确定网络连通性故障的根因。
进一步地,所述对产生故障的节点设备和节点设备的端口进行故障数量累加计数的步骤中,所述的产生故障的节点设备和节点设备的端口为导致TCP会话路径不完整的最后一跳节点设备及节点设备上的端口。
进一步地,所述所采集的TCP会话信息包括TCP协议中的建立链路和拆除链路的请求和响应消息;所述的TCP会话连通性故障包括建链不成功和异常退出两类故障;所述对产生连通性故障的节点设备和节点设备的端口进行故障数量累加计数及所述对各时间段内全局各节点设备和节点设备端口新增的连通性故障数量求和的步骤中,所述的累加计数和求和指分别针对节点设备和节点设备端口上产生的建链不成功和异常退出两类故障分别进行累加计数和求和。
进一步地,所述的动态基线异常检测算法Holts-Winter指数平滑检测算法。
进一步地,所述确定该连通性故障数量变化异常的时间段内具有最大概然性的故障节点设备或节点设备端口的步骤中,如果该具有最大概然性的故障节点设备上的端口的新增连通性故障数量大于该节点设备的新增连通性故障数量的预设百分比时,将该节点设备上的端口确定为产生故障的位置。
基于本公开另一实施例,还提供了一种网络连通性故障根因定位装置,所述装置包括:
获取模块,用于获取通过远程封装交换机端口分析ERSPAN技术采集的TCP会话信息;
故障计数模块,用于对所采集的TCP会话信息进行分析,针对每一个产生连通性故障的TCP会话的链路中,产生连通性故障的节点设备和节点设备的端口进行故障数量累加计数;
异常检测模块,以预设时间周期为单位,对各时间段内全局各节点设备和节点设备端口新增的连通性故障数量求和,并根据动态基线异常检测算法确定连通性故障数量变化异常的时间段;
故障位置确定模块,用于针对连通性故障数量变化异常的时间段,对各节点设备和节点设备端口进行连通性故障数量排序,确定该连通性故障数量变化异常的时间段内具有最大概然性的故障节点设备或节点设备端口;
根因确定模块,用于将所确定的具有最大概然性的故障节点设备或节点设备端口与设备告警日志进行关联,从而确定网络连通性故障的根因。
进一步地,所述故障计数模块具体地是对导致TCP会话路径不完整的最后一跳节点设备及节点设备上的端口进行故障数量累加计数。
进一步地,所述获取模块所采集的TCP会话信息包括TCP协议中的建立链路和拆除链路的请求和响应消息;所述故障计数模块中的累加计数是指分别对产生建链不成功和异常退出这两类连通性故障的节点设备和节点设备的端口进行故障数量累加计数;所述异常检测模块中的求和指分别针对节点设备和节点设备端口上产生的建链不成功和异常退出两类故障分别进行累加计数和求和。
进一步地,所述异常检测模块所使用的动态基线异常检测算法为Holts-Winter指数平滑检测算法。
进一步地,所述故障位置确定模块在判断到具有最大概然性的故障节点设备上的端口的新增连通性故障数量大于该节点设备的新增连通性故障数量的预设百分比时,将该节点设备上的端口确定为产生故障的位置。
本公开基于ERSPAN基础对TCP镜像流进行采集分析,针对产生连通性故障的TCP会话链路中最后一跳的节点设备和节点设备的端口进行故障数量累加计数,对各时间段内全局各节点设备和设备端口新增的连通性故障数量求和后根据预设异常检测算法确定连通性故障数量变化异常的时间段,并通过故障数量排序确定异常时间段内最有可能产生故障的节点设备或节点设备端口,最后再关联网管系统的告警日志从而准确确定产生网络连通性故障的根因。
附图说明
为了更加清楚地说明本公开实施例或者现有技术中的技术方案,下面将对本公开实施例或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据本公开实施例的这些附图获得其他的附图。
图1为本公开一实施例提供的一种网络连通性故障根因定位方法的流程示意图;
图2为本公开一实施例提供的一种网络连通性故障根因定位装置的结构示意图;
图3为本公开一实施例提供的包括本公开提供的一种网络连通性故障根因定位装置的设备结构示意图。
具体实施方式
在本公开实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本公开实施例。本公开实施例和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
为实现高效准确地定位网络连通性故障的根因,本公开在ERSPAN技术的基础上,针对整个网络构造反映全局质量的关键性能(Key Performance Indicators,KPI)指标,并通过动态基线方法进行异常检测。针对发生异常的时间点,对各设备、端口所记录的不完整路径的会话数据进行排序处理,确定故障发生位置。最后根据异常时间,故障位置查找日志告警,得到可选的产生故障的根本原因(故障根因)并推送给运维人员参考。通过本公开提供的方案能够高效准确地解决了网络连通性故障的根因分析问题,扩展了分析器产品的应用场景,具有较重要的意义。
基于上述思路,本公开提供了一种网络连通性故障根因定位方法,图1为本公开一实施例提供的一种网络连通性故障根因定位方法的流程示意图,该方法基于远程封装交换机端口分析ERSPAN技术实现,应用于分析器,该方法包括步骤:
步骤101.通过ERSPAN技术采集TCP会话信息;
本公开通过ERSPAN技术从网络中的节点设备实时采集TCP会话信息,将TCP会话信息采集到数据库或大数据平台,然后通过分析器对采集的TCP会话信息进行分析。其中,所采集的TCP会话信息主要包括但不限于TCP协议中的建立链路和拆除链路的请求和响应消息,例如SYN、FIN、RST报文等。
步骤102.对所采集的TCP会话信息进行分析,针对每一个产生连通性故障的TCP会话的链路中,产生连通性故障的节点设备和节点设备的端口进行故障数量累加计数;
本公开通过分析采集到的从不同节点设备镜像而来的TCP协议包可以获知会话的源节点设备、目的节点设备以及TCP会话的正反向路径。该步骤中,当某个链路节点设备或节点设备的端口产生连通性故障时,就会导致TCP会话上下行链路路径不完整,本公开对产生故障导致TCP会话路径不完整的最后一跳节点设备及节点设备上的端口进行故障分类累加计数。
本公开中所述的TCP会话连通性故障包括建链不成功和异常退出这两种类型。该步骤中的故障分类累加计数分为两个层次,一个层次是针对节点设备,另一层次是针对节点设备上的端口,因为导致故障的原因有可能是节点设备整体产生故障,例如掉电、宕机等,也有可能仅是节点设备上的某个端口模块产生故障。
步骤103.以预设时间周期为单位,对各时间段内全局各节点设备和节点设备端口新增的连通性故障数量求和,并根据动态基线异常检测算法确定连通性故障数量变化异常的时间段;
该步骤是在前一步骤的基础上,以预设时间周期为单位,统计每个节点设备和节点设备上的端口新增的连通性故障数量,然后对各时间段内全局各节点设备新增的连通性故障数量求和,得到每个时间段内全局的连通性故障数量的增量,然后再根据预设的,例如Holts-Winter指数平滑检测算法等,确定故障数量变化异常的时间段。
步骤104.针对连通性故障数量变化异常的时间段,对各节点设备和节点设备端口进行连通性故障数量排序,确定该连通性故障数量变化异常的时间段内具有最大概然性的故障节点设备或节点设备端口;
该步骤根据各节点设备和节点设备端口连通性故障数量排序结果,将产生连通性故障数量最多的若干个节点设备或节点设备端口确定为最有可能产生故障的节点设备或节点设备端口即具有最大概然性的故障节点设备或节点设备端口。
本公开一实施例中,为了更准确的定位产生故障的位置,针对某个时间段的某个节点设备,如果该具有最大概然性的故障节点设备上的端口的新增连通性故障数量大于该节点设备的新增连通性故障数量的预设百分比时,将该节点设备上的端口确定为产生故障的位置。
步骤105.将所确定的具有最大概然性的故障节点设备或节点设备端口与设备告警日志进行关联,从而确定网络连通性故障的根因。
该步骤将所确定的故障位置,即具有最大概然性的故障节点设备或节点设备端口与设备告警日志进行关联,从而进一步确定产生连通性故障的根本原因即根因,并可进一步将根因推送给运维人员参考。
以下为本公开另一实施例提供的网络连通性故障根因定位方法的实现步骤,该实施例中结合具体的实现手段,对本公开提供的每个步骤进行详细的描述。
步骤201.通过ERSPAN技术采集TCP会话信息,对TCP应用会话进行跟踪分析。
ERSPAN中的采集器集群通过大数据平台保存所采集的TCP协议报文,分析器根据所采集的TCP报文,对TCP应用会话进行跟踪分析。如获取TCP流的报文转发路径、计算报文转发时延、分析TCP会话异常、进行应用分析等
该步骤针对TCP应用会话创建一个记录当前活跃会话内存Hash表(FlowSessionTable),每个TCP应用会话包含正向/反向两条流,每一条流用5元组信息标识,并具有各自的转发路径。下面通过伪码形式进行标识:
FlowSessionTable记录的是当前活跃的会话,在TCP会话开始建链时创建会话,在会话结束或建链失败时需要将对应会话从Hash表中删除。
本公开该实施例通过FlowSessionTable记录的建链相关报文和拆链相关报文所触发的TCP Event事件即可判断出TCP会话是否产生了链路连通性故障,并且通过所记录的正反向会话路径可以判断出产生故障的节点设备是否为路径中的最后一跳节点设备。
步骤202.针对建链不成功或异常退出的TCP会话,如果其路径不完整,则对不完整路径的最后一跳节点设备及该节点设备端口进行故障数量累加计数。
TCP会话也可能出现各种异常的情况,比如SYNACK事件迟迟收不到,导致TCP会话的两侧host通过keeplive监控会话状态,如果长时间检测不到对端状态,会发送TST报文中断会话;例如收到TCP异常Flag等等。从网络连通性考虑,该实施例只考虑路径不完整的情况,路径不完整的情况包括两种情况,一是TCP会话建链不成功导致路径不完整的情况,二是RST异常退出导致路径不完整的情况。
该实施例定义了如下2个数据结构来记录不完整路径的最后一条节点网络设备的故障累加计数,这里将全网设备做个DeviceID—>LocalNodeID的映射,0<=LocalNodeID<MAX_NODE_NUM。其中MAX_NODE_NUM为网络中节点设备数量的最大值。
USHORT ausSynFailCnt[MAX_NODE_NUM]
USHORT ausRstFailCnt[MAX_NODE_NUM]
例如:一个TCP会话Session如果正常建链成功,其Forw/Back流各有一个路径:
Fwd:ip1--->node1-->node2--->node3--->ip2;
Back:ip2--->node1’-->node2’--->node3’--->node4’--->ip1。
假设在网络节点设备故障的情况下,Forw流建链失败,所建路径为Path:ip1--->node1-->node2,由于路径不完整,所以使得node2节点设备对应的数据结构进行故障数量累加即ausSynFailCnt[node2]++。该实施例通过增加一个数据库表TCP_SynFail_DB的方式定期保存ausSynFailCnt[MAX_NODE_NUM]的值。
类似地,如果是会话RST异常退出,Path:ip1--->node1-->node2,则记录ausRstFailCnt[node2]++;增加一个数据库表TCP_RstFail_DB,定期保存ausRstFailCnt[MAX_NODE_NUM]的值。
进一步,根据TCP报文的目的地址DIP查询该设备(不完整路径最后一跳)上的路由表,可以得到下一跳对应的三层出接口,该实施例建立如下2个数据结构用了针对每个节点设备上的每个每个端口进行故障数量累加计数:
FLOAT afSynFailIntfCnt[MAX_NODE_NUM][MAX_INTF_NUM]
FLOAT afRstFailIntfCnt[MAX_NODE_NUM][MAX_INTF_NUM]
其中MAX_INTF_NUM为最大端口数量。
假设该实施例中,出现建链失败故障的节点设备为node2且故障的端口为intf1,则该端口执行自增即afSynFailIntfCnt[MAX_NODE_NUM][MAX_INTF_NUM]++。假设该实施例中,出现RST异常退出故障的节点设备为node2且故障的端口为intf1,则该端口执行自增即afRstFailIntfCnt[MAX_NODE_NUM][MAX_INTF_NUM]++。
在等价多路径(Equal Cost Multi Path,ECMP)的情况下,TCP会话路径最后一跳节点设备的下一跳出接口可能有多个,如intf2,intf3,intf3,则它们的取值各自增加1/3,例如:
afSynFailIntfCnt[MAX_NODE_NUM][MAX_INTF_NUM]+=1/3
afRstFailIntfCnt[MAX_NODE_NUM][MAX_INTF_NUM]+=1/3
对应的该实施例通过新增数据库表TCP_SynFail_Inft_DB,TCP_RstFail_Inft_DB定期保存这些数据。
步骤203.为正确反应链路健康变化情况,每隔预设的时间周期,记录新增连通性故障数量。
TCP协议的一个特点是不提供链路中断的即时通知机制,有时网络中节点故障、链路中断、服务器宕机、应用程序崩溃,对端并不会感知。通常的做法是应用程序自己做心跳,或者使用tcp-keepalive套接字选项,但并没有一致可靠的措施。
由于节点故障或链路故障时,TCP连接并不能马上发现并拆链,所以需要以预设时间周期为单位,例如1分钟为单位,对各时间段内全局各节点设备和节点设备端口新增的连通性故障数量求和,并记录这些新增的故障数量。例如在数据库中记录每个时间段(时间周期)内,每个节点设备和节点设备端口每种故障类型的新增计数,例如步骤202中的ausSynFailIncrCnt[node2],ausRstFailIncrCnt[node2]在t1-t2这一时间段内新增的建链设备和异常退出故障的新增计数。同理,还可以记录基于节点设备端口的故障新增计数,例如:afSynFailIncrIntfCnt[node2][intf1]和afRstFailIncrIntfCnt[node2][intf1]故障新增计数。该实施例通过数据库表TCP_SynFail_INCR_DB,TCP_RstFail_INCR_DB,TCP_SynFail_INCR_Intf_DB,TCP_RstFail_INCR_Intf_DB定期保存这些数据。
步骤204.对各时间段内全局各节点设备和节点设备端口新增的连通性故障数量,使用Holts-Winter指数平滑算法确定连通性故障数量变化异常的时间段。
该实施例中,以各时间段内的usTcpSynFailIncr_Total,usTcpRstFailIncr_Total为关键性能指标KPI,进行异常检测,找出KPI取值变化的异常时间点。例如选择usTcpSynFailIncr_Total,usTcpRstFailIncr_Total作为反应网络业务健康度的全局性指标,其计算方法为:
usTcpSynFailIncr_Total=所有TCP_SynFail_INCR_DB中的计数之和
usTcpRstFailIncr_Total=所有TCP_RstFail_INCR_DB中的计数之和
本公开一实施例中,针对上述KPI进行连通性故障数量变化异常的时间段的检测采用设置静态阈值的方法,这种算法简单有效,但是不同的网络规模,不同的网络应用环境,可能对应的阈值要求是不同的,一致的阈值设置往往效果可能不好。
本公开另一实施例中,针对上述KPI进行连通性故障数量变化异常的时间段的检测采用Holts-Winter指数平滑算法,采用该算法的好处是,针对每个时间段,判断是否产生异常的阈值可能都是不同的,这样判断的结果可能会更准确更灵活一些,本公开不限采用何种有效的异常检测算法。
步骤205.针对连通性故障数量变化异常的时间段,对各节点设备和节点设备端口进行连通性故障数量排序,确定该连通性故障数量变化异常的时间段内具有最大概然性的故障节点设备或节点设备端口。
该步骤针对发生异常的时间点,对各设备、端口所记录的不完整路径的会话数据进行排序处理,从而确定具有最大概然性的故障节点设备或节点设备端口。
根据异常时间点,获取对应的各设备、端口所记录的不完整路径的会话数据:TCP_SynFail_INCR_DB,TCP_RstFail_INCR_DB,TCP_SynFail_INCR_Intf_DB,TCP_RstFail_INCR_Intf_DB,找出取值最大的几个位置,并进行排序。这里的故障位置指“设备”(Node)或“设备+端口”(Node,Intf)。
本公开另一实施例中,如果排序处理后确定某故障节点的某端口计数Val(node1,intf1)>2/3*val(node1),则将该变化异常的时间段内产生故障的位置确定为该节点上的端口intf1,而不在确定为该节点设备node1,从而更加准确定位故障位置。
步骤206.将所确定的具有最大概然性的故障节点设备或节点设备端口与网管系统的告警日志进行关联,从而确定网络连通性故障的根因。
网管系统中如果设备产生故障是会记录Trap告警,告警信息有不同的级别,例如从告警等级从高到低可以分为紧急emergency、警报alert、危险critical、错误error、警告warning、通知notification等,本公开一实施中仅关注warning及更高级别的告警。具体地,根据排序在前面的位置,从日志数据库中查找对应时间段、对应组件的高级别告警信息,作为推荐的备选故障根因,方便运维人员进一步排查。
本公开以现有ERSPAN TCP镜像流应用为基础,构造整网全局质量KPI指标,使用异常检测算法发现连通性故障的发生,并进一步确定故障位置,关联日志告警得到备选的故障根因。通过本公开能够智能化、高效、准确地解决了网络连通性故障的根因分析问题,扩展了分析器产品的应用场景,具有较重要的意义。
图2为本公开一实施例提供的一种网络连通性故障根因定位装置的结构示意图,该装置200包括:获取模块210、故障计数模块220、异常检测模块230、故障位置确定模块240、根因确定模块250。该装置中的各模块可以硬件功能芯片的方式实现,也可通过软件功能模块的方式实现,各模块所完成的功能与前述本公开实施例提供的网络连通性故障根因定位方法的步骤相对应。
其中,获取模块210用于获取通过远程封装交换机端口分析ERSPAN技术采集的TCP会话信息。更进一步地,获取模块210所采集的TCP会话信息包括TCP协议中的建立链路和拆除链路的请求和响应消息。
故障计数模块220用于对所采集的TCP会话信息进行分析,针对每一个产生连通性故障的TCP会话的链路中,产生连通性故障的节点设备和节点设备的端口进行故障数量累加计数。更进一步地,故障计数模块220具体地是对导致TCP会话路径不完整的最后一跳节点设备及节点设备上的端口进行故障数量累加计数。故障计数模块220中的累加计数是指分别对产生建链不成功和异常退出这两类连通性故障的节点设备和节点设备的端口进行故障数量累加计数。
异常检测模块230以预设时间周期为单位,对各时间段内全局各节点设备和节点设备端口新增的连通性故障数量求和,并根据动态基线异常检测算法确定连通性故障数量变化异常的时间段。更进一步地,异常检测模块230中的求和指分别针对节点设备和节点设备端口上产生的建链不成功和异常退出两类故障分别进行累加计数和求和。其中,动态基线异常检测算法为Holts-Winter指数平滑检测算法。
故障位置确定模块240用于针对连通性故障数量变化异常的时间段,对各节点设备和节点设备端口进行连通性故障数量排序,确定该连通性故障数量变化异常的时间段内具有最大概然性的故障节点设备或节点设备端口。故障位置确定模块240在判断到具有最大概然性的故障节点设备上的端口的新增连通性故障数量大于该节点设备的新增连通性故障数量的预设百分比时,将该节点设备上的端口确定为产生故障的位置。
根因确定模块250用于将所确定的具有最大概然性的故障节点设备或节点设备端口与设备告警日志进行关联,从而确定网络连通性故障的根因。
图3为本公开一实施例提供的包括本公开提供的一种网络连通性故障根因定位装置的设备结构示意图。该设备300包括:诸如中央处理单元CPU、图形处理单元GPU等的处理器301、内部总线302、以及诸如磁盘、易失性或非易失性存储器的机器可读存储介质330。其中,处理器301与机器可读存储介质330可以通过内部总线302相互通信。机器可读存储介质330内可存储实施本公开实施例提供的网络连通性故障根因定位方法步骤的计算机程序,当该计算机程序被处理器301执行时即可实施本公开网络连通性故障根因定位方法的各步骤功能。
进一步地,机器可读存储介质330可进一步分为可高速进行存取的内存和可长久保存程序及数据的诸如磁盘、光盘等。当用于完成本公开实施例提供的网络连通性故障根因定位方法的计算机程序从磁盘加载到内存中时,即可在内存中产生如本公开提供的网络连通性故障根因定位装置中的各模块的实例,各模块的实例在底层硬件(如CPU、存储介质)及底层操作系统的支持下,通过消息的交互及相关数据的处理步骤,进而完整实施本公开提供的网络连通性故障根因定位方法的步骤。
以上所述仅为本公开的实施例而已,并不用于限制本公开。对于本领域技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本公开的权利要求范围之内。
Claims (10)
1.一种网络连通性故障根因定位方法,其特征在于,所述方法包括:
通过远程封装交换机端口分析ERSPAN技术采集TCP会话信息;
对所采集的TCP会话信息进行分析,针对每一个产生连通性故障的TCP会话的链路中,产生连通性故障的节点设备和节点设备的端口进行故障数量累加计数;
以预设时间周期为单位,对各时间段内全局各节点设备和节点设备端口新增的连通性故障数量求和,并根据动态基线异常检测算法确定连通性故障数量变化异常的时间段;
针对连通性故障数量变化异常的时间段,对各节点设备和节点设备端口进行连通性故障数量排序,确定该连通性故障数量变化异常的时间段内具有最大概然性的故障节点设备或节点设备端口;
将所确定的具有最大概然性的故障节点设备或节点设备端口与设备告警日志进行关联,从而确定网络连通性故障的根因。
2.根据权利要求1所述的方法,其特征在于,所述对产生故障的节点设备和节点设备的端口进行故障数量累加计数的步骤中,所述的产生故障的节点设备和节点设备的端口为导致TCP会话路径不完整的最后一跳节点设备及节点设备上的端口。
3.根据权利要求1或2所述的方法,其特征在于,
所述所采集的TCP会话信息包括TCP协议中的建立链路和拆除链路的请求和响应消息;
所述的TCP会话连通性故障包括建链不成功和异常退出两类故障;
所述对产生连通性故障的节点设备和节点设备的端口进行故障数量累加计数及所述对各时间段内全局各节点设备和节点设备端口新增的连通性故障数量求和的步骤中,所述的累加计数和求和指分别针对节点设备和节点设备端口上产生的建链不成功和异常退出两类故障分别进行累加计数和求和。
4.根据权利要求3所述的方法,其特征在于,
所述动态基线异常检测算法为Holts-Winter指数平滑检测算法。
5.根据权利要求3所述的方法,其特征在于,所述确定该连通性故障数量变化异常的时间段内具有最大概然性的故障节点设备或节点设备端口的步骤中,如果该具有最大概然性的故障节点设备上的端口的新增连通性故障数量大于该节点设备的新增连通性故障数量的预设百分比时,将该节点设备上的端口确定为产生故障的位置。
6.一种网络连通性故障根因定位装置,其特征在于,所述装置包括:
获取模块,用于获取通过远程封装交换机端口分析ERSPAN技术采集的TCP会话信息;
故障计数模块,用于对所采集的TCP会话信息进行分析,针对每一个产生连通性故障的TCP会话的链路中,产生连通性故障的节点设备和节点设备的端口进行故障数量累加计数;
异常检测模块,以预设时间周期为单位,对各时间段内全局各节点设备和节点设备端口新增的连通性故障数量求和,并根据动态基线异常检测算法确定连通性故障数量变化异常的时间段;
故障位置确定模块,用于针对连通性故障数量变化异常的时间段,对各节点设备和节点设备端口进行连通性故障数量排序,确定该连通性故障数量变化异常的时间段内具有最大概然性的故障节点设备或节点设备端口;
根因确定模块,用于将所确定的具有最大概然性的故障节点设备或节点设备端口与设备告警日志进行关联,从而确定网络连通性故障的根因。
7.根据权利要求6所述的装置,其特征在于,
所述故障计数模块具体地是对导致TCP会话路径不完整的最后一跳节点设备及节点设备上的端口进行故障数量累加计数。
8.根据权利要求6或7所述的装置,其特征在于,
所述获取模块所采集的TCP会话信息包括TCP协议中的建立链路和拆除链路的请求和响应消息;
所述故障计数模块中的累加计数是指分别对产生建链不成功和异常退出这两类连通性故障的节点设备和节点设备的端口进行故障数量累加计数;
所述异常检测模块中的求和指分别针对节点设备和节点设备端口上产生的建链不成功和异常退出两类故障分别进行累加计数和求和。
9.根据权利要求8所述的装置,其特征在于,
所述异常检测模块所使用的动态基线异常检测算法为Holts-Winter指数平滑检测算法。
10.根据权利要求8所述的装置,其特征在于,
所述故障位置确定模块在判断到具有最大概然性的故障节点设备上的端口的新增连通性故障数量大于该节点设备的新增连通性故障数量的预设百分比时,将该节点设备上的端口确定为产生故障的位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010599040.8A CN111865667B (zh) | 2020-06-28 | 2020-06-28 | 网络连通性故障根因定位方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010599040.8A CN111865667B (zh) | 2020-06-28 | 2020-06-28 | 网络连通性故障根因定位方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111865667A CN111865667A (zh) | 2020-10-30 |
CN111865667B true CN111865667B (zh) | 2023-10-17 |
Family
ID=72989241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010599040.8A Active CN111865667B (zh) | 2020-06-28 | 2020-06-28 | 网络连通性故障根因定位方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111865667B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112882796A (zh) * | 2021-02-25 | 2021-06-01 | 深信服科技股份有限公司 | 异常根因分析方法和装置,及存储介质 |
CN114363160A (zh) * | 2021-12-31 | 2022-04-15 | 锐捷网络股份有限公司 | 基于广域网的网络管理方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102111789A (zh) * | 2010-12-24 | 2011-06-29 | 北京邮电大学 | 无线传感器网络的故障修复方法 |
CN109413614A (zh) * | 2018-09-27 | 2019-03-01 | 北京全路通信信号研究设计院集团有限公司 | 一种车地一体综合分析平台 |
CN110535723A (zh) * | 2019-08-27 | 2019-12-03 | 西安交通大学 | 一种sdn中采用深度学习的消息异常检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7940658B2 (en) * | 2008-09-04 | 2011-05-10 | Cisco Technology, Inc. | ERSPAN dynamic session negotiation |
-
2020
- 2020-06-28 CN CN202010599040.8A patent/CN111865667B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102111789A (zh) * | 2010-12-24 | 2011-06-29 | 北京邮电大学 | 无线传感器网络的故障修复方法 |
CN109413614A (zh) * | 2018-09-27 | 2019-03-01 | 北京全路通信信号研究设计院集团有限公司 | 一种车地一体综合分析平台 |
CN110535723A (zh) * | 2019-08-27 | 2019-12-03 | 西安交通大学 | 一种sdn中采用深度学习的消息异常检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111865667A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11442803B2 (en) | Detecting and analyzing performance anomalies of client-server based applications | |
US10103851B2 (en) | Network link monitoring and testing | |
US8443074B2 (en) | Constructing an inference graph for a network | |
US7266758B2 (en) | Network monitoring program, network monitoring method, and network monitoring apparatus | |
CN111865667B (zh) | 网络连通性故障根因定位方法及装置 | |
JP4412031B2 (ja) | ネットワーク監視システム及びその方法、プログラム | |
CN112311580B (zh) | 报文传输路径确定方法、装置及系统、计算机存储介质 | |
CN101883028A (zh) | 网络文件系统服务器的检测方法及装置 | |
CN110809060B (zh) | 一种应用服务器集群的监控系统及监控方法 | |
CN112737800B (zh) | 服务节点故障定位方法、调用链生成方法及服务器 | |
CN112073234A (zh) | 一种故障检测方法、装置、系统、设备及存储介质 | |
CN105119767A (zh) | 一种数据自检及自清理的软件运行状态监测方法及系统 | |
JP5342082B1 (ja) | ネットワーク障害解析システムおよびネットワーク障害解析プログラム | |
Zeng et al. | Measuring and troubleshooting large operational multipath networks with gray box testing | |
JP4464256B2 (ja) | ネットワーク上位監視装置 | |
CN113595783B (zh) | 故障的定位方法、装置、服务器及计算机存储介质 | |
Tri et al. | Effective route scheme of multicast probing to locate high-loss links in OpenFlow networks | |
CN114697196A (zh) | 数据中心中网络路径切换方法、数据中心网络系统及设备 | |
JP6378653B2 (ja) | サービス影響原因推定装置、サービス影響原因推定プログラム、及びサービス影響原因推定方法 | |
JP4437416B2 (ja) | ネットワーク保守システム | |
US10320954B2 (en) | Diffusing packets to identify faulty network apparatuses in multipath inter-data center networks | |
Song et al. | Internet router outage measurement: An embedded approach | |
JP6310405B2 (ja) | サービス影響原因推定装置、サービス影響原因推定プログラム、及びサービス影響原因推定方法 | |
CN112001623A (zh) | 软件负载均衡的健康度的评估方法、系统、介质和设备 | |
CN116471173A (zh) | 网络故障排查方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |