CN117336158A - 一种故障定位方法及相关装置 - Google Patents
一种故障定位方法及相关装置 Download PDFInfo
- Publication number
- CN117336158A CN117336158A CN202311439004.5A CN202311439004A CN117336158A CN 117336158 A CN117336158 A CN 117336158A CN 202311439004 A CN202311439004 A CN 202311439004A CN 117336158 A CN117336158 A CN 117336158A
- Authority
- CN
- China
- Prior art keywords
- fault
- target
- dial testing
- link
- targets
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012360 testing method Methods 0.000 claims abstract description 155
- 238000004458 analytical method Methods 0.000 claims abstract description 28
- 230000002159 abnormal effect Effects 0.000 claims abstract description 18
- 230000015654 memory Effects 0.000 claims description 17
- 230000005856 abnormality Effects 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000005065 mining Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 230000002085 persistent effect Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 description 10
- 230000004807 localization Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000012423 maintenance Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011835 investigation Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000003102 growth factor Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请实施例公开了一种故障定位方法及相关装置,用于检测出网络链路中的故障目标。本申请实施例方法包括:获取与网络异常的拨测目标对应的拨测事件;判断所述拨测事件是否由机房出口网关故障引起;若所述拨测事件非所述机房出口网关故障引起,则基于所述拨测目标的数量,通过指标信息对预先设置的图谱进行故障分析定位,以从所述图谱中定位出故障目标,所述图谱包括涉及所述拨测目标的所有网络链路。
Description
技术领域
本申请实施例涉及互联网领域,尤其涉及一种故障定位方法及相关装置。
背景技术
在数据传输过程中,经常会遇见数据中心网络链路的某些节点故障的问题。为了解决上述问题,现有技术方案通常采用人工识别对于端侧网络异常时其所在的中间链路进行故障定位,即:具备丰富网络运维经验的专家可以通过收集故障对象的网络状态信息,然后进行判断,逐步缩小排查范围,定位原因。
然而,现有的方案是利用人工进行故障识别定位,这样过于依赖专家的经验,且人工成本较高,故障定位的及时性较差。
发明内容
本申请实施例提供了一种故障定位方法及相关装置,用于检测出网络链路中的故障目标。
一种故障定位方法,包括:
获取与网络异常的拨测目标对应的拨测事件;
判断所述拨测事件是否由机房出口网关故障引起;
若所述拨测事件非所述机房出口网关故障引起,则基于所述拨测目标的数量,通过指标信息对预先设置的图谱进行故障分析定位,以从所述图谱中定位出故障目标,所述图谱包括涉及所述拨测目标的所有网络链路。
可选的,所述基于所述拨测目标的数量,通过指标信息和预先设置的图谱进行故障分析定位,以从所述图谱中定位出故障目标,包括:
若所述拨测事件所对应的拨测目标为多个,则基于所述图谱构建涉及所述拨测目标的故障链路子图;
基于所述指标信息,从所述故障链路子图中确定目标子链路;
对所述目标子链路的节点进行故障概率评估,以将故障概率大于预设阈值的节点确定为所述故障目标。
可选的,所述基于所述指标信息,从所述故障链路子图中确定目标子链路,包括:
通过频繁项挖掘算法将所述故障链路子图中流经频次最高且路径最长的链路确定为所述目标子链路。
可选的,所述对所述目标子链路的节点进行故障概率评估,包括:
根据所述目标子链路的第i个节点的第一数量、第二数量、第三数量和第四数量四者中至少一个进行计算,得到所述第i个节点对应的故障概率;
其中,所述i为不大于所述目标子链路的所有节点数量的正整数,所述第一数量为经过所述第i个节点的出现网络故障的拨测目标的数量,所述第二数量为经过所述第i个节点的未出现网络故障的拨测目标的数量,所述第三数量为未经过所述第i个节点的出现网络故障的拨测目标的数量,所述第四数量为未经过所述第i个节点的未出现网络故障的拨测目标的数量。
可选的,所述根据所述目标子链路的第i个节点的第一数量、第二数量、第三数量和第四数量四者中至少一个进行计算,得到所述第i个节点对应的故障概率,包括:
将所述第一数量除以所述第一数量、所述第二数量和所述第三数量三者的和所得到的商确定为所述故障概率。
可选的,所述基于所述拨测目标的数量,通过指标信息和预先设置的图谱进行故障分析定位,以从所述图谱中定位出故障目标,包括:
若所述拨测事件所对应的拨测目标为一个,则对所述图谱进行分段筛选,以得到属于目标数据中心的候选节点,所述目标数据中心为所述拨测目标所在的数据中心;
根据所述指标信息对所述候选节点进行分析,以从所述候选节点中找到故障目标。
可选的,所述方法还包括:
若所述拨测事件由机房出口网关故障引起,则获取涉及机房出口网关的链路;
基于所述涉及机房出口网关的链路执行单目标故障定位。
一种故障定位装置,包括:
获取单元,用于获取与出现网络异常的拨测目标对应的拨测事件;
判断单元,用于判断所述拨测事件是否由机房出口网关故障引起;
定位单元,用于当所述拨测事件非所述机房出口网关故障引起时,基于所述拨测目标的数量,通过指标信息对预先设置的图谱进行故障分析定位,以从所述图谱中定位出故障目标,所述图谱包括涉及所述拨测目标的所有网络链路。
一种故障定位装置,包括:
中央处理器,存储器以及输入输出接口;
所述存储器为短暂存储存储器或持久存储存储器;
所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行前述的方法。
一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行前述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
获取与出现网络异常的拨测目标对应的拨测事件,接着判断拨测事件是否由机房出口网关故障引起;若拨测事件不由机房出口网关故障引起,则通过指标信息和预先设置的图谱对拨测事件进行故障分析定位,以定位出故障目标。通过故障定位装置自动获取拨测事件,并定位出故障目标,相较于人工识别的成本较低,无需过于依赖专家经验,且故障定位的及时性较好。
附图说明
图1为本申请的图谱拓扑示意图;
图2为本申请的故障定位方法一个实施例示意图;
图3为本申请的故障定位方法另一实施例示意图;
图4为本申请的故障链路子图示意图;
图5为本申请的故障定位方法另一实施例示意图;
图6为本申请的故障定位装置一个实施例示意图;
图7为本申请的故障定位装置另一实施例示意图。
具体实施方式
本申请实施例提供了一种故障定位方法及相关装置。
随着技术迭代,虚拟网络设备应用越来越广泛,这就导致了越来越长且错综复杂的网络链路,且网络感知系统越全面,与之而来的是拨测产生的事件越来越多。庞大的事件告警数量,也增加了网络运维工程师的压力。而现行拨测系统只能一定程度上发现端侧是否存在网络问题,但是端侧的问题很可能是由于中间链路故障(或者异常)导致的,现有的工作无法有效区分这种故障关系。现有的方案中,需要运维人员进一步排查导致访问不通的中间链路。然而利用人工进行故障识别定位过于依赖专家的经验,且人工时间成本较高,故障定位的及时性较差,因此,自动化分析定位网络链路事件的故障范围,压缩网络运维成本势在必行。为了解决上述问题,本申请提供了故障定位方法和故障定位装置,以自动定位出故障目标,相较于人工识别的成本较低,无需过于依赖专家经验,且故障定位的及时性较好。
本申请是通过图谱来进行故障定位的。请参阅图1,本申请涉及主探测源+若干个辅探测源,分布在不同地域的数据中心上。指定拨测目标后,多个探测源同时向拨测目标发起拨测,并得到指标信息用于后续分析。其中,拨测目标的类型为虚拟机、VPN或管理平台等。分段故障定位服务主要是以发生拨测事件(事件是拨测告警的聚合,即监测到有告警才会触发故障定位服务)作为触发条件,具体表现为:故障定位装置周期性对拨测目标发起Ping监测。根据实时Ping数据的指标信息产生告警,同时指标信息(主要包括平均时延,丢包等)入故障定位装置的VM数据库。接下来对拨测告警进行聚合形成拨测事件,故障定位装置的图谱引擎对事件进行缓存并关联到具体对象(配置文件中所指定拨测目标在图谱中的相应对象,例如:配置文件指定某个虚拟机IP,则关联到图谱中对应虚拟机节点上),用于向故障定位服务提供网络链路信息;同时根据该时间进入拨测链路的故障定位流程。故障定位装置的云端服务器接收VM数据库的指标信息,图谱引擎的事件和图谱链路,并进行分析以找出故障目标。
下面对本申请的故障定位方法进行描述。请参阅图2,本申请的故障定位方法一个实施例包括:
201、获取与网络异常的拨测目标对应的拨测事件;
获取与网络异常的拨测目标对应的拨测事件。其中,故障定位装置负责实时监控图谱中拨测目标的网络状态,拨测目标是通过在配置文件所指定的IP(可以是EIP(弹性IP),固定IP)或URL)来确定,一旦发现拨测目标网络异常(丢包、延时或离线等)则会生成相应的告警并对告警进行聚合形成对应的拨测事件。拨测事件本身包含UUID,告警类型(离线,延时,丢包等),拨测目标(一个或多个),拨测目标类型(虚拟机,VPN,出口网关等)以及时间等信息。另外,考虑到用户使用习惯,开发人员可能存在分析过去某个时间内的某个数据中心是否存在故障目标的需求,增加一个手动触发故障分析的接口,用户可通过指定要分析的时间段、数据中心和告警类型(延时,离线和丢包等)来手动触发故障的分析和定位,手动或自动触发可根据实际需求进行,具体此处不做限定。
202、判断拨测事件是否由机房出口网关故障引起,若否,则执行步骤203,若是,则返回执行步骤202重新判断,防止误判;
具体的,先从拨测事件中获取拨测目标类型,看看其中是否有机房出口网关,若有拨测目标为机房出口网关,则从图谱中获取涉及该机房出口网关的网络链路,基于该网络链路执行单目标故障定位(即下面实施例的“Tracert+图谱”方式,Tracert即为路由追踪),以进一步判断是公网故障还是该机房出口网关故障;若拨测目标类型中没有机房出口网关,则判断同时段的网络故障的拨测目标所经过的链路上是否至少存在两个同样的机房出口网关告警(即某一个拨测目标有一个机房出口网关告警,还要有另一个拨测目标有机房出口网关告警),存在则认定为机房出口网关故障,不存在则进一步根据拨测目标的数量进行进一步故障定位分析,数量为一个则用“Tracert+图谱”方式,数量为多个则用“ping检测+图谱”方式,具体参见下面实施例。
203、基于拨测目标的数量,通过指标信息对预先设置的图谱进行故障分析定位,以从图谱中定位出故障目标;
基于拨测目标的数量,通过指标信息对预先设置的图谱进行故障分析定位,以从图谱中定位出故障目标,其中,图谱是一种基于图的数据结构,由节点和边组成,用于描述实体之间的关系,包括涉及拨测目标的所有网络链路。指标信息包括延时信息、丢包信息和离线信息等,即Tracert数据。拨测目标的数量分为两种情况,一种情况为一个,另一种情况为多个,具体内容参见下面实施例。
本申请实施例中,获取与出现网络异常的拨测目标对应的拨测事件,接着判断拨测事件是否由机房出口网关故障引起;若拨测事件不由机房出口网关故障引起,则通过指标信息和预先设置的图谱对拨测事件进行故障分析定位,以定位出故障目标。通过故障定位装置自动获取拨测事件,并定位出故障目标,相较于人工识别的成本较低,无需过于依赖专家经验,且故障定位的及时性较好。
由于拨测事件所对应的拨测目标数量可以有一个或多个,即在该拨测事件的同一个数据中心且同一个拨测周期内有一个或多个发生告警的拨测目标,根据一个或多个分为两种情况。若拨测事件对应的拨测目标为多个,请参阅图3,本申请的故障定位方法另一实施例包括:
301、获取与网络异常的拨测目标对应的拨测事件;
获取与网络异常的拨测目标对应的拨测事件。其中,故障定位装置负责实时监控图谱中拨测目标的网络状态,拨测目标是通过在配置文件所指定的IP(可以是EIP(弹性IP),固定IP)或URL)来确定,一旦发现拨测目标网络异常(丢包、延时或离线等)则会生成相应的告警并对告警进行聚合形成对应的拨测事件。拨测事件本身包含UUID,告警类型(离线,延时,丢包等),拨测目标(一个或多个),拨测目标类型(虚拟机,VPN,出口网关等)以及时间等信息。另外,考虑到用户使用习惯,开发人员可能存在分析过去某个时间内的某个数据中心是否存在故障目标的需求,增加一个手动触发故障分析的接口,用户可通过指定要分析的时间段、数据中心和告警类型(延时,离线和丢包等)来手动触发故障的分析和定位,手动或自动触发可根据实际需求进行,具体此处不做限定。
302、判断拨测事件是否由机房出口网关故障引起,若是,则执行步骤303,若否,则执行步骤305;
具体的,先从拨测事件中获取拨测目标类型,看看其中是否有机房出口网关,若有拨测目标为机房出口网关,则从图谱中获取涉及该机房出口网关的网络链路,基于该网络链路执行单目标故障定位(即“Tracert+图谱”方式),以进一步判断是公网故障还是该机房出口网关故障;若拨测目标类型中没有机房出口网关,则判断同时段的网络故障的拨测目标所经过的链路上是否至少存在两个同样的机房出口网关告警(即某一个拨测目标有一个机房出口网关告警,还要有另一个拨测目标有机房出口网关告警),存在则认定为机房出口网关故障,不存在则进一步根据拨测目标的数量进行进一步故障定位分析,数量为一个则用“Tracert+图谱”方式,数量为多个则用“ping检测+图谱”方式,具体参见下面实施例。
303、获取涉及机房出口网关的链路;
拨测事件由机房出口网关引起,则获取涉及机房出口网关的链路,具体的,从图谱中找到该机房出口网关的节点,并找到涉及该节点的边的所有节点,这些节点即构成机房出口网关的链路。
304、基于涉及机房出口网关的链路执行单目标故障定位;
基于涉及机房出口网关的链路执行单目标故障定位。单目标故障定位即通过指标信息和图谱进行故障定位分析。具体的,先进行图谱分段,分出出现网络故障的拨测目标所在的目标数据中心,接着根据指标信息对目标数据中心的节点进行分析定位,以找到故障目标。
305、基于图谱构建涉及拨测目标的故障链路子图;
基于图谱构建涉及拨测目标的故障链路子图。具体的,从图谱中过滤出机房出口网关、各级交换机、虚拟路由、主机(网口)和虚拟机等网络设备作为节点,取网络设备的连接关系作为边来构建故障链路子图,同时将网络设备UUID抽取出来,形成故障链路列表作为算法的输入,故障链路列表可用于缩小故障范围以及估计网络设备的故障概率。
306、基于指标信息,从故障链路子图中确定目标子链路;
基于指标信息,从故障链路子图中确定目标子链路,具体的,通过频繁项挖掘算法将故障链路子图中流经频次最高且路径最长的链路确定为目标子链路,其中,频繁项集挖掘算法是在事务数据库、关系数据库和其他信息存储库中的项目或对象集之间寻找频繁模式、关联、相关或因果结构的算法。如图4所示,考虑到图中的网络链路本身具有较强的层级结构,一般来说,除了拨测目标自身故障之外,大部分拨测目标往往会经过公共的故障节点,且第一个被频繁流经的上级节点故障概率较大,且大范围故障时,真正故障的节点是频繁经过的公共节点,反之并不是所有频繁经过的公共节点都是故障节点,只是候选节点。同样高频次出现的子链路,选择路径更长的(候选节点更多)的更合理。例如图4中的子链路('a')和('a','b1'),单就频次来说都是6,但实际需要选择频繁流经且最长的公共子链路,即目标子链路为('a','b1')。
频繁项挖掘算法具体地:预定义频次阈值f,用于认定项为频繁项,称为频繁告警链路。先计算最小支持度minsup=故障目标数alert_num-1,再从多个故障目标网络链路找到出现故障较多的公共节点(频繁项集),接着按频次n,路径长度对频繁项集进行排序,然后将(频次n/故障目标数alert_num)>频次阈值f长路径提至靠前,即将越频繁的链路越提至靠前,若指定目标链路,则直接返回包含目标链路的频繁链路,若需要返回包含拨测目标的则遍历返回包含拨测目标的频繁链路,否则直接返回最频繁的链路。
307、对目标子链路的节点进行故障概率评估,以将故障概率大于预设阈值的节点确定为故障目标。
对目标子链路的节点进行故障概率评估,以将故障概率大于预设阈值的节点确定为故障目标,即根据目标子链路的第i个节点的第一数量、第二数量、第三数量和第四数量四者中至少一个进行计算,得到第i个节点对应的故障概率,其中,i为不大于目标子链路的所有节点数量的正整数,第一数量为经过第i个节点的出现网络故障的拨测目标的数量,第二数量为经过第i个节点的未出现网络故障的拨测目标的数量,第三数量为未经过第i个节点的出现网络故障的拨测目标的数量,第四数量为未经过第i个节点的未出现网络故障的拨测目标的数量。得到所有节点的故障概率后,各自与预设阈值进行比较,大于预设阈值的节点即为故障目标。
具体的,在一种实施方式中,根据以下公式计算所述第i个节点的故障概率:
其中,所述Pi为第i个节点的故障概率;
所述Oef为所述第一数量;
所述Oep为所述第二数量;
所述Onf为所述第三数量;
请参阅图4,在虚拟机层级,'a','b1'两个节点的故障概率分别为6/6+6+0=0.5,6/6+0+0=1。可以理解的是,还可以根据其他预先设定的公式进行计算,具体此处不做限定。
本实施例中,获取与出现网络异常的拨测目标对应的拨测事件,接着判断拨测事件是否由机房出口网关故障引起;若拨测事件不由机房出口网关故障引起,则通过指标信息和预先设置的图谱对拨测事件进行故障分析定位,以定位出故障目标。通过故障定位装置自动获取拨测事件,并定位出故障目标,相较于人工识别的成本较低,无需过于依赖专家经验,且故障定位的及时性较好。
若拨测事件所对应的拨测目标为一个,请参阅图5,本申请的故障定位方法另一实施例包括:
501、获取与网络异常的拨测目标对应的拨测事件;
502、判断拨测事件是否由机房出口网关故障引起,若是,则执行步骤503,若否,则执行步骤505;
503、若拨测事件由机房出口网关故障引起,则获取涉及机房出口网关的链路;
504、基于涉及机房出口网关的链路执行单目标故障定位;
本实施例中的步骤501至504与前述图3所示实施例中步骤301至304类似,此处不再赘述。
505、对图谱进行分段筛选,以得到属于目标数据中心的候选节点;
对图谱进行分段筛选,以得到属于目标数据中心的候选节点,其中,目标数据中心为拨测目标所在的数据中心。具体的,按图1所示的整体拓扑结构,对探测源到拨测目标的拨测链路进行分段标记:源数据中心-源二级运营商-公网-目标端二级运营商-目标数据中心,再将目标数据中心内的候选节点关联到图谱的对应网络设备上。
506、根据指标信息对候选节点进行分析,以从候选节点中找到故障目标。
根据指标信息对候选节点进行分析,以从候选节点中找到故障目标。基于tracert监测的数据特性,不同告警类型,异常节点分析算法略有不同。
关于延时告警:考虑到延时具有传递性,某个节点延时异常,则后续节点都会受到影响。最直观的异常判断方法是阈值判断法,即超过阈值则认为数据异常。总的来说,通过遍历全部候选节点,利用动态阈值判断节点延时是否异常。若从某个节点开始,后续节点全部异常则认为该节点为故障目标。具体步骤:先遍历不同探测源数据,取出对应的指标信息,包含延时、延时标准差和节点等信息,接着遍历候选节点,并进行节点异常检测:从探测源端的节点出发,利用动态阈值判断该节点是否异常,若异常,则标记为候选故障节点Oi,i递增(用于表示连续异常的个数);若正常,则判断i是否大于0,若是则i置0,即延时要求后续节点连续异常,否则不认为前一个节点异常。其中,有两种动态阈值获取方式:(1)利用无告警时的traceroute数据计算;(2)利用探测源到拨测目标的过去n天的延时数据计算。计算方法可以是均值+增长系数,百分位数等。最后遍历完全部节点后,若存在连续异常,将标记的候选故障节点(即第一个异常节点)视为故障目标。
关于离线告警:将链路分段后,定时采集网络正常时网络链路所包含的节点的指标信息,接着获取到离线时的tracert数据后,先分段获取故障所在区间,若为目标数据中心内部,则根据网络正常时的链路信息比对来获取离线节点,即得到故障目标。
关于丢包告警:与延时告警场景的处理逻辑类似,遍历全部候选节点,通过动态阈值判断节点丢包是否异常。区别在于:仅采用无告警时的traceroute数据作为动态阈值,且要求至少连续n个节点异常,否则不认为前一个节点异常,n为经验值,可根据需求自行设定。
另外,故障分析定位完成之后需要将故障信息以最友好的方式呈现给运维人员,具体的:
(1)诊断建议:将故障信息按约定格式形成诊断建议,放入事件告警的详情中,形如:转发路径(故障概率):出口网关A(UUID)-**%,服务器A(UUID)-**%,集群A(UUID)-**%等;
(2)可视化:在构建故障链路子图时,已经建立了出现故障的拨测目标到机房出口网关的关键网络链路,因此可以在前端界面上将链路图绘制出来,节点表示经过的网络设备(包含名称,UUID等属性信息),边代表转发路径(即网络节点的连接关系)。同时将故障节点信息进行标记,该方式更加直观。
本实施例中,能够实现全自动化的网络事件告警的分析,更准确的推断实际发生故障的网络节点,同时以处置建议和可视化的方式告知运维人员。大幅度缩小故障排查范围,减少故障排查时间。降低运维成本的同时,缩短平均修复时间(MTTR)。在提高云平台的可恢复性,降成本方面存在显著意义。
下面对本申请的故障定位装置进行描述,请参阅图6,本申请的故障定位装置一个实施例包括:
获取单元601,用于获取与出现网络异常的拨测目标对应的拨测事件;
判断单元602,用于判断所述拨测事件是否由机房出口网关故障引起;
定位单元603,用于当所述拨测事件非所述机房出口网关故障引起时,基于所述拨测目标的数量,通过指标信息对预先设置的图谱进行故障分析定位,以从所述图谱中定位出故障目标,所述图谱包括涉及所述拨测目标的所有网络链路。
本申请实施例中,获取单元601获取与出现网络异常的拨测目标对应的拨测事件,接着判断单元602判断拨测事件是否由机房出口网关故障引起;若拨测事件不由机房出口网关故障引起,则定位单元603通过指标信息和预先设置的图谱对拨测事件进行故障分析定位,以定位出故障目标。通过故障定位装置自动获取拨测事件,并定位出故障目标,相较于人工识别的成本较低,无需过于依赖专家经验,且故障定位的及时性较好。
本实施例故障定位装置中各单元所执行的功能以及流程与前述图1至图5中故障定位装置所执行的功能和流程类似,此处不再赘述。
图7是本申请实施例提供的一种故障定位装置结构示意图,该故障定位装置700可以包括一个或一个以上中央处理器(central processing units,CPU)701和存储器705,该存储器705中存储有一个或一个以上的应用程序或数据。
其中,存储器705可以是易失性存储或持久存储。存储在存储器705的程序可以包括一个或一个以上模块,每个模块可以包括对故障定位装置中的一系列指令操作。更进一步地,中央处理器701可以设置为与存储器705通信,在故障定位装置700上执行存储器705中的一系列指令操作。
故障定位装置700还可以包括一个或一个以上电源702,一个或一个以上有线或无线网络接口703,一个或一个以上输入输出接口704,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
该中央处理器701可以执行前述图1至图5所示实施例中故障定位装置所执行的操作,具体此处不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种故障定位方法,其特征在于,包括:
获取与网络异常的拨测目标对应的拨测事件;
判断所述拨测事件是否由机房出口网关故障引起;
若所述拨测事件非所述机房出口网关故障引起,则基于所述拨测目标的数量,通过指标信息对预先设置的图谱进行故障分析定位,以从所述图谱中定位出故障目标,所述图谱包括涉及所述拨测目标的所有网络链路。
2.根据权利要求1所述的故障定位方法,其特征在于,所述基于所述拨测目标的数量,通过指标信息和预先设置的图谱进行故障分析定位,以从所述图谱中定位出故障目标,包括:
若所述拨测事件所对应的拨测目标为多个,则基于所述图谱构建涉及所述拨测目标的故障链路子图;
基于所述指标信息,从所述故障链路子图中确定目标子链路;
对所述目标子链路的节点进行故障概率评估,以将故障概率大于预设阈值的节点确定为所述故障目标。
3.根据权利要求2所述的故障定位方法,其特征在于,所述基于所述指标信息,从所述故障链路子图中确定目标子链路,包括:
通过频繁项挖掘算法将所述故障链路子图中流经频次最高且路径最长的链路确定为所述目标子链路。
4.根据权利要求2所述的故障定位方法,其特征在于,所述对所述目标子链路的节点进行故障概率评估,包括:
根据所述目标子链路的第i个节点的第一数量、第二数量、第三数量和第四数量四者中至少一个进行计算,得到所述第i个节点对应的故障概率;
其中,所述i为不大于所述目标子链路的所有节点数量的正整数,所述第一数量为经过所述第i个节点的出现网络故障的拨测目标的数量,所述第二数量为经过所述第i个节点的未出现网络故障的拨测目标的数量,所述第三数量为未经过所述第i个节点的出现网络故障的拨测目标的数量,所述第四数量为未经过所述第i个节点的未出现网络故障的拨测目标的数量。
5.根据权利要求4所述的故障定位方法,其特征在于,所述根据所述目标子链路的第i个节点的第一数量、第二数量、第三数量和第四数量四者中至少一个进行计算,得到所述第i个节点对应的故障概率,包括:
将所述第一数量除以所述第一数量、所述第二数量和所述第三数量三者的和所得到的商确定为所述故障概率。
6.根据权利要求1所述的故障定位方法,其特征在于,所述基于所述拨测目标的数量,通过指标信息和预先设置的图谱进行故障分析定位,以从所述图谱中定位出故障目标,包括:
若所述拨测事件所对应的拨测目标为一个,则对所述图谱进行分段筛选,以得到属于目标数据中心的候选节点,所述目标数据中心为所述拨测目标所在的数据中心;
根据所述指标信息对所述候选节点进行分析,以从所述候选节点中找到故障目标。
7.根据权利要求1所述的故障定位方法,其特征在于,所述方法还包括:
若所述拨测事件由机房出口网关故障引起,则获取涉及机房出口网关的链路;
基于所述涉及机房出口网关的链路执行单目标故障定位。
8.一种故障定位装置,其特征在于,包括:
获取单元,用于获取与出现网络异常的拨测目标对应的拨测事件;
判断单元,用于判断所述拨测事件是否由机房出口网关故障引起;
定位单元,用于当所述拨测事件非所述机房出口网关故障引起时,基于所述拨测目标的数量,通过指标信息对预先设置的图谱进行故障分析定位,以从所述图谱中定位出故障目标,所述图谱包括涉及所述拨测目标的所有网络链路。
9.一种故障定位装置,其特征在于,包括:
中央处理器,存储器以及输入输出接口;
所述存储器为短暂存储存储器或持久存储存储器;
所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行权利要求1至7中任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至7中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311439004.5A CN117336158A (zh) | 2023-10-31 | 2023-10-31 | 一种故障定位方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311439004.5A CN117336158A (zh) | 2023-10-31 | 2023-10-31 | 一种故障定位方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117336158A true CN117336158A (zh) | 2024-01-02 |
Family
ID=89293201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311439004.5A Pending CN117336158A (zh) | 2023-10-31 | 2023-10-31 | 一种故障定位方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117336158A (zh) |
-
2023
- 2023-10-31 CN CN202311439004.5A patent/CN117336158A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10860939B2 (en) | Application performance analyzer and corresponding method | |
US8352789B2 (en) | Operation management apparatus and method thereof | |
CN113328872B (zh) | 故障修复方法、装置和存储介质 | |
US8098585B2 (en) | Ranking the importance of alerts for problem determination in large systems | |
US7693982B2 (en) | Automated diagnosis and forecasting of service level objective states | |
US20110276836A1 (en) | Performance analysis of applications | |
CN110147387B (zh) | 一种根因分析方法、装置、设备及存储介质 | |
CN111722952A (zh) | 业务系统的故障分析方法、系统、设备和存储介质 | |
CN107124289B (zh) | 网络日志时间对齐方法、装置及主机 | |
CN115118581B (zh) | 一种基于5g的物联网数据全链路监控和智能保障系统 | |
US20200021511A1 (en) | Performance analysis for transport networks using frequent log sequence discovery | |
CN113542017A (zh) | 基于网络拓扑和多指标的一种网络故障定位方法 | |
CN114465874B (zh) | 故障预测方法、装置、电子设备与存储介质 | |
CN112769605B (zh) | 一种异构多云的运维管理方法及混合云平台 | |
CN108933694A (zh) | 基于拨测数据的数据中心网络故障节点诊断方法及系统 | |
CN110716842A (zh) | 集群故障检测方法和装置 | |
CN108809734A (zh) | 网络告警根源分析方法、系统、存储介质及计算机设备 | |
CN102075368A (zh) | 一种业务故障诊断方法、装置和系统 | |
CN115237717A (zh) | 一种微服务异常检测方法和系统 | |
CN114095965A (zh) | 指标检测模型获取及故障定位方法、装置、设备及存储介质 | |
CN113271224A (zh) | 节点的定位方法、装置、存储介质及电子装置 | |
CN112559237A (zh) | 运维系统排障方法、装置、服务器和存储介质 | |
CN112671767A (zh) | 一种基于告警数据分析的安全事件预警方法及装置 | |
JP6954379B2 (ja) | 異常箇所特定装置、異常箇所特定方法及びプログラム | |
CN117336158A (zh) | 一种故障定位方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |