CN113271216A - 一种数据处理方法及相关设备 - Google Patents

一种数据处理方法及相关设备 Download PDF

Info

Publication number
CN113271216A
CN113271216A CN202010093223.2A CN202010093223A CN113271216A CN 113271216 A CN113271216 A CN 113271216A CN 202010093223 A CN202010093223 A CN 202010093223A CN 113271216 A CN113271216 A CN 113271216A
Authority
CN
China
Prior art keywords
propagation path
fault propagation
node
result
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010093223.2A
Other languages
English (en)
Other versions
CN113271216B (zh
Inventor
肖欣
谢于明
王仲宇
高云鹏
宋伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202010093223.2A priority Critical patent/CN113271216B/zh
Priority to EP20919283.0A priority patent/EP4084411A4/en
Priority to PCT/CN2020/108424 priority patent/WO2021159676A1/zh
Publication of CN113271216A publication Critical patent/CN113271216A/zh
Application granted granted Critical
Publication of CN113271216B publication Critical patent/CN113271216B/zh
Priority to US17/875,809 priority patent/US20220376971A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请实施例公开了一种数据处理方法,本申请实施例方法可以应用于数据中心网络,分析设备通过获取第一网络数据以及历史故障传播路径,并处理第一网络数据以得到第一故障传播路径,当历史故障传播路径包括与第一故障传播路径相同的目标故障传播路径时,更新目标故障传播路径的次数,相比处理所有网络数据的效率有所提高;相比存储所有历史网络数据,只存储历史故障传播路径,降低存储成本,且具备可复制性和可扩展性。

Description

一种数据处理方法及相关设备
技术领域
本申请实施例涉及通信技术领域,特别涉及一种数据处理方法及相关设备。
背景技术
网络故障是指由于硬件的问题、软件的漏洞和病毒的侵入等引起网络无法提供正常服务或降低服务质量的状态,如在数据中心网络中,地址解析协议(address resolutionprotocol,APR)超限、设备重启、路由器的身份标识(identity,ID)冲突等故障都会降低整体网络健康度,影响业务。
现有技术中,在需要确定故障传播路径时,处理新产生的网络数据以及历史所有网络数据得到故障传播路径,该故障传播路径表示故障在网络中被传播的路径。
但是,随着时间的增加,历史数据越来越多,存储成本越来越高,且每次需要确定故障传播路径时,都需要将所有网络数据(历史网络数据以及新产生的网络数据)重新处理,计算效率低。
发明内容
本申请实施例提供了一种数据处理方法及相关设备,相比处理所有网络数据的效率有所提高;相比存储所有历史网络数据,只存储历史故障传播路径,降低存储成本,且具备可复制性和可扩展性。
本申请实施例第一方面提供了一种数据处理方法,包括:分析设备获取第一网络数据,第一网络数据包括网络中多个节点在第一时间段内异常事件的信息以及多个节点的连接关系;分析设备处理第一网络数据以得到第一故障传播路径,第一故障传播路径表示在第一时间段内第一节点发生的第一异常事件引起第二节点发生第二异常事件,第一节点与第二节点为多个节点中任意两个不相同的节点;分析设备获取历史故障传播路径;分析设备判断历史故障传播路径是否包括与第一故障传播路径相同的目标故障传播路径,目标故障传播路径表示在第一时间段之前第一节点发生的第三异常事件引起第二节点发生第四异常事件,第三异常事件与第一异常事件为同一事件类型,第四异常事件与第二异常事件为同一事件类型;当历史故障传播路径包括目标故障传播路径时,分析设备更新目标故障传播路径的次数。
本申请实施例中,分析设备通过获取第一网络数据以及历史故障传播路径,并处理第一网络数据以得到第一故障传播路径,在确定历史故障传播路径包括与第一故障传播路径相同的第二故障传播路径时,更新第二故障传播路径的次数,相比处理所有网络数据的效率有所提高;相比存储所有历史网络数据,只存储历史故障传播路径,降低存储成本,且具备可复制性和可扩展性。
基于本申请实施例第一方面,本申请实施例第一方面的第一种实施方式中,目标故障传播路径所经过的节点与第一故障传播路径所经过的节点相同。
本申请实施例中,当目标故障传播路径所经过的节点与第一故障传播路径所经过的节点相同时,确定目标故障传播路径与第一故障传播路径相同,使得后续故障定位排查更加详细及准确。
基于本申请实施例第一方面、本申请实施例第一方面的的第一种实施方式,本申请实施例第一方面的第二种实施方式中,分析设备可以处理第一网络数据以得到第一结果,第一结果包括第一故障传播路径以及第一时长,第一时长由第一时间段内第一故障传播路径中第一节点的第一异常事件的发生时刻与第一故障传播路径中第二节点的第二异常事件的发生时刻之间的第一时间间隔处理得到。分析设备可以获取历史结果,历史结果包括第二结果,第二结果包括目标故障传播路径以及目标故障传播路径对应的第二时长,第二时长由第一时间段之前第三异常事件的发生时刻与第四异常事件的发生时刻之间的第二时间间隔处理得到。分析设备计算第一结果与第二结果以得到目标时长。分析设备将第二时长更新为目标时长。
本申请实施例中,通过增量更新的方式,更新故障传播路径的时长,为后续预测故障的影响时长提供参考。
基于本申请实施例第一方面、本申请实施例第一方面的的第一种实施方式以及本申请实施例第一方面的第二种实施方式,本申请实施例第一方面的第三种实施方式中,分析设备将第一时长与第二时长中的最大时长作为目标时长。
本申请实施例中,限定了目标时长为最大时长,提升了方案的可实现性。
基于本申请实施例第一方面、本申请实施例第一方面的的第一种实施方式至本申请实施例第一方面的第三种实施方式,本申请实施例第一方面的第四种实施方式中,第一结果还可以包括第一次数,第一次数为第一时间段内第一故障传播路径发生的次数;第二结果还可以包括第二次数,第二次数为第一时间段之前目标故障传播路径发生的次数。分析设备通过如下方式计算得到目标时长:
Figure BDA0002384408910000021
本申请实施例中,限定了目标时长的一种计算方式,提升了方案的可实现性。
基于本申请实施例第一方面、本申请实施例第一方面的的第一种实施方式至本申请实施例第一方面的第四种实施方式,本申请实施例第一方面的第五种实施方式中,第一结果还包括第三次数,第三次数为第一时间段内第二节点发生与第二异常事件的事件类型相同的异常事件的次数;第二结果还包括第四次数,第四次数为第一时间段前之前第二节点发生发生与第四异常事件的事件类型相同的异常事件的次数。分析设备计算第一结果与第二结果以得到目标概率。分析设备将目标故障传播路径的概率更新为目标概率。
本申请实施例中,通过通过增量更新的方式,将目标故障传播路径的概率更新为目标概率,有利于提高后续故障根因判断的准确性。
基于本申请实施例第一方面、本申请实施例第一方面的的第一种实施方式至本申请实施例第一方面的第五种实施方式,本申请实施例第一方面的第六种实施方式中,分析设备处理第一网络数据以得到第一结果,第一结果包括第一故障传播路径以及第三次数,第三次数为第一时间段内第二节点发生与第二异常事件的事件类型相同的异常事件的次数。分析设备获取历史结果,历史结果包括第二结果,第二结果包括目标故障传播路径以及第四次数,第四次数为第一时间段前之前第二节点发生与第二节点的异常事件相同的次数。分析设备计算第一结果与第二结果以得到目标概率。分析设备将目标故障传播路径的概率更新为目标概率。
本申请实施例中,通过增量更新的方式,将目标故障传播路径的概率更新为目标概率,有利于提高后续故障根因判断的准确性。
基于本申请实施例第一方面、本申请实施例第一方面的的第一种实施方式至本申请实施例第一方面的第六种实施方式,本申请实施例第一方面的第七种实施方式中,分析设备通过如下方式计算以得到目标概率:
Figure BDA0002384408910000031
本申请实施例中,限定了目标概率的一种计算方式,提升了方案的可实现性。
基于本申请实施例第一方面、本申请实施例第一方面的的第一种实施方式至本申请实施例第一方面的第七种实施方式,本申请实施例第一方面的第八种实施方式中,当历史故障传播路径不包括目标故障传播路径时,分析设备保存第一故障传播路径。
本申请实施例中,在历史没有记录的情况下,保存第一故障传播路径,为后续故障排查提供新的参考。
基于本申请实施例第一方面、本申请实施例第一方面的的第一种实施方式至本申请实施例第一方面的第八种实施方式,本申请实施例第一方面的第九种实施方式中,分析设备处理第一网络数据以得到第一结果,第一结果包括第一故障传播路径以及第一时长,第一时长由第一时间段内第一故障传播路径中第一节点的第一故障对应的告警发生时刻与第一故障传播路径中第二节点的第二故障对应的告警发生时刻之间的第一时间间隔处理得到。分析设备保存第一时长。
本申请实施例中,在历史没有记录的情况下,保存第一时长,为后续故障排查提供新的参考。
基于本申请实施例第一方面、本申请实施例第一方面的的第一种实施方式至本申请实施例第一方面的第九种实施方式,本申请实施例第一方面的第十种实施方式中,第一结果包括第一次数以及第三次数,第一次数为第一时间段内第一故障传播路径发生的次数,第三次数为第一时间段内第二节点发生与第二异常事件的事件类型相同的异常事件的次数;第三次数为第一时间段内第二节点发生与第二异常事件的事件类型相同的异常事件的次数。分析设备保存第一故障传播路径的第一概率,第一概率为第二节点发生第二异常事件是由第一节点的第一异常事件引起的概率。
本申请实施例中,在历史没有记录的情况下,保存第一概率,为后续故障排查提供新的参考。
基于本申请实施例第一方面、本申请实施例第一方面的的第一种实施方式至本申请实施例第一方面的第十种实施方式,本申请实施例第一方面的第十一种实施方式中,分析设备基于频繁子图挖掘算法处理第一网络数据以得到第一故障传播路径。
本申请实施例中,限定了处理第一网络数据的一种方式,提升了方案的可实现性。
基于本申请实施例第一方面、本申请实施例第一方面的的第一种实施方式至本申请实施例第一方面的第十一种实施方式,本申请实施例第一方面的第十二种实施方式中,当第一故障传播路径的第一时间间隔为多个时,第一时长为多个第一时间间隔的最大值或平均值。
本申请实施例中,限定了处理多个第一时长的一种方式,提升了方案的可实现性。
基于本申请实施例第一方面、本申请实施例第一方面的的第一种实施方式至本申请实施例第一方面的第十二种实施方式,本申请实施例第一方面的第十三种实施方式中,分析设备向云端设备发送目标结果或者目标故障传播路径。
本申请实施例第二方面提供了一种数据处理方法,包括:采集设备向分析设备发送第一网络数据,以使得分析设备处理第一网络数据得到第一故障传播路径,第一网络数据包括异常信息以及连接关系。
本申请实施例第三方面提供了一种数据处理方法,包括:云端设备接收分析设备发送的目标结果,目标结果包括目标故障传播路径、目标时长以及目标概率中的至少一种。
本申请实施例第四方面提供了一种分析设备,该分析设备执行前述第一方面的方法。
本申请实施例第五方面提供了一种采集设备,该采集设备执行前述第二方面的方法。
本申请实施例第六方面提供了一种云端设备,该云端设备执行前述第三方面的方法。
本申请实施例第七方面提供了一种计算机存储介质,该计算机存储介质中存储有指令,该指令在计算机上执行时,使得计算机执行前述第一方面的方法。
本申请实施例第八方面提供了一种计算机软件产品,该计算机程序产品在计算机上执行时,使得计算机执行前述第一方面的方法。
附图说明
图1为本申请实施例中的网络框架示意图;
图2为本申请实施例中数据处理方法一个流程示意图;
图3为本申请实施例中事件节点连接图的一种示意图;
图4为本申请实施例中一种故障传播路径的示意图;
图5为本申请实施例中另一种故障传播路径的示意图;
图6为本申请实施例中数据处理方法另一流程示意图;
图7为本申请实施例中分析设备一个结构示意图;
图8为本申请实施例中分析设备另一结构示意图;
图9为本申请实施例中分析设备另一结构示意图。
具体实施方式
本申请实施例提供了一种数据处理方法及相关设备,相比处理所有网络数据的效率有所提高;相比存储所有历史网络数据,只存储历史故障传播路径,降低存储成本,且具备可复制性和可扩展性。
下面将结合各个附图对本申请技术方案的实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。
本申请实施例提供的方法可以应用于各种通信网络中,比如,数据中心网路(datacenter neteork,DCN)、移动通信网路等。这些通信网络中的设备可以与分析设备连接,进而通过分析设备更新或增加能够对这些通信网络中发生的故障进行定位的故障传播路径。也即是,用于更新或增加故障传播路径的分析设备可以是独立于通信网络之外的设备。当然,用于更新或增加故障传播路径的分析设备也可以为通信网络中的设备,也即是,通过通信网络中的设备也可以更新或增加能够对通信网络中发生的故障进行定位的故障传播路径。
附图1为本申请实施例中的网络架构示意图。请参阅图1,本申请实施例中的网络架构包括:采集设备101、分析设备102以及云端设备103。
本申请实施例中,仅以三个采集设备101、两个分析设备102以及一个云端设备101为例进行说明,在实际应用中,可以有更多或更少的采集设备101以及分析设备102,或更多的云端设备101。
一个采集设备101与一个分析设备102之间建立有通信连接。可选地,为了提高采集设备101与分析设备102之间的通信可靠性,一个采集设备101也可以与两个或两个以上的分析设备102建立通信连接,一个分析设备102也可以与两个或两个以上的采集设备101建立通信连接。
采集设备101、分析设备102以及云端设备103之间可以通过有线网络连接,也可以通过无线网络连接。如果是通过有线网络连接,一般的连接方式为光纤网络;如果是通过无线网络连接,一般的连接方式为无线热点(wireless fidelity,WiFi)网络,或者为蜂窝状无线网络,或者是其他类型的无线网络。
采集设备101的主要功能是采集通信网络中的故障数据和异常数据等网络数据。可选地,向分析设备102提供网络数据。
分析设备102的主要功能是提取、更新以及增加故障传播路径信息。可选地,向云端设备103提供故障传播路径信息。
云端设备103可以集成在运维操作支持系统(operation support systems,OSS)上,呈现汇总更新的故障传播路径结果。
其中,分析设备102,可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。云端设备103可以是一台计算机,或者一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心,其部署在服务网络的后端。
本申请实施例中,如果采集设备101集成有更新或增加故障传播路径功能,则采集设备101可以直接与云端设备103连接,而无需通过分析设备102进行更新或增加故障传播路径。
下面结合图1的网络框架,对本申请实施例中的数据处理方法进行描述:
请参阅图2,本申请实施例中数据处理方法一个实施例包括:
201、分析设备获取第一网络数据。
本申请实施例中分析设备可以通过网络设备获取第一网络数据,也可以通过运维人员的手动输入获取第一网络数据,具体获取的方式此处不作限定。其中该网络设备可以是路由器、交换机等具有采集功能的网络设备。
本申请实施例中的第一网络数据为在第一时间段内各节点的异常信息以及通信网络中各节点的关系。其中,异常信息可以为故障信息、告警、日志、网络性能指标(keyperformance indicator,KPI)或其他事件等信息中至少一种。
由于通信网络中经常会发生不同种类的故障,且不同的故障可能因不同的原因所产生。比如,有的故障是因物理设备的硬件原因所产生,有的故障是因物理设备上部署的协议所产生的。因此,在通信网络发生与故障相关的异常事件时,与该异常事件相关的节点可能是物理设备、单板、物理端口这些物理节点,也可能是诸如开放最短路径优先(openshortest path first,OSPF)协议、边界网关协议(border gateway protocol,BGP)、快速环网保护协议(rapid ring protection protocol,RRPP)以及虚拟局域网(virtual localarea network,VLAN)等相关的逻辑节点,还有能是L3link、告警、日志等虚拟节点。
本申请实施例中的事件类型可以有多种,下面对于常见的事件类型进行举例,如表1所示:
表1
事件类型 事件类型表示的一种形式
接口的状态发生变化 IF_STATE
接口被删除 IF_DELETE
邻居状态改变 NBR_CHANGE_E
RRPP环上的端口进入转发状态 PFWD
OSPF建立邻居的接口配置不一致 ospfIfConfigError
OSPF邻居状态发生变化 ospfNbrStateChange_active
接口状态改变 linkDown_active
VXLAN隧道状态变为Down hwNvo3VxlanTnlDown
可以理解的是,表1仅仅是对事件类型以及表示形式的举例,实际应用中,还有其他的事件类型或其他的表示形式,具体此处不作限定。
202、分析设备处理第一网络数据以得到第一结果。
本申请实施例中分析设备处理第一网络数据以得到第一结果所采取的方式仅以频繁子图挖掘算法为例进行示意性说明,可以理解的是,在实际应用中,还可以有很多方式,比如图嵌入以及聚类等技术,具体此处不做限定。
本申请实施例中的频繁子图挖掘算法可以为gSpan、CloseGraph等算法,具体此处不做限定。
分析设备获取第一网络数据之后,从异常信息中提取与故障相关的异常事件,以及与该异常事件相关的节点。从而按照提取出的异常事件与该异常事件相关的节点之间的关系,生成事件节点连接图。如图3所示,各个节点的连接关系以及各个节点所发生的异常事件,图3仅是一种事件节点连接图的举例。
可选地,事件节点连接图可以以图形的形式表示,也可以是用其它形式表示,比如,可以以表项的形式来表示,具体此处不做限定。
分析设备利用频繁子图挖掘算法从所有故障的事件节点连接图中提取出共有传播路径。该共有传播路径为故障传播路径,故障传播路径表示一个节点的异常事件引起另一个发生异常事件,示例性的,从多个类似图3的事件节点连接图中提取故障传播路径,故障传播路径的一种形式如图4所示,节点1的异常事件101引起节点2发生异常事件102。节点1与节点2所连接的路径上不含有发生故障告警的节点,也即是,各个节点所连接的路径上不存在与故障相关的事件,而且这两个节点直接连接,相当于这两个节点之间的跳数为1。可以理解的是,图4只是示例性说明,两个节点之间的跳数也可以为大于1的整数,具体此处不做限定。
本申请实施例中的故障传播路径的形式可以是可视化的图形形式,也可以是文本形式,还可以是其他类型,具体此处不做限定。
示例性的,故障传播路径中的节点1为QSPF路由器(OsRouter),节点2为网络节点中的QSPF网段(OsNetwork)。也即是,OsRouter的异常事件101会导致其下面的OsNetwork发生异常事件102。故障传播路径的文本形式可以表示为“OsRouter-OsNetwork”。
分析设备利用频繁子图挖掘算法提取出的故障传播路径的数量可以为0,也可以为1,当然,也可以大于1。而且,有的事件节点连接图中可能提取不出故障传播路径,有的事件节点连接图中可能提取出数量大于或等于1的故障传播路径,且多个事件节点连接图也可能会提取出相同的故障传播路径。
如图4所示,故障传播路径表示为节点1发生异常事件101会导致节点2发生异常事件102。也即是节点1表示发生故障事件的根因实体节点。
示例性的,图5所示的故障传播路径可以表示为“OsNetwork-L3link-BGPpeer”,该故障传播路径用于指示OSPF网段(OsNetwork)内邻居协议状态故障(异常事件)导致BGPLoopback口中IP不可达(L3link),最终导致BGP邻居(BGPpeer)断链(异常事件)。
进一步地,分析设备确定第一故障传播路径后,还可以确定第一故障传播路径出现的概率和/或时长。也即是,第一结果可以除了第一故障传播路径,还可以包括第一故障传播路径出现的概率和/或时长。分析设备可以确定提取出的第一故障传播路径出现的概率(以下称为第一概率),也可以确定提取出的第一故障传播路径对应的故障传播时长(以下称为第一时长),还可以确定提取出的第一故障传播路径对应的第一概率以及对应的第一时长。其中,第一概率为第二节点发生第二异常事件是由第一节点的第一异常事件引起的概率。
可选地,分析设备根据获取到的第一网络数据中异常事件的信息,确定第一故障传播路径的第一节点(即起点)的第一异常事件发生时刻与第二节点(即终点)的第二异常事件发生时刻的时间间隔为第一时长。以图4表示的故障传播路径是第一故障传播路径为例,也即是,分析设备确定第一时长为第一节点(节点1)的第一异常事件(异常事件101)发生时刻与第二节点(节点2)的第二异常事件(异常事件102)发生时刻的时间间隔。例如,第一故障传播路径的起点的第一异常事件的发生时间为11点25分,终点的第二异常事件的事件发生时间为11点26分34秒,则第一时长为1分34秒。
可选地,分析设备可以根据事件节点连接图确定第一故障传播路径出现的第一次数以及第一故障传播路径中终点发生第二异常事件的第三次数。分析设备通过下面的方式确定第一概率:
Figure BDA0002384408910000081
203、分析设备获取历史结果,历史结果包括第二结果。
分析设备获取历史故障传播路径,其中,历史故障传播路径中的任意一个故障传播路径都可以称为第二故障传播路径,第二故障传播路径为第一时间段以前的故障传播路径,第二故障传播路径表示第三节点发生的第三异常事件引起第四节点发生第四异常事件。
进一步地,分析设备获取第二故障传播路径后,还可以获取第二故障传播路径的故障传播时长(以下称为第二时长)、第二故障传播路径在第一时间段以前出现的第二次数以及第二故障传播路径中第四节点在第一时间段以前发生第四异常事件的第四次数。也即是第二结果可以是第二故障传播路径,第二结果也可以是第二故障传播路径和第二时长,第二结果还可以是第二故障传播路径、第二时长、第二故障传播路径出现的第二次数以及第二故障传播路径中第四节点发生第四异常事件的第四次数。
本申请实施例中的第二结果或历史结果由处理历史网络数据得到,处理方式可以为频繁子图挖掘算法、图嵌入以及聚类等技术,可以理解的是,第二结果或历史结果可以是叠加更新的结果,也可以是处理所有数据得到的结果,具体此处不做限定。
204、分析设备判断历史故障传播路径中是否包括与第一故障传播路径相同的目标故障传播路径,若包括,执行步骤205,若不包括,执行步骤206。
分析设备将历史故障传播路径中的第二故障传播路径与第一故障传播路径一一进行对比。
分析设备可以判断第二故障传播路径中的第三节点和第四节点分别与第一故障传播路径中的第一节点和第二节点是否一致,且判断第二故障传播路径中的第三节点发生的第三异常事件和第四节点发生的第四异常事件分别与第一故障传播路径中的第一起点发生的第一异常事件和第二起点发生的第二异常事件是否为同一事件类型。若判断结果都为是【例如:第二故障传播路径的第三节点在五点半发生异常事件引起第四节点在六点发生异常事件。第一故障传播路径的第一起点在七点发生异常事件101引起第二节点在八点发生异常事件102,且第一节点与第三节点为同一节点,第二节点与第四节点为同一节点,且第三节点在五点半发生的异常事件与异常事件101为同一事件类型,第四节点在六点发生的异常事件与异常事件102为同一事件类型。则确定历史故障传播路径中包括与第一故障传播路径相同的目标故障传播路径。例如:异常事件101与第三节点在五点半发生的异常事件的事件类型为“OSPF网段内邻居协议状态down”,异常事件102与第四节点在六点发生的异常事件的事件类型为“BGP Loopback口IP不可达”】,则确定历史故障传播路径中包括与第一故障传播路径相同的目标故障传播路径。
进一步的,分析设备还可以再判断第二故障传播路径所经过的节点与第一故障传播路径所经过的节点是否一致,若一致,则确定历史故障传播路径中包括与第一故障传播路径相同的目标故障传播路径。
其中,故障传播路径所经过的中间节点(除了起点和终点以外的节点)可以有异常事件发生,也可以没有异常事件发生,此处不作限定。
如果第二故障传播路径与第一故障传播路径所经过的节点有发生异常事件,还可以再判断第二故障传播路径所经过的节点发生的异常事件与第一故障传播路径所经过的节点发生的异常事件是否为同一事件类型,若是,则确定历史故障传播路径中包括与第一故障传播路径相同的目标故障传播路径。
进一步的,分析设备还可以再判断第二故障传播路径所经过的节点的顺序与第一故障传播路径所经过的节点的顺序是否一致,若一致,则确定历史故障传播路径中包括与第一故障传播路径相同的目标故障传播路径。
本申请实施例中,判断历史故障传播路径中是否包括与第一故障传播路径相同的目标故障传播路径的方式有多种,上述方式只是举例具体此处不做限定。
其中,与第一故障传播路径相同的第二故障传播路径称为目标故障传播路径。
205、当历史故障传播路径包括与第一故障传播路径相同的目标故障传播路径时,更新第二结果。
如果步骤204的判断为是,即当分析设备确定历史故障传播路径包括与第一故障传播路径相同的目标故障传播路径时,更新第二结果。即历史故障传播路径包括与第一故障传播路径相同的目标故障传播路径时,说明第一时间段之前之前有记录,则分析设备更新第二结果。
比如,历史故障传播路径中的目标故障传播路径(即“OsRouter-OsNetwork”)在第一时间段之前发生的次数为150次,第一故障传播路径(即“OsRouter-OsNetwork”)在第一时间段内发生的次数为10次,则分析设备更新“OsRouter-OsNetwork”的次数,即150+10。“OsRouter-OsNetwork”的次数为160次。
可选地,当历史故障传播路径包括与第一故障传播路径相同的目标故障传播路径时,分析设备可以计算目标时长,并将第二时长更新为目标时长。以“OsRouter-OsNetwork”为例,也即是,“OsRouter-OsNetwork”在第二结果中含有第二时长,在第一结果中含有第一时长。
示例性的,第一结果包括第一故障传播路径、第一时长以及第一次数和第三次数。如表2所示:
表2
Figure BDA0002384408910000091
示例性的,第二结果包括目标故障传播路径、第二时长、第二次数以及第四次数。如表3所示:
表3
Figure BDA0002384408910000092
分析设备计算目标时长的方式有多种,下面结合表2和表3的举例进行说明:
1、分析设备比较第二时长与第一时长的大小,确定第二时长与第一时长中的最大时间间隔为目标时长。即分析设备确定1分钟为目标时长。当第二时长比第一时长大时,可以不更新目标时长,即此时的目标时长为第二时长,之前有记录。
2、分析设备通可以过下面的方式计算目标时长:
Figure BDA0002384408910000101
即:
Figure BDA0002384408910000102
可以理解的是,除了上述两种计算目标时长的方式,还可以通过其他方式计算目标时长,具体此处不做限定。
可选地,当历史故障传播路径包括与第一故障传播路径相同的目标故障传播路径时,说明目标故障传播路径中第一节点发生的第三异常事件与第一故障传播路径中第一节点发生的第一异常事件为同一事件类型,且目标故障传播路径中第二节点发生的第四异常事件与第一故障传播路径中第二节点发生的第二异常事件为同一事件类型。分析设备还可以计算目标概率,并将目标故障传播路径的概率更新为目标概率。
以表2和表3的数据为例,分析设备可以通过下面的方式计算目标概率。
Figure BDA0002384408910000103
即:
Figure BDA0002384408910000104
可以理解的是,除了上述计算目标概率的方式,还可以通过其他方式计算目标概率,具体此处不做限定。
206、当历史故障传播路径不包括与第一故障传播路径相同的目标故障传播路径时,保存第一结果。
如果步骤204的判断为否,即分析设备确定历史故障传播路径中不包括与第一故障传播路径相同的目标故障传播路径时,保存第一结果。即历史故障传播路径不包括与第一故障传播路径相同的目标故障传播路径时,说明第一时间段之前没有记录,则分析设备保存第一结果。
示例性的,图5表示第一故障传播路径,即第一故障传播路径为“OsNetwork-L3link-BGPpeer”,由于第一时间段之前第二故障传播路径中没有记录第一故障传播路径,则分析设备保存第一故障传播路径,即在记录中增加第一故障传播路径。
可选地,当历史故障传播路径中不包括与第一故障传播路径相同的目标故障传播路径时,则第一故障传播路径对应的故障传播时间(第一时长)在第一时间段之前没有记录,分析设备可以保存第一时长。
示例性的,第一结果包括第一故障传播路径、第一时长以及第一次数和第三次数。如表4所示:
表4
第一故障传播路径 第一次数 第三次数 第一时长
OsNetwork-L3link-BGPpeer 150 400 1min
即,分析设备保存故障传播路径:“OsNetwork-L3link-BGPpeer”的故障传播时间为1min。
可选地,当历史故障传播路径中不包括与第一故障传播路径相同的第二故障传播路径时,则第一故障传播路径对应概率(第一概率)在第一时间段之前没有记录,分析设备可以计算或保存第一概率。
当然,如果步骤202中计算了第一概率,分析设备可以直接保存第一概率。如果步骤202中未计算第一概率,分析设备可以通过如步骤202中计算第一概率的方式计算第一概率,此处不再赘述。
本申请实施例中的步骤203可以在步骤202之前,也可以在步骤201之前,只要在步骤204之前即可,步骤206可以在步骤205之前,只要在步骤204之后即可。
如果步骤203在步骤202之后,步骤203中,也可以针对获取第一故障传播路径中起点对应的历史结果,不仅可以减少没必要的数据传输,还可以提高后续判断中的对比效率。
本申请实施例中的故障传播路径可以应用在故障定位中,以图5所示的故障传播路径为例进行描述:“OsNetwork-L3link-BGPpeer”,假设BGPpeer节点发生异常事件,根据图5所示的故障传播路径,寻找与BGPpeer连接的L3link节点,进而查询L3link节点是否连接OsNetwork实体节点,并检测OsNetwork实体节点是否存在告警。若存在告警,则定位OsNetwork实体节点为故障根因。即,发现BGP邻居断链是由OSPF网段内邻居协议状态down所引起。
当然,可以根据故障传播路径预测哪些网络节点将受到影响,划定网络故障的传播范围。也可以根据故障传播路、概率和传播时长提高后续故障根因推理的效率及准确性。
本申请实施例中,分析设备通过处理第一网络数据以得到与第一故障传播路径相关的第一结果,分析设备再获取历史故障传播路径相关的历史结果。如果历史故障传播路径包括与第一故障传播路径相同的目标故障传播路径,更新目标故障传播路径的次数,如果历史故障传播路径不包括与第一故障传播路径相同的目标故障传播路径,保存第一故障传播路径。避免每次故障定位时,都需要将获取到的所有历史网络数据以及新网络数据进行处理得到新故障传播路径。
本申请实施例可以只处理最新的网络数据,并增量更新历史故障传播路径。一方面降低了所有历史网络数据的存储成本,只保存历史故障传播路径相关的历史结果。另一方面提高了故障定位的效率,即只处理新网络数据的效率比处理所有历史网络数据以及新网络数据的效率有所提高。
基于前面的实施例,本实施例提供了分析设备分别与采集设备、云端设备的交互流程,请参阅图6,本申请实施例中数据处理方法另一实施例包括:
601、采集设备采集第一网络数据。
当通信网络中有节点发生故障时,采集设备采集与故障相关的异常事件的信息以及网络中各节点的连接关系。
异常事件的信息可以包括故障信息、告警、KPI、日志等中至少一种。
示例性的,数据中心网络中会发生不同种类的故障,如设备重启、Routerid冲突等,每种故障都会产生很多告警及日志信息,如Routerid冲突会产生OSPF邻居状态改变、BGP状态机的状态值改变等告警及日志信息。
本申请实施例中,网络中各节点的连接关系可以由采集设备创建,也可以由其他网络设备创建。
创建过程可以是:先根据专家定义的结构框架(schema),从异常信息中抽取相关网络实体对象的信息。再解析得到结构化json数据表示的网络对象。将json对象录入图数据库,用节点来表示,并根据对象之间的属性关系建立对象之间的连接关系。当然,这种方式只是多种创建连接关系的方式中的一种,可以理解的是,在实际应用中,还可以用结构化数据格式等方式创建连接关系。
602、采集设备向分析设备发送第一网络数据。
采集设备采集到第一网络数据后,向分析设备发送该第一网络数据。
603、分析设备处理第一网络数据以得到第一结果。
604、分析设备获取历史结果,历史结果包括第二结果。
本实施例中的步骤603至步骤604与前述图5所示实施例中步骤202至步骤203所描述的类似,此处不再赘述。
605、当历史故障传播路径包括与第一故障传播路径相同的目标故障传播路径时,分析设备更新第二结果。
本实施例中的步骤605与前述图5所示实施例中步骤205所描述的类似,此处不再赘述。
606、分析设备向云端设备发送更新后的第二结果。
分析设备更新第二结果后,可以向云端设备发送更新后的第二结果。云端设备可以在接收更新后的结果后,呈现汇总更新后的故障传播路径等信息。
可选地,云端设备为集成在运营支撑系统(opretions support system,OSS)中。
607、当历史故障传播路径不包括与第一故障传播路径相同的目标故障传播路径时,分析设备保存第一结果。
本实施例中的步骤607与前述图5所示实施例中步骤206所描述的类似,此处不再赘述。
608、分析设备向云端设备发送第一结果。
分析设备保存第一结果后,可以向云端设备发送第一结果。云端设备可以在接收第一结果后,呈现汇总新的故障传播路径等信息。
本实施例中步骤606可以在步骤607之后,也可以在步骤608之后,只要在步骤605之后即可。步骤607可以在步骤608之后,也可以在步骤606之前,具体此处不作限定。
本申请实施例中,实现了采集设备与分析设备、分析设备与云端设备之间的信息交互,并减少网络数据(所有历史网络数据)的传输。本申请实施例分析设备可以只处理最新的网络数据,并增量更新历史故障传播路径,并传输给云端平台,云端平台可以进行展示。一方面降低了所有历史网络数据的存储成本,只保存历史故障传播路径相关的历史结果。另一方面提高了故障定位的效率,即只处理新网络数据的效率比处理所有历史网络数据以及新网络数据的效率有所提高。
上面对本申请实施例中的数据处理方法进行了描述,下面对本申请实施例中的分析设备进行描述,请参阅图7,本申请实施例中分析设备一个实施例包括:
获取单元701,用于获取第一网络数据,所述第一网络数据包括网络中多个节点在第一时间段内异常事件的信息以及所述多个节点的连接关系。
处理单元702,用于处理所述第一网络数据以得到第一故障传播路径,所述第一故障传播路径表示在所述第一时间段内第一节点发生的第一异常事件引起第二节点发生第二异常事件,所述第一节点与所述第二节点为所述多个节点中任意两个不相同的节点。
所述获取单元701,还用于获取历史故障传播路径。
判断单元703,用于判断所述历史故障传播路径是否包括与所述第一故障传播路径相同的目标故障传播路径,所述目标故障传播路径表示在所述第一时间段之前所述第一节点发生的第三异常事件引起所述第二节点发生第四异常事件,所述第三异常事件与所述第一异常事件为同一事件类型,所述第四异常事件与所述第二异常事件为同一事件类型。
更新单元704,用于当所述历史故障传播路径包括目标故障传播路径时,更新所述目标故障传播路径的次数。
本实施例中,分析设备中各单元所执行的操作与前述图2所示实施例中描述的类似,此处不再赘述。
本实施例中,获取单元701通过获取第一网络数据以及历史故障传播路径,处理单元702处理第一网络数据以得到第一故障传播路径,当历史故障传播路径包括与第一故障传播路径相同的目标故障传播路径时,更新单元704更新目标故障传播路径的次数,相比处理所有网络数据的效率有所提高;相比存储所有历史网络数据,只存储历史故障传播路径,降低存储成本,且具备可复制性和可扩展性。
请参阅图8,本申请实施例中分析设备另一实施例包括:
获取单元801,用于获取第一网络数据,所述第一网络数据包括网络中多个节点在第一时间段内异常事件的信息以及所述多个节点的连接关系。
处理单元802,用于处理所述第一网络数据以得到第一故障传播路径,所述第一故障传播路径表示在所述第一时间段内第一节点发生的第一异常事件引起第二节点发生第二异常事件,所述第一节点与所述第二节点为所述多个节点中任意两个不相同的节点。
所述获取单元801,还用于获取历史故障传播路径。
判断单元803,用于判断所述历史故障传播路径是否包括与所述第一故障传播路径相同的目标故障传播路径,所述目标故障传播路径表示在所述第一时间段之前所述第一节点发生的第三异常事件引起所述第二节点发生第四异常事件,所述第三异常事件与所述第一异常事件为同一事件类型,所述第四异常事件与所述第二异常事件为同一事件类型。
更新单元804,用于当所述历史故障传播路径包括目标故障传播路径时,更新所述目标故障传播路径的次数。
本实施例中的分析设备还包括:
保存单元805,用于当所述历史故障传播路径不包括所述目标故障传播路径时,保存所述第一故障传播路径。
第一计算单元806,用于计算所述第一结果与所述第二结果以得到目标时长;
第二计算单元807,用于计算所述第一结果与所述第二结果以得到目标概率;
本实施例中,分析设备中各单元所执行的操作与前述图2所示实施例中描述的类似,此处不再赘述。
本申请实施例中的第一计算单元806与第二计算单元807也可以是同一个计算单元,具体此处不作限定。
本实施例中,处理单元802通过处理第一网络数据以得到与第一故障传播路径相关的第一结果,获取单元801再获取历史故障传播路径相关的历史结果。如果历史故障传播路径包括与第一故障传播路径相同的目标故障传播路径,更新单元804更新目标故障传播路径的次数,如果历史故障传播路径不包括与第一故障传播路径相同的目标故障传播路径,保存单元805保存第一故障传播路径。避免每次故障定位时,都需要将获取到的所有历史网络数据以及新网络数据进行处理得到新故障传播路径,且通过更新故障传播路径、时长以及概率,为后续故障根因判断提供新的参考数据,有利于提高故障排查效率和准确率。
下面对本申请实施例中的分析设备进行描述,请参阅图9,本申请实施例中分析设备另一实施例包括:
该分析设备900可以包括一个或一个以上处理器901和存储器905,该存储器905中存储有一个或一个以上的应用程序或数据。
其中,存储器905可以是易失性存储或持久存储。存储在存储器905的程序可以包括一个或一个以上模块,每个模块可以包括对分析设备中的一系列指令操作。更进一步地,处理器901可以设置为与存储器905通信,在分析设备900上执行存储器905中的一系列指令操作。
分析设备900还可以包括一个或一个以上电源902,一个或一个以上有线或无线网络接口903,一个或一个以上输入输出接口904,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
该处理器901可以执行前述图2与图6所示实施例中分析设备所执行的操作,具体此处不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (28)

1.一种数据处理方法,其特征在于,包括:
分析设备获取第一网络数据,所述第一网络数据包括网络中多个节点在第一时间段内异常事件的信息以及所述多个节点的连接关系;
所述分析设备处理所述第一网络数据以得到第一故障传播路径,所述第一故障传播路径表示在所述第一时间段内第一节点发生的第一异常事件引起第二节点发生第二异常事件,所述第一节点与所述第二节点为所述多个节点中任意两个不相同的节点;
所述分析设备获取历史故障传播路径;
所述分析设备判断所述历史故障传播路径是否包括与所述第一故障传播路径相同的目标故障传播路径,所述目标故障传播路径表示在所述第一时间段之前所述第一节点发生的第三异常事件引起所述第二节点发生第四异常事件,所述第三异常事件与所述第一异常事件为同一事件类型,所述第四异常事件与所述第二异常事件为同一事件类型;
当所述历史故障传播路径包括目标故障传播路径时,所述分析设备更新所述目标故障传播路径的次数。
2.根据权利要求1所述的数据处理方法,其特征在于,所述目标故障传播路径所经过的节点与所述第一故障传播路径所经过的节点相同。
3.根据权利要求1或2所述的数据处理方法,其特征在于,所述分析设备处理所述第一网络数据以得到第一故障传播路径,包括:
所述分析设备处理所述第一网络数据以得到第一结果,所述第一结果包括第一故障传播路径以及第一时长,所述第一时长由所述第一时间段内所述第一故障传播路径中所述第一节点的所述第一异常事件的发生时刻与所述第一故障传播路径中所述第二节点的所述第二异常事件的发生时刻之间的第一时间间隔处理得到;
所述分析设备获取历史故障传播路径,包括:
所述分析设备获取历史结果,所述历史结果包括第二结果,所述第二结果包括所述目标故障传播路径以及所述目标故障传播路径对应的第二时长,所述第二时长由所述第一时间段之前所述第三异常事件的发生时刻与所述第四异常事件的发生时刻之间的第二时间间隔处理得到;
所述方法还包括:
所述分析设备计算所述第一结果与所述第二结果以得到目标时长;
所述分析设备将所述第二时长更新为所述目标时长。
4.根据权利要求3所述的数据处理方法,其特征在于,所述分析设备计算所述第一结果与所述第二结果以得到目标时长,包括:
所述分析设备将所述第一时长与所述第二时长中的最大时长作为所述目标时长。
5.根据权利要求3所述的数据处理方法,其特征在于,所述第一结果还包括第一次数,所述第一次数为所述第一时间段内所述第一故障传播路径发生的次数;所述第二结果还包括第二次数,所述第二次数为所述第一时间段之前所述目标故障传播路径发生的次数;
所述分析设备计算所述第一结果与所述第二结果以得到目标时长,包括:
所述分析设备通过如下方式计算得到所述目标时长:
Figure FDA0002384408900000021
6.根据权利要求3至5中任一项所述的数据处理方法,其特征在于,所述第一结果还包括第三次数,所述第三次数为所述第一时间段内所述第二节点发生与所述第二异常事件的事件类型相同的异常事件的次数;所述第二结果还包括第四次数,所述第四次数为所述第一时间段前之前所述第二节点发生发生与所述第四异常事件的事件类型相同的异常事件的次数;
所述方法还包括:
所述分析设备计算所述第一结果与所述第二结果以得到目标概率;
所述分析设备将所述目标故障传播路径的概率更新为所述目标概率。
7.根据权利要求1或2所述的数据处理方法,其特征在于,所述分析设备处理所述第一网络数据以得到第一故障传播路径,包括:
所述分析设备处理所述第一网络数据以得到第一结果,所述第一结果包括第一故障传播路径以及第三次数,所述第三次数为所述第一时间段内所述第二节点发生与所述第二异常事件的事件类型相同的异常事件的次数;
所述分析设备获取历史故障传播路径,包括:
所述分析设备获取历史结果,所述历史结果包括第二结果,所述第二结果包括所述目标故障传播路径以及第四次数,所述第四次数为所述第一时间段前之前所述第二节点发生与所述第二节点的异常事件相同的次数;
所述方法还包括:
所述分析设备计算所述第一结果与所述第二结果以得到目标概率;
所述分析设备将所述目标故障传播路径的概率更新为所述目标概率。
8.根据权利要求6或7所述的数据处理方法,其特征在于,所述分析设备计算所述第一结果与所述第二结果以得到目标概率,包括:
所述分析设备通过如下方式计算以得到目标概率:
Figure FDA0002384408900000022
9.根据权利要求1所述的数据处理方法,其特征在于,所述分析设备获取历史故障传播路径之后,所述方法还包括:
当所述历史故障传播路径不包括所述目标故障传播路径时,所述分析设备保存所述第一故障传播路径。
10.根据权利要求9所述的数据处理方法,其特征在于,所述分析设备处理所述第一网络数据以得到第一故障传播路径,包括:
所述分析设备处理所述第一网络数据以得到第一结果,所述第一结果包括第一故障传播路径以及第一时长,所述第一时长由所述第一时间段内所述第一故障传播路径中所述第一节点的所述第一故障对应的告警发生时刻与所述第一故障传播路径中所述第二节点的所述第二故障对应的告警发生时刻之间的第一时间间隔处理得到;
所述方法还包括:
所述分析设备保存所述第一时长。
11.根据权利要求9或10所述的数据处理方法,其特征在于,所述第一结果包括第一次数以及第三次数,所述第一次数为所述第一时间段内所述第一故障传播路径发生的次数,所述第三次数为所述第一时间段内所述第二节点发生与所述第二异常事件的事件类型相同的异常事件的次数;所述第三次数为所述第一时间段内所述第二节点发生类似所述第二异常事件的次数;
所述方法还包括:
所述分析设备保存所述第一故障传播路径的第一概率,所述第一概率为所述第二节点发生所述第二异常事件是由所述第一节点的所述第一异常事件引起的概率。
12.根据权利要求1至11中任一项所述的数据处理方法,其特征在于,所述分析设备处理所述第一网络数据以得到第一故障传播路径,包括:
所述分析设备基于频繁子图挖掘算法处理所述第一网络数据以得到所述第一故障传播路径。
13.根据权利要求3至5中个任一项所述的数据处理方法,其特征在于,当所述第一故障传播路径的所述第一时间间隔为多个时,所述第一时长为所述多个第一时间间隔的最大值或平均值。
14.一种分析设备,其特征在于,包括:
获取单元,用于获取第一网络数据,所述第一网络数据包括网络中多个节点在第一时间段内异常事件的信息以及所述多个节点的连接关系;
处理单元,用于处理所述第一网络数据以得到第一故障传播路径,所述第一故障传播路径表示在所述第一时间段内第一节点发生的第一异常事件引起第二节点发生第二异常事件,所述第一节点与所述第二节点为所述多个节点中任意两个不相同的节点;
所述获取单元,还用于获取历史故障传播路径;
判断单元,用于判断所述历史故障传播路径是否包括与所述第一故障传播路径相同的目标故障传播路径,所述目标故障传播路径表示在所述第一时间段之前所述第一节点发生的第三异常事件引起所述第二节点发生第四异常事件,所述第三异常事件与所述第一异常事件为同一事件类型,所述第四异常事件与所述第二异常事件为同一事件类型;
更新单元,用于当所述历史故障传播路径包括目标故障传播路径时,更新所述目标故障传播路径的次数。
15.根据权利要求14所述的分析设备,其特征在于,所述目标故障传播路径所经过的节点与所述第一故障传播路径所经过的节点相同。
16.根据权利要求14或15所述的分析设备,其特征在于,所述处理单元,具体用于处理所述第一网络数据以得到第一结果,所述第一结果包括第一故障传播路径以及第一时长,所述第一时长由所述第一时间段内所述第一故障传播路径中所述第一节点的所述第一异常事件的发生时刻与所述第一故障传播路径中所述第二节点的所述第二异常事件的发生时刻之间的第一时间间隔处理得到;
所述获取单元,具体用于获取历史结果,所述历史结果包括第二结果,所述第二结果包括所述目标故障传播路径以及所述目标故障传播路径对应的第二时长,所述第二时长由所述第一时间段之前所述第三异常事件的发生时刻与所述第四异常事件的发生时刻之间的第二时间间隔处理得到;
所述分析设备还包括:
第一计算单元,用于计算所述第一结果与所述第二结果以得到目标时长;
所述更新单元,还用于将所述第二时长更新为所述目标时长。
17.根据权利要求16所述的分析设备,其特征在于,所述第一计算单元,具体用于将所述第一时长与所述第二时长中的最大时长作为所述目标时长。
18.根据权利要求16所述的分析设备,其特征在于,所述第一结果还包括第一次数,所述第一次数为所述第一时间段内所述第一故障传播路径发生的次数;所述第二结果还包括第二次数,所述第二次数为所述第一时间段之前所述目标故障传播路径发生的次数;
所述第一计算单元,具体用于通过如下方式计算得到所述目标时长:
Figure FDA0002384408900000041
19.根据权利要求16至18中任一项所述的分析设备,其特征在于,所述第一结果还包括第三次数,所述第三次数为所述第一时间段内所述第二节点发生与所述第二异常事件的事件类型相同的异常事件的次数;所述第二结果还包括第四次数,所述第四次数为所述第一时间段前之前所述第二节点发生发生与所述第四异常事件的事件类型相同的异常事件的次数;
所述第一计算单元,还用于计算所述第一结果与所述第二结果以得到目标概率;
所述更新单元,还用于将所述目标故障传播路径的概率更新为所述目标概率。
20.根据权利要求14或15所述的分析设备,其特征在于,所述处理单元,具体用于处理所述第一网络数据以得到第一结果,所述第一结果包括第一故障传播路径以及第三次数,所述第三次数为所述第一时间段内所述第二节点发生与所述第二异常事件的事件类型相同的异常事件的次数;
所述获取单元,具体用于获取历史结果,所述历史结果包括第二结果,所述第二结果包括所述目标故障传播路径以及第四次数,所述第四次数为所述第一时间段前之前所述第二节点发生与所述第二节点的异常事件相同的次数;
所述分析设备还包括:
第二计算单元,用于计算所述第一结果与所述第二结果以得到目标概率;
所述更新单元,还用于将所述目标故障传播路径的概率更新为所述目标概率。
21.根据权利要求19或20所述的分析设备,其特征在于,所述第一计算单元或所述第二计算单元,具体用于通过如下方式计算以得到目标概率:
Figure FDA0002384408900000042
22.根据权利要求14所述的分析设备,其特征在于,所述分析设备还包括:
保存单元,用于当所述历史故障传播路径不包括所述目标故障传播路径时,保存所述第一故障传播路径。
23.根据权利要求22所述的分析设备,其特征在于,所述处理单元,具体用于处理所述第一网络数据以得到第一结果,所述第一结果包括第一故障传播路径以及第一时长,所述第一时长由所述第一时间段内所述第一故障传播路径中所述第一节点的所述第一故障对应的告警发生时刻与所述第一故障传播路径中所述第二节点的所述第二故障对应的告警发生时刻之间的第一时间间隔处理得到;
所述保存单元,还用于保存所述第一时长。
24.根据权利要求22或23所述的分析设备,其特征在于,所述第一结果包括第一次数以及第三次数,所述第一次数为所述第一时间段内所述第一故障传播路径发生的次数,所述第三次数为所述第一时间段内所述第二节点发生与所述第二异常事件的事件类型相同的异常事件的次数;
所述保存单元,还用于保存所述第一故障传播路径的第一概率,所述第一概率为所述第二节点发生所述第二异常事件是由所述第一节点的所述第一异常事件引起的概率。
25.根据权利要求14至24中任一项所述的分析设备,其特征在于,所述处理单元,具体用于基于频繁子图挖掘算法处理所述第一网络数据以得到所述第一故障传播路径。
26.根据权利要求16至18中个任一项所述的分析设备,其特征在于,当所述第一故障传播路径的所述第一时间间隔为多个时,所述第一时长为所述多个第一时间间隔的最大值或平均值。
27.一种分析设备,其特征在于,包括:
处理器、存储器、总线、输入输出设备;
所述处理器与所述存储器、所述输入输出设备相连;
所述总线分别连接所述处理器、所述存储器以及所述输入输出设备相连;
所述处理器执行如权利要求1至13中任一项所述的方法。
28.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有指令,所述指令在计算机上执行时,使得所述计算机执行如权利要求1至13中任一项所述的方法。
CN202010093223.2A 2020-02-14 2020-02-14 一种数据处理方法及相关设备 Active CN113271216B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202010093223.2A CN113271216B (zh) 2020-02-14 2020-02-14 一种数据处理方法及相关设备
EP20919283.0A EP4084411A4 (en) 2020-02-14 2020-08-11 DATA PROCESSING METHOD AND ASSOCIATED DEVICE
PCT/CN2020/108424 WO2021159676A1 (zh) 2020-02-14 2020-08-11 一种数据处理方法及相关设备
US17/875,809 US20220376971A1 (en) 2020-02-14 2022-07-28 Data processing method and related device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010093223.2A CN113271216B (zh) 2020-02-14 2020-02-14 一种数据处理方法及相关设备

Publications (2)

Publication Number Publication Date
CN113271216A true CN113271216A (zh) 2021-08-17
CN113271216B CN113271216B (zh) 2022-05-17

Family

ID=77227267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010093223.2A Active CN113271216B (zh) 2020-02-14 2020-02-14 一种数据处理方法及相关设备

Country Status (4)

Country Link
US (1) US20220376971A1 (zh)
EP (1) EP4084411A4 (zh)
CN (1) CN113271216B (zh)
WO (1) WO2021159676A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114363149A (zh) * 2021-12-23 2022-04-15 上海哔哩哔哩科技有限公司 故障处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010049802A1 (en) * 2000-05-30 2001-12-06 Kazuki Shigeta Fault analyzing system, method for pursuing fault origin and information storage medium for storing computer program representative of the method
CN100456687C (zh) * 2003-09-29 2009-01-28 华为技术有限公司 网络故障实时相关性分析方法及系统
CN105187255A (zh) * 2015-09-29 2015-12-23 华为技术有限公司 故障分析方法、故障分析装置和服务器
CN110752952A (zh) * 2019-10-25 2020-02-04 腾讯科技(深圳)有限公司 网络故障定位方法、装置、网络设备及计算机存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7113988B2 (en) * 2000-06-29 2006-09-26 International Business Machines Corporation Proactive on-line diagnostics in a manageable network
US8938406B2 (en) * 2009-07-30 2015-01-20 Hewlett-Packard Development Company, L.P. Constructing a bayesian network based on received events associated with network entities
CN108322320B (zh) * 2017-01-18 2020-04-28 华为技术有限公司 业务生存性分析方法及装置
US20190286504A1 (en) * 2018-03-15 2019-09-19 Ca, Inc. Graph-based root cause analysis
CN109861858B (zh) * 2019-01-28 2020-06-26 北京大学 微服务系统根因节点的错误排查方法
CN110597726A (zh) * 2019-09-19 2019-12-20 中国商用飞机有限责任公司北京民用飞机技术研究中心 航电系统的安全性管理方法、装置、设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010049802A1 (en) * 2000-05-30 2001-12-06 Kazuki Shigeta Fault analyzing system, method for pursuing fault origin and information storage medium for storing computer program representative of the method
CN100456687C (zh) * 2003-09-29 2009-01-28 华为技术有限公司 网络故障实时相关性分析方法及系统
CN105187255A (zh) * 2015-09-29 2015-12-23 华为技术有限公司 故障分析方法、故障分析装置和服务器
CN110752952A (zh) * 2019-10-25 2020-02-04 腾讯科技(深圳)有限公司 网络故障定位方法、装置、网络设备及计算机存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114363149A (zh) * 2021-12-23 2022-04-15 上海哔哩哔哩科技有限公司 故障处理方法及装置
CN114363149B (zh) * 2021-12-23 2023-12-26 上海哔哩哔哩科技有限公司 故障处理方法及装置

Also Published As

Publication number Publication date
WO2021159676A1 (zh) 2021-08-19
EP4084411A4 (en) 2023-07-19
EP4084411A1 (en) 2022-11-02
US20220376971A1 (en) 2022-11-24
CN113271216B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN112787841B (zh) 故障根因定位方法及装置、计算机存储介质
EP3167571B1 (en) Network topology estimation based on event correlation
CN110147387B (zh) 一种根因分析方法、装置、设备及存储介质
CN108964960B (zh) 一种告警事件的处理方法及装置
EP3121727B1 (en) Information processing device and error detection method
CN111125268B (zh) 网络告警分析模型创建方法、告警分析方法及装置
US10282542B2 (en) Information processing apparatus, information processing method, and computer readable medium
CN110995482A (zh) 告警分析方法、装置、计算机设备及计算机可读存储介质
CN110659109A (zh) 一种openstack集群虚拟机监控系统及方法
CN106878038B (zh) 一种通信网络中故障定位方法及装置
CN111092752B (zh) 跨多个网络切片的故障定位方法及装置
CN111355655B (zh) 一种量子密码网络量子路由检测方法和服务器
US20220207383A1 (en) Fault propagation condition extraction method and apparatus and storage medium
CN114567538A (zh) 告警信息处理方法及装置
CN113271216B (zh) 一种数据处理方法及相关设备
CN114679378A (zh) 日志监控分析方法、系统、存储介质及电子装置
CN111182522B (zh) 一种团伙确定方法、装置、电子设备及计算机存储介质
US20040158780A1 (en) Method and system for presenting neighbors of a device in a network via a graphical user interface
CN115022153B (zh) 故障根因分析方法、装置、设备和存储介质
CN111162938A (zh) 数据处理系统及方法
CN112887208B (zh) 一种路由泄露检测方法、装置及设备
EP3700259A1 (en) Network management device
CN113472567B (zh) 一种网络sla的计算方法及装置
CN111130881B (zh) 网络拓扑发现方法及装置
US20180287855A1 (en) Network Incident Identification Based On Characterizing Relationships Between Interfaces And Events As Graphical Component Relationships

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant