CN114785666B - 一种网络故障排查方法与系统 - Google Patents

一种网络故障排查方法与系统 Download PDF

Info

Publication number
CN114785666B
CN114785666B CN202210709991.5A CN202210709991A CN114785666B CN 114785666 B CN114785666 B CN 114785666B CN 202210709991 A CN202210709991 A CN 202210709991A CN 114785666 B CN114785666 B CN 114785666B
Authority
CN
China
Prior art keywords
network
troubleshooting
anomaly detection
detection analysis
network state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210709991.5A
Other languages
English (en)
Other versions
CN114785666A (zh
Inventor
汤汝鸣
曹立
聂晓辉
刘大鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bishi Technology Co ltd
Original Assignee
Beijing Bishi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bishi Technology Co ltd filed Critical Beijing Bishi Technology Co ltd
Priority to CN202210709991.5A priority Critical patent/CN114785666B/zh
Publication of CN114785666A publication Critical patent/CN114785666A/zh
Application granted granted Critical
Publication of CN114785666B publication Critical patent/CN114785666B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开一种网络故障排查方法和系统,其中所述方法包括:设置网络故障排查触发规则;基于所述网络故障排查触发规则实时监测网络状态;一旦检测到网络故障事件,则进行上报网络状态参数;基于所述网络状态参数,获取网络故障排查的可疑路径信息;基于所述可疑路径信息,采用相应的异常检测算法进行网络状态异常检测分析;对异常检测分析结果进行根因定位。与现有技术相比,本发明通过对网络故障排查流程的模块化,将排查过程中涉及到的数据、流程进行定义与拆分,并通过各个模块的自动化实现方法,提升网络故障排查的整体效率。同时,模块化设计可以更好地适应不同的网络环境,具有较强的通用性。

Description

一种网络故障排查方法与系统
技术领域
本发明属于计算机技术领域,尤其涉及一种网络故障排查方法与系统。
背景技术
目前,由于网络设备种类多、其监控指标复杂,尚无统一的通用排查手段,在多数网络环境中仍然以人工排查为主。在多数企业网络和数据中心当中,对不同的网络设备会采用不同形式的监控,以保证各项设备的正常运行。举例来说,核心交换机作为数据中心的重要节点设备,对其各项指标会进行监控,例如设备的性能指标如CPU使用率、内存使用率,设备的流量信息如各个端口的流量、丢错包等。一般情况下,上述网络设备指标会统一汇总至网络监控平台,由网络运维人员负责监控和维护。
在应用发生故障时,首先会由负责应用的相关运维人员对异常的情况进行分析,并初步判断故障的可能原因。若判断故障可能是由于网络方面的原因导致的(例如应用出现响应时延上升、响应率低等故障),则会通知相关网络运维人员并给出必要的网络信息,由网络运维人员对网络指标进行排查,再进一步定位到故障的网络设备上。
企业的各项在线业务涉及到许多不同的服务、应用程序和数据流转。这些数据在数据中心、云平台等大型业务网络的流转过程中,网络设备本身及其网络指标的监控信息是保证业务正常运行的重要支撑。当企业的网络服务、在线业务或应用程序等(以下统称为应用)发生异常时,除应用本身的程序逻辑外,运维人员还需要对应用所涉及到的网络设备进行检查,逐一排查各个网络设备如应用服务器、路由等是否存在异常。另外,在应用发生故障时,往往需要对其服务路线上的各个网络节点进行排查,对各个节点设备和流量信息进行分析,以发现故障是否由网络异常引起及网络异常的位置。由于网络设备的种类较多,同时其网络拓扑结构复杂,在业务发生故障时,人工排查的工作量大、耗时长。同时,在这一过程中,往往涉及到多个部门、运维小组的沟通与交流,导致排查效率进一步下降。另一方面,由于大量依赖人工排查,对网络故障排查的效率极度依赖于运维人员的领域知识,这导致在不同的网络环境中,排查的手段、流程都不尽相同,这导致整个网络故障排查流程难以快速适应网络环境变化,通用性不足。
发明内容
本发明要解决的技术问题是面向日志数据的故障诊断与根因定位,旨在系统发生故障时,准确、自动地从海量的日志数据中发现可疑日志表现,为故障诊断和根因定位提供全面的线索。
因此,本发明提供一种网络故障排查方法,包括以下步骤:
设置网络故障排查触发规则;
基于所述网络故障排查触发规则实时监测网络状态;
一旦检测到网络故障事件,则进行上报网络状态参数;
基于所述网络状态参数,获取网络故障排查的可疑路径信息;
基于所述可疑路径信息,采用相应的异常检测算法进行网络状态异常检测分析;
对异常检测分析结果进行根因定位。
其中,所述网络故障事件包括配置的根结点事件、业务告警、应用故障、网络设备告警中的一种或多种。
其中,所述网络状态参数包括:源IP地址、目的IP地址、源端口号、目的端口号、时间戳信息和相关设备/应用的配置信息。
其中,所述基于所述网络状态参数,获取网络故障排查的可疑路径信息,包括:
基于所述网络状态参数,计算网络故障事件包含的路径设备,获取待排查网络设备集合;
输出待排查网络实体对象列表及其网络拓扑关系。
其中,所述基于所述可疑路径信息,采用相应的异常检测算法进行网络状态异常检测分析,包括:
针对所述待排查网络实体对象列表中的网络实体对象,对所述网络实体对象的指标进行异常检测分析。
其中,所述对所述网络实体对象的指标进行异常检测分析之前,包括:
确定网络实体对象类型及其相应的网络故障排查指标数据集合,所述网络故障排查指标数据集合包括待检测的指标名称、指标类型、数据类型、采集粒度。
其中,所述指标类型包括多维时序类、日志类。
其中,所述数据类型包括浮点数、布尔值、字符串。
其中,对所述网络实体对象的指标进行异常检测分析,包括:
对日志类指标采用基于自然语言的方法进行检测;
对多维时序类指标采用随机循环神经网络进行检测。
本发明还提出了一种网络故障排查系统,其包括:
规则设置模块,其用于设置网络故障排查触发规则;
监测模块,其用于基于所述网络故障排查触发规则实时监测网络状态;
上报模块,其用于一旦检测到网络故障事件,则进行上报网络状态参数;
路径计算模块,其用于基于所述网络状态参数,获取网络故障排查的可疑路径信息;
异常检测分析模块,其用于基于所述可疑路径信息,采用相应的异常检测算法进行网络状态异常检测分析;
根因定位模块,其用于对异常检测分析结果进行根因定位。
与现有技术相比,本发明通过对网络故障排查流程的模块化,将排查过程中涉及到的数据、流程进行定义与拆分,并通过各个模块的自动化实现方法,提升网络故障排查的整体效率。同时,模块化设计可以更好地适应不同的网络环境,具有较强的通用性。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:
图1是示出根据本发明实施例的一种网络故障排查方法流程图;
图2是示出根据本发明实施例的一种网络故障排查系统的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述……,但这些……不应限于这些术语。这些术语仅用来将……区分开。例如,在不脱离本发明实施例范围的情况下,第一……也可以被称为第二……,类似地,第二……也可以被称为第一……。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。
下面结合附图详细说明本发明的可选实施例。
本发明提出一个通用化的网络故障排查方法,主要解决大型企业网络的自动化网络故障排查问题,其中将网络故障排查的流程抽象为四个步骤,对网络故障排查流程进行标准化与模块化,以实现在不同网络环境下网络故障排查的通用性与易部署性。
实施例一、
如图1所示,本发明公开了一种网络故障排查方法,其包括如下步骤:
步骤S101、网络故障排查触发。由配置的根结点事件、业务告警等方式触发网络故障排查。并输出响应的网络状态参数用于后续路径计算。该步骤输入数据为原始的应用告警、网络告警;输出为网络参数,包括:源/目的IP地址/端口号和其他备注信息。
步骤S103、路径计算。通过算法和配置信息,计算业务包含的路径设备,提供待排查设备集合。在该步骤中输入源/目的IP地址/端口号和其他指定的备注信息;输出需要排查的网络设备、链路列表。通常情况下,在有完备的拓扑信息、配置信息的情况下,可以直接读取设备之间的连接关系,得到端到端之间的完整路径,并输出完整的设备信息。
步骤S105、网络异常检测。在该步骤中,对网络设备/链路的指标执行异常检测算法。其中,输入数据为上述路径计算步骤得到的网络设备、链路列表;输出为列表内包含设备、链路的指标异常检测结果。
针对常见的时序数据曲线,例如设备/链路的指标监控数据等,使用高斯回归、变分自编码器等模型,结合历史数据的检测结果进行动态阈值调整,并计算数值的异常程度。针对多个具有相似性的指标,如主备设备、网络端口等,使用孤立森林等离群点检测算法,通过计算各个指标之间的距离,判断在多个指标中哪个指标点显著地偏离多数指标点。
步骤S105、根因定位。对异常检测结果进行汇总并进行根因定位。该步骤的输入数据为排查后的设备、链路的指标异常检测结果;输出结果为依据因果推断得到的故障根因(或多个根因排序),以及所有排查项的异常检测结果的故障传播路径图。在定位过程中,基于路径计算中获取的设备连接关系,并根据配置的规则或算法计算各个异常程度的排序。
在本发明某一实施例中,使用因果关系挖掘算法或随机游走算法等算法确定故障可能的传播路径。
实施例二、
本发明提出了一种网络故障排查方法,包括以下步骤:
设置网络故障排查触发规则;
基于所述网络故障排查触发规则实时监测网络状态;
一旦检测到网络故障事件,则进行上报网络状态参数;
基于所述网络状态参数,获取网络故障排查的可疑路径信息;
基于所述可疑路径信息,采用相应的异常检测算法进行网络状态异常检测分析;
对异常检测分析结果进行根因定位。
其中,所述网络故障事件包括配置的根结点事件、业务告警、应用故障、网络设备告警中的一种或多种。
其中,所述网络状态参数包括:源IP地址、目的IP地址、源端口号、目的端口号、时间戳信息和相关设备/应用的配置信息。
其中,所述基于所述网络状态参数,获取网络故障排查的可疑路径信息,包括:
基于所述网络状态参数,计算网络故障事件包含的路径设备,获取待排查网络设备集合;
输出待排查网络实体对象列表及其网络拓扑关系。
其中,所述基于所述可疑路径信息,采用相应的异常检测算法进行网络状态异常检测分析,包括:
针对所述待排查网络实体对象列表中的网络实体对象,对所述网络实体对象的指标进行异常检测分析。
其中,所述对所述网络实体对象的指标进行异常检测分析之前,包括:
确定网络实体对象类型及其相应的网络故障排查指标数据集合,所述网络故障排查指标数据集合包括待检测的指标名称、指标类型、数据类型、采集粒度。
其中,所述指标类型包括多维时序类、日志类。
其中,所述数据类型包括浮点数、布尔值、字符串。
其中,对所述网络实体对象的指标进行异常检测分析,包括:
对日志类指标采用基于自然语言的方法进行检测;
对多维时序类指标采用随机循环神经网络进行检测。
实施例三、
本发明的网络网络故障排查流程可以分为以下步骤:
一、触发网络故障排查
该步骤主要确定网络故障排查的起始条件。通常情况下,企业内的网络故障排查可能由应用网络故障排查引起,或直接由网络设备告警触发。
在该步骤中,需要定义以下内容:
(a)整个网络故障排查的触发方式,可能的方式包括主动触发,如由指定的应用告警或网络设备告警直接触发,或被动触发,例如网络排查系统周期性检查特定告警是否存在或特定指标是否出现异常(例如超过阈值)。触发时,输入的数据包括触发的原始告警或指标数据。在数据中包括至少以下部分:时间戳、告警对象涉及到的网络源/目的IP地址,该数据用于后续路径计算。
(b)触发排查后,基本网络数据的输出格式。需要定义用于路径计算的数据。在触发网络故障排查后,该步骤至少需要输出网络源/目的IP地址数据和告警的时间戳。必要时,可以补充其他的数据字段,例如端口号、端口名称、实体名称等,额外字段可以用于路径计算中对候选设备进行筛选,提高路径计算的效率。上述字段通过关键字匹配或正则表达式等方式由原始告警文本中提取。
二、路径计算
在告警或其他方式触发网络故障排查后,首先根据触发后的基本网络数据,确定本次网络故障排查中涉及到的网络实体对象范围。本发明中所称的网络实体对象,包括网络设备(例如路由器、交换机设备)、链路。
该步骤中,输入告警中所述故障对应的源、目的IP地址,基于当前网络的拓扑关系数据和配置信息,通过规则匹配或算法计算触发告警中所述故障在网络中涉及到的路径及该路径上的网络实体对象范围。在必要时,触发信息中包含额外的网络信息,例如服务端口号、网络实体对象名称等,也可以在路径计算中作为限制条件使用,用于筛选网络实体对象范围、提升路径计算速度和准确性。
路径计算的输出数据为网络实体对象列表及其拓扑关系的图结构,分别由图的点与边表示。其中,实体对象列表将用于选择数据指标用于异常检测。实体间的拓扑关系将用于在检测步骤完成后,辅助根因定位。所述网络实体对象列表是网络实体对象集合进行筛选后,经由路径计算后的结果输出。
三、检测
对列表中的网络实体对象,依据网络实体对象类型,使用预设的排查指标,对网络实体对象的指定指标数据进行异常检测,输出根因结果进行综合排序。该步骤阶段采用如下子步骤:
1、确定指标范围:针对每一个网络实体对象类型,需要预先定义该类型的实体对象的指标数据集合,包括需要检测的指标名称、指标类型(如时序数据、日志)、数据类型(如浮点数、布尔值、字符串)、采集粒度等。
2、确定异常检测方式:对各个指标的时序数据进行异常检测,需要用户预先进行配置,包含检测的数据类型(如日志、单指标数据、多指标数据)、检测的方式(如日志关键字匹配/单指标检测/多指标检测)、使用的检测算法等。
3、异常检测:在输入网络实体对象后,按照预先定义的指标范围和检测方式,对该实体对象的指标数据进行查询并执行异常检测算法,待所有网络实体对象的指标检测完毕后,汇总结果;输出数据为检测的网络实体指标和异常检测结果,检测结果为异常检测算法得到的异常程度数值,所有异常检测的结果数据进行归一化,通常将结果映射到0-1之间。
完成上述配置后,在实际网络故障排查中,将针对上述不同类型的数据,分别使用不同种类的异常检测算法对当前检测数据进行判断,并生成统一的异常检测结果。下面详细介绍不同类型数据分别适用的检测方法。
(1)日志数据:针对单条日志异常,可以采用运维人员配置的规则方式进行检测,包括日志关键字、日志模板匹配和正则表达式匹配等方法;针对日志序列异常,可以采用常见的日志模板提取和回归模型等相关数据挖掘算法进行。为提高针对新日志模板格式的检测准确性,本发明采用基于自然语言处理(NLP)的方法进行检测,具体步骤如下:
(1.1)获取日志模板语义信息。通过对历史数据的分析,在通常分词建立的词库基础上,同时建立同义词和反义词库;在构建完成词库后,通过word2vec方法建立词向量,并基于词向量将原始日志模板转化为模板向量。
(1.2)建立模板近似机制。通过日志模板语义提取和向量化,可以将历史训练数据日志转化为日志模板。在实时日志数据中,可能会出现与现有日志模板近似但存在细小差异的日志,这些日志若使用人工处理则会产生较大的开销,因此通过计算日志模板相似度方法,对比实时日志模板向量与训练集中已有模板的相似度,并通过历史训练生成阈值,减少新模板产生的数量。
(1.3) 日志模板序列异常检测。本发明使用长短期记忆网络(LSTM)进行检测。针对一段日志序列S = {s_1,s_2,…,s_n},使用一个长度为k(k<n)的滑动窗口进行检测。记Sj是S的一个长度为k的子序列, Sj = {sj,sj+1,…,sj+k-1},按照序列顺序,将日志序列Sj转化为日志模板向量序列,并作为长短期记忆网络的输入,计算当前序列在训练模型上的重构概率。同时,针对所有的日志模板序列,在当前序列Sj中出现的个数进行统计,将计数向量作为另一个长短时记忆网络输入,训练并检测各个模板数量是否存在异常。两个神经网络的输出结果通过加权平均方式计算被检测日志的异常值。
(2)单一时序数据:在该数据类型中,检测单个指标数据的时序数据是否存在异常。本发明使用基于变分自编码器的方法进行检测。具体实现中,使用改进的Wasserstein生成对抗网络(WGAN-GP)实现。本方法包括3个子网络:变分网络, 生成网络和判别网络。变分网络用于从输入数据中查找与隐变量的模式
Figure 312356DEST_PATH_IMAGE001
。首先将输入数据x转化为2维矩阵并使用卷积层提取其高级特征
Figure 357148DEST_PATH_IMAGE002
。然后计算得出
Figure 981027DEST_PATH_IMAGE003
的均值和标准差。生成网络通过全连接层将随机隐变量z映射到2维矩阵,然后通过转置卷积层将其展开为1维,获得重建窗口G(z)。判别网络将窗口重塑为2维,通过卷积层获取高级特征,通过全连接层传递特征,最后获得判别器输出F(x)。
训练得到神经网络模型后,通过马尔可夫链蒙特卡罗(MCMC)插值预估重建窗口,最终异常分值如下:
Figure 797805DEST_PATH_IMAGE004
其中
Figure 380096DEST_PATH_IMAGE005
,L为采样次数,
Figure 915114DEST_PATH_IMAGE006
分别表示先验分布与近似后验分布。
通过离线训练可以得到训练数据的异常分值序列S={S1,S2,…,SN},异常阈值通过上峰值过阈值法(peaks over threshold)设置阈值。
Figure 608263DEST_PATH_IMAGE007
其中t为阈值初始化值,γ和β分别为帕累托分布的形状和比例参数。小于阈值t的值被表示为t-S,
Figure 16897DEST_PATH_IMAGE008
Figure 770090DEST_PATH_IMAGE009
通过最大似然估计得到。最终的阈值为:
Figure 526824DEST_PATH_IMAGE010
其中q为S小于t的期望概率,N为输入数据长度,Nt为Si小于t的长度,最终根据不同分位数可以得到离散的阈值,按照阈值划分,可以将检测数据的异常分值进行格式化输出。
(3)多维时序数据,其与上述方法类似,只是采用了随机循环神经网络来实现。
上述三种类型数据的检测方法为该检测模块的一种实现方式,在实际中可以根据用户需求、实际数据情况,调整具体的算法、参数和使用方式。
四、根因定位
该步骤基于异常检测结果,对各个被检测的设备及指标给出异常程度的排序,并同时基于路径计算给出的拓扑关系。本步骤的输入为所有指标的异常检测结果,输出为异常程度的排序,以列表或有向图的形式给出。计算流程可以使用基于规则或基于机器学习的算法,具体算法可以根据实际选择,下给出简单的算法选择示例。
该步骤中,可以使用简单的预设逻辑、通过专家系统对各异常指标进行分析与排序,例如,对特定的异常指标进行识别,并判断是否存在多个符合条件的特定异常指标,并根据其结果选取专家系统中预设的故障原因,得到根因位置并基于路径计算得到的拓扑关系得到故障传播关系。
除基于规则的方式以为,该步骤也可以通过机器学习算法实现。给予异常检测结果和拓扑关系,可以构造以异常结果为顶点、拓扑关联关系为边的故障传播关系图,其中每个顶点对应某一指标的异常检测结果,每条边上的权重为通过因果关系挖掘算法得到的两个顶点指标之间的因果关系权重值。基于该图,可以使用随机游走算法对该图进行计算,得到每个节点的个性化页面排名向量(PPV)作为排序参考。记π为个性化页面排名向量,可通过下列公式迭代计算:
Figure 164610DEST_PATH_IMAGE011
其中A为该图的邻接矩阵,Q为A归一化后的转移概率矩阵,
Figure 815034DEST_PATH_IMAGE012
,I为取值全为1的
Figure 345985DEST_PATH_IMAGE013
向量,i,j表示矩阵的行列位置,α为参数,n表示向量长度。
通过上述方式,最终输出结果为包含所有节点、基于PPV排序的故障根因(包括实体对象和指标的名称)列表,以及上述构造的故障传播关系图。
上述为该定位模块的一种实现方式,在实际中可以根据用户需求、实际数据情况,调整具体的算法、参数和使用方式。
实施例四、
如图2所示,本发明还提出了一种网络故障排查系统,其包括:
规则设置模块,其用于设置网络故障排查触发规则;
监测模块,其用于基于所述网络故障排查触发规则实时监测网络状态;
上报模块,其用于一旦检测到网络故障事件,则进行上报网络状态参数;
路径计算模块,其用于基于所述网络状态参数,获取网络故障排查的可疑路径信息;
异常检测分析模块,其用于基于所述可疑路径信息,采用相应的异常检测算法进行网络状态异常检测分析;
根因定位模块,其用于对异常检测分析结果进行根因定位。
实施例五、
本公开实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行如上实施例所述的方法步骤。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(AN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
以上介绍了本发明的较佳实施方式,旨在使得本发明的精神更加清楚和便于理解,并不是为了限制本发明,凡在本发明的精神和原则之内,所做的修改、替换、改进,均应包含在本发明所附的权利要求概括的保护范围之内。

Claims (8)

1.一种网络故障排查方法,包括以下步骤:
设置网络故障排查触发规则;
基于所述网络故障排查触发规则实时监测网络状态;
一旦检测到网络故障事件,则进行上报网络状态参数;
基于所述网络状态参数,获取网络故障排查的可疑路径信息;
基于所述可疑路径信息,采用相应的异常检测算法进行网络状态异常检测分析;
对异常检测分析结果进行根因定位;
其中,所述基于所述网络状态参数,获取网络故障排查的可疑路径信息,包括:
基于所述网络状态参数,计算网络故障事件包含的路径设备,获取待排查网络设备集合;
输出待排查网络实体对象列表及其网络拓扑关系;
其中所述基于所述可疑路径信息,采用相应的异常检测算法进行网络状态异常检测分析,包括:
针对所述待排查网络实体对象列表中的网络实体对象,对所述网络实体对象的指标进行异常检测分析;
其中,所述对异常检测分析结果进行根因定位,包括:
对网络实体对象的指定指标进行异常检测,输出根因结果进行综合排序。
2.如权利要求1所述方法,其中所述网络故障事件包括配置的根结点事件、业务告警、应用故障、网络设备告警中的一种或多种。
3.如权利要求2所述方法,其中所述网络状态参数包括:源IP地址、目的IP地址、源端口号、目的端口号、时间戳信息和相关设备/应用的配置信息。
4.如权利要求1所述方法,其中所述对所述网络实体对象的指标进行异常检测分析之前,包括:
确定网络实体对象类型及其相应的网络故障排查指标数据集合,所述网络故障排查指标数据集合包括待检测的指标名称、指标类型、数据类型、采集粒度。
5.如权利要求4所述方法,其中所述指标类型包括多维时序类、日志类。
6.如权利要求4所述方法,其中所述数据类型包括浮点数、布尔值、字符串。
7.如权利要求5所述方法,其中对所述网络实体对象的指标进行异常检测分析,包括:
对日志类指标采用基于自然语言的方法进行检测;
对多维时序类指标采用随机循环神经网络进行检测。
8.一种网络故障排查系统,其包括:
规则设置模块,其用于设置网络故障排查触发规则;
监测模块,其用于基于所述网络故障排查触发规则实时监测网络状态;
上报模块,其用于一旦检测到网络故障事件,则进行上报网络状态参数;
路径计算模块,其用于基于所述网络状态参数,获取网络故障排查的可疑路径信息;
异常检测分析模块,其用于基于所述可疑路径信息,采用相应的异常检测算法进行网络状态异常检测分析;
根因定位模块,其用于对异常检测分析结果进行根因定位;
其中,所述基于所述网络状态参数,获取网络故障排查的可疑路径信息,包括:
基于所述网络状态参数,计算网络故障事件包含的路径设备,获取待排查网络设备集合;
输出待排查网络实体对象列表及其网络拓扑关系;
其中所述基于所述可疑路径信息,采用相应的异常检测算法进行网络状态异常检测分析,包括:
针对所述待排查网络实体对象列表中的网络实体对象,对所述网络实体对象的指标进行异常检测分析;
其中,所述对异常检测分析结果进行根因定位,包括:
对网络实体对象的指定指标进行异常检测,输出根因结果进行综合排序。
CN202210709991.5A 2022-06-22 2022-06-22 一种网络故障排查方法与系统 Active CN114785666B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210709991.5A CN114785666B (zh) 2022-06-22 2022-06-22 一种网络故障排查方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210709991.5A CN114785666B (zh) 2022-06-22 2022-06-22 一种网络故障排查方法与系统

Publications (2)

Publication Number Publication Date
CN114785666A CN114785666A (zh) 2022-07-22
CN114785666B true CN114785666B (zh) 2022-10-04

Family

ID=82422275

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210709991.5A Active CN114785666B (zh) 2022-06-22 2022-06-22 一种网络故障排查方法与系统

Country Status (1)

Country Link
CN (1) CN114785666B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115473828B (zh) * 2022-08-18 2024-01-05 阿里巴巴(中国)有限公司 基于仿真网络的故障检测方法及系统
CN115514627B (zh) * 2022-09-21 2024-08-20 深信服科技股份有限公司 一种故障根因定位方法、装置、电子设备及可读存储介质
CN116074184B (zh) * 2023-03-21 2023-06-27 云南莱瑞科技有限公司 一种电力调度中心网络故障预警系统
CN116610104B (zh) * 2023-07-19 2023-11-03 博纯材料股份有限公司 基于砷烷合成控制系统的故障分析方法及系统
CN117389230B (zh) * 2023-11-16 2024-06-07 广州中健中医药科技有限公司 抗高血压中药提取液生产控制方法及系统
CN117579400B (zh) * 2024-01-17 2024-03-29 国网四川省电力公司电力科学研究院 一种基于神经网络的工控系统网络安全监测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101022474A (zh) * 2007-03-12 2007-08-22 华为技术有限公司 一种网络故障测试方法和装置
CN101304343A (zh) * 2008-06-10 2008-11-12 华为技术有限公司 一种网络故障检测的方法、网络设备和网络系统
CN107171819A (zh) * 2016-03-07 2017-09-15 北京华为数字技术有限公司 一种网络故障诊断方法及装置
CN110247725A (zh) * 2019-06-24 2019-09-17 国网河北省电力有限公司经济技术研究院 Otn网络的线路故障排查方法、装置及终端设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7864687B2 (en) * 2007-12-19 2011-01-04 At&T Intellectual Property Ii, L.P. Methods and apparatus for fault identification in border gateway protocol networks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101022474A (zh) * 2007-03-12 2007-08-22 华为技术有限公司 一种网络故障测试方法和装置
CN101304343A (zh) * 2008-06-10 2008-11-12 华为技术有限公司 一种网络故障检测的方法、网络设备和网络系统
CN107171819A (zh) * 2016-03-07 2017-09-15 北京华为数字技术有限公司 一种网络故障诊断方法及装置
CN110247725A (zh) * 2019-06-24 2019-09-17 国网河北省电力有限公司经济技术研究院 Otn网络的线路故障排查方法、装置及终端设备

Also Published As

Publication number Publication date
CN114785666A (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
CN114785666B (zh) 一种网络故障排查方法与系统
CN109902283B (zh) 一种信息输出方法及装置
CN113094200B (zh) 一种应用程序的故障预测方法和装置
CN111260249B (zh) 一种基于lstm和随机森林混合模型的电力通信业务可靠性评估预测方法及装置
US11348023B2 (en) Identifying locations and causes of network faults
US9865101B2 (en) Methods for detecting one or more aircraft anomalies and devices thereof
CN114090326B (zh) 一种告警的根因确定方法、装置及设备
CN111541559A (zh) 一种基于因果规则的故障定位方法
CN113900844A (zh) 一种基于服务码级别的故障根因定位方法、系统及存储介质
CN115237717A (zh) 一种微服务异常检测方法和系统
US20210027167A1 (en) Model structure extraction for analyzing unstructured text data
US20230376758A1 (en) Multi-modality root cause localization engine
CN105471647A (zh) 一种电力通信网故障定位方法
CN107111609A (zh) 用于神经语言行为识别系统的词法分析器
CN109993391B (zh) 网络运维任务工单的派发方法、装置、设备及介质
CN113590451A (zh) 一种根因定位方法、运维服务器及存储介质
CN110011990A (zh) 内网安全威胁智能分析方法
CN116795977A (zh) 数据处理方法、装置、设备和计算机可读存储介质
US12001546B2 (en) Systems and methods for causality-based multivariate time series anomaly detection
CN117254980B (zh) 一种基于注意力机制的工业网络安全风险评估方法及系统
Jan et al. A statistical machine learning approach for ticket mining in IT service delivery
CN117827508A (zh) 一种基于系统日志数据的异常检测方法
Yadwad et al. Fault Prediction for Network Devices Using Service Outage Prediction Model.
CN115794548A (zh) 日志异常的检测方法及装置
CN113807716A (zh) 一种基于人工智能的网络运维自动化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant