CN110855503A - 一种基于网络协议层级依赖关系的故障定因方法和系统 - Google Patents

一种基于网络协议层级依赖关系的故障定因方法和系统 Download PDF

Info

Publication number
CN110855503A
CN110855503A CN201911153231.5A CN201911153231A CN110855503A CN 110855503 A CN110855503 A CN 110855503A CN 201911153231 A CN201911153231 A CN 201911153231A CN 110855503 A CN110855503 A CN 110855503A
Authority
CN
China
Prior art keywords
log
fault
template
relation
root cause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911153231.5A
Other languages
English (en)
Inventor
叶晓斌
马丹丹
刘惜吾
程亚锋
刘子建
王立俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201911153231.5A priority Critical patent/CN110855503A/zh
Publication of CN110855503A publication Critical patent/CN110855503A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors

Abstract

本发明公开了一种基于网络协议层级依赖关系的故障定因方法和系统,方法包括:步骤1)网络设备的日志进行文本分析,提取日志内容中关于网络运行协议之间的依赖关系;步骤2)提取日志关键信息构成异常事件的特征向量,联合网络拓扑信息以及协议依赖关系分析得到故障的传播链、业务影响面、根因设备以及根因信息;步骤3)基于提取出来的协议依赖关系,从故障时间点周围的日志分析出故障的影响逻辑关系,以及故障是如何传播的。

Description

一种基于网络协议层级依赖关系的故障定因方法和系统
技术领域
本发明属于一种基于网络协议层级依赖关系的故障定因方法和系统。
背景技术
现有的日志分析技术,一般是对日志进行简单的统计分析,对于日志的具体内容和依赖关系并没有关注。
缺点1:现在的网络运维对具有专业经验人员的依赖较大,效率低;
缺点2:目前的日志分析系统对日志分析多为单设备的统计和分类;
缺陷3:目前的日志分析系统对日志的关联关系、依赖关系没有进行提取和分析。
随着科学技术的发展,网络设备的运维工作也变得越来越自动化和智能化。自动化网管系统实现了在没有人或较少人的直接参与下,按照运维人员的需求,经过自动检测、信息处理、分析判断、操纵控制,实现预期的运维目标。虽然自动化网管系统几乎收集了网络设备运行的所有数据,但是界面展示不理想、不具备数据关联、数据处理分析的能力。当网络发生故障时,仍然需要专业人士查找相关指标和配置等数据进行故障分析排查。不仅对排障人员的专业技术水平要求高,排障效率也受到很多因素影响导致效果不可控、排障时间长、浪费人力物力等问题。
在人工智能技术爆发式发展的今天,很多企业开始寻找智能运维的方法,包括指标可视化监控、预测、异常检测。目前大多数智能化运维的方法都是对网络设备的运行数据进行监控、统计性分析以及预测,这无疑对网络故障的发现具有很大的帮助,同时友好的交互界面,可以让网络运维人员很方便快捷的得到想要的信息,但在故障发现之后的根因分析阶段进展还是很缓慢。根因分析的主要方式是由专业人士通过查看疑似故障设备的日志信息,查找疑似故障时间点的日志条目,找到故障根因,对排障人员的专业要求较高。
发明内容
本发明所要解决的技术问题是提供一种基于网络协议层级依赖关系的故障定因方法和系统。
本发明解决上述技术问题所采取的技术方案如下:
一种基于网络协议层级依赖关系的故障定因方法,包括:
步骤1)网络设备的日志进行文本分析,提取日志内容中关于网络运行协议之间的依赖关系;
步骤2)提取日志关键信息构成异常事件的特征向量,联合网络拓扑信息以及协议依赖关系分析得到故障的传播链、业务影响面、根因设备以及根因信息;
步骤3)基于提取出来的协议依赖关系,从故障时间点周围的日志分析出故障的影响逻辑关系,以及故障是如何传播的。
优选的是,步骤1)之前,还包括:
模板挖掘步骤,包括:
对Syslog文件中的日志数据进行文本分析算法模型训练,提取每一条日志的模板,模板结构为关键字加参数值,其中参数值由通配符代替;
日志模板提取之后对模板进行编号,分配模板ID;
模板分类模型训练步骤,包括:
根据网络日志主要由管理面、控制面、转发面构成的逻辑,将日志模板总体按照这三类分开,这三个面的日志具有一定的充分或者必要条件关联关系;
其中控制面的日志模板按照通用的网络层级标准按照不同层级归类;
将所有的日志模板进行类别标记,然后将标记之后的数据传入分类模型,对分类模型进行训练;
模板依赖关系提取步骤,包括:
通过统计归纳将日志的关联关系和依赖关系提取出来,并且映射为日志模板之间的关系,最后抽象为一种有向无环的关系模型;
空间拓扑收集步骤;
对各个设备日志监控和检测过程中,同时获取网管中设备之间的拓扑关系数据,为故障传播链分析、根因分析提供数据基础。
优选的是,步骤1)之前,还包括:
异常检测预警触发步骤,包括:
当检测到异常事件时触发根因分析流程,从而将故障传播链和影响业务面、故障根因分析出来。
优选的是,步骤3)中,具体包括:
提取功能自动收集异常时间点周围的日志,并且生成模板数据、分类模型分析归类;
同时根据拓扑关联信息收集同一时间窗内检测到异常的其他设备日志特征。
优选的是,步骤3)中,具体包括:
根据日志的关联关系和依赖关系,分析收集到的异常时间点的日志特征数据,整理出异常事件的传播路径;
整理传播链分析的结果,结合受影响的协议逻辑可以得到故障的业务影响面,使用文本分析算法对异常特征矩阵进行翻译并且将含义整理成根因信息。最后将故障根因分析的结果推送至综合网管终端和现场维护人员移动终端,提醒和指引故障的维修。
一种基于网络协议层级依赖关系的故障定因系统,包括:
离线分析模块,包括Syslog日志模板挖掘单元、模板分类模型训练单元、模板依赖关系提取单元、空间拓扑收集单元;
在线分析模块,包括异常检测预警触发单元、异常日志特征提取单元、传播链分析单元、故障根因推送单元;
所述异常日志特征提取单元,用于基于网络设备的日志进行文本分析,提取日志内容中关于网络运行协议之间的依赖关系;
所述传播链分析单元,用于提取日志关键信息构成异常事件的特征向量,联合网络拓扑信息以及协议依赖关系分析得到故障的传播链、业务影响面、根因设备以及根因信息;
所述故障根因推送单元,用于基于提取出来的协议依赖关系,从故障时间点周围的日志分析出故障的影响逻辑关系,以及故障是如何传播的。
优选的是,所述离线分析模块中,
所述Syslog日志模板挖掘单元,用于:
对Syslog文件中的日志数据进行文本分析算法模型训练,提取每一条日志的模板,模板结构为关键字加参数值,其中参数值由通配符代替;
日志模板提取之后对模板进行编号,分配模板ID;
所述模板分类模型训练单元,用于:
根据网络日志主要由管理面、控制面、转发面构成的逻辑,将日志模板总体按照这三类分开,这三个面的日志具有一定的充分或者必要条件关联关系;
其中控制面的日志模板按照通用的网络层级标准按照不同层级归类;
将所有的日志模板进行类别标记,然后将标记之后的数据传入分类模型,对分类模型进行训练;
所述模板依赖关系提取单元,用于:
通过统计归纳将日志的关联关系和依赖关系提取出来,并且映射为日志模板之间的关系,最后抽象为一种有向无环的关系模型;
所述空间拓扑收集单元,用于:
对各个设备日志监控和检测过程中,同时获取网管中设备之间的拓扑关系数据,为故障传播链分析、根因分析提供数据基础。
优选的是,所述异常检测预警触发单元,用于:
当检测到异常事件时触发根因分析流程,从而将故障传播链和影响业务面、故障根因分析出来。
优选的是,所述异常日志特征提取单元。进一步用于:
提取功能自动收集异常时间点周围的日志,并且生成模板数据、分类模型分析归类;
同时根据拓扑关联信息收集同一时间窗内检测到异常的其他设备日志特征。
优选的是,所述传播链分析单元,用于:
根据日志的关联关系和依赖关系,分析收集到的异常时间点的日志特征数据,整理出异常事件的传播路径;
所述故障根因推送单元,用于:
整理传播链分析的结果,结合受影响的协议逻辑可以得到故障的业务影响面,使用文本分析算法对异常特征矩阵进行翻译并且将含义整理成根因信息。最后将故障根因分析的结果推送至综合网管终端和现场维护人员移动终端,提醒和指引故障的维修。
本方法是通过AI算法对网络设备的日志进行文本分析,提取日志内容中中关于网络运行协议之间的依赖关系。利用提取出来的协议依赖关系,可以从故障时间点周围的日志分析出故障的影响逻辑关系,以及故障是如何传播的。这个方法为网络设备日志分析的故障定因系统提供了理论支持和逻辑指导。实现方法是提取日志关键信息构成异常事件的特征向量,联合网络拓扑信息以及协议依赖关系分析得到故障的传播链、业务影响面、根因设备以及根因信息。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
下面结合附图对本发明进行详细的描述,以使得本发明的上述优点更加明确。其中,
图1是本发明基于网络协议层级依赖关系的故障定因方法的流程示意图;
图2是本发明基于网络协议层级依赖关系的故障定因方法的实施例中异常事件的传播路径示意图;
图3是本发明基于网络协议层级依赖关系的故障定因方法的实施例中异常事件的关系示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明是通过AI算法对网络设备的日志进行文本分析,提取日志内容中中关于网络运行协议之间的依赖关系。利用提取出来的协议依赖关系,可以从故障时间点周围的日志分析出故障的影响逻辑关系,以及故障是如何传播的。这个方法为网络设备日志分析的故障定因系统提供了理论支持和逻辑指导。实现方法是提取日志关键信息构成异常事件的特征向量,联合网络拓扑信息以及协议依赖关系分析得到故障的传播链、业务影响面、根因设备以及根因信息。
如图1所示,一种基于网络协议层级依赖关系的故障定因方法,包括:
步骤1)网络设备的日志进行文本分析,提取日志内容中关于网络运行协议之间的依赖关系;
步骤2)提取日志关键信息构成异常事件的特征向量,联合网络拓扑信息以及协议依赖关系分析得到故障的传播链、业务影响面、根因设备以及根因信息;
步骤3)基于提取出来的协议依赖关系,从故障时间点周围的日志分析出故障的影响逻辑关系,以及故障是如何传播的。
优选的是,步骤1)之前,还包括:
模板挖掘步骤,包括:
对Syslog文件中的日志数据进行文本分析算法模型训练,提取每一条日志的模板,模板结构为关键字加参数值,其中参数值由通配符代替;
日志模板提取之后对模板进行编号,分配模板ID;
模板分类模型训练步骤,包括:
根据网络日志主要由管理面、控制面、转发面构成的逻辑,将日志模板总体按照这三类分开,这三个面的日志具有一定的充分或者必要条件关联关系;
其中控制面的日志模板按照通用的网络层级标准按照不同层级归类;
将所有的日志模板进行类别标记,然后将标记之后的数据传入分类模型,对分类模型进行训练;
模板依赖关系提取步骤,包括:
通过统计归纳将日志的关联关系和依赖关系提取出来,并且映射为日志模板之间的关系,最后抽象为一种有向无环的关系模型;
空间拓扑收集步骤;
对各个设备日志监控和检测过程中,同时获取网管中设备之间的拓扑关系数据,为故障传播链分析、根因分析提供数据基础。
优选的是,步骤1)之前,还包括:
异常检测预警触发步骤,包括:
当检测到异常事件时触发根因分析流程,从而将故障传播链和影响业务面、故障根因分析出来。
优选的是,步骤3)中,具体包括:
提取功能自动收集异常时间点周围的日志,并且生成模板数据、分类模型分析归类;
同时根据拓扑关联信息收集同一时间窗内检测到异常的其他设备日志特征。
优选的是,步骤3)中,具体包括:
根据日志的关联关系和依赖关系,分析收集到的异常时间点的日志特征数据,整理出异常事件的传播路径;
整理传播链分析的结果,结合受影响的协议逻辑可以得到故障的业务影响面,使用文本分析算法对异常特征矩阵进行翻译并且将含义整理成根因信息。最后将故障根因分析的结果推送至综合网管终端和现场维护人员移动终端,提醒和指引故障的维修。
本发明可以完成以下目的:
1、本发明可以减低对专业运维排障人员的依赖,将日志分析逻辑构建成数学模型,由计算机实现日志故障定因的功能。降低了人为处理故障的误差,提高了排障的效率。
2、本发明采集的是全网络设备的日志信息,并且结合网络拓扑关联信息进行分析,对隐患和故障的排查更加全面和准确。
3、本发明的特点是能够收取出日志内容中的关联关系和依赖关系,查找出的故障根因具有高置信度的可解释性。
此外,本发明还提供了一种系统,具体来说,一种基于网络协议层级依赖关系的故障定因系统,包括:
离线分析模块,包括Syslog日志模板挖掘单元、模板分类模型训练单元、模板依赖关系提取单元、空间拓扑收集单元;
在线分析模块,包括异常检测预警触发单元、异常日志特征提取单元、传播链分析单元、故障根因推送单元;
所述异常日志特征提取单元,用于基于网络设备的日志进行文本分析,提取日志内容中关于网络运行协议之间的依赖关系;
所述传播链分析单元,用于提取日志关键信息构成异常事件的特征向量,联合网络拓扑信息以及协议依赖关系分析得到故障的传播链、业务影响面、根因设备以及根因信息;
所述故障根因推送单元,用于基于提取出来的协议依赖关系,从故障时间点周围的日志分析出故障的影响逻辑关系,以及故障是如何传播的。
优选的是,所述离线分析模块中,
所述Syslog日志模板挖掘单元,用于:
对Syslog文件中的日志数据进行文本分析算法模型训练,提取每一条日志的模板,模板结构为关键字加参数值,其中参数值由通配符代替;
日志模板提取之后对模板进行编号,分配模板ID;
所述模板分类模型训练单元,用于:
根据网络日志主要由管理面、控制面、转发面构成的逻辑,将日志模板总体按照这三类分开,这三个面的日志具有一定的充分或者必要条件关联关系;
其中控制面的日志模板按照通用的网络层级标准按照不同层级归类;
将所有的日志模板进行类别标记,然后将标记之后的数据传入分类模型,对分类模型进行训练;
所述模板依赖关系提取单元,用于:
通过统计归纳将日志的关联关系和依赖关系提取出来,并且映射为日志模板之间的关系,最后抽象为一种有向无环的关系模型;
所述空间拓扑收集单元,用于:
对各个设备日志监控和检测过程中,同时获取网管中设备之间的拓扑关系数据,为故障传播链分析、根因分析提供数据基础。
优选的是,所述异常检测预警触发单元,用于:
当检测到异常事件时触发根因分析流程,从而将故障传播链和影响业务面、故障根因分析出来。
优选的是,所述异常日志特征提取单元。进一步用于:
提取功能自动收集异常时间点周围的日志,并且生成模板数据、分类模型分析归类;
同时根据拓扑关联信息收集同一时间窗内检测到异常的其他设备日志特征。
优选的是,所述传播链分析单元,用于:
根据日志的关联关系和依赖关系,分析收集到的异常时间点的日志特征数据,整理出异常事件的传播路径;
所述故障根因推送单元,用于:
整理传播链分析的结果,结合受影响的协议逻辑可以得到故障的业务影响面,使用文本分析算法对异常特征矩阵进行翻译并且将含义整理成根因信息。最后将故障根因分析的结果推送至综合网管终端和现场维护人员移动终端,提醒和指引故障的维修。
更具体地说,在实施例中,本发明主要由七个功能模块构成,其中离线分析部分包括Syslog日志模板挖掘、模板分类模型训练、模板依赖关系提取、空间拓扑收集,在线分析部分包括异常检测预警触发、异常日志特征提取、传播链分析、故障根因推送。
1.模板挖掘
对Syslog文件中的日志数据进行文本分析算法模型训练,提取每一条日志的模板,模板结构为关键字加参数值,其中参数值由通配符代替。日志模板提取之后要对模板进行编号,分配模板ID。
2.模板分类模型训练
根据网络日志主要由管理面、控制面、转发面构成的逻辑,可以先将日志模板总体按照这三类分开,这三个面的日志具有一定的充分或者必要条件关联关系。其中控制面的日志模板可以按照通用的网络层级标准按照不同层级归类。将所有的日志模板进行类别标记,然后将标记之后的数据传入分类模型,对分类模型进行训练。
3.模板依赖关系提取
日志的三个面,转发面、控制面、管理面具有非强相关性的逻辑关联关系,其中的控制面根据协议的逻辑关系按照层级分为五层,并且也具有从底层到上层的逻辑关联关系。其中上层对底层具有一定依赖关系。通过统计归纳将日志的关联关系和依赖关系提取出来,并且映射为日志模板之间的关系。最后抽象为一种有向无环的关系模型。
4.空间拓扑收集
目前综合网管中已经具备收集网络设备物理拓扑信息的能力,本方法在对各个设备日志监控和检测过程中,同时获取网管中设备之间的拓扑关系数据,为故障传播链分析、根因分析提供数据基础。
5.异常检测预警触发
为了第一时间发现网络中的隐患和故障,本发明设计了异常检测预警触发的模块,当检测到异常事件时触发根因分析流程,从而将故障传播链和影响业务面、故障根因分析出来。
6.异常日志特征提取
当接收到异常检测预警的时候,日志分析的特征提取功能自动收集异常时间点周围的日志,并且生成模板数据、分类模型分析归类。同时根据拓扑关联信息收集同一时间窗内检测到异常的其他设备日志特征。
7.传播链分析
根据日志的关联关系和依赖关系,分析收集到的异常时间点的日志特征数据,整理出异常事件的传播路径,传播路径具有自底向上的有向五环特征,如图2所示。
8.故障根因推送
整理传播链分析的结果,结合受影响的协议逻辑可以得到故障的业务影响面,使用文本分析算法对异常特征矩阵进行翻译并且将含义整理成根因信息。最后将故障根因分析的结果推送至综合网管终端和现场维护人员移动终端,提醒和指引故障的维修。
1、该方法的关键点时提取不同日志模板之间的关联关系和依赖关系,由网络层级区分可以将提取的日志模板按层级分类,由网络协议之间的依赖关系归纳总结出日志模板之间的依赖关系。
2、本方法提出了可以推导出故障传播链的方法,通过日志之间的关联和依赖关系,同时对多台设备的日志特征进行分析,可以将故障传播链和业务影响面准确的推导出来。
3、本方法提供了精准的根因描述方法,将日志模板按照管理面、控制面、转发面进行分类,同时提取3个面日志的关联逻辑,根据这个关联逻辑按照规定的根因模板构建故障根因信息,为精准派单提供了理论依据。
本发明通过对设备运行时产生的日志数据进行采集、分析,通过人工智能算法完成智能根因定位的功能。不仅可以将日志数据进行可视化、统计学分析,还可以对日志内部的关联关系、依赖关系进行提取,根据日志定因的逻辑方法,构建数学模型,找到网络故障的具体设备、传播路径、业务影响面和异常根因。本发明可以提高网络运维的效率,将繁琐的定因过程交由计算机来完成,达到精准定因,精准派单,降低运维成本,提高网络用户体验的目的。
需要说明的是,对于上述方法实施例而言,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于网络协议层级依赖关系的故障定因方法,其特征在于,包括:
步骤1)网络设备的日志进行文本分析,提取日志内容中关于网络运行协议之间的依赖关系;
步骤2)提取日志关键信息构成异常事件的特征向量,联合网络拓扑信息以及协议依赖关系分析得到故障的传播链、业务影响面、根因设备以及根因信息;
步骤3)基于提取出来的协议依赖关系,从故障时间点周围的日志分析出故障的影响逻辑关系,以及故障是如何传播的。
2.根据权利要求1所述的基于网络协议层级依赖关系的故障定因方法,其特征在于,步骤1)之前,还包括:
模板挖掘步骤,包括:
对Syslog文件中的日志数据进行文本分析算法模型训练,提取每一条日志的模板,模板结构为关键字加参数值,其中参数值由通配符代替;
日志模板提取之后对模板进行编号,分配模板ID;
模板分类模型训练步骤,包括:
根据网络日志主要由管理面、控制面、转发面构成的逻辑,将日志模板总体按照这三类分开,这三个面的日志具有一定的充分或者必要条件关联关系;
其中控制面的日志模板按照通用的网络层级标准按照不同层级归类;
将所有的日志模板进行类别标记,然后将标记之后的数据传入分类模型,对分类模型进行训练;
模板依赖关系提取步骤,包括:
通过统计归纳将日志的关联关系和依赖关系提取出来,并且映射为日志模板之间的关系,最后抽象为一种有向无环的关系模型;
空间拓扑收集步骤;
对各个设备日志监控和检测过程中,同时获取网管中设备之间的拓扑关系数据,为故障传播链分析、根因分析提供数据基础。
3.根据权利要求1所述的基于网络协议层级依赖关系的故障定因方法,其特征在于,步骤1)之前,还包括:
异常检测预警触发步骤,包括:
当检测到异常事件时触发根因分析流程,从而将故障传播链和影响业务面、故障根因分析出来。
4.根据权利要求1所述的基于网络协议层级依赖关系的故障定因方法,其特征在于,步骤3)中,具体包括:
提取功能自动收集异常时间点周围的日志,并且生成模板数据、分类模型分析归类;
同时根据拓扑关联信息收集同一时间窗内检测到异常的其他设备日志特征。
5.根据权利要求4所述的基于网络协议层级依赖关系的故障定因方法,其特征在于,步骤3)中,具体包括:
根据日志的关联关系和依赖关系,分析收集到的异常时间点的日志特征数据,整理出异常事件的传播路径;
整理传播链分析的结果,结合受影响的协议逻辑可以得到故障的业务影响面,使用文本分析算法对异常特征矩阵进行翻译并且将含义整理成根因信息。最后将故障根因分析的结果推送至综合网管终端和现场维护人员移动终端,提醒和指引故障的维修。
6.一种基于网络协议层级依赖关系的故障定因系统,其特征在于,包括:
离线分析模块,包括Syslog日志模板挖掘单元、模板分类模型训练单元、模板依赖关系提取单元、空间拓扑收集单元;
在线分析模块,包括异常检测预警触发单元、异常日志特征提取单元、传播链分析单元、故障根因推送单元;
所述异常日志特征提取单元,用于基于网络设备的日志进行文本分析,提取日志内容中关于网络运行协议之间的依赖关系;
所述传播链分析单元,用于提取日志关键信息构成异常事件的特征向量,联合网络拓扑信息以及协议依赖关系分析得到故障的传播链、业务影响面、根因设备以及根因信息;
所述故障根因推送单元,用于基于提取出来的协议依赖关系,从故障时间点周围的日志分析出故障的影响逻辑关系,以及故障是如何传播的。
7.根据权利要求6所述的基于网络协议层级依赖关系的故障定因系统,其特征在于,所述离线分析模块中,
所述Syslog日志模板挖掘单元,用于:
对Syslog文件中的日志数据进行文本分析算法模型训练,提取每一条日志的模板,模板结构为关键字加参数值,其中参数值由通配符代替;
志模板提取之后对模板进行编号,分配模板ID;
所述模板分类模型训练单元,用于:
根据网络日志主要由管理面、控制面、转发面构成的逻辑,将日志模板总体按照这三类分开,这三个面的日志具有一定的充分或者必要条件关联关系;
其中控制面的日志模板按照通用的网络层级标准按照不同层级归类;
将所有的日志模板进行类别标记,然后将标记之后的数据传入分类模型,对分类模型进行训练;
所述模板依赖关系提取单元,用于:
通过统计归纳将日志的关联关系和依赖关系提取出来,并且映射为日志模板之间的关系,最后抽象为一种有向无环的关系模型;
所述空间拓扑收集单元,用于:
对各个设备日志监控和检测过程中,同时获取网管中设备之间的拓扑关系数据,为故障传播链分析、根因分析提供数据基础。
8.根据权利要求6所述的基于网络协议层级依赖关系的故障定因系统,其特征在于,所述异常检测预警触发单元,用于:
当检测到异常事件时触发根因分析流程,从而将故障传播链和影响业务面、故障根因分析出来。
9.根据权利要求6所述的基于网络协议层级依赖关系的故障定因系统,其特征在于,所述异常日志特征提取单元。进一步用于:
提取功能自动收集异常时间点周围的日志,并且生成模板数据、分类模型分析归类;
同时根据拓扑关联信息收集同一时间窗内检测到异常的其他设备日志特征。
10.根据权利要求9所述的基于网络协议层级依赖关系的故障定因系统,其特征在于,所述传播链分析单元,用于:
根据日志的关联关系和依赖关系,分析收集到的异常时间点的日志特征数据,整理出异常事件的传播路径;
所述故障根因推送单元,用于:
整理传播链分析的结果,结合受影响的协议逻辑可以得到故障的业务影响面,使用文本分析算法对异常特征矩阵进行翻译并且将含义整理成根因信息。最后将故障根因分析的结果推送至综合网管终端和现场维护人员移动终端,提醒和指引故障的维修。
CN201911153231.5A 2019-11-22 2019-11-22 一种基于网络协议层级依赖关系的故障定因方法和系统 Pending CN110855503A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911153231.5A CN110855503A (zh) 2019-11-22 2019-11-22 一种基于网络协议层级依赖关系的故障定因方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911153231.5A CN110855503A (zh) 2019-11-22 2019-11-22 一种基于网络协议层级依赖关系的故障定因方法和系统

Publications (1)

Publication Number Publication Date
CN110855503A true CN110855503A (zh) 2020-02-28

Family

ID=69603484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911153231.5A Pending CN110855503A (zh) 2019-11-22 2019-11-22 一种基于网络协议层级依赖关系的故障定因方法和系统

Country Status (1)

Country Link
CN (1) CN110855503A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111585809A (zh) * 2020-04-29 2020-08-25 北京润通丰华科技有限公司 一种利用大数据统计分析进行网络设备配置稽核的方法
CN111817891A (zh) * 2020-07-07 2020-10-23 中国联合网络通信集团有限公司 网络故障处理方法、装置、存储介质及电子设备
CN111858123A (zh) * 2020-07-29 2020-10-30 中国工商银行股份有限公司 基于有向图网络的故障根因分析方法和装置
CN112395159A (zh) * 2020-11-17 2021-02-23 华为技术有限公司 一种日志检测方法、系统、设备及介质
CN112416645A (zh) * 2020-12-03 2021-02-26 广州云岫信息科技有限公司 一种基于人工智能的故障根因推断定位方法及装置
CN112711493A (zh) * 2020-12-25 2021-04-27 上海精鲲计算机科技有限公司 一种场景化根因分析应用
CN113328872A (zh) * 2020-02-29 2021-08-31 华为技术有限公司 故障修复方法、装置和存储介质
CN114629776A (zh) * 2020-12-11 2022-06-14 中国联合网络通信集团有限公司 基于图模型的故障分析方法及装置
CN114826876A (zh) * 2022-01-11 2022-07-29 杭州金硕信息技术有限公司 一种基于日志分析和在线仿真的云服务故障检测系统及方法
WO2022199089A1 (zh) * 2021-03-26 2022-09-29 中兴通讯股份有限公司 网络管控方法及其系统、网络系统、存储介质
CN116192612A (zh) * 2023-04-23 2023-05-30 成都新西旺自动化科技有限公司 一种基于日志分析的系统故障监测和预警系统及方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1529455A (zh) * 2003-09-29 2004-09-15 港湾网络有限公司 网络故障实时相关性分析方法及系统
CN103001811A (zh) * 2012-12-31 2013-03-27 北京启明星辰信息技术股份有限公司 故障定位方法和装置
CN103701926A (zh) * 2013-12-31 2014-04-02 小米科技有限责任公司 一种获取故障原因信息的方法、装置和系统
CN103761173A (zh) * 2013-12-28 2014-04-30 华中科技大学 一种基于日志的计算机系统故障诊断方法及装置
CN105635329A (zh) * 2014-11-03 2016-06-01 中兴通讯股份有限公司 上网日志生成方法和装置
CN106452908A (zh) * 2016-11-04 2017-02-22 北京航空航天大学 一种构建机载网络动态关联故障管理系统的方法
CN106507400A (zh) * 2015-09-08 2017-03-15 中兴通讯股份有限公司 一种故障定位方法及装置
CN106603264A (zh) * 2015-10-20 2017-04-26 阿里巴巴集团控股有限公司 一种定位故障根源的方法和设备
WO2017143936A1 (zh) * 2016-02-24 2017-08-31 华为技术有限公司 网络日志时间对齐方法、装置及主机
CN107248927A (zh) * 2017-05-02 2017-10-13 华为技术有限公司 故障定位模型的生成方法、故障定位方法和装置
WO2018135254A1 (ja) * 2017-01-18 2018-07-26 富士通株式会社 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置
CN108964995A (zh) * 2018-07-03 2018-12-07 上海新炬网络信息技术股份有限公司 基于时间轴事件的日志关联分析方法
CN109343987A (zh) * 2018-08-20 2019-02-15 科大国创软件股份有限公司 It系统故障诊断及修复方法、装置、设备、存储介质
CN109510721A (zh) * 2018-11-01 2019-03-22 郑州云海信息技术有限公司 一种基于Syslog的网络日志管理方法与系统
CN110224874A (zh) * 2019-06-27 2019-09-10 郑州阿帕斯科技有限公司 一种设备故障的处理方法及装置
CN110287081A (zh) * 2019-06-21 2019-09-27 腾讯科技(成都)有限公司 一种服务监控系统和方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1529455A (zh) * 2003-09-29 2004-09-15 港湾网络有限公司 网络故障实时相关性分析方法及系统
CN103001811A (zh) * 2012-12-31 2013-03-27 北京启明星辰信息技术股份有限公司 故障定位方法和装置
CN103761173A (zh) * 2013-12-28 2014-04-30 华中科技大学 一种基于日志的计算机系统故障诊断方法及装置
CN103701926A (zh) * 2013-12-31 2014-04-02 小米科技有限责任公司 一种获取故障原因信息的方法、装置和系统
CN105635329A (zh) * 2014-11-03 2016-06-01 中兴通讯股份有限公司 上网日志生成方法和装置
CN106507400A (zh) * 2015-09-08 2017-03-15 中兴通讯股份有限公司 一种故障定位方法及装置
CN106603264A (zh) * 2015-10-20 2017-04-26 阿里巴巴集团控股有限公司 一种定位故障根源的方法和设备
WO2017143936A1 (zh) * 2016-02-24 2017-08-31 华为技术有限公司 网络日志时间对齐方法、装置及主机
CN106452908A (zh) * 2016-11-04 2017-02-22 北京航空航天大学 一种构建机载网络动态关联故障管理系统的方法
WO2018135254A1 (ja) * 2017-01-18 2018-07-26 富士通株式会社 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置
CN107248927A (zh) * 2017-05-02 2017-10-13 华为技术有限公司 故障定位模型的生成方法、故障定位方法和装置
CN108964995A (zh) * 2018-07-03 2018-12-07 上海新炬网络信息技术股份有限公司 基于时间轴事件的日志关联分析方法
CN109343987A (zh) * 2018-08-20 2019-02-15 科大国创软件股份有限公司 It系统故障诊断及修复方法、装置、设备、存储介质
CN109510721A (zh) * 2018-11-01 2019-03-22 郑州云海信息技术有限公司 一种基于Syslog的网络日志管理方法与系统
CN110287081A (zh) * 2019-06-21 2019-09-27 腾讯科技(成都)有限公司 一种服务监控系统和方法
CN110224874A (zh) * 2019-06-27 2019-09-10 郑州阿帕斯科技有限公司 一种设备故障的处理方法及装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113328872A (zh) * 2020-02-29 2021-08-31 华为技术有限公司 故障修复方法、装置和存储介质
US11706079B2 (en) 2020-02-29 2023-07-18 Huawei Technologies Co., Ltd. Fault recovery method and apparatus, and storage medium
CN111585809A (zh) * 2020-04-29 2020-08-25 北京润通丰华科技有限公司 一种利用大数据统计分析进行网络设备配置稽核的方法
CN111817891A (zh) * 2020-07-07 2020-10-23 中国联合网络通信集团有限公司 网络故障处理方法、装置、存储介质及电子设备
CN111858123A (zh) * 2020-07-29 2020-10-30 中国工商银行股份有限公司 基于有向图网络的故障根因分析方法和装置
CN111858123B (zh) * 2020-07-29 2023-09-26 中国工商银行股份有限公司 基于有向图网络的故障根因分析方法和装置
CN112395159A (zh) * 2020-11-17 2021-02-23 华为技术有限公司 一种日志检测方法、系统、设备及介质
CN112416645A (zh) * 2020-12-03 2021-02-26 广州云岫信息科技有限公司 一种基于人工智能的故障根因推断定位方法及装置
CN114629776A (zh) * 2020-12-11 2022-06-14 中国联合网络通信集团有限公司 基于图模型的故障分析方法及装置
CN112711493A (zh) * 2020-12-25 2021-04-27 上海精鲲计算机科技有限公司 一种场景化根因分析应用
WO2022199089A1 (zh) * 2021-03-26 2022-09-29 中兴通讯股份有限公司 网络管控方法及其系统、网络系统、存储介质
CN114826876A (zh) * 2022-01-11 2022-07-29 杭州金硕信息技术有限公司 一种基于日志分析和在线仿真的云服务故障检测系统及方法
CN114826876B (zh) * 2022-01-11 2024-05-03 杭州金硕信息技术有限公司 一种基于日志分析和在线仿真的云服务故障检测系统及方法
CN116192612A (zh) * 2023-04-23 2023-05-30 成都新西旺自动化科技有限公司 一种基于日志分析的系统故障监测和预警系统及方法

Similar Documents

Publication Publication Date Title
CN110855503A (zh) 一种基于网络协议层级依赖关系的故障定因方法和系统
CN111259947A (zh) 一种基于多模态学习的电力系统故障预警方法和系统
CN114385391A (zh) 一种nfv虚拟化设备运行数据分析方法及装置
CN106842106A (zh) 电能表故障预测方法和装置
CN109992484B (zh) 一种网络告警相关性分析方法、装置和介质
CN104699735A (zh) 企业级数据中心的数据处理方法及装置
CN104616092A (zh) 一种基于分布式日志分析的行为模式处理方法
CN104574219A (zh) 电网业务信息系统运行工况的监测预警方法及系统
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
CN103049365B (zh) 信息与应用资源运行状态监控及评价方法
CN111726351B (zh) 基于Bagging改进的GRU并行网络流量异常检测方法
CN111538741A (zh) 一种面向警情大数据的深度学习分析方法及系统
CN110908957A (zh) 电力行业网络安全日志审计分析方法
CN113516565A (zh) 一种基于知识库的电力监控系统告警智能处理方法及其装置
CN115733762A (zh) 具有大数据分析能力的监控系统
CN116384736A (zh) 一种智慧城市的风险感知方法及系统
CN111625428A (zh) 监控Java应用程序运行状态的方法、系统、设备和存储介质
CN113093695A (zh) 一种数据驱动的sdn控制器故障诊断系统
CN112803587A (zh) 一种基于诊断决策库的自动化设备状态智能巡视方法
CN112073396A (zh) 一种内网横向移动攻击行为的检测方法及装置
CN117034149A (zh) 故障处理策略确定方法、装置、电子设备和存储介质
CN107025293A (zh) 一种电力二次设备缺陷数据挖掘方法及系统
CN115438093A (zh) 一种电力通信设备故障判断方法与检测系统
CN112052245B (zh) 网络安全训练中攻击行为的评判方法和装置
CN114139747A (zh) 基于人工智能技术的AIOps智能运维系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20230203