CN110855502A - 一种基于时空分析日志的故障定因方法和系统 - Google Patents
一种基于时空分析日志的故障定因方法和系统 Download PDFInfo
- Publication number
- CN110855502A CN110855502A CN201911153055.5A CN201911153055A CN110855502A CN 110855502 A CN110855502 A CN 110855502A CN 201911153055 A CN201911153055 A CN 201911153055A CN 110855502 A CN110855502 A CN 110855502A
- Authority
- CN
- China
- Prior art keywords
- log
- fault
- abnormal
- equipment
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000004458 analytical method Methods 0.000 title claims abstract description 30
- 230000002159 abnormal effect Effects 0.000 claims abstract description 106
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims abstract description 30
- 238000012544 monitoring process Methods 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 8
- 238000011534 incubation Methods 0.000 claims description 7
- 238000007619 statistical method Methods 0.000 claims description 7
- 238000012731 temporal analysis Methods 0.000 claims description 7
- 230000005856 abnormality Effects 0.000 claims description 6
- 238000012098 association analyses Methods 0.000 claims description 4
- 238000010219 correlation analysis Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000012423 maintenance Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/069—Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
- H04L41/064—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种基于时空分析日志的故障定因方法和系统,方法包括:步骤1)采集网络系统中所有网络设备产生的syslog日志;步骤2)针对网络中所有设备产生的syslog日志进行监控并且周期性实时的对日志基于时间空间进行特征分析;步骤3)对网络设备的运行状态进行基于时间的特征提取并分析,排查网络设备的隐患和故障时间点;步骤4)获取空间拓扑信息;步骤5)联合空间拓扑信息提取相关设备日志构建异常事件的特征矩阵;步骤6)通过智能决策算法得到故障传播链以及根因,展现故障影响面以及根因详细信息。
Description
技术领域
本发明属于一种基于时空分析日志的故障定因方法和系统
背景技术
现有故障定因系统的处理方法一般是对各个指标进行统计和编排,并不会对设备产生的日志进行特征和内容的分析。
缺点1:网络设备运行维护的故障定因需要有经验的专家人士完成,对人员的依赖较大。
缺点2:故障根因定位困难,故障解决时间长,影响用户体验。
缺陷3:现有网管系统可视性较差,管理效率低,不能针对海量设备进行管理。
伴随5G网络的到来,IP网络设备将会越来越多,网络配置也会变得越来越复杂,将会给网络运维带来巨大的挑战。
发明内容
本发明所要解决的技术问题是提供一种基于时空分析日志的故障定因方法和系统,用以解决现有技术存在的问题。
本发明解决上述技术问题所采取的技术方案如下:
一种基于时空分析日志的故障定因方法,包括:
步骤1)采集网络系统中所有网络设备产生的syslog日志;
步骤2)针对网络中所有设备产生的syslog日志进行监控并且周期性实时的对日志基于时间空间进行特征分析;
步骤3)对网络设备的运行状态进行基于时间的特征提取并分析,排查网络设备的隐患和故障时间点;
步骤4)获取空间拓扑信息;
步骤5)联合空间拓扑信息提取相关设备日志构建异常事件的特征矩阵;
步骤6)通过智能决策算法得到故障传播链以及根因,展现故障影响面以及根因详细信息。
优选的是,步骤1)中,具体包括:
对网络设备日志进行固定时间粒度采集,包括分析目标网络中的所有设备,同时获取的日志为全量数据,所有数据统一采集存储至大数据孵化平台的存储单元。
优选的是,步骤2)中,具体包括:
对每台设备的日志都进行相同时间粒度的实时多维度统计分析,其中维度包括总量、成分量、不同成分的量;
通过对设备正常运行时的日志进行学习,得到设备正常运行时不同维度统计的日志基线特征;
对设备日志进行固定周期的采集监控,当监控值脱离基线值超过阈值时,则认为在这个时间点检测到了一个日志异常事件,这里的阈值是通过算法学习到的一个具有一定置信度的动态值。
优选的是,步骤3)中,具体包括:
取设备在异常时间点周围的日志数据,并且将日志的多维统计特征值进行格式化整理,构成这台设备在异常时间点的异常事件特征向量。
优选的是,步骤4)中,具体包括:
使用网络中的常用协议信息来构建空间拓扑结构;
在异常时间点对拓扑相关的设备进行异常日志提取,并按照统计特征值进行格式化整理,这些特征向量拼在一起构成了异常时间点的异常事件的特征矩阵。
优选的是,步骤5)中,具体包括:
通过对单台设备分别提取异常时间点日志特征向量,结合网络的空间拓扑信息,将关联设备的异常日志特征向量拼接,构成网络异常事件的特征矩阵;
通过对不同场景异常故障日志的统计、积累和提取异常事件特征矩阵,并且有监督的对每一类网络异常事件进行关联算法模型训练,得到异常日志特征矩阵和异常根因的关联关系。
优选的是,步骤6)中,具体包括:
通过逻辑算法分析特征矩阵,得到异常事件的传播路径,定界到异常故障的根因设备,进一步对根因设备的异常该日志特征向量算法分析,可以得到故障根因信息;
通过界面视图,将分析出的异常事件的故障传播链以及影响面通过简单的拓扑结构呈现出来,同时将故障根因分级别显示。
一种基于时空分析日志的故障定因系统,包括:
Syslog采集单元、实时日志异常检测单元、异常日志特征提取单元、空间拓扑发现单元、关联分析单元和故障定因单元;
所述Syslog采集单元,用于采集网络系统中所有网络设备产生的syslog日志;
所述实时日志异常检测单元,用于针对网络中所有设备产生的syslog日志进行监控并且周期性实时的对日志基于时间空间进行特征分析;
所述异常日志特征提取单元,用于对网络设备的运行状态进行基于时间的特征提取并分析,排查网络设备的隐患和故障时间点;
所述空间拓扑发现单元,用于获取空间拓扑信息;
所述关联分析单元,用于联合空间拓扑信息提取相关设备日志构建异常事件的特征矩阵;
所述故障定因单元,用于通过智能决策算法得到故障传播链以及根因,展现故障影响面以及根因详细信息。
优选的是,所述Syslog采集单元,进一步用于:
对网络设备日志进行固定时间粒度采集,包括分析目标网络中的所有设备,同时获取的日志为全量数据,所有数据统一采集存储至大数据孵化平台的存储单元。
优选的是,所述异常日志特征提取单元,进一步用于:
对每台设备的日志都进行相同时间粒度的实时多维度统计分析,其中维度包括总量、成分量、不同成分的量;
通过对设备正常运行时的日志进行学习,得到设备正常运行时不同维度统计的日志基线特征;
对设备日志进行固定周期的采集监控,当监控值脱离基线值超过阈值时,则认为在这个时间点检测到了一个日志异常事件,这里的阈值是通过算法学习到的一个具有一定置信度的动态值。
对每台设备的日志都进行相同时间粒度的实时多维度统计分析,其中维度包括总量、成分量、不同成分的量;
通过对设备正常运行时的日志进行学习,得到设备正常运行时不同维度统计的日志基线特征;
对设备日志进行固定周期的采集监控,当监控值脱离基线值超过阈值时,则认为在这个时间点检测到了一个日志异常事件,这里的阈值是通过算法学习到的一个具有一定置信度的动态值。
本发明是通过人工智能的方法,针对网络中所有设备产生的syslog日志进行监控并且周期性实时的对日志基于时间空间进行特征分析。由计算机代替人力,对网络设备的运行状态进行基于时间的特征提取并分析,排查网络设备的隐患和故障时间点;联合空间拓扑信息提取相关设备日志构建异常事件的特征矩阵,通过智能决策算法得到故障传播链以及根因,最终通过界面视图呈现的方式展现故障影响面以及根因详细信息,达到智能、高效、精准运维的目的。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
附图说明
下面结合附图对本发明进行详细的描述,以使得本发明的上述优点更加明确。其中,
图1是本发明基于时空分析日志的故障定因方法的流程示意图;
图2是本发明基于时空分析日志的故障定因方法实施例中的网络日志的示意图;
图3是本发明基于时空分析日志的故障定因方法实施例中的空间拓扑的示意图;
图4是本发明基于时空分析日志的故障定因方法实施例中空间拓扑发现的示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明是通过人工智能的方法,针对网络中所有设备产生的syslog日志进行监控并且周期性实时的对日志基于时间空间进行特征分析。由计算机代替人力,对网络设备的运行状态进行基于时间的特征提取并分析,排查网络设备的隐患和故障时间点;联合空间拓扑信息提取相关设备日志构建异常事件的特征矩阵,通过智能决策算法得到故障传播链以及根因,最终通过界面视图呈现的方式展现故障影响面以及根因详细信息,达到智能、高效、精准运维的目的。
本发明中的所有数据以及计算都是集中在大数据孵化平台上面进行,可以将对日志分析进行故障定因的能力进行封装,作为一种网络服务提供给各个用户进行使用。这种故障定因的能力即具有自主学习的特点,可以将收集到的日志数据进行整理和分析学习;又具备可移植的特点,适用于不同场景下的网络故障根因排查。
本发明的目标是,将网络设备的所有syslog文件集中管理起来,通过人工智能算法对设备运行状态基于时间和空间进行诊断分析,达到如下目标:
1.在故障发生之前发现隐患,提升客户使用体验;
2.将故障根因的查找时间从小时数量级降为分钟数量级;
3.将网络故障事件以故障传播的形式直观呈现出来,并且支持故障回放。
具体来说,一种基于时空分析日志的故障定因方法,包括:
步骤1)采集网络系统中所有网络设备产生的syslog日志;
步骤2)针对网络中所有设备产生的syslog日志进行监控并且周期性实时的对日志基于时间空间进行特征分析;
步骤3)对网络设备的运行状态进行基于时间的特征提取并分析,排查网络设备的隐患和故障时间点;
步骤4)获取空间拓扑信息;
步骤5)联合空间拓扑信息提取相关设备日志构建异常事件的特征矩阵;
步骤6)通过智能决策算法得到故障传播链以及根因,展现故障影响面以及根因详细信息。
本发明可以完成以下目的:
1、将人工故障定因的逻辑抽象为数学模型,通过算法实现,由计算机代替人力完成,收集和不断补充经验库,使网络设备故障定因这项工作脱离对专家人士的依赖。
2、计算机的运算能力随着科技的进步得到了大大的提升,可以将人工定位耗时几小时级的量级降低为分钟量级。
3、本方案使用大数据平台,集中存储和处理日志数据,完全能够承担管理海量网络设备的工作。
其中,具体来说,优选的是,步骤1)中,具体包括:
对网络设备日志进行固定时间粒度采集,包括分析目标网络中的所有设备,同时获取的日志为全量数据,所有数据统一采集存储至大数据孵化平台的存储单元。
优选的是,步骤2)中,具体包括:
对每台设备的日志都进行相同时间粒度的实时多维度统计分析,其中维度包括总量、成分量、不同成分的量;
通过对设备正常运行时的日志进行学习,得到设备正常运行时不同维度统计的日志基线特征;
对设备日志进行固定周期的采集监控,当监控值脱离基线值超过阈值时,则认为在这个时间点检测到了一个日志异常事件,这里的阈值是通过算法学习到的一个具有一定置信度的动态值。
优选的是,步骤3)中,具体包括:
取设备在异常时间点周围的日志数据,并且将日志的多维统计特征值进行格式化整理,构成这台设备在异常时间点的异常事件特征向量。
优选的是,步骤4)中,具体包括:
使用网络中的常用协议信息来构建空间拓扑结构;
在异常时间点对拓扑相关的设备进行异常日志提取,并按照统计特征值进行格式化整理,这些特征向量拼在一起构成了异常时间点的异常事件的特征矩阵。
优选的是,步骤5)中,具体包括:
通过对单台设备分别提取异常时间点日志特征向量,结合网络的空间拓扑信息,将关联设备的异常日志特征向量拼接,构成网络异常事件的特征矩阵;
通过对不同场景异常故障日志的统计、积累和提取异常事件特征矩阵,并且有监督的对每一类网络异常事件进行关联算法模型训练,得到异常日志特征矩阵和异常根因的关联关系。
优选的是,步骤6)中,具体包括:
通过逻辑算法分析特征矩阵,得到异常事件的传播路径,定界到异常故障的根因设备,进一步对根因设备的异常该日志特征向量算法分析,可以得到故障根因信息;
通过界面视图,将分析出的异常事件的故障传播链以及影响面通过简单的拓扑结构呈现出来,同时将故障根因分级别显示。
本发明主要由六个功能模块来完成网络设备日志的分析,包括Syslog采集单元、实时日志异常检测单元、异常日志特征提取单元、空间拓扑发现单元、关联分析单元、故障定因单元。
所述Syslog采集单元,用于采集网络系统中所有网络设备产生的syslog日志;
所述实时日志异常检测单元,用于针对网络中所有设备产生的syslog日志进行监控并且周期性实时的对日志基于时间空间进行特征分析;
所述异常日志特征提取单元,用于对网络设备的运行状态进行基于时间的特征提取并分析,排查网络设备的隐患和故障时间点;
所述空间拓扑发现单元,用于获取空间拓扑信息;
所述关联分析单元,用于联合空间拓扑信息提取相关设备日志构建异常事件的特征矩阵;
所述故障定因单元,用于通过智能决策算法得到故障传播链以及根因,展现故障影响面以及根因详细信息。
更具体地说,其完成以下的工作:
1、Syslog采集
对网络设备日志进行固定时间粒度采集,包括分析目标网络中的所有设备,同时获取的日志为全量数据,所有数据统一采集存储至大数据孵化平台的存储单元。
2、实时日志异常检测
对每台设备的日志都进行相同时间粒度的实时多维度统计分析,其中维度包括总量、成分量、不同成分的量等。通过对设备正常运行时的日志进行学习,可以得到设备正常运行时不同维度统计的日志基线特征。对设备日志进行固定周期的采集监控,当监控值脱离基线值超过阈值时,则认为在这个时间点检测到了一个日志异常事件,这里的阈值是通过算法学习到的一个具有一定置信度的动态值。
3、异常日志特征提取
取设备在异常时间点周围的日志数据,并且将日志的多维统计特征值进行格式化整理,构成这台设备在异常时间点的异常事件特征向量。
4、空间拓扑发现
网络中的事件具有相互影响的特征,因此分析网络故障根因,必须考虑网络拓扑结构。网络拓扑结构是基于空间维度对网络中的异常事件进行特征提取的重要信息来源,拓扑结构可以使用网络中的常用协议信息来构建。在异常时间点对拓扑相关的设备进行异常日志提取,并都按照统计特征值进行格式化整理,这些特征向量拼在一起构成了异常时间点的异常事件的特征矩阵。
5、关联分析
通过对单台设备分别提取异常时间点日志特征向量,结合网络拓扑信息,将关联设备的异常日志特征向量拼接,构成此次网络异常事件的特征矩阵。通过对不同场景异常故障日志的统计、积累和提取异常事件特征矩阵,并且有监督的对每一类网络异常事件进行关联算法模型训练。得到异常日志特征矩阵和异常根因的关联关系。
6、故障定因
基于以上各个流程的分析,已经提取出网络中的异常事件以及异常事件点的日志特征矩阵。通过逻辑算法分析特征矩阵,可以得到此异常事件的传播路径,定界到异常故障的根因设备。进一步对根因设备的异常该日志特征向量算法分析,可以得到故障根因信息。
最后通过界面视图,将分析出的异常事件的故障传播链以及影响面通过简单的拓扑结构呈现出来,同时将故障根因分级别显示。
该发明通过对网络设备日志的时间特征和空间拓扑特征提取、发现网络异常事件,然后通过提取异常事件的日志特征信息,分析得到网络异常事件的故障根因。
基于以上原因本方案寻求了一种更高效、更精准、更节省成本的运维方法。网络设备在运行过程中会产生大量的日志信息,存储在syslog文件中。虽然,网络设备都具备基本的故障检测功能并可以实时上送告警信息。但是,运维人员在面对大量的网络设备,和大量的网络运行数据时,会不可避免的忽略掉一些告警信息;同时,告警信息并不能完全覆盖网络中的所有故障,很多时候,对于网络故障的根因定位需要专业人员排查每台设备的syslog文件才能解决,当前的网管系统并不具备自主发现和自主分析的能力。因为日志记录着设备的部分配置信息以及在运行过程产生的所有信息,因此对于网络中的绝大多数故障信息,都会被日志记录下来。所以,网管系统想要实现网络故障自主发现和自主分析的能力,对设备日志数据的监控和分析是十分必要的。本方案是通过人工智能的方法,针对网络中所有设备产生的syslog日志进行采集和关联分析,由计算机代替人力,对网络设备的运行状态进行实时算法分析,排查网络隐患和故障,并通过智能决策引擎模块找到根因,实现运维提效。
需要说明的是,对于上述方法实施例而言,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于时空分析日志的故障定因方法,其特征在于,包括:
步骤1)采集网络系统中所有网络设备产生的syslog日志;
步骤2)针对网络中所有设备产生的syslog日志进行监控并且周期性实时的对日志基于时间空间进行特征分析;
步骤3)对网络设备的运行状态进行基于时间的特征提取并分析,排查网络设备的隐患和故障时间点;
步骤4)获取空间拓扑信息;
步骤5)联合空间拓扑信息提取相关设备日志构建异常事件的特征矩阵;
步骤6)通过智能决策算法得到故障传播链以及根因,展现故障影响面以及根因详细信息。
2.根据权利要求1所述的基于时空分析日志的故障定因方法,其特征在于,步骤1)中,具体包括:
对网络设备日志进行固定时间粒度采集,包括分析目标网络中的所有设备,同时获取的日志为全量数据,所有数据统一采集存储至大数据孵化平台的存储单元。
3.根据权利要求1所述的基于时空分析日志的故障定因方法,其特征在于,步骤2)中,具体包括:
对每台设备的日志都进行相同时间粒度的实时多维度统计分析,其中维度包括总量、成分量、不同成分的量;
通过对设备正常运行时的日志进行学习,得到设备正常运行时不同维度统计的日志基线特征;
对设备日志进行固定周期的采集监控,当监控值脱离基线值超过阈值时,则认为在这个时间点检测到了一个日志异常事件,这里的阈值是通过算法学习到的一个具有一定置信度的动态值。
4.根据权利要求1所述的基于时空分析日志的故障定因方法,其特征在于,步骤3)中,具体包括:
取设备在异常时间点周围的日志数据,并且将日志的多维统计特征值进行格式化整理,构成这台设备在异常时间点的异常事件特征向量。
5.根据权利要求1所述的基于时空分析日志的故障定因方法,其特征在于,步骤4)中,具体包括:
使用网络中的常用协议信息来构建空间拓扑结构;
在异常时间点对拓扑相关的设备进行异常日志提取,并按照统计特征值进行格式化整理,这些特征向量拼在一起构成了异常时间点的异常事件的特征矩阵。
6.根据权利要求5所述的基于时空分析日志的故障定因方法,其特征在于,步骤5)中,具体包括:
通过对单台设备分别提取异常时间点日志特征向量,结合网络的空间拓扑信息,将关联设备的异常日志特征向量拼接,构成网络异常事件的特征矩阵;
通过对不同场景异常故障日志的统计、积累和提取异常事件特征矩阵,并且有监督的对每一类网络异常事件进行关联算法模型训练,得到异常日志特征矩阵和异常根因的关联关系。
7.根据权利要求1所述的基于时空分析日志的故障定因方法,其特征在于,步骤6)中,具体包括:
通过逻辑算法分析特征矩阵,得到异常事件的传播路径,定界到异常故障的根因设备,进一步对根因设备的异常该日志特征向量算法分析,可以得到故障根因信息;
通过界面视图,将分析出的异常事件的故障传播链以及影响面通过简单的拓扑结构呈现出来,同时将故障根因分级别显示。
8.一种基于时空分析日志的故障定因系统,其特征在于,包括:
Syslog采集单元、实时日志异常检测单元、异常日志特征提取单元、空间拓扑发现单元、关联分析单元和故障定因单元;
所述Syslog采集单元,用于采集网络系统中所有网络设备产生的syslog日志;
所述实时日志异常检测单元,用于针对网络中所有设备产生的syslog日志进行监控并且周期性实时的对日志基于时间空间进行特征分析;
所述异常日志特征提取单元,用于对网络设备的运行状态进行基于时间的特征提取并分析,排查网络设备的隐患和故障时间点;
所述空间拓扑发现单元,用于获取空间拓扑信息;
所述关联分析单元,用于联合空间拓扑信息提取相关设备日志构建异常事件的特征矩阵;
所述故障定因单元,用于通过智能决策算法得到故障传播链以及根因,展现故障影响面以及根因详细信息。
9.根据权利要求8所述的基于时空分析日志的故障定因系统,其特征在于,所述Syslog采集单元,进一步用于:
对网络设备日志进行固定时间粒度采集,包括分析目标网络中的所有设备,同时获取的日志为全量数据,所有数据统一采集存储至大数据孵化平台的存储单元。
10.根据权利要求8所述的基于时空分析日志的故障定因系统,其特征在于,所述异常日志特征提取单元,进一步用于:
对每台设备的日志都进行相同时间粒度的实时多维度统计分析,其中维度包括总量、成分量、不同成分的量;
通过对设备正常运行时的日志进行学习,得到设备正常运行时不同维度统计的日志基线特征;
对设备日志进行固定周期的采集监控,当监控值脱离基线值超过阈值时,则认为在这个时间点检测到了一个日志异常事件,这里的阈值是通过算法学习到的一个具有一定置信度的动态值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911153055.5A CN110855502A (zh) | 2019-11-22 | 2019-11-22 | 一种基于时空分析日志的故障定因方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911153055.5A CN110855502A (zh) | 2019-11-22 | 2019-11-22 | 一种基于时空分析日志的故障定因方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110855502A true CN110855502A (zh) | 2020-02-28 |
Family
ID=69603395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911153055.5A Pending CN110855502A (zh) | 2019-11-22 | 2019-11-22 | 一种基于时空分析日志的故障定因方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110855502A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111585809A (zh) * | 2020-04-29 | 2020-08-25 | 北京润通丰华科技有限公司 | 一种利用大数据统计分析进行网络设备配置稽核的方法 |
CN111817891A (zh) * | 2020-07-07 | 2020-10-23 | 中国联合网络通信集团有限公司 | 网络故障处理方法、装置、存储介质及电子设备 |
CN111830931A (zh) * | 2020-07-15 | 2020-10-27 | 中国科学院微电子研究所 | 一种dcs系统的故障诊断方法 |
CN112019932A (zh) * | 2020-08-27 | 2020-12-01 | 广州华多网络科技有限公司 | 网络故障根因定位方法、装置、计算机设备及存储介质 |
CN112100392A (zh) * | 2020-07-28 | 2020-12-18 | 浙江大学 | 一种基于强化学习和知识图谱的设备故障溯因方法 |
CN112152852A (zh) * | 2020-09-23 | 2020-12-29 | 创新奇智(北京)科技有限公司 | 根因分析方法、装置、设备及计算机存储介质 |
CN112181758A (zh) * | 2020-08-19 | 2021-01-05 | 南京邮电大学 | 一种基于网络拓扑及实时告警的故障根因定位方法 |
CN112187506A (zh) * | 2020-08-17 | 2021-01-05 | 唐山钢铁集团有限责任公司 | 一种利用信息化手段实现网络设备点检运维的方法 |
CN112711493A (zh) * | 2020-12-25 | 2021-04-27 | 上海精鲲计算机科技有限公司 | 一种场景化根因分析应用 |
CN112769605A (zh) * | 2020-12-30 | 2021-05-07 | 杭州东方通信软件技术有限公司 | 一种异构多云的运维管理方法及混合云平台 |
CN112987693A (zh) * | 2021-03-03 | 2021-06-18 | 上海天旦网络科技发展有限公司 | 智能故障诊断系统及方法 |
CN113220946A (zh) * | 2021-05-25 | 2021-08-06 | 平安付科技服务有限公司 | 基于强化学习的故障链路搜索方法、装置、设备及介质 |
CN113328872A (zh) * | 2020-02-29 | 2021-08-31 | 华为技术有限公司 | 故障修复方法、装置和存储介质 |
CN114095333A (zh) * | 2021-11-23 | 2022-02-25 | 天翼数字生活科技有限公司 | 一种网络排障方法、装置、设备及可读存储介质 |
CN114090413A (zh) * | 2022-01-21 | 2022-02-25 | 成都市以太节点科技有限公司 | 一种系统数据异常检测方法、系统、电子设备及存储介质 |
CN114490303A (zh) * | 2022-04-07 | 2022-05-13 | 阿里巴巴达摩院(杭州)科技有限公司 | 故障根因确定方法、装置和云设备 |
CN114629776A (zh) * | 2020-12-11 | 2022-06-14 | 中国联合网络通信集团有限公司 | 基于图模型的故障分析方法及装置 |
CN116192612A (zh) * | 2023-04-23 | 2023-05-30 | 成都新西旺自动化科技有限公司 | 一种基于日志分析的系统故障监测和预警系统及方法 |
CN117834389A (zh) * | 2024-03-04 | 2024-04-05 | 中国西安卫星测控中心 | 一种基于异常通信业务特征元矩阵的故障分析方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103001811A (zh) * | 2012-12-31 | 2013-03-27 | 北京启明星辰信息技术股份有限公司 | 故障定位方法和装置 |
CN104869019A (zh) * | 2015-05-18 | 2015-08-26 | 百度在线网络技术(北京)有限公司 | 用于定位故障的反馈方法、装置及服务器 |
CN105577440A (zh) * | 2015-12-24 | 2016-05-11 | 华为技术有限公司 | 一种网络故障时间定位方法和分析设备 |
CN105577454A (zh) * | 2016-03-03 | 2016-05-11 | 上海新炬网络信息技术有限公司 | 一种基于日志快速定位业务故障的方法 |
CN105915555A (zh) * | 2016-06-29 | 2016-08-31 | 北京奇虎科技有限公司 | 网络异常行为的检测方法及系统 |
CN107171819A (zh) * | 2016-03-07 | 2017-09-15 | 北京华为数字技术有限公司 | 一种网络故障诊断方法及装置 |
CN107301119A (zh) * | 2017-06-28 | 2017-10-27 | 北京优特捷信息技术有限公司 | 利用时序相关性进行it故障根因分析的方法及装置 |
CN108809734A (zh) * | 2018-07-16 | 2018-11-13 | 北京思特奇信息技术股份有限公司 | 网络告警根源分析方法、系统、存储介质及计算机设备 |
US20190179691A1 (en) * | 2017-12-08 | 2019-06-13 | Nec Laboratories America, Inc. | Log-based computer failure diagnosis |
CN110288004A (zh) * | 2019-05-30 | 2019-09-27 | 武汉大学 | 一种基于日志语义挖掘的系统故障诊断方法及装置 |
CN110287081A (zh) * | 2019-06-21 | 2019-09-27 | 腾讯科技(成都)有限公司 | 一种服务监控系统和方法 |
CN110380888A (zh) * | 2019-05-29 | 2019-10-25 | 华为技术有限公司 | 一种网络异常检测方法和装置 |
WO2019221461A1 (ko) * | 2018-05-18 | 2019-11-21 | 주식회사 케이티 | 네트워크 장애 원인 분석 장치 및 방법 |
-
2019
- 2019-11-22 CN CN201911153055.5A patent/CN110855502A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103001811A (zh) * | 2012-12-31 | 2013-03-27 | 北京启明星辰信息技术股份有限公司 | 故障定位方法和装置 |
CN104869019A (zh) * | 2015-05-18 | 2015-08-26 | 百度在线网络技术(北京)有限公司 | 用于定位故障的反馈方法、装置及服务器 |
CN105577440A (zh) * | 2015-12-24 | 2016-05-11 | 华为技术有限公司 | 一种网络故障时间定位方法和分析设备 |
CN105577454A (zh) * | 2016-03-03 | 2016-05-11 | 上海新炬网络信息技术有限公司 | 一种基于日志快速定位业务故障的方法 |
CN107171819A (zh) * | 2016-03-07 | 2017-09-15 | 北京华为数字技术有限公司 | 一种网络故障诊断方法及装置 |
CN105915555A (zh) * | 2016-06-29 | 2016-08-31 | 北京奇虎科技有限公司 | 网络异常行为的检测方法及系统 |
CN107301119A (zh) * | 2017-06-28 | 2017-10-27 | 北京优特捷信息技术有限公司 | 利用时序相关性进行it故障根因分析的方法及装置 |
US20190179691A1 (en) * | 2017-12-08 | 2019-06-13 | Nec Laboratories America, Inc. | Log-based computer failure diagnosis |
WO2019221461A1 (ko) * | 2018-05-18 | 2019-11-21 | 주식회사 케이티 | 네트워크 장애 원인 분석 장치 및 방법 |
CN108809734A (zh) * | 2018-07-16 | 2018-11-13 | 北京思特奇信息技术股份有限公司 | 网络告警根源分析方法、系统、存储介质及计算机设备 |
CN110380888A (zh) * | 2019-05-29 | 2019-10-25 | 华为技术有限公司 | 一种网络异常检测方法和装置 |
CN110288004A (zh) * | 2019-05-30 | 2019-09-27 | 武汉大学 | 一种基于日志语义挖掘的系统故障诊断方法及装置 |
CN110287081A (zh) * | 2019-06-21 | 2019-09-27 | 腾讯科技(成都)有限公司 | 一种服务监控系统和方法 |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11706079B2 (en) | 2020-02-29 | 2023-07-18 | Huawei Technologies Co., Ltd. | Fault recovery method and apparatus, and storage medium |
CN113328872A (zh) * | 2020-02-29 | 2021-08-31 | 华为技术有限公司 | 故障修复方法、装置和存储介质 |
CN111585809A (zh) * | 2020-04-29 | 2020-08-25 | 北京润通丰华科技有限公司 | 一种利用大数据统计分析进行网络设备配置稽核的方法 |
CN111817891A (zh) * | 2020-07-07 | 2020-10-23 | 中国联合网络通信集团有限公司 | 网络故障处理方法、装置、存储介质及电子设备 |
CN111830931B (zh) * | 2020-07-15 | 2021-08-20 | 中国科学院微电子研究所 | 一种dcs系统的故障诊断方法 |
CN111830931A (zh) * | 2020-07-15 | 2020-10-27 | 中国科学院微电子研究所 | 一种dcs系统的故障诊断方法 |
CN112100392A (zh) * | 2020-07-28 | 2020-12-18 | 浙江大学 | 一种基于强化学习和知识图谱的设备故障溯因方法 |
CN112100392B (zh) * | 2020-07-28 | 2022-03-15 | 浙江大学 | 一种基于强化学习和知识图谱的设备故障溯因方法 |
CN112187506B (zh) * | 2020-08-17 | 2022-12-27 | 唐山钢铁集团有限责任公司 | 一种利用信息化手段实现网络设备点检运维的方法 |
CN112187506A (zh) * | 2020-08-17 | 2021-01-05 | 唐山钢铁集团有限责任公司 | 一种利用信息化手段实现网络设备点检运维的方法 |
CN112181758B (zh) * | 2020-08-19 | 2023-07-28 | 南京邮电大学 | 一种基于网络拓扑及实时告警的故障根因定位方法 |
CN112181758A (zh) * | 2020-08-19 | 2021-01-05 | 南京邮电大学 | 一种基于网络拓扑及实时告警的故障根因定位方法 |
CN112019932A (zh) * | 2020-08-27 | 2020-12-01 | 广州华多网络科技有限公司 | 网络故障根因定位方法、装置、计算机设备及存储介质 |
CN112152852A (zh) * | 2020-09-23 | 2020-12-29 | 创新奇智(北京)科技有限公司 | 根因分析方法、装置、设备及计算机存储介质 |
CN112152852B (zh) * | 2020-09-23 | 2023-02-03 | 创新奇智(北京)科技有限公司 | 根因分析方法、装置、设备及计算机存储介质 |
CN114629776A (zh) * | 2020-12-11 | 2022-06-14 | 中国联合网络通信集团有限公司 | 基于图模型的故障分析方法及装置 |
CN112711493A (zh) * | 2020-12-25 | 2021-04-27 | 上海精鲲计算机科技有限公司 | 一种场景化根因分析应用 |
CN112769605A (zh) * | 2020-12-30 | 2021-05-07 | 杭州东方通信软件技术有限公司 | 一种异构多云的运维管理方法及混合云平台 |
CN112987693A (zh) * | 2021-03-03 | 2021-06-18 | 上海天旦网络科技发展有限公司 | 智能故障诊断系统及方法 |
CN113220946A (zh) * | 2021-05-25 | 2021-08-06 | 平安付科技服务有限公司 | 基于强化学习的故障链路搜索方法、装置、设备及介质 |
CN113220946B (zh) * | 2021-05-25 | 2023-02-14 | 平安付科技服务有限公司 | 基于强化学习的故障链路搜索方法、装置、设备及介质 |
CN114095333A (zh) * | 2021-11-23 | 2022-02-25 | 天翼数字生活科技有限公司 | 一种网络排障方法、装置、设备及可读存储介质 |
CN114090413B (zh) * | 2022-01-21 | 2022-04-19 | 成都市以太节点科技有限公司 | 一种系统数据异常检测方法、系统、电子设备及存储介质 |
CN114090413A (zh) * | 2022-01-21 | 2022-02-25 | 成都市以太节点科技有限公司 | 一种系统数据异常检测方法、系统、电子设备及存储介质 |
CN114490303B (zh) * | 2022-04-07 | 2022-07-12 | 阿里巴巴达摩院(杭州)科技有限公司 | 故障根因确定方法、装置和云设备 |
CN114490303A (zh) * | 2022-04-07 | 2022-05-13 | 阿里巴巴达摩院(杭州)科技有限公司 | 故障根因确定方法、装置和云设备 |
CN116192612A (zh) * | 2023-04-23 | 2023-05-30 | 成都新西旺自动化科技有限公司 | 一种基于日志分析的系统故障监测和预警系统及方法 |
CN117834389A (zh) * | 2024-03-04 | 2024-04-05 | 中国西安卫星测控中心 | 一种基于异常通信业务特征元矩阵的故障分析方法 |
CN117834389B (zh) * | 2024-03-04 | 2024-05-03 | 中国西安卫星测控中心 | 一种基于异常通信业务特征元矩阵的故障分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110855502A (zh) | 一种基于时空分析日志的故障定因方法和系统 | |
CN108763957B (zh) | 一种数据库的安全审计系统、方法及服务器 | |
CN109783322A (zh) | 一种企业信息系统运行状态的监控分析系统及其方法 | |
CN111190876A (zh) | 日志管理系统及其运行方法 | |
CN111209131A (zh) | 一种基于机器学习确定异构系统的故障的方法和系统 | |
CN109586239B (zh) | 智能变电站实时诊断及故障预警方法 | |
US8918345B2 (en) | Network analysis system | |
CN111259073A (zh) | 基于日志、流量和业务访问的业务系统运行状态智能研判系统 | |
CN113542017A (zh) | 基于网络拓扑和多指标的一种网络故障定位方法 | |
CN110942137A (zh) | 一种基于深度学习的电网信息运维监控方法 | |
CN115865649B (zh) | 一种智能运维管理控制方法、系统和存储介质 | |
CN104574219A (zh) | 电网业务信息系统运行工况的监测预警方法及系统 | |
CN113902241A (zh) | 一种基于综合状态评价的电网设备检修的策略系统及方法 | |
CN116914917A (zh) | 一种基于大数据的配电柜运行状态监测管理系统 | |
CN111666978B (zh) | 一种it系统运维大数据的智能故障预警系统 | |
CN117235169A (zh) | 一种智慧运维数据存储平台 | |
CN110580492A (zh) | 一种基于小幅波动检测的轨道电路故障前兆发现方法 | |
CN110908957A (zh) | 电力行业网络安全日志审计分析方法 | |
CN117150418B (zh) | 基于状态特征故障树的变压器运检周期制定方法和系统 | |
CN111131815A (zh) | 智能电视性能监控与异常进程处理方法及装置 | |
CN114116872A (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
CN115150248A (zh) | 网络流量异常检测方法、装置、电子设备和存储介质 | |
CN116108376A (zh) | 一种反窃电的监测系统、方法、电子设备及介质 | |
CN106487592A (zh) | 一种基于数据立方体的分布式系统故障诊断方法 | |
CN109558258B (zh) | 一种分布式系统根源故障定位的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20230224 |
|
AD01 | Patent right deemed abandoned |