CN111541559A - 一种基于因果规则的故障定位方法 - Google Patents

一种基于因果规则的故障定位方法 Download PDF

Info

Publication number
CN111541559A
CN111541559A CN202010209463.4A CN202010209463A CN111541559A CN 111541559 A CN111541559 A CN 111541559A CN 202010209463 A CN202010209463 A CN 202010209463A CN 111541559 A CN111541559 A CN 111541559A
Authority
CN
China
Prior art keywords
causal
fault
cause
root
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010209463.4A
Other languages
English (en)
Inventor
石林
刘泽灿
王紫越
冯俊华
朱文辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202010209463.4A priority Critical patent/CN111541559A/zh
Publication of CN111541559A publication Critical patent/CN111541559A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/064Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于因果规则的故障定位方法,该方法包括因果规则挖掘、基于因果规则推断这两个阶段。在因果规则挖掘阶段,基于给定的候选集,分析故障与事件的关系,对事件发生的因果规则进行挖掘,构建出因果结构图;在基于因果规则推断阶段,分时间窗口进行分析,某个故障原因集在某段时间内,导致最多事件发生的即为根因。根据故障原因集对发生事件集的影响程度,定义故障原因集是根因的可能性的计算方式,对原因进行评估并推断得到根因。本发明解决了定位告警根因的问题,通过根因的干预可以精准、快速、高效地解决网络告警。本发明解决了告警发生因果机制刻画问题,实现告警因果网络的可靠构建和根因告警的准确定位。

Description

一种基于因果规则的故障定位方法
技术领域
本发明涉及塑胶挖掘和分析领域,尤其涉及一种基于因果规则的故障快速定位方法。
背景技术
通信网络是信息时代的重要基础设施。由于网络规模巨大、设备类型多样、拓扑结构复杂等特点,网络告警具有非线性传导效应,单点告警极易引发大规模相关告警事件,告警的不及时处理将导致全局网络的稳定。
以现实情况为例,假设发生了若干个告警,并希望优先解决目标告警时。现有技术是以相关关系为基础进行算法处理,并得出均与目标告警具有强相关性的结果,对这种被大量相关候选因素干预的处理结果,将给全局网络带来巨大的维护成本,若警告过多时甚至会超出机器的处理负荷而不具可行性
因此,如何对大量告警事件进行快速定位并及时响应,是目前急需解决的问题。
对于提升告警维修效率、降低运维成本、维护网络稳定具有重要意义。
因果关系是进行有效根因定位的有效方法。因果关系严格区分了“因”变量和“果”变量,在发现告警形成原因、指导维修等干预行为等方面有相关关系不能替代的重要作用。而因果关系则可以定位到所有告警的根因,通过根因的干预可以精准、快速、高效地解决网络告警。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于因果规则的故障快速定位方法。
本发明的目的通过下述技术方案实现:
一种基于因果规则的故障定位方法,该定位方法主要包括因果规则挖掘、以及基于因果规则推断两个阶段。所述因果规则挖掘包括给定候选集、分析故障与事件关系、构建因果结构图三个步骤。所述基于因果规则推断包括分时间窗口分析、统计导致事件最多发生的故障——根因、计算根因的可能性三个步骤。
具体的,所述因果规则挖掘主要包括:
步骤S1:给定候选集:通过数据挖掘、剪枝方法/算法给出合理范围内的候选集。
步骤S2:分析故障与事件关系:通过基于因果关系的根因故障定位算法来分析候选集中产生故障的母事件与子事件之间的关系。
步骤S3:构建因果结构图:根据步骤S2中得到的结论,构建因果结构图,得到基于因果关系的规则,完成因果规则的挖掘。
具体的,所述基于因果规则推断主要包括:
步骤S4:分时间窗口分析:通过时间窗口的方法,对不同情况进行分析。
步骤S5:统计导致事件最多发生的故障——根因:确定系统中每个故障点的根因,并进行统计。
步骤S6:计算根因的可能性:通过可能性分数计算,最终得到各根因的可能性。
作为本发明的优选方案,其根因的可能性的标准描述为:
Figure BDA0002422328500000021
其中,1为指示函数,表示规则集合
Figure BDA0002422328500000022
中是否存在
Figure BDA0002422328500000026
或者样本si是否包含I0和e0;ε0为某段时间内发生的所有事件集合,e0为其中发生的某个事件。
作为本发明的优选方案,进一步给定根故障原因集I0是根因的概率p(I0)的计算方式:
Figure BDA0002422328500000023
作为本发明的优选方案,进一步给定事件的根因的计算方式:
Figure BDA0002422328500000024
并通过计算得到根因
Figure BDA0002422328500000027
与现有技术相比,本发明还具有以下优点:
(1)本发明所提供的基于因果规则的故障定位方法解决了定位告警根因的问题,通过根因的干预可以精准、快速、高效地解决网络告警。
(2)本发明所提供的基于因果规则的故障定位方法针对告警间的不确定时滞反馈特性,解决了告警发生因果机制刻画问题,实现告警因果网络的可靠构建和根因告警的准确定位,具有重要的科学意义和应用前景。
附图说明
图1是本发明所提供的基于因果规则的故障定位方法的结构示意图。
图2是本发明所提供的典型因果网络结构示意图。
图3是本发明所提供的基于因果规则的故障定位方法的技术路线图/流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明作进一步说明。
实施例1:
如图1至图3所示,本实施例公开了一种基于因果规则的故障定位方法,该定位方法主要包括因果规则挖掘、以及基于因果规则推断两个阶段。所述因果规则挖掘包括给定候选集、分析故障与事件关系、构建因果结构图三个步骤。所述基于因果规则推断包括分时间窗口分析、统计导致事件最多发生的故障——根因、计算根因的可能性三个步骤。
具体的,所述因果规则挖掘主要包括:
步骤S1:给定候选集:通过数据挖掘、剪枝方法/算法给出合理范围内的候选集。
步骤S2:分析故障与事件关系:通过基于因果关系的根因故障定位算法来分析候选集中产生故障的母事件与子事件之间的关系。
步骤S3:构建因果结构图:根据步骤S2中得到的结论,构建因果结构图,得到基于因果关系的规则,完成因果规则的挖掘。
具体的,所述基于因果规则推断主要包括:
步骤S4:分时间窗口分析:通过时间窗口的方法,对不同情况进行分析。
步骤S5:统计导致事件最多发生的故障——根因:确定系统中每个故障点的根因,并进行统计。
步骤S6:计算根因的可能性:通过可能性分数计算,最终得到各根因的可能性。
作为本发明的优选方案,其根因的可能性的标准描述为:
Figure BDA0002422328500000041
其中,1为指示函数,表示规则集合
Figure BDA0002422328500000042
中是否存在
Figure BDA0002422328500000043
或者样本si是否包含I0和e0;ε0为某段时间内发生的所有事件集合,e0为其中发生的某个事件。
作为本发明的优选方案,进一步给定根故障原因集I0是根因的概率p(I0)的计算方式:
Figure BDA0002422328500000044
作为本发明的优选方案,进一步给定事件的根因的计算方式:
Figure BDA0002422328500000045
并通过计算得到根因
Figure BDA0002422328500000046
实施例2:
本实施例公开了一种基于因果规则的故障定位方法,该方法主要包括因果规则挖掘、基于因果规则推断这两个阶段。在因果规则挖掘阶段,基于给定的候选集,分析故障与事件的关系,对事件发生的因果规则进行挖掘,构建出因果结构图;在基于因果规则推断阶段,分时间窗口进行分析,某个故障原因集在某段时间内,导致最多事件发生的即为根因。根据故障原因集对发生事件集的影响程度,定义故障原因集是根因的可能性的计算方式,对原因进行评估并推断得到根因。
优选地,对故障定位上的因果关系发现,在系统中某个故障的发生常常导致许多相关事件发生,一些事件可能同时受到相同的原因节点影响,因此若某个故障原因集在某段时间内,导致最多事件发生的即为根因。
优选地,由于V-结构它在统计学角度不等同于任何其他包含相同变量的结构,与其他马尔科夫等价类结构相比,V-结构在因果关系识别问题上更具有鲁棒性和可识别性;可以通过发现事件和故障之间存在的V-结构对事件发生的因果规则进行挖掘。
优选地,基于V-结构的独立性性质,可以使用因果关联兴趣度度量(CausalAssociation Interesting Measure,CAIM)规则的可能性。
实施例3:
本实施例公开了一种基于因果规则的故障定位方法,相应于上述算法的两个阶段,本发明由两个模块顺序组成。第一模块“因果规则挖掘”:设计和构建因果结构图。第二模块“基于因果规则推断”:设计和分析根因的可能性的计算方式,对原因进行评估并推断得到根因。两个层面的工作相互交替,迭代进行,不断完善。这两个模块的具体功能和实施步骤详述如下:
1、因果规则挖掘
输入:事件-故障样本集为
Figure BDA0002422328500000051
其中
Figure BDA0002422328500000052
Figure BDA0002422328500000053
Figure BDA0002422328500000054
分别为样本i中的故障j和事件k是否发生的标志位。
输出:因果结构图(含所有事件对应的故障原因集合R)。
1)令Ij和Ee分别表示发生了故障j和发生了事件e。
2)将导致事件发生的故障原因用因果规则表示为Ij1,Ij2,...,Ijm→Ee
3)对图2所示的典型的因果网络结构进行讨论。由于V-结构它在统计学角度不等同于任何其他包含相同变量的结构,与其他马尔科夫等价类结构相比,V-结构在因果关系识别问题上更具有鲁棒性和可识别性。
4)在第3)的基础上,得出事件和故障之间存在图2(b)的V-结构说明故障变量和共同影响事件变量。
5)通过发现事件和故障之间存在的V-结构对事件发生的因果规则进行挖掘。
6)基于V-结构的独立性性质,使用式1的因果关联兴趣度度量(CausalAssociation Interesting Measure,CAIM)规则的可能性,得到因果结构图(含所有事件对应的故障原因集合R)。
2、基于因果规则推断
输入:所有事件对应的故障原因集合R。
输出:根因C。
1)将某个故障原因集在某段时间内,导致最多事件发生定为根因。
2)根据故障原因集对发生事件集的影响程度,计算出故障原因集是根因的可能性为
Figure BDA0002422328500000055
3)在第2)的基础上,进一步给定根故障原因集I0是根因的概率p(I0)计算方式
Figure BDA0002422328500000056
4)在第3)的基础上,进一步给定事件的根因,
Figure BDA0002422328500000057
通过计算得到根因
Figure BDA0002422328500000058
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (4)

1.一种基于因果规则的故障定位方法,其特征在于,包括因果规则挖掘、以及基于因果规则推断两个阶段;所述因果规则挖掘包括给定候选集、分析故障与事件关系、构建因果结构图三个步骤;所述基于因果规则推断包括分时间窗口分析、统计导致事件最多发生的故障——根因、计算根因的可能性三个步骤;
所述因果规则挖掘包括:
步骤S1:给定候选集:通过数据挖掘、剪枝方法/算法给出合理范围内的候选集;
步骤S2:分析故障与事件关系:通过基于因果关系的根因故障定位算法来分析候选集中产生故障的母事件与子事件之间的关系;
步骤S3:构建因果结构图:根据步骤S2中得到的结论,构建因果结构图,得到基于因果关系的规则,完成因果规则的挖掘;
所述基于因果规则推断包括:
步骤S4:分时间窗口分析:通过时间窗口的方法,对不同情况进行分析;
步骤S5:统计导致事件最多发生的故障——根因:确定系统中每个故障点的根因,并进行统计;
步骤S6:计算根因的可能性:通过可能性分数计算,最终得到各根因的可能性。
2.根据权利要求1所述的基于因果规则的故障定位方法,其特征在于,其根因的可能性的标准描述为:
Figure FDA0002422328490000011
其中,1为指示函数,表示规则集合
Figure FDA0002422328490000012
中是否存在
Figure FDA0002422328490000013
或者样本si是否包含I0和e0;ε0为某段时间内发生的所有事件集合,e0为其中发生的某个事件。
3.根据权利要求2所述的基于因果规则的故障定位方法,其特征在于,进一步给定根故障原因集I0是根因的概率p(I0)的计算方式:
Figure FDA0002422328490000014
4.根据权利要求3所述的基于因果规则的故障定位方法,其特征在于,进一步给定事件的根因的计算方式:
Figure FDA0002422328490000021
并通过计算得到根因
Figure FDA0002422328490000022
CN202010209463.4A 2020-03-23 2020-03-23 一种基于因果规则的故障定位方法 Pending CN111541559A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010209463.4A CN111541559A (zh) 2020-03-23 2020-03-23 一种基于因果规则的故障定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010209463.4A CN111541559A (zh) 2020-03-23 2020-03-23 一种基于因果规则的故障定位方法

Publications (1)

Publication Number Publication Date
CN111541559A true CN111541559A (zh) 2020-08-14

Family

ID=71978700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010209463.4A Pending CN111541559A (zh) 2020-03-23 2020-03-23 一种基于因果规则的故障定位方法

Country Status (1)

Country Link
CN (1) CN111541559A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559237A (zh) * 2021-02-19 2021-03-26 北京必示科技有限公司 运维系统排障方法、装置、服务器和存储介质
CN112927481A (zh) * 2021-01-21 2021-06-08 中广核工程有限公司 一种核电厂的报警过滤方法、系统、介质及电子设备
CN113009314A (zh) * 2021-02-07 2021-06-22 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 一种印制线路板烧板失效的根因分析方法及装置
CN113420917A (zh) * 2021-06-18 2021-09-21 广东工业大学 对业务系统未来故障预测的方法、计算机设备及存储介质
CN113489602A (zh) * 2021-06-18 2021-10-08 广东工业大学 基于数据挖掘的通信故障定位方法及系统
CN114666204A (zh) * 2022-04-22 2022-06-24 广东工业大学 一种基于因果强化学习的故障根因定位方法及系统
CN115118580A (zh) * 2022-05-20 2022-09-27 阿里巴巴(中国)有限公司 告警分析方法以及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761173A (zh) * 2013-12-28 2014-04-30 华中科技大学 一种基于日志的计算机系统故障诊断方法及装置
CN110609759A (zh) * 2018-06-15 2019-12-24 华为技术有限公司 一种故障根因分析的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761173A (zh) * 2013-12-28 2014-04-30 华中科技大学 一种基于日志的计算机系统故障诊断方法及装置
CN110609759A (zh) * 2018-06-15 2019-12-24 华为技术有限公司 一种故障根因分析的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
彦逸 等: ""基于因果规则的电力营销系统故障定位算法"", 《计算机与现代化》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927481A (zh) * 2021-01-21 2021-06-08 中广核工程有限公司 一种核电厂的报警过滤方法、系统、介质及电子设备
CN113009314A (zh) * 2021-02-07 2021-06-22 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 一种印制线路板烧板失效的根因分析方法及装置
CN112559237A (zh) * 2021-02-19 2021-03-26 北京必示科技有限公司 运维系统排障方法、装置、服务器和存储介质
CN113420917A (zh) * 2021-06-18 2021-09-21 广东工业大学 对业务系统未来故障预测的方法、计算机设备及存储介质
CN113489602A (zh) * 2021-06-18 2021-10-08 广东工业大学 基于数据挖掘的通信故障定位方法及系统
CN113420917B (zh) * 2021-06-18 2023-10-27 广东工业大学 对业务系统未来故障预测的方法、计算机设备及存储介质
CN114666204A (zh) * 2022-04-22 2022-06-24 广东工业大学 一种基于因果强化学习的故障根因定位方法及系统
CN114666204B (zh) * 2022-04-22 2024-04-16 广东工业大学 一种基于因果强化学习的故障根因定位方法及系统
CN115118580A (zh) * 2022-05-20 2022-09-27 阿里巴巴(中国)有限公司 告警分析方法以及装置
CN115118580B (zh) * 2022-05-20 2023-10-31 阿里巴巴(中国)有限公司 告警分析方法以及装置

Similar Documents

Publication Publication Date Title
CN111541559A (zh) 一种基于因果规则的故障定位方法
CN110928718B (zh) 一种基于关联分析的异常处理方法、系统、终端及介质
CN112436968B (zh) 一种网络流量的监测方法、装置、设备及存储介质
CN114785666B (zh) 一种网络故障排查方法与系统
CN116450399B (zh) 微服务系统故障诊断及根因定位方法
CN113935497A (zh) 智能运维故障处理方法、装置、设备及其存储介质
CN111193627B (zh) 信息处理方法、装置、设备及存储介质
CN115514627A (zh) 一种故障根因定位方法、装置、电子设备及可读存储介质
JPWO2019116418A1 (ja) 障害分析装置、障害分析方法および障害分析プログラム
CN111949480A (zh) 一种基于组件感知的日志异常检测方法
CN109993391B (zh) 网络运维任务工单的派发方法、装置、设备及介质
CN115185932A (zh) 数据处理方法及装置
CN116841779A (zh) 异常日志检测方法、装置、电子设备和可读存储介质
CN113485878B (zh) 一种多数据中心故障检测方法
CN114257493A (zh) 网络节点的故障预警方法、装置、介质及电子设备
CN113489602A (zh) 基于数据挖掘的通信故障定位方法及系统
CN117909864A (zh) 一种电力故障预测系统及方法
CN117149486A (zh) 告警和根因定位方法、模型训练方法、装置、设备及介质
CN113765698A (zh) 一种面向工业互联网的网络故障定位和根因检测方法及系统
CN112380073A (zh) 一种故障位置的检测方法、装置及可读存储介质
CN115829160B (zh) 一种时序异常预测方法、装置、设备及存储介质
CN113535458B (zh) 异常误报的处理方法及装置、存储介质、终端
CN115774648A (zh) 一种异常定位方法、装置、设备以及存储介质
CN109886292B (zh) 一种基于异常关联图的异常原因诊断方法
US20220050763A1 (en) Detecting regime change in time series data to manage a technology platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200814