CN114666204B - 一种基于因果强化学习的故障根因定位方法及系统 - Google Patents
一种基于因果强化学习的故障根因定位方法及系统 Download PDFInfo
- Publication number
- CN114666204B CN114666204B CN202210429761.3A CN202210429761A CN114666204B CN 114666204 B CN114666204 B CN 114666204B CN 202210429761 A CN202210429761 A CN 202210429761A CN 114666204 B CN114666204 B CN 114666204B
- Authority
- CN
- China
- Prior art keywords
- fault
- causal
- alarm
- model
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001364 causal effect Effects 0.000 title claims abstract description 153
- 230000002787 reinforcement Effects 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000000694 effects Effects 0.000 claims abstract description 21
- 230000003993 interaction Effects 0.000 claims abstract description 9
- 230000009471 action Effects 0.000 claims description 53
- 230000008569 process Effects 0.000 claims description 16
- 238000012512 characterization method Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 238000001514 detection method Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 18
- 238000012423 maintenance Methods 0.000 description 11
- 239000003795 chemical substances by application Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000005457 optimization Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000013024 troubleshooting Methods 0.000 description 4
- 230000004807 localization Effects 0.000 description 3
- 230000009194 climbing Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0695—Management of faults, events, alarms or notifications the faulty arrangement being the maintenance, administration or management system
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
- Y04S10/52—Outage or fault management, e.g. fault detection or location
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于因果强化学习的故障根因定位方法及系统,方法包括以下步骤:S1:获取真实故障场景中故障告警事件数据,作为历史数据;S2:利用历史数据构建故障因果强化学习模型;所述故障因果强化学习模型包括因果结构学习模块、因果图环境模型模块与策略网络模块;S3:通过所述故障因果强化学习模型与故障告警环境交互,学习并更新所述因果图环境模型模块以及所述策略网络模块,生成表征完整的最终告警因果图模型,以及输出最优策略;S4:利用所述最终告警因果图模型追溯故障节点的根因故障及根因告警类型。本发明提高了故障根因定位的检测效率和准确度。
Description
技术领域
本发明涉及故障检测技术领域,更具体地,涉及一种基于因果强化学习的故障根因定位方法及系统。
背景技术
发现事件序列背后的因果关系是包括社会科学、经济、通讯等在内的许多学科所研究的重要问题。在大型的通讯网络无线网络的运维过程中,对于一段时间内出现的告警,高效准确的定位告警根因对及时排除故障,提高运维效率,保障通讯质量有十分重要的意义。而在自动化运维过程中,故障告警事件的传播往往受其内在的因果关系所影响,而且在现实网络中,不同节点的事件序列会通过拓扑结构相互影响,不同事件类型之间的因果机制或因果强度也会受到底层拓扑结构的影响。所以根因定位的关键就是根据告警记录构成的事件序列,发现告警类型之间的因果关系。
强化学习是机器学习中的一个领域,其基本思想是通过让智能体与环境不停交互,根据环境返回的奖励来指导智能体决策,以试错的方式进行学习,目标是使智能体获得最大的奖励。强化学习的学习过程与人类的学习过程很接近。与监督学习不同的是,强化学习不需要带标签的输入输出对,同时也无需对非最优解精确地纠正。其关注点在于寻找探索(对未知领域的)和利用(对已有知识的)的平衡。
因果强化学习融合因果推理与强化学习。因果推理探索变量之间更本质的关系,其中心任务是揭示不同变量之间的因果关系。在因果推理中实施干预概念的一个自然想法是利用强化学习中的动作概念。更具体地说,智能体可以根据其当前状态,通过采取不同的行动(干预)来观察环境状态的变化,并获得即时的回报(结果)。因果推理通过推断状态之间或状态与动作之间的因果关系,如减少状态或动作空间,消除混淆因子的影响,进而帮助强化学习更高效、更有效地学习价值函数或优化策略。因果强化学习为强化学习引入因果推理,增加了认识环境的过程,可以使得智能体像人一样感知环境的先验知识,从而更好地做出决策。
现有技术公开了一种基于强化学习和知识图谱的故障溯因方法,包括:(1)构建样本实例,编码样本实例,得到包含设备的节点表示、告警信息表示的样本实例表示,根据根因对编码得到根因关系表示;(2)基于强化学习构建策略网络,用于根据环境状态信息确定下一时刻的动作决策;(3)根据设定的时间步长阈值内动作决策结果构建奖励值,利用依据奖励值构建的损失函数更新策略网络参数、节点表示、告警信息表示、根因关系表示;(4)应用时,将实例表示作为策略网络的输入,利用策略网络获得接下来每个时刻里连接的设备节点,依据连接的每个设备节点追溯得到故障设备节点对应的根因设备节点。可以从故障节点开始溯因,通过因果链找到根因节点。该方案虽然基于强化学习但其是结合知识图谱进行故障溯源,没有针对不同事件类型之间的因果机制或因果强度。
发明内容
本发明为克服上述现有的故障定位方法效率低、准确率低的缺陷,提供一种基于因果强化学习的故障根因定位方法及系统。
本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
本发明第一方面提供了一种基于因果强化学习的故障根因定位方法,包括以下步骤:
S1:获取真实故障场景中故障告警事件数据,作为历史数据;
S2:利用历史数据构建故障因果强化学习模型;所述故障因果强化学习模型包括因果结构学习模块、因果图环境模型模块与策略网络模块;
S3:通过所述故障因果强化学习模型与故障告警环境交互,学习并更新所述因果图环境模型模块以及所述策略网络模块,生成表征完整的最终告警因果图模型,以及输出最优策略;
S4:利用所述最终告警因果图模型追溯故障节点的根因故障及根因告警类型。
进一步的,所述因果结构学习模块用于学习故障告警类型之间的高维因果网络,具体为:利用因果关系发现的方法从所述历史数据中学习得到初步告警因果图模型,所述初步告警因果图模型与故障告警环境交互,学习并更新所述因果图环境模型模块以及所述策略网络模块,生成表征完整的最终告警因果图模型。
进一步的,所述因果图环境模型模块,结合所述因果结构学习模块学出的初步告警因果图模型,利用影响力最大化模型算法寻找可能的根因子集,结合节点拓扑网络进一步缩小动作空间,得到候选动作子集。
进一步的,所述策略网络模块根据故障告警环境的当前告警状态信息,结合所述候选动作子集,缩小动作空间,选取所述候选子集中概率最大的动作。
进一步的,所述的告警状态信息具体为根据当前所有故障节点的告警特征向量所构造的告警特征矩阵。
进一步的,所述动作决策具体为干预具体故障节点并解除当前告警事件。
进一步的,所述策略网络模块与所述故障告警环境交互过程中,所述策略网络模块实施动作后,所述故障告警环境会根据当前状态信息与动作反馈奖励值,同时转移至下一时刻的状态并返回状态信息至所述策略网络模块。
进一步的,所述奖励值具体表达式为:
r=w1r1+w2r2
r1=Nt-Nt+1
其中,r为总奖励值,r1为环境在干预前后所观察到的告警数差值,r2为策略网络模块根据反事实模型估计的告警数与真实环境观察到的干预后告警数差值,Nt表示在t时刻时,干预前的环境产生的告警事件数,Nt+1表示在下一时刻时,干预后的环境产生的告警事件数,表示在下一时刻时,策略网络模块在反事实条件下估计环境所产生的告警事件数,w1,w2为权重参数。
进一步的,利用因果关系发现的方法为THP算法。
本发明第二方面提供了一种基于因果强化学习的故障根因定位系统,该系统包括:存储器、处理器,所述存储器中包括一种基于因果强化学习的故障根因定位方法程序,所述一种基于因果强化学习的故障根因定位方法程序被所述处理器执行时实现如下步骤:
S1:获取真实故障场景中故障告警事件数据,作为历史数据;
S2:利用历史数据构建故障因果强化学习模型;所述故障因果强化学习模型包括因果结构学习模块、因果图环境模型模块与策略网络模块;
S3:通过所述故障因果强化学习模型与故障告警环境交互,学习并更新所述因果图环境模型模块以及所述策略网络模块,生成表征完整的最终告警因果图模型,以及输出最优策略;
S4:利用所述最终告警因果图模型追溯故障节点的根因故障及根因告警类型。
与现有技术相比,本发明技术方案的有益效果是:
本发明通过因果结构学习模块学习得到初步告警因果图模型,通过与故障告警环境交互,学习与更新因果图环境模型模块以及所述策略网络模块得到最终的告警因果图模型,本发明在模型时中加入了告警事件之间本质的因果关系,结合强化学习算法模拟真实运维交互过程提升了故障根因定位的速度和准确性。
附图说明
图1为本发明一种基于因果强化学习的故障根因定位方法流程图。
图2为本发明一种基于因果强化学习的故障根因定位系统框图。
图3为本发明实施例提供的通讯网络故障告警传播示意图。
图4为本发明实施例提供的通讯网络故障告警因果结构图。
图5为本发明实施例提供的通讯网络网元设备拓扑结构图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
实施例1
如图1所示,一种基于因果强化学习的故障根因定位方法,包括以下步骤:
S1:获取真实故障场景中故障告警事件数据,作为历史数据;
S2:利用历史数据构建故障因果强化学习模型;所述故障因果强化学习模型包括因果结构学习模块、因果图环境模型模块与策略网络模块;
需要说明的是,所述因果结构学习模块用于学习故障告警类型之间的高维因果网络,具体为:利用因果关系发现的方法从所述历史数据中学习得到初步告警因果图模型,所述初步告警因果图模型与故障告警环境交互,学习并更新所述因果图环境模型模块以及所述策略网络模块,生成表征完整的最终告警因果图模型。
例如,在面向通讯网络的运维场景中,网元设备也就是基站拓扑连接构成通讯网络。在通讯网络中,设备可能发生会发生故障,且故障会被记录成告警日志。由告警日志可以得到历史告警事件数据。受设备拓扑结构以及告警类型存在因果结构影响,故障告警不仅会导致自身站点发生其它具有因果关系的告警,而且会在网络设备节点周围扩散。
如图3给出的通讯网络故障告警传播图,根据图4给出的通讯网络故障告警因果结构图,其中因果结构GV,有三种类型的告警v1,v2,v3在图5的通讯网络网元设备拓扑结构图中的GN传播。在这种情况下,拓扑结构接近的告警事件序列是高度依赖的。更具体地说,如图3,其因果关系不仅存在单一网元设备节点内,如v1对n1中的v2,也会存在于不同节点之间,如n2中的v1激发了n3中的v2,v3。针对这种含有拓扑信息的因果结构学习场景,采用THP算法进行学习具有较好的效果。
所述THP算法将霍克斯过程从时域推广到时空域,提出了针对时空事件序列的拓扑霍克斯过程,并提出使用EM算法和爬山法作为结构优化方法。THP算法有效地建模事件背后的拓扑约束,而且还提供了一种将先验信息纳入因果发现过程的方法,可以有效地学出事件序列背后的因果结构。
S3:通过所述故障因果强化学习模型与故障告警环境交互,学习并更新所述因果图环境模型模块以及所述策略网络模块,生成表征完整的最终告警因果图模型,以及输出最优策略;
所述因果图环境模型模块,结合所述因果结构学习模块学出的初步告警因果图模型,利用影响力最大化模型算法寻找可能的根因子集,结合节点拓扑网络进一步缩小动作空间,得到候选动作子集,进而缩小动作空间,提升算法效率。
所述影响力最大化模型算法旨在从网络中识别个节点,使得通过这个节点产生的影响传播范围最大。在故障定位的场景中,对故障传播影响最大的节点更有可能被认为是根因。CELF(Cost-Effective Lazy Forward)算法利用影响力传播模型中的子模特性对简单贪心算法进行了改进。其思想是当前迭代中节点的边际增益不能超过之前迭代的边际增益,从而可以显著减少传播估计的数量。而我们使用的基于上界优化的影响力最大化模型算法,在CELF的基础上,初始化步骤中,使用计算的影响上界来进一步减少传播估计的次数。如果一个节点的影响增益均大于其他节点的影响增益上界,那么该节点就是下一个种子节点,而无需重新计算其他节点的影响增益。通过这样做,所有节点将按照其上限分数进行排名,最后可以输出一个影响力最大化集合,即可能的告警根因子集。
所述策略网络模块根据故障告警环境的当前告警状态信息,结合所述候选动作子集,缩小动作空间,选取所述候选子集中概率最大的动作,确定为策略网络模块下一时刻的动作决策。所述的告警状态信息具体为根据当前所有故障节点的告警特征向量所构造的告警特征矩阵。所述动作决策具体为干预具体故障节点并解除当前告警事件。
策略网络模块输出动作决策后,再根据施加动作后环境所反馈的奖励来更新策略网络参数,所述奖励值,具体定义为:
r=w1r1+w2r2
r1=Nt-Nt+1
其中,r为总奖励值。r1为环境在干预前后所观察到的告警数差值。r2为策略网络模块(智能体)根据反事实模型估计的告警数与真实环境观察到的干预后告警数差值。Nt表示在t时刻时,干预前的环境产生的告警事件数。Nt+1表示在下一时刻时,干预后的环境产生的告警事件数。表示在下一时刻时,策略网络模块在反事实条件下估计环境所产生的告警事件数。w1,w2为权重参数。反事实模型指的是策略网络模块(智能体)根据告警因果图,借助反事实推理,生成反事实数据。反事实数据即如果不采取干预动作系统告警环境生成的告警事件数据。
需要说明的是,构建好奖励后,可进一步构造强化学习算法的损失函数。此处的强化学习算法可采用Soft Actor Critic、Policy Gradient等深度强化学习算法。
S4:利用所述最终告警因果图模型追溯故障节点的根因故障及根因告警类型。
在应用时,当策略网络模块(智能体)返回的奖励逐渐增加并趋于稳定时,可认为告警因果图已学习完整,因果图的根节点可认为故障设备节点对应的根因设备节点。
该基于因果强化的设备故障根因定位方法,强化学习的决策过程与真实运维工程师排查故障过程相似,该方法最终给出的根因故障及最优策略可用于现实场景辅助运维工程师排查故障,大大提升运维效率。
实施例2
如图2所示,本发明第二方面提供了一种基于因果强化学习的故障根因定位系统,该系统包括:存储器、处理器,所述存储器中包括一种基于因果强化学习的故障根因定位方法程序,所述一种基于因果强化学习的故障根因定位方法程序被所述处理器执行时实现如下步骤:
S1:获取真实故障场景中故障告警事件数据,作为历史数据;
S2:利用历史数据构建故障因果强化学习模型;所述故障因果强化学习模型包括因果结构学习模块、因果图环境模型模块与策略网络模块;
需要说明的是,所述因果结构学习模块用于学习故障告警类型之间的高维因果网络,具体为:利用因果关系发现的方法从所述历史数据中学习得到初步告警因果图模型,所述初步告警因果图模型与故障告警环境交互,学习并更新所述因果图环境模型模块以及所述策略网络模块,生成表征完整的最终告警因果图模型。
例如,在面向通讯网络的运维场景中,网元设备也就是基站拓扑连接构成通讯网络。在通讯网络中,设备可能发生会发生故障,且故障会被记录成告警日志。由告警日志可以得到历史告警事件数据。受设备拓扑结构以及告警类型存在因果结构影响,故障告警不仅会导致自身站点发生其它具有因果关系的告警,而且会在网络设备节点周围扩散。
如图3给出的通讯网络故障告警传播图,根据图4给出的通讯网络故障告警因果结构图,其中因果结构GV,有三种类型的告警v1,v2,v3在图5的通讯网络网元设备拓扑结构图中的GN传播。在这种情况下,拓扑结构接近的告警事件序列是高度依赖的。更具体地说,如图2,其因果关系不仅存在单一网元设备节点内,如v1对n1中的v2,也会存在于不同节点之间,如n2中的v1激发了n3中的v2,v3。针对这种含有拓扑信息的因果结构学习场景,采用THP算法进行学习具有较好的效果。
所述THP算法将霍克斯过程从时域推广到时空域,提出了针对时空事件序列的拓扑霍克斯过程,并提出使用EM算法和爬山法作为结构优化方法。THP算法有效地建模事件背后的拓扑约束,而且还提供了一种将先验信息纳入因果发现过程的方法,可以有效地学出事件序列背后的因果结构。
S3:通过所述故障因果强化学习模型与故障告警环境交互,学习并更新所述因果图环境模型模块以及所述策略网络模块,生成表征完整的最终告警因果图模型,以及输出最优策略;
所述因果图环境模型模块,结合所述因果结构学习模块学出的初步告警因果图模型,利用影响力最大化模型算法寻找可能的根因子集,结合节点拓扑网络进一步缩小动作空间,得到候选动作子集,进而缩小动作空间,提升算法效率。
所述影响力最大化模型算法旨在从网络中识别个节点,使得通过这个节点产生的影响传播范围最大。在故障定位的场景中,对故障传播影响最大的节点更有可能被认为是根因。CELF(Cost-Effective Lazy Forward)算法利用影响力传播模型中的子模特性对简单贪心算法进行了改进。其思想是当前迭代中节点的边际增益不能超过之前迭代的边际增益,从而可以显著减少传播估计的数量。而我们使用的基于上界优化的影响力最大化模型算法,在CELF的基础上,初始化步骤中,使用计算的影响上界来进一步减少传播估计的次数。如果一个节点的影响增益均大于其他节点的影响增益上界,那么该节点就是下一个种子节点,而无需重新计算其他节点的影响增益。通过这样做,所有节点将按照其上限分数进行排名,最后可以输出一个影响力最大化集合,即可能的告警根因子集。
所述策略网络模块根据故障告警环境的当前告警状态信息,结合所述候选动作子集,缩小动作空间,选取所述候选子集中概率最大的动作,确定为策略网络模块下一时刻的动作决策。所述的告警状态信息具体为根据当前所有故障节点的告警特征向量所构造的告警特征矩阵。所述动作决策具体为干预具体故障节点并解除当前告警事件。
策略网络模块输出动作决策后,再根据施加动作后环境所反馈的奖励来更新策略网络参数,所述奖励值,具体定义为:
r=w1r1+w2r2
r1=Nt-Nt+1
其中,r为总奖励值。r1为环境在干预前后所观察到的告警数差值。r2为策略网络模块(智能体)根据反事实模型估计的告警数与真实环境观察到的干预后告警数差值。Nt表示在t时刻时,干预前的环境产生的告警事件数。Nt+1表示在下一时刻时,干预后的环境产生的告警事件数。表示在下一时刻时,策略网络模块在反事实条件下估计环境所产生的告警事件数。w1,w2为权重参数。反事实模型指的是策略网络模块(智能体)根据告警因果图,借助反事实推理,生成反事实数据。反事实数据即如果不采取干预动作系统告警环境生成的告警事件数据。
需要说明的是,构建好奖励后,可进一步构造强化学习算法的损失函数。此处的强化学习算法可采用Soft Actor Critic、Policy Gradient等深度强化学习算法。
S4:利用所述最终告警因果图模型追溯故障节点的根因故障及根因告警类型。
在应用时,当策略网络模块(智能体)返回的奖励逐渐增加并趋于稳定时,可认为告警因果图已学习完整,因果图的根节点可认为故障设备节点对应的根因设备节点。
该基于因果强化的设备故障根因定位方法,强化学习的决策过程与真实运维工程师排查故障过程相似,该方法最终给出的根因故障及最优策略可用于现实场景辅助运维工程师排查故障,大大提升运维效率。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (8)
1.一种基于因果强化学习的故障根因定位方法,其特征在于,包括以下步骤:
S1:获取真实故障场景中故障告警事件数据,作为历史数据;
S2:利用历史数据构建故障因果强化学习模型;所述故障因果强化学习模型包括因果结构学习模块、因果图环境模型模块与策略网络模块;
所述因果图环境模型模块,结合所述因果结构学习模块学出的初步告警因果图模型,利用影响力最大化模型算法寻找可能的根因子集,结合节点拓扑网络进一步缩小动作空间,得到候选动作子集;
所述策略网络模块根据故障告警环境的当前告警状态信息,结合所述候选动作子集,缩小动作空间,选取所述候选动作子集中概率最大的动作,确定为策略网络模块下一时刻的动作决策;
S3:通过所述故障因果强化学习模型与故障告警环境交互,学习并更新所述因果图环境模型模块以及所述策略网络模块,生成表征完整的最终告警因果图模型,以及输出最优策略;
S4:利用所述最终告警因果图模型追溯故障节点的根因故障及根因告警类型。
2.根据权利要求1所述的一种基于因果强化学习的故障根因定位方法,其特征在于,所述因果结构学习模块用于学习故障告警类型之间的高维因果网络,具体为:利用因果关系发现的方法从所述历史数据中学习得到初步告警因果图模型,所述初步告警因果图模型与故障告警环境交互,学习并更新所述因果图环境模型模块以及所述策略网络模块,生成表征完整的最终告警因果图模型。
3.根据权利要求1所述的一种基于因果强化学习的故障根因定位方法,其特征在于,所述的告警状态信息具体为根据当前所有故障节点的告警特征向量所构造的告警特征矩阵。
4.根据权利要求1所述的一种基于因果强化学习的故障根因定位方法,其特征在于,动作决策具体为干预具体故障节点并解除当前告警事件。
5.根据权利要求1所述的一种基于因果强化学习的故障根因定位方法,其特征在于,所述策略网络模块与所述故障告警环境交互过程中,所述策略网络模块实施动作后,所述故障告警环境会根据当前状态信息与动作反馈奖励值,同时转移至下一时刻的状态并返回状态信息至所述策略网络模块。
6.根据权利要求5所述的一种基于因果强化学习的故障根因定位方法,其特征在于,奖励值具体表达式为:
r=w1r1+w2r2
r1=Nt-Nt+1
其中,r为总奖励值,r1为环境在干预前后所观察到的告警数差值,r2为策略网络模块根据反事实模型估计的告警数与真实环境观察到的干预后告警数差值,Nt表示在t时刻时,干预前的环境产生的告警事件数,Nt+1表示在下一时刻时,干预后的环境产生的告警事件数,表示在下一时刻时,策略网络模块在反事实条件下估计环境所产生的告警事件数,w1,w2为权重参数。
7.根据权利要求2所述的一种基于因果强化学习的故障根因定位方法,其特征在于,利用因果关系发现的方法为THP算法。
8.一种基于因果强化学习的故障根因定位系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括一种基于因果强化学习的故障根因定位方法程序,所述一种基于因果强化学习的故障根因定位方法程序被所述处理器执行时实现如下步骤:
S1:获取真实故障场景中故障告警事件数据,作为历史数据;
S2:利用历史数据构建故障因果强化学习模型;所述故障因果强化学习模型包括因果结构学习模块、因果图环境模型模块与策略网络模块;
所述因果图环境模型模块,结合所述因果结构学习模块学出的初步告警因果图模型,利用影响力最大化模型算法寻找可能的根因子集,结合节点拓扑网络进一步缩小动作空间,得到候选动作子集;
所述策略网络模块根据故障告警环境的当前告警状态信息,结合所述候选动作子集,缩小动作空间,选取所述候选动作子集中概率最大的动作,确定为策略网络模块下一时刻的动作决策;
S3:通过所述故障因果强化学习模型与故障告警环境交互,学习并更新所述因果图环境模型模块以及所述策略网络模块,生成表征完整的最终告警因果图模型,以及输出最优策略;
S4:利用所述最终告警因果图模型追溯故障节点的根因故障及根因告警类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210429761.3A CN114666204B (zh) | 2022-04-22 | 2022-04-22 | 一种基于因果强化学习的故障根因定位方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210429761.3A CN114666204B (zh) | 2022-04-22 | 2022-04-22 | 一种基于因果强化学习的故障根因定位方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114666204A CN114666204A (zh) | 2022-06-24 |
CN114666204B true CN114666204B (zh) | 2024-04-16 |
Family
ID=82038269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210429761.3A Active CN114666204B (zh) | 2022-04-22 | 2022-04-22 | 一种基于因果强化学习的故障根因定位方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114666204B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115396289B (zh) * | 2022-08-31 | 2024-03-22 | 广东电网有限责任公司 | 一种故障告警确定方法、装置、电子设备及存储介质 |
CN116151485B (zh) * | 2023-04-18 | 2023-07-25 | 中国传媒大学 | 反事实预测和效果评估方法、系统 |
CN116450399B (zh) * | 2023-06-13 | 2023-08-22 | 西华大学 | 微服务系统故障诊断及根因定位方法 |
CN117493068B (zh) * | 2024-01-03 | 2024-03-26 | 安徽思高智能科技有限公司 | 一种微服务系统根因定位方法、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110471297A (zh) * | 2019-07-30 | 2019-11-19 | 清华大学 | 多智能体协同控制方法、系统及设备 |
CN111541559A (zh) * | 2020-03-23 | 2020-08-14 | 广东工业大学 | 一种基于因果规则的故障定位方法 |
CN112149359A (zh) * | 2020-10-09 | 2020-12-29 | 中国人民解放军国防科技大学 | 信任域引导裁剪的策略优化方法、系统、存储介质及应用 |
CN112217674A (zh) * | 2020-10-12 | 2021-01-12 | 西安交通大学 | 基于因果网络挖掘和图注意力网络的告警根因识别方法 |
CN112819253A (zh) * | 2021-03-02 | 2021-05-18 | 华东师范大学 | 一种无人机避障和路径规划装置及方法 |
CN113676371A (zh) * | 2021-07-27 | 2021-11-19 | 南京邮电大学 | 一种基于深度q学习的网络故障检测与诊断方法 |
CN113901126A (zh) * | 2021-09-18 | 2022-01-07 | 中兴通讯股份有限公司 | 告警因果关系挖掘方法、告警因果挖掘装置及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11811588B2 (en) * | 2020-04-22 | 2023-11-07 | Samsung Electronics Co., Ltd. | Configuration management and analytics in cellular networks |
-
2022
- 2022-04-22 CN CN202210429761.3A patent/CN114666204B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110471297A (zh) * | 2019-07-30 | 2019-11-19 | 清华大学 | 多智能体协同控制方法、系统及设备 |
CN111541559A (zh) * | 2020-03-23 | 2020-08-14 | 广东工业大学 | 一种基于因果规则的故障定位方法 |
CN112149359A (zh) * | 2020-10-09 | 2020-12-29 | 中国人民解放军国防科技大学 | 信任域引导裁剪的策略优化方法、系统、存储介质及应用 |
CN112217674A (zh) * | 2020-10-12 | 2021-01-12 | 西安交通大学 | 基于因果网络挖掘和图注意力网络的告警根因识别方法 |
CN112819253A (zh) * | 2021-03-02 | 2021-05-18 | 华东师范大学 | 一种无人机避障和路径规划装置及方法 |
CN113676371A (zh) * | 2021-07-27 | 2021-11-19 | 南京邮电大学 | 一种基于深度q学习的网络故障检测与诊断方法 |
CN113901126A (zh) * | 2021-09-18 | 2022-01-07 | 中兴通讯股份有限公司 | 告警因果关系挖掘方法、告警因果挖掘装置及存储介质 |
Non-Patent Citations (4)
Title |
---|
基于典型因果推断算法的无线网络性能优化;郝志峰;陈薇;蔡瑞初;黄瑞慧;温雯;王丽娟;;计算机应用(第08期);全文 * |
熊超 ; 陈云芳 ; 仓基云 ; .网络演化中基于事件的节点影响力分析.计算机科学.2016,(第S1期),全文. * |
网络演化中基于事件的节点影响力分析;熊超;陈云芳;仓基云;;计算机科学(第S1期);全文 * |
郝志峰 ; 陈薇 ; 蔡瑞初 ; 黄瑞慧 ; 温雯 ; 王丽娟 ; .基于典型因果推断算法的无线网络性能优化.计算机应用.2016,(第08期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN114666204A (zh) | 2022-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114666204B (zh) | 一种基于因果强化学习的故障根因定位方法及系统 | |
Bennacer et al. | Self-diagnosis technique for virtual private networks combining Bayesian networks and case-based reasoning | |
Monsef et al. | Fuzzy rule-based expert system for power system fault diagnosis | |
CN113901126A (zh) | 告警因果关系挖掘方法、告警因果挖掘装置及存储介质 | |
Rkhami et al. | Learn to improve: A novel deep reinforcement learning approach for beyond 5G network slicing | |
CN115396366B (zh) | 基于图注意力网络的分布式智能路由方法 | |
WO2022028926A1 (en) | Offline simulation-to-reality transfer for reinforcement learning | |
KR20240061646A (ko) | 네트워크 관리 방법 및 그 시스템, 저장 매체 | |
Stamatakis et al. | Autonomous maintenance in IoT networks via aoi-driven deep reinforcement learning | |
CN111935005B (zh) | 数据传输方法、装置、处理设备及介质 | |
CN109977998B (zh) | 信息处理方法及装置、存储介质和电子装置 | |
CN115022231B (zh) | 一种基于深度强化学习的最优路径规划的方法和系统 | |
CN115150335B (zh) | 一种基于深度强化学习的最优流量分割的方法和系统 | |
CN116582330A (zh) | 一种面向部分未知安全状态的工控网络自动防御决策方法 | |
KR20230100683A (ko) | 준마코프 사후상태 액터-크리틱을 활용한 전력망 자동 운영 방법 | |
CN115759199A (zh) | 基于层次化图神经网络的多机器人环境探索方法及系统 | |
Baras et al. | Integrated, distributed fault management for communication networks | |
CN115470025A (zh) | 分布式云场景下智能根因分析方法及装置、介质、设备 | |
KR20080087571A (ko) | 상황 예측 시스템 및 그 방법 | |
Flores et al. | Abductive inference in Bayesian networks: finding a partition of the explanation space | |
CN116132350A (zh) | 一种路径选择方法、装置及存储介质 | |
CN113419496A (zh) | 一种基于大数据统计的防水材料生产智能管理管控方法及系统 | |
Li et al. | A framework for supporting intelligent fault and performance management for communication networks | |
Facchini et al. | Identifying relevant cross-layer interactions in cognitive processes | |
Cotae et al. | Work-in-Progress: A Hybrid Collaborative Multi Agent Decision Making Algorithm with Factored-Value Max-Plus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |