CN114666204B

CN114666204B - 一种基于因果强化学习的故障根因定位方法及系统

Info

Publication number: CN114666204B
Application number: CN202210429761.3A
Authority: CN
Inventors: 蔡瑞初; 黄思扬; 陈薇; 朱文辉; 郝志峰
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2024-04-16
Anticipated expiration: 2042-04-22
Also published as: CN114666204A

Abstract

本发明公开了一种基于因果强化学习的故障根因定位方法及系统，方法包括以下步骤：S1：获取真实故障场景中故障告警事件数据，作为历史数据；S2：利用历史数据构建故障因果强化学习模型；所述故障因果强化学习模型包括因果结构学习模块、因果图环境模型模块与策略网络模块；S3：通过所述故障因果强化学习模型与故障告警环境交互，学习并更新所述因果图环境模型模块以及所述策略网络模块，生成表征完整的最终告警因果图模型，以及输出最优策略；S4：利用所述最终告警因果图模型追溯故障节点的根因故障及根因告警类型。本发明提高了故障根因定位的检测效率和准确度。

Description

一种基于因果强化学习的故障根因定位方法及系统

技术领域

本发明涉及故障检测技术领域，更具体地，涉及一种基于因果强化学习的故障根因定位方法及系统。

背景技术

发现事件序列背后的因果关系是包括社会科学、经济、通讯等在内的许多学科所研究的重要问题。在大型的通讯网络无线网络的运维过程中，对于一段时间内出现的告警，高效准确的定位告警根因对及时排除故障，提高运维效率，保障通讯质量有十分重要的意义。而在自动化运维过程中，故障告警事件的传播往往受其内在的因果关系所影响，而且在现实网络中，不同节点的事件序列会通过拓扑结构相互影响，不同事件类型之间的因果机制或因果强度也会受到底层拓扑结构的影响。所以根因定位的关键就是根据告警记录构成的事件序列，发现告警类型之间的因果关系。

强化学习是机器学习中的一个领域，其基本思想是通过让智能体与环境不停交互，根据环境返回的奖励来指导智能体决策，以试错的方式进行学习，目标是使智能体获得最大的奖励。强化学习的学习过程与人类的学习过程很接近。与监督学习不同的是，强化学习不需要带标签的输入输出对，同时也无需对非最优解精确地纠正。其关注点在于寻找探索(对未知领域的)和利用(对已有知识的)的平衡。

因果强化学习融合因果推理与强化学习。因果推理探索变量之间更本质的关系，其中心任务是揭示不同变量之间的因果关系。在因果推理中实施干预概念的一个自然想法是利用强化学习中的动作概念。更具体地说，智能体可以根据其当前状态，通过采取不同的行动(干预)来观察环境状态的变化，并获得即时的回报(结果)。因果推理通过推断状态之间或状态与动作之间的因果关系，如减少状态或动作空间，消除混淆因子的影响，进而帮助强化学习更高效、更有效地学习价值函数或优化策略。因果强化学习为强化学习引入因果推理，增加了认识环境的过程，可以使得智能体像人一样感知环境的先验知识，从而更好地做出决策。

现有技术公开了一种基于强化学习和知识图谱的故障溯因方法，包括：(1)构建样本实例，编码样本实例，得到包含设备的节点表示、告警信息表示的样本实例表示，根据根因对编码得到根因关系表示；(2)基于强化学习构建策略网络，用于根据环境状态信息确定下一时刻的动作决策；(3)根据设定的时间步长阈值内动作决策结果构建奖励值，利用依据奖励值构建的损失函数更新策略网络参数、节点表示、告警信息表示、根因关系表示；(4)应用时，将实例表示作为策略网络的输入，利用策略网络获得接下来每个时刻里连接的设备节点，依据连接的每个设备节点追溯得到故障设备节点对应的根因设备节点。可以从故障节点开始溯因，通过因果链找到根因节点。该方案虽然基于强化学习但其是结合知识图谱进行故障溯源，没有针对不同事件类型之间的因果机制或因果强度。

发明内容

本发明为克服上述现有的故障定位方法效率低、准确率低的缺陷，提供一种基于因果强化学习的故障根因定位方法及系统。

本发明的首要目的是为解决上述技术问题，本发明的技术方案如下：

本发明第一方面提供了一种基于因果强化学习的故障根因定位方法，包括以下步骤：

S1：获取真实故障场景中故障告警事件数据，作为历史数据；

S2：利用历史数据构建故障因果强化学习模型；所述故障因果强化学习模型包括因果结构学习模块、因果图环境模型模块与策略网络模块；

S3：通过所述故障因果强化学习模型与故障告警环境交互，学习并更新所述因果图环境模型模块以及所述策略网络模块，生成表征完整的最终告警因果图模型，以及输出最优策略；

S4：利用所述最终告警因果图模型追溯故障节点的根因故障及根因告警类型。

进一步的，所述因果结构学习模块用于学习故障告警类型之间的高维因果网络，具体为：利用因果关系发现的方法从所述历史数据中学习得到初步告警因果图模型，所述初步告警因果图模型与故障告警环境交互，学习并更新所述因果图环境模型模块以及所述策略网络模块，生成表征完整的最终告警因果图模型。

进一步的，所述因果图环境模型模块，结合所述因果结构学习模块学出的初步告警因果图模型，利用影响力最大化模型算法寻找可能的根因子集，结合节点拓扑网络进一步缩小动作空间，得到候选动作子集。

进一步的，所述策略网络模块根据故障告警环境的当前告警状态信息，结合所述候选动作子集，缩小动作空间，选取所述候选子集中概率最大的动作。

进一步的，所述的告警状态信息具体为根据当前所有故障节点的告警特征向量所构造的告警特征矩阵。

进一步的，所述动作决策具体为干预具体故障节点并解除当前告警事件。

进一步的，所述策略网络模块与所述故障告警环境交互过程中，所述策略网络模块实施动作后，所述故障告警环境会根据当前状态信息与动作反馈奖励值，同时转移至下一时刻的状态并返回状态信息至所述策略网络模块。

进一步的，所述奖励值具体表达式为：

r＝w₁r₁+w₂r₂

r₁＝N_t-N_t+1

其中，r为总奖励值，r₁为环境在干预前后所观察到的告警数差值，r₂为策略网络模块根据反事实模型估计的告警数与真实环境观察到的干预后告警数差值，N_t表示在t时刻时，干预前的环境产生的告警事件数，N_t+1表示在下一时刻时，干预后的环境产生的告警事件数，表示在下一时刻时，策略网络模块在反事实条件下估计环境所产生的告警事件数，w₁,w₂为权重参数。

进一步的，利用因果关系发现的方法为THP算法。

本发明第二方面提供了一种基于因果强化学习的故障根因定位系统，该系统包括：存储器、处理器，所述存储器中包括一种基于因果强化学习的故障根因定位方法程序，所述一种基于因果强化学习的故障根因定位方法程序被所述处理器执行时实现如下步骤：

与现有技术相比，本发明技术方案的有益效果是：

本发明通过因果结构学习模块学习得到初步告警因果图模型，通过与故障告警环境交互，学习与更新因果图环境模型模块以及所述策略网络模块得到最终的告警因果图模型，本发明在模型时中加入了告警事件之间本质的因果关系，结合强化学习算法模拟真实运维交互过程提升了故障根因定位的速度和准确性。

附图说明

图1为本发明一种基于因果强化学习的故障根因定位方法流程图。

图2为本发明一种基于因果强化学习的故障根因定位系统框图。

图3为本发明实施例提供的通讯网络故障告警传播示意图。

图4为本发明实施例提供的通讯网络故障告警因果结构图。

图5为本发明实施例提供的通讯网络网元设备拓扑结构图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例1

如图1所示，一种基于因果强化学习的故障根因定位方法，包括以下步骤：

需要说明的是，所述因果结构学习模块用于学习故障告警类型之间的高维因果网络，具体为：利用因果关系发现的方法从所述历史数据中学习得到初步告警因果图模型，所述初步告警因果图模型与故障告警环境交互，学习并更新所述因果图环境模型模块以及所述策略网络模块，生成表征完整的最终告警因果图模型。

例如，在面向通讯网络的运维场景中，网元设备也就是基站拓扑连接构成通讯网络。在通讯网络中，设备可能发生会发生故障，且故障会被记录成告警日志。由告警日志可以得到历史告警事件数据。受设备拓扑结构以及告警类型存在因果结构影响，故障告警不仅会导致自身站点发生其它具有因果关系的告警，而且会在网络设备节点周围扩散。

如图3给出的通讯网络故障告警传播图，根据图4给出的通讯网络故障告警因果结构图，其中因果结构G_V，有三种类型的告警v₁,v₂,v₃在图5的通讯网络网元设备拓扑结构图中的G_N传播。在这种情况下，拓扑结构接近的告警事件序列是高度依赖的。更具体地说，如图3，其因果关系不仅存在单一网元设备节点内，如v₁对n₁中的v₂，也会存在于不同节点之间，如n₂中的v₁激发了n₃中的v₂,v₃。针对这种含有拓扑信息的因果结构学习场景，采用THP算法进行学习具有较好的效果。

所述THP算法将霍克斯过程从时域推广到时空域，提出了针对时空事件序列的拓扑霍克斯过程，并提出使用EM算法和爬山法作为结构优化方法。THP算法有效地建模事件背后的拓扑约束，而且还提供了一种将先验信息纳入因果发现过程的方法，可以有效地学出事件序列背后的因果结构。

所述因果图环境模型模块，结合所述因果结构学习模块学出的初步告警因果图模型，利用影响力最大化模型算法寻找可能的根因子集，结合节点拓扑网络进一步缩小动作空间，得到候选动作子集，进而缩小动作空间，提升算法效率。

所述影响力最大化模型算法旨在从网络中识别个节点，使得通过这个节点产生的影响传播范围最大。在故障定位的场景中，对故障传播影响最大的节点更有可能被认为是根因。CELF(Cost-Effective Lazy Forward)算法利用影响力传播模型中的子模特性对简单贪心算法进行了改进。其思想是当前迭代中节点的边际增益不能超过之前迭代的边际增益，从而可以显著减少传播估计的数量。而我们使用的基于上界优化的影响力最大化模型算法，在CELF的基础上，初始化步骤中，使用计算的影响上界来进一步减少传播估计的次数。如果一个节点的影响增益均大于其他节点的影响增益上界，那么该节点就是下一个种子节点，而无需重新计算其他节点的影响增益。通过这样做，所有节点将按照其上限分数进行排名，最后可以输出一个影响力最大化集合，即可能的告警根因子集。

所述策略网络模块根据故障告警环境的当前告警状态信息，结合所述候选动作子集，缩小动作空间，选取所述候选子集中概率最大的动作，确定为策略网络模块下一时刻的动作决策。所述的告警状态信息具体为根据当前所有故障节点的告警特征向量所构造的告警特征矩阵。所述动作决策具体为干预具体故障节点并解除当前告警事件。

策略网络模块输出动作决策后，再根据施加动作后环境所反馈的奖励来更新策略网络参数，所述奖励值，具体定义为：

r＝w₁r₁+w₂r₂

r₁＝N_t-N_t+1

其中，r为总奖励值。r₁为环境在干预前后所观察到的告警数差值。r₂为策略网络模块(智能体)根据反事实模型估计的告警数与真实环境观察到的干预后告警数差值。N_t表示在t时刻时，干预前的环境产生的告警事件数。N_t+1表示在下一时刻时，干预后的环境产生的告警事件数。表示在下一时刻时，策略网络模块在反事实条件下估计环境所产生的告警事件数。w₁,w₂为权重参数。反事实模型指的是策略网络模块(智能体)根据告警因果图，借助反事实推理，生成反事实数据。反事实数据即如果不采取干预动作系统告警环境生成的告警事件数据。

需要说明的是，构建好奖励后，可进一步构造强化学习算法的损失函数。此处的强化学习算法可采用Soft Actor Critic、Policy Gradient等深度强化学习算法。

在应用时，当策略网络模块(智能体)返回的奖励逐渐增加并趋于稳定时，可认为告警因果图已学习完整，因果图的根节点可认为故障设备节点对应的根因设备节点。

该基于因果强化的设备故障根因定位方法，强化学习的决策过程与真实运维工程师排查故障过程相似，该方法最终给出的根因故障及最优策略可用于现实场景辅助运维工程师排查故障，大大提升运维效率。

实施例2

如图2所示，本发明第二方面提供了一种基于因果强化学习的故障根因定位系统，该系统包括：存储器、处理器，所述存储器中包括一种基于因果强化学习的故障根因定位方法程序，所述一种基于因果强化学习的故障根因定位方法程序被所述处理器执行时实现如下步骤：

如图3给出的通讯网络故障告警传播图，根据图4给出的通讯网络故障告警因果结构图，其中因果结构G_V，有三种类型的告警v₁,v₂,v₃在图5的通讯网络网元设备拓扑结构图中的G_N传播。在这种情况下，拓扑结构接近的告警事件序列是高度依赖的。更具体地说，如图2，其因果关系不仅存在单一网元设备节点内，如v₁对n₁中的v₂，也会存在于不同节点之间，如n₂中的v₁激发了n₃中的v₂,v₃。针对这种含有拓扑信息的因果结构学习场景，采用THP算法进行学习具有较好的效果。

r＝w₁r₁+w₂r₂

r₁＝N_t-N_t+1

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于因果强化学习的故障根因定位方法，其特征在于，包括以下步骤：

所述因果图环境模型模块，结合所述因果结构学习模块学出的初步告警因果图模型，利用影响力最大化模型算法寻找可能的根因子集，结合节点拓扑网络进一步缩小动作空间，得到候选动作子集；

所述策略网络模块根据故障告警环境的当前告警状态信息，结合所述候选动作子集，缩小动作空间，选取所述候选动作子集中概率最大的动作，确定为策略网络模块下一时刻的动作决策；

2.根据权利要求1所述的一种基于因果强化学习的故障根因定位方法，其特征在于，所述因果结构学习模块用于学习故障告警类型之间的高维因果网络，具体为：利用因果关系发现的方法从所述历史数据中学习得到初步告警因果图模型，所述初步告警因果图模型与故障告警环境交互，学习并更新所述因果图环境模型模块以及所述策略网络模块，生成表征完整的最终告警因果图模型。

3.根据权利要求1所述的一种基于因果强化学习的故障根因定位方法，其特征在于，所述的告警状态信息具体为根据当前所有故障节点的告警特征向量所构造的告警特征矩阵。

4.根据权利要求1所述的一种基于因果强化学习的故障根因定位方法，其特征在于，动作决策具体为干预具体故障节点并解除当前告警事件。

5.根据权利要求1所述的一种基于因果强化学习的故障根因定位方法，其特征在于，所述策略网络模块与所述故障告警环境交互过程中，所述策略网络模块实施动作后，所述故障告警环境会根据当前状态信息与动作反馈奖励值，同时转移至下一时刻的状态并返回状态信息至所述策略网络模块。

6.根据权利要求5所述的一种基于因果强化学习的故障根因定位方法，其特征在于，奖励值具体表达式为：

r＝w₁r₁+w₂r₂

r₁＝N_t-N_t+1

7.根据权利要求2所述的一种基于因果强化学习的故障根因定位方法，其特征在于，利用因果关系发现的方法为THP算法。

8.一种基于因果强化学习的故障根因定位系统，其特征在于，该系统包括：存储器、处理器，所述存储器中包括一种基于因果强化学习的故障根因定位方法程序，所述一种基于因果强化学习的故障根因定位方法程序被所述处理器执行时实现如下步骤：