CN112100392A

CN112100392A - 一种基于强化学习和知识图谱的设备故障溯因方法

Info

Publication number: CN112100392A
Application number: CN202010737376.6A
Authority: CN
Inventors: 陈华钧; 毕祯; 陈名杨
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-12-18
Anticipated expiration: 2040-07-28
Also published as: CN112100392B

Abstract

本发明公开了一种基于强化学习和知识图谱的故障溯因方法，包括：(1)构建样本实例，编码样本实例，得到包含设备的节点表示、告警信息表示的样本实例表示，根据根因对编码得到根因关系表示；(2)基于强化学习构建策略网络，用于根据环境状态信息确定下一时刻的动作决策；(3)根据设定的时间步长阈值内动作决策结果构建奖励值，利用依据奖励值构建的损失函数更新策略网络参数、节点表示、告警信息表示、根因关系表示；(4)应用时，将实例表示作为策略网络的输入，利用策略网络获得接下来每个时刻里连接的设备节点，依据连接的每个设备节点追溯得到故障设备节点对应的根因设备节点。可以从故障节点开始溯因，通过因果链找到根因节点。

Description

一种基于强化学习和知识图谱的设备故障溯因方法

技术领域

本发明属于故障检测领域，具体涉及一种基于强化学习和知识图谱的故障溯因方法。

背景技术

知识图谱作为一种特殊的图数据，是一种人类可识别并且对机器友好的知识表示。作为一种应用型技术，知识图谱在很多领域中都得到了广泛的应用，例如信息检索、自然语言理解、问答系统、推荐系统、金融风控、教育医疗等。然而，如何自动化地构建高质量的知识图谱，以及如何充分地利用知识图谱的实体和关系所包含的语义进行推理，仍是需要研究的问题，比如说使用知识图谱的链接预测算法。链接预测指给定头实体(或尾实体)和关系，预测实体在该关系的对应的尾实体(或头实体)，当然也可以给定两个实体预测它们最有可能存在的关系。因此，一方面我们可以利用链接预测来补全已有的知识图谱，另一方面链接预测算法也可以看作是利用知识图谱已有的语义信息做推理，这在一些应用例如问答系统中是非常有帮助的。在知识图谱的链接预测算法，一些研究者进一步引出了可解释性问题的研究。其不仅仅是作出链接预测，还需要解释作出这样选择原因，表示为一条解释性的路径，相关工作为设备溯因的场景提供了思路上的启发。

故障溯因检测是一种特殊的场景。其设备之间可以由不同的关系，可以由知识图谱来表示。更明确的说，设备之间构成的图谱是一种动态的知识图谱。在这样的图谱里面，会存在一些特殊的“现象”。比如说某一个节点发生了故障，因为节点之间存在着依赖的关系，所以该节点的故障会依次向外传播，形成一条故障传播的链路。同时每一个被影响到的设备节点都会产生一些表征现象。这种现象被称为告警，可以理解为向外发出的警告，包含了该节点故障的一系列的信息，比如说是故障的种类、故障发生的时间等。最终这条故障链路会传播到最上层的某一些节点，这些节点会产生一种名叫KPI(Key PerformanceIndicator，关键绩效指标)的信息，同样的用来描述故障。当维修专家进行维修时，其首先接触到的最表层的故障节点。然后根据一系列的告警和KPI的信息，从最表层进行溯因。

强化学习的算法模型可以简单定位一个四元组(S,P,A,R)，其中S表示环境状态State；P表示需要训练的策略网络；A表示智能体执行的动作Action；R表示奖励值Reward。强化学习可以简单地看作是一种搜索算法，但是它搜索的方向并非是随机的，是由训练好的策略网络来确定的。它每一种选择都是概率，根据概率来选择搜索的方向。需要注意的是并非智能体每次都会选概率最大的Action，这是一个随机的过程。

发明内容

本发明的目的是提供一种基于强化学习和知识图谱的故障溯因方法，该故障溯因方法可以直接从表层的故障节点开始溯因，从而形成一条因果链，最终找到深层的根因节点。

为实现上述发明目的，本发明提供的技术方案为：

一种基于强化学习和知识图谱的故障溯因方法，所述故障溯因方法包括以下步骤：

(1)构建应用场景的设备知识图谱，提取每时刻的故障设备节点和对应根因设备节点组成根因对，该根因对与出现故障时刻的场景告警信息、设备知识图谱形成一个样本实例，编码样本实例，得到包含设备的节点表示、告警信息表示的样本实例表示，根据根因对编码得到根因关系表示；

(2)基于强化学习构建包括环境状态构建单元和决策确定单元的策略网络，所述环境状态构建单元用于根据样本实例表示和根因关系表示构建环境状态信息，所述决策确定单元用于根据环境状态信息确定下一时刻的动作决策；

(3)根据设定的时间步长阈值内动作决策结果构建奖励值，依据该奖励值构建损失函数，利用该损失函数更新策略网络参数、节点表示、告警信息表示、根因关系表示；

(4)应用时，以故障设备节点的节点表示、告警信息表示以及对应的根因关系表示作为策略网络的输入，利用策略网络获得接下来每个时刻里连接的设备节点，依据连接的每个设备节点追溯得到故障设备节点对应的根因设备节点。

与现有技术相比，本发明具有的有益效果至少包括：

本发明提供的基于强化学习和知识图谱的故障溯因方法，以知识图谱作为基础，采用注意力机制结合动态变化的环境告警信息构建环境状态信息，并采用强化学习算法根据环境状态信息给出动作，在知识图谱中搜索获得引起故障的根因设备。提升了故障根因检测的速度和准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是本发明实施例提供的基于强化学习和知识图谱的故障溯因方法的流程图；

图2是本发明实施例提供的注意力机制示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

本实施例提供的基于强化学习和知识图谱的故障溯因方法，通过知识图谱表示学习的方法结合强化的学习的思路去解决设备网络故障的场景，目的是找到一条因果链，最终寻找到产生表层故障节点的真正的根因。在动态的故障发生场景，该故障溯因方法能够根据动态变化的告警信息，在搜索的过程中利用注意力的机制进行逐步溯因。该故障溯因方法可以应用到更多类似的比如金融领域里股价波动预测等溯因场景中。

图1是本发明实施例提供的基于强化学习和知识图谱的故障溯因方法的流程图。如图1所示，实施例提供的基于强化学习和知识图谱的故障溯因方法包括以下步骤：

步骤1，构建应用场景的设备知识图谱，提取每时刻的故障设备节点和对应根因设备节点组成根因对，该根因对与出现故障时刻的场景告警信息、设备知识图谱形成一个样本实例，编码样本实例，得到包含设备节点表示、告警信息表示的样本实例表示，根据根因对编码得到根因关系表示。

强化学习算法是智能体根据时刻的环境状态信息产生一个决策动作。设备故障溯因是根据设备节点和设备节点的连接关系，从故障设备追溯到造成故障设备发生故障的根因设备。本实施例中，将引起表层设备出现故障的深层设备为根因设备，例如在计算机系统中，当表面显示器不显示了，追溯可能是深层的根因设备显卡出了问题。根据强化学习技术和设备故障溯因技术，发现强化学习的搜索过程与溯因过程及其相似，因此本发明利用强化学习算法来进行设备故障溯因搜索，将设备到设备的搜索过程看作是产生下一个动作的过程。

针对每个应用场景，根据固定的设备及连接关系构建设备知识图谱，该设备知识图谱可以是ontology层面或schema图，该设备知识图谱表示G＝(E,R)，其中，E表示设备节点集合，R表示设备节点之间关系的集合。实施例中，认为设备节点出现故障时的场景状态是不一样的，可以将设备节点出现故障时的场景状态作为一个样本数据，场景状态包含故障设备、引起故障设备发生故障的根因设备，出现故障时刻的场景告警信息以及整个设备场景，其中场景告警信息包括KPI数据和设备警示信息。因此，提取设备知识图谱每时刻的故障设备节点和对应根因设备节点组成根因对，该根因对与出现故障时刻的场景告警信息、设备知识图谱形成一个样本实例。每个样本实例中，虽然设备知识图谱是固定不变的，但是每时刻的场景告警信息是动态变化的，且该动态变化的场景告警信息中的KPI数据和设备警示信息会与其对应的设备相关联，能够直接影响动作决策的判断。

在样本实例中，根因对的标注数据来自于设备网络运行过程中，专家曾经修复过的系统所保留下来的记录。比如说某个设备“坏”，专家找到根因之后便会记录下这个“坏”设备以及其对应的数据，这就构成了一组根因对。并且当前场景所有出现的告警信息和KPI信息都会被保留下来，作为一条场景告警信息。

在获得样本实例之后，还需要对样本实例进行编码，编码后的向量表示能够直接入至网络中进行计算。本实施例中，可以采用初始化的方式直接初始化得到设备的节点表示和告警信息表示该设备的节点表示和告警信息表示组成样本实例表示。还可以采用TransE算法或TransH算法对样本实例学习。可以根据不同图谱的特性，比如说关系是否足够丰富、实体的数量级等因素取选择合适的方法来样本学习。

TransE算法的基本想法是头实体的向量表示h与关系的向量表示关系的向量表示r之和与尾实体的向量表示t越接近越好，即h+r≈t。其中正样本为知识图谱中存在的三元组，负样本为替换头实体或者尾实体得到。在学习过程中，实现对所有设备节点、所有连接关系以及场景告警信息编码，获得设备的节点表示、关系表示和告警信息表示。相比于直接初始化样本实例表示，采用TransE算法或TransH算法学习的方式获得的样本实例表示更利于策略网络的学习，学习收敛速度快。

在每个样本实例中，根据根因对中的故障设备节点和对应根因设备节点，还能确定故障设备节点与根因设备节点之间存在的根因关系，同样采用初始化、TransE算法或TransH算法学习方式获得根因关系表示。

步骤2，基于强化学习构建包括环境状态构建单元和决策确定单元的策略网络，所述环境状态构建单元用于根据样本实例表示和根因关系表示构建环境状态信息，所述决策确定单元用于根据环境状态信息确定下一时刻的动作决策。

本实施例中，环境状态构建单元构建的环境状态信息s_t＝[m_t；_t；a_t]，其中，s_t表示t时刻的全局环境状态信息，其由t时刻的节点状态信息m_t、历史状态信息h_t以及节点注意力信息a_t通过符号；拼接而成。

根据设备的节点表示和根因关系表示构建节点状态信息m_t为：

m_t＝[e_t；f_q(e_start,r_cause)]

其中，e_t为t时刻(当前位置)设备的节点表示，e_start为故障设备的节点表示，也就是整个加强学习搜索算法的初始时刻设备的节点表示，r_cause为故障设备节点对应的根因关系表示，f_q(e_start,r_cause)为对e_start和r_cause的融合操作，该融合操作可以是简单的向量表示的拼接，也可以是一些卷次操作，[e_t；f_q(e_start,r_cause)]中符号；表示拼接操作，即将e_t与f_q(e_start,r_cause)进行向量拼接。

利用LSTM(长短期记忆网络，Long Short-Term Memory)获得历史状态信息h_t为：

h_t＝LSTM[h_t-1；m_t]

其中，h_t-1为t-1时刻的LSTM输出的隐含层向量作为t-1时刻的历史状态信息，LSTM[h_t-1；m_t]表示将h_t-1与m_t通过符号；拼接后输入至LSTM得到的t-1时刻的历史状态信息h_t，该历史状态信息h_t可以来记录整条故障溯因路径的信息。

根据告警信息表示构建节点注意力信息a_t为：

其中，I_tk为属于设备节点e_t的第k个告警信息表示，

为属于设备节点e_t的告警信息表示的总个数，λ_tk表示第k个告警信息表示I_tk与设备节点e_t的连接权重，该连接权重可以量化地表现为某一种类型的告警信息对当前决策所影响的比例，如果比重越大，证明这个告警信息越有可能是触发的真正的原因所引发的。该连接权重在学习的过程中被不断更新。图2为示例性给出的注意力机制示意图，针对节点node_t，通过alarm_t1，alarm_t2，alarm_t3计算节点注意力信息a_t。

在另外一个实施方式中，为了更好地学习到告警信息对设备节点的影响，进而提升智能体做出动作决策的准确性，节点注意力信息a_t构建为：

其中，W为转移矩阵，学习开始时，初始化转移矩阵W，在学习过程中，该转移矩阵W被不断更新。

本实施例中，通过增加注意力机制，即融合设备节点相关的动态告警信息获得注意力信息，增加LSTM网络获得历史状态信息，并将该注意力信息和历史状态信息增加全局环境状态信息中，让智能体能够根据当前时刻全局环境状态信息动态地做出动作决策，提升动作决策的准确性。

决策确定单元用于根据环境状态信息确定下一时刻的动作决策。对于故障溯因场景来说，强化学习输出的动作表示当前的智能体选择哪个方向进行前进。根据强化学习的框架，它会根据决策确定单元生成的概率去选择连接下一个设备节点。因为动作空间是所有的关系以及下一步的实体构成的元组集合，但是路径的合理性与否是需要判断的。如果当前智能体作出的选择(关系)在当前设备节点上可以找到，那么这个动作是合理；反之是不合理的，表示该关系不存在当前设备节点上。

在决策确定单元中通过以下过程获得动作决策：

首先，通过策略网络根据环境状态信息s_t获得t时刻动作决策概率分布，即d_t＝f_policy(s_t)，其中，d_t为动作决策概率分布，其包含了设备知识图谱中所有设备节点之间连接关系的概率，f_policy(·)为策略网络，可以是深度学习网络；

然后，根据设备节点e_t与其他设备节点的连接关系对动作决策概率分布d_t进行筛选，得到设备节点e_t与其他设备节点的连接关系对应的动作决策概率值添加到候选动作决策集，所述候选动作决策集还包括表示不选择下一个设备节点的NO_OP决策动作和表示停止选择下一个设备节点的STOP决策动作；

最后，根据当前时刻设备节点属性从该候选动作决策集选择最大动作决策概率值、NO_OP决策动作或STOP决策动作输出，即根据最大动作决策概率值对应的连接关系连接到下一个设备节点、不进行连接操作或停止连接操作。

本实施例中，会设定时间步长阈值，该时间步长阈值为时刻的个数，假设10个时刻为一个结点，则时间步长阈值为10。该时间步长阈值大于样本实例中根因对对应的最大因果链长度，该因果链长度为由故障设备节点到根因设备节点形成的关系链中关系的个数，假设一个关系链中包含8个关系，则因果链长度为8。当在时间步长阈值内，当前时刻设备节点为根因设备节点时，则下一时刻输出STOP决策动作，即停止连接操作；当设备节点执行的下一步为自身节点时，则下一时刻NO_OP决策动作，即不进行连接操作，这样可以避免出现很多环路；当不满足STOP决策动作和NO_OP决策动作条件时，则下一时刻从候选动作决策集选择最大动作决策概率值输出，即根据最大动作决策概率值对应的连接关系连接到下一个设备节点。

步骤3，根据设定的时间步长阈值内动作决策结果构建奖励值，依据该奖励值构建损失函数，利用该损失函数更新策略网络参数和告警信息表示、根因关系表示。

在强化学习算法中，需要给策略网络做出的动作决策给予一定的奖励作为反馈。本实施例中，采用组合奖励的机制，在设定的时间步长阈值内动作决策结果构建奖励值，具体为：

R_total＝γR_g+λR_e+μR_d

其中，R_total为总奖励值，R_g为路径全局奖励，当在设定的时间步长阈值内动作达到根因节点，会对全局进行奖励，则赋予路径全局奖励R_g，R_e为路径长短奖励，该路径长短奖励R_e与路径长度呈负相关，当在设定的时间步长阈值内动作达到根因节点时，如果路径越短，则表示这个条路径越正确，给予更高的路径长短奖励R_e，这可以尽量避免智能体走环路，R_d为路径多样奖励，通过与已找到的路径集合计算余弦相似度，可以得到路径之间的差异值，根据路径之间的差异值确定路径多样奖励R_d，当在设定的时间步长阈值内动作达到根因节点，且由有多条路径，则赋予路径多样奖励R_d，该路径多样奖励R_d表示尽可能少走路径相似的路线，使搜索空间变得丰富，γ、λ、μ分别为路径全局奖励R_g、路径长短奖励R_e、路径多样奖励R_d的权重值，取值范围为0～1，

在构建好总奖励值后，将该总奖励值添加到强化学习损失函数中，即构建的损失函数为：

其中，

为损失函数梯度，R_total表示T个步长的总奖赏值，π_θ(d_t|s_t)表示当前动作策略的输出，θ表示网络参数。

训练时，以样本实例中的根因对作为监督数据，根据构建的损失函数，采用随机梯度下降的算法来更新策略网络参数、节点表示、告警信息表示、根因关系表示，直到迭代更新为止，获得确定的更新策略网络参数，确定的告警信息表示、节点表示以及根因关系表示。

步骤4，应用时，以故障设备节点的节点表示、告警信息表示以及对应的根因关系表示作为策略网络的输入，利用策略网络每时刻的动作决策，依据动作决策连接的每个设备节点追溯得到故障设备节点对应的根因设备节点。

在应用时，可以根据当前故障设备和当前场景告警信息和已经训练好的策略网络进行故障溯因。将故障设备节点的节点表示、告警信息表示以及对应的根因关系表示作为策略网络的输入，利用策略网络根据每时刻环境状态信息给出动作决策，也就是选择概率，依据该选择概率选择下一个连接的设备节点，依次搜索连接，动作决策输出为连续多次NO_OP决策动作或STOP决策动作，则认为算法不再搜索，则搜索到的最后一个设备节点为故障设备节点对应的根因设备节点。

该基于强化学习和知识图谱的故障溯因方法中，强化学习的决策过程与专家的决策过程类似，模型的最终结果既可以找到最终的根因结点，又可给出推导的因果链给以参考，具有直观的合理性和可解释性。

该基于强化学习和知识图谱的故障溯因方法中，融入了注意力机制。通过输出同一设备节点上不同场景告警信息的权重值，可以更细粒度地判断究竟是设备节点上哪种类型的告警引发了当前节点出现问题。其次，告警信息的加入使得策略网络的可拓展性更好。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习和知识图谱的故障溯因方法，其特征在于，所述故障溯因方法包括以下步骤：

2.如权利要求1所述的基于强化学习和知识图谱的故障溯因方法，其特征在于，所述环境状态构建单元构建的环境状态信息s_t＝[m_t；h_t；a_t]，其中，s_t表示t时刻的全局环境状态信息，其由t时刻的节点状态信息m_t、历史状态信息h_t以及节点注意力信息a_t通过符号；拼接而成。

3.如权利要求2所述的基于强化学习和知识图谱的故障溯因方法，其特征在于，根据设备的节点表示和根因关系表示构建节点状态信息m_t为：

m_t＝[e_t；f_q(e_start,r_cause)]

其中，e_t为t时刻设备的节点表示，e_start为故障设备的节点表示，r_cause为故障设备节点对应的根因关系表示，f_q(e_start,r_cause)为对e_start和r_cause的融合操作。

4.如权利要求2所述的基于强化学习和知识图谱的故障溯因方法，其特征在于，利用LSTM获得历史状态信息h_t为：

h_t＝LSTM[h_t-1；m_t]

5.如权利要求2所述的基于强化学习和知识图谱的故障溯因方法，其特征在于，根据告警信息表示构建节点注意力信息a_t为：

其中，I_tk为属于设备节点e_t的第k个告警信息表示，

为属于设备节点e_t的告警信息表示的总个数，λ_tk表示第k个告警信息表示I_tk与设备节点e_t的连接权重。

6.如权利要求2所述的基于强化学习和知识图谱的故障溯因方法，其特征在于，节点注意力信息a_t构建为：

其中，I_tk为属于设备节点e_t的第k个告警信息表示，

为属于设备节点e_t的告警信息表示的总个数，λ_tk表示第k个告警信息表示I_tk与设备节点e_t的连接权重，W为转移矩阵，学习开始时，初始化转移矩阵W，在学习过程中，该转移矩阵W被不断更新。

7.如权利要求1所述的基于强化学习和知识图谱的故障溯因方法，其特征在于，在决策确定单元中通过以下过程获得动作决策：

首先，通过策略网络根据环境状态信息s_t获得t时刻动作决策概率分布d_t；

8.如权利要求1所述的基于强化学习和知识图谱的故障溯因方法，其特征在于，在设定的时间步长阈值内动作决策结果构建奖励值，具体为：

R_total＝γR_g+λR_e+μR_d

其中，R_total为总奖励值，R_g为路径全局奖励，当在设定的时间步长阈值内动作达到根因节点，则赋予路径全局奖励R_g，R_e为路径长短奖励，该路径长短奖励R_e与路径长度呈负相关，R_d为路径多样奖励，当在设定的时间步长阈值内动作达到根因节点，且由有多条路径，则赋予路径多样奖励R_d，γ、λ、μ分别为路径全局奖励R_g、路径长短奖励R_e、路径多样奖励R_d的权重值，取值范围为0～1。

9.如权利要求1所述的基于强化学习和知识图谱的故障溯因方法，其特征在于，步骤(1)中，采用初始化、TransE算法或TransH算法学习方式获得样本实例表示和根因关系表示。