CN114385403A

CN114385403A - 基于双层知识图谱架构的分布式协同故障诊断方法

Info

Publication number: CN114385403A
Application number: CN202210036763.6A
Authority: CN
Inventors: 吴昊; 李昌松; 周毅喆
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-04-22

Abstract

本发明提供基于知识图谱的协同故障诊断方法及系统，属于机械故障诊断技术领域，分布式子节点构建本地故障知识图谱；中心节点对各本地故障知识图谱进行聚合，对各故障检测模型进行选择和聚合；聚合后的全局故障知识图谱下发给各分布式子节点，根据本地故障知识图谱和全局故障知识图谱构建本地故障树模型，并映射成贝叶斯网络，进行故障成因的差异化分析，并结合全局故障知识图谱进行处理措施推荐。本发明克服现有故障诊断过程中故障数据的大规模、高维度、处理困难以及故障信息的非结构化、知识利用率较低的问题，与实际分布式场景中的故障诊断结合紧密，与数据集中式上传的故障诊断方式相比，有效保护数据隐私，节约通信带宽，具有更强的实用性。

Description

基于双层知识图谱架构的分布式协同故障诊断方法

技术领域

本发明涉及机械故障诊断技术领域，具体涉及一种基于双层知识图谱架构的分布式协同故障诊断方法。

背景技术

故障诊断是指系统在一定的工作环境下判断并能够定位和分析异常状态发生的部位，同时能够查明导致系统不正常的具体原因，判断故障的类别和等级，甚至可以进行自动修复或者给出相应修复的建议的过程。其中，如何进行大规模、高维度故障数据的处理以及如何从非结构化故障信息中进行故障知识的提取和检索是故障诊断所面临的难题。

深度学习和知识图谱这两大技术的提出可以有效解决上述故障诊断过程中所面临的问题。其中，深度学习技术因具有强大的特征学习和复杂建模能力，在处理大数据方面展现出极大的优势；知识图谱技术因具有细粒度、图形化的知识表示结构，在故障知识检索和推理方面具备极大的潜力。

在分布式场景中，以无人值守机房场景为例，无人值守机房的出现实现了机房设备监控，减轻了机房维护人员的负担，提高了系统的可靠性。然而机房故障诊断这一过程通常对运维人员的专业程度和经验积累要求较高，大型单位内无人值守机房数量众多且异地分散，像大规模集中式机房那样组建一只随时待命的高专业运维团队是不切实际的。

因此，如何实现分布式场景下的故障诊断是亟需考虑的，同时由于分布式场景的特殊性，故障诊断过程还面临以下挑战：基于深度学习的故障诊断方式通常需要大量的数据集进行故障检测模型的训练，但是部分节点中存储的数据集规模较小，最终会导致这些节点中故障检测模型的性能较差。如果将各节点中的数据进行汇总并进行集中的模型训练，固然可以提高各节点模型的故障检测能力，但是数据集传输会占用大量通信资源而且存在本地数据泄露导致的隐私保护问题。在故障成因分析环节，常采用故障树模型和贝叶斯网络相结合的方式，可以有效提升模型的反向推理能力，但是模型的构建复杂度并没有得到降低。同时考虑到各节点的具体环境和故障发生频率具有一定差异，如果仅仅按照全局的故障统计数据进行成因分析，有时并不能进行故障的准确定位。

发明内容

本发明的目的在于提供一种能够在分布式场景下的故障诊断过程中，在保护数据隐私的前提下实现各节点中故障诊断能力的提升、在降低故障成因模型构建复杂度的同时实现故障成因的差异化分析的基于双层知识图谱架构的分布式协同故障诊断方法，以解决上述背景技术中存在的至少一项技术问题。

为了实现上述目的，本发明采取了如下技术方案：

一方面，本发明提供一种基于双层知识图谱架构的分布式协同故障诊断方法，包括：

分布式子节点基于本地故障信息构建本地故障知识图谱，并将本地故障检测模型的结构参数以及性能指标添加到本地故障知识图谱中；

各分布式子节点定期将本地故障知识图谱上传至中心节点，所述中心节点对各本地故障知识图谱进行聚合，并对各故障检测模型进行选择和聚合；

中心节点将聚合后的全局故障知识图谱下发给各分布式子节点，各分布式子节点根据本地故障知识图谱和接收到的全局故障知识图谱构建本地故障树模型，并映射成贝叶斯网络，根据贝叶斯网络进行故障成因的差异化分析，并结合全局故障知识图谱进行处理措施推荐。

可选的，各分布式子节点的本地故障知识图谱构建完成后，将本地故障检测模型的结构参数以及性能指标，作为各子节点的属性信息存储在本地故障知识图谱中。

可选的，本地故障知识图谱聚合之前，需要对知识表示进行规范化和统一化并进行故障知识对齐，所述故障知识对齐包括故障实体对齐、故障关系对齐以及故障属性对齐；本地故障知识图谱聚合过程包括故障实体聚合、故障关系聚合以及故障属性聚合；

故障检测模型的选择过程中，考虑模型的故障识别种类数、模型使用的数据集规模大小、模型的识别准确率、模型的故障识别种类数的增量以及模型所使用的故障数据集规模的增量这五个因素经过选择和聚合，将得到的全局故障检测模型的模型参数添加进聚合后的全局故障知识图谱。

可选的，构建所述故障树模型的过程中，将由全局故障知识图谱梳理好的故障实体与故障原因间的因果关系以及故障原因间的逻辑关系直接进行导入，并结合双层故障知识图谱中的全局属性和局部属性信息，对所述故障树模型中的各基本事件进行定量分析，以求取所述基本事件的故障率。

可选的，以求取所述基本事件的故障率，包括：

所述故障树模型中底事件的故障率的计算公式如下：

其中，λ_{b_k}表示分布式子节点E_k的第b个底事件的故障率，m_bg表示所有分布式子节点所统计的全部历史记录中第b个底事件发生的累计故障频次，m_{bl_k}表示在当前第k个子节点E_k的本地历史记录中第b个底事件发生的故障频次，T_g表示故障设备在所有分布式子节点中的累计总运行时长，T_{l_k}表示故障设备在子节点E_k中的总运行时长，w_g表示全局属性在公式中所占据的权重值，w_l表示局部属性在公式中所占据的权重值；

设分布式子节点E_k中某故障模式的故障树模型中底事件的个数为n，它们的故障率分别表示为λ_{b_k}(b＝1，2，...，n)；当所述故障树模型中，相邻两级事件均为“与”逻辑关系时，顶事件的故障率λ(T)的计算公式如下：

当所述故障树模型中，相邻两级事件均为“或”逻辑关系时，顶事件的故障率λ(T)的计算公式如下：

可选的，权重参数w_l和w_g的具体计算公式如下：

w_g＝1-w_l

其中，m_Hg表示在所有分布式子节点所统计的全部历史记录中故障模式H发生的累计故障频次，m_{Hl_k}表示在当前第k个子节点E_k的本地历史记录中故障模式H发生的故障频次，T_g表示故障设备在所有分布式子节点中的累计总运行时长，T_{l_k}表示故障设备在子节点E_k本地中的总运行时长。

可选的，各子节点利用所述贝叶斯网络进行故障成因的差异化分析，并结合全局故障知识图谱进行处理措施推荐，包括：贝叶斯网络中具有连接关系的相邻节点间的条件概率的计算公式如下：

其中，P_ij表示贝叶斯网络中具有连接关系的相邻节点B_i和节点B_j之间的条件概率，m_ig表示在所有分布式子节点的历史记录中贝叶斯网络节点B_i发生的累计故障频次，m_jg表示在所有分布式子节点的历史记录中贝叶斯网络节点B_j发生的累计故障频次，m_{il_k}表示在当前第k个子节点E_k的历史记录中贝叶斯网络节点B_i发生的故障频次，m_{jl_k}表示在当前第k个子节点E_k的历史记录中贝叶斯网络节点B_j发生的故障频次；

根据故障树中底事件故障率以及贝叶斯网络中邻接节点间的条件概率，并结合贝叶斯公式，当同一种故障发生于不同的节点时，各节点会因本地的故障成因的发生频次不同，从而实现差异化的故障成因分析。

第二方面，本发明提供一种计算机设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行如上所述的基于双层知识图谱架构的分布式协同故障诊断方法。

第三方面，本发明提供一种电子设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行如上所述的基于双层知识图谱架构的分布式协同故障诊断方法。

第四方面，本发明提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于双层知识图谱架构的分布式协同故障诊断方法。

本发明有益效果：采用知识图谱和深度学习相结合的方法进行故障诊断，通过对各分布式节点中的故障知识以及故障检测模型进行聚合和选择，提升了各机房节点故障识别和故障处理能力。可以克服现有故障诊断过程中故障数据的大规模、高维度、处理困难以及故障信息的非结构化、知识利用率较低的问题，与实际分布式场景中的故障诊断结合紧密，与数据集中式上传的故障诊断方式相比，可以有效保护数据隐私，节约通信带宽，具有更强的实用性。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的基于双层知识图谱架构的分布式协同故障诊断方法流程图。

图2为本发明实施例所述的基于双层知识图谱架构的协同故障诊断方法中本地故障检测模型M_L的训练和存储环节的流程图。

图3为本发明实施例所述的基于双层知识图谱架构的协同故障诊断方法中本地故障知识图谱L_k的聚合与全局故障检测模型M_G的选择环节的流程图。

图4为本发明实施例所述的无人值守分布式机房场景下的协同故障诊断模型示意图。

图5为本发明实施例所述的故障知识图谱的结构示意图。

具体实施方式

下面详细叙述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。

还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

为便于理解本发明，下面结合附图以具体实施例对本发明作进一步解释说明，且具体实施例并不构成对本发明实施例的限定。

本领域技术人员应该理解，附图只是实施例的示意图，附图中的部件并不一定是实施本发明所必须的。

实施例1

本实施例1提供一种基于双层知识图谱架构的分布式协同故障诊断方法，包括：

分布式场景中，在各分布式子节点E_k端，k指任一分布式子节点唯一ID号，k＝1,2,…，基于本地故障信息构建本地故障知识图谱L_k，并将本地故障检测模型M_Lk的结构参数以及性能指标添加到所述故障知识图谱L_k中；

各子节点E_k定期将本地故障知识图谱L_k上传，由中心节点C进行接收，所述中心节点C对各故障知识图谱L_k进行聚合，并对各故障检测模型M_Lk进行选择和聚合；

所述中心节点C将聚合后的全局故障知识图谱G_j下发给各子节点E_k，j代表聚合的次数，j＝1,2,……，各子节点E_i根据本地故障知识图谱L_k和接收到的全局故障知识图谱G_j构建本地故障树模型，并将所述故障树模型映射成贝叶斯网络，各子节点E_k利用所述贝叶斯网络进行故障成因的差异化分析，并结合全局故障知识图谱G_j进行处理措施推荐。

在各分布式子节点E_k端，基于本地故障信息构建本地故障知识图谱L_k，并将本地故障检测模型M_Lk的结构参数以及性能指标添加到所述故障知识图谱L_k中，包括：

基于本地故障信息构建本地故障知识图谱L_k的过程中，首先需要对非结构化的故障文本信息进行故障知识抽取，具体可以分成实体知识的抽取、关系知识的抽取以及属性知识的抽取这三个过程，可以采用自然语言处理和深度学习技术，之后需要对抽取得到的所述故障知识进行梳理和分析，可以采用设备树分析和故障树分析方法；

各子节点E_k的故障知识图谱L_k构建完成后，需要将本地故障检测模型M_Lk的结构参数以及性能指标，作为各子节点E_k的属性信息存储在本地故障知识图谱L_k中。

所述中心节点C对各故障知识图谱L_k进行聚合，并对各故障检测模型M_Lk进行选择和聚合，包括：

故障知识图谱L_k聚合之前，需要对知识表示进行规范化和统一化并进行故障知识对齐，所述故障知识对齐包括故障实体对齐、故障关系对齐以及故障属性对齐；

故障知识图谱L_k聚合过程中，所述知识图谱聚合包括故障实体聚合、故障关系聚合以及故障属性聚合；

故障检测模型M_Lk的选择过程中，考虑了模型的故障识别种类数、模型使用的数据集规模大小、模型的识别准确率、模型的故障识别种类数的增量以及模型所使用的故障数据集规模的增量这五个因素，模型选择评判指标的计算公式如下所示：

其中，c_k表示第k个子节点E_k中的模型评判指标，a_k表示第k个子节点E_k中模型可识别的故障种类数，a_avg表示各子节点中模型可识别故障种类数累加后的均值，|D_k|表示第k个子节点E_k中模型M_Lk训练过程所使用的数据集规模，|D_avg|表示各子节点中模型所使用的数据集累加后的均值，acc_k是第k个子节点E_k中模型M_Lk的准确率，Δa_k表示本轮选择过程中第k个子节点E_k中模型可识别的故障种类数与前一轮选择过程中第k个子节点E_k中模型可识别的故障种类数相比所增加的数量，Δ|D_k|表示本轮选择过程中第k个子节点E_k中模型M_Lk训练过程所使用的数据集规模与前一轮选择过程中第k个子节点E_k中模型M_Lk训练过程所使用的数据集规模相比所增加的数据集规模大小；

各子节点E_k周期性地将图谱L_k上传到中心节点C，中心节点C在一轮周期内根据模型选择评判指标c_k的大小对各子节点E_k的本地故障检测模型M_Lk进行排序，根据排序结果选择排名前40％的本地故障检测模型M_Lk进行聚合，所使用的聚合算法借鉴了较为经典的联邦均值(FedAVG)算法的思想，在模型参数的权重设置方面进行改进，除了考虑各模型M_L所使用的数据集规模因素外，还引入了模型M_L的可识别故障种类数因素，可以一定程度上降低实际分布式场景中Non-IID数据分布所带来的影响，具体公式如下所示：

其中，ε_g表示聚合后所得到的全局故障检测模型M_G的模型参数，K表示在模型评判指标排序中前40％的本地故障检测模型M_Lk所对应的子节点E_k的数目，a_k表示第k个子节点E_k中模型可识别的故障种类数，a_g表示当前K个子节点E中各本地故障检测模型M_L可识别故障种类数的累加和，|D_k|表示第k个子节点E_k中模型M_Lk训练过程所使用的数据集规模，|D_g|表示当前K个子节点E中各本地故障检测模型M_L训练过程中所使用的数据集规模的累加和，ε_k表示第k个子节点E_k中本地故障检测模型M_Lk的模型参数；

经过选择和聚合，便得到了全局故障检测模型M_G的模型参数，并添加进聚合后的全局故障知识图谱G_j。

各子节点E_k根据本地故障知识图谱L_k和接收到的全局故障知识图谱G_j构建本地故障树模型，并将所述故障树模型映射成贝叶斯网络，包括：

各子节点E_k接收到由中心节点C下发的全局故障知识图谱G_j后，会在各子节点E_k本地进行直接存储，因此，各子节点E_k处会同时存在聚合后的全局故障知识图谱G_j和聚合前的本地故障知识图谱L_k，使用该双层故障知识图谱架构，为之后的故障成因的差异化分析奠定了基础；

构建所述故障树模型的过程中，可以将由全局故障知识图谱G_j梳理好的故障实体与故障原因间的因果关系以及故障原因间的逻辑关系直接进行导入，并结合双层故障知识图谱中的全局属性和局部属性信息，对所述故障树模型中的各基本事件进行定量分析，以求取所述基本事件的故障率；

将构建完成的故障树模型映射成贝叶斯网络的具体过程如下：1)将故障树中的事件对应表达成贝叶斯网络中的节点B，其中，故障树中的底事件在贝叶斯网络中作为根节点B_r，顶事件在贝叶斯网络中作为叶节点B_f；2)将故障树中的各基本事件的故障率作为贝叶斯网络中对应节点B的先验概率进行赋值；3)将贝叶斯网络中具有连接关系的相邻节点的故障频次的比值作为条件概率。

结合双层故障知识图谱中的全局属性和局部属性信息，对所述故障树模型中的各基本事件进行定量分析，以求取所述基本事件的故障率，包括：

所述故障树模型中底事件的故障率的计算公式如下：

设分布式子节点E_k中某故障模式的故障树模型中底事件的个数为n，它们的故障率分别表示为λ_{b_k}(b＝1，2，...，n)。当所述故障树模型中，相邻两级事件均为“与”逻辑关系时，顶事件的故障率λ(T)的计算公式如下：

在实现故障成因的差异化分析过程中，全局属性的权重值w_g和局部属性的权重值w_l这两个参数是尤为重要的，以上两个参数代表了全局属性和局部属性在故障成因分析中所占据的重要程度，权重参数w_l和w_g的具体计算公式如下：

w_g＝1-w_l (4)

各子节点E_k利用所述贝叶斯网络进行故障成因的差异化分析，并结合全局故障知识图谱G_j进行处理措施推荐，包括：

计算故障树中底事件的故障率和贝叶斯网络中邻接节点间的条件概率过程中，通常需要结合全局故障知识图谱G_j中的全局属性和本地故障知识图谱L_k中的局部属性这两个方面进行考虑。其中，故障树中底事件的故障率可以通过公式5计算得出，贝叶斯网络中具有连接关系的相邻节点间的条件概率的计算公式如下：

其中，P_ij表示贝叶斯网络中具有连接关系的相邻节点B_i和节点B_j之间的条件概率，m_ig表示在所有分布式子节点的历史记录中贝叶斯网络节点B_i发生的累计故障频次，m_jg表示在所有分布式子节点的历史记录中贝叶斯网络节点B_j发生的累计故障频次，m_{il_k}表示在当前第k个子节点E_k的历史记录中贝叶斯网络节点B_i发生的故障频次，m_{jl_k}表示在当前第k个子节点E_k的历史记录中贝叶斯网络节点B_j发生的故障频次，w_g表示全局属性在公式中所占据的权重值，w_l表示局部属性在公式中所占据的权重值。

通过公式5和公式8对故障树中底事件故障率以及贝叶斯网络中邻接节点间的条件概率进行计算，并结合贝叶斯公式，当同一种故障发生于不同的子节点时，各节点会因本地的故障成因的发生频次不同，从而实现差异化的故障成因分析。

实施例2

本发明实施例2提出了一种无人值守分布式机房场景下的基于双层知识图谱架构的分布式协同故障诊断机制，该机制的模型示意图和处理流程分别如图4和图1所示，包括以下几个步骤：

步骤1、各机房节点E_k使用自然语言处理和深度学习技术对本地所存储的非结构化故障文本信息(如：设备故障手册、维修日志等)进行故障知识抽取，其中包含了实体、关系以及属性知识的抽取。

步骤2、采用设备树分析法和故障树分析法对抽取后的故障知识进行梳理和分析，梳理后的故障知识归纳如下：

(1)实体知识可以分成两大类：设备信息类和故障信息类，其中，设备信息类中包括了设备和传感器这两个子类，故障信息类中包括了故障模式、故障原因和处理措施这三个子类；

(2)在各实体类进行实例化的过程中需要进行属性知识的描述，以故障原因类为例如表1所示对其属性知识归纳如下，主要包含了故障原因名称、故障原因类别、故障原因的局部发生频次以及故障原因的全局发生频次等信息；

(3)关系型知识可以归纳为六类：1)Has_fault：描述设备与故障模式间的从属关系；2)Has_sensor：描述设备与传感器间的从属关系；3)Effect：描述设备与设备间的影响关系；4)Has_device：描述系统与设备间的结构关系；5)Has_cause：描述故障模式与故障原因之间的因果关系；6)Has_treatment：描述故障原因和处理措施间的关系；

基于以上对知识的实体、属性及关系的定义，结合知识图谱的构建法则，可以在Neo4j中进行故障知识图谱L_k的构建，故障知识图谱的表达框架如图5所示。

表1属性知识描述

步骤3、各机房节点的本地故障检测模型M_Lk的训练流程如图2所示，如果在中心云服务器的第一次聚合之前，则中心云服务器将初始化的故障检测模型M_O的结构和参数下发给各机房节点E_k，各机房节点E_k使用接收到的模型结构和参数对本地故障检测模型M_Lk进行初始化；如果在中心云服务器的第一次聚合之后，则各机房节点E_k使用聚合后故障知识图谱G_j中全局模型M_G的结构和参数对本地故障检测模型M_Lk进行初始化，之后各机房使用本地故障数据集进行故障检测模型M_Lk的训练，训练完成后，将模型M_Lk的结构、参数以及性能指标作为机房的属性信息存储在本地故障知识图谱L_k中。

步骤4、各机房节点E_k定期将本地故障知识图谱L_k上传给中心云服务器，由服务器对各机房故障知识图谱L_k进行聚合，并对各故障检测模型M_Lk进行选择和聚合；

其中，图谱L_k的聚合以及模型M_Lk的选择和聚合过程如图3所示，具体步骤如下：

步骤4.1、各机房故障知识图谱L_k聚合之前，需要对知识表示进行规范化和统一化，并进行故障知识对齐，其中包括故障实体知识对齐、故障关系知识对齐以及故障属性知识对齐。

步骤4.2、故障知识图谱L_k的聚合过程中，主要包括了故障实体知识聚合、故障关系知识聚合以及故障属性知识聚合。

步骤4.3、故障检测模型M_Lk的选择和聚合过程中，考虑了模型的故障识别种类数、模型使用的数据集规模大小、模型的识别准确率、模型的故障识别种类数的增量以及模型所使用的故障数据集规模的增量这五个因素模型选择评判指标的计算公式如下所示：

其中，c_k表示第k个机房节点E_k中的故障检测模型M_Lk的评判指标，a_k表示第k个机房节点E_k中故障检测模型M_Lk可识别的故障种类数，a_avg表示各机房节点中模型可识别故障种类数累加后的均值，|D_k|表示第k个机房节点E_k中模型M_Lk训练过程所使用的故障数据集规模，|D_avg|表示各机房节点中模型所使用的故障数据集累加后的均值，acc_k表示第k个机房节点E_k中模型M_Lk的故障识别准确率，Δa_k表示本轮选择过程中第k个机房节点E_k中模型M_Lk可识别的故障种类数与前一轮选择过程中第k个机房节点E_k中模型M_Lk可识别的故障种类数相比所增加的数量，Δ|D_k|表示本轮选择过程中第k个机房节点E_k中模型M_Lk训练过程所使用的数据集规模与前一轮选择过程中第k个机房节点E_k中模型M_Lk训练过程所使用的数据集规模相比所增加的数据集规模大小；

步骤4.4、各机房节点E_k周期性的将图谱L_k上传到中心云服务器处，由中心云服务器在一轮周期内根据模型选择评判指标c_k的大小对各机房节点E_k的本地故障检测模型M_Lk进行排序，根据排序结果选择排名前40％的本地故障检测模型M_Lk进行聚合，所使用的聚合算法借鉴了较为经典的联邦均值(FedAVG)算法的思想，在模型参数的权重设置方面进行改进，除了考虑各模型M_L所使用的数据集规模因素外，还引入了模型M_L的可识别故障种类数因素，可以一定程度上降低实际分布式场景中Non-IID数据分布所带来的影响，具体公式如下所示：

其中，ε_g表示聚合后所得到的全局故障检测模型M_G的模型参数，K表示在模型评判指标排序中前40％的本地故障检测模型M_Lk所对应的机房节点E的数目，a_k表示第k个机房节点E_k中模型M_Lk可识别的故障种类数，a_g表示当前K个机房节点中各本地故障检测模型M_L可识别故障种类数的累加和，|D_k|表示第k个机房节点E_k中模型M_Lk训练过程所使用的数据集规模，|D_g|表示当前K个机房节点中各本地故障检测模型M_L训练过程中所使用的数据集规模的累加和，ε_k表示第k个机房节点E_k中本地故障检测模型M_Lk的模型参数；

步骤4.5、经过选择和聚合，将得到的全局故障检测模型M_G的模型参数添加进聚合后的全局故障知识图谱G_j。

步骤5、中心云服务器将聚合后的全局故障知识图谱G_j下发给各机房节点E_k，各机房节点E_k会将该全局故障知识图谱G_j进行直接存储，此时，各机房节点E_k会同时存在聚合后的全局故障知识图谱G_j和聚合前的本地故障知识图谱L_k，之后各机房节点E_k根据本地故障知识图谱L_k和接收到的全局故障知识图谱G_j构建本地故障树模型。

故障树模型的构建步骤如下：

步骤5.1、各机房将全局故障知识图谱G_j中梳理好的故障信息类实体作为故障树模型中的基本事件，并将图谱G_j中故障模式与故障原因间的因果关系以及专家经验中故障原因间的逻辑关系进行导入，构建本地故障树模型框架。

步骤5.2、在结合双层故障知识图谱中的全局属性和局部属性信息，对故障树模型中的各基本事件进行定量分析以及故障成因分析操作之前，需要对全局属性的权重值w_g和局部属性的权重值w_l这两个参数进行计算，具体公式如下：

w_g＝1-w_l (4)

其中，w_g表示全局属性在公式中所占据的权重值，w_l表示局部属性在公式中所占据的权重值，m_Hg表示在所有机房节点所统计的全部历史记录中故障模式H发生的累计故障频次，m_{Hl_k}表示在当前第k个机房节点E_k的本地历史记录中故障模式H发生的故障频次，T_g表示故障设备在所有机房节点中的累计总运行时长，T_{l_k}表示故障设备在第k个机房节点E_k本地中的总运行时长。

通过公式5、8可以发现，在不同机房节点或是在同一机房节点E_k但是发生不同故障模式的情况下，进行故障成因分析时所使用的全局属性的权重值w_g和局部属性的权重值w_l这两个参数都是不同的，可以有效提升故障成因分析的准确率。

步骤5.3、结合双层故障知识图谱中的全局属性和局部属性信息，对故障树模型中的各基本事件进行定量分析，以求取各基本事件的故障率。各底事件的故障率求取公式如下：

其中，λ_{b_k}表示机房节点E_k的第b个底事件的故障率，m_bg表示所有机房节点所统计的全部历史记录中第b个底事件发生的累计故障频次，m_{bl_k}表示在当前第k个机房节点E_k的本地历史记录中第b个底事件发生的故障频次，T_g表示故障设备在所有机房节点中的累计总运行时长，T_{l_k}表示故障设备在机房节点E_k中的总运行时长，w_g表示全局属性在公式中所占据的权重值，w_l表示局部属性在公式中所占据的权重值；

步骤6、各机房节点E_k将构建完成的故障树模型映射成贝叶斯网络，具体过程如下：1)将故障树中的事件对应表达成贝叶斯网络中的节点B，其中，故障树中的底事件在贝叶斯网络中作为根节点B_r，顶事件在贝叶斯网络中作为叶节点B_f；2)将故障树中的各基本事件的故障率作为贝叶斯网络中对应节点B的先验概率进行赋值；3)将贝叶斯网络中具有连接关系的相邻节点的故障频次的比值作为条件概率。

步骤7、各机房节点E_k会结合全局故障知识图谱G_j中的全局属性和本地故障知识图谱L_k中的局部属性这两个方面进行考虑，利用贝叶斯网络进行故障成因的差异化分析，具体步骤如下：

步骤7.1、通过公式5计算得出故障树中底事件的故障率，并根据公式6或7，完成故障树中各顶事件的故障率计算，并在故障树模型映射成贝叶斯网络的过程中，将故障树中的各基本事件的故障率作为贝叶斯网络中对应节点的先验概率进行赋值；

步骤7.2、贝叶斯网络中具有连接关系的相邻节点间的条件概率可以通过如下公式计算得到：

其中，P_ij表示贝叶斯网络中具有连接关系的相邻节点B_i和节点B_j之间的条件概率，m_ig表示在所有机房节点的历史记录中贝叶斯网络节点B_i发生的累计故障频次，m_jg表示在所有机房节点的历史记录中贝叶斯网络节点B_j发生的累计故障频次，m_{il_k}表示在当前第k个机房节点E_k的历史记录中贝叶斯网络节点B_i发生的故障频次，m_{jl_k}表示在当前第k个机房节点E_k的历史记录中贝叶斯网络节点B_j发生的故障频次，w_g表示全局属性在公式中所占据的权重值，w_l表示局部属性在公式中所占据的权重值。

步骤7.3、结合贝叶斯公式，求取贝叶斯网络中各故障成因节点后验概率，并根据后验概率的大小对各故障成因进行排序，按照列表形式返回后验概率中排名前3的故障成因。

当同一种故障发生于不同的机房节点时，各机房节点会因本地的故障成因的发生频次不同，从而实现差异化的故障成因分析。

步骤8、结合故障知识图谱G_j，使用cypher语句作为查询语句，根据得出的故障成因列表分别进行故障修复措施的推荐。

下面通过故障成因分析流程中的某一故障设备为实例进行进一步说明，因此并不将本发明限制在所述的实施例范围中。

实例：机房中低压直流配电设备中故障模式T的差异化故障成因分析。

在机房节点E₁和机房节点E₂中均检测到低压直流配电设备出现故障模式T，通过全局故障知识图谱可知，导致该故障T发生的故障原因有两种，分别为故障原因K1和故障原因K2，即n＝2，并且两个故障原因间存在“或”的逻辑关系。在全局故障知识图谱中，故障设备的累计总运行时长T_g为100天，故障模式T的累计故障频次m_Tg为34次，其中由K1导致故障模式T发生的累计故障频次m_K1g为16次，由K2导致故障模式T发生的累计故障频次m_K2g为18次；在机房节点E₁的本地故障知识图谱中，故障设备的总运行时长T_{l_E1}为57天，故障模式T的故障频次m_{Tl_E1}为17次，其中由K1导致故障模式T发生的故障频次m_{K1l_E1}为11次，由K2导致故障模式T发生的故障频次m_{K2l_E1}为6次；在机房节点E₂的本地故障知识图谱中，故障设备的总运行时长T_{l_E2}为43天，故障模式T的故障频次m_{Tl_E2}为17次，其中由K1导致故障模式T发生的故障频次m_{K1l_E2}为5次，由K2导致故障模式T发生的故障频次m_{K2l_E2}为12次。

机房节点E₁对故障树模型中的各基本事件进行定量分析过程中，底事件K1、K2的故障率λ_{K1_E1}、λ_{K2_E1}可以通过公式5求得，顶事件T的故障率λ_{T_E1}可以通过公式7求得；机房节点E₂对故障树模型中的各基本事件进行定量分析过程中，底事件K1、K2的故障率λ_{K1_E2}、λ_{K2_E2}可以通过公式5求得，顶事件T的故障率λ_{T_E2}可以通过公式7求得；其中，机房节点E₁中的全局属性的权重值w_{g_E1}和局部属性的权重值w_{l_E1}可以通过公式3、4求得；机房节点E₂中的全局属性的权重值w_{g_E2}和局部属性的权重值w_{l_E2}可以通过公式3、4求得。该过程的具体计算如下所示：

w_{g_E1}＝1-w_{l_E1}＝0.5327

w_{g_E2}＝1-w_{l_E2}＝0.4624

按照步骤6将该故障树模型映射成对应贝叶斯网络，机房节点E₁将故障树中底事件K1、K2以及顶事件T的故障率λ_{K1_E1}、λ_{K2_E1}、λ_{T_E1}作为贝叶斯网络中对应根节点B_K1、B_K2以及叶节点B_T的先验概率P_E1(B_K1)、P_E1(B_K2)、P_E1(B_T)进行赋值；机房节点E1将故障树中底事件K1、K2以及顶事件T的故障率λ_{K1_E2}、λ_{K2_E2}、λ_{T_E2}作为贝叶斯网络中对应根节点B_K1、B_K2以及叶节点B_T的先验概率P_E2(B_K1)、P_E2(B_K2)、P_E2(B_T)进行赋值。

其中，贝叶斯网络中具有连接关系的相邻节点间的条件概率需要通过公式8求得。机房节点E₁的贝叶斯网络中叶节点B_T与根节点B_K1、B_K2之间的条件概率分别为P_E1(B_T|B_K2)和P_E1(B_T|B_K2)，机房节点E₂的贝叶斯网络中叶节点B_T与根节点B_K1、B_K2之间的条件概率分别为P_E2(B_T|B_K1)和P_E2(B_T|B_K2)具体计算过程如下：

结合贝叶斯公式，分别求取机房节点E₁中故障原因K1和故障原因K2的后验概率P_E1(B_K1|B_T)和P_E1(B_K2|B_T)，具体计算公式如下：

同理，分别求取机房节点E₂中故障原因K1和故障原因K2的后验概率P_E2(B_K1|B_T)和P_E2(B_K2|B_T)，具体计算公式如下：

表2故障成因分析结果

根据故障成因的后验概率进行排序，返回的故障成因列表如表2所示。可以发现：经过故障成因分析后，在机房节点E₁中故障原因K1的后验概率高于故障原因K2的后验概率，在机房节点E₂中故障原因K2的后验概率高于故障原因K1的后验概率，这意味着当故障模式T发生时，在机房节点E₁中最有可能导致该故障模式发生的故障原因是K1，然而在机房节点E₂中最有可能导致该故障模式发生的故障原因是K2。

该实例充分证明了，在故障成因分析过程中，当同一种故障模式发生于不同的机房节点时，充分考虑不同机房节点中故障原因出现频次的差异性，从而根据各机房节点的具体情况实现更加准确的、具有差异化的故障成因分析是十分有必要的。

本实施例2中，相关符号示意如表3所示。

表3符号注释

综上所述，本发明实施例2采用知识图谱和深度学习相结合的方法进行故障诊断，可以在保证数据隐私保护的前提下通过故障检测模型的聚合提高各机房节点的故障检测能力，故障知识图谱的建立可以为之后的故障成因分析和故障修复提供帮助，有效提高各机房节点的故障处理能力，实现故障诊断过程的智能化。采用双层故障知识图谱的架构，将全局故障知识图谱中的全局属性和本地故障知识图谱中的局部属性相结合，通过全局属性权重参数和局部属性权重参数的设定，实现了故障成因分析的差异化，有效提升各分布式子节点中故障成因分析的准确率。

实施例3

本发明实施例3提供一种电子设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行基于双层知识图谱架构的分布式协同故障诊断方法，该方法包括如下流程步骤：

实施例4

本发明实施例4提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现基于双层知识图谱架构的分布式协同故障诊断方法，该方法包括如下流程步骤：

实施例5

本发明实施例5提供一种计算机设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行基于双层知识图谱架构的分布式协同故障诊断方法，该方法包括如下步骤：

综上所述，本发明实施例所述的基于双层知识图谱架构的分布式协同故障诊断方法，采用知识图谱和深度学习相结合的方法进行故障诊断，可以在保证数据隐私保护的前提下通过故障检测模型的聚合提高各机房节点的故障检测能力，故障知识图谱的建立可以为之后的故障成因分析和故障修复提供帮助，有效提高各机房节点的故障处理能力，实现故障诊断过程的智能化。本发明采用双层故障知识图谱的架构，将全局故障知识图谱中的全局属性和本地故障知识图谱中的局部属性相结合，通过全局属性权重参数和局部属性权重参数的设定，实现了故障成因分析的差异化，有效提升各分布式子节点中故障成因分析的准确率。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明公开的技术方案的基础上，本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于双层知识图谱架构的分布式协同故障诊断方法，其特征在于，包括：

2.根据权利要求1所述的基于双层知识图谱架构的分布式协同故障诊断方法，其特征在于，各分布式子节点的本地故障知识图谱构建完成后，将本地故障检测模型的结构参数以及性能指标，作为各子节点的属性信息存储在本地故障知识图谱中。

3.根据权利要求1所述的基于双层知识图谱架构的分布式协同故障诊断方法，其特征在于，本地故障知识图谱聚合之前，需要对知识表示进行规范化和统一化并进行故障知识对齐，所述故障知识对齐包括故障实体对齐、故障关系对齐以及故障属性对齐；本地故障知识图谱聚合过程包括故障实体聚合、故障关系聚合以及故障属性聚合；

4.根据权利要求1所述的基于双层知识图谱架构的分布式协同故障诊断方法，其特征在于，构建所述故障树模型的过程中，将由全局故障知识图谱梳理好的故障实体与故障原因间的因果关系以及故障原因间的逻辑关系直接进行导入，并结合双层故障知识图谱中的全局属性和局部属性信息，对所述故障树模型中的各基本事件进行定量分析，以求取所述基本事件的故障率。

5.根据权利要求4所述的基于双层知识图谱架构的分布式协同故障诊断方法，其特征在于，以求取所述基本事件的故障率，包括：

所述故障树模型中底事件的故障率的计算公式如下：

6.根据权利要求5所述的基于双层知识图谱架构的分布式协同故障诊断方法，其特征在于，权重参数w_l和w_g的具体计算公式如下：

w_g＝1-w_l

7.根据权利要求5所述的基于双层知识图谱架构的分布式协同故障诊断方法，其特征在于，各子节点利用所述贝叶斯网络进行故障成因的差异化分析，并结合全局故障知识图谱进行处理措施推荐，包括：贝叶斯网络中具有连接关系的相邻节点间的条件概率的计算公式如下：

8.一种计算机设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行如权利要求1-7任一项所述的基于双层知识图谱架构的分布式协同故障诊断方法。

9.一种电子设备，其特征在于，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行如权利要求1-7任一项所述的基于双层知识图谱架构的分布式协同故障诊断方法。

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的基于双层知识图谱架构的分布式协同故障诊断方法。