CN117061332A

CN117061332A - 一种基于概率有向图深度学习的故障诊断方法与系统

Info

Publication number: CN117061332A
Application number: CN202311312547.0A
Authority: CN
Inventors: 李井源; 周蓉; 刘增军; 张可; 龚航; 陈雷; 黄新明; 彭竞; 马明; 李峥嵘; 谢郁辰
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-10-11
Filing date: 2023-10-11
Publication date: 2023-11-14
Anticipated expiration: 2043-10-11
Also published as: CN117061332B

Abstract

本申请涉及一种基于概率有向图深度学习的故障诊断方法与系统，该方法包括：从当前的可达概率矩阵中提取报警节点的先行集，并将其中节点有交集的报警节点划至同一报警集；若报警集中报警节点均不在分层有向图中的第一层，计算对应的故障源候选集中的故障源节点的后验故障概率；根据后验故障概率确定所属设备的设备故障概率，根据设备故障概率依次对各设备进行故障隔离，直至对应的报警节点解除报警，定位得到故障设备，然后对故障设备上的故障节点的节点故障概率，以及故障节点与报警节点的节点间故障传播概率进行更新，得到新的可达概率矩阵以及对应的新的节点故障概率。采用本方法可以及时准确地进行通信系统故障诊断。

Description

一种基于概率有向图深度学习的故障诊断方法与系统

技术领域

本申请涉及复杂通信系统故障诊断技术领域，特别是涉及一种基于概率有向图深度学习的故障诊断方法与系统。

背景技术

随着通信技术的持续发展，通信系统的规模日益庞大，功能复杂性大幅提升，同时对通信系统的可靠性也提出了更高要求。以卫星通信或地面通信系统收发链路为例，其主要业务是完成信号的生成、扩频调制和功率放大，以及信号接收，变频，解调等任务，必须实现小时稳定运行。

目前常用的故障诊断方案是基于规则的专家系统加上人工故障分析。这种方案实现简单，但缺点是：1）未充分考虑故障之间的传递效应，经常出现某一个故障发生时，会引发大量关联故障，多故障报警导致值班员难以快速定位真实的故障点，错误的故障隔离操作导致故障处置不及时；2）专家系统难以预先知晓并获取完备的故障模式，当有未知故障发生时，故障定位困难，仍需专家现场排查，导致故障处置不及时。因此，传统的运维方法已不能适应复杂通信系统的运维要求，需要设计更快速更智能的故障诊断系统。

发明内容

基于此，有必要针对上述技术问题，提供一种基于概率有向图深度学习的故障诊断方法与系统，以便及时、准确地进行故障诊断。

一种基于概率有向图深度学习的故障诊断方法，所述方法包括：

获取通信系统的节点集；节点集是通过定义通信系统中的监控点以及监控点之间的故障传播路径，然后将故障传播路径相同的监控点合并为一个节点而得到的；

获取当前的可达概率矩阵和根据初始可达概率矩阵得到的分层有向图；可达概率矩阵中的元素表示节点间故障传播概率；分层有向图中，每一层至少有一个节点；

获取当前的报警节点集，从当前的可达概率矩阵中提取每一报警节点的先行集，将先行集中节点存在交集的报警节点划分至一个报警集中，同时将每一报警集中所有报警节点对应先行集合并至同一个故障源候选集中；

当报警集中的报警节点均不在分层有向图中的第一层时，计算报警集对应的故障源候选集中各故障源节点的后验故障概率，具体步骤如下：

从当前的可达概率矩阵中提取故障源候选集中故障源节点的除自身以外的可达集，根据故障源节点的当前节点故障概率、故障源节点与其可达集中各节点的节点间故障传播概率和以及故障源节点的被搜索到次数，计算得到对应故障源节点的后验故障概率；其中，被搜索到次数是根据对应故障源节点的先行集统计得到的；

根据各故障源节点的后验故障概率确定各故障源节点所属设备的设备故障概率，根据设备故障概率从高到低依次对各个设备进行故障隔离，直至对应的报警节点解除报警，并定位得到故障设备，然后对故障设备上的故障节点的节点故障概率，以及故障节点与报警节点的节点间故障传播概率进行更新，得到新的可达概率矩阵以及对应的新的节点故障概率。

一种基于概率有向图深度学习的故障诊断系统，所述系统包括：

状态采集模块、推理诊断模块、故障处置模块和人机交互界面；

状态采集模块用于读取通信系统运行时设备的状态参数，同时将状态参数与失效门限值进行比较，若状态参数超过对应的失效门限值，则产生报警信息，并将报警节点信息发送至推理诊断模块；其中，通信系统中的节点是通过定义通信系统中的监控点以及监控点之间的故障传播路径，然后将故障传播路径相同的监控点合并为一个节点而得到的；

推理诊断模块用于根据通信系统中的节点和故障传播路径构建初始可达概率矩阵，并根据初始可达概率矩阵建立分层有向图；其中可达概率矩阵中的元素表示节点间故障传播概率；分层有向图中，每一层至少有一个节点；

推理诊断模块还用于接收状态采集模块发送的报警节点信息，得到当前的报警节点集，从当前的可达概率矩阵中提取每一报警节点的先行集，将先行集中节点存在交集的报警节点划分至一个报警集中，同时将每一报警集中所有报警节点对应先行集合并至同一个故障源候选集中，当报警集中的报警节点均不在分层有向图中的第一层时，计算报警集对应的故障源候选集中各故障源节点的后验故障概率，具体步骤如下：从当前的可达概率矩阵中提取故障源候选集中故障源节点的除自身以外的可达集，根据故障源节点的节点故障概率、故障源节点与其可达集中各节点的节点间故障传播概率以及故障源节点的被搜索到次数，计算得到对应故障源节点的后验故障概率；其中，被搜索到次数是根据对应报警节点的先行集统计得到的；然后根据各故障源节点的后验故障概率确定各故障源节点所属设备的设备故障概率；

故障处置模块用于根据设备故障概率从高到低依次对各个设备进行故障隔离，直至对应的报警节点解除报警，并定位得到故障设备，并将故障隔离结果反馈给推理诊断模块；

推理诊断模块还用于接收故障处置模块反馈的故障隔离结果，对故障设备上的故障节点的节点故障概率，以及故障节点与报警节点的节点间故障传播概率进行更新，得到新的可达概率矩阵以及对应的新的节点故障概率；

人机交互界面用于实现故障诊断系统与用户之间的信息交换。

上述一种基于概率有向图深度学习的故障诊断方法与系统中，得到当前的报警节点集后，从当前的可达概率矩阵中提取每一报警节点的先行集，并将先行集中节点存在交集的报警节点划分至同一报警集中，得到多个报警集，同时将每一报警集中所有报警节点对应先行集合并至同一个故障源候选集中，得到对应的多个故障源候选集，当报警集中的报警节点均不在分层有向图中的第一层时，计算报警集对应的故障源候选集中各故障源节点的后验故障概率，即，从当前的可达概率矩阵中提取故障源候选集中故障源节点的除自身以外的可达集，根据故障源节点的节点故障概率、故障源节点与其可达集中各节点的节点间故障传播概率以及故障源节点的被搜索到次数，计算得到对应故障源节点的后验故障概率；然后，根据各故障源节点的后验故障概率确定各故障源节点所属设备的设备故障概率，根据设备故障概率从高到低依次对各个设备进行故障隔离，直至对应的报警节点解除报警，并定位得到故障设备，然后对故障设备上的故障节点的节点故障概率，以及故障节点与报警节点的节点间故障传播概率进行更新，得到新的可达概率矩阵以及对应的新的节点故障概率，可看出，可达概率矩阵和节点故障概率会根据通信系统的实际故障诊断过程和结果进行更新，相当于故障诊断成功经验的积累，这样随着诊断经验不断丰富，可达概率矩阵中的故障传播概率不断贴合通信系统的实际故障传播情况，在故障设备定位操作时，设备故障概率会越来越准确，由此，故障诊断会越来越准确及时。综上，采用本发明可以及时准确地进行通信系统的故障诊断。

附图说明

图1为一种简化的通信系统收发链路组成示意图；

图2为基于概率有向图深度学习的故障诊断方法的流程示意图；

图3为基于概率有向图深度学习的故障诊断方法的具体流程图；

图4为一个实施例中简单通信系统的示意图；

图5为一个实施例中简单通信系统的故障传播路径以及分层有向图模型示意图；

图6为基于概率有向图深度学习的故障诊断系统的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于概率有向图深度学习的故障诊断方法，可以应用于如图1所示的应用环境中。图1是本发明提供的一种简化的通信系统收发链路组成示意图。通信系统收发链路由上下变频器，功率放大器，收/发天线、数字信号处理终端、射频采样终端、射频发射终端等组成，共同完成对无线信号的接收和发送。故障诊断系统的主要功能是对收发链路上各个设备的运行状态进行监测，及时发现异常情况并进行故障诊断和修复，所述功能由收发链路设备和部署在计算机上的系统管理软件共同完成。

在一个实施例中，如图2所示，提供了一种基于概率有向图深度学习的故障诊断方法，包括以下步骤：

步骤202，获取通信系统的节点集。

其中，节点集是通过定义通信系统中的监控点以及监控点之间的故障传播路径，然后将故障传播路径相同的监控点合并为一个节点而得到的。

可以根据专家经验来定义各监控点以及监控点之间的故障传播路径，然后对各监控点按照不同的故障传播路径进行分类，具有相同流入有向边和流出有向边的监控点可合并为一个节点，即得到通信系统的所有节点。

步骤204，获取当前的可达概率矩阵和根据初始可达概率矩阵得到的分层有向图。

可达概率矩阵中的元素表示节点间故障传播概率，例如可达概率矩阵，其中n为通信系统中的节点数量，元素/>,表示故障从节点/>传播到节点/>的概率，其中，/>表示节点v_i当前的健康状态，/>表示节点/>发生故障报警，/>表示节点/>未发生故障报警。

其中，表示节点/>当前的健康状态：

其中为节点/>包含的某一工况变量q的实测值，/>为该工况变量q的期望值，/>为节点/>的某一工况变量q处于正常状态的阈值。只要节点包含的任一工况变量的实测值大于相应的阈值，表示该节点故障，函数取值“1”；只要节点包含的所有工况变量的实测值都小于相应的阈值，表示该节点正常，函数取值“0”。

分层有向图中，每一层至少有一个节点。对可达概率矩阵P进行层级划分，即可得到每个节点所属的层级。第1层节点，也是最高层级节点，在有向图模型中只有流出方向箭头；最低层节点在有向图模型中只有流入方向箭头。

步骤206，获取当前的报警节点集，从当前的可达概率矩阵中提取每一报警节点的先行集，将先行集中节点存在交集的报警节点划分至一个报警集中，同时将每一报警集中所有报警节点对应先行集合并至同一个故障源候选集中。

从当前的可达概率矩阵中提取每一报警节点的先行集，即从报警节点集中，选取任意一个报警节点/>开始进行反向回溯搜索。报警节点/>的先行集，也就是当前的可达概率矩阵中第k列中元素值为1的行编号为j的节点集/>，就是导致/>报警的候选故障源，由此得到报警节点/>的初始故障源候选集/>。按此方法遍历完所有报警节点后，查看各报警节点的初始故障源候选集/>中的节点是否有交集，若有，则说明报警节点是有关联的，若无，则说明该报警节点/>是一个独立报警，将有关联的报警节点/>划分在同一个报警集/>中，m表示报警集编号。同时，将一个报警集中所有报警节点/>对应先行集合并至同一个故障源候选集中，说明这些故障是有关联的，有利于后续计算后验故障概率。此外可以看出，报警集和故障源候选集是一对一的关系。

步骤208，当报警集中的报警节点均不在分层有向图中的第一层时，计算报警集对应的故障源候选集中各故障源节点的后验故障概率，具体步骤如下：

从当前的可达概率矩阵中提取故障源候选集中故障源节点的除自身以外的可达集，根据故障源节点的故障概率、故障源节点与其可达集中各节点的节点间故障传播概率以及故障源节点被搜索到次数，计算得到对应故障源节点的后验故障概率；

其中，被搜索到次数是根据对应故障源节点的先行集统计得到的。

步骤210，根据各故障源节点的后验故障概率确定各故障源节点所属设备的设备故障概率，根据设备故障概率从高到低依次对各个设备进行故障隔离，直至对应的报警节点解除报警，并定位得到故障设备，然后对故障设备上的故障节点的节点故障概率，以及故障节点与报警节点的节点间故障传播概率进行更新，得到新的可达概率矩阵以及对应的新的节点故障概率。

故障隔离是指由系统管理软件下发切换或复位指令给设备，对于有硬件冗余的设备，优先下发切换指令；对于无备份的设备，则下发复位指令。若设备不响应系统管理软件的指令，则标记该设备故障隔离失败；若设备执行了系统管理软件下发的指令且系统能恢复正常，则确认故障位置，诊断结束；若设备执行了系统管理软件下发的指令但故障告警未解除，则该设备不是故障设备，继续对下一个设备进行故障隔离，直到遍历完所有设备或故障报警解除。若遍历完所有设备但故障告警未解除，则自动诊断结束，需人工介入。

可以看到，在本方案中，可达概率矩阵会根据通信系统的实际故障诊断过程和结果进行更新，如此相当于故障诊断成功经验的积累，这样随着诊断经验不断丰富，可达概率矩阵中的故障传播概率不断贴合通信系统的实际故障传播情况，此外，各个节点的节点故障概率的初始值是根据节点所属设备前期可靠性设置的，当某节点确定发生了故障，那么需要更新其对应的节点故障概率，作为下一次计算后验故障概率的输入，也就是说，节点故障概率也会随着实际故障情况而更新，使其更贴合通信系统的运行状况。这样，在故障设备定位操作时，设备故障概率会越来越准确，由此，故障诊断会越来越准确及时。

上述一种基于概率有向图深度学习的故障诊断方法中，得到当前的报警节点集后，从当前的可达概率矩阵中提取每一报警节点的先行集，并将先行集中节点存在交集的报警节点划分至同一报警集中，得到多个报警集，同时将每一报警集中所有报警节点对应先行集合并至同一个故障源候选集中，得到对应的多个故障源候选集，当报警集中的报警节点均不在分层有向图中的第一层时，计算报警集对应的故障源候选集中各故障源节点的后验故障概率，即，从当前的可达概率矩阵中提取故障源候选集中故障源节点的除自身以外的可达集，根据故障源节点的节点故障概率、故障源节点与其可达集中各节点的节点间故障传播概率以及故障源节点的被搜索到次数，计算得到对应故障源节点的后验故障概率；然后，根据各故障源节点的后验故障概率确定各故障源节点所属设备的设备故障概率，根据设备故障概率从高到低依次对各个设备进行故障隔离，直至对应的报警节点解除报警，并定位得到故障设备，然后对故障设备上的故障节点的节点故障概率，以及故障节点与报警节点的节点间故障传播概率进行更新，得到新的可达概率矩阵以及对应的新的节点故障概率，可看出，可达概率矩阵和节点故障概率会根据通信系统的实际故障诊断过程和结果进行更新，相当于故障诊断成功经验的积累，这样随着诊断经验不断丰富，可达概率矩阵中的故障传播概率不断贴合通信系统的实际故障传播情况，在故障设备定位操作时，设备故障概率会越来越准确，由此，故障诊断会越来越准确及时。综上，采用本发明可以及时准确地进行通信系统的故障诊断。

在一个实施例中，所述方法还包括：当报警集中存在位于分层有向图中第一层的报警节点时，直接对位于分层有向图中第一层的报警节点的所属设备进行故障隔离。

也就是说，在多个报警集中，若某一报警集中有报警节点位于分层有向图中第一层，则直接对该报警节点所属设备进行故障隔离，但对该报警集中不位于分层有向图中第一层的报警节点所属设备不做故障隔离处理；否则，需要进一步确定故障源节点的后验故障概率和故障源节点所属设备的设备故障概率，并按照设备故障概率高低依次进行判断。

在一个实施例中，从当前的可达概率矩阵中提取故障源候选集中故障源节点的除自身以外的可达集，根据故障源节点的当前节点故障概率、故障源节点与其可达集中各节点的节点间故障传播概率和以及故障源节点的被搜索到次数，计算得到对应故障源节点的后验故障概率，包括：

其中，/>表示故障源候选集中的故障源节点，/>表示故障源节点的后验故障概率，/>表示可达集中的节点数量，/>表示可达集中的节点，/>表示故障源节点的健康状态，/>表示故障源节点发生故障，/>表示故障源节点未发生故障，/>表示故障源节点的节点故障概率，/>表示故障源节点的未发生故障的概率，表示可达集中的节点与故障源节点之间的节点间传播概率，即故障从可达集中的节点传播到故障源候选集中故障源节点的概率。

在一个实施例中，对故障设备上的故障节点的节点故障概率，以及故障节点与报警节点的当前节点间故障传播概率进行更新，得到新的可达概率矩阵，包括：

将故障设备上后验故障概率最高的故障源节点的节点故障概率更新为对应的后验故障概率。确定了故障设备之后，需要更新故障节点的节点故障概率，此时，是对计算得到的后验故障概率最大的故障源节点进行更新，如果存在后验故障概率最大且相同故障源节点，则更新在分层有向图中层级高的故障源节点。

同时，根据报警节点与直接指向报警节点的故障源节点间的待更新节点间故障传播概率的包括当前更新的更新次数，对待更新节点间故障传播概率进行更新，得到新的可达概率矩阵。

也就是说，在确定了故障设备后，更新后验故障概率最高的节点的故障概率以及直接指向报警节点的故障传播概率，其它节点的故障概率以及其他指向报警节点的故障传播概率不更新。

在一个实施例中，根据报警节点与直接指向报警节点的故障源节点间的待更新节点间故障传播概率的包括当前更新的更新次数，对待更新节点间故障传播概率进行更新，包括：

根据报警节点与直接指向报警节点的故障源节点间的当前的节点间故障传播概率，以及节点间故障传播概率的包括当前更新的更新次数，对待更新节点间故障传播概率进行更新：

；

其中，表示直接指向报警节点的故障源节点/>与报警节点/>的节点间故障传播概率，/>表示更新后的直接指向报警节点的故障源节点/>与报警节点/>的节点间故障传播概率，/>表示直接指向报警节点的故障源节点/>与报警节点/>的节点间故障传播概率的包括当前更新的更新次数，/>，表示故障收敛因子。

在一个实施例中，根据各故障源节点的后验故障概率确定各故障源节点所属设备的设备故障概率，包括：

将设备的设备故障概率定义为所属故障源节点的后验故障概率最大值：

；

其中，表示第/>台设备，/>表示第/>台设备的设备故障概率，/>表示故障源节点，/>表示故障源节点的后验故障概率。

在一个实施例中，所述方法还包括：若存在设备当前处于热备份状态，且处于热备份状态的设备的节点无信号流输出，则将当前的可达概率矩阵中的热备份状态无信号流输出的节点的直接流出边对应的元素置为0。

若处于热备份状态的设备的节点无信号流输出，表示其不会进行故障传播，其故障传播概率为0，因此根据实际情况在当前故障诊断中，将该节点的直接流出边对应的元素置为0。

在一个实施例中，初始可达概率矩阵中元素的初始值设置步骤如下：

当无法获知元素的初始值时，按照下述方法设置初始值：

若一个节点到另一个节点之间存在直接有向边或间接有向边，将对应的元素的初始值设置为一个非零小数；

若一个节点到另一个节点之间不存在直接有向边或间接有向边，将对应的元素的初始值设置为0；

当能够获知元素的初始值时，即能够由专家根据系统设计、经验、历史记录给出初始值时，按照专家给出值设置元素的初始值。

如图3所示，提供基于概率有向图深度学习的故障诊断方法的具体流程图。

如图4所示，以一个简单系统为例说明故障诊断过程。首先，完成分层有向图的建模过程。某系统有A，B，C，D四个单机设备，经过基于规则的专家系统分析，单机A有节点，，B有节点/>，/>，C有节点/>，D有节点/>，且单机A，B为热备份，其故障传播有向图和分层有向图模型如图5所示，其可达概率矩阵P可写为：

属于第一层节点，/>属于第二层节点，/>属于第三层节点。考虑到单机B处于热备份状态且其节点/>无信号输出，因此，可达概率矩阵中p₃₅和p₃₆设为0，可达概率矩阵P更新为下式：

当设备B节点，以及设备D节点v₆发生报警时，进行如下故障诊断操作：

步骤1：首先通过反向搜索的方法确定所有报警节点是否关联，的先行集，/>的先行集/>。由于/>和/>中的故障源节点不重合，因此认为节点/>和/>是2个独立报警，属于不同故障集合。

步骤2：报警节点属于第1层节点，因此直接对节点/>所属设备B进行故障隔离。

步骤3：报警节点属于第3层节点，如表1所示，报警节点/>的先行集/>中所有故障源节点被搜索到的次数分别为：

表1 报警节点的先行集/>中所有故障源节点被搜索到的次数

步骤2：计算各个故障源节点的故障概率。根据设备前期可靠性设计，可预先设置各节点的故障概率。在本实施例中，假设各节点故障概率为：

，

可达概率矩阵的初始值设为：

对于故障源候选集中的节点，以节点/>为例，除自身以外的可达集/>，并且从系统运行中获知节点v₅的健康状态/>，/>。按下式计算节点/>的后验故障概率/>：

同样方法，可计算出节点的后验概率为0.001，节点/>的后验概率为0.002，节点的后验概率为0.001，节点/>的后验概率为0.003。

步骤3：设备的故障概率取所属节点中故障概率最大值，因此各单机的故障概率如表2所示：

表2 各单机设备的故障概率

根据故障概率，先对设备A进行故障隔离，如进行主备切换，或复位，或设备更换，若故障隔离后节点报警解除，则定位为设备A故障，同时故障隔离模型将隔离效果反馈给推理诊断模块，推理诊断模型更新故障传播概率/>：

；

同时将节点的故障概率更新为其后验概率0.004，其它节点的故障概率和故障传播概率保持不变。

若对设备A进行故障隔离后节点报警未解除，则对设备D进行故障隔离，如进行复位或设备更换，若故障隔离后节点/>报警解除，则定位为设备D故障。

若对设备D进行故障隔离后节点报警未解除，则对设备B进行故障隔离，如进行复位或设备更换，若故障隔离后节点/>报警解除，则定位为设备B故障，同时故障隔离模型将隔离效果反馈给推理诊断模块，推理诊断模型更新故障传播概率/>：

；

同时将节点的故障概率更新为其后验概率0.002，其它节点的故障概率和故障传播概率保持不变。

若对设备B进行故障隔离后节点报警未解除，则对设备C进行故障隔离，如进行复位或设备更换，若故障隔离后节点/>报警解除，则定位为设备C故障。同时故障隔离模型将隔离效果反馈给推理诊断模块，推理诊断模型更新故障传播概率p₅₆：

；

同时将节点的故障概率更新为其后验概率0.001，其它节点的故障概率和故障传播概率保持不变。

以上就完成了一次完整的故障处理流程。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种基于概率有向图深度学习的故障诊断系统，包括：状态采集模块、推理诊断模块、故障处置模块和人机交互界面，其中：

状态采集模块用于读取通信系统运行时设备的状态参数，同时将状态参数与失效门限值进行比较，若状态参数超过对应的失效门限值，则产生报警信息，并将报警节点信息发送至推理诊断模块；其中，通信系统中的节点是通过定义通信系统中的监控点以及监控点之间的故障传播路径，然后将故障传播路径相同的监控点合并为一个节点而得到的。

状态采集模块由部署在系统各个设备内的传感器和检测模块构成，实现对设备运行时的工作状态和工作参数进行周期性读取，同时将关键状态信息与失效门限值比较，若超过门限值则产生告警信息，然后将工作状态、工作参数和告警信息都发送给推理诊断模块。

通过人机交互界面，用户可以实时查看系统状态，进行下发指令、增减节点等操作。若增加新的监控节点，则需要增加节点来表示。

关于一种基于概率有向图深度学习的故障诊断系统的具体限定可以参见上文中对于概率有向图深度学习的故障诊断方法的限定，在此不再赘述。在本申请所提供的实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的相合或直接相合或通信连接可以是通过一些接口，装置或单元的间接相合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM，Read-Only Memory) 、随机存取存储器(RAM，Random Access Memory) 、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于概率有向图深度学习的故障诊断方法，其特征在于，所述方法包括：

获取通信系统的节点集；所述节点集是通过定义通信系统中的监控点以及监控点之间的故障传播路径，然后将故障传播路径相同的监控点合并为一个节点而得到的；

获取当前的可达概率矩阵和根据初始可达概率矩阵得到的分层有向图；所述可达概率矩阵中的元素表示节点间故障传播概率；所述分层有向图中，每一层至少有一个节点；

根据各故障源节点的后验故障概率确定各故障源节点所属设备的设备故障概率，根据设备故障概率从高到低依次对各个设备进行故障隔离，直至对应的报警节点解除报警，并定位得到故障设备，然后对所述故障设备上的故障节点的节点故障概率，以及故障节点与报警节点的节点间故障传播概率进行更新，得到新的可达概率矩阵以及对应的新的节点故障概率。

2.根据权利要求1所述的方法，其特征在于，从当前的可达概率矩阵中提取故障源候选集中故障源节点的除自身以外的可达集，根据故障源节点的当前节点故障概率、故障源节点与其可达集中各节点的节点间故障传播概率和以及故障源节点的被搜索到次数，计算得到对应故障源节点的后验故障概率，包括：

；

其中，表示故障源候选集中的故障源节点，/>表示故障源节点的后验故障概率，/>表示可达集中的节点数量，/>表示可达集中的节点，/>表示故障源节点的健康状态，表示故障源节点发生故障，/>表示故障源节点未发生故障，表示故障源节点的节点故障概率，/>表示故障源节点的未发生故障的概率，/>表示可达集中的节点与故障源节点之间的节点间传播概率，即故障从可达集中的节点传播到故障源候选集中故障源节点的概率。

3.根据权利要求1所述的方法，其特征在于，对所述故障设备上的故障节点的节点故障概率，以及故障节点与报警节点的当前节点间故障传播概率进行更新，得到新的可达概率矩阵，包括：

将所述故障设备上后验故障概率最高的故障源节点的节点故障概率更新为对应的后验故障概率；

同时，根据报警节点与直接指向所述报警节点的故障源节点间的待更新节点间故障传播概率的包括当前更新的更新次数，对所述待更新节点间故障传播概率进行更新，得到新的可达概率矩阵。

4.根据权利要求3所述的方法，其特征在于，将所述故障设备上后验故障概率最高的故障源节点的节点故障概率更新为对应的后验故障概率，包括：

当所述故障设备上存在一个以上后验故障概率最高的故障源节点，则将其中在分层有向图中层级更高的故障源节点的节点故障概率更新为对应的后验故障概。

5.根据权利要求3所述的方法，其特征在于，根据报警节点与直接指向所述报警节点的故障源节点间的待更新节点间故障传播概率的包括当前更新的更新次数，对所述待更新节点间故障传播概率进行更新，包括：

根据报警节点与直接指向所述报警节点的故障源节点间的当前的节点间故障传播概率，以及所述节点间故障传播概率的包括当前更新的更新次数，对所述待更新节点间故障传播概率进行更新：

；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当报警集中存在位于分层有向图中第一层的报警节点时，直接对位于分层有向图中第一层的报警节点的所属设备进行故障隔离，对不位于分层有向图中第一层的报警节点所属设备不做故障隔离处理。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若存在设备当前处于热备份状态，且处于热备份状态的设备的节点无信号流输出，则将当前的可达概率矩阵中的热备份状态无信号流输出的节点的直接流出边对应的元素置为0。

8.根据权利要求1所述的方法，其特征在于，所述初始可达概率矩阵中元素的初始值设置步骤如下：

当无法获知元素的初始值时，按照下述方法设置初始值：

若一个节点到另一个节点之间不存在直接有向边或间接有向边，将对应的元素的初始值设置为0。

9.根据权利要求1所述的方法，其特征在于，根据各故障源节点的后验故障概率确定各故障源节点所属设备的设备故障概率，包括：

将设备故障概率定义为所属故障源节点的后验故障概率最大值：

；

10.一种基于概率有向图深度学习的故障诊断系统，其特征在于，所述系统包括：

所述状态采集模块用于读取通信系统运行时设备的状态参数，同时将所述状态参数与失效门限值进行比较，若所述状态参数超过对应的失效门限值，则产生报警信息，并将报警节点信息发送至推理诊断模块；其中，通信系统中的节点是通过定义通信系统中的监控点以及监控点之间的故障传播路径，然后将故障传播路径相同的监控点合并为一个节点而得到的；

所述推理诊断模块用于根据通信系统中的节点和故障传播路径构建初始可达概率矩阵，并根据所述初始可达概率矩阵建立分层有向图；其中可达概率矩阵中的元素表示节点间故障传播概率；所述分层有向图中，每一层至少有一个节点；

所述推理诊断模块还用于接收所述状态采集模块发送的报警节点信息，得到当前的报警节点集，从当前的可达概率矩阵中提取每一报警节点的先行集，将先行集中节点存在交集的报警节点划分至一个报警集中，同时将每一报警集中所有报警节点对应先行集合并至同一个故障源候选集中，当报警集中的报警节点均不在分层有向图中的第一层时，计算报警集对应的故障源候选集中各故障源节点的后验故障概率，具体步骤如下：从当前的可达概率矩阵中提取故障源候选集中故障源节点的除自身以外的可达集，根据故障源节点的节点故障概率、故障源节点与其可达集中各节点的节点间故障传播概率以及故障源节点的被搜索到次数，计算得到对应故障源节点的后验故障概率；其中，被搜索到次数是根据对应报警节点的先行集统计得到的；然后根据各故障源节点的后验故障概率确定各故障源节点所属设备的设备故障概率；

所述故障处置模块用于根据设备故障概率从高到低依次对各个设备进行故障隔离，直至对应的报警节点解除报警，并定位得到故障设备，并将故障隔离结果反馈给所述推理诊断模块；

所述推理诊断模块还用于接收所述故障处置模块反馈的故障隔离结果，对所述故障设备上的故障节点的节点故障概率，以及故障节点与报警节点的节点间故障传播概率进行更新，得到新的可达概率矩阵以及对应的新的节点故障概率；

所述人机交互界面用于实现故障诊断系统与用户之间的信息交换。