CN112039695A

CN112039695A - 基于贝叶斯推理的传输网络故障定位方法及装置

Info

Publication number: CN112039695A
Application number: CN202010834607.5A
Authority: CN
Inventors: 李洪人; 张志国; 梁荣余; 刘峰; 张�杰
Original assignee: Beijing Jiaotong University; Shuohuang Railway Development Co Ltd Suning Branch
Current assignee: Beijing Jiaotong University; Shuohuang Railway Development Co Ltd Suning Branch
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-12-04

Abstract

本发明公开了一种基于贝叶斯推理的传输网络故障定位方法及装置，其中，方法包括：获取所有网络故障原因和对应的所有网络故障的告警事件；根据各个网络故障原因、各个告警事件和网络故障原因和告警事件之间的因果关系构建贝叶斯推理模型，并进行参数初始化；确定贝叶斯推理模型中每个故障节点的当前信念，和具有因果关系的故障节点和告警节点之间的条件概率；当有告警节点发生告警事件时，输出告警证据信息至关联故障节点；控制每个故障节点根据当前接收到的关联告警节点的总告警证据信息、每个故障节点的当前信念，和故障节点和关联告警节点之间的条件概率计算对应的更新后的信念；根据每个故障节点对应的更新后的信念确定最终告警故障原因。

Description

基于贝叶斯推理的传输网络故障定位方法及装置

技术领域

本发明涉及故障定位技术领域，更具体地，涉及一种基于贝叶斯推理的传输网络故障定位方法及装置。

背景技术

铁路光传输网作为铁路长距离、大容量信息传送的主要承载方式，完成了多种类型、不同颗粒度的业务传输和调度。虽然采取了多种技术、多种手段保证了传输网的安全，但故障是不可避免的。任何一个微小的故障都可能会触发大量告警，导致网络失序，甚至引发告警风暴，严重威胁铁路运输安全。在网络告警风暴状态下，即使有经验的网络管理人员，面对在极短时间内爆发出的大量告警也会变得极度慌乱，只能对告警做确认处理，从而导致大量告警信息被忽略，关键告警不能被及时处理，告警根源不能被及时定位。1994年发生在英国米尔福德港的德士古炼油厂爆炸事故报告中指出，在爆炸发生前的10.7分钟内，两个管理人员需要识别、确认和处理275个告警。工业标准ANSI_ISA_18.2(2016)和EEMUA-191(2013)中指出系统在10分钟内发生超过10个告警即可定义告警风暴发生。标准EEMUA-191建议每个网络管理人员每1小时处理不超过6个告警。因此，从本质上说，一个有效的网络故障根源定位方法对网络管理者至关重要，它可以帮助运维人员在大量告警场景下快速、准确的定位故障，缩短故障恢复时间，提高网络运营维护效率和管理水平。

故障是问题的根源。一个故障的发生可能是由于网络硬件或者软件功能失效导致其不能完成其规定的功能，从而导致整个网络性能降低，甚至功能完全丧失。告警是故障的外部症状，故障与告警之间存在因果关系。在现实的网络维护中，经常经历由于一个故障发生而导致大量告警上报的场景，例如上述告警风暴。这种现象表面看似是告警在网络中传播，但其背后的本质是故障在网络中按照其内在的逻辑层级在传播。告警一般是由网络硬件或者软件供应商定义和发布，我们可以很容易的从供应商提供的告警管理系统获取到告警信息，告警信息的根源即故障一般不能被直接观察。通过对观察到的大量告警信息进行有效分析，为研究故障定位问题提供了一条有效的技术途径。

告警关联规则挖掘和告警模式匹配是告警分析，故障定位的一种有效方法和工具。数据关联规则挖掘是从大量的告警数据中提取隐含的、未知的、潜在有用信息，构建和丰富规则知识库，以形成有效的形式化规则匹配语言。现有文献中利用神经网络将不同级别的告警分类，避免丢失非频繁而重要的项，以提高挖掘精度。同时将不同类别的告警分配不同的权重，优化频繁模式树结构，提高规则挖掘效率。还有文献研究了告警风暴下告警发生模式，相同的故障会导致相似的告警发生序列，因此采用局部对齐算法(Smith–Waterman，basic local alignment search tool)，将正在发生的告警与历史上发生的告警序列对进行模式匹配，以形成有效的故障预测和故障诊断。上述基于规则挖掘的告警关联分析和基于局部对齐的告警模式匹配的故障定位方法不需要深度理解网络架构和运行机理，仅可以依靠表面的知识规则对故障进行定位。但该方法存在不能处理新问题，不能很好的适应拓扑结构频繁发生变化的网络故障分析。新兴的基于数据驱动的机器学习和数据统计方法拥有强大的知识学习和数据归纳能力，具有处理复杂问题的能力，也已被广泛应用于故障诊断领域。有文献提出一种基于深度学习的方法训练告警数据集，建立基于动态贝叶斯网络(DBN)的通信网络故障诊断模型，应用于智能变电站的通信网络故障诊断与定位。但该方法数据训练时间长，对训练之外的异常事件行为难以预测和诊断，而且其缺失的数据解释和因果推理能力的问题也逐渐暴露。

发明内容

鉴于上述问题，本发明提出了一种基于贝叶斯推理的传输网络故障定位方法和相应的装置，其可以以接收到的大量告警信息为推理证据，依赖告警与故障之间的因果关系推理与判断，在潜在故障中发现最大可能触发这些告警发生的根源故障，并对根源故障不断修正，实现精准的故障根源定位目的。

根据本发明实施例的第一方面，提供一种基于贝叶斯推理的传输网络故障定位方法，所述方法包括：

获取所有网络故障原因和对应的所有网络故障的告警事件；

根据各个网络故障原因、各个告警事件和网络故障原因和告警事件之间的因果关系构建贝叶斯推理模型，并进行贝叶斯推理模型的参数初始化，其中，所述贝叶斯推理模型包括故障层和告警层，所述故障层包括各个网络故障原因对应的故障节点，所述告警层包括各个告警事件对应的告警节点，每个网络故障原因和每个告警事件均对应一个节点，每个故障节点和与其具有因果关系的关联告警节点之间均具有连接链路；

确定贝叶斯推理模型中每个故障节点的当前信念，和具有因果关系的故障节点和告警节点之间的条件概率；

当有告警节点发生告警事件时，输出告警证据信息至与其具有因果关系的关联故障节点，其中，告警证据信息包括：支持故障证据信息和抑制故障证据信息；

控制每个故障节点根据当前接收到的关联告警节点的总告警证据信息、每个故障节点的当前信念，和故障节点和关联告警节点之间的条件概率计算对应的更新后的信念；

根据每个故障节点对应的更新后的信念确定最终告警故障原因。

在一个实施例中，优选地，贝叶斯推理模型的参数初始化过程包括：

为每个故障节点分配一个初始先验概率；

获取历史样本数据，并根据历史样本数据和拉普拉斯平滑定理计算各个故障节点和对应的关联告警节点之间的条件概率；

根据所述初始先验概率和所述条件概率，确定在没有告警节点发生告警事件的情况下，各个故障节点对应的当前信念。

在一个实施例中，优选地，每个故障节点的更新后的信念采用以下第一计算公式计算得到：

其中，bel(f)表示故障节点F更新后的信念，α是标准化常数，((bel⁰(f))′,(bel¹(f))′)表示故障节点F的当前信念，(λ⁰(f)，λ¹(f))表示总告警证据信息，其中，λ¹(f)表示总支持故障证据信息，λ⁰(f)表示总抑制故障证据信息；

所述总支持故障证据信息采用以下第二计算公式计算得到：

所述抑制故障证据信息采用以下第三计算公式计算得到：

其中，λ¹(f)表示所述总支持故障证据信息，λ⁰(f)表示所述总抑制故障证据信息，其中，

表示关联告警节点A_i的支持故障证据信息，

表示关联告警节点A_i的抑制故障证据信息，n表示故障节点对应的关联告警节点的总个数。

在一个实施例中，优选地，各个告警节点输出的告警证据信息采用以下方式确定：

确定告警节点拥有的关联故障节点的个数；

当所述告警节点只有一个关联故障节点时，确定所述告警证据信息为

其中，c_i表示告警节点A和第i个关联故障节点之间的条件概率；

当所述告警节点有多个关联故障节点时，所述告警证据信息采用以下第四计算公式计算得到：

其中，

表示关联告警节点A的支持故障证据信息，

表示关联告警节点A的抑制故障证据信息，λ¹(a_i)表示告警节点A支持发生告警的支持度，λ⁰(a_i)表示告警节点A抑制发生告警的支持度，c_i表示告警节点A和第i个关联故障节点之间的条件概率，c_k表示告警节点A和第k个关联故障节点之间的条件概率，

表示告警节点A对应的除第i个关联故障节点外其他所有关联故障节点抑制其发生告警的支持度，(bel¹(f_k)′,bel⁰(f_k)′)为故障节点F的当前信念。

在一个实施例中，优选地，根据所述初始先验概率和所述条件概率，确定在没有告警节点发生告警事件的情况下，各个故障节点对应的当前信念，包括：

根据第五计算公式计算各个告警节点接收到的关联故障节点发送来的第一信息π(a)＝(π⁰(a),π¹(a))，根据第六计算公式计算各个告警节点的信念；

控制各个告警节点确定初始告警证据信息，并发送初始告警证据信息至各个关联故障节点；

控制每个故障节点根据当前接收到的关联告警节点的总初始告警证据信息、每个故障节点的初始先验概率采用第七计算公式计算对应的当前信念；

所述第五计算公式为：

其中，m表示告警节点A拥有的关联故障节点的数目，c_i表示告警节点A和第i个关联故障节点之间的条件概率，(bel¹(f_i)′,bel⁰(f_i)′)为故障节点F的初始先验概率，a＝0,a＝1分别表示告警节点A发生与没有发生告警事件的假设，

表示告警节点A的所有关联故障节点抑制其发生告警的支持度；

所述第六计算公式为：

其中，bel(a)表示告警节点A更新后的信念，α是标准化常数，((bel⁰(a))′,(bel¹(a))′)表示告警节点A的当前信念，a＝0,a＝1分别表示告警节点A发生与没有发生告警事件的假设；

所述第七计算公式为：

其中，bel(f)’表示故障节点F的初始信念，α是标准化常数，((bel⁰(f_i))′,(bel¹(f_i))′)表示故障节点F的初始先验概率，(λ⁰(f)，λ¹(f))表示总告警证据信息，其中，λ¹(f)表示总支持故障证据信息，λ⁰(f)表示总抑制故障证据信息。

在一个实施例中，优选地，根据每个故障节点对应的更新后的信念确定最终告警故障原因，包括:

从所有故障节点对应的更新后的信念中查找出更新后的信念最大的目标故障节点；

将所述目标故障节点对应的网络故障原因确定为所述最终告警故障原因。

根据本发明实施例的第二方面，提供一种基于贝叶斯推理的传输网络故障定位装置，所述装置包括：

获取模块，用于获取所有网络故障原因和对应的所有网络故障的告警事件；

模型构建模块，用于根据各个网络故障原因、各个告警事件和网络故障原因和告警事件之间的因果关系构建贝叶斯推理模型，并进行贝叶斯推理模型的参数初始化，其中，所述贝叶斯推理模型包括故障层和告警层，所述故障层包括各个网络故障原因对应的故障节点，所述告警层包括各个告警事件对应的告警节点，每个网络故障原因和每个告警事件均对应一个节点，每个故障节点和与其具有因果关系的关联告警节点之间均具有连接链路；

第一确定模块，用于确定贝叶斯推理模型中每个故障节点的当前信念，和具有因果关系的故障节点和告警节点之间的条件概率；

证据输出模块，用于当有告警节点发生告警事件时，输出告警证据信息至与其具有因果关系的关联故障节点，其中，告警证据信息包括：支持故障证据信息和抑制故障证据信息；

计算模块，用于控制每个故障节点根据当前接收到的关联告警节点的总告警证据信息、每个故障节点的当前信念，和故障节点和关联告警节点之间的条件概率计算对应的更新后的信念；

第二确定模块，用于根据每个故障节点对应的更新后的信念确定最终告警故障原因。

在一个实施例中，优选地，所述模型构建模块包括：

分配单元，用于为每个故障节点分配一个初始先验概率；

计算单元，用于获取历史样本数据，并根据历史样本数据和拉普拉斯平滑定理计算各个故障节点和对应的关联告警节点之间的条件概率；

确定单元，用于根据所述初始先验概率和所述条件概率，确定在没有告警节点发生告警事件的情况下，各个故障节点对应的当前信念。

所述总支持故障证据信息采用以下第二计算公式计算得到：

所述抑制故障证据信息采用以下第三计算公式计算得到：

表示关联告警节点A_i的支持故障证据信息，

确定告警节点拥有的关联故障节点的个数；

其中，

表示关联告警节点A的支持故障证据信息，

在一个实施例中，优选地，所述确定单元用于：

所述第五计算公式为：

所述第六计算公式为：

所述第七计算公式为：

在一个实施例中，优选地，所述第二确定模块包括:

查找单元，用于从所有故障节点对应的更新后的信念中查找出更新后的信念最大的目标故障节点；

故障确定单元，用于将所述目标故障节点对应的网络故障原因确定为所述最终告警故障原因。

本发明实施例中，根据各个网络故障原因、各个告警事件和网络故障原因和告警事件之间的因果关系构建贝叶斯推理模型，并以接收到的大量告警信息为推理证据，依赖告警与故障之间的因果关系通过贝叶斯推理模型进行推理与判断，在潜在故障中发现最大可能触发这些告警发生的根源故障，并对根源故障不断修正，实现精准的故障根源定位目的。

根据本发明实施例的第三方面，提供一种基于贝叶斯推理的传输网络故障定位装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取所有网络故障原因和对应的所有网络故障的告警事件；

根据本发明实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时实现第一方面中任一项所述方法的步骤。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的一种基于贝叶斯推理的传输网络故障定位方法流程图。

图2A是本发明一个实施例的贝叶斯推理模型的示意图。

图2B是本发明一个实施例的贝叶斯推理模型的信息流动示意图。

图3是本发明一个实施例的一种基于贝叶斯推理的传输网络故障定位方法中参数初始化过程的流程图。

图4是本发明一个实施例的一种基于贝叶斯推理的传输网络故障定位方法中步骤S106的流程图。

图5是本发明一个实施例的断纤与单板故障贝叶斯推理模型的示意图。

图6是本发明一个实施例的告警证据对故障定位信息跟踪的示意图。

图7是本发明一个实施例的故障推理信息迭代过程及时间花费的示意图。

图8是本发明一个实施例的一种基于贝叶斯推理的传输网络故障定位装置的示意框图。

图9是本发明一个实施例的一种基于贝叶斯推理的传输网络故障定位装置中模型构建模块的示意框图。

图10是本发明一个实施例的一种基于贝叶斯推理的传输网络故障定位装置中第二确定模块的示意框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

贝叶斯网络是一种概率图模型，结合专家经验和数据学习知识，可以有效的处理各种因果关系表示和知识推理，被视为人工智能在不确定性环境下进行因果推理的主导范式，被认为是目前最强大、最流行的故障分析方法之一，已被广泛应用于可靠性工程、风险分析和安全工程等领域。贝叶斯网络推理提供了一种根据观察到的症状证据对先验判断进行不断修正，最后得到修正后的判断的客观方法，其修正模型为，先验判断+修正证据＝修正后的判断。本发明基于贝叶斯网络的这种推理范式，将故障根源定位问题转化为求解最大可能解释告警发生的概率问题。该方法以接收到的大量告警信息为推理证据，依赖告警与故障之间的因果关系推理与判断，在潜在故障中发现最大可能触发这些告警发生的根源故障，并对根源故障不断修正，实现精准的故障根源定位目的。

图1是本发明一个实施例的一种基于贝叶斯推理的传输网络故障定位方法流程图，如图1所示，基于贝叶斯推理的传输网络故障定位方法包括：

步骤S101，获取所有网络故障原因和对应的所有网络故障的告警事件。

其中，在网络传输设备的产品说明书中，明确定义了每个故障和每个告警事件，因此，可以直接从产品说明中，获取网络故障原因和告警事件。告警事件还可以从日常网络管理告警服务器所记录的每天的告警日志中获取。

步骤S102，根据各个网络故障原因、各个告警事件和网络故障原因和告警事件之间的因果关系构建贝叶斯推理模型，并进行贝叶斯推理模型的参数初始化，其中，所述贝叶斯推理模型包括故障层和告警层，所述故障层包括各个网络故障原因对应的故障节点，所述告警层包括各个告警事件对应的告警节点，每个网络故障原因和每个告警事件均对应一个节点，每个故障节点和与其具有因果关系的关联告警节点之间均具有连接链路。

贝叶斯网络又称为信念网络，是一个有向无环图。如图2A所示，在本发明中，建模一个由故障层和告警层组成的贝叶斯推理模型。在该两层的故障推理模型中，每个节点表示一个域为{0,1}的二值变量，例如，故障事件变量F或告警事件变量A，1值表示该变量发生了异常事件，0值则表示该变量没有经历异常事件。连接两个节点之间的连接链路表示这两个变量之间的因果关系，其强度用条件概率p(A|F)来度量。在发明中规定，如果一个节点所表示的变量经历了异常事件，即发生了故障或告警，则称该节点被实例化，被实例化的节点信念为1。

在贝叶斯非确定性推理过程中，推理信息模型跟踪每一个故障或者告警变量的状态变化，并跟踪这种变化对其他故障或告警变量状态的影响。故障或者告警事件产生的影响会在贝叶斯网络中流动，网络中的每个节点接收其父节点(故障节点)和子节点(告警节点)发送来的信息，然后基于接收到的这些信息更新信念。图2B显示了故障-告警两层贝叶斯网络信息流动过程，图中故障-告警两层贝叶斯网络是一个单链接网络，网络中任何两个节点间最多只有一条路径。

准确的构建贝叶斯网络结构和评估网络参数(事件的先验概率和条件概率)是进行贝叶斯推理的前置条件。贝叶斯网络结构表征了故障与告警之间存在的因果关系，而条件概率表征了具有因果关系的故障与告警之间因果关系的度量。快速、准确的贝叶斯推理依赖于准确的贝叶斯网络结构和网络参数。构建贝叶斯网络结构和评估网络参数通常联合专家知识经验和机器学习的方法获取。

卡方检验是一种常用的数据统计检验方法，常用来比较观察到的数据与根据特定假设期望获得的数据两者之间的偏离，值χ²表示了这种偏离程度。利用卡方检验来构建贝叶斯推理结构。其形式如下，

式中，r_a,r_b分别表示变量a和b的状态数，在本发明中所有变量都是{0,1}二值变量。O_ab,T_ab分别表示节点a和节点b之间关系的统计数据值和理论数据值。其中，自由度df＝1，显著水平α＝0.05.如果值χ²超过基于df＝1，α＝0.05的临界值，则表示先前的假设无效，也即在贝叶斯网络中没有连接节点a与节点b的边。

步骤S103，确定贝叶斯推理模型中每个故障节点的当前信念，和具有因果关系的故障节点和告警节点之间的条件概率；

步骤S104，当有告警节点发生告警事件时，输出告警证据信息至与其具有因果关系的关联故障节点，其中，告警证据信息包括：支持故障证据信息和抑制故障证据信息；

步骤S105，控制每个故障节点根据当前接收到的关联告警节点的总告警证据信息、每个故障节点的当前信念，和故障节点和关联告警节点之间的条件概率计算对应的更新后的信念；

步骤S106，根据每个故障节点对应的更新后的信念确定最终告警故障原因。

在该实施例中，根据各个网络故障原因、各个告警事件和网络故障原因和告警事件之间的因果关系构建贝叶斯推理模型，并以接收到的大量告警信息为推理证据，依赖告警与故障之间的因果关系通过贝叶斯推理模型进行推理与判断，在潜在故障中发现最大可能触发这些告警发生的根源故障，并对根源故障不断修正，实现精准的故障根源定位目的。

如图3所示，在一个实施例中，优选地，贝叶斯推理模型的参数初始化过程包括：

步骤S301，为每个故障节点分配一个初始先验概率；

步骤S302，获取历史样本数据，并根据历史样本数据和拉普拉斯平滑定理计算各个故障节点和对应的关联告警节点之间的条件概率；

利用拉普拉斯平滑定理评估具有因果关系的故障节点与告警节点之间的条件概率，其形式为：

其中，

步骤S303，根据所述初始先验概率和所述条件概率，确定在没有告警节点发生告警事件的情况下，各个故障节点对应的当前信念。

故障节点的先验分布形式举例(0.1,0.9)，表示根据历史经验，该故障发生故障的概率为0.1，不发生故障的概率为0.9；

故障节点更新后的信念形式(bel¹(f),bel⁰(f))，表示当有告警发生后，根据告警提供的证据信息，通过接收到的证据信息，计算更新后的信念。举例(bel¹(f),bel⁰(f))＝(0.9,0.1)，表示当告警发生后，此故障节点更新信念为(0.9,0.1)，也即此故障发生的概率为0.9，此故障不发生的概率为0.1。

控制各个告警节点确定初始告警证据信息，并发送初始告警证据信息至各个关联故障节点；其中，初始告警证据信息的确定方法可以参照下文中各个告警节点的告警证据信息的确定方法。

所述第五计算公式为：

所述第六计算公式为：

其中，bel(α)表示告警节点A更新后的信念，α是标准化常数，((bel⁰(a))′,(bel¹(a))′)表示告警节点A的当前信念，a＝0,a＝1分别表示告警节点A发生与没有发生告警事件的假设；

所述第七计算公式为：

所述总支持故障证据信息采用以下第二计算公式计算得到：

所述抑制故障证据信息采用以下第三计算公式计算得到：

表示关联告警节点A_i的支持故障证据信息，

经过初始化，每个故障节点获得一个新的更新信念，此目的是排除先验概率的主观判断，因为条件概率可由历史数据获得，这样可以使此模型完全由数据来说话。

确定告警节点拥有的关联故障节点的个数；

其中，

表示关联告警节点A的支持故障证据信息，

上述贝叶斯推理模型在推理计算过程中，不必等收集到所有告警节点发送来的告警证据信息后才开始更新信念，可以随着告警的时间序列上的发生，实时更新信念。

如图4所示，在一个实施例中，优选地，步骤S106包括:

步骤S401，从所有故障节点对应的更新后的信念中查找出更新后的信念最大的目标故障节点；

步骤S402，将所述目标故障节点对应的网络故障原因确定为所述最终告警故障原因。

下面以一个具体实施例详细说明本发明的上述技术方案。

如图2A所示的贝叶斯网络，为方便计算，初始化所有故障节点的先验概率分布为(0.1,0.9)，节点之间的条件概率皆为(0.9,0.1)，没有告警发生时，告警1节点发送给故障1节点的告警证据信息为(0.1,0.9)，告警节点2发送给故障节点1的告警证据信息根据第四计算公式计算为：

λ¹＝0-0.1×(0-1)×(1-0.9×0.1)＝0.091

λ⁰＝0-(0-1)×(1-0.9×0.1)＝0.91

类似，故障2节点接收到告警节点2、告警节点3和告警节点4发送来的告警证据信息分别为：(0.091,0.91)、(0.1,0.9)和(0.091,0.91)；故障节点3接收到告警节点4和告警节点5发送来的告警证据信息分别(0.091,0.91)，(0.1,0.9)，根据第一、第二和第三计算公式可计算各故障节点的信念。故障节点1的信念计算如下，

bel¹(故障1)＝0.1×0.1×0.091＝0.00091

bel⁰(故障1)＝0.9×0.9×0.91＝0.73710

所以，根据第一计算公式，故障节点1的信念被更新为(0.0012，0.9988)，这表明，告警1和告警2在没有发生的状态下，故障1发生故障的概率为0.0012.

假设告警1、告警2被触发，则告警1节点发送给故障1节点的告警证据信息变更为(0.9,0.1)，告警节点2发送给故障节点1的告警证据信息根据第四计算公式计算为(0.909,0.09)，则故障节点1的信念被更新为(0.9099，0.0901)，这表明，在同时收到告警1和告警2发生告警状态下的证据信息后，故障1发生故障的概率被更新为0.9099。

下面利用铁路光传送网中两个典型的网络故障场景来验证本发明的故障定位方法的有效性及其在定位速度方面的性能。端到端的单板故障或断纤事件会影响本端及其下游站点业务，并在周围站点产生大量告警。如图5所示，表示了基于相邻三个站点发生单板故障和断纤事件所构建的两层故障-告警贝叶斯网络模型。告警节点圆圈中的英文表示告警名称简写，数字部分表示沿铁路分布的站点名称代码，例如ALM21，表示站点21光交换设备上报的帧失步告警ALM_GFP_dLFD。

假设站点21与站点22之间光纤线路发生断纤事件，网络控制中心网络告警系统接收到如表1中第1行告警事件列所列告警，通过贝叶斯网络故障定位推理，获得表中对应的故障事件及信念列所列各故障节点的更新信念，光纤故障21_22的信念被更新为(0.9998,0.0002)，由此可发现光纤故障21_22是触发大量告警的故障根源。

表1

另一故障场景，告警系统接收到表1中第2行告警事件列所列告警，通过本发明的方法，站点21光交换设备单板发生故障被快速定位，其推理结果如表中对应故障信念。通过实验验证，本模型也适用于多故障同时发生，甚至告警有重叠的故障场景的故障定位。例如，将表1中第一行，第二行告警事件列所列告警同时输入该推理模型，获得单板故障21、光纤故障21_22和单板故障22的信念分别为(0.9997，0.0003)，(0.9998，0.0002)和(0.7947，0.2053)。

本发明所述方法推理过程是透明的，很容易跟踪每个告警节点对其故障节点状态的影响。在本断纤事件场景中，通过第四计算公式可获得每个告警节点向其故障点发送的证据信息，如图6所示。图中T_λ表示该告警节点对定位光纤故障发生的支持，数字表示支持程度；则F_λ表示该告警节点抑制光纤故障发生，数字表示抑制程度。从图中可以观察到各告警节点都支持了光纤故障发生，而且很容易观察到各告警对支持光纤故障发生的支持程度。

模型的故障推理是一个信息的流动过程，也是故障节点信念的迭代过程。告警节点持续向故障节点发送告警证据信息，故障节点利用接收到的这些证据信息更新自身信念。在上例多源告警的根源故障定位中，其故障信念的迭代过程如图7所示。横坐标表示推理模型达到平衡状态所需时间，纵坐标表示故障节点在每次迭代中的信念分布。由图7可知，该推理模型达到新的平衡状态，所需时间仅为0.0008秒，验证该模型能快速定位故障根源。

本发明依赖于通信网络中网元之间存在的依赖关系和网络故障与告警之间存在的因果关系，实现了通信网络的故障定位目标。以朔黄铁路传送网两个故障场景数据验证该模型的有效性和时效性，结果表明该模型能在最短的时间内精准的发现故障根源，而且推理过程不需要过多的人为干预。同时，实验还验证该模型具有多源告警同时发生场景下的故障定位能力，而且推理过程透明，推理结果具有可解释性。另外，经过其他实验验证，利用电压、温度、振动等症状数据，该方法也适用于电气元件和机械部件在铁路基础设施应用领域的故障定位。

通过以上描述介绍了基于贝叶斯推理的传输网络故障定位实现过程，该过程可由装置实现，下面对该装置的内部结构和功能进行介绍。

如图8所示，基于贝叶斯推理的传输网络故障定位装置，包括：

获取模块81，用于获取所有网络故障原因和对应的所有网络故障的告警事件；

模型构建模块82，用于根据各个网络故障原因、各个告警事件和网络故障原因和告警事件之间的因果关系构建贝叶斯推理模型，并进行贝叶斯推理模型的参数初始化，其中，所述贝叶斯推理模型包括故障层和告警层，所述故障层包括各个网络故障原因对应的故障节点，所述告警层包括各个告警事件对应的告警节点，每个网络故障原因和每个告警事件均对应一个节点，每个故障节点和与其具有因果关系的关联告警节点之间均具有连接链路；

第一确定模块83，用于确定贝叶斯推理模型中每个故障节点的当前信念，和具有因果关系的故障节点和告警节点之间的条件概率；

证据输出模块84，用于当有告警节点发生告警事件时，输出告警证据信息至与其具有因果关系的关联故障节点，其中，告警证据信息包括：支持故障证据信息和抑制故障证据信息；

计算模块85，用于控制每个故障节点根据当前接收到的关联告警节点的总告警证据信息、每个故障节点的当前信念，和故障节点和关联告警节点之间的条件概率计算对应的更新后的信念；

第二确定模块86，用于根据每个故障节点对应的更新后的信念确定最终告警故障原因。

如图9所示，在一个实施例中，优选地，所述模型构建模块82包括：

分配单元91，用于为每个故障节点分配一个初始先验概率；

计算单元92，用于获取历史样本数据，并根据历史样本数据和拉普拉斯平滑定理计算各个故障节点和对应的关联告警节点之间的条件概率；

确定单元93，用于根据所述初始先验概率和所述条件概率，确定在没有告警节点发生告警事件的情况下，各个故障节点对应的当前信念。

所述总支持故障证据信息采用以下第二计算公式计算得到：

所述抑制故障证据信息采用以下第三计算公式计算得到：

表示关联告警节点A_i的支持故障证据信息，

确定告警节点拥有的关联故障节点的个数；

其中，

表示关联告警节点A的支持故障证据信息，

在一个实施例中，优选地，所述确定单元用于：

所述第五计算公式为：

所述第六计算公式为：

所述第七计算公式为：

如图10所示，在一个实施例中，优选地，所述第二确定模块86包括:

查找单元1001，用于从所有故障节点对应的更新后的信念中查找出更新后的信念最大的目标故障节点；

故障确定单元1002，用于将所述目标故障节点对应的网络故障原因确定为所述最终告警故障原因。

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取所有网络故障原因和对应的所有网络故障的告警事件；

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于贝叶斯推理的传输网络故障定位方法，其特征在于，所述方法包括：

获取所有网络故障原因和对应的所有网络故障的告警事件；

2.根据权利要求1所述的方法，其特征在于，贝叶斯推理模型的参数初始化过程包括：

为每个故障节点分配一个初始先验概率；

3.根据权利要求1所述的方法，其特征在于，每个故障节点的更新后的信念采用以下第一计算公式计算得到：

其中，bel(f)表示故障节点F更新后的信念，α是标准化常数，((bel⁰(f))′，(bel¹(f))′)表示故障节点F的当前信念，(λ⁰(f)，λ¹(f))表示总告警证据信息，其中，λ¹(f)表示总支持故障证据信息，λ⁰(f)表示总抑制故障证据信息；

所述总支持故障证据信息采用以下第二计算公式计算得到：

所述抑制故障证据信息采用以下第三计算公式计算得到：

表示关联告警节点A_i的支持故障证据信息，

4.根据权利要求3所述的方法，其特征在于，各个告警节点输出的告警证据信息采用以下方式确定：

确定告警节点拥有的关联故障节点的个数；

其中，

表示关联告警节点A的支持故障证据信息，

表示告警节点A对应的除第i个关联故障节点外其他所有关联故障节点抑制其发生告警的支持度，(bel¹(f_k)′，bel⁰(f_k)′)为故障节点F的当前信念。

5.根据权利要求2所述的方法，其特征在于，根据所述初始先验概率和所述条件概率，确定在没有告警节点发生告警事件的情况下，各个故障节点对应的当前信念，包括：

根据第五计算公式计算各个告警节点接收到的关联故障节点发送来的第一信息π(a)＝(π⁰(a)，π¹(a))，根据第六计算公式计算各个告警节点的信念；

所述第五计算公式为：

其中，m表示告警节点A拥有的关联故障节点的数目，c_i表示告警节点A和第i个关联故障节点之间的条件概率，(bel¹(f_i)′，bel⁰(f_i)′)为故障节点F的初始先验概率，a＝0，a＝1分别表示告警节点A发生与没有发生告警事件的假设，

所述第六计算公式为：

其中，bel(a)表示告警节点A更新后的信念，α是标准化常数，((bel⁰(a))′，(bel¹(a))′)表示告警节点A的当前信念，a＝0，a＝1分别表示告警节点A发生与没有发生告警事件的假设；

所述第七计算公式为：

其中，bel(f)’表示故障节点F的初始信念，α是标准化常数，((bel⁰(f_i))′，(bel¹(f_i))′)表示故障节点F的初始先验概率，(λ⁰(f)，λ¹(f))表示总告警证据信息，其中，λ¹(f)表示总支持故障证据信息，λ⁰(f)表示总抑制故障证据信息。

6.根据权利要求1至5中任一项所述的方法，其特征在于，根据每个故障节点对应的更新后的信念确定最终告警故障原因，包括：

7.一种基于贝叶斯推理的传输网络故障定位装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述模型构建模块包括：

分配单元，用于为每个故障节点分配一个初始先验概率；

9.根据权利要求7所述的装置，其特征在于，每个故障节点的更新后的信念采用以下第一计算公式计算得到：

所述总支持故障证据信息采用以下第二计算公式计算得到：

所述抑制故障证据信息采用以下第三计算公式计算得到：

表示关联告警节点A_i的支持故障证据信息，

10.根据权利要求9所述的装置，其特征在于，各个告警节点输出的告警证据信息采用以下方式确定：

确定告警节点拥有的关联故障节点的个数；

其中，

表示关联告警节点A的支持故障证据信息，

11.根据权利要求8所述的装置，其特征在于，所述确定单元用于：

所述第五计算公式为：

所述第六计算公式为：

所述第七计算公式为：

12.根据权利要求7至11中任一项所述的装置，其特征在于，所述第二确定模块包括：

13.一种基于贝叶斯推理的传输网络故障定位装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取所有网络故障原因和对应的所有网络故障的告警事件；

14.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被处理器执行时实现权利要求1至6中任一项所述方法的步骤。