CN107896168B

CN107896168B - 一种网络虚拟化环境下的电力通信网多域故障诊断方法

Info

Publication number: CN107896168B
Application number: CN201711305015.9A
Authority: CN
Inventors: 谢小军; 潘子春; 李葵; 张引强; 李振伟; 苏涛; 胡丹
Original assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Anhui Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Anhui Electric Power Co Ltd
Priority date: 2017-12-08
Filing date: 2017-12-08
Publication date: 2020-11-10
Anticipated expiration: 2037-12-08
Also published as: CN107896168A

Abstract

本发明提供一种网络虚拟化环境下的电力通信网多域故障诊断方法，该方法包括SP故障推断、SP信任评估、多SN故障推断三部分。SP故障推断模块计算每条链路故障概率的信任函数值BF，根据每条链路故障概率和S_O创建故障传播模型，并求取解释观察到的症状的最小故障集合解释症状集合，有效解决底层网络信息不可达的问题。多SN故障推断模块通过症状分析、生成FPM摘要、合并所有SN的FPM摘要并进行故障推断，有效解决了多个底层网络域的域间传播和全局信息缺乏等问题。本发明提出的算法获得了较好的准确率和较短的诊断时间。

Description

一种网络虚拟化环境下的电力通信网多域故障诊断方法

技术领域

本发明涉及电力通信网故障诊断技术领域，具体涉及一种用于网络虚拟化环境下的电力通信网多域故障诊断方法。

背景技术

由于网络虚拟化技术在提高网络资源利用率、方便维护和扩展、可靠性高等方面具有较大优势，网络虚拟化已成为电力通信网转型的关键技术。在网络虚拟化环境下，传统的电力通信网被划分为底层网络(Substrate Networks,SN)和虚拟网络(VirtualNetworks,VN)两部分，其中，SN由基础设施提供商(Infrastructure Provider,InP)管理，VN由服务提供商(Service Provider,SP)管理。网络划分之后，由于SN的信息不能被SP获取、虚拟网映射算法更新较快等特点，给SP的故障诊断带来了较大的挑战。已有相关文献对此问题进行了研究，能够很好的解决网络虚拟化给故障诊断带来的新问题。但是，由于电力通信网覆盖范围较大，会使用多个SN的资源。这种背景下进行虚拟网故障诊断，需要解决故障的域间传播和全局信息的缺乏等问题，这给故障诊断带来了较大的难题。

发明内容

为解决网络虚拟化环境下，多域服务故障诊断过程中面临着故障的域间传播信息量大和底层网络信息缺乏等问题，本发明提供了一种网络虚拟化环境下的电力通信网多域故障诊断方法，包括如下步骤：

1)通过服务提供商的故障推断模块将观察到的症状集合S₀作为输入，返回到故障集合h中，解释所有观察到的症状；

2)使用服务提供商的信任评估模块检验故障集合h中被解释的所有观察到的症状，如果满足算法则结束；否则，使用底层网络的多故障推断模块进行底层网络故障定位；

3)使用底层网络的多故障推断模块进行底层网络故障定位：

基于虚拟网映射算法，将虚拟症状映射为底层网络症状，进行症状分析；

将所有底层网络的故障传播模型FPM进行简化，生成FPM摘要；

合并所有FPM摘要并进行故障推断。

步骤1)具体为：

11)计算每条链路故障概率的信任函数BF(f)；

12)根据每条链路故障概率和症状集合S₀创建故障传播模型FPM；

13)求取解释观察到的症状的最小故障集合解释症状集合。

步骤11)中，在使用信任函数BF(f)计算每条链路概率之前，使用公式(1)计算链路故障f(f∈F)导致至少一个负症状的概率：

其中，p(f|s)为观察到症状S时出现链路故障f的相对概率，由公式(2)求得。

由于底层网络的信息对于服务提供商是不可达的难题，服务提供商不能获取底层链路的故障概率，所以，本发明假设所有的底层链路p(f)有相同的先验概率，因此，公式(2)可以简化为公式(3)：

其中F_S为能够引起症状S的所有故障的集合。

所述信任函数

其中N_f表示故障f影响的虚拟链路所对应的底层链路的数量，该公式考虑故障f导致的症状数量和链路集N_f中底层链路的数量。在故障诊断过程中，信任函数可用于发现导致观察症状的故障评价标准。

步骤12)中，得到每条链路故障的信任函数值BF(f)之后，对BF(f)进行降序排列，并逐个取出用于匹配观察到的症状集合S₀中的症状，并将取出的故障f放入到集合F_candidate中，直到症状集合S₀中的症状为空。

基于F_candidate中的故障链路创建FPM：

对于F_candidate集合中，每条虚拟链路关联到一个f_i顶点，故障概率使用BF(f_i)表示；对于观察到的症状集合S₀的每个症状s_j，关联到一个s_j顶点；对于每一个f_i顶点和一个s_j顶点，使用一条权重为P(s_j|f_i)的链路进行连接创建FPM。

步骤13)中，基于生成的FPM摘要，通过公式(5)求取解释观察到的症状的最小故障集合h^*＝{f_i,f_j,...,f_k}；

Ability(h^*)＝argmax_hAbility(h,S) (5)

其中，

公式前部分表示所有的故障包含在故障集合h中的概率，公式后半部分表示症状集合S(此处是否为S₀)中的每个症状是由故障集合h中的至少一个故障导致的概率。

步骤2)中，由于网络虚拟化环境下，底层网络的不可达性，服务提供商的故障推断模块将底层网络的先验故障概率设置为相同值，所以获得的故障集存在不确定性，需要进行评估，从而判断诊断效果。本发明设置了故障评估函数CE(h)，被用于评估诊断故障集合h与观察到的症状集合S_O的相关性，见公式(6)：

其中，分母为故障集合h中故障导致的观察到的症状集合，分子为故障集合h中故障导致的症状集合。

一般来说，CE(h)的值应该为1，但是由于部分症状是不准确的，所以CE(h)小于1，基于长时间的运营，可以设置CE(h)的阈值CE_TH，用于确定诊断的结果是否满足要求。如果不能满足要求，需要将诊断结果上报给底层网络，进行进一步的诊断。

步骤3)中，所述症状分析具体方法为：

首先进行症状集合S₀映射：使用已有映射算法

将观察到的症状集合S₀转变为底层网络的症状集合

其中

表示虚拟节点；

然后发送FPM摘要的请求到所有底层网络：

31)对于内部域症状，请求信息包含

将症状S的信息发送到相应的底层网络，其中

表示连接底层节点

到底层节点

的底层路径，其包含多条底层链路，具体为：

其中，

表示直接连接底层节点

到底层节点

的底层链路；

32)对于跨越多个底层网络的症状，服务提供商转变该些症状为多个内部域和域间链路的症状后，分别发送到对应的底层网络，具体为：

被转变为

其中，

表示入口网关、

表示出口网关；入口网关

表示第k个SN_k的入口网关，即

出口网关

表示第k个SN_k的出口网关，即

步骤3)中，生成FPM摘要的原因包括：出于信息安全，各个底层网络不会将自己的网络拓扑信息发送给其它网络；所有SN的信息都发送给故障诊断算法，会产生大量的信息，容易造成通信堵塞和计算拥堵。

生成FPM摘要包括删除与合并两个阶段，该删除阶段将电力通信服务未使用的链路删除，合并阶段将不相关的路径进行合并；在合并时，计算新边的权重使用公式(7)，该公式表示链路l(a,b)发生故障时，合并后的节点r(new,SN_i)发生故障的概率：

步骤3)中，合并所有底层网络的FPM摘要后，生成多个底层网络的FPM进行故障推断，求取解释观察到的症状的最小故障集合后，解释症状集合中的算法。区别在于底层网络知道各个节点的先验概率，所以使用公式(2)求解观察到症状s时出现链路故障f的相对概率，而不使用公式(3)求解。

由以上技术方案可知，本发明通过底层网络的故障推断模块有效解决底层网络信息不可达的问题，使用多底层网络的故障推断模块通过症状分析、生成FPM摘要、合并所有SN的FPM摘要并进行故障推断，有效解决了多个底层网络域的域间传播和全局信息缺乏等问题；通过仿真实验，证明了本发明提出的算法获得了较好的准确率和较短的诊断时间。

附图说明

图1为本发明的流程示意图；

图2为本发明的准确率性能分析的示意图；

图3为本发明的误报率性能分析的示意图；

图4为本发明的执行时间性能分析的示意图。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

在本发明的方案中，为解决网络虚拟化环境下，多域服务故障诊断过程中面临着故障的域间传播信息量大和底层网络信息缺乏等问题，本发明提供了一种网络虚拟化环境下的电力通信网多域故障诊断方法。

如图1所示，根据本发明方法使用了现有故障诊断中的症状S、故障F、故障传播模型FPM的定义。其中，症状S是指服务运行时所表现出来的可观测信息,可以分为正症状(正常信息)、负症状(异常信息)，如无特殊说明，本发明中的症状是指负症状。S_O表示观察到的症状集合，S_f表示故障f导致的症状的集合，|S|表示症状集合的大小。故障F表示每个组件在发生异常时，都会导致一个或者多个负症状发生，并且一个负症状的发生，一定是由于一个或者多个组件发生异常时导致的。故障传播模型FPM是描述症状S和故障F二者之间关系的二分贝叶斯网络，其中父节点表示故障F，子节点表示症状S，父节点和子节点之间的连线值表示父节点发生时，子节点发生的概率，又叫条件概率。如果网络没有噪声并且网络模型准确，父节点和子节点之间的连线值为1，否则为(0,1]。

本发明方法包括以下步骤(SP为服务提供商，SN为底层网络)：

S101、SP的故障推断模块将观察到的症状集合S_O作为输入，返回到故障集合h，该故障集合h能够解释所有观察到的症状。SP的故障推断模块可以有效解决底层网络信息不可达的问题，该模块包括计算每条链路故障概率的信任函数值BF(f)、根据每条链路故障概率和症状集合S_O创建故障传播模型FPM、求取解释观察到的症状的最小故障集合解释症状集合三部分。

1)计算每条链路故障概率的信任函数BF(f)

在使用BF(f)计算每条链路概率之前，使用公式(1)计算链路故障f(f∈F)导致至少一个负症状的概率，其中，p(f|s)表示观察到症状s时出现链路故障f的相对概率，使用公式(2)计算。由于底层网络的信息对于SP是不可达的难题，SP不能获取底层链路的故障概率，所以，本发明假设所有的底层链路p(f)有相同的先验概率。因此，公式(2)可以简化为公式(3)。

本发明求解链路故障f的信任函数BF的计算公式(4)，该公式是考虑故障f导致的症状数量和链路集N_f中底层链路的数量。在故障诊断过程中，信任函数可用于发现导致观察症状的故障评价标准。N_f表示故障f影响的虚拟链路所对应的底层链路的数量。

2)根据每条链路故障概率和症状集合S_O创建故障传播模型FPM

得到每条链路故障的信任函数值BF(f)之后，对BF(f)进行降序排列，并逐个取出用于匹配观察到的症状集合S_O中的症状，并将取出的故障f放入到集合F_candidate中，直到S_O中的症状为空。基于F_candidate中的故障链路创建FPM，即对于F_candidate集合中每条虚拟链路关联到一个f_i顶点，故障概率使用BF(f_i)表示。对于观察到的症状集合S_O的每个症状s_j，关联到一个s_j顶点。对于每一个f_i顶点和一个s_j顶点，使用一条权重为P(s_j|f_i)的链路进行连接。

3)求取解释观察到的症状的最小故障集合解释症状集合

基于生成的FPM，可以通过公式(5)求取解释观察到的症状的最小故障集合h^*＝{f_i,f_j,...,f_k}。

Ability(h^*)＝argmax_hAbility(h,S) (5)

其中，

公式前部分表示所有的故障包含在故障集合h中的概率；后半部分表示症状S中的每个症状是由故障集合h中的至少一个故障导致的概率。

S102、SP的信任评估模块检验故障集合h解释所有观察到的症状是否满足信任评估模型，如果满足算法结束。否则，采用多SN的故障推断模块进行底层网络故障定位。

由于网络虚拟化环境下，底层网络的不可达性，SP的故障推断模块将底层网络的先验故障概率设置为相同值，所以获得的故障集存在不确定性，需要进行评估，从而判断诊断效果。本发明设置了故障评估函数CE(h)，被用于评估诊断故障集合h与观察到的症状集合S_O的相关性，见公式(6)，其中，分母为故障集合h中故障导致的观察到的症状集合，分子为故障集合h中故障导致的症状集合。一般来说，CE(h)的值应该为1。但是，由于部分症状是不准确的，所以CE(h)小于1，基于长时间的运营，可以设置CE(h)的阈值CE_TH，用于确定诊断的结果是否满足要求。如果不能满足要求，需要将诊断结果上报给底层网络，进行进一步的诊断。

S103、多SN的故障推断模块通过症状分析、生成FPM摘要、合并所有SN的FPM摘要并进行故障定位。

多SN的故障推断模块包括症状分析、生成FPM摘要、合并所有SN的FPM摘要并进行故障推断三个子模块。其中，症状分析子模块基于虚拟网映射算法，将虚拟症状映射为底层网络症状。生成FPM摘要子模块将所有SN的FPM进行简化，在保护私有信息时也减少了故障模型的规模。合并所有SN的FPM摘要后，生成多个SN的FPM进行故障推断，采用S101)中的“求取解释观察到的症状的最小故障集合解释症状集合”算法，区别在于底层网络知道各个节点的先验概率，所以使用公式(2)求解观察到症状S时出现链路故障f的相对概率，而不使用公式(3)求解。下面对症状分析子模块、生成FPM摘要子模块进行详细介绍。

1)症状分析

症状分析包括症状集合S_O映射、发送FPM摘要请求到所有SN两个过程。首先，使用

函数，将观察到的症状集合S_O转变为底层网络的症状集合

其中，

表示虚拟节点。其次，发送FPM摘要的请求到所有SN，该过程包括下面两个子过程：

(1)对于内部域症状，请求信息仅仅包含

将症状S信息直接发送到相应的SN，其中，

表示连接底层节点

到底层节点

的底层路径，可能包含多条底层链路，即，

表示直接连接底层节点

到底层节点

的底层链路。

(2)对于跨越多个SN的症状，SP需要转变这些症状为多个内部域和域间链路的症状后，分别发送到对应的SN。即，

被转变为

其中，

表示入口网关、

表示出口网关，如图4所示。入口网关

表示第k个SN_k的入口网关，即

出口网关

表示第k个SN_k的出口网关，即

2)生成FPM摘要

生成FPM摘要算法如表1所示。生成FPM摘要的原因包括：出于信息安全，各个底层网络不会将自己的网络拓扑信息发送给其它网络；所有SN的信息都发送给故障诊断算法，会产生大量的信息，容易造成通信堵塞和计算拥堵。生成FPM摘要包括删除、合并两个阶段。删除阶段将电力通信服务未使用的链路删除；合并阶段将不相关的路径进行合并，在合并时，计算新边的权重时使用公式(7)，该公式表示链路l(a,b)发生故障时，合并后的节点r(new,SN_i)发生故障的概率。

表1：生成FPM摘要算法

结果分析模块从准确率、误判率、执行时间三个维度，进行分析。下面对此过程进行详细介绍，并对算法的性能进行分析。

1)实验环境

本发明使用GT-ITM工具[A.MEDINA,I.MATTA,AND J.BYERS,“On the origin ofpower laws in Internet topologies,”ACM Computer Communication Review,Apr.2000.]产生底层网络和虚拟网络。其中，底层网络节点范围为5到50。底层网络的数量从5到10之间。虚拟节点使用映射算法[N.M.Chowdhury,R.Boutaba,“NetworkVirtualization:The Past,The Present,and The Future”,IEEE CommunicationsMagazine,July,2009.]从底层网络上分配，并控制虚拟节点的数量范围从25到100。

对于每个虚拟网络，从中选取20％的节点作为源节点，对于每一个源节点，随机选择3个节点作为目的节点。在每一对源宿节点之间，使用最短路径算法生成路由，模拟一个端到端的服务。网络生成和路由确定后,根据诊断模型部分的描述方法建立依赖模型.底层网络资源的先验故障概率和条件概率随机产生,分别在[0.001,0.01]和(0,1)内均匀分布.

为了注入故障，我们允许每个组件以自己的先验概率独立中断。基于已知的贝叶斯网络知识，使用贪婪搜索方法[I.Rish,M.Brodie,S.Ma,N.Odintsova,A.Beygelzimer,G.Grabainik,K.Hernandez,“Adaptive Diagnosis in Distributed Systems,”.IEEETrans.Neural Networks,2005,16(5).]产生用于测试端到端服务的主动探测集合。当探测到有故障发生时，探测节点将故障发送到监控中心。将异常症状加入负症状集S_N,再从中选择P_loss×|S_N|个症状为丢失症状从S_N中移除,最后选择P_false×|S_N|个症状为虚假症状加入S_N,即得出最终负症状集S_N，其中|S_N|表示S_N中包括的症状个数。观察到的正症状集S_P＝S_O-S_N。实验中症状丢失率P_loss取值为0.05,虚假症状率P_false取值为0.05。

2)评价指标

本发明使用准确率和误报率两个评价指标，准确率和误报率的定义如下：

其中，F表示真实的故障集合。

表示节点本身没有故障，但是被诊断为有故障。H表示使用诊断算法得到的故障集合。

3)与相关算法比较

为了验证本发明提出的网络虚拟化环境下的电力通信网多域故障诊断算法，即，新的多底层网络故障推断(Novel Multi-SN Fault Reasoning，NMSNFR)算法,实现了MDDiHRN[Steinder M and Sethi A S.“MultiDomain diagnosis of end-to-end servicefailures in hierarchically routed networks”.IEEE Transactions on Parallel andDistributed System,2007,18(3):379-392.]算法，被用来模拟传统的诊断算法。

从准确率、误报率、诊断时间三个维度，对两个算法进行了比较，如图2-图4。因为MDDiHRN是非网络虚拟化环境下的故障诊断算法，仿真中仅仅产生底层网络的链路故障。

实验结果表明，NMSNFR获得了较好的准确率，因为NMSNFR充分考虑了全局FPM的信息。虽然误报率方面，两个算法类似，但是，NMSNFR的诊断时间较短。这是因为NMSNFR算法采用了故障传播模型的摘要，所以，故障诊断时，故障传播模型较小，节约了故障诊断的时间。

以上所述实施方式仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案作出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。

Claims

1.一种网络虚拟化环境下的电力通信网多域故障诊断方法，其特征在于，包括如下步骤：

2)使用服务提供商的信任评估模块检验故障集合h中被解释的所有观察到的症状，如果满足算法则结束；否则，执行步骤3)；

3)使用底层网络的多故障推断模块进行底层网络故障定位：

将所有底层网络的故障传播模型FPM进行简化，生成FPM摘要；

合并所有FPM摘要并进行故障推断；

步骤1)具体为：

11)计算每条链路故障概率的信任函数BF(f)；

13)求取解释观察到的症状的最小故障集合解释症状集合，步骤2)包括：

设置故障评估函数CE(h)，用于评估诊断故障集合h与观察到的症状集合S₀的相关性：

其中，分母为故障集合h中故障导致的观察到的症状集合，分子为故障集合h中故障导致的症状集合，S_i为第i个症状，f_i为第i个故障，S_fi为第i个故障导致的症状集合。

2.根据权利要求1所述的电力通信网多域故障诊断方法，其特征在于，步骤11)中，在使用信任函数BF(f)计算每条链路故障概率之前，使用公式(1)计算链路故障f(f∈F)导致至少一个负症状的概率：

其中，p(f|s)为观察到症状S时出现链路故障f的相对概率，其中F_S为能够引起症状S的所有故障的集合，pro(f)为链路故障f(f∈F)导致至少一个负症状的概率，S_f为故障f导致的症状的集合，F为每个组件在发生异常时，都会导致一个或者多个负症状发生，并且一个负症状的发生，一定是由于一个或者多个组件发生异常时导致的。

3.根据权利要求2所述的电力通信网多域故障诊断方法，其特征在于，若所有的底层链路p(f)有相同的先验概率，则公式(2)简化为：

4.根据权利要求2所述的电力通信网多域故障诊断方法，其特征在于，步骤11)中，所述信任函数

其中N_f表示故障f影响的虚拟链路所对应的底层链路的数量。

5.根据权利要求1所述的电力通信网多域故障诊断方法，其特征在于，步骤12)中，得到每条链路故障的信任函数值BF(f)之后，对BF(f)进行降序排列，并逐个取出用于匹配观察到的症状集合S₀中的症状的故障，并将取出的故障f放入到集合F_candidate中，直到症状集合S₀中的症状为空。

6.根据权利要求5所述的电力通信网多域故障诊断方法，其特征在于，基于F_candidate中的故障链路创建FPM：

7.根据权利要求1所述的电力通信网多域故障诊断方法，其特征在于，步骤13)中，基于生成的FPM摘要，通过公式(5)求取解释观察到的症状的最小故障集合h^*＝{f_i,f_j,...,f_k}；

Ability(h^*)＝argmax_hAbility(h,S₀) (5)

其中，

公式(5)前部分argmax_h表示所有的故障包含在故障集合h中的概率，公式(5)后半部分Ability(h,S₀)表示症状集合S₀中的每个症状是由故障集合h中的至少一个故障导致的概率。

8.根据权利要求1所述的电力通信网多域故障诊断方法，其特征在于，设置故障评估函数CE(h)的阈值CE_TH，用于确定诊断的结果是否满足要求，若不满足要求，诊断结果上报底层网络，进一步诊断。

9.根据权利要求1所述的电力通信网多域故障诊断方法，其特征在于，步骤3)中，所述症状分析具体方法为：

首先进行症状集合S₀映射：使用已有映射算法

将观察到的症状集合S₀转变为底层网络的症状集合

其中

表示虚拟节点；

然后发送FPM摘要的请求到所有底层网络：

31)对于内部域症状，请求信息包含

将症状S的信息发送到相应的底层网络，其中

表示连接底层节点

到底层节点

的底层路径，其包含多条底层链路，具体为：

其中，

表示直接连接底层节点

到底层节点

的底层链路；

32)对于跨越多个底层网络的症状，服务提供商转变这些症状为多个内部域和域间链路的症状后，分别发送到对应的底层网络，具体为：

被转变为

其中，

表示入口网关、

表示出口网关；入口网关

表示第k个SN_k的入口网关，即

出口网关

表示第k个SN_k的出口网关，即

SN为底层网络。

10.根据权利要求1所述的电力通信网多域故障诊断方法，其特征在于，步骤3)中，生成FPM摘要包括删除与合并两个阶段，该删除阶段将电力通信服务未使用的链路删除，合并阶段将不相关的路径进行合并；在合并时，计算新边的权重使用公式(7)，该公式表示链路l(a,b)发生故障时，合并后的节点r(new,SN_i)发生故障的概率：

11.根据权利要求7所述的电力通信网多域故障诊断方法，其特征在于，步骤3)中，合并所有底层网络的FPM摘要后，生成多个底层网络的FPM进行故障推断，采用权利要求7中的求取解释观察到的症状的最小故障集合解释症状集合的算法。