CN1870538A

CN1870538A - 一种实现故障管理的方法及系统

Info

Publication number: CN1870538A
Application number: CN 200610076507
Authority: CN
Inventors: 贺磊; 张建辉; 赵昭灵; 赵靓; 明清
Original assignee: NATIONAL DIGITAL SWITCH SYSTEM ENGINEERING TECHNOLOGY RESEARCH CENTER
Current assignee: NATIONAL DIGITAL SWITCH SYSTEM ENGINEERING TECHNOLOGY RESEARCH CENTER
Priority date: 2006-05-08
Filing date: 2006-05-08
Publication date: 2006-11-29
Anticipated expiration: 2026-05-08
Also published as: CN100438443C

Abstract

本发明公开一种实现故障管理的方法，该方法包括步骤：信息获取智能体获取故障信息；信息预处理智能体根据故障信息，实现对故障的定位；系统控制智能体分解故障诊断任务并协作控制分解后的故障诊断任务；故障诊断智能体分析产生故障的具体原因，确定故障诊断算法；故障修复智能体根据故障诊断智能体的诊断结果对故障进行修复。本发明的方法有机地结合了故障诊断和故障恢复。本发明还公开了一种实现故障管理的系统。

Description

一种实现故障管理的方法及系统

技术领域

本发明涉及计算机网络领域，尤其涉及一种实现故障管理的方法及系统。

背景技术

随着计算机网络规模的不断扩大，使得网络的维护和操作变得相当复杂。如何保证网络安全、稳定和可靠地运行，一直是网络管理领域的热门研究课题。

随着通信业务需求的扩大，造成了网络规模的扩大，网络复杂性的提高和网络带宽需求的显著增长。这些通信网络由多家厂商通过多种传输媒介互联的节点构成。由于被管理网元物理上和逻辑上具有相关性，单一的故障往往会在相关的网元中产生大量的关联告警，使得故障的识别和定位变得困难。例如：当网络中某个路由器出现故障时，这台路由器及与其相连的网络设备都会失去与网络管理者的联系；当网络管理者轮询该路由器及与其相连的网络设备时，该路由器及与其相连的网络设备不作出响应，这将导致大量关联告警的产生。实际上，大部分的告警事件并没有包含产生故障信息的原因。在此种情况下，收到的告警报告中含有较多的冗余信息。具体有以下几种情况：

(1)由于一个故障，导致设备产生了多个告警；

(2)故障本身间歇性发作，这意味着每当故障发生时便发送告警事件；

(3)单独一个告警可能被多个网络部件监测到，每一个网络部件都会发送告警信息；

(4)已知的部件故障可能影响到其它的部件，产生故障扩散；

(5)多个故障同时发生，此时的告警事件有较多的潜在重叠。

这使得网络管理员面对大量的告警信息往往很难准确分离和定位产生故障的真正原因，从而无法快速实施故障修复和障碍排除。因此，实现网络故障的实时诊断和修复成为网络管理的迫切需求。

故障诊断就是要在故障产生时，给出故障源的准确位置，并对该故障源的故障产生原因进行进一步的诊断，同时进行故障的修复。将智能技术引入故障管理，进行自动故障定位和故障原因诊断及故障修复，是满足不断发展的网络故障管理要求的前提和基础。

目前，国内外关于网络故障管理的研究取得了很大的进展，在智能化故障恢复的理论研究中也取得了较多的成果。但是，理论研究不够贴近工程实现，有关产品在国内外尚未得到广泛应用。现有的智能故障管理技术主要有以下三个缺点：

(1)目前的研究主要集中在专家系统上，不能适应新的或不完备的数据，很难应用于大型动态网络。

(2)故障诊断的专家系统主要采用一种技术，实际应用范围较窄。

(3)主要进行故障诊断，不支持故障自动恢复。

造成上述状况的原因是：一方面是由于故障管理一般不单独存在，而是作为网络管理系统的一部分。目前国内尚无使用较广泛的通用网络管理平台，所提供的智能故障管理功能也多集中在对事件的过滤和历史事件的分析。另一方面是由于不同的智能管理技术要结合不同的网络情况使用，在开发上困难较多。

发明内容

本发明要解决的技术问题是提供一种实现故障管理的方法及系统，以达到准确、迅速、有效地诊断并修复网络故障的目的。

为解决上述技术问题，本发明提供如下的解决方案：

一种实现故障管理的方法，该方法包括以下步骤：

A、获取故障信息；

B、根据故障信息，实现对故障的定位；

C、实现故障诊断，得出故障诊断结果；

D、根据诊断结果，对故障进行修复。

所述步骤B之后，步骤C之前包括步骤：分解故障诊断任务并协作控制分解后的诊断任务。

所述步骤A具体包括以下步骤：

A1、对序列进行离散傅立叶变换；

A2、将序列分解为函数；

A3、找出各个序列的最大频率f_i；

A4、找出f_i中的最大频率值f_max，并设置下一个轮询间隔为1/(2*f_max)；

A5、判断所述轮询间隔是否超过网络带宽，如果超过，则延长间隔使其不超过网络带宽。

所述对序列进行离散傅立叶变换具体包括：对代表轮询管理信息值{x_i(t)}在t时刻所获得的值序列{x_i(t_n)}(1≤i≤v)进行离散傅立叶变换，v表示被轮询的管理信息值数，n表示序列中包含的数值的数量。

所述步骤A采用基于离散傅立叶变换的动态轮询算法来获取故障信息。

所述步骤B具体包括以下步骤：

B1、设置可达节点集为空，设置不可达节点集为被管向量集；

B2、设置可能故障边集和可能故障点集为空；

B3、管理节点探测所有被管理节点的状态，并根据探测结果把所有节点划分到可达节点集和不可达节点集；

B4、根据关联矩阵，计算被管理网络的可能故障边集；

B5、根据可能故障边集和不可达节点集，计算可能故障点集；

B6、确定故障位置。

所述步骤B采用基于图论的面向设备的故障关联算法来实现故障的定位。

执行所述故障关联算法具体包括：管理系统每隔预定的时间自动运行故障关联算法或者告警事件触发故障关联算法的运行或者采用人机接口命令运行故障关联算法。

所述分解故障诊断任务并协作控制分解后的诊断任务具体包括以下步骤

S1、初始化a₁、a₂智能体为“空闲”状态；

S2、发生故障后，a_i智能体接收输入的求解问题；

S3、a_i智能体根据自身知识和能力解决求解问题，a_i智能体状态改为“活动”；

S4、判断a_i智能体能否解决上述求解问题，如果能解决，则求解过程解决，a_i智能体状态改为“空闲”；如果不能解决，则进入步骤S5；

S5、a_i向a_j发送求解问题的消息；

S6、a_j根据自身空闲状态，接收所述消息；

S7、a_j智能体根据自身知识和能力解决求解问题，a_i智能体状态改为“活动”；

S8、判断a_j智能体能否解决上述求解问题，如果能解决，则求解过程解决，a_j智能体状态改为“空闲”；如果不能解决，则进入步骤S9；

S9、a_i、a_j向系统控制智能体反馈不能解决上述求解问题的消息，a_i、a_j智能体状态改为“空闲”。

所述步骤S1之前包括步骤：设定a₁为传统专家系统诊断智能体，a₂为神经网络诊断智能体，i，j＝1，2且i≠j。

所述步骤C具体包括以下步骤：

C1、构造误差反向传播BP神经网络模型的初始结构；

C2、根据故障问题，选入对因变量有影响的自变量，确定输入层输入节点个数；

C3、确定输出层节点数，并初始化输出层节点数；

C4、输入学习样本；

C5、采用BP算法对网络进行学习；

C6、判断迭代步数是否超过规定步数或学习精度是否达到要求，如果是，则进入步骤C7；如果否，返回步骤C5；

C7、冻结所述网络，以测试编码为输入，使网络处于回想状态，得到故障诊断结果。

所述步骤C采用协作交互算法实现故障诊断，得出故障诊断结果。

所述协作交互算法是建立在轮询基础上的协作。

所述步骤D具体包括：根据诊断结果对故障进行修复，可自动恢复的，系统采用自动修复脚本方法进行修复；不能自动修复的，系统给出修复意见，采用手动方法进行修复。

所述实现故障管理是实现对网络故障的管理。

一种实现故障管理的系统，该系统包括：信息获取智能体、信息预处理智能体、系统控制智能体、故障诊断智能体、故障修复智能体、用户界面智能体、知识库、信息获取智能体代理、被管设备以及故障信息库；

信息获取智能体：用于获取故障信息；用于封装信息的存取过程；用于通过知识查询与操纵语言实现与外界交互信息；

信息预处理智能体：用于实现对故障的定位；

系统控制智能体：用于分解故障诊断任务，用于协作控制分解后的故障诊断任务；

故障诊断智能体：用于实现具体的故障分析，用于实现具体的故障算法；

故障修复智能体：用于根据诊断结果，实现对故障的修复；

用户界面智能体：用于与用户进行交互；

知识库：用于获取知识；

信息获取智能体代理：用于协作完成管理任务；用于支持分布式管理；用于增强管理的扩展性；

故障信息库：用于存储故障信息，用于提取故障信息。

所述获取智能体采用反应主体结构实现。

所述信息预处理智能体采用慎思主体结构实现。

所述故障诊断智能体采用慎思主体结构实现。

所述信息获取智能体代理采用简单网路管理协议实现与智能体之间的通信。

所述信息获取智能体代理采用主/子代理的方式扩展智能体代理。

所述信息获取智能体支持代理扩展协议或SNMP多路复用协议。

所述智能体之间采用通用对象请求代理体系结构来实现通信和消息格式的转换。

所述智能体之间采用知识查询与操纵语言作为通信语言。

所述实现故障管理是实现对网络故障的管理。

由以上技术方案可以看出，本发明具有以下优点：

1、本发明有机地结合故障诊断和故障恢复，实现真正意义上的故障管理。

2、诊断智能体由多个智能体组成，通过多个智能体的协同工作，本发明可以诊断并修复网络故障。

3、本发明多个诊断智体协同工作，可以应用于大型的动态网络。

附图说明

图1是本发明实现故障管理的方法的总体流程图；

图2是基于离散傅立叶变换的动态轮询算法流程图；

图3是基于图论的面向设备的故障关联算法流程图；

图4是基于轮询思想的协作算法流程图；

图5是自适应学习算法流程图；

图6是本发明实现故障管理的系统结构图。

具体实施方式

一种实现故障管理的方法，该方法是这样实现的：信息获取智能体获取故障信息；信息预处理智能体根据故障信息，实现对故障的定位；系统控制智能体分解故障诊断任务并协作控制分解后的故障诊断任务；故障诊断智能体分析产生故障的具体原因，确定故障诊断算法；故障修复智能体根据故障诊断智能体的诊断结果对故障进行修复。参见图1，该方法具体包括以下步骤：

步骤101、获取故障信息。

步骤102、根据故障信息，实现对故障的定位。

步骤103、分解故障诊断任务并协作控制分解后的诊断任务。

步骤104、实现故障诊断，得出故障诊断结果。

步骤105、根据诊断结果，对故障进行修复。

参见图2，上述获取故障信息的过程是采用离散傅立叶变换(DFT)的动态轮询算法来实现的。

假设{x_i(t_n)}(1≤i≤v)代表轮询管理信息值{x_i(t)}在t时刻所获得的值序列，v表示被轮询的管理信息值数；n为序列长度，即序列中包含的数值的数量。

算法首先进行DFT变换，将每个序列{x_i(t_n)}(1≤i≤v)分解为不同频率的正弦函数并找出各个序列的最大频率f_i，然后找出这v个最大频率f_i(1≤i≤v)中的最大值f_max，并将下一个轮询间隔设为1/(2*f_max)。如果下一个轮询间隔超过网络带宽，延长间隔以使其不超过网络带宽。根据上述原理确定下一个轮询间隔，不仅能控制轮询消息通信量的增长，还能适应管理信息值的时间变化性。算法具体描述如下：

根据公式p＝144*v+720(bit)，简单网络管理协议(SNMP)的轮询应答的协议数据单元(PDU)大小p(bit)可近似为管理信息值数量v的线性函数。而轮询请求PDU的大小也近似等于轮询应答PDU，因此轮询请求和应答PDU的总和大小为2*p。

步骤201、算法输入需要一个初始序列{x_i(t_n)}_init，以确定第一次的轮询间隔。

步骤202、将每个序列{x_i(t_n)}(1≤i≤v)分解为不同频率的正弦函数并找出各个序列的最大频率f_i。

步骤203、从上述V个最大频率f_i(1≤i≤v)中找出最大频率f_max。

由公式1计算获得初始序列的轮询间隔，这样获得初始序列的轮询消息通信量就不会超过网络带宽。

T = \frac{2 * p}{b} (\sec)

(公式1)

步骤204、以1/(2*f_max)为轮询间隔所占用的带宽为轮询请求和应答PDU大小的和除以1/(2*f_max)的商，算法检查需要占用的带宽是否超过网管带宽，如果不超过，进入步骤205；如果超过，进入步骤206。

步骤205、如果以间隔1/(2*f_max)轮询的通信量不超过网络带宽，则以该间隔进行轮询。

步骤206、如果以间隔1/(2*f_max)轮询的通信量超过网络带宽，根据公式1延长间隔至T(秒)使所需带宽不超过网管带宽b，并按延长后的间隔进行轮询。

步骤207、检查在指定时间(如10秒)内是否收到轮询应答，如果收到，进入步骤208；如果未收到，进入步骤209。

步骤208、将轮询应答中得到的值添加到序列{x_i(t_n)}的尾部，并从序列中删除时间最早的值，返回至步骤202。

步骤209、重新轮询指定的次数(如4次)，每次的轮询间隔为前次轮询间隔的两倍。

步骤210、最后检查是否在指定的时间内收到过重轮询的应答，如果收到过，返回步骤208；如果没有，则认为可能网络连接或网管代理本身失效并结束轮询。

参见图3，上述对故障的定位过程是采用基于图论的面向设备的故障关联算法来实现的，该算法具体包括以下步骤：

步骤301、设置可达节点集为空，设置不可达节点集为被管向量集。

步骤302、设置可能故障边集和可能故障点集为空。

步骤303、管理节点探测所有被管理节点的状态，并根据探测结果把所有节点划分到可达节点集和不可达节点集。

步骤304、根据关联矩阵，计算被管理网络的可能故障边集。

步骤305、根据可能故障边集和不可达节点集，计算可能故障点集。

步骤306、确定故障位置。

网络故障使网络由一个连通分支变成多个连通分支。网络管理工作站(NMS)只可能隶属于一个网络分支，所以网络管理者测试各节点，只存在两种结果：可达与不可达。上述故障关联算法将根据节点的可达性进行处理。为了清晰的描述上述故障关联算法，首先定义网络图中的一些概念。

定义1图中所有被管理节点的集合称为被管向量集(MVS)。

定义2点删除操作是指删除与该节点关联的所有边，但该节点依然存在。

定义3边删除操作是仅仅删除该条边，与该边关联的节点不变。

定义4当管理节点在规定的时间内可以测得或获知与某节点连通，则称该被测节点可达；否则，称该节点不可达。

定义5网络图中，全体可达节点的集合称为可达节点集(RVS)；相对应，全体不可达节点集合称为不可达节点集(UVS)。

定义6设G＝(V，E)是一个无向简单图，它有n个节点，|V|＝n，v₁，v₂，…，v_n∈V，则n×n矩阵A(G)＝[a_ij]称为G的邻接矩阵。

定义7设G＝(V，E是一个无向简单图，它有n个节点，m条边；|V|＝n，|E|＝m，v₁，v₂，…，v_n∈V，m₁，m₂，…，mn∈E，则n×m阶矩阵M＝[m_ij]称为G的完全关联矩阵，其中

定义8设G＝(V，E)是一个无向简单图，它有n个节点，|V|＝n，v₁，v₂，…，v_n∈V，则n×n矩阵R称为G的可达矩阵，其中R＝[r_ij]，

定义9当某条边的一个端点属于可达节点集RVS，而另一个端点属于不可达节点集UVS时，该条边被称为可能故障边(PFE)。

定义10所有可能故障边的集合称为可能故障边集(PFES)。

定义11当一条可能故障边的一个端点属于UVS时，这个端点称为可能故障节点(PFV)。

定义12全体可能故障节点的集合称为可能故障点集(PFVS)。

用图论的观点来看，网络故障导致的最直接最明显的结果是整个网络从一个连通分支变成了多个连通分支。连通性矩阵和可达矩阵是图论分析的基本符号和工具，它们将作为网络故障管理的输入。

上述故障关联算法在三种情况下执行：(1)NMS定期执行；(2)在规定时间单位内，NMS检测到有故障，NMS自动执行；(3)管理员通过人机接口命令执行。

(1)NMS定期执行：指的是网络管理系统每隔一定的时间自动运行故障关联算法以便估计网络性能，进行故障趋势预测。

(2)NMS自动执行：当系统发生故障时，告警事件即会触发故障关联算法的运行，以便迅速定位故障。

(3)管理员通过人机接口命令执行：网络管理人员可以通过人机接口命令主动运行故障关联算法；网络管理人员手动差错时，通过交互的接口命令进行故障定位、处理。

上述网络管理系统可以通过定时器设置间隔时间。

上述故障关联算法是采用基于图论的面向设备的故障关联算法。

参见图4，上述分解故障诊断任务并协作控制分解后的诊断任务过程是采用协作算法来实现的，该算法具体包括以下步骤：

步骤401、初始化a₁、a₂智能体为“空闲”状态。

步骤402、发生故障后，a_i智能体接收输入的求解问题。

步骤403、a_i智能体根据自身知识和能力解决求解问题，a_i智能体状态改为“活动”。

步骤404～步骤405、判断a_i智能体能否解决上述求解问题，如果能解决，则求解过程解决，a_i智能体状态改为“空闲”；如果不能解决，则进入步骤406。

步骤406、a_i向a_j发送请求求解问题的消息。

步骤407、a_j根据自身空闲状态，接收上述消息。

步骤408、a_j智能体根据自身知识和能力解决求解问题，a_i智能体状态改为“活动”。

步骤409～步骤410、判断a_j智能体能否解决上述求解问题，如果能解决，则求解过程解决，a_j智能体状态改为“空闲”；如果不能解决，则进入步骤411。

步骤411、a_i、a_j向系统控制智能体反馈不能解决上述求解问题的消息，a_i、a_j智能体状态改为“空闲”。

上述初始化a₁、a₂智能体为“空闲”状态之前包括步骤：设a₁为传统专家系统诊断智能体，a₂为神经网络诊断智能体，i，j＝1，2且i≠j。

上述故障诊断任务的分解的原则是使诊断子任务目标明确，使子任务间的耦合尽量少，以简化完成子任务的诊断智能体之间的协作和通信。

一般来说，在高层(粗粒度上)多采用结构分解，而底层(细粒度上)多采用故障分解，这与人们一般的诊断思路相一致。这种综合分解可以一直进行到设备某个基本结构的一个明确的故障问题。这种目标明确的诊断子任务称为诊断活动。诊断活动与一般的诊断子任务的区别是诊断活动包含明确的故障诊断操作。对诊断领域问题进行分布式任务分解，将得到一个层次结构清晰的诊断任务树。

当某故障问题的诊断可能或必须通过多个诊断智能体协作完成时，必须考虑多个诊断智能体间的协调与合作问题。对于某诊断任务，各个诊断智能体具有不同的性能，因此须选择耗费系统资源最少、诊断效果最好的诊断智能体来完成诊断任务。这就是诊断智能体的协调问题。量化诊断智能体诊断性能是解决智能体间协调问题的关键。另外，对于复杂的故障论断问题须基于多智能体的思想，将其分解并运用多种故障诊断方法协同完成，这就是多诊断智能体间的使用问题。为了完成共同诊断任务而合作的诊断智能体的集体形成一个诊断智能体联盟。这要求每个智能体对其它智能体的功能、效率有较详细的了解。因此，在设计时要把其它智能体的资料放在智能体的数据库内，并且智能体自身能够根据实际情况对数据库进行修改，根据这些资料选择合作对象。

上述系统控制智能体采用的协作算法为基于轮询思想的协作。

参见图5，上述实现故障诊断的过程是采用自适应学习算法来实现的，该算法具体包括以下包括：

步骤501、构造误差反向传播(BP)神经网络模型的初始结构。

步骤502、根据实际问题，选入对因变量有影响的自变量，确定输入层输入节点个数。

步骤503、确定输出层节点数，并初始化输出层节点数。

步骤504、输入学习样本。

步骤505、按BP算法对网络进行学习。

步骤506、判断迭代步数是否超过规定步数或学习精度是否达到要求，如果是，则进入步骤507；如果否，返回步骤505。

步骤507、冻结上述网络，以测试编码为输入，使网络处于回想状态，得到故障诊断结果。

上述根据诊断结果，实现对故障的修复过程具体包括以下步骤：

根据诊断结果对故障进行修复，可自动恢复的，系统采用自动修复脚本等方法进行修复；不能自动修复的，系统给出修复意见，采用手动方法进行修复。

一种实现故障管理的系统，参见图6，该系统包括：信息获取智能体、信息预处理智能体、系统控制智能体、故障诊断智能体、故障修复智能体、用户界面智能体、知识库、被管设备以及故障信息库；

信息获取智能体：用于获取故障信息；用于封装信息的存取过程；用于通过知识查询与操纵语言(KQML)实现与外界交互信息；

信息预处理智能体：用于实现对故障的定位；

故障修复智能体：用于根据诊断结果，实现对故障的修复；

用户界面智能体：用于与用户进行交互；

知识库：用于获取知识；

故障信息库：用于存储故障信息，用于提取故障信息。

其中，上述信息获取智能体采用反应主体结构实现；反应主体不包含符号表示的现实世界模型，也不使用复杂的符号推理；反应主体没有现实世界模型和规划，仅有一些简单的行为模式，这些行为模式以“刺激—响应”方式实现对环境的变化做出反应。

其中，上述信息预处理智能体采用慎思主体结构实现；慎思主体，也称作认知主体，是一个显式的符号模型，包括环境和智能行为的逻辑推理能力；慎思主体保持了经典人工智能的传统，是一种基于知识的系统；慎思主体的环境模型一般是预先实现的，形成主要部件知识库。

其中，上述系统控制智能体采用反应主体结构实现。

其中，上述故障诊断智能体采用慎思主体结构实现。

其中，上述故障诊断智能体包括传统的专家系统及神经网络两种诊断智能体；传统的专家系统及神经网络智能体同时对知识库进行管理。

其中，上述专家系统由知识库、推理机、知识获取及解释界面组成；其中知识库用来存放相关领域专家提供的专门知识；推理机的功能是根据一定的推理策略从知识库中选取有关的知识，对用户提供的证据进行推理，直到得出相应的结论为止；在故障检测诊断专家系统的知识库中，存储了某个对象的故障征兆、故障模式、故障成因、故障排除意见等内容。

其中，上述专家系统可处理非结构化结构决策问题、进行知识表达、运用搜索和推理解决困难问题。

其中，上述知识库由事实表和规则表两个表组成；在数据库中，事实表包括字段：事实标记、类型、对象名、属性、关系符、值；规则表包括如下字段：规则标记、使用时间、前提标记集、结论标记集；规则表中的使用时间字段，用来保存规则最近一次被应用的时间，并以此作为冲突检测的依据；规则表中的前提标记集和结论标记集字段以字符串的形式存储规则的前提事实标记和结论事实标记，事实标记间用空白字符隔开；对知识库的维护包括三种操作：扩展知识库、修改知识库和删除知识库。

其中，上述事实表中，每一个事实都被赋予一个整数作为该事实在表中的唯一标记。

其中，在上述规则表中每一个规则都用一个整数来唯一标记。

其中，上述推理机的的推理策略是采用似然推理法，进行正反向混合推理，采用启发式的搜索策略。

其中，上述神经网络智能体是前向多层神经网络模型的基于BP的学习算法。

其中，上述神经网络智能体具有任意逼近任意连续函数的功能。

其中，上述神经网络智能体多个神经网络模块构成。

其中，上述故障修复智能体采用反应主体结构实现。

其中，上述故障修复智能体支持告警实时监视，提供告警声光提示；支持告警转到电子邮件或手机短信。

其中，上述用户界面智能体可以针对不同用户进行不同的处理；可以针对不同的用户进行个性化处理，从而能够适应于特定用户的特定行为；上述用户界面智能体能够确定用户在某个特定的情况下将如何作出反应时，用户界面智能体就开始替代或者帮助用户完成相应的任务。

其中，所述信息获取智能体代理采用简单网路管理协议SNMP作为信息获取智能体代理与智能体之间的通信协议，智能体代理即为SNMP代理；SNMP协助网络管理系统完成管理任务的一个守护进程。

其中，所述信息获取智能体代理通过主/子代理的方式进一步扩展了智能体代理；所述信息获取智能体代理通过支持多种扩展协议，如代理扩展协议、SNMP多路复用协议等；信息获取智能体代理支持可扩展标记语言接口等，实现了分布式、易扩展的告警信息采集系统。

其中，上述智能体之间采用通用对象请求代理体系结构(CORBA)来实现通信和消息格式的转换。

其中，上述智能体之间采用知识查询与操纵语言作为通信语言。

其中，上述KQML提供了一套标准的智能体通讯原语，使得使用该语言的智能体之间都可以进行交流和共享信息；KQML定义了智能体之间传递信息的标准语法和动作；KQML与智能体间的具体通讯方式无关。

以上对本发明所提供的一种实现故障管理的方法及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1、一种实现故障管理的方法，其特征在于，该方法具体包括以下步骤：

A、获取故障信息；

B、根据故障信息，实现对故障的定位；

C、实现故障诊断，得出故障诊断结果；

D、根据诊断结果，对故障进行修复。

2、如权利要求1所述的实现故障管理的方法，其特征在于，所述步骤B之后，步骤C之前包括步骤：分解故障诊断任务并协作控制分解后的诊断任务。

3、如权利要求1所述的实现故障管理的方法，其特征在于，所述步骤A具体包括以下步骤：

A1、对序列进行离散傅立叶变换；

A2、将序列分解为函数；

A3、找出各个序列的最大频率f_i；

4、如权利要求3所述的实现故障管理的方法，其特征在于，所述对序列进行离散傅立叶变换具体包括：对代表轮询管理信息值{x_i(t)}在t时刻所获得的值序列{x_i(t_n)}(1≤i≤v)进行离散傅立叶变换，v表示被轮询的管理信息值数，n表示序列中包含的数值的数量。

5、如权利要求1所述的实现故障管理的方法，其特征在于，所述步骤A采用基于离散傅立叶变换的动态轮询算法来获取故障信息。

6、如权利要求1所述的实现故障管理的方法，其特征在于，所述步骤B具体包括以下步骤：

B2、设置可能故障边集和可能故障点集为空；

B4、根据关联矩阵，计算被管理网络的可能故障边集；

B6、确定故障位置。

7、如权利要求1所述的实现故障管理的方法，其特征在于，所述步骤B采用基于图论的面向设备的故障关联算法来实现故障的定位。

8、如权利要求7所述的实现故障管理的方法，其特征在于，执行所述故障关联算法具体包括：管理系统每隔预定的时间自动运行故障关联算法或者告警事件触发故障关联算法的运行或者采用人机接口命令运行故障关联算法。

9、如权利要求2所述的实现故障管理的方法，其特征在于，所述分解故障诊断任务并协作控制分解后的诊断任务具体包括以下步骤：

S1、初始化a₁、a₂智能体为“空闲”状态；

S2、发生故障后，a_i智能体接收输入的求解问题；

S5、a_i向a_j发送求解问题的消息；

S6、a_j根据自身空闲状态，接收所述消息；

10、如权利要求9所述的实现故障管理的方法，其特征在于，所述步骤S1之前包括步骤：设定a₁为传统专家系统诊断智能体，a₂为神经网络诊断智能体，i，j＝1，2且i≠j。

11、如权利要求1所述的实现故障管理的方法，其特征在于，所述步骤C具体包括以下步骤：

C1、构造误差反向传播BP神经网络模型的初始结构；

C3、确定输出层节点数，并初始化输出层节点数；

C4、输入学习样本；

C5、采用BP算法对网络进行学习；

12、如权利要求1所述的实现故障管理的方法，其特征在于，所述步骤C采用协作交互算法实现故障诊断，得出故障诊断结果。

13、如权利要求12所述的实现故障管理的方法，其特征在于，所述协作交互算法是建立在轮询基础上的协作。

14、如权利要求1所述的实现故障管理的方法，其特征在于，所述步骤D具体包括：根据诊断结果对故障进行修复，可自动恢复的，系统采用自动修复脚本方法进行修复；不能自动修复的，系统给出修复意见，采用手动方法进行修复。

15、如权利要求1所述的实现故障管理的方法，其特征在于，所述实现故障管理是实现对网络故障的管理。

16、一种实现故障管理的系统，该系统包括：信息获取智能体、信息预处理智能体、系统控制智能体、故障诊断智能体、故障修复智能体、用户界面智能体、知识库、信息获取智能体代理、被管设备以及故障信息库；

信息预处理智能体：用于实现对故障的定位；

故障修复智能体：用于根据诊断结果，实现对故障的修复；

用户界面智能体：用于与用户进行交互；

知识库：用于获取知识；

故障信息库：用于存储故障信息，用于提取故障信息。

17、如权利要求16所述的实现故障管理的系统，其特征在于，所述获取智能体采用反应主体结构实现。

18、如权利要求16所述的实现故障管理的系统，其特征在于，所述信息预处理智能体采用慎思主体结构实现。

19、如权利要求16所述的实现故障管理的系统，其特征在于，所述故障诊断智能体采用慎思主体结构实现。

20、如权利要求16所述的实现故障管理的系统，其特征在于，所述信息获取智能体代理采用简单网路管理协议实现与智能体之间的通信。

21、如权利要求16所述的实现故障管理的系统，其特征在于，所述信息获取智能体代理采用主/子代理的方式扩展智能体代理。

22、如权利要求16所述的实现故障管理的系统，其特征在于，所述信息获取智能体支持代理扩展协议或SNMP多路复用协议。

23、如权利要求16所述的实现故障管理的系统，其特征在于，所述智能体之间采用通用对象请求代理体系结构来实现通信和消息格式的转换。

24、如权利要求16所述的实现故障管理的系统，其特征在于，所述智能体之间采用知识查询与操纵语言作为通信语言。

25、如权利要求16所述的实现故障管理的系统，其特征在于，所述实现故障管理是实现对网络故障的管理。