CN1529455A - 网络故障实时相关性分析方法及系统 - Google Patents

网络故障实时相关性分析方法及系统 Download PDF

Info

Publication number
CN1529455A
CN1529455A CNA031347290A CN03134729A CN1529455A CN 1529455 A CN1529455 A CN 1529455A CN A031347290 A CNA031347290 A CN A031347290A CN 03134729 A CN03134729 A CN 03134729A CN 1529455 A CN1529455 A CN 1529455A
Authority
CN
China
Prior art keywords
network
incident
failure
analysis
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA031347290A
Other languages
English (en)
Other versions
CN100456687C (zh
Inventor
俊 谭
谭俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Service Co Ltd
Original Assignee
Harbour Networks Holdings Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbour Networks Holdings Ltd filed Critical Harbour Networks Holdings Ltd
Priority to CNB031347290A priority Critical patent/CN100456687C/zh
Publication of CN1529455A publication Critical patent/CN1529455A/zh
Application granted granted Critical
Publication of CN100456687C publication Critical patent/CN100456687C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种网络故障实时相关性分析方法及系统,属于计算机网络通信领域。来自各种网络设备和业务对象的故障事件信息写入原始事件列表中,分析控制引擎从原始事件列表中按照原始事件级别和类型选择性读取事件进行相关性分析,在动态的分析算法中综合运用历史故障分析情景、网络动态性能参数、动态拓扑信息和事件时间特征等各种领域信息,克服了现有的故障关联分析方法中忽视动态网络状态信息、推理过程过于依赖预设规则和缺乏自动学习能力等不足,能够对故障引起的原始事件集合进行有效的相关性分析,较好解决了网络故障风暴发生时的实时故障原因分析和故障定位问题。

Description

网络故障实时相关性分析方法及系统
所属技术领域
本发明属于计算机网络通信领域,具体涉及一种网络管理中基于领域综合信息对网络故障事件进行实时相关性分析的方法及系统。
背景技术
在计算机和通信网络中,当某个设备或者服务发生故障时,会因为设备、服务和业务之间紧密联系而引起一系列网络事件,负责监控该网络的网络管理系统通过设备发来的事件通知或者网管系统的轮询监控,会发现大量的异常事件,并通过SNMP Trap、Syslog或者Indication反映到网络管理员的管理界面上,从而表现为“网络故障风暴”。由于这种故障风暴往往在很短的时间内导致大量的事件,淹没了最根本的故障事件,让管理员难以从中发现故障发生的真正原因,要解决故障,就需要从中分析出最根本的故障原因,也就是分析这些事件之间的相关性,寻求根源事件。为了进行事件相关性分析,业界发展出几种典型的方法:如基于规则的分析(Rule Based Reasoning)、基于模型的分析(ModelBased Reasoning)、基于状态转移图(State Transition Graph)的分析、基于代码簿(CodeBook)的分析及基于案例的分析(Case-Based Reasoning),这些方法都能在一定程度上解决故障相关性分析的问题,并且各有优点。但是这些方法均无法完全解决以下问题:
(1)无法动态的考虑网络拓扑连结信息;
(2)无选择的处理所有的输入事件,效率难以提高,资源消耗大;
(3)推理过程过于依赖预设规则、特征表或模型,缺乏自动学习能力,缺少对知识库以外的新情况的适应能力和处理能力;
(4)在固定的时间范围内观察事件序列,不能动态的改变关联分析的时间范围;
(5)在分析过程中缺少对条件概率和时间因素的考虑;
(6)不能在基于静态信息的分析过程中结合实时获取的网络运行参数。
发明内容
本发明提供一种基于领域综合信息对网络故障事件进行实时相关性分析的方法及系统,克服了现有的故障关联分析方法中忽视动态网络状态信息、推理过程过于依赖预设规则和缺乏自动学习能力等不足,可有效的识别故障源头的关键事件并将其在网络中定位。
本发明的技术内容:一种网络故障实时相关性分析方法,包括:
(1)事件提取接口采集网络中产生的各种故障事件,并写入原始事件列表中;
(2)从原始事件列表中读取一条事件,通过历史故障情景信息进行事件匹配,对网络设备、服务运行参数进行实时检测;
(3)如果未有匹配事件,基于信息模型、拓扑依赖关系选取出与当前处理的事件相关的网络对象进行实时检测,并将实时检测的结果作为条件应用回推理过程中;
(4)返回原始事件列表继续查找与当前处理事件相关的事件或者与实时检测结果吻合的事件,并将该事件加入到工作列表中;
(5)在原始事件列表中已经没有其他可以加入工作列表的事件,则从工作列表中的事件构造一个新的故障情景并加入到历史故障情景信息中,清空工作列表;
(6)从原始事件列表中读取下一个符合选择策略的事件,返回到第二步,如果没有事件在列表中,则挂起等待有事件输入。
所述的信息模型包括:
(1)对被管理网络中的各种被管理对象进行面向对象抽象;
(2)按照抽象后的被管理类之间的继承关系组成一个层次化的信息模型;
(3)在信息模型中用关联类定义被管理类之间的相互关系。:
所述拓扑依赖关系包括:
(1)在网络运行中保持拓扑依赖关系与网络实际拓扑的一致;
(2)将故障相关性分析程序运行的网络节点设为参考点;
(3)通过参考点计算到达其他各个节点的可达性依赖关系。
(4)利用来自设备的拓扑改变的通告触发拓扑同步程序由最新的拓扑重新计算拓扑依赖关系;
所述推理过程包括:
(1)为每一步推理赋予一个置信概率,并通过计算每步的概率得出最后分析结果的概率;
(2)在故障情景创建中定义时间约束函数来描述事件的时间特性以及相关联的事件之间的时间关系;
(3)用形式化方法进行告警内容的表示和匹配。
将历史故障情景信息构造为一张便于快速查询的故障情景表。
所述原始故障事件采集进一步包括:
(1)在处理不同的事件类型时,按照预定规则动态改变原始事件队列的长度;
(2)按照事件级别和用户定义规则来决定哪些事件作为相关性分析的起始点;
(3)对原始事件进行预处理,针对不同协议的故障事件提供可扩展的事件获取接口,将它们转化为统一的内部格式并过滤。
所述构造新的故障情景包括:
(1)提取故障特征参数;
(2)提取故障传播路径;
(3)利用故障特征参数和传播路径构造新的故障解决情景。
一种网络故障实时相关性分析系统,包括:
分析控制引擎:用于按照分析控制引擎算法调用其他模块和接口来完成故障相关性分析;
事件提取接口:用于接收网络设备发来的各种网络事件,将事件转化为统一的格式,写入原始事件列表,供分析控制引擎调用;
实时网络参数检测接口:用于检测网络中各种设备和服务的属性、性能和可达性等实时信息,被分析控制引擎所调用,接受故障分析引擎的参数以决定对哪个网络设备进行实时检测,并将结果返回给分析控制引擎;
信息模型:描述一系列对应于网络协议对象和设备对象的管理类,以及它们之间的相互依赖关系;
信息模型查询接口:用于从信息模型中查询管理类、管理类属性和管理类之间关系的函数,在运行时为分析控制引擎提供来自信息模型的信息;
拓扑同步模块:用于被网络拓扑改变事件触发运行拓扑依赖关系生成算法,生成正确反映当前网络拓扑连结关系的拓扑依赖关系并存入拓扑依赖关系库,拓扑依赖关系库为分析控制引擎提供相关信息;
故障情景表生成模块:用于在已经找到相关性的一组事件上建立一个故障情景,并将此情景存入故障情景表中,通过故障情景表与后续的事件进行匹配。
所述信息模型以散列表文件方式存储,分析控制引擎在分析过程中通过模型查询接口提取信息模型的信息。
进一步包括预处理模块:按照预定的预处理规则对接收到的原始事件进行预先处理。
本发明的技术效果:充分利用了网络中各种动态和静态信息,实时信息和历史信息,在网络出现故障时,从复杂的故障现象及其引起的事件风暴中,有效的识别故障源头的关键事件并将其在网络中定位;此外,因为在分析中应用了与实际网络拓扑状况同步的拓扑依赖关系,以及实时获取的网络运行参数,提高了故障定位的准确性;通过对原始输入事件进行预处理(包括协议格式转换、过滤和选择),避免了从所有输入的事件入手进行相关性分析,提高了处理效率;利用构造故障处理历史情景表,使本方法具有了从历史经验中自我学习的能力,而且用情景表对事件进行快速匹配,使得有的事件可以直接在情景表中得到匹配,从而避免了对所有的事件都进行全过程的相关性分析,处理效率得到提高;且由于在分析算法中应用概率逻辑和时间约束函数、正则表达式模糊匹配,能够更加灵活的处理事件之间的复杂关系,提高了相关性分析的适用能力。
附图说明
图1是本发明网络故障实时相关性分析系统的结构示意图;
图2是本发明网络故障实时相关性分析方法的流程图;
图3是本发明网络故障实时相关性分析方法的拓扑依赖生成算法流程图;
图4是本发明网络故障实时相关性分析方法的一个具体实施例的网络示意图;
图5是本发明网络故障实时相关性分析方法的一个具体实施例中的信息模型的示意图。
具体实施方式
参考图1,本发明以分析控制引擎为控制模块,通过与信息模型查询接口,事件提取接口和预处理模块、实时网络参数检测接口、故障情景表生成模块、拓扑同步模块的交互来实施网络故障实时相关性分析。具体步骤为:
1、事件提取接口以不同的协议(SNMP/SYSLOG等)提取来自各种网络设备和业务对象的故障事件信息,并将它们的格式转化为统一的内部格式,然后通过事件预处理模块,对这些事件信息进行压缩、过滤(按照预设的过滤器),写入原始事件列表中;通过对原始事件进行预处理,可有效提高处理效果;
2、分析控制引擎从原始事件列表中按照原始事件级别和类型选择性读取一条事件进行相关性分析;在分析过程中综合应用故障情景表、信息模型信息、实时检测信息和拓扑信息,在分析过程中会按照需要继续从原始事件列表中读取事件来构造事件传播路径,直到无法再找到下一个可以匹配的事件为止;
(1)将历史故障情景信息构造为一张便于快速查询的故障情景表。在情景表中可进行事件的快速匹配;
(2)构造面向对象的层次化网络信息模型:对网路中的硬件、链路、软件和网络服务等被管理对象进行面向对象抽象,按照这些抽象后的管理类之间的继承关系组织成为一个层次化的信息模型。在此模型中同时用关联类定义了被管理类之间的包含、依赖、连结等相互关系。模型以散列表(Hash)文件方式存储,可通过模型对象管理接口访问,利用模型定义的管理类的层次和相互依赖关系来进行推导;在信息模型中描述了一系列对应于网络协议对象和设备对象的管理类,以及它们之间各种各样的关系。信息模型中定义的管理类可以分为拓扑子模型、开放服务子模型和网络通信子模型三个大类。
以下用开放服务系统子模型作为例子来介绍管理类的定义:开放服务系统子模型主要用于描述数据通信网络中的各个节点设备及其内部各个模块,它将一切提供数据传输服务或者数据处理服务的网络节点抽象为一个开放的服务系统,由软件、硬件按照一种可扩展和剪裁的方式进行组合构成不同的系统,其中管理类为:
a、开放服务系统:(Open Service System)代表一切在数据通信网络上提供各层数据服务的系统;包括路由器、交换机或者服务器等;
b、软件(software):开放服务系统中通过软件实现的功能模块;
c、硬件(hardware):开放服务系统中通过硬件和固件实现的功能模块;
d、应用(application):各种应用程序,如邮件客户端;
e、操作系统(os):各种实时和分时操作系统;如VxWorks,Windows,Unix,Linux等;
f、资源(resource):系统中基本的共享对象:如内存、磁盘、CPU、中断等;
g、设备(device):组成硬件的各个模块;
h、服务(service):
i、协议栈(protocol stack):
j、内核(kernel):
k、驱动(driver):
l、内存(memory):
m、硬盘(harddisk):
n、中央处理器(cpu):
o、总线(bus):
p、适配器(adapter):
q、网络适配器(network adapter):
u、控制器(controller):
在该信息模型中存在管理类之间的各种依赖关系,如协议依赖关系、开发服务依赖关系等。
(3)实时检测:将推理过程和对网络设备、服务运行参数的实时检测结合起来。
(4)基于指定参考点进行拓扑依赖关系实时计算:将故障相关性分析程序运行的网络节点设为参考点,在此基础上计算到达其他各个节点的可达性依赖关系,并在网络运行中保持与网络拓扑的同步;拓扑依赖关系描述了节点和节点之间的物理性连结,是协议互通性和服务可用性的基础。其中参考点,指当我们考虑到拓扑图中某个节点的可达性时,作为出发点的那一节点,在实际的被管网络中,往往就是网管平台所处的节点,或者是网络探测器(软件或硬件)所处的节点位置。参考图3,建立依赖关系是一个递归算法,每次拓扑发生改变后,都会触发自动运行算法,更新依赖依赖关系,保证当前故障定位和关联的准确性,从而达到下一步需要检测的可能关联的网络实例对象的集合。
(5)在控制分析引擎内部完成相关性分析方法最核心的逻辑,参考图2,
a、从列表中读取一个事件Ei(i=1~n),在情景表中用该事件进行匹配,看是否有跟该事件相关的故障历史情景(该故障情景的特征事件与该事件匹配),对每一个符合的情景,按照步骤(b)处理;
b、调用实时检测模块,对该情境中的相关对象类的相关实例(同时考虑与该事件产生节点相关的拓扑依赖的节点)进行实时状态检测,看返回结果是否符合情景描述的特征范围;然后再到原始事件列表中搜索有没有相关实例产生的后继事件,看是否符合情景定义的特征;如果以上检查通过,则标记这些相关的事件并调用输出模块格式化输出分析结果;
c、如果(b)中检测不符合,则调用模型查询接口,在网络信息模型中查询与产生该事件的对象对应的管理类;同时考虑与该事件产生节点相关的拓扑依赖的节点,得到下一步需要检测的可能相关的网络实例对象的集合;
d、调用实时检测模块检测这些对象的当前状态是否符合星系模型中定义的关系所描述的特征范围,然后检查在原始事件列表中是否有这些对象发出的相关事件,如果有,则将这些事件加入到工作事件列表,转步骤(e);如果以上检测不通过,则检查工作事件列表是否为空,如果为空转步骤(e)如果不为空,则调用故障情景构造模块为这些事件构造新的故障情景并加入到故障情景表中,同时清空工作事件列表;然后再标记和移除这些事件并格式化输出分析结果,转步骤(e);
e、从原始事件列表中读取下一个符合选择策略的事件,然后转步骤(a),如果没有事件在列表中,则挂起等待有事件输入;
其中,在上述步骤提及的匹配和实时状态检测的推理过程包括:基于概率的规则推理:为每一步推理赋予一个置信概率,并通过计算每步的概率得出最后分析结果的概率;对时间约束因素的处理:在故障情景创建中定义时间约束函数来描述事件的时间特性以及相关联的事件之间的时间关系;用正则表达式进行告警内容的模糊匹配。
3、当完成一遍相关性分析后(完成对当前事件列表中所有事件的扫描),为本遍分析中关联到一起的事件构造故障情景并加入到故障情景表,然后将这些事件移出原始事件列表并构造输出分析结果;
4、在与分析控制引擎进行以上工作的同时,事件采集模块(包括事件采集接口和事件预处理模块)还在同步的向原始事件列表中写入新接收到的事件,拓扑同步模块也同时监控网络拓扑的变化,随时刷新网络拓扑依赖关系库;如果原始事件列表中没有事件了,分析控制引擎将挂起,等待有新的事件写入;事件预处理模块将新的事件写入原始事件列表时,如果发现分析控制引擎挂起,将唤醒该进程。
具体采用一个局域网的例子说明,参考图4,其中A,C,D是局域网中运行Linux操作系统的主机,S是一台三层交换机,R是一台连接此局域网与Web服务器的路由器,也是此局域网的网关。A、C直接与S相连,D直接与R相连,RP是一台运行Windows的PC,也是我们执行相关性分析的参考点,相关性分析系统就运行在这台主机上。
首先,参考图5,本实施例采用一个简化的信息模型,在此网络中:主机A,C,D,RP,路由器R,交换机S都可以被看作是开放服务系统,每个开放服务系统包含了一个协议栈,协议栈负责完成应用与网络上其他开放服务系统中对等实体间的通信。数据向下流经应用、操作系统、协议、接口,然后进入物理网络,经过二层转发和三层路由到达另一个开放服务系统,向上经过接口、协议、操作系统直到另一端的应用。
1)信息模型实例化
以上的模型将在实际的网络环境中生成一些对应于以上模型实体的实例:如路由器R上的应用,我们将其命名为Application_R,R上的操作系统,命名为:OS_R,
与此类推,我们得到其他实例:Protocols_R,Interface_R;
同样:
对于主机A,我们得到Application_A,Service_A,OS_A,Protocols_A,Interface_A;
对于主机C,我们得到Application_C,Service_B,OS_C,Protocols_C,Interface_C;
对于主机D,我们得到Application_D,Service_D,OS_D,Protocols_D,Interface_D;
而且存在以下依赖关系:
Application->Service;
Service->OS;
OS->Protocols;
Protocols->Interface;(注意:这是一个简化的模型);
假设模型中有定义web_browse_in_url->DNS service;
X.interface.fail等价于X.down;
2)拓扑依赖关系生成
对于图4所示的网络,网络管理平台将通过自动发现得到其拓扑数据,然后运行拓扑依赖关系生成算法,(以RP为参考点)得到以下拓扑依赖关系集合:RD={A->S,C->S,S->R,D->R,Intemet->R,R->RP}
其中:’X->Y’的含义可以解释为“要访问X,必须先经过Y”;
R->RP表示R是与参考点RP直接相连的网络节点;
当网络拓扑或参考点发生改变时,该算法自动更新依赖关系,从而保持依赖关系能够反映实际的网络运行状况。
3)事件提取接口开始接收网络中产生的各种事件。
假设在主机A上运行了一个DNS服务(可以看作一个服务),而在主机D上有个程序在不断的访问Web服务器上的主页www.harboumetworks.com,可以将其看作一个Applicaion,我们命名为web_browse_in_url。
假设在某个时刻,事件提取接口从各个主机的SNMP代理接收到以下事件,这事件被格式化后表示如下:
  {

  E0=RP.ping.S.fail:t0,表示t0时刻从RP上无法ping到交换机S,

  E1=RP.ping.C.fail:t1,表示t1时刻从RP上无法ping到主机C,

  E2=RP.ping.C.fail:t2,表示t2时刻从RP上无法ping到主机C,

  E3=D.web_browse_in_url.Web_Server.fail:t3表示t3时刻主机D上无法访问Web
服务器。
        <!-- SIPO <DP n="9"> -->
        <dp n="d9"/>
  E4=RP.ping.A.fail:t4,表示t4时刻从RP上无法ping到主机A,

  E5=RP.ping.A.fail:t5,表示t5时刻从RP上无法ping到主机A,

  E6=R.down:t6,表示t6时刻R失效,

  E7=RP.web_browse_in_url.web_server.fail:t7表示t7时刻主机RP上无法访问
Web服务器。

  E8=R.up:t8,表示t8时刻R恢复工作,

  }
4)E0...E4随后被送给预处理模块处理后,得到压缩后的原始事件集合,注意这里过滤了重复的事件(E2,E5)和故障状态已经解除的成对事件(E6,E8);
{
E0=RP.ping.S.fail:t0,表示t0时刻从RP上无法ping到交换机S,
E1=RP.ping.C.fail:t1,表示t1时刻从RP上无法ping到主机C,
E3=D.web_browse_in_url.Web_server.fail:t3表示t3时刻主机D上无法访问Web服务器。
E4=RP.ping.A.fail:t4,表示t4时刻从RP上无法ping到主机A,
E7=RP.web_browse_in_url.Web_Server.fail:t7表示t7时刻主机RP上无法访问Web服务器。
}
5)利用领域综合信息对通信网络中的故障事件进行实时相关性分析:
(a)分析控制引擎从原始事件列表中读取一条事件:E0=RP.ping_S.fail:t0;从中解析出
节点对象:源节点RP,目的节点S,
应用对象:RP.ping,ping属于Applications;
应用对象状态:fail;
将E0标记并加入工作事件列表;
(b)打开并查询情景表中有无与RP,S,ping相关的情景,发现情景表为空(系统第一次初始化,还没有加入新的情景),关闭情景表;
(c)调用信息模型查询接口,查询ping(Application),得到关系:Applications->Services,Services->Protocols,Protocols->Interface;再查询拓扑依赖关系库,得到R->RP,S->R;
(d)调用网络状态实时检测接口,检查S.Interface,发现S.Interface状态为fail,则根据依赖关系可以推断出以下结果:
S.Interface.fail==S.down;
S.down=>A.down and C.down;
A.down==A.Interface.fail=>A.application.fail and A.services.fail
C.down==C.Interface.fail=>C.application.fail and C.services.fail;
A.services.fail=>A.DNS.fail=>*.browse_web_in_url.fail
(e)从E1开始检查原始事件列表。读取E1
E1=RP.ping.C.fail:t1,从中解析出
节点对象:源节点RP,目的节点C,
应用对象:RP.ping,ping属于Applications;
应用对象状态:fail;
ping属于application,要求RP和C,以及拓扑依赖的S,R上的applications,services,protocols,interface均保持正常,则S.down,C.down均可推出E1,所以E1被关联上,分析引擎将E1标记并加入到工作事件列表中;
继续往下读取E3:
E3=D.web_browse_in_url.Web_server.fail:t3解析得到:
节点对象:D,Web_server;
应用对象:web_browse_in_url;
应用对象状态:fail;
根据前面得到的:A.services.fail=>A.DNS.fail=>*.browse_web_in_url.fail,可以得出E3也是E1的相关事件,于是E3被标记并加入到工作事件列表中。
同理,可以分析出E4和E7都是E1的相关事件,于是标记该事件被加入到工作列表。
(f)发现原始事件列表中已经没有未标记的事件,则调用输出模块对原始事件列表进行格式化输出:
输出告警:
   Alarm1=

  {

  Cause:RP.ping.S.fail:t0

  Affects:

   [

  RP.ping.C.fail:t1

  D.web_browse_in_url.Web_server.fail:t3

  RP.ping.A.fail:t4

  RP.web_browse_in_url.Web_Server.fail:t7

      ]

  }
(g)利用故障特征参数和故障传播路径为这些事件构造新的故障解决情景Scenel:S.down=>{A.down and C.down and*.web_browse_in_url.fail}并加入到故障情景表中。
(h)清空工作事件列表;从原始事件列表中移除这些事件。
(j)如果此时有新的事件加入到原始事件引擎则转(3),否则挂起,等待新的事件输入;
(k)假设有新的事件来到:
    E9=D.web_browse_in_url.Web_Server.fail:t9
    E10=A.down:t10;
(l)事件分析引擎读取E9,在事件情景表中查询,发现在Scene1中有*.web_browse_in_url.fail这个事件特征模式与之匹配,将E9加入到工作事件列表中,继续查看在原始事件列表中是否有特征事件:A.down和C.down,读取到E10,满足A.down,将E10加入工作事件列表;这时候列表中没有其他的事件了,还余下一个特征C.down需要被证实,于是调用实时检测接口,检测发现:C.down=true;于是情景得到匹配,直接得出结果S.down。以下同(1)描述的步骤。
在上一步中,如果对C的实时检测结果C.down=false;则上述情景不能完全被置信,可以给予一个置信概率。表示还可能有其他的原因。
通过运用领域综合信息,包括基于网络信息模型的管理对象层次信息及相互关系、自动学习的故障处理历史信息、实时采集的网络运行参数、网络动态拓扑信息、事件时间特征等,并在推理过程中运用动态分析方法,较好解决了在复杂网络环境中的故障相关性分析问题。
参考图1,本发明网络故障实时相关性分析系统,包括:
分析控制引擎:分析过程的主要控制逻辑执行者,用于按照分析控制引擎算法调用其他模块和接口来完成故障相关性分析;
信息模型:描述了一系列对应于网络协议对象和设备对象的管理类,以及它们之间各种各样的关系,信息模型中定义的管理类可以分为拓扑子模型、开放服务子模型和网络通信子模型三个大类;
信息模型查询接口:用于从信息模型中查询管理类、管理类属性和管理类之间关系的函数,在运行时为分析控制引擎提供来自信息模型的信息;
事件提取接口:用于接收网络设备发来的各种网络事件,包括SNMPTRAP、SYSLOG、CMIP Event Report等各种协议的事件通告,将该事件转化为统一的格式,并交给预处理模块;
预处理模块:用于对接收到的原始事件进行简单的过滤(按照设定的规则去除一些管理人员无需关心的事件)、压缩(去除重复的事件)、重定义(把一个或多个事件重新定义为一个新的事件)等预先处理,有利于相关性分析;
实时网络参数检测接口:用于检测网络中各种设备和服务的属性、性能和可达性等实时信息,被故障分析引擎所调用,接受故障分析引擎的参数以决定对哪个网络设备进行实时检测,并将结果返回给故障分析引擎;
故障情景表生成模块:用于在已经找到相关性的一组事件上建立一个故障情景,并将此情景存入故障情景表中,这些建立的故障情景供后续分析快速查找使用,建立的故障情景可供后续分析快速查找并使用;
拓扑同步模块:用于被网络拓扑改变事件触发运行拓扑依赖关系生成算法,生成正确反映当前网络拓扑连结关系的拓扑依赖关系并存入拓扑依赖关系库,供故障相关性分析使用。

Claims (10)

1.一种网络故障实时相关性分析方法,包括:
(1)事件提取接口采集网络中产生的各种故障事件,并写入原始事件列表中;
(2)从原始事件列表中读取一条事件,通过历史故障情景信息进行事件匹配,对网络设备、服务运行参数进行实时检测;
(3)如果未有匹配事件,基于信息模型、拓扑依赖关系选取出与当前处理的事件相关的网络对象进行实时检测,并将实时检测的结果作为条件应用回推理过程中;
(4)返回原始事件列表继续查找与当前处理事件相关的事件或者与实时检测结果吻合的事件,并将该事件加入到工作列表中;
(5)在原始事件列表中已经没有其他可以加入工作列表的事件,则从工作列表中的事件构造一个新的故障情景并加入到历史故障情景信息中,清空工作列表;
(6)从原始事件列表中读取下一个符合选择策略的事件,返回到第二步,如果没有事件在列表中,则挂起等待有事件输入。
2.如权利要求1所述的网络故障实时相关性分析方法,其特征在于所述的信息模型包括:
(1)对被管理网络中的各种被管理对象进行面向对象抽象;
(2)按照抽象后的被管理类之间的继承关系组成一个层次化的信息模型;
(3)在信息模型中用关联类定义被管理类之间的相互关系。
3.如权利要求1或2所述的网络故障实时相关性分析方法,其特征在于所述拓扑依赖关系包括:
(1)在网络运行中保持拓扑依赖关系与网络实际拓扑的一致;
(2)将故障相关性分析程序运行的网络节点设为参考点;
(3)通过参考点计算到达其他各个节点的可达性依赖关系。
(4)利用来自设备的拓扑改变的通告触发拓扑同步程序由最新的拓
扑重新计算拓扑依赖关系;
4.如权利要求1所述的网络故障实时相关性分析方法,其特征在于所述推理过程包括:
(1)为每一步推理赋予一个置信概率,并通过计算每步的概率得出最后分析结果的概率;
(2)在故障情景创建中定义时间约束函数来描述事件的时间特性以及相关联的事件之间的时间关系;
(3)用形式化方法进行告警内容的表示和匹配。
5.如权利要求1所述的网络故障实时相关性分析方法,其特征在于将历史故障情景信息构造为一张便于快速查询的故障情景表。
6.如权利要求1所述的网络故障实时相关性分析方法,其特征在于所述原始故障事件采集进一步包括:
(1)在处理不同的事件类型时,按照预定规则动态改变原始事件队列的长度;
(2)按照事件级别和用户定义规则来决定哪些事件作为相关性分析的起始点;
(3)对原始事件进行预处理,针对不同协议的故障事件提供可扩展的事件获取接口,将它们转化为统一的内部格式并过滤。
7.如权利要求1所述的网络故障实时相关性分析方法,其特征在于所述构造新的故障情景包括:
(1)提取故障特征参数;
(2)提取故障传播路径;
(3)利用故障特征参数和传播路径构造新的故障解决情景。
8.一种网络故障实时相关性分析系统,包括:
分析控制引擎:用于按照分析控制引擎算法调用其他模块和接口来完成故障相关性分析;
事件提取接口:用于接收网络设备发来的各种网络事件,将事件转化为统一的格式,写入原始事件列表,供分析控制引擎调用;
实时网络参数检测接口:用于检测网络中各种设备和服务的属性、性能和可达性等实时信息,被分析控制引擎所调用,接受故障分析引擎的参数以决定对哪个网络设备进行实时检测,并将结果返回给分析控制引擎;
信息模型:描述一系列对应于网络协议对象和设备对象的管理类,以及它们之间的相互依赖关系;
信息模型查询接口:用于从信息模型中查询管理类、管理类属性和管理类之间关系的函数,在运行时为分析控制引擎提供来自信息模型的信息;
拓扑同步模块:用于被网络拓扑改变事件触发运行拓扑依赖关系生成算法,生成正确反映当前网络拓扑连结关系的拓扑依赖关系并存入拓扑依赖关系库,拓扑依赖关系库为分析控制引擎提供相关信息;
故障情景表生成模块:用于在已经找到相关性的一组事件上建立一个故障情景,并将此情景存入故障情景表中,通过故障情景表与后续的事件进行匹配。
9.如权利要求8所述的网络故障实时相关性分析系统,其特征在于所述信息模型以散列表文件方式存储,分析控制引擎在分析过程中通过模型查询接口提取信息模型的信息。
10.如权利要求8或9所述的网络故障实时相关性分析系统,其特征在于进一步包括预处理模块:按照预定的预处理规则对接收到的原始事件进行预先处理。
CNB031347290A 2003-09-29 2003-09-29 网络故障实时相关性分析方法及系统 Expired - Fee Related CN100456687C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB031347290A CN100456687C (zh) 2003-09-29 2003-09-29 网络故障实时相关性分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB031347290A CN100456687C (zh) 2003-09-29 2003-09-29 网络故障实时相关性分析方法及系统

Publications (2)

Publication Number Publication Date
CN1529455A true CN1529455A (zh) 2004-09-15
CN100456687C CN100456687C (zh) 2009-01-28

Family

ID=34286184

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031347290A Expired - Fee Related CN100456687C (zh) 2003-09-29 2003-09-29 网络故障实时相关性分析方法及系统

Country Status (1)

Country Link
CN (1) CN100456687C (zh)

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006128347A1 (fr) * 2005-06-03 2006-12-07 Huawei Technologies Co., Ltd. Procede de mise en œuvre d’une maintenance en ligne dans un reseau de communication
CN100382509C (zh) * 2005-11-28 2008-04-16 华为技术有限公司 无线网络中故障定位的方法
CN100417080C (zh) * 2005-02-01 2008-09-03 华为技术有限公司 一种检测网络链路故障并定位故障的方法
CN101394314B (zh) * 2008-10-20 2011-03-23 北京邮电大学 一种Web应用系统的故障定位方法
CN101199162B (zh) * 2005-06-13 2011-03-30 诺基亚西门子网络公司 一种控制通信网络的方法、系统和设备
CN102158360A (zh) * 2011-04-01 2011-08-17 华中科技大学 一种基于时间因子因果关系定位的网络故障自诊断方法
CN102164089A (zh) * 2011-05-13 2011-08-24 哈尔滨工程大学海洋装备科技有限公司 基于路由的ietm故障诊断记录与回放装置及方法
CN101610174B (zh) * 2009-07-24 2011-08-24 深圳市永达电子股份有限公司 一种日志事件关联分析系统与方法
CN101388794B (zh) * 2008-10-10 2011-12-07 中兴通讯股份有限公司 一种定位网络管理系统异常事件的方法和系统
CN102307135A (zh) * 2011-05-24 2012-01-04 中国电子科技集团公司第十研究所 利用VxWorks平台实时处理基带数传数据的方法
CN102404141A (zh) * 2011-11-04 2012-04-04 华为技术有限公司 一种告警抑制的方法及装置
CN102428447A (zh) * 2009-09-30 2012-04-25 株式会社日立制作所 故障的根本原因解析结果显示方法、装置以及系统
CN102640154A (zh) * 2009-07-30 2012-08-15 惠普开发有限公司 基于所接收的与网络实体相关联的事件来构造贝叶斯网络
CN103152219A (zh) * 2013-02-18 2013-06-12 中国工商银行股份有限公司 一种计算机网络系统的事件监控系统及事件监控方法
CN102045213B (zh) * 2009-10-22 2014-04-02 华为技术有限公司 故障定位方法及装置
CN104487942A (zh) * 2012-10-25 2015-04-01 惠普发展公司,有限责任合伙企业 事件相关
CN104539941A (zh) * 2014-12-25 2015-04-22 南京大学镇江高新技术研究院 基于改进代码书的交通视频专网故障定位方法
CN104598367A (zh) * 2013-10-30 2015-05-06 三星Sds株式会社 数据中心故障事件管理自动化系统及方法
CN106484595A (zh) * 2016-10-09 2017-03-08 华青融天(北京)技术股份有限公司 一种事件处理方法及装置
US9952922B2 (en) 2013-07-18 2018-04-24 Nxp Usa, Inc. Fault detection apparatus and method
CN108171341A (zh) * 2017-12-19 2018-06-15 深圳交控科技有限公司 信号设备的状态分析方法与装置
CN108885574A (zh) * 2016-03-29 2018-11-23 微软技术许可有限责任公司 用于监视和报告设计、编译和运行时的性能和正确性问题的系统
WO2018224940A1 (en) * 2017-06-08 2018-12-13 International Business Machines Corporation Event relationship analysis in fault management
CN109308248A (zh) * 2018-08-27 2019-02-05 上海功致信息科技有限公司 事件关联分析方法和系统
CN109428741A (zh) * 2017-08-22 2019-03-05 中兴通讯股份有限公司 一种网络故障的检测方法及装置
CN109597752A (zh) * 2018-10-19 2019-04-09 中国船舶重工集团公司第七六研究所 基于复杂网络模型的故障传播路径仿真方法
CN110516931A (zh) * 2019-08-12 2019-11-29 国家电网公司华东分部 多维度调控交互模式与全事件优化聚合的方法和存储介质
CN110855503A (zh) * 2019-11-22 2020-02-28 叶晓斌 一种基于网络协议层级依赖关系的故障定因方法和系统
CN113206749A (zh) * 2020-01-31 2021-08-03 瞻博网络公司 网络事件的相关性的可编程诊断模型
CN114070724A (zh) * 2020-08-04 2022-02-18 瞻博网络公司 使用可编程的资源依赖性数学模型来执行根本原因分析
CN114363149A (zh) * 2021-12-23 2022-04-15 上海哔哩哔哩科技有限公司 故障处理方法及装置
CN114629776A (zh) * 2020-12-11 2022-06-14 中国联合网络通信集团有限公司 基于图模型的故障分析方法及装置
US11398945B2 (en) 2018-11-07 2022-07-26 Siemens Aktiengesellschaft System and method for fault detection and root cause analysis in a network of network components
CN116132214A (zh) * 2022-12-30 2023-05-16 中国联合网络通信集团有限公司 基于事件总线模型的事件传输方法、装置、设备及介质
US11809266B2 (en) 2020-07-14 2023-11-07 Juniper Networks, Inc. Failure impact analysis of network events

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113271216B (zh) * 2020-02-14 2022-05-17 华为技术有限公司 一种数据处理方法及相关设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI104032B (fi) * 1996-06-27 1999-10-29 Ericsson Telefon Ab L M Menetelmä televerkon vianhallintaan ja telejärjestelmä
AU2002348415B2 (en) * 2001-10-25 2007-05-24 General Dynamics C4 Systems, Inc A method and system for modeling, analysis and display of network security events

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100417080C (zh) * 2005-02-01 2008-09-03 华为技术有限公司 一种检测网络链路故障并定位故障的方法
US8064352B2 (en) 2005-06-03 2011-11-22 Huawei Technologies Co., Ltd. Method for implementing online maintenance in communication network
WO2006128347A1 (fr) * 2005-06-03 2006-12-07 Huawei Technologies Co., Ltd. Procede de mise en œuvre d’une maintenance en ligne dans un reseau de communication
CN101199162B (zh) * 2005-06-13 2011-03-30 诺基亚西门子网络公司 一种控制通信网络的方法、系统和设备
CN100382509C (zh) * 2005-11-28 2008-04-16 华为技术有限公司 无线网络中故障定位的方法
CN101388794B (zh) * 2008-10-10 2011-12-07 中兴通讯股份有限公司 一种定位网络管理系统异常事件的方法和系统
CN101394314B (zh) * 2008-10-20 2011-03-23 北京邮电大学 一种Web应用系统的故障定位方法
CN101610174B (zh) * 2009-07-24 2011-08-24 深圳市永达电子股份有限公司 一种日志事件关联分析系统与方法
US8938406B2 (en) 2009-07-30 2015-01-20 Hewlett-Packard Development Company, L.P. Constructing a bayesian network based on received events associated with network entities
CN102640154B (zh) * 2009-07-30 2015-03-25 惠普开发有限公司 基于所接收的与网络实体相关联的事件来构造贝叶斯网络
CN102640154A (zh) * 2009-07-30 2012-08-15 惠普开发有限公司 基于所接收的与网络实体相关联的事件来构造贝叶斯网络
CN102428447A (zh) * 2009-09-30 2012-04-25 株式会社日立制作所 故障的根本原因解析结果显示方法、装置以及系统
CN102045213B (zh) * 2009-10-22 2014-04-02 华为技术有限公司 故障定位方法及装置
CN102158360B (zh) * 2011-04-01 2013-10-30 华中科技大学 一种基于时间因子因果关系定位的网络故障自诊断方法
CN102158360A (zh) * 2011-04-01 2011-08-17 华中科技大学 一种基于时间因子因果关系定位的网络故障自诊断方法
CN102164089A (zh) * 2011-05-13 2011-08-24 哈尔滨工程大学海洋装备科技有限公司 基于路由的ietm故障诊断记录与回放装置及方法
CN102307135A (zh) * 2011-05-24 2012-01-04 中国电子科技集团公司第十研究所 利用VxWorks平台实时处理基带数传数据的方法
CN102404141A (zh) * 2011-11-04 2012-04-04 华为技术有限公司 一种告警抑制的方法及装置
CN102404141B (zh) * 2011-11-04 2014-03-12 华为技术有限公司 一种告警抑制的方法及装置
CN104487942A (zh) * 2012-10-25 2015-04-01 惠普发展公司,有限责任合伙企业 事件相关
CN103152219A (zh) * 2013-02-18 2013-06-12 中国工商银行股份有限公司 一种计算机网络系统的事件监控系统及事件监控方法
CN103152219B (zh) * 2013-02-18 2015-12-09 中国工商银行股份有限公司 一种计算机网络系统的事件监控系统及事件监控方法
US9952922B2 (en) 2013-07-18 2018-04-24 Nxp Usa, Inc. Fault detection apparatus and method
CN105393224B (zh) * 2013-07-18 2018-10-19 恩智浦美国有限公司 故障检测装置及方法
CN104598367A (zh) * 2013-10-30 2015-05-06 三星Sds株式会社 数据中心故障事件管理自动化系统及方法
CN104598367B (zh) * 2013-10-30 2017-12-08 三星Sds株式会社 数据中心故障事件管理自动化系统及方法
CN104539941A (zh) * 2014-12-25 2015-04-22 南京大学镇江高新技术研究院 基于改进代码书的交通视频专网故障定位方法
CN108885574A (zh) * 2016-03-29 2018-11-23 微软技术许可有限责任公司 用于监视和报告设计、编译和运行时的性能和正确性问题的系统
CN108885574B (zh) * 2016-03-29 2022-04-01 微软技术许可有限责任公司 用于监视和报告设计、编译和运行时的性能和正确性问题的系统
CN106484595A (zh) * 2016-10-09 2017-03-08 华青融天(北京)技术股份有限公司 一种事件处理方法及装置
US10467083B2 (en) 2017-06-08 2019-11-05 International Business Machines Corporation Event relationship analysis in fault management
WO2018224940A1 (en) * 2017-06-08 2018-12-13 International Business Machines Corporation Event relationship analysis in fault management
CN109428741A (zh) * 2017-08-22 2019-03-05 中兴通讯股份有限公司 一种网络故障的检测方法及装置
CN108171341A (zh) * 2017-12-19 2018-06-15 深圳交控科技有限公司 信号设备的状态分析方法与装置
CN109308248A (zh) * 2018-08-27 2019-02-05 上海功致信息科技有限公司 事件关联分析方法和系统
CN109597752A (zh) * 2018-10-19 2019-04-09 中国船舶重工集团公司第七六研究所 基于复杂网络模型的故障传播路径仿真方法
US11398945B2 (en) 2018-11-07 2022-07-26 Siemens Aktiengesellschaft System and method for fault detection and root cause analysis in a network of network components
CN110516931A (zh) * 2019-08-12 2019-11-29 国家电网公司华东分部 多维度调控交互模式与全事件优化聚合的方法和存储介质
CN110855503A (zh) * 2019-11-22 2020-02-28 叶晓斌 一种基于网络协议层级依赖关系的故障定因方法和系统
CN113206749A (zh) * 2020-01-31 2021-08-03 瞻博网络公司 网络事件的相关性的可编程诊断模型
CN113206749B (zh) * 2020-01-31 2023-11-17 瞻博网络公司 网络事件的相关性的可编程诊断模型
US11956116B2 (en) 2020-01-31 2024-04-09 Juniper Networks, Inc. Programmable diagnosis model for correlation of network events
US11809266B2 (en) 2020-07-14 2023-11-07 Juniper Networks, Inc. Failure impact analysis of network events
CN114070724A (zh) * 2020-08-04 2022-02-18 瞻博网络公司 使用可编程的资源依赖性数学模型来执行根本原因分析
CN114629776A (zh) * 2020-12-11 2022-06-14 中国联合网络通信集团有限公司 基于图模型的故障分析方法及装置
CN114363149A (zh) * 2021-12-23 2022-04-15 上海哔哩哔哩科技有限公司 故障处理方法及装置
CN114363149B (zh) * 2021-12-23 2023-12-26 上海哔哩哔哩科技有限公司 故障处理方法及装置
CN116132214A (zh) * 2022-12-30 2023-05-16 中国联合网络通信集团有限公司 基于事件总线模型的事件传输方法、装置、设备及介质

Also Published As

Publication number Publication date
CN100456687C (zh) 2009-01-28

Similar Documents

Publication Publication Date Title
CN1529455A (zh) 网络故障实时相关性分析方法及系统
CN1756190A (zh) 分布式性能数据采集方法
WO2016026407A2 (en) System and method for metadata enhanced inventory management of a communications system
WO2016107397A9 (en) System and method for model-based search and retrieval of networked data
CN1304910C (zh) 设备监视装置和存储媒体
CN1648803A (zh) 在具有耦合计算机的网络内提供服务系统和方法
CN111030857A (zh) 网络告警方法、装置、系统与计算机可读存储介质
CN1455550A (zh) 网络设备管理系统及其控制方法
CN103546343B (zh) 网络流量分析系统的网络流量展示方法和系统
CN1968283A (zh) 一种网络管理的系统和方法
CN1260655A (zh) 网络管理方法和网络管理系统
CN1592898A (zh) 一种为数据通信设备预编译配置信息的方法和系统
CN1756257A (zh) 大型网络中主机性能采集代理
CN114268640A (zh) 云边协同的工业物联网智能路由系统
CN1870538A (zh) 一种实现故障管理的方法及系统
EP2220822B1 (en) Method and apparatus for concurrent topology discovery
CN1901477A (zh) 设备业务数据的查询方法及其系统
CN101035027A (zh) 网管接口信息交互方法、装置及通知上报方法
CN1968322A (zh) 一种Web服务发现和集成代理系统
CN101031886A (zh) 网络系统、管理计算机、集群管理方法以及计算机程序
US20130094403A1 (en) Method and apparatus for providing sensor network information
CN1703890A (zh) 数据网络中识别和分析协议的方法
US10263852B2 (en) Network data model mapping based on matching strength
CN114745424B (zh) 一种面向异构网络的多维感知数据采集系统及方法
CN101079736A (zh) 模型化的网格资源定位方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: HUAWEI TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: GANGWAN NETWORK CO., LTD.

Effective date: 20061013

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20061013

Address after: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Applicant after: Huawei Technologies Co., Ltd.

Address before: 100089, No. 21 West Third Ring Road, Beijing, Haidian District, Long Ling Building, 13 floor

Applicant before: Harbour Networks Holdings Limited

C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: HUAWEI TECHNOLOGIES SERVICE GMBH

Free format text: FORMER OWNER: HUAWEI TECHNOLOGY CO LTD

Effective date: 20120217

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518129 SHENZHEN, GUANGDONG PROVINCE TO: 065000 LANGFANG, HEBEI PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20120217

Address after: 065000 west of Wangjing Road, Langfang economic and Technological Development Zone, Hebei

Patentee after: Huawei Technoloy Service Co., Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: Huawei Technologies Co., Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090128

Termination date: 20150929

EXPY Termination of patent right or utility model