CN101013973A - 网元状态监测方法和网络管理设备 - Google Patents

网元状态监测方法和网络管理设备 Download PDF

Info

Publication number
CN101013973A
CN101013973A CN 200710005013 CN200710005013A CN101013973A CN 101013973 A CN101013973 A CN 101013973A CN 200710005013 CN200710005013 CN 200710005013 CN 200710005013 A CN200710005013 A CN 200710005013A CN 101013973 A CN101013973 A CN 101013973A
Authority
CN
China
Prior art keywords
network element
confidence value
described network
state
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200710005013
Other languages
English (en)
Other versions
CN100456711C (zh
Inventor
刘飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CNB2007100050138A priority Critical patent/CN100456711C/zh
Publication of CN101013973A publication Critical patent/CN101013973A/zh
Application granted granted Critical
Publication of CN100456711C publication Critical patent/CN100456711C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及通信领域,本发明实施例公开了一种网元状态监测方法和网络管理设备,本发明实施例的方法包括:根据网元的状态检测响应的接收结果,确定该网元当前时刻的可信度值,其中可信度值为:用于标识该网元处于正常状态的可能性的数值;如果网元的原状态为正常,并且该网元当前时刻的可信度值小于或等于预设的可信度值最低门限,则判定该网元的状态由正常变为异常;如果网元的原状态为异常,并且该网元当前时刻的可信度值大于或等于预设的可信度值最高门限,则判定该网元的状态由异常变为正常;否则,判定该网元的状态不变;其中可信度值最高门限大于所述可信度值最低门限。本发明实施例的能够降低网络的告警振荡发生的概率。

Description

网元状态监测方法和网络管理设备
技术领域
本发明涉及通信领域,特别的涉及一种网元状态监测方法和网络管理设备。
背景技术
简单网络管理协议(Simple Network Management Protocol,简称SNMP)是由互联网工程任务组(Internet Engineering Task Force,简称IETF)定义的一套网络管理协议。利用SNMP,一个管理工作站可以远程管理所有支持SNMP协议的网络设备,包括监视网络状态、接收网络事件警告等。虽然SNMP开始是面向基于IP的网络管理,但作为一个工业标准也已被成功用于电信网络管理。
由于SNMP在传输协议层使用用户数据报传输协议(User DatagramProtocol,简称UDP),进行无连接操作,而由于UDP的固有特性,SNMP无法提供传输质量的保证。这就导致了当网络拥塞、或者网元繁忙时可能会导致网络管理系统产生虚假的告警通知,而当这种虚假的告警通知随时间推移反复出现时,会造成网络管理系统产生告警现振荡现象。当出现告警振荡现象出现时,不仅会将真实的告警淹没在大量的虚假告警通知中,同时的因误判而产生的虚假故障通知也会影响故障相关性监测、和故障定位的准确性和效率。当网络中有多个告警振荡叠加时,将会给网络造成“告警风暴”,对网络传输和管理造成极大的危害。因此减小网络中告警振荡的概率,对增加网络管理系统的可靠性具有很大的意义。
现有技术对监测网元的状态通常采用以下两种技术方案:
第一种具体如下:网络管理层的网络管理设备根据定时器和业务请求,向网元发送SNMP请求,网络管理设备发送SNMP请求后,检查在一定的时间内是否接收到该网元对该SNMP请求的SNMP响应,如果在一定的时间内能够接收到该网元的SNMP响应,则认为网元的状态为正常;否则,认为该网元处于异常状态。但是在网络拥塞的情况下,网络管理向网元发送的SNMP请求、或网元的SNMP响应都可能丢失、或者经过较长的时间才到达目的设备。另外的,在网元繁忙的情况下,网元可能不作响应,或者经过较长的时间才会处理请求而做出响应。在以上的情况下,网络管理由于没有在特定的时间内接收到网元的SNMP响应,而容易对本正常的网元的状态产生误判,而认为该网元处于故障状态,而使得网元状态频繁的在故障与正常之间切换,进而可能引起严重的“告警风暴”,这种情况对于负载较重的网络系统,产生的影响更为严重。
第二种技术方案的基本原理是:根据告警振荡的概率统计特性,建立评估振荡抵消的数学模型,来确定网元的状态。具体是:
网络管理设备根据连续L次轮询的SNMP响应接收结果,采用一票否决制进行投票表决:如果L次探测的结果均为:故障,则认为网元处于故障状态;如果在L次结果中,其中任何一次监测结果为:正常,则认为前面的监测结果均为误判,从而取消故障状态,判定该网元的状态为正常。
对于任何一个网元,一般使用当网元出现故障时从网元发生故障到网络管理设备监测到该网元故障并发出告警所需的响应时间,来表征网络管理设备对网元的状态确认的灵敏度。响应时间越长,灵敏度越高,反之则越低。在本技术方案中,假设每次查询的时间间隔为t,则进行L次轮询的时间(1个周期)为L*t,那么可见当某网元出现故障后,至少需要L*t的时间间隔才能确认该网元的故障状态,灵敏度是第一种技术方案的1/L。可见使用本技术方案相对于第一种技术方案,虽然能够一定程度上的减小了告警振荡产生的几率,但是大大降低了网络管理设备对网元的状态确认的灵敏度。同时的,当网元遭受Dos攻击、或者处于严重超负荷的状态下,实际上已经处于近似瘫痪的状态,而不能满足业务传输承载的正常要求,但该网元依然偶尔可能在L次轮询中返回一个正常响应,因此网络管理设备仍然将该网元状态判为正常,因此对于上述的情况,网络管理设备可能需要经过多个周期的轮询,才能发现该网元的故障状况,该技术方案一方面的使得网络管理设备对网元的状态确认的灵敏度更是降低。另一方面的,也是更为严重的是,对于网络管理设备而言,在这种误判的情况下,检测到的状态为正常的网元,实际上已经很可能已经处于不可用的状态,这种误判可能对网络传输和管理造成极大的影响。
发明内容
本发明实施例提供了一种网元状态监测方法,降低网络的告警振荡发生的概率。
本发明实施例还提供了一种网络管理设备,降低网络的告警振荡发生的概率。
本发明实施例提供的网元状态监测方法,包括:
根据网元的状态检测响应的接收结果,确定所述网元当前时刻的可信度值,其中所述可信度值为:用于标识所述网元处于正常状态的可能性的数值;
如果所述网元的原状态为正常,并且所述网元当前时刻的可信度值小于或等于预设的可信度值最低门限,则判定所述网元的状态由正常变为异常;
如果所述网元的原状态为异常,并且所述网元当前时刻的可信度值大于或等于预设的可信度值最高门限,则判定所述网元的状态由异常变为正常;否则,
判定所述网元的状态不变;
其中所述可信度值最高门限大于所述可信度值最低门限。
本发明实施例提供的网络管理设备,包括:
请求发送单元,用于向网元发送状态检测请求;
响应接收单元,用于接收所述网元的状态检测响应;
存储单元,用于记录所述网元的信息,所述信息包括所述网元当前时刻的可信度值、所述网元当前时刻的状态、为所述网元预设的可信度值最高门限、可信度值最低门限,其中所存储的可信度值具体根据所述响应接收单元的状态检测响应的接收结果确定,所述可信度值最高门限大于所述可信度值最低门限;
判断单元,用于根据所述存储单元的信息,判断所述网元的状态变化:如果所述存储单元记录的网元的状态为正常,并且记录的所述网元的可信度值小于或等于预设的可信度值最低门限,则判定所述网元的状态由正常变为异常;如果所述存储单元记录的网元的状态为异常,并且记录的所述网元的可信度值大于或等于预设的可信度值最高门限,则判定所述网元的状态由异常变为正常;否则,判定所述网元的状态不变。
以上技术方案可以看出,由于本发明实施例通过根据网元的状态检测响应的接收结果,确定网元当前时刻的可信度值,再根据当前时刻的可信度值与预设的可信度值最低门限、或可信度值最高门限的大小关系,结合该网元的原状态,确定当前时刻的网元的状态的变化。对于原状态为异常的网元,只有其网元的当前时刻的可信度值大于或等于预设的可信度值最高门限,才认为该网元的状态由异常变为正常;而对于原状态为正常的网元,只有其网元的当前时刻的可信度值小于或等于预设的可信度值最低门限,才认为该网元的状态由正常变为异常;对于其他的情况,则维持该网元的原状态。可见在本实施例中,相对于现有技术大大减低了告警振荡发生的几率,有利于提高网络管理系统的可靠性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例1中的网元状态监测方法流程示意图;
图2为本发明实施例1中的网元状态切换示意图;
图3为本发明实施例1中网络管理系统结构示意图;
图4为本发明实施例2中的网络管理设备结构示意图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
实施例1:
图1为本实施例的网元状态监测方法流程示意图,如图示,本实施例方法包括:
步骤101:初始化。
网元启动后,可以在网络管理层初始化该网元对应的信息,具体包括初始化该网元的可信度值、网元状态,以及预设可信度值最高门限、可信度值最低门限、用于调整可信度值的调整参数等。在本实施例中,我们采用以下的初始化方式:
首先对于网元的可信度值最低门限、可信度值最高门限、和用于调整网元的可信度值的调整参数的预设。可以针对不同的网元进行相应的设置,设置方法为:如果需要对该网元的状态确认具有较高的灵敏度,则使该网元对应的可信度值最低门限、可信度值最高门限组成的区间[可信度值最低门限,可信度值最高门限]的区间长度较小、或/和调整参数较大,使得可信度值变化较快,可信度值的变化穿越区间:[可信度值最低门限,可信度值最高门限]的时间较短,从而使得网络管理设备对该网元的状态变化具有较高的响应速度(较高的灵敏度)。当然其中所设置的调整参数应该小于所述可信度值最高门限与所述可信度值最低门限的差值。根据灵敏度要求,设置可信度值最低门限、可信度值最高门限、调整参数具体可以如下:
对于路由器等主要使用硬件处理的网元,由于这些网元具有高的可靠性,其采用实时响应,一般不会轻易失效,而一旦失效很可能难以恢复,因此需要为该网元配置较高的调整参数、和/或使得设置的可信度值最低门限、可信度值最高门限组成的区间[可信度值最低门限,可信度值最高门限]的区间长度较小。而对于数据库等对可靠性要求高,而对响应速度要求比较低的网元,特别是当该网元的负荷较重时,应该为该网元设置较低的调整参数、和/或使得设置的可信度值最低门限、可信度值最高门限组成的区间[可信度值最低门限,可信度值最高门限]的区间长度较长。
一般的,为了简化初始化设置,对于为某一组网内的各网元,设置一固定的可信度值最低门限、可信度值最高门限,并将该设置值设为缺省值,在对各网元进行预设初始化预设时,可以将其默认为缺省值,而省却该可信度值最低门限、可信度值最高门限的设置,因此,在初始化设置时,只需要对各网元对应的灵敏度要求设置相应的调整参数即可:对于灵敏度要求越高的网元,其对应的调整参数应越高。对于同一个网元可以设置多个调整参数,使得对于不同类别的状态检测响应的接收结果,使用不同的调整参数,确定该网元当前时刻的可信度值。
对于网元的可信度值、和状态的初始化:本实施例推荐将各网元的可信度值初始化为:该网元对应的可信度值最低门限,并将该网元的状态初始化为:异常。如此设置有利于尽量避免在网元启动后的最初的一段时间内,对该网元的状态的监测过程中,将异常的网元误判为正常的网元,而造成服务层根据该误判结果,将业务数据分发给该异常网元处理,对业务传输造成不必要的损失。
另外的,为了防止可信度值增加、或减小到过大、或过少的数值,而造成后续的可信度值的变化经过很长的时间才能穿越区间:[可信度值最高门限,可信度值最低门限值],影响对网元状态确认的灵敏度,我们可以预先限定可信度的取值范围进行,将其限定在一大于区间:[可信度值最高门限,可信度值最低门限]的数值区间内,即规定一用于限定可信度值的取值范围的数值区间,该数值区间的设定有利于控制可信度值的变化范围,而保证网络管理层对网元的状态的确认的灵敏度。
步骤102:网络管理层向网元发送状态检测请求。
在本实施例中可以采用目前应用较广的SNMP,网络管理层向其所管理的各网元发送用于检测网元状态的SNMP请求,以便可以根据各网元的对相应SNMP请求而返回的状态检测响应(如果采用SNMP,则该响应亦称SNMP响应),探测网元当前时刻的状态。为了方便起见,以下我们以根据SNMP协议,实现对网元状态的监测为例,对本实施例的具体实施进行详细说明。在本实施例中,网络管理层既可以根据系统定时器的定时触发,定时的向网元发送SNMP请求,一般的我们把该类SNMP请求的发送称为自动触发;另外的网络管理层亦可以根据来自上层网管、或网络服务层的业务指令、或来自网管控制台的用户指令,发送该SNMP请求,一般的我们把该类SNMP请求的发送称为用户指令触发。
步骤103:根据状态检测响应的接收结果,确定网元当前时刻的可信度值。
一般的,网络管理层在发出SNMP请求后,在一定时间内检查是否接收到该网元的SNMP响应,并根据该确定的时间内的接收结果(接收到、或未接收到),确定该网元当前时刻的可信度值。
对于网元对用户指令触发的SNMP请求而做的SNMP响应,由于对网元的监测最主要是为了业务承载需要,我们对该类SNMP响应可以使用较高的调整参数(用于调整可信度值),或者直接将该类SNMP响应作为具有一票决定权的响应,即只要网络管理层接收到该类SNMP响应,则无论当前记录的该网元的原状态是何种状态,则判定该网元的当前时刻的状态为正常;而如果网络管理层没有接收到该类SNMP响应,则无论当前记录的该网元的原状态是何种状态,则判定该网元的当前时刻的状态为异常。该一票决定权亦可以通过对该网元当前时刻的可信度值的确定,根据当前时刻的可信值、以及该网元的原状态值,来确定该网元的当前时刻的状态:如果接收到网元对由用户指令触发的SNMP请求而做的SNMP响应,则增大该网元的原可信度值,将增大到大于或等于所述可信度值最高门限的任意值作为该网元当前时刻的可信度值;如果未接收到网元对由用户指令触发的SNMP请求而做的SNMP响应,减小该网元的原可信度值,减小到小于或等于该可信度值最低门限的任意值作为该网元当前时刻的可信度值。如果网络中预设有用于限定可信度值的取值范围的数值区间,那么上述的任意值必须为在该数值区间内的数值,即:
如果在网络管理层记录的该网元的原可信度值小于预设的用于限定该可信度值的取值范围的数值区间内的最大数值,并且接收到网元的SNMP响应,则增大该网元的原可信度值,将增大到大于或等于所述可信度值最高门限、并属于该用于限定可信度值的取值范围的数值区间内的任意值,作为该网元当前时刻的可信度值;如果在网络管理层记录的该网元的原可信度值大于该用于限定所述可信度值的取值范围的数值区间内的最小数值,并且未接收到该SNMP响应,则减小该网元的原可信度值,将减小到小于或等于所述可信度值最低门限、并属于该用于限定所述可信度值的取值范围的数值区间内的任意值,作为该网元当前时刻的可信度值;除上述两种情况外,维持该网元的可信度值,即将该原可信度值作为该网元当前时刻的可信度值。
对于网元对由网络管理层的自动触发的SNMP请求而做的SNMP响应,可以使用较低的调整参数。
对于不具有一票决定权的SNMP响应,对于每一SNMP请求,如果网络管理层在确定的时间内没有接收到相应的SNMP响应,则使用相应的调整参数,减小当前记录的该网元的原可信度值,将减小后的数值作为该网元当前时刻的可信度值,使得网元的可信度值发生减小;如果网络管理层在确定的时间内接收到相应的SNMP响应,则使用相应的调整参数,增加当前记录的该网元的原可信度值,将增加后的数值作为该网元当前时刻的可信度值,使得该网元的可信度值增大。为了方便起见,一般的采用减法、或加法进行调整以确定该网元当前时刻的可信度值,即在每次确定网元当前时刻的可信度值时,将该网元的原可信度值作为被加数、或被减数,而将调整参数作为加数、或减数,进行加法、或减法进行计算,而将相应的计算结果作为该网元当前时刻的可信度值。
值得说明的是,如果预设有用于限定可信度值的取值范围的数值区间,那么上述的该网元当前时刻的可信度值必须为属于该数值区间的数值。即:如果该网元的原可信度值已为该数值区间的最小值(根据本实施例方法,该网元的原状态为:异常),那么即使目前未接收到SNMP响应,由于受用于限定可信度值的取值范围的数值区间的限制,维持该网元的可信度值不变,即维持该网元的异常状态;而如果该网元的原可信度值已为该数值区间的最大值(根据本实施例方法,该网元的原状态为:正常),那么即使目前接收到SNMP响应,由于受用于限定可信度值的取值范围的数值区间的限制,维持该网元的可信度值不变,即维持该网元的正常状态。
由于网络管理层在发送SNMP请求时,能够获知所发送的SNMP请求具体是由用户指令触发的,还是由定时触发的,因此,在该SNMP请求发出后,网络管理层可以记录该SNMP请求是由用户指令触发的,还是由定时触发的,在预定的时间内监视该SNMP请求相对应的SNMP响应的接收结果。
步骤104:判断该网元的原状态,如果该网元的原状态为正常,则执行步骤105;否则执行步骤107。
在每次确定网元当前时刻的可信度值后,进行本步骤的判断。
步骤105:如果该网元当前时刻的可信度值小于或等于可信度值最低门限,则执行步骤106;否则执行步骤109。
比较在步骤103中确定的网元当前时刻的可信度值与预设的可信度值最低门限的大小关系,如果当前时刻的可信度值小于或等于可信度值最低门限,则执行步骤106;否则执行步骤109。
步骤106:将记录的该网元的状态更改为:异常。
更新记录的该网元的状态,将原正常状态更新为异常状态。
步骤107:如果网元当前时刻的可信度值大于或等于可信度值最高门限,则执行步骤108;否则执行步骤109。
步骤108:将记录的该网元的状态更改为:正常。
更新记录的该网元的状态,将原异常状态更新为正常状态。
步骤109:维持当前记录的网元的状态。
如果该网元的原状态为正常,并且该网元当前时刻的可信度值大于预设的可信度值最低门限,维持该网元的正常状态。
如果该网元的原状态为异常,并且该网元当前时刻的可信度值小于可信度值最高门限,维持该网元的异常状态。
为了更好的说明使用本实施例方法对网元状态的监测过程,以下结合图2对本实施例方法作进一步说明:
如图2所示,201、202、203、204分别代表某网元的可信度值的变化过程,如图示:
201代表的过程是:网元的可信度值由大于可信度值最高门限逐渐减低,一直降到下于可信度值最低门限的过程。在该过程中,该网元的原状态为正常,并且网络管理层在可信度值降低到等于可信度值最低门限之前,一直认为该网元保持正常状态,而当可信度值降低到等于可信度值最低门限之后,网络管理层判定该网元的状态由正常变为异常。
202代表的过程与201的过程基本相反,202代表的过程是:网元的可信度值由小于可信度值低门限逐渐增大,一直增到大于可信度值最高门限的过程。在该过程中,该网元的原状态为异常,并且网络管理层在可信度值增大到等于可信度值最高门限之前,一直认为该网元保持异常状态,而当可信度值增大到等于可信度值最高门限之后,网络管理层判定该网元的状态由异常变为正常。
203代表的过程是:网元的可0信度值由小于可信度值低门限逐渐增大,但是在未增大到等于可信度值最高门限之前,便又降低的过程。在该过程中,该网元的原状态为异常,并且网络管理层在整个可信度值变化过程中,一直认为该网元维持异常状态。
204代表的过程是:网元的可信度值由大于可信度值高门限逐渐增大,但是在未降低到等于可信度值最低门限之前,便又回升的过程。在该过程中该网元的原状态为正常,并且网络管理层在整个可信度值变化过程中,一直认为该网元维持正常状态。
另外的,假设网元的初始状态被预设为:正常,网络管理层通过对该网元的状态的监测,确定该网元当前时刻的可信度值为:小于可信度值最高门限的数值,网络管理层应用本实施例方法,判定该网元当前的状态:由原来的正常状态变为了异常状态。
再另外的,假设网元的初始状态被预设为:异常,网络管理层通过对该网元的状态的监测,确定该网元当前时刻的可信度值为:大于可信度值最高门限的数值,网络管理层应用本实施例方法,判定该网元当前的状态:由原来的异常状态变为了正常常状态。
由上可以看出,即使在网元状态、可信度值初始化不当的情况,应用本实施例方法,应用本实施例方法,根据网元的原状态、和当前时刻的可信度值与可信度值最低门限、或可信度值最高门限的大小关系,能够在网元初始化后一定时间段内,纠正该不当的网元状态的初始化设置,使得对网元状态判定与该网元的实际状态相一致。一般的网络管理系统往往分层搭建,如图3所示,网络管理层包括:位于上层的服务层301、和位于下层的连接层302。其中连接层302负责与网元303通信,在连接层中,创建一个或多个网元代理3021,各网元303分别与其对应的网元代理3021进行通信,完成SNMP请求和SNMP响应的交互,网元代理3021向网元303发出SNMP请求,并根据对网元303的SNMP响应的接收结果,确定该网元当前时刻的可信度值,并进一步确定网元303的状态,并存储该状态,完成对网元303的状态的监测。
一般的,可以在连接层为网元代理设置一个代理服务器3022,将多个网元代理3021注册到该代理服务器3022上,注册到该代理服务器3022上的各网元代理3021统一通过该代理服务器3022与上层服务层301进行通信,代理服务器3022将对各网元的状态监测结果上报至服务层301,使得服务层301能够根据网元监测结果,调度业务传输;同时的,代理服务器3022还将来自服务层301的用户指令或业务请求,下发给各网元代理3021,由网元代理3021转发至相应的网元303。
由上可见,应用本实施例方法对网元进行监测时,网络管理层根据网元的状态检测响应的接收结果(接收到或未接收到),确定该网元当前时刻的可信度值,再根据该网元当前时刻的可信度值与预设可信度值最高门限、或可信度值最低门限的大小比较,确定网元当前时刻的状态:对于原状态为异常的网元,只有其网元的当前时刻的可信度值大于或等于预设的可信度值最高门限,才认为该网元的状态由异常变为正常;而对于原状态为正常的网元,只有其网元的当前时刻的可信度值小于或等于预设的可信度值最低门限,才认为该网元的状态由正常变为异常;对于其他的情况,则维持该网元的原状态。可见在本实施例中,相对于现有技术大大减低了告警振荡发生的几率,有利于提高网络管理系统的可靠性。同时的,由于网络中一般的存在功能各异的网元,网络管理层对各网元的状态确定的灵敏度要求也各不相同,因此,对于各网元可以通过设置不同的由可信度值最低门限,可信度值最高门限组成的门限对、和/或调整参数来满足相应的灵敏度要求。
另外的,应用本实施例方法,允许正常的网元在短时间段内繁忙而不响应、或较长时间后才响应的情况,而对于遭受Dos攻击、或者严重超负荷的异常网元,即使该网元能够在某次进行SNMP响应,也不认为该网元的状态变成正常。可见本实施例方法还大大减小了误判的几率,有利于增强网络管理系统的可靠性,使得监测结果更加符合网络传输需要。
再另外的,本实施例方法适合现有的网络管理系统应用,可实施性强。
实施例2:
图4为本实施例提供的网络管理设备的结构示意图,如图示,本网络设备包括:
请求发送单元401,用于向网元发送状态检测请求。如果使用目前应用广泛的SNMP,则该状态检测请求为SNMP请求。
响应接收单元402,用于接收网元的状态检测响应,与请求发送单元401发送的状态检测请求相对应的,如果该请求为SNMP请求,则该响应为:SNMP响应。
存储单元403,用于记录网元的信息,所述信息可以包括:网元当前时刻的可信度值、网元当前时刻的状态、预设的可信度值最高门限、可信度值最低门限、用于调整可信度值的调整参数、以及用于限定可信度值的取值范围的数值区间。
其中所存储的可信度值具体可以根据响应接收单元402的状态检测响应的接收结果、使用存储单元403存储的相应的调整参数进行确定,可信度值最高门限大于所述可信度值最低门限,调整参数小于所述可信度值最高门限与所述可信度值最低门限的差值,用于限定可信度值的取值范围的数值区间为:包含数值区间[可信度值最低门限,可信度值最高门限]的数值区间。
可信度值最高门限、可信度值最低门限、和调整参可以由其对应灵敏度要求确定:如果需要对某网元的状态的确定需要具有较高的灵敏度,则可使得为该网元设置的可信度值最低门限、可信度值最高门限所组成的区间[可信度值最低门限,可信度值最高门限]的区间长度越较小、或/和为该网元所设置的调整参数较大,使得可信度值的变化越快,网络管理设备对该网元的状态变化具有较高的响应速度,具体设置方法详见实施例1中的步骤101中的相关描述。
在存储单元403中存储的信息亦可以不包含用于限定可信度值的取值范围的数值区间信息,如果未包含的话,那么确定网元当前时刻的可信度值时,可以不受该用于限定可信度值的取值范围的数值区间的限制进行确定。值得说明的是,该用于限定可信度值的取值范围的数值区间的设定有利于控制可信度值的变化范围,防止可信度值增加、或减小到过大、或过少的数值而造成后续的可信度值的变化穿越区间:[可信度值最高门限,可信度值最低门限]的时间很长从而影响对网元状态的确认的灵敏度。即该用于限定可信度值的取值范围的数值区间的预设有利于保证网络管理层对网元的状态的确认的灵敏度。
在本实施例在本实施例中,我们可以将可信度值初始值取为:所述可信度值最低门限,该网元的初始状态为:异常。
判断单元404,用于根据存储单元403的信息,判断所述网元的状态变化:如果存储单元403记录的网元的状态为正常,并且记录的所述网元的可信度值小于或等于预设的可信度值最低门限,则判定该网元的状态由正常变为异常;如果存储单元403记录的网元的状态为异常,并且该网元的当前时刻的可信度值大于或等于预设的可信度值最高门限,则判定该网元的状态由异常变为正常;否则,判定所述网元的状态不变:如果当前记录的该网元的状态为正常,并且记录的所述网元的可信度值大于可信度值最低门限,则维持该网元的正常状态;如果当前记录的该网元的状态为异常,并且该网元的当前时刻的可信度值小于可信度值最高门限,则维持该网元的状异常状态。
本实施例中的网络管理设备还可以包括:
定时触发单元405,用于定时触发请求发送单元401向所述网元发送状态检测请求。
用户指令触发单元406,用于接收来自业务服务层的用户指令,并根据所述用户指令触发请求发送单元401向所述网元发送状态检测请求。
由于对网元的监测最主要是为了业务承载需要,我们可以对网元针对由用户指令触发单元406触发的状态检测请求而作的状态检测响应的接收结果,使用较高的调整参数(用于调整可信度值),根据该网元的原可信度值,确定当前时刻的可信度值;或者直接将该类状态检测响应作为具有一票决定权的响应。具体可以参考实施例1步骤103中的相应描述。
对于如图3所示的网络结构,本实施例中的网络管理设备可以为:处于网络管理层的网元代理。
由上可见,由于本实施例中的网络管理设备对网元进行监测时,存储单元403根据响应接收单元402的状态检测响应的接收结果(接收到或未接收到),不断更新所存储的该网元当前时刻的可信度值,再由判断单元404根据存储单元403存储的该网元当前时刻的可信度值与所存储的可信度值最高门限、或可信度值最低门限的数值大小关系,结合所存储的该网元在上一次检测中记录的状态(即该网元的原状态),确定网元当前时刻的状态:对于原状态为异常的网元,只有其网元的当前时刻的可信度值大于或等于预设的可信度值最高门限,才认为该网元的状态由异常变为正常;而对于原状态为正常的网元,只有其网元的当前时刻的可信度值小于或等于预设的可信度值最低门限,才认为该网元的状态由正常变为异常;对于其他的情况,则维持该网元的原状态。可见在本实施例中,相对于现有技术大大减低了告警振荡发生的几率,有利于提高网络管理系统的可靠性
另外的,由于判断单元404允许正常的网元在短时间段内繁忙而不响应或较长时间后才响应的情况,而对于遭受Dos攻击、或者处于严重超负荷的异常网元,即使该网元能够在某次进行响应,也不认为该网元的状态变成正常,因此应用本实施例的网络管理设备还能够大大减小了误判的几率,有利于增强网络管理系统的可靠性,使得网络监测结果更加符合网络传输需要。
再另外的,由于网络中一般的存在功能各异的网元,网络管理层对各网元的状态确定的灵敏度要求也各不相同,因此,对于各网元可以通过设置存储单元403中存储的可信度值最低门限,可信度值最高门限组成的门限对、和/或调整参数来适配不同的灵敏度要求,满足各灵敏度要求。
值得说明的是,在发明实施例1、实施例2中所述的网元代理既可以为由硬件构成的独立的设备或硬件模块,亦可以为以软件的形式存储在一个计算机可读取存储介质中的功能模块。
综上所述,应用本实施例技术方案对网络中的网元状态进行监测,不但可以降低告警振荡发生的几率,有利于增强网络管理系统的可靠性,还可以大大降低误判的发生,使得监测结果更加符合网络传输要求。并且本实施例的技术方案能够满足网络管理设备对各网元的状态的确定的不同的灵敏度需要,可实施性强。
以上对本发明实施例所提供的一种网元状态监测方法和网络管理设备进行了详细介绍,本文中应用了具体个例对本发明实施例的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明实施例的方法及其原理;同时,对于本领域的一般技术人员,依据本发明实施例,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1、一种网元状态监测方法,其特征是,包括:
根据网元的状态检测响应的接收结果,确定所述网元当前时刻的可信度值,其中所述可信度值为:用于标识所述网元处于正常状态的可能性的数值;
如果所述网元的原状态为正常,并且所述网元当前时刻的可信度值小于或等于预设的可信度值最低门限,则判定所述网元的状态由正常变为异常;
如果所述网元的原状态为异常,并且所述网元当前时刻的可信度值大于或等于预设的可信度值最高门限,则判定所述网元的状态由异常变为正常;否则,
判定所述网元的状态不变;
其中所述可信度值最高门限大于所述可信度值最低门限。
2、根据权利要求1所述的方法,其特征是,所述确定所述网元当前时刻的可信度值步骤,具体包括:
如果接收到所述网元的状态检测响应,则根据预设的调整参数,增大所述网元的可信度值;否则,
根据所述调整参数,减小所述网元的可信度值;
其中所述调整参数小于所述可信度值最高门限与所述可信度值最低门限的差值。
3、根据权利要求1所述的方法,其特征是,所述确定所述网元当前时刻的可信度值步骤,具体包括:
如果所述网元的原可信度值小于预设的用于限定所述可信度值的取值范围的数值区间内的最大数值,并且接收到所述网元的状态检测响应,则根据预设的调整参数,增大所述网元的原可信度值,将增大后的数值作为所述网元当前时刻的可信度值;
如果所述网元的原可信度值大于预设的用于限定所述可信度值的取值范围的数值区间内的最小数值,并且未接收到所述网元的状态检测响应,则根据所述调整参数,减小所述网元的原可信度值,将减小后的数值作为所述网元当前时刻的可信度值;否则,
令所述当前时刻的可信度值等于所述原可信度值;
其中所述调整参数小于所述可信度值最高门限与所述可信度值最低门限的差值,所述用于限定所述可信度值的取值范围的数值区间为:包含数值区间[可信度值最低门限,可信度值最高门限]的数值区间。
4、根据权利要求2所述的方法,其特征是,所述调整参数具体由对所述网元的状态确认的灵敏度要求确定,所述灵敏度要求越高,其对应的调整参数越大。
5、根据权利要求1所述的方法,其特征是,在确定所述网元当前时刻的可信度值步骤之前,所述方法进一步包括:
根据服务层的用户指令触发,向所述网元发送状态检测请求;
确定所述网元当前时刻的可信度值步骤,具体包括:
如果所述网元的原可信度值小于预设的用于限定所述可信度值的取值范围的数值区间内的最大数值,并且接收到所述网元的状态检测响应,则增大所述网元的原可信度值,将增大到大于或等于所述可信度值最高门限、并属于所述用于限定所述可信度值的取值范围的数值区间内的任意值,作为所述网元当前时刻的可信度值;
如果所述网元的原可信度值大于预设的用于限定所述可信度值的取值范围的数值区间内的最小数值,并且未接收到所述网元的状态检测响应,则减小所述网元的原可信度值,将减小到小于或等于所述可信度值最低门限、并属于预设的用于限定所述可信度值的取值范围的数值区间内的任意值,作为所述网元当前时刻的可信度值;否则,
令所述网元当前时刻的可信度值等于所述网元的原可信度值;
其中所述用于限定所述可信度值的取值范围的数值区间为:包含数值区间[可信度值最低门限,可信度值最高门限]的数值区间。
6、根据权利要求1至5之任一所述的方法,其特征是,在确定所述网元当前时刻的可信度值步骤之前,所述方法进一步包括:
将所述网元的可信度值初始化为:所述可信度值最低门限;
初始化所述网元的状态为:异常。
7、根据权利要求1至5之任一所述的方法,其特征是,所述可信度值最高门限、可信度值最低门限值具体由:对所述网元的状态确认的灵敏度要求决定:所述灵敏度要求越高,其对应的可信度值最高门限、可信度值最低门限值组成的区间[可信度值最高门限,可信度值最低门限值]的区间长度越小。
8、一种网络管理设备,其特征是,包括:
请求发送单元,用于向网元发送状态检测请求;
响应接收单元,用于接收所述网元的状态检测响应;
存储单元,用于记录所述网元的信息,所述信息包括所述网元当前时刻的可信度值、所述网元当前时刻的状态、为所述网元预设的可信度值最高门限、可信度值最低门限,其中所存储的可信度值具体根据所述响应接收单元的状态检测响应的接收结果确定,所述可信度值最高门限大于所述可信度值最低门限;
判断单元,用于根据所述存储单元的信息,判断所述网元的状态变化:如果所述存储单元记录的网元的状态为正常,并且记录的所述网元的可信度值小于或等于预设的可信度值最低门限,则判定所述网元的状态由正常变为异常;如果所述存储单元记录的网元的状态为异常,并且记录的所述网元的可信度值大于或等于预设的可信度值最高门限,则判定所述网元的状态由异常变为正常;否则,判定所述网元的状态不变。
9、根据权利要求8所述的网络管理设备,其特征是,所述网络管理设备还包括:
定时触发单元,用于定时触发所述请求发送单元发送所述状态检测请求;
用户指令触发单元,用于接收来自业务服务层的用户指令,并根据所述用户指令触发所述请求发送单元发送所述状态检测请求。
10、根据权利要求8或9所述的网络管理设备,其特征是,所述存储单元存储的信息还包括:用于调整所述可信度值的调整参数。
11、根据权利要求8或9所述的网络管理设备,其特征是,所述存储单元存储的信息还包括:用于限定可信度值的取值范围的数值区间,其中所述数值区间为:包含数值区间[可信度值最低门限,可信度值最高门限]的数值区间。
12、根据权利要求8或9所述的网络管理设备,其特征是,所述存储单元存储的可信度值初始值为:所述可信度值最低门限,所述网元的初始状态为:异常。
CNB2007100050138A 2007-02-09 2007-02-09 网元状态监测方法和网络管理设备 Expired - Fee Related CN100456711C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2007100050138A CN100456711C (zh) 2007-02-09 2007-02-09 网元状态监测方法和网络管理设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007100050138A CN100456711C (zh) 2007-02-09 2007-02-09 网元状态监测方法和网络管理设备

Publications (2)

Publication Number Publication Date
CN101013973A true CN101013973A (zh) 2007-08-08
CN100456711C CN100456711C (zh) 2009-01-28

Family

ID=38701270

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007100050138A Expired - Fee Related CN100456711C (zh) 2007-02-09 2007-02-09 网元状态监测方法和网络管理设备

Country Status (1)

Country Link
CN (1) CN100456711C (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101800675B (zh) * 2010-02-25 2013-03-20 华为技术有限公司 故障监控方法、监控设备及通信系统
CN107086923A (zh) * 2016-02-16 2017-08-22 中兴通讯股份有限公司 通信网络性能指标分析方法及装置
CN107257363A (zh) * 2017-05-27 2017-10-17 北京思特奇信息技术股份有限公司 一种响应请求端请求的方法及系统
CN107566202A (zh) * 2016-07-01 2018-01-09 中国移动通信有限公司研究院 一种网元状态监控方法、装置及系统
CN108234516A (zh) * 2018-01-26 2018-06-29 北京安博通科技股份有限公司 一种网络泛洪攻击的检测方法及装置
CN108476149A (zh) * 2016-03-14 2018-08-31 富士通株式会社 操作管理维护系统
CN113612662A (zh) * 2021-08-04 2021-11-05 湖南快乐阳光互动娱乐传媒有限公司 网络监测方法、装置、可读介质以及设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1105341C (zh) * 1996-01-11 2003-04-09 株式会社东芝 一种对设备的异常源进行推断的设备异常诊断方法及装置
CN1567905A (zh) * 2003-07-04 2005-01-19 华为技术有限公司 一种实现媒体网关监测媒体网关控制器运作状态的方法
CN1571373A (zh) * 2004-04-23 2005-01-26 中兴通讯股份有限公司 监测调整移动网络运行状况的方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101800675B (zh) * 2010-02-25 2013-03-20 华为技术有限公司 故障监控方法、监控设备及通信系统
CN107086923A (zh) * 2016-02-16 2017-08-22 中兴通讯股份有限公司 通信网络性能指标分析方法及装置
CN107086923B (zh) * 2016-02-16 2021-03-16 中兴通讯股份有限公司 通信网络性能指标分析方法及装置
CN108476149A (zh) * 2016-03-14 2018-08-31 富士通株式会社 操作管理维护系统
CN108476149B (zh) * 2016-03-14 2020-12-15 富士通株式会社 操作管理维护系统
CN107566202A (zh) * 2016-07-01 2018-01-09 中国移动通信有限公司研究院 一种网元状态监控方法、装置及系统
CN107566202B (zh) * 2016-07-01 2019-09-03 中国移动通信有限公司研究院 一种网元状态监控方法、装置及系统
CN107257363A (zh) * 2017-05-27 2017-10-17 北京思特奇信息技术股份有限公司 一种响应请求端请求的方法及系统
CN107257363B (zh) * 2017-05-27 2020-02-04 北京思特奇信息技术股份有限公司 一种响应请求端请求的方法及系统
CN108234516A (zh) * 2018-01-26 2018-06-29 北京安博通科技股份有限公司 一种网络泛洪攻击的检测方法及装置
CN108234516B (zh) * 2018-01-26 2021-01-26 北京安博通科技股份有限公司 一种网络泛洪攻击的检测方法及装置
CN113612662A (zh) * 2021-08-04 2021-11-05 湖南快乐阳光互动娱乐传媒有限公司 网络监测方法、装置、可读介质以及设备

Also Published As

Publication number Publication date
CN100456711C (zh) 2009-01-28

Similar Documents

Publication Publication Date Title
CN100456711C (zh) 网元状态监测方法和网络管理设备
EP1505768B1 (en) Method for efficient reactive monitoring
CN101394285B (zh) 用于服务器在广播风暴或拒绝服务攻击期间切换到备用服务器的设备、系统和方法
US7574502B2 (en) Early warning of potential service level agreement violations
CN100421086C (zh) 基于策略的网络安全管理
CN101800675B (zh) 故障监控方法、监控设备及通信系统
US7430688B2 (en) Network monitoring method and apparatus
CN101924660A (zh) 检测网络恶意行为的方法和装置
JP2006501717A (ja) 電気通信ネットワーク・エレメントの監視
EP2222099B1 (en) A method, device and system of disaster recovery and handover control
CN106453504A (zh) 一种基于nginx服务器集群的监控系统及方法
CN114168071B (zh) 一种分布式集群扩容方法、分布式集群扩容装置及介质
US7120633B1 (en) Method and system for automated handling of alarms from a fault management system for a telecommunications network
KR100908131B1 (ko) 로그 필터링을 통한 장애 감지 장치 및 그 방법과 그장치를 이용한 장애 감지 시스템
EP3607767B1 (en) Network fault discovery
JP2009199556A (ja) 通信監視装置、通信監視方法、コンピュータプログラム、そのシステム
CN111049703A (zh) 网络设备检测方法及系统
KR101078461B1 (ko) 고객 고장 신고 정보를 이용한 네트워크 장애 감시 시스템과 그 방법
CN104394033A (zh) 跨数据中心的监控系统、方法及装置
CN114296979A (zh) 一种检测物联网设备异常状态的方法及装置
KR19980026888A (ko) 비동기식전송방식(atm) 장치에서 단순망관리규약(snmp)을 사용한 원격지에서의 장애관리방법
US7159148B2 (en) Method for performance and fault management in a telecommunication network
CN101902337B (zh) 一种网络入侵事件的管理方法
JP2000148539A (ja) 障害検知方法、コンピュータシステム及び構成装置、記録媒体
CN101997734A (zh) 故障处理方法、认证/授权/计费服务器及故障中心

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090128

Termination date: 20130209