CN101741626B - 一种告警信息的处理方法和装置 - Google Patents

一种告警信息的处理方法和装置 Download PDF

Info

Publication number
CN101741626B
CN101741626B CN200810217685XA CN200810217685A CN101741626B CN 101741626 B CN101741626 B CN 101741626B CN 200810217685X A CN200810217685X A CN 200810217685XA CN 200810217685 A CN200810217685 A CN 200810217685A CN 101741626 B CN101741626 B CN 101741626B
Authority
CN
China
Prior art keywords
fault
time window
time
total
duration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200810217685XA
Other languages
English (en)
Other versions
CN101741626A (zh
Inventor
马宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN200810217685XA priority Critical patent/CN101741626B/zh
Publication of CN101741626A publication Critical patent/CN101741626A/zh
Application granted granted Critical
Publication of CN101741626B publication Critical patent/CN101741626B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明实施例公开了一种告警信息的处理方法和装置。其中,所述方法包括:确定第一时间窗的上边缘和下边缘;统计第一时间窗内的故障总持续时间;如果故障总持续时间达到第一门限值,选择一个时刻上报故障产生告警。所述装置包括:第一时间窗模块,确定第一时间窗的上边缘和下边缘;第一统计模块,统计第一时间窗内的故障总持续时间;第一告警模块,如果故障总持续时间达到第一门限值,选择一个时刻上报故障产生告警。由于采用故障总持续时间占时间窗的比例作为是否产生告警的依据,同时考虑到了故障的产生的次数和故障的持续时间,把故障与业务质量之间的关系更紧密的结合起来,更好地实现了告警信息的处理。

Description

一种告警信息的处理方法和装置
技术领域
本发明涉及通信领域,特别涉及一种告警信息的处理方法和装置。
背景技术
故障管理在通信设备的日常维护中发挥着重要的作用,直接决定了能否快速上报、定位、恢复设备故障,是可服务性中的关键一环。
在现网运行中由于环境变化和设备自身老化等一系列原因,有些故障产生后立即恢复或恢复后又立即产生,有时还周期性性反复,导致用户在网管上看到大量的告警信息,而这些信息却不需要用户进行处理,这就给日常的设备维护带来很大的困难,严重影响了故障管理的可服务性,因此需要对告警信息进行处理,过滤掉价值不大的告警信息,而上报有价值的告警信息。
告警有三种状态,当故障产生的时候网元会发送产生告警(notifyNewAlarm);当故障恢复的时候,网元会发送恢复告警(clearedAlarm);而当同一个故障在故障持续的阶段发生变化,例如严重性发生改变的情况下,则可能发出故障变化告警(changedAlarm)。一般情况下,故障产生之后会自动恢复,所以产生告警和恢复告警是配对出现的,即一个产生告警对应一个恢复告警。故障的重要程度不同,因而需要区分出重要的故障和不重要的故障,亦即需要区分出有价值的告警和无价值的告警。
针对闪断,振荡等不稳定的故障,现有技术中有闪断规则(Transient Rule),振荡规则(Toggle Rule),阈值规则(Threshold Rule)进行告警筛查,筛选有价值的告警。
阈值规则统计时间窗(Time Window,一段时间)内告警产生的次数,如果次数超过阈值门限则认为是有价值的告警进行上报,否则不进行上报。闪断规则考虑了时间窗内每个故障的持续时间,如果故障持续时间足够长(如大于闪断期)才认为是有价值的告警,进行上报,否则不进行上报。振荡规则统计时间窗内的告警产生恢复次数,如果次数超过阈值门限则认为是告警,持续直到实际告警在指定时间断内没有任何反复。
发明人发现这三个规则都存在一定的缺陷,或者只关注故障的持续时间,或者只关注故障的产生次数,导致其应用的场景较为单一,准确度有所下降。
发明内容
本发明提供了提供了一种告警信息的处理方法和处理装置,能够更好地筛选出有价值的告警信息。
本发明实施例公开了一种告警信息的处理方法,包括:
确定第一时间窗的上边缘和下边缘;
统计所述第一时间窗内的故障总持续时间;
如果所述故障总持续时间达到第一门限值,选择一个时刻上报故障产生告警。
本发明实施例还公开了一种告警信息的处理方法,包括:
确定第一时间窗的上边缘和下边缘;
统计所述第一时间窗内的故障总持续时间;
计算所述故障总持续时间占所述第一时间窗的比例;
如果所故障总持续时间占所述第一时间窗的比例大于第三门限值,选择一个时刻上报故障产生告警;
本发明实施例公开了一种处理告警信息的处理装置,其特征在于,包括:
第一时间窗模块,确定第一时间窗的上边缘和下边缘;
第一统计模块,统计所述第一时间窗模块所确定的第一时间窗内的故障总持续时间;
第一告警模块,如果所述故障总持续时间达到第一门限值,选择一个时刻上报故障产生告警。
本发明实施例公开了一种告警信息的处理装置,包括:
第一时间窗模块,用于确定第一时间窗的上边缘和下边缘;
第三统计模块,用于统计所述第一时间窗模块所确定的第一时间窗内的故障总持续时间,计算所述故障总持续时间占所述第一时间窗的比例;
第三告警模块,用于如果所述故障总持续时间占所述第一时间窗的比例大于第三门限值,选择一个时刻上报故障产生告警。
由于采用故障的持续时间作为是否产生告警的依据,同时考虑到了故障的产生的次数和故障的持续时间,解决了上述规则所存在的缺陷,把故障与业务质量之间的关系更紧密的结合起来,更好地实现了告警信息的处理,大大提高了告警的可服务性,能够更好的筛选出更有价值的告警。
附图说明
图1为第一实施例提供的一种告警信息的处理方法的示意图;
图2为第二实施例提供的一种告警信息的处理方法的流程图;
图3为第三实施例提供的一种告警信息的处理方法的流程图;
图4为第四实施例提供的一种告警信息的处理装置的结构示意图;
图5为第五实施例提供的一种告警信息的处理装置的结构示意图;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的几个实施例作进一步地的详细描述。
实施例一
如图1所示,为本发明第一实施例提供的一种告警信息的处理方法的示意图,包括如下步骤:
第一步,确定第一时间窗的上边缘和下边缘。
时间窗(Time Window)即一段时间。确定第一时间窗的目的是为了确定在一段时间范围之内,是否存在需要上报的故障产生告警。
可以以当前时刻作为第一时间窗的上边缘,然后以第一时间窗的上边缘减去第一时间窗的长度所得到的时刻作为第一时间窗的下边缘;或者可以选择任一合适的时刻为第一时间窗的下边缘,然后加上第一时间窗的长度所得到的时刻作为第一时间窗的上边缘。
例如,如图1所示的T1为第一时间窗,T1的左侧所对应的一个时刻为第一时间窗的下边缘,以下边缘加上第一时间窗的长度作为第一时间窗的上边缘。
需要注意的是,时间窗的上边缘所对应的时刻可能会超过当前时刻,例如,如图1所示的第一时间窗T1的上边缘所对应的时刻可能尚未到达,而是处于未来的一个时刻。
第二步,统计所述第一时间窗内的故障总持续时间。
如图1所示,即统计第一时间窗T1内的故障总持续时间。
一个网元的同一类型的故障在一段时间之内可能产生多次,同一类型的故障所产生的告警信息为相似告警信息,通过事先设置的过滤条件,就可以过滤出所有属于同一类型的故障所产生的告警信息。网元的告警信息可以通过预先设置的过滤条件从历史记录库中获取,也可以直接从网元处获取。得到一个产生告警,则意味着一个故障产生了,得到一个恢复告警,意味者一个故障恢复了。
对于单个故障,网元至少会产生两个告警信息,当故障产生的时候,网元会发送产生告警,报告故障产生,而当故障恢复之后,则网元会发送一个恢复告警,在两个告警之间的时间段则为单个故障的持续时间或持续期间,单个故障所产生的产生告警和恢复告警为一对告警。如图1所示,t时间轴上方的阴影方块为单个故障的持续时间,分别用字母a,b,c来表示这些单个故障的持续时间。
因此在第一时间窗T1,故障总持续时间为单个故障的持续时间的相加之和,如图1所示,故障总持续时间为b+c+x。值得注意的是,x所对应的并非一个完整的单个故障的持续时间,原因在于x所对应的故障还处于持续过程中,其恢复的时刻处于未来的某一个时刻,只是目前尚未到来。
第三步,如果所述故障总持续时间达到第一门限值,选择一个时刻上报故障产生告警。
由于网元所产生的告警信息太多了,所以不需要将网元所产生的每个告警信息都上报给网管系统,而只需要将对业务有重大影响的故障上报给网管系统。因此这里网元所产生的告警信息,只是用来检测是否存在对业务有重大影响的故障。
当一个时间窗内的故障总持续时间较长,有可能会对业务产生重大影响,需要上报给网管系统,这里的第一门限值就是起到这种作用,当故障总持续时间大于等于第一门限值,说明该故障对业务会产生重大影响,因此就上报一个故障产生告警,如图1的104所示。
例如,这里以50%×T1的值作为第一门限值,在故障103的持续期间,当满足b+c+x=50%×T1的情况下,上报一个故障产生告警。如果故障103还没有达到第一门限值的时候就恢复了,也就是在图1的107之前故障就恢复的话,则不需要上报,等待下一个故障的产生;如果在时间窗T1的上边缘处,故障总持续时间仍然没有达到第一门限值,则向右移动,重新确定一个第一时间窗,然后执行第一步的步骤。
至于什么时刻上报一个故障产生告警,取决于具体需要。图1中选择的是故障总持续时间等于第一门限值的那个时刻上报故障产生告警的,如104所示。
至于上报的方法,可以直接将该故障上报给网管系统,或者插入到一个故障告警列表中,再将该故障告警列表上传给网管系统。
故障告警信息中可以包括如下信息,如故障ID,故障产生恢复的次数,故障持续时间比例、故障产生时间等,以利于更好的判断和诊断网络故障。
当上报一个故障产生告警之后,可以继续监测故障什么时候会恢复。因此本实施例还可以进一步包括如下步骤。
第四步,确定第二时间窗的上边缘和下边缘。
确定第二时间窗的目的是,当上报一个故障产生告警之后,确定在一段时间范围之内是否需要上报一个故障恢复告警。
因为故障产生之后,通常会恢复,所以上报一个故障产生告警之后,可能需要上报一个故障恢复告警。
至于第二时间窗上边缘和下边缘的确定,可以选择将第一时间窗的上边缘作为第二时间窗的下边缘,以下边缘加上第二时间窗的长度所得到的时刻作为第二时间窗的上边缘;或者选择第一时间窗右侧的任一时刻作为第二时间窗的上边缘,以上边缘减去第二时间窗的长度作为第二时间窗的下边缘。例如,如图1所示的T2为第二时间窗,选择一个时刻作为时间窗T2的下边缘,以该时刻加上第二时间窗的长度作为第二时间窗的上边缘。需要注意的是,T2的上边缘所对应的时刻可能还没有到来,而是处于未来的一个时刻。
第五步,统计所述第二时间窗内的故障总恢复时间。
单个故障的恢复时间,指的是一个故障恢复之后,到下一个故障产生之时,中间的这段期间为故障的恢复时间。
如图1所示,字母e、f、g、y表示单个故障的恢复时间。假定当前时刻对应于图1的108,在第二时间窗T2内,故障总恢复时间即为e+f+g+y。需要注意的是,e的左侧对应于第二时间窗的下边缘,并非一个完整的单个故障的恢复期间,而y所表示的单个故障的恢复期间也没结束,而是一个正在持续中的单个故障的恢复期间。
第六步,如果所述故障总恢复时间达到第二门限值,选择一个时刻上报故障恢复告警。
故障总恢复时间长,也就是说明故障总持续时间短,当一个时间窗内的故障总持续时间较短时,对业务的影响不是很大,这个时候可以认为步骤第四步所上报的故障产生告警可以恢复,如图1的105所示,图1的105与图1的104相对应,图1的109即为104和105所代表的上报的故障的持续时间。
第二门限值可以是一个表示时间长度的数值,也可以通过一个比例值乘以第二时间窗的长度来确定。
虽然本步骤统计的是故障总恢复时间,但是第二时间窗=故障总恢复时间+故障总持续时间,作为一种变换的做法,也可以通过统计第二时间窗之内的故障总持续时间,如果故障总持续时间低于一个门限值,上报故障恢复告警。
以T2×80%作为第二门限值为例,满足e+f+g+y=T2×80%这个条件时,上报一个故障恢复告警,如图1的105所示。
至于上报故障恢复告警的时刻,例如,可以在第二时间窗的上边缘处产生,也可以在故障总恢复时间达到第二门限值的那个时刻产生。本实施例中选择的是在e+f+g+y=T2×80%的那个临界时刻上报故障恢复告警。上报之后,可以返回到第一步,继续下一轮的检测。
如果在第二时间窗内没有检测到故障恢复,即故障总恢复时间低于第二门限值,则将第二时间窗向右移动,并重新执行第四步。
在实现本发明的过程中,发明人发现,阈值规则只关注告警产生的次数并不关注故障的持续时间,实际上故障的持续时间对业务质量影响更大,导致该规则可以应用的场景很有限,只能过滤部分反复出现的告警;闪断规则只关注单次告警的持续时间,忽略了频繁闪断对业务质量的影响,导致该规则可以应用的场景很有限,只能过滤偶尔一次闪断的告警;振荡规则只关注故障产生的次数并不关注持续时间,导致该规则应用场景有限,只能过滤频繁发生且每次持续时间相对较长的故障,对持续时间很短对业务影响小的故障则误认为故障持续。
本实施例采用故障总持续时间或故障总恢复时间占时间窗的比例作为是否产生告警的依据,同时考虑到了故障的产生的次数和故障的持续时间,解决了阈值规则、闪断规则和振荡规则所存在的缺陷,把故障与业务质量之间的关系更紧密的结合起来,更好地实现了告警信息的处理,大大提高了告警的可服务性。
实施例二
如图2所示,为本发明的第二实施例提供的一种告警信息的处理方法示意图,包括如下步骤:
步骤201,确定第一时间窗的上边缘和下边缘。
时间窗即一段时间,时间窗的上边缘和下边缘对应于特定的时刻。确定第一时间窗的目的,是为了确定所需处理网元所产生的告警信息的时间范围,只有在第一时间窗之内的告警信息才会被处理。告警信息可以通过预设的过滤条件从告警信息历史记录中获得,也可以直接从网元处获得。
例如,可以将当前时刻设为时间窗的上边缘,再减去第一时间窗的长度所获得的时刻作为第一时间窗的下边缘;或者以当前故障的故障产生时刻作为时间窗的上边缘,然后以该上边缘减去一个第一参数值(即第一时间窗的长度)所获得的时刻作为时间窗的下边缘;或者以上一个第一时间窗的上边缘作为当前第一时间窗的下边缘,以上一时间窗的上边缘加上第一参数值所得到的时刻作为当前第一时间窗的上边缘。
当前故障是当前时刻,正处于持续过程中的故障。
步骤202,统计第一时间窗内的故障总持续时间。
在一个时间窗内,同一故障可能产生多次,同一故障所产生的告警信息为相似告警信息。
对于单个故障,一个网元至少会产生两个告警信息。当故障产生的时候,网元会发送产生告警,报告故障产生,而当故障恢复之后,则会发送一个故障恢复告警,在两个告警之间的时间段则为单个故障的持续期间,单个故障所产生的故障产生告警和故障恢复告警为一对告警。
故障总持续时间指的是,同一时间窗内所发生的多个或者所有单个故障的持续时间之和。对于单个故障的持续时间,可以通过告警信息计算出来。例如,可以从对应于单个故障的产生告警中获得所述单个故障的产生时刻,从对应于所述单个故障的恢复告警中获得所述单个故障的恢复时刻,这两个时刻之间的时间段即为所述单个故障的持续时间。
可通过如下方法统计第一时间窗内的故障总持续时间,例如:
获取时间窗内符合过滤条件的告警信息。过滤条件是用来判断两个告警是否相似的条件,例如告警标识和告警对象以及其它一些信息,具体取决于实际的需要。过滤条件需要预先设置,例如,在本实施例被激活的时候设置。
统计故障总持续时间。将第一时间窗内多个或者所有的单个故障的持续时间相加进行求和,所得到的结果为故障总持续时间。
步骤203,如果所述故障总持续时间达到第一门限值,上报故障产生告警。
故障总持续时间长,说明或者单个的故障总持续时间很长;或者单个的故障总持续时间较短,但是在时间窗内多次产生。
当一个时间窗内的故障总持续时间较长,可能会对业务产生重大影响,需要上报,这里的第一门限值就是起到这种作用,当故障总持续时间大于第一门限值,说明该故障对业务会产生重大影响,因此就上报一个故障产生告警,如图1的104所示。
第一门限值可以是一个表示时间长度的数值,也可以通过一个比例值乘以第一时间窗的长度来确定。
至于上报故障产生告警的时刻,例如,可以在时间窗的上边缘处产生,也可以在故障总持续时间达到第一门限值的那个时刻产生。如图1的101所示,第一门限值为第一时间窗T1的50%,故障总持续时间已经超过了T1的50%,因此在故障总持续时间达到50%的那个时刻上报一个故障产生告警104。
如果选择在故障总持续时间等于第一门限值的时刻上报故障产生告警,需要依据所述第一时间窗内单个故障产生的时间先后顺序,计算出故障总恢复时间等于第一门限值时所对应的时刻作为临界时刻,亦即在图1的时间轴t上面,从左向右,找出T1时间窗上使得故障总持续时间等于第一门限值的那个点作为临界时刻,在所述临界时刻上报故障恢复告警。
如果故障总持续时间达到第一门限值,上报故障产生告警,执行步骤204。
故障产生告警与故障恢复告警是一一对应的,上报了一个故障产生告警,就需要上报一个故障恢复告警。因此如果步骤203上报了一个故障产生告警,还可以进一步执行步骤204,以上报一个对应的故障恢复告警。如果步骤203中,故障总持续时间的比例小于第一门限值,没有上报故障产生告警,需要执行步骤208,进入下一个时间窗,判断下一个时间窗是否需要上报故障产生告警。
上报的故障产生告警和网元实际产生的告警信息的对应关系,如图1所示,t时间轴下方的图1的109为上报的故障在t时间轴上的持续状况,也就是网管系统所接收到的故障持续时间,而t时间轴的上方类似于图103的阴影块则为实际的单个故障的持续状况。
步骤204,确定第二时间窗的上边缘和下边缘。
确定第二时间窗的目的,是为了确定需处理告警信息的时间范围,只有在第二时间窗之内的告警信息才会被处理。
例如,可以直接将第一时间窗的上边缘设置为第二时间窗的下边缘,以所述下边缘加上第二时间窗的长度所得的时刻作为第二时间窗的上边缘;也可以将当前时刻设为时间窗的上边缘,再减去第二时间窗的长度所获得的时刻作为第一时间窗的下边缘;或者以当前故障的故障恢复时刻作为时间窗的上边缘,然后以该上边缘减去一个第二参数值(即第二时间窗的宽度)所获得的时刻作为时间窗的下边缘。
步骤205,统计第二时间窗内的故障总恢复时间。
对于单个故障,恢复时间是指,单个故障恢复之后,到下一单个故障产生的这段期间。
统计第二时间窗内故障总恢复时间就是将数个或者所有的单个故障的恢复时间相加求和所得到的结果。
由于单个故障恢复之后,网元会产生一个恢复告警,而下一个单个故障产生时,又会产生一个产生告警,因此可以利用恢复告警以及与该恢复告警相邻的下一个产生告警计算出单个故障的恢复时间。
步骤206如果所述故障总恢复时间达到第二门限值,选择一个时刻上报故障恢复告警。
故障总恢复时间长,也就是说明故障总持续时间短,当一个时间窗内的故障总持续时间较短时,对业务的影响可能不是很大,这个时候可以认为步骤203所上报的故障可以恢复,因而上报一个故障恢复告警。如图1的105所示,图1的105与图1的104相对应,图1的109即为图1的104和105所代表的故障的持续期间。
第二门限值可以是一个表示时间长度的数值,可以通过一个比例值乘以第二时间窗的长度来确定。
虽然本步骤统计的是故障总恢复时间,但是一个时间窗等于故障总恢复时间和故障总持续时间之和,因此作为一种变换方法,也可以统计故障总持续时间,当满足故障总持续时间低于一个门限值的情况下,上报故障恢复告警。
至于上报故障恢复告警的时刻,例如,可以在时间窗的上边缘处产生,也可以在故障总恢复时间达到第二门限值的那个时刻产生。如图1的102所示,第二门限值为第二时间窗T2的80%,故障总恢复时间已经超过了T2的80%,因此在故障总恢复时间达到80%的那个时刻上报一个故障恢复告警105。
如果选择在故障总恢复时间等于第二门限值的时刻上报故障恢复告警,需要依据所述第二时间窗内单个故障恢复的时间先后顺序,计算出故障总恢复时间等于第一门限值时所对应的时刻作为临界时刻。亦即在图1的时间轴t上面,从左向右,找出T2时间窗上使得故障总恢复时间等于第二门限值的那个点作为临界时刻,在所述临界时刻上报故障恢复告警。
如果故障总恢复时间达到第二门限值,上报故障恢复告警,执行步骤208,否则执行步骤207。
步骤207,进入下一个第二时间窗,然后执行步骤204。
如果步骤206未能上报故障恢复告警,则需要移动到下一个时间窗,继续检测下一个时间窗内,是否能够产生故障恢复告警。
如果步骤206未能上报故障恢复告警,如图1所示,说明104故障产生告警所对应的故障仍然处于持续状态,为了找出104所对应的故障恢复告警,需要将时间窗T2向右移动一定的距离,重新判断是否需要产生故障恢复告警。
例如图1中的时间窗T2为时间窗T2′移动之后的情形。
步骤208,进入下一个第一时间窗,执行步骤201。
如果步骤203未能上报故障产生告警,或者步骤206上报了故障恢复告警,则说明需要移动到下一个时间窗,继续进行下一轮检测,检测是否能够产生故障产生告警。例如图1中的时间窗T1为时间窗T1′移动之后的情形。
本实施例采用故障总持续时间或故障总恢复时间占时间窗的比例作为是否产生告警的依据,同时考虑到了故障的产生的次数和故障的持续时间,解决了阈值规则、闪断规则和振荡规则所存在的缺陷,把故障与业务质量之间的关系更紧密的结合起来,更好地实现了告警信息的处理,大大提高了告警的可服务性。
实施例三
如图3所示,为本发明的第三实施例提供的一种告警信息的处理方法的示意图,包括如下步骤:
步骤301,确定第一时间窗的上边缘和下边缘。
例如,可以将当前时刻设为第一时间窗的上边缘,再减去第一时间窗的长度所获得的时刻作为第一时间窗的下边缘;或者以当前故障的故障产生时刻作为第一时间窗的上边缘,然后以该上边缘减去一个第一参数值(即第一时间窗的长度)所获得的时刻作为第一时间窗的下边缘;或者以上一个时间窗的上边缘作为第一时间窗的下边缘,以上一时间窗的上边缘加上第一参数值所得到的时刻作为第一时间窗的上边缘。
步骤302统计第一时间窗内的故障总持续时间占第一时间窗的比例。
故障总持续时间指的是,第一时间窗内产生的单个故障的持续时间之和。对于单个故障的持续时间,可以通过告警信息计算出来。
故障总持续时间占第一时间窗的比例=故障总持续时间/第一时间窗的长度,以下简称为故障总持续时间比例。
步骤303如果故障总持续时间比例达到第三门限值,选择一个时刻上报故障产生告警。
例如,以第三门限值为50%为例,当故障总持续时间比例达到50%的时候,需要上报故障产生告警。
这里第三门限制可以有多个备选值,从而可以实现多个级别的控制。
至于上报时刻,可为时间窗上的任何一时刻,例如,可以选择在第一时间窗的上边缘处的时刻。上报故障产生告警之后,故障产生告警和故障恢复告警是相对应的,因此可以进一步执行步骤304,判断何时需要上报一个故障恢复告警。
如果故障总持续时间比例达不到第三门限值,则执行步骤308,将第一时间窗向右移动,重新检测移动之后的第一时间窗之内是否有故障产生告警产生。
步骤304确定第二时间窗的上边缘和下边缘。
例如,可以直接将第一时间窗的上边缘设置为第二时间窗的下边缘,以所述下边缘加上第二时间窗的长度所得的时刻作为第二时间窗的上边缘;也可以将当前时刻设为时间窗的上边缘,再减去第二时间窗的长度所获得的时刻作为第一时间窗的下边缘;或者以当前故障的故障恢复时刻作为时间窗的上边缘,然后以该上边缘减去一个第二参数值(即第二时间窗的宽度)所获得的时刻作为时间窗的下边缘。
当前时刻,可以为本实施例被激活的时刻,当前故障是当前时刻正处于持续状态的故障。
步骤305统计第二时间窗内的故障总恢复时间占第二时间窗的比例。
对于单个故障,恢复时间是指,单个故障恢复之后,到下一单个故障产生的这段期间。
统计第二时间窗内故障总恢复时间就是将第二时间窗内产生的单个故障的恢复时间相加求和所得到的结果。
故障总恢复时间占第二时间窗的比例=故障总恢复时间/第二时间窗的长度,以下简称为故障总恢复时间比例。
步骤306如果故障总恢复时间比例达到第四门限值,选择一个时刻上报故障恢复告警。
例如,第四门限值可以设置为80%。当故障总恢复时间比例达到80%的时候,需要上报一个故障产生告警。
同样的,第四门限制可以有多个备选值,以实现不同级别的控制。
上报的时刻,可以选择在第二时间窗内的任一时刻,例如可以在第二时间窗的上边缘处产生。
上报一个故障恢复告警之后,可以执行步骤301。如果第二时间窗内没有产生故障恢复告警,则执行步骤307。
步骤307进入下一个第二时间窗。
即将第二时间窗在时间轴上向右移动,例如,将步骤304所确定的第二时间窗的下边缘和上边缘同时增加一个时间段。
步骤308进入下一个第一时间窗。
将第一时间窗在时间轴上向右移动。例如,将步骤301所确定的第一时间窗的上边缘和下边缘同时增加一个时间段。
本实施例采用故障总持续时间占时间窗的比例或者故障总恢复时间占时间窗的比例作为是否产生告警的依据,同时考虑到了故障的产生的次数和故障的持续时间,解决了阈值规则、闪断规则和振荡规则所存在的缺陷,把故障与业务质量之间的关系更紧密的结合起来,更好地实现了告警信息的处理,大大提高了告警的可服务性。
实施例四
如图4所示,为本发明的第四实施例所提供的一种告警信息的处理装置的示意图,包括如下模块:
第一时间窗模块401,用于确定第一时间窗的上边缘和下边缘;
例如,第一时间窗模块401可以将当前时刻设为时间窗的上边缘,再减去第一时间窗的长度所获得的时刻作为第一时间窗的下边缘;或者以当前故障的故障产生时刻作为时间窗的上边缘,然后以该上边缘减去一个第一参数值(即时间窗的宽度)所获得的时刻作为时间窗的下边缘;或者以上一个时间窗的上边缘作为第一时间窗的下边缘,以上一时间窗的上边缘加上第一参数值所得到的时刻作为第一时间窗的上边缘。
第一统计模块402,用于统计所述第一时间窗模块401所确定的第一时间窗内的故障总持续时间。
第一统计模块402可以进一步包括如下子模块:
第一过滤模块,用于获取第一时间窗模块所确定的第一时间窗内符合过滤条件的告警信息。过滤条件需要预先设置,可以包括故障ID、告警网元等;告警信息由网元所产生,可以从告警历史记录中获取,或者从网元处直接获取。
第一计算子模块,用于计算故障总持续时间。故障总持续时间指的是,同一时间窗内发生的单个故障的持续时间之和。对于单个故障的持续时间,可以通过告警信息计算出来。将第一时间窗内产生的单个故障的持续时间相加求和,所得到的结果为故障总持续时间。
第一告警模块403,用于在所述第一统计模块402所统计的故障总持续时间达到第一门限值时,选择一个时刻上报故障产生告警。
第一告警模块403可进一步包括如下子模块。
第一判断子模块,用于依据时间先后顺序,判断当前单个故障的持续期间内所述第一统计模块所统计的故障总持续时间是否达到的第一门限值;
第一临界时刻模块,用于如果所述第一判断子模块的判断结果为是,计算出故障总持续时间等于第一门限值的时刻作为临界时刻。
第一告警子模块,用于如果所述第一判断子模块的判断结果为是,在所述第一临界时刻模块所计算出的临界时刻上报故障产生告警。
第一门限值可以是一个表示时间长度的数值,也可以通过一个比例值乘以第一时间窗的长度来确定,例如,如图1所示,设置为第一时间窗T1的50%。当故障总持续时间达到T1×50%时,就需要上报故障产生告警。
上报的时刻,例如,可以在时间窗的上边缘处产生,也可以在故障总持续时间达到第一门限值的那个时刻产生。如图1的101所示,第一门限值为第一时间窗T1的50%,故障总持续时间已经达到了T1的50%,因此在故障总持续时间达到50%的那个时刻上报一个故障产生告警104。
这里选择由第一临界时刻模块所确定的时刻上报故障产生告警。
本实施例采用故障总持续时间占时间窗的比例作为是否产生告警的依据,同时考虑到了故障的产生的次数和故障的持续时间,解决了阈值规则、闪断规则和振荡规则所存在的缺陷,把故障与业务质量之间的关系更紧密的结合起来,更好地实现了告警信息的处理,大大提高了告警的可服务性。
进一步告警信息的处理装置还可以包括:第二时间窗模块,用于确定第二时间窗的上边缘和下边缘;
第二统计模块,用于统计所述第二时间窗模块所确定的第二时间窗内的故障总恢复时间;
第二告警模块,用于如果所述故障总恢复时间达到第二门限值,选择一个时刻上报故障恢复告警。
其中第二统计模块的实现方式可以和第一统计模块的实现方式大致相似;第二告警模块的实现方式可以和第一告警模块实现方式大致相似;这里不再赘述。
实施例五
如图5所示,为本发明的第五实施例提供的一种告警信息的处理装置的示意图,包括如下模块:
第一时间窗模块501,用于确定第一时间窗的上边缘和下边缘;
例如,如图1所示的T1,可以先确定一个时刻为第一时间窗的下边缘,如T1的左侧的端点所示,以下边缘加上第一时间窗的长度作为第一时间窗的上边缘,如T1的右侧的端点所示。
第三统计模块502,用于统计所述第一时间窗模块501所确定的第一时间窗内故障总持续时间占所述第一时间窗的比例;
故障总持续时间指的是,同一时间窗内所发生的多个或者所有单个故障的持续时间之和。对于单个故障的持续时间,可以通过告警信息计算出来。
故障总持续时间占第一时间窗的比例=故障总持续时间/第一时间窗的长度,以下简称为故障总持续时间比例。
第三告警模块503,用于如果所述第一时间窗模块所确定的第一时间窗内所述故障总持续时间的比例大于第三门限值,选择一个时刻上报故障产生告警。
例如,以第三门限值为50%为例,当故障总持续时间比例达到第三时间窗的50%的时候,需要上报故障产生告警。
这里第三门限制可以有多个备选值,从而可以实现多个级别的控制。
至于上报时刻,可为时间窗上的任何一时刻,例如,可以选择在第一时间窗的上边缘处的时刻。
第二时间窗模块504,用于确定第二时间窗的上边缘和下边缘;
例如,可以直接将第一时间窗的上边缘设置为第二时间窗的下边缘,以所述下边缘加上第二时间窗的长度所得的时刻作为第二时间窗的上边缘;也可以将当前时刻设为第一时间窗的上边缘,再减去第二时间窗的长度所获得的时刻作为第一时间窗的下边缘;或者以当前故障的故障恢复时刻作为时间窗的上边缘,然后以该上边缘减去一个第二参数值(即第二时间窗的宽度)所获得的时刻作为时间窗的下边缘。
第四统计模块505,用于统计所述第二时间窗模块504所确定的第二时间窗内故障总持续时间占所述第二时间窗的比例;
对于单个故障,恢复时间是指,单个故障恢复之后,到下一单个故障产生的这段期间。
统计第二时间窗内故障总恢复时间,就是将第二时间窗内产生的单个故障的恢复时间相加求和所得到的结果。
故障总恢复时间占第二时间窗的比例=故障总恢复时间/第二时间窗的长度,以下简称为故障总恢复时间比例。
第四告警模块,用于如果所述第二时间窗内所述故障总持续时间的比例大于第四门限值,选择一个时刻上报故障恢复告警。
例如,第四门限值可以设置为80%。当故障总恢复时间比例达到80%的时候,需要上报一个故障产生告警。
同样的,第四门限制可以有多个备选值,以实现不同级别的控制。
上报的时刻,可以选择在第二时间窗内的任一时刻,例如可以在第二时间窗的上边缘处产生。
本实施例采用故障总持续时间占时间窗的比例和故障总恢复时间占时间窗的比例作为是否产生告警的依据,同时考虑到了故障的产生的次数和故障的持续时间,解决了阈值规则、闪断规则和振荡规则所存在的缺陷,把故障与业务质量之间的关系更紧密的结合起来,更好地实现了告警信息的处理,大大提高了告警的可服务性。
以上所述发明实施例可以通过软件实现,相应的软件可以存储在可读取的存储介质中,例如计算机的硬盘、光盘或软盘中。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种告警信息的处理方法,其特征在于,所述方法包括:
确定第一时间窗的上边缘和下边缘;
统计所述第一时间窗内的故障总持续时间;
如果所述故障总持续时间达到第一门限值,选择一个时刻上报故障产生告警;
所述统计所述第一时间窗内故障总持续时间的步骤包括:
获取所述第一时间窗内符合过滤条件的告警信息;
依据所述告警信息计算出单个故障的产生时刻和所述单个故障的恢复时刻之间的时间段,所述时间段为所述单个故障的持续时间,将所述第一时间窗内产生的单个故障的持续时间相加求和,求和所得到的结果为所述故障总持续时间;
所述如果所述故障总持续时间达到第一门限值,选择一个时刻上报故障产生告警的步骤包括:
依据时间先后顺序,判断当前单个故障的持续期间内所述故障总持续时间是否达到的第一门限值;
如果在所述单个故障的持续期间内所述故障总持续时间达到第一门限值,在所述故障总持续时间等于第一门限值的时刻上报故障产生告警。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
确定第二时间窗的上边缘和下边缘;
统计所述第二时间窗内的故障总恢复时间;
如果所述故障总恢复时间达到第二门限值,选择一个时刻上报故障恢复告警;
所述统计所述第二时间窗内故障总恢复时间的步骤包括:
获取所述第二时间窗内符合过滤条件的告警信息;
依据所述告警信息计算出单个故障的恢复时刻和所述单个故障相邻的下一个单个故障的产生时刻之间的时间段,所述时间段为所述单个故障的恢复时间,将所述第二时间窗内产生的单个故障的恢复时间相加求和,求和所得到的结果为所述故障总恢复时间;
所述如果所述故障总恢复时间大于第二门限值,上报故障恢复告警的步骤包括:
依据时间先后顺序,判断在单个故障的恢复期间,所述故障总恢复时间是否达到第二门限值;
如果所述单个故障的恢复期间内,所述故障总恢复时间达到第二门限值,在所述故障总恢复时间等于第二门限值的时刻上报故障恢复告警。
3.一种告警信息的处理方法,其特征在于,所述方法包括:
确定第一时间窗的上边缘和下边缘;
统计所述第一时间窗内的故障总持续时间;
计算所述故障总持续时间占所述第一时间窗的比例;
如果所述故障总持续时间占所述第一时间窗的比例大于第三门限值,选择一个时刻上报故障产生告警;
所述统计所述第一时间窗内故障总持续时间的步骤包括:
获取所述第一时间窗内符合过滤条件的告警信息;
依据所述告警信息计算出单个故障的产生时刻和所述单个故障的恢复时刻之间的时间段,所述时间段为所述单个故障的持续时间,将所述第一时间窗内产生的单个故障的持续时间相加求和,求和所得到的结果为所述故障总持续时间。
4.如权利要求3所述的方法,其特征在于,所述方法包括:
确定第二时间窗的上边缘和下边缘;
统计所述第二时间窗内的故障总恢复时间;
计算所述故障总恢复时间占所述第二时间窗的比例;
如果所述故障总恢复时间占所述第二时间窗的比例大于第四门限值,选择一个时刻上报故障恢复告警;
所述统计所述第二时间窗内故障总恢复时间的步骤包括:
获取所述第二时间窗内符合过滤条件的告警信息;
依据所述告警信息计算出单个故障的恢复时刻和所述单个故障相邻的下一个单个故障的产生时刻之间的时间段,所述时间段为所述单个故障的恢复时间,将所述第二时间窗内产生的单个故障的恢复时间相加求和,求和所得到的结果为所述故障总恢复时间。
5.一种处理告警信息的处理装置,其特征在于,所述装置包括:
第一时间窗模块,用于确定第一时间窗的上边缘和下边缘;
第一统计模块,用于统计所述第一时间窗模块所确定的第一时间窗内的故障总持续时间;
第一告警模块,用于如果所述故障总持续时间达到第一门限值,选择一个时刻上报故障产生告警;
所述第一统计模块包括:
第一过滤模块,用于获取第一时间窗模块所确定的第一时间窗内符合过滤条件的告警信息;
第一计算子模块,用于依据第一告警模块所获取的告警信息计算出单个故障的产生时刻和所述单个故障的恢复时刻之间的时间段,所述时间段为所述单个故障的持续时间,将所述第一时间窗模块确定的第一时间窗内产生的单个故障的持续时间相加求和,求和所得到的结果为所述故障总持续时间;
所述第一告警模块包括:
第一判断子模块,用于依据时间先后顺序,判断当前单个故障的持续期间内所述第一统计模块所统计的故障总持续时间是否达到的第一门限值;
第一临界时刻模块,用于如果所述第一判断子模块的判断结果为是,计算出所述故障总持续时间等于第一门限值的时刻作为临界时刻;
第一告警子模块,用于如果所述第一判断子模块的判断结果为是,在所述第一临界时刻模块所计算出的临界时刻上报故障产生告警。
6.如权利要求5所述的装置,其特征在于,所述装置包括:
第二时间窗模块,用于确定第二时间窗的上边缘和下边缘;
第二统计模块,用于统计所述第二时间窗模块所确定的第二时间窗内的故障总恢复时间;
第二告警模块,用于如果所述故障总恢复时间达到第二门限值,选择一个时刻上报故障恢复告警;
其中,所述第二统计模块,具体用于获取所述第二时间窗内符合过滤条件的告警信息;依据所述告警信息计算出单个故障的恢复时刻和所述单个故障相邻的下一个单个故障的产生时刻之间的时间段,所述时间段为所述单个故障的恢复时间,将所述第二时间窗内产生的单个故障的恢复时间相加求和,求和所得到的结果为所述故障总恢复时间;
所述第二告警模块,具体用于依据时间先后顺序,判断在单个故障的恢复期间,所述故障总恢复时间是否达到第二门限值;如果所述单个故障的恢复期间内,所述故障总恢复时间达到第二门限值,在所述故障总恢复时间等于第二门限值的时刻上报故障恢复告警。
7.一种告警信息的处理装置,其特征在于,所述装置包括:
第一时间窗模块,用于确定第一时间窗的上边缘和下边缘;
第三统计模块,用于统计所述第一时间窗模块所确定的第一时间窗内的故障总持续时间,计算所述故障总持续时间占所述第一时间窗的比例;
第三告警模块,用于如果所述故障总持续时间占所述第一时间窗的比例大于第三门限值,选择一个时刻上报故障产生告警;
其中,所述第三统计模块,具体用于获取所述第一时间窗内符合过滤条件的告警信息;
依据所述告警信息计算出单个故障的产生时刻和所述单个故障的恢复时刻之间的时间段,所述时间段为所述单个故障的持续时间,将所述第一时间窗内产生的单个故障的持续时间相加求和,求和所得到的结果为所述故障总持续时间。
8.如权利要求7所述的装置,其特征在于,所述装置包括:
第二时间窗模块,用于确定第二时间窗的上边缘和下边缘;
第四统计模块,用于统计所述第二时间窗模块所确定的第二时间窗内的故障总恢复时间,计算出所述故障总恢复时间占所述第二时间窗的比例;
第四告警模块,用于如果所述故障总恢复时间占所述第二时间窗的比例大于第四门限值,选择一个时刻上报故障恢复告警;
其中,所述第四统计模块,具体用于获取所述第二时间窗内符合过滤条件的告警信息;依据所述告警信息计算出单个故障的恢复时刻和所述单个故障相邻的下一个单个故障的产生时刻之间的时间段,所述时间段为所述单个故障的恢复时间,将所述第二时间窗内产生的单个故障的恢复时间相加求和,求和所得到的结果为所述故障总恢复时间。
CN200810217685XA 2008-11-26 2008-11-26 一种告警信息的处理方法和装置 Active CN101741626B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810217685XA CN101741626B (zh) 2008-11-26 2008-11-26 一种告警信息的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810217685XA CN101741626B (zh) 2008-11-26 2008-11-26 一种告警信息的处理方法和装置

Publications (2)

Publication Number Publication Date
CN101741626A CN101741626A (zh) 2010-06-16
CN101741626B true CN101741626B (zh) 2012-04-18

Family

ID=42464560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810217685XA Active CN101741626B (zh) 2008-11-26 2008-11-26 一种告警信息的处理方法和装置

Country Status (1)

Country Link
CN (1) CN101741626B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102547807A (zh) * 2010-12-21 2012-07-04 中兴通讯股份有限公司 一种移动通讯设备故障的检测方法及系统
CN102209341B (zh) * 2011-06-17 2018-03-27 中兴通讯股份有限公司 一种基站故障检测方法及装置
CN106203665A (zh) * 2015-04-29 2016-12-07 日立金融设备系统(深圳)有限公司 故障报告优化方法以及故障报告优化装置
CN105786673B (zh) * 2016-03-24 2019-10-22 北京百度网讯科技有限公司 告警信息处理方法和装置
CN107291585A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 容灾方法及装置、服务器
CN106289370B (zh) * 2016-07-19 2018-11-23 珠海格力电器股份有限公司 一种故障检测装置和方法
CN108241894A (zh) * 2018-01-10 2018-07-03 湖南大唐先科技有限公司 故障定位方法、设备及存储介质
CN108933705B (zh) * 2018-10-19 2021-05-18 合肥中科根云设备管理有限公司 分布式阵列故障检测方法及系统
CN109634255B (zh) * 2018-11-26 2020-06-16 嘉善百事顺纺织印染有限公司 基于物联网的监管式烟气处理系统
CN110086656B (zh) * 2019-04-02 2022-03-01 武汉烽火技术服务有限公司 基于告警维护延缓度的通信网告警数据分析方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1742415A1 (de) * 2005-07-05 2007-01-10 Siemens Aktiengesellschaft Automatische Korrektur von Alarmlisten in Managementsystemen
CN101076174A (zh) * 2007-06-05 2007-11-21 中兴通讯股份有限公司 告警风暴的处理方法
CN101222361A (zh) * 2008-01-22 2008-07-16 中兴通讯股份有限公司 一种告警频率监控器及告警处理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1742415A1 (de) * 2005-07-05 2007-01-10 Siemens Aktiengesellschaft Automatische Korrektur von Alarmlisten in Managementsystemen
CN101076174A (zh) * 2007-06-05 2007-11-21 中兴通讯股份有限公司 告警风暴的处理方法
CN101222361A (zh) * 2008-01-22 2008-07-16 中兴通讯股份有限公司 一种告警频率监控器及告警处理方法

Also Published As

Publication number Publication date
CN101741626A (zh) 2010-06-16

Similar Documents

Publication Publication Date Title
CN101741626B (zh) 一种告警信息的处理方法和装置
CN104218676B (zh) 电力调度自动化主站的智能告警系统和方法
US8576724B2 (en) Method, system, and computer program product, for correlating special service impacting events
CN111652450B (zh) 排污行为的异常检测系统及方法、电子设备、存储介质
CN103746831A (zh) 一种告警分析的方法、装置及系统
CN109886475B (zh) 基于ai的计量自动化系统的信息安全态势感知系统
CN103489138B (zh) 一种输电网故障信息与线路越限信息的相关度分析法
CN107658980B (zh) 一种用于复核电网监控告警信息的分析方法和系统
CN101808351A (zh) 业务影响分析方法和系统
CN104317695A (zh) 一种自助设备监控方法及装置
CN110580492A (zh) 一种基于小幅波动检测的轨道电路故障前兆发现方法
CN102056200A (zh) 一种业务处理流程监控方法和系统
CN105634796A (zh) 一种网络设备故障预测及诊断方法
CN102891761B (zh) 设备性能预测处理方法及装置
CN111191400A (zh) 基于用户报障数据的车辆零部件寿命预测方法及系统
CN102027381B (zh) 确定电流的至少一个性质的方法、设备和计算机程序产品
CN111614520B (zh) 一种基于机器学习算法的idc流量数据预测方法及装置
WO2004095213A2 (en) Method and system of processing billing data
CN116824734A (zh) 一种基于数字孪生的设备远程故障诊断方法、系统和装置
CN115169650A (zh) 一种大数据分析的装备健康预测方法
CN101923605B (zh) 铁路防灾风预警方法
CN104244293A (zh) 网络节点告警方法及系统
CN111028487B (zh) 一种水处理监测方法及系统
CN111404740A (zh) 故障分析方法、装置、电子设备及计算机可读存储介质
CN105990074A (zh) 跳闸装置,电路中断设备及确定线圈的工作状态的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant