CN107690774B - 告警处理方法和装置 - Google Patents

告警处理方法和装置 Download PDF

Info

Publication number
CN107690774B
CN107690774B CN201680025203.3A CN201680025203A CN107690774B CN 107690774 B CN107690774 B CN 107690774B CN 201680025203 A CN201680025203 A CN 201680025203A CN 107690774 B CN107690774 B CN 107690774B
Authority
CN
China
Prior art keywords
alarm
main
probability
correlation
generates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680025203.3A
Other languages
English (en)
Other versions
CN107690774A (zh
Inventor
黄耀
陆小玲
向洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Liwei Zhilian Technology Co Ltd
Original Assignee
Shenzhen Liwei Zhilian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Liwei Zhilian Technology Co Ltd filed Critical Shenzhen Liwei Zhilian Technology Co Ltd
Publication of CN107690774A publication Critical patent/CN107690774A/zh
Application granted granted Critical
Publication of CN107690774B publication Critical patent/CN107690774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Alarm Systems (AREA)

Abstract

一种告警处理方法和装置,其中,告警处理方法,用于数据中心,所述告警处理方法包括步骤:在检测到告警时,根据主从库判断所述告警是否为主告警(S100);若是主告警,则上报所述主告警,并且在所述主告警解除之前,在后续检测到对应所述主告警的相关告警时,不上报所述相关告警(S200)。该方法具有避免告警风暴,提高告警处理效率的效果。

Description

告警处理方法和装置
技术领域
本发明涉及数据管理领域,特别涉及告警处理方法和装置。
背景技术
近年来随着大数据的快速发展,数据中心的建设也处于快速发展期,而且数据中心的规模越来越大,动辄数量达到万记的机架,数量达到百万级别的IT设备。当出现类似市电停电的告警时,会同时出现大量电压低,电流低的告警,导致运维人员淹没在大量的告警之中,无法快速找到根源告警,影响运维效率。
发明内容
本发明的主要目的是提供告警处理方法和装置,旨在避免告警风暴,提高告警处理效率。
为实现上述目的,本发明提出的一种告警处理方法,用于数据中心,所述告警处理方法包括步骤:
在检测到告警时,根据主从关系判断所述告警是否为主告警;
若是主告警,则上报所述主告警,并且在所述主告警解除之前,在后续检测到对应所述主告警的相关告警时,不上报所述相关告警;
若不是主告警,则进一步判断是否为相关告警,若是相关告警,则获得后续第一预设时间内的其他相关告警;根据所获的相关告警和概率关系获得产生对应主告警的概率;在所述概率超过预设概率时,则不上报对应所述主告警的相关告警;判断在第二预设时间内是否出现所述主告警,若未出现所述主告警,则上报未上报的相关告警。
优选的,所述主从关系的获得步骤包括:
获得预设期间内所有告警的告警数量和告警时间;
若统计获得第一告警出现n次,其中,m次为第一告警出现之后出现第二告警,m/n≥第一预设比率,则所述第一告警标记为主告警,第二告警标记为对应第一告警的相关告警。
优选的,所述概率关系的获得步骤包括:
获得预设期间内主告警数量和告警时间,以及对应相关告警数量和告警时间;
若统计获得一相关告警出现a次,其中,b次为该相关告警出现之后出现主告警,则出现该相关告警时,主告警的出现概率为b/a;
使用通过多种相关告警进行拟合,以及利用马尔可夫假设获得的概率计算公式,产生所述主告警的概率为:
∑[P(W1)*P(W2|W1)…P(Wn|Wn-1)+P(U1)*P(U2|U1)…P(Un|Un-1)+P(V1)*P(V2|V1)…P(Vn|Vn-1)]
其中,n代表主告警对应的相关告警数量,Wn、Un和Vn分别表示第一相关告警作为第一编号、第二相关告警作为第一编号、和第三告警作为第一编号时的三组概率计算;
P(W1)、P(U1)、P(V1)分别表示第一相关告警、第二相关告警和第三相关告警产生时,产生主告警的概率;
P(Wn|Wn-1)、P(Un|Un-1)、P(Vn|Vn-1)分别表示在第一相关告警、第二相关告警和第三相关告警作为第一编号下,当产生第n-1相关告警时,产生第n相关告警产生的概率。
优选的,所述告警处理方法还包括步骤:
在检测到所述主告警消除时,重新判断未上报的相关告警是否存在;
若存在,则上报所述相关告警;否则,消除所述相关告警。
本发明提供的一种告警处理装置,用于数据中心,所述告警处理装置包括:
第一判断模块,用于在检测到告警时,根据主从关系判断所述告警是否为主告警;
第一上报模块,用于在所述第一判断模块判定是主告警时,则上报所述主告警,并且在所述主告警解除之前,在后续检测到对应所述主告警的相关告警时,不上报所述相关告警;
第二判断模块,用于在所述第一判断模块判定不是主告警时,则判断是否为相关告警;
后续获得模块,用于在所述第二判断模块判定是相关告警,则获得后续第一预设时间内的其他相关告警;
告警获得模块,用于根据所获的相关告警和概率关系获得产生对应主告警的概率;
第二上报模块,用于在概率获得模块所获概率超过预设概率时,则不上报对应所述主告警的相关告警;
第三判断模块,用于判断在第二预设时间内是否出现所述主告警;
第三上报模块,用于在所述第三判断模块判定未出现所述主告警时,则上报未上报的相关告警。
优选的,所述告警处理装置还包括用于确定所述主从关系的主从确定模块,
所述主从确定模块,用于获得预设期间内所有告警的告警数量和告警时间;若统计获得第一告警出现n次,其中,m次为第一告警出现之后出现第二告警,m/n≥第一预设比率,则所述第一告警标记为主告警,第二告警标记为对应第一告警的相关告警。
优选的,所述告警处理装置还包括用于确定所述概率关系的概率确定模块,
所述概率确定模块,用于获得预设期间内主告警数量和告警时间,以及对应相关告警数量和告警时间;若统计获得一相关告警出现a次,其中,b次为该相关告警出现之后出现主告警,则出现该相关告警时,主告警的出现概率为b/a;使用通过多种相关告警进行拟合,以及利用马尔可夫假设获得的概率计算公式,产生所述主告警的概率为:
∑[P(W1)*P(W2|W1)...P(Wn|Wn-1)+P(U1)*P(U2|U1)...P(Un|Un-1)+P(V1)*P(V2|V1)...P(Vn|Vn-1)]
其中,n代表主告警对应的相关告警数量,Wn、Un和Vn分别表示第一相关告警作为第一编号、第二相关告警作为第一编号、和第三告警作为第一编号时的三组概率计算;
P(W1)、P(U1)、P(V1)分别表示第一相关告警、第二相关告警和第三相关告警产生时,产生主告警的概率;
P(Wn|Wn-1)、P(Un|Un-1)、P(Vn|Vn-1)分别表示在第一相关告警、第二相关告警和第三相关告警作为第一编号下,当产生第n-1相关告警时,产生第n相关告警产生的概率。优选的,所述告警处理装置还包括:
复检模块,用于在检测到所述主告警消除时,重新判断未上报的相关告警是否存在;
第四上报模块,用于在所述复检模块判定为存在时,则上报所述相关告警;否则,消除所述相关告警。
本发明所提供的告警处理方法,通过主从关系来判断告警的性质,若为主告警,则仅上报主告警而不上报伴生的相关告警,从而能够更清楚的展示事故的原因,避免产生告警海啸,便于工作人员了解告警的真实来源,而达到提高运维管理的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明告警处理方法第一实施例的流程图;
图2为图1所示告警处理方法中主从关系的获得流程图;
图3为本发明告警处理方法第二实施例的流程图;
图4为图3所示告警处理方法中概率关系的获得流程图;
图5为本发明告警处理方法第三实施例的流程图;
图6为本发明告警处理方法一实施例的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参看图1,本发明告警处理方法第一实施例,用于数据中心,所述告警处理方法包括步骤:
步骤S100,在检测到告警时,根据主从关系判断所述告警是否为主告警;若是,则执行步骤S200,若否则执行步骤S300。其中,主从关系例如停电告警为主告警,在停电的同时将产生电压低告警和电流低告警等,则这些伴生的告警为停电告警的相关告警。主从关系可以是预先配置的,也可以是设备根据算法自行学习的;例如管理人员利用电路相关知识以及历史告警数据,找到因市电停电产生的相关告警,把相关的数据配置到数据库中保存下来;再例如设备通过统计告警,计算告警产生的相关性,从而获得主告警和伴生的相关告警的主从关系。
步骤S200,上报所述主告警,并且在所述主告警解除之前,在后续检测到对应所述主告警的相关告警时,不上报所述相关告警。
步骤S300,上报所述告警。
本实施例,通过主从关系来判断告警的性质,若为主告警,则仅上报主告警而不上报伴生的相关告警,从而能够更清楚的展示事故的原因,避免产生告警海啸,便于工作人员了解告警的真实来源,而达到提高运维管理的效率。
请参看图2,本实施例优选采用设备自行学习的方案来获得和维持所述主从关系。具体的,所述主从关系的获得步骤包括:
步骤S400,获得预设期间内所有告警的告警数量和告警时间。其中,预设期间可以是所有时间,也可以是最近一年等。
步骤S410,若统计获得第一告警出现n次,其中,m次为第一告警出现之后出现第二告警,m/n≥第一预设比率,则所述第一告警标记为主告警,第二告警标记为对应第一告警的相关告警。
例如,第一告警为停电告警,第二告警为电压低告警;若统计获得停电告警30次,其中,在这30次停电告警中,有28次停电告警后,例如1~10min之内,紧随发生了电压低告警,则n=30,m=28,m/n=93.3%;此时若第一预设比率为80%,则认为第一告警和第二告警具有较高的相关性,从而认为第二告警为第一告警的相关告警。
优选的,第一预设比率设置为70%~90%,进一步的设置为80%为较佳方案,能够较为准确的反应告警之间的相关性。进一步的,所述主从关系可以通过一线程来统计,并且将统计结果汇总为于数据库,并且定期更新该数据库,从而当发生告警时,可以直接从数据库中调取主从关系的数据,而直接判断是否为主告警或相关告警。
本实施例,通过获得历史告警信息,并通过相关性计算公式来获得告警之间的相关性,具有效率高,以及历史数据越多,相关性的判定越准确的效果。
请参看图3,本发明告警处理方法第二实施例,本实施例以第一实施例为基础,新增了步骤S510,步骤S520,步骤S530,步骤S540,步骤S550,步骤S560,步骤S570和步骤S580。具体的,所述告警处理方法包括还步骤:
在步骤S100判定若不是主告警时,执行步骤S510。
步骤S510,判断是否为相关告警;若是,则执行步骤S520;若否,则执行步骤S300。
步骤S520,获得后续第一预设时间内的其他相关告警;其中,可以设置第一预设时间为1~5min之内。
步骤S530,根据所获的相关告警和概率关系获得产生对应主告警的概率。其中,所述概率关系可以是预先配置的,也可以是设备根据算法自行学习的;例如管理人员利用电路相关知识以及历史告警数据,找到因市电停电产生的相关告警;例如,设置当出现A相电压告警时,市电停电告警的概率为20%;设置当出现A相电压告警并且B相电压告警时,市电停电告警的概率为40%;设置当出现A相电压告警、B相电压告警并且C相电压告警时,市电停电告警的概率为50%等等。又例如,设备根据历史数据,统计获得当A相电压告警时,市电停电告警的概率为20%;统计获得当A相电压告警并且B相电压告警时,市电停电告警的概率为30%;统计获得当A相电压告警、B相电压告警并且C相告警时,市电停电告警的概率为60%等等。
步骤S540,判断所述概率是否超过预设概率;若是,则执行步骤S550;若否,则执行步骤S300;优选设置该预设概率为40%~60%,进一步设置预设概率为50%,能够较为准确的反应告警之间的相关性。
步骤S550,不上报对应所述主告警的相关告警。
步骤S560,判断在第二预设时间内是否出现所述主告警;若是,则执行步骤S570,若否,则执行步骤S580;其中,可以设置第二预设时间为1~5min。
步骤S570,上报所述主告警,并且维持不上报所述相关告警;
步骤S580,上报未上报的相关告警。
本实施例,通过在判定产生的告警为相关告警时,延迟上报,等待是否存在对应的主告警,从而可以避免相关告警先产生而主告警后产生时,相关告警集中爆发而导致的告警海啸。
请参看图4,本实施例优选采用设备自行学习的方案来获得和维持所述概率关系。具体的,所述概率关系的获得步骤包括:
步骤S600,获得预设期间内主告警数量和告警时间,以及对应相关告警数量和告警时间;其中,预设期间可以是所有时间,也可以是最近一年等。
步骤S610,若统计获得一相关告警出现a次,其中,b次为该相关告警出现之后出现主告警,则出现该相关告警时,主告警的出现概率为b/a;例如,主告警为停电告警,一相关告警为电压低告警;若统计获得电压低告警30次,其中,在这30次电压低告警中,有28次电压低告警后,例如1~10min之内,紧随发生了停电告警,则a=30,b=28,b/a=93.3%。
步骤S620,使用通过多种相关告警进行拟合,以及利用马尔可夫假设获得的概率计算公式,产生所述主告警的概率为:
∑[P(W1)*P(W2|W1)…P(Wn|Wn-1)+P(U1)*P(U2|U1)…P(Un|Un-1)+P(V1)*P(V2|V1)…P(Vn|Vn-1)]
其中,P(W1)指,当第一相关告警产生时,产生主告警的概率;
P(W2|W1)指,当第一相关告警时,第二相关告警产生的概率;
P(Wn|Wn-1)指,当第N-1相关告警时,第N相关告警产生的概率;
需要说明的是,N代表主告警对应的相关告警数量;Wn、Un和Vn分别表示第一相关告警作为第一,第二相关告警作为第一,和第三告警作为第一时的三组概率计算。此处仅提供了三组概率计算,但是应当理解为公式的简写,而并非完整公式;完整的公式应当为,当存在N个相关告警数量时,应当存在N组概率计算;例如N为2时,有Wn和Un两组计算;例如N为3时,有Wn、Un和Vn三组计算;例如N为4时,有Wn、Un、Vn和Yn四组计算。
具体的:假设市电停电告警为主告警,其对应的相关告警有两个,则N=2。
两个相关告警分别为A相电压告警和B相电压告警;
通过统计计算获得A相电压告警产生时,市电停电告警产生的概率为b/a(统计方法如上文获得b/a的方法),记录为P(W1);通过统计计算获得A相电压告警产生时,B相电压告警产生的概率为c/d,记录为P(W2|W1);
通过统计计算获得B相电压告警产生时,市电停电告警产生的概率为e/f,记录为P(U1);通过统计计算获得A相电压告警产生时,B相电压告警产生的概率为c/d,记录为P(U2|U1);
即:
A相电压告警产生时,市电停电告警产生的概率为P(W1);
A相电压告警产生时,B相电压告警产生的概率为P(W2|W1);
------------
B相电压告警产生时,市电停电告警产生的概率为P(U1);
B相电压告警产生时,A相电压告警产生的概率为P(U2|U1);
则:
市电停电告警的概率为:P(W1)*P(W2|W1)+P(U1)*P(U2|U1)。
假设市电停电告警为主告警,其对应的相关告警有四个,则N=4;
四个相关告警分别为第一相关告警、第二相关告警、第三相关告警和第四相关告警。其中,第一、第二、第三和第四并非按重要排序,而仅仅是代号。
第一组概率计算中,编号1为第一相关告警,编号2为第二相关告警,编号3为第三相关告警,编号4为第四相关告警。
第一相关告警产生时,市电停电告警产生的概率为P(W1);
第一相关告警产生时,第二相关告警产生的概率为P(W2|W1);
第二相关告警产生时,第三相关告警产生的概率为P(W3|W2);
第三相关告警产生时,第四相关告警产生的概率为P(W4|W3);
------------
第二组概率计算中,编号1为第二相关告警,编号2为第三相关告警,编号3为第四相关告警,编号4为第一相关告警。
第二相关告警产生时,市电停电告警产生的概率为P(U1);
第二相关告警产生时,第三相关告警产生的概率为P(U2|U1);
第三相关告警产生时,第四相关告警产生的概率为P(U3|U2);
第四相关告警产生时,第一相关告警产生的概率为P(U4|U3);
------------
第三组概率计算中,编号1为第三相关告警,编号2为第四相关告警,编号3为第一相关告警,编号4为第二相关告警。
第三相关告警产生时,市电停电告警产生的概率为P(V1);
第三相关告警产生时,第四相关告警产生的概率为P(V2|V1);
第四相关告警产生时,第一相关告警产生的概率为P(V3|V2);
第一相关告警产生时,第二相关告警产生的概率为P(V4|V3);
------------
第四组概率计算中,编号1为第四相关告警,编号2为第一相关告警,编号3为第二相关告警,编号4为第三相关告警。
第四相关告警产生时,市电停电告警产生的概率为P(Y1);
第四相关告警产生时,第一相关告警产生的概率为P(Y2|Y1);
第一相关告警产生时,第二相关告警产生的概率为P(Y3|Y2);
第二相关告警产生时,第三相关告警产生的概率为P(Y4|Y3);
进一步的,所述主从关系可以通过一线程来统计,并且将统计结果汇总为于数据库,并且定期更新该数据库,从而当发生告警时,可以直接从数据库中调取概率关系的数据,而直接判断产生主告警的概率为多少。
本实施例,通过获得历史告警信息,并通过相关性计算公式来获得当前产生的相关告警伴随主告警产生的概率,具有效率高,以及历史数据越多,相关性的判定越准确的效果。
请参看图5,本发明告警处理方法第三实施例,本实施例以第二实施例为基础,新增了步骤S700,步骤S710,步骤S720,所述告警处理方法还包括步骤:
步骤S700,在检测到所述主告警消除时,重新判断未上报的相关告警是否存在;若是,则执行步骤S710;若否,则执行步骤S720。
步骤S710,上报所述相关告警。
步骤S720,消除所述相关告警。
本实施例,通过在主告警消除后再次确认相关告警是否存在,则可以避免相关告警的产生源并非主告警,而导致的漏报情况发生,因此本方案具有判断更准确可靠的效果。
请参看图6,本发明告警处理装置一实施例,所述告警处理装置包括:
第一判断模块100,用于在检测到告警时,根据主从关系判断所述告警是否为主告警;其中,主从关系例如停电告警为主告警,在停电的同时将产生电压低告警和电流低告警等,则这些伴生的告警为停电告警的相关告警。主从关系可以是预先配置的,也可以是设备根据算法自行学习的;例如管理人员利用电路相关知识以及历史告警数据,找到因市电停电产生的相关告警,把相关的数据配置到数据库中保存下来;再例如设备通过统计告警,计算告警产生的相关性,从而获得主告警和伴生的相关告警的主从关系。
第一上报模块200,用于在所述第一判断模块100判定是主告警时,则上报所述主告警,并且在所述主告警解除之前,在后续检测到对应所述主告警的相关告警时,不上报所述相关告警。
本实施例,通过主从关系来判断告警的性质,若为主告警,则仅上报主告警而不上报伴生的相关告警,从而能够更清楚的展示事故的原因,避免产生告警海啸,便于工作人员了解告警的真实来源,而达到提高运维管理的效率。
优选的,所述告警处理装置还包括用于确定所述主从关系的主从确定模块300。
所述主从确定模块300,用于获得预设期间内所有告警的告警数量和告警时间;其中,预设期间可以是所有时间,也可以是最近一年等。若统计获得第一告警出现n次,其中,m次为第一告警出现之后出现第二告警,m/n≥第一预设比率,则所述第一告警标记为主告警,第二告警标记为对应第一告警的相关告警。
例如,第一告警为停电告警,第二告警为电压低告警;若统计获得停电告警30次,其中,在这30次停电告警中,有28次停电告警后,例如1~10min之内,紧随发生了电压低告警,则n=30,m=28,m/n=93.3%;此时若第一预设比率为80%,则认为第一告警和第二告警具有较高的相关性,从而认为第二告警为第一告警的相关告警。
优选的,第一预设比率设置为70%~90%,进一步的设置为80%为较佳方案,能够较为准确的反应告警之间的相关性。进一步的,所述主从关系可以通过一线程来统计,并且将统计结果汇总为于数据库,并且定期更新该数据库,从而当发生告警时,可以直接从数据库中调取主从关系的数据,而直接判断是否为主告警或相关告警。
本实施例,通过获得历史告警信息,并通过相关性计算公式来获得告警之间的相关性,具有效率高,以及历史数据越多,相关性的判定越准确的效果。
优选的,所述告警处理装置还包括:
第二判断模块400,用于在所述第一判断模块100判定不是主告警时,则判断是否为相关告警。
后续获得模块500,用于在所述第二判断模块400判定是相关告警,则获得后续第一预设时间内的其他相关告警;其中,可以设置第一预设时间为1~5min之内。
告警获得模块600,用于根据所获的相关告警和概率关系获得产生对应主告警的概率;其中,所述概率关系可以是预先配置的,也可以是设备根据算法自行学习的;例如管理人员利用电路相关知识以及历史告警数据,找到因市电停电产生的相关告警;例如,设置当出现A相电压告警时,市电停电告警的概率为20%;设置当出现A相电压告警并且B相电压告警时,市电停电告警的概率为40%;设置当出现A相电压告警、B相电压告警并且C相电压告警时,市电停电告警的概率为50%等等。又例如,设备根据历史数据,统计获得当A相电压告警时,市电停电告警的概率为20%;统计获得当A相电压告警并且B相电压告警时,市电停电告警的概率为30%;统计获得当A相电压告警、B相电压告警并且C相告警时,市电停电告警的概率为60%等等。
第二上报模块700,用于在概率获得模块所获概率超过预设概率时,则不上报对应所述主告警的相关告警;优选设置该预设概率为40%~60%,进一步设置预设概率为50%,能够较为准确的反应告警之间的相关性。
第三判断模块800,用于判断在第二预设时间内是否出现所述主告警;其中,可以设置第二预设时间为1~5min。
第三上报模块900,用于在所述第三判断模块800判定未出现所述主告警时,则上报未上报的相关告警;否则,维持不上报。
本实施例,通过在判定产生的告警为相关告警时,延迟上报,等待是否存在对应的主告警,从而可以避免相关告警先产生而主告警后产生时,相关告警集中爆发而导致的告警海啸。
优选的,所述告警处理装置还包括用于确定所述概率关系的概率确定模块1000,
所述概率确定模块1000,用于获得预设期间内主告警数量和告警时间,以及对应相关告警数量和告警时间;其中,预设期间可以是所有时间,也可以是最近一年等。若统计获得一相关告警出现a次,其中,b次为该相关告警出现之后出现主告警,则出现该相关告警时,主告警的出现概率为b/a;其中,在这30次电压低告警中,有28次电压低告警后,例如1~10min之内,紧随发生了停电告警,则a=30,b=28,b/a=93.3%。使用通过多种相关告警进行拟合,以及利用马尔可夫假设获得的概率计算公式,产生所述主告警的概率为:
∑[P(W1)*P(W2|W1)...P(Wn|Wn-1)+P(U1)*P(U2|U1)...P(Un|Un-1)+P(V1)*P(V2|V1)...P(Vn|Vn-1)]
其中,P(W1)指,当第一相关告警产生时,产生主告警的概率;
P(W2|W1)指,当第一相关告警时,第二相关告警产生的概率;
P(Wn|Wn-1)指,当第N-1相关告警时,第N相关告警产生的概率;
需要说明的是,N代表主告警对应的相关告警数量;Wn、Un和Vn分别表示第一相关告警作为第一,第二相关告警作为第一,和第三告警作为第一时的三组概率计算。此处仅提供了三组概率计算,但是应当理解为公式的简写,而并非完整公式;完整的公式应当为,当存在N个相关告警数量时,应当存在N组概率计算;例如N为2时,有Wn和Un两组计算;例如N为3时,有Wn、Un和Vn三组计算;例如N为4时,有Wn、Un、Vn和Yn四组计算。
具体的:假设市电停电告警为主告警,其对应的相关告警有两个,则N=2。
两个相关告警分别为A相电压告警和B相电压告警;
通过统计计算获得A相电压告警产生时,市电停电告警产生的概率为b/a(统计方法如上文获得b/a的方法),记录为P(W1);通过统计计算获得A相电压告警产生时,B相电压告警产生的概率为c/d,记录为P(W2|W1);
通过统计计算获得B相电压告警产生时,市电停电告警产生的概率为e/f,记录为P(U1);通过统计计算获得A相电压告警产生时,B相电压告警产生的概率为c/d,记录为P(U2|U1);
即:
A相电压告警产生时,市电停电告警产生的概率为P(W1);
A相电压告警产生时,B相电压告警产生的概率为P(W2|W1);
------------
B相电压告警产生时,市电停电告警产生的概率为P(U1);
B相电压告警产生时,A相电压告警产生的概率为P(U2|U1);
则:
市电停电告警的概率为:P(W1)*P(W2|W1)+P(U1)*P(U2|U1)。
假设市电停电告警为主告警,其对应的相关告警有四个,则N=4;
四个相关告警分别为第一相关告警、第二相关告警、第三相关告警和第四相关告警。其中,第一、第二、第三和第四并非按重要排序,而仅仅是代号。
第一组概率计算中,编号1为第一相关告警,编号2为第二相关告警,编号3为第三相关告警,编号4为第四相关告警。
第一相关告警产生时,市电停电告警产生的概率为P(W1);
第一相关告警产生时,第二相关告警产生的概率为P(W2|W1);
第二相关告警产生时,第三相关告警产生的概率为P(W3|W2);
第三相关告警产生时,第四相关告警产生的概率为P(W4|W3);
------------
第二组概率计算中,编号1为第二相关告警,编号2为第三相关告警,编号3为第四相关告警,编号4为第一相关告警。
第二相关告警产生时,市电停电告警产生的概率为P(U1);
第二相关告警产生时,第三相关告警产生的概率为P(U2|U1);
第三相关告警产生时,第四相关告警产生的概率为P(U3|U2);
第四相关告警产生时,第一相关告警产生的概率为P(U4|U3);
------------
第三组概率计算中,编号1为第三相关告警,编号2为第四相关告警,编号3为第一相关告警,编号4为第二相关告警。
第三相关告警产生时,市电停电告警产生的概率为P(V1);
第三相关告警产生时,第四相关告警产生的概率为P(V2|V1);
第四相关告警产生时,第一相关告警产生的概率为P(V3|V2);
第一相关告警产生时,第二相关告警产生的概率为P(V4|V3);
------------
第四组概率计算中,编号1为第四相关告警,编号2为第一相关告警,编号3为第二相关告警,编号4为第三相关告警。
第四相关告警产生时,市电停电告警产生的概率为P(Y1);
第四相关告警产生时,第一相关告警产生的概率为P(Y2|Y1);
第一相关告警产生时,第二相关告警产生的概率为P(Y3|Y2);
第二相关告警产生时,第三相关告警产生的概率为P(Y4|Y3);
进一步的,所述主从关系可以通过一线程来统计,并且将统计结果汇总为于数据库,并且定期更新该数据库,从而当发生告警时,可以直接从数据库中调取概率关系的数据,而直接判断产生主告警的概率为多少。
本实施例,通过获得历史告警信息,并通过相关性计算公式来获得当前产生的相关告警伴随主告警产生的概率,具有效率高,以及历史数据越多,相关性的判定越准确的效果。
优选的,所述告警处理装置还包括:
复检模块1100,用于在检测到所述主告警消除时,重新判断未上报的相关告警是否存在;
第四上报模块1200,用于在所述复检模块1100判定为存在时,则上报所述相关告警;否则,消除所述相关告警。
本实施例,通过在主告警消除后再次确认相关告警是否存在,则可以避免相关告警的产生源并非主告警,而导致的漏报情况发生,因此本方案具有判断更准确可靠的效果。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是移动终端,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种告警处理方法,用于数据中心,其特征在于,所述告警处理方法包括步骤:
在检测到告警时,根据主从关系判断所述告警是否为主告警;
若是主告警,则上报所述主告警,并且在所述主告警解除之前,在后续检测到对应所述主告警的相关告警时,不上报所述相关告警;
若不是主告警,则进一步判断是否为相关告警,若是相关告警,则获得后续第一预设时间内的其他相关告警;根据所获的相关告警和概率关系获得产生对应主告警的概率;在所述概率超过预设概率时,则不上报对应所述主告警的相关告警;判断在第二预设时间内是否出现所述主告警,若未出现所述主告警,则上报未上报的相关告警。
2.如权利要求1所述的告警处理方法,其特征在于,所述主从关系的获得步骤包括:
获得预设期间内所有告警的告警数量和告警时间;
若统计获得第一告警出现n次,其中,m次为第一告警出现之后出现第二告警,m/n≥第一预设比率,则所述第一告警标记为主告警,第二告警标记为对应第一告警的相关告警。
3.如权利要求1所述的告警处理方法,其特征在于,所述概率关系的获得步骤包括:
获得预设期间内主告警数量和告警时间,以及对应相关告警数量和告警时间;
若统计获得一相关告警出现a次,其中,b次为该相关告警出现之后出现主告警,则出现该相关告警时,主告警的出现概率为b/a;
使用通过多种相关告警进行拟合,以及利用马尔可夫假设获得的概率计算公式,产生所述主告警的概率为:
∑[P(W1)*P(W2|W1)…P(Wn|Wn-1)+P(U1)*P(U2|U1)…P(Un|Un-1)+P(V1)*P(V2|V1)…P(Vn|Vn-1)]
其中,n代表主告警对应的相关告警数量,Wn、Un和Vn分别表示第一相关告警作为第一编号、第二相关告警作为第一编号、和第三告警作为第一编号时的三组概率计算;
P(W1)、P(U1)、P(V1)分别表示第一相关告警、第二相关告警和第三相关告警产生时,产生主告警的概率;
P(Wn|Wn-1)、P(Un|Un-1)、P(Vn|Vn-1)分别表示在第一相关告警、第二相关告警和第三相关告警作为第一编号下,当产生第n-1相关告警时,产生第n相关告警产生的概率。
4.如权利要求1所述的告警处理方法,其特征在于,所述告警处理方法还包括步骤:
在检测到所述主告警消除时,重新判断未上报的相关告警是否存在;
若存在,则上报所述相关告警;否则,消除所述相关告警。
5.一种告警处理装置,用于数据中心,其特征在于,所述告警处理装置包括:
第一判断模块,用于在检测到告警时,根据主从关系判断所述告警是否为主告警;
第一上报模块,用于在所述第一判断模块判定是主告警时,则上报所述主告警,并且在所述主告警解除之前,在后续检测到对应所述主告警的相关告警时,不上报所述相关告警;
第二判断模块,用于在所述第一判断模块判定不是主告警时,则判断是否为相关告警;
后续获得模块,用于在所述第二判断模块判定是相关告警,则获得后续第一预设时间内的其他相关告警;
告警获得模块,用于根据所获的相关告警和概率关系获得产生对应主告警的概率;
第二上报模块,用于在概率获得模块所获概率超过预设概率时,则不上报对应所述主告警的相关告警;
第三判断模块,用于判断在第二预设时间内是否出现所述主告警;
第三上报模块,用于在所述第三判断模块判定未出现所述主告警时,则上报未上报的相关告警。
6.如权利要求5所述的告警处理装置,其特征在于,所述告警处理装置还包括用于确定所述主从关系的主从确定模块,
所述主从确定模块,用于获得预设期间内所有告警的告警数量和告警时间;若统计获得第一告警出现n次,其中,m次为第一告警出现之后出现第二告警,m/n≥第一预设比率,则所述第一告警标记为主告警,第二告警标记为对应第一告警的相关告警。
7.如权利要求5所述的告警处理装置,其特征在于,所述告警处理装置还包括用于确定所述概率关系的概率确定模块,
所述概率确定模块,用于获得预设期间内主告警数量和告警时间,以及对应相关告警数量和告警时间;若统计获得一相关告警出现a次,其中,b次为该相关告警出现之后出现主告警,则出现该相关告警时,主告警的出现概率为b/a;使用通过多种相关告警进行拟合,以及利用马尔可夫假设获得的概率计算公式,产生所述主告警的概率为:
∑[P(W1)*P(W2|W1)...P(Wn|Wn-1)+P(U1)*P(U2|U1)...P(Un|Un-1)+P(V1)*P(V2|V1)...P(Vn|Vn-1)]
其中,n代表主告警对应的相关告警数量,Wn、Un和Vn分别表示第一相关告警作为第一编号、第二相关告警作为第一编号、和第三告警作为第一编号时的三组概率计算;
P(W1)、P(U1)、P(V1)分别表示第一相关告警、第二相关告警和第三相关告警产生时,产生主告警的概率;
P(Wn|Wn-1)、P(Un|Un-1)、P(Vn|Vn-1)分别表示在第一相关告警、第二相关告警和第三相关告警作为第一编号下,当产生第n-1相关告警时,产生第n相关告警产生的概率。
8.如权利要求5所述的告警处理装置,其特征在于,所述告警处理装置还包括:
复检模块,用于在检测到所述主告警消除时,重新判断未上报的相关告警是否存在;
第四上报模块,用于在所述复检模块判定为存在时,则上报所述相关告警;否则,消除所述相关告警。
CN201680025203.3A 2016-12-28 2016-12-28 告警处理方法和装置 Active CN107690774B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/112706 WO2018119776A1 (zh) 2016-12-28 2016-12-28 告警处理方法和装置

Publications (2)

Publication Number Publication Date
CN107690774A CN107690774A (zh) 2018-02-13
CN107690774B true CN107690774B (zh) 2019-01-15

Family

ID=61151190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680025203.3A Active CN107690774B (zh) 2016-12-28 2016-12-28 告警处理方法和装置

Country Status (2)

Country Link
CN (1) CN107690774B (zh)
WO (1) WO2018119776A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112181787B (zh) * 2020-09-04 2023-12-19 北京达佳互联信息技术有限公司 异常数据的报警处理方法、装置、电子设备及存储介质
CN112988521B (zh) * 2021-02-09 2023-09-05 北京奇艺世纪科技有限公司 一种告警方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101009586A (zh) * 2006-01-27 2007-08-01 华为技术有限公司 告警系统中对告警过滤条件的处理方法
CN101047535A (zh) * 2006-03-27 2007-10-03 中兴通讯股份有限公司 一种网络管理系统和网元管理系统之间过滤告警的方法
WO2010060451A1 (de) * 2008-11-28 2010-06-03 Siemens Aktiengesellschaft Verfahren und anordnung zum erzeugen eines störungskategorisierungssignals in einem energieversorgungsnetz
CN102487334A (zh) * 2010-12-06 2012-06-06 中国移动通信集团上海有限公司 关联告警信息的确定方法及装置
CN103545922A (zh) * 2013-09-24 2014-01-29 许继集团有限公司 基于多场景分析的智能告警推理方法
CN104518905A (zh) * 2013-10-08 2015-04-15 华为技术有限公司 一种故障定位方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2878637A1 (fr) * 2004-11-26 2006-06-02 France Telecom Suppression de fausses alertes parmi les alertes produites dans un systeme d'informations surveille
CN100433647C (zh) * 2005-10-20 2008-11-12 华为技术有限公司 一种告警管理方法和系统
CN100550769C (zh) * 2006-04-30 2009-10-14 中兴通讯股份有限公司 网络管理系统和网元管理系统之间过滤告警的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101009586A (zh) * 2006-01-27 2007-08-01 华为技术有限公司 告警系统中对告警过滤条件的处理方法
CN101047535A (zh) * 2006-03-27 2007-10-03 中兴通讯股份有限公司 一种网络管理系统和网元管理系统之间过滤告警的方法
WO2010060451A1 (de) * 2008-11-28 2010-06-03 Siemens Aktiengesellschaft Verfahren und anordnung zum erzeugen eines störungskategorisierungssignals in einem energieversorgungsnetz
CN102487334A (zh) * 2010-12-06 2012-06-06 中国移动通信集团上海有限公司 关联告警信息的确定方法及装置
CN103545922A (zh) * 2013-09-24 2014-01-29 许继集团有限公司 基于多场景分析的智能告警推理方法
CN104518905A (zh) * 2013-10-08 2015-04-15 华为技术有限公司 一种故障定位方法及装置

Also Published As

Publication number Publication date
CN107690774A (zh) 2018-02-13
WO2018119776A1 (zh) 2018-07-05

Similar Documents

Publication Publication Date Title
US20180231969A1 (en) Abnormality predictor diagnosis system and abnormality predictor diagnosis method
Yoo et al. NP-completeness of sensor selection problems arising in partially observed discrete-event systems
JP5278310B2 (ja) 診断システム
Pavlovski et al. Hierarchical convolutional neural networks for event classification on PMU measurements
US9396438B2 (en) System and method for remote activity detection
CN112650660B (zh) 一种数据中心动力系统预警方法及装置
CN107690774B (zh) 告警处理方法和装置
CN109739904A (zh) 一种时间序列的标记方法、装置、设备和存储介质
EP3870475A1 (en) Detection of electric vehicle charging at premise
CN111291096A (zh) 数据集构建方法、装置和存储介质及异常指标检测方法
CN110222765A (zh) 一种永磁同步电机健康状态监测方法及系统
WO2019068759A1 (en) SYSTEMS AND METHODS FOR ASSESSING CONFIGURATION PROFILES FOR A USER CONFIGURABLE DEVICE
US8710976B2 (en) Automated incorporation of expert feedback into a monitoring system
CN108415810A (zh) 一种硬盘状态监控方法和装置
Whitehead et al. Method selection in short-term eruption forecasting
CN115373879A (zh) 一种面向大规模云数据中心智能运维的磁盘故障预测方法
Crnovrsanin et al. Staged animation strategies for online dynamic networks
Park et al. An active learning method for data streams with concept drift
WO2023155967A1 (en) Thermal anomaly management
CN113537519A (zh) 一种识别异常设备的方法和装置
CN115600783A (zh) 信号系统的健康度评估方法及装置
JP2022181620A (ja) 電力供給監視システム、および電力供給監視方法
US20240143425A1 (en) Anomaly diagnosis for time series data
Shao et al. Fault Tracing Method for Relay Protection System–Circuit Breaker Based on Improved Random Forest
CN116502156B (zh) 一种换流站光ct异常状态智能辨识方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 518000 the six level of energy storage building 3099, Keyuan South Road, Nanshan District, Shenzhen, Guangdong.

Applicant after: Shenzhen ZTE NetView Technology Co., Ltd.

Address before: 518000 w1A 4, Guangdong high tech Industrial Village, 034 New South Road, Shenzhen, Nanshan District, Nanshan District.

Applicant before: Shenzhen ZTE NetView Technology Co., Ltd.

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 518000 the six level of energy storage building 3099, Keyuan South Road, Nanshan District, Shenzhen, Guangdong.

Applicant after: Shenzhen Liwei Zhilian Technology Co., Ltd.

Address before: 518000 the six level of energy storage building 3099, Keyuan South Road, Nanshan District, Shenzhen, Guangdong.

Applicant before: Shenzhen ZTE NetView Technology Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant