CN101385002B - 报警管理系统 - Google Patents

报警管理系统 Download PDF

Info

Publication number
CN101385002B
CN101385002B CN200780005465.4A CN200780005465A CN101385002B CN 101385002 B CN101385002 B CN 101385002B CN 200780005465 A CN200780005465 A CN 200780005465A CN 101385002 B CN101385002 B CN 101385002B
Authority
CN
China
Prior art keywords
event
database
mighty torrent
report
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200780005465.4A
Other languages
English (en)
Other versions
CN101385002A (zh
Inventor
布兰登·肖恩·麦肯罗
奈杰尔·巴克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of CN101385002A publication Critical patent/CN101385002A/zh
Application granted granted Critical
Publication of CN101385002B publication Critical patent/CN101385002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0259Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterized by the response to fault detection
    • G05B23/0264Control of logging system, e.g. decision on which data to store; time-stamping measurements
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0224Process history based detection method, e.g. whereby history implies the availability of large amounts of data
    • G05B23/0227Qualitative history assessment, whereby the type of data acted upon, e.g. waveforms, images or patterns, is not relevant, e.g. rule based assessment; if-then decisions
    • G05B23/0235Qualitative history assessment, whereby the type of data acted upon, e.g. waveforms, images or patterns, is not relevant, e.g. rule based assessment; if-then decisions based on a comparison with predetermined threshold or range, e.g. "classical methods", carried out during normal operation; threshold adaptation or choice; when or how to compare with the threshold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0613Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time based on the type or category of the network elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Alarm Systems (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

针对事件报告对系统进行监控,传送所述事件报告并将其存储在第一数据库(12)中。通过监控所述第一数据库(12)以识别具有其出现超出了预定洪流阈值的特征的事件报告,来识别数据洪流状况,所述特征被存储在第二数据库(13)中。通过从所述第二数据库(13)获取所存储的特征并从所述第一数据库(12)中清除具有这些特征的事件报告,来抑制所述数据洪流状况。

Description

报警管理系统
技术领域
本发明涉及对监控系统中的报警(alarm)信号的管理。这种系统被构造为在出现超出预定值的情况、或指示故障的某些其它情况或需要关注或记录的其它情况时,从正被监控的设备接收信号。
背景技术
在该报警管理环境中,出现故障的设备或服务通常会向该监控系统发出大量报警。为了以便于用户理解的方式来记录这些报警,通常将重复报警记录为单个事件,并采用递增计数器(tally)来记录事件出现的次数。这使得用户可以容易地识别生成大量报警的系统单元。这也使得从大量报警中识别出来自仅作出一个或几个报警的其它单元的报警更加容易。
然而,过大数量的报警事件可能使系统负担过重,并且可能无法合理地处理(rationalise)这些事件洪流(event flood),从而导致生成大量的事件报告。如果不在源头尽快地停止这些事件洪流,则它们将对该报警管理系统产生破坏性的影响。
已知其中应用过滤标准(filter criteria)来防止由具有预定特征的重复报警而导致的过载的系统。然而,这需要对所要识别的过载状况进行预特征化。
发明内容
本发明通过识别和限制事件洪流来避免上述情况的发生。根据本发明,提供了一种针对事件报告对系统进行监控的方法,其中,传送事件报告并将其存储在第一数据库中,并且其中,通过监控该第一数据库以识别具有其在所述第一数据库中的出现超出了预定洪流阈值的特征的事件报告,来识别数据洪流状况,所述特征被存储在第二数据库中,并且其中,通过从所述第二数据库获取所存储的特征以识别具有所获取的特征的后续事件报告,来抑制(contain)所述数据洪流状况。
根据另一方面,提供了一种事件监控系统,该事件监控系统包括:第一数据库,其用于接收和存储来自一个或更多个外部系统的事件报告;洪流识别装置,其用于监控所述第一数据库以识别具有其在所述第一数据库中的出现超出预定洪流阈值的特征的事件报告;第二数据库,其用于存储所述特征;以及洪流抑制装置,其包括用于从所述第二数据库获取所存储的特征的装置,以及对具有所获取的特征的后续事件报告进行识别的装置。
因此,该系统的操作基于两个并行线程,即,洪流识别(floodidentification)和洪流抑制(flood containment)。一旦已经检测到事件洪流,则可以通过从该第一数据库中清除具有所述特征的事件报告,来从该监控系统中去除来自特定组件和设备的任意报警。
可以周期性进行该识别处理和抑制处理。优选的是,该抑制处理比识别处理更频繁。
可以针对向该系统报告的不同设备来设定不同的洪流阈级,此外(以较低的级别来)针对这些设备的单个单元设定不同的洪流阈级。根据所报告事件的性质,可以采用向人工操作员报警的形式或采用仅对事件洪流进行记录的形式来进行对该事件洪流的报告。
在优选设置中,通过具有预定特征的事件报告来生成发生了超出预定洪流阈值的报告,使得不是生成大量的单个报警,而是生成或递增通知该事件洪流本身的单个报警。
附图说明
参照附图,将通过示例的方式来对本发明的实施方式进行描述,在附图中:
图1例示了彼此协作以形成本发明的各种单元以及在各个单元之间的消息流。
图2是例示了洪流识别处理的流程图。
图3是例示了洪流抑制处理的流程图。
具体实施方式
首先,参照图1,图中示出了监控数据库12和抑制数据库13。根据相应的控制处理器11和15,在相应的时钟10和14的控制下以循环方式对数据库12和13中的每一个进行监控。各个控制处理器11和15使用从这些数据库中的一个数据库(分别是12和13)获得的数据,来修改另一数据库(分别是13和12)中的数据,如下所述。
当故障报警20发生时,被监控的系统16向监控数据库12传送故障报警20。发生故障的单元或其它问题可能导致传送大量的这种报警。这可能使数据库12过载,从而导致数据丢失。此外,即使该数据库没有过载,用户也很难从来自发生故障的单元的大量报警报告中识别出来自其它单元的任意单个报警。
根据本发明的系统以在图2和图3中详细示出的两个分离但相关的处理(即,洪流识别(步骤20-29)和洪流抑制(步骤31-39))进行操作。(图1中的对角点划线将这些处理彼此分隔开)。这些处理在相应的时钟10和14的控制下以不同的周期独立地进行操作。通常,该抑制处理的时钟周期(clock cycle)21每15秒进行操作,而该识别处理的时钟周期31以较低的频度(例如,1分钟)进行操作。
图2更详细地示出了洪流识别处理。最初,设置阈值(步骤20)。根据报警的源、报警的严重性和其它标准来将阈值设置为不同的值。通过来自时钟10的信号21来启动该洪流识别处理本身,响应于该操作,获得监控数据库12的当前状态的快照(snapshot)22。然后,通过根据事件的特征签名对事件进行分组并对事件进行计数,来针对可能的事件洪流对快照进行分析23。这种签名通常包括与事件的源、事件的严重性以及从该事件的前一次发生开始所经过的时间有关的信息。
然后,更新抑制数据库13。首先,清除在前一周期中生成的数据(步骤24)。然后,依次获取具有公共签名的各个事件组(步骤25、28),并对这些事件组进行分析(步骤26)。然后,将满足在初始化处理20中设定的洪流阈值标准的任意组记录在抑制数据库13中(步骤27)。
图3更详细地示出了洪流抑制处理。通过来自时钟14的信号31启动该洪流抑制处理。通常,该时钟信号比识别处理的时钟信号的频度高。该处理响应于该时钟,获得存储在抑制数据库13中的任意事件洪流的签名(步骤32)。然后,该处理依次对由它们的签名所识别的事件洪流中的每一个进行处理(步骤33、39)。针对各个签名,处理器15通过获得与当前考虑的事件洪流的签名匹配的新的任意事件,来修改监控数据库12中的数据(步骤34)。依次对该洪流中的各个这种事件进行处理(步骤35、38)。对于各个这种事件,抑制处理器15都会生成计数器或对计数器进行递增(步骤36),并且可以在从监控数据库12中删除该事件(步骤37)以前,发送信号以将该问题通知给相关保障人员。
通过这种方式,可以通过将分离系统36专门构造为对与事件洪流相关的大量数据进行处理,来清除监控数据库12中的与事件洪流相关的大量数据。这使得监控数据库12可以更有效地处理其余数据。

Claims (13)

1.一种针对事件报告对系统进行监控的方法,其中,传送事件报告并将其存储在第一数据库中,并且其中,通过监控所述第一数据库以识别具有其在所述第一数据库中的出现超出了预定洪流阈值的特征的事件报告,来识别数据洪流状况,将所述特征存储在第二数据库中,并且其中,通过从所述第二数据库获取所存储的特征以识别并删除所述第一数据库中的具有所获取的特征的后续事件报告,来抑制所述数据洪流状况。
2.根据权利要求1所述的方法,其中,生成各个被抑制事件洪流的报告。
3.根据权利要求1或2所述的方法,其中,周期性地进行所述识别数据洪流状况的处理。
4.根据权利要求1或2所述的方法,其中,周期性地进行所述抑制处理。
5.根据权利要求1或2所述的方法,其中,所述抑制处理比所述识别数据洪流状况的处理更频繁。
6.根据权利要求1或2所述的方法,其中,针对向所述系统进行报告的不同设备来设定不同的洪流阈值。
7.根据权利要求1或2所述的方法,其中,针对向所述系统进行报告的多个完整设备并针对这些设备的单个组件来设定不同的洪流阈值。
8.一种事件监控系统,该事件监控系统包括:
第一数据库,其用于接收和存储来自一个或更多个外部系统的事件报告;
洪流识别装置,其用于监控所述第一数据库以识别具有其在所述第一数据库中的出现超出预定洪流阈值的特征的事件报告;
第二数据库,其用于存储所述特征;以及
洪流抑制装置,其包括用于从所述第二数据库获取所存储的特征的装置,以及识别并删除所述第一数据库中的具有所获取的特征的后续事件报告的装置。
9.根据权利要求8所述的事件监控系统,该事件监控系统还包括用于生成各个被抑制事件洪流的报告的装置。
10.根据权利要求8或9所述的事件监控系统,该事件监控系统包括用于对所述洪流识别装置的周期性操作进行控制的时钟装置。
11.根据权利要求8或9所述的事件监控系统,该事件监控系统包括用于对所述洪流抑制装置的周期性操作进行控制的时钟装置。
12.根据权利要求8或9所述的事件监控系统,其中,所述洪流识别装置被设置为针对向所述事件监控系统进行报告的不同设备来设定不同的洪流阈值。
13.根据权利要求8或9所述的事件监控系统,其中,所述洪流识别装置被设置为针对向所述事件监控系统进行报告的多个完整设备并针对这些设备的单个组件来设定不同的洪流阈值。
CN200780005465.4A 2006-02-16 2007-01-16 报警管理系统 Active CN101385002B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP06250843.7 2006-02-16
EP06250843 2006-02-16
PCT/GB2007/000113 WO2007093756A1 (en) 2006-02-16 2007-01-16 Alarm management system

Publications (2)

Publication Number Publication Date
CN101385002A CN101385002A (zh) 2009-03-11
CN101385002B true CN101385002B (zh) 2011-05-04

Family

ID=36680338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200780005465.4A Active CN101385002B (zh) 2006-02-16 2007-01-16 报警管理系统

Country Status (6)

Country Link
US (1) US8943102B2 (zh)
EP (1) EP1984820B1 (zh)
CN (1) CN101385002B (zh)
AT (1) ATE475138T1 (zh)
DE (1) DE602007007893D1 (zh)
WO (1) WO2007093756A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2452025B (en) * 2007-07-26 2012-01-04 Motorola Solutions Inc An alarm event management apparatus and method of operation therefor
JP5024083B2 (ja) * 2008-01-31 2012-09-12 横河電機株式会社 アラーム管理装置
FR2965372B1 (fr) 2010-09-24 2014-07-04 Dassault Aviat Procede et systeme d'analyse automatique de messages de panne ou d'etat.
CN102360437B (zh) * 2011-08-12 2014-01-15 山东中创软件工程股份有限公司 一种区域位置判断方法及系统
CN102436720B (zh) * 2011-09-28 2013-07-03 清华大学 一种基于数据过滤的重复报警处理方法
US10103964B2 (en) 2016-06-17 2018-10-16 At&T Intellectual Property I, L.P. Managing large volumes of event data records
CN109901889A (zh) * 2019-02-25 2019-06-18 快乐购有限责任公司 基于j2ee平台的支撑业务系统运维的全链路监控方法
TWI709039B (zh) * 2019-04-25 2020-11-01 神雲科技股份有限公司 伺服器及錯誤事件紀錄登載功能的控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5923247A (en) * 1994-12-23 1999-07-13 British Telecommunications Public Limited Company Fault monitoring
US6766368B1 (en) * 2000-05-23 2004-07-20 Verizon Laboratories Inc. System and method for providing an internet-based correlation service
CN1174580C (zh) * 2000-12-01 2004-11-03 三星电子株式会社 网络管理系统中管理警报信息的方法
CN1655517A (zh) * 2004-02-11 2005-08-17 三星电子株式会社 用于处理网络管理系统中的故障信息的方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6255943B1 (en) * 1995-03-29 2001-07-03 Cabletron Systems, Inc. Method and apparatus for distributed object filtering
US20020029266A1 (en) 2000-09-07 2002-03-07 Edwin Tse Parallel processing architecture for alarm management network entities
EP1386245B1 (en) 2001-03-02 2012-10-03 CA, Inc. System and method for filtering messages based on context

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5923247A (en) * 1994-12-23 1999-07-13 British Telecommunications Public Limited Company Fault monitoring
US6766368B1 (en) * 2000-05-23 2004-07-20 Verizon Laboratories Inc. System and method for providing an internet-based correlation service
CN1174580C (zh) * 2000-12-01 2004-11-03 三星电子株式会社 网络管理系统中管理警报信息的方法
CN1655517A (zh) * 2004-02-11 2005-08-17 三星电子株式会社 用于处理网络管理系统中的故障信息的方法和系统

Also Published As

Publication number Publication date
WO2007093756A1 (en) 2007-08-23
EP1984820B1 (en) 2010-07-21
US8943102B2 (en) 2015-01-27
CN101385002A (zh) 2009-03-11
ATE475138T1 (de) 2010-08-15
DE602007007893D1 (de) 2010-09-02
US20080320045A1 (en) 2008-12-25
EP1984820A1 (en) 2008-10-29

Similar Documents

Publication Publication Date Title
CN101385002B (zh) 报警管理系统
CN110661659B (zh) 一种告警方法、装置、系统及电子设备
US20180157525A1 (en) Troubleshooting method, computer system, baseboard management controller, and system
US10354197B2 (en) Pattern analytics for real-time detection of known significant pattern signatures
US20170139759A1 (en) Pattern analytics for real-time detection of known significant pattern signatures
CN110475124B (zh) 视频卡顿检测方法及装置
EP2085850B1 (en) Alarm management apparatus
CN105117301A (zh) 一种内存预警的方法及装置
CN104156297A (zh) 告警方法和装置
CN110727533A (zh) 一种告警的方法、装置、设备和介质
CN103856344B (zh) 一种告警事件信息处理方法及装置
EP3358467A1 (en) Fault processing method, computer system, baseboard management controller and system
JP6223594B2 (ja) 遠隔統合監視操作システム
CN111586129A (zh) 针对数据同步的报警方法、装置、电子设备及存储介质
US20170063655A1 (en) Data processing apparatus
JP2011003007A (ja) 施設管理装置及び施設管理方法
JP2014153736A (ja) 障害予兆検出方法、プログラムおよび装置
CN110633161A (zh) 一种广播的处理方法及装置
JP2007096610A (ja) 監視情報取得装置
CN111475223B (zh) 一种信息提醒的管理方法、装置
CN114281250A (zh) 存储文件的清理方法及装置、存储介质、电子装置
CN106713066B (zh) 一种对流处理系统进行监控的方法和装置
KR101442968B1 (ko) 이력 데이터의 저장 및 처리를 위한 방법 및 장치
JP2915061B2 (ja) 計算機システムの負荷制御方法
CN114118705A (zh) 一种设备告警的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant