CN103392176B - 用于预测网络事件泛滥的装置和方法 - Google Patents

用于预测网络事件泛滥的装置和方法 Download PDF

Info

Publication number
CN103392176B
CN103392176B CN201280010576.5A CN201280010576A CN103392176B CN 103392176 B CN103392176 B CN 103392176B CN 201280010576 A CN201280010576 A CN 201280010576A CN 103392176 B CN103392176 B CN 103392176B
Authority
CN
China
Prior art keywords
equipment
event
rate
unchecked
time point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280010576.5A
Other languages
English (en)
Other versions
CN103392176A (zh
Inventor
D.R.富兰克林
K.J.斯图尔特
J.丁格
J.M.莱克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN103392176A publication Critical patent/CN103392176A/zh
Application granted granted Critical
Publication of CN103392176B publication Critical patent/CN103392176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Remote Monitoring And Control Of Power-Distribution Networks (AREA)
  • Telephonic Communication Services (AREA)
  • Supply And Distribution Of Alternating Current (AREA)
  • Computer And Data Communications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种用于预测网络事件泛滥的装置,包括:事件速率检测器,用于检测来自一个或多个设备的事件发出的速率;聚集器,用于产生来自多个所述设备的事件发出的所述速率的聚集速率和聚集速率趋势;级别生成器,用于生成包括在多个时间段上多个所述聚集速率趋势的最大可接受事件速率值的多个级别;存储组件,用于存储所述多个级别;比较器,用于将当前聚集速率趋势与所述级别的至少选择的一个比较;以及告知器,用于响应于所述比较器检测到所述当前聚集速率趋势将在第一时间点超过所述级别的所述至少选择的一个,告知预测的事件泛滥。

Description

用于预测网络事件泛滥的装置和方法
技术领域
本发明涉及网络事件管理的领域。具体地,本发明涉及用于预测网络事件泛滥(flood)并保护网络不受这样的预测泛滥的损害的装置和方法。
背景技术
有许多网络管理系统可用。这些系统跨越网络从异类的设备收集故障信息,然后将该信息相关、分类、确定优先级,并将该信息以允许操作者管理网络和有效地修复它的形式呈现。此外,基本的预测性统计分析技术已经应用于从网络设备收集的操作数据以预测潜在的将来问题。
网络管理涉及从网络中的一定范围内的设备收集数据。已知的实现使用大量的监视设备(如探测器或代理)来执行该任务,这能够提供来自许多类型的网络设备和系统的大量源数据。
管理非常大的网络的一个问题是存在网络故障模式,其可能导致非常大量的故障事件,特别是当网络级联故障发生时。该大量的故障事件可能泛滥网络管理系统,使其不响应和使得操作者难以分离故障的原始原因或者有效地确定修复服务的优先级。在现有的技术方案中,一旦故障事件速率超过给定阈值,监视探测器(可以从多个设备收集数据)能够启动关闭,然后一旦水平下降回到阈值之下,就启动重启。然而,到这点,级联故障通常已经开始发生,并且许多其他设备已经开始泛滥管理系统。在该基本形式的泛滥保护激活之前,典型地将已经存在驻留在系统中的大量故障事件。不利地,该技术方案还导致大量的数据丢失,包括对修复网络可能是关键的信息。此外,如果探测器正在监视多个设备,则来自所有设备的所有数据丢失,即使只有它们中的一个正在产生事件泛滥。最后,探测器如何管理数据泛滥的智能中央管理是不可能的。
例如,美国专利No.7539752公开了检测超过固定阈值的事件数量,并且使得该数量的事件被允许压制。作为进一步的示例,美国专利申请No.20100052924公开了检测超过固定阈值的事件数量,并且使得事件信息被缓存。这意味着在事件泛滥事故期间该信息对管理系统变得无用。
现有的预测性分析系统通常关注设备度量,其显示设备形成故障条件之前的简单进展。例如,将线性趋势拟合到磁盘空间或中央处理单元(CPU)使用以预测将来的问题,或者执行这些度量的历史分析以指示异常使用。再次,在每种情况下,预测性数据依赖于固定阈值来确定异常性,并且这些系统不能对设备特定的故障事件速率采取灵活的方式,因为该度量非常难以收集和分析。
因此,根据现有技术的当前状态存在处理网络系统中的上述问题的需要。
发明内容
在第一方面,本发明相应地提供一种用于预测网络事件泛滥的装置,包括:事件速率检测器,用于检测来自一个或多个设备的事件发出的速率;聚集器,用于产生来自多个所述设备的事件发出的所述速率的聚集速率和聚集速率趋势;级别生成器,用于生成包括在多个时间段上多个所述聚集速率趋势的最大可接受事件速率值的多个级别;存储组件,用于存储所述多个级别;比较器,用于将当前聚集速率趋势与所述级别的至少选择的一个比较;以及告知器,用于响应于所述比较器检测到所述当前聚集速率趋势将在第一时间点超过所述级别的所述至少选择的一个,告知预测的事件泛滥。
优选地,所述聚集器包括用于计算平均事件速率的平均器。优选地,所述聚集器包括用于计算统计标准化的聚集速率或速率趋势的统计计算器。优选地,所述统计标准化的聚集速率或速率趋势限定标准化趋势。优选地,所述标准化趋势通过最小二乘法计算。优选地,所述多个时间段根据以下的一个或多个限定:一天中的时间;一周中的几天;一月中的几天;或一年中的几天。
所述装置还可以包括排序组件,响应于所述告知器,用于从在所述第一时间点具有事件发出的最大速率的设备到在所述第一时间点具有事件发出的最小速率的设备,以降序排序所述设备的标识符的列表。所述装置还可以包括第一选择器,用于从所述列表选择在所述第一时间点具有事件发出的最大速率的所述设备,并且识别所述设备作为用于置于泛滥保护模式的候选设备。优选地,所述泛滥保护模式导致接收者从所述设备接受事件发出的减少速率。优选地,所述接收者包括网络监视器。优选地,所述网络监视器包括探测器。所述装置还包括泛滥保护控制组件,用于将所述候选设备置于所述泛滥保护模式作为泛滥保护设备。所述装置还可以包括第二选择器,用于选择在第二时间点具有事件发出的最小速率的泛滥保护设备,并且识别所述设备作为用于从所述泛滥保护模式移除的候选设备。
在第二方面,提供了一种用于预测网络事件泛滥的方法,包括:通过事件速率检测器,检测来自一个或多个设备的事件发出的速率;通过聚集器,产生来自多个所述设备的事件发出的所述速率的聚集速率和聚集速率趋势;通过级别生成器,生成包括在多个时间段上多个所述聚集速率趋势的最大可接受事件速率值的多个级别;通过存储组件,存储所述多个级别;通过比较器,将当前聚集速率趋势与所述级别的至少选择的一个比较;以及通过告知器,响应于所述比较器检测到所述当前聚集速率趋势将在第一时间点超过所述级别的所述至少选择的一个,告知预测的事件泛滥。
优选地,所述聚集的步骤包括使用用于计算平均事件速率的平均器。优选地,所述聚集的步骤包括使用用于计算统计标准化的聚集速率或速率趋势的统计计算器。优选地,所述统计标准化的聚集速率或速率趋势限定标准化趋势。优选地,所述标准化趋势通过最小二乘法计算。优选地,所述多个时间段根据以下的一个或多个限定:一天中的时间;一周中的几天;一月中的几天;或一年中的几天。所述方法还可以包括以下步骤:响应于所述告知器,通过排序组件,从在所述第一时间点具有事件发出的最大速率的设备到在所述第一时间点具有事件发出的最小速率的设备,以降序排序所述设备的标识符的列表。所述方法还可以包括从所述列表选择在所述第一时间点具有事件发出的最大速率的所述设备,并且识别所述设备作为用于置于泛滥保护模式的候选设备的步骤。优选地,所述泛滥保护模式导致接收者从所述设备接受事件发出的减少速率。优选地,所述接收者包括网络监视器。优选地,所述网络监视器包括探测器。
所述方法还可以包括通过泛滥保护控制组件,将所述候选设备置于所述泛滥保护模式作为泛滥保护设备。所述方法还可以包括以下步骤:选择在第二时间点具有事件发出的最小速率的泛滥保护设备,并且识别所述设备作为用于从所述泛滥保护模式移除的候选设备。
在第三方面,提供了一种计算机程序,包括存储在计算机可读介质上的计算机程序代码,当加载到计算机系统并在其上执行时,使得所述计算机系统执行根据第二方面的方法的所有步骤。
附图说明
现在将参考附图仅通过示例方式描述本发明的优选实施例,附图中:
图1示出适于实现本发明优选实施例的示例性多层网络事件管理系统的图;
图2以简化流程图形式示出根据本发明一个实施例的产生级别的方法;
图3和图4结合地以简化流程图形式示出根据本发明一个实施例的、处理潜在事件泛滥的问题的示例性方法;以及
图5以简化图形式示出根据本发明实施例的装置或逻辑安排,如可以以硬件(例如场可编程门阵列或专用器件)或以安排为控制设备的固件实现。
具体实施方式
图1示出适于实现本发明优选实施例的示例性多层网络事件管理系统100的图。
被监视的设备以102显示;在本实施例中,设备102(设备1、设备2……设备n)由探测器1监视。探测器1是一组探测器104(探测器1、探测器2……探测器m)中的一个,该组探测器监视原始故障数据,将其变为标准化故障事件,并且将其发送到对象服务器106的收集层。
该收集层也是其中可以开通或关闭设备特定泛滥保护的层。层106是收集对象服务器(收集对象服务器1、收集对象服务器2……收集对象服务器k)的层。
聚集对象服务器108是将最不利地受事件泛滥影响的网络管理系统的层,因此这是经由基于端口(socket)的通信系统控制探测器的一个。
对象服务器的显示层没有详细示出,但是到显示层的网关以110呈现。对象服务器的显示层将数据提供给事件列表,该事件列表允许操作者与故障数据交互。
在单个对象服务器系统中,探测器将数据提供给对象服务器,并且受其控制。
在根据本发明的优选实施例中,集中地收集设备特定故障事件速率数据。该数据被汇总并存储,以便建立设备事件速率的历史数据库。该历史数据使用线性区域算法和产生之前使用的基线的算法两者分析。通过汇总所有单独设备事件速率,相同分析还对整个网络事件速率执行。该处理允许一个或多个级别的建立,其可以考虑根据例如一天中的时间、一周中的几天、一月中的几天或甚至更大的时间段变化性的变化,如事件业务量的季节变化。
转到图2,以简化流程图形式示出了根据本发明一个实施例的产生这样的级别的方法。
在步骤200开始之后,在202,收集设备事件速率数据。该活动可以在长时段上执行,以提取代表事件速率的适当大量的事件速率数据,因为它们以上述方式随事件改变。在204,设备事件速率数据例如存储在数据存储(如数据库)中,数据的每个样本与时间参照相关联。在206选择用于设备事件速率数据的聚集的一个或多个时间参照。作为具体示例,为设备事件速率聚集选择的时间参照可能是一天中的时间参照或一周中的一天参照等,如上所述。在208,对于选择的一个或多个时间参照的设备事件速率数据被聚集以给出系统宽度的事件速率,在210,从该系统宽度的事件速率导出事件速率数据的级别(如极限、阈值或历史最大可接受级别),并且将其与一个或多个时间参照相关联。在212,存储与一个或多个时间参照相关联的级别事件速率数据,并且在继续步骤214,系统继续其他处理。
该事件速率数据用于确定事件速率数据的趋势,并且产生预测特定设备的潜在将来问题的事件信息。它还用于获得之前活动的历史基线,并且如果活动显著改变则显示故障事件。最后,确定整体事件速率的趋势,以在它压倒故障事件管理系统之前确定是否可能存在事件风暴建造物。特定设备事件速率趋势然后用于自动地将事件种子从这些设备置于减少事件速率泛滥保护模式。一旦已经避免预测的事件泛滥,那么相同的反向技术可以用于将设备事件种子恢复到正常操作。
控制对象服务器运行自动处理,其将来自驻留在对象服务器中的特定设备的所有故障事件计数的变化相加。通过节点(即,网络上的主机名)识别各设备。这给出样本时段(这可以是例如每5分钟)上的每个设备的事件速率。即使在设备置于泛滥保护模式时,减少数量的事件已经增加了计数值,其反映了在探测器处进入事件的数量。这意味着事件速率计算对于设备产生的故障事件的数量保持精确,而不管探测器处的泛滥保护状态。
每个设备的事件状态与时间戳一起存储。该历史记录然后以以下方式分析。
首先,最小二乘线性拟合或另一统计拟合方法用于模拟设备事件速率趋势。如果线性趋势指示它将在将来的给定时间内(例如1周)超过可接受(可配置)阈值,则预测性故障事件将显示在网络管理系统中,使得操作者能够对该设备确定校正动作的优先级。这识别有不断增加数量的故障事件来自特定设备,并且将其警告给操作者。
其次,设备的来自一周的同一天的相同时间的事件速率被平均以产生历史级别。需要最小两个延长时段(如几周)的数据来初始建立该级别。如本领域普通技术人员清楚的,被平均的几周的数据的数量是可配置的。如果设备故障事件速率与该设备的历史级别相差可配置的量,则故障事件将显示在网络管理系统中,使得操作者能够对该设备确定校正动作的优先级。该测试也称为“标准化走廊”,并且基于在一周、一月等的相同一天和时间在系统中能够预期相似行为的原理。在本申请中,级别自身也可以用作用于改进网络的工具,因为它将示出在每个时段期间相同设备是否在相同时间出现故障。这可以帮助操作者查明问题的原因。这可能有用的典型示例是其中设备在周期关闭并且在星期一早上相同时间启动,这又导致启动可以被安全地忽略的网络故障事件。如果未能启动,则可能具有严重后果,并且级别变化将快速识别这点。
如本领域普通技术人员将清楚的,当前趋势与基线或历史最大值的比较可以是迭代的,因为与特定时间情况相关的若干基线或历史最大值测量可以建立,或者可能必须应用一些额外的启发到任何特定情况下的适当级别的选择。以在覆盖假期时段的网络关闭之后在星期一、一月一日开始的工作周为例。在根据优选实施例的系统中,可能存在星期一为第一级别、工作周的第一天为第二级别以及一个月的第一天为第三级别。在该情况下,本发明优选实施例的改进应用规则以选择适当的级别或历史最大值用于使用。该规则例如可以是选择最低级别以确定阈值。许多可替代安排对于本领域普通技术人员将是清楚的。
结合地参考图3和4,以简化流程图形式示出了根据本发明一个实施例的处理潜在事件泛滥的问题的示例性方法。
该方法在开始步骤300开始,并且在步骤302,收集设备事件速率数据。在304,计算系统宽度线性拟合,优选地,例如使用最小二乘法拟合。在测试步骤306,总趋势速率与第一将来系统最大值比较。如本领域普通技术人员将清楚的,与第一将来系统最大值有关的时段可以根据特定网络系统的需要配置。如从优选实施例的级别元素的前述描述进一步清楚,最大值这里将已经根据用于选择的可应用规则从一个或多个级别值选择。如果比较的结果是否定的,则处理在步骤S411继续。如果响应是肯定的,则在步骤310,对于每个设备产生线性拟合,并且在步骤312,该值用于预测全部事件速率的在第一将来系统最大值速率的预期时间时的每个设备事件速率。在步骤314,在步骤312对每个设备导出的值用于以降序产生设备的列表,从具有整体事件速率中在第一将来系统最大值的预期时间的最大每设备事件速率的设备到具有整体事件速率中在第一将来系统最大值的预期时间的最小每设备事件速率的设备。在步骤316,从列表中识别没有处于泛滥保护模式的最高设备(“目标设备”)。在步骤318,定位对于目标设备具有剩余故障事件的所有探测器,并且在步骤320,对于监视目标设备的每个这样的探测器将目标设备增加到泛滥保护列表。在步骤322,将保护列表发送到所有探测器,并且在步骤324,触发用户事件以警告系统用户:对于该设备已经激活泛滥保护。
在图4中在步骤400处理继续。在步骤402,目标设备事件数据从系统宽度趋势计算中移除,以提供新的计算,并且在测试步骤404,系统的结果趋势速率与第一将来系统最大值比较。如果在测试步骤404确定是否定的,则处理返回开始步骤300。如果测试步骤404的输出是肯定的,则在测试步骤408,进行确定是否所有设备已经处于泛滥保护模式。如果确定是否定的,则处理返回步骤315。如果确定是肯定的,则在测试步骤412,执行进一步测试以确定在步骤402导出的结果趋势速率是否大于下一将来系统最大值。如果确定是肯定的,则处理返回开始步骤300。如果确定是否定的,则在步骤416,计算每设备线性拟合,并且在步骤418,在短的期间上预测每设备事件速率。对每个设备导出的值用于以降序产生设备的列表,从具有最大每设备事件速率的设备到具有最小每设备事件速率的设备,并且在步骤422,处于泛滥保护模式的列表中的最低设备被定位,并且变为目标设备。在步骤424,对于正在监视它的所有探测器,从保护列表移除目标设备,并且在步骤426,将保护列表发送给所有探测器。在步骤428,触发用户事件以通知系统用户:泛滥保护现在已经对该设备不可用,并且在步骤430,处理返回开始步骤300。
以下伪代码说明更详细地并且以对于本领域普通技术人员熟悉的术语和结构描述了智能泛滥控制算法如何在示例性系统中工作,该系统使其短期时段设为24小时,并且其长期时段设为48小时。
1.等待事件速率样本时段的可配置数量。
2.产生在最后24小时*内的整个事件速率数据的和的最小二乘线性拟合。
3.趋势预测总事件速率将超过对象服务器能够在下一24小时*内处理的(根据选择的基线调整的)最大值?
4.如果不是,前进到17。
5.对于每个设备产生事件速率数据的最小二乘拟合。
6.在整体事件速率将超过对象服务器能够处理的根据选择的基线调整的)最大值时,对于每个设备计算预测的事件速率。
7.产生根据预测的事件速率分类的设备的列表。第一为最高。
8.找到没有处于泛滥保护模式的第一设备。
9.找到已经使用剩余事件对该设备产生剩余故障事件的所有探测器。
10.对于监视该设备的所有探测器将设备名称增加到泛滥保护列表。
11.发送(各)泛滥保护列表给(各)探测器。
12.产生事件来指示该设备已经处于泛滥保护模式,因此用户知道系统已经自动地做了什么。
13.从总事件速率最小二乘趋势减去设备事件速率。
14.新的趋势预测总事件速率将超过对象服务器能够在下一24小时*内处理的(根据选择的基线调整的)最大值?
15.如果是,并且所有设备没有处于保护模式,则前进到8。
16.前进到1。
17.趋势预测总事件速率将超过对象服务器能够在下一48小时*内处理的(根据选择的基线调整的)最大值?
18.如果是,则前进到1。
19.对于每个设备产生事件速率数据的最小二乘拟合。
20.在24小时时间*内计算每个设备的预测的事件速率。
21.产生根据预测的事件速率分类的设备的列表。第一为最高。
22.找到处于泛滥保护模式的列表中的最后设备。
23.对于监视该设备的所有探测器从泛滥保护列表移除设备名称。在步骤9期间使用对该设备发现的探测器。
24.发送(各)泛滥保护列表给(各)探测器。
25.产生解决事件以指示该设备已经不处于泛滥保护模式,因此用户知道系统已经自动地做了什么。
26.前进到1。
*可以配置的小时数。
转到图5,示出了根据本发明实施例的装置或逻辑安排,如可以以硬件(例如场可编程门阵列或专用设备)或以安排为控制设备的固件实现。
图5的装置包括网络泛滥预测器和保护器机构500,其具有事件速率检测器502,其提供事件速率数据给聚集器504。聚集器504聚集数据,优选地通过平均器514和统计计算器516,并且提供聚集的数据给级别生成器506。级别生成器506将它生成的级别存储在存储508中。比较器510适配为从事件速率检测器502接收当前事件速率数据,并且将其与来自存储408的一个或多个级别比较。当比较器510产生的比较结果指示预测的事件泛滥时,告知器512通过在列表排序组件518启动动作,以便根据指示它们对预测的事件泛滥的相对预期贡献产生各设备的排序列表,从而告知包括机构500的泛滥保护部分的各组件。列表排序组件518将它的排序列表提供给选择器520,其选择要置于泛滥保护模式的设备或多个设备,并且使得泛滥保护控制组件522发出适当的命令给网络监视器524。网络监视器524又控制在探测器526、528等的事件的接受。
因此,如果整体系统的线性趋势指示网络管理系统将被下一24小时(这可以配置为不同时间段)内的数据的泛滥压倒,则分析每个设备的趋势以找出正对该将来泛滥提供最大贡献的设备。监视该设备的探测器然后发出指令以减少来自该设备的数据的速率,并且在网络管理系统中显示故障事件以指示改变。
然后,重复整体系统趋势分析,而不包括计算中的设备。如果从整体系统移除该设备仍然导致在给定时间段内将压倒系统的将来趋势,则被预测对泛滥产生下一最高贡献的设备将置于事件减少模式。重复该处理,直到整体网络管理系统处于这样的状态,其中它将不再被预测的级联故障泛滥。
从所有网络设备收集事件速率数据,无论它们是否已经置于泛滥保护模式。如果整体趋势指示整体系统在较长时间段(如48小时)内将不会泛滥,则来自处于泛滥保护模式的设备的故障事件数据恢复为正常操作。设备故障事件被恢复,使得具有最低速率趋势的那些首先返回正常操作。指示改变的解决事件添加到管理系统。使用较长预测时段而不是当添加设备到泛滥保护模式时的原因是确保当在整体趋势中存在轻微波动时,设备不频繁地切换到保护模式和切换出保护模式。
本发明的优选实施例确保网络管理系统自动地和智能地管理它能够处理多少数据。这确保网络管理系统即使在极端事件泛滥条件下也保持响应、提供信息和有用。
本领域普通技术人员将清楚的是,本发明优选实施例的方法的全部或部分可以适当地和有用地以逻辑装置或多个逻辑装置实现,包括安排为执行该方法的各步骤的逻辑元件,并且这样的逻辑元件可以包括硬件组件、固件组件或其组合。
本领域普通技术人员同样清楚的是,根据本发明优选实施例的逻辑安排的全部或部分可以适当地以逻辑装置实现,包括安排为执行该方法的各步骤的逻辑元件,并且这样的逻辑元件可以包括注入逻辑门的组件,例如可编程逻辑阵列或专用集成电路。这样的逻辑安排还可以以使能元件实现,用于使用例如虚拟硬件描述语言暂时地或永久地在这样的阵列或电路中建立逻辑结构,其可以使用固定或可传输载体介质存储和传输。
将意识到,上述方法和安排还可以全部或部分地由在一个或多个处理器(图中未示出)上运行的软件执行,并且软件可以以在任何适当的数据载体(图中也未示出)(如磁盘或光盘等)上执行的一个或多个计算机程序元件的形式提供。用于数据传输的通道例如可以包括所有描述的存储介质以及信号承载介质,如有线或无线信号承载介质。
本发明还可以适当地实现为用于计算机系统的计算机程序产品。这样的实现可以包括一系列计算机可读指令,其固定在有形介质(如计算机可读介质,例如盘、CD-ROM、ROM或硬盘)上,或者可经由调制解调器或其它接口设备,通过刚性介质(包括但不限于光或模拟通信线)或使用无线技术(包括但不限于微波、红外或其它传输技术)无形地传输到计算机系统。该一系列计算机可读指令实现这里之前描述的功能的全部或部分。
本领域技术人员将意识到,这样的计算机可读指令可以以多种编程语言编写,用于许多计算机架构或操作系统。此外,这样的指令可以使用当前或将来的任何存储器技术存储,包括但不限于半导体存储器、磁或光,或者使用当前或将来的任何通信技术传输,包括但不限于光、红外或微波。预期这样的计算机程序产品可以分发为可移除介质,伴随打印的或电子文档,例如收缩包装的软件、预加载到计算机系统,例如,在系统ROM或硬盘上,或者通过网络(例如,因特网或万维网)从服务器或电子公告板分发。
在一个替代中,本发明的优选实施例可以以计算机实现的部署服务的方法的形式实现,包括部署计算机程序代码的步骤,该计算机程序代码在部署到计算机基础架构中并在其上执行时,可操作为使得所述计算机系统执行该方法的所有步骤。
在另一个替代中,本发明的优选实施例可以以在其上具有功能数据的数据载体的形式实现,所述功能数据包括功能计算机数据结构,当加载到计算机系统中并从而进行操作时,使得所述计算机系统执行该方法的所有步骤。
本领域技术人员将清楚的是,可以对前面的示例性实施例进行许多改进和修改,而不偏离本发明的范围。

Claims (46)

1.一种用于预测网络事件泛滥的装置,包括:
事件速率检测器,用于检测来自一个或多个设备的事件发出的速率;
聚集器,用于产生来自多个所述设备的事件发出的所述速率的聚集速率和聚集速率趋势;
级别生成器,用于生成包括在多个时间段上多个所述聚集速率趋势的最大可接受事件速率值的多个级别;
存储组件,用于存储所述多个级别;
比较器,用于将当前聚集速率趋势与所述级别的至少选择的一个比较;以及
告知器,用于响应于所述比较器检测到所述当前聚集速率趋势将在第一时间点超过所述级别的所述至少选择的一个,告知预测的事件泛滥。
2.根据权利要求1所述的装置,其中,所述聚集器包括用于计算平均事件速率的平均器。
3.根据权利要求1或权利要求2所述的装置,其中,所述聚集器包括用于计算统计标准化的聚集速率或速率趋势的统计计算器。
4.根据权利要求3所述的装置,其中,所述统计标准化的聚集速率或速率趋势限定标准化趋势。
5.根据权利要求4所述的装置,其中,所述标准化趋势通过最小二乘法计算。
6.根据权利要求1或权利要求2所述的装置,其中,所述多个时间段根据以下的一个或多个限定:一天中的时间;一周中的几天;一月中的几天;或一年中的几天。
7.根据权利要求3所述的装置,其中,所述多个时间段根据以下的一个或多个限定:一天中的时间;一周中的几天;一月中的几天;或一年中的几天。
8.根据权利要求4所述的装置,其中,所述多个时间段根据以下的一个或多个限定:一天中的时间;一周中的几天;一月中的几天;或一年中的几天。
9.根据权利要求5所述的装置,其中,所述多个时间段根据以下的一个或多个限定:一天中的时间;一周中的几天;一月中的几天;或一年中的几天。
10.根据权利要求1或权利要求2所述的装置,还包括:
排序组件,响应于所述告知器,用于从在所述第一时间点具有事件发出的最大速率的设备到在所述第一时间点具有事件发出的最小速率的设备,以降序排序所述设备的标识符的列表。
11.根据权利要求3所述的装置,还包括:
排序组件,响应于所述告知器,用于从在所述第一时间点具有事件发出的最大速率的设备到在所述第一时间点具有事件发出的最小速率的设备,以降序排序所述设备的标识符的列表。
12.根据权利要求4所述的装置,还包括:
排序组件,响应于所述告知器,用于从在所述第一时间点具有事件发出的最大速率的设备到在所述第一时间点具有事件发出的最小速率的设备,以降序排序所述设备的标识符的列表。
13.根据权利要求5所述的装置,还包括:
排序组件,响应于所述告知器,用于从在所述第一时间点具有事件发出的最大速率的设备到在所述第一时间点具有事件发出的最小速率的设备,以降序排序所述设备的标识符的列表。
14.根据权利要求10所述的装置,还包括第一选择器,用于从所述列表选择在所述第一时间点具有事件发出的最大速率的所述设备,并且识别所述设备作为用于置于泛滥保护模式的候选设备。
15.根据权利要求11所述的装置,还包括第一选择器,用于从所述列表选择在所述第一时间点具有事件发出的最大速率的所述设备,并且识别所述设备作为用于置于泛滥保护模式的候选设备。
16.根据权利要求14所述的装置,其中所述泛滥保护模式导致接收者从所述设备接受事件发出的减少速率。
17.根据权利要求15所述的装置,其中所述泛滥保护模式导致接收者从所述设备接受事件发出的减少速率。
18.根据权利要求16所述的装置,其中,所述接收者包括网络监视器。
19.根据权利要求18所述的装置,其中,所述网络监视器包括探测器。
20.根据权利要求14所述的装置,还包括泛滥保护控制组件,用于将所述候选设备置于所述泛滥保护模式作为泛滥保护设备。
21.根据权利要求15所述的装置,还包括泛滥保护控制组件,用于将所述候选设备置于所述泛滥保护模式作为泛滥保护设备。
22.根据权利要求20所述的装置,还包括:
第二选择器,用于选择在第二时间点具有事件发出的最小速率的泛滥保护设备,并且识别所述设备作为用于从所述泛滥保护模式移除的候选设备。
23.根据权利要求21所述的装置,还包括:
第二选择器,用于选择在第二时间点具有事件发出的最小速率的泛滥保护设备,并且识别所述设备作为用于从所述泛滥保护模式移除的候选设备。
24.一种用于预测网络事件泛滥的方法,包括:
通过事件速率检测器,检测来自一个或多个设备的事件发出的速率;
通过聚集器,产生来自多个所述设备的事件发出的所述速率的聚集速率和聚集速率趋势;
通过级别生成器,生成包括在多个时间段上多个所述聚集速率趋势的最大可接受事件速率值的多个级别;
通过存储组件,存储所述多个级别;
通过比较器,将当前聚集速率趋势与所述级别的至少选择的一个比较;以及
通过告知器,响应于所述比较器检测到所述当前聚集速率趋势将在第一时间点超过所述级别的所述至少选择的一个,告知预测的事件泛滥。
25.根据权利要求24所述的方法,其中,所述聚集的步骤包括使用用于计算平均事件速率的平均器。
26.根据权利要求24或权利要求25所述的方法,其中,所述聚集的步骤包括使用用于计算统计标准化的聚集速率或速率趋势的统计计算器。
27.根据权利要求26所述的方法,其中,所述统计标准化的聚集速率或速率趋势限定标准化趋势。
28.根据权利要求27所述的方法,其中,所述标准化趋势通过最小二乘法计算。
29.根据权利要求24或权利要求25所述的方法,其中,所述多个时间段根据以下的一个或多个限定:一天中的时间;一周中的几天;一月中的几天;或一年中的几天。
30.根据权利要求26所述的方法,其中,所述多个时间段根据以下的一个或多个限定:一天中的时间;一周中的几天;一月中的几天;或一年中的几天。
31.根据权利要求27所述的方法,其中,所述多个时间段根据以下的一个或多个限定:一天中的时间;一周中的几天;一月中的几天;或一年中的几天。
32.根据权利要求28所述的方法,其中,所述多个时间段根据以下的一个或多个限定:一天中的时间;一周中的几天;一月中的几天;或一年中的几天。
33.根据权利要求24或权利要求25所述的方法,还包括以下步骤:
响应于所述告知器,通过排序组件,从在所述第一时间点具有事件发出的最大速率的设备到在所述第一时间点具有事件发出的最小速率的设备,以降序排序所述设备的标识符的列表。
34.根据权利要求26所述的方法,还包括以下步骤:
响应于所述告知器,通过排序组件,从在所述第一时间点具有事件发出的最大速率的设备到在所述第一时间点具有事件发出的最小速率的设备,以降序排序所述设备的标识符的列表。
35.根据权利要求27所述的方法,还包括以下步骤:
响应于所述告知器,通过排序组件,从在所述第一时间点具有事件发出的最大速率的设备到在所述第一时间点具有事件发出的最小速率的设备,以降序排序所述设备的标识符的列表。
36.根据权利要求28所述的方法,还包括以下步骤:
响应于所述告知器,通过排序组件,从在所述第一时间点具有事件发出的最大速率的设备到在所述第一时间点具有事件发出的最小速率的设备,以降序排序所述设备的标识符的列表。
37.根据权利要求33所述的方法,还包括从所述列表选择在所述第一时间点具有事件发出的最大速率的所述设备,并且识别所述设备作为用于置于泛滥保护模式的候选设备的步骤。
38.根据权利要求34所述的方法,还包括从所述列表选择在所述第一时间点具有事件发出的最大速率的所述设备,并且识别所述设备作为用于置于泛滥保护模式的候选设备的步骤。
39.根据权利要求37所述的方法,其中所述泛滥保护模式导致接收者从所述设备接受事件发出的减少速率。
40.根据权利要求38所述的方法,其中所述泛滥保护模式导致接收者从所述设备接受事件发出的减少速率。
41.根据权利要求39所述的方法,其中,所述接收者包括网络监视器。
42.根据权利要求41所述的方法,其中,所述网络监视器包括探测器。
43.根据权利要求37所述的方法,还包括通过泛滥保护控制组件,将所述候选设备置于所述泛滥保护模式作为泛滥保护设备。
44.根据权利要求38所述的方法,还包括通过泛滥保护控制组件,将所述候选设备置于所述泛滥保护模式作为泛滥保护设备。
45.根据权利要求43所述的方法,还包括以下步骤:
选择在第二时间点具有事件发出的最小速率的泛滥保护设备,并且识别所述设备作为用于从所述泛滥保护模式移除的候选设备。
46.根据权利要求44所述的方法,还包括以下步骤:
选择在第二时间点具有事件发出的最小速率的泛滥保护设备,并且识别所述设备作为用于从所述泛滥保护模式移除的候选设备。
CN201280010576.5A 2011-02-24 2012-01-31 用于预测网络事件泛滥的装置和方法 Active CN103392176B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP11155862.3 2011-02-24
EP11155862 2011-02-24
PCT/IB2012/050451 WO2012114215A1 (en) 2011-02-24 2012-01-31 Network event management

Publications (2)

Publication Number Publication Date
CN103392176A CN103392176A (zh) 2013-11-13
CN103392176B true CN103392176B (zh) 2016-01-20

Family

ID=46720167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280010576.5A Active CN103392176B (zh) 2011-02-24 2012-01-31 用于预测网络事件泛滥的装置和方法

Country Status (8)

Country Link
US (2) US9191296B2 (zh)
EP (1) EP2678783B1 (zh)
JP (1) JP6091436B2 (zh)
KR (1) KR101476081B1 (zh)
CN (1) CN103392176B (zh)
AU (1) AU2012221821B2 (zh)
SG (1) SG191105A1 (zh)
WO (1) WO2012114215A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2678783B1 (en) 2011-02-24 2015-05-27 International Business Machines Corporation Network event management
US10009371B2 (en) * 2013-08-09 2018-06-26 Nicira Inc. Method and system for managing network storm
US9608856B2 (en) * 2013-11-03 2017-03-28 Teoco Ltd. System, method, and computer program product for identification and handling of a flood of alarms in a telecommunications system
US9710164B2 (en) 2015-01-16 2017-07-18 International Business Machines Corporation Determining a cause for low disk space with respect to a logical disk
US9742625B2 (en) * 2015-08-12 2017-08-22 Servicenow, Inc. Automated electronic computing and communication system event analysis and management
US11368372B2 (en) * 2016-06-03 2022-06-21 Nutanix, Inc. Detection of outlier nodes in a cluster
US10103964B2 (en) 2016-06-17 2018-10-16 At&T Intellectual Property I, L.P. Managing large volumes of event data records
CN109344026A (zh) * 2018-07-27 2019-02-15 阿里巴巴集团控股有限公司 数据监控方法、装置、电子设备及计算机可读存储介质
US11314573B2 (en) * 2018-11-30 2022-04-26 Hewlett Packard Enterprise Development Lp Detection of event storms
US11212162B2 (en) * 2019-07-18 2021-12-28 International Business Machines Corporation Bayesian-based event grouping
US11438353B2 (en) * 2019-10-31 2022-09-06 Dell Products L.P. Application programming interface platform management using machine learning
US11579913B2 (en) * 2019-12-18 2023-02-14 Vmware, Inc. System and method for optimizing network topology in a virtual computing environment
JPWO2022054269A1 (zh) * 2020-09-14 2022-03-17

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08167900A (ja) 1994-12-14 1996-06-25 Matsushita Electric Ind Co Ltd 管理処理装置
JPH10336276A (ja) 1997-06-05 1998-12-18 Nec Corp ネットワーク管理システム
JPH11177549A (ja) * 1997-12-09 1999-07-02 Fujitsu Ltd トラフィック監視装置及びトラフィック監視方法
US6301624B1 (en) 1998-12-04 2001-10-09 Sun Microsystems, Inc. Methods systems and software for alleviating event overload conditions for computer networks
JP3812236B2 (ja) * 1999-09-10 2006-08-23 株式会社日立製作所 イベント制御手段を備えたネットワーク管理システム
US6701449B1 (en) 2000-04-20 2004-03-02 Ciprico, Inc. Method and apparatus for monitoring and analyzing network appliance status information
US6754854B2 (en) 2001-06-04 2004-06-22 Motorola, Inc. System and method for event monitoring and error detection
US7007084B1 (en) * 2001-11-07 2006-02-28 At&T Corp. Proactive predictive preventative network management technique
JP2005094361A (ja) 2003-09-17 2005-04-07 Intelligent Cosmos Research Institute ネットワーク異常検出装置、ネットワーク異常検出方法およびネットワーク異常検出プログラム
US7225356B2 (en) 2003-11-06 2007-05-29 Siemens Medical Solutions Health Services Corporation System for managing operational failure occurrences in processing devices
US7409594B2 (en) 2004-07-06 2008-08-05 Intel Corporation System and method to detect errors and predict potential failures
CN1617512A (zh) 2004-11-25 2005-05-18 中国科学院计算技术研究所 一种自适应网络流量预测和异常报警方法
JP4490307B2 (ja) 2005-02-24 2010-06-23 三菱電機株式会社 ネットワーク異常検出装置及びコンピュータプログラム及びネットワーク異常検出方法
US7739143B1 (en) * 2005-03-24 2010-06-15 Amazon Technologies, Inc. Robust forecasting techniques with reduced sensitivity to anomalous data
JP4967430B2 (ja) 2006-04-11 2012-07-04 オムロン株式会社 不具合管理装置、不具合管理プログラム、およびこれを記録した記録媒体
US7730364B2 (en) * 2007-04-05 2010-06-01 International Business Machines Corporation Systems and methods for predictive failure management
CN101083563B (zh) 2007-07-20 2010-08-11 杭州华三通信技术有限公司 一种防分布式拒绝服务攻击的方法及设备
US8782203B2 (en) 2007-09-14 2014-07-15 International Business Machines Corporation Propagating accelerated events in a network management system
JP4872945B2 (ja) * 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
US8700761B2 (en) * 2008-09-04 2014-04-15 At&T Intellectual Property I, L.P. Method and system for detecting and managing a fault alarm storm
US9058259B2 (en) * 2008-09-30 2015-06-16 Vmware, Inc. System and method for dynamic problem determination using aggregate anomaly analysis
CN101924603B (zh) 2009-06-09 2014-08-20 华为技术有限公司 数据传输速率的自适应调整方法、装置及系统
US20110010209A1 (en) * 2009-07-09 2011-01-13 International Business Machines Corporation Statistical condition detection and resolution management
WO2011046869A2 (en) * 2009-10-12 2011-04-21 Abbott Patrick D Targeted equipment monitoring system and method for optimizing equipment reliability
EP2490126B1 (en) * 2009-10-15 2020-08-26 Nec Corporation System operation management device, system operation management method, and program storage medium
US20110119100A1 (en) * 2009-10-20 2011-05-19 Jan Matthias Ruhl Method and System for Displaying Anomalies in Time Series Data
EP2678783B1 (en) 2011-02-24 2015-05-27 International Business Machines Corporation Network event management

Also Published As

Publication number Publication date
KR101476081B1 (ko) 2014-12-23
AU2012221821B2 (en) 2015-07-02
US20130166745A1 (en) 2013-06-27
US9239988B2 (en) 2016-01-19
JP2014509015A (ja) 2014-04-10
KR20140067962A (ko) 2014-06-05
JP6091436B2 (ja) 2017-03-08
SG191105A1 (en) 2013-07-31
EP2678783A1 (en) 2014-01-01
WO2012114215A1 (en) 2012-08-30
AU2012221821A1 (en) 2013-05-02
EP2678783A4 (en) 2014-06-18
US9191296B2 (en) 2015-11-17
US20150032888A1 (en) 2015-01-29
CN103392176A (zh) 2013-11-13
EP2678783B1 (en) 2015-05-27

Similar Documents

Publication Publication Date Title
CN103392176B (zh) 用于预测网络事件泛滥的装置和方法
CN107925612B (zh) 网络监视系统、网络监视方法和计算机可读介质
EP3131234B1 (en) Core network analytics system
US10496465B2 (en) System operations management apparatus, system operations management method and program storage medium
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
US20050216793A1 (en) Method and apparatus for detecting abnormal behavior of enterprise software applications
JP5387779B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JPWO2011155621A1 (ja) 障害検出装置、障害検出方法およびプログラム記録媒体
CN113570277A (zh) 一种电力容量管理方法及装置
CN115102834B (zh) 一种变更风险评估方法、设备及存储介质
CN111611097A (zh) 故障检测方法、装置、设备及存储介质
JP2004145536A (ja) 管理システム
JP6512646B1 (ja) 保守管理装置、システム及びプログラム
JP2009193238A (ja) システム負荷監視方法
JPWO2019142414A1 (ja) ネットワーク監視システム、方法及びプログラム
Fan et al. On backup battery data in base stations of mobile networks: Measurement, analysis, and optimization
CN114422332B (zh) 网络切片控制方法、装置、处理设备及存储介质
JP5261510B2 (ja) ネットワーク監視装置及び方法及びプログラム
JP7303461B2 (ja) 復旧判定装置、復旧判定方法、および、復旧判定プログラム
JP6301015B2 (ja) 監視装置、及び、監視方法
CN114297032A (zh) 一种多服务器环境中的服务管理方法及可视化系统
CN113127311A (zh) 一种异常检测方法及装置
CN118069460A (zh) 一种应用性能自动监测与优化方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant