CN114746844A - 对操作管理中的事件风暴中的构成事件的标识 - Google Patents

对操作管理中的事件风暴中的构成事件的标识 Download PDF

Info

Publication number
CN114746844A
CN114746844A CN202080080106.0A CN202080080106A CN114746844A CN 114746844 A CN114746844 A CN 114746844A CN 202080080106 A CN202080080106 A CN 202080080106A CN 114746844 A CN114746844 A CN 114746844A
Authority
CN
China
Prior art keywords
event
storm
events
group
time period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080080106.0A
Other languages
English (en)
Inventor
J·I·塞特尔
K·J·斯图尔特
H·R·戴维斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN114746844A publication Critical patent/CN114746844A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Debugging And Monitoring (AREA)
  • Alarm Systems (AREA)

Abstract

提供了用于在操作管理中对事件风暴中的构成事件的标识的方法和系统。该方法包括:通过从采样时间段中的预期事件速率的动态基线范围检测异常来检测事件风暴;以及当事件风暴被检测到时,针对以事件类别分组并且在事件风暴的采样时间段中发生的事件组中的每个事件,如果在采样时间段中组的事件发生的速率在与针对组的平均值的阈值偏差之外,则将事件组标识为构成事件风暴的一部分。

Description

对操作管理中的事件风暴中的构成事件的标识
技术领域
本发明涉及日志事件操作管理,更具体地说,涉及在操作管理中对事件风暴中的构成事件的标识。
背景技术
信息技术操作管理旨在通过记录事件并将分析应用于事件日志来标识、隔离和解决商业环境中的信息技术问题。作为示例,操作可以涉及可以在地理上分布的与通信、计算资源、存储资源、网络等相关的大范围的基础设施。
在信息技术环境中,事件日志记录在系统的执行中发生的事件,以便提供可以用于理解系统的活动和诊断问题的审计跟踪。事件日志对于理解复杂系统的活动是必要的,特别是在诸如服务器应用的具有很少用户交互的应用的情况下。使用操作分析的统计分析可以用于分析事件并且确定看似不相关的事件之间的相关性。
在事件日志管理中,操作人员期望事件的正常速率,事件由于维护或问题而发生。然而,当传入事件的量淹没操作人员处理它们的能力时,有时会发生事件风暴。这通常被称为“红海”。这意味着操作人员不能区分重要事件以及可能发生什么。
风暴经常由重大事故触发。例如,类似核心交换机的事物在网络中出现故障、监视系统的一部分故障等。这种情况将导致大量设备、子系统和应用向监测系统发送警报或事件,从系统的角度来看,所有警报或事件有效地报告相同的问题。
检测这种事件风暴的最常见的方法是系统工程师基于过去的经验来设置事件类型的静态阈值。例如,事件类型可以是“LINK DOWN(链接向下)”,并且如果在定义的时间段内“LINK DOWN”日志事件的数目超过阈值数目,则宣布风暴并且将该事件类型的所有事件分组在一起。
发明内容
根据本发明的方面,提供了一种用于在操作管理中对事件风暴中的构成事件的标识的计算机实现的方法,包括:通过从采样时间段中的预期事件速率的动态基线范围检测异常来检测事件风暴;以及当事件风暴被检测到时,针对以事件类别分组并且在事件风暴的采样时间段中发生的事件组中的每个事件,如果在采样时间段中组的事件发生的速率在与针对组的平均值的阈值偏差之外,则将事件组标识为构成事件风暴的一部分。
这具有以下优点:通过使用在所检测的风暴内的采样时间段中的事件实例的统计评估,在事件风暴检测与有助于事件风暴的事件的标识之间存在链接。这减少了被标记为造成风暴的事件的错误肯定的数目。
该方法可以包括关联被标识为构成事件风暴的一部分的多个事件组以用于输出。
该方法可包括学习一个或多个限定长度的采样时间段中的预期事件速率。检测事件风暴可以包括:使用动态阈值算法来确定在一个或多个限定长度的采样时间段中的预期事件速率的动态基线范围;以及使用异常检测算法来从指示事件风暴的动态基线范围检测异常。使用操作分析可以精确地标识事件风暴发生。
该方法还可以包括学习一个或多个限定长度的采样时间段中的事件属性信息。事件类别可以包括个体事件属性或基于距离度量的事件属性的聚类。事件组可以包括最小数目的事件实例。用于聚类的事件属性的距离度量可以是以下组中的一项:文本串度量;位置度量;或从事件日志条目信息得到的其他度量。学习环境中的事件的事件属性被用于通过个体属性和/或通过基于事件属性的距离度量的聚类来对事件进行分组。事件属性可从事件日志条目中可用的信息得到。
该方法可以包括通过事件属性的距离度量对采样时间段中的事件进行聚类。在一个实施例中,如果基于个体事件属性的组在采样时间段中不高于个体事件属性的阈值偏差,则该方法可以对多个个体事件属性进行聚类以形成事件组。
该方法可以包括测试聚类以在采样时间段中满足属于聚类的事件实例的阈值百分比。方法还可以包括通过将聚类与采样时间周期中的变化距离度量进行比较来选择聚类。测试聚类和选择最强的聚类增强了系统并且使其风险厌恶。其还使得经分段的事件实例能够被聚类并且被标识为与事件风暴相关。
采样时间段可以配置用于事件风暴检测的粒度,并且可以包括短时间窗和更长的时间窗以捕捉不同的事件风暴行为。事件风暴可以具有不同的时间帧,并且配置不同的采样时间段或窗有助于检测不同形式的事件风暴,无论它们是缓慢酿造风暴还是突然的事件狂飑。
可以使用统计偏差方法(诸如事件组的阈值Z得分测试)从该组的平均值来测量事件组的阈值偏差。许多统计阈值测试是可用的并且可以基于事件的总体统计模式来选择。在事件遵循正态分布的情况下,标准偏差测试可以是合适的。
根据本发明的另一方面,提供了一种用于在操作管理中对事件风暴中的构成事件的标识的计算机实现的方法,包括:通过从采样时间段中的总事件群体的预期事件率的动态基线范围检测异常来检测事件风暴;以及针对检测到的事件风暴中的采样时间段,通过对事件属性进行聚类并且确定在采样时间段中聚类中的事件实例的发生的速率是否是与针对经聚类的事件属性的范数的阈值偏差,将事件实例标识为所述风暴的构成事件。
这具有以下优点:基于日志条目中可用的事件属性,通过距离度量对事件实例进行聚类。将偏离的个体属性分组可以排除相关但具有不同属性的一些日志条目。
根据本发明的另一方面,提供了一种用于在操作管理中对事件风暴中的构成事件的标识的系统,包括:处理器和存储器,存储器被配置为向所述处理器提供计算机程序指令以执行组件的功能:事件风暴检测组件,用于通过从采样时间段中的预期事件速率的动态基线范围检测异常来检测事件风暴;以及事件构成标识组件,用于针对按在事件风暴的采样时间段中发生的事件类别分组的事件组中的每个事件,如果在采样时间段中组的事件发生的速率在与针对组的平均值的阈值偏差之外,则将事件组标识为构成所述事件风暴的一部分。
系统可以包括事件构成关联组件,用于将被标识为构成事件风暴的一部分的事件的多个组相关联。
事件风暴检测组件可以包括:动态阈值组件,用于使用动态阈值算法来确定在一个或多个限定长度的采样时间段中的预期事件速率的动态基线范围;以及异常检测组件,用于使用异常检测算法来从指示事件风暴的动态基线范围检测异常。
该系统可包括学习组件,用于学习一个或多个限定长度的采样时间段中的预期事件速率以及用于学习一个或多个限定长度的采样时间段中的事件属性信息。
系统可以包括属性聚类组件,用于通过事件属性的距离度量对采样时间段中的事件进行聚类。属性聚类组件可以包括在采样时间段中测试聚类以满足属于聚类的事件实例的阈值百分比。属性聚类组件可以包括通过比较在采样时间段中具有变化的距离度量的聚类来选择聚类。
该系统可以包括配置组件,用于配置针对事件风暴检测的粒度的采样时间段以捕获不同的事件风暴行为,该事件风暴检测的粒度包括短时间窗和更长的时间窗。
根据本发明的另一方面,提供一种用于在操作管理中对事件风暴中的构成事件的标识的系统,包括:处理器和存储器,存储器被配置成向处理器提供计算机程序指令以执行组件的功能:事件风暴检测组件,用于通过从采样时间段中的总事件群体的预期事件速率的动态基线范围检测异常来检测事件风暴;以及事件构成标识,用于通过对事件属性进行聚类并且确定在采样时间段中聚类中的事件实例的发生的速率是否是与针对经聚类的事件属性的范数的阈值偏差,来将事件实例标识为在检测到的事件风暴中针对采样时间段的风暴的构成事件。
根据本发明的另一方面,提供了一种用于在操作管理中对事件风暴中的构成事件的标识的计算机程序产品,所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质具有随其体现的程序指令,所述程序指令由处理器可执行以使所述处理器:通过从采样时间段中的预期事件速率的动态基线范围检测异常来检测事件风暴;以及,当事件风暴被检测到时,针对以事件类别分组并且在采样时间段中发生的事件组中的每个事件,如果在采样时间段中组的事件发生的速率在与针对组的平均值的阈值偏差之外,则将事件组标识为构成事件风暴的一部分。
计算机可读存储介质可为非瞬态计算机可读存储介质,并且计算机可读程序代码可以由处理电路执行。
附图说明
本发明的主题在说明书的结论部分中特别指出并明确要求保护。当结合附图阅读时,通过参考以下详细描述,可以最好地理解本发明(关于组织和操作方法)及其目标、特征和优点。
现在将参考以下附图仅通过示例的方式来描述本发明的优选实施例,在附图中:
图1A是根据本发明的方法的示例性实施例的流程图;
图1B是根据本发明的方法的方面的示例性实施例的流程图;
图2是根据本发明的系统的示例性实施例的框图;
图3是其中可以实现本发明的计算机系统或云服务器的实施例的框图;
图4是可以实现本发明的云计算环境的示意图;以及
图5是可以实现本发明的云计算环境的抽象模型层的示意图。
应当理解,为了说明的简单和清晰,图中所示的元件不一定按比例绘制。例如,为了清楚起见,一些元件的大小可能相对于其他元件被放大。进一步,在认为适当的情况下,附图标记可在附图中重复以指示对应或类似的特征。
具体实施方式
所描述方法和系统在事件日志操作管理中标识事件风暴检测中的构成事件。该方法和系统可以应用于信息技术环境中的任何形式的事件登录,包括计算系统、通信系统等。
随着事件在信息技术环境中发生,事件日志提供随时间推移的事件日志条目。事件日志可以用于错误事件、操作事件、事务事件、消息、或可以随时间记录的其他活动。日志条目可以包括提供关于日志条目的关于什么发生、何时发生和通过哪个组件发生的信息的多个属性。
所描述的方法在两个阶段工作:首先,检测风暴窗;其次,对要构成风暴的事件进行分类,以标识风暴的构成事件。
一旦检测到风暴,该方法可以确定什么事件要构成风暴,这与什么事件是正常活动或与另一问题相关。许多系统足够大,使得可能在任何一个时间存在多于一个的问题,并且因此可以存在到达的不是风暴的一部分的事件。这通过使用整体风暴检测结合事件分类的组合来实现。
组合这两个阶段降低了系统的复杂性并且避免了由于事件风暴之外发生的各种各样的事件类型而可能发生的错误关联。
风暴广泛地具有两个事件组,大量相同的事件类型发生(例如,核心网络的查验(ping down)),或者大量不同的警报和不同类型的事件发生。
所描述的方法和系统具有可以将多种类型的事件结合在一起以便建立风暴的存在的优点。所描述的方法标识构成风暴的事件,而不是在不存在事件风暴时构成系统的通常操作状态的事件。
参见图1A,流程图100示出了在事件日志中检测风暴并且确定作为风暴的一部分的事件的所描述的方法的示例性实施例。
该方法可以学习101在一个或多个定义的采样时间段中的预期事件速率。这是所有事件被记录的速率,提供总体群体事件速率。
所述方法可以确定102在一个或多个定义的时间段采样长度中的预期事件速率的动态基线范围。动态阈值算法可以被用以确定预期范围。动态阈值算法提供变化的基线,该变化的基线取决于和适应诸如一天中的时间或系统上的负载的因素。动态阈值算法可以基于所监测的系统简档和参数动态地定义随时间而变化的一致性阈值。
采样时间段可以被定义为适合系统,并且可以是离散时间桶或窗。可以定义多于一个长度的采样时间段,诸如短长度和更长的长度。这确保了捕获事件的短尖峰以及较长的酝酿(brew)问题和边缘事件。在示例性实施例中,使用5分钟和20分钟的时间段并且在这些时间段中连续监测事件速率。
该方法还可以学习并整理103事件群体中的事件的事件属性信息的分解,所述事件属性信息用于对事件进行分组并作为时间段内事件属性的预期发生速率的基线。事件属性可以是事件类型或事件实例的其他适当属性,诸如事件日志条目中的地理指示,诸如用于来自电信环境中的单个小区站点或来自系统环境中的特定工厂或位置的事件。
该方法可以监测104采样时间段中的传入事件并且确定是否存在将指示事件风暴的异常或与采样时间段中的预期事件速率的动态基线范围的偏差。这可以使用异常检测算法来检测群体事件率中的异常。
异常检测可以通过各种已知的不同统计测量来执行。在一个实现中,异常检测可以由现有操作分析软件来实现。例如,IBM Operations Analytics Predictive Insights(IBM操作分析预测性洞察)(IBM是国际商业机器公司的商标),概述如下。
用于标识群体事件速率中的异常行为的备选方法是使用概况分析技术来检测突然的系统过程变化。使用历史数据在周期性行为的时间帧上建立正常操作参数。时间帧被切成连续的采样时间段,其可以根据简档参数被单独地处理。然后,使用统计过程控制技术,可以检测短期和长期过程变化。当发生事件风暴时,将检测到短期的增加处理改变。
可以通过确定定义为风暴的事件率异常来确定105是否检测到事件风暴。如果当前没有检测到风暴,则该方法可以继续监测104传入事件速率并且确定是否存在异常。可以在一系列采样时间段上检测到事件风暴。
当检测到105事件风暴时,基于在风暴的采样时间段内发生的事件,如下所述地标识并整理事件风暴的构成事件。
记录在事件风暴被检测到的采样时间段中的事件根据事件类别被分组106。类别可以是诸如事件类型的事件属性或诸如事件位置的事件的其他属性。分组可以使用在学习阶段期间整理的事件属性信息103。在该阶段,组可以是具有相同个体属性的事件组,以便确定在相同事件属性的采样时间段中是否存在大量事件。
仅包括事件实例数目在最小值以上的事件组。如果组中的事件属性的实例数目低,则该组不被包括在进一步的分析中。这是因为,即使这些事件的比率在组的期望范围之外,低数目表示这些事件不是风暴的构成事件。
针对每组事件107,所述方法可以确定108采样时间段中的事件发生速率是否在该组的预期范围之外。这可以通过不同形式的统计测试来进行。
执行事件发生速率是否在预期范围之外的确定108的能力基于在确定102总群体事件率的同时整理103的事件属性信息的分解。
在一个实施例中,在预期范围之外的测试可以高于与该组的事件速率的平均值的阈值偏差。在一个实施例中,这可以通过如下所述的Z得分测试进行,该Z得分测试测量正态分布的统计偏差。备选地,可以使用与平均值的另一种形式的统计偏差。
如果没有确定108组的发生速率在个体事件属性的预期范围之外,则可以确定是否有可能将事件属性与其他事件属性聚类109,所述其他事件属性在单独分组时也不在预期范围之外。
备选地,方法可以尝试聚类事件属性而不测试经分组的个体事件属性的偏差。
如果可以对属性进行聚类,则方法可以基于距离度量将事件属性聚类110在一起,如下面关于图1B进一步描述的。
聚类可以被视为事件组107,对于该事件组107,确定108发生的速率是否在预期范围之外。
然而,如果不可能对事件属性与其他事件属性进行聚类109,或者如果该组已经是聚类,则该组事件可以被指示111为不是风暴的构成部分。风暴的构成是由引起事件风暴的问题或一组问题引起的事件。
如果对于组确定108该组的发生速率在预期范围之外,则可以将事件组指示112为风暴的构成部分。
来自被指示为风暴的构成的所有组的事件成员可以被关联113或组合为与风暴相关并相应地显示和处置。
风暴检测的异常检测算法
IBM Operations Analytics Predictive Insights提供了用于消耗和分析来自组织的监视和性能管理系统的多个数据源的数据的分析组件。分析组件构建系统的正常行为的模型,并且然后将被提取的后续数据与模型中的数据进行比较以标识系统行为的任何改变和标识行为的异常。提供用于显示关于异常的详细信息的用户接口。
使用不同异常检测算法,包括当度量的值偏离度量的基线时检测异常的鲁棒边界。基线是算法针对度量动态维持的正常操作范围。
其他异常检测算法可以包括例如:变体/不变算法,用于在度量的高值与低值之间的方差显著减少时检测异常;格兰杰Granger算法,用于通过找到度量之间的因果关系并且如果关系改变则检测异常来检测异常;有限域算法,用于在度量值升高到先前未达到的水平时检测异常;主要范围算法,用于在度量值的变化超出所述度量正常变化的范围时检测异常。
每个算法可以包括训练过程以建立数据的正常操作行为的模型。当随后以后续间隔接收数据时,可以检测异常。
用于事件组的统计偏差测试
Z检验是任何统计检验,对于该统计检验,零假设下的检验统计的分布可通过正态分布来近似。由于中心极限定理,假定事件速率的采样将近似于正态分布是合理的假设。因此,在任何时刻,可以将事件速率的采样与采样分布进行比较以决定其是否位于正常操作裕度内。Z测试可以使用Z得分或修改的Z得分。
Z得分是值相对于一组测量的值的平均值的关系的数值测量值,其依据与平均值的标准偏差。如果Z得分为0,则表明该值与平均值相同。如果Z得分是1.0,则值是与平均值的一个标准偏差。对于大多数大数据集,99%的值具有在-3与3之间的Z得分,意味着它们位于平均值之上和之下的三个标准偏差内。
修改的Z得分是测量离群强度或特定得分与典型得分相差多少的标准化得分。使用标准偏差单位,它近似得分与中值的差异。
修改的Z得分可以比标准Z得分更鲁棒,因为它依赖于中值来计算Z得分。当与标准Z得分相比时,它受异常值的影响较小。
通过将与平均值的差值除以标准偏差来计算标准Z得分。根据平均绝对偏差(MeanAD)或中值绝对偏差(MAD)计算修改的Z得分。这些值乘以常数以近似标准偏差。
对于按属性或属性聚类分组的每个事件组,方法可以计算当发生事件类型时的时间周期的每个元素的中值绝对偏差(MAD)和修改后的Z得分值。例如:“linkdown”=中值=10,并且“机器着火(machine on fire)”=中值=20。
如果组的当前值高于3.5Z得分的定义阈值,则事件组被标识为构成风暴事件并且对事件风暴有贡献。
应当注意,当属性的计数低时需要额外的保护。例如,在当前原型中,如果MAD得分小于2,那么它不被包括。这是因为,即使这些事件的速率在组的期望范围之外,低数目表示这些事件不是风暴的构成事件。
参见图1B,流程图150示出了图1A的流程图的方面的示例性实施例:对事件属性进行聚类,以便在检测到风暴的采样时间段中测试经聚类的事件属性是否超出与聚类的范数的阈值偏差。
采样窗中的事件属性可以根据一个或多个距离度量来聚类151。可以针对事件日志场景和基于事件日志条目中可用的信息来配置距离度量。
距离度量的示例可以是事件日志条目的文本串相似性。距离度量的另一示例可以是事件日志条目的原点的位置的位置相似性,诸如通过用于电信日志的站点单元或分布式计算系统日志中的管理设施或服务器位置。其他形式的距离度量可以基于日志条目中可用的信息。
在作为距离度量的文本串的示例中,可以通过使用诸如编辑距离度量(诸如Jaro-Winkler距离)的串比较技术来执行聚类。编辑距离通过对将串变换成其他串所需的最小操作数目进行计数来量化两个串有多不相似。
例如,如果存在三种不同的事件类型并且没有超过统计偏差,则串相似性可以用于检测聚类151。例如,与域间路由协议(诸如Cisco实现中的边界网关协议(BGP))(Cisco是Cisco Systems,Inc.的商标)有关的以下事件实例可以由于它们的串相似性而被聚类,并且被视为事件组:
BGP_CISCO_STATE_1
BGP_CISCO_STATE_2
BGP_CISCO_STATE_3
可以使用不同的距离度量和/或通过使用相同距离度量的不同限制,针对采样时间生成多个聚类151。
可以通过在采样时间属于聚类的事件日志实例的数目来测试152所生成的聚类。这可以作为采样时间中的事件总数的百分比数来测试。对于被认为有用的聚类,测试可以是采样时间中百分比阈值数目的事件是否是聚类的成员。
还可以或备选地将所生成的聚类与其他聚类进行比较153以确定在采样时间中具有最高事件数目的一个或多个聚类。
具有最高个体测量或事件的比较测量的一个或多个聚类可以被选择154作为聚类的主要候选者。一旦被选择或作为选择过程的一部分,聚类可以被测试155以确定聚类中的事件数目是否高于采样窗中的总事件的阈值百分比。
例如,如果聚类占预期范围的60%以上,则可以仅使用聚类。如果预期的最大计数是在检测到的风暴的采样时间中的100个事件,将必须有60个事件作为聚类的成员以便使用该聚类。
一旦已经选择一个或一个以上聚类,则可以将聚类用作156新组,并且可以确定聚类的事件速率是否在与针对采样窗的聚类的事件度量的平均值的阈值偏差之外。如果没有通过进一步的测试,则可以尝试具有不同的距离度量的进一步的聚类151。
这种方法能够检测正在发生的风暴并且捕获相关联的事件的显著聚类,尽管它不需要是详尽的。所描述的方法不保证它将发现构成风暴的所有事件。然而,与精确地检测风暴的要求相比,对于构成风暴的事件的总包容性的要求不是最重要的。
应当注意,简单地将基线算法应用到原始事件类型(即,原始事件类型)是不准确的。在不限于采样时间段的情况下看到的每个事件类型的度量。这是由于以下事实:大多数基线算法变得极其不准确,或者当度量趋于零时将度量从分析中丢弃,这是任何个体事件类型的情况。这就是为什么仅针对在检测到的风暴中出现得分或偏差的可用采样窗来计算分数或偏差的原因。
所描述的方法本质上将风暴检测和事件采样中的多个分组或分类的事件的偏差耦合,在所述事件采样中由于标准基线算法的限制而检测到风暴。
图2示出了系统200的示例性实施例,其中动态地评估在信息技术环境中发生的事件的事件日志230,以确定是否发生事件的风暴并且标识对风暴有贡献的事件。
系统200包括提供风暴事件标识系统240的计算机系统210,计算机系统210包括至少一个处理器201、硬件模块、或用于执行所描述组件的功能的电路,组件可以是在至少一个处理器上执行的软件单元。可以提供运行并行处理线程的多个处理器,从而能够并行处理组件的功能中的一些或全部。存储器202可以被配置为向至少一个处理器201提供计算机指令203以执行组件的功能。
风暴事件标识系统240可以使用操作分析系统220,该操作分析系统220可以分析信息技术环境的事件日志230的日志事件条目。操作分析系统220可以远程提供给风暴事件标识系统240,或者风暴事件标识系统240可以是操作分析系统220的构成部分。
风暴事件标识系统240可以包括用于配置风暴事件标识系统240的参数的配置组件250、用于学习事件日志230中的事件的行为的学习组件260、事件风暴检测组件270、事件构成标识组件280和事件构成关联组件242。
配置组件250可以包括采样窗组件251,用于配置采样窗持续时间以配置事件风暴检测的粒度。采样时间段可以被配置为离散的或连续的并且具有一个或多个持续时间。在一个实施例中,它们被配置为短采样时间窗和更长的采样时间窗,以捕捉不同的事件风暴行为。
配置组件250还可以包括阈值偏差组件252,用于配置阈值偏差以配置事件成分的标识的灵敏度。
学习组件260可以包括整体事件范围学习组件261,该整体事件范围学习组件261用于学习事件日志中的采样时间段的一个或多个限定长度中的预期事件速率以作为整体。学习组件260还可以包括事件属性学习组件262,用于学习一个或多个限定长度的采样时间段中的事件属性信息以用于分类和聚类事件属性。
事件风暴检测组件270可以包括动态阈值组件272和异常检测组件273,动态阈值组件272用于使用动态阈值算法来确定在一个或多个限定的采样时间段长度中的预期事件速率的动态基线范围,异常检测组件273用于使用异常检测算法来从指示事件风暴的动态基线范围检测异常。
事件构成标识组件280可以针对按事件风暴的采样时间段中发生的事件类别分组的事件组中的每个事件组,如果该组在采样时间段中的事件发生的速率在与针对该组的平均值的阈值偏差之外,则将该组事件标识为构成事件风暴的一部分。
事件构成标识组件280可以包括分组组件282和最小事件组件281,分组组件282用于根据事件类别来对事件进行分组,事件类别包括个体事件属性或事件属性的聚类,最小事件组件281用于确保事件分组包括最小数目的事件实例。
事件构成标识组件280可以包括组偏差组件283,用于确定组在采样时间段中的事件发生的速率是否在与针对组的平均值的阈值偏差之外。
事件构成标识组件280可以包括用于通过事件属性的距离度量对采样时间段中的事件进行聚类的属性聚类组件284。例如,事件属性的距离度量可以是文本串度量或位置度量。
属性聚类组件284可以包括在采样时间段中测试聚类以满足属于聚类的事件实例的阈值百分比,并且可以包括通过在采样时间段中将聚类与变化的距离度量进行比较来选择聚类。
事件构分关联组件242可以关联被标识为风暴的构成的所有事件组,并且可以将事件显示为系统的输出。
图3描绘了根据本发明的实施例的图2的系统200的计算机系统210的组件的框图。应当理解,图3仅提供一个实现的图示并且不暗示关于其中可以实现不同实施例的环境的任何限制。可以对所描绘的环境做出许多修改。
计算机系统210可以包括全部通过通信结构318互连的一个或多个处理器302、一个或多个计算机可读RAM 304、一个或多个计算机可读ROM 306、一个或多个计算机可读存储介质308、设备驱动器312、读/写驱动或接口314、以及网络适配器或接口316。通信结构318可以利用被设计用于在处理器(诸如微处理器、通信和网络处理器等)、系统存储器、外围设备和系统内的任何其他硬件组件之间传递数据和/或控制信息的任何架构来实现。
一个或多个操作系统310和应用程序311(例如事件风暴检测系统240)被存储在一个或多个计算机可读存储介质308上,用于由一个或多个处理器302经由一个或多个相应的RAM 304(其通常包括高速缓存存储器)来执行。在所示实施例中,根据本发明的实施例,计算机可读存储介质308中的每个可以是内部硬盘的磁盘存储设备、CD-ROM、DVD、记忆棒、磁带、磁盘、光盘、诸如RAM、ROM、EPROM、闪存的半导体存储设备、或者能够存储计算机程序和数字信息的任何其他计算机可读存储介质。
计算机系统210还可以包括用于从一个或多个便携式计算机可读存储介质326读取和写入一个或多个便携式计算机可读存储介质326的读/写驱动或接口314。计算机系统210上的应用程序311可存储在一个或多个便携式计算机可读存储介质326上,经由相应的读/写驱动或接口314读取并加载到相应的计算机可读存储介质308中。
计算机系统210还可以包括网络适配器或接口316,例如TCP/IP适配器卡或无线通信适配器。计算机系统210上的应用程序311可以经由网络(例如,互联网、局域网或其他广域网或无线网络)和网络适配器或接口316从外部计算机或外部存储设备下载到计算设备。程序可以从网络适配器或接口316加载到计算机可读存储介质308中。网络可以包括铜线、光纤、无线传输、路由器、防火墙、交换机、网关计算机和边缘服务器。
计算机系统210还可以包括显示屏320、键盘或小键盘322、以及计算机鼠标或触摸板324。设备驱动器312接口连接至显示屏320以用于成像、连接至键盘或小键盘322、连接至计算机鼠标或触摸板324、和/或接口连接至显示屏320以用于字母数字字符输入和用户选择的压力感测。设备驱动器312、读/写驱动或接口314、以及网络适配器或接口316可以包括存储在计算机可读存储介质308和/或ROM306中的硬件和软件。
本发明可以是任何可能的技术细节集成度的系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。
计算机可读存储介质可为可保留和存储供指令执行装置使用的指令的有形装置。计算机可读存储介质可以是,例如但不限于,电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为瞬态信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,穿过光纤电缆的光脉冲)或通过电线发射的电信号。
本文中所描述的计算机可读程序指令可以经由网络(例如,互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备,或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码,这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)和过程程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机,或者可连接至外部计算机(例如,使用互联网服务提供方通过互联网)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令,以便执行本发明的各方面。
下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个框以及流程图和/或框图中各框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以被提供给计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作,从而,其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个框中规定的功能/动作的方面的指令的制造品。
也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的处理,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个框中规定的功能/动作。
附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此,流程图或框图中的每个框可表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中,框中标注的功能可以不按照图中标注的顺序发生。例如,连续示出的两个框实际上可以作为一个步骤完成,同时、基本上同时、以部分或完全时间上重叠的方式执行,或者框有时可以以相反的顺序执行,这取决于所涉及的功能。也要注意的是,框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合,可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。
云计算
应当理解,虽然本公开包括关于云计算的详细描述,但是本文所引用的教导的实现不限于云计算环境。相反,本发明的实施例能够结合现在已知的或以后开发的任何其他类型的计算环境来实现。
云计算是服务交付的模型,用于使得能够方便地、按需地网络访问可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池,所述可配置计算资源可以以最小的管理努力或与所述服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
特性如下:
按需自助服务:云消费者可以单方面地根据需要自动地提供计算能力,诸如服务器时间和网络存储装置,而不需要与服务的提供者的人类交互。
广泛的网络接入:能力可通过网络获得并且通过标准机制接入,该标准机制促进异构瘦客户机平台或厚客户机平台(例如,移动电话、膝上型计算机和PDA)的使用。
资源池:提供者的计算资源被池化以使用多租户模型来服务于多个消费者,其中不同的物理和虚拟资源根据需要动态地指派和重新指派。存在位置独立性的感觉,因为消费者通常不具有对所提供的资源的确切位置的控制或了解,但可能能够以较高抽象级别(例如,国家、州或数据中心)指定位置。
快速弹性:能够快速和弹性地提供能力,在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言,可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。
测量的服务:云系统通过在适合于服务类型(例如,存储、处理、带宽和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用,为所利用的服务的提供者和消费者提供透明度。
服务模型如下:
软件即服务(SaaS):提供给消费者的能力是使用在云基础设施上运行的提供者的应用。可通过诸如web浏览器(例如,基于web的电子邮件)的瘦客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用能力的底层云基础设施,可能的例外是有限的用户特定应用配置设置。
平台即服务(PaaS):提供给消费者的能力是将消费者创建的或获取的使用由提供方支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施,但是对所部署的应用和可能的应用托管环境配置具有控制。
基础设施即服务(IaaS):提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源,所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施,而是具有对操作系统、存储、所部署的应用的控制以及对所选联网组件(例如,主机防火墙)的可能受限的控制。
部署模型如下:
私有云:云基础架构仅为组织运作。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
社区云:云基础架构被若干组织共享并支持共享了关注(例如,任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
公共云:使云基础架构对公众或大型行业组可用,并且由出售云服务的组织拥有。
混合云:云基础架构是两个或更多个云(私有、社区或公共)的组合,这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如,云突发以用于云之间的负载平衡)绑定在一起。
云计算环境是面向服务的,集中于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。
现在参见图7,描绘了说明性云计算环境50。如图所示,云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10,本地计算设备诸如例如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N。节点10可以彼此通信。它们可以物理地或虚拟地分组(未示出)在一个或多个网络中,诸如如上所述的私有云、社区云、公共云或混合云、或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为云消费者不需要为其维护本地计算设备上的资源的服务。应当理解,图7中所示的计算装置54A-N的类型仅旨在是说明性的,并且计算节点10和云计算环境50可通过任何类型的网络和/或网络可寻址连接(例如,使用网络浏览器)与任何类型的计算机化装置通信。
现在参见图8,示出了由云计算环境50(图7)提供的一组功能抽象层。应当事先理解,图8中所示的组件、层和功能仅旨在是说明性的,并且本发明的实施例不限于此。如所描述,提供以下层和对应功能:
硬件和软件层60包括硬件和软件组件。硬件组件的示例包括:大型机61;基于RISC(精简指令集计算机)架构的服务器62;服务器63;刀片服务器64;存储设备65;以及网络和联网组件66。在一些实施例中,软件组件包括网络应用服务器软件67和数据库软件68。
虚拟化层70提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器71;虚拟存储器72;虚拟网络73,包括虚拟专用网络;虚拟应用和操作系统74;以及虚拟客户端75。
在一个示例中,管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价82在云计算环境内利用资源时提供成本跟踪,并为这些资源的消费开账单或发票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理,使得满足所需的服务水平。服务水平协议(SLA)规划和履行85提供根据SLA预期未来需求的云计算资源的预安排和采购。
工作负载层90提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括:地图和导航91;软件开发和生命周期管理92;虚拟课堂教育交付93;数据分析处理94;事务处理95;以及事件日志处理96。
本发明的计算机程序产品包括一个或多个计算机可读硬件存储设备,其中存储有计算机可读程序代码,所述程序代码可以由一个或多个处理器执行以实现本发明的方法。
本发明的计算机系统包括一个或多个处理器、一个或多个存储器、以及一个或多个计算机可读硬件存储设备,所述一个或多个硬件存储设备包含可以由所述一个或多个处理器经由所述一个或多个存储器执行的程序代码以实现本发明的方法。
已经出于说明的目的呈现了本发明的各种实施方式的描述,但并不旨在是详尽的或者限于所公开的实施例。在不脱离所描述的实施例的范围和精神的情况下,许多修改和变化对本领域普通技术人员将是明显的。这里使用的术语被选择来最好地解释实施例的原理、实际应用或对在市场中找到的技术的技术改进,或者使得本领域普通技术人员能够理解这里公开的实施例。
在不脱离本发明的范围的情况下,可以对前述内容进行改进和修改。

Claims (25)

1.一种用于在操作管理中对事件风暴中的构成事件的标识的计算机实现的方法,包括:
通过从采样时间段中的预期事件速率的动态基线范围检测异常来检测事件风暴;以及
当所述事件风暴被检测到时,针对以事件类别被分组并且在事件风暴的所述采样时间段中发生的事件组中的每个事件,如果在所述采样时间段中所述组的所述事件发生的速率在与针对所述组的平均值的阈值偏差之外,则将所述事件组标识为构成所述事件风暴的一部分。
2.根据权利要求1所述的方法,包括将被标识为构成所述事件风暴的一部分的事件的多个组相关联。
3.根据权利要求1所述的方法,包括学习一个或多个限定长度的采样时间段中的预期事件速率。
4.根据权利要求1所述的方法,其中检测所述事件风暴包括:
使用动态阈值算法以确定在一个或多个限定长度的采样时间段中的预期事件速率的动态基线范围;以及
使用异常检测算法,以从指示所述事件风暴的所述动态基线范围检测异常。
5.根据权利要求1所述的方法,包括在一个或多个限定长度的采样时间段中学习事件属性信息。
6.根据权利要求1所述的方法,其中所述事件类别包括个体事件属性或基于距离度量的事件属性的聚类。
7.根据权利要求1所述的方法,包括通过事件属性的距离度量对所述采样时间段中的事件进行聚类。
8.根据权利要求1所述的方法,其中如果在所述采样时间段中基于个体事件属性的组不高于针对所述个体事件属性的阈值偏差,则对多个个体事件属性进行聚类以形成所述事件组。
9.根据权利要求7所述的方法,其中所述事件属性的所述距离度量是以下所述组中的一项:文本串度量;位置度量;或者从事件日志条目信息得到的其他度量。
10.根据权利要求7所述的方法,包括在所述采样时间段中测试所述聚类以满足属于所述聚类的事件实例的阈值百分比。
11.根据权利要求7所述的方法,包括通过比较在所述采样时间段内具有变化的距离度量的聚类来选择聚类。
12.根据权利要求1所述的方法,其中事件组包括最小数目的事件实例。
13.根据权利要求1所述的方法,其中所述采样时间段针对所述事件风暴检测的粒度而被配置,所述事件风暴检测的粒度包括短时间窗和更长的时间窗以捕获不同的事件风暴行为。
14.根据权利要求1所述的方法,其中与针对所述组的平均值的阈值偏差是所述事件组的阈值Z得分测试。
15.一种用于在操作管理中对事件风暴中的构成事件的标识的计算机实现的方法,包括:
通过从采样时间段中的总事件群体的预期事件速率的动态基线范围检测异常来检测事件风暴;以及
针对检测到的事件风暴中的所述采样时间段,通过对事件属性进行聚类并且确定在所述采样时间段中所述聚类中的事件实例的发生的速率是否是与针对经聚类的所述事件属性的范数的阈值偏差,将事件实例标识为所述事件风暴的构成事件。
16.一种用于在操作管理中对事件风暴中的构成事件的标识的系统,包括:
处理器和存储器,所述存储器被配置为向所述处理器提供计算机程序指令以执行组件的功能:
事件风暴检测组件,用于通过从采样时间段中的预期事件速率的动态基线范围检测异常来检测所述事件风暴;以及
事件构成标识组件,用于针对按在所述事件风暴的所述采样时间段中发生的事件类别被分组的事件组中的每个事件,如果在所述采样时间段中所述组的事件发生的所述速率在与针对所述组的平均值的阈值偏差之外,则将事件组标识为构成所述事件风暴的一部分。
17.根据权利要求16所述的系统,包括事件构成关联组件,用于将被标识为构成所述事件风暴的一部分的事件的多个组相关联。
18.根据权利要求16所述的系统,其中所述事件风暴检测组件包括:
动态阈值组件,用于使用动态阈值算法以确定在一个或多个限定长度的采样时间段中的预期事件速率的动态基线范围;以及
异常检测组件,用于使用异常检测算法来从指示所述事件风暴的所述动态基线范围检测异常。
19.根据权利要求16所述的系统,包括学习组件,用于学习一个或多个限定长度的采样时间段中的预期事件速率并且用于学习所述一个或多个限定长度的采样时间段中的事件属性信息。
20.根据权利要求16所述的系统,包括属性聚类组件,用于通过事件属性的距离度量对所述采样时间段中的事件进行聚类。
21.根据权利要求20所述的系统,其中所述属性聚类组件包括测试所述聚类以在所述采样时间段中满足属于所述聚类的事件实例的阈值百分比。
22.根据权利要求20所述的系统,其中所述属性聚类组件包括通过比较在所述采样时间段中具有变化的距离度量的聚类来选择聚类。
23.根据权利要求16所述的系统,包括配置组件,用于配置针对所述事件风暴检测的粒度的采样时间段,所述事件风暴检测的粒度包括短时间窗和更长的时间窗以捕获不同的事件风暴行为。
24.一种用于在操作管理中对事件风暴中的构成事件的标识的系统,包括:
处理器和存储器,所述存储器被配置为向所述处理器提供计算机程序指令以执行组件的功能:
事件风暴检测组件,用于通过从采样时间段中的总事件群体的预期事件速率的动态基线范围检测异常来检测事件风暴;以及
事件构成标识,用于通过对事件属性进行聚类并且确定在所述采样时间段中所述聚类中的事件实例的发生的速率是否是与针对经聚类的所述事件属性的范数的阈值偏差,来将事件实例标识为在检测到的事件风暴中针对所述采样时间段的所述风暴的构成事件。
25.一种用于在操作管理中对事件风暴中的构成事件的标识的计算机程序产品,所述计算机程序产品包括具有随其体现的程序指令的计算机可读存储介质,所述程序指令由处理器可执行以使所述处理器:
通过从采样时间段中的预期事件速率的动态基线范围检测异常来检测事件风暴;以及
当所述事件风暴被检测到时,针对以事件类别被分组并且在所述采样时间段中发生的事件组中的每个事件,如果在所述采样时间段中所述组的所述事件发生的速率在与针对所述组的平均值的阈值偏差之外,则将所述事件组标识为构成所述事件风暴的一部分。
CN202080080106.0A 2019-11-18 2020-11-11 对操作管理中的事件风暴中的构成事件的标识 Pending CN114746844A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/686,249 2019-11-18
US16/686,249 US11294748B2 (en) 2019-11-18 2019-11-18 Identification of constituent events in an event storm in operations management
PCT/IB2020/060609 WO2021099890A1 (en) 2019-11-18 2020-11-11 Identification of constituent events in an event storm in operations management

Publications (1)

Publication Number Publication Date
CN114746844A true CN114746844A (zh) 2022-07-12

Family

ID=75909997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080080106.0A Pending CN114746844A (zh) 2019-11-18 2020-11-11 对操作管理中的事件风暴中的构成事件的标识

Country Status (6)

Country Link
US (1) US11294748B2 (zh)
JP (1) JP2023502910A (zh)
CN (1) CN114746844A (zh)
DE (1) DE112020004572T5 (zh)
GB (1) GB2604081B (zh)
WO (1) WO2021099890A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230007485A1 (en) * 2021-06-30 2023-01-05 At&T Mobility Ii Llc Systems and methods for network anomalies management
CN113938414B (zh) * 2021-11-11 2023-09-12 杭州和利时自动化有限公司 一种网络风暴处理方法、系统、设备及计算机存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9069666B2 (en) * 2003-05-21 2015-06-30 Hewlett-Packard Development Company, L.P. Systems and methods for controlling error reporting and resolution
US7120717B2 (en) * 2004-02-13 2006-10-10 Hewlett-Packard Development Company, L.P. Method and apparatus for controlling interrupt storms
US8700761B2 (en) * 2008-09-04 2014-04-15 At&T Intellectual Property I, L.P. Method and system for detecting and managing a fault alarm storm
CN102246156A (zh) * 2008-10-14 2011-11-16 惠普开发有限公司 在网络系统中管理事件流量
CN102034148A (zh) 2010-12-08 2011-04-27 山东浪潮齐鲁软件产业股份有限公司 一种监控系统的事件预警及防风暴策略的实现方法
US8949676B2 (en) * 2012-05-11 2015-02-03 International Business Machines Corporation Real-time event storm detection in a cloud environment
US9166896B2 (en) 2013-03-15 2015-10-20 International Business Machines Corporation Session-based server transaction storm controls
GB2513885B (en) * 2013-05-08 2021-04-07 Xyratex Tech Limited Methods of clustering computational event logs
US9734005B2 (en) * 2014-10-31 2017-08-15 International Business Machines Corporation Log analytics for problem diagnosis
US10275301B2 (en) * 2015-09-29 2019-04-30 International Business Machines Corporation Detecting and analyzing performance anomalies of client-server based applications
US10103964B2 (en) * 2016-06-17 2018-10-16 At&T Intellectual Property I, L.P. Managing large volumes of event data records
US10067815B2 (en) * 2016-06-21 2018-09-04 International Business Machines Corporation Probabilistic prediction of software failure
CN106131022B (zh) 2016-07-15 2019-04-30 四川无声信息技术有限公司 一种网络协同攻击风暴源检测方法及装置
CN110324168A (zh) 2018-03-30 2019-10-11 阿里巴巴集团控股有限公司 异常事件监控方法和装置及电子设备
US10977162B2 (en) * 2018-12-20 2021-04-13 Paypal, Inc. Real time application error identification and mitigation

Also Published As

Publication number Publication date
US20210149754A1 (en) 2021-05-20
US11294748B2 (en) 2022-04-05
JP2023502910A (ja) 2023-01-26
DE112020004572T5 (de) 2022-09-15
GB202207686D0 (en) 2022-07-06
GB2604081A (en) 2022-08-24
WO2021099890A1 (en) 2021-05-27
GB2604081B (en) 2022-11-30

Similar Documents

Publication Publication Date Title
EP3211831B1 (en) N-tiered end user response time eurt breakdown graph for problem domain isolation
US11023325B2 (en) Resolving and preventing computer system failures caused by changes to the installed software
US9811443B2 (en) Dynamic trace level control
US9794153B2 (en) Determining a risk level for server health check processing
US9454465B1 (en) Risk based profiles for development operations
US11533217B2 (en) Systems and methods for predictive assurance
US11816586B2 (en) Event identification through machine learning
US20200099570A1 (en) Cross-domain topological alarm suppression
CN114746844A (zh) 对操作管理中的事件风暴中的构成事件的标识
US11410049B2 (en) Cognitive methods and systems for responding to computing system incidents
US10552282B2 (en) On demand monitoring mechanism to identify root cause of operation problems
US11599404B2 (en) Correlation-based multi-source problem diagnosis
WO2022042126A1 (en) Fault localization for cloud-native applications
US20200304387A1 (en) Smart sampling of discrete monitoring data
US20220179764A1 (en) Multi-source data correlation extraction for anomaly detection
US11212162B2 (en) Bayesian-based event grouping
US20230274160A1 (en) Automatically training and implementing artificial intelligence-based anomaly detection models
US11256598B2 (en) Automated selection of performance monitors
WO2022000285A1 (en) Health index of a service
US20230056637A1 (en) Hardware and software configuration management and deployment
US11262734B2 (en) Systems and methods to ensure robustness for engineering autonomy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination