CN104956373A - 确定异常网络行为的可疑根本原因 - Google Patents

确定异常网络行为的可疑根本原因 Download PDF

Info

Publication number
CN104956373A
CN104956373A CN201280078189.5A CN201280078189A CN104956373A CN 104956373 A CN104956373 A CN 104956373A CN 201280078189 A CN201280078189 A CN 201280078189A CN 104956373 A CN104956373 A CN 104956373A
Authority
CN
China
Prior art keywords
networking component
network
abnormal
change event
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201280078189.5A
Other languages
English (en)
Inventor
E.萨穆尼
I.科亨
R.伯恩施泰因
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Enterprise Development LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of CN104956373A publication Critical patent/CN104956373A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/064Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/835Timestamp
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)

Abstract

确定异常网络行为的可疑根本原因包括:从多个网络组件中识别网络中表现出异常行为的异常组件;基于评分策略向网络组件分配可能性分数,所述评分策略考虑影响异常组件的最近改变事件;以及基于可能性分数来识别被怀疑是根本原因的网络组件的子集。

Description

确定异常网络行为的可疑根本原因
背景技术
信息技术管理系统帮助管理员检测和解决运行在数据中心和其他类型的网络中的各种应用所面临的问题。这种系统监视信息技术系统的各个方面,诸如应用响应时间、资源利用和其他参数。管理系统收集监视数据并使用它来检测问题。
附图说明
附图图示了本文描述的原理的各种示例,并且是说明书的一部分。图示的示例仅仅是示例而不限制权利要求的范围。
图1是根据本文描述的原理的网络的示例的图。
图2是根据本文描述的原理的评分策略因素的示例的图。
图3是根据本文描述的原理的排名的示例的图。
图4是根据本文描述的原理的用于确定异常网络行为的可疑根本原因的方法的示例的图。
图5是根据本文描述的原理的归类(triaging)系统的示例的图。
图6是根据本文描述的原理的归类系统的示例的图。
图7是根据本文描述的原理的用于确定异常网络行为的可疑根本原因的过程的流程图的示例的图。
具体实施方式
通常,当网络应用有问题时,检测到问题的症状。然而,问题的根本原因常常更难以识别。根本原因可能在用于运行应用的任何网络组件中,该网络组件可能是数百个网络组件中的一个。例如,数据库中的问题可以影响使用该数据库的商业交易的响应时间。问题的症状是应用的用户所体验到的、交易的增加的响应时间。但是,在这种情况下,根本原因是数据库。然而,应用可以使用若干个数据库和其他虚拟组件。在虚拟化环境中,每天出现数百个或数千个改变事件。因此,识别作为根本原因的正确网络组件是耗时的。
通常,根本原因产生于网络中的改变事件,诸如安装新代码、更新、更换硬件、移位针对虚拟组件的主机、向服务器添加硬件、其他改变或其组合。因此,对问题进行归类的用户能够通过理解网络的最近改变事件来减少问题的解决的时间。本文描述的原理包括一种用于确定异常网络行为的可疑根本原因的方法。这种方法包括:从多个网络组件中识别表现出异常网络行为的网络中的异常组件:基于评分策略向每个网络组件分配可能性分数,所述评分策略考虑影响异常组件的最近改变事件;以及基于所述可能性分数来识别被怀疑是根本原因的网络组件的子集。
在下面的描述中,出于解释的目的,阐述了许多特定的细节以便提供对本系统和方法的透彻理解。然而本领域技术人员来说将显而易见的是,可以在没有这些特定的细节的情况下实践本装置、系统和方法。说明书中对“示例”或类似语言的引用意指所描述的具体特征、结构或特性被包括在至少这一个示例中,但不必然被包括在其他示例中。
图1是根据本文描述的原理的网络(100)的示例的图。该网络包括信息技术环境中的任何配置项目的任何物理或逻辑连接。在该示例中,该网络(100)包括应用服务(101)。该服务被数据库(102)、web服务器(104)和应用服务器(106)支持并与之通信。此外,数据库(102)进一步被第一服务器(108)和第二服务器(110)支持并与之通信。尽管图1的示例描绘了具有特定数目和类型的组件的网络,然而根据本文描述的原理可以使用任何数目或类型的网络组件。除了网络的物理组件之外,网络还可以包括在一个或多个网络物理组件上托管的多个虚拟组件。
如果问题要出现在第一或第二服务器(108,110)中,则数据库(102)将很可能表现出异常行为。同样地,如果问题产生在数据库(102)、web服务器(104)或应用服务器(106)中,则服务将很可能表现出异常行为。相应地,如果第一或第二服务器(108,110)具有在数据库(102)中引起异常行为的问题,则服务应用(101)也可能表现出异常行为。
网络组件与监视工具(112)通信,所述监视工具(112)获得与每个网络组件的状况有关的信息。在一些示例中,监视工具(112)包括请求和接收与每个网络组件有关的信息的外部传感器。在其他示例中,监视工具(112)包括对每个网络组件可安装的程序指令。这些程序指令内部地监视网络组件的状况并向公共位置发送数据以用于处理。程序指令可以按周期、按需求、按请求、按其他或其组合来发送数据。
监视工具(112)从网络组件向归类系统(114)发送数据,所述归类系统(114)单独地或集体地确定针对网络组件的基线。所述基线是通过检查从监视工具(112)获得的历史数据来确定的。所述基线按小时、按天、按周、按月、按季度或按其他来确定网络所经历的活动的类型。例如,周末的基线网络业务可以不同于工作日的基线业务。基线建立了网络的可接受行为以及基于该行为的可接受操作范围。在基线被建立之后,如果监视工具(112)确定网络参数在可接受操作范围之外,则该状况被认为是异常行为。
归类系统(114)包括监视引擎,所述监视引擎用于识别网络中的表现出异常行为的异常组件。归类系统(114)中的评分引擎基于评分策略向每个网络组件分配可能性分数,所述评分策略考虑网络中出现的改变事件。此外,归类系统(114)中的排名引擎基于可能性分数对被怀疑是根本原因的网络组件的子集进行排名。
监视工具(112)还跟踪网络内出现的改变事件。例如,监视工具(112)记录时间戳、改变事件的类型、改变事件的频率、改变事件的下游影响、其他信息或其组合。改变事件可以包括:向网络组件安装程序代码、安装更新、添加或移除物理网络组件、创建虚拟网络组件、切换虚拟网络组件的主机、向服务器添加硬件、其他改变事件或组合。
监视工具(112)还跟踪网络的行为以确定网络组件是否表现出异常行为。可以通过将网络组件的当前行为与利用归类系统(114)建立的基线相比较来确定异常行为。如果网络组件表现出处于相对于基线的可接受误差容限之外的行为,则可以使归类系统(114)识别异常行为,从而指示存在问题。
响应于识别问题或异常行为,归类系统(114)识别网络内出现的最近改变事件。利用预定的时间阈值来确定改变事件,所述改变事件包括将负责引起网络问题的最可能改变事件。时间阈值可以由管理员、制造商、学习机构或其组合来设置。
根据评分策略来对经历了最近改变事件的每个网络组件进行评分,所述评分策略对所识别的组件有多大可能是异常行为的根本原因进行评分。每个网络组件根据其可能性分数而被排名,并且最高得分的组件被分类为可能疑犯。在一些示例中,将可能性分数超过预定阈值的所有网络组件分类为可能疑犯。在其他示例中,预定数目的网络组件确定有多少改变事件被分类为可能疑犯。例如,预定数目可以是10。在这样的示例中,具有最高的10个分数的网络组件是可能疑犯。如果归类系统(114)确定存在超过百个具有最近改变事件的最近网络组件,则仅10个最高的将被分类为可能疑犯。另一方面,如果仅9个具有最近改变事件的网络组件被识别出,则将全部9个网络组件分类为疑犯。在一些示例中,预定百分比的网络组件基于其相似性分数而被分类为可能疑犯。
使归类系统(114)向用户通知可能疑犯。这可以是通过向用户发送识别可能疑犯的消息来完成的。在其他示例中,归类系统(114)使可能疑犯在用户界面(116)中可用。
将最高评分的网络组件分类为首要疑犯。其余的可能疑犯在被发送至用户之后继续保持它们的排名。因此,用户具有首先用首要疑犯确定问题的根本原因的选项。如果首要疑犯不是实际根本原因,则用户可以继续以使用第二高得分的改变事件对问题进行故障查找,等等。尽管为用户提供了可能疑犯,但是并不强迫用户参考或使用可能疑犯来对问题归类。尽管存在改变事件负责网络的异常行为的实质可能,然而在一些示例中,问题是由除改变事件外的某事引起的。如果没有可能疑犯被证明是引起网络问题的犯错者,则归类系统(114)可以将附加的网络组件分类为可能疑犯以便发送给用户,或者指引用户查询来自将非改变事件评估为其他可能的疑犯的不同程序的信息。
在一些示例中,评分策略被更新以反映根本原因的最成功识别。因此,评分策略可以随时间而学习以变得更准确。在一些示例中,使归类系统(114)关于是否有任何可能疑犯是实际根本原因而向用户征求反馈。随着归类系统(114)获得反馈,评分策略被更新。
图2是根据本文描述的原理的评分策略因素的示例的图。在该示例中,评分策略(200)包括频率因素(202)、时间因素(204)、改变类型因素(206)、拓扑因素(208)和其他因素(210)。
频率因素(202)考虑具体类型的改变事件多久发生一次以及网络问题多久产生一次。例如,如果切换虚拟组件的主机在网络内频繁发生而很少引起异常行为,则在切换主机过程中所涉及的网络组件不太可能接收到高的可能性分数。另一方面,如果切换主机很少发生且在历史上引起过问题,则在切换主机过程中所涉及的网络组件很可能接收到较高的可能性分数。
时间因素(204)考虑异常行为的识别之间的时间以及在改变事件的时间戳上记录的时间。例如,如果紧接在异常行为显现自身之前出现了改变事件,则改变事件所涉及的网络组件将接收到较高的可能性分数。另一方面,如果在改变事件的出现与异常行为的出现之间经过了几分钟,则改变事件所涉及的网络组件将接收到较低的可能性分数。
改变类型因素(206)考虑对网络的改变的类型。如果改变事件涉及很可能引起网络问题的改变事件类型,则其关联网络组件将很可能具有较高的可能性分数。
拓扑因素(208)考虑显现异常行为的位置和经历改变事件的网络组件的接近度。接近度指的是网络组件之间的逻辑和/或物理网络连接。例如,如果在最近经历了改变事件的网络组件中表现出异常行为,则该网络组件的可能性分数将会高。类似地,如果在被连接到经历了改变事件的网络设备的另一网络设备中发生了改变事件,则可能性分数也会高。然而,未与经历最近改变事件的网络组件逻辑或物理相连接的网络组件将很可能接收到较低的可能性分数。
评分策略(200)可以使用其他因素来生成可能性分数。在一些示例中,为每个因素给出相等的权重。在其他示例中,对因素进行加权。然而,系统可以包括学习机构,所述学习机构允许评分策略随时间改变,以随着系统获得对负责造成网络问题的改变事件加以识别的经验而变得更准确。
评分策略可以使用可预测性模型、用于计算分数的另一机构或其组合来确定分数。在可预测性模型(PPM)中,令C p 表示行为异常的网络组件的集合,并且令S表示作为可能疑犯的网络组件的集合。S可以等于C p 或被包含在C p 中。令CH表示改变事件的集合。CH 中的每个改变事件包括至少一个属性,诸如改变类型、网络组件的标识、时间戳、网络连接、另一属性或其组合。每个改变事件输入被描述为CH = {Ch j },并且每个Ch j 具有被表示为T i  = Type(Ch j )的改变类型。PPM中针对Ch j 的计算依赖于T i ,使得满足PPM(Ch i ) = PPM(T i )。
在使用临时日期计算PPM t 时,变量F i 被定义为:如果F i = 1,则已发生改变事件;如果F i = 0,则没有发生改变事件。评分策略可以遵循以下函数:
PPM(T i ) = P(Problem = true | F i ) = (Count(Problem = true ∩ F i ))/(Count(F i )),
其中Count(Problem = true ∩ F i ) 是在异常行为开始之后的最近时间段内出现了类型T i 的改变的所有场合的计数,并且其中Count(F i ) 表示类型T i 的改变的所有出现的计数。所述最近时间段的持续时间可以由用户、学习机构、制造商、另一源或其组合来预先确定。可以通过学习机构来随时间计算这些计数值,其中较旧的不太相关的数据未被用在计算中。取决于基线中的变型,可以存在多个计算函数。例如,如果观察到的基线包括在不同时间段(像白天和夜晚)期间在网络的行为方面的一致差异,则可以存在针对这些不同时间段的单独函数。
为了使用交叉分量(cross-component)数据计算PPM C ,令TotalC i 为刚好在当前异常行为的起始时间之前具有来自类型T 的改变对其执行的组件的集合。TotalC i 包括来自整个网络的组件,不仅仅是网络中包含行为异常的组件的部分。因此,TotalC i 与异常组件的交集(TotalC i ∩ C p )是具有类型T i-- 的改变对其执行且现在异常的组件的集合。PPM 计算最近发生的类型T i 的改变的可能性,以预测当前异常行为。这可以被表示为:
PPM C (T ) = (Count(TotalC i  Cp)/(Count (TotalC i )。
将可预测性模型组合成单一分数函数。对于每个改变Ch j, ,通过对上述两个模型求平均来将PPM计算为:
PPM C (T ) = (PPM t (T ) + PPM C (T ))/(2)。
对于每个疑犯S k  ? S,根据与具有最高PPM值的S k 有关的改变来计算分数,这被表示为:
Score(S k ) = MAX {Chj?Sk}  PPM (Type(Ch j ))
将疑犯按照它们的分数进行排序,并且将头等疑犯连同被标记为最相关改变的具有最大PPM分数的改变一起报告给用户。
图3是根据本文描述的原理的排名(300)的示例的图。在该示例中,网络(图1,100)的网络组件已被识别为当网络中出现了异常行为时经历了最近改变事件。在表(302)中列出了具有最近改变事件的每个网络组件。web服务器(图1,104)和应用服务器(图1,106)未被列出,因为在该示例中它们未在最近改变事件中被涉及。然而,在该示例中,数据库(304)、第一服务器(306)和第二服务器(308)最近被改变事件涉及,且因此在表(302)中被列出。
在表(302)的第一列(310)中列出了每个所列出的组件。每个网络组件具有第二列(312)中的可能性分数和第三列(314)中的排名号。在图3的示例中,利用虚线(316)来以符号表示预定疑犯数目阈值。在该示例中,为了成为可能疑犯,网络组件需要10分中的至少5分的分数。因此,第一服务器(306)和数据库(304)是可能疑犯,其中第一服务器(306)是首要疑犯。第二服务器(308)具有落到阈值以下的分数,且因此未被分类为可能疑犯。尽管该示例描述了特定的可能疑犯确定策略,然而根据本文描述的原理,可以使用任何合适的机构来确定头等得分的网络组件中哪些要被分类为可能疑犯。
图4是根据本文描述的原理的用于确定异常网络行为的可疑根本原因的方法(400)的示例的图。在该示例中,该方法(400)包括:从多个网络组件中识别(402)网络中表现出异常行为的异常组件;基于评分策略向每个网络组件分配(404)可能性分数,所述评分策略考虑影响异常组件的最近改变事件;以及基于可能性分数来识别(406)被怀疑是根本原因的网络组件的子集。
该方法还可以包括:基于所收集的与网络组件有关的数据来确定基线行为;以及随时间收集与网络中的最近改变事件有关的数据。对子集内的网络组件进行排名,使得具有越高可能性分数的网络组件排名越高。还向用户发送识别子集的通知。
评分策略可以基于多个因素。因素的非穷举列表包括:频率因素、持续时间因素、改变类型因素、拓扑因素、其他因素及其组合。
图5是根据本文描述的原理的归类系统(500)的示例的图。在该示例中,归类系统(500)通过监视引擎(504)与网络(502)通信。归类系统(500)还包括基线引擎(506)、评分引擎(508)、排名引擎(510)和通知引擎(512)。引擎(504,506,508,510,512)是指执行所指定的功能的硬件和程序指令的组合。引擎(504,506,508,510,512)中的每一个可以包括处理器和存储器。程序指令被存储在存储器中,并使处理器执行引擎的所指定的功能。
监视引擎(504)从网络获得与网络的状况有关以及与改变事件有关的数据。基线引擎(506)使用由监视引擎(504)收集的输入来确定针对网络组件如何操作的基线。如果监视引擎(504)确定网络组件正在相对于基线的可接受范围之外操作,则评分引擎(508)对改变事件最近涉及的每个网络组件进行评分。
排名引擎(510)将网络组件根据其分数进行排名。将具有最高分数的网络组件分类为可能疑犯,并且,通知引擎(512)向用户能够访问信息的位置发送识别可能疑犯的信息。
图6是根据本文描述的原理的归类系统(600)的示例的图。在该示例中,归类系统(600)包括与存储器资源(604)通信的处理资源(602)。处理资源(602)包括至少一个处理器以及用于处理所编程的指令的其他资源。存储器资源(604)一般表示能够存储由归类系统(600)使用的数据(诸如所编程的指令或数据结构)的任何存储器。所示出的存储在存储器资源(604)中的所编程的指令包括组件识别器(606)、改变事件识别器(607)、基线确定器(608)、分数分配器(620)、分数排名器(612)、子集识别器(614)和用户通知器(616)。所示出的存储在存储器资源(604)中的数据结构包括评分策略(618)。
存储器资源(604)包括计算机可读存储介质,所述计算机可读存储介质包含计算机可读程序代码,所述计算机可读程序代码用于使任务被处理资源(602)执行。计算机可读存储介质可以是有形的和/或非暂时性的存储介质。计算机可读存储介质类型的非穷举列表包括非易失性存储器、易失性存储器、随机存取存储器、基于忆阻器的存储器、只写存储器、闪速存储器、电可擦除编程只读存储器、或多种类型的存储器或其组合。
组件识别器(606)表示在被执行时使处理资源(602)识别网络的组件的所编程的指令。基线确定器(608)表示在被执行时使处理资源(602)确定网络组件的基线操作状况的所编程的指令。基线可以包括处于可接受的操作状况下的基线测量以及响应于可接受的改变事件的基线行为。
改变事件识别器(607)表示在被执行时使处理资源(602)响应于在网络中检测到异常行为而识别网络中的最近改变事件的所编程的指令。当网络组件在相对于基线而测量的可接受操作参数之外操作时,识别异常行为。
分数分配器(610)表示在被执行时使处理资源(602)向被识别为最近已被改变事件所涉及的每个网络组件分配分数的所编程的指令。分数分配器基于评分策略(618)计算分数,所述评分策略(618)是存储在存储器资源中的存储规则的数据结构。分数排名器(612)表示在被执行时使处理资源(602)将网络组件根据其分数进行排名的所编程的指令。
子集识别器(614)表示在被执行时使处理资源(602)识别具有最高排名的所排名网络组件的子集的所编程的指令。子集内包括的网络组件被分类为可能疑犯。用户通知器(616)表示在被执行时使处理资源(602)关于可能疑犯而通知用户的所编程的指令。
此外,存储器资源(604)可以是安装包的一部分。响应于安装所述安装包,可以从安装包的源,诸如便携式介质、服务器、远程网络位置、另一位置或其组合,下载存储器资源(604)的所编程的指令。与本文描述的原理兼容的便携式存储器介质包括DVD、CD、闪速存储器、便携盘、磁盘、光盘、其他形式的便携式存储器或其组合。在其他示例中,程序指令已被安装。这里,存储器资源能够包括集成存储器,诸如硬盘驱动器或固态硬盘驱动器等等。
在一些示例中,处理资源(602)和存储器资源(604)位于相同的物理组件内,诸如服务器或网络组件。存储器资源(604)可以是物理组件的主存储器、高速缓存、寄存器、非易失性存储器的一部分或者在物理组件的存储器层级中的其他地方。可替换地,存储器资源(604)可以通过网络与处理资源(602)通信。此外,在所编程的指令位于本地的同时,可以通过网络连接从远程位置访问诸如库之类的数据结构。因此,归类系统(600)可以被实现在用户设备上、服务器上、服务器集合上或其组合。
图6的归类系统(600)可以是通用计算机的一部分。然而在可替换示例中,归类系统(600)是专用集成电路的一部分。
图7是根据本文描述的原理的确定异常网络行为的可疑根本原因的过程的流程图(700)的示例的图。在该示例中,该过程包括:利用监视工具来监视(702)网络;以及确定(704)网络组件的基线活动。
该过程还包括确定(706)是否任何网络组件行为异常。如果没有网络组件行为异常,则该过程包括继续监视(702)网络。然而,如果网络组件行为异常,则该过程包括识别(708)最近改变事件所涉及的网络组件。
基于评分策略对所识别的网络组件进行评分(710),所述评分策略基于与网络组件有多大可能是异常行为的根本原因有关的多个因素。接下来,将所评分的网络组件根据其分数进行排名(712)。可能性分数越高,则排名越高。将具有最高排名的网络组件分类为可能疑犯。向用户通知(714)引起异常行为的可能疑犯。
尽管参考特定的网络组件、网络拓扑和网络组件的数目描述了以上示例,然而根据本文描述的原理,可以使用任何合适类型的网络组件、拓扑或网络组件的数目。此外,尽管参考特定类型的监视工具描述了以上示例,然而根据本文描述的原理,可以使用用于监视网络的任何合适机构。
此外,尽管参考特定的评分因素描述了以上示例,然而根据本文描述的原理,可以使用与确定网络组件是否很可能是根本原因有关的任何合适因素。此外,尽管参考用于从所评分的联网组件中确定可能疑犯的子集的特定机构描述了以上示例,然而可以使用用于确定最高评分的网络组件中哪些应当被分类为可能疑犯的任何合适机构。此外,根据本文描述的原理,可以使用用于向用户通知可能疑犯的任何合适机构。
给出了前面的描述仅为了说明和描述所描述的原理的示例。该描述不意在是穷举的或将这些原理限于所公开的任何精确形式。按照以上教导,许多修改和变型是可能的。

Claims (15)

1.一种用于确定异常网络行为的可疑根本原因的计算机程序产品,包括:
非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质包括与其一起体现的计算机可读程序代码,所述计算机可读程序代码包括程序指令,所述程序指令在被执行时使处理器:
  从多个网络组件中识别网络中表现出异常行为的异常组件;
  基于评分策略向所述网络组件分配可能性分数,所述评分策略考虑影响所述异常组件的最近改变事件;以及
  基于所述可能性分数来识别被怀疑是根本原因的所述网络组件的子集。
2.根据权利要求1所述的计算机程序产品,还包括用于进行下述操作的计算机可读程序代码:在被执行时使所述处理器对所述子集内的所述网络组件排名,使得具有越高可能性分数的所述网络组件排名越高。
3.根据权利要求1所述的计算机程序产品,还包括用于进行下述操作的计算机可读程序代码:在被执行时使所述处理器发送识别所述子集的通知。
4.根据权利要求1所述的计算机程序产品,还包括用于进行下述操作的计算机可读程序代码:在被执行时使所述处理器随时间收集与所述网络中的所述最近改变事件有关的数据。
5.根据权利要求4所述的计算机程序产品,还包括用于进行下述操作的计算机可读程序代码:在被执行时使所述处理器基于所述所收集的与所述网络组件有关的数据来确定基线行为。
6.根据权利要求1所述的计算机程序产品,其中,所述评分策略包括频率因素,所述频率因素考虑所选择的改变事件在所述网络内多久发生一次。
7.根据权利要求1所述的计算机程序产品,其中,所述评分策略包括持续时间因素,所述持续时间因素考虑所选择的改变事件的发生与所述异常行为的开始之间的持续时间。
8.根据权利要求1所述的计算机程序产品,其中,所述评分策略包括改变类型因素,所述改变类型因素考虑改变事件的类型。
9.根据权利要求1所述的计算机程序产品,其中,所述评分策略包括拓扑因素,所述拓扑因素考虑所述网络组件中的哪些在逻辑上连接到所述异常组件。
10.一种用于确定异常网络行为的可疑根本原因的系统,包括:
监视引擎,从多个网络组件中识别网络中表现出异常行为的异常组件;
评分引擎,基于评分策略向所述网络组件中的每一个分配可能性分数,所述评分策略考虑网络改变事件;以及
排名引擎,基于所述可能性分数对被怀疑是根本原因的所述网络组件的子集排名,使得具有越高可能性分数的所述网络组件排名越高。
11.根据权利要求10所述的系统,还包括:通知引擎,发送识别所述子集的通知。
12.根据权利要求10所述的系统,其中,所述监视引擎随时间收集与所述网络中的所述最近改变事件有关的数据。
13.根据权利要求12所述的系统,还包括:基线引擎,基于所述所收集的与所述网络组件有关的数据来确定基线行为。
14.一种用于确定异常网络行为的可疑根本原因的方法,包括:
从多个网络组件中识别网络中表现出异常行为的异常组件;
基于评分策略向所述网络组件分配可能性分数,所述评分策略考虑网络改变事件;
基于所述可能性分数识别被怀疑是根本原因的所述网络组件的子集;以及
基于所述可能性分数对所述子集中的所述网络组件排名。
15.根据权利要求14所述的方法,其中,从所述多个网络组件中识别所述网络中表现出异常行为的异常组件包括:随时间收集与所述网络中的所述最近改变事件有关的数据;以及基于所述所收集的与所述网络组件有关的数据来确定基线行为。
CN201280078189.5A 2012-12-04 2012-12-04 确定异常网络行为的可疑根本原因 Pending CN104956373A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2012/067787 WO2014088559A1 (en) 2012-12-04 2012-12-04 Determining suspected root causes of anomalous network behavior

Publications (1)

Publication Number Publication Date
CN104956373A true CN104956373A (zh) 2015-09-30

Family

ID=50883821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280078189.5A Pending CN104956373A (zh) 2012-12-04 2012-12-04 确定异常网络行为的可疑根本原因

Country Status (3)

Country Link
US (1) US9690645B2 (zh)
CN (1) CN104956373A (zh)
WO (1) WO2014088559A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112867051A (zh) * 2019-11-26 2021-05-28 瞻博网络公司 用于基于对等统计的故障检测的系统和方法

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10409662B1 (en) * 2013-11-05 2019-09-10 Amazon Technologies, Inc. Automated anomaly detection
US10409665B2 (en) * 2014-06-09 2019-09-10 Northrup Grumman Systems Corporation System and method for real-time detection of anomalies in database usage
CN105989155B (zh) * 2015-03-02 2019-10-25 阿里巴巴集团控股有限公司 识别风险行为的方法及装置
US10176033B1 (en) * 2015-06-25 2019-01-08 Amazon Technologies, Inc. Large-scale event detector
US10318366B2 (en) 2015-09-04 2019-06-11 International Business Machines Corporation System and method for relationship based root cause recommendation
US10909018B2 (en) 2015-09-04 2021-02-02 International Business Machines Corporation System and method for end-to-end application root cause recommendation
US10320797B2 (en) 2015-09-25 2019-06-11 International Business Machines Corporation Enabling a multi-dimensional collaborative effort system
US10425452B2 (en) 2015-09-25 2019-09-24 International Business Machines Corporation Identifying changes in multiple resources related to a problem
US10120552B2 (en) 2015-09-25 2018-11-06 International Business Machines Corporation Annotating collaborative content to facilitate mining key content as a runbook
US10594714B2 (en) * 2015-10-28 2020-03-17 Qomplx, Inc. User and entity behavioral analysis using an advanced cyber decision platform
US20180131711A1 (en) * 2016-11-10 2018-05-10 Qualcomm Incorporated Protecting Computing Devices From Malicious Activity
US10678673B2 (en) * 2017-07-12 2020-06-09 Fujitsu Limited Software program fault localization
US10831587B2 (en) 2018-07-29 2020-11-10 Hewlett Packard Enterprise Development Lp Determination of cause of error state of elements in a computing environment based on an element's number of impacted elements and the number in an error state
US10938623B2 (en) * 2018-10-23 2021-03-02 Hewlett Packard Enterprise Development Lp Computing element failure identification mechanism
US11212303B1 (en) * 2018-12-28 2021-12-28 Snap Inc. Detecting anomalous resources and events in social data
US11093319B2 (en) * 2019-05-29 2021-08-17 Microsoft Technology Licensing, Llc Automated recovery of webpage functionality
US11061800B2 (en) * 2019-05-31 2021-07-13 Microsoft Technology Licensing, Llc Object model based issue triage
US11113174B1 (en) * 2020-03-27 2021-09-07 Vmware, Inc. Methods and systems that identify dimensions related to anomalies in system components of distributed computer systems using traces, metrics, and component-associated attribute values
US11880272B2 (en) * 2020-03-27 2024-01-23 VMware LLC Automated methods and systems that facilitate root-cause analysis of distributed-application operational problems and failures by generating noise-subtracted call-trace-classification rules
US11416364B2 (en) * 2020-03-27 2022-08-16 Vmware, Inc. Methods and systems that identify dimensions related to anomalies in system components of distributed computer systems using clustered traces, metrics, and component-associated attribute values
US11880271B2 (en) * 2020-03-27 2024-01-23 VMware LLC Automated methods and systems that facilitate root cause analysis of distributed-application operational problems and failures
US11924064B2 (en) * 2021-12-22 2024-03-05 Atlassian Pty Ltd. Apparatuses, methods, and computer program products for predictive determinations of causal change identification for service incidents
US11861509B2 (en) * 2022-04-14 2024-01-02 Bnsf Railway Company Automated positive train control event data extraction and analysis engine for performing root cause analysis of unstructured data
US20240004626A1 (en) * 2022-06-29 2024-01-04 Dell Products L.P. Systems and methods for self-discovery of information technology (it) environment changes

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007293392A (ja) * 2006-04-20 2007-11-08 Digital Media Professional:Kk 画像生成装置
US20110087924A1 (en) * 2009-10-14 2011-04-14 Microsoft Corporation Diagnosing Abnormalities Without Application-Specific Knowledge
US20120030346A1 (en) * 2010-07-29 2012-02-02 Hitachi, Ltd. Method for inferring extent of impact of configuration change event on system failure
US20120278663A1 (en) * 2010-01-08 2012-11-01 Hideo Hasegawa Operation management apparatus, operation management method, and program storage medium
US20120284713A1 (en) * 2008-02-13 2012-11-08 Quest Software, Inc. Systems and methods for analyzing performance of virtual environments

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7500144B2 (en) 2003-06-20 2009-03-03 International Business Machines Corporation Resolving problems in a business process utilizing a situational representation of component status
US20050283656A1 (en) * 2004-06-21 2005-12-22 Microsoft Corporation System and method for preserving a user experience through maintenance of networked components
US7409595B2 (en) 2005-01-18 2008-08-05 International Business Machines Corporation History-based prioritizing of suspected components
US7877803B2 (en) 2005-06-27 2011-01-25 Hewlett-Packard Development Company, L.P. Automated immune response for a computer
JP4896573B2 (ja) * 2006-04-20 2012-03-14 株式会社東芝 障害監視システムと方法、およびプログラム
US8655623B2 (en) 2007-02-13 2014-02-18 International Business Machines Corporation Diagnostic system and method
JP5063212B2 (ja) * 2007-06-25 2012-10-31 株式会社日立産機システム 複数コンポーネントシステム
JP5129725B2 (ja) * 2008-11-19 2013-01-30 株式会社日立製作所 装置異常診断方法及びシステム
US10031829B2 (en) 2009-09-30 2018-07-24 International Business Machines Corporation Method and system for it resources performance analysis
US20110320228A1 (en) 2010-06-24 2011-12-29 Bmc Software, Inc. Automated Generation of Markov Chains for Use in Information Technology
US9071510B2 (en) * 2012-10-25 2015-06-30 Hewlett-Packard Development Company, L.P. Determining root causes of network issues

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007293392A (ja) * 2006-04-20 2007-11-08 Digital Media Professional:Kk 画像生成装置
US20120284713A1 (en) * 2008-02-13 2012-11-08 Quest Software, Inc. Systems and methods for analyzing performance of virtual environments
US20110087924A1 (en) * 2009-10-14 2011-04-14 Microsoft Corporation Diagnosing Abnormalities Without Application-Specific Knowledge
US20120278663A1 (en) * 2010-01-08 2012-11-01 Hideo Hasegawa Operation management apparatus, operation management method, and program storage medium
US20120030346A1 (en) * 2010-07-29 2012-02-02 Hitachi, Ltd. Method for inferring extent of impact of configuration change event on system failure

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112867051A (zh) * 2019-11-26 2021-05-28 瞻博网络公司 用于基于对等统计的故障检测的系统和方法

Also Published As

Publication number Publication date
US9690645B2 (en) 2017-06-27
WO2014088559A1 (en) 2014-06-12
US20150347214A1 (en) 2015-12-03

Similar Documents

Publication Publication Date Title
CN104956373A (zh) 确定异常网络行为的可疑根本原因
US9672085B2 (en) Adaptive fault diagnosis
US20180107528A1 (en) Aggregation based event identification
US8635498B2 (en) Performance analysis of applications
CN104598500B (zh) 数据分类装置及方法和利用该装置及方法的数据收集系统
US9058359B2 (en) Proactive risk analysis and governance of upgrade process
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
US10831587B2 (en) Determination of cause of error state of elements in a computing environment based on an element's number of impacted elements and the number in an error state
US9311176B1 (en) Evaluating a set of storage devices and providing recommended activities
EP2901284A1 (en) Predicting failure of a storage device
CN106383760A (zh) 一种计算机故障管理方法及装置
US20210182164A1 (en) Systems and methods for providing data recovery recommendations using a.i.
US9860109B2 (en) Automatic alert generation
US11663094B2 (en) Reducing recovery time of an application
WO2021107918A1 (en) Identifiers of crash event work items
US20090292742A1 (en) System, Method, and Computer Readable Media for Identifying a Log File Record in a Log File
US11797370B2 (en) Optimized diagnostics plan for an information handling system
CN117640350A (zh) 一种基于事件日志的自主式实时故障隔离方法
CN115829393A (zh) 一种生产主机运行状态评分方法、系统、终端及存储介质
US10255128B2 (en) Root cause candidate determination in multiple process systems
AU2014200806B1 (en) Adaptive fault diagnosis
US20180137024A1 (en) Non-intrusive performance monitor and service engine
Zhou et al. Asldp: An active semi-supervised learning method for disk failure prediction
US11138512B2 (en) Management of building energy systems through quantification of reliability
JP2020135739A (ja) 障害予兆検知システム

Legal Events

Date Code Title Description
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20170122

Address after: American Texas

Applicant after: HEWLETT PACKARD ENTERPRISE DEVELOPMENT LP

Address before: American Texas

Applicant before: Hewlett-Packard Development Company, L.P.

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150930