CN103797468A - 系统异常的自动化检测 - Google Patents

系统异常的自动化检测 Download PDF

Info

Publication number
CN103797468A
CN103797468A CN201180073608.1A CN201180073608A CN103797468A CN 103797468 A CN103797468 A CN 103797468A CN 201180073608 A CN201180073608 A CN 201180073608A CN 103797468 A CN103797468 A CN 103797468A
Authority
CN
China
Prior art keywords
abnormal
tolerance
watch
measurement result
dog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201180073608.1A
Other languages
English (en)
Inventor
R.伯恩斯坦
I.科亨
E.萨穆尼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of CN103797468A publication Critical patent/CN103797468A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3419Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Environmental & Geological Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种用于真实IT系统问题的自动化检测的方法,可以包括:获取与IT系统的多个配置项目的活动相关联的度量的监控器测量结果。所述方法还可以包括:检测所述监控器测量结果中的异常。所述方法可以进一步包括:对将被视为系统异常的、与拓扑链接的多个配置项目中的配置项目相对应的所检测的异常的并发异常进行分组。所述方法可以进一步包括:计算系统异常的显著性分数,并且基于所计算的显著性分数确定系统异常涉及真实系统问题。

Description

系统异常的自动化检测
背景技术
许多商业组织在监控它们的信息技术(IT)系统(此后为—IT系统)中投入相当大的努力,以确定高质量的服务并提升积极的用户体验。
例如,IT系统的监控可以通过使用负载模拟器(诸如像,惠普(Hewlett-Packard)公司(HP)的LoadRunner ?)来完成,其采用下述方式在系统上模拟负载:生成由虚拟用户造成的负载以便检查系统行为和性能,并且研究所述系统对这些负载的响应。
监控IT系统的另一个方法(其被嵌入商业服务管理(BSM))涉及真实用户监控以及虚拟用户监控。真实用户监控允许当真实用户正在以实时的方式与所述系统交互时监控IT系统的性能和行为,并且识别系统的减速或其他异常。
当真实用户没在使用所述系统时(例如,在下班期间),虚拟用户监控可以被使用,以便提供关于IT系统性能的信息。这在真实用户开始经历所述问题之前提供对减速的早期识别。
监控IT系统的IT操作员旨在识别这种异常、理解它们的起源、并且解决它们。
IT系统监控典型地涉及从大量的监控器中搜集测量结果,所述监控器监控涉及系统元素的各种参数(被称为“度量”),所述系统元素通常被称为配置项目或CI。
存在已知的监控应用,它们给IT操作员提供所监控的IT系统的拓扑表示,其中,所述IT系统由图形表示,CI位于图形的节点处,所述节点由指示连接的节点之间的关系的弧连接。
附图说明
本发明的实施例在接下来的详细说明中被描述,并且在附图中被图示,其中:
图1图示了依据本发明的示例的被监控以对真实系统问题进行自动化检测的IT系统。
图2图示了依据本发明的示例的真实系统问题的自动化检测的过程的流程图。
图3图示了依据本发明的示例的真实系统问题的自动化检测的方法。
图4图示了依据本发明的示例的真实系统问题的自动化检测的设备。
具体实施方式
图1图示了依据本发明的示例的被监控以对真实系统问题进行自动化检测的IT系统。
IT系统102(这个示例中的应用)可以被以拓扑图的形式图形化地表示,所述拓扑图可以包括各种CI 104, 106, 108, 110, 112, 114和116(在本发明的一些示例中,监控器120a-h也可以被认为是CI),其位于由表示节点之间的关系的弧(线)连接的节点(气泡)处。例如,系统102可以包括基础结构110,所述基础结构例如可以包括:数据库116、网络服务器114、和应用服务器112。系统102可以促进若干商业交易104, 106 和108的并发执行,每个交易均涉及用户(不同的用户或相同的用户)。
监控器120a-h可以被用于监控与系统的各种CI的活动相关联的度量的测量结果。例如,监控器120a, 120b和120c均可以测量分别与商业交易104, 106 和108的活动相关联的度量。例如,商业交易(例如,访问页面)的监控器测量结果可以包括:总响应时间(例如,从用户已登录的情形到页面在用户的显示装置上显示的情形的时间),也包括用户时间(例如,从用户装置接收用户的登录信息的情形直到用户装置已向页面在其上被托管的远程服务器发出访问请求的情形的时间)、网络时间(其是所发出的访问请求到达服务器所花费的时间)、和服务器时间(例如,服务器在访问请求被显示到用户之前处理所述访问请求所花费的时间)。每个交易CI(104, 106, 108)可以由提供这些监控器测量结果的多个监控器监控。
可以有多于一个的被分配来测量涉及单个CI的度量的监控器,这由下述监控器举例说明:测量数据库116的度量的监控器120d 和120e,以及测量网络(web)服务器114的度量的监控器120f 和120g。监控器120h测量应用服务器112的度量。
所有监控器均可以被连接到监控模块130,所述监控模块可以从监控器120a-h接收监控器测量结果信息,并且分析这个信息以自动地检测系统异常,这可以通过遵循依据本发明的示例的系统异常的自动化检测的方法而影响所述系统的性能。
与监控器120a-h相关联的度量的监控器测量结果可以被首先研究以确定每个度量的基线。这被完成以确定每个度量的监控器测量结果(度量事件)的标准“正常”模式。这可以在时间上被实现。在每个度量的基线的确立中,统计算法可以被使用,诸如像,Holt-Winters算法、平均和标准偏差的估计、基于时间序列的说明趋势和季节性的行为的统计估计。
一旦每个度量的基线被确立,就有可能可以检测异常了。在一些示例中,所述基线可以是所监控的度量的阈值、或在其内所监控的度量被假定为“正常”的值的范围。
依据本发明的示例,每个度量的“基线可信度”值可以被进一步计算。这个值表示将被与那个度量的“正常”度量事件相关联的度量的监控器测量结果的概率。因此,互补值(其为1减去基线可信度值)表示将与非正常度量事件(也被称为“异常”)相关联的度量的监控器测量结果的概率。所述互补值此后被称为“非正常概率”。
在确立所监控的度量中的每一个的基线之后,可以通过参考所述基线并且查找与它们的基线偏离的度量的监控器测量结果而检测异常。度量事件可以在时间上被跟踪。一旦度量正经历连续的非正常行为(时间上连续的异常)被确立,该度量可以被分类为“连续非正常”。依据本发明的示例,连续非正常度量被认为是异常,其可以被通过参考并发异常而分组在一起,所述并发异常涉及被拓扑链接为系统异常的CI。例如,如果两个度量在特定时间范围内开始显示异常,并且这两个异常涉及相同的CI或涉及在拓扑图中被拓扑链接的多个CI,则所述两个度量可以被分组在一起,并且被分类为单个系统异常。“拓扑链接”指的是在表示所述系统的拓扑图上CI之间具有一个或多个弧的路径的CI。“并发异常”指的是时间上完全或部分重叠的异常,或在预定的时间段内发生的异常。
接下来,系统异常的“显著性”分数可以被计算。
为了计算系统异常的显著性分数,即,发生度量事件(无论是非正常还是正常)的条件概率,当这些发生时,对于被分类为涉及单个系统异常的度量中的每一个,假定所述IT系统中不存在真实的问题。在计算这个概率之后,互补概率可以被计算,其表示并非偶然地发生这些度量事件的概率,即,系统异常真正地表示真实的系统问题的概率。“真实的系统问题”指的是如下情形:系统异常可能影响所述系统的性能,并且需要IT技术人员或其他专业人员的积极参加以解决所述问题。
为了确定系统异常是否“显著”,显著性阈值可以在确定什么会被认为是“高”显著性分数(见在此之后的计算示例)期间被使用。
如果那个系统异常的显著性分数突破了所述显著性阈值,则这个系统异常可以被分类为真实系统问题。在发明的一些示例中,被分类为真实系统问题的系统异常可以被报告给IT操作员。在发明的一些示例中,例如可以使用显示视频信号的显示装置或发出音频信号的音频信号生成器(例如,扬声器),诸如以音频信号、视频信号或二者的组合的形式来发出警报。在一些示例中,被分类为真实系统问题的系统异常可以被记入日志,并且书面报告可以被发出并转发到IT操作员。
在显著性阈值的计算中,“灵敏度”等级可以被考虑,以便允许假警报降低的不同等级。
计算系统异常的显著性分数的算法的示例在此之后被详细描述。
接下来的参数被用作输入:
1. 涉及系统异常的度量中的每一个的度量事件,以及与这些度量相对应的CI。
2. 所述度量事件的非正常概率值。每个度量的0和1之间的范围中的值表示涉及真实系统问题的度量事件的概率。
计算的输出是系统异常的显著性分数,值在0和1之间的范围。
在显著性分数的计算中,接下来的参数可以被考虑:
1. minNumOfCI(最小CI数): 指的是在显著的系统异常中所期望的CI的最小数量,其被用作log函数的底数。
2. minNumOfMetric(最小度量数): 指的是在显著的系统异常中所期望的度量的最小数量,其被用作log函数的底数。
3. abnormalityMeasureLogBase(非正常性测量log底数): 指的是计算的“非正常性测量”的log底数。
4. abnormalWeight(非正常性权重): 指的是涉及正常度量事件的异常的权重。
maxAbnormalProbability(最大非正常概率),其指的是所测量度量事件的最大非正常概率。具有较高的非正常概率值的度量在所述计算中不考虑。
在此之后是所述算法本身:
设A 是系统异常
设CI是系统异常A的CI 的集合。
设#CI是系统异常A的CI 的数量(CI 的大小)
设c是CI的log底数的数量(参数minNumOfCI)
设Met(CIj) 是具有指数j的CI的度量的集合
设#Met(CIj)是具有指数j的CI的度量的数量
设Mji是Cij的度量i
设 #MetTotal是与系统异常相关联的度量的总数量
设m是度量log底数的总数量(参数minNumOfMetric)
设S是显著性分数
设AP(Mij)是Mij的非正常概率
设TransformedAP(Mij)是被变换的Mij的非正常概率
设#Aij是Mij的异常的数量
设#Nij是Mij的正常度量事件的数量
设a是非正常性测量log底数(abnormalityMeasureLogBase)
设w是涉及正常度量事件的非正常的权重(abnormalWeight)
使每个度量的非正常概率值标准化。给定输入中的非正常概率值被假定为在0和maxAbnormalProbability之间的范围。原始的非正常概率值被变换到处于在范围 [0,0.9999]内。
计算Mij偶然地显示非正常行为的概率,按如下:
P(Mji) = TransformedAP(Mij)  ^log-base-a (#Aij + 1 - #Nij/w)
计算CIj偶然地显示非正常行为的概率,按如下:
P(CIj) = 1/#Met(CIj) * Sigma [ P(Mji)  ^log-base-m (#MetTotal) ]
计算A偶然地显示非正常行为的概率,按如下:
P(A) = 1/#CIs * Sigma [ P(CIj)  ^log-base-c (#CIs) ]
计算作为A显示由于真实的系统问题引起的非正常行为的概率的显著性分数:
S(A) = 1 - P(A)
在计算显著性分数之后,显著性分数的显著性阈值可以被计算,例如按在此之后所描述的:
接下来的参数被认为用于输入。
1. Sensitivity(灵敏度):指的是确定突破显著性阈值的灵敏度等级,并且是1到10之间的范围中的整数。
2. maxAbnormalProbability(最大非正常概率): 指的是将在计算中被考虑的最大度量非正常概率值。
输出:显著性阈值,其是0和1之间的范围中的数。
用于计算显著性阈值的算法的示例如下:
使用minBaselineConfidence(最小基线可信度)作为显著性阈值的最小值:
minBaselineConfidence = 1 - maxAbnormalProbability
Significance Threshold = minBaselineConfidence + (sensitivity-1)*(1 - minBaselineConfidence)/10;
依据本发明的示例,此上被计算的、并且被发现突破显著性阈值的异常显著性分数可以从SignificanceThreshold(显著性阈值) 到1的范围变换到0到1的范围,以在显著性分数之间更好地区分,并且如果必要(对于更大的错误警报降低),则允许进一步的异常滤波。
所述值的线性变换可以被使用。然后,由这个变换产生的值可以在参数"exp"的幂中被采用。所述幂函数考虑到原始值之间的更大的差异。
例如,接下来的算法可以被考虑,以下面的参数作为输入:
1. Significance Score(显著性分数),其是SignificanceThreshold(显著性阈值) 和1之间的范围中的值;
2. Significance Threshold,其是0和1之间的范围中的值。
计划的输出是:TransformedSignificance Score(变换的显著性分数),其是0到1范围中的值。
这个算法所考虑的参数:exp是等于(或大于)5的奇数。
然后,接下来的计算被进行:
Transformed Significance Score = [(Significance Score - Significance Threshold) / (1 - Significance Threshold)]  ^exp。
通常而言,显著性分数由下述因素影响:监控器的数量、每个监控器的异常的数量、每个监控器的正常度量事件的数量、将经历非正常行为(异常)的监控器的概率、CI的数量。
需要注意的是:以上的算法仅作为示例被给出,并且可以使用其他的算法。
图2图示了依据本发明的示例的真实系统问题的自动化检测的过程的流程图。
以其通常的形式,方法200可以包括:获取202与IT系统的多个配置项目的活动相关联的度量的监控器测量结果。所述方法还可以包括检测204所述测量结果中的异常。所述方法可以进一步包括:对将被视为系统异常的、与拓扑链接的多个配置项目中的配置项目相对应的所检测的异常的并发异常进行分组206。所述方法还可以包括计算208系统异常的显著性分数;并且基于所计算的显著性分数确定210系统异常涉及真实系统问题。
图3图示了依据本发明的示例的真实系统问题的自动化检测的方法。
这种过程可以采用通过跟踪一段时间上的监控器的行为并且学习它们的“正常”行为而确立每个监控器的基线306的方式开始。
在所述基线被确立之后,来自IT系统的各种监控器的度量被监控302,并且异常被检测308。
假设不是所有的非正常监控器读数都表示真实的问题,并发的异常被基于IT系统的拓扑而分组310。
然后,连续非正常的监控器读数被分析,以通过参考基线306检测312系统异常。系统异常可以被(例如,以包括关于显著异常的信息的警报的方式)报告给用户。显著异常还可以被报告给异常知识库318,并且关于系统异常的信息可以被保存以供将来参考。用户(例如,IT操作员)可以提供320关于异常分类和分辨率(resolution)的信息。
所述监控过程可以在一段时间上被实现,使得下次系统异常被检测312时,所述异常知识库被参考318,以发现过去相似的系统异常314。
如果过去相似的系统异常被发现,则可以警示316用户被怀疑为真实系统异常的再次发生的显著系统异常的存在,警示例如通过向用户提供:关于显著异常的信息(例如,与显著异常相关联的非正常监控器的识别)、和相似异常信息(例如,与过去的显著异常相关联的非正常监控器的识别)、和相似异常分类和分辨率。
图4图示了依据本发明的示例的真实系统问题的自动化检测的设备。设备400可以包括多个监控器404a, 404b 和404c,其测量IT系统的多个配置项目的活动。设备400还可以包括监控器模块405(还见图1中的130),其包括用于在监控器404a, 04b和04c与处理器403之间的接口通信的通信接口(I/F)404。处理器403可以被设计成跟踪所述监控器、检测所测量活动中的异常、对拓扑链接的所检测异常中的异常进行分组、计算所分组异常的显著性分数、以及基于所计算的显著性分数确定所分组的异常中的一个分组异常是真实系统异常。
依据本发明的示例,存储装置406(诸如像,硬盘、或任何其他非临时性计算机可读介质)可被用于存储包括指令的程序,所述指令可由处理器执行以自动化检测系统异常的。
存储器408可以被提供,以便存储这种程序的执行的过程中的暂时信息。
输入/输出(I/O)装置410(诸如像,从包括键盘、指向装置、触敏屏、显示装置、打印机、音频信号生成器的装置组中选择的一个或多个装置)可以被提供,以允许用户输入信息和/或命令,并且允许输出信息,诸如,警报、音频信号、视频信息等。
发明的多方面可以以系统、方法、或计算机程序产品的形式被具体化。相似地,发明的多方面可被具体化为硬件、软件、或二者的组合。发明的多方面可被具体化为计算机程序产品,所述计算机程序产品以在其上被具体化的计算机可读程序代码形式被存储在一个或多个非临时性计算机可读介质上。这种非临时性计算机可读介质可以包括如下指令,当其被执行时使处理器依据本发明的实施例执行方法步骤。在本发明的一些实施例中,存储在所述计算机可读介质上的所述指令可以采用被安装的应用的形式和采用安装包的形式上。
例如,计算机可读介质可以是非临时性计算机可读存储介质。非临时性计算机可读存储介质例如可以是:电子的、光学的、磁的、电磁的、红外的、或半导体系统、设备或装置,或其任何组合。
计算机程序代码可以以任何适合的编程语言编写。所述程序代码可以在单个计算机上或在多个计算机上执行。
发明的各方面被以上参考依据发明的实施例的描绘方法、系统和计算机程序产品的流程图和/或框图而描述。

Claims (15)

1.一种用于真实IT系统问题的自动化检测的方法,所述方法包括:
获取与IT系统的多个配置项目的活动相关联的度量的监控器测量结果;
检测所述监控器测量结果中的异常;
对将被视为系统异常的、与拓扑链接的多个配置项目中的配置项目相对应的所检测的异常的并发异常进行分组;
计算系统异常的显著性分数;以及
基于所计算的显著性分数确定系统异常涉及真实系统问题。
2.如权利要求1所述的方法,其中,检测所述监控器测量结果中的异常是基于每个度量的所确立的基线。
3.如权利要求1所述的方法,进一步包括:在异常知识库中保存关于真实系统异常的信息,以供将来参考。
4.如权利要求3所述的方法,进一步包括:搜索所述异常知识库,以发现过去相似的显著异常。
5.如权利要求1所述的方法,进一步包括:警示用户真实系统问题的确定。
6.如权利要求1所述的方法,进一步包括:在所分组的异常的显著性分数的计算中参考阈值。
7.一种在其上存储有指令的非临时性计算机可读介质,当所述指令由处理器执行时,将使所述处理器执行下述方法:
获取与IT系统的多个配置项目的活动相关联的度量的监控器测量结果,并且确立每个度量的基线;
通过参考每个度量的基线,检测所述监控器测量结果中的异常;
对将被视为系统异常的、与拓扑链接的多个配置项目中的配置项目相对应的所检测的异常的并发异常进行分组;
计算系统异常的显著性分数;以及
基于所计算的显著性分数确定系统异常涉及真实系统问题。
8.如权利要求7所述的非临时性计算机可读介质,其中,所述基线在时间上被确定。
9.如权利要求7所述的非临时性计算机可读介质,其中,显著性分数的计算包括使用一个或多个从下述组中选择的参数,所述组包括:显著系统异常中所期望的多个配置项目中的配置项目的最小数量、显著系统异常中所期望的度量的最小数量、非正常性测量、以及涉及正常度量事件的异常的权重。
10.如权利要求7所述的非临时性计算机可读介质,其中,指令进一步包括:把关于真实系统异常的信息保存在异常知识库中,以供将来参考。
11.一种用于真实IT系统问题的自动化检测的设备,系统包括:
多个监控器,用于获取与IT系统的多个配置项目的活动相关联的度量的监控器测量结果;
处理器,用于检测所述监控器测量结果中的异常;对将被视为系统异常的、与拓扑链接的多个配置项目中的配置项目相对应的所检测的异常的并发异常进行分组;计算系统异常的显著性分数;以及基于所计算的显著性分数确定系统异常涉及真实系统问题。
12.如权利要求11所述的系统,其中,检测所述监控器测量结果中的异常是基于每个度量的所确立的基线。
13.如权利要求11所述的系统,其中,处理器被设计成把关于真实系统异常的信息保存在异常知识库中,以供将来参考。
14.如权利要求13所述的系统,其中,处理器被设计成搜索所述异常知识库,以发现过去相似的显著异常。
15.如权利要求11所述的系统,进一步包括:警示用户系统异常的检测。
CN201180073608.1A 2011-09-21 2011-09-21 系统异常的自动化检测 Pending CN103797468A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2011/052594 WO2013043170A1 (en) 2011-09-21 2011-09-21 Automated detection of a system anomaly

Publications (1)

Publication Number Publication Date
CN103797468A true CN103797468A (zh) 2014-05-14

Family

ID=47914707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180073608.1A Pending CN103797468A (zh) 2011-09-21 2011-09-21 系统异常的自动化检测

Country Status (4)

Country Link
US (1) US9292408B2 (zh)
EP (1) EP2758881A4 (zh)
CN (1) CN103797468A (zh)
WO (1) WO2013043170A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104252401A (zh) * 2014-08-29 2014-12-31 北京阅联信息技术有限公司 一种基于权重的设备状态判断方法及其系统
CN107690623A (zh) * 2015-05-28 2018-02-13 甲骨文国际公司 自动异常检测和解决系统
CN110366727A (zh) * 2017-02-13 2019-10-22 微软技术许可有限责任公司 用于受损范围识别的多信号分析

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2518151A (en) * 2013-09-11 2015-03-18 Ibm Network anomaly detection
IL229819A (en) * 2013-12-05 2016-04-21 Deutsche Telekom Ag System and method for anomalously identifying information technology servers through incident consolidation
EP3114617A4 (en) 2014-03-05 2017-07-26 Ayasdi Inc. Systems and methods for capture of relationships within information
US10216828B2 (en) 2014-03-05 2019-02-26 Ayasdi, Inc. Scalable topological summary construction using landmark point selection
US10002180B2 (en) 2014-03-05 2018-06-19 Ayasdi, Inc. Landmark point selection
CN104050289A (zh) * 2014-06-30 2014-09-17 中国工商银行股份有限公司 一种异常事件检测方法及系统
US10061632B2 (en) * 2014-11-24 2018-08-28 Anodot Ltd. System and method for transforming observed metrics into detected and scored anomalies
US9866578B2 (en) * 2014-12-03 2018-01-09 AlphaSix Corp. System and method for network intrusion detection anomaly risk scoring
EP3745272B1 (en) * 2015-02-02 2022-04-06 New Relic, Inc. An application performance analyzer and corresponding method
US9680646B2 (en) * 2015-02-05 2017-06-13 Apple Inc. Relay service for communication between controllers and accessories
CN105589785A (zh) * 2015-12-08 2016-05-18 中国银联股份有限公司 监控存储设备的io性能的装置和方法
WO2017100795A1 (en) * 2015-12-10 2017-06-15 Ayasdi, Inc. Detection of fraud or abuse
US10331802B2 (en) 2016-02-29 2019-06-25 Oracle International Corporation System for detecting and characterizing seasons
US10867421B2 (en) 2016-02-29 2020-12-15 Oracle International Corporation Seasonal aware method for forecasting and capacity planning
US10699211B2 (en) 2016-02-29 2020-06-30 Oracle International Corporation Supervised method for classifying seasonal patterns
US10885461B2 (en) 2016-02-29 2021-01-05 Oracle International Corporation Unsupervised method for classifying seasonal patterns
US10198339B2 (en) 2016-05-16 2019-02-05 Oracle International Corporation Correlation-based analytic for time-series data
US11082439B2 (en) 2016-08-04 2021-08-03 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
US10915830B2 (en) 2017-02-24 2021-02-09 Oracle International Corporation Multiscale method for predictive alerting
US10949436B2 (en) 2017-02-24 2021-03-16 Oracle International Corporation Optimization for scalable analytics using time series models
US10817803B2 (en) 2017-06-02 2020-10-27 Oracle International Corporation Data driven methods and systems for what if analysis
US11068372B2 (en) * 2018-02-19 2021-07-20 Red Hat, Inc. Linking computing metrics data and computing inventory data
US11281552B2 (en) 2018-05-02 2022-03-22 Visa International Service Association Self-learning alerting and anomaly detection
US10963346B2 (en) 2018-06-05 2021-03-30 Oracle International Corporation Scalable methods and systems for approximating statistical distributions
US10997517B2 (en) 2018-06-05 2021-05-04 Oracle International Corporation Methods and systems for aggregating distribution approximations
US10776196B2 (en) 2018-08-29 2020-09-15 International Business Machines Corporation Systems and methods for anomaly detection in a distributed computing system
US12001926B2 (en) 2018-10-23 2024-06-04 Oracle International Corporation Systems and methods for detecting long term seasons
US11138090B2 (en) 2018-10-23 2021-10-05 Oracle International Corporation Systems and methods for forecasting time series with variable seasonality
US10715402B2 (en) * 2018-11-27 2020-07-14 Servicenow, Inc. Systems and methods for enhanced monitoring of a distributed computing system
US10855548B2 (en) * 2019-02-15 2020-12-01 Oracle International Corporation Systems and methods for automatically detecting, summarizing, and responding to anomalies
US10893064B2 (en) * 2019-04-24 2021-01-12 Microsoft Technology Licensing, Llc Identifying service issues by analyzing anomalies
US11533326B2 (en) 2019-05-01 2022-12-20 Oracle International Corporation Systems and methods for multivariate anomaly detection in software monitoring
US11537940B2 (en) 2019-05-13 2022-12-27 Oracle International Corporation Systems and methods for unsupervised anomaly detection using non-parametric tolerance intervals over a sliding window of t-digests
US11178245B2 (en) * 2019-07-01 2021-11-16 New Relic, Inc. Distributed cluster visualization
US11887015B2 (en) 2019-09-13 2024-01-30 Oracle International Corporation Automatically-generated labels for time series data and numerical lists to use in analytic and machine learning systems
US12095639B2 (en) 2019-10-23 2024-09-17 Aryaka Networks, Inc. Method, device and system for improving performance of point anomaly based data pattern change detection associated with network entity features in a cloud-based application acceleration as a service environment
US12088473B2 (en) 2019-10-23 2024-09-10 Aryaka Networks, Inc. Method, device and system for enhancing predictive classification of anomalous events in a cloud-based application acceleration as a service environment

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080215576A1 (en) * 2008-03-05 2008-09-04 Quantum Intelligence, Inc. Fusion and visualization for multiple anomaly detection systems
CN101854263A (zh) * 2010-06-13 2010-10-06 北京星网锐捷网络技术有限公司 网络拓扑的分析处理方法、系统和管理服务器

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7043661B2 (en) * 2000-10-19 2006-05-09 Tti-Team Telecom International Ltd. Topology-based reasoning apparatus for root-cause analysis of network faults
JP3922375B2 (ja) * 2004-01-30 2007-05-30 インターナショナル・ビジネス・マシーンズ・コーポレーション 異常検出システム及びその方法
US20050246350A1 (en) 2004-04-30 2005-11-03 Opence Inc. System and method for classifying and normalizing structured data
US7668843B2 (en) * 2004-12-22 2010-02-23 Regents Of The University Of Minnesota Identification of anomalous data records
US7599308B2 (en) * 2005-02-04 2009-10-06 Fluke Corporation Methods and apparatus for identifying chronic performance problems on data networks
US7783745B1 (en) * 2005-06-27 2010-08-24 Entrust, Inc. Defining and monitoring business rhythms associated with performance of web-enabled business processes
WO2008121945A2 (en) 2007-03-30 2008-10-09 Netqos, Inc. Statistical method and system for network anomaly detection
US8800036B2 (en) * 2010-01-22 2014-08-05 The School Of Electrical Engineering And Computer Science (Seecs), National University Of Sciences And Technology (Nust) Method and system for adaptive anomaly-based intrusion detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080215576A1 (en) * 2008-03-05 2008-09-04 Quantum Intelligence, Inc. Fusion and visualization for multiple anomaly detection systems
CN101854263A (zh) * 2010-06-13 2010-10-06 北京星网锐捷网络技术有限公司 网络拓扑的分析处理方法、系统和管理服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BRUNO B. ZARPELãO等: "Three Levels Network Analysis for Anomaly Detection", 《2009.17TH INTERNATIONAL CONFERENCE ON SOFTWARE, TELECOMMUNICATIONS & COMPUTER NETWORKS》, 26 September 2009 (2009-09-26), pages 281 - 285, XP031558227 *
KHALID ALSUBHI等: "Alert Prioritization in Intrusion Detection Systems", 《NETWORK OPERATIONS AND MANAGEMENT SYMPOSIUM,2008.NOMS 2008.IEEE》, 11 April 2008 (2008-04-11), pages 33 - 40, XP031290498 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104252401A (zh) * 2014-08-29 2014-12-31 北京阅联信息技术有限公司 一种基于权重的设备状态判断方法及其系统
CN104252401B (zh) * 2014-08-29 2017-02-15 北京阅联信息技术有限公司 一种基于权重的设备状态判断方法及其系统
CN107690623A (zh) * 2015-05-28 2018-02-13 甲骨文国际公司 自动异常检测和解决系统
CN107690623B (zh) * 2015-05-28 2019-06-07 甲骨文国际公司 自动异常检测和解决系统
US10853161B2 (en) 2015-05-28 2020-12-01 Oracle International Corporation Automatic anomaly detection and resolution system
CN110366727A (zh) * 2017-02-13 2019-10-22 微软技术许可有限责任公司 用于受损范围识别的多信号分析
CN110366727B (zh) * 2017-02-13 2023-09-19 微软技术许可有限责任公司 用于受损范围识别的多信号分析

Also Published As

Publication number Publication date
WO2013043170A1 (en) 2013-03-28
EP2758881A4 (en) 2015-09-02
EP2758881A1 (en) 2014-07-30
US20140229768A1 (en) 2014-08-14
US9292408B2 (en) 2016-03-22

Similar Documents

Publication Publication Date Title
CN103797468A (zh) 系统异常的自动化检测
JP6394726B2 (ja) 運用管理装置、運用管理方法、及びプログラム
US8352789B2 (en) Operation management apparatus and method thereof
EP2759938B1 (en) Operations management device, operations management method, and program
US20190311278A1 (en) Application performance analyzer and corresponding method
US8677191B2 (en) Early detection of failing computers
US8635498B2 (en) Performance analysis of applications
US8930757B2 (en) Operations management apparatus, operations management method and program
US8874963B2 (en) Operations management apparatus, operations management method and program thereof
WO2011155621A1 (ja) 障害検出装置、障害検出方法およびプログラム記録媒体
CN104639368A (zh) 通信网络设备的故障处理方法及装置
CN114978568A (zh) 使用机器学习进行数据中心管理
CN102929773A (zh) 信息采集方法和装置
CN106411617A (zh) 电力通信网络故障告警关联处理方法
CN113271224A (zh) 节点的定位方法、装置、存储介质及电子装置
CN107590008B (zh) 一种通过加权熵判断分布式集群可靠度的方法和系统
US20150363250A1 (en) System analysis device and system analysis method
CN108880838B (zh) 业务故障的监控方法及装置、计算机设备及可读介质
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及系统
CN117729576A (zh) 告警监控方法、装置、设备及存储介质
CN114297034B (zh) 云平台监控方法及云平台
CN107370618B (zh) 故障排查方法、装置及电子设备
CN109102083A (zh) 一种维修设备的数量配置方法及相关设备
CN114610560B (zh) 系统异常监控方法、装置和存储介质
CN114095394A (zh) 网络节点故障检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140514