CN103797468A - 系统异常的自动化检测 - Google Patents
系统异常的自动化检测 Download PDFInfo
- Publication number
- CN103797468A CN103797468A CN201180073608.1A CN201180073608A CN103797468A CN 103797468 A CN103797468 A CN 103797468A CN 201180073608 A CN201180073608 A CN 201180073608A CN 103797468 A CN103797468 A CN 103797468A
- Authority
- CN
- China
- Prior art keywords
- abnormal
- tolerance
- watch
- measurement result
- dog
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3495—Performance evaluation by tracing or monitoring for systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0709—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
- H04L41/065—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/16—Threshold monitoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
- G06F11/3419—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Environmental & Geological Engineering (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Debugging And Monitoring (AREA)
Abstract
一种用于真实IT系统问题的自动化检测的方法,可以包括:获取与IT系统的多个配置项目的活动相关联的度量的监控器测量结果。所述方法还可以包括:检测所述监控器测量结果中的异常。所述方法可以进一步包括:对将被视为系统异常的、与拓扑链接的多个配置项目中的配置项目相对应的所检测的异常的并发异常进行分组。所述方法可以进一步包括:计算系统异常的显著性分数,并且基于所计算的显著性分数确定系统异常涉及真实系统问题。
Description
背景技术
许多商业组织在监控它们的信息技术(IT)系统(此后为—IT系统)中投入相当大的努力,以确定高质量的服务并提升积极的用户体验。
例如,IT系统的监控可以通过使用负载模拟器(诸如像,惠普(Hewlett-Packard)公司(HP)的LoadRunner ?)来完成,其采用下述方式在系统上模拟负载:生成由虚拟用户造成的负载以便检查系统行为和性能,并且研究所述系统对这些负载的响应。
监控IT系统的另一个方法(其被嵌入商业服务管理(BSM))涉及真实用户监控以及虚拟用户监控。真实用户监控允许当真实用户正在以实时的方式与所述系统交互时监控IT系统的性能和行为,并且识别系统的减速或其他异常。
当真实用户没在使用所述系统时(例如,在下班期间),虚拟用户监控可以被使用,以便提供关于IT系统性能的信息。这在真实用户开始经历所述问题之前提供对减速的早期识别。
监控IT系统的IT操作员旨在识别这种异常、理解它们的起源、并且解决它们。
IT系统监控典型地涉及从大量的监控器中搜集测量结果,所述监控器监控涉及系统元素的各种参数(被称为“度量”),所述系统元素通常被称为配置项目或CI。
存在已知的监控应用,它们给IT操作员提供所监控的IT系统的拓扑表示,其中,所述IT系统由图形表示,CI位于图形的节点处,所述节点由指示连接的节点之间的关系的弧连接。
附图说明
本发明的实施例在接下来的详细说明中被描述,并且在附图中被图示,其中:
图1图示了依据本发明的示例的被监控以对真实系统问题进行自动化检测的IT系统。
图2图示了依据本发明的示例的真实系统问题的自动化检测的过程的流程图。
图3图示了依据本发明的示例的真实系统问题的自动化检测的方法。
图4图示了依据本发明的示例的真实系统问题的自动化检测的设备。
具体实施方式
图1图示了依据本发明的示例的被监控以对真实系统问题进行自动化检测的IT系统。
IT系统102(这个示例中的应用)可以被以拓扑图的形式图形化地表示,所述拓扑图可以包括各种CI 104, 106, 108, 110, 112, 114和116(在本发明的一些示例中,监控器120a-h也可以被认为是CI),其位于由表示节点之间的关系的弧(线)连接的节点(气泡)处。例如,系统102可以包括基础结构110,所述基础结构例如可以包括:数据库116、网络服务器114、和应用服务器112。系统102可以促进若干商业交易104, 106 和108的并发执行,每个交易均涉及用户(不同的用户或相同的用户)。
监控器120a-h可以被用于监控与系统的各种CI的活动相关联的度量的测量结果。例如,监控器120a, 120b和120c均可以测量分别与商业交易104, 106 和108的活动相关联的度量。例如,商业交易(例如,访问页面)的监控器测量结果可以包括:总响应时间(例如,从用户已登录的情形到页面在用户的显示装置上显示的情形的时间),也包括用户时间(例如,从用户装置接收用户的登录信息的情形直到用户装置已向页面在其上被托管的远程服务器发出访问请求的情形的时间)、网络时间(其是所发出的访问请求到达服务器所花费的时间)、和服务器时间(例如,服务器在访问请求被显示到用户之前处理所述访问请求所花费的时间)。每个交易CI(104, 106, 108)可以由提供这些监控器测量结果的多个监控器监控。
可以有多于一个的被分配来测量涉及单个CI的度量的监控器,这由下述监控器举例说明:测量数据库116的度量的监控器120d 和120e,以及测量网络(web)服务器114的度量的监控器120f 和120g。监控器120h测量应用服务器112的度量。
所有监控器均可以被连接到监控模块130,所述监控模块可以从监控器120a-h接收监控器测量结果信息,并且分析这个信息以自动地检测系统异常,这可以通过遵循依据本发明的示例的系统异常的自动化检测的方法而影响所述系统的性能。
与监控器120a-h相关联的度量的监控器测量结果可以被首先研究以确定每个度量的基线。这被完成以确定每个度量的监控器测量结果(度量事件)的标准“正常”模式。这可以在时间上被实现。在每个度量的基线的确立中,统计算法可以被使用,诸如像,Holt-Winters算法、平均和标准偏差的估计、基于时间序列的说明趋势和季节性的行为的统计估计。
一旦每个度量的基线被确立,就有可能可以检测异常了。在一些示例中,所述基线可以是所监控的度量的阈值、或在其内所监控的度量被假定为“正常”的值的范围。
依据本发明的示例,每个度量的“基线可信度”值可以被进一步计算。这个值表示将被与那个度量的“正常”度量事件相关联的度量的监控器测量结果的概率。因此,互补值(其为1减去基线可信度值)表示将与非正常度量事件(也被称为“异常”)相关联的度量的监控器测量结果的概率。所述互补值此后被称为“非正常概率”。
在确立所监控的度量中的每一个的基线之后,可以通过参考所述基线并且查找与它们的基线偏离的度量的监控器测量结果而检测异常。度量事件可以在时间上被跟踪。一旦度量正经历连续的非正常行为(时间上连续的异常)被确立,该度量可以被分类为“连续非正常”。依据本发明的示例,连续非正常度量被认为是异常,其可以被通过参考并发异常而分组在一起,所述并发异常涉及被拓扑链接为系统异常的CI。例如,如果两个度量在特定时间范围内开始显示异常,并且这两个异常涉及相同的CI或涉及在拓扑图中被拓扑链接的多个CI,则所述两个度量可以被分组在一起,并且被分类为单个系统异常。“拓扑链接”指的是在表示所述系统的拓扑图上CI之间具有一个或多个弧的路径的CI。“并发异常”指的是时间上完全或部分重叠的异常,或在预定的时间段内发生的异常。
接下来,系统异常的“显著性”分数可以被计算。
为了计算系统异常的显著性分数,即,发生度量事件(无论是非正常还是正常)的条件概率,当这些发生时,对于被分类为涉及单个系统异常的度量中的每一个,假定所述IT系统中不存在真实的问题。在计算这个概率之后,互补概率可以被计算,其表示并非偶然地发生这些度量事件的概率,即,系统异常真正地表示真实的系统问题的概率。“真实的系统问题”指的是如下情形:系统异常可能影响所述系统的性能,并且需要IT技术人员或其他专业人员的积极参加以解决所述问题。
为了确定系统异常是否“显著”,显著性阈值可以在确定什么会被认为是“高”显著性分数(见在此之后的计算示例)期间被使用。
如果那个系统异常的显著性分数突破了所述显著性阈值,则这个系统异常可以被分类为真实系统问题。在发明的一些示例中,被分类为真实系统问题的系统异常可以被报告给IT操作员。在发明的一些示例中,例如可以使用显示视频信号的显示装置或发出音频信号的音频信号生成器(例如,扬声器),诸如以音频信号、视频信号或二者的组合的形式来发出警报。在一些示例中,被分类为真实系统问题的系统异常可以被记入日志,并且书面报告可以被发出并转发到IT操作员。
在显著性阈值的计算中,“灵敏度”等级可以被考虑,以便允许假警报降低的不同等级。
计算系统异常的显著性分数的算法的示例在此之后被详细描述。
接下来的参数被用作输入:
1. 涉及系统异常的度量中的每一个的度量事件,以及与这些度量相对应的CI。
2. 所述度量事件的非正常概率值。每个度量的0和1之间的范围中的值表示涉及真实系统问题的度量事件的概率。
计算的输出是系统异常的显著性分数,值在0和1之间的范围。
在显著性分数的计算中,接下来的参数可以被考虑:
1. minNumOfCI(最小CI数): 指的是在显著的系统异常中所期望的CI的最小数量,其被用作log函数的底数。
2. minNumOfMetric(最小度量数): 指的是在显著的系统异常中所期望的度量的最小数量,其被用作log函数的底数。
3. abnormalityMeasureLogBase(非正常性测量log底数): 指的是计算的“非正常性测量”的log底数。
4. abnormalWeight(非正常性权重): 指的是涉及正常度量事件的异常的权重。
maxAbnormalProbability(最大非正常概率),其指的是所测量度量事件的最大非正常概率。具有较高的非正常概率值的度量在所述计算中不考虑。
在此之后是所述算法本身:
设A 是系统异常
设CI是系统异常A的CI 的集合。
设#CI是系统异常A的CI 的数量(CI 的大小)
设c是CI的log底数的数量(参数minNumOfCI)
设Met(CIj) 是具有指数j的CI的度量的集合
设#Met(CIj)是具有指数j的CI的度量的数量
设Mji是Cij的度量i
设 #MetTotal是与系统异常相关联的度量的总数量
设m是度量log底数的总数量(参数minNumOfMetric)
设S是显著性分数
设AP(Mij)是Mij的非正常概率
设TransformedAP(Mij)是被变换的Mij的非正常概率
设#Aij是Mij的异常的数量
设#Nij是Mij的正常度量事件的数量
设a是非正常性测量log底数(abnormalityMeasureLogBase)
设w是涉及正常度量事件的非正常的权重(abnormalWeight)
使每个度量的非正常概率值标准化。给定输入中的非正常概率值被假定为在0和maxAbnormalProbability之间的范围。原始的非正常概率值被变换到处于在范围 [0,0.9999]内。
计算Mij偶然地显示非正常行为的概率,按如下:
P(Mji) = TransformedAP(Mij) ^log-base-a (#Aij + 1 - #Nij/w)
计算CIj偶然地显示非正常行为的概率,按如下:
P(CIj) = 1/#Met(CIj) * Sigma [ P(Mji) ^log-base-m (#MetTotal) ]
计算A偶然地显示非正常行为的概率,按如下:
P(A) = 1/#CIs * Sigma [ P(CIj) ^log-base-c (#CIs) ]
计算作为A显示由于真实的系统问题引起的非正常行为的概率的显著性分数:
S(A) = 1 - P(A)
在计算显著性分数之后,显著性分数的显著性阈值可以被计算,例如按在此之后所描述的:
接下来的参数被认为用于输入。
1. Sensitivity(灵敏度):指的是确定突破显著性阈值的灵敏度等级,并且是1到10之间的范围中的整数。
2. maxAbnormalProbability(最大非正常概率): 指的是将在计算中被考虑的最大度量非正常概率值。
输出:显著性阈值,其是0和1之间的范围中的数。
用于计算显著性阈值的算法的示例如下:
使用minBaselineConfidence(最小基线可信度)作为显著性阈值的最小值:
minBaselineConfidence = 1 - maxAbnormalProbability
Significance Threshold = minBaselineConfidence + (sensitivity-1)*(1 - minBaselineConfidence)/10;
依据本发明的示例,此上被计算的、并且被发现突破显著性阈值的异常显著性分数可以从SignificanceThreshold(显著性阈值) 到1的范围变换到0到1的范围,以在显著性分数之间更好地区分,并且如果必要(对于更大的错误警报降低),则允许进一步的异常滤波。
所述值的线性变换可以被使用。然后,由这个变换产生的值可以在参数"exp"的幂中被采用。所述幂函数考虑到原始值之间的更大的差异。
例如,接下来的算法可以被考虑,以下面的参数作为输入:
1. Significance Score(显著性分数),其是SignificanceThreshold(显著性阈值) 和1之间的范围中的值;
2. Significance Threshold,其是0和1之间的范围中的值。
计划的输出是:TransformedSignificance Score(变换的显著性分数),其是0到1范围中的值。
这个算法所考虑的参数:exp是等于(或大于)5的奇数。
然后,接下来的计算被进行:
Transformed Significance Score = [(Significance Score - Significance Threshold) / (1 - Significance Threshold)] ^exp。
通常而言,显著性分数由下述因素影响:监控器的数量、每个监控器的异常的数量、每个监控器的正常度量事件的数量、将经历非正常行为(异常)的监控器的概率、CI的数量。
需要注意的是:以上的算法仅作为示例被给出,并且可以使用其他的算法。
图2图示了依据本发明的示例的真实系统问题的自动化检测的过程的流程图。
以其通常的形式,方法200可以包括:获取202与IT系统的多个配置项目的活动相关联的度量的监控器测量结果。所述方法还可以包括检测204所述测量结果中的异常。所述方法可以进一步包括:对将被视为系统异常的、与拓扑链接的多个配置项目中的配置项目相对应的所检测的异常的并发异常进行分组206。所述方法还可以包括计算208系统异常的显著性分数;并且基于所计算的显著性分数确定210系统异常涉及真实系统问题。
图3图示了依据本发明的示例的真实系统问题的自动化检测的方法。
这种过程可以采用通过跟踪一段时间上的监控器的行为并且学习它们的“正常”行为而确立每个监控器的基线306的方式开始。
在所述基线被确立之后,来自IT系统的各种监控器的度量被监控302,并且异常被检测308。
假设不是所有的非正常监控器读数都表示真实的问题,并发的异常被基于IT系统的拓扑而分组310。
然后,连续非正常的监控器读数被分析,以通过参考基线306检测312系统异常。系统异常可以被(例如,以包括关于显著异常的信息的警报的方式)报告给用户。显著异常还可以被报告给异常知识库318,并且关于系统异常的信息可以被保存以供将来参考。用户(例如,IT操作员)可以提供320关于异常分类和分辨率(resolution)的信息。
所述监控过程可以在一段时间上被实现,使得下次系统异常被检测312时,所述异常知识库被参考318,以发现过去相似的系统异常314。
如果过去相似的系统异常被发现,则可以警示316用户被怀疑为真实系统异常的再次发生的显著系统异常的存在,警示例如通过向用户提供:关于显著异常的信息(例如,与显著异常相关联的非正常监控器的识别)、和相似异常信息(例如,与过去的显著异常相关联的非正常监控器的识别)、和相似异常分类和分辨率。
图4图示了依据本发明的示例的真实系统问题的自动化检测的设备。设备400可以包括多个监控器404a, 404b 和404c,其测量IT系统的多个配置项目的活动。设备400还可以包括监控器模块405(还见图1中的130),其包括用于在监控器404a, 04b和04c与处理器403之间的接口通信的通信接口(I/F)404。处理器403可以被设计成跟踪所述监控器、检测所测量活动中的异常、对拓扑链接的所检测异常中的异常进行分组、计算所分组异常的显著性分数、以及基于所计算的显著性分数确定所分组的异常中的一个分组异常是真实系统异常。
依据本发明的示例,存储装置406(诸如像,硬盘、或任何其他非临时性计算机可读介质)可被用于存储包括指令的程序,所述指令可由处理器执行以自动化检测系统异常的。
存储器408可以被提供,以便存储这种程序的执行的过程中的暂时信息。
输入/输出(I/O)装置410(诸如像,从包括键盘、指向装置、触敏屏、显示装置、打印机、音频信号生成器的装置组中选择的一个或多个装置)可以被提供,以允许用户输入信息和/或命令,并且允许输出信息,诸如,警报、音频信号、视频信息等。
发明的多方面可以以系统、方法、或计算机程序产品的形式被具体化。相似地,发明的多方面可被具体化为硬件、软件、或二者的组合。发明的多方面可被具体化为计算机程序产品,所述计算机程序产品以在其上被具体化的计算机可读程序代码形式被存储在一个或多个非临时性计算机可读介质上。这种非临时性计算机可读介质可以包括如下指令,当其被执行时使处理器依据本发明的实施例执行方法步骤。在本发明的一些实施例中,存储在所述计算机可读介质上的所述指令可以采用被安装的应用的形式和采用安装包的形式上。
例如,计算机可读介质可以是非临时性计算机可读存储介质。非临时性计算机可读存储介质例如可以是:电子的、光学的、磁的、电磁的、红外的、或半导体系统、设备或装置,或其任何组合。
计算机程序代码可以以任何适合的编程语言编写。所述程序代码可以在单个计算机上或在多个计算机上执行。
发明的各方面被以上参考依据发明的实施例的描绘方法、系统和计算机程序产品的流程图和/或框图而描述。
Claims (15)
1.一种用于真实IT系统问题的自动化检测的方法,所述方法包括:
获取与IT系统的多个配置项目的活动相关联的度量的监控器测量结果;
检测所述监控器测量结果中的异常;
对将被视为系统异常的、与拓扑链接的多个配置项目中的配置项目相对应的所检测的异常的并发异常进行分组;
计算系统异常的显著性分数;以及
基于所计算的显著性分数确定系统异常涉及真实系统问题。
2.如权利要求1所述的方法,其中,检测所述监控器测量结果中的异常是基于每个度量的所确立的基线。
3.如权利要求1所述的方法,进一步包括:在异常知识库中保存关于真实系统异常的信息,以供将来参考。
4.如权利要求3所述的方法,进一步包括:搜索所述异常知识库,以发现过去相似的显著异常。
5.如权利要求1所述的方法,进一步包括:警示用户真实系统问题的确定。
6.如权利要求1所述的方法,进一步包括:在所分组的异常的显著性分数的计算中参考阈值。
7.一种在其上存储有指令的非临时性计算机可读介质,当所述指令由处理器执行时,将使所述处理器执行下述方法:
获取与IT系统的多个配置项目的活动相关联的度量的监控器测量结果,并且确立每个度量的基线;
通过参考每个度量的基线,检测所述监控器测量结果中的异常;
对将被视为系统异常的、与拓扑链接的多个配置项目中的配置项目相对应的所检测的异常的并发异常进行分组;
计算系统异常的显著性分数;以及
基于所计算的显著性分数确定系统异常涉及真实系统问题。
8.如权利要求7所述的非临时性计算机可读介质,其中,所述基线在时间上被确定。
9.如权利要求7所述的非临时性计算机可读介质,其中,显著性分数的计算包括使用一个或多个从下述组中选择的参数,所述组包括:显著系统异常中所期望的多个配置项目中的配置项目的最小数量、显著系统异常中所期望的度量的最小数量、非正常性测量、以及涉及正常度量事件的异常的权重。
10.如权利要求7所述的非临时性计算机可读介质,其中,指令进一步包括:把关于真实系统异常的信息保存在异常知识库中,以供将来参考。
11.一种用于真实IT系统问题的自动化检测的设备,系统包括:
多个监控器,用于获取与IT系统的多个配置项目的活动相关联的度量的监控器测量结果;
处理器,用于检测所述监控器测量结果中的异常;对将被视为系统异常的、与拓扑链接的多个配置项目中的配置项目相对应的所检测的异常的并发异常进行分组;计算系统异常的显著性分数;以及基于所计算的显著性分数确定系统异常涉及真实系统问题。
12.如权利要求11所述的系统,其中,检测所述监控器测量结果中的异常是基于每个度量的所确立的基线。
13.如权利要求11所述的系统,其中,处理器被设计成把关于真实系统异常的信息保存在异常知识库中,以供将来参考。
14.如权利要求13所述的系统,其中,处理器被设计成搜索所述异常知识库,以发现过去相似的显著异常。
15.如权利要求11所述的系统,进一步包括:警示用户系统异常的检测。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2011/052594 WO2013043170A1 (en) | 2011-09-21 | 2011-09-21 | Automated detection of a system anomaly |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103797468A true CN103797468A (zh) | 2014-05-14 |
Family
ID=47914707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180073608.1A Pending CN103797468A (zh) | 2011-09-21 | 2011-09-21 | 系统异常的自动化检测 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9292408B2 (zh) |
EP (1) | EP2758881A4 (zh) |
CN (1) | CN103797468A (zh) |
WO (1) | WO2013043170A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104252401A (zh) * | 2014-08-29 | 2014-12-31 | 北京阅联信息技术有限公司 | 一种基于权重的设备状态判断方法及其系统 |
CN107690623A (zh) * | 2015-05-28 | 2018-02-13 | 甲骨文国际公司 | 自动异常检测和解决系统 |
CN110366727A (zh) * | 2017-02-13 | 2019-10-22 | 微软技术许可有限责任公司 | 用于受损范围识别的多信号分析 |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2518151A (en) * | 2013-09-11 | 2015-03-18 | Ibm | Network anomaly detection |
IL229819A (en) * | 2013-12-05 | 2016-04-21 | Deutsche Telekom Ag | System and method for anomalously identifying information technology servers through incident consolidation |
EP3114617A4 (en) | 2014-03-05 | 2017-07-26 | Ayasdi Inc. | Systems and methods for capture of relationships within information |
US10216828B2 (en) | 2014-03-05 | 2019-02-26 | Ayasdi, Inc. | Scalable topological summary construction using landmark point selection |
US10002180B2 (en) | 2014-03-05 | 2018-06-19 | Ayasdi, Inc. | Landmark point selection |
CN104050289A (zh) * | 2014-06-30 | 2014-09-17 | 中国工商银行股份有限公司 | 一种异常事件检测方法及系统 |
US10061632B2 (en) * | 2014-11-24 | 2018-08-28 | Anodot Ltd. | System and method for transforming observed metrics into detected and scored anomalies |
US9866578B2 (en) * | 2014-12-03 | 2018-01-09 | AlphaSix Corp. | System and method for network intrusion detection anomaly risk scoring |
EP3745272B1 (en) * | 2015-02-02 | 2022-04-06 | New Relic, Inc. | An application performance analyzer and corresponding method |
US9680646B2 (en) * | 2015-02-05 | 2017-06-13 | Apple Inc. | Relay service for communication between controllers and accessories |
CN105589785A (zh) * | 2015-12-08 | 2016-05-18 | 中国银联股份有限公司 | 监控存储设备的io性能的装置和方法 |
WO2017100795A1 (en) * | 2015-12-10 | 2017-06-15 | Ayasdi, Inc. | Detection of fraud or abuse |
US10331802B2 (en) | 2016-02-29 | 2019-06-25 | Oracle International Corporation | System for detecting and characterizing seasons |
US10867421B2 (en) | 2016-02-29 | 2020-12-15 | Oracle International Corporation | Seasonal aware method for forecasting and capacity planning |
US10699211B2 (en) | 2016-02-29 | 2020-06-30 | Oracle International Corporation | Supervised method for classifying seasonal patterns |
US10885461B2 (en) | 2016-02-29 | 2021-01-05 | Oracle International Corporation | Unsupervised method for classifying seasonal patterns |
US10198339B2 (en) | 2016-05-16 | 2019-02-05 | Oracle International Corporation | Correlation-based analytic for time-series data |
US11082439B2 (en) | 2016-08-04 | 2021-08-03 | Oracle International Corporation | Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems |
US10915830B2 (en) | 2017-02-24 | 2021-02-09 | Oracle International Corporation | Multiscale method for predictive alerting |
US10949436B2 (en) | 2017-02-24 | 2021-03-16 | Oracle International Corporation | Optimization for scalable analytics using time series models |
US10817803B2 (en) | 2017-06-02 | 2020-10-27 | Oracle International Corporation | Data driven methods and systems for what if analysis |
US11068372B2 (en) * | 2018-02-19 | 2021-07-20 | Red Hat, Inc. | Linking computing metrics data and computing inventory data |
US11281552B2 (en) | 2018-05-02 | 2022-03-22 | Visa International Service Association | Self-learning alerting and anomaly detection |
US10963346B2 (en) | 2018-06-05 | 2021-03-30 | Oracle International Corporation | Scalable methods and systems for approximating statistical distributions |
US10997517B2 (en) | 2018-06-05 | 2021-05-04 | Oracle International Corporation | Methods and systems for aggregating distribution approximations |
US10776196B2 (en) | 2018-08-29 | 2020-09-15 | International Business Machines Corporation | Systems and methods for anomaly detection in a distributed computing system |
US12001926B2 (en) | 2018-10-23 | 2024-06-04 | Oracle International Corporation | Systems and methods for detecting long term seasons |
US11138090B2 (en) | 2018-10-23 | 2021-10-05 | Oracle International Corporation | Systems and methods for forecasting time series with variable seasonality |
US10715402B2 (en) * | 2018-11-27 | 2020-07-14 | Servicenow, Inc. | Systems and methods for enhanced monitoring of a distributed computing system |
US10855548B2 (en) * | 2019-02-15 | 2020-12-01 | Oracle International Corporation | Systems and methods for automatically detecting, summarizing, and responding to anomalies |
US10893064B2 (en) * | 2019-04-24 | 2021-01-12 | Microsoft Technology Licensing, Llc | Identifying service issues by analyzing anomalies |
US11533326B2 (en) | 2019-05-01 | 2022-12-20 | Oracle International Corporation | Systems and methods for multivariate anomaly detection in software monitoring |
US11537940B2 (en) | 2019-05-13 | 2022-12-27 | Oracle International Corporation | Systems and methods for unsupervised anomaly detection using non-parametric tolerance intervals over a sliding window of t-digests |
US11178245B2 (en) * | 2019-07-01 | 2021-11-16 | New Relic, Inc. | Distributed cluster visualization |
US11887015B2 (en) | 2019-09-13 | 2024-01-30 | Oracle International Corporation | Automatically-generated labels for time series data and numerical lists to use in analytic and machine learning systems |
US12095639B2 (en) | 2019-10-23 | 2024-09-17 | Aryaka Networks, Inc. | Method, device and system for improving performance of point anomaly based data pattern change detection associated with network entity features in a cloud-based application acceleration as a service environment |
US12088473B2 (en) | 2019-10-23 | 2024-09-10 | Aryaka Networks, Inc. | Method, device and system for enhancing predictive classification of anomalous events in a cloud-based application acceleration as a service environment |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080215576A1 (en) * | 2008-03-05 | 2008-09-04 | Quantum Intelligence, Inc. | Fusion and visualization for multiple anomaly detection systems |
CN101854263A (zh) * | 2010-06-13 | 2010-10-06 | 北京星网锐捷网络技术有限公司 | 网络拓扑的分析处理方法、系统和管理服务器 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7043661B2 (en) * | 2000-10-19 | 2006-05-09 | Tti-Team Telecom International Ltd. | Topology-based reasoning apparatus for root-cause analysis of network faults |
JP3922375B2 (ja) * | 2004-01-30 | 2007-05-30 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 異常検出システム及びその方法 |
US20050246350A1 (en) | 2004-04-30 | 2005-11-03 | Opence Inc. | System and method for classifying and normalizing structured data |
US7668843B2 (en) * | 2004-12-22 | 2010-02-23 | Regents Of The University Of Minnesota | Identification of anomalous data records |
US7599308B2 (en) * | 2005-02-04 | 2009-10-06 | Fluke Corporation | Methods and apparatus for identifying chronic performance problems on data networks |
US7783745B1 (en) * | 2005-06-27 | 2010-08-24 | Entrust, Inc. | Defining and monitoring business rhythms associated with performance of web-enabled business processes |
WO2008121945A2 (en) | 2007-03-30 | 2008-10-09 | Netqos, Inc. | Statistical method and system for network anomaly detection |
US8800036B2 (en) * | 2010-01-22 | 2014-08-05 | The School Of Electrical Engineering And Computer Science (Seecs), National University Of Sciences And Technology (Nust) | Method and system for adaptive anomaly-based intrusion detection |
-
2011
- 2011-09-21 EP EP11872600.9A patent/EP2758881A4/en not_active Withdrawn
- 2011-09-21 WO PCT/US2011/052594 patent/WO2013043170A1/en active Application Filing
- 2011-09-21 CN CN201180073608.1A patent/CN103797468A/zh active Pending
- 2011-09-21 US US14/342,664 patent/US9292408B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080215576A1 (en) * | 2008-03-05 | 2008-09-04 | Quantum Intelligence, Inc. | Fusion and visualization for multiple anomaly detection systems |
CN101854263A (zh) * | 2010-06-13 | 2010-10-06 | 北京星网锐捷网络技术有限公司 | 网络拓扑的分析处理方法、系统和管理服务器 |
Non-Patent Citations (2)
Title |
---|
BRUNO B. ZARPELãO等: "Three Levels Network Analysis for Anomaly Detection", 《2009.17TH INTERNATIONAL CONFERENCE ON SOFTWARE, TELECOMMUNICATIONS & COMPUTER NETWORKS》, 26 September 2009 (2009-09-26), pages 281 - 285, XP031558227 * |
KHALID ALSUBHI等: "Alert Prioritization in Intrusion Detection Systems", 《NETWORK OPERATIONS AND MANAGEMENT SYMPOSIUM,2008.NOMS 2008.IEEE》, 11 April 2008 (2008-04-11), pages 33 - 40, XP031290498 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104252401A (zh) * | 2014-08-29 | 2014-12-31 | 北京阅联信息技术有限公司 | 一种基于权重的设备状态判断方法及其系统 |
CN104252401B (zh) * | 2014-08-29 | 2017-02-15 | 北京阅联信息技术有限公司 | 一种基于权重的设备状态判断方法及其系统 |
CN107690623A (zh) * | 2015-05-28 | 2018-02-13 | 甲骨文国际公司 | 自动异常检测和解决系统 |
CN107690623B (zh) * | 2015-05-28 | 2019-06-07 | 甲骨文国际公司 | 自动异常检测和解决系统 |
US10853161B2 (en) | 2015-05-28 | 2020-12-01 | Oracle International Corporation | Automatic anomaly detection and resolution system |
CN110366727A (zh) * | 2017-02-13 | 2019-10-22 | 微软技术许可有限责任公司 | 用于受损范围识别的多信号分析 |
CN110366727B (zh) * | 2017-02-13 | 2023-09-19 | 微软技术许可有限责任公司 | 用于受损范围识别的多信号分析 |
Also Published As
Publication number | Publication date |
---|---|
WO2013043170A1 (en) | 2013-03-28 |
EP2758881A4 (en) | 2015-09-02 |
EP2758881A1 (en) | 2014-07-30 |
US20140229768A1 (en) | 2014-08-14 |
US9292408B2 (en) | 2016-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103797468A (zh) | 系统异常的自动化检测 | |
JP6394726B2 (ja) | 運用管理装置、運用管理方法、及びプログラム | |
US8352789B2 (en) | Operation management apparatus and method thereof | |
EP2759938B1 (en) | Operations management device, operations management method, and program | |
US20190311278A1 (en) | Application performance analyzer and corresponding method | |
US8677191B2 (en) | Early detection of failing computers | |
US8635498B2 (en) | Performance analysis of applications | |
US8930757B2 (en) | Operations management apparatus, operations management method and program | |
US8874963B2 (en) | Operations management apparatus, operations management method and program thereof | |
WO2011155621A1 (ja) | 障害検出装置、障害検出方法およびプログラム記録媒体 | |
CN104639368A (zh) | 通信网络设备的故障处理方法及装置 | |
CN114978568A (zh) | 使用机器学习进行数据中心管理 | |
CN102929773A (zh) | 信息采集方法和装置 | |
CN106411617A (zh) | 电力通信网络故障告警关联处理方法 | |
CN113271224A (zh) | 节点的定位方法、装置、存储介质及电子装置 | |
CN107590008B (zh) | 一种通过加权熵判断分布式集群可靠度的方法和系统 | |
US20150363250A1 (en) | System analysis device and system analysis method | |
CN108880838B (zh) | 业务故障的监控方法及装置、计算机设备及可读介质 | |
CN114531338A (zh) | 一种基于调用链数据的监控告警和溯源方法及系统 | |
CN117729576A (zh) | 告警监控方法、装置、设备及存储介质 | |
CN114297034B (zh) | 云平台监控方法及云平台 | |
CN107370618B (zh) | 故障排查方法、装置及电子设备 | |
CN109102083A (zh) | 一种维修设备的数量配置方法及相关设备 | |
CN114610560B (zh) | 系统异常监控方法、装置和存储介质 | |
CN114095394A (zh) | 网络节点故障检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140514 |