CN103797468A

CN103797468A - 系统异常的自动化检测

Info

Publication number: CN103797468A
Application number: CN201180073608.1A
Authority: CN
Inventors: R.伯恩斯坦; I.科亨; E.萨穆尼
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2011-09-21
Filing date: 2011-09-21
Publication date: 2014-05-14
Also published as: EP2758881A1; WO2013043170A1; US20140229768A1; US9292408B2; EP2758881A4

Abstract

一种用于真实IT系统问题的自动化检测的方法，可以包括：获取与IT系统的多个配置项目的活动相关联的度量的监控器测量结果。所述方法还可以包括：检测所述监控器测量结果中的异常。所述方法可以进一步包括：对将被视为系统异常的、与拓扑链接的多个配置项目中的配置项目相对应的所检测的异常的并发异常进行分组。所述方法可以进一步包括：计算系统异常的显著性分数，并且基于所计算的显著性分数确定系统异常涉及真实系统问题。

Description

系统异常的自动化检测

背景技术

许多商业组织在监控它们的信息技术（IT）系统（此后为—IT系统）中投入相当大的努力，以确定高质量的服务并提升积极的用户体验。

例如，IT系统的监控可以通过使用负载模拟器（诸如像，惠普（Hewlett-Packard）公司（HP）的LoadRunner ?）来完成，其采用下述方式在系统上模拟负载：生成由虚拟用户造成的负载以便检查系统行为和性能，并且研究所述系统对这些负载的响应。

监控IT系统的另一个方法（其被嵌入商业服务管理（BSM））涉及真实用户监控以及虚拟用户监控。真实用户监控允许当真实用户正在以实时的方式与所述系统交互时监控IT系统的性能和行为，并且识别系统的减速或其他异常。

当真实用户没在使用所述系统时（例如，在下班期间），虚拟用户监控可以被使用，以便提供关于IT系统性能的信息。这在真实用户开始经历所述问题之前提供对减速的早期识别。

监控IT系统的IT操作员旨在识别这种异常、理解它们的起源、并且解决它们。

IT系统监控典型地涉及从大量的监控器中搜集测量结果，所述监控器监控涉及系统元素的各种参数（被称为“度量”），所述系统元素通常被称为配置项目或CI。

存在已知的监控应用，它们给IT操作员提供所监控的IT系统的拓扑表示，其中，所述IT系统由图形表示，CI位于图形的节点处，所述节点由指示连接的节点之间的关系的弧连接。

附图说明

本发明的实施例在接下来的详细说明中被描述，并且在附图中被图示，其中：

图1图示了依据本发明的示例的被监控以对真实系统问题进行自动化检测的IT系统。

图2图示了依据本发明的示例的真实系统问题的自动化检测的过程的流程图。

图3图示了依据本发明的示例的真实系统问题的自动化检测的方法。

图4图示了依据本发明的示例的真实系统问题的自动化检测的设备。

具体实施方式

IT系统102（这个示例中的应用）可以被以拓扑图的形式图形化地表示，所述拓扑图可以包括各种CI 104, 106, 108, 110, 112, 114和116（在本发明的一些示例中，监控器120a-h也可以被认为是CI），其位于由表示节点之间的关系的弧（线）连接的节点（气泡）处。例如，系统102可以包括基础结构110，所述基础结构例如可以包括：数据库116、网络服务器114、和应用服务器112。系统102可以促进若干商业交易104, 106 和108的并发执行，每个交易均涉及用户（不同的用户或相同的用户）。

监控器120a-h可以被用于监控与系统的各种CI的活动相关联的度量的测量结果。例如，监控器120a, 120b和120c均可以测量分别与商业交易104, 106 和108的活动相关联的度量。例如，商业交易（例如，访问页面）的监控器测量结果可以包括：总响应时间（例如，从用户已登录的情形到页面在用户的显示装置上显示的情形的时间），也包括用户时间（例如，从用户装置接收用户的登录信息的情形直到用户装置已向页面在其上被托管的远程服务器发出访问请求的情形的时间）、网络时间（其是所发出的访问请求到达服务器所花费的时间）、和服务器时间（例如，服务器在访问请求被显示到用户之前处理所述访问请求所花费的时间）。每个交易CI(104, 106, 108)可以由提供这些监控器测量结果的多个监控器监控。

可以有多于一个的被分配来测量涉及单个CI的度量的监控器，这由下述监控器举例说明：测量数据库116的度量的监控器120d 和120e，以及测量网络（web）服务器114的度量的监控器120f 和120g。监控器120h测量应用服务器112的度量。

所有监控器均可以被连接到监控模块130，所述监控模块可以从监控器120a-h接收监控器测量结果信息，并且分析这个信息以自动地检测系统异常，这可以通过遵循依据本发明的示例的系统异常的自动化检测的方法而影响所述系统的性能。

与监控器120a-h相关联的度量的监控器测量结果可以被首先研究以确定每个度量的基线。这被完成以确定每个度量的监控器测量结果（度量事件）的标准“正常”模式。这可以在时间上被实现。在每个度量的基线的确立中，统计算法可以被使用，诸如像，Holt-Winters算法、平均和标准偏差的估计、基于时间序列的说明趋势和季节性的行为的统计估计。

一旦每个度量的基线被确立，就有可能可以检测异常了。在一些示例中，所述基线可以是所监控的度量的阈值、或在其内所监控的度量被假定为“正常”的值的范围。

依据本发明的示例，每个度量的“基线可信度”值可以被进一步计算。这个值表示将被与那个度量的“正常”度量事件相关联的度量的监控器测量结果的概率。因此，互补值（其为1减去基线可信度值）表示将与非正常度量事件（也被称为“异常”）相关联的度量的监控器测量结果的概率。所述互补值此后被称为“非正常概率”。

在确立所监控的度量中的每一个的基线之后，可以通过参考所述基线并且查找与它们的基线偏离的度量的监控器测量结果而检测异常。度量事件可以在时间上被跟踪。一旦度量正经历连续的非正常行为（时间上连续的异常）被确立，该度量可以被分类为“连续非正常”。依据本发明的示例，连续非正常度量被认为是异常，其可以被通过参考并发异常而分组在一起，所述并发异常涉及被拓扑链接为系统异常的CI。例如，如果两个度量在特定时间范围内开始显示异常，并且这两个异常涉及相同的CI或涉及在拓扑图中被拓扑链接的多个CI，则所述两个度量可以被分组在一起，并且被分类为单个系统异常。“拓扑链接”指的是在表示所述系统的拓扑图上CI之间具有一个或多个弧的路径的CI。“并发异常”指的是时间上完全或部分重叠的异常，或在预定的时间段内发生的异常。

接下来，系统异常的“显著性”分数可以被计算。

为了计算系统异常的显著性分数，即，发生度量事件（无论是非正常还是正常）的条件概率，当这些发生时，对于被分类为涉及单个系统异常的度量中的每一个，假定所述IT系统中不存在真实的问题。在计算这个概率之后，互补概率可以被计算，其表示并非偶然地发生这些度量事件的概率，即，系统异常真正地表示真实的系统问题的概率。“真实的系统问题”指的是如下情形：系统异常可能影响所述系统的性能，并且需要IT技术人员或其他专业人员的积极参加以解决所述问题。

为了确定系统异常是否“显著”，显著性阈值可以在确定什么会被认为是“高”显著性分数（见在此之后的计算示例）期间被使用。

如果那个系统异常的显著性分数突破了所述显著性阈值，则这个系统异常可以被分类为真实系统问题。在发明的一些示例中，被分类为真实系统问题的系统异常可以被报告给IT操作员。在发明的一些示例中，例如可以使用显示视频信号的显示装置或发出音频信号的音频信号生成器（例如，扬声器），诸如以音频信号、视频信号或二者的组合的形式来发出警报。在一些示例中，被分类为真实系统问题的系统异常可以被记入日志，并且书面报告可以被发出并转发到IT操作员。

在显著性阈值的计算中，“灵敏度”等级可以被考虑，以便允许假警报降低的不同等级。

计算系统异常的显著性分数的算法的示例在此之后被详细描述。

接下来的参数被用作输入：

1. 涉及系统异常的度量中的每一个的度量事件，以及与这些度量相对应的CI。

2. 所述度量事件的非正常概率值。每个度量的0和1之间的范围中的值表示涉及真实系统问题的度量事件的概率。

计算的输出是系统异常的显著性分数，值在0和1之间的范围。

在显著性分数的计算中，接下来的参数可以被考虑：

1. minNumOfCI（最小CI数）: 指的是在显著的系统异常中所期望的CI的最小数量，其被用作log函数的底数。

2. minNumOfMetric（最小度量数）: 指的是在显著的系统异常中所期望的度量的最小数量，其被用作log函数的底数。

3. abnormalityMeasureLogBase（非正常性测量log底数）: 指的是计算的“非正常性测量”的log底数。

4. abnormalWeight(非正常性权重): 指的是涉及正常度量事件的异常的权重。

maxAbnormalProbability(最大非正常概率)，其指的是所测量度量事件的最大非正常概率。具有较高的非正常概率值的度量在所述计算中不考虑。

在此之后是所述算法本身：

设A 是系统异常

设CI是系统异常A的CI 的集合。

设#CI是系统异常A的CI 的数量（CI 的大小）

设c是CI的log底数的数量（参数minNumOfCI）

设Met(CIj) 是具有指数j的CI的度量的集合

设#Met(CIj)是具有指数j的CI的度量的数量

设Mji是Cij的度量i

设 #MetTotal是与系统异常相关联的度量的总数量

设m是度量log底数的总数量（参数minNumOfMetric）

设S是显著性分数

设AP(Mij)是Mij的非正常概率

设TransformedAP(Mij)是被变换的Mij的非正常概率

设#Aij是Mij的异常的数量

设#Nij是Mij的正常度量事件的数量

设a是非正常性测量log底数（abnormalityMeasureLogBase）

设w是涉及正常度量事件的非正常的权重（abnormalWeight）

使每个度量的非正常概率值标准化。给定输入中的非正常概率值被假定为在0和maxAbnormalProbability之间的范围。原始的非正常概率值被变换到处于在范围 [0,0.9999]内。

计算Mij偶然地显示非正常行为的概率，按如下：

P(Mji) = TransformedAP(Mij) ^log-base-a (#Aij + 1 - #Nij/w)

计算CIj偶然地显示非正常行为的概率，按如下：

P(CIj) = 1/#Met(CIj) * Sigma [ P(Mji) ^log-base-m (#MetTotal) ]

计算A偶然地显示非正常行为的概率，按如下：

P(A) = 1/#CIs * Sigma [ P(CIj) ^log-base-c (#CIs) ]

计算作为A显示由于真实的系统问题引起的非正常行为的概率的显著性分数：

S(A) = 1 - P(A)

在计算显著性分数之后，显著性分数的显著性阈值可以被计算，例如按在此之后所描述的：

接下来的参数被认为用于输入。

1. Sensitivity(灵敏度)：指的是确定突破显著性阈值的灵敏度等级，并且是1到10之间的范围中的整数。

2. maxAbnormalProbability(最大非正常概率): 指的是将在计算中被考虑的最大度量非正常概率值。

输出：显著性阈值，其是0和1之间的范围中的数。

用于计算显著性阈值的算法的示例如下：

使用minBaselineConfidence（最小基线可信度）作为显著性阈值的最小值：

minBaselineConfidence = 1 - maxAbnormalProbability

Significance Threshold = minBaselineConfidence + (sensitivity-1)*(1 - minBaselineConfidence)/10；

依据本发明的示例，此上被计算的、并且被发现突破显著性阈值的异常显著性分数可以从SignificanceThreshold（显著性阈值）到1的范围变换到0到1的范围，以在显著性分数之间更好地区分，并且如果必要（对于更大的错误警报降低），则允许进一步的异常滤波。

所述值的线性变换可以被使用。然后，由这个变换产生的值可以在参数"exp"的幂中被采用。所述幂函数考虑到原始值之间的更大的差异。

例如，接下来的算法可以被考虑，以下面的参数作为输入：

1. Significance Score（显著性分数），其是SignificanceThreshold（显著性阈值）和1之间的范围中的值；

2. Significance Threshold，其是0和1之间的范围中的值。

计划的输出是：TransformedSignificance Score(变换的显著性分数)，其是0到1范围中的值。

这个算法所考虑的参数：exp是等于（或大于）5的奇数。

然后，接下来的计算被进行：

Transformed Significance Score = [(Significance Score - Significance Threshold) / (1 - Significance Threshold)] ^exp。

通常而言，显著性分数由下述因素影响：监控器的数量、每个监控器的异常的数量、每个监控器的正常度量事件的数量、将经历非正常行为（异常）的监控器的概率、CI的数量。

需要注意的是：以上的算法仅作为示例被给出，并且可以使用其他的算法。

以其通常的形式，方法200可以包括：获取202与IT系统的多个配置项目的活动相关联的度量的监控器测量结果。所述方法还可以包括检测204所述测量结果中的异常。所述方法可以进一步包括：对将被视为系统异常的、与拓扑链接的多个配置项目中的配置项目相对应的所检测的异常的并发异常进行分组206。所述方法还可以包括计算208系统异常的显著性分数；并且基于所计算的显著性分数确定210系统异常涉及真实系统问题。

这种过程可以采用通过跟踪一段时间上的监控器的行为并且学习它们的“正常”行为而确立每个监控器的基线306的方式开始。

在所述基线被确立之后，来自IT系统的各种监控器的度量被监控302，并且异常被检测308。

假设不是所有的非正常监控器读数都表示真实的问题，并发的异常被基于IT系统的拓扑而分组310。

然后，连续非正常的监控器读数被分析，以通过参考基线306检测312系统异常。系统异常可以被（例如，以包括关于显著异常的信息的警报的方式）报告给用户。显著异常还可以被报告给异常知识库318，并且关于系统异常的信息可以被保存以供将来参考。用户（例如，IT操作员）可以提供320关于异常分类和分辨率（resolution）的信息。

所述监控过程可以在一段时间上被实现，使得下次系统异常被检测312时，所述异常知识库被参考318，以发现过去相似的系统异常314。

如果过去相似的系统异常被发现，则可以警示316用户被怀疑为真实系统异常的再次发生的显著系统异常的存在，警示例如通过向用户提供：关于显著异常的信息（例如，与显著异常相关联的非正常监控器的识别）、和相似异常信息（例如，与过去的显著异常相关联的非正常监控器的识别）、和相似异常分类和分辨率。

图4图示了依据本发明的示例的真实系统问题的自动化检测的设备。设备400可以包括多个监控器404a, 404b 和404c，其测量IT系统的多个配置项目的活动。设备400还可以包括监控器模块405（还见图1中的130），其包括用于在监控器404a, 04b和04c与处理器403之间的接口通信的通信接口（I/F）404。处理器403可以被设计成跟踪所述监控器、检测所测量活动中的异常、对拓扑链接的所检测异常中的异常进行分组、计算所分组异常的显著性分数、以及基于所计算的显著性分数确定所分组的异常中的一个分组异常是真实系统异常。

依据本发明的示例，存储装置406（诸如像，硬盘、或任何其他非临时性计算机可读介质）可被用于存储包括指令的程序，所述指令可由处理器执行以自动化检测系统异常的。

存储器408可以被提供，以便存储这种程序的执行的过程中的暂时信息。

输入/输出（I/O）装置410（诸如像，从包括键盘、指向装置、触敏屏、显示装置、打印机、音频信号生成器的装置组中选择的一个或多个装置）可以被提供，以允许用户输入信息和/或命令，并且允许输出信息，诸如，警报、音频信号、视频信息等。

发明的多方面可以以系统、方法、或计算机程序产品的形式被具体化。相似地，发明的多方面可被具体化为硬件、软件、或二者的组合。发明的多方面可被具体化为计算机程序产品，所述计算机程序产品以在其上被具体化的计算机可读程序代码形式被存储在一个或多个非临时性计算机可读介质上。这种非临时性计算机可读介质可以包括如下指令，当其被执行时使处理器依据本发明的实施例执行方法步骤。在本发明的一些实施例中，存储在所述计算机可读介质上的所述指令可以采用被安装的应用的形式和采用安装包的形式上。

例如，计算机可读介质可以是非临时性计算机可读存储介质。非临时性计算机可读存储介质例如可以是：电子的、光学的、磁的、电磁的、红外的、或半导体系统、设备或装置，或其任何组合。

计算机程序代码可以以任何适合的编程语言编写。所述程序代码可以在单个计算机上或在多个计算机上执行。

发明的各方面被以上参考依据发明的实施例的描绘方法、系统和计算机程序产品的流程图和/或框图而描述。

Claims

1.一种用于真实IT系统问题的自动化检测的方法，所述方法包括：

获取与IT系统的多个配置项目的活动相关联的度量的监控器测量结果；

检测所述监控器测量结果中的异常；

对将被视为系统异常的、与拓扑链接的多个配置项目中的配置项目相对应的所检测的异常的并发异常进行分组；

计算系统异常的显著性分数；以及

基于所计算的显著性分数确定系统异常涉及真实系统问题。

2.如权利要求1所述的方法，其中，检测所述监控器测量结果中的异常是基于每个度量的所确立的基线。

3.如权利要求1所述的方法，进一步包括：在异常知识库中保存关于真实系统异常的信息，以供将来参考。

4.如权利要求3所述的方法，进一步包括：搜索所述异常知识库，以发现过去相似的显著异常。

5.如权利要求1所述的方法，进一步包括：警示用户真实系统问题的确定。

6.如权利要求1所述的方法，进一步包括：在所分组的异常的显著性分数的计算中参考阈值。

7.一种在其上存储有指令的非临时性计算机可读介质，当所述指令由处理器执行时，将使所述处理器执行下述方法：

获取与IT系统的多个配置项目的活动相关联的度量的监控器测量结果，并且确立每个度量的基线；

通过参考每个度量的基线，检测所述监控器测量结果中的异常；

计算系统异常的显著性分数；以及

基于所计算的显著性分数确定系统异常涉及真实系统问题。

8.如权利要求7所述的非临时性计算机可读介质，其中，所述基线在时间上被确定。

9.如权利要求7所述的非临时性计算机可读介质，其中，显著性分数的计算包括使用一个或多个从下述组中选择的参数，所述组包括：显著系统异常中所期望的多个配置项目中的配置项目的最小数量、显著系统异常中所期望的度量的最小数量、非正常性测量、以及涉及正常度量事件的异常的权重。

10.如权利要求7所述的非临时性计算机可读介质，其中，指令进一步包括：把关于真实系统异常的信息保存在异常知识库中，以供将来参考。

11.一种用于真实IT系统问题的自动化检测的设备，系统包括：

多个监控器，用于获取与IT系统的多个配置项目的活动相关联的度量的监控器测量结果；

处理器，用于检测所述监控器测量结果中的异常；对将被视为系统异常的、与拓扑链接的多个配置项目中的配置项目相对应的所检测的异常的并发异常进行分组；计算系统异常的显著性分数；以及基于所计算的显著性分数确定系统异常涉及真实系统问题。

12.如权利要求11所述的系统，其中，检测所述监控器测量结果中的异常是基于每个度量的所确立的基线。

13.如权利要求11所述的系统，其中，处理器被设计成把关于真实系统异常的信息保存在异常知识库中，以供将来参考。

14.如权利要求13所述的系统，其中，处理器被设计成搜索所述异常知识库，以发现过去相似的显著异常。

15.如权利要求11所述的系统，进一步包括：警示用户系统异常的检测。