CN102713861B

CN102713861B - 操作管理装置、操作管理方法以及程序存储介质

Info

Publication number: CN102713861B
Application number: CN201080060935.9A
Authority: CN
Inventors: 长谷川英男
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2010-01-08
Filing date: 2010-12-15
Publication date: 2015-09-23
Anticipated expiration: 2030-12-15
Also published as: EP2523115A4; CN102713861A; EP2523115B1; WO2011083687A1; JP5267684B2; JPWO2011083687A1; EP2523115A1; US20120278663A1; US8645769B2

Abstract

公开了操作管理装置、操作管理方法以及程序存储介质，该操作管理装置、操作管理方法以及程序存储介质缩短了其中在从多个服务器中检测异常时管理员识别故障的原因的时间。该操作管理装置包括故障检测单元(26)和扩散确定单元(27)。该故障检测单元(26)针对连接到公共装置的正被监视的多个装置的每一个，获得关于多个性能指数的测量值，并且确定正被监视的装置的每一个中具有异常测量值的性能指数作为异常项。该扩散确定单元(27)从正被监视的装置的每一个的异常项排除在全部正被监视的装置中检测的异常项，并输出其他异常项。

Description

操作管理装置、操作管理方法以及程序存储介质

技术领域

本发明涉及监视系统上的操作信息的操作管理装置、其操作管理方法及其程序存储介质。

背景技术

在由安装在数据中心等中的由大量服务器和网络设备构成的信息系统的技术领域中，由该系统提供的服务(诸如Web服务、商业服务)的重要性作为社交基础设施而增加。出于该原因，用于管理这些服务的每个服务器稳定操作变得不可缺少。中央监视多个服务器的操作状态并且检测故障发生的集成管理系统被已知为用于管理这样的系统的技术。

例如，广泛已知的是这样集成管理系统，该系统从作为监视目标的多个服务器在线获得关于该操作状态的实际测量的数据，并且在该实际测量的数据超出阈值时检测异常。然而，在该系统中，在检测到异常时，缩窄异常的原因(例如存储器能力的缺乏、CPU上的负载、网络上的负载等)以恢复该系统是必要的。

通常，为了排除异常的原因，不得不检查看起来与该异常相关的计算机的系统日志和参数。该检查不得不依赖于系统工程师的经验和直觉。因此，需要花费时间和能量以排除异常的原因。出于该原因，在通常的集成管理系统中，重要的是以从多个设备收集的事件数据(状态通知)为基础自动执行异常状态等的组合的分析、推测大图片问题点和原因、向管理员进行通知并且支持该管理员。特别地，为了在长期的连续操作中确保服务的可靠性，要求通过不仅检测所发生的异常而且还检测异常没有清晰出现的性能，而降级或者被预测在将来发生的故障符号来执行仪器的计划增强。

这里公开了与这样的集成管理系统相关的下面技术。在日本专利申请特开No.2002-342107公开的技术中，通过限制关于其中在识别所检测的系统故障是软件故障时对于主要单元发生了软件故障的处理的重启范围而降低服务中断时间。

在日本专利申请特开No.2005-285040公开的技术中，从多个网络装置收集连续数量信息作为初始监视信息、监视该连续数量信息的统计行为、在检测到与通常行为不同的行为时首先收集多个相关监视信息、确定每一个值，并且从而识别故障原因。

在日本专利申请特开No.2006-244447公开的技术中，检测数据存储阵列中各种参数的故障倾向性并且避免该系统的故障。该技术控制到由多个数据存储装置构成的存储器阵列空间的访问，并且在历史日志中累积来自每一个数据存储装置的操作性能数据。该技术分析该操作性能数据，以检测该数据存储装置的异常操作并且对该分析做出响应而开始该数据存储装置的校正处理。

在日本专利申请特开No.2008-9842公开的技术中，收集关于计算机系统的操作状态的信息、记录表示所收集的信息之间的相关关系的相关信息、根据该相关信息以及所收集的信息检测在由计算机系统执行的服务中发生的故障、并且生成用于恢复该故障的处理。该技术通过参照该相关信息的该过程的执行确定对计算机系统的效果和影响，并且决定是否执行确定效果和影响的处理、其执行顺序及其执行时间中的至少一个。

在日本专利申请特开No.2009-199533公开的技术中，从要被管理的多个装置获得对于多个种类的性能项的每一个的性能信息并且在性能项或者要被管理的装置被指定作为元件时，以表示对于第一元件的性能信息的时间系列变化的第一性能系列信息、与表示对于第二元件的性能信息的时间系列变化的第二性能系列信息之间的相关函数为基础，生成对于元件的每一个组合的相关模型。该技术分析从要被管理的装置新检测的性能信息是否保持相关模型，并且如果分析的结果为负，则确定元件异常。

发明内容

技术问题

然而，在上面提及的相关技术中，当服务器系统的规模变大时，其中检测到异常的服务器的数量增加并且从而管理员关注于不同的位置，在这些位置处发生故障并且出现花费太多时间来识别作为故障发生源的服务器的问题。

例如，在由多个服务器组构成的多层(multi-tier)系统中，存在其中由在一个服务器中发生的故障扩散到大量的其他服务器并且影响它们导致的异常的情况。在这种情况下，故障发生源由于故障的扩散而变得被掩埋。例如，在三层系统中，由在应用服务器中发生的故障导致的异常扩散到上层Web服务器组，并且从而类似的异常在Web服务器组中同时发生。通常，在许多情况下，异常的扩散以一到多的关系发生。存在其中在一个应用服务器中发生的故障被检测作为在一百个Web服务器中发生的异常的情况。这里，在管理员检查其中被顺次检测到异常的服务器时，如果管理员集中于一百个Web服务器，则花费太多时间来识别作为故障发生源的应用服务器。

本发明的目的在于解决上面提及的问题，并且提供能够呈现用于识别导致异常的故障发生源的有效信息，进而缩短其中管理员识别异常原因的时间的操作管理装置、其操作管理方法及其程序存储介质。

技术方案

根据本发明示例性方面的一种操作管理装置包括：异常项的故障检测装置，用于获得关于连接到公共装置的要被监视的多个目标装置的每一个的多个性能尺度(metric)的测量值，并且检测作为其测量值关于要被监视的多个目标装置的每一个异常的性能尺度，以及扩散确定装置，用于输出从要被监视的多个目标装置的每一个的异常项排除在全部要被监视的多个目标装置中检测的异常项剩余的异常项。

根据本发明示例性方面的一种操作管理方法包括：获得关于连接到公共装置的要被监视的多个目标装置的每一个的多个性能尺度的测量值，检测作为其测量值关于要被监视的多个目标装置的每一个异常的性能尺度的异常项，以及输出从要被监视的多个目标装置的每一个的异常项排除在全部要被监视的多个目标装置中检测的异常项剩余的异常项。

根据本发明示例性方面的一种在其上记录使计算机执行一种方法的操作管理程序的程序记录介质，该方法包括：获得关于连接到公共装置的要被监视的多个目标装置的每一个的多个性能尺度的测量值，检测作为其测量值关于要被监视的多个目标装置的每一个异常的性能尺度的异常项，并且输出从要被监视的多个目标装置的每一个的异常项排除在全部要被监视的多个目标装置中检测的异常项剩余的异常项。

技术效果

本发明具有的优点在于在多个服务器中检测到异常时，管理员能够快速地识别在系统中发生的故障的原因。

附图说明

图1是表示根据本发明示例性实施方式的监视系统的配置的功能方框图。

图2是表示在所述示例性实施方式中的多层系统的配置示例的图。

图3是表示在所述示例性实施方式中在多层系统中发生的故障的扩散状态的示例的图。

图4是表示在所述示例性实施方式中异常项的示例的图。

图5是表示在所述示例性实施方式中用于管理的异常信息的示例的图。

图6是表示在所述示例性实施方式中从异常评分计算单元28输出的信息的示例的图。

图7是表示在所述示例性实施方式中在监视终端3的管理屏幕31中显示的监视信息的示例的图。

图8是表示所述示例性实施方式的服务器操作管理装置的性能信息收集操作的示例的流程图。

图9是表示所述示例性实施方式的服务器操作管理装置的相关模型生成操作的示例的流程图。

图10是表示生成所述示例性实施方式的服务器操作管理装置的用于管理的异常信息的操作的示例的流程图。

图11是表示所述示例性实施方式的服务器操作管理装置的异常评分计算操作的示例的流程图。

图12是表示所述示例性实施方式的特性配置的方框图。

具体实施方式

以下将以附图为基础描述本发明的一个示例性实施方式。

图1是表示示例性实施方式的监视系统的配置的功能方框图。如图1所示，该示例性实施方式的监视系统包括服务器操作管理装置2和监视终端3。服务器操作管理装置2监视要被监视的多个服务器1(要被监视的装置)。监视终端3根据通过管理员的操作输入的检查命令向服务器操作管理装置2传输用于检查在要被监视的每一个服务器1中是否发生异常的请求，并且还在管理屏幕31中显示从服务器操作管理装置2接收的检查结果。

要被监视的服务器1是作为服务器操作管理装置2的监视目标并且多层系统由其组成的服务器。多层系统是其中用于提供服务的信息处理被分离为多个层并且在每一层中提供用于负载分配的服务器组的系统。例如，三层系统由Web服务器组、应用服务器组和数据库服务器组构成。图2是表示在示例性实施方式中多层系统的配置的示例的图。在图2所示的示例中，三层系统由要被监视的服务器1构成。三层系统包括两个应用服务器和三个Web服务器作为要被监视的服务器1。AP服务器组B包括两个应用服务器，并且Web服务器组A包括三个Web服务器。经由互联网D从客户端(未示出)或者另一服务器到Web服务器组A的访问是通过负载均衡器C被相等分配在单独的Web服务器上的负载。单独的Web服务器随机地向第一或者第二应用服务器传输请求。

每一个要被监视的服务器1在每一个服务器中规则地测量多个性能尺度，并且向服务器操作管理装置2发送性能尺度的每一个的实际测量的数据作为性能信息。这里，尺度表明能够在服务器或者网络设备中被观察的性能尺度。例如，CPU(中央处理单元)使用速率、存储器使用、磁盘使用状态、服务应用的操作状态、最新更新模块是否被应用于OS(操作系统)或者应用、密码错误的次数等用作性能尺度。

示例性实施方式的服务器操作管理装置2包括：性能信息收集单元21、性能信息累积单元22、故障检测单元26以及扩散确定单元27。性能信息收集单元21在每一个收集时间从多层系统由其构成的要被监视的多个服务器1的每一个收集关于多个性能尺度测量的一组实际测量的数据来作为性能信息。性能信息累积单元22在要被监视的每一个服务器1上累积所收集的性能信息。故障检测单元26在要被监视的每一个服务器1上从性能信息累积单元22读取出性能信息(该性能信息是在由来自监视终端3的检查请求中由管理员指定的检查时间处测量的)，基于与各自模型数据的比较结果确定每一个性能尺度的实际测量数据是否正常或者异常，并且检测异常性能尺度作为异常项。扩散确定单元27从由故障检测单元26检测的要被监视的每一个服务器1的异常项中提取、并且排除对于相同层中全部要被监视的服务器1公共的异常项，并且生成表示要被监视的每一个服务器1的剩余异常项的用于管理的异常信息用于呈现给管理员。

在具有这样配置的示例性实施方式的服务器操作管理装置2中，扩散确定单元27通过考虑由来自另一层中的服务器的扩散生成异常项排除对于相同层中全部服务器公共的异常项，并且使用每一个服务器的剩余异常项作为用于管理的异常信息。因此，由于排除了层之间异常的扩散而能够向管理员呈现其中故障发生源没有被掩埋的信息。

这里，在发生异常的扩散时，在一个服务器中发生的故障使得连接到服务器的另一层中的大量服务器出现异常。图3是表示在示例性实施方式中在多层系统中发生的故障的扩散状态的示例的图。例如，如图3所示，当在应用服务器组的一个服务器中发生故障时，其一致性地影响Web服务器组的全部服务器，并且类似的异常在全部Web服务器中同时发生。结果，在一个应用服务器的故障扩散时，其中检测到异常的Web服务器的数量是应用服务器的数量的几倍。

示例性实施方式的服务器操作管理装置2可以包括异常评分计算单元28。异常评分计算单元28以由扩散确定单元27生成的用于管理的异常信息为基础，对要被监视的每一个服务器1的异常项的数量进行计数，并且计算异常项的数量在对于要被监视的每一个服务器1的性能尺度的数量中的比例作为异常评分。

通过执行这样的处理，计算其中取消了性能尺度的数量差异的异常评分作为表明要被监视的每一个服务器1的异常程度的值。因此，能够与要被监视的每一个服务器1的性能尺度的数量差异无关地确定异常集中于其上的要被监视的服务器1并且能够获得原因候选的正确分级。

而且，示例性实施方式的服务器操作管理装置2包括相关模型生成单元23和相关模型存储单元24。相关模型生成单元23以在性能信息累积单元22中累积的预定时段内的关于要被监视的服务器1的每一个的正常性能信息为基础，生成表明两个性能尺度的实际测量的数据之间的相关性的变换函数，来作为对于要被监视的服务器1的每一个的两个性能尺度的每一个组合的相关模型。相关模型存储单元24存储每一个生成的相关模型。故障检测单元26以对于在检查时间处测量的关于要被监视的每一个服务器的性能信息中性能尺度的组合的相关模型为基础，对组合中的一个的实际测量的数据与根据组合中的另一个的实际测量的数据计算的模型数据进行比较。故障检测单元26确定差异是否满足预定误差范围的条件，并且作为上面提及的异常项检测差异不满足条件的性能尺度的组合。

通过使用上面提及的方法，能够检测其中正常状态下的相关变为腐化的多个性能尺度组合，并且能够以所检测的组合中的重叠性能尺度为基础快速识别故障发生源。

而且，示例性实施方式的服务器操作管理装置2包括逻辑结构信息存储单元25和通信控制单元29。逻辑结构信息存储单元25提前存储表示要被监视的多个服务器1的每一个所属于的层的多层逻辑结构信息。通信控制单元29控制与监视终端3的通信。

服务器操作管理装置2中的性能信息收集单元21从其收集在其中测量的要被监视的每一个服务器1的性能信息，并且将其顺序发送到性能信息累积单元22。

性能信息累积单元22存储并且管理关于要被监视的每一个服务器1的性能信息作为对于每一个性能尺度的时间系列数据，并且还对来自相关模型生成单元23或者故障检测单元26的请求做出响应而在指定时段内输出关于要被监视的每一个服务器1的性能信息。

相关模型生成单元23从性能信息累积单元22获得在预定时段内关于要被监视的每一个服务器1的正常性能信息。这里，相关模型生成单元23获得关于要被监视的每一个服务器1的全部性能尺度的实际测量的数据。相关模型生成单元23以预定的算术算法为基础计算表明关于对于要被监视的每一个服务器1的两个尺度的全部组合的相关性。这里，作为预定时段，可以使用例如一周、一个月等。相关模型生成单元23可以通过使用在日本专利申请特开No.2009-199533中描述的技术生成相关模型。

例如，在关于要被监视的服务器1的性能信息中x为性能尺度组合中的一个的性能尺度的实际测量的数据、并且y为另一个的性能尺度的实际测量的数据时，相关模型生成单元23计算系数A和B的值以使得变换函数“y＝Ax+B”满足算术算法。相关模型生成单元23可以使用包括系数A和B的计算值的变换函数“y＝Ax+B”作为与性能尺度的组合相对应的相关模型。

相关模型存储单元24接收并且存储由相关模型生成单元23生成的相关模型，并且还对来自故障检测单元26的请求做出响应而输出相关模型。逻辑结构信息存储单元25提前存储其中要被监视的每一个服务器1的标识符与要被监视的服务器1所属于的层的名称相关联的多层逻辑结构信息。

故障检测单元26从性能信息累积单元22读取出在由来自监视终端3的检查请求指定的检查时段内要被监视的每一个服务器1的性能信息，并且还从相关模型存储单元24读取出要被监视的每一个服务器1的相关模型。故障检测单元26根据在检查时段中对于每一个收集时间的在要被监视的每一个服务器1上的性能信息中的性能尺度的组合计算组合中的一个的实际测量的数据、与通过将另一个组合的实际测量的数据代入相关模型中计算的模型数据之间的残值。在残值超出预定值时，故障检测单元26检测性能尺度的该组合作为异常项。

例如，在性能尺度的组合是“系统处理的CPU使用速率”和“存储器使用”的组合时，故障检测单元26将以通过使用“系统处理的CPU使用速率”作为输入的相关模型为基础计算的“存储器使用”的模型数据与“存储器使用”的实际测量的数据进行比较。在残值没有在预定的可允许范围内时，故障检测单元26检测该组合作为异常项。

扩散确定单元27以提前存储在逻辑结构信息存储单元25中的逻辑结构信息为基础，识别要被监视的每一个服务器1所属于的层(服务器组)，并且从由故障检测单元26检测的要被监视的每一个服务器1的异常项提取对于相同层中全部要被监视的服务器1公共的异常项。扩散确定单元27生成用于管理的异常信息，其中通过从要被监视的每一个服务器的全部异常项排除所提取的公共异常项而考虑异常的扩散。

这里，将以图4和图5所示的具体示例为基础描述扩散确定单元27的功能。图4是表示示例性实施方式中的异常项的示例的图。图4示出了在三个Web服务器和两个应用服务器是要被监视的服务器1时由故障检测单元26检测的要被监视的每一个服务器1的异常项。图5是表示示例性实施方式中用于管理的异常信息的示例的图。图5示出了通过扩散确定单元27从图4所示的要被监视的每一个服务器1的异常项提取和排除对于每一层中要被监视的服务器1之间公共的异常项而生成的用于管理的异常信息。

在图4和图5中，“Web 1”、“Web 2”或者“Web 3”代表Web服务器的标识符(服务器名称)，并且“AP1”或者“AP2”代表应用服务器的标识符(服务器名称)。在图4中，作为每一个服务器的异常项，示出了其中检测到相关中的异常的性能尺度的组合(一个是性能尺度u并且另一个是性能尺度y)。其中，“CPU用户％”代表用户处理的CPU使用速率。“CPU系统％”代表系统处理的CPU使用速率。“磁盘IO/秒”代表磁盘输入/输出速率。“所使用的存储器％”代表存储器使用。“所使用的磁盘％”代表磁盘使用。“CPU等待I/O％”代表CPU输入/输出等待时间。“分组接收”和“分组发送”分别代表接收分组的数量和发送分组的数量。

在图4所示的示例中，在由“Web 1”、“Web 2”和“Web 3”构成的Web服务器组中，“CPU用户％”和“CPU系统％”的组合以及“所使用的存储器％”和“所使用的磁盘％”的组合是三个Web服务器之间公共的异常项。另一方面，在由“AP1”和“AP2”构成的应用服务器组中，在两个应用服务器之间不存在公共的异常项。结果，通过扩散确定单元27生成图5中示出的用于管理的异常信息。

异常评分计算单元28从扩散确定单元27接收用于管理的异常信息，并且以该用于管理的异常信息为基础对要被监视的每一个服务器1的异常项的数量进行计数。异常评分计算单元28计算两个尺度的组合的总数量中异常项的数量的比例，作为对于要被监视的每一个服务器1的异常评分，并且向监视终端3发送表明要被监视的每一个服务器1的异常评分的信息以及上面提及的用于管理的异常信息。图6是表示在示例性实施方式中从异常评分计算单元28输出的信息的示例的图。如图6所示，通过异常评分计算单元28输出的信息是具有四列的表，这四列为服务器标识符、异常项的数量、尺度的组合的总数量(相关模型的数量)以及异常评分。在图6所示的示例中，代表应用服务器之一的服务器标识符“AP1”、异常项“7”、相关模型的数量“20”以及异常评分“0.35”被记录在表的第一记录中。

监视终端3根据管理员的操作向服务器操作管理装置2发送检查命令。监视终端3对检查命令做出响应以要被监视的每一个服务器1的异常评分，以及从服务器操作管理装置2发送的用于管理的异常信息为基础在管理屏幕31上显示监视信息。

图7是表示在示例性实施方式中在监视终端3的管理屏幕31上显示的监视信息的示例的图。图7所示的监视信息包括表示要被监视的每一个服务器1的异常评分、相关异常图72以及实际测量的数据图形73的表71。表71具有服务器标识符和异常评分的列。表71的行可以根据异常评分进行设置。表71的行的数量可以被局限于由管理员确定的数量。结果，管理员能够根据分析的结果容易地掌握最可能异常的要被监视的服务器1。

在相关异常图72的四边形区域中示出了每一层与要被监视的每一个服务器1之间的关系。在要被监视的每一个服务器1的区域中显示代表尺度的圆圈，并且在其中检测到异常的尺度之间绘制直线。实际测量的数据图形73包括表示其中按照时间先后顺序检测到异常的两个尺度的实际测量数据的图形，以及表示实际测量的数据与通过故障检测单元26计算的相关模型之间差异的图形。

示例性实施方式的服务器操作管理装置2包括逻辑结构信息存储单元25并且扩散确定单元27，以提前存储在逻辑结构信息存储单元25中的逻辑结构信息为基础识别要被监视的每一个服务器1所属于的层(服务器组)。然而，服务器操作管理装置2的配置并不局限于此。可以使用其中服务器操作管理装置2不包括逻辑结构信息存储单元25，并且扩散确定单元27通过使用在上面提及的关于要被监视的每一个服务器1的性能信息中包括的服务器标识符，而区别要被监视的每一个服务器1所属于的层的配置。例如，在包括在性能信息中的服务器标识符为“Web 2”时，由于“Web”部分被包括在这些标识符中，因此扩散确定单元27可以区别其标识符为“Web2”的Web服务器所属于的层与其标识符为“Web 1”和“Web 3”的Web服务器所属于的层相同。

在示例性实施方式的服务器操作管理装置2中，扩散确定单元27通过考虑通过来自另一层的服务器的异常的扩散生成异常项而排除相同层中对于要被监视的服务器1公共的异常项，并且剩余的异常项被显示作为用于管理的异常信息。因此，能够解决其中故障发生源通过层之间的异常的扩散变为掩埋的问题。此外，对于要被监视的每一个服务器1计算作为独立于服务器之间的尺度数量差异的表示符的异常评分。因此，管理员能够容易地识别最可能为故障发生源的要被监视的服务器1。

接下来，将描述在示例性实施方式中服务器操作管理装置2的操作。这里，下面描述的关于操作的描述也包括关于本发明的服务器操作管理方法的示例性实施方式的描述。

图8是表示示例性实施方式的服务器操作管理装置2的性能信息收集操作的流程图。如图8所示，首先，性能信息收集单元21确定其是否为根据预定时间间隔(例如一分钟间隔)提前设置的收集时间(图8中的步骤S81)，并且在确定其为收集时间时，其访问要被监视的服务器1并且获得性能信息(图8中的步骤S82)。性能信息累积单元22存储关于要被监视的服务器1的所获得的性能信息(图8中的步骤S83)。接下来，性能信息收集单元21通过参照存储在逻辑结构信息存储单元25中的逻辑结构信息确定是否从全部要被监视的服务器1获得了性能信息(图8中的步骤S84)，并且在从全部要被监视的服务器1获得了性能信息时，其等待直到下一个收集时间。

接下来，图9是表示示例性实施方式的服务器操作管理装置2的相关模型生成操作的流程图。

首先，相关模型生成单元23根据来自监视终端3的指令读取出在性能信息累积单元22中累积的预定时段(例如一周)内关于要被监视的每一个服务器1的正常性能信息(图9中的步骤S91)。相关模型生成单元23生成表明性能尺度的实际测量的数据之间的相关的变换函数，作为对于要被监视的每一个服务器1的两个性能尺度的每一个组合的相关模型(图9中的步骤S92)。相关模型存储单元24存储所生成的相关模型的每一个(图9中的步骤S93)。在相关模型生成单元23生成对于全部要被监视的服务器1的相关模型时(图9中步骤S94为是)，其完成相关模型生成操作。

接下来，图10是表示示例性实施方式的服务器操作管理装置2的用于管理的异常信息的检测操作的流程图。

首先，故障检测单元26从性能信息累积单元22读取出对于包括在由监视终端3指定的检查对象时段(例如一周)中的每一个测量时间关于要被监视的每一个服务器1的性能信息(图10中的步骤S101)。故障检测单元26确定性能尺度的实际测量的数据的每一个组合在预定的误差范围内是否满足相对应的相关模型(变换函数)，并且检测不满足相对应的相关模型的性能尺度的组合作为异常项(图10中的步骤S102)。

接下来，扩散确定单元27通过参照逻辑结构信息从由故障检测单元26检测的要被监视的每一个服务器1的异常项提取对于相同层中全部要被监视的服务器1公共的异常项(图10中的步骤S103)。扩散确定单元27生成表明通过从要被监视的每一个服务器1的异常项排除该提取的公共异常项获得的剩余异常项的用于管理的异常信息(图10中的步骤S104)。在对于全部层生成用于管理的异常信息(图10中的步骤S105为是)时，扩散确定单元27向异常评分计算单元28输出用于管理的异常信息(图10中的步骤S106)。

通过执行这些步骤，通过考虑通过来自另一层中的服务器的异常的扩散生成异常项，并且剩余的异常项用作用于管理的异常信息而排除对于相同层中全部要被监视的服务器2公共的异常项。因此，能够抑制其中异常发生源通过层之间的异常扩散变为掩埋的问题。

接下来，图11是表示示例性实施方式的服务器操作管理装置2的异常评分计算操作的流程图。

首先，异常评分计算单元28以从扩散确定单元27输入的用于的异常信息为基础，对对于要被监视的每一个服务器1的异常项的数量进行计数(图11中的步骤S111)。异常评分计算单元28通过参照存储在相关模型存储单元24中的相关模型，对对于要被监视的每一个服务器1的相关模型的数量进行计数(图11中的步骤S112)。接下来，异常评分计算单元28计算在对于要被监视的每一个服务器1的相关模型的数量中异常项的数量的比例作为异常评分(图11中的步骤S113)。

在对于全部要被监视的服务器1计算了异常评分(图11中的步骤S114为是)时，向监视终端3输出要被监视的每一个服务器1的异常评分(图11中的步骤S115)。

通过执行这些步骤，对于要被监视的每一个服务器1能够计算根据尺度数量的异常评分，并且因而能够独立于尺度的数量来确定异常所集中在其上的要被监视的服务器1，并且能够获得原因候选的正确评级。

可以使用其中通过执行计算机程序实现上面提及的服务器操作管理装置2中的性能信息收集单元21、相关模型生成单元23、故障检测单元26、扩散确定单元27和异常评分计算单元28的功能内容的配置。

接下来将描述示例性实施方式的特性配置。图12是表示示例性实施方式的特性配置的方框图。

操作管理装置包括故障检测单元26和扩散确定单元27。

这里，故障检测单元26获得关于连接到公共装置的要被监视的多个目标装置的每一个的多个性能尺度的测量值，并且检测作为其测量值关于要被监视的多个目标装置的每一个异常的性能尺度的异常项。扩散确定单元27输出从要被监视的多个目标装置的每一个的异常项排除在全部要被监视的多个目标装置中检测的异常项的剩余异常项。

如上面提及的，示例性实施方式的服务器操作管理装置2通过使用负载分配集群服务器组的特征确定在每一个服务器组中发生的异常之间的相似性、识别在服务器组之间发生的异常的扩散并且校正异常信息。因此，管理员能够容易地区分异常的原因。

在示例性实施方式的服务器操作管理装置2检测到多层系统中要被监视的多个服务器1的异常时，其通过考虑由来自另一层中的服务器的异常的扩散生成异常项，并且使用剩余的异常项作为用于管理的异常信息，而从要被监视的每一个服务器1的异常项排除对于相同层中全部要被监视的服务器1公共的异常项。因此，通过相对增加作为故障发生源的要被监视的服务器1的异常项的数量，能够抑制其中故障发生源被掩埋的问题。结果，管理员能够根据分析的结果容易地掌握要被监视的服务器1，并且能够正确而快速地阐释在多层系统中发生的异常的原因。

在日本专利特开No.2009-199533等中公开的上面提及的相关技术中，在多层系统中，在作为故障发生源的服务器的尺度数量小时，发生其中故障的原因被掩埋的问题。

例如，由于所安装的磁盘数量的差异以及这些服务器之间的软件的监视项数量的差异，应用服务器和数据库服务器之一的尺度数量为另一个的尺度数量的许多倍，以使得在各自层的服务器组之间存在尺度数量的相对大的差异。这里，在其中尺度的总数量相对小的服务器为故障发生源时，由于作为故障发生源的服务器的异常尺度的数量上限与另一个相比较较小，因此即使在全部尺度表明异常时，服务器的异常尺度的数量小于故障所扩散到的另一服务器的异常尺度的数量。通常，管理员从其中异常尺度的数量的绝对值大的服务器开始检查。因此，作为故障发生源的服务器的异常变为在其他服务器组的异常中被掩埋。出于该原因，管理员聚焦于错误的服务器。结果，管理员错误地确定异常的原因。

示例性实施方式的服务器操作管理装置2对于要被监视的每一个服务器1计算与尺度的数量相对应的异常评分。因此，能够执行包括其中尺度数量相对小的要被监视的服务器1的无缝分析、与要被监视的服务器1之间的尺度数量的差异无关地识别异常集中于其上的要被监视的服务器1并且获得原因候选的正确评级。结果，管理员能够正确而快速地识别故障位置。

尽管参照其示例性实施方式具体示出和描述了本发明，但是本发明并不局限于这些实施方式。本领域的普通技术人员将理解，在不偏离如由权利要求限定的本发明的精神和范围的情况下可以对其在形式和细节上进行各种改变。

例如，在上面提及的示例性实施方式中，在两个性能尺度的测量值不满足与这两个性能尺度相对应的相关模型时，故障检测单元26检测两个性能尺度的组合作为异常项。然而，故障检测单元26可以通过执行每一个性能尺度的测量值与预定阈值等之间的比较而确定每一个性能尺度是否异常并且可以输出对于其确定为异常的每一个性能尺度作为异常项。

本申请以2010年1月8日递交的日本专利申请No.2010-003008为基础并且要求享有该日本专利申请的优先权，这里以引用的方式结合其全部公开。

工业实用性

本发明能够应用于用于监视多层系统中每一个服务器的操作状态的技术。

附图标记列表

1要被监视的服务器

2服务器操作管理装置

3监视终端

21性能信息收集单元

22性能信息累积单元

23相关模型生成单元

24相关模型存储单元

25逻辑结构信息存储单元

26故障检测单元

27扩散确定单元

28异常评分计算单元

29通信控制单元

31管理屏幕

Claims

1.一种操作管理装置，包括：

故障检测单元，用于获得关于连接到公共装置的要被监视的多个目标装置的每一个的多个性能尺度的测量值，并且检测作为其测量值关于所述要被监视的多个目标装置的每一个为异常的性能尺度的异常项；以及

扩散确定单元，用于输出从所述要被监视的所述多个目标装置的每一个的所述异常项排除在全部所述要被监视的多个目标装置中检测的所述异常项剩余的异常项。

2.根据权利要求1的操作管理装置，进一步包括：相关模型存储单元，用于存储关于所述要被监视的多个目标装置的每一个的所述多个性能尺度中的每两个不同的性能尺度的变换函数，所述变换函数表明所述两个性能尺度之间的相关性，

其中在通过在与所述两个性能尺度相对应的所述变换函数中输入所述多个性能尺度中的所述两个性能尺度中的一个的测量值而获得的值与另一个的测量值之间的差值等于或者大于预定值时，所述故障检测单元检测所述两个性能尺度作为所述异常项。

3.根据权利要求2的操作管理装置，进一步包括：异常评分计算单元，用于输出通过所述扩散确定单元输出的所述异常项的数量在所述要被监视的所述目标装置的所述变换函数的数量中的比例作为关于所述要被监视的多个目标装置的每一个的异常评分。

4.根据权利要求3的操作管理装置，进一步包括：

性能信息累积单元，用于按照时间系列存储所述多个性能尺度的所述测量值，以及所述测量值是在所述要被监视的多个目标装置的每一个中测量的；以及

相关模型生成单元，用于以存储在所述性能信息累积单元中的所述多个性能尺度在预定时段内的所述测量值为基础生成所述变换函数，并且在所述相关模型存储单元中保存所生成的变换函数。

5.一种操作管理方法，包括：

获得关于连接到公共装置的要被监视的多个目标装置的每一个的多个性能尺度的测量值；

检测其测量值关于所述要被监视的多个目标装置的每一个为异常的性能尺度的异常项；以及

输出从所述要被监视的多个目标装置的每一个的所述异常项排除在全部所述要被监视的多个目标装置中检测的所述异常项而剩余的异常项。

6.根据权利要求5的操作管理方法，进一步包括：存储关于所述要被监视的多个目标装置的每一个的所述多个性能尺度中的每两个不同的性能尺度的变换函数，所述变换函数表明所述两个性能尺度之间的相关性，

其中在通过在与所述两个性能尺度相对应的所述变换函数中输入所述多个性能尺度中的所述两个性能尺度中的一个的测量值而获得的值与另一个的测量值之间的差值等于或者大于预定值时，所述检测异常项检测所述两个性能尺度作为所述异常项。

7.根据权利要求6的操作管理方法，进一步包括：输出所述异常项的数量在所述要被监视的所述目标装置的所述变换函数的数量中的比例作为关于所述要被监视的多个目标装置的每一个的异常评分。

8.根据权利要求7的操作管理方法，进一步包括：

按照时间系列存储所述多个性能尺度的所述测量值，以及所述测量值是在所述要被监视的多个目标装置的每一个中测量的；以及

以所述多个性能尺度在预定时段内的所述测量值为基础生成所述变换函数。