CN102713861B - 操作管理装置、操作管理方法以及程序存储介质 - Google Patents

操作管理装置、操作管理方法以及程序存储介质 Download PDF

Info

Publication number
CN102713861B
CN102713861B CN201080060935.9A CN201080060935A CN102713861B CN 102713861 B CN102713861 B CN 102713861B CN 201080060935 A CN201080060935 A CN 201080060935A CN 102713861 B CN102713861 B CN 102713861B
Authority
CN
China
Prior art keywords
monitored
performance
server
exception
operation management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201080060935.9A
Other languages
English (en)
Other versions
CN102713861A (zh
Inventor
长谷川英男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN102713861A publication Critical patent/CN102713861A/zh
Application granted granted Critical
Publication of CN102713861B publication Critical patent/CN102713861B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

公开了操作管理装置、操作管理方法以及程序存储介质,该操作管理装置、操作管理方法以及程序存储介质缩短了其中在从多个服务器中检测异常时管理员识别故障的原因的时间。该操作管理装置包括故障检测单元(26)和扩散确定单元(27)。该故障检测单元(26)针对连接到公共装置的正被监视的多个装置的每一个,获得关于多个性能指数的测量值,并且确定正被监视的装置的每一个中具有异常测量值的性能指数作为异常项。该扩散确定单元(27)从正被监视的装置的每一个的异常项排除在全部正被监视的装置中检测的异常项,并输出其他异常项。

Description

操作管理装置、操作管理方法以及程序存储介质
技术领域
本发明涉及监视系统上的操作信息的操作管理装置、其操作管理方法及其程序存储介质。
背景技术
在由安装在数据中心等中的由大量服务器和网络设备构成的信息系统的技术领域中,由该系统提供的服务(诸如Web服务、商业服务)的重要性作为社交基础设施而增加。出于该原因,用于管理这些服务的每个服务器稳定操作变得不可缺少。中央监视多个服务器的操作状态并且检测故障发生的集成管理系统被已知为用于管理这样的系统的技术。
例如,广泛已知的是这样集成管理系统,该系统从作为监视目标的多个服务器在线获得关于该操作状态的实际测量的数据,并且在该实际测量的数据超出阈值时检测异常。然而,在该系统中,在检测到异常时,缩窄异常的原因(例如存储器能力的缺乏、CPU上的负载、网络上的负载等)以恢复该系统是必要的。
通常,为了排除异常的原因,不得不检查看起来与该异常相关的计算机的系统日志和参数。该检查不得不依赖于系统工程师的经验和直觉。因此,需要花费时间和能量以排除异常的原因。出于该原因,在通常的集成管理系统中,重要的是以从多个设备收集的事件数据(状态通知)为基础自动执行异常状态等的组合的分析、推测大图片问题点和原因、向管理员进行通知并且支持该管理员。特别地,为了在长期的连续操作中确保服务的可靠性,要求通过不仅检测所发生的异常而且还检测异常没有清晰出现的性能,而降级或者被预测在将来发生的故障符号来执行仪器的计划增强。
这里公开了与这样的集成管理系统相关的下面技术。在日本专利申请特开No.2002-342107公开的技术中,通过限制关于其中在识别所检测的系统故障是软件故障时对于主要单元发生了软件故障的处理的重启范围而降低服务中断时间。
在日本专利申请特开No.2005-285040公开的技术中,从多个网络装置收集连续数量信息作为初始监视信息、监视该连续数量信息的统计行为、在检测到与通常行为不同的行为时首先收集多个相关监视信息、确定每一个值,并且从而识别故障原因。
在日本专利申请特开No.2006-244447公开的技术中,检测数据存储阵列中各种参数的故障倾向性并且避免该系统的故障。该技术控制到由多个数据存储装置构成的存储器阵列空间的访问,并且在历史日志中累积来自每一个数据存储装置的操作性能数据。该技术分析该操作性能数据,以检测该数据存储装置的异常操作并且对该分析做出响应而开始该数据存储装置的校正处理。
在日本专利申请特开No.2008-9842公开的技术中,收集关于计算机系统的操作状态的信息、记录表示所收集的信息之间的相关关系的相关信息、根据该相关信息以及所收集的信息检测在由计算机系统执行的服务中发生的故障、并且生成用于恢复该故障的处理。该技术通过参照该相关信息的该过程的执行确定对计算机系统的效果和影响,并且决定是否执行确定效果和影响的处理、其执行顺序及其执行时间中的至少一个。
在日本专利申请特开No.2009-199533公开的技术中,从要被管理的多个装置获得对于多个种类的性能项的每一个的性能信息并且在性能项或者要被管理的装置被指定作为元件时,以表示对于第一元件的性能信息的时间系列变化的第一性能系列信息、与表示对于第二元件的性能信息的时间系列变化的第二性能系列信息之间的相关函数为基础,生成对于元件的每一个组合的相关模型。该技术分析从要被管理的装置新检测的性能信息是否保持相关模型,并且如果分析的结果为负,则确定元件异常。
发明内容
技术问题
然而,在上面提及的相关技术中,当服务器系统的规模变大时,其中检测到异常的服务器的数量增加并且从而管理员关注于不同的位置,在这些位置处发生故障并且出现花费太多时间来识别作为故障发生源的服务器的问题。
例如,在由多个服务器组构成的多层(multi-tier)系统中,存在其中由在一个服务器中发生的故障扩散到大量的其他服务器并且影响它们导致的异常的情况。在这种情况下,故障发生源由于故障的扩散而变得被掩埋。例如,在三层系统中,由在应用服务器中发生的故障导致的异常扩散到上层Web服务器组,并且从而类似的异常在Web服务器组中同时发生。通常,在许多情况下,异常的扩散以一到多的关系发生。存在其中在一个应用服务器中发生的故障被检测作为在一百个Web服务器中发生的异常的情况。这里,在管理员检查其中被顺次检测到异常的服务器时,如果管理员集中于一百个Web服务器,则花费太多时间来识别作为故障发生源的应用服务器。
本发明的目的在于解决上面提及的问题,并且提供能够呈现用于识别导致异常的故障发生源的有效信息,进而缩短其中管理员识别异常原因的时间的操作管理装置、其操作管理方法及其程序存储介质。
技术方案
根据本发明示例性方面的一种操作管理装置包括:异常项的故障检测装置,用于获得关于连接到公共装置的要被监视的多个目标装置的每一个的多个性能尺度(metric)的测量值,并且检测作为其测量值关于要被监视的多个目标装置的每一个异常的性能尺度,以及扩散确定装置,用于输出从要被监视的多个目标装置的每一个的异常项排除在全部要被监视的多个目标装置中检测的异常项剩余的异常项。
根据本发明示例性方面的一种操作管理方法包括:获得关于连接到公共装置的要被监视的多个目标装置的每一个的多个性能尺度的测量值,检测作为其测量值关于要被监视的多个目标装置的每一个异常的性能尺度的异常项,以及输出从要被监视的多个目标装置的每一个的异常项排除在全部要被监视的多个目标装置中检测的异常项剩余的异常项。
根据本发明示例性方面的一种在其上记录使计算机执行一种方法的操作管理程序的程序记录介质,该方法包括:获得关于连接到公共装置的要被监视的多个目标装置的每一个的多个性能尺度的测量值,检测作为其测量值关于要被监视的多个目标装置的每一个异常的性能尺度的异常项,并且输出从要被监视的多个目标装置的每一个的异常项排除在全部要被监视的多个目标装置中检测的异常项剩余的异常项。
技术效果
本发明具有的优点在于在多个服务器中检测到异常时,管理员能够快速地识别在系统中发生的故障的原因。
附图说明
图1是表示根据本发明示例性实施方式的监视系统的配置的功能方框图。
图2是表示在所述示例性实施方式中的多层系统的配置示例的图。
图3是表示在所述示例性实施方式中在多层系统中发生的故障的扩散状态的示例的图。
图4是表示在所述示例性实施方式中异常项的示例的图。
图5是表示在所述示例性实施方式中用于管理的异常信息的示例的图。
图6是表示在所述示例性实施方式中从异常评分计算单元28输出的信息的示例的图。
图7是表示在所述示例性实施方式中在监视终端3的管理屏幕31中显示的监视信息的示例的图。
图8是表示所述示例性实施方式的服务器操作管理装置的性能信息收集操作的示例的流程图。
图9是表示所述示例性实施方式的服务器操作管理装置的相关模型生成操作的示例的流程图。
图10是表示生成所述示例性实施方式的服务器操作管理装置的用于管理的异常信息的操作的示例的流程图。
图11是表示所述示例性实施方式的服务器操作管理装置的异常评分计算操作的示例的流程图。
图12是表示所述示例性实施方式的特性配置的方框图。
具体实施方式
以下将以附图为基础描述本发明的一个示例性实施方式。
图1是表示示例性实施方式的监视系统的配置的功能方框图。如图1所示,该示例性实施方式的监视系统包括服务器操作管理装置2和监视终端3。服务器操作管理装置2监视要被监视的多个服务器1(要被监视的装置)。监视终端3根据通过管理员的操作输入的检查命令向服务器操作管理装置2传输用于检查在要被监视的每一个服务器1中是否发生异常的请求,并且还在管理屏幕31中显示从服务器操作管理装置2接收的检查结果。
要被监视的服务器1是作为服务器操作管理装置2的监视目标并且多层系统由其组成的服务器。多层系统是其中用于提供服务的信息处理被分离为多个层并且在每一层中提供用于负载分配的服务器组的系统。例如,三层系统由Web服务器组、应用服务器组和数据库服务器组构成。图2是表示在示例性实施方式中多层系统的配置的示例的图。在图2所示的示例中,三层系统由要被监视的服务器1构成。三层系统包括两个应用服务器和三个Web服务器作为要被监视的服务器1。AP服务器组B包括两个应用服务器,并且Web服务器组A包括三个Web服务器。经由互联网D从客户端(未示出)或者另一服务器到Web服务器组A的访问是通过负载均衡器C被相等分配在单独的Web服务器上的负载。单独的Web服务器随机地向第一或者第二应用服务器传输请求。
每一个要被监视的服务器1在每一个服务器中规则地测量多个性能尺度,并且向服务器操作管理装置2发送性能尺度的每一个的实际测量的数据作为性能信息。这里,尺度表明能够在服务器或者网络设备中被观察的性能尺度。例如,CPU(中央处理单元)使用速率、存储器使用、磁盘使用状态、服务应用的操作状态、最新更新模块是否被应用于OS(操作系统)或者应用、密码错误的次数等用作性能尺度。
示例性实施方式的服务器操作管理装置2包括:性能信息收集单元21、性能信息累积单元22、故障检测单元26以及扩散确定单元27。性能信息收集单元21在每一个收集时间从多层系统由其构成的要被监视的多个服务器1的每一个收集关于多个性能尺度测量的一组实际测量的数据来作为性能信息。性能信息累积单元22在要被监视的每一个服务器1上累积所收集的性能信息。故障检测单元26在要被监视的每一个服务器1上从性能信息累积单元22读取出性能信息(该性能信息是在由来自监视终端3的检查请求中由管理员指定的检查时间处测量的),基于与各自模型数据的比较结果确定每一个性能尺度的实际测量数据是否正常或者异常,并且检测异常性能尺度作为异常项。扩散确定单元27从由故障检测单元26检测的要被监视的每一个服务器1的异常项中提取、并且排除对于相同层中全部要被监视的服务器1公共的异常项,并且生成表示要被监视的每一个服务器1的剩余异常项的用于管理的异常信息用于呈现给管理员。
在具有这样配置的示例性实施方式的服务器操作管理装置2中,扩散确定单元27通过考虑由来自另一层中的服务器的扩散生成异常项排除对于相同层中全部服务器公共的异常项,并且使用每一个服务器的剩余异常项作为用于管理的异常信息。因此,由于排除了层之间异常的扩散而能够向管理员呈现其中故障发生源没有被掩埋的信息。
这里,在发生异常的扩散时,在一个服务器中发生的故障使得连接到服务器的另一层中的大量服务器出现异常。图3是表示在示例性实施方式中在多层系统中发生的故障的扩散状态的示例的图。例如,如图3所示,当在应用服务器组的一个服务器中发生故障时,其一致性地影响Web服务器组的全部服务器,并且类似的异常在全部Web服务器中同时发生。结果,在一个应用服务器的故障扩散时,其中检测到异常的Web服务器的数量是应用服务器的数量的几倍。
示例性实施方式的服务器操作管理装置2可以包括异常评分计算单元28。异常评分计算单元28以由扩散确定单元27生成的用于管理的异常信息为基础,对要被监视的每一个服务器1的异常项的数量进行计数,并且计算异常项的数量在对于要被监视的每一个服务器1的性能尺度的数量中的比例作为异常评分。
通过执行这样的处理,计算其中取消了性能尺度的数量差异的异常评分作为表明要被监视的每一个服务器1的异常程度的值。因此,能够与要被监视的每一个服务器1的性能尺度的数量差异无关地确定异常集中于其上的要被监视的服务器1并且能够获得原因候选的正确分级。
而且,示例性实施方式的服务器操作管理装置2包括相关模型生成单元23和相关模型存储单元24。相关模型生成单元23以在性能信息累积单元22中累积的预定时段内的关于要被监视的服务器1的每一个的正常性能信息为基础,生成表明两个性能尺度的实际测量的数据之间的相关性的变换函数,来作为对于要被监视的服务器1的每一个的两个性能尺度的每一个组合的相关模型。相关模型存储单元24存储每一个生成的相关模型。故障检测单元26以对于在检查时间处测量的关于要被监视的每一个服务器的性能信息中性能尺度的组合的相关模型为基础,对组合中的一个的实际测量的数据与根据组合中的另一个的实际测量的数据计算的模型数据进行比较。故障检测单元26确定差异是否满足预定误差范围的条件,并且作为上面提及的异常项检测差异不满足条件的性能尺度的组合。
通过使用上面提及的方法,能够检测其中正常状态下的相关变为腐化的多个性能尺度组合,并且能够以所检测的组合中的重叠性能尺度为基础快速识别故障发生源。
而且,示例性实施方式的服务器操作管理装置2包括逻辑结构信息存储单元25和通信控制单元29。逻辑结构信息存储单元25提前存储表示要被监视的多个服务器1的每一个所属于的层的多层逻辑结构信息。通信控制单元29控制与监视终端3的通信。
服务器操作管理装置2中的性能信息收集单元21从其收集在其中测量的要被监视的每一个服务器1的性能信息,并且将其顺序发送到性能信息累积单元22。
性能信息累积单元22存储并且管理关于要被监视的每一个服务器1的性能信息作为对于每一个性能尺度的时间系列数据,并且还对来自相关模型生成单元23或者故障检测单元26的请求做出响应而在指定时段内输出关于要被监视的每一个服务器1的性能信息。
相关模型生成单元23从性能信息累积单元22获得在预定时段内关于要被监视的每一个服务器1的正常性能信息。这里,相关模型生成单元23获得关于要被监视的每一个服务器1的全部性能尺度的实际测量的数据。相关模型生成单元23以预定的算术算法为基础计算表明关于对于要被监视的每一个服务器1的两个尺度的全部组合的相关性。这里,作为预定时段,可以使用例如一周、一个月等。相关模型生成单元23可以通过使用在日本专利申请特开No.2009-199533中描述的技术生成相关模型。
例如,在关于要被监视的服务器1的性能信息中x为性能尺度组合中的一个的性能尺度的实际测量的数据、并且y为另一个的性能尺度的实际测量的数据时,相关模型生成单元23计算系数A和B的值以使得变换函数“y=Ax+B”满足算术算法。相关模型生成单元23可以使用包括系数A和B的计算值的变换函数“y=Ax+B”作为与性能尺度的组合相对应的相关模型。
相关模型存储单元24接收并且存储由相关模型生成单元23生成的相关模型,并且还对来自故障检测单元26的请求做出响应而输出相关模型。逻辑结构信息存储单元25提前存储其中要被监视的每一个服务器1的标识符与要被监视的服务器1所属于的层的名称相关联的多层逻辑结构信息。
故障检测单元26从性能信息累积单元22读取出在由来自监视终端3的检查请求指定的检查时段内要被监视的每一个服务器1的性能信息,并且还从相关模型存储单元24读取出要被监视的每一个服务器1的相关模型。故障检测单元26根据在检查时段中对于每一个收集时间的在要被监视的每一个服务器1上的性能信息中的性能尺度的组合计算组合中的一个的实际测量的数据、与通过将另一个组合的实际测量的数据代入相关模型中计算的模型数据之间的残值。在残值超出预定值时,故障检测单元26检测性能尺度的该组合作为异常项。
例如,在性能尺度的组合是“系统处理的CPU使用速率”和“存储器使用”的组合时,故障检测单元26将以通过使用“系统处理的CPU使用速率”作为输入的相关模型为基础计算的“存储器使用”的模型数据与“存储器使用”的实际测量的数据进行比较。在残值没有在预定的可允许范围内时,故障检测单元26检测该组合作为异常项。
扩散确定单元27以提前存储在逻辑结构信息存储单元25中的逻辑结构信息为基础,识别要被监视的每一个服务器1所属于的层(服务器组),并且从由故障检测单元26检测的要被监视的每一个服务器1的异常项提取对于相同层中全部要被监视的服务器1公共的异常项。扩散确定单元27生成用于管理的异常信息,其中通过从要被监视的每一个服务器的全部异常项排除所提取的公共异常项而考虑异常的扩散。
这里,将以图4和图5所示的具体示例为基础描述扩散确定单元27的功能。图4是表示示例性实施方式中的异常项的示例的图。图4示出了在三个Web服务器和两个应用服务器是要被监视的服务器1时由故障检测单元26检测的要被监视的每一个服务器1的异常项。图5是表示示例性实施方式中用于管理的异常信息的示例的图。图5示出了通过扩散确定单元27从图4所示的要被监视的每一个服务器1的异常项提取和排除对于每一层中要被监视的服务器1之间公共的异常项而生成的用于管理的异常信息。
在图4和图5中,“Web 1”、“Web 2”或者“Web 3”代表Web服务器的标识符(服务器名称),并且“AP1”或者“AP2”代表应用服务器的标识符(服务器名称)。在图4中,作为每一个服务器的异常项,示出了其中检测到相关中的异常的性能尺度的组合(一个是性能尺度u并且另一个是性能尺度y)。其中,“CPU用户%”代表用户处理的CPU使用速率。“CPU系统%”代表系统处理的CPU使用速率。“磁盘IO/秒”代表磁盘输入/输出速率。“所使用的存储器%”代表存储器使用。“所使用的磁盘%”代表磁盘使用。“CPU等待I/O%”代表CPU输入/输出等待时间。“分组接收”和“分组发送”分别代表接收分组的数量和发送分组的数量。
在图4所示的示例中,在由“Web 1”、“Web 2”和“Web 3”构成的Web服务器组中,“CPU用户%”和“CPU系统%”的组合以及“所使用的存储器%”和“所使用的磁盘%”的组合是三个Web服务器之间公共的异常项。另一方面,在由“AP1”和“AP2”构成的应用服务器组中,在两个应用服务器之间不存在公共的异常项。结果,通过扩散确定单元27生成图5中示出的用于管理的异常信息。
异常评分计算单元28从扩散确定单元27接收用于管理的异常信息,并且以该用于管理的异常信息为基础对要被监视的每一个服务器1的异常项的数量进行计数。异常评分计算单元28计算两个尺度的组合的总数量中异常项的数量的比例,作为对于要被监视的每一个服务器1的异常评分,并且向监视终端3发送表明要被监视的每一个服务器1的异常评分的信息以及上面提及的用于管理的异常信息。图6是表示在示例性实施方式中从异常评分计算单元28输出的信息的示例的图。如图6所示,通过异常评分计算单元28输出的信息是具有四列的表,这四列为服务器标识符、异常项的数量、尺度的组合的总数量(相关模型的数量)以及异常评分。在图6所示的示例中,代表应用服务器之一的服务器标识符“AP1”、异常项“7”、相关模型的数量“20”以及异常评分“0.35”被记录在表的第一记录中。
监视终端3根据管理员的操作向服务器操作管理装置2发送检查命令。监视终端3对检查命令做出响应以要被监视的每一个服务器1的异常评分,以及从服务器操作管理装置2发送的用于管理的异常信息为基础在管理屏幕31上显示监视信息。
图7是表示在示例性实施方式中在监视终端3的管理屏幕31上显示的监视信息的示例的图。图7所示的监视信息包括表示要被监视的每一个服务器1的异常评分、相关异常图72以及实际测量的数据图形73的表71。表71具有服务器标识符和异常评分的列。表71的行可以根据异常评分进行设置。表71的行的数量可以被局限于由管理员确定的数量。结果,管理员能够根据分析的结果容易地掌握最可能异常的要被监视的服务器1。
在相关异常图72的四边形区域中示出了每一层与要被监视的每一个服务器1之间的关系。在要被监视的每一个服务器1的区域中显示代表尺度的圆圈,并且在其中检测到异常的尺度之间绘制直线。实际测量的数据图形73包括表示其中按照时间先后顺序检测到异常的两个尺度的实际测量数据的图形,以及表示实际测量的数据与通过故障检测单元26计算的相关模型之间差异的图形。
示例性实施方式的服务器操作管理装置2包括逻辑结构信息存储单元25并且扩散确定单元27,以提前存储在逻辑结构信息存储单元25中的逻辑结构信息为基础识别要被监视的每一个服务器1所属于的层(服务器组)。然而,服务器操作管理装置2的配置并不局限于此。可以使用其中服务器操作管理装置2不包括逻辑结构信息存储单元25,并且扩散确定单元27通过使用在上面提及的关于要被监视的每一个服务器1的性能信息中包括的服务器标识符,而区别要被监视的每一个服务器1所属于的层的配置。例如,在包括在性能信息中的服务器标识符为“Web 2”时,由于“Web”部分被包括在这些标识符中,因此扩散确定单元27可以区别其标识符为“Web2”的Web服务器所属于的层与其标识符为“Web 1”和“Web 3”的Web服务器所属于的层相同。
在示例性实施方式的服务器操作管理装置2中,扩散确定单元27通过考虑通过来自另一层的服务器的异常的扩散生成异常项而排除相同层中对于要被监视的服务器1公共的异常项,并且剩余的异常项被显示作为用于管理的异常信息。因此,能够解决其中故障发生源通过层之间的异常的扩散变为掩埋的问题。此外,对于要被监视的每一个服务器1计算作为独立于服务器之间的尺度数量差异的表示符的异常评分。因此,管理员能够容易地识别最可能为故障发生源的要被监视的服务器1。
接下来,将描述在示例性实施方式中服务器操作管理装置2的操作。这里,下面描述的关于操作的描述也包括关于本发明的服务器操作管理方法的示例性实施方式的描述。
图8是表示示例性实施方式的服务器操作管理装置2的性能信息收集操作的流程图。如图8所示,首先,性能信息收集单元21确定其是否为根据预定时间间隔(例如一分钟间隔)提前设置的收集时间(图8中的步骤S81),并且在确定其为收集时间时,其访问要被监视的服务器1并且获得性能信息(图8中的步骤S82)。性能信息累积单元22存储关于要被监视的服务器1的所获得的性能信息(图8中的步骤S83)。接下来,性能信息收集单元21通过参照存储在逻辑结构信息存储单元25中的逻辑结构信息确定是否从全部要被监视的服务器1获得了性能信息(图8中的步骤S84),并且在从全部要被监视的服务器1获得了性能信息时,其等待直到下一个收集时间。
接下来,图9是表示示例性实施方式的服务器操作管理装置2的相关模型生成操作的流程图。
首先,相关模型生成单元23根据来自监视终端3的指令读取出在性能信息累积单元22中累积的预定时段(例如一周)内关于要被监视的每一个服务器1的正常性能信息(图9中的步骤S91)。相关模型生成单元23生成表明性能尺度的实际测量的数据之间的相关的变换函数,作为对于要被监视的每一个服务器1的两个性能尺度的每一个组合的相关模型(图9中的步骤S92)。相关模型存储单元24存储所生成的相关模型的每一个(图9中的步骤S93)。在相关模型生成单元23生成对于全部要被监视的服务器1的相关模型时(图9中步骤S94为是),其完成相关模型生成操作。
接下来,图10是表示示例性实施方式的服务器操作管理装置2的用于管理的异常信息的检测操作的流程图。
首先,故障检测单元26从性能信息累积单元22读取出对于包括在由监视终端3指定的检查对象时段(例如一周)中的每一个测量时间关于要被监视的每一个服务器1的性能信息(图10中的步骤S101)。故障检测单元26确定性能尺度的实际测量的数据的每一个组合在预定的误差范围内是否满足相对应的相关模型(变换函数),并且检测不满足相对应的相关模型的性能尺度的组合作为异常项(图10中的步骤S102)。
接下来,扩散确定单元27通过参照逻辑结构信息从由故障检测单元26检测的要被监视的每一个服务器1的异常项提取对于相同层中全部要被监视的服务器1公共的异常项(图10中的步骤S103)。扩散确定单元27生成表明通过从要被监视的每一个服务器1的异常项排除该提取的公共异常项获得的剩余异常项的用于管理的异常信息(图10中的步骤S104)。在对于全部层生成用于管理的异常信息(图10中的步骤S105为是)时,扩散确定单元27向异常评分计算单元28输出用于管理的异常信息(图10中的步骤S106)。
通过执行这些步骤,通过考虑通过来自另一层中的服务器的异常的扩散生成异常项,并且剩余的异常项用作用于管理的异常信息而排除对于相同层中全部要被监视的服务器2公共的异常项。因此,能够抑制其中异常发生源通过层之间的异常扩散变为掩埋的问题。
接下来,图11是表示示例性实施方式的服务器操作管理装置2的异常评分计算操作的流程图。
首先,异常评分计算单元28以从扩散确定单元27输入的用于的异常信息为基础,对对于要被监视的每一个服务器1的异常项的数量进行计数(图11中的步骤S111)。异常评分计算单元28通过参照存储在相关模型存储单元24中的相关模型,对对于要被监视的每一个服务器1的相关模型的数量进行计数(图11中的步骤S112)。接下来,异常评分计算单元28计算在对于要被监视的每一个服务器1的相关模型的数量中异常项的数量的比例作为异常评分(图11中的步骤S113)。
在对于全部要被监视的服务器1计算了异常评分(图11中的步骤S114为是)时,向监视终端3输出要被监视的每一个服务器1的异常评分(图11中的步骤S115)。
通过执行这些步骤,对于要被监视的每一个服务器1能够计算根据尺度数量的异常评分,并且因而能够独立于尺度的数量来确定异常所集中在其上的要被监视的服务器1,并且能够获得原因候选的正确评级。
可以使用其中通过执行计算机程序实现上面提及的服务器操作管理装置2中的性能信息收集单元21、相关模型生成单元23、故障检测单元26、扩散确定单元27和异常评分计算单元28的功能内容的配置。
接下来将描述示例性实施方式的特性配置。图12是表示示例性实施方式的特性配置的方框图。
操作管理装置包括故障检测单元26和扩散确定单元27。
这里,故障检测单元26获得关于连接到公共装置的要被监视的多个目标装置的每一个的多个性能尺度的测量值,并且检测作为其测量值关于要被监视的多个目标装置的每一个异常的性能尺度的异常项。扩散确定单元27输出从要被监视的多个目标装置的每一个的异常项排除在全部要被监视的多个目标装置中检测的异常项的剩余异常项。
如上面提及的,示例性实施方式的服务器操作管理装置2通过使用负载分配集群服务器组的特征确定在每一个服务器组中发生的异常之间的相似性、识别在服务器组之间发生的异常的扩散并且校正异常信息。因此,管理员能够容易地区分异常的原因。
在示例性实施方式的服务器操作管理装置2检测到多层系统中要被监视的多个服务器1的异常时,其通过考虑由来自另一层中的服务器的异常的扩散生成异常项,并且使用剩余的异常项作为用于管理的异常信息,而从要被监视的每一个服务器1的异常项排除对于相同层中全部要被监视的服务器1公共的异常项。因此,通过相对增加作为故障发生源的要被监视的服务器1的异常项的数量,能够抑制其中故障发生源被掩埋的问题。结果,管理员能够根据分析的结果容易地掌握要被监视的服务器1,并且能够正确而快速地阐释在多层系统中发生的异常的原因。
在日本专利特开No.2009-199533等中公开的上面提及的相关技术中,在多层系统中,在作为故障发生源的服务器的尺度数量小时,发生其中故障的原因被掩埋的问题。
例如,由于所安装的磁盘数量的差异以及这些服务器之间的软件的监视项数量的差异,应用服务器和数据库服务器之一的尺度数量为另一个的尺度数量的许多倍,以使得在各自层的服务器组之间存在尺度数量的相对大的差异。这里,在其中尺度的总数量相对小的服务器为故障发生源时,由于作为故障发生源的服务器的异常尺度的数量上限与另一个相比较较小,因此即使在全部尺度表明异常时,服务器的异常尺度的数量小于故障所扩散到的另一服务器的异常尺度的数量。通常,管理员从其中异常尺度的数量的绝对值大的服务器开始检查。因此,作为故障发生源的服务器的异常变为在其他服务器组的异常中被掩埋。出于该原因,管理员聚焦于错误的服务器。结果,管理员错误地确定异常的原因。
示例性实施方式的服务器操作管理装置2对于要被监视的每一个服务器1计算与尺度的数量相对应的异常评分。因此,能够执行包括其中尺度数量相对小的要被监视的服务器1的无缝分析、与要被监视的服务器1之间的尺度数量的差异无关地识别异常集中于其上的要被监视的服务器1并且获得原因候选的正确评级。结果,管理员能够正确而快速地识别故障位置。
尽管参照其示例性实施方式具体示出和描述了本发明,但是本发明并不局限于这些实施方式。本领域的普通技术人员将理解,在不偏离如由权利要求限定的本发明的精神和范围的情况下可以对其在形式和细节上进行各种改变。
例如,在上面提及的示例性实施方式中,在两个性能尺度的测量值不满足与这两个性能尺度相对应的相关模型时,故障检测单元26检测两个性能尺度的组合作为异常项。然而,故障检测单元26可以通过执行每一个性能尺度的测量值与预定阈值等之间的比较而确定每一个性能尺度是否异常并且可以输出对于其确定为异常的每一个性能尺度作为异常项。
本申请以2010年1月8日递交的日本专利申请No.2010-003008为基础并且要求享有该日本专利申请的优先权,这里以引用的方式结合其全部公开。
工业实用性
本发明能够应用于用于监视多层系统中每一个服务器的操作状态的技术。
附图标记列表
1要被监视的服务器
2服务器操作管理装置
3监视终端
21性能信息收集单元
22性能信息累积单元
23相关模型生成单元
24相关模型存储单元
25逻辑结构信息存储单元
26故障检测单元
27扩散确定单元
28异常评分计算单元
29通信控制单元
31管理屏幕

Claims (8)

1.一种操作管理装置,包括:
故障检测单元,用于获得关于连接到公共装置的要被监视的多个目标装置的每一个的多个性能尺度的测量值,并且检测作为其测量值关于所述要被监视的多个目标装置的每一个为异常的性能尺度的异常项;以及
扩散确定单元,用于输出从所述要被监视的所述多个目标装置的每一个的所述异常项排除在全部所述要被监视的多个目标装置中检测的所述异常项剩余的异常项。
2.根据权利要求1的操作管理装置,进一步包括:相关模型存储单元,用于存储关于所述要被监视的多个目标装置的每一个的所述多个性能尺度中的每两个不同的性能尺度的变换函数,所述变换函数表明所述两个性能尺度之间的相关性,
其中在通过在与所述两个性能尺度相对应的所述变换函数中输入所述多个性能尺度中的所述两个性能尺度中的一个的测量值而获得的值与另一个的测量值之间的差值等于或者大于预定值时,所述故障检测单元检测所述两个性能尺度作为所述异常项。
3.根据权利要求2的操作管理装置,进一步包括:异常评分计算单元,用于输出通过所述扩散确定单元输出的所述异常项的数量在所述要被监视的所述目标装置的所述变换函数的数量中的比例作为关于所述要被监视的多个目标装置的每一个的异常评分。
4.根据权利要求3的操作管理装置,进一步包括:
性能信息累积单元,用于按照时间系列存储所述多个性能尺度的所述测量值,以及所述测量值是在所述要被监视的多个目标装置的每一个中测量的;以及
相关模型生成单元,用于以存储在所述性能信息累积单元中的所述多个性能尺度在预定时段内的所述测量值为基础生成所述变换函数,并且在所述相关模型存储单元中保存所生成的变换函数。
5.一种操作管理方法,包括:
获得关于连接到公共装置的要被监视的多个目标装置的每一个的多个性能尺度的测量值;
检测其测量值关于所述要被监视的多个目标装置的每一个为异常的性能尺度的异常项;以及
输出从所述要被监视的多个目标装置的每一个的所述异常项排除在全部所述要被监视的多个目标装置中检测的所述异常项而剩余的异常项。
6.根据权利要求5的操作管理方法,进一步包括:存储关于所述要被监视的多个目标装置的每一个的所述多个性能尺度中的每两个不同的性能尺度的变换函数,所述变换函数表明所述两个性能尺度之间的相关性,
其中在通过在与所述两个性能尺度相对应的所述变换函数中输入所述多个性能尺度中的所述两个性能尺度中的一个的测量值而获得的值与另一个的测量值之间的差值等于或者大于预定值时,所述检测异常项检测所述两个性能尺度作为所述异常项。
7.根据权利要求6的操作管理方法,进一步包括:输出所述异常项的数量在所述要被监视的所述目标装置的所述变换函数的数量中的比例作为关于所述要被监视的多个目标装置的每一个的异常评分。
8.根据权利要求7的操作管理方法,进一步包括:
按照时间系列存储所述多个性能尺度的所述测量值,以及所述测量值是在所述要被监视的多个目标装置的每一个中测量的;以及
以所述多个性能尺度在预定时段内的所述测量值为基础生成所述变换函数。
CN201080060935.9A 2010-01-08 2010-12-15 操作管理装置、操作管理方法以及程序存储介质 Expired - Fee Related CN102713861B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010003008 2010-01-08
JP2010-003008 2010-01-08
PCT/JP2010/073058 WO2011083687A1 (ja) 2010-01-08 2010-12-15 運用管理装置、運用管理方法、及びプログラム記憶媒体

Publications (2)

Publication Number Publication Date
CN102713861A CN102713861A (zh) 2012-10-03
CN102713861B true CN102713861B (zh) 2015-09-23

Family

ID=44305424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080060935.9A Expired - Fee Related CN102713861B (zh) 2010-01-08 2010-12-15 操作管理装置、操作管理方法以及程序存储介质

Country Status (5)

Country Link
US (1) US8645769B2 (zh)
EP (1) EP2523115B1 (zh)
JP (1) JP5267684B2 (zh)
CN (1) CN102713861B (zh)
WO (1) WO2011083687A1 (zh)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013042789A1 (ja) * 2011-09-19 2013-03-28 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
US20130091266A1 (en) 2011-10-05 2013-04-11 Ajit Bhave System for organizing and fast searching of massive amounts of data
US9081829B2 (en) 2011-10-05 2015-07-14 Cumulus Systems Incorporated System for organizing and fast searching of massive amounts of data
US9081834B2 (en) 2011-10-05 2015-07-14 Cumulus Systems Incorporated Process for gathering and special data structure for storing performance metric data
WO2013111560A1 (ja) 2012-01-23 2013-08-01 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
JP5508449B2 (ja) * 2012-02-06 2014-05-28 日本電信電話株式会社 リソース監視装置、リソース監視システム、リソース監視方法及びリソース監視プログラム
CN104956373A (zh) * 2012-12-04 2015-09-30 惠普发展公司,有限责任合伙企业 确定异常网络行为的可疑根本原因
US20150200820A1 (en) * 2013-03-13 2015-07-16 Google Inc. Processing an attempted loading of a web resource
US10311172B2 (en) 2013-03-13 2019-06-04 Nec Corporation System analysis device and system analysis method
JP6432998B2 (ja) * 2014-03-14 2018-12-05 Necフィールディング株式会社 情報提供装置、情報提供システム、情報提供方法、及びプログラム
DE102014208034A1 (de) * 2014-04-29 2015-10-29 Siemens Aktiengesellschaft Verfahren zum Bereitstellen von zuverlässigen Sensordaten
US10904312B2 (en) * 2014-12-10 2021-01-26 Akamai Technologies, Inc. Server-side prediction of media client steady state
EP3239839A4 (en) * 2014-12-22 2018-08-22 Nec Corporation Operation management device, operation management method, and recording medium in which operation management program is recorded
US10539468B2 (en) 2015-02-25 2020-01-21 Nec Corporation Abnormality detection apparatus, abnormality detection method, and non-transitory computer-readable medium
US10031831B2 (en) 2015-04-23 2018-07-24 International Business Machines Corporation Detecting causes of performance regression to adjust data systems
US11200529B2 (en) * 2015-08-06 2021-12-14 Ns Solutions Corporation Information processing apparatus, information processing system, information processing method and non-transitory computer readable recording medium
US10404791B2 (en) * 2015-12-04 2019-09-03 Microsoft Technology Licensing, Llc State-aware load balancing of application servers
US10699211B2 (en) 2016-02-29 2020-06-30 Oracle International Corporation Supervised method for classifying seasonal patterns
US10331802B2 (en) 2016-02-29 2019-06-25 Oracle International Corporation System for detecting and characterizing seasons
US10885461B2 (en) 2016-02-29 2021-01-05 Oracle International Corporation Unsupervised method for classifying seasonal patterns
US10867421B2 (en) 2016-02-29 2020-12-15 Oracle International Corporation Seasonal aware method for forecasting and capacity planning
JP6881434B2 (ja) * 2016-03-30 2021-06-02 日本電気株式会社 ログ分析装置、ログ分析方法及びプログラム
US9705751B1 (en) * 2016-03-31 2017-07-11 Sas Institute Inc. System for calibrating and validating parameters for optimization
US10198339B2 (en) * 2016-05-16 2019-02-05 Oracle International Corporation Correlation-based analytic for time-series data
US11082439B2 (en) 2016-08-04 2021-08-03 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
US10635563B2 (en) 2016-08-04 2020-04-28 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
US10949436B2 (en) 2017-02-24 2021-03-16 Oracle International Corporation Optimization for scalable analytics using time series models
US10915830B2 (en) 2017-02-24 2021-02-09 Oracle International Corporation Multiscale method for predictive alerting
EP3611489B1 (en) * 2017-04-13 2023-07-05 NTN Corporation State monitoring device, state monitoring system, and state monitoring method
US10817803B2 (en) 2017-06-02 2020-10-27 Oracle International Corporation Data driven methods and systems for what if analysis
JP6829158B2 (ja) * 2017-07-18 2021-02-10 株式会社東芝 データ処理装置、データ処理方法、およびプログラム
JP6904418B2 (ja) 2017-08-02 2021-07-14 日本電気株式会社 情報処理装置、情報処理システム、情報処理方法、及び、プログラム
JP6915693B2 (ja) * 2017-10-10 2021-08-04 日本電気株式会社 システム分析方法、システム分析装置、および、プログラム
JP6835763B2 (ja) * 2018-03-08 2021-02-24 富士通フロンテック株式会社 メッセージ監視サーバ、方法、プログラム
CN108923952B (zh) * 2018-05-31 2021-11-30 北京百度网讯科技有限公司 基于服务监控指标的故障诊断方法、设备及存储介质
US10963346B2 (en) 2018-06-05 2021-03-30 Oracle International Corporation Scalable methods and systems for approximating statistical distributions
US10997517B2 (en) 2018-06-05 2021-05-04 Oracle International Corporation Methods and systems for aggregating distribution approximations
WO2020003460A1 (ja) 2018-06-28 2020-01-02 日本電気株式会社 異常検知装置
US11138090B2 (en) 2018-10-23 2021-10-05 Oracle International Corporation Systems and methods for forecasting time series with variable seasonality
US10938623B2 (en) * 2018-10-23 2021-03-02 Hewlett Packard Enterprise Development Lp Computing element failure identification mechanism
US12001926B2 (en) 2018-10-23 2024-06-04 Oracle International Corporation Systems and methods for detecting long term seasons
US10855548B2 (en) 2019-02-15 2020-12-01 Oracle International Corporation Systems and methods for automatically detecting, summarizing, and responding to anomalies
US11533326B2 (en) 2019-05-01 2022-12-20 Oracle International Corporation Systems and methods for multivariate anomaly detection in software monitoring
US11537940B2 (en) 2019-05-13 2022-12-27 Oracle International Corporation Systems and methods for unsupervised anomaly detection using non-parametric tolerance intervals over a sliding window of t-digests
US11887015B2 (en) 2019-09-13 2024-01-30 Oracle International Corporation Automatically-generated labels for time series data and numerical lists to use in analytic and machine learning systems
US11892930B2 (en) * 2021-04-29 2024-02-06 Hewlett-Packard Development Company, L.P. Performance metric calculations

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101425000A (zh) * 2007-10-31 2009-05-06 株式会社日立制作所 性能履历的管理方法以及性能履历的管理系统

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4112191B2 (ja) 2001-05-14 2008-07-02 日本電信電話株式会社 分散サーバシステム、障害復旧方法、障害復旧プログラムおよび記録媒体
JP2003263342A (ja) 2002-03-07 2003-09-19 Telecommunication Advancement Organization Of Japan 情報処理装置の監視装置および監視方法並びにそのプログラム
US7444263B2 (en) * 2002-07-01 2008-10-28 Opnet Technologies, Inc. Performance metric collection and automated analysis
JP4412031B2 (ja) 2004-03-31 2010-02-10 日本電気株式会社 ネットワーク監視システム及びその方法、プログラム
JP4980581B2 (ja) 2004-04-16 2012-07-18 新日鉄ソリューションズ株式会社 性能監視装置、性能監視方法及びプログラム
US7349746B2 (en) * 2004-09-10 2008-03-25 Exxonmobil Research And Engineering Company System and method for abnormal event detection in the operation of continuous industrial processes
US20060200726A1 (en) 2005-03-03 2006-09-07 Seagate Technology Llc Failure trend detection and correction in a data storage array
JP5105218B2 (ja) * 2005-06-06 2012-12-26 トヨタ自動車株式会社 異常判定装置
US7246043B2 (en) * 2005-06-30 2007-07-17 Oracle International Corporation Graphical display and correlation of severity scores of system metrics
JP4725724B2 (ja) * 2005-10-27 2011-07-13 日本電気株式会社 クラスタ障害推定システム
JP2007207173A (ja) * 2006-02-06 2007-08-16 Fujitsu Ltd 性能分析プログラム、性能分析方法、および性能分析装置
JP4573179B2 (ja) * 2006-05-30 2010-11-04 日本電気株式会社 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
JP4859558B2 (ja) * 2006-06-30 2012-01-25 株式会社日立製作所 コンピュータシステムの制御方法及びコンピュータシステム
JP4872944B2 (ja) 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP2010003008A (ja) 2008-06-18 2010-01-07 Fujitsu Ltd 検出プログラム、検出装置および検出方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101425000A (zh) * 2007-10-31 2009-05-06 株式会社日立制作所 性能履历的管理方法以及性能履历的管理系统

Also Published As

Publication number Publication date
EP2523115A4 (en) 2015-08-12
CN102713861A (zh) 2012-10-03
EP2523115B1 (en) 2020-05-06
WO2011083687A1 (ja) 2011-07-14
JP5267684B2 (ja) 2013-08-21
JPWO2011083687A1 (ja) 2013-05-13
EP2523115A1 (en) 2012-11-14
US20120278663A1 (en) 2012-11-01
US8645769B2 (en) 2014-02-04

Similar Documents

Publication Publication Date Title
CN102713861B (zh) 操作管理装置、操作管理方法以及程序存储介质
US9672085B2 (en) Adaptive fault diagnosis
US9389946B2 (en) Operation management apparatus, operation management method, and program
US8677191B2 (en) Early detection of failing computers
US8635498B2 (en) Performance analysis of applications
JP2010526352A (ja) 統計的な分析を利用した性能障害管理システム及びその方法
JPWO2004061681A1 (ja) 運用管理方法および運用管理サーバ
CN104272266A (zh) 对具有多个监视对象器件的计算机系统进行管理的管理系统
CN109934268B (zh) 异常交易检测方法及系统
CN102576326A (zh) 操作监测设备、操作监测方法和程序存储介质
JP5277667B2 (ja) 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム
JP2015028700A (ja) 障害検知装置、障害検知方法、障害検知プログラム及び記録媒体
CN103502951B (zh) 操作管理系统、操作管理方法及其程序
JP6252309B2 (ja) 監視漏れ特定処理プログラム,監視漏れ特定処理方法及び監視漏れ特定処理装置
CN105027088A (zh) 系统分析设备和系统分析方法
CN111835566A (zh) 一种系统故障管理方法、装置及系统
JP2019221008A (ja) 系統断面データ管理装置および方法
JP2021043764A (ja) 情報提示装置、情報提示方法、および情報提示システム
JP2018067117A (ja) 管理計算機、及び電子計算機の管理方法
KR20170032608A (ko) 엔터프라이즈 비즈니스 서비스 레벨의 통합 모니터링 방법 및 시스템
CN114579058A (zh) 检测磁盘的方法、装置、计算机可读存储介质及电子设备
JP2015138478A (ja) 障害保守運用システムと障害保守運用方法
CN118246026A (zh) 一种金融网银加密业务的威胁检测方法及系统
CN117670107A (zh) 一种绩效考核方法、装置、电子设备以及可用存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150923

Termination date: 20211215