CN102713861A - 操作管理装置、操作管理方法以及程序存储介质 - Google Patents

操作管理装置、操作管理方法以及程序存储介质 Download PDF

Info

Publication number
CN102713861A
CN102713861A CN2010800609359A CN201080060935A CN102713861A CN 102713861 A CN102713861 A CN 102713861A CN 2010800609359 A CN2010800609359 A CN 2010800609359A CN 201080060935 A CN201080060935 A CN 201080060935A CN 102713861 A CN102713861 A CN 102713861A
Authority
CN
China
Prior art keywords
performance
kept watch
destination
server
yardsticks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800609359A
Other languages
English (en)
Other versions
CN102713861B (zh
Inventor
长谷川英男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2010-003008 priority Critical
Priority to JP2010003008 priority
Application filed by NEC Corp filed Critical NEC Corp
Priority to PCT/JP2010/073058 priority patent/WO2011083687A1/ja
Publication of CN102713861A publication Critical patent/CN102713861A/zh
Application granted granted Critical
Publication of CN102713861B publication Critical patent/CN102713861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold

Abstract

公开了操作管理装置、操作管理方法以及程序存储介质,该操作管理装置、操作管理方法以及程序存储介质缩短了其中在从多个服务器中检测异常时管理员识别故障的原因的时间。该操作管理装置包括故障检测单元(26)和扩散确定单元(27)。该故障检测单元(26)针对连接到公共装置的正被监视的多个装置的每一个,获得关于多个性能指数的测量值,并且确定正被监视的装置的每一个中具有异常测量值的性能指数作为异常项。该扩散确定单元(27)从正被监视的装置的每一个的异常项排除在全部正被监视的装置中检测的异常项,并输出其他异常项。

Description

操作管理装置、操作管理方法以及程序存储介质
技术领域
[0001] 本发明涉及监视系统上的操作信息的操作管理装置、其操作管理方法及其程序存储介质。
背景技术
[0002] 在由安装在数据中心等中的由大量服务器和网络设备构成的信息系统的技术领域中,由该系统提供的服务(诸如Web服务、商业服务)的重要性作为社交基础设施而增カロ。出于该原因,用于管理这些服务的每个服务器稳定操作变得不可缺少。中央监视多个服务器的操作状态并且检测故障发生的集成管理系统被已知为用于管理这样的系统的技木。
[0003] 例如,广泛已知的是这样集成管理系统,该系统从作为监视目标的多个服务器在 线获得关于该操作状态的实际测量的数据,并且在该实际测量的数据超出阈值时检测异常。然而,在该系统中,在检测到异常时,缩窄异常的原因(例如存储器能力的缺乏、CPU上的负载、网络上的负载等)以恢复该系统是必要的。
[0004] 通常,为了排除异常的原因,不得不检查看起来与该异常相关的计算机的系统日志和參数。该检查不得不依赖于系统工程师的经验和直觉。因此,需要花费时间和能量以排除异常的原因。出于该原因,在通常的集成管理系统中,重要的是以从多个设备收集的事件数据(状态通知)为基础自动执行异常状态等的组合的分析、推测大图片问题点和原因、向管理员进行通知并且支持该管理员。特别地,为了在长期的连续操作中确保服务的可靠性,要求通过不仅检测所发生的异常而且还检测异常没有清晰出现的性能,而降级或者被预测在将来发生的故障符号来执行仪器的计划增強。
[0005] 这里公开了与这样的集成管理系统相关的下面技木。在日本专利申请特开No. 2002-342107公开的技术中,通过限制关于其中在识别所检测的系统故障是软件故障时对于主要单元发生了软件故障的处理的重启范围而降低服务中断时间。
[0006] 在日本专利申请特开No. 2005-285040公开的技术中,从多个网络装置收集连续数量信息作为初始监视信息、监视该连续数量信息的统计行为、在检测到与通常行为不同的行为时首先收集多个相关监视信息、确定每一个值,并且从而识别故障原因。
[0007] 在日本专利申请特开No. 2006-244447公开的技术中,检测数据存储阵列中各种參数的故障倾向性并且避免该系统的故障。该技术控制到由多个数据存储装置构成的存储器阵列空间的访问,并且在历史日志中累积来自每ー个数据存储装置的操作性能数据。该技术分析该操作性能数据,以检测该数据存储装置的异常操作并且对该分析做出响应而开始该数据存储装置的校正处理。
[0008] 在日本专利申请特开No. 2008-9842公开的技术中,收集关于计算机系统的操作状态的信息、记录表示所收集的信息之间的相关关系的相关信息、根据该相关信息以及所收集的信息检测在由计算机系统执行的服务中发生的故障、并且生成用于恢复该故障的处理。该技术通过參照该相关信息的该过程的执行确定对计算机系统的效果和影响,并且决定是否执行确定效果和影响的处理、其执行顺序及其执行时间中的至少ー个。[0009] 在日本专利申请特开No. 2009-199533公开的技术中,从要被管理的多个装置获得对于多个种类的性能项的每ー个的性能信息并且在性能项或者要被管理的装置被指定作为元件时,以表示对于第一元件的性能信息的时间系列变化的第一性能系列信息、与表示对于第二元件的性能信息的时间系列变化的第二性能系列信息之间的相关函数为基础,生成对于元件的每ー个组合的相关模型。该技术分析从要被管理的装置新检测的性能信息是否保持相关模型,并且如果分析的结果为负,则确定元件异常。
发明内容
[0010] 抟术问是页
[0011] 然而,在上面提及的相关技术中,当服务器系统的规模变大时,其中检测到异常的服务器的数量增加并且从而管理员关注于不同的位置,在这些位置处发生故障并且出现花费太多时间来识别作为故障发生源的服务器的问题。
[0012] 例如,在由多个服务器组构成的多层(multi-tier)系统中,存在其中由在ー个服务器中发生的故障扩散到大量的其他服务器并且影响它们导致的异常的情况。在这种情况下,故障发生源由于故障的扩散而变得被掩埋。例如,在三层系统中,由在应用服务器中发生的故障导致的异常扩散到上层Web服务器组,并且从而类似的异常在Web服务器组中同时发生。通常,在许多情况下,异常的扩散以一到多的关系发生。存在其中在ー个应用服务器中发生的故障被检测作为在ー百个Web服务器中发生的异常的情況。这里,在管理员检查其中被顺次检测到异常的服务器吋,如果管理员集中于ー百个Web服务器,则花费太多时间来识别作为故障发生源的应用服务器。
[0013] 本发明的目的在于解决上面提及的问题,并且提供能够呈现用于识别导致异常的故障发生源的有效信息,进而缩短其中管理员识别异常原因的时间的操作管理装置、其操作管理方法及其程序存储介质。
_4] 技术方案
[0015] 根据本发明示例性方面的ー种操作管理装置包括:异常项的故障检测装置,用于获得关于连接到公共装置的要被监视的多个目标装置的每ー个的多个性能尺度(metric)的测量值,并且检测作为其测量值关于要被监视的多个目标装置的每ー个异常的性能尺度,以及扩散确定装置,用于输出从要被监视的多个目标装置的每ー个的异常项排除在全部要被监视的多个目标装置中检测的异常项剰余的异常项。
[0016] 根据本发明示例性方面的ー种操作管理方法包括:获得关于连接到公共装置的要被监视的多个目标装置的每ー个的多个性能尺度的测量值,检测作为其测量值关于要被监视的多个目标装置的每ー个异常的性能尺度的异常项,以及输出从要被监视的多个目标装置的每ー个的异常项排除在全部要被监视的多个目标装置中检测的异常项剰余的异常项。
[0017] 根据本发明示例性方面的ー种在其上记录使计算机执行ー种方法的操作管理程序的程序记录介质,该方法包括:获得关于连接到公共装置的要被监视的多个目标装置的每ー个的多个性能尺度的测量值,检测作为其测量值关于要被监视的多个目标装置的每ー个异常的性能尺度的异常项,并且输出从要被监视的多个目标装置的每ー个的异常项排除在全部要被监视的多个目标装置中检测的异常项剰余的异常项。
[0018] 技术效果[0019] 本发明具有的优点在于在多个服务器中检测到异常时,管理员能够快速地识别在系统中发生的故障的原因。
附图说明
[0020] 图I是表示根据本发明示例性实施方式的监视系统的配置的功能方框图。
[0021] 图2是表示在所述示例性实施方式中的多层系统的配置示例的图。
[0022] 图3是表示在所述示例性实施方式中在多层系统中发生的故障的扩散状态的示例的图。
[0023] 图4是表示在所述示例性实施方式中异常项的示例的图。
[0024] 图5是表示在所述示例性实施方式中用于管理的异常信息的示例的图。
[0025] 图6是表示在所述示例性实施方式中从异常评分计算单元28输出的信息的示例的图。
[0026] 图7是表示在所述示例性实施方式中在监视终端3的管理屏幕31中显示的监视信息的示例的图。
[0027] 图8是表示所述示例性实施方式的服务器操作管理装置的性能信息收集操作的示例的流程图。
[0028] 图9是表示所述示例性实施方式的服务器操作管理装置的相关模型生成操作的示例的流程图。
[0029] 图10是表示生成所述示例性实施方式的服务器操作管理装置的用于管理的异常信息的操作的示例的流程图。
[0030] 图11是表示所述示例性实施方式的服务器操作管理装置的异常评分计算操作的示例的流程图。
[0031] 图12是表示所述示例性实施方式的特性配置的方框图。
具体实施方式
[0032] 以下将以附图为基础描述本发明的一个示例性实施方式。
[0033] 图I是表示示例性实施方式的监视系统的配置的功能方框图。如图I所示,该示例性实施方式的监视系统包括服务器操作管理装置2和监视终端3。服务器操作管理装置2监视要被监视的多个服务器I (要被监视的装置)。监视终端3根据通过管理员的操作输入的检查命令向服务器操作管理装置2传输用于检查在要被监视的每ー个服务器I中是否发生异常的请求,并且还在管理屏幕31中显示从服务器操作管理装置2接收的检查結果。
[0034] 要被监视的服务器I是作为服务器操作管理装置2的监视目标并且多层系统由其组成的服务器。多层系统是其中用于提供服务的信息处理被分离为多个层并且在每ー层中提供用于负载分配的服务器组的系统。例如,三层系统由Web服务器组、应用服务器组和数据库服务器组构成。图2是表示在示例性实施方式中多层系统的配置的示例的图。在图2所示的示例中,三层系统由要被监视的服务器I构成。三层系统包括两个应用服务器和三个Web服务器作为要被监视的服务器I。AP服务器组B包括两个应用服务器,并且Web服务器组A包括三个Web服务器。经由互联网D从客户端(未示出)或者另一服务器到Web服务器组A的访问是通过负载均衡器C被相等分配在単独的Web服务器上的负载。単独的Web服务器随机地向第一或者第二应用服务器传输请求。
[0035] 每ー个要被监视的服务器I在每ー个服务器中规则地測量多个性能尺度,并且向服务器操作管理装置2发送性能尺度的每ー个的实际测量的数据作为性能信息。这里,尺度表明能够在服务器或者网络设备中被观察的性能尺度。例如,CPU(中央处理单元)使用速率、存储器使用、磁盘使用状态、服务应用的操作状态、最新更新模块是否被应用于OS(操作系统)或者应用、密码错误的次数等用作性能尺度。
[0036] 示例性实施方式的服务器操作管理装置2包括:性能信息收集单元21、性能信息累积单元22、故障检测单元26以及扩散确定单元27。性能信息收集单元21在每ー个收集时间从多层系统由其构成的要被监视的多个服务器I的每ー个收集关于多个性能尺度测量的ー组实际测量的数据来作为性能信息。性能信息累积单元22在要被监视的每ー个服务器I上累积所收集的性能信息。故障检测单元26在要被监视的每ー个服务器I上从性能信息累积单元22读取出性能信息(该性能信息是在由来自监视終端3的检查请求中由·管理员指定的检查时间处测量的),基干与各自模型数据的比较结果确定每ー个性能尺度的实际测量数据是否正常或者异常,并且检测异常性能尺度作为异常项。扩散确定单元27从由故障检测单元26检测的要被监视的每ー个服务器I的异常项中提取、并且排除对于相同层中全部要被监视的服务器I公共的异常项,并且生成表示要被监视的每ー个服务器I的剰余异常项的用于管理的异常信息用于呈现给管理员。
[0037] 在具有这样配置的示例性实施方式的服务器操作管理装置2中,扩散确定单元27通过考虑由来自另ー层中的服务器的扩散生成异常项排除对于相同层中全部服务器公共的异常项,并且使用每ー个服务器的剰余异常项作为用于管理的异常信息。因此,由于排除了层之间异常的扩散而能够向管理员呈现其中故障发生源没有被掩埋的信息。
[0038] 这里,在发生异常的扩散时,在一个服务器中发生的故障使得连接到服务器的另一层中的大量服务器出现异常。图3是表示在示例性实施方式中在多层系统中发生的故障的扩散状态的示例的图。例如,如图3所示,当在应用服务器组的一个服务器中发生故障时,其一致性地影响Web服务器组的全部服务器,并且类似的异常在全部Web服务器中同时发生。结果,在一个应用服务器的故障扩散时,其中检测到异常的Web服务器的数量是应用服务器的数量的几倍。
[0039] 示例性实施方式的服务器操作管理装置2可以包括异常评分计算单元28。异常评分计算单元28以由扩散确定单元27生成的用于管理的异常信息为基础,对要被监视的每一个服务器I的异常项的数量进行计数,并且计算异常项的数量在对于要被监视的每ー个服务器I的性能尺度的数量中的比例作为异常评分。
[0040] 通过执行这样的处理,计算其中取消了性能尺度的数量差异的异常评分作为表明要被监视的每ー个服务器I的异常程度的值。因此,能够与要被监视的每ー个服务器I的性能尺度的数量差异无关地确定异常集中于其上的要被监视的服务器I并且能够获得原因候选的正确分级。
[0041] 而且,示例性实施方式的服务器操作管理装置2包括相关模型生成単元23和相关模型存储单元24。相关模型生成单元23以在性能信息累积单元22中累积的预定时段内的关于要被监视的服务器I的每ー个的正常性能信息为基础,生成表明两个性能尺度的实际测量的数据之间的相关性的变换函数,来作为对于要被监视的服务器I的每ー个的两个性能尺度的每ー个组合的相关模型。相关模型存储单元24存储每ー个生成的相关模型。故障检测单元26以对于在检查时间处测量的关于要被监视的每ー个服务器的性能信息中性能尺度的组合的相关模型为基础,对组合中的ー个的实际测量的数据与根据组合中的另ー个的实际测量的数据计算的模型数据进行比较。故障检测单元26确定差异是否满足预定误差范围的条件,并且作为上面提及的异常项检测差异不满足条件的性能尺度的组合。
[0042] 通过使用上面提及的方法,能够检测其中正常状态下的相关变为腐化的多个性能尺度组合,并且能够以所检测的组合中的重叠性能尺度为基础快速识别故障发生源。
[0043] 而且,示例性实施方式的服务器操作管理装置2包括逻辑结构信息存储单元25和通信控制单元29。逻辑结构信息存储单元25提前存储表示要被监视的多个服务器I的每ー个所属于的层的多层逻辑结构信息。通信控制单元29控制与监视终端3的通信。
[0044] 服务器操作管理装置2中的性能信息收集单元21从其收集在其中测量的要被监视的每一个服务器I的性能信息,并且将其顺序发送到性能信息累积单元22。
[0045] 性能信息累积单元22存储并且管理关于要被监视的每ー个服务器I的性能信息作为对于每ー个性能尺度的时间系列数据,并且还对来自相关模型生成単元23或者故障检测单元26的请求做出响应而在指定时段内输出关于要被监视的每ー个服务器I的性能信息。
[0046] 相关模型生成単元23从性能信息累积单元22获得在预定时段内关于要被监视的每ー个服务器I的正常性能信息。这里,相关模型生成単元23获得关于要被监视的每ー个服务器I的全部性能尺度的实际测量的数据。相关模型生成単元23以预定的算木算法为基础计算表明关于对于要被监视的每ー个服务器I的两个尺度的全部组合的相关性。这里,作为预定时段,可以使用例如一周、ー个月等。相关模型生成単元23可以通过使用在日本专利申请特开No. 2009-199533中描述的技术生成相关模型。
[0047] 例如,在关于要被监视的服务器I的性能信息中X为性能尺度组合中的一个的性能尺度的实际测量的数据、并且y为另ー个的性能尺度的实际测量的数据时,相关模型生成単元23计算系数A和B的值以使得变换函数“y = Ax+B”满足算木算法。相关模型生成単元23可以使用包括系数A和B的计算值的变换函数“y = Ax+B”作为与性能尺度的组合相对应的相关ホ吴型。
[0048] 相关模型存储单元24接收并且存储由相关模型生成単元23生成的相关模型,并且还对来自故障检测单元26的请求做出响应而输出相关模型。逻辑结构信息存储单元25提前存储其中要被监视的每ー个服务器I的标识符与要被监视的服务器I所属于的层的名称相关联的多层逻辑结构信息。
[0049] 故障检测单元26从性能信息累积单元22读取出在由来自监视終端3的检查请求指定的检查时段内要被监视的每ー个服务器I的性能信息,并且还从相关模型存储单元24读取出要被监视的每ー个服务器I的相关模型。故障检测单元26根据在检查时段中对于每ー个收集时间的在要被监视的每ー个服务器I上的性能信息中的性能尺度的组合计算组合中的ー个的实际测量的数据、与通过将另一个组合的实际测量的数据代入相关模型中计算的模型数据之间的残值。在残值超出预定值时,故障检测单元26检测性能尺度的该组合作为异常项。
[0050] 例如,在性能尺度的组合是“系统处理的CPU使用速率”和“存储器使用”的组合吋,故障检测单元26将以通过使用“系统处理的CPU使用速率”作为输入的相关模型为基础计算的“存储器使用”的模型数据与“存储器使用”的实际测量的数据进行比较。在残值没有在预定的可允许范围内时,故障检测单元26检测该组合作为异常项。
[0051] 扩散确定单元27以提前存储在逻辑结构信息存储单元25中的逻辑结构信息为基础,识别要被监视的每ー个服务器I所属于的层(服务器组),并且从由故障检测单元26检测的要被监视的每ー个服务器I的异常项提取对于相同层中全部要被监视的服务器I公共的异常项。扩散确定单元27生成用于管理的异常信息,其中通过从要被监视的每ー个服务器的全部异常项排除所提取的公共异常项而考虑异常的扩散。
[0052] 这里,将以图4和图5所示的具体示例为基础描述扩散确定单元27的功能。图4是表示示例性实施方式中的异常项的示例的图。图4示出了在三个Web服务器和两个应用服务器是要被监视的服务器I时由故障检测单元26检测的要被监视的每ー个服务器I的异常项。图5是表示示例性实施方式中用于管理的异常信息的示例的图。 图5示出了通过扩散确定单元27从图4所示的要被监视的每ー个服务器I的异常项提取和排除对于每一层中要被监视的服务器I之间公共的异常项而生成的用于管理的异常信息。
[0053] 在图4和图5中,“Web I”、“Web 2”或者“Web 3”代表Web服务器的标识符(服务器名称),并且“API”或者“ AP2”代表应用服务器的标识符(服务器名称)。在图4中,作为每ー个服务器的异常项,示出了其中检测到相关中的异常的性能尺度的组合(一个是性能尺度u并且另ー个是性能尺度y)。其中,“CPU用户% ”代表用户处理的CPU使用速率。“CPU系统% ”代表系统处理的CPU使用速率。“磁盘10/秒”代表磁盘输入/输出速率。“所使用的存储器代表存储器使用。“所使用的磁盘代表磁盘使用。“CPU等待1/0%”代表CPU输入/输出等待时间。“分组接收”和“分组发送”分别代表接收分组的数量和发送分组的数量。
[0054] 在图4所示的示例中,在由“Web l”、“Web 2”和“Web 3”构成的Web服务器组中,“CPU用户% ”和“CPU系统% ”的组合以及“所使用的存储器% ”和“所使用的磁盘% ”的组合是三个Web服务器之间公共的异常项。另ー方面,在由“ API”和“AP2”构成的应用服务器组中,在两个应用服务器之间不存在公共的异常项。结果,通过扩散确定单元27生成图5中示出的用于管理的异常信息。
[0055] 异常评分计算单元28从扩散确定单元27接收用于管理的异常信息,并且以该用于管理的异常信息为基础对要被监视的每ー个服务器I的异常项的数量进行计数。异常评分计算单元28计算两个尺度的组合的总数量中异常项的数量的比例,作为对于要被监视的每ー个服务器I的异常评分,并且向监视终端3发送表明要被监视的每ー个服务器I的异常评分的信息以及上面提及的用于管理的异常信息。图6是表示在示例性实施方式中从异常评分计算单元28输出的信息的示例的图。如图6所示,通过异常评分计算单元28输出的信息是具有四列的表,这四列为服务器标识符、异常项的数量、尺度的组合的总数量(相关模型的数量)以及异常评分。在图6所示的示例中,代表应用服务器之一的服务器标识符“API”、异常项“7”、相关模型的数量“20”以及异常评分“0. 35”被记录在表的第一记录中。
[0056] 监视终端3根据管理员的操作向服务器操作管理装置2发送检查命令。监视终端3对检查命令做出响应以要被监视的每ー个服务器I的异常评分,以及从服务器操作管理装置2发送的用于管理的异常信息为基础在管理屏幕31上显示监视信息。
[0057] 图7是表示在示例性实施方式中在监视终端3的管理屏幕31上显示的监视信息的示例的图。图7所示的监视信息包括表示要被监视的每ー个服务器I的异常评分、相关异常图72以及实际测量的数据图形73的表71。表71具有服务器标识符和异常评分的列。表71的行可以根据异常评分进行设置。表71的行的数量可以被局限于由管理员确定的数量。结果,管理员能够根据分析的结果容易地掌握最可能异常的要被监视的服务器I。
[0058] 在相关异常图72的四边形区域中示出了每ー层与要被监视的每ー个服务器I之间的关系。在要被监视的每ー个服务器I的区域中显示代表尺度的圆圈,并且在其中检测到异常的尺度之间绘制直线。实际测量的数据图形73包括表示其中按照时间先后顺序检测到异常的两个尺度的实际测量数据的图形,以及表示实际测量的数据与通过故障检测单元26计算的相关模型之间差异的图形。
[0059] 示例性实施方式的服务器操作管理装置2包括逻辑结构信息存储单元25并且扩散确定单元27,以提前存储在逻辑结构信息存储单元25中的逻辑结构信息为基础识别要被监视的每ー个服务器I所属于的层(服务器组)。然而,服务器操作管理装置2的配置并不局限于此。可以使用其中服务器操作管理装置2不包括逻辑结构信息存储单元25,并且扩散确定单元27通过使用在上面提及的关于要被监视的每ー个服务器I的性能信息中包括的服务器标识符,而区别要被监视的每ー个服务器I所属于的层的配置。例如,在包括在性能信息中的服务器标识符为“Web 2”吋,由于“Web”部分被包括在这些标识符中,因此扩散确定单元27可以区别其标识符为“Web 2”的Web服务器所属于的层与其标识符为“WebI”和“Web 3”的Web服务器所属于的层相同。
[0060] 在示例性实施方式的服务器操作管理装置2中,扩散确定单元27通过考虑通过来自另ー层的服务器的异常的扩散生成异常项而排除相同层中对于要被监视的服务器I公 共的异常项,并且剰余的异常项被显示作为用于管理的异常信息。因此,能够解决其中故障发生源通过层之间的异常的扩散变为掩埋的问题。此外,对于要被监视的每ー个服务器I计算作为独立于服务器之间的尺度数量差异的表示符的异常评分。因此,管理员能够容易地识别最可能为故障发生源的要被监视的服务器I。
[0061] 接下来,将描述在示例性实施方式中服务器操作管理装置2的操作。这里,下面描述的关于操作的描述也包括关于本发明的服务器操作管理方法的不例性实施方式的描述。
[0062] 图8是表示示例性实施方式的服务器操作管理装置2的性能信息收集操作的流程图。如图8所示,首先,性能信息收集单元21确定其是否为根据预定时间间隔(例如一分钟间隔)提前设置的收集时间(图8中的步骤S81),并且在确定其为收集时间时,其访问要被监视的服务器I并且获得性能信息(图8中的步骤S82)。性能信息累积单元22存储关于要被监视的服务器I的所获得的性能信息(图8中的步骤S83)。接下来,性能信息收集単元21通过參照存储在逻辑结构信息存储单元25中的逻辑结构信息确定是否从全部要被监视的服务器I获得了性能信息(图8中的步骤S84),并且在从全部要被监视的服务器I获得了性能信息时,其等待直到下一个收集时间。
[0063] 接下来,图9是表示示例性实施方式的服务器操作管理装置2的相关模型生成操作的流程图。
[0064] 首先,相关模型生成单元23根据来自监视终端3的指令读取出在性能信息累积单元22中累积的预定时段(例如一周)内关于要被监视的每ー个服务器I的正常性能信息(图9中的步骤S91)。相关模型生成単元23生成表明性能尺度的实际测量的数据之间的相关的变换函数,作为对于要被监视的每ー个服务器I的两个性能尺度的每ー个组合的相关模型(图9中的步骤S92)。相关模型存储单元24存储所生成的相关模型的每ー个(图9中的步骤S93)。在相关模型生成単元23生成对于全部要被监视的服务器I的相关模型时(图9中步骤S94为是),其完成相关模型生成操作。
[0065] 接下来,图10是表示示例性实施方式的服务器操作管理装置2的用于管理的异常信息的检测操作的流程图。
[0066] 首先,故障检测单元26从性能信息累积单元22读取出对于 包括在由监视终端3指定的检查对象时段(例如一周)中的每ー个测量时间关于要被监视的每ー个服务器I的性能信息(图10中的步骤S101)。故障检测单元26确定性能尺度的实际测量的数据的每一个组合在预定的误差范围内是否满足相对应的相关模型(变换函数),并且检测不满足相对应的相关模型的性能尺度的组合作为异常项(图10中的步骤S102)。
[0067] 接下来,扩散确定单元27通过參照逻辑结构信息从由故障检测单元26检测的要被监视的每ー个服务器I的异常项提取对于相同层中全部要被监视的服务器I公共的异常项(图10中的步骤S103)。扩散确定单元27生成表明通过从要被监视的每ー个服务器I的异常项排除该提取的公共异常项获得的剰余异常项的用于管理的异常信息(图10中的步骤S104)。在对于全部层生成用于管理的异常信息(图10中的步骤S105为是)时,扩散确定单元27向异常评分计算单元28输出用于管理的异常信息(图10中的步骤S106)。
[0068] 通过执行这些步骤,通过考虑通过来自另ー层中的服务器的异常的扩散生成异常项,并且剰余的异常项用作用于管理的异常信息而排除对于相同层中全部要被监视的服务器2公共的异常项。因此,能够抑制其中异常发生源通过层之间的异常扩散变为掩埋的问题。
[0069] 接下来,图11是表示示例性实施方式的服务器操作管理装置2的异常评分计算操作的流程图。
[0070] 首先,异常评分计算单元28以从扩散确定单元27输入的用于的异常信息为基础,对对于要被监视的每ー个服务器I的异常项的数量进行计数(图11中的步骤S111)。异常评分计算单元28通过參照存储在相关模型存储单元24中的相关模型,对对于要被监视的每ー个服务器I的相关模型的数量进行计数(图11中的步骤S112)。接下来,异常评分计算单元28计算在对于要被监视的每ー个服务器I的相关模型的数量中异常项的数量的比例作为异常评分(图11中的步骤SI 13)。
[0071] 在对于全部要被监视的服务器I计算了异常评分(图11中的步骤S114为是)吋,向监视终端3输出要被监视的每ー个服务器I的异常评分(图11中的步骤S115)。
[0072] 通过执行这些步骤,对于要被监视的每ー个服务器I能够计算根据尺度数量的异常评分,并且因而能够独立于尺度的数量来确定异常所集中在其上的要被监视的服务器1,并且能够获得原因候选的正确评级。
[0073] 可以使用其中通过执行计算机程序实现上面提及的服务器操作管理装置2中的性能信息收集单元21、相关模型生成単元23、故障检测单元26、扩散确定单元27和异常评分计算单元28的功能内容的配置。[0074] 接下来将描述示例性实施方式的特性配置。图12是表示示例性实施方式的特性配置的方框图。
[0075] 操作管理装置包括故障检测单元26和扩散确定单元27。
[0076] 这里,故障检测单元26获得关于连接到公共装置的要被监视的多个目标装置的每ー个的多个性能尺度的测量值,并且检测作为其测量值关于要被监视的多个目标装置的每ー个异常的性能尺度的异常项。扩散确定单元27输出从要被监视的多个目标装置的每ー个的异常项排除在全部要被监视的多个目标装置中检测的异常项的剩余异常项。
[0077] 如上面提及的,示例性实施方式的服务器操作管理装置2通过使用负载分配集群服务器组的特征确定在每一个服务器组中发生的异常之间的相似性、识别在服务器组之间发生的异常的扩散并且校正异常信息。因此,管理员能够容易地区分异常的原因。
[0078] 在示例性实施方式的服务器操作管理装置2检测到多层系统中要被监视的多个 服务器I的异常时,其通过考虑由来自另ー层中的服务器的异常的扩散生成异常项,并且使用剰余的异常项作为用于管理的异常信息,而从要被监视的每ー个服务器I的异常项排除对于相同层中全部要被监视的服务器I公共的异常项。因此,通过相对増加作为故障发生源的要被监视的服务器I的异常项的数量,能够抑制其中故障发生源被掩埋的问题。结果,管理员能够根据分析的结果容易地掌握要被监视的服务器1,并且能够正确而快速地阐释在多层系统中发生的异常的原因。
[0079] 在日本专利特开No. 2009-199533等中公开的上面提及的相关技术中,在多层系统中,在作为故障发生源的服务器的尺度数量小时,发生其中故障的原因被掩埋的问题。
[0080] 例如,由于所安装的磁盘数量的差异以及这些服务器之间的软件的监视项数量的差异,应用服务器和数据库服务器之一的尺度数量为另ー个的尺度数量的许多倍,以使得在各自层的服务器组之间存在尺度数量的相对大的差异。这里,在其中尺度的总数量相对小的服务器为故障发生源时,由于作为故障发生源的服务器的异常尺度的数量上限与另ー个相比较较小,因此即使在全部尺度表明异常时,服务器的异常尺度的数量小于故障所扩散到的另一服务器的异常尺度的数量。通常,管理员从其中异常尺度的数量的绝对值大的服务器开始检查。因此,作为故障发生源的服务器的异常变为在其他服务器组的异常中被掩埋。出于该原因,管理员聚焦于错误的服务器。结果,管理员错误地确定异常的原因。
[0081] 示例性实施方式的服务器操作管理装置2对于要被监视的每ー个服务器I计算与尺度的数量相对应的异常评分。因此,能够执行包括其中尺度数量相对小的要被监视的服务器I的无缝分析、与要被监视的服务器I之间的尺度数量的差异无关地识别异常集中于其上的要被监视的服务器I并且获得原因候选的正确评级。结果,管理员能够正确而快速地识别故障位置。
[0082] 尽管參照其示例性实施方式具体示出和描述了本发明,但是本发明并不局限于这些实施方式。本领域的普通技术人员将理解,在不偏离如由权利要求限定的本发明的精神和范围的情况下可以对其在形式和细节上进行各种改变。
[0083] 例如,在上面提及的示例性实施方式中,在两个性能尺度的測量值不满足与这两个性能尺度相对应的相关模型吋,故障检测单元26检测两个性能尺度的组合作为异常项。然而,故障检测单元26可以通过执行每ー个性能尺度的測量值与预定阈值等之间的比较而确定每ー个性能尺度是否异常并且可以输出对于其确定为异常的每ー个性能尺度作为异常项。
[0084] 本申请以2010年I月8日递交的日本专利申请No. 2010-003008为基础并且要求享有该日本专利申请的优先权,这里以引用的方式结合其全部公开。
[0085] エ业实用件
[0086] 本发明能够应用于用于监视多层系统中每ー个服务器的操作状态的技木。
[0087] 附图标记列表
[0088] I要被监视的服务器
[0089] 2服务器操作管理装置 [0090] 3监视终端
[0091] 21性能信息收集单元
[0092] 22性能信息累积单元
[0093] 23相关模型生成単元
[0094] 24相关模型存储单元
[0095] 25逻辑结构信息存储单元
[0096] 26故障检测单元
[0097] 27扩散确定单元
[0098] 28异常评分计算单元
[0099] 29通信控制单元
[0100] 31管理屏幕

Claims (12)

1. 一种操作管理装置,包括: 故障检测装置,用于获得关于连接到公共装置的要被监视的多个目标装置的每一个的多个性能尺度的测量值,并且检测作为其测量值关于所述要被监视的多个目标装置的每一个为异常的性能尺度的异常项;以及 扩散确定装置,用于输出从所述要被监视的所述多个目标装置的每一个的所述异常项排除在全部所述要被监视的所述多个目标装置中检测的所述异常项剩余的异常项。
2.根据权利要求I的操作管理装置,进一步包括:相关模型存储装置,用于存储关于所述要被监视的所述多个目标装置的每一个的所述多个性能尺度中的每两个不同的性能尺度的变换函数,所述变换函数表明所述两个性能尺度之间的相关性, 其中在通过在与所述两个性能尺度相对应的所述变换函数中输入所述多个性能尺度中的所述两个性能尺度中的一个的测量值而获得的值与另一个的测量值之间的差值等于或者大于预定值时,所述故障检测装置检测所述两个性能尺度作为所述异常项。
3.根据权利要求2的操作管理装置,进一步包括:异常评分计算装置,用于输出通过所述扩散确定装置输出的所述异常项的数量在所述要被监视的所述目标装置的所述变换函数的数量中的比例作为关于所述要被监视的多个目标装置的每一个的异常评分。
4.根据权利要求3的操作管理装置,进一步包括: 性能信息累积装置,用于存储在所述要被监视的多个目标装置的每一个中测量的按照时间系列的所述多个性能尺度的所述测量值;以及 相关模型生成装置,用于以存储在所述性能信息累积装置中的所述多个性能尺度在预定时段内的所述测量值为基础生成所述变换函数,并且在所述相关模型存储装置中保存所生成的变换函数。
5. —种操作管理方法,包括: 获得关于连接到公共装置的要被监视的多个目标装置的每一个的多个性能尺度的测量值; 检测其测量值关于所述要被监视的多个目标装置的每一个为异常的性能尺度的异常项;以及 输出从所述要被监视的多个目标装置的每一个的所述异常项排除在全部所述要被监视的多个目标装置中检测的所述异常项而剩余的异常项。
6.根据权利要求5的操作管理方法,进一步包括:存储关于所述要被监视的多个目标装置的每一个的所述多个性能尺度中的每两个不同的性能尺度的变换函数,所述变换函数表明所述两个性能尺度之间的相关性, 其中在通过在与所述两个性能尺度相对应的所述变换函数中输入所述多个性能尺度中的所述两个性能尺度中的一个的测量值而获得的值与另一个的测量值之间的差值等于或者大于预定值时,所述检测异常项检测所述两个性能尺度作为所述异常项。
7.根据权利要求6的操作管理方法,进一步包括:输出所述异常项的数量在所述要被监视的所述目标装置的所述变换函数的数量中的比例作为关于所述要被监视的多个目标装置的每一个的异常评分。
8.根据权利要求7的操作管理方法,进一步包括: 存储在所述要被监视的多个目标装置的每一个中测量的按照时间系列的所述多个性能尺度的所述测量值;以及 以所述多个性能尺度在预定时段内的所述测量值为基础生成所述变换函数。
9. 一种在其上记录使计算机执行一种方法的操作管理程序的程序记录介质,所述方法包括: 获得关于连接到公共装置的要被监视的多个目标装置的每一个的多个性能尺度的测量值; 检测作为其测量值关于所述要被监视的多个目标装置的每一个为异常的性能尺度的异常项;以及 输出从所述要被监视的多个目标装置的每一个的所述异常项排除在全部所述要被监视的多个目标装置中检测的所述异常项而剩余的异常项。
10.根据权利要求9的在其上记录所述操作管理程序的程序记录介质,进一步包括:存储关于所述要被监视的多个目标装置的每一个的所述多个性能尺度中的每两个不同的性能尺度的变换函数,所述变换函数表明所述两个性能尺度之间的相关性, 其中在通过在与所述两个性能尺度相对应的所述变换函数中输入所述多个性能尺度中的所述两个性能尺度中的一个的测量值获得的值与另一个的测量值之间的差值等于或者大于预定值时,所述检测异常项检测所述两个性能尺度作为所述异常项。
11.根据权利要求10的在其上记录所述操作管理程序的程序记录介质,进一步包括:输出所述异常项的数量在所述要被监视的所述目标装置的所述变换函数的数量中的比例作为关于所述要被监视的多个目标装置的每一个的异常评分。
12.根据权利要求11的在其上记录所述操作管理程序的程序记录介质,进一步包括: 存储在所述要被监视的多个目标装置的每一个中测量的按照时间系列的所述多个性能尺度的所述测量值;以及 以所述多个性能尺度在预定时段内的所述测量值为基础生成所述变换函数。
CN201080060935.9A 2010-01-08 2010-12-15 操作管理装置、操作管理方法以及程序存储介质 Active CN102713861B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010-003008 2010-01-08
JP2010003008 2010-01-08
PCT/JP2010/073058 WO2011083687A1 (ja) 2010-01-08 2010-12-15 運用管理装置、運用管理方法、及びプログラム記憶媒体

Publications (2)

Publication Number Publication Date
CN102713861A true CN102713861A (zh) 2012-10-03
CN102713861B CN102713861B (zh) 2015-09-23

Family

ID=44305424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080060935.9A Active CN102713861B (zh) 2010-01-08 2010-12-15 操作管理装置、操作管理方法以及程序存储介质

Country Status (5)

Country Link
US (1) US8645769B2 (zh)
EP (1) EP2523115B1 (zh)
JP (1) JP5267684B2 (zh)
CN (1) CN102713861B (zh)
WO (1) WO2011083687A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106104627A (zh) * 2014-03-14 2016-11-09 Nec飞鼎克株式会社 信息提供装置、信息提供系统、信息提供方法及程序
CN107113332A (zh) * 2014-12-10 2017-08-29 阿卡麦科技公司 媒体客户端稳定状态的服务器侧预测
CN107636619A (zh) * 2015-08-06 2018-01-26 新日铁住金系统集成株式会社 信息处理装置、信息处理系统、信息处理方法及程序

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW498544B (en) 2000-03-13 2002-08-11 Tadahiro Ohmi Flash memory device, manufacturing and its dielectric film formation
JP5874936B2 (ja) * 2011-09-19 2016-03-02 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
US9081829B2 (en) 2011-10-05 2015-07-14 Cumulus Systems Incorporated System for organizing and fast searching of massive amounts of data
US20130091266A1 (en) 2011-10-05 2013-04-11 Ajit Bhave System for organizing and fast searching of massive amounts of data
US9081834B2 (en) 2011-10-05 2015-07-14 Cumulus Systems Incorporated Process for gathering and special data structure for storing performance metric data
US9367382B2 (en) 2012-01-23 2016-06-14 Nec Corporation Apparatus, method, and program product for calculating abnormality based on degree of correlation destruction
JP5508449B2 (ja) * 2012-02-06 2014-05-28 日本電信電話株式会社 リソース監視装置、リソース監視システム、リソース監視方法及びリソース監視プログラム
CN104956373A (zh) * 2012-12-04 2015-09-30 惠普发展公司,有限责任合伙企业 确定异常网络行为的可疑根本原因
US20150200820A1 (en) * 2013-03-13 2015-07-16 Google Inc. Processing an attempted loading of a web resource
WO2014141660A1 (ja) 2013-03-13 2014-09-18 日本電気株式会社 システム分析装置、及び、システム分析方法
DE102014208034A1 (de) * 2014-04-29 2015-10-29 Siemens Aktiengesellschaft Verfahren zum Bereitstellen von zuverlässigen Sensordaten
JP6008070B1 (ja) 2014-12-22 2016-10-19 日本電気株式会社 運用管理装置、運用管理方法、及び、運用管理プログラムが記録された記録媒体
JP6828679B2 (ja) * 2015-02-25 2021-02-10 日本電気株式会社 システム監視装置、システム監視方法、及び、システム監視プログラム
US10031831B2 (en) 2015-04-23 2018-07-24 International Business Machines Corporation Detecting causes of performance regression to adjust data systems
US10404791B2 (en) * 2015-12-04 2019-09-03 Microsoft Technology Licensing, Llc State-aware load balancing of application servers
US10331802B2 (en) 2016-02-29 2019-06-25 Oracle International Corporation System for detecting and characterizing seasons
US10885461B2 (en) 2016-02-29 2021-01-05 Oracle International Corporation Unsupervised method for classifying seasonal patterns
US10699211B2 (en) 2016-02-29 2020-06-30 Oracle International Corporation Supervised method for classifying seasonal patterns
US10970891B2 (en) 2016-02-29 2021-04-06 Oracle International Corporation Systems and methods for detecting and accommodating state changes in modelling
WO2017169949A1 (ja) * 2016-03-30 2017-10-05 日本電気株式会社 ログ分析装置、ログ分析方法及びプログラムを格納する記録媒体
US9705751B1 (en) * 2016-03-31 2017-07-11 Sas Institute Inc. System for calibrating and validating parameters for optimization
US10198339B2 (en) * 2016-05-16 2019-02-05 Oracle International Corporation Correlation-based analytic for time-series data
US11082439B2 (en) 2016-08-04 2021-08-03 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
US10635563B2 (en) 2016-08-04 2020-04-28 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
US10915830B2 (en) 2017-02-24 2021-02-09 Oracle International Corporation Multiscale method for predictive alerting
US10949436B2 (en) 2017-02-24 2021-03-16 Oracle International Corporation Optimization for scalable analytics using time series models
US10817803B2 (en) 2017-06-02 2020-10-27 Oracle International Corporation Data driven methods and systems for what if analysis
JP6829158B2 (ja) * 2017-07-18 2021-02-10 株式会社東芝 データ処理装置、データ処理方法、およびプログラム
WO2019073512A1 (ja) * 2017-10-10 2019-04-18 日本電気株式会社 システム分析方法、システム分析装置、および、プログラム
CN108923952A (zh) * 2018-05-31 2018-11-30 北京百度网讯科技有限公司 基于服务监控指标的故障诊断方法、设备及存储介质
US10963346B2 (en) 2018-06-05 2021-03-30 Oracle International Corporation Scalable methods and systems for approximating statistical distributions
US10997517B2 (en) 2018-06-05 2021-05-04 Oracle International Corporation Methods and systems for aggregating distribution approximations
US11138090B2 (en) 2018-10-23 2021-10-05 Oracle International Corporation Systems and methods for forecasting time series with variable seasonality
US10938623B2 (en) * 2018-10-23 2021-03-02 Hewlett Packard Enterprise Development Lp Computing element failure identification mechanism
US10855548B2 (en) 2019-02-15 2020-12-01 Oracle International Corporation Systems and methods for automatically detecting, summarizing, and responding to anomalies

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007323193A (ja) * 2006-05-30 2007-12-13 Nec Corp 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
CN101425000A (zh) * 2007-10-31 2009-05-06 株式会社日立制作所 性能履历的管理方法以及性能履历的管理系统
US20090217099A1 (en) * 2008-02-25 2009-08-27 Kiyoshi Kato Operations management apparatus, operations management system, data processing method, and operations management program

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4112191B2 (ja) 2001-05-14 2008-07-02 日本電信電話株式会社 分散サーバシステム、障害復旧方法、障害復旧プログラムおよび記録媒体
US7444263B2 (en) * 2002-07-01 2008-10-28 Opnet Technologies, Inc. Performance metric collection and automated analysis
JP2003263342A (ja) 2002-03-07 2003-09-19 Telecommunication Advancement Organization Of Japan 情報処理装置の監視装置および監視方法並びにそのプログラム
JP4412031B2 (ja) 2004-03-31 2010-02-10 日本電気株式会社 ネットワーク監視システム及びその方法、プログラム
JP4980581B2 (ja) * 2004-04-16 2012-07-18 新日鉄ソリューションズ株式会社 性能監視装置、性能監視方法及びプログラム
US7349746B2 (en) * 2004-09-10 2008-03-25 Exxonmobil Research And Engineering Company System and method for abnormal event detection in the operation of continuous industrial processes
US20060200726A1 (en) 2005-03-03 2006-09-07 Seagate Technology Llc Failure trend detection and correction in a data storage array
JP5105218B2 (ja) * 2005-06-06 2012-12-26 トヨタ自動車株式会社 異常判定装置
US7246043B2 (en) * 2005-06-30 2007-07-17 Oracle International Corporation Graphical display and correlation of severity scores of system metrics
JP4725724B2 (ja) 2005-10-27 2011-07-13 日本電気株式会社 クラスタ障害推定システム
JP2007207173A (ja) 2006-02-06 2007-08-16 Fujitsu Ltd 性能分析プログラム、性能分析方法、および性能分析装置
JP4859558B2 (ja) * 2006-06-30 2012-01-25 株式会社日立製作所 コンピュータシステムの制御方法及びコンピュータシステム
JP2010003008A (ja) 2008-06-18 2010-01-07 Fujitsu Ltd 検出プログラム、検出装置および検出方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007323193A (ja) * 2006-05-30 2007-12-13 Nec Corp 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
CN101425000A (zh) * 2007-10-31 2009-05-06 株式会社日立制作所 性能履历的管理方法以及性能履历的管理系统
US20090217099A1 (en) * 2008-02-25 2009-08-27 Kiyoshi Kato Operations management apparatus, operations management system, data processing method, and operations management program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106104627A (zh) * 2014-03-14 2016-11-09 Nec飞鼎克株式会社 信息提供装置、信息提供系统、信息提供方法及程序
CN107113332A (zh) * 2014-12-10 2017-08-29 阿卡麦科技公司 媒体客户端稳定状态的服务器侧预测
CN107113332B (zh) * 2014-12-10 2020-05-26 阿卡麦科技公司 用于分发媒体流的装置、方法和计算机可读介质
CN107636619A (zh) * 2015-08-06 2018-01-26 新日铁住金系统集成株式会社 信息处理装置、信息处理系统、信息处理方法及程序
CN107636619B (zh) * 2015-08-06 2020-12-29 日铁系统集成株式会社 信息处理装置、信息处理系统、信息处理方法及记录介质

Also Published As

Publication number Publication date
EP2523115B1 (en) 2020-05-06
US20120278663A1 (en) 2012-11-01
US8645769B2 (en) 2014-02-04
WO2011083687A1 (ja) 2011-07-14
JPWO2011083687A1 (ja) 2013-05-13
CN102713861B (zh) 2015-09-23
EP2523115A1 (en) 2012-11-14
JP5267684B2 (ja) 2013-08-21
EP2523115A4 (en) 2015-08-12

Similar Documents

Publication Publication Date Title
CN102713861A (zh) 操作管理装置、操作管理方法以及程序存储介质
US9471462B2 (en) Proactive risk analysis and governance of upgrade process
US20160170818A1 (en) Adaptive fault diagnosis
US8635498B2 (en) Performance analysis of applications
EP2759938B1 (en) Operations management device, operations management method, and program
CN101321084A (zh) 在计算机环境中利用关联规则挖掘为计算实体产生配置规则的方法和装置
CN107003926A (zh) 故障信息提供服务器、故障信息提供方法
KR101953558B1 (ko) 스마트 기기 결함 관리 장치 및 방법
CN105027088A (zh) 系统分析设备和系统分析方法
US9860109B2 (en) Automatic alert generation
CN109934268B (zh) 异常交易检测方法及系统
JP6252309B2 (ja) 監視漏れ特定処理プログラム,監視漏れ特定処理方法及び監視漏れ特定処理装置
CN111027615A (zh) 基于机器学习的中间件故障预警方法和系统
JP5487588B2 (ja) 遠隔の機械を保守するための情報処理装置、プログラム、および方法
CN107957942A (zh) 一种sql脚本的故障修复方法及其终端
CN111935279B (zh) 基于区块链和大数据的物联网络维护方法及计算节点
CN109064211B (zh) 营销业务数据分析方法、装置及服务器
CN112650762B (zh) 数据质量监控的方法、装置、电子设备以及存储介质
CN107508789B (zh) 一种异常数据的识别方法和装置
CN111984442A (zh) 计算机集群系统的异常检测方法及装置、存储介质
EP3503473A1 (en) Server classification in networked environments
CN112416896A (zh) 数据异常的报警方法和装置、存储介质、电子装置
CN111833022A (zh) 跨数据、信息、知识模态与量纲的任务处理方法及组件
CA2843004A1 (en) Adaptive fault diagnosis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant