CN104205063B - 操作管理装置、操作管理方法和程序 - Google Patents

操作管理装置、操作管理方法和程序 Download PDF

Info

Publication number
CN104205063B
CN104205063B CN201380014367.2A CN201380014367A CN104205063B CN 104205063 B CN104205063 B CN 104205063B CN 201380014367 A CN201380014367 A CN 201380014367A CN 104205063 B CN104205063 B CN 104205063B
Authority
CN
China
Prior art keywords
correlation
related damage
configuration change
correlation models
monitored device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380014367.2A
Other languages
English (en)
Other versions
CN104205063A (zh
Inventor
加藤清志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN104205063A publication Critical patent/CN104205063A/zh
Application granted granted Critical
Publication of CN104205063B publication Critical patent/CN104205063B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M99/00Subject matter not provided for in other groups of this subclass
    • G01M99/008Subject matter not provided for in other groups of this subclass by doing functionality tests
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M99/00Subject matter not provided for in other groups of this subclass
    • G01M99/005Testing of complete machines, e.g. washing-machines or mobile phones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

在不变关系分析中,即使系统配置已经被改变,也能够使用适当的相关性模型来执行故障分析。一种操作管理装置(100)包括:相关性模型生成单元(102)、配置改变检测器单元(107)和故障分析单元(104)。相关性模型生成单元(102)生成包括一个或多个相关性函数的相关性模型(122),该相关性函数中的每一个指示在系统的多个度量当中的两个不同的度量之间的相关性。配置改变检测器单元(107)检测系统配置改变是否已经发生。当配置改变检测器单元(107)检测系统配置改变时,故障分析单元(104)使用基于系统的配置改变之后的多个度量的测量值所生成的相关性模型(122)来识别系统的故障原因。

Description

操作管理装置、操作管理方法和程序
技术领域
本发明涉及操作管理装置、操作管理方法和程序,并且具体地,涉及检测系统的异常的操作管理装置、操作管理方法和程序。
背景技术
在PTL 1中描述了操作管理系统的示例,该操作管理系统使用系统性能的时间序列信息来对系统进行建模,并且使用所生成的模型来检测系统的故障。
在PTL 1中描述的操作管理系统通过下述方式来生成指示在度量之间的相关性的相关性模型:基于系统的多个度量(性能指标)的测量值来判定用于在该多个度量之间的组合中的每一个的相关性函数。并且,该操作管理系统使用所生成的相关性模式来针对新输入的度量的测量值测量相关性的破坏(相关性破坏),并且基于该相关性破坏来识别故障的原因。如上基于相关性破坏来分析故障原因的技术被称为不变关系分析。
在该不变关系分析中,因为并不关注度量值而对关注度量之间的相关性,所以与通过将各个度量值与阈值作比较来检测故障的情况相比,存在使得不需要阈值的设定、能够检测阈值无法检测到的故障以及易于识别异常原因的优点。
注意,作为在不变关系分析中的相关性技术,在PTL 2和PTL 3中公开了操作管理系统,该操作管理系统基于在过去故障时的异常度(相关性破坏的程度)的分布以及是否检测到每个相关性的相关性破坏来识别所检测到的相关性破坏的故障原因。
[引用列表]
[专利文献]
[PTL 1]日本公开专利申请特开No.2009-199533
[PTL 2]WO 2010/032701
[PTL 3]WO 2011/155621
发明内容
[技术问题]
在如上所述的PTL 1中公开的不变关系分析中,使用基于在特定时段中的度量的测量值所生成的相关性模型,在特定时段中,分析对象的系统以正常状态进行操作。为此,当系统配置被改变时,由于不正确地检测相关性破坏,所以存在相关性被判断为异常相关性的可能性。
例如,当分析对象系统是提供24小时服务的WEB系统时,使用诸如备份服务器、备份硬盘和冗余网络的冗余配置,以便于即使在系统的一部分中存在故障也继续服务。在该情况下,例如,当在冗余配置中发生切换时,因为系统的行为被改变,所以在切换之前的度量和在切换之后的度量之间的相关性部分地不同。
在通过系统配置改变来改变相关性的状态中,当使用在系统配置改变之前的相关性模型来执行分析时,即使服务正常地进行操作,也检测关于所改变的相关性的度量异常。在该情况下,管理员需要掌握改变的相关性以排除与该度量相关的异常。因此,管理员所需要的知识和工作增加。
本发明的目的在于解决如上所述的问题,并且提供一种操作管理装置、操作管理方法和程序,该操作管理装置、操作管理方法和程序即使在系统配置已经改变时也可以使用适当的相关性模型来在不变关系分析中执行故障分析。
[对问题的解决方案]
根据本发明的示例性方面的操作管理装置包括:相关性模型生成部件,用于生成包括一个或多个相关性函数的相关性模型,一个或多个相关性函数中的每一个指示在系统的多个度量当中的两个不同的度量之间的相关性;配置改变检测部件,用于检测该系统的配置改变是否已经发生;以及故障分析部件,用于当配置改变检测部件检测该系统的配置改变时,使用相关性模型来识别系统的故障原因,该相关性模式是基于在该系统的配置改变之后的该多个度量的测量值来生成的。
根据本发明的示例性方面的一种操作管理方法,包括:生成包括一个或多个相关性函数的相关性模型,该一个或多个相关性函数中的每一个指示在系统的多个度量当中的两个不同的度量之间的相关性;检测该系统的配置改变是否已经发生;以及当检测到该系统的配置改变时,使用相关性模型来识别该系统的故障原因,该相关性模式是基于在该系统的配置改变之后的多个度量的测量值来生成的。
根据本发明的示例性方面的计算机可读存储介质记录有程序,使得计算机执行一种方法,该方法包括:生成包括一个或多个相关性函数的相关性模型,该一个或多个相关性函数中的每一个指示在系统的多个度量当中的两个不同的度量之间的相关性;检测该系统的配置改变是否已经发生;以及当检测到该系统的配置改变时,使用相关性模型来识别该系统的故障原因,该相关性模式是基于在该系统的配置改变之后的多个度量的测量值来生成的。
[本发明的有益效果]
本发明的有益效果是,即使系统配置已经改变,也能够使用适当的相关性模型来在不变关系分析中执行故障分析。
附图说明
图1是示出根据本发明的第一示例性实施例的特征配置的框图。
图2是示出在本发明的第一示例性实施例中的操作管理系统1的配置的框图。
图3是示出在本发明的第一示例性实施例中的操作管理装置100的处理的流程图。
图4是示出在本发明的第一示例性实施例中的配置改变检测规则125的示例的图。
图5是示出在本发明的第一示例性实施例中的相关性破坏模式更新规则126的示例的图。
图6是示出在本发明的第一示例性实施例中的序列性能信息121的示例的图。
图7是示出在本发明的第一示例性实施例中的分析对象系统200的配置的示例的框图。
图8是示出在本发明的第一示例性实施例中的配置信息127的示例的图。
图9是示出在本发明的第一示例性实施例中的相关性模型122的示例的图。
图10是示出在本发明的第一示例性实施例中的相关性映射128的示例的图。
图11是示出在本发明的第一示例性实施例中的相关性破坏信息123的示例的图。
图12是示出在本发明的第一示例性实施例中的相关性破坏模式124的示例的图。
图13是示出在本发明的第一示例性实施例中的系统配置改变、相关性模型122和相关性破坏模式124之间的关系的图。
图14是示出在本发明的第一示例性实施例中的配置改变检测画面300的示例的图。
图15是示出在本发明的第一示例性实施例中的分析结果输出画面310的示例的图。
图16是示出在本发明的第二示例性实施例中的操作管理系统1的配置的框图。
图17是示出在本发明的第二示例性实施例中的操作管理装置100的处理的流程图。
图18是示出在本发明的第二示例性实施例中的配置改变检测规则125的示例的图。
图19是示出在本发明的第二示例性实施例中的相关性破坏模式更新规则126的示例的图。
图20是示出在本发明的第二示例性实施例中的分析对象系统200的配置的示例的框图。
图21是示出在本发明的第二示例性实施例中的相关性模型122的示例的图。
图22是示出在本发明的第二示例性实施例中的相关性映射128的示例的图。
图23是示出在本发明的第二示例性实施例中的相关性破坏模式124的示例的图。
图24是示出在本发明的第二示例性实施例中的分析对象系统200的配置的另一示例的框图。
图25是示出在本发明的第二示例性实施例中的相关性模型122的另一示例的图。
图26是示出在本发明的第二示例性实施例中的相关性映射128的另一示例的图。
图27是示出在本发明的第二示例性实施例中的相关性破坏模式124的另一示例的图。
图28是示出在本发明的第二示例性实施例中的分析对象系统200的配置的另一示例的框图。
图29是示出在本发明的第二示例性实施例中的相关性模型122的另一示例的图。
图30是示出在本发明的第二示例性实施例中的相关性映射128的另一示例的图。
图31是示出在本发明的第二示例性实施例中的相关性破坏模式124的另一示例的图。
图32是示出在本发明的第二示例性实施例中的系统配置改变、相关性模型122和相关性破坏模式124之间的关系的图。
图33是示出在本发明的第二示例性实施例中的相关性模型122的另一示例的图。
图34是示出在本发明的第二示例性实施例中的配置改变检测画面300的示例的图。
具体实施方式
(第一示例性实施例)
接下来,将描述本发明的第一示例性实施例。
首先,将描述本发明的第一示例性实施例的配置。图2是示出在本发明的第一示例性实施例中的操作管理系统1的配置的框图。
参考图2,本发明的第一示例性实施例中的操作管理系统1包括操作管理装置100和分析对象系统200。操作管理装置100和分析对象系统200经由网络等连接。
图7是示出在本发明的第一示例性实施例中的分析对象系统200的配置的示例的框图。在此,分析对象系统200包括一个或多个被监视的装置201。被监视的装置201例如是执行诸如WEB服务器、应用服务器(AP服务器)和数据库服务器(DB服务器)的服务器的服务处理的计算机。注意,在下面的说明中,跟随附图标记的括号中的文本指示标识符。例如,被监视的装置201(A1)指示具有标识符A1的被监视的装置201。在图7的示例中,分析对象系统200包括被监视的装置201(A1、B1和B2)
被监视的装置201在每个固定间隔(预定性能信息收集时间段)中测量被监视的装置201的多个项目的性能值(测量值),并且将其发送到操作管理装置100。作为性能值的各项目,使用计算机资源的使用率或使用量,诸如CPU(中央处理单元)使用率、存储器使用率(MEM)、磁盘访问频率(DSK)和网络使用率(NW)。
在此,被监视的装置201和性能值的项目的集合定义被为度量(性能指标)。而且,在相同时间处测量的多个度量值的集合被定义为性能信息。该度量由诸如整数或小数的数值来表示。而且,该度量对应于在PTL 1中的元素。
操作管理装置100基于从作为监视对象的被监视的装置201收集的性能信息来生成分析对象系统200的相关性模型122,并且使用所生成的相关性模型122来检测被监视的装置201的故障或异常。
操作管理装置100包括信息收集单元101、相关性模型生成单元102、相关性破坏检测单元103、故障分析单元104、对话单元105、动作执行单元106、配置改变检测单元107、相关性破坏模式(pattern)更新单元108、性能信息存储器单元111、相关性模型存储器单元112、相关性破坏存储器单元113、相关性破坏模式存储器单元114和配置信息存储器单元117。
信息收集单元101以预定的性能信息收集周期来从被监视的装置201收集性能信息,并且将时间序列变化的性能信息存储在性能信息存储器单元111中作为序列性能信息121。
图6是示出在本发明的第一示例性实施例中的序列性能信息121的示例的图。在图6的示例中,序列性能信息121包括被监视的装置201(A1)的CPU使用率(A1.CPU)和存储器使用量(A1.MEM)、被监视的装置201(B1)的CPU使用率(B1.CPU)等作为性能项目。
而且,信息收集单元101以预定装置属性收集周期来收集被监视的装置201的属性(装置属性),并且将其存储在配置信息存储器单元117中作为配置信息127。
图8是示出在本发明的第一示例性实施例中的配置信息127的示例的图。在图8的示例中,配置信息127包括被监视的装置201的标识符和被监视的装置201的服务处理的类型(服务器类型)作为被监视的装置201的装置属性。
信息收集单元101例如使用SNMP(简单网络管理协议)通过参考被监视的装置201的MIB(管理信息库)来收集装置属性。而且,信息收集单元101可以从被监视的装置201收集装置属性以及性能信息。
相关性模型生成单元102基于序列性能信息121来生成分析对象系统200的相关性模型122。
在此,相关性模型122包括相关性函数(或变换函数),该相关性函数指示在多个度量当中的每个度量对的度量之间的相关性。相关性函数是从在度量对的一个度量的值的时间序列估计另一度量的值的时间序列的函数。相关性模型生成单元102基于在预定建模时段中的序列性能信息121来针对每个度量来决定相关性函数的系数。如在PTL1中的操作管理装置,通过对度量的测量值的时间序列的系统识别处理来决定相关性函数的系数。
注意,如在PTL 1中的操作管理装置,相关性模型生成单元102可以针对每个度量对来计算相关性函数的权重,并且使用其权重等于或大于预定值的相关性函数(有效相关性函数)的集合作为相关性模型122。
相关性模型存储器单元112存储由相关性模型生成单元102生成的相关性模型122。
图9是示出在本发明的第一示例性实施例中的相关性模型122的示例的图。在图9的示例中,相关性模型122包括用于输入度量(X)和输出度量(Y)对的相关性函数的系数(α,β)和权重。在此,假定相关性函数是Y=αX+β。注意,就可以从度量对中的一个度量的值的时间序列估计另一度量的值的时间序列而言,其他函数表达式可以被用作相关性函数。例如,可以使用Y=aX1+bX2+cX3+dY1+eY2+f,这是使用X1、X2和X3作为过去的X的值的时间序列并且使用Y1和Y2作为过去的Y的值的时间序列的函数表达式。
图10是示出在本发明的第一示例性实施例中的相关性映射128的示例的图。图10的相关性映射128对应于图9的相关性模型122。在相关性映射128中,通过包括节点和箭头的图形来指示相关性模型122。在此,每个节点指示度量,并且在度量之间的箭头指示在两个度量之间的从一个到另一个的相关性。
如在PTL 1中的操作管理装置,相关性破坏检测单元103关于新输入的性能信息检测在相关性模型122中所包括的相关性的相关性破坏。
在此,如PTL 1,相关性破坏检测单元103通过对与该两个度量相对应的相关性函数输入多个度量的两个度量中的一个度量的测量值,来获得另一度量的估计值。当在另一个度量的估计值和测量值之间的差(由于相关性函数所引起的转换误差)等于或大于预定值时,相关性破坏检测单元103将其检测为在两个度量之间的相关性的相关性破坏。而且,相关性破坏检测单元103基于所检测到的相关性破坏的状态来计算指示相关性破坏的程度的异常度。在此,基于其相关性破坏被检测到的相关性的数目、其相关性破坏被检测到的相关性的数目与相关性的数目的比率、相关性破坏的大小等,来例如在相关性模型122中计算该异常度。
相关性破坏存储器单元113存储相关性破坏信息123,相关性破坏信息123指示其相关性破坏被检测到的相关性。图11是示出在本发明的第一示例性实施例中的相关性破坏信息123的示例的图。图11的相关性破坏信息123对应于图9的相关性模型122b。在图11的示例中,相关性破坏信息123指示对于相关性模型122的每个相关性是否检测到相关性破坏。
相关性破坏模式存储器单元114存储相关性破坏模式124,相关性破坏模式124指示过去故障时的相关性破坏的状态。图12是示出在本发明的第一示例性实施例中的相关性破坏模式124的示例的图。图12的相关性破坏模式124对应于图9的相关性模型122。在图12的示例中,如在PTL 3中的相关性破坏设定信息,相关性破坏模式124指示故障名称以及当对于相关性模型122的每个相关性发生故障时是否检测相关性故障。
注意,就指示过去故障时的相关性破坏的状态而言,可以使用其他信息作为相关性破坏模式124。例如,如PTL 2,可以使用每个度量的异常度(相关性破坏的程度)的分布作为相关性破坏模式124。
如PTL 2或PTL 3,故障分析单元104将针对新的性能信息检测到的相关性破坏的状态与相关性破坏模式124作比较,并且将类似的相关性破坏模式124的故障识别为估计的原因。
配置改变检测单元107使用配置信息127来检测在分析对象系统200中的配置改变。配置改变检测单元107基于配置改变检测规则125来识别配置改变的类型。图4是示出在本发明的第一示例性实施例中的配置改变检测规则125的示例的图。在图4的示例中,配置改变检测规则125针对配置改变的每种类型包括用于判定与该类型相对应的配置改变是否已经发生的判定条件。作为判定条件,设定与在当前配置信息127和前一配置信息127之间的装置属性的改变或一致性相关的条件。
相关性破坏模式更新单元108根据相关性破坏模式更新规则126来更新相关性破坏模式124。图5是示出在本发明的第一示例性实施例中的相关性破坏模式更新规则126的示例的图。在图5的示例中,相关性破坏模式更新规则126针对配置改变的每种类型包括相关性破坏模式124的更新方法。作为更新方法,设定用于以适用于在配置改变之后使用的相关性模型122的方式来校正相关性破坏模式124的方法。
对话单元105向管理员等输出配置改变被检测到。并且,对话单元105从管理员等接收用于切换由相关性破坏检测单元103使用以检测相关性破坏的相关性模型122(用于分析的相关性模型122)的指示。而且,对话单元105向管理员等输出故障分析结果,并且从管理员等接收用于对故障执行动作的指示。
动作执行单元106对于分析对象系统200执行由管理员等指示的动作。
注意,操作管理装置100可以是计算机,其包括CPU和存储程序的存储介质并且根据基于该程序的控制来进行操作。而且,性能信息存储器单元111、相关性模型存储器单元112、相关性破坏存储器单元113和相关性破坏模式存储器单元114可以通过独立的存储介质来分别配置或通过一个存储介质来配置。
接下来,将描述在本发明的第一示例性实施例中的操作管理装置100的操作。
图3是示出在本发明的第一示例性实施例中的操作管理装置100的处理的流程图。
首先,操作管理装置100的信息收集单元101从在分析对象系统200上的被监视的装置201收集性能信息(步骤S101)。信息收集单元101将所收集的性能信息存储在性能信息存储器单元111中作为序列性能信息121。
当在预定装置属性收集周期的定时处收集装置属性时(步骤S102/是),信息收集单元101从被监视的装置201收集装置属性,并且生成配置信息127(步骤S103)。信息收集单元101将所生成的配置信息127存储在配置信息存储器单元117中。
配置改变检测单元107基于配置信息127来检测配置改变(步骤S104)。在此,配置改变检测单元107根据配置改变检测规则125来检测配置改变。
当在步骤S104中没有检测到配置改变时(步骤S105/否),执行从步骤S110开始的处理。
另一方面,当在步骤S104中检测到配置改变时(步骤S105/是),故障分析单元104经由对话单元105向管理员等输出“配置改变被检测到”(步骤S106)。
接下来,当对话单元105从管理员等接收用于切换模型的指示时,故障分析单元104向相关性模型生成单元102指示相关性模型122的生成。相关性模型生成单元102参考性能信息存储器单元111的序列性能信息121,并且生成相关性模型122(步骤S107)。在此,相关性模型生成单元102基于在配置改变检测之后收集的预定建模时段中的性能信息来生成相关性模型122。相关性模型生成单元102将所生成的相关性模型122存储在相关性模型存储器单元112中。
注意,在已经收集了在预定建模时段中的性能信息之后,当相关性模型122的生成变得可能时,故障分析单元104可以在步骤S106中输出“配置改变被检测到”。而且,故障分析单元104可以执行从步骤S107开始的处理,而在步骤S106中不等待来自管理员等的指示。
故障分析单元104将所生成的相关性模型122设定为用于分析的相关性模型122(步骤S108)。
相关性破坏模式更新单元108更新相关性破坏模式124(步骤S109)。在此,相关性破坏模式更新单元108根据相关性破坏模式更新规则126来更新相关性破坏模式124。
相关性破坏检测单元103使用序列性能信息121来检测包括在用于分析的相关性模型122中的相关性的相关性破坏,并且生成相关性破坏信息123(步骤S110)。相关性破坏检测单元103将相关性破坏信息123存储在相关性破坏存储器单元113中。
故障分析单元104将包括在所生成的相关性破坏信息123中的相关性破坏的状态与相关性破坏模式124作比较,并且识别故障的估计原因(步骤S111)。
最后,故障分析单元104经由对话单元105输出故障分析结果(步骤S112)。并且,动作执行单元106对于分析对象系统200执行经由对话单元105从管理员等接收到的对故障的动作。
接下来,将描述操作的具体示例。图13是示出在本发明的第一示例性实施例中的系统配置改变、相关性模型122和相关性破坏模式124之间的关系的图。
在此,将下述情况作为示例来描述操作:当改变之前的分析对象系统200的配置是,如图7(配置改变之前)中所示,关于冗余配置的被监视的装置201(B1和B2),被监视的装置201(B1)的操作状态是“操作中”,并且被监视的装置201(B2)的操作状态是“停止”时。在此,假定被监视的装置201(B1和B2)的服务器类型相同,并且诸如被执行为实现服务处理的程序模块的被监视的装置201(B1和B2)的配置也是相同的。
而且,假定图9的相关性模型122a(图10的相关性映射128a)被生成并且设定为用于分析的相关性模型122。而且,针对在图13的定时t0处发生的被监视的装置201(B1)(WEB服务器)的故障(故障2),假定图12的相关性破坏模式124a被生成和设定为相关性破坏模式124。
在图13的时间t1处,假定通过冗余配置的切换,被监视的装置201(B1)的操作状态已经改变为“停止”,并且被监视的装置201(B2)的操作状态已经改变为“操作中”,如图7(配置改变之后)中所示。
在图13的时间t2处,信息收集单元101生成图8的配置信息127b。配置改变检测单元107将配置信息127b与作为前一配置信息127的图8的配置信息127a作比较。在此,关于服务器类型“WEB”,因为被监视的装置201(B1)的检测状态从“未检测到”改变为“检测到”,并且被监视的装置201(B2)的检测状态从“检测到”改变为“未检测到”,则配置改变检测单元107根据图4的配置改变检测规则125来判定配置改变类型“替换(用被监视的装置201(B2)替换被监视的装置201(B1))”的配置改变已经发生。
图14是示出在本发明的第一示例性实施例中的配置改变检测画面300的示例的图。在图13的时间t3处,对话单元105在配置改变检测画面300上输出“配置改变被检测到”,例如图14中所示。在图14的示例中,配置改变检测画面300包括:指示异常度的时间序列变化的异常度图形301、指示检测到配置改变的配置改变检测信息302、以及接收用于切换模型的指示的按钮303。注意,配置改变检测画面300可以包括与对所检测的相关性破坏的度量相关的信息。而且,配置改变检测画面300可以包括例如与受配置改变影响的度量相关的信息,度量诸如是通过配置改变将其检测到的状态改变为“检测到”或“未检测到”的被监视的装置201的度量。
结果,管理员等可以掌握分析对象系统200的配置改变,并且可以指示切换为适当的相关性模型122。
接下来,当对话单元105利用按钮303从管理员等接收用于切换模型的指示时,相关性模型生成单元102生成图9的相关性模型122b(图10的相关性映射128b)。并且,故障分析单元104将图9的相关性模型122b设定为用于分析的相关性模型122。
相关性破坏模式更新单元108根据与在图5的相关性破坏模式更新规则126中的配置改变类型“替换”相对应的更新方法,通过在相关性破坏模式124a中用被监视的装置201(B1)的标识符替换被监视的装置201(A1)的标识符,来生成图12的相关性破坏模式124b。
以下,使用图9的相关性模型122b和图12的相关性破坏模式124b来执行故障分析。
在图13的时间t4处,假定被监视的装置201(B2)(WEB服务器)的故障(故障3)发生。
在该情况下,相关性破坏检测单元103生成例如图11中所示的相关性破坏信息123。故障分析单元104将图11的相关性破坏信息123和图12的相关性破坏模式124b作比较,并且将相关性破坏模式124b的故障“被监视的装置201(B2)的CPU故障”识别为估计的原因。
图15是示出在本发明的第一示例性实施例中的分析结果输出画面310的示例的图。例如,对话单元105输出如图15中所示的分析结果输出画面310作为故障分析结果。在图15的示例中,分析结果输出画面310包括异常度图形301和指示故障的估计原因的故障候选信息311。在故障候选信息311中,指示了与估计的原因相关的被监视的装置201的服务器类型和装置标识符。
结果,管理员等可以从故障候选信息311的内容中掌握故障3是与故障2(WEB服务器的故障)类似的故障。
如上,本发明的第一示例性实施例的操作完成。
注意,在本发明的第一示例性实施例中,通过将被监视的装置201是执行服务处理的计算机的情况作为示例进行了说明,然而不限于该示例。被监视的装置201还可以是其他装置,诸如网络交换器或存储器,只要可以基于配置信息127来检测配置改变,并且可以根据该配置改变来更新相关性破坏模式124。
而且,在本发明的第一示例性实施例中,作为示例描述了其中“替换”被检测为配置改变的情况。然而,只要可以基于配置信息127进行检测,就可以检测其他类型的配置改变。例如,配置改变检测单元107可以将“复制”(添加了相同服务器类型的被监视的装置)检测为配置改变。在该情况下,例如,当存在具有与在配置信息127中其检测状态被从“未检测到”改变为“检测到”的被监视的装置201相同的服务器类型的被监视的装置201时,配置改变检测单元107判定“复制”的配置改变已经发生。并且,相关性破坏模式更新单元108更新与配置改变类型“复制”相对应的相关性破坏模式124,如下述本发明的第二示例性实施例。
接下来,将描述本发明的第一示例性实施例的特征配置。图1是示出根据本发明的第一示例性实施例的特征配置的框图。
参考图1,操作管理装置100包括相关性模型生成单元102、配置改变检测单元107和故障分析单元104。
相关性模型生成单元102生成包括一个或多个相关性函数的相关性模型122,该一个或多个相关性函数中的每一个指示在系统的多个度量当中的两个不同度量之间的相关性。配置改变检测单元107检测系统的配置改变是否已经发生。当配置改变检测单元107检测到系统的配置改变时,故障分析单元104使用相关性模型122来识别系统的故障原因,该相关性模型122是基于在系统的配置改变之后的多个度量的测量值来生成的。
根据本发明的第一示例性实施例,在不变关系分析中,即使系统配置已经改变,也能够使用适当的相关性模型来执行故障分析。原因在于,配置改变检测单元107检测到分析对象系统200的配置改变,并且故障分析单元104将在配置改变之后生成的相关性模型122设定为用于检测分析对象系统200的故障的(用于分析的)相关性模型122。
在根据PTL 2和PTL 3的基于过去故障时的相关性破坏模式来识别所检测到的相关性破坏的故障原因的情况下,即使如上所述利用系统配置改变来改变了用于分析的相关性模型122,相关性破坏模式也不与用于分析的相关性模型122相对应。因此,即使与在过去的故障类似的故障发生,也无法正确地识别故障原因。在该情况下,管理员等需要再一次执行对类似故障的分析,并且登记相关性破坏模式。
相反,根据本发明的第一示例性实施例,即使系统配置已经被改变,也能够使用适当的相关性破坏模式来执行故障分析。原因在于,因为相关性破坏模式更新单元108根据与配置改变的类型相对应的更新方法来更新相关性破坏模式124。
而且,在根据PTL 2和PTL 3的基于过去故障时的相关性破坏模式来识别所检测到的相关性破坏的故障原因的情况下,因为无法基于过去的故障来适当地呈现故障原因,所以存在分析或动作可能被延迟或者管理员等的伴随的工作负载可能增加并且可能产生错误的可能性。具体地,在包括冗余服务器、存储和网络的长时段地连续操作的系统中,在部分故障的情况下通过对其进行切换来继续服务。当冗余配置的切换有效地起作用时,无法适当地跟随配置改变,并且不变关系分析的效果降低。
相反,根据本发明的第一示例性实施例,即使系统在长时段中连续操作,也可以保持或提高不变关系分析的速度和精度。原因在于,因为故障分析单元104使用上述适用于在配置改变之后的系统的相关性模型122和相关性破坏模式124来执行故障分析。
而且,根据本发明的第一示例性实施例,在不变关系分析中,对于检测到的相关性破坏,能够在由于故障引起的相关性破坏和由于系统配置改变引起的相关性破坏之间进行区分。原因在于,因为当检测配置改变时,对话单元105在包括异常度图形301的配置改变检测画面300中包括指示配置改变被检测到的配置改变检测信息302,并且输出配置改变检测画面300,该异常度图形301指示异常度的时间序列变化。
(第二示例性实施例)
接下来,将描述本发明的第二示例性实施例。本发明的第二示例性实施例与本发明的第一示例性实施例不同之处在于,配置改变检测单元107基于相关性模型122来检测配置改变。
首先,将描述本发明的第二示例性实施例的配置。图16是示出在本发明的第二示例性实施例中的操作管理系统1的配置的框图。
操作管理装置100包括信息收集单元101、相关性模型生成单元102、相关性破坏检测单元103、故障分析单元104、对话单元105、动作执行单元106、配置改变检测单元107、相关性破坏模式更新单元108、性能信息存储器单元111、相关性模型存储器单元112、相关性破坏存储器单元113和相关性破坏模式存储器单元114。
相关性模型生成单元102在每个预定建模时段中生成分析对象系统200的相关性模型122。
配置改变检测单元107使用相关性模型122来检测在分析对象系统200中的配置改变。配置改变检测单元107基于配置改变检测规则125来识别配置改变的类型。图18是示出在本发明的第二示例性实施例中的配置改变检测规则125的示例的图。在图18的示例中,配置改变检测规则125针对配置改变的每种类型包括用于判定与该类型相对应的配置改变是否已经发生的判定条件。作为判定条件,设定与在当前相关性模型122和前一相关性模型122之间的相关性的改变或类似度相关的条件。图19是示出在本发明的第二示例性实施例中的相关性破坏模式更新规则126的示例的图。
接下来,将描述在本发明的第二示例性实施例中的操作管理装置100的操作。
图17是示出在本发明的第二示例性实施例中的操作管理装置100的处理的流程图。
首先,操作管理装置100的信息收集单元101从在分析对象系统200上的被监视的装置201收集性能信息(步骤S201)。信息收集单元101将所收集的性能信息存储在性能信息存储器单元111中作为序列性能信息121。
当在预定建模时段的定时处生成相关性模型122时(步骤S202/是),相关性模型生成单元102参考在性能信息存储器单元111中的序列性能信息121,并且基于在预定建模时段中的性能信息来生成相关性模型122(步骤S203)。相关性模型生成单元102将所生成的相关性模型122存储在相关性模型存储器单元112中。
配置改变检测单元107基于相关性模型122来检测配置改变(步骤S204)。在此,配置改变检测单元107根据配置改变检测规则125来检测配置改变。
当在步骤S204中没有检测到配置改变时(步骤S205/否),执行从步骤S209开始的处理。
另一方面,当在步骤S204中检测到配置改变时(步骤S205/是),故障分析单元104经由对话单元105向管理员等输出“配置改变被检测到”(步骤S206)。
接下来,当对话单元105从管理员等接收到用于切换模型的指示时,故障分析单元104将在步骤S202中生成的相关性模型122设定为用于分析的相关性模型122(步骤S207)。
注意,在此,可以执行从步骤S207起的处理,而不等待来自管理员等的命令。
相关性破坏模式更新单元108更新相关性破坏模式124(步骤S208)。在此,相关性破坏模式更新单元108根据相关性破坏模式更新规则126来更新相关性破坏模式124。
以下,从生成相关性破坏信息123到输出故障分析结果的处理(步骤S209至S211)类似于本发明的第一示例性实施例的处理(步骤S110至S112)。
接下来,将描述操作的具体示例。图32是示出在本发明的第二示例性实施例中的系统配置改变、相关性模型122和相关性破坏模式124之间的关系的图。图20、图24和图28是示出在本发明的第二示例性实施例中的分析对象系统200的配置的示例的框图。图21、图25和图29是示出在本发明的第二示例性实施例中的相关性模型122的示例的图。图22、图26和图30是示出在本发明的第二示例性实施例中的相关性映射128的示例的图。图22、图26和图30的相关性映射128分别对应于图21、图25和图29的相关性模型。图23、图27和图31是示出在本发明的第二示例性实施例中的相关性破坏模式124的示例的图。
首先,作为第一示例,将下述情况作为示例来描述操作:当改变之前的分析对象系统200的配置是,如图20(配置改变之前)中所示,关于冗余配置的被监视的装置201(B1和B2),被监视的装置201(B1和B2)二者的操作状态是“操作中”,并且被监视的装置201(A1)和被监视的装置201(B1)具有协作关系时。在该示例中,即使被监视的装置201(B)进行操作中,被监视的装置201(B2)也进行操作,但是执行与被监视的装置201(B1)不同的其他处理。
在该情况下,假定图21的相关性模型122a(图22的相关性映射128a)被生成和设定为用于分析的相关性模型122。而且,假定针对在图32的时间t0处发生的被监视的装置201(B1)(WEB服务器)的故障(故障2),图23的相关性破坏模式124a被生成和设定为相关性破坏模式124。
假定在图32的时间t1处,如图20(配置改变之后)中所示,在被监视的装置201(A1)和(B1)之间的协作关系被移动到在被监视的装置201(A1)和(B2)之间的协作关系。
在图32的时间t2处,相关性模型生成单元102生成图21的相关性模型122b(图22的相关性映射128b)。配置改变检测单元107将相关性模型122b与作为前一相关性模型122的图21的相关性模型122a作比较。在图21中,已经改变了“在A1.CPU和B1.CPU之间的相关性”与“在A1.CPU和B2.CPU之间的相关性”。而且,相关性模型122a的“在A1.CPU和B1.CPU之间的相关性”与相关性模型122b的“在A1.CPU和B2.CPU之间的相关性”是类似的。相关性模型122a的“在A1.CPU和B2.CPU之间的相关性”与相关性模型122b的“在A1.CPU和B1.CPU之间的相关性”也是类似的。配置改变检测单元107根据图18的配置改变检测规则125来判定配置改变类型“协作关系的移动(将在被监视的装置201(A1)和(B1)之间的相关性移动到在被监视的装置201(A1)和(B2)之间的相关性)”的配置改变已经发生。
在此,例如,当在相关性之间的相关性函数的每个系数或加权的差等于或小于预定阈值时,配置改变检测单元107确定相关性是类似的。而且,当反转相关性函数的每个系数的符号时,当以时间序列顺序移位每个系数时,当每个系数具有固定的倍数关系时,或者当仅常数项不同时,配置改变检测单元107可以判定在相关性之间,相关性是类似的。
注意,在图21中,也已经改变了作为在被监视的装置201中的相关性的“在B1.CPU和B1.DSK之间的相关性”和“在B2.CPU和B2.DSK之间的相关性”。然而,因为这些是不类似的,所以配置改变检测单元107判定这些相关性的相关性函数的系数已经被改变。这对应于例下述情况:当被监视的装置201(B2)独立于被监视的装置201(A1)而在执行诸如批处理的具有高磁盘负载的处理时。在该情况下,即使在被监视的装置201(A1)和被监视的装置201(B1)之间的相关性关系移动到在被监视的装置201(A1)和被监视的装置201(B2)之间的相关性关系时,与在被监视的装置201(B2)中的磁盘负载相关的相关性不受影响。
对话单元105在例如上述图14中所示的配置改变检测画面300上输出“配置改变被检测到”。
接下来,当对话单元105从管理员等接收用于切换模型的指示时,故障分析单元104将图21的相关性模型122b设定为用于分析的相关性模型122。
相关性破坏模式更新单元108根据与在图19的相关性破坏模式更新规则126中的配置改变类型“协作关系的移动”相对应的更新方法,通过将与在相关性破坏模式124a中的在被监视的装置201(A1)和被监视的装置201(B1)之间的协作关系相关的破坏模式替换为与在被监视的装置201(A1)和被监视的装置201(B2)之间的相关性关系相关的破坏模式,来生成图23的相关性破坏模式124b。
以下,使用图21的相关性模型122b和图23的相关性破坏模式124b来执行故障分析。
在此,与本发明的第一示例性实施例相比,在第一示例性实施例中,基于配置信息127来检测配置改变。为此,仅可以以被监视的装置201为单位来检测改变,并且以被监视的装置201为单位来更新破坏模式。因此,当随着配置改变,诸如协作关系的移动的被监视的装置201的部分操作状态的改变发生时,无法正确地更新相关性破坏模式124。
另一方面,在第二示例性实施例中,基于相关性模型122来检测配置改变。为此,可以检测与如上所述的部分操作状态的改变相对应的相关性中的改变,并且能够以相关性为单位来更新破坏模式。
因此,即使诸如在被监视的装置201之间的协作关系的移动的部分操作状态的改变发生,也能够获得适用于在配置改变之后的系统的相关性破坏模式124。
接下来,作为第二示例,将通过将下述情况作为示例来说明操作:当图24(配置改变之前)中示出改变之前的分析对象系统200的配置时,如第一操作的第一示例。
在该情况下,假定图25的相关性模型122a(图26的相关性映射128a)被生成和设定为用于分析的相关性模型122。而且,假定图27的相关性破坏模式124a被生成和设定为用于在图32的时间t0处发生的被监视的装置201(B1)(WEB服务器)的故障(故障2)的相关性破坏模式124。
假定在图32的时间t1处,如图24(配置改变之后)所示,添加了作为被监视的装置201(A1)的复制的被监视的装置201(A2)。
在图32的时间t2处,相关性模型生成单元102生成图25的相关性模型122b(图26的相关性映射128b)。配置改变检测单元107将相关性模型122b与作为前一相关性模型122的图25的相关性模型122a作比较。在图25中,在相关性模型122a中没有检测到的与被监视的装置201(A2)相关的相关性在相关性模型122a中被检测到。而且,在相关性模型122b中,“在A1.CPU和A1.NW之间的相关性”与“在A2.CPU和A2.NW之间的相关性”是类似的。“在A1.CPU和A1.DSK之间的相关性”与“在A2.CPU和A2.DSK之间的相关性”是类似的。“在A1.CPU和B1.CPU之间的相关性”与“在A2.CPU和B1.CPU之间的相关性”是类似的。“在A1.CPU和B2.CPU之间的相关性”与“在A2.CPU和B2.CPU之间的相关性”是类似的。而且,在A1.CPU和A2.CPU之间的相关性的权重的值是大的。因此,配置改变检测单元107根据图18的配置改变检测规则125来判定配置改变类型“作为被监视的装置201(A1)的复制”的配置改变已经发生。
对话单元105在例如上述图14中所示的配置改变检测画面300上输出“配置改变被检测到”。
接下来,当对话单元105从管理员等接收到用于切换模型的指示时,故障分析单元104将图25的相关性模型122b设定为用于分析的相关性模型122。
相关性破坏模式更新单元108根据与在图19的相关性破坏模式更新规则126中的配置改变类型“复制”相对应的更新方法,通过复制在相关性破坏模式124a中的与被监视的装置201(A1)相关的破坏模式,并且用于被监视的装置201(A2)的标识符替换被监视的装置201(A1)的标识符,来生成图27的相关性破坏模式124b。
以下,使用图25的相关性模型122b和图27的相关性破坏模式124b来执行故障分析。
因此,即使通过复制被监视的装置201的配置改变发生,也能够获得适用于配置改变之后的系统的相关性破坏模式124。
接下来,作为第三示例,通过将下述情况作为示例来描述操作:当改变之前的分析对象系统200的配置是,如图28(配置改变之前)中所示,关于冗余配置的被监视的装置201(B1、B2和B3),被监视的装置201(B1和B2)的操作状态是“操作中”,并且被监视的装置201(B3)的操作状态是“停止”时。
在该情况下,假定图29的相关性模型122a(图30的相关性映射128a)被生成和设定为用于分析的相关性模型122。而且,假定图31的相关性破坏模式124a被生成和设定为用于在图32的时间t0处发生的被监视的装置201(B1)(WEB服务器)的故障(故障2)的相关性破坏模式124。
假定在图32的时间t1处,通过冗余配置的切换,被监视的装置201(B2)的操作状态被改变为“停止”,并且被监视的装置201(B3)的操作状态被改变为“操作中”,如图28(配置改变之后)中所示。
在图32的时间t2处,相关性模型生成单元102生成图29的相关性模型122b(图30的相关性映射128b)。配置改变检测单元107将相关性模型122b与作为前一相关性模型122的图29的相关性模型122a作比较。在图29中,在相关性模型122a中没有检测到的与被监视的装置201(B3)相关的相关性在相关性模型122b中被检测到。而且,在相关性模型122a中检测到的与被监视的装置201(B2)相关的相关性在相关性模型122b中没有被检测到。在相关性模型122a中的“在A1.CPU和B2.CPU之间的相关性”和在相关性模型122b中的“在A1.CPU和B3.CPU之间的相关性”是类似的。在相关性模型122a中的“在B2.CPU和B2.DSK之间的相关性”与在相关性模型122b中的“在B3.CPU和B3.DSK之间的相关性”是类似的。因此,配置改变检测单元107根据图18的配置改变检测规则125来判定配置改变类型“替换(用被监视的装置201(B3)替换被监视的装置201(B2))”的配置改变已经发生。
对话单元105在例如上述图14中所示的配置改变检测画面300上输出“配置改变被检测到”。
接下来,当对话单元105从管理员等接收用于切换模型的指示时,故障分析单元104将图29的相关性模型122b设定为用于分析的相关性模型122。
相关性破坏模式更新单元108根据在图19中的相关性破坏模式更新规则126中的与配置改变类型“替换”相对应的更新方法,通过将在相关性破坏模式124a中用监视的装置201(B3)的标识符替换被监视的装置201(B2)的标识符,来生成图31的相关性破坏模式124b。
以下,使用图29的相关性模型122b和图31的相关性破坏模式124b来执行故障分析。
因此,即使通过替换被监视的装置201的配置改变发生时,也能够如本发明的第一示例性实施例,在不使用配置信息127的情况下获得适用于配置改变之后的系统的相关性破坏模式124。
如上,本发明的第二示例性实施例的操作完成。
注意,在本发明的第二示例性实施例中,通过以其中与在处于协作关系中的被监视的装置201之间的CPU使用率相关的相关性被改变的情况作为部分操作状态的改变的示例来进行说明。然而,不限于该示例,并且即使与其他性能值的项目相关的相关性被改变时,也可以获得类似的效果。例如,当从网络业务的时间序列信息识别出网络故障时,可以检测到与部分网络路由的切换或流控制相对应的相关性的改变。而且,在存储装置的故障分析中,可以检测到与在存储装置中所包括的磁盘的切换或交换相对应的相关性的改变。而且,在应用程序的故障分析中,可以检测到与部分补丁应用相对应的相关性的改变。
而且,在本发明的第二示例性实施例中,通过以其中将“协作关系的移动”、“复制”或“替换”被检测为配置改变的情况作为示例来进行说明,可以检测其他类型的配置改变,只要能够基于相关性模型122来进行检测。例如,配置改变检测单元107可以检测“协作关系的复制”。在该情况下,例如当在配置信息127中的被监视的装置201(A1)和被监视的装置201(B1)之间存在与在被监视的装置201(A1)和被监视的装置201(B2)之间的新检测的相关性类似的相关性时,配置改变检测单元107判定“协作关系的复制(在被监视的装置201(A1)和(B1)之间的相关性被添加到在被监视的装置201(A1)和(B2)之间的相关性)”的配置改变已经发生。然后,相关性破坏模式更新单元108基于与在相关性破坏模式124中的在被监视的装置201(A1)和被监视的装置201(B1)之间的协作关系相关的破坏模式来生成和增加与在被监视的装置201(A1)和被监视的装置201(B2)之间的协作关系相关的破坏模式,来更新相关性破坏模式124。
而且,配置改变检测单元107可以通过相关性的移动或复制来检测到未伴随的配置改变。图33是示出在本发明的第二示例性实施例中的相关性模型122的另一示例的图。图34是示出在本发明的第二示例性实施例中的配置改变检测画面300的示例的图。在图33中,关于“在A1.CPU和B1.CPU之间的相关性”与“在B1.CPU和B1.DSK之间的相关性”,相关性的系数已经被改变。这对应于例如当执行在被监视的装置201(B1)中的系统增强(CPU改变)时。配置改变检测单元107可以通过检测与被监视的装置201(B1)的CPU使用率相关的相关性函数的系数的改变,来检测这样的“系统增强”的配置改变。而且,在该情况下,对话单元105在例如图34中所示的配置改变检测画面300上输出“配置改变被检测到”。在图34的示例中,配置改变检测画面300包括相关性改变信息304,该相关性改变信息304指示相对于改变的相关性的在配置改变之前和在配置改变之后的度量之间的关系。结果,管理员等可以容易地掌握分析对象系统200的系统增强及其效果,并且可以指示切换到适当的相关性模型122。
根据本发明的第二示例性实施例,在不变关系分析中,即使系统配置已经改变时,能够不使用配置信息127,而使用适当的相关性模型和相关性破坏模式,来执行故障分析。原因在于,因为配置改变检测单元107基于相关性模型122来检测到分析对象系统200的配置改变。
而且,根据本发明的第二示例性实施例,在不变关系分析中,即使被监视的装置201的部分操作状态的改变已经作为配置改变发生时,也能够获得适用于在配置改变之后的系统的相关性破坏模式124。原因在于,配置改变检测单元107以相关性模型122的相关性为单位来检测改变,并且相关性破坏模式更新单元108以相关性为单位来更新相关性破坏模式124。结果,与本发明的第一示例性实施例相比,可以生成具有较高的适应性的相关性破坏模式124。
虽然已经参考本发明的示例性实施例而具体示出和描述了本发明,但是本发明不限于这些实施例。本领域内的普通技术人员可以明白,在不偏离由权利要求限定的本发明的精神和范围的情况下,可以在其中进行在形式和细节上的各种改变。
例如,配置改变检测单元107可以使用基于在第一示例性实施例中所示的配置信息127的配置改变的检测结果和基于在第二示例性实施例中的相关性模型122的配置改变的检测结果二者来检测配置改变。例如,当在第二示例性实施例中作为第一至第三示例描述的操作状态的改变顺序发生时,存在配置改变检测单元107无法仅从相关性的改变正确地检测配置改变的可能性。在该情况下,配置改变检测单元107还可以通过使用基于配置信息127检测到的配置改变的检测结果来更加正确地检测配置改变。结果,即使相关性的复杂改变发生时,也可以生成更加正确的相关性破坏模式124。
本申请基于并且要求在2012年3月14日提交的日本专利申请No.2012-057337的优先权的权益,其公开内容通过引用被整体包含在此。
[附图标记列表]
1 操作管理系统
100 操作管理装置
101 信息收集单元
102 相关性模型生成单元
103 相关性破坏检测单元
104 故障分析单元
105 对话单元
106 动作执行单元
107 配置改变检测单元
108 相关性破坏模式更新单元
111 性能信息存储器单元
112 相关性模型存储器单元
113 相关性破坏存储器单元
114 相关性破坏模式存储器单元
117 配置信息存储器单元
121 序列性能信息
122 相关性模型
123 相关性破坏信息
124 相关性破坏模式
125 配置改变检测规则
126 相关性破坏模式更新规则
127 配置信息
128 相关性映射
200 分析对象系统
201 被监视的装置
300 配置改变检测画面
301 异常度图形
302 配置改变检测信息
303 按钮
304 相关性改变信息
310 分析结果输出画面
311 故障候选信息

Claims (7)

1.一种操作管理装置,包括:
相关性模型生成单元,所述相关性模型生成单元生成包括一个或多个相关性函数的相关性模型,所述一个或多个相关性函数中的每一个指示在系统的多个度量当中的两个不同的度量之间的相关性;
配置改变检测单元,所述配置改变检测单元检测所述系统的配置改变是否已经发生;以及
故障分析单元,当所述配置改变检测单元检测所述系统的配置改变时,所述故障分析单元使用相关性模型来识别所述系统的故障原因,所述相关性模型是基于在所述系统的配置改变之后的所述多个度量的测量值来生成的,
其中,包括在所述相关性模型中的相关性的破坏被定义为相关性破坏,
所述故障分析单元通过将针对所述多个度量的新测量值检测的相关性破坏的状态和指示所述系统在过去发生故障时的相关性破坏的状态的相关性破坏模式作比较,来识别所述系统的故障原因;并且
进一步包括相关性破坏模式更新单元,当所述配置改变检测单元检测所述系统的配置改变时,所述相关性破坏模式更新单元以使得所述相关性破坏模式适用于在所述配置改变之后所使用的相关性模型的方式,来校正所述相关性破坏模式。
2.一种操作管理装置,包括:
相关性模型生成单元,所述相关性模型生成单元生成包括一个或多个相关性函数的相关性模型,所述一个或多个相关性函数中的每一个指示在系统的多个度量当中的两个不同的度量之间的相关性;
配置改变检测单元,所述配置改变检测单元检测所述系统的配置改变是否已经发生;以及
故障分析单元,当所述配置改变检测单元检测所述系统的配置改变时,所述故障分析单元使用相关性模型来识别所述系统的故障原因,所述相关性模型是基于在所述系统的配置改变之后的所述多个度量的测量值来生成的,
其中,所述配置改变检测单元基于在所述系统中所包括的要被监视的一个或多个装置中的每一个的属性信息的改变,来检测所述系统的配置改变是否已经发生。
3.根据权利要求2所述的操作管理装置,
其中,包括在所述相关性模型中的相关性的破坏被定义为相关性破坏,
其中,所述故障分析单元通过将针对所述多个度量的新测量值检测的相关性破坏的状态和指示所述系统在过去发生故障时的相关性破坏的状态的相关性破坏模式作比较,来识别所述系统的故障原因;并且
进一步包括相关性破坏模式更新单元,当所述配置改变检测单元检测所述系统的配置改变时,所述相关性破坏模式更新单元以使得所述相关性破坏模式适用于在所述配置改变之后所使用的相关性模型的方式,来校正所述相关性破坏模式,
其中,所述相关性破坏模式指示包括在所述相关性模型中的一个或多个相关性中的每一个的相关性破坏是否已经发生;并且
当所述配置改变检测单元检测到将在所述系统中所包括的第一被监视的装置替换为具有与所述第一被监视的装置相同的配置的第二被监视的装置时,所述相关性破坏模式更新单元将在所述相关性破坏模式中的与关于所述第一被监视的装置的相关性的相关性破坏是否已经发生相关的信息改变为与关于所述第二被监视的装置的相关性的相关性破坏是否已经发生相关的信息,并且
当所述配置改变检测单元检测到具有与在所述系统中所包括的第一被监视的装置相同的配置的第二被监视的装置的添加时,所述相关性破坏模式更新单元基于在所述相关性破坏模式中的与关于所述第一被监视的装置的相关性的相关性破坏是否已经发生相关的信息来生成与关于所述第二被监视的装置的相关性的相关性破坏是否已经发生相关的信息,并且将所生成的信息添加到所述相关性破坏模式。
4.一种操作管理装置,包括:
相关性模型生成单元,所述相关性模型生成单元生成包括一个或多个相关性函数的相关性模型,所述一个或多个相关性函数中的每一个指示在系统的多个度量当中的两个不同的度量之间的相关性;
配置改变检测单元,所述配置改变检测单元检测所述系统的配置改变是否已经发生;以及
故障分析单元,当所述配置改变检测单元检测所述系统的配置改变时,所述故障分析单元使用相关性模型来识别所述系统的故障原因,所述相关性模型是基于在所述系统的配置改变之后的所述多个度量的测量值来生成的,
其中,所述配置改变检测单元基于由所述相关性模型生成单元所生成的相关性模型的改变来检测所述系统的配置改变是否已经发生。
5.根据权利要求4所述的操作管理装置,
其中,包括在所述相关性模型中的相关性的破坏被定义为相关性破坏,
其中,所述故障分析单元通过将针对所述多个度量的新测量值检测的相关性破坏的状态和指示所述系统在过去发生故障时的相关性破坏的状态的相关性破坏模式作比较,来识别所述系统的故障原因;并且
进一步包括相关性破坏模式更新单元,当所述配置改变检测单元检测所述系统的配置改变时,所述相关性破坏模式更新单元以使得所述相关性破坏模式适用于在所述配置改变之后所使用的相关性模型的方式,来校正所述相关性破坏模式,
其中,所述相关性破坏模式指示包括在所述相关性模型中的一个或多个相关性中的每一个的相关性破坏是否已经发生;并且
当所述配置改变检测单元检测到在所述系统中所包括的第一被监视的装置和第二被监视的装置之间的相关性移动到在所述第一被监视的装置和第三被监视的装置之间的相关性时,所述相关性破坏模式更新单元将在所述相关性破坏模式中的与关于在所述第一被监视的装置和所述第二被监视的装置之间的相关性的相关性破坏是否已经发生相关的信息改变为与在所述第一被监视的装置和所述第三被监视的装置之间的相关性的相关性破坏是否已经发生相关的信息;并且
当所述配置改变检测单元检测到将在所述系统中所包括的所述第一被监视的装置和所述第二被监视的装置之间的相关性添加到在所述第一被监视的装置和所述第三被监视的装置之间的相关性时,所述相关性破坏模式更新单元基于在所述相关性破坏模式中的与在所述第一被监视的装置和所述第二被监视的装置之间的相关性的相关性破坏是否已经发生相关的信息,来生成与在所述第一被监视的装置和所述第三被监视的装置之间的相关性的相关性破坏是否已经发生相关的信息,并且将所生成的信息添加到所述相关性破坏模式。
6.一种操作管理方法,包括:
生成包括一个或多个相关性函数的相关性模型,所述一个或多个相关性函数中的每一个指示在系统的多个度量当中的两个不同的度量之间的相关性;
基于在所述系统中所包括的要被监视的一个或多个装置中的每一个的属性信息的改变,检测所述系统的配置改变是否已经发生;以及
当检测所述系统的配置改变时,使用相关性模型来识别所述系统的故障原因,所述相关性模型是基于在所述系统的配置改变之后的所述多个度量的测量值来生成的。
7.根据权利要求6所述的操作管理方法,
其中,包括在所述相关性模型中的相关性的破坏被定义为相关性破坏,
进一步包括:当检测所述系统的配置改变时,以使得相关性破坏模式适用于在所述配置改变之后所使用的相关性模型的方式,来校正所述相关性破坏模式,所述相关性破坏模式指示所述系统在过去发生故障时的相关性破坏的状态,并且
其中,所述识别通过将针对所述多个度量的新测量值检测的相关性破坏的状态和所述相关性破坏模式作比较,来识别所述系统的故障原因。
CN201380014367.2A 2012-03-14 2013-03-08 操作管理装置、操作管理方法和程序 Active CN104205063B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012-057337 2012-03-14
JP2012057337 2012-03-14
PCT/JP2013/001480 WO2013136739A1 (ja) 2012-03-14 2013-03-08 運用管理装置、運用管理方法、及び、プログラム

Publications (2)

Publication Number Publication Date
CN104205063A CN104205063A (zh) 2014-12-10
CN104205063B true CN104205063B (zh) 2017-05-24

Family

ID=49160671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380014367.2A Active CN104205063B (zh) 2012-03-14 2013-03-08 操作管理装置、操作管理方法和程序

Country Status (5)

Country Link
US (1) US20150046123A1 (zh)
EP (1) EP2827251B1 (zh)
JP (1) JP5910727B2 (zh)
CN (1) CN104205063B (zh)
WO (1) WO2013136739A1 (zh)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2330510B1 (en) * 2008-09-18 2019-12-25 NEC Corporation Operation management device, operation management method, and operation management program
CN103026344B (zh) * 2010-06-07 2015-09-09 日本电气株式会社 故障检测设备、故障检测方法和程序记录介质
WO2016103650A1 (ja) 2014-12-22 2016-06-30 日本電気株式会社 運用管理装置、運用管理方法、及び、運用管理プログラムが記録された記録媒体
US9853873B2 (en) 2015-01-10 2017-12-26 Cisco Technology, Inc. Diagnosis and throughput measurement of fibre channel ports in a storage area network environment
US9900250B2 (en) 2015-03-26 2018-02-20 Cisco Technology, Inc. Scalable handling of BGP route information in VXLAN with EVPN control plane
US10222986B2 (en) 2015-05-15 2019-03-05 Cisco Technology, Inc. Tenant-level sharding of disks with tenant-specific storage modules to enable policies per tenant in a distributed storage system
US11588783B2 (en) 2015-06-10 2023-02-21 Cisco Technology, Inc. Techniques for implementing IPV6-based distributed storage space
US10630561B1 (en) 2015-06-17 2020-04-21 EMC IP Holding Company LLC System monitoring with metrics correlation for data center
US9575828B2 (en) * 2015-07-08 2017-02-21 Cisco Technology, Inc. Correctly identifying potential anomalies in a distributed storage system
US10778765B2 (en) 2015-07-15 2020-09-15 Cisco Technology, Inc. Bid/ask protocol in scale-out NVMe storage
US9892075B2 (en) 2015-12-10 2018-02-13 Cisco Technology, Inc. Policy driven storage in a microserver computing environment
US10699211B2 (en) 2016-02-29 2020-06-30 Oracle International Corporation Supervised method for classifying seasonal patterns
US10885461B2 (en) 2016-02-29 2021-01-05 Oracle International Corporation Unsupervised method for classifying seasonal patterns
US10867421B2 (en) 2016-02-29 2020-12-15 Oracle International Corporation Seasonal aware method for forecasting and capacity planning
US10331802B2 (en) 2016-02-29 2019-06-25 Oracle International Corporation System for detecting and characterizing seasons
US10198339B2 (en) * 2016-05-16 2019-02-05 Oracle International Corporation Correlation-based analytic for time-series data
US10140172B2 (en) 2016-05-18 2018-11-27 Cisco Technology, Inc. Network-aware storage repairs
US20170351639A1 (en) 2016-06-06 2017-12-07 Cisco Technology, Inc. Remote memory access using memory mapped addressing among multiple compute nodes
US10664169B2 (en) 2016-06-24 2020-05-26 Cisco Technology, Inc. Performance of object storage system by reconfiguring storage devices based on latency that includes identifying a number of fragments that has a particular storage device as its primary storage device and another number of fragments that has said particular storage device as its replica storage device
US10146609B1 (en) 2016-07-08 2018-12-04 Splunk Inc. Configuration of continuous anomaly detection service
US10200262B1 (en) 2016-07-08 2019-02-05 Splunk Inc. Continuous anomaly detection service
US11082439B2 (en) 2016-08-04 2021-08-03 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
US10635563B2 (en) 2016-08-04 2020-04-28 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
US11563695B2 (en) 2016-08-29 2023-01-24 Cisco Technology, Inc. Queue protection using a shared global memory reserve
US10338986B2 (en) * 2016-10-28 2019-07-02 Microsoft Technology Licensing, Llc Systems and methods for correlating errors to processing steps and data records to facilitate understanding of errors
US10545914B2 (en) 2017-01-17 2020-01-28 Cisco Technology, Inc. Distributed object storage
US10243823B1 (en) 2017-02-24 2019-03-26 Cisco Technology, Inc. Techniques for using frame deep loopback capabilities for extended link diagnostics in fibre channel storage area networks
US10949436B2 (en) 2017-02-24 2021-03-16 Oracle International Corporation Optimization for scalable analytics using time series models
US10915830B2 (en) 2017-02-24 2021-02-09 Oracle International Corporation Multiscale method for predictive alerting
US10713203B2 (en) 2017-02-28 2020-07-14 Cisco Technology, Inc. Dynamic partition of PCIe disk arrays based on software configuration / policy distribution
US10254991B2 (en) 2017-03-06 2019-04-09 Cisco Technology, Inc. Storage area network based extended I/O metrics computation for deep insight into application performance
US10817803B2 (en) 2017-06-02 2020-10-27 Oracle International Corporation Data driven methods and systems for what if analysis
US10303534B2 (en) 2017-07-20 2019-05-28 Cisco Technology, Inc. System and method for self-healing of application centric infrastructure fabric memory
US10404596B2 (en) 2017-10-03 2019-09-03 Cisco Technology, Inc. Dynamic route profile storage in a hardware trie routing table
US10942666B2 (en) 2017-10-13 2021-03-09 Cisco Technology, Inc. Using network device replication in distributed storage clusters
US10997517B2 (en) 2018-06-05 2021-05-04 Oracle International Corporation Methods and systems for aggregating distribution approximations
US10963346B2 (en) 2018-06-05 2021-03-30 Oracle International Corporation Scalable methods and systems for approximating statistical distributions
US12001926B2 (en) 2018-10-23 2024-06-04 Oracle International Corporation Systems and methods for detecting long term seasons
US11138090B2 (en) 2018-10-23 2021-10-05 Oracle International Corporation Systems and methods for forecasting time series with variable seasonality
US10855548B2 (en) 2019-02-15 2020-12-01 Oracle International Corporation Systems and methods for automatically detecting, summarizing, and responding to anomalies
US11533326B2 (en) 2019-05-01 2022-12-20 Oracle International Corporation Systems and methods for multivariate anomaly detection in software monitoring
US11537940B2 (en) 2019-05-13 2022-12-27 Oracle International Corporation Systems and methods for unsupervised anomaly detection using non-parametric tolerance intervals over a sliding window of t-digests
US11887015B2 (en) 2019-09-13 2024-01-30 Oracle International Corporation Automatically-generated labels for time series data and numerical lists to use in analytic and machine learning systems
CN111858120B (zh) * 2020-07-20 2023-07-28 北京百度网讯科技有限公司 故障预测方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101473334A (zh) * 2006-06-22 2009-07-01 日本电气株式会社 共享管理系统、共享管理方法以及程序

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7076695B2 (en) * 2001-07-20 2006-07-11 Opnet Technologies, Inc. System and methods for adaptive threshold determination for performance metrics
US9021464B2 (en) * 2006-08-07 2015-04-28 Netiq Corporation Methods, systems and computer program products for rationalization of computer system configuration change data through correlation with product installation activity
JP4872944B2 (ja) * 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
EP2330510B1 (en) 2008-09-18 2019-12-25 NEC Corporation Operation management device, operation management method, and operation management program
US8868987B2 (en) * 2010-02-05 2014-10-21 Tripwire, Inc. Systems and methods for visual correlation of log events, configuration changes and conditions producing alerts in a virtual infrastructure
WO2011125138A1 (ja) * 2010-04-06 2011-10-13 株式会社日立製作所 性能監視装置,方法,プログラム
CN103026344B (zh) 2010-06-07 2015-09-09 日本电气株式会社 故障检测设备、故障检测方法和程序记录介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101473334A (zh) * 2006-06-22 2009-07-01 日本电气株式会社 共享管理系统、共享管理方法以及程序

Also Published As

Publication number Publication date
EP2827251A1 (en) 2015-01-21
JPWO2013136739A1 (ja) 2015-08-03
JP5910727B2 (ja) 2016-04-27
WO2013136739A1 (ja) 2013-09-19
CN104205063A (zh) 2014-12-10
EP2827251B1 (en) 2020-02-12
US20150046123A1 (en) 2015-02-12
EP2827251A4 (en) 2015-08-12

Similar Documents

Publication Publication Date Title
CN104205063B (zh) 操作管理装置、操作管理方法和程序
JP6394726B2 (ja) 運用管理装置、運用管理方法、及びプログラム
TWI632443B (zh) 異常資料的重要度判定裝置以及異常資料的重要度判定方法
CN102713861B (zh) 操作管理装置、操作管理方法以及程序存储介质
Krysander et al. Sensor placement for fault diagnosis
JP6354755B2 (ja) システム分析装置、システム分析方法、及びシステム分析プログラム
US8635498B2 (en) Performance analysis of applications
EP2759938B1 (en) Operations management device, operations management method, and program
JP6875179B2 (ja) システム分析装置、及びシステム分析方法
JP5267749B2 (ja) 運用管理装置、運用管理方法、及びプログラム
Gainaru et al. Adaptive event prediction strategy with dynamic time window for large-scale hpc systems
JP6183449B2 (ja) システム分析装置、及び、システム分析方法
CN115278741A (zh) 一种基于多模态数据依赖关系的故障诊断方法和装置
Momtazpour et al. Analyzing invariants in cyber-physical systems using latent factor regression
Fu et al. Online temporal-spatial analysis for detection of critical events in cyber-physical systems
CN105027088B (zh) 系统分析设备和系统分析方法
CN110266527B (zh) 基于空间相关性的传感器节点故障分类报警方法及装置
CN105765563A (zh) 用于对从系统取得的测量值进行评级的方法和系统
EP3144815A1 (en) Information processing device, analysis method, and recording medium
Huang et al. System deterioration detection and root cause learning on time series graphs
CN117951626B (zh) 一种基于智能优化算法的电网异常状态检测方法及系统
Bendimerad et al. A Monitoring System and Faults Prediction for Internet of Things System
CN116541794B (zh) 一种基于自适应图注意网络的传感器数据异常检测方法
Huang et al. Predicting the fault-proneness of class hierarchy in object-oriented software using a layered kernel
CN118174788A (zh) 一种光纤配线柜的故障检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant