CN102713862B - 故障原因提取装置、故障原因提取方法和程序记录介质 - Google Patents

故障原因提取装置、故障原因提取方法和程序记录介质 Download PDF

Info

Publication number
CN102713862B
CN102713862B CN201180005711.2A CN201180005711A CN102713862B CN 102713862 B CN102713862 B CN 102713862B CN 201180005711 A CN201180005711 A CN 201180005711A CN 102713862 B CN102713862 B CN 102713862B
Authority
CN
China
Prior art keywords
basic point
performance number
propagator
performance
related damage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201180005711.2A
Other languages
English (en)
Other versions
CN102713862A (zh
Inventor
矢吹谦太郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN102713862A publication Critical patent/CN102713862A/zh
Application granted granted Critical
Publication of CN102713862B publication Critical patent/CN102713862B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

设备以准确提取如下性能信息为目标,该性能信息可以代表在出现故障时的原因。故障原因提取装置10包括存储单元12和相关性破坏传播检测单元25。这里,存储单元12存储包括一个或者多个相关性函数的相关性模型,每个相关性函数基于包括系统中的多个性能值类型的性能信息时间序列来生成,并且将作为输入的类型之一的性能值转换成作为输出的另一类型的性能值。相关性破坏传播检测单元25基于基点传播函数的数目计算用于作为类型之一的基点的性能值对系统的影响程度,基点传播函数是用来将用于基点的性能值变换成用于如下其它类型之一的性能值的相关性函数,该其它类型之一可从基点直接或者间接变换并且不是相关性函数的输入。

Description

故障原因提取装置、故障原因提取方法和程序记录介质
技术领域
本发明涉及一种故障原因提取装置、故障原因提取方法和程序记录介质。
背景技术
在大规模信息系统(比如商业信息系统和IDC(因特网数据中心)系统)中,鉴于作为社会基础结构的信息和通信服务(比如网上服务和商业服务)的重要性增加,要求提供这些服务的计算机系统保持稳态操作。这样的计算机系统的操作管理通常由管理员手动执行。随着系统已经变得大规模并且复杂,管理员的负担已经急剧增加并且由于误判或者错误操作所致的服务暂停已经变得更可能出现。
出于这一原因,已经提供如下集成故障原因提取系统,该系统以统一方式监视和控制在上文提到的系统中包括的硬件和软件的操作状态。集成故障原因提取系统获取关于在集成系统管理的多个计算机系统中的硬件和软件的操作状态的信息并且向连接到集成系统的故障原因提取装置输出信息。用于辨别被管理系统的故障的手段包括为操作信息预先设置阈值的手段和评估操作信息相对于它的平均值而言的偏差的手段。
例如在故障原因提取系统的故障原因提取装置中,为各条性能信息设置阈值并且通过发现各条性能信息超过相应阈值来检测故障。故障原因提取装置预先设置指示异常的值作为阈值,检测各个要素的异常并且将它报告给管理员。
当报告检测到异常时,管理员需要识别异常生成的原因以便解决它。典型的生成原因例如是CPU超负荷、存储器容量不足或者网络超负荷。然而为了识别生成原因,要求识别可能与生成有关的计算机、然后检查它的系统日志和参数。这一操作要求每个管理员具有高程度知识或者技能并且花费大量时间和努力。
由于这一点,集成故障原因提取系统通过基于从多个设备获取的事件数据(状态通知)对操作状态组合等自动执行相关性分析并且从更广的观点估计问题或者原因、然后向管理员通知它们来向管理员提供对策支持。具体而言,为了保证服务的长期连续操作中的可靠性,要求不仅针对已经出现的异常采取措施而且提取作为将来异常的可能原因的要素(即使异常目前尚未明显出现)、然后以计划的方式采取措施(比如设备加强)。
例如已经在下文每篇所示专利文献中描述这样的故障原因提取系统或者与相关分析有关并且在系统中适用的技术。
公开号为2009-199533的日本专利申请公开如下技术,该技术通过关于在正常状态中的两个任意性能信息的值(性能值)的时间序列(一个序列作为输入而另一序列作为输出)推导变换函数来生成相关性模型、比较根据相关性模型的变换函数的性能值与在另一时间获取的性能信息并且基于相关性的破坏程度检测故障。
公开号为2009-199534的日本专利申请公开如下故障原因提取装置,该装置通过利用与公开号为2009-199533的日本专利申请的相关性模型相似的相关性模型来预测可能在实际操作中出现的瓶颈。公开号为2007-227481的日本专利申请公开如下技术,该技术在识别半导体晶片的生产失效时,利用如下的相关性,该相关性推导自二维图像,以及通路电阻等,其通过向晶片上的测试图案施加电流而获得。公开号为H05-035769的日本专利申请公开如下相关性分析装置,该装置分析“相关性异常点”的存在或者不存在并且如果“相关性异常点”存在则从分析中排除该点。
另外,公开号为H09-307550的日本专利申请公开如下网络监视装置,该装置在分析网络系统时通过聚焦于规律性从出现的大量“报警”提取“有代表性的报警”。公开号为H10-257054的日本专利申请公开如下网络管理装置,该装置基于在出现于第一和第二节点组的故障事件之间的相关性值获取它们的对应关系。
发明内容
[技术问题]
利用在公开号为2009-199533的日本专利申请中描述的技术,有可能通过利用在与某些性能信息有关的相关性之中的多个破坏的相关性的和或者比例或者破坏性的程度针对在物理连接关系方面邻接的设备计算异常程度。利用这一技术,有可能通过检测相关性的破坏来提取作为故障的可能原因的性能信息(即使异常目前尚未明显出现)、然后采取措施(比如设备加强)。
然而已经发现实际系统操作中的如下现象,其中相关性的某些破坏向其它相关性传播并且向更多其它相关性进一步传播而且重复传播以对整个系统施加影响。在公开号为2009-199533的日本专利申请中描述的技术中未考虑并且利用该技术不能检测相关性破坏的这一传播。类似地,在公开号为2009-199534的日本专利申请、公开号为2007-227481的日本专利申请、公开号为H05-035769的日本专利申请、公开号为H09-307550的日本专利申请和公开号为H10-257054的日本专利申请中的任一日本专利申请中未公开任何聚焦于相关性破坏的传播并且由此检测它的技术。由于这一点,利用上文描述的技术,不可能在相关性的破坏传播的情况下准确提取作为故障的可能生成原因的性能信息。
本发明的目的是提供一种使得有可能在有相关性破坏的传播时准确提取作为故障的可能生成原因的性能信息的故障原因提取装置、故障原因提取方法和程序记录介质。
[问题的解决方案]
根据本发明一个示例方面的一种故障原因提取装置包括:存储装置,用于存储包括一个或者多个相关性函数的相关性模型,每个相关性函数基于包括系统中的多个性能值类型的性能信息时间序列来生成并且将用于作为输入的类型之一的性能值变换成用于作为输出的类型中的另一类型的性能值,以及相关性破坏传播检测装置,用于基于基点传播函数的数目计算用于作为类型之一的基点的性能值对系统的影响程度,基点传播函数是用来将用于基点的性能值变换成用于其它类型之一的性能值的相关性函数,该其它类型之一可从基点直接或者间接变换并且不是相关性函数的输入。
根据本发明一个示例方面的一种故障原因提取方法包括:存储包括一个或者多个相关性函数的相关性模型,每个相关性函数基于包括系统中的多个性能值类型的性能信息时间序列来生成并且将用于作为输入的类型之一的性能值变换成用于作为输出的类型中的另一类型的性能值,并且基于基点传播函数的数目计算用于作为类型之一的基点的性能值对系统的影响程度,基点传播函数是用来将用于基点的性能值变换成用于其它类型之一的性能值的相关性函数,该其它类型之一可从基点直接或者间接变换并且不是相关性函数的输入。
根据本发明一个示例方面的一种程序记录介质在其上记录有程序,该程序使计算机执行方法,该方法包括:存储包括一个或者多个相关性函数的相关性模型,每个相关性函数基于包括系统中的多个性能值类型的性能信息时间序列来生成并且将用于作为输入的类型之一的性能值变换成用于作为输出的类型中的另一类型的性能值,并且基于基点传播函数的数目计算用于作为类型之一的基点的性能值对系统的影响程度,基点传播函数是用来将用于基点的性能值变换成用于其它类型之一的性能值的相关性函数,该其它类型之一可从基点直接或者间接变换并且不是相关性函数的输入。
[本发明的有利效果]
本发明的有利效果在于有可能在有相关性破坏的传播时准确提取作为故障的可能生成原因的性能信息。
附图说明
[图1]示出了均根据本发明第一示例实施例的故障原因提取装置和受监视的计算机的配置的说明图。
[图2]示出了根据本发明第一示例实施例的故障原因提取系统的示意整个配置的例子的说明图,该系统包括故障原因提取装置。
[图3]示出了图1中呈现的故障原因提取装置执行的处理流程的说明图。
[图4]示出了在图1和图3中所示性能信息积累单元中积累的正常状态性能信息数据的例子的说明图。
[图5]示出了关于图4中呈现的正常状态性能信息数据的相关性模型生成过程的例子的说明图。
[图6]示出了相关性模型生成单元根据正常状态性能信息数据生成的相关性模型信息数据的例子的说明图。
[图7]示出了可以基于图6中呈现的相关性模型信息数据绘制的相关性图表的例子的说明图。
[图8]示出了图1和图3中呈现的相关性破坏信息数据的例子的说明图。
[图9]示出了相关性破坏传播检测单元和异常计算单元执行的关于相关性破坏传播的计算例子的说明图。
[图10]示出了根据本发明第一示例实施例的故障原因提取装置中的处理例子的流程图。
[图11]示出了用于在图10中指示为步骤S11的相关性模型生成的具体处理例子的流程图。
[图12]示出了在图10中指示为步骤S12的相关性模型变化分析的具体处理例子的流程图。
[图13]示出了在图10中指示为步骤S13的相关性破坏传播分析的具体处理例子的流程图。
[图14]示出了用于计算异常程度的相关性范围例子的说明图。
[图15]示出了用于根据本发明第二示例实施例的整个故障原因提取系统的示意配置例子的说明图,该系统包括故障原因提取装置。
[图16]示出了根据本发明第二示例实施例的故障原因提取装置和受监视的计算机的配置的说明图。
[图17]示出了图16中呈现的故障原因提取装置执行的处理流程的说明图。
[图18]示出了根据本发明第二示例实施例的故障原因提取装置中的处理例子的流程图。
[图19]示出了用于在图18中指示为步骤S23的相关性破坏传播分析的具体处理例子的流程图
[图20]示出了在图19中指示为步骤S604的最大影响程度计算概念的说明图。
[图21]示出了本发明第一示例实施例的特征配置的框图。
具体实施方式
(第一示例实施例)
下文基于附图1描述本发明第一示例实施例的配置。
首先将描述第一示例实施例的基本内容,并且此后将描述更多具体内容。
根据第一示例实施例的故障原因提取装置10从在系统中包括的多个管理的设备(监视的计算机2A、2B、2C…)获取如下性能信息,该性能信息包括用于多个性能项目(例如CPU利用率和存储器使用量)中的每个性能项目的性能值。这里将性能项目、受管理的设备或者它们的组合定义为要素(性能值类型或者简称为类型)。故障原因提取装置10分析性能信息并且提取在要素之中的可以是故障原因的要素。
故障原因提取装置10包括性能信息积累单元22、相关性模型生成单元23、相关性分析单元24、相关性破坏传播检测单元25、异常计算单元26和故障分析单元27。
性能信息积累单元22从多个受管理的设备获取如下性能信息,该性能信息包括用于多个性能项目中的每个性能项目的性能值。
相关性模型生成单元23至少推导在第一性能序列信息(该信息指示用于第一要素的性能值的时间序列变化)与第二性能序列信息(该信息指示用于第二要素的性能值的时间序列变化)之间的相关性函数并且基于相关性函数生成用于所有成对要素的性能值的相关性模型。
相关性分析单元24基于来自受管理的设备的针对第一要素新检测的性能值和对应相关性函数计算用于第二要素的预测性能值并且通过比较针对第二要素新检测的性能值与预测值来计算预测误差。然后相关性分析单元24分析预测误差是否在预定误差范围内并且在预测误差在误差范围以外的情况下判断在第一与第二要素之间的相关性被破坏。
相关性破坏传播检测单元25基于代表相关性链(分配相关性模型的任意要素作为链的基点)(相关性上的传播)的相关性图表(例如图7中的41B)计算如下影响程度,该影响程度指示该要素通过相关性上的传播对系统施加的影响程度。例如当检测到在第一与第二要素之间的相关性的破坏(相关性破坏)时,相关性破坏传播检测单元25计算该要素对检测到相关性破坏的相关性施加的影响程度(相关性破坏的传播)作为影响程度。注意将与从基点到相关性图表上的另一要素的相应边对应的各个相关性函数定义为基点的基点传播函数。
异常计算单元26基于相关性破坏传播检测单元25计算的影响程度针对相关性模型中的任意要素计算异常程度。
如果异常程度等于或者大于预定阈值,则故障分析单元27判断异常已经在该要素上出现。
另外,在这一故障原因提取装置10中,当在相关性中检测到相关性破坏时,相关性分析单元24基于预测误差针对相关性破坏计算破坏程度,并且相关性破坏传播检测单元25利用破坏程度来计算影响程度。
然后在分配相关性模型中的任意要素作为基点的相关性图表上,相关性破坏传播检测单元25通过将相关性破坏的破坏程度乘以按照预定常数的求幂(其中从该要素到检测到相关性破坏的相关性存在的相关性数目视为指数)而推导的衰减率、然后针对检测到相关性破坏的一组相关性将计算的值求和来计算该要素的影响程度(总相关性破坏传播)。另外,相关性破坏传播检测单元25通过针对相关性图表上的一组相关性将衰减率求和来计算该要素的总相关性传播。异常计算单元26通过将总相关性破坏传播除以总相关性传播针对该要素计算异常程度。
具有这样的配置,变得有可能让故障原因提取装置10准确检测相关性破坏由于相关性破坏的传播而对整个网络的影响。
下文将更具体描述这一点。
图2是示出了根据本发明第一示例实施例的故障原因提取系统1的示意整个配置的例子的说明图,该系统包括故障原因提取装置10。
故障原因提取装置10从受监视的计算机2A、2B、2C…获取性能信息(该性能信息包括用于多个性能项目(例如CPU利用率和存储器使用量)中的每个性能项目的性能值)并且基于这一性能信息执行下文描述的操作。
图1是示出了均根据本发明第一示例实施例的故障原因提取装置10和受监视的计算机2的配置的说明图。由于图2中所示受监视的计算机2A、2B、2C…具有彼此相同的配置,所以这些计算机在图2中共同命名为受监视的计算机2从而省略细节描述。图3是示出了图1中呈现的故障原因提取装置10执行的处理流程的说明图。
根据本发明第一示例实施例的故障原因提取装置10例如是通用计算机系统并且包括在执行计算机程序时作为核芯来工作的主操作控制单元(CPU:中央处理单元)11、存储数据的存储单元12、经由网络3来与其它计算机执行数据通信的通信单元13以及接受用户(在这一情况下为网络管理员)的操作并且呈现处理结果的输入/输出单元14。
在故障原因提取装置10的主操作控制单元11中,性能信息积累单元22、相关性模型生成单元23、相关性分析单元24、相关性破坏传播检测单元25、异常计算单元26、故障分析单元27和管理员交互单元28中的每个单元以计算机程序的形式操作。另外,正常状态性能信息数据31、相关性模型信息数据32、相关性破坏信息数据33和分析设置信息数据34中的每个信息数据存储于存储单元12中。
如故障原因提取装置10一样,受监视的计算机2也包括主操作控制单元51、存储单元52和通信单元53。尽管计算机2中的这些单元的功能分别与故障原因提取装置10中的主操作控制单元11、存储单元12和通信单元13的功能相同,但是在受监视的计算机2中的主操作控制单元51中的服务执行单元61、信息收集单元62和对策执行单元62中的每个单元以计算机程序的形式操作。
受监视的计算机2的服务执行单元61提供信息和通信服务(比如网上服务和商业服务)。信息收集单元62检测服务执行单元61的操作状态、获取包括在操作状态中的性能信息并且向故障原因提取装置10的性能信息积累单元22发送信息。故障原因提取装置10的性能信息积累单元22从每个受监视的计算机2的信息收集单元62接收性能信息并且存储信息作为正常状态性能信息数据31。
相关性模型生成单元23从正常状态性能信息数据31取得关于某一时间段的性能信息并且关于两个任意性能值类型的时间序列针对其中两个时间序列之一视为输入而另一时间序列视为输出的情况推导变换函数(相关性函数)。相关性模型生成单元23比较这一相关性函数生成的性能值序列与实际检测值序列并且根据两个值序列之差计算相关性函数的加权信息。另外通过对每对类型重复这些过程,相关性模型生成单元23生成用于服务执行单元61的整个操作状态的相关性模型。同时,相关性模型生成单元23存储生成的相关性模型作为相关性模型信息数据32。
相关性分析单元24从性能信息积累单元22接收新检测的性能信息并且分析在接收的性能信息中包括的性能值是否在某一误差范围内满足存储于相关性模型信息数据32中的由在性能值之间的相关性函数代表的关系并且输出分析的结果。
相关性分析单元24基于针对第一要素新检测的性能值和对应相关性函数计算用于第二要素的预测性能值,然后通过比较针对第二要素新检测的性能值与预测性能信息来计算预测误差并且分析预测误差是否在预定误差范围内。另外,如果预测误差在预定误差范围以外,则相关性分析单元24判断在第一与第二要素之间的相关性被破坏,计算在要素之间的相关性破坏的破坏程度并且存储这一破坏程度值作为相关性破坏信息数据33。
故障分析单元27接收性能信息积累单元22收集的操作状态信息和相关性分析单元24执行的分析的结果并且根据预先存储于分析设置信息数据34中的分析设置的内容执行故障分析。
管理员交互单元28从故障分析单元27接收故障分析的结果并且经由输入/输出单元14将它呈现给管理员。然后管理员交互单元28接收管理员进行的操作输入并且根据这一操作输入命令受监视的计算机2的对策执行单元63采取对策。对策执行单元63响应于来自管理员交互单元28的命令针对服务执行单元61上的故障执行对策过程。
尽管上文提到的配置与在公开号为2009-199533的日本专利申请中描述的故障原因提取装置的配置相同,但是根据本发明这一第一示例实施例的故障原因提取装置还包括相关性破坏传播检测单元25和异常计算单元26。
当检测到在要素之间的相关性破坏时,相关性破坏传播检测单元25基于相关性模型信息数据32和相关性破坏信息数据33针对相关性模型中的每个要素计算影响程度。
异常计算单元26基于相关性破坏传播检测单元25计算的影响程度针对相关性模型中的每个要素计算异常程度。
后文将具体描述相关性破坏传播检测单元25和异常计算单元26的这些处理步骤。
故障分析单元27根据存储于分析设置信息数据34中的分析设置,关于异常计算单元26计算的异常程度执行故障分析。在分析设置信息数据34中,例如定义在异常程度等于或者大于预定阈值的情况下向管理员呈现警告消息。根据这一点,故障分析单元27使用阈值根据性能信息积累单元22检测的性能信息判断具体计算机的负荷是否为高。这里,应用的阈值预先存储于分析设置信息数据34中。另外,在分析设置信息数据34中,可以针对具体信息项目或者受监视的计算机2中的具体计算机定义与用于其它信息项目或者计算机的阈值不同的阈值。
管理员交互单元28经由输入/输出单元14向管理员呈现这样的故障分析的结果。当管理员经由输入/输出单元14进行用于命令某种对策的输入时,管理员交互单元28向对策执行单元63发送这一输入的内容并且命令执行对策。例如当用于监视的计算机2中的具体计算机的CPU利用率或者存储器使用量出现异常时,管理员可以命令对策(比如减少向受监视的计算机2中的该一个计算机命令的操作数量,然后将那些操作移向受监视的计算机2中的另一计算机)。
此后,如果在性能信息积累单元22按照恒定时间间隔收集的性能信息中未检测到相关性破坏,则故障分析单元27判断它从故障中恢复,并且这一结果经由管理员交互单元28呈现给管理员。通过重复收集信息、分析和对策这些过程,连续执行针对服务执行单元610上的故障的措施。
(生成相关性模型和检测相关性破坏)
图4是示出在图1和图3中所示性能信息积累单元22中积累的正常状态性能信息数据31的例子的说明图。受监视的计算机2的信息收集单元62检测服务执行单元61的操作状态,从操作状态提取性能信息并且向故障原因提取装置10的性能信息积累单元22发送该信息。
正常状态性能信息数据31是信息收集单元62相继收集的用于服务执行单元61的性能信息的列表。每条性能信息包括在图2中呈现的每个受监视的计算机2同时测量的多个性能值项目并且按照预定时间间隔来列举。例如当在服务执行单元61执行web服务时,信息收集单元61针对提供web服务的每个受监视的计算机2检测CPU利用率和剩余存储器大小并且向故障原因提取装置10的性能信息积累单元22发送该信息。性能信息积累单元22记录和积累这一信息作为正常状态性能信息数据31。
图4指示这样积累的正常状态性能信息数据31的例子。这里将图2中所示受监视的计算机2个别标示为受监视的计算机2A、2B、2C、…,并且用于受监视的计算机2A、2B、2C、…的名称分别为“SV1”、“SV2”、“SV3”、…。
例如类型“SV1.CPU”指示用于受监视的计算机2A(SV1)的CPU利用率,并且可见在2010年1月5日的17:25测量的“SV1.CPU”的性能值为“12”并且按照一分钟的间隔后续测量的性能值以从17:26为序分别为“15”、“34”、“63”、…。类似地,类型“SV1.MEM”指示用于受监视的计算机2A(SV1)的存储器使用量,并且呈现在与用于“SV1.CPU”的时间相同的时间测量的“SV1.MEM”的性能值。类型“SV2.CPU”指示用于受监视的计算机2B(SV2)的CPU利用率,并且呈现在与用于其它性能值的时间相同的时间测量的“SV2.CPU”的性能值。
相关性模型生成单元23关于在这样积累的正常状态性能信息数据31中的每个性能值类型执行如下文所示相关性模型生成过程。图5是示出了关于图4中呈现的正常状态性能信息数据31的相关性模型生成过程例子的说明图。图形G101示出了在t与x之间的关系,其中x代表类型“SV1.CPU”比对时间t的性能值。图形102示出了在t与y之间的关系,其中y代表类型“SV1.MEM”比对时间t的性能值。图形101和G102分别呈现“第一性能序列信息”和“第二性能序列信息”。
这里,相关性模型生成单元23例如用预定近似等式“y=f(x)=Ax+B”(A和B为常数)近似在x与y之间的关系并且将用于系数的值计算为“A=-0.6”和“B=100”。相关性模型生成单元23计算用于类型“SV1.MEM”的预测性能值序列(通过使用上述相关性函数根据图形G101中呈现的用于类型“SV1.CPU”的实际性能值序列来生成该序列)与图形G102中呈现的用于“SV1.MEM”的实际性能值序列之差(图形G103中所示)。然后相关性模型生成单元23计算加权值,该加权值根据差值的平均值而减小并且取1最大值(例如在这一情况下为“w=0.88”)。近似等式不限于这样的线性函数,而是只要实现有效近似就可以使用任何种类的函数。
如果加权w的值等于或者大于具体阈值,则相关性模型生成单元23判断在x与y之间的相关性“有效”。例如,如果将阈值设置成0.5,则判断在x与y之间(也就是说,判断在“SV1.CPU”与“SV1.MEM”之间的相关性为有效)
图6是示出了相关性模型生成单元23根据正常状态性能信息数据31生成的相关性模型信息数据32的例子的说明图。相关性模型信息数据32针对如上文那样在正常状态性能信息数据31中记录的每对类型包括分别视为相关性函数的输入和输出的类型的名称,指定相关性函数的系数和加权的每个值以及指示对应相关性是否有效的相关性判断信息(有效性)。
例如关于图5中呈现的在“SV1.CPU”与“SV1.MEM”之间的相关性,在等式“y=Ax+B”中的系数A值为“-0.6”、系数B值为“100”并且加权值为“0.88”而“SV1.MEM”视为输出的相关性存储于相关性模型信息数据32中。相关性模型生成单元23对性能信息积累单元22在正常状态性能信息数据31中积累的每对类型执行这样的分析。
相关性分析单元24针对每对类型判断加权w是否等于或者大于具体阈值(也就是说,相关性是否有效)并且如果判断相关性为有效则在相关性模型信息数据32的相关性判断信息(有效性)中设置“O”而如果判断为无效则设置“X”。
图7是示出了可以基于在图6中呈现的相关性模型信息数据32绘制的相关性图表41的例子的说明图。相关性分析单元24还具有响应于从操作者输入的指令绘制这样的相关性图表41并且经由管理员交互单元28输出图表的功能。在图7中所示例子中,用于这些受监视的计算机2A、2B和2C的每个CPU利用率和存储器用量由相关性图表41上的从A到F的要素代表。
用于受监视的计算机的CPU利用率和存储器使用量分别为用于2A的“SV1.PU”和“SV1.MEM”、用于2B的“SV2.CPU”和“SV2.MEM”以及用于2C的“SV3.CPU”和“SV3.MEM”。
例如要素A代表“SV1.CPU”(也就是说,用于受监视的计算机2A的CPU利用率)。类似地,要素F代表“SV3.MEM”(也就是说,用于受监视的计算机2C的存储器使用量)。
然后,将相应要素相互连接的边代表由相关性模型中的相关性函数代表的从一个要素到另一要素的相关性。当在从0到1的范围中定义的加权w等于或者大于0.5时用粗线呈现相应相关性,而当w小于0.5时用细线呈现相应相关性。图7中的相关性图表41以这一方式根据加权w按照线粗细度指示相关性的状态。
例如在要素A与B之间的相关性由如下粗线表达,该粗线指示用于从要素A到要素B的相关性的加权w等于或者大于0.5。另外,在要素A与F之间的相关性由如下细线表达,该细线指示用于从要素A到要素F的相关性的加权w小于0.5。由于基于相关性函数的误差计算加权w,所以这一线粗细度代表相关性的强度。
相关性模型生成单元23可以例如通过从相关性图表41仅提取加权值等于或者大于0.5的稳定相关性(粗线)来获得相关性图表(比如41B)。相关性模型生成单元23基于在整个故障原因提取系统1稳定和正常操作之时获取的性能信息生成这一相关性模型信息数据32。
然后相关性分析单元24对新获取的性能信息执行上文描述的相关性分析。然后可能有如下情况,在该情况下,在整个故障原因提取系统1正常操作之时有效(“O”)的相关性随时间流逝而改变成无效(“X”)。这是在本示例实施例中定义的“相关性破坏”并且意味着任何种类的改变已经在故障原因提取系统1的操作状态中明显出现。
图7中的相关性图表41C通过虚线指示以这样的方式已经随时间流逝而置于破坏的相关性。在相关性图表41C中,在要素A与C之间的相关性和在要素B与C之间的相关性与用于正常状态操作的相关性图表41B相比处于破坏。相关性分析单元24比较新获取的性能信息与相关性模型信息数据库32并且计算“破坏程度”(该破坏程度代表在性能值之间的变换误差的程度),然后存储它作为相关性破坏信息数据33。
这里,相关性分析单元24可以将破坏程度定义为与预定最大误差的比例----将1设置为该比例的最大值。在这一情况下,管理员提供预定最大误差例如作为变换误差的预测最大值。
图8是示出了在图1和图3中呈现的相关性破坏信息数据3的例子的说明图。相关性破坏信息数据33包括各自关于检测到相关性破坏的相应相关性计算的破坏程度。
(计算相关性破坏传播)
图9是示出了相关性破坏传播检测单元25和异常计算单元26执行的相关性破坏传播计算例子的说明图。当相关性分析单元24检测到上文描述的相关性破坏时,相关性破坏传播检测单元25针对相关性图表上的每个要素计算影响程度(总相关性破坏传播)。
关于图9中所示例子,假设在具有从A到G的七个要素的故障原因提取系统中,用于A-B的相关性(定义为输入为要素A而输出为要素B并且下文适用相同定义)和用于A-E、B-C、B-D、E-F和E-G的相关性在正常状态中有效,但是相关性分析单元24已经针对A-E和E-F检测到相关性破坏。
另外,在图9中所示例子中,要素A已经通过在要素A视为基点的相关性图表中表达的相关性上的传播对与另一要素有关的相关性施加影响,并且已经检测到所得相关性破坏。这里,如果将相关性i的破坏程度表达为brk(i)、从要素A到相关性i的相关性数目为hop(i)并且相关性的衰减率为dump(i),则按照下文所示表达式1计算与相关性图表的基点要素有关的总相关性破坏传播F(影响程度)、总相关性传播G和异常程度eval。这里,n是相关性图表上检测到相关性破坏的相关性的集合,而m是相关性图表上相关性的集合。
fi=dump(hop(i))×brk(i)
gi=dump(hop(i))
F = Σ i ∈ n f i - - - ( 1 )
G = Σ i ∈ m g i
eval = F G = Σ i ∈ n f i Σ i ∈ m g i
在图9中的例子中,如果关于A-E和E-F的相关性将破坏程度定义为brk=0.6而将衰减率定义为dump(i)=0.5^(hop(i)-1),则如在下文所示表达式2中计算总相关性破坏传播F、总相关性传播G和异常程度。在这一例子中,A-E和E-F的相关性对应于集合n,而除了n之外还包括所有其它相关性的全部相关性对应于集合m。另外,关于用于A-B和A-E的相关性为hop(i)=1,而关于用于B-C、B-D、E-F和E-G的相关性为hop(i)=2。在图9中,虚线表达检测到相关性破坏的相关性,而实线表达其它相关性。
dump(i)=0.5(hop(i)-1)
G = Σ i ∈ m g i = 1.0 A - B + 0.5 B - C + 0.5 B - D + 1.0 A - E + 0.5 E - F + 0.5 E - G = 4.0
F = Σ i ∈ n f i = 1.0 × 0.6 A - E + 0.5 × 0.6 E - F = 0.9 - - - ( 2 )
eval = 0.9 4.0 = 0.225
在表达式2中,在用于总相关性破坏传播F的表达式中的右侧第一和第二项分别指示关于用于A-E的相关性的相关性破坏传播和关于用于E-F的相关性的相关性破坏传播。另外,在用于总相关性传播G的表达式中的右侧第一到第六项分别指示用于A-B、B-C、B-D、A-E、E-F和E-G的衰减率。
相关性破坏传播检测单元25和异常计算单元26对各自视为基点的每个要素执行相似计算。如果关于作为基点的要素计算的异常程度eval超过预定阈值,则故障分析单元27判断异常已经出现于该要素上并且经由管理员交互单元28向管理员呈现结果。
(处理流程)
图10是示出了根据本发明第一示例实施例的故障原因提取装置10中的处理例子的流程图。在这一实施例中,关于从在故障原因提取系统1中包括的多个受监视的计算机2获取的一个或者多个性能项目,将性能项目、受监视的设备或者它们的组合视为要素。相关性模型生成单元23基于在整个故障原因提取系统1稳定和正常操作之时获取的性能信息生成在性能信息中包括的性能序列(每个性能序列指示每个要素的性能值的时间序列变化)之间的相关性模型(步骤S11)。
随后,相关性分析单元24将新检测和获取的性能信息代入相关性模型中以检测相关性破坏(步骤S12)。然后关于检测到的相关性破坏,相关性破坏传播检测单元25针对每个要素计算影响程度,并且异常计算单元26计算基点的异常程度(步骤S13)。步骤S11和S12为与在公开号为2009-199533的日本专利申请中描述的故障原因提取装置的操作相同的操作。步骤S13是根据本发明的故障原因提取装置特有的操作。
图11是示出了用于在图10中指示为步骤S11的相关性模型生成的具体处理例子的流程图。在整个故障原因提取系统1稳定和正常操作之时,受监视的计算机2的信息收集单元62检测服务执行单元61的操作状态并且向故障原因提取装置10的性能信息累计单元22发送包括在操作状态中的性能信息。性能信息积累单元22存储性能信息作为正常状态性能信息数据31。
相关性模型生成单元23获取这一正常状态性能信息数据31(步骤S101)并且判断是否留有未分析的性能值类型(步骤S102)。如果未留有未分析类型(步骤S102/否),则相关性模型生成单元23结束处理。
如果留有任何未分析类型(步骤S102/是),则相关性模型生成单元23开始用于计算在性能值类型之间的相关性函数的系数的处理等。如在上文已经描述的用于计算在图4和图5中所示类型“SV1.CPU”和“SV1.MEM”的性能值序列之间的相关性函数的处理中那样,相关性模型生成单元23关于在未分析的类型之间的相关性计算相关性函数的系数等。例如当用表达为“y=Ax+B”的相关性函数进行近似时,相关性模型生成单元23计算系数A和B(步骤S103)。
另外,在这一以后,相关性模型生成单元23也计算相关性函数的加权(w)(步骤S104)。然后相关性模型生成单元23存储计算的系数和加权作为相关性模型信息数据32(步骤S105)。相关性模型生成单元23对每对性能值类型重复从S103到105的步骤中所示这些过程并且由此关于整个故障原因提取系统1生成相关性模型信息数据32。
图12是在图10中指示为步骤S12的相关性模型变化分析的具体处理例子的流程图。相关性分析单元24取回图11中所示处理生成的相关性模型信息数据32(步骤S201)并且基于其中包括的加权信息提取相关性(步骤S202)。这一处理对应于用于通过从图7(a)中所示相关性图表41(其中根据相关性模型的加权w用不同线粗细度绘制相关性)仅提取粗线(这些粗线指示加权值等于或者大于0.5的稳定相关性)来获得相关性图表41B的处理。
随后,相关性分析单元24经由性能信息积累单元22获取从受监视的计算机2的性能收集单元62发送的性能信息(步骤S203)。例如当获取的性能信息是在图4中呈现的正常状态性能信息31的最下一行中所示时间“2010/1/078:30”的性能信息时,相关性分析单元24相继搜索作为相关性模型信息数据32而存储的相关性函数并且判断是否留有任何未搜索的相关性函数(步骤S204)。如果没有未搜索的相关性函数(步骤S204/否),则相关性分析单元24存储目前为止的处理结果作为相关性破坏信息数据(33)(步骤S208)并且结束处理。
如果留有任何相关性函数(步骤S204/是),则相关性分析单元24比较新获取的性能信息与相关性模型信息数据32并且计算在性能值类型之间的变换误差(步骤S205)。例如当获取的性能信息分别呈现用于“SV1.CPU”和“SV1.MEM”的值“20”和“79”时,相关性分析单元24通过将“SV1.CPU”的性能值“20”代入在相关性模型信息数据32中记录的近似等式来推导预测值为(-0.6)*(20)+100=“88”并且比较这一预测值与测量值“79”以获得误差值“9”。
随后,相关性分析单元24计算这一误差与检测值的比例并且判断这一比例值是否在预定范围内(步骤S206)。如果该值在预定范围内(步骤S206/是),则相关性分析单元24判断尚未出现特定异常并且返回到步骤S204的处理。如果它在预定范围以外(步骤S206/否),则相关性分析单元24判断相关性被破坏、根据这一变换误差计算相关性破坏的破坏程度并且记录结果作为相关性破坏信息数据33(步骤S207)。
图13是示出了在图10中指示为步骤S13的相关性破坏传播分析的具体处理例子的流程图。相关性破坏传播检测单元25首先取回相关性模型信息数据32和相关性破坏信息数据33(步骤S301)并且判断是否留有任何未分析的要素(步骤S302)。如果未留有未分析的要素(步骤S302/是),则结束处理。
如果在步骤S302留有任何未分析的要素(步骤S302/是),则相关性破坏传播检测单元25利用在相关性破坏信息数据33中记录的破坏程度值来计算这一要素的总相关性破坏传播(影响程度)和总相关性传播(步骤S303)。然后异常计算单元26通过将获得的总相关性破坏传播除以获得的总相关性传播针对该要素计算异常程度(步骤S304)。
然后关于对异常程度的这一计算结果,故障分析单元27判断所得值是否超过预定阈值(步骤S305)。如果无异常程度超过预定阈值的要素(步骤S305/否),则继续从步骤S302起的处理。如果任何异常程度超过预定阈值,则故障分析单元27经由管理员交互单元28向管理员呈现异常已经出现于对应要素上(步骤S306)。然后继续从步骤S302起的处理。
图14是示出了用于计算异常程度的相关性范围例子的说明图。在图14中,关于从A到H的八个要素,粗线表示有效相关性,细线表示无效相关性,而虚线表示破坏的相关性。相关性图表401和402各自呈现将要素A视为基点(也就是说,评估目标)的相关性图表。相关性图表401呈现用于上至1的hop(i)的图表(也就是说,包括与基点要素近邻的要素的图表,这些要素是在前文提到的公开号为2009-199533的日本专利申请中描述的故障原因提取装置的处理目标)。对照而言,相关性图表402呈现如下图表,该图表包括hop(i)等于或者大于2的要素,这些要素是根据本发明第一示例实施例的故障原因提取装置10的处理目标。也就是说,本发明第一示例实施例的故障原因提取装置10将用于计算异常程度的相关性范围扩展成整个故障原因提取系统1。
(第一示例实施例的整个操作)
接着将描述上文提到的示例实施例的整个操作。基于从在系统中包括的多个受管理的设备获取的多个性能项目中的每个性能项目的性能信息,根据第一示例实施例的故障原因提取装置10关于性能项目、受管理的设备或者它们的组合作为要素,分析性能信息并且提取在要素之中的可能是故障原因的要素。性能信息积累单元22从多个受管理的设备获取如下性能信息,该性能信息包括用于多个性能项目中的每个性能项目的性能值。相关性模型生成单元23至少推导在第一性能序列信息(该信息指示用于第一要素的性能信息的时间序列变化)与第二性能序列信息(该信息指示用于第二要素的性能信息的时间序列变化)之间的相关性函数并且针对所有成对要素基于相关性函数生成相关性模型(图11,步骤S101到S105)。基于从受管理的设备新检测和获取的性能信息,相关性分析单元24基于第一要素的新检测的性能值以及相关性函数计算用于第二要素的预测性能并且通过比较用于第二要素的新检测的性能值与预测值来计算预测误差(图12,步骤S205)。然后相关性分析单元24分析预测误差是否在预定误差范围内(图12,步骤S206),并且在预测误差在误差范围以外的情况下判断在第一与第二要素之间的相关性被破坏(图12,步骤S207)。当相关性被破坏时,相关性破坏传播检测单元25针对相关性模型中的任意要素计算影响程度(图13,步骤S303)。异常计算单元26基于相关性破坏传播检测单元25计算的影响程度针对相关性模型中的任意要素计算异常程度(图13,步骤S304)。当异常程度等于或者大于预定阈值时,故障分析单元27判断异常已经出现于该要素上(图13,步骤S305)。
这里有可能的是将每个上文描述的操作布置置于程序中使得它可以由计算机执行并且程序由故障原因提取装置10(该装置是用于直接执行上文描述的步骤的计算机)执行。
接着将描述本发明第一示例实施例的特征配置。图21是示出了本发明第一示例实施例的特征配置的框图。
故障原因提取装置10包括存储单元12和相关性破坏传播检测单元25。
存储单元12存储包括一个或者多个相关性函数(每个相关性函数基于包括系统中的多个性能值类型的性能信息的时间序列生成,并且将用于作为输入的类型之一的性能值变换成作为输出的另一类型的性能值)的相关性模型。
相关性破坏传播检测单元25基于基点传播函数的数目计算用于作为类型之一的基点的性能值对系统的影响程度,基点传播函数是用来将用于基点的性能值变换成用于如下其它类型之一的性能值的相关性函数,该其它类型之一可从基点直接或者间接变换并且不是相关性函数的输入。
根据本发明的第一示例实施例,当有相关性破坏的传播时,有可能准确检测作为故障的可能原因的要素。这是因为相关性破坏传播检测单元25计算在相关性模型中的任意要素对检测到相关性破坏的相关性施加的影响程度并且异常计算单元26基于影响程度针对相关性模型中的任意要素计算异常程度。
另外有可能通过提取作为将来异常的可能原因的要素(即使异常目前尚未明显出现)来采取措施(比如设备加强)。
另外根据本发明的第一示例实施例,有可能向管理员清楚呈现视为故障的可能原因的要素通过相关性对相关性破坏施加的影响。这是因为可以在相关性图表上容易地可视化相关性破坏的传播。
(第二示例实施例)
在根据第二示例实施例的故障原因提取装置510中,故障原因提取装置10的相关性破坏传播检测单元525还包括用于计算最大影响程度的功能。最大影响程度是关于在相关性模型中的任意要素计算的影响程度的最大值。
利用这一功能,即使未检测到相关性破坏,仍然有可能在故障原因提取系统1中模拟和提取作为可能弱点的要素。
下文将更具体描述这一点。
图15是示出了用于根据本发明第二示例实施例的整个故障原因提取系统501的示意配置例子的说明图,该系统501包括故障原因提取装置510。通过用故障原因提取装置510替换在第一示例实施例中描述的故障原因提取系统1中的故障原因提取装置10来获得根据第二示例实施例的故障原因提取系统501。受监视的计算机2A、2B、2C、…和网络3与在第一示例实施例中的计算机和网络相同。
图16是示出了根据本发明第二示例实施例的故障原因提取装置510和受监视的计算机2的配置的说明图。图17是示出了在图16中呈现的故障原因提取装置510执行的处理流程的说明图。在第二示例实施例中的相关性破坏传播检测单元525的操作与在第一示例实施例中的相关性破坏传播检测单元25的操作不同。下文将描述不同点。
图18是示出了根据本发明第二示例实施例的故障原因提取装置510中的处理例子的流程图。这里,在第二示例实施例中用于根据在正常操作状态中的性能信息生成相关性模型的操作(步骤S11)与在图10中呈现的第一示例实施例中的故障原因提取装置10的操作相同。然而在第二示例实施例中未实施关于在操作期间性能信息的后续相关性破坏检测(图10中的步骤S12)。在第二示例实施例中,关于生成的相关性模型,相关性破坏传播检测单元525计算每个要素的总相关性传播作为该要素的最大影响程度(假设相关性被破坏并且其破坏程度对于每对要素为1)(步骤S23)。故障原因提取装置510除了该操作之外还可以执行与图10中所示操作相似的操作。
图19是示出了用于在图18中指示为步骤S23的相关性破坏传播分析的具体处理例子的流程图。相关性破坏传播检测单元525取回在图18中的步骤S11生成的相关性模型信息数据32(步骤S601)并且判断在所述相关性模型中是否留有任何未分析的要素(步骤S602)。如果未留有未分析的要素(步骤S602/否),则相关性破坏传播检测单元525经由管理员交互单元28向管理员表示目前为止的最大影响程度和在处理中的影响范围并且结束处理。
如果留有任何未分析的要素(步骤S602/是),则关于相关性模型中的作为基点的一个或者多个要素中的任何要素并且假设n(检测到相关性破坏的相关性的集合)的值和m(相关性的集合)的值与在上文描述的表达式1中的值相同并且也假设对于每个相关性破坏破坏程度为1,相关性破坏传播检测单元525使用以下表达式(3)来计算如下最大影响程度Fmax,该最大影响程度是针对该要素计算的最大总相关性破坏传播(影响程度)。
F max = max ( Σ i ∈ n f i ) = Σ i ∈ m dump ( hop ( i ) ) - - - ( 3 )
图20是示出了在图19中的步骤S604呈现的最大影响程度计算概念的说明图。在图20中,要素A影响与从B到G的要素有关的相关性,要素H影响与从I到Q的要素有关的相关性。因此,要素H比要素A在更广的范围(更多要素)上影响相关性,因而具有更高的最大影响程度值。注意在图20中所示例子中,如在等式1和2中那样将衰减率定义为dump(i)=0.5^(hop(i)-1)。
根据本发明的第二示例实施例,通过计算最大影响程度(假设在相关性模型中的每个相关性被破坏),有可能在实际检测到相关性破坏之前在故障原因提取系统501中模拟和提取作为可能弱点的要素。在故障原因提取系统501的相关性模型中可能有相关性从要素A到要素B存在、但是从要素B到要素A不存在的情况以及从一开始就无相关性存在于要素之间的情况。由于这一点,即使当每个相关性被破坏,并且将破坏程度视为1时,由于基点要素的影响而检测到相关性破坏的范围不同,因而最大影响程度从要素到要素不同。
此外,通过对在这一处理中计算的最大影响程度进行排列,有可能容易提取哪个要素在故障时对整个故障原因提取系统501施加大的影响。因而变得容易关于提取的要素采取措施(包括加强系统的处理能力和改变系统配置)。
尽管已经参照本发明的示例实施例具体示出和描述了本发明,但是本发明不限于这些实施例。本领域普通技术人员将理解,可以在其中做出形式和细节上的各种改变而未脱离如权利要求限定的本发明的精神实质和范围。
本申请基于通过引用将公开内容整体结合于此、于2010年2月15日提交的第2010-030071号日本专利申请并且要求该日本专利申请的优先权。
标号列表
1和501故障原因提取系统
2,2A,2B和2C受监视的计算机
3网络
10和510故障原因提取装置
11和51主操作控制单元
12和52存储单元
13和53通信单元
14输入/输出单元
22性能信息积累单元
23相关性模型生成单元
24相关性分析单元
25和525相关性破坏传播检测单元
26异常计算单元
27故障分析单元
28管理员交互单元
31正常状态性能信息数据
32相关性模型信息数据
33相关性破坏信息数据
34分析设置信息数据
61服务执行单元
62信息收集单元
63对策执行单元

Claims (10)

1.一种故障原因提取装置,包括:
存储单元,存储包括一个或者多个相关性函数的相关性模型,每个相关性函数基于包括系统中的多个性能值类型的性能信息时间序列来生成并且将用于作为输入的所述类型之一的性能值变换成用于作为输出的所述类型中的另一类型的性能值,以及
相关性破坏传播检测单元,基于基点传播函数的数目计算用于作为所述类型之一的基点的性能值对所述系统的影响程度,所述基点传播函数是用来将用于所述基点的性能值变换成用于其它所述类型之一的性能值的所述相关性函数,其它所述类型之一可从所述基点直接或者间接变换并且不是所述相关性函数的输入。
2.根据权利要求1所述的故障原因提取装置,还包括:相关性分析单元,向所述相关性模型中应用输入的性能信息并且针对在所述相关性模型中包括的每个所述相关性函数检测是否有相关性破坏,其中
所述相关性破坏传播检测单元基于检测到所述相关性破坏的所述基点传播函数的数目计算所述影响程度。
3.根据权利要求2所述的故障原因提取装置,其中:
所述相关性破坏传播检测单元将代表所述相关性破坏的程度的破坏程度乘以针对其检测到所述相关性破坏的每个所述基点传播函数的衰减率并且通过对已经与所述衰减率相乘的各个所述破坏程度求和来计算所述影响程度,所述衰减率根据所述基点传播函数在从用于所述基点的性能值向用于作为所述基点传播函数的输出的所述类型的性能值的变换过程中的应用顺序而减小。
4.根据权利要求3所述的故障原因提取装置,还包括:异常计算单元,通过将针对所述基点计算的所述影响程度除以针对相应的所述基点传播函数计算的所述衰减率之和来计算所述基点的异常程度。
5.根据权利要求1所述的故障原因提取装置,其中:
所述相关性破坏传播检测单元计算用于每个所述基点传播函数的衰减率并且通过求和所述衰减率来计算所述影响程度,所述衰减率根据所述基点传播函数在从用于所述基点的性能值向用于作为所述基点传播函数的输出的所述类型的性能值的变换过程中的应用顺序而减小。
6.一种故障原因提取方法,包括:
存储包括一个或者多个相关性函数的相关性模型,每个相关性函数基于包括系统中的多个性能值类型的性能信息时间序列来生成并且将用于作为输入的所述类型之一的性能值变换成用于作为输出的所述类型中的另一类型的性能值,并且
基于基点传播函数的数目计算用于作为所述类型之一的基点的性能值对所述系统的影响程度,所述基点传播函数是用来将用于所述基点的性能值变换成用于其它所述类型之一的性能值的所述相关性函数,其它所述类型之一可从所述基点直接或者间接变换并且不是所述相关性函数的输入。
7.根据权利要求6所述的故障原因提取方法,还包括:向所述相关性模型中应用输入的性能信息并且针对在所述相关性模型中包括的每个所述相关性函数检测是否有相关性破坏,其中
所述计算影响程度基于检测到所述相关性破坏的所述基点传播函数的数目计算所述影响程度。
8.根据权利要求7所述的故障原因提取方法,其中:
所述计算影响程度将代表所述相关性破坏的程度的破坏程度乘以针对其检测到所述相关性破坏的每个所述基点传播函数的衰减率并且通过对已经与所述衰减率相乘的各个所述破坏程度求和来计算所述影响程度,所述衰减率根据所述基点传播函数在从用于所述基点的性能值向用于作为所述基点传播函数的输出的所述类型的性能值的变换过程中的应用顺序而减小。
9.根据权利要求8所述的故障原因提取方法,还包括:通过将针对所述基点计算的所述影响程度除以针对相应的所述基点传播函数计算的所述衰减率之和来计算所述基点的异常程度。
10.根据权利要求6所述的故障原因提取方法,其中:
所述计算影响程度计算用于每个所述基点传播函数的衰减率并且通过求和所述衰减率来计算所述影响程度,所述衰减率根据所述基点传播函数在从用于所述基点的性能值向用于作为所述基点传播函数的输出的所述类型的性能值的变换过程中的应用顺序而减小。
CN201180005711.2A 2010-02-15 2011-01-14 故障原因提取装置、故障原因提取方法和程序记录介质 Active CN102713862B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010030071 2010-02-15
JP2010-030071 2010-02-15
PCT/JP2011/051031 WO2011099341A1 (ja) 2010-02-15 2011-01-14 障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体

Publications (2)

Publication Number Publication Date
CN102713862A CN102713862A (zh) 2012-10-03
CN102713862B true CN102713862B (zh) 2015-12-02

Family

ID=44367627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180005711.2A Active CN102713862B (zh) 2010-02-15 2011-01-14 故障原因提取装置、故障原因提取方法和程序记录介质

Country Status (5)

Country Link
US (2) US8719636B2 (zh)
EP (1) EP2538332B1 (zh)
JP (1) JP5418610B2 (zh)
CN (1) CN102713862B (zh)
WO (1) WO2011099341A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103026344B (zh) * 2010-06-07 2015-09-09 日本电气株式会社 故障检测设备、故障检测方法和程序记录介质
US8874963B2 (en) * 2010-12-20 2014-10-28 Nec Corporation Operations management apparatus, operations management method and program thereof
US9389946B2 (en) * 2011-09-19 2016-07-12 Nec Corporation Operation management apparatus, operation management method, and program
CN104137078B (zh) * 2012-01-23 2017-03-22 日本电气株式会社 操作管理设备、操作管理方法和程序
EP2916222A4 (en) * 2012-11-01 2016-04-13 Nec Corp DISTRIBUTED DATA PROCESSING SYSTEM AND DISTRIBUTED DATA PROCESSING METHOD
WO2014125796A1 (ja) * 2013-02-18 2014-08-21 日本電気株式会社 システム分析装置、及び、システム分析方法
WO2015174063A1 (ja) * 2014-05-16 2015-11-19 日本電気株式会社 情報処理装置、分析方法、及び、記録媒体
JP6366091B2 (ja) * 2014-06-13 2018-08-01 日本電気株式会社 ミスアライメント検知装置、方法、およびプログラム
US10176033B1 (en) * 2015-06-25 2019-01-08 Amazon Technologies, Inc. Large-scale event detector
US10037025B2 (en) 2015-10-07 2018-07-31 Business Objects Software Ltd. Detecting anomalies in an internet of things network
US10062843B2 (en) * 2015-12-11 2018-08-28 Samsung Electronics Co., Ltd. Variable resistive memory device and method of manufacturing the same
KR102494751B1 (ko) * 2015-12-11 2023-02-02 삼성전자 주식회사 가변 저항 메모리 소자 및 그 제조 방법
US10152363B2 (en) * 2016-03-16 2018-12-11 Microsoft Technology Licensing, Llc Identifying potential computer system problems using machine learning techniques
JP6954379B2 (ja) * 2018-01-12 2021-10-27 日本電信電話株式会社 異常箇所特定装置、異常箇所特定方法及びプログラム
US11392435B2 (en) 2018-06-07 2022-07-19 Hewlett-Packard Development Company, L.P. Evaluation of a performance parameter of a monitoring service
CN111309567B (zh) 2020-01-23 2024-03-29 阿里巴巴集团控股有限公司 数据处理方法、装置、数据库系统、电子设备及存储介质
CN115277357A (zh) * 2021-04-30 2022-11-01 华为技术有限公司 网络故障分析方法、装置、设备及存储介质
CN113839806B (zh) * 2021-08-12 2023-06-09 中国地质大学(武汉) 基于时滞关联检测的根源报警分析方法和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1682196A (zh) * 2002-09-11 2005-10-12 国际商业器公司 分布式系统中的识别根原因和确定问题的方法和设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2855590B2 (ja) 1991-07-26 1999-02-10 日本電信電話株式会社 相関関係解析装置
JPH09307550A (ja) 1996-05-10 1997-11-28 Hitachi Ltd ネットワークシステム監視装置
JPH10257054A (ja) 1997-03-11 1998-09-25 Sumitomo Electric Ind Ltd ネットワーク管理装置およびネットワーク管理方法
US7020802B2 (en) * 2002-10-17 2006-03-28 Sun Microsystems, Inc. Method and apparatus for monitoring and recording computer system performance parameters
JP2007227481A (ja) 2006-02-21 2007-09-06 Nec Electronics Corp 不良原因解析方法
JP4859558B2 (ja) 2006-06-30 2012-01-25 株式会社日立製作所 コンピュータシステムの制御方法及びコンピュータシステム
US7770072B2 (en) * 2007-01-16 2010-08-03 Xerox Corporation Method and system for analyzing time series data
CN102354204B (zh) * 2007-03-22 2016-06-29 日本电气株式会社 诊断装置
JP4872944B2 (ja) * 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP4872945B2 (ja) * 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP5428372B2 (ja) * 2009-02-12 2014-02-26 日本電気株式会社 運用管理装置および運用管理方法ならびにそのプログラム
US8060782B2 (en) * 2010-03-01 2011-11-15 Microsoft Corporation Root cause problem identification through event correlation
US8874963B2 (en) * 2010-12-20 2014-10-28 Nec Corporation Operations management apparatus, operations management method and program thereof

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1682196A (zh) * 2002-09-11 2005-10-12 国际商业器公司 分布式系统中的识别根原因和确定问题的方法和设备

Also Published As

Publication number Publication date
EP2538332A4 (en) 2015-08-12
JP5418610B2 (ja) 2014-02-19
EP2538332B1 (en) 2020-04-01
WO2011099341A1 (ja) 2011-08-18
EP2538332A1 (en) 2012-12-26
US20120030522A1 (en) 2012-02-02
US20140325276A1 (en) 2014-10-30
US9274869B2 (en) 2016-03-01
JPWO2011099341A1 (ja) 2013-06-13
US8719636B2 (en) 2014-05-06
CN102713862A (zh) 2012-10-03

Similar Documents

Publication Publication Date Title
CN102713862B (zh) 故障原因提取装置、故障原因提取方法和程序记录介质
JP6394726B2 (ja) 運用管理装置、運用管理方法、及びプログラム
US20190228296A1 (en) Significant events identifier for outlier root cause investigation
CN103026344B (zh) 故障检测设备、故障检测方法和程序记录介质
US9424157B2 (en) Early detection of failing computers
EP2759938A1 (en) Operations management device, operations management method, and program
CN104796273A (zh) 一种网络故障根源诊断的方法和装置
CN107992410B (zh) 软件质量监测方法、装置、计算机设备和存储介质
US20140258187A1 (en) Generating database cluster health alerts using machine learning
EP2963553B1 (en) System analysis device and system analysis method
EP2758881A1 (en) Automated detection of a system anomaly
US10430268B2 (en) Operations management system, operations management method and program thereof
EP3465509A1 (en) Classification of log data
JPWO2016136198A1 (ja) システム監視装置、システム監視方法、及び、システム監視プログラム
GB2517147A (en) Performance metrics of a computer system
Alberti et al. A two-scale maintenance policy for protection systems subject to shocks when meeting demands
Weiss Predicting telecommunication equipment failures from sequences of network alarms
US10157113B2 (en) Information processing device, analysis method, and recording medium
CN114661499A (zh) 故障的预测方法及装置
KR20180106701A (ko) 사물인터넷 기반 기기 관리 시스템 및 방법
WO2024212410A1 (zh) 一种电池电芯异常判定方法、系统、处理设备及存储介质
CN118484696A (zh) 基于潜变量和宽度学习的实时故障诊断方法与装置
Beszédes et al. Predicting Critical Problems from Execution Logs of a Large-Scale Software System
CN115543727A (zh) 基于云服务多变量监测指标的异常检测方法及装置
CN118798619A (zh) 变配电站电气安全策略生成方法、系统、设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant