CN102713862B - 故障原因提取装置、故障原因提取方法和程序记录介质 - Google Patents

故障原因提取装置、故障原因提取方法和程序记录介质 Download PDF

Info

Publication number
CN102713862B
CN102713862B CN201180005711.2A CN201180005711A CN102713862B CN 102713862 B CN102713862 B CN 102713862B CN 201180005711 A CN201180005711 A CN 201180005711A CN 102713862 B CN102713862 B CN 102713862B
Authority
CN
China
Prior art keywords
performance
basic point
damage
type
propagator
Prior art date
Application number
CN201180005711.2A
Other languages
English (en)
Other versions
CN102713862A (zh
Inventor
矢吹谦太郎
Original Assignee
日本电气株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2010030071 priority Critical
Priority to JP2010-030071 priority
Application filed by 日本电气株式会社 filed Critical 日本电气株式会社
Priority to PCT/JP2011/051031 priority patent/WO2011099341A1/ja
Publication of CN102713862A publication Critical patent/CN102713862A/zh
Application granted granted Critical
Publication of CN102713862B publication Critical patent/CN102713862B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Abstract

设备以准确提取如下性能信息为目标,该性能信息可以代表在出现故障时的原因。故障原因提取装置10包括存储单元12和相关性破坏传播检测单元25。这里,存储单元12存储包括一个或者多个相关性函数的相关性模型,每个相关性函数基于包括系统中的多个性能值类型的性能信息时间序列来生成,并且将作为输入的类型之一的性能值转换成作为输出的另一类型的性能值。相关性破坏传播检测单元25基于基点传播函数的数目计算用于作为类型之一的基点的性能值对系统的影响程度,基点传播函数是用来将用于基点的性能值变换成用于如下其它类型之一的性能值的相关性函数,该其它类型之一可从基点直接或者间接变换并且不是相关性函数的输入。

Description

故障原因提取装置、故障原因提取方法和程序记录介质

技术领域

[0001] 本发明涉及一种故障原因提取装置、故障原因提取方法和程序记录介质。

背景技术

[0002] 在大规模信息系统(比如商业信息系统和IDC(因特网数据中心)系统)中,鉴于 作为社会基础结构的信息和通信服务(比如网上服务和商业服务)的重要性增加,要求提 供这些服务的计算机系统保持稳态操作。这样的计算机系统的操作管理通常由管理员手动 执行。随着系统已经变得大规模并且复杂,管理员的负担已经急剧增加并且由于误判或者 错误操作所致的服务暂停已经变得更可能出现。

[0003] 出于这一原因,已经提供如下集成故障原因提取系统,该系统以统一方式监视和 控制在上文提到的系统中包括的硬件和软件的操作状态。集成故障原因提取系统获取关于 在集成系统管理的多个计算机系统中的硬件和软件的操作状态的信息并且向连接到集成 系统的故障原因提取装置输出信息。用于辨别被管理系统的故障的手段包括为操作信息预 先设置阈值的手段和评估操作信息相对于它的平均值而言的偏差的手段。

[0004] 例如在故障原因提取系统的故障原因提取装置中,为各条性能信息设置阈值并且 通过发现各条性能信息超过相应阈值来检测故障。故障原因提取装置预先设置指示异常的 值作为阈值,检测各个要素的异常并且将它报告给管理员。

[0005] 当报告检测到异常时,管理员需要识别异常生成的原因以便解决它。典型的生成 原因例如是CPU超负荷、存储器容量不足或者网络超负荷。然而为了识别生成原因,要求识 别可能与生成有关的计算机、然后检查它的系统日志和参数。这一操作要求每个管理员具 有高程度知识或者技能并且花费大量时间和努力。

[0006] 由于这一点,集成故障原因提取系统通过基于从多个设备获取的事件数据(状态 通知)对操作状态组合等自动执行相关性分析并且从更广的观点估计问题或者原因、然后 向管理员通知它们来向管理员提供对策支持。具体而言,为了保证服务的长期连续操作中 的可靠性,要求不仅针对已经出现的异常采取措施而且提取作为将来异常的可能原因的要 素(即使异常目前尚未明显出现)、然后以计划的方式采取措施(比如设备加强)。

[0007] 例如已经在下文每篇所示专利文献中描述这样的故障原因提取系统或者与相关 分析有关并且在系统中适用的技术。

[0008] 公开号为2009-199533的日本专利申请公开如下技术,该技术通过关于在正常状 态中的两个任意性能信息的值(性能值)的时间序列(一个序列作为输入而另一序列作为 输出)推导变换函数来生成相关性模型、比较根据相关性模型的变换函数的性能值与在另 一时间获取的性能信息并且基于相关性的破坏程度检测故障。

[0009] 公开号为2009-199534的日本专利申请公开如下故障原因提取装置,该装置通过 利用与公开号为2009-199533的日本专利申请的相关性模型相似的相关性模型来预测可 能在实际操作中出现的瓶颈。公开号为2007-227481的日本专利申请公开如下技术,该技 术在识别半导体晶片的生产失效时,利用如下的相关性,该相关性推导自二维图像,以及通 路电阻等,其通过向晶片上的测试图案施加电流而获得。公开号为H05-035769的日本专 利申请公开如下相关性分析装置,该装置分析"相关性异常点"的存在或者不存在并且如果 "相关性异常点"存在则从分析中排除该点。

[0010] 另外,公开号为H09-307550的日本专利申请公开如下网络监视装置,该装置在分 析网络系统时通过聚焦于规律性从出现的大量"报警"提取"有代表性的报警"。公开号为 H10-257054的日本专利申请公开如下网络管理装置,该装置基于在出现于第一和第二节点 组的故障事件之间的相关性值获取它们的对应关系。

发明内容

[0011] [技术问题]

[0012] 利用在公开号为2009-199533的日本专利申请中描述的技术,有可能通过利用在 与某些性能信息有关的相关性之中的多个破坏的相关性的和或者比例或者破坏性的程度 针对在物理连接关系方面邻接的设备计算异常程度。利用这一技术,有可能通过检测相关 性的破坏来提取作为故障的可能原因的性能信息(即使异常目前尚未明显出现)、然后采 取措施(比如设备加强)。

[0013] 然而已经发现实际系统操作中的如下现象,其中相关性的某些破坏向其它相关性 传播并且向更多其它相关性进一步传播而且重复传播以对整个系统施加影响。在公开号为 2009-199533的日本专利申请中描述的技术中未考虑并且利用该技术不能检测相关性破坏 的这一传播。类似地,在公开号为2009-199534的日本专利申请、公开号为2007-227481的 日本专利申请、公开号为H05-035769的日本专利申请、公开号为H09-307550的日本专利申 请和公开号为H10-257054的日本专利申请中的任一日本专利申请中未公开任何聚焦于相 关性破坏的传播并且由此检测它的技术。由于这一点,利用上文描述的技术,不可能在相关 性的破坏传播的情况下准确提取作为故障的可能生成原因的性能信息。

[0014] 本发明的目的是提供一种使得有可能在有相关性破坏的传播时准确提取作为故 障的可能生成原因的性能信息的故障原因提取装置、故障原因提取方法和程序记录介质。

[0015] [问题的解决方案]

[0016] 根据本发明一个示例方面的一种故障原因提取装置包括:存储装置,用于存储包 括一个或者多个相关性函数的相关性模型,每个相关性函数基于包括系统中的多个性能值 类型的性能信息时间序列来生成并且将用于作为输入的类型之一的性能值变换成用于作 为输出的类型中的另一类型的性能值,以及相关性破坏传播检测装置,用于基于基点传播 函数的数目计算用于作为类型之一的基点的性能值对系统的影响程度,基点传播函数是用 来将用于基点的性能值变换成用于其它类型之一的性能值的相关性函数,该其它类型之一 可从基点直接或者间接变换并且不是相关性函数的输入。

[0017] 根据本发明一个示例方面的一种故障原因提取方法包括:存储包括一个或者多个 相关性函数的相关性模型,每个相关性函数基于包括系统中的多个性能值类型的性能信息 时间序列来生成并且将用于作为输入的类型之一的性能值变换成用于作为输出的类型中 的另一类型的性能值,并且基于基点传播函数的数目计算用于作为类型之一的基点的性能 值对系统的影响程度,基点传播函数是用来将用于基点的性能值变换成用于其它类型之一 的性能值的相关性函数,该其它类型之一可从基点直接或者间接变换并且不是相关性函数 的输入。

[0018] 根据本发明一个示例方面的一种程序记录介质在其上记录有程序,该程序使计算 机执行方法,该方法包括:存储包括一个或者多个相关性函数的相关性模型,每个相关性函 数基于包括系统中的多个性能值类型的性能信息时间序列来生成并且将用于作为输入的 类型之一的性能值变换成用于作为输出的类型中的另一类型的性能值,并且基于基点传播 函数的数目计算用于作为类型之一的基点的性能值对系统的影响程度,基点传播函数是用 来将用于基点的性能值变换成用于其它类型之一的性能值的相关性函数,该其它类型之一 可从基点直接或者间接变换并且不是相关性函数的输入。

[0019] [本发明的有利效果]

[0020] 本发明的有利效果在于有可能在有相关性破坏的传播时准确提取作为故障的可 能生成原因的性能信息。

附图说明

[0021] [图1]示出了均根据本发明第一示例实施例的故障原因提取装置和受监视的计 算机的配置的说明图。

[0022] [图2]示出了根据本发明第一示例实施例的故障原因提取系统的示意整个配置 的例子的说明图,该系统包括故障原因提取装置。

[0023] [图3]示出了图1中呈现的故障原因提取装置执行的处理流程的说明图。

[0024] [图4]示出了在图1和图3中所示性能信息积累单元中积累的正常状态性能信息 数据的例子的说明图。

[0025] [图5]示出了关于图4中呈现的正常状态性能信息数据的相关性模型生成过程的 例子的说明图。

[0026] [图6]示出了相关性模型生成单元根据正常状态性能信息数据生成的相关性模 型信息数据的例子的说明图。

[0027] [图7]示出了可以基于图6中呈现的相关性模型信息数据绘制的相关性图表的例 子的说明图。

[0028] [图8]示出了图1和图3中呈现的相关性破坏信息数据的例子的说明图。

[0029] [图9]示出了相关性破坏传播检测单元和异常计算单元执行的关于相关性破坏 传播的计算例子的说明图。

[0030] [图10]示出了根据本发明第一示例实施例的故障原因提取装置中的处理例子的 流程图。

[0031] [图11]示出了用于在图10中指示为步骤Sll的相关性模型生成的具体处理例子 的流程图。

[0032] [图12]示出了在图10中指示为步骤S12的相关性模型变化分析的具体处理例子 的流程图。

[0033] [图13]示出了在图10中指示为步骤S13的相关性破坏传播分析的具体处理例子 的流程图。

[0034] [图14]示出了用于计算异常程度的相关性范围例子的说明图。

[0035] [图15]示出了用于根据本发明第二示例实施例的整个故障原因提取系统的示意 配置例子的说明图,该系统包括故障原因提取装置。

[0036] [图16]示出了根据本发明第二示例实施例的故障原因提取装置和受监视的计算 机的配置的说明图。

[0037] [图17]示出了图16中呈现的故障原因提取装置执行的处理流程的说明图。

[0038] [图18]示出了根据本发明第二示例实施例的故障原因提取装置中的处理例子的 流程图。

[0039] [图19]示出了用于在图18中指示为步骤S23的相关性破坏传播分析的具体处理 例子的流程图

[0040] [图20]示出了在图19中指示为步骤S604的最大影响程度计算概念的说明图。

[0041] [图21]示出了本发明第一示例实施例的特征配置的框图。

具体实施方式

[0042] (第一示例实施例)

[0043] 下文基于附图1描述本发明第一示例实施例的配置。

[0044] 首先将描述第一示例实施例的基本内容,并且此后将描述更多具体内容。

[0045] 根据第一示例实施例的故障原因提取装置10从在系统中包括的多个管理的设备 (监视的计算机2A、2B、2C···)获取如下性能信息,该性能信息包括用于多个性能项目(例 如CPU利用率和存储器使用量)中的每个性能项目的性能值。这里将性能项目、受管理的 设备或者它们的组合定义为要素(性能值类型或者简称为类型)。故障原因提取装置10分 析性能信息并且提取在要素之中的可以是故障原因的要素。

[0046] 故障原因提取装置10包括性能信息积累单元22、相关性模型生成单元23、相关性 分析单元24、相关性破坏传播检测单元25、异常计算单元26和故障分析单元27。

[0047] 性能信息积累单元22从多个受管理的设备获取如下性能信息,该性能信息包括 用于多个性能项目中的每个性能项目的性能值。

[0048] 相关性模型生成单元23至少推导在第一性能序列信息(该信息指示用于第一要 素的性能值的时间序列变化)与第二性能序列信息(该信息指示用于第二要素的性能值的 时间序列变化)之间的相关性函数并且基于相关性函数生成用于所有成对要素的性能值 的相关性t吴型。

[0049] 相关性分析单元24基于来自受管理的设备的针对第一要素新检测的性能值和对 应相关性函数计算用于第二要素的预测性能值并且通过比较针对第二要素新检测的性能 值与预测值来计算预测误差。然后相关性分析单元24分析预测误差是否在预定误差范围 内并且在预测误差在误差范围以外的情况下判断在第一与第二要素之间的相关性被破坏。

[0050] 相关性破坏传播检测单元25基于代表相关性链(分配相关性模型的任意要素作 为链的基点)(相关性上的传播)的相关性图表(例如图7中的41B)计算如下影响程度, 该影响程度指示该要素通过相关性上的传播对系统施加的影响程度。例如当检测到在第一 与第二要素之间的相关性的破坏(相关性破坏)时,相关性破坏传播检测单元25计算该要 素对检测到相关性破坏的相关性施加的影响程度(相关性破坏的传播)作为影响程度。注 意将与从基点到相关性图表上的另一要素的相应边对应的各个相关性函数定义为基点的 基点传播函数。

[0051] 异常计算单元26基于相关性破坏传播检测单元25计算的影响程度针对相关性模 型中的任意要素计算异常程度。

[0052] 如果异常程度等于或者大于预定阈值,则故障分析单元27判断异常已经在该要 素上出现。

[0053] 另外,在这一故障原因提取装置10中,当在相关性中检测到相关性破坏时,相关 性分析单元24基于预测误差针对相关性破坏计算破坏程度,并且相关性破坏传播检测单 元25利用破坏程度来计算影响程度。

[0054] 然后在分配相关性模型中的任意要素作为基点的相关性图表上,相关性破坏传播 检测单元25通过将相关性破坏的破坏程度乘以按照预定常数的求幂(其中从该要素到检 测到相关性破坏的相关性存在的相关性数目视为指数)而推导的衰减率、然后针对检测 到相关性破坏的一组相关性将计算的值求和来计算该要素的影响程度(总相关性破坏传 播)。另外,相关性破坏传播检测单元25通过针对相关性图表上的一组相关性将衰减率求 和来计算该要素的总相关性传播。异常计算单元26通过将总相关性破坏传播除以总相关 性传播针对该要素计算异常程度。

[0055] 具有这样的配置,变得有可能让故障原因提取装置10准确检测相关性破坏由于 相关性破坏的传播而对整个网络的影响。

[0056] 下文将更具体描述这一点。

[0057] 图2是示出了根据本发明第一示例实施例的故障原因提取系统1的示意整个配置 的例子的说明图,该系统包括故障原因提取装置10。

[0058] 故障原因提取装置10从受监视的计算机24、28、20"获取性能信息(该性能信息 包括用于多个性能项目(例如CPU利用率和存储器使用量)中的每个性能项目的性能值) 并且基于这一性能信息执行下文描述的操作。

[0059] 图1是示出了均根据本发明第一示例实施例的故障原因提取装置10和受监视的 计算机2的配置的说明图。由于图2中所示受监视的计算机2六、28、20"具有彼此相同的配 置,所以这些计算机在图2中共同命名为受监视的计算机2从而省略细节描述。图3是示 出了图1中呈现的故障原因提取装置10执行的处理流程的说明图。

[0060] 根据本发明第一示例实施例的故障原因提取装置10例如是通用计算机系统并且 包括在执行计算机程序时作为核芯来工作的主操作控制单元(CPU :中央处理单元)11、存 储数据的存储单元12、经由网络3来与其它计算机执行数据通信的通信单元13以及接受用 户(在这一情况下为网络管理员)的操作并且呈现处理结果的输入/输出单元14。

[0061] 在故障原因提取装置10的主操作控制单元11中,性能信息积累单元22、相关性 模型生成单元23、相关性分析单元24、相关性破坏传播检测单元25、异常计算单元26、故障 分析单元27和管理员交互单元28中的每个单元以计算机程序的形式操作。另外,正常状 态性能信息数据31、相关性模型信息数据32、相关性破坏信息数据33和分析设置信息数据 34中的每个信息数据存储于存储单元12中。

[0062] 如故障原因提取装置10 -样,受监视的计算机2也包括主操作控制单元51、存储 单元52和通信单元53。尽管计算机2中的这些单元的功能分别与故障原因提取装置10中 的主操作控制单元11、存储单元12和通信单元13的功能相同,但是在受监视的计算机2中 的主操作控制单元51中的服务执行单元61、信息收集单元62和对策执行单元62中的每个 单元以计算机程序的形式操作。

[0063] 受监视的计算机2的服务执行单元61提供信息和通信服务(比如网上服务和商 业服务)。信息收集单元62检测服务执行单元61的操作状态、获取包括在操作状态中的 性能信息并且向故障原因提取装置10的性能信息积累单元22发送信息。故障原因提取装 置10的性能信息积累单元22从每个受监视的计算机2的信息收集单元62接收性能信息 并且存储信息作为正常状态性能信息数据31。

[0064] 相关性模型生成单元23从正常状态性能信息数据31取得关于某一时间段的性能 信息并且关于两个任意性能值类型的时间序列针对其中两个时间序列之一视为输入而另 一时间序列视为输出的情况推导变换函数(相关性函数)。相关性模型生成单元23比较这 一相关性函数生成的性能值序列与实际检测值序列并且根据两个值序列之差计算相关性 函数的加权信息。另外通过对每对类型重复这些过程,相关性模型生成单元23生成用于服 务执行单元61的整个操作状态的相关性模型。同时,相关性模型生成单元23存储生成的 相关性模型作为相关性模型信息数据32。

[0065] 相关性分析单元24从性能信息积累单元22接收新检测的性能信息并且分析在接 收的性能信息中包括的性能值是否在某一误差范围内满足存储于相关性模型信息数据32 中的由在性能值之间的相关性函数代表的关系并且输出分析的结果。

[0066] 相关性分析单元24基于针对第一要素新检测的性能值和对应相关性函数计算用 于第二要素的预测性能值,然后通过比较针对第二要素新检测的性能值与预测性能信息来 计算预测误差并且分析预测误差是否在预定误差范围内。另外,如果预测误差在预定误差 范围以外,则相关性分析单元24判断在第一与第二要素之间的相关性被破坏,计算在要素 之间的相关性破坏的破坏程度并且存储这一破坏程度值作为相关性破坏信息数据33。

[0067] 故障分析单元27接收性能信息积累单元22收集的操作状态信息和相关性分析单 元24执行的分析的结果并且根据预先存储于分析设置信息数据34中的分析设置的内容执 行故障分析。

[0068] 管理员交互单元28从故障分析单元27接收故障分析的结果并且经由输入/输出 单元14将它呈现给管理员。然后管理员交互单元28接收管理员进行的操作输入并且根据 这一操作输入命令受监视的计算机2的对策执行单元63采取对策。对策执行单元63响应 于来自管理员交互单元28的命令针对服务执行单元61上的故障执行对策过程。

[0069] 尽管上文提到的配置与在公开号为2009-199533的日本专利申请中描述的故障 原因提取装置的配置相同,但是根据本发明这一第一示例实施例的故障原因提取装置还包 括相关性破坏传播检测单元25和异常计算单元26。

[0070] 当检测到在要素之间的相关性破坏时,相关性破坏传播检测单元25基于相关性 模型信息数据32和相关性破坏信息数据33针对相关性模型中的每个要素计算影响程度。

[0071] 异常计算单元26基于相关性破坏传播检测单元25计算的影响程度针对相关性模 型中的每个要素计算异常程度。

[0072] 后文将具体描述相关性破坏传播检测单元25和异常计算单元26的这些处理步 骤。

[0073] 故障分析单元27根据存储于分析设置信息数据34中的分析设置,关于异常计算 单元26计算的异常程度执行故障分析。在分析设置信息数据34中,例如定义在异常程度 等于或者大于预定阈值的情况下向管理员呈现警告消息。根据这一点,故障分析单元27使 用阈值根据性能信息积累单元22检测的性能信息判断具体计算机的负荷是否为高。这里, 应用的阈值预先存储于分析设置信息数据34中。另外,在分析设置信息数据34中,可以针 对具体信息项目或者受监视的计算机2中的具体计算机定义与用于其它信息项目或者计 算机的阈值不同的阈值。

[0074] 管理员交互单元28经由输入/输出单元14向管理员呈现这样的故障分析的结 果。当管理员经由输入/输出单元14进行用于命令某种对策的输入时,管理员交互单元28 向对策执行单元63发送这一输入的内容并且命令执行对策。例如当用于监视的计算机2 中的具体计算机的CPU利用率或者存储器使用量出现异常时,管理员可以命令对策(比如 减少向受监视的计算机2中的该一个计算机命令的操作数量,然后将那些操作移向受监视 的计算机2中的另一计算机)。

[0075] 此后,如果在性能信息积累单元22按照恒定时间间隔收集的性能信息中未检测 到相关性破坏,则故障分析单元27判断它从故障中恢复,并且这一结果经由管理员交互单 元28呈现给管理员。通过重复收集信息、分析和对策这些过程,连续执行针对服务执行单 元610上的故障的措施。

[0076] (生成相关性模型和检测相关性破坏)

[0077] 图4是示出在图1和图3中所示性能信息积累单元22中积累的正常状态性能信息 数据31的例子的说明图。受监视的计算机2的信息收集单元62检测服务执行单元61的 操作状态,从操作状态提取性能信息并且向故障原因提取装置10的性能信息积累单元22 发送该信息。

[0078] 正常状态性能信息数据31是信息收集单元62相继收集的用于服务执行单元61 的性能信息的列表。每条性能信息包括在图2中呈现的每个受监视的计算机2同时测量的 多个性能值项目并且按照预定时间间隔来列举。例如当在服务执行单元61执行web服务 时,信息收集单元61针对提供web服务的每个受监视的计算机2检测CPU利用率和剩余存 储器大小并且向故障原因提取装置10的性能信息积累单元22发送该信息。性能信息积累 单元22记录和积累这一信息作为正常状态性能信息数据31。

[0079] 图4指示这样积累的正常状态性能信息数据31的例子。这里将图2中所示受监 视的计算机2个别标示为受监视的计算机2A、2B、2C、…,并且用于受监视的计算机2A、2B、 2C、…的名称分别为"SV1"、"SV2"、"SV3"、···。

[0080] 例如类型"SV1. CPU"指示用于受监视的计算机2A (SVl)的CPU利用率,并且可见 在2010年1月5日的17:25测量的"SV1. CPU"的性能值为"12"并且按照一分钟的间隔后 续测量的性能值以从17:26为序分别为"15"、"34"、"63"、…。类似地,类型"SV1. MEM"指 示用于受监视的计算机2A (SVl)的存储器使用量,并且呈现在与用于"SV1. CPU"的时间相 同的时间测量的"SV1. MEM"的性能值。类型"SV2. CPU"指示用于受监视的计算机2B (SV2) 的CPU利用率,并且呈现在与用于其它性能值的时间相同的时间测量的"SV2. CPU"的性能 值。

[0081] 相关性模型生成单元23关于在这样积累的正常状态性能信息数据31中的每个性 能值类型执行如下文所示相关性模型生成过程。图5是示出了关于图4中呈现的正常状态 性能信息数据31的相关性模型生成过程例子的说明图。图形GlOl示出了在t与X之间的 关系,其中X代表类型"SV1. CPU"比对时间t的性能值。图形102示出了在t与y之间的 关系,其中y代表类型"SV1. MEM"比对时间t的性能值。图形101和G102分别呈现"第一 性能序列信息"和"第二性能序列信息"。

[0082] 这里,相关性模型生成单元23例如用预定近似等式"y = f (X) = Ax+B"(A和B为 常数)近似在X与y之间的关系并且将用于系数的值计算为"A = -0. 6"和"B = 100"。相 关性模型生成单元23计算用于类型"SV1. MEM"的预测性能值序列(通过使用上述相关性 函数根据图形GlOl中呈现的用于类型"SV1. CPU"的实际性能值序列来生成该序列)与图 形G102中呈现的用于"SV1. MEM"的实际性能值序列之差(图形G103中所示)。然后相关 性模型生成单元23计算加权值,该加权值根据差值的平均值而减小并且取1最大值(例如 在这一情况下为"w = 0. 88")。近似等式不限于这样的线性函数,而是只要实现有效近似 就可以使用任何种类的函数。

[0083] 如果加权w的值等于或者大于具体阈值,则相关性模型生成单元23判断在X与y 之间的相关性"有效"。例如,如果将阈值设置成〇. 5,则判断在X与y之间(也就是说,判 断在"SVL CPU"与"SVL MEM"之间的相关性为有效)

[0084] 图6是示出了相关性模型生成单元23根据正常状态性能信息数据31生成的相关 性模型信息数据32的例子的说明图。相关性模型信息数据32针对如上文那样在正常状 态性能信息数据31中记录的每对类型包括分别视为相关性函数的输入和输出的类型的名 称,指定相关性函数的系数和加权的每个值以及指示对应相关性是否有效的相关性判断信 息(有效性)。

[0085] 例如关于图5中呈现的在"SV1. CPU"与"SV1.MEM"之间的相关性,在等式"y = Ax+B"中的系数A值为6"、系数B值为" 100"并且加权值为"0. 88"而"SV1. MEM"视为 输出的相关性存储于相关性模型信息数据32中。相关性模型生成单元23对性能信息积累 单元22在正常状态性能信息数据31中积累的每对类型执行这样的分析。

[0086] 相关性分析单元24针对每对类型判断加权w是否等于或者大于具体阈值(也就 是说,相关性是否有效)并且如果判断相关性为有效则在相关性模型信息数据32的相关性 判断信息(有效性)中设置"〇"而如果判断为无效则设置"X"。

[0087] 图7是示出了可以基于在图6中呈现的相关性模型信息数据32绘制的相关性图 表41的例子的说明图。相关性分析单元24还具有响应于从操作者输入的指令绘制这样的 相关性图表41并且经由管理员交互单元28输出图表的功能。在图7中所示例子中,用于 这些受监视的计算机2A、2B和2C的每个CPU利用率和存储器用量由相关性图表41上的从 A到F的要素代表。

[0088] 用于受监视的计算机的CPU利用率和存储器使用量分别为用于2A的"SVL PlTlP "SV1. MEM"、用于 2B 的"SV2. CPU" 和 "SV2. MEM" 以及用于 2C 的"SV3. CPU" 和 "SV3. MEM"。

[0089] 例如要素 A代表"SV1. CPU"(也就是说,用于受监视的计算机2A的CPU利用率)。 类似地,要素 F代表"SV3. MEM"(也就是说,用于受监视的计算机2C的存储器使用量)。

[0090] 然后,将相应要素相互连接的边代表由相关性模型中的相关性函数代表的从一个 要素到另一要素的相关性。当在从〇到1的范围中定义的加权w等于或者大于0. 5时用粗 线呈现相应相关性,而当w小于0. 5时用细线呈现相应相关性。图7中的相关性图表41以 这一方式根据加权w按照线粗细度指示相关性的状态。

[0091] 例如在要素 A与B之间的相关性由如下粗线表达,该粗线指示用于从要素 A到要 素 B的相关性的加权w等于或者大于0. 5。另外,在要素 A与F之间的相关性由如下细线表 达,该细线指示用于从要素 A到要素 F的相关性的加权w小于0. 5。由于基于相关性函数的 误差计算加权《,所以这一线粗细度代表相关性的强度。

[0092] 相关性模型生成单元23可以例如通过从相关性图表41仅提取加权值等于或者大 于0. 5的稳定相关性(粗线)来获得相关性图表(比如41B)。相关性模型生成单元23基 于在整个故障原因提取系统1稳定和正常操作之时获取的性能信息生成这一相关性模型 信息数据32。

[0093] 然后相关性分析单元24对新获取的性能信息执行上文描述的相关性分析。然后 可能有如下情况,在该情况下,在整个故障原因提取系统1正常操作之时有效("〇")的相 关性随时间流逝而改变成无效("X")。这是在本示例实施例中定义的"相关性破坏"并且 意味着任何种类的改变已经在故障原因提取系统1的操作状态中明显出现。

[0094] 图7中的相关性图表41C通过虚线指示以这样的方式已经随时间流逝而置于破坏 的相关性。在相关性图表41C中,在要素 A与C之间的相关性和在要素 B与C之间的相关 性与用于正常状态操作的相关性图表41B相比处于破坏。相关性分析单元24比较新获取 的性能信息与相关性模型信息数据库32并且计算"破坏程度"(该破坏程度代表在性能值 之间的变换误差的程度),然后存储它作为相关性破坏信息数据33。

[0095] 这里,相关性分析单元24可以将破坏程度定义为与预定最大误差的比例一一将1 设置为该比例的最大值。在这一情况下,管理员提供预定最大误差例如作为变换误差的预 测最大值。

[0096] 图8是示出了在图1和图3中呈现的相关性破坏信息数据3的例子的说明图。相 关性破坏信息数据33包括各自关于检测到相关性破坏的相应相关性计算的破坏程度。

[0097] (计算相关性破坏传播)

[0098] 图9是示出了相关性破坏传播检测单元25和异常计算单元26执行的相关性破坏 传播计算例子的说明图。当相关性分析单元24检测到上文描述的相关性破坏时,相关性破 坏传播检测单元25针对相关性图表上的每个要素计算影响程度(总相关性破坏传播)。

[0099] 关于图9中所示例子,假设在具有从A到G的七个要素的故障原因提取系统中,用 于A-B的相关性(定义为输入为要素 A而输出为要素 B并且下文适用相同定义)和用于 A-E、B-C、B-D、E-F和E-G的相关性在正常状态中有效,但是相关性分析单元24已经针对 A-E和E-F检测到相关性破坏。

[0100] 另外,在图9中所示例子中,要素 A已经通过在要素 A视为基点的相关性图表中表 达的相关性上的传播对与另一要素有关的相关性施加影响,并且已经检测到所得相关性破 坏。这里,如果将相关性i的破坏程度表达为brk (i)、从要素 A到相关性i的相关性数目为 hop⑴并且相关性的衰减率为dump (i),则按照下文所示表达式1计算与相关性图表的基 点要素有关的总相关性破坏传播F (影响程度)、总相关性传播G和异常程度eval。这里, η是相关性图表上检测到相关性破坏的相关性的集合,而m是相关性图表上相关性的集合。

[0101] f;= dump (hop (i)) Xbrk(i)

[0102] gi= dump (hop (i)) CN 102713862 B 兄明十ι 10/15 页

Figure CN102713862BD00131

[0103]

[0104]

[0105]

[0106] 在图9中的例子中,如果关于A-E和E-F的相关性将破坏程度定义为brk = 0. 6 而将衰减率定义为dump (i) = 0. 5~ (hop (i)-1),则如在下文所示表达式2中计算总相关性 破坏传播F、总相关性传播G和异常程度。在这一例子中,A-E和E-F的相关性对应于集合 n,而除了 η之外还包括所有其它相关性的全部相关性对应于集合m。另外,关于用于A-B和 A-E的相关性为hop(i) = 1,而关于用于B-C、B-D、E-F和E-G的相关性为hop(i) =2。在 图9中,虚线表达检测到相关性破坏的相关性,而实线表达其它相关性。

Figure CN102713862BD00132

[0107]

[0108]

[0109]

[0110]

[0111] 在表达式2中,在用于总相关性破坏传播F的表达式中的右侧第一和第二项分别 指示关于用于A-E的相关性的相关性破坏传播和关于用于E-F的相关性的相关性破坏传 播。另外,在用于总相关性传播G的表达式中的右侧第一到第六项分别指示用于A-B、B-C、 B-D、A-E、E-F 和 E-G 的:¾减率。

[0112] 相关性破坏传播检测单元25和异常计算单元26对各自视为基点的每个要素执行 相似计算。如果关于作为基点的要素计算的异常程度eval超过预定阈值,则故障分析单元 27判断异常已经出现于该要素上并且经由管理员交互单元28向管理员呈现结果。

[0113] (处理流程)

[0114] 图10是示出了根据本发明第一示例实施例的故障原因提取装置10中的处理例子 的流程图。在这一实施例中,关于从在故障原因提取系统1中包括的多个受监视的计算机 2获取的一个或者多个性能项目,将性能项目、受监视的设备或者它们的组合视为要素。相 关性模型生成单元23基于在整个故障原因提取系统1稳定和正常操作之时获取的性能信 息生成在性能信息中包括的性能序列(每个性能序列指示每个要素的性能值的时间序列 变化)之间的相关性模型(步骤Sl 1)。

[0115] 随后,相关性分析单元24将新检测和获取的性能信息代入相关性模型中以检测 相关性破坏(步骤S12)。然后关于检测到的相关性破坏,相关性破坏传播检测单元25针对 每个要素计算影响程度,并且异常计算单元26计算基点的异常程度(步骤S13)。步骤Sll 和S12为与在公开号为2009-199533的日本专利申请中描述的故障原因提取装置的操作相 同的操作。步骤S13是根据本发明的故障原因提取装置特有的操作。

[0116] 图11是示出了用于在图10中指示为步骤Sll的相关性模型生成的具体处理例子 的流程图。在整个故障原因提取系统1稳定和正常操作之时,受监视的计算机2的信息收 集单元62检测服务执行单元61的操作状态并且向故障原因提取装置10的性能信息累计 单元22发送包括在操作状态中的性能信息。性能信息积累单元22存储性能信息作为正常 状态性能信息数据31。

[0117] 相关性模型生成单元23获取这一正常状态性能信息数据31 (步骤S101)并且判 断是否留有未分析的性能值类型(步骤S102)。如果未留有未分析类型(步骤S102/否), 则相关性模型生成单元23结束处理。

[0118] 如果留有任何未分析类型(步骤S102/是),则相关性模型生成单元23开始用于 计算在性能值类型之间的相关性函数的系数的处理等。如在上文已经描述的用于计算在图 4和图5中所示类型"SV1. CPU"和"SV1. MEM"的性能值序列之间的相关性函数的处理中那 样,相关性模型生成单元23关于在未分析的类型之间的相关性计算相关性函数的系数等。 例如当用表达为"y = Ax+B"的相关性函数进行近似时,相关性模型生成单元23计算系数 A和B (步骤S103)。

[0119] 另外,在这一以后,相关性模型生成单元23也计算相关性函数的加权(w)(步 骤S104)。然后相关性模型生成单元23存储计算的系数和加权作为相关性模型信息数据 32 (步骤S105)。相关性模型生成单元23对每对性能值类型重复从S103到105的步骤中 所示这些过程并且由此关于整个故障原因提取系统1生成相关性模型信息数据32。

[0120] 图12是在图10中指示为步骤S12的相关性模型变化分析的具体处理例子的流程 图。相关性分析单元24取回图11中所示处理生成的相关性模型信息数据32(步骤S201) 并且基于其中包括的加权信息提取相关性(步骤S202)。这一处理对应于用于通过从图 7(a)中所示相关性图表41 (其中根据相关性模型的加权w用不同线粗细度绘制相关性)仅 提取粗线(这些粗线指示加权值等于或者大于〇. 5的稳定相关性)来获得相关性图表41B 的处理。

[0121] 随后,相关性分析单元24经由性能信息积累单元22获取从受监视的计算机2的 性能收集单元62发送的性能信息(步骤S203)。例如当获取的性能信息是在图4中呈现的 正常状态性能信息31的最下一行中所示时间"2010/1/078:30"的性能信息时,相关性分析 单元24相继搜索作为相关性模型信息数据32而存储的相关性函数并且判断是否留有任何 未搜索的相关性函数(步骤S204)。如果没有未搜索的相关性函数(步骤S204/否),则相 关性分析单元24存储目前为止的处理结果作为相关性破坏信息数据(33)(步骤S208)并 且结束处理。

[0122] 如果留有任何相关性函数(步骤S204/是),则相关性分析单元24比较新获取的 性能信息与相关性模型信息数据32并且计算在性能值类型之间的变换误差(步骤S205)。 例如当获取的性能信息分别呈现用于"SV1. CPU"和"SV1. MEM"的值"20"和"79"时,相关 性分析单元24通过将"SV1. CPU"的性能值"20"代入在相关性模型信息数据32中记录的 近似等式来推导预测值为(_〇. 6)*(20)+100 ="88"并且比较这一预测值与测量值"79"以 获得误差值"9"。

[0123] 随后,相关性分析单元24计算这一误差与检测值的比例并且判断这一比例值是 否在预定范围内(步骤S206)。如果该值在预定范围内(步骤S206/是),则相关性分析单 元24判断尚未出现特定异常并且返回到步骤S204的处理。如果它在预定范围以外(步骤 S206/否),则相关性分析单元24判断相关性被破坏、根据这一变换误差计算相关性破坏的 破坏程度并且记录结果作为相关性破坏信息数据33 (步骤S207)。

[0124] 图13是示出了在图10中指示为步骤S13的相关性破坏传播分析的具体处理例子 的流程图。相关性破坏传播检测单元25首先取回相关性模型信息数据32和相关性破坏信 息数据33 (步骤S301)并且判断是否留有任何未分析的要素(步骤S302)。如果未留有未 分析的要素(步骤S302/是),则结束处理。

[0125] 如果在步骤S302留有任何未分析的要素(步骤S302/是),则相关性破坏传播检 测单元25利用在相关性破坏信息数据33中记录的破坏程度值来计算这一要素的总相关性 破坏传播(影响程度)和总相关性传播(步骤S303)。然后异常计算单元26通过将获得的 总相关性破坏传播除以获得的总相关性传播针对该要素计算异常程度(步骤S304)。

[0126] 然后关于对异常程度的这一计算结果,故障分析单元27判断所得值是否超过预 定阈值(步骤S305)。如果无异常程度超过预定阈值的要素(步骤S305/否),则继续从步 骤S302起的处理。如果任何异常程度超过预定阈值,则故障分析单元27经由管理员交互 单元28向管理员呈现异常已经出现于对应要素上(步骤S306)。然后继续从步骤S302起 的处理。

[0127] 图14是示出了用于计算异常程度的相关性范围例子的说明图。在图14中,关于从 A到H的八个要素,粗线表示有效相关性,细线表示无效相关性,而虚线表示破坏的相关性。 相关性图表401和402各自呈现将要素 A视为基点(也就是说,评估目标)的相关性图表。 相关性图表401呈现用于上至1的hop (i)的图表(也就是说,包括与基点要素近邻的要素 的图表,这些要素是在前文提到的公开号为2009-199533的日本专利申请中描述的故障原 因提取装置的处理目标)。对照而言,相关性图表402呈现如下图表,该图表包括hop⑴等 于或者大于2的要素,这些要素是根据本发明第一示例实施例的故障原因提取装置10的处 理目标。也就是说,本发明第一示例实施例的故障原因提取装置10将用于计算异常程度的 相关性范围扩展成整个故障原因提取系统1。

[0128] (第一示例实施例的整个操作)

[0129] 接着将描述上文提到的示例实施例的整个操作。基于从在系统中包括的多个受管 理的设备获取的多个性能项目中的每个性能项目的性能信息,根据第一示例实施例的故障 原因提取装置10关于性能项目、受管理的设备或者它们的组合作为要素,分析性能信息并 且提取在要素之中的可能是故障原因的要素。性能信息积累单元22从多个受管理的设备 获取如下性能信息,该性能信息包括用于多个性能项目中的每个性能项目的性能值。相关 性模型生成单元23至少推导在第一性能序列信息(该信息指示用于第一要素的性能信息 的时间序列变化)与第二性能序列信息(该信息指示用于第二要素的性能信息的时间序列 变化)之间的相关性函数并且针对所有成对要素基于相关性函数生成相关性模型(图11, 步骤SlOl到S105)。基于从受管理的设备新检测和获取的性能信息,相关性分析单元24基 于第一要素的新检测的性能值以及相关性函数计算用于第二要素的预测性能并且通过比 较用于第二要素的新检测的性能值与预测值来计算预测误差(图12,步骤S205)。然后相关 性分析单元24分析预测误差是否在预定误差范围内(图12,步骤S206),并且在预测误差 在误差范围以外的情况下判断在第一与第二要素之间的相关性被破坏(图12,步骤S207)。 当相关性被破坏时,相关性破坏传播检测单元25针对相关性模型中的任意要素计算影响 程度(图13,步骤S303)。异常计算单元26基于相关性破坏传播检测单元25计算的影响 程度针对相关性模型中的任意要素计算异常程度(图13,步骤S304)。当异常程度等于或 者大于预定阈值时,故障分析单元27判断异常已经出现于该要素上(图13,步骤S305)。

[0130] 这里有可能的是将每个上文描述的操作布置置于程序中使得它可以由计算机执 行并且程序由故障原因提取装置10(该装置是用于直接执行上文描述的步骤的计算机)执 行。

[0131] 接着将描述本发明第一示例实施例的特征配置。图21是示出了本发明第一示例 实施例的特征配置的框图。

[0132] 故障原因提取装置10包括存储单元12和相关性破坏传播检测单元25。

[0133] 存储单元12存储包括一个或者多个相关性函数(每个相关性函数基于包括系统 中的多个性能值类型的性能信息的时间序列生成,并且将用于作为输入的类型之一的性能 值变换成作为输出的另一类型的性能值)的相关性模型。

[0134] 相关性破坏传播检测单元25基于基点传播函数的数目计算用于作为类型之一的 基点的性能值对系统的影响程度,基点传播函数是用来将用于基点的性能值变换成用于如 下其它类型之一的性能值的相关性函数,该其它类型之一可从基点直接或者间接变换并且 不是相关性函数的输入。

[0135] 根据本发明的第一示例实施例,当有相关性破坏的传播时,有可能准确检测作为 故障的可能原因的要素。这是因为相关性破坏传播检测单元25计算在相关性模型中的任 意要素对检测到相关性破坏的相关性施加的影响程度并且异常计算单元26基于影响程度 针对相关性模型中的任意要素计算异常程度。

[0136] 另外有可能通过提取作为将来异常的可能原因的要素(即使异常目前尚未明显 出现)来采取措施(比如设备加强)。

[0137] 另外根据本发明的第一示例实施例,有可能向管理员清楚呈现视为故障的可能原 因的要素通过相关性对相关性破坏施加的影响。这是因为可以在相关性图表上容易地可视 化相关性破坏的传播。

[0138] (第二示例实施例)

[0139] 在根据第二示例实施例的故障原因提取装置510中,故障原因提取装置10的相关 性破坏传播检测单元525还包括用于计算最大影响程度的功能。最大影响程度是关于在相 关性模型中的任意要素计算的影响程度的最大值。

[0140] 利用这一功能,即使未检测到相关性破坏,仍然有可能在故障原因提取系统1中 模拟和提取作为可能弱点的要素。

[0141] 下文将更具体描述这一点。

[0142] 图15是示出了用于根据本发明第二示例实施例的整个故障原因提取系统501的 示意配置例子的说明图,该系统501包括故障原因提取装置510。通过用故障原因提取装 置510替换在第一示例实施例中描述的故障原因提取系统1中的故障原因提取装置10来 获得根据第二示例实施例的故障原因提取系统501。受监视的计算机2A、2B、2C、…和网络 3与在第一示例实施例中的计算机和网络相同。

[0143] 图16是示出了根据本发明第二示例实施例的故障原因提取装置510和受监视的 计算机2的配置的说明图。图17是示出了在图16中呈现的故障原因提取装置510执行的 处理流程的说明图。在第二示例实施例中的相关性破坏传播检测单元525的操作与在第一 示例实施例中的相关性破坏传播检测单元25的操作不同。下文将描述不同点。

[0144] 图18是示出了根据本发明第二示例实施例的故障原因提取装置510中的处理例 子的流程图。这里,在第二示例实施例中用于根据在正常操作状态中的性能信息生成相关 性模型的操作(步骤S11)与在图10中呈现的第一示例实施例中的故障原因提取装置10 的操作相同。然而在第二示例实施例中未实施关于在操作期间性能信息的后续相关性破坏 检测(图10中的步骤S12)。在第二示例实施例中,关于生成的相关性模型,相关性破坏传 播检测单元525计算每个要素的总相关性传播作为该要素的最大影响程度(假设相关性被 破坏并且其破坏程度对于每对要素为1)(步骤S23)。故障原因提取装置510除了该操作之 外还可以执行与图10中所示操作相似的操作。

[0145] 图19是示出了用于在图18中指示为步骤S23的相关性破坏传播分析的具体处理 例子的流程图。相关性破坏传播检测单元525取回在图18中的步骤Sll生成的相关性模 型信息数据32 (步骤S601)并且判断在所述相关性模型中是否留有任何未分析的要素(步 骤S602)。如果未留有未分析的要素(步骤S602/否),则相关性破坏传播检测单元525经 由管理员交互单元28向管理员表示目前为止的最大影响程度和在处理中的影响范围并且 结束处理。

[0146] 如果留有任何未分析的要素(步骤S602/是),则关于相关性模型中的作为基点 的一个或者多个要素中的任何要素并且假设η (检测到相关性破坏的相关性的集合)的值 和m(相关性的集合)的值与在上文描述的表达式1中的值相同并且也假设对于每个相关 性破坏破坏程度为1,相关性破坏传播检测单元525使用以下表达式(3)来计算如下最大影 响程度Fmax,该最大影响程度是针对该要素计算的最大总相关性破坏传播(影响程度)。

[0147]

Figure CN102713862BD00171

[0148] 图20是示出了在图19中的步骤S604呈现的最大影响程度计算概念的说明图。 在图20中,要素 A影响与从B到G的要素有关的相关性,要素 H影响与从I到Q的要素有 关的相关性。因此,要素 H比要素 A在更广的范围(更多要素)上影响相关性,因而具有更 高的最大影响程度值。注意在图20中所示例子中,如在等式1和2中那样将衰减率定义为 dump ⑴=0· 5~ (hop ⑴-1) 〇

[0149] 根据本发明的第二示例实施例,通过计算最大影响程度(假设在相关性模型中的 每个相关性被破坏),有可能在实际检测到相关性破坏之如在故障原因提取系统501中丰旲 拟和提取作为可能弱点的要素。在故障原因提取系统501的相关性模型中可能有相关性从 要素 A到要素 B存在、但是从要素 B到要素 A不存在的情况以及从一开始就无相关性存在于 要素之间的情况。由于这一点,即使当每个相关性被破坏,并且将破坏程度视为1时,由于 基点要素的影响而检测到相关性破坏的范围不同,因而最大影响程度从要素到要素不同。

[0150] 此外,通过对在这一处理中计算的最大影响程度进行排列,有可能容易提取哪个 要素在故障时对整个故障原因提取系统501施加大的影响。因而变得容易关于提取的要素 采取措施(包括加强系统的处理能力和改变系统配置)。

[0151] 尽管已经参照本发明的示例实施例具体示出和描述了本发明,但是本发明不限于 这些实施例。本领域普通技术人员将理解,可以在其中做出形式和细节上的各种改变而未 脱离如权利要求限定的本发明的精神实质和范围。

[0152] 本申请基于通过引用将公开内容整体结合于此、于2010年2月15日提交的第 2010-030071号日本专利申请并且要求该日本专利申请的优先权。

[0153] 标号列表

[0154] 1和501故障原因提取系统

[0155] 2, 2A,2B和2C受监视的计算机

[0156] 3 网络

[0157] 10和510故障原因提取装置

[0158] 11和51主操作控制单元

[0159] 12和52存储单元

[0160] 13和53通信单元

[0161] 14输入/输出单元

[0162] 22性能信息积累单元

[0163] 23相关性模型生成单元

[0164] 24相关性分析单元

[0165] 25和525相关性破坏传播检测单元

[0166] 26异常计算单元

[0167] 27故障分析单元

[0168] 28管理员交互单元

[0169] 31正常状态性能信息数据

[0170] 32相关性模型信息数据

[0171] 33相关性破坏信息数据

[0172] 34分析设置信息数据

[0173] 61服务执行单元

[0174] 62信息收集单元

[0175] 63对策执行单元

Claims (10)

1. 一种故障原因提取装置,包括: 存储单元,存储包括一个或者多个相关性函数的相关性模型,每个相关性函数基于包 括系统中的多个性能值类型的性能信息时间序列来生成并且将用于作为输入的所述类型 之一的性能值变换成用于作为输出的所述类型中的另一类型的性能值,以及 相关性破坏传播检测单元,基于基点传播函数的数目计算用于作为所述类型之一的基 点的性能值对所述系统的影响程度,所述基点传播函数是用来将用于所述基点的性能值变 换成用于其它所述类型之一的性能值的所述相关性函数,其它所述类型之一可从所述基点 直接或者间接变换并且不是所述相关性函数的输入。
2. 根据权利要求1所述的故障原因提取装置,还包括:相关性分析单元,向所述相关性 模型中应用输入的性能信息并且针对在所述相关性模型中包括的每个所述相关性函数检 测是否有相关性破坏,其中 所述相关性破坏传播检测单元基于检测到所述相关性破坏的所述基点传播函数的数 目计算所述影响程度。
3. 根据权利要求2所述的故障原因提取装置,其中: 所述相关性破坏传播检测单元将代表所述相关性破坏的程度的破坏程度乘以针对其 检测到所述相关性破坏的每个所述基点传播函数的衰减率并且通过对已经与所述衰减率 相乘的各个所述破坏程度求和来计算所述影响程度,所述衰减率根据所述基点传播函数在 从用于所述基点的性能值向用于作为所述基点传播函数的输出的所述类型的性能值的变 换过程中的应用顺序而减小。
4. 根据权利要求3所述的故障原因提取装置,还包括:异常计算单元,通过将针对所述 基点计算的所述影响程度除以针对相应的所述基点传播函数计算的所述衰减率之和来计 算所述基点的异常程度。
5. 根据权利要求1所述的故障原因提取装置,其中: 所述相关性破坏传播检测单元计算用于每个所述基点传播函数的衰减率并且通过求 和所述衰减率来计算所述影响程度,所述衰减率根据所述基点传播函数在从用于所述基点 的性能值向用于作为所述基点传播函数的输出的所述类型的性能值的变换过程中的应用 顺序而减小。
6. -种故障原因提取方法,包括: 存储包括一个或者多个相关性函数的相关性模型,每个相关性函数基于包括系统中的 多个性能值类型的性能信息时间序列来生成并且将用于作为输入的所述类型之一的性能 值变换成用于作为输出的所述类型中的另一类型的性能值,并且 基于基点传播函数的数目计算用于作为所述类型之一的基点的性能值对所述系统的 影响程度,所述基点传播函数是用来将用于所述基点的性能值变换成用于其它所述类型之 一的性能值的所述相关性函数,其它所述类型之一可从所述基点直接或者间接变换并且不 是所述相关性函数的输入。
7. 根据权利要求6所述的故障原因提取方法,还包括:向所述相关性模型中应用输入 的性能信息并且针对在所述相关性模型中包括的每个所述相关性函数检测是否有相关性 破坏,其中 所述计算影响程度基于检测到所述相关性破坏的所述基点传播函数的数目计算所述 影响程度。
8. 根据权利要求7所述的故障原因提取方法,其中: 所述计算影响程度将代表所述相关性破坏的程度的破坏程度乘以针对其检测到所述 相关性破坏的每个所述基点传播函数的衰减率并且通过对已经与所述衰减率相乘的各个 所述破坏程度求和来计算所述影响程度,所述衰减率根据所述基点传播函数在从用于所述 基点的性能值向用于作为所述基点传播函数的输出的所述类型的性能值的变换过程中的 应用顺序而减小。
9. 根据权利要求8所述的故障原因提取方法,还包括:通过将针对所述基点计算的所 述影响程度除以针对相应的所述基点传播函数计算的所述衰减率之和来计算所述基点的 异常程度。
10. 根据权利要求6所述的故障原因提取方法,其中: 所述计算影响程度计算用于每个所述基点传播函数的衰减率并且通过求和所述衰减 率来计算所述影响程度,所述衰减率根据所述基点传播函数在从用于所述基点的性能值向 用于作为所述基点传播函数的输出的所述类型的性能值的变换过程中的应用顺序而减小。
CN201180005711.2A 2010-02-15 2011-01-14 故障原因提取装置、故障原因提取方法和程序记录介质 CN102713862B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010030071 2010-02-15
JP2010-030071 2010-02-15
PCT/JP2011/051031 WO2011099341A1 (ja) 2010-02-15 2011-01-14 障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体

Publications (2)

Publication Number Publication Date
CN102713862A CN102713862A (zh) 2012-10-03
CN102713862B true CN102713862B (zh) 2015-12-02

Family

ID=44367627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180005711.2A CN102713862B (zh) 2010-02-15 2011-01-14 故障原因提取装置、故障原因提取方法和程序记录介质

Country Status (5)

Country Link
US (2) US8719636B2 (zh)
EP (1) EP2538332B1 (zh)
JP (1) JP5418610B2 (zh)
CN (1) CN102713862B (zh)
WO (1) WO2011099341A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011155621A1 (ja) * 2010-06-07 2011-12-15 日本電気株式会社 障害検出装置、障害検出方法およびプログラム記録媒体
US8874963B2 (en) * 2010-12-20 2014-10-28 Nec Corporation Operations management apparatus, operations management method and program thereof
US9389946B2 (en) * 2011-09-19 2016-07-12 Nec Corporation Operation management apparatus, operation management method, and program
WO2013111560A1 (ja) * 2012-01-23 2013-08-01 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
CN104769551B (zh) * 2012-11-01 2018-07-03 日本电气株式会社 分布式数据处理系统和分布式数据处理方法
JP5971395B2 (ja) * 2013-02-18 2016-08-17 日本電気株式会社 システム分析装置、及び、システム分析方法
EP3144815A4 (en) * 2014-05-16 2018-01-17 Nec Corporation Information processing device, analysis method, and recording medium
JP6366091B2 (ja) * 2014-06-13 2018-08-01 日本電気株式会社 ミスアライメント検知装置、方法、およびプログラム
US10176033B1 (en) * 2015-06-25 2019-01-08 Amazon Technologies, Inc. Large-scale event detector
US10037025B2 (en) * 2015-10-07 2018-07-31 Business Objects Software Ltd. Detecting anomalies in an internet of things network
US10062843B2 (en) * 2015-12-11 2018-08-28 Samsung Electronics Co., Ltd. Variable resistive memory device and method of manufacturing the same
US10152363B2 (en) * 2016-03-16 2018-12-11 Microsoft Technology Licensing, Llc Identifying potential computer system problems using machine learning techniques
WO2019236119A1 (en) * 2018-06-07 2019-12-12 Hewlett-Packard Development Company, L.P. Evaluation of a performance parameter of a monitoring service

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1682196A (zh) * 2002-09-11 2005-10-12 国际商业器公司 分布式系统中的识别根原因和确定问题的方法和设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2855590B2 (ja) 1991-07-26 1999-02-10 日本電信電話株式会社 相関関係解析装置
JPH09307550A (ja) 1996-05-10 1997-11-28 Hitachi Ltd ネットワークシステム監視装置
JPH10257054A (ja) 1997-03-11 1998-09-25 Sumitomo Electric Ind Ltd Network management device and network management method
US7020802B2 (en) * 2002-10-17 2006-03-28 Sun Microsystems, Inc. Method and apparatus for monitoring and recording computer system performance parameters
JP2007227481A (ja) 2006-02-21 2007-09-06 Nec Electronics Corp 不良原因解析方法
JP4859558B2 (ja) * 2006-06-30 2012-01-25 株式会社日立製作所 コンピュータシステムの制御方法及びコンピュータシステム
US7770072B2 (en) * 2007-01-16 2010-08-03 Xerox Corporation Method and system for analyzing time series data
WO2008114863A1 (ja) * 2007-03-22 2008-09-25 Nec Corporation 診断装置
JP4872945B2 (ja) 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP4872944B2 (ja) * 2008-02-25 2012-02-08 日本電気株式会社 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP5428372B2 (ja) * 2009-02-12 2014-02-26 日本電気株式会社 運用管理装置および運用管理方法ならびにそのプログラム
US8060782B2 (en) * 2010-03-01 2011-11-15 Microsoft Corporation Root cause problem identification through event correlation
US8874963B2 (en) * 2010-12-20 2014-10-28 Nec Corporation Operations management apparatus, operations management method and program thereof

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1682196A (zh) * 2002-09-11 2005-10-12 国际商业器公司 分布式系统中的识别根原因和确定问题的方法和设备

Also Published As

Publication number Publication date
EP2538332A1 (en) 2012-12-26
JPWO2011099341A1 (ja) 2013-06-13
JP5418610B2 (ja) 2014-02-19
EP2538332B1 (en) 2020-04-01
US20140325276A1 (en) 2014-10-30
US20120030522A1 (en) 2012-02-02
US8719636B2 (en) 2014-05-06
CN102713862A (zh) 2012-10-03
EP2538332A4 (en) 2015-08-12
US9274869B2 (en) 2016-03-01
WO2011099341A1 (ja) 2011-08-18

Similar Documents

Publication Publication Date Title
US9864676B2 (en) Bottleneck detector application programming interface
Olague et al. Empirical validation of three software metrics suites to predict fault-proneness of object-oriented classes developed using highly iterative or agile software development processes
Shyur A stochastic software reliability model with imperfect-debugging and change-point
US9672085B2 (en) Adaptive fault diagnosis
CN104205063B (zh) 操作管理装置、操作管理方法和程序
CA2545695C (en) Method and system for predicting remaining life for motors featuring on-line insulation condition monitor
Louit et al. A practical procedure for the selection of time-to-failure models based on the assessment of trends in maintenance data
US7243049B1 (en) Method for modeling system performance
Bompard et al. Extended topological metrics for the analysis of power grid vulnerability
US6834256B2 (en) Method and system for determining motor reliability
Catal Performance evaluation metrics for software fault prediction studies
Welte Using state diagrams for modeling maintenance of deteriorating systems
US7890813B2 (en) Method and apparatus for identifying a failure mechanism for a component in a computer system
Zimmermann et al. Predicting subsystem failures using dependency graph complexities
JP2017004509A (ja) Advanced analysis infrastructure for machine learning
JP6394726B2 (ja) 運用管理装置、運用管理方法、及びプログラム
US20150205691A1 (en) Event prediction using historical time series observations of a computer application
CN102713861B (zh) 操作管理装置、操作管理方法以及程序存储介质
US9921937B2 (en) Behavior clustering analysis and alerting system for computer applications
JP4859558B2 (ja) コンピュータシステムの制御方法及びコンピュータシステム
EP2943843A1 (en) Method, device and computer program for monitoring an industrial control system
JP2009199533A (ja) 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
Correcher et al. Intermittent failure dynamics characterization
US8255100B2 (en) Data-driven anomaly detection to anticipate flight deck effects
CN103443727B (zh) 异常检测系统以及异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
C06 Publication
SE01 Entry into force of request for substantive examination
C10 Entry into substantive examination
GR01 Patent grant
C14 Grant of patent or utility model