CN102473129A - 输出表示与故障的根本原因对应的恢复方法的信息的管理系统 - Google Patents

输出表示与故障的根本原因对应的恢复方法的信息的管理系统 Download PDF

Info

Publication number
CN102473129A
CN102473129A CN2009801609654A CN200980160965A CN102473129A CN 102473129 A CN102473129 A CN 102473129A CN 2009801609654 A CN2009801609654 A CN 2009801609654A CN 200980160965 A CN200980160965 A CN 200980160965A CN 102473129 A CN102473129 A CN 102473129A
Authority
CN
China
Prior art keywords
mentioned
information
rule
incident
fault record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009801609654A
Other languages
English (en)
Other versions
CN102473129B (zh
Inventor
伊藤惇
红山伸夫
沟手裕二
黑田泽希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of CN102473129A publication Critical patent/CN102473129A/zh
Application granted granted Critical
Publication of CN102473129B publication Critical patent/CN102473129B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Abstract

管理服务器,具有针对有可能在多个节点装置中发生的事件来确定成为根本原因的事件的元规则、与元规则对应的故障恢复方法,显示成为管理服务器所检测到的事件的根本原因的原因事件,并且显示从该原因事件恢复的恢复方法。

Description

输出表示与故障的根本原因对应的恢复方法的信息的管理系统
技术领域
本发明涉及表示从故障的恢复方法的信息的输出。
背景技术
伴随着现在的因特网商务的规范化,由于系统的故障造成的服务停止所带来的企业信用力降低或机会损失的问题越来越大。因此,希望从故障迅速地恢复。
作为用于支持确定恢复方法的系统,例如有专利文献1所揭示的故障履历数据库系统。系统管理者将在监视对象节点中发生的故障和使其从故障恢复的方法作为故障履历,登记在该数据库系统中。数据库系统保存多个故障履历。监视对象节点的管理者(以下有时称为“系统管理者”)在发生了新的故障的情况下,输入希望的关键字。数据库系统从多个故障履历中检索符合所输入的关键字的故障履历。
另一方面,为了对监视对象节点的运转状况进行监视,有监视系统。监视系统从该监视对象节点作为事件而接受监视对象节点的运转状态的变化(例如对盘装置的输入输出(I/O)的错误、以及处理器的吞吐量降低)。系统管理者利用消息、告警灯来接受该事件,由此了解该事件的内容。管理者根据该事件的内容了解该监视对象节点的故障(例如服务的停止、性能降低),预测该故障的根本原因。
另外,作为预测故障的根本原因的技术,有Root Cause Analysis(根本原因分析,以后称为RCA)。监视系统将事件群和根本原因的组合作为规则而预先保存,在接收到事件的情况下,根据包含该事件的规则,推测该事件的根本原因。
根据专利文献2,针对所产生的事件是已知的情况和未知的情况的各种情况,计算失调量(inconsistency),在推测故障的根本原因时考虑计算出的失调量。
根据专利文献3,构筑表示监视对象节点之间的环境的相关性的信息。在推测故障的根本原因时,根据该信息确定在某监视对象节点中发生的故障对哪个监视对象节点产生影响。
现有技术文献
专利文献
专利文献1:日本特开2009-43029号公报
专利文献2:日本特开2006-526842号公报
专利文献3:美国专利第7,478,404号说明书
非专利文献
非专利文献1:Frederick Hayes-Roth,“Rule-Based systems”,Communications of the ACM Sept.1985,page921-932
发明内容
发明要解决的课题
但是,在专利文献1~3的任意一个技术中,系统管理者都无法迅速地确定故障的适当的恢复方法。
例如,假设监视对象节点是具有开关A、与开关A连接的通信接口装置(通信I/F)的服务器A,服务器A经由开关A对存储装置进行I/O,在服务器A所具有的通信I/F(例如NIC(网络接口卡,Network Interface Card))中发生了故障。由于该故障,发生了服务器A的I/O吞吐量达到异常值的第一事件、和开关A的网络通信量达到了异常值的第二事件。监视系统检测包含第一事件和第二事件的事件群。该事件群的内容被发送到系统管理者。假设此时在故障履历数据库系统中虽然未存储相同事件,但存储有类似事件。“相同事件”是指包含有表示与所发生的故障(相当于事件群的故障)相同的故障的信息的故障履历。“类似事件”是指包含有表示与所发生的故障不同的故障的信息、但包含有表示与从所发生的故障的恢复方法相同的恢复方法的信息的故障履历。
根据专利文献1,在检索故障履历时使用了系统管理者所希望的关键字。因此,在使用关键字之后有可能不命中目标故障履历、或者命中很多无关的故障履历。
根据专利文献2,在检索查询到故障的根本原因的情况下,有可能虽然命中了相同事件,但不命中类似事件。
根据专利文献3,在检索查询到发生了作为根本原因的故障的监视对象节点、或因受到该故障影响的监视对象节点的情况下,有可能命中很多无关的故障履历。
因此,本发明的目的在于:使得系统管理者能够迅速地确定与故障的根本原因对应的适当的恢复方法。
用于解决课题的手段
管理服务器,具有对于在多个节点装置中可能产生的事件,确定作为根本原因的事件的元规则、以及与元规则对应的故障恢复方法,在显示作为管理服务器检测到的事件的根本原因的原因事件的同时,显示从该原因事件的恢复方法。另外,恢复方法也可以是由利用管理服务器的管理者输入的、根据在从上述多个节点装置中发生的故障恢复时使用的恢复方法而作成或更新了的信息。
附图说明
图1是表示实施例1的计算机系统的结构的框图。
图2是表示管理服务器的结构的框图。
图3是表示显示用计算机的结构的框图。
图4是表示服务器信息的结构的框图。
图5是表示开关信息的结构的框图。
图6是表示存储装置信息的结构的框图。
图7是表示拓扑信息的结构的框图。
图8是表示元RCA规则信息的结构的框图。
图9是表示展开RCA规则信息的结构的框图。
图10是表示事件信息的结构的框图。
图11是表示故障分析上下文的结构的框图。
图12A是表示故障履历登记项的结构的框图。
图12B是表示服务器权重信息的结构的框图。
图12C是表示开关权重信息的结构的框图。
图12D是表示存储装置权重信息的结构的框图。
图13是用于作成展开RCA规则的流程图。
图14是用于决定根本原因候补及其确信度的流程图。
图15是用于作成故障分析上下文的流程图。
图16是用于选择根本原因的流程图。
图17是用于登记故障履历的流程图。
图18A是用于进行故障分析上下文的匹配的流程图。
图18B是表示图18A的步骤1026的细节的流程图。
图18C是表示图18B的步骤1031的细节的流程图。
图18D是表示图18B的步骤1034的细节的流程图。
图18E是表示故障分析上下文的匹配的概要的图。
图18F是表示图18B的步骤1035的细节的流程图。
图18G是表示故障分析上下文的匹配的概要的图。
图19表示候补/确信度画面的一个例子。
图20表示故障履历的检索结果画面的一个例子。
图21表示故障履历的登记画面的一个例子。
图22A表示实施例2中显示的元恢复方法登记画面的一个例子。
图22B表示元恢复方法登记画面中的显示区域e13的另一个例子。
图23表示实施例2中显示的候补/确信度画面的一个例子。
图24A表示匹配程度比较画面的第一例子。
图24B表示匹配程度比较画面的第二例子。
具体实施方式
以下,说明本发明的几个实施例。
实施例1
<1-0:实施例1的计算机系统等的结构>
图1是与本发明的实施例1的计算机系统1的结构有关的框图。
计算机系统1具备管理服务器10、显示用计算机20、监视对象节点30。另外,管理服务器10、显示用计算机20、监视对象节点30分别图示一台,但也可以具备任意台。
监视对象节点30是由管理服务器10管理的装置。另外,作为监视对象节点20的一个例子,考虑服务器计算机、存储装置(例如具有RAID结构的盘阵列装置)、网络开关(例如FC(光纤通道)开关、路由器)、代理服务器等,但也可以是其他装置。
管理服务器10是管理一个以上的监视对象节点30的计算机。
显示用计算机20是具有用于显示从管理服务器10输出的信息的显示画面的计算机。
管理服务器10、显示用计算机20、监视对象节点30经由网络50相互连接。另外,将管理服务器10和显示用计算机20连接起来的网络50、和将管理服务器10和监视对象节点30连接起来的网络50是同一个网络,但也可以是不同的网络。
另外,管理服务器10和显示用计算机20也可以是一体的。也可以由多个计算机构成管理服务器10,由这些多个计算机具有管理服务器10所具有的功能。另外,在以后的说明中,有时将构成管理服务器10和显示用计算机20的一个以上的计算机记载为“管理系统”。在管理服务器10显示显示用信息的情况下,管理计算机是管理系统,另外,管理服务器10与显示用计算机20的组合也是管理系统。
图2表示管理服务器10的结构。
管理服务器10是具备存储器110、存储器接口161、处理器140和网络接口150的计算机。存储器接口161、处理器140和网络接口150通过内部网络(例如总线)160相互连接。
处理器140经由存储器接口161对存储器110进行存取。处理器140通过执行存储在存储器110中的程序来进行各种处理。在以后的说明中,有时以“程序”作为主语进行说明,但程序通过由处理器140进行执行,从而一边使用存储器110和网络接口150一边进行规定的处理,因此,也可以以处理器140为主语进行说明。另外,以程序作为主语揭示的处理也可以是由管理服务器10等计算机进行的处理。另外,程序的一部分或全部也可以通过专用的硬件来实现。
另外,也可以将各种程序从程序源(例如程序发布服务器、或计算机可读存储介质(例如可移动型介质))安装到各计算机中。
在存储器110中存储由处理器140执行的程序、以及处理器140所必需的信息等。具体地说,例如,在存储器110中存储服务器信息111、开关信息112、存储装置信息113、拓扑信息114、元RCA规则信息115、展开RCA规则信息116、事件信息117、故障履历信息119、拓扑应用程序121、规则匹配分析程序122、生成程序123、上下文匹配分析程序124、以及故障履历管理程序125。进而,在存储器110中存储应用程序(以下称为AP)131以及OS(操作系统)132。
AP131是执行各种处理的程序。例如,AP117提供数据库管理功能或WEB服务器功能。OS132是控制管理服务器10的处理的全体的程序。
服务器信息111是用于对作为一种监视对象节点的服务器的结构信息进行管理的信息。
开关信息112是用于对作为一种监视对象节点的开关的结构信息进行管理的信息。
存储装置信息113是用于对作为一种监视对象节点的存储装置的结构信息进行管理的信息。
拓扑信息114是用于对作为监视对象节点的服务器、开关以及存储装置的连接结构(拓扑)信息进行管理的信息。
元RCA规则信息115是用于对元RCA规则进行管理的信息。另外,将在后述的<1-1:用语定义>中详细说明元RCA规则。
展开RCA规则信息116是用于对展开RCA规则进行管理的信息。另外,将在后述的<1-1:用语定义>中详细说明展开RCA规则。
事件信息117是对在监视对象节点中产生的事件的事件记录进行管理的信息。
故障履历信息119由一个以上的故障履历登记项构成。一个故障履历登记项包含表示过去发生的故障的原因的信息、表示恢复方法的信息、故障分析上下文。也可以至少将故障履历信息119存储在外部的存储资源(例如外部的存储装置)中。在该情况下,处理器140能够经由网络接口150访问故障履历信息119。
拓扑应用程序121使用元RCA规则信息115、服务器信息111、开关信息112、存储装置信息113和拓扑信息114,作成展开RCA规则信息116。
规则匹配分析程序122使用展开RCA规则信息116和事件信息117,确定与事件信息117相关联的元RCA规则信息115、展开RCA规则信息116和确信度。
生成程序123使用元RCA规则信息115、展开RCA规则信息116、服务器信息111、开关信息112、存储装置信息113和拓扑信息114,生成故障分析上下文。
上下文匹配分析程序124对所生成的故障分析上下文和各故障履历登记项内的故障分析上下文进行匹配。
故障履历管理程序125生成包含所生成的故障分析上下文、表示恢复方法的信息、表示所发生的故障的内容的信息的故障分析上下文,并将故障分析上下文包含在故障履历信息119中。
网络接口150经由网络50与其他计算机(例如监视对象节点)进行数据的发送接收。
另外,存储在存储器110中的各种程序并不一定必须是不同的程序代码,也可以由一个以上的程序代码执行程序的处理。
另外,也可以采用其他种类的存储资源(存储装置)来代替存储器110。
另外,管理服务器10也可以具有输入输出装置。作为输入输出装置的例子,可以考虑显示器、键盘和指点设备,但也可以是除此以外的装置。另外,作为输入输出装置的替代,也可以将串行接口、以太网接口作为输入输出装置,使具有显示器、键盘或指点设备的显示用计算机与该接口连接,将显示用信息发送到显示用计算机,或者从显示用计算机接收输入用信息,由此,通过用显示用计算机进行显示或者接受输入,来代替输入输出装置的输入和显示。
图3表示显示用计算机20的结构。
显示用计算机20具有存储器210、处理器240、网络接口250和输入输出装置260(例如图2所示那样的存储器接口,省略了图示)。存储器210、处理器240、网络接口250和输入输出装置260通过内部网络270相互连接。
处理器240通过执行存储在存储器210中的程序来进行各种处理。
在存储器210中存储由处理器240执行的程序、以及处理器240所需要的信息等。具体地说,例如,在存储器210中存储画面显示程序211。进而,在存储器210中存储应用程序(以下称为AP)221和OS(操作系统)222。AP221是实现各种处理的程序。例如,AP221提供WEB客户端功能。OS222是控制显示用计算机20的处理的全体的程序。
画面显示程序211是在输入输出装置260、例如显示器装置上显示信息的程序。
网络接口250经由网络50与其他计算机(例如管理服务器10)进行数据的发送接收。
作为输入输出装置260的例子,考虑显示器、键盘和指点设备,但也可以是除此以外的装置。另外,作为输入输出装置260的替代,也可以将串行接口、以太网接口作为输入输出装置,使具有显示器、键盘或指点设备的显示用计算机与该接口连接。显示用计算机20也可以从管理服务器10接收显示用信息,或者向管理服务器10发送输入用信息。
另外,管理服务器10也可以具有第一计算机和第二计算机,第一计算机执行拓扑应用程序121、规则匹配分析程序122以及生成程序123,第二计算机执行上下文匹配分析程序124以及故障履历管理程序125。在该情况下,也可以是第一计算机具有服务器信息111、开关信息121、存储装置信息113、拓扑信息114、元RCA规则信息115和展开RCA规则信息116,第二计算机具有事件信息117和故障履历信息119。
<1-1用语定义>
以下,记述在实施例的说明中使用的用语的意义。
“事件”是在监视对象节点30中发生的运转状态的变化的事件。
“事件记录”是用于确定事件的信息。事件记录例如包含作为表示事件的种类的信息的事件类型、发生源的监视对象节点30的标识符、表示事件的内容的信息、表示事件的发生日期时间的信息。对于每一个事件有一个事件记录。
“RCA”是根本原因分析(Root Cause Analysis)的略称,是用于根据监视对象节点(例如服务器、开关、存储装置)的事件记录,确定作为事件的根本原因的监视对象节点的功能。
“元RCA规则”是定义某故障和由于该故障而设想会发生的事件群的规则。由RCA使用。通过使用元RCA规则,能够根据事件群导出成为其根本原因的故障。元RCA规则是不包含表示由一个以上的监视节点构成的拓扑的拓扑信息的信息(元信息)。
“展开RCA规则”是对每个监视对象节点展开了元RCA规则而得的规则。由RCA使用。
“故障分析上下文”是在分析故障时使用的信息。故障分析上下文与元RCA规则信息115内的记录、展开RCA规则信息116内的记录、服务器信息111内的记录、开关信息112内的记录、存储装置信息113内的记录、以及拓扑信息114内的记录相关联。将在后面参照图11详细说明。
<1-2:管理服务器所具有的信息>
以下,说明各种信息,这时使用了“标识符”、“名”、“ID”这样的表现形式,但它们是可以相互置换的识别信息。
<1-2-1:服务器信息>
图4是表示服务器信息111的图。
服务器信息111是对于每一个服务器具有一个记录(以下称为服务器记录)的表。服务器记录是作为属性值而具有服务器ID501、服务器名502、服务器的供应商503、服务器的IP地址504、服务器的OS505、以及服务器的连续运转时间506的一个记录。以下,采用一个服务器(以下在图4的说明中称为“对象服务器”)作为例子,来说明信息要素501~506。
服务器ID501是拓扑应用程序121向作为监视对象节点30的对象服务器分配的标识符。
服务器名502是对象服务器所具有的计算机名。
服务器的供应商503是对象服务器所具有的制造商名。
服务器的IP地址504是在网络上对象服务器被分配的标识符。
服务器的OS505是安装在对象服务器中的OS名。
服务器的连续运转时间506是从对象服务器最后启动到现在为止的连续的运转时间。
另外,服务器信息111只要具有与服务器相关的属性值,也可以是表以外的数据构造,也可以具有以上所述的属性值以外的属性值。另外,服务器信息111也可以不具有服务器ID501以外的至少一个属性值。
<1-2-2:开关信息>
图5是表示开关信息112的图。
开关信息112是对于每一个开关具有一个记录(以下称为开关记录)的表。开关记录是将开关ID511、开关名512、开关的供应商513、开关的IP地址514、开关的类型515以及开关的连续运转时间516作为属性值的记录。以下,采用一个开关(以下在图5的说明中称为“对象开关”)作为例子,说明信息要素511~516。
开关ID511是拓扑应用程序121对作为监视对象节点30的对象开关分配的标识符。
开关名512是对象开关所具有的计算机名。
开关的供应商513是对象开关所具有的制造者名。
开关的IP地址514是在网络上对象开关被分配的标识符。
开关的类型515是对象开关的设备种类名。
开关的连续运转时间516是从对象开关最后启动到现在的连续的运转时间。
另外,开关信息112只要具有与开关有关的属性值,也可以是表以外的数据构造,也可以具有上述记载的属性值以外的属性值。另外,开关信息112也可以不具有开关ID511以外的至少一个属性值。
<1-2-3:存储装置信息>
图6是表示存储装置信息113的图。
存储装置信息113是对于每一个存储装置具有一个记录(以下称为存储装置记录)的表。存储装置记录是作为属性值具有存储装置ID521、存储装置名522、存储装置的供应商523、存储装置的IP地址524、存储装置的固件525以及存储装置的连续运转时间526的记录。以下,采用一个存储装置(以下在图6的说明中称为“对象存储装置”)作为例子,来说明信息要素521~526。
存储装置ID521是拓扑应用程序121向作为监视对象节点30的对象存储装置分配的标识符。
存储装置名522是对象存储装置所具有的计算机名。
存储装置的供应商523是对象存储装置所具有的制造商名。
存储装置的IP地址524是在网络上对象存储装置被分配的标识符。
存储装置的固件525是安装在对象存储装置中的固件名。
存储装置的连续运转时间526是从对象存储装置最后启动到现在为止的连续的运转时间。
另外,存储装置信息113只要具有与存储装置相关的属性值,也可以是表以外的数据构造,也可以具有以上所述的属性值以外的属性值。另外,存储装置信息111也可以不具有存储装置ID521以外的至少一个属性值。
<1-2-4:拓扑信息>
图7是表示拓扑信息114的图。
拓扑信息114是对于每一个拓扑结构具有一个记录(以下称为拓扑记录)的表。拓扑记录是作为属性值具有拓扑ID531、服务器ID532、开关ID533以及存储装置ID534的记录。以下,采用一个拓扑结构(以下在图7的说明中称为“对象拓扑”)作为例子,来说明信息要素531~534。
拓扑ID531是对象拓扑结构的标识符。“拓扑结构”是指监视对象节点30之间的连接形式,换言之,是监视对象节点30的组合。具体地说,作为拓扑结构,定义监视对象节点的种类和排列。
服务器ID532是对象拓扑结构所具有的服务器的服务器ID501。
开关ID533是对象拓扑结构所具有的开关的开关ID511。
存储装置ID534是对象拓扑结构所具有的存储装置的存储装置ID521。
另外,拓扑信息114只要具有与监视对象节点30的连接形式相关的属性值,也可以是表以外的数据构造,也可以具有以上记载的属性值以外的属性值。在本实施例中,拓扑结构典型的是服务器(计算机)经由开关(网络开关)与存储装置连接的连接形式。根据这样的拓扑结构,服务器发出指定了从存储装置提供的逻辑卷的I/O指令(写指令或者读指令)。I/O指令经由开关而到达存储装置。存储装置按照该I/O指令,对由该指令指定的逻辑卷进行I/O。
<1-2-5:元RCA规则信息>
图8是表示元RCA规则信息115的图。
元RCA规则信息115是对于每一个元RCA规则具有一个记录(以下称为元RCA记录)的表。元RCA记录是作为属性值具有元RCA规则ID541、服务器事件542、开关事件543、存储装置事件544、原因节点545以及原因内容546的记录。以下,采用一个元RCA规则(以下在图8的说明中称为“对象元RCA规则”)为例子,说明信息要素541~546。
元RCA规则ID541是规则匹配分析程序122向对象元RCA规则分配的标识符。
服务器事件542是表示对象元RCA规则所具有的服务器中的事件的内容的信息。
开关事件543是表示对象元RCA规则所具有的开关中的事件的内容的信息。
存储装置事件544是表示对象元RCA规则所具有的存储装置中的事件的内容的信息。
原因节点545是表示对象元RCA规则所具有的事件的根本原因即节点的种类的信息。
原因内容546是表示对象元RCA规则所具有的事件的根本原因的内容的信息。原因内容546和所述原因节点545的组合表示事件群的根本原因。
另外,元RCA规则信息115只要具有与元RCA规则相关的属性值,也可以是表以外的数据构造,也可以具有上述记载的属性值以外的属性值。
<1-2-6:展开RCA规则信息>
图9是表示展开RCA规则信息116的图。
展开RCA规则信息116是对于每一个展开RCA规则具有一个记录(以下称为展开RCA记录)的表。展开RCA记录是作为属性值而具有展开RCA规则ID551、元RCA规则ID552、拓扑ID553、原因节点ID554以及原因详情555的记录。以下,采用一个展开RCA规则(以下在图9的说明中称为“对象展开RCA规则”)为例子,说明信息要素551~555。
展开RCA规则ID551是规则匹配分析程序122向对象展开RCA规则分配的标识符。
元RCA规则ID552是对象展开RCA规则所属的元RCA规则所具有的元RCA规则ID541。
拓扑ID553是对象展开RCA规则所属的拓扑结构所具有的拓扑ID531。
原因节点ID554是用于确定成为对象展开RCA规则的根本原因的监视对象节点30的服务器ID501、开关ID511或存储装置ID521。
原因详情555是表示对象展开RCA规则的根本原因的内容的原因内容546。
另外,展开RCA规则信息116只要具有与展开RCA规则相关的属性值,也可以是表以外的数据构造,也可以具有上述记载的属性值以外的属性值。
<1-2-7:事件信息>
图10是表示事件信息117的图。
事件信息117是对于每一个事件具有一个事件记录的表。事件记录是作为属性值具有事件ID561、事件类型562、对象节点类型563、对象节点ID564、事件内容565、发生日期时间566以及状态567的记录。以下,采用一个事件(以下在图10的说明中称为“对象事件”)为例子,说明信息要素561~567。
事件ID561是规则匹配分析程序122向对象事件的事件记录分配的标识符。
事件类型562是表示对象事件的种类的信息。作为事件类型562的具体值,例如有“Critical”、“Warning”、“Information”。
对象节点类型563是表示作为对象事件的发生源的监视对象节点30的节点的种类(例如服务器、开关或存储装置)的信息。
对象节点ID564是表示作为对象事件的发生源的监视对象节点30的服务器ID501、开关ID511或存储装置ID521。
事件内容565是表示对象事件的内容的信息。
发生日期时间566是表示对象事件的发生日期时间的信息。
状态567是表示对象事件是否已经解决的信息。
另外,事件信息117只要具有与事件相关的属性值,也可以是表以外的数据构造,也可以具有上述记载的属性值以外的属性值。另外,事件信息117也可以不具有事件ID551、对象节点ID564、事件内容565以及发生日期时间566以外的至少一个属性值。
<1-2-8:故障分析上下文>
图11是表示故障分析上下文120的图。
故障分析上下文120是作为属性值而具有故障分析上下文ID601、元RCA规则ID602、展开RCA规则ID603、拓扑ID604、服务器ID605、开关ID606以及存储装置ID607的数据。
故障分析上下文ID601是生成程序123对故障分析上下文120分配的标识符。
元RCA规则ID602是用于确定与该故障分析上下文120相关联的元RCA规则的元RCA规则ID541。
展开RCA规则ID603是用于确定与该故障分析上下文120相关联的展开RCA规则的展开RCA规则ID551。
拓扑ID604是用于确定与该故障分析上下文120相关联的拓扑结构的拓扑ID531。
服务器ID605是用于确定与该故障分析上下文120相关联的服务器的服务器ID501。
开关ID606是用于确定与该故障分析上下文120相关联的开关的开关ID511。
存储装置ID607是用于确定与该故障分析上下文120相关联的存储装置的存储装置ID521。
另外,故障分析上下文120也可以具有上述记载的属性值以外的属性值。
<1-2-9:故障履历信息>
图12A是表示故障履历信息119所具有的故障履历登记项1191的图。
故障履历登记项1191是作为属性值而具有故障履历ID701、元RCA规则ID702、展开RCA规则ID703、拓扑ID704、服务器ID705、开关ID706、存储装置ID707、服务器权重ID708、开关权重ID709、存储装置权重ID710、原因711以及恢复方法712的数据。
故障履历ID701是故障履历管理程序125对故障履历登记项1191分配的标识符。
元RCA规则ID702是用于确定与该故障履历登记项1191相关联的元RCA规则的元RCA规则ID541。
展开RCA规则ID703是用于确定与该故障履历登记项1191相关联的展开RCA规则的展开RCA规则ID551。
拓扑ID704是用于确定与该故障履历登记项1191相关联的拓扑结构的拓扑ID531。
服务器ID705是用于确定与该故障履历登记项1191相关联的服务器的服务器ID501。
开关ID706是用于确定与该故障履历登记项1191相关联的开关的开关ID511。
存储装置ID707是用于确定与该故障履历登记项1191相关联的存储装置的存储装置ID521。
服务器权重ID708是用于确定与该故障履历登记项1191相关联的服务器权重记录的服务器权重ID801(参照图12B)。服务器权重记录是服务器权重信息800所具有的记录。
开关权重ID709是用于确定与该故障履历登记项1191相关联的开关权重记录的开关权重ID811(参照图12C)。开关权重记录是开关权重信息810所具有的记录。
存储装置权重ID710是用于确定与该故障履历登记项1191相关联的存储装置权重记录的存储装置权重ID821(参照图12D)。存储装置权重记录是存储装置权重信息8210所具有的记录。
原因711是表示与该故障履历登记项1191对应的故障的原因的信息。
恢复方法712是表示与该故障履历登记项1191对应的从故障的恢复方法的信息。
故障履历登记项1191所具有的ID702~707是故障分析上下文120(参照图11)所具有的ID602~607的复制。即,如上所述,故障履历登记项1191具有故障分析上下文120。根据图12A,虽然故障分析上下文ID601不包含在故障履历登记项1191中,但也可以将该ID601包含在该记录1191中。
故障履历信息119只要具有与故障履历相关的属性值,则也可以是上述的数据构造以外的数据构造,也可以具有上述记载的属性值以外的属性值。另外,故障履历信息119也可以不具有服务器权重ID708、开关权重ID709以及存储装置权重ID710。
<1-2-10:服务器权重信息>
图12B是表示服务器权重信息800的图。
服务器权重信息800是对于一个服务器权重具有一个记录(服务器权重记录)的表。服务器权重记录是作为属性值而具有服务器权重ID801、服务器的供应商802、服务器的IP地址803、服务器的OS804以及服务器的连续运转时间805的记录。以下,采用一个服务器权重(在图12B的说明中称为“对象服务器权重”)为例子,说明信息要素801~805。
服务器权重ID801是向对象服务器权重分配的标识符。
服务器的供应商802是属于对象服务器权重的一种权重,是表示以怎样的程度重视服务器的供应商这样的项目的值。
服务器IP地址803是属于对象服务器权重的一种权重,是表示以怎样的程度重视服务器的IP地址这样的项目的值。
服务器的OS04是属于对象服务器权重的一种权重,是表示以怎样的程度重视服务器的OS这样的项目的值。
服务器的连续运转时间805是属于对象服务器权重的一种权重,是表示以怎样的程度重视服务器的连续运转时间这样的项目的值。
根据以上的说明可知,用与服务器相关的多种项目的权重来定义“服务器权重”。
另外,服务器权重信息800只要具有与服务器权重相关的属性值,则也可以是表以外的数据构造,也可以具有上述记载的属性值以外的属性值。另外,服务器权重信息800也可以不具有服务器权重ID800以外的至少一个属性值。
<1-2-11:开关的权重信息>
图12C是表示开关的权重信息810的图。
开关权重信息810是对于一个开关权重具有一个记录(开关权重记录)的表。开关权重记录是作为属性值而具有开关权重ID811、开关的供应商812、开关的IP地址813、开关的类型814以及开关的连续运转时间815的记录。以下,采用一个开关权重(在图12C的说明中称为“对象开关权重”)为例子,说明信息要素811~815。
开关权重ID811是向对象开关权重分配的标识符。
开关的供应商812是属于对象开关权重的一种权重,是表示以怎样的程度重视开关的供应商这样的项目的值。
开关的IP地址813是属于对象开关权重的一种权重,是表示以怎样的程度重视开关的IP地址这样的项目的值。
开关的类型814是属于对象开关权重的一种权重,是表示以怎样的程度重视开关的类型这样的项目的值。
开关的连续运转时间815是属于对象开关权重的一种权重,是表示以怎样的程度重视开关的连续运转时间这样的项目的值。
根据以上的说明可知,用与开关相关的多种项目的权重来定义“开关权重”。
另外,开关权重信息810只要具有与开关权重相关的属性值,则也可以是表以外的数据构造,也可以具有上述记载的属性值以外的属性值。另外,开关权重信息810也可以不具有开关权重ID811以外的至少一个属性值。
<1-2-12:存储装置的权重信息>
图12D是表示存储装置权重信息820的图。
存储装置权重信息820是对于一个存储装置权重具有一个记录(存储装置权重记录)的表。存储装置权重记录是作为属性值而具有存储装置权重ID821、存储装置的供应商822、存储装置的IP地址823、存储装置的固件824以及存储装置的连续运转时间825的记录。以下,采用一个存储装置权重(在图12D的说明中称为“对象存储装置权重”)为例子,说明信息要素821~825。
存储装置权重ID821是向对象存储装置权重分配的标识符。
存储装置的供应商822是属于对象存储装置权重的一种权重,是表示以怎样的程度重视存储装置的供应商这样的项目的值。
存储装置的IP地址823是属于对象存储装置权重的一种权重,是表示以怎样的程度重视存储装置的IP地址这样的项目的值。
存储装置的固件824是属于对象存储装置权重的一种权重,是表示以怎样的程度重视存储装置的固件这样的项目的值。
存储装置的连续运转时间825是属于对象存储装置权重的一种权重,是表示以怎样的程度重视存储装置的连续运转时间这样的项目的值。
根据以上的说明可知,用与存储装置相关的多种项目的权重来定义“存储装置权重”。
另外,存储装置权重信息820只要具有与存储装置权重相关的属性值,则也可以是表以外的数据构造,也可以具有上述记载的属性值以外的属性值。另外,存储装置权重信息820也可以不具有存储装置权重ID821以外的至少一个属性值。
上述的服务器权重信息800、开关权重信息810以及存储装置权重信息820例如包含在故障履历信息中。
<1-2-13:各信息的抽象化>
在以下的说明中,以由服务器、开关以及存储装置构成的拓扑结构为例子进行记载。但是,本发明并不限于这样的拓扑结构,也可以应用于其他种类的拓扑结构。例如,拓扑结构中,提供预定的网络服务的服务提供节点装置(一个例子是存储装置)、和利用该预定的网络服务的服务利用节点装置(一个例子是服务器)是监视对象节点即可。如果从这样的广视点考虑,则各种信息具有以下的信息即可。
服务器信息(参照图4)更抽象地是服务利用节点装置信息。服务利用节点装置信息可以包含以下的信息(a1)~(a3):
(a1)服务利用节点装置的IP地址等网络标识符;
(a2)表示该节点装置的硬件或软件的结构的信息;
(a3)表示设定内容的信息。
开关信息(参照图5)更抽象地是中继装置信息(或中继节点装置信息)。中继装置信息可以包含以下的信息(b1)以及(b2):
(b1)表示对服务利用节点装置与服务提供节点装置之间的通信进行中继的节点装置(一个例子是开关)的硬件或软件的结构的信息;
(b2)表示设定内容的信息。
存储装置信息(参照图6)更抽象地是服务提供节点装置信息。服务提供节点装置信息可以包含以下的信息(c1)~(c3):
(c1)服务提供节点装置的IP地址等网络标识符;
(c2)表示该节点装置的硬件或软件的结构的信息;
(c3)表示设定内容的信息。
另外,服务提供节点装置信息也可以包含表示服务利用节点装置所提供的网络服务的种类的信息等。
拓扑信息(参照图7)也可以包含表示服务利用节点装置的标识符与该服务利用节点装置所利用的服务提供节点装置的标识符的组(或对应关系)的信息。另外,如果服务利用节点装置与该服务利用节点装置进行通信时经由一个以上的中继装置,则这些一个以上的中继装置的标识符也可以包含在拓扑信息中。
元RCA规则信息(参照图8)针对成为管理服务器的监视对象的各网络服务,可以包含以下的信息(d1)以及(d2):
(d1)表示在服务利用节点装置中可能发生的第一事件(服务利用节点装置发生事件)的种类、与在服务提供节点装置(或中继装置)中可能发生的第二事件(服务提供节点装置发生事件)的种类的组合的信息;
(d2)表示第一事件和第二事件发生了的情况下原的、能够确定为因(或推测为原因)的服务提供节点装置或中继装置中可能发生的原因(或原因的种类)的信息。
展开RCA规则信息(参照图9),针对利用或提供网络服务的各监视对象节点可以包含以下的信息(e1)~(e3):
(e1)表示在作为服务利用节点装置的节点装置中可能发生的第一事件的种类和服务利用节点装置的标识符、与在服务提供节点装置(或中继装置)中可能发生的第二事件的种类和服务提供节点装置(或中继装置)的标识符的组合的信息;
(e2)第一事件和第二事件发生了的情况下的、能够确定为原因(或推测为原因)的服务提供节点装置(或中继装置)的标识符;
(e3)表示在该服务提供节点装置(或中继装置)中可能发生的原因(或原因的种类)的信息。
故障分析上下文(参照图11)可以包含为了确定故障的根本原因而使用的元RCA规则的标识符。另外,也可以包含为了确定故障的根本原因而使用的展开RCA规则的标识符、拓扑结构的标识符或监视对象节点的标识符。
故障履历登记项(参照图12A)可以包含表示故障分析的上下文的内容、从与该上下文对应的故障的恢复方法(例如恢复步骤)的信息。另外,故障履历登记项也可以包含用于对该记录所具有的故障分析上下文的匹配度进行评价的评价值、或记录了评价值的信息的标识符。
服务器权重信息(参照图12B)可以包含分配给服务利用节点装置的硬件或软件结构以及设定内容的要素的、用于评价匹配度的值。
开关权重信息(参照图12C)可以包含分配给中继装置的硬件或软件结构以及设定内容的要素的、用于评价匹配度的值。
存储装置权重信息(参照图12D)可以包含分配给服务提供节点装置的硬件或软件结构以及设定内容的要素的、用于评价匹配度的值。
<1-3:展开RCA规则作成>
图13表示作成展开RCA规则的流程。
(步骤1001)拓扑应用程序121通过网络50从监视对象节点30取得信息。如果监视对象节点30是服务器,则取得包含服务器名、服务器的供应商名、服务器的IP地址、服务器的OS名以及服务器的连续运转时间的信息(以下称为服务器取得信息)。拓扑应用程序121根据从各监视对象节点(各服务器)接收到的服务器取得信息,作成或更新服务器信息111。具体地说,例如拓扑应用程序121进行以下的处理(A)和(B):
(A):在服务器取得信息内的标识符没有存储在服务器信息111中的情况下,针对与该服务器取得信息对应的服务器信息111内的服务器记录(以下在图13的说明中称为“对象服务器记录”),分配服务器ID501(例如服务器取得信息内的标识符),将该服务器ID501存储在对象记录中;
(B)将服务器取得信息内的服务器名502、供应商名503、IP地址504、OS名505以及连续运转时间506存储在对象服务器记录中。
另外,服务器取得信息的数据构造,只要能够更新服务器信息111,则不限于上述构造。另外,对于预先明确为不是服务器的监视对象节点,也可以省略步骤1001。
(步骤1002)拓扑应用程序121通过网络50从监视对象节点30取得信息。如果监视对象节点30是开关,则取得包含开关名、开关的供应商名、开关的IP地址、开关的类型以及开关的连续运转时间的信息(以下称为开关取得信息)。拓扑应用程序121根据从各监视对象节点(各开关)接收到的开关取得信息,作成或更新开关信息112。具体地说,例如拓扑应用程序121进行以下的处理(A)和(B):
(A)在开关取得信息内的标识符没有存储在开关信息112中的情况下,针对与该开关取得信息对应的、开关信息112内的开关记录(以下,在图13的说明中称为“对象开关记录”),分配开关ID511(例如开关取得信息内的标识符),将该开关ID511存储在对象开关记录中;
(B)将开关取得信息的开关名512、供应商名513、IP地址514、类型515以及连续运转时间516存储在对象开关记录中。
另外,开关取得信息的数据构造只要能够更新开关信息112,则不限于上述构造。另外,对于预先明确为不是开关的监视对象节点,也可以省略步骤1002。
(步骤1003)拓扑应用程序121通过网络50从监视对象节点30取得信息。如果监视对象节点30是存储装置,则取得包含存储装置名、存储装置的供应商名、存储装置的IP地址、存储装置的固件名以及存储装置的连续运转时间的信息(以下称为存储装置取得信息)。拓扑应用程序121根据从各监视对象节点(各存储装置)接收到的存储装置取得信息,作成或更新存储装置信息113。具体地说,例如拓扑应用程序121进行以下的处理(A)和(B):
(A)在存储装置取得信息内的标识符没有存储在存储装置信息113中的情况下,针对与该存储装置取得信息对应的存储装置信息113内的存储装置记录(以下,在图13的说明中称为“对象存储装置记录”),分配存储装置ID521(例如存储装置取得信息内的标识符),将该存储装置ID521存储在对象存储装置记录中;
(B)将存储装置取得信息的存储装置名522、供应商名523、IP地址524、固件525以及连续运转时间526存储在对象存储装置记录中。
另外,存储装置取得信息的数据构造只要能够更新存储装置信息112,则不限于上述构造。另外,对于预先明确为不是存储装置的监视对象节点,也可以省略步骤1003。
(步骤1004)拓扑应用程序121通过网络50接收监视对象节点30的拓扑取得信息。作为拓扑取得信息的一个例子,包含开关的ID、与该开关连接的服务器以及存储装置各自的ID。具体地说,例如拓扑应用程序121进行以下的处理(A)和(B):
(A)在拓扑取得信息内的标识符没有存储在拓扑信息114中的情况下,针对与该拓扑取得信息对应的拓扑信息114内的、拓扑信息114内的拓扑记录(以下,在图13的说明中称为“对象拓扑记录”),分配拓扑ID531(例如拓扑取得信息内的标识符),将该拓扑ID321存储在对象拓扑记录中;
(B)将拓扑取得信息内的开关ID533、服务器ID532以及存储装置ID534存储在对象拓扑记录中。
另外,拓扑取得信息的数据构造只要能够更新拓扑信息114,则不限于上述构造。另外,对于预先明确为不是开关、服务器以及存储装置的监视对象节点,也可以省略步骤1004。另外,拓扑记录也可以如下这样更新。即,也可以从各监视对象节点取得表示与哪个监视对象节点直接连接的连接目标信息,并且从服务器或存储装置取得表示从哪个服务器访问了哪个逻辑卷的路径信息,根据连接目标信息和路径信息,更新对象拓扑记录。
(步骤1005)拓扑应用程序121根据拓扑信息114和元RCA规则信息115,作成展开RCA规则信息116。更具体地说,该程序121进行以下的处理(x)和(y):
(x)作成拓扑信息114内的拓扑ID531和元RCA规则信息115内的元RCA规则ID541的全部的组合(例如在有2个拓扑ID531和3个元RCA规则ID541的情况下,作成6个(2×3=6)组合)。
(y)对于各组合,分配展开RCA规则ID551,并且将展开RCA规则ID551、构成组合的拓扑ID以及元RCA规则ID存储在展开RCA记录(展开RCA规则信息116内的记录)中。
另外,对于包含没有实际利用的存储装置和服务器的组合的拓扑结构的拓扑ID,也可以不进行上述(x)的处理。同样,也可以通过其他处理作成展开RCA规则信息。在更抽象化地考虑的情况下,例如拓扑应用程序121可以进行以下这样的(步骤A)~(步骤D):
(步骤A)从监视对象节点取得包含在上述各取得信息中的至少一个值作为节点取得信息;
(步骤B)根据节点取得信息,更新服务利用节点装置信息、服务提供节点装置信息、或中继节点装置信息;
(步骤C)根据拓扑取得信息,将与预定的网络服务有关的服务提供节点装置的标识符、利用该节点装置的服务利用节点装置的标识符的对应关系包含在拓扑信息中;
(步骤D)根据拓扑信息和元RCA规则信息,更新展开RCA规则信息。
另外,根据上述例子,根据元RCA规则信息的一个记录作成展开RCA规则信息的一个记录,但本发明并不限于此。作为其一个例子有多阶段推论。在多阶段推论的情况下,可以利用3段论法等,从多个规则导出新的规则。在该情况下,除了展开RCA规则信息的元RCA规则ID以外,实际上根据一个以上的元RCA规则的记录和拓扑信息,作成展开RCA规则信息即可。作为从多个规则导出新的规则的一个例子,有以下的方法。
(第一元RCA规则)对于第一网络服务(例如WWW(万维网:World WideWeb)),在检测到在服务利用节点装置中发生的第一种事件(以下称为事件A)和在服务提供节点装置中发生的第二种事件(以下称为事件B)的情况下,发生事件A的根本原因是事件B的发生。
(第二元RCA规则)对于第二网络服务(例如DNS(域名系统),在检测到在服务利用节点装置中发生的第三种事件(以下称为事件C)和在服务提供节点装置中发生的第四种事件(以下称为事件D)的情况下,发生事件C的根本原因是事件D的发生。
(第一拓扑信息)对于第一网络服务,节点装置A是服务利用节点装置,节点装置B是服务提供节点装置。
(第二拓扑信息)对于第二网络服务,节点装置B是服务利用节点装置,节点装置C是服务提供节点装置。
(第三拓扑信息)利用第二网络服务来提供节点装置B中的第一网络服务。
(生成的第一展开RCA规则)在检测到在节点装置A中发生的事件A并且检测到在节点装置B中发生的事件B的情况下,在节点装置A中发生的事件A的根本原因是节点装置B中的事件B的发生。
(生成的第二展开RCA规则)在检测到在节点装置B中发生的事件C并且检测到在节点装置C中发生的事件D的情况下,在节点装置B中发生的事件C的根本原因是节点装置C中的事件D的发生。
(生成的第三展开RCA规则)在检测到在节点装置A中发生的事件A并且检测到在节点装置C中发生的事件D的情况下,在节点装置A中发生的事件A的根本原因是节点装置C中的事件D的发生。
另外,在使用多阶段推论的情况下,除了物理上的装置之间(例如节点之间)的依存关系以外,也可以将表示网络服务或逻辑上的对象之间的依存关系的信息包含在拓扑信息中。上述第三拓扑信息是其一个例子。
另外,在9的展开RCA规则信息中,根据元RCA规则ID552以及拓扑ID553,一边参照元RCA规则信息115所表示的元RCA规则和拓扑信息所表示的拓扑结构,一边进行根本原因的确定。但是,作为替代处理,也可以将表示基于元RCA规则和拓扑结构而展开了的规则的信息包含在展开RCA规则信息中。根据该方式,虽然增加了管理服务器10的存储器110的消耗量,但确定根本原因的速度更高速了。但是,由于需要根据展开RCA规则来确定元RCA规则,所以在任意情况下都需要在展开RCA规则信息中包含元RCA规则ID552。
<1-4:事件检测处理>
图14表示从事件的检出到事件的根本原因的确定的流程。按照每一定时间(例如每10分钟)或单纯循环地执行本流程。
(步骤1011)程序122向全部监视对象节点30请求包含事件类型、对象节点类型、对象节点ID、事件内容、发生日期时间的信息、即事件登记项。另外,包含在事件登记项中的各信息要素如下:
(事件类型)表示事件登记项所属的事件的种类(例如,Critical(严重)、Warning(警告)、Information(信息));
(对象节点类型)表示作为发生了的事件的对象的监视对象节点30的节点种类(例如服务器、开关或存储装置);
(对象节点ID)是表示事件发生了的监视对象节点的30的标识符(服务器ID501、开关ID511或存储装置ID521);
(事件内容)所发生的事件的内容;
(发生日期时间)事件的发生日期时间。
另外,也可以不接收到来自规则匹配分析程序122的请求就从监视对象节点30发送事件登记项。另外,也可以并不一定包含表示发生日期时间的信息。在该情况下,管理服务器10可以采用接收到事件登记项的日期时间来代替发生日期时间。
(步骤1012)规则匹配分析程序122在步骤1011中从监视对象节点30接收到事件登记项的情况下,进行步骤1013。在没有从监视对象节点30接收到事件登记项的情况下,进行步骤1011。
(步骤1013)规则匹配分析程序122根据事件登记项,向事件信息117追加信息。具体地说,例如程序122进行以下的处理(A)~(C):
(A)取得新的事件ID561,将该ID561存储在事件信息117内的空白的记录(以下在步骤1013的说明中称为“对象记录”)中;
(B)将事件登记项内的事件类型、对象节点类型、对象节点ID、事件内容以及发生日期时间存储在对象记录中;
(C)将“未解决”这样的值作为状态567,存储在对象记录中。
另外,事件登记项只要能够追加或更新事件信息117的事件记录(事件信息117内的记录),则也可以包含其他值。
(步骤1014)规则匹配分析程序122根据包含表示“未解决”的状态567的事件记录、拓扑信息114和展开RCA规则信息116,确定与包含表示“未解决”的状态567的事件记录相关联的展开RCA规则(展开RCA规则信息116内的记录)。具体地说,例如规则匹配分析程序122进行以下的处理(A)~(H):
(A)在状态556是“未解决”的事件记录中,确定发生日期时间565最晚的事件记录(第一事件记录);
(B)根据在上一个步骤中确定的第一事件记录,确定一个以上的第二事件记录(第一事件记录内的发生日期时间565与第二事件记录内的发生日期时间565之间的差为预定时间(例如10分钟左右)以内);
(C)参照在上述(B)中得到的全部第二事件记录内的对象节点类型563,根据这些第二事件记录内的全部对象节点ID,作成由对象节点类型不同的对象节点ID构成的全部组合(以下称为节点ID组合)(例如在有4个事件记录,其中2个是与服务器A和B有关的记录,其余的2个是与开关A和B有关的记录的情况下,作成服务器A的ID-开关A的ID、服务器A的ID-开关B的ID、服务器B的ID-开关A的ID、以及服务器B的ID-开关B的ID这样的4个节点ID组合);
(D-1)在存在包含了没有包含在上述(C)中得到的任意一个ID组合中的对象节点ID的第二事件记录(包含了表示“未解决”的状态556的事件记录)的情况下,确定其中发生日期时间565最晚的第二事件登记项,将该第二事件登记项作为上述第一事件登记项,实施上述(B);
(D-2)在不存在包含了没有包含在上述(C)中得到的任意一个ID组合中的对象节点ID的第二事件记录(包含了表示“未解决”的状态556的事件记录)的情况下,实施以下的处理(E);
(E)针对到上述(D-1)和(D-2)为止得到的各节点ID组合,查找与以下的(条件E1)~(条件E3)的全部都适合的拓扑记录(拓扑信息114的记录):
(条件E1)具有与节点ID组内的服务器的对象节点ID一致的服务器ID532;
(条件E2)具有与该节点ID组合内的开关的对象节点ID一致的开关ID533;
(条件E3)具有与该节点ID组合内的存储装置的对象节点ID一致的存储装置ID534,
如果找到了这样的拓扑记录,则提取出该拓扑记录所具有的拓扑ID531,使该ID531与对应于该拓扑记录的节点ID组合对应起来;
(F)针对在上述(E)中得到的各节点ID组合(确定了适合于条件E1~E3的拓扑记录的节点ID组合),查找与以下的(条件F1)~(条件F3)的全部都适合的元RCA记录(元RCA规则信息115的记录):
(条件F1)具有与具有事件ID组合内的服务器的对象节点ID的事件记录内的事件内容564一致的服务器事件542;
(条件F2)具有与具有该事件ID组合内的开关的对象节点ID的事件记录内的事件内容564一致的开关事件543;
(条件F3)具有与具有该事件ID组合内的存储装置的对象节点ID的事件记录内的事件内容564一致的存储装置事件544,
如果找到这样的元RCA记录,则提取出该元RCA记录所具有的元RCA规则ID541,使该ID541与对应的节点ID组合对应起来;
(G)针对在上述(F)中得到的各节点ID组合(与元RCA规则ID541对应的组合),进行以下的处理(g1)~(g4):
(g1)从具有与节点ID组合对应的元RCA规则ID541的元RCA记录中,提取出原因节点545;
(g2)确定具有与所提取出的原因节点545一致的对象节点类型563的事件记录;
(g3)从所确定的事件记录中提取出对象节点ID564;
(g4)使所提取出的对象节点ID564与上述(g1)中的节点ID组合对应起来;
(H)提取出具有下述(h1)~(h3)的要素的展开RCA记录(展开RCA规则信息116的记录):
(h1)与在上述(E)中得到的拓扑ID531一致的拓扑ID553;
(h2)与在上述(F)中得到的元RCA规则ID541一致的元RCA规则ID552;
(h3)与在上述(G)中得到的对象节点ID564一致的原因节点ID554。
(步骤1015)规则匹配分析程序122在元RCA规则ID552一致的记录之间,汇集在步骤1014中得到的多个展开RCA记录。由此,能够得到一个或多个元RCA规则ID552相同的展开RCA记录的组。
(步骤1016)程序122在原因节点ID554一致的记录之间,汇集属于在步骤1015中得到的组的展开RCA规则。由此,针对元RCA规则ID552相同的展开RCA记录的组,能够得到一个或多个原因节点ID554相同的展开RCA记录的子组。原因节点ID554所示的监视对象节点30是根本原因候补。
(步骤1017)程序122计算出在步骤1016中得到的根本原因候补的确定性来作为确信度。作为确信度的计算方法,例如有基于原因节点ID554一致的展开RCA规则记录的个数的方法。例如,对各根本原因候补分配与原因节点ID554一致的展开RCA规则记录的个数对应的确信度。对原因节点ID554一致的展开RCA规则记录的个数多的根本原因候补分配的确信度,比对这样的展开RCA规则记录的个数少的根本原因候补分配的确信度高。另外,也可以通过其他计算方法来计算确信度。
<1-5:故障分析上下文的作成>
图15是故障分析上下文的作成的流程图。例如在步骤1017后立即开始该流程。
(步骤1018)生成程序123作成故障分析上下文118。具体地说,例如生成程序123进行以下的处理(A)~(G):
(A)将在步骤1015中得到的元RCA规则ID552包含在故障分析上下文中;
(B)在具有在步骤1014中得到的一个以上的展开RCA规则ID551的一个以上的展开RCA记录中,从具有与在上述(A)中得到的元RCA规则ID552一致的ID552的记录中提取出展开RCA规则ID551,并将提取出的ID551包含在故障分析上下文中;
(C)从具有与在上述(B)中得到的展开RCA规则ID551(603)一致的ID551的展开RCA记录中提取出拓扑ID553,并将该ID553包含在故障分析上下文中;
(D)从具有与在上述(C)中得到的拓扑ID553(605)一致的ID531的拓扑记录中提取出服务器ID532,将该ID532包含在故障分析上下文中;
(E)从具有与在上述(C)中得到的拓扑ID553(605)一致的ID531的拓扑记录中,提取出开关ID533,将该ID533包含在故障分析上下文中;
(F)从具有与在上述(C)中得到的拓扑ID553(605)一致的ID531的拓扑记录中,提取出存储装置ID534,将该ID534包含在故障分析上下文中;
(G)生成程序123分配故障分析上下文ID601,将该ID601包含在故障分析上下文中。
也可以只使用故障分析上下文ID601和元RCA规则ID603来作成故障分析上下文118。
<1-6:根本原因的显示和选择>
图16表示用于选择根本原因的流程。例如在步骤1018后立即开始本流程。
(步骤1019)生成程序123通过网络50向显示用计算机20发送包含以下这样的要素(a)~(c)的第一显示信息:
(a)具有与步骤1016中的原因节点ID554一致的服务器ID501的服务器记录内的服务器名502、具有与步骤1016中的原因节点ID554一致的开关ID511的开关记录内的开关名512、或具有与步骤1016中的原因节点ID554一致的存储装置ID521的存储装置记录内的存储装置名522;
(b)与上述(a)中的原因节点ID554对应的展开RCA记录(在步骤1015中汇集的展开RCA记录)中的原因详情555;
(c)与上述(a)中的原因节点ID554对应的确信度(在步骤1017中得到的确信度)。
(步骤1020)画面显示程序211接收在步骤1019中发送的第一显示信息。
(步骤1021)画面显示程序211将在步骤1020中接收到的第一显示信息显示在输入输出装置260(例如显示器装置)上。
图19表示候补/确信度画面2010。画面2010是第一显示信息的显示画面的一个例子。
候补ID2011是根本原因候补的标识符。例如由显示程序211向各根本原因候补分配候补ID。
原因节点名2012是包含在第一显示信息中的要素,是根本原因候补(监视对象节点30)的服务器名502、开关名512或存储装置名522。
原因详情2013是包含在第一显示信息中的原因详情555。
确信度2014是包含在第一显示信息中的确信度。
再次返回图16的说明。
(步骤1022)画面显示程序211通过网络50向管理服务器发送用于确定系统管理者利用输入输出装置260(例如鼠标)选择出的根本原因候补的信息(例如原因节点ID)。
(步骤1023)生成程序123接收在步骤1022中发送的信息。
(步骤1024)生成程序123决定与在步骤1023中接收到的信息对应的故障分析上下文118。该故障分析上下文118是在步骤1018中作成的故障分析上下文。
<1-7:故障履历的登记>
图17表示故障的登记的流程。在故障履历登记项为0件的情况下,在图16的流程之后开始本流程。在故障履历登记项为1件以上的情况下,在图16的流程之后,经过了图18A的流程之后开始本流程。
(步骤1040)显示用计算机20显示故障履历的登记画面。
图21表示登记画面2030。该画面2030是故障履历的登记画面的一个例子。
根本原因候补2031是表示与步骤1016中的原因节点ID对应的根本原因候补(监视对象节点30)的服务器名502、开关名512或开关名522。
故障分析上下文ID2032~存储装置ID2038,是与步骤1016中的原因节点ID对应的故障分析上下文(在步骤1024中确定了的上下文)内的故障分析上下文ID601~存储装置ID607。在从步骤1024到该步骤之间,也可以关闭图19所示的画面。在该情况下,需要在关闭图19的画面之前,将在步骤1024中得到的故障分析上下文记录到存储器等存储装置中,并在该步骤中读入。
原因2039是系统管理者利用输入输出装置260用自然语言登记该故障的原因的内容的系统管理者表格。
恢复方法2040是系统管理者利用输入输出装置260用自然语言登记从该故障的恢复方法的内容的系统管理者表格。
系统管理者在输入了原因2039和恢复方法2040的栏之后,通过按下登记按键,将元RCA规则ID2033~存储装置ID2038、原因2039、恢复方法2040发送到故障履历管理程序125。
再次参照图17。
(步骤1041)故障履历管理程序125接收在步骤1040中发送的元RCA规则ID2033~存储装置ID2038、原因2039、恢复方法2040。
(步骤1042)故障履历管理程序125将在步骤1041中接收到的元RCA规则ID2033~存储装置ID2038、原因2039、恢复方法2040登记到故障履历登记项中。程序125向该记录分配故障履历ID701。
(步骤1043)故障履历管理程序125针对服务器的权重信息800作成新的记录。将初始值(例如100)代入到该记录的服务器的供应商802~服务器的连续运转时间805中,将服务器权重ID存储到该记录中。另外,初始值只要表示各要素的权重,则也可以是其他值。
(步骤1044)故障履历管理程序125针对开关的权重信息810作成新的记录。将初始值(例如100)代入到该记录的开关的供应商812~开关的连续运转时间815中,将开关权重ID存储到该记录中。另外,初始值只要表示各要素的权重,则也可以是其他值。
(步骤1045)故障履历管理程序125针对存储装置的权重信息820作成新的记录。将初始值(例如100)代入到该记录的存储装置的供应商822~存储装置的连续运转时间825中,将存储装置权重ID存储到该记录中。另外,初始值只要表示各要素的权重,则也可以是其他值。
在对步骤1043~1045的说明中,作为监视对象节点的组合,采用主机(host)=开关=存储装置作为例子。但是,本发明包含用于评价监视对象节点的硬件或软件结构与设定内容的任意要素的匹配度的值即可。如果从这样的广阔的视角来考虑,则在步骤1043~步骤1045中进行以下的处理即可,即向故障分析上下文所具有的监视对象节点的硬件或软件结构和设定内容的任意要素,分配用于故障分析上下文的匹配的评价值。
<1-9:故障履历的检索>
图18A是从故障履历信息取得相同事件和/或类似事件的故障履历登记项的流程。
(步骤1025)上下文匹配分析程序124在故障履历登记项的件数为0件的情况下,结束本流程。程序124在故障履历登记项的件数为1件以上的情况下,执行步骤1022。
(步骤1026)程序124使用故障分析上下文来检索故障履历信息。在后面使用图18B说明步骤1026的细节。
(步骤1027)程序124将在步骤1026中得到的检索结果的信息发送到显示用计算机20。另外,在检索结果的信息中,例如包含故障履历ID701、元RCA规则ID702、展开RCA规则ID703、拓扑ID704、服务器ID705、开关ID706、存储装置ID707、服务器权重ID708、开关权重ID709、存储装置权重710、原因711、恢复方法712以及匹配率。但是,只要能够显示后述的图20,则也可以发送其他信息。
(步骤1028)画面显示程序211(显示用计算机20)接收在步骤1027中发送的信息,并显示在输入输出装置260(例如显示器装置)上。这时,程序211优先显示匹配率高的信息(例如按照匹配率的降序(从高到低的顺序)显示信息)。
图20表示在步骤1028中显示的检索结果画面2020。该画面2020是检索结果画面的一个例子。
履历ID是分配给命中的检索履历的标识符(例如序号)。
故障履历ID2022是命中了的故障履历登记项所具有的故障履历ID701。
故障履历节点名2023是服务器记录内的服务器名502、开关记录内的开关名512或存储装置记录内的存储装置名522。具有这些要素502、522或512的记录具有与原因节点ID554一致的ID。该原因节点ID554位于具有与命中了的故障履历登记项所具有的展开RCA规则ID703一致的展开RCA规则ID551的展开RCA记录内。
原因2024是命中了的故障履历登记项所具有的原因711。
恢复方法2025是命中了的故障履历登记项所具有的恢复方法712。
匹配率2026表示在步骤1027中由上下文匹配分析程序124发送的匹配率。按照该匹配率的降序显示检索结果。
在检索结果画面中,也可以代替图20所示的信息要素或进一步追加地显示与故障履历的检索结果相关的其他种类的信息要素。
如果系统管理者从图20所示的画面中的表中选择任意的行(故障履历),则显示用于对选择出的故障履历所表示的故障和本次发生的故障进行比较的画面。
图24A表示匹配程度比较画面的第一例。
将与本次发生的故障相关的信息的详情显示在显示区域e01中。在显示区域e01中,例如显示与本次的故障对应的元RCA规则ID541、发生了的事件的节点名502、512或522、事件内容565。
将选择出的故障履历的详情显示在显示区域e02中。在显示区域e02中,显示故障履历的元RCA规则ID541、发生了的事件的节点名502、512或522、事件内容565。
在显示区域e03中,显示本次的故障与故障履历的匹配率2026。
在显示区域e04中,显示故障履历的恢复方法2025。
图24A表示匹配程度比较画面的第二例。
在显示区域e05中,关于本次的故障,显示基于事件信息、拓扑信息和节点信息的图。作为图,是显示出节点之间的连接是怎样进行、在哪个节点中发生了怎样的事件的图。具体地说,例如在显示区域e05中有3个块,各块与某一个节点对应,块之间的连接依照根据拓扑信息而确定的拓扑结构,显示在块内的字符串表示与该块对应的节点的节点名、在该节点中发生的事件(故障)的内容。
在显示区域e06中,关于故障履历,显示基于事件信息、拓扑信息、节点信息的图。具体地说,例如在显示区域e06中显示了3个块,各块与显示区域e05同样地与某一个节点对应。
通过用虚线围住等方法,表示显示在显示区域e05中的信息和显示在显示区域e06中的信息中的相互一致的部分(元RCA规则一致的部分)。由此,系统管理者能够通过视觉掌握由系统管理者选择出的故障履历与本次的故障的差异。具体地说,可知本次发生的故障与选择出的故障履历相比,没有发生节点名为“BOTAN”的节点中的IO错误。
另外,在匹配程度比较画面中,只要系统管理者能够参照本次的故障与故障履历的比较,则也可以显示其他值。例如,也可以在图24B的各块(与某一个节点对应的块)中显示表示节点类型的信息。
图18B表示图18A的步骤1026的详情。
(步骤1031)作为步骤1031的处理,上下文匹配分析程序124进行元RCA规则匹配。在后面参照图18C说明步骤1031的详情。
以下,说明图18C所示的流程。
(步骤1101)上下文匹配分析程序124将包含特定的故障分析上下文的故障履历登记项的检索请求发送到故障履历管理程序125。在此,“特定的故障分析上下文”是指具有与在步骤1024中得到的故障分析上下文119的元RCA规则ID相等的元RCA规则ID的故障分析上下文。
(步骤1102)故障履历管理程序125接收在步骤1101中发送的检索请求。
(步骤1103)故障履历管理程序125,对在步骤1102中接收到的检索请求进行应答,检索具有上述特定的故障分析上下文的故障履历登记项。程序125将表示其检索结果的信息发送到上下文匹配分析程序124。所发送的信息包含登记在包含特定的故障分析上下文的故障履历登记项中的信息。
(步骤1104)上下文匹配分析程序124接收在步骤1103中发送的信息。
再次返回图18B的说明。
(步骤1033)上下文匹配分析程序124,在步骤1031中得到的故障履历登记项的个数小于第一阈值(例如10)的情况下,执行步骤1034。另一方面,程序124在步骤1031中得到的故障履历登记项的个数大于第二阈值(例如50)的情况下,执行步骤1035。第二阈值是与第一阈值相同或更大的值。在步骤1031中得到的故障履历登记项为适当的个数(例如第一阈值以上、第二阈值以下)的情况下,结束本流程。
另外,系统管理者可以任意地设定上述的第一和第二阈值中的至少一个。
(步骤1034)程序124进行以下这样的处理,即通过减弱检索的条件,得到比步骤1031多的故障履历登记项。具体地说,进行图18D所示的处理。在作为检索查询的故障分析上下文具有多个元RCA规则的情况(即展开RCA规则在元RCA规则的多阶段推论中成立的情况)下,得到全部具有一个以上与检索查询相同的元RCA规则的故障履历登记项。
以下,说明图18D所示的流程。
(步骤1111)上下文匹配分析程序124,将具有k(k是自然数)个以上与检索源的故障分析上下文(成为检索的关键字的故障分析上下文)119所具有的多个元RCA规则ID602相等的元RCA规则ID702的故障履历登记项的检索请求,发送到故障履历管理程序125。另外,能够由系统管理者任意地设定k的值。
(步骤1112)故障履历管理程序125接收在步骤1111中发送的检索请求。
(步骤1113)程序125,应答在步骤1112中接收到的检索请求,进行检索。即,程序125发送记录在以下这样的故障履历登记项中的信息,即具有k个以上与检索源的故障分析上下文119的元RCA规则ID602相等的元RCA规则ID702的故障履历登记项。例如,k=2,并且如图18E所示,在2个元RCA规则ID相互一致的情况下,发送记录在图示的故障履历登记项中的信息。另外,也可以从与检索源的故障分析上下文119内的元RCA规则ID602一致的元RCA规则ID的个数多的故障履历登记项开始,按顺序地分配高的匹配率,将表示该分配的匹配率的信息包含在所发送的信息中。即,在该例子中,根据与检索源的故障分析上下文119内的元RCA规则ID602一致的元RCA规则ID的个数来计算出匹配率。另外,也可以通过其他计算方式来计算匹配率。
(步骤1114)上下文匹配分析程序124接收在步骤1113中发送的信息。另外,也可以将发送的信息的件数(检索命中的故障履历登记项的件数)抑制为适当的个数(例如后述的第一个数和/或第二个数)以下。
以上是对图18B的步骤1034中的检索的说明。另外,作为检索的方法,并不限于上述的方法,也可以采用其他方法。例如,在检索源的故障分析上下文和某一个故障履历登记项都具有一个元RCA规则ID的情况下,即使根据检索源的故障分析上下文内的元RCA规则ID确定的元RCA规则(以下称为第一元RCA规则)与根据故障履历登记项内的元RCA规则ID确定的元RCA规则(以下称为第二元RCA规则)不同,故障履历管理程序125也可以将具有与第一元RCA规则的匹配率为X%以上(X为自然数)的第二元RCA规则的ID的故障履历登记项作为检索命中的对象。此处的匹配率基于属于第一元RCA规则的事件群与属于第二元RCA规则的事件群的重复程度。具体地说,例如根据重复的事件的个数相对于属于第一元RCA规则的事件的总数的第一比例、和重复的事件的个数相对于属于第二元RCA规则的事件的总数的第二比例中的至少一个,计算出匹配率。根据图24B的例子,显示在显示区域e05中的第一元RCA规则与显示在显示区域e06中的第二元RCA规则部分地一致。第一比例是2/2(=1),第二比例是2/3。如果根据这些比例中的至少一个比例计算出的匹配率为上述X%以上,则显示在显示区域e06中的第二元RCA规则成为检索命中。另外,可以通过参照元RCA规则信息115来确定属于各元RCA规则的事件是哪个。
再次返回图18B的说明。
(步骤1035)上下文匹配分析程序124进行图18F所示的处理。在该处理中,通过对在步骤1031中得到的检索结果评价匹配率,能够从检索命中的多个故障履历登记项中快速地得到条件与检索源的故障分析上下文相近的故障履历登记项。例如,根据以下这样的(A)和(B)的相互一致度进行匹配评价:
(A)根据检索源的故障分析上下文确定的监视对象节点硬件或软件结构、以及设定内容的要素;
(B)根据故障履历登记项确定的监视对象节点的硬件或软件结构、以及设定内容的要素。
以下,说明图18F所示的流程。
(步骤1121)上下文匹配分析程序124将包含在步骤1024中得到的故障分析上下文119的元RCA规则ID(第一元RCA规则的ID)的检索请求发送到故障履历管理程序125。
(步骤1122)程序125接收在步骤1101中发送的检索请求。
(步骤1123)程序125应答在步骤1102中接收到的检索请求来进行检索,向上下文匹配分析程序124发送记录在具有与第一元RCA规则ID相等的元RCA规则ID的故障履历登记项中的信息。
(步骤1124)上下文匹配分析程序124接收在步骤1103中发送的信息。
(步骤1125)程序124进行以下的处理(A)~(D):
(A)从根据检索源的故障分析上下文内的ID确定的服务器记录、开关记录以及存储装置记录中的至少一个记录、和根据在步骤1124中得到的故障履历登记项内的ID确定的服务器记录、开关记录以及存储装置记录中的至少一个记录中,提取出相互一致或近似的值(例如对于连续运转时间,如果误差在3000以内,则为相互近似的值);
(B)从故障履历信息所具有的服务器权重信息800、开关权重信息810以及存储装置权重信息820中,提取出与在上述(A)中得到的各值对应的各项目的权重;
(C)对于每个在步骤1124中得到的故障履历登记项,计算在上述(B)中得到的权重的累计值;
(D)向在步骤1124中得到的各故障履历登记项分配与权重的累计值对应的匹配率(例如向权重的累计值高的故障履历登记项分配高的匹配率,向权重的累计值低的故障履历登记项分配低的匹配率)。
另外,在匹配率的计算中,也可以代替权重的累计值或进一步追加地参考其他要素。
(步骤1126)程序124按照在步骤1125中得到的匹配率的降序排列故障履历登记项。通过进行该处理,系统管理者能够从与本次发生的故障的匹配率高的故障履历开始按顺序地进行参照。
(步骤1127)程序124在步骤1125的比较处理中,使故障履历信息所具有的信息800、810以及820中的与在步骤1125中提取出的值的项目(以下在图18F以及图18G的说明中称为“对象项目”)对应的权重相对地增加。“相对地增加”可以是使与对象项目对应的权重增加,也可以是使与非对象项目对应的权重减少。
(步骤1128)程序124将包含变更了权重的项目的识别信息(例如名称)和更新后的权重(以及/或变化量)的更新请求发送到故障履历管理程序125。
(步骤1129)故障履历管理程序125与上述更新请求对应地,更新故障履历信息内的信息800、810以及820中的至少一个。即,将在步骤1127中计算出的权重反映到故障履历信息内的信息800、810以及820中的对应的记录中。
参照图18G,说明参照图18F说明的流程的概要。
检索源的故障分析上下文(或检索查询),对于属于根据该上下文确定的展开RCA规则(或拓扑结构)的各节点装置,包含表示节点装置的类型以外的各属性的权重的值。
根据该上下文与第一故障履历登记项的比较,多种属性中的供应商和OS一致。因此,与第一故障履历登记项有关的累计值为针对供应商的权重“50”与针对OS的权重“80”的合计“130”。
另一方面,根据该上下文与第二故障履历登记项的比较,多种属性中的IP地址和连续运转时间一致。因此,与第二故障履历登记项有关的累计值为针对IP地址的权重“20”与针对连续运转时间的权重“10”的合计“30”。
其结果是,与第二故障履历登记项相比,第一故障履历登记项与检索源的故障分析上下文的类似度高。
在步骤1125中全部提取出了供应商、IP地址、OS以及连续运转时间的情况下,在步骤1127中,将这些属性的权重设为更高的值。另外,也可以代替与在步骤1125中提取出的值对应的属性或者进一步追加地,将包含表示系统管理者选择出的恢复方法的信息的故障分析记录所具有的各值所对应的属性的权重设置为更高的值。
如上所述,系统管理者根据故障履历信息,确定本次发生的故障的恢复方法。系统管理者在结束本次发生的故障的恢复后,将该事件作为故障履历而实施图17的流程。由此,使与本次发生的故障对应的故障分析上下文、表示本次发生的故障的根本原因的信息、表示本次采用的恢复方法的信息对应起来。
也可以根据在图18B的步骤1031中得到的信息,进行步骤1124以后的处理。
以上,是对实施例1的说明。
根据实施例1,除了表示发生了的故障的根本原因的信息、表示与该根本原因对应的恢复方法的信息以外,故障履历登记项还包含与该发生了的故障对应的故障分析上下文。故障分析上下文是包含用于确定多个原因/结果规则中的成为故障的根本原因的根据的原因/结果规则的信息(以下称为规则确定信息)的信息。原因/结果规则表示以下的(x)以及(y)的对应关系:
(x)作为根本原因的、节点装置的类型与所发生的事件的内容;
(y)作为结果的、节点装置的类型与所发生的事件的内容(在哪个类型的节点装置中发生了怎样的事件)。
从系统管理者向管理服务器输入包含与所发生的故障对应的故障分析上下文的检索查询。管理服务器应答该检索查询,对检索查询所具有的故障分析上下文(第一故障分析上下文)和故障履历信息所具有的各故障履历登记项内的故障分析上下文(第二故障分析上下文)进行比较,由此,确定包含与检索源的故障分析上下文的类似性高的故障分析上下文的故障履历登记项。管理服务器显示被登记在所确定的第二故障履历登记项中的信息(包含表示恢复方法的信息的信息)。由此,系统管理者能够迅速地确定所发生的故障的恢复方法。
另外,可以登记包含与所发生的故障对应的第一故障分析上下文、和表示所确定的恢复方法的信息的新的故障履历登记项。该登记作业可以由系统管理者手动地进行,也可以由管理服务器自动地进行。在后者的情况下,管理服务器例如可以登记包含在检索时使用的第一故障分析上下文、表示所确定的根本原因的信息、表示所确定的恢复方法的信息的故障履历登记项。
另外,在检索包含与第一故障分析上下文类似的第二故障分析上下文的故障履历登记项时,根据第一和第二故障分析上下文内的规则确定信息,确定表示在哪个类型的节点装置中发生了怎样的事件的信息。即,对节点装置的类型进行相互比较。因此,即使发生了相同内容的事件的节点装置不同,只要节点装置的类型相同,则该第二故障分析上下文也与第一故障分析上下文类似。因此,例如在上次某事件在服务器A中发生,这次同一事件在服务器B中发生的情况下,包含与该上次的故障对应的第二故障分析上下文的故障履历登记项有可能成为检索命中的对象。即,能够使类似事件命中。
另外,根据实施例1的说明,原则上,包含与根据第一故障分析上下文确定的原因/结果规则完全一致的原因/结果规则相关联的第二故障分析上下文的故障履历登记项成为检索命中的对象。但是,在命中了的故障履历登记项的个数少于第一个数的情况下,减弱条件而进行再检索。具体地说,例如如果原因/结果规则之间以预定的类似度(但是不满100%)以上类似,则检索履历记录成为命中。另一方面,在命中了的故障履历登记项的个数大于第一个数或比第一个数大的第二个数的情况下,用更严格的条件进行再检索。具体地说,例如在节点装置的类型以外的多个属性中的某种程度的属性一致的情况(节点装置之间以某种程度类似的情况)下,检索履历记录成为命中。
实施例2
<2-0:实施例2的概要>
本发明的实施例2的管理系统具有以下功能:辅助进行对恢复方法的步骤进行归总而登记为元恢复方法的操作;将元恢复方法与元RCA规则对应起来;在参照根本原因时一并显示元恢复方法。
在实施例1中,管理系统显示过去发生了故障的节点的IP地址等标识符,系统管理者将所显示的恢复方法的信息置换为本次发生了故障的节点而进行操作。
在实施例2中,通过使用元恢复方法,管理系统显示出使用了本次发生了故障的节点的标识符的恢复方法。由此,系统管理者在参照根本原因时,能够确定可采取的恢复方法的候补。
<2-1:实施例2中的与实施例1的结构的差异>
使表示元恢复方法(后述)的信息与实施例1的元RCA规则信息115(元RCA记录)对应起来。
在实施例1的步骤1040中,向故障履历的登记画面(图21)追加元恢复方法登记画面(图22A),并追加登记元恢复方法的步骤。
在实施例1的步骤1020中,向根本原因候补列表和确信度画面(图19)追加表示元恢复方法的信息(图23)。
<2-2:用语定义>
“元恢复方法”是指用管理系统提供的有限的要素(对象)的组合定义的恢复方法。元恢复方法是不依存于特定的节点的方法,能够与元RCA规则对应地进行登记。只要能够定义恢复方法,则信息的形式不限。在本实施例中,作为一个例子,假设根据一个以上的Arc(弧线)、Branch(分支)和Command(命令)这3个要素的组合定义元恢复方法。另外,“Arc”表示Branch或Command之间的转移。“Branch”表示条件分支。“Command”表示处理。
<2-3:元恢复方法的登记>
例如在实施例1的步骤1040中发送故障履历的登记信息之前的时刻进行元恢复方法的登记。
图22A表示元恢复方法登记画面的一个例子。
在显示区域e11中设置有Arc(弧线)、Branch(分支)和Command(命令)的图标。系统管理者通过将某个图标拖放到显示区域e12中,能够将图标设置到显示区域e12中。
图22Ae02是用于定义元恢复方法的编辑画面。通过配置显示区域e01的图标,能够定义元恢复方法的结构。
显示区域e13是实施设置在显示区域e12中的各图标的详细设定的窗口。在本图中,表示Branch的设定画面的一个例子。
显示区域e14表示该图标的标识符。
显示区域e15是对条件分支中的条件的对象进行选择的表格。选择项目是系统侧提供的有限的要素。
显示区域e16是对条件分支中的条件的内容进行选择的表格。选择项目是系统侧提供的有限的要素。
显示区域e17对在显示区域e16中定义的条件为真的情况下的转移目的地、为伪的情况下的转移目的地进行定义。
显示区域e18是输入只在显示区域e16中无法全部显示出的分支的内容的详情的表格。由系统管理者通过自然语言登记该信息。
系统管理者如果在该画面中结束了元恢复方法的定义,则通过按下显示区域e19的登记按键来结束登记,使本元恢复方法与在实施例1的步骤1140中登记的元RCA规则信息对应起来。
图23B所示的显示区域e13表示显示区域e13是Command(命令)的设定画面的情况下的一个例子。
图23B所示的显示区域e14表示该图标的标识符。
图23B所示的显示区域e15是对处理的对象进行选择的表格。选择项目是系统侧提供的有限的要素。
图23B所示的显示区域e16是对处理的内容进行选择的表格。选择项目是系统侧提供的有限的要素。
图23B所示的显示区域e17是输入只在显示区域e16中无法全部显示出的处理的内容的详情的表格。由系统管理者通过自然语言登记该信息。
总之,在元恢复方法的定义中,定义从恢复的开始到结束为止的对象的转移的流程。具体地说,定义从哪个对象(条件分支或处理)转移到哪个对象。
<2-4:元恢复方法的取得>
例如,在实施例1的步骤1015中提取出元RCA规则之后立即实施元恢复方法的取得。在登记元恢复方法时与元RCA规则对应地进行登记,因此如果决定了元RCA规则,则也决定了元恢复方法。
在实施例1的步骤1019中,也一起发送元恢复方法。
在实施例1的步骤1020中,除了根本原因和确信度以外,还显示出元恢复方法。
图23是在实施例2中显示的候补/确信度画面的一个例子。
与实施例1的图19相比,在所得到的全部元恢复方法中,追加了表示Command的处理内容的累计的表即显示区域e21、对元恢复方法的Command的处理一览进行列表显示的列即列e22。
根据显示区域e21,显示为“服务器重启动7件、服务器更换2件、从备份恢复2件”。由此,系统管理者容易确定可采取的恢复中的处理的变化。
在列e22中记载有与各根本原因对应的恢复方法的概要。由此,系统管理者能够迅速地确定与各根本原因对应的恢复方法的概要。
以上,根据本发明的实施例2,准备了通过使用了条件分支(Branch)以及处置(Command)这样的公共部分的一连串流程而定义的元恢复方法。另外,使元恢复方法与事件群与根本原因的组合的元RCA规则关联起来。由此,能够将从所发生的故障的检出到恢复方法定义为一个规则。
实施例3
<3-0:实施例3的概要>
针对使用了现有的一般的基于规则的系统的情况下的数据构造,表示具体例子。以下的记载是对实施例1记载的各种信息进行了抽象化的情况下的一个具体例子,但在基于规则的系统的情况下,也可以记述时间性条件等2个以上的物理或逻辑的对象之间的关系以外的内容。
本实施例是应用了上述的非专利文献1的通用的基于规则的系统的本发明的一个实施例。
根据非专利文献1,揭示了一种在基于规则的系统上具有规则存储器和要素(factor)存储器的通用的基于规则的系统。规则存储器存储有不依存于特定的个体地记述的通用规则。要素存储器存储有特定的个体的具体信息。
该基于规则的系统是使用该规则和该信息来导出新的事实的系统。
<3-1:实施例3的具体数据构造>
根据非专利文献1,作为规则而定义因果关系规则(Causality Rule)和拓扑规则(Topology Rule)。
因果关系规则是指不依存于特定拓扑结构而记述了事件与其原因的关系的规则。具体的因果关系规则的例子如下。
C-RULE-100:
IF Server(X)&Storage(Y)&FC-Connected(x,y)&EventHappensOn(IO_Error,x,y,t1)&EventHappensOn  (CTRL_FAIL,y,t2)&WithinTimeWindow(t1,t2,“10minutes”)
THEN IdentifyRootCause(CTRL_FAIL,y)
拓扑规则是指不依存于特定拓扑结构地记述了节点的连接状态的规则。具体的拓扑规则的例子如下。
T-RULE-200:
IF FC-connected(x,y)&FC-connect(z,y)
THEN FC-connected(x,z)。
x,y等小写字母表示变量。IO_ERROR、“ServerA”是表示常数(特定的实例)的常量。
拓扑应用程序121将因果关系规则和拓扑规则存储在基于规则的系统上的规则存储器中。
拓扑应用程序121通过将拓扑规则应用于监视对象节点30,检测下述拓扑要素,并存储到基于规则的系统上的要素存储器中。
TF1:Server(“ServerA”)
TF2:Storage(“StorageA”)
TF3:Switch(“SwitchA”)
TF4:FC-Connected(“SwitchA”,“ABC”)
TF5:FC-Connected(“AMS1000”,“ABC”)
基于规则的系统,将因果关系规则和拓扑要素组合起来,作成以下的例子那样的实例。
C-RULE-100-INSTANCE-1:
IF EventHappensOn(IO_ERROR,“ServerA”,t1)&EventHappensOn(CTRL_FAIL,“StorageA”,t2)&WithinTimeWindow(t1,t2,“10minutes”)
THEN IdentifyRootCause(CTRL_FAIL,“StorageA”)
C-RULE-100-INSTANCE-1也被存储在存储器上。
拓扑应用程序121对监视对象节点30进行监视,在观测到在事件相关处理的时间宽度内发生了“ServerA”上的IO_ERROR事件、“StorageA”上的CTRL_FAIL事件的情况下,拓扑应用程序121针对基于规则的系统,将以下的事件要素存储到存储器中。
EF1:
EventHappensOn(IO_ERROR,“ServerA”,“12:32:12 22009/03/10”)
EF2:
EventHappensOn(CTRL_FAIL,“AMS1000”,“12:32:10 22009/03/10”)
EF3:
WithinTimeWindow(“12:32:10 22009/03/10”,“12:32:12 22009/03/10”,“10minutes”)
基于规则的系统从C-RULE-100-INSTANCE-1和事件要素导出IdentifyRootCause(CTRL_FAIL,“StorageA”),由此能够确定根本原因。
在上述的框架中,C-RULE-100-INSTANCE-1这样的中间形式是展开RCA规则,
C-RULE-100(因果关系规则)与元RCA规则对应,“C-RULE-100”为元RCA规则ID541。
也有使用多个因果关系规则进行多阶段推论的情况,元RCA规则也可以是多个。
在本实施例中,参照存储器的内容,取得与在导出根本原因时利用的元RCA规则对应的因果关系规则、与展开RCA规则对应的实例,作为故障分析上下文进行处理,由此能够得到本发明的效果。
如上所述,能够应用一般的基于规则的系统。另外,也可以采用以下这样的存储形式作为展开RCA规则信息的数据构造。
(A)针对在监视对象节点中发生并由管理系统对成为管理对象的发生部位(包含的节点装置)以及事件内容进行区别的事件,存储全部组合模式。
(B)针对在(A)的组合中能够确定根本原因的组合,将成为根本原因的发生部位(包含节点装置)以及事件内容对应地存储。
另外,也可以省略而不存储没有对应的根本原因的(A)的组合。
根据以上的说明,作为本发明的一个观点,说明了一种管理系统,其具备与多个节点装置进行通信的接口、经由上述接口检测在上述多个节点装置中发生的事件的处理器、存储事件信息、元规则信息、故障履历信息的存储资源、显示与上述多个节点装置有关的信息的显示装置、输入装置,其特征在于:
*上述事件信息包含事件登记项,该事件登记项表示确定上述发生的事件的发生源节点装置的信息、上述发生的事件的种类。
*上述元规则信息包含元规则,该元规则表示有可能在节点装置中潜在发生的潜在事件的种类、在发生了与上述潜在事件的种类对应的事件的情况下能够确定为根本原因的事件的种类。
*上述故障履历信息包含故障履历登记项,该故障履历登记项包含表示恢复方法的信息以及用于识别上述恢复方法所对应的上述元规则的信息。
*上述处理器进行以下操作:
(A)根据上述元规则信息,确定由存储在上述事件信息中的上述事件登记项所确定的第一事件的根本原因即第一原因事件,确定在确定上述第一原因事件时使用的第一元规则;
(B)经由上述输入装置接收从上述第一原因事件恢复的方法即第一恢复方法,根据上述第一恢复方法,将与上述第一元规则对应的第一故障履历登记项追加到上述故障履历信息中;
(C)根据上述元规则信息,确定由存储在上述事件信息中的上述事件登记项所确定的第二事件的根本原因即第二原因事件,确定在确定第二原因事件时使用的第二元规则;
(D)根据上述故障履历信息,确定与上述第二元规则对应的预定的故障履历登记项。
*上述显示装置进行以下操作:
(X)将与上述第二原因事件相关的信息显示为上述第二事件的根本原因;
(Y)根据上述预定的故障履历登记项,显示从上述第二原因事件的恢复方法。
另外,在管理系统中,上述故障履历登记项包含应用了恢复方法的节点装置的标识符,上述显示装置也可以进行如下操作:
(Z)将上述预定的故障履历登记项所示的节点装置的标识符显示为应用了上述(Y)的上述预定的故障履历登记项所示的恢复方法的节点装置的标识符。
另外,在管理系统中,在上述第一原因事件的发生源节点装置和上述第二原因事件的发生源节点装置是不同的节点装置的情况下,上述显示装置也可以进行以下操作:
(a)作为与上述(X)的上述第二原因事件相关的信息的显示,而显示包含上述第二原因事件的发生源节点装置的标识符的信息,
(b)作为上述(Z)的上述预定的故障履历登记项所示的节点装置的标识符的显示,而显示上述第一原因事件的发生源节点装置的标识符。
另外,上述(D)的确定也可以如下:
(D1)选择表示与上述第二元规则相同的元规则的上述故障履历登记项,
(D2)在通过上述(D1)选择出的故障履历登记项的个数不足第一阈值的情况下,根据上述故障履历登记项所对应的元规则、与上述第二元规则的匹配率,确定上述预定的故障履历登记项,
(D3)将通过上述(D1)选择出的故障履历登记项确定为上述预定的故障履历登记项。
另外,上述存储资源存储上述多个节点装置的结构设定信息,上述故障履历登记项包含上述多个节点装置的与该登记项作成时刻对应的过去的结构设定信息,上述(D)的确定也可以如下:
(D4)在通过上述(D1)选择出的故障履历登记项的个数为第二阈值以上的情况下,根据包含在上述故障履历登记项中的上述过去的结构设定信息、与上述结构设定信息的匹配率,确定上述预定的故障履历登记项。
另外,上述(D4)也可以不以(D2)和(D3)为前提。另外,上述存储资源存储表示与结构设定信息的项目有关的权重值的权重信息,也可以根据上述权重信息来进行上述(D4)的确定。
另外,上述(B)的第一恢复方法,是不包含上述第一原因事件的发生源节点装置的标识符的恢复方法即元恢复方法,上述(Y)的从上述第二原因事件的恢复方法的显示,也可以是上述元恢复方法和上述第二原因事件的发生源节点装置的标识符的显示。
存储资源可以在管理系统中,也可以在管理系统外。在管理系统中的情况下,存储资源例如是存储器。在管理系统外的情况下,存储资源例如是存储装置(例如盘阵列装置)。
以上说明了本发明的几个实施例,但这些是用于说明本发明的示例,并不是要将本发明的范围只限定于这些实施例。本发明也可以通过其他各种形式来实施。
符号说明
10:管理服务器

Claims (15)

1.一种计算机系统,包括:多个节点装置;检测在上述多个节点装置中发生的事件的管理系统,所述计算机系统的特征在于,
上述管理系统存储事件信息、元规则信息和故障履历信息,
上述事件信息包含事件登记项,该事件登记项表示用于确定上述所发生的事件的发生源节点装置的信息、和上述所发生的事件的种类,
上述元规则信息包含元规则,该元规则表示有可能在节点装置中潜在地发生的潜在事件的种类、在发生了与上述潜在事件的种类对应的事件的情况下能够确定为根本原因的事件的种类,
上述故障履历信息包含故障履历登记项,该故障履历登记项包含表示恢复方法的信息以及用于识别上述恢复方法所对应的上述元规则的信息,
上述管理系统进行以下操作:
(A)根据上述元规则信息,确定由存储在上述事件信息中的上述事件登记项所确定的第一事件的根本原因、即第一原因事件,确定在确定上述第一原因事件时所使用的第一元规则;
(B)经由上述输入装置接收从上述第一原因事件恢复的方法、即第一恢复方法,根据上述第一恢复方法,将与上述第一元规则对应的第一故障履历登记项追加到上述故障履历信息中;
(C)根据上述元规则信息,确定由存储在上述事件信息中的上述事件登记项所确定的第二事件的根本原因、即第二原因事件,确定在确定第二原因事件时所使用的第二元规则;
(D)根据上述故障履历信息,确定与上述第二元规则对应的预定的故障履历登记项,
(X)将与上述第二原因事件相关的信息作为上述第二事件的根本原因来显示;以及
(Y)根据上述预定的故障履历登记项,显示从上述第二原因事件的恢复方法。
2.根据权利要求1所述的计算机系统,其特征在于,
上述故障履历登记项包含应用了恢复方法的节点装置的标识符,
上述管理系统进行如下操作:
(Z)将上述预定的故障履历登记项所示的节点装置的标识符,作为应用了上述(Y)的上述预定的故障履历登记项所示的恢复方法的节点装置的标识符来显示。
3.根据权利要求2所述的计算机系统,其特征在于,
在上述第一元规则与上述第二元规则相同的情况下,上述(Y)的上述预定的故障履历登记项所示的恢复方法,是上述第一故障履历登记项所示的第一恢复方法,
在上述第一原因事件的发生源节点装置和上述第二原因事件的发生源节点装置是不同的节点装置的情况下,上述管理系统进行如下操作:
(a)作为与上述(X)的上述第二原因事件相关的信息的显示,而显示包含上述第二原因事件的发生源节点装置的标识符的信息,
(b)作为上述(Z)的上述预定的故障履历登记项所示的节点装置的标识符的显示,而显示上述第一原因事件的发生源节点装置的标识符。
4.根据权利要求2所述的计算机系统,其特征在于,
上述(D)的确定包含如下操作:
(D1)选择表示与上述第二元规则相同的元规则的上述故障履历登记项,
(D2)在通过上述(D1)选择出的故障履历登记项的个数不足第一阈值的情况下,根据上述故障履历登记项所对应的元规则、与上述第二元规则的匹配率,确定上述预定的故障履历登记项,
(D3)将通过上述(D1)选择出的故障履历登记项确定为上述预定的故障履历登记项。
5.根据权利要求4所述的计算机系统,其特征在于,
上述存储资源存储上述多个节点装置的结构设定信息,
上述故障履历登记项包含上述多个节点装置的与该登记项作成时刻对应的过去的结构设定信息,
上述(D)的确定包含如下操作:
(D4)在通过上述(D1)选择出的故障履历登记项的个数为第二阈值以上的情况下,根据包含在上述故障履历登记项中的上述过去的结构设定信息、与上述结构设定信息的匹配率,确定上述预定的故障履历登记项。
6.根据权利要求5所述的计算机系统,其特征在于,
上述存储资源存储表示与结构设定信息的项目有关的权重值的权重信息,
根据上述权重信息来进行上述(D4)的确定。
7.根据权利要求1所述的计算机系统,其特征在于,
上述(B)的第一恢复方法是不包含上述第一原因事件的发生源节点装置的标识符的恢复方法、即元恢复方法,
上述(Y)的从上述第二原因事件的恢复方法的显示,是上述元恢复方法和上述第二原因事件的发生源节点装置的标识符的显示。
8.一种管理系统,其特征在于,包括:
与多个节点装置进行通信的接口;
处理器,其经由上述接口,检测在上述多个节点装置中发生的事件;
存储资源,其存储事件信息、元规则信息和故障履历信息;
显示装置,其显示与上述多个节点装置有关的信息;以及
输入装置,
上述事件信息包含事件登记项,该事件登记项表示用于确定上述所发生的事件的发生源节点装置的信息、和上述所发生的上述事件的种类,
上述元规则信息包含元规则,该元规则表示有可能在节点装置中潜在地发生的潜在事件的种类、在发生了与上述潜在事件的种类对应的事件的情况下能够确定为根本原因的事件的种类,
上述故障履历信息包含故障履历登记项,该故障履历登记项包含表示恢复方法的信息以及用于识别上述恢复方法所对应的上述元规则的信息,
上述处理器进行以下操作:
(A)根据上述元规则信息,确定由存储在上述事件信息中的上述事件登记项所确定的第一事件的根本原因、即第一原因事件,确定在确定上述第一原因事件时所使用的第一元规则;
(B)经由上述输入装置接收从上述第一原因事件恢复的方法、即第一恢复方法,根据上述第一恢复方法,将与上述第一元规则对应的第一故障履历登记项追加到上述故障履历信息中;
(C)根据上述元规则信息,确定由存储在上述事件信息中的上述事件登记项所确定的第二事件的根本原因、即第二原因事件,确定在确定第二原因事件时所使用的第二元规则;
(D)根据上述故障履历信息,确定与上述第二元规则对应的预定的故障履历登记项,
上述显示装置进行以下操作:
(X)将与上述第二原因事件相关的信息作为上述第二事件的根本原因来显示;
(Y)根据上述预定的故障履历登记项,显示从上述第二原因事件的恢复方法。
9.根据权利要求8所述的管理系统,其特征在于,
上述故障履历登记项包含应用了恢复方法的节点装置的标识符,
上述显示装置进行如下操作:
(Z)将上述预定的故障履历登记项所示的节点装置的标识符,作为应用了上述(Y)的上述预定的故障履历登记项所示的恢复方法的节点装置的标识符来显示。
10.根据权利要求9所述的管理系统,其特征在于,
在上述第一原因事件的发生源节点装置和上述第二原因事件的发生源节点装置是不同的节点装置的情况下,上述显示装置进行如下操作:
(a)作为与上述(X)的上述第二原因事件相关的信息的显示,而显示包含上述第二原因事件的发生源节点装置的标识符的信息,
(b)作为上述(Z)的上述预定的故障履历登记项所示的节点装置的标识符的显示,而显示上述第一原因事件的发生源节点装置的标识符。
11.根据权利要求9所述的管理系统,其特征在于,
上述(D)的确定包含如下操作:
(D1)选择表示与上述第二元规则相同的元规则的上述故障履历登记项,
(D2)在通过上述(D1)选择出的故障履历登记项的个数未满第一阈值的情况下,根据上述故障履历登记项所对应的元规则、与上述第二元规则的匹配率,确定上述预定的故障履历登记项,
(D3)将通过上述(D1)选择出的故障履历登记项确定为上述预定的故障履历登记项。
12.根据权利要求11所述的管理系统,其特征在于,
上述存储资源存储上述多个节点装置的结构设定信息,
上述故障履历登记项包含上述多个节点装置的与该登记项作成时刻对应的过去的结构设定信息,
上述(D)的确定包含如下操作:
(D4)在通过上述(D1)选择出的故障履历登记项的个数为第二阈值以上的情况下,根据包含在上述故障履历登记项中的上述过去的结构设定信息、与上述结构设定信息的匹配率,确定上述预定的故障履历登记项。
13.根据权利要求12所述的管理系统,其特征在于,
上述存储资源存储表示与结构设定信息的项目有关的权重值的权重信息,
根据上述权重信息来进行上述(D4)的确定。
14.根据权利要求8所述的管理系统,其特征在于,
上述(B)的第一恢复方法是不包含上述第一原因事件的发生源节点装置的标识符的恢复方法、即元恢复方法,
上述(Y)的从上述第二原因事件的恢复方法的显示,是上述元恢复方法和上述第二原因事件的发生源节点装置的标识符的显示。
15.一种对多个节点装置进行管理的管理系统的管理方法,其特征在于:
上述管理系统,具有针对有可能在多个节点装置中发生的事件来确定成为根本原因的事件的元规则、以及与元规则对应的故障恢复方法,
上述管理系统显示成为管理服务器所检测到的事件的根本原因的原因事件、和从上述原因事件的恢复方法。
CN200980160965.4A 2009-07-16 2009-07-16 输出表示与故障的根本原因对应的恢复方法的信息的管理系统 Expired - Fee Related CN102473129B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/003358 WO2011007394A1 (ja) 2009-07-16 2009-07-16 障害の根本原因に対応した復旧方法を表す情報を出力する管理システム

Publications (2)

Publication Number Publication Date
CN102473129A true CN102473129A (zh) 2012-05-23
CN102473129B CN102473129B (zh) 2015-12-02

Family

ID=43449016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980160965.4A Expired - Fee Related CN102473129B (zh) 2009-07-16 2009-07-16 输出表示与故障的根本原因对应的恢复方法的信息的管理系统

Country Status (5)

Country Link
US (2) US8429453B2 (zh)
EP (1) EP2455863A4 (zh)
JP (1) JP5385982B2 (zh)
CN (1) CN102473129B (zh)
WO (1) WO2011007394A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440174A (zh) * 2013-08-02 2013-12-11 杭州华为数字技术有限公司 一种错误信息处理方法、装置及应用该装置的电子设备
CN104854820A (zh) * 2012-12-12 2015-08-19 三菱电机株式会社 监视控制装置和监视控制方法
CN112822032A (zh) * 2019-11-18 2021-05-18 瞻博网络公司 网络的网络模型感知诊断
US11809266B2 (en) 2020-07-14 2023-11-07 Juniper Networks, Inc. Failure impact analysis of network events
US11956116B2 (en) 2020-01-31 2024-04-09 Juniper Networks, Inc. Programmable diagnosis model for correlation of network events

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011007394A1 (ja) * 2009-07-16 2011-01-20 株式会社日立製作所 障害の根本原因に対応した復旧方法を表す情報を出力する管理システム
JP5419746B2 (ja) * 2010-02-23 2014-02-19 株式会社日立製作所 管理装置及び管理プログラム
US8451739B2 (en) 2010-04-15 2013-05-28 Silver Spring Networks, Inc. Method and system for detecting failures of network nodes
US8943364B2 (en) * 2010-04-30 2015-01-27 International Business Machines Corporation Appliance for storing, managing and analyzing problem determination artifacts
US8429455B2 (en) * 2010-07-16 2013-04-23 Hitachi, Ltd. Computer system management method and management system
US8386850B2 (en) * 2010-09-29 2013-02-26 Sepaton, Inc. System health monitor
US8572434B2 (en) 2010-09-29 2013-10-29 Sepaton, Inc. System health monitor
JP5678717B2 (ja) * 2011-02-24 2015-03-04 富士通株式会社 監視装置、監視システムおよび監視方法
EP2674865A4 (en) * 2011-09-26 2016-06-01 Hitachi Ltd ADMINISTRATIVE COMPUTERS AND METHODS OF BASIC ANALYSIS
WO2013057790A1 (ja) * 2011-10-18 2013-04-25 富士通株式会社 情報処理装置、時刻補正値決定方法、およびプログラム
CN103176873A (zh) * 2011-12-23 2013-06-26 鸿富锦精密工业(深圳)有限公司 计数卡
US8977886B2 (en) * 2012-02-14 2015-03-10 Alcatel Lucent Method and apparatus for rapid disaster recovery preparation in a cloud network
WO2013140608A1 (ja) * 2012-03-23 2013-09-26 株式会社日立製作所 イベントの根本原因の解析を支援する方法及びシステム
US8996532B2 (en) 2012-05-21 2015-03-31 International Business Machines Corporation Determining a cause of an incident based on text analytics of documents
EP2865133A1 (en) * 2012-06-25 2015-04-29 Kni M Szaki Tanácsadó Kft. Methods of implementing a dynamic service-event management system
EP2808796A4 (en) * 2012-09-03 2016-04-13 Hitachi Ltd MANAGEMENT SYSTEM FOR MANAGING A COMPUTER SYSTEM COMPRISING A PLURALITY OF DEVICES TO BE MONITORED
AU2013323618B2 (en) * 2012-09-25 2019-04-04 Mx Technologies Inc. Aggregation source routing
WO2014068659A1 (ja) * 2012-10-30 2014-05-08 株式会社日立製作所 管理計算機およびルール生成方法
US9628360B2 (en) 2013-03-15 2017-04-18 Hitachi, Ltd. Computer management system based on meta-rules
EP2887222B1 (en) * 2013-04-05 2020-07-15 Hitachi, Ltd. Management system and management program
US10169122B2 (en) * 2013-04-29 2019-01-01 Moogsoft, Inc. Methods for decomposing events from managed infrastructures
US9747156B2 (en) 2013-10-30 2017-08-29 Hitachi, Ltd. Management system, plan generation method, plan generation program
DE112013006475T5 (de) * 2013-11-29 2015-10-08 Hitachi, Ltd. Verwaltungssystem und Verfahren zur Unterstützung einer Analyse in Bezug auf eine Hauptursache eines Ereignisses
CN104035849B (zh) * 2014-06-19 2017-02-15 浪潮电子信息产业股份有限公司 一种防止Rack机柜风扇管理失效的方法
JP6470764B2 (ja) * 2015-01-30 2019-02-13 株式会社日立パワーソリューションズ システム管理装置及びシステム管理方法並びに情報システム
JP5993052B2 (ja) * 2015-03-23 2016-09-14 株式会社日立製作所 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム
US9692815B2 (en) 2015-11-12 2017-06-27 Mx Technologies, Inc. Distributed, decentralized data aggregation
US9830150B2 (en) 2015-12-04 2017-11-28 Google Llc Multi-functional execution lane for image processor
US10180869B2 (en) * 2016-02-16 2019-01-15 Microsoft Technology Licensing, Llc Automated ordering of computer system repair
CN105786635B (zh) * 2016-03-01 2018-10-12 国网江苏省电力公司电力科学研究院 一种面向故障敏感点动态检测的复杂事件处理系统及方法
US9922539B1 (en) * 2016-08-05 2018-03-20 Sprint Communications Company L.P. System and method of telecommunication network infrastructure alarms queuing and multi-threading
JP6885193B2 (ja) * 2017-05-12 2021-06-09 富士通株式会社 並列処理装置、ジョブ管理方法、およびジョブ管理プログラム
US10977154B2 (en) * 2018-08-03 2021-04-13 Dynatrace Llc Method and system for automatic real-time causality analysis of end user impacting system anomalies using causality rules and topological understanding of the system to effectively filter relevant monitoring data
US10282248B1 (en) * 2018-11-27 2019-05-07 Capital One Services, Llc Technology system auto-recovery and optimality engine and techniques
US10824528B2 (en) 2018-11-27 2020-11-03 Capital One Services, Llc Techniques and system for optimization driven by dynamic resilience
US11093319B2 (en) * 2019-05-29 2021-08-17 Microsoft Technology Licensing, Llc Automated recovery of webpage functionality
US11281694B2 (en) 2019-07-10 2022-03-22 International Business Machines Cormoration Remote data capture in data replication environments
US11907087B2 (en) 2019-07-10 2024-02-20 International Business Machines Corporation Remote health monitoring in data replication environments
US10686645B1 (en) 2019-10-09 2020-06-16 Capital One Services, Llc Scalable subscriptions for virtual collaborative workspaces
CN113328872B (zh) * 2020-02-29 2023-03-28 华为技术有限公司 故障修复方法、装置和存储介质
JP7380840B2 (ja) * 2020-03-19 2023-11-15 日本電信電話株式会社 ネットワーク管理装置、方法およびプログラム
US20220182278A1 (en) * 2020-12-07 2022-06-09 Citrix Systems, Inc. Systems and methods to determine root cause of connection failures
JP2022115316A (ja) * 2021-01-28 2022-08-09 株式会社日立製作所 ログ検索支援装置、及びログ検索支援方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040059966A1 (en) * 2002-09-20 2004-03-25 International Business Machines Corporation Adaptive problem determination and recovery in a computer system
CN1763720A (zh) * 2004-09-30 2006-04-26 西门子公司 基于诊断和修复事件日志的模型
US20080183855A1 (en) * 2006-12-06 2008-07-31 International Business Machines Corporation System and method for performance problem localization

Family Cites Families (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4779208A (en) * 1983-09-28 1988-10-18 Hitachi, Ltd. Information processing system and method for use in computer systems suitable for production system
US5261086A (en) * 1987-10-26 1993-11-09 Nec Corporation Performance analyzing and diagnosing system for computer systems
US5214653A (en) * 1990-10-22 1993-05-25 Harris Corporation Fault finder expert system
US5572670A (en) * 1994-01-10 1996-11-05 Storage Technology Corporation Bi-directional translator for diagnostic sensor data
US5557765A (en) * 1994-08-11 1996-09-17 Trusted Information Systems, Inc. System and method for data recovery
US6072777A (en) * 1996-06-28 2000-06-06 Mci Communications Corporation System and method for unreported root cause analysis
US6226659B1 (en) * 1996-09-16 2001-05-01 Oracle Corporation Method and apparatus for processing reports
AU758006B2 (en) * 1997-05-06 2003-03-13 Speechworks International, Inc. System and method for developing interactive speech applications
US7752024B2 (en) * 2000-05-05 2010-07-06 Computer Associates Think, Inc. Systems and methods for constructing multi-layer topological models of computer networks
US7500143B2 (en) * 2000-05-05 2009-03-03 Computer Associates Think, Inc. Systems and methods for managing and analyzing faults in computer networks
US20020171546A1 (en) * 2001-04-18 2002-11-21 Evans Thomas P. Universal, customizable security system for computers and other devices
JP2004535018A (ja) 2001-07-06 2004-11-18 コンピュータ アソシエイツ シンク,インコーポレイテッド システム及び企業事象の根本原因を相関付けし判定するための方法とシステム
US6792393B1 (en) * 2001-12-03 2004-09-14 At&T Corp. System and method for diagnosing computer system operational behavior
US20040153692A1 (en) * 2001-12-28 2004-08-05 O'brien Michael Method for managing faults it a computer system enviroment
WO2004061681A1 (ja) * 2002-12-26 2004-07-22 Fujitsu Limited 運用管理方法および運用管理サーバ
US6965845B2 (en) 2003-03-31 2005-11-15 Emc Corporation Method and apparatus for system management using codebook correlation with symptom exclusion
US7254515B1 (en) * 2003-03-31 2007-08-07 Emc Corporation Method and apparatus for system management using codebook correlation with symptom exclusion
US20050091356A1 (en) * 2003-10-24 2005-04-28 Matthew Izzo Method and machine-readable medium for using matrices to automatically analyze network events and objects
JP2005165847A (ja) * 2003-12-04 2005-06-23 Fujitsu Ltd ポリシールールシナリオ制御装置及び制御方法
US7478404B1 (en) 2004-03-30 2009-01-13 Emc Corporation System and methods for event impact analysis
US7965620B2 (en) * 2004-05-25 2011-06-21 Telcordia Licensing Company, Llc Method, computer product and system for correlating events in a network
JP3826940B2 (ja) * 2004-06-02 2006-09-27 日本電気株式会社 障害復旧装置および障害復旧方法、マネージャ装置並びにプログラム
US7536370B2 (en) * 2004-06-24 2009-05-19 Sun Microsystems, Inc. Inferential diagnosing engines for grid-based computing systems
US20060112061A1 (en) * 2004-06-24 2006-05-25 Masurkar Vijay B Rule based engines for diagnosing grid-based computing systems
US7631222B2 (en) * 2004-08-23 2009-12-08 Cisco Technology, Inc. Method and apparatus for correlating events in a network
US7275017B2 (en) 2004-10-13 2007-09-25 Cisco Technology, Inc. Method and apparatus for generating diagnoses of network problems
US7954090B1 (en) * 2004-12-21 2011-05-31 Zenprise, Inc. Systems and methods for detecting behavioral features of software application deployments for automated deployment management
DE112005003530T5 (de) * 2005-04-08 2008-03-27 Hewlett-Packard Development Company, L.P., Houston Fehlercodesystem
US7426654B2 (en) * 2005-04-14 2008-09-16 Verizon Business Global Llc Method and system for providing customer controlled notifications in a managed network services system
US7571150B2 (en) * 2005-04-15 2009-08-04 Microsoft Corporation Requesting, obtaining, and processing operational event feedback from customer data centers
JP4672722B2 (ja) * 2005-04-25 2011-04-20 富士通株式会社 ネットワーク設計処理装置,方法およびそのプログラム
US7949904B2 (en) * 2005-05-04 2011-05-24 Microsoft Corporation System and method for hardware error reporting and recovery
US8392236B2 (en) * 2005-05-13 2013-03-05 The Boeing Company Mobile network dynamic workflow exception handling system
JP2006338305A (ja) 2005-06-01 2006-12-14 Toshiba Corp 監視装置及び監視プログラム
JP4701148B2 (ja) * 2006-03-02 2011-06-15 アラクサラネットワークス株式会社 障害回復システム及びサーバ
US8326969B1 (en) * 2006-06-28 2012-12-04 Emc Corporation Method and apparatus for providing scalability in resource management and analysis system- three way split architecture
US8284675B2 (en) * 2006-06-28 2012-10-09 Rockstar Bidco, L.P. Method and system for automated call troubleshooting and resolution
JP4859558B2 (ja) * 2006-06-30 2012-01-25 株式会社日立製作所 コンピュータシステムの制御方法及びコンピュータシステム
US7924733B2 (en) * 2006-09-28 2011-04-12 Avaya Inc. Root cause analysis of network performance based on exculpation or inculpation sets
JP2008084242A (ja) * 2006-09-29 2008-04-10 Omron Corp データベース作成装置およびデータベース活用支援装置
US7872982B2 (en) * 2006-10-02 2011-01-18 International Business Machines Corporation Implementing an error log analysis model to facilitate faster problem isolation and repair
US7757117B2 (en) * 2007-04-17 2010-07-13 International Business Machines Corporation Method and apparatus for testing of enterprise systems
JP2009043029A (ja) 2007-08-09 2009-02-26 Hitachi Ltd 関連db作成装置
JP5193533B2 (ja) * 2007-09-04 2013-05-08 株式会社東芝 遠隔監視システム及び遠隔監視方法
US8421614B2 (en) * 2007-09-19 2013-04-16 International Business Machines Corporation Reliable redundant data communication through alternating current power distribution system
US7941707B2 (en) * 2007-10-19 2011-05-10 Oracle International Corporation Gathering information for use in diagnostic data dumping upon failure occurrence
US7788534B2 (en) * 2007-12-11 2010-08-31 International Business Machines Corporation Method for monitoring and managing a client device in a distributed autonomic computing environment
US8341014B2 (en) * 2007-12-28 2012-12-25 International Business Machines Corporation Recovery segments for computer business applications
US20090172674A1 (en) * 2007-12-28 2009-07-02 International Business Machines Corporation Managing the computer collection of information in an information technology environment
US8826077B2 (en) * 2007-12-28 2014-09-02 International Business Machines Corporation Defining a computer recovery process that matches the scope of outage including determining a root cause and performing escalated recovery operations
US20090210745A1 (en) * 2008-02-14 2009-08-20 Becker Sherilyn M Runtime Error Correlation Learning and Guided Automatic Recovery
US7835307B2 (en) * 2008-03-14 2010-11-16 International Business Machines Corporation Network discovery tool
US7870441B2 (en) * 2008-03-18 2011-01-11 International Business Machines Corporation Determining an underlying cause for errors detected in a data processing system
US8086905B2 (en) * 2008-05-27 2011-12-27 Hitachi, Ltd. Method of collecting information in system network
US7814369B2 (en) * 2008-06-12 2010-10-12 Honeywell International Inc. System and method for detecting combinations of perfomance indicators associated with a root cause
US8112378B2 (en) 2008-06-17 2012-02-07 Hitachi, Ltd. Methods and systems for performing root cause analysis
WO2010004544A1 (en) * 2008-07-08 2010-01-14 Technion - Research & Development Foundation Ltd Decision support system for project managers and associated method
US8310931B2 (en) * 2008-07-18 2012-11-13 International Business Machines Corporation Discovering network topology from routing information
US8370466B2 (en) * 2008-07-23 2013-02-05 International Business Machines Corporation Method and system for providing operator guidance in network and systems management
US7877636B2 (en) * 2008-08-28 2011-01-25 Honeywell International Inc. System and method for detecting temporal relationships uniquely associated with an underlying root cause
US7962472B2 (en) * 2008-09-29 2011-06-14 International Business Machines Corporation Self-optimizing algorithm for real-time problem resolution using historical data
JP5237034B2 (ja) * 2008-09-30 2013-07-17 株式会社日立製作所 イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。
US8166351B2 (en) * 2008-10-21 2012-04-24 At&T Intellectual Property I, L.P. Filtering redundant events based on a statistical correlation between events
US7877642B2 (en) * 2008-10-22 2011-01-25 International Business Machines Corporation Automatic software fault diagnosis by exploiting application signatures
US7954010B2 (en) * 2008-12-12 2011-05-31 At&T Intellectual Property I, L.P. Methods and apparatus to detect an error condition in a communication network
US8055945B2 (en) * 2009-02-02 2011-11-08 International Business Machines Corporation Systems, methods and computer program products for remote error resolution reporting
US7979747B2 (en) * 2009-02-20 2011-07-12 International Business Machines Corporation Interactive problem resolution presented within the context of major observable application behaviors
JP5274652B2 (ja) 2009-03-30 2013-08-28 株式会社日立製作所 原因分析構成変更のための方法および装置
US8527328B2 (en) * 2009-04-22 2013-09-03 Bank Of America Corporation Operational reliability index for the knowledge management system
JP5325981B2 (ja) * 2009-05-26 2013-10-23 株式会社日立製作所 管理サーバ及び管理システム
WO2011007394A1 (ja) * 2009-07-16 2011-01-20 株式会社日立製作所 障害の根本原因に対応した復旧方法を表す情報を出力する管理システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040059966A1 (en) * 2002-09-20 2004-03-25 International Business Machines Corporation Adaptive problem determination and recovery in a computer system
CN1763720A (zh) * 2004-09-30 2006-04-26 西门子公司 基于诊断和修复事件日志的模型
US20080183855A1 (en) * 2006-12-06 2008-07-31 International Business Machines Corporation System and method for performance problem localization

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104854820A (zh) * 2012-12-12 2015-08-19 三菱电机株式会社 监视控制装置和监视控制方法
CN104854820B (zh) * 2012-12-12 2018-06-15 三菱电机株式会社 监视控制装置和监视控制方法
CN103440174A (zh) * 2013-08-02 2013-12-11 杭州华为数字技术有限公司 一种错误信息处理方法、装置及应用该装置的电子设备
CN103440174B (zh) * 2013-08-02 2016-05-25 杭州华为数字技术有限公司 一种错误信息处理方法、装置及应用该装置的电子设备
CN112822032A (zh) * 2019-11-18 2021-05-18 瞻博网络公司 网络的网络模型感知诊断
CN112822032B (zh) * 2019-11-18 2024-03-22 瞻博网络公司 网络的网络模型感知诊断
US11956116B2 (en) 2020-01-31 2024-04-09 Juniper Networks, Inc. Programmable diagnosis model for correlation of network events
US11809266B2 (en) 2020-07-14 2023-11-07 Juniper Networks, Inc. Failure impact analysis of network events

Also Published As

Publication number Publication date
CN102473129B (zh) 2015-12-02
EP2455863A1 (en) 2012-05-23
US8429453B2 (en) 2013-04-23
US9189319B2 (en) 2015-11-17
EP2455863A4 (en) 2013-03-27
US20110264956A1 (en) 2011-10-27
JPWO2011007394A1 (ja) 2012-12-20
US20130219225A1 (en) 2013-08-22
WO2011007394A1 (ja) 2011-01-20
JP5385982B2 (ja) 2014-01-08

Similar Documents

Publication Publication Date Title
CN102473129B (zh) 输出表示与故障的根本原因对应的恢复方法的信息的管理系统
US11055302B2 (en) Method and system for implementing target model configuration metadata for a log analytics system
US7536370B2 (en) Inferential diagnosing engines for grid-based computing systems
US7814194B2 (en) Method and system for machine-aided rule construction for event management
US7506195B2 (en) Operation management method and operation management server
US8930964B2 (en) Automatic event correlation in computing environments
WO2011039826A1 (ja) 取得可能な機器情報に応じた障害原因解析ルールの設計方法及び計算機
US20070266029A1 (en) Recovery segment identification in a computing infrastructure
US20120030346A1 (en) Method for inferring extent of impact of configuration change event on system failure
JP4445300B2 (ja) ネットワーク障害推定方法及びネットワーク障害推定装置
CN106534291A (zh) 基于大数据处理的电压监测方法
US20040186903A1 (en) Remote support of an IT infrastructure
US20200073781A1 (en) Systems and methods of injecting fault tree analysis data into distributed tracing visualizations
CN101548267A (zh) 管理和组织软件包安装的方法和系统
JP2007087232A (ja) システム構成変更によるポリシ修正を容易にするポリシ作成方法、及びポリシ管理方法
CN112148578A (zh) 基于机器学习的it故障缺陷预测方法
CN110008272B (zh) 面向传感器数据的NoSQL数据库评测系统及其构建方法
JP2006025434A (ja) 大容量障害相関システム及び方法
CN108173711B (zh) 企业内部系统数据交换监控方法
US11269753B2 (en) Multi-layered computing system attribute dependency
JP7392852B2 (ja) ルール生成装置、ルール生成方法およびプログラム
CN113821412A (zh) 一种设备运维管理方法及装置
Meng et al. IT troubleshooting with drift analysis in the DevOps era
CN113268891B (zh) 一种运维系统的建模方法和装置
EP3798950A1 (en) Management and aggregation of ticket data from multiple sources

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151202

Termination date: 20180716