CN102959521A - 计算机系统的管理方法以及管理系统 - Google Patents

计算机系统的管理方法以及管理系统 Download PDF

Info

Publication number
CN102959521A
CN102959521A CN2010800674540A CN201080067454A CN102959521A CN 102959521 A CN102959521 A CN 102959521A CN 2010800674540 A CN2010800674540 A CN 2010800674540A CN 201080067454 A CN201080067454 A CN 201080067454A CN 102959521 A CN102959521 A CN 102959521A
Authority
CN
China
Prior art keywords
analytical result
event
node apparatus
fault analytical
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800674540A
Other languages
English (en)
Other versions
CN102959521B (zh
Inventor
永井崇之
国井雅
增田峰义
黑田泽希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of CN102959521A publication Critical patent/CN102959521A/zh
Application granted granted Critical
Publication of CN102959521B publication Critical patent/CN102959521B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

提供能够缩短消除监视对象设备中的故障所需要的时间的故障解析功能。在故障原因解析处理中,在检测到处于异常状态的设备的状态正常化时,关于故障解析结果中的成为其导出根据的设备异常状态已消除的故障解析结果,与其他的解析结果区别地在GUI中进行显示。在通过多个故障事件导出多个故障解析结果时,在确认了全部的故障事件的正常化的时刻,与其他的故障解析结果区别地在GUI中进行显示(参照图16)。

Description

计算机系统的管理方法以及管理系统
技术领域
本发明涉及计算机系统的管理方法以及管理系统,例如涉及对构成计算机系统的主计算机、网络切换器以及存储系统的故障进行管理的技术。
背景技术
在管理计算机系统时,例如像专利文献1所示那样,从在系统内检测到的多个故障或征兆中,检测成为原因的事项(事件)。更具体说,在专利文献1中,使用管理软件,将管理下设备中的性能值超过阈值事件化,在事件DB中积蓄信息。此外,该管理软件具有用于对在管理下设备中产生的多个故障事件的因果关系进行解析的解析引擎。该解析引擎访问具有管理下设备的事件信息的DB,识别位于I/O系统路径上的总线上的设备内构成要素,把对主机上的逻辑卷的性能造成影响的构成要素识别为被称为“拓扑”的组合。然后,解析引擎在发生了事件时对各拓扑应用由事前决定的条件句和解析结果构成的解析规则来构筑展开规则。在该展开规则中包含作为其他装置中的性能降低原因的原因事件和由于该原因事件引起的关联事件组。具体地说,在规则的THEN部中作为故障的根本原因而记载的事件是原因事件,在IF部中记载的事件中的原因事件以外的事件是关联事件。
现有技术文献
专利文献
专利文献1:美国专利7107185号公报
发明内容
发明要解决的课题
在专利文献1的故障解析功能中,把从管理对象设备接收的事件的组合和故障的原因候补记述为IF-THEN形式的规则。故障解析功能通过计算在规则的IF部中记载的事件的发生比例,计算在THEN部中记载的故障原因候补的确信度。根据用户的请求,对计算出的确信度和故障原因候补进行GUI显示。
但是,在这样的现有的故障解析功能中,当在短期内频繁发生故障时,保存的故障解析结果的数量变多,作为管理者无法判断哪个故障是真正应该处理的故障。即,在现有的故障解析结果中没有与对策执行优先度有关的信息,所以直到管理者参照本来应该采取对策的解析结果的时间变长,结果消耗故障所需的时间变长。
本发明是鉴于该状况而提出的,其目的地在于提供一种能够缩短消除监视对象设备中的故障所需要的时间的故障解析功能。
解决课题的手段
为了解决上述课题,在本发明中,在故障原因解析处理后,在检测到处于异常状态的设备的状态正常化时,关于故障解析结果中的成为其导出根据的设备异常状态已消除的故障解析结果,与其他的解析结果区别地在GUI中进行显示。在通过多个故障事件导出多个故障解析结果时,在确认了全部的故障事件的正常化的时刻,与其他的故障解析结果区别地在GUI中进行显示。
此外,在本发明中,在接收到在管理对象设备中与成为对业务带来障碍的事态无关地产生,并且在产生后迅速正常化的故障事件时,检测到处于异常状态的设备的状态正常化,在成为其导出根据的设备异常状态全部消除的时刻,将故障原因候补与确信度一同作为故障解析结果进行保存。此外,关于故障解析结果,与其他的解析结果区别地在GUI中进行显示。
即,在本发明中,在管理服务器中,取得表示节点装置的处理性能的处理性能值,根据该取得的处理性能值检测节点装置的状态,把检测到的状态用于解析规则中,解析规则表示在节点装置中可能发生的一个以上的条件事件的组合与被看做条件事件的组合的根本原因的结论事件的关系。然后,计算表示在节点装置中发生故障的可能性的信息即确信度,根据确信度判断在节点装置中是否发生了故障。此外,在管理服务器中,对于被判断为发生了故障的节点装置,不改变确信度的信息,在显示画面中显示状态一直为异常的节点装置的故障解析结果即未解决故障解析结果和状态从异常变化为正常的节点装置的故障解析结果即已解决故障解析结果。在显示解析结果时,可以将未解决故障解析结果和已解决故障解析结果相区别地在显示画面中显示,或者对于未解决故障解析结果和已解决故障解析结果,把处理优先度一同显示在显示画面中。
根据以下用于实施本发明的实施方式以及附图,本发明的特征将会变得明确。
发明的效果
根据本发明,在向管理者(用户)提示故障解析结果时,通过反映并显示接收到的故障的正常化,管理者能够容易地判断解析结果的应对优先度,能够减轻解析结果确认的负担。
附图说明
图1表示计算机系统的物理结构例。
图2表示主计算机的详细结构例。
图3表示存储装置的详细结构例。
图4表示管理服务器的详细结构例。
图5表示管理服务器具有的装置性能管理表的结构例。
图6表示管理服务器具有的卷拓扑管理表的结构例。
图7表示管理服务器具有的事件管理表的结构例。
图8A表示管理服务器具有的通用规则的结构例(1)。
图8B表示管理服务器具有的通用规则的结构例(2)。
图9A表示管理服务器具有的展开规则的结构例(1)。
图9B表示管理服务器具有的展开规则的结构例(2)。
图9C表示管理服务器具有的展开规则的结构例(3)。
图9D表示管理服务器具有的展开规则的结构例(4)。
图10表示管理服务器具有的解析结果管理表的结构例。
图11是用于说明管理服务器实施的性能信息取得处理的概要的流程图。
图12是用于说明管理服务器执行的故障解析处理的流程图。
图13表示管理服务器具有的事件类别管理表的结构例。
图14表示管理服务器具有的性能评价管理表的结构例。
图15是用于说明在第一实施方式中,管理服务器执行的已解决事件反映处理的流程图。
图16表示在第一实施方式中,管理服务器显示的故障解析结果画面的结构例。
图17用于说明在第二实施方式中,管理服务器执行的瞬间故障事件反映处理的流程图。
图18表示在第二实施方式中,管理服务器显示的故障解析结果画面的结构例。
图19表示在实施例3中管理服务器具有的解析结果管理表的结构例。
图20用于说明在第三实施方式中,管理服务器执行的故障解析结果的处理优先度设定处理的流程图。
图21表示在第三实施方式中,管理服务器显示的故障解析结果画面的结构例。
具体实施方式
本发明的实施方式涉及带有故障消除的故障根本原因解析。
以下参照附图对本发明的实施方式进行说明。但是,应该注意本实施方式仅是用于实现本发明的一个例子,并不限定本发明的技术范围。此外,对于在各图中公共的结构赋予相同的参照符号。
在本说明书中,使用“aaa表”的表现方式对在本发明中使用的信息进行说明,但是也可以通过“aaa表”、“aaa列表”、“aaaDB”、“aaa队列”的表现形式或表、列表、DB、队列等数据结构以外的数据结构来表现。因此,为了表示在本发明中使用的信息不依赖于数据结构,有时对于“aaa表”、“aaa列表”、“aaaDB”、“aaa队列”等称为“aaa信息”。
此外,在说明各信息的内容时,使用“识别信息”、“识别符”、“名”、“名称”、“ID”这样的表现,但是它们可以相互置换。
并且,在以后的本发明的处理动作的说明中,有时将“程序”或“模块”作为动作主体(主语)来进行说明,但是因为程序或模块通过处理器来执行,使用存储器以及通信端口(通信控制装置)进行已决定的处理,因此可以改称为将处理器作为动作主体(主语)的处理。此外,可以把以程序或模块作为主语而公开的处理作为管理服务器等计算机、信息处理装置进行的处理。可以通过专用硬件来实现程序的一部分或全部。此外,可以通过程序分发服务器或存储介质在各计算机中安装各种程序。
(1)第一实施方式
第一实施方式涉及基于管理软件(例如包含在管理服务器中)的已解决事件反映处理。
(系统结构)
图1表示本发明的计算机系统的物理结构。该计算机系统具有存储装置20000、主计算机10000、管理服务器30000、WEB浏览器启动服务器35000、IP切换器400000,它们通过网络45000连接。
主计算机10000至10010例如从与它们连接的未图示的客户计算机接收文件的I/O请求,据此实现向存储装置20000至20010的访问。此外,管理服务器(管理计算机)30000管理该整个计算机系统的运用。
WEB浏览器启动服务器35000经由网络45000与管理服务器30000的GUI显示处理模块32400进行通信,在WEB浏览器上显示各种信息。用户通过参照在WEB浏览器启动服务器上的WEB浏览器中显示的信息,管理计算机系统内的装置。其中,管理服务器30000和WEB浏览器启动服务器35000可以由一台服务器构成。
(主计算机的内部结构)
图2表示本发明的主计算机10000的详细内部结构例。主计算机10000具有用于与网络45000连接的端口11000、处理器12000、存储器13000(作为结构还可以包含盘装置),它们经由内部总线等线路相互连接。
在存储器13000中存储有业务应用程序13100和操作系统13200。
业务应用程序13100使用从操作系统13200提供的存储区域,对该存储区域进行数据输入输出(以下记载为I/O)。
操作系统13200把经由网络45000与主计算机10000连接的存储装置20000至20010上的逻辑卷作为存储区域,执行用于使业务应用程序13100进行识别的处理。
在图2中将端口11000表现为包含通过iSCSI与存储装置20000进行通信的I/O端口和管理服务器30000用于取得主计算机10000至10010内的管理信息的管理端口的单一的端口,但是也可以分为通过iSCSI进行通信的I/O端口和管理端口。
(存储装置的内部结构)
图3表示本发明的存储装置20000的详细的内部结构例。存储装置20010也具有相同的结构。
存储装置20000具有经由网络45000用于与主计算机10000连接的I/O端口21000以及21010、经由网络45000用于与管理服务器30000连接的管理端口21100、用于存储各种管理信息的管理存储器23000、用于存储数据的RAID组24000至24010、用于控制数据或管理存储器内的管理信息的控制器2500以及25010,它们经由内部总线等线路相互连接。关于RAID组24000值24010的连接,更加正确地是指构成RAID组24000至24010的存储设备与其他结构物连接。
在管理存储器23000中存储存储装置的管理程序23100。管理程序23100经由管理端口21100与管理服务器30000通信,对管理服务器30000提供存储装置20000的结构信息。
RAID组24000以及24010分别由一个或多个磁盘24200、24210、24220以及24230构成。在由多个磁盘构成时,这些磁盘可以组成RAID结构。此外,RAID组24000至24010逻辑上被划分为多个卷24100至24110。
逻辑卷24100以及24110如果使用一个以上的磁盘的记录区域来构成,则可以不组成RAID结构。并且,如果提供与逻辑卷对应的存储区域,则可以是使用闪速存储器等其他存储介质的存储设备来取代磁盘。
控制器25000以及25010在其内部具有进行存储装置20000内的控制的处理器、临时存储在与主计算机10000之间交换的数据的高速缓冲存储器。并且,各个控制器存在于I/O端口和RAID组之间,在两者之间进行数据的交接。
存储装置20000如果包含对于某个主计算机提供逻辑卷,接收访问请求(指I/O请求),根据接收到的访问请求进行向存储设备的写入的存储控制器以及提供存储区域的上述的存储设备,则可以是图3以及上述说明以外的结构,例如可以将存储控制器和提供存储区域的存储设备放置在不同的机箱内。即,在图3的例子中,将管理存储器23000和控制器25000以及25110设计为单独存在,但也可以构成为它们成为一体的存储控制器。此外,在本说明书中,作为包含存储控制器和存储设备存在于相同的机箱内的情况或存在于不同机箱的情况的表现,可以将存储装置改称为存储系统。
(管理服务器的内部结构)
图4表示本发明的管理服务器30000的详细的内部结构例子。管理服务器30000具有用于与网络45000连接的管理端口31000、处理器31100、闪速存储器等存储器32000、HDD等二次存储装置(二次存储区域)33000、用于输出后述的处理结果的显示器装置等输出设备32100、用于存储管理者输入指示的键盘等输入设备31300,它们经由内部总线等线路相互连接。
在存储器32000中存储有程序控制模块32100、结构管理信息取得模块32200、装置性能取得模块32300、GUI显示处理模块32400、事件解析处理模块32500、规则展开模块32600。在图4中,作为存储器32000的软件模块来提供各模块,也可以作为硬件模块来提供。此外,可以作为一个以上的程序代码来提供各模块进行的处理,可以不存在模块间的明确的边界。可以将模块改称为程序。
在二次存储区域33000中存储有装置性能管理表33100、卷拓扑管理表33200、事件管理表33300、通用规则仓库33400、展开规则仓库33500、解析结果管理表33600、事件类别管理表33700、性能评价管理表33800。二次存储区域33000可以由半导体存储器或磁盘中的任意一方或半导体存储器以及磁盘双方来构成。
GUI显示处理模块33400根据经由输入设备31300来自管理者的请求,经由输出设备31200显示所取得的结构管理信息。输入设备和输出设备可以是不同的设备,也可以是一个以上的综合设备。
管理服务器(管理计算机)30000例如具有键盘和指点设备来作为输入设备31300、具有显示器或打印机等来作为输出设备31200,但可以是这以外的装置。此外,作为输入输出设备的替代,可以使用串行接口或以太网接口,在该接口上连接具有显示器或键盘或指点设备的显示用计算机,向显示用计算机发送显示用信息,或者从显示用计算机接收输入用信息,由此通过显示用计算机进行显示或接收输入,由此来取代通过输入输出设备的输入以及显示。
在本说明书中,有时把管理计算机系统(信息处理系统)1,显示显示用信息的一个以上的计算机集合称为管理系统。在管理服务器30000显示显示用信息时,管理服务器30000是管理系统,此外,管理服务器30000和显示用计算机(例如图1的WEB浏览器启动服务器35000)的组合也是管理系统。此外,为了管理处理的高速化和高可靠性,可以通过多个计算机来实现与管理服务器同等的处理,此时该多个计算机(在显示用计算机进行显示时还包含显示用计算机)是管理系统。
(装置性能管理表的结构)
图5表示管理服务器30000具有的装置性能管理表33100的结构例子。
在装置性能管理表33100中,作为构成项目,包含:登录作为管理对象设备的识别符的装置ID的字段33110、登录作为管理对象设备内部的设备的识别符的设备ID的字段33120、存储管理对象设备的性能信息的评价名称的字段33130、登录检测到阈值异常(根据该阈值判断为异常的含义)的设备的OS类别的字段33140、从该装置取得管理对象设备的性能值然后对其进行存储的字段33150、接收来自用户的输入,存储作为管理对象设备的性能值的正常范围的上限或下限的阈值(警报执行阈值)的字段33160、用于登录阈值为正常值的上限还是下限的字段33170、用于登录性能值是正常值还是异常值的字段33180。
例如,根据图5的第一行(第一条目),可知存储装置SYS1内的控制器CTL1中的处理器的运转率在当前时刻为40%(参照33150),在CTL1的运转率超过20%时(参照33160),管理服务器30000判断为控制器CTL1为过负荷,在该具体例中判断为本性能值为异常值(参照33180)。
在此作为管理服务器30000管理的设备的性能值,列举了每单位时间的I/O量或动作率,但是管理服务器30000管理的性能值可以是其他的值。
(卷拓扑管理表的结构)
图6表示管理服务器30000具有的卷拓扑管理表32200的结构例子。
在卷拓扑管理表33200中,作为构成项目,包含:登录作为存储装置的识别符的装置ID的字段33210、登录作为存储装置具有的卷的识别符的卷ID的字段33220、作为卷与主计算机10000进行通信时使用的端口的识别符的端口ID的字段33230、登录在端口与卷进行通信时使用的控制器的ID的字段32340、登录卷连接的主计算机10000的识别符的字段33250、登录卷成为实体的主计算机10000的逻辑卷的驱动器名的字段33260。
例如,根据图6的第一行(第一条目)可知,存储装置SYS1的卷VOL1经由端口1表示的存储器侧的端口以及CTL1表示的控制器与主计算机即主机1连接,在主机上被识别为逻辑卷(E:)。
(事件管理表的结构)
图7表示管理服务器30000具有的事件管理表33300的结构例子。在后述的故障原因解析处理、已解决事件反映处理中适当地参照该事件管理表33300。
在事件管理表33300中,作为构成项目,包含:登录作为事件自身的识别符的事件ID的字段33310、登录作为发生了在取得的性能值中阈值异常的事件的设备的识别符的装置ID的字段33320、登录发生了事件的设备内的部位的识别符的字段33330、登录检测到阈值异常的评价的名称的字段33340、登录检测到阈值异常的设备的OS类别的字段33350、登录设备内的部位在发生事件时的状态的字段33360、登录通过后述的事件解析处理模块32500是否已经对事件进行了解析的字段33370、登录发生事件的日期时间的字段33380。
例如,根据图7的第一行(第一条目)可知,管理服务器30000检测到存储装置SYS1的通过CTL1表示的控制器中的处理器运转率的阈值异常,该事件ID为EV1。还可以将异常状态变为正常的情况作为事件进行登录。
(通用规则的结构)
图8A以及图8B表示管理服务器30000具有的通用规则仓库33400内的通用规则的结构例子。通用规则(后述的展开规则也相同)表示在构成计算机系统的节点装置中可能产生的一个以上的条件事件的组合与被看做条件事件的组合的根本原因的结论事件的关系。
一般,在故障解析中用于确定根本原因的事件传播模型以“IF-THEN”的形式记载了预想作为某个故障的结果而产生的事件的组合与其根本原因。通用规则不限于图8A以及图8B中举出的例子,可以具有更多的规则。
在通用规则中,作为构成项目,包含:登录作为通用规则的识别符的通用规则ID的字段33430、登录相当于以“IF-THEN”形式记载的通用规则的IF部的观测事项的字段33410、用于登录相当于以“IF-THEN”形式记载的通用规则的THEN部的原因事项的字段33420、用于登录将通用规则在实际系统中展开,生成展开规则时取得的拓扑的字段33440。如果检测到条件部340的事件,则结论部33420的事件为根本原因,如果结论部33420的状态为正常,则处于条件部33410的问题也已经解决的关系。在图8A以及图8B的例子中,在条件部33410中记述了两个事件,但事件数量没有限制。
例如,根据图8A可知,在作为通用规则ID的规则1表示的通用规则,作为观测事项检测到主计算机上的逻辑卷的响应时间的阈值异常(关联事件)和存储装置中的控制器的处理器使用率的阈值异常(原因事件)时,得出存储装置的控制器的处理器使用率的阈值异常为原因的结论。此外,在生成展开规则时,从卷拓扑管理表取得拓扑信息。
作为在观测事项中包含的事件,可以定义为某个条件正常。在图8B所示的通用规则的例子中,将存储装置的控制器的处理器使用率正常定义为观测事项。
(展开规则的结构)
图9A至图9D表示管理服务器30000具有的展开规则仓库33500内的展开规则的结构例子。这些展开规则通过在通用规则(图8A以及图8B)中插入卷拓扑管理表(图7)的各条目的项目而生成。
在展开规则中,作为构成项目,包含:登录作为展开规则的识别符的展开规则ID的字段33530、登录作为成为展开规则的基础的通用规则的识别符的通用规则ID的字段33540、登录相当于通过“IF-THEN”形式记载的展开规则的IF部的观测事项的字段33510、登录相当于通过“IF-THEN”形式记载的展开规则的THEN部的原因事项的字段33520。
例如,通过在通用规则ID为规则1的装置类别以及装置部位类别中插入图7的第一条目的控制器名32240和主机ID32250以及连接目的地驱动器名32260来生成图9A的展开规则。并且,根据图9A可知,作为展开规则ID的Ex规则1-1表示的展开规则是以作为通用规则ID的规则1表示的通用规则为基础而展开的,在作为观测事项检测到主计算机上的逻辑卷的响应时间的阈值异常和存储装置中的控制器的处理器运转率的阈值异常时,得出存储装置的控制器的处理器使用率的阈值异常为原因的结论。
(解析结果管理表的结构)
图10表示管理服务器30000具有的解析结果管理表33600的结构例子。
在解析结果管理表33600中,作为构成项目,包含:登录作为发生了在故障原因解析处理中被判断为根本原因的事件的设备的识别符的装置ID的字段33610、登录发生了事件的设备内的部位的识别符的字段33620、登录检测到阈值异常的评价的名称的字段33630、登录成为将事件判断为根本原因的根据的展开规则的ID的字段33640、登录在展开规则中在条件部中记载的事件的发生比例的字段33650、登录在展开规则中在条件部中记载的事件中的实际接收到的事件的ID的字段33660、登录该解析结果是否为已经解决的字段33670、登录接收到的从事件发生到事件正常化的时间的字段33680、登录该解析结果是否为基于瞬间故障的解析结果的字段33690、以及登录开始进行与事件发生相伴的故障解析处理的日期时间的字段33695。
例如,根据图10的第一段(第一条目),可知根据展开规则Ex规则1-1管理服务器30000把存储装置SYS1的通过CTL1表示的控制器中的处理器运转率的阈值异常判断为根本原因,作为其根据接收由作为事件ID的EV1以及EV3表示的事件,即条件事件的产生比例为2/2。
(关于其他的管理表的结构等)
将在后面说明事件类别管理表33700和性能评价管理表33800。
(结构管理信息的取得处理以及卷拓扑管理表的更新处理)
程序控制模块32100例如通过轮询处理对信息取得模块32200进行指示,以便从计算机系统1内的存储装置20000、主计算机10000以及IP切换器40000定期地取得结构管理信息。
结构管理信息取得模块32200从存储装置20000以及主计算机10000以及IP切换器40000取得结构管理信息,并且更新卷拓扑管理表33200。
(一般的装置性能信息取得处理以及事件解析处理)
图11是用于说明管理服务器30000的装置性能信息取得模块32300执行的通常的装置性能信息取得处理的流程图。程序控制模块32100在程序启动时或者在每次从前一次的装置性能取得处理开始经过了一定时间时,指示装置性能取得模块32300执行装置性能信息取得处理。在重复该执行指示时,无需严密地按一定期间进行指示,只要重复即可。
装置性能信息取得模块32300对作为监视对象的各装置重复以下的一系列的处理。
装置性能信息取得模块32300首先指示作为监视对象的各装置发送结构管理信息(步骤61010)。
装置性能信息取得模块32300判断是否具有来自监视对象装置的响应(步骤61020),如果具有来自装置的装置性能信息的响应(在步骤61020中为是),把取得的装置性能信息存储在装置性能管理表33100中(步骤61030)。在没有来自装置的结构管理信息的响应时(在步骤61020中为否),结构管理信息取得处理结束。
然后,装置性能信息取得模块32300参照在装置性能管理表33100中存储的装置性能信息,对各性能值重复步骤61050至步骤61070的处理(步骤61040)。装置性能取得模块32300确认性能值是否超过了阈值,更新在装置性能管理表33100中登录的状态(步骤61050)。然后,装置性能信息取得模块32300判断状态是否从正常变为阈值异常,或者从阈值异常变为正常(步骤61060),在状态变化时(在步骤61060中为是),在事件管理表33300中登录事件(步骤61070)在状态没有变化时(在步骤61060中为否),如果针对全部的性能值的状态确认处理没有结束,则处理返回步骤61050。
在针对全部的性能值的上述的处理已结束后,装置性能信息取得模块32300判断在一系列的处理中是否具有新追加的事件(步骤61080),如果具有追加事件(例如在处理中产生了新的异常时),指示事件解析处理模块32500进行图12所示的故障原因解析处理(步骤61090)。
以上是装置性能信息取得模块32300执行的装置性能信息取得处理。
(故障解析处理(步骤61090)的详细情况)
图12是详细说明管理服务器30000的事件解析处理模块32500执行的通常的故障原因解析处理(图11的步骤61090)的流程图。
事件解析处理模块32500从事件管理表33300取得已解析标志未成为“是”的事件(步骤62010)。
然后,事件解析处理模块32500对展开规则仓库33500内的各展开规则,重复步骤62030至步骤62050的处理(步骤62020)。事件解析处理模块32500首先针对与展开规则中记载的条件部对应的各个事件计算过去一定期间的发生件数(步骤62030)。然后,事件解析处理模块32500判断在步骤62030的处理中累积的事件发生数在条件部中记载的全部事件中是否超过了一定的比例(步骤62040),在判断为超过时(在步骤62040中为是),事件解析处理模块32500指示GUI显示处理模块32400将成为根本原因的事件与条件句中的事件发生比例一同进行显示(步骤62050),然后结束处理。
接着,事件解析处理模块32500执行已解决反映处理(图15)(步骤62060),之后,参照事件管理表33300,针对在步骤62010中取得的事件把已解析标志33370设定为“是”(步骤62070)。
最后,事件解析处理模块32500把展开规则仓库内的各展开规则中的确信度不是0的展开规则写入解析结果管理表33600中(步骤62080)。
例如,在图9A所示的展开规则Ex规则1-1中,在条件部中定义了“主计算机即主机1中的逻辑卷(E:)的响应时间的阈值异常”和“存储装置SYS1中的控制器CTL1的运转率的阈值异常”。
然后,当在图7所示的事件管理表33300中登录“存储装置SYS1中的控制器CTL1的运转率的阈值异常”(发生日期时间:2010-01-0115:00:00)时,事件解析处理模块32500在进行一定时间的待机后参照事件管理表33300,取得过去一定期间发生的事件。
然后,事件解析处理模块32500关于与展开规则仓库33400的展开规则Ex规则1-1中记载的条件部对应的各事件,计算过去一定期间的发生件数。结果,因为在过去一定期间还发生了“主计算机即主机1中的逻辑卷(E:)的响应时间的阈值异常”(关联事件),所以与展开规则Ex规则1-1中记载的条件部对应的各事件(原因事件和关联事件)在过去一定期间的发生数在条件部中记载的全部事件中所占的比例为2/2。
在如上那样计算出的比例超过了一定值时,事件解析处理模块32500指示GUI显示处理模块32400将成为根本原因的事件与条件句中的事件发生比例一同进行显示。当把在此所述的一定值例如设为80%时,在该具体例子中,因为展开规则Ex规则1-1的条件部的各事件在过去一定期间的发生比例为2/2,即100%,所以在GUI上显示解析结果。
对在展开规则仓库33500中定义的全部的展开规则执行上述的处理。
以上是事件解析处理模块32500执行的故障原因解析处理。
但是,在上述的故障原因解析处理中,当在短期间内频繁发生故障时,保存的故障解析结果的数量增多。但是,因为在故障解析结果中没有与对策执行优先度有关的信息,所以直到管理者参照本来应该采取对策的解析结果的时间变长,结果消耗故障所需的时间变长。
因此,在本发明的实施方式中,为了能够将解析结果与处理优先度一同显示,新提供已解决事件反映处理。
(已解决事件的反应处理的内容)
因此,为了解决现有技术中的课题,在本发明的第一实施方式中,追加了管理服务器30000中的已解决事件反映处理。以下详细说明该已解决事件反映处理所需要的信息以及动作。
(事件类别管理表的结构)
图13表示管理服务器30000具备的事件类别管理表33700的结构例子。在事件类别管理表33700中,作为构成项目,包含:登录管理服务器管理的设备的类别的字段33710、登录上述设备中的成为性能信息取得对象的设备内的部位的字段33720、登录从上述设备取得的评价的名称的字段33730、登录关于上述评价能够检测的状态(事件的类别)的字段33740、登录上述状态是否意味着异常状态的正常化的字段33750。
例如,在图13中,与服务器(主计算机)的驱动器的响应时间有关的状态中的“阈值超过”、“不明”这样的类别的状态不意味异常状态的正常化,但是“正常”这样的类别的状态意味着异常状态的正常化。
(性能评价管理表的结构)
图14表示管理服务器30000具备的性能评价管理表33800的结构例子。在性能评价管理表33800中,作为构成项目,包含:登录管理服务器管理的设备的类别的字段33810、登录上述设备中的成为性能信息取得对象的设备内的部位的字段33820、登录从上述设备取得的评价的名称的字段33830、登录上述设备能够取得的OS类别的字段33840、登录上述评价的值的计算方法的字段33850。
在图14中,表示了管理服务器30000具有的性能评价的具体值的一例。即,表示了管理服务器30000监视服务器(主计算机10000)的驱动器的响应时间,此时,关于OS为Windows(注册商标)的主计算机10000取得累积值,针对OS为Linux的管理服务器30000取得瞬间值。关于在此的“瞬间值”,举出当在管理对象设备中计算性能值时,计算极短的测量期间(例如访问时刻的性能值)中的瞬间的值来作为性能值的案例。另一方面,关于“累积值”,举出了计算某个程度的长测量期间中的平均的值来作为性能值(例如,在5分钟的测量时间中,对性能值进行累积,并对其求平均)的案例。
在图14中,表示对于取得值类别33850为“累积值”的设备类别以及评价,运算累积值来进行故障解析处理。
(本发明的已解决事件反映处理(步骤62060)的详细情况)
图15是说明第一实施方式的管理服务器30000的事件解析处理模块325000执行的已解析事件反映处理(步骤62060)的流程图。本处理如图12所示那样,在故障原因解析处理的步骤62070之前执行。
事件解析处理模块32500从事件管理表33300取得已解决标志未成为“是”的事件(步骤63010)。事件解析处理模块32500针对取得的全部事件重复以下的处理(步骤63020)。
事件解析处理模块32500确认事件类别管理表33700,确认事件是否为意味着事件解决的事件(已正常化的事件)(步骤63030)。即,缩小评价(运转率、响应时间、I/O量等),确认与缩小后的评价对应的状态(参照图7的33360)是否成为“正常”。在事件不表示已解决时(在步骤63030中为否),处理转移到下一个事件的处理。在为表示已解决的事件时(在步骤63030中为“是“时),执行以下的处理。
事件解析处理模块32500确认事件管理表33300,取得与上述已解决事件成对的异常事件的ID(步骤63040)。
然后,事件解析处理模块32500参照解析结果管理表33600,对于在解析结果管理表中定义的各解析结果,重复以下一系列的处理(步骤63050)。
事件解析处理模块32500对于与上述已解决事件成对的异常事件,把已解决标志变更为“是”(步骤63060)。然后,事件解析处理模块32500确认事件管理表33300,计算从故障发生到故障解决所需要的时间,将其作为故障期间记录在解析结果管理表33600(图10)中(步骤65070)。
以上是事件解析处理模块32500执行的已解析事件反映处理。
以下说明已解析事件反映处理的具体例子。处理开始当初的解析结果管理表为图10所示,事件类别管理表如图13所示,展开规则Ex规则1-1如图9A所示。
当在图7所示的事件管理表中登录了“存储装置SYS1中的控制器CTL1的运转率的正常状态”(发生日期时间:2010-01-0115:05:00)时,事件解析处理模块32500参照事件管理表,取得在过去一定期间发生的事件。
然后,事件解析处理模块32500对于上述的事件确认事件类别管理表33700,确认事件是否意味着问题解决。当确认事件类别管理表33700时,可知“存储装置的控制器的运转率的正常状态”是表示事件已经解决的状态。
此外,事件解析处理模块32500确认事件管理表33300,取得与上述已解决事件成对的异常事件的ID。当参照事件管理表33300时,可知在“存储装置SYS1的控制器CTL1的运转率的正常状态”(发生日期时间:2010-01-0115:05:00)之前,发生了“存储装置SYS1中的控制器CTL1的运转率的阈值异常”(发生日期时间:2010-01-0115:00:00),这是成对的异常。此外,可知该事件ID为EV1。
然后,事件解析处理模块32500参照解析结果管理表33600,关于在解析结果管理表33600中定义的解析结果中包含的事件中的作为事件ID的“EV1”表示的事件,把已解决标志变更为“是”。此外,计算从故障发生到故障解除所需要的时间作为故障期间进行记录。接收事件EV1从发生开始用5分钟解析,将其作为故障期间进行登录。
然后,在事件管理表33300中,登录“主计算机即主机1中的驱动器(E:)的响应时间的正常状态”(发生日期时间:2010-01-0115:10:10)时,事件解析处理模块32500还对于与其成对的事件EV3,把已解决标志变更为“是”。此外,此外,把从故障发生到故障解除所需要的时间作为故障期间记录在解析结果管理表33600中。在该具体例子中,接收事件EV3从发生开始用10分钟解析,将其作为故障期间记录在解析结果管理表33600中。
(故障解析结果显示画面的结构)
图16表示管理服务器30000对于用户(管理者)显示的故障解析结果显示画面的显示例71000。
在故障解析结果显示画面71000中,区别显示在解析结果管理表中定义的解析结果中的接收到的事件全部解决的解析结果,并与故障期间一并显示(表71020)。当在一个解析结果中包含多个接收事件时,显示各事件的解决时间中最长的解决时间。
在另外的表中显示接收到的事件未全部解决的解析结果(表71010)。
(已解决事件的反应处理的效果)
以上根据第一实施方式,管理服务器30000的管理软件在图12所示的故障原因解析处理后,在检测到处于异常状态的设备的状态正常化时,在GUI中与其他的解析结果区别地显示故障解析结果中的成为其导出根据的设备异常状态已消除的解析结果。在通过多个故障事件导出故障解析结果时,在确认了全部的故障事件的正常化的时刻,与其他的故障解析结果区别地在GUI中显示。结果,用户能够容易地判断解析结果的应对优先度,能够减轻解析结果确认的负担。
(2)第二实施方式
第二实施方式涉及基于管理软件(例如包含在管理服务器30000中)的瞬间故障事件反映处理。系统的结构好各装置的结构与第一实施方式相同,所以省说明。
(瞬间故障事件反映处理的详细情况)
在本实施方式中,管理服务器30000执行瞬间故障反映处理。管理服务器30000具有的结构管理信息与第一实施方式相同。
图17是用于说明第二实施方式的管理服务器30000的事件解析处理模块32500执行的瞬间故障事件反映处理的流程图。执行该瞬间故障事件反映处理来取代图12的已解决事件反映处理(步骤62060),如图12所示,在故障原因解析处理的步骤S62070之前执行。
在图17中,首先,事件解析处理模块32500从事件管理表33300取得已解析标志未成为“是”的事件(步骤64010)。事件解析处理模块32500对于取得的全部事件,重复以下的处理(步骤64020)。
事件解析处理模块32500确认事件类别管理表33700,确认事件是否意味着问题解决(步骤64030)。在事件不表示已解决时,转移到下一个事件的处理。在是表示已解决的事件时,进行以下的处理。
即,事件解析处理模块32500确认事件管理表33300,取得与上述已解决事件成对的异常事件的ID(步骤64040)。
然后,事件解析处理模块32500参照解析结果管理表33600,对在解析结果管理表中定义的各解析结果,执行以下一系列的处理(步骤64050)。
此外,事件解析处理模块32500对于与上述已解决事件成对的异常事件,把已解决标志变更为“是”(步骤64060)。
然后,事件解析处理模块32500确认事件管理表33300,计算从故障发生到故障解决所需要的时间,将其作为故障期间记录在解析结果管理表33600(图10)中(步骤64070)。
然后,事件解析处理模块32500确认在解析结果中包含的接收事件是否为一个,评价是否为瞬间值,并且上述计算出的故障期间是否与图11所示的装置性能信息取得处理中取得装置的性能的间隔相同或者更短(步骤64080)。在步骤64080中确认在解析结果中包含的接收事件是否为一个的原因在于,在单独地产生在一个展开规则(参照图9)中记载的故障事件(条件部的事件)时,该故障事件是不会对所连接的其他的IT系统造成影响的事件的可能性高。即,当仅发生了一个条件部的事件时,仅是简单地瞬间发生故障的可能性高。另一方面,在同时发生了多个在一个展开规则中记载的故障事件时,在这些故障事件之间存在因果关系,产生需要对策的故障的可能性高。在此判断是否仅产生了一个事件,但是还可以根据事件发生比例(确信度)是否不足在故障解析结果中使用的预定阈值来进行判断。此外,在步骤64080中,确认故障期间与取得装置的性能的间隔是否相同或者更短的原因在于,在管理服务器确认监视对象装置中的阈值异常后,当在下一个性能取得定时阈值异常已经消除时,最初识别的阈值异常是突发的故障的可能性高。
当在步骤64080中判断解析结果未满足全部的条件时,转移到下一个解析结果的处理。另一方面,当在步骤64080中判断出解析结果满足全部的条件时,事件解析处理模块32500把解析结果的瞬间故障标志变更为“是”(步骤64090)。如图18所示,如此将标志变更为“是”是为了根据是否为瞬间故障区别地显示解析结果。
以上是事件解析处理模块32500执行的瞬间故障事件的反映处理。
以下表示瞬间故障事件反映处理的具体例子。处理开始当初的解析结果管理表为图10所示,事件类别管理表如图13所示,性能评价管理表如图14所示,展开规则Ex规则1-1如图9A所示。
当在图7所示的事件管理表中登录了“存储装置SYS1中的控制器CTL1的运转率的正常状态”(发生日期时间:2010-01-0116:05:00)时,事件解析处理模块32500参照事件管理表(图7),取得在过去一定期间发生的事件。
然后,事件解析处理模块32500对于上述的事件确认事件类别管理表33700,确认事件是否意味着问题解决。当确认事件类别管理表33700时,可知“存储装置的控制器的运转率的正常状态”是表示事件已经解决的状态。
然后,事件解析处理模块32500确认事件管理表33300,取得与上述已解决事件成对的异常事件的ID。当参照事件管理表33300时,可知在“主计算机即主机1(OS类别:linux)中的驱动器(E:)的响应时间的正常状态”(发生日期时间:2010-01-0116:05:00)之前,发生了“主计算机即主机1(OS类别:linux)中的驱动器(E:)的响应时间的正常状态”(发生日期时间:2010-01-0116:00:00),这是成对的异常。此外,可知该事件ID为EV5。
并且,事件解析处理模块32500参照解析结果管理表33600,关于在解析结果管理表33600中定义的解析结果中包含的事件中的作为事件ID的“EV5”表示的事件,把已解决标志变更为“是”。此外,计算从故障发生到故障解除所需要的时间作为故障期间进行记录。接收事件EV5从发生开始用5分钟解析,将其作为故障期间登录在解析结果管理表33600中。
然后,在事件管理表33300中,确认在上述解析结果中包含的接收事件是否为一个,评价是否为瞬间值,并且故障期间是否在一定值以下。在此设为如果故障期间不足10分钟则满足条件时,在该例子中故障期间为5分钟,所以满足条件。此外,当参照图14所示的性能评价管理表时,可知OS类别为Linux的主计算机中的驱动器的响应时间为“瞬间值”。因此,上述解析结果全部满足条件,把解析结果管理表33600的瞬间故障标志33690变更为“是”。
(故障解析结果显示画面的结构)
图18表示管理服务器30000对于用户(管理者)显示的故障解析结果显示画面的显示例71000。
在故障解析结果显示画面71000中,区别显示在解析结果管理表33600中定义的解析结果中的解析结果的瞬间故障标志为“是”的解析结果,并与故障期间一并显示(表71030)。当在一个解析结果中包含多个接收事件时,显示各事件的解决时间中最长的解决时间。
(瞬间故障事件反应处理的效果)
如上所述,系统管理软件在故障解析部接收到在管理对象设备中与成为对业务带来障碍的事态无关地产生,并且在产生后迅速正常化的故障事件时,检测到处于异常状态的设备的状态正常化,在成为其导出根据的设备异常状态全部消除的时刻,将故障原因候补与确信度一同作为故障解析结果进行保存。此外,关于故障解析结果,与其他的解析结果区别地在GUI中进行显示。结果,用户能够容易地判断解析结果的应对优先度,能够减轻解析结果确认的负担。
(3)第三实施方式
第三实施方式涉及基于管理软件(例如包含在管理服务器3000)的故障解析结果的处理优先度设定处理。除了图19所示的解析结果管理表33600以外,系统的结构和各装置的结构与图1的第一实施方式相同,省略说明。
(解析结果管理表的结构)
图19表示第三实施方式的管理服务器3具有的解析结果管理表33600的结构例子。
在解析结果管理表33600中,作为构成项目,包含登录用户针对解析结果的处理优先度的字段33691。其他的构成项目与图10所示的解析结果管理表33600的构成项目相同。
在本实施方式中,设解析结果被赋予的处理优先度越高,越要求用户及早进行处理,设最大值为10,最小值为0。此外,当在解析结果管理表33600中登录解析结果的时刻,将处理优先度设定为10。
(已解决事件反映处理)
图20是用于说明在第三实施方式中,管理服务器30000的事件解析处理模块32500执行的故障解析结果的处理优先度设定处理的流程图。本处理在图12所示的故障原因解析处理的步骤62070之前进行,取代图12的已解决事件反映处理(步骤62060)。
事件解析处理模块32500从事件管理表33300取得已解决标志未成为“是”的事件(步骤65010)。事件解析处理模块32500针对取得的全部事件重复以下的处理(步骤65020)。
首先,事件解析处理模块32500参照事件类别管理表33700,确认处理对象事件的状态是否意味着问题解决(步骤65030)。例如,在事件管理表33300中,在控制器的运转率表示阈值异常的状态时,该事件不是已解决。然后,事件解析处理模块32500在事件不表示已解决时(在步骤65030中为否),转移到下一个事件的处理。在为表示已解决的事件时(在步骤65030中为“是“时),将处理转移到步骤65040。
事件解析处理模块32500确认事件管理表33300,取得与上述已解决事件成对的异常事件的ID(步骤65040)。
然后,事件解析处理模块32500参照解析结果管理表33600,对于在解析结果管理表33600中定义的各解析结果,重复以下一系列的处理(步骤65050)。
此外,事件解析处理模块32500对于与上述已解决事件成对的异常事件,将已解决标志变更为“是”(步骤65060)。
此外,事件解析处理模块32500确认事件管理表33300,计算从故障发生到故障解决所需要的时间,将其作为故障期间记录在解析结果管理表33600中(步骤65070)。
然后,事件解析处理模块32500根据在解析结果中包含的故障事件的解决数计算处理优先度,并记录在解析结果管理表33600中(步骤65080)。例如,在解析结果中包含的两个故障事件中的一个故障事件已经解决时,计算“10×(1/2)=5”,处理优先度成为5。设解析结果中包含的全部故障事件已解决时的处理优先度为0,全部故障事件未解决时的处理优先度为10。如此,处理优先度根据条件部的事件的数量以及已解决的故障的数量,成为0到10的值。
以上是事件解析处理模块32500执行的故障解析结果的处理优先度设定处理。
(故障解析结果显示画面的结构)
图21表示管理服务器30000对用户(管理者)显示的故障解析结果显示画面的显示例71000。
在故障解析结果显示画面71000中,把在解析结果管理表中定义的解析结果与处理优先度一同显示(表71010)。
(故障解析结果的处理优先度设定处理的效果)
以上,在第三实施方式中,作为管理者(用户)能够容易地判断解析结果的处理优先度的一个方法,叙述了在故障解析结果显示画面71000中,显示故障解析结果的处理优先度的方法。除此之外,作为用户计算针对解析结果的处理优先度的基准,还考虑以下的方法:
(A)在根据解析结果被判断为根本原因的故障是用户难以处理的故障时,使处理优先度低于其他解析结果。
(B)在根据解析结果被判断为根本原因的故障是在组合了多重化结构的设备中产生的故障时,使处理优先度低于其他解析结果。
通过以上那样显示解析结果的处理优先度,用户可以容易地判断解析结果的处理优先度,可以减轻解析结果确认作业的负担。可以与第一实施方式的区别显示进行组合来实现该优先度显示。即,在第一实施方式中关于与已解决解析结果区别地显示的未解决解析结果,运算优先度,与该优先度信息一并显示。
(4)总结
在本实施方式中,根据各节点装置的性能值检测异常状态,向管理者提示该解析结果(运算异常状态的确信度),但在即使对该异常状态不进行特别的处理,随着时间经过变为正常状态时,不改变其确信度的值,附加表示已正常化的标志来向管理者提示解析结果。其原因在于,因为确信度是针对解析结果的评价,所以不应该随时间经过改变该评价。由此,可以区别地显示已解决解析结果和未解决解析结果,此外,能够将应该进行故障处理的结果与优先度信息一同显示。作为管理者,能够更加明确并且有效地缩小应该处理的故障。
此外,向管理者区别地提示被认为只不过临时成为故障的瞬间故障解析结果和其他的故障解析结果(例如参照图18)。由此,能够使针对在瞬间故障解析结果中显示的故障的处理成为次要,对于管理者来说能够非常高效地管理计算机系统。
本发明还可以通过实现实施方式的功能的软件程序代码来实现。此时,向系统或装置提供记录有程序代码的存储介质,或者该系统或装置的计算机(或CPU或MPU)读出在存储介质中存储的程序代码。此时,从存储介质读出的程序代码自身实现上述实施方式的功能,该程序代码自身或存储它的存储介质构成本发明。作为提供这样的计算机代码的存储介质,例如可以使用软盘、CD-ROM、DVD-ROM、硬盘、光盘、光磁盘、CD-R、磁带、非易失性的存储卡、ROM等。
此外,根据程序代码的指示,在计算机上运行的OS(操作系统)等进行实际的处理的一部分或全部,可以通过该处理实现上述的实施方式的功能。并且,从存储介质读出的程序代码在被写入到计算机上的存储器之后,根据该程序代码的指示,计算机的CPU等执行实际的处理的一部分或全部,可以通过该处理实现上述实施方式的功能。
经由网络配送用于实现实施方式的功能的软件程序代码,由此将程序代码存储在系统或装置的硬盘或存储器等存储单元或CD-RW、CD-R等存储介质中,在使用时该系统或装置的计算机(或CPU或MPU)读出并执行在该存储单元或该存储介质中存储的程度代码。
符号说明
10000服务器、20000存储装置、30000管理服务器、35000WEB浏览器启动服务器、40000IP切换器、45000网络。

Claims (14)

1.一种计算机系统的管理方法,其具有成为监视对象的节点装置、经由网络与所述节点装置连接,监视以及管理所述节点装置的管理系统,所述计算机系统的管理方法的特征在于,
所述管理服务器取得表示所述节点装置的处理性能的处理性能值,根据该取得的处理性能值检测所述节点装置的状态,
所述管理系统把所述检测到的状态用于解析规则中,来计算表示在所述节点装置中发生故障的可能性的信息即确信度,所述解析规则表示在所述节点装置中可能发生的一个以上的条件事件的组合与被看做所述条件事件的组合的根本原因的结论事件的关系,
所述管理系统根据所述确信度判断在所述节点装置中是否发生了故障,
所述管理系统对于被判断为发生了所述故障的节点装置,不改变上述确信度的信息,在显示画面中显示上述状态一直为异常的节点装置的故障解析结果即未解决故障解析结果和所述状态从异常变化为正常的节点装置的故障解析结果即已解决故障解析结果。
2.根据权利要求1所述的计算机系统的管理方法,其特征在于,
所述管理系统在所述显示画面上区别显示所述未解决故障解析结果和所述已解决故障解析结果。
3.根据权利要求1所述的计算机系统的管理方法,其特征在于,
所述管理系统对于所述未解决故障解析结果和所述已解决故障解析结果把处理优先度一同显示在所述显示画面中。
4.根据权利要求3所述的计算机系统的管理方法,其特征在于,
所述管理系统在所述未解决故障解析结果中,根据已经解决了几个所述条件事件,来计算所述处理优先度。
5.根据权利要求1所述的计算机系统的管理方法,其特征在于,
所述管理系统关于所述已解决故障解析结果,计算表示所述状态从异常变化为正常的时间的故障期间,将所述已解决故障解析结果与该故障期间一起在所述显示画面中显示。
6.根据权利要求5所述的计算机系统的管理方法,其特征在于,
所述管理系统在计算所述故障期间时,判断所述确信度是否不满预定值,并且确认所述节点装置的所述处理性能值的种类,判断该处理性能值的种类是瞬间得到的瞬间值还是对预定期间的性能值进行累积得到的累积值,并且判断所述故障期间是否在预定值以下,将所述确信度不满预定值、所述处理性能值的种类是所述瞬间值、并且所述故障期间在所述预定值以下的所述已解决故障解析结果与其他的已解决故障解析结果以及所述未解决故障解析结果区别地在所述显示画面上显示。
7.根据权利要求1所述的计算机系统的管理方法,其特征在于,
所述节点装置包含多个主计算机和多个存储装置,
所述管理系统针对所述节点装置的每个构成设备,管理所述节点装置的所述处理性能值,
所述管理系统取得表示所述节点装置的构成设备的处理性能的构成设备性能值,根据该取得的构成设备性能值取得所述节点装置的所述构成设备的状态,
所述管理系统把所述检测出的构成设备的状态用于所述解析规则,计算所述确信度,在该确信度在预定值以上时判断在所述节点装置中发生了故障,
所述管理系统在所述显示画面上区别显示所述未解决故障解析结果和所述已解决故障解析结果,并且对于所述未解决故障解析结果和所述已解决故障解析结果,把根据已经解决了几个所述条件事件计算出的处理优先度一同显示在所述显示画面中,
所述管理系统还关于所述已解决故障解析结果,计算表示所述状态从异常变化为正常的时间的故障期间,将所述已解决故障解析结果与该故障期间一起在所述显示画面中显示,并且在计算所述故障期间时,判断所述确信度是否不满预定值,并且确认所述节点装置的所述处理性能值的种类,判断该处理性能值的种类是瞬间得到的瞬间值还是对预定期间的性能值进行累积得到的累积值,并且判断所述故障期间是否在预定值以下,将所述确信度不满预定值、所述处理性能值的种类是所述瞬间值、并且所述故障期间在所述预定值以下的所述已解决故障解析结果与其他的已解决故障解析结果以及所述未解决故障解析结果区别地在所述显示画面上显示。
8.一种管理系统,其经由网络与监视对象的节点装置连接,管理所述节点装置,所述管理系统的特征在于,具有:
处理器,其取得表示所述节点装置的处理性能的处理性能值,根据该取得的处理性能值检测所述节点装置的状态;以及
存储器,其存储表示在所述节点装置中可能发生的一个以上的条件事件的组合与被看做所述条件事件的组合的根本原因的结论事件的关系的解析规则,
所述处理器把所述检测到的状态用于解析规则中,来计算表示在所述节点装置中发生故障的可能性的信息即确信度,根据所述确信度判断在所述节点装置中是否发生了故障,对于被判断为发生了所述故障的节点装置,不改变上述确信度的信息,在显示画面中显示上述状态一直为异常的节点装置的故障解析结果即未解决故障解析结果和所述状态从异常变化为正常的节点装置的故障解析结果即已解决故障解析结果。
9.根据权利要求8所述的管理系统,其特征在于,
所述处理器在所述显示画面上区别显示所述未解决故障解析结果和所述已解决故障解析结果。
10.根据权利要求8所述的管理系统,其特征在于,
所述处理器对于所述未解决故障解析结果和所述已解决故障解析结果,把处理优先度一同显示在所述显示画面中。
11.根据权利要求10所述的管理系统,其特征在于,
所述处理器在所述未解决故障解析结果中,根据已经解决了几个所述条件事件,来计算所述处理优先度。
12.根据权利要求8所述的管理系统,其特征在于,
所述处理器关于所述已解决故障解析结果,计算表示所述状态从异常变化为正常的时间的故障期间,将所述已解决故障解析结果与该故障期间一起在所述显示画面中显示。
13.根据权利要求12所述的管理系统,其特征在于,
所述处理器在计算所述故障期间时,判断所述确信度是否不满预定值,并且确认所述节点装置的所述处理性能值的种类,判断该处理性能值的种类是瞬间得到的瞬间值还是对预定期间的性能值进行积算得到的积算值,并且判断所述故障期间是否在预定值以下,将所述确信度不满预定值,所述处理性能值的种类是所述瞬间值,并且所述故障期间在所述预定值以下的所述已解决故障解析结果与其他的已解决故障解析结果以及所述未解决故障解析结果区别地在所述显示画面中显示。
14.根据权利要求8所述的管理系统,其特征在于,
所述节点装置包含多个主计算机和多个存储装置,
所述处理器针对所述节点装置的每个构成设备,管理所述节点装置的所述处理性能值,
取得表示所述节点装置的构成设备的处理性能的构成设备性能值,根据该取得的构成设备性能值取得所述节点装置的所述构成设备的状态,
把所述检测出的构成设备的状态用于所述解析规则,计算所述确信度,在该确信度在预定值以上时判断在所述节点装置中发生了故障,
在所述显示画面上区别显示所述未解决故障解析结果和所述已解决故障解析结果,并且对于所述未解决故障解析结果和所述已解决故障解析结果,与根据已经解决了几个所述条件事件计算出的处理优先度一起在所述显示画面中显示,
并且关于所述已解决故障解析结果,计算表示所述状态从异常变化为正常的时间的故障期间,将所述已解决故障解析结果与该故障期间一起在所述显示画面中显示,并且在计算所述故障期间时,判断所述确信度是否不满预定值,并且确认所述节点装置的所述处理性能值的种类,判断该处理性能值的种类是瞬间得到的瞬间值还是对预定期间的性能值进行累积得到的累积值,并且判断所述故障期间是否在预定值以下,将所述确信度不满预定值、所述处理性能值的种类是所述瞬间值、并且所述故障期间在所述预定值以下的所述已解决故障解析结果与其他的已解决故障解析结果以及所述未解决故障解析结果区别地在所述显示画面中显示。
CN201080067454.0A 2010-07-16 2010-07-28 计算机系统的管理方法以及管理系统 Expired - Fee Related CN102959521B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010161724A JP5419819B2 (ja) 2010-07-16 2010-07-16 計算機システムの管理方法、及び管理システム
JP2010-161724 2010-07-16
PCT/JP2010/062696 WO2012008058A1 (ja) 2010-07-16 2010-07-28 計算機システムの管理方法、及び管理システム

Publications (2)

Publication Number Publication Date
CN102959521A true CN102959521A (zh) 2013-03-06
CN102959521B CN102959521B (zh) 2015-11-25

Family

ID=45469079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080067454.0A Expired - Fee Related CN102959521B (zh) 2010-07-16 2010-07-28 计算机系统的管理方法以及管理系统

Country Status (4)

Country Link
EP (1) EP2562651A4 (zh)
JP (1) JP5419819B2 (zh)
CN (1) CN102959521B (zh)
WO (1) WO2012008058A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104956331A (zh) * 2013-09-18 2015-09-30 株式会社日立制作所 管理计算机系统的管理系统及其管理方法
CN105223884A (zh) * 2015-09-30 2016-01-06 国网北京市电力公司 故障图像的推送方法及装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5658417B2 (ja) * 2012-02-27 2015-01-28 株式会社日立製作所 監視システム及び監視プログラム
WO2014033945A1 (ja) * 2012-09-03 2014-03-06 株式会社日立製作所 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム
WO2014068705A1 (ja) * 2012-10-31 2014-05-08 株式会社日立製作所 監視システム及び監視プログラム
WO2014162595A1 (ja) * 2013-04-05 2014-10-09 株式会社日立製作所 管理システム及び管理プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050137832A1 (en) * 1994-05-25 2005-06-23 System Management Arts, Inc. Apparatus and method for event correlation and problem reporting
CN101295229A (zh) * 2007-04-24 2008-10-29 株式会社日立制作所 管理装置及管理方法
US20090300428A1 (en) * 2008-05-27 2009-12-03 Hitachi, Ltd. Method of collecting information in system network
JP2010128661A (ja) * 2008-11-26 2010-06-10 Fujitsu Ltd 故障原因推測方法、故障原因推測装置、及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0730540A (ja) * 1993-07-08 1995-01-31 Hitachi Ltd ネットワーク障害監視装置
US7107185B1 (en) 1994-05-25 2006-09-12 Emc Corporation Apparatus and method for event correlation and problem reporting
JP3996040B2 (ja) * 2002-11-06 2007-10-24 株式会社日立製作所 データベース乱れ解消処理方法及びその実施装置並びにその処理プログラム
JP4872262B2 (ja) * 2005-07-27 2012-02-08 日本電気株式会社 管理支援システム、管理支援方法、および管理支援プログラム
US8112378B2 (en) * 2008-06-17 2012-02-07 Hitachi, Ltd. Methods and systems for performing root cause analysis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050137832A1 (en) * 1994-05-25 2005-06-23 System Management Arts, Inc. Apparatus and method for event correlation and problem reporting
CN101295229A (zh) * 2007-04-24 2008-10-29 株式会社日立制作所 管理装置及管理方法
US20090300428A1 (en) * 2008-05-27 2009-12-03 Hitachi, Ltd. Method of collecting information in system network
JP2010128661A (ja) * 2008-11-26 2010-06-10 Fujitsu Ltd 故障原因推測方法、故障原因推測装置、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PAUL STELLING 等: "A fault detection service for wide area distributed computations", 《CLUSTER COMPUTING》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104956331A (zh) * 2013-09-18 2015-09-30 株式会社日立制作所 管理计算机系统的管理系统及其管理方法
CN105223884A (zh) * 2015-09-30 2016-01-06 国网北京市电力公司 故障图像的推送方法及装置

Also Published As

Publication number Publication date
CN102959521B (zh) 2015-11-25
JP2012022614A (ja) 2012-02-02
EP2562651A4 (en) 2017-08-23
JP5419819B2 (ja) 2014-02-19
WO2012008058A1 (ja) 2012-01-19
EP2562651A1 (en) 2013-02-27

Similar Documents

Publication Publication Date Title
US8645769B2 (en) Operation management apparatus, operation management method, and program storage medium
US9294338B2 (en) Management computer and method for root cause analysis
US9354961B2 (en) Method and system for supporting event root cause analysis
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
US8819220B2 (en) Management method of computer system and management system
CN102959521B (zh) 计算机系统的管理方法以及管理系统
US20160020965A1 (en) Method and apparatus for dynamic monitoring condition control
US8429455B2 (en) Computer system management method and management system
US8554906B2 (en) System management method in computer system and management system
CN104583968A (zh) 管理系统及管理程序
CN110017994B (zh) 自动驾驶车辆的异常检测方法、装置、系统、设备及介质
CN111104293A (zh) 用于支持盘故障预测的方法、设备和计算机程序产品
CN102833281B (zh) 一种分布式自增计数的实现方法、装置及系统
CN106407083A (zh) 故障检测方法及装置
US9021078B2 (en) Management method and management system
US10866875B2 (en) Storage apparatus, storage system, and performance evaluation method using cyclic information cycled within a group of storage apparatuses
US20140201566A1 (en) Automatic computer storage medium diagnostics
CN116909494B (zh) 服务器的存储切换方法和装置,以及服务器系统
CN113407374A (zh) 故障处理方法、装置、故障处理设备及存储介质
CN113590405A (zh) 硬盘错误的检测方法、装置、存储介质和电子装置
CN113625957B (zh) 一种硬盘故障的检测方法、装置及设备
JP4081258B2 (ja) 管理サーバシステム
CN111625185B (zh) 一种磁盘故障监控的方法、系统及相关组件
US20170308469A1 (en) Resource Processing Method and Device for Multi-controller System
CN117421145B (zh) 一种异构硬盘系统故障预警方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151125

Termination date: 20180728

CF01 Termination of patent right due to non-payment of annual fee