CN104583968B - 管理系统及管理程序 - Google Patents

管理系统及管理程序 Download PDF

Info

Publication number
CN104583968B
CN104583968B CN201380045071.7A CN201380045071A CN104583968B CN 104583968 B CN104583968 B CN 104583968B CN 201380045071 A CN201380045071 A CN 201380045071A CN 104583968 B CN104583968 B CN 104583968B
Authority
CN
China
Prior art keywords
scheme
reason
event
rule
management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380045071.7A
Other languages
English (en)
Other versions
CN104583968A (zh
Inventor
名仓正刚
中岛淳
永井崇之
工藤裕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of CN104583968A publication Critical patent/CN104583968A/zh
Application granted granted Critical
Publication of CN104583968B publication Critical patent/CN104583968B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0769Readable error formats, e.g. cross-platform generic formats, human understandable formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3419Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2094Redundant storage or storage space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3031Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a motherboard or an expansion card
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

管理系统对具有多个管理对象器件的计算机系统进行管理。管理系统的存储器件存储一个以上的规则、方案信息和方案历史信息。管理系统的控制器件基于一个以上的规则,确定成为在多个管理对象器件的任一个所发生的事件的原因的候选的第一原因事件;基于方案信息,确定在第一原因事件为原因的情况下能够实施的多个第一方案;基于方案历史信息,对多个第一方案中的各个方案,计算表示在实施了该方案的情况下故障恢复成功的可能性的指标值,并按照基于指标值而决定的显示方式,显示表示多个第一方案中的任意一个以上的方案的数据。

Description

管理系统及管理程序
技术领域
本发明涉及例如对包括主计算机(host computer)、网络装置及存储装置等管理对象装置的计算机系统进行管理的技术。
背景技术
在计算机系统的管理中,通过使用事件关联(Event Correlation)技术等确定事件基础中的故障原因的技术,计算机系统的管理者能够检测出在计算机系统中所发生的故障的原因(参照专利文献1)。
例如,专利文献2公开了如下技术:用于分析在管理对象装置中所发生的多个故障等的事件的因果关系的分析引擎,将由事前确定的条件句和结论句构成的通用规则应用于与管理对象装置有关的事件,例如性能值超过规定的阈值的事件,由此,生成包含成为性能下降的原因的原因事件和由其引起的条件事件组的展开规则,并基于所生成的展开规则进行故障原因的确定。
在近年来的计算机系统中,作为针对故障的恢复方案(从故障的复原、即用于进行故障恢复的方法),存在很多能够实施的有用的方法,例如存在当配置系统资源(虚拟机、数据)时,通过进行适当的数据移动而进行从故障的复原之类的方法等。作为进行数据移动的技术,已知有例如在物理的主计算机之上使多个虚拟的主计算机(即虚拟机,以下称为“VM”)动作的环境中,按照表示VM的性能的信息和资源的利用信息,使VM的动作从某物理的主计算机移交至其他物理的主计算机的技术(第一VM移动)、和使存储于某存储区域的VM向其他存储区域移动的技术(第二VM移动)。这里,VM是存储区域所存储的数据的一种,VM移动(第一VM移动和第二VM移动)是存储区域间的数据移动的一种。此外,作为在存储装置的数据存储区域(卷)间进行数据移动的技术,已知有卷迁移(参照专利文献3)。
非专利文献1公开了如下技术:在实施针对故障的恢复方案后,检查通过该恢复方案故障是否得到改善,未改善的情况下自动实施事前定义的其他恢复方案。
此外,专利文献4公开了如下技术:预先记录针对故障过去实施了哪种恢复方案,并在选择恢复方案时利用记录的该信息。
现有技术文献
专利文献
专利文献1:美国专利第7107185号说明书
专利文献2:日本特开2010-86115号公报
专利文献3:美国专利第6108748号说明书
专利文献4:国际公开第2011/007394号小册子
非专利文献
非专利文献1:工藤裕、森村知弘、增冈义政、荐田宪久著“面向信息系统的操作自动化的策略记述形式和策略执行计划方式”、电气学会C部门论文期刊、Vol.131,No.10,2011.
发明内容
在应对通过专利文献1或专利文献2之类的事件关联(Event Correlation)技术所确定出的故障的情况下,不论管理者具体实施哪种恢复方案来进行故障恢复,都存在从故障至复原需花费成本的技术问题。在获取故障原因和针对故障原因的恢复方案的映射后,即使能够基于该映射生成针对故障原因的恢复方案,在实际的操作管理现场,为了按照进行从故障的复原操作的管理者的意图实施操作而优先选择哪种恢复方案为好,对管理者来说也是不清楚的。换句话说,在将故障原因和针对故障原因的恢复方案提示给管理者时,根据管理者的意图(基于故障恢复所需的人力或经济的成本、或基于成为复原操作的对象的装置的重要性进行的优先度判断等),即使只能选择在某种程度上限定出的恢复方案,但由于能够推导出的多个恢复方案被提示给管理者,因此选择哪个恢复方案为好对管理者来说也存在选择困难。
如果利用非专利文献1公开的技术,则通过实施被选择的恢复方案来检查故障是否得到改善,未改善的情况下能够自动实施事前定义的其他的恢复方案。由此,恢复方案实施后还残留问题部位的情况下,还能够实施其他的恢复方案。但是,在发生有与过去相同的故障的情况下,由于管理者未考虑过去实施了哪种恢复方案,因此,存在优先地提示或实施非管理者意图的恢复方案的情况,从而有可能招致管理者选择恢复方案时的成本的增加。
第一种观点涉及的管理系统,对具有多个管理对象器件的计算机系统进行管理。管理系统的存储器件存储一个以上的规则、方案信息和方案历史信息,其中,该一个以上的规则表示与多个管理对象器件的任一个有关的原因事件、和与满足原因事件成为原因这一条件的、与多个管理对象器件的任一个有关的一个以上的条件事件的对应关系;该方案信息表示规则和该规则的原因事件为原因的情况下能够实施的作为恢复方案的方案的对应关系;该方案历史信息按方案的每次实施表示通过该方案的实施而带来的故障恢复的成功与否。管理系统的控制器件基于一个以上的规则,对在多个管理对象器件的任一个所发生的事件的原因进行分析,确定成为所发生的事件的原因的候选的第一原因事件;基于方案信息,确定第一原因事件为原因的情况下能够实施的多个第一方案;基于方案历史信息,对多个第一方案的各个方案,计算表示在实施了该方案的情况下故障恢复成功的可能性的指标值,并按照基于指标值而决定的显示方式,显示表示多个第一方案中的任意一个以上的方案的数据。另外,“显示数据”可以是在管理系统所具有的显示器件上显示数据,也可以是将用于显示的数据发送到具有连接于管理系统的显示器件的远程计算机。
根据本发明,能够提供用于应对故障的支援管理者的技术。
附图说明
图1是第一实施方式涉及的计算机系统的一个例子的结构图。
图2是第一实施方式涉及的主计算机的一个例子的结构图。
图3是第一实施方式涉及的存储装置的一个例子的结构图。
图4是第一实施方式涉及的管理服务器的一个例子的结构图。
图5是第一实施方式涉及的装置性能管理表的一个例子的结构图。
图6是第一实施方式涉及的卷拓扑管理表的一个例子的结构图。
图7是第一实施方式涉及的事件管理表的一个例子的结构图。
图8是第一实施方式涉及的通用规则的一个例子的结构图。
图9A是表示第一实施方式涉及的展开规则的第一个例子的图。
图9B是表示第一实施方式涉及的展开规则的第二个例子的图。
图9C是表示第一实施方式涉及的展开规则的第三个例子的图。
图9D是表示第一实施方式涉及的展开规则的第四个例子的图。
图10是第一实施方式涉及的分析结果管理表的一个例子的结构图。
图11是第一实施方式涉及的通用方案表的一个例子的结构图。
图12是第一实施方式涉及的展开方案表的一个例子的结构图。
图13是第一实施方式涉及的规则及方案对应管理表的一个例子的结构图。
图14是第一实施方式涉及的方案执行历史管理表的一个例子的结构图。
图15是第一实施方式涉及的性能信息获取处理的流程图。
图16是第一实施方式涉及的故障原因分析处理的流程图。
图17是第一实施方式涉及的方案展开处理的流程图。
图18是第一实施方式涉及的方案执行后危险提取处理的流程图。
图19是第一实施方式涉及的方案提示处理的流程图。
图20是第一实施方式涉及的方案提示画面的一个例子的结构图。
图21是第一实施方式涉及的方案执行处理的流程图。
图22是第二实施方式涉及的管理服务器的一个例子的结构图。
图23是第二实施方式涉及的测试案例库的一个例子的结构图。
图24是第二实施方式涉及的测试案例提取处理的流程图。
图25是第三实施方式涉及的计算机系统的一个例子的结构图。
图26是第三实施方式涉及的管理服务器的一个例子的结构图。
图27是第三实施方式涉及的方案执行历史管理表的一个例子的结构图。
图28是第三实施方式涉及的管理服务器一览表的一个例子的结构图。
图29是第三实施方式涉及的方案执行历史交换处理的流程图。
图30是第三实施方式涉及的方案提示画面的一个例子的结构图。
具体实施方式
下面,参照附图对本发明的实施方式进行说明。另外,以下说明的实施方式不限定权利要求书涉及的发明,此外在实施方式中说明的诸要素及其组合的全部不限于必须存在于发明的解决方案。在这些附图中,多个图中的相同的附图标记表示相同的构成要素。另外,在以后的说明中,利用“aaa表”等描述说明本发明的信息,但是这些信息也可以由表等的数据结构以外来描述。因此,为了表示不依赖于数据结构,对于“aaa表”等,有时称为“aaa信息”、“aaa数据”。另外,在说明各信息的内容时,使用“标识信息”、“标识符”、“名称”、“ID”等的描述,但是对于这些能够相互置换。
在以后的说明中,有时以“程序”或“模块”为主语进行说明,但是由于程序(模块)通过由处理器执行,而一边使用存储器及通信端口(管理端口、I/O端口)一边进行规定的处理,因此也可以以处理器为主语进行说明。此外,以程序为主语公开的处理也可以是管理服务器等的计算机、信息处理装置进行的处理。此外,程序的一部分或全部可以由专用硬件来实现。处理器或者包含处理器和这种专用硬件的器件可以称为“控制器件”。此外,各种程序可以通过程序分发服务器或计算机可读取的存储介质安装于各计算机中。
下面,将管理计算机系统,显示本发明的显示用信息的一个以上的计算机的集合称为管理系统。在管理服务器显示显示用信息的情况下,管理服务器为管理系统,此外,管理服务器和显示用计算机(例如,网络浏览器启动服务器)的组合也是管理系统。此外,为了管理处理的高速化和高可靠化,可以通过多个计算机实现与管理服务器同等的处理,这种情况下,该多个计算机(在显示用计算机进行显示的情况下,也包含显示用计算机)为管理系统。
(1)第一实施方式
第一实施方式涉及由管理软件(例如,管理服务器内的程序)实现的故障原因的候选的显示处理。
<系统结构>
图1是第一实施方式涉及的计算机系统的一个例子的结构图。
计算机系统具有一台以上的存储装置20000、一台以上的主计算机10000、管理服务器30000和网络浏览器启动服务器35000,这些通过由一台以上的网络装置例如IP交换机40000、未图示的路由器等构成的通信网络45000连接而构成。
主计算机10000从例如未图示的客户端计算机接收文件的I/O(输入输出)请求,基于接收到的I/O请求向存储装置20000进行访问。此外,管理服务器30000对计算机系统整体的操作进行管理。
网络浏览器启动服务器35000经由通信网络45000与管理服务器30000的GUI显示处理模块通信,将各种信息显示在由网络浏览器显示的浏览器画面上。管理者通过参照显示在网络浏览器启动服务器35000上的浏览器画面上的信息,对计算机系统内的各装置进行管理。但是,管理服务器30000、网络浏览器启动服务器35000也可以由一台服务器构成。
下面,将计算机系统所包含的装置中的、作为管理服务器30000所管理的对象的装置称为“管理对象装置”。在本实施方式中,管理对象装置是主计算机10000、存储装置20000、及IP交换机40000等的网络装置,但其他装置,例如NAS(Network AttachedStorage,网络附加存储)、打印机等,也可以包含在管理对象装置中。此外,管理对象装置具有的器件中的、作为管理服务器30000所管理的对象的器件称为“管理对象器件”。
<主计算机的内部结构>
图2是第一实施方式涉及的主计算机的一个例子的结构图。
主计算机10000具有用于与通信网络45000连接的端口11000、处理器12000和存储器13000,这些成为经由内部总线等线路相互连接的结构。另外,主计算机10000也可以包含例如盘(磁盘)等的辅助存储器件。
存储器13000存储业务应用程序13100和操作系统(OS)13200。业务应用程序13100使用由操作系统13200提供的存储区域,并对该存储区域进行数据的输入输出(I/O)。操作系统13200执行用于使业务应用程序13100将经由通信网络45000连接于主计算机10000的存储装置20000上的逻辑卷识别为存储区域的处理。
在图2的例子中,端口11000是作为包含I/O端口和管理端口的单一的端口来表述的,但这些也可以划分为各自不同的端口,其中,I/O端口用于通过iSCSI(Internet SmallComputer System Interface,互联网小型计算机系统接口)来与存储装置20000进行通信,管理端口用于供管理服务器30000获取主计算机10000内的管理信息。
<存储装置的内部结构>
图3是第一实施方式涉及的存储装置的一个例子的结构图。
存储装置20000具有用于经由通信网络45000与主计算机10000连接的I/O端口21000、用于经由通信网络45000与管理服务器30000连接的管理端口21100、用于存储各种管理信息的管理存储器23000、用于存储客户数据的RAID(Redundant Arrays ofInexpensive Disks,廉价磁盘冗余阵列)组24000、用于控制用户数据和管理存储器内的管理信息的控制器25000,这些成为经由内部总线等线路而相互连接的结构。另外,在本实施方式中,RAID组24000与其他器件连接是指构成RAID组24000的盘24200与其他器件连接。
管理存储器23000存储用于管理存储装置20000的管理程序23100。管理程序23100经由管理端口21100与管理服务器30000通信,对管理服务器30000提供存储装置20000的结构信息。
RAID组24000由一个以上的盘24200构成。RAID组24000由多个盘24200构成的情况下,这些多个盘24000可以组成RAID结构。此外,存储装置20000基于RAID组24000内的存储区域,形成一个以上的逻辑卷24100。
另外,逻辑卷24100如果是利用一个以上的盘24200的存储区域来构成的,则可以不组成RAID结构。此外,作为提供与逻辑卷24100对应的存储区域的器件,可以取代盘24200或在盘24200基础上而采用闪存等其他种类的存储介质。
控制器25000在其内部具有闪存,该闪存暂时存储对存储装置20000进行控制的处理器与主计算机10000之间的交互数据。控制器25000介于I/O端口21000与RAID组24000之间,在两者之间进行数据的交接。
另外,存储装置20000只要包括存储控制器和提供存储区域的存储器件,则可以是图3以外的结构,例如,存储控制器和提供存储区域的存储器件可以分别存在于不同的箱体,其中,存储控制器(在本实施方式中是控制器25000)对任意的主计算机10000提供逻辑卷24100,接收I/O请求,并基于接收到的I/O请求进行向存储器件(在本实施方式中是盘24200)的读写。此外,在图3的例子中,管理存储器23000和控制器25000被设为不同的器件,但也可以是控制器25000包含管理存储器23000的结构。此外,作为存储控制器和存储器件存在于同一箱体的情况和存在于不同的箱体的情况这两者都包含的描述,可以将“存储装置”改称为例如“存储系统”。
<管理服务器的内部结构>
图4是第一实施方式涉及的管理服务器的一个例子的结构图。
管理服务器30000具有用于连接通信网络45000的管理端口31000、处理器31100、作为存储器件的一种的闪存等的存储器32000、作为存储器件的一种的HDD(硬盘驱动器)等的辅助存储器件33000、用于输出处理结果的显示器等的输出器件31200、用于供管理者输入指示的键盘等的输入器件31300,这些成为经由内部总线等线路相互连接的结构。
存储器32000存储程序控制模块32100、结构管理信息获取模块32200、装置性能获取模块32300、GUI显示处理模块32400、事件分析处理模块32500、规则展开模块32600、方案展开模块32700、方案执行后危险提取模块32800、方案提示模块32900、方案执行模块32910、方案执行结果确认模块32920、方案执行历史提取模块32930及方案评价模块32940的计算机程序。另外,在本实施方式中,各模块是作为存储器32000的软件模块被提供的,但也可以作为硬件模块来提供。此外,各模块进行的处理可以作为一个以上的程序代码来提供,也可以是在模块之间不存在明确的界限。模块也可以代称为程序。
辅助存储器件33000存储装置性能管理表33100、卷拓扑管理表33200、事件管理表33300、通用规则库33400、展开规则库33500、分析结果管理表33600、通用方案表33700、一个以上的展开方案表33800、规则及方案对应管理表33900及方案执行历史管理表33950。通用规则库33400存储一个以上的通用规则。展开规则库33500存储一个以上的展开规则。通用规则及展开规则是表示在构成计算机系统的管理对象器件能够发生的一个以上的条件事件的组合、和针对该一个以上的条件事件的组合成为故障原因的原因事件的对应关系的信息。另外,辅助存储器件33000例如由半导体存储器及盘构成,或者由半导体存储器及盘中的任意一方构成。
GUI显示处理模块32400根据经由输入器件31300的来自管理者的请求,经由输出器件31200显示所获取的结构管理信息。另外,输入器件31300及输出器件31200可以是各自不同的器件,也可以是一个集合的器件。
另外,管理服务器30000例如具有键盘、指针器件等来作为输入器件31300,具有显示器、打印机等来作为输出器件31200,但也可以是这些以外的装置。此外,可以使用串行接口或以太网接口来替代输入输出器件,将该接口与具有显示器或键盘或指针器件的显示用计算机连接,向显示用计算机发送显示用信息、通过从显示用计算机接收输入用信息而在显示用计算机上进行显示等、通过接受输入来替代在输入输出器件的输入及显示。
<装置性能管理表的结构>
图5是第一实施方式涉及的装置性能管理表的一个例子的结构图。
装置性能管理表33100包括:用于存储管理对象装置的标识符(以下称为“装置ID”)的字段(field)的装置ID33110、用于存储管理对象器件的标识符(以下称为“器件ID”)的字段的器件ID33120、用于存储表示与管理对象器件有关的性能值的种类的指标(metric)名称的字段的指标33130、用于存储表示被检测出性能值的阈值异常的管理对象装置的OS类别的数据的字段的设备OS33140、用于将管理对象器件的性能值从包含该器件的管理对象装置获取并存储的字段的性能值33150、用于接收用户的输入而存储管理对象器件的性能值的正常范围的上限或下限的阈值(以下称为“报警执行阈值”)的字段的报警执行阈值33160、用于存储表示报警执行阈值为正常范围的上限或下限的数据的字段的阈值类别33170、用于存储表示性能值为正常值或异常值的数据的字段的状态33180。
例如,从图5的上方开始第一个条目(entry)是作为存储装置“SYS1”(即装置ID为“SYS1”的存储装置20000,下面,利用装置ID确定管理对象装置时使用同样的表述)内的与控制器“CTL1”(即器件ID为“CTL1”的控制器25000,下面,利用器件ID确定管理对象器件时使用同样的表述)有关的条目。根据该条目,关于控制器“CTL1”,在处理器的运转率超过20%的情况下,由管理服务器30000判断为超负荷,即可知关于控制器“CTL1”的报警执行阈值为20%。此外,根据该条目,可知关于控制器“CTL1”的当前时刻的处理器的运转率为40%,判断为该性能值为异常值。
另外,在图5中,作为管理对象器件的性能值,列举了处理器的运转率(在附图中只表述为“运转率”)、平均单位时间的I/O量、及响应时间来作为例子,但也可以采用这些以外的性能值的种类。
<卷拓扑管理表的结构>
图6是第一实施方式涉及的卷拓扑管理表的一个例子的结构图。。
卷拓扑管理表33200是用于管理计算机系统内的多个管理对象器件之间的连接关系的信息(连接信息)。卷拓扑管理表33200包括:用于存储存储装置20000的装置ID的字段的装置ID33210、用于存储关于存储装置20000所具有的逻辑卷24100的在存储装置20000内所利用的标识符(以下称为“卷ID”)的字段的卷ID33220、用于存储主计算机10000识别逻辑卷24100用的逻辑卷24100的标识符(以下称为“LU编号”)的字段的LU编号33230、用于存储主计算机10000访问逻辑卷24100时所使用的控制器25000的器件ID的字段的控制器名32340、用于存储访问逻辑卷24100的主计算机10000的装置ID的字段的连接目的地主ID33250、用于存储逻辑卷24100为实体的主计算机10000内的卷(驱动器)的器件ID的字段的连接目的地驱动器名33260。
例如,从图6的上方开始第一个条目可知:存储装置“SYS1”的逻辑卷“VOL1”作为以LU编号“LU1”表示的逻辑单元(LU)被提供给主计算机“HOST1”,主计算机“HOST1”经由控制器“CTL1”访问逻辑卷“VOL1”,在主计算机“HOST1”上逻辑卷“VOL1”被识别为驱动器“/var”。另外,在本实施方式中,作为逻辑卷24100的器件ID,有使用卷ID的情况和使用LU编号的情况。例如,有时也将逻辑卷“VOL1”表述为逻辑卷“LU1”,但均是指同一个逻辑卷24100。
<事件管理表的结构>
图7是第一实施方式涉及的事件管理表的一个例子的结构图。在后述的故障原因分析处理(图16)中,会适当参照事件管理表33300。
事件管理表33300包括:用于存储对故障等的事件赋予的标识符(以下称为“事件ID”)的字段的事件ID33310、用于存储发生有事件的管理对象装置的装置ID的字段的装置ID33320、用于存储发生有事件的管理对象器件的器件ID的字段的装置部位ID33330、用于存储与检测出阈值异常的性能值有关的指标名称的字段的指标33340、用于存储表示被检测出阈值异常的管理对象装置的OS类别的数据的字段的设备OS 33350、用于存储表示发生有事件的管理对象器件的事件发生时的状态的数据的字段的状态33360、用于存储表示通过事件分析处理模块32500事件是否分析完成的数据的字段的分析完成标志33370、用于存储表示事件所发生的日期及时间的字段的发生日期及时间33380。
例如,从图7的上方开始第一个条目可知:管理服务器30000检测出存储装置“SYS1”的控制器“CTL1”中的处理器运转率的阈值异常,与该阈值异常对应的事件的事件ID是“EV1”。
<通用规则的结构>
图8是第一实施方式涉及的通用规则的一个例子的结构图。
通用规则是表示与多个管理对象器件的任一个有关的原因事件、和满足原因事件成为故障原因这一条件的、与多个管理对象器件的任一个有关的一个以上的条件事件的对应关系的规则,是将与原因事件及条件事件有关联的管理对象器件以该管理对象器件的类别表示的规则。通常,在故障分析中,用于确定原因的事件传播模式,以“IF-THEN”形式记载预想到的由于某故障(原因)而发生的事件的组合及其原因。另外,通用规则不限于图8中所列举的规则,可以有更多的规则。
通用规则包括:用于存储通用规则的标识符(以下称为“通用规则ID”)的字段的通用规则ID33430、用于存储与以“IF-THEN”形式记载的通用规则的IF部相当的观测事项、即表示一个以上的条件的各个条件的数据的字段的条件部33410、用于存储与以“IF-THEN”形式记载的通用规则的THEN部相当的原因事项、即表示原因事件的数据的字段的结论部33420、用于存储表示在实际系统中展开通用规则并在生成展开规则时所参照的拓扑信息(连接信息)的数据的字段的应用拓扑33440。此外,条件部33410包括:用于按每个条件事件存储对条件事件赋予的编号(以下称为“条件事件编号”)的字段33450。在检测出条件部33410表示的一个以上的条件事件的情况下,结论部33420表示的原因事件被判断为故障的原因。如果结论部33420的状态成为正常,则可以期待条件部33410的问题也得到解决。在图8的例子中,条件部33410记述有两个条件事件,但对条件事件的数量没有限制。
例如,图8所例示的通用规则、即通用规则“Rule1”(通用规则ID为“Rule1”的通用规则,下面,利用标识符确定规则时使用同样的表述)示出了:在作为观测事项检测出主计算机10000的驱动器中的响应时间的阈值异常、和存储装置20000的逻辑卷24100(LU)中的单位时间的I/O量的阈值异常时,导出结论为存储装置20000的逻辑卷24100中的单位时间的I/O量的阈值异常为原因。此外,基于该通用规则生成展开规则时,卷拓扑管理表33200作为拓扑信息被参照。另外,作为观测事项所包含的条件事件,可以定义为某条件正常。
<展开规则的结构>
图9A是表示第一实施方式涉及的展开规则的第一个例子的图。图9B是表示第一实施方式涉及的展开规则的第二个例子的图。图9C是表示第一实施方式涉及的展开规则的第三个例子的图。图9D是表示第一实施方式涉及的展开规则的第四个例子的图。
展开规则是将通用规则以依赖于计算机系统的实际结构的形式展开而得到的规则。即,展开规则是表示与多个管理对象器件的任一个有关的原因事件、和满足原因事件成为故障原因这一条件的、与多个管理对象器件的任一个有关的一个以上的条件事件的对应关系的规则,是将与原因事件及条件事件有关联的管理对象器件以表示特定的管理对象器件的数据表示的规则。展开规则通过将通用规则中的与条件事件及原因事件分别有关联的管理对象装置的类别及管理对象器件的类别,置换为以卷拓扑管理表33200定义的特定的管理对象装置的装置ID及特定的管理对象器件的器件ID而生成。
下面,参照图9A,对展开规则的结构进行说明。展开规则包括:用于存储展开规则的标识符(以下称为“展开规则ID”)的字段的展开规则ID33530、用于存储成为展开规则的基础的通用规则的通用规则ID的字段的展开前通用规则ID33540、用于存储与以“IF-THEN”形式记载的展开规则的IF部相当的观测事项、即表示一个以上的条件的各个条件的数据的字段的条件部33510、用于存储与以“IF-THEN”形式记载的展开规则的THEN部相当的原因事项、即表示原因事件的数据的字段的结论部33520。此外,条件部33510包括:用于按每个条件事件存储对条件事件赋予的条件事件编号的字段33550。
例如,图9A所例示的展开规则将图8所示的通用规则“Rule1”中的与条件事件及原因事件分别有关联的管理对象装置的类别及管理对象器件的类别,置换为以卷拓扑管理表33200定义的特定的管理对象装置(主计算机“HOST1”、存储装置“SYS1”)的装置ID及特定的管理对象器件(驱动器“/var”、逻辑卷“LU1”)的器件ID而生成。并且,从图9A可知,展开规则“ExRule1-1”以通用规则“Rule1”为基础来展开,在作为观测事项检测出主计算机“HOST1”的驱动器“/var”中的响应时间的阈值异常、和存储装置“SYS1”的逻辑卷“LU1”中的单位时间的I/O量的阈值异常时,导出结论为存储装置“SYS1”的逻辑卷“LU1”中的单位时间的I/O量的阈值异常为原因。
<分析结果管理表的结构>
图10是第一实施方式涉及的分析结果管理表的一个例子的结构图。
分析结果管理表33600包括:用于存储在故障原因分析处理中与判断为故障原因的候选的事件(以下称为“原因候选事件”)(第一原因事件)有关联的管理对象装置的装置ID的字段的原因装置ID33610、用于存储与原因候选事件有关联的管理对象器件的器件ID的字段的原因部位ID33620、用于存储表示原因候选事件的类别、即与原因候选事件有关联的性能值有关的指标名称的字段的指标33630、用于存储表示原因候选事件为根本原因的确定性的值(可靠度)的字段的可靠度33640、用于存储包含原因候选事件来作为原因事件的展开规则、即成为将原因候选事件判断为故障原因的候选的根据的展开规则的展开规则ID的字段的展开规则ID33650、用于存储包含原因候选事件来作为原因事件的展开规则的一个以上的条件事件中的实际已发生的事件的事件ID的字段的接收事件ID33660、用于存储表示管理者根据分析结果是否实际进行了故障应对的数据的字段的应对完成标志33670、用于存储表示已开始进行伴随事件的发生的故障分析处理的日期及时间的数据的字段的分析执行日期及时间33680。另外,在本实施方式中,可靠度是过去一定期间内的条件事件的发生比例。
例如,从图10的上方开始第一个条目可知:基于展开规则“ExRule1-1”,管理服务器30000将存储装置“SYS1”的逻辑卷“LU1”中的单位时间的I/O量的阈值异常判断为故障原因的候选,该判断的根据是已发生以事件ID“EV3”、“EV6”所示的事件,以及可靠度即条件事件的发生比例为100%(2/2×100)。
<通用方案表的结构>
图11是第一实施方式涉及的通用方案表的一个例子的结构图。
通用方案表33700是表示通用方案的一览的信息。这里,通用方案是指在计算机系统中能够实施的针对故障的恢复方案(以下称为“方案”),是以不依赖于计算机系统的实际结构的形式表示的方案。通用方案表33700包含通用方案ID33710及方案33720的字段。通用方案ID33710存储通用方案的标识符(以下称为“通用方案ID”)。方案33720存储表示在计算机系统中能够执行的通用方案的数据,例如,通用方案的名称。作为通用方案,例如有主计算机10000的重启、IP交换机40000的设定变更、存储装置20000中的卷迁移、VM移动等。另外,通用方案不限于图11中所列举的方案。
<展开方案的结构>
图12是第一实施方式涉及的展开方案表的一个例子的结构图。
展开方案表33800是用于管理一个以上的展开方案的信息。展开方案是将通用方案展开为依赖于计算机系统的实际结构的形式而得到的方案。展开方案表33800通过方案展开模块32700,基于展开规则、通用方案表33700、卷拓扑管理表33200及装置性能管理表33100而生成。
展开方案表33800包含方案详细33810、通用方案ID33820、展开规则ID33823、及通用规则ID33825的字段。通用方案ID33820存储成为展开方案的基础的通用方案的通用方案ID。展开规则ID33823作为用于识别被展开的方案是针对哪种故障原因的方案的信息,存储与展开方案对应的展开规则的展开规则ID。即,展开方案表33800内的各展开方案是由展开规则ID33823的展开规则ID所示的展开规则的原因事件为故障原因的情况下能够实施的方案(针对该故障原因的方案)。即,可以说展开方案表33800是用于管理展开规则和与该展开规则对应的一个以上的展开方案的对应关系的信息。在本实施方式中,按展开规则与通用方案的每个组合来生成展开方案表33800,但也可以采用例如按每个展开规则来生成等的其他方式。展开方案表33800与表示规则和该规则的原因事件为原因的情况下能够实施的方案的对应关系的信息(方案信息)相对应。通用规则ID33825存储与展开方案对应的成为展开规则的基础的通用规则的通用规则ID。
方案详细33810存储关于被展开的一个以上的展开方案的各个方案的具体的处理内容及展开方案执行后的状态信息。方案详细33810包含展开方案ID33830、方案对象33840及危险部位33890的字段。展开方案ID33830存储展开方案的标识符(以下称为“展开方案ID”)。方案对象33840存储表示与展开方案有关联的构成要素(器件)的信息、方案执行后的信息等。危险部位33890存储表示方案执行后还潜在残留的问题部位(以下称为“危险部位”)的数据。
图12所例示的展开方案表33800管理基于通用方案ID为“Plan1”的通用方案的展开方案、即与卷迁移有关的展开方案。在与卷迁移有关的展开方案的情况下,方案对象33840例如包含移动对象卷33850、移动源装置33860、及移动目的地装置33870的字段。移动对象卷33850包含:用于存储成为卷迁移的对象的逻辑卷24100(以下称为“移动对象卷”)的器件ID的字段的卷ID33850A、和用于存储卷迁移执行后的、针对移动对象卷的I/O的响应时间的预测值的字段的I/O响应时间(Response Time)预测33850B。移动源装置33860包含:用于存储具有移动对象卷的存储装置20000(以下称为“移动源装置”)的装置ID的字段的装置ID33860A、和用于存储卷迁移执行后的、针对移动源装置的I/O的响应时间的预测值的字段的I/O响应时间(Response Time)预测33860B。移动目的地装置33870包含:用于存储成为移动对象卷的数据的移动目的地的存储装置20000(以下称为“移动目的地装置”)的装置ID的字段的装置ID33870A、和用于存储卷迁移执行后的、针对移动目的地装置的I/O的响应时间的预测值的字段的I/O响应时间(Response Time)预测33870B。
卷ID33850A、装置ID33860A及装置ID33870A的各信息为方案展开模块32700从卷拓扑管理表33200获取并存储的信息。此外,作为各I/O响应时间(Response Time)预测33850B、33860B及33870B所存储的值的计算方法,可以采用任意的方法。例如,各I/O响应时间(Response Time)预测33850B、33860B及33870B的值可以是如下方法算出的值:例如,方案展开模块32700从装置性能管理表33100获取移动对象卷、移动源装置及移动目的地装置的平均单位时间的I/O量,将移动对象卷的平均单位时间的I/O量从移动源装置的平均单位时间的I/O量中减去,并加在移动目的地装置的平均单位时间的I/O量上,从而预测卷迁移执行后的移动源装置及移动目的地装置的I/O量,通过获取其倒数而得到的值(I/O的响应时间)。另外,在图12的例子中,作为方案详细33810的内容,记载了存储性能信息的例子,但也可以存储与方案有关的成本信息、或执行方案时由故障导致的系统的停机时间信息等。
此外,图12示出了与卷迁移有关的展开方案的例子,但也可以同样地生成与通用方案表33700所包含的其他通用方案对应的展开方案。在将其他通用方案展开为展开方案的情况下,方案展开模块32700也例如参照卷拓扑管理表33200来列举与方案有关联的器件,并参照装置性能管理表33100,通过模拟性能信息、容量信息、成本信息、停机信息等的方案执行后的状态信息,来计算与方案有关联的器件有关的方案执行后的性能值的预测值。
<规则及方案对应管理表的结构>
图13是第一实施方式涉及的规则及方案对应管理表的一个例子的结构图。
规则及方案对应管理表33900是用于管理通用规则和与该通用规则对应的一个以上的通用方案、即该通用规则的原因事件为原因的情况下能够实施的一个以上的通用方案的对应关系的信息。规则及方案对应管理表33900与表示规则和该规则的原因事件为原因的情况下能够实施的方案的对应关系的信息(方案信息)相对应。规则及方案对应管理表33900表示通用规则、应用该通用规则而确定出故障的原因的情况下能够实施的通用方案的列表、和执行了各通用方案的情况下以未解决的状态残留的事件(以下称为“未解决事件”)之间的对应关系。
规则及方案对应管理表33900包含通用规则ID33910、通用方案ID33920及未解决事件ID33930的字段。通用规则ID33910中存储通用规则的通用规则ID。通用方案ID33920中存储通用方案的通用方案ID。未解决事件ID33930中存储执行了各通用方案的情况下以未解决的状态残留的事件(未解决事件)的标识符(以下称为“未解决事件ID”)。未解决事件ID与通用规则的条件部33410的字段33450所存储的条件事件编号相对应。未解决事件ID33930中例如在不存在未解决事件的情况下存储“NONE”,在所有条件事件及原因事件作为未解决事件残留的情况下存储“ALL”。
<方案执行历史管理表的结构>
图14是第一实施方式涉及的方案执行历史管理表的一个例子的结构图。
方案执行历史管理表33950是用于管理在计算机系统中所执行的展开方案、例如关于方案执行模块32910所执行的展开方案的执行结果(故障恢复的成功与否)的信息(方案历史信息)。方案执行历史管理表33950包含展开规则ID33960、展开方案ID33970、执行成功与否33980、及实施日期及时间33990的字段。展开规则ID33960中存储展开规则的展开规则ID。展开方案ID33970中存储展开方案的展开方案ID。执行成功与否33980中存储表示通过展开方案的执行而带来的故障恢复的成功与否的数据、即表示通过执行展开方案ID33970的展开方案ID所示的展开方案,将展开规则ID33960的展开规则ID所示的展开规则的原因事件作为故障原因的故障的恢复成功与否的数据。例如,执行成功与否33980在故障恢复成功的情况下存储“OK”,在故障恢复失败的情况下存储“NG”。实施日期及时间33990中存储表示展开方案被执行的日期及时间的数据。
另外,在图14的例子中,方案执行历史管理表33950的各条目(历史要素)将包含确定为故障原因(确切的说是故障原因的候选)的原因事件的展开规则、针对该故障原因所执行的展开方案、和通过该展开方案的执行而带来的故障恢复的成功与否的信息建立对应地表示,但方案执行历史管理表33950的结构不限于此。各条目只要是能够将故障原因、针对该故障原因所执行的展开方案、和通过该展开方案的执行而带来的故障恢复的成功与否的信息建立对应地表示的结构即可。例如,各条目可以构成为:将确定为故障原因的原因事件、针对该故障原因所执行的展开方案、和通过该展开方案的执行而带来的故障恢复的成功与否的信息建立对应地表示。
接着,对管理服务器30000执行的各种处理进行说明。
<结构管理信息的获取处理、及卷拓扑管理表的更新处理>
程序控制模块32100例如通过轮询(polling)处理,指示结构管理信息获取模块32200定期地从计算机系统内的管理对象装置获取结构管理信息,其中,管理对象装置在本实施方式中是存储装置20000、主计算机10000及IP交换机40000。
结构管理信息获取模块32200从存储装置20000、主计算机10000及IP交换机40000获取结构管理信息,并且基于所获取的结构管理信息更新卷拓扑管理表33200内的数据。
<装置性能信息获取处理及事件分析处理>
图15是第一实施方式涉及的性能信息获取处理的流程图。
程序控制模块32100例如从程序启动时或上次的性能信息获取处理开始,每经过一定时间,指示装置性能获取模块32300执行性能信息获取处理。另外,在重复发出该执行指示的情况下,不必严格按一定期间,只要重复即可。
装置性能获取模块32300对各管理对象装置,重复进行以下的一系列的处理。
装置性能获取模块32300首先对各管理对象装置,指示发送性能信息(步骤61010)。
装置性能获取模块32300判断是否有来自管理对象装置的响应(步骤61020)。有来自管理对象装置的响应的情况下,即从管理对象装置接收到性能信息的情况下(步骤61020:是),装置性能获取模块32300基于接收到的性能信息,更新装置性能管理表33100的性能值33150的值(步骤61030)。另一方面,没有来自管理对象装置的响应的情况下(步骤61020:否),装置性能获取模块32300结束性能信息获取处理。
接着,装置性能获取模块32300参照装置性能管理表33100所存储的各管理对象器件的性能值,对各性能值重复步骤61050到步骤61070的处理(步骤61040)。
装置性能获取模块32300确认性能值是否超过报警执行阈值,并基于该确认结果更新装置性能管理表33100的状态33180的值(步骤61050)。而后,装置性能获取模块32300判断性能值的状态是否发生了变化,即判断性能值是否从正常值变化为异常值或者从异常值变化为正常值(步骤61060)。在状态发生了变化的情况下(步骤61060:是),装置性能获取模块32300将与该性能值的状态变化对应的事件有关的条目登记到事件管理表33700(步骤61070)。另一方面,在状态未发生变化的情况下(步骤61060:否),如果装置性能获取模块32300针对所有性能值的状态确认处理(从步骤61050到步骤61070的处理)尚未结束,则使处理进入步骤61040。
针对所有性能值的状态确认处理结束后,装置性能获取模块32300判断事件管理表33700中是否有新登记的事件(与事件有关的条目)(步骤61080)。有新登记的事件的情况下(步骤61080:是),装置性能获取模块32300指示事件分析处理模块32500执行故障原因分析处理(参照图16)(步骤61090)。另一方面,没有新登记的事件的情况下(步骤61080:否),装置性能获取模块32300结束性能信息获取处理。
<故障原因分析处理的详细>
图16是第一实施方式涉及的故障原因分析处理的流程图。故障原因分析处理与图15的步骤61090的处理对应。
事件分析处理模块32500从事件管理表33300获取与分析完成标志33370的值未成为“Yes”的事件有关的条目(步骤62010)。
接着,事件分析处理模块32500对展开规则库33500内的各展开规则,重复步骤62030的处理(步骤62020)。事件分析处理模块32500算出关于处理对象的展开规则的可靠度(关于处理对象的展开规则的原因事件的可靠度),即处理对象的展开规则所包含的一个以上的条件事件的过去一定期间内的发生比例(步骤62030)。
接着,事件分析处理模块32500将事件管理表33300中的通过步骤62010获取的条目的分析完成标志33370设定为“Yes”(步骤62050)。而后,事件分析处理模块32500对展开规则库33500内的展开规则中的、通过步骤62030计算出的可靠度不为0的展开规则的各个规则,分别生成将该展开规则的原因事件作为故障原因的候选(第一原因事件)的分析结果管理表33600的条目,并将所生成的条目登记到分析结果管理表33600(步骤62060)。
接着,事件分析处理模块32500对展开规则库33500内的各展开规则,重复从步骤62070到步骤62100的处理(步骤62070)。事件分析处理模块32500判断关于处理对象的展开规则的通过步骤62030计算出的可靠度是否超过一定值(步骤62080)。
可靠度超过一定值的情况下(步骤62080:是),事件分析处理模块32500指示方案展开模块32700执行关于处理对象的展开规则的方案展开处理(步骤62090)。通过该方案展开处理,生成与处理对象的展开规则对应的展开方案,即处理对象的展开规则的原因事件为故障原因的情况下的针对该故障原因的展开方案。
另一方面,可靠度未超过一定值的情况下(步骤62080:否),事件分析处理模块32500不进行关于处理对象的展开规则的步骤62090的处理。
完成针对展开规则库33500内的各展开规则的从步骤62070到步骤62100的处理后,事件分析处理模块32500结束故障原因分析处理。
例如,图9A所示的展开规则“ExRule1-1”的条件事件有两个:与主计算机“HOST1”的驱动器“/var”中的响应时间的阈值异常对应的事件(以下称为“事件A”)、和与存储装置“SYS1”的逻辑卷“LU1”中的单位时间的I/O量的阈值异常对应的事件(以下称为“事件B”)。
而后,如果与事件B(在图7的例子中,具有事件ID“EV3”的事件)有关的条目被登记到事件管理表33300,则事件分析处理模块32500在待机一定时间后参照事件管理表33300,确定过去一定期间内所发生的事件。
接着,事件分析处理模块32500算出关于展开规则“ExRule1-1”的可靠度(在过去一定期间内的条件事件的发生比例)。其结果是,由于在过去一定期间内也发生了事件A(在图7的例子中,是具有事件ID“EV6”的事件),因此关于展开规则“ExRule1-1”的可靠度为100%(2/2×100)。
如上所述算出的可靠度超过一定值的情况下,事件分析处理模块32500指示方案展开模块32700执行方案展开处理,并使其进行用于故障恢复的展开方案的生成。例如,将上述一定值设为30%的情况下,由于关于展开规则“ExRule1-1”的可靠度为100%,超过30%,因此可以生成与展开规则“ExRule1-1”对应的展开方案。
<方案展开处理的详细>
图17是第一实施方式涉及的方案展开处理的流程图。方案展开处理与图16的步骤62090的处理对应。
首先,方案展开模块32700从分析结果管理表33600获取新登记的分析结果管理表33600的条目(以下称为“新登记条目”)(步骤63010)。方案展开模块32700针对所获取的新登记条目的各个条目,实施以下的从步骤63030到步骤63090的处理(步骤63020)。
方案展开模块32700从分析结果管理表33600的处理对象的新登记条目,获取展开规则ID33650所存储的展开规则ID。下面,将这里获取的展开规则ID所示的展开规则称为“处理对象的展开规则”。而后,方案展开模块32700获取处理对象的展开规则的展开前通用规则ID33540所存储的通用规则ID(步骤63030)。这里获取的通用规则ID所示的通用规则是成为处理对象的展开规则的基础的通用规则。
接着,方案展开模块32700参照规则及方案对应管理表33900,确定与成为处理对象的展开规则的基础的通用规则对应的一个以上的通用方案。此外,方案展开模块32700参照规则及方案对应管理表33900,确定与成为处理对象的展开规则的基础的通用规则和所确定的通用方案的组合对应的未解决事件(步骤63040)。
接着,方案展开模块32700参照卷拓扑管理表33200,生成基于通过步骤63040确定的通用方案的、与处理对象的展开规则对应的一个以上的展开方案,并将与所生成的展开方案有关的信息追加到展开方案表33800(步骤63050)。例如,展开卷迁移的通用方案的情况下,方案展开模块32700参照卷拓扑管理表33200,确定能够成为移动目的地装置的所有存储装置20000。
接着,方案展开模块32700针对通过步骤63050生成的各展开方案,重复执行步骤63070及步骤63080的处理(步骤63060)。方案展开模块32700参照装置性能管理表33100,通过模拟方案执行后的状况而算出方案执行后的性能值的预测值,并基于模拟的结果信息,更新处理对象的展开方案的方案对象33840的值(步骤63070)。接着,方案展开模块32700指示方案执行后危险提取模块32800执行方案执行后危险提取处理(参照图18)(步骤63080)。这时,方案展开模块32700将与处理对象的展开方案有关的未解决事件、即成为处理对象的展开规则的基础的通用规则、和成为处理对象的展开方案的基础的通用方案的组合对应的未解决事件的未解决事件ID,输入到方案执行后危险提取模块32800。
方案展开模块32700针对所获取的所有新登记条目,完成从步骤63030到步骤63090的处理后,指示方案提示模块32900执行方案提示处理(参照图19)(步骤63110)。然后,方案展开模块32700结束方案展开处理。
在本实施方式中,采纳性能信息尤其是I/O的响应时间的预测值,实施模拟而算出I/O的响应时间的预测值,并将通过模拟得到的预测值存储在展开方案表33800的方案对象33840中。对于预测值,例如,在展开方案“ExPlan1-1”被执行的情况下,逻辑卷“LU2”的数据从存储装置“SYS1”向存储装置“SYS2”移动,但基于从装置性能管理表33100得到的当前的移动对象卷(逻辑卷“LU2”)、移动源装置(存储装置“SYS1”)及移动目的地装置(存储装置“SYS1”)的各自的I/O的响应时间,算出该预测值。这里,示出了模拟方法的一个例子,但作为展开方案表33800中存储的值,只要是能够成为表示方案的特征的指标的值即可,性能值以外的值也可以。管理服务器30000也可以例如将方案执行所花费的成本的信息和方案执行所需要的时间等的信息预先存储于卷拓扑管理表33200或装置性能管理表33100等,与性能值同样地进行模拟。
<方案执行后危险提取处理的详细>
图18是第一实施方式涉及的方案执行后危险提取处理的流程图。方案执行后危险提取处理与图17的步骤63080的处理对应。
首先,方案执行后危险提取处理模块32800利用从方案展开模块32700接收到的未解决事件ID,从分析结果管理表33600中的新登记条目的接收事件ID33600所登记的实际所发生的条件事件中,提取无法解除的事件(步骤64010)。这里,无法解除的事件是指实际所发生的条件事件中的与未解决事件ID所示的条件事件对应的事件。
接着,方案执行后危险提取处理模块32800参照事件管理表33300及处理对象的展开规则,确定通过步骤64010提取出的无法解除的事件的发生部位(发生源的装置及器件)(步骤64020)。接着,方案执行后危险提取处理模块32800参照卷拓扑管理表33200,将无法解除的事件的发生部位、及与无法解除的事件的发生部位具有I/O路径上的关联的部位(装置及器件)中的任意一个以上作为危险部位提取(步骤64030)。
在步骤64030中,提取出危险部位的情况下(步骤64040:是),方案执行后危险提取处理模块32800将表示提取出的危险部位的数据存储到展开方案表33800中的处理对象的展开方案的危险部位33890(步骤64040),结束方案执行后危险提取处理。另一方面,在步骤64030中,未提取出危险部位的情况下(步骤64040:否),方案执行后危险提取处理模块32800结束方案执行后危险提取处理。
由于未提取出危险部位,因此图12的展开方案表33800的危险部位33890中未存储表示危险部位的数据,但是,作为危险部位,能够提取例如卷拓扑管理表33200的条目所示的I/O路径上的部位,例如主计算机10000的驱动器、存储装置20000的控制器25000、存储装置20000的逻辑卷24100等。
<方案提示处理的详细>
图19是第一实施方式涉及的方案提示处理的流程图。方案提示处理与图17的步骤63110的处理对应。
首先,方案提示模块32900从分析结果管理表33600获取表示故障原因的候选的信息及关于故障原因的候选的可靠度、即原因装置ID33610、原因部位ID33620、指标33630及可靠度33640的值(步骤65010)。
接着,方案提示模块32900对分析结果管理表33600的各新登记条目实施步骤65030的处理。方案提示模块32900从展开方案表33800获取针对处理对象的新登记条目所示的故障原因(确切的说是故障原因的候选)的一个以上的展开方案、即与处理对象的新登记条目所示的展开规则对应的一个以上的展开方案(故障恢复中成为候选的展开方案)(第一方案)有关的信息(步骤65030)。另外,新登记条目所示的展开规则是指该新登记条目的存储于展开规则ID33650的展开规则ID所示的展开规则。
对所有的新登记条目完成步骤65030的处理后,方案提示模块32900对分析结果管理表33600的各新登记条目,实施从步骤65060到步骤65080的处理。方案提示模块32900对针对处理对象的新登记条目所示的故障原因(处理对象的故障原因)的一个以上的展开方案的各个方案,实施步骤65070的处理。
在步骤65070中,方案提示模块32900基于方案执行历史管理表33950所示的过去已执行的展开方案的执行结果,算出关于针对处理对象的故障原因的处理对象的展开方案的得分值。这里,得分值是指表示已执行展开方案的情况下故障恢复成功的可能性的指标值,即故障得到改善的预估值。例如,方案提示模块32900从方案执行历史管理表33950获取与处理对象的新登记条目所示的展开规则和处理对象的展开方案的组合对应的所有条目。而后,方案提示模块32900基于表示所获取的一个以上的条目的各自的故障恢复的成功与否的数据,将针对处理对象的故障原因已执行处理对象的展开方案的情况下的成功率,具体来说是将所获取的条目中的执行成功与否33980中存储有“OK”的条目的数量相对于所获取的条目总数的比例,作为得分值来算出。
另外,在本实施方式中,将成功率直接作为得分值,但也可以将例如通过公式1得到的值(s)作为得分值。公式1是将方案执行历史管理表33950内的执行结果按规定的期间划分,对按每个期间算出的成功率(Ri)以基于该期间的加权值(1/2i)进行加权,将加权后的成功率(Ri/2i)的总和作为得分值的公式。在公式1中,对更靠近当前的期间的成功率赋予更大的加权值,并将得分值算出为:成功越是接近当前值就越高。在公式1中,Ri表示从i时间前到(i+n)时间前(n为规定值,例如1)的期间的成功率。
s=Σ(Ri/2i)···(公式1)
另外,得分值不限于成功率及加权后的成功率,这些以外的值也可以作为得分值。例如,在成功率的基础上考虑了展开方案的执行次数,即方案执行历史管理表33950内的执行结果的数量的值也可以作为得分值,展开方案的执行次数还可以直接作为得分值。作为在成功率的基础上考虑展开方案的执行次数的情况下的例子,例如,在成功率同等的情况下,可以将得分值确定为执行次数越多值就越高。此外,例如,也可以将得分值确定为:越是从执行展开方案而故障得到改善开始到当前的期间更长并且该期间内没有再次发生故障的情况,值就越高。此外,管理服务器30000可以预先准备多种得分值的算出方法,基于规定的策略,根据执行时的状态来切换得分值的算出方法。
对所有新登记条目完成从步骤65060到步骤65080的处理后,方案提示模块32900从作为步骤65070的处理(得分值的算出处理)的对象的故障原因和展开方案的组合中,提取过去已执行规定次数以上并且得分值为规定值以上的故障原因和展开方案的组合(步骤65100)。这时,方案提示模块32900例如可以提取方案执行历史管理表33950内的执行结果的数量明显有意义地多的故障原因和展开方案的组合,只要是反映管理者的展开方案的特征的方法即可,对提取方法不做限定。
接着,方案提示模块32900判断提取出的故障原因和展开方案的组合中,是否存在关于该故障原因的可靠度为100%的组合(步骤65110)。
不存在可靠度为100%的组合的情况下(步骤65110:否),方案提示模块32900基于表示通过步骤65010所获取的故障原因的候选的信息及关于故障原因的候选的可靠度、通过步骤65030所获取的与成为候选的展开方案有关的信息、以及关于通过步骤65070所算出的各展开方案的得分值,生成方案提示画面(参照图20),将所生成的方案提示画面显示在输出器件31200上(步骤65120)。例如,在方案提示画面上,成为候选的展开方案中的一个以上的展开方案(以下称为“提示方案”),从得分值高的方案开始依次排列表示。提示方案例如是成为候选的展开方案中的得分值为规定值以上的展开方案。然后,方案提示模块32900结束方案提示处理。
另一方面,存在可靠度为100%的组合的情况下(步骤65110:是),方案提示模块32900确定可靠度为100%的组合中的得分值最高的组合所包含的展开方案,即针对可靠度为100%的故障原因的展开方案中的得分值最高的展开方案。而后,方案提示模块32900指示方案执行模块32900,执行关于所确定的展开方案的方案执行处理(参照图21)(步骤65130)。通过该方案执行处理,针对可靠度为100%的故障原因的展开方案中的得分值最高的展开方案被自动地执行。然后,方案提示模块32900结束方案提示处理。
另外,在本实施方式中,在存在可靠度为100%的故障原因的情况下,管理服务器30000自动执行针对该可靠度为100%的故障原因的、得分值最高的展开方案,但是否进行该自动执行的判断标准不限于可靠度为100%。例如,也可以是,在可靠度为规定值(例如,接近100%的值)以上的情况下,管理服务器30000自动执行针对该可靠度为规定值以上的故障原因的、得分值最高的展开方案(第二方案)。此外,例如,还可以是,在可靠度为规定值以上、并且针对该可靠度为规定值以上的故障原因的多个展开方案的各自的得分值的最大值(关于第二方案的得分值)为规定值以上的情况下,管理服务器30000自动执行具有该最大的得分值的展开方案(第二方案)。此外,在进行自动执行前,管理服务器30000可以就是否进行自动执行请求管理者批准。在进行自动执行前或执行后,管理服务器30000可以进行步骤65120的处理从而显示方案提示画面。
图20是第一实施方式涉及的方案提示画面的一个例子的结构图。
在计算机系统中发生有故障的情况下,方案提示画面具有用于显示管理者追究该原因而实施对策时参照的信息的显示区域71010、和用于指示展开方案的执行的方案执行按钮71020,其中,具体来说,该信息是故障原因的候选和针对该故障原因的候选能够实施的展开方案(成为候选的展开方案中的一个以上的展开方案、即提示方案)的列表的对应关系。
在显示故障原因的候选和展开方案的对应关系的显示区域71010中,显示表示故障原因的候选的信息,例如,与故障原因的候选对应的事件有关联的管理对象装置的装置ID、与故障原因的候选对应的事件有关联的管理对象器件的器件ID、与故障原因的候选对应的事件的类别、及关于故障原因的候选的可靠度、即实际所发生的条件事件的数量相对于条件事件的总数量的比例。例如,在图19的步骤65010中,这些值由方案提示模块32900从分析结果管理表33600获取。
此外,在显示区域71010,作为与针对故障原因的候选的展开方案(提示方案)有关的信息而显示:表示展开方案的内容的信息、展开方案的执行所花费的成本、展开方案的执行所需要的时间、即故障持续残留时间(停机时间)、及表示危险部位的信息。例如,在图19的步骤65030中,这些值由方案提示模块32900从展开方案表33800获取。
这里,针对故障原因的候选的多个展开方案从通过步骤65070所算出的得分值高的展开方案开始依次排列显示。另外,可以将多个展开方案从展开方案的执行所花费的成本少的方案开始依次排列,或从展开方案的执行所需要的时间短的方案开始依次排列,或者从不存在危险部位的方案开始依次排列等,基于展开方案的特征进行排序。作为排序的方法,可以采用例如通过点击显示区域71010中的“成本($)”来从成本少的方案开始依次排列等任意的方法。
方案执行按钮71020是用于指示执行被选择的展开方案的按钮,当按下该按钮时,管理服务器30000对提供与被选择的展开方案相当的功能的程序,发出执行展开方案的指示。接收到执行展开方案的指示的程序,执行被选择的展开方案。这里,执行展开方案的程序例如是管理服务器30000的存储器32000内的程序,例如是卷迁移程序(未图示)、或者VM移动程序(未图示)等。
另外,在显示区域71010,可以将展开方案表33800的方案对象33840所存储的、展开方案执行前的性能值及展开方案执行后的性能值的预测值一并显示,或者也可以以图表形式将性能值及性能值的预测值显示为趋势(trend)信息。
图20是方案提示画面的一个例子,可以在显示区域71010将表示展开方案的执行所花费的成本、展开方案的执行所需要的时间以外的展开方案的特征的信息,例如通过步骤65070所算出的得分值等一并显示,或者可以采用其他的显示方式。
<方案执行处理的详细>
图21是第一实施方式涉及的方案执行处理的流程图。
在方案提示画面中,从显示区域71010选择一个展开方案,当按下方案执行按钮71020时,方案执行模块32910开始执行方案执行处理。
首先,方案执行模块32910对提供与被选择的展开方案相当的功能的程序,指示执行被选择的展开方案(步骤67010)。这里,执行展开方案的程序例如是卷迁移程序、VM移动程序等,这些程序进行的处理与引用文献等所公开的现有技术的处理相同。此外,方案执行模块32910在实施这些处理时,可以利用用于进行执行顺序控制和竞争避免的通常的结构来避免竞争状态。
接着,方案执行模块32910参照展开方案表33800的展开规则ID33823,确定与被选择的展开方案对应的展开规则(步骤67020)。而后,方案执行模块32910从所确定的展开规则的条件事件中,提取与被选择的展开方案有关的未解决事件不对应的条件事件(步骤67030)。这里,方案执行模块32910参照规则及方案对应管理表33900,将与成为所确定的展开规则的基础的通用规则和成为被选择的展开方案的基础的通用方案的组合对应的未解决事件,确定为与被选择的展开方案有关的未解决事件。
方案执行模块32910对提取出的各条件事件,实施步骤67050及67060的处理。首先,方案执行模块32910指示方案执行结果确认模块32920,实施故障是否已得到改善的确认处理。接收到实施确认处理的指示的方案执行结果确认模块32920对处理对象的条件事件的发生源的管理对象装置,询问与处理对象的条件事件对应的故障是否已得到改善,即是否处理对象的条件事件处于未发生的状态(步骤67050)。
在处理对象的条件事件处于未发生的状态的情况下(步骤67060:是),方案执行结果确认模块32920对尚未作为确认处理的对象的条件事件实施确认处理。在通过步骤67030提取出的所有条件处于未发生的状态的情况下,方案执行模块32910将表示已执行被选择的展开方案的信息及执行结果成功的信息的条目,登记到方案执行历史管理表33950(步骤67080)。这里,在被登记的条目的展开规则ID33960中存储通过步骤67020所确定出的展开规则的展开规则ID,在展开方案ID33970中存储被选择的展开方案的展开方案ID,在执行成功与否33980中存储“OK”,在实施日期及时间33990中存储例如表示当前的日期及时间的数据。然后,方案执行模块32910结束方案执行处理。
在至少一个条件事件处于已发生的状态的情况下(步骤67060:否),方案执行模块32910将表示已执行被选择的展开方案的信息及执行结果失败的信息的条目,登记到方案执行历史管理表33950(步骤67090)。这里,在被登记的条目的展开规则ID33960中存储通过步骤67020所确定出的展开规则的展开规则ID,在展开方案ID33970中存储被选择的展开方案的展开方案ID,在执行成功与否33980中存储“NG”,在实施日期及时间33990中存储例如表示当前的日期及时间的数据。然后,方案执行模块32910结束方案执行处理。
另外,在本实施方式中,与展开方案对应的展开规则所包含的条件事件中的、预估为通过展开方案的执行可以解决的所有事件(与未解决事件不对应的事件)被解决的情况下,管理服务器30000判断为成功,但展开方案的执行结果的判断方法不限于此,管理服务器30000例如可以通过以下情况判断成功或失败:通过展开方案的执行服务等级得到哪种程度的改善(是否满足规定的服务等级),或实际已解决的事件的数量相对于预估为可以解决的事件的总数的比例是否达到一定值以上。此外,在故障是否得到改善的确认处理中,可以利用非专利文献1中所述的检查故障是否得到恢复的方法。
根据第一实施方式,管理服务器30000将展开方案执行后通过该执行而带来的故障恢复的成功与否的数据积累为历史。而后,管理服务器30000,在故障发生时推导故障原因和针对该故障原因的展开方案,并根据推导出的展开方案的过去的执行成功与否状况,评估展开方案。管理服务器30000根据关于故障原因的可靠度和得分值判断是否能够自动处理,在能够自动处理的情况下,通过自动执行得分值最高的展开方案能够进行故障恢复。另外,在自动执行展开方案前,管理服务器30000可以请求管理者批准。此外,在不能进行自动处理的情况下,管理服务器30000将表示针对故障原因的多个展开方案的数据,从得分值高的展开方案开始依次排列显示,并提示给管理者。由此,管理者能够容易地知晓故障恢复成功的可能性高的展开方案,并能够迅速地选择故障恢复成功的可能性高的展开方案来作为要执行的展开规则,从而能够削减用于故障恢复的操作管理成本。
例如,在某主计算机10000上动作的应用程序服务器的执行性能下降的情况下,可预想到管理者选择针对该应用程序服务器的执行性能下降这一故障而要实施的展开方案的情况。例如,在采用了预先将对故障过去实施了哪种展开方案进行记录,并在选择展开方案时利用所记录的该信息的技术(专利文献4所公开的技术)的情况下,在作为展开方案而过去实施了(1)应用程序服务器的进程的重启的方案、和(2)主计算机10000的重启的方案的情况下,管理服务器30000将过去被实施的展开方案、即(1)的展开方案和(2)的展开方案同等地推荐给管理者。例如,在主计算机10000上许多其他的进程被启动的情况为故障原因的情况下,存在即使实施(1)的展开方案也不能解决故障的可能性,但是即便这种情况,管理服务器30000也将(1)的展开方案和(2)的展开方案同等地推荐给管理者。对此,在本实施方式中,管理服务器30000基于过去被实施的展开方案的通过该实施而带来的故障恢复的成功与否算出得分值,将表示成为候选的多个展开方案的数据从得分值高的展开方案开始依次排列表示,并提示给管理者。因此,例如,在(1)的展开方案在过去的实施中故障恢复失败、(2)的展开方案在过去的实施中故障恢复成功的情况下,关于(2)的展开方案的得分值比关于(1)的展开方案的得分值高,因此,管理服务器30000将(2)的展开方案显示为比(1)的展开方案靠上,从而与(1)的展开方案相比,将(2)的展开方案优先地提示给管理者。因此,管理者能够容易地知晓在过去故障恢复成功,被认为故障恢复成功的可能性高的展开方案即(2)的展开方案,并能够迅速地选择(2)的展开方案来作为要执行的展开规则。
(2)第二实施方式
接着,对第二实施方式进行说明。在下面的说明中,以与第一实施方式的不同点为中心进行说明,对具有相同的构成要素、同等的功能的程序、具有同等的项目的表,省略记载。
在第一实施方式中,作为针对故障原因的展开方案存在多个展开方案时,管理服务器30000基于参照过去的执行历史而算出的得分值进行支援,以便管理服务器30000或管理者迅速地选择恰当的展开方案。但是,在展开方案的过去的执行次数少,并且方案执行历史管理表33950内积累的过去的执行结果的数量少的情况下,就不能说用于保证得分值的稳妥性的历史数据充分,在这种情况下,即使基于得分值选择了展开方案,也不清楚被选择的展开方案是否最恰当。此外,对于得分值低的展开方案,由于被选择的可能性低,因此对得分值低的展开方案来说增加历史数据的可能性就低。例如,作为成为候选的展开方案有两个展开方案(展开方案A及展开方案B),在过去均被执行一次的情况下,如果展开方案A故障恢复成功而展开方案B故障恢复失败,则由于关于展开方案A的得分值比关于展开方案B的得分值高,因此选择展开方案A的可能性高。但是,考虑到展开方案A及展开方案B的过去的执行次数只不过为一次,也存在展开方案A偶然故障恢复成功而展开方案B偶然故障恢复失败的可能性,因此展开方案A不一定最恰当。并且,对于被选择的可能性低的展开方案B,由于增加历史数据的可能性低并且其后得分值变高的可能性低,因此结果是在此之后展开方案A会被经常地优先地选择。
在第二实施方式中,管理服务器30000提取与执行次数少的展开方案有关的测试案例,管理服务器30000或管理者基于提取出的测试案例,对执行次数少的展开方案,在测试环境下例如在操作开始前进行测试,生成关于该展开方案的历史数据。
图22是第二实施方式涉及的管理服务器的一个例子的结构图。
管理服务器30000的存储器32000还存储测试案例提取模块32950的计算机程序。此外,管理服务器30000的辅助存储器件33000还存储测试案例库34100。
图23是第二实施方式涉及的测试案例库的一个例子的结构图。
测试案例库34100包含故障事件信息34110、展开规则ID34120及展开方案ID34130的字段。故障事件信息34110存储与展开规则ID34120的展开规则ID所示的展开规则所包含的事件(条件事件及原因事件)有关的信息。展开规则ID34120存储将与测试对象的故障原因对应的事件作为原因事件的展开规则的展开规则ID。展开方案ID34130存储测试对象的展开方案的展开方案ID。
图24是第二实施方式涉及的测试案例提取处理的流程图。
首先,测试案例提取模块32950对展开规则库33500所包含的所有展开规则实施步骤68020的处理。在步骤68020中,测试案例提取模块32950提取处理对象的展开规则所包含的事件(条件事件及原因事件)。
测试案例提取模块32950对通过步骤38020提取出的各事件,实施从步骤68040到步骤68090的处理。
首先,测试案例提取模块32950从展开规则库33500提取包含处理对象的事件的展开规则(步骤68050)。而后,测试案例提取模块32950通过实施图17的步骤63030到63090的处理,生成与提取出的展开规则对应的展开方案,即提取出的展开规则的原因事件为故障原因的情况下针对该故障原因的展开方案(步骤68060)。
然后,测试案例提取模块32950从方案执行历史管理表33950获取与通过步骤68050提取出的展开规则、和通过步骤68060所生成的展开方案的组合对应的所有条目。而后,测试案例提取模块32950判断所获取的条目的数量是否为一定数量以上(步骤68070)。
所获取的条目的数量未到一定数量以上的情况下(步骤68070:否),测试案例提取模块32950生成与由通过步骤68050提取出的展开规则和通过步骤68060所生成的展开方案的组合所示的测试案例有关的、测试案例库34100的条目,将所生成的条目追加到测试案例库34100。该条目的故障事件信息34110中存储与通过步骤68050提取出的展开规则的一个以上的条件事件及原因事件分别有关的信息。该条目的展开规则ID34120中存储通过步骤68050提取出的展开规则的展开规则ID。该条目的展开方案ID34130中存储通过步骤68060所生成的展开方案的展开方案ID。
对通过步骤68020提取出的各事件,完成从步骤68040到步骤68090的处理后,测试案例提取模块32950结束测试案例提取处理。
本实施方式涉及的管理服务器30000或管理者,例如在操作开始前,对测试案例库34100所登记的测试案例的各个案例,实施与该测试案例对应的测试。而后,管理服务器30000或管理者,将测试结果、即展开方案的执行结果登记到方案执行历史管理表33950。例如,在由展开规则“ExRule1-1”和展开方案“ExPlan1-1”的组合所示的测试案例被登记到测试案例库34100的情况下,管理服务器30000或管理者虚拟地生成故障状况(将展开规则“ExRule1-1”的原因事件作为故障原因的故障状况),例如使展开规则“ExRule1-1”的条件事件或原因事件虚拟地发生等,并在该状况下执行展开方案“ExPlan1-1”。而后,管理服务器30000或管理者,将该执行结果、即表示通过展开方案“ExPlan1-1”的执行而是否使以展开规则“ExRule1-1”的原因事件为故障原因的故障恢复成功了的数据,登记到方案执行历史管理表33950。在本实施方式中,通过测试而得到的展开方案的执行结果也被用于得分值的计算中。
根据第二实施方式,管理服务器30000将历史数据不充分的展开规则和展开方案的组合作为测试案例,追加到测试案例库34100。而后,管理服务器30000或管理者,例如在管理服务器30000的导入时,实施与测试案例库34100所登记的测试案例对应的测试,将测试结果登记到方案执行历史管理表33950。由此,对所有展开方案可以确保充分的历史数据,并能够防止展开方案之间的实施历史的偏颇。此外,由于得分值基于充分的历史数据算出,可以保证其稳妥性,因此,管理服务器30000或管理者能够基于得分值选择更恰当的展开方案。
(3)第三实施方式
接着,对第三实施方式进行说明。在下面的说明中,以与第一实施方式的不同点为中心进行说明,对具有相同的构成要素、同等的功能的程序、具有同等的项目的表,省略记载。
如第二实施方式所述,在历史数据不足的情况下,不清楚基于得分值是否选择了最恰当的展开方案,此外,对于得分值低的展开方案,由于历史数据增加的可能性低,因此存在最初算出的得分值高的展开方案在之后会被经常选择的可能性。在第三实施方式中,假设计算机系统由多个子系统(是管理服务器30000的管理单位,以下称为“域(domain)”)构成,并按每个域设有管理服务器30000的情况。对在存在于其他的域的其他管理对象装置组中所发生的同样的故障,如果其他的域的管理者实施其他的展开方案的情况较多,则可以想到该展开方案更恰当。因此,在本实施方式中,在多个域的各个域的管理服务器30000之间进行通信,并且针对同样的故障的展开方案的历史存在一定数量以上的情况下,可以参考该情况从而算出得分值。
图25是第三实施方式涉及的计算机系统的一个例子的结构图。
第三实施方式涉及的计算机系统具有管理多个域的各个域的多个管理服务器30000、和作为多个管理服务器30000的各自的显示用计算机的多个网络浏览器启动服务器35000。多个管理服务器30000通过各自不同的管理者而被利用。
图26是第三实施方式涉及的管理服务器的一个例子的结构图。
管理服务器30000的存储器32000还存储历史收发模块32950的计算机程序。此外,管理服务器30000的辅助存储器件33000还存储管理服务器一览表34200。
图27是第三实施方式涉及的方案执行历史管理表33950的一个例子的结构图。
第三实施方式涉及的方案执行历史管理表33950,在第一实施方式涉及的执行历史管理表33950的各字段的基础上,还包含:用于存储表示是否为从其他的域的管理服务器30000接收到的历史数据的数据的字段的外部接收33995、和用于存储关于从其他的域的管理服务器30000接收到的历史数据而表示该历史数据的发送源的管理服务器30000的数据的字段的发送源服务器33997。例如,条目表示的历史数据是从其他的域的管理服务器30000接收到的历史数据、即是在其他的域执行展开方案而得到的历史数据的情况下,外部接收33995存储“Yes”。此外,条目表示的历史数据不是从其他的域的管理服务器30000接收到的历史数据的情况下、即在具有该方案执行历史管理表33950的管理服务器30000所管理的域(自有域)执行展开方案而得到的历史数据的情况下,外部接收33995存储NULL。
图28是第三实施方式涉及的管理服务器一览表的一个例子的结构图。
管理服务器一览表34200包含用于存储表示计算机系统内的多个管理服务器30000的每一个的数据(以下称为“服务器ID”)的字段的服务器ID34210、和用于存储被分配给计算机系统内的多个管理服务器30000的每一个的IP地址的字段的IP地址ID34200。
图29是第三实施方式涉及的方案执行历史交换处理的流程图。
在图29中,从步骤69010到步骤69060的处理,与发送方的管理服务器30000的历史收发模块32950(以下称为“发送方模块”)的处理对应,从步骤69070到步骤69075的处理,与接收方的管理服务器30000的历史收发模块32950(以下称为“接收方模块”)的处理对应。
发送方模块定期或不定期地从发送方的管理服务器30000的方案执行历史管理表33950,提取外部接收字段33995不为“Yes”的一个以上的条目(步骤69010)。而后,发送方模块将提取出的一个以上的条目分类到一个以上的条目组中(步骤69020)。这里,条目组是指展开规则ID33960和展开方案ID33970的值的组合一致的一个以上的条目。
发送方模块对一个以上的条目组的各个条目,实施从步骤69030到步骤69060的处理。
在步骤69040中,发送方模块判断处理对象的条目组所包含的条目的数量是否为一定数量以上。在处理对象的条目组所包含的条目的数量为一定数量以上的情况下(步骤69040:是),发送方模块将包含所有处理对象的条目组的各条目所示的数据(历史数据)的数据(以下称为“外部历史数据”),发送到登记在管理服务器一览表34210上的其他所有的管理服务器30000(步骤69050)。
对于一个以上的条目组的各个条目,完成从步骤69030到步骤69060的处理后,发送方模块结束方案执行历史交换处理。
接收到外部历史数据的各管理服务器30000的接收方模块,对表示外部历史数据所包含的历史数据的各条目,实施从步骤69071到步骤69075的处理。
首先,接收方模块,将处理对象的条目、和展开规则ID33960和展开方案ID33970的值的组合一致的一个以上的条目,从接收方的管理服务器30000的方案执行历史管理表33950(以下称为“接收方历史管理表”)提取(步骤69072)。
接着,接收方模块判断提取出的一个以上的条目中,是否包含发送源服务器ID33997和实施日期及时间33990的值的组合与处理对象的条目一致的条目(步骤69073)。未包含一致的条目的情况下(步骤69073:否),接收方模块将处理对象的条目登记到接收方历史管理表(步骤69074)。这时,被登记的条目的外部接收33995中存储“Yes”,被登记的条目的发送源服务器33997中存储通过管理服务器一览表34200管理的发送方的管理服务器30000的服务器ID。另一方面,包含一致的条目的情况下(步骤69073:是),接收方模块不进行处理对象的条目的向接收方历史管理表的登记。
对表示外部历史数据所包含的历史数据的各条目,完成从步骤69071到步骤69075的处理后,接收方模块结束方案执行历史交换处理。
本实施方式涉及的管理服务器30000,在图19的步骤65070中计算得分值时,在自有域得到的历史数据的基础上,也利用通过方案执行历史交换处理而登记到方案执行历史管理表33950的历史数据、即从其他的域的管理服务器30000接收到的历史数据,来算出得分值。另外,管理服务器30000也可以对从其他的域的管理服务器30000接收到的历史数据,与在自有域中得到的历史数据同样地对待而算出得分值,还可以将从其他的域的管理服务器30000接收到的历史数据与在自有域中得到的历史数据相区别地算出得分值。此外,对于从多个其他的域的管理服务器30000中的特定的管理服务器30000、例如从操作方式不同的域的管理服务器30000接收到的历史数据,管理服务器30000也可以在得分值的计算中不利用该历史数据。
图30是第三实施方式涉及的方案提示画面的一个例子的结构图。
第三实施方式涉及的方案提示画面,是在第一实施方式涉及的方案提示画面(图20)的显示区域71010中,进一步按每个展开方案,显示关于该展开方案的与执行历史有关的数据。与执行历史有关的数据包含:例如,包括在自有域得到的执行历史和从其他的域的管理服务器30000接收到的执行历史的执行历史的总数、执行历史的总数中的从其他的域的管理服务器30000接收到的执行历史的数量、及发送了执行历史的其他的域的管理服务器30000的数量。例如,从关于第一个展开方案(“#”为“1”的展开方案)的与执行历史有关的数据可知:该展开方案一共执行100次,其中的20次是在其他的3个域执行的。另外,与执行历史有关的数据中也可以包含例如表示被提示的展开方案具体是在哪个域的管理服务器30000被执行的信息。图30是方案提示画面的一个例子,只要是管理者能够理解执行历史的详细内容为何种程度那样的画面即可,显示方式不限于图30所示的方式。
根据第三实施方式,在自有域得到的历史数据的基础上,管理服务器30000也利用从其他的域的管理服务器30000接收到的历史数据来评估展开方案。管理服务器30000根据关于故障原因的可靠度和得分值,判断是否能够自动处理,在能够自动处理的情况下,能够通过自动执行得分值最高的展开方案来进行故障恢复。另外,在自动执行展开方案前,管理服务器30000可以请求管理者的批准。此外,在不能进行自动处理的情况下,管理服务器30000将表示针对故障原因的多个展开方案的数据,从得分值高的展开方案开始依次排列显示,并提示给管理者。由此,管理服务器30000或管理者,不仅仅基于利用在自有域得到的历史数据,也基于利用从其他的域得到的历史数据而算出的得分值,能够根据过去的实际成绩迅速地选择恰当的展开方案,从而能够削减用于故障恢复的操作管理成本。
另外,本发明不限定于以上说明的实施方式,不言而喻,在不脱离其主旨的范围内能够进行各种变形。
符号说明:
10000:主计算机;20000:存储装置;30000:管理服务器;35000:网络浏览器启动服务器;40000:IP交换机;45000:通信网络。

Claims (10)

1.一种管理方法,其使构成对具有多个管理对象器件的计算机系统进行管理的管理系统的计算机执行如下处理:
基于一个以上的规则,对在所述多个管理对象器件的任一个中发生的事件的原因进行分析,确定成为所发生的所述事件的原因的候选的第一原因事件,其中,该一个以上的规则表示与所述多个管理对象器件的任一个有关的原因事件、和满足所述原因事件成为原因这一条件的、与所述多个管理对象器件的任一个有关的一个以上的条件事件的对应关系,
基于方案信息,确定在所述第一原因事件为原因的情况下能够实施的多个第一方案,其中,该方案信息表示所述规则和在所述规则的原因事件为原因的情况下能够实施的作为恢复方案的方案的对应关系,
基于方案历史信息,对于多个所述第一方案中的各个方案,计算表示在实施了该方案的情况下故障恢复成功的可能性的指标值,其中,该方案历史信息按所述方案的每次实施,表示通过该方案的实施而带来的故障恢复的成功与否,
按照基于所述指标值而决定的显示方式,显示表示所述多个第一方案中的任意一个以上的方案的数据,
从所述多个第一方案中提取所述指标值为规定值以上的一个以上的方案,显示表示提取出的该一个以上的方案的数据,
对提取出的所述一个以上的方案,从所述指标值高的方案开始依次排列显示,
在发生的所述事件的原因分析中,对一个以上的规则的各自的原因事件,计算表示该原因事件为原因的确定性的可靠度,基于所述可靠度确定所述第一原因事件,
在关于所述第一原因事件的所述可靠度为规定值以上的情况下,实施所述多个第一方案中的所述指标值最高的第二方案。
2.根据权利要求1所述的管理方法,其使所述计算机执行如下处理:
在关于所述第一原因事件的所述可靠度为规定值以上,并且在关于所述第二方案的所述指标值为规定值以上的情况下,实施所述第二方案。
3.根据权利要求2所述的管理方法,其使所述计算机执行如下处理:
所述多个第一方案中的一个方案被实施后,将表示通过所述一个方案的实施而带来的故障恢复的成功与否的数据,追加到所述方案历史信息中。
4.根据权利要求3所述的管理方法,其中,
所述方案历史信息包含多个历史要素,该历史要素将包含过去确定为原因的候选的原因事件的规则、该规则的原因事件被确定为原因的候选时所实施的方案、和通过该方案的实施而带来的故障恢复的成功与否的信息建立对应地表示,
所述管理方法使所述计算机执行如下处理:
基于所述方案信息及所述方案历史信息,按一个以上的规则中的一个规则和与该规则对应的一个方案的每个组合,判断在所述方案历史信息中是否包含有规定数量以上的与该组合有关的历史要素,对于未包含规定数量以上的历史要素的组合,在将构成该组合的规则的原因事件作为原因的故障情况下,进行实施构成该组合的方案的测试,生成基于该测试的结果的与该组合有关的历史要素,并将生成的历史要素追加到所述方案历史信息中。
5.根据权利要求4所述的管理方法,其中,
所述方案历史信息包含多个历史要素,该历史要素将包含过去确定为原因的候选的原因事件的规则、该规则的原因事件被确定为原因的候选时所实施的方案、和通过该方案的实施而带来的故障恢复的成功与否的信息建立对应地表示,
所述管理方法使所述计算机执行如下处理:
在所述方案历史信息中包含规定数量以上的、与所述方案历史信息所包含的第一历史要素表示的规则和所述第一历史要素表示的方案的组合有关的历史要素的情况下,将包含与该组合有关的历史要素的数据向管理与所述计算机系统不同的计算机系统的管理系统发送,
在从管理与所述计算机系统不同的计算机系统的管理系统接收到包含历史要素的数据的情况下,将接收到的所述数据所包含的历史要素追加到所述方案历史信息中。
6.根据权利要求5所述的管理方法,其中,
所述规则包含通用规则和展开规则,其中,该通用规则是将与所述原因事件及所述条件事件有关联的管理对象器件以该管理对象器件的类别表示的规则,该展开规则是将与所述原因事件及所述条件事件有关联的管理对象器件的类别以表示特定的管理对象器件的数据来表示的规则,
所述方案包含通用方案和展开方案,其中,该通用方案是不依赖于所述计算机系统的实际结构的形式的恢复方案,该展开方案是考虑所述计算机系统的实际结构将所述通用方案展开而得到的恢复方案,
所述方案信息表示所述通用规则和所述通用规则的原因事件为原因的情况下能够实施的通用方案的对应关系,
所述方案历史信息按所述展开方案的每次实施,表示通过该展开方案的实施而带来的故障恢复的成功与否,并包含多个历史要素,其中,该历史要素将包含过去确定为原因的候选的原因事件的展开规则、该展开规则的原因事件被确定为原因的候选时所实施的展开方案、和通过该展开方案的实施而带来的故障恢复的成功与否的信息建立对应地表示,
所述管理方法使所述计算机执行如下处理:
基于表示所述多个管理对象器件之间的连接关系的连接信息及所述通用规则,生成多个所述展开规则,
在发生的所述事件的原因分析中,基于对生成的所述多个展开规则的各自的原因事件计算出的所述可靠度,确定所述第一原因事件,
基于所述方案信息,确定与成为包含所述第一原因事件的展开规则的基础的通用规则对应的通用方案,将通过展开所确定出的该通用方案而生成的多个展开方案分别确定为所述第一方案。
7.一种管理系统,对具有多个管理对象器件的计算机系统进行管理,其中,
所述管理系统具有存储器件和与所述存储器件连接的控制器件,
所述存储器件存储:
一个以上的规则,其表示与所述多个管理对象器件的任一个有关的原因事件、和满足所述原因事件成为原因这一条件的、与所述多个管理对象器件的任一个有关的一个以上的条件事件的对应关系,
方案信息,其表示所述规则和所述规则的原因事件为原因的情况下能够实施的作为恢复方案的方案的对应关系,
方案历史信息,其按所述方案的每次实施,表示通过该方案的实施而带来的故障恢复的成功与否,
所述控制器件,
基于所述一个以上的规则,对在所述多个管理对象器件的任一个中发生的事件的原因进行分析,确定成为发生的所述事件的原因的候选的第一原因事件,
基于所述方案信息,确定所述第一原因事件为原因的情况下能够实施的多个第一方案,
基于所述方案历史信息,对所述多个第一方案的各个方案,计算表示在实施了该方案的情况下故障恢复成功的可能性的指标值,
按照基于所述指标值而决定的显示方式,显示表示所述多个第一方案中的任意一个以上的方案的数据,
所述控制器件对所述多个第一方案中的任意一个以上的方案,从所述指标值高的方案开始依次排列显示,
所述控制器件,
在发生的所述事件的原因分析中,对一个以上的规则的各自的原因事件,计算表示该原因事件为原因的确定性的可靠度,并基于所述可靠度确定所述第一原因事件,
在关于所述第一原因事件的所述可靠度为规定值以上的情况下,实施所述多个第一方案中的所述指标值最高的方案。
8.根据权利要求7所述的管理系统,其中,
所述方案历史信息包含多个历史要素,该历史要素将包含过去确定为原因的候选的原因事件的规则、该规则的原因事件被确定为原因的候选时所实施的方案、和通过该方案的实施而带来的故障恢复的成功与否的信息建立对应地表示,
所述控制器件,
基于所述方案信息及所述方案历史信息,按一个以上的规则中的一个规则和与该规则对应的一个方案的每个组合,判断在所述方案历史信息中是否包含有规定数量以上的与该组合有关的历史要素,
对于未包含规定数量以上的历史要素的组合,在将构成该组合的规则的原因事件作为原因的故障情况下,进行实施构成该组合的方案的测试,生成基于该测试结果的与该组合有关的历史要素,并将生成的历史要素追加到所述方案历史信息中。
9.根据权利要求7所述的管理系统,其中,
所述方案历史信息包含多个历史要素,该历史要素将包含过去确定为原因的候选的原因事件的规则、该规则的原因事件被确定为原因的候选时所实施的方案、和通过该方案的实施而带来的故障恢复的成功与否的信息建立对应地表示,
所述控制器件,
在所述方案历史信息中包含规定数量以上的、与所述方案历史信息所包含的第一历史要素表示的规则和所述第一历史要素表示的方案的组合有关的历史要素的情况下,将包含与该组合有关的历史要素的数据向管理与所述计算机系统不同的计算机系统的管理系统发送,
在从管理与所述计算机系统不同的计算机系统的管理系统接收到包含历史要素的数据的情况下,将接收到的所述数据所包含的历史要素追加到所述方案历史信息中。
10.根据权利要求7所述的管理系统,其中,
所述规则是将与所述原因事件及所述条件事件有关联的管理对象器件以该管理对象器件的类别表示的通用规则,
所述方案信息表示所述通用规则和通用方案的对应关系,其中,该通用方案是所述通用规则的原因事件为原因的情况下能够实施的恢复方案,是不依赖于所述计算机系统的实际结构的形式的恢复方案,
所述方案历史信息,按展开方案的每次实施,表示通过该展开方案的实施而带来的故障恢复的成功与否,其中,该展开方案是考虑所述计算机系统的实际结构将所述通用方案展开而得到的恢复方案,
所述存储器件还存储表示所述多个管理对象器件之间的连接关系的连接信息,
所述控制器件,
基于所述连接信息和所述通用规则生成多个展开规则,该多个展开规则将与所述原因事件及所述条件事件有关联的管理对象器件的类别以表示特定的管理对象器件的数据来表示,
在发生的所述事件的原因分析中,根据基于一个以上的通用规则而生成的多个展开规则,确定所述第一原因事件,
基于所述方案信息,确定与成为包含所述第一原因事件的展开规则的基础的通用规则对应的通用方案,将通过展开所确定出的该通用方案而生成的多个展开方案分别确定为所述第一方案。
CN201380045071.7A 2013-04-05 2013-04-05 管理系统及管理程序 Active CN104583968B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/060506 WO2014162595A1 (ja) 2013-04-05 2013-04-05 管理システム及び管理プログラム

Publications (2)

Publication Number Publication Date
CN104583968A CN104583968A (zh) 2015-04-29
CN104583968B true CN104583968B (zh) 2017-08-04

Family

ID=51657921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380045071.7A Active CN104583968B (zh) 2013-04-05 2013-04-05 管理系统及管理程序

Country Status (6)

Country Link
US (1) US9619314B2 (zh)
EP (1) EP2887222B1 (zh)
JP (1) JP6114818B2 (zh)
CN (1) CN104583968B (zh)
IN (1) IN2015DN01974A (zh)
WO (1) WO2014162595A1 (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10346862B2 (en) 2013-10-08 2019-07-09 Accenture Global Solutions Limited Migration system to migrate users to target services
CN105874743B (zh) * 2013-10-08 2018-03-09 埃森哲环球服务有限公司 服务提供商网络迁移系统和方法
US10235227B2 (en) 2015-10-12 2019-03-19 Bank Of America Corporation Detection, remediation and inference rule development for multi-layer information technology (“IT”) structures
US9703624B2 (en) * 2015-10-12 2017-07-11 Bank Of America Corporation Event correlation and calculation engine
US9578063B1 (en) * 2015-11-20 2017-02-21 International Business Machines Corporation Application self-service for assured log management in cloud environments
CN105867289A (zh) * 2016-04-07 2016-08-17 高必红 一种堆料机抱闸故障的分析处理方法
US10346201B2 (en) * 2016-06-15 2019-07-09 International Business Machines Corporation Guided virtual machine migration
US10289854B1 (en) * 2016-09-23 2019-05-14 Amdocs Development Limited Apparatus, computer program, and method for generating an intermediate entitlement specification for controlling access to service or content
US10355913B2 (en) * 2017-05-04 2019-07-16 Servicenow, Inc. Operational analytics in managed networks
US11210158B2 (en) * 2017-11-29 2021-12-28 Riverbed Technology, Inc. Automated problem diagnosis on logs using anomalous telemetry analysis
JP6684850B2 (ja) * 2018-05-16 2020-04-22 株式会社日立製作所 分散台帳システム、分散台帳サブシステム、および、分散台帳ノード
JP2020071570A (ja) * 2018-10-30 2020-05-07 ファナック株式会社 データ作成装置、デバッグ装置、データ作成方法及びデータ作成プログラム
US10802944B2 (en) * 2019-01-23 2020-10-13 Salesforce.Com, Inc. Dynamically maintaining alarm thresholds for software application performance management
US11194591B2 (en) 2019-01-23 2021-12-07 Salesforce.Com, Inc. Scalable software resource loader
US10922062B2 (en) 2019-04-15 2021-02-16 Salesforce.Com, Inc. Software application optimization
US10922095B2 (en) 2019-04-15 2021-02-16 Salesforce.Com, Inc. Software application performance regression analysis
JP7077285B2 (ja) * 2019-09-19 2022-05-30 ヤフー株式会社 表示制御装置、表示制御方法および表示制御プログラム
JP6882802B1 (ja) * 2020-01-21 2021-06-02 株式会社Eco‐Pork 畜産情報管理システム、畜産情報管理サーバ、畜産情報管理方法、及び畜産情報管理プログラム
US11775405B2 (en) 2020-03-20 2023-10-03 UncommonX Inc. Generation of an issue response evaluation regarding a system aspect of a system
US11403165B2 (en) * 2020-04-29 2022-08-02 Kyndryl, Inc. Cognitive disaster recovery workflow management

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6487677B1 (en) * 1999-09-30 2002-11-26 Lsi Logic Corporation Methods and systems for dynamic selection of error recovery procedures in a managed device
JP2003108377A (ja) * 2001-10-01 2003-04-11 Seiko Epson Corp 知識ルール変換装置、エキスパートシステム、知識ルール変換プログラムおよびエキスパートシステムの構築方法
CN101377750A (zh) * 2007-09-21 2009-03-04 中国科学院计算技术研究所 一种用于机群容错的系统和方法
CN101833497A (zh) * 2010-03-30 2010-09-15 山东高效能服务器和存储研究院 一种基于专家系统方法的计算机故障管理系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH087601B2 (ja) * 1988-09-30 1996-01-29 マツダ株式会社 シーケンス制御方式機械装置の異常復旧装置
US7107185B1 (en) 1994-05-25 2006-09-12 Emc Corporation Apparatus and method for event correlation and problem reporting
US5528516A (en) * 1994-05-25 1996-06-18 System Management Arts, Inc. Apparatus and method for event correlation and problem reporting
US5680640A (en) 1995-09-01 1997-10-21 Emc Corporation System for migrating data by selecting a first or second transfer means based on the status of a data element map initialized to a predetermined state
US7536370B2 (en) * 2004-06-24 2009-05-19 Sun Microsystems, Inc. Inferential diagnosing engines for grid-based computing systems
US7734945B1 (en) 2005-04-29 2010-06-08 Microsoft Corporation Automated recovery of unbootable systems
WO2007008940A2 (en) * 2005-07-11 2007-01-18 Brooks Automation, Inc. Intelligent condition-monitoring and dault diagnostic system
JP4896573B2 (ja) * 2006-04-20 2012-03-14 株式会社東芝 障害監視システムと方法、およびプログラム
US8112378B2 (en) * 2008-06-17 2012-02-07 Hitachi, Ltd. Methods and systems for performing root cause analysis
JP5237034B2 (ja) 2008-09-30 2013-07-17 株式会社日立製作所 イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。
US8069374B2 (en) * 2009-02-27 2011-11-29 Microsoft Corporation Fingerprinting event logs for system management troubleshooting
JP5385982B2 (ja) 2009-07-16 2014-01-08 株式会社日立製作所 障害の根本原因に対応した復旧方法を表す情報を出力する管理システム
JP5419819B2 (ja) * 2010-07-16 2014-02-19 株式会社日立製作所 計算機システムの管理方法、及び管理システム
US20120030346A1 (en) * 2010-07-29 2012-02-02 Hitachi, Ltd. Method for inferring extent of impact of configuration change event on system failure
JP5432867B2 (ja) * 2010-09-09 2014-03-05 株式会社日立製作所 計算機システムの管理方法、及び管理システム
JP5658417B2 (ja) * 2012-02-27 2015-01-28 株式会社日立製作所 監視システム及び監視プログラム
WO2014033945A1 (ja) * 2012-09-03 2014-03-06 株式会社日立製作所 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム
JP6009089B2 (ja) * 2013-09-18 2016-10-19 株式会社日立製作所 計算機システムを管理する管理システム及びその管理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6487677B1 (en) * 1999-09-30 2002-11-26 Lsi Logic Corporation Methods and systems for dynamic selection of error recovery procedures in a managed device
JP2003108377A (ja) * 2001-10-01 2003-04-11 Seiko Epson Corp 知識ルール変換装置、エキスパートシステム、知識ルール変換プログラムおよびエキスパートシステムの構築方法
CN101377750A (zh) * 2007-09-21 2009-03-04 中国科学院计算技术研究所 一种用于机群容错的系统和方法
CN101833497A (zh) * 2010-03-30 2010-09-15 山东高效能服务器和存储研究院 一种基于专家系统方法的计算机故障管理系统

Also Published As

Publication number Publication date
US9619314B2 (en) 2017-04-11
CN104583968A (zh) 2015-04-29
US20160004582A1 (en) 2016-01-07
EP2887222A4 (en) 2016-05-25
EP2887222B1 (en) 2020-07-15
EP2887222A1 (en) 2015-06-24
JP6114818B2 (ja) 2017-04-12
WO2014162595A1 (ja) 2014-10-09
IN2015DN01974A (zh) 2015-08-14
JPWO2014162595A1 (ja) 2017-02-16

Similar Documents

Publication Publication Date Title
CN104583968B (zh) 管理系统及管理程序
US9672085B2 (en) Adaptive fault diagnosis
JP6782778B2 (ja) データ処理方法及び装置
JP5223413B2 (ja) Itシステムのトラブル対処装置、トラブル対処方法およびそのためのプログラム
CN102129372B (zh) 通过事件相关来进行根本原因问题标识
JP5684946B2 (ja) イベントの根本原因の解析を支援する方法及びシステム
Nguyen et al. An industrial case study of automatically identifying performance regression-causes
CN107451040A (zh) 故障原因的定位方法、装置及计算机可读存储介质
Duan et al. Guided problem diagnosis through active learning
CN113238924A (zh) 分布式图数据库系统中的混沌工程实现方法和系统
US11392821B2 (en) Detecting behavior patterns utilizing machine learning model trained with multi-modal time series analysis of diagnostic data
JP2017045197A (ja) 情報処理装置、マイグレーション制御プログラムおよび情報処理システム
JP2016192185A (ja) なりすまし検出システムおよびなりすまし検出方法
US20150261647A1 (en) Information system construction assistance device, information system construction assistance method, and recording medium
US20180336477A1 (en) Information processing apparatus and non-transitory computer readable medium
CN105164647A (zh) 生成表示应用对外部服务的故障的模拟的响应的指纹
Zhu et al. Automatic fault diagnosis in cloud infrastructure
CN105590259A (zh) 交易系统的诊断装置和方法
WO2021101918A1 (en) Recovery maturity index (rmi) - based control of disaster recovery
CN105303116B (zh) Erp产品安全保护装置和方法
Hwang et al. Fixme: Enhance software reliability with hybrid approaches in cloud
Dhiman et al. A Clustered Approach to Analyze the Software Quality Using Software Defects
Locher Optimizing IT operations with AIOps: an investigation into the opportunities and challenges for enterprise adoption
WO2021053801A1 (ja) 情報分析装置、方法およびプログラム
JP6547341B2 (ja) 情報処理装置、方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant