CN104272266A - 对具有多个监视对象器件的计算机系统进行管理的管理系统 - Google Patents

对具有多个监视对象器件的计算机系统进行管理的管理系统 Download PDF

Info

Publication number
CN104272266A
CN104272266A CN201280072987.7A CN201280072987A CN104272266A CN 104272266 A CN104272266 A CN 104272266A CN 201280072987 A CN201280072987 A CN 201280072987A CN 104272266 A CN104272266 A CN 104272266A
Authority
CN
China
Prior art keywords
event
scheme
deployment schemes
rule
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280072987.7A
Other languages
English (en)
Other versions
CN104272266B (zh
Inventor
中岛淳
名仓正刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of CN104272266A publication Critical patent/CN104272266A/zh
Application granted granted Critical
Publication of CN104272266B publication Critical patent/CN104272266B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • G06F11/1484Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2257Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

管理系统对具有多个监视对象器件的计算机系统进行管理。管理系统的存储器件存储通用规则、通用方案信息、未解决信息和结构信息。监视系统的控制器件基于通用规则和结构信息,生成多个展开规则,在与多个监视对象器件的任一个有关的事件产生的情况下,基于多个展开规则,确定成为产生的事件的原因的候选的第1结论事件,基于通用方案信息,生成在第1结论事件为原因的情况下能够采取的恢复方案的一个以上的展开方案,基于未解决信息确定未解决事件,基于确定的未解决事件确定危险部位,显示第1结论事件、展开方案和表示危险部位的数据。

Description

对具有多个监视对象器件的计算机系统进行管理的管理系统
技术领域
本发明涉及例如对包括主计算机(host computer)、网络交换机和存储装置等监视对象装置的计算机系统进行管理的技术。
背景技术
在计算机系统的管理中,通过使用确定Event Correlation(事件关联)技术等事件基础中的故障原因的技术,计算机系统的管理者能够能够检测在计算机系统中产生的故障的原因(参照专利文献1)。
另外,存在如下技术:用于对在处于管理下的设备中产生的多个故障事件的因果关系进行分析的分析机,将由事前确定的条件句和结论句构成的通用规则应用于与处于管理下的设备有关的事件、例如性能值超过规定的阈值的事件,由此生成包含成为性能下降的原因的结论事件和由其引起的条件事件组的展开规则,基于生成的展开规则进行故障的确定(参照专利文献2)。
在近年的计算机系统中,作为针对通过原因分析确定的原因的复原方法存在很多能够实施的有用的方法,例如存在当配置系统资源(虚拟机、数据)时,通过进行适当的数据移动从故障进行复原之类的方法等。作为数据移动技术已知有,例如在物理主计算机之上使多个虚拟的主计算机(即,为虚拟机,以下称为“VM”)动作的环境中,根据显示VM的性能的信息和资源的利用信息,使VM的动作环境从某物理主计算机交接至其他物理主计算机的技术(第1VM移动)、和使收纳于存储区域的VM向其他存储区域移动的技术(第2VM移动)。在此,VM为收纳于存储区域的数据的一种,VM移动(第1VM移动和第2VM移动)为存储区域间的数据移动的一种。另外,存储装置的数据存储区域(卷)间的数据移动技术(卷迁移)是已知的(参照专利文献3)。
现有技术文献
专利文献
专利文献1:美国专利第7107185号说明书
专利文献2:日本特开2010-86115号公报
专利文献3:美国专利第6108748号说明书
发明内容
在应对利用专利文献1那样的Event Correlation技术确定的故障的情况下,不论管理者具体实施哪种方法进行故障恢复,从故障至恢复均花费成本。
另外,为了应对利用Event Correlation技术确定的故障,能够存在如下情况:能够实施各种方案,如进行故障原因自身的恢复的方案、使因故障原因受到影响的业务的再开始为最优先的方案等。例如,在存储端口的性能故障导致业务的响应性能下降的情况下,具有以不利用产生了故障的端口的方式使业务转移至其他服务器的方案(例如关于VM移动的方案)、交换端口的方案等。
在实施不进行故障原因其自身的恢复的方案这样的对策的情况下,在实施方案后还可能继续残留因故障原因导致的危险,但是管理者并不知道在计算机系统内的哪处残留何种问题。因此,在有可能残留危险的情况下,管理者可能会无意地选择不进行故障原因其自身的恢复的方案(例如使业务的再开始为最优先的方案)。
用于解决技术课题的技术方案
对具有多个监视对象器件的计算机系统进行管理。管理系统的存储器件存储:通用规则,其表示与多个监视对象器件的任一个有关的1个以上的条件事件和在发生了1个以上的条件事件的情况下成为原因的、与多个监视对象器件的任一个有关的结论事件的对应关系,使与条件事件和结论事件有关联的监视对象器件通过该监视对象器件的类别表示;通用方案信息,其表示通用规则和作为在通用规则的结论事件为原因的情况下能够实施的恢复方案的1个以上的通用方案的对应关系;未解决信息,其按通用规则和通用方案的每个组合表示在实施了该通用方案的情况下以未解决的状态残留的、该通用规则的条件事件;和表示多个监视对象器件间的连接关系的结构信息。管理系统的控制器件,基于通用规则和结构信息,生成利用表示特定监视对象器件的数据来表示与条件事件和结论事件有关联的监视对象器件的类别而得到的多个展开规则,在发生了与多个监视对象器件的任一个有关的事件的情况下,基于生成的多个展开规则,将产生的事件作为条件事件进行原因分析,确定成为产生的事件的原因的候选的第1结论事件,基于通用方案信息,生成1个以上的展开方案,该1个以上的展开方案为在第1结论事件为原因的情况下能够实施的恢复方案、且为考虑计算机系统的实际结构将成为与包含第1结论事件的展开规则的基础的通用规则对应的通用方案展开而得到的恢复方案,对于生成的1个以上的展开方案,分别确定在基于未解决信息实施了该展开方案的情况下以未解决的状态残留的未解决事件,并确定危险部位,该危险部位是基于所确定的未解决事件实施了该展开方案后问题还继续残留的监视对象器件,显示第1结论事件、生成的1个以上的展开方案和表示所确定的危险部位的数据。
附图说明
图1是实施例1涉及的计算机系统的一个例子的构成图。
图2是实施例1涉及的管理服务器的一个例子的构成图。
图3是实施例1涉及的存储装置的一个例子的构成图。
图4是实施例1涉及的物理服务器的一个例子的构成图。
图5是实施例1涉及的结构信息表的一个例子的构成图。
图6是实施例1涉及的性能信息表的一个例子的构成图。
图7是实施例1涉及的事件管理表的一个例子的构成图。
图8是实施例1涉及的通用规则表的一个例子的构成图。
图9是实施例1涉及的通用方案表的一个例子的构成图。
图10是实施例1涉及的规则及方案对应表的一个例子的构成图。
图11是实施例1涉及的展开规则表的一个例子的构成图。
图12A是实施例1涉及的展开方案表的第1构成图。
图12B是实施例1涉及的展开方案表的第2构成图。
图13是实施例1涉及的分析结果管理表的一个例子的构成图。
图14是实施例1涉及的事件分析处理的流程图。
图15是实施例1涉及的规则展开处理的流程图。
图16是实施例1涉及的方案生成处理的流程图。
图17是实施例1涉及的方案执行后危险提取处理的流程图。
图18是实施例1涉及的方案提示处理的流程图。
图19是实施例1涉及的效果及危险提示处理的流程图。
图20是实施例1涉及的方案提示画面的一个例子的构成图。
图21是实施例1涉及的方案详细画面的一个例子的构成图。
图22是实施例2涉及的管理服务器的一个例子的构成图。
图23是实施例2涉及的物理服务器的一个例子的构成图。
图24是实施例2涉及的物理服务器的一个例子的逻辑构成图。
图25是实施例2涉及的交换机的一个例子的构成图。
图26是实施例2涉及的结构信息表的一个例子的构成图。
图27是实施例2涉及的VM结构管理表的一个例子的构成图。
图28是实施例2涉及的性能信息表的一个例子的构成图。
图29是实施例2涉及的事件管理表的一个例子的构成图。
图30A是实施例2涉及的通用规则表的第1构成图。
图30B是实施例2涉及的通用规则表的第2构成图。
图31是实施例2涉及的规则及方案对应表的一个例子的构成图。
图32A是实施例2涉及的展开规则表的第1构成图。
图32B是实施例2涉及的展开规则表的第2构成图。
图33A是实施例2涉及的展开方案表的第1构成图。
图33B是实施例2涉及的展开方案表的第2构成图。
图33C是实施例2涉及的展开方案表的第3构成图。
图34是实施例2涉及的分析结果管理表的一个例子的构成图。
图35是实施例2涉及的方案提示处理的流程图。
图36是实施例2涉及的方案提示画面的一个例子的构成图。
图37是实施例3涉及的管理服务器的一个例子的构成图。
图38是实施例3涉及的通用方案表的一个例子的构成图。
图39是实施例3涉及的规则及方案对应表的一个例子的构成图。
图40A是实施例3涉及的展开方案表的第1构成图。
图40B是实施例3涉及的展开方案表的第2构成图。
图41是实施例3涉及的保养信息管理表的一个例子的构成图。
图42是实施例3涉及的效果及危险提示处理的流程图。
图43是实施例3涉及的方案详细画面的一个例子的构成图。
具体实施方式
参照附图说明几个实施例。此外,以下说明的实施例不限定权利要求书涉及的发明,另外,在实施例中说明的诸要素及其组合的全部不限于必须存在于发明的解决方案。在这些附图中,在多个图中,相同的附图标记表示相同的构成要素。此外,在以后的说明中,利用“aaa表”等表现说明本发明的信息,但是这些信息可以由表等的数据构造以外来表现。因此,为了表示不依赖于数据构造,对于“aaa表”有时称为“aaa信息”。并且,在对各信息的内容进行说明时,使用“标识信息”、“标识符”、“名称”、“ID”等的表现,但是对于这些能够彼此置换。
在以后的说明中,有时以“程序”为主语进行说明,但是,程序通过被处理器执行而一边使用存储器和通信端口(通信器件、管理I/F、数据I/F)一边进行规定的处理,因此,也可以以处理器为主语进行说明。另外,以程序为主语公开的处理可以为管理服务器等的计算机、信息处理装置进行的处理。另外,程序的一部分或全部可以由专用硬件实现。另外,各种程序可以通过程序分发服务器、计算机可读取的存储介质安装于各计算机中。
下面,将管理计算机系统、显示本发明的显示用信息的一个以上的计算机的集合称为管理系统。在管理服务器显示显示用信息的情况下,管理服务器为管理系统,另外,管理服务器和显示用计算机的组合也为管理系统。另外,为了管理处理的高速化和高可靠化,可以通过多个计算机实现与管理服务器相同的处理,在该情况下,该多个计算机(在显示用计算机进行显示的情况下,也包含显示用计算机)为管理系统。
实施例1
首先,对实施例1涉及的计算机系统进行说明。
图1是实施例1涉及的计算机系统的一个例子的构成图。
本实施例涉及的计算机系统具有1台以上的管理服务器10000(图1中,管理服务器A)、1台以上的存储装置20000(图1中,存储装置A)和1台以上的物理服务器30000(图1中,物理服务器A)。物理服务器30000和存储装置20000经由SAN(Storage AreaNetwork,存储区域网络)40000(具体而言,光纤信道)相互连接。管理服务器10000、存储装置20000、和物理服务器30000经由管理用网络50000相互连接。
管理服务器10000在存储器11000(参照图2)中收纳方案生成程序11100、方案执行后危险提取程序11200、方案提示程序11300、结构性能信息库11800和规则及方案信息库11900。管理服务器10000能够经由管理用网络50000与在存储装置20000、物理服务器30000上动作的程序进行通信。
在存储装置20000中生成1个以上的逻辑卷22100。逻辑卷22100被提供给例如物理服务器30000。在图1所示的例中,存储装置A对物理服务器A提供逻辑卷22100。
物理服务器30000使用从存储装置20000提供的逻辑卷22100执行各种业务。在图1所示的例中,物理服务器A和存储装置A经由SAN40000相互连接。
在图1所示的例中,管理服务器10000收纳方案生成程序11100、方案执行后危险提取程序11200、方案提示程序11300等程序,但不限定于这些。例如,存储装置20000或者物理服务器30000可以收纳各种程序,另外,设置在各装置间的交换机(未图示)等的其他装置也可以收纳各种程序。另外,存储装置20000和物理服务器30000之间的连接不限于经由光纤信道直接连接,也可以经由1台以上的光纤通道交换机等的网络设备连接。另外,存储装置20000和物理服务器30000之间的连接为数据通信用的网络即可,例如可以为IP(InternetProtocol,互联网协议)网络。
图2是实施例1涉及的管理服务器的一个例子的构成图。
管理服务器10000具有存储器11000、存储器件12000、输入器件13000、输出器件14000、处理器15000和通信器件16000,他们经由内部总线等的通信路径17000相互连接。
存储器11000收纳方案生成程序11100、方案执行后危险提取程序11200、方案提示程序11300、事件分析处理程序11400、规则展开程序11500、结构设定管理程序11600、性能信息收集程序11700、结构性能信息库11800、以及规则及方案信息库11900。
在结构性能信息库11800中收纳结构信息表11810和性能信息表11820。在规则及方案信息库11900中收纳事件管理表11910、1个以上的通用规则表11920、通用方案表11930、规则及方案对应表11940、1个以上的展开规则表11950、1个以上的展开方案表11960、和分析结果管理表11970。
结构信息表11810管理表示从物理服务器30000至物理服务器30000所使用的构成逻辑卷22100的物理盘为止的I/O(输入输出)路径上所存在的装置和器件的信息、即表示基于I/O路径的装置和器件的连接关系的信息(以下称为“结构信息”)。
性能信息表11820管理与SAN40000连接的监视对象的各装置、以及关于监视对象的装置内的各器件(监视对象器件)的性能信息。
事件管理表11910管理表示关于计算机系统内的哪个器件的何种指标(metric)、何时产生了事件的信息。
通用规则表11920管理通用规则,通用规则表示在计算机系统内能够发生的1个以上的条件事件与成为该1个以上的条件事件的故障的原因的结论事件的对应关系。
通用方案表11930管理表示针对故障、在计算机系统内能够实施的恢复方案的信息。
规则及方案对应表11940管理:表示在通用规则和表示与该通用规则对应的恢复方案的通用方案的对应关系的信息(通用方案信息),其中,该恢复方案为该通用规则的结论事件为原因的情况下能够实施的恢复方案;和表示在各通用方案执行后,通用规则中的故障事件中哪个故障事件以未解决的状态残留的信息(未解决信息)。
展开规则表11950收纳将通用规则表11920的信息基于结构信息表11810的信息具体化后的信息(展开规则)。
展开方案表11960收纳将通用方案表11930的信息基于结构信息表11810和性能信息表11820的信息具体化后的信息(展开方案)。
分析结果管理表11970收纳与判断为故障的原因的事件所产生的装置和器件、以及判断为其原因的故障事件有关的信息。
存储器件12000是收纳信息的HDD(Hard Disk Drive)、SSD(SolidState Drive)等。输入器件13000是管理者用于对管理服务器10000输入指示的器件、例如键盘等。输出器件14000是输出管理服务器10000所执行的处理结果、例如方案提示程序11300的执行结果等的器件、例如显示器等。处理器15000执行在存储器11000上展开的程序。通信器件16000是用于与管理用网络50000连接的器件。
在图2所示的例中,各种程序和表收纳于存储器11000中,但是,也可以收纳于存储器件12000或者其他的存储介质(未图示)。在该情况下,处理器15000在程序执行时在存储器11000上读出对象的程序,并执行所读出的程序。另外,在存储装置20000的存储器21000(参照图3)或者物理服务器30000的存储器31000(参照图4)中收纳上述的程序和表,存储装置20000或者物理服务器30000可以执行所收纳的程序。另外,也可以是,其他的物理服务器30000或者交换机(未图示)等的其他装置收纳上述的程序和表,并执行所收纳的程序。
图3是实施例1涉及的存储装置的一个例子的构成图。
存储装置20000具有存储器21000、逻辑卷提供部22000、盘I/F控制器23000、管理I/F24000、处理器25000和数据I/F26000,它们经由内部总线等的通信线路27000连接。
存储器21000具有盘高速缓存21100。另外,存储器21000收纳结构性能信息收集程序21200。盘高速缓存21100是用于暂时收纳信息的存储区域。结构性能信息收集程序21200是用于在与管理服务器10000之间发送和接收存储装置20000的管理信息和性能信息等的程序。
逻辑卷提供部22000具有由1个以上的物理盘(未图示)的存储区域构成的盘池22200,将盘池22200的存储区域逻辑分割,将该逻辑分割后的存储区域作为逻辑卷22100提供。由此,能够从该存储装置20000外的装置访问逻辑卷22100。此外,对盘池22200赋予盘池编号,对逻辑卷22100赋予逻辑卷编号。由此,存储装置20000能够分别唯一地识别盘池22200和逻辑卷22100。
在图3所示的例中,2个盘池22200(POOL1和POOL2)各自被逻辑分割,4个逻辑卷22100(LV1、LV2、LV3、和LV4)被提供给存储装置20000外的装置(例如,物理服务器30000)。盘I/F控制器23000是用于与逻辑卷提供部22000连接的接口器件。管理I/F24000是用于与管理用网络50000连接的接口器件。处理器25000执行在存储器21000上展开的程序。数据I/F26000是用于与SAN40000连接的接口器件。此外,盘I/F控制器23000、管理I/F24000和数据I/F26000可以为多个。
在图3所示的例中,存储装置20000具有数据I/F(P1)和数据I/F(P2)这2个数据I/F26000。在图3所示的例中,结构性能信息收集程序21200收纳于存储器21000,但也可以收纳于其他的存储装置(未图示)或者其他的存储介质(未图示)。在该情况下,处理器25000在处理执行时在存储器21000上读出结构性能信息收集程序21200,并执行所读出的结构性能信息收集程序21200。
另外,在管理服务器10000的存储器11000中收纳结构性能信息收集程序21200,管理服务器10000可以执行所收纳的程序21200。另外,其他的存储装置20000收纳结构性能信息收集程序21200,也可以执行所收纳的程序21200。另外,逻辑卷提供部22000可以将1个物理盘22200的整个存储区域生成为1个逻辑卷22100。另外,逻辑卷提供部22000可以利用物理盘22200以外的存储介质、例如闪存等的存储区域生成逻辑卷22100。
图4是实施例1涉及的物理服务器的一个例子的构成图。
物理服务器30000具有存储器31000、数据I/F32000、处理器33000和管理I/F34000,它们经由内部总线等的通信线路35000相互连接。
存储器31000收纳结构性能信息收集程序31100、业务程序31200、和卷管理程序31300。
结构性能信息收集程序31100是用于在与管理服务器10000之间发送和接收物理服务器30000的管理信息、性能信息等的程序。业务程序31200是用于实现物理服务器30000所执行的业务的程序,例如DBMS(Data Base Management System)和文件系统等。卷管理程序31300是用于将由存储装置20000提供的逻辑卷22100分配给物理服务器30000的程序。物理服务器30000使用由卷管理程序31300分配的逻辑卷22100执行业务。
数据I/F32000是用于与SAN40000连接的接口器件。处理器33000执行在存储器31000上展开的程序。管理I/F34000是用于与管理用网络50000连接的接口器件。
此外,数据I/F32000和管理I/F34000可以为多个。在图4所示的例中,各种程序收纳于存储器31000,但也可以收纳于其他的存储装置(未图示)。在该情况下,处理器33000在处理执行时在存储器31000上读出对象的程序,并执行所读出的程序。
图5是实施例1涉及的结构信息表的一个例子的构成图。
在结构信息表11810中收纳有与在物理服务器30000访问逻辑卷22100时经由的I/O路径、即从物理服务器30000至提供给该物理服务器30000的构成逻辑卷22100的物理盘的I/O路径相关的信息。通过执行结构设定管理程序11600,在结构信息表11810中追加条目(entry)。
结构信息表11810包括物理服务器11811、驱动器11812、服务器数据I/F11813、存储11814、存储数据I/F11815、逻辑卷11816、和盘池11817的字段(field)。物理服务器11811中收纳有用于唯一地识别物理服务器30000的标识符。驱动器11812中收纳有用于唯一地识别物理服务器30000上的卷的装载点(mount point)的标识符。服务器数据I/F11813收纳有用于对物理服务器30000访问由逻辑卷11816的标识符表示的逻辑卷22100时所利用的物理服务器30000的数据I/F32000(以下有时称为“服务器数据I/F”)进行唯一地识别的标识符。存储11814收纳有用于对成为物理服务器30000的访问目标的存储装置20000进行唯一地识别的标识符。存储数据I/F11815收纳有用于对物理服务器30000访问由逻辑卷11816的标识符表示的逻辑卷22100时所利用的存储装置20000的数据I/F26000(以下有时称为“存储数据I/F”)进行唯一地识别的标识符。逻辑卷11816收纳有用于对逻辑卷22100进行唯一地识别的标识符。盘池11817收纳有用于对由逻辑卷11816的标识符表示的逻辑卷22100所生成的盘池22200进行唯一地识别的标识符。
例如从图5的上部开始第一个条目表示,由存储A(存储装置A)的盘池“POOL1”生成的逻辑卷“LV1”经由存储数据I/F“P1”和服务器数据I/F“S1”与物理服务器A连接,在物理服务器A上被识别为逻辑卷“/opt”。
在此,本实施例涉及的结构信息表11810作为存在于访问路径上的装置和器件而包括物理服务器30000、服务器数据I/F、存储装置20000、存储数据I/F、逻辑卷22100和盘池22200的信息,但不限于此。例如、结构信息表11810可以包含交换机、交换机的数据I/F等的信息,另外,可以相关联地收纳业务服务器30000上的业务程序(DBMS等)的信息或者VM信息、保存VM的快照(snap shot)的快照卷、保存备份的备份卷等。另外,结构信息表11810可以保持结构管理操作的历史信息,也可以与Syslog(系统日志)服务器等协作地保持表示系统动作的详细的日志信息。
图6是实施例1涉及的性能信息表的一个例子的构成图。
性能信息表11820收纳由与构成计算机系统的装置或者装置内的器件有关的性能信息、例如与各存储装置20000中的逻辑卷22100、盘池22200等有关的性能信息。通过执行性能信息收集程序11700,在性能信息表11820中追加条目。
性能信息表11820包括装置ID11821、器件ID11822、指标11823、设备OS11824、性能值11825、报警执行阈值11826、阈值类别11827、和状态(Status)11828的字段。
在装置ID11821中收纳有对装置进行唯一确定的标识符(装置ID)。器件ID11822中收纳有用于对成为性能信息的获取对象的器件进行唯一地识别的标识符(器件ID)。指标11823中收纳有CPU使用率、对存储装置的平均单位时间(例如1秒)的I/O次数(IOPS)、对请求的响应时间等的、表示性能信息的类别的信息。在设备OS11824中收纳有表示在与装置ID11821的装置ID对应的装置上进行动作的操作系统(Operating System)的类别的数据。在性能值11825中,通过从包含器件的装置获取由器件ID11822表示的器件的、由指标11823表示的类别的性能信息的值并收纳。在报警执行阈值11826中,通过由用户指定管理对象的性能值的正常范围的上限或者下限等的阈值(以下称为“报警执行阈值”)并收纳。在阈值类别11827中收纳有表示报警执行阈值为正常值的上限或下限的数据。在状态11828中收纳有表示性能值11825为正常值或异常值的数据。
在此,图6所示的性能信息表1820中,对于任意的1个装置的任意的1个器件的任意的1个指标,性能值为一一对应,但也可以以性能信息收集程序11700与结构性能信息收集程序21200、31100通信,将性能信息表11820的各信息与表示获取各装置所保持的信息的时刻的值一起收纳的方式,将与所获取的时刻对应的多个时点的性能值保持为历史信息。
由器件ID11822的器件ID表示的、作为性能信息的获取对象的器件,列举有存储数据I/F、逻辑卷22100、盘池22200、物理服务器30000所识别的装载点,但是不限于此,可以为服务器数据I/F和物理盘、交换机和交换机的端口等。
另外,作为指标的一个例子,表示了CPU使用率、IOPS、对请求的响应时间等,但也能够使用I/O占用率、传输速率、处理能力、数据库管理软件的缓冲区命中率和插入、更新、删除记录数、Web服务器的响应时间、文件系统和盘的空置容量和利用率、输入输出数据量、利用时刻等、网络接口的错误次数、缓冲溢出、和帧错误等其他的性能指标。
另外,作为报警执行阈值11826所收纳的报警执行阈值,可以不为由用户指定的阈值,例如可以采用与利用性能信息的历史信息的平均值等的基准值的差值等能够成为通知报警的起因的值。
图7是实施例1涉及的事件管理表的一个例子的构成图。
事件分析处理程序11400比较在性能信息表11820中登记的性能值和报警执行阈值,若性能值超过报警执行阈值,则生成表示对应的事件的条目,将该生成的条目登记到事件管理表11910。此外,事件分析处理程序11400可以从系统内的各种装置接收表示事件的发生的事件消息,将表示与所接收的事件消息对应的事件的条目登记到事件管理表11910。事件管理表11910在规则展开处理(参照图15)中被适当参照。
事件管理表11910包含事件ID11911、装置ID11912、装置部位ID11913、指标11914、设备OS11915、状态11916、分析完成标志11917、和发生日期及时间11918的字段。事件ID11911中收纳有作为事件自身的标识符的事件ID。装置ID11912中收纳有作为事件产生的装置的标识符的装置ID。装置部位ID11913中收纳有事件产生的器件的标识符。指标11914收纳有被检测出阈值异常的指标的名称。设备OS11915收纳有表示被检测出阈值异常的装置的OS(操作系统)的类别的数据。状态11916中收纳有表示事件发生的器件的事件发生时的状态的数据。分析完成标志11917中收纳有表示事件是否由规则展开程序11500分析完成的数据。发生日期及时间11918中收纳有表示事件产生的日期及时间的数据。
例如从图7的上部开始第一个条目表示,管理服务器10000在2012年6月30日的15点00分00秒检测到存储装置A的数据I/F“P2”中的处理器运转率的阈值异常,该事件ID为“EV1”,该事件未由规则展开程序115000分析。
图8是实施例1涉及的通用规则表的一个例子的构成图。
规则及方案信息库11900中收纳有1个以上的通用规则表11920。在本实施例中,由1个通用规则表11920规定1个通用规则。通用规则(与后述的展开规则相同)是表示在构成计算机系统的节点装置中能够产生的1个以上的条件事件的组合、和相对于该1个以上的条件事件的组合成为故障的原因的结论事件的关系的数据。一般来讲,在故障分析中用于确定原因的事件传播模式中,以“IF-THEN”形式记载有预想某故障的结果产生的事件的组合及其原因。此外,通用规则不限于在图8中所列举的规则,可以为更多的规则。
通用规则表11920包括条件部11921、结论部11922、通用规则ID11923、和应用拓扑11924的字段。
在条件部11921收纳有表示与以“IF-THEN”形式记载的通用规则的IF部相当的观测事项、即1个以上的条件事件各自的数据。条件部11921包括事件ID11925、装置类别11926、装置部位类别11927、指标11928和状态11929的字段。结论部11922收纳有表示与以“IF-THEN”形式记载的通用规则的THEN部相当的原因事项、即结论事件的数据。结论部11922包括装置类别11926、装置部位类别11927、指标11928、和状态11929的字段。通用规则ID11923收纳有作为通用规则的标识符的通用规则ID。应用拓扑11924收纳有表示在实际系统中展开通用规则、在生成展开规则时参照的网络拓扑的数据。事件ID11925收纳有对与以“IF-THEN”形式记载的通用规则的IF部相当的观测事项所包含的事件(条件事件)进行唯一地识别的标识符(事件ID)。装置类别11926收纳有表示条件事件或结论事件发生的装置的类别的数据。装置部位类别11927收纳有表示条件事件或结论事件发生的器件的类别的数据。指标11928收纳有CPU使用率、对存储装置的IOPS、对请求的响应时间等的、表示性能信息的种类的信息。在此,作为收纳于指标11928的性能信息,与收纳于性能信息表11820的指标11823的性能信息同样地,可以使用其他的性能信息。状态11929收纳有表示装置内的器件的事件发生时的状态的数据。
在检测出条件部11921所记述的1个以上的条件事件的情况下,结论部11922所记述的结论事件被判定为故障的原因。当结论部11922的状态为正常时,即与结论事件有关的性能值返回正常值时,期待条件部11921的问题也被解决、即与各条件事件有关的性能值也返回正常值。图8的例中,在条件部11921记述有3个事件,但是事件数量没有制限。
例如在图8中所例示的通用规则、即通用规则ID由“RULE1”所表示的通用规则表示,在作为观测事项检测出主计算机上的驱动器的响应时间的阈值异常、存储装置20000中的逻辑卷22100的单位时间的I/O量的阈值异常和存储装置20000中的盘池22200的单位时间的I/O量的阈值异常时,总结为存储装置20000中的盘池22200的单位时间的I/O量的阈值异常为原因。此外,作为观测事项所包含的事件,可以定义某条件为正常。基于该通用规则,在生成展开规则时从结构信息表11810获取拓扑信息。
图9是实施例1涉及的通用方案表的一个例子的构成图。
通用方案表11930表示在计算机系统中能够执行的方案的一览。通用方案表11930包含通用方案ID11931和方案11932的字段。通用方案ID11931中收纳有作为通用方案的标识符的通用方案ID。方案11932中收纳有表示在计算机系统中能够执行的方案的信息。作为方案具有例如主计算机的重启、交换机的设定变更、存储装置20000的卷迁移和VM移动等。此外,方案不限于图9所列举的方案。
图10是实施例1涉及的规则及方案对应表的一个例子的构成图。
规则及方案对应表11940表示通用规则、在应用该通用规则确定了故障的原因的情况下能够实施的方案的列表、以及在执行了各方案的情况下以未解决状态残留的事件(以下称为“未解决事件”)的对应关系。规则及方案对应表11940包含通用规则ID11941、通用方案ID11942、和未解决事件ID11943的字段。通用规则ID11941中收纳有作为通用规则的标识符的通用规则ID。通用规则ID11941中所收纳的通用规则ID与通用规则表11920的通用规则ID11923中所收纳的通用规则ID对应。通用方案ID11942中收纳有作为通用方案的标识符的通用方案ID。通用方案ID11942中所收纳的通用方案ID与通用方案表11930的通用方案ID11931中所收纳的通用方案ID对应。未解决事件ID11943中收纳有在执行了各方案的情况下以未解决状态残留的事件(未解决事件)的标识符即未解决事件ID。未解决事件ID与通用规则表11920的事件ID11925中所收纳的条件事件的标识符(事件ID)对应。未解决事件ID11943,例如在不存在未解决事件的情况下收纳“NONE”,在所有条件事件作为未解决事件残留的情况下收纳“ALL”。
图11是实施例1涉及的展开规则表的一个例子的构成图。
规则及方案信息库11900中收纳有1个以上的展开规则表11950。在本实施例中,通过1个展开规则表11950规定1个展开规则。展开规则是将通用规则展开为依赖于计算机系统的实际结构的形式的数据。图11所示的展开规则通过将图8所示的通用规则中的装置类别11926和装置部位类别11927的各值置换为由结构信息表11810定义的特定装置的标识符(装置ID)和特定器件的标识符(器件ID)而生成。
展开规则表11950包含条件部11951、结论部11952、展开规则ID11953和展开前通用规则ID11954的字段。
条件部11951收纳有表示与以“IF-THEN”形式记载的通用规则的IF部相当的观测事项、即1个以上的条件事件各自的数据。条件部11951包含事件ID11955、装置ID11956、装置部位ID11957、指标11958、和状态11959的字段。结论部11952收纳有表示与以“IF-THEN”形式记载的通用规则的THEN部相当的原因事项、即结论事件的数据。结论部11952包含装置ID11956、装置部位ID11957、指标11958、和状态11959的字段。展开规则ID11953收纳有作为展开规则的标识符的展开规则ID。展开前通用规则ID11954收纳有成为展开规则的基础的通用规则的通用规则ID。事件ID11955收纳有对与以“IF-THEN”形式记载的展开规则的IF部相当的观测事项所包含的条件事件进行唯一地识别的标识符。装置ID11956收纳有条件事件或结论事件发生的装置的ID(装置ID)。装置部位ID11957收纳有条件事件或结论事件发生的器件的ID(器件ID)。指标11958收纳有CPU使用率、对存储装置的IOPS、对请求的响应时间等的、表示性能信息的类别的信息。在此,作为指标11958,与设定于性能信息表11820的指标11823的性能信息同样地,可以使用其他的性能信息。状态11959收纳有表示装置内的器件的事件发生时的状态的数据。
展开规则通过考虑计算机系统的实际结构(例如结构信息表11810表示的连接关系等),将与条件事件和结论事件有关的装置的类别和器件的类别具体化为计算机系统的实际结构中的特定的装置和特定的器件而生成。
例如在图11中所例示的展开规则ID为“ExRule1-1”的展开规则,通过将图8所示的通用规则“Rule1”中的装置类别11926和装置部位类别11927的各值置换为由结构信息表11810定义的特定的装置(物理服务器A、存储装置A)的标识符和特定的器件(驱动器“/var”、逻辑卷“LV1”、盘池“POOL1”)的标识符而生成。
从图11的展开规则表11950所示的展开规则“ExRule1-1”可知,展开规则“ExRule1-1”表示在检测出以通用规则“Rule1”为基础展开的、作为观测事项的、物理服务器A的逻辑卷“/var”中的响应时间的阈值异常、存储装置A的逻辑卷“LV2”中的响应时间的阈值异常和存储装置A的盘池“POOL1”中的响应时间的阈值异常时,总结存储装置A的盘池“POOL1”中的响应时间的瓶颈(bottleneck)为原因。
图12A是实施例1涉及的展开方案表的第1构成图。图12B是实施例1涉及的展开方案表的第2构成图。
规则及方案信息库11900收纳有1个以上的展开方案表11960。本实施例中,由1个展开方案表11960规定1个以上的展开方案。展开方案是将通用方案展开为依赖于计算机系统的实际结构的形式而得到的信息。展开方案表11960通过方案生成程序11100基于通用方案表11930、展开规则表11950、结构信息表11810和性能信息表11820而生成。
展开方案表11960包含方案详细11961、通用方案ID11962、和展开规则ID1196A的字段。通用方案ID11962收纳有成为展开方案的基础的通用方案的通用方案ID。展开规则ID1196A中作为用于识别展开的方案是针对哪个故障原因的方案的信息而收纳有与展开方案对应的展开规则的展开规则ID。
方案详细11961中收纳有关于展开的1个以上的展开方案各自的具体的处理内容和展开方案执行后的状态信息。方案详细11961包含展开方案ID11963、方案对象11964和危险部位11969的字段。展开方案ID11963中收纳有作为展开方案的标识符的展开方案ID。危险部位11969中收纳有表示在方案执行后也成为潜在地残留状态的问题部位(以下称为“危险部位”)的数据。
方案对象11964收纳有例如表示与方案有关联的构成要素(器件)的信息、方案执行后的信息等。在此,方案执行后的信息包含关于与方案有关联的器件的、方案执行后的性能值的预测值。方案执行后的性能值的预测值例如通过方案生成程序11100参照性能信息表11820对方案执行后的状况进行模拟而算出。方案对象11964所包含的字段根据方案的内容而不同。
由图12A的展开方案表11960规定的展开方案是基于通用方案“Plan1”的展开方案、即关于卷迁移的展开方案。在关于卷迁移的展开方案的情况下,方案对象11964包含例如移动对象卷11965、移动源池11966、和移动目标池11967的字段。移动对象卷11965包含:收纳有成为卷迁移的对象的逻辑卷22100(以下称为“移动对象卷”)的标识符的卷ID11965A;和收纳有卷迁移执行后的、对移动对象卷的I/O的响应时间的预测值的I/O响应时间(Response Time)预测11965B。移动源池11966包含:收纳有移动对象卷所属的盘池22200(即,为移动源的盘池22200,以下称为“移动源池”)的标识符的池ID11966A;和收纳有卷迁移执行后的、对移动源池的I/O的响应时间的预测值的I/O响应时间预测11966B。移动目标池11967包含:收纳有成为移动对象卷的移动目标的盘池22200(以下称为“移动目标池”)的标识符的池ID11967A;和收纳有卷迁移执行后的、对移动目标池的I/O的响应时间的预测值的I/O响应时间预测11967B。
对于卷ID11965A、池ID11966A和池ID11967A的信息,方案生成程序11100从结构信息表11810获取信息并进行收纳。另外,作为各I/O响应时间预测11965B、11966B、和11967B所收纳的值的算出方法可以采用任意的方法。例如,对于各I/O响应时间预测11965B、11966B和11967B的值,可以为例如方案生成程序11100从性能信息表11820获取移动对象卷、移动源池和移动目标池的平均单位时间的I/O量,将移动对象卷的平均单位时间的I/O量的值从移动源池的平均单位时间的I/O量减去,并加到移动目标池的平均单位时间的I/O量,来预测卷迁移执行后的移动源池和移动目标池的I/O量,获取其倒数而得到的值(I/O的响应时间)。
由图12B的展开方案表11960规定的展开方案是基于通用方案“Plan5”的展开方案、即关于对池追加盘的展开方案。在关于对池追加盘的展开方案的情况下,方案对象11964例如包括:收纳有成为盘的追加目标的盘池22200(以下称为“追加对象池”)的标识符的池ID11968A;收纳有被追加的盘的标识符的追加盘11968B;和收纳有在盘追加后的、对追加对象池的I/O的响应时间的预测值的I/O响应时间预测11968C的字段。
对于池ID11968A和追加盘11968B的信息,方案生成程序11100从结构信息表11810获取信息并收纳。另外,作为I/O响应时间预测11968C的值(对追加对象池的I/O的响应时间的预测值)的算出方法可以采用任意的方法。例如,方案生成程序11100从性能信息表11820获取追加对象池的平均单位时间的I/O量的值、追加对象池的容量的值、和被追加的盘的容量的值,为了使平均单位时间的I/O量与容量值成比例地分散,对盘追加前的追加对象池的I/O的响应时间,乘以将盘追加前的追加对象池的容量除以盘追加后的追加对象池的容量而得到的值,由此,可以算出盘追加后中的追加对象池的I/O的响应时间。图12B的例中,作为方案的详细11961的内容记载了收纳性能信息的例子,但是也可以收纳关于方案的成本信息和在执行方案时的故障导致的系统的停机时间信息等。
另外,图12中记载有关于卷迁移的展开方案和关于对池追加盘的展开方案的例子,但也同样生成与通用方案表11930所包含的其他的通用方案的各通用方案对应的展开方案。在将其他的通用方案展开为展开方案的情况下,方案生成程序11100也参照例如结构信息表11810,列举处理执行后的结构信息的候选,参照性能信息表11820,模拟性能信息、容量信息、成本信息、停机信息等的、方案执行后的状态信息,来计算关于与方案有关的器件的、方案执行后的性能值的预测值。
图13是实施例1涉及的分析结果管理表的一个例子的构成图。
分析结果管理表11970包含原因装置ID11971、原因部位ID11972、指标11973、可靠度11974、展开规则ID11975、和接收事件ID11976的字段。原因装置ID11971中收纳有与在故障原因分析处理中判断为故障的原因的事件有关联的装置的标识符(装置ID)。原因部位ID11972中收纳有与判断为故障的原因的事件有关联的器件的标识符(器件ID)。指标11973中收纳有表示检测出阈值异常的、CPU使用率、对请求的响应时间等的、性能信息的种类的信息。即,指标11973中收纳有表示与判断为故障的原因的事件有关联的性能信息的种类的数据。可靠度11974中收纳有表示作为判断为故障的原因的事件为根本原因的确定性的值(可靠度)。本实施例中,作为可靠度为例如条件事件的发生比例。展开规则ID11975中收纳有成为判断事件为故障的原因的根据的展开规则的展开规则ID。接收事件ID11976收纳有在条件事件中的实际产生的事件的事件ID。
例如,从图13的上部开始第一个条目表示,根据展开规则“ExRule1-1”,管理服务器10000判断存储装置A的盘池“POOL1”中的响应时间的阈值异常为故障原因、产生了由事件ID“EV2”、“EV3”、“EV5”表示的事件为判断的根据、以及可靠度即条件事件的发生比例为3/3。该条目表示了如下情况:例如在假设构成盘池“POOL1”的盘的性能变慢、盘池“POOL1”的性能劣化、逻辑卷“LV2”的性能也变慢的情况下,不对物理服务器A的驱动器“/opt”、存储装置A的逻辑卷“LV1”发送和接收I/O,因此,事件没有从逻辑卷“LV1”、驱动器“/opt”发生。
接着,对管理服务器10000所执行的各处理进行说明。首先,对管理服务器10000所执行的结构信息获取处理进行说明。结构信息获取处理通过管理服务器10000的处理器15000执行在存储器11000上展开的结构设定管理程序11600来执行。首先,结构设定管理程序11600与收集和SAN40000连接的各装置的信息的程序(本实施例中,为存储装置20000的结构性能信息收集程序21200和物理服务器30000的结构性能信息收集程序31100)通信,获取各装置所保持的结构信息。
在此,管理服务器10000例如可以利用SCSI(Small ComputerSystem Interface,小型计算机系统接口)的询问(Inquiry)指令获取物理服务器30000、物理服务器30000上的驱动器、服务器数据I/F、存储装置20000、存储数据I/F、物理服务器30000所访问的逻辑卷22100和逻辑卷22100所属的盘池22200的连接关系。另外,也可以是,物理服务器30000对存储装置20000发出SCSI的询问指令,由此,物理服务器30000从存储装置20000获取结构信息。物理服务器30000的结构信息收集程序31100例如可以通过依赖于OS等的、某种方法获取关于物理服务器30000的结构信息。另外,存储装置20000上的结构信息收集程序21200例如可以通过从存储器21000获取等的、某种方法获取关于存储装置20000的结构信息。接着,结构设定管理程序11600将获取的结构信息收纳于结构信息表11810,使结构信息获取处理结束。
接着,对管理服务器10000所执行的性能信息收集处理进行说明。性能信息收集处理通过管理服务器10000的处理器15000执行在存储器11000上展开的性能信息收集程序11700来执行。首先,性能信息收集程序11700与收集和SAN40000连接的各装置的信息的程序(本实施例中,为存储装置20000的结构性能信息收集程序21200和物理服务器30000的结构性能信息收集程序31100)通信,获取各装置所保持的性能信息。
在此,管理服务器10000例如可以利用SCSI的询问指令获取性能信息表11820中所登记的各数据、即、装置ID11821、器件ID11822、指标11823、设备OS11824、性能值11825、报警执行阈值11826、阈值类别11827、和状态11828的各数据。另外,也可以是,物理服务器30000对存储装置20000发出SCSI的询问指令,由此,物理服务器30000从存储装置20000获取性能信息。物理服务器30000的性能信息收集程序11700例如可以通过依赖于OS等的、某种方法获取关于物理服务器30000的结构信息。另外,存储装置20000上的结构性能信息收集程序21200例如通过从存储器21000获取等的、某种方法获取关于存储装置20000的结构信息。接着,结构信息收集程序11700将获取的结构信息收纳于结构信息表11820,使结构信息收集处理结束。
图14是实施例1涉及的事件分析处理的流程图。
事件分析处理通过管理服务器10000的处理器15000执行在存储器11000上展开的事件分析处理程序11400来执行。
首先,事件分析处理程序11400参照性能信息表11820获取各器件的性能值和报警执行阈值(步骤1001)。接着,事件分析处理程序11400对获取的各性能值实施以下的步骤1002~步骤1004的处理。
事件分析处理程序11400确认处理对象的性能值是否超过与处理对象的性能值对应的报警执行阈值,基于该结果,更新性能信息表11820的状态11828的值(步骤1002)。具体而言,事件分析处理程序11400在超过报警执行阈值的情况下,在状态11828中收纳“阈值异常”,在没有超过报警执行阈值的情况下,在状态11828中收纳“正常”。
接着,事件分析处理程序11400判定在步骤1002的更新前后状态11828的值是否具有变更(步骤1003),在具有变更的情况下(步骤1003:是),将与表示处理对象的性能值超过报警执行阈值的事件有关的条目登记在事件管理表11910(步骤1004),进入接下来的步骤。此时,在条目的发生日期及时间11918中收纳性能信息收集程序11700收集处理对象的性能值的日期及时间。另一方面,在状态11828的值没有变更的情况下(步骤1003:否),不执行步骤1004而进入接下来的步骤。
在对所有的性能值的处理(步骤1002~1004)完成之后,事件分析处理程序11400判定是否具有新登记在事件管理表11910的、与事件有关的条目(步骤1005),在具有新登记的、与事件有关的条目的情况下(步骤1005:是),对规则展开程序11500指示规则展开处理(参照图15)的执行(步骤1006),使事件分析处理结束。另一方面,在没有新登记的、与事件有关的条目的情况下(步骤1005:否),事件分析处理程序11400使事件分析处理结束。
在此,本实施例中,事件分析处理程序11400基于性能收集程序11700所获取的性能信息实施了对事件管理表11910进行的与事件有关的条目的登记,但也可以利用来自SNMP(Simple NetworkManagement Protocol,简单网络管理协议)陷阱等的装置的通知信息,进行事件管理表11910的信息的更新。
图15是实施例1涉及的规则展开处理的流程图。
规则展开处理,通过管理服务器10000的处理器15000执行在存储器11000上展开的规则展开程序11500来执行。
首先,规则展开程序11500从事件管理表11910获取新登记的与事件有关的条目(事件条目),将获取的事件条目的分析完成标志11917更新为“是(Yes)”(步骤2001)。接着,规则展开程序11500获取规则及方案信息库11900中收纳的1个以上的通用规则表11920表示的1个以上的通用规则(步骤2002)。规则展开程序11500对所获取的通用规则各自实施以下的步骤2004~步骤2010的处理(步骤2003)。另外,规则展开程序11500对在步骤2001中获取的各事件条目,实施以下的步骤2005~步骤2010的处理。
规则展开程序11500判定处理对象的事件条目表示的事件(处理对象的事件)是否与处理对象的通用规则的条件事件的任一个匹配(步骤2005)。例如,规则展开程序11500在与处理对象的事件有关联的装置和器件对应于与条件事件有关联的装置和器件的类别、且处理对象的事件的种类与条件事件的种类一致的情况下,判定为处理对象的事件和条件事件匹配。
在步骤2005中没有判定为匹配的情况下(步骤2005:否),规则展开程序11500以接下来的事件条目为处理对象执行处理(步骤2004~2010)。另一方面,在步骤2005中判定为匹配的情况下(步骤2005:是),规则展开程序11500从结构信息表11810获取与处理对象的事件有关联的装置和器件以及具有处理对象的通用规则所示的相关性的装置和器件的标识符(步骤2006)。接着,规则展开程序11500按每个具有关联的组合,生成基于处理对象的通用规则的展开规则(步骤2007)。
例如在事件管理表11910的EV5成为处理对象的事件,通用规则“Rule1”成为处理对象的通用规则的情况下,处理对象的事件与通用规则“Rule1”的条件事件1(事件ID11925为“1”的条件事件)匹配。所以,规则展开程序11500能够列举全部作为处理对象的事件的发生部位的物理服务器A的驱动器“/var”和作为具有通用规则“Rule1”中记载的关系的(存在部位间的连接关系)装置和器件的存储装置20000的逻辑卷22100和盘池22200。而且,规则展开程序11500生成与物理服务器A的驱动器“/var”、存储装置20000的逻辑卷22100和存储装置20000的盘池22200的组合对应的展开规则。
接着,规则展开程序11500判定在规则及方案信息库11900中是否已经存在表示与已生成的展开规则相同的展开规则的展开规则表11950(步骤2008)。
在不存在表示相同的展开规则的展开规则表11950的情况下(步骤2008:否),规则展开程序11500将表示所生成的展开规则的展开规则表11950收纳于规则及方案信息库11900,对分析结果管理表11970登记新条目(步骤2009)。另一方面,在存在表示相同的展开规则的展开规则表11950的情况下(步骤2008:是),规则展开程序11500对分析结果管理表11970的接收事件ID11976追加处理对象的事件的事件ID,变更可靠度11974的值(步骤2010)。
在对通用规则中的所有的条目的处理(步骤2005~2010)完成后,规则展开程序11500以接下来的通用规则为处理对象执行处理(步骤2004~2010)。而且,在对所有的通用规则的处理(步骤2004~2010)完成后,规则展开程序11500判定在分析结果管理表11970中是否具有新登记的条目(步骤2011),在具有新登记的条目的情况下(步骤2011:是),对方案生成程序11100指示方案生成处理(参照图16)的执行(步骤2012),使规则展开处理结束。另一方面,在没有新登记的条目的情况下(步骤2011:否),规则展开程序11500使规则展开处理结束。
图16是实施例1涉及的方案生成处理的流程图。
方案生成处理通过管理服务器10000的处理器15000执行在存储器11000上展开的方案生成程序11100来执行。
首先,方案生成程序11100从分析结果管理表11970获取与新登记的分析结果有关的条目(分析结果条目)(步骤3001)。方案生成程序11100对所获取的分析结果条目各自实施以下的步骤3003~步骤3008的处理(步骤3002)。
方案生成程序11100获取分析结果管理表11970中的处理对象的分析结果条目的展开规则ID11975中所收纳的展开规则ID。以下,将具有在此获取的展开规则ID的展开规则称为“处理对象的展开规则”。而且,方案生成程序11100从表示处理对象的展开规则的展开规则表11950的展开前通用规则ID11954,获取成为处理对象的展开规则的基础的通用规则的通用规则ID(步骤3003)。
接着,方案生成程序11100从规则及方案对应表11940,获取与在步骤3003中所获取的通用规则ID对应的1个以上的通用方案ID。另外,方案生成程序11100从规则及方案对应表11940,获取与在步骤3003中所获取的通用规则ID和所获取的通用方案ID的组合对应的未解决事件ID(步骤3004)。
接着,方案生成程序11100参照结构信息表11810和通用方案表11930,生成与基于具有在步骤3004中所获取的通用方案ID的通用方案的、处理对象的展开规则对应的展开方案,将表示生成的展开方案的展开方案表11960收纳在规则及方案信息库11900(步骤3005)。例如在展开卷迁移的通用方案的情况下,方案生成程序11100参照结构信息表11810确定能够成为移动目标池的所有的盘池22200。例如,方案生成程序11100基于结构信息表11810,确定访问了移动对象卷的物理服务器10000能够访问的、与移动源池不同的盘池22200,使所确定的盘池22200为移动目标池。
接着,方案生成程序11100对在步骤3005中生成的各展开方案反复执行步骤3007和3008的处理(步骤3006)。方案生成程序11100通过参照性能信息表11820并模拟方案执行后的状况,算出方案执行后的性能值的预测值,基于模拟的结果信息更新表示处理对象的展开方案的展开方案表11960的方案对象11964的值(步骤3007)。
接着,方案生成程序11100对方案执行后危险提取程序11200指示关于处理对象的展开方案的方案执行后危险提取处理(参照图17)的执行(步骤3008)。此时,方案生成程序11100对方案执行后危险提取程序11200输入与处理对象的展开方案对应的未解决事件的未解决事件ID,未解决事件即是成为处理对象的展开规则的基础的通用规则和与成为处理对象的展开方案的基础的通用方案的组合对应的未解决事件。通过该方案执行后危险提取处理,来确定关于处理对象的展开方案的危险部位。
方案生成程序11100在对所获取的全部分析结果条目的处理(步骤3003~3008)完成后,对方案提示处理程序11300指示方案提示处理(参照图18)的执行(步骤3009)。然后,方案生成程序11100使方案生成处理结束。
在本实施例中,采纳性能信息尤其是I/O的响应时间的预测值表示模拟方法的一个例子,但是作为收纳在展开方案表11960的值,只要是能够成为表示方案的特征的指标的值即可,可以为性能值以外。管理服务器10000例如也可以将方案执行所花费的成本的信息和方案执行所花费的时间等的信息收纳在结构信息表11810或者性能信息表11820等,与性能值同样地进行模拟。
图17是实施例1涉及的方案执行后危险提取处理的流程图。
方案执行后危险提取处理通过管理服务器10000的处理器15000执行在存储器11000上展开的方案执行后危险提取程序11200来执行。
首先,方案执行后危险提取程序11200利用从方案生成程序11100接收的未解决事件ID,从在分析结果管理表11970中的处理对象的分析结果条目的接收事件ID11976中所登记的实际产生的条件事件中,提取无法解除的事件(步骤4001)。在此,无法解除的事件是指,实际产生的条件事件中的、与未解决事件ID表示的条件事件对应的事件。
例如在图16的步骤3002中,从图13的分析结果管理表11970中的上部开始的第一个条目(存储装置A的盘池“POOL1”为故障原因的条目)被选择为处理对象的分析结果条目,在步骤3006中,展开方案“ExPlan1-1”被选择为处理对象的展开方案的情况下,处理对象的展开规则、即处理对象的分析结果条目的展开规则ID11975表示的展开规则为展开规则“ExRule1-1”,成为处理对象的展开规则的基础的通用规则为通用规则“Rule1”。所以,与处理对象的展开方案“ExPlan1-1”对应的未解决事件是与成为展开方案“ExPlan1-1”的基础的通用方案“Plan1”和通用规则“Rule1”的组合对应的未解决事件,从图10的规则及方案对应表11940获取未解决事件“3”。该未解决事件“3”表示通用规则“Rule1”的条件事件3、即、存储装置20000的盘池22200中的响应时间的阈值异常这一事件。所以,在处理对象的分析结果条目的接收事件ID11976中所登记的事件(事件“EV2”、事件“EV3”和事件“EV5”)中、与存储装置20000的盘池22200中的响应时间的阈值异常这一事件对应的事件“EV3”作为无法解除事件被提取。
接着,方案执行后危险提取程序11200参照事件管理表11910和展开规则表11950,确定在步骤4001中提取的无法解除的事件的发生部位(发生源的装置和器件)(步骤4002)。接着,方案执行后危险提取程序11200参照结构信息表11810,将无法解除的事件的发生部位以及与无法解除的事件的发生部位具有I/O路径上的关联的部位(装置和器件)中的任意1个以上提取为危险部位(步骤4003)。
在步骤4003中提取了危险部位的情况下(步骤4004:是),方案执行后危险提取程序11200对展开方案表11969中的处理对象的展开方案的危险部位11969收纳表示所提取的危险部位的数据(步骤4005),使方案执行后危险提取处理结束。另一方面,在步骤4003中没提取出危险部位的情况下(步骤4004:否),方案执行后危险提取程序11200使方案执行后危险提取处理结束。
在本实施例中,仅将对于管理者而言最重要的业务方面的信息、即、物理服务器A的卷“/opt”的信息作为危险部位提取(例如、参照图12),但也可以将结构信息表11810的条目表示的I/O路径上的其他的发生部位、例如服务器数据I/F、存储装置20000的逻辑卷等作为危险部位提取。
图18是实施例1涉及的方案提示处理的流程图。
方案提示处理通过管理服务器10000的处理器15000执行存储器11000上展开的方案提示程序11300来执行。
首先,方案提示程序11300从分析结果管理表11970获取表示故障原因的信息、即原因装置ID11971、原因部位ID11972、指标11973、和可靠度11974的值(步骤5001)。
接着,方案提示程序11300对分析结果管理表11970的各分析结果条目实施以下的步骤5002的处理。在此,将具有在处理对象的分析结果条目的展开规则ID11975中所收纳的展开规则ID的展开规则称为“处理对象的展开规则”。
方案提示程序11300从规则及方案信息库11900获取表示与处理对象的展开规则对应的1个以上的展开方案(成为故障恢复中的候选的方案)的1个以上的展开方案表11960(步骤5002)。
在对所有的分析结果条目的处理(步骤5002)完成后,方案提示程序11300基于在步骤5001中所获取的表示故障原因的信息和可靠度以及在步骤5002中所获取的展开方案表11960,生成方案提示画面(参照图20),使生成的方案提示画面显示在输出器件14000(步骤5003)。然后,方案提示程序11300使方案提示处理结束。
图19是实施例1涉及的效果及危险提示处理的流程图。
管理服务器10000的处理器15000执行在存储器11000上展开的方案提示程序11300,由此执行方案提示处理,显示方案提示画面。
当在方案提示画面中选择所期望的展开方案,并接收到针对所选择的展开方案的方案详细画面的显示请求的输入时,方案提示程序11300开始效果及危险提示处理(步骤6001)。
首先,方案提示程序11300参照结构信息表11810获取危险部位的状态信息、性能信息和设定信息(步骤6002)。接着,方案提示程序11300参照展开方案表11960和分析结果管理表11970,获取表示是与所选择的展开方案对应的展开规则所包含的条件事件中的哪个事件产生的信息和表示在实施了所选择的展开方案的情况下解决了哪个事件的信息(步骤6003)。接着,方案提示程序11300提取与所选择的展开方案具有关联的I/O路径信息(步骤6004)。
然后,方案提示程序11300基于在步骤6002~步骤6004中所获取的信息生成方案详细画面(参照图21),使生成的方案详细画面显示在输出器件14000(步骤6005)。然后,方案提示程序11300使效果及危险提示处理结束。
图20是实施例1涉及的方案提示画面的一个例子的构成图。
方案提示画面9000具有:显示区域9001,其用于在计算机系统中产生故障的情况下,显示管理者追究其原因而实施对策时参照的信息、具体而言、显示表示故障原因和能够对故障采取的对策方案的列表的对应关系的信息;用于显示对策方案的详细的方案详细按钮9002;和用于执行对策方案的方案执行按钮9003。
显示故障原因和针对故障的对策方案的对应的显示区域9001作为表示故障原因的信息而例如显示:与故障原因的事件有关联的装置的ID、与故障原因的事件有关联的器件的ID、故障原因的事件的类别、和关于故障原因的可靠度、即实际产生的条件事件数相对于条件事件的总数的比例。这些值由方案提示程序11300在图18的步骤5001中从图13所示的分析结果管理表11970获取。
另外,显示区域9001作为针对故障的方案的信息而例如显示:表示成为候选的方案的内容的信息、方案执行所花费的成本、方案执行所花费的时间(即,故障继续残留的时间,以下称为“停机时间(downtime)”)、方案执行后的性能信息、和表示危险部位的信息。表示危险部位的信息例如包括展开方案表11960的危险部位11969中所收纳的表示危险部位的数据(例如、危险部位的名称)、表示具有成为危险部位的器件的装置的数据(例如、装置的名称)等。
关于方案执行所花费的成本信息,例如管理服务器10000可以在图9所示的通用方案表11930中按每个通用方案将花费何种程度的成本的信息预先保持,根据该信息决定成本。例如,关于通用方案“Plan8”的存储端口更换的方案,管理服务器10000可以预先保持将存储端口的购买的价格和与存储端口的交换对应的维修人员的人工费相加而得到的金额,将该金额显示为成本。另外,关于通用方案“Plan1”的卷迁移的方案,管理服务器10000可以预先保持在使数据从某存储器件转移至其他存储器件的情况下所花费的比特单位的成本,根据要移动的卷的容量,算出要显示在图20的“成本($)”的字段中的成本。
对于停机时间,例如在卷迁移的方案的情况下,管理服务器10000可以按移动源和移动目标的各自的存储器件的介质类别和RAID级别的每个组合,预先保持表示在每单位时间(例如1秒)中能够迁移何种程度的容量的数据的数据,根据要移动的卷的容量,算出要显示在图20的“停机时间”的字段中的停机时间。在此,管理服务器10000可以根据实际环境中的利用状况,考虑移动所花费的时间变动,利用过去的移动历史信息,算出每单位时间的可移动容量,取预先保持的信息和历史信息的平均等来对预先保持的信息施加修正而求出。在此,对于方案执行所花费的成本信息和停机时间,示出了求出方法的一个例子,但不限于上述方法,可以采用其他的求出方法。
作为方案执行后的性能信息,例如显示在图16所示的方案生成处理的步骤3007中模拟、并收纳在图12所示的展开方案表11960的方案对象11964中的方案执行后的性能值的预测值、例如以及收纳在I/O响应时间预测11965B、11966B、11967B、11968C中的值。在图20的例中,对于从上部开始的第一个方案(卷迁移的方案),显示对移动对象卷的I/O响应时间的预测值,对于从上部开始的第五个方案(对池追加盘的方案),显示对追加对象池的I/O响应时间的预测值,但对于这些以外的值、例如从上部开始的第一个方案(卷迁移的方案),可以显示对移动源池和移动目标池的I/O响应时间的预测值,也可以显示其他的性能值。另外,还可以显示多个性能值的预测值。
在此,对于成为候选的方案的显示顺序,可以从方案执行所花费的成本少的方案依次排列、从方案执行所花费的时间短的方案依次排列、从不存在危险部位的方案依次排列等、能够基于方案的特征进行排序更改。
作为排序更改的方法,例如可以通过点击显示区域9001中的“成本($)”,从成本少的方案依次排列等任意的方法进行。
方案详细按钮9002是用于指示方案详细画面(图21)的显示的按钮。管理者在输入装置15000中选择显示区域9001中的所期望的方案,并按下方案详细按钮9002时,管理服务器10000使图19的效果及危险提示处理的执行开始,将用于显示被选择的方案的详细信息的方案详细画面(图21)显示在输出装置14000。
方案执行按钮9003是用于指示被选择的方案的执行的按钮,当该按钮被押下时,管理服务器10000对提供与被选择的方案相当的功能的程序发出方案的执行指示。接收了方案的执行指示的程序执行被选择的方案。在此,执行方案的程序例如为管理服务器10000的存储器11000内的程序,例如为卷迁移程序、VM移动程序等。
此外,例如在显示区域9001中,方案执行前的性能值和方案执行后的性能值的预测值可以作为趋势(trend)信息以图表形式显示。
图20是方案显示画面9000的一个例子,可以对应显示区域9001显示表示方案执行所花费的成本、方案执行所需要的时间以外的方案的特征的信息、例如利用与方案有关联的资源的业务、且在方案执行时有可能受到影响的业务的一览等,也可以采用其他的显示方式。
图21是实施例1涉及的方案详细画面的一个例子的构成图。
方案详细画面9010具有:显示区域9011,其在计算机系统中产生故障的情况下,显示管理者追究其原因而实施对策时参照的信息、具体而言、表示与故障有关联的装置和器件间的连接关系等的信息;和显示危险部位的详细信息的显示区域9017。显示区域9011具有:表示计算机系统内的物理服务器30000的结构的服务器区域9012;表示交换机的结构的交换机区域9013;表示存储装置20000的结构的存储区域9014;表示在方案提示画面9000中选择的方案执行前的各装置和器件间的连接关系和设定关系的区域9015;和表示选择的方案执行后的各装置和器件间的连接关系和设定关系的区域9016。另外,显示危险部位的详细信息的显示区域9017具有:表示在方案执行后危险也继续残留的部位的危险部位9018;和表示在放任危险部位的状态的情况下,该危险的发生时刻的危险发生时刻9019。
在图21所示的例中,显示区域9011的服务器区域9012中显示表示物理服务器A的图形9020和表示存储装置A的图形9021。另外,图形9020内显示表示作为装载点的驱动器“/opt”和驱动器“/var”的图形,图形9021内显示表示逻辑卷“LV1”和盘池“POOL1”的图形等。即,服务器区域9012为用于表现计算机系统的连接关系和设定关系的区域。除此之外,在服务器区域9012中,由分析结果管理表11910管理的、表示在系统内产生的故障事件的标记9022显示在故障事件的发生部位、例如、物理服务器A的数据I/F“S2”上。另外,在服务器区域9012中,由展开方案表11960管理的表示危险部位的标记9023显示在危险发生部位、例如物理服务器A的驱动器“/opt”上。另外,在区域9011中,物理服务器A、存储装置A等的装置和器件彼此的连接关系通过将表示各自的图形彼此连接的实线来表现。
在图21所示的例中,表示方案执行前的状况的区域9015示出了物理服务器A上的驱动器“/opt”、存储装置A的逻辑卷“LV1”和盘池“POOL1”被关联,物理服务器A上的驱动器“/var”、存储装置A的逻辑卷“LV2”和盘池“POOL1”被关联,存储装置A的逻辑卷“LV3”和盘池“POOL2”被关联。另外,表示方案执行前的状况的区域9015示出了:在物理服务器A上的驱动器“/var”、物理服务器A上的数据I/F、存储装置A的数据I/F、存储装置A的逻辑卷“LV2”和存储装置A的盘池“POOL1”中发生故障事件,物理服务器A上的驱动器“/opt”中存在危险。
表示方案执行后的状况的区域9016示出了:存在于盘池“POOL1”上的逻辑卷“LV2”变为存在于POOL2上,在方案执行后,在存储装置A的盘池“POOL1”中故障事件也继续残留,在物理服务器A上的驱动器“/opt”危险也继续残留。
表示危险详细的显示区域9017中显示与表示危险部位的标记9023所位于的器件有关的详细信息。在图21的例中,显示区域9011中的物理服务器A的驱动器“/opt”上所具有危险的详细信息显示在区域9017,在图21所示的例中,区域9017表示危险部位为物理服务器A的驱动器“/opt”,可能发生危险的时刻为产生对驱动器“/opt”的I/O的时候。危险发生时刻基于例如在图19的步骤6002中获取的信息而决定。例如,管理服务器10000可以获取性能信息表11820的性能值11825的信息,物理服务器A的与驱动器“/opt”有关的性能值为0msec,检测出没有发生I/O,判断为I/O发生能够成为危险发生的起因,在危险发生时刻9019收纳该信息。
在此,方案详细画面9010具有显示区域9011和显示区域9017,但是不限定于此,例如也可以是,在显示区域9011的表示危险部位的标记9023被点击时,显示区域9017作为另外画面而新显示。或者,还可以是,在方案提示画面9000的显示区域9001的危险部位的信息被点击时,显示区域9017作为另外画面而新显示。另外,还可以是,在显示区域9011的表示物理服务器30000和存储装置20000等的装置或者器件的图形被点击时,显示方案执行前后的该装置或者器件的性能值。
根据实施例1,关联地提示故障原因和对故障的具体恢复方案,通过各方案的执行,检验与故障原因存在关联的故障事件中的、多少事件被解除,通过显示其结果,能够将在方案执行后也潜在残留状态的问题部位与其理由一起作为方案的详细信息提示给管理者。由此,管理者能够选择适当的方案,能够在方案选择时容易地掌握方案执行后的危险。
实施例2
接着,对实施例2进行说明。在以下的说明中,以与实施例1的不同点为中心进行说明,对相同的构成要素、相同的功能的程序、具有相同的项目的表,省略记载。
图22是实施例2涉及的管理服务器的一个例子的构成图。
管理服务器10000具有与实施例1相同的构成要素,存储器11000的结构性能信息库11800中还收纳有VM结构管理表11830。VM结构管理表11830管理VM、逻辑地生成VM并使之运转的管理程序(hypervisor)(以下也称为“HV”)的对应关系、以及VM的设定信息、例如电源状态信息等。
图22所示的例中,各种程序和表收纳在存储器11000,但是也可以收纳在存储器件12000或者其他的存储介质(未图示)。在该情况下,处理器15000在程序执行时在存储器11000上读出对象的程序,并执行所读出的程序。另外,可以在存储装置20000的存储器21000或者物理服务器30000的存储器31000中收纳上述的程序和上述的表,存储装置20000或者物理服务器30000执行所收纳的程序。另外,交换机等的其他装置可以收纳上述的程序和表并执行所收纳的程序。
图23是实施例2涉及的物理服务器的一个例子的构成图。
物理服务器30000具有与实施例1相同的构成要素,在存储器31000中还收纳有VM管理程序31400。VM管理程序31400管理VM的结构信息和性能信息。另外,VM管理程序31400进行VM移动等、关于VM的控制。
在图23所示的例中,各种程序收纳在存储器31000,但也可以收纳在其他的存储介质(未图示)。在该情况下,处理器33000在处理执行时在存储器31000上读出对象的程序并执行所读出的程序。
图24是实施例2涉及的物理服务器的一个例子的逻辑构成图。
物理服务器30000具有逻辑地生成VM70000并使所生成的VM70000运转的HV80000。HV80000能够一次控制多个VM70000。多个VM70000的各自能够如独立的物理计算机那样执行应用程序。
图25是实施例2涉及的交换机的一个例子的构成图。
交换机60000具有存储器61000、管理I/F62000、处理器63000、和交换机数据I/F64000,这些装置经由内部总线65000等的内部总线65000连接。交换机60000是用于选择从物理服务器30000的数据I/F32000向存储20000的数据I/F26000的通信路径的装置。存储器61000中收纳有结构性能信息收集程序61100。结构性能信息收集程序61100是用于在管理服务器10000之间发送和接收交换机60000的管理信息和性能信息等的程序。
图26是实施例2涉及的结构信息表的一个例子的构成图。
结构信息表11810除了实施例1涉及的结构信息表11810的各字段之外,还包含交换机信息11818。交换机信息11818包括:收纳交换机60000的标识符的交换机11818A;收纳表示交换机60000的输入数据I/F的数据的交换机数据I/F IN(输入)11818B;和收纳表示交换机60000的输出数据I/F的数据的交换机数据I/F OUT(输出)11818C。另外,交换机信息11818配置在物理服务器11811、存储11814等的字段之间,该字段的位置关系表示通信路径上的装置和器件的位置关系。例如从图26的上部开始的第二个条目表示在物理服务器A的服务器数据I/F“S2”和存储装置A的存储数据I/F“P2”之间存在交换机B和交换机C。更详细来讲,表示:物理服务器A的服务器数据I/F“S2”与交换机B的数据I/F“R10”连接,交换机B的数据I/F“R11”与交换机C的数据I/F“R20”连接,交换机C的数据I/F“R21”与存储装置A的存储数据I/F“P2”连接。另外,在信息构成表11810中,VM70000的结构信息也与物理服务器30000的结构信息同样被收纳。所以,物理服务器11811中收纳有对VM70000进行唯一地识别的标识符。例如从图26的上部开始的第五个条目表示,从存储B的盘池“POOL3”生成的逻辑卷“LV10”经由存储B的存储数据I/F“P3”、交换机A的数据I/F“R2”、“R1”和服务器数据I/F“S3”与VM1连接,在VM1上被识别为逻辑卷“E:”。
图27是实施例2涉及的VM结构管理表的一个例子的构成图。
通过执行结构设定管理程序11600,在VM结构管理表11830中追加条目。结构设定管理程序11600包括虚拟服务器11831、电源状态11832、物理服务器11833和服务器数据I/F11834的字段。虚拟服务器11831中收纳有用于对VM70000进行唯一地识别的标识符。电源状态11832中收纳有表示VM70000的电源状态的数据、例如“ON(接通)”、“OFF(断开)”、或者“SUSPEND(暂停)”。物理服务器11833中收纳有用于对VM70000动作的物理服务器30000进行唯一地识别的标识符。服务器数据I/F11834中收纳有用于对物理服务器30000的服务器数据I/F进行唯一地识别的标识符。
图28是实施例2涉及的性能信息表的一个例子的构成图。
实施例2涉及的性能信息表11820的构成与实施例1涉及的性能信息表11820的构成实质上相同。实施例2涉及的性能信息表11820中,作为与构成计算机系统的装置或者器件有关的性能信息,还收纳有VM70000的性能信息、管理程序80000的性能信息和交换机60000的性能信息。在此,VM70000和管理程序8000也作为装置看待。例如在装置ID11821中收纳有用于对VM70000、管理程序80000或交换机60000进行唯一地识别的标识符。图29是实施例2涉及的事件管理表的一个例子的构成图。
实施例2涉及的事件管理表11910的构成与实施例1涉及的事件管理表11910的构成实质上相同。实施例2涉及的事件管理表11910中,作为与在构成计算机系统的装置或者器件中发生的事件有关的信息,也收纳有与在VM70000中产生的事件有关的信息、与在管理程序80000中产生的事件有关的信息和与在交换机60000中产生的事件有关的信息。
图30A是实施例2涉及的通用规则表的第1构成图。图30B是实施例2涉及的通用规则表的第2构成图。
实施例2涉及的通用规则表11920的构成与实施例1涉及的通用规则表11920的构成实质上相同。实施例2中,对于与VM70000有关的事件、与管理程序80000有关的事件、和与交换机60000有关的事件,也作为在通用规则的条件部11921和结论部11922中定义的条件事件而被采用。
图31是实施例2涉及的规则及方案对应表的一个例子的构成图。
实施例2涉及的规则及方案对应表11940的构成与实施例1涉及的规则及方案对应表11940的构成实质上相同。在实施例2中,作为通用规则列举通用规则“Rule3”和“Rule4”进行说明,作为通用方案列举通用方案“Plan1”和“Plan6”进行说明。
图32A是实施例2涉及的展开规则表的第1构成图。图32B是实施例2涉及的展开规则表的第2构成图。
实施例2涉及的展开规则表11950的构成与实施例1涉及的展开规则表11950的构成实质上相同。在实施例2中,对于与VM70000有关的事件、与管理程序80000有关的事件、和与交换机60000有关的事件,也作为在展开规则的条件部11951和结论部11952中定义的条件事件被采用。
图33A是实施例2涉及的展开方案表的第1构成图。图33B是实施例2涉及的展开方案表的第2构成图。图33C是实施例2涉及的展开方案表的第3构成图。
实施例2涉及的展开方案表11960的构成与实施例1涉及的展开方案表11960的构成实质上相同。与实施例1同样地,方案对象11964所包含的字段根据方案的内容而不同。
图33B或者图33C所示的展开方案,在基于通用方案“Plan6”的展开方案、即关于VM移动的展开方案中,方案对象11964包括例如对象VM1196B、移动源1196C和移动目标1196D的字段。对象VM1196B包括收纳成为VM移动的对象的VM70000(以下称为“对象VM”)的标识符的ID1196BA和收纳对象VM的移动后的性能值的性能1196BB的字段。移动源1196C包括收纳对象VM的移动源的管理程序80000(以下称为“移动源管理程序”)的标识符的ID1196CA和收纳在对象VM移动后的移动源管理程序的性能值的性能1196CB的字段。移动目标1196D包括收纳对象VM的移动目标的管理程序80000(以下称为“移动目标管理程序”)的标识符的ID1196DA和收纳在对象VM移动后的移动目标管理程序的性能值的性能1196DB的字段。对于在ID1196BA、ID1196CA、ID1196DA中所收纳的标识符,方案生成程序11100从结构信息表11810等获取并收纳。另外,对于在性能1196BB、性能1196CB、性能1196DB中所收纳的性能信息的预测值,在值的算出中,可以采用任意的方法,例如方案生成程序11100可以如实施例1中所示那样,通过对IOPS进行加法运算或者减法运算来求出预测值。在此,记载了性能信息的例子,但也可以收纳成本信息和故障导致的系统的停机时间信息等。另外,在此,作为移动源和移动目标采用单一的管理程序80000,但是,共有资源的多个管理程序80000的集合、管理程序80000内的数据存储也可以为移动源和移动目标。
图34是实施例2涉及的分析结果管理表的一个例子的构成图。
实施例2涉及的分析结果管理表11970的构成与实施例1涉及的分析结果管理表11970的构成实质上相同。实施例2中,VM70000的标识符、管理程序80000的标识符、交换机60000的标识符和这些器件的标识符也能够收纳在原因装置ID11971和原因部位ID11972。另外,与VM70000有关的事件的标识符、与管理程序80000有关的事件的标识符和与交换机60000有关的事件的标识符也能够收纳在接收事件ID11976。
图35是实施例2涉及的方案提示处理的流程图。
方案提示处理通过管理服务器10000的处理器15000执行在存储器11000上展开的方案提示程序11300来执行。
首先,方案提示程序11300从分析结果管理表11970获取表示故障原因的信息、即原因装置ID11971、原因部位ID11972、指标11973、和可靠度11974的值(步骤7001)。
接着,方案提示程序11300对规则及方案信息库11900中所收纳的1个以上的展开方案表11960表示的1个以上的展开方案各自执行以下的步骤7002~7005的处理。方案提示程序11300判定在规则及方案信息库11900中所收纳的1个以上的展开方案表11960表示的1个以上的展开方案内是否存在处理对象的展开方案和展开规则ID1196A的值不同、即对应的展开规则不同但具有相同的处理内容的展开方案(以下称为“第1汇集对象方案”)(步骤7002)。
在第1汇集对象方案不存在的情况下(步骤7002:否),方案提示程序11300使处理进入步骤7004。另一方面,在第1汇集对象方案存在的情况下(步骤7002:是),方案提示程序11300从展开方案表11960删除第1汇集对象方案,更新包含处理对象的展开方案的展开方案表11960的展开规则ID1196A的值(步骤7003),使处理进入步骤7004。
例如在图33B、图33C的例中,展开方案“ExPlan6-1”和展开方案“ExPlan6-3”、展开方案“ExPlan6-2”和展开方案“ExPlan6-4”各自对应的展开规则不同但成为具有相同的处理内容的展开方案。所以,在处理对象的展开方案为展开方案“ExPlan6-1”的情况下,方案提示程序11300在步骤7002中将展开方案“ExPlan6-3”确定为第1汇集对象方案,在步骤7003中,将展开方案“ExPlan6-3”从展开方案表11960删除,将包含展开方案“ExPlan6-1”的展开方案表11960的展开规则ID1196A的值更新为表示展开规则“ExRule3-1”和展开规则“ExRule4-1”的数据、例如“ExRule3-1、ExRule4-1”。另外,在处理对象的展开方案为展开方案“ExPlan6-2”的情况下,方案提示程序11300在步骤7002中将展开方案“ExPlan6-4”确定为第1汇集对象方案,在步骤7003中,将展开方案“ExPlan6-4”从展开方案表11960删除,将包含展开方案“ExPlan6-2”的展开方案表11960的展开规则ID1196A的值更新为“ExRule3-1、ExRule4-1”。此外,在此,对既存的展开方案表11960的展开规则ID1196A的值进行更新,但也可以生成在展开规则ID1196A中收纳有“ExRule3、ExRule4”的新的展开方案表11960。
步骤7004中,方案提示程序11300判定在规则及方案信息库11900中所收纳的1个以上的展开方案表11960表示的1个以上的展开方案内是否存在处理对象的展开方案和通用方案ID11962相同、即成为基础的通用方案相同、且具有类似的性能信息、且具有相同的危险的展开方案(以下称为“第2汇集对象方案”)。
在第2汇集对象方案不存在的情况下(步骤7004:否),方案提示程序11300不执行步骤7005而使处理进入接下来的处理。另一方面,在第2汇集对象方案存在的情况下(步骤7004:是),方案提示程序11300确定在处理对象的展开方案和1个以上的第2汇集对象方案中、方案执行后的性能值的预测值最好的展开方案(以下称为“最佳方案”)。而且,方案提示程序11300从展开方案表11960删除处理对象的展开方案和1个以上的第2汇集对象方案中的不是最佳方案的展开方案,对展开方案表11960的展开规则ID1196A的值进行更新(步骤7005)。
例如,在图33A和图33B的例子中,在成为基础的通用方案相同、且具有类似的性能信息、且具有相同的危险的展开方案的展开方案“ExPlan1-1”、展开方案“ExPlan1-2”、和展开方案“ExPlan1-3”中,展开方案“ExPlan1-1”为移动对象卷的性能最佳的最佳方案。所以,仅最佳方案“ExPlan1-1”保留,其以外的展开方案“ExPlan1-2”和展开方案“ExPlan1-3”被删除。另外,在成为基础的通用方案相同、且具有类似的性能信息、且具有相同的危险的展开方案的展开方案“ExPlan6-1”和展开方案“ExPlan6-2”中,展开方案“ExPlan6-1”为对象VM的性能最佳的最佳方案。所以,仅最佳方案“ExPlan6-1”保留,其以外的展开方案“ExPlan6-2”被删除。
在此,判断性能信息类似的范围,例如可以固定地预先设定为I/O的响应类型在±1msc以下的范围内等,通过输入器件13000由管理者设定。
此外,在步骤7005中,方案提示程序11300仅保留最佳方案例如I/O的响应时间最快等的1个展开方案,将其以外的展开方案删除,但是可以保留方案执行后的性能值的预测值好的多个展开方案。对于汇集后保留的展开方案的个数,例如可以预先将要保留的个数规定为固定数,也可以通过输入器件13000由管理者设定。另外,可以决定汇集后的展开方案的个数,使得在输出画面内能够显示所有的展开方案。另外,本处理的目的在于通过显示多个类似的展开方案,避开管理者的方案选择操作变得复杂。例如可以采用如下方法:不删除展开方案而仅显示方案执行后的性能值好的展开方案,不显示其之外的展开方案,通过点击规定的按钮而切换显示或者不显示等。
在对所有的展开方案的处理(步骤7002~7005)完成后,方案提示程序11300基于表示在步骤7001中所获取的故障原因的信息和可靠度和规则及方案信息库11900中所收纳的展开方案表11960,生成方案提示画面9000(参照图36),使生成的方案提示画面9000显示在输出器件14000(步骤7006)。然后,方案提示程序11300使方案提示处理结束。
图36是实施例2涉及的方案提示画面的一个例子的构成图。
实施例2涉及的方案提示画面9000的构成与实施例1涉及的方案提示画面9000的构成实质上相同。
在实施例2中,通过方案生成处理生成图33A、图33B、和图33C所示的展开方案。具体而言,作为与卷迁移有关的展开方案生成展开方案“ExPlan1-1”、展开方案“ExPlan1-2”和展开方案“ExPlan1-3”,作为与VM移动有关的展开方案生成展开方案“ExPlan6-1”、展开方案“ExPlan6-2”、展开方案“ExPlan6-3”和展开方案“ExPlan6-4”。即,生成合计7个展开方案。通过图35所示的实施例2涉及的方案提示处理,在展开方案“ExPlan1-1”、展开方案“ExPlan1-2”、和展开方案“ExPlan1-3”中,仅移动对象卷的性能最佳的方案的展开方案“ExPlan1-1”保留,展开方案“ExPlan1-2”和展开方案“ExPlan1-3”被删除。另外,通过方案提示处理,在展开方案“ExPlan6-1”、展开方案“ExPlan6-2”、展开方案“ExPlan6-3”和展开方案“ExPlan6-4”中,仅对象VM的性能最佳的方案之一的展开方案“ExPlan6-1”保留,展开方案“ExPlan6-2”、展开方案“ExPlan6-3”和展开方案“ExPlan6-4”被删除。在该例中,表示能够汇集与故障原因为存储装置20000的通用规则对应的展开方案和与故障原因为交换机60000的通用规则对应的展开方案。在该画面9000中,本质上,只要能够图示针对根本原因不同的故障的对策方案共通即可,不限于图36所示的显示方法。
根据实施例2,关联地提示故障原因和对故障的具体的恢复方案,通过各方案的执行,检验与故障原因存在关联的故障事件中的、多少事件被解除,通过显示其结果,能够将在方案执行后也潜在残留状态的问题部位与其理由一起作为方案的详细信息提示给管理者。由此,管理者能够选择适当的方案,能够在方案选择时掌握方案执行后的危险。另外,将能够获得同等或者类似的效果的展开方案彼此汇集为一个,由此抑制冗长的方案的提示,另外,在针对故障的恢复方案大量存在的情况下,能够削减对管理者提示的方案的数量,能够降低方案详细的确认作业和方案的选择作业中的管理者的成本。
实施例3
接着,对实施例3进行说明。在以下的说明中,以实施例1和实施例2的不同点为中心进行说明,对于相同的构成要素、具有相同的功能的程序、具有相同的项目的表,省略记载。
图37是实施例3涉及的管理服务器的一个例子的构成图。
管理服务器10000具有与实施例2相同的构成要素,存储器11000中还收纳有保养信息管理程序11110。另外,规则及方案信息库11900中还收纳有保养信息管理表11980。保养信息管理表11980管理与伴随装置的新陈代谢的更换、维修作业等有关的信息。
在图37所示的例中,各种程序和表收纳在存储器11000,但是也可以收纳在存储器件12000或者其他的存储介质(未图示)。在该情况下,处理器15000在程序执行时在存储器11000上读出对象的程序,并执行所读出的程序。另外,可以在存储装置20000的存储器或者物理服务器30000的存储器中收纳上述的程序和上述的表,存储装置20000或者物理服务器30000执行所收纳的程序。另外,交换机60000等其他装置也可以收纳上述的程序和表并执行所收纳的程序。
图38是实施例3涉及的通用方案表的一个例子的构成图。
通用方案表11930管理在计算机系统中能够实施的方案的一览。通用方案表11930包含通用方案ID11931、方案11932和保养对应11933的字段。通用方案ID11931中收纳有作为通用方案的标识符的通用方案ID。方案11932中收纳有表示在计算机系统中能够实施的方案的信息。保养对应11933中收纳有表示与保养计划是否具有关系的方案的信息。例如,通用方案“Plan8”的存储端口更换、通用方案“Plan9”的交换机更换等、更换物理硬件那样的方案为与保养计划具有关系的方案。
图39是实施例3涉及的规则及方案对应表的一个例子的构成图。
实施例3涉及的规则及方案对应表11940的构成与实施例1涉及的规则及方案对应表11940的构成实质上相同。在实施例3中,作为通用规则列举通用规则“Rule4”进行说明,作为通用方案列举通用方案“Plan6”和“Plan9”进行说明。
图40A是实施例3涉及的展开方案表的第1构成图。图40B是实施例3涉及的展开方案表的第2构成图。
实施例3涉及的展开方案表11960的构成与实施例1涉及的展开方案表11960的构成实质上相同。与实施例1相同,方案对象11964所包含的字段根据方案的内容而不同。
基于图40B的通用方案“Plan9”的展开方案、即与交换机更换有关的展开方案中,方案对象11964例如包括收纳有成为更换的对象的交换机60000(以下称为“更换对象交换机”)的标识符的更换对象交换机1196E和收纳有表示更换所花费的成本的数据的成本1196F的字段。对于更换对象交换机的标识符,方案生成程序11100从结构信息表11810获取并收纳。对于成本1196F中所收纳的值,方案生成程序11100从保养信息管理表11980获取并收纳。在此,记载有仅收纳更换对象的标识信息和成本信息的例子,但也可以收纳其他的信息、例如表示交换机60000的更换花费何种程度的时间的信息等。
图41是实施例3涉及的保养信息管理表的一个例子的构成图。
保养信息管理表11980管理管理者进行硬件更换等的保养操作的计算信息。该表11980例如通过管理者手动作业输入等而生成。保养信息管理表11980包含装置11981、装置部位11982、更换理由11983、更换日期及时间11984、影响服务11985和成本11986的字段。装置1198中收纳有成为保养操作的对象的装置的装置ID。装置部位ID11982中收纳有成为保养操作的对象的器件的标识符。在更换理由11983中收纳有表示使更换成为计划的理由的信息。更换日期及时间11984中收纳有表示成为更换的日期及时间的信息。影响服务11985中收纳有通过更换成为保养操作的对象的器件而受到影响的服务的标识符。成本11986中收纳有表示在更换成为保养操作的对象的器件时的成本的信息。
图42是实施例3涉及的效果及危险提示处理的流程图。
步骤8001~步骤8004的处理是与实施例1涉及的效果及危险提示处理中的步骤S6001~步骤6004的处理相同的处理,因此省略说明。
在步骤8005中,方案提示程序11300参照通用方案表11930的保养对应11933的信息和保养信息表11980,获取与保养计划有关的信息。
然后,方案提示程序11300基于在步骤8002~步骤8005中所获取的信息生成方案详细画面9010(图43参照),使生成的方案详细画面9010显示在输出器件14000(步骤8006)。然后,方案提示程序11300使效果及危险提示处理结束。
图43是实施例3涉及的方案详细画面的一个例子的构成图。
实施例3涉及的方案详细画面9010的构成与实施例1涉及的方案详细画面9010的构成实质上相同。
在图43所示的例中,表示方案执行前的状况的区域9015表示,VM1的驱动器“E:”、交换机A、存储B的数据I/F“P3”、存储B的逻辑卷“LV10”和盘池“POOL3”被关联,VM2的驱动器“F:”、交换机A、存储B的逻辑卷“LV11”和盘池“POOL3”被关联,VM3的驱动器“D:”、交换机B、存储B的逻辑卷LV“12”和盘池“POOL4”被关联。另外,表示方案执行前的状况的区域9015表示,VM2的驱动器“F:”、交换机A的数据I/F和存储B的数据I/F发生故障事件,在VM1的驱动器“E:”存在危险。
表示方案执行后的状况的区域9016表示在物理服务器B的管理程序80000上动作的VM2变成在物理服务器C上的管理程序80000上动作,在方案执行后,VM2的驱动器“F:”、交换机B、存储B的数据I/F、存储B的逻辑卷“LV11”和盘池“POOL3”被关联,在交换机A的数据I/F和存储B的数据I/F中继续残留故障事件,在VM1中危险继续残留。
在实施例3中,在表示危险详细的显示区域9017表示,危险部位为VM1的驱动器“E:”,有可能发生危险的时刻为驱动器“E:”的电源成为ON(接通)的时刻。危险发生时刻例如基于在图42的步骤8002中获取的信息决定。例如,可以是,管理服务器10000获取VM结构管理表11830的电源状态11832的信息,检测出VM1的电源状态成为OFF(断开)状态,判断伴随VM的电源ON、业务再开始能够成为危险发生的起因,在危险发生时刻9019收纳该信息。
表示保养计划的显示区域9022例如包括:显示保养作业中的更换对象的装置或者器件的标识符的区域9023;显示更换理由的区域9024;和显示更换日期及时间的区域9025的字段。显示保养计划的显示区域9022所显示的更换对象例如限定于故障事件产生的装置或者器件,这些信息在图42的效果及危险提示处理中的步骤8005的处理中获取。显示区域9022可以对应显示在图41的保养信息管理表11980中表示的信息、例如成本的信息等。参照了与保养计划有关的信息的管理者,确认例如故障的发生部位的装置或者器件的基于保养的更换时刻,还兼作为对故障的对策,比预定提前进行交换机的更换,或者由于交换机的更换较近,因此作为暂时对策残留若干的危险而选择基于VM移动的方案。
在实施例3中,显示区域9011和显示区域9017和显示区域9022显示在同一画面,但是不限于此,例如表示在显示区域9011的保养计划中设定的装置或者器件、例如交换机A的图形被点击时,显示区域9022可以作为另外画面新显示。或者,也可以是,在方案提示画面9000的显示区域9001所显示的方案被点击时,显示区域9022作为另外画面新显示。另外,还可以是,在表示显示区域9011的物理服务器30000和存储装置20000等的装置或者器件的图形被点击时,显示方案执行前后的该装置或者器件的性能值。
根据实施例3,关联地提示故障原因和对故障的具体的恢复方案,通过各方案的执行,检验与故障原因具有关联的故障事件中的、多少事件被解除,通过显示其结果,能够将在方案执行后也潜在残留状态的问题部位与其理由一起作为方案的详细信息提示给管理者。由此,管理者能够选择适当的方案,能够在方案选择时掌握方案执行后的危险。另外,在能够与保养计划相关联的方案的情况下,在方案详细画面9010中能够根据保养计划进行确认,从而使管理者容易地掌握影响的重要性,能够削减方案选择中的成本。
此外,本发明不限定于以上说明的实施例,在不脱离其主旨的范围内能够进行各种变形,这自不待言。
附图标记说明
10000:管理服务器、20000:存储装置、30000:物理服务器

Claims (15)

1.一种对具有多个监视对象器件的计算机系统进行管理的管理系统,其中,
具有存储器件和与所述存储器件连接的控制器件,
所述存储器件存储:
通用规则,其表示与所述多个监视对象器件的任一个有关的1个以上的条件事件和在发生了所述1个以上的条件事件的情况下成为原因的、与所述多个监视对象器件的任一个有关的结论事件的对应关系,使与所述条件事件和所述结论事件有关联的监视对象器件通过该监视对象器件的类别表示;
通用方案信息,其表示所述通用规则和作为在所述通用规则的结论事件为原因的情况下能够实施的恢复方案的1个以上的通用方案的对应关系;
未解决信息,其按所述通用规则和所述通用方案的每个组合表示在实施了该通用方案的情况下以未解决的状态残留的、该通用规则的条件事件;和
表示所述多个监视对象器件间的连接关系的结构信息,
所述控制器件,
基于所述通用规则和所述结构信息,生成利用表示特定监视对象器件的数据来表示与所述条件事件和所述结论事件有关联的监视对象器件的类别而得到的多个展开规则,
在发生了与所述多个监视对象器件的任一个有关的事件的情况下,基于生成的所述多个展开规则,将产生的所述事件作为条件事件进行原因分析,确定成为产生的所述事件的原因的候选的第1结论事件,
基于所述通用方案信息,生成1个以上的展开方案,该1个以上的展开方案为在所述第1结论事件为原因的情况下能够实施的恢复方案、且为考虑所述计算机系统的实际结构将成为与包含所述第1结论事件的展开规则的基础的通用规则对应的通用方案展开而得到的恢复方案,
对于生成的所述1个以上的展开方案,分别确定在基于所述未解决信息实施了该展开方案的情况下以未解决的状态残留的未解决事件,并确定危险部位,该危险部位是基于所确定的所述未解决事件实施了该展开方案后问题还继续残留的监视对象器件,
显示所述第1结论事件、生成的所述1个以上的展开方案和表示所确定的所述危险部位的数据。
2.如权利要求1所述的管理系统,
所述控制器件,
对于生成的所述1个以上的展开方案,分别确定与成为该展开方案的基础的通用方案和成为包含所述第1结论事件的第1展开规则的基础的通用规则的组合对应的以未解决的状态残留的条件事件,
将与所确定的该条件事件对应的所述第1展开规则的条件事件确定为所述未解决事件,
将与所确定的该未解决事件有关联的监视对象器件、以及和与所确定的该未解决事件有关联的监视对象器件具有连接关系的监视对象器件中的任意1个以上的监视对象器件确定为所述危险部位。
3.如权利要求2所述的管理系统,
所述控制器件,
在与成为包含所述第1结论事件的第1展开规则的基础的通用规则对应的通用方案为卷迁移的情况下,生成与卷迁移有关的第1展开方案,该与卷迁移有关的第1展开方案以与所述第1展开规则的条件事件和结论事件的任一个有关联的、作为卷的监视对象器件为移动源卷,以与所述移动源卷具有连接关系的、作为卷的监视对象器件为移动目标卷,
对于所述第1展开方案,基于对所述移动源卷和所述移动目标卷的I/O的响应时间,计算所述第1展开方案实施后的、对所述移动源卷和所述移动目标卷的I/O的响应时间的预测值,
显示所述I/O的响应时间的预测值。
4.如权利要求3所述的管理系统,
所述控制器件,
在与成为包含所述第1结论事件的第1展开规则的基础的通用规则对应的通用方案为对池追加盘的情况下,生成与对池追加盘有关的第1展开方案,该与对池追加盘有关的第1展开方案以与所述第1展开规则的条件事件和结论事件的任一个有关联的、作为池的监视对象器件为盘的追加对象的池,
对于所述第1展开方案,基于对所述追加对象的池的I/O的响应时间、和对所述追加对象的池追加盘前后的容量比,计算所述第1展开方案实施后的、对所述追加对象的池的I/O的响应时间的预测值,
显示所述I/O的响应时间的预测值。
5.如权利要求4所述的管理系统,
所述控制器件,
对于生成的所述1个以上的展开方案,分别基于和与该展开方案有关联的监视对象器件相关的性能值,计算和与该展开方案有关联的监视对象器件有关的、该展开方案实施后的性能值的预测值,
还显示所述性能值的预测值。
6.如权利要求5所述的管理系统,
所述控制器件将生成的所述1个以上的展开方案中的相同或相似的多个展开方案汇集为1个展开方案,
显示表示汇集的所述展开方案的数据。
7.如权利要求6所述的管理系统,
所述存储器件还存储保养计划信息,该保养计划信息表示对所述多个监视对象器件的任一个进行的保养操作的计划,
所述控制器件还显示表示对与所述展开方案有关联的监视对象器件进行的保养操作的计划的数据。
8.如权利要求7所述的管理系统,
所述存储器件还存储成本信息,该成本信息表示用于对所述1个以上的通用方案分别实施该通用方案所需要的成本,
所述控制器件针对生成的所述1个以上的展开方案分别基于用于实施成为该展开方案的基础的通用方案所需要的成本,来计算用于实施该展开方案所需要的成本,
还显示计算出的所述成本。
9.一种计算机程序,其在对具有多个监视对象器件的计算机系统进行管理的管理方法中,使计算机执行如下处理:
基于通用规则和结构信息生成多个展开规则,其中,所述通用规则表示与所述多个监视对象器件的任一个有关的1个以上的条件事件和在发生了所述1个以上的条件事件的情况下成为原因的、与所述多个监视对象器件的任一个有关的结论事件的对应关系,使与所述条件事件和所述结论事件有关联的监视对象器件通过该监视对象器件的类别表示,所述结构信息表示所述多个监视对象器件间的连接关系,所述多个展开规则是利用表示特定监视对象器件的数据来表示与所述条件事件和所述结论事件有关联的监视对象器件而得到的,
在发生了与所述多个监视对象器件的任一个有关的事件的情况下,基于生成的所述展开规则,将产生的所述事件作为条件事件进行原因分析,确定成为产生的所述事件的原因的候选的第1结论事件,
基于通用方案信息,生成1个以上的展开方案,其中,该通用方案信息表示所述通用规则和作为在所述通用规则的结论事件为原因的情况下能够实施的恢复方案的1个以上的通用方案的对应关系,该1个以上的展开方案为在所述第1结论事件为原因的情况下能够实施的恢复方案、且为考虑所述计算机系统的实际结构将成为与包含所述第1结论事件的展开规则的基础的通用规则对应的通用方案展开而得到的恢复方案,
对于生成的所述1个以上的展开方案,分别确定在基于未解决信息实施了该展开方案的情况下以未解决的状态残留的未解决事件,并确定危险部位,该危险部位是基于所确定的未解决事件实施了该展开方案后问题还继续残留的监视对象器件,所述未解决信息按通用规则和通用方案的每个组合表示在实施了该通用方案的情况下以未解决的状态残留的、该通用规则的条件事件,
显示所述第1结论事件、生成的所述1个以上的展开方案和表示所确定的所述危险部位的数据。
10.如权利要求9所述的计算机程序,
对于生成的所述1个以上的展开方案,分别确定与成为该展开方案的基础的通用方案和成为包含所述第1结论事件的第1展开规则的基础的通用规则的组合对应的以未解决的状态残留的条件事件,将与所确定的该条件事件对应的所述第1展开规则的条件事件确定为所述未解决事件,将与所确定的该未解决事件有关联的监视对象器件、以及和与所确定的该未解决事件有关联的监视对象器件具有连接关系的监视对象器件中的任意1个以上的监视对象器件确定为所述危险部位。
11.如权利要求10所述的计算机程序,
在与成为包含所述第1结论事件的第1展开规则的基础的通用规则对应的通用方案为卷迁移的情况下,生成与卷迁移有关的第1展开方案,该与卷迁移有关的第1展开方案以与所述第1展开规则的条件事件和结论事件的任一个有关联的、作为卷的监视对象器件为移动源卷,以与所述移动源卷具有连接关系的、作为卷的监视对象器件为移动目标卷,
对于所述第1展开方案,基于对所述移动源卷和所述移动目标卷的I/O的响应时间,计算所述第1展开方案实施后的、对所述移动源卷和所述移动目标卷的I/O的响应时间的预测值,
显示所述I/O的响应时间的预测值。
12.如权利要求9所述的计算机程序,
对于生成的所述1个以上的展开方案,分别基于和与该展开方案有关联的监视对象器件相关的性能值,计算和与该展开方案有关联的监视对象器件有关的、该展开方案实施后的性能值的预测值,
还显示所述性能值的预测值。
13.如权利要求9所述的计算机程序,
将生成的所述1个以上的展开方案中的相同或相似的多个展开方案汇集为1个展开方案,
显示表示汇集的所述展开方案的数据。
14.如权利要求9所述的计算机程序,
还显示表示基于保养计划信息对与所述展开方案有关联的监视对象器件进行的保养操作的计划的数据,该保养计划信息表示对所述多个监视对象器件的任一个进行的保养操作的计划。
15.如权利要求9所述的计算机程序,
基于表示用于对所述1个以上的通用方案分别实施该通用方案所需要的成本的成本信息,针对生成的所述1个以上的展开方案分别计算用于实施该展开方案所需要的成本,
还显示计算出的所述成本。
CN201280072987.7A 2012-09-03 2012-09-03 对具有多个监视对象器件的计算机系统进行管理的管理系统 Active CN104272266B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/072310 WO2014033945A1 (ja) 2012-09-03 2012-09-03 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム

Publications (2)

Publication Number Publication Date
CN104272266A true CN104272266A (zh) 2015-01-07
CN104272266B CN104272266B (zh) 2016-11-09

Family

ID=50182791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280072987.7A Active CN104272266B (zh) 2012-09-03 2012-09-03 对具有多个监视对象器件的计算机系统进行管理的管理系统

Country Status (5)

Country Link
US (2) US9244800B2 (zh)
EP (1) EP2808796A4 (zh)
JP (1) JP5719974B2 (zh)
CN (1) CN104272266B (zh)
WO (1) WO2014033945A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018528529A (ja) * 2015-08-05 2018-09-27 フェイスブック,インク. コネクテッド・デバイスのルール・エンジン
CN110287052A (zh) * 2019-06-25 2019-09-27 深圳前海微众银行股份有限公司 一种异常任务的根因任务确定方法及装置
CN110334813A (zh) * 2018-03-28 2019-10-15 株式会社日立制作所 运营管理方法及运营管理系统
CN112862420A (zh) * 2019-11-12 2021-05-28 株式会社野村综合研究所 管理系统

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100050156A1 (en) * 2008-08-20 2010-02-25 International Business Machines Corporation Using build history information to optimize a software build process
JP5454216B2 (ja) * 2010-02-23 2014-03-26 富士通株式会社 電子装置の設計装置、電子装置の設計プログラム、及び電子装置の設計方法
WO2012127588A1 (ja) * 2011-03-18 2012-09-27 富士通株式会社 対処支援プログラム、対処支援装置および対処支援方法
JP5768796B2 (ja) * 2012-10-23 2015-08-26 日本電気株式会社 運用管理装置、運用管理方法、及び、プログラム
WO2014162595A1 (ja) * 2013-04-05 2014-10-09 株式会社日立製作所 管理システム及び管理プログラム
WO2015063889A1 (ja) * 2013-10-30 2015-05-07 株式会社日立製作所 管理システム、プラン生成方法、およびプラン生成プログラム
US9052938B1 (en) 2014-04-15 2015-06-09 Splunk Inc. Correlation and associated display of virtual machine data and storage performance data
US11210120B2 (en) * 2014-06-30 2021-12-28 Vmware, Inc. Location management in a volume action service
WO2016013056A1 (ja) * 2014-07-22 2016-01-28 株式会社日立製作所 計算機システムを管理する方法
US10223189B1 (en) * 2015-06-25 2019-03-05 Amazon Technologies, Inc. Root cause detection and monitoring for storage systems
US10282245B1 (en) * 2015-06-25 2019-05-07 Amazon Technologies, Inc. Root cause detection and monitoring for storage systems
US9898357B1 (en) * 2015-06-25 2018-02-20 Amazon Technologies, Inc. Root cause detection and monitoring for storage systems
US10235227B2 (en) 2015-10-12 2019-03-19 Bank Of America Corporation Detection, remediation and inference rule development for multi-layer information technology (“IT”) structures
US9703624B2 (en) * 2015-10-12 2017-07-11 Bank Of America Corporation Event correlation and calculation engine
WO2017068669A1 (ja) * 2015-10-21 2017-04-27 株式会社ビジネス・プログレス イベント検知端末
US10514978B1 (en) * 2015-10-23 2019-12-24 Pure Storage, Inc. Automatic deployment of corrective measures for storage arrays
US10599509B2 (en) * 2015-12-21 2020-03-24 Hitachi, Ltd. Management system and management method for computer system
US11620336B1 (en) 2016-09-26 2023-04-04 Splunk Inc. Managing and storing buckets to a remote shared storage system based on a collective bucket size
US11599541B2 (en) 2016-09-26 2023-03-07 Splunk Inc. Determining records generated by a processing task of a query
US11860940B1 (en) 2016-09-26 2024-01-02 Splunk Inc. Identifying buckets for query execution using a catalog of buckets
US11281706B2 (en) 2016-09-26 2022-03-22 Splunk Inc. Multi-layer partition allocation for query execution
US11550847B1 (en) 2016-09-26 2023-01-10 Splunk Inc. Hashing bucket identifiers to identify search nodes for efficient query execution
US11567993B1 (en) 2016-09-26 2023-01-31 Splunk Inc. Copying buckets from a remote shared storage system to memory associated with a search node for query execution
US11562023B1 (en) 2016-09-26 2023-01-24 Splunk Inc. Merging buckets in a data intake and query system
US11604795B2 (en) 2016-09-26 2023-03-14 Splunk Inc. Distributing partial results from an external data system between worker nodes
US11232100B2 (en) 2016-09-26 2022-01-25 Splunk Inc. Resource allocation for multiple datasets
US11874691B1 (en) 2016-09-26 2024-01-16 Splunk Inc. Managing efficient query execution including mapping of buckets to search nodes
US11321321B2 (en) 2016-09-26 2022-05-03 Splunk Inc. Record expansion and reduction based on a processing task in a data intake and query system
US11461334B2 (en) 2016-09-26 2022-10-04 Splunk Inc. Data conditioning for dataset destination
US11442935B2 (en) * 2016-09-26 2022-09-13 Splunk Inc. Determining a record generation estimate of a processing task
US20180089324A1 (en) 2016-09-26 2018-03-29 Splunk Inc. Dynamic resource allocation for real-time search
US11269939B1 (en) 2016-09-26 2022-03-08 Splunk Inc. Iterative message-based data processing including streaming analytics
US11416528B2 (en) 2016-09-26 2022-08-16 Splunk Inc. Query acceleration data store
US11294941B1 (en) 2016-09-26 2022-04-05 Splunk Inc. Message-based data ingestion to a data intake and query system
US11615104B2 (en) 2016-09-26 2023-03-28 Splunk Inc. Subquery generation based on a data ingest estimate of an external data system
US11593377B2 (en) 2016-09-26 2023-02-28 Splunk Inc. Assigning processing tasks in a data intake and query system
US11586627B2 (en) 2016-09-26 2023-02-21 Splunk Inc. Partitioning and reducing records at ingest of a worker node
US11580107B2 (en) 2016-09-26 2023-02-14 Splunk Inc. Bucket data distribution for exporting data to worker nodes
US10353965B2 (en) 2016-09-26 2019-07-16 Splunk Inc. Data fabric service system architecture
US11663227B2 (en) 2016-09-26 2023-05-30 Splunk Inc. Generating a subquery for a distinct data intake and query system
US10956415B2 (en) 2016-09-26 2021-03-23 Splunk Inc. Generating a subquery for an external data system using a configuration file
US11250056B1 (en) 2016-09-26 2022-02-15 Splunk Inc. Updating a location marker of an ingestion buffer based on storing buckets in a shared storage system
US10203988B2 (en) * 2016-10-13 2019-02-12 International Business Machines Corporation Adaptive parallelism of task execution on machines with accelerators
US9785519B1 (en) * 2017-02-16 2017-10-10 Red Hat Israel, Ltd. Driver switch for device error recovery for assigned devices
JP6852785B2 (ja) * 2017-04-05 2021-03-31 日本電気株式会社 展開知識生成システム、展開知識生成方法および展開知識生成プログラム
US11989194B2 (en) 2017-07-31 2024-05-21 Splunk Inc. Addressing memory limits for partition tracking among worker nodes
US11921672B2 (en) 2017-07-31 2024-03-05 Splunk Inc. Query execution at a remote heterogeneous data store of a data fabric service
US11012317B2 (en) * 2017-08-18 2021-05-18 Salesforce.Com, Inc. Visualization for monitoring infrastructure entities
JP6901683B2 (ja) * 2017-09-22 2021-07-14 富士通株式会社 調整プログラム、調整装置および調整方法
US10896182B2 (en) 2017-09-25 2021-01-19 Splunk Inc. Multi-partitioning determination for combination operations
JP6622273B2 (ja) * 2017-10-12 2019-12-18 株式会社日立製作所 リソース管理装置、リソース管理方法、及びリソース管理プログラム
US10776194B2 (en) 2018-01-31 2020-09-15 Splunk Inc. Self-monitor for computing devices of a distributed computing system
US11334543B1 (en) 2018-04-30 2022-05-17 Splunk Inc. Scalable bucket merging for a data intake and query system
CN109039785B (zh) * 2018-09-27 2021-05-04 郑州云海信息技术有限公司 基于SNMP的Trap告警恢复方法和装置
US11106528B2 (en) * 2018-10-10 2021-08-31 EMC IP Holding Company LLC Datacenter IoT-triggered preemptive measures using machine learning
US11194591B2 (en) 2019-01-23 2021-12-07 Salesforce.Com, Inc. Scalable software resource loader
US10802944B2 (en) * 2019-01-23 2020-10-13 Salesforce.Com, Inc. Dynamically maintaining alarm thresholds for software application performance management
US11095749B2 (en) * 2019-01-29 2021-08-17 Walmart Apollo, Llc Self-service operation for bare-metal servers
JP7177349B2 (ja) * 2019-02-08 2022-11-24 富士通株式会社 スケジュールプログラム、スケジュール装置およびスケジュール方法
US10922095B2 (en) 2019-04-15 2021-02-16 Salesforce.Com, Inc. Software application performance regression analysis
US10922062B2 (en) 2019-04-15 2021-02-16 Salesforce.Com, Inc. Software application optimization
WO2020220216A1 (en) 2019-04-29 2020-11-05 Splunk Inc. Search time estimate in data intake and query system
US11715051B1 (en) 2019-04-30 2023-08-01 Splunk Inc. Service provider instance recommendations using machine-learned classifications and reconciliation
US11907743B2 (en) * 2019-05-21 2024-02-20 Oracle International Corporation System and method for relocating customer virtual machine instances in a multi-tenant cloud service
US11494380B2 (en) 2019-10-18 2022-11-08 Splunk Inc. Management of distributed computing framework components in a data fabric service system
US11922222B1 (en) 2020-01-30 2024-03-05 Splunk Inc. Generating a modified component for a data intake and query system using an isolated execution environment image
JP2022066799A (ja) 2020-10-19 2022-05-02 株式会社日立製作所 管理装置、管理方法
US11704313B1 (en) 2020-10-19 2023-07-18 Splunk Inc. Parallel branch operation using intermediary nodes
US11803438B2 (en) * 2021-07-13 2023-10-31 Adp, Inc. Message call request data having error frequency metrics

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030055529A1 (en) * 2001-09-14 2003-03-20 Nec Corporation System for automatically changing computer system configuration
JP2004234263A (ja) * 2003-01-29 2004-08-19 Ricoh Co Ltd コンピュータ管理システム
CN1953391A (zh) * 2005-10-20 2007-04-25 联想(北京)有限公司 计算机管理系统以及计算机管理方法
EP2336890A1 (en) * 2008-09-30 2011-06-22 Hitachi, Ltd. Root cause analysis method targeting information technology (it) device not to acquire event information, device and program

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05114899A (ja) 1991-10-22 1993-05-07 Hitachi Ltd ネツトワーク障害診断方式
US7107185B1 (en) 1994-05-25 2006-09-12 Emc Corporation Apparatus and method for event correlation and problem reporting
US5680640A (en) 1995-09-01 1997-10-21 Emc Corporation System for migrating data by selecting a first or second transfer means based on the status of a data element map initialized to a predetermined state
US6487677B1 (en) * 1999-09-30 2002-11-26 Lsi Logic Corporation Methods and systems for dynamic selection of error recovery procedures in a managed device
US20040025077A1 (en) * 2002-07-31 2004-02-05 International Business Machines Corporation Method and apparatus for the dynamic tuning of recovery actions in a server by modifying hints and symptom entries from a remote location
JP4358034B2 (ja) * 2004-05-25 2009-11-04 富士通株式会社 監視システム
US7434099B2 (en) * 2004-06-21 2008-10-07 Spirent Communications Of Rockville, Inc. System and method for integrating multiple data sources into service-centric computer networking services diagnostic conclusions
US20100023798A1 (en) * 2008-07-25 2010-01-28 Microsoft Corporation Error recovery and diagnosis for pushdown automata
JP5215895B2 (ja) * 2009-02-04 2013-06-19 株式会社日立ソリューションズ 障害原因解析システム及びプログラム
EP2455863A4 (en) * 2009-07-16 2013-03-27 Hitachi Ltd MANAGEMENT SYSTEM FOR PROVIDING INFORMATION DESCRIBING A RECOVERY METHOD CORRESPONDING TO A FUNDAMENTAL CAUSE OF FAILURE
US8429455B2 (en) * 2010-07-16 2013-04-23 Hitachi, Ltd. Computer system management method and management system
JP5419819B2 (ja) * 2010-07-16 2014-02-19 株式会社日立製作所 計算機システムの管理方法、及び管理システム
JP5432867B2 (ja) 2010-09-09 2014-03-05 株式会社日立製作所 計算機システムの管理方法、及び管理システム
US8819220B2 (en) * 2010-09-09 2014-08-26 Hitachi, Ltd. Management method of computer system and management system
US8620921B1 (en) * 2011-01-28 2013-12-31 Netapp, Inc. Modeler for predicting storage metrics
US20140058717A1 (en) * 2012-08-24 2014-02-27 Hitachi, Ltd. Simulation system for simulating i/o performance of volume and simulation method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030055529A1 (en) * 2001-09-14 2003-03-20 Nec Corporation System for automatically changing computer system configuration
JP2004234263A (ja) * 2003-01-29 2004-08-19 Ricoh Co Ltd コンピュータ管理システム
CN1953391A (zh) * 2005-10-20 2007-04-25 联想(北京)有限公司 计算机管理系统以及计算机管理方法
EP2336890A1 (en) * 2008-09-30 2011-06-22 Hitachi, Ltd. Root cause analysis method targeting information technology (it) device not to acquire event information, device and program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018528529A (ja) * 2015-08-05 2018-09-27 フェイスブック,インク. コネクテッド・デバイスのルール・エンジン
CN110334813A (zh) * 2018-03-28 2019-10-15 株式会社日立制作所 运营管理方法及运营管理系统
CN110287052A (zh) * 2019-06-25 2019-09-27 深圳前海微众银行股份有限公司 一种异常任务的根因任务确定方法及装置
CN110287052B (zh) * 2019-06-25 2022-01-28 深圳前海微众银行股份有限公司 一种异常任务的根因任务确定方法及装置
CN112862420A (zh) * 2019-11-12 2021-05-28 株式会社野村综合研究所 管理系统
CN112862420B (zh) * 2019-11-12 2024-03-26 株式会社野村综合研究所 管理系统

Also Published As

Publication number Publication date
CN104272266B (zh) 2016-11-09
US9244800B2 (en) 2016-01-26
EP2808796A1 (en) 2014-12-03
WO2014033945A1 (ja) 2014-03-06
US20160103727A1 (en) 2016-04-14
JP5719974B2 (ja) 2015-05-20
JPWO2014033945A1 (ja) 2016-08-08
US20140068343A1 (en) 2014-03-06
EP2808796A4 (en) 2016-04-13

Similar Documents

Publication Publication Date Title
CN104272266B (zh) 对具有多个监视对象器件的计算机系统进行管理的管理系统
CN104583968B (zh) 管理系统及管理程序
CN106020715B (zh) 存储池容量管理
CN100428189C (zh) 在基于策略的系统管理中以n步前视来推理的系统
US6622221B1 (en) Workload analyzer and optimizer integration
CN102959522B (zh) 计算机系统的管理方法和管理系统
CN101425000B (zh) 性能履历的管理方法以及性能履历的管理系统
US9031914B2 (en) Tier-based data management
US20100058108A1 (en) Method for analyzing fault caused in virtualized environment, and management server
US9311176B1 (en) Evaluating a set of storage devices and providing recommended activities
CN102833281B (zh) 一种分布式自增计数的实现方法、装置及系统
CN103399781B (zh) 云服务器及其虚拟机管理方法
CN109284220A (zh) 集群故障恢复时长估算方法、装置、设备及存储介质
JP5672386B2 (ja) 計算機およびリソース検索方法
Di et al. Exploring properties and correlations of fatal events in a large-scale hpc system
CN107645410A (zh) 一种基于OpenStack云平台的虚拟机管理系统及方法
CN104035836A (zh) 集群检索平台中的自动容灾恢复方法及系统
CN109117421A (zh) 处理数据以提高数据的质量
JPWO2015040688A1 (ja) 計算機システムを管理する管理システム及びその管理方法
CN112035314A (zh) 内存泄漏的监控方法、装置及电子设备
CN103713990A (zh) 一种用于软件缺陷预测的方法和装置
JP2019121863A (ja) 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置
CN108055161A (zh) 一种组网优化方法及装置
CN110209558B (zh) 基于软件定义存储的智能运维方法和装置
JP5737789B2 (ja) 仮想マシン運用監視システム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant