CN102811137A - 监控装置、监控方法以及计算机系统 - Google Patents

监控装置、监控方法以及计算机系统 Download PDF

Info

Publication number
CN102811137A
CN102811137A CN201110149105XA CN201110149105A CN102811137A CN 102811137 A CN102811137 A CN 102811137A CN 201110149105X A CN201110149105X A CN 201110149105XA CN 201110149105 A CN201110149105 A CN 201110149105A CN 102811137 A CN102811137 A CN 102811137A
Authority
CN
China
Prior art keywords
value
fault
project
monitoring
master computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201110149105XA
Other languages
English (en)
Inventor
工藤裕
陈永军
徐以轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to CN201110149105XA priority Critical patent/CN102811137A/zh
Publication of CN102811137A publication Critical patent/CN102811137A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

一种在复原某故障时能够不给其他正在正常动作的部位带来不良影响地进行故障复原的监控装置、监控方法以及计算机系统。该计算机系统具备一个以上的主计算机以及与主计算机连接且具有控制部、存储器和接口的监控装置,主计算机具有通知单元,监控装置在存储器中存储了监控状态表、事件表、故障状态表以及故障关联表,接口接收错误消息并写入事件表,控制部根据事件表和故障关联表,确定一个以上的故障项目,针对每个故障项目计算第一值,控制部根据事件表和故障关联表生成故障监控关联表,针对每个故障项目计算第二值,控制部根据从第一值减去第二值后得到的值,决定主计算机中正在发生的故障的复原方法的优先度。

Description

监控装置、监控方法以及计算机系统
技术领域
本发明涉及一种监控装置、监控方法以及计算机系统,尤其涉及一种在复原某故障时能够不给其他正在正常动作的部位带来不良影响地进行故障复原的监控装置、监控方法以及计算机系统。
背景技术
在大规模信息处理计算机系统中,通常采用一种由多个服务器、监控计算机(Monitoring Computer)、网络设备等构成的常见的计算机系统,其中所述多个服务器包括网关服务器(GateWay Server)、网络服务器(webserver)、应用程序服务器(Application Server)、数据库服务器(DatabaseServer)等,所述网络设备包括路由器、网络集线器等。
在这样的计算机系统中,监控计算机负责对系统中各服务器或功能的状态进行监控,并针对监控得到的各种信息进行相应的处理。一般来讲,在各服务器一侧安装监控代理程序,当系统资源的状态产生了异常或者系统中的某些参数值超过了系统的预警设定时,该监控代理程序监测到系统中出现的问题并向监控计算机发出与该问题对应的事件信息。事件信息中包含监控项目、监控对象部位、监控状态以及事件发生时间等与该问题有关的详细信息,该事件信息可以是警告消息或错误消息等。
在监控计算机从某个服务器接受到事件信息后,会通过一个用户界面将该事件信息显示给操作者。这时,操作者需要找出可能的故障原因,并进行适当的操作以解决该事件,例如,对相应的服务器或功能进行重新启动,或者更换某些可能发生了故障的设备,或者通过某种方式(例如关闭一部分不太重要的进程)降低某系统资源的使用率等。
在以往,在产生了多个错误消息的情况下,操作者需要一个一个地处理错误消息,效率很低。因此,在下述专利文件1中公开了这样的技术方案:为了高效地实现错误复原,抑制因某装置的故障而必然引起的有关其他装置的故障的故障消息的相同输出,从而阻止故障消息的大量输出,根据系统的拓扑结构的上下关系或规定了故障的重要度及紧急度的消息级别的高低,仅输出成为故障的根本要因的一个故障消息,并对与该故障消息对应的故障进行复原。
专利文献1:日本特开平11-120036
但是,在上述以往技术中,在系统收到多个故障消息的情况下,考虑系统的拓扑结构的上下关系或者消息级别的重要度及紧急度而仅输出一个故障消息,在该情况下,虽然考虑了对该一个故障消息所对应的故障进行复原时给其他的故障部位带来的影响,但是没有考虑复原是否会对正在正常动作的部位造成影响,一旦开始上述故障部位的复原作业,就可能会给正在正常动作的部位带来不良影响。
发明内容
鉴于上述问题,本发明提供一种在复原某故障时能够不给其他正在正常动作的部位带来不良影响地进行故障复原的监控装置、监控方法以及计算机系统。
本发明提供一种计算机系统,具备一个以上的主计算机以及与所述主计算机连接且具有控制部、存储器和接口的监控装置,其特征在于,所述主计算机具有在发生了错误的情况下将该错误消息通知给所述监控装置的通知单元,所述监控装置在所述存储器中存储了监控状态表、事件表、故障状态表以及故障关联表,所述监控状态表规定了监控项目、监控对象部位和监控状态,所述事件表存放了所述监控状态表中所含的监控项目中发生了故障的监控项目,所述故障状态表规定了故障项目、故障部位和故障状态,所述故障关联表规定了所述监控项目与进行复原作业时会给该监控项目带来影响的故障项目之间的关系,所述接口接收来自所述主计算机的所述错误消息,并将该错误消息中所含的监控项目写入所述事件表,所述控制部根据所述事件表和所述故障关联表,确定与所述事件表的某一行的监控项目相对应的一个以上的故障项目,针对确定出的一个以上的故障项目中的每个故障项目,基于所述事件表中的规定行的监控项目,计算表示通过使该故障项目复原而能够解除的监控项目的数量来作为第一值,所述控制部根据所述事件表和所述故障关联表,生成规定了与故障项目对应的监控项目的关系的故障监控关联表,针对该故障监控关联表中每个故障项目,计算从该故障监控关联表的监控项目中减去了所述事件表中的规定行的监控项目后得到的监控项目的数量来作为第二值,所述控制部根据从所述第一值减去所述第二值后得到的值,决定所述主计算机中正在发生的故障的复原方法的优先度。
在所述计算机系统中,所述故障状态表中还包含故障历史记录,该故障历史记录规定了到目前为止在所述故障部位发生的错误的数量,所述控制部将在所述故障状态表中记载的所述故障历史记录作为第三值,根据从所述第一值和第三值之和中减去所述第二值后得到的值,决定所述主计算机中发生的故障的复原方法的优先度。
在所述计算机系统中,所述第一值、所述第二值以及所述第三值被分别设定了权重,所述控制部使所述第一值、所述第二值以及所述第三值分别乘以各自的权重,然后根据从乘以权重后的第一值和第三值之和中减去乘以权重后的第二值后得到的值,决定所述主计算机中发生的故障的复原方法的优先度。
在所述计算机系统中,按照所述优先度从高到低的顺序,使用GUI画面来显示故障项目以及与该故障项目对应的第一值、第二值以及第三值的信息,当操作者选择某一个故障项目所对应的第一值、第二值或第三值的信息时,向操作者显示相应的详细信息。
此外,本发明还提供一种监控装置,与一个以上的主计算机连接,所述主计算机具有在发生了错误的情况下将该错误消息通知给所述监控装置的通知单元,该监控装置具有控制部、存储器和接口,其特征在于,所述监控装置在所述存储器中存储了监控状态表、事件表、故障状态表以及故障关联表,所述监控状态表规定了监控项目、监控对象部位和监控状态,所述事件表存放了所述监控状态表中所含的监控项目中发生了故障的监控项目,所述故障状态表规定了故障项目、故障部位和故障状态,所述故障关联表规定了所述监控项目与在进行复原作业时会给该监控项目带来影响的故障项目之间的关系,所述接口接收来自所述主计算机的所述错误消息,将该错误消息中所含的监控项目写入所述事件表,所述控制部根据所述事件表和所述故障关联表,确定与所述事件表的某一行的监控项目相对应的一个以上的故障项目,针对确定出的一个以上的故障项目中的每个故障项目,基于所述事件表中的规定行的监控项目,计算表示通过使该故障项目复原而能够解除的监控项目的数量来作为第一值,所述控制部根据所述事件表和所述故障关联表,生成规定了与故障项目对应的监控项目的关系的故障监控关联表,针对该故障监控关联表中每个故障项目,计算从该故障监控关联表的监控项目中减去了所述事件表的规定行的监控项目后得到的监控项目的数量来作为第二值,所述控制部根据从所述第一值减去所述第二值后得到的值,决定所述主计算机中正在发生的故障的复原方法的优先度。
此外,本发明还提供一种监控方法,在包含一个以上的主计算机和与所述主计算机连接的监控装置的系统中被使用,所述主计算机具有在发生了错误的情况下将该错误消息通知给所述监控装置的通知单元,所述监控装置中存储了监控状态表、事件表故障状态表以及故障关联表,所述监控状态表规定了监控项目、监控对象部位和监控状态,所述事件表存放了所述监控状态表中所含的监控项目中发生了故障的监控项目,所述故障状态表规定了故障项目、故障部位和故障状态,所述故障关联表规定了所述监控项目与在进行复原作业时会给该监控项目带来影响的故障项目之间的关系,所述监控方法包括:接收步骤,当所述主计算机发生错误或警告时,所述监控装置接收来自所述主计算机的所述错误消息并将该错误消息中所含的监控项目写入所述事件表;第一值计算步骤,根据所述事件表和所述故障关联表,确定与所述事件表的某一行的监控项目相对应的一个以上的故障项目,针对确定出的一个以上的故障项目中的每个故障项目,基于所述事件表中的规定行的监控项目,计算表示通过使该故障项目复原而能够解除的监控项目的数量来作为第一值;第二值计算步骤,根据所述事件表和所述故障关联表,生成规定了与故障项目对应的监控项目的关系的故障监控关联表,针对该故障监控关联表中每个故障项目,计算从该故障监控关联表的监控项目中减去了所述事件表的规定行的监控项目后得到的监控项目的数量来作为第二值;以及决定步骤,根据从所述第一值减去所述第二值后得到的值,决定所述主计算机中正在发生的故障的复原方法的优先度。
本发明根据从第一值减去第二值后得到的值来决定故障复原的优先度,并且该第一值规定了在执行某故障复原时同时能够复原的其他的故障的数量,该第二值是表示在复原了故障部位的情况下给其他的正在正常动作的部位带来影响的指数。根据本发明,能够在进行多个故障的复原时尽可能地不给其他的正在正常动作的部位带来影响。
此外,本发明还可以根据从所述第一值和第三值之和中减去所述第二值后得到的值来决定故障复原的优先度,并且该第三值是规定了到目前为止在故障部位正在发生的错误的数量的故障的历史记录。因此,根据本发明,能够确定故障发生的概率高的部位,从而进行精度更高的故障复原。
此外,本发明还可以对所述第一值、所述第二值以及所述第三值分别设定权重,并且对乘以权重后的上述各值进行计算来确定故障复原的优先度。因此,根据本发明,系统管理者可以根据每个系统自身的具体情况来决定所述第一值、所述第二值以及所述第三值所占的权重,从而以更加符合系统管理者预期的故障复原的优先度进行故障复原。
附图说明
图1是表示本发明的第一实施方式的计算机系统的构成的图。
图2是表示本发明的监控计算机中的监控状态表的图。
图3是表示本发明的监控计算机中的事件表的图。
图4是表示本发明的监控计算机中的故障状态表的图。
图5是表示本发明的监控计算机中的故障关联表的图。
图6A和图6B是表示本发明的监控计算机中的故障监控关联表的图。
图7是表示本发明的第一实施方式的计算机系统确定故障复原优先度的流程图。
图8是表示与EventID=1的事件的监控项目相对应的各可能故障项目对于正在发生的事件的影响的图。
图9是表示与EventID=1的事件的监控项目相对应的各可能故障项目对正常监控项目的影响的图。
图10是表示与EventID=1的事件的监控项目相对应的各可能故障项目的优先度的图。
图11是表示本发明的第二实施方式中的故障状态表的图。
图12是表示本发明的第二实施方式的计算机系统确定故障复原优先度的流程图。
图13是表示本发明的第二实施方式的与EventID=1的事件的监控项目相对应的各可能故障项目的优先度的图。
图14是表示本发明的第三实施方式的与EventID=1的事件的监控项目相对应的各可能故障项目的优先度的图。
图15是显示故障项目以及与该故障项目对应的信息的GUI画面。
具体实施方式
第一实施方式
下面,参照图1对本发明的第一实施方式的计算机系统的构成进行说明。
该计算机系统中包括一个主计算机1001以及与主计算机1001连接的监控计算机(监控装置)1002,是用于对主计算机1001的工作状态进行监控的监控系统。主计算机1001和监控计算机1002除了具备普通计算机的构成之外,主计算机1001中还安装有在发生了错误的情况下将该错误消息通知给监控计算机1002的监控代理程序(monitoring agent)1003,监控计算机1002具有与实现监控功能有关的接口1004、控制器1005和存储器1006。监控代理程序1003相当于本发明中的通知单元。
接口1004用于进行与其他计算机之间的通信,可以通过事件接收程序(Event Receiver Program)等来接收来自其他计算机的事件信息。控制器1005用于控制与监控有关的各种处理。存储器1006中存储了监控状态表1007、事件表1008、故障状态表1009、故障关联表1010以及故障监控关联表1011。
图2中示出了监控状态表1007的内容。监控状态表1007中的每一行规定了安装在主计算机1001上的监控代理程序1003对某个资源的监控条件,每一行包括监控项目ID(MonitoringID)101、资源(ResourceName)102、属性(Property)103和监控条件(MonitoringCondition)104,其中资源102相当于本发明中的监控对象部位,属性103和监控条件104合在一起相当于本发明中的监控状态。例如,MonitoringID=1的资源是CPU,对CPU的使用率(Usage)是否是超过了阈值(threshold value)的状态进行监控;MonitoringID=4的资源102是SSH服务(SSH Service),对该服务是否是不可访问(is not accessible)的状态进行监控。
图3中示出了事件表1008的内容。该事件表1008中存放了监控状态表1007中所含的监控项目之中发生了故障的监控项目,事件表1008中的每一行包括事件ID(EventID)201、监控项目ID(MonitoringID)202、计算机名(Machine)203、资源(Resource)204和描述(Description)205。
监控代理程序1003根据图2中定义的监控条件104对主计算机1001中的各种资源进行监控,当监控代理程序1003发现了一个错误或警告时,监控代理程序产生一个事件信息,并向监控计算机1002发送该事件信息。在监控计算机1002的接1004接收到事件信息后,将该事件信息写入存储器1006的事件表1008中。在每个事件信息中包含一个监控项目ID202,由此来辨识是基于哪一个监控条件所产生的事件。
此外,基于一个监控条件可能会产生多个事件。例如图2中定义的MonitoringID=1的监控状态是资源CPU的使用率是否超过了阈值,当所述阈值规定了“80%”为警告阈值、“90%”为错误阈值的情况下,可能会在不同的时间点产生两个事件,一个事件是“CPU usage exceeds 80%”的警告事件,另一个事件是“CPU usage exceeds 90%”的错误事件。
图4中示出了故障状态表1009的内容。该故障状态表1009中规定了故障项目ID(TroubleID)301、故障资源(ResourceName)302、故障属性(Property)303、以及故障描述(TroubleDescription)304,其中故障资源302相当于本发明中的故障部位,故障属性303和故障描述304合在一起相当于本发明中的故障状态。故障状态表1009中列出的各故障项目示出了产生各事件的根本原因,例如,TroubleID=1的故障是表示故障资源LANAdaptor是无响应状态,TroubleID=2的故障是表示故障资源CPU的使用率超过了阈值,TroubleID=8的故障是表示故障资源Web Application已经停止。
图5中示出了故障关联表1010的内容。该故障关联表1010中规定了每个监控项目与在进行复原作业时会给该监控项目带来影响的故障项目之间的对应关系。该故障关联表1010中的每一行包括序号401、监控项目ID(MonitoringID)402和故障项目ID(TroubleID)403。例如,第六行表示导致MonitoringID=6的事件发生的可能故障有7种,分别是故障状态表1009中的TroubleID=1、2、3、4、5、8和9的故障,通过使TroubleID=1、2、3、4、5、8和9中的某一个故障复原,可能会消除与MonitoringID=6的监控项目有关的事件。
图6A及图6B中示出了两种故障监控关联表1011的内容。故障监控关联表1011中的每一行包括序号501、故障项目ID(TroubleID)502和监控项目ID(MonitoringID)503。例如,第一行表示在对TroubleID=1的事件进行复原作业时,可能会消除与MonitoringID=4、5、6和7的监控项目有关的事件,也可能对MonitoringID=4、5、6和7的监控项目所对应的资源造成影响。故障监视关联表1010中规定了每个故障项目与一个以上的监控项目之间的对应关系,图6A中定义了图5中的对应关系的反向关联(反向映射),因此可以根据故障关联表1010而生成如图6A所示的故障监控关联表1011,并预先存储在存储器1006中,然后在计算优先度的过程中直接提取必要的信息。
另外,也可以不预先存储故障监控关联表1011,而是根据事件表1008和故障关联表1010生成另一种故障监控关联表1011(例如图6B所示),与图6A相比较,此时生成的故障监控关联表1011不必包含所有的故障项目,只包含与对象事件对应的故障项目即可。关于图6B所示的故障监控关联表1011将在后面进行说明。
在本发明的实施例中,我们假定上述的监控状态表1007、事件表1008、故障状态表1009以及故障关联表1010是事先准备好并存储于存储器1006中的,而故障监控关联表1011是根据事件表1008和故障关联表1010而生成的。实际上,由于故障关联表1010和故障监控关联表1011中定义了相反的关联关系,因此也可以预先在存储器1006中存储故障监控关联表1011,在计算优先度的过程中直接提取必要的信息。
下面,参照图7对上述计算机系统的动作流程进行说明。
首先,监控计算机1002通过接口1004接收来自主机算机的错误消息,并将该错误消息中所含的与监控项目有关的信息写入事件表1008(步骤S11)。图3中示出了事件表1008中写入了4个新的事件的状态。下面说明针对事件表1008中的第一行的EventID=1的事件,如何确定故障复原的优先度。
接着,控制部1005根据事件表1008和故障关联表1010,确定与事件表1008中的规定行的监控项目相对应的故障项目(步骤S12)。即,根据事件表1008和故障关联表1010可知,事件表1008中第一行的事件与MonitoringID=6的监控项目相对应,并且该监控项目相对应的可能故障项目有7个,即TroubleID=1,2,3,4,5,8,9的故障项目。
接着,控制部1005计算通过使确定出的上述各故障项目复原而能够解除的监控项目的数量来作为第一值(步骤S13)。
在实际运行的系统中,当一个故障发生时可能会由此产生多个事件。监控计算机1002可能在某一时刻收到很多条的警告或错误信息。在计算可能的故障对于某个事件的影响时,需要对正在处理的事件以及正在处理的事件之后的几个事件进行影响分析,即,需要对事件表中正在处理的事件以及该正在处理的事件之后的规定行的事件进行影响分析。所述规定行的数值是系统中一个可修改的参数。我们设定这个参数为PROCESSEVENTNUM。若PROCESSEVENTNUM=1,则代表需要对正在处理的事件以及该正在处理的事件之后的1个事件进行影响分析。若PROCESSEVENTNUM=10,则代表需要对正在处理的事件以及该正在处理的事件之后的10个事件进行影响分析。若这个参数被设定的过大,则可能会使系统的计算处理负担过重,或超过系统的处理能力。如果这个数值过于小,则计算结果的准确度会受到影响,使系统无法获得正确性更高的故障复原的优先度。在实际的系统中,最好将PROCESSEVENTNUM设定为10或10以上的数值,例如PROCESSEVENTNUM=20、PROCESSEVENTNUM=50等,以保证系统可以获得正确性高的故障复原的优先度。在本实施方式中,为了简化说明,设定PROCESSEVENTNUM=1。
根据事件表1008和故障关联表1010可知,与事件表1008中第一行的事件的MonitoringID=6的监控项目相对应的可能故障项目有7个(TroubleID list=1,2,3,4,5,8,9),与事件表1008中第二行的事件的MonitoringID=7的监控项目相对应的可能故障项目有5个(TroubleID list=1,2,3,5,9)。基于这些数据可知,与EventID=1的事件的监控项目相对应的各故障项目对于各事件的影响如图8所示。
在图8中包括可能故障项目ID(Possible TroubleID)601、可能故障会影响到的事件(Possible Trouble’s impact on events)602和事件影响统计(Counter of impact on events)603,其中事件影响统计603的值是可能故障会影响到的事件的个数,表示了当该故障项目被复原后能够消除的监视项目的数量,该事件影响统计603的值相当于本发明中的第一值。
以图8中的第一行和第四行为例对故障项目所对应的第一值进行说明。关于图8中的第一行,由于在与EventID=1的事件中的MonitoringID=6的监控项目相对应的可能故障项目中以及与EventID=2的事件的MonitoringID=7的监控项目相对应的可能故障项目中都包括PossibleTroubleID=1的可能故障项目,因此通过复原Possible TroubleID=1的可能故障项目,能够消除EventID=1的事件的MonitoringID=6的监控项目和EventID=2的事件的MonitoringID=7的监控项目这2个监控项目(Counter ofimpact on events=2)。关于图8中的第四行,由于在与EventID=1的事件的MonitoringID=6的监控项目相对应的可能故障项目中包括了PossibleTroubleID=4的可能故障项目,但在与EventID=2的事件的MonitoringID=7的监控项目相对应的可能故障项目中不包括Possible TroubleID=4的可能故障项目,因此通过复原Possible TroubleID=4的可能故障项目仅能够消除EventID=1的事件的MonitoringID=6的监控项目这1个监控项目(Counter ofImpact on events=1)。
另外,图8中的故障项目ID中所包括的故障项目是与EventID=1的事件的监控项目对应的可能故障项目,即使与EventID=2的事件的监控项目相对应的可能故障项目中的包括了此外的其他故障项目,该其他故障项目也不会被考虑。例如,假设与EventID=2的事件的监控项目相对应的可能故障项目中还包括Possible TroubleID=6的可能故障项目,但由于该Possible TroubleID=6的可能故障项目没有包括在与EventID=1的事件的监控项目对应的可能故障项目中,因此不会在图8中追加关于PossibleTroubleID=6的可能故障项目的内容。
接着,控制部1005根据事件表1008和故障关联表1010,生成规定了与故障项目对应的监控项目的关系的故障监控关联表1011,针对该故障监控关联表1011中的每个故障项目,计算从该故障监控关联表1011的监控项目中减去了事件表1008中的上述规定行的监控项目后得到的监控项目的数量来作为第二值(步骤S14)。由于与事件表1008中第一行的事件的MonitoringID=6的监控项目相对应的可能故障项目有7个(TroubleID list=1,2,3,4,5,8,9),因此生成的图6B所示的故障监控关联表1011中只需要包含TroubleID=1,2,3,4,5,8,9的故障项目即可,不需要包含TroubleID=6,7的内容。
在进行故障对应时,应该尽量减少对正常运行中的系统的影响。当一个不正常的事件发生时,操作者需要进行相应的处理来解决该已经发生的事件。在存在多个应对方案时,一般优先选择对正在正常工作的系统影响比较小的处理方式来进行处理。例如对于事件表1008中的EventID=1的事件“Web Application is not accessible”,与其相对应的候选可能故障可能有多个:1:Web Application is down,2:Web Server is down,3:Operating Systemis down。对于“Web Application is down”这样的错误,一般采用重新启动Web Application服务的对策,对于“Web Server is down”这样的错误,一般采用重新启动Web Server的对策,对于“Operating System is down”这样的错误,一般采用重新启动Operating System的对策,这三种对策对于其他正常的监控项目的影响依次变大。如果不考虑其他的因素,为了尽可能地使故障处理对其他正常的监控项目有比较少的影响,应该按照1>2>3这样的优先顺序来进行处理。假如对“Web Application is down”进行对应之后就消除了系统的故障,则不必执行优先顺序更低的处理,从而避免了对其他正常的监控项目造成更大的影响。
图9中示出了可能故障对正常监控项目(Normal Monitoring)的影响。
图9中包括了可能故障项目ID(Possible TroubleID)701、可能故障对监控项目的影响(Impact on Monitoring)702、可能故障对正常监控项目的影响(Impact on Normal Monitoring)703和可能故障对正常监控项目的影响的统计(Counter of Impact on Normal Monitoring)704。
图9中的第一列和第二列是从故障监控关联表1011中选择出的与图8中的可能故障项目相对应的信息。第三列中示出的正常监控项目是从第二列的监控项目中去掉已经发生了异常的监控项目后的监控项目。第四列中示出的值是第三列中的监控项目的数量,该值作为上述第二值,表示了可能故障对正常监控项目的影响。
例如,根据故障监控关联表1011中的内容可知,在对Possible TroubleID=1的可能故障项目进行复原作业时,可能会对MonitoringID=4、5、6、7所对应的资源造成影响。但由于在进行上述第一值计算时已经知道MonitoringID=6、7的监控项目所对应的资源处于异常状态,因此除MonitoringID=6、7的监控项目之外的MonitoringID=4、5的监控项目所对应的资源可视为处于正常状态。即,若对Possible TroubleID=1的可能故障项目进行复原处理,则可能会给与MonitoringID=4、5有关的2个正在正常工作的资源带来影响。
接着,控制部1005根据从上述第一值减去上述第二值后得到的值(Counter1-Counter2),决定主计算机1002中可能正在发生的故障的复原方法的优先度。
上述第一值表示可能故障对发生的多个事件的影响,这对于决定优先度而言是一个正面的影响。上述第二值表示可能故障对正常的监控项目的影响,这对于决定优先度而言是一个负面的影响。因此,优先度是按照计算结果从大到小进行排列。
图10示出了与EventID=1的事件的MonitoringID=6的监控项目相对应的可能故障项目的优先度。如图10所示,控制部1005针对与EventID=1的事件的MonitoringID=6的监控项目相对应的7个可能故障项目801中的每一个,计算上述第一值(Counter1)802减去上述第二值(Counter2)803后得到的差值(Result)804,并按照该差值804,对各可能故障项目801的复原优先度(Priority)805进行排序。差值804越大,则表示通过对该故障项目进行复原能够消除的异常事件越多,且对正常动作的资源的影响越少,因此优先度805越高。
根据第一实施方式的技术方案,能够在进行多个故障的复原时尽可能地不给其他的正在正常动作的部位带来影响。
第二实施方式
第二实施方式的计算机系统的构成与图1所示的第一实施方式基本相同,但在第二实施方式的监控计算机1002的故障状态表1009中,如图11所示,不仅存储了故障项目ID301、故障资源302、故障属性303以及故障描述304,还存储了表示该故障在以前发生的次数的故障历史记录(Historical Counter)305。如果一个故障在以前发生了很多次,那么一般来讲,该故障在以后发生的概率也会比较高。因此在考虑故障处理的优先度时,故障历史记录对于决定优先度而言是一个正面的影响。即,故障历史记录越多,该故障的复原优先度应该越高。
因此,在第二实施方式中,如图12所示,在步骤S13后,控制部1005将在故障状态表1009中记载的故障历史记录305作为第三值806(步骤S16),根据从上述第一值和上述第三值之和中减去上述第二值后得到的值(Counter1-Counter2+Counter3)804,决定主计算机1001中发生的故障的复原方法的优先度805(步骤S15)。
此外,在故障复原处理结束后,需要更新故障状态表1009中相应地故障历史记录305的值。
如图13所示,在考虑了图11中所示的各故障的故障历史记录305的条件下,Possible TroubleID=8的故障项目由于在以前发生故障的次数较多,根据第二实施方式的计算结果从大到小的顺序,成为了复原处理的优先度最高的故障项目。
根据第二实施方式的技术方案,除了能够获得与第一实施方式相同的技术效果之外,还能够确定故障发生的概率高的部位,从而进行精度更高的故障复原。
第三实施方式
第三实施方式的计算机系统的构成与图1所示的第一实施方式和第二实施方式基本相同,但在第三实施方式中计算复原各故障的优先度时,不仅对各值进行加减运算,还根据系统的实际情况对这两个值的权重(Ratio)进行设定。即,如图14所示,根据从乘以权重后的第一值和第三值之和中减去乘以权重后的第二值后得到的值(Counter1×Ratio1-Counter2×Ratio2+Counter3×Ratio3)804,决定所述主计算机中发生的故障的复原方法的优先度805。
假设在第二实施方式中存在这样的情况:虽然Possible TroubleID=8的故障项目在以前发生故障的次数较多,但实际上该故障项目对整个系统的影响很小,而Possible TroubleID=9的故障项目虽然在以前发生故障的次数没有Possible TroubleID=8的故障项目多,但对于整个系统而言更加重要,此时显然需要在Possible TroubleID=8的故障项目的复原之前进行PossibleTroubleID=9的故障项目的复原。在该情况下,系统的管理人员可以将第一值和第二值的权重设为较大的值且将第三值的权重设为较小的值,由此获得更加符合实际需要的优先度。例如,在这三个数值各自所占权重分别为Ratio1=50%,Ratio2=40%,Ratio3=10%的情况下,计算结果如图14所示。
针对事件表1008中所示的EventID=1的事件,系统对操作者提示的故障对应优先顺序如下:
1)TroubleID 9,Web Server Down
2)TroubleID 8,Web Application Down
3)TroubleID 3,Memory’s Usage has exceeded the threshold value
…。
根据第三实施方式的技术方案,除了能够获得与第一实施方式或第二实施方式相同的技术效果之外,还系统管理者可以根据每个系统自身的具体情况来决定所述第一值、所述第二值以及所述第三值所占的权重,从而以更加符合系统管理者预期的故障复原的优先度进行故障复原。
其他实施方式
上述实施方式中所记载的具体内容并不是用于限定本发明的范围,在不脱离本发明的技术构思的情况下,本发明可以作出各种变更。
在上述各实施方式中,在通过上述各实施方式决定出优先度从高到低的顺序之后,可以使用GUI画面来显示故障项目以及与该故障项目对应的第一值、第二值以及第三值的信息,当操作者选择某一个第一值、第二值或第三值的信息时,向操作者显示相应的详细信息。
如图15所示,针对事件表中EventID=1的事件,示出了各可能故障的复原优先度。而且,在操作者选择了优先度最高的故障项目的第一值信息时,显示该第一值信息所代表的详细信息,即,当该故障项目被复原后能够消除的2个监视项目的具体信息。
此外,为了简化说明,各实施方式中公开了仅包括一个主计算机和一个监控计算机的计算机系统,但根据实际需要,该计算机系统中可以包括两个以上的主计算机,还可以包括两个以上的监控装置。
此外,图8、图9、图10、图13和图14中的内容是为了清楚地说明计算优先度的过程而示出的中间结果或最终结果,上述结果可以仅保存在监控计算机1002的控制部中,在针对某一事件的故障复原的优先度计算完成后或在优先度结果显示完成后进行删除。除此之外,当然也可以将图8、图9、图10、图13和图14中的部分或全部内容存储在监控计算机1002的存储器1006中,虽然这样会导致存储器的容量增加,但可以在以后遇到相同的事件时提高计算的速度。
此外,第三实施方式中举出了对第一值、第二值和第三值设定不同的权重的例子,也可以根据系统管理人员的需要将其中的某两个设为相等的值,例如,将第一值和第二值设为40%,将第三值设为20%。另外,也可以在第一实施方式的基础之上实施第三实施方式。即,在不使用第三值的情况下,可以仅对第一值和第二值设定不同的权重,例如,将第一值设为60%,将第二值设为40%。
另外,为了使监控计算机的结构更加简化,本发明的第二实施方式中采用了在故障状态表1009中追加记录故障历史记录的方式,而在实际的系统中,可以专门设置一个历史数据表。该历史数据表中除了记载故障历史记录之外,还可以记录有关故障的发生时间、具体内容、处理经过等的详细内容。

Claims (12)

1.一种计算机系统,具备一个以上的主计算机以及与所述主计算机连接且具有控制部、存储器和接口的监控装置,其特征在于,
所述主计算机具有在发生了错误的情况下将该错误消息通知给所述监控装置的通知单元,
所述监控装置在所述存储器中存储了监控状态表、事件表、故障状态表以及故障关联表,所述监控状态表规定了监控项目、监控对象部位和监控状态,所述事件表存放了所述监控状态表中所含的监控项目中发生了故障的监控项目,所述故障状态表规定了故障项目、故障部位和故障状态,所述故障关联表规定了所述监控项目与进行复原作业时会给该监控项目带来影响的故障项目之间的关系,
所述接口接收来自所述主计算机的所述错误消息,并将该错误消息中所含的监控项目写入所述事件表,
所述控制部根据所述事件表和所述故障关联表,确定与所述事件表的某一行的监控项目相对应的一个以上的故障项目,针对确定出的一个以上的故障项目中的每个故障项目,基于所述事件表中的规定行的监控项目,计算表示通过使该故障项目复原而能够解除的监控项目的数量来作为第一值,
所述控制部根据所述事件表和所述故障关联表,生成规定了与故障项目对应的监控项目的关系的故障监控关联表,针对该故障监控关联表中每个故障项目,计算从该故障监控关联表的监控项目中减去了所述事件表中的规定行的监控项目后得到的监控项目的数量来作为第二值,
所述控制部根据从所述第一值减去所述第二值后得到的值,决定所述主计算机中正在发生的故障的复原方法的优先度。
2.如权利要求1所述的计算机系统,其特征在于,
所述故障状态表中还包含故障历史记录,该故障历史记录规定了到目前为止在所述故障部位发生的错误的数量,
所述控制部将在所述故障状态表中记载的所述故障历史记录作为第三值,根据从所述第一值和第三值之和中减去所述第二值后得到的值,决定所述主计算机中发生的故障的复原方法的优先度。
3.如权利要求2所述的计算机系统,其特征在于,
所述第一值、所述第二值以及所述第三值被分别设定了权重,
所述控制部使所述第一值、所述第二值以及所述第三值分别乘以各自的权重,然后根据从乘以权重后的第一值和第三值之和中减去乘以权重后的第二值后得到的值,决定所述主计算机中发生的故障的复原方法的优先度。
4.如权利要求3中任一项所述的计算机系统,其特征在于,
按照所述优先度从高到低的顺序,使用GUI画面来显示故障项目以及与该故障项目对应的第一值、第二值以及第三值的信息,
当操作者选择某一个故障项目所对应的第一值、第二值或第三值的信息时,向操作者显示相应的详细信息。
5.一种监控装置,与一个以上的主计算机连接,所述主计算机具有在发生了错误的情况下将该错误消息通知给所述监控装置的通知单元,该监控装置具有控制部、存储器和接口,其特征在于,
所述监控装置在所述存储器中存储了监控状态表、事件表、故障状态表以及故障关联表,所述监控状态表规定了监控项目、监控对象部位和监控状态,所述事件表存放了所述监控状态表中所含的监控项目中发生了故障的监控项目,所述故障状态表规定了故障项目、故障部位和故障状态,所述故障关联表规定了所述监控项目与在进行复原作业时会给该监控项目带来影响的故障项目之间的关系,
所述接口接收来自所述主计算机的所述错误消息,将该错误消息中所含的监控项目写入所述事件表,
所述控制部根据所述事件表和所述故障关联表,确定与所述事件表的某一行的监控项目相对应的一个以上的故障项目,针对确定出的一个以上的故障项目中的每个故障项目,基于所述事件表中的规定行的监控项目,计算表示通过使该故障项目复原而能够解除的监控项目的数量来作为第一值,
所述控制部根据所述事件表和所述故障关联表,生成规定了与故障项目对应的监控项目的关系的故障监控关联表,针对该故障监控关联表中每个故障项目,计算从该故障监控关联表的监控项目中减去了所述事件表的规定行的监控项目后得到的监控项目的数量来作为第二值,
所述控制部根据从所述第一值减去所述第二值后得到的值,决定所述主计算机中正在发生的故障的复原方法的优先度。
6.如权利要求5所述的监控装置,其特征在于,
所述故障状态表中还包含故障历史记录,该故障历史记录规定了到目前为止在所述故障部位发生的错误的数量,
所述控制部将在所述故障状态表中记载的所述故障历史记录作为第三值,根据从所述第一值和第三值之和中减去所述第二值后得到的值,决定所述主计算机中发生的故障的复原方法的优先度。
7.如权利要求4所述的监控装置,其特征在于,
所述第一值、所述第二值以及所述第三值被分别设定了权重,
所述控制部使所述第一值、所述第二值以及所述第三值分别乘以各自的权重,然后根据从乘以权重后的第一值和第三值之和中减去乘以权重后的第二值后得到的值,决定所述主计算机中发生的故障的复原方法的优先度。
8.如权利要求7中任一项所述的监控装置,其特征在于,
按照所述优先度从高到低的顺序,使用GUI画面来显示故障项目以及与该故障项目对应的第一值、第二值以及第三值的信息,
当操作者选择某一个故障项目所对应的第一值、第二值或第三值的信息时,向操作者显示相应的详细信息。
9.一种监控方法,在包含一个以上的主计算机和与所述主计算机连接的监控装置的系统中被使用,
所述主计算机具有在发生了错误的情况下将该错误消息通知给所述监控装置的通知单元,所述监控装置中存储了监控状态表、事件表故障状态表以及故障关联表,所述监控状态表规定了监控项目、监控对象部位和监控状态,所述事件表存放了所述监控状态表中所含的监控项目中发生了故障的监控项目,所述故障状态表规定了故障项目、故障部位和故障状态,所述故障关联表规定了所述监控项目与在进行复原作业时会给该监控项目带来影响的故障项目之间的关系,
所述监控方法包括:
接收步骤,当所述主计算机发生错误或警告时,所述监控装置接收来自所述主计算机的所述错误消息并将该错误消息中所含的监控项目写入所述事件表;
第一值计算步骤,根据所述事件表和所述故障关联表,确定与所述事件表的某一行的监控项目相对应的一个以上的故障项目,针对确定出的一个以上的故障项目中的每个故障项目,基于所述事件表中的规定行的监控项目,计算表示通过使该故障项目复原而能够解除的监控项目的数量来作为第一值;
第二值计算步骤,根据所述事件表和所述故障关联表,生成规定了与故障项目对应的监控项目的关系的故障监控关联表,针对该故障监控关联表中每个故障项目,计算从该故障监控关联表的监控项目中减去了所述事件表的规定行的监控项目后得到的监控项目的数量来作为第二值;
决定步骤,根据从所述第一值减去所述第二值后得到的值,决定所述主计算机中正在发生的故障的复原方法的优先度。
10.如权利要求9所述的监控方法,其特征在于,
所述故障状态表中还包含故障历史记录,该故障历史记录规定了到目前为止在所述故障部位发生的错误的数量,
在所述决定步骤之前,还包括将在所述故障状态表中记载的所述故障历史记录作为第三值的第三值确定步骤,
在所述决定步骤中,根据从所述第一值和第三值之和中减去所述第二值后得到的值,决定所述主计算机中发生的故障的复原方法的优先度。
11.如权利要求10所述的监控方法,其特征在于,
所述第一值、所述第二值以及所述第三值被分别设定了权重,
在所述决定步骤中,使所述第一值、所述第二值以及所述第三值分别乘以各自的权重,然后根据从乘以权重后的第一值和第三值之和中减去乘以权重后的第二值后得到的值,决定所述主计算机中发生的故障的复原方法的优先度。
12.如权利要求11中任一项所述的监控方法,其特征在于,
在所述决定步骤之后,按照所述优先度从高到低的顺序,使用GUI画面来显示故障项目以及与该故障项目对应的第一值、第二值以及第三值的信息,
当操作者选择某一个故障项目所对应的第一值、第二值或第三值的信息时,向操作者显示相应的详细信息。
CN201110149105XA 2011-06-03 2011-06-03 监控装置、监控方法以及计算机系统 Pending CN102811137A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110149105XA CN102811137A (zh) 2011-06-03 2011-06-03 监控装置、监控方法以及计算机系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110149105XA CN102811137A (zh) 2011-06-03 2011-06-03 监控装置、监控方法以及计算机系统

Publications (1)

Publication Number Publication Date
CN102811137A true CN102811137A (zh) 2012-12-05

Family

ID=47234724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110149105XA Pending CN102811137A (zh) 2011-06-03 2011-06-03 监控装置、监控方法以及计算机系统

Country Status (1)

Country Link
CN (1) CN102811137A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034415A (zh) * 2018-07-20 2018-12-18 郑州云海信息技术有限公司 一种自学习的故障处理方法、装置及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040105390A1 (en) * 2001-05-28 2004-06-03 Nokia Corporation Method and system for implementing a fast recovery process in a local area network
US20060265182A1 (en) * 2005-05-23 2006-11-23 Yokogawa Electric Corporation Process abnormal condition recovering operation supporting system
CN101431428A (zh) * 2007-11-09 2009-05-13 中国电信股份有限公司 安全监控服务恢复方法及系统
CN101471808A (zh) * 2007-12-26 2009-07-01 英业达股份有限公司 一种群集储存系统的报警显示系统及方法
WO2010137063A1 (ja) * 2009-05-26 2010-12-02 株式会社日立製作所 管理サーバ及び管理システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040105390A1 (en) * 2001-05-28 2004-06-03 Nokia Corporation Method and system for implementing a fast recovery process in a local area network
US20060265182A1 (en) * 2005-05-23 2006-11-23 Yokogawa Electric Corporation Process abnormal condition recovering operation supporting system
CN101431428A (zh) * 2007-11-09 2009-05-13 中国电信股份有限公司 安全监控服务恢复方法及系统
CN101471808A (zh) * 2007-12-26 2009-07-01 英业达股份有限公司 一种群集储存系统的报警显示系统及方法
WO2010137063A1 (ja) * 2009-05-26 2010-12-02 株式会社日立製作所 管理サーバ及び管理システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034415A (zh) * 2018-07-20 2018-12-18 郑州云海信息技术有限公司 一种自学习的故障处理方法、装置及系统

Similar Documents

Publication Publication Date Title
KR101856543B1 (ko) 인공지능 기반의 장애 예측 시스템
US8645769B2 (en) Operation management apparatus, operation management method, and program storage medium
CN102129372B (zh) 通过事件相关来进行根本原因问题标识
Zheng et al. Co-analysis of RAS log and job log on Blue Gene/P
JP5267736B2 (ja) 障害検出装置、障害検出方法およびプログラム記録媒体
US20090249129A1 (en) Systems and Methods for Managing Multi-Component Systems in an Infrastructure
JP2010526352A (ja) 統計的な分析を利用した性能障害管理システム及びその方法
US20140172371A1 (en) Adaptive fault diagnosis
CN101399883A (zh) 异常监测管理方法及装置
CN112380089A (zh) 一种数据中心监控预警方法及系统
CN111857555A (zh) 避免磁盘阵列的故障事件的方法、设备和程序产品
JP2007249373A (ja) 分散型プログラムの監視システム
CN111476381A (zh) 基于国产化信息技术创新应用系统运维服务的方法和系统
US10691522B2 (en) System and method for incident root cause analysis
CN109271270A (zh) 存储系统中底层硬件的故障排除方法、系统及相关装置
JP5995265B2 (ja) 情報処理システム、保守方法及びプログラム
CN102006190A (zh) 一种高可用集群备份系统及其备份方法
CN102811137A (zh) 监控装置、监控方法以及计算机系统
CN114915541B (zh) 系统故障排除方法及装置、电子设备及存储介质
JP5126137B2 (ja) ネットワーク管理システム及びプログラム
CN106953759B (zh) 集群控制方法和集群控制设备
CN111444032A (zh) 一种计算机系统故障修复方法、系统及设备
JP2000293451A (ja) 分散データ配信管理システムおよび配信監視方法
JP5068351B2 (ja) ネットワーク評価システム、ネットワーク評価方法、及びプログラム
JP3479288B2 (ja) リモート診断保守方式,方法,およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20121205