JP2021117547A - Failure analysis device, multi-cluster system, failure analysis program and failure analysis method - Google Patents

Failure analysis device, multi-cluster system, failure analysis program and failure analysis method Download PDF

Info

Publication number
JP2021117547A
JP2021117547A JP2020008644A JP2020008644A JP2021117547A JP 2021117547 A JP2021117547 A JP 2021117547A JP 2020008644 A JP2020008644 A JP 2020008644A JP 2020008644 A JP2020008644 A JP 2020008644A JP 2021117547 A JP2021117547 A JP 2021117547A
Authority
JP
Japan
Prior art keywords
cluster
state
time
screen
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020008644A
Other languages
Japanese (ja)
Inventor
直樹 松本
Naoki Matsumoto
直樹 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2020008644A priority Critical patent/JP2021117547A/en
Publication of JP2021117547A publication Critical patent/JP2021117547A/en
Pending legal-status Critical Current

Links

Images

Abstract

To provide a failure analysis device that identifies the cause of a failure when the failure occurs in a multi-cluster system during an operation of a console device.SOLUTION: In a multi-cluster system, a failure analysis device 40 includes a first determination unit 405 and a second determination unit 406. The first determination unit determines, with respect to the input operation performed on a console device 30 via an input screen 309, whether or not a cluster state of a cluster at the time of an input operation and a cluster state of a cluster 10 on the input screen match. If the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match, the second determination unit determines whether the input operation corresponds to a prohibited operation for the cluster state of the cluster at the time of the operation.SELECTED DRAWING: Figure 2

Description

本発明は、障害解析装置、マルチクラスタシステム、障害解析プログラムおよび障害解析方法に関する。 The present invention relates to a fault analysis device, a multi-cluster system, a fault analysis program, and a fault analysis method.

近年、複数のサーバ装置(以下、単にクラスタという)と、SVPM(SerVice Platform Manager)と、コンソール装置とを備えるマルチクラスタシステムが知られている。 In recent years, a multi-cluster system including a plurality of server devices (hereinafter, simply referred to as a cluster), an SVPM (SerVice Platform Manager), and a console device has been known.

コンソール装置では、クラスタの運用管理および監視制御を実施する過程で発生した障害原因を調査するために、コンソール装置のCPU使用率やプロセス状態の履歴を示す「コンソール内部状態ログ」、および、実際のクラスタ状態の変化履歴を示す「クラスタ状態変化ログ」を保存している。 In the console device, in order to investigate the cause of the failure that occurred in the process of performing cluster operation management and monitoring control, the "console internal status log" that shows the CPU usage rate and process status history of the console device, and the actual console device The "cluster status change log" that shows the change history of the cluster status is saved.

さらに、コンソール装置は、操作者がコンソール装置で行なった操作の履歴を残すために、「操作履歴を残すログ(操作ログ)」を保存している。なお、どのような画面表示の状態に操作が行なわれたかの調査を可能とする為、「画面」のキャプチャやビデオ撮影を実施する場合もある。 Further, the console device stores a "log (operation log) for leaving an operation history" in order to record a history of operations performed by the operator on the console device. In addition, in order to enable investigation of what kind of screen display state the operation was performed on, "screen" capture or video recording may be performed.

操作者が操作を行なった操作時のコンソール装置の画面に表示された情報をハッシュ値として保存する技術が知られている(下記特許文献1,2)。 A technique for storing information displayed on the screen of a console device at the time of an operation performed by an operator as a hash value is known (Patent Documents 1 and 2 below).

特開2009−246750号公報JP-A-2009-246750 国際公開第2016/051479号International Publication No. 2016/051479

このような従来のマルチクラスタシステムにおいて、コンソール装置がクラスタに対する操作を実行中に障害が発生することがあり、下記の問題が生じる場合がある。 In such a conventional multi-cluster system, a failure may occur while the console device is performing an operation on the cluster, which may cause the following problems.

コンソール装置内部の負荷が高い時などは、クラスタ状態をコンソール装置の画面上に反映する描画処理に遅延が生じ、実際のクラスタ状態と画面上のクラスタ状態とが一致しない現象が発生する。この現象下で、操作者が、画面上に表示された、実際のクラスタ状態ではない古いクラスタ状態に基づいて操作を行なうと、画面上のクラスタ状態に対しては適切な操作であっても、実際のクラスタ状態に対しては実行することができない操作を行なうこととなる場合がある。そして、このような操作により障害が発生した場合、従来のマルチクラスタシステムでは、描画遅延が発生したというイベントは保存されていないため、従来保存している「クラスタ状態変化ログ」および「操作ログ」に基づいて障害の原因を解析する。このため、上記ログを時系列に見ると、操作者は、画面上の表示に基づいて適切な操作を行なったにも関わらず、不適切な操作をしたと判断されてしまうという問題がある。 When the load inside the console device is high, the drawing process that reflects the cluster state on the screen of the console device is delayed, and the actual cluster state and the cluster state on the screen do not match. Under this phenomenon, if the operator performs an operation based on the old cluster state displayed on the screen, which is not the actual cluster state, even if the operation is appropriate for the cluster state on the screen, In some cases, operations that cannot be performed on the actual cluster state may be performed. When a failure occurs due to such an operation, the conventional multi-cluster system does not save the event that the drawing delay has occurred, so the "cluster state change log" and "operation log" that have been saved in the past are not saved. Analyze the cause of the failure based on. Therefore, when the above logs are viewed in chronological order, there is a problem that the operator is determined to have performed an inappropriate operation even though he / she has performed an appropriate operation based on the display on the screen.

さらに、描画処理の遅延の有無に関わらず、操作中に発生した障害が、操作に起因する障害であるか、あるいは、クラスタ内部に閉じた障害であるか判断するのが困難という問題がある。 Further, there is a problem that it is difficult to determine whether the failure generated during the operation is a failure caused by the operation or a failure closed inside the cluster regardless of whether or not the drawing process is delayed.

従来の保存情報では、操作時に、実際のクラスタ状態と画面上に表示されたクラスタ状態とが同一であったか否かの判定、および、発生した障害が操作起因であるか否かの判定をすることはできない。 In the conventional stored information, at the time of operation, it is determined whether or not the actual cluster state and the cluster state displayed on the screen are the same, and whether or not the generated failure is caused by the operation. Can't.

1つの側面では、本発明は、コンソール装置の操作中にマルチクラスタシステムに障害が発生した場合に、障害の原因を特定することを目的とする。 In one aspect, the present invention aims to identify the cause of a failure if the multi-cluster system fails during the operation of the console device.

このため、この障害解析装置は、コンソール装置において入力画面を介して行なわれた入力操作について、前記入力操作時のクラスタのクラスタ状態と、前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定する第1判定部と、入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致する場合には、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する第2判定部とを備える。 Therefore, in this fault analysis device, whether or not the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match with respect to the input operation performed via the input screen in the console device. When the first determination unit for determining whether or not the input operation matches the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen, the input operation is the cluster of the cluster at the time of the operation. It is provided with a second determination unit that determines whether or not it corresponds to a prohibited operation for a state.

一実施形態によれば、コンソール装置の操作中にマルチクラスタシステムに発生した障害の原因を特定することができる。 According to one embodiment, the cause of the failure that occurred in the multi-cluster system during the operation of the console device can be identified.

実施形態の一例としてのマルチクラスタシステムの構成を示す図である。It is a figure which shows the structure of the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムの機能構成を示す図である。It is a figure which shows the functional structure of the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムのクラスタ状態変化ログを例示する図である。It is a figure which illustrates the cluster state change log of the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムの画面ハッシュ値付き操作ログを例示する図である。It is a figure which illustrates the operation log with the screen hash value of the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムのクラスタ状態エラーリストを例示する図である。It is a figure which illustrates the cluster state error list of the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムのクラスタ状態変化完了リストを例示する図である。It is a figure which illustrates the cluster state change completion list of the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムのクラスタ状態対応テーブルを例示する図である。It is a figure which illustrates the cluster state correspondence table of the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムの中間テーブルAを例示する図である。It is a figure which illustrates the intermediate table A of the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムの中間テーブルBを例示する図である。It is a figure which illustrates the intermediate table B of the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムの解析テーブルを例示する図である。It is a figure which illustrates the analysis table of the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムの操作種別エラーテーブルを例示する図である。It is a figure which illustrates the operation type error table of the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムのコンソール装置における画面ハッシュ値付き操作ログを取得する処理を説明するためのフローチャートである。It is a flowchart for demonstrating the process of acquiring the operation log with the screen hash value in the console device of the multi-cluster system as an example of embodiment. 実施形態の一例としてのマルチクラスタシステムの障害解析装置における障害を特定する処理を説明するための図である。It is a figure for demonstrating the process which identifies the failure in the failure analysis apparatus of the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムにおける4つのパターンの障害原因を例示する図である。It is a figure which illustrates the failure cause of four patterns in the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムにおける障害原因パターン1を特定する処理を説明する図である。It is a figure explaining the process of specifying the failure cause pattern 1 in the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムにおける障害原因パターン1を特定する処理を説明する図である。It is a figure explaining the process of specifying the failure cause pattern 1 in the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムにおける障害原因パターン1を特定する処理を説明する図である。It is a figure explaining the process of specifying the failure cause pattern 1 in the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムにおける障害原因パターン1を特定する処理を説明する図である。It is a figure explaining the process of specifying the failure cause pattern 1 in the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムにおける障害原因パターン2を特定する処理を説明する図である。It is a figure explaining the process of specifying the failure cause pattern 2 in the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムにおける障害原因パターン2を特定する処理を説明する図である。It is a figure explaining the process of specifying the failure cause pattern 2 in the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムにおける障害原因パターン2を特定する処理を説明する図である。It is a figure explaining the process of specifying the failure cause pattern 2 in the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムにおける障害原因パターン2を特定する処理を説明する図である。It is a figure explaining the process of specifying the failure cause pattern 2 in the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムにおける障害原因パターン2を特定する処理を説明する図である。It is a figure explaining the process of specifying the failure cause pattern 2 in the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムにおける障害原因パターン3を特定する処理を説明する図である。It is a figure explaining the process of specifying the failure cause pattern 3 in the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムにおける障害原因パターン3を特定する処理を説明する図である。It is a figure explaining the process of specifying the failure cause pattern 3 in the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムにおける障害原因パターン3を特定する処理を説明する図である。It is a figure explaining the process of specifying the failure cause pattern 3 in the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムにおける障害原因パターン3を特定する処理を説明する図である。It is a figure explaining the process of specifying the failure cause pattern 3 in the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムにおける障害原因パターン3を特定する処理を説明する図である。It is a figure explaining the process of specifying the failure cause pattern 3 in the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムにおける障害原因パターン3を特定する処理を説明する図である。It is a figure explaining the process of specifying the failure cause pattern 3 in the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムにおける障害原因パターン4を特定する処理を説明する図である。It is a figure explaining the process of specifying the failure cause pattern 4 in the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムにおける障害原因パターン4を特定する処理を説明する図である。It is a figure explaining the process of specifying the failure cause pattern 4 in the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムにおける障害原因パターン4を特定する処理を説明する図である。It is a figure explaining the process of specifying the failure cause pattern 4 in the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムにおける障害原因パターン4を特定する処理を説明する図である。It is a figure explaining the process of specifying the failure cause pattern 4 in the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムにおける障害原因パターン4を特定する処理を説明する図である。It is a figure explaining the process of specifying the failure cause pattern 4 in the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムにおける障害原因パターン4を特定する処理を説明する図である。It is a figure explaining the process of specifying the failure cause pattern 4 in the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムのコンソール装置のハードウェア構成を例示する図である。It is a figure which illustrates the hardware configuration of the console apparatus of the multi-cluster system as an example of an embodiment. 実施形態の一例としてのマルチクラスタシステムの障害解析装置のハードウェア構成を例示する図である。It is a figure which illustrates the hardware configuration of the fault analysis apparatus of the multi-cluster system as an example of an embodiment.

以下、図面を参照して本マルチクラスタシステム,障害解析装置,障害解析方法および障害解析プログラムに係る実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。 Hereinafter, embodiments relating to the multi-cluster system, the fault analysis device, the fault analysis method, and the fault analysis program will be described with reference to the drawings. However, the embodiments shown below are merely examples, and there is no intention of excluding the application of various modifications and techniques not specified in the embodiments. That is, the present embodiment can be variously modified and implemented within a range that does not deviate from the purpose. Further, each figure does not mean that it includes only the components shown in the figure, but may include other functions and the like.

(A)構成
[マルチクラスタシステム1の構成]
図1は、実施形態の一例としてのマルチクラスタシステム1の構成を模式的に示す図である。
(A) Configuration [Configuration of multi-cluster system 1]
FIG. 1 is a diagram schematically showing a configuration of a multi-cluster system 1 as an example of an embodiment.

図1に例示するマルチクラスタシステム1は、複数(図1に示す例では2つ)のクラスタ10−1,10−2と、SVPM20と、コンソール装置30と、障害解析装置40とを備える。 The multi-cluster system 1 illustrated in FIG. 1 includes a plurality of clusters 10-1 and 10-2 (two in the example shown in FIG. 1), an SVPM 20, a console device 30, and a failure analysis device 40.

クラスタ10−1,10−2、SVPM20およびコンソール装置30は、ネットワーク50を介して相互に通信可能に構成されている。ネットワーク50は、例えばLAN(Local Area Network)である。 The clusters 10-1, 10-2, SVPM20, and console device 30 are configured to be able to communicate with each other via the network 50. The network 50 is, for example, a LAN (Local Area Network).

障害解析装置40は、ネットワーク50には接続されていないが、図37を用いて後述するネットワークIF部4004または機器接続IF部4007を介して、コンソール装置と接続可能である。 Although the fault analysis device 40 is not connected to the network 50, it can be connected to the console device via the network IF unit 4004 or the device connection IF unit 4007, which will be described later with reference to FIG. 37.

クラスタ10−1,10−2は、例えばサーバコンピュータである。 Clusters 10-1 and 10-2 are, for example, server computers.

なお、以下、クラスタを示す符号としては、複数のクラスタのうち1つを特定する必要があるときには符号10−1,10−2を用いるが、任意のクラスタを指すときには符号10を用いる。
また、クラスタ10−1をクラスタ#0という場合があり、クラスタ10−2をクラスタ#1という場合がある。
Hereinafter, as the code indicating the cluster, reference numerals 10-1 and 10-2 are used when it is necessary to specify one of a plurality of clusters, but reference numeral 10 is used when referring to an arbitrary cluster.
Further, cluster 10-1 may be referred to as cluster # 0, and cluster 10-2 may be referred to as cluster # 1.

SVPM20は、複数のクラスタのハードウェア制御を統合するための装置である。 The SVPM20 is a device for integrating hardware control of a plurality of clusters.

コンソール装置30は、クラスタ10−1,10−2を運用管理・監視制御するために、クラスタ10−1,10−2と接続して使用する入出力装置である。 The console device 30 is an input / output device used by connecting to the clusters 10-1 and 10-2 in order to manage and monitor and control the clusters 10-1 and 10-2.

障害解析装置40は、クラスタシステムで障害が発生したときに障害を解析し、障害の原因を特定するための装置である。 The failure analysis device 40 is a device for analyzing a failure when a failure occurs in the cluster system and identifying the cause of the failure.

図2は、実施形態の一例としてのマルチクラスタシステム1の機能構成を例示する図である。 FIG. 2 is a diagram illustrating a functional configuration of the multi-cluster system 1 as an example of the embodiment.

[コンソール装置30の機能構成] [Functional configuration of console device 30]

図2に示すように、コンソール装置30は、クラスタ状態変化検出部301と、フレーム表示制御部302と、コンソール状態監視部303と、記憶部304と、画面ハッシュ値保存部305と、マウス・キーボードドライバ306と、ディスプレイドライバ307とを備える。 As shown in FIG. 2, the console device 30 includes a cluster state change detection unit 301, a frame display control unit 302, a console state monitoring unit 303, a storage unit 304, a screen hash value storage unit 305, and a mouse / keyboard. It includes a driver 306 and a display driver 307.

クラスタ10は、クラスタの状態(電源状態、異常状態、構成等)が変化するたびに、SVPM20に対して状態変化を通知する。SVPM20は、クラスタ10から通知を受け取ると、コンソール装置30にクラスタ状態変化を非同期に通知する。 The cluster 10 notifies the SVPM 20 of the state change each time the state of the cluster (power state, abnormal state, configuration, etc.) changes. Upon receiving the notification from the cluster 10, the SVPM 20 asynchronously notifies the console device 30 of the cluster state change.

クラスタ状態変化検出部301は、クラスタ10からSVPM20を介して送信された通知によりクラスタの状態変化を検出する。クラスタ状態変化検出部301は、SVPM20から通知を受信すると、記憶部304に状態変化の履歴を保存するとともに、クラスタ状態を表示させるフレーム表示制御部302に状態変化を通知する。 The cluster state change detection unit 301 detects the state change of the cluster by the notification transmitted from the cluster 10 via the SVPM20. When the cluster state change detection unit 301 receives the notification from the SVPM 20, the cluster state change detection unit 301 stores the state change history in the storage unit 304 and notifies the frame display control unit 302 that displays the cluster state of the state change.

フレーム表示制御部302は、表示画面上の複数のフレームを制御する。フレームは、コンソール装置30の図示しないディスプレイに表示される表示画面を区画する描画区画である。フレームは、機能毎に備えられる。例えば、時刻を表示する時計フレーム、ボタン処理を表示する処理フレーム(フレームB)およびクラスタの状態を表示する状態表示フレーム(フレームC)等がある。 The frame display control unit 302 controls a plurality of frames on the display screen. The frame is a drawing section for partitioning a display screen displayed on a display (not shown) of the console device 30. Frames are provided for each function. For example, there are a clock frame for displaying the time, a processing frame for displaying button processing (frame B), a state display frame for displaying the state of the cluster (frame C), and the like.

さらに、フレーム表示制御部302は、ボタン処理部310と、画面処理部311とを備え、画面上のボタン操作および画面処理を制御する。ボタン処理部310は、各フレーム内に表示されるボタンと連動しており、操作者がマウス等を操作して当該ボタンを押下する入力を行なうと、押下信号を受信する。 Further, the frame display control unit 302 includes a button processing unit 310 and a screen processing unit 311 to control button operations and screen processing on the screen. The button processing unit 310 is interlocked with the buttons displayed in each frame, and when the operator operates a mouse or the like to input to press the button, the button processing unit 310 receives a pressing signal.

画面処理部311は、操作者による操作時(入力時)の画面情報の画像を取得し、当該画像のハッシュ値を算出する。例えば、画面処理部311は、操作者がボタンの押下やコマンド入力等の入力操作を行なったタイミングで、この入力操作を行なった時点でディスプレイに表示されている画面の画像を取得とハッシュ値の算出を行なう。 The screen processing unit 311 acquires an image of screen information at the time of operation (input) by the operator, and calculates a hash value of the image. For example, the screen processing unit 311 acquires an image of the screen displayed on the display at the time when the operator performs an input operation such as pressing a button or inputting a command, and obtains a hash value. Make a calculation.

特に、画面処理部311は、操作時の画面上の状態表示フレームの画像を取得する。当該画像は、後述するディスプレイドライバ307を介して取得される。取得された画像は、公知の手法によって、マウスのポインタなどのノイズを取り除く修正処理が行なわれ、その後、画像からハッシュ値が算出される。ハッシュ値は、コンソール装置において操作入力が行なわれる度に算出される。 In particular, the screen processing unit 311 acquires an image of the state display frame on the screen at the time of operation. The image is acquired via the display driver 307, which will be described later. The acquired image is subjected to a correction process for removing noise such as a mouse pointer by a known method, and then a hash value is calculated from the image. The hash value is calculated each time an operation input is made in the console device.

画面処理部311は、例えば、取得した画面(状態画面フレーム)の画像データを数値化し、この数値を既知のハッシュ関数に適用することでハッシュ値を算出する。なお、画像データをハッシュ値に変更する手法は既知であり、その詳細な説明は省略する。 The screen processing unit 311 calculates the hash value by, for example, digitizing the image data of the acquired screen (state screen frame) and applying this numerical value to a known hash function. The method of changing the image data to a hash value is known, and detailed description thereof will be omitted.

フレーム表示制御部302は、SVPM20から通知を受け取ると、コンソール装置の画面上に、クラスタ10の状態(クラスタ10の電源状態、異常状態、構成状態、時計等)を表示する。これにより、画面309上のクラスタ状態は、各クラスタの状態変化に同期して動的に変更される。このため、コンソール装置30の操作者は、各クラスタの状態を常に把握しながら、適切にクラスタシステムの運用、管理および制御を行なうことができる。 Upon receiving the notification from the SVPM 20, the frame display control unit 302 displays the status of the cluster 10 (power status, abnormal status, configuration status, clock, etc. of the cluster 10) on the screen of the console device. As a result, the cluster state on the screen 309 is dynamically changed in synchronization with the state change of each cluster. Therefore, the operator of the console device 30 can appropriately operate, manage, and control the cluster system while always grasping the state of each cluster.

操作者がコンソール装置30の画面上に表示された処理フレーム内で操作を行なうと、操作に応じて画面上の内容は動的に変更され。操作の履歴は記憶部304において、後述する画面ハッシュ値付き操作ログ314に保存される。 When the operator performs an operation within the processing frame displayed on the screen of the console device 30, the content on the screen is dynamically changed according to the operation. The operation history is stored in the storage unit 304 in the operation log 314 with a screen hash value, which will be described later.

画面ハッシュ値保存部305は、画面処理部311が算出したハッシュ値を記憶部304の画面ハッシュ値付き操作ログ314に保存する。 The screen hash value storage unit 305 stores the hash value calculated by the screen processing unit 311 in the operation log 314 with the screen hash value of the storage unit 304.

以下、図3〜図5を参照して記憶部304が記憶する情報を説明する。 Hereinafter, the information stored in the storage unit 304 will be described with reference to FIGS. 3 to 5.

記憶部304は、コンソール内部状態ログ312と、クラスタ状態変化ログ313と、画面ハッシュ値付き操作ログ314とを保存する。なお、図3〜図5においては、記憶部304に記憶されている各情報を、便宜上、テーブルの形式で示しているが、これに限定されるものではなく、種々変形して実施することができる。 The storage unit 304 stores the console internal state log 312, the cluster state change log 313, and the operation log 314 with the screen hash value. In FIGS. 3 to 5, each information stored in the storage unit 304 is shown in the form of a table for convenience, but the present invention is not limited to this, and various modifications may be performed. can.

コンソール内部状態ログ312は、コンソール装置30のCPU使用率やプロセス状態の履歴を示すログである。当該ログは、コンソール内部の状態を監視するコンソール状態監視部が参照する。 The console internal state log 312 is a log showing the history of the CPU usage rate and the process state of the console device 30. The log is referenced by the console status monitoring unit that monitors the status inside the console.

クラスタ状態変化ログ313は、SVPM20を介してクラスタ10から通知されたクラスタ状変化の履歴を示すログである。 The cluster state change log 313 is a log showing the history of cluster-like changes notified from the cluster 10 via the SVPM20.

図3は、実施形態の一例としてのマルチクラスタシステム1のクラスタ状態変化ログ313を例示する図である。 FIG. 3 is a diagram illustrating a cluster state change log 313 of the multi-cluster system 1 as an example of the embodiment.

クラスタ状態変化ログ313は、“時刻”および“状態変化履歴”の各フィールドを備える。フィールド“時刻”には、クラスタ10の状態が変化した時刻が格納される。フィールド“状態変化履歴”には、クラスタ10の状態変化の内容(開始,完了,異常発生等)が格納される。 The cluster state change log 313 includes fields of "time" and "state change history". In the field "time", the time when the state of the cluster 10 changes is stored. In the field "state change history", the contents of the state change of the cluster 10 (start, completion, abnormality occurrence, etc.) are stored.

画面ハッシュ値付き操作ログ314は、フレーム表示制御部302から入力された各操作の操作時刻および操作内容と、画面ハッシュ値保存部305が保存するハッシュ値とを対応付けたログである。 The operation log 314 with a screen hash value is a log in which the operation time and operation content of each operation input from the frame display control unit 302 are associated with the hash value stored by the screen hash value storage unit 305.

図4は、実施形態の一例としてのマルチクラスタシステム1の画面ハッシュ値付き操作ログ314を例示する図である。 FIG. 4 is a diagram illustrating an operation log 314 with a screen hash value of the multi-cluster system 1 as an example of the embodiment.

画面ハッシュ値付き操作ログ314は、“時刻”、“操作履歴”および“操作時の画面のハッシュ値”の各フィールドを備える。フィールド“時刻”には、操作が行なわれた時刻が格納される。フィールド“操作履歴”には、コンソール装置がクラスタ10に行なった操作の履歴が格納される。フィールド“操作時の画面のハッシュ値”には、操作入力時の画面の情報から算出したハッシュ値が格納される。例えば、フレーム表示制御部302が、操作者により行なわれた入力操作の内容を操作履歴として画面ハッシュ値付き操作ログ314に、入力操作が行なわれた時刻とともに記録する。 The operation log 314 with a screen hash value includes fields of "time", "operation history", and "screen hash value at the time of operation". The time when the operation was performed is stored in the field "time". In the field "operation history", the history of operations performed by the console device on the cluster 10 is stored. In the field "Hash value of screen at the time of operation", the hash value calculated from the information of the screen at the time of operation input is stored. For example, the frame display control unit 302 records the content of the input operation performed by the operator as an operation history in the operation log 314 with a screen hash value together with the time when the input operation is performed.

画面ハッシュ値保存部305は、操作者が入力操作を行なった時点でディスプレイに表示されている画面の画像について算出したハッシュ値を、画面ハッシュ値付き操作ログ314において、当該入力操作が行なわれた時刻が一致もしくは略一致する、操作履歴のエントリに対応付けて記録する。これにより、画面ハッシュ値付き操作ログ314において、入力操作に関して、その入力操作が行なわれた時刻と、操作履歴と、操作時の画面ハッシュ値とが対応付けて記録される。 The screen hash value storage unit 305 performs the input operation in the operation log 314 with the screen hash value by using the hash value calculated for the screen image displayed on the display when the operator performs the input operation. Record in association with the operation history entry where the time matches or substantially matches. As a result, in the operation log 314 with the screen hash value, the time when the input operation is performed, the operation history, and the screen hash value at the time of the operation are recorded in association with each other.

マウス・キーボードドライバ306およびディスプレイドライバ307は、マウス・キーボード308などの入出力デバイスを含む周辺機器をコンソール装置で利用するためのソフトウェアである。 The mouse / keyboard driver 306 and the display driver 307 are software for using peripheral devices including input / output devices such as the mouse / keyboard 308 in the console device.

[障害解析装置40の機能構成]
図2に示すように、障害解析装置40は、記憶部401と、記憶制御部402と、解析テーブル作成部403と、抽出部404と、第1判定部405と、第2判定部406とを備える。
[Functional configuration of fault analysis device 40]
As shown in FIG. 2, the failure analysis device 40 includes a storage unit 401, a memory control unit 402, an analysis table creation unit 403, an extraction unit 404, a first determination unit 405, and a second determination unit 406. Be prepared.

記憶部401は、障害原因の解析に用いられる情報を記憶する。本実施形態では、記憶されている情報を、便宜上、リストやテーブルの形式で示しているが、これに限定されるものではなく、種々変形して実施することができる。 The storage unit 401 stores information used for analysis of the cause of failure. In the present embodiment, the stored information is shown in the form of a list or a table for convenience, but the present invention is not limited to this, and various modifications can be made.

記憶部401は、図2に示すように、クラスタ状態エラーリスト(クラスタ状態エラー情報)407、クラスタ状態変化完了リスト(クラスタ状態変化完了情報)408、クラスタ状態対応テーブル(クラスタ状態対応情報)409、解析テーブル(解析情報)410および操作種別エラーテーブル(禁止情報)411を記憶する。 As shown in FIG. 2, the storage unit 401 includes a cluster status error list (cluster status error information) 407, a cluster status change completion list (cluster status change completion information) 408, and a cluster status correspondence table (cluster status correspondence information) 409. The analysis table (analysis information) 410 and the operation type error table (prohibition information) 411 are stored.

記憶制御部402は、クラスタ状態変化ログ313および画面ハッシュ値付き操作ログ314をコンソール装置30から取得し、これらのログに基づいて、クラスタ状態エラーリスト(クラスタ状態エラー情報)407、クラスタ状態変化完了リスト(クラスタ状態変化完了情報)408、クラスタ状態対応テーブル(クラスタ状態対応情報)409、解析テーブル(解析情報)410および操作種別エラーテーブル(禁止情報)411を記憶部304に記憶させる。 The storage control unit 402 acquires the cluster status change log 313 and the operation log 314 with the screen hash value from the console device 30, and based on these logs, the cluster status error list (cluster status error information) 407 and the cluster status change completion. The list (cluster status change completion information) 408, the cluster status correspondence table (cluster status correspondence information) 409, the analysis table (analysis information) 410, and the operation type error table (prohibition information) 411 are stored in the storage unit 304.

クラスタ状態エラーリスト407は、クラスタ10において発生したエラーの履歴を示すものである。クラスタ状態エラーリスト407は、クラスタ状態変化ログ313で表示されうるクラスタ10の全状態変化ログを一覧とするものであり、クラスタ状態変化ログ313から、エラー状態を示すログを抽出して一覧にしたものである。
クラスタ状態エラーリスト407は、本マルチクラスタシステム1に備えらえたクラスタ10毎に設けられる。
The cluster status error list 407 shows the history of errors that have occurred in the cluster 10. The cluster status error list 407 is a list of all status change logs of the cluster 10 that can be displayed in the cluster status change log 313. The log indicating the error status is extracted from the cluster status change log 313 and listed. It is a thing.
The cluster status error list 407 is provided for each cluster 10 provided in the multi-cluster system 1.

図5は、実施形態の一例としてのマルチクラスタシステム1のクラスタ状態エラーリスト407を例示する図である。 FIG. 5 is a diagram illustrating a cluster state error list 407 of the multi-cluster system 1 as an example of the embodiment.

図5に例示するクラスタ状態エラーリスト407は、“クラスタ状態エラー”のフィールドを備え、このフィールドには、エラー状態のクラスタを特定する情報と、そのエラー内容とが格納される。 The cluster status error list 407 illustrated in FIG. 5 includes a field of “cluster status error”, and information for identifying the cluster in the error status and the error content are stored in this field.

本実施形態においては、クラスタを特定する情報としてクラスタ名を用いる例を示すが、これに限定されるものではない。例えば、クラスタを特定する情報として、各クラスタ10に予め設定した識別情報を用いてもよく、種々変形して実施することができる。 In the present embodiment, an example in which the cluster name is used as the information for identifying the cluster is shown, but the present invention is not limited to this. For example, as the information for identifying the cluster, the identification information set in advance for each cluster 10 may be used, and various modifications can be made.

記憶制御部402は、例えば、クラスタ状態変化ログ313から、状態変化が完了したことを示すログを抽出することで、クラスタ状態変化完了リスト408を作成してもよい。 The storage control unit 402 may create the cluster state change completion list 408 by, for example, extracting a log indicating that the state change is completed from the cluster state change log 313.

クラスタ状態変化完了リスト408は、クラスタ10において発生し完了した状態変化の履歴を示す。クラスタ状態変化完了リスト408は、クラスタ状態変化ログ313で表示されうるクラスタの全状態変化ログを一覧にしたものである。クラスタ状態変化完了リスト408は、本マルチクラスタシステム1に備えらえたクラスタ10毎に設けられる。 The cluster state change completion list 408 shows the history of state changes that have occurred and completed in the cluster 10. The cluster status change completion list 408 is a list of all cluster status change logs that can be displayed in the cluster status change log 313. The cluster state change completion list 408 is provided for each cluster 10 provided in the multi-cluster system 1.

図6は、実施形態の一例としてのマルチクラスタシステム1のクラスタ状態変化完了リスト408を例示する図である。 FIG. 6 is a diagram illustrating a cluster state change completion list 408 of the multi-cluster system 1 as an example of the embodiment.

図6に例示するクラスタ状態変化完了リスト408は、“クラスタ状態変化完了”のフィールドを備え、このフィールドには、状態変化が完了したクラスタを特定する情報(クラスタ名)ならびにその状態および変化内容が格納される。 The cluster state change completion list 408 illustrated in FIG. 6 includes a field of “cluster state change completion”, and this field contains information (cluster name) that identifies the cluster for which the state change has been completed, and the state and change contents. Stored.

クラスタ状態対応テーブル409は、コンソール装置30において操作者が操作入力を行なった際に、画面309に表示されていたクラスタ10の状態の履歴を示す情報である。 The cluster state correspondence table 409 is information indicating the history of the state of the cluster 10 displayed on the screen 309 when the operator inputs an operation in the console device 30.

図7は、実施形態の一例としてのマルチクラスタシステム1のクラスタ状態対応テーブル409を例示する図である。 FIG. 7 is a diagram illustrating a cluster state correspondence table 409 of the multi-cluster system 1 as an example of the embodiment.

図7に例示するクラスタ状態対応テーブル409は、コンソール装置30の画面ハッシュ値保存部305から取得したハッシュ値と、コンソール装置30の画面309上に表示されるクラスタ10の状態とを対応付けて構成されている。 The cluster state correspondence table 409 illustrated in FIG. 7 is configured by associating the hash value acquired from the screen hash value storage unit 305 of the console device 30 with the state of the cluster 10 displayed on the screen 309 of the console device 30. Has been done.

すなわち、図7に例示するクラスタ状態対応テーブル409は、“ハッシュ値”、“ハッシュ値に対応する状態表示フレーム画像”および“クラスタ#n状態”(nは0以上の自然数)の各フィールドを備える。フィールド“ハッシュ値”は、画面ハッシュ値保存部305から取得したハッシュ値を格納するものである。フィールド“ハッシュ値に対応する状態表示フレーム画像”には、ハッシュ値を算出する元となる操作時の状態表示フレームの画像が格納される。フィールド“クラスタ#n状態”には、前述の状態表示フレームの画像に表示された各クラスタの状態が格納される。すなわち、フィールド“クラスタ#n状態”の値は、前述の状態表示フレームの画像が表す各クラスタの状態を示し、状態画面フレームに表されたクラスタ#nの状態を示す。 That is, the cluster state correspondence table 409 illustrated in FIG. 7 includes each field of "hash value", "state display frame image corresponding to the hash value", and "cluster #n state" (n is a natural number of 0 or more). .. The field "hash value" stores the hash value acquired from the screen hash value storage unit 305. In the field "state display frame image corresponding to the hash value", an image of the state display frame at the time of operation, which is the basis for calculating the hash value, is stored. In the field "cluster #n state", the state of each cluster displayed in the image of the state display frame described above is stored. That is, the value of the field "cluster #n state" indicates the state of each cluster represented by the image of the state display frame described above, and indicates the state of cluster #n represented by the state screen frame.

フィールド“ハッシュ値”に格納されるハッシュ値は、状態表示フレームの画像に含まれる全クラスタの状態を示している。よって、当該ハッシュ値に基づいてクラスタ状態対応テーブル409を参照することで、操作時のコンソール装置30の画面309上に表示された全クラスタの状態を特定することができる。 The hash value stored in the field "hash value" indicates the state of all clusters included in the image of the state display frame. Therefore, by referring to the cluster status correspondence table 409 based on the hash value, it is possible to specify the status of all the clusters displayed on the screen 309 of the console device 30 at the time of operation.

解析テーブル作成部403は、解析テーブル410を生成する。解析テーブル410は、障害原因を特定するために、後述する第1判定部405で使用されるテーブルである。 The analysis table creation unit 403 generates the analysis table 410. The analysis table 410 is a table used by the first determination unit 405, which will be described later, in order to identify the cause of the failure.

解析テーブル作成部403による解析テーブル410の作成手法を以下に説明する。 The method of creating the analysis table 410 by the analysis table creation unit 403 will be described below.

解析テーブル作成部403はまず、クラスタ状態変化ログ313に基づいて、解析テーブル410の前身となる中間テーブルAを作成する。 The analysis table creation unit 403 first creates an intermediate table A, which is the predecessor of the analysis table 410, based on the cluster state change log 313.

図8は、実施形態の一例としてのマルチクラスタシステム1における中間テーブルAを例示する図である。 FIG. 8 is a diagram illustrating an intermediate table A in the multi-cluster system 1 as an example of the embodiment.

図8に示すように、中間テーブルAは、“時刻”、“状態変化履歴”、“操作履歴”、“操作時の画面のハッシュ値”および“画面のハッシュ値に対応するクラスタ状態”の各フィールドを備える。 As shown in FIG. 8, the intermediate table A has each of "time", "state change history", "operation history", "screen hash value at the time of operation", and "cluster state corresponding to the screen hash value". Have a field.

解析テーブル作成部403は、中間テーブルAの“時刻”および“状態変化履歴”の各フィールドに、クラスタ状態変化ログ313の“時刻”および“状態変化履歴”の各フィールドに格納された情報を時系列に格納する。これにより、中間テーブルAが完成する。 The analysis table creation unit 403 displays the information stored in the “time” and “state change history” fields of the cluster state change log 313 in the “time” and “state change history” fields of the intermediate table A. Store in series. As a result, the intermediate table A is completed.

次に、解析テーブル作成部403は、画面ハッシュ値付き操作ログ314およびクラスタ状態対応テーブル409に基づいて、解析テーブル410の前身となる中間テーブルBを作成する。 Next, the analysis table creation unit 403 creates an intermediate table B, which is the predecessor of the analysis table 410, based on the operation log 314 with the screen hash value and the cluster state correspondence table 409.

図9は、実施形態の一例としてのマルチクラスタシステム1における中間テーブルBを例示する図である。 FIG. 9 is a diagram illustrating an intermediate table B in the multi-cluster system 1 as an example of the embodiment.

図9に示すように、中間テーブルBは、中間テーブルAと同一のフィールドを備える。 As shown in FIG. 9, the intermediate table B includes the same fields as the intermediate table A.

解析テーブル作成部403は、中間テーブルBの“時刻”、“操作履歴”および“操作時の画面のハッシュ値”の各フィールドに、画面ハッシュ値付き操作ログ314の“時刻”、“操作履歴”および“操作時の画面のハッシュ値”に格納された情報を時系列に格納する。 The analysis table creation unit 403 displays the "time" and "operation history" of the operation log 314 with the screen hash value in the "time", "operation history" and "screen hash value at the time of operation" fields of the intermediate table B. And the information stored in the "hash value of the screen at the time of operation" is stored in chronological order.

さらに、解析テーブル作成部403は、クラスタ状態対応テーブル409からフィールド“クラスタ#n状態”(nは自然数)に格納された情報を抽出し、当該情報を中間テーブルBのフィールド“画面のハッシュ値に対応するクラスタ状態”に格納する。
これにより、中間テーブルBが完成する。
Further, the analysis table creation unit 403 extracts the information stored in the field “cluster # n state” (n is a natural number) from the cluster state correspondence table 409, and uses the information as the hash value of the field “screen” of the intermediate table B. Store in the corresponding cluster state.
As a result, the intermediate table B is completed.

解析テーブル作成部403は、中間ゲーブルAと、中間テーブルBとを組み合わせ、時系列に並べることにより、解析テーブル410を完成させる。換言すると、解析テーブル作成部403は、中間ゲーブルAと、中間テーブルBとを時刻順でマージすることで解析テーブル410を作成する。 The analysis table creation unit 403 completes the analysis table 410 by combining the intermediate gable A and the intermediate table B and arranging them in chronological order. In other words, the analysis table creation unit 403 creates the analysis table 410 by merging the intermediate gable A and the intermediate table B in chronological order.

図10は、実施形態の一例としてのマルチクラスタシステム1における解析テーブル410を例示する図である。解析テーブル410も、中間テーブルA,Bと同様に、“時刻”、“状態変化履歴”、“操作履歴”、“操作時の画面のハッシュ値”および“画面のハッシュ値に対応するクラスタ状態”の各フィールドを備える。解析テーブル410におけるこれらのフィールドは、既述の中間テーブルA,Bと同様であるので、その詳細な説明は省略する。 FIG. 10 is a diagram illustrating an analysis table 410 in the multi-cluster system 1 as an example of the embodiment. Similar to the intermediate tables A and B, the analysis table 410 also has "time", "state change history", "operation history", "screen hash value at the time of operation", and "cluster state corresponding to the screen hash value". Each field is provided. Since these fields in the analysis table 410 are the same as those in the intermediate tables A and B described above, detailed description thereof will be omitted.

操作種別エラーテーブル411は、コンソール装置30において行なわれる入力操作が禁止操作(NG操作)であるか否かを示す情報であり、入力される操作が実際のクラスタの状態に対応する禁止操作(NG操作)であるか否かを示すテーブルである。 The operation type error table 411 is information indicating whether or not the input operation performed in the console device 30 is a prohibited operation (NG operation), and the input operation corresponds to the actual cluster state (NG operation). It is a table showing whether or not it is an operation).

さらに、操作種別エラーテーブル411は、禁止操作(NG操作)入力後のクラスタがエラー状態(エラーステータス)であるか否かを示す情報であり、入力操作が禁止操作(NG操作)である場合に、入力操作の結果として実際のクラスタにエラーが発生しているか否かを示すテーブルである。 Further, the operation type error table 411 is information indicating whether or not the cluster after inputting the prohibited operation (NG operation) is in the error state (error status), and when the input operation is the prohibited operation (NG operation). , A table showing whether or not an error has occurred in the actual cluster as a result of the input operation.

図11は、実施形態の一例としてのマルチクラスタシステム1における操作種別エラーテーブル411を例示する図である。 FIG. 11 is a diagram illustrating an operation type error table 411 in the multi-cluster system 1 as an example of the embodiment.

操作種別エラーテーブル411は、“クラスタ状態”、“操作”、“操作種別”および“NG操作で発生するエラー”の各フィールドを備える。フィールド“クラスタ状態”には、クラスタが取り得る状態が格納される。フィールド“操作”には、コンソール装置30において行なわれた操作が格納される。フィールド“操作種別”には、操作がクラスタ状態に対して適切である場合にはOK、反対に不適切である場合にはNGが格納される。すなわち、操作種別エラーテーブル411は、クラスタ状態毎に、入力される各操作が禁止操作であるか否かをそれぞれ規定している。さらに、フィールド“NG操作で発生するエラー”には、操作がNG操作である場合にクラスタに発生するエラー内容が格納される。 The operation type error table 411 includes fields of "cluster status", "operation", "operation type", and "error generated by NG operation". The field "cluster state" stores the states that the cluster can take. The field "operation" stores the operation performed in the console device 30. In the field "operation type", OK is stored when the operation is appropriate for the cluster state, and NG is stored when the operation is inappropriate. That is, the operation type error table 411 defines whether or not each input operation is a prohibited operation for each cluster state. Further, in the field "Errors that occur in the NG operation", the error contents that occur in the cluster when the operation is an NG operation are stored.

抽出部404は、障害原因の特定に用いられる情報を解析テーブル410から抽出する。障害の特定に用いられる情報については後述する。 The extraction unit 404 extracts information used for identifying the cause of the failure from the analysis table 410. The information used to identify the disorder will be described later.

第1判定部405は、記憶部304が記憶する解析テーブル410を用いて、コンソール装置30において行なわれた操作について、操作入力時のクラスタ10のクラスタ状態と、操作入力時のコンソール装置の画面309に表示されていたクラスタ状態とが一致するか否かを判定する。 The first determination unit 405 uses the analysis table 410 stored in the storage unit 304 to describe the cluster state of the cluster 10 at the time of operation input and the screen 309 of the console device at the time of operation input for the operations performed in the console device 30. Judge whether or not the cluster status displayed in is the same.

具体的には、第1判定部405は、操作入力時のクラスタ10のクラスタ状態(実クラスタ状態)と、操作入力時のコンソール装置の画面309のハッシュ値から特定されるクラスタのクラスタ状態(画面表示上クラスタ状態)とが一致するか否かを判定する。 Specifically, the first determination unit 405 uses the cluster state (actual cluster state) of the cluster 10 at the time of operation input and the cluster state (screen) of the cluster specified from the hash value of the screen 309 of the console device at the time of operation input. It is determined whether or not the display matches the cluster status).

第2判定部406は、記憶部304が記憶する操作種別エラーテーブル411を参照して、コンソール装置30において行なわれた入力操作が、操作入力時のクラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する。 The second determination unit 406 refers to the operation type error table 411 stored in the storage unit 304, and determines whether or not the input operation performed in the console device 30 corresponds to a prohibited operation for the cluster state of the cluster at the time of operation input. Is determined.

具体的には、第2判定部406は、操作種別エラーテーブル411のフィールド“クラスタ状態”およびフィールド“操作”の各値を参照し、第1判定部405で一致すると判定された解析テーブル410におけるクラスタ状態と、入力操作との組み合わせと同一の組み合わせについて、この組み合わせに対応するフィールド“操作種別”に格納された情報に基づいて操作が適切か否かを判定する。 Specifically, the second determination unit 406 refers to each value of the field "cluster state" and the field "operation" of the operation type error table 411, and in the analysis table 410 determined to match by the first determination unit 405. For the same combination of the cluster state and the input operation, it is determined whether or not the operation is appropriate based on the information stored in the field "operation type" corresponding to this combination.

さらに、第2判定部406は、当該入力操作が禁止操作である場合には、禁止操作の入力後のクラスタ10のクラスタ状態が、禁止操作に対応するエラー状態であるか否かを判定する。すなわち、第2判定部406は、当該入力操作が禁止操作である場合には、禁止操作後のクラスタ10のクラスタ状態が、禁止操作に対応するエラー状態であるか否かを判定する第3判定部としても機能する。 Further, when the input operation is a prohibited operation, the second determination unit 406 determines whether or not the cluster state of the cluster 10 after the input of the prohibited operation is an error state corresponding to the prohibited operation. That is, when the input operation is a prohibited operation, the second determination unit 406 determines whether or not the cluster state of the cluster 10 after the prohibited operation is an error state corresponding to the prohibited operation. It also functions as a department.

禁止操作に対応するエラー状態とは、操作種別エラーテーブル411のフィールド“NG操作で発生するエラー”に格納されたエラー内容である。具体的には、第2判定部406は、記憶部304が記憶する解析テーブル410および操作種別エラーテーブル411を参照し、解析テーブル410における障害発生時刻のフィールド“状態変化履歴”に格納されたエラー内容(エラーステータス又はエラーメッセージ)が、操作種別エラーテーブル411のフィールド“NG操作で発生するエラー”に格納されたエラー内容と、一致するか否かを判定する。 The error state corresponding to the prohibited operation is the error content stored in the field "Error generated in NG operation" in the operation type error table 411. Specifically, the second determination unit 406 refers to the analysis table 410 and the operation type error table 411 stored in the storage unit 304, and the error stored in the field "state change history" of the failure occurrence time in the analysis table 410. It is determined whether or not the content (error status or error message) matches the error content stored in the field "Error generated in NG operation" in the operation type error table 411.

そして、第2判定部406は、禁止操作の入力後のクラスタ10のクラスタ状態がエラー状態である場合には、障害の原因は操作者による誤操作であると判定する。エラー状態ではない場合には、障害の原因は前記禁止操作に対応しないクラスタ障害であると判定する。 Then, when the cluster state of the cluster 10 after the input of the prohibited operation is an error state, the second determination unit 406 determines that the cause of the failure is an erroneous operation by the operator. If it is not in an error state, it is determined that the cause of the failure is a cluster failure that does not correspond to the prohibited operation.

(B)動作
実施形態の一例としてのマルチクラスタシステム1のコンソール装置30における画面ハッシュ値付き操作ログを取得する処理を、図12に示すフローチャート(ステップT1〜T4)に従って説明する。
(B) Operation The process of acquiring the operation log with the screen hash value in the console device 30 of the multi-cluster system 1 as an example of the embodiment will be described with reference to the flowcharts (steps T1 to T4) shown in FIG.

以下においては、操作者が入力操作としてコンソール装置30において、マウス等を操作して表示画面上のボタン操作を行なった場合を例示する。 In the following, an example will be illustrated in which the operator operates a mouse or the like to operate a button on the display screen in the console device 30 as an input operation.

ステップT1において、コンソール装置30の画面309上のフレーム内のボタンが押下されると、その信号は、フレーム表示制御部302のボタン処理部310で受信される。 In step T1, when a button in the frame on the screen 309 of the console device 30 is pressed, the signal is received by the button processing unit 310 of the frame display control unit 302.

次に、ステップT2では、ボタン処理部310は、受信した信号から操作時刻および操作内容「ボタンを押下」を抽出する。ボタン処理部310は、操作時刻および操作内容を記憶部304の画面ハッシュ値付き操作ログに書き込む。 Next, in step T2, the button processing unit 310 extracts the operation time and the operation content “press the button” from the received signal. The button processing unit 310 writes the operation time and the operation content in the operation log with the screen hash value of the storage unit 304.

続いて、ステップT3では、フレーム表示制御部302の画面処理部311は、操作入力時の画面309上の状態表示フレームの画像データを取得し、当該画像情報のハッシュ値を算出する。 Subsequently, in step T3, the screen processing unit 311 of the frame display control unit 302 acquires the image data of the state display frame on the screen 309 at the time of operation input, and calculates the hash value of the image information.

ステップT4では、画面処理部311は、当該ハッシュ値を画面ハッシュ値保存部305に保存させる。画面ハッシュ値保存部305は、当該ハッシュ値を、記憶部304の画面ハッシュ値付き操作ログにおける、入力操作が行なわれた時刻が一致もしくは略一致する、操作履歴のエントリに対応付けて記録する。その後、処理を終了する。 In step T4, the screen processing unit 311 stores the hash value in the screen hash value storage unit 305. The screen hash value storage unit 305 records the hash value in association with an entry in the operation history in which the time when the input operation is performed matches or substantially matches in the operation log with the screen hash value of the storage unit 304. After that, the process ends.

次に、実施形態の一例としてのマルチクラスタシステム1の障害解析装置40における障害発生時の処理を、図13に示すフローチャート(ステップS1〜S7)に従って説明する。 Next, processing when a failure occurs in the failure analysis device 40 of the multi-cluster system 1 as an example of the embodiment will be described with reference to the flowcharts (steps S1 to S7) shown in FIG.

ステップS1〜S3においては、解析テーブル作成部403により、障害原因の解析に必要となる解析テーブル410の作成が行なわれる。
ステップS1では、解析テーブル作成部403は、記憶部304からクラスタ状態変化ログ313を読み込んで、中間テーブルAを作成する。
In steps S1 to S3, the analysis table creation unit 403 creates the analysis table 410 required for the analysis of the cause of the failure.
In step S1, the analysis table creation unit 403 reads the cluster state change log 313 from the storage unit 304 and creates the intermediate table A.

ステップS2では、解析テーブル作成部403は、記憶部304から画面ハッシュ値付き操作ログ314およびクラスタ状態対応テーブル409を読み込んで、中間テーブルBを作成する。 In step S2, the analysis table creation unit 403 reads the operation log 314 with the screen hash value and the cluster state correspondence table 409 from the storage unit 304, and creates the intermediate table B.

ステップS3では、解析テーブル作成部403は、中間テーブルAおよびBを組み合わせて、時系列に並べることで、解析テーブル410を完成させる。 In step S3, the analysis table creation unit 403 completes the analysis table 410 by combining the intermediate tables A and B and arranging them in chronological order.

ステップS4〜S7においては、各種テーブルを用いて障害原因の特定が行なわれる。
ステップS4では、抽出部404は、後述する障害原因の特定処理に用いる情報(A)〜(F)を解析テーブルから抽出する。
In steps S4 to S7, the cause of the failure is identified using various tables.
In step S4, the extraction unit 404 extracts information (A) to (F) used for identifying the cause of the failure, which will be described later, from the analysis table.

ステップS5では、第1判定部405は、クラスタ10のクラスタ状態と、コンソール装置30の画面309上に表示されたクラスタ状態とが一致するか否かを判定する。一致しない(ステップS5のNoルート)場合は、障害の原因は、コンソール装置30内部の負荷が高いために、クラスタ状態をコンソール装置30の画面上に反映する描画処理に遅延が生じたことで結果的に生じた操作ミスであると特定される。以下、このような、コンソール装置30の負荷による画面描写遅延による操作ミスにより障害が生じる障害原因をパターン1という場合がある。ステップS5における判定の結果、クラスタ10のクラスタ状態と、コンソール装置30の画面309上に表示されたクラスタ状態とが一致する場合には(ステップS5のYesルート)、ステップS6に移行する。 In step S5, the first determination unit 405 determines whether or not the cluster state of the cluster 10 and the cluster state displayed on the screen 309 of the console device 30 match. If they do not match (No route in step S5), the cause of the failure is that the load inside the console device 30 is high and the drawing process that reflects the cluster status on the screen of the console device 30 is delayed. It is identified as an operation error that occurred. Hereinafter, the cause of the failure caused by the operation error due to the delay in drawing the screen due to the load of the console device 30 may be referred to as pattern 1. If, as a result of the determination in step S5, the cluster state of the cluster 10 and the cluster state displayed on the screen 309 of the console device 30 match (Yes route in step S5), the process proceeds to step S6.

ステップS6では、第2判定部406は、さらに、コンソール装置において行なわれた操作が、操作時のクラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する。禁止操作に該当しない(ステップS6のNoルート)場合は、障害の原因は、操作が禁止操作ではない(OK操作)にもかかわらず発生した、操作に起因しないクラスタ障害であると特定される。以下、このような、OK操作にもかかわらず、障害発生のため操作起因でないクラスタ障害が生じる障害原因をパターン2という場合がある。ステップS6における判定の結果、コンソール装置において行なわれた操作が、操作時のクラスタのクラスタ状態に対する禁止操作に該当する場合には(ステップS6のYesルート)、ステップS7に移行する。 In step S6, the second determination unit 406 further determines whether or not the operation performed in the console device corresponds to a prohibited operation for the cluster state of the cluster at the time of operation. If it does not correspond to the prohibited operation (No route in step S6), the cause of the failure is identified as a cluster failure not caused by the operation, which occurs even though the operation is not a prohibited operation (OK operation). Hereinafter, the cause of failure in which a cluster failure that is not caused by the operation due to the occurrence of a failure may occur in spite of such an OK operation may be referred to as pattern 2. As a result of the determination in step S6, if the operation performed in the console device corresponds to a prohibited operation for the cluster state of the cluster at the time of operation (Yes route in step S6), the process proceeds to step S7.

ステップS7では、第2判定部406は、さらに、禁止操作入力後のクラスタのクラスタ状態が、禁止操作に対応するエラー状態であるか否かを判定する。 In step S7, the second determination unit 406 further determines whether or not the cluster state of the cluster after inputting the prohibited operation is an error state corresponding to the prohibited operation.

エラー状態である(ステップS7のYesルート)場合には、障害の原因は、操作者による単純な誤操作であると判定する。以下、このような、操作者による単純なオペレーションミス(操作ミス)により障害が生じる障害原因をパターン4という場合がある。一方、エラー状態ではない(ステップS7のNoルート)場合には、障害の原因は、禁止操作に起因する障害でないクラスタ障害であると特定される。以下、このような、禁止操作に起因する障害でないクラスタ障害が生じる障害原因をパターン3という場合がある。 In the case of an error state (Yes route in step S7), it is determined that the cause of the failure is a simple erroneous operation by the operator. Hereinafter, the cause of failure caused by such a simple operation error (operation error) by the operator may be referred to as pattern 4. On the other hand, if it is not in the error state (No route in step S7), the cause of the failure is identified as a cluster failure that is not a failure due to the prohibited operation. Hereinafter, the cause of failure in which a cluster failure that is not a failure due to such a prohibited operation may occur is referred to as pattern 3.

上記のように、本実施形態に係る障害特定処理では、条件分岐に応じて4つのパターン1〜4の障害原因が特定される。 As described above, in the failure identification process according to the present embodiment, the failure causes of the four patterns 1 to 4 are specified according to the conditional branching.

図14は、実施形態の一例としてのマルチクラスタシステムにおける障害原因特定の4つのパターンを説明するための図である。この図14においては、図13のフローチャートに示した障害原因特定手法をテーブルのフォーマットで示している。すなわち、この図14に示すテーブルにおいて条件分岐1〜3として示される各項目に対する該当の有無の組み合わせに応じて、パターン1〜4に分類される障害原因(原因候補)が特定される。
以下、障害原因パターン1〜4のそれぞれについて、障害原因特定処理を説明する。
FIG. 14 is a diagram for explaining four patterns for identifying the cause of failure in a multi-cluster system as an example of an embodiment. In FIG. 14, the failure cause identification method shown in the flowchart of FIG. 13 is shown in a table format. That is, failure causes (cause candidates) classified into patterns 1 to 4 are specified according to the combination of presence / absence of corresponding items for each item shown as conditional branches 1 to 3 in the table shown in FIG.
Hereinafter, the failure cause identification process will be described for each of the failure cause patterns 1 to 4.

[パターン1]
図15〜図18は、障害原因パターン1を特定する処理を説明する図である。パターン1では、クラスタ10(実機)のクラスタ状態と、コンソール装置30の画面309上に表示されたクラスタ10のクラスタ状態が異なるときに、コンソール装置30において操作が行なわれ、クラスタ(実機)で障害が発生した場合が該当する。
[Pattern 1]
15 to 18 are diagrams for explaining the process of identifying the failure cause pattern 1. In pattern 1, when the cluster state of the cluster 10 (actual machine) and the cluster state of the cluster 10 displayed on the screen 309 of the console device 30 are different, an operation is performed in the console device 30 and a failure occurs in the cluster (actual machine). Applies when

抽出部404は、解析テーブル410と、クラスタ状態エラーリスト407と、クラスタ状態変化完了リスト408とを使用して、障害原因の特定処理に必要な情報(A)〜(F)を抽出する(図13のステップS4参照)。
(A)障害発生時刻
(B)障害発生時刻での実機上のクラスタ状態に変化した時刻
(C)障害発生時刻での実機上のクラスタ状態
(D)障害発生時刻での画面上のクラスタに対する操作時刻
(E)障害発生時刻での画面上のクラスタに対する操作
(F)障害発生時刻での画面上のクラスタ状態
The extraction unit 404 extracts information (A) to (F) necessary for identifying the cause of the failure by using the analysis table 410, the cluster state error list 407, and the cluster state change completion list 408 (FIG. See step S4 of 13).
(A) Failure time (B) Time when the cluster status changes to the actual machine at the failure occurrence time (C) Cluster status on the actual machine at the failure occurrence time (D) Operation for the cluster on the screen at the failure occurrence time Time (E) Operation for the cluster on the screen at the time of failure (F) Cluster status on the screen at the time of failure

抽出部404は、解析テーブル410のフィールド“状態変化履歴”内で、クラスタ状態エラーリスト407に含まれる各語について文字列検索を行なうことで、クラスタ状態の異常発生を検知する。 The extraction unit 404 detects the occurrence of an abnormality in the cluster state by performing a character string search for each word included in the cluster state error list 407 in the field “state change history” of the analysis table 410.

図15に示す例においては、 “状態変化履歴”に「クラスタ#0 異常」が検出されている(符号P1参照)。抽出部404は、検出されたクラスタ異常発生の履歴に対応する時刻「2019/01/01 00:00:15」を障害発生時刻{情報(A)}として抽出する(符号P2参照)。 In the example shown in FIG. 15, "cluster # 0 abnormality" is detected in the "state change history" (see reference numeral P1). The extraction unit 404 extracts the time “2019/01/01 00:00:15” corresponding to the history of the detected cluster abnormality occurrence as the failure occurrence time {information (A)} (see reference numeral P2).

次に、抽出部404は、解析テーブル410のフィールド“状態変化履歴”内で、クラスタ状態変化完了リスト408に含まれる各語について文字列検索を行なうことで、クラスタ10における状態変化の発生を検知する。
図16に示す例においては、検索の結果、“状態変化履歴”に「クラスタ#0 状態Bに変化完了」が検出されている(符号P3参照)。
Next, the extraction unit 404 detects the occurrence of a state change in the cluster 10 by performing a character string search for each word included in the cluster state change completion list 408 in the field “state change history” of the analysis table 410. do.
In the example shown in FIG. 16, as a result of the search, "completion of change to cluster # 0 state B" is detected in the "state change history" (see reference numeral P3).

なお、図16に示すクラスタ状態変化完了リスト408において、“クラスタ#x”のxは変数を示しており、抽出部404は、このxの値を順次変更しながら検索を行なう。抽出部404は、以下パターン2〜4においても同様に検索を行なう。 In the cluster state change completion list 408 shown in FIG. 16, x of “cluster # x” indicates a variable, and the extraction unit 404 performs a search while sequentially changing the value of this x. The extraction unit 404 also performs a search in the following patterns 2 to 4.

抽出部404は、検出された状態変化の履歴に対応する時刻「2019/01/01 00:00:09」を、障害発生時刻で実機上のクラスタ状態に変化した時刻{情報(B)}として抽出する(符号P4参照)。また、抽出部404は、検出された当該履歴に対応する状態変化履歴の「クラスタ#0状態Bに変化完了」を、障害発生時刻での実機上のクラスタ状態{情報(C)}として抽出する(符号P5参照)。すなわち、抽出部404は、クラスタ10でエラーが発生した直前の実機上クラスタ状態を抽出する。 The extraction unit 404 sets the time "2019/01/01 00:00:09" corresponding to the history of the detected state change as the time {information (B)} when the failure occurred and changed to the cluster state on the actual machine. Extract (see reference numeral P4). Further, the extraction unit 404 extracts the "change completed to cluster # 0 state B" of the state change history corresponding to the detected history as the cluster state {information (C)} on the actual machine at the time of failure occurrence. (See reference numeral P5). That is, the extraction unit 404 extracts the cluster state on the actual machine immediately before the error occurs in the cluster 10.

次に、抽出部404は、解析テーブル410内で、障害発生時刻の直近の操作を検索する。具体的には、抽出部404は、解析テーブル410の操作履歴を参照して、障害発生時刻{情報(A)}の直近の過去に行なわれた入力操作を検索し、その入力操作に関する操作時刻,操作内容およびクラスタ状態を取得する。 Next, the extraction unit 404 searches the analysis table 410 for the latest operation at the failure occurrence time. Specifically, the extraction unit 404 searches for the input operation performed in the latest past of the failure occurrence time {information (A)} with reference to the operation history of the analysis table 410, and the operation time related to the input operation. , Acquires the operation details and cluster status.

図17に示す例においては、抽出部404は、クラスタ異常が検出された「2019/01/01 00:00:15」の過去の直近の操作が行なわれた時刻「2019/01/01 00:00:11」を情報(D)として抽出する(符号P6参照)。 In the example shown in FIG. 17, the extraction unit 404 is set to the time “2019/01/01 00:” when the most recent operation in the past of “2019/01/01 00:00:15” when the cluster abnormality was detected was performed. "00:11" is extracted as information (D) (see reference numeral P6).

そして、抽出部404は、解析テーブル410の操作履歴を参照して、この時刻「2019/01/01 00:00:11」において行なわれた操作内容「操作Y 実行」を情報(E)として抽出する(符号P7参照)。さらに、抽出部404は、解析テーブル410の操作時の画面のハッシュ値を参照して、この時刻「2019/01/01 00:00:11」に表示された操作時の画面のハッシュ値「123abc」を抽出する。さらに、抽出部404は、解析テーブル410の画面のハッシュ値に対応するクラスタ状態を参照して、この時刻「2019/01/01 00:00:11」におけるクラスタ10の状態を示す「クラスタ#0状態A」を情報(F)として抽出する(符号P8参照)。 Then, the extraction unit 404 extracts the operation content "operation Y execution" performed at this time "2019/01/01 00:00:11" as information (E) with reference to the operation history of the analysis table 410. (See reference numeral P7). Further, the extraction unit 404 refers to the hash value of the screen at the time of operation of the analysis table 410, and the hash value “123abc” of the screen at the time of operation displayed at this time “2019/01/01 00:00:11”. Is extracted. Further, the extraction unit 404 refers to the cluster state corresponding to the hash value on the screen of the analysis table 410, and indicates the state of the cluster 10 at this time “2019/01/01 00:00:11”, “cluster # 0”. "State A" is extracted as information (F) (see reference numeral P8).

第1判定部405は、情報(A)〜(F)に基づいて、クラスタ#0が異常である原因を特定するために、クラスタ#0のクラスタ状態と、コンソール装置30の画面309上に表示されたクラスタ#0のクラスタ状態とが一致するか否かを判定する(図13のステップS5参照)。 The first determination unit 405 displays the cluster status of cluster # 0 and the screen 309 of the console device 30 in order to identify the cause of the abnormality in cluster # 0 based on the information (A) to (F). It is determined whether or not the cluster state of the cluster # 0 is the same (see step S5 in FIG. 13).

図18に示す例においては、解析テーブル410によれば、操作直前の時刻「2019/01/01 00:00:09」では、クラスタ#0は状態Bに変化完了している。しかし、操作の時刻「2019/01/01 00:00:11」では、コンソール装置30の画面309上に表示されていたクラスタ#0の状態は「状態A」であり、クラスタ(実機)のクラスタ状態と一致していないことが認められる(符号P9参照)。これは、クラスタ10の状態が変化する度にクラスタ10から通知される状態変化履歴がコンソール装置30において処理されていないことを意味する。したがって、クラスタ状態が一致していないことから、障害の原因は、コンソール装置30内部の負荷が高いために、クラスタ状態をコンソール装置30の画面上に反映する描画処理に遅延が生じたことであると特定される。 In the example shown in FIG. 18, according to the analysis table 410, at the time “2019/01/01 00:00:09” immediately before the operation, the cluster # 0 has been completely changed to the state B. However, at the operation time "2019/01/01 00:00:11", the state of cluster # 0 displayed on the screen 309 of the console device 30 is "state A", and the cluster (actual machine) cluster. It is recognized that the state does not match (see reference numeral P9). This means that the state change history notified from the cluster 10 every time the state of the cluster 10 changes is not processed by the console device 30. Therefore, since the cluster states do not match, the cause of the failure is that the load inside the console device 30 is high, so that the drawing process for reflecting the cluster state on the screen of the console device 30 is delayed. Is specified.

[パターン2]
図19〜図23は、障害原因パターン2を特定する処理を説明する図である。パターン2は、クラスタ10(実機)のクラスタ状態と、コンソール装置30の画面309上に表示されたクラスタ10のクラスタ状態が一致する場合に、クラスタ10(実機)のクラスタ状態に対して適切な操作(OK操作)を実行したにも関わらず、クラスタ10(実機)のクラスタで障害が発生した場合が該当する。
[Pattern 2]
19 to 23 are diagrams for explaining the process of identifying the failure cause pattern 2. Pattern 2 is an operation appropriate for the cluster state of the cluster 10 (actual machine) when the cluster state of the cluster 10 (actual machine) and the cluster state of the cluster 10 displayed on the screen 309 of the console device 30 match. This corresponds to the case where a failure occurs in the cluster of cluster 10 (actual machine) even though (OK operation) is executed.

抽出部404は、パターン1と同様に、解析テーブル410と、クラスタ状態エラーリスト407と、クラスタ状態変化完了リスト408とを使用して、障害原因の特定処理に用いる情報(A)〜(F)を抽出する(図13のステップS4参照)。情報(A)〜(F)の内容は上記と同様であるため、その詳細な説明は省略する。 Similar to pattern 1, the extraction unit 404 uses the analysis table 410, the cluster state error list 407, and the cluster state change completion list 408 to use information (A) to (F) for identifying the cause of the failure. Is extracted (see step S4 in FIG. 13). Since the contents of the information (A) to (F) are the same as those described above, detailed description thereof will be omitted.

抽出部404は、解析テーブル410のフィールド“状態変化履歴”内で、クラスタ状態エラーリスト407に含まれる各語について文字列検索を行なうことで、クラスタ状態の異常発生を検知する。 The extraction unit 404 detects the occurrence of an abnormality in the cluster state by performing a character string search for each word included in the cluster state error list 407 in the field “state change history” of the analysis table 410.

図19に示す例においては、“状態変化履歴”に「クラスタ#0 コマンド実行失敗」が検出されている(符号P1参照)。抽出部404は、検出されたクラスタ以上発生の履歴に対応する時刻「2019/01/01 00:00:15」を情報発生時刻{情報(A)}として抽出する(符号P2参照)。 In the example shown in FIG. 19, "cluster # 0 command execution failure" is detected in the "state change history" (see reference numeral P1). The extraction unit 404 extracts the time “2019/01/01 00:00:15” corresponding to the history of occurrences of the detected clusters or more as the information generation time {information (A)} (see reference numeral P2).

次に、抽出部404は、解析テーブル410のフィールド“状態変化履歴”内で、クラスタ状態変化完了リスト408に含まれる各語について文字列検索を行なうことで、クラスタ10における状態変化の発生を検知する。 Next, the extraction unit 404 detects the occurrence of a state change in the cluster 10 by performing a character string search for each word included in the cluster state change completion list 408 in the field “state change history” of the analysis table 410. do.

図20に示す例においては、検索の結果、“状態変化履歴”に「クラスタ#0 ON 完了」が検出されている(符号P3参照)。抽出部404は、検出された状態変化の履歴に対応する時刻「2019/01/01 00:00:09」を、障害発生時刻で実機上のクラスタ状態に変化した時刻{情報(B)}として抽出する(符号P4参照)。また、抽出部404は、検出された当該履歴に対応する状態変化履歴の「クラスタ#0 ON 完了」を情報(C)として抽出する(符号P5参照)。すなわち、抽出部404は、クラスタ10でエラーが発生した直前の実機上クラスタ状態を抽出する。 In the example shown in FIG. 20, as a result of the search, "cluster # 0 ON completed" is detected in the "state change history" (see reference numeral P3). The extraction unit 404 sets the time "2019/01/01 00:00:09" corresponding to the history of the detected state change as the time {information (B)} when the failure occurred and changed to the cluster state on the actual machine. Extract (see reference numeral P4). Further, the extraction unit 404 extracts "cluster # 0 ON completion" of the state change history corresponding to the detected history as information (C) (see reference numeral P5). That is, the extraction unit 404 extracts the cluster state on the actual machine immediately before the error occurs in the cluster 10.

次に、抽出部404は、解析テーブル410内で、障害発生時刻の直近の操作を検索する。具体的には、抽出部404は、解析テーブル410の操作履歴を参照して、障害発生時刻{情報(A)}の直近の過去に行なわれた入力操作を検索し、その入力操作に関する操作時刻,操作内容およびクラスタ状態を取得する。 Next, the extraction unit 404 searches the analysis table 410 for the latest operation at the failure occurrence time. Specifically, the extraction unit 404 searches for the input operation performed in the latest past of the failure occurrence time {information (A)} with reference to the operation history of the analysis table 410, and the operation time related to the input operation. , Acquires the operation details and cluster status.

図21に示す例においては、抽出部404は、クラスタ異常が検出された「2019/01/01 00:00:15」の過去の直近の操作が行なわれた時刻「2019/01/01 00:00:11」を情報(D)として抽出する(符号P6参照)。 In the example shown in FIG. 21, the extraction unit 404 is set to the time “2019/01/01 00:” when the most recent operation in the past of “2019/01/01 00:00:15” when the cluster abnormality was detected was performed. "00:11" is extracted as information (D) (see reference numeral P6).

そして、抽出部404は、解析テーブル410の操作履歴を参照して、この時刻「2019/01/01 00:00:11」において行なわれた操作内容「操作Y 実行」を情報(E)として抽出する(符号P7参照)。さらに、抽出部404は、解析テーブル410の操作時の画面のハッシュ値を参照して、この時刻「2019/01/01 00:00:11」に表示された操作時の画面のハッシュ値「456def」を抽出する。さらに、抽出部404は、解析テーブル410の画面のハッシュ値に対応するクラスタ状態を参照して、この時刻「2019/01/01 00:00:11」におけるクラスタ10の状態を示す「クラスタ#0 ON」を情報(F)として抽出する(符号P8参照)。 Then, the extraction unit 404 extracts the operation content "operation Y execution" performed at this time "2019/01/01 00:00:11" as information (E) with reference to the operation history of the analysis table 410. (See reference numeral P7). Further, the extraction unit 404 refers to the hash value of the screen at the time of operation of the analysis table 410, and the hash value “456def” of the screen at the time of operation displayed at this time “2019/01/01 00:00:11”. Is extracted. Further, the extraction unit 404 refers to the cluster state corresponding to the hash value on the screen of the analysis table 410, and indicates the state of the cluster 10 at this time “2019/01/01 00:00:11”, “cluster # 0”. "ON" is extracted as information (F) (see reference numeral P8).

第1判定部405は、情報(A)〜(F)に基づいて、クラスタ#0が異常である原因を特定するために、クラスタ#0のクラスタ状態と、コンソール装置30の画面309上に表示されたクラスタ#0のクラスタ状態とが一致するか否かを判定する(図13のステップS5参照)。 The first determination unit 405 displays the cluster status of cluster # 0 and the screen 309 of the console device 30 in order to identify the cause of the abnormality in cluster # 0 based on the information (A) to (F). It is determined whether or not the cluster state of the cluster # 0 is the same (see step S5 in FIG. 13).

図22に示す例においては、解析テーブル410によれば、操作直前の時刻「2019/01/01 00:00:09」では、クラスタ#0の状態変化はONに完了している。そして、操作の時刻「2019/01/01 00:00:11」においても、コンソール装置30の画面309上に表示されていたクラスタ#0の状態は「ON」であり、クラスタ(実機)のクラスタ状態と一致していることが認められる(符号P9参照)。したがって、クラスタ状態の一致から、障害の原因は、コンソール装置30内部の負荷の高さに起因するコンソール装置30の画面の描画処理の遅延以外であることがわかる。 In the example shown in FIG. 22, according to the analysis table 410, the state change of cluster # 0 is completed ON at the time “2019/01/01 00:00:09” immediately before the operation. Then, even at the operation time "2019/01/01 00:00:11", the state of cluster # 0 displayed on the screen 309 of the console device 30 is "ON", and the cluster (actual machine) cluster. It is recognized that the state is consistent (see reference numeral P9). Therefore, from the matching of the cluster states, it can be seen that the cause of the failure is other than the delay in the drawing process of the screen of the console device 30 due to the high load inside the console device 30.

そこで、第2判定部406は、さらに、操作種別エラーテーブル411に基づいて、コンソール装置30において行なわれた操作が、操作時のクラスタ#0のクラスタ状態に対する禁止操作に該当するか否かを判定する(図13のステップS6参照)。 Therefore, the second determination unit 406 further determines whether or not the operation performed in the console device 30 corresponds to the prohibited operation for the cluster state of the cluster # 0 at the time of operation based on the operation type error table 411. (See step S6 in FIG. 13).

図23に示す例においては、解析テーブル410によれば、障害発生時刻でのクラスタ(実機)のクラスタ状態{情報(C)}は「クラスタ#0 ON 完了」であり、コマンド実行失敗が検出された時刻の過去の直近に行なわれた操作内容{情報(E)}は「OFF 実行」である。 In the example shown in FIG. 23, according to the analysis table 410, the cluster state {information (C)} of the cluster (actual machine) at the time of failure occurrence is "cluster # 0 ON completed", and a command execution failure is detected. The operation content {information (E)} performed most recently in the past at the specified time is "OFF execution".

第2判定部406は、クラスタ状態{情報(C)}対する操作内容{情報(E)}が適切であるか否かを判定するために、操作種別エラーテーブル411を参照する。操作種別エラーテーブル411によれば、“クラスタ状態”「ON」に対して行った“操作”「OFF」に対応する“操作種別”は、「OK操作」である。これは、当該操作によって、クラスタ(実機)にエラー状態は発生しないことを意味する(符号P10参照)。したがって、クラスタ状態が一致しており、かつ、操作がNG操作であるにもかかわらず、障害が発生していることから、障害の原因は、操作に起因しないクラスタ10における障害であると特定される。 The second determination unit 406 refers to the operation type error table 411 in order to determine whether or not the operation content {information (E)} for the cluster state {information (C)} is appropriate. According to the operation type error table 411, the "operation type" corresponding to the "operation" and "OFF" performed for the "cluster state" and "ON" is "OK operation". This means that the operation does not cause an error state in the cluster (actual machine) (see reference numeral P10). Therefore, even though the cluster states are the same and the operation is an NG operation, a failure has occurred. Therefore, the cause of the failure is identified as a failure in the cluster 10 that is not caused by the operation. NS.

[パターン3]
図24〜図29は、障害原因パターン3を特定する処理を説明する図である。パターン3は、クラスタ10(実機)のクラスタ状態と、コンソール装置30の画面309上に表示されたクラスタ10のクラスタ状態が一致する場合に、クラスタ10(実機)のクラスタ状態に対して不適切な操作(NG操作)を実行し、NG操作に対応しない障害がクラスタ10(実機)において発生した場合が該当する。
[Pattern 3]
24 to 29 are diagrams for explaining the process of identifying the failure cause pattern 3. Pattern 3 is inappropriate for the cluster state of cluster 10 (actual machine) when the cluster state of cluster 10 (actual machine) and the cluster state of cluster 10 displayed on the screen 309 of the console device 30 match. This corresponds to the case where the operation (NG operation) is executed and a failure that does not correspond to the NG operation occurs in the cluster 10 (actual machine).

抽出部404は、パターン1および2と同様に、解析テーブル410と、クラスタ状態エラーリスト407と、クラスタ状態変化完了リスト408とを使用して、障害原因の特定処理に用いる情報(A)〜(F)を抽出する(図13のステップS4参照)。情報(A)〜(F)の内容は上記と同様であるため、その詳細な説明は省略する。 Similar to patterns 1 and 2, the extraction unit 404 uses the analysis table 410, the cluster state error list 407, and the cluster state change completion list 408 to use information (A) to () for identifying the cause of the failure. F) is extracted (see step S4 in FIG. 13). Since the contents of the information (A) to (F) are the same as those described above, detailed description thereof will be omitted.

抽出部404は、解析テーブル410のフィールド“状態変化履歴”内で、クラスタ状態エラーリスト407に含まれる各語について文字列検索を行なうことで、クラスタ状態の異常発生を検知する。 The extraction unit 404 detects the occurrence of an abnormality in the cluster state by performing a character string search for each word included in the cluster state error list 407 in the field “state change history” of the analysis table 410.

図24に示す例においては、“状態変化履歴”に「クラスタ#0 起動失敗」が検出されている(符号P1参照)。抽出部404は、検出されたクラスタ異常発生の履歴に対応する時刻「2019/01/01 00:00:15」を障害発生時刻{情報(A)}として抽出する(符号P2参照)。 In the example shown in FIG. 24, "cluster # 0 startup failure" is detected in the "state change history" (see reference numeral P1). The extraction unit 404 extracts the time “2019/01/01 00:00:15” corresponding to the history of the detected cluster abnormality occurrence as the failure occurrence time {information (A)} (see reference numeral P2).

次に、抽出部404は、解析テーブル410のフィールド“状態変化履歴”内で、クラスタ状態変化完了リスト408に含まれる各語について文字列検索を行なうことで、クラスタ10における状態変化の発生を検知する。 Next, the extraction unit 404 detects the occurrence of a state change in the cluster 10 by performing a character string search for each word included in the cluster state change completion list 408 in the field “state change history” of the analysis table 410. do.

図25に示す例においては、検索の結果、“状態変化履歴”に「クラスタ#0 ON 完了」が検出されている(符号P3参照)。抽出部404は、検出された状態変化の履歴に対応する時刻「2019/01/01 00:00:09」を、障害発生時刻で実機上のクラスタ状態に変化した時刻情報(B)として抽出する(符号P4参照)。また、抽出部404は、検出された当該履歴に対応する状態変化履歴の「クラスタ#0 ON 完了」を、障害発生時刻での実機上のクラスタ状態{情報(C)}として抽出する(符号P5参照)。すなわち、抽出部404は、クラスタ10でエラーが発生した直前の実機上クラスタ状態を抽出する。 In the example shown in FIG. 25, as a result of the search, "cluster # 0 ON completed" is detected in the "state change history" (see reference numeral P3). The extraction unit 404 extracts the time "2019/01/01 00:00:09" corresponding to the history of the detected state change as the time information (B) that changed to the cluster state on the actual machine at the time when the failure occurred. (See reference numeral P4). Further, the extraction unit 404 extracts "cluster # 0 ON completion" of the state change history corresponding to the detected history as the cluster state {information (C)} on the actual machine at the time of failure occurrence (reference numeral P5). reference). That is, the extraction unit 404 extracts the cluster state on the actual machine immediately before the error occurs in the cluster 10.

次に、抽出部404は、解析テーブル410内で、障害発生時刻の直近の操作を検索する。具体的には、抽出部404は、解析テーブル410の操作履歴を参照して、障害発生時刻{情報(A)}の直近の過去に行なわれた入力操作を検索し、その入力操作に関する操作時刻,操作内容およびクラスタ状態を取得する。 Next, the extraction unit 404 searches the analysis table 410 for the latest operation at the failure occurrence time. Specifically, the extraction unit 404 searches for the input operation performed in the latest past of the failure occurrence time {information (A)} with reference to the operation history of the analysis table 410, and the operation time related to the input operation. , Acquires the operation details and cluster status.

図26に示す例においては、抽出部404は、クラスタ異常が検出された「2019/01/01 00:00:15」の過去の直近の操作が行なわれた時刻「2019/01/01 00:00:11」を情報(D)として抽出する(符号P6参照)。 In the example shown in FIG. 26, the extraction unit 404 is set to the time “2019/01/01 00:” when the most recent operation in the past of “2019/01/01 00:00:15” when the cluster abnormality was detected was performed. "00:11" is extracted as information (D) (see reference numeral P6).

そして、抽出部404は、解析テーブル410の操作履歴を参照して、この時刻「2019/01/01 00:00:11」において行なわれた操作内容「ON 実行」を情報(E)として抽出する(符号P7参照)。 Then, the extraction unit 404 extracts the operation content "ON execution" performed at this time "2019/01/01 00:00:11" as information (E) with reference to the operation history of the analysis table 410. (See reference numeral P7).

さらに、抽出部404は、解析テーブル410の操作時の画面のハッシュ値を参照して、この時刻「2019/01/01 00:00:11」に表示された操作時の画面のハッシュ値「456def」を抽出する。さらに、抽出部404は、解析テーブル410の画面のハッシュ値に対応するクラスタ状態を参照して、この時刻「2019/01/01 00:00:11」におけるクラスタ10の状態を示す「クラスタ#0 ON」を情報(F)として抽出する(符号P8参照)。 Further, the extraction unit 404 refers to the hash value of the screen at the time of operation of the analysis table 410, and the hash value “456def” of the screen at the time of operation displayed at this time “2019/01/01 00:00:11”. Is extracted. Further, the extraction unit 404 refers to the cluster state corresponding to the hash value on the screen of the analysis table 410, and indicates the state of the cluster 10 at this time “2019/01/01 00:00:11”, “cluster # 0”. "ON" is extracted as information (F) (see reference numeral P8).

第1判定部405は、情報(A)〜(F)に基づいて、クラスタ#0が異常である原因を特定するために、クラスタ#0のクラスタ状態と、コンソール装置30の画面309上に表示されたクラスタ#0のクラスタ状態とが一致するか否かを判定する(図13のステップS5参照)。 The first determination unit 405 displays the cluster status of cluster # 0 and the screen 309 of the console device 30 in order to identify the cause of the abnormality in cluster # 0 based on the information (A) to (F). It is determined whether or not the cluster state of the cluster # 0 is the same (see step S5 in FIG. 13).

図27に示す例においては、解析テーブル410によれば、操作直前の時刻「2019/01/01 00:00:09」では、クラスタ#0の状態変化はONに完了している。そして、操作の時刻「2019/01/01 00:00:11」においても、コンソール装置30の画面309上に表示されていたクラスタ#0の状態は「ON」であり、クラスタ(実機)のクラスタ状態と一致していることが認められる(符号P9参照)。したがって、クラスタ状態の一致から、障害の原因は、コンソール装置30内部の負荷の高さに起因するコンソール装置30の画面の描画処理の遅延以外であることがわかる。 In the example shown in FIG. 27, according to the analysis table 410, the state change of cluster # 0 is completed ON at the time “2019/01/01 00:00:09” immediately before the operation. Then, even at the operation time "2019/01/01 00:00:11", the state of cluster # 0 displayed on the screen 309 of the console device 30 is "ON", and the cluster (actual machine) cluster. It is recognized that the state is consistent (see reference numeral P9). Therefore, from the matching of the cluster states, it can be seen that the cause of the failure is other than the delay in the drawing process of the screen of the console device 30 due to the high load inside the console device 30.

そこで、第2判定部406は、さらに、操作種別エラーテーブル411に基づいて、コンソール装置30において行なわれた操作が、操作時のクラスタ#0のクラスタ状態に対する禁止操作に該当するか否かを判定する(図13のステップS6参照)。 Therefore, the second determination unit 406 further determines whether or not the operation performed in the console device 30 corresponds to the prohibited operation for the cluster state of the cluster # 0 at the time of operation based on the operation type error table 411. (See step S6 in FIG. 13).

図28に示す例においては、解析テーブル410によれば、障害発生時刻でのクラスタ(実機)のクラスタ状態{情報(C)}は「クラスタ#0 ON 完了」であり、コマンド実行失敗が検出された時刻の過去の直近に行なわれた操作内容{情報(E)}は「ON 実行」である。 In the example shown in FIG. 28, according to the analysis table 410, the cluster status {information (C)} of the cluster (actual machine) at the time of failure occurrence is "cluster # 0 ON completed", and a command execution failure is detected. The operation content {information (E)} performed most recently in the past at the specified time is "ON execution".

第2判定部406は、クラスタ状態{情報(C)}対する操作内容{情報(E)}が適切であるか否かを判定するために、操作種別エラーテーブル411を参照する。操作種別エラーテーブル411によれば、“クラスタ状態”「ON」に対して行った“操作”「ON」に対応する“操作種別”は、「NG操作」である。これは、当該操作によって、クラスタ(実機)にエラー状態が発生することを意味する(符号P10参照)。したがって、クラスタ状態の一致および操作がNG操作であることから、障害の原因は、操作に起因しないクラスタ10における障害以外であると特定される。 The second determination unit 406 refers to the operation type error table 411 in order to determine whether or not the operation content {information (E)} for the cluster state {information (C)} is appropriate. According to the operation type error table 411, the "operation type" corresponding to the "operation" "ON" performed for the "cluster state" "ON" is "NG operation". This means that the operation causes an error state in the cluster (actual machine) (see reference numeral P10). Therefore, since the matching of the cluster states and the operation are NG operations, the cause of the failure is identified as other than the failure in the cluster 10 which is not caused by the operation.

そこで、第2判定部は、さらに、操作種別エラーテーブル411に基づいて、禁止操作入力後のクラスタ10のクラスタ状態が、禁止操作に対応するエラー状態であるか否かを判定する(図13のステップS7参照)。 Therefore, the second determination unit further determines whether or not the cluster state of the cluster 10 after inputting the prohibited operation is an error state corresponding to the prohibited operation based on the operation type error table 411 (FIG. 13). See step S7).

図29に示す例においては、解析テーブル410によれば、障害発生時刻「2019/01/01 00:00:15」におけるクラスタ状態は、「クラスタ#0 起動失敗」であり、起動失敗が検出された時刻の過去の直近に行なわれた操作内容{情報(E)}は「ON 実行」である。 In the example shown in FIG. 29, according to the analysis table 410, the cluster state at the failure occurrence time “2019/01/01 00:00:15” is “cluster # 0 startup failure”, and a startup failure is detected. The operation content {information (E)} performed most recently in the past at the specified time is "ON execution".

第2判定部406は、操作内容{情報(E)}に対応するクラスタ状態が適切であるか否かを判定するために、操作種別エラーテーブル411を参照する。操作種別エラーテーブル411によれば、“クラスタ状態”「ON」に対して行った“操作”「ON」に対応する“操作種別”は、「NG操作」であり、当該操作によって発生するエラーは「コマンド実行失敗」である。これに対し、解析テーブル410におけるクラスタ状態は「起動失敗」であり、操作種別エラーテーブル411のエラー内容と一致していない(符号P11参照)。したがって、操作がNG操作であり、かつ、操作種別エラーテーブル411のエラー内容と一致していないことから、障害の原因は、NG操作に対応しないクラスタ(実機)における障害であると特定される。 The second determination unit 406 refers to the operation type error table 411 in order to determine whether or not the cluster state corresponding to the operation content {information (E)} is appropriate. According to the operation type error table 411, the "operation type" corresponding to the "operation" and "ON" performed for the "cluster state" and "ON" is "NG operation", and the error generated by the operation is "Command execution failed". On the other hand, the cluster state in the analysis table 410 is "start failure", which does not match the error content in the operation type error table 411 (see reference numeral P11). Therefore, since the operation is an NG operation and does not match the error content in the operation type error table 411, the cause of the failure is identified as a failure in the cluster (actual machine) that does not correspond to the NG operation.

[パターン4]
図30〜図35は、障害原因パターン4を特定する処理を説明する図である。パターン4は、クラスタ10(実機)のクラスタ状態と、コンソール装置30の画面309上に表示されたクラスタのクラスタ状態が一致する場合に、クラスタ10(実機)のクラスタ状態に対して不適切な操作(NG操作)を実行し、NG操作に対応する障害がクラスタ10(実機)において発生した場合が該当する。
[Pattern 4]
30 to 35 are diagrams for explaining the process of identifying the failure cause pattern 4. Pattern 4 is an operation inappropriate for the cluster state of cluster 10 (actual machine) when the cluster state of cluster 10 (actual machine) and the cluster state of the cluster displayed on the screen 309 of the console device 30 match. This corresponds to the case where (NG operation) is executed and a failure corresponding to the NG operation occurs in the cluster 10 (actual machine).

抽出部404は、パターン1〜3と同様に、解析テーブル410と、クラスタ状態エラーリスト407と、クラスタ状態変化完了リスト408とを使用して、障害原因の特定処理に用いる情報(A)〜(F)を抽出する(図13のステップS4参照)。情報(A)〜(F)の内容は上記と同様であるため、その詳細な説明は省略する。 Similar to patterns 1 to 3, the extraction unit 404 uses the analysis table 410, the cluster state error list 407, and the cluster state change completion list 408 to use information (A) to () for identifying the cause of the failure. F) is extracted (see step S4 in FIG. 13). Since the contents of the information (A) to (F) are the same as those described above, detailed description thereof will be omitted.

抽出部404は、解析テーブル410のフィールド“状態変化履歴”内で、クラスタ状態エラーリスト407に含まれる各語について文字列検索を行なうことで、クラスタ状態の異常発生を検知する。 The extraction unit 404 detects the occurrence of an abnormality in the cluster state by performing a character string search for each word included in the cluster state error list 407 in the field “state change history” of the analysis table 410.

図30に示す例においては、“状態変化履歴”に「クラスタ#0 コマンド実行失敗」が検出されている(符号P1参照)。抽出部404は、検出されたクラスタ異常発生の履歴に対応する時刻「2019/01/01 00:00:15」を障害発生時刻{情報(A)}として抽出する(符号P2参照)。 In the example shown in FIG. 30, "cluster # 0 command execution failure" is detected in the "state change history" (see reference numeral P1). The extraction unit 404 extracts the time “2019/01/01 00:00:15” corresponding to the history of the detected cluster abnormality occurrence as the failure occurrence time {information (A)} (see reference numeral P2).

次に、抽出部404は、解析テーブル410のフィールド“状態変化履歴”内で、クラスタ状態変化完了リスト408に含まれる各語について文字列検索を行なうことで、クラスタ10における状態変化の発生を検知する。 Next, the extraction unit 404 detects the occurrence of a state change in the cluster 10 by performing a character string search for each word included in the cluster state change completion list 408 in the field “state change history” of the analysis table 410. do.

図31に示す例においては、検索の結果、“状態変化履歴”に「クラスタ#0 コマンド実行失敗」が検出されている(符号P3参照)。抽出部404は、検出された状態変化の履歴に対応する時刻「2019/01/01 00:00:09」を、障害発生時刻で実機上のクラスタ状態に変化した時刻{情報(B)}として抽出する(符号P4参照)。また、抽出部404は、検出された当該履歴に対応する状態変化履歴の「クラスタ#0 コマンド実行失敗」を、障害発生時刻での実機上のクラスタ状態{情報(C)}として抽出する(符号P5参照)。すなわち、抽出部404は、クラスタ10でエラーが発生した直前の実機上クラスタ状態を抽出する。 In the example shown in FIG. 31, as a result of the search, "cluster # 0 command execution failure" is detected in the "state change history" (see reference numeral P3). The extraction unit 404 sets the time "2019/01/01 00:00:09" corresponding to the history of the detected state change as the time {information (B)} when the failure occurred and changed to the cluster state on the actual machine. Extract (see reference numeral P4). Further, the extraction unit 404 extracts the "cluster # 0 command execution failure" of the state change history corresponding to the detected history as the cluster state {information (C)} on the actual machine at the time of failure occurrence (reference numeral (code). See page 5). That is, the extraction unit 404 extracts the cluster state on the actual machine immediately before the error occurs in the cluster 10.

次に、抽出部404は、解析テーブル410内で、障害発生時刻の直近の操作を検索する。具体的には、抽出部404は、解析テーブル410の操作履歴を参照して、障害発生時刻{情報(A)}の直近の過去に行なわれた入力操作を検索し、その入力操作に関する操作時刻,操作内容およびクラスタ状態を取得する。 Next, the extraction unit 404 searches the analysis table 410 for the latest operation at the failure occurrence time. Specifically, the extraction unit 404 searches for the input operation performed in the latest past of the failure occurrence time {information (A)} with reference to the operation history of the analysis table 410, and the operation time related to the input operation. , Acquires the operation details and cluster status.

図32に示す例においては、抽出部404は、クラスタ異常が検出された「2019/01/01 00:00:15」の過去の直近の操作が行なわれた時刻「2019/01/01 00:00:11」を情報(D)として抽出する(符号P6参照)。 In the example shown in FIG. 32, the extraction unit 404 is set to the time “2019/01/01 00:” when the most recent operation in the past of “2019/01/01 00:00:15” when the cluster abnormality was detected was performed. "00:11" is extracted as information (D) (see reference numeral P6).

そして、抽出部404は、解析テーブル410の操作履歴を参照して、この時刻「2019/01/01 00:00:11」において行なわれた操作内容「ON 実行」を情報(E)として抽出する(符号P7参照)。 Then, the extraction unit 404 extracts the operation content "ON execution" performed at this time "2019/01/01 00:00:11" as information (E) with reference to the operation history of the analysis table 410. (See reference numeral P7).

さらに、抽出部404は、解析テーブル410の操作時の画面のハッシュ値を参照して、この時刻「2019/01/01 00:00:11」に表示された操作時の画面のハッシュ値「456def」を抽出する。さらに、抽出部404は、解析テーブル410の画面のハッシュ値に対応するクラスタ状態を参照して、この時刻「2019/01/01 00:00:11」におけるクラスタ10の状態を示す「クラスタ#0 ON」を情報(F)として抽出する(符号P8参照)。 Further, the extraction unit 404 refers to the hash value of the screen at the time of operation of the analysis table 410, and the hash value “456def” of the screen at the time of operation displayed at this time “2019/01/01 00:00:11”. Is extracted. Further, the extraction unit 404 refers to the cluster state corresponding to the hash value on the screen of the analysis table 410, and indicates the state of the cluster 10 at this time “2019/01/01 00:00:11”, “cluster # 0”. "ON" is extracted as information (F) (see reference numeral P8).

第1判定部405は、情報(A)〜(F)に基づいて、クラスタ#0が異常である原因を特定するために、クラスタ#0のクラスタ状態と、コンソール装置30の画面309上に表示されたクラスタ#0のクラスタ状態とが一致するか否かを判定する(図13のステップS5参照)。 The first determination unit 405 displays the cluster status of cluster # 0 and the screen 309 of the console device 30 in order to identify the cause of the abnormality in cluster # 0 based on the information (A) to (F). It is determined whether or not the cluster state of the cluster # 0 is the same (see step S5 in FIG. 13).

図33に示す例においては、解析テーブル410によれば、操作直前の時刻「2019/01/01 00:00:09」では、クラスタ#0の状態変化はONに完了している。そして、操作の時刻「2019/01/01 00:00:11」においても、コンソール装置30の画面309上に表示されていたクラスタ#0の状態は「ON」であり、クラスタ(実機)のクラスタ状態と一致していることが認められる(符号P9参照)。したがって、クラスタ状態の一致から、障害の原因は、コンソール装置30内部の負荷の高さに起因するコンソール装置30の画面の描画処理の遅延以外であることがわかる。 In the example shown in FIG. 33, according to the analysis table 410, the state change of cluster # 0 is completed ON at the time “2019/01/01 00:00:09” immediately before the operation. Then, even at the operation time "2019/01/01 00:00:11", the state of cluster # 0 displayed on the screen 309 of the console device 30 is "ON", and the cluster (actual machine) cluster. It is recognized that the state is consistent (see reference numeral P9). Therefore, from the matching of the cluster states, it can be seen that the cause of the failure is other than the delay in the drawing process of the screen of the console device 30 due to the high load inside the console device 30.

そこで、第2判定部406は、さらに、操作種別エラーテーブル411に基づいて、コンソール装置30において行なわれた操作が、操作時のクラスタ#0のクラスタ状態に対する禁止操作に該当するか否かを判定する(図13のステップS6参照)。 Therefore, the second determination unit 406 further determines whether or not the operation performed in the console device 30 corresponds to the prohibited operation for the cluster state of the cluster # 0 at the time of operation based on the operation type error table 411. (See step S6 in FIG. 13).

図34に示す例においては、解析テーブル410によれば、障害発生時刻でのクラスタ(実機)のクラスタ状態{情報(C)}は「クラスタ#0 ON 完了」であり、コマンド実行失敗が検出された時刻の過去の直近に行なわれた操作内容{情報(E)}は「ON 実行」である。 In the example shown in FIG. 34, according to the analysis table 410, the cluster state {information (C)} of the cluster (actual machine) at the time of failure occurrence is "cluster # 0 ON completed", and a command execution failure is detected. The operation content {information (E)} performed most recently in the past at the specified time is "ON execution".

第2判定部406は、クラスタ状態{情報(C)}対する操作内容{情報(E)}が適切であるか否かを判定するために、操作種別エラーテーブル411を参照する。操作種別エラーテーブル411によれば、“クラスタ状態”「ON」に対して行った“操作”「ON」に対応する“操作種別”は、「NG操作」である。これは、当該操作によって、クラスタ(実機)にエラー状態が発生することを意味する(符号P10参照)。したがって、クラスタ状態の一致および操作がNG操作であることから、障害の原因は、操作に起因しないクラスタ10における障害以外であると特定される。 The second determination unit 406 refers to the operation type error table 411 in order to determine whether or not the operation content {information (E)} for the cluster state {information (C)} is appropriate. According to the operation type error table 411, the "operation type" corresponding to the "operation" "ON" performed for the "cluster state" "ON" is "NG operation". This means that the operation causes an error state in the cluster (actual machine) (see reference numeral P10). Therefore, since the matching of the cluster states and the operation are NG operations, the cause of the failure is identified as other than the failure in the cluster 10 which is not caused by the operation.

そこで、第2判定部は、さらに、操作種別エラーテーブル411に基づいて、禁止操作入力後のクラスタ10のクラスタ状態が、禁止操作に対応するエラー状態であるか否かを判定する(図13のステップS7参照)。 Therefore, the second determination unit further determines whether or not the cluster state of the cluster 10 after inputting the prohibited operation is an error state corresponding to the prohibited operation based on the operation type error table 411 (FIG. 13). See step S7).

図35に示す例においては、解析テーブル410によれば、障害発生時刻「2019/01/01 00:00:15」におけるクラスタ状態は、「クラスタ#0 コマンド実行失敗」であり、コマンド実行失敗が検出された時刻の過去の直近に行なわれた操作内容{情報(E)}は「ON 実行」である。 In the example shown in FIG. 35, according to the analysis table 410, the cluster state at the failure occurrence time “2019/01/01 00:00:15” is “cluster # 0 command execution failure”, and the command execution failure occurs. The operation content {information (E)} performed most recently in the past at the detected time is "ON execution".

第2判定部406は、操作内容{情報(E)}に対応するクラスタ状態が適切であるか否かを判定するために、操作種別エラーテーブル411を参照する。操作種別エラーテーブル411によれば、“クラスタ状態”「ON」に対して行った“操作”「ON」に対応する“操作種別”は、「NG操作」であり、当該操作によって発生するエラーは「コマンド実行失敗」である。 The second determination unit 406 refers to the operation type error table 411 in order to determine whether or not the cluster state corresponding to the operation content {information (E)} is appropriate. According to the operation type error table 411, the "operation type" corresponding to the "operation" and "ON" performed for the "cluster state" and "ON" is "NG operation", and the error generated by the operation is "Command execution failed".

そして、解析テーブル410におけるクラスタ状態は「コマンド実行失敗」であり、操作種別エラーテーブル411のエラー内容と一致している(符号P11参照)。したがって、操作がNG操作であり、かつ、操作種別エラーテーブル411のエラー内容と一致していることから、障害の原因は、単純な操作ミスであると特定される。 The cluster state in the analysis table 410 is "command execution failure", which matches the error content in the operation type error table 411 (see reference numeral P11). Therefore, since the operation is an NG operation and matches the error content of the operation type error table 411, the cause of the failure is identified as a simple operation error.

(C)効果
このように、実施形態の一例としてのマルチクラスタシステム1によれば、障害解析装置40の第1判定部405において、コンソール装置30において入力画面を介して行なわれた入力操作について、入力操作時の前記クラスタのクラスタ状態(実クラスタ状態)と、入力画面におけるクラスタ10のクラスタ状態(画面表示上クラスタ状態)とが一致するか否かを判定する。
(C) Effect As described above, according to the multi-cluster system 1 as an example of the embodiment, regarding the input operation performed by the console device 30 via the input screen in the first determination unit 405 of the failure analysis device 40. It is determined whether or not the cluster state (real cluster state) of the cluster at the time of the input operation and the cluster state of the cluster 10 on the input screen (cluster state on the screen display) match.

これにより、クラスタ状態が一致しない場合には、マルチクラスタシステム1における障害の原因は、コンソール装置30内部の負荷の高さに起因する、クラスタ状態をコンソール装置30の画面上に反映する描画処理に遅延が生じたことであると特定される。したがって、操作者はコンソール装置30の画面309上の情報に基づいて操作を行なったことが分かるため、操作者の誤操作という誤解が生ずることを防ぐことができる。 As a result, when the cluster states do not match, the cause of the failure in the multi-cluster system 1 is the drawing process that reflects the cluster state on the screen of the console device 30 due to the high load inside the console device 30. It is identified that a delay has occurred. Therefore, since it is known that the operator has performed the operation based on the information on the screen 309 of the console device 30, it is possible to prevent the misunderstanding that the operator makes an erroneous operation.

さらに、障害解析装置40の第2判定部406において、入力操作時の前記クラスタのクラスタ状態(実クラスタ状態)と前記入力画面における前記クラスタ10のクラスタ状態(画面表示上クラスタ状態)とが一致する場合には、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する。 Further, in the second determination unit 406 of the fault analysis device 40, the cluster state of the cluster (actual cluster state) at the time of the input operation and the cluster state of the cluster 10 on the input screen (cluster state on the screen display) match. In this case, it is determined whether or not the input operation corresponds to a prohibited operation for the cluster state of the cluster at the time of the operation.

これにより、操作が禁止操作に該当しない(OK操作)場合には、マルチクラスタシステム1における障害の原因は、操作に起因しないクラスタ障害であると特定できる。 Thereby, when the operation does not correspond to the prohibited operation (OK operation), the cause of the failure in the multi-cluster system 1 can be identified as a cluster failure not caused by the operation.

さらに、障害解析装置40の第2判定部406において、入力操作が禁止操作である場合には、禁止操作後のクラスタ10のクラスタ状態が、禁止操作に対応するエラー状態であるか否かを判定する。 Further, in the second determination unit 406 of the failure analysis device 40, when the input operation is a prohibited operation, it is determined whether or not the cluster state of the cluster 10 after the prohibited operation is an error state corresponding to the prohibited operation. do.

これにより、禁止操作に対応するエラー状態ではない場合には、マルチクラスタシステム1における障害の原因は、禁止操作に対応しないクラスタ(実機)における障害であると特定される。 As a result, if the error state does not correspond to the prohibited operation, the cause of the failure in the multi-cluster system 1 is identified as the failure in the cluster (actual machine) that does not correspond to the prohibited operation.

これに対し、禁止操作に対応するエラー状態ではない場合には、マルチクラスタシステム1における障害の原因は、単純な操作ミスであると特定される。 On the other hand, when the error state does not correspond to the prohibited operation, the cause of the failure in the multi-cluster system 1 is identified as a simple operation error.

障害解析装置40の記憶部において、クラスタの状態変化を示す状態変化履歴情報と、前記コンソール装置において行なわれた操作を示す操作履歴情報と、前記操作時における前記コンソール装置の画面情報とを関連付ける解析テーブル410を記憶する。 Analysis that associates the state change history information indicating the state change of the cluster, the operation history information indicating the operation performed in the console device, and the screen information of the console device at the time of the operation in the storage unit of the failure analysis device 40. Store table 410.

これにより、操作の前後における実際のクラスタのクラスタ状態と、コンソール装置がクラスタに行なった操作内容と、操作時のコンソール装置の画面上のクラスタのクラスタ状態とを対応付けることができる。 As a result, it is possible to associate the actual cluster state of the cluster before and after the operation with the operation content performed by the console device on the cluster and the cluster state of the cluster on the screen of the console device at the time of operation.

本実施形態では、画面情報はハッシュ値として算出される。画像の取得手法は、「画面」のキャプチャやビデオ撮影を実施する手法もある。ハッシュ値を算出する手法は、これらの手法に比べて、保存する画面情報のデータ量が少なく、セキュリティ上安全性が高い。また、操作者の操作と、履歴として保存される操作時刻は一致または略一致している。 In this embodiment, the screen information is calculated as a hash value. As an image acquisition method, there is also a method of capturing a "screen" or shooting a video. Compared with these methods, the method of calculating the hash value has a small amount of data of screen information to be saved, and is highly secure in terms of security. In addition, the operation of the operator and the operation time saved as a history match or substantially match.

障害解析装置40の記憶部において、操作時におけるコンソール装置30の画面情報と、画面情報から特定されるクラスタ10のクラスタ状態とを関連付けるクラスタ状態対応テーブル409を記憶する。 In the storage unit of the fault analysis device 40, the cluster state correspondence table 409 that associates the screen information of the console device 30 at the time of operation with the cluster state of the cluster 10 identified from the screen information is stored.

これにより、画面のハッシュ値と、操作時のコンソール装置の画面上のクラスタのクラスタ状態とを対応付けることができる。 As a result, the hash value of the screen can be associated with the cluster state of the cluster on the screen of the console device at the time of operation.

障害解析装置40の記憶部において、クラスタ状態と禁止操作とを対応付けた操作種別エラーテーブル411を記憶する。 In the storage unit of the fault analysis device 40, the operation type error table 411 in which the cluster state and the prohibited operation are associated with each other is stored.

これにより、クラスタ10のクラスタ状態と、コンソール装置30において行なわれた操作とを対応付けることができる。 Thereby, the cluster state of the cluster 10 can be associated with the operation performed by the console device 30.

さらに、障害解析装置40の第2判定部406において、入力操作時のクラスタのクラスタ状態(実クラスタ状態)に基づいて操作種別エラーテーブル411を参照することで、入力操作が、操作時のクラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する。 Further, in the second determination unit 406 of the fault analysis device 40, the input operation can be performed on the cluster at the time of operation by referring to the operation type error table 411 based on the cluster state (actual cluster state) of the cluster at the time of input operation. Determine if it corresponds to a prohibited operation for the cluster status.

これにより、操作がクラスタ状態に対して適切であるか否かと、操作の種別(OK操作/NG操作)に応じてクラスタ10に発生するエラー状態を特定することができる。 Thereby, it is possible to identify whether or not the operation is appropriate for the cluster state and the error state that occurs in the cluster 10 according to the type of operation (OK operation / NG operation).

さらに、障害解析装置40の解析テーブル作成部403において、状態変化履歴情報と操作履歴情報と時系列に並べることで、解析テーブル410を作成する。 Further, the analysis table creation unit 403 of the failure analysis device 40 creates the analysis table 410 by arranging the state change history information and the operation history information in chronological order.

これにより、上記パターン1〜4の障害を特定するために用いる情報を抽出することができる。 Thereby, the information used for identifying the obstacles of the above patterns 1 to 4 can be extracted.

障害解析装置40の第1判定部405において、解析テーブル410を参照して、入力操作時のクラスタのクラスタ状態(実クラスタ状態)と入力画面におけるクラスタ10のクラスタ状態(画面表示上クラスタ状態)とが一致するか否かを判定する。 In the first determination unit 405 of the fault analysis device 40, referring to the analysis table 410, the cluster state of the cluster at the time of the input operation (real cluster state) and the cluster state of the cluster 10 on the input screen (cluster state on the screen display). Determine if they match.

これにより、クラスタ状態が一致しない場合には、マルチクラスタシステム1における障害の原因は、コンソール装置30内部の負荷の高さに起因する、クラスタ状態をコンソール装置30の画面上に反映する描画処理に遅延が生じたことであると特定される。 As a result, when the cluster states do not match, the cause of the failure in the multi-cluster system 1 is the drawing process that reflects the cluster state on the screen of the console device 30 due to the high load inside the console device 30. It is identified that a delay has occurred.

解析テーブルは、さらに、操作時におけるコンソール装置30の画面情報を含む。 The analysis table further includes screen information of the console device 30 during operation.

また、障害解析装置40の解析テーブル作成部403において、コンソール装置30の画面情報に基づいてクラスタ状態対応情報を参照することで、前記画面情報から特定される前記クラスタのクラスタ状態を取得する。 Further, in the analysis table creation unit 403 of the failure analysis device 40, the cluster state of the cluster specified from the screen information is acquired by referring to the cluster state correspondence information based on the screen information of the console device 30.

これにより、コンソール装置30の入力画面におけるクラスタ10のクラスタ状態(画面表示上クラスタ状態)を特定することができる。 Thereby, the cluster state of the cluster 10 (cluster state on the screen display) on the input screen of the console device 30 can be specified.

(D)その他
[コンソール装置30のハードウェア構成]
図36は実施形態の一例としてのマルチクラスタシステム1のコンソール装置30のハードウェア構成を例示する図である。
(D) Others [Hardware configuration of console device 30]
FIG. 36 is a diagram illustrating a hardware configuration of the console device 30 of the multi-cluster system 1 as an example of the embodiment.

コンソール装置30は、例えば、サーバ機能を有するコンピュータであり、CPU(Central Processing Unit;プロセッサ)3001、メモリ3002、記憶部3003、ネットワークIF(Interface)部3004、出力部3005、入力部3006、および機器接続IF部3007を備えてよい。これらの機器はネットワーク3008により相互に接続されている。 The console device 30 is, for example, a computer having a server function, and is a CPU (Central Processing Unit; processor) 3001, a memory 3002, a storage unit 3003, a network IF (Interface) unit 3004, an output unit 3005, an input unit 3006, and a device. A connection IF unit 3007 may be provided. These devices are interconnected by a network 3008.

CPU3001は、後述する記憶部3003等に格納されるOS(Operating System)や任意のプログラムを実行し、例えば、後述するクラスタ10に対して操作を行なう。 The CPU 3001 executes an OS (Operating System) or an arbitrary program stored in a storage unit 3003 or the like described later, and performs an operation on the cluster 10 described later, for example.

メモリ3002は、種々のデータやプログラムを格納するハードウェアの一例である。メモリ3002としては、RAM(Random Access Memory)等の揮発性メモリや、フラッシュメモリ、SCM、ROM(Read Only Memory)等の不揮発性メモリが挙げられる。 The memory 3002 is an example of hardware for storing various data and programs. Examples of the memory 3002 include volatile memories such as RAM (Random Access Memory) and non-volatile memories such as flash memory, SCM, and ROM (Read Only Memory).

記憶部3003は、種々のデータやプログラム等を格納するハードウェアの一例である。例えば、記憶部3003は、コンソール装置30の二次記憶装置として使用されてよく、OSやファームウェア、アプリケーション等のプログラム、および、各種データが格納されてよい。記憶部3003としては、例えば、HDD(Hard Disk Drive)等の磁気ディスク装置の他、SSD(Solid State Drive)やSCM(Storage Class Memory) 等の半導体記憶装置が挙げられる。また、記憶部3003は、コンソール装置30の各種機能の全部若しくは一部を実現するプログラムを格納してもよい。 The storage unit 3003 is an example of hardware for storing various data, programs, and the like. For example, the storage unit 3003 may be used as a secondary storage device of the console device 30, and may store programs such as an OS, firmware, and applications, and various data. Examples of the storage unit 3003 include a magnetic disk device such as an HDD (Hard Disk Drive) and a semiconductor storage device such as an SSD (Solid State Drive) and an SCM (Storage Class Memory). Further, the storage unit 3003 may store a program that realizes all or a part of various functions of the console device 30.

ネットワークIF部3004は、図示しないネットワークを介して、クラスタ10、SVPM20、障害解析装置40との間の接続および通信の制御等を行なう通信インタフェースの一例である。例えば、ネットワークIF部3004としては、イーサネット(登録商標)、光通信(例えばFibre Channel)等に準拠したアダプタが挙げられる。 The network IF unit 3004 is an example of a communication interface that controls connection and communication between the cluster 10, the SVPM20, and the fault analysis device 40 via a network (not shown). For example, the network IF unit 3004 includes an adapter compliant with Ethernet (registered trademark), optical communication (for example, Fiber Channel), and the like.

出力部3005は、例えば、ディスプレイ3015aや、プロジェクタ、スピーカ、プリンタ等の出力装置の少なくともいずれか一つを含んでよい。 The output unit 3005 may include, for example, at least one of a display 3015a and an output device such as a projector, a speaker, and a printer.

入力部3006は、例えば、キーボード3016a(308)、マウス3016b(308)、タッチパネル、操作ボタン等の入力装置の少なくともいずれか一つを含んでよい。 The input unit 3006 may include, for example, at least one of an input device such as a keyboard 3016a (308), a mouse 3016b (308), a touch panel, and operation buttons.

機器接続IF部3007は、コンソール装置30に周辺機器を接続するための通信インタフェースである。例えば、機器接続IF部3007には、メモリ装置3017aやメモリリーダライタ3017bを接続することができる。メモリ装置3017aは、機器接続IF部3007との通信機能を搭載した非一時的な記録媒体、例えばUSB(Universal Serial Bus)メモリである。メモリリーダライタ3017bは、メモリカード3017cへのデータの書き込み、またはメモリカード3017cからのデータの読み出しを行なう。メモリカード3017cは、カード型の非一時的な記録媒体である。 The device connection IF unit 3007 is a communication interface for connecting peripheral devices to the console device 30. For example, a memory device 3017a or a memory reader / writer 3017b can be connected to the device connection IF unit 3007. The memory device 3017a is a non-temporary recording medium equipped with a communication function with the device connection IF unit 3007, for example, a USB (Universal Serial Bus) memory. The memory reader / writer 3017b writes data to the memory card 3017c or reads data from the memory card 3017c. The memory card 3017c is a card-type non-temporary recording medium.

本実施形態では、コンソール装置30は、記憶部3003に記憶されている各種ログを、有線または無線ネットワークを介して障害解析装置40に送信してもよい。あるいは、コンソール装置30は、当該各種ログをメモリ装置3017aまたはメモリカード3017cに書き出してもよい。 In the present embodiment, the console device 30 may transmit various logs stored in the storage unit 3003 to the failure analysis device 40 via a wired or wireless network. Alternatively, the console device 30 may write the various logs to the memory device 3017a or the memory card 3017c.

[障害解析装置40のハードウェア構成]
図37は実施形態の一例としてのマルチクラスタシステム1の障害解析装置40のハードウェア構成を例示する図である。
[Hardware configuration of fault analysis device 40]
FIG. 37 is a diagram illustrating a hardware configuration of the failure analysis device 40 of the multi-cluster system 1 as an example of the embodiment.

障害解析装置40は、例えば、サーバ機能を有するコンピュータであり、CPU(Central Processing Unit;プロセッサ)4001、メモリ4002、記憶部4003、ネットワークIF(Interface)部4004、出力部4005、入力部4006、および機器接続IF部4007を備えてよい。これらの機器はネットワーク4008により相互に接続されている。 The fault analysis device 40 is, for example, a computer having a server function, and is a CPU (Central Processing Unit; processor) 4001, a memory 4002, a storage unit 4003, a network IF (Interface) unit 4004, an output unit 4005, an input unit 4006, and The device connection IF unit 4007 may be provided. These devices are interconnected by a network 4008.

CPU4001は、後述する記憶部4003等に格納されるOS(Operating System)や任意のプログラムを実行し、例えば、後述するクラスタ10に対して操作を行なう。 The CPU 4001 executes an OS (Operating System) or an arbitrary program stored in a storage unit 4003 or the like described later, and performs an operation on the cluster 10 described later, for example.

メモリ4002は、種々のデータやプログラムを格納するハードウェアの一例である。メモリ4002としては、RAM(Random Access Memory)等の揮発性メモリや、フラッシュメモリ、SCM、ROM(Read Only Memory)等の不揮発性メモリが挙げられる。 The memory 4002 is an example of hardware for storing various data and programs. Examples of the memory 4002 include volatile memories such as RAM (Random Access Memory) and non-volatile memories such as flash memory, SCM, and ROM (Read Only Memory).

記憶部4003は、種々のデータやプログラム等を格納するハードウェアの一例である。例えば、記憶部4003は、コンソール装置30の二次記憶装置として使用されてよく、OSやファームウェア、アプリケーション等のプログラム、および、各種データが格納されてよい。記憶部4003としては、例えば、HDD(Hard Disk Drive)等の磁気ディスク装置の他、SSD(Solid State Drive)やSCM(Storage Class Memory) 等の半導体記憶装置が挙げられる。また、記憶部4003は、コンソール装置30の各種機能の全部若しくは一部を実現するプログラムを格納してもよい。 The storage unit 4003 is an example of hardware for storing various data, programs, and the like. For example, the storage unit 4003 may be used as a secondary storage device of the console device 30, and may store programs such as an OS, firmware, and applications, and various data. Examples of the storage unit 4003 include a magnetic disk device such as an HDD (Hard Disk Drive) and a semiconductor storage device such as an SSD (Solid State Drive) and an SCM (Storage Class Memory). Further, the storage unit 4003 may store a program that realizes all or a part of various functions of the console device 30.

ネットワークIF部4004は、図示しないネットワークを介して、クラスタ10、SVPM20、障害解析装置40との間の接続および通信の制御等を行なう通信インタフェースの一例である。例えば、ネットワークIF部4004としては、イーサネット(登録商標)、光通信(例えばFibre Channel)等に準拠したアダプタが挙げられる。 The network IF unit 4004 is an example of a communication interface that controls connection and communication between the cluster 10, the SVPM20, and the fault analysis device 40 via a network (not shown). For example, the network IF unit 4004 includes an adapter compliant with Ethernet (registered trademark), optical communication (for example, Fiber Channel), and the like.

出力部4005は、例えば、ディスプレイ4015aや、プロジェクタ、スピーカ、プリンタ等の出力装置の少なくともいずれか一つを含んでよい。 The output unit 4005 may include, for example, at least one of a display 4015a and an output device such as a projector, a speaker, and a printer.

入力部4006は、例えば、キーボード4016a、マウス4016b、タッチパネル、操作ボタン等の入力装置の少なくともいずれか一つを含んでよい。 The input unit 4006 may include, for example, at least one of an input device such as a keyboard 4016a, a mouse 4016b, a touch panel, and operation buttons.

機器接続IF部4007は、コンソール装置30に周辺機器を接続するための通信インタフェースである。例えば、機器接続IF部4007には、メモリ装置4017aやメモリリーダライタ4017bを接続することができる。メモリ装置4017aは、機器接続IF部3007との通信機能を搭載した非一時的な記録媒体、例えばUSB(Universal Serial Bus)メモリである。メモリリーダライタ4017bは、メモリカード4017cへのデータの書き込み、またはメモリカード4017cからのデータの読み出しを行なう。メモリカード4017cは、カード型の非一時的な記録媒体である。 The device connection IF unit 4007 is a communication interface for connecting peripheral devices to the console device 30. For example, a memory device 4017a or a memory reader / writer 4017b can be connected to the device connection IF unit 4007. The memory device 4017a is a non-temporary recording medium equipped with a communication function with the device connection IF unit 3007, for example, a USB (Universal Serial Bus) memory. The memory reader / writer 4017b writes data to the memory card 4017c or reads data from the memory card 4017c. The memory card 4017c is a card-type non-temporary recording medium.

本実施形態では、障害解析装置40は、記憶部4003に記憶している情報を、有線または無線ネットワークを介してコンソール装置30に送信してもよい。あるいは、障害解析装置40は、当該各種ログをメモリ装置4017aまたはメモリカード4017cに書き出してもよい。 In the present embodiment, the fault analysis device 40 may transmit the information stored in the storage unit 4003 to the console device 30 via a wired or wireless network. Alternatively, the fault analysis device 40 may write the various logs to the memory device 4017a or the memory card 4017c.

開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態の各構成および各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。 The disclosed technique is not limited to the above-described embodiment, and can be variously modified and implemented without departing from the spirit of the present embodiment. Each configuration and each process of the present embodiment can be selected as necessary, or may be combined as appropriate.

なお、上述した実施形態に関わらず、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。 Regardless of the above-described embodiment, various modifications can be made without departing from the spirit of the present embodiment.

また、上述した開示により本実施形態を当業者によって実施・製造することが可能である。 Further, according to the above-mentioned disclosure, it is possible for a person skilled in the art to carry out and manufacture the present embodiment.

(E)付記
以上の実施形態に関し、さらに以下の付記を開示する。
(E) Additional notes The following additional notes will be further disclosed with respect to the above embodiments.

(付記1)
クラスタと、前記クラスタを制御するコンソール装置と、障害を解析する障害解析装置とを備えるマルチクラスタシステムであって、
前記障害解析装置が、
前記コンソール装置において入力画面を介して行なわれた入力操作について、前記入力操作時の前記クラスタのクラスタ状態と、前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定する第1判定部と、
入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致する場合には、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する第2判定部と
を備えることを特徴とする、マルチクラスタシステム。
(Appendix 1)
A multi-cluster system including a cluster, a console device that controls the cluster, and a failure analysis device that analyzes failures.
The fault analysis device
First determination for determining whether or not the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match with respect to the input operation performed via the input screen in the console device. Department and
When the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match, whether or not the input operation corresponds to a prohibited operation for the cluster state of the cluster at the time of the operation. A multi-cluster system comprising a second determination unit for determining.

(付記2)
前記障害解析装置が、
前記入力操作が禁止操作である場合には、前記禁止操作後の前記クラスタのクラスタ状態が、前記禁止操作に対応するエラー状態であるか否かを判定する第3判定部を備える
ことを特徴とする、付記1に記載のマルチクラスタシステム。
(Appendix 2)
The fault analysis device
When the input operation is a prohibited operation, a third determination unit for determining whether or not the cluster state of the cluster after the prohibited operation is an error state corresponding to the prohibited operation is provided. The multi-cluster system according to Appendix 1.

(付記3)
前記障害解析装置が、
前記クラスタの状態変化を示す状態変化履歴情報と、前記コンソール装置において行なわれた操作を示す操作履歴情報と、前記操作時における前記コンソール装置の画面情報とを関連付ける解析情報を記憶する記憶部を備え、
前記第1判定部が、前記解析情報を参照して、前記入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定する
ことを特徴とする、付記1または2に記載のマルチクラスタシステム。
(Appendix 3)
The fault analysis device
A storage unit that stores analysis information that associates state change history information indicating a state change of the cluster, operation history information indicating an operation performed in the console device, and screen information of the console device at the time of the operation is provided. ,
The first determination unit refers to the analysis information and determines whether or not the cluster state of the cluster at the time of the input operation matches the cluster state of the cluster on the input screen. , The multi-cluster system according to Appendix 1 or 2.

(付記4)
前記障害解析装置が、
前記状態変化履歴情報と前記操作履歴情報と時系列に並べることで、前記解析情報を作成する解析情報作成部を備える
ことを特徴とする付記3に記載のマルチクラスタシステム。
(Appendix 4)
The fault analysis device
The multi-cluster system according to Appendix 3, further comprising an analysis information creating unit that creates the analysis information by arranging the state change history information and the operation history information in chronological order.

(付記5)
前記解析情報は、さらに前記操作時における前記コンソール装置の画面情報を含み、
前記解析情報作成部は、前記コンソール装置の画面情報に基づいてクラスタ状態対応情報を参照することで、前記画面情報から特定される前記クラスタのクラスタ状態を取得する
ことを特徴とする、付記4に記載のマルチクラスタシステム。
(Appendix 5)
The analysis information further includes screen information of the console device at the time of the operation.
The analysis information creation unit obtains the cluster state of the cluster specified from the screen information by referring to the cluster state correspondence information based on the screen information of the console device. Described multi-cluster system.

(付記6)
前記障害解析装置が、
前記クラスタ状態と前記禁止操作とを対応付けた禁止情報を記憶する記憶部を備え、
前記第2判定部は、入力操作時の前記クラスタのクラスタ状態に基づいて前記禁止情報を参照することで、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する
ことを特徴とする、付記1〜5のいずれか一項に記載のマルチクラスタシステム。
(Appendix 6)
The fault analysis device
A storage unit for storing prohibited information in which the cluster state and the prohibited operation are associated with each other is provided.
The second determination unit refers to the prohibition information based on the cluster state of the cluster at the time of the input operation, and whether or not the input operation corresponds to the prohibition operation for the cluster state of the cluster at the time of the operation. The multi-cluster system according to any one of Appendix 1 to 5, wherein the multi-cluster system is characterized in that.

(付記7)
クラスタと、前記クラスタを制御するコンソール装置とを備えるマルチクラスタシステムに備えられ、当該マルチクラスタシステムにおいて発生する障害を解析する障害解析装置であって、
前記コンソール装置において入力画面を介して行なわれた入力操作について、前記入力操作時の前記クラスタのクラスタ状態と、前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定する第1判定部と、
入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致する場合には、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する第2判定部と
を備えることを特徴とする、障害解析装置。
(Appendix 7)
It is a failure analysis device provided in a multi-cluster system including a cluster and a console device that controls the cluster, and analyzes a failure that occurs in the multi-cluster system.
First determination for determining whether or not the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match with respect to the input operation performed via the input screen in the console device. Department and
When the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match, whether or not the input operation corresponds to a prohibited operation for the cluster state of the cluster at the time of the operation. A fault analysis device comprising a second determination unit for determining.

(付記8)
前記入力操作が禁止操作である場合には、前記禁止操作後の前記クラスタのクラスタ状態が、前記禁止操作に対応するエラー状態であるか否かを判定する第3判定部を備える
ことを特徴とする、付記7に記載の障害解析装置。
(Appendix 8)
When the input operation is a prohibited operation, a third determination unit for determining whether or not the cluster state of the cluster after the prohibited operation is an error state corresponding to the prohibited operation is provided. The fault analysis device according to Appendix 7.

(付記9)
前記クラスタの状態変化を示す状態変化履歴情報と、前記コンソール装置において行なわれた操作を示す操作履歴情報と、前記操作時における前記コンソール装置の画面情報とを関連付ける解析情報を記憶する記憶部を備え、
前記第1判定部が、前記解析情報を参照して、前記入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定する
ことを特徴とする、付記7または8に記載の障害解析装置。
(Appendix 9)
A storage unit that stores analysis information that associates state change history information indicating a state change of the cluster, operation history information indicating an operation performed in the console device, and screen information of the console device at the time of the operation is provided. ,
The first determination unit refers to the analysis information and determines whether or not the cluster state of the cluster at the time of the input operation matches the cluster state of the cluster on the input screen. , The fault analysis apparatus according to Appendix 7 or 8.

(付記10)
前記状態変化履歴情報と前記操作履歴情報と時系列に並べることで、前記解析情報を作成する解析情報作成部を備える
ことを特徴とする、付記9に記載の障害解析装置。
(Appendix 10)
The failure analysis apparatus according to Appendix 9, further comprising an analysis information creating unit that creates the analysis information by arranging the state change history information and the operation history information in chronological order.

(付記11)
前記解析情報は、さらに前記操作時における前記コンソール装置の画面情報を含み、
前記解析情報作成部は、前記コンソール装置の画面情報に基づいてクラスタ状態対応情報を参照することで、前記画面情報から特定される前記クラスタのクラスタ状態を取得する
ことを特徴とする付記10に記載の障害解析装置。
(Appendix 11)
The analysis information further includes screen information of the console device at the time of the operation.
The analysis information creation unit is described in Appendix 10 characterized in that the cluster state of the cluster specified from the screen information is acquired by referring to the cluster state correspondence information based on the screen information of the console device. Fault analysis device.

(付記12)
前記クラスタ状態と前記禁止操作とを対応付けた禁止情報を記憶する記憶部を備え、
前記第2判定部は、入力操作時の前記クラスタのクラスタ状態に基づいて前記禁止情報を参照することで、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する
ことを特徴とする付記7〜11のいずれか一項に記載の障害解析装置。
(Appendix 12)
A storage unit for storing prohibited information in which the cluster state and the prohibited operation are associated with each other is provided.
The second determination unit refers to the prohibition information based on the cluster state of the cluster at the time of the input operation, and whether or not the input operation corresponds to the prohibition operation for the cluster state of the cluster at the time of the operation. The fault analysis apparatus according to any one of Supplementary note 7 to 11, wherein the fault analysis apparatus is characterized by determining whether or not the data is used.

(付記13)
クラスタと、前記クラスタを制御するコンソール装置とを備えるマルチクラスタシステムに備えられ、当該マルチクラスタシステムにおいて発生する障害を解析する障害解析装置のプロセッサに、
前記コンソール装置において入力画面を介して行なわれた入力操作について、前記入力操作時の前記クラスタのクラスタ状態と、前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定させ、
入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致する場合には、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定させる
処理を実行させる、障害解析プログラム。
(Appendix 13)
A processor of a failure analysis device provided in a multi-cluster system including a cluster and a console device for controlling the cluster and analyzing a failure occurring in the multi-cluster system.
With respect to the input operation performed via the input screen in the console device, it is determined whether or not the cluster state of the cluster at the time of the input operation matches the cluster state of the cluster on the input screen.
When the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match, whether or not the input operation corresponds to a prohibited operation for the cluster state of the cluster at the time of the operation. A failure analysis program that executes the process of determining.

(付記14)
前記入力操作が禁止操作である場合には、前記禁止操作後の前記クラスタのクラスタ状態が、前記禁止操作に対応するエラー状態であるか否かを判定させる
処理を前記プロセッサに実行させる、付記13に記載の障害解析プログラム。
(Appendix 14)
When the input operation is a prohibited operation, the processor is made to execute a process of determining whether or not the cluster state of the cluster after the prohibited operation is an error state corresponding to the prohibited operation. The fault analysis program described in.

(付記15)
前記クラスタの状態変化を示す状態変化履歴情報と、前記コンソール装置において行なわれた操作を示す操作履歴情報と、前記操作時における前記コンソール装置の画面情報とを関連付ける解析情報を記憶させ、
前記解析情報を参照して、前記入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定させる
処理を前記プロセッサに実行させる、付記13または14に記載の障害解析プログラム。
(Appendix 15)
The state change history information indicating the state change of the cluster, the operation history information indicating the operation performed in the console device, and the analysis information relating to the screen information of the console device at the time of the operation are stored.
Appendix 13 or 14 for causing the processor to execute a process of determining whether or not the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match with reference to the analysis information. The fault analysis program described in.

(付記16)
前記状態変化履歴情報と前記操作履歴情報と時系列に並べることで、解析情報を作成させる
処理を前記プロセッサに実行させる、付記15に記載の障害解析プログラム。
(Appendix 16)
The failure analysis program according to Appendix 15, which causes the processor to execute a process of creating analysis information by arranging the state change history information and the operation history information in chronological order.

(付記17)
前記解析情報は、さらに前記操作時における前記コンソール装置の画面情報を含み、
前記コンソール装置の画面情報に基づいてクラスタ状態対応情報を参照させ、前記画面情報から特定される前記クラスタのクラスタ状態を取得させる
処理を前記プロセッサに実行させる、付記16に記載の障害解析プログラム。
(Appendix 17)
The analysis information further includes screen information of the console device at the time of the operation.
The failure analysis program according to Appendix 16, which causes the processor to execute a process of referring to cluster state correspondence information based on the screen information of the console device and acquiring the cluster state of the cluster specified from the screen information.

(付記18)
前記クラスタ状態と前記禁止操作とを対応付けた禁止情報を記憶させ、
入力操作時の前記クラスタのクラスタ状態に基づいて前記禁止情報を参照することで、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定させる
処理を前記プロセッサに実行させる、付記13〜17のいずれか一項に記載の障害解析プログラム。
(Appendix 18)
The prohibition information associated with the cluster state and the prohibition operation is stored, and the prohibition information is stored.
By referring to the prohibition information based on the cluster state of the cluster at the time of the input operation, the process of determining whether or not the input operation corresponds to the prohibition operation for the cluster state of the cluster at the time of the operation is described. The failure analysis program according to any one of Appendix 13 to 17, which is executed by a processor.

(付記19)
クラスタと、前記クラスタを制御するコンソール装置とを備えるマルチクラスタシステムにおける障害解析方法であって、
前記コンソール装置において入力画面を介して行なわれた入力操作について、前記入力操作時の前記クラスタのクラスタ状態と、前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定し、
入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致する場合には、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する
ことを特徴とする、障害解析方法。
(Appendix 19)
A failure analysis method in a multi-cluster system including a cluster and a console device that controls the cluster.
Regarding the input operation performed via the input screen in the console device, it is determined whether or not the cluster state of the cluster at the time of the input operation matches the cluster state of the cluster on the input screen.
When the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match, whether or not the input operation corresponds to a prohibited operation for the cluster state of the cluster at the time of the operation. A failure analysis method characterized by determining.

(付記20)
前記入力操作が禁止操作である場合には、前記禁止操作後の前記クラスタのクラスタ状態が、前記禁止操作に対応するエラー状態であるか否かを判定する
ことを特徴とする、付記19に記載の障害解析方法。
(Appendix 20)
When the input operation is a prohibited operation, it is described in Appendix 19 that it is determined whether or not the cluster state of the cluster after the prohibited operation is an error state corresponding to the prohibited operation. Failure analysis method.

(付記21)
前記クラスタの状態変化を示す状態変化履歴情報と、前記コンソール装置において行なわれた操作を示す操作履歴情報と、前記操作時における前記コンソール装置の画面情報とを関連付ける解析情報を記憶し、
前記解析情報を参照して、前記入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定する
ことを特徴とする、付記19または20に記載の障害解析方法。
(Appendix 21)
The state change history information indicating the state change of the cluster, the operation history information indicating the operation performed in the console device, and the analysis information relating to the screen information of the console device at the time of the operation are stored.
19 or 20, wherein it is determined whether or not the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match with reference to the analysis information. Failure analysis method.

(付記22)
前記状態変化履歴情報と前記操作履歴情報と時系列に並べることで、解析情報を作成する
ことを特徴とする、付記21に記載の障害解析方法。
(Appendix 22)
The failure analysis method according to Appendix 21, wherein analysis information is created by arranging the state change history information and the operation history information in chronological order.

(付記23)
前記解析情報は、さらに前記操作時における前記コンソール装置の画面情報を含み、
前記コンソール装置の画面情報に基づいてクラスタ状態対応情報を参照し、前記画面情報から特定される前記クラスタのクラスタ状態を取得する
ことを特徴とする、付記22に記載の障害解析方法。
(Appendix 23)
The analysis information further includes screen information of the console device at the time of the operation.
The failure analysis method according to Appendix 22, wherein the cluster state correspondence information is referred to based on the screen information of the console device, and the cluster state of the cluster specified from the screen information is acquired.

(付記24)
前記クラスタ状態と前記禁止操作とを対応付けた禁止情報を記憶し、
入力操作時の前記クラスタのクラスタ状態に基づいて前記禁止情報を参照することで、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する
ことを特徴とする、付記19〜23のいずれか一項に記載の障害解析方法。
(Appendix 24)
The prohibition information associated with the cluster state and the prohibition operation is stored, and the prohibition information is stored.
By referring to the prohibition information based on the cluster state of the cluster at the time of the input operation, it is determined whether or not the input operation corresponds to the prohibition operation for the cluster state of the cluster at the time of the operation. The fault analysis method according to any one of Appendix 19 to 23.

1 マルチクラスタシステム
10−1 クラスタ#0
10−2 クラスタ#1
20 SVPM
30 コンソール装置
40 障害解析装置
50 LANネットワーク
301 クラスタ状態変化検出部
302 フレーム表示制御部
303 コンソール状態監視部
304 記憶部
305 画面ハッシュ値保存部
306 マウス・キーボードドライバ
307 ディスプレイドライバ
308 キーボード・マウス
309 画面
310 ボタン処理部
311 画面処理部
312 コンソール内部状態ログ
313 クラスタ状態変化ログ
314 画面ハッシュ値付き操作ログ
401 記憶部
402 記憶制御部
403 解析テーブル作成部
404 抽出部
405 第1判定部
406 第2判定部
407 クラスタ状態エラーリスト
408 クラスタ状態変化完了リスト
409 クラスタ状態対応テーブル
410 解析テーブル
411 操作種別エラーテーブル
3001 プロセッサ(CPU)
3002 メモリ
3003 記憶部
3004 ネットワークIF(Interface)部
3005 出力部
3006 入力部
3007 機器接続IF部
3008 ネットワーク
3015a ディスプレイ
3016a キーボード
3016b マウス
3017a メモリ装置
3017b メモリリーダライタ
3017c メモリカード
4001 プロセッサ(CPU)
4002 メモリ
4003 記憶部
4004 ネットワークIF(Interface)部
4005 出力部
4006 入力部
4007 機器接続IF部
4008 ネットワーク
4015a ディスプレイ
4016a キーボード
4016b マウス
4017a メモリ装置
4017b メモリリーダライタ
4017c メモリカード
1 Multi-cluster system 10-1 Cluster # 0
10-2 Cluster # 1
20 SVPM
30 Console device 40 Fault analysis device 50 LAN network 301 Cluster status change detection unit 302 Frame display control unit 303 Console status monitoring unit 304 Storage unit 305 Screen hash value storage unit 306 Mouse / keyboard driver 307 Display driver 308 Keyboard / mouse 309 Screen 310 Button processing unit 311 Screen processing unit 312 Console internal status log 313 Cluster status change log 314 Operation log with screen hash value 401 Storage unit 402 Storage control unit 403 Analysis table creation unit 404 Extraction unit 405 First judgment unit 406 Second judgment unit 407 Cluster status error list 408 Cluster status change completion list 409 Cluster status correspondence table 410 Analysis table 411 Operation type error table 3001 Processor (CPU)
3002 Memory 3003 Storage 3004 Network IF (Interface) 3005 Output 3006 Input 3007 Device connection IF 3008 Network 3015a Display 3016a Keyboard 3016b Mouse 3017a Memory device 3017b Memory reader / writer 3017c Memory card 4001 Processor (CPU)
4002 Memory 4003 Storage 4004 Network IF (Interface) 4005 Output 4006 Input 4007 Device connection IF 4008 Network 4015a Display 4016a Keyboard 4016b Mouse 4017a Memory device 4017b Memory reader / writer 4017c Memory card

Claims (9)

クラスタと、前記クラスタを制御するコンソール装置とを備えるマルチクラスタシステムに備えられ、当該マルチクラスタシステムにおいて発生する障害を解析する障害解析装置であって、
前記コンソール装置において入力画面を介して行なわれた入力操作について、前記入力操作時の前記クラスタのクラスタ状態と、前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定する第1判定部と、
入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致する場合には、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する第2判定部と
を備えることを特徴とする、障害解析装置。
It is a failure analysis device provided in a multi-cluster system including a cluster and a console device that controls the cluster, and analyzes a failure that occurs in the multi-cluster system.
First determination for determining whether or not the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match with respect to the input operation performed via the input screen in the console device. Department and
When the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match, whether or not the input operation corresponds to a prohibited operation for the cluster state of the cluster at the time of the operation. A fault analysis device comprising a second determination unit for determining.
前記入力操作が禁止操作である場合には、前記禁止操作後の前記クラスタのクラスタ状態が、前記禁止操作に対応するエラー状態であるか否かを判定する第3判定部と
を備えることを特徴とする、請求項1に記載の障害解析装置。
When the input operation is a prohibited operation, a third determination unit for determining whether or not the cluster state of the cluster after the prohibited operation is an error state corresponding to the prohibited operation is provided. The fault analysis device according to claim 1.
前記クラスタの状態変化を示す状態変化履歴情報と、前記コンソール装置において行なわれた操作を示す操作履歴情報と、前記操作時における前記コンソール装置の画面情報とを関連付ける解析情報を記憶する記憶部を備え、
前記第1判定部が、前記解析情報を参照して、前記入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定する
ことを特徴とする、請求項1または2に記載の障害解析装置。
A storage unit that stores analysis information that associates state change history information indicating a state change of the cluster, operation history information indicating an operation performed in the console device, and screen information of the console device at the time of the operation is provided. ,
The first determination unit refers to the analysis information and determines whether or not the cluster state of the cluster at the time of the input operation matches the cluster state of the cluster on the input screen. , The fault analysis apparatus according to claim 1 or 2.
前記状態変化履歴情報と前記操作履歴情報と時系列に並べることで、解析情報を作成する解析情報作成部を備える
ことを特徴とする請求項3に記載の障害解析装置。
The failure analysis apparatus according to claim 3, further comprising an analysis information creating unit that creates analysis information by arranging the state change history information and the operation history information in chronological order.
前記解析情報は、さらに前記操作時における前記コンソール装置の画面情報を含み、
前記解析情報作成部は、前記コンソール装置の画面情報に基づいてクラスタ状態対応情報を参照することで、前記画面情報から特定される前記クラスタのクラスタ状態を取得する
ことを特徴とする請求項4に記載の障害解析装置。
The analysis information further includes screen information of the console device at the time of the operation.
The fourth aspect of the present invention is that the analysis information creation unit acquires the cluster state of the cluster specified from the screen information by referring to the cluster state correspondence information based on the screen information of the console device. The fault analyzer described.
前記クラスタ状態と前記禁止操作とを対応付けた禁止情報を記憶する記憶部を備え、
前記第2判定部は、入力操作時の前記クラスタのクラスタ状態に基づいて前記禁止情報を参照することで、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する
ことを特徴とする請求項1〜5のいずれか一項に記載の障害解析装置。
A storage unit for storing prohibited information in which the cluster state and the prohibited operation are associated with each other is provided.
The second determination unit refers to the prohibition information based on the cluster state of the cluster at the time of the input operation, and whether or not the input operation corresponds to the prohibition operation for the cluster state of the cluster at the time of the operation. The fault analysis apparatus according to any one of claims 1 to 5, wherein the fault analysis apparatus is characterized by determining whether or not the data is used.
クラスタと、前記クラスタを制御するコンソール装置と、障害を解析する障害解析装置とを備えるマルチクラスタシステムであって、
前記障害解析装置が、
前記コンソール装置において入力画面を介して行なわれた入力操作について、前記入力操作時の前記クラスタのクラスタ状態と、前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定する第1判定部と、
入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致する場合には、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する第2判定部と
を備えることを特徴とする、マルチクラスタシステム。
A multi-cluster system including a cluster, a console device that controls the cluster, and a failure analysis device that analyzes failures.
The fault analysis device
First determination for determining whether or not the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match with respect to the input operation performed via the input screen in the console device. Department and
When the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match, whether or not the input operation corresponds to a prohibited operation for the cluster state of the cluster at the time of the operation. A multi-cluster system comprising a second determination unit for determining.
クラスタと、前記クラスタを制御するコンソール装置とを備えるマルチクラスタシステムに備えられ、当該マルチクラスタシステムにおいて発生する障害を解析する障害解析装置のプロセッサに、
前記コンソール装置において入力画面を介して行なわれた入力操作について、前記入力操作時の前記クラスタのクラスタ状態と、前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定させ、
入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致する場合には、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定させる
処理を実行させる、障害解析プログラム。
A processor of a failure analysis device provided in a multi-cluster system including a cluster and a console device for controlling the cluster and analyzing a failure occurring in the multi-cluster system.
With respect to the input operation performed via the input screen in the console device, it is determined whether or not the cluster state of the cluster at the time of the input operation matches the cluster state of the cluster on the input screen.
When the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match, whether or not the input operation corresponds to a prohibited operation for the cluster state of the cluster at the time of the operation. A failure analysis program that executes the process of determining.
クラスタと、前記クラスタを制御するコンソール装置とを備えるマルチクラスタシステムにおける障害解析方法であって、
前記コンソール装置において入力画面を介して行なわれた入力操作について、前記入力操作時の前記クラスタのクラスタ状態と、前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定し、
入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致する場合には、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する
ことを特徴とする、障害解析方法。
A failure analysis method in a multi-cluster system including a cluster and a console device that controls the cluster.
Regarding the input operation performed via the input screen in the console device, it is determined whether or not the cluster state of the cluster at the time of the input operation matches the cluster state of the cluster on the input screen.
When the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match, whether or not the input operation corresponds to a prohibited operation for the cluster state of the cluster at the time of the operation. A failure analysis method characterized by determining.
JP2020008644A 2020-01-22 2020-01-22 Failure analysis device, multi-cluster system, failure analysis program and failure analysis method Pending JP2021117547A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020008644A JP2021117547A (en) 2020-01-22 2020-01-22 Failure analysis device, multi-cluster system, failure analysis program and failure analysis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020008644A JP2021117547A (en) 2020-01-22 2020-01-22 Failure analysis device, multi-cluster system, failure analysis program and failure analysis method

Publications (1)

Publication Number Publication Date
JP2021117547A true JP2021117547A (en) 2021-08-10

Family

ID=77174819

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020008644A Pending JP2021117547A (en) 2020-01-22 2020-01-22 Failure analysis device, multi-cluster system, failure analysis program and failure analysis method

Country Status (1)

Country Link
JP (1) JP2021117547A (en)

Similar Documents

Publication Publication Date Title
US20210049092A1 (en) Analyzing software test failures using natural language processing and machine learning
US9448908B2 (en) System and method for model based session management
US8312322B2 (en) System for automated generation of computer test procedures
JP6048038B2 (en) Information processing apparatus, program, and information processing method
WO2018120721A1 (en) Method and system for testing user interface, electronic device, and computer readable storage medium
US9904517B2 (en) System and method for automatic modeling of an application
US20180357214A1 (en) Log analysis system, log analysis method, and storage medium
US20120254662A1 (en) Automated test system and automated test method
US7398511B2 (en) System and method for providing a health model for software
Ding et al. Mining historical issue repositories to heal large-scale online service systems
US10977108B2 (en) Influence range specifying method, influence range specifying apparatus, and storage medium
US11762720B2 (en) Information processing apparatus and non-transitory computer-readable storage medium for storing API use history display program
JP4383484B2 (en) Message analysis apparatus, control method, and control program
US20080126283A1 (en) Method of capturing Problem Resolution for Subsequent Use in Managed Distributed Computer Systems
US20190129781A1 (en) Event investigation assist method and event investigation assist device
US20160098473A1 (en) Grouping method and apparatus
US20150169292A1 (en) Computer-readable recording medium storing program for managing scripts, script management device, and script management method
JP2021117547A (en) Failure analysis device, multi-cluster system, failure analysis program and failure analysis method
JP2008198123A (en) Fault detection system and fault detection program
JP6340990B2 (en) Message display method, message display device, and message display program
CN115048299A (en) Application program testing method and device, storage medium and electronic equipment
JP5679347B2 (en) Failure detection device, failure detection method, and program
KR100567813B1 (en) Transaction Analysing System for Tandem system
JP6547341B2 (en) INFORMATION PROCESSING APPARATUS, METHOD, AND PROGRAM
US11334350B2 (en) Program component evaluation system and program component evaluation method