JP2021117547A - Failure analysis device, multi-cluster system, failure analysis program and failure analysis method - Google Patents
Failure analysis device, multi-cluster system, failure analysis program and failure analysis method Download PDFInfo
- Publication number
- JP2021117547A JP2021117547A JP2020008644A JP2020008644A JP2021117547A JP 2021117547 A JP2021117547 A JP 2021117547A JP 2020008644 A JP2020008644 A JP 2020008644A JP 2020008644 A JP2020008644 A JP 2020008644A JP 2021117547 A JP2021117547 A JP 2021117547A
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- state
- time
- screen
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、障害解析装置、マルチクラスタシステム、障害解析プログラムおよび障害解析方法に関する。 The present invention relates to a fault analysis device, a multi-cluster system, a fault analysis program, and a fault analysis method.
近年、複数のサーバ装置(以下、単にクラスタという)と、SVPM(SerVice Platform Manager)と、コンソール装置とを備えるマルチクラスタシステムが知られている。 In recent years, a multi-cluster system including a plurality of server devices (hereinafter, simply referred to as a cluster), an SVPM (SerVice Platform Manager), and a console device has been known.
コンソール装置では、クラスタの運用管理および監視制御を実施する過程で発生した障害原因を調査するために、コンソール装置のCPU使用率やプロセス状態の履歴を示す「コンソール内部状態ログ」、および、実際のクラスタ状態の変化履歴を示す「クラスタ状態変化ログ」を保存している。 In the console device, in order to investigate the cause of the failure that occurred in the process of performing cluster operation management and monitoring control, the "console internal status log" that shows the CPU usage rate and process status history of the console device, and the actual console device The "cluster status change log" that shows the change history of the cluster status is saved.
さらに、コンソール装置は、操作者がコンソール装置で行なった操作の履歴を残すために、「操作履歴を残すログ(操作ログ)」を保存している。なお、どのような画面表示の状態に操作が行なわれたかの調査を可能とする為、「画面」のキャプチャやビデオ撮影を実施する場合もある。 Further, the console device stores a "log (operation log) for leaving an operation history" in order to record a history of operations performed by the operator on the console device. In addition, in order to enable investigation of what kind of screen display state the operation was performed on, "screen" capture or video recording may be performed.
操作者が操作を行なった操作時のコンソール装置の画面に表示された情報をハッシュ値として保存する技術が知られている(下記特許文献1,2)。
A technique for storing information displayed on the screen of a console device at the time of an operation performed by an operator as a hash value is known (
このような従来のマルチクラスタシステムにおいて、コンソール装置がクラスタに対する操作を実行中に障害が発生することがあり、下記の問題が生じる場合がある。 In such a conventional multi-cluster system, a failure may occur while the console device is performing an operation on the cluster, which may cause the following problems.
コンソール装置内部の負荷が高い時などは、クラスタ状態をコンソール装置の画面上に反映する描画処理に遅延が生じ、実際のクラスタ状態と画面上のクラスタ状態とが一致しない現象が発生する。この現象下で、操作者が、画面上に表示された、実際のクラスタ状態ではない古いクラスタ状態に基づいて操作を行なうと、画面上のクラスタ状態に対しては適切な操作であっても、実際のクラスタ状態に対しては実行することができない操作を行なうこととなる場合がある。そして、このような操作により障害が発生した場合、従来のマルチクラスタシステムでは、描画遅延が発生したというイベントは保存されていないため、従来保存している「クラスタ状態変化ログ」および「操作ログ」に基づいて障害の原因を解析する。このため、上記ログを時系列に見ると、操作者は、画面上の表示に基づいて適切な操作を行なったにも関わらず、不適切な操作をしたと判断されてしまうという問題がある。 When the load inside the console device is high, the drawing process that reflects the cluster state on the screen of the console device is delayed, and the actual cluster state and the cluster state on the screen do not match. Under this phenomenon, if the operator performs an operation based on the old cluster state displayed on the screen, which is not the actual cluster state, even if the operation is appropriate for the cluster state on the screen, In some cases, operations that cannot be performed on the actual cluster state may be performed. When a failure occurs due to such an operation, the conventional multi-cluster system does not save the event that the drawing delay has occurred, so the "cluster state change log" and "operation log" that have been saved in the past are not saved. Analyze the cause of the failure based on. Therefore, when the above logs are viewed in chronological order, there is a problem that the operator is determined to have performed an inappropriate operation even though he / she has performed an appropriate operation based on the display on the screen.
さらに、描画処理の遅延の有無に関わらず、操作中に発生した障害が、操作に起因する障害であるか、あるいは、クラスタ内部に閉じた障害であるか判断するのが困難という問題がある。 Further, there is a problem that it is difficult to determine whether the failure generated during the operation is a failure caused by the operation or a failure closed inside the cluster regardless of whether or not the drawing process is delayed.
従来の保存情報では、操作時に、実際のクラスタ状態と画面上に表示されたクラスタ状態とが同一であったか否かの判定、および、発生した障害が操作起因であるか否かの判定をすることはできない。 In the conventional stored information, at the time of operation, it is determined whether or not the actual cluster state and the cluster state displayed on the screen are the same, and whether or not the generated failure is caused by the operation. Can't.
1つの側面では、本発明は、コンソール装置の操作中にマルチクラスタシステムに障害が発生した場合に、障害の原因を特定することを目的とする。 In one aspect, the present invention aims to identify the cause of a failure if the multi-cluster system fails during the operation of the console device.
このため、この障害解析装置は、コンソール装置において入力画面を介して行なわれた入力操作について、前記入力操作時のクラスタのクラスタ状態と、前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定する第1判定部と、入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致する場合には、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する第2判定部とを備える。 Therefore, in this fault analysis device, whether or not the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match with respect to the input operation performed via the input screen in the console device. When the first determination unit for determining whether or not the input operation matches the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen, the input operation is the cluster of the cluster at the time of the operation. It is provided with a second determination unit that determines whether or not it corresponds to a prohibited operation for a state.
一実施形態によれば、コンソール装置の操作中にマルチクラスタシステムに発生した障害の原因を特定することができる。 According to one embodiment, the cause of the failure that occurred in the multi-cluster system during the operation of the console device can be identified.
以下、図面を参照して本マルチクラスタシステム,障害解析装置,障害解析方法および障害解析プログラムに係る実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。 Hereinafter, embodiments relating to the multi-cluster system, the fault analysis device, the fault analysis method, and the fault analysis program will be described with reference to the drawings. However, the embodiments shown below are merely examples, and there is no intention of excluding the application of various modifications and techniques not specified in the embodiments. That is, the present embodiment can be variously modified and implemented within a range that does not deviate from the purpose. Further, each figure does not mean that it includes only the components shown in the figure, but may include other functions and the like.
(A)構成
[マルチクラスタシステム1の構成]
図1は、実施形態の一例としてのマルチクラスタシステム1の構成を模式的に示す図である。
(A) Configuration [Configuration of multi-cluster system 1]
FIG. 1 is a diagram schematically showing a configuration of a
図1に例示するマルチクラスタシステム1は、複数(図1に示す例では2つ)のクラスタ10−1,10−2と、SVPM20と、コンソール装置30と、障害解析装置40とを備える。
The
クラスタ10−1,10−2、SVPM20およびコンソール装置30は、ネットワーク50を介して相互に通信可能に構成されている。ネットワーク50は、例えばLAN(Local Area Network)である。
The clusters 10-1, 10-2, SVPM20, and
障害解析装置40は、ネットワーク50には接続されていないが、図37を用いて後述するネットワークIF部4004または機器接続IF部4007を介して、コンソール装置と接続可能である。
Although the
クラスタ10−1,10−2は、例えばサーバコンピュータである。 Clusters 10-1 and 10-2 are, for example, server computers.
なお、以下、クラスタを示す符号としては、複数のクラスタのうち1つを特定する必要があるときには符号10−1,10−2を用いるが、任意のクラスタを指すときには符号10を用いる。
また、クラスタ10−1をクラスタ#0という場合があり、クラスタ10−2をクラスタ#1という場合がある。
Hereinafter, as the code indicating the cluster, reference numerals 10-1 and 10-2 are used when it is necessary to specify one of a plurality of clusters, but
Further, cluster 10-1 may be referred to as
SVPM20は、複数のクラスタのハードウェア制御を統合するための装置である。 The SVPM20 is a device for integrating hardware control of a plurality of clusters.
コンソール装置30は、クラスタ10−1,10−2を運用管理・監視制御するために、クラスタ10−1,10−2と接続して使用する入出力装置である。
The
障害解析装置40は、クラスタシステムで障害が発生したときに障害を解析し、障害の原因を特定するための装置である。
The
図2は、実施形態の一例としてのマルチクラスタシステム1の機能構成を例示する図である。
FIG. 2 is a diagram illustrating a functional configuration of the
[コンソール装置30の機能構成] [Functional configuration of console device 30]
図2に示すように、コンソール装置30は、クラスタ状態変化検出部301と、フレーム表示制御部302と、コンソール状態監視部303と、記憶部304と、画面ハッシュ値保存部305と、マウス・キーボードドライバ306と、ディスプレイドライバ307とを備える。
As shown in FIG. 2, the
クラスタ10は、クラスタの状態(電源状態、異常状態、構成等)が変化するたびに、SVPM20に対して状態変化を通知する。SVPM20は、クラスタ10から通知を受け取ると、コンソール装置30にクラスタ状態変化を非同期に通知する。
The
クラスタ状態変化検出部301は、クラスタ10からSVPM20を介して送信された通知によりクラスタの状態変化を検出する。クラスタ状態変化検出部301は、SVPM20から通知を受信すると、記憶部304に状態変化の履歴を保存するとともに、クラスタ状態を表示させるフレーム表示制御部302に状態変化を通知する。
The cluster state
フレーム表示制御部302は、表示画面上の複数のフレームを制御する。フレームは、コンソール装置30の図示しないディスプレイに表示される表示画面を区画する描画区画である。フレームは、機能毎に備えられる。例えば、時刻を表示する時計フレーム、ボタン処理を表示する処理フレーム(フレームB)およびクラスタの状態を表示する状態表示フレーム(フレームC)等がある。
The frame
さらに、フレーム表示制御部302は、ボタン処理部310と、画面処理部311とを備え、画面上のボタン操作および画面処理を制御する。ボタン処理部310は、各フレーム内に表示されるボタンと連動しており、操作者がマウス等を操作して当該ボタンを押下する入力を行なうと、押下信号を受信する。
Further, the frame
画面処理部311は、操作者による操作時(入力時)の画面情報の画像を取得し、当該画像のハッシュ値を算出する。例えば、画面処理部311は、操作者がボタンの押下やコマンド入力等の入力操作を行なったタイミングで、この入力操作を行なった時点でディスプレイに表示されている画面の画像を取得とハッシュ値の算出を行なう。
The
特に、画面処理部311は、操作時の画面上の状態表示フレームの画像を取得する。当該画像は、後述するディスプレイドライバ307を介して取得される。取得された画像は、公知の手法によって、マウスのポインタなどのノイズを取り除く修正処理が行なわれ、その後、画像からハッシュ値が算出される。ハッシュ値は、コンソール装置において操作入力が行なわれる度に算出される。
In particular, the
画面処理部311は、例えば、取得した画面(状態画面フレーム)の画像データを数値化し、この数値を既知のハッシュ関数に適用することでハッシュ値を算出する。なお、画像データをハッシュ値に変更する手法は既知であり、その詳細な説明は省略する。
The
フレーム表示制御部302は、SVPM20から通知を受け取ると、コンソール装置の画面上に、クラスタ10の状態(クラスタ10の電源状態、異常状態、構成状態、時計等)を表示する。これにより、画面309上のクラスタ状態は、各クラスタの状態変化に同期して動的に変更される。このため、コンソール装置30の操作者は、各クラスタの状態を常に把握しながら、適切にクラスタシステムの運用、管理および制御を行なうことができる。
Upon receiving the notification from the
操作者がコンソール装置30の画面上に表示された処理フレーム内で操作を行なうと、操作に応じて画面上の内容は動的に変更され。操作の履歴は記憶部304において、後述する画面ハッシュ値付き操作ログ314に保存される。
When the operator performs an operation within the processing frame displayed on the screen of the
画面ハッシュ値保存部305は、画面処理部311が算出したハッシュ値を記憶部304の画面ハッシュ値付き操作ログ314に保存する。
The screen hash
以下、図3〜図5を参照して記憶部304が記憶する情報を説明する。
Hereinafter, the information stored in the
記憶部304は、コンソール内部状態ログ312と、クラスタ状態変化ログ313と、画面ハッシュ値付き操作ログ314とを保存する。なお、図3〜図5においては、記憶部304に記憶されている各情報を、便宜上、テーブルの形式で示しているが、これに限定されるものではなく、種々変形して実施することができる。
The
コンソール内部状態ログ312は、コンソール装置30のCPU使用率やプロセス状態の履歴を示すログである。当該ログは、コンソール内部の状態を監視するコンソール状態監視部が参照する。
The console internal state log 312 is a log showing the history of the CPU usage rate and the process state of the
クラスタ状態変化ログ313は、SVPM20を介してクラスタ10から通知されたクラスタ状変化の履歴を示すログである。
The cluster
図3は、実施形態の一例としてのマルチクラスタシステム1のクラスタ状態変化ログ313を例示する図である。
FIG. 3 is a diagram illustrating a cluster state change log 313 of the
クラスタ状態変化ログ313は、“時刻”および“状態変化履歴”の各フィールドを備える。フィールド“時刻”には、クラスタ10の状態が変化した時刻が格納される。フィールド“状態変化履歴”には、クラスタ10の状態変化の内容(開始,完了,異常発生等)が格納される。
The cluster
画面ハッシュ値付き操作ログ314は、フレーム表示制御部302から入力された各操作の操作時刻および操作内容と、画面ハッシュ値保存部305が保存するハッシュ値とを対応付けたログである。
The
図4は、実施形態の一例としてのマルチクラスタシステム1の画面ハッシュ値付き操作ログ314を例示する図である。
FIG. 4 is a diagram illustrating an
画面ハッシュ値付き操作ログ314は、“時刻”、“操作履歴”および“操作時の画面のハッシュ値”の各フィールドを備える。フィールド“時刻”には、操作が行なわれた時刻が格納される。フィールド“操作履歴”には、コンソール装置がクラスタ10に行なった操作の履歴が格納される。フィールド“操作時の画面のハッシュ値”には、操作入力時の画面の情報から算出したハッシュ値が格納される。例えば、フレーム表示制御部302が、操作者により行なわれた入力操作の内容を操作履歴として画面ハッシュ値付き操作ログ314に、入力操作が行なわれた時刻とともに記録する。
The
画面ハッシュ値保存部305は、操作者が入力操作を行なった時点でディスプレイに表示されている画面の画像について算出したハッシュ値を、画面ハッシュ値付き操作ログ314において、当該入力操作が行なわれた時刻が一致もしくは略一致する、操作履歴のエントリに対応付けて記録する。これにより、画面ハッシュ値付き操作ログ314において、入力操作に関して、その入力操作が行なわれた時刻と、操作履歴と、操作時の画面ハッシュ値とが対応付けて記録される。
The screen hash
マウス・キーボードドライバ306およびディスプレイドライバ307は、マウス・キーボード308などの入出力デバイスを含む周辺機器をコンソール装置で利用するためのソフトウェアである。
The mouse /
[障害解析装置40の機能構成]
図2に示すように、障害解析装置40は、記憶部401と、記憶制御部402と、解析テーブル作成部403と、抽出部404と、第1判定部405と、第2判定部406とを備える。
[Functional configuration of fault analysis device 40]
As shown in FIG. 2, the
記憶部401は、障害原因の解析に用いられる情報を記憶する。本実施形態では、記憶されている情報を、便宜上、リストやテーブルの形式で示しているが、これに限定されるものではなく、種々変形して実施することができる。
The
記憶部401は、図2に示すように、クラスタ状態エラーリスト(クラスタ状態エラー情報)407、クラスタ状態変化完了リスト(クラスタ状態変化完了情報)408、クラスタ状態対応テーブル(クラスタ状態対応情報)409、解析テーブル(解析情報)410および操作種別エラーテーブル(禁止情報)411を記憶する。
As shown in FIG. 2, the
記憶制御部402は、クラスタ状態変化ログ313および画面ハッシュ値付き操作ログ314をコンソール装置30から取得し、これらのログに基づいて、クラスタ状態エラーリスト(クラスタ状態エラー情報)407、クラスタ状態変化完了リスト(クラスタ状態変化完了情報)408、クラスタ状態対応テーブル(クラスタ状態対応情報)409、解析テーブル(解析情報)410および操作種別エラーテーブル(禁止情報)411を記憶部304に記憶させる。
The
クラスタ状態エラーリスト407は、クラスタ10において発生したエラーの履歴を示すものである。クラスタ状態エラーリスト407は、クラスタ状態変化ログ313で表示されうるクラスタ10の全状態変化ログを一覧とするものであり、クラスタ状態変化ログ313から、エラー状態を示すログを抽出して一覧にしたものである。
クラスタ状態エラーリスト407は、本マルチクラスタシステム1に備えらえたクラスタ10毎に設けられる。
The cluster
The cluster
図5は、実施形態の一例としてのマルチクラスタシステム1のクラスタ状態エラーリスト407を例示する図である。
FIG. 5 is a diagram illustrating a cluster
図5に例示するクラスタ状態エラーリスト407は、“クラスタ状態エラー”のフィールドを備え、このフィールドには、エラー状態のクラスタを特定する情報と、そのエラー内容とが格納される。
The cluster
本実施形態においては、クラスタを特定する情報としてクラスタ名を用いる例を示すが、これに限定されるものではない。例えば、クラスタを特定する情報として、各クラスタ10に予め設定した識別情報を用いてもよく、種々変形して実施することができる。
In the present embodiment, an example in which the cluster name is used as the information for identifying the cluster is shown, but the present invention is not limited to this. For example, as the information for identifying the cluster, the identification information set in advance for each
記憶制御部402は、例えば、クラスタ状態変化ログ313から、状態変化が完了したことを示すログを抽出することで、クラスタ状態変化完了リスト408を作成してもよい。
The
クラスタ状態変化完了リスト408は、クラスタ10において発生し完了した状態変化の履歴を示す。クラスタ状態変化完了リスト408は、クラスタ状態変化ログ313で表示されうるクラスタの全状態変化ログを一覧にしたものである。クラスタ状態変化完了リスト408は、本マルチクラスタシステム1に備えらえたクラスタ10毎に設けられる。
The cluster state
図6は、実施形態の一例としてのマルチクラスタシステム1のクラスタ状態変化完了リスト408を例示する図である。
FIG. 6 is a diagram illustrating a cluster state
図6に例示するクラスタ状態変化完了リスト408は、“クラスタ状態変化完了”のフィールドを備え、このフィールドには、状態変化が完了したクラスタを特定する情報(クラスタ名)ならびにその状態および変化内容が格納される。
The cluster state
クラスタ状態対応テーブル409は、コンソール装置30において操作者が操作入力を行なった際に、画面309に表示されていたクラスタ10の状態の履歴を示す情報である。
The cluster state correspondence table 409 is information indicating the history of the state of the
図7は、実施形態の一例としてのマルチクラスタシステム1のクラスタ状態対応テーブル409を例示する図である。
FIG. 7 is a diagram illustrating a cluster state correspondence table 409 of the
図7に例示するクラスタ状態対応テーブル409は、コンソール装置30の画面ハッシュ値保存部305から取得したハッシュ値と、コンソール装置30の画面309上に表示されるクラスタ10の状態とを対応付けて構成されている。
The cluster state correspondence table 409 illustrated in FIG. 7 is configured by associating the hash value acquired from the screen hash
すなわち、図7に例示するクラスタ状態対応テーブル409は、“ハッシュ値”、“ハッシュ値に対応する状態表示フレーム画像”および“クラスタ#n状態”(nは0以上の自然数)の各フィールドを備える。フィールド“ハッシュ値”は、画面ハッシュ値保存部305から取得したハッシュ値を格納するものである。フィールド“ハッシュ値に対応する状態表示フレーム画像”には、ハッシュ値を算出する元となる操作時の状態表示フレームの画像が格納される。フィールド“クラスタ#n状態”には、前述の状態表示フレームの画像に表示された各クラスタの状態が格納される。すなわち、フィールド“クラスタ#n状態”の値は、前述の状態表示フレームの画像が表す各クラスタの状態を示し、状態画面フレームに表されたクラスタ#nの状態を示す。
That is, the cluster state correspondence table 409 illustrated in FIG. 7 includes each field of "hash value", "state display frame image corresponding to the hash value", and "cluster #n state" (n is a natural number of 0 or more). .. The field "hash value" stores the hash value acquired from the screen hash
フィールド“ハッシュ値”に格納されるハッシュ値は、状態表示フレームの画像に含まれる全クラスタの状態を示している。よって、当該ハッシュ値に基づいてクラスタ状態対応テーブル409を参照することで、操作時のコンソール装置30の画面309上に表示された全クラスタの状態を特定することができる。
The hash value stored in the field "hash value" indicates the state of all clusters included in the image of the state display frame. Therefore, by referring to the cluster status correspondence table 409 based on the hash value, it is possible to specify the status of all the clusters displayed on the
解析テーブル作成部403は、解析テーブル410を生成する。解析テーブル410は、障害原因を特定するために、後述する第1判定部405で使用されるテーブルである。
The analysis
解析テーブル作成部403による解析テーブル410の作成手法を以下に説明する。
The method of creating the analysis table 410 by the analysis
解析テーブル作成部403はまず、クラスタ状態変化ログ313に基づいて、解析テーブル410の前身となる中間テーブルAを作成する。
The analysis
図8は、実施形態の一例としてのマルチクラスタシステム1における中間テーブルAを例示する図である。
FIG. 8 is a diagram illustrating an intermediate table A in the
図8に示すように、中間テーブルAは、“時刻”、“状態変化履歴”、“操作履歴”、“操作時の画面のハッシュ値”および“画面のハッシュ値に対応するクラスタ状態”の各フィールドを備える。 As shown in FIG. 8, the intermediate table A has each of "time", "state change history", "operation history", "screen hash value at the time of operation", and "cluster state corresponding to the screen hash value". Have a field.
解析テーブル作成部403は、中間テーブルAの“時刻”および“状態変化履歴”の各フィールドに、クラスタ状態変化ログ313の“時刻”および“状態変化履歴”の各フィールドに格納された情報を時系列に格納する。これにより、中間テーブルAが完成する。
The analysis
次に、解析テーブル作成部403は、画面ハッシュ値付き操作ログ314およびクラスタ状態対応テーブル409に基づいて、解析テーブル410の前身となる中間テーブルBを作成する。
Next, the analysis
図9は、実施形態の一例としてのマルチクラスタシステム1における中間テーブルBを例示する図である。
FIG. 9 is a diagram illustrating an intermediate table B in the
図9に示すように、中間テーブルBは、中間テーブルAと同一のフィールドを備える。 As shown in FIG. 9, the intermediate table B includes the same fields as the intermediate table A.
解析テーブル作成部403は、中間テーブルBの“時刻”、“操作履歴”および“操作時の画面のハッシュ値”の各フィールドに、画面ハッシュ値付き操作ログ314の“時刻”、“操作履歴”および“操作時の画面のハッシュ値”に格納された情報を時系列に格納する。
The analysis
さらに、解析テーブル作成部403は、クラスタ状態対応テーブル409からフィールド“クラスタ#n状態”(nは自然数)に格納された情報を抽出し、当該情報を中間テーブルBのフィールド“画面のハッシュ値に対応するクラスタ状態”に格納する。
これにより、中間テーブルBが完成する。
Further, the analysis
As a result, the intermediate table B is completed.
解析テーブル作成部403は、中間ゲーブルAと、中間テーブルBとを組み合わせ、時系列に並べることにより、解析テーブル410を完成させる。換言すると、解析テーブル作成部403は、中間ゲーブルAと、中間テーブルBとを時刻順でマージすることで解析テーブル410を作成する。
The analysis
図10は、実施形態の一例としてのマルチクラスタシステム1における解析テーブル410を例示する図である。解析テーブル410も、中間テーブルA,Bと同様に、“時刻”、“状態変化履歴”、“操作履歴”、“操作時の画面のハッシュ値”および“画面のハッシュ値に対応するクラスタ状態”の各フィールドを備える。解析テーブル410におけるこれらのフィールドは、既述の中間テーブルA,Bと同様であるので、その詳細な説明は省略する。
FIG. 10 is a diagram illustrating an analysis table 410 in the
操作種別エラーテーブル411は、コンソール装置30において行なわれる入力操作が禁止操作(NG操作)であるか否かを示す情報であり、入力される操作が実際のクラスタの状態に対応する禁止操作(NG操作)であるか否かを示すテーブルである。
The operation type error table 411 is information indicating whether or not the input operation performed in the
さらに、操作種別エラーテーブル411は、禁止操作(NG操作)入力後のクラスタがエラー状態(エラーステータス)であるか否かを示す情報であり、入力操作が禁止操作(NG操作)である場合に、入力操作の結果として実際のクラスタにエラーが発生しているか否かを示すテーブルである。 Further, the operation type error table 411 is information indicating whether or not the cluster after inputting the prohibited operation (NG operation) is in the error state (error status), and when the input operation is the prohibited operation (NG operation). , A table showing whether or not an error has occurred in the actual cluster as a result of the input operation.
図11は、実施形態の一例としてのマルチクラスタシステム1における操作種別エラーテーブル411を例示する図である。
FIG. 11 is a diagram illustrating an operation type error table 411 in the
操作種別エラーテーブル411は、“クラスタ状態”、“操作”、“操作種別”および“NG操作で発生するエラー”の各フィールドを備える。フィールド“クラスタ状態”には、クラスタが取り得る状態が格納される。フィールド“操作”には、コンソール装置30において行なわれた操作が格納される。フィールド“操作種別”には、操作がクラスタ状態に対して適切である場合にはOK、反対に不適切である場合にはNGが格納される。すなわち、操作種別エラーテーブル411は、クラスタ状態毎に、入力される各操作が禁止操作であるか否かをそれぞれ規定している。さらに、フィールド“NG操作で発生するエラー”には、操作がNG操作である場合にクラスタに発生するエラー内容が格納される。
The operation type error table 411 includes fields of "cluster status", "operation", "operation type", and "error generated by NG operation". The field "cluster state" stores the states that the cluster can take. The field "operation" stores the operation performed in the
抽出部404は、障害原因の特定に用いられる情報を解析テーブル410から抽出する。障害の特定に用いられる情報については後述する。
The
第1判定部405は、記憶部304が記憶する解析テーブル410を用いて、コンソール装置30において行なわれた操作について、操作入力時のクラスタ10のクラスタ状態と、操作入力時のコンソール装置の画面309に表示されていたクラスタ状態とが一致するか否かを判定する。
The
具体的には、第1判定部405は、操作入力時のクラスタ10のクラスタ状態(実クラスタ状態)と、操作入力時のコンソール装置の画面309のハッシュ値から特定されるクラスタのクラスタ状態(画面表示上クラスタ状態)とが一致するか否かを判定する。
Specifically, the
第2判定部406は、記憶部304が記憶する操作種別エラーテーブル411を参照して、コンソール装置30において行なわれた入力操作が、操作入力時のクラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する。
The
具体的には、第2判定部406は、操作種別エラーテーブル411のフィールド“クラスタ状態”およびフィールド“操作”の各値を参照し、第1判定部405で一致すると判定された解析テーブル410におけるクラスタ状態と、入力操作との組み合わせと同一の組み合わせについて、この組み合わせに対応するフィールド“操作種別”に格納された情報に基づいて操作が適切か否かを判定する。
Specifically, the
さらに、第2判定部406は、当該入力操作が禁止操作である場合には、禁止操作の入力後のクラスタ10のクラスタ状態が、禁止操作に対応するエラー状態であるか否かを判定する。すなわち、第2判定部406は、当該入力操作が禁止操作である場合には、禁止操作後のクラスタ10のクラスタ状態が、禁止操作に対応するエラー状態であるか否かを判定する第3判定部としても機能する。
Further, when the input operation is a prohibited operation, the
禁止操作に対応するエラー状態とは、操作種別エラーテーブル411のフィールド“NG操作で発生するエラー”に格納されたエラー内容である。具体的には、第2判定部406は、記憶部304が記憶する解析テーブル410および操作種別エラーテーブル411を参照し、解析テーブル410における障害発生時刻のフィールド“状態変化履歴”に格納されたエラー内容(エラーステータス又はエラーメッセージ)が、操作種別エラーテーブル411のフィールド“NG操作で発生するエラー”に格納されたエラー内容と、一致するか否かを判定する。
The error state corresponding to the prohibited operation is the error content stored in the field "Error generated in NG operation" in the operation type error table 411. Specifically, the
そして、第2判定部406は、禁止操作の入力後のクラスタ10のクラスタ状態がエラー状態である場合には、障害の原因は操作者による誤操作であると判定する。エラー状態ではない場合には、障害の原因は前記禁止操作に対応しないクラスタ障害であると判定する。
Then, when the cluster state of the
(B)動作
実施形態の一例としてのマルチクラスタシステム1のコンソール装置30における画面ハッシュ値付き操作ログを取得する処理を、図12に示すフローチャート(ステップT1〜T4)に従って説明する。
(B) Operation The process of acquiring the operation log with the screen hash value in the
以下においては、操作者が入力操作としてコンソール装置30において、マウス等を操作して表示画面上のボタン操作を行なった場合を例示する。
In the following, an example will be illustrated in which the operator operates a mouse or the like to operate a button on the display screen in the
ステップT1において、コンソール装置30の画面309上のフレーム内のボタンが押下されると、その信号は、フレーム表示制御部302のボタン処理部310で受信される。
In step T1, when a button in the frame on the
次に、ステップT2では、ボタン処理部310は、受信した信号から操作時刻および操作内容「ボタンを押下」を抽出する。ボタン処理部310は、操作時刻および操作内容を記憶部304の画面ハッシュ値付き操作ログに書き込む。
Next, in step T2, the
続いて、ステップT3では、フレーム表示制御部302の画面処理部311は、操作入力時の画面309上の状態表示フレームの画像データを取得し、当該画像情報のハッシュ値を算出する。
Subsequently, in step T3, the
ステップT4では、画面処理部311は、当該ハッシュ値を画面ハッシュ値保存部305に保存させる。画面ハッシュ値保存部305は、当該ハッシュ値を、記憶部304の画面ハッシュ値付き操作ログにおける、入力操作が行なわれた時刻が一致もしくは略一致する、操作履歴のエントリに対応付けて記録する。その後、処理を終了する。
In step T4, the
次に、実施形態の一例としてのマルチクラスタシステム1の障害解析装置40における障害発生時の処理を、図13に示すフローチャート(ステップS1〜S7)に従って説明する。
Next, processing when a failure occurs in the
ステップS1〜S3においては、解析テーブル作成部403により、障害原因の解析に必要となる解析テーブル410の作成が行なわれる。
ステップS1では、解析テーブル作成部403は、記憶部304からクラスタ状態変化ログ313を読み込んで、中間テーブルAを作成する。
In steps S1 to S3, the analysis
In step S1, the analysis
ステップS2では、解析テーブル作成部403は、記憶部304から画面ハッシュ値付き操作ログ314およびクラスタ状態対応テーブル409を読み込んで、中間テーブルBを作成する。
In step S2, the analysis
ステップS3では、解析テーブル作成部403は、中間テーブルAおよびBを組み合わせて、時系列に並べることで、解析テーブル410を完成させる。
In step S3, the analysis
ステップS4〜S7においては、各種テーブルを用いて障害原因の特定が行なわれる。
ステップS4では、抽出部404は、後述する障害原因の特定処理に用いる情報(A)〜(F)を解析テーブルから抽出する。
In steps S4 to S7, the cause of the failure is identified using various tables.
In step S4, the
ステップS5では、第1判定部405は、クラスタ10のクラスタ状態と、コンソール装置30の画面309上に表示されたクラスタ状態とが一致するか否かを判定する。一致しない(ステップS5のNoルート)場合は、障害の原因は、コンソール装置30内部の負荷が高いために、クラスタ状態をコンソール装置30の画面上に反映する描画処理に遅延が生じたことで結果的に生じた操作ミスであると特定される。以下、このような、コンソール装置30の負荷による画面描写遅延による操作ミスにより障害が生じる障害原因をパターン1という場合がある。ステップS5における判定の結果、クラスタ10のクラスタ状態と、コンソール装置30の画面309上に表示されたクラスタ状態とが一致する場合には(ステップS5のYesルート)、ステップS6に移行する。
In step S5, the
ステップS6では、第2判定部406は、さらに、コンソール装置において行なわれた操作が、操作時のクラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する。禁止操作に該当しない(ステップS6のNoルート)場合は、障害の原因は、操作が禁止操作ではない(OK操作)にもかかわらず発生した、操作に起因しないクラスタ障害であると特定される。以下、このような、OK操作にもかかわらず、障害発生のため操作起因でないクラスタ障害が生じる障害原因をパターン2という場合がある。ステップS6における判定の結果、コンソール装置において行なわれた操作が、操作時のクラスタのクラスタ状態に対する禁止操作に該当する場合には(ステップS6のYesルート)、ステップS7に移行する。
In step S6, the
ステップS7では、第2判定部406は、さらに、禁止操作入力後のクラスタのクラスタ状態が、禁止操作に対応するエラー状態であるか否かを判定する。
In step S7, the
エラー状態である(ステップS7のYesルート)場合には、障害の原因は、操作者による単純な誤操作であると判定する。以下、このような、操作者による単純なオペレーションミス(操作ミス)により障害が生じる障害原因をパターン4という場合がある。一方、エラー状態ではない(ステップS7のNoルート)場合には、障害の原因は、禁止操作に起因する障害でないクラスタ障害であると特定される。以下、このような、禁止操作に起因する障害でないクラスタ障害が生じる障害原因をパターン3という場合がある。
In the case of an error state (Yes route in step S7), it is determined that the cause of the failure is a simple erroneous operation by the operator. Hereinafter, the cause of failure caused by such a simple operation error (operation error) by the operator may be referred to as pattern 4. On the other hand, if it is not in the error state (No route in step S7), the cause of the failure is identified as a cluster failure that is not a failure due to the prohibited operation. Hereinafter, the cause of failure in which a cluster failure that is not a failure due to such a prohibited operation may occur is referred to as
上記のように、本実施形態に係る障害特定処理では、条件分岐に応じて4つのパターン1〜4の障害原因が特定される。
As described above, in the failure identification process according to the present embodiment, the failure causes of the four
図14は、実施形態の一例としてのマルチクラスタシステムにおける障害原因特定の4つのパターンを説明するための図である。この図14においては、図13のフローチャートに示した障害原因特定手法をテーブルのフォーマットで示している。すなわち、この図14に示すテーブルにおいて条件分岐1〜3として示される各項目に対する該当の有無の組み合わせに応じて、パターン1〜4に分類される障害原因(原因候補)が特定される。
以下、障害原因パターン1〜4のそれぞれについて、障害原因特定処理を説明する。
FIG. 14 is a diagram for explaining four patterns for identifying the cause of failure in a multi-cluster system as an example of an embodiment. In FIG. 14, the failure cause identification method shown in the flowchart of FIG. 13 is shown in a table format. That is, failure causes (cause candidates) classified into
Hereinafter, the failure cause identification process will be described for each of the
[パターン1]
図15〜図18は、障害原因パターン1を特定する処理を説明する図である。パターン1では、クラスタ10(実機)のクラスタ状態と、コンソール装置30の画面309上に表示されたクラスタ10のクラスタ状態が異なるときに、コンソール装置30において操作が行なわれ、クラスタ(実機)で障害が発生した場合が該当する。
[Pattern 1]
15 to 18 are diagrams for explaining the process of identifying the
抽出部404は、解析テーブル410と、クラスタ状態エラーリスト407と、クラスタ状態変化完了リスト408とを使用して、障害原因の特定処理に必要な情報(A)〜(F)を抽出する(図13のステップS4参照)。
(A)障害発生時刻
(B)障害発生時刻での実機上のクラスタ状態に変化した時刻
(C)障害発生時刻での実機上のクラスタ状態
(D)障害発生時刻での画面上のクラスタに対する操作時刻
(E)障害発生時刻での画面上のクラスタに対する操作
(F)障害発生時刻での画面上のクラスタ状態
The
(A) Failure time (B) Time when the cluster status changes to the actual machine at the failure occurrence time (C) Cluster status on the actual machine at the failure occurrence time (D) Operation for the cluster on the screen at the failure occurrence time Time (E) Operation for the cluster on the screen at the time of failure (F) Cluster status on the screen at the time of failure
抽出部404は、解析テーブル410のフィールド“状態変化履歴”内で、クラスタ状態エラーリスト407に含まれる各語について文字列検索を行なうことで、クラスタ状態の異常発生を検知する。
The
図15に示す例においては、 “状態変化履歴”に「クラスタ#0 異常」が検出されている(符号P1参照)。抽出部404は、検出されたクラスタ異常発生の履歴に対応する時刻「2019/01/01 00:00:15」を障害発生時刻{情報(A)}として抽出する(符号P2参照)。
In the example shown in FIG. 15, "
次に、抽出部404は、解析テーブル410のフィールド“状態変化履歴”内で、クラスタ状態変化完了リスト408に含まれる各語について文字列検索を行なうことで、クラスタ10における状態変化の発生を検知する。
図16に示す例においては、検索の結果、“状態変化履歴”に「クラスタ#0 状態Bに変化完了」が検出されている(符号P3参照)。
Next, the
In the example shown in FIG. 16, as a result of the search, "completion of change to cluster # 0 state B" is detected in the "state change history" (see reference numeral P3).
なお、図16に示すクラスタ状態変化完了リスト408において、“クラスタ#x”のxは変数を示しており、抽出部404は、このxの値を順次変更しながら検索を行なう。抽出部404は、以下パターン2〜4においても同様に検索を行なう。
In the cluster state
抽出部404は、検出された状態変化の履歴に対応する時刻「2019/01/01 00:00:09」を、障害発生時刻で実機上のクラスタ状態に変化した時刻{情報(B)}として抽出する(符号P4参照)。また、抽出部404は、検出された当該履歴に対応する状態変化履歴の「クラスタ#0状態Bに変化完了」を、障害発生時刻での実機上のクラスタ状態{情報(C)}として抽出する(符号P5参照)。すなわち、抽出部404は、クラスタ10でエラーが発生した直前の実機上クラスタ状態を抽出する。
The
次に、抽出部404は、解析テーブル410内で、障害発生時刻の直近の操作を検索する。具体的には、抽出部404は、解析テーブル410の操作履歴を参照して、障害発生時刻{情報(A)}の直近の過去に行なわれた入力操作を検索し、その入力操作に関する操作時刻,操作内容およびクラスタ状態を取得する。
Next, the
図17に示す例においては、抽出部404は、クラスタ異常が検出された「2019/01/01 00:00:15」の過去の直近の操作が行なわれた時刻「2019/01/01 00:00:11」を情報(D)として抽出する(符号P6参照)。
In the example shown in FIG. 17, the
そして、抽出部404は、解析テーブル410の操作履歴を参照して、この時刻「2019/01/01 00:00:11」において行なわれた操作内容「操作Y 実行」を情報(E)として抽出する(符号P7参照)。さらに、抽出部404は、解析テーブル410の操作時の画面のハッシュ値を参照して、この時刻「2019/01/01 00:00:11」に表示された操作時の画面のハッシュ値「123abc」を抽出する。さらに、抽出部404は、解析テーブル410の画面のハッシュ値に対応するクラスタ状態を参照して、この時刻「2019/01/01 00:00:11」におけるクラスタ10の状態を示す「クラスタ#0状態A」を情報(F)として抽出する(符号P8参照)。
Then, the
第1判定部405は、情報(A)〜(F)に基づいて、クラスタ#0が異常である原因を特定するために、クラスタ#0のクラスタ状態と、コンソール装置30の画面309上に表示されたクラスタ#0のクラスタ状態とが一致するか否かを判定する(図13のステップS5参照)。
The
図18に示す例においては、解析テーブル410によれば、操作直前の時刻「2019/01/01 00:00:09」では、クラスタ#0は状態Bに変化完了している。しかし、操作の時刻「2019/01/01 00:00:11」では、コンソール装置30の画面309上に表示されていたクラスタ#0の状態は「状態A」であり、クラスタ(実機)のクラスタ状態と一致していないことが認められる(符号P9参照)。これは、クラスタ10の状態が変化する度にクラスタ10から通知される状態変化履歴がコンソール装置30において処理されていないことを意味する。したがって、クラスタ状態が一致していないことから、障害の原因は、コンソール装置30内部の負荷が高いために、クラスタ状態をコンソール装置30の画面上に反映する描画処理に遅延が生じたことであると特定される。
In the example shown in FIG. 18, according to the analysis table 410, at the time “2019/01/01 00:00:09” immediately before the operation, the
[パターン2]
図19〜図23は、障害原因パターン2を特定する処理を説明する図である。パターン2は、クラスタ10(実機)のクラスタ状態と、コンソール装置30の画面309上に表示されたクラスタ10のクラスタ状態が一致する場合に、クラスタ10(実機)のクラスタ状態に対して適切な操作(OK操作)を実行したにも関わらず、クラスタ10(実機)のクラスタで障害が発生した場合が該当する。
[Pattern 2]
19 to 23 are diagrams for explaining the process of identifying the
抽出部404は、パターン1と同様に、解析テーブル410と、クラスタ状態エラーリスト407と、クラスタ状態変化完了リスト408とを使用して、障害原因の特定処理に用いる情報(A)〜(F)を抽出する(図13のステップS4参照)。情報(A)〜(F)の内容は上記と同様であるため、その詳細な説明は省略する。
Similar to
抽出部404は、解析テーブル410のフィールド“状態変化履歴”内で、クラスタ状態エラーリスト407に含まれる各語について文字列検索を行なうことで、クラスタ状態の異常発生を検知する。
The
図19に示す例においては、“状態変化履歴”に「クラスタ#0 コマンド実行失敗」が検出されている(符号P1参照)。抽出部404は、検出されたクラスタ以上発生の履歴に対応する時刻「2019/01/01 00:00:15」を情報発生時刻{情報(A)}として抽出する(符号P2参照)。
In the example shown in FIG. 19, "
次に、抽出部404は、解析テーブル410のフィールド“状態変化履歴”内で、クラスタ状態変化完了リスト408に含まれる各語について文字列検索を行なうことで、クラスタ10における状態変化の発生を検知する。
Next, the
図20に示す例においては、検索の結果、“状態変化履歴”に「クラスタ#0 ON 完了」が検出されている(符号P3参照)。抽出部404は、検出された状態変化の履歴に対応する時刻「2019/01/01 00:00:09」を、障害発生時刻で実機上のクラスタ状態に変化した時刻{情報(B)}として抽出する(符号P4参照)。また、抽出部404は、検出された当該履歴に対応する状態変化履歴の「クラスタ#0 ON 完了」を情報(C)として抽出する(符号P5参照)。すなわち、抽出部404は、クラスタ10でエラーが発生した直前の実機上クラスタ状態を抽出する。
In the example shown in FIG. 20, as a result of the search, "
次に、抽出部404は、解析テーブル410内で、障害発生時刻の直近の操作を検索する。具体的には、抽出部404は、解析テーブル410の操作履歴を参照して、障害発生時刻{情報(A)}の直近の過去に行なわれた入力操作を検索し、その入力操作に関する操作時刻,操作内容およびクラスタ状態を取得する。
Next, the
図21に示す例においては、抽出部404は、クラスタ異常が検出された「2019/01/01 00:00:15」の過去の直近の操作が行なわれた時刻「2019/01/01 00:00:11」を情報(D)として抽出する(符号P6参照)。
In the example shown in FIG. 21, the
そして、抽出部404は、解析テーブル410の操作履歴を参照して、この時刻「2019/01/01 00:00:11」において行なわれた操作内容「操作Y 実行」を情報(E)として抽出する(符号P7参照)。さらに、抽出部404は、解析テーブル410の操作時の画面のハッシュ値を参照して、この時刻「2019/01/01 00:00:11」に表示された操作時の画面のハッシュ値「456def」を抽出する。さらに、抽出部404は、解析テーブル410の画面のハッシュ値に対応するクラスタ状態を参照して、この時刻「2019/01/01 00:00:11」におけるクラスタ10の状態を示す「クラスタ#0 ON」を情報(F)として抽出する(符号P8参照)。
Then, the
第1判定部405は、情報(A)〜(F)に基づいて、クラスタ#0が異常である原因を特定するために、クラスタ#0のクラスタ状態と、コンソール装置30の画面309上に表示されたクラスタ#0のクラスタ状態とが一致するか否かを判定する(図13のステップS5参照)。
The
図22に示す例においては、解析テーブル410によれば、操作直前の時刻「2019/01/01 00:00:09」では、クラスタ#0の状態変化はONに完了している。そして、操作の時刻「2019/01/01 00:00:11」においても、コンソール装置30の画面309上に表示されていたクラスタ#0の状態は「ON」であり、クラスタ(実機)のクラスタ状態と一致していることが認められる(符号P9参照)。したがって、クラスタ状態の一致から、障害の原因は、コンソール装置30内部の負荷の高さに起因するコンソール装置30の画面の描画処理の遅延以外であることがわかる。
In the example shown in FIG. 22, according to the analysis table 410, the state change of
そこで、第2判定部406は、さらに、操作種別エラーテーブル411に基づいて、コンソール装置30において行なわれた操作が、操作時のクラスタ#0のクラスタ状態に対する禁止操作に該当するか否かを判定する(図13のステップS6参照)。
Therefore, the
図23に示す例においては、解析テーブル410によれば、障害発生時刻でのクラスタ(実機)のクラスタ状態{情報(C)}は「クラスタ#0 ON 完了」であり、コマンド実行失敗が検出された時刻の過去の直近に行なわれた操作内容{情報(E)}は「OFF 実行」である。
In the example shown in FIG. 23, according to the analysis table 410, the cluster state {information (C)} of the cluster (actual machine) at the time of failure occurrence is "
第2判定部406は、クラスタ状態{情報(C)}対する操作内容{情報(E)}が適切であるか否かを判定するために、操作種別エラーテーブル411を参照する。操作種別エラーテーブル411によれば、“クラスタ状態”「ON」に対して行った“操作”「OFF」に対応する“操作種別”は、「OK操作」である。これは、当該操作によって、クラスタ(実機)にエラー状態は発生しないことを意味する(符号P10参照)。したがって、クラスタ状態が一致しており、かつ、操作がNG操作であるにもかかわらず、障害が発生していることから、障害の原因は、操作に起因しないクラスタ10における障害であると特定される。
The
[パターン3]
図24〜図29は、障害原因パターン3を特定する処理を説明する図である。パターン3は、クラスタ10(実機)のクラスタ状態と、コンソール装置30の画面309上に表示されたクラスタ10のクラスタ状態が一致する場合に、クラスタ10(実機)のクラスタ状態に対して不適切な操作(NG操作)を実行し、NG操作に対応しない障害がクラスタ10(実機)において発生した場合が該当する。
[Pattern 3]
24 to 29 are diagrams for explaining the process of identifying the
抽出部404は、パターン1および2と同様に、解析テーブル410と、クラスタ状態エラーリスト407と、クラスタ状態変化完了リスト408とを使用して、障害原因の特定処理に用いる情報(A)〜(F)を抽出する(図13のステップS4参照)。情報(A)〜(F)の内容は上記と同様であるため、その詳細な説明は省略する。
Similar to
抽出部404は、解析テーブル410のフィールド“状態変化履歴”内で、クラスタ状態エラーリスト407に含まれる各語について文字列検索を行なうことで、クラスタ状態の異常発生を検知する。
The
図24に示す例においては、“状態変化履歴”に「クラスタ#0 起動失敗」が検出されている(符号P1参照)。抽出部404は、検出されたクラスタ異常発生の履歴に対応する時刻「2019/01/01 00:00:15」を障害発生時刻{情報(A)}として抽出する(符号P2参照)。
In the example shown in FIG. 24, "
次に、抽出部404は、解析テーブル410のフィールド“状態変化履歴”内で、クラスタ状態変化完了リスト408に含まれる各語について文字列検索を行なうことで、クラスタ10における状態変化の発生を検知する。
Next, the
図25に示す例においては、検索の結果、“状態変化履歴”に「クラスタ#0 ON 完了」が検出されている(符号P3参照)。抽出部404は、検出された状態変化の履歴に対応する時刻「2019/01/01 00:00:09」を、障害発生時刻で実機上のクラスタ状態に変化した時刻情報(B)として抽出する(符号P4参照)。また、抽出部404は、検出された当該履歴に対応する状態変化履歴の「クラスタ#0 ON 完了」を、障害発生時刻での実機上のクラスタ状態{情報(C)}として抽出する(符号P5参照)。すなわち、抽出部404は、クラスタ10でエラーが発生した直前の実機上クラスタ状態を抽出する。
In the example shown in FIG. 25, as a result of the search, "
次に、抽出部404は、解析テーブル410内で、障害発生時刻の直近の操作を検索する。具体的には、抽出部404は、解析テーブル410の操作履歴を参照して、障害発生時刻{情報(A)}の直近の過去に行なわれた入力操作を検索し、その入力操作に関する操作時刻,操作内容およびクラスタ状態を取得する。
Next, the
図26に示す例においては、抽出部404は、クラスタ異常が検出された「2019/01/01 00:00:15」の過去の直近の操作が行なわれた時刻「2019/01/01 00:00:11」を情報(D)として抽出する(符号P6参照)。
In the example shown in FIG. 26, the
そして、抽出部404は、解析テーブル410の操作履歴を参照して、この時刻「2019/01/01 00:00:11」において行なわれた操作内容「ON 実行」を情報(E)として抽出する(符号P7参照)。
Then, the
さらに、抽出部404は、解析テーブル410の操作時の画面のハッシュ値を参照して、この時刻「2019/01/01 00:00:11」に表示された操作時の画面のハッシュ値「456def」を抽出する。さらに、抽出部404は、解析テーブル410の画面のハッシュ値に対応するクラスタ状態を参照して、この時刻「2019/01/01 00:00:11」におけるクラスタ10の状態を示す「クラスタ#0 ON」を情報(F)として抽出する(符号P8参照)。
Further, the
第1判定部405は、情報(A)〜(F)に基づいて、クラスタ#0が異常である原因を特定するために、クラスタ#0のクラスタ状態と、コンソール装置30の画面309上に表示されたクラスタ#0のクラスタ状態とが一致するか否かを判定する(図13のステップS5参照)。
The
図27に示す例においては、解析テーブル410によれば、操作直前の時刻「2019/01/01 00:00:09」では、クラスタ#0の状態変化はONに完了している。そして、操作の時刻「2019/01/01 00:00:11」においても、コンソール装置30の画面309上に表示されていたクラスタ#0の状態は「ON」であり、クラスタ(実機)のクラスタ状態と一致していることが認められる(符号P9参照)。したがって、クラスタ状態の一致から、障害の原因は、コンソール装置30内部の負荷の高さに起因するコンソール装置30の画面の描画処理の遅延以外であることがわかる。
In the example shown in FIG. 27, according to the analysis table 410, the state change of
そこで、第2判定部406は、さらに、操作種別エラーテーブル411に基づいて、コンソール装置30において行なわれた操作が、操作時のクラスタ#0のクラスタ状態に対する禁止操作に該当するか否かを判定する(図13のステップS6参照)。
Therefore, the
図28に示す例においては、解析テーブル410によれば、障害発生時刻でのクラスタ(実機)のクラスタ状態{情報(C)}は「クラスタ#0 ON 完了」であり、コマンド実行失敗が検出された時刻の過去の直近に行なわれた操作内容{情報(E)}は「ON 実行」である。
In the example shown in FIG. 28, according to the analysis table 410, the cluster status {information (C)} of the cluster (actual machine) at the time of failure occurrence is "
第2判定部406は、クラスタ状態{情報(C)}対する操作内容{情報(E)}が適切であるか否かを判定するために、操作種別エラーテーブル411を参照する。操作種別エラーテーブル411によれば、“クラスタ状態”「ON」に対して行った“操作”「ON」に対応する“操作種別”は、「NG操作」である。これは、当該操作によって、クラスタ(実機)にエラー状態が発生することを意味する(符号P10参照)。したがって、クラスタ状態の一致および操作がNG操作であることから、障害の原因は、操作に起因しないクラスタ10における障害以外であると特定される。
The
そこで、第2判定部は、さらに、操作種別エラーテーブル411に基づいて、禁止操作入力後のクラスタ10のクラスタ状態が、禁止操作に対応するエラー状態であるか否かを判定する(図13のステップS7参照)。
Therefore, the second determination unit further determines whether or not the cluster state of the
図29に示す例においては、解析テーブル410によれば、障害発生時刻「2019/01/01 00:00:15」におけるクラスタ状態は、「クラスタ#0 起動失敗」であり、起動失敗が検出された時刻の過去の直近に行なわれた操作内容{情報(E)}は「ON 実行」である。
In the example shown in FIG. 29, according to the analysis table 410, the cluster state at the failure occurrence time “2019/01/01 00:00:15” is “
第2判定部406は、操作内容{情報(E)}に対応するクラスタ状態が適切であるか否かを判定するために、操作種別エラーテーブル411を参照する。操作種別エラーテーブル411によれば、“クラスタ状態”「ON」に対して行った“操作”「ON」に対応する“操作種別”は、「NG操作」であり、当該操作によって発生するエラーは「コマンド実行失敗」である。これに対し、解析テーブル410におけるクラスタ状態は「起動失敗」であり、操作種別エラーテーブル411のエラー内容と一致していない(符号P11参照)。したがって、操作がNG操作であり、かつ、操作種別エラーテーブル411のエラー内容と一致していないことから、障害の原因は、NG操作に対応しないクラスタ(実機)における障害であると特定される。
The
[パターン4]
図30〜図35は、障害原因パターン4を特定する処理を説明する図である。パターン4は、クラスタ10(実機)のクラスタ状態と、コンソール装置30の画面309上に表示されたクラスタのクラスタ状態が一致する場合に、クラスタ10(実機)のクラスタ状態に対して不適切な操作(NG操作)を実行し、NG操作に対応する障害がクラスタ10(実機)において発生した場合が該当する。
[Pattern 4]
30 to 35 are diagrams for explaining the process of identifying the failure cause pattern 4. Pattern 4 is an operation inappropriate for the cluster state of cluster 10 (actual machine) when the cluster state of cluster 10 (actual machine) and the cluster state of the cluster displayed on the
抽出部404は、パターン1〜3と同様に、解析テーブル410と、クラスタ状態エラーリスト407と、クラスタ状態変化完了リスト408とを使用して、障害原因の特定処理に用いる情報(A)〜(F)を抽出する(図13のステップS4参照)。情報(A)〜(F)の内容は上記と同様であるため、その詳細な説明は省略する。
Similar to
抽出部404は、解析テーブル410のフィールド“状態変化履歴”内で、クラスタ状態エラーリスト407に含まれる各語について文字列検索を行なうことで、クラスタ状態の異常発生を検知する。
The
図30に示す例においては、“状態変化履歴”に「クラスタ#0 コマンド実行失敗」が検出されている(符号P1参照)。抽出部404は、検出されたクラスタ異常発生の履歴に対応する時刻「2019/01/01 00:00:15」を障害発生時刻{情報(A)}として抽出する(符号P2参照)。
In the example shown in FIG. 30, "
次に、抽出部404は、解析テーブル410のフィールド“状態変化履歴”内で、クラスタ状態変化完了リスト408に含まれる各語について文字列検索を行なうことで、クラスタ10における状態変化の発生を検知する。
Next, the
図31に示す例においては、検索の結果、“状態変化履歴”に「クラスタ#0 コマンド実行失敗」が検出されている(符号P3参照)。抽出部404は、検出された状態変化の履歴に対応する時刻「2019/01/01 00:00:09」を、障害発生時刻で実機上のクラスタ状態に変化した時刻{情報(B)}として抽出する(符号P4参照)。また、抽出部404は、検出された当該履歴に対応する状態変化履歴の「クラスタ#0 コマンド実行失敗」を、障害発生時刻での実機上のクラスタ状態{情報(C)}として抽出する(符号P5参照)。すなわち、抽出部404は、クラスタ10でエラーが発生した直前の実機上クラスタ状態を抽出する。
In the example shown in FIG. 31, as a result of the search, "
次に、抽出部404は、解析テーブル410内で、障害発生時刻の直近の操作を検索する。具体的には、抽出部404は、解析テーブル410の操作履歴を参照して、障害発生時刻{情報(A)}の直近の過去に行なわれた入力操作を検索し、その入力操作に関する操作時刻,操作内容およびクラスタ状態を取得する。
Next, the
図32に示す例においては、抽出部404は、クラスタ異常が検出された「2019/01/01 00:00:15」の過去の直近の操作が行なわれた時刻「2019/01/01 00:00:11」を情報(D)として抽出する(符号P6参照)。
In the example shown in FIG. 32, the
そして、抽出部404は、解析テーブル410の操作履歴を参照して、この時刻「2019/01/01 00:00:11」において行なわれた操作内容「ON 実行」を情報(E)として抽出する(符号P7参照)。
Then, the
さらに、抽出部404は、解析テーブル410の操作時の画面のハッシュ値を参照して、この時刻「2019/01/01 00:00:11」に表示された操作時の画面のハッシュ値「456def」を抽出する。さらに、抽出部404は、解析テーブル410の画面のハッシュ値に対応するクラスタ状態を参照して、この時刻「2019/01/01 00:00:11」におけるクラスタ10の状態を示す「クラスタ#0 ON」を情報(F)として抽出する(符号P8参照)。
Further, the
第1判定部405は、情報(A)〜(F)に基づいて、クラスタ#0が異常である原因を特定するために、クラスタ#0のクラスタ状態と、コンソール装置30の画面309上に表示されたクラスタ#0のクラスタ状態とが一致するか否かを判定する(図13のステップS5参照)。
The
図33に示す例においては、解析テーブル410によれば、操作直前の時刻「2019/01/01 00:00:09」では、クラスタ#0の状態変化はONに完了している。そして、操作の時刻「2019/01/01 00:00:11」においても、コンソール装置30の画面309上に表示されていたクラスタ#0の状態は「ON」であり、クラスタ(実機)のクラスタ状態と一致していることが認められる(符号P9参照)。したがって、クラスタ状態の一致から、障害の原因は、コンソール装置30内部の負荷の高さに起因するコンソール装置30の画面の描画処理の遅延以外であることがわかる。
In the example shown in FIG. 33, according to the analysis table 410, the state change of
そこで、第2判定部406は、さらに、操作種別エラーテーブル411に基づいて、コンソール装置30において行なわれた操作が、操作時のクラスタ#0のクラスタ状態に対する禁止操作に該当するか否かを判定する(図13のステップS6参照)。
Therefore, the
図34に示す例においては、解析テーブル410によれば、障害発生時刻でのクラスタ(実機)のクラスタ状態{情報(C)}は「クラスタ#0 ON 完了」であり、コマンド実行失敗が検出された時刻の過去の直近に行なわれた操作内容{情報(E)}は「ON 実行」である。
In the example shown in FIG. 34, according to the analysis table 410, the cluster state {information (C)} of the cluster (actual machine) at the time of failure occurrence is "
第2判定部406は、クラスタ状態{情報(C)}対する操作内容{情報(E)}が適切であるか否かを判定するために、操作種別エラーテーブル411を参照する。操作種別エラーテーブル411によれば、“クラスタ状態”「ON」に対して行った“操作”「ON」に対応する“操作種別”は、「NG操作」である。これは、当該操作によって、クラスタ(実機)にエラー状態が発生することを意味する(符号P10参照)。したがって、クラスタ状態の一致および操作がNG操作であることから、障害の原因は、操作に起因しないクラスタ10における障害以外であると特定される。
The
そこで、第2判定部は、さらに、操作種別エラーテーブル411に基づいて、禁止操作入力後のクラスタ10のクラスタ状態が、禁止操作に対応するエラー状態であるか否かを判定する(図13のステップS7参照)。
Therefore, the second determination unit further determines whether or not the cluster state of the
図35に示す例においては、解析テーブル410によれば、障害発生時刻「2019/01/01 00:00:15」におけるクラスタ状態は、「クラスタ#0 コマンド実行失敗」であり、コマンド実行失敗が検出された時刻の過去の直近に行なわれた操作内容{情報(E)}は「ON 実行」である。
In the example shown in FIG. 35, according to the analysis table 410, the cluster state at the failure occurrence time “2019/01/01 00:00:15” is “
第2判定部406は、操作内容{情報(E)}に対応するクラスタ状態が適切であるか否かを判定するために、操作種別エラーテーブル411を参照する。操作種別エラーテーブル411によれば、“クラスタ状態”「ON」に対して行った“操作”「ON」に対応する“操作種別”は、「NG操作」であり、当該操作によって発生するエラーは「コマンド実行失敗」である。
The
そして、解析テーブル410におけるクラスタ状態は「コマンド実行失敗」であり、操作種別エラーテーブル411のエラー内容と一致している(符号P11参照)。したがって、操作がNG操作であり、かつ、操作種別エラーテーブル411のエラー内容と一致していることから、障害の原因は、単純な操作ミスであると特定される。 The cluster state in the analysis table 410 is "command execution failure", which matches the error content in the operation type error table 411 (see reference numeral P11). Therefore, since the operation is an NG operation and matches the error content of the operation type error table 411, the cause of the failure is identified as a simple operation error.
(C)効果
このように、実施形態の一例としてのマルチクラスタシステム1によれば、障害解析装置40の第1判定部405において、コンソール装置30において入力画面を介して行なわれた入力操作について、入力操作時の前記クラスタのクラスタ状態(実クラスタ状態)と、入力画面におけるクラスタ10のクラスタ状態(画面表示上クラスタ状態)とが一致するか否かを判定する。
(C) Effect As described above, according to the
これにより、クラスタ状態が一致しない場合には、マルチクラスタシステム1における障害の原因は、コンソール装置30内部の負荷の高さに起因する、クラスタ状態をコンソール装置30の画面上に反映する描画処理に遅延が生じたことであると特定される。したがって、操作者はコンソール装置30の画面309上の情報に基づいて操作を行なったことが分かるため、操作者の誤操作という誤解が生ずることを防ぐことができる。
As a result, when the cluster states do not match, the cause of the failure in the
さらに、障害解析装置40の第2判定部406において、入力操作時の前記クラスタのクラスタ状態(実クラスタ状態)と前記入力画面における前記クラスタ10のクラスタ状態(画面表示上クラスタ状態)とが一致する場合には、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する。
Further, in the
これにより、操作が禁止操作に該当しない(OK操作)場合には、マルチクラスタシステム1における障害の原因は、操作に起因しないクラスタ障害であると特定できる。
Thereby, when the operation does not correspond to the prohibited operation (OK operation), the cause of the failure in the
さらに、障害解析装置40の第2判定部406において、入力操作が禁止操作である場合には、禁止操作後のクラスタ10のクラスタ状態が、禁止操作に対応するエラー状態であるか否かを判定する。
Further, in the
これにより、禁止操作に対応するエラー状態ではない場合には、マルチクラスタシステム1における障害の原因は、禁止操作に対応しないクラスタ(実機)における障害であると特定される。
As a result, if the error state does not correspond to the prohibited operation, the cause of the failure in the
これに対し、禁止操作に対応するエラー状態ではない場合には、マルチクラスタシステム1における障害の原因は、単純な操作ミスであると特定される。
On the other hand, when the error state does not correspond to the prohibited operation, the cause of the failure in the
障害解析装置40の記憶部において、クラスタの状態変化を示す状態変化履歴情報と、前記コンソール装置において行なわれた操作を示す操作履歴情報と、前記操作時における前記コンソール装置の画面情報とを関連付ける解析テーブル410を記憶する。
Analysis that associates the state change history information indicating the state change of the cluster, the operation history information indicating the operation performed in the console device, and the screen information of the console device at the time of the operation in the storage unit of the
これにより、操作の前後における実際のクラスタのクラスタ状態と、コンソール装置がクラスタに行なった操作内容と、操作時のコンソール装置の画面上のクラスタのクラスタ状態とを対応付けることができる。 As a result, it is possible to associate the actual cluster state of the cluster before and after the operation with the operation content performed by the console device on the cluster and the cluster state of the cluster on the screen of the console device at the time of operation.
本実施形態では、画面情報はハッシュ値として算出される。画像の取得手法は、「画面」のキャプチャやビデオ撮影を実施する手法もある。ハッシュ値を算出する手法は、これらの手法に比べて、保存する画面情報のデータ量が少なく、セキュリティ上安全性が高い。また、操作者の操作と、履歴として保存される操作時刻は一致または略一致している。 In this embodiment, the screen information is calculated as a hash value. As an image acquisition method, there is also a method of capturing a "screen" or shooting a video. Compared with these methods, the method of calculating the hash value has a small amount of data of screen information to be saved, and is highly secure in terms of security. In addition, the operation of the operator and the operation time saved as a history match or substantially match.
障害解析装置40の記憶部において、操作時におけるコンソール装置30の画面情報と、画面情報から特定されるクラスタ10のクラスタ状態とを関連付けるクラスタ状態対応テーブル409を記憶する。
In the storage unit of the
これにより、画面のハッシュ値と、操作時のコンソール装置の画面上のクラスタのクラスタ状態とを対応付けることができる。 As a result, the hash value of the screen can be associated with the cluster state of the cluster on the screen of the console device at the time of operation.
障害解析装置40の記憶部において、クラスタ状態と禁止操作とを対応付けた操作種別エラーテーブル411を記憶する。
In the storage unit of the
これにより、クラスタ10のクラスタ状態と、コンソール装置30において行なわれた操作とを対応付けることができる。
Thereby, the cluster state of the
さらに、障害解析装置40の第2判定部406において、入力操作時のクラスタのクラスタ状態(実クラスタ状態)に基づいて操作種別エラーテーブル411を参照することで、入力操作が、操作時のクラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する。
Further, in the
これにより、操作がクラスタ状態に対して適切であるか否かと、操作の種別(OK操作/NG操作)に応じてクラスタ10に発生するエラー状態を特定することができる。
Thereby, it is possible to identify whether or not the operation is appropriate for the cluster state and the error state that occurs in the
さらに、障害解析装置40の解析テーブル作成部403において、状態変化履歴情報と操作履歴情報と時系列に並べることで、解析テーブル410を作成する。
Further, the analysis
これにより、上記パターン1〜4の障害を特定するために用いる情報を抽出することができる。
Thereby, the information used for identifying the obstacles of the
障害解析装置40の第1判定部405において、解析テーブル410を参照して、入力操作時のクラスタのクラスタ状態(実クラスタ状態)と入力画面におけるクラスタ10のクラスタ状態(画面表示上クラスタ状態)とが一致するか否かを判定する。
In the
これにより、クラスタ状態が一致しない場合には、マルチクラスタシステム1における障害の原因は、コンソール装置30内部の負荷の高さに起因する、クラスタ状態をコンソール装置30の画面上に反映する描画処理に遅延が生じたことであると特定される。
As a result, when the cluster states do not match, the cause of the failure in the
解析テーブルは、さらに、操作時におけるコンソール装置30の画面情報を含む。
The analysis table further includes screen information of the
また、障害解析装置40の解析テーブル作成部403において、コンソール装置30の画面情報に基づいてクラスタ状態対応情報を参照することで、前記画面情報から特定される前記クラスタのクラスタ状態を取得する。
Further, in the analysis
これにより、コンソール装置30の入力画面におけるクラスタ10のクラスタ状態(画面表示上クラスタ状態)を特定することができる。
Thereby, the cluster state of the cluster 10 (cluster state on the screen display) on the input screen of the
(D)その他
[コンソール装置30のハードウェア構成]
図36は実施形態の一例としてのマルチクラスタシステム1のコンソール装置30のハードウェア構成を例示する図である。
(D) Others [Hardware configuration of console device 30]
FIG. 36 is a diagram illustrating a hardware configuration of the
コンソール装置30は、例えば、サーバ機能を有するコンピュータであり、CPU(Central Processing Unit;プロセッサ)3001、メモリ3002、記憶部3003、ネットワークIF(Interface)部3004、出力部3005、入力部3006、および機器接続IF部3007を備えてよい。これらの機器はネットワーク3008により相互に接続されている。
The
CPU3001は、後述する記憶部3003等に格納されるOS(Operating System)や任意のプログラムを実行し、例えば、後述するクラスタ10に対して操作を行なう。
The
メモリ3002は、種々のデータやプログラムを格納するハードウェアの一例である。メモリ3002としては、RAM(Random Access Memory)等の揮発性メモリや、フラッシュメモリ、SCM、ROM(Read Only Memory)等の不揮発性メモリが挙げられる。
The
記憶部3003は、種々のデータやプログラム等を格納するハードウェアの一例である。例えば、記憶部3003は、コンソール装置30の二次記憶装置として使用されてよく、OSやファームウェア、アプリケーション等のプログラム、および、各種データが格納されてよい。記憶部3003としては、例えば、HDD(Hard Disk Drive)等の磁気ディスク装置の他、SSD(Solid State Drive)やSCM(Storage Class Memory) 等の半導体記憶装置が挙げられる。また、記憶部3003は、コンソール装置30の各種機能の全部若しくは一部を実現するプログラムを格納してもよい。
The
ネットワークIF部3004は、図示しないネットワークを介して、クラスタ10、SVPM20、障害解析装置40との間の接続および通信の制御等を行なう通信インタフェースの一例である。例えば、ネットワークIF部3004としては、イーサネット(登録商標)、光通信(例えばFibre Channel)等に準拠したアダプタが挙げられる。
The network IF
出力部3005は、例えば、ディスプレイ3015aや、プロジェクタ、スピーカ、プリンタ等の出力装置の少なくともいずれか一つを含んでよい。
The
入力部3006は、例えば、キーボード3016a(308)、マウス3016b(308)、タッチパネル、操作ボタン等の入力装置の少なくともいずれか一つを含んでよい。
The
機器接続IF部3007は、コンソール装置30に周辺機器を接続するための通信インタフェースである。例えば、機器接続IF部3007には、メモリ装置3017aやメモリリーダライタ3017bを接続することができる。メモリ装置3017aは、機器接続IF部3007との通信機能を搭載した非一時的な記録媒体、例えばUSB(Universal Serial Bus)メモリである。メモリリーダライタ3017bは、メモリカード3017cへのデータの書き込み、またはメモリカード3017cからのデータの読み出しを行なう。メモリカード3017cは、カード型の非一時的な記録媒体である。
The device connection IF
本実施形態では、コンソール装置30は、記憶部3003に記憶されている各種ログを、有線または無線ネットワークを介して障害解析装置40に送信してもよい。あるいは、コンソール装置30は、当該各種ログをメモリ装置3017aまたはメモリカード3017cに書き出してもよい。
In the present embodiment, the
[障害解析装置40のハードウェア構成]
図37は実施形態の一例としてのマルチクラスタシステム1の障害解析装置40のハードウェア構成を例示する図である。
[Hardware configuration of fault analysis device 40]
FIG. 37 is a diagram illustrating a hardware configuration of the
障害解析装置40は、例えば、サーバ機能を有するコンピュータであり、CPU(Central Processing Unit;プロセッサ)4001、メモリ4002、記憶部4003、ネットワークIF(Interface)部4004、出力部4005、入力部4006、および機器接続IF部4007を備えてよい。これらの機器はネットワーク4008により相互に接続されている。
The
CPU4001は、後述する記憶部4003等に格納されるOS(Operating System)や任意のプログラムを実行し、例えば、後述するクラスタ10に対して操作を行なう。
The
メモリ4002は、種々のデータやプログラムを格納するハードウェアの一例である。メモリ4002としては、RAM(Random Access Memory)等の揮発性メモリや、フラッシュメモリ、SCM、ROM(Read Only Memory)等の不揮発性メモリが挙げられる。
The
記憶部4003は、種々のデータやプログラム等を格納するハードウェアの一例である。例えば、記憶部4003は、コンソール装置30の二次記憶装置として使用されてよく、OSやファームウェア、アプリケーション等のプログラム、および、各種データが格納されてよい。記憶部4003としては、例えば、HDD(Hard Disk Drive)等の磁気ディスク装置の他、SSD(Solid State Drive)やSCM(Storage Class Memory) 等の半導体記憶装置が挙げられる。また、記憶部4003は、コンソール装置30の各種機能の全部若しくは一部を実現するプログラムを格納してもよい。
The
ネットワークIF部4004は、図示しないネットワークを介して、クラスタ10、SVPM20、障害解析装置40との間の接続および通信の制御等を行なう通信インタフェースの一例である。例えば、ネットワークIF部4004としては、イーサネット(登録商標)、光通信(例えばFibre Channel)等に準拠したアダプタが挙げられる。
The network IF
出力部4005は、例えば、ディスプレイ4015aや、プロジェクタ、スピーカ、プリンタ等の出力装置の少なくともいずれか一つを含んでよい。
The
入力部4006は、例えば、キーボード4016a、マウス4016b、タッチパネル、操作ボタン等の入力装置の少なくともいずれか一つを含んでよい。
The
機器接続IF部4007は、コンソール装置30に周辺機器を接続するための通信インタフェースである。例えば、機器接続IF部4007には、メモリ装置4017aやメモリリーダライタ4017bを接続することができる。メモリ装置4017aは、機器接続IF部3007との通信機能を搭載した非一時的な記録媒体、例えばUSB(Universal Serial Bus)メモリである。メモリリーダライタ4017bは、メモリカード4017cへのデータの書き込み、またはメモリカード4017cからのデータの読み出しを行なう。メモリカード4017cは、カード型の非一時的な記録媒体である。
The device connection IF
本実施形態では、障害解析装置40は、記憶部4003に記憶している情報を、有線または無線ネットワークを介してコンソール装置30に送信してもよい。あるいは、障害解析装置40は、当該各種ログをメモリ装置4017aまたはメモリカード4017cに書き出してもよい。
In the present embodiment, the
開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態の各構成および各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。 The disclosed technique is not limited to the above-described embodiment, and can be variously modified and implemented without departing from the spirit of the present embodiment. Each configuration and each process of the present embodiment can be selected as necessary, or may be combined as appropriate.
なお、上述した実施形態に関わらず、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。 Regardless of the above-described embodiment, various modifications can be made without departing from the spirit of the present embodiment.
また、上述した開示により本実施形態を当業者によって実施・製造することが可能である。 Further, according to the above-mentioned disclosure, it is possible for a person skilled in the art to carry out and manufacture the present embodiment.
(E)付記
以上の実施形態に関し、さらに以下の付記を開示する。
(E) Additional notes The following additional notes will be further disclosed with respect to the above embodiments.
(付記1)
クラスタと、前記クラスタを制御するコンソール装置と、障害を解析する障害解析装置とを備えるマルチクラスタシステムであって、
前記障害解析装置が、
前記コンソール装置において入力画面を介して行なわれた入力操作について、前記入力操作時の前記クラスタのクラスタ状態と、前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定する第1判定部と、
入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致する場合には、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する第2判定部と
を備えることを特徴とする、マルチクラスタシステム。
(Appendix 1)
A multi-cluster system including a cluster, a console device that controls the cluster, and a failure analysis device that analyzes failures.
The fault analysis device
First determination for determining whether or not the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match with respect to the input operation performed via the input screen in the console device. Department and
When the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match, whether or not the input operation corresponds to a prohibited operation for the cluster state of the cluster at the time of the operation. A multi-cluster system comprising a second determination unit for determining.
(付記2)
前記障害解析装置が、
前記入力操作が禁止操作である場合には、前記禁止操作後の前記クラスタのクラスタ状態が、前記禁止操作に対応するエラー状態であるか否かを判定する第3判定部を備える
ことを特徴とする、付記1に記載のマルチクラスタシステム。
(Appendix 2)
The fault analysis device
When the input operation is a prohibited operation, a third determination unit for determining whether or not the cluster state of the cluster after the prohibited operation is an error state corresponding to the prohibited operation is provided. The multi-cluster system according to
(付記3)
前記障害解析装置が、
前記クラスタの状態変化を示す状態変化履歴情報と、前記コンソール装置において行なわれた操作を示す操作履歴情報と、前記操作時における前記コンソール装置の画面情報とを関連付ける解析情報を記憶する記憶部を備え、
前記第1判定部が、前記解析情報を参照して、前記入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定する
ことを特徴とする、付記1または2に記載のマルチクラスタシステム。
(Appendix 3)
The fault analysis device
A storage unit that stores analysis information that associates state change history information indicating a state change of the cluster, operation history information indicating an operation performed in the console device, and screen information of the console device at the time of the operation is provided. ,
The first determination unit refers to the analysis information and determines whether or not the cluster state of the cluster at the time of the input operation matches the cluster state of the cluster on the input screen. , The multi-cluster system according to
(付記4)
前記障害解析装置が、
前記状態変化履歴情報と前記操作履歴情報と時系列に並べることで、前記解析情報を作成する解析情報作成部を備える
ことを特徴とする付記3に記載のマルチクラスタシステム。
(Appendix 4)
The fault analysis device
The multi-cluster system according to
(付記5)
前記解析情報は、さらに前記操作時における前記コンソール装置の画面情報を含み、
前記解析情報作成部は、前記コンソール装置の画面情報に基づいてクラスタ状態対応情報を参照することで、前記画面情報から特定される前記クラスタのクラスタ状態を取得する
ことを特徴とする、付記4に記載のマルチクラスタシステム。
(Appendix 5)
The analysis information further includes screen information of the console device at the time of the operation.
The analysis information creation unit obtains the cluster state of the cluster specified from the screen information by referring to the cluster state correspondence information based on the screen information of the console device. Described multi-cluster system.
(付記6)
前記障害解析装置が、
前記クラスタ状態と前記禁止操作とを対応付けた禁止情報を記憶する記憶部を備え、
前記第2判定部は、入力操作時の前記クラスタのクラスタ状態に基づいて前記禁止情報を参照することで、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する
ことを特徴とする、付記1〜5のいずれか一項に記載のマルチクラスタシステム。
(Appendix 6)
The fault analysis device
A storage unit for storing prohibited information in which the cluster state and the prohibited operation are associated with each other is provided.
The second determination unit refers to the prohibition information based on the cluster state of the cluster at the time of the input operation, and whether or not the input operation corresponds to the prohibition operation for the cluster state of the cluster at the time of the operation. The multi-cluster system according to any one of
(付記7)
クラスタと、前記クラスタを制御するコンソール装置とを備えるマルチクラスタシステムに備えられ、当該マルチクラスタシステムにおいて発生する障害を解析する障害解析装置であって、
前記コンソール装置において入力画面を介して行なわれた入力操作について、前記入力操作時の前記クラスタのクラスタ状態と、前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定する第1判定部と、
入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致する場合には、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する第2判定部と
を備えることを特徴とする、障害解析装置。
(Appendix 7)
It is a failure analysis device provided in a multi-cluster system including a cluster and a console device that controls the cluster, and analyzes a failure that occurs in the multi-cluster system.
First determination for determining whether or not the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match with respect to the input operation performed via the input screen in the console device. Department and
When the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match, whether or not the input operation corresponds to a prohibited operation for the cluster state of the cluster at the time of the operation. A fault analysis device comprising a second determination unit for determining.
(付記8)
前記入力操作が禁止操作である場合には、前記禁止操作後の前記クラスタのクラスタ状態が、前記禁止操作に対応するエラー状態であるか否かを判定する第3判定部を備える
ことを特徴とする、付記7に記載の障害解析装置。
(Appendix 8)
When the input operation is a prohibited operation, a third determination unit for determining whether or not the cluster state of the cluster after the prohibited operation is an error state corresponding to the prohibited operation is provided. The fault analysis device according to
(付記9)
前記クラスタの状態変化を示す状態変化履歴情報と、前記コンソール装置において行なわれた操作を示す操作履歴情報と、前記操作時における前記コンソール装置の画面情報とを関連付ける解析情報を記憶する記憶部を備え、
前記第1判定部が、前記解析情報を参照して、前記入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定する
ことを特徴とする、付記7または8に記載の障害解析装置。
(Appendix 9)
A storage unit that stores analysis information that associates state change history information indicating a state change of the cluster, operation history information indicating an operation performed in the console device, and screen information of the console device at the time of the operation is provided. ,
The first determination unit refers to the analysis information and determines whether or not the cluster state of the cluster at the time of the input operation matches the cluster state of the cluster on the input screen. , The fault analysis apparatus according to
(付記10)
前記状態変化履歴情報と前記操作履歴情報と時系列に並べることで、前記解析情報を作成する解析情報作成部を備える
ことを特徴とする、付記9に記載の障害解析装置。
(Appendix 10)
The failure analysis apparatus according to Appendix 9, further comprising an analysis information creating unit that creates the analysis information by arranging the state change history information and the operation history information in chronological order.
(付記11)
前記解析情報は、さらに前記操作時における前記コンソール装置の画面情報を含み、
前記解析情報作成部は、前記コンソール装置の画面情報に基づいてクラスタ状態対応情報を参照することで、前記画面情報から特定される前記クラスタのクラスタ状態を取得する
ことを特徴とする付記10に記載の障害解析装置。
(Appendix 11)
The analysis information further includes screen information of the console device at the time of the operation.
The analysis information creation unit is described in
(付記12)
前記クラスタ状態と前記禁止操作とを対応付けた禁止情報を記憶する記憶部を備え、
前記第2判定部は、入力操作時の前記クラスタのクラスタ状態に基づいて前記禁止情報を参照することで、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する
ことを特徴とする付記7〜11のいずれか一項に記載の障害解析装置。
(Appendix 12)
A storage unit for storing prohibited information in which the cluster state and the prohibited operation are associated with each other is provided.
The second determination unit refers to the prohibition information based on the cluster state of the cluster at the time of the input operation, and whether or not the input operation corresponds to the prohibition operation for the cluster state of the cluster at the time of the operation. The fault analysis apparatus according to any one of
(付記13)
クラスタと、前記クラスタを制御するコンソール装置とを備えるマルチクラスタシステムに備えられ、当該マルチクラスタシステムにおいて発生する障害を解析する障害解析装置のプロセッサに、
前記コンソール装置において入力画面を介して行なわれた入力操作について、前記入力操作時の前記クラスタのクラスタ状態と、前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定させ、
入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致する場合には、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定させる
処理を実行させる、障害解析プログラム。
(Appendix 13)
A processor of a failure analysis device provided in a multi-cluster system including a cluster and a console device for controlling the cluster and analyzing a failure occurring in the multi-cluster system.
With respect to the input operation performed via the input screen in the console device, it is determined whether or not the cluster state of the cluster at the time of the input operation matches the cluster state of the cluster on the input screen.
When the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match, whether or not the input operation corresponds to a prohibited operation for the cluster state of the cluster at the time of the operation. A failure analysis program that executes the process of determining.
(付記14)
前記入力操作が禁止操作である場合には、前記禁止操作後の前記クラスタのクラスタ状態が、前記禁止操作に対応するエラー状態であるか否かを判定させる
処理を前記プロセッサに実行させる、付記13に記載の障害解析プログラム。
(Appendix 14)
When the input operation is a prohibited operation, the processor is made to execute a process of determining whether or not the cluster state of the cluster after the prohibited operation is an error state corresponding to the prohibited operation. The fault analysis program described in.
(付記15)
前記クラスタの状態変化を示す状態変化履歴情報と、前記コンソール装置において行なわれた操作を示す操作履歴情報と、前記操作時における前記コンソール装置の画面情報とを関連付ける解析情報を記憶させ、
前記解析情報を参照して、前記入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定させる
処理を前記プロセッサに実行させる、付記13または14に記載の障害解析プログラム。
(Appendix 15)
The state change history information indicating the state change of the cluster, the operation history information indicating the operation performed in the console device, and the analysis information relating to the screen information of the console device at the time of the operation are stored.
Appendix 13 or 14 for causing the processor to execute a process of determining whether or not the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match with reference to the analysis information. The fault analysis program described in.
(付記16)
前記状態変化履歴情報と前記操作履歴情報と時系列に並べることで、解析情報を作成させる
処理を前記プロセッサに実行させる、付記15に記載の障害解析プログラム。
(Appendix 16)
The failure analysis program according to Appendix 15, which causes the processor to execute a process of creating analysis information by arranging the state change history information and the operation history information in chronological order.
(付記17)
前記解析情報は、さらに前記操作時における前記コンソール装置の画面情報を含み、
前記コンソール装置の画面情報に基づいてクラスタ状態対応情報を参照させ、前記画面情報から特定される前記クラスタのクラスタ状態を取得させる
処理を前記プロセッサに実行させる、付記16に記載の障害解析プログラム。
(Appendix 17)
The analysis information further includes screen information of the console device at the time of the operation.
The failure analysis program according to Appendix 16, which causes the processor to execute a process of referring to cluster state correspondence information based on the screen information of the console device and acquiring the cluster state of the cluster specified from the screen information.
(付記18)
前記クラスタ状態と前記禁止操作とを対応付けた禁止情報を記憶させ、
入力操作時の前記クラスタのクラスタ状態に基づいて前記禁止情報を参照することで、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定させる
処理を前記プロセッサに実行させる、付記13〜17のいずれか一項に記載の障害解析プログラム。
(Appendix 18)
The prohibition information associated with the cluster state and the prohibition operation is stored, and the prohibition information is stored.
By referring to the prohibition information based on the cluster state of the cluster at the time of the input operation, the process of determining whether or not the input operation corresponds to the prohibition operation for the cluster state of the cluster at the time of the operation is described. The failure analysis program according to any one of Appendix 13 to 17, which is executed by a processor.
(付記19)
クラスタと、前記クラスタを制御するコンソール装置とを備えるマルチクラスタシステムにおける障害解析方法であって、
前記コンソール装置において入力画面を介して行なわれた入力操作について、前記入力操作時の前記クラスタのクラスタ状態と、前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定し、
入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致する場合には、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する
ことを特徴とする、障害解析方法。
(Appendix 19)
A failure analysis method in a multi-cluster system including a cluster and a console device that controls the cluster.
Regarding the input operation performed via the input screen in the console device, it is determined whether or not the cluster state of the cluster at the time of the input operation matches the cluster state of the cluster on the input screen.
When the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match, whether or not the input operation corresponds to a prohibited operation for the cluster state of the cluster at the time of the operation. A failure analysis method characterized by determining.
(付記20)
前記入力操作が禁止操作である場合には、前記禁止操作後の前記クラスタのクラスタ状態が、前記禁止操作に対応するエラー状態であるか否かを判定する
ことを特徴とする、付記19に記載の障害解析方法。
(Appendix 20)
When the input operation is a prohibited operation, it is described in Appendix 19 that it is determined whether or not the cluster state of the cluster after the prohibited operation is an error state corresponding to the prohibited operation. Failure analysis method.
(付記21)
前記クラスタの状態変化を示す状態変化履歴情報と、前記コンソール装置において行なわれた操作を示す操作履歴情報と、前記操作時における前記コンソール装置の画面情報とを関連付ける解析情報を記憶し、
前記解析情報を参照して、前記入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定する
ことを特徴とする、付記19または20に記載の障害解析方法。
(Appendix 21)
The state change history information indicating the state change of the cluster, the operation history information indicating the operation performed in the console device, and the analysis information relating to the screen information of the console device at the time of the operation are stored.
19 or 20, wherein it is determined whether or not the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match with reference to the analysis information. Failure analysis method.
(付記22)
前記状態変化履歴情報と前記操作履歴情報と時系列に並べることで、解析情報を作成する
ことを特徴とする、付記21に記載の障害解析方法。
(Appendix 22)
The failure analysis method according to Appendix 21, wherein analysis information is created by arranging the state change history information and the operation history information in chronological order.
(付記23)
前記解析情報は、さらに前記操作時における前記コンソール装置の画面情報を含み、
前記コンソール装置の画面情報に基づいてクラスタ状態対応情報を参照し、前記画面情報から特定される前記クラスタのクラスタ状態を取得する
ことを特徴とする、付記22に記載の障害解析方法。
(Appendix 23)
The analysis information further includes screen information of the console device at the time of the operation.
The failure analysis method according to Appendix 22, wherein the cluster state correspondence information is referred to based on the screen information of the console device, and the cluster state of the cluster specified from the screen information is acquired.
(付記24)
前記クラスタ状態と前記禁止操作とを対応付けた禁止情報を記憶し、
入力操作時の前記クラスタのクラスタ状態に基づいて前記禁止情報を参照することで、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する
ことを特徴とする、付記19〜23のいずれか一項に記載の障害解析方法。
(Appendix 24)
The prohibition information associated with the cluster state and the prohibition operation is stored, and the prohibition information is stored.
By referring to the prohibition information based on the cluster state of the cluster at the time of the input operation, it is determined whether or not the input operation corresponds to the prohibition operation for the cluster state of the cluster at the time of the operation. The fault analysis method according to any one of Appendix 19 to 23.
1 マルチクラスタシステム
10−1 クラスタ#0
10−2 クラスタ#1
20 SVPM
30 コンソール装置
40 障害解析装置
50 LANネットワーク
301 クラスタ状態変化検出部
302 フレーム表示制御部
303 コンソール状態監視部
304 記憶部
305 画面ハッシュ値保存部
306 マウス・キーボードドライバ
307 ディスプレイドライバ
308 キーボード・マウス
309 画面
310 ボタン処理部
311 画面処理部
312 コンソール内部状態ログ
313 クラスタ状態変化ログ
314 画面ハッシュ値付き操作ログ
401 記憶部
402 記憶制御部
403 解析テーブル作成部
404 抽出部
405 第1判定部
406 第2判定部
407 クラスタ状態エラーリスト
408 クラスタ状態変化完了リスト
409 クラスタ状態対応テーブル
410 解析テーブル
411 操作種別エラーテーブル
3001 プロセッサ(CPU)
3002 メモリ
3003 記憶部
3004 ネットワークIF(Interface)部
3005 出力部
3006 入力部
3007 機器接続IF部
3008 ネットワーク
3015a ディスプレイ
3016a キーボード
3016b マウス
3017a メモリ装置
3017b メモリリーダライタ
3017c メモリカード
4001 プロセッサ(CPU)
4002 メモリ
4003 記憶部
4004 ネットワークIF(Interface)部
4005 出力部
4006 入力部
4007 機器接続IF部
4008 ネットワーク
4015a ディスプレイ
4016a キーボード
4016b マウス
4017a メモリ装置
4017b メモリリーダライタ
4017c メモリカード
1 Multi-cluster system 10-1
10-2
20 SVPM
30
3002
4002
Claims (9)
前記コンソール装置において入力画面を介して行なわれた入力操作について、前記入力操作時の前記クラスタのクラスタ状態と、前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定する第1判定部と、
入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致する場合には、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する第2判定部と
を備えることを特徴とする、障害解析装置。 It is a failure analysis device provided in a multi-cluster system including a cluster and a console device that controls the cluster, and analyzes a failure that occurs in the multi-cluster system.
First determination for determining whether or not the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match with respect to the input operation performed via the input screen in the console device. Department and
When the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match, whether or not the input operation corresponds to a prohibited operation for the cluster state of the cluster at the time of the operation. A fault analysis device comprising a second determination unit for determining.
を備えることを特徴とする、請求項1に記載の障害解析装置。 When the input operation is a prohibited operation, a third determination unit for determining whether or not the cluster state of the cluster after the prohibited operation is an error state corresponding to the prohibited operation is provided. The fault analysis device according to claim 1.
前記第1判定部が、前記解析情報を参照して、前記入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定する
ことを特徴とする、請求項1または2に記載の障害解析装置。 A storage unit that stores analysis information that associates state change history information indicating a state change of the cluster, operation history information indicating an operation performed in the console device, and screen information of the console device at the time of the operation is provided. ,
The first determination unit refers to the analysis information and determines whether or not the cluster state of the cluster at the time of the input operation matches the cluster state of the cluster on the input screen. , The fault analysis apparatus according to claim 1 or 2.
ことを特徴とする請求項3に記載の障害解析装置。 The failure analysis apparatus according to claim 3, further comprising an analysis information creating unit that creates analysis information by arranging the state change history information and the operation history information in chronological order.
前記解析情報作成部は、前記コンソール装置の画面情報に基づいてクラスタ状態対応情報を参照することで、前記画面情報から特定される前記クラスタのクラスタ状態を取得する
ことを特徴とする請求項4に記載の障害解析装置。 The analysis information further includes screen information of the console device at the time of the operation.
The fourth aspect of the present invention is that the analysis information creation unit acquires the cluster state of the cluster specified from the screen information by referring to the cluster state correspondence information based on the screen information of the console device. The fault analyzer described.
前記第2判定部は、入力操作時の前記クラスタのクラスタ状態に基づいて前記禁止情報を参照することで、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する
ことを特徴とする請求項1〜5のいずれか一項に記載の障害解析装置。 A storage unit for storing prohibited information in which the cluster state and the prohibited operation are associated with each other is provided.
The second determination unit refers to the prohibition information based on the cluster state of the cluster at the time of the input operation, and whether or not the input operation corresponds to the prohibition operation for the cluster state of the cluster at the time of the operation. The fault analysis apparatus according to any one of claims 1 to 5, wherein the fault analysis apparatus is characterized by determining whether or not the data is used.
前記障害解析装置が、
前記コンソール装置において入力画面を介して行なわれた入力操作について、前記入力操作時の前記クラスタのクラスタ状態と、前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定する第1判定部と、
入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致する場合には、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する第2判定部と
を備えることを特徴とする、マルチクラスタシステム。 A multi-cluster system including a cluster, a console device that controls the cluster, and a failure analysis device that analyzes failures.
The fault analysis device
First determination for determining whether or not the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match with respect to the input operation performed via the input screen in the console device. Department and
When the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match, whether or not the input operation corresponds to a prohibited operation for the cluster state of the cluster at the time of the operation. A multi-cluster system comprising a second determination unit for determining.
前記コンソール装置において入力画面を介して行なわれた入力操作について、前記入力操作時の前記クラスタのクラスタ状態と、前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定させ、
入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致する場合には、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定させる
処理を実行させる、障害解析プログラム。 A processor of a failure analysis device provided in a multi-cluster system including a cluster and a console device for controlling the cluster and analyzing a failure occurring in the multi-cluster system.
With respect to the input operation performed via the input screen in the console device, it is determined whether or not the cluster state of the cluster at the time of the input operation matches the cluster state of the cluster on the input screen.
When the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match, whether or not the input operation corresponds to a prohibited operation for the cluster state of the cluster at the time of the operation. A failure analysis program that executes the process of determining.
前記コンソール装置において入力画面を介して行なわれた入力操作について、前記入力操作時の前記クラスタのクラスタ状態と、前記入力画面における前記クラスタのクラスタ状態とが一致するか否かを判定し、
入力操作時の前記クラスタのクラスタ状態と前記入力画面における前記クラスタのクラスタ状態とが一致する場合には、前記入力操作が、前記操作時の前記クラスタのクラスタ状態に対する禁止操作に該当するか否かを判定する
ことを特徴とする、障害解析方法。 A failure analysis method in a multi-cluster system including a cluster and a console device that controls the cluster.
Regarding the input operation performed via the input screen in the console device, it is determined whether or not the cluster state of the cluster at the time of the input operation matches the cluster state of the cluster on the input screen.
When the cluster state of the cluster at the time of the input operation and the cluster state of the cluster on the input screen match, whether or not the input operation corresponds to a prohibited operation for the cluster state of the cluster at the time of the operation. A failure analysis method characterized by determining.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020008644A JP2021117547A (en) | 2020-01-22 | 2020-01-22 | Failure analysis device, multi-cluster system, failure analysis program and failure analysis method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020008644A JP2021117547A (en) | 2020-01-22 | 2020-01-22 | Failure analysis device, multi-cluster system, failure analysis program and failure analysis method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021117547A true JP2021117547A (en) | 2021-08-10 |
Family
ID=77174819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020008644A Pending JP2021117547A (en) | 2020-01-22 | 2020-01-22 | Failure analysis device, multi-cluster system, failure analysis program and failure analysis method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021117547A (en) |
-
2020
- 2020-01-22 JP JP2020008644A patent/JP2021117547A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210049092A1 (en) | Analyzing software test failures using natural language processing and machine learning | |
US9448908B2 (en) | System and method for model based session management | |
US8312322B2 (en) | System for automated generation of computer test procedures | |
JP6048038B2 (en) | Information processing apparatus, program, and information processing method | |
WO2018120721A1 (en) | Method and system for testing user interface, electronic device, and computer readable storage medium | |
US9904517B2 (en) | System and method for automatic modeling of an application | |
US20180357214A1 (en) | Log analysis system, log analysis method, and storage medium | |
US20120254662A1 (en) | Automated test system and automated test method | |
US7398511B2 (en) | System and method for providing a health model for software | |
Ding et al. | Mining historical issue repositories to heal large-scale online service systems | |
US10977108B2 (en) | Influence range specifying method, influence range specifying apparatus, and storage medium | |
US11762720B2 (en) | Information processing apparatus and non-transitory computer-readable storage medium for storing API use history display program | |
JP4383484B2 (en) | Message analysis apparatus, control method, and control program | |
US20080126283A1 (en) | Method of capturing Problem Resolution for Subsequent Use in Managed Distributed Computer Systems | |
US20190129781A1 (en) | Event investigation assist method and event investigation assist device | |
US20160098473A1 (en) | Grouping method and apparatus | |
US20150169292A1 (en) | Computer-readable recording medium storing program for managing scripts, script management device, and script management method | |
JP2021117547A (en) | Failure analysis device, multi-cluster system, failure analysis program and failure analysis method | |
JP2008198123A (en) | Fault detection system and fault detection program | |
JP6340990B2 (en) | Message display method, message display device, and message display program | |
CN115048299A (en) | Application program testing method and device, storage medium and electronic equipment | |
JP5679347B2 (en) | Failure detection device, failure detection method, and program | |
KR100567813B1 (en) | Transaction Analysing System for Tandem system | |
JP6547341B2 (en) | INFORMATION PROCESSING APPARATUS, METHOD, AND PROGRAM | |
US11334350B2 (en) | Program component evaluation system and program component evaluation method |