JP2000305914A - Cluster system, specification assisting device of system fault factor and recording medium - Google Patents

Cluster system, specification assisting device of system fault factor and recording medium

Info

Publication number
JP2000305914A
JP2000305914A JP11109223A JP10922399A JP2000305914A JP 2000305914 A JP2000305914 A JP 2000305914A JP 11109223 A JP11109223 A JP 11109223A JP 10922399 A JP10922399 A JP 10922399A JP 2000305914 A JP2000305914 A JP 2000305914A
Authority
JP
Japan
Prior art keywords
value
failure
state value
fault
system component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11109223A
Other languages
Japanese (ja)
Inventor
Shigeru Kobayashi
茂 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP11109223A priority Critical patent/JP2000305914A/en
Publication of JP2000305914A publication Critical patent/JP2000305914A/en
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

PROBLEM TO BE SOLVED: To promptly and exactly specify a system component to be a fault generating factor without troubling a maintenance staff. SOLUTION: A state value including a state value number recorded in recording means 4a, 4b,... of all nodes 3a, 3b,... to constitute a cruster system is fetched by a state value reading and storage means 21 and stored in a state value storage part 12. In addition, the system is preliminarily provided with a defining means (13, factor attribute definition table, relational attribute table between factor and state value) to define certainty of generation of a fault by every system component and certainty of the fault to be reflected on the state value by every system component. And an abnormal value is found from among the state values to be stored in the state value reading and storage means 21 and appropriateness of fault of the system component is calculated by using the state value as the abnormal value, the certainty of generation of the fault and the certainty of the fault to be reflected on the state value by a fault possibility processing means 22.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、複数の計算機(以
下、ノードと呼ぶ)がネットワーク等で連携しながらプ
ログラムの所定の処理を実行するクラスタシステム、シ
ステム障害要因特定支援装置および記録媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a cluster system in which a plurality of computers (hereinafter, referred to as nodes) execute predetermined processing of a program in cooperation with each other via a network or the like, a system failure factor identification support device, and a recording medium.

【0002】[0002]

【従来の技術】従来、図8に示すように、二重化された
伝送ラインL1,L2を有する例えばLAN51上に複
数のノード521,522,…が接続され、1つのノード
521のプログラム実行中に障害が発生したとき、次の
ノード522が同一機能のプログラムの実行を引き継い
で所定の処理を実行することが行われている。
2. Description of the Related Art Conventionally, as shown in FIG. 8, a plurality of nodes 52 1 , 52 2 ,... Are connected on, for example, a LAN 51 having duplicated transmission lines L 1 and L 2 , and one node 52 1 executes a program. when a failure occurs during, it has been made that the 2 next node 52 executes a predetermined process takes over the execution of the program of the same function.

【0003】このようなクラスタシステムでは、障害発
生の要因を解析する場合、保守員が各ノード521,5
2,…に付設される記憶装置531,532,…からプ
ログラム実行状態であるエラー/実行ログ(log:履
歴状態)を読み出してプリントアウトし、障害発生要因
となっているシステム構成要素を推定する。
In such a cluster system, when analyzing the cause of the occurrence of a failure, the maintenance staff needs to operate the nodes 52 1 , 5 2
Read the error / execution log (log: history state), which is the program execution state, from the storage devices 53 1 , 53 2 ,... Attached to 22 2 ,. Is estimated.

【0004】[0004]

【発明が解決しようとする課題】しかしながら、以上の
ようなクラスタシステムでは、単一のノードからなるシ
ステムよりも構成,動作が複雑であるばかりでなく、1
つの業務プログラムが複数のノード上を移動しながら実
行することから、保守員は手作業で障害発生要因を解析
するのが困難な場合が多い。
However, in the above-described cluster system, not only the configuration and operation are more complicated than a system including a single node, but also
Since one business program is executed while moving on a plurality of nodes, it is often difficult for maintenance personnel to manually analyze the cause of the failure.

【0005】本発明は上記事情にかんがみてなされたも
ので、予め定められる状態値番号とともに各ノードの検
出可能な状態値を記録し、障害発生要因となるシステム
構成要素を容易に特定可能とするクラスタシステムを提
供することにある。
The present invention has been made in view of the above circumstances, and records a detectable state value of each node together with a predetermined state value number, so that it is possible to easily specify a system component which causes a failure. To provide a cluster system.

【0006】また、別の発明の目的は、保守員の手を煩
わすことなく迅速,的確に障害発生要因となるシステム
構成要素を特定するシステム障害要因特定支援装置を提
供することにある。
It is another object of the present invention to provide a system failure factor identification support device for quickly and accurately identifying a system component that causes a failure without the need for maintenance personnel.

【0007】さらに、別の発明の目的は、迅速,的確に
障害発生要因となるシステム構成要素を特定する障害要
因特定処理用プログラムを記録したコンピュータ読み取
り可能な記録媒体を提供することにある。
It is a further object of the present invention to provide a computer-readable recording medium in which a failure factor identification processing program for quickly and accurately identifying a system component causing a failure is recorded.

【0008】[0008]

【課題を解決するための手段】上記課題を解決するため
に、本発明は、複数のノードが伝送ラインで連携しなが
ら所要の処理を実行するクラスタシステムにおいて、前
記各ノードは、各ノードの検出可能な状態値の異常時ま
たは一定の時間経過ごとに、時刻、予め定められる状態
値番号および状態値を記録する記録手段を設けた構成で
ある。
In order to solve the above-mentioned problems, the present invention provides a cluster system in which a plurality of nodes execute required processing while cooperating with each other via a transmission line. A recording means is provided for recording a time, a predetermined state value number, and a state value each time a possible state value is abnormal or every certain time has elapsed.

【0009】本発明は、以上のような手段を講じたこと
により、各ノードが状態値の異常時または一定の時間経
過ごとに、時刻、予め定められる状態値番号および状態
値を記録することから、異常とされる状態値の状態値番
号に基づき、障害発生要因となっているシステム構成要
素を特定可能となる。
According to the present invention, by taking the above measures, each node records a time, a predetermined state value number and a state value each time the state value is abnormal or every time a certain time elapses. Based on the status value number of the status value determined to be abnormal, it is possible to specify the system component causing the failure.

【0010】また、別の発明は、クラスタシステムを構
成する全ノードがそれぞれ各ノードの検出可能な状態値
の異常時または一定の時間経過ごとに、時刻、予め定め
られる状態値番号および状態値を記録する記録手段を備
えている場合、各ノードに付設されている記録手段から
状態値番号を含む状態値を取り込んで記憶する状態値読
取記憶手段と、各システム構成要素ごとに障害の発症の
確実さ(0〜1の実数)および各システム構成要素ごと
に障害の状態値に反映される確実さ(0〜1の実数)を
定義する定義手段と、前記状態値読取記憶手段に記憶さ
れる状態値の中から異常値を見つけ出し、当該異常値で
ある状態値と前記障害の発症の確実さと前記障害の状態
値に反映される確実さとを用いて、システム構成要素の
障害妥当性を算出する障害可能性処理手段とを設け、さ
らにこれら構成要素に障害可能性処理手段により算出さ
れる各システム構成要素の障害妥当性を表示し、障害要
因の特定を可能とする妥当性出力手段を設けたシステム
障害要因特定支援装置である。
[0010] Further, another invention is characterized in that all nodes constituting the cluster system change the time, a predetermined state value number and a state value each time the detectable state value of each node is abnormal or every certain time has elapsed. In the case where a recording means for recording is provided, a state value reading / storage means for taking in and storing a state value including a state value number from a recording means attached to each node, and a reliable occurrence of a failure for each system component. Means (real number from 0 to 1) and certainty (real number from 0 to 1) to be reflected in the state value of a fault for each system component, and a state stored in the state value reading storage means An abnormal value is found from the values, and the fault validity of the system component is calculated using the status value that is the abnormal value, the certainty of the occurrence of the fault, and the certainty reflected in the status value of the fault. And a validity output means for displaying the validity of each system component calculated by the failure possibility processing means on these components and enabling the identification of the cause of the failure. This is a system failure factor identification support device.

【0011】この発明は、以上のような手段を講じたこ
とにより、状態値読取記憶手段にて各ノードに付設され
る記録手段から状態値番号を含む状態値を読み取って時
系列的に処理記憶した後、障害可能性処理手段が状態値
の中から異常とされる状態値を見つけ出し、この状態値
と定義手段で定義された当該状態値に関連するシステム
構成要素の両確実さとを用いて、システム構成要素の障
害妥当性を算出することにより、妥当性を「1」とした
とき、この「1」から両確実さ乗算値を減算し、障害妥
当性が最も大きいシステム構成要素を特定するものであ
る。
According to the present invention, by taking the above means, the state value including the state value number is read from the recording means attached to each node by the state value reading / storing means, and the state values are processed and stored in chronological order. After that, the failure possibility processing means finds a state value regarded as abnormal from the state values, and using both this state value and the certainty of the system component related to the state value defined by the definition means, By calculating the fault validity of the system component, when the validity is set to "1", the multiplicity of the two certainty values is subtracted from this "1" to specify the system component having the highest fault validity. It is.

【0012】さらに、別の発明として、システム障害要
因特定支援装置の構成をそのままクラスタシステムを構
成する少なくとも1つのノードに適用すれば、クラスタ
システム自身で障害要因となっているシステム構成要素
を特定できる。
Further, as another invention, if the configuration of the system failure factor identification support device is applied to at least one node constituting the cluster system as it is, the cluster system itself can identify the system component causing the failure. .

【0013】[0013]

【発明の実施の形態】以下、本発明の実施の形態を説明
するに先立ち、クラスタシステムの障害要因を機械的に
解析する場合の基礎的事項について説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Prior to the description of embodiments of the present invention, basic matters in the case of mechanically analyzing a failure factor of a cluster system will be described.

【0014】クラスタシステムの障害要因を機械的に解
析する場合、クラスタシステムを構成する各ノードの検
出可能な状態値を的確に把握する必要がある。この検出
可能な状態値は、典型的にはネットワークを介して定期
的に行う各ノード間の定期交信やあるノードにおけるプ
ログラムの実行状態などが挙げられ、しかも単独のシス
テム構成要素ではなく、幾つかのシステム構成要素に跨
った動作状態から解析する必要がある。例えばある状態
値に異常が現れたとき、それに関連する構成要素の少な
くとも1つに異常が現れてくることを意味し、逆にある
ノードの状態値が正常であれば、関連するシステム構成
要素の全てが正常である可能性が高いことを意味する。
When mechanically analyzing the cause of a failure in the cluster system, it is necessary to accurately grasp the detectable state value of each node constituting the cluster system. This detectable status value includes, for example, periodic communication between each node that is performed periodically via a network, the execution status of a program at a certain node, and the like. It is necessary to analyze from the operation state across the system components. For example, when an abnormality appears in a certain state value, it means that an abnormality appears in at least one of the components related thereto, and conversely, when the state value of a certain node is normal, the related system component It means that everything is likely to be normal.

【0015】一般に、クラスタシステムの特長である冗
長構成およびプログラムの実行引継ぎなどを考えれば、
各システム構成要素のさまざまな状態が組み合わされた
検出状態値で現れることになる。よって、これら構成要
素の状態を連立方程式とし、各システム構成要素の中か
ら障害要因となるシステム構成要素を特定する。
In general, considering a redundant configuration and a handover of a program which are features of a cluster system,
The various states of each system component will appear in the combined detected state values. Therefore, the states of these components are set as simultaneous equations, and a system component that becomes a failure factor is specified from among the system components.

【0016】図1は本発明に係るクラスタシステムの一
実施の形態を示す構成図である。
FIG. 1 is a configuration diagram showing one embodiment of a cluster system according to the present invention.

【0017】このシステムは、二重化された伝送ライン
L1,L2からなる例えばLAN1上にノードの検出可
能な状態値を取り込んで処理するクラスタ制御用プログ
ラム2a、2b、2c、…をもつ複数のノード3a、3
b、3c、…が接続され、これら各ノード3a、3b、
3c、…には状態値などのデータを記録する記録装置4
a、4b、4c、…が接続されている。
This system comprises a plurality of nodes 3a each having a cluster control program 2a, 2b, 2c,... Which takes in and processes a detectable state value of a node on, for example, LAN1 composed of duplicated transmission lines L1 and L2. , 3
, 3c,... are connected, and these nodes 3a, 3b,.
Recording devices 4 for recording data such as status values are stored in 3c,.
a, 4b, 4c,... are connected.

【0018】前記各ノード3a、3b、3c、…には、
システム構成要素の異常時に状態値異常検出時刻を取り
込むための時刻発生源(図示せず)が設けられ、また記
録装置4a、4b、4c、…には予め後記するように状
態値の種類数に相当する状態値番号が設定されている。
Each of the nodes 3a, 3b, 3c,.
A time generation source (not shown) for taking in the state value abnormality detection time when the system component is abnormal is provided, and the recording devices 4a, 4b, 4c,. The corresponding state value number has been set.

【0019】ここで、前記各ノードの検出可能な状態値
とは、極力単純な値とする。例えば「正常」か「異常」
の何れか,つまり、「1」か「0」で保存するものとす
る。また、各ノードにおけるプログラム実行状態におい
ては、実行している、もしくは実行して失敗したプログ
ラムの状態のみを例えば同じく「1」、「0」などで記
録するものとする。
Here, the detectable state value of each node is a simple value as much as possible. For example, "normal" or "abnormal"
, That is, “1” or “0”. Also, in the program execution state in each node, only the state of the program that has been executed or has failed in execution is recorded as “1” or “0”, for example.

【0020】前記検出可能な状態値の種類数は、ノード
間ハートビートとノード実行時のプログラムの状態とで
分けて考えたとき、以下のような種類数が存在する。
The number of types of the detectable state values includes the following types when the heartbeat between nodes and the state of the program at the time of executing the node are considered separately.

【0021】* ノード間ハートビートの場合、あるノ
ードから見て、監視対象ノードが稼動しているか否か
は、 ノード数×通信経路数×ノード数 … (1) だけ存在する。但し、伝送ラインが例えば二重化されて
いない場合にはノード数×通信経路数だけ存在する。
In the case of an inter-node heartbeat, from a certain node, whether or not the monitored node is operating is determined by the number of nodes × the number of communication paths × the number of nodes (1). However, if the transmission line is not duplicated, for example, there are the number of nodes × the number of communication paths.

【0022】* ノードで実行しているプログラムの状
態の場合は、 ノード数×プログラム数 … (2) だけ存在する。
* In the case of the state of the program running on the node, there are as many as the number of nodes × the number of programs (2).

【0023】そこで、以上のような状態値を整理する意
味から、前記状態値の種類数だけ状態値番号を付するも
のとする。
Therefore, in order to organize the state values as described above, the state value numbers are assigned by the number of types of the state values.

【0024】なお、前記(1)においてノード数の二乗
式を用いているが、これは例えば図2に示すような二重
化伝送ラインの場合、2つの問合せ通信経路R1(実
線)とR2(点線)があるので、問合せ元ノードは、問
合せ先ノードに対してそれぞれ異なる通信経路R1,R
2を通して問合せを行う必要がある為である。このよう
な問合せを実行することにより、一方の通信経路R1に
よる問合せに対し、問合せ先ノードから返答があるが、
例えば他方の通信経路R2による問合せに対し、問合せ
先ノードから返答が無ければ、少なくとも通信経路R2
が異常であるとする状態値を検出できる。
In the above (1), the square equation of the number of nodes is used. For example, in the case of a duplex transmission line as shown in FIG. 2, two inquiry communication paths R1 (solid line) and R2 (dotted line) , The inquiring node sends different communication paths R1, R
This is because it is necessary to make an inquiry through 2. By executing such an inquiry, there is a response from the inquiry destination node to the inquiry via one communication route R1,
For example, if there is no response from the inquiry destination node to the inquiry via the other communication path R2, at least the communication path R2
Can be detected as an abnormal state value.

【0025】次に、以上のようなシステムの動作につい
て図3(a)、(b)を参照して説明する。
Next, the operation of the above system will be described with reference to FIGS. 3 (a) and 3 (b).

【0026】各ノード3(3a、3b、…)は、ノード
本来のデータ処理中に割り込みその他の種々の要因を受
け、クラスタ制御用プログラム2(2a、2b、…)の
動作が開始すると、図3(a)に示すような処理を実行
する。
When each node 3 (3a, 3b,...) Receives an interrupt or other various factors during the original data processing of the node and the operation of the cluster control program 2 (2a, 2b,. The processing as shown in FIG.

【0027】すなわち、各ノード3(3a、3b、…)
は、不要データのクリア処理その他必要なデータの設定
等の初期化処理を行った後(S1)、状態値に異常有り
か否かを判断する(S2)。各ノードの検出可能な状態
値の中に異常な値をとる場合がある時、異常有りと判断
する。ここで、異常な値をとるとは、例えば交信不可そ
の他のデータ授受不可とか、電源ダウンとか、OSダウ
ン、クラスタ制御用プログラム動作不可などが挙げられ
るが、それ以外にも種々の異常が考えられる。
That is, each node 3 (3a, 3b,...)
Performs initialization processing such as unnecessary data clear processing and other necessary data setting (S1), and then determines whether or not there is an abnormality in the state value (S2). When there is an abnormal value among the detectable state values of each node, it is determined that there is an abnormality. Here, the abnormal value may be, for example, communication failure or other data transfer failure, power supply down, OS down, cluster control program inoperable, etc., but other various failures may be considered. .

【0028】以上のようにして状態値が異常な値をとる
場合、その時の時刻、状態値番号を取り込み、状態値と
ともに、記録装置4(4a、4b、…)に記録する(S
3)。このとき、異常に関係する状態値種類数が複数存
在する場合、それぞれの状態値番号を用いてその種類ご
とに状態値を記憶する。
When the status value takes an abnormal value as described above, the time and the status value number at that time are fetched and recorded in the recording device 4 (4a, 4b,...) Together with the status value (S).
3). At this time, if there are a plurality of status value types related to the abnormality, the status values are stored for each type using the respective status value numbers.

【0029】以上のような一連の処理は、検出終了指示
が有るまで繰り返し実行される(S4)。
The above series of processing is repeatedly executed until a detection end instruction is given (S4).

【0030】その結果、記録装置4には、図4に示すよ
うに異常値が発生する毎に,時系列的に時刻、状態値番
号および状態値のレコードで順次記録していく。
As a result, as shown in FIG. 4, every time an abnormal value occurs, the recording device 4 sequentially records the time, the status value number, and the status value record in time series.

【0031】なお、図3(a)は状態値が異常な値をと
るときの状態値の記録処理であるが、例えば一定時間経
過するごとに状態値を記録する場合でもよい。
FIG. 3A shows a process of recording a status value when the status value takes an abnormal value. However, the status value may be recorded every time a predetermined time elapses.

【0032】この一定時間ごとの状態値の記録は、図3
(b)に示すように各ノード3(3a、3b、…)が初
期化処理を行った後(S11)、一定時間Δtを経過し
たか否かを判断する(S12)。一定時間Δtを経過し
た場合には、その時刻、状態値番号およびその時の状態
値を順次記録装置4に記憶していく(S13)。そし
て、以上のような一連の処理は、検出終了指示が有るま
で繰り返し実行される(S14)。
The recording of the state value at regular intervals is shown in FIG.
As shown in (b), after each node 3 (3a, 3b,...) Performs an initialization process (S11), it is determined whether a certain time Δt has elapsed (S12). When the predetermined time Δt has elapsed, the time, the state value number, and the state value at that time are sequentially stored in the recording device 4 (S13). Then, a series of processing as described above is repeatedly executed until there is a detection end instruction (S14).

【0033】従って、以上のような実施の形態によれ
ば、各ノード3の検出可能な状態値が異常値をとると
き、或いは一定の時間経過するごとに、状態値番号ごと
に状態値がどのような値をとっているかを記録するの
で、異常とされる状態値の状態値番号に基づき、障害発
生要因となっているシステム構成要素を特定することが
可能となる。
Therefore, according to the above-described embodiment, when the detectable state value of each node 3 takes an abnormal value, or every time a certain time elapses, the state value is changed for each state value number. Since such a value is recorded, it is possible to identify the system component causing the failure based on the status value number of the status value regarded as abnormal.

【0034】次に、図5は本発明に係わるシステム障害
要因特定支援装置の一実施の形態を示す構成図である。
なお、この装置は、図1に示すクラスタシステムとは独
立した支援装置であるが、例えば図1に示す特定のノー
ド例えば31に図5に示す機能をもたせてもよく、或い
は各ノードにそれぞれ図5に示す機能をもたせてもよ
い。この場合には、障害要因特定支援機能をもったクラ
スタシステムを実現できる。
FIG. 5 is a block diagram showing an embodiment of a system failure factor identification support apparatus according to the present invention.
Note that this apparatus is an independent support system is a cluster system shown in FIG. 1, may be imparted the functions shown in FIG. 5 to a particular node for example 3 1 shown in FIG. 1 for example, or to each node The function shown in FIG. 5 may be provided. In this case, a cluster system having a failure factor identification support function can be realized.

【0035】このシステム障害要因特定支援装置は、各
ノード3a、3b、3c、…の記録装置4a、4b、4
c、…に保存される状態値などをインタフェース11を
通して読み取って記憶する状態値記憶部12と、予め要
素属性および要素−状態値間関係属性を定義する定義テ
ーブル13と、障害要因特定処理用プログラムを記録す
る記録媒体14と、CPUで構成され、記録媒体14に
記録される障害要因特定処理用プログラムを読み取って
所定の処理を実行する障害要因特定処理部15と、処理
前、処理中および処理結果のデータを記憶するデータバ
ッファ16と、入力機器17と、表示部18とが設けら
れている。
The system failure factor identification support device includes the recording devices 4a, 4b, 4 of the nodes 3a, 3b, 3c,.
a status value storage unit 12 for reading and storing status values and the like stored in c,... through the interface 11, a definition table 13 for defining element attributes and element-state value relationship attributes in advance, and a failure factor identification processing program , A failure factor identification processing unit 15 which is configured by a CPU, reads a failure factor identification processing program recorded on the recording medium 14 and executes a predetermined process, and before, during, and after the process. A data buffer 16 for storing result data, an input device 17, and a display unit 18 are provided.

【0036】なお、前述する状態値記憶部12、定義テ
ーブル13およびデータバッファ16はそれぞれ別体に
設けられているが、同一の記録媒体にエリア分けして用
いてもよい。
Although the state value storage section 12, the definition table 13, and the data buffer 16 are provided separately, they may be used in the same recording medium by dividing the area.

【0037】前記状態値記憶部12には、図6(a)に
示すようにノード3a、3b、3c、…に付設される各
記録装置4a、4b、4c、…に記録される時刻,状態
値番号および状態値のうち、状態値番号および状態値が
時系列的にテーブル化されて記憶されている。以下、こ
の状態値記憶部12の記憶テーブルを状態値テーブルT
rと呼ぶ。
As shown in FIG. 6 (a), the time and state recorded in each of the recording devices 4a, 4b, 4c,... Attached to the nodes 3a, 3b, 3c,. Among the value numbers and the state values, the state value numbers and the state values are stored in a time-series table. Hereinafter, the storage table of the state value storage unit 12 is referred to as a state value table T.
Called r.

【0038】前記定義テーブル13は、図6(b)に示
すような要素属性を定義する要素属性定義テーブルTa
と図6(c)に示すような要素−状態値間関係の属性を
定義する要素−状態値間関係属性定義テーブルTrとか
ら成っている。
The definition table 13 is an element attribute definition table Ta for defining element attributes as shown in FIG.
And an element-state value relation attribute definition table Tr that defines the attribute of the element-state value relation as shown in FIG. 6C.

【0039】この要素属性定義テーブルTaは、予めシ
ステム構成要素の障害発症の確実さを設定するテーブル
である。具体的には、障害を発生する可能性のあるシス
テム構成要素(システム構成要素番号)を属性とし、そ
のシステム構成要素の障害が症状に表れるのが継続的で
あるか間欠的であるかの程度、つまりシステム構成要素
ごとに症状の継続性(反復性)の程度である確実さを0
〜1の実数をもって表わしたものであって、いわゆる障
害の時間上における発症の確実さを属性として定義す
る。
This element attribute definition table Ta is a table for setting in advance the certainty of failure occurrence of system components. Specifically, a system component (system component number) that may cause a failure is used as an attribute, and the degree of whether the failure of the system component appears as a symptom is continuous or intermittent. That is, the degree of certainty of the symptom continuity (repetition) for each system component
It is represented by a real number of 11, and the certainty of the onset of the so-called failure over time is defined as an attribute.

【0040】なお、システム構成要素とは、システムを
構成する全ての要素のうち、障害を発生する可能性のあ
る要素であって、例えば各ノード、各伝送ライン(通信
経路)、プログラム、OS、電源、プログラムの使用す
るリソース等が挙げられ、これらシステム構成要素には
それぞれシステム構成要素番号が付される。同一機能の
プログラムは、何れのノードで実行されても、プログラ
ム内容が同一であるので、論理的に同一のシステム構成
要素とみなし、同一の要素番号が用いられる。
The system components are components which may cause a failure among all components constituting the system. For example, each node, each transmission line (communication path), program, OS, A power source, resources used by the program, and the like are listed, and these system components are respectively assigned system component numbers. Regardless of which node executes a program having the same function, the contents of the program are the same. Therefore, the programs are regarded as logically the same system components, and the same element numbers are used.

【0041】一方、要素−状態値間関係属性定義テーブ
ルTrは、予めシステム構成要素の障害が状態値に反映
される確実さを設定するテーブルである。状態値番号、
システム構成要素番号、確実さの組からなるレコードの
配列となっている。このレコードのフィールドは、それ
ぞれTr[i].s,Tr[i].c,Tr[i].w
で参照するものとする。sは状態値番号、cはシステム
構成要素番号、wは確実さに属することを意味する。
On the other hand, the element-state value relationship attribute definition table Tr is a table for setting in advance the certainty that a failure of a system component is reflected in the state value. Status value number,
It is an array of records consisting of a set of system component numbers and certainty. The fields of this record are Tr [i]. s, Tr [i]. c, Tr [i]. w
Shall be referred to. s indicates a state value number, c indicates a system component number, and w indicates a certainty.

【0042】すなわち、要素−状態値間関係属性定義テ
ーブルTrは、具体的には、状態値番号および障害を発
生する可能性のあるシステム構成要素であるシステム構
成要素番号を属性とし、そのシステム構成要素の障害が
実際に状態値に反映される確実さを0〜1の実数をもっ
て表わしたものであって、いわゆる障害の空間上におけ
る発症の確実さを属性として定義している。
More specifically, the element-state value relation attribute definition table Tr has, as attributes, a state value number and a system element number which is a system element which may cause a failure. It is a certainty that the failure of the element is actually reflected in the state value as a real number of 0 to 1, and the so-called failure occurrence in the space of the failure is defined as an attribute.

【0043】前記記録媒体14は、後記する図7に示す
よう障害要因特定処理部15に実行させるための障害要
因特定処理用プログラムが記録されている。なお、記録
媒体14としては、一般的にはCD−ROMまたは磁気
ディスクが用いられるが、それ以外にも例えば磁気テー
プ、DVD−ROM、フロッピー(登録商標)ディス
ク、MO、CD−R、メモリカードなどを用いてもよ
い。
The recording medium 14 stores a failure factor identification processing program to be executed by the failure factor identification processing unit 15 as shown in FIG. As the recording medium 14, a CD-ROM or a magnetic disk is generally used, but other than that, for example, a magnetic tape, DVD-ROM, floppy (registered trademark) disk, MO, CD-R, memory card Or the like may be used.

【0044】前記障害要因特定処理部15は、状態値読
取記憶手段21と、障害可能性処理手段22と、妥当性
出力手段23とが設けられている。
The failure factor identification processing section 15 is provided with a state value reading and storing means 21, a failure possibility processing means 22, and a validity output means 23.

【0045】この状態値読取記憶手段21は、各ノード
3a、3b、3c、…に付設される記録装置4a、4
b、4c、…に記録されているデータを読み込んで順次
データバッファ16に格納し、このデータ格納後に時系
列的な並べ替え処理を行って状態値記憶部12に記憶す
る機能をもっている。
The state value reading and storing means 21 includes recording devices 4a, 4a,
has a function of reading the data recorded in b, 4c,... and sequentially storing the data in the data buffer 16, performing a time-series rearrangement process after storing the data, and storing the data in the state value storage unit 12.

【0046】前記障害可能性処理手段22は、状態値記
憶部12に記憶される状態値、予め定義テーブル13に
設定される各システム構成要素の障害の発症の確実さお
よび状態値に反映される確実さなどを用いて、各システ
ム構成要素の障害の可能性,,つまり障害の妥当性を数
値で表わす機能をもっている。
The fault possibility processing means 22 reflects the status value stored in the status value storage unit 12, the reliability of occurrence of a fault of each system component set in the definition table 13 and the status value in advance. It has a function of expressing the possibility of a failure of each system component, that is, the validity of the failure, by numerical values using certainty and the like.

【0047】前記妥当性出力手段23は、各システム構
成要素の障害妥当性を表示部18に表示して保守員に知
らせる機能をもっている。
The validity output means 23 has a function of displaying the validity of the failure of each system component on the display unit 18 to notify maintenance personnel.

【0048】次に、以上のように構成された装置に関
し、障害要因となるシステム構成要素の特定処理につい
て説明する。
Next, a description will be given of a process of identifying a system component which causes a failure in the apparatus configured as described above.

【0049】なお、この障害要因となるシステム構成要
素の特定処理は減点法を用いて処理する例である。この
例は、初期状態時、全てのシステム構成要素の障害可能
性(障害妥当性)を「1」とし、あるシステム構成要素
が障害をもつと仮定したとき、異常が検出される可能性
のある状態値について、実際には異常が検出されなけれ
ば仮定された障害の可能性を小さくするといつた手法を
とるものである。
Note that the process of specifying the system component which causes the obstacle is an example of processing using the deduction method. In this example, in the initial state, the possibility of failure (failure validity) of all system components is set to “1”, and when it is assumed that a certain system component has a failure, an abnormality may be detected. Regarding the state value, a method is adopted that reduces the possibility of an assumed failure unless an abnormality is actually detected.

【0050】以下、具体的な動作について図7を参照し
て説明する。
Hereinafter, a specific operation will be described with reference to FIG.

【0051】装置の動作が開始すると、初期化処理を行
った後(S21)、記録媒体14に記録される障害要因
特定処理用プログラムを読み出し、例えばデータバッフ
ァ16に格納する。ここで、保守員によって入力機器1
7から解析しようとする時間帯を入力すると、その解析
時間帯をデータバッファ16その他の記憶手段に設定す
る(S22;解析時間帯設定機能)。
When the operation of the apparatus is started, an initialization process is performed (S21), and then a failure factor identification processing program recorded on the recording medium 14 is read and stored in, for example, the data buffer 16. Here, the input device 1 is
When a time zone to be analyzed is input from step 7, the analysis time zone is set in the data buffer 16 and other storage means (S22; analysis time zone setting function).

【0052】しかる後、複数のノードのうち最初のノー
ドとしてi=1を設定し(S23)、i=1に相当する
ノード3aに付設される記録装置4aから時間帯内での
時刻、状態値番号および状態値を順次読み込んでデータ
バッファ16に格納する。
Thereafter, i = 1 is set as the first node among the plurality of nodes (S23), and the time and state values within the time zone are obtained from the recording device 4a attached to the node 3a corresponding to i = 1. The number and the state value are sequentially read and stored in the data buffer 16.

【0053】そして、記録装置4aの状態値読取が完了
すると、引き続き、次のノード3bに付設される記憶装
置4bから時間帯内での時刻、状態値番号および状態値
を順次読み込んでデータバッファ16に格納する。この
ような処理は全ノードについて実行する。しかる後、デ
ータバッファ16に格納される全ノードのデータについ
て、時刻記録から時系列的な順序に整理し、時刻の記録
を除去して状態値番号と状態値との組からなるレコード
を順次配列する(S24〜S28;状態値読取記憶機
能)。この状態値のレコードのフィールドは、それぞれ
Tf[i].s、Tf[i].vから参照するものとす
る。
When the reading of the status value of the recording device 4a is completed, the time, the status value number and the status value within the time zone are sequentially read from the storage device 4b attached to the next node 3b, and the data buffer 16 is read. To be stored. Such processing is performed for all nodes. Thereafter, the data of all the nodes stored in the data buffer 16 are arranged in chronological order from the time record, the time record is removed, and the record composed of the set of the state value number and the state value is sequentially arranged. (S24 to S28; status value reading storage function). The fields of this state value record are Tf [i]. s, Tf [i]. v.

【0054】次に、例えば定義テーブル13またはデー
タバッファ16などに形成される妥当性テーブルTw
に、全てのシステム構成要素番号の障害妥当性として
「1」を設定する。つまり、初期状態時、全てのシステ
ム構成要素の障害妥当性を「1」とする(S29;初期
障害可能性設定機能)。この妥当性テーブルTwは各シ
ステム構成要素に障害があるとする仮定の妥当性を表わ
すものであって、後記するように各システム構成要素ご
とに障害妥当性の実数の配列となる。
Next, for example, the validity table Tw formed in the definition table 13 or the data buffer 16 or the like.
, "1" is set as the fault validity of all system component numbers. That is, in the initial state, the failure validity of all system components is set to “1” (S29; initial failure possibility setting function). The validity table Tw indicates the validity of the assumption that each system component has a fault, and is an array of real numbers of fault validity for each system component as described later.

【0055】さらに、以上のようにして妥当性テーブル
Twにおける全てのシステム構成要素番号の妥当性に
「1」を設定した後、状態値記憶部12に記憶される状
態値について順次異常があるか否かを判断する(S3
0,S31;状態値異常有無判断機能)。
After setting the validity of all the system component numbers in the validity table Tw to “1” as described above, whether the status values stored in the status value storage unit 12 are successively abnormal or not. (S3)
0, S31; status value abnormality presence / absence determination function).

【0056】仮に、i番目のレコードが「Tf[i].
v==異常」であるならば、要素−状態値間関係属性テ
ーブルTrの全レコードの状態値番号を検索し、該当す
る状態値番号のものが有るか否かを調べる(S32,S
33;該当状態値番号検索機能)。今、要素−状態値間
関係属性テーブルTrの全てのレコードについて、仮
に、j番目のレコードが「Tr[j].s==Tf
[i].v」であるならば、c=Tr[j].cとし、
該当システム構成要素の障害妥当性を算出する(S3
4;妥当性算出機能)。このシステム構成要素の障害妥
当性は、 Tw[c]=Tw[c]*{1−(Ta[c]*Tr
[j].w} から算出される。
If the i-th record is “Tf [i].
If “v == abnormal”, the state value numbers of all records in the element-state value relation attribute table Tr are searched to determine whether or not there is a corresponding state value number (S32, S32).
33; applicable state value number search function). Now, for all records in the element-state value relationship attribute table Tr, suppose that the j-th record is “Tr [j] .s == Tf
[I]. v ", then c = Tr [j]. c,
The fault validity of the corresponding system component is calculated (S3
4: validity calculation function). The failure validity of this system component is Tw [c] = Tw [c] * {1- (Ta [c] * Tr
[J]. It is calculated from w}.

【0057】さらに、状態値異常有無検索完了でなけれ
ば、ステップS31に戻り、次の状態値の異常について
同様の処理を繰り返し実行する(S31〜S36)。
If the state value abnormality search is not completed, the process returns to step S31, and the same processing is repeatedly executed for the next state value abnormality (S31 to S36).

【0058】以上のようにして状態値の異常ごとにシス
テム構成要素の妥当性を算出し妥当性テーブルTwに格
納したならば、この妥当性テーブルからシステム構成要
素(要素番号)の妥当性を読み出し、表示部18に表示
する(S37;妥当性出力機能)。つまり、妥当性テー
ブルTwにおけるシステム構成要素番号のうち、妥当性
数値の最も大きいシステム構成要素が障害をもつ可能性
が高いとみなすことができる。
When the validity of the system component is calculated for each abnormal state value and stored in the validity table Tw as described above, the validity of the system component (element number) is read from the validity table. Is displayed on the display unit 18 (S37; validity output function). That is, it can be considered that the system component having the highest validity value among the system component numbers in the validity table Tw has a high possibility of having a failure.

【0059】従って、以上のような実施の形態によれ
ば、クラスタシステムを構成する各ノードに付設される
記録装置から順次状態値番号とともに状態値を読み出
し、これら状態値に異常があれば、この異常とされる状
態値に基づいて、要素−状態値間関係属性テーブルTr
に設定する状態値番号、システム構成要素番号、システ
ム構成要素の障害の状態値に反映される確実さのレコー
ドから該当システム構成要素を見つけ出し、このシステ
ム構成要素の確実さと予め要素属性テーブルTaに設定
される該当システム構成要素の障害の発症の確実さとを
用いて、障害妥当性を数値的に算出し、障害の可能性の
高いシステム構成要素を特定するので、クラスタシステ
ムにおける障害要因を自動的に解析でき、しかも妥当性
の数値の大きなシステム構成要素が障害をもつ可能性有
りと特定でき、さらに障害可能性有りとするシステム構
成要素に関連するシステム構成要素の妥当性の数値も同
時に算出されるので、各システム構成要素の影響も容易
に把握できる。
Therefore, according to the above-described embodiment, the status values are sequentially read out together with the status value numbers from the recording devices attached to the respective nodes constituting the cluster system. Element-state value relation attribute table Tr based on abnormal state values
The corresponding system component is found from the record of the status value number, the system component number, and the reliability reflected in the failure status value of the system component, and the reliability of the system component is set in advance in the element attribute table Ta. Failure validity is calculated numerically using the certainty of the occurrence of failure of the corresponding system component, and the system component with a high possibility of failure is specified. System components that can be analyzed and whose validity value is large can be identified as possibly having a failure, and the validity value of the system component related to the system component that is considered to have a possible failure is also calculated at the same time. Therefore, the influence of each system component can be easily grasped.

【0060】[0060]

【発明の効果】以上説明したように本発明によれば、各
ノードは、当該各ノードの検出可能な状態値の異常時ま
たは一定の時間経過ごとに、時刻、予め定められる状態
値番号および状態値を記録することにより、障害発生要
因となるシステム構成要素を容易に特定可能とするクラ
スタシステムを提供できる。
As described above, according to the present invention, each node sets a time, a predetermined state value number and a predetermined state value every time a detectable state value of each node is abnormal or every predetermined time. By recording the value, it is possible to provide a cluster system that can easily specify a system component causing a failure.

【0061】また、別の発明は、保守員の手を煩わすこ
となく迅速,的確に障害発生要因となるシステム構成要
素を特定できるシステム障害要因特定支援装置を提供で
きる。
Another aspect of the invention can provide a system failure factor identification support device that can quickly and accurately identify a system component causing a failure without the need for maintenance personnel.

【0062】さらに、別の発明は、迅速,的確に障害発
生要因となるシステム構成要素を特定する障害要因特定
処理用プログラムを記録したコンピュータ読み取り可能
な記録媒体を提供できる。
Still another aspect of the present invention can provide a computer-readable recording medium that stores a failure factor identification processing program for quickly and accurately identifying a system component that causes a failure.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明に係るクラスタシステムの一実施の形
態を示す構成図。
FIG. 1 is a configuration diagram showing an embodiment of a cluster system according to the present invention.

【図2】 状態値番号を付するための状態値種類数を説
明する図。
FIG. 2 is a diagram illustrating the number of state value types for assigning state value numbers.

【図3】 本発明に係るクラスタシステムの動作を説明
するフローチャート。
FIG. 3 is a flowchart illustrating the operation of the cluster system according to the present invention.

【図4】 クラスタシステムを構成する各ノードに付設
される記録装置のデータ記録状態を示す図。
FIG. 4 is a diagram showing a data recording state of a recording device attached to each node constituting the cluster system.

【図5】 本発明に係るシステム障害要因特定支援装置
の一実施の形態を示す構成図。
FIG. 5 is a configuration diagram showing an embodiment of a system failure factor identification support device according to the present invention.

【図6】 図5の装置において使用するテーブルデータ
の状態を示す図。
FIG. 6 is a view showing a state of table data used in the apparatus of FIG. 5;

【図7】 図5に示す装置の動作を説明するフローチャ
ート。
FIG. 7 is a flowchart for explaining the operation of the apparatus shown in FIG. 5;

【図8】 従来のクラスタシステムを説明する構成図。FIG. 8 is a configuration diagram illustrating a conventional cluster system.

【符号の説明】 3a,3b,…ノード 4a,4b…記録装置 12…状態値記憶部 13…定義テーブル 14…記録媒体 15…障害要因特定処理部 21…状態値読取記憶手段 22…障害可能性処理手段 23…妥当性出力手段[Description of References] 3a, 3b,..., Nodes 4a, 4b,... Recording device 12,... Status value storage unit 13,... Definition table 14,. Processing means 23 ... validity output means

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 複数のノードが伝送ラインで連携しなが
ら所要の処理を実行するクラスタシステムにおいて、 前記各ノードは、当該各ノードの検出可能な状態値の異
常時または一定の時間経過ごとに、時刻、予め定められ
る状態値番号および状態値を記録する記録手段を設けた
ことを特徴とするクラスタシステム。
In a cluster system in which a plurality of nodes execute required processing while cooperating with each other on a transmission line, each of the nodes is configured to detect when a detectable state value of each of the nodes is abnormal or every predetermined time. A cluster system comprising recording means for recording a time, a predetermined state value number, and a state value.
【請求項2】 請求項1に記載するクラスタシステムを
構成する全ノードの前記記録手段から状態値番号を含む
状態値を取り込んで記憶する状態値読取記憶手段と、 各システム構成要素ごとに障害の発症の確実さおよび各
システム構成要素ごとに障害の状態値に反映される確実
さを定義する定義手段と、 前記状態値読取記憶手段に記憶される状態値の中から異
常値を見つけ出し、当該異常値である状態値と前記障害
の発症の確実さと前記障害の状態値に反映される確実さ
とを用いて、システム構成要素の障害妥当性を算出する
障害可能性処理手段とを備えたことを特徴とするシステ
ム障害要因特定支援装置。
2. A state value reading and storing means for fetching and storing a state value including a state value number from said recording means of all nodes constituting the cluster system according to claim 1, and a fault for each system component. Defining means for defining the certainty of the onset and the certainty reflected in the status value of the fault for each system component; finding an abnormal value from the status values stored in the status value reading storage means; Fault possibility processing means for calculating the fault validity of a system component by using a status value that is a value, the certainty of the occurrence of the fault, and the certainty reflected in the status value of the fault. System failure factor identification support device to be used.
【請求項3】 請求項2に記載するシステム障害要因特
定支援装置において、 前記各システム構成要素の障害の発症の確実さを定義す
る定義手段は、前記各システム構成要素を属性とし、各
システム構成要素が障害を起こした場合の症状の継続性
の程度を定義することを特徴とするシステム障害要因特
定支援装置。
3. The system failure factor identification support device according to claim 2, wherein the definition means for defining the certainty of the occurrence of the failure of each system component has each of the system components as an attribute. A system failure factor identification support device, which defines a degree of continuity of a symptom when an element fails.
【請求項4】 請求項2に記載するシステム障害要因特
定支援装置において、 前記各システム構成要素の障害の状態値に反映される確
実さを定義する定義手段は、前記各システム構成要素と
各状態値との関係を属性とし、各システム構成要素の障
害が前記状態値に反映される確実さで定義することを特
徴とするシステム障害要因特定支援装置。
4. The system failure factor identification support device according to claim 2, wherein the definition means for defining the reliability reflected in the failure status value of each of the system components includes the system components and the respective statuses. A system failure factor identification support device, wherein a relationship with a value is defined as an attribute, and the failure of each system component is defined with certainty reflected in the state value.
【請求項5】 請求項2に記載するシステム障害要因特
定支援装置において、 前記障害可能性処理手段は、前記各システム構成要素の
障害妥当性を1とし、前記定義手段によって定義される
各システム構成要素の前記両確実さを0〜1の実数と
し、あるシステム構成要素の障害妥当性1から前記両確
実さの乗算値で減算する減点法を用いて、前記各システ
ム構成要素の障害妥当性を算出することを特徴とするシ
ステム障害要因特定支援装置。
5. The system failure factor identification support device according to claim 2, wherein the failure possibility processing means sets the failure validity of each of the system components to 1, and defines each system configuration defined by the definition means. The fault validity of each of the system components is determined by using a deduction method in which the two certainties of the elements are real numbers of 0 to 1 and the multiplied value of the two certainties is subtracted from the fault validity of a certain system component. A system failure factor identification support device characterized by calculating.
【請求項6】 請求項2に記載するシステム障害要因特
定支援装置において、 前記障害可能性処理手段は、各状態値の中から見つけ出
した異常値である状態値に基づき、この状態値に関係す
る各システム構成要素の前記両確実さとを用いて、各シ
ステム構成要素の障害妥当性を算出することを特徴とす
るシステム障害要因特定支援装置。
6. The system failure factor identification support device according to claim 2, wherein the failure possibility processing means relates to the status value based on a status value which is an abnormal value found from each status value. A system failure factor identification support device, wherein a failure validity of each system component is calculated using the above-mentioned two certainties of each system component.
【請求項7】 システム構成要素を属性とし、当該シス
テム構成要素が障害を起こした場合の症状の継続性の程
度を定義する第1の定義テーブルおよび予め定められる
状態値番号、システム構成要素を属性とし、状態値番号
ごとの状態値に反映される確実さを定義する第2の定義
テーブル有し、前記システム構成要素の障害要因を特定
する障害要因特定処理用プログラムを記録する記録媒体
であって、障害要因特定処理用コンピュータに、 障害要因を解析しようとする時間帯を設定する解析時間
帯設定機能と、この設定された時間帯の範囲内で、検出
可能な状態値の異常時または一定の時間経過ごとに全ノ
ードで記録されている状態値番号を含む状態値を順次読
み込んで記憶する状態値読取記憶機能と、全てのシステ
ム構成要素の障害妥当性を「1」として設定する初期障
害可能性設定機能と、前記状態値読取記憶機能により記
憶されている状態値の中から異常有りとする状態値を検
出する状態値異常有無判断機能と、この状態値異常有無
判断機能によって検出される状態値に関連し、前記第1
および第2の定義テーブルからそれぞれ第1および第2
の確実さを取り出し、前記設定された各システム構成要
素の障害妥当性「1」から前記第1,第2の確実さの乗
算値を減算し該当システム構成要素の障害妥当性を算出
する妥当性算出機能とを実現させるために障害要因特定
処理用プログラムを記録したコンピュータ読み取り可能
な記録媒体。
7. A first definition table defining a degree of continuity of a symptom when a failure occurs in a system component, a predetermined state value number, and a system component as attributes. And a second definition table for defining the reliability reflected in the status value for each status value number, and a failure factor identification processing program for identifying a failure factor of the system component is recorded on the recording medium. An analysis time zone setting function for setting the time zone for analyzing the cause of the failure in the computer for processing the cause of the failure, and when the detectable state value is abnormal or constant within the set time range. A status value reading and storing function for sequentially reading and storing status values including status value numbers recorded in all nodes at every elapse of time, and fault validity of all system components An initial failure possibility setting function to be set as "1"; a state value abnormality presence / absence determination function to detect a state value indicating that there is an abnormality from among the state values stored by the state value reading / storing function; In connection with the status value detected by the abnormality presence / absence determination function, the first
First and second from the and second definition tables, respectively
Is obtained by subtracting the multiplied value of the first and second certainties from the set fault validity “1” of each set system component and calculating the fault validity of the corresponding system component. A computer-readable recording medium that stores a failure factor identification processing program for realizing a calculation function.
JP11109223A 1999-04-16 1999-04-16 Cluster system, specification assisting device of system fault factor and recording medium Pending JP2000305914A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11109223A JP2000305914A (en) 1999-04-16 1999-04-16 Cluster system, specification assisting device of system fault factor and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11109223A JP2000305914A (en) 1999-04-16 1999-04-16 Cluster system, specification assisting device of system fault factor and recording medium

Publications (1)

Publication Number Publication Date
JP2000305914A true JP2000305914A (en) 2000-11-02

Family

ID=14504731

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11109223A Pending JP2000305914A (en) 1999-04-16 1999-04-16 Cluster system, specification assisting device of system fault factor and recording medium

Country Status (1)

Country Link
JP (1) JP2000305914A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006252422A (en) * 2005-03-14 2006-09-21 Kawasaki Heavy Ind Ltd Failure diagnostic method and device
JP2012014672A (en) * 2010-06-04 2012-01-19 Nippon Telegr & Teleph Corp <Ntt> Cluster system restoration method, server and software

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006252422A (en) * 2005-03-14 2006-09-21 Kawasaki Heavy Ind Ltd Failure diagnostic method and device
JP2012014672A (en) * 2010-06-04 2012-01-19 Nippon Telegr & Teleph Corp <Ntt> Cluster system restoration method, server and software

Similar Documents

Publication Publication Date Title
US20080065928A1 (en) Technique for supporting finding of location of cause of failure occurrence
EP2674865A1 (en) MANAGEMENT COMPUTER AND METHOD FOR ROOT CAUSE ANALYSiS
US8904234B2 (en) Determination of items to examine for monitoring
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
WO2010061735A1 (en) System for assisting with execution of actions in response to detected events, method for assisting with execution of actions in response to detected events, assisting device, and computer program
JPH0644242B2 (en) How to solve problems in computer systems
KR20040062528A (en) Method and system for correlating and determining root causes of system and enterprise events
US20170034001A1 (en) Isolation of problems in a virtual environment
US20190196897A1 (en) Influence range specifying method, influence range specifying apparatus, and storage medium
JP2009009448A (en) Data transmission device, data transmission method, and program
JP2000305914A (en) Cluster system, specification assisting device of system fault factor and recording medium
JP2011076344A (en) Information processing apparatus, method of controlling information processing apparatus and control program
JP6070040B2 (en) Database system, database device, database failure recovery method and program
JPH0983516A (en) Network fault diagnostic device
JP3867868B2 (en) Fault integrated management device
JP4850733B2 (en) Health check device, health check method and program
JPH114223A (en) Network management system and data storage medium
JPH11212826A (en) Output system and device for fault information
JP2010146154A (en) Counter-fault means determination device and computer program and counter-fault means determination method
WO2021156971A1 (en) Alarm monitoring system, alarm monitoring method, and program
JP2522064B2 (en) Fault detection control method
KR100443914B1 (en) system and method for providing fault information
JP3053011B2 (en) Alarm display device
JPH06326752A (en) Method and device for analyzing fault of communication protocol
CN114528156A (en) Database switching method of heterogeneous disaster tolerance scheme, electronic device and medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060609

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060627

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061114