JP4909870B2

JP4909870B2 - 障害ログ管理方法

Info

Publication number: JP4909870B2
Application number: JP2007279018A
Authority: JP
Inventors: 功平塚
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2007-10-26
Filing date: 2007-10-26
Publication date: 2012-04-04
Anticipated expiration: 2027-10-26
Also published as: JP2009110078A

Description

本発明は障害ログ管理方法に係り、特にサービスプロセッサの監視下にある計算機に障害が発生した場合の障害ログの管理に関するものである。

データ処理を行う複数の計算機をサービスプロセッサによって管理するシステムが知られている。一般的に、サービスプロセッサは計算機の電源オン・オフ、フェイルオーバー等の制御や計算機の状態を定期的に監視し、ある計算機に障害が発生すると、その障害を検知する。更に、サービスプロセッサは、障害要因を特定するために、障害の発生した計算機から障害ログを取得して、サービスプロセッサが持つ記憶装置にそのログを保存する。

ところで、サービスプロセッサが複数の計算機の障害をほぼ同時に検知した場合、障害が検知された計算機の障害ログを一斉に取得するので、サービスプロセッサに過度な負荷がかかることがある。そのため、サービスプロセッサによる定期的な計算機の障害監視やフェイルオーバー等が正常に行われない可能性がある。その結果、システムの安定性が低下する。

斯かる問題を解決するものとして、特許文献１には、計算機システム上にサービスプロセッサに相当する統括管理計算機(ＳＣＣ)を複数台設け、特定のＳＣＣに障害が発生した場合や過度な負荷がかかった場合には、他の安定稼動しているＳＣＣに計算機の制御・監視処理を代替依頼することで、システムを安定に稼動させる技術が開示されている。

特開平８-３２９０２４号公報

特許文献１に開示された技術は、過度な負荷のかかったＳＣＣは他の安定稼動しているＳＣＣに対して処理の全てを代替し、負荷分散は行なっていない。そのため、全てのＳＣＣの処理能力が同程度である場合は、代替のＳＣＣにもやはり過度な負荷がかかってしまう。その結果、ＳＣＣによる代替が頻発し、かえってシステムの安定性が低下する恐れがある。

本発明の目的は、監視対象の計算機に発生した障害の処理に際して、サービスプロセッサへの過度な負荷がかかることが防止することにある。

本発明は、好ましい例によれば、サービスプロセッサによって計算機を監視し、該計算機に発生した障害を検知してその障害のログを管理する障害ログ管理方法において、該計算機の障害ログを取得して、前記障害ログを取得した場合における自サービスプロセッサの負荷率を測定し、該負荷率が所定の範囲内にある場合、該障害ログを記憶装置に保存し、
測定した該負荷率が所定の範囲内にない場合、障害ログをキャッシュに一時的に保存し、
一定時間経過後、自サービスプロセッサの負荷率を再度測定して、該所定の範囲との関係を調べ、その結果、所定の範囲内になった時、該キャッシュに保存された該障害ログを該記憶装置に保存することを特徴とする障害ログ管理方法として構成される。

また、本発明は好ましくは、複数の計算機を複数のグループに分割し、グループ毎にサービスプロセッサを割り当てて、該サービスプロセッサをネットワークにより接続したシステムにおいて該計算機に発生した障害のログを管理する障害ログ管理方法であって、
該サービスプロセッサは、該計算機の障害ログを取得して、前記障害ログを取得した場合における自サービスプロセッサの負荷率を測定し、該負荷率が所定の範囲内にある場合、該障害ログを該記憶装置に保存し、測定した負荷率が該所定の範囲内にない場合、該障害ログをキャッシュに一時的に保存し、
該キャッシュに一時的に保存された障害ログを該記憶装置に保存する際に、該サービスプロセッサの負荷率が所定の範囲内にあるかを判定し、該負荷率が所定の範囲内にない場合、該ネットワークに接続されている他グループの他サービスプロセッサの中から負荷率が所定の範囲内にある他サービスプロセッサを選定し、
選定された他サービスプロセッサへ該ネットワークを介して障害ログを送信し、
他サービスプロセッサは、受信した該障害ログを自身の記憶装置に保存することを特徴とする障害ログ管理方法として構成される。

また、好ましい例では、該サービスプロセッサは自身のキャッシュに障害ログを保存する時、キャッシュの空き容量を測定し、
該キャッシュの空き容量が所定以上の場合は該キャッシュに障害ログを保存し、該キャッシュの空き容量が所定以上でない場合は、ネットワークに接続されている他グループの他サービスプロセッサの中から負荷率が所定の範囲内にある他のサービスプロセッサを選定して、選定された該他サービスプロセッサへ障害ログを送信する。

また、好ましい例では、各サービスプロセッサは、他サービスプロセッサへ障害ログの保存を要求する場合、複数の他サービスプロセッサへ該要求を送信する順番を登録した保存要求テーブルを参照して、該要求の送信先となるサービスプロセッサを決める。
また、好ましくは、測定した自サービスプロセッサの負荷率と、予め定められた負荷率の閾値と比較し、測定した負荷率が該閾値未満の場合、障害ログを記憶装置に保存し、測定した負荷率が該閾値以上の場合、障害ログをキャッシュに一時的に保存する。

本発明によれば、監視対象の計算機に障害が発生した場合でも、サービスプロセッサに過度な負荷がかかることを防止できる。これにより計算機の定期監視、フェイルオーバー等の処理を正常に行うことが可能となり、システムの高可用性が実現できる。

以下、図面を参照して本発明の実施形態について説明する。
図１は一実施形態における計算機システムの構成図を示す。
この計算機システムは、それぞれ複数の計算機１０５、２０５を制御、監視する複数のサービスプロセッサ１０，２０がネットワーク９０を介して接続して構成される。
複数のサービスプロセッサ１０、２０は実質的に同じ構成を成している。特に断らない限り、以下、サービスプロセッサ１０側を例に説明する。

サービスプロセッサ１０は、記憶装置１０１、通信制御部１０２、状態管理部１０３、システム制御部１０４を有し、同じグループ内の複数の計算機１０５を制御、監視する。
システム制御部１０４は、キャッシュ１０６、保存要求テーブル１０７、カウンタ１０８、キャッシュテーブル１０９を有する。記憶装置１０１は障害ログを記憶する。また、キャッシュ１０６も障害ログを一時的に保存する。

通信制御部１０２は、システム制御部１０４をネットワーク３０に接続して、他グループのサービスプロセッサ(以下、他サービスプロセッサ)２０へ障害ログの保存要求、障害ログの保存要求応答、障害ログを送信する。また、他サービスプロセッサ２０から障害ログ保存要求、障害ログ保存要求応答、障害ログを受信する。

ここで、障害ログ保存要求とは、監視対象の計算機の障害ログを取得したサービスプロセッサが、他サービスプロセッサへ障害ログの保存を要求する際に送信する信号である。障害ログ保存要求応答とは障害ログ保存要求を受信した他サービスプロセッサが応答の際に送信する信号である。なお、障害ログ、障害ログ保存要求及び障害ログ保存要求応答のデータ構成については、図５、図８を参照して後述する。

状態管理部１０３は、システム制御部１０４から負荷率測定要求を受信すると、サービスプロセッサ１０の負荷率を測定し、その結果をシステム制御部１０４へ送信する。ここで、負荷率測定要求とはシステム制御部１０４が状態管理部１０３へサービスプロセッサ１０の負荷率の測定を要求する際に送信する信号である。また、サービスプロセッサ１０の負荷率とは、サービスプロセッサが有するＣＰＵの使用率である。例えば、ＣＰＵが計算機１０５のデータ処理に占有されている場合には、使用率は高く、負荷率は大きいとする。

システム制御部１０４において、キャッシュ１０６は障害ログを一時的に保存する。保存要求テーブル１０７は、サービスプロセッサが障害ログ保存要求を他サービスプロセッサへ送信する順番を登録する。
カウンタ１０８は、システム制御部１０４がサービスプロセッサ１０の負荷率と負荷率の閾値を比較した回数を記録する。キャッシュテーブル１０９は、キャッシュ内における計算機１０５の障害ログの保存状況を管理する。
また、キャッシュテーブル１０９は当該計算機のＩＤを保存して当該計算機の障害ログを管理する。なお、保存要求テーブル１０７、及びキャッシュテーブル１０９の構成例については、図６、図７を参照して後述する。

システム制御部１０４は、次の制御を行う。即ち、複数の計算機の制御及び監視すること、計算機１０５から障害ログを取得すること、取得した障害ログをキャッシュ１０６に保存すること、通信制御部１０２を介して他サービスプロセッサから送信された障害ログ、障害ログ保存要求、障害ログ保存要求応答を受信すること、通信制御部１０２を介して他サービスプロセッサへ障害ログ、障害ログ保存要求、障害ログ保存要求応答を送信すること、状態管理部１０３へ負荷率測定要求を送信すること、状態管理部１０３からサービスプロセッサ１０の負荷率を受信すること、カウンタ１０８にサービスプロセッサの負荷率と負荷率の閾値を比較した回数を設定すること、カウンタ１０８からのサービスプロセッサの負荷率と負荷率の閾値を比較した回数を読み出すこと、保存要求テーブル１０７から障害ログ保存要求を送信する他サービスプロセッサの決定を行うこと、等の制御を行う。

図５は障害ログのデータパケットの構成例を示す。
データパケットは、通信用ヘッダ部５０１、計算機ＩＤ部５０２、詳細ログ部５０３から成る。
通信用ヘッダ部５０１は、送信先のＩＰアドレス等の通信に必要な管理情報を格納する。計算機ＩＤ部５０２は、障害が発生した計算機を識別するためのＩＤ（識別情報）を格納する。詳細ログ部５０３は、計算機の障害を特定するためのログを格納する。

例えば、サービスプロセッサ１０を例にあげると、システム制御部１０４は、管轄下の計算機１０５から障害ログとして計算機ＩＤ部５０２および詳細ログ部５０３を取得し、同じサービスプロセッサ１０１内の記憶装置１０１に、計算機ＩＤ部５０２および詳細ログ部５０３を障害ログとして保存する。

他サービスプロセッサ２０へ障害ログを送信する場合には、自サービスプロセッサ１０の通信制御部１０２で、通信用ヘッダ部５０１を付加して他サービスプロセッサ２０へ送信する。他サービスプロセッサ２０の通信制御部２０２では、受信したデータパケットから通信用ヘッダ部５０１を取り除き、計算機ＩＤ部５０２および詳細ログ部５０３をシステム制御部２０４へ送信して、記憶装置２０１に保存する。記憶装置２０１に記憶された障害ログには計算機ＩＤが含まれているので、その障害ログから障害が発生した計算機を容易に特定することができる。

図６は保存要求テーブルの構成例を示す。
保存要求テーブル１０７には、障害ログ保存要求を複数の他サービスプロセッサへ送信する順番が登録される。この順番は、所定の規則例えば自サービスプロセッサから論理ネットワーク的に近い他サービスプロセッサから順番にするという規則によって予め規定されている。“１”が登録されているサービスプロセッサをスタートとして、“２”、“３”と登録されている順番に、対応するサービスプロセッサへ障害ログ保存要求を送信する。なお、自サービスプロセッサは“０”が登録され、通信先の対象ではないとする。

図７はキャッシュテーブルの構成例を示す。
キャッシュテーブル１０９は、計算機１０５ごとにキャッシュ１０６に障害ログを保存しているか否かを管理する。そのために、計算機ＩＤとフラグを用いて管理する。計算機ＩＤはシステム制御部１０４が管理対象とする計算機の識別情報（ＩＤ）を示し、フラグは障害ログをキャッシュに保存済みか否かを示す。例えば、計算機ＩＤ：１０５−１に対応するフラグが“０”の場合には、当該計算機１０５−１の障害ログがキャッシュに未保存の状態を示し、計算機ＩＤ：１０５−２のフラグが“１”の場合には、計算機ＩＤ１０５−２の障害ログがキャッシュに保存済みであることを示す。
状態管理部１０３は、キャッシュテーブル１０９を参照することで、管轄下の複数の計算機１０５の障害ログのキャッシュにおける保存状況を知ることができる。

図８は障害ログ保存要求および障害ログ保存要求応答のデータを示す。
障害ログ保存要求および障害ログ保存要求応答のデータは、通信用ヘッダ部８０１、要求種別部８０２、データ部８０３から構成される。通信用ヘッダ部８０１には、送信元および送信先のＩＰアドレスが格納される。要求種別部８０２には、障害ログ保存要求か又は障害ログ保存要求応答かを示すフラグが格納される。例えば、障害ログ保存要求の場合は“０”、障害ログ保存要求応答の場合は“１”とする。データ部８０３には、障害ログ保存要求の場合は何も格納されておらず、障害ログ保存要求応答の場合は、要求承認または要求拒否を示すフラグが格納される。例えば、要求承認の場合は“０”、要求拒否の場合は“１”とする。

次に、図２Ａ〜２Ｄのフローチャートを参照して、システム制御部１０４が計算機１０５の障害を検知した場合の障害ログを保存する処理動作について説明する。
まず、システム制御部１０４は、障害を検知した計算機１０５から障害ログを取得して(Ｓ０１)、カウンタ１０８を“０”に設定する(Ｓ０２)。
その後、状態管理部１０３へ負荷率測定要求を送信し、状態管理部１０３からサービスプロセッサ１０の負荷率を受信する(Ｓ０３)。そして、受信した負荷率と、予め設定した負荷率の閾値を比較する(Ｓ０４)。

比較の結果、負荷率が負荷率の閾値未満の場合には、（図２Ｂへ移り）記憶装置１０１の空き容量を測定する(Ｓ０５)。そして、予め設定した記憶装置１０１の空き容量の閾値と比較する(Ｓ０６)。その結果、記憶装置１０１の空き容量が記憶装置１０１の空き容量の閾値以上の時には、障害ログを記憶装置１０１に保存して(Ｓ０７)、システム制御部１０４の動作を終了する。一方、ステップＳ０６における比較の結果、記憶装置１０１の空き容量が閾値未満の時には、Ｓ１５（図２Ｃ）へ移行する。

説明を戻して、ステップＳ０４における比較の結果、負荷率が負荷率の閾値以上の場合には、カウンタ１０８の値を読み込み、読み込んだ値に“１”を加えた値をカウンタ１０８に設定する(Ｓ０８)。カウンタ１０８に設定した値は、サービスプロセッサの負荷率と負荷率の閾値を比較した回数を示す。

次に、カウンタ１０８の値と予め設定した比較回数上限値とを比較する(Ｓ０９)。比較の結果、カウンタ１０８に設定した値が比較回数上限値と等しい場合はＳ１５（図２Ｃ）へ移行する。

また、カウンタ１０８に設定した値が比較回数上限値未満で、かつカウンタ１０８に設定した値が“１”である場合には、ステップ１０（図２Ｃ）へ移行して、キャッシュ１０６の空き容量を取得し(Ｓ１０)、キャッシュ１０６の空き容量の閾値と比較する(Ｓ１１)。
比較の結果、キャッシュ１０６の空き容量がキャッシュ１０６の空き容量の閾値未満の場合はＳ１５へ移行する。一方、キャッシュ１０６の空き容量がキャッシュ１０６の空き容量の閾値以上の場合、キャッシュ１０６に障害ログを保存して(Ｓ１２)、キャッシュテーブル１０９における計算機１０５のフラグを保存済みに設定する(Ｓ１３)。
その後、予め設定した時間待機して(Ｓ１４)、再びＳ０３へ移行する。

Ｓ１５では、保存要求テーブル１０７より障害ログ保存要求送信先の他サービスプロセッサを決定する。そして、他サービスプロセッサに障害ログ保存を要求するために通信制御部１０２およびネットワーク９０を通して他サービスプロセッサへ障害ログ保存要求を送信する（Ｓ１６）。その後、他サービスプロセッサから送信された障害ログ保存要求応答を受信する（Ｓ１７）。

そして、受信した障害ログ保存要求応答を解析して、障害ログ保存の要求が承認されたか拒否されたかを判断する（Ｓ１８）。判断の結果、障害ログ保存要求が承諾されたと判断した場合、障害ログを通信制御部１２へ送信して(Ｓ１９)、Ｓ２０へ移行する。一方、要求が拒否されたと判断した場合には、再びＳ１５を繰り返す。

その後、キャッシュテーブル１０９における計算機１０５のフラグの値の取得状況を判断する（Ｓ２０）。その結果、取得したフラグの値が保存済みの場合にはキャッシュ１０６の障害ログを消去し(Ｓ２１)、キャッシュテーブル１０９における計算機１０５のフラグを未保存に設定する（Ｓ２２）。一方、取得したフラグの値が未保存の場合には、システム制御部１４の動作を終了する。

以上説明した、サービスプロセッサ１０のシステム制御部１０４における計算機１０５に対する状態監視、障害ログの取得、保存の動作に関して、図１に示すように、サービスプロセッサ１０には複数の計算機が接続されているので、上記図２Ａ〜２Ｄの動作は、サービスプロセッサ１０に接続されている全ての計算機１０５に対して平行して実行される。

次に、図３Ａ〜３Ｂを参照して、サービスプロセッサ１０が他グループのサービスプロセッサ２０から障害ログ保存要求を受信した時のシステム制御部１０４における動作について説明する。
通信制御部１０２から障害ログ保存要求を受信すると(Ｓ３１)、状態管理部１０３へ負荷率測定要求を送信し、状態管理部１０３からサービスプロセッサ１０の負荷率を受信する(Ｓ３２)。

そして、受信した負荷率と予め設定した負荷率の閾値を比較する(Ｓ３３)。比較の結果、負荷率が負荷率の閾値以上の場合、Ｓ４０へ移行する。一方、受信した負荷率が負荷率の閾値未満の場合、記憶装置１０１の空き容量を測定する(Ｓ３４)。
その後、測定されたその空き容量と、予め設定した記憶装置１０１の空き容量の閾値と比較する(Ｓ３５)。比較の結果、記憶装置１０１の空き容量が記憶装置１０１の空き容量の閾値以上の場合、障害ログ保存要求応答のデータパケットにおけるデータ部に要求承諾を設定し(Ｓ３６)、通信制御部１０２に障害ログ保存要求応答のデータパケットを送信する(Ｓ３７)。そして、通信制御部１０２から障害ログを受信し(Ｓ３８)、障害ログを記憶装置に保存して(Ｓ３９)、システム制御部１０４の動作は終了する。

一方、上記Ｓ３５の比較の結果、記憶装置１０１の空き容量が記憶装置１０１の空き容量の閾値未満の場合、障害ログ保存要求応答のデータパケットにおけるデータ部に要求拒否を設定し(Ｓ４０)、通信制御部１０２に障害ログ保存要求応答のデータパケットを送信して(Ｓ４１)、システム制御部１０４の動作を終了する。

図４は計算機システムにおける障害ログの保存経路の一例を示す。
複数台の計算機の障害をほぼ同時にサービスプロセッサが検知した場合における障害ログ保存の流れについて説明するものである。ここで、サービスプロセッサ１０〜３０は図１の構成と同じである。なお、説明の都合上、通信制御部１０２、２０２、状態管理部１０３,２０３、保存要求テーブル１０７,２０７、カウンタ１０８，２０８、キャッシュテーブル１０６，２０６の図示は省略してある。

今、サービスプロセッサ１０が検知した計算機１０５の障害を検知し、サービスプロセッサ２０が計算機２０５の障害を検知するとし、それらの障害をほぼ同時に検知したと想定する。
サービスプロセッサ１０が計算機１０５−１の障害を検知してその障害ログ１１０-１を取得した時、サービスプロセッサ１０の負荷率は負荷率の閾値未満であり、記憶装置１０１の空き容量も記憶装置１０１の閾値以上である場合、障害ログ１１０-１は障害ログ保存経路Ｐ１を通ってサービスプロセッサ１０の記憶装置１０１に保存される。

サービスプロセッサ２０が計算機２０５−１の障害を検知し、障害ログ２１０-１を取得した場合も同様である。すなわち、サービスプロセッサ２０の負荷率が負荷率の閾値未満であり、記憶装置２０１の空き容量も空き容量の閾値以上であるため、障害ログ２１０-１は障害ログ保存経路Ｐ１を通って、サービスプロセッサ２０の記憶装置２０１に保存される。

その直後に、サービスプロセッサ２０が他の計算機２０５−２の障害を検知し障害ログを取得したとする。その場合、サービスプロセッサ２０の負荷率が負荷率の閾値以上あるいは記憶装置２０１の空き容量が記憶装置２０１の空き容量の閾値未満であるため、サービスプロセッサ２０が保存要求テーブル２０７に従って、送信先として決定したサービスプロセッサ１０へ障害ログ保存要求を送信する。そして、サービスプロセッサ１０から障害ログ保存要求応答を受信する。この場合、受信した障害ログ保存要求応答のデータ部は要求承認であるので、他の計算機２０５−２の障害ログ２１０-２は、障害ログ保存経路Ｐ３に従いサービスプロセッサ１０へ送信され、記憶装置１０１に保存される。

サービスプロセッサ２０が計算機２０５-３の障害を検知した場合も同様である。この場合、サービスプロセッサ１０から受信した障害ログ保存要求応答のデータ部が要求拒否であるため、サービスプロセッサ２０が新たな送信先として決定したサービスプロセッサ３０へ障害ログ保存要求を送信し、サービスプロセッサ３０から障害ログ保存要求応答を受信する。受信した障害ログ保存要求応答のデータ部は要求承認であるので、計算機２０５-３の障害ログ２１０-３は障害ログ保存経路２１１-３に従いサービスプロセッサ３０へ送信され、記憶装置３０１に保存される。

サービスプロセッサ１０が計算機１０５-２の障害を検知して障害ログを取得した際、サービスプロセッサ１０の負荷率が負荷率の閾値以上であるため、障害ログ１１０-１は障害ログ保存経路Ｐ２を通ってキャッシュ１０６に保存される。

サービスプロセッサが持つＣＰＵは、データを記憶装置に書き込み読み出しする時にその負荷率が上がることが知られている。本実施例によれば、計算機の障害ログを取得した時に、測定した自サービスプロセッサの負荷率が所定の範囲内（例えば予め定められた負荷率の閾値未満）の場合、（即ち当該サービスプロセッサの負荷率が低い場合）障害ログを自サービスプロセッサの記憶装置に保存し、一方、測定した負荷率が所定の範囲内にない（例えば該閾値以上の）場合（即ち当該サービスプロセッサの負荷率が高い場合）、障害ログをキャッシュに一時的に保存したので、当該サービスプロセッサの負荷を軽減できる。

また、自サービスプロセッサのキャッシュに一時的に保存された障害ログを記憶装置に保存する際に、自サービスプロセッサの負荷率が所定の範囲内にない（即ち高負荷率）場合、他サービスプロセッサの中から負荷率が所定の範囲内にある他サービスプロセッサを選定して、その他サービスプロセッサへ障害ログを送信して他サービスプロセッサ内の記憶装置に保存するようにしたので、自サービスプロセッサにかかる更なる負荷を避け、低負荷の他サービスプロセッサを障害ログの保存のために有効に利用することができる。

一実施例における計算機システムの構成を示す図。システム制御部の障害監視及び障害ログ取得の動作フローを示す図。システム制御部の障害監視及び障害ログ取得の動作フローを示す図。システム制御部の障害監視及び障害ログ取得の動作フローを示す図。システム制御部の障害監視及び障害ログ取得の動作フローを示す図。障害ログ保存要求の受信時の動作フローを示す図。障害ログ保存要求の受信時の動作フローを示す図。計算機システムにおける障害ログの保存の例を示す図。障害ログのデータパケットの構成例を示す図。保存要求テーブルの構成例を示す図。キャッシュテーブルの構成例を示す図。障害ログ保存要求および障害ログ保存要求応答データの構成例を示す図。

符号の説明

１０、２０、３０：サービスプロセッサ９０：ネットワーク
１０５、２０５、３０５：計算機
１０１、２０１、３０１：記憶装置１０２、２０２：通信制御部
１０３、２０３：状態管理部１０４、２０４：システム制御部
１０６、２０６、３０６：キャッシュ
１０７、２０７：保存要求テーブル
１０８、２０８：カウンタ
１０９、２０９：キャッシュテーブル
１１０、２１０：障害ログ
Ｐ１、Ｐ２，Ｐ３，Ｐ４：障害ログ保存経路。

Claims

サービスプロセッサによって計算機を監視し、該計算機に発生した障害を検知してその障害のログを管理する障害ログ管理方法において、
該計算機の障害ログを取得して、前記障害ログを取得した場合における自サービスプロセッサの負荷率を測定し、該負荷率が所定の範囲内にある場合、該障害ログを記憶装置に保存し、
測定した該負荷率が所定の範囲内にない場合、障害ログをキャッシュに一時的に保存し、
一定時間経過後、自サービスプロセッサの負荷率を再度測定して、該所定の範囲との関係を調べ、その結果、所定の範囲内になった時、該キャッシュに保存された該障害ログを該記憶装置に保存することを特徴とする障害ログ管理方法。
複数の計算機を複数のグループに分割し、グループ毎にサービスプロセッサを割り当てて、該サービスプロセッサをネットワークにより接続したシステムにおいて該計算機に発生した障害のログを管理する障害ログ管理方法であって、
該サービスプロセッサは、該計算機の障害ログを取得して、前記障害ログを取得した場合における自サービスプロセッサの負荷率を測定し、
該負荷率が所定の範囲内にある場合、該障害ログを該記憶装置に保存し、
測定した負荷率が該所定の範囲内にない場合、該障害ログをキャッシュに一時的に保存し、
該キャッシュに一時的に保存された障害ログを該記憶装置に保存する際に、該サービスプロセッサの負荷率が所定の範囲内にあるかを判定し、
該負荷率が所定の範囲内にない場合、該ネットワークに接続されている他グループの他サービスプロセッサの中から負荷率が所定の範囲内にある他サービスプロセッサを選定し、
選定された他サービスプロセッサへ該ネットワークを介して障害ログを送信し、
他サービスプロセッサは、受信した該障害ログを自身の記憶装置に保存することを特徴とする障害ログ管理方法。
該サービスプロセッサは自身のキャッシュに障害ログを保存する時、キャッシュの空き容量を測定し、
該キャッシュの空き容量が所定以上の場合は該キャッシュに障害ログを保存し、
該キャッシュの空き容量が所定以上でない場合は、ネットワークに接続されている他グループの他サービスプロセッサの中から負荷率が所定の範囲内にある他のサービスプロセッサを選定して、選定された該他サービスプロセッサへ障害ログを送信することを特徴とする請求項１又は２の障害ログ管理方法。
各サービスプロセッサは、他サービスプロセッサへ障害ログの保存を要求する場合、複数の他サービスプロセッサへ該要求を送信する順番を登録した保存要求テーブルを参照して、該要求の送信先となるサービスプロセッサを決めることを特徴とする請求項２又は３の障害ログ管理方法。
測定した自サービスプロセッサの負荷率と、予め定められた負荷率の閾値と比較し、測定した負荷率が該閾値未満の場合、障害ログを記憶装置に保存し、
測定した負荷率が該閾値以上の場合、障害ログをキャッシュに一時的に保存することを特徴とする請求項１乃至４のいずれかの障害ログ管理方法。