JP2011014073A

JP2011014073A - ログ管理システム、ログ管理方法、ログ収集部及びプログラム

Info

Publication number: JP2011014073A
Application number: JP2009159684A
Authority: JP
Inventors: Shiho Kosakai; 志保小酒井
Original assignee: NEC Computertechno Ltd
Current assignee: NEC Computertechno Ltd
Priority date: 2009-07-06
Filing date: 2009-07-06
Publication date: 2011-01-20
Anticipated expiration: 2029-07-06
Also published as: JP4985720B2

Abstract

【課題】複数の処理装置のログデータに対して、サービスプロセッサに送信されるログデータの量が回線の転送能力を超えず、かつ不要な転送抑制がなされない転送処理を行う。
【解決手段】診断プロセッサ１０−１〜１０−Ｎは、接続された監視対象装置の障害を検出し、所定の時間内における障害の検出回数をサービスプロセッサ２０に送信する。次に、サービスプロセッサ２０は、診断プロセッサ１０−１〜１０−Ｎの各々から障害の検出回数を受信し、全ての診断プロセッサ１０−１〜１０−Ｎから受信した障害の検出回数の総和を示す総検出回数を算出する。次に、サービスプロセッサ２０は、算出した総検出回数が所定の閾値を超えている場合に、所定の期間、障害ログデータの送信の抑制を要求する抑制命令を診断プロセッサ１０−１〜１０−Ｎの各々に送信する。
【選択図】図１

Description

本発明は、接続された装置の障害を検出する複数の障害検出部と、当該複数の障害検出部からの障害ログデータを収集するログ収集部とを備えるログ管理システム、ログ管理方法、ログ収集部及びプログラムに関する。

従来、コンピュータシステムでは、発生した障害の原因を特定するため、発生した障害のログデータを収集する。障害の診断は、診断プロセッサによって行われ、当該診断プロセッサがログデータを生成し、生成したログデータをログデータの管理を行うサービスプロセッサに送信する。なお、一般的に、診断プロセッサやサービスプロセッサは、監視対象装置のＣＰＵ（Central Processing Unit：中央処理装置）より処理速度が遅い。

しかしながら、ハードウェアの障害のうち、コンピュータシステムを停止する必要が無く訂正可能な軽障害は、短時間に多発する傾向があり、これにより、診断プロセッサが生成したログをサービスプロセッサに送信する際に、転送能力を超え、通信異常に至る惧れがあった。
なお、特許文献１に、上述した問題を解決するエラーログ方式が開示されている。
特許文献１に記載の技術は、診断プロセッサが一定時間内に所定の閾値以上の障害を検出した場合に、エラーログ処理を行わないことで、処理時間を短縮するものである。

特開昭６３−３０７５４９号公報

しかしながら、スーパーコンピュータのような複数の処理装置によって構成される大規模システムの場合、サービスプロセッサは、複数の処理装置に対応する診断プロセッサからのログデータを一元的に管理することが多い。

このような大規模システムに、特許文献１に記載のエラーログ方式を適用する場合、以下のような問題がある。
診断プロセッサの各々に設定する障害検出数の閾値を、診断プロセッサが一定時間内に送信できるログ数の上限値とした場合、複数の処理装置で軽障害が多発したときに、複数の診断プロセッサが同時にログデータを送信することとなる。そのため、サービスプロセッサに送信されるログデータの量が回線の転送能力を超え、通信異常に至ってしまうという問題がある。

他方、診断プロセッサの各々に設定する障害検出数の閾値を、サービスプロセッサが一定時間内に受信できるログ数の上限値を診断プロセッサの個数で除算した値とした場合、診断プロセッサは、当該閾値以上の障害を検出したとき、エラーログ処理を抑制する。このとき、他の診断プロセッサで検出された障害の個数が少なく、サービスプロセッサに送信されるログデータの総量が回線の転送能力の範囲内である場合にも、閾値以上の障害を検出した診断プロセッサに対する抑制が実行されてしまうという問題がある。

すなわち、特許文献１に記載のエラーログ方式では、大規模システムに適用した場合に、サービスプロセッサに送信されるログデータの量が回線の転送能力を超えず、かつ不要な転送抑制がなされない転送処理を行うことができないという問題がある。
本発明は上記の点に鑑みてなされたものであり、その目的は、複数の処理装置のログデータに対して、サービスプロセッサに送信されるログデータの量が回線の転送能力を超えず、かつ不要な転送抑制がなされない転送処理を行うことができるログ管理システム、ログ管理方法、ログ収集部及びプログラムを提供することにある。

本発明は上記の課題を解決するためになされたものであり、接続された装置の障害を検出する複数の障害検出部と、当該複数の障害検出部からの障害ログデータを収集するログ収集部とを備えるログ管理システムであって、前記障害検出部は、接続された装置の障害を検出する障害検出手段と、所定の時間内における前記障害検出手段による障害の検出回数を前記ログ収集部に送信する検出回数送信手段と、前記ログ収集部から、所定の期間内における前記障害ログデータの送信の抑制を要求する抑制命令を受信する抑制命令受信手段と、前記所定の期間内でないときに、前記障害検出手段が検出した障害の障害ログデータを前記ログ収集部に送信するログ送信手段と、を備え、前記ログ収集部は、前記障害検出部の各々から前記障害の検出回数を受信する検出回数受信手段と、前記障害検出部の各々から前記障害ログデータを受信するログ受信手段と、前記検出回数受信手段が全ての障害検出部から受信した障害の検出回数の総和を示す総検出回数を算出する総検出回数算出手段と、前記総検出回数算出手段が算出した障害の総検出回数が所定の閾値を超えている場合に、前記抑制命令を前記障害検出部の各々に送信する抑制命令送信手段と、を備えることを特徴とする。

また、本発明は、接続された装置の障害を検出する複数の障害検出部と、当該複数の障害検出部からの障害ログデータを収集するログ収集部とを備えるログ管理システムを用いたログ管理方法であって、前記障害検出部の障害検出手段は、接続された装置の障害を検出し、前記障害検出部の検出回数送信手段は、所定の時間内における前記障害検出手段による障害の検出回数を前記ログ収集部に送信し、前記ログ収集部の検出回数受信手段は、前記障害検出部の各々から前記障害の検出回数を受信し、前記ログ収集部の総検出回数算出手段は、前記検出回数受信手段が全ての障害検出部から受信した障害の検出回数の総和を示す総検出回数を算出し、前記ログ収集部の抑制命令送信手段は、前記総検出回数算出手段が算出した障害の総検出回数が所定の閾値を超えている場合に、所定の期間内における前記障害ログデータの送信の抑制を要求する抑制命令を前記障害検出部の各々に送信し、前記障害検出部の抑制命令受信手段は、前記ログ収集部から、前記抑制命令を受信し、前記障害検出部のログ送信手段は、前記所定の期間内でないときに、前記障害検出手段が検出した障害の障害ログデータを前記ログ収集部に送信し、前記ログ収集部のログ受信手段は、前記障害検出部の各々から前記障害ログデータを受信する、ことを特徴とする。

また、本発明は、接続された装置の障害を検出する複数の障害検出部からの障害ログデータを収集するログ収集部であって、前記障害検出部の各々から前記障害の検出回数を受信する検出回数受信手段と、前記障害検出部の各々から前記障害ログデータを受信するログ受信手段と、前記検出回数受信手段が全ての障害検出部から受信した障害の検出回数の総和を示す総検出回数を算出する総検出回数算出手段と、前記総検出回数算出手段が算出した障害の総検出回数が所定の閾値を超えている場合に、前記抑制命令を前記障害検出部の各々に送信する抑制命令送信手段と、を備えることを特徴とする。

また、本発明は、接続された装置の障害を検出する複数の障害検出部からの障害ログデータを収集するログ収集部を、前記障害検出部の各々から前記障害の検出回数を受信する検出回数受信手段、前記障害検出部の各々から前記障害ログデータを受信するログ受信手段、前記検出回数受信手段が全ての障害検出部から受信した障害の検出回数の総和を示す総検出回数を算出する総検出回数算出手段、前記総検出回数算出手段が算出した障害の総検出回数が所定の閾値を超えている場合に、前記抑制命令を前記障害検出部の各々に送信する抑制命令送信手段、として機能させるためのプログラムである。

本発明によれば、ログ収集部の検出回数受信手段が障害検出部の各々から受信した障害の検出回数の総和が所定の閾値を超える場合に、障害ログデータの転送を抑制する。これにより、複数の処理装置のログデータを、サービスプロセッサに送信されるログデータの量が回線の転送能力を超えず、かつ不要な転送抑制がなされない転送処理を行うことができる。

本発明の一実施形態によるログ管理システムの構成図である。診断プロセッサの構成を示す概略ブロック図である。サービスプロセッサの構成を示す概略ブロック図である。抑制時間記憶部２１０が記憶する情報を示す図である。障害検出時の診断プロセッサの動作を示すフローチャートである。検出回数受信時のサービスプロセッサの動作を示すフローチャートである。抑制時間の設定例を示す図である。命令受信時の診断プロセッサの動作を示すフローチャートである。

以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図１は、本発明の一実施形態によるログ管理システムの構成図である。
ログ管理システムは、診断プロセッサ１０−１〜１０−Ｎ（障害検出部）とサービスプロセッサ２０（ログ収集部）とを備える。
診断プロセッサ１０−１〜１０−Ｎは、各々に接続された１つまたは複数の監視対象装置の障害を検出し、障害ログデータを生成する。
サービスプロセッサ２０は、診断プロセッサ１０−１〜１０−Ｎから障害ログデータを収集する。

図２は、診断プロセッサの構成を示す概略ブロック図である。
診断プロセッサ１０−１は、障害検出部１０１（障害検出手段）、検出回数計数部１０２、インターバルタイマ１０３、検出回数記憶部１０４、ログ生成部１０５、送信部１０６（検出回数送信手段、ログ送信手段）、受信部１０７（抑制命令受信手段）、タイマ設定部１０８、カウントアップタイマ１０９、抑制時間登録部１１０、抑制時間記憶部１１１、送信判定部１１２を備える。

障害検出部１０１は、自装置に接続された監視対象装置の障害を検出する。障害の検出は、監視対象装置が出力する障害割り込み信号を受信することで行う。
検出回数計数部１０２は、一定時間内に障害検出部１０１が障害を検出する度に検出回数記憶部１０４が記憶する検出回数に１を加算する。
インターバルタイマ１０３は、一定時間毎に検出回数計数部１０２及び送信部１０６に動作信号を出力する。
ログ生成部１０５は、障害検出部１０１が検出した障害の障害ログデータを生成する。
送信部１０６は、検出回数記憶部１０４が記憶する検出回数とログ生成部１０５が生成した障害ログデータとをサービスプロセッサ２０に送信する。

受信部１０７は、サービスプロセッサ２０から障害ログデータの送信を所定の抑制時間の間抑制する抑制命令、または当該抑制を解除する解除命令を受信する。
タイマ設定部１０８は、受信部１０７が抑制命令を受信した時刻にカウントアップタイマ１０９を動作させる。
カウントアップタイマ１０９は、動作開始時刻からの経過時間を計時する。
抑制時間登録部１１０は、抑制命令に含まれる抑制時間の情報を抑制時間記憶部１１１に登録する。
送信判定部１１２は、カウントアップタイマ１０９が計時する時間が、抑制時間記憶部１１１が記憶する抑制時間以内であるか否かにより、障害ログデータの送信の可否を判定する。
なお、ここでは、診断プロセッサ１０−１の構成を説明したが、診断プロセッサ１０−２〜１０−Ｎの構成も診断プロセッサ１０−１の構成と同じである。

図３は、サービスプロセッサの構成を示す概略ブロック図である。
サービスプロセッサ２０は、受信部２０１（検出回数受信手段、ログ受信手段）、ログ登録部２０２、ログ記憶部２０３、検出回数登録部２０４、検出回数記憶部２０５、総検出回数算出部２０６（総検出回数算出手段）、比較部２０７、閾値記憶部２０８、抑制時間決定部２０９、抑制時間記憶部２１０（抑制時間記憶手段）、送信部２１１（抑制命令送信手段、解除命令送信手段）を備える。

受信部２０１は、診断プロセッサ１０−１〜１０−Ｎから検出回数及び障害ログデータを受信する。
ログ登録部２０２は、受信部２０１が受信した障害ログデータをログ記憶部２０３に登録する。
検出回数登録部２０４は、受信部２０１が受信した障害の検出回数を、診断プロセッサ１０−１〜１０−Ｎの識別情報に対応付けて検出回数記憶部２０５に登録する。

総検出回数算出部２０６は、検出回数記憶部２０５が記憶する全ての診断プロセッサ１０−１〜１０−Ｎの検出回数の総和を示す総検出回数を算出する。
比較部２０７は、閾値記憶部２０８が記憶する障害の検出回数の閾値と、総検出回数算出部２０６が算出した総検出回数とを比較する。
抑制時間決定部２０９は、比較部２０７によって総検出回数が閾値を超えていると判定された場合に、検出回数記憶部２０５が記憶する診断プロセッサ１０−１〜１０−Ｎ毎の障害の検出回数に基づいて診断プロセッサ１０−１〜１０−Ｎの抑制時間を決定する。
抑制時間記憶部２１０は、障害の検出回数と抑制時間とを対応付けて記憶する。
送信部２１１は、比較部２０７によって総検出回数が閾値を超えていると判定された場合、抑制時間決定部２０９が決定した抑制時間の抑制命令を診断プロセッサ１０−１〜１０−Ｎの各々に送信する。他方、比較部２０７によって総検出回数が閾値を超えていないと判定された場合、障害ログデータの送信抑制の解除命令を診断プロセッサ１０−１〜１０−Ｎの各々に送信する。

図４は、抑制時間記憶部２１０が記憶する情報を示す図である。
図４に示すように、抑制時間記憶部２１０は、一定時間あたりの障害検出回数と抑制時間とを対応付けて記憶する。ここでは、検出回数が１〜１０件の場合に、抑制時間を１時間とし、検出回数が１１〜２０件の場合に、抑制時間を８時間とし、検出回数が２１〜３０件の場合に、抑制時間を１６時間としている。

そして、診断プロセッサ１０−１〜１０−Ｎの障害検出部１０１は、接続された監視対象装置の障害を検出し、送信部１０６は、所定の時間内における障害検出部１０１による障害の検出回数をサービスプロセッサ２０に送信する。次に、サービスプロセッサ２０の受信部２０１は、診断プロセッサ１０−１〜１０−Ｎの各々から障害の検出回数を受信し、総検出回数算出部２０６は、受信部２０１が全ての診断プロセッサ１０−１〜１０−Ｎから受信した障害の検出回数の総和を示す総検出回数を算出する。次に、送信部２１１は、総検出回数算出部２０６が算出した障害の総検出回数が所定の閾値を超えている場合に、所定の期間内における障害ログデータの送信の抑制を要求する抑制命令を診断プロセッサ１０−１〜１０−Ｎの各々に送信する。次に、診断プロセッサ１０−１〜１０−Ｎの受信部１０７は、サービスプロセッサ２０から抑制命令を受信し、送信部１０６は、抑制命令が指定する所定の期間内でないときに、障害検出部１０１が検出した障害の障害ログデータをサービスプロセッサに送信する。次に、サービスプロセッサの受信部２０１は、診断プロセッサ１０−１〜１０−Ｎの各々から障害ログデータを受信する。
このような構成とすることで、ログ管理システムは、複数の処理装置のログデータを効率よく転送する。

次に、ログ管理システムの動作を説明する。
図５は、障害検出時の診断プロセッサの動作を示すフローチャートである。
まず、診断プロセッサ１０−１〜１０−Ｎの障害検出部１０１は、接続された監視対象装置の障害を検出したか否かを判定する（ステップＳ１０１）。障害検出の有無の判定は、監視対象装置から障害割り込み信号を受信したか否かを判定することにより行う。
障害検出部１０１が障害を検出したと判定した場合（ステップＳ１０１：ＹＥＳ）、検出回数計数部１０２は、検出回数記憶部１０４が記憶する検出回数に１を加算する（ステップＳ１０２）。なお、初回起動時、検出回数記憶部１０４は検出回数として０を記憶している。次に、ログ生成部１０５は、検出した障害についての障害ログデータを生成する（ステップＳ１０３）。

ログ生成部１０５が障害ログデータを生成すると、送信判定部１１２は、カウントアップタイマ１０９が動作しているか否かを判定する（ステップＳ１０４）。カウントアップタイマ１０９は、診断プロセッサ１０−１〜１０−Ｎが障害ログデータの送信抑制時に動作するタイマであり、動作していない場合は障害ログデータの送信が抑制されていないことを示す。なお、初回起動時、カウントアップタイマ１０９は動作を停止している。

送信判定部１１２は、カウントアップタイマ１０９が動作していると判定した場合（ステップＳ１０４：ＹＥＳ）、カウントアップタイマ１０９が計時する動作開始時刻からの経過時間が、抑制時間記憶部１１１が記憶する障害ログデータの抑制時間を超えているか否かを判定する（ステップＳ１０５）。なお、抑制時間は、後述する処理により、抑制命令を受信した際に登録される。
送信判定部１１２は、カウントアップタイマ１０９が計時する時間が抑制時間を超えていると判定した場合（ステップＳ１０５：ＹＥＳ）、カウントアップタイマ１０９の動作を停止させる（ステップＳ１０６）。

送信判定部１１２が、ステップＳ１０４でカウントアップタイマ１０９が動作していないと判定した場合（ステップＳ１０４：ＮＯ）、またはステップＳ１０６でカウントアップタイマ１０９を停止した場合、送信部１０６は、ログ生成部１０５が生成した障害ログデータを送信する（ステップＳ１０７）。送信部１０６が障害ログデータを送信すると、サービスプロセッサ２０の受信部２０１は、障害ログデータを受信し、ログ登録部２０２は、ログ記憶部２０３に受信した障害ログデータを登録する。

ステップＳ１０１で、障害検出部１０１が障害を検出していないと判定した場合（ステップＳ１０１：ＮＯ）、またはステップＳ１０５で、送信判定部１１２が、カウントアップタイマ１０９が計時する時間が抑制時間を超えていないと判定した場合（ステップＳ１０５：ＮＯ）、またはステップＳ１０７で送信部１０６が障害ログデータを送信した場合、送信部１０６は、インターバルタイマ１０３から動作信号の入力を受け付けたか否かを判定する（ステップＳ１０８）。なお、インターバルタイマ１０３は、一定時間毎に動作信号を出力している。つまり、送信部１０６におけるインターバルタイマ１０３からの動作信号の入力の受け付けは、前回動作信号の入力を受け付けた時刻から当該一定時間が経過したことを意味する。

送信部１０６は、インターバルタイマ１０３が動作信号を出力したと判定した場合（ステップＳ１０８：ＹＥＳ）、検出回数記憶部１０４が記憶する検出回数をサービスプロセッサ２０に送信する（ステップＳ１０９）。次に、検出回数計数部１０２は、検出回数記憶部１０４が記憶する検出回数をクリアする。
他方、送信部１０６が、インターバルタイマ１０３が動作信号を出力していないと判定した場合（ステップＳ１０８：ＮＯ）、ステップＳ１に戻り、再度障害の検出の有無を判定する。

図６は、検出回数受信時のサービスプロセッサの動作を示すフローチャートである。
上述したステップＳ１０９で診断プロセッサ１０−１〜１０−Ｎの送信部１０６が検出回数を送信すると、サービスプロセッサ２０の受信部２０１は、診断プロセッサ１０−１〜１０−Ｎから検出回数を受信する（ステップＳ２０１）。次に、検出回数登録部２０４は、診断プロセッサ１０−１〜１０−Ｎの各々から受信した検出回数を、当該診断プロセッサ１０−１〜１０−Ｎの識別情報に対応付けて検出回数記憶部２０５に登録する（ステップＳ２０２）。なお、検出回数記憶部２０５に既に検出回数が登録されている場合、既に登録されている検出回数を、受信した検出回数に書き換える。

次に、総検出回数算出部２０６は、検出回数記憶部２０５が記憶する全ての診断プロセッサ１０−１〜１０−Ｎの検出回数の総和を示す総検出回数を算出する（ステップＳ２０３）。なお、このとき診断プロセッサ１０−１〜１０−Ｎは、略同時刻にサービスプロセッサ２０に検出回数を送信するように設定されていることが望ましい。次に、比較部２０７は、総検出回数算出部２０６が算出した総検出回数が、閾値記憶部２０８が記憶する検出回数の閾値を超えているか否かを判定する（ステップＳ２０４）。このとき、閾値記憶部２０８は、検出回数の閾値として予め調査しておいた回線の転送能力、即ち一定時間内に転送できるログデータ量の上限数を記憶しておくと良い。

比較部２０７が、総検出回数が検出回数の閾値を超えていると判定した場合（ステップＳ２０４：ＹＥＳ）、抑制時間決定部２０９は、以下の処理により、診断プロセッサ１０−１〜１０−Ｎの各々に対する抑制時間を決定する（ステップＳ２０５）。まず、抑制時間決定部２０９は、検出回数記憶部２０５が診断プロセッサ１０−１〜１０−Ｎの各々に対応付けて記憶する検出回数を取得する。次に、取得した検出回数に対応する抑制時間を抑制時間記憶部２１０から取得する。これにより、抑制時間決定部２０９は、診断プロセッサ１０−１〜１０−Ｎの各々に対する抑制時間を決定することができる。

図７は、抑制時間の設定例を示す図である。
図７に示すように、例えば、検出回数記憶部１０５が診断プロセッサ１０−１の障害検出回数を２５件として記憶している場合、抑制時間決定部２０９は、抑制時間記憶部２１０から障害検出回数２５件に対応する抑制時間を取得する。図４に示すように、抑制時間記憶２１０は、障害検出回数２１〜３０件に対応付けて抑制時間１６時間を記憶している。これにより、検出回数が２５件である場合、抑制時間決定部２０９は、診断プロセッサ１０−１の抑制時間を１６時間と決定することができる。同様に、診断プロセッサ１０−２の障害検出回数が３件である場合は、抑制時間決定部２０９が、抑制時間記憶部２１０から障害検出回数１〜１０件に対応する抑制時間１時間を取得し、診断プロセッサ１０−３の障害検出回数が１２件である場合は、抑制時間決定部２０９が、抑制時間記憶部２１０から障害検出回数１１〜２０件に対応する抑制時間８時間を取得する。

ステップＳ２０５で抑制時間決定部２０９が抑制時間を決定すると、送信部２１１は、診断プロセッサ１０−１〜１０−Ｎに、決定した抑制時間の間障害ログデータの送信を抑制させる抑制命令を送信する（ステップＳ２０６）。
他方、ステップＳ２０４で比較部２０７が、総検出回数が検出回数の閾値を超えていないと判定した場合（ステップＳ２０４：ＮＯ）、送信部２１１は、診断プロセッサ１０−１〜１０−Ｎに、障害ログデータの送信の抑制を解除させる解除命令を送信する（ステップＳ２０７）。

図８は、命令受信時の診断プロセッサの動作を示すフローチャートである。
診断プロセッサ１０−１〜１０−Ｎの受信部１０７は、サービスプロセッサから命令を受信すると（ステップＳ３０１）、当該命令が抑制命令であるか、解除命令であるかを判定する（ステップＳ３０２）。
受信部１０７が、受信した命令が抑制命令であると判定した場合（ステップＳ３０２：ＹＥＳ）、抑制時間登録部１１０は、受信した抑制命令に含まれる抑制時間を抑制時間記憶部１１１に登録する（ステップＳ３０３）。なお、抑制時間記憶部１１１に既に抑制時間が登録されている場合、既に登録されている抑制時間を、受信した抑制命令に含まれる抑制時間に書き換える。

次に、タイマ設定部１０８は、カウントアップタイマ１０９が動作中であるか否かを判定する（ステップＳ３０４）。なお、カウントアップタイマ１０９が動作中であるということは、障害ログデータの送信抑制中であることを意味し、カウントアップタイマ１０９が停止中であるということは、障害ログデータの送信が抑制されていないことを意味する。
抑制命令を受信した場合において、カウントアップタイマ１０９が動作していないとき（ステップＳ３０４：ＮＯ）、タイマ設定部１０８は、カウントアップタイマ１０９を起動し、当該時刻からの経過時間の計時を開始させる（ステップＳ３０５）。他方、抑制命令を受信した場合において、カウントアップタイマ１０９が動作中であるとき（ステップＳ３０４：ＹＥＳ）、タイマ設定部１０８は、カウントアップタイマ１０９に対して操作を行わずに処理を終了する。

一方、ステップＳ３０２で、受信部１０７が、受信した命令が解除命令であると判定した場合（ステップＳ３０２：ＹＥＳ）、タイマ設定部１０８は、カウントアップタイマ１０９の動作を停止させる（ステップＳ３０６）。

このように、本実施形態によれば、サービスプロセッサ２０の受信部２０４が診断プロセッサ１０−１〜１０−Ｎの各々から受信した障害の総検出回数が、閾値記憶部２０８が記憶する所定の閾値を超える場合に、障害ログデータの転送を抑制させる。これにより、複数の処理装置の障害ログデータに対して、サービスプロセッサに送信されるログデータの量が回線の転送能力を超えず、かつ不要な転送抑制がなされない転送処理を行うことができる。

また、本実施形態によれば、障害ログデータの送信抑制時に診断プロセッサ１０−１〜１０−Ｎにおける障害の検出回数が変化した場合、サービスプロセッサ２０の抑制時間決定部２０９によって抑制時間が更新される。これにより、例えば、診断プロセッサ１０−１における一定時間あたりの障害検出回数が２５回から３回に変化した場合、サービスプロセッサ２０は、初めに送信抑制命令を受信したときに登録される抑制時間１６時間を、１時間に更新させることができる。これにより、一時的な障害の頻発によって送信の抑制を不必要に長引かせることを防ぐことができる。

また、本実施形態によれば、サービスプロセッサ２０は、総検出回数が閾値記憶部２０８に記憶されている所定の閾値以下である場合に、障害ログデータの送信の抑制を解除させる。これにより、送信の抑制を不必要に長引かせず、障害ログデータを効率よく転送することができる。

また、本実施形態によれば、サービスプロセッサ２０は、診断プロセッサ１０−１〜１０−Ｎの各々から受信した検出回数に応じて診断プロセッサ１０−１〜１０−Ｎの各々に設定する抑制時間を異ならせることができる。これにより、障害検出回数が少ない診断プロセッサの抑制時間を短くすることができ、送信の抑制を不必要に長引かせることを防ぐことができる。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、本実施形態では、検出回数計数部１０２は、障害の種別に関わらず全ての障害の検出回数を計数し、抑制時間決定部２０９が全ての障害の検出回数に基づいて抑制時間を決定する場合を説明したが、これに限られない。例えば、抑制時間記憶部２１０が、障害の種別毎に障害検出回数と抑制時間との対応情報を記憶する場合、検出回数計数部１０２が、障害の種別毎の検出回数を計数し、抑制時間決定部２０９が、障害の種別毎に抑制時間を決定することもできる。このとき、例えば、度合いが重度な障害の障害ログデータの抑制時間を短くすることで、重度な障害の障害ログデータを優先的にサービスプロセッサに登録させることができる。また、例えば、データ量が多い障害ログデータの抑制時間を長くすることで、回線の混雑を抑制することができる。

上述の診断プロセッサ１０−１〜１０−Ｎ及びサービスプロセッサ２０は、内部にコンピュータシステムを有している。そして、上述した各処理部の動作は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。

また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

１０−１〜１０−Ｎ…診断プロセッサ２０…サービスプロセッサ１０１…障害検出部１０２…検出回数計数部１０３…インターバルタイマ１０４…検出回数記憶部１０５…ログ生成部１０６…送信部１０７…受信部１０８…タイマ設定部１０９…カウントアップタイマ１１０…抑制時間登録部１１１…抑制時間記憶部１１２…送信判定部２０１…受信部２０２…ログ登録部２０３…ログ記憶部２０４…検出回数登録部２０５…検出回数記憶部２０６…総検出回数算出部２０７…比較部２０８…閾値記憶部２０９…抑制時間決定部２１０…抑制時間記憶部２１１…送信部

Claims

接続された装置の障害を検出する複数の障害検出部と、当該複数の障害検出部からの障害ログデータを収集するログ収集部とを備えるログ管理システムであって、
前記障害検出部は、
接続された装置の障害を検出する障害検出手段と、
所定の時間内における前記障害検出手段による障害の検出回数を前記ログ収集部に送信する検出回数送信手段と、
前記ログ収集部から、所定の期間内における前記障害ログデータの送信の抑制を要求する抑制命令を受信する抑制命令受信手段と、
前記所定の期間内でないときに、前記障害検出手段が検出した障害の障害ログデータを前記ログ収集部に送信するログ送信手段と、
を備え、
前記ログ収集部は、
前記障害検出部の各々から前記障害の検出回数を受信する検出回数受信手段と、
前記障害検出部の各々から前記障害ログデータを受信するログ受信手段と、
前記検出回数受信手段が全ての障害検出部から受信した障害の検出回数の総和を示す総検出回数を算出する総検出回数算出手段と、
前記総検出回数算出手段が算出した障害の総検出回数が所定の閾値を超えている場合に、前記抑制命令を前記障害検出部の各々に送信する抑制命令送信手段と、
を備えることを特徴とするログ管理システム。
前記ログ収集部は、前記検出回数受信手段によって前記所定の期間内に受信された前記障害の検出回数が所定の閾値以下である場合に、前記障害ログデータの送信の抑制を解除する解除命令を前記障害検出部の各々に送信する解除命令送信手段を備えることを特徴とする請求項１に記載のログ管理システム。
前記ログ収集部は、
前記障害の検出回数に対応付けて、前記障害ログデータの送信の抑制を要求する時間を示す抑制時間を記憶する抑制時間記憶手段を備え、
前記ログ収集部の抑制命令送信手段は、前記障害検出部の各々に対して、前記検出回数受信手段が受信した障害の検出回数に対応付けられた抑制時間を含む抑制命令を送信し、
前記所定の期間は、前記障害検出部が前記障害ログデータの送信の抑制を行っていないときに抑制命令受信手段が前記抑制命令を受信した時刻から前記抑制時間が経過するまでの期間を示す、
ことを特徴とする請求項１または請求項２の何れか１項に記載のログ管理システム。
接続された装置の障害を検出する複数の障害検出部と、当該複数の障害検出部からの障害ログデータを収集するログ収集部とを備えるログ管理システムを用いたログ管理方法であって、
前記障害検出部の障害検出手段は、接続された装置の障害を検出し、
前記障害検出部の検出回数送信手段は、所定の時間内における前記障害検出手段による障害の検出回数を前記ログ収集部に送信し、
前記ログ収集部の検出回数受信手段は、前記障害検出部の各々から前記障害の検出回数を受信し、
前記ログ収集部の総検出回数算出手段は、前記検出回数受信手段が全ての障害検出部から受信した障害の検出回数の総和を示す総検出回数を算出し、
前記ログ収集部の抑制命令送信手段は、前記総検出回数算出手段が算出した障害の総検出回数が所定の閾値を超えている場合に、所定の期間内における前記障害ログデータの送信の抑制を要求する抑制命令を前記障害検出部の各々に送信し、
前記障害検出部の抑制命令受信手段は、前記ログ収集部から、前記抑制命令を受信し、
前記障害検出部のログ送信手段は、前記所定の期間内でないときに、前記障害検出手段が検出した障害の障害ログデータを前記ログ収集部に送信し、
前記ログ収集部のログ受信手段は、前記障害検出部の各々から前記障害ログデータを受信する、
ことを特徴とするログ管理方法。
接続された装置の障害を検出する複数の障害検出部からの障害ログデータを収集するログ収集部であって、
前記障害検出部の各々から前記障害の検出回数を受信する検出回数受信手段と、
前記障害検出部の各々から前記障害ログデータを受信するログ受信手段と、
前記検出回数受信手段が全ての障害検出部から受信した障害の検出回数の総和を示す総検出回数を算出する総検出回数算出手段と、
前記総検出回数算出手段が算出した障害の総検出回数が所定の閾値を超えている場合に、前記抑制命令を前記障害検出部の各々に送信する抑制命令送信手段と、
を備えることを特徴とするログ収集部。
接続された装置の障害を検出する複数の障害検出部からの障害ログデータを収集するログ収集部を、
前記障害検出部の各々から前記障害の検出回数を受信する検出回数受信手段、
前記障害検出部の各々から前記障害ログデータを受信するログ受信手段、
前記検出回数受信手段が全ての障害検出部から受信した障害の検出回数の総和を示す総検出回数を算出する総検出回数算出手段、
前記総検出回数算出手段が算出した障害の総検出回数が所定の閾値を超えている場合に、前記抑制命令を前記障害検出部の各々に送信する抑制命令送信手段、
として機能させるためのプログラム。