JP2011014073A - ログ管理システム、ログ管理方法、ログ収集部及びプログラム - Google Patents

ログ管理システム、ログ管理方法、ログ収集部及びプログラム Download PDF

Info

Publication number
JP2011014073A
JP2011014073A JP2009159684A JP2009159684A JP2011014073A JP 2011014073 A JP2011014073 A JP 2011014073A JP 2009159684 A JP2009159684 A JP 2009159684A JP 2009159684 A JP2009159684 A JP 2009159684A JP 2011014073 A JP2011014073 A JP 2011014073A
Authority
JP
Japan
Prior art keywords
failure
detection
log
unit
suppression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009159684A
Other languages
English (en)
Other versions
JP4985720B2 (ja
Inventor
Shiho Kosakai
志保 小酒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Computertechno Ltd
Original Assignee
NEC Computertechno Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Computertechno Ltd filed Critical NEC Computertechno Ltd
Priority to JP2009159684A priority Critical patent/JP4985720B2/ja
Publication of JP2011014073A publication Critical patent/JP2011014073A/ja
Application granted granted Critical
Publication of JP4985720B2 publication Critical patent/JP4985720B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】複数の処理装置のログデータに対して、サービスプロセッサに送信されるログデータの量が回線の転送能力を超えず、かつ不要な転送抑制がなされない転送処理を行う。
【解決手段】診断プロセッサ10−1〜10−Nは、接続された監視対象装置の障害を検出し、所定の時間内における障害の検出回数をサービスプロセッサ20に送信する。次に、サービスプロセッサ20は、診断プロセッサ10−1〜10−Nの各々から障害の検出回数を受信し、全ての診断プロセッサ10−1〜10−Nから受信した障害の検出回数の総和を示す総検出回数を算出する。次に、サービスプロセッサ20は、算出した総検出回数が所定の閾値を超えている場合に、所定の期間、障害ログデータの送信の抑制を要求する抑制命令を診断プロセッサ10−1〜10−Nの各々に送信する。
【選択図】図1

Description

本発明は、接続された装置の障害を検出する複数の障害検出部と、当該複数の障害検出部からの障害ログデータを収集するログ収集部とを備えるログ管理システム、ログ管理方法、ログ収集部及びプログラムに関する。
従来、コンピュータシステムでは、発生した障害の原因を特定するため、発生した障害のログデータを収集する。障害の診断は、診断プロセッサによって行われ、当該診断プロセッサがログデータを生成し、生成したログデータをログデータの管理を行うサービスプロセッサに送信する。なお、一般的に、診断プロセッサやサービスプロセッサは、監視対象装置のCPU(Central Processing Unit:中央処理装置)より処理速度が遅い。
しかしながら、ハードウェアの障害のうち、コンピュータシステムを停止する必要が無く訂正可能な軽障害は、短時間に多発する傾向があり、これにより、診断プロセッサが生成したログをサービスプロセッサに送信する際に、転送能力を超え、通信異常に至る惧れがあった。
なお、特許文献1に、上述した問題を解決するエラーログ方式が開示されている。
特許文献1に記載の技術は、診断プロセッサが一定時間内に所定の閾値以上の障害を検出した場合に、エラーログ処理を行わないことで、処理時間を短縮するものである。
特開昭63−307549号公報
しかしながら、スーパーコンピュータのような複数の処理装置によって構成される大規模システムの場合、サービスプロセッサは、複数の処理装置に対応する診断プロセッサからのログデータを一元的に管理することが多い。
このような大規模システムに、特許文献1に記載のエラーログ方式を適用する場合、以下のような問題がある。
診断プロセッサの各々に設定する障害検出数の閾値を、診断プロセッサが一定時間内に送信できるログ数の上限値とした場合、複数の処理装置で軽障害が多発したときに、複数の診断プロセッサが同時にログデータを送信することとなる。そのため、サービスプロセッサに送信されるログデータの量が回線の転送能力を超え、通信異常に至ってしまうという問題がある。
他方、診断プロセッサの各々に設定する障害検出数の閾値を、サービスプロセッサが一定時間内に受信できるログ数の上限値を診断プロセッサの個数で除算した値とした場合、診断プロセッサは、当該閾値以上の障害を検出したとき、エラーログ処理を抑制する。このとき、他の診断プロセッサで検出された障害の個数が少なく、サービスプロセッサに送信されるログデータの総量が回線の転送能力の範囲内である場合にも、閾値以上の障害を検出した診断プロセッサに対する抑制が実行されてしまうという問題がある。
すなわち、特許文献1に記載のエラーログ方式では、大規模システムに適用した場合に、サービスプロセッサに送信されるログデータの量が回線の転送能力を超えず、かつ不要な転送抑制がなされない転送処理を行うことができないという問題がある。
本発明は上記の点に鑑みてなされたものであり、その目的は、複数の処理装置のログデータに対して、サービスプロセッサに送信されるログデータの量が回線の転送能力を超えず、かつ不要な転送抑制がなされない転送処理を行うことができるログ管理システム、ログ管理方法、ログ収集部及びプログラムを提供することにある。
本発明は上記の課題を解決するためになされたものであり、接続された装置の障害を検出する複数の障害検出部と、当該複数の障害検出部からの障害ログデータを収集するログ収集部とを備えるログ管理システムであって、前記障害検出部は、接続された装置の障害を検出する障害検出手段と、所定の時間内における前記障害検出手段による障害の検出回数を前記ログ収集部に送信する検出回数送信手段と、前記ログ収集部から、所定の期間内における前記障害ログデータの送信の抑制を要求する抑制命令を受信する抑制命令受信手段と、前記所定の期間内でないときに、前記障害検出手段が検出した障害の障害ログデータを前記ログ収集部に送信するログ送信手段と、を備え、前記ログ収集部は、前記障害検出部の各々から前記障害の検出回数を受信する検出回数受信手段と、前記障害検出部の各々から前記障害ログデータを受信するログ受信手段と、前記検出回数受信手段が全ての障害検出部から受信した障害の検出回数の総和を示す総検出回数を算出する総検出回数算出手段と、前記総検出回数算出手段が算出した障害の総検出回数が所定の閾値を超えている場合に、前記抑制命令を前記障害検出部の各々に送信する抑制命令送信手段と、を備えることを特徴とする。
また、本発明は、接続された装置の障害を検出する複数の障害検出部と、当該複数の障害検出部からの障害ログデータを収集するログ収集部とを備えるログ管理システムを用いたログ管理方法であって、前記障害検出部の障害検出手段は、接続された装置の障害を検出し、前記障害検出部の検出回数送信手段は、所定の時間内における前記障害検出手段による障害の検出回数を前記ログ収集部に送信し、前記ログ収集部の検出回数受信手段は、前記障害検出部の各々から前記障害の検出回数を受信し、前記ログ収集部の総検出回数算出手段は、前記検出回数受信手段が全ての障害検出部から受信した障害の検出回数の総和を示す総検出回数を算出し、前記ログ収集部の抑制命令送信手段は、前記総検出回数算出手段が算出した障害の総検出回数が所定の閾値を超えている場合に、所定の期間内における前記障害ログデータの送信の抑制を要求する抑制命令を前記障害検出部の各々に送信し、前記障害検出部の抑制命令受信手段は、前記ログ収集部から、前記抑制命令を受信し、前記障害検出部のログ送信手段は、前記所定の期間内でないときに、前記障害検出手段が検出した障害の障害ログデータを前記ログ収集部に送信し、前記ログ収集部のログ受信手段は、前記障害検出部の各々から前記障害ログデータを受信する、ことを特徴とする。
また、本発明は、接続された装置の障害を検出する複数の障害検出部からの障害ログデータを収集するログ収集部であって、前記障害検出部の各々から前記障害の検出回数を受信する検出回数受信手段と、前記障害検出部の各々から前記障害ログデータを受信するログ受信手段と、前記検出回数受信手段が全ての障害検出部から受信した障害の検出回数の総和を示す総検出回数を算出する総検出回数算出手段と、前記総検出回数算出手段が算出した障害の総検出回数が所定の閾値を超えている場合に、前記抑制命令を前記障害検出部の各々に送信する抑制命令送信手段と、を備えることを特徴とする。
また、本発明は、接続された装置の障害を検出する複数の障害検出部からの障害ログデータを収集するログ収集部を、前記障害検出部の各々から前記障害の検出回数を受信する検出回数受信手段、前記障害検出部の各々から前記障害ログデータを受信するログ受信手段、前記検出回数受信手段が全ての障害検出部から受信した障害の検出回数の総和を示す総検出回数を算出する総検出回数算出手段、前記総検出回数算出手段が算出した障害の総検出回数が所定の閾値を超えている場合に、前記抑制命令を前記障害検出部の各々に送信する抑制命令送信手段、として機能させるためのプログラムである。
本発明によれば、ログ収集部の検出回数受信手段が障害検出部の各々から受信した障害の検出回数の総和が所定の閾値を超える場合に、障害ログデータの転送を抑制する。これにより、複数の処理装置のログデータを、サービスプロセッサに送信されるログデータの量が回線の転送能力を超えず、かつ不要な転送抑制がなされない転送処理を行うことができる。
本発明の一実施形態によるログ管理システムの構成図である。 診断プロセッサの構成を示す概略ブロック図である。 サービスプロセッサの構成を示す概略ブロック図である。 抑制時間記憶部210が記憶する情報を示す図である。 障害検出時の診断プロセッサの動作を示すフローチャートである。 検出回数受信時のサービスプロセッサの動作を示すフローチャートである。 抑制時間の設定例を示す図である。 命令受信時の診断プロセッサの動作を示すフローチャートである。
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本発明の一実施形態によるログ管理システムの構成図である。
ログ管理システムは、診断プロセッサ10−1〜10−N(障害検出部)とサービスプロセッサ20(ログ収集部)とを備える。
診断プロセッサ10−1〜10−Nは、各々に接続された1つまたは複数の監視対象装置の障害を検出し、障害ログデータを生成する。
サービスプロセッサ20は、診断プロセッサ10−1〜10−Nから障害ログデータを収集する。
図2は、診断プロセッサの構成を示す概略ブロック図である。
診断プロセッサ10−1は、障害検出部101(障害検出手段)、検出回数計数部102、インターバルタイマ103、検出回数記憶部104、ログ生成部105、送信部106(検出回数送信手段、ログ送信手段)、受信部107(抑制命令受信手段)、タイマ設定部108、カウントアップタイマ109、抑制時間登録部110、抑制時間記憶部111、送信判定部112を備える。
障害検出部101は、自装置に接続された監視対象装置の障害を検出する。障害の検出は、監視対象装置が出力する障害割り込み信号を受信することで行う。
検出回数計数部102は、一定時間内に障害検出部101が障害を検出する度に検出回数記憶部104が記憶する検出回数に1を加算する。
インターバルタイマ103は、一定時間毎に検出回数計数部102及び送信部106に動作信号を出力する。
ログ生成部105は、障害検出部101が検出した障害の障害ログデータを生成する。
送信部106は、検出回数記憶部104が記憶する検出回数とログ生成部105が生成した障害ログデータとをサービスプロセッサ20に送信する。
受信部107は、サービスプロセッサ20から障害ログデータの送信を所定の抑制時間の間抑制する抑制命令、または当該抑制を解除する解除命令を受信する。
タイマ設定部108は、受信部107が抑制命令を受信した時刻にカウントアップタイマ109を動作させる。
カウントアップタイマ109は、動作開始時刻からの経過時間を計時する。
抑制時間登録部110は、抑制命令に含まれる抑制時間の情報を抑制時間記憶部111に登録する。
送信判定部112は、カウントアップタイマ109が計時する時間が、抑制時間記憶部111が記憶する抑制時間以内であるか否かにより、障害ログデータの送信の可否を判定する。
なお、ここでは、診断プロセッサ10−1の構成を説明したが、診断プロセッサ10−2〜10−Nの構成も診断プロセッサ10−1の構成と同じである。
図3は、サービスプロセッサの構成を示す概略ブロック図である。
サービスプロセッサ20は、受信部201(検出回数受信手段、ログ受信手段)、ログ登録部202、ログ記憶部203、検出回数登録部204、検出回数記憶部205、総検出回数算出部206(総検出回数算出手段)、比較部207、閾値記憶部208、抑制時間決定部209、抑制時間記憶部210(抑制時間記憶手段)、送信部211(抑制命令送信手段、解除命令送信手段)を備える。
受信部201は、診断プロセッサ10−1〜10−Nから検出回数及び障害ログデータを受信する。
ログ登録部202は、受信部201が受信した障害ログデータをログ記憶部203に登録する。
検出回数登録部204は、受信部201が受信した障害の検出回数を、診断プロセッサ10−1〜10−Nの識別情報に対応付けて検出回数記憶部205に登録する。
総検出回数算出部206は、検出回数記憶部205が記憶する全ての診断プロセッサ10−1〜10−Nの検出回数の総和を示す総検出回数を算出する。
比較部207は、閾値記憶部208が記憶する障害の検出回数の閾値と、総検出回数算出部206が算出した総検出回数とを比較する。
抑制時間決定部209は、比較部207によって総検出回数が閾値を超えていると判定された場合に、検出回数記憶部205が記憶する診断プロセッサ10−1〜10−N毎の障害の検出回数に基づいて診断プロセッサ10−1〜10−Nの抑制時間を決定する。
抑制時間記憶部210は、障害の検出回数と抑制時間とを対応付けて記憶する。
送信部211は、比較部207によって総検出回数が閾値を超えていると判定された場合、抑制時間決定部209が決定した抑制時間の抑制命令を診断プロセッサ10−1〜10−Nの各々に送信する。他方、比較部207によって総検出回数が閾値を超えていないと判定された場合、障害ログデータの送信抑制の解除命令を診断プロセッサ10−1〜10−Nの各々に送信する。
図4は、抑制時間記憶部210が記憶する情報を示す図である。
図4に示すように、抑制時間記憶部210は、一定時間あたりの障害検出回数と抑制時間とを対応付けて記憶する。ここでは、検出回数が1〜10件の場合に、抑制時間を1時間とし、検出回数が11〜20件の場合に、抑制時間を8時間とし、検出回数が21〜30件の場合に、抑制時間を16時間としている。
そして、診断プロセッサ10−1〜10−Nの障害検出部101は、接続された監視対象装置の障害を検出し、送信部106は、所定の時間内における障害検出部101による障害の検出回数をサービスプロセッサ20に送信する。次に、サービスプロセッサ20の受信部201は、診断プロセッサ10−1〜10−Nの各々から障害の検出回数を受信し、総検出回数算出部206は、受信部201が全ての診断プロセッサ10−1〜10−Nから受信した障害の検出回数の総和を示す総検出回数を算出する。次に、送信部211は、総検出回数算出部206が算出した障害の総検出回数が所定の閾値を超えている場合に、所定の期間内における障害ログデータの送信の抑制を要求する抑制命令を診断プロセッサ10−1〜10−Nの各々に送信する。次に、診断プロセッサ10−1〜10−Nの受信部107は、サービスプロセッサ20から抑制命令を受信し、送信部106は、抑制命令が指定する所定の期間内でないときに、障害検出部101が検出した障害の障害ログデータをサービスプロセッサに送信する。次に、サービスプロセッサの受信部201は、診断プロセッサ10−1〜10−Nの各々から障害ログデータを受信する。
このような構成とすることで、ログ管理システムは、複数の処理装置のログデータを効率よく転送する。
次に、ログ管理システムの動作を説明する。
図5は、障害検出時の診断プロセッサの動作を示すフローチャートである。
まず、診断プロセッサ10−1〜10−Nの障害検出部101は、接続された監視対象装置の障害を検出したか否かを判定する(ステップS101)。障害検出の有無の判定は、監視対象装置から障害割り込み信号を受信したか否かを判定することにより行う。
障害検出部101が障害を検出したと判定した場合(ステップS101:YES)、検出回数計数部102は、検出回数記憶部104が記憶する検出回数に1を加算する(ステップS102)。なお、初回起動時、検出回数記憶部104は検出回数として0を記憶している。次に、ログ生成部105は、検出した障害についての障害ログデータを生成する(ステップS103)。
ログ生成部105が障害ログデータを生成すると、送信判定部112は、カウントアップタイマ109が動作しているか否かを判定する(ステップS104)。カウントアップタイマ109は、診断プロセッサ10−1〜10−Nが障害ログデータの送信抑制時に動作するタイマであり、動作していない場合は障害ログデータの送信が抑制されていないことを示す。なお、初回起動時、カウントアップタイマ109は動作を停止している。
送信判定部112は、カウントアップタイマ109が動作していると判定した場合(ステップS104:YES)、カウントアップタイマ109が計時する動作開始時刻からの経過時間が、抑制時間記憶部111が記憶する障害ログデータの抑制時間を超えているか否かを判定する(ステップS105)。なお、抑制時間は、後述する処理により、抑制命令を受信した際に登録される。
送信判定部112は、カウントアップタイマ109が計時する時間が抑制時間を超えていると判定した場合(ステップS105:YES)、カウントアップタイマ109の動作を停止させる(ステップS106)。
送信判定部112が、ステップS104でカウントアップタイマ109が動作していないと判定した場合(ステップS104:NO)、またはステップS106でカウントアップタイマ109を停止した場合、送信部106は、ログ生成部105が生成した障害ログデータを送信する(ステップS107)。送信部106が障害ログデータを送信すると、サービスプロセッサ20の受信部201は、障害ログデータを受信し、ログ登録部202は、ログ記憶部203に受信した障害ログデータを登録する。
ステップS101で、障害検出部101が障害を検出していないと判定した場合(ステップS101:NO)、またはステップS105で、送信判定部112が、カウントアップタイマ109が計時する時間が抑制時間を超えていないと判定した場合(ステップS105:NO)、またはステップS107で送信部106が障害ログデータを送信した場合、送信部106は、インターバルタイマ103から動作信号の入力を受け付けたか否かを判定する(ステップS108)。なお、インターバルタイマ103は、一定時間毎に動作信号を出力している。つまり、送信部106におけるインターバルタイマ103からの動作信号の入力の受け付けは、前回動作信号の入力を受け付けた時刻から当該一定時間が経過したことを意味する。
送信部106は、インターバルタイマ103が動作信号を出力したと判定した場合(ステップS108:YES)、検出回数記憶部104が記憶する検出回数をサービスプロセッサ20に送信する(ステップS109)。次に、検出回数計数部102は、検出回数記憶部104が記憶する検出回数をクリアする。
他方、送信部106が、インターバルタイマ103が動作信号を出力していないと判定した場合(ステップS108:NO)、ステップS1に戻り、再度障害の検出の有無を判定する。
図6は、検出回数受信時のサービスプロセッサの動作を示すフローチャートである。
上述したステップS109で診断プロセッサ10−1〜10−Nの送信部106が検出回数を送信すると、サービスプロセッサ20の受信部201は、診断プロセッサ10−1〜10−Nから検出回数を受信する(ステップS201)。次に、検出回数登録部204は、診断プロセッサ10−1〜10−Nの各々から受信した検出回数を、当該診断プロセッサ10−1〜10−Nの識別情報に対応付けて検出回数記憶部205に登録する(ステップS202)。なお、検出回数記憶部205に既に検出回数が登録されている場合、既に登録されている検出回数を、受信した検出回数に書き換える。
次に、総検出回数算出部206は、検出回数記憶部205が記憶する全ての診断プロセッサ10−1〜10−Nの検出回数の総和を示す総検出回数を算出する(ステップS203)。なお、このとき診断プロセッサ10−1〜10−Nは、略同時刻にサービスプロセッサ20に検出回数を送信するように設定されていることが望ましい。次に、比較部207は、総検出回数算出部206が算出した総検出回数が、閾値記憶部208が記憶する検出回数の閾値を超えているか否かを判定する(ステップS204)。このとき、閾値記憶部208は、検出回数の閾値として予め調査しておいた回線の転送能力、即ち一定時間内に転送できるログデータ量の上限数を記憶しておくと良い。
比較部207が、総検出回数が検出回数の閾値を超えていると判定した場合(ステップS204:YES)、抑制時間決定部209は、以下の処理により、診断プロセッサ10−1〜10−Nの各々に対する抑制時間を決定する(ステップS205)。まず、抑制時間決定部209は、検出回数記憶部205が診断プロセッサ10−1〜10−Nの各々に対応付けて記憶する検出回数を取得する。次に、取得した検出回数に対応する抑制時間を抑制時間記憶部210から取得する。これにより、抑制時間決定部209は、診断プロセッサ10−1〜10−Nの各々に対する抑制時間を決定することができる。
図7は、抑制時間の設定例を示す図である。
図7に示すように、例えば、検出回数記憶部105が診断プロセッサ10−1の障害検出回数を25件として記憶している場合、抑制時間決定部209は、抑制時間記憶部210から障害検出回数25件に対応する抑制時間を取得する。図4に示すように、抑制時間記憶210は、障害検出回数21〜30件に対応付けて抑制時間16時間を記憶している。これにより、検出回数が25件である場合、抑制時間決定部209は、診断プロセッサ10−1の抑制時間を16時間と決定することができる。同様に、診断プロセッサ10−2の障害検出回数が3件である場合は、抑制時間決定部209が、抑制時間記憶部210から障害検出回数1〜10件に対応する抑制時間1時間を取得し、診断プロセッサ10−3の障害検出回数が12件である場合は、抑制時間決定部209が、抑制時間記憶部210から障害検出回数11〜20件に対応する抑制時間8時間を取得する。
ステップS205で抑制時間決定部209が抑制時間を決定すると、送信部211は、診断プロセッサ10−1〜10−Nに、決定した抑制時間の間障害ログデータの送信を抑制させる抑制命令を送信する(ステップS206)。
他方、ステップS204で比較部207が、総検出回数が検出回数の閾値を超えていないと判定した場合(ステップS204:NO)、送信部211は、診断プロセッサ10−1〜10−Nに、障害ログデータの送信の抑制を解除させる解除命令を送信する(ステップS207)。
図8は、命令受信時の診断プロセッサの動作を示すフローチャートである。
診断プロセッサ10−1〜10−Nの受信部107は、サービスプロセッサから命令を受信すると(ステップS301)、当該命令が抑制命令であるか、解除命令であるかを判定する(ステップS302)。
受信部107が、受信した命令が抑制命令であると判定した場合(ステップS302:YES)、抑制時間登録部110は、受信した抑制命令に含まれる抑制時間を抑制時間記憶部111に登録する(ステップS303)。なお、抑制時間記憶部111に既に抑制時間が登録されている場合、既に登録されている抑制時間を、受信した抑制命令に含まれる抑制時間に書き換える。
次に、タイマ設定部108は、カウントアップタイマ109が動作中であるか否かを判定する(ステップS304)。なお、カウントアップタイマ109が動作中であるということは、障害ログデータの送信抑制中であることを意味し、カウントアップタイマ109が停止中であるということは、障害ログデータの送信が抑制されていないことを意味する。
抑制命令を受信した場合において、カウントアップタイマ109が動作していないとき(ステップS304:NO)、タイマ設定部108は、カウントアップタイマ109を起動し、当該時刻からの経過時間の計時を開始させる(ステップS305)。他方、抑制命令を受信した場合において、カウントアップタイマ109が動作中であるとき(ステップS304:YES)、タイマ設定部108は、カウントアップタイマ109に対して操作を行わずに処理を終了する。
一方、ステップS302で、受信部107が、受信した命令が解除命令であると判定した場合(ステップS302:YES)、タイマ設定部108は、カウントアップタイマ109の動作を停止させる(ステップS306)。
このように、本実施形態によれば、サービスプロセッサ20の受信部204が診断プロセッサ10−1〜10−Nの各々から受信した障害の総検出回数が、閾値記憶部208が記憶する所定の閾値を超える場合に、障害ログデータの転送を抑制させる。これにより、複数の処理装置の障害ログデータに対して、サービスプロセッサに送信されるログデータの量が回線の転送能力を超えず、かつ不要な転送抑制がなされない転送処理を行うことができる。
また、本実施形態によれば、障害ログデータの送信抑制時に診断プロセッサ10−1〜10−Nにおける障害の検出回数が変化した場合、サービスプロセッサ20の抑制時間決定部209によって抑制時間が更新される。これにより、例えば、診断プロセッサ10−1における一定時間あたりの障害検出回数が25回から3回に変化した場合、サービスプロセッサ20は、初めに送信抑制命令を受信したときに登録される抑制時間16時間を、1時間に更新させることができる。これにより、一時的な障害の頻発によって送信の抑制を不必要に長引かせることを防ぐことができる。
また、本実施形態によれば、サービスプロセッサ20は、総検出回数が閾値記憶部208に記憶されている所定の閾値以下である場合に、障害ログデータの送信の抑制を解除させる。これにより、送信の抑制を不必要に長引かせず、障害ログデータを効率よく転送することができる。
また、本実施形態によれば、サービスプロセッサ20は、診断プロセッサ10−1〜10−Nの各々から受信した検出回数に応じて診断プロセッサ10−1〜10−Nの各々に設定する抑制時間を異ならせることができる。これにより、障害検出回数が少ない診断プロセッサの抑制時間を短くすることができ、送信の抑制を不必要に長引かせることを防ぐことができる。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、本実施形態では、検出回数計数部102は、障害の種別に関わらず全ての障害の検出回数を計数し、抑制時間決定部209が全ての障害の検出回数に基づいて抑制時間を決定する場合を説明したが、これに限られない。例えば、抑制時間記憶部210が、障害の種別毎に障害検出回数と抑制時間との対応情報を記憶する場合、検出回数計数部102が、障害の種別毎の検出回数を計数し、抑制時間決定部209が、障害の種別毎に抑制時間を決定することもできる。このとき、例えば、度合いが重度な障害の障害ログデータの抑制時間を短くすることで、重度な障害の障害ログデータを優先的にサービスプロセッサに登録させることができる。また、例えば、データ量が多い障害ログデータの抑制時間を長くすることで、回線の混雑を抑制することができる。
上述の診断プロセッサ10−1〜10−N及びサービスプロセッサ20は、内部にコンピュータシステムを有している。そして、上述した各処理部の動作は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
10−1〜10−N…診断プロセッサ 20…サービスプロセッサ 101…障害検出部 102…検出回数計数部 103…インターバルタイマ 104…検出回数記憶部 105…ログ生成部 106…送信部 107…受信部 108…タイマ設定部 109…カウントアップタイマ 110…抑制時間登録部 111…抑制時間記憶部 112…送信判定部 201…受信部 202…ログ登録部 203…ログ記憶部 204…検出回数登録部 205…検出回数記憶部 206…総検出回数算出部 207…比較部 208…閾値記憶部 209…抑制時間決定部 210…抑制時間記憶部 211…送信部

Claims (6)

  1. 接続された装置の障害を検出する複数の障害検出部と、当該複数の障害検出部からの障害ログデータを収集するログ収集部とを備えるログ管理システムであって、
    前記障害検出部は、
    接続された装置の障害を検出する障害検出手段と、
    所定の時間内における前記障害検出手段による障害の検出回数を前記ログ収集部に送信する検出回数送信手段と、
    前記ログ収集部から、所定の期間内における前記障害ログデータの送信の抑制を要求する抑制命令を受信する抑制命令受信手段と、
    前記所定の期間内でないときに、前記障害検出手段が検出した障害の障害ログデータを前記ログ収集部に送信するログ送信手段と、
    を備え、
    前記ログ収集部は、
    前記障害検出部の各々から前記障害の検出回数を受信する検出回数受信手段と、
    前記障害検出部の各々から前記障害ログデータを受信するログ受信手段と、
    前記検出回数受信手段が全ての障害検出部から受信した障害の検出回数の総和を示す総検出回数を算出する総検出回数算出手段と、
    前記総検出回数算出手段が算出した障害の総検出回数が所定の閾値を超えている場合に、前記抑制命令を前記障害検出部の各々に送信する抑制命令送信手段と、
    を備えることを特徴とするログ管理システム。
  2. 前記ログ収集部は、前記検出回数受信手段によって前記所定の期間内に受信された前記障害の検出回数が所定の閾値以下である場合に、前記障害ログデータの送信の抑制を解除する解除命令を前記障害検出部の各々に送信する解除命令送信手段を備えることを特徴とする請求項1に記載のログ管理システム。
  3. 前記ログ収集部は、
    前記障害の検出回数に対応付けて、前記障害ログデータの送信の抑制を要求する時間を示す抑制時間を記憶する抑制時間記憶手段を備え、
    前記ログ収集部の抑制命令送信手段は、前記障害検出部の各々に対して、前記検出回数受信手段が受信した障害の検出回数に対応付けられた抑制時間を含む抑制命令を送信し、
    前記所定の期間は、前記障害検出部が前記障害ログデータの送信の抑制を行っていないときに抑制命令受信手段が前記抑制命令を受信した時刻から前記抑制時間が経過するまでの期間を示す、
    ことを特徴とする請求項1または請求項2の何れか1項に記載のログ管理システム。
  4. 接続された装置の障害を検出する複数の障害検出部と、当該複数の障害検出部からの障害ログデータを収集するログ収集部とを備えるログ管理システムを用いたログ管理方法であって、
    前記障害検出部の障害検出手段は、接続された装置の障害を検出し、
    前記障害検出部の検出回数送信手段は、所定の時間内における前記障害検出手段による障害の検出回数を前記ログ収集部に送信し、
    前記ログ収集部の検出回数受信手段は、前記障害検出部の各々から前記障害の検出回数を受信し、
    前記ログ収集部の総検出回数算出手段は、前記検出回数受信手段が全ての障害検出部から受信した障害の検出回数の総和を示す総検出回数を算出し、
    前記ログ収集部の抑制命令送信手段は、前記総検出回数算出手段が算出した障害の総検出回数が所定の閾値を超えている場合に、所定の期間内における前記障害ログデータの送信の抑制を要求する抑制命令を前記障害検出部の各々に送信し、
    前記障害検出部の抑制命令受信手段は、前記ログ収集部から、前記抑制命令を受信し、
    前記障害検出部のログ送信手段は、前記所定の期間内でないときに、前記障害検出手段が検出した障害の障害ログデータを前記ログ収集部に送信し、
    前記ログ収集部のログ受信手段は、前記障害検出部の各々から前記障害ログデータを受信する、
    ことを特徴とするログ管理方法。
  5. 接続された装置の障害を検出する複数の障害検出部からの障害ログデータを収集するログ収集部であって、
    前記障害検出部の各々から前記障害の検出回数を受信する検出回数受信手段と、
    前記障害検出部の各々から前記障害ログデータを受信するログ受信手段と、
    前記検出回数受信手段が全ての障害検出部から受信した障害の検出回数の総和を示す総検出回数を算出する総検出回数算出手段と、
    前記総検出回数算出手段が算出した障害の総検出回数が所定の閾値を超えている場合に、前記抑制命令を前記障害検出部の各々に送信する抑制命令送信手段と、
    を備えることを特徴とするログ収集部。
  6. 接続された装置の障害を検出する複数の障害検出部からの障害ログデータを収集するログ収集部を、
    前記障害検出部の各々から前記障害の検出回数を受信する検出回数受信手段、
    前記障害検出部の各々から前記障害ログデータを受信するログ受信手段、
    前記検出回数受信手段が全ての障害検出部から受信した障害の検出回数の総和を示す総検出回数を算出する総検出回数算出手段、
    前記総検出回数算出手段が算出した障害の総検出回数が所定の閾値を超えている場合に、前記抑制命令を前記障害検出部の各々に送信する抑制命令送信手段、
    として機能させるためのプログラム。
JP2009159684A 2009-07-06 2009-07-06 ログ管理システム、ログ管理方法、ログ収集部及びプログラム Expired - Fee Related JP4985720B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009159684A JP4985720B2 (ja) 2009-07-06 2009-07-06 ログ管理システム、ログ管理方法、ログ収集部及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009159684A JP4985720B2 (ja) 2009-07-06 2009-07-06 ログ管理システム、ログ管理方法、ログ収集部及びプログラム

Publications (2)

Publication Number Publication Date
JP2011014073A true JP2011014073A (ja) 2011-01-20
JP4985720B2 JP4985720B2 (ja) 2012-07-25

Family

ID=43592862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009159684A Expired - Fee Related JP4985720B2 (ja) 2009-07-06 2009-07-06 ログ管理システム、ログ管理方法、ログ収集部及びプログラム

Country Status (1)

Country Link
JP (1) JP4985720B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012155461A (ja) * 2011-01-25 2012-08-16 Mitsubishi Electric Corp 障害情報・装置情報蓄積装置
CN106289370A (zh) * 2016-07-19 2017-01-04 珠海格力电器股份有限公司 一种故障检测装置和方法
JP2017521802A (ja) * 2014-05-16 2017-08-03 ブル スーパーコンピュータ監視用の相関イベントのためのアーキテクチャ

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03147030A (ja) * 1989-11-01 1991-06-24 Fujitsu Ltd ロギング情報処理方式
JPH03232352A (ja) * 1989-12-15 1991-10-16 Nec Corp ネットワークシステムの集中統合監視方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03147030A (ja) * 1989-11-01 1991-06-24 Fujitsu Ltd ロギング情報処理方式
JPH03232352A (ja) * 1989-12-15 1991-10-16 Nec Corp ネットワークシステムの集中統合監視方式

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012155461A (ja) * 2011-01-25 2012-08-16 Mitsubishi Electric Corp 障害情報・装置情報蓄積装置
JP2017521802A (ja) * 2014-05-16 2017-08-03 ブル スーパーコンピュータ監視用の相関イベントのためのアーキテクチャ
CN106289370A (zh) * 2016-07-19 2017-01-04 珠海格力电器股份有限公司 一种故障检测装置和方法

Also Published As

Publication number Publication date
JP4985720B2 (ja) 2012-07-25

Similar Documents

Publication Publication Date Title
US11119874B2 (en) Memory fault detection
CN111462918B (zh) 一种基于区块链的疫情监控方法及系统
JP4573179B2 (ja) 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
JP2012521607A5 (ja)
TW201346530A (zh) 機器檢查摘要暫存器
US9910710B2 (en) Prioritising event processing based on system workload
JP2009171265A (ja) 監視制御方法および監視制御装置
US10296417B2 (en) Reducing uncorrectable errors based on a history of correctable errors
JP2015088176A (ja) 情報処理装置、障害回避方法およびコンピュータプログラム
US11588827B2 (en) Attack communication detection device, attack communication detection method, and program
JP4985720B2 (ja) ログ管理システム、ログ管理方法、ログ収集部及びプログラム
US20210226977A1 (en) Monitoring apparatus
JP5623557B2 (ja) 診断データを収集するためのマルチスレッド化コンピューティング環境における方法、装置、およびコンピュータ・プログラム
US20210390005A1 (en) Delay cause identification method, non-transitory computer-readable storage medium, delay cause identification apparatus
JP2011145824A (ja) 情報処理装置、障害解析方法及び障害解析プログラム
JP6133614B2 (ja) 障害ログ採取装置、障害ログ採取方法、及び、障害ログ採取プログラム
CN109828855A (zh) 多处理器错误检测系统及其方法
JP5794632B2 (ja) メモリコントローラ、メモリ診断方法及びプロセッサシステム
JP6087540B2 (ja) 障害トレース装置、障害トレースシステム、障害トレース方法、及び、障害トレースプログラム
US10146716B2 (en) Method for using shared device and resource sharing system
CN108932183B (zh) 处理告警的方法和装置
JP2013161211A (ja) 情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラム
JP2007042017A (ja) 障害診断システム、障害診断方法、および障害診断プログラム
JP6567923B2 (ja) 障害処理装置、システム、障害管理装置、方法およびプログラム
JPH11272508A (ja) 監視対象装置の異常検出方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111018

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120327

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120416

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees