JP2011014073A - ログ管理システム、ログ管理方法、ログ収集部及びプログラム - Google Patents
ログ管理システム、ログ管理方法、ログ収集部及びプログラム Download PDFInfo
- Publication number
- JP2011014073A JP2011014073A JP2009159684A JP2009159684A JP2011014073A JP 2011014073 A JP2011014073 A JP 2011014073A JP 2009159684 A JP2009159684 A JP 2009159684A JP 2009159684 A JP2009159684 A JP 2009159684A JP 2011014073 A JP2011014073 A JP 2011014073A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- detection
- log
- unit
- suppression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
【解決手段】診断プロセッサ10−1〜10−Nは、接続された監視対象装置の障害を検出し、所定の時間内における障害の検出回数をサービスプロセッサ20に送信する。次に、サービスプロセッサ20は、診断プロセッサ10−1〜10−Nの各々から障害の検出回数を受信し、全ての診断プロセッサ10−1〜10−Nから受信した障害の検出回数の総和を示す総検出回数を算出する。次に、サービスプロセッサ20は、算出した総検出回数が所定の閾値を超えている場合に、所定の期間、障害ログデータの送信の抑制を要求する抑制命令を診断プロセッサ10−1〜10−Nの各々に送信する。
【選択図】図1
Description
なお、特許文献1に、上述した問題を解決するエラーログ方式が開示されている。
特許文献1に記載の技術は、診断プロセッサが一定時間内に所定の閾値以上の障害を検出した場合に、エラーログ処理を行わないことで、処理時間を短縮するものである。
診断プロセッサの各々に設定する障害検出数の閾値を、診断プロセッサが一定時間内に送信できるログ数の上限値とした場合、複数の処理装置で軽障害が多発したときに、複数の診断プロセッサが同時にログデータを送信することとなる。そのため、サービスプロセッサに送信されるログデータの量が回線の転送能力を超え、通信異常に至ってしまうという問題がある。
本発明は上記の点に鑑みてなされたものであり、その目的は、複数の処理装置のログデータに対して、サービスプロセッサに送信されるログデータの量が回線の転送能力を超えず、かつ不要な転送抑制がなされない転送処理を行うことができるログ管理システム、ログ管理方法、ログ収集部及びプログラムを提供することにある。
図1は、本発明の一実施形態によるログ管理システムの構成図である。
ログ管理システムは、診断プロセッサ10−1〜10−N(障害検出部)とサービスプロセッサ20(ログ収集部)とを備える。
診断プロセッサ10−1〜10−Nは、各々に接続された1つまたは複数の監視対象装置の障害を検出し、障害ログデータを生成する。
サービスプロセッサ20は、診断プロセッサ10−1〜10−Nから障害ログデータを収集する。
診断プロセッサ10−1は、障害検出部101(障害検出手段)、検出回数計数部102、インターバルタイマ103、検出回数記憶部104、ログ生成部105、送信部106(検出回数送信手段、ログ送信手段)、受信部107(抑制命令受信手段)、タイマ設定部108、カウントアップタイマ109、抑制時間登録部110、抑制時間記憶部111、送信判定部112を備える。
検出回数計数部102は、一定時間内に障害検出部101が障害を検出する度に検出回数記憶部104が記憶する検出回数に1を加算する。
インターバルタイマ103は、一定時間毎に検出回数計数部102及び送信部106に動作信号を出力する。
ログ生成部105は、障害検出部101が検出した障害の障害ログデータを生成する。
送信部106は、検出回数記憶部104が記憶する検出回数とログ生成部105が生成した障害ログデータとをサービスプロセッサ20に送信する。
タイマ設定部108は、受信部107が抑制命令を受信した時刻にカウントアップタイマ109を動作させる。
カウントアップタイマ109は、動作開始時刻からの経過時間を計時する。
抑制時間登録部110は、抑制命令に含まれる抑制時間の情報を抑制時間記憶部111に登録する。
送信判定部112は、カウントアップタイマ109が計時する時間が、抑制時間記憶部111が記憶する抑制時間以内であるか否かにより、障害ログデータの送信の可否を判定する。
なお、ここでは、診断プロセッサ10−1の構成を説明したが、診断プロセッサ10−2〜10−Nの構成も診断プロセッサ10−1の構成と同じである。
サービスプロセッサ20は、受信部201(検出回数受信手段、ログ受信手段)、ログ登録部202、ログ記憶部203、検出回数登録部204、検出回数記憶部205、総検出回数算出部206(総検出回数算出手段)、比較部207、閾値記憶部208、抑制時間決定部209、抑制時間記憶部210(抑制時間記憶手段)、送信部211(抑制命令送信手段、解除命令送信手段)を備える。
ログ登録部202は、受信部201が受信した障害ログデータをログ記憶部203に登録する。
検出回数登録部204は、受信部201が受信した障害の検出回数を、診断プロセッサ10−1〜10−Nの識別情報に対応付けて検出回数記憶部205に登録する。
比較部207は、閾値記憶部208が記憶する障害の検出回数の閾値と、総検出回数算出部206が算出した総検出回数とを比較する。
抑制時間決定部209は、比較部207によって総検出回数が閾値を超えていると判定された場合に、検出回数記憶部205が記憶する診断プロセッサ10−1〜10−N毎の障害の検出回数に基づいて診断プロセッサ10−1〜10−Nの抑制時間を決定する。
抑制時間記憶部210は、障害の検出回数と抑制時間とを対応付けて記憶する。
送信部211は、比較部207によって総検出回数が閾値を超えていると判定された場合、抑制時間決定部209が決定した抑制時間の抑制命令を診断プロセッサ10−1〜10−Nの各々に送信する。他方、比較部207によって総検出回数が閾値を超えていないと判定された場合、障害ログデータの送信抑制の解除命令を診断プロセッサ10−1〜10−Nの各々に送信する。
図4に示すように、抑制時間記憶部210は、一定時間あたりの障害検出回数と抑制時間とを対応付けて記憶する。ここでは、検出回数が1〜10件の場合に、抑制時間を1時間とし、検出回数が11〜20件の場合に、抑制時間を8時間とし、検出回数が21〜30件の場合に、抑制時間を16時間としている。
このような構成とすることで、ログ管理システムは、複数の処理装置のログデータを効率よく転送する。
図5は、障害検出時の診断プロセッサの動作を示すフローチャートである。
まず、診断プロセッサ10−1〜10−Nの障害検出部101は、接続された監視対象装置の障害を検出したか否かを判定する(ステップS101)。障害検出の有無の判定は、監視対象装置から障害割り込み信号を受信したか否かを判定することにより行う。
障害検出部101が障害を検出したと判定した場合(ステップS101:YES)、検出回数計数部102は、検出回数記憶部104が記憶する検出回数に1を加算する(ステップS102)。なお、初回起動時、検出回数記憶部104は検出回数として0を記憶している。次に、ログ生成部105は、検出した障害についての障害ログデータを生成する(ステップS103)。
送信判定部112は、カウントアップタイマ109が計時する時間が抑制時間を超えていると判定した場合(ステップS105:YES)、カウントアップタイマ109の動作を停止させる(ステップS106)。
他方、送信部106が、インターバルタイマ103が動作信号を出力していないと判定した場合(ステップS108:NO)、ステップS1に戻り、再度障害の検出の有無を判定する。
上述したステップS109で診断プロセッサ10−1〜10−Nの送信部106が検出回数を送信すると、サービスプロセッサ20の受信部201は、診断プロセッサ10−1〜10−Nから検出回数を受信する(ステップS201)。次に、検出回数登録部204は、診断プロセッサ10−1〜10−Nの各々から受信した検出回数を、当該診断プロセッサ10−1〜10−Nの識別情報に対応付けて検出回数記憶部205に登録する(ステップS202)。なお、検出回数記憶部205に既に検出回数が登録されている場合、既に登録されている検出回数を、受信した検出回数に書き換える。
図7に示すように、例えば、検出回数記憶部105が診断プロセッサ10−1の障害検出回数を25件として記憶している場合、抑制時間決定部209は、抑制時間記憶部210から障害検出回数25件に対応する抑制時間を取得する。図4に示すように、抑制時間記憶210は、障害検出回数21〜30件に対応付けて抑制時間16時間を記憶している。これにより、検出回数が25件である場合、抑制時間決定部209は、診断プロセッサ10−1の抑制時間を16時間と決定することができる。同様に、診断プロセッサ10−2の障害検出回数が3件である場合は、抑制時間決定部209が、抑制時間記憶部210から障害検出回数1〜10件に対応する抑制時間1時間を取得し、診断プロセッサ10−3の障害検出回数が12件である場合は、抑制時間決定部209が、抑制時間記憶部210から障害検出回数11〜20件に対応する抑制時間8時間を取得する。
他方、ステップS204で比較部207が、総検出回数が検出回数の閾値を超えていないと判定した場合(ステップS204:NO)、送信部211は、診断プロセッサ10−1〜10−Nに、障害ログデータの送信の抑制を解除させる解除命令を送信する(ステップS207)。
診断プロセッサ10−1〜10−Nの受信部107は、サービスプロセッサから命令を受信すると(ステップS301)、当該命令が抑制命令であるか、解除命令であるかを判定する(ステップS302)。
受信部107が、受信した命令が抑制命令であると判定した場合(ステップS302:YES)、抑制時間登録部110は、受信した抑制命令に含まれる抑制時間を抑制時間記憶部111に登録する(ステップS303)。なお、抑制時間記憶部111に既に抑制時間が登録されている場合、既に登録されている抑制時間を、受信した抑制命令に含まれる抑制時間に書き換える。
抑制命令を受信した場合において、カウントアップタイマ109が動作していないとき(ステップS304:NO)、タイマ設定部108は、カウントアップタイマ109を起動し、当該時刻からの経過時間の計時を開始させる(ステップS305)。他方、抑制命令を受信した場合において、カウントアップタイマ109が動作中であるとき(ステップS304:YES)、タイマ設定部108は、カウントアップタイマ109に対して操作を行わずに処理を終了する。
例えば、本実施形態では、検出回数計数部102は、障害の種別に関わらず全ての障害の検出回数を計数し、抑制時間決定部209が全ての障害の検出回数に基づいて抑制時間を決定する場合を説明したが、これに限られない。例えば、抑制時間記憶部210が、障害の種別毎に障害検出回数と抑制時間との対応情報を記憶する場合、検出回数計数部102が、障害の種別毎の検出回数を計数し、抑制時間決定部209が、障害の種別毎に抑制時間を決定することもできる。このとき、例えば、度合いが重度な障害の障害ログデータの抑制時間を短くすることで、重度な障害の障害ログデータを優先的にサービスプロセッサに登録させることができる。また、例えば、データ量が多い障害ログデータの抑制時間を長くすることで、回線の混雑を抑制することができる。
Claims (6)
- 接続された装置の障害を検出する複数の障害検出部と、当該複数の障害検出部からの障害ログデータを収集するログ収集部とを備えるログ管理システムであって、
前記障害検出部は、
接続された装置の障害を検出する障害検出手段と、
所定の時間内における前記障害検出手段による障害の検出回数を前記ログ収集部に送信する検出回数送信手段と、
前記ログ収集部から、所定の期間内における前記障害ログデータの送信の抑制を要求する抑制命令を受信する抑制命令受信手段と、
前記所定の期間内でないときに、前記障害検出手段が検出した障害の障害ログデータを前記ログ収集部に送信するログ送信手段と、
を備え、
前記ログ収集部は、
前記障害検出部の各々から前記障害の検出回数を受信する検出回数受信手段と、
前記障害検出部の各々から前記障害ログデータを受信するログ受信手段と、
前記検出回数受信手段が全ての障害検出部から受信した障害の検出回数の総和を示す総検出回数を算出する総検出回数算出手段と、
前記総検出回数算出手段が算出した障害の総検出回数が所定の閾値を超えている場合に、前記抑制命令を前記障害検出部の各々に送信する抑制命令送信手段と、
を備えることを特徴とするログ管理システム。 - 前記ログ収集部は、前記検出回数受信手段によって前記所定の期間内に受信された前記障害の検出回数が所定の閾値以下である場合に、前記障害ログデータの送信の抑制を解除する解除命令を前記障害検出部の各々に送信する解除命令送信手段を備えることを特徴とする請求項1に記載のログ管理システム。
- 前記ログ収集部は、
前記障害の検出回数に対応付けて、前記障害ログデータの送信の抑制を要求する時間を示す抑制時間を記憶する抑制時間記憶手段を備え、
前記ログ収集部の抑制命令送信手段は、前記障害検出部の各々に対して、前記検出回数受信手段が受信した障害の検出回数に対応付けられた抑制時間を含む抑制命令を送信し、
前記所定の期間は、前記障害検出部が前記障害ログデータの送信の抑制を行っていないときに抑制命令受信手段が前記抑制命令を受信した時刻から前記抑制時間が経過するまでの期間を示す、
ことを特徴とする請求項1または請求項2の何れか1項に記載のログ管理システム。 - 接続された装置の障害を検出する複数の障害検出部と、当該複数の障害検出部からの障害ログデータを収集するログ収集部とを備えるログ管理システムを用いたログ管理方法であって、
前記障害検出部の障害検出手段は、接続された装置の障害を検出し、
前記障害検出部の検出回数送信手段は、所定の時間内における前記障害検出手段による障害の検出回数を前記ログ収集部に送信し、
前記ログ収集部の検出回数受信手段は、前記障害検出部の各々から前記障害の検出回数を受信し、
前記ログ収集部の総検出回数算出手段は、前記検出回数受信手段が全ての障害検出部から受信した障害の検出回数の総和を示す総検出回数を算出し、
前記ログ収集部の抑制命令送信手段は、前記総検出回数算出手段が算出した障害の総検出回数が所定の閾値を超えている場合に、所定の期間内における前記障害ログデータの送信の抑制を要求する抑制命令を前記障害検出部の各々に送信し、
前記障害検出部の抑制命令受信手段は、前記ログ収集部から、前記抑制命令を受信し、
前記障害検出部のログ送信手段は、前記所定の期間内でないときに、前記障害検出手段が検出した障害の障害ログデータを前記ログ収集部に送信し、
前記ログ収集部のログ受信手段は、前記障害検出部の各々から前記障害ログデータを受信する、
ことを特徴とするログ管理方法。 - 接続された装置の障害を検出する複数の障害検出部からの障害ログデータを収集するログ収集部であって、
前記障害検出部の各々から前記障害の検出回数を受信する検出回数受信手段と、
前記障害検出部の各々から前記障害ログデータを受信するログ受信手段と、
前記検出回数受信手段が全ての障害検出部から受信した障害の検出回数の総和を示す総検出回数を算出する総検出回数算出手段と、
前記総検出回数算出手段が算出した障害の総検出回数が所定の閾値を超えている場合に、前記抑制命令を前記障害検出部の各々に送信する抑制命令送信手段と、
を備えることを特徴とするログ収集部。 - 接続された装置の障害を検出する複数の障害検出部からの障害ログデータを収集するログ収集部を、
前記障害検出部の各々から前記障害の検出回数を受信する検出回数受信手段、
前記障害検出部の各々から前記障害ログデータを受信するログ受信手段、
前記検出回数受信手段が全ての障害検出部から受信した障害の検出回数の総和を示す総検出回数を算出する総検出回数算出手段、
前記総検出回数算出手段が算出した障害の総検出回数が所定の閾値を超えている場合に、前記抑制命令を前記障害検出部の各々に送信する抑制命令送信手段、
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009159684A JP4985720B2 (ja) | 2009-07-06 | 2009-07-06 | ログ管理システム、ログ管理方法、ログ収集部及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009159684A JP4985720B2 (ja) | 2009-07-06 | 2009-07-06 | ログ管理システム、ログ管理方法、ログ収集部及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011014073A true JP2011014073A (ja) | 2011-01-20 |
JP4985720B2 JP4985720B2 (ja) | 2012-07-25 |
Family
ID=43592862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009159684A Expired - Fee Related JP4985720B2 (ja) | 2009-07-06 | 2009-07-06 | ログ管理システム、ログ管理方法、ログ収集部及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4985720B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012155461A (ja) * | 2011-01-25 | 2012-08-16 | Mitsubishi Electric Corp | 障害情報・装置情報蓄積装置 |
CN106289370A (zh) * | 2016-07-19 | 2017-01-04 | 珠海格力电器股份有限公司 | 一种故障检测装置和方法 |
JP2017521802A (ja) * | 2014-05-16 | 2017-08-03 | ブル | スーパーコンピュータ監視用の相関イベントのためのアーキテクチャ |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03147030A (ja) * | 1989-11-01 | 1991-06-24 | Fujitsu Ltd | ロギング情報処理方式 |
JPH03232352A (ja) * | 1989-12-15 | 1991-10-16 | Nec Corp | ネットワークシステムの集中統合監視方式 |
-
2009
- 2009-07-06 JP JP2009159684A patent/JP4985720B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03147030A (ja) * | 1989-11-01 | 1991-06-24 | Fujitsu Ltd | ロギング情報処理方式 |
JPH03232352A (ja) * | 1989-12-15 | 1991-10-16 | Nec Corp | ネットワークシステムの集中統合監視方式 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012155461A (ja) * | 2011-01-25 | 2012-08-16 | Mitsubishi Electric Corp | 障害情報・装置情報蓄積装置 |
JP2017521802A (ja) * | 2014-05-16 | 2017-08-03 | ブル | スーパーコンピュータ監視用の相関イベントのためのアーキテクチャ |
CN106289370A (zh) * | 2016-07-19 | 2017-01-04 | 珠海格力电器股份有限公司 | 一种故障检测装置和方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4985720B2 (ja) | 2012-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11119874B2 (en) | Memory fault detection | |
CN111462918B (zh) | 一种基于区块链的疫情监控方法及系统 | |
JP4573179B2 (ja) | 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム | |
JP2012521607A5 (ja) | ||
TW201346530A (zh) | 機器檢查摘要暫存器 | |
US9910710B2 (en) | Prioritising event processing based on system workload | |
JP2009171265A (ja) | 監視制御方法および監視制御装置 | |
US10296417B2 (en) | Reducing uncorrectable errors based on a history of correctable errors | |
JP2015088176A (ja) | 情報処理装置、障害回避方法およびコンピュータプログラム | |
US11588827B2 (en) | Attack communication detection device, attack communication detection method, and program | |
JP4985720B2 (ja) | ログ管理システム、ログ管理方法、ログ収集部及びプログラム | |
US20210226977A1 (en) | Monitoring apparatus | |
JP5623557B2 (ja) | 診断データを収集するためのマルチスレッド化コンピューティング環境における方法、装置、およびコンピュータ・プログラム | |
US20210390005A1 (en) | Delay cause identification method, non-transitory computer-readable storage medium, delay cause identification apparatus | |
JP2011145824A (ja) | 情報処理装置、障害解析方法及び障害解析プログラム | |
JP6133614B2 (ja) | 障害ログ採取装置、障害ログ採取方法、及び、障害ログ採取プログラム | |
CN109828855A (zh) | 多处理器错误检测系统及其方法 | |
JP5794632B2 (ja) | メモリコントローラ、メモリ診断方法及びプロセッサシステム | |
JP6087540B2 (ja) | 障害トレース装置、障害トレースシステム、障害トレース方法、及び、障害トレースプログラム | |
US10146716B2 (en) | Method for using shared device and resource sharing system | |
CN108932183B (zh) | 处理告警的方法和装置 | |
JP2013161211A (ja) | 情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラム | |
JP2007042017A (ja) | 障害診断システム、障害診断方法、および障害診断プログラム | |
JP6567923B2 (ja) | 障害処理装置、システム、障害管理装置、方法およびプログラム | |
JPH11272508A (ja) | 監視対象装置の異常検出方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111018 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120327 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120416 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150511 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |