JP2001067248A - 障害ログの採取方式及びその方法 - Google Patents

障害ログの採取方式及びその方法

Info

Publication number
JP2001067248A
JP2001067248A JP24165399A JP24165399A JP2001067248A JP 2001067248 A JP2001067248 A JP 2001067248A JP 24165399 A JP24165399 A JP 24165399A JP 24165399 A JP24165399 A JP 24165399A JP 2001067248 A JP2001067248 A JP 2001067248A
Authority
JP
Japan
Prior art keywords
log
failure
information
time
occurred
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP24165399A
Other languages
English (en)
Inventor
Toshiharu Nishijima
敏晴 西嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solution Innovators Ltd
Original Assignee
NEC Software Hokuriku Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Software Hokuriku Ltd filed Critical NEC Software Hokuriku Ltd
Priority to JP24165399A priority Critical patent/JP2001067248A/ja
Publication of JP2001067248A publication Critical patent/JP2001067248A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【課題】 システム障害には到らない軽微な障害であっ
て、複数の装置に伝播する障害に係る装置から選択的に
ログ情報を収集して、それらを関連づけて、関連付けら
れたログ情報をもとにログ解析をすることが可能な障害
ログの収集方式を提供する。 【解決手段】 無限時間の待ち合わせを行っているとき
に、コンピュータシステムを構成する複数の装置のうち
のいずれか1の装置に最初の障害が発生したときに、そ
の1の装置よりログ情報を採取し、前記複数の装置のう
ち、前記最初の障害の発生時刻を起点として、前記発生
時刻から伝播待ち合わせ時間が経過するまでの間に二次
障害が発生した装置よりログ情報を採取するログ採取手
段と、前記第1及び第2のログ情報を含むログ関連付け
情報を生成する手段ログ関連付け手段と、前記ログ関連
付け情報を解析することにより障害原因を特定するログ
解析手段を備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、コンピュータシス
テムを構成する各装置から障害発生時にログ情報を採取
する障害ログの採取方式及びその方法に関する。
【0002】
【従来の技術】従来、システムダウンとならない軽微な
装置故障に関するログ採取は、各装置毎に独立して行っ
ていた。
【0003】この為、ある装置の障害がシステム内の複
数の装置に伝搬した場合でも、装置毎に個別にログ情報
を採取する為、障害装置を特定する為には個別に採取さ
れている各装置のログ情報をそれぞれ解析し、関連付
け、更に、障害装置の特定を人手に委ねる必要があっ
た。
【0004】特開平2−272643号公報(従来技術
1)には、各処理装置にハードウェア障害検出手段が備
わり、診断装置には各ハードウェア障害検出装置から障
害情報を収集する障害情報収集手段と、収集された障害
情報を記憶する格納する障害情報格納手段と、格納され
た障害情報により各処理装置の障害を解析する障害解析
手段と、障害解析手段を起動する解析起動手段が備わる
障害解析方式が開示されている。
【0005】特開平8−137810号公報(従来技術
2)には、各ネットワーク機器からネットワーク情報を
収集するネットワーク管理部と、各ワークステーション
からシステム管理情報を収集するシステム管理部と、ネ
ットワーク情報とシステム管理情報を処理する統合管理
部とを備えるコンピュータネットワーク管理システムが
開示されている。
【0006】特開平9−330244号公報(従来技術
3)には、従来技術の欄に、応用ソフトウェア部に障害
が発生したときにシステムダンプが指示された場合に
は、システムソフトウェア部の共用データ部及び制御情
報部の情報並びに全ての応用ソフトウェア部のデータ部
及び情報部の情報をファイル回路に出力し、応用ソフト
ウェア部に障害が発生したときにシステムダンプが指示
されない場合には障害が発生した応用ソフトウェア部の
データ部及び情報部の情報をファイル回路に出力する方
式が開示されている。また、課題を解決するための手段
以降の欄には、障害応用ソフトウェア部が障害検出の旨
と関連応用ソフトウェア部の名称をシステムソフトウェ
ア部に通知し、その通知を受けたシステムソフトウェア
部が、障害頻度が基準値以上の場合には、制御情報保持
手段に保持されている情報を格納手段に出力し、障害頻
度が基準値以上であるか否かにかかわらず障害応用ソフ
トウェア部と関連応用ソフトウェア部に解析情報の収集
の指示を出し、その指示を受けた障害応用ソフトウェア
部と関連応用ソフトウェア部が内部の情報を格納手段に
出力する方式が開示されている。
【0007】特開平3−225536号公報(第265
6643号特許公報)(従来技術4)には、情報処理装
置を構成する各論理装置の障害発生時に各論理装置に接
続された第1の処理装置で障害発生装置からログデータ
を採取してログエリアに格納した後にその採取したログ
データに基づいてシステム障害か否かを判定し、システ
ム障害でなく個別障害のときは第1の処理装置で個別障
害処理を実施した後にログエリアに採取されたログデー
タを第2の処理装置に個別ログとして引き取らせて保存
させ、システム障害のときは、ログエリアに採取したロ
グデータ以外の不足するログデータを第1の処理装置に
よって全ての論理装置から採取してログエリアに格納し
た後にシステム障害処理を実施し、その後にログエリア
に採取された一連のログデータを第2の処理装置にシス
テムログとして引き取らせて保存させるようにしたログ
データ採取方法とそのための装置が開示されている。
【0008】特開平4−7650号公報(特公平7−8
6841号公報)(従来技術5)には、第1実施例とし
て、1の異常内容をログファイルに出力する直前から所
定時間経過後までログ禁止ファイルを生成し、その間に
他の異常が検出されてもその異常内容をログファイルに
出力することを禁止する技術が記載されている。また、
特開平4−7650号公報には、第2実施例として、1
の異常内容をログファイルに出力する直前から所定時間
経過後までの間に所定数以下の数の異常検出に対してそ
の異常内容をログファイルに出力する技術が記載されて
いる。特開平4−7650号公報には、第3実施例とし
て、1の種類の異常から伝播することが予めわかってい
る種類の異常に関するテーブルを予め用意しておき、こ
のテーブルを利用して、所定のシーケンスの種類の異常
に関する異常内容のみをログファイルに出力する技術が
記載されている。特開平4−7650号公報には、第4
実施例として、各異常に対してそれ以降発生する異常を
ログするか否かを決めるテーブルを予め用意しておき、
ある異常が実際に発生したときにその異常発生時から所
定時間内に発生した異常のうちテーブルによりログする
ことが必要であるとされている異常のみをログする技術
が記載されている。特開平4−7650号公報には、第
5実施例として、各異常に対してそれ以降発生する異常
をログするか否かを決めるテーブルを予め用意してお
き、ある異常が実際に発生しその異常の発生時から所定
時間以内に複数の異常が発生した場合に、ある異常が実
際に発生したときにその異常発生時から所定時間内に発
生した異常のうちテーブルによりログすることが必要で
あるとされている異常をログするとともに、テーブルに
よるログ不要とされる異常があってもログファイルのケ
ース数の異常だけログする技術が記載されている。
【0009】
【発明が解決しようとする課題】従来技術1によれば、
各処理装置の障害を個別に解析することはできるが、各
処理装置の障害を関連づけて解析することが出来ない。
【0010】従来技術2によれば、ネットワーク管理部
はネットワーク機器に対するポーリング又はネットワー
ク機器からのイベント報告を契機としてネットワーク情
報を収集する。従って、1のネットワーク機器に生じた
障害を契機として各ネットワーク機器から所定時間内の
ネットワーク情報を収集することは行われていない。従
って、ネットワーク情報を保持するためには大容量の記
憶部を必要とし、また、各ネットワーク機器の障害の関
連づけが困難となる。段落[0033]〜[0034]
に記載されているように、障害情報を生成するために
は、ネットワーク障害ログ中の障害情報レコードとシス
テム障害ログ中の障害情報レコードを関連づけることが
必要とされ、そのためのログ容量及び演算量が増加す
る。
【0011】従来技術3の従来技術の欄に記載されてい
る技術によれば、システムダンプの場合には、ファイル
回路に出力される情報量及びダンプ時間が膨大となり、
システムダンプでない場合には、情報が不足するという
問題がある。また、情報の解析が使用者に委ねられてい
る。また、従来技術3の課題を解決するための手段の欄
以降に記載されている技術によれば、関連応用ソフトウ
ェア部を予め認識しているのは障害応用ソフトウェア応
用部であり、システムソフトウェア部は障害応用ソフト
ウェア応用部から関連応用ソフトウェア応用部の名称を
受ける。従って、各応用ソフトウェア部に関連応用ソフ
トウェア部の名称を予め設定しておかなければならな
い。
【0012】従来技術4によれば、1つの論理装置のロ
グデータを採取するか、又は、全ての論理装置のログデ
ータを採取するかのどちらかの動作しか行わず、一部の
複数の論理装置のログデータを採取することは出来な
い。従って、システム障害には到らない軽微な障害であ
って、複数の論理装置に伝播する障害に係る論理装置か
ら選択的にログデータを採取することが出来ない。従っ
て、ログデータを格納するのに必要なログエリアが大容
量となってしまう。また、システム障害を解析するため
に必要な演算量が増加してしまう。
【0013】従来技術5の第1実施例によれば、1の異
常検出の後に連鎖して発生した異常に関する異常内容を
ログファイルに出力することが出来ない。従来技術5の
第2実施例によれば、1の異常検出の後に連鎖して発生
した異常のうちで、その異常内容がログファイルに出力
される異常の数が制限されてしまう。また、所定数以下
の数の異常検出に対してその異常内容をログファイルに
出力するのを許可する期間が固定であるので、異常内容
によって異常の伝播する時間が異なることに柔軟に適応
することが出来ない。従来技術5の第3実施例によれ
ば、予め異常伝播に関するテーブルを用意しておかなく
てはならない。従来技術5の第4実施例によれば、異常
内容によって異常の伝播する時間が異なることに柔軟に
適応することが出来ず、また、予め異常伝播に関するテ
ーブルを用意しておかなくてはならない。従来技術5の
第5実施例によれば、異常内容によって異常の伝播する
時間が異なることに柔軟に適応することが出来ず、ま
た、予め異常伝播に関するテーブルを用意しておかなく
てはならず、更に、ログファイルに出力される異常の数
が制限されてしまう。
【0014】本発明は、システム障害には到らない軽微
な障害であって、複数の装置に伝播する障害に係る装置
から選択的にログ情報を収集して、それらを関連づけ
て、関連付けられたログ情報をもとにログ解析をするこ
とが可能な障害ログの収集方式及びその方法を提供する
ことを目的とする。また、本発明は前記のことを予備情
報を必要とせずに可能とする障害ログの収集方式及びそ
の方法を提供することを目的とする。更に、本発明は、
異常内容の相違による異常伝播時間の相違に柔軟に対応
することが可能な障害ログの収集方式及びその方法を提
供することを目的とする。
【0015】
【課題を解決するための手段】本発明による障害ログの
採取方式は、無限時間の待ち合わせを行っているとき
に、コンピュータシステムを構成する複数の装置のうち
のいずれか1の装置に最初の障害が発生したときに、そ
の1の装置よりログ情報を採取し、前記複数の装置のう
ち、前記最初の障害の発生時刻を起点として、前記発生
時刻から伝播待ち合わせ時間が経過するまでの間に二次
障害が発生した装置よりログ情報を採取するログ採取手
段と、前記第1及び第2のログ情報を含むログ関連付け
情報を生成する手段ログ関連付け手段と、前記ログ関連
付け情報を解析することにより障害原因を特定するログ
解析手段を備えることを特徴とする。
【0016】また、本発明による障害ログの採取方式
は、上記の障害ログの採取方式において、前記最初の障
害の発生時刻を起点として、前記発生時刻から伝播待ち
合わせ時間が経過するまでの間に二次障害が発生した装
置があるときに、前記二次障害の発生時刻から前記伝播
待ち合わせ時間が経過するまでの間に更なる二次障害が
発生した装置より採取したログ情報を前記ログ関連付け
情報に追加し、これを繰り返す手段を更に備えることを
特徴とする。
【0017】更に、本発明による障害ログの採取方式
は、無限時間の待ち合わせを行っているときに、コンピ
ュータシステムを構成する複数の装置のうちのいずれか
1の装置に最初の障害が発生してから障害伝播が終息す
るまでの期間に障害が発生している装置からログ情報を
採取する手段と、前記ログ情報を含むログ関連付け情報
を生成する手段と、前記ログ関連付け情報を解析するこ
とにより障害原因を特定する手段と、を備えることを特
徴とする。
【0018】本発明による障害ログの採取方法は、障害
ログの採取方法無限時間の待ち合わせを行っているとき
に、コンピュータシステムを構成する複数の装置のうち
のいずれか1の装置に最初の障害が発生したときに、そ
の1の装置より採取したログ情報と、前記複数の装置の
うち、前記最初の障害の発生時刻を起点として、前記発
生時刻から伝播待ち合わせ時間が経過するまでの間に二
次障害が発生した装置より採取したログ情報と、を含む
ログ関連付け情報を生成し、前記ログ関連付け情報を解
析することにより障害原因を特定することを特徴とす
る。
【0019】また、本発明による障害ログの採取方法
は、上記の障害ログの採取方法において、前記最初の障
害の発生時刻を起点として、前記発生時刻から伝播待ち
合わせ時間が経過するまでの間に二次障害が発生した装
置があるときに、前記二次障害の発生時刻から前記伝播
待ち合わせ時間が経過するまでの間に更なる二次障害が
発生した装置より採取したログ情報を前記ログ関連付け
情報に追加し、これを繰り返すことを特徴とする。
【0020】本発明による障害ログの採取方法は、無限
時間の待ち合わせを行っているときに、コンピュータシ
ステムを構成する複数の装置のうちのいずれか1の装置
に最初の障害が発生してから障害伝播が終息するまでの
期間に障害が発生している装置からログ情報を採取し
て、前記ログ情報を含むログ関連付け情報を生成し、前
記ログ関連付け情報を解析することにより障害原因を特
定することを特徴とする。
【0021】
【発明の実施の形態】本発明による障害ログの採取方式
及びその方法は、システムダウンとならない軽微な装置
故障がシステム内の複数の装置に伝搬した時、図1のサ
ービスプロセッサ1において、各々の装置よりログ採取
手段11にて採取するログ情報をログ関連付け手段12
にて関連付けして格納する事により障害解析を容易にす
ることを特徴とする。
【0022】[実施形態1]図1に本発明の実施形態1
を行うサービスプロセッサ及びそれが接続されるコンピ
ュータシステムを示す。サービスプロセッサ1は装置2
1、22、23より成る装置群2と接続される。なお、
装置21、22、23は、具体的には、CPUユニッ
ト、メモリユニット、I/Oユニットなどであり、デー
タバス3を介して接続される。装置21、22、23及
びデータバス3によるコンピュータシステムが構成され
る。
【0023】サービスプロセッサ1は障害を通知してき
た装置よりログ情報を読み出すログ採取手段11と、一
定の条件が満たされるまでの間に採取された複数のログ
情報が採取された場合、各ログ情報の関連付けを行う為
のログ関連付け情報を生成するログ関連付け手段12
と、ログ関連付け情報、及び、ログ情報を保持するログ
情報記憶手段13と、ログ関連付け情報とログ情報より
障害箇所の特定、すなわち最初の障害要因とそれが発生
している装置の特定を行うログ解析手段14より構成さ
れる。
【0024】ログ関連づけ情報は、ログ情報採取日時、
コンピュータシステム構成などより成る共通部と、各装
置に対応したログ情報より成る。
【0025】次に図1に示す本実施形態の動作につい
て、図2のフローチャートを参照して説明する。
【0026】サービスプロセッサ1のログ関連付け手段
12は、各ログ採取手段11からのログ情報登録を待ち
合わせる。この時、待ち合わせ条件は無限時間待ちとす
る(ステップA1、A2)。
【0027】装置群2の何れかの装置(例えば、装置2
1)に障害が発生した時、それぞれの装置に対応したロ
グ採取手段11は、当該装置よりログ情報を採取し、ロ
グ関連付け手段12に対してログ情報の登録を要求す
る。
【0028】ログ関連付け手段12は、ログ情報登録要
求を受け付けた場合、ログ情報登録待ち合わせを終了
し、ログ関連付け情報に当該ログ情報を追加する(ステ
ップA3、A4)。また受け付けたログ情報はログ情報
記憶手段13に保持する。
【0029】この時、装置21の障害が装置間を接続す
るデータバス3を伝わって別の装置(装置22、装置2
3)に伝搬することが考えられる。また、システムの状
態により必ずしも最初に障害を通知してきた装置が障害
装置とは限らない。これらの理由によりログ関連付け手
段12は、ログ情報待ち合わせの条件を無限時間待ちか
ら、装置間で障害が伝搬する時間を考慮した時間(以
下、「伝播待ち合わせ時間」という。)で待ち合わせる
こととし(ステップA5)、再度ログ情報待ち合わせと
なる(ステップA2)。
【0030】仮に装置22に障害が伝搬しログ採取が行
われた場合は、上記と同じ動作でログ関連付け情報に新
たなログ情報が追加される。
【0031】更に、新たなログ情報が伝播待ち合わせ時
間中に発生しなかった場合、ログ関連付け手段12はロ
グ情報登録待ち合わせを終了し、ログ関連付け情報をロ
グ情報記憶手段13に保持する(ステップA3、A
6)。
【0032】次に、ログ関連付け手段12は、ログ解析
手段14を起動する。ログ関連付け手段12により起動
されたログ解析手段14は、ログ関連付け情報を入力と
して障害解析を行い、障害装置の特定を行う(ステップ
A7)。
【0033】この後、ログ関連付け手段12は、待ち合
わせ条件を無限時間待ちに戻し、新たなログ情報登録を
待ち合わせる。
【0034】[実施形態2]次に、本発明の実施形態2
について図面を参照して詳細に説明する。
【0035】図3を参照すると、本実施形態の実施形態
1との相違点は、サービスプロセッサ1Bが、図1に示
された実施形態1におけるサービスプロセッサ1の各構
成要素に加え、装置状態チェック手段15を有する点で
ある。
【0036】装置状態チェック手段15は、装置21〜
2nのいずれかより障害を検出した時、他の装置でも障
害が発生していないかチェックを行う。
【0037】次に図3に示す本実施形態の動作につい
て、図4のフローチャートを参照して説明する。
【0038】サービスプロセッサ1は、無限時間待ち合
わせの最中に、装置21〜2nの何れかからの障害通知
を検出すると装置状態チェック手段15を用いて各装置
にて障害を検出しているか否かを全ての装置に対してチ
ェックする(ステップB1、B2)。
【0039】装置状態チェック手段15は、装置21〜
2nのそれぞれの装置が障害を検出していないかをチェ
ックし(ステップB22)、障害を検出していた装置の
ログ情報をログ採取手段11により採取する(ステップ
B23)。
【0040】ログ採取手段11は、故障を検出していた
装置よりログ情報を採取し、ログ関連付け手段12に対
してログ情報の登録を要求する。ログ関連付け手段12
は、ログ関連付け情報に当該ログ情報を追加する。また
受付けたログ情報はログ情報記憶手段13に保持する
(ステップB24)。
【0041】ステップB2で、すべての装置に対して、
障害を検出しているか否かの判定及び検出している場合
のログ採取を終了した後で、再度、装置状態チェック手
段15は、全ての装置に対して障害を検出しているか否
かを判定する(ステップB3)。
【0042】装置状態チェック手段15が、ステップB
3で障害装置を検出した場合、ステップB22での障害
検出チェック時には障害を検出していなかった装置(例
えば装置22)にも、他装置(例えば装置2n)に関す
るステップB22での障害検出チェック時、又は、それ
に続くログ採取中(ステップB23、B24)に障害が
伝搬している可能性があり、それが見過ごされたと判断
し、装置状態チェック処理を再度実行する(ステップB
3→B2)。
【0043】装置状態チェック手段15が、ステップB
3で障害装置を検出しない場合、障害の伝搬は収束した
と判断し、ログ関連付け手段12にログ関連付け情報の
ログ情報記憶手段13への登録を指示する。ログ関連付
け手段12は、ログ関連付け情報をログ情報記憶手段1
3に保持する(ステップB4)。
【0044】次に、ログ関連付け手段12は、ログ解析
手段14を起動する。ログ関連付け手段12により起動
されたログ解析手段14は、ログ関連付け情報を入力と
して障害解析を行い、障害装置の特定を行う(ステップ
B5)。
【0045】なお、ステップB2の処理時間を考慮し
て、これが短い場合には、ステップB25とステップB
3との間に、伝播待ち合わせ時間だけ待ち合わせるステ
ップを挿入しても良い。
【0046】[実施形態3]実施形態3の構成は実施形
態2のものと同一である。次に、実施形態3の動作につ
いて説明する。
【0047】無限時間の障害待ち合わせの際に、装置状
態チェック手段15が、いずれかの装置の障害発生を検
出すると、障害が発生した装置からそれに対応したログ
採取手段11がその装置が生成するログ情報を採取し、
ログ関連付け手段12がそのログ情報を含むログ関連づ
け情報を生成する。
【0048】そして、その最初の障害の発生時刻からそ
れから伝播待ち合わせ時間が経過する時刻までの間に、
障害が発生した装置があれば、その障害発生装置からそ
の障害発生装置に対応したログ採取手段11がログ情報
を採取し、ログ関連づけ手段12がそのログ情報をログ
関連付け情報に追加する。一方、その最初の障害の発生
時刻からそれから伝播待ち合わせ時間が経過する時刻ま
での間に、障害が発生した装置がなければ、ログ関連付
け情報が完成したと判定し、ログ解析手段14がログ関
連付け情報を解析して解析結果を出力し、障害待ち合わ
せに移行する。
【0049】最初の障害の発生時刻からそれから伝播待
ち合わせ時間が経過する時刻までの間に、障害が発生し
た装置があれば、さらに、その障害(二次障害)の発生
の時刻を起点として伝播待ち合わせ時間を設定し、二次
障害の発生の時刻から、その時刻から伝播待ち合わせ時
間が経過した時刻までの間に、障害発生装置が新たに追
加されるか否かを判定するために待つ。その間に障害発
生装置が新たに追加された場合には、上記と同様に、そ
の障害発生装置からその障害発生装置に対応したログ採
取手段11がログ情報を採取し、ログ関連づけ手段12
がそのログ情報をログ関連付け情報に追加し、更に、伝
播待ち合わせ時間を設定して、上記と同様な動作を繰り
返す。
【0050】従って、一次障害のみならず二次障害以降
の副障害を起点とした伝播待ち合わせ時間内に更に障害
が発生することが無くなるまで、すなわち、障害伝播が
終息するまで、ログ関連付け情報にログ情報が追加さ
れ、ログ情報の追加漏れが防止される。
【0051】
【発明の効果】以上説明したように、本発明によれば以
下の効果が奏される。
【0052】システムダウンとならない軽微な装置故障
がシステム内の複数の装置に伝搬した時、ログ関連付け
手段でログ情報の関連付け情報を作成し、ログ解析手段
にてログ関連付け情報を参照し障害解析を実施すること
により、故障装置を正しく指摘出来る。
【0053】システム障害には到らない軽微な障害であ
って、複数の装置に伝播する障害が、時間的に連鎖して
生じることを利用して、そのような障害に係る装置から
選択的にログ情報を採取することが可能となる。従っ
て、そのような障害に係るログ情報を格納するための記
憶手段の容量を削減することが出来る。また、そのよう
な障害に係るログ情報を解析するための演算量を削減す
ることが出来る。
【0054】更に、本発明によれば、システム障害には
到らない軽微な障害であって、複数の装置に伝播する障
害を採取するために予備情報が必要とされない。
【0055】更に、本発明によれば、ログ採取した後に
装置状態チェック手段が再度新たな障害があるか否かを
検出し、障害が検出された場合に、再度ログ採取をする
ので、異常内容の相違による異常伝播時間の相違に柔軟
に対応することが可能となる。
【図面の簡単な説明】
【図1】本発明の実施形態1による障害ログの採取方式
を実施するサービスプロセッサ及びそれに接続されるコ
ンピュータシステムの構成を示すブロック図である。
【図2】本発明の実施形態1による障害ログの採取方法
を示すフローチャートである。
【図3】本発明の実施形態2による障害ログの採取方式
を実施する行うサービスプロセッサ及びそれに接続され
るコンピュータシステムの構成を示すブロック図であ
る。
【図4】本発明の実施形態2による障害ログの採取方法
を示すフローチャートである。
【符号の説明】
1、1B サービスプロセッサ 2 装置 3 データバス 11 ログ採取手段 12 ログ関連付け手段 13 情報記憶手段 14 ログ解析手段 15 装置状態チェック手段

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 無限時間の待ち合わせを行っているとき
    に、コンピュータシステムを構成する複数の装置のうち
    のいずれか1の装置に最初の障害が発生したときに、そ
    の1の装置よりログ情報を採取し、前記複数の装置のう
    ち、前記最初の障害の発生時刻を起点として、前記発生
    時刻から伝播待ち合わせ時間が経過するまでの間に二次
    障害が発生した装置よりログ情報を採取するログ採取手
    段と、前記第1及び第2のログ情報を含むログ関連付け
    情報を生成する手段ログ関連付け手段と、前記ログ関連
    付け情報を解析することにより障害原因を特定するログ
    解析手段を備えることを特徴とする障害ログの採取方
    式。
  2. 【請求項2】 請求項1に記載の障害ログの採取方式に
    おいて、前記最初の障害の発生時刻を起点として、前記
    発生時刻から伝播待ち合わせ時間が経過するまでの間に
    二次障害が発生した装置があるときに、前記二次障害の
    発生時刻から前記伝播待ち合わせ時間が経過するまでの
    間に更なる二次障害が発生した装置より採取したログ情
    報を前記ログ関連付け情報に追加し、これを繰り返す手
    段を更に備えることを特徴とする障害ログの採取方式。
  3. 【請求項3】 無限時間の待ち合わせを行っているとき
    に、コンピュータシステムを構成する複数の装置のうち
    のいずれか1の装置に最初の障害が発生してから障害伝
    播が終息するまでの期間に障害が発生している装置から
    ログ情報を採取する手段と、前記ログ情報を含むログ関
    連付け情報を生成する手段と、前記ログ関連付け情報を
    解析することにより障害原因を特定する手段と、を備え
    ることを特徴とする障害ログの採取方式。
  4. 【請求項4】 無限時間の待ち合わせを行っているとき
    に、コンピュータシステムを構成する複数の装置のうち
    のいずれか1の装置に最初の障害が発生したときに、そ
    の1の装置より採取したログ情報と、前記複数の装置の
    うち、前記最初の障害の発生時刻を起点として、前記発
    生時刻から伝播待ち合わせ時間が経過するまでの間に二
    次障害が発生した装置より採取したログ情報と、を含む
    ログ関連付け情報を生成し、前記ログ関連付け情報を解
    析することにより障害原因を特定することを特徴とする
    障害ログの採取方法。
  5. 【請求項5】 請求項4に記載の障害ログの採取方法に
    おいて、前記最初の障害の発生時刻を起点として、前記
    発生時刻から伝播待ち合わせ時間が経過するまでの間に
    二次障害が発生した装置があるときに、前記二次障害の
    発生時刻から前記伝播待ち合わせ時間が経過するまでの
    間に更なる二次障害が発生した装置より採取したログ情
    報を前記ログ関連付け情報に追加し、これを繰り返すこ
    とを特徴とする障害ログの採取方法。
  6. 【請求項6】 無限時間の待ち合わせを行っているとき
    に、コンピュータシステムを構成する複数の装置のうち
    のいずれか1の装置に最初の障害が発生してから障害伝
    播が終息するまでの期間に障害が発生している装置から
    ログ情報を採取して、前記ログ情報を含むログ関連付け
    情報を生成し、前記ログ関連付け情報を解析することに
    より障害原因を特定することを特徴とする障害ログの採
    取方法。
JP24165399A 1999-08-27 1999-08-27 障害ログの採取方式及びその方法 Pending JP2001067248A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24165399A JP2001067248A (ja) 1999-08-27 1999-08-27 障害ログの採取方式及びその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24165399A JP2001067248A (ja) 1999-08-27 1999-08-27 障害ログの採取方式及びその方法

Publications (1)

Publication Number Publication Date
JP2001067248A true JP2001067248A (ja) 2001-03-16

Family

ID=17077528

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24165399A Pending JP2001067248A (ja) 1999-08-27 1999-08-27 障害ログの採取方式及びその方法

Country Status (1)

Country Link
JP (1) JP2001067248A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309636A (ja) * 2005-05-02 2006-11-09 Mitsubishi Electric Corp 監視制御システム
WO2008072678A1 (ja) * 2006-12-12 2008-06-19 International Business Machines Corporation 検出装置、システム、プログラムおよび検出方法
JP2011154491A (ja) * 2010-01-26 2011-08-11 Fujitsu Ltd 情報管理プログラム、情報管理装置、および情報管理方法
JP2012128811A (ja) * 2010-12-17 2012-07-05 Fujitsu Ltd 管理装置、管理プログラム、および管理方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309636A (ja) * 2005-05-02 2006-11-09 Mitsubishi Electric Corp 監視制御システム
WO2008072678A1 (ja) * 2006-12-12 2008-06-19 International Business Machines Corporation 検出装置、システム、プログラムおよび検出方法
US7974800B2 (en) 2006-12-12 2011-07-05 International Business Machines Corporation Method, apparatus, and program for detecting the correlation between repeating events
JP4996624B2 (ja) * 2006-12-12 2012-08-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 検出装置、システム、プログラムおよび検出方法
JP2011154491A (ja) * 2010-01-26 2011-08-11 Fujitsu Ltd 情報管理プログラム、情報管理装置、および情報管理方法
JP2012128811A (ja) * 2010-12-17 2012-07-05 Fujitsu Ltd 管理装置、管理プログラム、および管理方法

Similar Documents

Publication Publication Date Title
TWI229796B (en) Method and system to implement a system event log for system manageability
US20040167793A1 (en) Network monitoring method for information system, operational risk evaluation method, service business performing method, and insurance business managing method
JPH0325629A (ja) プログラムのエラー検出方法及びシステム
JPH0950424A (ja) ダンプ採取装置およびダンプ採取方法
WO2020253367A1 (zh) 通讯故障分析方法、装置及区块链通讯平台
JP2001067248A (ja) 障害ログの採取方式及びその方法
US7954012B2 (en) Hierarchical debug information collection
CN111124809B (zh) 一种服务器传感器系统的测试方法及装置
US7421618B2 (en) Method for processing a diagnosis of a processor, information processing system and a diagnostic processing program
CN114070720B (zh) 一种基于异步长连接技术的数据前置系统、方法及介质
CN114327981A (zh) 一种功能安全机制的安全校验系统、方法及装置
JP3202721B2 (ja) 故障予測システム、故障予測方法および故障予測プログラムを記録した記録媒体
CN111639022A (zh) 交易测试方法及装置、存储介质、电子装置
JPH06342387A (ja) 情報処理装置に於ける障害情報採取方式
JP4155208B2 (ja) アクセスログ処理装置、アクセスログ処理方法およびアクセスログ処理プログラム
JPH08263329A (ja) コンピュータシステムの障害ログ情報取得方式
JPH08328972A (ja) マルチプロトコルネットワーク監視・診断システム
CN116431453A (zh) 一种通过bios进行系统故障检测的方法、装置和设备
JP3326546B2 (ja) コンピュータシステムの故障検知方法
JP3166730B2 (ja) 交換機の自動試験装置および交換機の自動試験方法、並びに記録媒体
CN117746532A (zh) 故障记录方法、装置、设备及存储介质
JP2004046310A (ja) 障害修復プログラム適用方法及びその実施装置並びにその処理プログラム
JP3069321B2 (ja) データベースプロセッサ診断方法
CN117648260A (zh) 测试报告自动推送方法、装置、计算机设备及存储介质
JP2936170B2 (ja) 障害処理方式