JPH10105440A - システム障害監視装置及び記録媒体 - Google Patents

システム障害監視装置及び記録媒体

Info

Publication number
JPH10105440A
JPH10105440A JP8253202A JP25320296A JPH10105440A JP H10105440 A JPH10105440 A JP H10105440A JP 8253202 A JP8253202 A JP 8253202A JP 25320296 A JP25320296 A JP 25320296A JP H10105440 A JPH10105440 A JP H10105440A
Authority
JP
Japan
Prior art keywords
failure
computer
computer system
monitoring
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8253202A
Other languages
English (en)
Inventor
Keiichi Hasegawa
敬一 長谷川
Yuichi Koyakata
祐一 古舘
Masaya Toba
真弥 戸羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Information and Control Systems Inc
Original Assignee
Hitachi Ltd
Hitachi Information and Control Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Information and Control Systems Inc filed Critical Hitachi Ltd
Priority to JP8253202A priority Critical patent/JPH10105440A/ja
Publication of JPH10105440A publication Critical patent/JPH10105440A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【課題】計算機システムを改造することなく、計算機シ
ステムの障害を未然に防止する。 【解決手段】入力装置21に入力された操作の履歴を記
録すると共に、所定時間毎に計算機22の内部情報を記
録する記録情報ファイル12と、計算機システム2に発
生する障害の要因となる操作列及び計算機22の内部情
報とを記録する監視情報ファイル14と、記録情報ファ
イル12に記録された操作履歴及び内部情報と、監視情
報ファイル14に記録された操作列及び内部情報とを比
較して、計算機システム2に障害発生のおそれがあるか
否かを判断する障害監視部16とを有する。障害監視部
16は、障害発生のおそれがあると判断した場合、入力
装置21に入力された最新の操作を計算機22に渡すこ
となく保持する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、計算機システムの
CPUダウンやキーハングアップ等の障害を監視するシ
ステム障害監視装置、および前記障害を監視するための
プログラムが記録された記録媒体に関するものである。
【0002】
【従来の技術】従来より、計算機システムの起動から障
害が発生するまでの操作履歴と、障害発生時における計
算機システムの内部情報(メモリの使用率、レジスタに
格納されている値等)とを基に、計算機システムに発生
した障害の要因となった一連の操作(以下、障害操作列
という)を究明するシステム障害解析装置がある。
【0003】この種のシステム障害解析装置としては、
例えば特開平5−40671号公報記載のものや、特開
平4−336335号公報記載のもの等がある。
【0004】特開平5−40671号公報記載の装置で
は、計算機システムの内部情報と、外部からの入力情報
(即ち、操作者の操作内容)との時間関係を明確にしな
がら記憶装置に記録している。そして、当該記憶装置に
記憶した情報を利用することにより、障害の要因を究明
している。
【0005】また、特開平4−336335号公報記載
の装置では、計算機システムの障害要因の究明に際し、
計算機システムのログファイルを利用している。
【0006】ところで、従来のシステム障害解析装置で
は、計算機システムに発生した障害の要因を究明するだ
けであった。このため、従来は、システム障害解析装置
による解析結果を計算機システムに反映させるため、シ
ステム障害解析装置の解析者(操作者)が計算機システ
ムの操作者に解析結果を知らせて操作ミスを指摘し、注
意を促したり、計算機システムに常駐させるOS、アプ
リケーション等を変更・追加して、障害が発生しないよ
うに、計算機システムを改造したりしていた。
【0007】
【発明が解決しようとする課題】しかしながら、計算機
システムの操作者に解析結果を知らせて操作ミスを指摘
する方法では、システム障害解析装置の解析者が計算機
システムの操作者に、計算機システムに障害が発生する
毎に、操作ミスを指摘しなければならないという問題が
ある。また、連絡の不徹底や計算機システムの操作者の
不注意等により、同じ操作ミスが繰り返し行なわれて、
計算機システムに障害が発生することがあるという問題
もある。
【0008】また、計算機システムを改造する方法で
は、計算機システムの障害発生を防止するために、計算
機システムを大幅に改造しなければならない場合もあり
得る。このような場合、計算機システムの操作者が計算
機システムを改造することは困難であるという問題があ
る。また、計算機システムを改造するためには、計算機
システムの運転を長い間停止しなければならないという
問題もある。特に、24時間稼動のシステム等では、計
算機システムを改造する方法は採用し難い。
【0009】本発明は、上記事情に鑑みてなされたもの
であり、計算機システムを改造することなく、計算機シ
ステムの障害を未然に防止することができるシステム障
害監視装置、および当該監視を行うためのプログラムが
記録された記録媒体を提供することを目的とする。
【0010】
【課題を解決するための手段】上記課題を解決するため
に、本発明のシステム障害監視装置は、入力装置と計算
機とを含む計算機システムに発生する障害を監視するシ
ステム障害監視装置であって、前記入力装置に入力され
た操作の履歴を記録すると共に、逐次、前記計算機の内
部情報を記録する記録情報ファイル手段と、前記計算機
システムに発生する障害の要因となる前記操作の列と、
前記計算機が前記操作の列を実行することで当該障害が
発生した際の前記計算機の内部情報とを記録する監視情
報ファイル手段と、前記記録情報ファイル手段に記録さ
れた操作の履歴及び内部情報と、前記監視情報ファイル
手段に記録された前記操作の列及び内部情報とを比較し
て、前記計算機システムに障害発生のおそれがあるか否
かを判断し、おそれがあると判断した場合に、当該操作
を前記計算機に渡すことなく保持する障害監視手段と、
を具備することを特徴とする。
【0011】ここで、計算機システムの内部情報とは、
メモリの使用率、レジスタに格納されている値等に関す
る情報である。
【0012】本発明のシステム障害監視装置は、前記計
算機システムの障害の発生を検知して、前記記録情報フ
ァイル手段から前記障害が発生するまでの操作の履歴
と、前記障害が発生する直前に記録された内部情報とを
取得する障害情報取得手段と、前記障害情報取得手段で
取得した操作の履歴と、内部情報とを基に、前記計算機
システムの前記障害発生の要因となった操作列を究明す
る要因究明手段と、を有し、前記監視情報ファイル手段
が、前記要因究明手段で究明された操作列と、前記障害
情報取得手段で取得した内部情報とを記録するものであ
ることが好ましい。
【0013】本発明の記録媒体は、記憶装置と中央処理
装置とを備えたコンピュータによって、入力装置と計算
機とを含む計算機システムに発生する障害を監視するた
めのプログラムが記録された記録媒体であって、前記コ
ンピュータの記憶装置に、前記計算機システムの入力装
置に入力された操作の履歴を記録すると共に、逐次、前
記計算機システムの計算機の内部情報を記録させる記録
情報ファイル機能と、前記コンピュータの記憶装置に、
前記計算機システムに発生する障害の要因となる前記操
作の列と、前記計算機システムの計算機が前記操作の列
を実行することで当該障害が発生した際の当該計算機の
内部情報とを記録する監視情報ファイル機能と、前記コ
ンピュータの中央処理装置により、前記記録情報ファイ
ル機能によって前記コンピュータの記憶装置に記録され
た操作の履歴及び内部情報と、前記監視情報ファイル機
能によって前記コンピュータの記憶装置に記録された前
記操作の列及び内部情報とを比較させることで、前記計
算機システムに障害発生のおそれがあるか否かを判断さ
せ、おそれがあると判断された場合に、当該操作を前記
計算機システムの計算機に渡すことなく保持する障害監
視機能と、が記録されていることを特徴とする。
【0014】ここで、前記コンピュータの中央処理装置
により、前記計算機システムの障害の発生を検知して、
前記記録情報ファイル機能によって前記コンピュータの
記憶装置に記録された、前記障害が発生するまでの操作
の履歴と、前記障害が発生する直前に記録された内部情
報とを取得する障害情報取得機能と、前記コンピュータ
の中央処理装置により、前記障害情報取得機能で取得し
た操作の履歴と内部情報とを基に、前記計算機システム
の前記障害発生の要因となった操作列を究明する要因究
明機能と、が更に記録され、前記監視情報ファイル機能
が、前記要因究明手段で究明された操作列と、前記障害
情報取得手段で取得した内部情報とを、前記コンピュー
タの記憶装置に記憶するものであることが好ましい。
【0015】
【発明の実施の形態】以下に、本発明の一実施形態につ
いて図面を参照して説明する。
【0016】図1は本発明の一実施形態であるシステム
障害監視装置の概略ブロック図である。
【0017】図1に示す本実施形態のシステム障害監視
装置1は、計算機システム2に生じた障害を究明し、当
該障害が再発するのを未然に検出して計算機システム2
の操作者に知らせる。ここで、計算機システム2は、操
作者がキーボード、マウス等の入力装置21を用いて入
力した操作に基づき、計算機22で所定の処理を行うも
のである。たとえば、パーソナルコンピュータや、プラ
ントの設備状態を監視するプラント監視システム等が該
当する。尚、23は、入力装置21に入力された操作の
送り先を、システム障害監視装置1に切り替えるための
切替え装置である。
【0018】本実施形態のシステム監視装置1は、図1
に示すように、記録情報取得部11と、記録情報ファイ
ル12と、障害解析部13と、監視情報ファイル14
と、障害監視部16と、を備えている。
【0019】記録情報取得部11は、入力装置21に入
力された操作(入力されたキーの種類、入力対象となっ
たアプリケーションの機能等)を取得する。そして、取
得した操作を、取得した時間と共に記録情報ファイル1
2に記録する。また、記録情報取得部11は、計算機2
2の内部情報(メモリの使用率、レジスタに格納されて
いる値等)を、所定時間毎に取得する。そして、取得し
た内部情報を、取得した時間と共に記録情報ファイル1
2に記録する。これにより、記録情報ファイル12に
は、入力装置21に入力された操作と、計算機22の内
部情報とが時系列的に記録されることになる。ここで、
図2に、監視情報ファイル14に格納された記録情報の
内容の一例を示す。
【0020】障害解析部13は、障害情報取得部131
と、障害要因究明部132と、監視情報作成部133
と、監視情報提供部134とを有する。
【0021】障害情報取得部131は、記録ファイル1
2から、計算機システム2を起動してから障害が発生す
るまでの操作履歴と、障害発生時の計算機22の内部情
報とを取得する。尚、計算機システム2の障害発生時刻
は、計算機システム2の操作者の操作ミスや、計算機シ
ステム2で実行するプログラムの潜在バグ等により、計
算機システム2に障害が発生したときに、計算機システ
ム2が出力する異常割り込み信号を検出することで、取
得することができる。
【0022】障害要因究明部132は、障害情報取得部
131で取得した、計算機システム2を起動してから障
害が発生するまでの操作履歴と、障害発生時における計
算機22の内部情報とを基に、計算機システム2の障害
発生の要因となった一連の操作(以下、障害操作列とい
う)を究明する。障害操作列の究明は、以下の要領で行
う。
【0023】先ず、計算機システム2を起動してから障
害が発生するまでの操作履歴から、障害要因とは関係な
さそうな操作、例えばヘルプファイルの参照等の操作を
1つ削除する。次に、計算機システム2を再起動させ
て、当該1つの操作が削除された操作履歴を再現し、障
害が再発するか否か観察する。障害が再発した場合は、
操作履歴から、障害要因とは関係なさそうな操作を更に
1つ削除する。そして、計算機システム2を再起動させ
て、当該更に1つの操作が削除された操作履歴を再現
し、障害が再発するか否か観察する。上記の処理を繰り
返し行うことにより、障害操作列を究明する。すなわ
ち、計算機22の内部情報がある状態(例えば、メモリ
の使用率が80%で、レジスタに格納されている値があ
る値を示している、他のアプリケーションが起動中であ
る等)になってから、特定の操作列が入力されると、障
害を引き起こすと云ったような、障害発生に関与する入
力操作を特定する。
【0024】監視情報作成部133は、他の障害と識別
するための適当な識別番号と、障害要因究明部132で
究明した障害操作列と、障害発生時の計算機22の内部
情報と、当該障害に対する対応策と、からなる監視情報
を作成する。ここで、対応策は、図示していない入力装
置を用いて解析者が決定する。尚、本実施形態では、対
応策として、解析者に、操作の入力を無視する、メ
ッセージ又はガイダンスを出して操作を続行するか確認
する、計算機システム2を障害発生のおそれがなくな
るまで自動復旧させる、の中から適当なものを選択させ
ている。そして、解析者がを選択した場合には、解析
者に、メッセージ又はガイダンスの内容を設定させるよ
うにしている。
【0025】監視情報提供部134は、監視情報作成部
133で作成した監視情報を監視情報ファイル14に記
録する。ここで、図3に、監視情報ファイル14に格納
された監視情報の内容の一例を示す。
【0026】障害監視部16は、入力操作取得部161
と、入力操作送出部162と、障害判断部163とを有
する。
【0027】入力操作取得部161は、計算機システム
2の切替え装置23を介して送られてきた入力装置21
に入力された操作を取得する。そして、障害判断部16
3からの指示に従い、取得した操作を入力操作送出部1
62に渡す。
【0028】入力操作送出部162は、入力操作取得部
161から送られてきた操作、および後述する障害対策
部15から送られてきた操作を計算機22に送出する。
【0029】障害判断部163は、記録情報ファイル1
2に記録されている記録情報と監視情報ファイル14に
記録された監視ファイルとをパターンマッチング等を用
いて比較する。そして、入力操作取得部161が取得し
た操作が、計算機22に障害を発生させるものであるか
否か判断する。具体的には、記録情報ファイル12に記
録されている操作履歴のうち、最新の操作(即ち、現
在、入力操作取得部161で取得されている操作)を含
むある操作列が、監視情報ファイル14に記録されてい
るある障害操作列に該当するか否かを判断する。そし
て、当該操作列が当該障害操作列に該当する場合は、記
録情報ファイル12に記録されている計算機22の最新
の内部情報が、監視情報ファイル14に記録されている
当該障害操作列に対応する障害発生時の内部情報より
も、計算機22に対する負荷が重いか否かを判断する。
負荷が重い場合、入力操作取得部161で取得されてい
る操作を計算機22が実行すると障害が発生する可能性
が高い。そこで、この場合は、入力操作取得部161で
取得されている操作を入力操作送出部162に渡さな
い。監視情報ファイル14に記録されている当該障害操
作列に対応する対応策を後述する障害対策部に送出す
る。
【0030】一方、記録情報ファイル12に記録されて
いる操作履歴のうち、最新の操作を含むある操作列が、
監視情報ファイル14に記録されている障害操作列に該
当しない場合、または、記録情報ファイル12に記録さ
れている最新の計算機22の内部情報が、監視情報ファ
イル14に記録されている障害発生時の内部情報より
も、計算機22に対する負荷が軽い場合は、入力操作取
得部161で取得されている操作を計算機22が実行し
ても障害が発生する可能性は低い。そこで、この場合
は、入力操作取得部161に当該操作を入力操作送出部
162に渡すように指示を出す。これを受けて、計算機
22は、入力操作送出部162を介して入力操作取得部
161から送られてきた操作を実行する。
【0031】障害対策部15は、障害監視部16から送
られてきた対応策に応じた処理を行う。具体的には、送
られてきた対応策が、操作の入力を無視する、である
場合、現在、入力操作取得部161で取得されている操
作を、操作入力操作送出部162へ送出しないように、
障害判断部163に指示を出す。これを受けて、障害判
断部163は、現在、入力操作取得部161で取得され
ている操作を、操作入力操作送出部162に渡すことな
く破棄する。また、記録情報ファイル12に記録された
操作履歴から、現在、入力操作取得部161で取得され
ている操作を削除する。
【0032】また、送られてきた対応策が、メッセー
ジ又はガイダンスを出して操作を続行するか確認する、
である場合、障害警告出力部151を起動して、当該対
応策に登録されている内容のメッセージ又はガイダンス
を、計算機システム2の図示していない表示装置及び/
又は図示していない音声出力装置に出力して、操作を続
行するか否かを確認する。たとえば、解析者が設定し
た、「このまま作業を続けると処理中のデータが上書き
されます。操作を続行しますか?」のような警告メッセ
ージや、「ファイルを閉じてください。」のような操作
ガイダンスを表示して、操作を続行するか否かを確認す
る。
【0033】さらに、送られてきた対応策が、計算機
システム2を障害発生のおそれがなくなるまで自動復旧
させる、である場合、対策情報提供部152を起動して
以下の処理を行う。先ず、現在、入力操作取得部161
で取得されている操作を、操作入力操作送出部162へ
送出しないように、障害判断部163に指示を出す。こ
れを受けて、障害判断部163は、現在、入力操作取得
部161で取得されている操作を、操作入力操作送出部
162に渡すことなく破棄する。また、記録情報ファイ
ル12に記録された操作履歴から、現在、入力操作取得
部161で取得されている操作を削除する。
【0034】次に、記録情報ファイル12に記録された
操作歴のうち、最新の操作の次に新しい操作(即ち、現
在、入力操作取得部161で取得されている操作の1つ
前に入力操作取得部161で取得された操作)から、順
番に遡って、当該操作をキャンセルするような操作を、
入力操作送出部162を介して、計算機22に順次送出
する。そして、当該操作を計算機22で実行させる。こ
の処理を計算機22が安定するまで行う。尚、計算機2
2が安定したか否かの判断は、計算機22の内部情報を
参照することで行うことが好ましい。すなわち、計算機
22の内部情報が所定の状態(例えば、メモリの使用率
が50%以下である。レジスタに格納されている値が所
定値以下である。開いているファイルが1つである等)
になるまで前記処理を行うことが好ましい。
【0035】尚、本実施形態のシステム障害監視装置1
は、計算機システム2と同じ場所にある必要はなく、公
衆回線を用いたリモート障害解析も可能である。また、
システム障害監視装置1の障害対策部7における対応策
の選択処理は、システム障害監視装置1の解析者が、図
示していない入力装置を用いて設定している。しかしな
がら、障害の経験を積み重ねることにより、AI(人工
知能)を用いた自動選択も可能である。
【0036】次に、本実施形態であるシステム監視装置
1の動作について説明する。
【0037】先ず、監視情報を作成する際の動作につい
て図4を参照して説明する。
【0038】図4は本実施形態装置が監視情報を作成す
る際の動作を説明するためのフロー図である。このフロ
ーは、計算機システム2が起動されると開始される。
【0039】ステップ1001では、記録情報取得部1
1により、入力装置21に入力された操作と、計算機2
2の内部情報とを取得する。そして、取得した操作及び
計算機22の内部情報を、各々取得した時間と共に、記
録情報ファイル12に記録する。
【0040】ステップ1002では、記録情報取得部1
1により、計算機22から異常割り込み信号を取得した
か否かを判断する。異常割り込み信号を取得していない
場合は、計算機システム2に障害が発生していないの
で、ステップ1001に移行し、操作及び計算機22の
内部情報の記録情報ファイル12への記録を続ける。一
方、異常割り込み信号を取得した場合は、計算機システ
ム2に障害が発生したので、ステップ1003に移行す
る。
【0041】ステップ1003〜ステップ1005で
は、障害要因究明部132により、障害情報取得部13
1で取得した、計算機システム2を起動してから障害が
発生するまでの操作履歴と、障害発生時における計算機
22の内部情報とを基に、障害操作列を究明する。先
ず、計算機システム2を起動してから障害が発生するま
での操作履歴から、障害要因とは関係なさそうな操作を
1つ削除して、入力操作列の絞り込みを行う(ステップ
1003)。
【0042】次に、計算機システム2を再起動させて、
ステップ1003で1つの操作が削除された操作履歴を
再現する(ステップ1004)。そして、障害操作列を
究明することができたか否かを判断する(ステップ10
05)。ステップ1004で障害が再発した場合は、未
だ、操作列の絞り込みが十分ではなく、障害操作列が究
明されていない可能性があるので、ステップ1003に
戻り、操作列の更なる絞り込みを行う。一方、ステップ
1003において、操作履歴の中のいずれか1つの操作
を削除すると、ステップ1004で障害が発生しなくな
るまで、絞り込みが行われた場合、障害操作列を究明す
ることができたものとしてステップ1006に移行す
る。
【0043】ステップ1006では、監視情報作成部1
33により、システム監視装置1の解析者に、ステップ
1003〜1005で究明した障害操作列に対する対応
策を選択させる。選択していない場合は選択するまで待
ち、選択した場合にはステップ1007へ移行する。
【0044】ステップ1007では、ステップ1006
で選択した対応策が、メッセージ又はガイダンスを出
して操作の続行を確認する、であるか否かを判断する。
選択した対応策が、メッセージ又はガイダンスを出し
て操作を続行を確認する、である場合、ステップ100
8に移行して、システム監視装置1の解析者に、メッセ
ージ又はガイダンスの内容を設定させるようにしてい
る。
【0045】ステップ1009では、監視情報作成部1
33により、他の障害と識別するための適当な識別番号
と、ステップ1003〜1005で究明した障害操作列
と、記録情報ファイル12に記録された障害発生時の計
算機22の内部情報と、ステップ1006で解析者が選
択した障害に対する対応策と、からなる監視情報を作成
する。その後、この監視情報は、監視情報提供部134
により、監視情報ファイル14に記録される。
【0046】次に、計算機システム2に発生する障害を
未然に検出する際の動作について図5を参照して説明す
る。
【0047】図5は本実施形態装置が、計算機システム
2に発生する障害を未然に検出する際の動作を説明する
ためのフロー図である。このフローは、図4のフローと
同様に、計算機システム2が起動されると開始される。
【0048】先ず、障害監視部16により、入力操作取
得部161が、入力装置21に入力された操作を取得し
たか否かを判断する(ステップ2001)。取得した場
合にはステップ2002に移行し、取得していない場合
には、入力操作取得部161が、入力装置21に入力さ
れた操作を取得するまで待つ。
【0049】ステップ2002では、障害監視部16に
より、記録情報ファイル12に格納された操作履歴を取
得する。この場合、取得した操作履歴は、計算機システ
ム2が起動されてからステップ2001で取得が検知さ
れた操作までの操作履歴となる。また、障害監視部16
は、記録情報ファイル12に格納された操作履歴の中か
ら、最も新しく記録された内部情報を取得する。
【0050】ステップ2003では、障害監視部16に
より、監視情報ファイル14に格納された監視情報の中
から、ある識別番号に対応する障害操作列と、当該障害
操作列に対応する障害発生時の内部情報とを取得する。
【0051】次に、障害監視部16は、ステップ200
2で取得した操作履歴のうち、最新の操作(即ち、現
在、入力操作取得部161で取得されている操作)を含
むある操作列が、ステップ2003で取得した障害操作
列に該当するか否かを判断する(ステップ2004)。
該当する場合、計算機22の内部情報の状態によって
は、現在、入力操作取得部161で取得されている操作
を計算機22で実行すると、計算機22に障害が発生す
るおそれがある。この場合はステップ2005に移行す
る。一方、該当しない場合はステップ2006に移行す
る。
【0052】ステップ2005では、障害監視部16に
より、ステップ2002で取得した、記録情報ファイル
12に記録されている最新の内部情報が、ステップ20
03で取得した障害発生時の内部情報よりも、計算機2
2に対する負荷が重いか否かを判断する。負荷が重い場
合、現在、入力操作取得部161で取得されている操作
を計算機22で実行すると、計算機22に障害が発生す
るおそれがある。この場合は、現在、入力操作取得部1
61で取得されている操作を計算機22に渡すことなく
ステップ2008に移行する。一方、負荷が重くない場
合はステップ2006に移行する。
【0053】ステップ2006では、障害監視部16に
より、ステップ2003において、監視情報ファイル1
4に記録されているすべての識別番号に対応する障害操
作列及び内部情報を取得したか否かを判断する。取得し
ていない場合は、ステップ2003に移行して、未だ取
得していない識別番号の障害操作列と内部情報とを取得
する。一方、すべて取得した場合には、ステップ200
7に移行して、現在、入力操作取得部161で取得され
ている操作を、入力操作送出部162を介して計算機2
2に送出する。これを受けて、計算機22は入力操作送
出部162から送られてきた操作を実行する。その後、
障害監視部16は、ステップ2001に移行して、入力
操作取得部161が、新たに操作を取得するのを待つ。
【0054】ステップ2008では、障害監視部16に
より、監視情報ファイル14からステップ2003で取
得した識別番号に対応する対応策を取得し、当該対応策
を障害対策部15に送出する。
【0055】ステップ2009では、障害対策部15に
より、障害監視部16から対応策の内容を判断する。対
応策の内容が操作の入力を無視する、である場合、ス
テップ2010に移行する。また、対応策の内容が、
メッセージ又はガイダンスを出して操作の続行を確認す
る、である場合、ステップ2011に移行する。また、
対応策の内容が計算機システム2を障害発生のおそれ
がなくなるまで自動復旧させる、である場合、ステップ
2014に移行する。
【0056】ステップ2010では、障害対策部15に
より、現在、入力操作取得部161で取得されている操
作を、計算機22に渡すことなく無視するように、障害
監視部16に指令を出す。これを受けて、障害監視部1
6は、現在、入力操作取得部161で取得されている操
作を、計算機22に渡すことなく保持する。また、記録
情報ファイル12に記録された操作履歴から、現在、入
力操作取得部161で取得されている操作を削除する。
【0057】このようにすることで、計算機22は、障
害発生の直接原因となる操作を実行しないので、障害の
発生を未然に防ぐことができる。
【0058】ステップ2011では、障害対策部15に
より、ステップ2008で取得したメッセージ又はガイ
ダンスを、計算機システム2の図示していない表示装置
等を用いて、計算機システム2の操作者に知らせ、操作
を続行するか否かを確認するように、計算機22に対し
て指令を出す(ステップ2011)。これを受けて、計
算機システム2は、図示していない表示装置等に、ステ
ップ2008で取得したメッセージ又はガイダンスの内
容を出力して、続行するか否かを確認する。図6はステ
ップ2008で取得したメッセージを図示していない表
示装置に表示した一例である。このようにすることで、
計算機システム2の操作者に障害に対する注意を促すこ
とができる。
【0059】ステップ2012では、計算機システム2
の操作者が、操作の続行を選択したか否かを判断する。
ここで、操作の続行を選択したか否かの判断は、入力操
作取得部161で取得された操作を調べることで行うこ
とができる。操作の続行を選択した場合は、ステップ2
007に移行し、現在、入力操作取得部161で取得さ
れている操作を、入力操作送出部162を介して計算機
22に送出する。これを受けて、計算機22は入力操作
送出部162から送られてきた操作を実行する。一方、
操作の続行を選択しなかった場合は、ステップ2013
に移行して、現在、入力操作取得部161で取得されて
いる操作を、計算機22に渡すことなく無視するよう
に、障害監視部16に指令を出す。これを受けて、障害
監視部16は、現在、入力操作取得部161で取得され
ている操作を、計算機22に渡すことなく保持する。ま
た、記録情報ファイル12に記録された操作履歴から、
現在、入力操作取得部161で取得されている操作を削
除する。その後は、ステップ2001に移行して、障害
監視部16により、入力操作取得部161が新たに操作
を取得するのを待つ。
【0060】尚、ステップ2012において、計算機シ
ステム2の操作者が、ステップ2011で示した警告メ
ッセージや操作ガイダンスを無視して操作を続行を選択
した場合、計算機システム2に障害が発生する可能性が
高い。したがって、発生するおそれのある障害がさほど
重大なものでない場合に、警告メッセージや操作ガイダ
ンスを出力するようにすることが好ましい。
【0061】ステップ2014では、ステップ2010
と同様の処理を行う。次に、障害対策部15により、計
算機システム2を障害発生のおそれがなくなるまで自動
復旧させるか否かを、計算機システム2の図示していな
い表示装置等を用いて、計算機システム2の操作者に確
認する(ステップ2015)。図7(a)は自動復旧を
行うか否かを確認するためのメッセージを、図示してい
ない表示装置に表示した一例である。ここで、自動復旧
を選択したか否かの判断は、入力操作取得部161で取
得された操作を調べることで行うことができる。
【0062】ステップ2015で、自動復旧が選択され
た場合にはステップ2016に移行する。一方、自動復
旧が選択されなかった場合には、ステップ2001に移
行して、障害監視部16により、入力操作取得部161
が新たに操作を取得するのを待つ。
【0063】ステップ2016では、障害対策部15に
より、先ず、現在、入力操作取得部161で取得されて
いる操作を、操作入力操作送出部162へ送出しないよ
うに、障害判断部163に指示を出す。これを受けて、
障害判断部163は、現在、入力操作取得部161で取
得されている操作を、操作入力操作送出部162に渡す
ことなく破棄する。また、記録情報ファイル12に記録
された操作履歴から、現在、入力操作取得部161で取
得されている操作を削除する。
【0064】次に、記録情報ファイル12に記録された
操作歴のうち、最新の操作の次に新しい操作(即ち、現
在、入力操作取得部161で取得されている操作の1つ
前に入力操作取得部161で取得された操作)から、順
番に遡って、当該操作をキャンセルするような処理を、
計算機22が安定するまで行う。これにより、計算機シ
ステム2を安定状態にまで自動復旧する。その後、図7
(b)に示すような、自動復旧が終了した旨の表示を、
計算機システム2の図示していない表示装置に表示させ
た後、ステップ2001に移行し、障害監視部16によ
り、入力操作取得部161が新たに操作を取得するのを
待つ。
【0065】本実施形態では、記録情報ファイル12に
記録された、計算機システム2が起動してからの操作履
歴及び計算機22の内部情報と、監視情報ファイル14
に記録された障害操作列と障害発生時の計算機22の内
部情報とを比較して、計算機システム2に障害発生のお
それがあるか否かを判断している。そして、おそれがあ
ると判断した場合に、現在、入力操作取得部161で取
得している操作を、計算機22に渡すことなく保持して
いる。したがって、本実施形態によれば、監視情報ファ
イル14に記録されている計算機システム2の障害を未
然に防止することができる。
【0066】また、本実施形態では、計算機システム2
に新たな障害が発生したときに、計算機システム2が起
動してから計算機システム2に障害が発生するまでの間
の操作履歴と、当該障害発生時における計算機22の内
部情報とを基に、障害発生の要因となった障害操作列を
究明している。そして、究明した障害操作列と障害発生
時の内部情報とを監視情報ファイル14に記録してい
る。したがって、本実施形態によれば、計算機システム
2を改造することなく、同じ操作ミスにより障害が再発
するのを未然に検出することができる。
【0067】尚、上記の本実施形態は、例えばパーソナ
ルコンピュータ等の計算機システムを用いて、フロッピ
ーディスク、CD−ROM等の記録媒体に記録された図
4及び図5に示すフローを行うためのプログラムを実行
することで、実現することができる。図8は本実施形態
が適用されたパーソナルコンピュータの一例を示す概略
構成図である。図8において、7はパーソナルコンピュ
ータ、71はCPU、72はメモリ、73はフロッピー
ディスク、CD−ROM等の記録媒体から情報を読みと
るためのドライバ、74はインターフェース、75は入
力装置、76は出力装置である。
【0068】図8に示すパーソナルコンピュータ7は、
ドライバ73に、図4、5に示すフローを行うためのプ
ログラムが記憶された記録媒体が装着され、該記録媒体
から該プログラムを読み出して実行することにより、図
4及び図5に示すフローが実行される。この場合、メモ
リ72は図1に示す記録情報ファイル12、監視情報フ
ァイル14として利用される。また、インターフェース
74は、記録情報取得部11、入力操作取得部161及
び入力操作送出部162として利用される。そして、C
PU71は、障害解析部13、障害判断部163及び障
害対策部163として利用される。
【0069】
【発明の効果】以上説明したように、本発明によれば、
前記の構成により、計算機システムを改造することな
く、計算機システムの障害を未然に防止することができ
る。
【図面の簡単な説明】
【図1】本発明の一実施形態であるシステム障害監視装
置の概略ブロック図である。
【図2】図1に示す記録情報ファイルに格納された記録
情報の内容の一例を示す図である。
【図3】図1に示す監視情報ファイルに格納された監視
情報の内容の一例を示す図である。
【図4】図1に示すシステム障害監視装置が監視情報を
作成する際の動作を説明するためのフロー図である。
【図5】図1に示すシステム障害監視装置が、計算機シ
ステム2に発生する障害を未然に検出する際の動作を説
明するためのフロー図である。
【図6】図5のステップ2008で取得したメッセージ
を、計算機システム2の図示していない表示装置に表示
した一例を示す図である。
【図7】図5のステップ2015で自動復旧を行うか否
かを確認するためのメッセージを、計算機システム2の
図示していない表示装置に表示した一例を示す図であ
る。
【図8】図1に示す実施形態が適用されたパーソナルコ
ンピュータの一例を示す概略構成図である。
【符号の説明】
1 システム障害監視装置 2 計算機システム 7 パーソナルコンピュータ 11 記録情報取得部 12 記録情報ファイル 13 障害解析部 14 監視情報ファイル 15 障害対策部 16 障害監視部 71 CPU 72 メモリ 73 ドライバ 74 インターフェース 75 入力装置 76 出力装置 131 障害情報取得部 132 障害要因究明部 133 監視情報作成部 134 監視情報提供部 151 障害警告出力部 152 対策情報提供部 161 入力操作取得部 162 入力操作送出部 163 障害判断部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 戸羽 真弥 茨城県日立市大みか町五丁目2番1号 株 式会社日立情報制御システム内

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】入力装置と計算機とを含む計算機システム
    に発生する障害を監視するシステム障害監視装置であっ
    て、 前記入力装置に入力された操作の履歴を記録すると共
    に、逐次、前記計算機の内部情報を記録する記録情報フ
    ァイル手段と、 前記計算機システムに発生する障害の要因となる前記操
    作の列と、前記計算機が前記操作の列を実行することで
    当該障害が発生した際の前記計算機の内部情報とを記録
    する監視情報ファイル手段と、 前記記録情報ファイル手段に記録された操作の履歴及び
    内部情報と、前記監視情報ファイル手段に記録された前
    記操作の列及び内部情報とを比較して、前記計算機シス
    テムに障害発生のおそれがあるか否かを判断し、おそれ
    があると判断した場合に、当該操作を前記計算機に渡す
    ことなく保持する障害監視手段と、 を具備することを特徴とするシステム障害監視装置。
  2. 【請求項2】請求項1において、 前記障害監視手段で前記計算機システムに障害が発生す
    るおそれがあると判断された場合に、前記操作の履歴を
    一つずつ遡って、当該操作の履歴を構成する操作をキャ
    ンセルするような操作を、前記計算機の内部情報が所定
    の状態になるまで当該計算機に実行させる対策操作提供
    手段を有することを特徴とするシステム障害監視装置。
  3. 【請求項3】請求項1において、 前記計算機システムは表示装置を有するものであり、 前記障害監視手段で前記計算機システムに障害が発生す
    るおそれがあると判断された場合に、前記表示装置を用
    いて、前記計算機システムの操作者に、操作を続行する
    か否かの確認を行う確認手段を有し、 前記障害監視手段は、前記確認手段によって操作の続行
    が確認された場合に、前記計算機に渡すことなく保持し
    ている操作を、前記計算機に渡して実行させることを特
    徴とするシステム障害監視装置。
  4. 【請求項4】請求項3において、 前記確認手段は、前記操作の続行の確認に加えて、所定
    のメッセージ及び/又はガイダンスを、前記表示装置に
    表示させることを特徴とするシステム障害監視装置。
  5. 【請求項5】請求項1、2、3又は4において、 前記計算機システムの障害の発生を検知して、前記記録
    情報ファイル手段から、前記障害が発生するまでの操作
    の履歴と、前記障害が発生する直前に記録された内部情
    報とを取得する障害情報取得手段と、 前記障害情報取得手段で取得した操作の履歴と、内部情
    報とを基に、前記計算機システムの前記障害発生の要因
    となった操作列を究明する要因究明手段と、を有し、 前記監視情報ファイル手段は、前記要因究明手段で究明
    された操作列と、前記障害情報取得手段で取得した内部
    情報とを記録するものであることを特徴とするシステム
    障害監視装置。
  6. 【請求項6】記憶装置と中央処理装置とを備えたコンピ
    ュータによって、入力装置と計算機とを含む計算機シス
    テムに発生する障害を監視するためのプログラムが記録
    された記録媒体であって、 前記コンピュータの記憶装置に、前記計算機システムの
    入力装置に入力された操作の履歴を記録すると共に、逐
    次、前記計算機システムの計算機の内部情報を記録させ
    る記録情報ファイル機能と、 前記コンピュータの記憶装置に、前記計算機システムに
    発生する障害の要因となる前記操作の列と、前記計算機
    システムの計算機が前記操作の列を実行することで当該
    障害が発生した際の当該計算機の内部情報とを記録する
    監視情報ファイル機能と、 前記コンピュータの中央処理装置により、前記記録情報
    ファイル機能によって前記コンピュータの記憶装置に記
    録された操作の履歴及び内部情報と、前記監視情報ファ
    イル機能によって前記コンピュータの記憶装置に記録さ
    れた前記操作の列及び内部情報とを比較させることで、
    前記計算機システムに障害発生のおそれがあるか否かを
    判断させ、おそれがあると判断された場合に、当該操作
    を前記計算機システムの計算機に渡すことなく保持する
    障害監視機能と、 が記録されていることを特徴とする記録媒体。
  7. 【請求項7】請求項6において、 前記コンピュータの中央処理装置により、前記計算機シ
    ステムの障害の発生を検知して、前記記録情報ファイル
    機能によって前記コンピュータの記憶装置に記録され
    た、前記障害が発生するまでの操作の履歴と、前記障害
    が発生する直前に記録された内部情報とを取得する障害
    情報取得機能と、 前記コンピュータの中央処理装置により、前記障害情報
    取得機能で取得した操作の履歴と内部情報とを基に、前
    記計算機システムの前記障害発生の要因となった操作列
    を究明する要因究明機能と、が記録されており、 前記監視情報ファイル機能が、前記要因究明手段で究明
    された操作列と、前記障害情報取得手段で取得した内部
    情報とを、前記コンピュータの記憶装置に記憶するもの
    であることを特徴とする記憶媒体。
JP8253202A 1996-09-25 1996-09-25 システム障害監視装置及び記録媒体 Pending JPH10105440A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8253202A JPH10105440A (ja) 1996-09-25 1996-09-25 システム障害監視装置及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8253202A JPH10105440A (ja) 1996-09-25 1996-09-25 システム障害監視装置及び記録媒体

Publications (1)

Publication Number Publication Date
JPH10105440A true JPH10105440A (ja) 1998-04-24

Family

ID=17247978

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8253202A Pending JPH10105440A (ja) 1996-09-25 1996-09-25 システム障害監視装置及び記録媒体

Country Status (1)

Country Link
JP (1) JPH10105440A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004061681A1 (ja) * 2002-12-26 2004-07-22 Fujitsu Limited 運用管理方法および運用管理サーバ
JP2008522282A (ja) * 2004-11-22 2008-06-26 ヴァーダシス・インコーポレーテッド アプリケーションの実装および監視
JP2009163370A (ja) * 2007-12-28 2009-07-23 Noritsu Koki Co Ltd キャプチャーソフトウエアプログラム及びキャプチャー装置
JP2009217726A (ja) * 2008-03-12 2009-09-24 Hitachi Ltd 情報機器管理方法
JP2009301298A (ja) * 2008-06-12 2009-12-24 Yahoo Japan Corp アプリケーションの応答不能時を推定するシステム、方法、およびプログラム
JP2010134705A (ja) * 2008-12-04 2010-06-17 Ricoh Co Ltd 機器、ログ記録制御方法、及びプログラム
JP2011028355A (ja) * 2009-07-22 2011-02-10 Brother Industries Ltd 周辺装置
JP2012168945A (ja) * 2011-02-09 2012-09-06 General Electric Co <Ge> 使用パターン分析およびシミュレーションのためのシステムおよび方法
JP2015035156A (ja) * 2013-08-09 2015-02-19 株式会社キーエンス 履歴ログ再生システム、履歴ログ再生方法及び該履歴ログ再生方法を実行する光学情報読取装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004061681A1 (ja) * 2002-12-26 2004-07-22 Fujitsu Limited 運用管理方法および運用管理サーバ
JP2008522282A (ja) * 2004-11-22 2008-06-26 ヴァーダシス・インコーポレーテッド アプリケーションの実装および監視
JP2009163370A (ja) * 2007-12-28 2009-07-23 Noritsu Koki Co Ltd キャプチャーソフトウエアプログラム及びキャプチャー装置
JP2009217726A (ja) * 2008-03-12 2009-09-24 Hitachi Ltd 情報機器管理方法
JP2009301298A (ja) * 2008-06-12 2009-12-24 Yahoo Japan Corp アプリケーションの応答不能時を推定するシステム、方法、およびプログラム
JP2010134705A (ja) * 2008-12-04 2010-06-17 Ricoh Co Ltd 機器、ログ記録制御方法、及びプログラム
JP2011028355A (ja) * 2009-07-22 2011-02-10 Brother Industries Ltd 周辺装置
JP2012168945A (ja) * 2011-02-09 2012-09-06 General Electric Co <Ge> 使用パターン分析およびシミュレーションのためのシステムおよび方法
JP2015035156A (ja) * 2013-08-09 2015-02-19 株式会社キーエンス 履歴ログ再生システム、履歴ログ再生方法及び該履歴ログ再生方法を実行する光学情報読取装置

Similar Documents

Publication Publication Date Title
US7096458B2 (en) Method and apparatus to create and compare debug scenarios of a computer process
JP4199322B2 (ja) 情報処理装置及び情報処理装置のエラー採取方法
US7478273B2 (en) Computer system including active system and redundant system and state acquisition method
JPH10105440A (ja) システム障害監視装置及び記録媒体
JP2021043592A (ja) 情報処理システム
JPH0850555A (ja) 障害解析装置及び障害検出装置
JP3687565B2 (ja) ログデータ保存方式、ログデータ保存方法およびログデータ保存用プログラム
JPH02294739A (ja) 障害検出方式
JP2007025820A (ja) ソフトウェアのリスク診断プログラム
JP2001243089A (ja) ソフトウェア検証装置及びソフトウェア検証方法
JPH0786841B2 (ja) 障害情報ログ方法及びデータ処理装置
JPH05274186A (ja) 入力データ処理装置
JP3620984B2 (ja) コンピュータ自動スケジュール制御システム、そのための記録媒体およびコンピュータ自動スケジュール制御方法
JP3459898B2 (ja) 組み込みシステムの障害情報トレーサ装置
JPS6146543A (ja) 転送装置の障害処理方式
JP2002024055A (ja) コンピュータシステムおよびアプリケーションプログラムの動作再現方法
JPH0291735A (ja) リモート障害保守管理システム
JP3514168B2 (ja) 監視制御装置、監視制御方法、および監視プログラムを記録した記録媒体
JP2745477B2 (ja) データ処理装置
JPH0713833A (ja) 順編成ファイル処理方式
JP2559771B2 (ja) 回線ロギング自動停止制御方式
JP3278639B2 (ja) 障害発生時処理方式およびそのプログラム記録媒体
JP3858457B2 (ja) 情報表示システム
CN113704088A (zh) 一种进程追溯方法、进程追溯系统及相关装置
JP2000115363A (ja) 交換機の自動試験装置および交換機の自動試験方法、並びに記録媒体