JPH02105947A - コンピユータ周辺サブシステム及びその例外事象自動検出分析方法 - Google Patents

コンピユータ周辺サブシステム及びその例外事象自動検出分析方法

Info

Publication number
JPH02105947A
JPH02105947A JP89218778A JP21877889A JPH02105947A JP H02105947 A JPH02105947 A JP H02105947A JP 89218778 A JP89218778 A JP 89218778A JP 21877889 A JP21877889 A JP 21877889A JP H02105947 A JPH02105947 A JP H02105947A
Authority
JP
Japan
Prior art keywords
subsystem
record
current
problem profile
profile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP89218778A
Other languages
English (en)
Inventor
Jerry L Coale
ジエリイ・リイ・コール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH02105947A publication Critical patent/JPH02105947A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2257Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0745Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an input/output transactions management context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3485Performance evaluation by tracing or monitoring for I/O devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 A、産業上の利用分野 本発明は、自動装置分析に関し、特に、組込まれたエラ
ー検出及びエラー回復の各能力を有するコンピュータ入
出力(Ilo)装置についてのサービス・サポート要件
に関する。
B、従来技術及びその問題点 データ記憶のためにコンピュータ・ディスク・ファイル
・サブシステムが存在する。そのような記憶装置は、直
接アクセス記憶(DAS)サブシステムと呼ばれている
。本発明は、そのような直接アクセス記憶サブシステム
ばかりでなくその他のコンピュータ装置、特に、組込ま
れたエラー検出及び回復の各能力を有する種々のI10
装置において実施できる。
回復されたI10装置のエラー事象の発生セグメントに
よって、サービス活動が通常動作を復元するために必要
であることが指し示されたり又は指し示されなかったり
することがある。I10装置の性能がエラー事象のため
にずっと低下しばなつしなら、又は、■10装置の性能
を著しく低下させるのに充分な程しばしばエラー事象が
再発するなら、サービス活動がスケジュールされるべき
である。しかしながら、I10装置の性能が著しく低下
されないのなら、サービス活動が勧められることは通常
はない。
サービス活動が必要であるか否かの決定は、手動的且つ
経験的なプロセスによって通常はなされている。詳細な
エラーの症状報告書が、呼び出されて、マシン動作に影
響を及ぼす問題の深刻さ及び永続性の程度を決めるため
に調べられる。この複雑なプロセスのために、サービス
活動を要求するか否かの決定は、しばしば実際の問題に
ついての不正確な理解に基づいている。間違った決定は
、性能が損なわれたり又は非欠陥パーツが変換される点
で、無駄を大きくする。
多分非常に間欠性である即ち使用パターンに敏感な障害
の原因を分離するためのサービス活動決定プロセスは、
また手動的且つ経験的な評価プロセスによって典型的に
は行なわれる。先行技術の好ましい障害分離技術は、エ
ラー症状を再作成する保守診断プログラムを用いること
である。しかしながら、この技術は、間欠性のエラー症
状を再作成する点で非能率的である。代替技術としては
、有望なサービス活動とみなすことができる障害シンド
ロームを導出するためにエラー症状の履歴データを手動
的に分析することである。通常動作が復元されたことの
指示として、エラー事象がもはや報告されなくなるまで
は、サービス活動は疑わしいパーツをシステマテイツク
に交換することである。
第5図に、先行技術の入出力(Ilo)装置11をその
エラ一応答機構13と共に示す。I10装置は、データ
を読み取ったり書込んだりするI10動作コマンドを受
取る。I10装置がうまくその動作を完了するなら、そ
れは、その動作がエラーなしに完了されたと応答するこ
とができる(応答(1))。しかしながら、エラーが検
出されるなら、I10装置は、そのエラー症状分析及び
エラー回復手順を始めて、うまく回復するか又は回復し
損なう。動作がうまく回復されるなら、動作は完全であ
るというコマンド応答を伝送することができるのである
が、回復されたエラー症状を報告する(応答(2))。
動作が回復されないなら、r10装置は、動作が不完全
であるというコマンド応答を発行して、損害報告及び未
回復のエラー症状の報告を含有する(応答(3))。
I10装置がエラーなしに動作がうまく完了したことを
報告するときには、その状態は通常のマシン動作を反映
している。回復されたエラー症状の報告を伴なうのだが
、動作が完全であることの報告は、I10装置の動作が
続行できることを指示するが、しかし、サービス活動が
必要かどうかを決めるためにエラー症状データが調べら
れるべきであることを指示する。動作が不完全であるこ
との報告は、損害の報告と未回復のエラー症状とを伴な
うのだが、I10装置の通常動作を復元するために即時
アテンションを必要とする。エラー症状の報告の結果次
第で、サービス活動が必要となったりならなかったりす
る。どんなサービス活動の要求も、I10装置とは無関
係にエラー症状データの手動的分析によって決められな
ければならない。
例えば、コンピュータ・システムのDASサブシステム
では、サブシステムとの間でデータを転送しながらユー
ザが書込み及び読取りの動作を実行すると、ディスク・
ファイルは、公知の方法で周期的にデータ・チエツク・
メツセージ即ち装置チエツク・メツセージを発生する。
このメツセージは、ルーチン事象以外の何かが起きたこ
とを示す。データ・チエツクは、多くのディスク・ファ
イルにおいて、多少とも予期される事象であり、従って
、データ・チエツクは、カウントされ、そのDASサブ
システムと関係する通常の帳簿のようなものに記録され
る。また、データ・チエツクは、サービス活動が必要な
ことを示さないこともある。
DASサブシステムに関係する使用データもまた、累算
される。そのようなデータは、どのI10装置が用いら
れているのかということ、シーク・カウント及びデータ
転送の課金についてのデータを含む。このことは、時に
は使用情報と呼ばれることがある。
通常、報告書は周期的に(毎日又は毎週のように)生成
され、回復された例外即ちその他の可能なエラー事象の
全てを示す、それらの事象は、前回の報告がなされてか
ら生じたものである。この報告書は、記録された事象が
そのI10装置についての問題を表わしているのか否か
を決めるために、また修理活動が必要かどうかを決める
ために、そしてその修理活動が何であるのかを決めるた
めに、分析される。現行のシステムでは、例外事象を示
してエラー事象中の傾向を検出するために、印刷された
報告書のみを用いてこの分析は実行されねばならない。
C6問題点を解決するための手段 本発明によってサービス活動の要件を決めるための外部
手動プロセスの必要が除去される。I10装置に組込ま
れたサービス警報機能が外部手動プロセスに取って代わ
る。サービス警報機能は他のI10装置の機能と同時に
動作する。本発明の内部サービス警報機能は、装置のI
10動作をモニターして、サービス活動を必要とする障
害シンドロームを検出するために例外事象レコードを記
録し、サービス活動の要件を決め、そして夏10装置の
アタッチメントへの非同期のサービス警報メツセージに
よってサービス活動を開始する。
本発明は、ホスト・コンピュータ・システムに接続され
たコンピュータ周辺サブシステムにおいて生じる例外即
ちエラー事象を自動的に検出して分析する方法である。
本発明の方法は、コンピュータ周辺サブシステムの現構
成に関する情報及びその周辺サブシステムに関する使用
及びエラーの情報を含むサブシステム環境のデータ・ベ
ースを維持することを含む。
周辺サブシステムへのサービスについてのアテンション
が明らかに必要であるか又は必要とされそうであるかの
いずれかを指し示す例外事象を、サブシステム環境のデ
ータ・ベースにおけるデータが反映するときには、問題
記述プロシジャが条件付きで呼び出される。その問題記
述プロシジャは、1例外事象に関するサブシステム環境
のデータ・ベースのビューを記憶されたルールから作成
して、その例外事象を記述する現問題プロファイル・レ
コードを作り出すことを含む。
先に生じている例外事象の問題プロファイル・レコード
を含む問題プロファイル・データ・ベースが、問題プロ
ファイル・データ・ベース中に既に存在している問題プ
ロファイル・レコードに現問題プロファイル・レコード
を関係付けるために走査される。現問題プロファイル・
レコードが問題プロファイル・データ・ベースに存在し
ている問題プロファイル・レコードに適合してカバーさ
れる問題についてサービス活動が未決定であることをそ
の存在している問題プロファイル・レコードが示すなら
、その存在している問題ブロファイル・レコードが更新
される。現問題プロファイル・レコードが問題プロファ
イル・データ・ベースに存在している問題プロファイル
・レコードに適合して、カバーされる問題についてサー
ビス活動が未決定でないことをその存在している問題プ
ロファイル・レコードが示すなら、その存在している問
題プロファイル・レコードが更新されて、問題評価プロ
シジャが呼び出される。現問題プロファイル・レコード
が問題プロファイル・データ・ベースに存在している問
題プロファイル・レコードに適合しないなら、現問題プ
ロファイル・レコードが問題プロファイル・データ・ベ
ースに付加される。
問題評価プロシジャにおいては、許容サブシステム性能
に関係する記憶されたルールを考慮して現問題プロファ
イル・レコードが調べられる。周辺サブシステムの動作
が中断されるか又は許容サブシステム性能の限界を下ま
わる程低下したなら、サービス警報メツセージが発生さ
れる。そのサービス警報メツセージが、問題プロファイ
ル・データ・ベースにおける問題プロファイル・レコー
ド中に挿入される。問題プロファイル・データ・ベース
に存在している問題プロファイル・レコードが更新され
、サービス警報メツセージがホスト・システムへ送られ
る。
D、実施例 第1図に示すように、コンピュータ周辺サブシステム2
1は、ホスト・コンピュータ・システムから動作コマン
ド及びデータを受取る1個以上の入出力(Ilo)装置
23を含んでいる。典型的には、サブシステム当り最大
64個の装置が存在する。サブシステムはさらにエラー
検出及び回復機構25を含んでいる。先行技術における
ように、動作がうまく完了すると、動作がエラーなしに
完了したという応答が発生される(応答(1))。しか
しながら、エラーが検出されると、I10装置の内部エ
ラー検出、決定及び回復機構25が呼び出される。この
エラー検出、決定及び回復機構25は、典型的には、サ
ブシステム中の全てのI10装置について共通となって
いる。エラーがうまく回復されるなら、動作完全のメツ
セージが伝送されるが、しかし回復されたエラー症状の
メツセージはない(応答(2))。従って、ホスト・コ
ンピュータ・システムにとっては、応答(1)及び(2
)は1つのメツセージである。それらの差異としては、
コマンド応答時間の差しかわからない。エラーがうまく
回復されないために動作が不完全となるときには、メツ
セージは動作が不完全であることを示し、損害の報告が
そのI10装置によって提供される(応答(3))。エ
ラーが検出されるそれら両方の場合には、I10装置の
サービス警報機能27によってエラー症状のデータが内
部的にのみ用いられる。そのサービス警報機能は、条件
付きで非同期のサービス警報メツセージを生ずる。この
メツセージは、通常のI10装置動作を復元するのに必
要なサービス活動の要件の全てを含んでいる。
サブシステム・メモリ29は、サブシステムの物理的構
成を表わすデータ、サブシステム使用のログ、例外事象
のログ、障害の基準、問題のプロシジャ及び問題のプロ
ファイル(レコード)のデータ・ベースを記憶する。サ
ブシステムの物理的構成、サブシステム使用のログ及び
例外事象のログは、共にサブシステム環境のデータ・ベ
ースを形成する。
サービス警報メツセージ発生プロセス サービス警報機能27は、サブシステムから詳細な入力
データを受取るためにサブシステム中のI10装置とイ
ンターフェースするプログラム式ファシリティである。
サービス警報メツセージ発生プロセスは、サービス警報
機能27によって実行され、3つの基本プロシジャに分
けられる。即ち、 1、問題検出プロシジャは、サブシステム環境ノデータ
・ベースを管理する゛非終止”サブシステム・プログラ
ムである。それで、データ・ベースは、常に、直接アク
セス記憶(DAS)サブシステムについての現在の構成
、使用及びエラー環境を記述する。サブシステムのサー
ビスについてのアテンションが明らかに必要であるが又
は必要とされそうであるかのいずれがをサブシステム環
境が示すときにはいつでも、問題記述プロシジャが条件
付きで呼び出される。
2、問題記述プロシジャは、サブシステム環境のデータ
・ベースのビューを作成する。それで、そのビューはサ
ブシステム内の現例外境界に関係する。例外境界ビュー
からの情報は、サブシステムについての現問題状態を有
効に記述する問題プロファイルを作り出すために用いら
れる。このプロファイル情報は、“新しい問題”のレコ
ードとして問題プロファイルのデータ・ベース中へ挿入
されるか、又は、同じ問題の状態についての先の検出を
記述する別のレコードを更新するために用いられる。問
題の状態が“新しい”又は“再発”と決められるときに
はいつでも、問題評価プロシジャが呼び出される。検出
された問題が既にポスト・システムに報告されているな
ら、問題評価は呼び出されず、サービス活動は保留即ち
未決定のままである。
3、問題評価プロシジャは、初めに、障害の分離、障害
の深刻度及び問題プロファイル・レコードのサービス要
件を決める。この情報は、データ・ベース中の問題プロ
ファイル・レコードと結合される。システム動作が中断
される即ち許容サブシステム性能の限界を下まわる程低
下したと問題評価プロシジャが結論付けるなら、サービ
ス警報メツセージのセンス・データが発生され、問題プ
ロファイル・レコードと結合されて、サービス活動を開
始するようにホスト・システムへ報告される。
問題検出プロシジャ 問題検出プロシジャは、次のことに関してDASサブシ
ステムの活動をモニタする。即ち、装置の設置乃至は除
去、データのフォーマット・モードの変更、技術変更の
導入及び障害状態による資源の隔離乃至は割愛のような
サブシステム構成における更新や、サブシステムの制御
経路及び装置についてのシーク/読取り/書込みの使用
や、システムのタスクの処理中に検出され扱われるエラ
ー状態に起因するサブシステムの例外の活動である。モ
ニタされたデータは、常にDASサブシステムについて
の現サブシステム構成、使用及びエラー状況を記述する
サブシステム環境のデータ・ベースに維持される。
問題検出プロシジャは、付録1に含まれる擬似コード列
によって、より明確に記述されている。
問題検出機構は、第2図に概略的に示されている。
正常(エラーのない)動作の間、サブシステム環境の通
常(モデル)の記述を保持するために、問題検出段階で
はハウスキーピングが行なわれる。
現使用情報が、入力ログ・レコードとしてディスク記憶
サブシステムから受取られる。データに時間のマークを
設定するために、現在時間が入力ログ・レコードに与え
られる。また、サブシステム環境のデータ・ベースから
履歴情報が選択されて入力ログ・レコードと組合される
。その組合された情報は、サブシステム環境のデータ・
ベース29 (a)(b)(c)の現事象及び傾向部分
43中に読取られる。
サブシステムの使用ログ即ちデータ・ベース(サブシス
テム環境のデータ・ベースの1部分である)中に、次の
ようなことに関する情報が記憶される。即ち、どの装置
が使用されているのか、どの装置が他の装置よりもより
ひどく用いられているのか、どの装置が一貫して一定の
レベルで用いられているのか、どの装置が主使用の間欠
性周期を有しているのかということに関する情報である
。また、システム中の装置についての使用分布及び量に
関する他の情報も記憶される。そのような情報は、サブ
システムによって報告されるかも知れない障害即ち例外
の性質の決定を援助するために重要である。データ・ベ
ースの1部分に現使用率のパターンが記憶される。
現在時間及び現在使用の報告情報(入力ログ・レコード
)が、サブシステム使用データ・ベース・メモリ29 
(a)(b)(c)の現事象及び傾向部分43中に読取
られる。現使用率のパターンもまた、サブシステムの使
用即ち履歴のデータ・ベース即ちログの1部分となる。
リレーショナル構成及び使用履歴を提供するために、サ
ブシステム環境のデータ・ベースにリレーショナル・ビ
ュ−47が与えられている。従って、新しい使用データ
が、常に、サブシステムの物理構成及び前の使用履歴を
考慮して傾向又はパターンについて調べられている。こ
のように、サブシステム使用とサブシステム使用におけ
る傾向及びパターンとの絶えず更新されたレコードが作
成される。
リレーショナル・ビュー47は、問題のプロシジャ29
 (e)の一部分であるルール・メモリに記憶されたル
ール45に従って作り出される。現在の使用を考慮して
サブシステム環境のデータ・ベースにおける履歴データ
のリレーショナル・ビュー47を作成するように用いら
れるリレーショナル・ビュー命令を発生するために、入
力ログ・レコードがルールに与えられる。ルールの選択
は、使用のタイプ(制御装置、経路、装置のデータ又は
装置のアクセスのような)及び物理アドレスの境界によ
って決まる。ルール・メモリに記憶されているルールは
、分析されている特定の装置における使用の履歴が調べ
られるべき方法に関してのエキスパート入力により決め
られる。従って、この情報は調べられている装置の全く
関数であり、種々の装置及びサブシステムについて異な
っている。そのルールは、ある一定のタイプの使用が生
じるときに、その使用のデータ・ベースの特定部分が多
分又は恐らくその使用に関係するように呼び出されるこ
とを、特定するであろう。
入力ログ・レコードは、サブシステムの物理構成が変更
されるときには、DASサブシステムによってもまた与
えられることがある。そのような入力ログ・レコードは
、現サブシステム構成を反映するようにサブシステム環
境のデータ・ベースを更新するために用いられる。
゛予期せぬ°°例外事象がデータ・ベースに入力される
ときには、問題記述プロシジャを呼び出したり又は呼び
出さなかったりするために決定がなされる。
第2図はまた、例外事象の報告fillちエラーの報告
に関するデータを記憶して分析することについての概念
的な構成を表わしている。そのような報告は、装置チャ
ネル又はチャネルから装置への経路のような記憶サブシ
ステムの種々の部分から受けることがあるものである。
例外及び傾向のジャーナル即ちデータ・ベース29 (
c)が作り出されて、I10装置のエラー事象ログ・メ
モリに記憶される。ログは、現例外事象及び傾向の情報
を含む部分43を有する。
新しい例外事象(現例外事象即ち現障害)の報告が入力
ログ・レコードとして受取られるときには、それは、タ
イムスタンプされて、サブシステム環境のデータ・ベー
スにおける例外ログ即ちデータ・ベースの現例外事象部
分に記録される。現例外事象の報告はまた、問題のプロ
シジャ29(e)の1部分として装置メモリ中に先に記
憶されているルール45のセットにも与えられる。これ
らのルールが、最も最近に受取った例外事象の報告書を
含む入力ログ・レコードを考慮してサブシステム環境の
データ・ベースに与えられるべきリレーショナル・ビュ
ー47を表わす命令を作成する。サブシステム環境のデ
ータ・ベースがこのリレーショナル・ビューによって読
取られるときには、現例外事象によって決められるよう
な関係のあるマシンの特定領域に関しての履歴情報が提
供される。これによって、新しい例外即ち障害又はエラ
ーがサブシステムの過去の履歴及びサブシステムの物理
構成にどのように関係しているのかを決定することがで
きる。このことは、エラー報告書中のパターン及び傾向
を考察して決定するのに重要である。このリレーショナ
ル・ビューをサブシステム環境のデータ・ベースに与え
るので、現事象に関係するデータを見出して現例外即ち
エラー事象へ与えることができる。
サブシステム環境のデータ・ベースについてのリレーシ
ョナル・ビュー47を作成するルール45は、逆方向チ
ェーン方式で現例外事象の報告書により好ましくアクセ
スされる。それで、それらのルールは、引き続きエラー
事情報告書によりアドレス指定される。このように動作
するので、知られているように、第1のルールに出会っ
てその条件が満たされると、それはリレーショナル・ビ
ュー命令となる。一方、そうでなければ、次のル−ルが
調べられる。以後同様である。考察のためのルールの順
序及びルール自体は、またサービスの警報機能が含まれ
る装置の関数であり、特定の[10装置のエラー及び例
外の特性に十分精通している者からのエキスパート知識
でもって発生される。
現エラー事象及び傾向情報は、分析警報ルール29(d
)のセットに与えられる。それらのルールは、障害の基
準を含んでいる。分析警報についてのルールの出力は、
現例外事象及び傾向の情報を問題記述のための次の段階
ヘパスするゲート49を制御する。
問題記述プロシジャを呼び出す決定は、例外タイプが“
重症”(hard fail)を示すなら明確である。
システム動作は中断され、サービス活動が恐らく必要と
なる。重大な中断を生じることのない軽症(soft 
fail)の例外タイプがより多くありそうなのである
が、それらのタイプは修復可能な障害条件のために起き
得る。
軽症の例外については、データ・ベースの挿入及び更新
のプロセスが症状及び原因によって関係付けられた軽症
事象の重大な再発列を検出するとき、問題記述プロシジ
ャを呼び出す決定がなされる。その目的とするところは
、外部のサブシステム環境によって多分性じるランダム
な非再発性例外事象に対して反応しないことである。
障害基準29(d)は、現事象及び傾向を見るためのル
ールについての逆方向にチェーンされたセットとしてセ
ット・アップされることがある。
それらのルールは次のことを提供すべきである。
即ち、重症に出会った(適切なサブシステム動作を復元
するために修復活動が必要である)とき、又は、“軽症
のパターンのしきい値を越えた”例外状態が検出された
ときには、分析警報が発生され、ゲート49は現事象及
び傾向の情報を問題記述プロシジャにパスする。分析さ
れているサブシステムのエキスパート知識が、適切な障
害基準を含むルールのセットを発生するのに必要である
一般的には、チェーンは例外の優先順位−によって順序
付けられることになる。それで、認識された最も深刻な
障害の症状が最初に目立つ(fire)。
本当に問題が存在するときよりももつと頻繁に問題記述
プロシジャを呼び出すような現例外事象及び傾向の情報
をバスするために、分析警報メツセージが発生されるよ
うに、しかも何らかの疑いが存在するときには情報をさ
らに分析することができるように、分析警報のルールは
確立されるべきである。
問題記述プロシジャ 問題記述プロシジャを実施する機構が第3図に概念的に
示されている。問題記述プロシジャは、付録2の擬似コ
ード・リスティングに述べられている。
現エラー事象レコードは、問題記述プロシジャ呼出し信
号により問題記述プロシジャヘパスされるときには、ル
ール51のセットに与えられる。
これらのルールは、問題のプロシジャ29 (e)の1
部分であり、サブシステムの障害についての例外レコー
ド0問題プロファイル・データ・ベース29 (c)の
リレーショナル・ビュー53を作成する。そのようなリ
レーショナル・ビュー53は、分析がサービスの未決定
又は完了の間に進行するものである。このリレーショナ
ル・ビューによって、次のことが保証される。即ち、選
択ルールを現エラー事象に適用するときには、考察中の
現エラー事象に関係するデータ・ベースのその部分のみ
が用いられることである。また、これによって、選択に
おける必要な計算努力が低減される。
リレーショナル・ビュー53を作成するルール51は、
特定のサブシステム及び装置に関する要因に関してエキ
スパート知識でもって発生される。
そのようなサブシステム及び装置では、どのタイプのエ
ラー事象が関係させられるかに関して、ザービス警報機
能が含まれる。
選択プロセッサ61は、次のうちの1つを選択するため
に、現例外レコードを問題プロファイル・データ・ベー
ス29 (c)のリレーショナル・ビューと比較する。
即ち、 a)新しい障害 b)反復障害 C)反復呼出し d)既知の障害(分析進行中) e)既知の障害(サービス活動保留) 現例外レコードが新しい障害を表わすなら、状況標識即
ち制御信号がラインAに設定される。作成及び更新の問
題プロファイル・プロシジャが呼び出されて、ラインA
上の信号は、新しい障害についての分析コマンドになる
分析進行中の存在している問題プロファイル・レコード
へのリンク即ち連係が見出されるなら(障害がホスト・
システムへまだ報告されていない)、制御信号即ち状況
標識がラインBに設定される。作成及び更新の問題プロ
ファイル・プロシジャが呼び出されて、ラインB上の信
号は既知の障害についての分析コマンドになる。
その比較により現例外レコードが反復障害又は反復呼出
しを表わしていることが決定されるなら、選択ルールに
よって制御信号が出力ラインAに設定され得る。反復障
害は、サービス警報メツセージがホスト・システムへ送
られたが、しかしサービス活動が開始されなかった障害
である。反復呼出しは、サービス活動は完了したがサー
ビス活動がうまくいかなかったことを示す障害である。
反復障害又は反復呼出しは、問題プロファイルのデータ
・ベース中に存在する障害のレコードを指すのであるが
、その問題プロファイルのデータは、古い履歴であり、
問題評価プロシジャによって目下用いられるべきではな
いものである。それ故に、作成及び更新の問題プロファ
イル・プロシジャは、現例外が新しい障害であるかのよ
うに新しい問題プロファイル・レコードを作成する。問
題評価プロシジャを呼出すことにより、さらに分析がな
される。
比較によって、現例外事象レコードとサービス活動が未
決定の問題プロファイル・レコードとの間にリンク即ち
連係が見出されるなら、問題プロファイル・レコード中
の再発問題カウンタは増分され、そして問題記述プロシ
ジャが終了される。
この事象においては、問題評価プロシジャは呼出されな
い。
作成及び更新の問題プロファイル・プロシジャ作成及び
更新の問題プロファイル・プロシジャが、問題記述プロ
シジャのサブルーチンとして呼び出される。そのプロシ
ジャは次のようなことをするために用いられる。即ち、
現例外レコードに適合するデータ・ベース中で何ら問題
プロファイル・レコードが見出されないときには、問題
プロファイルのデータ・ベースについて問題プロファイ
ル・レコードを作成し、現例外レコードに適合するデー
タ・ベース中に問題プロファイル・レコードが見出され
るときには、問題プロファイル・レコードを更新するた
めである。
問題プロファイル・データ・ベース29 (c)中の問
題プロファイル・レコードが共通レコード・フォーマッ
トを有すると良い。レコード中の種々のバイトによって
、次のようなことが示される。
その問題プロファイル・レコードによって表わされる障
害について分析が進行中であるかどうか、サービス活動
が未決定かどうか、サービス警報メツセージがホスト・
システムへ伝送されたかどうか、サービス活動が完了し
たかどうか、又は、サブシステムの障害の分析及び処理
に関係するその他の情報である。
作成の問題プロファイル・レコード・プロシジャは、構
成部分71(第3図参照)として示され、付録3の擬似
コード・リスティングに十分に述べられている。このプ
ロシジャによって、問題プロファイル・データ・ベース
29 (c)中の問題プロファイル・レコードが作成又
は更新される。
現例外即ち問題プロファイルのレコードが作成の問題プ
ロファイル・レコード・プロシジャに適用される。分析
進行中の既知の障害が含まれるなら、問題プロファイル
・データ・ベースからの更新された問題プロファイル・
レコード(現例外レコードを含まない)が、現問題プロ
ファイル(例外)レコードと共に更新されるように、作
成の問題プロファイル・レコード・プロシジャに適用さ
れる。現例外に関係するサブシステム環境のデータ・ベ
ース29 (a)(b)(c)のビュー66を作成する
ために、既知の障害(分析進行中)についての制御信号
によって、ルール650セツトが呼び出される。ビュー
されたデータは、現レコード及び問題プロファイル・デ
ータ・ベース29(C)からの既存の問題プロファイル
・レコードと一緒に、作成及び更新の問題プロファイル
・プロシジャ71に提供される。問題プロファイル・レ
コードが更新されると、プロセスは問題記述プロシジャ
中のその地点へ戻る。そこでは、問題評価プロシジャ(
プロファイル・レコード、再発する問題)が呼び出され
る。
現例外レコードが新しい障害についてであるなら、問題
プロファイル・レコードが作成の問題プロファイル・レ
コード・プロシジャ71と共に作成される。現例外に関
係するサブシステム環境データ・ベース29 (a)(
b)(c)のビュー66を作成するために、新しい障害
についての制御信号によってルール63のセットが呼び
出される。
ビューされたデータは、現レコードと一緒に作成及び更
新の問題プロファイル・プロシジャ71に提供される。
新しい障害については、既存の問題プロファイル・レコ
ードは何ら問題プロファイル・データ・ベース29 (
c)には存在しない。問題プロファイル・レコードが作
成されると、プロセスは問題記述プロシジャ中のその地
点へ戻る。
そこでは、問題評価プロシジャ(プロファイル・レコー
ド、新しい問題)が呼び出される。
現例外レコードが反復障害についてであるなら、問題プ
ロファイル・レコードが新しい障害に関して作成される
。その後、プロセスは問題記述プロシジャ中のその地点
へ戻る。そこでは、問題評価プロシジャ(プロファイル
・レコード、反復警報)が呼び出される。
現例外レコードが反復呼出しについてであるなら、問題
プロファイル・レコードが新しい障害に関してまた作成
される。その後、プロセスは問題記述プロシジャ中のそ
の地点へ戻る。そこでは、問題評価プロシジャ(プロフ
ァイル・レコード、反復呼出し)が呼び出される。
問題評価プロシジャ 問題評価プロシジャは、第4図に概略的に示され、また
、付録4のII(12コード・リスティングに述べられ
ている。
プロファイル・レコードの入力パラメータが評価される
べき新しい問題の情報を含んでいるときには、問題評価
プロシジャが呼び出される。評価のタスクは、問題状態
についての適切なサービス活動の要件を決めて、サービ
ス活動が問題解決のために開始されるべきかどうかを決
めることである。
問題評価プロセスはルール駆動される。それで、Ill
プロファイル・レコード内の情報によりルールの選択及
びルールの成果の両方が定められる。
ルールの実行によって生成される情報は、プロファイル
・レコードと結合されて、問題プロファイル・データ・
ベースの1部分となる。その成果がデータ・ベースのレ
コードであり、このレコードはその問題及び問題分析の
結果を記述している。
サービス活動はまだ必要でないと評価プロセスが決めた
なら、更新された問題プロファイル・レコードは問題プ
ロファイルのデータ・ベースに戻される。サービスの分
析メツセージの次の呼込みによって、問題が再び更新さ
れて再評価されることもある。さもなければ、レコード
は結局データ・ベースから除去される。
ルール73のセットが障害を分析するために導入される
。そのルール73は、作成及び更新の問題プロファイル
71(第3図参照)から受取った問題プロファイル・レ
コード(更新された)に適用される。現障害が分析進行
中の既知の障害であるなら、サービス警報メツセージが
問題プロファイル・レコード中に含まれる。そのサービ
ス警報メツセージはメツセージ・データ・スペース83
に設けられる。このスペースからそのメツセージが分w
ルール73に読取られる。ライン(A) 又は(B)上
の制御コマンドが、新しい障害(反復障害及び反復呼出
しを含む)について分析するが、又は分析進行中の既知
の障害について分析するがどうかをルール73に命令す
る。新しい障害については、そのルールがメツセージ・
データ・スペ−ス83中へ読取るべきサービス警報メツ
セージを作成する。既知の障害については、そのルール
がデータ・スペース83から読取られる既存メツセージ
を変更して、そのスペースに新しいメツセージを読み戻
す。
ルール73は、障害を分離し、障害の深刻度を決めて、
推奨サービス活動を決める。そのルールからの出力は、
報告書であり、データ・ベースの制御情報を更新する。
これらの制御情報は、サービス警報及びデータ・ベース
更新制御部分81に適用される。
サービス警報及びデータ・ベース更新制御部分81は、
障害を分析するルール73から報告書を受取ると共にサ
ービス警報メツセージを受取る。
障害分析ルール73からの出力によって、サービス警報
及びデータ・ベース更新制御部分81がサービス警報メ
ツセージ報告書をホストへ送るのかどうか、又は将来の
障害についての監視の1部をなす問題プロファイル・デ
ータ・ベース29(C)へ単にそれが戻されるかどうか
が決められる。
報告書がホストへ送られるべきなら、問題プロファイル
・データ・ベースはまたその報告書によって増補される
問題評価プロセスがサービス活動は必要であると結論づ
けるなら、適切なサービス分析テキスト・メツセージに
ついてサービス分析メツセージ・センス・データを生成
するために、プロシジャが呼び出される。サービス分析
メツセージ・センス・データが、問題プロファイル・レ
コードと結合されて、またポスト・システムに与えられ
る。
E0発明の効果 本発明によって、サービス活動の要件を決めるための外
部手動プロセスの必要が除去され、ホスト・コンピュー
タ・システムに接続されたコンピュータ周辺サブシステ
ムにおいて生じるエラー事象を自動的に検出して分析す
ることができるようになった。
付録1 問題検出プロシジャ(入力ログ・レコード)(*サービ
ス警報メツセージ生成プロセスは、経路及び装置の使用
計数値を周期的に報告するために、そして、サブシステ
ムの構成における変化及び生じる例外事象を報告するた
めに、サブシステムを必要とする。情報はログ・レコー
ドの形で報告される。どのログ・レコードも次のような
構成要素から成る。即ち、ログ・タイプ、ログ・ソース
、ログ・データ及びタイムスタンプ*)INSERT 
(入力ログ・レコード)   INTOサブシステム環
境の次レコード VALUES(ログ・タイプ、ログ・
ソース、ログ・データ、タイムスタンプ) 現しコード:=次レコード 次しコード:=次レコード+1 CASE  装置使用報告書の現レコードのログ・タイ
プ UPDARP  ログ・ソース(使用統計)(*次のこ
とについての現使用率値及び項使用率値を更新するため
に、現レコード及びログ・ソースの前レコードを用いる
。即ち、経路アクセス、移動(motion) シーク
、データ書込み及びデータ読取りである。*) 変化したサブシステム構成 U P D A ’I’ E  ログ・ソース(重要構
成データ) (*構成がどのように変化したかを決めるために現レコ
ードを用いる。変化の有効性を調べる。
そして、適切な構成データ・レコードを更新する。
*) 例外事象(タイプ=゛軽症”) SELECT  タイムスタンプ、例外症状、症状ドメ
イン、障害パターン FROM  サブシステム環境 W HE RE  例外データ関係ルール(RULE)
が次のことから決められる。即ち、現レコード(ログ・
データの症状*ログ・ソースの境界)である。
UPDATE  現レコード(障害パターン)(*デー
タ・ベース・リレーショナル・ビューから導出された障
害パターンの記述を含むように現レコードが更新される
。障害パターンは、次のことによって特徴付けられる。
即ち、症状プロファイル、障害発生事象、障害期間であ
る。*)IF  障害パターン〉症状(しきい値基準)
THEN  GOTO問題記述プロシジャ(付録2参照
) 例外事象(クイズ=“重症゛) GOTO問題記述プロシジャ(付録2参照)END (
場合により) END、(問題検出プロシジャ) 付録2 問題記述プロシジャ(現レコード) (*このプロシジャは、同じ問題についての前発生セグ
メントのために既に発生されたプロファイル・レコード
に現レコードを連係しようと試みる。連係がうまくいく
なら、そしてプロファイル・レコードの状況(,5ta
tus)によって、プロファイルは、サブシステム環境
からの新しい情報を反映するように更新される。さもな
ければ、新しいプロファイル・レコードが発生される。
*)SELECT  プロファイル・レコード(*I 
D、 *、 Status) FROM  問題プロファイル WHERE  プロファイル・レコード関係ルール(R
ULE)が次のことから決められる。即ち、現レコード
(ログ・データの症状*ログ・ソースの境界)である。
CASE  結果の選択 OF 空集合(*何ら履歴連係が見つからない*)プロファイ
ル作成(現レコード)(付録3参照) (*プロシジャは、サブシステム環境の現レコード・リ
レーショナル・ビューを作成する。新しいプロファイル
・レコードについてのパターンがそのビュー内の情報か
ら構成される。*)GOTO問題評価プロシジャ(プロ
ファイル・レコード、新しい問題) 連係が見つかる(*、 5tatus=システムに報告
されない)(分析進行中) プロファイル更新(現レコード、プロファイル・レコー
ド)(付録3参照) (*プロシジャは、新しい(*、ID以後)サブシステ
ム環境のデータ・ベース・エントリの現レコード・リレ
ーショナル・ビューを作成スる。
プロファイル・レコードのパターンがそのビュー内の情
報から更新される。*) GOTO問題評価プロシジャ(プロファイル・レコード
、再発する問題) 連係が見つかる(*、5tatus=サービス活動未決
定) プロファイル・レコードの再発問題係数:=*。
*+1 (*反復例外事象の計数を維持する*)連係が見つかる
(k、 5Latus=サービス応答なし)(反復障害
) プロファイル更新(現レコード、プロファイル・レコー
ド)(付録3参照) (*サービス警報メツセージを更新してシステムへ再び
報告する*) GOTO問題評価プロシジャ(プロファイル・レコード
、反復警報) 連係が見つかる( * 、 5tatus =サービス
活動完了)(反復呼出し) プロファイル作成(現レコード)(付録3参照) (*サービス活動はうまくいかなかった。サーポート教
育を受けたCEのサービス活動のために新しいサービス
警報メツセージを作成する。*)GOTO問題評価プロ
シジャ(プロファイル・レコード、反復呼出し) END END、(問題記述プロシジャ) 付録3 プロファイル作成プロシジャ(現レコード)INITI
ALIZE  プロファイル・レコード(タイムスタン
プ−空) (*新しいプロファイル・レコードを作成する準備をす
る。*) PROCEDtJRE  プロファイル更新(現レコー
ド、フロファイル・レコード) (*このプロシジャは、サブシステム環境の現レコード
・リレーショナル・ビューを表わすプロファイル・レコ
ードを作成即ち更新する。*)SELECT  SCU
構成、ストリング構成、装置構成 FROM  サブシステム環境(タイムスタンプ〉プロ
ファイル・レコードのタイムスタンプ)W HE RE
  構成データ関係ルール(RULE)が次のことから
決められる。即ち、現レコード(ログ・データの症状*
ログ・ソースの境界)である。
PROF I LE (*“°関係する″サブシステム
境界内における導入された動作可能(隔離されていない
)であるサブシステム・チャネル、SP制御装置、スト
リング経路制御装置、スピンドル、装置及びモデル/a
構の特性*) SELECT  SP使用、ストリング使用、経路使用
、スピンドル使用、装置使用 FROM  サブシステム環境(タイムスタンプ〉プロ
ファイル・レコードのタイムスタンプ)WHERE  
使用統計関係ルール(RULE)が次のことから決めら
れる。即ち、現レコード(ログ・データの症状*ログ・
ソースの境界)PROF I LE (*“関係する”
サブシステム境界内における導入された動作可能である
サブシステム構成部分についての使用パターン*)SE
LECT  ERP活動、ERP資源、ERP結果 FROM  サブシステム環境(タイムスタンプ〉プロ
ファイル・レコードのタイムスタンプ)WHERE  
ERPデータ関係ルール(RULE)が次のことから決
められる。即ち、現レコード(ログ・データの症状*ロ
グ・ソースの境界)PROF ILE (* ’“関係
する”例外のために呼び出された例外回復活動の結果、
及び゛関係する°′サブシステム境界内における使用し
ている構成部分水) SELECT  コマンド例外、例外症状、重症状パラ
メータ、症状ドメイン、電力状況FROM  サブシス
テム環境(タイムスタンプ〉プロファイル・レコードの
タイムスタンプ)WHERE  例外データ関係ルール
(RULE)が次のことから決められる。即ち、現レコ
ード(ログ・データの症状*ログ・ソースの境界)PR
OF ILE (* ”関係する”例外について検出さ
れたシンドローム・パターン及び“関係するパサブシス
テム境界内における使用している構成部分、プロファイ
ル・パターンは考えられる障害モード及び考えられる障
害境界にクロス・ポイント・アイソレーションを提供す
る。*)プロファイル・レコードのタイムスタンプ:=
現在時間 END (作成及び更新プロシジャのプロファイル)(
問題記述プロシジャへ戻る) 付録4 問題評価プロシジャ(プロファイル・レコード、状況) (*このプロシジャは、検出された問題についてのサー
ビス要件を生成するためにプロファイル・レコード中の
情報を処理する。その後、サービス警報メツセージ・セ
ンス・データが発生され、検出され、評価された問題が
サービス・アテンションを必要とすることをサービス要
件が示しているなら、ホストへ報告される。このプロシ
ジャによって生成された問題評価情報は、プロファイル
・レコードと結合されて問題プロファイル・データ・ベ
ース中に記憶される。*) LOAD  プロファイル・レコードの例外クラスのグ
ループについてのルール(RULE)のセット (*例外クラスのグループは欠陥DAS機能を識別する
。ルールのセットが、サービス活動の要件を決めるため
に実行される。*) EXECUTE  ルール・セット障害分離PROF 
I LE  分離状況 I NTOプロファイル・レコ
ードのサービス要件 分離確実性=SET  OF  1..10CE診断手
順=SET  OF  1.、n1次 FRU=なし 
)SET  OF  1.。
2次 FRU=なし )SET  OF  1.。
媒体欠陥位置=なし 〕媒体アドレス(境界パラメータ
) 媒体保守手順=なし )SET  OF  1.。
(*ルール・セットは、最も重要な記録された障害シン
ドローム・パターンを選択するためにプロファイル・レ
コードのデータを処理する0例えば、電力障害シンドロ
ームの証拠はミまた再記録されることもあるどのような
論理障害シンドロームに優先する。又は論理即ちアナロ
グ障害シンドロームの証拠は、また再記録されることも
あるデータ障害シンドロームに優先する。
最小分離状況は、分離確実性=1であり、またCE診断
手順への参照を表わす。
最大分離状況は、分離確実性=10であり、また単一の
1次FRU又は媒体欠陥位置への参照を表わす。*) EXECUTE  ルール・セットの障害深刻度PRO
F I LE  深刻度状況 INTOプロファイル・
レコードのサービス要件 不変性=SET  OF (重症、軽症)持続性=SE
T  OF (事象、バースト、再発性、間欠性) 中断=SET  OF (なし、支援、チャネル、経路
、装置、データ) 有効範囲=SET  OF  O,、n(*ルール・セ
ットは、障害分離により決められた障害シンドロームに
ついての深刻度状況を決めるために、プロファイル・レ
コードのデータを処理する。
深刻度状況がプロファイル・レコードに付加される*。
) EXECUTE  ルール(RULE)  ・セットの
サービス活動 PROFILE  サービス状況 INTOプロファイ
ル・レコードのサービス要件 サービス状況=SET  OF (考えられる障害、修
復可能障害) (*二のルール・セットは、このプロファイル・レコー
ドについての活動方針を決めるように、分離状況及び深
刻度状況と一緒に、プロシジャの入力パラメータ(新し
い問題、再発する問題、反復警報、反復呼出し)を処理
する。*)CASE  サービス状況 OF 考えられ
る障害 UPDATE  プロファイル・レコード(問題状況ニ
ー分析進行中) (*現しコードについてのサービス警報メツセージ処理
は、プロファイル・レコードを問題プロファイル・デー
タ・ベースへ戻すことにより終了させられる。問題が再
発するなら、更新及び再評価の再帰的処理が再び呼び出
される。問題が特定期間の間に再発しないなら、プロフ
ァイル・レコードが問題プロファイル・データ・ベース
から除去される。*) 修復可能障害 UPDATE  プロファイル・レコード(問題状況:
=問題が報告される) サービス警報メツセージ(プロファイル・レコードのサ
ービス要件)を生成する。
JOIN  サービス警報メツセージ・センス・データ
 I NTOプロファイル・レコードのサービス警報メ
ツセージ サービス警報メツセージ(プロファイル・レコードのサ
ービス警報メツセージ)をホストへ報告する。
(*現しコードについてのサービス警報メツセージ処理
は、プロファイル・レコード中の情報からサービス警報
メツセージ・センス・データ・レコードを生成すること
により終了させられる。サービス警報メツセージ・セン
ス・データは、マシンのサービス・プロセスを開始する
ようにホスト・システムへ送られる。サービス活動が開
始されるまで、又は特定のレボ−ティング・ウィンドウ
が終了してしまうまで、レボ−ティング・プロセスが所
定間隔で繰返される。*) ND END、(問題評価プロシジャ)
【図面の簡単な説明】
第1図は、本発明のサービス警報機能を含む■10装置
のブロック図、第2図は、サブシステム環境のデータ・
ベースの発生及び問題検出プロシジャの適用を概念的に
示す構成図、第3図は、問題記述プロシジャの適用を概
念的に示す構成図、第4図は、問題評価プロシジャの適
用を概念的に示す構成図、そして、第5図は、エラー回
復機構を有するI10装置のブロック図である。 出願人 インターナショナル・ビジネス・マシーンズ・
コーポレーション 代理人 弁理士 頓  宮  孝 (外1名) 第1廊

Claims (3)

    【特許請求の範囲】
  1. (1)ホスト・コンピュータ・システムに接続されたコ
    ンピュータ周辺サブシステムにおいて生じる例外事象を
    自動的に検出して分析する方法であつて、 前記コンピュータ周辺サブシステムの現構成に関する情
    報と前記周辺サブシステムに関する使用及びエラーの情
    報とを含むサブシステム環境データ・ベースを維持する
    ステップと、 前記周辺サブシステムへのサービスについてのアテンシ
    ョンが明らかに必要であるか又は必要とされそうである
    かのいずれかを示す例外事象を、前記サブシステム環境
    のデータ・ベースにおけるデータが反映するときには、
    問題記述プロシジヤを条件付きで呼び出すステップを含
    み、 前記問題記述プロシジヤが、 記憶されたルールから前記例外事象に関する前記サブシ
    ステム環境データ・ベースのビューを作成し、 前記例外事象を記述する現問題プロファイル・レコード
    を作り出し、 先に生じている例外事象の問題プロファイル・レコード
    を含む問題プロファイル・データ・ベース中に既に存在
    している問題プロファイル・レコードに前記現問題プロ
    ファイル・レコードを関係付けるために、前記問題プロ
    ファイル・データ・ベースを走査し、 前記現問題プロファイル・レコードが前記問題プロファ
    イル・データ・ベースに存在している問題プロファイル
    ・レコードに通合し、かつカバーされる問題についてサ
    ービス活動が未決定であることを前記存在している問題
    プロファイル・レコードが示す場合は、前記存在してい
    る問題プロファイル・レコードを更新し、 前記現問題プロファイル・レコードが前記問題プロファ
    イル・データ・ベースに存在している問題プロファイル
    ・レコードに適合し、かつカバーされる問題についてサ
    ービス活動が未決定でないことを前記存在している問題
    プロファイル・レコードが示す場合は、前記存在してい
    る問題プロファイル・レコードを更新して問題評価プロ
    シジヤを呼び出し、 前記現問題プロファイル・レコードが前記問題プロファ
    イル・データ・ベースに存在している問題プロファイル
    ・レコードに適合しない場合は、前記現問題プロファイ
    ル・レコードを前記問題プロファイル・データ・ベース
    に付加することを含み、 前記問題評価プロシジヤが、 許容サブシステム性能に関係する記憶されたルールを考
    慮して前記現問題プロファイル・レコードを調べ、 前記周辺サブシステムの動作が中断されるか又は許容サ
    ブシステム性能の限界を下まわる程低下した場合は、サ
    ービス警報メッセージを発生して、前記サービス警報メ
    ッセージを前記問題プロファイル・レコード中に挿入し
    、前記問題プロファイル・データ・ベースに存在してい
    る前記問題プロファイル・レコードを更新し、前記サー
    ビス警報メッセージを前記ホスト・システムに送ること
    を含む、 コンピユータ周辺サブシステムの例外事象自動検出分析
    方法。
  2. (2)ホスト・コンピュータ・システムに接続されるコ
    ンピュータ周辺サブシステムであつて、前記ホスト・コ
    ンピユータ・システムから動作コマンド及びデータを受
    取るように接続された入出力装置と、 入出力装置の動作における例外事象を検出してそのよう
    なエラー事象の回復を試みるエラー検出回復手段と、 コンピュータ周辺サブシステムに関するサブシステム環
    境データ・ベースを維持するメモリであつて、前記コン
    ピュータ周辺サブシステムの物理的構成についてのデー
    タ、サブシステム使用のログ、例外事象のログ、障害の
    基準及び問題のプロシジヤを含む前記メモリと、 前記入出力装置及び前記エラー検出回復手段により発生
    された使用及び例外事象の情報に応答して、サブシステ
    ム使用のログ及び例外事象のログを更新する手段と、 前記サブシステム使用のログ及び前記例外事象のログに
    受取られるデータを前記記憶された障害の基準に対して
    テストする手段と、 サブシステムの物理的構成、サブシステム使用のログ及
    び現障害のタイプについての例外事象のログを特徴付け
    る手段と、 サービス活動が必要かどうかを決めるためにデータを問
    題のプロシジヤで分析する手段と、を備えたコンピュー
    タ周辺サブシステム。
  3. (3)ホスト・コンピュータ・システムから動作コマン
    ド及びデータを受取るように接続された入出力装置と、
    入出力装置の動作におけるエラー事象を検出してそのよ
    うな例外事象の回復を試みるエラー検出回復手段とを有
    するコンピュータ周辺サブシステムにおいて生じる例外
    事象を自動的に検出して分析する方法であつて、 前記コンピュータ周辺サブシステムの物理的構成につい
    てのデータ、サブシステム使用のログ、例外事象のログ
    、障害の基準及び問題のプロシジヤを含む、前記コンピ
    ュータ周辺サブシステムに関するサブシステム環境デー
    タ・ベースをメモリに記憶し、 前記入出力装置及び前記エラー検出回復手段により発生
    された使用及び例外事象の情報に応答して、サブシステ
    ム使用のログ及び例外事象のログを更新し、 現例外事象が検出されたときに、前記サブシステム使用
    のログ及び前記例外事象のログに受取られるデータを前
    記記憶された障害の基準に対してテストし、 サブシステムの物理的構成、サブシステム使用のログ及
    び前記現例外事象についての例外事象のログを特徴付け
    、 サービス活動が必要かどうかを決めるために特徴付けら
    れたデータを前記問題のプロシジヤで分析する、 ことを含む、コンピュータ周辺サブシステムの例外事象
    自動検出分析方法。
JP89218778A 1988-08-31 1989-08-28 コンピユータ周辺サブシステム及びその例外事象自動検出分析方法 Withdrawn JPH02105947A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/239,154 US4922491A (en) 1988-08-31 1988-08-31 Input/output device service alert function
US239154 1988-09-01

Publications (1)

Publication Number Publication Date
JPH02105947A true JPH02105947A (ja) 1990-04-18

Family

ID=22900845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP89218778A Withdrawn JPH02105947A (ja) 1988-08-31 1989-08-28 コンピユータ周辺サブシステム及びその例外事象自動検出分析方法

Country Status (5)

Country Link
US (1) US4922491A (ja)
EP (1) EP0357573B1 (ja)
JP (1) JPH02105947A (ja)
BR (1) BR8904416A (ja)
DE (1) DE68924226T2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7171337B2 (en) * 2005-06-21 2007-01-30 Microsoft Corpoartion Event-based automated diagnosis of known problems
US7353140B2 (en) * 2001-11-14 2008-04-01 Electric Power Research Institute, Inc. Methods for monitoring and controlling boiler flames

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1318030C (en) * 1988-03-30 1993-05-18 Herman Polich Expert system for identifying failure points in a digital data processing system
US5090014A (en) * 1988-03-30 1992-02-18 Digital Equipment Corporation Identifying likely failure points in a digital data processing system
US5047977A (en) * 1988-04-08 1991-09-10 International Business Machines Corporation Methods of generating and retrieving error and task message records within a multitasking computer system
US5067107A (en) * 1988-08-05 1991-11-19 Hewlett-Packard Company Continuous computer performance measurement tool that reduces operating system produced performance data for logging into global, process, and workload files
US5063535A (en) * 1988-11-16 1991-11-05 Xerox Corporation Programming conflict identification system for reproduction machines
JP2714091B2 (ja) * 1989-01-09 1998-02-16 株式会社日立製作所 フィールド計器
EP0389729A1 (en) * 1989-03-28 1990-10-03 International Business Machines Corporation Data transmission system with a link problem determination aid (LPDA) support for all ports
US5023873A (en) * 1989-06-15 1991-06-11 International Business Machines Corporation Method and apparatus for communication link management
US5138617A (en) * 1990-02-21 1992-08-11 Honeywell Bull Inc. Method for masking false bound faults in a central processing unit
US5159597A (en) * 1990-05-21 1992-10-27 International Business Machines Corporation Generic error recovery
JPH0695324B2 (ja) * 1990-08-17 1994-11-24 インターナショナル・ビジネス・マシーンズ・コーポレイション コンピュータ・システム用の柔軟なサービス・ネットワーク
US5175679A (en) * 1990-09-28 1992-12-29 Xerox Corporation Control for electronic image processing systems
US5170340A (en) * 1990-09-28 1992-12-08 Xerox Corporation System state controller for electronic image processing systems
US5528759A (en) * 1990-10-31 1996-06-18 International Business Machines Corporation Method and apparatus for correlating network management report messages
JPH04245751A (ja) * 1991-01-31 1992-09-02 Nec Corp イベント処理分散型網監視システム
US5127012A (en) * 1991-02-19 1992-06-30 Eastman Kodak Company Diagnostic and administrative device for document production apparatus
US5307484A (en) * 1991-03-06 1994-04-26 Chrysler Corporation Relational data base repository system for managing functional and physical data structures of nodes and links of multiple computer networks
CA2075774C (en) * 1991-08-27 2000-10-17 Jeff D. Pipkins Bidirectional parallel protocol
JPH05158876A (ja) * 1991-12-06 1993-06-25 Hitachi Ltd 評価データ蓄積・収集および出力システム
US5680541A (en) * 1991-12-16 1997-10-21 Fuji Xerox Co., Ltd. Diagnosing method and apparatus
US5388218A (en) * 1992-02-14 1995-02-07 Advanced Micro Devices, Inc. Apparatus and method for supporting a transfer trapping discipline for a non-enabled peripheral unit within a computing system
US5471631A (en) * 1992-10-19 1995-11-28 International Business Machines Corporation Using time stamps to correlate data processing event times in connected data processing units
US5729397A (en) * 1992-12-31 1998-03-17 International Business Machines Corporation System and method for recording direct access storage device operating statistics
ES2106254T3 (es) * 1993-11-18 1997-11-01 Siemens Ag Procedimiento de diseño asistido por ordenador para un sistema de automatizacion programable.
JP3675851B2 (ja) * 1994-03-15 2005-07-27 富士通株式会社 計算機監視方式
US5553237A (en) * 1994-12-13 1996-09-03 Base Ten Systems, Inc. Safety critical monitoring of microprocessor controlled embedded systems
JPH08249133A (ja) * 1994-12-15 1996-09-27 Internatl Business Mach Corp <Ibm> ディスク・ドライブ・アレイの故障対策の方法及びシステム
US5530705A (en) * 1995-02-08 1996-06-25 International Business Machines Corporation Soft error recovery system and method
US5852746A (en) * 1995-06-26 1998-12-22 Canon Kabushiki Kaisha System for transmitting a message using status button to system administrator by using a signal comprising predetermined number of changes effected over a period
US5913036A (en) * 1996-06-28 1999-06-15 Mci Communications Corporation Raw performance monitoring correlated problem alert signals
US5778184A (en) * 1996-06-28 1998-07-07 Mci Communications Corporation System method and computer program product for processing faults in a hierarchial network
US5872912A (en) * 1996-06-28 1999-02-16 Mciworldcom, Inc. Enhanced problem alert signals
US6009246A (en) * 1997-01-13 1999-12-28 International Business Machines Corporation Method and system for evaluating intrusive repair for plurality of devices
GB2368689B (en) * 2000-06-28 2004-12-01 Ibm Performance profiling in a data processing system
JP2003114811A (ja) * 2001-10-05 2003-04-18 Nec Corp 自動障害復旧方法及びシステム並びに装置とプログラム
US7742999B2 (en) * 2001-10-25 2010-06-22 Aol Inc. Help center and print center applications
US7290247B2 (en) 2001-10-25 2007-10-30 Aol, Llc, A Delaware Limited Liability Company Help center and filtering applications
US7350146B2 (en) * 2001-10-25 2008-03-25 Aol Llc, A Delaware Limited Liability Company Help center and condition-based applications
US20030182600A1 (en) * 2001-12-31 2003-09-25 Globespanvirata Incorporated System and method for analyzing buffer usage
US7093284B2 (en) 2002-02-12 2006-08-15 International Business Machines Corporation Method, system, and storage medium for preventing recurrence of a system outage in a computer network
US7346630B2 (en) 2003-06-13 2008-03-18 Yahoo! Inc. Method and system for delivery alerts to a user
US7360114B2 (en) * 2003-06-17 2008-04-15 International Business Machines Corporation Logging of exception data
US7328376B2 (en) * 2003-10-31 2008-02-05 Sun Microsystems, Inc. Error reporting to diagnostic engines based on their diagnostic capabilities
US8407686B2 (en) 2007-09-07 2013-03-26 Ebay Inc. Method and system for problem notification and processing
US7814372B2 (en) * 2007-09-07 2010-10-12 Ebay Inc. Method and system for exception detecting and alerting
US7958387B2 (en) * 2008-05-30 2011-06-07 Spirent Communications, Inc. Realtime test result promulgation from network component test device
US20090300291A1 (en) * 2008-06-03 2009-12-03 Gerald Keith Bartley Implementing Cache Coherency and Reduced Latency Using Multiple Controllers for Memory System
US20090300411A1 (en) * 2008-06-03 2009-12-03 Gerald Keith Bartley Implementing Redundant Memory Access Using Multiple Controllers for Memory System
US8090997B2 (en) * 2008-06-20 2012-01-03 International Business Machines Corporation Run-time fault resolution from development-time fault and fault resolution path identification
US8595553B2 (en) * 2010-06-03 2013-11-26 Siemens Aktiengesellschaft Error pattern identification in an installed base of systems
US8719626B2 (en) * 2011-09-28 2014-05-06 International Business Machines Corporation Proactively removing channel paths in error from a variable scope of I/O devices
CN105306272B (zh) * 2015-11-10 2019-01-25 中国建设银行股份有限公司 信息系统故障场景信息收集方法及系统
CN106469098A (zh) * 2016-09-19 2017-03-01 广州日滨科技发展有限公司 一种设备的故障处理方法和装置
US11182399B2 (en) 2018-09-04 2021-11-23 Spirent Communications, Inc. Effective correlation of multiple time-series result sets
CN110162420B (zh) * 2019-04-26 2022-10-11 平安科技(深圳)有限公司 数据辅助定位方法、装置、计算机设备及存储介质
EP4319086A1 (en) * 2022-08-05 2024-02-07 Nokia Technologies Oy Communication network
CN115757457A (zh) * 2022-12-09 2023-03-07 广州富莱星科技有限公司 一种数据比对方法、系统、设备及可存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60204050A (ja) * 1984-03-27 1985-10-15 Fujitsu Ltd 入出力装置のエラ−回復方式
JPS62212843A (ja) * 1986-03-14 1987-09-18 Fujitsu Ltd エラ−・リカバリ処理方式
JPS63244143A (ja) * 1987-03-30 1988-10-11 Nec Corp 情報処理方式

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3704363A (en) * 1971-06-09 1972-11-28 Ibm Statistical and environmental data logging system for data processing storage subsystem
GB1442665A (en) * 1972-12-14 1976-07-14 Siemens Ag Data processing systems
US3873819A (en) * 1973-12-10 1975-03-25 Honeywell Inf Systems Apparatus and method for fault-condition signal processing
JPS58136473A (ja) * 1982-02-08 1983-08-13 Hitachi Ltd プリント装置
DE3272316D1 (en) * 1982-08-30 1986-09-04 Ibm Device to signal to the central control unit of a data processing equipment the errors occurring in the adapters
US4745602A (en) * 1985-09-20 1988-05-17 Minolta Camera Company, Ltd. Printer error and control system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60204050A (ja) * 1984-03-27 1985-10-15 Fujitsu Ltd 入出力装置のエラ−回復方式
JPS62212843A (ja) * 1986-03-14 1987-09-18 Fujitsu Ltd エラ−・リカバリ処理方式
JPS63244143A (ja) * 1987-03-30 1988-10-11 Nec Corp 情報処理方式

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7353140B2 (en) * 2001-11-14 2008-04-01 Electric Power Research Institute, Inc. Methods for monitoring and controlling boiler flames
US7171337B2 (en) * 2005-06-21 2007-01-30 Microsoft Corpoartion Event-based automated diagnosis of known problems
US7337092B2 (en) 2005-06-21 2008-02-26 Microsoft Corporation Event-based automated diagnosis of known problems

Also Published As

Publication number Publication date
EP0357573A2 (en) 1990-03-07
BR8904416A (pt) 1990-04-17
EP0357573A3 (en) 1991-07-24
DE68924226T2 (de) 1996-05-02
US4922491A (en) 1990-05-01
DE68924226D1 (de) 1995-10-19
EP0357573B1 (en) 1995-09-13

Similar Documents

Publication Publication Date Title
JPH02105947A (ja) コンピユータ周辺サブシステム及びその例外事象自動検出分析方法
US5394543A (en) Knowledge based machine initiated maintenance system
US6598179B1 (en) Table-based error log analysis
US5539877A (en) Problem determination method for local area network systems
US5253184A (en) Failure and performance tracking system
US5404503A (en) Hierarchical distributed knowledge based machine inititated maintenance system
US5293556A (en) Knowledge based field replaceable unit management
US7401263B2 (en) System and method for early detection of system component failure
EP0482526A2 (en) Optimization method for adaptive sensor reading scheduling and delayed alarm evaluation in real-time diagnostic systems
US20040167793A1 (en) Network monitoring method for information system, operational risk evaluation method, service business performing method, and insurance business managing method
EP0401816A2 (en) Plant operation supporting method
US20130226526A1 (en) Automated Performance Data Management and Collection
CN113836044A (zh) 一种软件故障采集和分析的方法及系统
JPH09205429A (ja) ネットワーク故障診断装置及び故障予測装置並びにその診断及び予測方法
AU674231B2 (en) Fault-tolerant computer systems
CN111209129A (zh) 基于amd平台的内存优化方法和装置
JP2006331026A (ja) メッセージ分析システム及びメッセージ分析プログラム
EP1214655A1 (en) A method and system for handling errors in a distributed computer system
US10735246B2 (en) Monitoring an object to prevent an occurrence of an issue
KR100506248B1 (ko) 사설 교환시스템에서 링크를 진단하는 방법
JPH04213123A (ja) 電子計算機の故障予防保全方式
KR100856254B1 (ko) 관리 지능 플랫폼에서의 이벤트 추론 방법
JPH06265445A (ja) 監視装置
JPH05274093A (ja) ボリューム障害防止制御方式
JPH06244935A (ja) 電子交換機構成装置の故障診断システム

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees