JP2804125B2 - 情報処理システムの障害監視装置と制御方法 - Google Patents

情報処理システムの障害監視装置と制御方法

Info

Publication number
JP2804125B2
JP2804125B2 JP1288917A JP28891789A JP2804125B2 JP 2804125 B2 JP2804125 B2 JP 2804125B2 JP 1288917 A JP1288917 A JP 1288917A JP 28891789 A JP28891789 A JP 28891789A JP 2804125 B2 JP2804125 B2 JP 2804125B2
Authority
JP
Japan
Prior art keywords
failure
information processing
information
monitoring
processing system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1288917A
Other languages
English (en)
Other versions
JPH03150643A (ja
Inventor
敏夫 廣澤
潤一 栗原
伊九夫 木村
秀企 難波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Electronics Services Co Ltd
Original Assignee
Hitachi Ltd
Hitachi Electronics Services Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Electronics Services Co Ltd filed Critical Hitachi Ltd
Priority to JP1288917A priority Critical patent/JP2804125B2/ja
Priority to US07/613,384 priority patent/US5237677A/en
Publication of JPH03150643A publication Critical patent/JPH03150643A/ja
Application granted granted Critical
Publication of JP2804125B2 publication Critical patent/JP2804125B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2294Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by remote test
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/273Tester hardware, i.e. output processing circuits
    • G06F11/2736Tester hardware, i.e. output processing circuits using a dedicated service processor for test
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、情報処理システムの障害監視装置とその制
御方法に係り、特に、遠隔地から障害発生時の該情報処
理システムの初期診断を行なうときに、好適な制御方式
に関する。
〔従来の技術〕
情報処理システム、すなわち電子計算機システムの応
用範囲の拡大にともない、システムの構成も大規模、複
雑化の一途をたどりつつある。これに伴い、情報処理シ
ステムの信頼性向上、耐障害性の向上、さらに障害発生
後の早期の復旧、等がより重要になりつつある。
近年の情報処理システムにおいては、情報処理システ
ム本体に保守制御用の制御装置を付加し、情報処理シス
テムの保守、診断を司る構成が一般的になりつつある。
この種の制御装置は、サービス・プロセツサ(Service
Processor:SVP)と呼ばれており、米国特許第4,204,249
号公報に開示されている。また、特開昭58−56158号公
報では、遠隔地の保守センタの計算機システムから複数
のユーザ計算機システムを保守・診断する制御方式を開
示している。さらに、特開昭61−148542号公報では、SV
Pの画面を遠隔地からも操作出来るための制御方式が開
示されている。
米国特許第4,204,249号公報に開示された技術は、複
数の処理装置群に対して、電源のオン/オフの制御やマ
イクロ・プログラムのローデイング制御をSVPが担当す
ることにより、集中管理を可能としている。特に、該制
御装置から各処理装置群へ専用の信号線を直接に布線す
ることにより、従来の並列布線方式に比べて再布線を必
要としない。
特開昭58−56158号公報で開示された技術は、保守セ
ンタの計算機システムが常時、複数のユーザ計算機シス
テムを順に診断し、事前に障害の発生を検知しょうとす
るものである。また、特開昭61−148542号公報では、SV
Pの画面を遠隔地からも操作出来るようにするときに、S
VP側の画面制御プログラムと遠隔地の保守側の画面制御
プログラムの構造、および処理手順を同じようにするこ
とを目的として、SVP側にデータ・バツフアを設け、こ
のデータ・バツフアの内容を転送する方式を開示してい
る。
〔発明が解決しようとする課題〕
ところで、情報処理システムの24時間運転サービスや
応用範囲の拡大に伴い、情報処理システムの信頼性の向
上や耐障害性の向上のための各種技術開発とともに、障
害発生後の早期復旧のための制御手段も重要になる。早
期復旧のためには、システムの保守員がユーザ計算機シ
ステムのサイトに常駐すれば良い訳であるが、24時間運
転サービスの普及とともに、無人運転が一般的になりつ
つあり、システムの保守員も保守センタに待機し、複数
のユーザ計算機システムの障害監視と保守を行なえるこ
とが必要である。その時の課題は、遠隔地からユーザ計
算機システムの障害発生を検知出来る機能を充実するこ
とであり、かつ早期復旧の制御手段を提供することであ
る。
この観点でみると、従来技術に関して、米国特許第4,
204,249号公報記載の技術は、計算機システムの構成が
複雑になるにともない、電力供給装置の任意の変更や布
線の変更を容易にするものであり、具体的には、SVPに
て電源のオン/オフ、および電圧調整を可能としてい
る。しかし、遠隔地からの障害監視や保守方法について
は開示していない。また、情報処理システムの処理装置
群に対しては、現地のSVPにて操作するという制約があ
る。
特開昭58−56158号公報記載の技術は、保守センタの
計算機システムから現地のユーザ計算機システム(被診
断処理装置)のSVPと交信させ、ユーザ計算機システム
の状態を巡回して監視しようとするものである。したが
つて、巡回してユーザ計算機システムの状態を監視する
ことにより、保守センタの計算機システムの稼働状況を
向上させること、および監視手順のカタログ化により、
診断の自動化が行なえる効果を狙つている。しかし、障
害検出の手段、ロギング情報の具体的項目、さらに、障
害判定の基準、などが具体的に開示されていない。
一方、特開昭61−148542号公報記載の技術は、現地の
計算機システムのSVP画面と同じ画面を遠隔地の表示装
置に表示するために、現地の計算機システムのSVP内に
データ・バツフアを設け、このデータ・バツフアの内容
が現地の計算機システムのSVP画面や遠隔地の表示装置
に表示させるようにして処理プログラムの論理構造を簡
略化している。これにより、遠隔地の保守センタの表示
装置からも現地の計算機システムのSVPを操作できるよ
うにしている。ところで、SVPは保守操作を支援するも
のであり、ハードウエア障害の検知は可能であるが、ソ
フトウエア、すなわちオペレーテイング・システム(Op
erating System:OS)の誤動作等の検知は一般的に無理
がある。また、通常、OSの動作中はOS用のコンソール・
メツセージ等の監視が障害検出手段の主力をなすもので
ある。この観点でみると、上記の特開昭61−148542号公
報記載の技術では、遠隔地と現地のSVP画面の切り換え
の契機、さらに、コンソール・メツセージの検出手段、
障害発生時の通報の方法やSVP画面からの障害情報の収
集項目、収集方法については言及されていない。
ユーザ計算機システムの障害の検出、および障害発生
後の早期復旧を遠隔地の保守センタ等で実現するために
は、OSの振舞いの経過を遠隔地にて即時に収集出来る機
構の実現方法が課題として残されている。通常、OSの振
舞いの経過は、OSコンソール上に出力されたメツセージ
を追跡すれば可能であるが、コンソール・メツセージを
出力するハードコピー装置は現地のユーザ計算機システ
ムの近くに存在するか、あるいは近くに存在していても
無人運転を行なつているために該ハードコピー装置の電
源をオフ状態としている場合が多い。これは用紙切れの
状態や用紙の巻き込み状態の発生を回避するためであ
る。
また、障害発生時に、遠隔地より、主記憶装置内の特
定の領域をも参照できなければならない。これらはOSの
管理情報が格納されている領域やハードウエアの使用し
ている領域が対象となる。
当然のことながら、無人運転を行なつている場合に
は、ユーザ計算機システム側には、運転オペレータや保
守要員は存在しない。したがつて、障害発生を検知する
制御手段の提供が望まれる。また、遠隔地にて、障害の
発生を認識したならば、保守要員が現地に到着するまで
に障害発生要因の初期解析がなされなければならない。
これらの制御手段を提供することが、計算機システムの
障害発生後の早期回復に寄与するものである。
したがつて、本発明の目的は、情報処理システム、す
なわち計算機システムの障害監視と回復を遠隔地から可
能とする制御装置と制御手段を提供することにある。
本発明の他の目的は、遠隔地にて情報処理システムの
障害発生の通報を受けたならば、遠隔地から情報処理シ
ステムの障害情報、具体的には、障害発生時点の該シス
テムの状況と障害に至る過程での動作履歴情報を収集で
きる制御装置と制御手段を提供することにある。
本発明の他の目的は、収集した障害情報を解析し、保
守員が現地に到着したときに適切な回復手順を指示出来
る制御手段を提供することにある。
〔課題を解決するための手段〕
上記目的を達成するために、本発明の情報処理システ
ムの障害監視装置と制御方法では、該障害監視装置を監
視および制御対象の情報処理システム(計算機システム
とも云う)のマスタ・コンソール装置の間に介在させ、
情報処理システムとの間のデータの送受信信号線上のデ
ータ・ストリームを監視している。さらに、中央処理装
置との間で専用の接続インタフエース線を配し、中央処
理装置からのハードウエア障害の報告を受信したり、中
央処理装置内の特定のハードウエア情報を取り込むこと
が出来る機構を具備している。なお、従来のマスタ・コ
ンソールの代わりに本発明の制御装置にキーボードと表
示装置を付加しても効果は同じである。本発明の一実施
例においては、従来のマスタ・コンソールの代わりに本
発明の制御装置にキーボードと表示装置を付加した構成
にて説明することにする。
また、遠隔地には上記の情報処理システム群を監視制
御する第2の情報処理システムが存在する。この第2の
情報処理システムは先の制御装置から障害発生の通報を
受けると、該障害情報をもとに過去の判例情報を検索、
照合し、該障害の回復手順を自動的に生成した後、障害
を起した情報処理システムのサイトへその回復手順を転
送する役割を分担している。
本発明の情報処理システムの障害監視装置とその制御
方法を実現する監視制御装置は、監視・制御対象の情報
処理システムから送出されるメツセージ・データを受信
するとデータ・バツフアに格納後、表示装置に表示す
る。このとき、同時に、あらかじめ登録されている障害
メツセージと比較し、障害発生を認識する。情報処理シ
ステム(以降、計算機システムと云う場合もある)のハ
ードウエア障害の場合には、専用のインタフエース線を
介してその旨が知らされる。ハードウエア障害としては
マシン・チエツク発生、メモリ・エラー、処理ユニツト
障害などである。監視制御装置は、前者のソフトウエア
障害、あるいはハードウエア障害の場合のいずれにおい
ても、専用のインタフエース線を介して中央処理装置内
の特定の処理ユニツトの情報を読み出して記憶域に一時
的に格納する。
以上で述べた障害状態を検出すると、本発明の監視制
御装置は遠隔地の第2の情報処理システムへ障害発生の
旨を報告する。このとき、データ・バツフアに格納され
た複数のメツセージ・データ、すなわち障害の発生した
時点からさかのぼつて過去の複数のメツセージ・データ
と障害が発生した時点でのハードウエア障害情報を転送
する。これによつて、遠隔地の監視・保守用の第2の情
報処理システム(以降、監視・保守用計算機システムと
云う)が監視、および制御対象の計算機システムでの障
害の発生を認識する。
監視・保守用計算機システムは上記の通報、および障
害情報を受信すると、該障害情報とあらかじめ記憶して
いる判例情報とを照合比較し、最適な回復手順を生成す
る。その結果は、障害の発生した計算機システムの監視
制御装置へ転送される。したがつて、保守員が障害の発
生した計算機システムのサイトに到着したときに、コン
ソール装置から“回復指示”の旨のコマンドを投入する
ことにより、一連の回復手順がコンソール装置の表示画
面やハードコピー装置に出力される。
これにより、計算機システムの障害発生から回復まで
の時間を短縮出来ることになり、計算機システムの運転
サービスの向上が図れることになる。
〔作用〕
本発明の情報処理システムの障害監視装置と制御方法
は、監視対象となる情報処理システムが従来のマスタ・
コンソールにメツセージ・データを送出するデータ線を
中継しており、それらのメツセージ・データを監視して
いる。また、ハードウエア障害の検知方法に関しても中
央処理装置との間で専用のインタフエース線を設けて、
障害の発生を検知したり、障害情報を収集したりしてい
る。したがつて、従来のオペレーテイング・システムを
改造する必要がなく、誤動作することもない。
〔実施例〕
以下、本発明の一実施例を第1図〜第22図により説明
する。第1図は本発明の情報処理システムの障害監視装
置と制御方法の構成の概略を示した図である。図中の符
号200は監視対象となる計算機システムであり、そのも
とでオペレーテイング・システム(Operating System:O
S)208a、ユーザ・プログラム(User Program:UP)208b
が動作している。計算機システム200を構成する代表的
なハードウエア処理部は、命令制御ユニツト(Instruct
ion Unit:IU)201,実行ユニツト(Execution Unit:EU)
202,入出力処理ユニツト(I/O Processing Unit:IOP)2
03,メモリ制御ユニツト(Memory Control Unit:MCU)20
4、主記憶装置(Main Storage:MS)206,およびサービス
・プロセツサ(Service Processor:SVP)207である。ま
た、計算機システム200には、フアイル装置209などの入
出力装置が接続されている。
符号100は本発明の1つの構成要素をなす監視制御装
置であり、計算機システム200から本発明の監視制御装
置100にシステム・コンソール用の信号線L1a,SVP207の
表示用信号線L1bが接続されている。なお、システム・
コンソール用の信号線L1aとSVP207の表示用信号線L1bと
は同一の信号線であつても構わない。この場合には、信
号線L1aはIOP203からSVP207を経て出力される。
さらに、本発明の監視制御装置100と計算機システム2
00との間は各処理ユニツトからの要求信号L2,アドレス
・バスとデータ・バスを含む信号線L3で接続されてい
る。ここで、アドレス・バスとデータ・バスとを信号線
L3にて同一に示してあるが、これは表現上のためであ
り、当然のことながら、別の信号線で接続されている。
監視制御装置100はマイクロ・プロセツサ等と同様な
処理能力を具備した演算器、主メモリ、および処理プロ
グラム群で構成されている。監視制御装置100内の符号
1はエンコーダ、2はアドレス・レジスタAD、3はデー
タ・レジスタDTである。符号4はCPUインタフエース処
理部(CPU Interface),符号5は比較処理部CMP,符号
6はデータ・バツフア、符号7は比較テーブル、符号8
は診断処理部、符号9は画面バツフア、符号10は障害判
定処理部、符号11は分配器、符号12は転送処理部、符号
13はコマンド解釈処理部、符号14は送受信処理部、であ
る。なお、監視制御装置100には、キーボード付の表示
装置102、一時記憶フアイル104が接続されている。
監視制御装置100と遠隔地の監視・保守用計算機シス
テム250とは線L4で接続されている。なお、監視制御装
置100と遠隔地の監視・保守用計算機システム250との間
に公衆回線網が介在しても構わない。監視・保守用計算
機システム250には、該計算機システム250の制御用のコ
ンソール装置252、判例情報を記憶するフアイル装置25
4、障害情報格納フアイル256が接続されている。なお、
第1図には示してないが、当然のことながら計算機シス
テムに接続可能な入出力装置群、例えばライン・プリン
タ装置などの装置群も接続可能である。
監視・保守用計算機システム250内では、障害要因の
解析プログラム群が動作しており、それらは符号21の通
信処理部、符号22の解釈・指令処理部、符号23の収集・
解析処理部、符号25の照合処理部、符号26の判例検索・
登録処理部、である。また、符号24は作業用のバツフア
(Work Buffer:BUF)である。
監視・保守用計算機システム250は複数の監視制御対
象の計算機システムを管理出来る。符号100a,100bは符
号100と同様の他の監視制御装置、符号200a,200bは監視
対象となる計算機システムである。
では、第1図を用いて本発明の情報処理システムの障
害監視装置と制御方法の動作の概要を説明した後に、第
2図以降の説明図を用いて各処理部の詳細を説明するこ
とにする。
第1図を参照するに、監視・制御対象の計算機システ
ム200からは線L1aを介してOS208aのメツセージ・データ
が順次に送出されている。これらのメツセージ・データ
はデータ・バツフア6内に順に格納されて行く。データ
・バツフア6が満杯になると、再び先頭から格納され
る。メツセージ・データがデータ・バツフア6内に格納
される前に、比較処理部CMP5にて該メツセージ・データ
が比較テーブル7内にあらかじめ登録されている障害判
定用のメツセージ・データと等しいか否かを検査する。
比較検査の結果、一致したならば障害判定処理部10に制
御が移る。
障害判定処理部10はソフトウエアの障害であるなら
ば、ハードウエアの付加情報を得るために診断処理部8
を起動して中央処理装置200内の各処理ユニツトの状態
情報を収集する。状態情報の収集に際しては、アドレス
・レジスタAD2に処理ユニツトのアドレス値、データ・
レジスタDT3に収集項目番号を設定して、中央処理装置2
00内の各処理ユニツトへ送出する。各処理ユニツトは収
集項目番号に対応した情報をデータ・バスL3に返す。収
集した状態情報は、一旦、一時記憶フアイル104に格納
される。ここで、ハードウエアの状態情報としては、主
記憶装置206内のハードウエア使用領域206bの格納内
容、各処理ユニツト内の状態保持情報、例えば割込み保
持レジスタやプログラム状態語などがある。
一方、ハードウエアの障害の場合には、一般にサービ
ス・プロセツサSVP207が検出し、線L2を介してエンコー
ダ1に報告される。また、サービス・プロセツサSVP207
が検出できない障害、例えばラツチ回路のパリテイ・エ
ラーなどは、各処理ユニツトから直接に線L2を介してエ
ンコーダ1に報告される。ハードウエア障害の報告を受
けるとCPUインタフエース処理部4は、診断処理部8を
起動して中央処理装置200内の各処理ユニツトの状態情
報を収集した後、障害判定処理部10に制御を渡す。な
お、ハードウエアの障害の場合には、OSから発光されて
いるメツセージ・データの履歴は既にデータ・バツフア
6に格納されているので、特に、別の処理を行なわな
い。
以上の処理が完了すると、障害判定処理部10は送受信
処理部14を経由し、かつ線L4を介して監視・保守用計算
機システム250へ障害の発生の旨を通報する。なお、こ
の通報処理は、先に述べた障害情報の収集の前に行なつ
ても構わない。監視・保守用計算機システム250は障害
発生の通報を受けると、まず、障害の概要を調べた後、
監視制御装置100に対して詳細な障害情報を要求する。
これは、線L4を介して指令(コマンド:Command)のデー
タ列が監視制御装置100へ送られる。この指令は解釈・
指令処理部22が行なう。
監視制御装置100では、この指令をコマンド解釈処理
部13が解釈し、転送処理部12を起動する。転送処理部12
はデータ・バツフア6の内容、および一時記憶フアイル
104に格納された障害情報を転送することになる。この
ときに、転送処理部12は要求された情報のみを転送する
訳であるが、特に、ハードウエア使用領域206bのデータ
については、編集処理を施し、転送するデータ量の削減
を図つている。編集処理の一例としては、同一のデータ
が続いた場合、その旨の印に置き換えるなどである。
解釈・指令処理部22は監視制御装置100から障害発生
の通報を受けたときに、自動的に上記の指令すなわち、
障害情報の転送指令を発行するが、コンソール装置252
から手動で該当するコマンドを投入することも可能であ
る。その場合には、投入されたコマンドが解釈・指令処
理部22にて解釈され、通信処理部21を経由して監視制御
装置100内のコマンド解釈処理部13に渡される。監視・
保守用計算機システム250側においては、転送されて来
る詳細な障害情報をBUF24を介して、障害情報格納フア
イル256に、一旦、格納する。これら一連の処理は収集
・解析処理部23が行なう。
収集・解析処理部23は、次に、判例検索・登録処理部
26を起動し、該障害に類似した過去の障害例を判例記憶
フアイル254の中から検索する。その後、照合処理部25
にて、先に検索した候補群の中から該障害に合致した判
例を照合する。照合の結果、該障害に合致した判例が存
在したならば、回復指示生成処理部27にて、合致した判
例の中に記憶されている回復手順を得る。その回復手順
は通信処理部21を経由して監視制御装置100へ転送さ
れ、一時記憶フアイル104に格納される。
保守員が障害の発生した計算機システム200のサイト
に到着し、コンソール装置102より、“回復指示”の旨
のコマンドを投入すると、回復手順がコンソール装置10
2の表示画面、あるいはハードコピー装置(図示せず)
に出力される。これにより、障害の発生から保守員が現
地に到着するまでの間に、並行して障害の要因分析と回
復手順の生成を行なうので、回復時間の短縮が図られ
る。
なお、照合の結果、該障害に合致した判例が存在しな
いならば、その旨の情報が監視制御装置100に転送され
ているので、保守員が“回復指示”のコマンドを投入す
ると、自力で回復のための解析を行なう必要があること
が分かる。その場合には、データ・バツフア6や一時記
憶フアイル104の内容をコンソール装置102、あるいはハ
ードコピー装置に出力すれば良い。また、コンソール装
置102にはサービス・プロセツサSVP207のコンソール機
能も有している。その後、該計算機システムを回復させ
たならば、その手順を監視・保守計算機システム250へ
転送する。監視・保守計算機システム250側では、先の
障害内容とこの回復手順を対にして、判例記憶フアイル
254に格納する。これによつて、後に、他のサイト、あ
るいは自サイトにて、再び同様な障害が発生したときに
役立つことになる。
では、第2図以降の図を用いて、本発明の情報処理シ
ステムの障害監視装置とその制御方法の詳細を説明す
る。第2図は第1図で示したデータ・バツフア6の構成
を示した図、第3図は比較テーブル7の構成を示した
図、第4図は診断処理部8で使用する診断番号とアドレ
ス・レジスタAD2,データ・レジスタDT3への値の対応を
示した図、第5図は一時記憶フアイル104に障害情報を
格納するとき、および監視・保守用計算機システム250
へ障害情報を転送するときのデータの形式を示した図、
第6図は監視制御装置100から監視・保守用計算機シス
テム250へ障害発生の概略情報を転送するときのデータ
の形式を示した図、第7図は監視・保守用計算機システ
ム250から監視制御装置100へ回復手順を転送するとき、
あるいは保守員が現地にて回復作業の後、監視制御装置
100から監視・保守用計算機システム250へ回復手順を転
送するときのデータの形式を示した図、第8図はコンソ
ール装置102、252からのコマンドの形式、または監視・
保守用計算機システム250から監視制御装置100へのコマ
ンドの形式を示した図、第9図は監視制御装置100から
監視・保守用計算機システム250へ障害情報を転送する
時に、転送するデータ量の削減処理を施す1つの例を示
した図、第10図は判例記憶フアイル254の構成を示した
図、である。
また、第11図〜第20図までは各処理部の処理フローを
示した図である。さらに、第21図、第22図は保守員の介
入を必要としないときの自動回復動作を説明した図であ
る。第11図は第1図の比較処理部CMP5の処理フロー図、
第12図は障害判定処理行部10の処理フロー図、第13図は
CPUインタフエース処理部CPUI4の処理フロー図、第14図
(a),(b)は診断処理部8の処理フロー図、第15図
(a),(b)は監視処理装置100内のコマンド解釈処
理部13の処理フロー図、第16図(a),(b)は監視・
保守用計算機システム250内の収集・解析処理部23の処
理フロー図、第17図は判例検索・登録処理部26の検索処
理の処理フロー図、第18図は判例検索・登録処理部26の
登録処理の処理フロー図、第19図(a),(b)は照合
処理部25の処理フロー図、第20図は回復指示生成処理部
27の処理フロー図、第21図は第7図で示した障害回復情
報19の回復手順19cに保守員が介入しなくても良い指令
列が並んだ例を示した図、第22図はそのときの処理フロ
ーを示した図、である。
第2図を参照するに、データ・バツフア6はメツセー
ジ/コマンド格納領域TRACE6aと管理テーブル6bとで成
つている。メツセージ/コマンド格納領域TRACE6aはメ
ツセージ・データやコマンド・データの発生した時刻を
格納するフイールド6c,該メツセージ・データの識別子
フイールド6d,該メツセージ・データの番号フイールド6
f,および詳細情報フイールド6gで構成される。また、管
理テーブル6bはメツセージ/コマンド格納領域TRACE6a
の先頭領域ポインタ(FIRST.E)6h,最終領域ポインタ
(LAST.E)6i,現在の格納領域ポインタ(CUR.E)6j,お
よび次の格納領域ポインタ(NEXT.E)6kで成つている。
第3図は比較テーブル7の構成を示しており、この比
較テーブル内には登録数(N)7a,検出対象のメツセー
ジ識別子フイール7b,メツセージ番号フイールド7c,処置
フラグ・フイールド7dで成つている。比較処理部(CM
P)5の処理フローは第11図に示してあり、監視・制御
対象の計算機システム200からの出力メツセージ・デー
タ(以降、単にメツセージと略す場合もある)は、この
比較処理部(CMP)5で処理される。なお、コンソール
装置102から投入されたコマンド・データは計算機シス
テム200へ、一旦、渡された後、再びメツセージ・デー
タとして計算機システム200から送出される。
第1図、第2図、第3図、および第11図を参照する
に、線L1aを介して、計算機システム200からのメツセー
ジ、すなわちOS208aのメツセージが順次に送出されて来
ると、第11図の処理ステツプ31aにて該メツセージ・デ
ータをデータ・バツフア6に格納する。これは第2図で
示した次の格納領域ポインタ(NEXT.E)6kの示すエント
リに格納する。格納に際しては、該メツセージが発生し
た時刻を時刻フイールド6cに設定した後、続いて該メツ
セージ・データをメツセージ識別子フイールド6h,メツ
セージ番号フイールド6f,および詳細情報フイールド6g
に格納する。格納されたメツセージ・データは分配器11
を経由して画面バツフア9に格納され、結果として、コ
ンソール装置102の表示画面に表示される。
処理ステツプ31bでは、次の格納領域ポインタ(NEXT.
E)6kと現在の格納領域ポインタ(CUR.E)6jの値をそれ
ぞれ+1とする。処理ステツプ31cから処理ステツプ31f
までは、上記のポインタの値が最終領域ポインタ(LAS
T.E)6iの値を超えていないかを検査する。もしも超え
ていたならば、それぞれ先頭領域ポインタ(FIRST.E)6
hの値に置き換える。したがつて、データ・バツフア6
のメツセージ/コマンド格納領域TRACE6aはn個分のメ
ツセージ・データを格納することが可能であり、現在の
格納領域ポインタ(CUR.E)6jの1つ前のエントリから
後に向かつて、次の格納領域ポインタ(NEXT.E)6kまで
のエントリが過去のメツセージ・データの履歴となる。
すなわち、第2図の場合(2),(1),(n),
(n−1)…(5),(4)が過去のメツセージ・デー
タの履歴となる。
処理ステツプ31gでは、先にデータ・バツフア6に格
納したメツセージ・データ、すなわち現在の格納領域ポ
インタ(CUR.E)6jの指すエントリのメツセージ・デー
タのメツセージ識別子6c,メツセージ番号6fと第3図で
示した比較テーブル7内のメツセージ識別子7b,番号7c
とを比較する。比較回数は登録数(N)7aの回数であ
る。比較の結果、現在の格納領域ポインタ(CUR.E)6j
の指すエントリのメツセージ・データと等しいメツセー
ジが比較テーブル7に登録されていたならば、判定処理
ステツプ31hにて、その旨が判断され、該メツセージ・
データと処置フラグ・フイールド7dの値を判定処理部10
へ渡す(処理ステツプ31i,処理ステツプ31k)。比較の
結果、比較テーブル7内に一致するメツセージ・データ
が存在しないならば、次のメツセージ・データを受信す
る処理ステツプ31aへ戻る。
第12図は第1図の障害判定処理部10におけるソフトウ
エア障害発生時の処理フローであり、第13図はハードウ
エア障害発生時におけるCPUインタフエース処理部(CPU
I)4の処理フローである。第12図を参照するに、比較
処理部(CMP)5より制御が移ると判定処理ステツプ32a
にてパラメータとして渡された処置フラグ7eのビツト7
を調べて、該計算機システムを停止させるか否かを判定
する。これはビツト7の値が1ならば計算機システムの
停止を意味する。計算機システムを停止させるときに
は、処理ステツプ32bにてサービスプロセツサSVP207に
計算機200の停止指令の信号を線L1bに送出すれば良い。
次に、処理ステツプ32cにて第6図で示した障害要約
情報16を作成する。障害要約情報16はサイト識別子フイ
ールド16a,障害発生日時フイールド16b,障害種別フイー
ルド16c,および概略情報フイールド16dで成つている。
ソフトウエア障害の場合には、障害種別フイールド16c
の値は‘S'となり、さらに、概略情報フイールド16dに
は、該障害メツセージ・データが格納される。処理ステ
ツプ32dでは、診断処理部8へのパラメータとして第3
図に示した処理フラグ7dを準備し、次に診断処理部8
(第12図のフローチヤートではDIAGと表記)へ制御を渡
す。なお、このときソフトウエアの障害の旨を‘SOFT'
として表してある。
診断処理部8から制御が戻ると、処理ステツプ32fに
て送受信処理部14を経由して監視・保守用計算機システ
ム250へ障害の発生の旨を通報する。このとき、第6図
の障害要約情報16が監視・保守用計算機システム250へ
転送される。
では次に、ハードウエア障害発生時の障害情報の収集
までの動作を説明する。第13図はCPUインタフエース処
理部(CPUI)4の処理フローである。ハードウエア障害
が発生すると、信号線L2、エンコーダ1を経由して、そ
の旨がCPUインタフエース処理部(CPUI)4に報告され
る。このとき、データ・レジスタDT3には、障害発生の
理由コードが保持されている。処理ステツプ33aでは、
ソフトウエア障害のときと同様に、第6図の障害要約情
報を作成する。このとき、障害種別フイールド16cの値
は,ハードウエア障害であるので‘H'となる。また、概
略情報フイールド16dには障害発生時のメツセージ・デ
ータに加えてDT3に保持されている理由コードを理由コ
ード・フイールド16eに格納する。
処理ステツプ33bにて、該理由コード16eを診断処理部
8へのパラメータとして、次の診断処理部8(第13図の
フローチヤートではDIAGと表記)へ制御を渡す。なお、
このときハードウエア障害の旨を‘H'として表してあ
る。診断処理部8から制御が戻ると、処理ステツプ33c
にて、第12図の処理ステツプ32fへ制御を移す。その処
理ステツプ32fでの処理は、先のソフトウエア障害の処
理で説明したように、送受信処理部14を経由して監視・
保守用計算機システム250へ障害の発生の旨を通報す
る。当然のことながら、このとい第6図の障害要約情報
16が監視・保守用計算機システム250へ転送される。
ここで、第1図の診断処理部8の動作を説明する。診
断処理部8はソフトウエア障害のときには障害判定処理
部10、ハードウエア障害のときにはCPUインタフエース
処理部(CPUI)4から制御が渡る。また、コンソール装
置102や監視・保守用の計算機システム250からの動作指
令によつても動作する。第14図(a),第14図(b)は
障害の発生を監視制御装置100自身で検知したときの処
理フローを示している。
ソフトウエア障害、またはハードウエア障害の発生に
よつて、障害判定処理部10、またはCPUインタフエース
処理部(CPUI)4から制御が移ると、処理ステツプ34a
では、監視対象の計算機システム200内の各処理ユニツ
トで保持しているログアウト情報を得る準備処理を行な
う。ここで、診断処理部8が各処理ユニツト(IU201,EU
202など)のログアウト情報等のハードウエア情報を得
るときには、第1図のアドレス・レジスタAD2,データ・
レジスタDT3に対応する値を設定する。第4図は第3図
の処置フラグ7eのビツト位置番号(0〜nビツトのビツ
ト位置番号)に対応するアドレス・レジスタAD2,データ
・レジスタDT3の値を示している。なお、アドレス・レ
ジスタAD2の値は各処理ユニツトの番号に対応してお
り、 1)命令制御ユニツト(IU)201 ...1 2)実行ユニツト(EU)202 ...2 3)入出力処理ユニツト(IOP) ...3 4)メモリ制御ユニツト(MCU) ...4 5)主記憶装置(MS) ...5 6)サービス・プロセツサ(SVP) ...6 のように、アドレス付けしてある。したがつて、ログア
ウト情報はハードウエア使用領域206bに存在するためAD
2の値はMS206対応の‘5'が設定され、DT3には先頭アド
レスが設定される。
処理ステツプ34bでは、収集したログアウト情報を第
5図の障害情報エリア18cに格納し、ダンプ識別子18aに
はログアウト情報の旨の識別を設定する。また、レコー
ド長18bには収集したデータの長さをバイト数で設定す
る。次の判定処理ステツプ34cではソフトウエア障害で
あるか否かを判定する。これは診断処理部8に引き渡さ
れたパラメータで判定する。判定処理の結果、ソフトウ
エア障害でない場合、すなわち、ハードウエア障害の場
合には第14図(b)の処理ステツプ34k〜処理ステツプ3
4mを実行する。
一方、ソフトウエア障害、すなわちオペレーテイング
・システム等の障害のときには処理ステツプ34d〜処理
ステツプ34iを実行する。先ず、処理ステツプ34dでは、
処置フラグ7eのビツト数を繰返し回数(ループ回数)LO
OPとする。また、カウンタiの値を0にして初期化す
る。ここで、LOOP,およびiは作業変数であり、ハード
ウエア、あるいは処理プログラム内の作業領域に確保し
ても構わない。
カウンタiの値がループ回数LOOPの値になるまで処理
ステツプ34e〜処理ステツプ34iを繰り返す。この処理は
処置フラグ・ビツト7eの各ビツトを調べて、該ビツトの
値が‘1'ならば、そのビツト位置番号に対応するハード
ウエア情報を収集する。判定処理ステツプ34eでは、カ
ウンタiの値に対応する処置フラグ・ビツト7eのビツト
位置の値を調べる。その結果、指定なし、すなわち値が
‘0'であるならば、処理ステツプ34iへ進む。
一方、指定がなされていると、処理ステツプ34fにて
アドレス・レジスタAD2,データ・レジスタDT3に値を設
定し、当該の処理ユニツトのログアウト動作を起動す
る。この処理は第4図に示したように、カウンタiの値
が診断番号に対応し、それに基づいてアドレス・レジス
タAD2,データ・レジスタDT3の設定値が一意的に決ま
る。次に、処理ステツプ34gでは、読み出したハードウ
エア情報に第5図で示したダンプ識別子18aを付加し、
一時記憶フアイル104に格納する。ダンプ識別子18aは診
断番号1のOS制御テーブルならば、‘OS制御テーブル’
の識別、実行ユニツト(EU)202のハードウエア情報な
らば、‘EU'の識別が設定される。
次に、処理ステツプ34hにて、カウンタiの値を+1
した後、処理ステツプ34iにてカウンタiの値がループ
回数LOOPの値に達したか否かを検査する。達していなけ
れば、処理ステツプ34eへ戻る。カウンタiの値がルー
プ回数LOOPの値に達したならば、この診断処理部8の動
作は終了する。
第14図(b)はハードウエア障害発生時の診断処理部
8の処理フローである。これら一連の処理は第14図
(a)の判定処理ステツプ34cから移される。先ず、処
理ステツプ34kにて、計算機システムCPU200内の各処理
ユニツトからハードウエア情報を読み出す。この処理
は、先に説明したように、アドレス・レジスタAD2,デー
タ・レジスタDT3に値を設定して各処理ユニツトを起動
することになるが、ここでは第4図に示す全ての診断番
号17aの情報を収集する。次の処理ステツプ34mでは、読
み出したハードウエア情報に第5図のダンプ識別子18a
を個々の情報に付加して、一時記憶フアイル104に格納
する。
以上によつて、監視・制御対象の計算機システム200
での障害発生時の動作、すなわち監視・保守用計算機シ
ステム250への通報、ならびに障害情報の収集動作が完
了し、監視・保守用計算機システム250側では、保守員
の現地派遣指示、障害要因の分析、回復手段の自動生成
等の動作に入る。これらの動作を説明する前に、監視・
制御装置100でのコマンド解釈処理部13、転送処理部12
の動作を説明する。
第8図はコンソール装置102、252からコマンドが入力
されるときの形式、並びに監視・保守用の計算機システ
ム250から指令されたときのコマンドの形式を表してい
る。監視・制御装置100内のコマンド解釈処理部13はコ
ンソール装置102、監視・保守用の計算機システム250の
コンソール装置252から手動によるコマンド投入によつ
ても動作可能であり、かつ監視・保守用の計算機システ
ム250内の収集・解析処理部23からコマンドのデータ・
ストリームを自動的生成して送出されたことによる動作
も可能である。第8図に示したコマンドの一覧は本発明
の一実施例であり、追加可能である。
第15図(a),第15図(b)は第8図のコマンド対応
の処理フローを示している。処理ステツプ35aにてコマ
ンドのデータ・ストリームを得た後、処理ステツプ35b
にて各コマンド対応の処理に分岐する。
(1)GETMSG このコマンドはデータ・バツフア6(第2図の符号6
a)の内容をポインタNEXT.E6kの指す領域からポインタC
UR.E6jの指す領域の1つ前までを一時記憶フアイル104
に格納する(処理ステツプ35c)。
(2)GETHARD このコマンドは計算機システム200内の各処理ユニツ
トのハードウエア情報を得るためのコマンドであり、先
に説明した診断処理部8を起動して処理を遂行させるも
のであり、処理ステツプ35d〜処理ステツプ35fが実行さ
れる。
(3)GETLOG このコマンドも計算機システム200内の各処理ユニツ
トのハードウエア情報を得るためのコマンドであるが、
特に、各処理ユニツトのハードウエア保持情報(第4図
の診断番号3〜6)を収集する。このために、処理ステ
ツプ35gが動作するが、(2)と同様に、診断処理部8
を起動して処理を遂行させる。
(4)ACTION このコマンドは監視・保守用計算機システム250から
送出されてくる障害回復手順のデータ列をコンソール装
置102の表示装置やハードコピー装置等の出力装置に出
力する(処理ステツプ35h)。第7図は障害回復手順の
データ列19の形式を示しており、回復手順フイールド19
cに一連の回復手順が格納されている。
(5)RECOVER このコマンドは監視・保守用計算機システム250側に
て回復手順を生成出来ず、保守員が現地にて試行錯誤を
繰り返しながら障害の発生した計算機システムを回復さ
せたときに、その回復手順を監視・保守用計算機システ
ム250へ転送する時に用いられる。この処理は処理ステ
ツプ35iにて、コンソール装置102から入力された回復手
順を順次に第7図の回復手順フイールド19cに格納し、
他のフイールド19a〜19dを完成させた後、転送処理部12
を経由して監視・保守用計算機システム250へ転送す
る。
(6)SUMMARY このコマンドは第6図の障害発生の要約情報を表示す
るためのものである。障害を起した計算機システム用の
監視制御装置のコンソール装置102から指令された場合
には、処理ステツプ35jによつて、第6図の障害要約情
報16をコンソール装置102の表示画面に表示する。一
方、監視・保守用計算機システム250のコンソール装置2
52、あるいは収集・解析処理部23から指令されたときに
は、処理ステツプ35kによつて、第6図の障害要約情報1
6を転送処理部12を経由して、計算機システム250へ転送
する。
(7)TRANSFER このコマンドは一時記憶フアイル104に格納されてい
る障害情報を、処理ステツプ35mによつて計算機システ
ム250へ転送する。なお、このとき、転送処理部12で
は、第9図に示すように転送データ量の削減処理12aを
行なう。すなわち、障害情報28aに対して同一のデータ
列が続くと記号28cを挿入し、新たなデータ列28bを転送
する。これによつて、第1図の回線L4を通るデータ量が
削減される効果が生じる。
(8)DISPLAY このコマンドは現地の保守員がコンソール装置102を
用いて一時記憶フアイル104に格納されている障害情報
を表示させたり、あるいは監視・保守用の計算機システ
ム250のコンソール装置252に表示させたいときに用いら
れる。具体的な処理は、処理ステツプ35nにて、一時記
憶フアイル104、データ・バツフア6の内容を当該のコ
ンソール装置に表示する。
以上がコマンド解釈処理部13の動作である。なお、上
記で述べたコマンド処理の中で、(4)のACTIONコマン
ドの処理においては、処理ステツプ35hにて保守員に回
復手順を表示する一実施例を開示しているが、ハードウ
エア部品の交換を伴わない回復に関しては、保守員の操
作を必要とせずに回復出来る場合もある。その実施例に
ついては、後に第21図以降の図を用いて説明する。
では次に、監視・保守用計算機システム250が監視制
御装置から障害発生の通報を受けたときの動作を説明す
る。障害発生の通報は、第6図で示した障害要約情報16
が回線L4を介して、通信処理部21が受信し、制御を収集
・解析処理部23に渡す。
第16図(a)は収集・解析処理部23における障害通報
を受信したときの処理フローを示している。まず、処理
ステツプ36aでは、受信した障害要約情報16をBUF24,お
よび障害情報フアイル256に格納する。この時点で保守
要員を現地に派遣しても良いし、あるいは後の処理ステ
ツプ36dにて回復手順が判明した時点で派遣しても構わ
ない。次に、処理ステツプ36bでは、第8図で説明したT
RANSFERコマンドを監視制御装置100に発行し、詳細な障
害情報を収集する。収集した障害情報は処理ステツプ36
cにて障害情報フアイル256に、一旦格納される。
次に、障害要約情報16を判例検索・登録処理部26に渡
し、制御も移す。第16図(a)では、STGと表記してあ
る。なお、このときは‘検索’要求となる。判例検索・
登録処理部26では、障害要約情報16に類似した過去の障
害例を判例記憶フアイル254から取り出して、BUF24に格
納する。この処理は、後に第17図を用いて説明する。過
去の障害例がBUF24に格納されると、次に照合処理部(E
XTR)25を起動する。この照合処理部(EXTR)25では、
候補群の中から詳細な障害情報まで比較し、一致したな
らば、その判別とともに制御を戻し、一致した障害例が
存在しなかつたならば、‘不一致’の旨で制御を戻す。
過去の障害例と一致したならば、回復手順を生成する
ために、回復指示生成処理部27を起動する。第16図
(a)では、回復指示生成処理部27をGENで表記してあ
る。回復指示生成処理部27は第7図に示した回復情報19
を生成する。そこで、収集・解析処理部23は処理ステツ
プ36dにて回復情報19を監視装置100へ転送する。
一方、過去の障害例と一致しなかつたならば、現在、
発生した障害を新たに判例記憶フアイル254に登録する
ために、判例検索・登録処理部(STG)26を起動する。
この場合には、‘登録’の旨を表記する。この登録処理
に際しては、回復手順が明記されずに格納されるが、後
に、回復手順が判明したとき、あるいは現地にて回復さ
せた後、第8図のRECOVERコマンドを保守員が入力する
ことにより、回復手順が完成する。判例検索・登録処理
部(STG)26にて該障害例の登録が完了すると、再び、
制御が収集・解析処理部23に戻る。
収集・解析処理部23では、処理ステツプ36fにて、回
復手順を生成出来なかつた旨の印を第7図の回復手順フ
イールド19cに格納し、該データ列19を監視制御装置100
へ転送する。その後、処理ステツプ36gにて、監視・保
守用計算機システム250のコンソール装置252にも回復手
順を生成出来なかつた旨を表示して、経験者の知恵を借
りることになる。そこで、処理ステツプ36hでは、専門
家がコンソール装置25より、第8図で示したコマンドを
投入しながら障害の分析を行ない、回復手順を探ること
になる。このときには、現地の保守員も回復手順を探つ
ており、結果として、並行して検討することになる。も
しも、監視・保守用計算機システム250側が早く回復手
順を得たならば、第7図の回復情報19を監視制御装置10
0へ転送する。
第16図(b)は収集・解析処理部23における回復手順
の登録処理を示している。回復手順は監視制御装置100
側のコンソール装置102から第8図のRECOVERコマンドを
投入しても良いし、監視・保守用計算機システム250の
コンソール装置252から投入しても良い。なお、監視・
保守用計算機システム250の解釈指令処理部22の動作
は、監視制御装置100側のコマンド解釈処理部13と基本
的に同一と考えて良い。処理ステツプ36iでは、第7図
の回復情報19を得る。次に、判例検索・登録処理部(ST
G)26を起動して、先に回復手順が未完成の該障害判例
を完成させる。
では次に、第10図、および第17図〜第20図を用いて、
判例検索・登録処理部26、照合処理部25、回復指示生成
処理部27の動作を説明する。第10図は判例記憶フアイル
254の構成を示している。判例記憶フアイル254内ではハ
ードウエア障害とソフトウエア障害を分離して記憶させ
ている。これは検索速度を速めるためであり、別のフア
イルに記憶させることを意識している訳ではない。第10
図を参照するに、判例記憶フアイル254内ではハードウ
エア障害とソフトウエア障害毎に管理テーブル30によつ
て管理されており、ハードウエア障害判例に関しては、
ハードウエア障害登録数(K)30a,格納エリア・ポイン
タ(H)30bが記憶されている。また、判例の実体は格
納エリア・ポインタ(H)30bにより指されている。1
つの判例情報29は、理由コード29a,障害メツセージ29b,
関連メツセージ29c,原因フイールド29d,障害情報29f,回
復手順29g,統計情報29hで成つている。ここで、理由コ
ード29aは第6図の障害要約情報16内の理由コード16eが
格納され、障害メツセージ29bも障害メツセージ・フイ
ールド16dが格納される。関連メツセージ29cは障害メツ
セージ29に関連したメツセージ、あるいは該障害メツセ
ージ29を引き起こした要因メツセージを第6図のデータ
・バツフア6のCUR.E(6j)の指すメツセージから前に
戻つて検索し、相当するメツセージを該領域29cに格納
する。また、障害情報29fには、先に説明した障害発生
時に収集した情報が格納される。回復手順29gには、当
該障害に対して施した回復手順、例えば第7図の回復手
順フイールド19cのような回復手順が格納される。統計
情報29hには、該障害の発生回数等の統計情報が格納さ
れる。
他方、ソフトウエア障害情報に関しても、管理テーブ
ル30内にソフトウエア障害登録数(L)30c,格納エリア
・ポインタ(S)30dによつて、実体が管理されてお
り、実体内の1つの判例情報41は、理由コードが存在し
ないことを除いて、ハードウエア障害情報と同じであ
る。
第17図は判例検索・登録処理部(STG)26の検索処理
の処理フローである。第7図を参照するに、先ず、処理
ステツプ37a,37bにて第10図の障害要約情報16の概略情
報16dと判例記憶フアイル254内の各エントリ29,41と比
較する。ここで、ハードウエア障害の場合には理由コー
ド29a、ソフトウエア障害の場合には障害メツセージ41b
と比較する。比較の結果、障害要約情報16と等しいエン
トリが存在したならば、処理ステツプ37cにて、該エン
トリを候補の1つとしてBUF24に格納する。判定処理ス
テツプ37dでは、全てのエントリを検索するまで処理ス
テツプ37a〜処理ステツプ37cを繰り返す。以上によつ
て、障害要約情報16に対応する候補がBUF24に格納され
る。この後、照合処理部25によつて、発生した障害に一
致した判例が抽出される。
第18図は判例検索・登録処理部(STG)26の登録処理
の処理フローである。まず、判定処理ステツプ38aで
は、障害情報の登録か、あるいは回復情報の登録かを判
定する。障害情報の登録ならば、処理ステツプ38bを実
行し、回復情報の登録の登録ならば、処理ステツプ38c,
処理ステツプ38dを実行する。障害情報の登録のとき、
処理ステツプ38bにて第6図の障害要約情報16と詳細情
報をハードウエア障害/ソフトウエア障害に分けて情報
領域29、または情報領域41に格納する。一方、回復情報
の登録ならば、第7図の回復情報19に対応する判例情報
29、または判例情報41を検索する。次に、検索した判例
情報29、判例情報41の回復手順29g,または回復手順41g
に第7図の回復手順19cを格納する。
第19図(a),第19図(b)は第1図の照合処理部25
の処理フロー図である。処理ステツプ39aにてハードウ
エア障害の照合であるか、あるいはソフトウエアの障害
かを判定する。ハードウエア障害の照合ならば、第19図
(b)の処理ステツプ39i〜処理ステツプ39pを実行す
る。ソフトウエアの障害判例の照合ならば、処理ステツ
プ39b〜処理ステツプ39hを実行する。先ず、処理ステッ
プ39bにて、作業変数CountにBUF24内に格納されている
判例の候補数を設定する。次に、カウンタiを0に初期
化する。ここで、作業変数Countおよびカウンタは、第1
4図(a)と同様に、ハードウエア、あるいは作業領域
に確保しても構わない。
処理ステツプ39cにてカウンタiを+1した後、処理
ステツプ39dにてカウンタiの値が作業変数Countの値を
超えたか否かを判定する。カウンタiの値が作業変数Co
untの値を超えていたならば、該障害と一致した判例が
なかつたことになり、不一致の終了となる。カウンタi
の値が作業変数Countの値を超えていなければ、判定処
理ステツプ39eにて障害メツセージ41bが等しいか否かを
判定する。一致しなければ処理ステツプ39cへ戻る。次
に、判定処理ステツプ39fにて関連メツセージ41cが等し
いか否かを判定する。ここでも一致しなければ処理ステ
ツプ39cへ戻る。障害メツセージ41b,関連メツセージ41c
も一致したならば、判定処理ステツプ39gにて障害情報4
1fが一致しているか否かを調べる。その結果、一致しな
ければ処理ステツプ39cへ戻る。一方、一致したなら
ば、処理ステツプ39hにて、カウンタiの示すエントリ
の回復手順41gを本照合処理部25を呼び出した処理部、
すなわち収集・解析処理部23へ渡し、一致終了となる。
なお、このとき、統計情報41hの障害発生回数を+1す
る。
第19図(b)はハードウエア障害の判例の照合処理で
ある。まず、処理ステツプ39jにて、作業変数CountにBU
F24内に格納されている判例の候補数を設定する。次
に、カウンタiを0に初期化する。次に、処理ステツプ
39kにて、カウンタiを+1した後、処理ステツプ39mに
てカウンタiの値が作業変数Countの値を超えたか否か
を判定する。カウンタiの値が作業変数Countの値を超
えていたならば、該障害と一致した判例がなかつたこと
になり、不一致の終了となる。カウンタiの値が作業変
数Countの値を超えていなければ、判定処理ステツプ39n
にて理由コード29aが等しいかを判定する。一致しなけ
れば処理ステツプ39kへ戻る。次に、判定処理ステツプ3
9oにて障害情報29fが一致しているか否かを調べる。そ
の結果、一致しなければ処理ステツプ39kへ戻る。一
方、一致したならば、処理ステツプ39pにて、カウンタ
iの示すエントリの回復手順29gを本照合処理部25を呼
び出した処理部、すなわち収集・解析処理部23へ渡し、
一致終了となる。なお、このとき、統計情報29hの障害
発生回数を+1する。
以上が第1図の照合処理部25の動作である。では次
に、回復指示生成処理部27の動作を説明する。第20図は
回復指示生成処理部27の処理フロー図である。まず、処
理ステツプ40aにおいて、BUF24内で照合、選択された判
例情報29,または判例情報41の回復手順29g,または41gを
得る。次の処理ステツプ40bにて第7図の障害回復情報1
6を作成する。すなわち、処理ステツプ40aで得た回復手
順29g,または回復手順41gをフイールド19cに格納する。
なお、第7図のフイールド19a〜フイールド19bは第6図
のフイールド16a〜フイールド16bを複写することによつ
て得られる。また、回復日時フイールド19dには、この
処理ステツプにて回復手順を生成下時点の日時を設定す
る。
では次に、監視制御装置100側にて保守員の介入、例
えばハードウエア・パツケージの交換作業を必要としな
いときの自動回復動作について説明する。第21図は第7
図で示した回復情報19の回復手順フイールド19c内に、
計算機システムの標準再起動の時に行なうコンソール装
置の操作のデータ列45bが格納されている例を示してい
る。第22図は、このときのコマンド解釈処理部13の処理
フローを示している。コマンド解釈処理部13は第8図で
示したコマンドの一覧の他に監視・保守用計算機システ
ム250から送られてくる回復情報19の内容を調べて動作
すれば良い。まず、処理ステツプ43aにて第21図の指令
列44に対応して制御対象の計算機システム200を停止さ
せ、かつシステム・リセツトの指令を発行する。これは
データ・バツフア6に上記の動作のための指令データを
格納することにより、線L1bを経てサービス・プロセツ
サSVP207に送られる。次の判定処理ステツプ43bではデ
ータ45aを調べて、標準再起動か否かを検査する、標準
再起動でないならば、先にACTIONコマンドで説明したよ
うに、それ以降のデータ列45bをコンソール装置102はハ
ードコピー装置等に出力する。
標準再起動が指定されているならば、処理ステツプ43
cにて回復手順のデータ列45bをデータ・バツフア6,画面
バツフア9に格納する。これにより、該データ列45bは
コンソール装置102にも表示されることになり、かつ、
線L1a,L1bを経て計算機システム200のサービス・プロセ
ツサSVP207やオペレーテイング・システムOS208aに渡す
ことが出来る。
〔発明の効果〕
本発明によれば、計算機システムの障害監視と回復の
ために、制御対象の計算機システム側に監視制御装置が
存在し、常時、計算機システムの振舞を監視するととも
に、障害発生時には、該計算機システムの障害情報を自
動的に収集し、遠隔地の監視保守用計算機システムへ障
害情報を転送する。障害の通報を受けた監視保守用計算
機システムでは、直ちに保守員を派遣するとともに、該
障害情報を過去の障害判例と照合することにより、適切
な回復手段を生成し、現地に到着した保守員に自動的に
指示を与えるので、計算機システムの障害発生から回復
までの時間が大幅に短縮できる効果がある。
さらに、保守員の介入を必要としない障害に対して
は、該計算機システムの再起動を自動的に行なうので、
無人運転サービスの実現に一歩近づく効果がある。
さらに、遠隔地の監視保守用計算機システムは複数の
計算機システムの障害発生を監視しているので、小人数
で多くの計算機システムを運営できる効果がある。
さらに、遠隔地の監視保守用計算機システムは複数の
計算機システムの障害発生時の障害情報、および回復手
段を一括して記憶しているので、障害管理情報の蓄積が
可能となる効果がある。
【図面の簡単な説明】
第1図は本発明の情報処理システムの障害監視装置と制
御方法の特徴的な構成を示した図、第2図は第1図のバ
ツフア6の構成を示した図、第3図は比較テーブル7の
構成を示した図、第4図は診断処理部8で使用する診断
番号とアドレス・レジスタ(AD)2,データ・レジスタ
(DT)3への値の対応を示した図、第5図は一時記憶フ
アイル104に障害情報を格納するとき、および監視・保
守用計算機システム250へ障害情報を転送するときのデ
ータの形式を示した図、第6図は監視制御装置100から
監視・保守用計算機システム250へ障害発生時の障害概
略情報を転送するときのデータの形式を示した図、第7
図は監視・保守用計算機システム250から監視制御装置1
00へ回復手順を転送するとき、あるいは保守員が現地に
て回復作業の後、監視制御装置100から監視・保守用計
算機システム250へ回復手順を転送するときのデータの
形式を示した図、第8図はコンソール装置102、252から
のコマンドの形式、または監視・保守用計算機システム
250から監視制御装置100へのコマンドの形式を示した
図、第9図は監視制御装置100から監視・保守用計算機
システム250へ障害情報を転送するときに、転送するデ
ータ量の削減処理を施す1つの例を示した図、第10図は
判例記憶フアイル254の構成を示した図、第11図は第1
図の比較処理部(CMP)5の処理フロー図、第12図は障
害判定処理部10の処理フロー図、第13図はCPUインタフ
エース処理部(CPUI)4の処理フロー図、第14図
(a),(b)は診断処理部8の処理フロー図、第15図
(a),(b)は監視制御装置100内のコマンド解釈処
理部13の処理フロー図、第16図(a),(b)は監視・
保守用計算機システム250内の収集・解析処理部23の処
理フロー図、第17図は判例検索・登録処理部26の検索処
理の処理フロー図、第18図は判例検索・登録処理部26の
登録処理の処理フロー図、第19図(a),(b)は照合
処理部25の処理フロー図、第20図は回復指示生成処理部
27の処理フロー図、第21図は第7図で示した回復情報19
の回復手順フイールド19c内に、計算機システムの標準
再起動の時に行なうコンソール装置の操作のデータ列が
格納されている例を示した図、第22図は、このときのコ
マンド解釈処理部13での処理フローを示した図、であ
る。 1……エンコーダ、2……アドレス・レジスタ(AD)、
3……データ・レジスタ(DT)、4……CPUインタフエ
ース処理部、5……比較処理部(CMP)、6……データ
・バツフア、7……比較テーブル、8……診断処理部、
9……画面バツフア、10……障害判定処理部、11……分
配器、12……転送処理部、13……コマンド解釈処理部、
14……送受信処理部、21……通信処理部、22……解釈指
令処理部、23……収集・解析処理部、24……作業用バツ
フアBUF、25……照合処理部、26……判例検索・登録処
理部、27……回復指示生成処理部、100……監視制御装
置、102……コンソール装置、104……一時記憶フアイ
ル、200……監視制御対象の情報処理システム(計算機
システム)、250……監視・保守用計算機システム、252
……コンソール装置、254……判例記憶フアイル、256…
…障害情報格納フアイル。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 木村 伊九夫 神奈川県横浜市戸塚区戸塚町5030番地 株式会社日立製作所ソフトウエア工場内 (72)発明者 難波 秀企 東京都千代田区内神田2丁目14番6号 日立電子サービス株式会社内 (56)参考文献 特開 昭56−149655(JP,A) 特開 昭63−12037(JP,A) 特開 昭63−250746(JP,A) 特開 昭61−175835(JP,A) 特開 昭63−292249(JP,A) 特開 昭63−58551(JP,A) 特開 昭61−4345(JP,A) (58)調査した分野(Int.Cl.6,DB名) G06F 11/30 - 11/34

Claims (12)

    (57)【特許請求の範囲】
  1. 【請求項1】主記憶装置を有した中央処理装置と、入出
    力装置と、該中央処理装置の保守操作用コンソールと該
    中央処理装置とのもとで動作するオペレーティング・シ
    ステムのメッセージの表示やコマンドの投入を行うコン
    ソールとを有する情報処理システムに接続されて該情報
    処理システムを監視制御する監視制御システムであっ
    て、 障害判例を記憶する記憶手段と、該情報処理システムの
    障害情報を得たときに該障害情報を該記憶手段内の障害
    判例と照合する手段と、照合結果が一致した障害判例が
    存在したならば該情報処理システムの障害を回復するた
    めの処理手順を生成する制御手段を具備したことを特徴
    とする監視制御システム。
  2. 【請求項2】前記制御手段は、前記情報処理システムの
    コンソールに表示される前記処理手順を該情報処理シス
    テムへ送出する手段と、該情報処理システムのコンソー
    ルから投入される回復の処理手順参照の旨の指令コマン
    ドに応答して動作する手段を具備する請求項1項記載の
    監視制御システム。
  3. 【請求項3】前記記憶手段には、障害発生の現象と原
    因、回復履歴を記憶している請求項1項記載の監視制御
    システム。
  4. 【請求項4】前記制御手段は照合した結果、一致した障
    害判例が存在しないときには、新たな障害判例として障
    害発生の現象を前記記憶手段内に追加する手段を具備す
    る請求項1項記載の監視制御システム。
  5. 【請求項5】前記制御手段は、照合した結果、一致した
    障害判例が存在しないときには、該情報処理システムの
    コンソールから投入される回復の処理手順参照の旨の指
    令コマンドに応答して、障害判例が見当らない旨を表示
    する手段を具備する請求項2項記載の監視制御システ
    ム。
  6. 【請求項6】前記制御手段は、照合した結果、一致した
    障害判例が存在せず、かつ、後に該障害の原因と回復の
    処理手順が判明したときには、該障害の原因と回復の処
    理手順を障害の現象に対応させて前記記憶手段内に修正
    記憶させる手段を具備する請求項4項記載の監視制御シ
    ステム。
  7. 【請求項7】前記制御手段は、照合した結果、一致した
    障害判例が存在しないときには、その旨を表示する手段
    を具備する請求項2項記載の監視制御システム。
  8. 【請求項8】主記憶装置を有した少なくとも1つ以上の
    中央処理装置と入出力装置群と、中央処理装置の保守操
    作用の操作卓の中央処理装置のもとで動作するオペレー
    ティング・システムのメッセージ表示やコマンドの投入
    を可能とする操作卓の機能を具備した第1の情報処理シ
    ステムに接続されて用いられる該第1の情報処理システ
    ムの動作を監視制御する情報処理システムの障害監視装
    置において、 該第1の情報処理システムにて障害が発生し、該障害の
    情報を得たときに、障害判例として該障害の情報を記憶
    する記憶手段と、該第1の情報処理システムの障害情報
    を記憶された障害判例と照合する制御手段と、照合の結
    果、一致した障害判例が存在したならば、該第1の情報
    処理システムの障害を回復するための処理手順を生成す
    る制御手段と、該障害を回復するための手順を第1の情
    報処理システムを監視している制御装置へ転送する制御
    手段とを有する第2の情報処理システムを有し、第1の
    情報処理システムを監視している該制御装置は該回復の
    ための処理手順にもとづいて第1の情報処理システムを
    再起動することを特徴とする情報処理システムの障害監
    視装置。
  9. 【請求項9】該第2の情報処理システムは複数の第1の
    情報処理システムの動作を監視制御する請求項8項記載
    の情報処理システムの障害監視装置。
  10. 【請求項10】複数の第1の情報処理システムの動作を
    監視制御する請求項1項記載の監視制御システム。
  11. 【請求項11】主記憶装置を有した中央処理装置と、入
    出力装置と、該中央処理装置の保守操作用コンソールと
    該中央処理装置とのもとで動作するオペレーティング・
    システムのメッセージの表示やコマンドの投入を行うコ
    ンソールとを有する第1の情報処理システムに接続され
    て用いられる該第1の情報処理システムを監視制御する
    情報処理システムの障害監視方法であって、 該メッセージ・データまたは該コマンド・データを複数
    個記憶し、障害検出用のデータを記憶し、障害判例を記
    憶し、該メッセージ・データと該障害検出用データとを
    比較し、比較結果が一致したならば障害発生を第2の情
    報処理システムへ通報し、該第2の情報処理システムは
    該障害発生を受けると詳細な障害情報を要求し、該詳細
    な障害情報の要求を受けると該記憶されたメッセージ・
    データまたはコマンド・データを第2の情報処理システ
    ムへ送出し、該第1の情報処理システムの障害情報を得
    たときに該第1の情報処理システムの障害情報を該記憶
    された障害判例と照合し、照合結果が一致した障害判例
    が存在したならば該第1の情報処理システムの障害を回
    復するための処理手順を生成することを特徴とする情報
    処理システムの障害監視方法。
  12. 【請求項12】複数の第1の情報処理装置に接続されて
    用いられる障害監視装置であって、該複数の情報処理装
    置に対応してそれぞれ設けられる複数の監視制御装置
    と、該複数の監視制御装置に接続される第2の情報処理
    装置とを有し、 障害監視装置は、該障害監視装置に接続される該第1の
    情報処理装置の障害に関する詳細情報を該第2の情報処
    理装置に通知する手段を有し、該第2の情報処理装置
    は、該障害の通知を受けた際、該第1の情報処理装置の
    障害に関する詳細情報を要求する手段を有し、障害判例
    を記憶する記憶手段と、該第1の情報処理装置の障害情
    報を得たときに該障害情報を該記憶された障害判例と照
    合する手段と、照合結果が一致した障害判例が存在した
    ならば該第1の情報処理装置の障害を回復するための処
    理手順を生成する制御手段を具備することを特徴とする
    障害監視装置。
JP1288917A 1989-11-08 1989-11-08 情報処理システムの障害監視装置と制御方法 Expired - Lifetime JP2804125B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP1288917A JP2804125B2 (ja) 1989-11-08 1989-11-08 情報処理システムの障害監視装置と制御方法
US07/613,384 US5237677A (en) 1989-11-08 1990-11-06 Monitoring and controlling system and method for data processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1288917A JP2804125B2 (ja) 1989-11-08 1989-11-08 情報処理システムの障害監視装置と制御方法

Publications (2)

Publication Number Publication Date
JPH03150643A JPH03150643A (ja) 1991-06-27
JP2804125B2 true JP2804125B2 (ja) 1998-09-24

Family

ID=17736470

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1288917A Expired - Lifetime JP2804125B2 (ja) 1989-11-08 1989-11-08 情報処理システムの障害監視装置と制御方法

Country Status (2)

Country Link
US (1) US5237677A (ja)
JP (1) JP2804125B2 (ja)

Families Citing this family (93)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5475625A (en) * 1991-01-16 1995-12-12 Siemens Nixdorf Informationssysteme Aktiengesellschaft Method and arrangement for monitoring computer manipulations
US5687313A (en) * 1991-03-14 1997-11-11 Hitachi, Ltd. Console apparatus for information processing system
JP2725490B2 (ja) * 1991-07-19 1998-03-11 株式会社日立製作所 ソフトウエアバグ原因推論エキスパートシステム
JPH0536259A (ja) * 1991-07-27 1993-02-12 Sony Corp 電子機器
JPH0815277B2 (ja) * 1991-08-09 1996-02-14 インターナショナル・ビジネス・マシーンズ・コーポレイション パフォーマンス測定値を得るためのシステムおよび方法
JPH0561723A (ja) * 1991-08-30 1993-03-12 Nec Corp 遠隔保守システム
EP0563612A3 (en) * 1992-03-30 1996-03-13 Siemens Ag Method for localization of faults in electronic control units
US5548720A (en) * 1992-05-19 1996-08-20 Fujitsu Limited Fault supervision method for transmission apparatus
JPH0612288A (ja) * 1992-06-29 1994-01-21 Hitachi Ltd 情報処理システム及びその監視方法
US5732212A (en) * 1992-10-23 1998-03-24 Fox Network Systems, Inc. System and method for remote monitoring and operation of personal computers
US20020091850A1 (en) 1992-10-23 2002-07-11 Cybex Corporation System and method for remote monitoring and operation of personal computers
US5479599A (en) * 1993-04-26 1995-12-26 International Business Machines Corporation Computer console with group ICON control
US5544077A (en) * 1994-01-19 1996-08-06 International Business Machines Corporation High availability data processing system and method using finite state machines
JPH07222269A (ja) * 1994-01-31 1995-08-18 Fujitsu Ltd 通報装置
FR2715747B1 (fr) * 1994-02-01 1996-03-01 Aerospatiale Procédé et dispositif pour rechercher des messages de maintenance intempestifs.
JP3675851B2 (ja) * 1994-03-15 2005-07-27 富士通株式会社 計算機監視方式
US5673386A (en) * 1994-06-29 1997-09-30 U S West Technologies, Inc. Method and system for identification of software application faults
US5513351A (en) * 1994-07-28 1996-04-30 International Business Machines Corporation Protecting a system during system maintenance by usage of temporary filenames in an alias table
JPH08286989A (ja) * 1995-04-19 1996-11-01 Fuji Xerox Co Ltd ネットワーク管理システム
JPH08286984A (ja) * 1995-04-19 1996-11-01 Fuji Xerox Co Ltd 障害情報通知システム
TW292365B (en) * 1995-05-31 1996-12-01 Hitachi Ltd Computer management system
US5819024A (en) * 1995-07-11 1998-10-06 Hitachi, Ltd. Fault analysis system
JPH09102970A (ja) * 1995-10-05 1997-04-15 Sony Corp 映像音声機器エラー監視システム
JP2737719B2 (ja) * 1995-10-11 1998-04-08 日本電気株式会社 警報通知装置
US5812758A (en) * 1995-11-09 1998-09-22 The United States Of America As Represented By The Secretary Of The Navy System level aid for troubleshooting (SLAT)
JP3555047B2 (ja) * 1995-12-20 2004-08-18 株式会社日立製作所 複合コンピュータシステム
JP2959474B2 (ja) * 1996-06-28 1999-10-06 日本電気株式会社 物理実装位置情報処理方式
US5928369A (en) * 1996-06-28 1999-07-27 Synopsys, Inc. Automatic support system and method based on user submitted stack trace
US5790780A (en) * 1996-07-16 1998-08-04 Electronic Data Systems Corporation Analysis of failures in a computing environment
US6108637A (en) 1996-09-03 2000-08-22 Nielsen Media Research, Inc. Content display monitor
US5835698A (en) * 1996-09-20 1998-11-10 Novell, Inc. Unilaterally-controlled, time-insensitive, data-link recovery apparatus and method
US5892898A (en) * 1996-10-04 1999-04-06 Honeywell, Inc. Error management system for supporting the identification and logging of error messages
US6000040A (en) * 1996-10-29 1999-12-07 Compaq Computer Corporation Method and apparatus for diagnosing fault states in a computer system
US5970149A (en) * 1996-11-19 1999-10-19 Johnson; R. Brent Combined remote access and security system
US6499108B1 (en) 1996-11-19 2002-12-24 R. Brent Johnson Secure electronic mail system
US6578146B2 (en) * 1996-11-19 2003-06-10 R. Brent Johnson System, method and article of manufacture to remotely configure and utilize an emulated device controller via an encrypted validation communication protocol
US5796952A (en) * 1997-03-21 1998-08-18 Dot Com Development, Inc. Method and apparatus for tracking client interaction with a network resource and creating client profiles and resource database
US6643696B2 (en) 1997-03-21 2003-11-04 Owen Davis Method and apparatus for tracking client interaction with a network resource and creating client profiles and resource database
JPH10312321A (ja) * 1997-05-12 1998-11-24 Hitachi Ltd オンラインシステム障害解析方法
DE19827431C2 (de) * 1997-07-22 2000-12-07 Siemens Ag Verfahren zur Fehlererkennung in einem Prozessorsystem
US6178528B1 (en) * 1997-09-18 2001-01-23 Intel Corporation Method and apparatus for reporting malfunctioning computer system
US6275855B1 (en) 1997-11-02 2001-08-14 R. Brent Johnson System, method and article of manufacture to enhance computerized alert system information awareness and facilitate real-time intervention services
JP3782568B2 (ja) * 1997-12-25 2006-06-07 富士通株式会社 メッセージ対処装置
US6088804A (en) * 1998-01-12 2000-07-11 Motorola, Inc. Adaptive system and method for responding to computer network security attacks
US6549932B1 (en) 1998-06-03 2003-04-15 International Business Machines Corporation System, method and computer program product for discovery in a distributed computing environment
ATE354824T1 (de) 1998-09-22 2007-03-15 Avocent Huntsville Corp System zum fernzugriff auf personalcomputer
AUPQ206399A0 (en) 1999-08-06 1999-08-26 Imr Worldwide Pty Ltd. Network user measurement system and method
US6487677B1 (en) * 1999-09-30 2002-11-26 Lsi Logic Corporation Methods and systems for dynamic selection of error recovery procedures in a managed device
EP1252735B1 (en) 2000-01-12 2011-08-24 Jupiter Media Metrix, Inc. System and method for estimating prevalence of digital content on the world-wide-web
US6665824B1 (en) * 2000-05-15 2003-12-16 Microsoft Corporation System and method for handling a failure reporting conversation
US6785848B1 (en) * 2000-05-15 2004-08-31 Microsoft Corporation Method and system for categorizing failures of a program module
US7318147B2 (en) * 2000-12-07 2008-01-08 International Business Machines Corporation Method for delaying and executing system administration operations in unattended mode
US7389341B2 (en) * 2001-01-31 2008-06-17 Accenture Llp Remotely monitoring a data processing system via a communications network
US8176137B2 (en) * 2001-01-31 2012-05-08 Accenture Global Services Limited Remotely managing a data processing system via a communications network
US6832342B2 (en) * 2001-03-01 2004-12-14 International Business Machines Corporation Method and apparatus for reducing hardware scan dump data
JP2003030141A (ja) * 2001-07-13 2003-01-31 Hitachi Ltd 協調型アウトソーシング・サービス・システム
US7293179B2 (en) * 2001-08-01 2007-11-06 Johnson R Brent System and method for virtual tape management with remote archival and retrieval via an encrypted validation communication protocol
EP1286265A3 (en) * 2001-08-10 2008-05-28 Sun Microsystems, Inc. Console connection
JP2003114811A (ja) 2001-10-05 2003-04-18 Nec Corp 自動障害復旧方法及びシステム並びに装置とプログラム
US20030093516A1 (en) * 2001-10-31 2003-05-15 Parsons Anthony G.J. Enterprise management event message format
US7159146B2 (en) * 2002-05-14 2007-01-02 Sun Microsystems, Inc. Analyzing system error messages
US8271778B1 (en) 2002-07-24 2012-09-18 The Nielsen Company (Us), Llc System and method for monitoring secure data on a network
US9237514B2 (en) 2003-02-28 2016-01-12 Apple Inc. System and method for filtering access points presented to a user and locking onto an access point
US8020192B2 (en) * 2003-02-28 2011-09-13 Michael Wright Administration of protection of data accessible by a mobile device
US9197668B2 (en) * 2003-02-28 2015-11-24 Novell, Inc. Access control to files based on source information
US20080109679A1 (en) * 2003-02-28 2008-05-08 Michael Wright Administration of protection of data accessible by a mobile device
US20040215742A1 (en) * 2003-03-04 2004-10-28 Soronti, Inc. Image perfection for virtual presence architecture (VPA)
US7313717B2 (en) * 2003-04-17 2007-12-25 Sun Microsystems, Inc. Error management
KR100862407B1 (ko) * 2004-07-06 2008-10-08 인텔 코오퍼레이션 에러를 검출하고 잠재적 고장을 예상하는 시스템 및 방법
US7409594B2 (en) * 2004-07-06 2008-08-05 Intel Corporation System and method to detect errors and predict potential failures
JP4547218B2 (ja) * 2004-09-17 2010-09-22 株式会社野村総合研究所 コンピュータ稼働状況取得システム、方法及びプログラム
US8499337B1 (en) 2004-10-06 2013-07-30 Mcafee, Inc. Systems and methods for delegation and notification of administration of internet access
US7624305B2 (en) * 2004-11-18 2009-11-24 International Business Machines Corporation Failure isolation in a communication system
JP4357433B2 (ja) * 2005-02-15 2009-11-04 株式会社日立製作所 ストレージシステム
DE102005040822A1 (de) 2005-08-24 2007-03-15 Siemens Ag Verfahren zur Systemdiagnose in technischen Systemen
US7996255B1 (en) * 2005-09-29 2011-08-09 The Mathworks, Inc. System and method for providing sales leads based on-demand software trial usage
US7752468B2 (en) * 2006-06-06 2010-07-06 Intel Corporation Predict computing platform memory power utilization
US7617423B2 (en) * 2006-08-14 2009-11-10 Kyocera Corporation System and method for detecting, reporting, and repairing of software defects for a wireless device
US7934993B2 (en) * 2006-10-16 2011-05-03 Igt Secure progressive controller
US7676695B2 (en) 2007-06-05 2010-03-09 Compuware Corporation Resolution of computer operations problems using fault trend analysis
EP2015183B1 (en) 2007-06-08 2018-05-30 Canon Kabushiki Kaisha Image-forming apparatus and information-processing method
JP4887238B2 (ja) * 2007-08-20 2012-02-29 株式会社日立情報システムズ システム障害復旧装置およびそのコマンド生成方法、ならびにそのプログラム
US8363790B2 (en) 2008-07-17 2013-01-29 At&T Intellectual Property I, L.P. Method and apparatus for providing automated processing of a switched voice service alarm
US8306200B2 (en) 2008-07-17 2012-11-06 At&T Intellectual Property I, L.P. Method and apparatus for processing of a toll free call service alarm
JP4867967B2 (ja) * 2008-09-30 2012-02-01 ブラザー工業株式会社 通信装置
JP2011258055A (ja) * 2010-06-10 2011-12-22 Fujitsu Ltd 情報処理システム及び情報処理システムの障害処理方法
US9143517B2 (en) * 2013-01-31 2015-09-22 Hewlett-Packard Development Company, L.P. Threat exchange information protection
US9185435B2 (en) 2013-06-25 2015-11-10 The Nielsen Company (Us), Llc Methods and apparatus to characterize households with media meter data
US9277265B2 (en) 2014-02-11 2016-03-01 The Nielsen Company (Us), Llc Methods and apparatus to calculate video-on-demand and dynamically inserted advertisement viewing probability
US10219039B2 (en) 2015-03-09 2019-02-26 The Nielsen Company (Us), Llc Methods and apparatus to assign viewers to media meter data
US9848224B2 (en) 2015-08-27 2017-12-19 The Nielsen Company(Us), Llc Methods and apparatus to estimate demographics of a household
US10791355B2 (en) 2016-12-20 2020-09-29 The Nielsen Company (Us), Llc Methods and apparatus to determine probabilistic media viewing metrics
US11449407B2 (en) 2020-05-28 2022-09-20 Bank Of America Corporation System and method for monitoring computing platform parameters and dynamically generating and deploying monitoring packages

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1536046A (en) * 1976-06-30 1978-12-20 Ibm Data processing system power control
JPS56149655A (en) * 1980-04-21 1981-11-19 Mitsubishi Paper Mills Ltd Detecting method of desired phenomenon in electronic computer system
JPS5856158A (ja) * 1981-09-30 1983-04-02 Fujitsu Ltd 遠隔保守方式
JPS614345A (ja) * 1984-06-18 1986-01-10 Konishiroku Photo Ind Co Ltd デ−タの圧縮伝送方法
JPS61148542A (ja) * 1984-12-24 1986-07-07 Nec Corp デ−タ処理装置の保守方式
JPS61175835A (ja) * 1985-01-31 1986-08-07 Toshiba Corp 情報処理システム
JPS6312037A (ja) * 1986-07-02 1988-01-19 Nec Corp 診断装置付電子計算機システム
JPS6358551A (ja) * 1986-08-29 1988-03-14 Hitachi Ltd 遠隔保守方式
JPS63250746A (ja) * 1987-04-07 1988-10-18 Nec Corp 障害自動通報方式
JPS63292249A (ja) * 1987-05-25 1988-11-29 Fujitsu Ltd ダンプ処理方式
JPH01180645A (ja) * 1988-01-13 1989-07-18 Hitachi Ltd 保守診断機構の自動検証方式
US5119377A (en) * 1989-06-16 1992-06-02 International Business Machines Corporation System and method for software error early detection and data capture
US5067129A (en) * 1989-08-16 1991-11-19 International Business Machines Corp. Service processor tester

Also Published As

Publication number Publication date
JPH03150643A (ja) 1991-06-27
US5237677A (en) 1993-08-17

Similar Documents

Publication Publication Date Title
JP2804125B2 (ja) 情報処理システムの障害監視装置と制御方法
JP4294353B2 (ja) ジョブ管理機能を有するストレージ系障害管理方法及び装置
KR950003201B1 (ko) 온라인 테스트 방법 및 그의 장치
CN100394394C (zh) 容错双工计算机系统及其控制方法
JPH0644242B2 (ja) コンピュータ・システムにおける問題解決方法
KR920005282B1 (ko) 멀티 프로세서 시스템의 시스템 관리장치
CN106250277A (zh) 一种多路服务器系统及用于提高其稳定性的方法
CN116560893B (zh) 一种计算机应用程序运行数据故障处理系统
JP2001034509A (ja) 情報処理装置の障害回復方法
JP5424965B2 (ja) 監視制御システム及び監視制御プログラム
JP3867868B2 (ja) 障害統合管理装置
Bowman et al. 1A processor: Maintenance software
JPH1040091A (ja) プログラム制御装置
JP3480886B2 (ja) コントローラの故障解析装置
JPH11345003A (ja) プラント制御システム
JPH11188584A (ja) 稼動管理装置および稼動管理方法、記憶媒体
JP2000261868A (ja) 設備機器管理装置
JPH05168070A (ja) プラントの保守支援装置
US20220382623A1 (en) Information processing system, method, and apparatus
CN116545961B (zh) 一种网络交换机集群智能检测方法及系统
JPH0955735A (ja) 通信網故障診断システムおよび通信網故障診断方法
JP2001337189A (ja) プラント制御装置およびその試験システム
JP2902769B2 (ja) ロボットのシーケンス制御方式
JPH0736159B2 (ja) デ−タ処理二重化方式
JPH06149613A (ja) チャネル装置の障害診断装置