JP2001034509A - 情報処理装置の障害回復方法 - Google Patents

情報処理装置の障害回復方法

Info

Publication number
JP2001034509A
JP2001034509A JP11203325A JP20332599A JP2001034509A JP 2001034509 A JP2001034509 A JP 2001034509A JP 11203325 A JP11203325 A JP 11203325A JP 20332599 A JP20332599 A JP 20332599A JP 2001034509 A JP2001034509 A JP 2001034509A
Authority
JP
Japan
Prior art keywords
failure
recovery
fault
information
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11203325A
Other languages
English (en)
Inventor
Kazutaka Imakurusu
和孝 今久留主
Toshio Kinoshita
敏夫 木下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP11203325A priority Critical patent/JP2001034509A/ja
Publication of JP2001034509A publication Critical patent/JP2001034509A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【課題】 複雑な情報処理装置の障害回復を正確な回復
手順にて実施する。 【解決手段】 障害回復支援センタは、ディスクアレイ
設置サイトで発生した障害を過去の障害事例から検索す
る障害情報データベース901および障害情報データベ
ース用のワークステーション902と、障害の回復手順
を検索し、決定するための回復手順データベース903
および回復手順データベース用のワークステーション9
04と、マイクロプログラム情報データベース用のワー
クステーション905およびマイクロプログラム情報デ
ータベース906をLAN706で接続して構成され、
過去に発生した障害状況、その時のディスクアレイ制御
系のマイクロプログラムの版数等の障害情報を、当該障
害に対して実施された回復手順と対応付けて蓄積し、新
たに発生した障害が発生した時に、過去の障害事例から
対応する回復手順を読出して自動実行する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報処理装置の障
害回復技術に関し、特に、プログラムで動作する複数の
プロセッサおよびメモリからなる制御装置の障害対策等
に適用して有効な技術に関する。
【0002】
【従来の技術】プログラムで動作する複数のプロセッサ
およびメモリからなる制御装置、例えば、ディスクアレ
イシステム装置の障害対策を、装置に具備する保守専用
機(以下、サービスプロセッサと呼ぶ)で行なう際、サ
ービスプロセッサがパソコンと呼ばれるコンピュータの
アプリケーションから実施する場合に言及する。
【0003】ディスクアレイサブシステムがホストマシ
ンと連動して無停止状態で稼働する場合、その装置で発
生した障害に対する回復作業は使用状態下で実施しなけ
ればならず、回復手順での操作ミスは絶対に許されな
い。通常の大型ディスクアレイ装置の場合は装置構成に
冗長度を持たせているので、1次障害であればその代替
手段で障害部位の機能を代行することができ、全システ
ムに影響しないよう考慮している。ただし、1次障害の
復旧で操作ミス等により2次障害が誘発すると、冗長度
がなくなり重大障害となる場合があり得る。また、現象
によっては、複数の箇所で障害が発生することもある。
この場合、複数箇所の障害を回復させるために、どの部
位から回復させなければならないかといった、回復順序
が決まっていることがある。このように、障害の発生パ
ターンによっていくつもの回復手順があり、複雑化す
る。もしあやまった手順で回復させると、次の障害箇所
をリカバリできなくなるといった2次障害も発生しう
る。この場合、障害回復に精通した保守員の熟練度を期
待せざるをえない。したがって、こうした複雑な構成を
有する大型ディスクアレイ装置に対する障害回復に必要
な要件は、過去の類似障害パターンを調べ特定できるこ
とと、そのときに実施した過去の回復手順を今回発生し
た障害に対して忠実に再実行できることである。
【0004】
【発明が解決しようとする課題】ところが、プログラム
で動作する複数のプロセッサおよびメモリからなる制御
装置、例えばディスクアレイサブシステムの制御装置で
発生した障害を対策する際にパソコンを用いて実施する
場合、従来の技術では障害対策操作を全て自動化するこ
とができない場合がある。それは、ディスクアレイサブ
システムの動作状態、構成状態等が、装置使用者の状況
によって様々に変わっており、障害内容がそれぞれの使
用状況や条件に応じて変化するため、障害対策操作を定
常化できないからである。
【0005】また、障害対策時のエラーリカバリを防ぐ
場合、従来の技術での自動実行機能では、エラーの状況
に応じてスクリプトを変更する機能がないので対応でき
ない。また、あらかじめエラー状況を予測してスクリプ
トを作成することも可能だが、使用状態によって更に変
化してしまうため、全てカバーすることは実質的に限界
がある。特に、ディスクアレイ装置の場合、障害対策専
用機であるサービスプロセッサ以外の装置であるプロセ
ッサが制御動作を実行しているが、これらの別のプロセ
ッサ上で稼動している制御動作の内容を取得して、スク
リプトを作成することはできない。スクリプトは、同一
プロセッサ内でのみ対応しているからである。
【0006】以上から、本発明の技術的課題を整理する
と次の通りである。障害対策操作やエラーリカバリ操作
を確実に実行させるには、従来技術のようにスクリプト
に基づいて自動実行させることは、保守員の操作自身を
減らし、ミスを防ぐことができる点では有効であるが、
確実に正しいシーケンスとの対応付けが課題である。ま
た、保守員の回復操作の内容、手順が正しいかどうかを
判断し、保守員に如何に知らしめるかが課題である。ま
た、過去に実施した操作が正しい操作であったか、誤っ
た操作だったかを記録し、次の機会の障害対策時にどう
役立てるかが課題である。また、装置を制御するプロセ
ッサの実行状態から如何に正しい手順を決定するかが課
題である。
【0007】本発明の目的は、障害の種別等に応じた適
切な回復手順を見いだして確実に正しいシーケンスに
て、回復手順の自動実行を行うことが可能な情報処理装
置の障害回復技術を提供することにある。
【0008】本発明の他の目的は、保守員の回復操作の
内容、手順が適切かどうかを的確に判断し、正しい手順
に保守員を導くことが可能な情報処理装置の障害回復技
術を提供することにある。
【0009】本発明の他の目的は、過去の障害の情報を
有効に活用して、効率よく正しい回復手順による障害の
回復操作を実現することが可能な情報処理装置の障害回
復技術を提供することにある。
【0010】本発明の他の目的は、情報処理装置の実行
状態に応じた正しい回復手順を決定することが可能な情
報処理装置の障害回復技術を提供することにある。
【0011】
【課題を解決するための手段】本発明は、プログラムに
よって制御動作を行う情報処理装置の障害回復方法にお
いて、情報処理装置の障害の状態を示す障害情報および
障害が発生した時のプログラムの版数を、障害の回復手
順に対応付けてデータベースに蓄積する工程と、任意の
障害の発生を契機に、当該障害に関する障害情報および
当該障害が発生した時のプログラムの版数にてデータベ
ースを検索することで回復手順を特定し、特定された回
復手順にて当該障害の回復作業を行う工程と、を含むよ
うにしたものである。
【0012】より具体的には、障害発生時に過去の類似
障害を検索する手段を設ける。類似障害の検索では、過
去に発生したときに採取した障害メッセージ、その時に
操作していた内容(操作来歴)および各プロセッサのメ
モリダンプ情報との比較から類似度を計測する。メモリ
ダンプ情報の比較の場合、過去に発生した際に障害の原
因を特定したときのメモリダンプ情報の見方(障害判別
式)が予め登録されており、今回発生した障害に対して
採取したメモリダンプから障害判別式で、過去の障害と
同じかどうかを比較するようにする。
【0013】以上の類似障害検索手段から、過去に発生
した障害と類似していることが判明すると、今度は、過
去に発生した障害に対して回復した手順を実際に行うよ
うにする回復手段を設ける。ここでは、自動的に回復で
きるものは自動的に行うようにする。また、回復手順の
なかには保守員が介在しないとできない場合があるの
で、そのときは、保守員を呼び出すための手段を設け、
保守員が現地に到着し障害の発生した装置に対して操作
を行うまでの間、回復手段を中断させるようにする。ま
た、この障害に対して回復させた操作を全て記録し、メ
モリダンプ情報と操作来歴、障害メッセージとあわせて
登録できるよう、障害情報データベースおよび回復手段
データベースといった情報を登録・検索できる手段を設
ける。
【0014】もし、類似障害検索手段で過去に発生した
類似障害が検出できない場合は、保守員による直接操作
を行えるようにする。このとき保守員の操作した内容は
全て障害回復手段として記録されるようにする。また、
ダンプ解析して障害の原因を判明させた場合、そのダン
プ情報の見方を登録できるようにする。これによって、
次の機会の障害対策時に役立たせることができる。
【0015】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照しながら詳細に説明する。
【0016】本実施の形態では、情報処理装置の障害回
復方法の一例として、プログラムで動作する複数のプロ
セッサおよびメモリからなる制御装置、例えばディスク
アレイサブシステムで発生した障害対策を遠隔操作にて
パーソナルコンピュータ等の機器を用いて実施する場合
を例に採って説明する。
【0017】この場合、障害対策作業は短時間で確実に
実施しなければならず、ディスクアレイサブシステムが
高度かつ複雑な制御を行なう装置であると、保守員に高
度な技術が要求される。障害対策作業には、一部のディ
スクアレイ装置の交換をしたり、装置を制御するマイク
ロプログラムを交換するなど、様々あってその難易度の
レベルも内容に応じて千差万別である。ところが、保守
員の技術が必ずしも高度で一定とは限らず、些細な操作
ミスを犯して、障害対策作業が進まないケースがある。
【0018】従って、保守員は、障害対策に直ちに対処
できる技術が必要である。これは、障害対策作業を一度
経験したかどうかに関わる。すなわち、過去の経験、い
わゆるノウハウが障害対策技術に必要な要件である。こ
のような経験に頼らず如何に迅速に障害対策を他の保守
員に生かすかが必要である。
【0019】本実施の形態では、一例として、特にディ
スクアレイサブシステム装置の障害対策作業を行なう際
に、過去の経験を蓄積して、次回の同様の障害発生時に
は他の保守員を的確な障害対策作業に誘導し、実施させ
るための技術を開示する。
【0020】図1、図2および図3は、本発明の一実施
の形態である情報処理装置の障害回復方法の作用の一例
を示すフローチャートであり、図4、図5および図6
は、本実施の形態の情報処理装置の障害回復方法にて用
いられる各種データベースの構成の一例を示す概念図で
ある。
【0021】また、図7、図8、図9、図10、図1
1、図12および図13は、本実施の形態の情報処理装
置の障害回復方法が実施される情報処理装置の構成の一
例を示す概念図である。
【0022】まず、本実施の形態の情報処理装置の障害
回復方法が実施される情報処理装置のハードウェア構成
について、図7、図8、図9、図10、図11、図12
および図13等を参照して説明する。
【0023】図7は、本実施の形態の情報処理装置の障
害回復方法が実施される情報処理装置の一例であるディ
スクアレイサブシステムの構成の一例を示す概念図であ
る。複数のディスクアレイ装置701がLAN706で
接続されて構成されるディスクアレイ設置サイト705
とディスクアレイ設置サイト705で発生した障害に対
する障害回復を支援するための障害回復支援センタ70
2と障害回復を実行するアプリケーションを開発する開
発環境703がそれぞれ別のフローアや遠隔地であるた
め、モデム704を介して通信可能に構成される。
【0024】ディスクアレイ装置701のハードウェア
構成の一例を図8に示す。図8では、ディスクアレイ装
置701の基本構成の概念を示している。ディスクアレ
イ装置701は、中央処理装置801と直接接続して制
御するための複数のホストI/F制御部802とディス
ク装置804を制御するためのディスク制御部803、
これらのI/F制御部とを接続するための共通バス80
5と制御情報を共有するための共有メモリ806から構
成される。このディスク装置の障害対策を目的として、
共通バス805と接続されたサービスプロセッサ(以
下、SVPと呼ぶ)807を具備する。このSVP80
7は、障害対策用のハードウェアとして、CPU・メモ
リ・共通バスを具備した中央処理装置とCRT・キーボ
ード・マウス等の外部入出力装置・およびプログラムや
データを記憶するための外部記憶装置からなるパーソナ
ルコンピュータを使用する。詳細を後述の図11に示
す。
【0025】図9では、障害回復支援センタ702の詳
細なハードウェア構成の一例を示す。ディスクアレイ設
置サイト705で発生した障害を検索する障害情報デー
タベース901および障害情報データベース用のワーク
ステーション902と、その回復手順を検索し、決定す
るための回復手順データベース903および回復手順デ
ータベース用のワークステーション904と、マイクロ
プログラム情報データベースのワークステーション90
5およびマイクロプログラム情報データベース906
が、それぞれLAN706で接続された構成とする。
【0026】図10では、開発環境703のハードウェ
ア構成の一例を示す。開発環境703は、障害回復を実
行するアプリケーションを開発するソースプログラムが
格納されているマイクロ開発部1001と、開発したマ
イクロフログラムを実行形式にインテグレートするため
のマイクロインテグレータ1002と、開発されたマイ
クロプログラムをデータベース登録するためのデータベ
ース登録部1003とがLAN706で接続された構成
となっている。
【0027】図11は、上述の図8で例示したディスク
アレイ装置701に搭載しているSVP(サービスプロ
セッサ)内のソフトウエアおよびハードウエア構成図で
ある。図中の共通バス805は、図8で例示したディス
クアレイ装置701内の各制御部とI/Fをもつ共通バ
スである。従って、各制御部で検知した障害は、共通バ
ス805を経由してSVP807に伝達される。SVP
内共通バス1107には、CRT1101、キーボード
1102、マウス1103、等のユーザインタフェース
や、フロッピイディスクドライブ1104(FD)、ハ
ードディスクドライブ1105(HDD)等の二次記憶
装置、ネットワークドライバ1106が接続されてい
る。また、SVP内共通バス1107には、図示しない
CPUおよび主記憶が接続され、この主記憶には、障害
監視部1111、障害メッセージ部1112、障害解析
部1113、障害回復部1114等のプログラムが格納
され、CPUにて実行される。
【0028】SVP807内では、具体的には障害監視
部1111が各制御部で検知した障害情報を受け付け
る。受け付けた情報は障害メッセージ部1112で記憶
する。障害検知したのち、障害監視部1111は、障害
解析部1113を起動し、発生した障害の解析を行うよ
うに指示する。障害解析部1113は、類似障害がない
かどうか、SVP内共通バス1107、ネットワークド
ライバ1106、後述の図12で示すネットワークドラ
イバ1206、WS内共通バス1207を経由して、図
12で示す検索プログラム1208へ問い合わせる。検
索結果が同一部位を経由して、障害解析部1113へ返
答する。その結果によって、障害回復部1114を起動
する。障害回復部1114は、過去の類似障害で実施し
た回復手順をSVP内共通バス1107、1207、ネ
ットワークドライバ1106、1206を経由して、検
索プログラム1208が回復手順データベース903か
ら検索する。また、キーボード1102、マウス110
3等を用いて操作した内容も障害回復部1114が記録
し、回復手順データベース903へ登録する。
【0029】また、これらの障害監視部1111〜障害
回復部1114の各部位はプログラムとしてフロッピイ
ディスクドライブ1104(FD)からフロッピイディ
スク等の媒体を介してロードし実行することができる。
他のワークステーション902、904、905も同
様、FDを具備しており、データベース検索等のプログ
ラムを当該FDからロードできる。
【0030】図12では、障害回復支援センタ702の
詳細な構成の一例を示す。障害回復支援センタ702の
上述した障害情報データベース用のワークステーション
902、回復手順データベース用のワークステーション
904の各々は、WS内共通バス1207に、CRT1
201、キーボード1202、マウス1203、等のユ
ーザインタフェースや、フロッピイディスクドライブ1
204(FD)、ハードディスクドライブ1205(H
DD)等の二次記憶装置、ネットワークドライバ120
6が接続されている。また、WS内共通バス1207に
は、図示しないCPUおよび主記憶が接続され、この主
記憶には、検索プログラム1208、登録プログラム1
209等のプログラムが格納され、CPUにて実行され
る。
【0031】ディスクアレイ設置サイト705で発生し
た障害がモデム704を介してディスクアレイ設置サイ
ト705から障害回復支援センタ702に障害自動通報
されると、障害回復支援センタ702内の検索プログラ
ム1208を起動して、障害情報データベース901か
ら類似障害を検索する。類似障害が見つかると、検索プ
ログラム1208を起動して、回復手順データベース9
03から回復手順を検索し、回復手順を決定する。回復
手順が決定すると、障害回復支援センタ702からディ
スクアレイ設置サイト705にモデム704を介して、
転送する。類似障害が見つからない場合は、登録プログ
ラム1209を起動して、障害情報データベース901
に新たに障害情報を登録する。回復手順が決定すると、
ディスクアレイ装置701に具備されているSVP90
7を利用して、障害回復手順を誘導して障害回復を実施
する。
【0032】図13では、障害回復を実行するアプリケ
ーションを開発する開発環境703のソフトウェア構成
を示す。障害回復を実行するアプリケーションを開発す
るマイクロデータベース用のワークステーション905
として、CPU・メモリ・共通バスを具備した中央処理
装置とCRT・キーボード・マウス等の外部入出力装置
・およびプログラムやデータを記憶するための外部記憶
装置からなるパーソナルコンピュータを使用する。図1
3の例では、共通バス1307に対してCRT130
1、キーボード1302、マウス1303、等のユーザ
インタフェースや、フロッピイディスクドライブ130
4(FD)、ハードディスクドライブ1305(HD
D)等の二次記憶装置、ネットワークドライバ1306
が接続された構成となっている。また、共通バス130
7には図示しないCPUおよび主記憶が接続され、コン
パイラ1310、データベース登録プログラム131
1、問題点,対策等の登録プログラム1312が主記憶
に格納されてCPUにて実行される。
【0033】そして、障害回復を実行するアプリケーシ
ョンとして必要なソースプログラム1309をコンパイ
ラ1310を利用して障害回復を実行するアプリケーシ
ョンとして必要なマイクロプログラム1308を作成す
る。作成されたマイクロプログラム1308をデータベ
ース登録プログラム1311を利用して、障害回復を実
行するアプリケーションを開発する開発環境703から
モデム704を介して、障害回復支援センタ702のマ
イクロプログラム情報データベース906に登録する。
【0034】図4は、本実施の形態にて用いられる障害
情報データベース901の詳細なテーブル構造の一例を
示す概念図である。本実施の形態の障害情報データベー
ス901は、障害ID901a、現象901b、発生日
時901c、発生プログラムバージョン901d、装置
構成901e、メモリのダンプ情報901f、操作手順
来歴901g、ダンプ解析手段901h、コメント90
1i、回復ID901j、等の各種情報が、個々の障害
毎に対応つけて格納されている。現象901bは、エ
ラーコード、エラーメッセージ、障害部位、等の情
報を含む。
【0035】図5は、本実施の形態にて用いられる回復
手順データベース903の詳細なテーブル構造の一例を
示す概念図である。
【0036】本実施の形態の回復手順データベース90
3は、回復手順ID903a、回復対象となる障害を示
す障害ID903b、回復手順903cの各情報を含ん
でいる。
【0037】また、回復手順903cは、後述のステッ
プ109で記録する操作手順()、操作手順Code
()の内容を保持する。Recovery MODE
中に実施した保守操作は、全てSVP807上のアプリ
ケーションから実施するので、その内容を以下のように
保持しておけばよい。
【0038】まず、実施しているアプリケーションの名
称()、操作対象とする画面の名称()、および保
守員が実施した操作内容()、例えばあるボタンをク
リックしたとか、入力フィールドに値を代入したとかで
ある。
【0039】そして、操作した結果()、問題があれ
ば、そのエラーとして表示したエラーメッセージの種類
()、およびエラーメッセージに対して対応した保守
員の操作()を記録対象とする。
【0040】また、保守員に装置の部品を交換させると
いった操作指示をSVP807から誘導する場合があ
る。このようにSVPの操作から離れて保守作業を実施
する場合は、SVPで自動実行できる範疇ではないの
で、このメッセージが出力されたこと、およびそのメッ
セージが人手介入が必要なケースであることを人手介入
要・不要フラグ()として記録しておく。これらのデ
ータを各操作毎に記録し保持するようにする。
【0041】図6は、本実施の形態にて用いられるマイ
クロプログラム情報データベース906の詳細なテーブ
ル構造の一例を示す概念図である。
【0042】本実施の形態のマイクロプログラム情報デ
ータベース906は、マイクロID906a、マイクロ
バージョン906b、マイクロプログラムの属性値90
6c、等の情報を含む。マイクロプログラムの属性値9
06cは、ファイル名、サイズ、作成日時、等の
情報を含む。
【0043】以下、上述のような構成のディスクアレイ
サブシステムにおける、本実施の形態の情報処理装置の
障害回復方法の作用の一例について、図1〜図3のフロ
ーチャートをサブシステムしながら説明する。
【0044】ステップ101では、障害が発生していな
いか監視する。
【0045】ステップ102では、障害が発生するとエ
ラーメッセージを表示する。
【0046】ステップ103では、障害解析を行なうの
に必要なダンプ情報を採取する。
【0047】ステップ104では、作成された対策手順
に基づき過去に類似障害が無いか障害情報データベース
901より検索する。障害情報データベース901の詳
細なテーブル構造は、上述の図4に例示した通りであ
る。
【0048】検索方法は、最初に障害情報データベース
901に登録されている現象901bの中のエラーコ
ードとエラーメッセージと障害部位が、今回発生し
た障害と内容が一致しているかどうかで判断する。次
に、障害が発生した時点までに行なっていた操作手順来
歴901g、最後にダンプ情報901fとも比較する。
このうち一つでも当てはまると類似障害とする。
【0049】ダンプ情報901fでの比較方法は、次の
通りである。障害情報データベース901に登録されて
いるダンプ解析手段901hとは、その障害の原因を決
定付ける判定式である。つまり、採取したダンプ情報9
01fから特定のテーブル、データ項目を参照し、それ
が値になっている場合、その障害と断定できたものであ
る。従って、今回発生した障害も同じダンプ情報のテー
ブル値が過去に発生した時の値と同じであるか否かを判
定することで、類似障害かどうかを判定すればよい。判
定式は、おもにダンプ情報901f内のテーブル名、デ
ータ名およびそれに対応する値、またはメモリの種類、
アドレスとそれに対応する値を登録している。
【0050】ステップ105で類似障害が無い場合は、
ステップ106でRecoveryMODEにし、ステ
ップ107の回復操作を実施する。
【0051】Recovery MODEの間に実施し
た操作は全てモニタリングされ、後のステップ109で
記録保持できるようにする。障害回復が終了すると、ス
テップ108で今回発生した障害の内容を障害情報デー
タベース901に登録する。
【0052】登録する内容は、障害ID901a、SV
P107に表示されたその障害のエラーコード、エ
ラーメッセージ、障害部位等の現象901b、さらに
は発生日時901c、発生プログラムバージョン901
d、装置構成901e、詳細な障害内容を知るために採
取されたダンプ情報901f、障害が発生するまでの操
作手順来歴901g、そして回復手順に対応した回復I
D901jとする。
【0053】また、ステップ109ではあらかじめ記憶
しておいた今回実施した障害回復手順を上述の図5に例
示した回復手順データベース903に登録する。
【0054】登録が終了すると、ステップ110でRe
covery MODEを解除する。回復手順の記録内
容については、上述の図5で説明した通りである。
【0055】ステップ105で類似障害が見つかった場
合は、ステップ111で自動解析MODEにする。
【0056】ステップ112で、回復手順データベース
903から回復手順を検索し、今回の障害対策にあった
回復手順を決定する。
【0057】ステップ113で、決定された回復手順が
保守員の現場立ち会いが必要かを判断する。
【0058】保守員の立ち会いが不要な場合は、ステッ
プ114で回復手順を自動実行する。
【0059】回復手順が終了すると、ステップ115で
今回発生した障害の内容を障害情報データベース901
に登録する。
【0060】また、ステップ116ではあらかじめ記憶
しておいた今回実施した障害回復手順を回復手順データ
ベース903に登録する。
【0061】登録が終了すると、ステップ117で自動
解析MODEを解除する。
【0062】ステップ113で保守員の現場立ち会いが
必要な場合は、ステップ118で保守員の現場立ち会い
要求を通報する。
【0063】ステップ119で保守員の現場立ち会いを
待ち、保守員の現場立ち会いが完了すると、ステップ1
20で自動解析MODEを解除して、ステップ106に
進み、Recovery MODEにする。ステップ1
06〜ステップ110までの処理は、すでに述べた通り
処理を実行する。
【0064】図2(a)および(b)は、回復手順を実
現するためのフローチャートであり、図2(a)は、ス
テップ114の回復手順の自動実行に対応し、図2
(b)は、ステップ107の回復手順のマニュアル実行
に対応している。なお、図2(a)および(b)は、一
部が重複するので、同一の処理には同一のステップ番号
を付して重複した説明は省略する。
【0065】ステップ201では、回復手順データベー
ス903より今回発生した障害にふさわしい回復手順を
抽出する。
【0066】ステップ202では、抽出した回復手順に
従い、メッセージ表示し、保守員を誘導する。ステップ
203では、メッセージに従い、回復手順を実行する。
回復手順を実行する際にマイクロプログラムの交換が伴
う場合は、マイクロプログラム情報データベース906
から検索し、当該マイクロプログラムの交換を実行す
る。マイクロプログラム情報データベース906の詳細
なテーブル構造は、上述の図6に例示した通りである。
【0067】ステップ204では、実行した回復手順と
その結果を記録する。
【0068】ステップ205で回復手順が正常終了した
か確認する。
【0069】正常終了した場合、ステップ206でその
他に別の手順が無いか検索し、別の回復手順がある場合
は、ステップ201に戻り、別の手順を実行する。
【0070】ステップ205で回復手順が異常終了した
場合、ステップ207の緊急回復手順を実行する。
【0071】ただし、図1で述べたステップ114は、
以上で述べたステップ201〜207のフローチャート
が自動実行される。全ての操作が自動実行の場合は、保
守員に対するI/Fが無いので、ステップ202はな
い。
【0072】図3は、ステップ207の緊急回復手順を
実現するための操作の一例を示すフローチャートであ
る。
【0073】ステップ301でEmergency M
ODEにし、ステップ302で過去に類似障害が無いか
障害情報データベース901より検索する。
【0074】類似障害がある場合は、ステップ304の
回復手順を実行する。
【0075】ステップ305で今回の障害内容を障害情
報データベース901に登録する。
【0076】ステップ306であらかじめ記憶しておい
た今回実施した障害回復手順を回復手順データベース9
03に登録する。登録が終了すると、ステップ307で
Emergency MODEを解除する。ステップ3
03で類似障害が無い場合は、ステップ308で回復手
順を中断し、ステップ309で現場立ち会い要の通報を
実行する。
【0077】ステップ310で今回の障害内容を障害情
報データベース901に登録する。
【0078】ステップ311で保守員の現場立ち会いを
待ち、保守員の現場立ち会いが完了すると、ステップ3
12でEmergency MODEを解除して、図1
のステップ106に進み、Recovery MODE
にする。ステップ106〜ステップ110までの処理
は、すでに図1の説明で述べた通り処理を実行する。
【0079】以上説明したように、本実施の形態の情報
処理装置の障害回復方法によれば、障害の種別等に応じ
た適切な回復手順を見いだして確実に正しいシーケンス
にて、回復手順の自動実行を行うことができる、という
効果が得られる。従って、たとえばディスクアレイサブ
システムのような複雑な情報処理装置における様々な高
度で複雑な障害対策に対して、短時間に確実に的確な障
害対策作業を実施できる、という効果が得られる。
【0080】また、保守員の操作する内容、手順が正し
い手順なのかどうかを的確に判断し、正しい手順に保守
員を導くことができ、複雑な制御を行なうディスクアレ
イサブシステム等の障害対策における操作ミスによる2
次障害を確実に防ぐことができ、信頼性の高い障害対策
および保守作業を実現できる、という効果が得られる。
【0081】また、過去の障害の情報を有効に活用し
て、効率よく正しい回復手順による障害の回復操作を実
現することができ、一度発生した障害の状況およびその
時に採られた対策を記憶し、後に同様の障害が発生した
時に、過去に採られた対策を調べて回復手順として再利
用するすることで、たとえばディスクアレイサブシステ
ムのような複雑の情報処理装置における様々な高度で複
雑な障害対策に対して、短時間に確実に的確な障害対策
作業を実施できる、という効果が得られる。
【0082】また、ディスクアレイサブシステム等のよ
うな多様な構成を採りうる情報処理装置の実行状態に応
じた正しい回復手順を決定することができる、という効
果が得られる。
【0083】以上本発明者によってなされた発明を実施
の形態に基づき具体的に説明したが、本発明は前記実施
の形態に限定されるものではなく、その要旨を逸脱しな
い範囲で種々変更可能であることはいうまでもない。
【0084】たとえば、情報処理装置としては、上述の
実施の形態に例示したディスクアレイサブシステム等に
限らず、一般の情報処理システム等に広く適用すること
ができる。
【0085】
【発明の効果】本発明の情報処理装置の障害回復方法に
よれば、障害の種別等に応じた適切な回復手順を見いだ
して確実に正しいシーケンスにて、回復手順の自動実行
を行うことができる、という効果が得られる。
【0086】また、保守員の回復操作の内容、手順が正
しいかどうかを的確に判断し、正しい手順に保守員を導
くことができる、という効果が得られる。
【0087】また、過去の障害の情報を有効に活用し
て、効率よく正しい回復手順による障害の回復操作を実
現することができる、という効果が得られる。
【0088】また、情報処理装置の実行状態に応じた正
しい回復手順を決定することができる、という効果が得
られる。
【図面の簡単な説明】
【図1】本発明の一実施の形態である情報処理装置の障
害回復方法の作用の一例を示すフローチャートである。
【図2】本発明の一実施の形態である情報処理装置の障
害回復方法の作用の一例を示すフローチャートである。
【図3】本発明の一実施の形態である情報処理装置の障
害回復方法の作用の一例を示すフローチャートである。
【図4】本発明の一実施の形態である情報処理装置の障
害回復方法にて用いられるデータベースの構成の一例を
示す概念図である。
【図5】本発明の一実施の形態である情報処理装置の障
害回復方法にて用いられるデータベースの構成の一例を
示す概念図である。
【図6】本発明の一実施の形態である情報処理装置の障
害回復方法にて用いられるデータベースの構成の一例を
示す概念図である。
【図7】本発明の一実施の形態である情報処理装置の障
害回復方法が実施される情報処理装置の構成の一例を示
す概念図である。
【図8】本発明の一実施の形態である情報処理装置の障
害回復方法が実施される情報処理装置の構成の一例を示
す概念図である。
【図9】本発明の一実施の形態である情報処理装置の障
害回復方法が実施される情報処理装置の構成の一例を示
す概念図である。
【図10】本発明の一実施の形態である情報処理装置の
障害回復方法が実施される情報処理装置の構成の一例を
示す概念図である。
【図11】本発明の一実施の形態である情報処理装置の
障害回復方法が実施される情報処理装置の構成の一例を
示す概念図である。
【図12】本発明の一実施の形態である情報処理装置の
障害回復方法が実施される情報処理装置の構成の一例を
示す概念図である。
【図13】本発明の一実施の形態である情報処理装置の
障害回復方法が実施される情報処理装置の構成の一例を
示す概念図である。
【符号の説明】
701…ディスクアレイ装置、702…障害回復支援セ
ンタ、703…開発環境、704…モデム、705…デ
ィスクアレイ設置サイト、706…LAN、801…中
央処理装置、802…ホストI/F制御部、803…デ
ィスク制御部、804…ディスク装置、805…共通バ
ス、806…共有メモリ、901…障害情報データベー
ス、901a…障害ID、901b…現象、901c…
発生日時、901d…発生プログラムバージョン、90
1e…装置構成、901f…ダンプ情報、901g…操
作手順来歴、901h…ダンプ解析手段、901i…コ
メント、901j…回復ID、902…ワークステーシ
ョン、903…回復手順データベース、903a…回復
手順ID、903b…障害ID、903c…回復手順、
904…ワークステーション、905…ワークステーシ
ョン、906…マイクロプログラム情報データベース、
906a…マイクロID、906b…マイクロバージョ
ン、906c…属性値、1001…マイクロ開発部、1
002…マイクロインテグレータ、1003…データベ
ース登録部、1101…CRT、1102…キーボー
ド、1103…マウス、1104…フロッピイディスク
ドライブ、1105…ハードディスクドライブ、110
6…ネットワークドライバ、1107…SVP内共通バ
ス、1111…障害監視部、1112…障害メッセージ
部、1113…障害解析部、1114…障害回復部、1
201…CRT、1202…キーボード、1203…マ
ウス、1204…フロッピイディスクドライブ、120
5…ハードディスクドライブ、1206…ネットワーク
ドライバ、1207…WS内共通バス、1208…検索
プログラム、1209…登録プログラム、1301…C
RT、1302…キーボード、1303…マウス、13
04…フロッピイディスクドライブ、1305…ハード
ディスクドライブ、1306…ネットワークドライバ、
1307…共通バス、1308…マイクロプログラム、
1309…ソースプログラム、1310…コンパイラ、
1311…データベース登録プログラム、1312…問
題点,対策等の登録プログラム。
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B042 GA12 GA35 JJ01 KK08 KK13 KK14 KK17 MA08 MA11 MC07 MC12 MC16 MC17 MC35 MC37 5D066 BA02 BA05 BA08

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 プログラムによって制御動作を行う情報
    処理装置の障害回復方法であって、 前記情報処理装置の障害の状態を示す障害情報および前
    記障害が発生した時の前記プログラムの版数を、前記障
    害の回復手順に対応付けてデータベースに蓄積する工程
    と、 任意の障害の発生を契機に、当該障害に関する前記障害
    情報および当該障害が発生した時の前記プログラムの版
    数にて前記データベースを検索することで前記回復手順
    を特定し、特定された前記回復手順にて当該障害の回復
    作業を行う工程と、 を含むことを特徴とする情報処理装置の障害回復方法。
  2. 【請求項2】 請求項1記載の情報処理装置の障害回復
    方法において、 前記障害情報の一部に、前記プログラムがロードされて
    いたメモリのダンプ情報の具体的なテーブル値の判定式
    をあらかじめ登録しておく手順を設け、前記障害の発生
    時に前記判定式を用いて、発生した前記障害が過去の障
    害と類似か否かを判定することを特徴とする情報処理装
    置の障害回復方法。
  3. 【請求項3】 請求項1または2記載の情報処理装置の
    障害回復方法において、 前記情報処理装置とは別の場所に、前記データベースを
    設置し、遠隔操作にて、前記障害の発生時における前記
    障害情報および前記プログラム版数の取得、および当該
    障害に対応した前記回復手順の特定、および当該回復手
    順による当該障害の回復作業を行う第1の操作、 前記回復手順の一部に保守員の介入が必要な場合に、保
    守員を自動的に呼出し、保守員が介入するまで前記障害
    の状態を保持する第2の操作、 少なくとも一方の操作を含むことを特徴とする情報処理
    装置の障害回復方法。
JP11203325A 1999-07-16 1999-07-16 情報処理装置の障害回復方法 Pending JP2001034509A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11203325A JP2001034509A (ja) 1999-07-16 1999-07-16 情報処理装置の障害回復方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11203325A JP2001034509A (ja) 1999-07-16 1999-07-16 情報処理装置の障害回復方法

Publications (1)

Publication Number Publication Date
JP2001034509A true JP2001034509A (ja) 2001-02-09

Family

ID=16472156

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11203325A Pending JP2001034509A (ja) 1999-07-16 1999-07-16 情報処理装置の障害回復方法

Country Status (1)

Country Link
JP (1) JP2001034509A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004102954A (ja) * 2002-09-13 2004-04-02 Konica Minolta Holdings Inc メンテナンス装置、メンテナンスシステム及びメンテナンス装置のためのプログラム
JP2005228323A (ja) * 2004-02-12 2005-08-25 Internatl Business Mach Corp <Ibm> テクノロジの利用に関する追跡ならびに請求書作成の方法およびシステム
US7069473B2 (en) 2001-10-05 2006-06-27 Nec Corporation Computer recovery method and system for recovering automatically from fault, and fault monitoring apparatus and program used in computer system
JP2009048403A (ja) * 2007-08-20 2009-03-05 Hitachi Information Systems Ltd システム障害復旧装置およびそのコマンド生成方法、ならびにそのプログラム
JP2009211611A (ja) * 2008-03-06 2009-09-17 Nec Corp 運用管理システム及び方法、並びに、プログラム
JPWO2008012903A1 (ja) * 2006-07-27 2009-12-17 富士通株式会社 システム管理プログラム、システム管理装置およびシステム管理方法
JP2013254451A (ja) * 2012-06-08 2013-12-19 Nippon Telegr & Teleph Corp <Ntt> 監視装置、監視方法及び監視プログラム
US8996924B2 (en) 2011-02-24 2015-03-31 Fujitsu Limited Monitoring device, monitoring system and monitoring method
JPWO2016199251A1 (ja) * 2015-06-10 2017-07-27 三菱電機ビルテクノサービス株式会社 設備保守管理システム、設備保守装置及びプログラム
CN113162808A (zh) * 2021-04-30 2021-07-23 中国工商银行股份有限公司 存储链路故障处理方法及装置、电子设备和存储介质
JPWO2021234912A1 (ja) * 2020-05-21 2021-11-25
WO2023047450A1 (ja) * 2021-09-21 2023-03-30 楽天モバイル株式会社 ネットワーク管理装置、ネットワーク管理方法およびネットワーク管理システム

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7069473B2 (en) 2001-10-05 2006-06-27 Nec Corporation Computer recovery method and system for recovering automatically from fault, and fault monitoring apparatus and program used in computer system
JP2004102954A (ja) * 2002-09-13 2004-04-02 Konica Minolta Holdings Inc メンテナンス装置、メンテナンスシステム及びメンテナンス装置のためのプログラム
JP2005228323A (ja) * 2004-02-12 2005-08-25 Internatl Business Mach Corp <Ibm> テクノロジの利用に関する追跡ならびに請求書作成の方法およびシステム
JPWO2008012903A1 (ja) * 2006-07-27 2009-12-17 富士通株式会社 システム管理プログラム、システム管理装置およびシステム管理方法
US8145449B2 (en) 2006-07-27 2012-03-27 Fujitsu Limited Computer product, apparatus, and method for system management
JP2009048403A (ja) * 2007-08-20 2009-03-05 Hitachi Information Systems Ltd システム障害復旧装置およびそのコマンド生成方法、ならびにそのプログラム
JP2009211611A (ja) * 2008-03-06 2009-09-17 Nec Corp 運用管理システム及び方法、並びに、プログラム
US8996924B2 (en) 2011-02-24 2015-03-31 Fujitsu Limited Monitoring device, monitoring system and monitoring method
JP2013254451A (ja) * 2012-06-08 2013-12-19 Nippon Telegr & Teleph Corp <Ntt> 監視装置、監視方法及び監視プログラム
JPWO2016199251A1 (ja) * 2015-06-10 2017-07-27 三菱電機ビルテクノサービス株式会社 設備保守管理システム、設備保守装置及びプログラム
CN107636545A (zh) * 2015-06-10 2018-01-26 三菱电机大楼技术服务株式会社 设备维护管理系统、设备维护装置以及程序
JPWO2021234912A1 (ja) * 2020-05-21 2021-11-25
WO2021234912A1 (ja) * 2020-05-21 2021-11-25 日本電信電話株式会社 制御装置、制御方法、および制御プログラム
JP7360077B2 (ja) 2020-05-21 2023-10-12 日本電信電話株式会社 制御装置、制御方法、および制御プログラム
CN113162808A (zh) * 2021-04-30 2021-07-23 中国工商银行股份有限公司 存储链路故障处理方法及装置、电子设备和存储介质
CN113162808B (zh) * 2021-04-30 2023-01-06 中国工商银行股份有限公司 存储链路故障处理方法及装置、电子设备和存储介质
WO2023047450A1 (ja) * 2021-09-21 2023-03-30 楽天モバイル株式会社 ネットワーク管理装置、ネットワーク管理方法およびネットワーク管理システム

Similar Documents

Publication Publication Date Title
JP2557180B2 (ja) ソフトウェア例外条件に対する選択的データ捕獲方法
CN102597962B (zh) 用于虚拟计算环境中的故障管理的方法和系统
JPH0644242B2 (ja) コンピュータ・システムにおける問題解決方法
US7487408B2 (en) Deferring error reporting for a storage device to align with staffing levels at a service center
JP2001034509A (ja) 情報処理装置の障害回復方法
US11169896B2 (en) Information processing system
JP2009238010A (ja) Itシステムのトラブル対処装置、トラブル対処方法およびそのためのプログラム
US7565565B2 (en) Automated error recovery of a licensed internal code update on a storage controller
JPH0950424A (ja) ダンプ採取装置およびダンプ採取方法
JP3972801B2 (ja) 階層型バックアップシステムにおけるバックアップ方法
JP5495310B2 (ja) 情報処理装置、障害解析方法及び障害解析プログラム
JPH02294739A (ja) 障害検出方式
JP2003345628A (ja) 障害調査資料採取方法及びその実施システム並びにその処理プログラム
JP2595833B2 (ja) 遠隔保守装置
JP2013125533A (ja) 情報処理装置、情報処理方法及びプログラム
JP2022039508A (ja) 情報処理装置および運用監視プログラム
JP6504611B2 (ja) 監視装置、情報監視システム、監視装置の制御方法、及びプログラム
JP3459898B2 (ja) 組み込みシステムの障害情報トレーサ装置
JPH0424838A (ja) マルチプロセッサの障害管理方式
US20230004476A1 (en) Application failure tracking features
US20220291983A1 (en) Analysis system, method of presenting result of inspection in analysis system and non-transitory computer readable medium storing program
JP2716537B2 (ja) 複合システムにおけるダウン監視処理方式
JP4985033B2 (ja) バックアッププログラム、バックアップ方法およびバックアップ装置
JP2017151511A (ja) 情報処理装置、動作ログ取得方法および動作ログ取得プログラム
CN116737505A (zh) 设备故障信息的收集方法、装置、设备及存储介质