以下に、本願の開示する故障通知装置、故障通知方法、及び故障通知プログラムの実施例を、図面を参照しながら詳細に説明する。なお、この実施例により、本願の開示する故障通知装置、故障通知方法、及び故障通知プログラムが限定されるものではない。
まず、本願の開示する一実施例に係る故障通知システムの構成を説明する。図1は、交換機1の構成を示す図である。図1に示す様に、本実施例に係る交換機1は、制御装置2a、2bと回線装置3a、3bとを有する。交換機1は、0系の制御装置2a及び回線装置3aと1系の制御装置2b及び回線装置3bとの2系統の装置構成を有する。また、回線装置3a、3bは、それぞれ二重化されることで、他の外部装置と接続される。回線装置3a、3bは、各々の装置の接続する制御装置2a、2bからの指示に従い、交換機1と外部装置との間の回線を接続する。
図2は、交換機1の制御装置2a、2bの構成を示す図である。図2に示す様に、制御装置2a、2bは、デュプレックス構成により二重化されており、各制御装置2a、2b間は、BXC(Bus eXchange Controller)60a、60bにより、系間交差バスB1を介して接続されている。0系の制御装置2aは、PROC(PROCessor)20、30と、BXC60aと、回線IF(Inter Face)70aと、HDU(Hard Disk Unit)81a、82a、83a、84aとを有する。PROC20、30は、プロセッサパッケージであり、BXC60aは、プロセッサバス交差制御パッケージである。また、回線IF70aは、交換機1の外部装置と接続するための回線インタフェースであり、HDU81a〜84aは、ハードディスクを収容するユニットである。これら各構成部分は、一方向又は双方向に、各種信号やデータの入出力が可能な様に接続されている。
1系の制御装置2bは、制御装置2aと同様の構成を有する。BXC60a及びBXC60bと、PROC20、30及びPROC40、50とはそれぞれ、システムバスB2、B3を介して、接続されている。また、PROC20及びPROC30と、HDU81a、82a及びHDU83a、84aとはそれぞれ、SCSI(Small Computer System Interface)バス等のIO(Input Output)バスB4、B5を介して、接続されている。同様に、PROC40及びPROC50と、HDU81b、82b及びHDU83b、84bとはそれぞれ、IO(Input Output)バスB6、B7を介して、接続されている。そして、上記各構成部分の内、BXC60a、60bと、PROC20、30、40、50と、HDU81a〜84a、81b〜84bとが、交換機1における交換単位となる。
図3は、故障通知システム100の構成を示す図である。図3に示す様に、故障通知システム100は、OMP(Operation & Maintenance Processor)10と、PROC20、30、40、50とを有する。OMP10と各PROC20、30、40、50とは、ハブやL(Layer)2スイッチを有する保守用LAN(Local Area Network)等のネットワークNを経由して、接続されている。詳細については後述するが、OMP10は、各PROC20、30、40、50の障害状況を監視する。各PROC20、30、40、50は、保守用LANインタフェースを備えており、自パッケージ内に故障を検出すると、ネットワークNを介して、OMP10にメッセージを送信することにより、故障を通知する。
図4は、OMP10の機能構成を示す図である。図4に示す様に、OMP10は、メッセージ受信部11とメッセージ送信部12とアクセス経路特定部13と診断制御部14と被疑パッケージ判定部15と表示制御部16とアクセス経路テーブル17と故障被疑テーブル18と監視タイマ19とを有する。これら各構成部分は、一方向又は双方向に、各種信号やデータの入出力が可能な様に接続されている。
メッセージ受信部11は、ネットワークNから各種メッセージを受信する。メッセージ送信部12は、ネットワークNに対し、各種メッセージを送信する。アクセス経路特定部13は、アクセス経路テーブル17を参照し、受信された故障発生メッセージの送信元と送信先との情報に基づき、該メッセージの通信経路上にあるパッケージを特定する。診断制御部14は、アクセス経路特定部13により特定された経路上にあるパッケージに対する診断の実行を、上記各PROC20〜50に指示する。
被疑パッケージ判定部15は、アクセス経路特定部13により特定された経路上のパッケージに対する診断結果に基づき、パッケージに発生した故障が「間欠故障」であるか否かを判定する。また、被疑パッケージ判定部15は、故障被疑テーブル18を参照して、上記パッケージの交換優先度を判定すると共に、該判定結果に従い、故障被疑テーブル18の更新を行う。被疑パッケージ判定部15は、故障被疑テーブル18の更新を契機として、監視タイマ19を起動した後、監視タイマ19のタイムアウトに伴い、故障被疑テーブル18をクリアすると共に、監視タイマ19を停止(リセット)する。更に、被疑パッケージ判定部15は、故障の発生したパッケージが保守管理者により交換された時、交換されたパッケージの情報のみを故障被疑テーブル18からクリアする。
表示制御部16は、上記被疑パッケージ、上記診断結果、及び上記交換優先度をディスプレイに表示させることで、交換等の対応を要するパッケージを保守管理者に通知する。アクセス経路テーブル17は、メッセージがアクセス元からアクセス先に到達するまでに通過するパッケージの情報を更新可能に記録したテーブルである。故障被疑テーブル18は、パッケージの実装位置毎に故障被疑フラグが更新可能に設定された後述する故障被疑フラグテーブル181と、パッケージの実装位置毎に交換優先度が更新可能に設定された後述する交換優先度テーブル182とを有する。監視タイマ19は、故障被疑テーブル18が最終更新されてからの経過時間を計測する。
図5は、PROC20の機能構成を示す図である。図5に示す様に、PROC20は、メッセージ受信制御部21とメッセージ送信制御部22とアクセス制御部23と診断制御部24と自律診断実行部25とアンサ監視タイマ26と回線制御部27とを有する。これら各構成部分は、一方向又は双方向に、各種信号やデータの入出力が可能な様に接続されている。
メッセージ受信制御部21は、ネットワークNからの各種メッセージの受信を制御する。メッセージ送信制御部22は、ネットワークNに対する各種メッセージの送信を制御する。アクセス制御部23は、システムバスB2またはIOバスB4へ、オーダ(例えば、自律診断の指示)を出力すると共に、該オーダに対するアンサ(例えば、診断結果)を入力する。また、アクセス制御部23は、オーダ出力時にアンサ監視タイマ26を起動し、アンサ入力時にアンサ監視タイマ26を停止(リセット)する。更に、アクセス制御部23は、アンサ監視タイマ26のタイムアウト発生に伴い、上記故障発生メッセージをOMP10宛に送出する。
診断制御部24は、OMP10から自PROC20への診断起動メッセージを入力した場合、自律診断実行部25に対し、自律診断の実行を指示する。また、診断制御部24は、自律診断実行部25から入力された診断結果を、メッセージ送信制御部22経由でOMP10へ返信する。一方、診断制御部24は、OMP10から他のパッケージ(例えば、BXC60a、60b、PROC30、40、50、HDU81a〜84a、81b〜84b)への診断起動メッセージを入力した場合、アクセス制御部23を介して、上記他のパッケージ宛にオーダを出力する。また、診断制御部24は、上記他のパッケージからのアンサを入力した場合、該アンサ(例えば、診断結果)をOMP10宛に転送する。
自律診断実行部25は、PROC20の自律診断を実行し、自パッケージにおける故障発生の有無を判定する。アンサ監視タイマ26は、上記オーダの出力時点から、該オーダに対するアンサの入力時点までの経過時間を計測し、所定時間を超えた場合には、アクセス制御部23に対し、アンサタイムアウトの発生を通知する。回線制御部27は、アクセス制御部23を介して、制御装置2aに接続された回線装置3aを制御する。
以上、PROC20の構成を代表的に説明したが、他のPROC30、40、50の構成は、PROC20の構成と同様である。従って、共通する構成要素には、末尾が同一の参照符号を用いると共に、その図示及び詳細な説明は省略する。
続いて、OMP10のハードウェア構成を説明する。図6は、OMP10のハードウェア構成を示す図である。図6に示す様に、OMP10においては、ハードウェア的には、プロセッサ10bとメモリ10cとHDD(Hard Disk Drive)10dとNIC(Network Interface Card)10eとディスプレイ10fとが、スイッチ10aを介して、各種信号やデータの入出力が可能な様に接続されている。プロセッサ10bは、例えば、CPU(Central Processing Unit)やDSP(Digital Signal Processor)等である。メモリ10cは、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ等である。ディスプレイ10fは、例えば、LCD(Liquid Crystal Display)、有機EL(Electro-Luminescence)ディスプレイ等の表示装置である。
OMP10の機能構成とハードウェア構成との対応関係につき、メッセージ受信部11とメッセージ送信部12とは、例えば、NIC10e及びプロセッサ10bにより実現される。また、アクセス経路特定部13と診断制御部14と被疑パッケージ判定部15と監視タイマ19とは、例えば、プロセッサ10b及びメモリ10cにより実現される。表示制御部16は、例えば、プロセッサ10b及びディスプレイ10fにより実現される。また、アクセス経路テーブル17と故障被疑テーブル18とは、例えば、HDD10d及びメモリ10cにより実現される。
図7は、故障発生メッセージM1の構成例を示す図である。故障発生メッセージM1は、何れかのパッケージの故障発生時に、異なるパッケージ間で送受信されるメッセージであり、例えば、イーサフレームのペイロード部分に含まれる。図7に示す様に、故障発生メッセージM1は、故障が発生したアクセスのアクセス元のパッケージの識別子(例えば、PROC20)を「アクセス元」として格納する領域と、該アクセスのアクセス先のパッケージの識別子(例えば、HDU81b)を「アクセス先」として格納する領域とを有する。故障発生メッセージM1は、他のデータ格納領域として、「アクセス種別」領域と「故障種別」領域とを有する。
図8Aは、故障発生メッセージM1に設定されるアクセス種別A1の一例を示す図である。図8Aに示す様に、アクセス種別は、故障が発生したアクセスの種別(例えば、“HDUへのライトアクセス”)であり、該種別を示すコード(例えば、“1A”)と対応付けて設定される。なお、アクセス種別コードは、OMP10及び各PROC20、30、40、50において保持されている。
次に、図8Bは、故障発生メッセージM1に設定される故障種別A2の一例を示す図である。図8Bに示す様に、故障種別は、発生した故障の内容(例えば、“エラーアンサ受信”)であり、該内容を示すコード(例えば、“2A”)と対応付けて設定される。なお、故障種別コードは、OMP10及び各PROC20、30、40、50において保持されている。
次に、実施例1に係る故障通知システム100の動作を説明する。動作説明の前提として、OMP10の故障被疑フラグテーブル181の初期状態について説明する。図9は、実施例1に係るOMP10の故障被疑フラグテーブル181の初期状態を示す図である。図9に示す様に、故障被疑フラグテーブル181aには、故障被疑の有無を示す「故障被疑フラグ」が、パッケージ毎に設定されている。故障被疑フラグは、故障被疑が無い場合には“−”に設定され、故障被疑が有る場合には“×”に設定される。通常、初期状態においては、故障通知システム100には、故障被疑のあるパッケージは存在しないため、図9では、全てのパッケージに対応する「故障被疑フラグ」に、故障被疑無しを表す“−”が設定されている。なお、図9の「パッケージ」は、必ずしもパッケージ自体の識別情報でなくてもよく、例えば、各パッケージの実装される位置(ボード差込み位置)の識別情報であってもよい。
図10は、実施例1に係る故障通知システム100により実行される交換優先度表示処理を説明するためのフローチャートである。
S1では、故障を検出したPROCが、故障発生メッセージM1をOMP10へ送信する。以下、PROC20が、HDU81bに対してリードアクセスした際に故障を検出した場合を想定し、S1の処理について具体的に説明する。正常時(故障未発生時)には、まず、PROC20は、BXC60a、60b経由で、リードオーダを、PROC40へ出力する。該リードオーダが入力されたPROC40は、HDU81bに対し、リードコマンドを出力する。次に、HDU81bは、該リードコマンドに対する応答として、リードデータを返信する。そして、リードデータの返信を受けたPROC40は、BXC60b、60a経由で、リードアンサをPROC20に出力する。ところが、PROC20からHDU81bへの経路上のパッケージに故障が発生した場合、PROC20が、リードオーダを出力しても、リードアンサが返信されないことがある。PROC20は、オーダの出力からアンサの入力までの時間を計測しているため、所定時間(例えば、1秒〜1分程度)内に上記アンサが返信されない場合には、アンサタイムアウトとして、故障の発生をOMP10に通知する。
S2では、OMP10のアクセス経路特定部13は、S1でPROCから送信された故障発生メッセージM1を基に、故障の発生したアクセス経路を特定する。すなわち、OMP10は、メッセージ受信部11により、PROC20、30、40、50の何れかから送信された上述の故障発生メッセージM1を受信すると、アクセス経路特定部13により、アクセス経路を特定する。アクセス経路の特定は、アクセス経路特定部13が、アクセス経路テーブル17を参照することにより行う。図11は、アクセス経路テーブル17におけるデータ格納例を示す図である。図11に示す様に、アクセス経路テーブル17には、アクセス経路上のパッケージが、「アクセス経路」として、「アクセス元」のパッケージ及び「アクセス先」のパッケージと対応付けて格納されている。従って、アクセス経路特定部13は、アクセス経路テーブル17の参照により、受信された故障発生メッセージM1に含まれるアクセス元とアクセス先との情報から、故障の発生が検知されたアクセス経路を特定することができる。
例えば、故障発生メッセージM1内に、「アクセス元」として“PROC20”が「アクセス先」として“HDU81b”がそれぞれ含まれている場合を想定する。この場合、PROC20を始点とし、BXC60a、BXC60b、PROC40を順次経由した後、HDU81bを終点とする経路(図2参照)が特定される。同様に、「アクセス元」“PROC30”と「アクセス先」“HDU83b”とが故障発生メッセージM1に含まれる場合、PROC30を始点とし、BXC60a、BXC60b、PROC50を順次経由した後、HDU84bを終点とする経路が特定される。更に、「アクセス元」として“PROC40”、「アクセス先」として“HDU82b”が故障発生メッセージM1に含まれる場合、PROC40からHDU82bに直接到達する経路が特定される。
本実施例では、上述した様に、PROC20からHDU81bへのリードアクセスにてアンサタイムアウトが発生した場合を想定していることから、OMP10の被疑パッケージ判定部15は、PROC20からHDU81bへのアクセス経路上に故障発生パッケージが存在すると推定する。そして、被疑パッケージ判定部15は、上記アクセス経路上のパッケージを、故障の発生した可能性のあるパッケージ(被疑パッケージ)として特定する(S3)。このとき、OMP10は、表示制御部16により、上記被疑パッケージのリストをディスプレイ10fに表示させてもよい(D1)。図12は、実施例1に係る故障被疑パッケージリストL1における被疑パッケージの表示例を示す図である。図12に示す様に、故障被疑パッケージリストL1には、今回のアンサタイムアウトで故障発生が疑われるパッケージとして、“PROC20”、“BXC60a”、“BXC60b”、“PROC40”、“HDU81b”が掲載される。
S4では、OMP10の診断制御部14は、故障種別(例えば、固定故障、間欠故障)の判定の前提処理として、S3で特定された被疑パッケージの診断を行う。診断は、各被疑パッケージにおける固定故障の有無を判定することにより行われる。具体的には、診断制御部14は、S2で特定されたアクセス経路上の各被疑パッケージ(PROC20、BXC60a、BXC60b、PROC40、HDU81b)に自律診断を実行させる。このとき、OMP10は、各被疑パッケージから得られた自律診断結果を、表示制御部16により、ディスプレイ10fに表示させてもよい(D2)。
自律診断処理について、より具体的に説明する。故障通知システム100内の各パッケージは、自律診断機能を有する。各PROC20、30、40、50は、OMP10からの指示に従い、自PROCの自律診断を実行後、診断結果をOMP10に通知する。従って、OMP10は、各PROC20、30、40、50に対して自律診断を指示することで、診断結果を得ることができる。また、PROC以外のパッケージであるBXC60a、60b、HDU81a〜84a、81b〜84bは、各PROC20、30、40、50からの指示に従い、自パッケージの自律診断を実行後、診断結果を各PROCに通知する。該通知を受けた各PROC20、30、40、50は、OMP10に診断結果を転送する。従って、OMP10は、各PROC20、30、40、50に対して、他のパッケージの自律診断を指示することで、BXC60a、60b、HDU81a〜84a、81b〜84bの診断結果を、PROC経由で得ることができる。
上記自律診断の結果、上記アクセス経路上の少なくとも1つの被疑パッケージにおける診断結果がNG(固定故障有り)である場合(S5;Yes)、被疑パッケージ判定部15は、故障被疑フラグテーブル181内のデータをクリアする(S6)。なお、S6の処理が開始される時点で、故障被疑フラグテーブル181が初期状態にある場合(図9参照)には、S6の処理は省略される。
クリア後、被疑パッケージ判定部15は、監視タイマ19を停止する(S7)。
一方、S4における自律診断の結果、上記アクセス経路上の全ての被疑パッケージにおける診断結果がOK(固定故障無し)である場合(S5;No)には、被疑パッケージ判定部15は、発生した故障が「間欠故障」であると判定する。その後、被疑パッケージ判定部15は、現時点で、故障被疑フラグテーブル181に故障被疑フラグの設定が有るか否かを判定する(S8)。
上記判定の結果、故障被疑フラグテーブル181に故障被疑フラグが設定されていない場合(S8;No)、被疑パッケージ判定部15は、故障被疑フラグテーブル181上の被疑パッケージに対し、故障被疑フラグの設定を行う(S9)。図13は、実施例1に係るOMP10の故障被疑フラグテーブル181bにおける故障被疑フラグの設定例を示す図である。図13に示す様に、間欠故障の発生に伴い、S3で被疑パッケージと特定されたパッケージ(PROC20、BXC60a、BXC60b、PROC40、HDU81b)に対応する故障被疑フラグは、初期状態の“−”から“×”に更新される。
テーブル更新後、被疑パッケージ判定部15は、監視タイマ19を起動する(S10)。
故障種別は間欠故障(診断結果OK)であるため、保守管理者は、現時点では、被疑パッケージの中から、実際に故障が発生したパッケージを特定することができない。従って、保守管理者は、パッケージの交換を行うことなく、経過を監視する。
しかしながら、依然、故障要因のパッケージは交換されていないため、別のリードアクセスにおいてもアンサタイムアウトが発生する。本実施例では、その後、PROC30からHDU84bへのアクセスにてアンサタイムアウトが発生した場合を想定する。このため、OMP10の被疑パッケージ判定部15は、アクセス経路テーブル17を参照することで、PROC30からHDU84bへのアクセス経路上に故障発生パッケージが存在すると推定する。続いて、被疑パッケージ判定部15は、上記アクセス経路上の被疑パッケージ(PROC30、BXC60a、BXC60b、PROC50、HDU84b)と、故障被疑フラグテーブル181に現在フラグ“×”が設定されている被疑パッケージ(図13参照)とを比較する。そして、被疑パッケージ判定部15は、双方の被疑パッケージに共通する被疑パッケージ、換言すれば、一致する被疑パッケージ(BXC60a、BXC60b)を特定する(S11)。
D3では、OMP10は、表示制御部16により、上記アクセス経路上の被疑パッケージの一覧をディスプレイ10fに表示させる。図14は、実施例1に係る被疑パッケージ比較後の故障被疑パッケージリストL2における被疑パッケージの表示例を示す図である。図14に示す様に、故障被疑パッケージリストL2には、今回のアンサタイムアウトで故障発生が疑われるパッケージとして、“PROC30”、“BXC60a”、“BXC60b”、“PROC50”、“HDU84b”が掲載される。併せて、上記一致する被疑パッケージであるBXC60a、BXC60bが、●により強調表示される。故障被疑パッケージリストL2の●は、交換優先度の高いパッケージであることを示す。これにより、保守管理者は、故障の可能性のあるパッケージの中から、特に故障の可能性が高く交換すべきパッケージを、簡易かつ迅速に把握することができる。
S12では、被疑パッケージ判定部15は、S11における比較の結果特定された被疑パッケージにのみ、故障被疑フラグを設定することで、故障被疑フラグテーブル181を更新する。図15は、実施例1に係るOMP10の故障被疑フラグテーブル181更新後における故障被疑フラグの設定例を示す図である。図15に示す様に、故障被疑フラグテーブル181cは、上記S11の処理結果が反映されたフラグ設定となっている。すなわち、上記S11の処理により、被疑パッケージは、2つのパッケージ(BXC60a、BXC60b)に絞り込まれたため、故障被疑フラグが従前まで設定されていた被疑パッケージ(図13参照)の内、該2つのパッケージ以外のパッケージ(PROC20、40、HDU81b)のフラグは解除されている。
テーブル更新後、被疑パッケージ判定部15は、監視タイマ19を再び起動する(S13)。
その後、保守管理者は、交換優先度の高いBXC60a、60bの内、実際には間欠故障していないBXC60bを交換したとする。なお、この時点では、保守管理者は、間欠故障の発生したパッケージが、BXC60a、60bの内の何れのパッケージであるかを知らないため、交換すべきパッケージを正確に特定することはできない。従って、本実施例では、説明の便宜上、保守管理者が、間欠故障の発生していないパッケージであるBXC60bの交換を実施したものとする。
図16は、実施例1に係る故障通知システム100により実行されるパッケージ交換後処理を説明するためのフローチャートである。S21では、保守管理者は、BXC60bの交換後、キーボードやマウス等の入力装置により、交換済パッケージ(本実施例では“BXC60b”)の情報を入力する。OMP10の被疑パッケージ判定部15は、該入力により、パッケージが交換されたことを検知すると、故障被疑フラグテーブル181を再び更新する。具体的には、被疑パッケージ判定部15は、保守管理者により指定されたBXC60bの故障被疑フラグをクリアする(S22)。
図17は、実施例1に係るOMP10の故障被疑フラグテーブル181dにおけるパッケージ交換後の故障被疑フラグの設定例を示す図である。図17に示す様に、故障被疑フラグテーブル181dは、BXC60bの交換処理が反映されたフラグ設定となっている。すなわち、従前まで故障被疑フラグ“×”が設定されていたBXC60b(図15参照)が、保守管理者によって交換されたため、該故障被疑フラグ“×”はクリアされ、“−”に更新されている。
しかしながら、依然として、本来交換すべきであった故障要因のパッケージ(BXC60a)が残存するため、交換後も、例えば、PROC20からHDU81bへのリードアクセスにおいてアンサタイムアウトが発生する。この場合、OMP10の被疑パッケージ判定部15は、アクセス経路テーブル17を参照することで、PROC20からHDU81bへのアクセス経路上に故障発生パッケージが存在するとの推定が可能である。そこで、被疑パッケージ判定部15は、上述のS11と同様に、上記アクセス経路上の被疑パッケージ(PROC20、BXC60a、BXC60b、PROC40、HDU81b)と、故障被疑フラグテーブル181に現在フラグ“×”が設定されている被疑パッケージ(図17参照)とを比較する。そして、被疑パッケージ判定部15は、互いに一致する被疑パッケージ(BXC60a)を特定する。
OMP10は、表示制御部16により、上記アクセス経路上の被疑パッケージの一覧をディスプレイ10fに表示させる。図18は、実施例1に係る被疑パッケージの交換後かつ比較後の故障被疑パッケージリストL3における被疑パッケージの表示例を示す図である。図18に示す様に、故障被疑パッケージリストL3には、今回のアンサタイムアウトで故障発生が疑われるパッケージとして、“PROC20”、“BXC60a”、“BXC60b”、“PROC40”、“HDU81b”が掲載される。併せて、上記互いに一致する被疑パッケージであるBXC60aが、交換優先度の高いパッケージとして、●により強調表示される。これにより、保守管理者は、故障の可能性のあるパッケージの中から、特に故障の可能性が高く交換を要するパッケージを、容易かつ適確に特定することができる。
保守管理者は、1つに特定されたパッケージ(BXC60a)を交換する。交換後は、保守管理者は、BXC60bの交換後と同様に、入力装置により、交換済パッケージ(本実施例では“BXC60a”)の情報を入力する(S21)。OMP10の被疑パッケージ判定部15は、該入力により、パッケージが交換されたことを検知すると、故障被疑フラグテーブル181を再び更新する。具体的には、被疑パッケージ判定部15は、保守管理者により指定されたBXC60aの故障被疑フラグをクリアする(S22)。
図19は、実施例1に係る故障通知システム100により実行される監視タイマ停止処理を説明するためのフローチャートである。S31では、OMP10の被疑パッケージ判定部15は、故障被疑フラグテーブル181をクリアする。図20は、実施例1に係るOMP10の故障被疑フラグテーブルクリア後の状態を示す図である。図20に示す様に、故障発生パッケージが交換された結果、故障要因が消滅した場合には、故障被疑フラグテーブル181eは、初期状態(図9参照)に戻る。すなわち、従前まで故障被疑フラグ“×”が設定されていたBXC60a(図17参照)が、保守管理者によって交換されたため、該故障被疑フラグ“×”はクリアされ、“−”に更新される。その結果、故障被疑フラグテーブル181に設定されていた故障被疑フラグは全てクリアされる。
クリア後、被疑パッケージ判定部15は、上述したS7(図10参照)と同様に、監視タイマ19を停止する(S32)。
上述した様に、故障通知システム100によれば、保守管理者は、故障被疑パッケージリストL3に表示された優先度に従い、被疑パッケージの交換を行うことで、早期に確実な復旧が可能となる。
ここで、OMP10の監視タイマ19の用途について説明する。第1に、間欠故障は、所定の期間内に故障を繰り返すものであるが、OMP10が、故障発生パッケージを特定できない場合でも、ある被疑パッケージを交換することにより、所定時間(例えば、1日〜1週間程度)故障が発生しない場合がある。この様な場合、保守管理者は、交換されたパッケージに故障要因があったものと推定することができる。このため、監視タイマ19が、交換に伴う故障被疑フラグテーブル181の更新後の経過時間を計測することで、故障発生パッケージの交換が完了したか否かの判断が可能となる。
第2に、パッケージ故障の中には、装置等のハードウェアの故障に限らず、外部要因によって発生する故障(以下、「ソフトエラー」と記す。)がある。例えば、α線によるメモリのビットエラー等がソフトエラーに該当する。ソフトエラーに起因するパッケージ故障は、ハードウェア故障と異なり、頻発するものではない。このため、パッケージ故障が検出された後、保守管理者が、パッケージ交換を行わなくても、所定時間(例えば、1日〜1週間程度)の間、パッケージ故障が再発しない場合には、ソフトエラーに起因した故障であると推定することができる。このため、監視タイマ19が、パッケージ故障の検知に伴う故障被疑フラグテーブル181の更新後の経過時間を計測することで、故障発生パッケージの交換が必要であるか否かの判断が可能となる。
従って、故障被疑フラグテーブル181に設定された故障被疑フラグは、該テーブルの更新後、所定時間、故障発生が検知されない場合には、全てクリアされるものとしてもよい。
以下、図21〜図24を参照しながら、上述の監視タイムアウトに伴うテーブルクリア処理について、より詳細に説明する。本説明では、PROC20からHDU81bへのリードアクセスにおいてアンサタイムアウトが発生した場合を想定するが、他の種別のアクセスであっても同様の処理が実行可能である。また、本説明では、HDU81bに間欠故障が発生したケースを想定する。
PROC20は、HDU81bに対するリードアクセスがアンサタイムアウトとなると、OMP10に対し、故障の発生を通知する。該通知を受けたOMP10の被疑パッケージ判定部15は、アクセス経路テーブル17を参照することで、PROC20からHDU81bへのアクセス経路上に故障発生パッケージが存在すると推定する。OMP10の被疑パッケージ判定部15は、上記アクセス経路上の各パッケージに自律診断を実行させ、全てのパッケージにおける診断結果がOKの場合は、発生した故障を間欠故障と判定すると共に、各パッケージに故障被疑フラグを設定する。なお、診断結果がNGの場合は、被疑パッケージ判定部15は、故障被疑フラグテーブル181をクリアする。
図21は、実施例1に係るOMP10の故障被疑フラグテーブル181fにおける監視タイマ起動前の故障被疑フラグの設定例を示す図である。図21に示す様に、間欠故障の発生に伴い、被疑パッケージと特定されたパッケージ(PROC20、BXC60a、BXC60b、PROC40、HDU81b)に対応する故障被疑フラグは、初期状態の“−”から“×”に更新されている。
テーブル更新後、被疑パッケージ判定部15は、監視タイマ19を起動する。
このとき、OMP10は、表示制御部16により、上記被疑パッケージのリストをディスプレイ10fに表示させる。図22は、実施例1に係る監視タイマ起動後の故障被疑パッケージリストL4における被疑パッケージの表示例を示す図である。図22に示す様に、故障被疑パッケージリストL4には、上記リードアクセスのアンサタイムアウトで故障発生が疑われるパッケージとして、“PROC20”、“BXC60a”、“BXC60b”、“PROC40”、“HDU81b”が掲載される。
その後、保守管理者は、故障被疑パッケージリストL4を参照して、上記各パッケージの内、間欠故障しているHDU81bを交換したとする。なお、この時点では、保守管理者は、間欠故障の発生したパッケージが何れのパッケージであるかを知らないため、交換すべきパッケージを正確に特定することはできない。しかしながら、説明の便宜上、保守管理者が、間欠故障の発生したパッケージであるHDU81bの交換を実施したものとする。
保守管理者は、HDU81bの交換後、キーボードやマウス等の入力装置により、交換済パッケージ(本実施例では“HDU81b”)の情報を入力する。OMP10の被疑パッケージ判定部15は、該入力により、パッケージが交換されたことを検知すると、故障被疑フラグテーブル181を再び更新する。具体的には、被疑パッケージ判定部15は、保守管理者により指定されたHDU81bの故障被疑フラグをクリアする。
図23は、実施例1に係るOMP10の故障被疑フラグテーブル181gにおける故障パッケージ交換後の故障被疑フラグの設定例を示す図である。図23に示す様に、故障被疑フラグテーブル181gは、HDU81bの交換処理が反映されたフラグ設定となっている。すなわち、従前まで故障被疑フラグ“×”が設定されていたHDU81b(図21参照)が、保守管理者によって交換されたため、HDU81bの故障被疑フラグ“×”はクリアされ、“−”に更新されている。
故障被疑フラグテーブル181gには、故障被疑フラグ“×”が複数残存するが、これらのフラグに対応するパッケージは、実際には故障していない。すなわち、HDU81bの交換により、故障要因が除去されたため、PROC20からHDU81bへのアクセス経路に、再び故障が発生することはない。
以降、故障は検出されないため、OMP10の被疑パッケージ判定部15は、監視タイマ19による計測時間が所定時間(例えば、1日〜1週間程度)に達したことを契機として、故障被疑フラグテーブル181に現在設定されている4つの故障被疑フラグ“×”を全てクリアする。
図24は、実施例1に係るOMP10の故障被疑フラグテーブルの、監視タイムアウトに伴うクリア後の状態を示す図である。図24に示す様に、監視タイマ19がタイムアウトとなった場合には、既に故障要因が消滅しているとの判断が可能であるため、故障被疑フラグテーブル181hは、初期状態(図9参照)に戻る。すなわち、故障要因の消滅に伴い、従前まで故障被疑フラグ“×”が設定されていたPROC20、BXC60a、BXC60b、PROC40(図23参照)のフラグはクリアされ、“−”に更新される。その結果、故障被疑フラグテーブル181に設定されていた故障被疑フラグは全てクリアされる。
テーブルのクリア後、被疑パッケージ判定部15は、監視タイマ19を停止すると共に、故障被疑フラグテーブル181のクリアが完了したことを、表示制御部16により保守管理者に通知する。
上述した様に、故障通知システム100によれば、OMP10は、監視タイマ19による計時の開始後、所定時間故障が再発しない場合に、故障被疑フラグテーブル181に設定されている全ての故障被疑フラグをクリアする。これにより、OMP10は、自動的に監視を解除することができる。従って、保守管理者は、交換が完了し、故障要因が消滅した場合に、故障発生パッケージの監視処理の継続を回避することができる。その結果、故障通知システム100の効率的な運用が可能となる。
以上説明した様に、故障通知システム100によれば、OMP10は、アクセス経路特定部13と故障被疑テーブル18と被疑パッケージ判定部15と表示制御部16とを有する。アクセス経路特定部13は、保守交換単位であるパッケージ(例えば、部品)の故障発生時、複数のパッケージを含む経路の中から、故障が発生したパッケージを含む経路を特定する。故障被疑テーブル18は、故障発生の疑われるパッケージを特定する情報を格納する。被疑パッケージ判定部15は、上記複数のパッケージの内、故障被疑テーブル18に格納された上記情報により特定されるパッケージ(例えば、前回の被疑パッケージとしてテーブルに事前に記憶されているパッケージ)と、アクセス経路特定部13により特定された経路上のパッケージ(例えば、今回新たに検出された被疑パッケージ)とを比較する。そして、被疑パッケージ判定部15は、該比較の結果、一致するパッケージを、故障が発生したパッケージと判定する。表示制御部16は、被疑パッケージ判定部15により故障が発生したと判定されたパッケージの交換優先度を、他のパッケージの交換優先度よりも高くして通知する。
本実施例に係る故障通知システム100は、例えば、以下の効果を奏する。OMP10は、故障発生時に、交換優先度の高い被疑パッケージが識別可能な様に、被疑パッケージを表示する。従って、夜間緊急対応においても、保守管理者が、必要以上に広範囲にパッケージを交換してしまったり、既に交換済の被疑パッケージを再度交換してしまうことが未然に防止される。あるいは、反対に、保守管理者が、交換優先度の高い未交換の被疑パッケージを長時間放置してしまうことが予防される。その結果、システムの早期復旧が可能となる。更に、保守管理者は、交換優先度の表示を参考にして、交換等の保守作業を迅速に行うことができる。これにより、保守管理作業に掛かる時間が短縮される。その結果、故障通知システム100のMTTR(Mean Time To Repair)が低下し、システムの信頼性が向上すると共に、安定稼働が実現される。
次に、実施例2について説明する。実施例2に係る故障通知システムは、図3に示した実施例1に係る故障通知システムと同様の構成を有する。また、実施例2に係るOMPの構成は、図4、図6に示した実施例1に係るOMPの構成と同様である。更に、実施例2に係るPROCの構成は、図5に示した実施例1に係るPROCの構成と同様である。従って、実施例2では、実施例1と共通する構成要素には、同一の参照符号を用いると共に、その図示及び詳細な説明は省略する。
実施例2が実施例1と異なる点は、交換優先度を決定及び通知する方法である。具体的には、実施例1では、1つのパッケージでの故障発生を想定したことから、OMP10は、交換の必要性を示す●の有無(二値)によって、交換優先度を決定及び通知するものとした。これに対し、実施例2では、故障が複数箇所で発生した場合にも対応可能な様に、OMP10は、交換優先度を数値化することにより、多値の交換優先度を決定及び通知する。以下においては、この様な実施例2に係る故障通知システム100の動作を、図25〜図37を参照しながら、実施例1との相違点を中心として説明する。
次に、実施例2に係る故障通知システム100の動作を説明する。動作説明の前提として、OMP10の交換優先度テーブル182の初期状態について説明する。図25は、実施例2に係るOMP10の交換優先度テーブル182の初期状態を示す図である。図25に示す様に、交換優先度テーブル182aには、故障被疑の有無及び交換優先度を示す「故障被疑フラグ兼交換優先度」が、パッケージ毎に設定されている。故障被疑フラグ兼交換優先度は、故障被疑が無い場合には、初期値である“0”に設定され、故障被疑が有る場合には“1”〜“255”の数値に設定される。この数値が大きい程、交換優先度が高い、すなわち、交換の必要性の高いパッケージである。通常、初期状態においては、故障通知システム100には、故障被疑のあるパッケージは存在しないため、図25では、全てのパッケージに対応する「故障被疑フラグ兼交換優先度」に、故障被疑無しを表す“0”が設定されている。なお、図25の「パッケージ」は、必ずしもパッケージ自体の識別情報でなくてもよく、例えば、各パッケージの実装される位置(ボード差込み位置)の識別情報であってもよい。
図26は、実施例2に係る故障通知システム100により実行される交換優先度表示処理を説明するためのフローチャートである。図26は、T12の処理を除き、実施例1に係る動作の説明において参照した図10と同様の処理を含む。従って、共通するステップには、末尾が同一の参照符号を付すと共に、その詳細な説明は省略する。具体的には、図26のステップT1〜T7、T13の各処理は、図10に示したステップS1〜S7、S13の各処理にそれぞれ対応する。また、図31のステップT21、T22、及び図36のステップT31、T32の各処理は、図16に示したステップS21、S22、及び図19に示したS31、S32の各処理にそれぞれ対応する。更に、図26のステップE1〜E3の各処理は、図10に示したステップD1〜D3の各処理に対応する。
以下、BXC60b及びPROC40に間欠故障が発生した場合を例にとり、実施例2に係る故障通知システム100により実行される交換優先度表示処理について、より詳細に説明する。
まず、BXC60bの間欠故障に起因して、PROC20からHDU81bへのリードアクセスにアンサタイムアウトが発生すると、間欠故障を検出したPROC20が、故障発生メッセージM1をOMP10へ送信する(T1)。T2では、OMP10のアクセス経路特定部13は、T1でPROC20から送信された故障発生メッセージM1を基に、故障の発生したアクセス経路を特定する。
本実施例では、上述した様に、PROC20からHDU81bへのリードアクセスにてアンサタイムアウトが発生した場合を想定していることから、OMP10の被疑パッケージ判定部15は、PROC20からHDU81bへのアクセス経路上に故障発生パッケージが存在すると推定する。そして、被疑パッケージ判定部15は、上記アクセス経路上のパッケージを、故障の発生した可能性のあるパッケージ(被疑パッケージ)として特定する(T3)。
このとき、OMP10は、表示制御部16により、上記被疑パッケージのリストをディスプレイ10fに表示させてもよい(E1)。
T4では、OMP10の診断制御部14は、故障種別(例えば、固定故障、間欠故障)の判定の前提処理として、T3で特定された被疑パッケージの診断を行う。このとき、OMP10は、各被疑パッケージから得られた自律診断結果を、表示制御部16により、ディスプレイ10fに表示させてもよい(E2)。
上記自律診断の結果、上記アクセス経路上の少なくとも1つの被疑パッケージにおける診断結果がNG(固定故障有り)である場合(T5;Yes)、被疑パッケージ判定部15は、交換優先度テーブル182内のデータをクリアする(T6)。なお、T6の処理が開始される時点で、交換優先度テーブル182が初期状態にある場合(図25参照)には、T6の処理は省略される。
クリア後、被疑パッケージ判定部15は、監視タイマ19を停止する(T7)。
一方、T4における自律診断の結果、上記アクセス経路上の全ての被疑パッケージにおける診断結果がOK(固定故障無し)である場合(T5;No)には、被疑パッケージ判定部15は、交換優先度テーブル182上の被疑パッケージに対し、交換優先度を1加算する(T12)。図27は、実施例2に係るOMP10の交換優先度テーブル182bにおける故障被疑フラグ兼交換優先度の設定例を示す図である。図27に示す様に、間欠故障の発生に伴い、T3で被疑パッケージと特定されたパッケージ(PROC20、BXC60a、BXC60b、PROC40、HDU81b)に対応する故障被疑フラグ兼交換優先度は、初期状態の“0”から“1”に更新される。図28は、実施例2に係る故障被疑パッケージリストL5における被疑パッケージの表示例を示す図である。図28に示す様に、故障被疑パッケージリストL5には、今回のアンサタイムアウトで故障発生が疑われるパッケージが、交換優先度“1”を先頭に付された状態で掲載される。
テーブル更新後、被疑パッケージ判定部15は、監視タイマ19を起動する(T13)。
本実施例で想定する2つの故障種別は何れも間欠故障(診断結果OK)であるため、保守管理者は、現時点では、被疑パッケージの中から、実際に故障が発生したパッケージを特定することができない。従って、保守管理者は、パッケージの交換を行うことなく、経過を監視する。
しかしながら、依然、故障要因のパッケージ(BXC60b、PROC40)は交換されていないため、別のリードアクセスにおいてもアンサタイムアウトが発生する。本実施例では、その後、PROC30からHDU84bへのアクセスにてアンサタイムアウトが発生したとする。この場合、OMP10の被疑パッケージ判定部15は、アクセス経路テーブル17を参照することで、PROC30からHDU84bへのアクセス経路上に故障発生パッケージが存在すると推定する。続いて、被疑パッケージ判定部15は、上記アクセス経路上のパッケージを被疑パッケージと特定し、該被疑パッケージの交換優先度に更に“1”を加算する。
E3では、OMP10は、表示制御部16により、上記アクセス経路上の被疑パッケージの一覧をディスプレイ10fに表示させる。図29は、実施例2に係る更新後の故障被疑パッケージリストL6における被疑パッケージの表示例を示す図である。図29に示す様に、故障被疑パッケージリストL6には、今回のアンサタイムアウトで故障発生が疑われるパッケージとして、“PROC30”、“BXC60a”、“BXC60b”、“PROC50”、“HDU84b”が掲載される。併せて、各被疑パッケージの交換優先度が、対応するパッケージの先頭部分に表示される。BXC60a、BXC60bに関しては、1回目のアクセスに続き、2回目の(今回の)アクセスにおいても、アンサタイムアウトが発生したアクセス経路上のパッケージである。このため、BXC60a、BXC60bには、他のパッケージよりも高い“2”の交換優先度が付されている。これにより、保守管理者は、故障の可能性のあるパッケージの中から、特に故障の可能性が高く交換すべきパッケージを、容易かつ正確に認識することができる。
図30は、実施例2に係るOMP10の交換優先度テーブル182更新後における故障被疑フラグ兼交換優先度の設定例を示す図である。図30に示す様に、交換優先度テーブル182cは、上記T12の処理結果が反映された優先度設定となっている。すなわち、上記T12の処理により、アンサタイムアウトの発生した2つのアクセス経路に共通するパッケージ(BXC60a、BXC60b)の交換優先度は“2”に設定され、1つのアクセス経路上のパッケージ(PROC20、30、40、50、HDU81b、84b)の交換優先度は“1”に設定される。そして、アンサタイムアウトの発生していないアクセス経路上のパッケージ(HDU81a〜84a、82b、83b)の交換優先度は、初期値である“0”を維持する。
テーブル更新後、被疑パッケージ判定部15は、監視タイマ19を再び起動する。
その後、保守管理者は、交換優先度の高いBXC60a、60bの内、間欠故障の発生しているBXC60bを交換したとする。なお、本実施例では、BXC60b及びPROC40に間欠故障が発生した場合を想定しているため、BXC60bが除外されてもなお、PROC40において間欠故障が継続する。
図31は、実施例2に係る故障通知システム100により実行されるパッケージ交換後処理を説明するためのフローチャートである。T21では、保守管理者は、BXC60bの交換後、キーボードやマウス等の入力装置により、交換済パッケージ(本実施例では“BXC60b”)の情報を入力する。OMP10の被疑パッケージ判定部15は、該入力により、パッケージが交換されたことを検知すると、交換優先度テーブル182を再び更新する。具体的には、被疑パッケージ判定部15は、保守管理者により指定されたBXC60bの故障被疑フラグ兼交換優先度をクリアする(T22)。
図32は、実施例2に係るOMP10の交換優先度テーブル182dにおけるパッケージ交換後の故障被疑フラグ兼交換優先度の設定例を示す図である。図32に示す様に、交換優先度テーブル182dは、BXC60bの交換処理が反映されたフラグ設定となっている。すなわち、従前まで故障被疑フラグ兼交換優先度“2”が設定されていたBXC60b(図30参照)が、保守管理者によって交換されたため、該交換優先度“2”はクリアされ、“0”に更新されている。
しかしながら、依然として、故障要因のパッケージ(PROC40)が残存するため、交換後も、例えば、PROC40からHDU82bへのリードアクセスにおいてアンサタイムアウトが発生する。この場合、OMP10の被疑パッケージ判定部15は、アクセス経路テーブル17を参照することで、PROC40からHDU82bへのアクセス経路上(PROC40、HDU82bの何れか)に故障発生パッケージが存在するとの推定が可能である。そこで、被疑パッケージ判定部15は、上述のT12と同様に、交換優先度テーブル182上の被疑パッケージに対し、交換優先度を1加算する。
図33は、実施例2に係るOMP10の交換優先度テーブル182bにおける更新後の故障被疑フラグ兼交換優先度の設定例を示す図である。図33に示す様に、間欠故障の発生に伴い、T3で被疑パッケージと特定されたパッケージ(PROC40、HDU82b)に対応する故障被疑フラグ兼交換優先度はそれぞれ、“1”、“0”から、“2”、“1”に更新される。
併せて、OMP10は、表示制御部16により、上記アクセス経路上の被疑パッケージの一覧をディスプレイ10fに表示させる。図34は、実施例2に係る被疑パッケージの交換後かつ優先度加算後の故障被疑パッケージリストL7における被疑パッケージの表示例を示す図である。図34に示す様に、故障被疑パッケージリストL7には、今回のアンサタイムアウトで故障発生が疑われるパッケージとして、“PROC40”、“HDU82b”が掲載される。同時に、各パッケージの交換優先度を示す数値“2”、“1”が、対応するパッケージの先頭部分に並列表示される。これにより、保守管理者は、故障の可能性のあるパッケージの中から、特に故障の可能性が高く交換を要するパッケージを、容易かつ正確に特定することができる。
保守管理者は、故障被疑パッケージリストL7に掲載された被疑パッケージの内、交換優先度の高い方のパッケージ(PROC40)を交換する。交換後は、保守管理者は、BXC60bの交換後と同様に、入力装置により、交換済パッケージ(本実施例では“PROC40”)の情報を入力する(T21)。OMP10の被疑パッケージ判定部15は、該入力により、パッケージが交換されたことを検知すると、交換優先度テーブル182を再び更新する。具体的には、被疑パッケージ判定部15は、保守管理者により指定されたPROC40の故障被疑フラグ兼交換優先度をクリアする(T22)。
図35は、実施例2に係るOMP10の交換優先度テーブル182fにおける2回目のパッケージ交換後の故障被疑フラグ兼交換優先度の設定例を示す図である。図35に示す様に、交換優先度テーブル182fは、PROC40の交換処理が反映されたフラグ設定となっている。すなわち、従前まで故障被疑フラグ兼交換優先度“2”が設定されていたPROC40(図33参照)が、保守管理者によって交換されたため、該交換優先度“2”はクリアされ、“0”に更新されている。
2回目のパッケージ交換により、故障発生パッケージは全て取り除かれ、間欠故障の発生要因は消滅した。このため、OMP10は、監視タイマ19のタイムアウトを契機として、監視タイマ停止処理を実行する。図36は、実施例2に係る故障通知システム100により実行される監視タイマ停止処理を説明するためのフローチャートである。T31では、OMP10の被疑パッケージ判定部15は、交換優先度テーブル182をクリアする。図37は、実施例2に係るOMP10の交換優先度テーブルクリア後の状態を示す図である。図37に示す様に、故障発生パッケージが交換された結果、故障要因が消滅した場合には、交換優先度テーブル182gは、初期状態(図25参照)に戻る。すなわち、従前まで故障被疑フラグ兼交換優先度“2”が設定されていたPROC40(図33参照)が、保守管理者によって交換されたことに伴い、全ての故障被疑フラグ兼交換優先度がクリアされ、“0”に更新される。
テーブルのクリア後、被疑パッケージ判定部15は、上述したT7(図26参照)と同様に、監視タイマ19を停止する(T32)と共に、交換優先度テーブル182のクリアが完了したことを、表示制御部16により保守管理者に通知する。
上述した様に、故障通知システム100によれば、OMP10の表示制御部16は、被疑パッケージ判定部15により故障が発生したと判定されたパッケージの交換優先度を、上記比較の結果が一致した回数に応じた数値を用いて通知する。これにより、OMP10は、間欠故障が複数のパッケージで発生した場合にも、交換を要するパッケージを精度良く特定し、その優先度と併せて保守管理者に提示することができる。また、保守管理者は、提示された交換優先度を参照し、より優先度の高い被疑パッケージの交換を行うことで、早い段階で確実にシステムを復旧させることが可能となる。
なお、実施例2に係る故障通知システム100では、被疑パッケージの交換優先度の値は、1ずつ加算されるものとした。しかしながら、これに限らず、OMP10の被疑パッケージ判定部15は、システム構成やアクセス頻度に応じて、加算される交換優先度の値に重み付けを行ってもよい。例えば、BXC60a、60bは、系間(0系−1系)を接続するパッケージであることから、アクセス種別に拘らず、アクセス経路となる可能性が高い。このため、被疑パッケージ判定部15は、BXC60a、60bの交換優先度を、他のパッケージ(PROCやHDU)の交換優先度と同様にカウントしてしまうと、アクセスが多い分、BXC60a、60bの交換優先度が突出して高くなってしまうことが懸念される。そこで、被疑パッケージ判定部15は、かかる優先度の突出を抑制するため、BXC60a、60bの交換優先度の増加分として、“1”ではなく“0.5”を加算するものとしてもよい。
また、例えば、HDUの多いシステム構成の場合には、被疑パッケージ判定部15は、HDUの交換優先度の増加分を、通常の“1”から“2”に増加させるものとしてもよい。更に、例えば、被疑パッケージ判定部15は、MTTF(Mean Time To Failure)の数値が所定の閾値よりも高いパッケージに対し、他のパッケージよりも高い重み付けを与えるものとしてもよい。なお、被疑パッケージ判定部15は、重み付けの度合いを決定する際、アクセス回数や頻度等を考慮して正規化された値を用いてもよい。
次に、実施例3について説明する。実施例3に係る故障通知システムは、図3に示した実施例1に係る故障通知システムと同様の構成を有する。また、実施例3に係るOMPの構成は、図4、図6に示した実施例1に係るOMPの構成と同様である。更に、実施例3に係るPROCの構成は、図5に示した実施例1に係るPROCの構成と同様である。従って、実施例3では、実施例1と共通する構成要素には、同一の参照符号を用いると共に、その図示及び詳細な説明は省略する。
実施例3が実施例1と異なる点は、故障被疑フラグテーブルの構成である。具体的には、実施例1では、OMP10は、アクセス経路を問わず共通化された1つの故障被疑フラグテーブル181を用いるものとした。これに対し、実施例3では、相互に関連性の無い複数の故障が同時期に発生した場合にも対応可能な様に、OMP10は、複数の故障被疑フラグテーブル181−n(nは自然数であり、例えば、1〜32)を有する。また、これに合わせて、OMP10は、監視タイマ19−n(nは自然数であり、例えば、1〜32)を有する。以下においては、この様な実施例3に係る故障通知システム100の動作を、図38〜図45を参照しながら、実施例1との相違点を中心として説明する。
次に、実施例3に係る故障通知システム100の動作を説明する。動作説明の前提として、OMP10の故障被疑フラグテーブル181の初期状態について説明する。図38は、実施例3に係るOMP10の故障被疑フラグテーブル181の初期状態を示す図である。図38に示す様に、故障被疑フラグテーブル181−nには、故障被疑の有無を示す「故障被疑フラグ」が、パッケージ毎に設定されている。故障被疑フラグは、故障被疑が無い場合には“−”に設定され、故障被疑が有る場合には“×”に設定される。通常、初期状態においては、故障通知システム100には、故障被疑のあるパッケージは存在しないため、図38では、全てのパッケージに対応する「故障被疑フラグ」に、故障被疑無しを表す“−”が設定されている。なお、図38の「パッケージ」は、必ずしもパッケージ自体の識別情報でなくてもよく、例えば、各パッケージの実装される位置(ボード差込み位置)の識別情報であってもよい。
図39は、実施例3に係る故障通知システム100により実行される交換優先度表示処理を説明するためのフローチャートである。図39は、U9、U10の処理を除き、実施例1に係る動作の説明において参照した図10と同様である。従って、共通するステップには、末尾が同一の参照符号を付すと共に、その詳細な説明は省略する。具体的には、図39のステップU1〜U13の各処理は、図10に示したステップS1〜S13の各処理にそれぞれ対応する。また、図39のステップF1〜F3の各処理は、図10に示したステップD1〜D3の各処理に対応する。更に、図44のステップU21、U22、及び図45のステップU31、U32の各処理は、図16に示したステップS21、S22、及び図19に示したS31、S32の各処理にそれぞれ対応する。
以下、HDU81b及びHDU83bにおいて、関連しない間欠故障が同時期に発生した場合を例にとり、実施例3に係る故障通知システム100により実行される交換優先度表示処理について、実施例1との相違点(U9、U10)を中心に説明する。
最初に、HDU81bの間欠故障に起因して、PROC40からHDU81bへのリードアクセスにアンサタイムアウトが発生する。OMP10のアクセス経路特定部13は、PROC40からの故障発生メッセージM1により、PROC40、HDU81b間における故障の発生を検知する。
U5における自律診断の結果、PROC40、HDU81b間の経路上の全ての被疑パッケージ(PROC40、HDU81b)における診断結果がOK(固定故障無し)である場合(U5;No)には、被疑パッケージ判定部15は、発生した故障が「間欠故障」であると判定する。その後、被疑パッケージ判定部15は、現時点で、故障被疑フラグテーブル181−nに故障被疑フラグの設定が有るか否かを判定する(U8)。
上記判定の結果、故障被疑フラグテーブル181−nに故障被疑フラグが設定されていない場合(U8;No)、被疑パッケージ判定部15は、故障被疑フラグテーブル181−nを、新規の故障被疑フラグテーブル181−1とする。被疑パッケージ判定部15は、該新規の故障被疑フラグテーブル181−1上の被疑パッケージに対し、故障被疑フラグの設定を行う(U9)。図40は、実施例3に係るOMP10の1つ目の故障被疑フラグテーブル181−1における故障被疑フラグの設定例を示す図である。図40に示す様に、間欠故障の発生に伴い、U3で被疑パッケージと特定されたパッケージ(PROC40、HDU81b)に対応する故障被疑フラグは、初期状態の“−”から“×”に更新される。
テーブル更新後、被疑パッケージ判定部15は、該新規の故障被疑フラグテーブル181−1用の監視タイマ19−1を起動する(U10)。併せて、OMP10は、表示制御部16により、PROC40、HDU81b間のアクセス経路上の被疑パッケージの一覧をディスプレイ10fに表示させる。図41は、実施例3に係る1つ目の故障被疑フラグテーブル181−1生成後の故障被疑パッケージリストL8における被疑パッケージの表示例を示す図である。図41に示す様に、故障被疑パッケージリストL8には、今回のアンサタイムアウトで故障発生が疑われるパッケージとして、“PROC40”、“HDU81b”が掲載される。
その後、HDU81bの間欠故障とは別に、HDU83bの間欠故障に起因して、PROC50からHDU83bへのリードアクセスに新たなアンサタイムアウトが発生したとする。OMP10のアクセス経路特定部13は、PROC50からの故障発生メッセージM1により、PROC50、HDU83b間における故障の発生を検知する。この場合、OMP10は、別のアクセス経路(PROC50−HDU83b)に関し、上記アクセス経路(PROC40−HDU81b)に関する処理と同様の処理を実行する。
具体的には、まず、被疑パッケージ判定部15は、今回間欠故障が発生したアクセス経路上のパッケージと、現時点で故障被疑フラグテーブル181−1に故障被疑フラグが設定されているパッケージとを比較し、双方の被疑パッケージの一致を確認する。本実施例では、前者のパッケージは、上述の様に、PROC50、HDU83bであるのに対し、後者のパッケージは、PROC40、HDU81b(図40参照)である。すなわち、双方の被疑パッケージが一致しない場合に該当する。
従って、被疑パッケージ判定部15は、前回とは異なるパッケージで間欠故障が発生したものと推測し、故障被疑フラグテーブル181−1とは別に、新規の故障被疑フラグテーブル181−2を生成する。生成後、被疑パッケージ判定部15は、該新規の故障被疑フラグテーブル181−2上の被疑パッケージに対し、故障被疑フラグの設定を行う(U9)。図42は、実施例3に係るOMP10の2つ目の故障被疑フラグテーブル181−2における故障被疑フラグの設定例を示す図である。図42に示す様に、間欠故障の発生に伴い、被疑パッケージと特定されたパッケージ(PROC50、HDU83b)に対応する故障被疑フラグは、初期状態の“−”から“×”に更新される。
テーブル更新後、被疑パッケージ判定部15は、該新規の故障被疑フラグテーブル181−2用の監視タイマ19−2を起動する(U10)。併せて、OMP10は、表示制御部16により、PROC50、HDU83b間のアクセス経路上の被疑パッケージの一覧をディスプレイ10fに表示させる。図43は、実施例3に係る2つ目の故障被疑フラグテーブル181−2生成後の故障被疑パッケージリストL9における被疑パッケージの表示例を示す図である。図43に示す様に、故障被疑パッケージリストL9には、今回のアンサタイムアウトで故障発生が疑われるパッケージとして、“PROC50”、“HDU83b”が、掲載されることとなる。
図44は、実施例3に係る故障通知システム100により実行されるパッケージ交換後処理を説明するためのフローチャートである。実施例3に係るパッケージ交換後処理は、交換済パッケージの故障被疑フラグの解除対象となる故障被疑フラグテーブル181−nが複数存在する点を除き、実施例1に係るパッケージ交換後処理と同様である。従って、その詳細な説明は省略する。同様に、図45は、実施例3に係る故障通知システム100により実行される監視タイマ停止処理を説明するためのフローチャートである。実施例3に係る監視タイマ停止処理は、クリア対象となる故障被疑フラグテーブル181−nが複数存在する点を除き、実施例1に係る監視タイマ停止処理と同様である。従って、その詳細な説明は省略する。
ここで、故障被疑フラグテーブルは、共通部分を含まないアクセス経路毎に分けて生成される。例えば、PROC50、HDU83b間のアクセス経路は、PROC40、HDU81b間のアクセス経路との間に共通部分を含まない(アクセス経路が被らない)ため、それぞれのアクセス経路に対し、個別の故障被疑フラグテーブル181−1、181−2が生成される。一方、例えば、PROC20、HDU83b間のアクセス経路と、PROC30、HDU81b間のアクセス経路との双方の経路において、間欠故障が検出されたとする。この場合、PROC20、HDU83b間の経路は、PROC30、HDU81b間の経路との間に共通部分(BXC60a、BXC60b)を含むため、各経路毎に個別の故障被疑フラグテーブルは生成されず、共通の故障被疑フラグテーブルが用いられることとなる。
上述した様に、故障通知システム100によれば、OMP10は、共通部分を含まないアクセス経路毎に異なる故障被疑フラグテーブル181−1、181−2を生成し、保持する。換言すれば、OMP10は、被疑範囲毎にテーブルを分けて保持する。より具体的には、OMP10は、故障被疑テーブル18を更に有する。OMP10の故障被疑テーブル18は、上記故障発生の疑われる部品を特定する情報(例えば、図40の“×”、図42の“×”)を、上記経路毎に異なる領域に格納する。また、OMP10の被疑パッケージ判定部15は、故障被疑テーブル18に格納された上記情報により特定されるパッケージ(例えば、前回の被疑パッケージ)と、アクセス経路特定部13により特定された経路上のパッケージ(例えば、今回の被疑パッケージ)とを上記経路毎に比較する。そして、被疑パッケージ判定部15は、該比較の結果、一致するパッケージを、故障が発生したパッケージと判定する。更に、OMP10の表示制御部16は、被疑パッケージ判定部15により故障が発生したと判定されたパッケージの交換優先度を、他のパッケージの交換優先度よりも高くして上記経路毎に通知する。
これにより、OMP10は、関連性の無い複数の間欠故障が同時期に発生した場合でも、対応する複数の故障被疑フラグテーブルを選択し、並列的に参照することができる。従って、OMP10は、被疑範囲毎に交換優先度が異なる場合であっても、正確な交換優先度を、精度良く保守管理者に伝えることができる。また、OMP10は、複数箇所で同時発生した複数の間欠故障にも、容易かつ迅速に対応することができる。その結果、故障通知システム100の汎用性が向上する。
(変形例1)
以上、実施例1に係るOMP10が、独立したアクセス経路毎に複数の故障被疑フラグテーブルを有する態様について説明したが、かかる態様と同様に、実施例2に係るOMP10が、アクセス経路毎に複数の交換優先度テーブルを有するものとしてもよい。変形例1に係る故障通知システム100によれば、OMP10は、共通部分を含まないアクセス経路毎に異なる交換優先度テーブル182−1、182−2を生成し、保持する。換言すれば、OMP10は、被疑範囲毎にテーブルを分けて保持する。これにより、OMP10は、関連性の無い複数の間欠故障が同時期に発生した場合でも、対応する複数の交換優先度テーブルを選択し、並列的に参照することができる。従って、OMP10は、被疑範囲毎に交換優先度が異なる場合であっても、正確な優先度を保守管理者に伝えることができる。その結果、保守管理者は、該優先度を参照することで、故障の発生したパッケージを高精度に特定し、必要に応じて、交換することができる。また、OMP10は、複数箇所で同時発生した複数の間欠故障にも、容易かつ迅速に対応することができる。その結果、故障通知システム100の汎用性が向上する。
次に、実施例4について説明する。実施例4に係る故障通知システムは、図3に示した実施例1に係る故障通知システムと同様の構成を有する。また、実施例4に係るOMPの構成は、図4、図6に示した実施例1に係るOMPの構成と同様である。更に、実施例4に係るPROCの構成は、図5に示した実施例1に係るPROCの構成と同様である。従って、実施例4では、実施例1と共通する構成要素には、同一の参照符号を用いると共に、その図示及び詳細な説明は省略する。
実施例4は、実施例2と類似する。実施例4が実施例2と異なる点は、交換優先度を通知する方法である。具体的には、実施例2では、OMP10は、各被疑パッケージの交換優先度を、数値により保守管理者に通知するものとした。これに対し、実施例4では、OMP10は、保守管理者に予防交換を促すことができる様に、上記数値に併せて、該数値が所定値以上の被疑パッケージにインジケータを付与する。以下においては、この様な実施例4に係る故障通知システム100の動作を、図46〜図54を参照しながら、実施例2との相違点を中心として説明する。
次に、実施例4に係る故障通知システム100の動作を説明する。動作説明の前提として、OMP10の交換優先度テーブル182の初期状態について説明する。図46は、実施例4に係るOMP10の交換優先度テーブル182の初期状態を示す図である。図46に示す様に、交換優先度テーブル182hには、故障被疑の有無及び交換優先度を示す「故障被疑フラグ兼交換優先度」が、パッケージ毎に設定されている。故障被疑フラグ兼交換優先度は、故障被疑が無い場合には、初期値である“0”に設定され、故障被疑が有る場合には“1”〜“255”の数値に設定される。この数値が大きい程、交換優先度が高いパッケージであり、数値が所定の閾値(例えば、3)以上の場合は、予防交換が推奨される。通常、初期状態においては、故障通知システム100には、故障被疑のあるパッケージは存在しないため、図46では、全てのパッケージに対応する「故障被疑フラグ兼交換優先度」に、故障被疑無しを表す“0”が設定されている。なお、図46の「パッケージ」は、必ずしもパッケージ自体の識別情報でなくてもよく、例えば、各パッケージの実装される位置(ボード差込み位置)の識別情報であってもよい。
図47は、実施例4に係る故障通知システム100により実行される交換優先度表示処理を説明するためのフローチャートである。図47は、後述するV14〜V16及びG4の各処理を除き、実施例2に係る動作の説明において参照した図26と同様の処理を含む。従って、共通するステップには、末尾が同一の参照符号を付すと共に、その詳細な説明は省略する。具体的には、図47のステップV12、V13、G3の各処理は、図26に示したステップT12、T13、E3の各処理にそれぞれ対応する。
以下、PROC40に間欠故障が発生した場合を例にとり、実施例4に係る故障通知システム100により実行される交換優先度表示処理について、より詳細に説明する。
まず、PROC40の間欠故障に起因して、PROC40からHDU81bへのリードアクセスに1回目のアンサタイムアウトが発生すると、故障を検出したPROC40は、故障発生メッセージM1の送信により、故障の発生をOMP10に通知する。OMP10の被疑パッケージ判定部15は、故障発生メッセージM1を参照し、PROC40からHDU81bへのアクセス経路上(PROC40、HDU81bの何れか)に故障発生パッケージが存在すると推定する。
V12では、被疑パッケージ判定部15は、交換優先度テーブル182上の被疑パッケージに対し、交換優先度を1加算する。図48は、実施例4に係るOMP10の交換優先度テーブル182iにおける故障被疑フラグ兼交換優先度の設定例を示す図である。図48に示す様に、間欠故障の発生に伴い、被疑パッケージと特定されたパッケージ(PROC40、HDU81b)に対応する故障被疑フラグ兼交換優先度は、初期状態の“0”から“1”に更新される。
テーブル更新後、被疑パッケージ判定部15は、監視タイマ19を起動する(V13)。
図49は、実施例4に係る故障被疑パッケージリストL10における被疑パッケージの表示例を示す図である。図49に示す様に、故障被疑パッケージリストL10には、今回のアンサタイムアウトで故障発生が疑われるパッケージ(PROC40、HDU81b)が、交換優先度“1”を先頭に付された状態で掲載される。
本実施例で想定する2つの故障種別は何れも間欠故障(診断結果OK)である。このため、保守管理者は、現時点では、2つの被疑パッケージの中から、実際に故障が発生したパッケージを特定することができない。従って、保守管理者は、パッケージの交換を行うことなく、故障経過を監視する。
依然、故障要因のパッケージ(PROC40)は交換されていないため、別のリードアクセスにおいてもアンサタイムアウトが発生する。本実施例では、その後、前回と同一のアクセスであるPROC40からHDU81bへのアクセスにて、アンサタイムアウトが再度発生したとする。この場合、OMP10の被疑パッケージ判定部15は、アクセス経路テーブル17を参照することで、PROC40からHDU81bへのアクセス経路上に故障発生パッケージが存在すると推定する。続いて、被疑パッケージ判定部15は、上記アクセス経路上のパッケージ(PROC40、HDU81b)を被疑パッケージと特定し、該被疑パッケージの交換優先度に更に“1”を加算する。
図50は、実施例4に係るOMP10の交換優先度テーブル182更新後における故障被疑フラグ兼交換優先度の設定例を示す図である。図50に示す様に、交換優先度テーブル182jは、上記V12の処理結果が反映された優先度設定となっている。すなわち、上記V12の処理により、アンサタイムアウトの発生した2つのアクセス経路に共通するパッケージ(PROC40、HDU81b)の交換優先度は何れも“2”に設定される。一方、他のパッケージは何れも、アンサタイムアウトの発生していないアクセス経路上にあるため、PROC40、HDU81b以外のパッケージの交換優先度は、更新されず、初期値である“0”のままである。
V14では、被疑パッケージ判定部15は、現時点で、交換優先度が“3”以上のパッケージが交換優先度テーブル182に存在するか否かを判定する。該判定の結果、交換優先度が“3”以上のパッケージが無い場合(V14;No)、表示制御部16は、交換優先度テーブル182に設定されている数値(例えば、“1”以上)を、対応するパッケージの識別子と共に、ディスプレイ10fに表示させる(V15、G3)。
図51は、実施例4に係る更新後の故障被疑パッケージリストL11における被疑パッケージの表示例を示す図である。図51に示す様に、故障被疑パッケージリストL11には、今回のアンサタイムアウトで故障発生が疑われるパッケージ(故障発生パッケージの候補)として、“PROC40”、“HDU81b”が掲載される。併せて、各被疑パッケージの交換優先度が、対応するパッケージの先頭部分に表示される。本実施例では、PROC40、HDU81bの何れのパッケージも、1回目のアクセスに続き、2回目の(今回の)アクセスにおいてもアンサタイムアウトが発生したアクセス経路上のパッケージである。このため、PROC40、HDU81bには、“2”の交換優先度が付されている。
テーブル更新後、被疑パッケージ判定部15は、監視タイマ19を再び起動する(V13)。
その後、保守管理者は、交換優先度の高いPROC40、HDU81bの内、間欠故障の発生していないHDU81bを交換したとする。本実施例では、上述した様に、PROC40に間欠故障が発生した場合を想定しているため、HDU81bが除外されてもなお、PROC40において、間欠故障が繰り返し発生する。
図52は、実施例4に係るOMP10の交換優先度テーブル182kにおけるパッケージ交換後の故障被疑フラグ兼交換優先度の設定例を示す図である。図52に示す様に、交換優先度テーブル182kは、HDU81bの交換処理が反映されたフラグ設定となっている。すなわち、従前まで故障被疑フラグ兼交換優先度として“2”が設定されていたHDU81b(図50参照)が、保守管理者によって交換されたため、該交換優先度“2”はクリアされ、更新後の数値である“0”が設定されている。
しかしながら、依然として、故障通知システム100内には、故障要因のパッケージ(PROC40)が残存するため、交換後も、例えば、前回と同一のアクセスであるPROC40からHDU81bへのリードアクセスにおいてアンサタイムアウトが再発する。この場合、OMP10の被疑パッケージ判定部15は、アクセス経路テーブル17を参照することで、PROC40からHDU81bへのアクセス経路上(PROC40、HDU81bの何れか)に故障発生パッケージが存在するとの推定が可能である。そこで、被疑パッケージ判定部15は、上述のV12と同様に、交換優先度テーブル182上の被疑パッケージに対し、交換優先度を更に1加算する。
図53は、実施例4に係るOMP10の交換優先度テーブル182lにおける更新後の故障被疑フラグ兼交換優先度の設定例を示す図である。図53に示す様に、間欠故障の発生に伴い、被疑パッケージと特定されたパッケージ(PROC40、HDU81b)に対応する故障被疑フラグ兼交換優先度はそれぞれ、“2”、“0”から、“3”、“1”に更新される。
上記V14における判定の結果、交換優先度が“3”以上のパッケージが有る場合(V14;Yes)、表示制御部16は、交換優先度テーブル182に設定されている数値(例えば、“1”以上)を、対応するパッケージの識別子と共に、ディスプレイ10fに表示させる(V16、G4)。このとき、表示制御部16は、交換優先度が“3”以上のパッケージに対し、予防交換を推奨するためのインジケータとして、例えば、“#”等の記号を付与する。該記号を付与する位置は、保守管理者が、対応するパッケージを容易に視認可能な範囲内で任意であるが、例えば、パッケージの前の交換優先度の更に前である。
図54は、実施例4に係る予防交換インジケータの付された故障被疑パッケージリストL12における被疑パッケージの表示例を示す図である。図54に示す様に、故障被疑パッケージリストL12には、今回のアンサタイムアウトで故障発生が疑われるパッケージとして、“PROC40”、“HDU81b”が掲載される。同時に、各パッケージの交換優先度を示す数値“3”、“1”が、対応するパッケージの前に並列表示される。更に、交換優先度が閾値“3”以上のパッケージ“PROC40”には、先頭部分に、交換を促すインジケータである“#”が付されている。これにより、保守管理者は、故障の可能性のあるパッケージの中から、特に故障の可能性が高く予防交換の必要なパッケージを、一目で判別することができる。また、保守管理者は、上記インジケータに従い、運用中のシステムから、故障発生の要因となるパッケージを適確に排除することができる。
実施例4に係る故障通知システム100によれば、OMP10の表示制御部16は、上記数値に応じて異なる形態(例えば、図54の“#”)で、上記交換優先度を通知する。本実施例に係る故障通知システム100は、発生頻度は低いが、特定のアクセス経路に間欠故障が繰り返し発生する場合に特に有効である。発生頻度の低い間欠故障の場合、保守管理者は、故障が発生しても直ぐにはパッケージの予防交換を行わずに再発の有無を監視し、故障が頻発した場合に初めて交換を行うという方法がある。かかる方法を採る場合、保守管理者は、過去の間欠故障の発生回数を記憶しておき、予防交換の要否を判断することとなる。しかしながら、例えば、夜間緊急時の対応等、時間的な余裕の無い場合には、保守管理者は、間欠故障の発生を漏れなく記憶し、発生回数に応じて、予防交換の要否を正確に判断することは困難である。そこで、実施例4に係る故障通知システム100の様に、OMP10は、所定回数以上の間欠故障が発生した被疑パッケージについて、予防交換を促すアラームを上げることが好適である。
(故障通知プログラム)
上記各実施例で説明したOMP10の各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーション等のコンピュータシステムで実行することによって実現することもできる。そこで、以下では、図55を用いて、上記の各実施例で説明したOMP10と同様の機能を有する故障通知プログラムを実行するコンピュータの一例について説明する。図55は、故障通知プログラムを実行するコンピュータを示す図である。
図55に示す様に、上記各実施例におけるコンピュータ200は、CPU(Central Processing Unit)210と、ROM(Read Only Memory)220と、HDD(Hard Disk Drive)230と、RAM(Random Access Memory)240とを有する。これら200〜240の各部は、バス250を介して接続される。
ROM220には、上記各実施例で示したメッセージ受信部11とメッセージ送信部12とアクセス経路特定部13と診断制御部14と被疑パッケージ判定部15と表示制御部16とアクセス経路テーブル17と故障被疑テーブル18と監視タイマ19と同様の機能を発揮する故障通知プログラムが予め記憶される。すなわち、ROM220には、図55に示す様に、故障通知プログラム220aが記憶される。なお、故障通知プログラム220aについては、適宜分離してもよい。そして、CPU210が、故障通知プログラム220aをROM220から読み出して実行する。
HDD230には、上述のアクセス経路テーブル230aと故障被疑テーブル230bとが格納される。CPU210は、アクセス経路テーブル230a及び故障被疑テーブル230bを読み出す。CPU210は、これらをRAM240に記憶させる。CPU210は、RAM240に記憶されたアクセス経路テーブル240a及び故障被疑テーブル240bを用いて、故障通知プログラム220aを実行する。また、CPU210は、RAM240に記憶されたアクセス経路テーブル240a及び故障被疑テーブル240bを用いて、故障通知プログラム220aを実行する。なお、RAM240に記憶される各データは、常に全てのデータがRAM240に記憶される必要はなく、処理に必要なデータのみがRAM240に一時記憶されればよい。
なお、故障通知プログラム220aは、必ずしも最初からHDD230に記憶させておく必要はない。例えば、コンピュータ200は、コンピュータ200に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカード等の「可搬用の物理媒体」にプログラムを記憶させておく。そして、コンピュータ200が、これらの媒体からプログラムを読み出して実行する様にしてもよい。更には、公衆回線、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)等を介して、コンピュータ200に接続される「他のコンピュータ(またはサーバ)」等にプログラムを記憶させておくものとしてもよい。
なお、上記各実施例では、診断(故障検出)及び交換の対象となるパッケージとして、BXC、PROC、HDUを想定したが、パッケージはこれらの装置に限らない。上記パッケージは、例えば、メモリ、通信制御装置、表示装置、各種センサ、スピーカ等の構成部分であってもよい。
また、上記各実施例では、故障通知システム100の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的態様は、図示のものに限らず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することもできる。例えば、OMP10に関し、アクセス経路特定部13と被疑パッケージ判定部15、あるいは、アクセス経路テーブル17と故障被疑テーブル18とをそれぞれ1つの構成要素として統合してもよい。また、PROC20に関し、アクセス制御部23と回線制御部27、あるいは、診断制御部24と自律診断実行部25とをそれぞれ1つの構成要素として統合してもよい。
反対に、OMP10の被疑パッケージ判定部15に関し、故障種別及び交換優先度を判定する部分と、故障被疑テーブル18を更新(クリアを含む)する部分と、監視タイマ19を停止する部分とに分散してもよい。また、PROC20のアクセス制御部23に関し、アンサ監視タイマ26を停止する部分と、故障発生メッセージM1をOMP10に送出する部分とに分散してもよい。更に、メモリ10c、HDD10dを、OMP10の外部装置として、ネットワークやケーブル経由で接続する様にしてもよい。
更に、上記説明では、個々の実施例毎に個別の構成、及び動作を説明した。しかしながら、各実施例に係る故障通知システムは、他の実施例や変形例に特有の構成要素を併せて有するものとしてもよい。また、実施例、変形例毎の組合せについても、2つに限らず、3つ以上の組合せ等、任意の形態を採ることが可能である。例えば、実施例4のアラーム機能を、実施例2に限らず、実施例3の変形例1や実施例1、3に適用してもよい。更に、1つの故障通知システムが、実施例1〜4及び変形例1において説明した全ての構成要素を併有するものとしてもよい。