JPH06325008A

JPH06325008A - リセット機能を備えるコンピュータシステム

Info

Publication number: JPH06325008A
Application number: JP5227250A
Authority: JP
Inventors: Yuzuru Maya; 讓真矢; Hideaki Genma; 英明源馬; Toshiyuki Kinoshita; 俊之木下; Yasuhiro Ishii; 保弘石井
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1993-03-17
Filing date: 1993-09-13
Publication date: 1994-11-25

Abstract

(57)【要約】【目的】実行プロセッサモジュールと予備プロセッサモ
ジュールとの組を少なくとも一つ備えるシステムにおい
て、障害の発生したプロセッサモジュールをリセットさ
せ、誤動作がなく、障害の発生したプロセッサモジュー
ルの引き継ぎ処理を実行させる。【構成】複数あるプロセッサモジュールの各々にシス
テム監視装置を設け、各々のシステム監視装置を専用の
ＬＡＮで相互接続させる。予備プロセッサモジュールに
おいて、実行プロセッサモジュールの障害を検出する
と、そのシステム監視装置は、障害の発生した実行プロ
セッサモジュールのシステム監視装置に、リセット要求
を通知する。障害の発生した実行プロセッサモジュール
のシステム監視装置は障害部位をリセットする。あるい
は、障害の発生した実行プロセッサモジュールは、その
システム監視装置において自己の障害を検出する。実行
プロセッサモジュールで障害が発生すると、自システム
監視装置が障害部位をリセットする。予備プロセッサモ
ジュールは、実行プロセッサモジュールの障害を検出
し、実行プロセッサモジュールの処理を引き継ぐ。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、複数のプロセッサモジ
ュールをＬＡＮあるいはバスで接続する分散処理サーバ
に係わり、これらのプロセッサモジュールで障害が発生
した場合、誤動作を防止するため、障害の発生したプロ
セッサモジュールをリセットすることができるコンピュ
ータシステムに関する。

【０００２】

【従来の技術】従来、オンライントランザクション処理
（ＯＬＴＰ）のように可用性が要求されるような分野で
は、大型計算機中心のシステム構成をとっており、分散
処理サーバのような形態は導入されていなかった。

【０００３】しかし、コンピュータシステムは、ダウン
サイジングにより、汎用大型機中心のシステムから、複
数の分散処理サーバをネットワークで接続した分散シス
テムに移行している。そして、分散システムでは、複数
のプロセッサモジュール（分散処理サーバ）を接続し、
処理能力を向上させること、さらに可用性を向上させる
ことが要求されている。

【０００４】ところで、大型計算機中心のコンピュータ
システムでは、複数のプロセッサモジュールでディス
ク、回線、ＬＡＮ（Local area network)を共有してい
る。１つのプロセッサモジュールで障害が発生すると、
誤動作を防止させるため、他のプロセッサモジュールに
切り替えなければならない。

【０００５】このようなプロセッサモジュールの切り替
え方法について、従来、汎用大型機では、デュアル方法
として特開昭６４−８６２４７号公報に記述されている
ものがある。この公知例では、主系計算機（プロセッサ
モジュール）と従系計算機とシステム監視装置とが接続
されている。システム監視装置は、主系計算機で障害が
発生すると、割込み信号線により従系計算機に通知を行
い、主系計算機から従系計算機に切り替えを行ってい
る。

【０００６】一方、分散処理システムの分野では、日経
エレクトロニクス（１９９２．５．１８，Ｎｏ．５５
４，ｐ．８７〜ｐ．９６）に記載されているように、２
つの汎用サーバ（プロセッサモジュール）をホットスタ
ンバイ構成とし、ＬＡＮにより相互に接続させている。
そして、シリアルインタフェースや光シリアルリンクで
直接接続して、定期的にａｌｉｖｅメッセージを交換
し、お互いに障害を検出している。障害を検出すると、
正常な汎用サーバが障害の発生した汎用サーバの処理を
引き継いでいる。

【０００７】

【発明が解決しようとする課題】しかし、上記日経エレ
クトロニクスに記載されているように、汎用サーバ間
は、障害を検出して処理を引き継いでいるが、障害の発
生したサーバについては、そのままリセット処理を行な
っていないので、障害の発生したサーバは引き継いだ汎
用サーバに悪影響を与えることがある。

【０００８】一方、汎用大型機の場合、主系計算機（プ
ロセッサモジュール）と従系計算機（プロセッサモジュ
ール）とシステム監視装置とを設け、これらをバスで接
続し、割込み信号線を介して割込みにより障害発生を通
知している。このように、割込み信号線により通知して
いるため、多数のプロセッサモジュールを分散して配置
させるシステムには割込み信号線を各々設ける必要があ
り、割込み信号線の本数が多くなるという問題がある。
また、プロセッサモジュールを増設する場合にも、割込
み信号線を設けなければならないので増設しにくくな
る。

【０００９】本発明は、このような従来の課題を解決す
るために、拡張性があり、障害時にも処理が続行できる
ような信頼性の高いコンピュータシステムおよびシステ
ム監視装置を提供することを目的とする。

【００１０】

【課題を解決するための手段】本発明は、上記課題を解
決するために、処理を実行するプロセッサと、当該プロ
セッサで実行する処理手順を記憶するメモリと、入出力
装置を制御する入出力制御部とを備えるプロセッサモジ
ュールを複数有するコンピュータシステムにおいて、前
記複数のプロセッサモジュールの各々は、自プロセッサ
モジュール内または他のプロセッサモジュール内の障害
の発生および障害部位を検出する障害検出手段と、前記
障害検出手段で検出した障害部位をリセットするリセッ
ト手段とを備えるシステム監視装置を有する。

【００１１】前記システム監視装置は、前記プロセッサ
と共用可能な共用メモリをさらに備え、前記プロセッサ
は、前記共用メモリに障害の発生した障害部位を示す情
報を格納し、前記障害検出手段は、前記共用メモリを定
期的に参照することにより障害を検出することができ
る。

【００１２】また、前記システム監視装置は、前記プロ
セッサと共用可能な共用メモリをさらに備え、前記プロ
セッサは、前記共用メモリの予め定めた各部位ごとの領
域に、定期的に、各部位が正常であることを示す情報を
格納し、前記障害検出手段は、前記共用メモリを定期的
に参照して前記正常であることを示す情報を消去し、予
め定めた期間、前記正常であることを示す情報が格納さ
れていない場合には、当該部位において障害が発生した
として障害を検出することができる。

【００１３】さらに、前記複数のプロセッサモジュール
として、処理を実行する実行プロセッサモジュールと、
当該実行プロセッサモジュールの予備として待機する予
備プロセッサモジュールとの組を少なくとも１組有し、
前記実行プロセッサモジュールのプロセッサは、定期的
に、当該実行プロセッサモジュールが正常であることを
示す情報を前記予備プロセッサモジュールに送出し、前
記予備プロセッサモジュールの障害検出手段は、前記実
行プロセッサモジュールのプロセッサからの正常である
ことを示す情報により、予め定めた期間、前記正常であ
ることを示す情報を受信しない場合には、前記実行プロ
セッサモジュールにおいて障害が発生したとして障害を
検出し、前記実行プロセッサモジュールの前記リセット
手段に対してリセット要求を送出することができる。前
記予備プロセッサモジュールは、前記実行プロセッサモ
ジュールの障害を検出すると、前記実行プロセッサモジ
ュールの処理を引き継ぐことができる。

【００１４】また、前記入出力制御部は、複数の入力出
力装置をそれぞれ制御する複数の制御手段を備え、前記
リセット手段は、前記制御手段に対してリセットコマン
ドを発行することにより、前記制御手段のリセットを行
うことができる。前記制御手段は、リセット終了後にリ
セット完了通知を出力し、前記リセット手段は、前記リ
セットコマンドの発行後、一定時間内に、リセット完了
通知を受信しない場合に、当該プロセッサモジュール全
体のパワーオンリセットを行うようにしてもよい。

【００１５】もしくは、前記入出力制御部は、複数の入
力出力装置をそれぞれ制御する複数の制御手段を備え、
前記リセット手段は、前記障害検出手段で検出された障
害部位の前記制御手段に対してリセットコマンドを発行
することにより、前記制御手段のリセットを行うように
してもよい。

【００１６】または、前記入出力制御部は、複数の入力
出力装置をそれぞれ制御する制御手段を備え、前記リセ
ット手段と前記制御手段とは、リセット信号線により接
続され、前記リセット手段は、前記リセット信号線を介
して前記制御手段のリセットを行うことができる。

【００１７】また、システム監視装置は、前記障害の部
位により当該プロセッサモジュール全体の障害とする系
障害と、予め定めた一部分の障害である部分障害とを予
め定義しておき、前記障害検出手段は、前記系障害と前
記部分障害とでそれぞれ個別にリセットを行う部位を規
定しておくようにしてもよい。

【００１８】前記複数のプロセッサモジュールを接続さ
せる制御用ＬＡＮをさらに備え、前記複数のプロセッサ
モジュールの各々は、前記制御用ＬＡＮに接続される集
線装置を備え、前記集線装置は、前記制御用ＬＡＮを介
して他のプロセッサモジュールと通信を行うこともでき
る。この場合、前記集線装置は、前記実行プロセッサモ
ジュールのプロセッサにおける前記正常であることを示
す情報を、前記制御用ＬＡＮを介して前記予備プロセッ
サモジュールに送出する。また、前記集線装置は、前記
予備プロセッサモジュールの障害検出手段における前記
リセット要求を、前記制御用ＬＡＮを介して前記実行プ
ロセッサモジュールに送出することができる。さらに、
前記制御用ＬＡＮに接続され、前記複数のプロセッサモ
ジュールの保守を行なうための集中コンソールをさらに
有し、前記複数のプロセッサモジュールの各々は、当該
プロセッサモジュール内の障害の発生時に、前記集中コ
ンソールに通知を行うようにしてもよい。

【００１９】

【作用】前記複数のプロセッサモジュールの各々では、
システム監視装置を設け、システム監視装置の障害検出
手段において、自プロセッサモジュール内または他のプ
ロセッサモジュール内の障害の発生および障害部位を検
出する。リセット手段は、前記障害検出手段で検出した
障害部位をリセットする。

【００２０】障害検出手段において、自プロセッサモジ
ュール内の障害を検出する場合には、前記プロセッサと
共用可能な共用メモリを備え、前記プロセッサは、前記
共用メモリに障害の発生した障害部位を示す情報を格納
し、前記障害検出手段は、前記共用メモリを定期的に参
照することにより障害を検出する。もしくは、前記プロ
セッサは、前記共用メモリの予め定めた各部位ごとの領
域に、定期的に、各部位が正常であることを示す情報を
格納し、前記障害検出手段は、前記共用メモリを定期的
に参照して前記正常であることを示す情報を消去し、予
め定めた期間、前記正常であることを示す情報が格納さ
れていない場合には、当該部位において障害が発生した
として障害を検出することができる。

【００２１】障害検出手段において、他のプロセッサモ
ジュール内の障害を検出する場合には、実行プロセッサ
モジュールと、予備プロセッサモジュールとを組にし
て、前記実行プロセッサモジュールのプロセッサは、定
期的に、当該実行プロセッサモジュールが正常であるこ
とを示す情報（ａｌｉｖｅメッセージ）を前記予備プロ
セッサモジュールに送出し、前記予備プロセッサモジュ
ールの障害検出手段は、前記実行プロセッサモジュール
のプロセッサからの正常であることを示す情報により、
予め定めた期間、前記正常であることを示す情報を受信
しない場合には、前記実行プロセッサモジュールにおい
て障害が発生したとして障害を検出し、前記実行プロセ
ッサモジュールの前記リセット手段に対してリセット要
求（リセットメッセージ）を送出する。

【００２２】リセットを行う方法としては、リセットコ
マンドを発行して行う方法と、リセット信号線により行
う方法とがあり、それぞれ、障害部位の前記制御手段に
対してリセットをする場合と全体をリセットする場合と
がある。システム監視装置は、障害の部位により当該プ
ロセッサモジュール全体の障害とする系障害と、予め定
めた一部分の障害である部分障害とを予め定義してお
き、前記障害検出手段は、前記系障害と前記部分障害と
でそれぞれ個別にリセットを行う部位を規定しておくこ
とができる。

【００２３】また、リセット要求や実行プロセッサモジ
ュールが正常であることを示す情報は、前記制御用ＬＡ
Ｎを介して集線装置から他のプロセッサモジュールと通
信を行うことができる。さらに、制御用ＬＡＮに集中コ
ンソールを接続することにより、前記複数のプロセッサ
モジュールの保守を集中的に行なうことができる。

【００２４】一方、障害を検出した予備プロセッサモジ
ュールは、共有デバイス（ディスク、ＬＡＮ、回線）を
切り替え、障害の発生した実行プロセッサモジュールの
処理を引き継ぐ。

【００２５】このようにして、障害の発生したプロセッ
サモジュールをリセットすることが可能となる。

【００２６】

【実施例】以下、本発明について、２つの実施例を示
す。まず、２つの実施例の概要を示し、その後、詳細に
説明する。

【００２７】第１の実施例の概要を図１および図２を参
照して説明する。第１の実施例においては、複数のプロ
セッサモジュール（１１〜１８）を、通常の情報をやり
取りするための業務用ＬＡＮ（１）および制御信号をや
り取りするための制御用ＬＡＮ（６）により接続する。
また、複数のプロセッサモジュール（１１〜１８）の各
々には、図２に示すように、自プロセッサモジュールお
よび他のプロセッサモジュールの障害検出と、自プロセ
ッサモジュール内のリセットの制御とを行うシステム監
視装置（１１−０〜１８−０）を設ける。制御用ＬＡＮ
（６）は、すべてのプロセッサモジュール（１１〜１
８）間を接続する。そして、制御用ＬＡＮ（６）では、
プロセッサモジュール（１１〜１８）の障害を検出する
ためのａｌｉｖｅメッセージと障害プロセッサモジュー
ル（１１〜１８）をリセットするためのリセットメッセ
ージとを通信する。本実施例におけるコンピュータシス
テムでは、ホットスタンバイ状態にある予備プロセッサ
モジュール（１１〜１８）と、実行を行う実行プロセッ
サモジュール（１１〜１８）との２重系を構成する。プ
ロセッサモジュール（１１〜１８）の各々は、他のプロ
セッサモジュール（１１〜１８）の障害を検出すると、
障害を検出したプロセッサモジュール（１１〜１８）の
システム監視装置（１１−０〜１８−０）では、障害の
発生したプロセッサモジュール（１１〜１８）のシステ
ム監視装置（１１−０〜１８−０）にリセット要求を通
信する。障害の発生したプロセッサモジュール（１１〜
１８）のシステム監視装置（１１−０〜１８−０）は、
プロセッサモジュール内に有する、ＩＯＰ（Input/outp
ut プロセッサ）（１１−１０〜１８−１０）の障害の
発生した一部分をリセットする。一方、障害を検出した
予備プロセッサモジュール（１１〜１８）は、共有ディ
スク（２）、業務用ＬＡＮ（１）および回線切替装置
（３）を切り替え、障害の発生したプロセッサモジュー
ル（１１〜１８）の処理を引き継ぐ。このように、障害
の発生したプロセッサモジュールをリセットすると共
に、障害を検出したプロセッサモジュールにおいて処理
を引継いで実行する。また、制御用ＬＡＮ（６）を設け
ることにより、プロセッサモジュール間にシリアルイン
タフェースを設けなくても制御信号を送受信することが
できる。

【００２８】次に、第２の実施例の概要を説明する。第
２の実施例では、プロセッサモジュール（１１〜１８）
の各々に、自プロセッサモジュールの障害検出と、自プ
ロセッサモジュール内のリセットの制御とを行うシステ
ム監視装置（１１−０〜１８−０）を設ける。これらの
システム監視装置（１１−０〜１８−０）は、他のプロ
セッサモジュールとは障害検出の送受信を行わない。シ
ステム監視装置（１１−０〜１８−０）は、自身のプロ
セッサモジュール（１１〜１８）で発生するすべての障
害を検出できるようにする。プロセッサモジュール（１
１〜１８）は、ホットスタンバイ状態にある予備プロセ
ッサモジュール（１１〜１８）と、実行を行う実行プロ
セッサモジュール（１１〜１８）との２重系を構成し、
予備プロセッサモジュールと実行プロセッサモジュール
とはディスクを経由して、ａｌｉｖｅメッセージの交換
を行う。障害が発生すると、障害の発生したプロセッサ
モジュール（１１〜１８）のシステム監視装置（１１−
０〜１８−０）は、プロセッサモジュール内に有する、
障害の発生した部分のＩＯＰ（１１−１０〜１８−１
０）をリセットする。予備プロセッサモジュール（１１
〜１８）は、実行プロセッサモジュール（１１〜１８）
からのａｌｉｖｅメッセージの途絶により、実行プロセ
ッサモジュール（１１〜１８）の障害を検出する。そし
て、共有ディスク（２）、業務用ＬＡＮ（１）、回線切
替装置（３）を切り替え、実行プロセッサモジュール
（１１〜１８）の処理を引き継ぐ。このように、障害の
発生したプロセッサモジュールでは、障害を検出すると
共にリセットを行う。また、予備のプロセッサモジュー
ルにおいて処理を引継いで実行する。

【００２９】以降、実施例を詳細に説明する。まず、第
１の実施例から詳細に説明する。

【００３０】図１は、本発明によるシステム構成図であ
る。本発明によるシステム構成は、複数ののプロセッサ
モジュール（１１〜１８）を備える。すべてのプロセッ
サモジュール（１１〜１８）は、各々、ホットスタンバ
イ状態にある予備プロセッサモジュール（１１〜１８）
と、実行を行う実行プロセッサモジュール（１１〜１
８）との２重系を構成し、予備プロセッサモジュールと
実行プロセッサモジュールとは、業務用ＬＡＮ（１）、
共有ディスク（２）および回線切替装置（３）を共有す
る。そして、プロセッサモジュール（１１〜１８）は、
回線切替装置（３）を介して回線（４）により端末
（５）を接続する。

【００３１】また、プロセッサモジュール（１１〜１
８）間では、障害を検出するためのａｌｉｖｅメッセー
ジを含むモニタ間通信メッセージと、リセットするため
のリセットメッセージとを通信するため、すべてのプロ
セッサモジュール（１１〜１８）は制御用ＬＡＮ（６）
に接続される。また、すべてのプロセッサモジュール
（１１〜１８）を保守／運用するための集中コンソール
（７）を設け、制御用ＬＡＮ（６）に接続する。

【００３２】ここで、モニタ間通信メッセージとは、プ
ロセッサモジュール（１１〜１８）間で障害を検出する
ためのａｌｉｖｅメッセージ、システム立ち上げ時のメ
ッセージ、障害通知メッセージ等をいう。プロセッサモ
ジュール（１１〜１８）に備えるモニタ（１１−２１〜
１８−２１）においてこれらのモニタ間通信メッセージ
の通信を制御する。また、リセットメッセージは、障害
時に他のプロセッサモジュール（１１〜１８）をリセッ
トするためのリセット要求メッセージと、リセット要求
に対する完了通知メッセージとをいう。

【００３３】通常（正常動作中）、実行プロセッサモジ
ュールは、予備プロセッサモジュールに対して制御用Ｌ
ＡＮ（６）を介してａｌｉｖｅメッセージを送出する。
プロセッサモジュール（１１〜１８）が障害を検出した
場合には、制御用ＬＡＮ（６）を介して、リセットメッ
セージを送出する。また、制御用ＬＡＮ（６）は、プロ
セッサモジュール（１１〜１８）が集中コンソール
（７）との通信にも使用する。

【００３４】集中コンソール（７）には、プリンタ（７
−１）を設け、障害情報と運用管理情報を出力する。集
中コンソール（７）は、回線（７−３）により監視セン
タ（７−２）と接続するようにしてもよい。他のコンピ
ュータシステム(１−０)も同様に、集中コンソール（７
−０）を設け、監視センタ（７−２）と接続する。監視
センタ（７−２）は、すべてのコンピュータシステム
(１，１−０)を監視することができる。

【００３５】つぎに、プロセッサモジュールの構成を図
２を参照して説明する。図２に、プロセッサモジュール
の構成図を示す。図２には、プロセッサモジュール（１
１）を例示しているが他のプロセッサモジュール（１２
〜１８）も同様な構成を取る。プロセッサモジュール
（１１）は、自プロセッサモジュールおよび他のプロセ
ッサモジュールの障害検出と、自プロセッサモジュール
内のリセットの制御とを行うシステム監視装置（１１−
０）と、実行を行う処理手段のプロセッサ（１１−１）
と、処理手順を記憶する記憶手段のメモリ（１１−２）
と、入出力手段を制御するＩＯＰ（１１−１０）と、制
御用ＬＡＮ（６）に接続される集線装置（１１−４）
と、情報を記憶する記憶媒体のローカルディスク（１１
−１１）とを有する。プロセッサ（１１−１）と、メモ
リ（１１−２）と、ＩＯＰ（１１−１０）と、システム
監視装置（１１−０）とはモジュール内バスにより接続
される。ＩＯＰ（１１−１０）は、複数の入出力手段の
各々を制御する個別制御手段と、それら個別制御手段を
制御するＩＯＣ（１１−３）とを備える。個別制御手段
としては、モニタ間通信メッセージの通信制御を行うモ
ニタ間通信制御装置（１１−５）と、共有ディスク
（２）およびローカルディスク（１１−１１）の制御を
行うディスク制御装置（１１−６）と、業務用ＬＡＮに
接続されその通信制御を行うＬＡＮ制御装置（１１−
７）と、回線切替装置（３）に接続して切替の制御を行
う回線制御装置（１１−８）とがある。また、システム
監視装置（１１−０）は、リセット信号線（１１−９）
により、ＩＯＣ（１１−３）、モニタ間通信制御装置
（１１−５）、ディスク制御装置（１１−６）、ＬＡＮ
制御装置（１１−７）および回線制御装置（１１−８）
に接続される。システム監視装置（１１−０）は、リセ
ット信号線（１１−９）を介して各個別制御手段のリセ
ットを行うことができる。プロセッサモジュール（１
１〜１８）における処理プログラムのソフトウェア（１
１−２０）としては、ＯＳ（オペレ−ティングシステ
ム）（１１−２２）、モニタ間通信メッセージを送受信
するモニタ（１１−２１）およびＡＰ（アプリケ−ショ
ンプログラム）（１１−２３）があり、これらをメモリ
（１１−２）に記憶している。モニタ（１１−２１）
は、プロセッサモジュール（１１〜１８）間の通信処
理、ＡＰ（１１−２３）の障害管理を制御する。プロセ
ッサ（１１−１）は、信頼性を上げるために図５に示す
ように、さらに２重化構成を取るようにしてもよい。

【００３６】図５は、プロセッサの２重化構成図であ
る。データのインテグリティを向上させるため、プロセ
ッサＡ（１１−１−１）とプロセッサＢ（１１−１−
２）とを同期させて、両方を稼動している。それらのデ
ータの出力が一致しているかどうか判定するための、同
期回路（１１−１−３）を設ける。同期回路（１１−１
−３）は、２つのプロセッサ（１１−１−１，１１−１
−２）のうちどちらで障害が発生したか判定するため
に、一致回路（１１−１−４）と暴走検出回路（１１−
１−５）とを設ける。一致回路（１１−１−４）は、プ
ロセッサＡ（１１−１−１）とプロセッサＢ（１１−１
−２）との出力が一致しているかどうか判定する。不一
致ならば、暴走検出回路（１１−１−５）を起動し、プ
ロセッサＡ（１１−１−１）とプロセッサＢ（１１−１
−２）とに割込みを起動させ、それぞれ診断処理を実行
し、各プロセッサは正常かどうか判定する。

【００３７】他のプロセッサモジュール（１２〜１８）
は、プロセッサモジュール（１１）と同一の構成であ
る。このため、プロセッサモジュール（１２〜１８）
は、プロセッサモジュール（１１）と同様に、システム
監視装置（１２−０〜１８−０）、プロセッサ（１２−
１〜１８−１）、メモリ（１２−２〜１８−２）、ＩＯ
Ｃ（１２−３〜１８−３）、集線装置（１２−４〜１８
−４）、モニタ間通信制御装置（１２−５〜１８−
５）、ディスク制御装置（１２−６〜１８−６）、ＬＡ
Ｎ制御装置（１２−７〜１８−７）、回線制御装置（１
２−８〜１８−８）、リセット信号線（１２−９〜１８
−９）およびローカルディスク（１２−１０〜１８−１
０）を備える。

【００３８】以下、プロセッサモジュール（１１）を実
行プロセッサモジュール（１１）として、プロセッサモ
ジュール（１２）は、プロセッサモジュール（１１）の
バックアップ処理を行なう予備プロセッサモジュール
（１２）として稼動させているものとして説明する。

【００３９】図３は、本実施例の動作特徴を示す説明図
である。本実施例における特徴は、各プロセッサモジュ
ール（１１，１２）に、システム監視装置（１１−０，
１２−０）をそれぞれ設ける。各々のプロセッサモジュ
ールのシステム監視装置（１１−０，１２−０）を制御
用ＬＡＮ（６）で接続させる。実行プロセッサモジュー
ル（１１）のプロセッサ（１１−１）はモニタ（１１−
２１）のプログラムにしたがって処理を行う。プロセッ
サ（１１−１）からは制御用ＬＡＮ（６）を経由してａ
ｌｉｖｅメッセージを定期的に送出させる。予備プロセ
ッサモジュール（１２）のモニタ（１２−２１）は、ａ
ｌｉｖｅメッセージの途絶を検出すると、実行プロセッ
サモジュール（１１）の障害を検出してシステム監視装
置（１２−０）に通知する。システム監視装置（１２−
０）は、障害ＩＯＰ（１１−１０）をリセットするよう
にシステム監視装置（１１−０）にリセット要求を送出
し、システム監視装置（１１−０）では障害部分のリセ
ットを行うことにより、誤動作を防止する。

【００４０】図３において、実行プロセッサモジュール
（１１）のモニタ（１１−２１）は、一定周期毎にａｌ
ｉｖｅメッセージを制御用ＬＡＮ（６）を介して、予備
プロセッサモジュール（１２）に送信している（処理
５０）。実行プロセッサモジュール（１１）は、自プロ
セッサモジュール（１１）で障害が発生すると、ａｌｉ
ｖｅメッセージを送信しなくなり、予備プロセッサモジ
ュール（１２）のモニタ（１２−２１）が障害を検出す
る。予備プロセッサモジュール（１２）のモニタ（１２
−２１）は、システム監視装置（１２−０）に、障害発
生を通知する（処理５１）。システム監視装置（１２
−０）は、制御用ＬＡＮ（６）を介して、障害の発生し
たプロセッサモジュール（１１）のシステム監視装置
（１１−０）に、リセット要求を通知する（処理５
２）。システム監視装置（１１−０）は、障害の行った
ＩＯＰ（１１−１０）をリセットする（処理５３）。
システム監視装置（１１−０）は、制御用ＬＡＮ（６）
を介して、障害の発生したプロセッサモジュール（１
２）のシステム監視装置（１２−０）に、リセット完了
を通知する（処理５４）。

【００４１】一方、予備プロセッサモジュール（１２）
のシステム監視装置（１２−０）は、リセットの完了通
知を受信すると、プロセッサ（１２−１）に通知する
（処理５５）。そして、予備プロセッサモジュール（１
２）は、共有ディスク（２）、業務用ＬＡＮ（１）およ
び回線切替装置（３）を予備プロセッサモジュール（１
２）側に切り替える。そして、予備プロセッサモジュー
ル（１２）は、実行プロセッサモジュール（１１）の処
理を引き継ぐ。

【００４２】この結果、予備プロセッサモジュール（１
２）は、障害の発生した実行プロセッサモジュール（１
１）の障害を検出し、障害の発生した実行プロセッサモ
ジュール（１１）をリセットすることが可能になる。

【００４３】次に、システム監視装置（１１−０〜１８
−０）、モニタ間通信制御装置（１１−５〜１８−
５）、ディスク制御装置（１１−６〜１８−６）、ＬＡ
Ｎ制御装置（１１−７〜１８−７）および回線制御装置
（１１−６〜１８−６）の構成について、詳細に説明
し、その後障害の詳細について説明する。これらの装置
は、各モジュールとも同一の構成であるため、プロセッ
サモジュール（１１）あるいはプロセッサモジュール
（１２）を例にして、それぞれ説明する。

【００４４】図４は、システム監視装置の構成図であ
る。システム監視装置（１１−０）は、障害通知を受け
たときにリセットの指示およびリセット完了通知を行う
プロセッサ（１１−０−１）、記憶手段のメモリ（１１
−０−２）、プロセッサ１１−１と共用する記憶手段の
共用メモリ（１１−０−３）、リセット信号線（１１−
９）に接続されリセットの指示があるとリセットの制御
を行うリセット制御回路（１１−０−４）を備える。リ
セット制御回路（１１−０−４）には、どのＩＯＰ（１
１−１０）をリセットさせるかを判別するデコーダ（１
１−０−５）を接続する。

【００４５】図１１は、共用メモリの内容を示す図であ
る。システム監視装置の共用メモリ（１１−０−３〜１
８−０−３）は、すべて同じ構成であるため、プロセッ
サモジュール（１１）のシステム監視装置（１１−０）
の共用メモリ（１１−０−３）を例にして説明する。共
用メモリ（１１−０−３）には、どこで障害が発生した
かを示す障害箇所情報を格納し、プロセッサ（１１−
１）とシステム監視装置（１１−０）のプロセッサ（１
１−０−１）とがアクセスする。

【００４６】共用メモリ（１１−０−３）には、障害箇
所情報として、プロセッサ／メモリの障害箇所情報（４
０）、ＩＯＰ障害箇所情報（４１）、ＯＳ／モニタ障害
箇所情報（４２）およびＡＰ障害箇所情報（４３）を格
納する領域をそれぞれ１バイト設ける。そして、それぞ
れの障害箇所情報は、ビット毎に障害箇所情報を示す。
各ビットについて、”１”は障害が発生したことを、”
０”は正常はあることを示す。

【００４７】図１１において、プロセッサ／メモリの障
害情報（４０）は、ｐ（４０−１）が、プロセッサ（１
１−１）で障害が発生したが、２重化しているプロセッ
サのどちらのプロセッサ（１１−１−１，１１−１−
２）で障害が発生したか判定できないことを示す。ｐａ
（４０−２）は、プロセッサＡ（１１−１−１）で、ｐ
ｂ（４０−３）は、プロセッサＢ（１１−１−２）で障
害が発生したかを示す。ｍ（４０−４）はメモリ（１１
−２）で障害が発生したことを示す。ＩＯＰ障害情報
（４１）では、ＩＯＰ（１１−１０）は、ＩＯＣ（１１
−３）、モニタ間通信制御装置（１１−５）、ディスク
制御装置（１１−６）、ＬＡＮ制御装置（１１−７）お
よび回線制御装置（１１−８）を備えるが、これらの障
害情報をｉｏｐ１（４１−１）〜ｉｏｐ５（４１−５）
に割当て、それぞれＩＯＣ（１１−３）、モニタ間通信
制御装置（１１−５）、ディスク制御装置（１１−
６）、ＬＡＮ制御装置（１１−７）あるいは回線制御装
置（１１−８）で障害が発生したことを示す。ＯＳ／モ
ニタ障害情報（４２）では、ｏｓ（４２−１）はＯＳ
（１１−２２）で、ｍｏｎ（４２−２）はモニタ（１１
−２１）でそれぞれ障害が発生したことを示す。ＡＰ障
害情報（４３）では、プロセッサモジュール（１１）に
おいて、例えば、８つのＡＰ（１１−２３）（ＡＰ１〜
ＡＰ８）が実行していた場合、これら８つのＡＰ（１１
−２３）をａｐ１（４３−１）〜ａｐ８（４３−８）に
割当て、ＡＰ（１１−２３）で障害が発生したことを示
す。このように、障害箇所情報を各ビット毎に割り当て
て障害が発生した場合には、プロセッサ１１−１が障害
が発生したビットに”１”を設定する。

【００４８】図７は、モニタ間通信制御装置の構成図で
ある。モニタ間通信制御装置（１１−５）は、プロセッ
サモジュールのモニタ間で行うモニタ間通信メッセージ
の通信制御を行う。モニタ間通信制御装置（１１−５）
は、モニタ間通信制御の処理を行うプロセッサ（１１−
５−１）、モニタ間通信制御の処理手順を記憶するメモ
リ（１１−５−２）、モニタ間通信メッセージを一時的
に格納するバッファ（１１−５−３）、モニタ間通信メ
ッセージの送受信の制御を行うａｌｉｖｅ制御部（１１
−５−４）を備える。バッファ（１１−５−３）には、
端末（５）から受信するモニタ間通信メッセージと端末
（５）に送信するモニタ間通信メッセージとを格納す
る。

【００４９】図６は、集線装置の構成図である。集線装
置（１１−４）は、プロセッサ（１１−１）とシステム
監視装置（１１−０）とに接続され、これらからのメッ
セージを制御用ＬＡＮ（６）に送出すると共に、制御用
ＬＡＮ（６）からのメッセージをこれらの送出する。集
線装置（１１−４）は、制御用ＬＡＮ（６）の通信制御
処理を行うプロセッサ（１１−４−１）、通信制御処理
手順を記憶するメモリ（１１−４−２）、制御用ＬＡＮ
（６）に接続され、送受信の制御を行う制御用ＬＡＮコ
ントローラ（１１−４−３）、プロセッサ（１１−１）
に接続され、プロセッサ（１１−１）との送受信の制御
行うモニタ間通信コントローラ（１１−４−４）、シス
テム監視装置（１１−０）に接続され、システム監視装
置（１１−０）との送受信の制御を行うリセットメッセ
ージコントローラ（１１−４−５）を備える。集線装置
（１１−４）を介して通信するメッセージについては後
述する。

【００５０】図８は、ディスク制御装置の構成図であ
る。ディスク制御装置（１１−６）は、ディスク制御の
処理を行うプロセッサ（１１−６−１）、ディスク制御
の処理手順を記憶するメモリ（１１−６−２）、ディス
クと送受信する情報を格納するバッファ（１１−６−
３）、ディスクとの送受信の制御を行うディスク制御部
（１１−６−４）を備える。バッファ（１１−６−３）
には、共有ディスク（２）から読み出すデータと共有デ
ィスク（２）に書込むデータを格納する。

【００５１】図９は、ＬＡＮ制御装置の構成図である。
ＬＡＮ制御装置（１１−７）は、業務用ＬＡＮ（１）の
ＬＡＮ制御の処理を行うプロセッサ（１１−７−１）、
ＬＡＮ制御の処理手順を記憶するメモリ（１１−７−
２）、業務用ＬＡＮ（１）への送受信データを格納する
バッファ（１１−７−３）、業務用ＬＡＮ（１）との送
受信の制御を行うＬＡＮ制御部（１１−７−４）で構成
する。バッファ（１１−７−３）には、他のプロセッサ
モジュール（１２〜１８）から受信したデータと他のプ
ロセッサモジュール（１２〜１８）に送信するデータを
格納する。

【００５２】図１０は、回線制御装置の構成図である。
回線制御装置（１１−８）は、端末（５）に接続する回
線の通信制御処理を行うプロセッサ（１１−８−１）、
回線の通信制御処理手順を記憶するメモリ（１１−８−
２）、端末（５）との送受信データを格納するバッファ
（１１−８−３）、回線切替装置（３）に接続され、端
末（５）との送受信の制御を行う回線制御部（１１−８
−４）を備える。バッファ（１１−８−３）には、端末
（５）から受信するデータと、端末（５）に送信するデ
ータを格納する。

【００５３】以下、モニタ間通信制御部（１１−５−
４）、ディスク制御部（１１−６−４）、ＬＡＮ制御部
（１１−７−４）および回線制御部（１１−８−４）を
合わせて、ＩＯ制御部（１１−４−４，１１−５−４，
１１−６−４，１１−７−４）という。

【００５４】つぎに、障害の種類と、集線装置（１１−
４）を介して通信するメッセージについて説明する。

【００５５】図１２は、制御用ＬＡＮ（６）を介して集
線装置（１１−４）において通信するメッセージのフォ
ーマットを示している。図１２において、メッセージ
（２０）は、同期信号を含むヘッダ（２０−１）、メッ
セージの種類を示すメッセージ種別（２０−２）、転送
元のプロセッサモジュールの識別情報を示す転送元アド
レス（２０−３）、転送先のプロセッサモジュールの識
別情報を示す転送先アドレス（２０−４）およびメッセ
ージの内容を示すメッセージ本体（２０−５）から構成
する。メッセージ種別（２０−２）は、図１３に示すよ
うに、モニタ間メッセージ通信かあるいはリセットメッ
セージかを示す。図１３は、メッセージ種別のコードを
示す図である。メッセージ種別’１’をモニタ間メッセ
ージ通信に、メッセージ種別’２’はリセットメッセー
ジに使用することを示す。転送元アドレス（２０−３）
は、メッセージを送信のプロセッサモジュールの通信ア
ドレスを示す。転送先アドレス（２０−４）は、メッセ
ージ受信するプロセッサモジュールの通信アドレスを示
す。集線装置（１１−４）では、システム監視装置（１
１−０）とモニタ間通信制御装置（１１−５）とから転
送先アドレス（２０−４）およびメッセージ本体（２０
−５）を受信し、ヘッダ（２０−１）とメッセージ種別
（２０−２）と転送元アドレス（２０−３）とを、メッ
セージに付加して制御用ＬＡＮ（６）に送出する。この
際の、システム監視装置（１１−０）とモニタ間通信制
御装置（１１−５）から送出する転送先アドレス（２０
−４）およびメッセージ本体（２０−５）を含むメッセ
ージフォーマットを図１４に示す。また、制御用ＬＡＮ
（６）から受信したメッセージは、メッセージ種別（２
０−２）と転送先アドレス（２０−４）とを解析して、
ヘッダ（２０−１）とメッセージ種別（２０−２）と転
送先アドレス（２０−４）とを削除して、転送元アドレ
ス（２０−３）およびメッセージ本体（２０−５）を、
システム監視装置（１１−０）もしくはモニタ間通信制
御装置（１１−５）に送出する。その際の転送元アドレ
ス（２０−３）およびメッセージ本体（２０−５）を含
むメッセージフォーマットを図１５に示す。

【００５６】上記メッセージの具体例を、図１６に示
す。図１６に示すように、モニタ間通信では、ａｌｉｖ
ｅメッセージ（メッセージ７０）、障害通知メッセー
ジ（メッセージ７１）、集中コンソールへの障害通知
（メッセージ７５，メッセージ７６）、システム立
ち上げ時のパラメータの受け渡しメッセージ（メッセー
ジ７２）がある。リセットメッセージは、リセット要
求（メッセージ７３）とそれに対応するリセット完了
（メッセージ７４）とがある。本実施例では、転送元
アドレス（２０−３）および転送先アドレス（２０−
４）を使用するが、プロセッサモジュール（１１〜１
８）のアドレスは、それぞれ、’１’から順に’８’ま
でとする。また、集中コンソール（７）のアドレスは’
１０’としている。メッセージ本体は、３バイトから構
成される。まず、最初の１バイトを以下に示す。メッセ
ージ種別が１（モニタ間通信）の場合、最初の１バイト
では、’０１’はａｌｉｖｅメッセージを、’１０’は
障害通知を、’１１’は予備プロセッサモジュールとし
て立ち上げ完了を、それぞれ示す。これらは、プロセッ
サモジュール（１１〜１８）間で通信する。また、’０
４’は予備プロセッサモジュールから集中コンソールへ
の障害通知を、’０３’は実行プロセッサモジュールか
ら集中コンソールへの障害通知を意味する。メッセージ
種別が２（リセットメッセージ）の場合、最初の１バイ
トでは、’０１’はリセット要求を、’０２’はリセッ
ト完了を意味する。次の２バイト（Ｘ）および（Ｙ）
は、障害情報の詳細を示すものである。このため、ａｌ
ｉｖｅメッセージ、予備プロセッサモジュールの立ち上
げ完了、リセット要求／完了は（Ｘ）および（Ｙ）は使
用しないので０とする。最初の１バイトが障害を示す’
１０’のとき１バイト（Ｘ）は、図１７に示すように、
障害箇所を示す。プロセッサ（１１−１〜１８−１）／
メモリ（１１−２〜１８−２）、ＩＯＰ（１１−１０〜
１８−１０）、ＯＳ（１１−２２〜１８−２２）／モニ
タ（１１−２３〜１８−２３）、ＡＰ（１１−２３〜１
８−２３）のいずれかで障害が発生した箇所を示す。１
バイト（Ｙ）は、図１８〜図２１に示すように、（Ｘ）
の詳細情報を示す。図１８はプロセッサ／メモリにおけ
る障害部位、図１９はＩＯＰにおける障害部位、図２０
はＯＳ／モニタにおける障害部位、図２１はＡＰの障害
部位を示す。このように、プロセッサ（１１−１〜１８
−１）／メモリ（１１−２〜１８−２）、ＩＯＰ（１１
−１０〜１８−１０）、ＯＳ（１１−２２〜１８−２
２）／モニタ（１１−２３〜１８−２３）、ＡＰ（１１
−２３〜１８−２３）のうち、どこで障害が発生したか
をそれぞれ示すことができる。

【００５７】以下、図２４から図３７を用いて、実行プ
ロセッサモジュール（１１）と予備プロセッサモジュー
ル（１２）とにおける処理手順を示す。ここでは、プロ
セッサモジュール（１１）を実行プロセッサモジュール
として、プロセッサモジュール（１２）を予備プロセッ
サモジュールとして、それぞれ立ち上げる。その際のモ
ニタ間メッセージ通信の詳細を示す。そして、実行プロ
セッサモジュール（１１）で障害が発生し、予備プロセ
ッサモジュール（１２）が実行プロセッサモジュール
（１１）の処理を引き継ぐ。さらに、障害の発生したプ
ロセッサモジュール（１１）は、障害発生時のリセット
処理を行い、障害から回復し、再度二重化運転を実行す
る処理について説明する。

【００５８】図２４は、システム立ち上げの処理手順を
示す図である。実行プロセッサモジュール（１１）は、
電源オンの後（処理２００）、初期設定を実行する
（処理２０１）。同様に、予備プロセッサモジュール
（１２）は、電源オンの後（処理２０５）、初期設定
を実行する（処理２０６）。初期設定処理（処理２
０１，２０６）では、プロセッサモジュール（１１，１
２）のアドレスは、各プロセッサモジュールのローカル
ディスク（１１−１１）に設定しておき、モニタ間通信
のアドレスとリセットメッセージのアドレスは同一にす
る。これらのアドレスは、集線装置（１１−４）のメモ
リ（１１−４−２）に設定しておく（処理２０２，２０
７）。そして、プロセッサモジュール（１１，１２）間
で、一方を実行プロセッサモジュール（１１）として、
他方を予備プロセッサモジュール（１２）として立ち上
げる。実行プロセッサモジュール（１１）において、モ
ニタ（１１−２１）は、処理を行うべきＡＰ（１１−２
３）に、実行ＡＰとしての起動を要求する（処理２１
１）。ＡＰ（１１−２３）は、実行ＡＰとして立ち上げ
られる（処理２１２）。この処理（処理２１２）が
終了すると、ＡＰ（１１−２３）は、モニタ（１１−２
１）に完了通知を出力する（処理２１３）。また、モ
ニタ（１１−２１）は、モニタ間通信により、予備プロ
セッサモジュール（１２）に対してａｌｉｖｅメッセー
ジの送出を始める（処理２１０）。一方、予備プロセ
ッサモジュール（１２）においては、モニタ（１２−２
１）は、処理を行うべきＡＰ（１２−２３）に、予備Ａ
Ｐとしての起動を要求する（処理２１５）。ＡＰ（１
２−２３）は、予備ＡＰとして立ち上げられる（処理２
１６）。この処理が終了すると、ＡＰ（１２−２３）
は、モニタ（１２−２１）に完了通知を出力する（処理
２１７）。さらに、プロセッサモジュール（１２）
は、モニタ間通信により、待機状態にあるとして、立ち
上がったことを実行プロセッサモジュール（１１）に通
知する（処理２１８）。

【００５９】実行プロセッサモジュール（１１）では、
予備プロセッサモジュール（１２）から立ち上げ完了通
知を受信すると、実行プロセッサモジュール（１１）
は、共有ディスク（２）、業務用ＬＡＮ（１）および回
線切替装置（３）を、以下のようにそれぞれ設定する。
まず、実行プロセッサモジュール（１１）は、予備プロ
セッサモジュール（１２）からアクセスできないよう
に、共有ディスク（２）をリザーブする（処理２２
０）。業務用ＬＡＮ（１）と回線切替装置（３）とは、
それぞれ、実行プロセッサモジュール（１１）と接続す
る（処理２２１，処理２２２）。

【００６０】つぎに、図２５から図２９を参照して、通
知の処理手順と障害検出とを説明する。

【００６１】図２６は、ａｌｉｖｅメッセージの通信手
順を示す図である。ａｌｉｖｅメッセージは、モニタ間
通信により、実行プロセッサモジュール（１１）から予
備プロセッサモジュール（１２）に定期的に通知され
る。以下、ａｌｉｖｅメッセージの通信手順を示す。モ
ニタ間通信制御装置（１１−５）は、予備プロセッサモ
ジュール（１２）の通信アドレスは’２’であるため、
転送先アドレス（２１−４）を’２’に設定し、メッセ
ージ本体（２１−５）をａｌｉｖｅメッセージであるこ
とを示す’０１００００’（メッセージ７０）に設定
し、集線装置（１１−４）に送信する（処理２６
０）。集線装置（１１−４）では、ヘッダ（２０−１）
として’ＦＦ’を付加し、モニタ間通信制御装置（１１
−５）からのメッセージであるのでメッセージ種別（２
０−２）を’１’にして、実行プロセッサモジュール
（１１）の通信アドレスは’１’であるため転送元アド
レス（２０−３）を’１’に設定し、ａｌｉｖｅメッセ
ージを予備プロセッサモジュール（１２）に転送する
（処理２６１）。予備プロセッサモジュール（１２）
の集線装置（１２−４）では、メッセージ種別（２０−
２）が’１’であるのでモニタ間通信制御装置（１１−
５）からのメッセージであると解析して、受信したメッ
セージのうち、転送元アドレス（２２−３）の’１’、
とメッセージ本体（２２−５）の’０１００００’をプ
ロセッサ（１２−１）のモニタ間通信制御装置（１２−
５）に渡す（処理２６２）。

【００６２】つぎに、障害が発生した場合のメッセージ
と障害検出方法について説明する。

【００６３】障害の種類としては、図２２に示すよう
に、系障害と部分障害とがある。系障害とは、プロセッ
サモジュールに重大な影響を与える障害である。一方、
部分障害は、軽度な障害であり、障害箇所を閉塞すれ
ば、実行可能な障害である。図２２（ｂ）に示すよう
に、系障害は、ハードウエア障害の場合、プロセッサ
（１１−１〜１８−１）とメモリ（１１−２〜１８−
２）とのシステム共通のハードウェア障害と、複数ある
ＩＯＰ（１１−１０〜１８−１０）のうち一定数以上の
ＩＯＰ（１１−１０〜１８−１０）の障害とする。ま
た、図２２（ａ）に示すように、ソフトウェア障害の場
合、ＯＳ（１１−２２〜１８−２２）、モニタ（１１−
２３〜１８−２３）のようなシステムに共通なソフトウ
ェア障害と、複数あるＡＰ（１１−２３〜１８−２３）
のうちの一定数以上のＡＰ（１１−２３〜１８−２３）
の障害とする。一方、部分障害は、一定数未満のＩＯＰ
（１１−１０〜１８−１０）のハードウエア障害、ある
いは、一定数未満のＡＰ（１１−２３〜１８−２３）の
障害とする。図２２に示すような系障害と部分障害と
を、あらかじめシステム監視装置に定義して保持おき、
各障害に対応させて行うリセット方法をシステム監視装
置に規定しておくことができる。

【００６４】また、障害には、実行プロセッサモジュー
ル（１１）において検出できる障害と検出できない障害
とがある。実行プロセッサモジュール（１１）において
検出できない障害の場合には、予備プロセッサモジュー
ル（１２）において、ａｌｉｖｅメッセージの途絶によ
り障害を検出することができる。以下、この場合につい
て述べる。この場合は、障害箇所が特定できないため、
必ず系障害となる。

【００６５】図２５は、ａｌｉｖｅメッセージによる障
害検出方法を示している。実行プロセッサモジュール
（１１）自身で検出できない障害については、予備プロ
セッサモジュール（１２）が、最後のａｌｉｖｅメッセ
ージを受信した後、一定時間経過しても、受信しない場
合、実行プロセッサモジュール（１１）の障害と判定す
る。

【００６６】次に、障害の発生したプロセッサモジュー
ルのシステム監視装置が障害を検出する場合について、
図２７、図２８および図２９を参照して説明する。

【００６７】図２７は、ハードウェア障害の検出手順を
示す図である。プロセッサ（１１−１）あるいはメモリ
（１１−２）で障害が発生する（処理６００）と、プ
ロセッサに備えるマシンチェックにより障害を検出し
（処理６０１）、ＯＳ（１１−２２）に通知する。そ
して、ＯＳ（１１−２２）は、障害処理を実行し、図１
１に示したように、共用メモリ（１１−０−３）の指定
ビット（プロセッサの障害ならばｐ（４０−１）を、メ
モリの障害ならばｍ（４０−４））をオンにする（処理
６０２）。そして、システム監視装置（１１−０）に
割り込みを通知する（処理６０３）。一方、システム
監視装置（１１−０）のプロセッサ（１１−０−１）
は、割込みを受信すると、共用メモリ（１１−０−３）
を読み出し、どこで障害が発生したのかを認識する（処
理６０４）。ＩＯＰ（１１−１０）で障害が発生する
と（処理６１０）、障害割込みにより、ＯＳ（１１−
２２）に通知する（処理６１１）。そして、ＯＳ（１１
−２２）は、共用メモリ（１１−０−３）の指定ビット
（障害ＩＯＰにより、ｉｏｐ１（４１−１）〜ｉｏｐ５
（４１−５））をオンにする（処理６１２）。そし
て、システム監視装置（１１−０）に割り込む。（処理
６１３）。

【００６８】一方、システム監視装置（１１−０）のプ
ロセッサ（１１−０−１）は、割込みを受信すると、共
用メモリ（１１−０−３）を読み出し、どこで障害が発
生したのかを認識する（処理６１４）。

【００６９】また、ソフトウェア障害の検出手順は図２
８に示すように処理する。

【００７０】ＯＳ（１１−２２）およびモニタ（１１−
２１）では、一定周期毎に、システム監視装置（１１−
０）の共用メモリ（１１−０−３）に、図１１に示すビ
ット（ｏｓ（４２−１）およびはｍｏｎ（４２−２））
をオンにする（処理６５０）。一方、システム監視装
置（１１−０）では、一定時間ごとにこのビットをリー
ドして、該当するビットをクリアする（処理６５１）
が、一定時間経過しても、該当するビットがオフのまま
ならば、ＯＳ（１１−２２）あるいはモニタ（１１−２
１）で障害が発生したと判定することができる（処理
６５２）。また、ＡＰ（１１−２３）の障害は、モニタ
（１１−２１）が検出する。そして、障害を検出すると
ＯＳに通知し、指定ビット（ａｐ１（４３−１）〜ａｐ
８（４３−８））をオンにする。

【００７１】以上のように、実行プロセッサモジュール
（１１）のシステム監視装置（１１−０）において障害
を検出すると、モニタ（１１−２１）では、図２９に示
すように、予備プロセッサモジュール（１２）に障害発
生を通知する。ここでは、プロセッサＡ（１１−１−
１）で障害が発生したとする。

【００７２】図２９において、モニタ間通信制御装置
（１１−５）は、転送先アドレス（２１−４）を’２’
に、メッセージ本体（２１−５）を障害通知を示す’１
０’と障害箇所を示す（Ｘ）および（Ｙ）の’０１０
４’を設定し、集線装置（１１−４）に送信する（処理
２７０）。集線装置（１１−４）は、ヘッダ（２０−
１）として’ＦＦ’を付加し、メッセージ種別をモニタ
間通信であることを示す’１’に、転送元アドレスを’
１’に設定し、障害通知メッセージを、予備プロセッサ
モジュール（１２）に転送する（処理２７１）。予備
プロセッサモジュール（１２）の集線装置（１２−４）
は、メッセージ種別（２０−２）が’１’であるのでモ
ニタ間通信制御装置（１１−５）からのメッセージであ
ると解析して、受信したメッセージのうち、転送元アド
レス（２２−３）の’１’とメッセージ本体（２２−
５）’１００１０４’をプロセッサ（１２−１）に渡す
（処理２７２）。

【００７３】このように、実行プロセッサモジュール
（１１）で障害が発生しても、予備プロセッサモジュー
ル（１２）は、実行プロセッサモジュール（１１）の障
害を検出することが可能となる。そして、予備プロセッ
サモジュール（１２）は障害情報により、系障害か部分
障害かを判定することができる。

【００７４】つぎに、上記したような障害が起こった後
の処理について説明する。図２３に、プロセッサモジュ
ールの状態遷移図を示す。本実施例では、すべてのプロ
セッサモジュール（１１〜１８）について、プロセッサ
モジュール（１１〜１８）共通のハードウェアあるいは
ソフトウェアで障害が発生した場合を系障害とし、この
場合にはプロセッサモジュール（１１〜１８）全体をリ
セットする。また、ＩＯＰ（１１−８〜１８−８）ある
いはＡＰ（１１−１１〜１８−１１）障害のような部分
障害の場合には、障害の発生した箇所のみをリセット
し、残り部分は実行させる。系障害の場合にはプロセッ
サモジュール（１１〜１８）に影響を与える障害であ
り、予備プロセッサモジュール（１１〜１８）への切替
が必須である。部分障害の場合には、ＩＯＰ（１１−８
〜１８−８）を閉塞すれば、処理の継続が可能である。

【００７５】この結果、プロセッサモジュール（１１〜
１８）には、図２３に示すように、４つの状態（１５０
〜１５３）を設ける。

【００７６】図２３において、現用状態（１５０）は、
正常に処理を実行中の状態である。準現用状態（１５
１）は、一部のＩＯＰ（１１−８〜１８−８）あるいは
ＡＰ（１１−１１〜１８−１１）が障害であるが、障害
の発生したＩＯＰ（１１−８〜１８−８）あるいはＡＰ
（１１−１１〜１８−１１）を閉塞して、実行中の状態
である。待機状態（１５２）は、プロセッサモジュール
（１１〜１８）で障害が発生しても直ちに処理を引き継
げる予備状態である。オフライン状態（１５３）は障害
発生や保守のためシステムから切り離されている状態で
ある。

【００７７】ここでは、実行プロセッサモジュール（１
１）とそのバックアップ処理を実行する予備プロセッサ
モジュール（１２）を例にして、状態遷移を説明する。

【００７８】実行プロセッサモジュール（１１）は、現
用状態（１５０）で、ＩＯＰ（１１−１０）あるいはＡ
Ｐ（１１−１１）に部分障害が発生すると、障害ＩＯＰ
（１１−６）を閉塞し、障害ＩＯＰ（１１−６）へのア
クセスを中断させて準現用状態（１５１）に遷移する
（状態遷移１５５）。さらに、準現用状態（１５０）
で障害が発生すると、オフライン状態（１５３）に遷移
し（状態遷移１６０）、予備プロセッサモジュール
（１２）が、待機状態（１５２）から現用状態（１５
０）に遷移する（状態遷移１５８）。準現用状態（１
５１）において、障害の発生したＩＯＰ（１１−１０）
あるいはＡＰ（１１−１１）がリセットにより回復する
と、現用状態（１５０）に遷移する（状態遷移１５
６）。また、実行プロセッサモジュール（１１）が現用
状態（１５０）で系障害が発生すると、オフライン状態
（１５３）に遷移し（状態遷移１５７）、予備プロセ
ッサモジュール（１２）を待機状態（１５２）から現用
状態（１５０）に遷移させる（状態遷移１５８）。ま
た、待機状態（１５２）のときに、系障害あるいは部分
障害が発生すると、オフライン状態（１５３）に遷移さ
せる（状態遷移１５９）。さらに、オフライン状態
（１５３）で修復が完了すると、オフライン状態（１５
３）から待機状態（１５２）に遷移させる（状態遷移
１６１）。

【００７９】このように、プロセッサモジュールの状態
を系障害または部分障害にしたがって遷移させていく。

【００８０】つぎに、障害発生時のリセット方法につい
て説明する。図３０は、リセット処理の通信手順を示し
ている。図３０においては、予備プロセッサモジュール
（１２）が、実行プロセッサモジュール（１１）をリセ
ットさせる通信手順を示す。

【００８１】予備プロセッサモジュール（１２）のモニ
タ（１２−２１）では、実行プロセッサモジュール（１
１）の障害を系障害と判定すると、自装置内のシステム
監視装置（１２−０）に通知する（処理３００）。シ
ステム監視装置（１２−０）は、実行プロセッサモジュ
ール（１１）をリセットさせるために、転送先アドレス
（２１−４）を’１’に、メッセージ本体（２１−５）
をリセット要求を示す’０１００００’に設定し、集線
装置（１１−４）に送信する（処理３０１）。集線装
置（１２−４）では、障害の発生した実行プロセッサモ
ジュール（１１）の集線装置（１１−４）に、ヘッダ
（２０−１）として’ＦＦ’を付加し、システム監視装
置（１２−０）からのメッセージであるのでメッセージ
種別（２０−２）を’２’に、転送元アドレス（２０−
３）を’２’に設定し、リセット要求（メッセージ７
３）を、実行プロセッサモジュール（１１）に転送する
（処理３０２）。実行プロセッサモジュール（１１）
の集線装置（１１−４）では、メッセージ種別（２０−
２）が’２’であるのでシステム監視装置へのメッセー
ジであると解析し、受信したメッセージのうち、転送元
アドレス（２２−３）の’０’とメッセージ本体（２２
−５）をシステム監視装置（１１−０）に渡す（処理
３０３）。そして、システム監視装置（１１−０）は、
ＩＯＰ（１１−１０）をすべてリセットする（処理３
０４）。

【００８２】リセット処理が完了すると、システム監視
装置（１１−０）は、転送先アドレス（２１−４）を’
２’に、メッセージ本体（２１−５）をリセット完了を
示す’０２００００’に設定し、集線装置（１１−４）
に送信する（処理３０５）。集線装置（１１−４）
は、ヘッダ（２０−１）として’ＦＦ’を付加し、シス
テム監視装置（１２−０）からのメッセージであるので
メッセージ種別（２０−２）を’２’に、転送元アドレ
ス（２０−３）を’１’に設定し、リセット完了メッセ
ージ（メッセージ７４）を、予備プロセッサモジュー
ル（１２）に転送する（処理３０６）。予備プロセッ
サモジュール（１２）の集線装置（１２−４）は、メッ
セージ種別（２０−２）が’２’であるのでシステム監
視装置へのメッセージであると解析し、受信したメッセ
ージのうち、転送元アドレス（２２−３）’０’とメッ
セージ本体（２２−５）をシステム監視装置（１２−
０）に渡す（処理３０７）。

【００８３】つぎに、リセット要求を受けてからシステ
ム監視装置において行うリセット処理（リセットコマン
ド方式とリセット信号線方式）について、図３１および
図３２を参照して説明する。ここでは、システム監視装
置（１１−０）がＩＯＰ（１１−１０）をリセットする
方式について述べる。リセット方式には、システム監視
装置（１１−０）がリセットコマンドを発行するリセッ
トコマンド方式と、システム監視装置（１１−０）とＩ
ＯＰ（１１−１０）のリセット信号線（１１−７）によ
るリセット信号線方式とがある。

【００８４】図３１は、リセットコマンドによるリセッ
ト方式を示している。リセットコマンドは、予めシステ
ム内で定義しておく。システム監視装置（１１−０）
は、ＩＯＣ（１１−３）に対してリセットコマンドを発
行する。ＩＯＣ（１１−３）は、このリセットコマンド
を解析し、ＩＯＣ（１１−３）自身をリセットするの
か、ディスク制御装置（１１−６）、ＬＡＮ制御装置
（１１−７）あるいは回線制御装置（１１−８）をリセ
ットさせるのかを判定し、該当するものにリセットコマ
ンドを送信する（処理２０）。

【００８５】コマンドを送信されたディスク制御装置
（１１−６）、ＬＡＮ制御装置（１１−７）および回線
制御装置（１１−８）の各プロセッサ（１１−６−１、
１１−７−１、１１−８−１）は、リセットコマンドを
受信すると、それぞれのＩＯ制御部（１１−４−４，１
１−５−４，１１−６−４）をリセットする。そしてリ
セットを確認した後に、システム監視装置（１１−０）
に、リセット完了通知を戻す（処理２１）。

【００８６】ＩＯ制御部（１１−４−４，１１−５−
４，１１−６−４）のみをリセットするため、ディスク
制御装置（１１−６）、ＬＡＮ制御装置（１１−７）お
よび回線制御装置（１１−８）のメモリ（１１−６−
２、１１−７−２、１１−８−２）の内容は、生かして
おくことが可能となる。

【００８７】また、図３２は、リセット信号線によるリ
セット方式を示している。この場合、システム監視装置
（１１−０）、ディスク制御装置（１１−６）、ＬＡＮ
制御装置（１１−７）および回線制御装置（１１−８）
には、リセット端子を設けておく。リセット信号線（１
１−９）により、システム監視装置（１１−０）と、デ
ィスク制御装置（１１−６）、ＬＡＮ制御装置（１１−
７）および回線制御装置（１１−８）とのリセット端子
を相互にそれぞれ接続しておく。

【００８８】システム監視装置（１１−０）は、リセッ
トを行う場合、リセット制御回路（１１−４−４）にリ
セット要求を通知する。デコーダ（１１−４−５）は、
どのＩＯＰ（１１−１０）をリセットするのかあるいは
すべてのＩＯＰ（１１−１０）をリセットするのかをリ
セット要求をデコードして決定し、該当するリセット信
号線（１１−７）をオンにする。ＩＯＰ（１１−１０）
は、リセット信号線（１１−７）のオンを検出し、ＩＯ
Ｐ（１１−１０）がリセットされる。リセット信号線方
式では、リセット信号線に障害がないかぎりリセット処
理が可能となり、リセット処理の信頼度は高い。このた
め、リセット要求のみで、リセット要求に対する完了通
知がなくても、障害ＩＯＰ（１１−１０）のリセットが
保証できる。

【００８９】つぎに、実行プロセッサモジュールの系障
害を検出し、予備プロセッサモジュールへの引き継ぎ処
理手順を、図３３を参照して説明する。この場合、実行
プロセッサモジュール（１１）は現用状態１５０からオ
フライン状態１５３に遷移し、予備プロセッサモジュー
ル（１２）は待機状態１５２から現用状態１５０に遷移
する。

【００９０】図３３において、実行プロセッサモジュー
ル（１１）で障害が発生すると（処理３５０）、この
障害を予備プロセッサモジュール（１２）は、ａｌｉｖ
ｅメッセージの途絶（処理３５１）により、実行プロ
セッサモジュールの系障害を検出する（処理３５
２）。モニタ（１２−２１）は、システム監視装置（１
２−０）に障害発生を通知する（処理３５３）。シス
テム監視装置（１２−０）は、システム監視装置（１１
−０）にリセット要求を通知する（処理３５４）。シ
ステム監視装置（１１−０）では、ＩＯＰをリセットす
る（処理３５５）。リセットが完了すると、リセット
完了通知を、システム監視装置（１２−０）に通知する
（処理３５６）。実行プロセッサモジュール（１１）
は、現用状態１５０からオフライン状態１５３に遷移す
る。予備プロセッサモジュール（１２）のシステム監視
装置（１２−０）では、リセット完了通知を受けると、
モニタ（１２−２１）に、共有ディスク（２）の切り替
え、業務用ＬＡＮ（１）の切り替え、および、回線切替
装置（３）の切り替えを要求する。（処理３６０）。
そして、モニタ（１２−２１）は、共有ディスク（２）
の切り替え（処理３６１）、業務用ＬＡＮ（３）の切
り替え（処理３６２）、回線切替装置（３）の切り替
え（処理３６３）、集中コンソール（７）への通知
（処理３６４）を行なう。最後に、実行プロセッサモ
ジュール（１１）の処理を引き継ぐ（処理３６５）。予
備プロセッサモジュール（１２）の状態を、待機状態
（１５２）から現用状態（１５０）に遷移する（処理
３６６）。

【００９１】つぎに、障害の発生したプロセッサモジュ
ールが回復し、予備プロセッサモジュールとして立ち上
がるまでの処理（再同期処理手順）を、図３５を参照し
て説明する。

【００９２】障害の発生したプロセッサモジュール（１
１）は、障害から修復すると（処理４５０）、モニタ
（１１−２１）では、初期設定を行なう（処理４５
１）。そして、実行プロセッサモジュール（１１）の処
理を引き継いだ予備プロセッサモジュール（１２）に対
し、ａｌｉｖｅメッセージ（３０−１）を発行する（処
理４５２）。一方、プロセッサモジュール（１２）で
は、共有ディスク（２）をリリースし、プロセッサモジ
ュール（１１）からアクセス可能とする（処理４５
３）。そして、実行すべきＡＰ（１１−２２）を、予備
ＡＰとして立ち上げる（処理４５５）。その処理が完
了すると（処理４５６）、予備プロセッサモジュール
（１２）に、立ち上がったことを通知する（処理４５
７）。一方、プロセッサモジュール（１２）は、共有デ
ィスク（２）をリザーブし、障害から回復したプロセッ
サモジュール（１１）からアクセスを禁止する（処理
４５８）。

【００９３】このようにして、第１の実施例では、実行
プロセッサモジュール（１１）で障害が発生しても、予
備プロセッサモジュール（１２）のシステム監視装置
（１２−０）が実行プロセッサモジュール（１１）をリ
セットさせるため、予備プロセッサモジュール（１２）
は、実行プロセッサモジュール（１１）の処理を引き継
ぐことが可能となる。

【００９４】つぎに、部分障害時の、実行プロセッサモ
ジュールの閉塞処理手順を、図３６を参照して説明す
る。部分障害時には、現用状態（１５０）から準現用状
態（１５１）に遷移して、障害の発生した部分のみをリ
セットする。

【００９５】図３６において、実行プロセッサモジュー
ル（１１）では、障害が発生すると、モニタ（１１−２
１）が障害を検出し（処理４０１）、予備プロセッサ
モジュール（１２）に、障害発生を通知する（処理４
０２）。また、システム監視装置（１１−０）に通知し
（処理４０３）、障害の発生したプロセッサモジュー
ル（１１）は、障害の発生したものに対応するＩＯＰ
（１１−１０）をリセットする（処理４０４）。そし
て、集中コンソール（７）への通知（処理４１０）を
行なう。また、プロセッサモジュール（１１）の状態
を、現用状態（１５０）から準現用状態（１５１）に遷
移する（処理４０５）。

【００９６】つぎに、予備プロセッサモジュール（１
２）の障害発生時の集中コンソールへの通信手順を図３
４を参照して説明する。ここでは、予備プロセッサモジ
ュール（１２）が集中コンソール（７）にメモリ障害を
通知する場合について説明する。

【００９７】図３４において、予備プロセッサモジュー
ル（１２）のモニタ間通信制御装置（１２−５）は、転
送先アドレス（２１−４）は集中コンソール（７）であ
るため、’１０’を設定し、また、メッセージ本体（２
１−５）は予備プロセッサモジュールがメモリ障害であ
ることを示す、’０４０１０１’を設定し、集線装置
（１２−４）に送信する（処理３８０）。集線装置
（１２−４）では、ヘッダ（２０−１）として’ＦＦ’
を付加し、モニタ間通信制御装置（１２−５）からのメ
ッセージであるのでメッセージ種別（２０−２）を’
１’に、転送元アドレス（２０−３）を’２’に設定
し、集中コンソールへの障害通知メッセージ（メッセー
ジ７６）を、集中コンソール（７）に転送する（処理
３８１）。集中コンソール（７）では、メッセージを
受信して、内容を解析し、メモリ障害である旨をプリン
タ（７−１）に印字出力したり、表示手段から表示出力
する（処理３８２）。あるいは、監視センタにメモリ障
害である旨を通知するようにしてもよい（処理３８
３）。

【００９８】また、実行プロセッサモジュール（１１）
の障害発生時の集中コンソール（７）への通信手順を図
３７を参照して説明する。ここでは、実行プロセッサモ
ジュール（１１）が集中コンソール（７）にＡＰ１の障
害を通知する場合について説明する。

【００９９】図３７において、実行プロセッサモジュー
ル（１１）のモニタ間通信制御装置（１１−５）は、転
送先アドレス（２１−４）は集中コンソール（７）であ
るため、’１０’を設定し、メッセージ本体（２１−
５）はＡＰ１の障害であることを示す、’０３０８０
１’を設定し、集線装置（１２−４）に送信する（処理
４８０）。集線装置（１２−４）では、ヘッダ（２０−
１）として’ＦＦ’を付加し、メッセージ種別（２０−
２）を’１’に、転送元アドレス（２０−３）を’１’
に設定し、集中コンソール（７）への障害通知メッセー
ジ（メッセージ７６）を、集中コンソール（７）に転送
する（処理４８１）。集中コンソール（７）では、メ
ッセージを受信して、内容を解析し、メモリ障害である
旨をプリンタ（７−１）に印字出力したり、表示手段か
ら表示出力する（処理４８２）、あるいは、監視セン
タにメモリ障害である旨を通知するようにしてもよい
（処理４８３）。

【０１００】このように集中コンソール（７）に障害メ
ッセージを通知することにより、ユーザは障害の発生を
認識することができる。さらに、実行プロセッサモジュ
ールは、正常運転中に、稼動情報、構成情報、性能統計
情報などを、集中コンソール（７）に通知し、集中コン
ソール（７）では複数のプロセッサモジュールの情報管
理を行うようにしてもよい。

【０１０１】以上説明したように、第１の実施例によれ
ば、プロセッサモジュール（１１〜１８）にシステム監
視装置（１１−０〜１８−０）をそれぞれ設け、それら
を制御用ＬＡＮ（６）で接続することにより、障害を検
出した予備プロセッサモジュールからリセット要求信号
を送出して、障害が発生した部分のリセット処理を行う
ことができる。

【０１０２】上記の第１の実施例では、プロセッサモジ
ュール（１１〜１８）にシステム監視装置（１１−０〜
１８−０）を設け、それらを制御用ＬＡＮ（６）で接続
していた。一方、第２の実施例では、システム監視装置
（１１−０〜１８−０）を高機能化し、システム監視装
置（１１−０〜１８−０）は、自身のプロセッサモジュ
ール（１１−０〜１８−０）で発生するすべての障害を
検出可能とする。自身のプロセッサモジュール（１１−
０〜１８−０）で障害が発生すると、システム監視装置
（１１−０〜１８−０）が障害を検出し、ＩＯＰ（１１
−１０〜１８−１０）をリセットさせる。

【０１０３】図３８は、第２の実施例のシステム構成図
を示している。本実施例におけるシステム構成は、図１
で示したシステム構成から制御用ＬＡＮ（６）を除いた
ものである。図３９は、第２の実施例の処理概要を示し
ている。本実施例においても、業務を実行している実行
プロセッサモジュール（１１）とそれのバックアップ処
理を行なっている予備プロセッサモジュール（１２）と
を前提にして説明する。

【０１０４】第２の実施例の特徴は、すべてのプロセッ
サモジュール（１１，１２）に、システム監視装置（１
１−０，１２−０）を設ける。これらのシステム監視装
置（１１−０，１２−０）は、自プロセッサモジュール
（１１，１２）のすべてのハードウェアあるいはソフト
ウェアの障害を検出可能とする。システム監視装置（１
１−０，１２−０）は自身のプロセッサモジュール（１
１，１２）の障害を検出し、ＩＯＰ（１１−１０，１２
−１０）をリセットすることにより、誤動作を防止する
（処理５０１）。一方、他のプロセッサモジュール
（１１，１２）は、共有ディスク（２）を介して、正常
に動作しているかチェックするために、ａｌｉｖｅメッ
セージの交換を行なう（処理５００）。そして、ａｌ
ｉｖｅメッセージが途絶えると、障害の発生したプロセ
ッサモジュール（１１，１２）の処理を継続する。この
結果、プロセッサモジュール（１１，１２）のシステム
監視装置（１１−０，１２−０）間の接続を不要とする
ことが可能となる。

【０１０５】本発明の第２の実施例の処理動作を図４０
を参照して説明する。図４０において、実行プロセッサ
モジュール（１１）は、周期的にａｌｉｖｅメッセージ
を共有ディスク（２）の予め定められた領域に書き込ん
でいる（処理５５０）。予備プロセッサモジュール
（１２）では、予め定められた領域を定期的に読み取り
に行くことによりａｌｉｖｅメッセージを受信する。実
行プロセッサモジュール（１１）は、自プロセッサモジ
ュール（１１）で障害が発生すると、そのシステム監視
装置（１１−０）が、自プロセッサモジュール（１１）
の障害を検出する（処理５５１）。そして、システム
監視装置（１１−０）は、障害箇所をリセットする（処
理５５２）。一定時間経過（Ｔ１）後、リセットが完
了したか判定する（処理５５３）。リセットが完了し
ていれば、何もしない（処理５５４）。リセットが完
了していなければ、実行プロセッサモジュール（１１）
はパワーオンリセットを実行する（処理５５５）。

【０１０６】一方、予備プロセッサモジュール（１２）
は、周期的にａｌｉｖｅメッセージを共有ディスク
（２）を読みだすことにより、ａｌｉｖｅメッセージを
受信している。すなわち、実行プロセッサモジュール
（１１）が正常に動作しているか判定するａｌｉｖｅメ
ッセージの受信確認処理を実行する（処理５６０）。
予備プロセッサモジュール（１２）は、ａｌｉｖｅメッ
セージの途絶により、実行プロセッサモジュール（１
１）の障害を検出する（処理５６１）。予備プロセッ
サモジュール（１２）は、実行プロセッサモジュール
（１１）の障害検出後、（Ｔ１）時間経過すると、実行
プロセッサモジュール（１１）のリセット処理の完了は
保証されているため、予備プロセッサモジュール（１
２）は、共有ディスク（２）、業務用ＬＡＮ（１）およ
び回線切替装置（３）を予備プロセッサモジュール（１
２）に切り替える（処理５６２）。そして、予備プロ
セッサモジュール（１２）は、実行プロセッサモジュー
ル（１１）の処理を引き継ぐ（処理５６３）。もしく
は、ａｌｉｖｅメッセージの代わりに、実行プロセッサ
モジュール（１１）において、障害検出後、予備プロセ
ッサモジュール（１２）に障害通知を共有ディスク
（２）に書き込むようにしてもよい。

【０１０７】第２の実施例では、システム監視装置（１
１−０）は自身のプロセッサモジュール（１１）で発生
するすべての障害を検出する。つぎに、図４１から図４
６を参照して、実行プロセッサモジュール（１１）で障
害が発生した場合の処理手順と、予備プロセッサモジュ
ール（１２）が実行プロセッサモジュール（１１）の処
理の引き継ぎとについて説明する。以下に、実行プロセ
ッサモジュール（１１）において障害が発生し、実行プ
ロセッサモジュール（１１）のシステム監視装置（１１
−０）が障害を検出し、リセットさせる場合において、
プロセッサ障害（図４１）、ＯＳ障害（図４２）、ＩＯ
Ｐ障害（図４３）およびＡＰ障害（図４４）のそれぞれ
について述べる。これらの障害検出は、図２７および図
２８に示したように、システム監視装置（１１−０）に
おいて障害を検出する。つぎに、予備プロセッサモジュ
ール（１２）が実行プロセッサモジュール（１１）から
のａｌｉｖｅメッセージの途絶により、実行プロセッサ
モジュール（１１）の障害を検出し、実行プロセッサモ
ジュール（１１）の処理を引き継ぐことについて図４５
および図４６を参照して述べる。

【０１０８】まず、プロセッサ障害が発生した場合の処
理手順について述べる。図４１は、実行プロセッサモジ
ュール（１１）のプロセッサにおいて障害が発生した場
合の処理手順を示している。実行プロセッサモジュール
（１１）のプロセッサ（１１−１）で障害が発生したと
して、システム監視装置（１１−０）が行うリセット処
理について説明する。

【０１０９】システム共通部のハードウェア（プロセッ
サあるいはメモリ）で障害が発生する（処理７０１）
と、プロセッサ（１１−１）は障害割込みにより、ＯＳ
（１１−１０）に障害発生を通知する（処理７０
２）。ＯＳ（１１−１０）は、システム監視装置（１１
−０）との共用メモリ（１１−０−３）に、プロセッサ
障害ならばｐビット（４０−１）を、メモリ障害ならば
ｍビット（４０−２）を、それぞれ”１”にすることに
より、プロセッサ（１１−１）あるいはメモリ（１１−
２）で障害が発生したことを示す。一方、システム監視
装置（１１−０）は、共用メモリ（１１−０−３）のｐ
ビット（４０−１）を読み出し、プロセッサ（１１−
１）で障害が発生したことを認識する（処理７０
３）。システム監視装置（１１−０）は、系障害の場合
には、すべてのＩＯＰ（１１−１０）に対して、リセッ
トを要求する（処理７０４）。ＩＯＰ（１１−１０）
は、ＩＯ制御部（１１−４−４，１１−５−４，１１−
６−４）をリセットし、システム監視装置（１１−０）
にリセット完了を通知する（処理７０５）。リセット
信号線方式では、リセット完了通知処理（処理７０
５）は、前述と同様に不要である。図３２および図３３
において、リセットコマンド方式およびリセット信号線
方式を説明したように、リセット方式には、システム監
視装置（１１−０）がリセットコマンドを発行するリセ
ットコマンド方式と、システム監視装置（１１−０）と
ＩＯＰ（１１−１０）のリセット信号線（１１−７）に
よるリセット信号線方式がある。

【０１１０】つぎに、ＯＳ障害における処理手順を説明
する。図４２は、ＯＳで障害が発生した場合の処理手順
を示している。実行プロセッサモジュール（１１）のＯ
Ｓ（１１−１０）で障害が発生したとして、システム監
視装置（１１−０）がリセットする処理について説明す
る。

【０１１１】ＯＳ（１１−１０）では、周期的に共用メ
モリ（１１−０−３）をアクセスし、ＯＳ障害箇所情報
（４２）のｏｓビット（４２−１）を”１”にセットす
る。システム監視装置（１１−０）は、周期的に共用メ
モリ（１１−０−３）のＯＳ障害箇所情報（４２）のｏ
ｓビット（４２−１）を読み出し、”０”にクリアす
る。ＯＳ（１１−１０）で障害が発生する（処理７５
０）と、ＯＳ（１１−１０）は、ＯＳ障害箇所情報（４
２）を”１”にセットできず、システム監視装置（１１
−０）は、ｏｓビット（４２−１）を読み出すが、”
０”の状態が続く。この処理により、システム監視装置
（１１−０）は、ＯＳ（１１−１０）の障害を検出する
（処理７５１）。そして、システム監視装置（１１−
０）は、すべての発生したＩＯＰ（１１−１０）に対し
て、リセットを要求する（処理７５２）。ＩＯＰ（１
１−１０）は、リセット処理を実行し、リセットコマン
ドに対する完了通知を戻す（処理７５３）。

【０１１２】つぎに、ＩＯＰ障害における処理手順を説
明する。図４３は、ＩＯＰで障害が発生した場合の処理
手順を示している。プロセッサモジュール（１１）のＩ
ＯＰ（１１−１０）で障害が発生したとして、システム
監視装置（１１−０）がリセットする処理について説明
する。

【０１１３】ＩＯＰ（１１−１０）で障害が発生する
（処理８００）と、障害割込みにより、ＯＳ（１１−
１０）に障害発生を通知する（処理８０１）。ＯＳ
（１１−１０）は、共用メモリ（１１−０−３）をアク
セスし、ＩＯＰの障害箇所情報（４１）について、障害
ＩＯＰに対応するｉｏｐ（４１−１〜４１−４）ビット
を”１”にセットすることにより、ＩＯＰ（１１−１
０）で障害が発生したことを示す。一方、システム監視
装置（１１−０）は、共用メモリ（１１−０−３）のｉ
ｏｐ（４１−１〜４１−４）を読み出し、ＩＯＰ（１１
−１０）で障害が発生したことを認識する（処理８０
２）。システム監視装置（１１−０）は、障害の発生し
たＩＯＰ（１１−１０）に対して、リセット信号線方式
により、障害の発生したＩＯＰ（１１−１０）にリセッ
トを要求する（処理８０３）。

【０１１４】つぎに、ＡＰ障害における処理手順を説明
する。図４４は、ＡＰで障害が発生した場合の処理手順
を示している。プロセッサモジュール（１１）のＡＰ
（１１−２３）で障害が発生したとして、システム監視
装置（１１−０）がリセットする処理について説明す
る。

【０１１５】ＡＰ（１１−２３）は、周期的に共用メモ
リ（１１−０−３）のＡＰ障害情報（４３）のａｐビッ
ト（４３−１〜４３−８）を”１”にセットする。シス
テム監視装置（１１−０）は、周期的に共用メモリ（１
１−０−３）のＡＰ障害情報（４３）のａｐビット（４
３−１〜４３−８）を読み出し、”０”にクリアする。
ＡＰ（１１−２３）で障害が発生する（処理８５０）
と、ＡＰ（１１−２３）はａｐビット（４３−１〜４３
−８）を”１”にセットしなくなり、システム監視装置
（１１−０）は、ａｐビット（４３−１〜４３−８）を
読み出すが、”０”の状態が続くため、システム監視装
置（１１−０）は、ＡＰ（１１−２３）の障害を検出す
る（処理８５１）。システム監視装置（１１−０）
は、該当するＡＰ（１１−２３）に対応するＩＯＰ（１
１−１０）に対して、リセットを要求する（処理８５
３）。ＩＯＰ（１１−１０）は、リセット処理を実行
し、それが完了すると、システム監視装置（１１−０）
はＩＯＰ（１１−１０）からリセット完了通知を受信す
る（処理８５４）。

【０１１６】つぎに、実行プロセッサモジュール（１
１）の障害を検出し、実行プロセッサモジュール（１
１）の処理を引き継ぐことについて図４５および図４６
を参照して述べる。図４５は、リセットコマンド方式を
用いた場合の予備プロセッサモジュールの引き継ぎ処理
を示している。本実施例においても、システム監視装置
（１１−０）は、リセットコマンドにより、障害の発生
したＩＯＰ（１１−１０）をリセットさせる。また、リ
セット信号線方式を用いた場合の予備プロセッサモジュ
ール（１２）の引き継ぎ処理については、図４６を参照
して説明する。

【０１１７】リセットコマンド方式は、前述したよう
に、必ずしも、障害ＩＯＰ（１１−１０）のリセットが
保証できない。システム監視装置（１１−０）のリセッ
ト要求後、一定時間（Ｔ１）経過しても、ＩＯＰ（１１
−１０）からリセット完了通知がない場合、システム監
視装置（１１−０）は、障害の発生したプロセッサモジ
ュール（１１）にパワーオンリセットを発行することに
より、リセットさせる（処理９００）。この処理によ
り、実行プロセッサモジュール（１１）は、リセットが
保証できる。一方、予備プロセッサモジュール（１２）
は、ａｌｉｖｅメッセージの途絶（処理９０１）によ
り、実行プロセッサモジュール（１１）の障害を検出す
る（処理９０２）。そして、一定時間（Ｔ０）経過す
る（処理９０３）と、障害の発生した実行プロセッサ
モジュール（１１）はリセット処理が保証されているた
め、実行プロセッサモジュール（１１）の引き継ぎ処理
を開始し（処理９０４、）予備プロセッサモジュール
（１２）は、共有ディスク（２）、業務用ＬＡＮ（１）
および回線切替装置（３）の共有部の切り替えを行なう
（処理９０５）。そして、予備プロセッサモジュール
（１２）は、実行プロセッサモジュール（１１）の処理
を引き継ぐ（処理９０６）。

【０１１８】また、図４６は、リセット信号線方式を用
いた場合の予備プロセッサモジュールの引き継ぎ処理
（２）を示している。本実施例において、システム監視
装置（１１−０）はリセット信号線により、障害ＩＯＰ
（１１−１０）をリセットさせる。ここでは、リセット
信号線方式について、予備プロセッサモジュール（１
２）の引き継ぎ処理を説明する。

【０１１９】予備プロセッサモジュール（１２）は、ａ
ｌｉｖｅメッセージの途絶（処理９５０）により、実行
プロセッサモジュール（１１）の障害を検出する（処理
９５１）。そして、障害の発生した実行プロセッサモジ
ュール（１１）は、リセット処理が保証されているた
め、予備プロセッサモジュール（１２）は、予備プロセ
ッサモジュール（１２）は、直ちに、共有ディスク
（２）、業務用ＬＡＮ（１）および回線切替装置（３）
の切り替えを行なう（処理９５２）。そして、実行プ
ロセッサモジュール（１１）の処理を引き継ぐ（処理
９５３）。

【０１２０】以上の述べたように、第２の実施例では、
プロセッサモジュール（１１〜１８）のシステム監視装
置（１１−０〜１８−０）においてすべての障害が検出
することが可能とし、システム監視装置（１１−０〜１
８−０）は、自身のプロセッサモジュールの障害を検出
し、障害箇所をリセットすることが可能となる。この結
果、システム監視装置（１１−０〜１８−０）間の接続
が不要となる。また、第１の実施例と同様に、集中コン
ソールに対して障害を通知するようにしてもよい。

【０１２１】

【発明の効果】本発明では、複数のプロセッサモジュー
ルからなるシステムにおいて、障害の発生したプロセッ
サモジュールをリセットさせることができる。このた
め、待機プロセッサモジュールにおいても、誤動作がな
く、障害の発生したプロセッサモジュールの引き継ぎ処
理を実行させることが可能となる。

【図面の簡単な説明】

【図１】本発明によるシステム構成図である。

【図２】プロセッサモジュールの構成図である。

【図３】本発明の特徴を示す図である。

【図４】システム監視装置の構成図である。

【図５】プロセッサの構成図である。

【図６】集線装置の構成図である。

【図７】モニタ間通信制御装置の構成図である。

【図８】ディスク制御装置の構成図である。

【図９】ＬＡＮ制御装置の構成図である。

【図１０】回線制御装置の構成図である。

【図１１】共用メモリの内容を示す図である。

【図１２】制御用ＬＡＮを通信するメッセージのフォー
マットを示す図である。

【図１３】メッセージ種別のコードを示す図である。

【図１４】集線装置（送信側）のメッセージフォーマッ
トを示す図である。

【図１５】集線装置（受信側）のメッセージフォーマッ
トを示す図である。

【図１６】本実施例で示すメッセージ例を示す図であ
る。

【図１７】障害部位を示す図である。

【図１８】プロセッサ／メモリの障害部位を示す図であ
る。

【図１９】ＩＯＰの障害部位を示す図である。

【図２０】ＯＳ／モニタの障害部位を示す図である。

【図２１】ＡＰの障害部位を示す図である。

【図２２】系障害と部分障害の判定方法を示す図であ
る。

【図２３】プロセッサモジュールの状態遷移図である。

【図２４】システムの立ち上げ方式を示す図である。

【図２５】ａｌｉｖｅメッセージの障害検出方式を示す
図である。

【図２６】ａｌｉｖｅメッセージの通信手順を示す図で
ある。

【図２７】ハードウェア障害の検出手順を示す図であ
る。

【図２８】ソフトウェア障害の検出手順を示す図であ
る。

【図２９】障害通知手順を示す図である。

【図３０】リセット処理の通信手順を示す図である。

【図３１】リセットコマンドによるリセット方式を示す
図である。

【図３２】リセット信号線によるリセット方式を示す図
である。

【図３３】予備プロセッサモジュールの引き継ぎ処理手
順を示す図である。

【図３４】集中コンソールへの通信手順を示す図であ
る。

【図３５】障害プロセッサモジュールの再同期処理手順
を示す図である。

【図３６】実行プロセッサモジュールの閉塞処理手順を
示す図である。

【図３７】集中コンソールへの障害通知を示す図であ
る。

【図３８】実施例２におけるシステム構成図である。

【図３９】実施例２の処理概要を示す図である。

【図４０】実施例２の特徴を示す図である。

【図４１】プロセッサで障害が発生した場合の処理手順
を示す図である。

【図４２】ＯＳで障害が発生した場合の処理手順を示す
図である。

【図４３】ＩＯＰで障害が発生した場合の処理手順を示
す図である。

【図４４】ＡＰで障害が発生した場合の処理手順を示す
図である。

【図４５】待機プロセッサモジュールの引き継ぎ処理
（１）を示す図である。

【図４６】待機プロセッサモジュールの引き継ぎ処理
（２）を示す図である。

【符号の説明】

１…業務用ＬＡＮ、２…共有ディスク、３…回線切替装
置、４…回線、５…端末、６…制御用ＬＡＮ、７…集中
コンソール、１１〜１８…プロセッサモジュール、１１
−０〜１８−０…システム監視装置。

───────────────────────────────────────────────────── フロントページの続き (72)発明者石井保弘神奈川県海老名市下今泉810番地株式会社日立製作所オフィスシステム事業部内

Claims

【特許請求の範囲】

【請求項１】処理を実行するプロセッサと、当該プロセ
ッサで実行する処理手順を記憶するメモリと、入出力装
置を制御する入出力制御部とを備えるプロセッサモジュ
ールを複数有するコンピュータシステムにおいて、前記複数のプロセッサモジュールの各々は、自プロセッサモジュール内または他のプロセッサモジュ
ール内の障害の発生および障害部位を検出する障害検出
手段と、前記障害検出手段で検出した障害部位をリセッ
トするリセット手段とを備えるシステム監視装置を有す
ることを特徴とするコンピュータシステム。
【請求項２】請求項１において、前記システム監視装置
は、前記プロセッサと共用可能な共用メモリをさらに備
え、前記プロセッサは、前記共用メモリに障害の発生した障
害部位を示す情報を格納し、前記障害検出手段は、前記共用メモリを定期的に参照す
ることにより障害を検出することを特徴とするコンピュ
ータシステム。
【請求項３】請求項１において、前記システム監視装置
は、前記プロセッサと共用可能な共用メモリをさらに備
え、前記プロセッサは、前記共用メモリの予め定めた各部位
ごとの領域に、定期的に、各部位が正常であることを示
す情報を格納し、前記障害検出手段は、前記共用メモリを定期的に参照し
て前記正常であることを示す情報を消去し、予め定めた
期間、前記正常であることを示す情報が格納されていな
い場合には、当該部位において障害が発生したとして障
害を検出することを特徴とするコンピュータシステム。
【請求項４】請求項１において、前記複数のプロセッサ
モジュールとして、処理を実行する実行プロセッサモジ
ュールと、当該実行プロセッサモジュールの予備として
待機する予備プロセッサモジュールとの組を少なくとも
１組有し、前記実行プロセッサモジュールのプロセッサは、定期的
に、当該実行プロセッサモジュールが正常であることを
示す情報を前記予備プロセッサモジュールに送出し、前記予備プロセッサモジュールの障害検出手段は、前記
実行プロセッサモジュールのプロセッサからの正常であ
ることを示す情報により、予め定めた期間、前記正常で
あることを示す情報を受信しない場合には、前記実行プ
ロセッサモジュールにおいて障害が発生したとして障害
を検出し、前記実行プロセッサモジュールの前記リセッ
ト手段に対してリセット要求を送出することを特徴とす
るコンピュータシステム。
【請求項５】請求項４において、前記入出力制御部は、
複数の入力出力装置をそれぞれ制御する複数の制御手段
を備え、前記リセット手段は、前記制御手段に対してリセットコ
マンドを発行することにより、前記制御手段のリセット
を行うことを特徴とするコンピュータシステム。
【請求項６】請求項５において、前記制御手段は、リセ
ット終了後にリセット完了通知を出力し、前記リセット手段は、前記リセットコマンドの発行後、
一定時間内に、リセット完了通知を受信しない場合に、
当該プロセッサモジュール全体のパワーオンリセットを
行うことを特徴とするコンピュータシステム。
【請求項７】請求項２または３において、前記入出力制
御部は、複数の入力出力装置をそれぞれ制御する複数の
制御手段を備え、前記リセット手段は、前記障害検出手段で検出された障
害部位の前記制御手段に対してリセットコマンドを発行
することにより、前記制御手段のリセットを行うことを
特徴とするコンピュータシステム。
【請求項８】請求項２、３または４において、前記入出
力制御部は、複数の入力出力装置をそれぞれ制御する制
御手段を備え、前記リセット手段と前記制御手段とは、リセット信号線
により接続され、前記リセット手段は、前記リセット信号線を介して前記
制御手段のリセットを行うことを特徴とするコンピュー
タシステム。
【請求項９】請求項１において、システム監視装置は、
前記障害の部位により当該プロセッサモジュール全体の
障害とする系障害と、予め定めた一部分の障害である部
分障害とを予め定義しておき、前記障害検出手段は、前記系障害と前記部分障害とでそ
れぞれ個別にリセットを行う部位を規定しておくことを
特徴とするコンピュータシステム。
【請求項１０】請求項４において、前記複数のプロセッ
サモジュールを接続させる制御用ＬＡＮをさらに備え、前記複数のプロセッサモジュールの各々は、前記制御用
ＬＡＮに接続される集線装置を備え、前記集線装置は、前記制御用ＬＡＮを介して他のプロセ
ッサモジュールと通信を行うことを特徴とするコンピュ
ータシステム。
【請求項１１】請求項１０において、前記集線装置は、
前記実行プロセッサモジュールのプロセッサにおける前
記正常であることを示す情報を、前記制御用ＬＡＮを介
して前記予備プロセッサモジュールに送出することを特
徴とするコンピュータシステム。
【請求項１２】請求項１０または１１において、前記集
線装置は、前記予備プロセッサモジュールの障害検出手
段における前記リセット要求を、前記制御用ＬＡＮを介
して前記実行プロセッサモジュールに送出することを特
徴とするコンピュータシステム。
【請求項１３】請求項１０において、前記制御用ＬＡＮ
に接続され、前記複数のプロセッサモジュールの保守を
行なうための集中コンソールをさらに有し、前記複数のプロセッサモジュールの各々は、当該プロセ
ッサモジュール内の障害の発生時に、前記集中コンソー
ルに通知を行うことを特徴とするコンピュータシステ
ム。
【請求項１４】請求項４において、前記予備プロセッサ
モジュールは、前記実行プロセッサモジュールの障害を
検出すると、前記実行プロセッサモジュールの処理を引
き継ぐことを特徴とするコンピュータシステム。