JPH06325008A - リセット機能を備えるコンピュータシステム - Google Patents

リセット機能を備えるコンピュータシステム

Info

Publication number
JPH06325008A
JPH06325008A JP5227250A JP22725093A JPH06325008A JP H06325008 A JPH06325008 A JP H06325008A JP 5227250 A JP5227250 A JP 5227250A JP 22725093 A JP22725093 A JP 22725093A JP H06325008 A JPH06325008 A JP H06325008A
Authority
JP
Japan
Prior art keywords
processor module
reset
failure
processor
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5227250A
Other languages
English (en)
Inventor
Yuzuru Maya
讓 真矢
Hideaki Genma
英明 源馬
Toshiyuki Kinoshita
俊之 木下
Yasuhiro Ishii
保弘 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP5227250A priority Critical patent/JPH06325008A/ja
Publication of JPH06325008A publication Critical patent/JPH06325008A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Hardware Redundancy (AREA)

Abstract

(57)【要約】 【目的】実行プロセッサモジュールと予備プロセッサモ
ジュールとの組を少なくとも一つ備えるシステムにおい
て、障害の発生したプロセッサモジュールをリセットさ
せ、誤動作がなく、障害の発生したプロセッサモジュー
ルの引き継ぎ処理を実行させる。 【構成】 複数あるプロセッサモジュールの各々にシス
テム監視装置を設け、各々のシステム監視装置を専用の
LANで相互接続させる。予備プロセッサモジュールに
おいて、実行プロセッサモジュールの障害を検出する
と、そのシステム監視装置は、障害の発生した実行プロ
セッサモジュールのシステム監視装置に、リセット要求
を通知する。障害の発生した実行プロセッサモジュール
のシステム監視装置は障害部位をリセットする。あるい
は、障害の発生した実行プロセッサモジュールは、その
システム監視装置において自己の障害を検出する。実行
プロセッサモジュールで障害が発生すると、自システム
監視装置が障害部位をリセットする。予備プロセッサモ
ジュールは、実行プロセッサモジュールの障害を検出
し、実行プロセッサモジュールの処理を引き継ぐ。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、複数のプロセッサモジ
ュールをLANあるいはバスで接続する分散処理サーバ
に係わり、これらのプロセッサモジュールで障害が発生
した場合、誤動作を防止するため、障害の発生したプロ
セッサモジュールをリセットすることができるコンピュ
ータシステムに関する。
【0002】
【従来の技術】従来、オンライントランザクション処理
(OLTP)のように可用性が要求されるような分野で
は、大型計算機中心のシステム構成をとっており、分散
処理サーバのような形態は導入されていなかった。
【0003】しかし、コンピュータシステムは、ダウン
サイジングにより、汎用大型機中心のシステムから、複
数の分散処理サーバをネットワークで接続した分散シス
テムに移行している。そして、分散システムでは、複数
のプロセッサモジュール(分散処理サーバ)を接続し、
処理能力を向上させること、さらに可用性を向上させる
ことが要求されている。
【0004】ところで、大型計算機中心のコンピュータ
システムでは、複数のプロセッサモジュールでディス
ク、回線、LAN(Local area network)を共有してい
る。1つのプロセッサモジュールで障害が発生すると、
誤動作を防止させるため、他のプロセッサモジュールに
切り替えなければならない。
【0005】このようなプロセッサモジュールの切り替
え方法について、従来、汎用大型機では、デュアル方法
として特開昭64−86247号公報に記述されている
ものがある。この公知例では、主系計算機(プロセッサ
モジュール)と従系計算機とシステム監視装置とが接続
されている。システム監視装置は、主系計算機で障害が
発生すると、割込み信号線により従系計算機に通知を行
い、主系計算機から従系計算機に切り替えを行ってい
る。
【0006】一方、分散処理システムの分野では、日経
エレクトロニクス(1992.5.18,No.55
4,p.87〜p.96)に記載されているように、2
つの汎用サーバ(プロセッサモジュール)をホットスタ
ンバイ構成とし、LANにより相互に接続させている。
そして、シリアルインタフェースや光シリアルリンクで
直接接続して、定期的にaliveメッセージを交換
し、お互いに障害を検出している。障害を検出すると、
正常な汎用サーバが障害の発生した汎用サーバの処理を
引き継いでいる。
【0007】
【発明が解決しようとする課題】しかし、上記日経エレ
クトロニクスに記載されているように、汎用サーバ間
は、障害を検出して処理を引き継いでいるが、障害の発
生したサーバについては、そのままリセット処理を行な
っていないので、障害の発生したサーバは引き継いだ汎
用サーバに悪影響を与えることがある。
【0008】一方、汎用大型機の場合、主系計算機(プ
ロセッサモジュール)と従系計算機(プロセッサモジュ
ール)とシステム監視装置とを設け、これらをバスで接
続し、割込み信号線を介して割込みにより障害発生を通
知している。このように、割込み信号線により通知して
いるため、多数のプロセッサモジュールを分散して配置
させるシステムには割込み信号線を各々設ける必要があ
り、割込み信号線の本数が多くなるという問題がある。
また、プロセッサモジュールを増設する場合にも、割込
み信号線を設けなければならないので増設しにくくな
る。
【0009】本発明は、このような従来の課題を解決す
るために、拡張性があり、障害時にも処理が続行できる
ような信頼性の高いコンピュータシステムおよびシステ
ム監視装置を提供することを目的とする。
【0010】
【課題を解決するための手段】本発明は、上記課題を解
決するために、処理を実行するプロセッサと、当該プロ
セッサで実行する処理手順を記憶するメモリと、入出力
装置を制御する入出力制御部とを備えるプロセッサモジ
ュールを複数有するコンピュータシステムにおいて、前
記複数のプロセッサモジュールの各々は、自プロセッサ
モジュール内または他のプロセッサモジュール内の障害
の発生および障害部位を検出する障害検出手段と、前記
障害検出手段で検出した障害部位をリセットするリセッ
ト手段とを備えるシステム監視装置を有する。
【0011】前記システム監視装置は、前記プロセッサ
と共用可能な共用メモリをさらに備え、前記プロセッサ
は、前記共用メモリに障害の発生した障害部位を示す情
報を格納し、前記障害検出手段は、前記共用メモリを定
期的に参照することにより障害を検出することができ
る。
【0012】また、前記システム監視装置は、前記プロ
セッサと共用可能な共用メモリをさらに備え、前記プロ
セッサは、前記共用メモリの予め定めた各部位ごとの領
域に、定期的に、各部位が正常であることを示す情報を
格納し、前記障害検出手段は、前記共用メモリを定期的
に参照して前記正常であることを示す情報を消去し、予
め定めた期間、前記正常であることを示す情報が格納さ
れていない場合には、当該部位において障害が発生した
として障害を検出することができる。
【0013】さらに、前記複数のプロセッサモジュール
として、処理を実行する実行プロセッサモジュールと、
当該実行プロセッサモジュールの予備として待機する予
備プロセッサモジュールとの組を少なくとも1組有し、
前記実行プロセッサモジュールのプロセッサは、定期的
に、当該実行プロセッサモジュールが正常であることを
示す情報を前記予備プロセッサモジュールに送出し、前
記予備プロセッサモジュールの障害検出手段は、前記実
行プロセッサモジュールのプロセッサからの正常である
ことを示す情報により、予め定めた期間、前記正常であ
ることを示す情報を受信しない場合には、前記実行プロ
セッサモジュールにおいて障害が発生したとして障害を
検出し、前記実行プロセッサモジュールの前記リセット
手段に対してリセット要求を送出することができる。前
記予備プロセッサモジュールは、前記実行プロセッサモ
ジュールの障害を検出すると、前記実行プロセッサモジ
ュールの処理を引き継ぐことができる。
【0014】また、前記入出力制御部は、複数の入力出
力装置をそれぞれ制御する複数の制御手段を備え、前記
リセット手段は、前記制御手段に対してリセットコマン
ドを発行することにより、前記制御手段のリセットを行
うことができる。前記制御手段は、リセット終了後にリ
セット完了通知を出力し、前記リセット手段は、前記リ
セットコマンドの発行後、一定時間内に、リセット完了
通知を受信しない場合に、当該プロセッサモジュール全
体のパワーオンリセットを行うようにしてもよい。
【0015】もしくは、前記入出力制御部は、複数の入
力出力装置をそれぞれ制御する複数の制御手段を備え、
前記リセット手段は、前記障害検出手段で検出された障
害部位の前記制御手段に対してリセットコマンドを発行
することにより、前記制御手段のリセットを行うように
してもよい。
【0016】または、前記入出力制御部は、複数の入力
出力装置をそれぞれ制御する制御手段を備え、前記リセ
ット手段と前記制御手段とは、リセット信号線により接
続され、前記リセット手段は、前記リセット信号線を介
して前記制御手段のリセットを行うことができる。
【0017】また、システム監視装置は、前記障害の部
位により当該プロセッサモジュール全体の障害とする系
障害と、予め定めた一部分の障害である部分障害とを予
め定義しておき、前記障害検出手段は、前記系障害と前
記部分障害とでそれぞれ個別にリセットを行う部位を規
定しておくようにしてもよい。
【0018】前記複数のプロセッサモジュールを接続さ
せる制御用LANをさらに備え、前記複数のプロセッサ
モジュールの各々は、前記制御用LANに接続される集
線装置を備え、前記集線装置は、前記制御用LANを介
して他のプロセッサモジュールと通信を行うこともでき
る。この場合、前記集線装置は、前記実行プロセッサモ
ジュールのプロセッサにおける前記正常であることを示
す情報を、前記制御用LANを介して前記予備プロセッ
サモジュールに送出する。また、前記集線装置は、前記
予備プロセッサモジュールの障害検出手段における前記
リセット要求を、前記制御用LANを介して前記実行プ
ロセッサモジュールに送出することができる。さらに、
前記制御用LANに接続され、前記複数のプロセッサモ
ジュールの保守を行なうための集中コンソールをさらに
有し、前記複数のプロセッサモジュールの各々は、当該
プロセッサモジュール内の障害の発生時に、前記集中コ
ンソールに通知を行うようにしてもよい。
【0019】
【作用】前記複数のプロセッサモジュールの各々では、
システム監視装置を設け、システム監視装置の障害検出
手段において、自プロセッサモジュール内または他のプ
ロセッサモジュール内の障害の発生および障害部位を検
出する。リセット手段は、前記障害検出手段で検出した
障害部位をリセットする。
【0020】障害検出手段において、自プロセッサモジ
ュール内の障害を検出する場合には、前記プロセッサと
共用可能な共用メモリを備え、前記プロセッサは、前記
共用メモリに障害の発生した障害部位を示す情報を格納
し、前記障害検出手段は、前記共用メモリを定期的に参
照することにより障害を検出する。もしくは、前記プロ
セッサは、前記共用メモリの予め定めた各部位ごとの領
域に、定期的に、各部位が正常であることを示す情報を
格納し、前記障害検出手段は、前記共用メモリを定期的
に参照して前記正常であることを示す情報を消去し、予
め定めた期間、前記正常であることを示す情報が格納さ
れていない場合には、当該部位において障害が発生した
として障害を検出することができる。
【0021】障害検出手段において、他のプロセッサモ
ジュール内の障害を検出する場合には、実行プロセッサ
モジュールと、予備プロセッサモジュールとを組にし
て、前記実行プロセッサモジュールのプロセッサは、定
期的に、当該実行プロセッサモジュールが正常であるこ
とを示す情報(aliveメッセージ)を前記予備プロ
セッサモジュールに送出し、前記予備プロセッサモジュ
ールの障害検出手段は、前記実行プロセッサモジュール
のプロセッサからの正常であることを示す情報により、
予め定めた期間、前記正常であることを示す情報を受信
しない場合には、前記実行プロセッサモジュールにおい
て障害が発生したとして障害を検出し、前記実行プロセ
ッサモジュールの前記リセット手段に対してリセット要
求(リセットメッセージ)を送出する。
【0022】リセットを行う方法としては、リセットコ
マンドを発行して行う方法と、リセット信号線により行
う方法とがあり、それぞれ、障害部位の前記制御手段に
対してリセットをする場合と全体をリセットする場合と
がある。システム監視装置は、障害の部位により当該プ
ロセッサモジュール全体の障害とする系障害と、予め定
めた一部分の障害である部分障害とを予め定義してお
き、前記障害検出手段は、前記系障害と前記部分障害と
でそれぞれ個別にリセットを行う部位を規定しておくこ
とができる。
【0023】また、リセット要求や実行プロセッサモジ
ュールが正常であることを示す情報は、前記制御用LA
Nを介して集線装置から他のプロセッサモジュールと通
信を行うことができる。さらに、制御用LANに集中コ
ンソールを接続することにより、前記複数のプロセッサ
モジュールの保守を集中的に行なうことができる。
【0024】一方、障害を検出した予備プロセッサモジ
ュールは、共有デバイス(ディスク、LAN、回線)を
切り替え、障害の発生した実行プロセッサモジュールの
処理を引き継ぐ。
【0025】このようにして、障害の発生したプロセッ
サモジュールをリセットすることが可能となる。
【0026】
【実施例】以下、本発明について、2つの実施例を示
す。まず、2つの実施例の概要を示し、その後、詳細に
説明する。
【0027】第1の実施例の概要を図1および図2を参
照して説明する。第1の実施例においては、複数のプロ
セッサモジュール(11〜18)を、通常の情報をやり
取りするための業務用LAN(1)および制御信号をや
り取りするための制御用LAN(6)により接続する。
また、複数のプロセッサモジュール(11〜18)の各
々には、図2に示すように、自プロセッサモジュールお
よび他のプロセッサモジュールの障害検出と、自プロセ
ッサモジュール内のリセットの制御とを行うシステム監
視装置(11−0〜18−0)を設ける。制御用LAN
(6)は、すべてのプロセッサモジュール(11〜1
8)間を接続する。そして、制御用LAN(6)では、
プロセッサモジュール(11〜18)の障害を検出する
ためのaliveメッセージと障害プロセッサモジュー
ル(11〜18)をリセットするためのリセットメッセ
ージとを通信する。本実施例におけるコンピュータシス
テムでは、ホットスタンバイ状態にある予備プロセッサ
モジュール(11〜18)と、実行を行う実行プロセッ
サモジュール(11〜18)との2重系を構成する。プ
ロセッサモジュール(11〜18)の各々は、他のプロ
セッサモジュール(11〜18)の障害を検出すると、
障害を検出したプロセッサモジュール(11〜18)の
システム監視装置(11−0〜18−0)では、障害の
発生したプロセッサモジュール(11〜18)のシステ
ム監視装置(11−0〜18−0)にリセット要求を通
信する。障害の発生したプロセッサモジュール(11〜
18)のシステム監視装置(11−0〜18−0)は、
プロセッサモジュール内に有する、IOP(Input/outp
ut プロセッサ)(11−10〜18−10)の障害の
発生した一部分をリセットする。一方、障害を検出した
予備プロセッサモジュール(11〜18)は、共有ディ
スク(2)、業務用LAN(1)および回線切替装置
(3)を切り替え、障害の発生したプロセッサモジュー
ル(11〜18)の処理を引き継ぐ。このように、障害
の発生したプロセッサモジュールをリセットすると共
に、障害を検出したプロセッサモジュールにおいて処理
を引継いで実行する。また、制御用LAN(6)を設け
ることにより、プロセッサモジュール間にシリアルイン
タフェースを設けなくても制御信号を送受信することが
できる。
【0028】次に、第2の実施例の概要を説明する。第
2の実施例では、プロセッサモジュール(11〜18)
の各々に、自プロセッサモジュールの障害検出と、自プ
ロセッサモジュール内のリセットの制御とを行うシステ
ム監視装置(11−0〜18−0)を設ける。これらの
システム監視装置(11−0〜18−0)は、他のプロ
セッサモジュールとは障害検出の送受信を行わない。シ
ステム監視装置(11−0〜18−0)は、自身のプロ
セッサモジュール(11〜18)で発生するすべての障
害を検出できるようにする。プロセッサモジュール(1
1〜18)は、ホットスタンバイ状態にある予備プロセ
ッサモジュール(11〜18)と、実行を行う実行プロ
セッサモジュール(11〜18)との2重系を構成し、
予備プロセッサモジュールと実行プロセッサモジュール
とはディスクを経由して、aliveメッセージの交換
を行う。障害が発生すると、障害の発生したプロセッサ
モジュール(11〜18)のシステム監視装置(11−
0〜18−0)は、プロセッサモジュール内に有する、
障害の発生した部分のIOP(11−10〜18−1
0)をリセットする。予備プロセッサモジュール(11
〜18)は、実行プロセッサモジュール(11〜18)
からのaliveメッセージの途絶により、実行プロセ
ッサモジュール(11〜18)の障害を検出する。そし
て、共有ディスク(2)、業務用LAN(1)、回線切
替装置(3)を切り替え、実行プロセッサモジュール
(11〜18)の処理を引き継ぐ。このように、障害の
発生したプロセッサモジュールでは、障害を検出すると
共にリセットを行う。また、予備のプロセッサモジュー
ルにおいて処理を引継いで実行する。
【0029】以降、実施例を詳細に説明する。まず、第
1の実施例から詳細に説明する。
【0030】図1は、本発明によるシステム構成図であ
る。本発明によるシステム構成は、複数ののプロセッサ
モジュール(11〜18)を備える。すべてのプロセッ
サモジュール(11〜18)は、各々、ホットスタンバ
イ状態にある予備プロセッサモジュール(11〜18)
と、実行を行う実行プロセッサモジュール(11〜1
8)との2重系を構成し、予備プロセッサモジュールと
実行プロセッサモジュールとは、業務用LAN(1)、
共有ディスク(2)および回線切替装置(3)を共有す
る。そして、プロセッサモジュール(11〜18)は、
回線切替装置(3)を介して回線(4)により端末
(5)を接続する。
【0031】また、プロセッサモジュール(11〜1
8)間では、障害を検出するためのaliveメッセー
ジを含むモニタ間通信メッセージと、リセットするため
のリセットメッセージとを通信するため、すべてのプロ
セッサモジュール(11〜18)は制御用LAN(6)
に接続される。また、すべてのプロセッサモジュール
(11〜18)を保守/運用するための集中コンソール
(7)を設け、制御用LAN(6)に接続する。
【0032】ここで、モニタ間通信メッセージとは、プ
ロセッサモジュール(11〜18)間で障害を検出する
ためのaliveメッセージ、システム立ち上げ時のメ
ッセージ、障害通知メッセージ等をいう。プロセッサモ
ジュール(11〜18)に備えるモニタ(11−21〜
18−21)においてこれらのモニタ間通信メッセージ
の通信を制御する。また、リセットメッセージは、障害
時に他のプロセッサモジュール(11〜18)をリセッ
トするためのリセット要求メッセージと、リセット要求
に対する完了通知メッセージとをいう。
【0033】通常(正常動作中)、実行プロセッサモジ
ュールは、予備プロセッサモジュールに対して制御用L
AN(6)を介してaliveメッセージを送出する。
プロセッサモジュール(11〜18)が障害を検出した
場合には、制御用LAN(6)を介して、リセットメッ
セージを送出する。また、制御用LAN(6)は、プロ
セッサモジュール(11〜18)が集中コンソール
(7)との通信にも使用する。
【0034】集中コンソール(7)には、プリンタ(7
−1)を設け、障害情報と運用管理情報を出力する。集
中コンソール(7)は、回線(7−3)により監視セン
タ(7−2)と接続するようにしてもよい。他のコンピ
ュータシステム(1−0)も同様に、集中コンソール(7
−0)を設け、監視センタ(7−2)と接続する。監視
センタ(7−2)は、すべてのコンピュータシステム
(1,1−0)を監視することができる。
【0035】つぎに、プロセッサモジュールの構成を図
2を参照して説明する。図2に、プロセッサモジュール
の構成図を示す。図2には、プロセッサモジュール(1
1)を例示しているが他のプロセッサモジュール(12
〜18)も同様な構成を取る。プロセッサモジュール
(11)は、自プロセッサモジュールおよび他のプロセ
ッサモジュールの障害検出と、自プロセッサモジュール
内のリセットの制御とを行うシステム監視装置(11−
0)と、実行を行う処理手段のプロセッサ(11−1)
と、処理手順を記憶する記憶手段のメモリ(11−2)
と、入出力手段を制御するIOP(11−10)と、制
御用LAN(6)に接続される集線装置(11−4)
と、情報を記憶する記憶媒体のローカルディスク(11
−11)とを有する。プロセッサ(11−1)と、メモ
リ(11−2)と、IOP(11−10)と、システム
監視装置(11−0)とはモジュール内バスにより接続
される。IOP(11−10)は、複数の入出力手段の
各々を制御する個別制御手段と、それら個別制御手段を
制御するIOC(11−3)とを備える。個別制御手段
としては、モニタ間通信メッセージの通信制御を行うモ
ニタ間通信制御装置(11−5)と、共有ディスク
(2)およびローカルディスク(11−11)の制御を
行うディスク制御装置(11−6)と、業務用LANに
接続されその通信制御を行うLAN制御装置(11−
7)と、回線切替装置(3)に接続して切替の制御を行
う回線制御装置(11−8)とがある。また、システム
監視装置(11−0)は、リセット信号線(11−9)
により、IOC(11−3)、モニタ間通信制御装置
(11−5)、ディスク制御装置(11−6)、LAN
制御装置(11−7)および回線制御装置(11−8)
に接続される。システム監視装置(11−0)は、リセ
ット信号線(11−9)を介して各個別制御手段のリセ
ットを行うことができる。 プロセッサモジュール(1
1〜18)における処理プログラムのソフトウェア(1
1−20)としては、OS(オペレ−ティングシステ
ム)(11−22)、モニタ間通信メッセージを送受信
するモニタ(11−21)およびAP(アプリケ−ショ
ンプログラム)(11−23)があり、これらをメモリ
(11−2)に記憶している。モニタ(11−21)
は、プロセッサモジュール(11〜18)間の通信処
理、AP(11−23)の障害管理を制御する。プロセ
ッサ(11−1)は、信頼性を上げるために図5に示す
ように、さらに2重化構成を取るようにしてもよい。
【0036】図5は、プロセッサの2重化構成図であ
る。データのインテグリティを向上させるため、プロセ
ッサA(11−1−1)とプロセッサB(11−1−
2)とを同期させて、両方を稼動している。それらのデ
ータの出力が一致しているかどうか判定するための、同
期回路(11−1−3)を設ける。同期回路(11−1
−3)は、2つのプロセッサ(11−1−1,11−1
−2)のうちどちらで障害が発生したか判定するため
に、一致回路(11−1−4)と暴走検出回路(11−
1−5)とを設ける。一致回路(11−1−4)は、プ
ロセッサA(11−1−1)とプロセッサB(11−1
−2)との出力が一致しているかどうか判定する。不一
致ならば、暴走検出回路(11−1−5)を起動し、プ
ロセッサA(11−1−1)とプロセッサB(11−1
−2)とに割込みを起動させ、それぞれ診断処理を実行
し、各プロセッサは正常かどうか判定する。
【0037】他のプロセッサモジュール(12〜18)
は、プロセッサモジュール(11)と同一の構成であ
る。このため、プロセッサモジュール(12〜18)
は、プロセッサモジュール(11)と同様に、システム
監視装置(12−0〜18−0)、プロセッサ(12−
1〜18−1)、メモリ(12−2〜18−2)、IO
C(12−3〜18−3)、集線装置(12−4〜18
−4)、モニタ間通信制御装置(12−5〜18−
5)、ディスク制御装置(12−6〜18−6)、LA
N制御装置(12−7〜18−7)、回線制御装置(1
2−8〜18−8)、リセット信号線(12−9〜18
−9)およびローカルディスク(12−10〜18−1
0)を備える。
【0038】以下、プロセッサモジュール(11)を実
行プロセッサモジュール(11)として、プロセッサモ
ジュール(12)は、プロセッサモジュール(11)の
バックアップ処理を行なう予備プロセッサモジュール
(12)として稼動させているものとして説明する。
【0039】図3は、本実施例の動作特徴を示す説明図
である。本実施例における特徴は、各プロセッサモジュ
ール(11,12)に、システム監視装置(11−0,
12−0)をそれぞれ設ける。各々のプロセッサモジュ
ールのシステム監視装置(11−0,12−0)を制御
用LAN(6)で接続させる。実行プロセッサモジュー
ル(11)のプロセッサ(11−1)はモニタ(11−
21)のプログラムにしたがって処理を行う。プロセッ
サ(11−1)からは制御用LAN(6)を経由してa
liveメッセージを定期的に送出させる。予備プロセ
ッサモジュール(12)のモニタ(12−21)は、a
liveメッセージの途絶を検出すると、実行プロセッ
サモジュール(11)の障害を検出してシステム監視装
置(12−0)に通知する。システム監視装置(12−
0)は、障害IOP(11−10)をリセットするよう
にシステム監視装置(11−0)にリセット要求を送出
し、システム監視装置(11−0)では障害部分のリセ
ットを行うことにより、誤動作を防止する。
【0040】図3において、実行プロセッサモジュール
(11)のモニタ(11−21)は、一定周期毎にal
iveメッセージを制御用LAN(6)を介して、予備
プロセッサモジュール(12)に送信している(処理
50)。実行プロセッサモジュール(11)は、自プロ
セッサモジュール(11)で障害が発生すると、ali
veメッセージを送信しなくなり、予備プロセッサモジ
ュール(12)のモニタ(12−21)が障害を検出す
る。予備プロセッサモジュール(12)のモニタ(12
−21)は、システム監視装置(12−0)に、障害発
生を通知する(処理 51)。システム監視装置(12
−0)は、制御用LAN(6)を介して、障害の発生し
たプロセッサモジュール(11)のシステム監視装置
(11−0)に、リセット要求を通知する(処理 5
2)。システム監視装置(11−0)は、障害の行った
IOP(11−10)をリセットする(処理 53)。
システム監視装置(11−0)は、制御用LAN(6)
を介して、障害の発生したプロセッサモジュール(1
2)のシステム監視装置(12−0)に、リセット完了
を通知する(処理 54)。
【0041】一方、予備プロセッサモジュール(12)
のシステム監視装置(12−0)は、リセットの完了通
知を受信すると、プロセッサ(12−1)に通知する
(処理55)。そして、予備プロセッサモジュール(1
2)は、共有ディスク(2)、業務用LAN(1)およ
び回線切替装置(3)を予備プロセッサモジュール(1
2)側に切り替える。そして、予備プロセッサモジュー
ル(12)は、実行プロセッサモジュール(11)の処
理を引き継ぐ。
【0042】この結果、予備プロセッサモジュール(1
2)は、障害の発生した実行プロセッサモジュール(1
1)の障害を検出し、障害の発生した実行プロセッサモ
ジュール(11)をリセットすることが可能になる。
【0043】次に、システム監視装置(11−0〜18
−0)、モニタ間通信制御装置(11−5〜18−
5)、ディスク制御装置(11−6〜18−6)、LA
N制御装置(11−7〜18−7)および回線制御装置
(11−6〜18−6)の構成について、詳細に説明
し、その後障害の詳細について説明する。これらの装置
は、各モジュールとも同一の構成であるため、プロセッ
サモジュール(11)あるいはプロセッサモジュール
(12)を例にして、それぞれ説明する。
【0044】図4は、システム監視装置の構成図であ
る。システム監視装置(11−0)は、障害通知を受け
たときにリセットの指示およびリセット完了通知を行う
プロセッサ(11−0−1)、記憶手段のメモリ(11
−0−2)、プロセッサ11−1と共用する記憶手段の
共用メモリ(11−0−3)、リセット信号線(11−
9)に接続されリセットの指示があるとリセットの制御
を行うリセット制御回路(11−0−4)を備える。リ
セット制御回路(11−0−4)には、どのIOP(1
1−10)をリセットさせるかを判別するデコーダ(1
1−0−5)を接続する。
【0045】図11は、共用メモリの内容を示す図であ
る。システム監視装置の共用メモリ(11−0−3〜1
8−0−3)は、すべて同じ構成であるため、プロセッ
サモジュール(11)のシステム監視装置(11−0)
の共用メモリ(11−0−3)を例にして説明する。共
用メモリ(11−0−3)には、どこで障害が発生した
かを示す障害箇所情報を格納し、プロセッサ(11−
1)とシステム監視装置(11−0)のプロセッサ(1
1−0−1)とがアクセスする。
【0046】共用メモリ(11−0−3)には、障害箇
所情報として、プロセッサ/メモリの障害箇所情報(4
0)、IOP障害箇所情報(41)、OS/モニタ障害
箇所情報(42)およびAP障害箇所情報(43)を格
納する領域をそれぞれ1バイト設ける。そして、それぞ
れの障害箇所情報は、ビット毎に障害箇所情報を示す。
各ビットについて、”1”は障害が発生したことを、”
0”は正常はあることを示す。
【0047】図11において、プロセッサ/メモリの障
害情報(40)は、p(40−1)が、プロセッサ(1
1−1)で障害が発生したが、2重化しているプロセッ
サのどちらのプロセッサ(11−1−1,11−1−
2)で障害が発生したか判定できないことを示す。pa
(40−2)は、プロセッサA(11−1−1)で、p
b(40−3)は、プロセッサB(11−1−2)で障
害が発生したかを示す。m(40−4)はメモリ(11
−2)で障害が発生したことを示す。IOP障害情報
(41)では、IOP(11−10)は、IOC(11
−3)、モニタ間通信制御装置(11−5)、ディスク
制御装置(11−6)、LAN制御装置(11−7)お
よび回線制御装置(11−8)を備えるが、これらの障
害情報をiop1(41−1)〜iop5(41−5)
に割当て、それぞれIOC(11−3)、モニタ間通信
制御装置(11−5)、ディスク制御装置(11−
6)、LAN制御装置(11−7)あるいは回線制御装
置(11−8)で障害が発生したことを示す。OS/モ
ニタ障害情報(42)では、os(42−1)はOS
(11−22)で、mon(42−2)はモニタ(11
−21)でそれぞれ障害が発生したことを示す。AP障
害情報(43)では、プロセッサモジュール(11)に
おいて、例えば、8つのAP(11−23)(AP1〜
AP8)が実行していた場合、これら8つのAP(11
−23)をap1(43−1)〜ap8(43−8)に
割当て、AP(11−23)で障害が発生したことを示
す。このように、障害箇所情報を各ビット毎に割り当て
て障害が発生した場合には、プロセッサ11−1が障害
が発生したビットに”1”を設定する。
【0048】図7は、モニタ間通信制御装置の構成図で
ある。モニタ間通信制御装置(11−5)は、プロセッ
サモジュールのモニタ間で行うモニタ間通信メッセージ
の通信制御を行う。モニタ間通信制御装置(11−5)
は、モニタ間通信制御の処理を行うプロセッサ(11−
5−1)、モニタ間通信制御の処理手順を記憶するメモ
リ(11−5−2)、モニタ間通信メッセージを一時的
に格納するバッファ(11−5−3)、モニタ間通信メ
ッセージの送受信の制御を行うalive制御部(11
−5−4)を備える。バッファ(11−5−3)には、
端末(5)から受信するモニタ間通信メッセージと端末
(5)に送信するモニタ間通信メッセージとを格納す
る。
【0049】図6は、集線装置の構成図である。集線装
置(11−4)は、プロセッサ(11−1)とシステム
監視装置(11−0)とに接続され、これらからのメッ
セージを制御用LAN(6)に送出すると共に、制御用
LAN(6)からのメッセージをこれらの送出する。集
線装置(11−4)は、制御用LAN(6)の通信制御
処理を行うプロセッサ(11−4−1)、通信制御処理
手順を記憶するメモリ(11−4−2)、制御用LAN
(6)に接続され、送受信の制御を行う制御用LANコ
ントローラ(11−4−3)、プロセッサ(11−1)
に接続され、プロセッサ(11−1)との送受信の制御
行うモニタ間通信コントローラ(11−4−4)、シス
テム監視装置(11−0)に接続され、システム監視装
置(11−0)との送受信の制御を行うリセットメッセ
ージコントローラ(11−4−5)を備える。集線装置
(11−4)を介して通信するメッセージについては後
述する。
【0050】図8は、ディスク制御装置の構成図であ
る。ディスク制御装置(11−6)は、ディスク制御の
処理を行うプロセッサ(11−6−1)、ディスク制御
の処理手順を記憶するメモリ(11−6−2)、ディス
クと送受信する情報を格納するバッファ(11−6−
3)、ディスクとの送受信の制御を行うディスク制御部
(11−6−4)を備える。バッファ(11−6−3)
には、共有ディスク(2)から読み出すデータと共有デ
ィスク(2)に書込むデータを格納する。
【0051】図9は、LAN制御装置の構成図である。
LAN制御装置(11−7)は、業務用LAN(1)の
LAN制御の処理を行うプロセッサ(11−7−1)、
LAN制御の処理手順を記憶するメモリ(11−7−
2)、業務用LAN(1)への送受信データを格納する
バッファ(11−7−3)、業務用LAN(1)との送
受信の制御を行うLAN制御部(11−7−4)で構成
する。バッファ(11−7−3)には、他のプロセッサ
モジュール(12〜18)から受信したデータと他のプ
ロセッサモジュール(12〜18)に送信するデータを
格納する。
【0052】図10は、回線制御装置の構成図である。
回線制御装置(11−8)は、端末(5)に接続する回
線の通信制御処理を行うプロセッサ(11−8−1)、
回線の通信制御処理手順を記憶するメモリ(11−8−
2)、端末(5)との送受信データを格納するバッファ
(11−8−3)、回線切替装置(3)に接続され、端
末(5)との送受信の制御を行う回線制御部(11−8
−4)を備える。バッファ(11−8−3)には、端末
(5)から受信するデータと、端末(5)に送信するデ
ータを格納する。
【0053】以下、モニタ間通信制御部(11−5−
4)、ディスク制御部(11−6−4)、LAN制御部
(11−7−4)および回線制御部(11−8−4)を
合わせて、IO制御部(11−4−4,11−5−4,
11−6−4,11−7−4)という。
【0054】つぎに、障害の種類と、集線装置(11−
4)を介して通信するメッセージについて説明する。
【0055】図12は、制御用LAN(6)を介して集
線装置(11−4)において通信するメッセージのフォ
ーマットを示している。図12において、メッセージ
(20)は、同期信号を含むヘッダ(20−1)、メッ
セージの種類を示すメッセージ種別(20−2)、転送
元のプロセッサモジュールの識別情報を示す転送元アド
レス(20−3)、転送先のプロセッサモジュールの識
別情報を示す転送先アドレス(20−4)およびメッセ
ージの内容を示すメッセージ本体(20−5)から構成
する。メッセージ種別(20−2)は、図13に示すよ
うに、モニタ間メッセージ通信かあるいはリセットメッ
セージかを示す。図13は、メッセージ種別のコードを
示す図である。メッセージ種別’1’をモニタ間メッセ
ージ通信に、メッセージ種別’2’はリセットメッセー
ジに使用することを示す。転送元アドレス(20−3)
は、メッセージを送信のプロセッサモジュールの通信ア
ドレスを示す。転送先アドレス(20−4)は、メッセ
ージ受信するプロセッサモジュールの通信アドレスを示
す。集線装置(11−4)では、システム監視装置(1
1−0)とモニタ間通信制御装置(11−5)とから転
送先アドレス(20−4)およびメッセージ本体(20
−5)を受信し、ヘッダ(20−1)とメッセージ種別
(20−2)と転送元アドレス(20−3)とを、メッ
セージに付加して制御用LAN(6)に送出する。この
際の、システム監視装置(11−0)とモニタ間通信制
御装置(11−5)から送出する転送先アドレス(20
−4)およびメッセージ本体(20−5)を含むメッセ
ージフォーマットを図14に示す。また、制御用LAN
(6)から受信したメッセージは、メッセージ種別(2
0−2)と転送先アドレス(20−4)とを解析して、
ヘッダ(20−1)とメッセージ種別(20−2)と転
送先アドレス(20−4)とを削除して、転送元アドレ
ス(20−3)およびメッセージ本体(20−5)を、
システム監視装置(11−0)もしくはモニタ間通信制
御装置(11−5)に送出する。その際の転送元アドレ
ス(20−3)およびメッセージ本体(20−5)を含
むメッセージフォーマットを図15に示す。
【0056】上記メッセージの具体例を、図16に示
す。図16に示すように、モニタ間通信では、aliv
eメッセージ(メッセージ 70)、障害通知メッセー
ジ(メッセージ 71)、集中コンソールへの障害通知
(メッセージ 75,メッセージ 76)、システム立
ち上げ時のパラメータの受け渡しメッセージ(メッセー
ジ 72)がある。リセットメッセージは、リセット要
求(メッセージ 73)とそれに対応するリセット完了
(メッセージ 74)とがある。本実施例では、転送元
アドレス(20−3)および転送先アドレス(20−
4)を使用するが、プロセッサモジュール(11〜1
8)のアドレスは、それぞれ、’1’から順に’8’ま
でとする。また、集中コンソール(7)のアドレスは’
10’としている。メッセージ本体は、3バイトから構
成される。まず、最初の1バイトを以下に示す。メッセ
ージ種別が1(モニタ間通信)の場合、最初の1バイト
では、’01’はaliveメッセージを、’10’は
障害通知を、’11’は予備プロセッサモジュールとし
て立ち上げ完了を、それぞれ示す。これらは、プロセッ
サモジュール(11〜18)間で通信する。また、’0
4’は予備プロセッサモジュールから集中コンソールへ
の障害通知を、’03’は実行プロセッサモジュールか
ら集中コンソールへの障害通知を意味する。メッセージ
種別が2(リセットメッセージ)の場合、最初の1バイ
トでは、’01’はリセット要求を、’02’はリセッ
ト完了を意味する。次の2バイト(X)および(Y)
は、障害情報の詳細を示すものである。このため、al
iveメッセージ、予備プロセッサモジュールの立ち上
げ完了、リセット要求/完了は(X)および(Y)は使
用しないので0とする。最初の1バイトが障害を示す’
10’のとき1バイト(X)は、図17に示すように、
障害箇所を示す。プロセッサ(11−1〜18−1)/
メモリ(11−2〜18−2)、IOP(11−10〜
18−10)、OS(11−22〜18−22)/モニ
タ(11−23〜18−23)、AP(11−23〜1
8−23)のいずれかで障害が発生した箇所を示す。1
バイト(Y)は、図18〜図21に示すように、(X)
の詳細情報を示す。図18はプロセッサ/メモリにおけ
る障害部位、図19はIOPにおける障害部位、図20
はOS/モニタにおける障害部位、図21はAPの障害
部位を示す。このように、プロセッサ(11−1〜18
−1)/メモリ(11−2〜18−2)、IOP(11
−10〜18−10)、OS(11−22〜18−2
2)/モニタ(11−23〜18−23)、AP(11
−23〜18−23)のうち、どこで障害が発生したか
をそれぞれ示すことができる。
【0057】以下、図24から図37を用いて、実行プ
ロセッサモジュール(11)と予備プロセッサモジュー
ル(12)とにおける処理手順を示す。ここでは、プロ
セッサモジュール(11)を実行プロセッサモジュール
として、プロセッサモジュール(12)を予備プロセッ
サモジュールとして、それぞれ立ち上げる。その際のモ
ニタ間メッセージ通信の詳細を示す。そして、実行プロ
セッサモジュール(11)で障害が発生し、予備プロセ
ッサモジュール(12)が実行プロセッサモジュール
(11)の処理を引き継ぐ。さらに、障害の発生したプ
ロセッサモジュール(11)は、障害発生時のリセット
処理を行い、障害から回復し、再度二重化運転を実行す
る処理について説明する。
【0058】図24は、システム立ち上げの処理手順を
示す図である。実行プロセッサモジュール(11)は、
電源オンの後(処理 200)、初期設定を実行する
(処理201)。同様に、予備プロセッサモジュール
(12)は、電源オンの後(処理 205)、初期設定
を実行する(処理 206)。初期設定処理(処理 2
01,206)では、プロセッサモジュール(11,1
2)のアドレスは、各プロセッサモジュールのローカル
ディスク(11−11)に設定しておき、モニタ間通信
のアドレスとリセットメッセージのアドレスは同一にす
る。これらのアドレスは、集線装置(11−4)のメモ
リ(11−4−2)に設定しておく(処理202,20
7)。そして、プロセッサモジュール(11,12)間
で、一方を実行プロセッサモジュール(11)として、
他方を予備プロセッサモジュール(12)として立ち上
げる。実行プロセッサモジュール(11)において、モ
ニタ(11−21)は、処理を行うべきAP(11−2
3)に、実行APとしての起動を要求する(処理 21
1)。AP(11−23)は、実行APとして立ち上げ
られる(処理 212)。この処理(処理 212)が
終了すると、AP(11−23)は、モニタ(11−2
1)に完了通知を出力する(処理 213)。また、モ
ニタ(11−21)は、モニタ間通信により、予備プロ
セッサモジュール(12)に対してaliveメッセー
ジの送出を始める(処理 210)。一方、予備プロセ
ッサモジュール(12)においては、モニタ(12−2
1)は、処理を行うべきAP(12−23)に、予備A
Pとしての起動を要求する(処理 215)。AP(1
2−23)は、予備APとして立ち上げられる(処理2
16)。この処理が終了すると、AP(12−23)
は、モニタ(12−21)に完了通知を出力する(処理
217)。さらに、プロセッサモジュール(12)
は、モニタ間通信により、待機状態にあるとして、立ち
上がったことを実行プロセッサモジュール(11)に通
知する(処理 218)。
【0059】実行プロセッサモジュール(11)では、
予備プロセッサモジュール(12)から立ち上げ完了通
知を受信すると、実行プロセッサモジュール(11)
は、共有ディスク(2)、業務用LAN(1)および回
線切替装置(3)を、以下のようにそれぞれ設定する。
まず、実行プロセッサモジュール(11)は、予備プロ
セッサモジュール(12)からアクセスできないよう
に、共有ディスク(2)をリザーブする(処理 22
0)。業務用LAN(1)と回線切替装置(3)とは、
それぞれ、実行プロセッサモジュール(11)と接続す
る(処理 221,処理 222)。
【0060】つぎに、図25から図29を参照して、通
知の処理手順と障害検出とを説明する。
【0061】図26は、aliveメッセージの通信手
順を示す図である。aliveメッセージは、モニタ間
通信により、実行プロセッサモジュール(11)から予
備プロセッサモジュール(12)に定期的に通知され
る。以下、aliveメッセージの通信手順を示す。モ
ニタ間通信制御装置(11−5)は、予備プロセッサモ
ジュール(12)の通信アドレスは’2’であるため、
転送先アドレス(21−4)を’2’に設定し、メッセ
ージ本体(21−5)をaliveメッセージであるこ
とを示す’010000’(メッセージ 70)に設定
し、集線装置(11−4)に送信する(処理 26
0)。集線装置(11−4)では、ヘッダ(20−1)
として’FF’を付加し、モニタ間通信制御装置(11
−5)からのメッセージであるのでメッセージ種別(2
0−2)を’1’にして、実行プロセッサモジュール
(11)の通信アドレスは’1’であるため転送元アド
レス(20−3)を’1’に設定し、aliveメッセ
ージを予備プロセッサモジュール(12)に転送する
(処理 261)。予備プロセッサモジュール(12)
の集線装置(12−4)では、メッセージ種別(20−
2)が’1’であるのでモニタ間通信制御装置(11−
5)からのメッセージであると解析して、受信したメッ
セージのうち、転送元アドレス(22−3)の’1’、
とメッセージ本体(22−5)の’010000’をプ
ロセッサ(12−1)のモニタ間通信制御装置(12−
5)に渡す(処理 262)。
【0062】つぎに、障害が発生した場合のメッセージ
と障害検出方法について説明する。
【0063】障害の種類としては、図22に示すよう
に、系障害と部分障害とがある。系障害とは、プロセッ
サモジュールに重大な影響を与える障害である。一方、
部分障害は、軽度な障害であり、障害箇所を閉塞すれ
ば、実行可能な障害である。図22(b)に示すよう
に、系障害は、ハードウエア障害の場合、プロセッサ
(11−1〜18−1)とメモリ(11−2〜18−
2)とのシステム共通のハードウェア障害と、複数ある
IOP(11−10〜18−10)のうち一定数以上の
IOP(11−10〜18−10)の障害とする。ま
た、図22(a)に示すように、ソフトウェア障害の場
合、OS(11−22〜18−22)、モニタ(11−
23〜18−23)のようなシステムに共通なソフトウ
ェア障害と、複数あるAP(11−23〜18−23)
のうちの一定数以上のAP(11−23〜18−23)
の障害とする。一方、部分障害は、一定数未満のIOP
(11−10〜18−10)のハードウエア障害、ある
いは、一定数未満のAP(11−23〜18−23)の
障害とする。図22に示すような系障害と部分障害と
を、あらかじめシステム監視装置に定義して保持おき、
各障害に対応させて行うリセット方法をシステム監視装
置に規定しておくことができる。
【0064】また、障害には、実行プロセッサモジュー
ル(11)において検出できる障害と検出できない障害
とがある。実行プロセッサモジュール(11)において
検出できない障害の場合には、予備プロセッサモジュー
ル(12)において、aliveメッセージの途絶によ
り障害を検出することができる。以下、この場合につい
て述べる。この場合は、障害箇所が特定できないため、
必ず系障害となる。
【0065】図25は、aliveメッセージによる障
害検出方法を示している。実行プロセッサモジュール
(11)自身で検出できない障害については、予備プロ
セッサモジュール(12)が、最後のaliveメッセ
ージを受信した後、一定時間経過しても、受信しない場
合、実行プロセッサモジュール(11)の障害と判定す
る。
【0066】次に、障害の発生したプロセッサモジュー
ルのシステム監視装置が障害を検出する場合について、
図27、図28および図29を参照して説明する。
【0067】図27は、ハードウェア障害の検出手順を
示す図である。プロセッサ(11−1)あるいはメモリ
(11−2)で障害が発生する(処理 600)と、プ
ロセッサに備えるマシンチェックにより障害を検出し
(処理 601)、OS(11−22)に通知する。そ
して、OS(11−22)は、障害処理を実行し、図1
1に示したように、共用メモリ(11−0−3)の指定
ビット(プロセッサの障害ならばp(40−1)を、メ
モリの障害ならばm(40−4))をオンにする(処理
602)。そして、システム監視装置(11−0)に
割り込みを通知する(処理 603)。一方、システム
監視装置(11−0)のプロセッサ(11−0−1)
は、割込みを受信すると、共用メモリ(11−0−3)
を読み出し、どこで障害が発生したのかを認識する(処
理 604)。IOP(11−10)で障害が発生する
と(処理 610)、障害割込みにより、OS(11−
22)に通知する(処理611)。そして、OS(11
−22)は、共用メモリ(11−0−3)の指定ビット
(障害IOPにより、iop1(41−1)〜iop5
(41−5))をオンにする(処理 612)。そし
て、システム監視装置(11−0)に割り込む。(処理
613)。
【0068】一方、システム監視装置(11−0)のプ
ロセッサ(11−0−1)は、割込みを受信すると、共
用メモリ(11−0−3)を読み出し、どこで障害が発
生したのかを認識する(処理 614)。
【0069】また、ソフトウェア障害の検出手順は図2
8に示すように処理する。
【0070】OS(11−22)およびモニタ(11−
21)では、一定周期毎に、システム監視装置(11−
0)の共用メモリ(11−0−3)に、図11に示すビ
ット(os(42−1)およびはmon(42−2))
をオンにする(処理 650)。一方、システム監視装
置(11−0)では、一定時間ごとにこのビットをリー
ドして、該当するビットをクリアする(処理 651)
が、一定時間経過しても、該当するビットがオフのまま
ならば、OS(11−22)あるいはモニタ(11−2
1)で障害が発生したと判定することができる(処理
652)。また、AP(11−23)の障害は、モニタ
(11−21)が検出する。そして、障害を検出すると
OSに通知し、指定ビット(ap1(43−1)〜ap
8(43−8))をオンにする。
【0071】以上のように、実行プロセッサモジュール
(11)のシステム監視装置(11−0)において障害
を検出すると、モニタ(11−21)では、図29に示
すように、予備プロセッサモジュール(12)に障害発
生を通知する。ここでは、プロセッサA(11−1−
1)で障害が発生したとする。
【0072】図29において、モニタ間通信制御装置
(11−5)は、転送先アドレス(21−4)を’2’
に、メッセージ本体(21−5)を障害通知を示す’1
0’と障害箇所を示す(X)および(Y)の’010
4’を設定し、集線装置(11−4)に送信する(処理
270)。集線装置(11−4)は、ヘッダ(20−
1)として’FF’を付加し、メッセージ種別をモニタ
間通信であることを示す’1’に、転送元アドレスを’
1’に設定し、障害通知メッセージを、予備プロセッサ
モジュール(12)に転送する(処理 271)。予備
プロセッサモジュール(12)の集線装置(12−4)
は、メッセージ種別(20−2)が’1’であるのでモ
ニタ間通信制御装置(11−5)からのメッセージであ
ると解析して、受信したメッセージのうち、転送元アド
レス(22−3)の’1’とメッセージ本体(22−
5)’100104’をプロセッサ(12−1)に渡す
(処理272)。
【0073】このように、実行プロセッサモジュール
(11)で障害が発生しても、予備プロセッサモジュー
ル(12)は、実行プロセッサモジュール(11)の障
害を検出することが可能となる。そして、予備プロセッ
サモジュール(12)は障害情報により、系障害か部分
障害かを判定することができる。
【0074】つぎに、上記したような障害が起こった後
の処理について説明する。図23に、プロセッサモジュ
ールの状態遷移図を示す。本実施例では、すべてのプロ
セッサモジュール(11〜18)について、プロセッサ
モジュール(11〜18)共通のハードウェアあるいは
ソフトウェアで障害が発生した場合を系障害とし、この
場合にはプロセッサモジュール(11〜18)全体をリ
セットする。また、IOP(11−8〜18−8)ある
いはAP(11−11〜18−11)障害のような部分
障害の場合には、障害の発生した箇所のみをリセット
し、残り部分は実行させる。系障害の場合にはプロセッ
サモジュール(11〜18)に影響を与える障害であ
り、予備プロセッサモジュール(11〜18)への切替
が必須である。部分障害の場合には、IOP(11−8
〜18−8)を閉塞すれば、処理の継続が可能である。
【0075】この結果、プロセッサモジュール(11〜
18)には、図23に示すように、4つの状態(150
〜153)を設ける。
【0076】図23において、現用状態(150)は、
正常に処理を実行中の状態である。準現用状態(15
1)は、一部のIOP(11−8〜18−8)あるいは
AP(11−11〜18−11)が障害であるが、障害
の発生したIOP(11−8〜18−8)あるいはAP
(11−11〜18−11)を閉塞して、実行中の状態
である。待機状態(152)は、プロセッサモジュール
(11〜18)で障害が発生しても直ちに処理を引き継
げる予備状態である。オフライン状態(153)は障害
発生や保守のためシステムから切り離されている状態で
ある。
【0077】ここでは、実行プロセッサモジュール(1
1)とそのバックアップ処理を実行する予備プロセッサ
モジュール(12)を例にして、状態遷移を説明する。
【0078】実行プロセッサモジュール(11)は、現
用状態(150)で、IOP(11−10)あるいはA
P(11−11)に部分障害が発生すると、障害IOP
(11−6)を閉塞し、障害IOP(11−6)へのア
クセスを中断させて準現用状態(151)に遷移する
(状態遷移 155)。さらに、準現用状態(150)
で障害が発生すると、オフライン状態(153)に遷移
し(状態遷移 160)、予備プロセッサモジュール
(12)が、待機状態(152)から現用状態(15
0)に遷移する(状態遷移 158)。準現用状態(1
51)において、障害の発生したIOP(11−10)
あるいはAP(11−11)がリセットにより回復する
と、現用状態(150)に遷移する(状態遷移 15
6)。また、実行プロセッサモジュール(11)が現用
状態(150)で系障害が発生すると、オフライン状態
(153)に遷移し(状態遷移 157)、予備プロセ
ッサモジュール(12)を待機状態(152)から現用
状態(150)に遷移させる(状態遷移 158)。ま
た、待機状態(152)のときに、系障害あるいは部分
障害が発生すると、オフライン状態(153)に遷移さ
せる(状態遷移 159)。さらに、オフライン状態
(153)で修復が完了すると、オフライン状態(15
3)から待機状態(152)に遷移させる(状態遷移
161)。
【0079】このように、プロセッサモジュールの状態
を系障害または部分障害にしたがって遷移させていく。
【0080】つぎに、障害発生時のリセット方法につい
て説明する。図30は、リセット処理の通信手順を示し
ている。図30においては、予備プロセッサモジュール
(12)が、実行プロセッサモジュール(11)をリセ
ットさせる通信手順を示す。
【0081】予備プロセッサモジュール(12)のモニ
タ(12−21)では、実行プロセッサモジュール(1
1)の障害を系障害と判定すると、自装置内のシステム
監視装置(12−0)に通知する(処理 300)。シ
ステム監視装置(12−0)は、実行プロセッサモジュ
ール(11)をリセットさせるために、転送先アドレス
(21−4)を’1’に、メッセージ本体(21−5)
をリセット要求を示す’010000’に設定し、集線
装置(11−4)に送信する(処理 301)。集線装
置(12−4)では、障害の発生した実行プロセッサモ
ジュール(11)の集線装置(11−4)に、ヘッダ
(20−1)として’FF’を付加し、システム監視装
置(12−0)からのメッセージであるのでメッセージ
種別(20−2)を’2’に、転送元アドレス(20−
3)を’2’に設定し、リセット要求(メッセージ 7
3)を、実行プロセッサモジュール(11)に転送する
(処理 302)。実行プロセッサモジュール(11)
の集線装置(11−4)では、メッセージ種別(20−
2)が’2’であるのでシステム監視装置へのメッセー
ジであると解析し、受信したメッセージのうち、転送元
アドレス(22−3)の’0’とメッセージ本体(22
−5)をシステム監視装置(11−0)に渡す(処理
303)。そして、システム監視装置(11−0)は、
IOP(11−10)をすべてリセットする(処理 3
04)。
【0082】リセット処理が完了すると、システム監視
装置(11−0)は、転送先アドレス(21−4)を’
2’に、メッセージ本体(21−5)をリセット完了を
示す’020000’に設定し、集線装置(11−4)
に送信する(処理 305)。集線装置(11−4)
は、ヘッダ(20−1)として’FF’を付加し、シス
テム監視装置(12−0)からのメッセージであるので
メッセージ種別(20−2)を’2’に、転送元アドレ
ス(20−3)を’1’に設定し、リセット完了メッセ
ージ(メッセージ 74)を、予備プロセッサモジュー
ル(12)に転送する(処理 306)。予備プロセッ
サモジュール(12)の集線装置(12−4)は、メッ
セージ種別(20−2)が’2’であるのでシステム監
視装置へのメッセージであると解析し、受信したメッセ
ージのうち、転送元アドレス(22−3)’0’とメッ
セージ本体(22−5)をシステム監視装置(12−
0)に渡す(処理 307)。
【0083】つぎに、リセット要求を受けてからシステ
ム監視装置において行うリセット処理(リセットコマン
ド方式とリセット信号線方式)について、図31および
図32を参照して説明する。ここでは、システム監視装
置(11−0)がIOP(11−10)をリセットする
方式について述べる。リセット方式には、システム監視
装置(11−0)がリセットコマンドを発行するリセッ
トコマンド方式と、システム監視装置(11−0)とI
OP(11−10)のリセット信号線(11−7)によ
るリセット信号線方式とがある。
【0084】図31は、リセットコマンドによるリセッ
ト方式を示している。リセットコマンドは、予めシステ
ム内で定義しておく。システム監視装置(11−0)
は、IOC(11−3)に対してリセットコマンドを発
行する。IOC(11−3)は、このリセットコマンド
を解析し、IOC(11−3)自身をリセットするの
か、ディスク制御装置(11−6)、LAN制御装置
(11−7)あるいは回線制御装置(11−8)をリセ
ットさせるのかを判定し、該当するものにリセットコマ
ンドを送信する(処理 20)。
【0085】コマンドを送信されたディスク制御装置
(11−6)、LAN制御装置(11−7)および回線
制御装置(11−8)の各プロセッサ(11−6−1、
11−7−1、11−8−1)は、リセットコマンドを
受信すると、それぞれのIO制御部(11−4−4,1
1−5−4,11−6−4)をリセットする。そしてリ
セットを確認した後に、システム監視装置(11−0)
に、リセット完了通知を戻す(処理 21)。
【0086】IO制御部(11−4−4,11−5−
4,11−6−4)のみをリセットするため、ディスク
制御装置(11−6)、LAN制御装置(11−7)お
よび回線制御装置(11−8)のメモリ(11−6−
2、11−7−2、11−8−2)の内容は、生かして
おくことが可能となる。
【0087】また、図32は、リセット信号線によるリ
セット方式を示している。この場合、システム監視装置
(11−0)、ディスク制御装置(11−6)、LAN
制御装置(11−7)および回線制御装置(11−8)
には、リセット端子を設けておく。リセット信号線(1
1−9)により、システム監視装置(11−0)と、デ
ィスク制御装置(11−6)、LAN制御装置(11−
7)および回線制御装置(11−8)とのリセット端子
を相互にそれぞれ接続しておく。
【0088】システム監視装置(11−0)は、リセッ
トを行う場合、リセット制御回路(11−4−4)にリ
セット要求を通知する。デコーダ(11−4−5)は、
どのIOP(11−10)をリセットするのかあるいは
すべてのIOP(11−10)をリセットするのかをリ
セット要求をデコードして決定し、該当するリセット信
号線(11−7)をオンにする。IOP(11−10)
は、リセット信号線(11−7)のオンを検出し、IO
P(11−10)がリセットされる。リセット信号線方
式では、リセット信号線に障害がないかぎりリセット処
理が可能となり、リセット処理の信頼度は高い。このた
め、リセット要求のみで、リセット要求に対する完了通
知がなくても、障害IOP(11−10)のリセットが
保証できる。
【0089】つぎに、実行プロセッサモジュールの系障
害を検出し、予備プロセッサモジュールへの引き継ぎ処
理手順を、図33を参照して説明する。この場合、実行
プロセッサモジュール(11)は現用状態150からオ
フライン状態153に遷移し、予備プロセッサモジュー
ル(12)は待機状態152から現用状態150に遷移
する。
【0090】図33において、実行プロセッサモジュー
ル(11)で障害が発生すると(処理 350)、この
障害を予備プロセッサモジュール(12)は、aliv
eメッセージの途絶(処理 351)により、実行プロ
セッサモジュールの系障害を検出する(処理 35
2)。モニタ(12−21)は、システム監視装置(1
2−0)に障害発生を通知する(処理 353)。シス
テム監視装置(12−0)は、システム監視装置(11
−0)にリセット要求を通知する(処理 354)。シ
ステム監視装置(11−0)では、IOPをリセットす
る(処理 355)。リセットが完了すると、リセット
完了通知を、システム監視装置(12−0)に通知する
(処理 356)。実行プロセッサモジュール(11)
は、現用状態150からオフライン状態153に遷移す
る。予備プロセッサモジュール(12)のシステム監視
装置(12−0)では、リセット完了通知を受けると、
モニタ(12−21)に、共有ディスク(2)の切り替
え、業務用LAN(1)の切り替え、および、回線切替
装置(3)の切り替えを要求する。(処理 360)。
そして、モニタ(12−21)は、共有ディスク(2)
の切り替え(処理 361)、業務用LAN(3)の切
り替え(処理 362)、回線切替装置(3)の切り替
え(処理 363)、集中コンソール(7)への通知
(処理 364)を行なう。最後に、実行プロセッサモ
ジュール(11)の処理を引き継ぐ(処理365)。予
備プロセッサモジュール(12)の状態を、待機状態
(152)から現用状態(150)に遷移する(処理
366)。
【0091】つぎに、障害の発生したプロセッサモジュ
ールが回復し、予備プロセッサモジュールとして立ち上
がるまでの処理(再同期処理手順)を、図35を参照し
て説明する。
【0092】障害の発生したプロセッサモジュール(1
1)は、障害から修復すると(処理450)、モニタ
(11−21)では、初期設定を行なう(処理 45
1)。そして、実行プロセッサモジュール(11)の処
理を引き継いだ予備プロセッサモジュール(12)に対
し、aliveメッセージ(30−1)を発行する(処
理 452)。一方、プロセッサモジュール(12)で
は、共有ディスク(2)をリリースし、プロセッサモジ
ュール(11)からアクセス可能とする(処理45
3)。そして、実行すべきAP(11−22)を、予備
APとして立ち上げる(処理 455)。その処理が完
了すると(処理 456)、予備プロセッサモジュール
(12)に、立ち上がったことを通知する(処理 45
7)。一方、プロセッサモジュール(12)は、共有デ
ィスク(2)をリザーブし、障害から回復したプロセッ
サモジュール(11)からアクセスを禁止する(処理
458)。
【0093】このようにして、第1の実施例では、実行
プロセッサモジュール(11)で障害が発生しても、予
備プロセッサモジュール(12)のシステム監視装置
(12−0)が実行プロセッサモジュール(11)をリ
セットさせるため、予備プロセッサモジュール(12)
は、実行プロセッサモジュール(11)の処理を引き継
ぐことが可能となる。
【0094】つぎに、部分障害時の、実行プロセッサモ
ジュールの閉塞処理手順を、図36を参照して説明す
る。部分障害時には、現用状態(150)から準現用状
態(151)に遷移して、障害の発生した部分のみをリ
セットする。
【0095】図36において、実行プロセッサモジュー
ル(11)では、障害が発生すると、モニタ(11−2
1)が障害を検出し(処理 401)、予備プロセッサ
モジュール(12)に、障害発生を通知する(処理 4
02)。また、システム監視装置(11−0)に通知し
(処理 403)、障害の発生したプロセッサモジュー
ル(11)は、障害の発生したものに対応するIOP
(11−10)をリセットする(処理 404)。そし
て、集中コンソール(7)への通知(処理 410)を
行なう。また、プロセッサモジュール(11)の状態
を、現用状態(150)から準現用状態(151)に遷
移する(処理 405)。
【0096】つぎに、予備プロセッサモジュール(1
2)の障害発生時の集中コンソールへの通信手順を図3
4を参照して説明する。ここでは、予備プロセッサモジ
ュール(12)が集中コンソール(7)にメモリ障害を
通知する場合について説明する。
【0097】図34において、予備プロセッサモジュー
ル(12)のモニタ間通信制御装置(12−5)は、転
送先アドレス(21−4)は集中コンソール(7)であ
るため、’10’を設定し、また、メッセージ本体(2
1−5)は予備プロセッサモジュールがメモリ障害であ
ることを示す、’040101’を設定し、集線装置
(12−4)に送信する(処理 380)。集線装置
(12−4)では、ヘッダ(20−1)として’FF’
を付加し、モニタ間通信制御装置(12−5)からのメ
ッセージであるのでメッセージ種別(20−2)を’
1’に、転送元アドレス(20−3)を’2’に設定
し、集中コンソールへの障害通知メッセージ(メッセー
ジ 76)を、集中コンソール(7)に転送する(処理
381)。集中コンソール(7)では、メッセージを
受信して、内容を解析し、メモリ障害である旨をプリン
タ(7−1)に印字出力したり、表示手段から表示出力
する(処理382)。あるいは、監視センタにメモリ障
害である旨を通知するようにしてもよい(処理 38
3)。
【0098】また、実行プロセッサモジュール(11)
の障害発生時の集中コンソール(7)への通信手順を図
37を参照して説明する。ここでは、実行プロセッサモ
ジュール(11)が集中コンソール(7)にAP1の障
害を通知する場合について説明する。
【0099】図37において、実行プロセッサモジュー
ル(11)のモニタ間通信制御装置(11−5)は、転
送先アドレス(21−4)は集中コンソール(7)であ
るため、’10’を設定し、メッセージ本体(21−
5)はAP1の障害であることを示す、’03080
1’を設定し、集線装置(12−4)に送信する(処理
480)。集線装置(12−4)では、ヘッダ(20−
1)として’FF’を付加し、メッセージ種別(20−
2)を’1’に、転送元アドレス(20−3)を’1’
に設定し、集中コンソール(7)への障害通知メッセー
ジ(メッセージ76)を、集中コンソール(7)に転送
する(処理 481)。集中コンソール(7)では、メ
ッセージを受信して、内容を解析し、メモリ障害である
旨をプリンタ(7−1)に印字出力したり、表示手段か
ら表示出力する(処理 482)、あるいは、監視セン
タにメモリ障害である旨を通知するようにしてもよい
(処理 483)。
【0100】このように集中コンソール(7)に障害メ
ッセージを通知することにより、ユーザは障害の発生を
認識することができる。さらに、実行プロセッサモジュ
ールは、正常運転中に、稼動情報、構成情報、性能統計
情報などを、集中コンソール(7)に通知し、集中コン
ソール(7)では複数のプロセッサモジュールの情報管
理を行うようにしてもよい。
【0101】以上説明したように、第1の実施例によれ
ば、プロセッサモジュール(11〜18)にシステム監
視装置(11−0〜18−0)をそれぞれ設け、それら
を制御用LAN(6)で接続することにより、障害を検
出した予備プロセッサモジュールからリセット要求信号
を送出して、障害が発生した部分のリセット処理を行う
ことができる。
【0102】上記の第1の実施例では、プロセッサモジ
ュール(11〜18)にシステム監視装置(11−0〜
18−0)を設け、それらを制御用LAN(6)で接続
していた。一方、第2の実施例では、システム監視装置
(11−0〜18−0)を高機能化し、システム監視装
置(11−0〜18−0)は、自身のプロセッサモジュ
ール(11−0〜18−0)で発生するすべての障害を
検出可能とする。自身のプロセッサモジュール(11−
0〜18−0)で障害が発生すると、システム監視装置
(11−0〜18−0)が障害を検出し、IOP(11
−10〜18−10)をリセットさせる。
【0103】図38は、第2の実施例のシステム構成図
を示している。本実施例におけるシステム構成は、図1
で示したシステム構成から制御用LAN(6)を除いた
ものである。図39は、第2の実施例の処理概要を示し
ている。本実施例においても、業務を実行している実行
プロセッサモジュール(11)とそれのバックアップ処
理を行なっている予備プロセッサモジュール(12)と
を前提にして説明する。
【0104】第2の実施例の特徴は、すべてのプロセッ
サモジュール(11,12)に、システム監視装置(1
1−0,12−0)を設ける。これらのシステム監視装
置(11−0,12−0)は、自プロセッサモジュール
(11,12)のすべてのハードウェアあるいはソフト
ウェアの障害を検出可能とする。システム監視装置(1
1−0,12−0)は自身のプロセッサモジュール(1
1,12)の障害を検出し、IOP(11−10,12
−10)をリセットすることにより、誤動作を防止する
(処理 501)。一方、他のプロセッサモジュール
(11,12)は、共有ディスク(2)を介して、正常
に動作しているかチェックするために、aliveメッ
セージの交換を行なう(処理 500)。そして、al
iveメッセージが途絶えると、障害の発生したプロセ
ッサモジュール(11,12)の処理を継続する。この
結果、プロセッサモジュール(11,12)のシステム
監視装置(11−0,12−0)間の接続を不要とする
ことが可能となる。
【0105】本発明の第2の実施例の処理動作を図40
を参照して説明する。図40において、実行プロセッサ
モジュール(11)は、周期的にaliveメッセージ
を共有ディスク(2)の予め定められた領域に書き込ん
でいる(処理 550)。予備プロセッサモジュール
(12)では、予め定められた領域を定期的に読み取り
に行くことによりaliveメッセージを受信する。実
行プロセッサモジュール(11)は、自プロセッサモジ
ュール(11)で障害が発生すると、そのシステム監視
装置(11−0)が、自プロセッサモジュール(11)
の障害を検出する(処理 551)。そして、システム
監視装置(11−0)は、障害箇所をリセットする(処
理 552)。一定時間経過(T1)後、リセットが完
了したか判定する(処理 553)。リセットが完了し
ていれば、何もしない(処理 554)。リセットが完
了していなければ、実行プロセッサモジュール(11)
はパワーオンリセットを実行する(処理 555)。
【0106】一方、予備プロセッサモジュール(12)
は、周期的にaliveメッセージを共有ディスク
(2)を読みだすことにより、aliveメッセージを
受信している。すなわち、実行プロセッサモジュール
(11)が正常に動作しているか判定するaliveメ
ッセージの受信確認処理を実行する(処理 560)。
予備プロセッサモジュール(12)は、aliveメッ
セージの途絶により、実行プロセッサモジュール(1
1)の障害を検出する(処理 561)。予備プロセッ
サモジュール(12)は、実行プロセッサモジュール
(11)の障害検出後、(T1)時間経過すると、実行
プロセッサモジュール(11)のリセット処理の完了は
保証されているため、予備プロセッサモジュール(1
2)は、共有ディスク(2)、業務用LAN(1)およ
び回線切替装置(3)を予備プロセッサモジュール(1
2)に切り替える(処理 562)。そして、予備プロ
セッサモジュール(12)は、実行プロセッサモジュー
ル(11)の処理を引き継ぐ(処理 563)。もしく
は、aliveメッセージの代わりに、実行プロセッサ
モジュール(11)において、障害検出後、予備プロセ
ッサモジュール(12)に障害通知を共有ディスク
(2)に書き込むようにしてもよい。
【0107】第2の実施例では、システム監視装置(1
1−0)は自身のプロセッサモジュール(11)で発生
するすべての障害を検出する。つぎに、図41から図4
6を参照して、実行プロセッサモジュール(11)で障
害が発生した場合の処理手順と、予備プロセッサモジュ
ール(12)が実行プロセッサモジュール(11)の処
理の引き継ぎとについて説明する。以下に、実行プロセ
ッサモジュール(11)において障害が発生し、実行プ
ロセッサモジュール(11)のシステム監視装置(11
−0)が障害を検出し、リセットさせる場合において、
プロセッサ障害(図41)、OS障害(図42)、IO
P障害(図43)およびAP障害(図44)のそれぞれ
について述べる。これらの障害検出は、図27および図
28に示したように、システム監視装置(11−0)に
おいて障害を検出する。つぎに、予備プロセッサモジュ
ール(12)が実行プロセッサモジュール(11)から
のaliveメッセージの途絶により、実行プロセッサ
モジュール(11)の障害を検出し、実行プロセッサモ
ジュール(11)の処理を引き継ぐことについて図45
および図46を参照して述べる。
【0108】まず、プロセッサ障害が発生した場合の処
理手順について述べる。図41は、実行プロセッサモジ
ュール(11)のプロセッサにおいて障害が発生した場
合の処理手順を示している。実行プロセッサモジュール
(11)のプロセッサ(11−1)で障害が発生したと
して、システム監視装置(11−0)が行うリセット処
理について説明する。
【0109】システム共通部のハードウェア(プロセッ
サあるいはメモリ)で障害が発生する(処理 701)
と、プロセッサ(11−1)は障害割込みにより、OS
(11−10)に障害発生を通知する(処理 70
2)。OS(11−10)は、システム監視装置(11
−0)との共用メモリ(11−0−3)に、プロセッサ
障害ならばpビット(40−1)を、メモリ障害ならば
mビット(40−2)を、それぞれ”1”にすることに
より、プロセッサ(11−1)あるいはメモリ(11−
2)で障害が発生したことを示す。一方、システム監視
装置(11−0)は、共用メモリ(11−0−3)のp
ビット(40−1)を読み出し、プロセッサ(11−
1)で障害が発生したことを認識する(処理 70
3)。システム監視装置(11−0)は、系障害の場合
には、すべてのIOP(11−10)に対して、リセッ
トを要求する(処理 704)。IOP(11−10)
は、IO制御部(11−4−4,11−5−4,11−
6−4)をリセットし、システム監視装置(11−0)
にリセット完了を通知する(処理 705)。リセット
信号線方式では、リセット完了通知処理(処理 70
5)は、前述と同様に不要である。図32および図33
において、リセットコマンド方式およびリセット信号線
方式を説明したように、リセット方式には、システム監
視装置(11−0)がリセットコマンドを発行するリセ
ットコマンド方式と、システム監視装置(11−0)と
IOP(11−10)のリセット信号線(11−7)に
よるリセット信号線方式がある。
【0110】つぎに、OS障害における処理手順を説明
する。図42は、OSで障害が発生した場合の処理手順
を示している。実行プロセッサモジュール(11)のO
S(11−10)で障害が発生したとして、システム監
視装置(11−0)がリセットする処理について説明す
る。
【0111】OS(11−10)では、周期的に共用メ
モリ(11−0−3)をアクセスし、OS障害箇所情報
(42)のosビット(42−1)を”1”にセットす
る。システム監視装置(11−0)は、周期的に共用メ
モリ(11−0−3)のOS障害箇所情報(42)のo
sビット(42−1)を読み出し、”0”にクリアす
る。OS(11−10)で障害が発生する(処理 75
0)と、OS(11−10)は、OS障害箇所情報(4
2)を”1”にセットできず、システム監視装置(11
−0)は、osビット(42−1)を読み出すが、”
0”の状態が続く。この処理により、システム監視装置
(11−0)は、OS(11−10)の障害を検出する
(処理 751)。そして、システム監視装置(11−
0)は、すべての発生したIOP(11−10)に対し
て、リセットを要求する(処理 752)。IOP(1
1−10)は、リセット処理を実行し、リセットコマン
ドに対する完了通知を戻す(処理 753)。
【0112】つぎに、IOP障害における処理手順を説
明する。図43は、IOPで障害が発生した場合の処理
手順を示している。プロセッサモジュール(11)のI
OP(11−10)で障害が発生したとして、システム
監視装置(11−0)がリセットする処理について説明
する。
【0113】IOP(11−10)で障害が発生する
(処理 800)と、障害割込みにより、OS(11−
10)に障害発生を通知する(処理 801)。OS
(11−10)は、共用メモリ(11−0−3)をアク
セスし、IOPの障害箇所情報(41)について、障害
IOPに対応するiop(41−1〜41−4)ビット
を”1”にセットすることにより、IOP(11−1
0)で障害が発生したことを示す。一方、システム監視
装置(11−0)は、共用メモリ(11−0−3)のi
op(41−1〜41−4)を読み出し、IOP(11
−10)で障害が発生したことを認識する(処理 80
2)。システム監視装置(11−0)は、障害の発生し
たIOP(11−10)に対して、リセット信号線方式
により、障害の発生したIOP(11−10)にリセッ
トを要求する(処理 803)。
【0114】つぎに、AP障害における処理手順を説明
する。図44は、APで障害が発生した場合の処理手順
を示している。プロセッサモジュール(11)のAP
(11−23)で障害が発生したとして、システム監視
装置(11−0)がリセットする処理について説明す
る。
【0115】AP(11−23)は、周期的に共用メモ
リ(11−0−3)のAP障害情報(43)のapビッ
ト(43−1〜43−8)を”1”にセットする。シス
テム監視装置(11−0)は、周期的に共用メモリ(1
1−0−3)のAP障害情報(43)のapビット(4
3−1〜43−8)を読み出し、”0”にクリアする。
AP(11−23)で障害が発生する(処理 850)
と、AP(11−23)はapビット(43−1〜43
−8)を”1”にセットしなくなり、システム監視装置
(11−0)は、apビット(43−1〜43−8)を
読み出すが、”0”の状態が続くため、システム監視装
置(11−0)は、AP(11−23)の障害を検出す
る(処理 851)。システム監視装置(11−0)
は、該当するAP(11−23)に対応するIOP(1
1−10)に対して、リセットを要求する(処理 85
3)。IOP(11−10)は、リセット処理を実行
し、それが完了すると、システム監視装置(11−0)
はIOP(11−10)からリセット完了通知を受信す
る(処理 854)。
【0116】つぎに、実行プロセッサモジュール(1
1)の障害を検出し、実行プロセッサモジュール(1
1)の処理を引き継ぐことについて図45および図46
を参照して述べる。図45は、リセットコマンド方式を
用いた場合の予備プロセッサモジュールの引き継ぎ処理
を示している。本実施例においても、システム監視装置
(11−0)は、リセットコマンドにより、障害の発生
したIOP(11−10)をリセットさせる。また、リ
セット信号線方式を用いた場合の予備プロセッサモジュ
ール(12)の引き継ぎ処理については、図46を参照
して説明する。
【0117】リセットコマンド方式は、前述したよう
に、必ずしも、障害IOP(11−10)のリセットが
保証できない。システム監視装置(11−0)のリセッ
ト要求後、一定時間(T1)経過しても、IOP(11
−10)からリセット完了通知がない場合、システム監
視装置(11−0)は、障害の発生したプロセッサモジ
ュール(11)にパワーオンリセットを発行することに
より、リセットさせる(処理 900)。この処理によ
り、実行プロセッサモジュール(11)は、リセットが
保証できる。一方、予備プロセッサモジュール(12)
は、aliveメッセージの途絶(処理 901)によ
り、実行プロセッサモジュール(11)の障害を検出す
る(処理 902)。そして、一定時間(T0)経過す
る(処理 903)と、障害の発生した実行プロセッサ
モジュール(11)はリセット処理が保証されているた
め、実行プロセッサモジュール(11)の引き継ぎ処理
を開始し(処理 904、)予備プロセッサモジュール
(12)は、共有ディスク(2)、業務用LAN(1)
および回線切替装置(3)の共有部の切り替えを行なう
(処理 905)。そして、予備プロセッサモジュール
(12)は、実行プロセッサモジュール(11)の処理
を引き継ぐ(処理 906)。
【0118】また、図46は、リセット信号線方式を用
いた場合の予備プロセッサモジュールの引き継ぎ処理
(2)を示している。本実施例において、システム監視
装置(11−0)はリセット信号線により、障害IOP
(11−10)をリセットさせる。ここでは、リセット
信号線方式について、予備プロセッサモジュール(1
2)の引き継ぎ処理を説明する。
【0119】予備プロセッサモジュール(12)は、a
liveメッセージの途絶(処理950)により、実行
プロセッサモジュール(11)の障害を検出する(処理
951)。そして、障害の発生した実行プロセッサモジ
ュール(11)は、リセット処理が保証されているた
め、予備プロセッサモジュール(12)は、予備プロセ
ッサモジュール(12)は、直ちに、共有ディスク
(2)、業務用LAN(1)および回線切替装置(3)
の切り替えを行なう(処理 952)。そして、実行プ
ロセッサモジュール(11)の処理を引き継ぐ(処理
953)。
【0120】以上の述べたように、第2の実施例では、
プロセッサモジュール(11〜18)のシステム監視装
置(11−0〜18−0)においてすべての障害が検出
することが可能とし、システム監視装置(11−0〜1
8−0)は、自身のプロセッサモジュールの障害を検出
し、障害箇所をリセットすることが可能となる。この結
果、システム監視装置(11−0〜18−0)間の接続
が不要となる。また、第1の実施例と同様に、集中コン
ソールに対して障害を通知するようにしてもよい。
【0121】
【発明の効果】本発明では、複数のプロセッサモジュー
ルからなるシステムにおいて、障害の発生したプロセッ
サモジュールをリセットさせることができる。このた
め、待機プロセッサモジュールにおいても、誤動作がな
く、障害の発生したプロセッサモジュールの引き継ぎ処
理を実行させることが可能となる。
【図面の簡単な説明】
【図1】本発明によるシステム構成図である。
【図2】プロセッサモジュールの構成図である。
【図3】本発明の特徴を示す図である。
【図4】システム監視装置の構成図である。
【図5】プロセッサの構成図である。
【図6】集線装置の構成図である。
【図7】モニタ間通信制御装置の構成図である。
【図8】ディスク制御装置の構成図である。
【図9】LAN制御装置の構成図である。
【図10】回線制御装置の構成図である。
【図11】共用メモリの内容を示す図である。
【図12】制御用LANを通信するメッセージのフォー
マットを示す図である。
【図13】メッセージ種別のコードを示す図である。
【図14】集線装置(送信側)のメッセージフォーマッ
トを示す図である。
【図15】集線装置(受信側)のメッセージフォーマッ
トを示す図である。
【図16】本実施例で示すメッセージ例を示す図であ
る。
【図17】障害部位を示す図である。
【図18】プロセッサ/メモリの障害部位を示す図であ
る。
【図19】IOPの障害部位を示す図である。
【図20】OS/モニタの障害部位を示す図である。
【図21】APの障害部位を示す図である。
【図22】系障害と部分障害の判定方法を示す図であ
る。
【図23】プロセッサモジュールの状態遷移図である。
【図24】システムの立ち上げ方式を示す図である。
【図25】aliveメッセージの障害検出方式を示す
図である。
【図26】aliveメッセージの通信手順を示す図で
ある。
【図27】ハードウェア障害の検出手順を示す図であ
る。
【図28】ソフトウェア障害の検出手順を示す図であ
る。
【図29】障害通知手順を示す図である。
【図30】リセット処理の通信手順を示す図である。
【図31】リセットコマンドによるリセット方式を示す
図である。
【図32】リセット信号線によるリセット方式を示す図
である。
【図33】予備プロセッサモジュールの引き継ぎ処理手
順を示す図である。
【図34】集中コンソールへの通信手順を示す図であ
る。
【図35】障害プロセッサモジュールの再同期処理手順
を示す図である。
【図36】実行プロセッサモジュールの閉塞処理手順を
示す図である。
【図37】集中コンソールへの障害通知を示す図であ
る。
【図38】実施例2におけるシステム構成図である。
【図39】実施例2の処理概要を示す図である。
【図40】実施例2の特徴を示す図である。
【図41】プロセッサで障害が発生した場合の処理手順
を示す図である。
【図42】OSで障害が発生した場合の処理手順を示す
図である。
【図43】IOPで障害が発生した場合の処理手順を示
す図である。
【図44】APで障害が発生した場合の処理手順を示す
図である。
【図45】待機プロセッサモジュールの引き継ぎ処理
(1)を示す図である。
【図46】待機プロセッサモジュールの引き継ぎ処理
(2)を示す図である。
【符号の説明】
1…業務用LAN、2…共有ディスク、3…回線切替装
置、4…回線、5…端末、6…制御用LAN、7…集中
コンソール、11〜18…プロセッサモジュール、11
−0〜18−0…システム監視装置。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 石井 保弘 神奈川県海老名市下今泉810番地 株式会 社日立製作所オフィスシステム事業部内

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】処理を実行するプロセッサと、当該プロセ
    ッサで実行する処理手順を記憶するメモリと、入出力装
    置を制御する入出力制御部とを備えるプロセッサモジュ
    ールを複数有するコンピュータシステムにおいて、 前記複数のプロセッサモジュールの各々は、 自プロセッサモジュール内または他のプロセッサモジュ
    ール内の障害の発生および障害部位を検出する障害検出
    手段と、前記障害検出手段で検出した障害部位をリセッ
    トするリセット手段とを備えるシステム監視装置を有す
    ることを特徴とするコンピュータシステム。
  2. 【請求項2】請求項1において、前記システム監視装置
    は、前記プロセッサと共用可能な共用メモリをさらに備
    え、 前記プロセッサは、前記共用メモリに障害の発生した障
    害部位を示す情報を格納し、 前記障害検出手段は、前記共用メモリを定期的に参照す
    ることにより障害を検出することを特徴とするコンピュ
    ータシステム。
  3. 【請求項3】請求項1において、前記システム監視装置
    は、前記プロセッサと共用可能な共用メモリをさらに備
    え、 前記プロセッサは、前記共用メモリの予め定めた各部位
    ごとの領域に、定期的に、各部位が正常であることを示
    す情報を格納し、 前記障害検出手段は、前記共用メモリを定期的に参照し
    て前記正常であることを示す情報を消去し、予め定めた
    期間、前記正常であることを示す情報が格納されていな
    い場合には、当該部位において障害が発生したとして障
    害を検出することを特徴とするコンピュータシステム。
  4. 【請求項4】請求項1において、前記複数のプロセッサ
    モジュールとして、処理を実行する実行プロセッサモジ
    ュールと、当該実行プロセッサモジュールの予備として
    待機する予備プロセッサモジュールとの組を少なくとも
    1組有し、 前記実行プロセッサモジュールのプロセッサは、定期的
    に、当該実行プロセッサモジュールが正常であることを
    示す情報を前記予備プロセッサモジュールに送出し、 前記予備プロセッサモジュールの障害検出手段は、前記
    実行プロセッサモジュールのプロセッサからの正常であ
    ることを示す情報により、予め定めた期間、前記正常で
    あることを示す情報を受信しない場合には、前記実行プ
    ロセッサモジュールにおいて障害が発生したとして障害
    を検出し、前記実行プロセッサモジュールの前記リセッ
    ト手段に対してリセット要求を送出することを特徴とす
    るコンピュータシステム。
  5. 【請求項5】請求項4において、前記入出力制御部は、
    複数の入力出力装置をそれぞれ制御する複数の制御手段
    を備え、 前記リセット手段は、前記制御手段に対してリセットコ
    マンドを発行することにより、前記制御手段のリセット
    を行うことを特徴とするコンピュータシステム。
  6. 【請求項6】請求項5において、前記制御手段は、リセ
    ット終了後にリセット完了通知を出力し、 前記リセット手段は、前記リセットコマンドの発行後、
    一定時間内に、リセット完了通知を受信しない場合に、
    当該プロセッサモジュール全体のパワーオンリセットを
    行うことを特徴とするコンピュータシステム。
  7. 【請求項7】請求項2または3において、前記入出力制
    御部は、複数の入力出力装置をそれぞれ制御する複数の
    制御手段を備え、 前記リセット手段は、前記障害検出手段で検出された障
    害部位の前記制御手段に対してリセットコマンドを発行
    することにより、前記制御手段のリセットを行うことを
    特徴とするコンピュータシステム。
  8. 【請求項8】請求項2、3または4において、前記入出
    力制御部は、複数の入力出力装置をそれぞれ制御する制
    御手段を備え、 前記リセット手段と前記制御手段とは、リセット信号線
    により接続され、 前記リセット手段は、前記リセット信号線を介して前記
    制御手段のリセットを行うことを特徴とするコンピュー
    タシステム。
  9. 【請求項9】請求項1において、システム監視装置は、
    前記障害の部位により当該プロセッサモジュール全体の
    障害とする系障害と、予め定めた一部分の障害である部
    分障害とを予め定義しておき、 前記障害検出手段は、前記系障害と前記部分障害とでそ
    れぞれ個別にリセットを行う部位を規定しておくことを
    特徴とするコンピュータシステム。
  10. 【請求項10】請求項4において、前記複数のプロセッ
    サモジュールを接続させる制御用LANをさらに備え、 前記複数のプロセッサモジュールの各々は、前記制御用
    LANに接続される集線装置を備え、 前記集線装置は、前記制御用LANを介して他のプロセ
    ッサモジュールと通信を行うことを特徴とするコンピュ
    ータシステム。
  11. 【請求項11】請求項10において、前記集線装置は、
    前記実行プロセッサモジュールのプロセッサにおける前
    記正常であることを示す情報を、前記制御用LANを介
    して前記予備プロセッサモジュールに送出することを特
    徴とするコンピュータシステム。
  12. 【請求項12】請求項10または11において、前記集
    線装置は、前記予備プロセッサモジュールの障害検出手
    段における前記リセット要求を、前記制御用LANを介
    して前記実行プロセッサモジュールに送出することを特
    徴とするコンピュータシステム。
  13. 【請求項13】請求項10において、前記制御用LAN
    に接続され、前記複数のプロセッサモジュールの保守を
    行なうための集中コンソールをさらに有し、 前記複数のプロセッサモジュールの各々は、当該プロセ
    ッサモジュール内の障害の発生時に、前記集中コンソー
    ルに通知を行うことを特徴とするコンピュータシステ
    ム。
  14. 【請求項14】請求項4において、前記予備プロセッサ
    モジュールは、前記実行プロセッサモジュールの障害を
    検出すると、前記実行プロセッサモジュールの処理を引
    き継ぐことを特徴とするコンピュータシステム。
JP5227250A 1993-03-17 1993-09-13 リセット機能を備えるコンピュータシステム Pending JPH06325008A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5227250A JPH06325008A (ja) 1993-03-17 1993-09-13 リセット機能を備えるコンピュータシステム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP5-56725 1993-03-17
JP5672593 1993-03-17
JP5227250A JPH06325008A (ja) 1993-03-17 1993-09-13 リセット機能を備えるコンピュータシステム

Publications (1)

Publication Number Publication Date
JPH06325008A true JPH06325008A (ja) 1994-11-25

Family

ID=26397710

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5227250A Pending JPH06325008A (ja) 1993-03-17 1993-09-13 リセット機能を備えるコンピュータシステム

Country Status (1)

Country Link
JP (1) JPH06325008A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008003731A (ja) * 2006-06-21 2008-01-10 Hitachi Ltd 情報処理システム
JP2008152552A (ja) * 2006-12-18 2008-07-03 Hitachi Ltd 計算機システム及び障害情報管理方法
US7660918B2 (en) 2003-10-23 2010-02-09 Hitachi, Ltd. Method for switching node and an information processing system
JP2011023983A (ja) * 2009-07-15 2011-02-03 Fujitsu Semiconductor Ltd ネットワークノード
JP2014170394A (ja) * 2013-03-04 2014-09-18 Nec Corp クラスタシステム
US9639486B2 (en) 2013-10-31 2017-05-02 Hitachi, Ltd. Method of controlling virtualization software on a multicore processor

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7660918B2 (en) 2003-10-23 2010-02-09 Hitachi, Ltd. Method for switching node and an information processing system
JP2008003731A (ja) * 2006-06-21 2008-01-10 Hitachi Ltd 情報処理システム
JP2008152552A (ja) * 2006-12-18 2008-07-03 Hitachi Ltd 計算機システム及び障害情報管理方法
JP2011023983A (ja) * 2009-07-15 2011-02-03 Fujitsu Semiconductor Ltd ネットワークノード
JP2014170394A (ja) * 2013-03-04 2014-09-18 Nec Corp クラスタシステム
US9639486B2 (en) 2013-10-31 2017-05-02 Hitachi, Ltd. Method of controlling virtualization software on a multicore processor

Similar Documents

Publication Publication Date Title
US6578158B1 (en) Method and apparatus for providing a raid controller having transparent failover and failback
US8032793B2 (en) Method of controlling information processing system, information processing system, direct memory access control device and program
CN101207408B (zh) 一种用于主备倒换的综合故障检测装置和方法
US7853767B2 (en) Dual writing device and its control method
US7870417B2 (en) Apparatus, system, and method for adapter card failover
JPH07104947A (ja) ディスク制御装置及びその制御方法
CN101582787A (zh) 一种双机备份系统及备份方法
JPS5833575B2 (ja) デ−タの自動回復方法
JPH086910A (ja) クラスタ型計算機システム
JP2000181887A (ja) 情報処理装置における障害処理方法及び記憶制御装置
JPH0934809A (ja) 高信頼化コンピュータシステム
CN117389790B (zh) 可恢复故障的固件检测系统、方法、存储介质及服务器
US5983359A (en) Processor fault recovering method for information processing system
JP3329986B2 (ja) マルチプロセッサシステム
JPH10154085A (ja) 二重化された監視/制御プロセッサによるシステム監視・制御方法および二重化監視/制御プロセッサ・システム
JPH06325008A (ja) リセット機能を備えるコンピュータシステム
WO1999026138A1 (fr) Procede de permutation dans un systeme multiplex
US8429462B2 (en) Storage system and method for automatic restoration upon loop anomaly
JP6134720B2 (ja) 接続方法
JP5651004B2 (ja) 計算機切替システム、計算機切替プログラム、および計算機切替方法
JP2004013723A (ja) 共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法
CN115981880B (zh) 避免主机访问从机出现死锁的方法、装置、系统、存储介质及芯片
JPH11120154A (ja) コンピュータシステムにおけるアクセス制御装置および方法
US10762026B2 (en) Information processing apparatus and control method for suppressing obstacle
JP2001356881A (ja) 多重化記憶制御装置