JPH10207855A

JPH10207855A - 共有ディスク型多重系システム

Info

Publication number: JPH10207855A
Application number: JP9006538A
Authority: JP
Inventors: Masahiko Saito; 雅彦齊藤; Hidehito Takewa; 秀仁武和; Kenichi Kurosawa; 憲一黒澤; Yoshihiro Miyazaki; 義弘宮崎; Shigenori Kaneko; 茂則金子
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1997-01-17
Filing date: 1997-01-17
Publication date: 1998-08-07
Anticipated expiration: 2017-01-17
Also published as: CN1160638C; CN1188935A; US6138248A; TW454128B; JP3537281B2

Abstract

(57)【要約】【課題】共有ディスクを用いた高速な故障時の引継ぎを
行うことのできる多重系システムを構築する。【解決手段】主系計算機１００と従系計算機は定期的に
SVP115を介して生存通知信号を送信し合う。主系計算機
１００より一定期間生存通知信号の送信がない場合、従
系計算機１０１は主系計算機１００の状態を問い合わ
せ、一過性の故障であればSVP115を介して主系計算機１
００を一度リセットし、その処理を引き継ぐ。また、恒
久的な故障であれば、SVP115に主系計算機１００をリセ
ットし続けさせると共に、共有ディスク装置１０２のMO
Sスイッチ１５０〜１５３を制御し、主系計算機１０１
を電気的にSCSIより切り離し、主系計算機１０１の処理
を引き継ぐ。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、主系と従系の計算
機により構成される多重系システムに関し、特に、主系
と従系の計算機によって外部記憶装置として利用される
共有ディスク装置を備えた多重系システムに関するもの
である。

【０００２】

【従来の技術】一般的に大型計算機、ＷＳ（ワークステ
ーション）より信頼性に劣るとされるＰＣ（パーソナル
コンピュータ）を、高い信頼性が要求される用途、例え
ば、鉄道運行管理、プラント制御、電力系統制御などに
用いる場合には、多重系システム、すなわち、処理を行
う主系のPCの他に、主系のPCに故障が生じた場合に主系
のPCが行っていた処理を引き継ぐ従系のPCを備えたフォ
ールトトレラントシステムとしてPCを利用することが望
ましい。

【０００３】また、このようなPCを用いた多重系システ
ムとしては、たとえば、米国Novell社のNetware SFT II
Iや、米国Compaq社のStandby Recovery Serverが知られ
ている。

【０００４】Netware SFT IIIでは、主系と従系の２台
のＰＣそれぞれに拡張ボードを接続し、該拡張ボード間
を光ファイバネットワークで結び付ける。そして、両計
算機の拡張ボードは協調して、光ファイバネットワーク
を介して、定期的に、主系計算機の主記憶内容を従系計
算機の主記憶に複写する処理を行う。

【０００５】また、両計算機は拡張ボードを介して、互
いに監視を行っており、主系計算機からの正常な信号が
途絶えた場合、従系計算機は、複写されたデータを用い
て主系計算機の処理を引き継ぐ。

【０００６】このようなNetware SFT IIIでは、主記憶
の内容を複写することにより結果として主系計算機の備
えるディスク装置の内容も従系計算機の備えるディスク
装置に複写されることになるため、主系計算機と従系計
算機とがディスク装置を共有する構成を用いない。

【０００７】次に、Standby Recovery Serverは、一般
にコールドスタンバイと呼ばれる方式を採用している。

【０００８】コールドスタンバイでは、Netware SFT II
I などの方式（ホットスタンバイ）とは異なり、従系計
算機を、直ちに主系計算機の処理を継続できる状態に置
かない。

【０００９】Standby Recovery Serverでは、主系計算
機が処理を実行し、この間、従系計算機はＯＳ（オペレ
ーティングシステム）がロードされていない状態で待機
する。

【００１０】主系計算機と従系計算機との間のデータの
引継ぎは、主系計算機と従系計算機によって共通に用い
られる共有ディスク装置によって行われる。

【００１１】ここで、Standby Recovery Serverでは、
従系計算機は待機中起動されていない状態に等しく、か
つ、故障発生時には主系計算機自体を停止させるため、
共有ディスク装置は常に一方からのみ参照されることに
なる。

【００１２】具体的には、両計算機は互いに監視を行
い、主系計算機からの信号が途絶えた場合、従系計算機
は、（１）共有ディスク装置の入出力を主系計算機から
従系計算機に切り替え、（２）ＯＳをロードして共有デ
ィスク装置をファイルシステムに組み込み、（３）主系
計算機が行っていた処理を実行するアプリケーションプ
ログラムをロードし、これを実行する。このように、St
andby Recovery Serverでは、故障発生時に、共有ディ
スク装置の入出力を主系計算機から従系計算機に切り替
えることにより、データ引継ぎを実現している。

【００１３】また、多重系システムにおいて相互監視を
行う技術としては、特開昭５８−２１４９５２号公報に
記載されている、多重化された複数のサービスプロセッ
サの各々が定期的に自身が正常であることを表す正常信
号を送信し合い、主系のサービスプロセッサが正常信号
を送信しなくなった場合には、従系のサービスプロセッ
サの中から新たな主系のサービスプロセッサを選出する
技術が知られている。

【００１４】また、フォールトトレラントシステムに関
するものではなく、複数のプロセッサが並行して処理を
行うマルチプロセッサシステムについてのものである
が、特開平４−２４８３８号公報には、プロセッサに障
害が生じた時の処理に関し、予め選出された特定のプロ
セッサが管理プロセッサとして各プロセッサの状態を監
視し、他のプロセッサに異常が生じた場合には、この異
常が生じたプロセッサをリセットする技術が記載されて
いる。

【００１５】

【発明が解決しようとする課題】前述したNetware SFT
IIIでは、主系計算機から従系計算機に主記憶の内容を
複写する必要があるために、拡張ボード間に伝送容量の
大きい伝送路を設ける必要がある。このため、Netware
SFT IIIでは、主系計算機から従系計算機の間の拡張ボ
ード間の伝送路として光ファイバを用いている。しか
し、このような光ファイバなどの大容量の伝送路を用い
ることは、多重系システムの実現コストを非常に大きく
することにつながる。

【００１６】一方、前述したStandby Recovery Server
では、共有ディスク装置を用いて、主系の計算機から従
系の計算機にデータを引き継ぐため、Netware SFT III
のように伝送容量の大きな伝送路を必要としない。

【００１７】しかしながら、Standby Recovery Server
では、主系計算機の故障時に共有ディスク装置を従系計
算機で利用可能とするために、主系計算機の故障時にデ
ィスク装置を新たに従系計算機のファイルシステムに直
接組み込んでいる。ここで、ＰＣ用ＯＳとして一般的な
ＷｉｎｄｏｗｓＮＴ、Ｗｉｎｄｏｗｓ９５を使用したシ
ステムでは、ディスク装置をファイルシステムに組み込
むためには、ＯＳの再起動が必要となる。

【００１８】このため、 Standby Recovery Serverで
は、従系計算機をＯＳ未ロードのまま待機させ、主系計
算機故障時に始めて、ＯＳをロードし、共有ディスク装
置をファイルシステムに組み込んでいるが、このような
手法では、故障発生から従系計算機上での処理継続まで
に、数分程度の時間を必要とすることになる。

【００１９】また、計算機故障には、電源異常、熱暴
走、ファン異常、パリティエラーなど深刻度や回復の可
能性の程度が異なる多様な状況が存在する。したがっ
て、多重系システムにおいても、これら故障の程度を考
慮した適当な処置を行うことが望ましい。

【００２０】そこで、本発明は、高速な故障時の引継ぎ
を行うことのできる、実現コストの低い多重系システム
を提供することを目的とする。

【００２１】また、本発明は、多重系システムにおい
て、計算機の故障状態に応じた故障時処理を行うことを
目的とする。

【００２２】また、さらには障害が生じた計算機、共有
ディスク装置の交換を支援することを目的とする。

【００２３】

【課題を解決するための手段】前記目的達成のために、
本発明は、たとえば、第１の計算機計算機と、第２の計
算機と、前記第１の計算機および第２の計算機に共有さ
れた共有外部記憶装置とを有し、当該主系に設定されて
いる計算機の障害時に、当該計算機が行っている処理
を、従系に設定されている計算機が引き継ぐ多重系シス
テムにおいて、主系に設定した第１の計算機上で前記共
有ディスク装置をファイルシステムに組み込んだオペレ
ーティングシステムと、前記共有外部記憶装置を用いな
がら業務処理を行うアプリケーションとを実行し、従系
に設定した第２の計算機において、前記共有ディスク装
置をファイルシステムに組み込んだオペレーティングシ
ステムと第１の計算機の状態を監視する管理プログラム
とを実行すると共に、前記共有外部記憶装置を用いなが
ら業務処理を行うアプリケーションをロードした状態で
保持し第２の計算機の管理プログラムが第１の計算機に
障害を検出した場合に、前記管理プログラムに規定され
た処理によって、第１計算機をリセットして第１計算機
を従系の計算機とすると共に、第２の計算機を主系の計
算機とし、第２の計算機において前記ロードしているア
プリケーションを起動し実行することを特徴とする多重
系システムの運用方法を提供する。

【００２４】このような運用方法によれば、光ファイバ
伝送路などのコストの高い伝送路を用いることなく、ま
た、従系の計算機を障害の発生後に起動したりすること
なく、共有ディスク装置を用いて高速に従系への処理の
引継を行うことができる。

【００２５】また、前記目的達成のために、本発明は、
たとえば、複数の計算機と、前記複数の計算機に共有さ
れた共有外部記憶装置とを有し、主系に設定されている
計算機である主系計算機の障害時に、当該主系計算機が
行っている処理を、従系に設定されている計算機である
従系計算機が引き継ぐ多重系システムであって、各計算
機は、当該計算機上のプロセスとは独立に動作する、相
互に伝送路を介して接続された機能拡張ボードを各々搭
載し、前記各機能拡張ボードは、障害が生じた他の計算
機に搭載された機能拡張ボードに単発リセット要求と継
続リセット要求のいづれか一方を選択的に前記伝送路を
介して送るリセット要求手段と、前記伝送路を介して他
の計算機に搭載された機能拡張ボードから単発リセット
要求を受け取った場合に、当該機能拡張ボードが搭載さ
れた計算機を瞬時リセットしリセットを解除し、前記伝
送路を介して他の計算機に搭載された機能拡張ボードか
ら継続リセット要求を受信した場合に継続してリセット
し続けるリセット手段とを有することを特徴とする多重
系システムを提供する。

【００２６】このような多重系システムによれば、一過
性と思われる計算機の障害に対しては単発的なリセット
を、恒久的と思われる障害に対しては継続的なリセット
を行うなど、障害の程度に応じたリセット処理を行うこ
とができる。

【００２７】また、前記目的達成のために、本発明は、
たとえば、複数の計算機と、前記複数の計算機に共有さ
れた共有ディスク装置とを有し、主系に設定されている
計算機である主系計算機の障害時に、当該主系計算機が
行っている処理を、従系に設定されている計算機である
従系計算機が引き継ぐ多重系システムであって、前記共
有ディスク装置は、共有ディスク措置の状態を監視し、
監視している共有ディスク装置の状態を前記計算機に伝
える手段と、計算機から受け取った指示に応じて、共有
ディスク装置と前記各計算機との間の電気的接続を解除
する手段とを有することを特徴とする多重系システムを
提供する。

【００２８】このような多重系システムによれば、共有
ディスク措置の故障時に、共有ディスク装置が電気的に
システムから孤立した状態において、システム全体を停
止などすることなく共有ディスク装置を交換することが
できる。

【００２９】

【発明の実施の形態】以下、本発明に係る多重系システ
ムの実施形態について説明する。

【００３０】図１に本実施形態に係る多重系システムの
構成を示す。

【００３１】図示するように、本実施形態に係る多重系
システムは、２台の計算機が１台の共有ディスク装置に
接続された、共有ディスク型の２重系システムである。
ただし、計算機数は３台以上とするようにしてもよい。

【００３２】さて、図１において、１００、１０１はそ
れぞれ、主系計算機、従系計算機を示している。ただ
し、従系計算機１０１は主系計算機となり得、また、主
系計算機１００は従系計算機となり得る。

【００３３】各計算機１００、１０１は、中央処理装置
（ＣＰＵ）１１０、主記憶装置１１１、入出力制御装置
（Ｉ／Ｏ）１１２を備え、これらは、ＣＰＵバス１２０
によって接続されている。

【００３４】入出力制御装置１１２には、通常、ディス
ク装置１１３や拡張ボードバス１２１が接続される。

【００３５】拡張ボードバス１２１は、計算機の機能を
拡張するための拡張ボードを接続するためのスロットに
接続したバスであり、本実施形態に係る計算機１００、
１０１は、拡張ボードとして、ＳＣＳＩ（Small Comput
er System Interface）ボード１１４、Ethernetボード
１１６、ＳＶＰ（Supervise Processor)ボードを備え
る。

【００３６】各計算機１００、１０１のEthernetボード
はEthernet１０３に接続され、該ネットワークに接続さ
れた他の計算機などと通信を行う。本実施形態では、Et
hernet１０３には、プラント１０００を管理、制御する
複数のコントローラ１０１０が接続されている。

【００３７】また、各計算機１００、１０１のＳＣＳＩ
ボード１１４は、ＳＣＳＩケーブル１６０、１６１を介
して共有ディスク装置１０２に接続される。

【００３８】また、各計算機１００、１０１のＳＶＰボ
ード１１５は、高信頼化制御ネットワーク１０４を介し
て接続される。各計算機１００、１０１のＳＶＰボード
は、概括的に言って以下の機能を持つ。

【００３９】(１）計算機の動作状態を記憶する。

【００４０】特に、計算機内部の温度、ファンの稼動／
停止、メモリパリティエラーの履歴など、計算機の異常
状態に関するデータを記憶する。

【００４１】（２）管理プログラムの要求にしたがっ
て、高信頼化制御ネットワークを介して、メッセージを
別のＳＶＰボードに転送する。

【００４２】（３）他のＳＶＰボードからメッセージが
届いた場合、その種類に応じて以下のいずれかの処理を
行う。

【００４３】（ａ）メッセージが単発リセット命令の場
合、接続された計算機に対してリセット信号を一度出力
する、 (ｂ）メッセージが継続リセット命令の場合、接続され
た計算機に対してリセット信号を出力し続ける。

【００４４】(ｃ）メッセージが状態確認命令の場合、
記憶している計算機の状態を要求元ＳＶＰボードに通知
する。

【００４５】（ｄ）上記以外のメッセージの場合、メッ
セージをそのまま管理プログラムに通知する。

【００４６】次に、共有ディスク装置１０２中、ディス
クドライブ１４０が共有ディスク装置１０２の記憶媒体
でありＳＣＳI規格に従って入出力を行うディスクドラ
イブ装置である。また、１４１は、各計算機に備えられ
ているものと同様のＳＶＰボードである。また、共有デ
ィスク装置１０２内の、１５０〜１５３はＭＯＳスイッ
チであり、１５４、１５５は終端抵抗である。

【００４７】共有ディスク装置１０２のＳＶＰボード１
４１は、概括的に言って、以下の機能を持つ。

【００４８】(１）ディスク装置に異常が発生した場
合、例えば、ディスク装置内部の温度異常、ファン停止
などが発生した場合、これをメッセージとして、計算機
側のＳＶＰボードに通知する。

【００４９】(２）計算機のＳＶＰボードからディスク
切り替え命令を受信した場合、指定切り替えパターンに
したがって、ディスク装置内のＭＯＳスイッチのＯＮ／
ＯＦＦを設定する。

【００５０】さて、このような２重系システムにおい
て、主系計算機１００、従系計算機１０１が正常な状態
では、主系計算機１００の主記憶装置１１１には、ＯＳ
１３０、アプリケーション１３５、管理プログラム１３
１がロードされ、実行されている。

【００５１】一方、従系計算機１０１の主記憶装置１１
１にはＷｉｎｄｏｗｓＮＴ、Ｗｉｎｄｏｗｓ９５、ＭＳ
−ＤＯＳなどのOS１３０と管理プログラム１３１がロー
ドされ、実行されている。また、従系計算機１０１にお
いて、アプリケーション１３５は、主記憶装置１１１に
ロードされているが実行はされていない。

【００５２】各計算機１００、１０１においてアプリケ
ーション１３５、管理プログラム１３１はOS１３０上で
実行される。

【００５３】アプリケーション１３５は、２重系システ
ムの目的たる処理を行うプログラムであり、たとえば、
Ethernet１０３を介して各コントローラ１０１０から送
られるデータを処理したり記録したりする処理を行う。

【００５４】管理プログラム１３１は、SVP１１５と協
調して２重系システムにおける主系計算機と従系計算機
の切替を行うプログラムである。

【００５５】ここで、主系計算機１００と従系計算機１
０１のOS１３０は、ＭＯＳスイッチ１５０、１５３がＯ
Ｎ、ＭＯＳスイッチ１５１、１５２をＯＦＦの状態で起
動され、いずれの計算機のＯＳ１３０も、共有ディスク
装置１０２をファイルルシステムの一部として認識する
ようにしている。ここで、SCSIは、バス型のインタフェ
ースであり、その両端で終端抵抗により終端されている
必要がある。いま、ＭＯＳスイッチ１５０、１５３がＯ
Ｎ、ＭＯＳスイッチ１５１、１５２がＯＦＦの状態で
は、主系計算機１００のＳＣＳＩボード１１４内の終端
抵抗と、従系計算機１０１のＳＣＳＩボード１１４内の
終端抵抗によってＳＣＳＩのバスの両端が終端され、共
有ディスク装置１０２内の終端抵抗１５４、１５５はＳ
ＣＳＩのバスから切り離されている。

【００５６】以下、各部の詳細について説明する。

【００５７】図２に、計算機１００、１０１のＳＶＰボ
ード１１５の内部構成を示す。

【００５８】図示するよに、ＳＶＰボード１１５は、Ｃ
ＰＵバスとの入出力を担当する拡張ボードバスインタフ
ェース１７０、高信頼化制御ネットワーク１０４を介し
たメッセージ処理を行うネットワーク制御用プロセッサ
１７１、ネットワーク制御用プロセッサ１７１が実行す
るプログラムを格納したメモリ１７５、メッセージとネ
ットワーク上の電気信号との変換を行う伝送路インタフ
ェース１７２、メッセージと状態情報の一時格納用バッ
ファであるメッセージ記憶用メモリ１７３、電源電圧の
立ち上がりを検出してＳＶＰボードの初期化信号を出力
する電源電圧検出回路１７４を備えている。

【００５９】また、本ＳＶＰボードの動作には、大きく
分けて、（１）初期化処理、（２）計算機状態監視処
理、（３）制御メッセージ送信処理、（４）制御メッセ
ージ受信処理がある。

【００６０】各処理について、それぞれを説明する。

【００６１】まず、(１)初期化処理について説明する。

【００６２】ＳＶＰボード１１５は、それが接続された
計算機とは独立に動作して、故障などにより計算機がリ
セットされた場合でも、その故障状態などを記憶してお
く必要がある。このため、ＳＶＰボード１１５自体の初
期化処理は、計算機のリセットとは独立して行う。この
ために、ＳＶＰボードは、自分自身で、拡張ボードバス
１２１のスロットを介して供給される電源電圧を監視す
る電源電圧検出回路１７４を備えており、この電源電圧
検出回路１７４が電源電圧の立ち上がりを検出して、そ
の結果を示す初期化信号１８３、１８４を出力する。信
号線１８３、１８４は、拡張ボードバスインタフェース
１７０、ネットワーク制御用プロセッサ１７１に送ら
れ、各部に、メモリの０クリア、状態情報のクリア、ネ
ットワークのリセットなどの初期化処理を行わせる。

【００６３】次に、（２）計算機状態監視処理について
説明する。

【００６４】ＳＶＰボード１１５は、計算機の状態情報
を記憶する役割を有しており、信号線１８１を介して、
計算機電源異常、ファン稼動／停止、温度異常などを監
視し、その結果をメッセージ記憶用メモリ１７３に格納
する。本実施形態では、計算機電源異常、ファン稼動／
停止、温度異常などを検出する機能は計算機１００、１
０１自身に備えられており、検出結果が拡張バス１２１
のスロットを介してSVPボード１１５に通知されるもの
としている。

【００６５】次に、(３)制御メッセージ送信処理につい
て説明する。

【００６６】管理プログラム１３１は、拡張ボードバス
１２１を介して、拡張ボードバスインタフェース１７０
に、メッセージ送信要求を発する。拡張ボードバスイン
タフェース１７０は、送信すべきメッセージを一旦メッ
セージ記憶用メモリ１７３に格納する。この後、拡張ボ
ードバスインタフェース１７０は、ネットワーク制御用
プロセッサ１７１にメッセージの到着を知らせる。これ
を受けたネットワーク制御用プロセッサ１７１は、メッ
セージ記憶用メモリ１７３から送信すべきメッセージを
取り出して、伝送路インタフェース１７２に転送し、高
信頼化制御ネットワークを介して、高信頼化制御ネット
ワーク１０４上の他のＳＶＰボードにメッセージを送信
させる。

【００６７】ここで、一旦メッセージ記憶用メモリ１７
３にデータを複写する理由は、拡張ボードバスと高信頼
化制御ネットワークのデータ転送速度がしばしば異なる
ため、速度緩衝用バッファとしてメッセージ記憶用メモ
リ１７３を使用しているのである。

【００６８】最後に、（４）制御メッセージ受信処理に
ついて説明する。

【００６９】高信頼化制御ネットワークから信号線１８
５を介して、伝送路インタフェース１７２に制御メッセ
ージが転送され、これをネットワーク制御用プロセッサ
１７１が受信する。

【００７０】ネットワーク制御用プロセッサ１７１は、
受信したメッセージの種類に応じて以下の処理を行う。

【００７１】(１）メッセージが強制リセット命令であ
れば、リセット信号線１８２を介してリセット信号を送
信し、計算機をリセットする。

【００７２】(２）状態確認命令であれば、メッセージ
記憶用メモリ１７３に格納されている計算機状態情報を
取り出して、状態通知命令として、状態確認命令送信元
ＳＶＰボードに制御メッセージを送信する。

【００７３】(３）それ以外の制御メッセージ（計算機
の管理プログラムによって処理されるべき制御メッセー
ジ）であれば、それをメッセージ記憶用メモリ１７３に
格納する。メッセージ記憶用メモリ１７３に格納された
制御メッセージは、その後、計算機の管理プログラム１
３１からの要求により、信号線１８１を介して随時読み
出される。

【００７４】以下、以上の各処理を実現するために行わ
れる、拡張ボードバスインタフェース１７０、および、
ネットワーク制御用プロセッサ１７１の処理の詳細を説
明する。

【００７５】図３に拡張ボードバスインタフェース１７
０の行う処理の処理手順を示す。

【００７６】拡張ボードバスインタフェース１７０は、
計算機（拡張ボードバス）からの入出力要求を受けると
処理を開始する。すなわち、要求待ち状態１９１は、信
号線１８３からの初期化信号、信号線１８１からの読み
出し信号、書き込み信号の３種類の信号の受信によって
解除される。

【００７７】上記信号を受信すると、いずれの要求であ
るかを判定処理１９２で判断し、到来した要求が電源立
ち上げ時の初期化信号であると判断すれば、内部レジス
タ、回路の初期化処理を行う（処理１９３）。

【００７８】また、信号線１８１からの読み出し信号で
あれば、他のＳＶＰボードから到着した制御メッセージ
を計算機の管理プログラム１３１に通知しなければなら
ない。したがって、メッセージ記憶用メモリ１７３に格
納されている制御メッセージを取り出して（処理１９
４）、これを信号線１８１によって、拡張ボードバス１
２１に送信する（処理１９５）。

【００７９】信号線１８１からの書き込み信号である場
合には、書き込み信号が、計算機状態情報（電源異常、
ファン稼動／停止など）の通知であるか、制御メッセー
ジの送信であるかを判定し（処理１９６）、計算機状態
情報の通知の場合、該状態をメッセージ記憶用メモリに
格納しておく（処理１９７）。また、制御メッセージの
送信を行う場合、該制御メッセージを一旦メッセージ記
憶用メモリに格納しておき（処理１９８）、これをネッ
トワーク制御用プロセッサに伝送させる（処理１９９）
次に、図４に、ネットワーク制御用プロセッサ１７１の
行う処理の処理手順を示す。

【００８０】図示するネットワーク制御用プロセッサの
処理では、信号線１８４からの初期化信号、拡張ボード
バスインタフェースからの起動要求、および、伝送路イ
ンタフェースからのメッセージ受信のいずれかのイベン
トの発生によってイベント待ち状態(処理２０１)が解除
され、次の処理に進む。すなわち、イベント待ち状態２
０１でいずれかのイベントが発生すると、処理２０２で
イベントの種類を判定する。拡張ボードバスインタフェ
ースと同じく、電源立ち上げ時の初期化信号が与えられ
た場合には、通信処理を初期化して、到着している全て
のメッセージを破棄する（処理２０３）。

【００８１】一方、発生したイベントが、拡張ボードバ
スインタフェースからの起動要求、すなわち、制御メッ
セージの送信要求であれば、送信すべき制御メッセージ
をメッセージ記憶用メモリから読み出して（処理２０
４）、伝送路インタフェースに制御メッセージを伝送さ
せる（処理２０５）。

【００８２】また、伝送路インタフェースからのメッセ
ージ受信イベントの発生は、他ＳＶＰボードからの制御
メッセージが到来したことを示している。この場合、受
信した制御メッセージの種類によって異なる処理を行
う。

【００８３】すなわち、制御メッセージの種類を処理２
０６によって判定し、これが、強制リセット命令であれ
ば、信号線１８２を介して、自己の接続されている計算
機にリセット信号を送出する（処理２０７）。なお、強
制リセット命令には、単発リセット命令と継続リセット
命令の２種類が存在し、単発リセット命令の場合は計算
機に１度リセット信号(リセットパルス)を送出する。単
発リセットは、拡張ボードバス１２１上のリセット線を
瞬間的にローレベルとすることにより行う。

【００８４】一方、継続リセット命令の場合は計算機に
リセット信号を送信し続ける。継続リセットは、拡張ボ
ードバス１２１上のリセット線をローレベルに固定する
ことにより実現する。このようにすることにより、継続
リセット命令を受けたＳＶＰボードに繋がる計算機を、
リセット状態（立ち上げ直後の状態）のままにしておく
ことができ、この計算機を実質上、システムから除去す
ることができる。なお、この場合も、この状態のまま、
ＳＶＰボードは独立に処理を続けることができる。

【００８５】なお、計算機によっては、リセット線をハ
イレベルにすることにより、計算機をリセットするもの
もある。

【００８６】さて、受信した制御メッセージが状態確認
命令である場合には、メッセージ記憶用メモリから計算
機状態情報を入手し（処理２０８）、これを状態通知メ
ッセージとして、メッセージ送信元ＳＶＰボードに送信
する（処理２０９）。

【００８７】この他、制御メッセージが管理プログラム
によって処理されるべきものであれば、単に、受信した
メッセージをメッセージ記憶用メモリに１７３格納する
（処理２１０）。

【００８８】ここで、メッセージ記憶用メモリ１７３の
構成を図５に示しておく。

【００８９】図示するように、メッセージ記憶用メモリ
１７３に格納されるデータとしては、送信メッセージ、
受信メッセージ、並びに、計算機の状態情報がある。

【００９０】具体的には、メッセージ記憶用メモリ１７
３内に、送信メッセージ用待ち行列２２０、受信メッセ
ージ用待ち行列２２１、計算機状態テーブル２２２を設
ける。送信、および、受信メッセージ用待ち行列には、
それぞれ、送信すべき制御メッセージ、受信した制御メ
ッセージをＦＩＦＯ（First-In First-Out）形式で格納
する。また、計算機状態テーブル２２２には、計算機の
状態、例えば、電源異常、ファン稼動／停止、温度異
常、パリティエラーなどを記憶する。

【００９１】以上、計算機１００、１０１に設けられる
SVP115について説明した。

【００９２】次に、共有ディスク装置１０２に備えたSV
P１４１について説明する。

【００９３】前述したように、主系計算機１００、従系
計算機１０１が正常な状態において、共有ディスク装置
１０２は両計算機１００、１０１に接続されている。

【００９４】ここで、２重系システムの目的たる高信頼
化を考慮するならば、主系計算機１００が故障／停止し
た場合に、従系計算機１０１を主系の計算機に切替えて
処理を引き継ぐのみならず、障害が生じた計算機１００
をシステムから物理的に除去し、新たな計算機をシステ
ムに接続する（２重系を再構築する）ことを支援する必
要がある。そして、この間、正常に動作している従系計
算機１０１を停止させないようにすることが望ましい。

【００９５】そこで、共有ディスク装置内に、ＭＯＳス
イッチ１５０〜１５３と終端抵抗１５４、１５５を設
け、いずれかの計算機がシステムから除去された場合で
も、ＭＯＳスイッチを切り替えることによりＳＣＳＩ機
器がターミネートされるようにする。

【００９６】ここで、図６に、ＭＯＳスイッチ１５０〜
１５３の切り替えのパターンを示す。前述したように、
２つの計算機いずれもが正常に動作している場合には、
aに示すようにＭＯＳスイッチ１５０、１５３をＯＮと
する。これにより、計算機１００、１０１はそれぞれＳ
ＣＳＩケーブル１６０、１６１を介してディスクドライ
ブ１４０に接続される。また、同時に、ＭＯＳスイッチ
１５１、１５２をＯＦＦとすることにより、ディスクド
ライブ１４０と終端抵抗１５４、１５５との接続を切り
離すことにより、計算機１００のＳＣＳＩボード、ディ
スクドライブ１４０、計算機１０１のＳＣＳＩボードと
いう３つのＳＣＳＩ機器の接続において、その両端機器
がターミネートする。

【００９７】ここで、計算機１０１が故障したとする。
故障復旧のために計算機１０１を除去し、新たな計算機
を接続しようとする場合、計算機１０１側でターミネー
トされていたＳＣＳＩボード自体も除去されることにな
る。そこで、計算機１０１の除去に先立ち、図６ｃに示
すように、ＭＯＳスイッチ１５０、１５２をＯＮ状態に
し、１５１、１５３をＯＦＦ状態に変更する。これによ
り、図１に示す回路は、図７と同等の回路となる。すな
わち、ＳＣＳＩケーブル１６０によって接続されるＳＣ
ＳＩボード１１４とＳＣＳＩディスクドライブ１４０
は、それぞれの機器の両端でターミネートされ、計算機
１００が正常にＳＣＳＩディスクドライブ１４０の内部
を参照できるようになる。逆に計算機１００が故障した
場合には、図６bに示すようにＭＯＳスイッチ１５１、
１５３をＯＮ状態にし、１５０、１５２をＯＦＦ状態に
する。これにより、ディスクドライブ１４０を計算機１
０１が正常に参照できるようになる。

【００９８】また、さらに、共有ディスク装置１０２自
体が故障するような場合には、図６dに示すように全て
のＭＯＳスイッチ１５０〜１５３をＯＦＦ状態にしてか
ら、共有ディスク装置１０２を切り離せば、電気信号的
に切断された状態でディスクドライブなどの交換を行う
ことができる。

【００９９】以上のような機能は、以下に詳細を示す共
有ディスク装置１０２に備えたSVP１４１を利用して実
現される。

【０１００】図８に、共有ディスク装置１０２に備えた
ＳＶＰボード１４１の構成を示す。

【０１０１】ＳＶＰボード１４１は、高信頼化制御ネッ
トワーク１０４に接続され、計算機のＳＶＰボードと互
いにメッセージ通信を行う。伝送路インタフェース２３
０は、ネットワーク上の電気信号２４３を制御メッセー
ジに変換して、ネットワーク制御用プロセッサ２３１に
送り、また、ネットワーク制御用プロセッサ２３１から
送られてきた制御メッセージを電気信号に変換して、高
信頼化制御ネットワークを介して送信する。

【０１０２】ここで、図示するように、ＳＶＰボード１
４１には、計算機に接続されるＳＶＰボード１１５と異
なり、メッセージ記憶用メモリが装備されない。これ
は、共有ディスク装置が制御メッセージを短期間に連続
して送受信することがないためである。

【０１０３】すなわち、ネットワーク制御用プロセッサ
２３１が処理する制御メッセージは、基本的には、次の
２種類である。

【０１０４】(１）ディスク状態通知メッセージ（送
信）：ディスク状態を示す信号線２４２が、状態の変化
を通知してきた場合、これを制御メッセージとして、計
算機のＳＶＰボード１１５に通知する。

【０１０５】(２）ディスク切り替えメッセージ（受
信）：ディスク装置内のＭＯＳスイッチ１５０〜１５３
を切り替えるため、計算機のＳＶＰボード１１５が送信
してくる制御メッセージである。この制御メッセージを
受信すると、制御メッセージの指定するパーターン(図
６のいずれか)に従って、ＭＯＳスイッチ１５０〜１５
３を切り替えるようＭＯＳスイッチ制御回路２３２に依
頼する。そして、ＭＯＳスイッチ制御回路２３２は、依
頼内容に応じて、各MOSスイッチのゲートに接続した信
号線２４４〜２４７への出力値を決定する。

【０１０６】また、SVPボード１４１は、計算機に接続
されるＳＶＰボード１１５と同様、電源電圧検出回路２
３３を有する。電源電圧検出回路２３３は、ディスク装
置に与えられる電源電圧２４０を検出して、初期化処理
信号２４１を出力する。これにより、ネットワーク制御
用プロセッサ２３１の初期化処理を行われる。

【０１０７】なお、本ＳＶＰボード１４１で使用される
伝送路インタフェース２３０は、計算機に接続されるＳ
ＶＰボード１１５内の伝送路インタフェース１７２と同
一であってよい。また、ネットワーク制御用プロセッサ
２３１も、計算機に接続されるＳＶＰボード１１５のネ
ットワーク制御プロセッサ１７１と同一であってよい
が、処理すべき制御メッセージが異なるため、ハードウ
ェア的には同一のプロセッサを使用しても、ネットワー
ク制御用プロセッサ２３１に実行させるためにメモリ２
３４に格納するプログラムは異なるものとなる。

【０１０８】図９に、共有ディスク装置１０２のSVPボ
ード１４１のネットワーク制御用プロセッサ２３１が行
う処理の処理手順を示す。

【０１０９】ネットワーク制御用プロセッサ２３１をイ
ベント待ち状態２５１から次の処理に進めるイベントに
は、信号線２４１からの初期化信号の受信、ディスク状
態信号２４２における状態変化、伝送路インタフェース
２３０からのディスク切り替え命令メッセージ受信があ
り、これらのイベントが発生すると、処理２５２におい
てイベントの種類を判定する。

【０１１０】判定したイベントが、電源電圧検出回路が
電源の立ち上がりを検出して、初期化信号を送信してき
たイベントである場合には、通信処理の初期化、既に受
信しているメッセージの破棄などを行って、ＳＶＰボー
ドの状態をリセットする（処理２５３）。

【０１１１】イベントの種類が、信号線２４２上の変化
として伝えられた、ディスク装置内部の状態変化、例え
ば、ディスク装置の電源異常、ファン稼動／停止、温度
異常、ディスクドライブのハードウェアエラーなどであ
る場合には、ネットワーク制御用プロセッサ２３１は、
このイベントの示す状態変化の内容を認識し、認識した
内容をディスク状態通知メッセージとして、計算機のＳ
ＶＰボード１１５に対して通知する（処理２５４）。た
だし、本実施形態では、共有ディスク装置１０２の電源
異常、ファン稼動／停止、温度異常などを検出する機能
はディスクドライブ１４０自身に備えられており、検出
結果がSVPボード１４１に信号線２４２を介して通知さ
れるものとしている。

【０１１２】一方、発生したイベントが、計算機のＳＶ
Ｐボードから送信されたディスク切り替え命令メッセー
ジの受信である場合には、ディスク切り替え命令メッセ
ージの指定するパターン(図６a〜d)の設定に従ってＭＯ
ＳスイッチのＯＮ／ＯＦＦを制御するよう、ＭＯＳスイ
ッチ制御回路２３２に依頼する（処理２５５）。

【０１１３】次に、以上に示したSVPボード１１５、１
４１を利用して、主系、従系の切替の処理を行う管理プ
ログラム１３１について説明する。

【０１１４】管理プログラム１３１の主な処理内容とし
ては次の３つの処理がある。

【０１１５】(１）計算機が正常に動作していることを
通知するため、定期的にＳＶＰボード１１５を介して、
生存通知信号を送信する。

【０１１６】(２）定期的にＳＶＰボード１１５から制
御メッセージを受信し、処理を行う。たとえば、該制御
メッセージが生存通知信号であれば、その制御メッセー
ジ送信元の計算機が生存していることを認識する。ま
た、たとえば、ディスク状態通知メッセージであれば、
必要なディスク切り替え命令をＳＶＰボード１１５を介
して共有ディスク装置１０２に送信する。

【０１１７】(３）一定時間以上、他の計算機から生存
通知信号を受けなければ、その計算機が故障したと判断
して、その計算機の強制リセット、並びに、ディスク切
り替え処理を行わせる。故障した他の計算機が主系計算
機であれば、従系計算機である自計算機を主系に移行さ
せる。また、従系計算機の主系への切り替えを行う際
に、共有ディスク装置１０２から主記憶装置１１１内に
読み出していたデータを無効化し、データの一貫性を保
つ。

【０１１８】以下、管理プログラムの詳細について説明
する。

【０１１９】図１０に、管理プログラム１３１の内部構
成を示す。

【０１２０】管理プログラム１３１は、前述した３つの
処理に対応する３つのタスク２６０〜２６２から構成さ
れる。

【０１２１】生存通知送信処理タスク２６０の役割は、
自分自身が正常に動作していることを、ＳＶＰボード１
１５を介して他計算機に通知することである。このた
め、一定周期でＳＶＰボードに対して、生存通知メッセ
ージ２７０の送信を依頼する。受信処理タスク２６１
は、他計算機のＳＶＰボード１１５が送信した生存通知
信号、および、共有ディスク装置１０２のＳＶＰボード
１４１が送信したディスク状態通知メッセージ２７１を
受信する。生存通知送信処理タスク２６０と同様、受信
処理タスク２６１は、一定周期で起動され、ＳＶＰボー
ド１１５内のメッセージ記憶用メモリ１７３に格納され
ている制御メッセージを取り出す。

【０１２２】また、受信処理タスク２６１は、一定時間
以上、他の計算機からの生存通知メッセージが到着しな
い場合、その計算機が故障したと判断し、故障処理タス
ク２６２に、計算機の強制リセット、ディスク切り替え
などを依頼する。また、ディスク状態通知メッセージを
受信した場合には、共有ディスク装置１０２の異常発生
（若しくは、故障からの復旧）が起こったことになるの
で、ディスク切り替え命令２７６を発行して、ディスク
装置内のＭＯＳスイッチのＯＮ／ＯＦＦ状態を変更す
る。

【０１２３】次に、故障処理タスク２６２は次の処理を
行う。

【０１２４】(１）故障した計算機に対して強制リセッ
ト命令を送信する（処理２７２）。この際、必要に応じ
て、計算機の故障状態を確認する計算機状態確認命令を
送信し、故障計算機の状態を入手する。ここで、故障
が、パリティエラーなど一過性のものであると判断した
場合には、単発リセット命令を選択する。また、電源異
常のような重大故障の場合や一過性故障が複数回続いた
場合には、強制リセット命令として、継続リセット命令
を選択する。

【０１２５】(２）継続リセット命令を強制リセット命
令として送信した場合、故障計算機の除去を前提とする
ものであるから、続いて、ディスク切り替えメッセージ
を送信する。このディスク切替メッセージでは、自己の
計算機と共有ディスク装置１０２が互いにＳＣＳＩ接続
の両端となってターミネートされるように、ディスク切
り替えパターンを指定する。これにより、故障した計算
機を除去しても、その影響を受けることなく、自己の計
算機が共有ディスク装置を参照することができる。

【０１２６】(３）ＯＳ１３０の多くは、ディスク装置
１０２の内容の一部２７５を主記憶装置内１１１に複写
したディスクキャッシュ２６３を備え、通常のディスク
参照をディスクキャッシュ２６３に対して行わせること
により、処理の効率向上を図っている。故障処理タスク
２６２は、主系計算機が故障し、従系計算機を主系に移
行する直前に、ディスクキャッシュ２６３を無効化させ
る。ディスクキャッシュ２６３は、通常、ＯＳの管理下
にあるため、ＯＳ１３０に対して無効化に関する一連の
処理依頼２７３を行って、ディスクキャッシュ２６３の
無効化を実施させることになる。

【０１２７】この(３）の処理を行う理由は次の通りで
ある。すなわち、共有ディスク装置１０２の内容が、そ
れに接続されるいずれの計算機の主記憶装置にもディス
クキャッシュとして複写されることがある。このため、
主系計算機側で共有ディスク装置の内容を変更したとし
ても、従系計算機側でディスクキャッシュ２６３内に対
応するデータを所有していれば、従系計算機を主系に移
行した場合、変更された共有ディスク装置１０２の内容
を参照せずに、変更されていないディスクキャッシュ
（複写）を参照してしまうことになる。例えば、図１１
に示すように、計算機１００、１０１、および、共有デ
ィスク装置１０２から構成されるシステムにおいて、計
算機１００が主系計算機であり、計算機１０１が従系計
算機であるとする。そして、共有ディスク装置１０２内
のデータ本体２９０に対して、そのディスクキャッシュ
２６３が主系計算機上に、ディスクキャッシュ２９１が
従系計算機上に存在するものとする。ここで、主系計算
機１００上で動作するアプリケーション２８０が処理を
実行中、共有ディスク装置１０２上のデータ２９０を書
き換えたとする（３００）。この時点で、計算機１００
が故障して、計算機１０１が主系計算機となり、アプリ
ケーション２８０が計算機１０１上で処理を再開する
と、既に共有ディスク装置１０２のデータ２９０に対応
するデータがディスクキャッシュ２９１が計算機１０１
上に存在するので、ディスクキャッシュに対してデータ
の参照(３０１）を行おうとする。しかし、先に処理３
００で書き換えられたたデータが、まだ、ディスクキャ
ッシュ２９１に反映されていない場合には、処理３０１
で参照したデータは正しい値ではない。

【０１２８】そこで、このように正しくないデータを参
照することを防ぐために、このため、従系計算機は、主
系に移行する直前に、そのディスクキャッシュを無効化
するのである。

【０１２９】以下、前記管理プログラム１３１の、生存
通知送信処理タスク２６０、受信処理タスク２６１、故
障処理タスク2６２の行う処理の詳細について説明す
る。

【０１３０】まず、図１２に、生存通知送信処理タスク
２６０において行う処理の処理手順を示す。

【０１３１】図示するように、この処理では、定期的に
生存通知を他計算機に対して通知するだけである。すな
わち、生存通知信号をＳＶＰボードを介して別計算機に
送信し（処理３１１）、予め定められた時間だけ待ち状
態に移行する（処理３１２）処理を繰り返す。

【０１３２】次に、図１３に、受信処理タスク２６１の
行う処理の処理手順を示す。

【０１３３】図示するように、受信処理タスク２６１で
は、生存通知信号とディスク状態通知メッセージの受信
を周期的に行う。

【０１３４】すなわち、まず、ディスク状態通知メッセ
ージの受信を調べ（処理３２２）、処理３２３におい
て、実際にディスク状態通知が到来しているかどうかを
判定する。ディスク状態通知メッセージが到着してお
り、ディスク状態通知メッセージが共有ディスク装置の
故障を示している場合、共有ディスク装置１０２内のＭ
ＯＳスイッチ１５０〜１５３を全てＯＦＦの状態(図６
のdのパターンの設定)に変更するためのディスク切り替
え命令を(SVPボード１１５を介して)送信する。ディス
ク状態通知メッセージが共有ディスク装置１０２の故障
からの復旧を示している場合には、逆に、ＭＯＳスイッ
チイッチ１５０〜１５３を共有ディスク装置１０２が正
常な場合の設定(図６のa,b,cのパターンの設定のいずれ
か)に変更するディスク切り替え命令を送信することに
なる（処理３２４）。

【０１３５】さて、次に、生存通知信号の受信処理３２
５を行うが、受信処理タスク２６１では、一定時間以上
生存通知を受信しない場合に、故障処理タスク２６２を
起動しなければならない。そこで、このための制御変数
として、「通知待ち回数」を用いる。また、この予め初
期化処理として、「通知待ち回数」をＮ回に設定してい
る(処理３２１）。

【０１３６】生存通知信号の受信処理処理３２５では、
他計算機から生存通知信号が到着しているか否かを調べ
る（処理３２６）。そして、生存通知信号が到着してい
れば、再び、「通知待ち回数」をＮ回に初期化し（処理
３２７）、予め定められた時間だけ待ち(処理３２
８）、処理３２２に戻る。一方、処理３２６で、生存通
知信号が到着していないと判断した場合には、「通知待
ち回数」の値を１減少させ（処理３２９）、この変数の
値をチェックする（処理３３０）。そして、「通知待ち
回数」の値が０であれば、「Ｎ×生存通知受信間隔」で
計算される時間、生存通知信号を他の計算機から受信し
ていないことになるるので、故障処理タスクを起動させ
る（処理３３１）。処理３２７でチェックした値が０で
ない場合には、定められた時間だけ待って（処理３２
８）、処理３２２に戻る。

【０１３７】なお、上記Ｎの値を２以上とすることによ
り、高信頼化制御ネットワークなどにおける一過性通信
エラーに対処することができる。また、図１に示したよ
うに、主系計算機１００と従系計算機１０１が２つのネ
ットワーク（Ethernet、高信頼化制御ネットワーク）で
結ばれている場合、両ネットワークで生存通知信号を送
信するようにすれば、一方のネットワークの通信エラー
に耐えうるようにすることができる。ただし、Ethernet
などの一般に用いられるネットワークで、強制リセット
命令やディスク切り替えメッセージを処理することは信
頼性の面から適切ではないので、これらの制御メッセー
ジは、高信頼化制御ネットワークでのみ転送するように
することが望ましい。

【０１３８】次に、図１４に故障処理タスク２６２の行
う処理の処理手順を示す。

【０１３９】この処理では、まず、処理３４１により故
障計算機の状態を確認する命令を故障計算機のSVP115に
送信し、計算機の故障状態の通知を受ける（処理３４
２）。

【０１４０】次に、処理３４３によって、計算機の故障
の程度を判定し、故障計算機の強制リセットの方式を決
定する。計算機故障が一過性のものであれば、正常状態
への復帰を期待して単発リセット命令を送信して（処理
３４４）、故障計算機を再起動してみる。計算機故障が
永久故障や一過性故障が何回も連続している場合、継続
リセット命令を送信し（処理３４５）、故障計算機の影
響が波及しないようにシステムから切り離す。

【０１４１】また、継続リセット命令を送信した場合、
続けてディスク切り替え命令(MOSスイッチ１５０〜１５
3を図６bもしくはcのパターンの設定にする命令)を送信
し（処理３４６）、共有ディスク装置１０２を故障計算
機から切り離す。これによって、故障計算機をシステム
から取り除いても、共有ディスク装置の参照を正常に行
うことができる。

【０１４２】なお、処理３４１〜３４４を省略し、故障
計算機には必ず継続リセットさせるといった方式を採用
することも可能である。

【０１４３】次に、故障した計算機が主系計算機であ
り、自計算機が待機中の従系計算機である場合、自計算
機を主系に移行させ、故障計算機上で動作していた処理
を継続させることが必要となるので、まず、自計算機が
待機中であるか否かを判定し（処理３４７）、待機計算
機であった場合、ディスクキャッシュを無効化し（処理
３４８）、あらかじめ主記憶装置１１１にロードしてお
いたアプリケーション１３５を実行させ、自分計算機を
主系へ移行させる（処理３４９）。

【０１４４】以上、故障処理タスク２５２の行う処理に
ついて説明したが、もし、ＯＳ１３０が、ディスクキャ
ッシュの無効化処理をシステムサービスとして提供しな
い場合には、図１４の処理３４８の代わりに、図１４の
処理３５０〜３５３を行うようにすればよい。

【０１４５】すなわち、まず、共有ディスク装置１０２
自体をロックし（処理３５０）、自管理プログラム１３
１以外のディスク参照を排除する。そして、一旦、共有
ディスク装置１０２の論理的な接続解除（アンマウン
ト）を行う（処理３５１）。これにより、共有ディスク
装置１０２に対応するディスクキャッシュの内容が無効
化されることになる。そこで、処理３５２により共有デ
ィスク装置を論理的に接続（マウント）し、最後に、共
有ディスク装置１０２アンロックして自管理プログラム
１３１による占有状態を解除する（処理３５３）。

【０１４６】なお、ＯＳによっては、 (１）ディスク装置をアンマウントしても、プログラム
がそのディスク装置を参照しようとすると、自動的に該
ディスク装置がマウントされる。

【０１４７】(２）ディスク装置を占有しなくても、ア
ンマウントできる。

【０１４８】といった特徴を持つことがあり、このよう
な場合は、処理３５０〜３５３のうちいずれかを省略す
ることもできる。例えば、上記（１）の特徴をOSが持つ
場合は処理３５２を、（２）の特徴をOSが持つ場合は処
理３５０、３５３を省略することができる。

【０１４９】以上、本実施形態に係る２重系システムの
一実施形態について説明したが、最後に、高信頼化制御
ネットワーク１０４を介して送信するメッセージを図１
５にまとめて示しておく。図１５には、メッセージの種
類、送信元、最終受信者とその処理内容を示した。

【０１５０】なお、本実施形態において、管理プログラ
ムはOSの一部として備えるようにしてもよい。

【０１５１】以上のように、本実施形態によれば、安価
なＰＣを用いて、高信頼な多重系システムを構築するこ
とができる。この多重系システムは、ＳＶＰボード、高
信頼化制御ネットワーク、管理プログラムから構成され
るが、アプリケーションは、これらの構成要素を意識す
ることない。従って、アプリケーションは従来と同様の
ものを用いることができる。

【０１５２】また、共有ディスク装置をデータの継承に
用いることにより、計算機間で主記憶のコピーを行う多
重系システムより非常に低コストでシステムを構築で
き、また、高速な主系／従系の切替を行うことができ
る。

【０１５３】また、一過性である可能性のある故障につ
いては単発のリセット、再起動による復帰を試み、故障
が永久的であると思われる場合にのみ継続リセットによ
り、その故障の生じた計算機を実質的に無効化するとい
うように、故障の程度に応じた処理を行うことができ
る。

【０１５４】また、故障した装置を電気的にシステムか
ら分離することにより、システムを停止などすることな
く故障した装置の交換を行うことを可能としている。

【０１５５】

【発明の効果】以上のように、本発明によれば、高速な
故障時の引継ぎを行うことのできる、実現コストの低い
多重系システムを提供することができる。

【０１５６】また、多重系システムにおいて、計算機の
故障状態に応じた故障時処理を行うことができる。

【０１５７】また、障害が生じた計算機、共有ディスク
装置の交換を支援することができる。

【図面の簡単な説明】

【図１】２重系システムの構成を示すブロック図であ
る。

【図２】計算機に搭載するＳＶＰボードの構成を示すブ
ロック図である。

【図３】拡張ボードバスインタフェースの行う処理の処
理手順を示したフローチャートである。

【図４】計算機に搭載するＳＶＰボードのネットワーク
制御用プロセッサの行う処理の処理手順を示したフロー
チャートである。

【図５】メッセージ記憶用メモリの記憶内容を表した図
である。

【図６】共有ディスク装置内のＭＯＳスイッチの切り替
えのパターンを示す図である。

【図７】１台の計算機が故障した場合のシステムと等価
な計算機システムの構成を示す図である。

【図８】共有ディスク装置に搭載されるＳＶＰボードの
構成を示したブロック図である。

【図９】共有ディスク装置に搭載するＳＶＰボードのネ
ットワーク制御用プロセッサの行う処理の処理手順を示
したフローチャートである。

【図１０】管理プログラムの内部構成を示した図であ
る。

【図１１】ディスクキャッシュの使用例を示した図であ
る。

【図１２】生存通知送信処理タスクの行う処理の処理手
順を示したフローチャートである。

【図１３】受信処理タスクの行う処理の処理手順を示し
たフローチャートである。

【図１４】故障処理タスクの行う処理の処理手順を示し
たフローチャートである。

【図１５】高信頼化制御ネットワークを介して送信され
るメッセージの一覧を示した図である。

【符号の説明】

１００、１０１…計算機、１０２…共有ディスク装置、
１０３…ネットワーク、１０４…高信頼化制御ネットワ
ーク、１１０…中央処理装置、１１１…主記憶装置、１
１２…入出力制御装置、１１３…ディスク装置、１１４
…ＳＣＳＩボード、１１５…計算機用ＳＶＰボード、１
１６…Ethernetボード、１３０…ＯＳ、１３１…管理プ
ログラム、１４０…ディスクドライブ、１４１…共有デ
ィスク装置用ＳＶＰボード、１５０〜１５３…ＭＯＳス
イッチ、１５４、１５５…終端抵抗、１６０、１６１…
ＳＣＳＩケーブル、１７０…拡張ボードバスインタフェ
ース、１７１、２３１…ネットワーク制御用プロセッ
サ、１７２、２３０…伝送路インタフェース、１７３…
メッセージ記憶用メモリ、１７４、２３３…電源電圧検
出回路、２３２…ＭＯＳスイッチ制御回路、２６０…生
存通知送信処理タスク、２６１…受信処理タスク、２６
２…故障処理タスク、２６３、２９１…ディスクキャッ
シュ

───────────────────────────────────────────────────── フロントページの続き (72)発明者宮崎義弘茨城県日立市大みか町五丁目２番１号株式会社日立製作所大みか工場内 (72)発明者金子茂則茨城県日立市大みか町五丁目２番１号株式会社日立製作所大みか工場内

Claims

【特許請求の範囲】

【請求項１】複数の計算機と、前記複数の計算機に共有
された共有外部記憶装置とを有し、主系に設定されてい
る計算機である主系計算機の障害時に、当該主系計算機
が行っている処理を、従系に設定されている計算機であ
る従系計算機が引き継ぐ多重系システムであって、各計算機は、当該計算機上のプロセスとは独立に動作す
る、相互に伝送路を介して接続された機能拡張ボードを
各々搭載し、前記各機能拡張ボードは、障害が生じた他の計算機に搭載された機能拡張ボードに
単発リセット要求と継続リセット要求のいづれか一方を
選択的に前記伝送路を介して送るリセット要求手段と、前記伝送路を介して他の計算機に搭載された機能拡張ボ
ードから単発リセット要求を受け取った場合に、当該機
能拡張ボードが搭載された計算機を瞬時リセットしリセ
ットを解除し、前記伝送路を介して他の計算機に搭載さ
れた機能拡張ボードから継続リセット要求を受信した場
合に継続してリセットし続けるリセット手段とを有する
ことを特徴とする多重系システム。
【請求項２】請求項１記載の多重系システムであって、前記各計算機は、当該計算機上のプロセスとして動作す
る管理手段を備え、前記各機能拡張ボードは、当該機能拡張ボードが搭載された計算機の状態を監視
し、監視している計算機の状態を他の機能拡張ボードに
前記伝送路を介して伝える手段と、他の計算機から伝えられた他の計算機の状態を、当該機
能拡張ボードが搭載された計算機の管理手段に通知する
手段とを備え、前記管理手段は、他の計算機の障害時に、機能拡張ボー
ドから通知された他の計算機の状態に応じて、単発リセ
ット要求もしくは継続リセット要求の一方を選択して機
能拡張ボードに渡し、前記機能拡張ボードのリセット要求手段は、前記管理手
段から渡された単発リセット要求もしくは継続リセット
要求を障害が生じた他の計算機に搭載された機能拡張ボ
ードに送ることを特徴とする多重系計算機。
【請求項３】複数の計算機と、前記複数の計算機に共有
された共有ディスク装置とを有し、主系に設定されてい
る計算機である主系計算機の障害時に、当該主系計算機
が行っている処理を、従系に設定されている計算機であ
る従系計算機が引き継ぐ多重系システムであって、各計算機は、前記共有ディスク装置用のディスクキャッ
シュを各々有し、前記従系計算機は、主系計算機が行っている処理を引き
継ぐ際に当該引き継ぎに先だって、ディスクキャッシュ
の内容を無効化する処理を行う無効化手段を有すること
を特徴とする多重系システム。
【請求項４】請求項３記載の多重系システムであって、前記無効化手段は、前記共有ディスク装置の論理的接続
を一旦解除(アンマウント)することによりディスクキャ
ッシュの内容を無効化することを特徴とする多重系シス
テム。
【請求項５】複数の計算機と、前記複数の計算機に共有
された共有ディスク装置とを有し、主系に設定されてい
る計算機である主系計算機の障害時に、当該主系計算機
が行っている処理を、従系に設定されている計算機であ
る従系計算機が引き継ぐ多重系システムであって、前記共有ディスク装置は、共有ディスク装置の状態を監
視し、監視している共有ディスク装置の状態を前記計算
機に伝える手段と、計算機から受け取った指示に応じて、共有ディスク装置
と前記各計算機との間の電気的接続を解除する手段とを
有することを特徴とする多重系システム。
【請求項６】複数の計算機と、前記複数の計算機に共有
された共有ディスク装置とを有し、主系に設定されてい
る計算機である主系計算機の障害時に、当該主系計算機
が行っている処理を、従系に設定されている計算機であ
る従系計算機が引き継ぐ多重系システムであって、前記各計算機は、他の計算機の障害を検出した際に、当
該他の計算機との間の電気的接続を解除するよう前記共
有ディスク装置に指示する手段を備え、前記共有ディスク装置は、各計算機との間の電気的接続
の各々を解除すスイッチと、前記計算機からの指示に応じて、前記スイッチを制御
し、障害が生じた計算機との間の電気的接続を解除する
制御手段とを有することを特徴とする多重系システム。
【請求項７】第１の計算機と第２の計算機と、前記第１
の計算機と第２の計算機とに共有された共有ディスク装
置とを有し、第１の計算機と第２の計算機との内、主系
に設定されている計算機である主系計算機の障害時に、
当該主系計算機が行っている処理を、他方の従系に設定
されている計算機である従系計算機が引き継ぐ多重系シ
ステムであって、前記第１の計算機と共有ディスク装置と第２の計算機と
は、前記第１の計算機、共有ディスク装置、第２の計算
機の順序でバス形式の伝送路によってディジーチェイン
接続されており、前記第１の計算機および第２の計算機は、他方の計算機
の障害を検出した際に、当該他方の計算機との間の電気
的接続を解除するよう前記共有ディスク装置に指示する
手段を備え、前記共有ディスク装置は、第１の計算機との間の伝送路を電気的に切り離す第１の
スイッチと、第２の計算機との間の伝送路を電気的に切り離す第２の
スイッチと、前記伝送路を終端するための終端抵抗と、前記終端抵抗を第１の各計算機との間の伝送路に代えて
接続するための第３のスイッチと、前記終端抵抗を第２の各計算機との間の伝送路に代えて
接続するための第４のスイッチと前記第１の計算機もし
くは第２の計算機からの指示に応じて、前記第１のスイ
ッチもしくは第２のスイッチを制御して前記障害が生じ
た計算機との間の伝送路を電気的に切り離すと共に、前
記第３のスイッチもしくは第４のスイッチを制御して切
り離した伝送路に代えて前記終端抵抗との間の電気的接
続を確立することを特徴とする多重系システム。
【請求項８】第１の計算機計算機と、第２の計算機と、
前記第１の計算機および第２の計算機に共有された共有
外部記憶装置とを有し、当該主系に設定されている計算
機の障害時に、当該計算機が行っている処理を、従系に
設定されている計算機が引き継ぐ多重系システムにおい
て、主系に設定した第１の計算機上で前記共有外部記憶装置
をファイルシステムに組み込んだオペレーティングシス
テムと、前記共有外部記憶装置を用いながら業務処理を
行うアプリケーションとを実行し、従系に設定した第２
の計算機において、前記共有外部記憶装置をファイルシ
ステムに組み込んだオペレーティングシステムと第１の
計算機の状態を監視する管理プログラムとを実行すると
共に、前記共有外部記憶装置を用いながら業務処理を行
うアプリケーションをロードした状態で保持し、第２の計算機の管理プログラムが第１の計算機に障害を
検出した場合に、前記管理プログラムに規定された処理
によって、第１計算機をリセットして第１計算機を従系
の計算機とすると共に、第２の計算機を主系の計算機と
し、第２の計算機において前記ロードしているアプリケ
ーションを起動し実行することを特徴とする多重系シス
テムの運用方法。