JP2002259155A

JP2002259155A - 多重系計算機システム

Info

Publication number: JP2002259155A
Application number: JP2001050484A
Authority: JP
Inventors: Tetsuaki Nakamigawa; 哲明中三川; Masahiko Saito; 雅彦齊藤; Takanori Yokoyama; 孝典横山; Hiroshi Ono; 大野　　洋
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2001-02-26
Filing date: 2001-02-26
Publication date: 2002-09-13
Also published as: US20020120884A1

Abstract

(57)【要約】【課題】従来のホットスタンバイ型システムは、ハート
ビートが途絶えることで障害検出を行っていたため、障
害検出時間を短縮するには限界があった。【解決手段】複数のオペレーティングシステムを切り替
えながら動作する計算機を複数設けて多重化した計算機
システムで、各計算機１０，１１はＯＳ切り替えプログ
ラムの下で複数のＯＳを有し、アプリケーションＯＳ５
１０のソフトウェア障害を監視ＯＳ５２０によって監視
し、障害発生時には系間監視タスク５２２から専用の通
信手段を介して、直ちに他系に通知する。ハートビート
が途絶えることを待たずに障害検出が行えるので、引き
継ぎ時間の短縮が図れる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は複数のオペレーティ
ングシステム（以下、ＯＳ）を切り替えながら動作する
計算機を複数設けて多重化した計算機システムに関し、
特に夫々の計算機における障害検出手段に複数のＯＳ間
の監視機能を利用する計算機システムに関する。

【０００２】

【従来の技術】一般に、高い信頼性が要求される計算機
業務では、計算機を複数設け、一つの計算機に障害が発
生しても業務の停止を防ぐ多重系システムが用いられて
きた。多重系システムには、要求される引き継ぎ時間、
即ち一つの計算機で障害が発生してから予備の計算機で
業務を再開するまでの時間によって、ホットスタンバイ
型やフォールトトレラント型が使い分けられている。

【０００３】特に近年では、価格の安いＰＣ（パーソナ
ルコンピュータ）を用いて多重系システムを構成する場
合もあり、ホットスタンバイ型では特開平１０−２０７
８５５号に例が見られる。この例では、主系（稼動系）
が定期的に生存通知信号を監視用のネットワークに送信
し、従系（待機系）がそれを受信している間は主系が正
常動作しているとし、生存通知信号が途絶えた場合には
主系に障害が発生したとして従系が処理を引き継ぐ方式
が開示されている。

【０００４】1台の計算機において発生する障害は、ハ
ードウェア障害とソフトウェア障害に分けられ、何れの
場合にも処理の引き継ぎが行われる。ハードウェア障害
は、ディスクドライブや冷却ファン等の可動部品を持つ
もの、電源のような大電流を扱うものなどで発生する確
率が高いが、これらの多重化は比較的容易なため、最近
ではサーバ向けＰＣなどにも採用され、ハードウェア障
害によるシステムダウンの確率は低くなってきている。

【０００５】それに対し、ソフトウェア障害の大半は、
ソフトウェアのバグに起因するもので、近年の大規模な
システムでは全てのバグを取り除くことは不可能に近
い。その中でもＯＳ内のバグは、複雑な条件が絡んだと
きに発生する場合が多いので、なかなか顕在化せず、発
生した場合にはその計算機が全く応答しなくなるなど、
深刻な障害となる確率が高い。

【０００６】ホットスタンバイ型の多重系システムは引
き継ぎ時間の制約が比較的緩やかな場合に適用され、引
き継ぎ時間の制約が厳しい用途には多重化した計算機を
ハードウェアで切り替えるフォールトトレラント型のシ
ステムが適用されてきたが、フォールトトレラント型は
多重化した計算機を同期して動作させるための特殊なハ
ードウェアを必要とし、高価なものであった。

【０００７】なお、引き継ぎ時間は、主系に障害が発生
したことを従系が認知するまでの障害検出時間と、従系
が主系として実際に処理を開始するための立ち上げ時間
に分けられる。

【０００８】

【発明が解決しようとする課題】従来技術によるホット
スタンバイ型のシステムにおいて、障害検出時間が短く
できない要因について述べる。主系は監視のためのタス
クを定期的に起動することで、生存通知信号を送信する
ことが一般的である。このため、ＯＳは正常に動作して
いて、アプリケーションプログラムのみにソフトウェア
障害が発生した場合には監視タスクの起動が可能であ
り、障害を従系に通知することも可能である。しかし、
ＯＳ自体にソフトウェア障害が発生した場合には監視タ
スクの起動もできず、従系は生存通知信号が途絶えるこ
とによってしか主系の障害発生を検知できない。

【０００９】さらに、アプリケーションＯＳは、主系の
業務処理負荷が一時的に増えた時などに、生存通知信号
の送信起動が間に合わない場合が生じ得る。このような
障害とはいえない場合にも、引き継ぎ処理が開始されて
しまうことを防ぐためにも、一定の回数連続して生存通
知信号が途絶えた場合に初めて主系に障害が発生したと
判断している。

【００１０】本発明の目的は、従来技術の問題点に鑑
み、フォールトトレラント型システムのような特殊なハ
ードウェア無しに、障害検出時間をより短縮したホット
スタンバイ型の多重系計算機システムを提供することに
ある。

【００１１】

【課題を解決するための手段】上記目的を達成するため
に、本発明は、複数の計算機と、前記複数の計算機間で
通信を行うための通信手段を有し、ある業務が主系と従
系に設定されていて、主系の計算機の障害時に従系の計
算機が主系となって前記業務を引き継ぐ多重系計算機シ
ステムであって、各計算機は、複数のオペレーティング
システムと、その少なくとも一つのオペレーティングシ
ステムで実行され、他のオペレーティングシステムに障
害が発生しているか否かを監視する監視タスクを記憶し
た主記憶装置と、前記複数のオペレーティングシステム
を実行するプロセッサを有し、前記主系の計算機は前記
従系の計算機に、前記監視タスクにおいて監視された障
害の有無を、前記通信手段により報告することを特徴と
する。

【００１２】すなわち、ＯＳ切り替えプログラムを用い
て一つの計算機内で複数のＯＳを同時に実行させ、業務
を実行するアプリケーションＯＳの動作状態を別の監視
用のＯＳ上で実行される監視タスクが定期的に監視す
る。監視ＯＳは生存通知信号を監視用ネットワークに送
信すると共に、アプリケーションＯＳがソフトウェア障
害などによりハングアップした場合に、主系で障害が発
生したことを従系に通知する。

【００１３】あるいは、前記複数のオペレーティングシ
ステムが一つのホストオペレーティングシステムとその
上で実行される一つ以上の仮想オペレーティングシステ
ムからなり、仮想オペレーティングシステムに障害が発
生しているか否かを監視するタスクを前記ホストオペレ
ーティングシステムで実行する。

【００１４】また、監視ＯＳにリアルタイムＯＳ即ち、
機器制御などにも使われる応答速度に優れたＯＳを使用
することにより、生存通知信号の送信起動の遅延を防
ぐ。なお、アプリケーションＯＳは一般的に、非リアル
タイムＯＳであり、決められた時間間隔内に決められた
タスクを行う保証は無い。

【００１５】このように、アプリケーションＯＳにおけ
るソフトウェア障害を監視ＯＳが直ちに従系に通知する
ことができるので、従来に比べて引き継ぎ時間を短縮す
ることが可能になる。また、生存通知信号の送信起動の
遅延を防ぐことができるため、従来のように複数回、生
存通知信号が途絶えるのを待つ必要が無くなり、引き継
ぎ時間を短縮することが可能になる。

【００１６】

【発明の実施の形態】以下、本発明に係わる実施の形態
を図面を用いて説明する。第一の実施例は図１から図
8、第二の実施例は図９から図１３、第三の実施例は図
１４、第四の実施例は図１５を用いて説明する。

【００１７】図1に第一の実施例の全体構成を示す。本
実施例はホットスタンバイ型多重系システムの最も単純
な構成で、2台の計算機１０，１１による１：１バック
アップ構成の場合である。計算機１０は、複数のＯＳを
実行するためのプロセッサ１００、主記憶装置１０１、
Ｉ／Ｏ制御装置１０２及びこれらを接続するプロセッサ
バス１０３からなる。Ｉ／Ｏ制御装置１０２には、通信
アダプタ１０５及び１０６、ディスク制御アダプタ１０
７が、拡張ボードバス１０４を介して接続されている。
Ｉ／Ｏ制御装置１０２からプロセッサ１００には割り込
み信号線１０２１が接続されている。

【００１８】プロセッサ１００には指定された時間間隔
でタイマ割り込みを発生させるタイマ装置１００１が含
まれる。主記憶装置１０１はアプリケーションＯＳ５１
０と、自系が主系として動作するか、従系として待機す
るかを決定する構成制御タスク５１１、その上で実行さ
れるアプリケーションタスク５１２、アプリケーション
ＯＳが正常に動作していることを監視ＯＳに通知する生
存通知タスク５１３、監視ＯＳ５２０とその上で実行さ
れるアプリケーションＯＳ監視タスク５２１と他系計算
機の動作状態を監視する系間監視タスク５２２、２つの
ＯＳ５１０と５２０の実行を切り替えるＯＳ切り替えプ
ログラム５００を含む。計算機１１の内部構成は計算機
１０と同様であるため説明は省略する。

【００１９】２台の計算機１０及び１１は、アプリケー
ション用ネットワーク２０にそれぞれの通信アダプタ１
０５及び１１５を介して、監視用ネットワーク２１にそ
れぞれの通信アダプタ１０６及び１１６を介して接続さ
れている。また、２台の計算機１０及び１１は共有ディ
スク装置３０にそれぞれのディスク制御アダプタ１０７
及び１１７を介して接続され、２つの計算機がディスク
上のデータを共有できる。

【００２０】１台の計算機上で複数ＯＳを共存させる方
法は、大型計算機における仮想計算機（Ｖｉｒｔｕａｌ
Ｍａｃｈｉｎｅ）方式、一つのホストＯＳの管理下で
別のＯＳを実行するエミュレーション方式等が知られて
いる。本実施例では複数のＯＳの外部に、割り込みを振
り分けるためのＯＳ切り替えプログラムを持った方式に
より、複数のＯＳを共存させる。この複数ＯＳの共存方
式については特開平１１−１４９３８５号に記載のよう
に、先ず、計算機の初期化時に複数のＯＳが管理するハ
ードウェア資源を分割し、実行時にはタイマ装置やＩ／
Ｏ制御装置からの割り込みを契機に複数のＯＳの実行を
切り替えるものである。

【００２１】本実施例においては、監視ＯＳ５２０はリ
アルタイムＯＳであり、割り込み応答が一定時間内に行
われることが保証されるものとする。また、ＯＳ切り替
えプログラム５００はアプリケーションＯＳ５１０の実
行よりも監視ＯＳ５２０の実行を優先することとし、ア
プリケーションＯＳ５１０と監視ＯＳ５２０への割り込
みが同時に発生した場合は、監視ＯＳ５２０への割り込
みを優先的に実行する。

【００２２】図２は、２つのＯＳによるハードウェア資
源の分割を概念的に表したものである。アプリケーショ
ンＯＳ５１０は独自のハードウェア資源として仮想メモ
リ空間２０１０、ディスク制御アダプタ１０７、通信ア
ダプタ１０５を持ち、監視ＯＳ５２０は独自のハードウ
ェア資源として仮想メモリ空間２０１１、通信アダプタ
１０６を持つ。また、両方のＯＳで共通の資源として、
共通メモリ空間２０１２、タイマ装置１００１、Ｉ／Ｏ
制御装置１０２を持つ。

【００２３】図３に、主記憶装置１０１のメモリマップ
の概略を示す。アプリケーションＯＳ５１０の仮想メモ
リ空間２０１０は実メモリとして領域１０１０が、監視
ＯＳ５２０の仮想メモリ空間２０１１は実メモリとして
領域１０１１が、共通メモリ空間２０１２は実メモリと
して領域１０１２が、それぞれ割り当てられる。

【００２４】図４は共通メモリ空間２０１２内に確保さ
れた、システム状態を規定するための変数領域である。
システム状態（SystemStatus）２１００は自系計算機が
主系であるか、従系であるか、アプリケーションが停止
しているか、などのシステム状態を示す。自系状態（Ow
nStatus）２１０１はアプリケーションＯＳ、監視Ｏ
Ｓ、ハードウェアそれぞれの正常／異常など自系計算機
の動作状態を示す。他系状態（OtherStatus）２１０２
は他系計算機の動作状態を示す。

【００２５】ウオッチドグタイマＡ（WatchDogTimerA）
２１０３はアプリケーションＯＳの動作を監視するため
に使われ、タイマカウント値を保持する。ウオッチドグ
タイマＨＢ（WatchDogTimerHB）２１０４は他系からの
通信処理の動作を監視するために使われ、タイマカウン
ト値を保持する。

【００２６】SystemStatus２１００は構成制御タスク５
１１によって、OwnStatus２１０１はアプリＯＳ監視タ
スク５２１によって、OtherStatus２１０２は系間監視
タスク５２２によって、WatchDogTimerA２１０３は生存
通知タスク５１３及びアプリＯＳ監視タスク５２１によ
って、WatchDogTimerHB２１０４は系間監視タスク５２
２によって、それぞれの値が更新される。

【００２７】図５は生存通知タスク５１３の処理フロー
を示したものである。ここでは、WatchDogTimerA２１０
３をあらかじめ決められている値にリセットする（処理
７１１）。アプリケーションＯＳ５１０では、タイマ割
り込みやＩ／Ｏからの割り込みが入力されると、タスク
のスケジューリングを行って実行タスクを切り替えてい
るが、生存通知タスク５１３はタイマ割り込みが入力さ
れる度に実行されるように、優先度を設定する。これに
より、生存通知タスクは、アプリケーションＯＳ５１０
が正常に割り込み処理及びスケジューリングを行ってい
る限り、定期的に実行されることになる。

【００２８】また、この生存通知タスクの処理は、従来
の他系への通信処理に比べて負荷が軽いため、タイマ割
り込みによってスケジューラが起動される度に処理を行
ってもシステム全体の負荷を上げることにはならない。
例えば従来、通信処理を１秒間に１回行っていたもの
を、１０ミリ秒に１回生存通知タスクが実行できるよう
になり、従来に比べてアプリケーションＯＳの障害検出
時間を大幅に短くすることができる。

【００２９】図６はアプリＯＳ監視タスク５２１の処理
フローを示したものである。ここでは、WatchDogTimerA
２１０３の値を減じ（処理７２１）、その値が０未満か
どうかを判定し（処理７２２）、もし０未満になった場
合にはアプリケーションＯＳがタイムアウトしたとし
て、OwnStatus２１０１をアプリケーションＯＳ異常と
更新し（処理７２３）、直ちに系間監視タスク５２２を
起動する（処理７２４）。WatchDogTimerA２１０３の値
が０未満でない場合は、OwnStatus２１０１をアプリケ
ーションＯＳ正常と更新する（処理７２５）。

【００３０】図７は系間監視タスク５２２の処理フロー
を示したものである。先ず、このタスクの起動要因を判
定し（処理７３１）、起動要因が他系からの通信を受信
したことに起因するＩ／Ｏ制御装置からの割り込みによ
る場合は、WatchDogTimerHB２１０４をあらかじめ決め
られている値にリセットし（処理７３２）、受信された
内容から他系に障害が発生したかどうかを判定し（処理
７３３）、他系障害発生ならばOtherStatus２１０２を
アプリケーションＯＳ異常と更新し（処理７３４）、構
成制御タスク５１１に他系障害発生を通知する（処理７
３５）。他系障害発生でなければOtherStatus２１０２
をアプリケーションＯＳ正常と更新する（処理７３
６）。

【００３１】タスク５２２の起動要因がタイマ割り込み
による定期起動であれば、OwnStatus２１０１の内容を
他系に送信し（処理７４１）、WatchDogTimerHB２１０
４の値を減じ（処理７３７）、その値が０未満かどうか
を判定し（処理７３８）、もし０未満になった場合には
他系の監視ＯＳがタイムアウトしたとしてOtherStatus
２１０２を監視ＯＳ異常と更新し（処理７３９）、構成
制御タスク５１１に他系障害発生を通知する（処理７４
０）。タスクの起動要因が自系アプリＯＳ監視タスク５
２１からのアプリケーションＯＳ異常による場合は、直
ちにOwnStatus２１０１の内容を他系に送信する（処理
７４２）。

【００３２】図８は構成制御タスク５１１における、他
系異常発生時の処理フローを示したものである。ここで
は先ず、自系が主系であるかどうかを判定し（処理７５
１）、主系である場合は何もしない。自系が主系でない
場合は、自系が正常であるかどうかを判定し（処理７５
２）、正常であれば自系を主系に切り替えてアプリケー
ションの動作を引き継ぎ（処理７５３）、SystemStatus
２１００を自系が主系と更新する（処理７５４）。自系
が正常でない場合は処理を引き継げないのでシステム停
止処理を行い（処理７５５）、SystemStatus２１００を
停止と更新する（処理７５６）。

【００３３】以上の処理は、計算機１１においても同様
に行われる。これにより、アプリケーションＯＳのソフ
トウェア障害が監視ＯＳによって監視でき、障害発生時
には直ちに他系に障害を通知でき、障害検出時間の短縮
が実現できる。また、計算機１０、１１には、各ＯＳに
割り当てられた通信アダプタとネットワークからなる通
信手段を有しているので、監視ＯＳは専用の通信手段を
介して、障害の有無を直ちに報告することができる。

【００３４】次に、本発明における第二の実施例を説明
する。図９に第二の実施例の全体構成を示す。本実施例
は第一の実施例に対して、アプリケーションＯＳと監視
ＯＳが相互にソフトウェア障害を監視することに特徴が
ある。

【００３５】図9は図1の構成に対して、アプリケーショ
ンＯＳ５１０が監視ＯＳ５２０を監視するための監視Ｏ
Ｓ監視タスク５１４、アプリケーション用ネットワーク
２０を使って系間の監視を行うアプリケーション側系間
監視タスク５１５、監視ＯＳ５２０が生存していること
をアプリケーションＯＳ５１０に通知するための監視Ｏ
Ｓ生存通知タスク５２３が追加されている。その他の構
成要素は図１における計算機１０と同じである。計算機
１１に対しても同様のタスクが追加されている。

【００３６】図１０は共通メモリ空間２０１２内に確保
された、システム状態を規定するための変数領域であ
る。WatchDogTimerM２１０５は監視ＯＳの動作を監視す
るために使われ、タイマカウント値を保持する。WatchD
ogTimerHA２１０６はアプリケーションネットワーク２
０を使用した他系からの通信処理の動作を監視するため
に使われ、タイマカウント値を保持する。WatchDogTime
rM２１０５は監視ＯＳ生存通知タスク５２３及び監視Ｏ
Ｓ監視タスク５１４によって、WatchDogTimerHA２１０
６はアプリケーション側系間監視タスク５１５によっ
て、それぞれ値が更新される。その他の変数領域は図4
と同じである。

【００３７】図１１は監視ＯＳ生存通知タスク５２３の
処理フローを示したものである。ここでは、WatchDogTi
merM２１０５をあらかじめ決められている値にリセット
する（処理８１１）。監視ＯＳ５２０では、アプリケー
ションＯＳ５１０と同様にタイマ割り込みやＩ／Ｏから
の割り込みが入力されるとタスクのスケジューリングを
行って実行タスクを切り替えているが、このタスク５２
３はタイマ割り込みが入力される度に実行されるように
優先度を設定する。これにより、ＯＳ生存通知タスク５
２３は、監視ＯＳ５２０が正常に割り込み処理及びスケ
ジューリングを行っている限り、定期的に実行されるこ
とになる。

【００３８】図１２は監視ＯＳ監視タスク５１４の処理
フローを示したものである。ここでは、WatchDogTimerM
２１０５の値を減じ（処理８２１）、その値が０未満か
どうかを判定し（処理８２２）、もし０未満になった場
合には監視ＯＳがタイムアウトしたとしてOwnStatus２
１０１を監視ＯＳ異常と更新し（処理８２３）、直ちに
アプリケーション側系間監視タスク５１５を起動する
（処理８２４）。WatchDogTimerM２１０５の値が０未満
でない場合は、OwnStatus２１０１を監視ＯＳ正常と更
新する（処理８２５）。

【００３９】図１３はアプリケーション側系間監視タス
ク５１５の処理フローを示したものである。ここでは先
ず、このタスクの起動要因を判定し（処理８３１）、起
動要因が他系からの通信を受信したことに起因するＩ／
Ｏ制御装置からの割り込みによる場合は、WatchDogTime
rHA２１０６をあらかじめ決められている値にリセット
し（処理８３２）、受信された内容から他系に障害が発
生したかどうかを判定し（処理８３３）、他系障害発生
ならばOtherStatus２１０２を監視ＯＳ異常と更新し
（処理８３４）、構成制御タスク５１１に他系障害発生
を通知する（処理８３５）。他系障害発生でなければOt
herStatus２１０２を監視ＯＳ正常と更新する（処理８
３６）。

【００４０】タスクの起動要因がタイマ割り込みによる
定期起動であれば、OwnStatus２１０１の内容を他系に
送信し（処理８４１）、WatchDogTimerHA２１０６の値
を減じ（処理８３７）、その値が０未満かどうかを判定
し（処理８３８）、もし０未満になった場合には他系の
アプリケーションＯＳがタイムアウトしたとして、Othe
rStatus２１０２をアプリケーションＯＳ異常と更新し
（処理８３９）、構成制御タスク５１１に他系障害発生
を通知する（処理８４０）。タスクの起動要因が自系監
視ＯＳ監視タスク５１４からの監視ＯＳ異常による場合
は直ちにOwnStatus２１０１の内容を他系に送信する
（処理８４２）。

【００４１】以上の処理は、計算機１１においても同様
に行われる。これにより、監視ＯＳのソフトウェア障害
もアプリケーションＯＳによって監視でき、また、系間
監視のためのネットワークが二つ存在し、それぞれが異
なるＯＳの管理下に有るため、システムの信頼性が更に
向上する。

【００４２】次に、本発明における第三の実施例を説明
する。図１４に第三の実施例の全体構成を示す。本実施
例は第一の実施例に対して、複数のＯＳを共存させる方
式が異なる。計算機１０において、ゲストＯＳ５６０
は、ホストＯＳ５５０が管理する仮想プラットフォーム
上で動作する。このような方式は一般にエミュレーショ
ンと呼ばれる。

【００４３】ゲストＯＳ５６０上では、構成制御タスク
５１１、その上で実行されるアプリケーションタスク５
１２、ゲストＯＳが正常に動作していることをホストＯ
Ｓに通知する生存通知タスク５１３が実行される。ホス
トＯＳ５５０上では、ゲストＯＳ監視タスク５２１と他
系計算機の動作状態を監視する系間監視タスク５２２が
実行される。それぞれのタスクの動作は第一の実施例と
同じである。計算機１１においても同様の処理が行われ
る。

【００４４】これにより、複数のＯＳを共存させる方式
が異なっても第一の実施例と同様に、アプリケーション
ＯＳとしてのゲストＯＳのソフトウェア障害がホストＯ
Ｓによって監視でき、障害発生時には直ちに他系に障害
を通知でき、障害検出時間の短縮が実現できる。ただ
し、ホストＯＳの動作にかかるので、第一の実施例より
信頼性は低下する。

【００４５】次に、本発明における第四の実施例を説明
する。図１５に第四の実施例の全体構成を示す。本実施
例は第三の実施例に対してゲストＯＳを複数共存させて
いる。第一のゲストＯＳ５６０及び第二のゲストＯＳ５
７０は、ホストＯＳ５５０が管理する仮想プラットフォ
ーム上で動作する。第一のゲストＯＳ５６０上では、第
一のアプリケーションタスク５１２、第二のゲストＯＳ
５７０上では、第二のアプリケーションタスク５７２が
実行される。ホストＯＳ５５０上では二つのゲストＯＳ
を監視する監視タスク５２１が実行される。それ以外の
タスクは第三の実施例と同じである。これにより、１台
の計算機上にアプリケーションごとに適したＯＳを複数
載せたマルチＯＳ環境で、多重化による高信頼化が実現
できる。

【００４６】なお、監視用ネットワークの通信アダプタ
に、マイクロプロセッサ等を使用した自律的通信機能
と、通信アダプタ上のメモリ領域に本発明における共通
メモリ領域と同様のWatchDogTimer機能を持たせ、ＯＳ
の生存監視を行えば、上記した本発明と同様に障害検出
時間の短縮が可能になるが、本発明の方式によればこの
ような特別なハードウェアを用いる必要がない。

【００４７】

【発明の効果】本発明によれば、従来、他系によって検
出していたアプリケーションＯＳにおけるソフトウェア
障害の発生を、自系の監視ＯＳによって検出して直ちに
他系に通知することができ、引き継ぎを高速にできる効
果がある。また、本発明によれば、特別なハードウェア
を用いることなく、安価なノンインテリジェントの通信
アダプタを使っても引き継ぎを高速にする効果がある。

【図面の簡単な説明】

【図１】第一の実施例の全体構成を示す構成図。

【図２】２つのＯＳによるハードウェア資源の分割を示
す説明図。

【図３】主記憶装置のメモリマップの概略を示す説明
図。

【図４】システム状態を規定するための変数領域を示す
説明図。

【図５】生存通知タスクの処理手順を示すフローチャー
ト。

【図６】アプリＯＳ監視タスクの処理手順を示すフロー
チャート。

【図７】系間監視タスクの処理手順を示すフローチャー
ト。

【図８】構成制御タスクにおける、他系異常発生時の処
理手順を示すフローチャート。

【図９】第二の実施例の全体構成を示す構成図。

【図１０】第二の実施例で、システム状態を規定するた
めの変数領域を示す説明図。

【図１１】監視ＯＳ生存通知タスクの処理手順を示すフ
ローチャート。

【図１２】監視ＯＳ監視タスクの処理手順を示すフロー
チャート。

【図１３】アプリケーション側系間監視タスクの処理手
順を示すフローチャート。

【図１４】第三の実施例の全体構成を示す構成図。

【図１５】第四の実施例の全体構成を示す構成図。

【符号の説明】

１０，１１…計算機、１００…プロセッサ、１０１…主
記憶装置、１０２…Ｉ／Ｏ制御装置、１０３…プロセッ
サバス、１０４…拡張ボードバス、１０５，１０６…通
信アダプタ、１０７…ディスク制御アダプタ、１０２１
…割り込み信号線、１００１…タイマ装置、２０…アプ
リケーション用ネットワーク、２１…監視用ネットワー
ク、３０…共有ディスク装置、５００…ＯＳ切り替えプ
ログラム、５１０…アプリケーションＯＳ、５２０…監
視ＯＳ、５１１…構成制御タスク、５１２…アプリケー
ションタスク、５１３…生存通知タスク、５２１…アプ
リケーションＯＳ監視タスク、５２２…系間監視タス
ク。

───────────────────────────────────────────────────── フロントページの続き (72)発明者横山孝典茨城県日立市大みか町七丁目１番１号株式会社日立製作所日立研究所内 (72)発明者大野洋茨城県日立市大みか町五丁目２番１号株式会社日立製作所情報制御システム事業部内Ｆターム(参考） 5B034 BB02 CC01 DD02 5B045 JJ04 JJ44 5B098 AA10 GA02 GA04 GC01 HH01 JJ08

Claims

【特許請求の範囲】

【請求項１】複数の計算機と、前記複数の計算機間で
通信を行うための通信手段を有し、ある業務が主系と従
系に設定されていて、主系の計算機の障害時に従系の計
算機が主系となって前記業務を引き継ぐ多重系計算機シ
ステムであって、各計算機は、複数のオペレーティングシステムと、その
少なくとも一つのオペレーティングシステムで実行さ
れ、他のオペレーティングシステムに障害が発生してい
るか否かを監視する監視タスクを記憶した主記憶装置
と、前記複数のオペレーティングシステムを実行するプ
ロセッサを有し、前記主系の計算機は前記従系の計算機に、前記監視タス
クにおいて監視された障害の有無を、前記通信手段によ
り報告することを特徴とする多重系計算機システム。
【請求項２】請求項１において、前記複数のオペレーティングシステムは、非リアルタイ
ムオペレーティングシステムとリアルタイムオペレーテ
ィングシステムからなり、前記非リアルタイムオペレー
ティングシステムに障害が発生しているか否かを監視す
る前記監視タスクを前記リアルタイムオペレーティング
システムで実行することを特徴とする多重系計算機シス
テム。
【請求項３】請求項１において、各計算機は、前記複数のオペレーティングシステム間で
他のオペレーティングシステムに障害が発生しているか
否かを互いに監視する監視タスクを実行することを特徴
とする多重系計算機システム。
【請求項４】請求項１、２または３において、各計算機は、計算機間で通信を行うための前記通信手段
を複数有し、前記複数のオペレーティングシステムが各
々のオペレーティングシステムだけで使用可能な通信手
段を設定され、前記主系の計算機は前記従系の計算機に、前記監視タス
クにおいて監視された障害の有無を、各々のオペレーテ
ィングシステムだけで使用可能な通信手段により報告す
ることを特徴とする多重系計算機システム。
【請求項５】請求項１において、各計算機は、前記複数のオペレーティングシステムが単
独で使用できるハードウェアと共通して使用できるハー
ドウェアを有していることを特徴とする多重系計算機シ
ステム。
【請求項６】請求項１において、前記主記憶装置は、前記複数のオペレーティングシステ
ムの実行を切り替えるためのオペレーティングシステム
切替プログラムを記憶し、該オペレーティングシステム
切替プログラムは前記プロセッサへの割り込み入力を契
機に前記複数のオペレーティングシステムの実行を切り
替えることを特徴とする多重系計算機システム。
【請求項７】請求項１において、前記複数のオペレーティングシステムは、一つのホスト
オペレーティングシステムと前記ホストオペレーティン
グシステム上で実行される一つ以上の仮想オペレーティ
ングシステムからなり、仮想オペレーティングシステム
に障害が発生しているか否かを監視するタスクを前記ホ
ストオペレーティングシステムで実行することを特徴と
する多重系計算機システム。