JPH10214199A

JPH10214199A - プロセスリスタート方法およびプロセスリスタートを実現するためのシステム

Info

Publication number: JPH10214199A
Application number: JP9018350A
Authority: JP
Inventors: Toshio Shirokibara; 敏雄白木原; Hideaki Hirayama; 秀昭平山; Kiyoko Satou; 記代子佐藤; Tatsunori Kanai; 達徳金井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-01-31
Filing date: 1997-01-31
Publication date: 1998-08-11
Anticipated expiration: 2017-01-31
Also published as: JP3253883B2; US6026499A

Abstract

(57)【要約】【課題】分散チェックポイント／リスタート方式により
高信頼化したクライアント・サーバシステム上で、１台
のクライアント計算機に障害が発生した場合でも、当該
システム全体に影響を及ぼすことを防止する。【解決手段】コンピュータシステムの稼働中に障害が発
生した場合に、当該障害が発生した計算機がサーバ計算
機であるかクライアント計算機であるかを判断し、サー
バ計算機であると判断した場合には、システム全体のロ
ールバック／リスタートを実行し、クライアント計算機
であると判断した場合には、当該ロールバック／リスタ
ートを実行することなく、次の指示があるまで待機させ
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、計算機のリスター
ト方法及び計算機のリスタートシステムに関するもので
あり、特に、クライアント／サーバコンピュータシステ
ムにおいて、チェックポイントに従ったプロセス状態の
取得を行う場合の計算機のリスタート方法及びシステム
に関する。

【０００２】

【従来の技術】従来から、計算機におけるプログラム実
行の信頼性を向上させる方法として、チェックポイント
に従ったプログラムの実行方法が知られている。これ
は、プログラムの実行に際し、所定のチェックポイント
・タイミングに従ってプログラムの実行体であるプロセ
スの状態を定期・不定期に取得し、プログラムの実行中
に障害が発生した場合には、直近のチェックポイントに
取得したおけるプロセスの状態から当該プログラムを再
実行するという方法である。ここで、チェックポイント
とは、プログラムの実行を経時的に見た場合に、プロセ
スの状態を取得するための処理を行う時点をいうものと
し、チェックポイント・タイミングとは、あるチェック
ポイントから次のチェックポイントまでの範囲をいうも
のとする。

【０００３】ところで、単独で動作するプログラムにお
いては、そのプロセスの途中状態のみのチェックポイン
トで、プロセスの状態を取得すればよいが、複数のプロ
グラムがプロセス間通信等の関係をもって動作するよう
な場合においては、１つのプロセスについて、チェック
ポイントに従って当該プロセスの状態を取得するのみで
は不十分である。すなわち、再実行した場合に矛盾が生
じないようにするためには、チェックポイントごとに相
互に関係がある複数のプロセスの状態を取得する必要が
ある。以下では、便宜上、各プロセスごとについてのチ
ェックポイントをローカルチェックポインといい、相互
に関係があるプロセスについてのローカルチェックポイ
ントの集合を分散チェックポイントというものとする。

【０００４】また、あるプロセスやそのプロセスが動作
している計算機に障害が発生した場合に、複数のプロセ
スが直近のチェックポイントにまで戻って再実行（リス
タート）を行う必要がある。これは、一般的にロールバ
ックと呼ばれる。このように、チェックポイント／リス
タートを分散システムに適用した場合を、分散チェック
ポイント／リスタート方式と呼ぶこととする。

【０００５】従来の分散チェックポイントに基づくプロ
セス状態の取得を行なう方法として、以下の２種類に大
別することができる。（１）同期型分散チェックポイントに基づくプロセス状
態の取得（２）非同期型分散チェックポイントに基づくプロセス
状態の取得図１（ａ）は、同期型分散チェックポイント方式の例を
示す図である。同図は、３つのプロセスＰ１，Ｐ２，Ｐ
３がそれぞれメッセージ送受信を行ないながら処理を進
めている場合の分散チェックポイントＣＨ１を示してい
る。

【０００６】同期型チェックポイントに従ったプロセス
の状態の取得方法（同期型分散チェックポイント方式）
として、"K.M. Chandy and L. Lamport: Distributed S
napshots:Determining Global States of Distributed
Systems, ACM Trans. Computer Syst., Vol. 3, No. 1,
pp. 63-75, Feb 1985" が知られている。この方法は、
プロセス間通信としてメッセージ送受信を対象にしてお
り、一貫性のある分散チェックポイントとは、未送信か
つ受信済みのメッセージが存在しない状態であると定義
している。より具体的には、分散チェックポイントに従
ったプロセス状態の取得時に、マーカと呼ばれるメッセ
ージを送り合うことで矛盾を引き起こすメッセージを検
出し、それらを保存することで全体として一慣性のある
状態を構築し、プロセス状態の取得を行なう。従って、
同図の分散チェックポイントＣＨ１においては、各チェ
ックポイントは、各メッセージに関して矛盾がない状態
となっている。

【０００７】また、図１（ｂ）は、非同期型分散チェッ
クポイント方式の例を示す図である。同図に示すよう
に、非同期型分散チェックポイント方式においては、各
プロセスの任意の時点でチェックポイントに基づくプロ
セス状態の取得を行う。非同期型チェックポイント方式
を実現する方法として、"R.E. Strom ans S. Yemini: O
ptimistic Recovery in Distributed Systems, ACM Tra
ns. Computer Syst., Vol. 3, No. 3, pp.204-228, 198
5"が知られている。これは、プロセスＰ２に障害が発生
した場合、プロセスＰ２は、チェックポイントＣＨｂま
でロールバックする。プロセスＰ２ではメッセージｍ
５、ｍ６が再現される必要があるため、プロセスＰ１，
Ｐ２もそれぞれ、チェックポイントＣＨａ，ＣＨｃまで
ロールバックする。するとプロセスＰ３は、メッセージ
ｍ４が再現される必要があるため、プロセスＰ２はさら
にチェックポイントＣｈｂ以前のチェックポイントまで
ロールバックする必要がある。このように各プロセスが
連鎖的にロールバックする状態をカスケードロールバッ
クと呼ぶ。非同期型チェックポイント方式では、このカ
スケードロールバックを防ぐために各プロセス毎に受信
したメッセージを保存するメッセージロギングと呼ばれ
る方法をとる。

【０００８】すなわち、同図において、黒三角で示した
ものが保存が完了した受信メッセージであり、△で示し
たものが、まだ保存していないメッセージである。同図
において、プロセスＰ２に障害が発生した場合、プロセ
スＰ２は、チェックポイントＣＨｂからリスタートし、
メッセージｍ５は保存されているため、メッセージｍ６
を受信する前の状態まで再実行できるが、メッセージｍ
６の内容は失われているため、プロセスＰ３もチェック
ポイントＣＨｃから再実行され、保存したｍ４を元に受
信を再実行し、ｍ６を送信する。プロセスｐ１に関して
はロールバックすることなく実行を継続する。ここで、
各プロセスはリスタート後の受信処理を保存したメッセ
ージを元に行なうため、各プロセスの動作が決定的（何
度も同じ処理を行なっても再現性がある）でなけらばな
らない。なぜなら、プロセスの動作が非決定的な場合、
保存している受信メッセージとは異なるメッセージが送
信側プロセスで生成される可能性があるためである。

【０００９】以上述べたように、分散チェックポイント
方式によれば、ある1 つのプロセスまたは計算機に障害
が発生した場合、相互に関係がある他のプロセスも含め
てロールバック／リスタートが起こる。

【００１０】

【発明が解決しようとする課題】図２は、一般的な分散
システムのモデルであるクライアント・サーバモデルに
よるシステムの概念的構成を示す図である。同図は、図
１で示した３つのプロセスＡ、Ｂ、Ｃがそれぞれクライ
アント計算機Ｃ１、クライアント計算機Ｃ２、サーバ計
算機Ｓ上で動作している様子を示している。通常、クラ
イアント・サーバシステムにおいては、クライアント計
算機Ｃ１，Ｃ２は、ユーザが直接使用する端末であり、
複数のクライアント計算機のクライアントプロセスがサ
ーバ計算機Ｓ上のサーバプロセスに処理を要求し、サー
バプロセスは要求された処理を行って、処理結果をクラ
イアントプロセスに返し、クライアントプロセスは、サ
ーバから受けた結果を画面に表示してユーザに通知す
る。

【００１１】図３は、分散チェックポイント／リスター
ト方式を説明するための概念図である。すなわち、同図
（ａ）は分散同期型チェックポイント方式、同図（ｂ）
は分散非同期チェックポイント方式において、Ｆ１時点
でクライアント計算機Ｃ１に障害が発生した場合を示し
ている。両方式によれば、プロセスＡの障害が発生した
ことに伴って、プロセスＢ，Ｃも最も直近のチェックポ
イントからリスタートすることになる。

【００１２】一般的にサーバ計算機に比べてクライアン
ト計算機の方が信頼性が低いため、マシンダウン等が起
きやすい。従来の分散チェックポイント／リスタート方
式によれば、上述したように、１台のクライアント計算
機に障害が発生した場合に、他のクライアント計算機や
サーバ計算機を含めてシステム全体がロールバックして
しまうという問題点があった。このような問題は、１台
のサーバ計算機と数百台のクライアント計算機からなる
クライアント・サーバシステムの場合においてはさらに
深刻な問題である。すなわち、ある一人が使用している
クライアント計算機が故障した場合、全てのユーザのク
ライアント計算機上のプロセスがロールバックしてしま
う可能性がある。

【００１３】本発明は、これらの問題点を鑑みてなされ
たもので、ある１台のクライアント計算機の障害がサー
バ計算機及び他のクライアント計算機に影響しないよう
にした分散チェックポイントにおけるプロセスリスター
ト方法およびシステムを提供することを目的とする。

【００１４】

【課題を解決するための手段】本発明に係る発明は、上
記課題を解決するために以下の手段を有する。すなわ
ち、請求項１に係る発明は、複数の計算機によって構成
されるクライアント／サーバ型システムで用いられるプ
ロセスリスタート方法であって、前記複数の計算機の各
々が所定のプロセスを実行している際に前記いずれかの
計算機において障害が発生した場合に、該障害が発生し
た計算機がサーバ計算機であるか否かを判断し、該サー
バ計算機であると判断した場合に、該サーバ計算機をリ
スタートさせることを特徴とするプロセスリスタート方
法である。

【００１５】本発明によれば、障害が発生した計算機が
サーバ計算機の場合にのみリスタートが行われるので、
障害が発生した計算機がクライアント計算機である場合
にはリスタートが行われず、他のクライアント計算機の
実行に影響を与えることのないプロセスリスタート方法
を提供することができるようになる。

【００１６】請求項２に係る発明は、前記サーバ計算機
をリスタートするに際し、前記サーバ計算機に関係する
クライアント計算機をリスタートさせることを特徴とす
る。また、請求項３に係る発明は、分散チェックポイン
トごとにプロセス実行に関する情報（プロセス状態）を
取得しておき、ロールバック／リスタートの際には、そ
の情報に基づいて直近のチェックポイントからリスター
トさせる場合のものであり、具体的には、複数の計算機
によって構成されるクライアント／サーバ型システムで
用いられるプロセスリスタート方法であって、前記複数
の計算機の各々が所定のプロセスを実行している際に、
所定のチェックポイントごとに該所定のプロセスについ
てのプロセス実行に関する情報を取得し、該実行してい
る際に前記いずれかの計算機において障害が発生した場
合に、該障害が発生した計算機がサーバ計算機であるか
否かを判断し、該サーバ計算機であると判断した場合
に、前記サーバ計算機で実行していたサーバプロセス
を、前記プロセス実行に関する情報に基づいて、前記所
定のチェックポイントからリスタートさせることを特徴
とするプロセスリスタート方法である。

【００１７】請求項４に係る発明は、前記サーバ計算機
で実行していたサーバプロセスをリスタートするに際
し、前記サーバ計算機に関係するクライアント計算機で
実行していたクライアントプロセスを、前記プロセス実
行に関する情報の各々に基づいて、前記各々のチェック
ポイントからリスタートさせることを特徴とする。

【００１８】また、請求項５に係る発明は、各計算機に
おいて実行しているプロセスに障害が発生した場合のリ
スタート方法であり、具体的には、複数の計算機によっ
て構成されるクライアント／サーバ型システムで用いら
れるプロセスリスタート方法であって、前記複数の計算
機の各々により実行している所定のプロセスに障害が発
生した場合に、該障害が発生したプロセスを実行してい
る計算機がサーバ計算機であるかクライアント計算機で
あるかを判断し、該クライアント計算機であると判断し
た場合に、該クライアント計算機で実行していたプロセ
スをリスタートさせることを特徴とするプロセスリスタ
ート方法である。

【００１９】請求項６に係る発明は、前記障害が発生し
たプロセスを実行していた計算機がサーバ計算機である
と判断した場合に、前記サーバ計算機および前記クライ
アント計算機で実行していたプロセスをリスタートさせ
ることを特徴とする。

【００２０】一方、請求項７に係る発明は、上記方法の
発明を物の発明の観点から把握したものであり、具体的
には、複数の計算機によって構成されるクライアント／
サーバ型システムで用いられるプロセスリスタートを実
現するためのシステムであって、前記複数の計算機の各
々が所定のプロセスを実行している際に前記いずれかの
計算機において障害が発生したか否かを検出する手段
と、この手段により障害を検出した場合に、該障害が発
生した計算機がサーバ計算機であるか否かを判断する手
段と、この手段により障害が発生した計算機がサーバ計
算機であると判断された場合に、該サーバ計算機をリス
タートさせる手段とを備えたことを特徴とするプロセス
リスタートを実現するためのシステムである。

【００２１】請求項８に係る発明においては、前記リス
タートさせる手段は、前記サーバ計算機に関係するクラ
イアント計算機をリスタートさせる手段をさらに備えた
ことを特徴とする。

【００２２】また、請求項９に係る発明は、複数の計算
機によって構成されるクライアント／サーバ型システム
で用いられるプロセスリスタートを実現するためのシス
テムであって、前記複数の計算機の各々が所定のプロセ
スを実行している際に、所定のチェックポイントごとに
該所定のプロセスについてのプロセス実行に関する情報
を取得する手段と、該所定のプロセスを実行している際
に前記いずれかの計算機において障害が発生したか否か
を検出する手段と、この手段により障害を検出した場合
に、該障害が発生した計算機がサーバ計算機であるか否
かを判断する手段と、この手段により障害が発生した計
算機がサーバ計算機であると判断された場合に、前記サ
ーバ計算機で実行していたサーバプロセスを、前記プロ
セス実行に関する情報に基づいて、前記所定のチェック
ポイントからリスタートさせる手段とを備えたことを特
徴とするプロセスリスタートを実現するためのシステム
である。

【００２３】さらに、請求項１０に係る発明において
は、前記リスタートさせる手段は、前記サーバ計算機で
実行していたサーバプロセスをリスタートするに際し、
前記サーバ計算機に関係するクライアント計算機で実行
していたクライアントプロセスを、前記プロセス実行に
関する情報の各々に基づいて、前記各々のチェックポイ
ントからリスタートさせる手段をさらに備えたことを特
徴とする。

【００２４】また、請求項１１に係る発明は、複数の計
算機によって構成されるクライアント／サーバ型システ
ムで用いられるプロセスリスタートを実現するためのシ
ステムであって、前記複数の計算機の各々により実行し
ている所定のプロセスに障害が発生したか否かを検出す
る手段と、この手段により障害が検出された場合に、該
障害が発生したプロセスを実行している計算機がサーバ
計算機であるかクライアント計算機であるかを判断する
手段と、この手段により障害が発生した計算機がクライ
アント計算機であると判断された場合に、該クライアン
ト計算機で実行していたプロセスをリスタートさせる手
段とを備えたことを特徴とするプロセスリスタートを実
現するためのシステムである。

【００２５】請求項１２に係る発明においては、前記判
断する手段により障害が発生したプロセスを実行してい
た計算機がサーバ計算機であると判断された場合に、前
記サーバ計算機および前記クライアント計算機で実行し
ていたプロセスをリスタートさせる手段をさらに備えた
ことを特徴とする。

【００２６】なお、本発明は、上記各手段をプログラム
として実現し、これら各手段を実現するプログラムを記
録した記録媒体としてもよい。上記発明によれば、分散
チェックポイント／リスタート方法により高信頼のクラ
イアント・サーバシステムを実現することができ、1 台
のクライアント計算機障害がシステム全体に影響を及ぼ
すことを防止することができるようになる。

【００２７】

【発明の実施の形態】以下、本発明の実施の形態を図面
を参照しつつ説明する。（第１の実施形態）図４は、本発明に係るプロセスリス
タート方法を実現するためのシステムの構成を示す図で
ある。同図において、ネットワーク１には、サーバプロ
セスが動作するサーバ計算機Ｓ１、各ユーザが使用する
ものであって、クライアントプロセスが動作するクライ
アント計算機Ｃ１，Ｃ２，…及びシステム全体を監視す
るための監視端末２が接続されている。

【００２８】同図においては、サーバ計算機Ｓは、ネッ
トワーク１に１台のみが接続されているが、特にこれに
こだわるものではなく、複数のサーバ計算機が存在して
いてもよい。また、監視端末２は、上記サーバ計算機
Ｓやクライアント計算機Ｃ１，Ｃ２とは別個独立に設け
られた計算機単体であってもよいし、サーバ計算機Ｓ内
に設けても、また、複数のサーバ計算機Ｓに設けてもよ
い。

【００２９】監視端末２は、その内部にグローバル管理
部２１を有する。このグローバル管理部２１は、ネット
ワーク１上の各計算機の動作状況を監視し、その障害を
検出する計算機障害検出部２１１、監視を行っている各
計算機がサーバ計算機Ｓであるかクライアント計算機Ｃ
１，Ｃ２であるかの情報を管理する計算機情報管理部２
１２、各計算機に対しリスタートを指示するためのリス
タート指示部２１３からなる。このグローバル管理部２
１は、ハードウェアとして実現してもよいし、また、プ
ログラムを実行することによって、またはそれらの組み
合わせによって実現するようにしてもよい。

【００３０】計算機障害検出部２１１は、上述のように
ネットワーク１上の各計算機の動作状況を監視し、その
障害を検出するためのものである。この検出は、例え
ば、一定時間ごとに動作確認信号を各計算機に送出し、
その信号に対する応答信号が許容時間以内に返信されな
かった場合に、当該計算機は障害が発生した（故障し
た）とみなすことによって行われる。また、他の例とし
ては、各計算機において、一定時間ごとに自身が実行中
であることを示すａｌｉｖｅ信号を計算機障害検出部２
１１に送出し、計算機障害検出部２１１では、そのａｌ
ｉｖｅ信号を一定時間ごとに受信していることをもっ
て、当該計算機は正常に動作しており、一定時間経ても
当該ａｌｉｖｅ信号を受信しないときは、その計算機は
障害が発生したとみなすようにしてもよい。

【００３１】図５は、計算機情報管理部２１２に記憶さ
れた計算機情報の一例を示す図である。同図に示すよう
に、計算機情報管理部２１２は、ネットワーク上に接続
された計算機が、サーバ計算機であるかクライアント計
算機であるかについての情報を保持する。本発明の実施
形態においては、サーバ／クライアントの２種類の計算
機のみを規定するが、これにこだわるものではない。

【００３２】リスタート指示部２１３は、計算機障害検
出部２１１または後述する各計算機に設けられたプロセ
ス障害検出部から通知に基づき、計算機情報管理部２１
２を参照し、各計算機に対してリスタート指示を行い、
場合によってはなにも行わない。具体的には、リスター
ト指示部２１３は、計算機情報管理部２１３の情報を調
べ、障害が発生した計算機がサーバ計算機であると判断
した場合には、各計算機上のプロセスリスタート部にリ
スタートの指示を送出する。また、障害が発生した計算
機がクライアント計算機であると判断した場合には、上
記リスタート指示を送出することなく、次の要求を待機
する。なお、後述するようにリスタート指示を受けた計
算機のプロセスリスタート部は、同一計算機上のプロセ
スをリスタートすることとなる。

【００３３】サーバ計算機Ｓおよびクライアント計算機
Ｃ１，Ｃ２上には、自身において実行しているプロセス
を管理するプロセス管理部２２が設けられている。プロ
セス管理部２２は、自身のプロセスＰの障害を検出する
プロセス障害検出部２２１と実際にプロセスをリスター
トさせるためのプロセスリスタート部２２２とを有して
いる。

【００３４】次に、上記各機能実現手段の動作の詳細に
ついて説明する。図６は、計算機障害検出部２１１の動
作を説明するための図である。同図に示すように、計算
機障害検出部２１１は、計算機障害を検出すると（ＳＴ
６１）、障害がその旨をリスタート指示部２１３に通知
する（ＳＴ６２）。リスタート指示部２１３では、図７
に示すように、計算機情報管理部２１２を参照し（ＳＴ
７１）、障害が発生したと通知のあった計算機がサーバ
計算機であるか否かを判断する（ＳＴ７２）。そして、
障害が発生した計算機がサーバ計算機であると判断され
た場合には、各計算機上のプロセスリスタート部２２２
にリスタートを指示する（ＳＴ７３）。一方、クライア
ント計算機であると判断出された場合には、本発明の実
施形態では、特別の処理を行わずに、待機状態に戻る。

【００３５】次に、プロセス障害検出部２２１によって
プロセス障害が検出された場合の動作を説明する。図８
は、プロセス障害検出部２２１の動作を説明するための
図である。同図に示すように、各計算機上のプロセス障
害検出部２２１は、自身のプロセスを監視しており、プ
ロセス障害が発生を検出する（ＳＴ８１）。プロセス障
害検出部２２１は、プロセスの障害を検出すると、その
旨を監視端末２のリスタート指示部２１に通知する（Ｓ
Ｔ８２）。リスタート指示部２１３は、計算機情報管理
部２２２に保持されている計算機情報を参照し、上述し
たように、障害が発生した計算機がサーバ計算機である
と判断した場合には、各計算機上のプロセスリスタート
部２２２にリスタートの指示を出す。一方、障害が発生
した計算機がクライアント計算機であると判断した場合
には、待機状態に戻る。

【００３６】図９は、プロセスリスタート部２２２の動
作を説明するための図である。同図に示すように、プロ
セスリスタート部２２２は、リスタート指示部２１３か
らのリスタート指示があるまるまで待機している（ＳＴ
９１）。そして、リスタート指示を受けた場合には、自
身の計算機上のプロセスをリスタートする（ＳＴ９
２）。

【００３７】以上の処理により、サーバ計算機Ｓ上で障
害が発生した場合には、システム全体でプロセスのリス
タートが行なわれ、クライアント計算機Ｃ１またはＣ２
上で障害が発生した場合には、当該計算機上のプロセス
のリスタートが行われる。従って、クライアント計算機
上で障害が発生した場合には、サーバ計算機や他のクラ
イアント計算機の実行にに影響を与えることがなくな
る。

【００３８】また、通常、チェックポイント情報（チェ
ックポイントに従ったプロセス等の内部状態）は、ディ
スク等の安定記憶に保存されるが、本発明によれば、ク
ライアント計算機に障害が発生した場合には、その計算
機上のプロセスはリスタートしないため、それらのチェ
ックポイント情報は必ずしも必要ではなくなる。そのた
め、チェックポイント情報をメモリ等の揮発性記憶媒体
に保存することで、高速なチェックポイント情報の生成
が可能になる。

【００３９】（第２の実施形態）上記実施形態は、シス
テム全体でまたは計算機ごとにプロセスリスタートする
ものであったが、本実施形態は、プロセスの種類に応じ
たリスタートを行うことを特徴とするものである。すな
わち、システムの構成は、上記実施形態と同様である
が、計算機情報管理部２１２において計算機およびプロ
セスの情報を保持し、その種類に従ったプロセス等のリ
スタートを行うものである。

【００４０】図１０は、本実施形態に係る計算機情報管
理部２１２に記憶された情報を示す一例である。同図に
示すように、計算機情報管理部は、各計算機のプロセス
ごとに、そのプロセスに障害が発生した場合に、リスタ
ートさせるか否かの情報を有する。具体的には、同図に
おいて、プロセスＩＤは、各プロセスを管理するための
固有の値である。一般的には、計算機ごとに固有の識別
子を有していればよい。また、リスタート情報とは、プ
ロセスに障害が発生した場合に、プロセスをどのように
リスタートさせるかを示すものである。ここで、リスタ
ート情報の数値の意味は次の通りである。すなわち、サ
ーバのプロセスＩＤ「１００１」および「１００２」の
リスタート情報は、「１１」となっている。これは、こ
れらプロセスに障害が発生した場合には、自身のプロセ
スに加え、他のプロセスをもリスタートさせることを意
味する。また、特にサーバ計算機におけるリスタート
は、クライアントのプロセスをも含む意味で用いられ
る。一般に、サーバ計算機の障害は、システム全体に影
響を及ぼすので、「１１」の値をとるが、例えば、「０
１」という値を与えることで、当該プロセスのみのリス
タートを行うようにしてもかまわない。

【００４１】次に、プロセスＩＤ「１０００１」のリス
タート情報は、「０１」となっているが、これは、当該
プロセスの障害が発生した場合は、クライアント計算機
Ｃ１上の当該プロセスのみをリスタートさせるという意
味である。また、プロセスＩＤ「１０００２」のリスタ
ート情報は、「１１」となっているが、これは、クライ
アント計算機Ｃ１上で動作しているすべてのプロセスを
リスタートさせるという意味である。このようなリスタ
ート指示は、リスタート指示部２１３がそれぞれの情報
に基づいて行われる。

【００４２】図１１は、本発明の実施形態に係るリスタ
ート指示部の動作を説明するための図である。同図にお
いて、プロセス障害検出部２２１からプロセス障害が発
生した旨の通知を受けると、リスタート部２１３は、計
算機情報管理部２１２を参照し、必要な情報を得る（Ｓ
Ｔ１１１）。次に、リスタート指示部２１３は、該計算
機情報に基づいて、サーバ計算機におけるプロセス障害
かクライアント計算機におけるプロセス障害かを判断す
る（ＳＴ１１２）。ここで、サーバ計算機におけるプロ
セス障害であると判断した場合には、さらに、リスター
ト情報に基づいて全プロセスのリスタートであるか当該
プロセスのみのリスタートであるかを判断する（ＳＴ１
１３）。そして、全プロセスのリスタート、すなわち、
リスタート情報が「１１」である場合には、システム全
体のプロセスについてリスタートを行うために、各計算
機のプロセスリスタート部２２２にリスタート指示を送
出する（ＳＴ１１４）。一方、当該プロセスのみのリス
タート、すなわち、リスタート情報が「０１」である場
合には、当該サーバ計算機のプロセスリスタート部２２
２に当該プロセスのみのリスタート指示を送出する（Ｓ
Ｔ１１５）。

【００４３】また、クライアント計算機においてプロセ
ス障害が発生したと判断された場合には（ＳＴ１１２の
ｎｏ）、リスタート指示部２１３は、さらにリスタート
情報に基づいて、当該プロセスのみのリスタートである
か否かを判断する（ＳＴ１１６）。ここで、当該プロセ
スのみのリスタートであると判断された場合には、当該
クライアント計算機のプロセスリスタート部２２２に、
当該プロセスのみのリスタートを指示する（ＳＴ２１
７）。一方、当該プロセスのみのリスタートでないと判
断された場合には（ＳＴ１１６のｎｏ）、同一クライア
ント計算機上のすべてのプロセスのリスタートを指示す
る（ＳＴ１１８）。

【００４４】以上により、本発明によれば、プロセスの
種類に応じて、それぞれのプロセスごとにリスタートを
選択的に行うことができるようになる。特に、あるプロ
セスの動作が他のプロセスに影響を及ぼさないような場
合には、当該プロセスのみをリスタートさせることで、
効率よくシステムを運用することが可能となる。

【００４５】なお、本実施形態において、リスタート情
報として相互に依存関係の強い計算機群を定め、その中
のある計算機に障害が発生した場合には、当該計算機群
をリスタートさせるようにしてもよい。

【００４６】

【発明の効果】以上説明したように、本発明によれば、
分散チェックポイント／リスタート方法により高信頼の
クライアント・サーバシステムを実現することができ、
1 台のクライアント計算機障害がシステム全体に影響を
及ぼすことを防止することができるようになる。

【図面の簡単な説明】

【図１】分散チェックポイントを説明するための図。

【図２】クライアント・サーバモデルによるシステム
の概念的構成を示す図。

【図３】分散チェックポイント／リスタート方式を説
明するための概念図。

【図４】本発明に係るプロセスリスタート方法を実現
するためのシステムの構成を示す図。

【図５】計算機情報管理部に記憶された計算機情報の
一例を示す図。

【図６】計算機障害検出部の動作を説明するための
図。

【図７】リスタート指示部の動作を説明するための
図。

【図８】プロセス障害検出部の動作を説明するための
図。

【図９】プロセスリスタート部の動作を説明するため
の図。

【図１０】計算機情報管理部に記憶された計算機情報
等の一例を示す図。

【図１１】リスタート指示部の動作を説明するための
図。

【符号の説明】

１…ネットワーク２…監視端末２１…グローバル管理部２１１…計算機障害検出部２１２…計算機情報管理部２１３…リスタート指示部２２…プロセス管理部２２１…プロセス障害検出部２２２…プロセスリスタート部

───────────────────────────────────────────────────── フロントページの続き (72)発明者金井達徳神奈川県川崎市幸区小向東芝町１番地株式会社東芝研究開発センター内

Claims

【特許請求の範囲】

【請求項１】複数の計算機によって構成されるクライア
ント／サーバ型システムで用いられるプロセスリスター
ト方法であって、前記複数の計算機の各々が所定のプロセスを実行してい
る際に前記いずれかの計算機において障害が発生した場
合に、該障害が発生した計算機がサーバ計算機であるか
否かを判断し、該サーバ計算機であると判断した場合
に、該サーバ計算機をリスタートさせることを特徴とす
るプロセスリスタート方法。
【請求項２】前記サーバ計算機をリスタートするに際
し、前記サーバ計算機に関係するクライアント計算機を
リスタートさせることを特徴とする請求項１記載のプロ
セスリスタート方法。
【請求項３】複数の計算機によって構成されるクライア
ント／サーバ型システムで用いられるプロセスリスター
ト方法であって、前記複数の計算機の各々が所定のプロセスを実行してい
る際に、所定のチェックポイントごとに該所定のプロセ
スについてのプロセス実行に関する情報を取得し、該実
行している際に前記いずれかの計算機において障害が発
生した場合に、該障害が発生した計算機がサーバ計算機
であるか否かを判断し、該サーバ計算機であると判断し
た場合に、前記サーバ計算機で実行していたサーバプロ
セスを、前記プロセス実行に関する情報に基づいて、前
記所定のチェックポイントからリスタートさせることを
特徴とするプロセスリスタート方法。
【請求項４】前記サーバ計算機で実行していたサーバプ
ロセスをリスタートするに際し、前記サーバ計算機に関
係するクライアント計算機で実行していたクライアント
プロセスを、前記プロセス実行に関する情報の各々に基
づいて、前記各々のチェックポイントからリスタートさ
せることを特徴とする請求項３記載のプロセスリスター
ト方法。
【請求項５】複数の計算機によって構成されるクライア
ント／サーバ型システムで用いられるプロセスリスター
ト方法であって、前記複数の計算機の各々により実行している所定のプロ
セスに障害が発生した場合に、該障害が発生したプロセ
スを実行している計算機がサーバ計算機であるかクライ
アント計算機であるかを判断し、該クライアント計算機
であると判断した場合に、該クライアント計算機で実行
していたプロセスをリスタートさせることを特徴とする
プロセスリスタート方法。
【請求項６】前記障害が発生したプロセスを実行してい
た計算機がサーバ計算機であると判断した場合に、前記
サーバ計算機および前記クライアント計算機で実行して
いたプロセスをリスタートさせることを特徴とする請求
項５記載のプロセスリスタート方法。
【請求項７】複数の計算機によって構成されるクライア
ント／サーバ型システムで用いられるプロセスリスター
トを実現するためのシステムであって、前記複数の計算機の各々が所定のプロセスを実行してい
る際に前記いずれかの計算機において障害が発生したか
否かを検出する手段と、この手段により障害を検出した場合に、該障害が発生し
た計算機がサーバ計算機であるか否かを判断する手段
と、この手段により障害が発生した計算機がサーバ計算機で
あると判断された場合に、該サーバ計算機をリスタート
させる手段とを備えたことを特徴とするプロセスリスタ
ートを実現するためのシステム。
【請求項８】前記リスタートさせる手段は、前記サーバ
計算機に関係するクライアント計算機をリスタートさせ
る手段をさらに備えたことを特徴とする請求項７記載の
プロセスリスタートを実現するためのシステム。
【請求項９】複数の計算機によって構成されるクライア
ント／サーバ型システムで用いられるプロセスリスター
トを実現するためのシステムであって、前記複数の計算機の各々が所定のプロセスを実行してい
る際に、所定のチェックポイントごとに該所定のプロセ
スについてのプロセス実行に関する情報を取得する手段
と、該所定のプロセスを実行している際に前記いずれかの計
算機において障害が発生したか否かを検出する手段と、この手段により障害を検出した場合に、該障害が発生し
た計算機がサーバ計算機であるか否かを判断する手段
と、この手段により障害が発生した計算機がサーバ計算機で
あると判断された場合に、前記サーバ計算機で実行して
いたサーバプロセスを、前記プロセス実行に関する情報
に基づいて、前記所定のチェックポイントからリスター
トさせる手段とを備えたことを特徴とするプロセスリス
タートを実現するためのシステム。
【請求項１０】前記リスタートさせる手段は、前記サー
バ計算機で実行していたサーバプロセスをリスタートす
るに際し、前記サーバ計算機に関係するクライアント計
算機で実行していたクライアントプロセスを、前記プロ
セス実行に関する情報の各々に基づいて、前記各々のチ
ェックポイントからリスタートさせる手段をさらに備え
たことを特徴とする請求項９記載のプロセスリスタート
を実現するためのシステム。
【請求項１１】複数の計算機によって構成されるクライ
アント／サーバ型システムで用いられるプロセスリスタ
ートを実現するためのシステムであって、前記複数の計算機の各々により実行している所定のプロ
セスに障害が発生したか否かを検出する手段と、この手段により障害が検出された場合に、該障害が発生
したプロセスを実行している計算機がサーバ計算機であ
るかクライアント計算機であるかを判断する手段と、この手段により障害が発生した計算機がクライアント計
算機であると判断された場合に、該クライアント計算機
で実行していたプロセスをリスタートさせる手段とを備
えたことを特徴とするプロセスリスタートを実現するた
めのシステム。
【請求項１２】前記判断する手段により障害が発生した
プロセスを実行していた計算機がサーバ計算機であると
判断された場合に、前記サーバ計算機および前記クライ
アント計算機で実行していたプロセスをリスタートさせ
る手段をさらに備えたことを特徴とする請求項１１記載
のプロセスリスタートを実現するためのシステム。