JPH0879246A - 分散型通信システムおよびその障害回復方法 - Google Patents

分散型通信システムおよびその障害回復方法

Info

Publication number
JPH0879246A
JPH0879246A JP6232447A JP23244794A JPH0879246A JP H0879246 A JPH0879246 A JP H0879246A JP 6232447 A JP6232447 A JP 6232447A JP 23244794 A JP23244794 A JP 23244794A JP H0879246 A JPH0879246 A JP H0879246A
Authority
JP
Japan
Prior art keywords
server
failure
communication processing
processing
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6232447A
Other languages
English (en)
Inventor
Masahiko Fujinaga
昌彦 藤長
Satohiko Kato
聰彦 加藤
Kenji Suzuki
健二 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
Kokusai Denshin Denwa KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kokusai Denshin Denwa KK filed Critical Kokusai Denshin Denwa KK
Priority to JP6232447A priority Critical patent/JPH0879246A/ja
Publication of JPH0879246A publication Critical patent/JPH0879246A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 通信処理サーバに障害が発生しこれが回復し
た時に、障害発生前の通信処理を継続して実行できるよ
うにし、通信処理の高信頼性を図った分散型通信システ
ムおよびその障害回復方法を提供すること。 【構成】 LAN等のネットワーク1に接続された通信
処理サーバ2a〜5aは、一まとまりの通信処理を行
い、ログサーバ2b〜4bは、二重化ディスク等を利用
して、障害発生時にもデータを紛失することなく、安全
に保持する。システム監視サーバ5cは、通信処理サー
バとログサーバの動作を監視し、サーバの障害が発生し
た場合には、その再起動を行う。通信処理サーバは、障
害からの回復に必要な、受信データや処理の進行状況等
の情報をログサーバに書き込む。障害発生の後に再起動
されると、通信処理サーバは、ログサーバに保持された
情報を読出し、最新の処理の区切りにおける内部状態を
回復して、処理を再開する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は分散型通信システムお
よびその障害回復方法に関し、特に通信処理サーバの障
害回復時に、障害発生前の処理を継続して実行すること
ができるようにした分散型通信システムおよびその障害
回復方法に関する。
【0002】
【従来の技術】電子メールサービスを実現するためのメ
ッセージ通信処理システムや、インテリジェントネット
ワークの付加サービスを実現するための付加サービス処
理システム等の通信システムを構築する場合、高い信頼
性が要求される。例えば、通信システムにおいては、ソ
フトウェアのバグやハードウェアの故障等の原因でシス
テム構成要素の一部に障害が発生した場合にも、システ
ム全体としての動作を継続する必要がある。また、障害
中の構成要素が回復した場合にも、システムを停止する
ことなく、通常の運転状態に復帰する必要がある。
【0003】従来、通信システムを高信頼化するための
技術として、二重化システムによる冗長化構成が広く採
用されてきた。これは、構築しようとする通信システム
の機能を実現する通信処理部を二重構成とし、これにシ
ステムの動作を監視するシステム監視部を別途準備し
て、全体として一つの通信システムを構成するものであ
る。このような二重化構成においては、通常時には片方
の通信処理部(通常系)に通信処理を行わせ、該通常系
に障害が発生した場合、システム監視部がこれを検出
し、他方の通信処理部(待機系)に処理を切換えること
により、障害が発生した場合にも、サービスの継続的な
提供を可能にしている。
【0004】
【発明が解決しようとする課題】しかしながら、前記し
た従来の二重構成による通信システムにおいては、通常
時には利用されない待機系を準備しているため、該通信
システムを構成する計算機等のハードウェアの利用効率
が低くなり、達成される処理性能に比較して、通信シス
テムを構築するための費用が増大するという問題があっ
た。
【0005】一方、従来、複数個の計算機をLAN等に
相互に接続して一つの通信システムを構築し、通信シス
テム全体としての信頼性を高めるようにした方式が提案
されている。しかしながら、この分散型通信システムに
おいては、ある一まとまりの通信処理をしている一個あ
るいは複数個の通信処理プログラム(以下、通信処理サ
ーバと呼ぶ)に障害が発生して処理が中断すると、該通
信処理サーバの障害が回復した時には、中断前の処理が
無効になってしまい、その処理を続行することができな
いという問題があった。
【0006】この発明の目的は、前記した従来技術の問
題点を除去し、ログサーバ、通信処理サーバ等のサーバ
に障害が発生しこれが回復した時に、障害発生前の通信
処理を継続して実行できるようにし、通信処理の高信頼
性を図った分散型通信システムおよびその障害回復方法
を提供することにある。
【0007】
【課題を解決するための手段】前記目的を達成するため
に、本発明は、一まとまりの通信処理を行う通信処理サ
ーバと、前記通信処理サーバによって、その処理の区切
りにおいて、障害からの回復に必要な受信データや処理
の進行状況等の情報を書き込まれ、障害発生時にもデー
タを紛失することなく、安全に保持する機能を有するロ
グサーバと、前記通信処理サーバとログサーバの動作を
監視し、これらのサーバに障害が発生した場合には、そ
の再起動を行うシステム監視サーバとを具備した点に特
徴がある。
【0008】また、本発明は、前記通信処理サーバに障
害が発生し、前記システム監視サーバによって再起動さ
れた時に、該通信処理サーバは全てのログサーバに問い
合わせ情報を出力し、該問い合わせ情報に対する応答情
報を分析して、最新の障害回復情報を保持するログサー
バを決定し、該ログサーバから障害回復情報を読出し
て、内部状態の回復と処理の継続を行うようにした点に
特徴がある。
【0009】
【作用】本発明によれば、システム監視サーバは通信処
理サーバとログサーバに対して、定期的に動作確認のた
めのRPC (Remote Procedure Call)を発行し、サーバ
の動作状態を監視する。ログサーバに障害が発生した時
には、通信処理サーバは、複数個のログサーバの中から
正常なログサーバを選択して障害からの回復に必要な受
信データや処理の進行状況等の情報を書き込み、処理を
続行する。一方、通信処理サーバに障害が発生した時に
は、最新の障害回復情報を保持するログサーバを探し、
該ログサーバから障害回復情報を読出して、内部状態の
回復と処理の継続を行う。この結果、通信処理サーバは
障害が発生する前に処理した中断前の処理を無効にする
ことなく、その処理を続行することができるようにな
り、通信システムの高信頼性化を図ることができる。
【0010】
【実施例】以下に、図面を参照して、本発明を詳細に説
明する。図1は、本発明の一実施例の分散型通信システ
ムを示すブロック図である。図において、1はLAN等
のネットワーク、2、3、4、5は該ネットワークに接
続された計算機、2a、3a、4a、5aは通信処理サ
ーバ、2b、3b、4bはログサーバ、5cはシステム
監視サーバである。なお、図では4個の通信処理サーバ
と、3個のログサーバと、1個のシステム監視サーバに
よるシステムが示されているが、本発明はこれに限定さ
れないことは明らかである。
【0011】ここに、前記通信処理サーバは、一まとま
りの通信処理を行う複数のサーバを抽象化して表記した
ものである。また、ログサーバは、二重化ディスク等を
利用して、障害発生時にもデータを紛失することなく、
安全に保持する機能を有している。通信処理サーバは、
その処理の区切りにおいて、障害からの回復に必要な、
受信データや処理の進行状況等の情報をログサーバに書
き込む。障害発生の後に再起動されると、通信処理サー
バは、ログサーバに保持された情報を読出し、最新の処
理の区切りにおける内部状態を回復して、処理を再開す
る。
【0012】また、システム監視サーバは、通信処理サ
ーバとログサーバの動作を監視し、サーバの障害が発生
した場合には、その再起動を行う。ハードアェアの故障
等の自動的に回復できない障害が発生した場合には、障
害部分をシステムから切り離して、残りの計算機による
縮退運転を行う。
【0013】次に、本実施例の動作を、図2のタイミン
グチャートを参照して説明する。図において、縦軸は時
間を表すものとする。本実施例の動作として、二つの態
様が考えられるので、各態様について、説明することに
する。 [第1の動作態様]この動作態様は、分散型通信システ
ムに障害が発生したときに、一番多く経験するケースで
あると考えられる。通信処理サーバ2aに着目して説明
する。いま、通信処理サーバ2aは、通常の動作時(時
刻T1)において、受信したデータや、通信処理の進行
状況等の障害からの回復に必要な情報(以下、障害回復
情報と呼ぶ)m1をログサーバ2bに書込み、処理を実
行しているものとする。通信処理サーバ2aは、時刻T
2にログサーバ2bに障害が発生したことを検知する
と、あるいはシステム監視サーバ5cから通知を受ける
と、時刻T2からログサーバを4bに切替えるという内
容の切替え情報m2をLAN1に接続されている他のロ
グサーバ3b、4bに出力する。通信処理サーバ2a
は、以後、該ログサーバ4bに、受信したデータや、障
害回復情報m3を書込み、処理を続行する。
【0014】さて、時刻T5に、通信処理サーバ2aに
障害が発生し、時刻T7で再起動されたとすると、ま
ず、通信処理サーバ2aは全てのログサーバに問い合わ
せ情報m4を出力する。この問い合わせに応じて、各ロ
グサーバ2b、3bおよび4bから、応答情報n1、n
2およびn3が返されてくると、通信処理サーバ2a
は、この応答情報n1、n2およびn3を分析して、最
新の障害回復情報を保持するログサーバを決定する。図
2の例の場合、応答情報n3は、「ログサーバ4b,T
2,up」と、時刻T2以降も正常に動作し続けたこと
を意味しているので、通信処理サーバ2aは、応答情報
n3から障害回復情報を読出して、内部状態の回復と処
理の継続を行う。この動作態様においては、通信処理サ
ーバ2aは最後に使用していたログサーバを直ちに決定
することができ、障害が発生する前のデータを無効にす
ることなく、直ちに処理を続行することができる。 [第2の動作態様]この動作は、図3に示されているよ
うに、ログサーバ2bと3bの共通する時間帯[T3…
T4]に障害が発生し、かつ通信処理サーバ2aの障害
とほぼ同時に、使用中のログサーバ4bに障害が発生し
た場合である。なお、この態様の障害の発生は、めった
に発生しないケースと考えられる。
【0015】時刻T5までは、第1の動作態様と同様の
動作が行われたとする。通信処理サーバ2aが時刻T6
に障害を発生し、時刻T7に再起動されると、通信処理
サーバ2aは各ログサーバ2b、3b、4bに問い合わ
せ情報m4を出力する。この問い合わせに応じて、ログ
サーバ2bおよび3bは、応答情報n1およびn2を返
してくるが、ログサーバ4bは障害中であるので、応答
情報を返してこない。そこで、通信処理サーバ2aは、
この応答情報n1およびn2を分析して、最新の障害回
復情報を保持するログサーバを決定しようとする。
【0016】しかしながら、これらの応答情報n1およ
びn2は、ログサーバ2b、3bが、時刻T1以降の時
間帯[T3…T4]に、共に障害があったことを示して
いる。この時間帯の期間中に、ログサーバの切替えを行
った可能性があるため、通信処理サーバ2aは、最新の
障害回復情報を得るために、ログサーバ4bの回復を待
つ必要がある。この結果、第2の動作態様においては、
通信処理サーバ2aは、障害中のログサーバの回復を待
って、通信処理の動作を再開する。したがって、この動
作態様においても、通信処理サーバ2aは、障害発生前
に処理したデータを無効にすることなく、動作を継続す
ることができるようになる。
【0017】以上のように、本実施例によれば、通信処
理サーバに障害が発生して、該通信処理サーバが実行し
ていた一連の通信処理が中断したとしても、再起動され
た時に、最新の障害回復情報を保持するログサーバから
障害回復情報を読出して、内部状態の回復をすることが
できるので、該一連の通信処理を継続して実行すること
ができるようになる。また、一連の通信処理中に、使用
しているログサーバが故障した場合には、LANに接続
された他のログサーバを使用することができるので、こ
の場合も、通信処理サーバは処理を中断することなく継
続することができる。
【0018】また、通信処理サーバのハードウェアに故
障が発生し、そのサーバによる処理の再開が不可能にな
った場合には、システム監視サーバ5cは他の通信処理
サーバに処理を代行させることができる。以上のよう
に、本実施例の分散型通信システムおよびその障害回復
方法によれば、通信処理サーバあるいはログサーバに障
害が発生しても、中断前の処理を無効にすることなく、
その処理を続行することができるようになる。
【0019】
【発明の効果】本発明によれば、通信システムを分散処
理技術を用いて、複数のサーバより構成し、待機系の計
算機を使用することなく、ログサーバにより障害から回
復に必要な情報を安全に保持させ、システム監視サーバ
により通信システムを構成する各サーバの動作を監視さ
せるようにしたため、通常動作時には、全てのハードウ
ェアを有効に利用することができるようになるという効
果がある。
【0020】また、通常動作時に、全てのハードウェア
を有効に利用することができるので、通信処理サーバや
ログサーバに障害が発生した場合にも、通信処理サーバ
は障害の回復に必要な最新の障害回復情報を得ることが
できるようになる。この結果、通信処理サーバあるいは
ログサーバに障害が発生しても、中断前の処理を無効に
することなく、その処理を続行することができるように
なり、高信頼性の通信システムを提供することができる
ようになる。
【図面の簡単な説明】
【図1】 本発明の一実施例のシステム構成の概要を示
すブロック図である。
【図2】 本実施例の第1の動作態様を示すタイミング
チャートである。
【図3】 本実施例の第2の動作態様を示すタイミング
チャートである。
【符号の説明】
1…ネットワーク(LAN)、2、3、4、5…計算
機、2a、3a、4a、5a…通信処理サーバ、2b、
3b、4b…ログサーバ、5c…システム監視サーバ。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G06F 15/16 470 R H04L 12/40

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 ネッワークを介して、複数個の計算機を
    相互に接続し、一つの通信システムを構築した分散型通
    信システムにおいて、 一まとまりの通信処理を行う通信処理サーバと、 前記通信処理サーバによって、その処理の区切りにおい
    て、障害からの回復に必要な受信データや処理の進行状
    況等の情報を書き込まれ、障害発生時にもデータを紛失
    することなく、安全に保持する機能を有するログサーバ
    と、 前記通信処理サーバとログサーバの動作を監視し、これ
    らのサーバに障害が発生した場合には、その再起動を行
    うシステム監視サーバとを具備し、 前記通信処理サーバは、障害発生後に再起動された時
    に、前記ログサーバに保持された情報を読出し、最新の
    処理の区切りにおける内部状態を回復して、処理を再開
    するようにしたことを特徴とする分散型通信システム。
  2. 【請求項2】 ネッワークを介して、複数個の計算機を
    相互に接続し、一つの通信システムを構築した分散型通
    信システムの障害回復方法において、 通信処理サーバは複数個のログサーバの中から一つのロ
    グサーバを選択して障害からの回復に必要な受信データ
    や処理の進行状況等の情報を書き込み、該選択されたロ
    グサーバに障害が発生した時には、他のログサーバに切
    り替えて、前記障害からの回復に必要な受信データや処
    理の進行状況等の情報を書き込むことにより、処理を継
    続するようにしたことを特徴とする分散型通信システム
    の障害回復方法。
  3. 【請求項3】 請求項2の分散型通信システムの障害回
    復方法において、 前記通信処理サーバに障害が発生し、システム監視サー
    バによって再起動された時に、該通信処理サーバは全て
    のログサーバに問い合わせ情報を出力し、該問い合わせ
    情報に対する応答情報を分析して、最新の障害回復情報
    を保持するログサーバを決定し、該ログサーバから障害
    回復情報を読出して、内部状態の回復と処理の継続を行
    うようにしたことを特徴とする分散型通信システムの障
    害回復方法。
  4. 【請求項4】 請求項3の分散型通信システムの障害回
    復方法において、 通信処理サーバは、最新の障害回復情報を保持するログ
    サーバが障害中の時には、該ログサーバの障害の回復を
    待って、該ログサーバから障害回復情報を読出して、内
    部状態の回復と処理の継続を行うようにしたことを特徴
    とする分散型通信システムの障害回復方法。
JP6232447A 1994-09-02 1994-09-02 分散型通信システムおよびその障害回復方法 Pending JPH0879246A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6232447A JPH0879246A (ja) 1994-09-02 1994-09-02 分散型通信システムおよびその障害回復方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6232447A JPH0879246A (ja) 1994-09-02 1994-09-02 分散型通信システムおよびその障害回復方法

Publications (1)

Publication Number Publication Date
JPH0879246A true JPH0879246A (ja) 1996-03-22

Family

ID=16939429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6232447A Pending JPH0879246A (ja) 1994-09-02 1994-09-02 分散型通信システムおよびその障害回復方法

Country Status (1)

Country Link
JP (1) JPH0879246A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1021168A (ja) * 1996-07-05 1998-01-23 Nec Corp コンピュータシステム及びその状態復旧方法
JPH1188533A (ja) * 1997-09-10 1999-03-30 Kokusai Electric Co Ltd 電話システム
JP2001057673A (ja) * 1999-08-18 2001-02-27 Daiei Media Solutions Inc 放映配信システム
KR100363523B1 (ko) * 1999-12-23 2002-12-05 주식회사 아라기술 클러스터링 서버에서의 분산 처리 제어 방법
KR100478432B1 (ko) * 2001-05-21 2005-03-24 닛본 덴끼 가부시끼가이샤 네트워크의 접속 복구 방법 및 시스템
JP2006235763A (ja) * 2005-02-22 2006-09-07 Ricoh Co Ltd データ送信装置、データ収集装置、データ送信方法、データ収集方法、データ送信プログラム、データ収集プログラムおよびコンピュータ読み取り可能な記録媒体
US8862707B2 (en) 2009-03-30 2014-10-14 Fujitsu Limited Method and apparatus for managing data of operation system

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1021168A (ja) * 1996-07-05 1998-01-23 Nec Corp コンピュータシステム及びその状態復旧方法
JPH1188533A (ja) * 1997-09-10 1999-03-30 Kokusai Electric Co Ltd 電話システム
JP2001057673A (ja) * 1999-08-18 2001-02-27 Daiei Media Solutions Inc 放映配信システム
KR100363523B1 (ko) * 1999-12-23 2002-12-05 주식회사 아라기술 클러스터링 서버에서의 분산 처리 제어 방법
KR100478432B1 (ko) * 2001-05-21 2005-03-24 닛본 덴끼 가부시끼가이샤 네트워크의 접속 복구 방법 및 시스템
JP2006235763A (ja) * 2005-02-22 2006-09-07 Ricoh Co Ltd データ送信装置、データ収集装置、データ送信方法、データ収集方法、データ送信プログラム、データ収集プログラムおよびコンピュータ読み取り可能な記録媒体
US8862707B2 (en) 2009-03-30 2014-10-14 Fujitsu Limited Method and apparatus for managing data of operation system

Similar Documents

Publication Publication Date Title
KR100557399B1 (ko) 네트웍 매체 링크상태 기능을 이용한 컴퓨터 클러스터링시스템의 가용도 개선방법
US6477663B1 (en) Method and apparatus for providing process pair protection for complex applications
EP0481231B1 (en) A method and system for increasing the operational availability of a system of computer programs operating in a distributed system of computers
US7444335B1 (en) System and method for providing cooperative resource groups for high availability applications
JPH0879246A (ja) 分散型通信システムおよびその障害回復方法
JP2009080705A (ja) 仮想計算機システム及び同システムにおける仮想計算機復元方法
JP5285045B2 (ja) 仮想環境における故障復旧方法及びサーバ及びプログラム
JPH08235132A (ja) マルチサーバシステムのホットスタンバイ制御方法
JP3139536B2 (ja) 分散バッチジョブ処理システムおよびその障害時におけるジョブの自動再起動方法
JP2953639B2 (ja) バックアップ装置及びその方法
JPH05314075A (ja) オンラインコンピュータ装置
JP2004046658A (ja) データ転送方法
JPH10116261A (ja) 並列計算機システムのチェックポイントリスタート方法
JPH04299435A (ja) データベース等価方式
JP2002149439A (ja) 分散処理システムにおけるサーバ切替え方法及びサーバ装置
CN111563010B (zh) 一种基于双机冗余系统的数据同步方法、系统及存储介质
JP2003256399A (ja) ホットスタンバイシステム切り替え制御方式
JPH07219802A (ja) 2重化制御方式
JPH1125062A (ja) 障害回復システム
JPH1040123A (ja) ジョブ管理方式と方法
JP2000047893A (ja) 複数オンラインシステムにおける障害回復方法およびオンライン処理システム
JPH0668034A (ja) オンラインシステム監視方式
JPH0793173A (ja) コンピュータネットワークシステムおよびそのコンピュータネットワークシステムの計算機に対するプロセス割り当て方法
JPH10269124A (ja) チェックポイント情報の管理方法およびチェックポイント情報管理システム
JP2795246B2 (ja) メモリ二重化システムにおける割り込み処理時の障害リカバリ装置