JP3496822B2 - コンピュータシステムにおける障害対処方式 - Google Patents

コンピュータシステムにおける障害対処方式

Info

Publication number
JP3496822B2
JP3496822B2 JP2000118375A JP2000118375A JP3496822B2 JP 3496822 B2 JP3496822 B2 JP 3496822B2 JP 2000118375 A JP2000118375 A JP 2000118375A JP 2000118375 A JP2000118375 A JP 2000118375A JP 3496822 B2 JP3496822 B2 JP 3496822B2
Authority
JP
Japan
Prior art keywords
functional module
alternative
information
processing
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000118375A
Other languages
English (en)
Other versions
JP2001306351A (ja
Inventor
恵里 羽根田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2000118375A priority Critical patent/JP3496822B2/ja
Publication of JP2001306351A publication Critical patent/JP2001306351A/ja
Application granted granted Critical
Publication of JP3496822B2 publication Critical patent/JP3496822B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、コンピュータシス
テムにおける障害対処方式及びコンピュータシステムの
ための障害対処方法に関する。
【0002】
【従来の技術】従来、コンピュータシステムにおいて障
害が発生した時には、障害となった機能モジュールを再
起動することによりコンピュータシステムを障害から復
旧させる方式がとられていた。
【0003】
【発明が解決しようとする課題】上記の方式では、再起
動を完了するまで障害となった機能モジュールが担当す
る処理が中断されるという問題があり、あらかじめ用意
された代替用機能モジュールに処理を切り替えを行った
場合でも、代替用機能モジュール分のコストがかかる
上、障害時以外でも代替用機能モジュールは処理を行う
必要があった。
【0004】本発明は、専用の代替用機能モジュールを
用意しなくても、ある機能モジュールに障害が発生して
もその機能モジュールが行う処理を継続することを可能
とするコンピュータシステムにおける障害対処方式及び
コンピュータシステムのための障害対処方法を提供する
ことを目的とする。
【0005】
【0006】
【課題を解決するための手段】 また、本発明による障害
対処方式は、相互に結合された複数の機能モジュールを
備え、各機能モジュールが、自機能モジュールに障害が
発生したときに他機能モジュールに処理タイプについて
の情報を有する障害発生通知同報を送信する手段と、他
機能モジュールから前記障害発生通知同報を受信したと
きに、前記障害発生通知同報により示される前記処理タ
イプと自機能モジュールの処理タイプが同一である場合
に、代替可能応答を前記障害発生通知同報の送信元の他
機能モジュールに送信する手段と、前記代替可能応答の
送信元の他機能モジュールのうちの1の他機能モジュー
ルに自機能モジュールの処理を当該1の他機能モジュー
ルで代替するのに必要な処理代替必要情報を含む情報退
避要求を送信する手段と、前記情報退避要求を受信した
ときに、前記情報退避要求に含まれる前記処理代替必要
情報を利用して、前記情報退避要求を送信した他機能モ
ジュールのために代替処理を行う手段と、自機能モジュ
ールが再起動したときに、他機能モジュールに再起動完
了通知同報を送信する手段と、他機能モジュールから前
記再起動完了通知同報を受信したときに、自機能モジュ
ールが前記代替処理を行っている場合に、代替中応答を
前記再起動完了通知同報の送信元の他機能モジュールに
送信する手段と、前記代替中応答を受信したときに、代
替情報要求を前記代替中応答の送信元の他機能モジュー
ルに送信する手段と、前記代替情報要求を受信したとき
に、前記代替情報要求の送信元の他機能モジュールが代
替処理に続く処理を実行するのに必要な代替情報を含む
代替情報転送を前記代替情報要求の送信元の他機能モジ
ュールに送信する手段と、前記代替情報転送を受信した
ときに、前記代替情報を利用して、前記代替処理に継続
する処理を再開する手段と、を備えることを特徴とす
る。
【0007】更に、本発明によるコンピュータシステム
における障害対処方式は、上記のコンピュータシステム
における障害対処方式において、前記情報退避要求は、
前記代替可能応答の送信元の他機能モジュールのうちの
最も負荷の軽い他機能モジュールに送信することを特徴
とする。
【0008】
【0009】また、本発明によるコンピュータシステム
のための障害対処方法は、相互に結合された複数の機能
モジュールを備えるコンピュータシステムのための障害
対処方法において、障害が発生した機能モジュールが他
機能モジュールに処理タイプについての情報を有する障
害発生通知同報を送信するステップと、前記障害発生通
知同報を受信した機能モジュールが、前記障害発生通知
同報により示される前記処理タイプと自機能モジュール
の処理タイプが同一である場合に、代替可能応答を前記
障害が発生した機能モジュールに送信するステップと、
前記障害が発生した機能モジュールが前記代替可能応答
の送信元の他機能モジュールのうちの1の他機能モジュ
ールに自機能モジュールの処理を当該1の他機能モジュ
ールで代替するのに必要な処理代替必要情報を含む情報
退避要求を送信するステップと、前記情報退避要求を受
信した他機能モジュールが、前記情報退避要求に含まれ
る前記処理代替必要情報を利用して、前記障害が発生し
た機能モジュールのために代替処理を行うステップと、
前記障害が発生した機能モジュールが再起動したとき
に、前記障害が発生した機能モジュールが他機能モジュ
ールに再起動完了通知同報を送信するステップと、前記
再起動完了通知同報を受信した機能モジュールが、自機
能モジュールが前記代替処理を行っている場合に、代替
中応答を前記障害が発生し再起動した機能モジュールに
送信するステップと、前記障害が発生し再起動した機能
モジュールが、前記代替中応答を受信したときに、代替
情報要求を前記代替中応答の送信元の他機能モジュール
に送信するステップと、前記代替情報要求を受信した他
機能モジュールが、前記障害が発生し再起動した機能モ
ジュールが代替処理に続く処理を実行するのに必要な代
替情報を含む代替情報転送を前記障害が発生し再起動し
た機能モジュールに送信するステップと、前記障害が発
生し再起動した機能モジュールが、前記代替情報転送を
受信したときに、前記代替情報を利用して、前記代替処
理に継続する処理を再開するステップと、を有すること
を特徴とする。
【0010】更に、本発明によるコンピュータシステム
のための障害対処方法は、上記のコンピュータシステム
のための障害対処方法において、前記情報退避要求は、
前記代替可能応答の送信元の他機能モジュールのうちの
最も負荷の軽い他機能モジュールに送信することを特徴
とする。
【0011】
【発明の実施の形態】以下、本発明の実施形態について
図面を参照して詳細に説明する。
【0012】同一バス上に複数の機能モジュールが存在
し、各機能モジュールが、いくつかの処理タイプのいず
れかに属するようなシステムにおいて、任意の機能モジ
ュールが障害となった場合、該機能モジュールは全機能
モジュールに対して障害発生通知同報の送信を行う。
【0013】障害発生通知同報を受信した機能モジュー
ルのうち、代替可能な機能モジュールは、障害となった
機能モジュールに対して代替可能応答を送信し、障害と
なった機能モジュールは、受信した代替可能応答に含ま
れる処理負荷度を互いに比較して一番処理負荷の低い機
能モジュールを代替機能モジュールとして指定する。
【0014】障害となった機能モジュールは、処理負荷
の一番低い機能モジュールに対して情報退避要求を送信
することにより、障害となった機能モジュールの代替に
必要な処理代替必要情報をすべて代替機能モジュールに
転送し、さらにその後該機能モジュールの再起動を行
う。
【0015】情報退避要求を受信した代替機能モジュー
ルは、受信した処理代替必要情報をもとに、本来の機能
モジュールの処理に加えて、障害となった機能モジュー
ルの代替処理を行う。
【0016】障害となっていた機能モジュールは再起動
が終了すると、全機能モジュールに対して再起動完了通
知同報を送信して再起動が完了したことを通知し、再起
動完了通知同報を受信した代替機能モジュールは、再起
動を行った機能モジュールに対して代替中応答を送信す
る。
【0017】代替中応答を受信した機能モジュールは、
どの機能モジュールが代替を行っていたかを判定するこ
とができ、代替中応答を送信した機能モジュールに対し
て代替情報要求を送信する。
【0018】代替情報要求を受信した機能モジュール
は、すべての代替情報を代替情報転送として、再起動を
行った機能モジュールに送信した後、代替処理を終了す
る。
【0019】代替情報転送を受信した機能モジュール
は、引き続き代替情報をもとに該機能モジュールの処理
を続行する。
【0020】図1は本発明の実施形態におけるシステム
構成図の一例である。
【0021】複数の機能モジュール1、2、3、4、5
が同一バス上に存在し、機能モジュール1、2、3は同
じ処理タイプXを実行する機能モジュール、機能モジュ
ール4は処理タイプYを実行する機能モジュール、機能
モジュール5は処理タイプZを実行する機能モジュール
である。
【0022】図2は本発明の実施形態におけるシステム
障害時の処理代替論理シーケンスを示している。
【0023】同一バス上に複数機能モジュールが存在
し、各機能モジュールは、いくつかの処理タイプのいず
れかに属するようなシステムにおいて、任意の機能モジ
ュールが障害となり、その障害となった機能モジュール
が機能モジュールA(1)と仮定する。
【0024】機能モジュールA(1)は、全機能モジュ
ールに対して障害発生通知同報6〜9の送信を行うこと
により障害機能モジュール名(ここでは機能モジュール
A(1))と、該機能モジュールの処理タイプ(ここで
は処理タイプ=X)を通知する。
【0025】障害発生通知同報6を受信した機能モジュ
ールB(2)は、機能モジュールA(1)と同じ処理タ
イプXを実行する機能モジュールであるので該機能モジ
ュールは機能モジュールA(1)の代替可能と判断し、
機能モジュールA(1)に対して、該機能モジュールの
処理負荷度を示す代替可能応答10を送信する。
【0026】同様に機能モジュールC(3)も該機能モ
ジュールは機能モジュールA(1)の代替可能と判断
し、機能モジュールA(1)に対して、該機能モジュー
ルの処理負荷度を示す代替可能応答11を送信する。
【0027】機能モジュールD(4),E(5)は、機
能モジュールA(1)とは異なる処理タイプを実行する
機能モジュールであるので該機能モジュールは機能モジ
ュールA(1)の代替不可能と判断して機能モジュール
A(1)に対しては何も送信しない。
【0028】一方、機能モジュールA(1)は受信した
代替可能応答の処理負荷度を互いに比較して一番処理負
荷の低い機能モジュールを代替機能モジュールと判定
し、処理負荷の一番低い機能モジュール(ここでは機能
モジュールB(2)とする)に対して情報退避要求12
を送信することにより機能モジュールA(1)の代替に
必要な処理代替必要情報をすべて機能モジュールB
(2)に転送し、さらにその後機能モジュールA(1)
自身の再起動を行う。
【0029】情報退避要求12を受信した機能モジュー
ルB(2)は機能モジュールA(1)から受信した処理
代替必要情報をもとに、本来の機能モジュールB(2)
の処理に加えて、機能モジュールA(1)の代替処理を
行う。
【0030】機能モジュールA(1)は再起動が終了す
ると、どの機能モジュールが該機能モジュールの代替処
理を行っているかを判別するために全機能モジュールに
対して再起動完了通知同報13〜16を送信して機能モ
ジュールA(1)の再起動が完了したことを通知する。
【0031】再起動完了通知同報13を受信した機能モ
ジュールB(2)は、機能モジュールA(1)の代替処
理を行っているため、機能モジュールA(1)に対して
代替中応答17を送信するが、再起動完了通知同報14
〜16を受信した機能モジュールC(3),D(4),
E(5)は、機能モジュールA(1)の代替処理は行っ
ていないので、機能モジュールA(1)に対して何も送
信しない。
【0032】機能モジュールB(2)から代替中応答1
7を受信した機能モジュールA(1)は、該機能モジュ
ールの代替機能モジュールがB(2)であると判定し、
機能モジュールB(2)に対して代替情報要求18を送
信する。
【0033】代替情報要求18を受信した機能モジュー
ルB(2)は機能モジュールA(1)に対して、機能モ
ジュールA(1)に機能モジュールA(1)が代替処理
より継続する処理を実行するために必要なすべての代替
情報を代替情報転送19として機能モジュールA(1)
に送信した後、機能モジュールA(1)の代替処理を終
了する。
【0034】代替情報転送19を受信した機能モジュー
ルA(1)は、引き続き代替情報をもとに機能モジュー
ルA(1)の処理を続行する。
【0035】
【発明の効果】以上説明したように、本発明によれば、
任意の機能モジュールが障害になった場合に、全モジュ
ールへの障害発生通知同報による応答により代替機能モ
ジュールを選択するため、代替機能モジュールを複数の
中から選択することが可能であり、また処理負荷の一番
低い機能モジュールを選択することが可能であるため代
替時の処理負荷を抑制することが可能である。
【0036】また、代替専用の機能モジュールを設ける
必要がなく、障害となった機能モジュールは再開時、自
発的に代替情報の退避/再取得を行うため、障害時以外
の処理負荷を軽減させるという利点がある。
【0037】また、ある機能モジュールが障害となり他
機能モジュールが代替中である場合に、さらに他の機能
モジュールが障害となった場合でも、代替可能な機能モ
ジュールが存在する限り、代替を行うことが可能であ
る。
【図面の簡単な説明】
【図1】本発明の実施形態によるコンピュータシステム
における障害対処方式の構成を示すブロック図である。
【図2】本発明の実施形態によるコンピュータシステム
における障害対処方式の動作を示すシーケンス図であ
る。
【符号の説明】
1 機能モジュールA 2 機能モジュールB 3 機能モジュールC 4 機能モジュールD 5 機能モジュールE

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 相互に結合された複数の機能モジュール
    を備え、 各機能モジュールが、 自機能モジュールに障害が発生したときに他機能モジュ
    ールに処理タイプについての情報を有する障害発生通知
    同報を送信する手段と、 他機能モジュールから前記障害発生通知同報を受信した
    ときに、前記障害発生通知同報により示される前記処理
    タイプと自機能モジュールの処理タイプが同一である場
    合に、代替可能応答を前記障害発生通知同報の送信元の
    他機能モジュールに送信する手段と、 前記代替可能応答の送信元の他機能モジュールのうちの
    1の他機能モジュールに自機能モジュールの処理を当該
    1の他機能モジュールで代替するのに必要な処理代替必
    要情報を含む情報退避要求を送信する手段と、 前記情報退避要求を受信したときに、前記情報退避要求
    に含まれる前記処理代替必要情報を利用して、前記情報
    退避要求を送信した他機能モジュールのために代替処理
    を行う手段と、 自機能モジュールが再起動したときに、他機能モジュー
    ルに再起動完了通知同報を送信する手段と、 他機能モジュールから前記再起動完了通知同報を受信し
    たときに、自機能モジュールが前記代替処理を行ってい
    る場合に、代替中応答を前記再起動完了通知同報の送信
    元の他機能モジュールに送信する手段と、 前記代替中応答を受信したときに、代替情報要求を前記
    代替中応答の送信元の他機能モジュールに送信する手段
    と、 前記代替情報要求を受信したときに、前記代替情報要求
    の送信元の他機能モジュールが代替処理に続く処理を実
    行するのに必要な代替情報を含む代替情報転送を前記代
    替情報要求の送信元の他機能モジュールに送信する手段
    と、 前記代替情報転送を受信したときに、前記代替情報を利
    用して、前記代替処理に継続する処理を再開する手段
    と、 を備えることを特徴とするコンピュータシステムにおけ
    る障害対処方式。
  2. 【請求項2】 請求項1に記載のコンピュータシステム
    における障害対処方式において、 前記情報退避要求は、前記代替可能応答の送信元の他機
    能モジュールのうちの最も負荷の軽い他機能モジュール
    に送信することを特徴とするコンピュータシステムにお
    ける障害対処方式。
  3. 【請求項3】 相互に結合された複数の機能モジュール
    を備えるコンピュータシステムのための障害対処方法に
    おいて、 障害が発生した機能モジュールが他機能モジュールに処
    理タイプについての情報を有する障害発生通知同報を送
    信するステップと、 前記障害発生通知同報を受信した機能モジュールが、前
    記障害発生通知同報により示される前記処理タイプと自
    機能モジュールの処理タイプが同一である場合に、代替
    可能応答を前記障害が発生した機能モジュールに送信す
    るステップと、 前記障害が発生した機能モジュールが前記代替可能応答
    の送信元の他機能モジュールのうちの1の他機能モジュ
    ールに自機能モジュールの処理を当該1の他機能モジュ
    ールで代替するのに必要な処理代替必要情報を含む情報
    退避要求を送信するステップと、 前記情報退避要求を受信した他機能モジュールが、前記
    情報退避要求に含まれる前記処理代替必要情報を利用し
    て、前記障害が発生した機能モジュールのために代替処
    理を行うステップと、 前記障害が発生した機能モジュールが再起動したとき
    に、前記障害が発生した機能モジュールが他機能モジュ
    ールに再起動完了通知同報を送信するステップと、 前記再起動完了通知同報を受信した機能モジュールが、
    自機能モジュールが前記代替処理を行っている場合に、
    代替中応答を前記障害が発生し再起動した機能モジュー
    ルに送信するステップと、 前記障害が発生し再起動した機能モジュールが、前記代
    替中応答を受信したときに、代替情報要求を前記代替中
    応答の送信元の他機能モジュールに送信するステップ
    と、 前記代替情報要求を受信した他機能モジュールが、前記
    障害が発生し再起動した機能モジュールが代替処理に続
    く処理を実行するのに必要な代替情報を含む代替情報転
    送を前記障害が発生し再起動した機能モジュールに送信
    するステップと、 前記障害が発生し再起動した機能モジュールが、前記代
    替情報転送を受信したときに、前記代替情報を利用し
    て、前記代替処理に継続する処理を再開するステップ
    と、 を有することを特徴とするコンピュータシステムのため
    の障害対処方法。
  4. 【請求項4】 請求項に記載のコンピュータシステム
    のための障害対処方法において、 前記情報退避要求は、前記代替可能応答の送信元の他機
    能モジュールのうちの最も負荷の軽い他機能モジュール
    に送信することを特徴とするコンピュータシステムのた
    めの障害対処方法。
JP2000118375A 2000-04-19 2000-04-19 コンピュータシステムにおける障害対処方式 Expired - Fee Related JP3496822B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000118375A JP3496822B2 (ja) 2000-04-19 2000-04-19 コンピュータシステムにおける障害対処方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000118375A JP3496822B2 (ja) 2000-04-19 2000-04-19 コンピュータシステムにおける障害対処方式

Publications (2)

Publication Number Publication Date
JP2001306351A JP2001306351A (ja) 2001-11-02
JP3496822B2 true JP3496822B2 (ja) 2004-02-16

Family

ID=18629526

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000118375A Expired - Fee Related JP3496822B2 (ja) 2000-04-19 2000-04-19 コンピュータシステムにおける障害対処方式

Country Status (1)

Country Link
JP (1) JP3496822B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7730456B2 (en) 2004-05-19 2010-06-01 Sony Computer Entertainment Inc. Methods and apparatus for handling processing errors in a multi-processing system
CN102667729A (zh) * 2010-01-15 2012-09-12 株式会社日立制作所 嵌入式装置以及嵌入式系统
JPWO2012004872A1 (ja) * 2010-07-07 2013-09-02 富士通株式会社 管理装置、管理プログラムおよび管理方法
JP5908346B2 (ja) * 2012-06-15 2016-04-26 株式会社東芝 通信装置および通信方法

Also Published As

Publication number Publication date
JP2001306351A (ja) 2001-11-02

Similar Documents

Publication Publication Date Title
EP1110148B1 (en) Fault tolerant computer system
KR101099822B1 (ko) 액티브 라우팅 컴포넌트 장애 처리 방법 및 장치
CN105933407B (zh) 一种实现Redis集群高可用的方法及系统
CN102882704B (zh) 一种issu的软重启升级过程中的链路保护方法和设备
WO2008014696A1 (fr) Méthode et dispositif pour effectuer un transfert de communications
CN105577444A (zh) 一种无线控制器管理方法及无线控制器
JP3496822B2 (ja) コンピュータシステムにおける障害対処方式
CN112383414B (zh) 双机热备份快速切换方法及装置
CN110351122B (zh) 容灾方法、装置、系统与电子设备
JPH08185330A (ja) 冗長コンピュータシステム切り替え方法
JPH07152697A (ja) 疎結合計算機システム
JPH10116261A (ja) 並列計算機システムのチェックポイントリスタート方法
KR20030058144A (ko) 정보통신 시스템의 프로세스 장애 감시방법 및 복구방법
CN113783805B (zh) 一种fc交换网络的传输方法及系统
JP2002149439A (ja) 分散処理システムにおけるサーバ切替え方法及びサーバ装置
CN101895980B (zh) 任务同步的方法和设备
JP2834006B2 (ja) 障害回復処理方式及び方法
KR101192202B1 (ko) 내장형 운영체제 기반의 응용프로그램에서 고장 감지 방법 및 시스템
JP2636610B2 (ja) バックアップ方式
JPH11284650A (ja) ネットワーク通信方式
JPH1093617A (ja) 通信処理装置の予備切り替えシステム
JPH11296397A (ja) ホットスタンバイシステムにおける受信メッセージリカバリ方式及びホットスタンバイシステムにおける受信メッセージリカバリ方法及び受信メッセージ処理プログラムを格納した記録媒体
JPH11306153A (ja) 分散システムのネットワーク管理方式
CN116627728A (zh) 一种基于虚拟交换技术的数据处理冗余系统
JPH1065714A (ja) データ通信制御方法及びそれを適用したデータ通信制御システム

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees