JP2002351855A - 計算機異常処理システムおよび、計算機異常処理方法および、計算機で動作する計算機異常処理プログラムおよび、コンピュータにより読み取り可能な記録媒体に記録された計算機異常処置プログラム - Google Patents

計算機異常処理システムおよび、計算機異常処理方法および、計算機で動作する計算機異常処理プログラムおよび、コンピュータにより読み取り可能な記録媒体に記録された計算機異常処置プログラム

Info

Publication number
JP2002351855A
JP2002351855A JP2001158946A JP2001158946A JP2002351855A JP 2002351855 A JP2002351855 A JP 2002351855A JP 2001158946 A JP2001158946 A JP 2001158946A JP 2001158946 A JP2001158946 A JP 2001158946A JP 2002351855 A JP2002351855 A JP 2002351855A
Authority
JP
Japan
Prior art keywords
computer
abnormality
state
information
status
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001158946A
Other languages
English (en)
Inventor
Kazuhiro Murayama
和宏 村山
Shinichi Ochiai
真一 落合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2001158946A priority Critical patent/JP2002351855A/ja
Publication of JP2002351855A publication Critical patent/JP2002351855A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 従来のマルチプロセッサの異常検出方法で
は、計算機内部からの信号のみを頼りに正常/異常を判
断している為、異常が発生した場合に一時的異常か恒久
的異常かを、判断できなかった。 【解決手段】 本発明の計算機異常処理システムは、ネ
ットワーク上の全計算機がそれぞれ、ネットワーク上の
全計算機の状態情報を記憶する計算機状態テーブル3を
備え、異常検出機構4が自計算機の異常を検出すると、
自計算機の異常を異常受信機構5から他の計算機の異常
受信機構5に通知して、通知を受けた他の計算機は、自
身の計算機の計算機状態テーブル3に受信した内容を反
映する。自及び他の計算機の診断機構6は、計算機状態
テーブル3の状態情報に基づいて再診断を必要とする計
算機に対して正常か異常かを診断して結果を自計算機に
通知する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ネットワークで接
続された複数の計算機で構成された計算機システムに関
するものであり、特に、プロセッサの異常を検出し、プ
ロセッサの異常を他の計算機に伝えることを特徴とした
計算機異常処理システムに関するものである。
【0002】
【従来の技術】例えば、特開平7−219910におけ
るマルチプロセッサの早期異常検出方法およびマルチプ
ロセッサシステムでは、複数のプロセッサを共通バスを
介して接続し分散処理を実行するマルチプロセッサにお
いて、各プロセッサにあらかじめ自己の正常状態を表す
正常動作信号と他のプロセッサへブロードキャストする
機能と、他のプロセッサが正常動作信号をブロードキャ
ストしているか否かを監視する機能と、を設けたマルチ
プロセッサシステムについて述べている。
【0003】従来の技術におけるマルチプロセッサの早
期異常検出方法およびマルチプロセッサシステムを説明
する。図28は従来の技術におけるマルチプロセッサシ
ステムの一例である。各プロセッサは、所定周期で正常
動作信号108を共通バス107を用いて他のプロセッ
サにブロードキャストし、共有データ領域105に正常
動作信号108を記憶させる。これにより、自プロセッ
サが正常に動作していることを示す。各プロセッサ10
1は、共有データ領域105を参照してプロセッサから
の正常動作信号が記憶されているかどうかを確認し、記
憶されていれば正常、記憶されていなければ異常とする
ことにより、プロセッサの異常を判別する。
【0004】
【発明が解決しようとする課題】従来の技術におけるマ
ルチプロセッサの早期異常検出方法およびマルチプロセ
ッサシステムは以上のような特徴を持ち、以下のような
問題点があった。
【0005】従来の技術におけるマルチプロセッサの早
期異常検出方法およびマルチプロセッサシステムでは、
他プロセッサの状態を、他プロセッサから受信する信号
のみを頼りに正常/異常を判断している。このため、異
常が発生した場合に、その異常が対処が不要な一時的異
常なのか、それともソフトウェアもしくはハードウェア
を再起動しなければならないような恒久的異常なのかを
判別することができなかかった。この結果、異常に対し
て適切な処置を取ることができないという問題点があ
る。
【0006】また、従来の技術におけるマルチプロセッ
サの早期異常検出方法およびマルチプロセッサシステム
では、他プロセッサからの情報が届かなかった場合、情
報を受信する自プロセッサに障害が発生していても、情
報送信元の他プロセッサに異常が発生したと誤って判断
されるという問題点がある。
【0007】そこで、本発明では、自プロセッサ(計算
機)が自プロセッサ(計算機)内部で異常を検出した場
合に、他プロセッサ(計算機)から、異常を検出したそ
のプロセッサ(計算機)に対して診断プログラムを実行
させることにより、異常の種別(恒久的異常、一時的異
常)をより明確にすることを目的とする。
【0008】また、本発明では、自プロセッサ(計算
機)内部で異常が発生した場合に、外部診断プログラム
を、異常を通知したプロセッサ(計算機)だけでなく、
異常を受信したプロセッサ(計算機)に対しても実行す
ることにより、異常箇所(異常の発生しているプロセッ
サ)を明確にすることを目的とする。
【0009】また、本発明では、プロセッサ(計算機)
の異常に関する情報を全プロセッサ(計算機)に通知す
ることにより、他プロセッサ(計算機)で発見したプロ
セッサ(計算機)の異常を、全ての計算機で共有するこ
とを目的とする。
【0010】また、本発明では、プロセッサ(計算機)
の異常に関する情報を1台の計算機のみで収集すること
により、異常検出に伴う通信負荷を削減することを目的
とする。
【0011】
【課題を解決するための手段】この発明に係る所定のネ
ットワークにより接続された少なくとも2台の計算機を
備えて、上記2台の計算機それぞれが自計算機の状態を
監視して、監視した結果を他計算機に通知する計算機異
常処理システムは、上記2台の計算機はそれぞれ、上記
自計算機の状態を示す状態情報と他計算機の状態を示す
状態情報とを記憶する計算機状態テーブルと、上記自計
算機の状態を監視して上記自計算機の正常状態と異常状
態とのいずれかを示す状態情報を生成して、上記自計算
機と上記他計算機とに対して上記生成した状態情報を通
知する動作を所定の期間毎に繰り返し行う異常検出部
と、上記所定の期間内に上記自計算機と上記他計算機の
上記異常検出部から状態情報の通知がされた場合には、
上記計算機状態テーブルの上記状態情報を、通知された
状態情報に基づいて変更して、上記所定の期間内に上記
他計算機の異常検出部から上記状態情報の通知がされな
い場合には、上記計算機状態テーブルの上記他計算機の
状態情報に上記他計算機の異常検出部からの通知がされ
ないことを示す未通知情報を設定する異常受信部と、上
記計算機状態テーブルを参照して、上記状態情報に未通
知情報の設定されている他計算機と上記状態情報に異常
状態を示す状態情報の設定されている他計算機とを選択
して、選択した他計算機に対して計算機の状態を診断し
て、診断した診断結果情報を自計算機の上記異常受信部
に通知する診断部とを備えたことを特徴とする。
【0012】また、この発明に係る計算機異常処理シス
テムは、上記診断部は、上記診断結果情報を上記診断さ
れた他計算機に対して通知し、上記診断された他計算機
の上記異常受信部は、上記診断結果情報を受信して、上
記計算機テーブルの状態情報を上記受信した診断結果情
報に基づいて変更することを特徴とする。
【0013】また、この発明に係る計算機異常処理シス
テムは、上記2台の計算機のうち一方はマスタ計算機で
あり、他方はスレーブ計算機であり、上記マスタ計算機
の異常検出部と上記スレーブ計算機の異常検出部とは、
上記監視した自計算機の状態情報を上記マスタ計算機の
異常受信部へ通知し、上記マスタ計算機の異常受信部
は、上記マスタ計算機の異常検出部と上記スレーブ計算
機の異常検出部とより通知された上記状態情報を、上記
スレーブ計算機の異常受信部に通知することを特徴とす
る。
【0014】また、この発明に係る計算機異常処理シス
テムは、上記マスタ計算機の診断部は、上記マスタ計算
機の計算機状態テーブルを参照して、上記状態情報に上
記未通知情報の設定されているスレーブ計算機と上記状
態情報に異常状態を示す状態情報の設定されているスレ
ーブ計算機とを選択して、選択したスレーブ計算機に対
して計算機の状態を診断して、診断した診断結果情報を
上記マスタ計算機の異常受信部に通知し、上記マスタ計
算機の異常受信部は、上記マスタ計算機の診断部より通
知された上記診断結果情報を、上記スレーブ計算機の異
常受信部に通知し、上記スレーブ計算機の異常受信部
は、受信した上記診断結果情報に基づいて、上記計算機
状態テーブルを更新することを特徴とする。
【0015】また、この発明に係る計算機異常処理シス
テムは、上記スレーブ計算機の上記診断部は、上記スレ
ーブ計算機の計算機状態テーブルを参照して、上記状態
情報に上記未通知情報の設定されているマスタ計算機と
上記状態情報に異常状態を示す状態情報のマスタ計算機
を選択して、選択したマスタ計算機に対して計算機の状
態を診断することを特徴とする。
【0016】この発明に係る所定のネットワークにより
接続された少なくとも2台の計算機それぞれが自計算機
の状態を監視して、監視した結果を他計算機に通知する
計算機異常処理方法は、上記自計算機の状態を監視して
上記自計算機の正常状態と異常状態とのいずれかを示す
状態情報を生成して、上記自計算機と上記他計算機とに
対して上記生成した状態情報を通知する動作を所定の期
間毎に繰り返し行う異常検出工程と、上記所定の期間内
に上記自計算機と上記他計算機の上記異常検出工程によ
り状態情報の通知がされた場合には、上記自計算機の状
態を示す状態情報と他計算機の状態を示す状態情報とを
記憶する計算機状態テーブルの状態情報を、通知された
状態情報に基づいて変更して、上記所定の期間内に上記
他計算機の異常検出工程により上記状態情報の通知がさ
れない場合には、上記計算機状態テーブルの上記他計算
機の状態情報に上記他計算機の異常検出工程により上記
状態情報の通知がされないことを示す未通知情報を設定
する異常受信工程と、上記計算機状態テーブルを参照し
て、上記状態情報に未通知情報の設定されている他計算
機と上記状態情報に異常状態を示す状態情報の設定され
ている他計算機とを選択して、選択した他計算機に対し
て計算機の状態を診断して、診断した診断結果情報を自
計算機の上記異常受信工程に通知する診断工程とを備え
たことを特徴とする。
【0017】この発明に係る所定のネットワークにより
接続された少なくとも2台の計算機それぞれが自計算機
の状態を監視して、監視した結果を他計算機に通知する
上記計算機上で動作する計算機異常処理プログラムは、
上記自計算機の状態を監視して上記自計算機の正常状態
と異常状態とのいずれかを示す状態情報を生成して、上
記自計算機と上記他計算機とに対して上記生成した状態
情報を通知する動作を所定の期間毎に繰り返し行う異常
検出処理と、上記所定の期間内に上記自計算機と上記他
計算機の上記異常検出処理により状態情報の通知がされ
た場合には、上記自計算機の状態を示す状態情報と他計
算機の状態を示す状態情報とを記憶する計算機状態テー
ブルの状態情報を、通知された状態情報に基づいて変更
して、上記所定の期間内に上記他計算機の異常検出工程
により上記状態情報の通知がされない場合には、上記計
算機状態テーブルの上記他計算機の状態情報に上記他計
算機の異常検出部からの通知がされていないことを示す
未通知情報を設定する異常受信処理と、上記計算機状態
テーブルを参照して、上記状態情報に未通知情報の設定
されている他計算機と上記状態情報に異常状態を示す状
態情報の設定されている他計算機とを選択して、選択し
た他計算機に対して計算機の状態を診断して、診断した
診断結果情報を自計算機の上記異常受信部に通知する診
断処理とをコンピュータに実行させることを特徴とす
る。
【0018】この発明に係る所定のネットワークにより
接続された少なくとも2台の計算機それぞれが自計算機
の状態を監視して、監視した結果を他計算機に通知する
上記計算機上で動作する計算機異常処理プログラムを記
録したコンピュータにより読み取り可能な記録媒体は、
上記自計算機の状態を監視して上記自計算機の正常状態
と異常状態とのいずれかを示す状態情報を生成して、上
記自計算機と上記他計算機とに対して上記生成した状態
情報を通知する動作を所定の期間毎に繰り返し行う異常
検出処理と、上記所定の期間内に上記自計算機と上記他
計算機の上記異常検出処理により状態情報の通知がされ
た場合には、上記自計算機の状態を示す状態情報と他計
算機の状態を示す状態情報とを記憶する計算機状態テー
ブルの状態情報を、通知された状態情報に基づいて変更
して、上記所定の期間内に上記他計算機の異常検出工程
により上記状態情報の通知がされない場合には、上記計
算機状態テーブルの上記他計算機の状態情報に上記他計
算機の異常検出部からの通知がされないことを示す未通
知情報を設定する異常受信処理と、上記計算機状態テー
ブルを参照して、上記状態情報に未通知情報の設定され
ている他計算機と異常状態を示す状態情報の設定されて
いる他計算機とを選択して、選択した他計算機の状態を
診断して、診断した診断結果情報を自計算機の上記異常
受信部に通知する診断処理とを有することを特徴とす
る。
【0019】
【発明の実施の形態】以下、実施の形態について、図を
用いて説明する。以下の実施の形態では、プロセッサを
計算機と称する。また、診断部を診断機構、異常検出部
を異常検出機構、異常受信部を異常受信機構とする。ま
た、ネットワークで接続された計算機システムを、クラ
スタ型並列計算機とする。
【0020】実施の形態1.本実施の形態における機器
構成を図1に示す。図1に示すように、実施の形態1に
おける計算機1は、メモリ2、計算機状態テーブル3、
異常検出機構4、異常受信機構5、診断機構6を備え
る。
【0021】図2は、本実施の形態におけるクラスタ型
計算機を示した図である。図2に示すように、各計算機
1はネットワーク7によって接続される。
【0022】図1に示したメモリ2は、計算機状態テー
ブル3を記憶している。また、異常検出機構4はメモリ
2にロードされたプログラムである。また、異常受信機
構5は、メモリ2にロードされたプログラムである。ま
た、診断機構6は、メモリ2にロードされたプログラム
である。また、メモリ2にロードされた各プログラム
は、計算機のCPU(central procecs
sing unit)によって実行されるものである。
また、各プログラムは、FXD(flexible d
isk)やROM(read only memor
y)の記録媒体に記録されて、メモリ2にロードされ
る。また、メモリ2は、異常検出機構4および診断機構
6が検出した異常計算機の識別子を一時的に記憶してお
く役割を持つ。
【0023】図3は計算機状態テーブル3の例である。
計算機状態テーブル3は、「計算機識別子」「状態」の
2つのエントリを持ち、計算機が正常であれば「状態」
の欄に「正常」、異常が発生していれば「異常」を示す
値が入る。
【0024】図4は、異常検出機構4の役割を示した図
である。異常検出機構4の役割は、自計算機が正常に動
作しているかどうかを監視し、異常を発見した場合には
自計算機および他計算機の備える異常受信機構5に異常
を通知する。
【0025】図5は、異常受信機構5の役割を示した図
である。異常受信機構5は、異常検出機構4および診断
機構6からの通知を受信した場合、自計算機上の計算機
状態テーブル3の「状態」欄を「正常」、「保留」、
「異常」に変更する役割を持つ。
【0026】図6は、診断機構6の役割を示した図であ
る。本実施の形態における診断機構6は、例えばUNI
X(登録商標)のpingコマンドやnetstatコ
マンド、異常が発生した計算機上で動作しているソフト
ウェアが使用している通信ポートへの接続など、計算機
間の通信状態を診断するものである。例えばpingコ
マンドにより、pingコマンドを発行した計算機と相
手計算機がネットワークで接続されているかどうかがわ
かり、通信ポートに接続を試みることにより、異常計算
機側の通信ポートが正常に機能しているかどうかがわか
る。
【0027】診断機構6は、異常検出機構4が自計算機
の異常検出処理の後、計算機状態テーブル3に「保留」
と示してある計算機に対して、計算機が正常に動作をし
ているか外部から診断を行い、結果を異常受信機構5に
通知する役割を持つ。
【0028】まず、本実施の形態における異常検出機構
4の動作手順について述べる。図7は、異常検出機構4
の動作手順を示したフローチャートである。図7のステ
ップS101において自計算機の異常検出作業を行い、
ステップS102にて自計算機に異常が発生していたか
どうかを調べる。調査の結果、計算機が正常に動作して
いた場合には、ステップS103にて全計算機上にある
異常受信機構5に、自計算機が正常である旨を通知す
る。ステップS102にて計算機に異常が発生した場合
には、全計算機上にある異常受信機構5に自計算機が異
常である旨を通知する。この異常検出機構4の動作は、
ある程度の時間間隔を置いて周期的に行われることが考
えられる。
【0029】次に、本実施の形態における異常受信機構
5の動作手順について述べる。図8は、異常受信機構5
の動作手順を示したフローチャートである。ステップS
111で過去にどの計算機上にある異常検出機構4から
も「正常」/「異常」通知を受信していなければ、ステ
ップS112で計算機状態テーブル3の「状態」欄をす
べて「正常」とする。そして、計算機状態テーブル3で
「正常」と示されている全計算機の異常検出機構4か
ら、「正常」/「異常」の通知を受信するまで以下のS
114〜S117を繰り返す。ステップS114にて、
他計算機上にある異常検出機構4からの正常通知、また
は異常通知が送信されるのを待つ。ステップS115に
て、ステップS114で受信した他計算機からの通知
が、所定の時間内に届いた場合には、ステップS116
にて、その通知が異常を示すものであるか正常であるか
を調べ、異常を示すものであれば、ステップS117に
て計算機状態テーブル3内の異常計算機の「状態」欄を
「保留」に切り替え、ステップS113へ戻る。また、
ステップS115にて、所定の時間内に通知が届かなか
った場合には、ステップS117にて計算機状態テーブ
ル3内のタイムアウトを起こした計算機の「状態」欄を
「保留」に変更する。ステップS113にて、すべての
計算機から「正常」/「異常」通知が送信された(タイ
ムアウトが発生した場合を含む)後、ステップS118
へ進み、計算機状態テーブル3の「状態」欄で「保留」
と示された計算機が存在するかどうか調べる。「保留」
はステップS117の処理で設定される状態であり、所
定の時間内に他計算機の異常検出機構4から通知が届か
なかった場合に設定される。ステップS118で存在し
た場合には、「保留」と設定されている計算機に対し
て、自計算機の診断機構6が診断を行う。このため、ス
テップS119にて、自計算機上にある診断機構6から
の診断結果の通知(「一時的異常」、「恒久的異常」)
を待つ。「一時的異常」は、自計算機の異常検出機構4
が自計算機の異常を検出した場合の異常を指し、「恒久
的異常」は、自計算機の異常を他計算機の診断機構6が
診断した場合に、診断結果が異常である場合を指す。例
えば、計算機Aの異常検出機構4が「計算機Aに異常が
発生」していることを検出して、計算機Bに通知する。
計算機Bは、計算機Bの計算機状態テーブル3の計算機
Aの状態を「保留(一時的異常)」と設定する。そし
て、その後、計算機Bの診断機構6が計算機Aに対して
診断を行い、診断結果が異常である時に計算機状態テー
ブルの計算機Aの状態を「異常(恒久的異常)」と設定
する。そして、ステップS120にて、自計算機上にあ
る診断機構6からの再診断結果を待ち、結果を受信後、
「保留」と示された計算機の診断結果(「正常」/「異
常」)を計算機状態テーブル3に記載する。再診断結果
が、「一時的異常」或いは、「恒久的異常」のいずれか
である場合は、「異常」とし、いずれでもない場合は、
「正常」とする。異常受信機構5の動作は、異常検出機
構4の動作と連動して、ある程度の時間をおいて周期的
に行われることが考えられる。
【0030】次に、診断機構6の動作手順について説明
する。図9は診断機構の動作手順を示したフローチャー
トである。ステップS121で、計算機状態テーブル内
に「保留」と示された全計算機に対して診断を行ったか
どうかを調べ、実行していなければステップS122に
て計算機に対し診断を行う。「保留」と示された全計算
機に対して診断を行ったことは、診断機構6が診断を行
ったことを示す診断済み情報をメモリに一時的に記憶し
ておいて、その診断済み情報を確認することによってス
テップS121の確認処理を行うものとする。ステップ
S123にて、診断結果(正常/異常)をメモリ2内に
保管し、ステップS121へ戻る。ステップS121
で、全ての計算機に対し、診断プログラムを実行し終え
たらステップS124へ進み、メモリ2内に保管された
診断結果(正常/異常)を異常受信機構5に通知する。
【0031】異常受信機構5の動作を図8に説明した
が、図8のステップS116の処理を省略するととも
に、ステップS117の処理を所定の時間内に通知が届
かないことを示す「保留(未通知情報)」に切り替える
処理に変更して、ステップS118の処理で「保留」と
設定されている計算機に対して、自計算機の診断機構6
が診断を行う処理に加えて、「異常」と設定されている
計算機に対して、自計算機の診断機構6によって診断を
行う処理を追加しても構わない。
【0032】本実施の形態により、以下の効果が得られ
る。自計算機の状態だけでなく、自計算機の外部にある
他の計算機からも異常検出を行うことにより、計算機に
恒久的異常が発生しているのか、それとも一時的異常が
発生したのかという判別をより正しく行うことができ
る。例えば、図8のステップS115にて所定の時間内
に異常検出機構からの通知が来ないために計算機状態テ
ーブルに「保留」と示された場合、この異常が一時的異
常なのか恒久的異常なのかを他計算機上のpingコマ
ンドや、その計算機で動作しているソフトウェアが使用
している通信ポートへの接続により知ることができる。
例えばpingコマンドで相手計算機の応答がない場合
には計算機1もしくはネットワーク7の異常が考えられ
る。この場合には恒久的異常であり、pingコマンド
も通信ポートへの接続も成功した場合には、発見した異
常は一時的異常である。また、本システムを拡張し、診
断機構からの情報を利用することにより、さらに以下の
ことも可能となる。例えば、pingコマンドに失敗し
た場合には、診断の対象となった計算機のハードウェア
の交換、もしくはハードウェアの再起動の対処をする必
要がある。また、pingコマンドには成功したが通信
ポートへの接続に失敗した場合には、診断の対象となっ
た計算機にソフトウェア異常が発生している場合がある
ため、この場合にはソフトウェアの再起動を行えばよ
く、計算機の再起動などは必要ないと考えられる。この
ように、自計算機を外部からの診断プログラムの実行に
より診断して、診断結果の情報を利用すれば、計算機異
常時の対処をより適切に行うことができる。
【0033】この実施の形態1では、複数の計算機をネ
ットワークで結合することによって構成されたクラスタ
型並列計算機において、以下の特徴を持つ計算機異常処
理システムについて、一例を説明した。各計算機は、自
計算機の異常を検出し、異常受信機構に通知する異常検
出機構と、異常検出機構から送信された異常検出結果を
受信する異常受信機構、並列計算機を構成する全計算機
の状態(正常、異常)を示す計算機状態テーブル、およ
び異常検出機構によって「異常」と判断された計算機を
外部から診断する診断機構を構成要素として持つ。各計
算機上の異常検出機構は、計算機の異常を検出した場
合、クラスタを構成する全計算機上の異常受信機構に異
常が発生した旨を通知する。各計算機上の異常受信機構
は、計算機状態テーブルに「正常」と示している異常検
出機構からの異常通知の受信を待ち、異常検出機構から
の異常を受信した場合、自計算機上にある計算機状態テ
ーブルの該当欄を「保留」に変更する。各計算機上の診
断機構は、計算機状態テーブルに「保留」と示されてい
る計算機を診断して正常か異常かを判断し、自計算機上
の異常受信機構に通知する。各計算機上の異常受信機構
は、自計算機上の診断機構からの「異常」または「正
常」の診断結果を受信し、計算機状態テーブルに「異
常」または「正常」と記す。
【0034】実施の形態2.実施の形態2における計算
機構成は実施の形態1における図1に示した計算機1と
同一である。実施の形態2におけるメモリ2の役割は実
施の形態1と同一である。また、実施の形態2における
計算機状態テーブル3は、実施の形態1における計算機
状態テーブルと同一であり、図3に示す。実施の形態2
における異常検出機構4の役割は実施の形態1と同一で
あり、動作手順は図6に示すとおりである。
【0035】実施の形態2における異常受信機構5は、
全計算機上にある異常検出機構4からの異常検出結果を
受信し、計算機状態テーブル3を「正常」から「保留」
に変更し、全計算機上にある診断機構6からの異常通知
を受信して、自計算機上の計算機状態テーブル3の「状
態」欄を「異常」もしくは「正常」に変更する役割を持
つ。本実施の形態における異常受信機構5が実施の形態
1と異なる点は、実施の形態1では自計算機上の診断機
構6のみから診断通知を受信するのに対し、実施の形態
2では、全計算機上にある診断機構6から診断通知を受
信する点である。本実施の形態における異常受信機構の
役割の概念図を図10に示す。
【0036】実施の形態2における診断機構6は、図1
0に示すように、計算機状態テーブル3に「保留」と示
された計算機に対して診断プログラムを実行し、その結
果を全計算機上にある異常受信機構5に通知する役割を
持つ。実施の形態2における診断機構6が実施の形態1
における診断機構と異なる点は、実施の形態1では自計
算機上の異常受信機構5にのみ通知するのに対し、実施
の形態2では全計算機上にある異常受信機構5に通知す
る点である。本実施の形態における診断機構6の役割の
概念図を図11に示す。図11では、診断機構6は、計
算機状態テーブル3に「保留」と示された計算機に対し
て診断プログラムを実行し、その結果を全計算機上にあ
る異常受信機構5に通知している。
【0037】本実施の形態における異常受信機構5の動
作手順を説明する。図12は本実施の形態における異常
受信機構5の動作手順を示したフローチャートである。
まず、ステップS201で実施の形態1の図8に示した
ステップS111〜S117を実行する。そして、ステ
ップS202で計算機状態テーブル3に「保留」と書か
れた計算機が存在するかどうか調べる。存在した場合に
は、ステップS203にて全計算機上にある診断機構6
からの正常/異常通知を待つ。そして、各計算機上の診
断機構6の結果を受信したら、計算機状態テーブル3に
「保留」と示されている全計算機に対し、以下の処理を
行う。「保留」と示されたある計算機に対して診断を行
った結果、異常と判断した診断機構6が1つでもある場
合には、ステップS206で、計算機状態テーブル3
の、異常と判断した診断機構6を備えるその計算機の
「状態」エントリを「異常」に変更する。
【0038】本実施の形態における診断機構6の動作手
順を説明する。図13は、本実施の形態における診断機
構6の動作手順を示したフローチャートである。まずス
テップS211で、実施の形態1における図9のステッ
プS121〜S123を実行する。そして、ステップS
212で、S121〜S123で行った診断結果を全計
算機上にある異常受信機構5に送信する。
【0039】本実施の形態により、以下の効果が得られ
る。本実施の形態が実施の形態1と異なる点は、各計算
機上の診断機構6が行った異常検出結果を、全計算機で
共有する点である。これにより、自計算機で発見するこ
とができなかった計算機異常に関する情報も取得するこ
とができる。また、各計算機上の診断機構6によって異
常検出結果が異なる場合は、並列計算機全体の異常が考
えられるが、このような異常情報も得ることができる。
【0040】この実施の形態2では、複数の計算機をネ
ットワークで結合することによって構成されたクラスタ
型並列計算機において、以下の特徴を持つ計算機異常処
理システムについて、一例を説明した。各計算機上の診
断機構は、計算機状態テーブルに「保留」と示されてい
る計算機が正常に動作しているかどうかを診断後、診断
結果(正常もしくは異常)を全計算機上の異常受信機構
に通知する。各計算機上の異常受信機構は、全計算機上
にある診断機構から異常通知もしくは正常通知を受信
し、計算機状態テーブルに「異常」または「正常」と記
す。
【0041】実施の形態3.実施の形態3における計算
機は、実施の形態1における構成のほか、マスタ識別表
8をメモリ2内に持つ。実施の形態3のメモリ2の構成
を図14に示す。マスタ識別表8は例えばマスタ識別子
を格納するなどして、クラスタ内のマスタを示すもので
ある。実施の形態3における計算機状態テーブル3は、
実施の形態1の図3と同一である。実施の形態3におけ
る診断機構6は、実施の形態1の図9と同一である。
【0042】本実施の形態における異常検出機構4の役
割を示した概念図を図15に示す。本実施の形態におけ
る異常検出機構4と実施の形態1における異常検出機構
4の差異は、本実施の形態における異常受信機構5が図
15に示すように、マスタ上にある異常受信機構5に異
常検出結果を送信するのに対し、実施の形態1における
異常検出機構4は全計算機上の異常受信機構5に異常検
出結果を送信する点である。
【0043】本実施の形態における異常受信機構5の役
割を示した概念図を図16から図18に示す。本実施の
形態における異常受信機構5と実施の形態1における異
常受信機構5の差異は2点る。まず1点目は、図16に
示すように、本実施の形態における異常受信機構5は、
マスタの異常受信機構のみが全計算機上の異常検出機構
4が送信した異常検出結果を受信するのに対し、実施の
形態1における異常受信機構5は、全計算機上の異常受
信機構5が、全計算機上の異常検出機構4が送信した異
常検出結果を受信する点である。2点目は、図17に示
すように、実施の形態3では、マスタの異常受信機構5
がスレーブの異常受信機構5に、全計算機上の異常検出
機構4から受信した異常検出結果を送信する機能を新た
に持った点である。図18は、マスタより通知された異
常検出結果に基づいて自計算機の計算機状態テーブル3
を更新して、更新後の計算機状態テーブル3の「状態」
が「保留」である計算機を対象に診断機構6により診断
を行い、その診断結果を異常受信機構5が受信すること
を示している。
【0044】まず、本実施の形態における異常検出機構
4の動作手順を示す。図19は、本実施の形態における
異常検出機構の動作手順を示したフローチャートであ
る。ステップS301にて、自計算機の異常検出作業を
行い、ステップS302で、自計算機に異常が発生して
いたかどうかを調べる。計算機が正常に動作していたな
らばステップS303へ進み、マスタ上の異常受信機構
5に、正常である旨を通知する。計算機に異常が発生し
ていたならばステップS304へ進み、マスタ上の異常
受信機構5に、自計算機に異常が発生した旨を通知す
る。
【0045】本実施の形態における異常受信機構5の動
作手順を説明する。図20は、実施の形態3における異
常受信機構5の動作手順を示したフローチャートであ
る。ステップS311にて、実施の形態1での図8のス
テップS111〜S112を実行し、その後、マスタ識
別表8を参照し、自計算機がマスタであるかどうか調べ
る(ステップS312)。自計算機がマスタであったら
ステップS313にて、実施の形態1での図8のステッ
プS113〜S117を実行し、計算機状態テーブル3
の「状態」欄に「保留」と示された計算機が存在するか
どうかを調べる(ステップS314)。存在した場合に
は、ステップS315にて全スレーブ上の異常受信機構
5に「保留」と示された全計算機識別子を通知し、ステ
ップS316で自計算機上にある診断機構6からの正常
/異常通知が戻るのを待つ。そして、ステップS317
で、診断機構6からの結果を受け、計算機状態テーブル
3の該当欄に、正常と診断された場合には、「正常」と
記し、異常と診断された場合には「異常」と記す。ステ
ップS314にて、「保留」と示された計算機が存在し
なかった場合には、全スレーブ上の異常受信機構5に、
「保留」と示された計算機がない旨を通知し(ステップ
S318)、処理を終了する。ステップS312にて、
自計算機がスレーブであったならば、ステップS319
にて、マスタ計算機が持っている各異常検出機構4の異
常検出結果が、送信されるのを待ち、マスタ計算機上の
異常受信機構5から受信した、計算機状態テーブル3に
「保留」と示されている計算機の一覧を、自計算機上の
計算機状態テーブル3に反映する(ステップS32
0)。そして、ステップS321にて、自計算機上の計
算機状態テーブル3を参照し、「保留」と示されている
計算機が存在した場合には、ステップS316〜S31
7を実行する。ステップS321にて、自計算機上の計
算機状態テーブル3を参照し、「保留」と示されている
計算機が存在しない場合には、処理を終了する。
【0046】本実施の形態により、以下の効果が得られ
る。本実施の形態と実施の形態1との違いは、実施の形
態1では各計算機上の異常検出機構の異常検出結果は全
計算機に通知されていた。しかし、本実施の形態では、
各計算機の異常検出機構の結果を一度マスタに集めてか
ら再度全計算機に送信するため、通信負荷を低減させる
ことができる。
【0047】この実施の形態3では、クラスタ型並列計
算機において、クラスタ内の計算機のうち1台だけをマ
スタとし、その他の計算機をスレーブとした構成におい
て、以下の特徴を有する算機異常処理システムの一例を
説明した。各計算機上の異常検出機構は、自計算機の異
常を上記マスタにだけ通知する。マスタ上の異常受信機
構は、全スレーブ上の異常受信機構から異常通知を受信
した後、全スレーブに異常検出結果を通知する。
【0048】実施の形態4.実施の形態4における計算
機1は実施の形態3と同一であり、図14に示す通りで
ある。実施の形態4におけるマスタ識別表8は実施の形
態3と同一である。実施の形態4における計算機状態テ
ーブル3は、実施の形態3と同一であり、図3に示す。
実施の形態4における診断機構6は、マスタ上の診断機
構6のみ動作し、スレーブ上の診断機構6は動作しない
という特徴をもつ。実施の形態4における異常検出機構
4は実施の形態3と同一であり、動作手順は図19に示
すとおりである。
【0049】実施の形態4における異常受信機構5の役
割の概念図を図21から図23に示す。実施の形態4に
おける異常受信機構5は、図21に示すように、各計算
機上にある異常検出機構4からの異常検出結果を受信す
る役割のほか、図22に示すように、マスタ上の異常受
信機構5が自計算機上にある診断機構6からの異常検出
結果を受信し、図23に示すように、結果を全スレーブ
上の異常受信機構5に送信する役割を持つ。本実施の形
態における異常受信機構5が実施の形態3と異なる点
は、実施の形態3が全計算機上の診断機構6からの結果
を受信するのに対し、実施の形態4では、自計算機上の
診断機構6のみから結果を受信する点である。
【0050】以下、本実施の形態における異常受信機構
5の動作手順を説明する。図24は、本実施の形態にお
ける異常受信機構5の動作手順を示したフローチャート
である。ステップS401で、実施の形態1における図
8のステップS111、S112を実行し、マスタ識別
表8を参照することにより、自計算機がマスタであるか
どうか確認する(ステップS402)。自計算機がマス
タであった場合には、ステップS403にて、実施の形
態1における図8のステップS113〜S117を実行
する。そして、ステップS403終了後、計算機状態テ
ーブル3を参照し、「保留」と示された計算機があった
場合には、ステップS405で、自計算機上の診断機構
6からの「正常」/「異常」通知が届くのを待つ。そし
て、通知が届いたら、診断機構6からの通知を受け、計
算機状態テーブル3の「保留」とされた計算機の「状
態」欄に「正常」または「異常」と記す(ステップS4
06)。そして、ステップS407で、計算機状態テー
ブル3の「状態」欄を参照し、「異常」と記されている
計算機が存在しないかどうか調べる。「異常」と記され
た計算機が存在した場合には、ステップS408にて、
全スレーブ上の異常受信機構5に、異常と診断された計
算機を通知する。異常計算機が存在しない場合には、ス
テップS409にて、異常計算機が存在しない旨を通知
する。ステップS402にて、自計算機がスレーブであ
った場合には、ステップS410へ進み、マスタから、
マスタ計算機上の計算機状態テーブル3に「異常」と記
された計算機が通知されるのを待つ。そして、ステップ
S411で、異常計算機の通知があれば、各計算機上の
計算機状態テーブル3の異常計算機の「状態」欄に「異
常」と記す。
【0051】以下、本実施の形態における診断機構6の
動作手順を説明する。図25は本実施の形態における診
断機構6の動作手順を示したフローチャートである。ス
テップS421で、自計算機がマスタであるかどうかを
調べ、マスタであればステップS422で、実施の形態
2における図13のステップS211〜212を実行す
る。自計算機がスレーブであれば何もしない。
【0052】本実施の形態により、以下の効果が得られ
る。本実施の形態と実施の形態3が異なる点は、実施の
形態3では、異常検出機構4の異常検出結果を全計算機
に送信し、その結果を元に全計算機上の診断機構6が計
算機の再診断を行っていた。しかし、本実施の形態で
は、マスタ計算機が異常検出機構4による異常検出およ
び診断機構6による異常検出をすべて行い、その結果を
全計算機に通知しているため、マスタ以外の計算機の異
常検出に伴う負荷を低減させることができる。また、全
体の通信量も低減することができる。
【0053】この実施の形態4では、以下の特徴を備え
た計算機異常処理システムの一例を説明した。マスタ計
算機上の診断機構のみが計算機状態テーブルに「保留」
と示されている計算機に対して正常に動作しているか診
断を行い、診断結果をマスタにのみ通知する。マスタ上
の異常受信機構は、診断機構による診断結果をスレーブ
上の異常受信機構に通知し、スレーブ上の異常受信機構
は、その結果を計算機状態テーブルに反映する。
【0054】実施の形態5.実施の形態5における計算
機1は、実施の形態3と同一であり、図14に示す。実
施の形態5におけるメモリ2およびマスタ識別表8の役
割は実施の形態3に示す通りである。実施の形態5にお
ける計算機状態テーブル3は実施の形態3と同一であ
り、図3に示す。実施の形態5における異常検出機構4
の役割は、実施の形態3と同一であり、動作手順は図1
3に示す通りである。実施の形態5における異常受信機
構5の役割は実施の形態3と同一であり、動作手順は図
20に示す通りである。
【0055】図26は、実施の形態5における診断機構
6の役割を示した図である。実施の形態5における診断
機構6の役割は、実施の形態3に示す役割のほか、図2
6に示すように、マスタに対しても正常に動作している
かどうか確認を行う。
【0056】以下、実施の形態5における診断機構6の
動作手順を示す。図27は、実施の形態5における診断
機構6による再診断の動作手順を示したフローチャート
である。ステップS501で、実施の形態1における図
9のステップS121〜S123を実行する。ステップ
S501実行の結果、「保留」と示されていた計算機に
異常が確認された場合(ステップS502)には、自計
算機上の異常受信機構5に、計算機の異常を通知する
(ステップS504)。ステップS502にて、「保
留」と示されていた計算機が正常であった場合には、ス
テップS503にて、マスタに対し診断プログラムを実
行してマスタに異常が発生していないかどうかを調べ
る。ステップS504にて、「保留」と示された計算機
およびマスタの診断結果を自計算機上の異常受信機構5
に通知する。
【0057】本実施の形態と実施の形態3が異なる点
は、実施の形態3は異常検出機構4が異常と判断した計
算機に対してのみ、診断機構6が計算機の異常検出を行
った。しかし、本実施の形態では、異常検出機構が異常
と判断した場合、異常と判断した計算機だけでなく、マ
スタの異常検出も行う。これにより、異常個所がマスタ
であった場合にも異常を検出することができる。
【0058】この実施の形態5では、各スレーブ上の診
断機構は、「保留」と診断された計算機およびマスタに
対して計算機異常を診断することにより、マスタの異常
も検出することを特徴とした計算機異常処理システムの
一例を説明した。
【0059】
【発明の効果】以上のように、この発明では、以下の効
果が得られる。自計算機の状態だけでなく、自計算機の
外部にある他の計算機からも異常検出を行うことによ
り、計算機に恒久的異常が発生しているのか、それとも
一時的異常が発生したのかという判別をより正しく行う
ことができる。例えば、所定の時間内に異常検出部から
の通知が来ないために計算機状態テーブルに「保留(一
時的異常)」と示された場合、「保留」と設定されてい
る計算機に対して他の計算機から状態を診断する。診断
した結果が「異常」を示す場合は、恒久的異常であると
判断でき、診断した結果が「正常」を示す場合は、一時
的異常であると判断できる。この判断した結果を利用す
ることにより、診断の対象となった計算機のハードウェ
アの交換、もしくはハードウェアの再起動の対処をする
必要がある。また、診断の対象となった計算機にソフト
ウェア異常が発生している場合があるため、この場合に
はソフトウェアの再起動を行えばよく、計算機の再起動
などは必要ないと考えられる。このように、自計算機を
外部からの診断プログラムの実行により診断して、診断
結果の情報を利用すれば、計算機異常時の対処をより適
切に行うことができる効果がある。
【0060】また、各計算機上の診断部が行った異常検
出結果を、全計算機で共有する。これにより、自計算機
で発見することができなかった計算機異常に関する情報
も取得することができる効果があう。また、各計算機上
の診断部によって異常検出結果が異なる場合は、ネット
ワーク上の計算機全体の異常が考えられるが、このよう
な異常情報も得ることができる効果がある。
【0061】また、各計算機の異常検出部の結果を一度
マスタ計算機に集めてから再度全計算機に送信するた
め、通信負荷を低減させることができる効果がある。
【0062】また、マスタ計算機が異常検出部による異
常検出および診断部による異常検出をすべて行い、その
結果を全計算機に通知しているため、マスタ計算機以外
の計算機の異常検出に伴う負荷を低減させることができ
る効果がある。また、全体の通信量も低減することがで
きる効果がある。
【0063】また、異常検出部が異常と判断した場合、
異常と判断した計算機だけでなく、マスタ計算機の異常
検出も行う。これにより、異常個所がマスタ計算機であ
った場合にも異常を検出することができる効果がある。
【図面の簡単な説明】
【図1】実施の形態1における機器構成を示す図。
【図2】実施の形態1におけるクラスタ型計算機を示し
た図。
【図3】実施の形態1における計算機状態テーブル3の
例を示す図。
【図4】実施の形態1における異常検出機構4の役割を
示した図。
【図5】実施の形態1における異常受信機構5の役割を
示した図。
【図6】実施の形態1における診断機構6の役割を示し
た図。
【図7】実施の形態1における異常検出機構4の動作手
順を示したフローチャート図。
【図8】実施の形態1における異常受信機構5の動作手
順を示したフローチャート図。
【図9】実施の形態1における診断機構6の動作手順を
示したフローチャート図。
【図10】実施の形態2における異常受信機構5の役割
の概念図。
【図11】実施の形態2における診断機構6の役割の概
念図。
【図12】実施の形態2における異常受信機構5の動作
手順を示したフローチャート図。
【図13】実施の形態2における診断機構6の動作手順
を示したフローチャート図。
【図14】実施の形態3におけるメモリ2の構成を示す
図。
【図15】実施の形態3における異常検出機構4の役割
を示した概念図。
【図16】実施の形態3における異常受信機構5の役割
を示した概念図。
【図17】実施の形態3における異常受信機構5の役割
を示した概念図。
【図18】実施の形態3における異常受信機構5の役割
を示した概念図。
【図19】実施の形態3における異常検出機構4の動作
手順を示したフローチャート図。
【図20】実施の形態3における異常受信機構5の動作
手順を示したフローチャート図。
【図21】実施の形態4における異常受信機構5の役割
の概念図。
【図22】実施の形態4における異常受信機構5の役割
の概念図。
【図23】実施の形態4における異常受信機構5の役割
の概念図。
【図24】実施の形態4における異常受信機構5の動作
手順を示したフローチャート図。
【図25】実施の形態4における診断機構6の動作手順
を示したフローチャート図。
【図26】実施の形態5における診断機構6の役割を示
した図。
【図27】実施の形態5における診断機構6による再診
断の動作手順を示したフローチャート図。
【図28】従来のマルチプロセッサシステムのシステム
構成の一例を示す図。
【符号の説明】
1 計算機、2 メモリ、3 計算機状態テーブル、4
異常検出機構、5異常受信機構、6 診断機構、7
ネットワーク、8 マスタ識別表。
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B034 DD02 5B042 GA11 GA12 GC08 GC12 JJ04 JJ17 KK09 LA19 MC15 5B045 JJ02 JJ08 JJ13 JJ48 (54)【発明の名称】 計算機異常処理システムおよび、計算機異常処理方法および、計算機で動作する計算機異常処理 プログラムおよび、コンピュータにより読み取り可能な記録媒体に記録された計算機異常処置プ ログラム

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 所定のネットワークにより接続された少
    なくとも2台の計算機を備えて、上記2台の計算機それ
    ぞれが自計算機の状態を監視して、監視した結果を他計
    算機に通知する計算機異常処理システムにおいて、 上記2台の計算機はそれぞれ、 上記自計算機の状態を示す状態情報と他計算機の状態を
    示す状態情報とを記憶する計算機状態テーブルと、 上記自計算機の状態を監視して上記自計算機の正常状態
    と異常状態とのいずれかを示す状態情報を生成して、上
    記自計算機と上記他計算機とに対して上記生成した状態
    情報を通知する動作を所定の期間毎に繰り返し行う異常
    検出部と、 上記所定の期間内に上記自計算機と上記他計算機の上記
    異常検出部から状態情報の通知がされた場合には、上記
    計算機状態テーブルの上記状態情報を、通知された状態
    情報に基づいて変更して、上記所定の期間内に上記他計
    算機の異常検出部から上記状態情報の通知がされない場
    合には、上記計算機状態テーブルの上記他計算機の状態
    情報に上記他計算機の異常検出部からの通知がされない
    ことを示す未通知情報を設定する異常受信部と、 上記計算機状態テーブルを参照して、上記状態情報に未
    通知情報の設定されている他計算機と上記状態情報に異
    常状態を示す状態情報の設定されている他計算機とを選
    択して、選択した他計算機に対して計算機の状態を診断
    して、診断した診断結果情報を自計算機の上記異常受信
    部に通知する診断部とを備えたことを特徴とする計算機
    異常処理システム。
  2. 【請求項2】 上記診断部は、上記診断結果情報を上記
    診断された他計算機に対して通知し、 上記診断された他計算機の上記異常受信部は、上記診断
    結果情報を受信して、上記計算機テーブルの状態情報を
    上記受信した診断結果情報に基づいて変更することを特
    徴とする請求項1記載の計算機異常処理システム。
  3. 【請求項3】 上記2台の計算機のうち一方はマスタ計
    算機であり、他方はスレーブ計算機であり、 上記マスタ計算機の異常検出部と上記スレーブ計算機の
    異常検出部とは、上記監視した自計算機の状態情報を上
    記マスタ計算機の異常受信部へ通知し、 上記マスタ計算機の異常受信部は、上記マスタ計算機の
    異常検出部と上記スレーブ計算機の異常検出部とより通
    知された上記状態情報を、上記スレーブ計算機の異常受
    信部に通知することを特徴とする請求項1記載の計算機
    異常処理システム。
  4. 【請求項4】 上記マスタ計算機の診断部は、上記マス
    タ計算機の計算機状態テーブルを参照して、上記状態情
    報に上記未通知情報の設定されているスレーブ計算機と
    上記状態情報に異常状態を示す状態情報の設定されてい
    るスレーブ計算機とを選択して、選択したスレーブ計算
    機に対して計算機の状態を診断して、診断した診断結果
    情報を上記マスタ計算機の異常受信部に通知し、 上記マスタ計算機の異常受信部は、上記マスタ計算機の
    診断部より通知された上記診断結果情報を、上記スレー
    ブ計算機の異常受信部に通知し、 上記スレーブ計算機の異常受信部は、受信した上記診断
    結果情報に基づいて、上記計算機状態テーブルを更新す
    ることを特徴とする請求項3記載の計算機異常処理シス
    テム。
  5. 【請求項5】 上記スレーブ計算機の上記診断部は、 上記スレーブ計算機の計算機状態テーブルを参照して、
    上記状態情報に上記未通知情報の設定されているマスタ
    計算機と上記状態情報に異常状態を示す状態情報のマス
    タ計算機を選択して、選択したマスタ計算機に対して計
    算機の状態を診断することを特徴とする請求項3記載の
    計算機異常処理システム。
  6. 【請求項6】 所定のネットワークにより接続された少
    なくとも2台の計算機それぞれが自計算機の状態を監視
    して、監視した結果を他計算機に通知する計算機異常処
    理方法において、 上記自計算機の状態を監視して上記自計算機の正常状態
    と異常状態とのいずれかを示す状態情報を生成して、上
    記自計算機と上記他計算機とに対して上記生成した状態
    情報を通知する動作を所定の期間毎に繰り返し行う異常
    検出工程と、 上記所定の期間内に上記自計算機と上記他計算機の上記
    異常検出工程により状態情報の通知がされた場合には、
    上記自計算機の状態を示す状態情報と他計算機の状態を
    示す状態情報とを記憶する計算機状態テーブルの状態情
    報を、通知された状態情報に基づいて変更して、上記所
    定の期間内に上記他計算機の異常検出工程により上記状
    態情報の通知がされない場合には、上記計算機状態テー
    ブルの上記他計算機の状態情報に上記他計算機の異常検
    出工程により上記状態情報の通知がされないことを示す
    未通知情報を設定する異常受信工程と、 上記計算機状態テーブルを参照して、上記状態情報に未
    通知情報の設定されている他計算機と上記状態情報に異
    常状態を示す状態情報の設定されている他計算機とを選
    択して、選択した他計算機に対して計算機の状態を診断
    して、診断した診断結果情報を自計算機の上記異常受信
    工程に通知する診断工程とを備えたことを特徴とする計
    算機異常処理方法。
  7. 【請求項7】 所定のネットワークにより接続された少
    なくとも2台の計算機それぞれが自計算機の状態を監視
    して、監視した結果を他計算機に通知する上記計算機上
    で動作する計算機異常処理プログラムであって、 上記自計算機の状態を監視して上記自計算機の正常状態
    と異常状態とのいずれかを示す状態情報を生成して、上
    記自計算機と上記他計算機とに対して上記生成した状態
    情報を通知する動作を所定の期間毎に繰り返し行う異常
    検出処理と、 上記所定の期間内に上記自計算機と上記他計算機の上記
    異常検出処理により状態情報の通知がされた場合には、
    上記自計算機の状態を示す状態情報と他計算機の状態を
    示す状態情報とを記憶する計算機状態テーブルの状態情
    報を、通知された状態情報に基づいて変更して、上記所
    定の期間内に上記他計算機の異常検出工程により上記状
    態情報の通知がされない場合には、上記計算機状態テー
    ブルの上記他計算機の状態情報に上記他計算機の異常検
    出部からの通知がされていないことを示す未通知情報を
    設定する異常受信処理と、 上記計算機状態テーブルを参照して、上記状態情報に未
    通知情報の設定されている他計算機と上記状態情報に異
    常状態を示す状態情報の設定されている他計算機とを選
    択して、選択した他計算機に対して計算機の状態を診断
    して、診断した診断結果情報を自計算機の上記異常受信
    部に通知する診断処理とをコンピュータに実行させるこ
    とを特徴とする計算機異常処理プログラム。
  8. 【請求項8】 所定のネットワークにより接続された少
    なくとも2台の計算機それぞれが自計算機の状態を監視
    して、監視した結果を他計算機に通知する上記計算機上
    で動作する計算機異常処理プログラムを記録したコンピ
    ュータにより読み取り可能な記録媒体であって、 上記自計算機の状態を監視して上記自計算機の正常状態
    と異常状態とのいずれかを示す状態情報を生成して、上
    記自計算機と上記他計算機とに対して上記生成した状態
    情報を通知する動作を所定の期間毎に繰り返し行う異常
    検出処理と、 上記所定の期間内に上記自計算機と上記他計算機の上記
    異常検出処理により状態情報の通知がされた場合には、
    上記自計算機の状態を示す状態情報と他計算機の状態を
    示す状態情報とを記憶する計算機状態テーブルの状態情
    報を、通知された状態情報に基づいて変更して、上記所
    定の期間内に上記他計算機の異常検出工程により上記状
    態情報の通知がされない場合には、上記計算機状態テー
    ブルの上記他計算機の状態情報に上記他計算機の異常検
    出部からの通知がされないことを示す未通知情報を設定
    する異常受信処理と、 上記計算機状態テーブルを参照して、上記状態情報に未
    通知情報の設定されている他計算機と異常状態を示す状
    態情報の設定されている他計算機とを選択して、選択し
    た他計算機の状態を診断して、診断した診断結果情報を
    自計算機の上記異常受信部に通知する診断処理とを有す
    ることを特徴とする計算機異常処理プログラムを記録し
    たコンピュータにより読み取り可能な記録媒体。
JP2001158946A 2001-05-28 2001-05-28 計算機異常処理システムおよび、計算機異常処理方法および、計算機で動作する計算機異常処理プログラムおよび、コンピュータにより読み取り可能な記録媒体に記録された計算機異常処置プログラム Withdrawn JP2002351855A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001158946A JP2002351855A (ja) 2001-05-28 2001-05-28 計算機異常処理システムおよび、計算機異常処理方法および、計算機で動作する計算機異常処理プログラムおよび、コンピュータにより読み取り可能な記録媒体に記録された計算機異常処置プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001158946A JP2002351855A (ja) 2001-05-28 2001-05-28 計算機異常処理システムおよび、計算機異常処理方法および、計算機で動作する計算機異常処理プログラムおよび、コンピュータにより読み取り可能な記録媒体に記録された計算機異常処置プログラム

Publications (1)

Publication Number Publication Date
JP2002351855A true JP2002351855A (ja) 2002-12-06

Family

ID=19002602

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001158946A Withdrawn JP2002351855A (ja) 2001-05-28 2001-05-28 計算機異常処理システムおよび、計算機異常処理方法および、計算機で動作する計算機異常処理プログラムおよび、コンピュータにより読み取り可能な記録媒体に記録された計算機異常処置プログラム

Country Status (1)

Country Link
JP (1) JP2002351855A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178851A (ja) * 2004-12-24 2006-07-06 Nec Corp 障害監視方法、障害監視システムおよびプログラム
CN100405311C (zh) * 2005-01-04 2008-07-23 国际商业机器公司 用于计算机系统中的多个分区的错误监视的方法
JP6138308B1 (ja) * 2016-03-22 2017-05-31 三菱電機株式会社 車載制御装置及び車載制御装置用rom
JP2019219755A (ja) * 2018-06-15 2019-12-26 富士通株式会社 監視プログラム、監視方法、および並列処理装置
JP2021108139A (ja) * 2020-09-24 2021-07-29 北京百度網訊科技有限公司 Rpcメンバー情報取得方法、装置、電子機器、記憶媒体及びコンピュータプログラム製品

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178851A (ja) * 2004-12-24 2006-07-06 Nec Corp 障害監視方法、障害監視システムおよびプログラム
CN100405311C (zh) * 2005-01-04 2008-07-23 国际商业机器公司 用于计算机系统中的多个分区的错误监视的方法
JP6138308B1 (ja) * 2016-03-22 2017-05-31 三菱電機株式会社 車載制御装置及び車載制御装置用rom
JP2017173947A (ja) * 2016-03-22 2017-09-28 三菱電機株式会社 車載制御装置及び車載制御装置用rom
JP2019219755A (ja) * 2018-06-15 2019-12-26 富士通株式会社 監視プログラム、監視方法、および並列処理装置
JP7063139B2 (ja) 2018-06-15 2022-05-09 富士通株式会社 監視プログラム、監視方法、および並列処理装置
JP2021108139A (ja) * 2020-09-24 2021-07-29 北京百度網訊科技有限公司 Rpcメンバー情報取得方法、装置、電子機器、記憶媒体及びコンピュータプログラム製品
JP7083416B2 (ja) 2020-09-24 2022-06-10 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Rpcメンバー情報取得方法、装置、電子機器、記憶媒体及びコンピュータプログラム製品

Similar Documents

Publication Publication Date Title
US7941810B2 (en) Extensible and flexible firmware architecture for reliability, availability, serviceability features
EP1525682A1 (en) System and method for supporting automatic protection switching between multiple node pairs using common agent architecture
EP3724761B1 (en) Failure handling in a cloud environment
EP2816480A1 (en) Processor system
US9830263B1 (en) Cache consistency
JP2002351855A (ja) 計算機異常処理システムおよび、計算機異常処理方法および、計算機で動作する計算機異常処理プログラムおよび、コンピュータにより読み取り可能な記録媒体に記録された計算機異常処置プログラム
JP5625605B2 (ja) Os動作状態確認システム、確認対象装置、os動作状態確認装置、os動作状態確認方法およびプログラム
CN109828855B (zh) 多处理器错误检测系统及其方法
KR102438148B1 (ko) 임베디드 컴퓨팅 모듈의 이상을 감지하는 이상 감지 장치, 시스템 및 방법
JP2012150661A (ja) プロセッサ動作検査システム、及びその検査方法
JP7328907B2 (ja) 制御システム、制御方法
JP4131263B2 (ja) マルチノードシステム、ノード装置、ノード間クロスバスイッチ及び障害処理方法
US7243257B2 (en) Computer system for preventing inter-node fault propagation
JP2006252429A (ja) コンピュータシステム、コンピュータシステムの診断方法およびコンピュータシステムの制御プログラム
JP2021120827A5 (ja)
JP2001195377A (ja) 孤立判定システムとその管理方法及び記録媒体
WO2023248547A1 (ja) 制御システム、中継装置および通信方法
JP6944799B2 (ja) 情報処理装置
JP7278205B2 (ja) 演算装置および演算装置の監視方法
JP5371123B2 (ja) 障害検出方法、制御装置、マルチプロセッサシステム
CN113360294B (zh) 多进程核间通信建立方法、系统、终端及存储介质
JP2022144118A (ja) 計算機システムおよび再起動プログラム
JP2001043201A (ja) マルチプロセッサ障害検出装置
KR100194593B1 (ko) 주전산기의 네트워크 감시진단 시스템
CN1811722A (zh) 冗余处理器中的差错处理系统

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20051019

A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080805