JPH11250026A - 並列マルチプロセッサシステムの障害リカバリ方法及び方式 - Google Patents

並列マルチプロセッサシステムの障害リカバリ方法及び方式

Info

Publication number
JPH11250026A
JPH11250026A JP10045622A JP4562298A JPH11250026A JP H11250026 A JPH11250026 A JP H11250026A JP 10045622 A JP10045622 A JP 10045622A JP 4562298 A JP4562298 A JP 4562298A JP H11250026 A JPH11250026 A JP H11250026A
Authority
JP
Japan
Prior art keywords
failure
fault
processor
unit
multiprocessor system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10045622A
Other languages
English (en)
Inventor
Yoshikazu Yonezawa
禎和 米澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP10045622A priority Critical patent/JPH11250026A/ja
Publication of JPH11250026A publication Critical patent/JPH11250026A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】たとえ数百〜数千個のプロセッサユニットから
なるマルチプロセッサシステムにおいても、印可型テス
トによらない障害検出と大規模なサービスプロセッサ必
要としない障害リカバリ方法及び方式を提供する。 【解決手段】プロセッサユニット2が、自己の内部で障
害が発生したことを検出する障害検出部と、障害検出部
の障害検出出力及び隣接するプロセッサユニットの発す
る障害発生通知を監視すると共に、障害発生を検出する
と障害発生通知を発した隣接するプロセッサユニットを
除く他の隣接するプロセッサユニットに障害の発生を報
告する障害監視部13と、障害の発生の報告を受けプロ
セッサユニット障害のリカバリ処理を各々独立に行う演
算処理部12とを有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は並列マルチプロセッ
サシステムの障害リカバリ方法及び方式に関し、特に数
百〜数千個のプロセッサユニットをネットワーク網で結
合した並列マルチプロセッサシステム内のプロセッサユ
ニットの障害に対応する並列マルチプロセッサシステム
の障害リカバリ方法及び方式に関する。
【0002】
【従来の技術】従来の並列マルチプロセッサシステムの
障害リカバリ方法及び方式の一例としては、例えば、特
開昭64−88677号公報に記載されているマルチプ
ロセッサシステムがある。このシステムは、システムバ
スを介して接続する複数のプロセッサに、各々自己診断
制御部と障害をサービスプロセッサに通知する診断イン
ターフェースとを備え、障害の通知を受けたサービスプ
ロセッサが、各種の処理を行うように構成されている。
【0003】
【発明が解決しようとする課題】上述した従来の並列マ
ルチプロセッサシステムの障害リカバリ方法及び方式
は、プロセッサユニットの障害検出の報告を、一箇所に
あるサービスプロセッサに集めているので、各プロセッ
サュニットとサービスプロセッサとの間の結線が必須と
なり、プロセッサユニットの数が少ない場合は特に大き
な問題はないが、プロセッサユニットの数が多くなるに
つれて、サービスプロセッサ側の接続ロは非常に大きく
なることが予想され、特に本発明が目指している、数百
〜数千個のプロセッサユニットをネットワーク網で結合
した並列マルチプロセッサシステムの場合は、1つのサ
ービスプロセッサが数百〜数千を相手に処理する必要が
あり、高速のリカバリ処理が要求される場合、サービス
プロセッサ自身の処理能力もある程度大きくする必要が
ある等、サービスプロセッサそのものの規模が大変大き
くなり経済性に欠けるという問題点がある。また、プロ
セッサユニットの障害検出を自己診断制御部による印可
型のテストによって行う場合、プロセッサが持つ100
%の機能をサービスに使用できないことと、さらにプロ
セッサユニットがアイドル中にテストを開始させるとい
った印可型テストの実行制御処理が必要となってくる等
の制御処理上の注意事項が多いという問題点もある。
【0004】本発明の目的は、たとえ数百〜数千個のプ
ロセッサユニットからなるマルチプロセッサシステムに
おいても、印可型テストによらない障害検出と大規模な
サービスプロセッサ必要としない並列マルチプロセッサ
システムの障害リカバリ方法及び方式を提供することに
ある。
【0005】
【課題を解決するための手段】本発明の並列マルチプロ
セッサシステムの障害リカバリ方法は、複数のプロセッ
サユニットをネットワーク網で結合した並列マルチプロ
セッサシステムの障害リカバリ方法において、前記プロ
セッサユニットの各々が、自己の内部で障害が発生した
ことを障害検出手段で検出し、前記障害検出手段の障害
検出出力及び隣接するプロセッサユニットの発する障害
発生通知を障害監視手段で監視し、障害発生を検出する
と前記障害発生通知を発した隣接するプロセッサユニッ
トを除く他の隣接するプロセッサユニットに障害の発生
を報告し、前記障害の発生を報告を受けた各プロセッサ
ユニットがプロセッサユニット障害のリカバリ処理を各
々独立に行うようにしている。
【0006】本発明の並列マルチプロセッサシステムの
障害リカバリ方式は、複数のプロセッサユニットをネッ
トワーク網で結合した並列マルチプロセッサシステムの
障害リカバリ方式において、前記プロセッサユニットの
各々が、自己の内部で障害が発生したことを検出する障
害検出手段と、前記障害検出手段の障害検出出力及び隣
接するプロセッサユニットの発する障害発生通知を監視
する障害監視手段と、障害発生を検出すると前記障害発
生通知を発した隣接するプロセッサユニットを除く他の
隣接するプロセッサユニットに障害の発生を報告する障
害報告手段と、前記障害の発生の報告を受けプロセッサ
ユニット障害のリカバリ処理を各々独立に行う演算処理
手段とを有する構成である。
【0007】本発明の並列マルチプロセッサシステムの
障害リカバリ方式は、前記障害検出手段を演算処理手段
自身に備えてもよい。
【0008】本発明の並列マルチプロセッサシステムの
障害リカバリ方式は、前記障害検出手段に前記演算処理
手段から一定周期で送出される生存通知を監視する監視
機能を備えてもよい。
【0009】本発明の並列マルチプロセッサシステムの
障害リカバリ方式は、前記障害検出手段がプロセッサユ
ニット内に設けるプロセッサユニットの温度を監視する
温度センサであってもよい。
【0010】[作用]本発明では、プロセッサユニット
の障害を自分自身もしくは、プロセッサユニット毎に外
付けされている付加手段により検出し、さらに障害の発
生通知を隣接する近くのプロセッサユニットに通知する
ことで、障害となったプロセッサユニットのリカバリ処
理を障害通知を受け取ったプロセッサユニットが独立し
て行うことが可能となる。
【0011】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。
【0012】図1は本発明を適用する並列マルチプロセ
ッサシステムを説明するためのブロック図である。
【0013】本発明を適用する並列マルチプロセッサシ
ステム1は、プロセッサユニット2が、多方向にネット
ワークを介して複数の他のプロセッサユニット3,4,
5,6と接続し、さらにプロセッサユニット3,4,
5,6も又、プロセッサユニット2と同様に複数の他の
プロセッサユニットと接続し、全体で1つの並列マルチ
プロセッサシステムを構成している。本発明を説明する
ためプロセッサユニット2,3を隣接プロセッサユニッ
ト群10として指定する。
【0014】図2は本発明の第1の実施の形態を示すブ
ロック図で、図1に示した並列マルチプロセッサシステ
ム1の中で、隣接する2つのプロセッサユニットの詳細
な構成を示し、説明するため、並列マルチプロセッサシ
ステム内にある隣接プロセッサユニット群10を取り出
し、内容を詳細に示したものである。
【0015】まず、隣り合うプロセッサユニット2とプ
ロセッサユニット3との間が、ネットワーク線11およ
び2本の信号線13,15で接続している。この接続
は、図2では図示していないプロセッサユニット2と接
続している他のプロセッサユニットとも同様に接続して
いるので、並列マルチプロセッサシステム全体が鎖状に
接続していることになる。プロセッサユニット2は、ユ
ニット内の演算を行う演算処理部12と、障害を監視す
る障害監視部13とから構成されている。演算処理部1
2と障害監視部13とは、ひとつのプロセッサユニット
内で信号線15でつながれている。一方障害監視部13
は、信号線14を介して、隣接するプロセッサユニット
3の演算処理部16につながれている。信号線14は隣
接するすべてのプロセッサユニット内にある演算処理部
間を鎖状につなぐようになっており、演算処理部12
は、反対側に隣接するプロセッサユニット内の障害監視
部からも接続されている。また、プロセッサユニット3
もプロセッサユニット2と同一の構成をとっている。
又、並列マルチプロセッサシステムを構成するすべての
プロセッサユニットは、自分が障害になったときの代行
プロセッサを予め決めてあるので、障害通知を受信する
のみでリカバリ処理が簡単にできることになる。
【0016】図3は演算処理部の構成を示すブロック図
である。
【0017】演算処理部12は、演算を行う演算器31
と、演算器31自身が障害を検出したことを通知するた
めの制御信号線と、外付けの障害検出付加手段32とが
演算器31の障害を検出したことを通知するための制御
信号線を束ねている障害検出部33を有している。障害
検出部33の出力は信号線15となる。
【0018】次に動作について説明する。説明には図2
および図3を使用する。
【0019】演算処理部12の内部の障害を障害検出付
加手段32が検出したとする。障害検出付加手段32の
具体例としては、演算器31の異常な温度上昇を検知す
る温度センサ等が考えられる。このとき、障害検出部3
3は異常な温度上昇を温度センサの出力値が異常である
という形で認識し、信号線15を介して演算処理部12
内部の異常発生(障害発生)を障害監視部13に通知す
る。障害が発生した演算処理部12で実行しているサー
ビスは、他のプロセッサユニット内の演算処理部に引き
継ぐといったリカバリ処理を速やかに実行する必要があ
るため、障害監視部13は信号線14を介して、隣接す
るプロセッサユニット内の演算処理部16に報告元のプ
ロセッサユニットが障害状態にあることを通知する。こ
のとき、演算器ヘの割り込み信号を出すという形で通知
すれば、隣接する演算器にリカバリ処理の開始の指示を
即時に通知することが可能となる。
【0020】これまでの説明は、障害監視部13が障害
の監視を行うと共に、隣接するプロセッサユニット内の
演算処理部16に障害を通知していたが、これは機能が
2つあるので分割して別々の回路とすることが可能であ
る。
【0021】
【発明の効果】以上説明したように、本発明は、プロセ
ッサユニットの各々が、自己の内部で障害が発生したこ
とを検出する障害検出手段と、障害検出手段の障害検出
出力及び隣接するプロセッサユニットの発する障害発生
通知を監視する障害監視手段と、障害発生を検出すると
障害発生通知を発した隣接するプロセッサユニットを除
く他の隣接するプロセッサユニットに障害の発生を報告
する障害報告手段と、障害の発生の報告を受けプロセッ
サユニット障害のリカバリ処理を各々独立に行う演算処
理手段とを有することにより、プロセッサユニット障害
のリカバリ処理を、隣り合うプロセッサユニットが相互
に補完しあう形で実施するため、システム内のプロセッ
サユニット数が膨大になってもリカバリ処理を実現する
ための仕掛けは小さくて済むという効果が有る。又、並
列マルチプロセッサシステムを構成するすべてのプロセ
ッサユニットは自分が障害になったときの代行プロセッ
サを予め決めてあるので、プロセッサユニット障害のリ
カバリ処理がプロセッサユニットごとに独立かつ並行に
短時間で実行できるという効果が有る。
【図面の簡単な説明】
【図1】本発明を適用する並列マルチプロセッサシステ
ムを説明するためのブロック図である。
【図2】本発明の第1の実施の形態を示すブロック図で
ある。
【図3】演算処理部の構成を示すブロック図である。
【符号の説明】
1 並列マルチプロセッサシステム 2,3,4,5,6 プロセッサユニット 10 隣接プロセッサユニット群 11 ネットワーク線 12,16 演算処理部 13,15 信号線 31 演算器 32 障害検出付加手段 33 障害検出部

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 複数のプロセッサユニットをネットワー
    ク網で結合した並列マルチプロセッサシステムの障害リ
    カバリ方法において、前記プロセッサユニットの各々
    が、自己の内部で障害が発生したことを障害検出手段で
    検出し、前記障害検出手段の障害検出出力及び隣接する
    プロセッサユニットの発する障害発生通知を障害監視手
    段で監視し、障害発生を検出すると前記障害発生通知を
    発した隣接するプロセッサユニットを除く他の隣接する
    プロセッサユニットに障害の発生を報告し、前記障害の
    発生を報告を受けた各プロセッサユニットがプロセッサ
    ユニット障害のリカバリ処理を各々独立に行うことを特
    徴とする並列マルチプロセッサシステムの障害リカバリ
    方法。
  2. 【請求項2】 複数のプロセッサユニットをネットワー
    ク網で結合した並列マルチプロセッサシステムの障害リ
    カバリ方式において、前記プロセッサユニットの各々
    が、自己の内部で障害が発生したことを検出する障害検
    出手段と、前記障害検出手段の障害検出出力及び隣接す
    るプロセッサユニットの発する障害発生通知を監視する
    障害監視手段と、障害発生を検出すると前記障害発生通
    知を発した隣接するプロセッサユニットを除く他の隣接
    するプロセッサユニットに障害の発生を報告する障害報
    告手段と、前記障害の発生の報告を受けプロセッサユニ
    ット障害のリカバリ処理を各々独立に行う演算処理手段
    とを有することを特徴とする並列マルチプロセッサシス
    テムの障害リカバリ方式。
  3. 【請求項3】 前記障害検出手段を演算処理手段自身に
    備えることを特徴とする請求項2記載の並列マルチプロ
    セッサシステムの障害リカバリ方式。
  4. 【請求項4】 前記障害検出手段に前記演算処理手段か
    ら一定周期で送出される生存通知を監視する監視機能を
    備えることを特徴とする請求項2記載の並列マルチプロ
    セッサシステムの障害リカバリ方式。
  5. 【請求項5】 前記障害検出手段がプロセッサユニット
    内に設けるプロセッサユニットの温度を監視する温度セ
    ンサであることを特徴とする請求項2記載の並列マルチ
    プロセッサシステムの障害リカバリ方式。
JP10045622A 1998-02-26 1998-02-26 並列マルチプロセッサシステムの障害リカバリ方法及び方式 Pending JPH11250026A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10045622A JPH11250026A (ja) 1998-02-26 1998-02-26 並列マルチプロセッサシステムの障害リカバリ方法及び方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10045622A JPH11250026A (ja) 1998-02-26 1998-02-26 並列マルチプロセッサシステムの障害リカバリ方法及び方式

Publications (1)

Publication Number Publication Date
JPH11250026A true JPH11250026A (ja) 1999-09-17

Family

ID=12724485

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10045622A Pending JPH11250026A (ja) 1998-02-26 1998-02-26 並列マルチプロセッサシステムの障害リカバリ方法及び方式

Country Status (1)

Country Link
JP (1) JPH11250026A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005527022A (ja) * 2002-03-15 2005-09-08 インテル コーポレイション プロセッサの温度制御インタフェース
JP2009009200A (ja) * 2007-06-26 2009-01-15 Hitachi Ltd ストレージシステム及びストレージシステムの制御方法
WO2014010021A1 (ja) * 2012-07-09 2014-01-16 富士通株式会社 情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005527022A (ja) * 2002-03-15 2005-09-08 インテル コーポレイション プロセッサの温度制御インタフェース
JP2011070702A (ja) * 2002-03-15 2011-04-07 Intel Corp プロセッサの温度制御インタフェース
JP4717352B2 (ja) * 2002-03-15 2011-07-06 インテル コーポレイション プロセッサの温度制御インタフェース
JP2012238337A (ja) * 2002-03-15 2012-12-06 Intel Corp プロセッサの温度制御インタフェース
JP2009009200A (ja) * 2007-06-26 2009-01-15 Hitachi Ltd ストレージシステム及びストレージシステムの制御方法
WO2014010021A1 (ja) * 2012-07-09 2014-01-16 富士通株式会社 情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラム

Similar Documents

Publication Publication Date Title
CN103995759B (zh) 基于核内外协同的高可用计算机系统故障处理方法及装置
JPH11250026A (ja) 並列マルチプロセッサシステムの障害リカバリ方法及び方式
JP2956849B2 (ja) データ処理システム
JP2000353154A (ja) 障害監視システム
JPH0934852A (ja) クラスタシステム
JPH06290126A (ja) 計算機システム障害監視方式
JPS6290068A (ja) 予備系監視方式
JPH02281368A (ja) 制御装置の故障検出機構
JPH0271336A (ja) プロセッサの障害状態監視方式
JP2591470B2 (ja) 信号処理装置
JPH03123230A (ja) ネットワーク監視システムの関連アラーム早期検出装置
JPH02144635A (ja) 装置障害診断方式
JPS6123246A (ja) マルチプロセツサシステムの監視方式
JPH01169545A (ja) 多重化コンピュータシステムにおける障害検出方式
JPH04293133A (ja) 疎結合マルチプロセッサシステムにおける故障監視方式
JPS6213700B2 (ja)
JPH04149660A (ja) マルチプロセッサシステム
JPH02148146A (ja) 情報処理装置の障害検出装置
JPH0448342A (ja) インタフェース障害処理方式
JPH10124338A (ja) 並列処理装置
JPH0771131B2 (ja) 内部故障監視装置
JPH07230392A (ja) プロセッサの自己診断方式
JPH02129730A (ja) 障害処理装置
JPS63291132A (ja) 複合計算機システムの障害判定装置
JPS58211268A (ja) 多重プロセツサシステム

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20020205