JPH04321138A - マルチプロセッサシステム - Google Patents

マルチプロセッサシステム

Info

Publication number
JPH04321138A
JPH04321138A JP3090526A JP9052691A JPH04321138A JP H04321138 A JPH04321138 A JP H04321138A JP 3090526 A JP3090526 A JP 3090526A JP 9052691 A JP9052691 A JP 9052691A JP H04321138 A JPH04321138 A JP H04321138A
Authority
JP
Japan
Prior art keywords
processor
communication node
processors
node element
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3090526A
Other languages
English (en)
Inventor
Ichiro Yamashita
山下一郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP3090526A priority Critical patent/JPH04321138A/ja
Publication of JPH04321138A publication Critical patent/JPH04321138A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、複数のプロセッサを備
えたマルチプロセッサシステムに関し、特に、プロセッ
サに障害が発生したときの縮退運転を容易に行えるよう
にしたマルチプロセッサシステムに関する。
【0002】
【従来の技術】複数のプロセッサを備えたマルチプロセ
ッサシステムにおいては、何れかのプロセッサが故障し
たような場合でも、他の正常なプロセッサを使用して処
理を代替させ縮退運転を行うことができる。
【0003】このような縮退運転を行う場合、どのプロ
セッサが故障しており、また、どのプロセッサが正常で
あるのかを判別する必要がある。そこで、各プロセッサ
を識別するために、各プロセッサ毎に異なったプロセッ
サ番号が付与されている。そして、プロセッサが故障し
た場合には、故障したプロセッサのプロセッサ番号を登
録しておき、アプリケーションの実行の際には、この故
障したプロセッサを避けるような処理を行っている。
【0004】しかしながら、各プロセッサ毎に正常・異
常を確認し、その確認結果に基づいてアプリケーション
を実行するための環境を設定しなおさなければならず、
縮退運転を効率よく行うことができなかった。
【0005】そこで、特開平1−321547号公報に
開示されているように、定期的に各プロセッサの動作状
態を確認し、確認結果に応じて各プロセッサに設けられ
たレジスタに保持されたプロセッサ番号を書き換えるこ
とにより、見掛け上、アプリケーションからみたプロセ
ッサ番号が連続するようにすることが提案されている。 同公報に記載のマルチプロセッサシステムによれば、ど
のプロセッサが故障するかに拘わらず、各プロセッサの
プロセッサ番号は常に連続したものになる。従って、縮
退運転の際の処理をある程度簡単化することができる。
【0006】
【発明が解決しようとする課題】しかし、プロセッサ番
号は連続するものの、総プロセッサ数は少なくなったよ
うに見えるので、アプリケーションは、縮退運転時には
、プロセッサ数が少なくなった場合の処理を行う必要が
ある。
【0007】そこで、本発明は、通信ノード要素に保持
された通信経路情報を連続且つ総数を一定とするように
し、プロセッサの故障が発生した際にもアプリケーショ
ンからは、プロセッサの連続性も総数も変わらないよう
に見えるようにし、縮退運転時にも、アプリケーション
は特別な処理をする必要をなくすことを目的とする。
【0008】
【課題を解決するための手段】本発明のマルチプロセッ
サシステムは、前記目的を達成するため、それぞれ個別
の連続した識別情報が付与された複数のプロセッサを、
通信経路情報を有する通信ノード要素を介して接続し、
該通信ノード要素においては故障が検出されたプロセッ
サへの通信経路を正常なプロセッサへの通信経路となる
ように変更し、見掛け上、前記複数のプロセッサの識別
情報が連続し、且つ、総数が一定となるようにしたこと
を特徴とする。
【0009】
【作用】本発明のマルチプロセッサシステムにおいては
、それぞれ個別の連続した識別情報が付与された複数の
プロセッサを、通信経路情報を有する通信ノード要素を
介して接続している。あるプロセッサが故障したとする
と、この故障が通信ノード要素により検出される。そし
て、故障が検出されたプロセッサへの通信経路を正常な
プロセッサへの通信経路となるように通信ノード要素に
おける通信経路情報が書き換えられる。したがって、こ
れ以降は故障プロセッサへのメッセージは正常プロセッ
サ側に送られる。このとき、アプリケーション側からは
、全てのプロセッサが正常に動作しているように見える
。したがって、マルチプロセッサシステムが縮退運転を
している場合でも、アプリケーション側からは特別な処
理を行う必要はない。
【0010】
【実施例】以下、図面に従って本発明の実施例を説明す
る。
【0011】図1は、本発明の一実施例の構成を示すブ
ロック図である。図においてプロセッサ101〜104
には連続するプロセッサ番号“#1”〜“#4”がそれ
ぞれ固定的に設定されており、プロセッサ101,10
2は通信ノード要素111に通信回線L1,L2で接続
され、また、プロセッサ103,104は通信ノード要
素112に通信回線L3,L4で接続され、更に通信ノ
ード要素111,112は上位の通信ノード要素113
に通信回線L5,L6で接続されている。本実施例にお
いては、各プロセッサの接続関係は完全二進ツリー構造
となっているが、最下段の通信ノード要素につながるプ
ロセッサの数が全て2以上であればどのようなツリー構
造をとってもよい。なお、各プロセッサ101〜104
は、それぞれローカルメモリ (図示せず) を内蔵し
ているものとする。
【0012】上記通信ノード要素の構成を、通信ノード
要素111を例に挙げて説明すると、図2に示すように
、通信ノード要素111は、各プロセッサ101,10
2及び他の通信ノード要素113に対応してそれぞれ設
けられた通信インタフェース111a,111b,11
1cと、メッセージの送り先によって各通信インタフェ
ース111a,111b,111cへの送り先を切り換
える通路制御部111dとから構成されている。
【0013】次に動作を説明すると、起動時に、ツリー
構造のリーフに置かれた各プロセッサ101〜104は
、それぞれ接続されている上位の通信ノード要素111
,112に自分のプロセッサ番号を送り、それを受信し
た各通信ノード要素111,112はそれを記録し、更
にその上の通信ノード要素113にそのデータを送る。
【0014】図1の例では、プロセッサ101,102
は、通信ノード要素111にそれぞれのプロセッサ番号
“#1”,“#2”を送り、それを受信した通信ノード
要素111は、更に上位の通信ノード要素113にデー
タ“#1,#2”を送る。同様に、プロセッサ103,
104は、通信ノード要素112にそれぞれのプロセッ
サ番号“#3”,“#4”を送り、それを受信した通信
ノード要素112は、更に上位の通信ノード要素113
にデータ“#3,#4”を送る。上位の通信ノード要素
113は、データ“#1,#2”,“#3,#4”を受
け取り、それを記録する。
【0015】各通信ノード要素は、記録されたデータに
よってプロセッサ間のメッセージ通信を行なう。なお、
各通信ノード要素においては、自分の下につながってい
る通信ノード要素及びプロセッサの情報が予め登録され
ているものとする。これらの情報は、たとえばリスト構
造で表される。完全二進ツリー構造の場合、各通信ノー
ド要素は二つのリストを有している。
【0016】たとえば、通信ノード111の場合、左側
の分岐路は、 左→“#1”→“NIL” というリストで表され、右側の分岐路は、右→“#2”
→“NIL” というリストで表される。なお、“NIL”は、リスト
の終わりを示している。
【0017】同様に、通信ノード112の場合、左→“
#3”→“NIL” 右→“#4”→“NIL” というリストで表される。
【0018】また、通信ノード113の場合、左→“#
1”→“#2”→“NIL” 右→“#3”→“#4”→“NIL” というリストで表される。
【0019】そして、各通信ノードは、左右のリストを
アペンドして上位のノードに渡す。
【0020】次に、メッセージ通信について説明する。
【0021】たとえば、プロセッサ番号が“#4”のプ
ロセッサ104からプロセッサ番号が“#1”のプロセ
ッサ101へのメッセージ通信は、先ず、プロセッサ1
04が通信ノード要素112にメッセージを送る。メッ
セージを受け取った通信ノード要素112は、自分の下
にプロセッサ番号が“#1”のプロセッサ101がつな
がっていないので更に上位の通信ノード要素113にメ
ッセージを送る。通信ノード要素112からのメッセー
ジを受け取った通信ノード要素113は、プロセッサ1
01へのメッセージは通信ノード要素111に送ればよ
いことを知っているので、通信ノード要素111にメッ
セージを送る。最後に、通信ノード要素113からのメ
ッセージを受け取った通信ノード要素111は、プロセ
ッサ101にメッセージを送る。これにより、プロセッ
サ104からプロセッサ101へのメッセージ送信が実
現される。
【0022】次に、システム運用中にプロセッサ102
に障害が発生した場合について説明する。
【0023】システム運用中には、各プロセッサ101
〜104は、接続されている通信ノード要素111,1
12に定期的に通信し、正常に動作していることを知ら
せている。したがって、通信ノード要素は、この通信が
一定時間以上行われなかったプロセッサは何らかの異常
が発生したと判断し、そのプロセッサを切り離し、代替
となるプロセッサを自分の下に接続されているプロセッ
サから選ぶ。
【0024】図3の例では、一定時間以上通信がないこ
とにより、プロセッサ102の故障を通信ノード要素1
11が検出すると、通信ノード要素111はプロセッサ
102を切り離し、もう一つのプロセッサ101をその
代替とし、通信ノード要素111に送られてくる、プロ
セッサ番号が“#2”のプロセッサ102宛のメッセー
ジをプロセッサ101へ送るようにする。
【0025】上述の処理により、故障したプロセッサ1
02の代替処理が行われ、システムの縮退運転が行われ
ていく。このとき、アプリケーションから見ると、シス
テムに接続されたプロセッサ数や、プロセッサ番号に変
化がないため、特別な縮退運転の処理を必要としない。
【0026】また、本来、プロセッサ101とプロセッ
サ102に分散すべき通信が、プロセッサ102の故障
中には、一時的にプロセッサ101へ集中することによ
りプロセッサ101の負荷が大きくなるが、一般的には
スケジューラで各プロセッサの負荷を等しくするための
アルゴリズムが使われることによって、プロセッサ10
1の負荷は他のプロセッサと同様になる。なお、このよ
うなアルゴリズムについては、S.Pulidas,D
.Townsley及びJ.A.Stankovic,
「IMBEDDING  GRADIENT  EST
IMATORS  LOAD  BALANCING 
 ALGORITHMS」,Proceedingof
  8th  International  Con
frence  on  Distributed  
Compuiting  Systemや、F.Bon
omi及びA.Kumar,「ADAPTIVE  O
PTIMAL  LOAD  BALANCING  
IN  A  HETEROGENEOUS  MUL
TISERVER  SYSTEM  WITH  A
  CENTRAL  JOB  SCHEDULER
」等の文献に示されている。
【0027】図4は本発明の他の実施例を示すもので、
図1と異なるのは、通信経路の形状がツリー型ではなく
バス型となっていることである。
【0028】図4において、各通信ノード要素211〜
214には、自分の下につながっているプロセッサ20
1〜204のプロセッサ番号“#1”〜“#4”が記憶
されており、各通信ノード要素211〜214は常にシ
ステムバス221上を流れるメッセージを監視し、自分
の下に接続されているプロセッサへのメッセージをプロ
セッサに転送する。
【0029】たとえば、プロセッサ番号“#4”のプロ
セッサ204からプロセッサ番号“#1”のプロセッサ
201への通信は、先ず、プロセッサ204から通信ノ
ード要素214にメッセージが送られ、メッセージを受
けた通信ノード要素214はシステムバス221上にメ
ッセージを流す。このメッセージは、プロセッサ201
に宛てられたものであるので、通信ノード要素211が
そのメッセージを受け取り、プロセッサ201に転送し
てプロセッサ201がメッセージを受け取ることができ
る。
【0030】次に、プロセッサ202に障害が発生した
場合について図5を参照して説明する。プロセッサ20
2に障害が発生すると、通信ノード要素212とプロセ
ッサ202との間の定期的な通信が行われなくなるので
、通信ノード要素212はプロセッサ202が故障した
と判断し、他の通信ノード要素に故障したプロセッサ2
02の代替を要求する。図5の例では、通信ノード要素
211が代替を引き受け、通信ノード要素211は自分
の下にプロセッサ202が繋がっているように登録し、
以後、通信ノード要素211はシステムバス221を流
れるメッセージの中で、プロセッサ201宛てのものと
プロセッサ202宛のものをプロセッサ201に転送す
る。
【0031】上述の処理により、故障したプロセッサ2
02の代替処理が行われ、システムの縮退運転が行われ
ていく。このとき、アプリケーションから見ると、図4
に示す実施例と同様に、システムに接続されたプロセッ
サ数や、プロセッサ番号に変化がないため、特別な縮退
運転の処理を必要としない。
【0032】
【発明の効果】以上に述べたように、本発明においては
、各プロセッサ間の通信を通信ノード要素経路で行う。 各通信ノード要素は各プロセッサの状態を示す情報を有
しており、プロセッサの故障時には、見掛け上、プロセ
ッサ番号が連続し且つ総数が一定となるようにプロセッ
サの代替処理が行われる。これにより、システムの縮退
運転時に、アプリケーションがプロセッサの連続性や総
数を意識した処理をする必要がなくなる。
【図面の簡単な説明】
【図1】  本発明の一実施例の構成を示すブロック図
である。
【図2】  通信ノード要素の構成例を示すブロック図
である。
【図3】  図1に示す実施例における故障発生時の縮
退運転例を示す説明図である。
【図4】  本発明の他の実施例の構成を示すブロック
図である。
【図5】  図4に示す実施例における故障発生時の縮
退運転例を示す説明図である。
【符号の説明】
101〜104  プロセッサ、111〜113  通
信ノード要素、111a,111b,111c  通信
インタフェース、111d  通路制御部、201〜2
04  プロセッサ、211〜214  通信ノード要
素、221  システムバス

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】  それぞれ個別の連続した識別情報が付
    与された複数のプロセッサを、通信経路情報を有する通
    信ノード要素を介して接続し、該通信ノード要素におい
    ては故障が検出されたプロセッサへの通信経路を正常な
    プロセッサへの通信経路となるように変更し、見掛け上
    、前記複数のプロセッサの識別情報が連続し、且つ、総
    数が一定となるようにしたことを特徴とするマルチプロ
    セッサシステム。
JP3090526A 1991-04-22 1991-04-22 マルチプロセッサシステム Pending JPH04321138A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3090526A JPH04321138A (ja) 1991-04-22 1991-04-22 マルチプロセッサシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3090526A JPH04321138A (ja) 1991-04-22 1991-04-22 マルチプロセッサシステム

Publications (1)

Publication Number Publication Date
JPH04321138A true JPH04321138A (ja) 1992-11-11

Family

ID=14000875

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3090526A Pending JPH04321138A (ja) 1991-04-22 1991-04-22 マルチプロセッサシステム

Country Status (1)

Country Link
JP (1) JPH04321138A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231723A (ja) * 2009-03-30 2010-10-14 Nec Computertechno Ltd マルチプロセッサシステム、ノードコントローラ、障害回復方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231723A (ja) * 2009-03-30 2010-10-14 Nec Computertechno Ltd マルチプロセッサシステム、ノードコントローラ、障害回復方式

Similar Documents

Publication Publication Date Title
US5463615A (en) Node failure restoration tool
JP2933021B2 (ja) 通信網障害回復方式
AU633865B2 (en) Distributed switching architecture for communication module redundancy
EP0649092B1 (en) Method and apparatus for fault tolerant connection of a computing system to local area networks
US5276440A (en) Network device information exchange
EP3618350A1 (en) Protection switching method, device and system
US6618819B1 (en) Sparing system and method to accommodate equipment failures in critical systems
KR100323255B1 (ko) 업무인계시스템
US5384783A (en) Network system and line switching method used therein
JPH04321138A (ja) マルチプロセッサシステム
FI88219C (fi) Foerfarande foer drift av en multiprocessor-styrraeknare, saerskilt foer centralstyrenheten vid ett telefonfoermedlingssystem
US7325158B2 (en) Method and apparatus for providing redundancy in a data processing system
JPH0666986B2 (ja) 交換機の中央制御装置
JP3375039B2 (ja) 自動交換方法および自動交換機構成方法
JPH0934852A (ja) クラスタシステム
JPH0222948A (ja) 最小コストルーテイング制御方式
JPH06120949A (ja) ネットワーク間相互接続システム
CN113961491A (zh) 数据发送方法、装置、路由设备及计算机可读存储介质
US6526040B1 (en) Exchange network system
JP2000269967A (ja) ネットワークシステム
JPH11205345A (ja) 分散型集中監視制御装置
JPH07141303A (ja) 並列計算機
JPH06187276A (ja) 多重化サーバシステムにおける通信方式
JPS6367046A (ja) デイジタルネツトワ−ク網における自動迂回方式
JPS61122759A (ja) 監視機能ネツトをもつ情報処理システム