JPH07141303A - 並列計算機 - Google Patents

並列計算機

Info

Publication number
JPH07141303A
JPH07141303A JP5285398A JP28539893A JPH07141303A JP H07141303 A JPH07141303 A JP H07141303A JP 5285398 A JP5285398 A JP 5285398A JP 28539893 A JP28539893 A JP 28539893A JP H07141303 A JPH07141303 A JP H07141303A
Authority
JP
Japan
Prior art keywords
computer
business processing
fault
processor
tolerant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP5285398A
Other languages
English (en)
Inventor
Hideaki Fujimaki
秀明 藤巻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP5285398A priority Critical patent/JPH07141303A/ja
Publication of JPH07141303A publication Critical patent/JPH07141303A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 【目的】 本発明は、複数個の計算機をクラスタを単位
として結合し、指示された処理を独立性の高い複数の単
位(タスク)に分割し、各クラスタに負荷を分散させる
ルータ機構を備えた並列計算機に関し、高い耐故障性
と、高い業務処理能力とを同時に提供する。 【構成】 指示された処理を独立性の高い複数の単位
(タスク)に分割し、各クラスタに負荷を分散させるル
ータ機構を備えた並列計算機の、上記ルータ機構を、耐
故障性の計算機(FTPE)で分担させ、上記タスクの処理を
業務処理用計算機(PE)で分担させ、上記耐故障性の計算
機(FTPE)と、上記業務処理用計算機(PE)とを結合して、
並列計算機を構成し、ある業務処理用計算機(PE)が故障
して、上記ルータ機構を分担している耐故障性の計算機
(FTPE)で、上記故障した業務処理用計算機(PE)が分担し
ていた処理を他の業務処理用計算機(PE)に再配置中に、
他の業務処理用計算機(PE)から送られてきたメッセージ
を、該耐故障性の計算機(FTPE)で受信し、再配置する業
務処理用計算機(PE)に転送する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、並列計算機の負荷分散
装置 (ルータ機構を備えた計算機) に関する。
【0002】近年、多くの計算機 (以下、プロセッサと
いうことがある) を並列に動作されることにより, 高速
処理と、大量処理を行う並列計算機が実用化されつつあ
る。並列計算機においては、多くのプロセッサが同時に
動作する為、一部のプロセッサが故障した場合、該並列
計算機が停止しないようにする仕組みが必要となる。
【0003】この場合、業務を処理するプロセッサでの
業務処理機能が低下することのない構成法が必要とされ
る。
【0004】
【従来の技術】図8は、従来の並列計算機の構成例を示
した図である。従来の並列計算機では、複数個のプロセ
ッサ(PE) 2が、例えば、共通バス 4を介して相互に接続
された構成を取っている。
【0005】通常、複数のプロセッサ(PE) 2を結合した
計算機で業務処理を、各プロセッサ(PE) 2に分散させて
並列に処理する場合、元の処理を、比較的独立性の高い
複数の単位(タスク)に分割し、各クラスタに負荷を分
散させる機能 (ルータ機能)が必要である。
【0006】そして、この並列計算機自体が、耐故障性
(該プロセッサ自身が二重化されていたたり、オペレー
ティングシステム(OS)に耐故障性機能をもっている) 計
算機を構成しており、一部のプロセッサ(PE) 2が故障し
た場合、その故障プロセッサ(PE) 2を切り離して、縮退
運転を行うが、その為に、業務処理を行う該プロセッサ
(PE) 2に、故障検出機能, 迂回機能、縮退運転機能や、
負荷再配置機能 (上記、ルータ機能) を持たせていた。
【0007】又、該従来の並列計算機では、上記のよう
に、一部のプロセッサ(PE) 2が故障したとき、そのプロ
セッサ(PE) 2を切り離して、縮退運転ないし、代替運転
を行うが、業務処理 (プロセス) の再配置中に、故障プ
ロセッサ(PE) 2に対して、他のプロセッサ(PE) 2から送
られてきたメッセージは、送り側のプロセッサ(PE) 2に
保留されるか、図示されていないプロセッサ(PE) 2間の
共有メモリに保存され、業務処理 (プロセス) の再配置
後に、該再配置されたプロセッサ(PE) 2で処理されてい
た。上記メッセージは、例えば、あるプロセッサ(PE) 2
が分担している処理 (タスク) が、他のプロセッサ(PE)
2が分担している処理 (タスク) の終了条件が必要な場
合等において、該他のプロセッサ(PE) 2からの上記終了
条件を示すメッセージであり、該メッセージが、上記他
のプロセッサ(PE) 2から転送されてくることで、上記あ
るプロセッサ(PE) 2でのタスク処理が開始される。
【0008】
【発明が解決しようとする課題】従って、並列計算機の
各プロセッサ(PE) 2のハードウェア, オペレーティング
システム(OS)共に、本来の業務処理機能の他に、上記耐
故障性機能を持つ必要があり、本来の業務処理機能の低
下が避けられないという問題があった。
【0009】又、故障したプロセッサ(PE) 2への他のプ
ロセッサ(PE) 2からの上記メッセージを、各プロセッサ
(PE) 2自身, 及び、そのオペレーティングシステム(OS)
内に持たせたり、プロセッサ(PE) 2間の共有メモリに用
意する必要があった。
【0010】本発明は上記従来の欠点に鑑み、業務処理
プロセッサ, 及び、そのオペレーティングシステム(OS)
に、業務専用のハードウェア, 及び、ソフトウェアを用
い、耐故障性機能が要求されるルータ装置 (処理タスク
の分割, 分散, 再配置装置)として、元々、耐故障性を
高めているフオールトトレラントプロセッサを用いると
同時に、上記業務処理プロセッサには、業務処理に適合
したアーキテクチャのハードウェア, ソフトウェアを用
いることにより、該並列計算機に、高い耐故障性と, 高
い業務処理能力を同時に提供すること、又、上記耐故障
性ルータ装置 (プロセッサ) に、上記再配置中のメッセ
ージを受信, 保持して、再配置されたプロセッサ(PE) 2
に転送する手段を備えて、該業務処理用プロセッサ(PE)
に上記メッセージを保持させる手段を必要としない並列
計算機を提供することを目的とするものである。
【0011】
【課題を解決するための手段】図1は、本発明の原理構
成図である。上記の問題点は下記の如くに構成した並列
計算機によって解決される。
【0012】(1) 複数個の計算機をクラスタを単位とし
て結合し、指示された業務処理を独立性の高い複数の単
位に分割し、各クラスタに負荷を分散させるルータ機構
を備えた並列計算機であって、上記ルータ機構を、耐故
障性の計算機(FTPE) 1で構成し、該耐故障性の計算機(F
TPE)と、上記分割された業務用処理を実行する業務処理
用計算機(PE) 2とを結合して、上記ルータ機構と、業務
処理とを、それぞれ別個の計算機(FTPE) 1,(PE) 2 で行
わせるように構成する。
【0013】(2) 上記並列計算機であって、分割された
業務処理を分担しているある業務処理用計算機(PE) 2が
故障したとき、上記ルータ機構を構成している耐故障性
の計算機(FTPE) 1で、上記故障した業務処理用計算機(P
E) 2が分担していた処理を他の業務処理用計算機(PE) 2
に再配置中に、他の業務処理用計算機(PE) 2から送られ
てきたメッセージを、該耐故障性の計算機(FTPE) 1で受
信,保持し、再配置する業務処理用計算機(PE) 2に転送
するように構成する。
【0014】(3)上記並列計算機であって、上記ルータ
機構を備えた耐故障性の計算機(FTPE)1と業務処理用計
算機(PE) 2とを結合するのに、例えば、各計算機(FTPE)
1,(PE) 2 同士を、通信路 3による直接結合するように
構成する。
【0015】
【作用】図1において、フロントエンドプロセッサ(FE
P) 0 から業務処理の指示が、ルータ機能を備えた耐故
障性のプロセッサ(FTPE) 1に送出される。該ルータ装置
{耐故障性のプロセッサ(FTPE)}1 は、指示された業務
処理を、比較的独立性の高い複数のタスクに分割し、業
務処理用プロセッサ(PE) 2群の各業務処理用プロセッサ
(PE) 2に配置する。
【0016】各業務処理用プロセッサ(PE) 2は、例え
ば、ネットワーク(network) 6 を介して、相互に通信を
行いながら、配置された業務を並列に処理する。ここ
で、ある業務処理プロセッサ(PE) 2に故障が発生した場
合、該業務処理用プロセッサ(PE) 2の監視を割り当てら
れた耐故障性のプロセッサ(FTPE) 1が、その故障を検出
し、その業務処理用プロセッサ(PE) 2が処理していたタ
スクを他の空いている業務処理用プロセッサ(PE) 2に再
配置する。
【0017】そして、該故障の検出と同時に、故障した
業務処理用プロセッサ(PE) 2は、上記ネットワーク(net
work) 6 から切り離される。上記タスクの再配置中に、
該故障した業務処理用プロセッサ(PE) 2に送られてきた
メッセージは、アクセプトされなかったということで、
送信側のプロセッサ(PE) 2内にペンディング状態とする
方法があるが、前述のように、この方法では、送信側の
プロセッサ(PE) 2に、メッセージペンディング機能を持
つ必要がある。
【0018】そこで、本発明においては、このようなと
きでも、送信側のプロセッサ(PE) 2に、メッセージをペ
ンディングさせないで、該故障したプロセッサ(PE) 2を
担当している耐故障性のプロセッサ(FTPE) 1が、図1の
例では、ネットワーク(network) 6,故障した業務処理用
プロセッサ(PE) 2内での、図示されていないバイパス
路, 通信路 3を介して受信し、再配置時に、代替えプロ
セッサ(PE) 2に対して、受信したメッセージを再送す
る。但し、この例では、前述のように、故障プロセッサ
(PE) 2においても、該他の業務処理用プロセッサ(PE) 2
からのメッセージを、自己を管理しているルータ機能を
備えた上記耐故障性のプロセッサ(FTPE) 1にバイパスす
ることができるハードウェア構造が必要である。
【0019】従って、本発明の並列計算機によれば、業
務処理用プロセッサ(PE)に、耐故障性のためのハードウ
ェア, ソフトウェア機構を組み込む必要がなく、業務処
理用プロセッサ(PE)のコストの逓減を図ることができ
る。又、ルータ側に、耐故障性の機能を集約することが
できるので、耐故障性の機能の最適化が、業務処理とは
関係なくできる。
【0020】又、該業務処理用プロセッサ(PE)内に、送
り先の業務処理用プロセッサ(PE)が故障した場合に、メ
ッセージを一時保留する機能を持たせたり、並列計算機
として、該メッセージを保持する為の、耐故障性の共有
メモリを具備させることなく、該メッセージの代替えの
業務処理用プロセッサ(PE)への転送が可能となる。
【0021】
【実施例】以下本発明の実施例を図面によって詳述す
る。前述の図1が、本発明の原理構成図であり、図2〜
図7は、本発明の一実施例を示した図であって、業務処
理用プロセッサ(PE) 2と、耐故障性のプロセッサ(FTPE)
1との間の結合手段を示している。
【0022】本発明においては、複数個のプロセッサを
クラスタを単位として結合し、指示された業務処理を独
立性の高い複数の単位 (タスク) に分割し、各クラスタ
に負荷を分散させるルータ機構を備えた並列計算機であ
って、上記ルータ機構を、耐故障性のプロセッサ(FTPE)
1で構成し、該耐故障性のプロセッサ(FTPE) 1と、上記
分割された業務用処理を実行する業務処理用プロセッサ
(PE) 2とを結合して、上記ルータ機構と、業務処理と
を、それぞれ別個のプロセッサ(FTPE) 1,(PE) 2で行わ
せるように構成し、分割された業務処理を分担している
ある業務処理用プロセッサ(PE) 2が故障して、上記ルー
タ機構を構成している耐故障性のプロセッサ(FTPE) 1
で、上記故障した業務処理用プロセッサ(PE) 2が分担し
ていた処理を他の業務処理用プロセッサ(PE) 2に再配置
中に、他の業務処理用プロセッサ(PE)2から送られてき
たメッセージを、該耐故障性のプロセッサ(FTPE) 1で受
信,保持し、再配置する業務処理用プロセッサ(PE) 2に
転送するように構成する手段が、本発明を実施するのに
必要な手段である。
【0023】以下、図1を参照しながら、図2〜図7に
よって、本発明の並列計算機を説明する。上記耐故障性
のプロセッサ(FTPE) 1は、マルチプロセッサであった
り、分散型プロセッサであるが、細かいタスクに分割さ
れたタスクを処理する機能は備えていない。元々、該耐
故障性のプロセッサ(FTPE) 1は、細かい単位の集合を処
理するプロセッサである。一方、業務処理用プロセッサ
(PE) 2は、複数のタスクに分割された大きな問題を、そ
れぞれの業務処理用プロセッサ(PE) 2で分担しながら並
列実行することで、処理速度を高めるプロセッサであっ
て、主に、スーパーコンピュータに使用される。
【0024】本発明においては、上記耐故障性のプロセ
ッサ(FTPE) 1が、一般に、複数のプロセッサ(PE) 2から
なる業務処理用プロセッサ(PE) 2群のある単位 (クラス
タ)を担当し、該クラスタの故障を、該クラスタからの
故障信号を監視したり、或いは、複数の各業務処理用プ
ロセッサ(PE) 2に同じ処理を実行させて、その処理状況
を、命令単位で常時比較監視する等して、該クラスタの
故障を監視する。
【0025】図1の原理構成図で示した構成では、上記
ルータ機構を備えた耐故障性のプロセッサ(FTPE) 1と業
務処理用プロセッサ(PE) 2とを結合するのに、各プロセ
ッサ(FTPE) 1,(PE) 2 同士を、通信路 (一般的には、公
知のFDDI, チャネル装置等の高速通信手段で形成され
る) 3 によって直接結合していて、該業務処理用プロセ
ッサ(PE) 2に複数個に分割したタスクを配置する場合に
は、特定の制御線と、該通信路 3とを介して、起動情
報, 及び、処理対象のデータを転送する。
【0026】このように構成されているので、それぞれ
の耐故障性のプロセッサ(FTPE) 1は、通信路 3と接続さ
れている業務処理用プロセッサ(PE) 2しか、起動, 監視
することができず、対応する業務処理用プロセッサ(PE)
2の故障を検出した場合には、該故障プロセッサ(PE) 2
が分担していたタスクを、共通バス 9を介して、他の耐
故障性のプロセッサ(FTPE) 1から、対応する業務処理用
プロセッサ(PE) 2に再配置する。
【0027】該再配置中に、他の業務処理用プロセッサ
(PE) 2から、該故障プロセッサ(PE)2に送信されてきた
メッセージは、該故障プロセッサ(PE) 2内の、前述のバ
イパス機構を介して、受信し、該再配置した業務処理用
プロセッサ(PE) 2に再転送する。{請求項1,2,3に
記載の発明に対応} 図2に示した実施例は、耐故障性のプロセッサ(FTPE) 1
と、業務処理用プロセッサ(PE) 2とを共通バス 4で結合
した場合である。
【0028】この場合には、何れの耐故障性のプロセッ
サ(FTPE) 1と、何れの業務処理用プロセッサ(PE) 2とか
が共通バス 4を介して、通信することができるので、該
耐故障性のプロセッサ(FTPE) 1での、業務処理用プロセ
ッサ(PE) 2に対する、タスクの配置, 起動, 或いは、該
業務処理用プロセッサ(PE) 2の故障の監視が、n対nで
でき、柔軟性のある並列計算機を構築することができ
る。{請求項1,2,4に記載の発明に対応} 図3に示した実施例は、共有メモリ 5による密結合とし
た場合である。この場合には、耐故障性のプロセッサ(F
TPE) 1で分割したタスクは、一旦、上記共有メモリ 5に
格納された後、業務処理用プロセッサ(PE) 2に、例え
ば, 専用の制御線によって起動がかけられる。起動され
た業務処理用プロセッサ(PE) 2では、該共有メモリ 5か
ら自己に配置されたタスクを取り出して実行する。又、
該業務処理用プロセッサ(PE) 2が故障したときには、対
応する耐故障性のプロセッサ(FTPE)1が、上記専用の制
御線を介して検出するが、配置したタスクを処理するの
に必要なデータ, 或いは、他の業務処理用プロセッサ(P
E) 2からのメッセージ等は、上記共通メモリ 5を介して
転送されるので、耐故障性のプロセッサ(FTPE) 1と、業
務処理用プロセッサ(PE) 2との接続時間を短縮させるこ
とができる。{請求項1,2,5に記載の発明に対応} 図4に示した実施例は、耐故障性のプロセッサ(FTPE) 1
をネットワーク(network) 6 に接続し、業務処理用プロ
セッサ(PE) 2が相互通信を行うときの通信プロセッサと
して利用する場合である。この場合には、ある業務処理
用プロセッサ(PE) 2が故障して、他の業務処理用プロセ
ッサ(PE) 2から送られてくるメッセージを、対応する耐
故障性のプロセッサ(FTPE) 1が受信する際、上記ネット
ワーク 6を介して直接受信することができので、故障し
た業務処理用プロセッサ(PE) 2内に、前述のメッセージ
をバイパスする為のハードウェア機構を必要としない利
点が得られる。{請求項1,2,6に記載の発明に対
応} 図5に示した実施例は、上記耐故障性の計算機 1の相互
接続と、上記業務処理用プロセッサ(PE) 2の相互接続と
を同じ共有メモリ 7を用いる場合である。
【0029】この場合も、故障した業務処理用計算機 2
に対するメッセージの送信を、共有メモリ 7を介して行
うことができるので、上記図3の例と同じく、耐故障性
のプロセッサ(FTPE) 1と、業務処理用プロセッサ(PE) 2
との接続時間を短縮させることができる。但し、各耐故
障性のプロセッサ(FTPE) 1から配置されたタスクの起動
は、前述と同じように、耐故障性のプロセッサ(FTPE) 1
と、業務処理用プロセッサ(PE) 2との間で1対1対応で
接続されている制御線で行う。
【0030】然しながら、この構成では、共有メモリ 7
が並列計算機に唯一つしか存在しないので、該共有メモ
リ 7の耐故障性を保証する為には、該共有メモリ 7の二
重化などの対策が必要となる。{請求項1,2,7に記
載の発明に対応} 図6に示した実施例は、共有メモリバス(TCMP バス) 8
で接続された共通メモリ 5による密結合とし、且つ、各
業務処理用プロセッサ(PE) 2のネットワーク(network)
6 による接続を、上記共有メモリバス(TCMP バス) 8 を
介して行う例である。
【0031】この場合、故障した業務処理用プロセッサ
(PE) 2に対するメッセージは、ネットワーク(network)
6,共有メモリバス(TCMP バス) 8,共有メモリ 5を介し
て、同じ共有メモリバス(TCMP バス) 8 に繋がっている
耐故障性のプロセッサ(FTPE) 1が受け取り、再配置完了
後、代替え用の業務処理用プロセッサ(PE) 2にネットワ
ーク(network) 6 を介して、或いは、該耐故障性のプロ
セッサ(FTPE) 1の共通バス 9を介して転送する。従っ
て、該故障した業務処理用プロセッサ(PE) 2に、メッセ
ージをバイパスする為のハードウェア機構を必要としな
い利点が得られる。{請求項1,2,8に記載の発明に
対応} 図7に示した実施例は、図5に示した実施例の変形であ
って、耐故障性のプロセッサ(FTPE) 1と、業務処理用プ
ロセッサ(PE) 2と、ネットワーク(network) 6とを通信
路 3a で接続した例である。この場合、故障した業務処
理用プロセッサ(PE) 2に対するメッセージは、該業務処
理用プロセッサ(PE) 2間のネットワーク(network) 6 に
対する通信パスとは別の、上記通信路 3a に接続された
通信パスを介して受信することができるので、該故障し
た業務処理用プロセッサ(PE) 2内に、前述のパイパスの
為のハードウェア機構を設ける必要がなくなる。又、こ
の構成例では、業務処理用プロセッサ(PE) 2に対するタ
スクの再配置完了後、該タスク, 及び、データを、ネッ
トワーク(network) 6 介して、直接的に、代替え用の業
務処理用プロセッサ(PE) 2に転送することができる。
{請求項1,2,9に記載の発明に対応} 又、図1に示した原理構成図において、ネットワーク(n
etwork) 6 を共有メモリ 7に置き換えることもできる。
この場合、該業務処理用プロセッサ(PE) 2間のメッセー
ジ通信は、該共有メモリ 7を介して行うことができるの
で、業務処理用プロセッサ(PE) 2間のメッセージ通信を
突き放し方式で行うことができ、該メッセージ通信の為
に、業務処理用プロセッサ(PE) 2を接続状態のままにす
ることを回避することができ、それぞれの業務処理用プ
ロセッサ(PE) 2でのタスク処理を高速化することができ
る。
【0032】このように、本発明は、複数個の計算機を
クラスタを単位として結合し、指示された処理を独立性
の高い複数の単位(タスク)に分割し、各クラスタに負
荷を分散させるルータ機構を備えた並列計算機におい
て、該指示された処理を独立性の高い複数の単位(タス
ク)に分割し、各クラスタに負荷を分散させるルータ機
構を備えた並列計算機の、上記ルータ機構を、耐故障性
のプロセッサ(FTPE)で分担させ、上記タスクの処理を業
務処理用プロセッサ(PE)で分担させ、上記耐故障性のプ
ロセッサ(FTPE)と、上記業務処理用プロセッサ(PE)とを
結合して、並列計算機を構成し、ある業務処理用プロセ
ッサ(PE)が故障して、上記ルータ機構を分担している耐
故障性のプロセッサ(FTPE)で、上記故障した業務処理用
プロセッサ(PE)が分担していた処理を他の業務処理用プ
ロセッサ(PE)に再配置中に、他の業務処理用プロセッサ
(PE)から送られてきたメッセージを、該耐故障性のプロ
セッサ(FTPE)で受信し、再配置する業務処理用プロセッ
サ(PE)に転送するようににしたところに特徴がある。
【0033】
【発明の効果】以上、詳細に説明したように、本発明の
並列計算機によれば、業務処理用プロセッサ(PE)に、耐
故障性のためのハードウェア, ソフトウェア機構を組み
込む必要がなく、業務処理用プロセッサ(PE)のコストの
逓減を図ることができる。又、ルータ側に、耐故障性の
機能を集約することができるので、耐故障性の機能の最
適化が、業務処理とは関係なくできる。
【0034】又、該業務処理用プロセッサ(PE)内に、送
り先の業務処理用プロセッサ(PE)が故障した場合に、メ
ッセージを一時保留する機能を持たせたり、並列計算機
として、該メッセージを保持する為の、耐故障性の共有
メモリを具備させることなく、該メッセージの代替えの
業務処理用プロセッサ(PE)への転送が可能となる。
【0035】又、本発明の並列計算機の副次的な効果と
して、上記耐故障性のプロセッサ(FTPE)と、業務処理用
のプロセッサ(PE)とは、元々、アーキテクチャの異なる
プロセッサを使用することができるので、業務処理用の
プロセッサ(PE)に、並列処理に最適なアーキテクチャの
プロセッサを使用し、耐故障性のプロセッサ(FTPE)に
は、耐故障性のプロセッサに最適なアーキテクチャのプ
ロセッサを使用することができるので、新規のプロセッ
サを開発することなく、従来の2種類のプロセッサを組
み合わせるだけで、信頼性が高く、処理能力の逓減のな
い並列計算機を構築することができる。
【図面の簡単な説明】
【図1】本発明の原理構成図
【図2】本発明の一実施例を示した図(その1)
【図3】本発明の一実施例を示した図(その2)
【図4】本発明の一実施例を示した図(その3)
【図5】本発明の一実施例を示した図(その4)
【図6】本発明の一実施例を示した図(その5)
【図7】本発明の一実施例を示した図(その6)
【図8】従来の並列計算機の構成例を示した図
【符号の説明】
0 フロントエンドプロセッサ(FEP) 1 耐故障性の計算機 (プロセッサ)(FTPE) 2 業務処理用の計算機 (プロセッサ)(PE) 3 通信路 3a 通信路 4 共通バス 5 共有メモ
リ 6 ネットワーク(network) 7 共有メモ
リ 8 共有メモリバス(TCMP バス) 9 耐故障性の計算機 (プロセッサ)(FTPE) の共通バ

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】複数個の計算機をクラスタを単位として結
    合し、指示された業務処理を独立性の高い複数の単位に
    分割し、各クラスタに負荷を分散させるルータ機構を備
    えた並列計算機であって、 上記ルータ機構を、耐故障性の計算機(1) で構成し、該
    耐故障性の計算機と、上記分割された業務用処理を実行
    する業務処理用計算機(2) とを結合して、上記ルータ機
    構と、業務処理とを、それぞれ別個の計算機(1,2) で行
    わせるように構成したことを特徴とする並列計算機。
  2. 【請求項2】上記並列計算機であって、分割された業務
    処理を分担しているある業務処理用計算機(2) が故障し
    たとき、上記ルータ機構を構成している耐故障性の計算
    機(1) で、上記故障した業務処理用計算機(2) が分担し
    ていた処理を他の業務処理用計算機(2) に再配置中に、
    他の業務処理用計算機(2) から送られてきたメッセージ
    を、該耐故障性の計算機(1) で受信,保持し、再配置す
    る業務処理用計算機(2) に転送することを特徴とする並
    列計算機。
  3. 【請求項3】上記請求項1,2の並列計算機であって、
    上記ルータ機構を備えた耐故障性の計算機(1) と業務処
    理用計算機(2) とを結合する手段として、 各計算機(1,2) 同士を、通信路(3) による直接結合する
    ことを特徴とする並列計算機。
  4. 【請求項4】上記請求項1,2の並列計算機であって、
    上記ルータ機構を備えた耐故障性の計算機(1) と業務処
    理用計算機(2) とを結合する手段として、 各計算機(1,2) 間に共通バス(4) を設けて、該共通バス
    (4) を介して結合することを特徴とする並列計算機。
  5. 【請求項5】上記請求項1,2の並列計算機であって、
    上記ルータ機構を備えた耐故障性の計算機(1) と業務処
    理用計算機(2) とを結合する手段として、 共有メモリ(5) による密結合とすることを特徴とする並
    列計算機。
  6. 【請求項6】上記請求項1,2の並列計算機であって、
    上記ルータ機構を備えた耐故障性の計算機(1) と業務処
    理用計算機(2) とを結合する手段として、 上記耐故障性の計算機(1) をネットワーク(6) に接続
    し、該耐故障性の計算機(1) を業務処理用計算機(2) の
    通信用計算機として使用することを特徴とする並列計算
    機。
  7. 【請求項7】上記請求項1,2の並列計算機であって、
    上記ルータ機構を備えた耐故障性の計算機(1) と業務処
    理用計算機(2) とを結合する手段として、 上記耐故障性の計算機(1) の相互接続と、上記業務処理
    用計算機(2) の相互接続とを同じ共有メモリ(7) を用い
    ることを特徴とする並列計算機。
  8. 【請求項8】上記請求項1,2の並列計算機であって、
    上記ルータ機構を備えた耐故障性の計算機(1) と業務処
    理用計算機(2) とを結合する手段として、 共有メモリバス(8) で接続された共通メモリ(5) による
    密結合とし、且つ、各業務処理用計算機(2) のネットワ
    ーク(6) による接続を、上記共有メモリバス(8) を介し
    て行うことを特徴とする並列計算機。
  9. 【請求項9】上記請求項1,2の並列計算機であって、
    上記ルータ機構を備えた耐故障性の計算機(1) と業務処
    理用計算機(2) とを結合する手段として、 上記耐故障性の計算機(1) と、業務処理用計算機(2)
    と、ネットワーク(6) とを通信路(3a)で接続したことを
    特徴とする並列計算機。
JP5285398A 1993-11-16 1993-11-16 並列計算機 Withdrawn JPH07141303A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5285398A JPH07141303A (ja) 1993-11-16 1993-11-16 並列計算機

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5285398A JPH07141303A (ja) 1993-11-16 1993-11-16 並列計算機

Publications (1)

Publication Number Publication Date
JPH07141303A true JPH07141303A (ja) 1995-06-02

Family

ID=17691020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5285398A Withdrawn JPH07141303A (ja) 1993-11-16 1993-11-16 並列計算機

Country Status (1)

Country Link
JP (1) JPH07141303A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295738A (ja) * 2003-03-28 2004-10-21 Nec Corp 耐障害計算機システム、プログラム並列実行方法およびプログラム
JP2006094464A (ja) * 2004-09-23 2006-04-06 Internatl Business Mach Corp <Ibm> パケット・トラフィックを管理する方法、マルチプロセッサ・ネットワークおよびコンピュータ・プログラム(データ処理ネットワークにおける相互接続の最適利用)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295738A (ja) * 2003-03-28 2004-10-21 Nec Corp 耐障害計算機システム、プログラム並列実行方法およびプログラム
JP2006094464A (ja) * 2004-09-23 2006-04-06 Internatl Business Mach Corp <Ibm> パケット・トラフィックを管理する方法、マルチプロセッサ・ネットワークおよびコンピュータ・プログラム(データ処理ネットワークにおける相互接続の最適利用)
US7821944B2 (en) 2004-09-23 2010-10-26 International Business Machines Corporation Optimal interconnect utilization in a data processing network

Similar Documents

Publication Publication Date Title
US11755435B2 (en) Cluster availability management
US7925817B2 (en) Computer system and method for monitoring an access path
US5878205A (en) Method and system for processing complex recovery using polling signals in a shared medium
US6378021B1 (en) Switch control method and apparatus in a system having a plurality of processors
US4628508A (en) Computer of processor control systems
US7644254B2 (en) Routing data packets with hint bit for each six orthogonal directions in three dimensional torus computer system set to avoid nodes in problem list
JP3640187B2 (ja) マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード
EP1573978B1 (en) System and method for programming hyper transport routing tables on multiprocessor systems
US6594735B1 (en) High availability computing system
US20130061086A1 (en) Fault-tolerant system, server, and fault-tolerating method
US7512836B2 (en) Fast backup of compute nodes in failing midplane by copying to nodes in backup midplane via link chips operating in pass through and normal modes in massively parallel computing system
CN109032754B (zh) 提高通信路径可靠性的方法和设备
JPH07141303A (ja) 並列計算機
US7836335B2 (en) Cost-reduced redundant service processor configuration
JP6134720B2 (ja) 接続方法
CN111190345A (zh) 每个硬件单元配有多个处理器单元的冗余的自动化系统
JPS589460B2 (ja) 複合デ−タ処理ユニツト・デ−タ処理装置
US11853175B2 (en) Cluster system and restoration method that performs failover control
JP2829040B2 (ja) 情報集配信システム
WO2023160378A1 (zh) 存储设备、存储方法、计算设备及存储介质
JPH04239831A (ja) 相互プロセッサバックアップ方式
JPH10124338A (ja) 並列処理装置
CA2251455A1 (en) Computing system having fault containment
JPS59135554A (ja) 計算機システム間通信方式
JPH05289896A (ja) フォールトトレラントコンピュータ

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20010130