JP2566681B2

JP2566681B2 - 多重プロセッシング・システム

Info

Publication number: JP2566681B2
Application number: JP2415183A
Authority: JP
Inventors: リチャード・アーウィン・バーム; チャールス・エイチ・ブラットマン; ジェームス・ウォルター・ライマクザヤク
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1990-02-02
Filing date: 1990-12-27
Publication date: 1996-12-25
Anticipated expiration: 2011-12-25
Also published as: JP2576846B2; US5166674A; US5161156A; EP0439693A3; EP0439693B1; JPH04139566A; DE69021710T2; JPH07210527A; EP0439693A2; DE69021710D1

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は多重プロセッシング・シ
ステム及び多重プロセッシング・システムにおける誤り
回復の分野に関する。

【０００２】

【従来の技術】多重プロセッシング・システム(MPS)と
は、複数の接続されたプロセッサを用いて複数のプログ
ラムを同時に実行する計算機システムである。因襲的
に、多重プロセッシング・システムはプロセッサ間の相
互接続に基づいて多くの型式に分類されている。

【０００３】従来の多重プロセッシング・システムの第
1型式は「多重プロセッサ」即ち「共用メモリ」システ
ムである(図1)。共用メモリ・システムでは、多くの中
央演算プロセッサ102〜106が1つの共通グローバル・メ
モリ108を共用するという事実によって相互接続されて
いる。それぞれの中央演算プロセッサが1つのローカル
・キャッシュ・メモリを有することもあるが、クロス・
キャッシュの有効性検査によってキャッシュはユーザに
透明になり、システムはそれがあたかも1つのグローバ
ル・メモリを有するかに見える。

【０００４】共用メモリ・システムも接続ネットワーク
を通じて複数のグローバル・メモリを共用する複数の中
央演算プロセッサの形をとる。このようなシステムの1
例はオメガ・ネットワークである(図2)。オメガ・ネッ
トワークでは、段階状に組織された複数のスイッチS01
〜S24がリクエスト中のプロセッサによって生成された2
進宛先タグを使用して複数のプロセッサP0〜P7及び複数
のグローバル・メモリM0〜M7の間でデータをルート割当
てする。これによってオメガ・ネットワークは中央制御
装置の必要性を回避する。

【０００５】共用メモリ・システムの通常の特性はメモ
リ中のデータ片へのアクセス時間がリクエストを行うプ
ロセッサとは独立していることである。共用メモリ・シ
ステムの重要な制限はグローバル・メモリの総計帯域が
システム上に収容できるプロセッサの数を制限すること
である。

【０００６】通常知られている多重プロセッシング・シ
ステムの第2型式は多重コンピュータ・メッセージ・パ
ス・ネットワーク(図3)である。メッセージ・パス・ネ
ットワークは多くのプロセッシング・ノードを相互接続
することによって構成される。各ノード302〜308は中央
演算プロセッサ及びグローバルにはアクセス可能でない
ローカル・メモリを含む。プロセッサ間でデータを共用
するアプリケーションのためにプログラマは指令を明示
的にコーディングして1つのノードから他のノードへデ
ータを移動させなければならない。共用メモリ・システ
ムと対照的に、データにアクセスするためにプロセッサ
に要する時間は現在ローカル・メモリにデータを有する
プロセッサからの距離(ノード数)に依存する。

【０００７】図3のメッセージ・パス・ネットワーク構
成では、各ノードは他の各ノードへの直接接続部を有す
る。しかしこのような構成は非常に多くのプロセッサに
ついては非実用的である。超立方体構成などの解決法が
プロセッサ間の最大距離を制限するためにこれまで使用
されてきた。いずれにしても、ネットワーク中のプロセ
ッサの数は増えるので、間接接続部の数及びその結果の
アクセス時間は増加する傾向となる。

【０００８】多重プロセッシング・システムの第3型式
はハイブリッド計算機である(図4)。ハイブリッド計算
機は共用メモリ・システムのいくつかの特性及びメッセ
ージ・パス・ネットワークのいくつかの特性を有する。
ハイブリッド計算機では、各々がローカル・メモリを持
つ多くのプロセッサ402〜406が接続ネットワーク408に
よって接続されている。すべてのメモリがローカルであ
っても、オペレーティング・システムは計算機を単一の
グローバル・メモリを有するかのように見せる。ハイブ
リッド計算機の1例としてはIBM RP3がある。ハイブリッ
ド計算機は典型的には、メッセージ・パス・ネットワー
クよりはるかに速い遠隔データへのアクセスを提供でき
る。そうであっても、データ・レイアウトはアルゴリズ
ム性能には重大な影響を持ち、通信ネットワークの総合
通信速度は収容できるプロセッサの数を制限する。

【０００９】多重プロセッシング・システム接続ネット
ワークの変形はクラスタ接続ネットワーク(図5)であ
る。クラスタ接続ネットワークでは、それぞれがプロセ
ッサ群510〜516及びマルチプレクサ/制御装置を含む多
くのクラスタ502〜508がスイッチ・ネットワークを介し
て接続される。多数のプロセッサが所定数のポートを通
じてスイッチに効果的に接続されているクラスタ・ネッ
トワークは図4のトポロジー以上の利点を有する。クラ
スタ接続ネットワークの1つの制約はクラスタ制御装置
及びスイッチの両方の帯域幅がシステム性能に重大であ
るという点である。この理由のために、スイッチ及びク
ラスタ制御装置の設計は最高のシステム・サイズ及び性
能を決定する際の重要なファクタとなる。

【００１０】

【発明が解決しようとする課題】本発明の目的は接続ネ
ットワークによって接続されたシステムにおけるハード
及びソフトの誤り回復のために効果的なシステムを提供
することである。

【００１１】

【課題を解決するための手段】本発明の1つの態様で
は、少なくとも3つのノードを有する多重プロセッシン
グ・システムの2つのノードの間で転送されているデー
タの宛先フィールドにおける誤りから回復するためのシ
ステム及び方法が提供される。データが宛先アドレス・
フィールドにおける誤りによる不適切なノードに誤って
ルート割当てされると、誤りは検出され修正される。い
ったん誤りが修正されると、データは独立データ・パス
(即ちデータが受け取られたパスとは別のパス)によって
正しいノードに再ルート割当てされる。有利なことに
は、これは宛先アドレス・フィールドにおけるソフト及
びハード両方の誤りからの回復を可能にする。

【００１２】

【実施例】本発明の多重プロセッシング・システムは広
帯域幅スイッチによって相互接続された多数のプロセッ
サ・エレメント(PE)を含む。ここに記載されたパケット
・アーキテクチャでは32768個までのプロセッサ・エレ
メントが可能であるが、以下の実施例では4096個までの
プロセッサ・エレメントを使用する。しかしながら、任
意の数のプロセッサ・エレメントがここに記載する原理
を使用して構成可能である。システム構成のサイズはプ
ロセッサ・エレメントを単位として計算要件に従って調
整することができる。

【００１３】各プロセッサ・エレメントは1つ又は複数
の高性能(例えば50〜200MIPS)汎用マイクロプロセッ
サ、大容量ローカル記憶機構(例えば64〜256MB)及びプ
ロセッサの介入なしにスイッチを通じてメッセージを送
受するDMA制御装置を含む。各プロセッサ・エレメント
はまたデータベース・プロセッシング機能のための1つ
又は複数の任意選択ハードウエア・アクセレレータも含
むことができる。

【００１４】個別のプリント回路カードの上に、各プロ
セッサ・エレメントを詰め込むことができる。プロセッ
サ・エレメントカードはまた関係データベース・ファイ
ル・システムへの直接アクセスのためのI/Oポート、ベ
クトル・プロセッシング・エンジン又はデータ暗号化機
構などの特殊目的のハードウエアを備えることもでき
る。特に、データベース・アクセレレータ・ハードウエ
アは述部評価、フィールド抽出、分類、組合せ及び結合
などの共通機能の性能を強化するために使用可能であ
る。

【００１５】プロセッサ・エレメントを相互接続するス
イッチは階層的であり、クラスタのネットワークからな
る。64個までのプロセッサ・エレメントが組み合わされ
てクラスタを形成し、64個までのプロセッサ・エレメン
トはバンヤン・ネットワークによって結合される。メッ
セージはパケット形状のスイッチを通じてルート割当て
され、各パケットは4ワード長データ及び1つの制御情報
ワードを有する。

【００１６】図6は本発明の多重プロセッシング・シス
テムの構造概略図である。図6のシステムは32個のクラ
スタ制御装置602(1)〜602(32)を含むクラスタ接続ネッ
トワーク(クラスタ・ネットワーク)である。各クラスタ
制御装置は64個のプロセッサ・エレメント(PE) 604(1〜
64)、604(65〜128)・・・604(1985〜2048)のためのシス
テム・インタフェースを含む。1つのクラスタ制御装置
及び64個のプロセッサ・エレメントの各グループを「ク
ラスタ」と呼ぶ。

【００１７】所定のクラスタにおける各プロセッサは入
力バス(例えば612(1))及び独立(分離)した出力バス(例
えば614(1))によってクラスタ制御装置に接続される。
同様に、32個のクラスタ制御装置はそれぞれ入力バス60
8(1〜32)及び独立出力バス610(1〜32)によって32×32ス
イッチ・ネットワーク606に接続される。このため、全
システムは2048個のプロセッサ604(1〜2048)を含む。ク
ラスタ制御装置及びスイッチ・ネットワークの両方は高
速クロック(例えば5nsサイクル・タイム)の制御の下で
プロセッサ間でデータを同期的に組合せ転送するように
動作する。

【００１８】例えば64×64スイッチ・ネットワークによ
って相互接続された64個のクラスタを有するシステム拡
張バージョンを同じ構造で実施することができる。多種
の大小の構成が同様に実用化可能である。

【００１９】ホスト・コンピュータ(例えばIBM 3090シ
リーズ・システム)用の付加コプロセッサとして図6のク
ラスタ・ネットワークを有することが望まれる場合に
は、スイッチ・ネットワーク606上のポートがホスト・
インタフェースとしての使用のために供される。ホスト
・インタフェースは図6のクラスタ制御装置602(1)〜602
(32)の任意の1つの場所をとるホスト・アダプタ要素に
よって提供される。

【００２０】ホスト・アダプタの1つの実施例を図17に
示す。ホスト・コンピュータ1800及びホスト・アダプタ
1700のリンクはホスト・コンピュータ中の高速データ・
リンクに接続する複数の光ファイバ又は銅線のケーブル
1702によって提供されるのが好ましい。このリンクは初
期接続手順プロトコルなしに両方向に同時転送する全二
重であることが好ましい。

【００２１】ホスト・コンピュータ1800は(論理宛先ア
ドレス及び指令フィールドを含む)制御情報を含むヘッ
ダー・レコードに後続する1つ又は複数のデータ・レコ
ードを持つデータ・ブロックを伝送することが望まし
い。各データ・レコードのサイズの1例は4キロバイトで
ある。ホスト・コンピュータからクラスタ・ネットワー
クへの指令はデータ・レコードを伴わないヘッダー・レ
コードの特殊ケースとしてなされる。ホストからクラス
タへのネットワーク通信の好ましい構成は対称なピア・
ツー・ピア・メッセージ・パス方式であり、これによっ
てクラスタ・ネットワークはホスト・コンピュータ1800
に割込みを起こさせる指令を介してホスト・コンピュー
タへの非同期応答を発生させることができる。

【００２２】データ転送速度の差異を調整するために、
ホスト・アダプタ1700にはデータ・ブロック・バッファ
・アレイ1704が備えられている。ホスト・コンピュータ
への及びそれからのデータ速度が個別のプロセッサ・エ
レメントのデータ速度をはるかに上回ることがあるの
で、バッファが準備されている。例えば、ホストは500M
B/から1GB/秒までのデータ速度域を有することがあり、
所定のデータ・ブロックを200MB/秒のピーク速度でしか
データを受け取ることができない単一プロセッサ・エレ
メントにルート割当てすることもある。このため、デー
タ・ブロック・バッファ・アレイ1704は速度マッチング
の目的のために複数のバッファ(少なくとも各々4KBが望
ましい)を含む。これにより、ホスト・アダプタ1700は
ホスト・コンピュータが許す最高速度でホスト・リンク
を動作させるためにいくつかの並行動作を管理できるよ
うになる。

【００２３】ホスト・コンピュータ1800はクラスタ・ネ
ットワークを大きな線形アドレス空間としてアドレス指
定する。ルート割当て論理1706によって実現されたマッ
ピング・テーブルを介してホスト・アダプタ1700は各ホ
スト・アドレスをプロセッサ・エレメントのメモリにお
ける物理アドレスへ変換する。このため、データ・ブロ
ックのホスト・アドレス空間はプロセッサ・エレメント
のすべてにわたってそれらのローカル・メモリ内の1つ
の帯域として分布される。この目的のために、プロセッ
サ・エレメントのローカル・メモリ空間の半分を使用す
ることが意図される。

【００２４】マッピングはホスト・アダプタ1700内のマ
イクロプロセッサ1708によって管理される。マイクロプ
ロセッサ1708は作業データやマイクロコードのためのロ
ーカル記憶機構1710を持ち、(複数の照会を取り扱うた
めの多重プロセッサの論理分割を含む)構成制御を提供
する機能を実施する。実際のデータ転送は後述するよう
にマイクロプロセッサ1708自体によってではなく支援要
素によって取り扱われる。

【００２５】インタフェース論理1712はホストからのデ
ータ・ブロックをパケットに変換してスイッチ・ネット
ワークを介してプロセッサ・エレメントへ伝送し、パケ
ットからの逆アセンブリも行なう。ホスト・アダプタ17
00のホスト側ではリンク・アダプタ1714がデータを内部
ホスト・アダプタ・フォーマットから適当なリンク・フ
ォーマット(例えばファイバ・オプティック・フォーマ
ット)に変換し、その逆も行なう。またリンク・アダプ
タ1714はリンク・レベル・プロトコルを取り扱う。前記
のようにルート割当て論理1706は論理アドレスがプロセ
ッサにマッピングする場所を決定する。

【００２６】物理的には、ホスト・アダプタ1700はプロ
セッサ・エレメント・カードで使用されるものと同じ技
術を用いて多くの通常の論理カード及びメモリ・カード
を保持するマザーボードを使用して実施されることが望
ましい。図6の多重プロセッサはホストへの接続を設け
ることなく独立多重プロセッシング・システムとして動
作可能であることを理解すべきである。

【００２７】図7は図6の32×32スイッチ・ネットワーク
606のより詳しい図である。スイッチ・ネットワーク606
は8個の相互接続された8×8スイッチ702〜716を含み、
各スイッチは熱伝導モジュール(TCM)上に実現されるこ
とが好ましい。スイッチ702〜708の第1コラム(段)は32
個のクラスタ制御装置602(1)〜602(32)の各々から来る
パケットを受け取る。第1コラムにおける各スイッチの
出力部は出力バスの対を介して第2コラム(段)に配置さ
れた4個の8×8スイッチ710〜716の各々へ接続される。
第2スイッチ・コラムは32個のクラスタ制御装置602(1)
〜602(32)の任意の1つのデータ入力部へ受け取られたデ
ータ・パケットをルート割当てするために接続される。

【００２８】8×8スイッチ702〜716は自己ルート割当て
型(即ち入って来るメッセージ内の内部フィールドを復
号してルート割当てを決定するもの)であり、これは任
意の入力ポート及び任意の出力ポートの間の接続をもた
らすことができる。更に、8×8スイッチは選択されたル
ート割当てに従って8個の入力ポートすべて及び8個の出
力ポートすべての間の同時接続及び通信をもたらす。

【００２９】スイッチの64×64バージョンが64個のクラ
スタ制御装置を有する実施例で使用される。64×64スイ
ッチは8個×2コラムに配置された全部で16個のスイッチ
のそれぞれに更に8つの8×8スイッチを加えて作られ
る。64×64構成に対してただ1つのバスが第1段及び第2
段における各スイッチの間に設けられる。64×64スイッ
チ実施例の第1コラムにおける各スイッチのすべての出
力部が第2コラムにおける1つのスイッチに個別に接続さ
れるので、ただ1つのバスしか必要としない。

【００３０】図8は8×8スイッチ702〜716の代表的な1つ
を示す。各8×8スイッチは8個の8×1スイッチ/待ち行列
を含む。これらのスイッチ/待ち行列802の代表的な1つ
の相互接続を示す。各8×8スイッチ/待ち行列の入力ポ
ートの各々は8個の8×1スイッチ/待ち行列すべてにバス
で接続されている。各8×1スイッチ/待ち行列はその入
力(5ワード・パケット)を最大8個まで受け取り、それら
をネットワーク・クロックの各サイクルにおいて単一FI
FO(先入れ先出し法)出力待ち行列に入力することができ
る。同じサイクルで、単一パケット(待ち行列のトップ)
は待ち行列を離れてスイッチ・ネットワークの次段又は
最終宛先へ渡されることが可能である。待ち行列がサイ
クル開始時に空である場合には、有効入力パケットが待
ち行列を迂回して出力部に直接到達することができ、こ
れによってさもなければ不必要なステージングで無駄に
なったであろうサイクルを節約する。

【００３１】各パケットはそれ自体の宛先アドレスを有
する。アドレス指定機構は次の機能を提供する。所定の
スイッチ待ち行列によって表された出力ポートに対して
正しくアドレス指定されたパケットのみが実際にそのポ
ートにエンキューされることになる。更に、各パケット
はただ1つの待ち行列に入れられることになる。アドレ
スは1つのアドレスが発信元及び宛先の間の一意的な通
路に対応するようなものでなければならない。各アドレ
ス内の3ビット群は各スイッチ内のローカル・アドレス
を表す。同時入力パケットの各々はどの順序で待ち行列
に入れられるかを決めるために固定優先順位を使用す
る。もっと複雑精巧な優先方式が使用することもできる
が、どの5ワード・パケットも各サイクルで待ち行列に
入る機会があるので、固定優先順位は本来「フェア」な
ものである(即ち単一の発信元は他の発信元がその出力
ポートのためのデータを有していない場合を除くと待ち
行列上で占有するエントリは割り当て分だけである)。

【００３２】図9は図8に示す代表的なスイッチ/待ち行
列802の更に詳しいダイヤグラムである。各スイッチ/待
ち行列は64パケットまでの待ち行列902を有する。各パ
ケットは5ワードのサイズである。各ワードは32データ
・ビット及び4ECCビットからなる。入力ポートからのパ
ケットはパケットの制御ワード部分に含まれる宛先アド
レスに基づいて単一スイッチ/待ち行列の認識論理904に
よって選択される。8パケット(各入力ポートに1パケッ
ト)までが各サイクル中に所定の出力ポートにエンキュ
ーされることが可能である。同時に、各出力ポートは伝
送用のパケットをそのローカル・エンキュー902又は短
絡論理906のいずれかから選択することができ、この短
絡論理によって待ち行列が空のときに単一入力が出力ポ
ート・レジスタ910に直接行くことができるようにな
る。使用中論理908がダウンストリーム待ち行列がフル
のときに、パケットの送信を防ぐために設けられる。こ
の設計は活動期間中に出力部が使用中に見えることを防
ぎこれによって使用中条件が送信側に伝播することを阻
止する。

【００３３】動作例として、8×8スイッチの8個の入力
部のうち3個が有効アドレスを有し、これらが入力部を
第2出力ポートへ向けると仮定する。認識論理904はスイ
ッチの当該部分へゲートされるべきこれら3つのアドレ
スに対して選択動作を行なう。出力ポート待ち行列902
が空でも一杯でもない場合には、入力パケットは待ち行
列に入れられる(エンキューされる)。出力ポート待ち行
列902が一杯の場合には、使用中論理908はパケットの入
力を防ぐ。出力ポート待ち行列902が空の場合には、短
絡論理906は通常の優先順位方式に従って3つの入力パケ
ットの1つを選択して出力ポート・レジスタ910へ直接渡
し、それと同時に残りの2つのパケットを待ち行列902に
入れる。出力ポート・レジスタ910におけるパケットは
スイッチの次のレベルが使用中でない限りそのレベルに
ゲートされる。

【００３４】図10は図6のクラスタ制御装置602(1)〜602
(32)の1例の更に詳しい図である。クラスタ制御装置1
602(1)を例として使用することにする。スイッチ・ネッ
トワーク(スイッチ710〜716)の第2段から来て入力バス6
08(1)に受け取られたデータは6入力9出力スイッチ1002
へルート割当てされる。このスイッチ1002は6つの入力
を受け取る。即ちスイッチ・ネットワーク606から1つ、
グローバル記憶機構1004から1つ及びアセンブリ・バッ
ファ1006から4つである。6入力9出力スイッチ1002は(6
つの入力から)受け取ったデータを適当な「オクタン
ト」へ又はグローバル記憶機構1004へ配分する。グロー
バル記憶機構1004はプロセッサ・エレメント間の共用状
況、プロセス調整、共用アルゴリズム制御及び共用デー
タを含む種々の機能のために使用可能である。

【００３５】受け取ったデータを適当なオクタントへル
ート割当てするために、6入力9出力スイッチ1002は内部
パケット宛先アドレス(DST)からの3つのビットを復号す
る。代替としてグローバル記憶機構1004はグローバル記
憶アクセス指令を復号するスイッチ1002によってアクセ
スされる。6入力9出力スイッチ1002からの出力について
のいかなる競合も通常の優先順位及びラウンド・ロビン
方式によって解決される。スイッチ・ネットワーク608
(1)からの接続は常に最高の優先順位を持つ。

【００３６】6入力9出力スイッチ1002の9つの出力1010
(1〜9)のうち8つはプロセッサ・エレメント待ち行列の
オクタントに接続される。オクタントの1例を参照番号1
008で示す。8つの出力1010(1)〜1010(8)の各々はこの型
式の個々のオクタントに接続される。各オクタントは8
つのプロセッサ・エレメント待ち行列を含む。各待ち行
列は16パケットの深さで使用中/満杯論理及び空待ち行
列用短絡機構を含む。各オクタントは(6入力9出力スイ
ッチからの)ただ1つの入力及び1つの出力を有し、1つの
読取り及び1つの書込みを同時に起こさせる。

【００３７】各クラスタ制御装置602(1)〜602(32)は更
に32個のプロセッサ・エレメントポート(PEP)1012(1)〜
1012(32)を含む。各プロセッサ・エレメントポートは2
つのプロセッサ・エレメントにインタフェースするため
のサブポートを含む。各サブポートは2つのプロセッサ
・エレメントの各々について、プロセッサ・エレメント
入力バス612(1〜64)の対応する1つに接続された2バイト
出力ポート及びプロセッサ・エレメント出力バス614(1
〜64)の対応する1つに接続された1バイト入力ポートを
含む。各待ち行列の出力部はオクタントにおける8個の
プロセッサ・エレメントのための)4つのPEPすべてにバ
ス接続される。PEPはアドレス復号を使用して適当なプ
ロセッサ・エレメントにアドレス指定されるパケットの
みをインゲートする。各PEPはバッファが空のときにオ
クタント待ち行列に信号を与えるための論理を持つ出力
ポート用のパケット・バッファを含む。

【００３８】8つのオクタントの各々は個別に動作して
パケットが使用可能である場合に、各サイクルに1つの5
ワードを8つのPEPバッファのうちの1つに供給する。PEP
からパケットは適当なプロセッサ・エレメント入力バス
を通ってアドレス指定されたプロセッサ・エレメントに
一度に2バイトで送られる。入力バス及び出力バスの非
対称性(1バイト対2バイト)は待ち行列満杯状態を防ぐ助
力となる。

【００３９】内方向へは(即ちプロセッサ・エレメント
からは)、1バイトのデータが入力バスの1つを通ってプ
ロセッサ・エレメントから対応するプロセッサ・エレメ
ント・ポート(即ちPEが接続されるPEP)へ来る。プロセ
ッサ・エレメントポートに入ってきたデータ・バイトは
連続するバイトを受け取って5ワード・パケットを形成
するアセンブリ・バッファ1006のポートに直接ルート割
当てされる。アセンブリ・バッファは64個のスロット(5
ワード・メモリ位置)1014(1)〜1014(64)を有する。つま
り、各プロセッサ・エレメントのためにアセンブリ・バ
ッファに1個のスロットがあり、各々は個別に動作し専
用のバイト計数及び使用中論理(図示せず)を有する。

【００４０】アセンブリ・バッファ・スロットは4コラ
ムに配列される。各コラムは専用のラウンド・ロビン論
理を有し、完全なスロットの1つを選択する。ネットワ
ーク・クロックのサイクル毎に各コラムにおける1スロ
ットからの1つの5ワード・パケットがアウトゲートされ
ることができる。アウトゲートされたパケットは6入力9
出力スイッチ1002及び5入力択一セレクタ1016へ行く。1
セクタ1016への第5入力はグローバル記憶機構1004から
来る。セレクタ1016はアドレス及びラウンド・ロビン論
理に基づいてスイッチ・ネットワーク606を通じてルー
ト割当てされる必要のある1つのパケットを取り、これ
をその通路に送る。5入力択一セレクタ又は6入力9出力
スイッチを通ってゲートされないパケットはそのスロッ
トの中に残ってラウンド・ロビン・アルゴリズムによる
次回の選択対象となる。

【００４１】メッセージを一様に分配する場合のクラス
タ制御装置の動作例は次の通りである。接続されたプロ
セッサ・エレメントからの1つの入力は1サイクル1バイ
トでアセンブリ・バッファの各々に読み込まれる。サイ
クルあたり5つの5ワード・パケットは5入力択一セレク
タにアウトゲートされ、これによってサイクルあたり1
つの5ワード・パケットが他のクラスタ制御装置に送ら
れる。

【００４２】PE方向への出力部では、6つまでの5ワード
・パケットが9つまでの宛先に待合せによってゲートさ
れることができる。クラスタ制御装置のサイクルを5ns
とし、PEバスへの入出力のサイクルを10nsとすると、ク
ラスタ制御装置はPEから6.4GB/秒(100MB/秒/PE)で入力
することができる。アセンブリ・バッファ及びグローバ
ル・メモリは12.8GB/秒で出力することができ、そのう
ちの3.2GB/秒まで他のクラスタ制御装置に出力すること
ができる。19.2GB/秒までは出力待ち行列に入ることが
でき、出力待ち行列自体はPEP及びグローバル記憶機構
に28.8GB/秒までを送ることができる。PEPはそれぞれの
PEに200MB/秒を送ることができ、これを集合すると、ク
ラスタ制御装置からPEへ12.8GB/秒までを流出させるこ
とができる。これらはピーク値であるが、設計は3.2GB/
秒の定常流がPEから他のクラスタに流れ、12.8GB/秒ま
でがPEへもどるようになっている。更に設計は待ち行列
が一杯になりスイッチの上流側でコンテンションが起こ
ることを防ぐようになっている。

【００４３】図12は図6のプロセッサ・エレメント604
(1)〜604(2048)の好ましい実施例である。本発明のマル
チプロセッサは他の型式のプロセッサをプロセッサ・エ
レメントとして使用することもできるということを理解
すべきである。プロセッサ・エレメントの中央プロセッ
サ1202は最新のRISCマイクロプロセッサであることが好
ましい。これは通常の方法によって命令やデータに速い
アクセス時間をもたらすプロセッサ・キャッシュ1204に
接続される。キャッシュ1204からのバスはDMA制御装置1
206につながる。DMA制御装置1206はスイッチ・バッファ
1208及びプロセッサ・エレメント(PE)記憶機構1210の各
々にキャッシュ1208の両方向ポートを提供する。スイッ
チ・バッファ1208はクラスタ制御装置への及びそれから
のデータ及びプロトコルを取り扱う入出力バッファであ
る。クラスタ制御装置は個々のバス1212、1214に接続さ
れた2つの単方向ポートによって、スイッチ・バッファ1
208を通じてプロセッサ・エレメントに接続する。第1単
方向ポートはクラスタ制御装置からプロセッサ・エレメ
ントへのトラフィックを取り扱い、一方第2単方向ポー
トはプロセッサ・エレメントからクラスタ制御装置へ出
て行くトラフィックを取り扱う。

【００４４】図13は図12のDMA制御装置1206のより詳し
いダイヤグラムである。入力メッセージを処理するため
に、1つの5ワード・アセンブリ・バッファ1302はクラス
タ制御装置からプロセッサ・エレメントへのデータを2
バイトずつ受け取り、パケットを再アセンブリする。EC
C論理1304はデータの完全性を検査して復元しまた同時
にパケットが適切な宛先に到着したかを検査する。

【００４５】いったんデータの完全性が確証又は修正さ
れて、パケットが適切な宛先に到着したことが判定され
ると、入力メッセージ制御論理1308はデータをPE記憶機
構1210の待ち行列に置く。このタスクはPE記憶機構1210
のための複数のリクエストを取り扱うことができ、いか
なる記憶機構競合も解決することのできる記憶機構アー
ビトレーション制御装置1310によって達成される。次に
入力メッセージ制御論理1308はメッセージが利用可能で
あるという信号をPEマイクロプロセッサ1202に送る。

【００４６】PEマイクロプロセッサ1202が他のPEへメッ
セージを送ることを望むと、それはまずメッセージをPE
記憶機構1210中の宛先待ち行列に待合せさせる。次にマ
イクロプロセッサ1202はメッセージが使用可能であると
いう信号が出力メッセージ制御論理1312に送る。これは
「記憶」操作を固定アドレスに行なうことによって可能
である。このアドレスはPE記憶機構1210の中には存在し
ないが、記憶アービトレーション制御装置1310によって
1つの特別信号として復号される。「記憶」操作用のデ
ータはPE記憶機構1210中の宛先待ち行列に向く。

【００４７】クラスタ制御装置に送られる前に、宛先待
ち行列における各メッセージはヘッダーがつけられる。
このヘッダーはDMA制御装置1206の宛先PE待ち行列ヘッ
ダー・アレイ1314に保持される。メッセージ・ヘッダー
はバイト数で表わしたメッセージの全長(4096バイトま
で)、メッセージが送られるべきPEの識別子(15ビットDS
T識別子)及びこの伝送PEの識別子(15ビットSRC識別子)
を指定する。

【００４８】広スイッチ帯域幅を達成するために、DMA
制御装置は複数のメッセージを順次に送るのではなく、
それらのメッセージからパケットをインタリーブする。
しかし、1つのプロセッサ・エレメントから他のプロセ
ッサ・エレメントへのメッセージはすべて順に送られ
る。スイッチの設計は1つのプロセッサ・エレメントに
よって他の特定のプロセッサ・エレメントから受け取っ
たパケットがそれらが送られた順序と同じ順序で受け取
られるということを保証する。出力メッセージ制御論理
は種々の宛先に対する先頭メッセージのすべて又は一部
を出力メッセージ・バッファ1316へ事前に取り出す。出
力メッセージ・バッファ1316からデータは1度に5ワード
ずつ5ワード分解バッファ1318へ取り出され、そこから1
度に1バイトずつクラスタ制御装置に送られる。

【００４９】更に別の機能として、DMA制御装置1206は
また伝送の前に各パケットのための9ビットSEC/DED誤り
訂正コード(ECC)を生成する。

【００５０】このシステムの誤り訂正機能を以下に更に
詳しく説明する。前記のように、メッセージ・パケット
がプロセッサ・エレメントに到達すると、DMA制御装置1
206はECCを適用し、ついでパケット指令フィールドによ
って指定された機能を実施する。受信パケットのDST識
別子内で単一ビット誤りが発生したことをECCが示す場
合には、そのパケットは他のプロセッサ・エレメントに
行くはずであったものであり、このためDMA制御装置120
6はDST識別子を訂正して、パケットを正しいプロセッサ
・エレメントに再送する。ホスト・プロセッサを含むク
ラスタ・ネットワークが構築されている場合、DMA制御
装置1206はまたこの誤り事象をホスト・プロセッサ・サ
ービス・サブシステムに報告する。これはホスト・プロ
セッサのソフトウェアに割込みをかけて、しきい値プロ
セッシング・アルゴリズムの制御の下で誤りをサービス
・サブシステムに報告することによって達成される。

【００５１】ECCは送信プロセッサ・エレメントで生成
され、受信プロセッサ・エレメントで検査されるが、パ
ケットがTCMに入ったりTCMから離れたりする度にそして
宛先プロセッサ・エレメントによる受信の度にパリティ
検査も実施される。こうして、訂正可能な誤りが検出さ
れ、それが発生するとすぐにサービス・システムに報告
することができる。

【００５２】本システムの自己訂正操作は図6を参照す
ればより良く理解される。ここで例として、クラスタ制
御装置602(1)及び32×32スイッチ・ネットワーク606の
間の通信路に問題があり、入力バケットの宛先アドレス
・フィールドでハード誤りを引き起こすと仮定する。更
にこの入力パケットはクラスタ制御装置602(1)上のプロ
セッサ・エレメント604(3)の送られるはずであったが、
ハード誤りのために同じクラスタ制御装置上のプロセッ
サ・エレメント604(1)に到達したと仮定する。

【００５３】受信プロセッサ・エレメント604(1)は入力
パケットを6入力9出力スイッチ及びPEP出力バスによっ
て受信する。いったんパケットが受信されると、プロセ
ッサ・エレメントは宛先フィールド誤りをECCを用いて
訂正し、PEP入力バス及びアセンブリ・バッファによっ
てクラスタ制御装置602(1)のパケットを正しいPE 604
(3)に再送する。パケットはもはや問題のあった通路を
通らないので、ハード誤りはこのパケットについては繰
り返されないことになる。

【００５４】クラスタ制御装置からスイッチ・ネットワ
ーク606へのバス上で誤った宛先アドレスが生じた場合
も、同様な手法で誤りを訂正することができる。各クラ
スタは別々の入力バス及び出力バスを有するということ
に留意されたい。したがって、出力パケットの宛先アド
レスがバスの出力側における誤接続によって変えられ、
そのためパケットが間違ったクラスタ制御装置に送られ
た場合には、正しいクラスタ制御装置及び受信/訂正中
のクラスタ制御装置の間の経路は送信元のプロセッサ及
び受信/訂正中のプロセッサの間の経路とはまったく異
なることになる。

【００５５】スイッチ・ネットワーク606自体はルート
割り当てされたプロセッサがシステム内に存在するか又
は動作しているプロセッサであるか否かを判断する誤り
訂正論理回路を含む。存在していない又は動作していな
いプロセッサ・エレメントにパケットがルート割当てさ
れた場合には、スイッチは発信元及び宛先フィールドを
入れ替え、パケットを誤りの指示と共に送信側に送り返
す。

【００５６】図11は図6のシステムと共に使用されるパ
ケット・フォーマットの好ましい実施例を示す。各パケ
ットは180ビット幅であり、5ビット指令フィールド(CM
D)、8ビット順序番号フィールド(SEQ)、15ビット宛先ア
ドレス・フィールド(DST)、15ビット発信元アドレス・
フィールド(SRC)、128ビット・データ・フィールド及び
9ビット誤り訂正コード(ECC)を含む。

【００５７】指令フィールド(CMD)はクラスタ制御装置
及び受信プロセッサ・エレメントにパケットの取扱い法
を告げる5ビット指令を含む。順序番号フィールド(SEQ)
は発信元プロセッサ・エレメントによって順番に割り当
てられる8ビット・パケット順序番号を含む。受信シス
テムはこの順序番号からメッセージ中の合計パケット・
カウンタのどのパケット番号を受信したかを識別するこ
とができる。

【００５８】宛先アドレス・フィールド(DST)は15ビッ
トの宛先プロセッサ・エレメント番号を含む。宛先フィ
ールドはパケットを自己ルート割当てするためにスイッ
チ及びクラスタ制御装置によって使用され、パケットが
適切なアドレスにルート割当てされたことを確認するた
めに受信(宛先)プロセッサ・エレメントによって使用さ
れる。

【００５９】発信元アドレス・フィールド(SRC)は15ビ
ットの発信元プロセッサ・エレメント番号を含む。発信
元フィールドはスイッチ及びクラスタ制御装置によって
使用されて動作不能又は不在のプロセッサ・エレメント
の番号が宛先アドレス・フィールド(DST)に現われた場
合にパケットを発信元に戻し、そして受信(宛先)プロセ
ッサによって使用されてメッセージ又は指令に対する任
意の応答を適切にアドレス指定する。

【００６０】データ・フィールドは128ビットの情報を
含む。データ・フィールド中の情報のタイプは指令フィ
ールド(CMD)によって定義される。

【００６１】ECCフィールド(ECC)はSEC/DED(単一誤り訂
正/二重誤り検出)コードを含む。

【００６２】メッセージ・ヘッダー・パケットの場合、
順序フィールドはメッセージの全長を指定し、そしてDM
A制御装置はこの長さのメッセージ・バッファをPEロー
カル・メモリ内に割り振り、データの最初の4ワードを
メッセージ・バッファに書き込み、そしてこのメッセー
ジのためにもっと多くのデータ・パケットがある場合に
は、ローカル・ハードウエア・ポインタ、長さ及び順序
レジスタを設定する。これはまたメモリ中にメッセージ
長、DST識別子及びSRC識別子を含むメッセージ・ヘッダ
ーを構築する。

【００６３】メッセージ本体パケットの場合、順序番号
フィールドは順序レジスタに対して検査され、パケット
が順序通りに到着しており、各4ワード・データがメッ
セージ・バッファに加えられるということを検証する。
メッセージが完全に受信されると、これはローカル・プ
ロセッサによる処理のためにローカル・メモリにおける
入力待ち行列に入れられる。入力待ち行列がこのメッセ
ージを加える前に空になっていた場合には、ローカル・
プロセッサに割込みがかけられ、それに保留作業を通知
する。

【００６４】記憶アクセス指令パケットの場合、DMA制
御装置はリクエストされた取出し又は記憶動作をPEロー
カル・メモリに実施し(ダブル・ワード・データの転
送)、取出しについては応答パケットがSRCフィールド及
びDST識別子フィールドを入れ替えることによって構築
され、次にスイッチを通じて送られ、リクエストされた
ダブル・ワード・データを戻す。

【００６５】グローバル記憶アクセス指令を含むパケッ
トはローカル記憶アクセス指令がDMA制御装置によって
取り扱われたのと同じ方法でクラスタ制御装置によって
取り扱われる。両方の場合とも、メモリ動作は自律的で
比較・置換(COMPARE AND SWAP)能力を含む。

【００６６】図14はプロセッサ・エレメント/クラスタ
・ボードの好ましいレイアウトを示す。物理的レイアウ
トの点では、クラスタは64個までのプロセッサ・エレメ
ントカード(即ちそれぞれが1つのプロセッサ・エレメン
トを実現する回路板)が直接取り付けられた多層回路板1
400及び少なくとも1つのクラスタ制御装置熱伝導モジュ
ール(TCM)1402を含むことが好ましい。各クラスタ制御
装置はクラスタ内でのローカル・メッセージ通信を取り
扱い、スイッチ・ネットワーク606に接続する。

【００６７】図15は8つのフレーム1502〜1516の各々に4
つのクラスタを有するシステム・フレームのレイアウト
を示す。スイッチ・ネットワーク熱伝導モジュールは中
央フレーム1518〜1524に実現されることが好ましい。ホ
スト・アダプタ1700(図17)はフレーム1502〜1516の任意
の1つに常駐することができる。利用可能性及び構成可
能性の理由のために追加のホスト・アダプタ1700をフレ
ーム1502〜1516の他の1つに設けることができる。

【００６８】図16は高性能RISCマイクロプロセッサ120
2、任意選択データベース加速装置1602、DMA制御装置12
06及びローカル・メモリ1210を含むプロセッサ・エレメ
ントカード1600のための好ましいレイアウトを示す。プ
ロセッサ・エレメントカード1600はクラスタ制御装置TC
Mに接続可能な数の2倍のピン数を有する。したがって、
PEバスの第2セット(第2 「PEポート」)がプロセッサ・
エレメントカードに設けられてマザーボード(TCMマザー
ボード)上に取り出され、ここで第2(予備)クラスタ制御
装置TCM位置(1404、図14)にルート割当てされる。これ
は今後の拡張を可能にする。即ち、CMOS密度が向上する
と、第2PEを各カードにパッケージできるようになり、
更に2つのクラスタ制御装置/スイッチ・ネットワークTC
Mを配線済みのボードにプラグインできるので、システ
ムのサイズ、即ちPEの数を倍の4096にできる。代替とし
て、任意選択クラスタ制御装置/スイッチ・ネットワー
クTCMを設けてクラスタ制御装置への各PEの2つのポート
を帯域幅を高くするために又は耐故障性を改善するため
に使用することができる。

【００６９】前記のシステムは独立型の多重プロセッシ
ング・システム又はデータベース・プロセッサとして作
ることができ、また従来の本体ホストに対するコプロセ
ッサとして使用することもできる。後者の場合、ホスト
・システムはセッション管理、トランザクション処理、
データベース・ロッキング及び回復を含むフロントエン
ドMVS/DB2システム機能を提供する。本発明の多重プロ
セッサはバックエンド・システムとして採用されること
もでき、これは読取り専用の複雑な照会処理機能をホス
トからアンロードし加速する。

【００７０】

【発明の効果】パケット・フォーマットによって、ハー
ド誤り処理が可能となる。各パケットで発信元(SRC)識
別子及び宛先(DST)識別子と共にECCを使用すると、効率
的な誤り訂正が可能である。ハードウエアの誤りがパケ
ットの誤ったルート割当てを起こさせた場合には、次の
2つのうちのいずれかが生じる。即ち、 (1)存在しない
又は動作していないプロセッサ・エレメントにパケット
が誤ってルート割当てされた場合、クラスタ制御装置は
SRCフィールド及びDSTフィールドを入れ替え、パケット
を誤りフラグと共に送信側に返す。又は(2)動作してい
る他のプロセッサ・エレメントにパケットが誤ってルー
ト割当てされた場合、このプロセッサ・エレメントは
(必要に応じてECCを適用した後に)パケットを再送する
ことになる。再送はソフト誤りを克服することができ、
そして(2)の場合には、別のハードウエア通路を使用す
ることによりいくつかのハード誤りを回避することがで
きる。

【図面の簡単な説明】

【図１】従来の技術による共用メモリ・システムのブロ
ック図である。

【図２】オメガ相互接続を用いて構成された従来の技術
による共用メモリ・システムのブロック図である。

【図３】従来の技術によるメッセージ・パス・ネットワ
ークのブロック図である。

【図４】従来の技術によるハイブリッド・システムのブ
ロック図である。

【図５】従来の技術によるクラスタ接続システムのブロ
ック図である。

【図６】本発明の実施例による多重プロセッシング・シ
ステムのブロック図である。

【図７】図6の32×32スイッチのより詳細なブロック図
である。

【図８】図7の32×32スイッチの実施例に使用された型
式の8×8スイッチのより詳細なブロック図である。

【図９】図8の典型的なスイッチ/待ち行列のより詳細な
ブロック図である。

【図１０】図6の多重プロセッシング・システムの実施
例に使用された型式のクラスタ制御装置のより詳細なブ
ロック図である。

【図１１】図6の多重プロセッシング・システムの実施
例に使用された好ましいパケット・フォーマットの図で
ある。

【図１２】プロセッサ・エレメント、メモリ、DMA制御
装置及びクラスタ制御装置の間の相互接続を示す典型的
なプロセッサ・エレメントのより詳細なブロック図であ
る。

【図１３】機能ブロック及びそれらの相互接続の各々を
示す図12のDMA制御装置のより詳細なブロック図であ
る。

【図１４】プロセッサ・エレメントクラスタ・ボードの
図である。

【図１５】図6の多重プロセッシング・システムのため
のフレーム・レイアウトを示す図である。

【図１６】プロセッサ・エレメントカードのためのレイ
アウトを示す図である。

【図１７】ホスト・アダプタ及びホスト・システムへの
接続のブロック図である。

【符号の説明】

602 クラスタ制御装置 604 プロセッサ・エレメント 606 32×32スイッチ・ネットワーク 608 入力バス 610 出力バス 612 入力バス 614 出力バス

フロントページの続き (72)発明者ジェームス・ウォルター・ライマクザヤクアメリカ合衆国ニューヨーク州ポキプシー、ダラ・レーン６番地 (56)参考文献 1982 ＩＮＴ’ＬＣＯＮＦＥＲＥＮＣＥＯＮＰＡＰＡＬＬＥＬＰＲＯＣＥＳＳＩＮＧＰ123−125 Ｊ．Ｅ. ＬＩＬＩＥＮＫＡＭＰ，Ｄ．Ｈ．ＬＡＷＲＩＥ，ＰＥＮ−ＣＨＵＮＧＹＥＷ［ＡＦＡＵＬＴＴＯＬＥＲＡＮＴＩＮＴＥＲＣＯＮＮＥＣＴＩＯＮＮＥＴＷＯＲＫＵＳＩＮＧＥＲＲＯＲＣＯＲＲＥＣＴＩＮＧＣＯＤＥＳ］

Claims

(57)【特許請求の範囲】

【請求項１】少なくとも第1、第2及び第3ノード並びに
前記第1、第2及び第3ノードに共通に接続され前記第1、
第2及び第3ノードの間でデータを該データに含まれる宛
先識別情報に応じてルート割当てする手段を有する自己
ルート割当てスイッチを具備する多重プロセッシング・
システムにおいて、前記第1、第2及び第3ノードの各々は独立した入力及び
出力経路を介して前記自己ルート割当てスイッチに結合
されており、前記第1ノードは前記第2ノードを表す宛先識別情報を持
つデータを送信する手段を有し、前記第3ノードは前記第1ノードに結合され、前記第1ノ
ードから第1経路を介して送信されてきたデータを受信
する手段、受信したデータの宛先識別情報内の1ビット
誤りを検出して訂正するECC手段及び前記データを訂正
後の宛先識別情報で表されるノードへルート割当てし直
して前記第1経路とは独立した第2経路を介して送信する
手段を有する、ことを特徴とする多重プロセッシング・システム。
【請求項２】前記第1、第2及び第3ノードはプロセッサ
であり、前記データはパケット化データであり、前記宛先識別情
報を含む宛先フィールド及び発信元プロセッサを識別す
る発信元フィールドを有することを特徴とする請求項1
記載の多重プロセッシング・システム。
【請求項３】前記自己ルート割当てスイッチは前記宛先
フィールドが前記多重プロセッシング・システムに存在
しないプロセッサを示しているか否かを検出する手段及
び存在しないプロセッサを示していることの検出に応答
して前記発信元フィールド及び前記宛先フィールドを入
れ替えて前記データを前記発信元プロセッサに戻す手段
を含む誤り訂正論理回路を具備することを特徴とする請
求項2記載の多重プロセッシング・システム。
【請求項４】少なくとも第1、第2及び第3プロセッサ並
びに前記第1、第2及び第3プロセッサに共通に接続され
前記第1、第2及び第3プロセッサの間でパケット化デー
タを該パケット化データに含まれる宛先情報に応じてル
ート割当てする自己ルート割当てスイッチを具備する多
重プロセッシング・システムにおいて、前記パケット化データはメッセージ本体、宛先プロセッ
サを示す宛先識別情報を含む宛先フィールド及び発信元
プロセッサを示す発信元識別フィールドを含む発信元フ
ィールドを有し、前記第1、第2及び第3プロセッサの各々は独立した入力
及び出力経路を介して前記自己ルート割当てスイッチに
結合されており、前記第1プロセッサは前記第2プロセッサを表す宛先識別
情報を持つパケット化データを送信する手段を有し、前記第3プロセッサは前記第1プロセッサに結合され、前
記第1プロセッサから第1経路を介して送信されてきたパ
ケット化データを受信する手段、受信したパケット化デ
ータの宛先識別情報内の1ビット誤りを検出して訂正す
るECC手段及び前記パケット化データを訂正後の宛先識
別情報で表されるプロセッサへルート割当てし直して前
記第1経路とは独立した第2経路を介して送信する手段を
有し、前記自己ルート割当てスイッチは前記宛先フィールドが
前記多重プロセッシング・システムに存在しないプロセ
ッサを示しているか否かを検出する手段及び存在しない
プロセッサを示していることの検出に応答して前記発信
元フィールド及び前記宛先フィールドを入れ替えて前記
データを前記発信元プロセッサに戻す手段を含む誤り訂
正論理回路を具備することを特徴とする多重プロセッシング・システム。