JPH021086A

JPH021086A - クロスバースイッチ

Info

Publication number: JPH021086A
Application number: JP28114588A
Authority: JP
Inventors: John Hiller; ジョン・ヒラー; Howard Johnsen; ハワード・ジョンセン; John Mason; ジョン・メイソン; Brian Mulhearn; ブライアン・マルハーン; John Petzinger; ジョン・ペツィンガー; Joseph Rosal; ジョセフ・ロザール; John Satta; ジョン・サッタ; Gerald Shurko; ジェラルド・シュルコ; Yedidiah Solowiejczyk; イェディジャ・ソロウェチェック; Kenneth Stamm; ケネス・スタム
Original assignee: Oryx Corp
Current assignee: Oryx Corp
Priority date: 1987-11-06
Filing date: 1988-11-07
Publication date: 1990-01-05
Also published as: EP0315550A2; EP0315550A3

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明はスーパーコンピュータに関し、詳述すれば、高
度な並行処理（ｈｉｇｈｌｙ　ｐａｒａｌｌｅ１）アー
キテクチャを用いた高々速高情報（ｌａｒｇｅ　ｇｒａ
ｉｎ）コンピュータ・ノード・システム用クロスバ−ス
イッチに関する。

従来の技術一般ニ、スーパーコンピュータとは、１秒間に１億の浮
動少数点演算（ＭＰＬＯＰＳ）を実行しうるコンピュー
タをさしている。例えばクレイ型スーパーコンピュータ
のようなものは、■サイクル約４ｎｓ程度の非常に速い
クロックを用い、この驚異的な性能を達成している。と
ころが、高速クロックを用いると、相当量の発熱を伴う
ので、スーパーコンピュータは水没させて冷却する必要
がある。

また、従来のスーパーコンピュータは、設計上、夫々の
小部屋にハードウェアを収納させておき、その小部屋を
累計するだけでも、本体の物理的寸法か大きくならざる
をえない。従って、このようなスーパーコンピュータは
、どうしても研究所用にと、用途が限られている。

発明の目的本発明は、複数のプロセッサ・ノードからなり、各プロ
セッサ・ノードにおける複数の浮動少数点演算ユニット
のいずれかが複数ある並行メモリ・モジュールのいずれ
かと通信できるようにする新規なりロスバースイッチを
備えている高度な並行処理アーキテクチャを提供するこ
とにより、前述の諸問題点を解消することを目的とする
ものである。クロスバ−スイッチの構成、即ち、各浮動
少数点演算ユニットと各並行メモリ・モジュールとの間
の接続関係は、実行しているアルゴリズムに従ってサイ
クル毎に動的に変えることができる。

クロスバ−を用いるにあたって、従わなければならない
ルールがあるけれども、特定のアルゴリズムにつき、浮
動少数点演算ユニットが高並行処理でデータにアクセス
したり、それに基いて作用することでスーパーコンピュ
ータとしての性能を完遂するようにデータがメモリに振
り分けられる。

高並行処理操作ができろクロスバ−スイッチは、基本的
には２つの部分、即ち、マルチプレクサと制御部とて構
成されている。マルチプレクサは信号路の実際の切換え
、即ち、各浮動少数点演算ユニットを各クロックサイク
ルごとに特定の並行メモリに接続する働きをする。これ
に対して、制御部は、実行しているアルゴリズムに従っ
て各クロックサイクル毎になすべき接続関係を決定する
働きをする。制御部の回路における選択自在なパイプラ
イン方式による遅延により、平行な双方向データバスを
用い、メモリの読み取り書き込みを交互に行なう方式を
用いた広範囲のアレー・プロセシングアルゴリズムにお
いてプロセッサとメモリ・モジュール間でのデータ伝送
作用を最適化しうる。

本発明の高並行処理アーキテクチャによれば、従来のＰ
Ｃクロック速度程度のサイクル１ｏａｎｓで稼動するク
ロックを用いて、本当のスーパーコンピュータの性能を
実現することができる。従って、本発明によるスーパー
コンピュータでは、嫁励時の発熱量は過大なものではな
く、空冷でこと足りるものである。

本発明のアーキテクチャには、既製品か使われており、
それら従来のスーパーコンピュータのｌ／３程度の嵩の
スタンドアーロン機にまとめられている。これにより、
また、空冷できることも相まって、本発明のスーパーコ
ンピュータを、従来、演算能力からして不可能であった
研究所以外での用途に使うことができる。また、本発明
の高並行処理構成では、クロスバ−スイッチを介してプ
ロセシング・ノードを再構築（ｒｅｃｏｎｆ　ｉｇｕｒ
ｉｎｇ）することにより、大抵の構造欠陥をバイパスさ
せろことができるから、動作している構成部分のみが使
われ、欠陥検出は休止セクションに対して行なわれるこ
とになる。

実施例以後、添付図面を参照しながら、本発明の一実施例を説
明する。

Ｉ　序：アーキテクチャと作用原理第１図に、プロセッサ・ノードｌのシステム全体のアー
キテクチャを示す。複数の浮動少数点演算ユニット（Ｆ
ＰＡＵ）２は、複数の並行メモリ（ＰＭＥＭ）６とクロ
スバ−スイッチ（ＸＢＡＲ）４を介して接続されている
。後述する本発明のクロスバ−スイッチ４は、ＦＰＡＵ
２のどれもがＰＭＥＭ６のどれにも接続されるようにな
っている。

好ましい実施例では、本発明のプロセッサ・ノードは、
＋　６０ＭＥＬＯＰシステム構成からなる。

第２図に示すように、プロセッサ・ノードｌは、あるノ
ードをそのすぐ隣のノードと共通の入出カプロセッサ８
に接続するなりにネートワーク化してもよい。第２図で
はノードが８個あるものとして示したが、好ましい実施
例では６４個のプロセッサ・ノード１をネートワーク化
してシステムの性能をＩ　Ｏ，０００ＭＦＬＯＰＳとす
ることができるから、集中演算および高帯域入出力を伴
う用途でリアルタイム稼動を実現することができる。本
発明は、空冷でき、従って、船とか飛行機とかのうねり
やすい移動台に設置することもできるという点で、斯る
性能を有する最初のもの（ｓｙｓｔｅｍ）である。

第１図に戻って、ホストプロセッサＩＯは、全てのプロ
セッサ・ノードｌに共通のものであって、各ノード！に
おけるマイクロ・コントローラ・エグゼクティブ（ｍｉ
ｃｒｏ　ｃｏｎｔｒｏｌｌｅｒ　ｅｘｅｃｕｔｉｖｅ）
　１２と情報を交したり、ダウンロードすることにより
、ノードの構成とフィードを制御する。ホストプロセッ
サ１０は、システムと人間との間のインターフェースを
なすフロー・グラフ（ｆｌｏｗ　ｇｒａｐｈ）エディタ
ーとフローコンパイラ−（図示せず）を稼動させる。内
部ノードアーキテクチャには、ＦＰＡＵ２゜ＸＢＡＲ４
，ＰＭＥＭ６の他に、マイクロ・コントローラ・エグゼ
クティブ１２が含まれていて、各ノード内でのタスクを
モニターしたりスケジューリングするとともに各ノード
とその隣のノードとの間での入出力をコーデイネートす
る。

各プロセッサ・ノードは“数値クランチング（ｎｕｍｂ
ｅｒ　　ｃｒｕｎｃｈｉｎｇ）”の増加調整機能が発揮
できるようにモジュール化されて構成されている。従っ
て、各ノードは、２０〜１６０ＭＦＬＯＰＳの演算能力
を発揮できるのである。また、本発明のアーキテクチャ
では、各ノード毎に下記の性能を発揮できる。

□８個全てのＦＰＡＵが８個のＰＭＥＭメモリに対して
連続的に読み書き動作を行っていると、秒当り８千万ワ
ードのバスのバンド幅を達成できる。クロスバ−の切換
えを制御するアルゴリズムは、システムハードウェアを
最大限利用するようにできているので、大部分のアルゴ
リズムでは、そのアルゴリズムの実行時に達成できるバ
スの全バンド幅の割合は、１００％に近い。

□夫々が秒当り１０００万の命令を連続実行する、８個
の完全同期、同時稼動するＦ’ＰＡＵを用いることによ
り、秒当り８０００万の命令をシステムが実行できる。

一各ＦＰＡＵは、１回の命令サイクル時に２回の浮動少
数点演算（乗算、加算、両者）と、１回の固定点論理演
算（ｏｎｅ　ｆｉｘｅｄ　ｐｏｉｎｔａｒｉｔｈｍｅｔ
ｉｃ／ｌｏｇｉｃ　ｏｐｅｒａｔｉｏｎ）を行うことが
できる。全てのＦＰＡＵが最大速度（ｔｈｅｉｒ　ｐｅ
ａｋ　ｒａｔｅ）で同時に浮動少数点演算を行う場合、
システム全体の性能は１６０ＭＥＬＯＰにもなる。とこ
ろが、実際は、行うべき浮動少数点演算の数は実行され
ているアルゴリズムによっては変るものである。例えば
、秒当り８０００万ワードの最大速度でメモリに対して
データを読み書きするラディクス（ｒａｄｉｘ）−２Ｆ
Ｆ’Ｔアルゴリズムの場合、必要な演算性能は１２０Ｍ
ＥＬＯＰである。また、約１００％のバスの全バンド幅
でデータをメモリに対して読み書きするコンポルージョ
ン（ｃｏｎｖｏｌｕｔ　１ｏｎ）アルゴリズムでは、最
大約１００％ピークＭｌ”ＬＯＰの割合で演算を行うこ
とができる。

本発明のプロセッサは、新規なりロスバースイッチ（Ｘ
ＢＡＲ）４を用いることにより、広範囲の信号処理用ア
ルゴリズムにわたって高性能を発揮できるものである。

ＸＢＡＲは８個までのＦＰＡＵをして、それまた８個ま
での異ったメモリ・モジュール（ＰＭＥＭ）、アドレス
、データ、読み書き制御バスを延長することができる。

即ち、各ＦＰＡＵにより選択されたメモリは、サイクル
毎に動的に変えられ、複数のＦＰＡＵが同一バス伝送サ
イクル時に同一メモリに書き込みを行うことはない。

しかし、全てのＦＰＡＵが、“放送読みサイクル（ｂｒ
ｏａｄｃａｓｔ　　ｒｅａｄ　　ｃｙｃｌｅ）”と呼称
されているサイクル時に、単一のメモリの同一アドレス
から読み出しを行うことはありうる。このバスのクラッ
シュをさけるには、信号処理用アルゴリズムを、このよ
うなルールがこわされないようにしておかねばならない
。

プロセッサは、高速フーリエ変換（Ｆ　Ｆ　Ｔ）、逆行
列、特異値分解などの標亭ベクトルタイプの呼出し可能
な高級言語を用いたサブルーチンにより稼動される。大
部分のチャンネルのデータは、適応フィルタとイメージ
強調の如きのアルゴリズムを用いて処理される。システ
ム供給源はホスト１０から割当てられるので、最大性能
が達成されて供給源の遊びを減少さけることができる。

ホスト１０をオペレータインターフェースとして使うつ
もりがないのなら、切り離すことらできる。この場合、
ホストＩＯからの出力は、ソナーやレーダーの如くの専
用（ｅｍｂｅｄｄｅｄ）用途に適したエグゼクティブ・
コントローラに設けたＦＲＯＭに処理（ｂｕｒｎ）され
る。

例えばＦＦＴとかの単一アルゴリズムを開発するに当っ
ては、ＦＰＡＵはアルゴリズムの割当てられた部分を行
うようにプログラミングしておく。

アルゴリズムが−たんできれば、クロスバ−の用法を別
途計画する必要なく、あらゆる用途に使うことができる
。換言すれば、信号処理用アルゴリズムを開発すれば、
ＸＢＡＲ４は、このアルゴリズムを用いる用途に対して
は障害がな（（ｔｒａｎｓ−ｐａｒｅｎｔ）、８個のＦ
ＰＡＵはユーザーにとっては、個々のＦＰＡＵの性能の
８倍有する１つのプロセッサと見えるようになる。

Ｐ　Ｍ　Ｅ　Ｍにおけるメモリ選択は、各ＦＰＡＵのア
ドレス出力の最下位３桁ビットをデコードすることによ
り達成しうる。８個のＦＰＡＵが同時にメモリアクセス
（前述の放送読取以外）を行っているのであれば、それ
ぞれの出力アドレスの最下位３桁ビットは、クロスバ−
使用ルールに従うために、全て統一されている。

第３図にメモリアドレスマツピング図を示す。

同図において、各行は、夫々異った物理的メモリを示し
ており、各行における各セルに記入した数値は、メモリ
のそのセルにアクセスするのに必要なアドレスを示す。

メモリへのデータベクトルとマトリックスのマツピング
パターンは、第４図と第５図とに夫々示しである。尚、
ベクトルとマトリックスを示した行は全てのメモリにわ
たっている。他方、各マトリックス列は、８ｇＩのメモ
リのどれか１つに完全に含まれている。以後、このよう
な型式のデータについて、クロスバ−・ルールを説明す
る。

一次元データアレー（ベクトル）の場合、複数のＦＰＡ
Ｕが同一ベクトルエレメントに同時にアクセスすること
はできないし、また、８つの位置の整数倍だけ互いに置
き換っているベクトルエレメントにアクセスすることも
できない。

二次元データアレー（マトリックス）の場合、複数のＦ
ＰＡＵは同一列ベクトルないし、８列の整数倍だけ置き
換っている列ベクトルからどれかのエレメントに同時に
アクセスすることはできない。

但し、ベクトルとマトリックスとにアクセスするに当っ
てのこのルールには例外があって、放送読取サイクル時
がこれにあてはまり、その場合、ベクトルないしマトリ
ックスの各エレメントが全てのＦＰＡＵにより同時にア
クセスされる。

−見したところこのようなルールは非常に厳しいものの
ように見えるが、下記の例からすれば、クロスバ−アー
キテクチャには汎用性があって、しかも簡素なものであ
ることがわかるであろう。

■　例：マトリックス−マトリックス乗算２つのマトリ
ックス“八”と“Ｂ”とを乗算すれば、積マトリックス
“Ｃ”ができる。このアルゴリズムの真髄は、マトリッ
クス“Ａ“の列ベクトルとマトリックス“Ｂ”の行ベク
トルの全ゆる組合せのベクトル内積（積の和゛）を繰返
して算出するところにある。このアルゴリズムのデータ
の流れを第６図に示す。

データの流れのシーケンスの第１段は、ＰＭＥＭメモリ
からマトリックス“Ｂ“の最初の８列ベクトルを、ＥＰ
ＡＵ内の係数メモリに転送する。各ＦＰＡＵは８列ベク
トルのうちの１つを読出す（夫々、別々のＰＭＥＭに位
置されている）が、これらのベクトルはどれも８位置の
整数倍になっていないから、全ての８ＦＰＡＵは、バス
・クラッシュ（ｂｕｓ　ｃｌａｓｈ）を伴うことなく対
応するベクトルを同時に読み出す。

その後、マトリックス“Ａ”の最初の列ベクトルを８Ｆ
ＰＡＵに放送読み出しを行なって、ベクトルエレメント
の積の和を算出する。各ＦＰＡＵは、各命令サイクル時
に乗算と加算とを行うから、ベクトル内積が“Ａ”ベク
トルエレメントがメモリからＦＰＡＵへ転送されるや否
や算出されろ。データ転送サイクルが終りになる頃、８
ＦＰＡＵの夫々が積マトリックス（ｐｒｏｄｕｃｔ　ｍ
ａｔｒｉｘ）の１つのエレメントを算出する。これらの
エレメントが“ｃ″マトリツクス最初の行の最初の８個
のエレメントを構成しており、しかも、連続したカラム
に含まれていることから、同時にＰＭＥＭに書き込まれ
る。

“Ａ”マトリックスの全ての行について曲性の第２段を
くり返すことにより、積マトリックス“Ｃ“の最初の８
列が生ずるのである。その後、マトリックス“Ｂ”に含
まれている別の８列について、曲性のプロセスを順次繰
返せば、積マトリックスに対応する列が生ずる。

このような処理シーケンスを行っている間、クロスバ−
スイッチ４は最大効率で利用することができるとともに
、第１処理段階の折々発生（ｏｃｃａｓｉｏｎａｌ　ｏ
ｃｃｕｒｒｅｎｃｅ）を除けばＦ’ＰＡＵも最大演算能
力のらとで稼動する。

■、クロスバースイッチアーキテクチャクロスバ−スイ
ッチは相互接続ネットワーク（ｉｎｔｅｒｃｏｎｎｅｃ
ｔｉｏｎ　ｎｅｔｗｏｒｋ）型である。純粋な形では、
全ての装置が同時に通信できるようにしている。このス
イッチは、マルチプレクサ−と制御部との２つの部分で
構成されている。

マルチプレクサー部は、信号路の実際の切換えを行う。

一般に、各装置（即ち、ＰＭＥＭとＦＰＡＵ）からスイ
ッチへの信号路があって、スイッチの構成がどの対の装
置を接続すべきかを決定する。本当のクロスバ−にあっ
ては、全ての接続が可能である。

スイッチの制御部は、成る時点でどの接続を行うべきか
を決定する。各ＦＰＡＵは、各メモリアクセスサイクル
時にクロスバースイッヂに対して制御フィールドのＦＰ
ＡＵが受は持つ部分を供給する。ＦＰＡｔＪの制御フィ
ールドのセットが、あるメモリアクセスサイクル時にス
イッチの構成を決定する。従って、クロスバ−スイッチ
の構成は、ＦＰＡＵマイクロ・コードアルゴリズムが開
発された時点ですでにきまっている。こうすることによ
り、稼動時にＰＭＥＭにアクセスするに当って任意性が
必要なくなり、それにより、クロスバ−スイッチをして
約１００％の効率で稼動せしめることができる。

ＸＢＡＲのアーキテクチャは、下記の性能特性を達成す
る。

１、速度：　各バスに１つのデータをセットして通過さ
せるのに、ｌクロックサイクル以下要するのみである。

２　フレキシビリティ；　各クロックサイクル毎にオン
にすることができる。

３、簡潔（Ｆａｌｌ−ｔｈｒｏｕｇｈ）デザイン：　ア
ーキテクチャにパイプラインステージを付加するような
ことはしない。

４、拡張性：　種々のプロセッサ（ＦＰＡＵ）とメモリ
（ＰＭＥＭ）を扱うことができる。

５、組立て性（Ｍｏｄｕｌａｒｉｔｙ）　：　　容易に
接続できる通常の積木状構造（ｂｕｉｌｄｉｎｇ　ｂｌ
ｏｃｋ）でできている。

６、頑強性：　軍需ハードウェア仕様に合格しうる。

７、費用効果：　小型で、しかも、製造容易。

好ましい実施例においては、ＸＢＡＲ４は、既製部品で
構成されており、しかも、印刷回路板を２枚用いている
のみである。１枚の印刷回路板は、基本板（ｂａｃｋｐ
ｌａｎｅ　（ｍｏｔｈｅｒ　ｂｏａｒｄ））であり、も
う１枚の印刷回路板は付属板（ｄａｕｇｈｔｅｒ　ｂｏ
ａｒｄ）である。本明細書では、３つの大きさのＸＢＡ
Ｒにっいて説明するが、設計上の基本概念は、説明され
ているものよりはらっと普遍的なものである。

クロスバ−の大きさを３つの数字で示す。１つはシステ
ムにおけるＦ’ＰＡＵの数、もう１つはＰＭＥＭの数、
残る１つは各バスにおいて転送されるビット数である。

後述の好ましい実施例では、ＸＢＡＲ４は、８個のＦＰ
ＡＵから８個のＰＭＥＭへ６４個の信号を供給する８×
８×６４クロスバ−である。

付属板は、クロスバ一部それ自体のミニチュア版からな
る。特徴を述べれば、４ビットからなる８本のＰＭＥＭ
バスに４ビットからなる８本のＦＰＡＵバスを接続する
８ｘ８ｘ４ビットクロスバ−である（第７図参照）。こ
のカードのマルチプレクサー部に人出する信号は、合計
６４信号である。

（全ての信号はＥＣＬ　１０に差分式（ｄｉｆｆｅｒｅ
ｎｔｉａ１）なので、各信号に２線必要。この点につい
ては後述する。）付属板には、４０制御信号が供給され
るようになっている。８本のバスの夫々につき、５ビッ
トの制御がある（３ビットはＰＭＥＭセレクト、１ビッ
トはイネーブル・ランドで、方向制御ビット）。このよ
うなカードを１６枚並列積層（“ｓｔａｃｋｉｎｇ”）
することにより、６４ビットのワイド・メモリが１．４
または８ビットワイド・メモリ装置で構成されるのと同
様に、８ｘ８ｘ４ビットクロスバ−ができる。この８×
８×４付属板カードは、４×４クロスバ−にしては充分
すぎるものである。８本あるＦＰＡＵ接続線のうちの４
本と、８本あるＰＭＥＭ接続線のうちの４本のみ利用す
る。残りの接続線は放置する（第９図参照）。

このように、これらのカードのうちの１６枚か４Ｘ４Ｘ
６４クロスバ−を構成することになる。しかし、残りの
接続線は、放置する必要はない。８×８マルチプレクサ
ー部の上半分は、４×４マルチプレクサ−として利用す
る。下半分については、これもまた４×４マルチプレク
サ−として利用できる。よって、８×８×４カードは、
２枚の４×４×４“カード”として機能することもでき
る。４本のＦＰＡＵバスと、４本のＰＭＥＭバス、各バ
スに８ビット（第９図）あることから、４Ｘ４Ｘ８カー
ドと想定することもできる。

同様に、８×８×４カードをして、２×２×１６カード
（第１Ｏ図）として機能せしめることもできる。事実、
８×８×４カードは、これを適切に設計しておけば、１
６ｘ１６ｘ２カード、もしくは３２Ｘ３２ｘｌカードと
して機能しうる。かくて、大規模スイッチができるので
ある。但し、物理的限定事項として、カードの大きさ、
所要論理装置の数、Ｉ１０接続ピンの数がある。バスの
本数が増えれば、所要制御ラインの数も増えるが、信号
ラインの本数は一定である。

最大所要信号ライス　　制御ライン数２×２×１６　　　　　　　６４　　　　　　　６４×
４×８　　　　　　　　　６４　　　　　　　１６８ｘ
８ｘ４　　　　　　　　６４　　　　　　４０１６ｘ１
６ｘ２　　　　　　６４　　　　　　９６３２ｘ３２ｘ
ｌ　　　　　６４　　　　　２２４６４ｘ６４ｘｌ　　
　　　　１２８　　　　　　５１２ＸＢＡＲ４のマルチ
プレクサー部を通る６４ビット情報には、データが３２
ビット、バイト方向データパリティが４ビット、垂直ア
ドレスが２４ビット、バイト方向アドレスパリティが３
ビット、パイプライン制御が１ビット含まれている。こ
の６４ビットがＥＣＬ　Ｉ　ＯＫ差分信号として供給さ
れるのである。この６４ビット情報は、各ＦＰＡＵ２か
らＸＢＡＲ４へと８本の２０ねじり導線対リボンケーブ
ルを介して供給され、また、同数のケーブルを通してＸ
ＢＡＲ４からＰＭＥＭへと供給される。データとパリテ
ィの３６ビットは双方向性であるので、各ＦＰＡＵが選
択されたＰＭＥＭ６に対して読み書きできるようになっ
ている。また、垂直アドレスの２７ビットは一方向性で
あって、ＦＰＡＵ２からＰＭＥＭ６へと行くのみである
。

アドレスビットを担うＸＢＡＲカードは、他のカードと
共に同じものではあるが、方向制御が行なわれることが
ない点で他のカードとは異っている。

各ＦＰＡＵ２からＸＢＡＲ４には複数の制御信号が送ら
れるようになっているが、これには、ＦＰＡＵがアクセ
スするＰＭＥＭ（ステアリングベクトル）を選択する水
平アドレスビット、ｌ書き込みストローブ、放送読み取
りモードで使うｔｐＭＥＭイネーブルビットがある。（
このモードのもとでは、全てのＦＰＡＵ２が同−ＰＭＥ
　Ｍ６における同一アトレスを同時に読み出すことがで
きる。）これらの信号は、読出しを行うべきか、書込みを行うべ
きかに応じて、異った動作か行なわれる。

ＦＰＡＵ２がＰＭＥＭ６にデータ、アドレス、制御情報
を書き込んでいるのであれば、全てＸＢＡＲ４を介して
各クロックサイクル時に同時、かつ同一方向に流れる。

またＦＰＡＵ２がＰ　Ｍ　Ｅ　Ｍ　６から読出しを行っ
ているのであれば、アドレスと制御信号は各クロックサ
イクル時にＰＭＥＭ６の方へと流れる。数クロックサイ
クル後には、データはＰＭＥＭ６から逆戻りする。かく
て、アルゴリズムとしては、データが逆戻りしていると
、ＸＢＡＲ４がデータを適当なＦＰＡＵ２へ送るように
適切に構成されるようにしておくへきである。

ＸＢＡＲ４には、各ＦＰＡＵ２ごとに制御回路が設けら
れている。従って、読出し時に、この回路が３６ビット
データとパリティを扱っているカードのみへのメモリー
セレクト信号を遅らせている。この遅延は、ＰＭＥＭ部
の読出しアクセス遅延と一致している。Ｐ　Ｍ　Ｅ　Ｍ
　６からのデータがＸＢＡＲ４に入ると、制御回路が適
当なＦＰＡＵへの通路をセットする。従って、読出し時
には、ＸＢＡＲ４内の“データ”カードか“アドレス”
カードとは独立して機能する。それ故、２組の制御信号
が発生するのである。

第１１図において、ユニットＦＰＡＵが選択したＰ　Ｍ
　Ｅ　Ｍからデータを読み出すと、４又は６の指示すイ
クルでプログラムできる選択可能な遅延が、クロスバ−
アドレスバスを介してのＰＭＥＭへのメモリアドレスの
転送と、その後のクロスバ−アドレスバスを介してのＦ
ＰＡＵへのＰＭＥＭ出力データの転送との間に割込んで
米る。メモリアドレス（およびパリティ）と共にＦＰＡ
Ｕから供給されるクロスバ−ステアリングベクトル（ア
ドレスの３ＬＳＢ）が、一方向性クロスバ−スイッチ１
１０を介して先ず送られ、それにより適当なＰＭＥＭモ
ジュールが選択される。読み出し操作時には、ステアリ
ングベクトルは、プログラム可能な長さのシフトレジス
ター１１２に記憶され、その後、シフトレジスター１１
２から、選択された数の指示すイクル・遅延（４又は６
サイクル遅延）が経過した後、要求ＦＰＡＵへのメモリ
出力データのステアリングに備えて可変パイプライン遅
延が行なわれる。６サイクル遅延を選択したのであれば
、メモリから復帰しているデータがプログラム可能な長
さソフトレジスター１１４により、別途２遅延サイクル
だけ遅延されることになる（・１遅延は固有。この点に
ついては第１２図に示しであるとともに、後述する。）
メモリに書き込まれたデータと、読み出されたデータと
は、双方向バス１１６を介して転送されるとともに、双
方向クロスバ−スイッチ＋１８に送られる。

メモリからデータサンプルを読み出すことは、１サイク
ルごとにクロスバ−アドレスバスをＭ用するとともに、
４サイクル後、または、６サイクル後にクロスバ−デー
タバスを利用することになるから、ブロック読取りが１
回の命令サイクルにつき１回読み出しの割合で行なわれ
ることになる。

４サイクル遅延を伴う５サンプルのメモリからの読み出
しシーケンスに対するクロスバ−アドレスバスとデータ
バスの動作状態を示したタイミングチャートを第１２図
に示す。

メモリ読出し書込みの交互実行パターンは、メモリの読
み出しが始めて行なわれてから４サイクル後にプロセッ
サがメモリへの書き込みを行なわない限り達成される。

こうすれば、プロセッサは、同一命令実行サイクル時に
クロスバ−データバスのデータを受は取ると同時に、転
送することができないから、データバスクラッシュか起
りかねない。同様に、６サイクル遅延を選択したとして
も、メモリ読み出しが始めて行なわれてから６サイクル
後にメモリ書き込みサイクルが行なわれろようなことは
ない。

プロセッサが実行する大部分のベクトル処理アルゴリズ
ムのパラメータは、メモリに対する読み書きの繰返しパ
ターンにすぎない。例えば、ベクトルを定数で乗算する
には、ベクトルエレメントごとに２メモリアクセスサイ
クルと、次の入力ベクトルエレメントのメモリからの読
み出しと、次の出力ベクトルエレメントのメモリへの書
き込みとが必要である。全ベクトル処理シーケンスでメ
モリに対する読み書きが交互に行なわれるから、４サイ
クル遅延と６サイクル遅延のいずれでも選択できる。メ
モリ書き込みは、メモリ読み出しサイクルに対して奇数
番目の遅延サイクル時に必ず行なわれる。

第２例としては、メモリへのアクセスシーケンスが、２
つのベクトルに加えて、２メモリ読出しサイクルとメモ
リ書込みサイクルとの繰返しパターンで構成されている
。この３サイクルメモリアクセスパターンは、各ベクト
ルエレメントごとに繰返される。４サイクル遅延を伴う
このメモリアクセスパターンでのクロスパーパスの動作
状態ヲ示したタイミングチャートを第１３図に示すが、
同図におけるｉとｊは、ｉ回目の読出しサイクル時とｊ
回目の書込みサイクル時でのクロスバ−スイッチを介す
るデータの流れを表わす。第１３図に示すように、４サ
イクル遅延の場合、バスクラッシュをさけるには、余分
の命令実行サイクルが必要である。しかし、６サイクル
遅延を選択した場合では、第１４図に示すように、この
アルゴリズムの実行時間は２５％短縮できる。

尚、本発明に好ましい実施例について詳述したが、当業
者には種々の変形が考えられるのは言うまでもない。

【図面の簡単な説明】

第１図は、プロセッサノードの全体のシステムアーキテ
クチャを示す図、第２図は、８ノード・構成の例を示す
図、第３図はメモリアドレスマツピングを示す図、第４
図は、メモリへのデータベクトルのマツピングを示す図
、第５図は、メモリへのマトリックスのマツピングを示
す図、第６図Ａ、Ｂ、Ｃは各々、マトリックス−マトリ
ックス乗算ダイアダラムのデータの流れを示す概略図、
第７図は、本発明の８×８×４クロスバ−スイッチを示
す図、第８図は、第７図の８×８×４カードの半分を用
いて４Ｘ４Ｘ４カードにしているところを示す図、第９
図は、４×４×８カードを形成するための第８図の４Ｘ
４Ｘ４カードの組合せを示す図、第１０図は、第７図の
８×８×４カードが如何にして２×２×１６カードとし
て機能するかを示した説明図、第１１図は、クロスバ−
スイッチの制御回路のパイプライン接続ハードウェアを
示す図、第１２図は、４サイクル遅延の場合でのクロス
バ−アドレスバスとデータバスの動作状態を示すタイミ
ングチャート、第１３図は、４サイクル遅延を伴う２メ
モリ読出しサイクルとメモリ書込みサイクルの繰返しパ
ターンを示すタイミングチャート、第１４図は、２メモ
リ続出しサイクルとメモリ書込み６サイクル遅延の繰返
しパターンを示すもので、６サイクル遅延を用いると実
行時間が減少することを示すタイミングチャートである
。 ■・・・プロセッサ・ノード、２・・・浮動少数点演算ユニット、４・・・クロスバ−スイッチ、６・・・並行メモリ、ｌＯ・・ホスト。

Claims

【特許請求の範囲】１）複数の演算ユニットのいずれかを複数のメモリのい
ずれかに接続するコンピュータシステムにおけるクロス
バースイッチであって、前記演算ユニットと前記メモリとの間の信号路の切換え
を行うマルチプレクサー部と、実行するアルゴリズムに従って選択した信号路を割当て
るべく、前記信号路の切換えを制御するものにして、読
み出すべきメモリを特定するステアリングベクトルのパ
イプライン遅延と、メモリから戻るデータのパイプライ
ン遅延とをかもし出す制御回路からなる制御部とで構成
されていることを特徴とするクロスバースイッチ。２）請求の範囲第（１）項に記載のものであって、前記
パイプライン遅延のサイクル数が選択自在であることを
特徴とするクロスバースイッチ。３）請求の範囲第（２）項に記載のものであって、前記
パイプライン遅延が、４サイクル遅延と６サイクル遅延
とのいずれかに選択できるものであることを特徴とする
クロスバースイッチ。４）請求の範囲第（３）項に記載のものであって、前記
演算ユニットと前記メモリとの間でのデータ転送に、双
方向性データバスが使われていることを特徴とするクロ
スバースイッチ。５）請求の範囲第（４）項に記載のものであって、メモ
リ読出しとメモリ書込みとがリアルタイムで交互に実行
されることを特徴とするクロスバースイッチ。６）請求の範囲第（１）項に記載のものであって、前記
信号路が、前記コンピュータシステムのクロックのサイ
クルごとに切換えられることを特徴とするクロスバース
イッチ。７）請求の範囲第（１）項に記載のものであって、前記
制御部が離れて配置されていることを特徴とするクロス
バースイッチ。８）請求の範囲第（１）項に記載のものであって、８個
の演算ユニットと８個のメモリとの間で６４信号をやり
とりする８×８×６４クロスバースイッチを備えてなる
ことを特徴とするクロスバースイッチ。９）請求の範囲第（８）項に記載のものであって、前記
クロスバーは、２４ビットのアドレス、３ビットのアド
レスパリテイ、１ビットの遅延セレクト、３２ビットの
データ、４ビットのデータパリテイからなる６４信号を
受信するものであることを特徴とするクロスバースイッ
チ。１０）請求の範囲第（８）項に記載のものであって、前
記８×８×６４クロスバースイッチが８×８×４カード
１６枚で構成されていることを特徴とするクロスバース
イッチ。１１）請求の範囲第（１）項に記載のものであって、４
×４×８カード８枚で構成した４×４×６４クロスバー
スイッチからなることを特徴とするクロスバースイッチ
。１２）請求の範囲第（１）項に記載のものであって、２
×２×６カード４枚で構成した２×２×６４クロスバー
スイッチからなることを特徴とするクロスバースイッチ
。