JPH07152722A

JPH07152722A - Ｓｉｍｄマルチプロセッサ用動的再構成可能スイッチ装置

Info

Publication number: JPH07152722A
Application number: JP6190802A
Authority: JP
Inventors: Soheil Shams; ソヘイル・シャムズ; David B Shu; デイビッド・ビー・シュ
Original assignee: Hughes Aircraft Co
Current assignee: Raytheon Co
Priority date: 1993-08-12
Filing date: 1994-08-12
Publication date: 1995-06-16
Also published as: EP0638867A3; EP0638867A2; US6145072A; CA2129882A1; IL110634A0

Abstract

(57)【要約】【目的】ＳＩＭＤコンピュータアーキテクチャに見られ
る処理素子アレイにおいて、処理素子間のデータ流を動
的に制御するための動的に再構成可能なプロセッサ間通
信ネットワークを特徴とする。【構成】グループの各処理素子(10)に接続される１つの
データラインと、特定の通信インストラクションをグル
ープの１つの処理素子(10)から構成レジスタに装荷し、
データ源として４つのデータラインの１つを選択するた
めコントローラ(18)からの同報インストラクションまた
は構成レジスタの内容に従って動作し、データをソース
出力ポートに供給するマルチプレクサと、４本のデータ
ラインの１つを選択するためコントローラからの同報イ
ンストラクションまたは構成レジスタの内容に従って動
作し、マルチプレクサのソース出力ポートのデータをデ
ータラインに供給する出マルチプレクサにより構成され
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、一般にコンピュータ
アーキテクチャに関し、特に、ＳＩＭＤマルチプロセッ
サアーキテクチャにおけるプロセッサアレイを構成する
複数の処理素子を接続するのに有効な動的に再構成可能
なスイッチ装置に関する。

【０００２】

【関連技術】ＳＩＭＤマルチプロセッサアーキテクチャ
に見られる、複数の処理素子から成るプロセシングアレ
イにおいては、各プロセシングエレメント（ＰＥ）毎に
４つのリンクを介して８つの最も隣接する処理素子を接
続するプロセッサ間通信は市販のマシン（ＭａｓＰａ
ｒ’ｓＭＰ−１）および大学が開発したマシン（ノー
スカロライナ大学が開発したＢＬＩＴＺＥＮ）において
使用されているＸ−ネットスイッチにより実現されてい
る。しかしながら、これらのマシンは本願発明のよう
に、スイッチングユニットを動的に再構成することがで
きない。

【０００３】また、プロセシングアレイの再構成可能な
隣接プロセッサ間通信については、１９８６年に出版さ
れたデューク大学の博士論文「ＡＳｙｓｔｅｍｆｏ
ｒＲｏｕｔｉｎｇＡｒｂｉｔｒａｒｙＣｏｍｍｕｎ
ｉｃａｔｉｏｎＧｒａｐｈｓｏｎＳＩＭＤＡｒ
ｃｈｉｔｅｃｔｕｒｅｓ」Ｓ．Ｊ．Ｔｏｍｂｏｕｌｉａ
ｎ著に記載されている。しかしながら、この論文には概
要が書かれているのみで、再構成可能な隣接プロセッサ
間通信を実現する手段については具体的に書かれていな
い。

【０００４】

【発明が解決しようとする課題】上述したように、従来
ＳＩＭＤマルチプロセッサアーキテクチャにおいて、ス
イッチングユニットを動的に再構成することができなか
った。

【０００５】この発明は、このような点に鑑みてなされ
たもので、並列単一命令複数データ流（ＳＩＭＤ）コン
ピュータアーキテクチャに見られるプロセシングアレイ
（処理アレイ）において、処理素子（プロセシングエレ
メント）間のデータ流を動的に制御するための動的に再
構成可能なプロセッサ間通信ネットワークを提供するこ
とを目的とする。

【０００６】この発明の要部は、プロセシングアレイに
おける隣接するプロセシングアレイ（ＰＥ）間のデータ
を転送するのに使用する動的に再構成可能なスイッチ
（ＤＲＳ）の設計にある。この発明を使用することによ
り、多くの重要で新規なアーキテクチャの特徴が得られ
る。すなわち、ＰＥあたりのプロセッサ間接続数を最小
限に抑えることができ、各ＰＥレベルでのローカルコミ
ュニケーションの自律性が得られる。前者は物理的に実
現する観点から重要であり、後者は既存のＳＩＭＤアー
キテクチャに新しい次元の柔軟性を持たせる上で重要で
ある。

【０００７】プロセシングアレイにおける各処理素子の
動的な再構成は各ＰＥに対してこの発明を具現化する異
なるＤＲＳを相関させることにより実現される。ＤＲＳ
の構成、すなわち、入力ポートから出力ポートにデータ
を通過させるのに必要なスイッチの設定は、コントロー
ラからすべてのＰＥにより受信されるインストラクショ
ン（同報インストラクション）により行われるか、また
は各ＰＥのメモリエリアにローカルに格納されている値
にそれぞれ別個に設定される。プロセシングアレイを形
成する複数のＰＥは物理的に異なるチップから成り、プ
ロセシングアレイを区割りしているが、これらのＰＥ間
でデータを通信するときに生じる段階的問題に特別の配
慮が成されている。

【０００８】この発明は少なくとも２つの特徴により他
の一般的なプロセッサ間通信機構とは異なる。

【０００９】第１に、この発明の設計は、ある種の通信
上の制約を利用することにより、プロセッサ間通信リン
クに使用するときに非常に有効である。この発明の設計
では、各ＰＥは８つの隣接するプロセッサとダイレクト
に通信するために４つの双方向接続しか必要としない。
さらに、隣接するチップのスイッチ間での通信あるいは
区割り領域にまたがるスイッチ間での通信において、デ
ータパスビットあたり１双方向ワイヤしか必要としな
い。従って、チップ間にまたがるプロセッサ間通信に必
要なピン数を低減することができ、１つのチップに実現
可能なＰＥの数を増大させることができる。

【００１０】この発明の第２の特徴は、処理中にＤＲＳ
を動的に再構成することにより通信に柔軟性を持たせる
ことができる点にある。特に、ＳＩＭＤ並列プロセシン
グアーキテクチャにおいて、同じ性質を持つデータをＰ
Ｅ間で移動させることができる。（図５（ａ）、５
（ｂ）参照）あらかじめ、選択された方向、例えば、
北、東、南、西等は各通信命令により与えられる。この
発明のＤＲＳ設計を用いることにより、各ＰＥは隣接す
るＰＥへまたは隣接するＰＥからのデータの転送方向を
独立して設定することができる。この処理中におけるス
イッチの動的な再構成とデータ流の方向ずけにより、特
定のアルゴリズムにさらにマッチした複雑なデータ計算
路を構築することができる。（図６（ａ），６（ｂ）参
照）例えば、ニューラルネットワークアルゴリズムを有
効に処理するためにプロセシングアレイを流れるデータ
流の動的再構成を有効に利用するための多くのマッピン
グ方法が開発された。他の分野の問題を解決するための
同様なマッピング方法も潜在的には一般化することがで
きる。

【００１１】よって、本発明は、処理素子の２次元アレ
イを有するＳＩＭＤアーキテクチャにおいて実施され、
この場合、コントローラがこの配列の全ての処理素子に
インストラクションを同報し、動的再構成可能スイッチ
ング装置がコントローラの同報インストラクションまた
はグループの１つ処理素子に保持された特殊な通信イン
ストラクションのいずれかに従って４つの処理素子を１
つのグループとして接続するために有効であり、少なく
とも１ビット幅の少なくとも１本のデータラインを含
み、このグループの各処理素子に接続されている。

【００１２】マルチプレクサユニットは、各データライ
ンとコントローラと１つの構成レジスタに接続されてい
る。それは、グループ内の１つの処理素子からの特殊な
通信インストラクションを構成レジスタに装荷し、デー
タ源としての４つのデータラインの１つを選択するため
にコントローラからの同報インストラクションまたは構
成レジスタの内容のいずれかに従って動作するように適
用され、そこからのデータをソース出力ポートに供給す
る。同様に、デマルチプレクサユニットも、各データラ
インとコントローラと１つの構成レジスタに接続されて
いるのみならず、マルチプレクサユニットのソース出力
ポートにも接続されている。このデマルチプレクサは、
４本のデータラインから１本を選択するためにコントロ
ーラからの同報インストラクションまたは構成レジスタ
の内容のいずれかに従って動作するように適用され、マ
ルチプレクサのソース出力ポートのデータを選択データ
ラインに供給する。

【００１３】本発明は、多数のチップに含められる複数
の処理素子の２次元アレイを有するＳＩＭＤアーキテク
チャにおいて実施される。この場合、コントローラはア
レイの全ての処理素子にインストラクションを同報し、
動的に再構成可能なスイッチ装置が各区画が１チップに
関連している複数の区画を形成するためにチップ境界を
交差できるグループとしてアレイの処理素子の４つを接
続し、コントローラの同報インストラクションまたはグ
ループの１つの処理素子に保持された特定の通信インス
トラクションのいずれかに従ってグループの選択された
処理素子間で動的にデータ移動を指導するために有効で
ある。この区画化状態においては、このスイッチは各区
画において、グループ内の処理素子の各々に接続される
少なくとも１本のデータラインを含んでいる。マルチプ
レクサユニットは、各データラインとコントローラと１
つの構成レジスタに接続されている。それは、グループ
内の１つの処理素子からの特定の通信インストラクショ
ンを構成レジスタにロードするために装荷し、データソ
ースとして４本のデータラインから１本を選択するよう
にコントローラの同報インストラクションまたはグルー
プの１つの処理素子に保持された特定の通信インストラ
クションのいずれかに従って動作し、託されたデータラ
インからのデータをソース出力ポートに供給するために
適用される。

【００１４】デマルチプレクサユニットは、各データラ
インとコントローラと１つの構成レジスタとに接続さ
れ、マルチプレクサユニットのソース出力ポートに接続
されている。このデマルチプレクサは、４本のデータラ
インから１本を選択するためにコントローラからの同報
インストラクションまたは構成レジスタの内容のいずれ
かに従って動作し、マルチプレクサのソース出力ポート
からのデータを選択データラインに供給するために適用
される。１本のデータラインは、１つの区画の各マルチ
プレクサを同じ区画のデマルチプレクサに接続し、交差
データラインは、ある１つの区画の各マルチプレクサを
各他の区画のデマルチプレクサに接続する。デマルチ
プレクサはまた、マルチプレクサ手段のソース出力ポー
トからのデータを少なくとも２本のデーターラインに供
給するためにコントローラからの同報インストラクショ
ンまたは構成レジスタの内容いずれかに従って動作する
ために適用される。

【００１５】区画化状態において、１つの区画の各マル
チプレクサユニットを同じ区画のデマルチプレクサユニ
ットに接続するデータラインと１つの区画の各マルチプ
レクサを各他の区画のデマルチプレクサに接続する交差
データラインは単一のデータラインであってもよい。

【００１６】同様に、上述したような区画状態及び非区
画状態の両方において、本発明は、図４に示された構成
において、１つのスイッチと４つのスイッチとの間に更
に含まれるような動的再構成スイッチ装置において実施
される。処理素子は、その入出力データラインと関連す
る少なくとも１入力および１出力レジスタを有する。故
に、グループ当たり２つのスイッチを用いる所定の構成
において、２つの同時データ転送がグループのある処理
素子対から同じグループの他の処理素子対に対して行う
ことができる。この実施例では、グループの各スイッチ
はそのグループの任意の処理素子によって装荷し得る自
己の構成レジスタを有する。

【００１７】上述した本発明の記述は、発明の特定の応
用に適用する一般的なガイドラインとして説明されてい
る。故に、実行のための特定の詳細は実施技術および最
終製品の割当コストに基づいて決定される。特に、本発
明の構造および動作の新規な特徴は、図面を参照して詳
細に説明する。この場合、同一部分は同一符号を用い
る。

【００１８】

【実施例】以下、図面を参照しながら、本発明の一実施
例に係るコンピュータアーキテクチャを説明する。な
お、本実施例にて説明するコンピュータアーキテクチャ
は、並列単一命令複数データ流（ＳＩＭＤ）処理型であ
って、ミディアム型又はファイン型並列コンピュータに
大まかに分類されるものである。

【００１９】図１は、本実施例の最上位レベルのアーキ
テクチャを示すブロック図である。

【００２０】処理素子（プロセッシングエレメント）１
０は、２次元格子１２上に配列され、４つのプログラマ
ブルスイッチ１４を介して隣接する８つのプロセッシン
グエレメントに接続されている。

【００２１】本アーキテクチャは３つの主要なユニッ
ト、すなわちホストコンピュータ１６と、コントローラ
１８と、プロセッサアレイ２０とを有するものである。
メモリ２２は、ホストコンピュータ１６によって、高速
なデータ転送方式とされるいわゆるダイレクトメモリア
クセス（ＤＭＡ）チャネルを用いてアクセスが可能とな
っている。従って、ホストコンピュータ１６はメモリア
クセスの際に、メモリ領域中においてアクセスされるべ
きデータブロックの位置と、転送するワードの総量とを
指定するのみでよい。

【００２２】ＤＭＡコントローラ１９は、ホストコンピ
ュータ１６の付加的サイクルを少しも使用することなし
にデータを転送することが可能となっている。従って、
ホストコンピュータ１６とコプロセッサとの間に、構造
が簡単なプログラミング・インターフェースを構築する
ことができる。

【００２３】ホストコンピュータ１６は、主として入力
データを適切にフォーマット化するため、データを長期
間保存するため、に用いられ、また、ユーザと本装置と
の間の可視インターフェースとして用いられるものであ
る。

【００２４】コントローラ１８は、ホストコンピュータ
１６とプロセッサアレイ２０とのインターフェースとし
て備えられており、ホストコンピュータ１６によってア
クセスが可能となっているマイクロプログラム用のメモ
リ２３に接続されている。

【００２５】ホストコンピュータ１６上においては、高
水準のプログラムを記述し、コンパイルを行うことが可
能であり、発生された制御情報は、コントローラ１８に
接続されるマイクロプログラム用メモリ２３に対し、ホ
ストコンピュータ１６からダウンロードされるようにな
っている。コントローラ１８は、プロセッシングサイク
ルの間にインストラクション（命令）とメモリアドレス
とをプロセッサアレイに同報（ブロードキャスト）す
る。プロセッサアレイ２０中の各プロセッサは、各々の
処理素子が有するマスクフラグの可／否に基づいて、コ
ントローラ１８から受けた操作を実行するようになって
いる。

【００２６】プロセッサアレイ２０は、全ての処理素子
１０を含み、プログラマブルスイッチ１４の内部結合を
サポートするものである。プロセッサアレイ２０内の処
理素子１０の各々は、本アーキテクチャが具備するメモ
リ２２の領域内において各々の処理素子１０自身の位置
に対応する列のメモリ領域を直接参照することができる
ようになっている。このように分配型のメモリ構成をな
すことにより、メモリアクセスの際に生じるコンフリク
ト（衝突）を軽減することができ、その結果、ハードウ
ェア及びソフトウェアの両方を簡素な構成に設計するこ
とができる。

【００２７】本アーキテクチャにおいては、処理素子１
０がシステムのコンピュータエンジンを構成するもので
ある。上述したように、処理素子１０はプロセッサアレ
イ２０のサブシステムの一部を構成するものである。全
ての処理素子１０は、同一のインストラクションストリ
ームを受けとるが、ローカルデータストリーム上で要求
された操作を実行する。処理素子１０の各々は、図４に
示すように、多数のファンクション（機能）を有するフ
ァンクション（機能）ユニット２４と、小型のレジスタ
ファイル２６と、プロセッサ内部接続のためのコミュニ
ケーション（通信）ポート２８と、マスクフラグ３０と
を含んでいる。

【００２８】処理素子１０の各々が具備するファンクシ
ョンユニット２４は、加算器、乗算器、シフト／論理演
算器を含んでいる。特定のインプリメンテーションに応
じて、ファンクションユニット２４は、さらに付加的な
ファンクションユニットを付加することが可能となって
いる。多種のいわゆるＲＩＳＣ型のプロセッサに類似し
て、処理素子１０は、種々のユニット間でデータ転送を
行うための、内部データバス３２を備えている。例え
ば、データは、レジスタファイル２６内のレジスタから
加算器のオペランドレジスタの一つに転送され、あるい
は乗算器の出力レジスタからＩ／Ｏ出力ポート２８に転
送される。マスクビットはコントローラ１８からの命令
をファンクションユニット２４が実行することの可／否
を指定するために用いられる。

【００２９】処理素子１０の各々は、Ｉ／Ｏポート２８
を介して、隣接する処理素子と通信する。各々の処理素
子１０は、１入力１出力のみのＩ／Ｏポート２８を備え
る構成としてよい。なぜなら、処理素子１０は、各々の
シストリック（systolic）・サイクル中に、単一のデー
タ値のみを処理素子１０により伝達され、受けとるから
である。

【００３０】図４に示す構成では、１個以上のスイッチ
を利用することにより、複数の入力／出力ポートが、グ
ループのメンバー間で同時にデータ転送を行うために用
いられることが可能となっている。各々のＩ／Ｏレジス
タの出力は、処理素子１０を取り囲む４つのプログラマ
ブルスイッチ１４に結合される。

【００３１】出力されるデータ値のデスティネーション
となる処理素子１０および入力されるデータ値のソース
となる処理素子１０は、プログラマブルスイッチ１４の
スイッチセッティングによって選択される。

【００３２】図５に示すように、本アーキテクチャにお
ける処理素子１０は、自身のローカルメモリ領域３８に
対してリード／ライトアクセスが可能となっている。メ
モリは、容易にメモリ拡張を行えるようにする目的で、
チップから分離された構成となっている。プロセッシン
グサイクル中においては、各々のインストラクションに
関連するメモリロケーションが、コントローラ１８によ
って、全ての処理素子１０に送出される。このようにし
て、全ての処理素子１０は、メモリの単一プレーンを夫
々のタイムステップにおいてアクセスすることができ
る。メモリアクセスの速度は、処理素子１０の演算能力
にマッチするので、夫々のメモリアクセスは、演算処理
と完全に重複して実行され得る。したがって、効率的な
プロセッシング処理を行うことができる。

【００３３】前記処理素子であるローカルメモリエリア
３８の各ワードは、好ましくは２つの別々のフィールド
４０，４２から成る。このフィールド４０は、ニューロ
ン活性化値(neuron activation values)やシナプス重み
付け値（synaptic weight values) 等の如く計算結果に
係る現行データをストア若しくは検索するのに使用され
るデータフィールドである。上記フィールド４２は、各
処理素子１０にて使用される上記スイッチ１４により設
定される変更内容を示す３ビットを有している。上記３
ビット構成によれば、図８に示される８つの構成モデル
のうちの一つを選択し解読することができる。値を設定
する為のこれらスイッチは、上記ホスト１６による予備
装荷（プリロード）や、計算が開始されるに先立ち決め
られる。そして、値を設定する新たな変更は、それぞれ
インストラクションサイクルの間に読み取られる。

【００３４】プロセッサアレイ２０における最隣接通信
は、１つの処理素子１０とこの処理素子１０に最隣接す
る８つの素子を接続する機能的なスイッチ１４を介して
行われている。図２に示されるように、各処理素子１０
には、それぞれに接続されている４つのスイッチ１４が
設けられている。

【００３５】プロセッサアレイ２０における最近隣との
通信のための互いに異なる構成は詳細には図５に示され
る。４つの機能的なスイッチ１４は４つの処理素子から
なる各グループに使用されている。このような構成に
て、分割されている位置及び分割されていない位置の両
者について述べると、各処理素子１０は、入出力データ
ラインに関係する少なくとも１つの入力レジスタと１つ
の出力レジスタを有している。このように、与えられた
構成において、例えば２つのスイッチはグループ毎に設
けられているので、グループの他の処理素子から同じグ
ループの処理素子に同時に起こる２つのデータ伝送を実
行することができる。これを具体化する為に、グループ
の各スイッチは、そのグループの処理素子にロードする
ことができる独自に与えられた構成レジスタを有してい
る。

【００３６】再び図２の構成について言及すると、少な
くとも１つのＩ／Ｏコネクション５４が各処理素子１０
毎に必要とはなるものの、機能的なスイッチ１４は４つ
の最隣接の処理素子１０との間の通信を可能とする。こ
の隣接処理素子１０との通信帯域幅は、効率のよいシス
トリックプロセッシング(systolic processing) を保証
するメモリアクセス帯域幅と等しくされている。この発
明の唯一の欠点は、相互に接続するネットワークの各ス
イッチ１４が明確に構成されるよう考慮しなければなら
ないことである。

【００３７】上記スイッチの設定は、各スイッチ１４の
ローカルメモリ３８にストアされており、各プロセスサ
イクルの開始時にアクセスすることができる。このスイ
ッチメモリのアドレスは各サイクルにおいてコントロー
ラ１８によって供給される。この設計はプロセッシング
アレイ２０を介するデータのパターンに従って変更され
る。この他、２次元パラレルＳＩＭＤ構造に関し、全て
の処理素子１０は同じ通信オペレーションを形成する。
換言すれば、上記コントローラ１８によって、北（ノー
ス）から南（サウス）、東（イースト）から西（ウエス
ト）、西（ウエスト）から南（サウス）等と指定された
方向に伝達される命令語はプロセッシングアレイ２０に
て移動される。一方、これまで述べた構成において、１
つの処理素子１０は、ローカルスイッチを設定すること
により、西側からデータ受信をしている間でも北側から
データを受信することができる。このスイッチ１４の実
施例は図３に示され、マルチプレクサ４８とデマルチプ
レクサ５０を、４つの入力の内の１つを選択し、４つの
出力５４のうちの１つのデータを発信するために使用し
ている。能率的な手法であるとされている分散・結合し
て組み立てられた内部結合によるニューラルネットワー
クには、インタープロセッサコミュニケーションのかか
る多面性は必須である。

【００３８】処理素子（ＰＥｓ）の整列格子の最隣接通
信のアーキテクチャ的実施におけるこの発明の動作を以
下に説明する。

【００３９】プロセッシングアレイにおける処理素子間
のインタープロセッサコミュニケーションは、最隣接の
８つのうちの３つと１つの処理素子とを接続する動的再
構成可能スイッチ（ＤＲＳ）を介して成されている。各
ＤＲＳセルには、接続されている４つの処理素子があ
る。

【００４０】上記ＤＲＳ内の構成レジスタは、スイッチ
を介して流れるデータのためにソースおよびデスティネ
ーションポートの選択を制御する。この構成レジスタの
内容は、スイッチに接続される１つの処理素子、例えば
ＤＲＳの左上の処理素子だけによって設定できる。新た
な構成値を構成レジスタに装荷することと関連する特別
なオーバヘッドによって、バイパスモードは、データ移
動方向が特定の通信インストラクションによって与えら
れるように行うことができる。バイパスモードを使用す
るとき、プロセッサアレイ内でのデータ移動は通常のＳ
ＩＭＤパラレルプロセッサのデータ動きと同様である。
このモードでは、インストラクションはシステムの全て
の処理素子のデータ移動の方向を特定する。（図６
（ａ），（ｂ）参照）。

【００４１】一方、構成レジスタを使用することによっ
て、不均一な通信パターンが処理アレイ上に形成され
る。この発明の特徴は、相互接続通信網の各スイッチが
別個に構成されることである。構成レジスタはまず処理
の開始時、計算中は変更することなしに、図７（ａ）に
示すようなアレイ上の１次元計算リングを構成するな
ど、特定の通信パターンを実行するために構成される。
一方、構成レジスタは図７（ｂ）に示すように、各通信
ステップごとに処理アレイ上に複雑なフローパターンを
形成すべく動的に再構成される。

【００４２】３ビット構成レジスタはデータが移動する
８つの方向、例えば南から北、東から西、西から南等の
方向のうち１つを特定する（図８参照）。特定の構成モ
ードにおいては、マルチプレクサとデマルチプレクサと
が４つの入力のうち１つを選択して、図８に示すように
４つの出力のうち１つにデータを転送するために使用さ
れる。各構成レジスタには、適当な制御信号を発生する
のに使用される復号用ハードウエアが付加されている。
ただし説明を簡単にするために図示していない。各ＰＥ
は全図面において行及び列座標（ｒ．ｃ．）によって識
別される。例えば、ＰＥ１．１はプロセッサアレイ（Ｐ
Ａ）内の第１行、第１列に位置するＰＥを表す。ＤＲＳ
バスの幅は明確に定義されず、１からｍビットまで変化
する。

【００４３】要求されるプロセッサアレイが単一チップ
よりも大きいときは（各チップはｎ×ｎのＰＥを含
む）、チップ境界にあるＰＥのＤＲＳセルを多数のチッ
プの間で分割する必要がある。このスイッチの分割の一
例が図９に示されている。バスビットごとに単一の双方
向ワイヤが西側の隣接ＰＥを東側の対応する隣接ＰＥに
接続するために使用される。チップ内のｒ．ｃ．座標に
加えて、各ＰＥはチップ番号によって識別される。例え
ば、ＰＥＣ３１．ｎは、チップ３の第１行、第ｎ列
に位置するＰＥを表す。同様に、ＰＥＣ３１．ｎ
ｏｕｔ及びＰＥＣ３１．ｎｉｎはこのＰＥの入力
チャネルと出力チャネルを個々に表す。スイッチは西側
のＰＥＣ３１．ｎによって制御されるので、構成情
報はデータ通信チャネルが確立される前にチップ境界を
介してスイッチの東半分に転送される必要がある。した
がって２つの構成レジスタが必要であり、１つは西半
分、他の１つは東半分に使用される。西側マルチプレク
サと東側マルチプレクサとが同時に同じバスを駆動しな
いようにするために、東側の構成レジスタのコピーが余
分に必要である。チップ３ピン＃１（Ｃ３Ｅ１）の
西側をチップ４ピン＃１（Ｃ４Ｗ１）の東側に接続
するためにデータバス幅ごとに１つのワイヤが設けられ
ている。データチャネルと構成チャネルは２つの隣接チ
ップを接続するために同一のバスを共有している。ＰＥ
Ｃ３１．ｎｏｕｔを選択するために、構成レジス
タをロードする指令はスイッチセルの西半分をあらかじ
め構成し、これによって、スイッチの東半分の構成レジ
スタの余分なコピーが開始される。１ビットのバス幅の
場合は、この指令を実行するのに４サイクル必要であ
り、このうち１サイクルは構成モードをＰＥＣ３
１．ｎのメモリからＤＲＳの西側の構成レジスタへ読み
出すのに使用され、３サイクルはこの情報をＤＲＳの東
半分の構成レジスタへロードするために使用される。こ
のことは相互接続通信網内の各スイッチを個々に構成す
ることが要求されない動作の場合は大きなオーバヘッド
となる。したがって、前記したように、スイッチセルが
構成レジスタをバイパスして構成モード情報を直接イン
ストラクションフィールドから得ることが可能となる。
図１０はＤＲＳの北と南の分割を示している。１つのワ
イヤがチップ２ピン＃１（Ｃ２Ｓ１）の南側を、チッ
プ４ピン＃１（Ｃ４Ｎ１）の北側に接続している。
構成値をＤＲＳの北−南半分にロードする工程は西−東
方向に対する工程と同様である。

【００４４】図１１はＤＲＳの端部分割を示しており、
４つのチップの４つの隣接端部に渡っている。スイッチ
の各端部には構成レジスタの１つのコピーが存在する。
ロード構成レジスタの指令はＰＥＣ１ｎ．ｎｏｕ
ｔを選択するために上方左端部のＤＲＳセルをあらかじ
め構成し、これによって、スイッチの各端部の構成レジ
スタの３つすべての余分なコピーが開始される。１つの
ワイヤがチップ１ピン＃ｎ（Ｃ１Ｓｎ）の南側を、
チップ３ピン＃ｎ（Ｃ２Ｗｎ）の北側に接続してい
る。余分な１つのワイヤがチップ２ピン＃０（Ｃ２
Ｓ０）の南側を、チップ４ピン＃０（Ｃ４Ｎ０）の
北側に接続しており、これによって、チップ１とチップ
４とは対角関係を有している。したがって対角関係を保
つために、北−南方向にｎ＋１個のワイヤ（Ｓ０Ｎ０
からＳｎＮｎ）が必要であり、東−西方向にｎ個のワ
イヤ（Ｅ１Ｗ１からＥｎＷｎ）が必要である。この
ことはスイッチの端部分割において述べられている。す
なわち、図１０及び図１２を参照せよ。図１１に示すよ
うにチップ４に対する対角関係を保つために、ピンＣ２
Ｓ１からＣ２Ｓｎはチップ２内のＰＥＣ２ｎ．
１からＰＥＣ２ｎ．ｎに割当られており、チップ２内
のピンＣ２Ｓ０はチップ１に位置するＰＥＣ１
ｎ．ｎに割り当てられている。

【００４５】マルチプレクサ、デマルチプレクサ、構成
レジスタ群を含む最大４つのスイッチが相互接続通信網
の各スイッチング点で使用される。４つのスイッチが使
用されたとき、電子クロスバー通信スイッチが構成レジ
スタ群の４つの処理要素間に形成され、群内での４つの
処理要素間の同時通信が可能となる。

【００４６】本発明に対する多くの変形、変更、変化が
可能であることは勿論である。そのような変形、変更、
変化は本発明及び添付のクレームの精神及び範囲内に属
している。同様に、出願人は本発明が本発明の精神及び
範囲から逸脱しないで例示的に開示された好ましい実施
例に対する全ての変化、変更、変形を含むことを意図す
る。

【００４７】

【発明の効果】この発明によると、各処理素子（ＰＥ）
は８つの隣接するプロセッサとダイレクトに通信するた
めに４つの双方向接続しか必要としない。また、隣接す
るチップのスイッチ間での通信あるいは区割り領域にま
たがるスイッチ間での通信において、データパスビット
あたり１双方向ワイヤしか必要としない。従って、チッ
プ間にまたがるプロセッサ間通信に必要なピン数を低減
することができ、１つのチップに実現可能なＰＥの数を
増大させることができる。

【００４８】更に、処理中にＤＲＳを動的に再構成する
ことにより通信に柔軟性を持たせることができる点にあ
る。特に、ＳＩＭＤ並列プロセシングアーキテクチャに
おいて、同じ性質を持つデータをＰＥ間で移動させるこ
とができる。

【図面の簡単な説明】

【図１】本発明が具体化されるコンピュータアーキテク
チャの最高レベルのデザインを示す理想的概略ブロック
図。

【図２】シングルプロセッサ及びそれに関連する、ＤＲ
Ｓインタープロセッサ通信交換機を示す理想的概略ブロ
ック図。

【図３】再構成可能なインタープロセッサ通信スイッチ
を示す理想的概略ブロック図。

【図４】４つのプロセッサの結合法及びそれに関連す
る、図２の代替構成である４つのＤＲＳ通信スイッチを
示す理想的概略ブロック図。

【図５】処理素子の最高レベルデザインを示す理想的概
略ブロック図。

【図６】（ａ）は東方シフトの本発明に結合されるプロ
セシングアレーのバイパスモードを用いる処理素子間の
同種データの動きを示し、（ｂ）は南方シフトの本発明
に結合されるプロセシングアレーのバイパスモードを用
いる処理素子間の同種データの動きを示す理想的概略ブ
ロック図。

【図７】（ａ）はプロセッサアレー上に一次元リング構
造を与える本発明のＣｏｎｆ−Ｒｅｇの異なる値を用い
る処理素子間の同種データの動きを示し、（ｂ）は特定
データの動きに対応する通信サイクルを示している結合
矢印の数に関してプロセッサアレー上に不定且つ複雑な
流れパターンを与える本発明のＣｏｎｆ−Ｒｅｇの異な
る値を用いる処理素子間の同種データの動きを示す理想
的概略ブロック図。

【図８】本発明が具体化される単一にして動的再構成可
能スイッチ及びそれに関連する、プロセッサ・アレー上
の処理素子を示す理想的概略ブロック図。

【図９】本発明が具体化される単一の動的再構成可能ス
イッチ及びそれに関連する、チップ境界を横切る隣接プ
ロセシング要素間における東西のインタープロセッサ通
信に係るプロセッサアレー上の処理素子を示す理想的概
略ブロック図。

【図１０】本発明が具体化される単一の動的再構成可能
スイッチ及びそれに関連する、チップ境界を横切る隣接
プロセシング要素間における北南及び東西のインタープ
ロセッサ通信に係るプロセッサアレー上の処理素子を示
す理想的概略ブロック図。

【図１１】本発明が具体化される単一の動的再構成可能
スイッチ及びそれに関連する、チップ隅を横切る隣接プ
ロセシング要素間における北南及び東西のインタープロ
セッサ通信に係るプロセッサ・アレー上の処理素子を示
す理想的概略ブロック図。

【図１２】本発明が具体化される、動的再構成可能スイ
ッチに適用されるプロセッサアレー上の処理素子を包含
する４つのチップの連係及びチップ境界を横切る隣接処
理素子間におけるインタープロセッサ通信を示す理想的
概略ブロック図。

【符号の説明】

１０…処理素子、１２…二次元格子、１４…プログラマ
ブルスイッチ、１８…コントローラ、２０…プロセッサ
アレイ

───────────────────────────────────────────────────── フロントページの続き (72)発明者デイビッド・ビー・シュアメリカ合衆国、カリフォルニア州 91304、カノガ・パーク、ハンナ・アベニュー 8748

Claims

【特許請求の範囲】

【請求項１】コントローラが処理素子の二次元アレイ
の全ての処理素子にインストラクションを同報し、動的
再構成可能スイッチ手段が前記コントローラの前記同報
インストラクションまたは１つのグループの１つの処理
素子に保持されている特定の通信インストラクションに
従って前記アレイの処理素子の４つを１つのグループと
して接続するために使用される、処理素子の二次元アレ
イを有するＳＩＭＤアーキテクチャにおいて、前記グループの前記処理素子の各々に接続される少なく
とも１つのデータラインと、各データライン、コントローラおよび構成レジスタに接
続され、前記特定の通信インストラクションを前記グル
ープの１つの処理素子から構成レジスタに装荷するため
適用され、データ源として４つのデータラインの１つを
選択するため前記コントローラからの前記同報インスト
ラクションまたは前記構成レジスタの内容に従って動作
し、前記データをソース出力ポートに供給するマルチプ
レクサ手段と、各データライン、前記コントローラおよび前記構成レジ
スタ並びに前記マルチプレクサのソース出力ポートに接
続され、前記４本のデータラインの１つを選択するため
前記コントローラからの前記同報インストラクションま
たは前記構成レジスタの前記内容に従って動作するため
に適用され、前記マルチプレクサ手段の前記ソース出力
ポートのデータを前記データラインに供給するデマルチ
プレクサ手段と、により構成されることを特徴とする再構成可能スイッチ
装置。
【請求項２】対応する処理素子に接続される少なくと
も１つの多重ビット幅データラインを更に含み、前記処
理素子は少なくとも１つの入出力レジスタおよび前記少
なくとも１つの多重ビット幅データラインの選択ビット
に関連する少なくとも１つの構成レジスタを有する請求
項１の動的再構成可能スイッチ装置。
【請求項３】４つの処理素子のグループ間に前記マル
チプレクサ手段、前記デマルチプレクサおよび前記構成
レジスタを含む前記スイッチの少なくとも１つの複製を
更に含む請求項１の動的再構成可能スイッチ装置。
【請求項４】４つの処理素子のグループ間に前記マル
チプレクサ手段、前記デマルチプレクサおよび前記構成
レジスタを含む前記スイッチの４つ以下の複製を更に含
む請求項１の動的再構成可能スイッチ装置。
【請求項５】前記デマルチプレクサユニットは前記マ
ルチプレクサ手段の前記ソース出力ポートから前記４本
データライングループの少なくとも２本のデータライン
に供給するために前記コントローラからの前記同報イン
ストラクションまたは前記構成レジスタの前記内容のい
ずれかに従って動作する請求項１の動的再構成可能スイ
ッチ装置。
【請求項６】コントローラが多数のチップに含まれる
複数の処理素子の二次元アレイの全ての処理素子にイン
ストラクションを同報し、動的再構成可能スイッチ装置
が１つのチップが１つの区画に関連する複数の区画を形
成するため、前記アレイの前記処理素子の４つをチップ
境界を横切るグループに接続し、前記コントローラの前
記同報インストラクションまたは前記グループの１つの
処理素子に保持された特定の通信インストラクションの
いずれかに従って前記グループの選択された処理素子間
で動的にデータ移動を指導する、処理素子の二次元アレ
イを有するＳＩＭＤアーキテクチャにおいて、前記区画の前記グループの各処理素子に接続される少な
くとも１つのデータラインと、各データライン、コントローラおよび構成レジスタに接
続され、前記特定の通信インストラクションを前記グル
ープの１つの処理素子から構成レジスタに装荷するため
適用され、データ源として前記区画のデータの１つを選
択するためまたは１つも選択しないため前記コントロー
ラからの前記同報インストラクションまたは前記構成レ
ジスタの内容に従って動作し、前記データをソース出力
ポートに供給するマルチプレクサ手段と、各データライン、前記コントローラおよび前記構成レジ
スタ並びに前記マルチプレクサのソース出力ポートに接
続され、前記マルチプレクサ手段の前記ソース出力ポー
トに接続され、前記マルチプレクサ手段の前記ソース出
力ポートから前記区画の前記データラインの選択された
１つにデータを供給しまたは供給しないために前記コン
トローラからの前記同報インストラクションまたは前記
構成レジスタの内容のいずれかに従って動作するデマル
チプレクサ手段と、１つの区画の各マルチプレクサを同じ区画のデマルチプ
レクサに接続するデータラインおよび１つの区画の各マ
ルチプレクサを各他の区画の前記デマルチプレクサに接
続する交差データラインと、により構成されることを特徴とする再構成可能スイッチ
装置。
【請求項７】１つの区画の各マルチプレクサユニット
を同じ区画の前記デマルチプレクサユニットに接続する
前記データラインと１つの区画の各マルチプレクサを各
他の区画の前記デマルチプレクサに接続する前記交差デ
ータラインは単一のデータラインである請求項６の再構
成可能スイッチ装置。
【請求項８】対応する処理素子に接続される少なくと
も１つの多重ビット幅データラインを更に含み、前記処
理素子は少なくとも１つの入出力レジスタおよび前記少
なくとも１つの多重ビット幅データラインの選択ビット
に関連する少なくとも１つの構成レジスタを有する請求
項６の動的再構成可能スイッチ装置。
【請求項９】前記デマルチプレクサユニットは、前記
マルチプレクサ手段の前記ソース出力ポートから前記区
画の少なくとも２本のデータラインに供給するために前
記コントローラからの前記同報インストラクションまた
は前記構成レジスタの前記内容のいずれかに従って動作
する請求項６の動的再構成可能スイッチ装置。
【請求項１０】４つの処理素子のグループ間に前記マ
ルチプレクサ手段、前記デマルチプレクサおよび前記構
成レジスタを含む前記スイッチの少なくとも１つの複製
を更に含む請求項６の動的再構成可能スイッチ装置。
【請求項１１】４つの処理素子のグループ間に前記マ
ルチプレクサ手段、前記デマルチプレクサおよび前記構
成レジスタを含む前記スイッチの４つ以下の複製を更に
含む請求項６の動的再構成可能スイッチ装置。
【請求項１２】前記マルチプレクサ手段は、前記グル
ープの１つの処理素子から構成レジスタに前記特定の通
信インストラクションを装荷するため適用され、データ
源として前記区画のデータの１つを選択するためまたは
１つも選択しないため前記コントローラからの前記同報
インストラクションまたは前記構成レジスタの内容に従
って動作し、そこからの前記データを前記区画の１つに
おいて選択されたソース出力ポートに供給する請求項１
の動的再構成可能スイッチ装置。
【請求項１３】前記デマルチプレクサ手段は、全ての
区画から１つのソース出力ポートだけを選択し、選択さ
れたソース出力ポートからのデータを前記区画の前記デ
ータラインの選択された１つに供給しまたは供給しない
ために前記コントローラからの前記同報インストラクシ
ョンまたは前記構成レジスタの内容のいずれかに従って
動作する請求項６の動的再構成可能スイッチ装置。