JP2931097B2

JP2931097B2 - 並列処理アレイの動作をシミュレートするデジタルプロセッサ

Info

Publication number: JP2931097B2
Application number: JP3513674A
Authority: JP
Inventors: ジヨンソン，マーテイン; ジヨーンズ，ロビン; ブルームヘツド，デイビツド・シドニー
Original assignee: IGIRISU
Current assignee: IGIRISU
Priority date: 1990-08-16
Filing date: 1991-08-15
Publication date: 1999-08-09
Anticipated expiration: 2014-08-09
Also published as: DK0543860T3; WO1992003802A1; GB2262636A; JPH06506073A; US5845123A; EP0543860B1; DE69117763D1; DE69117763T2; GB9302100D0; EP0543860A1; GB9018048D0; ATE135123T1; GB2262636B

Description

【発明の詳細な説明】本発明は、シストリック（systolic）アレイのような
並列処理アレイの動作をシミュレートするデジタルプロ
セッサに係わる。

並列処理アレイの分野は、通常のデジタルコンピュー
タにおける“フォンノイマンボトルネック”という周知
の問題を克服するべく開発された。この問題は通常のコ
ンピュータの直列性に起因し、即ち通常のコンピュータ
ではプログラムステップもしくは命令は、一度に一つず
つが連続して実行される。このことは、コンピュータの
動作速度が、該コンピュータの中央処理装置が個々の命
令を実行する速度に制約されることを意味する。

通常のコンピュータの動作速度の問題を克服するため
に、シストリックアレイアーキテクチャに基礎を置くパ
ラレルプロセッサが開発された。このようなプロセッサ
の一つが、米国特許第4,727,503号に対応する英国特許
第2,151,378号に開示されている。このパラレルプロセ
ッサは、内部セル及び境界セルの三角形のアレイから成
る。境界セルはアレイの斜辺（the array diagonal）を
構成し、遅延ラッチを介して相互接続されている。内部
セルは上記斜辺の上方に位置する。アレイは、セル行及
びセル列を規定する隣接セル相互接続ラインを含む。セ
ルは共通のシステムクロックによって周期的に能動化さ
れる。信号フローはセル行に沿い、かつセル列を下り、
その速度は１クロックサイクル当たり１セルである。各
セルは各クロックサイクル毎に、アレイに入力された、
及び／または隣接セルから受け取ったデータを用いて計
算機能を実行する。計算結果は隣接セルへと出力され、
次の計算のための入力とされる。個々のセルが行なう計
算は比較的単純であるが、シストリックアレイ全体では
はるかに複雑な計算が、場合によっては高速で再帰的な
行なわれる。実際のところ、アレイは複雑な計算を一連
のはるかに小規模なカスケード式計算に細分し、これら
の計算はアレイの処理セルに割り当てられる。外部制御
コンピュータは不要である。セルはクロックによって能
動化され、いずれのセルも各クロックサイクル毎に動作
する。最大クロック周波数もしくは処理速度は、個々の
セルのうちで最も動作の遅いものがその比較的単純な計
算機能を実行し得る速度によってしか制限されない。こ
のようにして高度の並列処理が実現し、この処理は高速
処理セルが用いられた場合は高速で行なわれる。通常の
コンピュータの“ボトルネック”は回避される。

従来技術によるシストリックアレイの欠点は、問題が
きわめて単純でないかぎり多数のセルが必要となるとい
う点である。後段に詳述するように、ｎ次元の計算を行
なう従来の三角アレイには約n²/2個の内部セルが必要で
ある。従って、必要な内部セルの個数は計算の次元数の
２乗として増加する。境界セルの個数は次元数と共に直
線的にしか増加しない。シストリック三角アレイの重要
な一用途は、レーダアンテナのフェーズドアレーのよう
なセンサ列からの信号の処理に係わる。典型的なレーダ
フェーズドアレーは1,000個以上のアンテナの領域内に
設置され、アンテナ信号を処理するシストリックアレイ
には約100万個の処理セルが必要となる。各セルは、隣
接セル同士の交信を可能にするトランスピュータの処理
機能及び接続能力を必要とする。シリコンチップまたは
ウェハの個々のエリアを“セル”が構成する専用集積回
路を用いることも可能である。トランスピュータの価格
は１個当たり100ポンド以上するので、シストリックア
レイのコストはレーダフェーズドアレー用としては禁止
的に高くなる。このようなコストは、高次元を特徴とす
る他の多くの信号処理用途にとっても禁止的に高い。

通常のコンピュータの欠点を克服する程度の並列性を
有するが、従来のシストリッカアレイほど多くの処理セ
ルは必要としないデジタル処理装置が求められている。

ヨーロッパ特許出願公開第0 021 404号から、論理演
算シミュレーション用のコンピュータシステムに特別設
計のプロセッサのアレイを用いることが公知である。ア
レイを構成する複数のプロセッサは並列に動作する。し
かし、従来技術によるこのパラレルアレイは、該アレイ
におけるデータフローがコンピュータによって操作され
る多方向スイッチを必要とするという点で不利である。
プロセッサの個数がｉである場合に各プロセッサが、他
のプロセッサそれぞれにコンピュータ制御下に接続され
得るためには、多方向スイッチは（ｉ×ｉ）方向スイッ
チとなる。これは、（ａ）制御コンピュータが存在せ
ず、（ｂ）アレイのデータフロー経路が一定であり、
（ｃ）データフローが隣接素子同士の間に生じ、（ｄ）
外部制御命令が存在せず、かつ（ｅ）通常の汎用プロセ
ッサ（例えばトランスピュータ）が全く直線的な算術機
能を実行するようにプログラムして用いられ得るシスト
リックアレイアーキテクチャとは相容れない。実際、シ
ストリックアレイアーキテクチャの主の目的は制御コン
ピュータの必要性を回避することに有る。

Tanimoto等の米国特許第4,622,632号は、ピラミッド
形データ構造において動作するプロセッサのアレイを用
いるパターン照合装置に係わる。この例でプロセッサ
は、“コントローラ”と呼称されるものの制御下に動作
し、このコントローラとは制御コンピュータのことかと
思われる。コントローラは個々のプロセッサに同期的に
命令を与える。命令は、データ記憶アドレスを指定する
と共に、個々のプロセッサがその様々な処理機能のうち
のいずれを実行するのかを指示する。各プロセッサは読
み出し−変更−書き込みサイクルを実行し、このサイク
ルでメモリモジュール内のデータは、そこから読み出さ
れたものと同じアドレスに再び書き込まれる。上述のヨ
ーロッパ特許出願公開第0 021 404号と同様にこの例
も、（ａ）制御コンピュータが存在せず、（ｂ）アレイ
のデータフロー経路が一定であり、（ｃ）データフロー
が隣接素子同士の間に生じ、かつ（ｄ）外部制御命令が
存在しないシストリックアレイアーキテクチャとは相容
れない。

本発明は、シストリックアレイのような並列処理アレ
イの動作をシミュレートするのに適したデジタルプロセ
ッサを提供することを目的とする。

本発明は、並列処理アレイの動作をシミュレートする
デジタルデータプロセッサを提供し、このプロセッサは
データ記憶手段と接続されたデジタル処理装置のアセン
ブリを含み、（ａ）各処理装置がそれぞれの、記憶手段データアド
レスのセットのリストを実行するようにプログラムされ
ており、（ｂ）各アドレスセットは異なる入力データアドレス
及び出力データアドレスを含み、このようなアドレスセ
ットはシミュレートされる個々のアレイセルのデータ入
出力機能にそれぞれ対応し、（ｃ）アドレスセットのリストのそれぞれがシミュレ
ートされるアレイのセルの個々のサブアレイに対応し、
且つリストのそれぞれが先行のアドレスセットが、後続
のアドレスセットの出力データアドレスとなるような入
力データアドレスを有する複数対の連続するアドレスセ
ットを含み、シミュレートされるセルの機能が、シミュ
レートされるアレイ内のデータフローに対応する順序と
は逆の順序で実行されるように、各リストが構成され、（ｄ）各処理装置はそれぞれのリストの最初のアドレ
スセットをデータ記憶手段からの入力データの読み出し
と前記手段への、計算機能に従って発生される出力デー
タの書き込みとに用い、後続アドレスセットをリストが
完了するまで同様に用い、その後このような手順を周期
的に繰り返すようにプログラムされていることを特徴とする。

本発明は、シミュレートする（シストリックアレイな
どの）従来のアレイに比較して少数の処理装置しか必要
としないという点で有利である。処理装置の減少は１リ
スト当たりのアドレスセット数に比例する。各処理装置
には実際上、シミュレートされるアレイセルの幾つか、
もしくはそれらのセルのサブアレイの機能が割り当てら
れており、各処理装置は前記幾つかのセルの機能を連続
的に、かつ繰り返して実行するようにプログラムされて
いる。従って、シミュレートされるアレイの動作が再現
されるが、その速度は低下する。しかし、或る程度の並
列性は保たれる。なぜなら全体の計算が個別の処理装置
のアセンブリに分配されるからである。この分配によっ
て、通常のコンピュータに優る利点である並列性が維持
される。本発明は“セミパラレルプロセッサ”と言うこ
ともできる。

本発明は、各処理装置が４個以下の他の処理装置と交
信するように構成し得る。その場合本発明は、各処理装
置対の処理装置同士の間に接続されたレジスタデバイス
及びメモリを含む記憶手段を具備し得る。本発明は、ア
ドレス指定競合を解消するべく構成された記憶手段を具
備し得る。しかし、好ましくはアドレスセットリスト
が、各レジスタデバイス及びメモリが一度に１個の処理
装置によってしかアドレスされないように構成される。
幾つかの処理装置は、各レジスタデバイスを介して２個
の他の処理装置と交信するように構成し得る。その場
合、アドレスセットリストはレジスタデバイスがメモリ
ほど頻繁にアドレスされないように構成される。

各処理装置を、当該装置のリストの各アドレスセット
にそれぞれ関連する係数を記憶及び更新するように構成
することも可能である。

本発明は、入力データ要素の並列直列変換を行なうよ
うに構成された入力手段を具備した処理装置を有し得
る。それによって本発明のプロセッサは、シミュレート
するシストリックアレイへの入力と同時の入力を行なう
ことができる。

本発明が更に十分理解されるように、本発明の非限定
的実施例を、添付図面を参照しつつ以下に説明する。添
付図面の第１図〜第３図は従来技術によるシストリックアレイの
構造及び動作モードの説明図であり、第４図は第１図のアレイの一部をシミュレートするべく
構成された、８個の処理装置を有する本発明のプロセッ
サのブロック線図であり、第５図は第１図のアレイ上にマップされた第４図のプロ
セッサの動作モードを示す説明図であり、第６図は第４図のプロセッサが有する処理装置入力の読
み出し及び書き込み機能の説明図であり、第７図は第４図のプロセッサの個々の処理装置に関連す
るメモリ及びプログラミング構成を示す説明図であり、第８図は第４図のプロセッサにおけるメモリアドレス指
定の概略的説明図であり、第９図は処理装置のための入出力ポートのブロック線図
であり、第10図及び第11図は本発明の、奇数個の処理装置を有す
る変形列の構造及び動作モードの説明図であり、第12図は本発明の、４個の処理装置を有する更に別の例
の動作モードの説明図である。

第１図に、従来技術による三角形のシストリックアレ
イ10を概略的に示す。アレイ10は、英国特許公告第2,15
1,378号（米国特許第4,727,503号）に開示されているよ
うなアレイである。このアレイは、正方形12によって示
した内部セルの15×15斜辺上方サブアレイを含む。円で
示した15個の境界セル14の直線的な連なりが、三角アレ
イの斜辺を構成する。隣接し合う境界セル14は、点16に
よって示した一サイクル遅延セルもしくはラッチを介し
て相互接続されている。最下方に位置する内部セル12及
び境界セル14に乗算器18が接続されている。セル12、1
4、16及び18はいずれもシステムクロック（図示せず）
によって能動化され、セル12、14及び16は各クロックサ
イクル毎に所定の計算を実行する。アレイ10への入力
は、矢印20によって示したように上方から行なわれる。
境界セル14からの水平方向出力は、セル間矢印22によっ
て示したようにアレイ行沿いに送られる。内部セル12か
らの出力は垂直方向のセル間矢印24によって示したよう
に、アレイ列を下るように送られる。境界セル14は、ラ
ッチ16を介してアレイ斜辺沿いに相互接続された26及び
28などの斜辺入力及び斜辺出力を有する。

第２図に、内部セル12及び境界セル14の処理機能をよ
り詳細に示す。各クロックサイクル毎に、各境界セル14
は上方から入力値x_inを受け取る。セル14はx_inと共に、
記憶した係数ｒを用いて、ｒ′＝（r²＋x_in ²）^1/2 （１）によりコサイン回転パラメータｃ及びサイン回転パラメ
ータｓ、並びにｒの更新値を計算する。x_in＝０であれ
ばｃ＝１及びｓ＝０となり、x_in＝０でなければｃ＝r/r′及びｓ＝x_in/r′ （２）かつｒの更新値＝ｒ′ （３）となる。パラメータｃ及びｓは、右側に隣接する内部セ
ル12へと水平方向に出力される。

各境界セル14はまた、左上方の斜辺入力δ_inにパラメ
ータｃを乗じて右下方の斜辺出力δ_outとする。即ち δ_out＝ｃδ_in （４）となる。その結果、アレイ斜辺沿いにラメータｃの累乗
が行なわれる。

各クロックサイクル毎に、各内部セル12は左方からの
パラメータｃ及びｓ並びに上方からのx_inを入力して受
け取る。セル12は、 x_out＝−sr＋cx_in （５）ｒの更新値＝cr＋sx_in （６）によってx_outを計算し、かつ記憶した係数ｒを更新す
る。

第３図に、アレイ10へのデータ入力を概略的に示す
が、図中垂直方向の寸法は説明上便宜的に縮小してあ
る。第３図には、アレイ10への入力の過程における第一
のベクトルx₁と第一の要素y₁とを示す。ベクトルｘ
_１は、15個の要素x₁₁〜ｘ_1,15を有し、データマトリク
スＸの先頭行である。列ベクトルｙは最右方のアレイ列
に入力される。ベクトルｙは要素y₁、y₂、……を有し、
ｎ番目の要素y_nはデータマトリクスＸのｎ番目の行x_ni
〜ｘ_n,15の拡張部として現われる。図示のように、y₁は
ｘ _１を拡張する。

第一の入力ベクトルｘ _１の第一の要素x₁₁は、最上行
の（左端に位置する）境界セル14に入力される。ｘ _１の
連続する要素x₁₂、x₁₃等は最上行の連続する内部セル12
に時間的スキューと共に入力される。時間的スキューは
シストリックアレイの分野で良く知られている。図示例
ではスキューは、同様ベクトルの要素の、隣接し合う最
上行セルへの入力の間に生じる１クロックサイクルの遅
延である。スキューは右方へ向かって直線的に増大し、
従ってｎ番目のベクトルｘ _ｎのｉ番目の要素x_ni1の、ア
レイ10のｉ番目の列への入力は１番目の列へのx_niの入
力より（ｉ−１）クロックサイクルだけ遅延する。

最上方の境界セル14に入力されたx₁₁は、第一のベク
トルｘ _１を先頭要素がゼロの回転ベクトルに変換するた
めに回転パラメータｃ及びｓの計算に用いられる。x₁₁
の最上境界セル14への入力に続くクロックサイクルにお
いて、前記セル14と同じ行に有り、該セル14に隣接する
内部セル12にx₁₂が、x₁₁から計算されたｃ及びｓの入力
と同期的に入力される。１クロックサイクル後、x₁₁か
ら得られたパラメータｃ及びｓは最上行の左から３番目
のセルに到達し、x₁₃についての演算に用いられる。こ
のように、x₁₁から計算されたｃ及びｓは連続するクロ
ックサイクルにおいて、要素x₁₂〜ｘ_1,15及y₁について
の演算に用いられる。それによって、x₁₁を排除された
ｘ _１の回転バージョンが得られ、このバージョンは２番
目のプロセッサ行へと送られる。２番目の行でも同様の
手順で動作が起こる。即ちx₁₂の回転バージョンがx₁₃〜
ｘ_1,15及びy₁の回転バージョンについての演算のための
ｃ値及びｓ値の計算に用いられる。このような手順での
動作は、ベクトルｘの要素が総て排除されるまで順次下
方のプロセッサ行において続行される。

データマトリクスＸの２番目以降の行を表わす後続デ
ータベクトルｘ _２、ｘ _３等も、最上方のアレイ行への入
力によってｘ _１と同様に処理される。通常、ｎ番目のデ
ータベクトルｘ _ｎのｉ番目の要素x_niは、（ｎ＋ｉ＋
１）回目のクロックサイクルにおいてｉ番目のアレイ列
に入力される。同様に、列ベクトルｙのｎ番目の要素y_n
は各行において、ｎ番目のデータベクトルｘ _ｎの付加的
な要素であるかのように回転される。y_nの、累積的に回
転された各バージョンは乗算器セル18へと送られる。セ
ル18において上記バージョンに、ｘ _ｎに由来する回転パ
ラメータｃの、境界セル14が構成するアレイ斜辺に沿っ
て計算された累乗値が乗じられる。乗算器セル18の出力
は、によって得られる最小二乗残差e_nであり、上記式中はｗ _ｎの互換（transpose）であり、ｗ _ｎは二乗値e₁〜e_nの和を最小にするべくｘ _１〜ｘ _ｎの
総てにわたって計算された重みベクトルである。

より一般的な数学用語で言えば、アレイ10は従来技術
で説明されているようなデータマトリクスＸのQR分解を
行なう。即ち、回転アルゴリズムによってＸについての
演算が行なわれて、となるようなマトリクスＱが生成される。上記式中Ｒは
右上方の三角マトリクスである。Ｒのマトリクス要素ｒ
は最右列以外の全アレイ列の個々の内部セル12及び境界
セル14に記憶され、各クロックサイクル毎に計算しなお
される。計算が終了すると要素ｒを、その記憶場所から
抽出し、重みベクトルの明示的計算に用いることができ
る。

第１図〜第３図には、特にQR分解を行なうように構成
された典型的な従来のシストリックアレイが例示してあ
る。アレイ10は、シストリックアレイの典型的特徴であ
る次のような特徴を有する。

（ａ）隣接セル同士の相互接続によって行及び列が構
成されている。

（ｂ）多くのセル（即ち内部セル）が同様の信号処理
機能を有する。

（ｃ）個々のセルがその処理機能を各システムクロッ
クサイクル毎に実行する。

（ｄ）信号フローが通常アレイの列を下り、かつ行に
沿う。

シストリックアレイには、特に内部セル12のようなセ
ルが多数必要であるという大きな欠点が有る。データマ
トリクスＸについてのQR分解、及びこれに関連する、ベ
クトルｙに関する残差抽出を行なうために、アレイ10は
15個の境界セル14の直線的な連なりと、120個の内部セ
ル12の三角形のサブアレイとを用いる。内部セル12は15
×15サブアレイを構成し、アレイ10は全体として16×16
アレイである。これは、データマトリクスＸの15次元性
とベクトルｙの各要素の１次元性とに由来する。通常、
シストリックアレイに必要なセルの個数は実行されるべ
き計算の次元数の２乗として増加する。ｎ次元のデータ
マトリクスＸに適したアレイ10の場合、ｎ（ｎ＋１）/2
個の内部セル12が必要となろう。各セルは浮動小数点演
算能力を有するマイクロプロセッサ程度の複雑さを有
し、４個以下の隣接装置と交信するトランスピュータの
能力を必要とする。ｎが約100以上である場合の計算の
ためには、セルの個数は約10⁴個以上となる。従って、
そのようなアレイのコスト及び嵩は多くの用途にとって
許容不能に大きくなる。

第４図に、本発明のプロセッサ40を示す。プロセッサ
40は、２ポートメモリM₁〜M₈とそれぞれ関連する８個の
処理装置P₁〜P₈を含む。装置P₁は２ポートメモリM₀とも
関連する。装置P₁〜P₈はデコーダD₁〜D₈及び入出力ポー
トI/O₁〜I/O₈とそれぞれ接続されている。入出力ポート
I/O₁〜I/O₈は図面があまり複雑にならないように簡略化
して図示してあるが、これらについては後段に詳述す
る。各ポートI/O₁〜I/O₈は、４個以下のデジタル語を同
時に並列に受け入れ、かつそれらの語を対応する処理装
置P₁〜P₈に直列に転送するように構成されている。これ
らはまた直列語出力を発生する。

ｉ番目の処理装置P_i（ｉ＝１〜８）はデータバスB_i及
びメモリアドレスバスA_iのそれぞれと関係付けられてい
る。ｉ番目のアドレスバスA_iは処理装置P_iをメモリM_i及
びM_i-1と接続する。入出力ポートI/O₁〜I/O₈は各々外部
回路網との間に複雑な読み出し書き込み及びデータ入出
力接続（図示せず）を有する。これらについては後段に
詳述する。第４図において、上記接続はバス41₁〜41₈に
よってそれぞれ概略的に示してある。ｉ番目のデータバ
スB_iは処理装置P_iをメモリM_i及びM_i-1、ポートI/O_i、並
びにその全体に参照符号42を付して示した一群の語レジ
スタと接続する。レジスタ群42は、それぞれレジスタR
₁₁〜R₃₄のうちの４個のレジスタから成る三つのセクシ
ョン42₁〜42₃を含み、ｉ番目のセクション42_i（ｉ＝１
〜３）はレジスタR_i1〜R_i4から成る。レジスタ群42は、
１個のレジスタR₄₁から成る４番目のセクション42₄も含
む。図示した各レジスタR_ijの一重または二重矢印は当
該レジスタの入力側（左側または右側）と、記憶される
デジタル語の個数とを示している。即ち、一重矢印は記
憶される語が１個であることに対応し、二重矢印は２個
であることに対応する。各レジスタは先入れ先出し方式
（FIFO）デバイスである。レジスタR₁₁、R₂₁、R₃₁及びR
₄₁は、左側から入力を受け取り、かつ右側へ出力する一
語デバイスである。図面があまり複雑にならないよう
に、レジスタの入力及び出力には参照符号を付していな
い。レジスタR₁₂、R₂₂及びR₃₂も一語デバイスである
が、これらは右側から入力され、かつ左側へ出力する。
レジスタR₁₃、R₁₄、R₂₃、R₂₄、R₃₃及びR₃₄は、左側から
入力され、かつ右側へ出力する二語デバイスである。

ｉ番目のレジスタ群セクション42_i（ｉ＝１〜４）は
その左側においてデータバスB_9-iと接続されており、各
レジスタはそれぞれのバス分岐接続を有する。ｉ番目の
セクション42_i（ｉ＝１〜３）の上方の３個のレジスタ
（例えばR₃₂〜R₃₄）はその右側においてデータバスB_i+1
（例えばB₄）と接続されている。しかし、ｉ番目のセク
ション42_i（ｉ＝１〜４）の最下方に位置するレジスタR
_i1はデータバスB_iと接続されている。

処理装置P₁〜P₈は、ポートI/O₁〜I/O₈、関連メモリM₀
−M₁〜M₇−M₈、及びレジスタR₁₁、R₁₂〜R₂₁等と接続さ
れた読み出し書き込み出力ラインR/W₁〜R/W₈をそれぞれ
有する。ラインR/W₁等はいずれも、図中“/2"によって
示したように２ビットの幅を有する。装置P₁〜P₈はまた
そのデコーダD₁〜D₈と、図中“/3"によって３ビット幅
であることを示したチップアドレスラインC₁〜C₈によっ
て接続されている。

デコーダD₁〜D₈は各々、例えばD₂ライン44のような一
ビット出力ラインを７本ずつ有し、これらのラインはメ
モリM₁、入出力ポートI/O₁及びレジスタR₁₁等のデバイ
スにそれぞれ接続されている。D₅のライン46など、幾本
かのデコーダラインは余分である。これらのラインは、
×印によって示したように未接続のまま放置される。×
印は、メモリM₀及びM₈の下方においてバスが未接続であ
ることも示す。

第５図に、プロセッサ40の動作モードを従来装置10の
動作モードと比較して示す。この図では、装置10の内部
セル12の概念的位置を50などの長方形で示す。図示しや
すくするために、この図の拡大率は垂直方向で小さくし
てある。処理装置P₁〜P₈はそれぞれ別の15個の内部セル
12の計算タスクを実行する。従って各長方形50の中に、
関連する処理装置を示す数字が記してある。即ち、中に
数字ｉ（ｉ＝１、２、……、７または８）が記してある
長方形50（及びこの長方形50が表わしている内部セル1
2）には処理装置P_iが関連する。また、各長方形の外側
の左上方にはインデックスV1が、右下方にはインデック
スV2が記してあり、これらのインデックスはいずれの長
方形でもV1＝１〜15及びV2＝V1＋15である。V1及びV2は
第一及び第二の時間間隔にそれぞれ対応し、これらの時
間間隔のいずれにおいてもプロセッサ40は、当該位置に
関連する内部セルの機能を実行する。第５図には、メモ
リM₀〜M₈を表わす斜線も示してある。個々の共通メモリ
に関連する異なる領域同士を点線52が連結している。レ
ジスタセクションの位置が、同じ参照符号42₁〜42₄を付
した多節線で示してある。

動作時、各処理装置P_iは、従来技術では各15個の内部
セル12によって行なわれる処理タスクを逐次実行する。
従って、従来のシストリックアレイ10の動作の１サイク
ルは本発明のプロセッサ40のサイクルを15個必要とす
る。後者のサイクルを“サブサイクル”と呼称する。即
ち、サブサイクル１〜15はサイクル１に、サブサイクル
16〜30はサイクル２に、というように対応する。第５図
中の数字V1及びV2はサブサイクルの番号である。サブサ
イクル１〜15において、即ち数字V1が１〜15の時処理装
置P₁は、第５図において対応する長方形50の中に数字１
で示したように、アレイ10の最下方の二つの斜め並びの
下方部分に位置する内部セルの処理機能を実行する。サ
ブサイクル１において装置P₁は、左上方の数字V1を１と
して示してあるように、セルアレイの最下方の斜め並び
の中央に位置する内部セル12の機能に対応する計算を開
始する。サブサイクル２では、V1＝２によって示したよ
うに、装置P₁は最終（最右）列の最下方の内部セル12に
対応する第１サイクル計算を実行する。サブサイクル３
で実行される計算は、最後から２番目（最下方から２番
目）の行において最終列に含まれる内部セル12の計算で
ある。このような手順が連続するサブサイクルにおいて
繰り返され、処理機能の行なわれる概念的な場所は行位
置または列位置において交互に１箇所ずつ減少する。サ
ブサイクル15終了後、即ちサイクル１終了後に実行され
る計算は、V2＝16によって示したように、再び最下方の
斜め並びの中央に位置する内部セルの計算であり、その
後手順が繰り返されてサイクル２が実行される。

同様の処理手順が処理装置P₂〜P₈によっても実行され
る。装置P₂、P₃及びP₄はそれぞれ、１対の部分小並びに
対応する計算を実行する。装置P₅、P₆及びP₇にそれぞれ
等価であるのは、それぞれ小並び二つを伴った二つの完
全な斜め並びである。装置P₈に関しては、右上方のただ
一つの位置と、P₁に関連する下部部分を有する斜め並び
の上方部分とが存在する。

装置P₁〜P₈は各々、M₀〜M₈のうちのいずれか関連する
メモリ、及びレジスタセクション42₁〜42₄に対して読み
出し及び書き込みを行なう。第５図ではメモリ及びレジ
スタは、これらのメモリ及びレジスタとインタフェース
される概念的内部セル位置の近傍に示してある。例え
ば、処理装置P₁は各サイクルを通じてメモリM₀及びM₁と
交信するが、サブサイクル１では（即ち１サイクル当た
り１サブサイクルでは）レジスタセクション42₁とも交
信する。装置P₂は、サブサイクル１ではレジスタセクシ
ョン42₁と交信し、サブサイクル３ではレジスタセクシ
ョン42₁と42₂との両方と交信する。

本発明のプロセッサ40の動作モードを、表１及び第６
図〜第８図を参照して以下に詳述する。第６図〜第８図
及び表１において、先に言及した部分には同じ参照符号
及び記号が付してある。第２図に示した内部セル12は各
々、３種の量ｃ、ｓ及びx_inの入力を受け取り、計算を
実行して出力ｃ、ｓ及びx_outを発生する。このことを第
６図では、三つの読み出し動作RE1〜RE3と三つの書き込
み動作WR1〜WR3として表わしなおす。第７図に示したｎ
番目の処理装置P_n（ｎ＝１、２、……、７または８）
は、メモリM_n-1とM_nとの間に接続されている。装置P_nは
局部（即ち内部）メモリに記憶されたプログラムに応答
する処理論理を含み、前記メモリはデータアドレス参照
用テーブルも記憶し、かつ係数記憶装置を含む。データ
アドレス参照用テーブルは15個のアドレスセットのリス
トであり、即ち１サブサイクル当たり１セットとなる。
係数記憶装置は、ｒのような更新可能な係数15個分の空
間、及び出力遅延を必要とする値の一時記憶のための空
間を有する。第８図に、第５図の右手下方の領域を拡大
して示す。この図でメモリM₀〜M₃は、整数が付されてい
る個々のアドレス位置に分割して示されている。図示し
たアドレス場所の総てが用いられるわけではない。第５
図と同様に、第８図において（箱の中に関連の数字を記
して示した）処理装置P₁〜P₃はサブサイクルの番号を示
す数字を左上方に有する。表１に掲げたメモリM₀〜M₃内
のアドレスは、サブサイクル６及び７における処理装置
P₁〜P₃の読み出し及び書き込み動作のためのものであ
る。第８図及び表１に示したアドレスは図示の都合上０
〜22としてあるが、実際の典型的メモリのアドレス空間
は256（８ビット）以上である。

既に述べたように、処理は第１サイクルの第１サブサ
イクルであるサブサイクル１において始まる。しかし、
各サイクルの第１サブサイクルが実際のところ特殊なケ
ースであることは明らかである。従って、まずサブサイ
クル２以降での読み出し書き込み動作を典型的動作とし
て説明し、サブサイクル１での動作については後段で検
討する。

処理装置P₁は次のように動作する。第４図、第７図及
び第８図を再度参照すると、局部メモリに記憶されたプ
ログラムは各サブサイクルのために連続する三つの読み
出し命令を有し、これらの命令は局部メモリの参照用テ
ーブルに記憶された、当該動作サブサイクルに対応する
アドレスセットの三つのデータアドレスから読み出され
るべきデータをそれぞれ要求する。参照用テーブルはチ
ップアドレスラインC₁に関する値も記憶し、ラインC₁は
アドレスバスA₁の３ビット拡張部に相当する。表１で
は、メモリM_nのアドレスＺを“M_nZ"と表記してある。サ
ブサイクル２において、処理装置P₁の読み出し動作RE
1、RE2及びRE3はアドレスM₁0、M₀8及びM_o7の読み出しと
してそれぞれ行なわれる。装置P₁はＺ＝０に対応するア
ドレスをアドレスバスA₁上に置き、またチップアドレス
ラインC₁上には、M₁がデコーダD₁によってイネーブルと
され、M₀、R₁₁及びI/O₁はディスエーブルとされるよう
な３ビットコードを置く。更に装置P₁は、２ビット“読
み出し”コードを読み出し書き込みライン対R/W₁上に置
いて読み出し動作を表明する。その結果、メモリM₁はそ
のアドレス０の内容をデータバスB₁上に置き、このバス
B₁上で前記内容は処理装置P₁によってRE1として読み取
られ、かつ一時的に記憶される。次に、装置P₁はC₁への
コード出力を、デコーダD₁がM₀をイネーブルとするのに
必要なものへと変更し、またバスA₁上に置くアドレスを
まずＺ＝８へ、その後Ｚ＝７へと変更する。それによっ
て、M₀のアドレス８及び７からの読み出し動作RE2及びR
E3が連続的に実現する。サブサイクル２において三つ
の読み出し動作を連続的に行なった装置P₁は、第２図に
示した内部セル計算を実行して、関連する第二の内部セ
ルのためにx_outと（更新した）ｒとを発生する。装置P₁
はその内部に記憶した15個の係数ｒ（初期値０）のうち
の２番目の値を（更新した）ｒによって置き換え、それ
によって、新たに計算したx_out変更をしない二つの入力
値（RE2及びRE3として入力されたｃ及びｓ）と共に出力
する用意が整う。サブサイクル２において装置P₁は、第
１図の最下方に位置する内部セル12の機能を実行し、従
ってｃ、ｓ及びx_out信号は内部セルサブアレイの外部に
宛てて送られる。この状況はプロセッサ40では、入出力
ポートへの書き込み動作として実現する。従って、処理
装置P₁はポートI/O₁への書き込みを３回連続して行な
う。装置P₁はその参照用テーブルから次の三つのチップ
アドレスコードを得る。これらのコードは実際上I/O₁へ
のアクセスのために必要なコードと同じであり、バスA₁
上にアドレスを置くことはI/O₁のためには不要である。
これら三つのコードは第１のアドレスセットの後半部を
構成する。装置P₁は参照用テーブルから得たチップアド
レスコードをチップアドレスラインC₁上に置く。その結
果、デコーダD₁が能動化されてポートI/O₁をイネーブル
とし、その後装置P₁は２ビット“書き込み”コードをラ
イン対R/W₁上に置き、かつ値x_out、ｃ及びｓをWR1、WR2
及びWR3それぞれとして連続的にデータバスB₁上に置
く。それによって、上記値はポートI/O₁とインタフェー
スされた次の信号処理回路網（図示せず）へと送られ
る。

サブサイクル２はWR3が出力されたら終了し、処理装
置P₁は続けて、サブサイクル３で実行されるべき機能を
実行する。サブサイクル３の機能はM₁5、M₀10及びM₀9か
らの読み出しとM₁0（WR1）及びI/O₁（WR2及びWR3）への
書き込みとを要求し、前記アドレスは装置P₁の第三のア
ドレスセットを構成する。WR1機能は、前のサブサイク
ルにおいて読み出されたM₁0の内容を重ね書きする。装
置P₁はまた、該装置に関連する第三の内部セル位置（Ｖ
＝３）に適した、更新されたＲマトリクス要素ｒを計算
し、かつ内部に記憶する。その後のサブサイクルでは、
第８図に示したように、読み出し及び書き込み動作はメ
モリM₀及びM₁のアドレスに対して行なわれる。表１に
は、サブサイクル６及び７において処理装置P₁〜P₃が読
み出し及び書き込みを行なうメモリM₀〜M₃のアドレス及
びポートI/O₃が示してある。

処理装置P₁はメモリM₀/M₁から読み出し、かつこれら
のメモリ、及び／またはサブサイクル２〜15以外ではポ
ートI/O₁に書き込む。しかし、サブサイクル１では第５
図に示したように、装置P₁は直上のレジスタセクション
42₁とインタフェースされる。第６図に示したように、R
E1は上方から読み出される。従ってRE1は、デコーダD₁
からのイネーブル信号に応答してレジスタセクション42
₁のレジスタR₁₁から読み出される。レジスタR₁₁は、後
のサイクルにおいて８番目の処理装置P₈から入力を受け
取る。

サブサイクル１は、処理装置P₁の動作の特殊ケースで
ある。サブサイクル16、31等、即ち各サイクルの、“15
（ｎ−１）＋1"（ｎ＝１、２、３、……）という番号を
有する第１サブサイクルも同情である。これらのサブサ
イクルも、他の処理装置P₂〜P₈にとって特殊なケースで
ある。その理由は以下のとおりである。シミュレートさ
れるシストリックアレイ10において、データ及び結果は
下方及び右方へと流れる。この流れは１クロックサイク
ル当たり１セルの速度で行に沿い、かつ列を下って進
む。自身の左方または上方に隣接セルを有する内部セル
は前記隣接セルから、該セルが１サイクル前に用い、ま
たは計算したデータを受け取る。しかし、プロセッサ40
では第５図に示したように、処理装置（P₁等）が連続す
るサブサイクルにおいて概念上、シストリックアレイで
のデータフローの方向と逆に上方及び左方へと処理を進
める。その結果、処理装置P₁等への隣接位置からの入力
は１サイクル前でなく、１サブサイクル前に発生され
る。この差は個々のサイクルの殆どにとって取るに足り
ない。しかし、サブサイクル１（及び後の等価サブサイ
クル）では右隣の位置はサブサイクル15に対応する。即
ち、これら二つのサブサイクルは同じ第１サイクルの始
まりと終わりである。この特殊ケースでは、右方の位置
（V1＝15、V2＝30）は左方の位置（V1＝１、V2＝16）よ
り14サブサイクル後に処理され、このことは当該サイク
ルの他の13サブサイクルのいずれにおいて処理される位
置もその左方の位置より１サブサイクル前に処理される
のと異なっている。従って、反対側に配列が存在しない
ため、第１サイクルのサブサイクル１における処理装置
P₁からの右方出力（WR2及びWR3として出力される値ｃ及
びｓ）は第１サイクルのサブサイクル15において入力と
して用いられる。同様に、サブサイクル１における処理
装置P₁からメモリM₀への垂直方向出力（x_out＝WR1）の
発生は早過ぎる。このことは、一つのサイクルで処理セ
ルによって発生された結果が次のサイクルで前記セルの
右方または下方の隣接セルによって用いられることとい
うシストリックアレイの処理上の必要条件と両立しな
い。同様のことが他の処理装置P₂〜P₈の総てについて指
摘できる。

このタイミング問題に対処するために、各サイクルの
第１サブサイクル、即ちサブサイクル“15（ｎ−１）＋
1"（ｎ＝１、２、３、……）では処理装置P₁〜P₈はその
電流値x_out、ｃ及びｓを内部に記憶する。装置P₁〜P₈は
各々WR1、WR2及びWR3として、前のサイクル（存在する
場合）で記憶した値x_out、ｃ及びｓをそれぞれ出力す
る。その結果、各サイクルの第１サブサイクル（のみ）
において、処理装置P₁〜P₈からの出力は１サイクル遅延
される。このことは、各処理装置の内部係数記憶装置が
三つの付加的な記憶場所を有することを意味する。

サブサイクル15が終了したら装置P₁の動作の第１サイ
クルは完了であり、サブサイクル16が第２サイクル（V2
＝16〜30）を開始する。第５図に示したように、処理装
置P₁は最下方の斜め並びの中央に位置する内部セル12の
計算実行に戻る。サイクル２（サブサイクル16〜30）に
おいて、装置P₁はサイクル１の間にメモリM₀及びM₁並び
にレジスタR₁₁に記憶されたデータ（存在する場合）を
読み込む。装置P₁は三つのデータ値を、１サイクル遅延
を実現するべく一時的に記憶する。装置P₁はまた、従来
の内部セルにそれぞれ対応する、更新処理した15個の値
ｒも記憶する。

上記のような点は、他の処理装置P₂〜P₈、及び３番目
以降のサイクルにも当て嵌まる。通常、処理装置P_nは１
サイクルの殆どの間、その関連メモリM_n-1及びM_n（ｎ＝
１〜８）に対して読み出し及び書き込みを行なう。例外
は次のような場合である。装置P₅〜P₈は、第１図に示し
た従来のアレイ10の最上行の内部セル12に対応する計算
を実行する場合はポートI/O₅〜I/O₈からのRE1（x_in）を
それぞれ実行する。このような状況に至るのは、装置
P₅、P₆及びP₇は各サイクルの四つのサブサイクル（例え
ば装置P₅のサイクル１のサブサイクル６〜９）において
であるが、装置P₈は三つのサブサイクルにおいてだけで
ある。上記“最上"RE1動作は、データマトリクスＸ（第
３図参照）の１要素のアレイ10への入力に等価である。
８個の処理装置P₁〜P₈はいずれも各サイクルにおいて、
最右列の個々の位置の内部セルに対応する処理機能を実
行する。装置P₁〜P₇は１サイクル当たり２サブサイクル
だけこのような状況に有るが、装置P₈は１サイクル当た
り１サブサイクルだけこのような状況に有る。上記状況
下で、装置P₁〜P₈はI/O₁〜I/O₈へのWR2及びWR3をそれぞ
れ行ない、P₁はまたこの状況に至る２サブサイクルの一
方において、先に述べたようにI/O₁へのWR1も行なう。
この最右方出力機能は、第１図に示した従来の内部セル
サブアレイからの出力に対応する。最後に、処理装置P_i
（ｉ＝１〜８）は装置P_10-i及び／またはP_9-iに対する
読み出しや書き込みを、介在するレジスタ群42を介して
行なう。R₁₂やR₁₃などの個々のレジスタは先に述べたよ
うに、先入れ先だし方式（FIFO）に基づいて構成された
一または二語一時記憶デバイスである。レジスタR₁₁〜R
₄₁は、２個の処理装置によるメモリアドレスの同時指定
が回避されるように、共通のメモリを持たないか、また
は付加的な記憶装置を必要としない処理装置同士の交信
を実現する。例えば、第５図に示したように、処理装置
P₃はサブサイクル３及び５それぞれにおいて装置P₇から
の二つの読み出し動作RE2及びRE3を、レジスタセクショ
ン42₂のレジスタR₂₃及びR₂₄を介して行なう。サブサイ
クル３では、装置P₃はレジスタR₂₃及びR₂₄に記憶された
第一の語の読み出し、サブサイクル５では前記レジスタ
に記憶された次の語を読み出す。装置P₃はR₃₁の内容もR
E1として読み出し、これをサブサイクル５においてWR1
としてR₂₂に書き込む。他の読み出し書き込み動作はメ
モリM₂及びM₃に対して行なわれる。同様のことが、レジ
スタ群42を介して互いにインタフェースされた他の処理
装置対にも当て嵌まる。

処理装置P₁〜P₈は、外部クロック（図示せず）の制御
下に同期的に動作する。このことは従来のシストリック
アレイと同であり、ここでは説明しない。第５図、第６
図及び第８図に示し、かつこれらを参照して説明したよ
うに、処理装置P₁〜P₈の読み出し書き込み動作の同調化
（phasing）は、メモリM₀〜M₈が各々常にただ１個のア
ドレス入力にのみ応答することを要求されることが確実
となるように実現されている。例えば第８図で、サブサ
イクル５において装置P₁及びP₂はメモリM₀/M₁及びM₁/M₂
に対する読み出し書き込みをそれぞれ行なうが、その結
果M₁へのアクセスにおいて競合が起きかねない。しか
し、装置P₁はM₁からの読み出し（RE1）から始め、一方
装置P₂はM₂から読み出す。従って、P₁のRE2及びRE3動作
は共にM₀から行なわれ、その時点で装置P₂はM₁をアドレ
ス指定するように切り替わっている。読み出し動作のこ
のような同調によって、メモリアドレス指定競合が回避
される。同様のことが書き込み動作にも、また処理装置
P₃〜P₈及びメモリM₃〜M₈にも当て嵌まる。読み出し動作
は任意サブサイクルの初めに行なわれ、書き込み動作は
終わりに行なわれる。従って、同一サブサイクルにおい
て読み出しと書き込みとを１個のメモリ（例えばM₁）に
対して、アドレスバス（例えばA₂）上のアドレス同士の
競合を伴わずに行なうことは可能である。しかし、通
常、ただ１個のメモリに対して二つの動作が同時に行な
われることは回避されなければならない。当然ながら、
上記のような競合をアドレスバス及びメモリの重複設置
によって解消することもできる。

既に言及済みの構成要素には同じ参照符号もしくは記
号を付した第９図に入出力ポートI/O₁〜I/O₈が各々有す
る構造を比較的詳細に示す。参照符号の下付き指標（例
えばI/O₁の“1"）は、関連性を有する総ての部分が示さ
れるように省略してある。ポートI/Oは四語並列入力直
列出力方式の入力レジスタ60を、一語並列入力並列出力
方式の出力レジスタ62と共に含む。入力レジスタ60は64
などの４本のデータ入力バスと、共通の書き込みライン
68と接続された66などの４個の書き込み制御入力とを有
する。出力レジスタ62は出力バス70と、関連する読み出
し出力ライン72とを有する。第４図の読み出し書き込み
ライン対R/Wは、入力レジスタ60に接続された読み出し
ライン74と、出力レジスタ62に接続された書き込みライ
ン76とを含む双方向データバスＢはレジスタ60とも62と
も接続されている。接続要素64〜72は第４図では、バス
41によってまとめて示してある。

ポートI/Oは次のように動作する。プロセッサ40の各
動作サイクルの第１サブサイクルの直前に、入力レジス
タ60の書き込みライン68にパルスが付与され、４個のレ
ジスタ入力64に各一つのデジタルデータ語が同時に付与
される。その結果既存のレジスタ内容が重ね書きされ、
四つの語はレジスタ60に、連続的に放出されるようにし
てロードされる。読み出しライン74にパルスが付与され
る度に最右方の入力64に関連する語がデータバスＢ上に
置かれ、その他の語は右方へシフトされる。それによっ
て、ロードされた四つの語は連続する四つの読み出しラ
インパルスに応答して一つずつデータバスＢ上へと出力
される。再び第５図を参照すると、処理装置P₆がサブサ
イクル19、20、25及び26（即ちV2＝19、20、25及び26）
において最上行計算を実行する際にI/O₆からのデータ読
み出しを必要とすることが分かる。上記サブサイクルそ
れぞれにおいて装置P₆は、ライン対R/W₆に個々の読み出
しパルスを送出し、先に言及したデータマトリクスＸの
正しいマトリクス要素x_ijから成る個々のデジタル語が
該装置の入力レジスタ60によってデータバスB₆上に置か
れることを必要とする。装置P₆は最上行の５番目、６番
目、11番目及び12番目のセル位置に関して処理を行な
う。従って、装置P₆のレジスタ60にはｘ_n,6、
ｘ_ｎ−1,7、ｘ_ｎ−6,12及びｘ_ｎ−7,13といったマトリ
クス要素が同時に入力される。ここでｎは正の整数であ
り、ｎ−ｋがゼロ以下であることはｘ_ｎ−k,qがあらゆ
るｑに関してゼロに等しいことであると解釈される。既
に述べたように、入力は各サイクルの最後（15番目）の
サブサイクルの終わりに行なわれる。このことは、異な
る時点に最上行計算を実行する異なる処理装置によって
次のサイクルの間に読み込まれるべきデータが存在する
ことを確実にする。処理装置P₆は、連続する二つのサブ
サイクルと、その後に四つのサブサイクルを挟んで続く
更に別の二つのサブサイクルとにおいてデータ語を逆の
順序で（即ちｘ_ｎ−7,13から）読み込む。

同様のことが処理装置P₅、P₇及びP₈への入力にも当て
嵌まる。装置P₅は連続する四つのサブサイクルにおいて
ポートI/O₅からの入力を必要とし、一方装置P₈にとって
ポートI/O₈からの連続入力は三つで足りる。装置P₇は四
つのサブサイクルにおいてポートI/O₇からの入力を必要
とし、その際先の二つのサブサイクルと後の二つのサブ
サイクルとは八つのサブサイクルによって隔てられる。

実際、処理装置P₅〜P₈の入力レジスタ60は並列に構成
されており、並列にロードされる。これらのレジスタは
データを１サイクルに１回同時に受け取る。このような
データ受け取りは、処理装置P₈が第５図に示した最上方
かつ最右方の位置（V1＝１、V2＝16）の計算機能を実行
する直前に行なわれる。それによって、最上行入力を総
て同時に受け取る従来のシストリックアレイ10がシミュ
レートされる。レジスタ60の内容は各連続入力によって
重ね書きされる。後段に詳述するように、有意データ
（即ちx₁₂）がまずサブサイクル30において装置P₈によ
り処理され、このデータはサブサイクル16より前に60に
入力されたものである。その後、データはサブサイクル
30の終わりに重ね書きされるまでレジスタ60内に留ま
る。

第９図に示したようなポートI/Oを介してのプロセッ
サ40からの出力は、比較的単純である。ライン76上の書
き込みパルスはデータバスＢの内容を出力レジスタ62
に、タイミングを取って入力する。読み出し出力ライン
72は外部回路網（図示せず）からパルスを付与されて、
レジスタの内容を出力バス70上へと読み出す。76に付与
される次の書き込みパルスによって、レジスタの内容は
重ね書きされる。外部回路網（図示せず）は１サイクル
当たり５回まで出力レジスタ62から読み出すように構成
されており、この“5"という数は１個のポートI/Oから
得られる出力値の１サイクル当たりの最大個数である。
本発明のこの例において、処理装置P₁〜P₄は出力レジス
タ62のような出力装置しか必要としない。しかし、全装
置P₁〜P₈を、同様の入出力ポートを有するものとして扱
えば便利である。

再び第１図〜第５図を参照して、従来技術による装置
10の動作を本発明のプロセッサ40の動作と比較すること
が有益である。装置10は通常下方及び右方へと流れる信
号フローを用い、セル12〜18は各々クロックによって能
動化され、各クロックサイクル毎に互いに同調して動作
する。このような方式は本発明のプロセッサ40では、サ
イクルからサイクルへ少なくとも概念的に維持される。
第５図に示した各処理装置、即ち例えばP₁は、上方及び
左方の等価物からデータを受け取り、下方及び右方の等
価物へと出力する。サブサイクル１（V1＝１）における
処理装置P₁の場合、該装置P₁は“上方”のレジスタセク
ション42₁及び“左方”のメモリM₀からデータを受け取
る。その後、装置P₁は（内部で遅延させた）出力をメモ
リM₀を介して、“下方”及び“右方”へと発生し、右方
への出力は次のサイクル（サブサイクル16＝V2）で用い
られる。しかし、１サイクル内で処理装置P₁〜P₈はそれ
ぞれ自身に割り当てられた概念的内部セル位置を、従来
装置でのデータフローに比較して逆の順序で取り扱う。
即ち、処理されるべき第一の位置は、右上から左下へ伸
長する斜線上に有る位置（V1＝１）である。位置は上方
及び左方へと連続的に処理される。例えば処理装置P
₁は、行番号と列番号とが連続するサブサイクル間で一
貫して交互に減少する内部セル位置に対応する計算を実
行する。装置P₅〜P₈の場合は、最上行サブサイクルの後
に不連続のシフトが起こる。サブサイクル１において、
装置P₃〜P₈の計算は、三角アレイの右手上方の角から斜
辺に向かって伸長する斜線上の内部セル位置に対応す
る。サブサイクル15において装置P_iは、第５図の（９−
ｉ）番目の行及び（８＋ｉ）番目の列（ｉ＝１〜７）に
含まれる内部セル位置を処理する。（第１図との比較の
ためには列番号を、最上方の境界セル14を含む余分な列
を勘案して１だけ大きくするべきである。）サブサイク
ル１において、ｉ＝１〜８の場合の等価物は（７＋ｉ）
番目の列であり、その際行番号は（９−ｉ）で不変であ
る。

第５図に示したように内部セル位置の処理順序を概念
的に逆にするのは、メモリまたはレジスタに記憶された
中間計算値が必要とされる前に重ね書きされないことを
保証するためである。例えば、再び第８図を参照する
と、サブサイクル３において処理装置P₁は、一つ前のサ
ブサイクルで読み出したアドレスM₁0の内容を重ね書き
する。アドレスM₁0に書き込まれた新しい値は、15サブ
サイクル後の次のサイクルで読み出して重ね書きされる
までそこに留まる。この手順が逆にされると、アドレス
M₁0の内容は１サイクルの間に読みだされる前に重ね書
きされる。これに関連して強調されるのは、処理装置P₁
〜P₈はいずれも一つ前のサイクルで発生された、介在す
る計算に影響されないことを必要とする入力を用いる点
である。記憶されたデータの望ましくない重ね書きを先
に述べたような順序の逆転によらずに回避するために
は、第４図に示したもの以外にも記憶装置（二重バッフ
ァ）並びにアドレス及びデータバスを設置することが必
要となる。

位置処理順序の概念的逆転及び処理装置P₁〜P₈の動作
の相互同調は、第７図に示したような各処理装置がそれ
ぞれ有するアドレスデータのリストによって実現され
る。いずれのリストのアドレスも連続的にアクセスさ
れ、処理装置は自身のリフトが終了したら再び最初から
アクセスしだす。第５図に示した相互同調は処理装置P₁
〜P₈に、それぞれのアドレスリストに適したスタートポ
イントを割り当てることによって実現される。

第４図〜第９図に関して先に行なった分析では、プロ
セッサの起動の問題には触れなかった。プロセッサ40は
V1＝１もしくはサブサイクル１以降データの処理を続け
るものと暗に仮定しておいた。従来技術では、第１図〜
第３図に示したように、x₁₁が最上方の境界セル14に入
力されてからy₁がサイクル16において右上角の内部セル
12に入力されるまで15サイクル要する。特にy₁から得ら
れる累積的処理の結果が最下方の内部セル12に達するま
でには更に15サイクル必要である。従って、従来のシス
トリックアレイ10のための起動段階は、その伝搬方向と
直交する方向に伸長する波頭として左上から右下へと傾
斜する。本発明のプロセッサ40でも等価の起動段階が生
起する。有意入力データに関して計算を実行する最初の
処理装置は、サブサイクル30において第５図の左上角の
位置を処理するP₈である。サブサイクル30は第２サイク
ルの最後のサブサイクルであり、第２サイクルの間に処
理装置P₈にx₁₂が入力される。サブサイクル30において
装置P₈は、x_n2（ｎ＝１、２、……）といった連続する
マトリクス要素を受け取る、第１図に示したサブアレイ
の最上行の１番目の（最左方の）内部セル12の処理タス
クを実行する。第３サイクル（図示せず）のサブサイク
ル44及び45において、装置P₈はx₁₃及びx₂₂をそれぞれ読
み込んで、第１図の最上行の１番目及び２番目の内部セ
ル12の機能を実行する。このような起動段階は第５図の
行に沿って、かつ列を下って進行する、最後に、サイク
ル30の第２サブサイクルであるサブサイクル437におい
て、処理装置P₁がx₁₁〜ｘ_1,15及びy₁由来する入力を受
け取る。装置P₁は、第１図のプロセッサ10の最下方の内
部セル12から最初に発生される有意味出力に対応する結
果を計算する。それによって、起動段階は完了する。起
動段階は、シストリックアレイ及びデジタルエレクトロ
ニクスの分野では良く理解されており、これ以上説明し
ない。プロセッサ40から発生される、実入力に対応しな
い出力を取り消し、または防止するべく工夫することが
望ましい場合も有る。

プロセッサ40は、データマトリクスＸに関する計算を
実行するためには、境界セル14及び遅延ラッチ16の連な
りの等価物を必要とする。処理装置P₁及びP₈によって出
力され、かつそれぞれ１サイクル後に用いるべくメモリ
M₀及びM₈一時的に記憶された値からパラメータｃ及びｓ
を計算しなければならない。第８図を参照して、サブサ
イクル６における上記計算を一例として説明する。サブ
サイクル６において、装置P₁はM₀17へのWR1を実行す
る。即ち、メモリM₀のアドレス17は、内部セル12の境界
セル14宛の垂直方向出力の等価物を受け取る。従ってメ
モリM₀は、M₀17にアクセスし、第２図に示したように回
転パラメータｃ及びｓを計算し、得られたｃ及びｓを次
のサイクルでの使用のためにM₀14及びM₀13にそれぞれ書
き込むデバイスとインタフェースされなければならな
い。このインタフェースは一つ置きのサブサイクルにお
いて、即ち装置P₁が第５図でメモリM₀に隣接して示され
た位置を処理する度に実現されるべきである。同様に、
メモリM₈は、回転パラメータを計算して戻すべく一つ置
きのサブサイクルにおいてメモリM₈にアクセスするよう
に構成された第二の同様デバイスとインタフェースされ
なければならない。上記第二の同様デバイスには、第１
図及び第３図に示したように最初の動作サイクルにおい
てマトリクス要素x₁₁を受け取ることが要求される。ま
た、このデバイスは後続行の１番目のマトリクス要素x
_n1（ｎ＝２、３、……）も受け取らなければならない。
このデバイスは第１図の最上方の境界セル14として機能
して、第２サイクルの最後のサブサイクル（V2＝30）に
おいて処理装置P₈によりRE2及びRE3として読み出される
べき回転パラメータｃ及びｓを発生する。これらのデバ
イスを実際に用いることは容易である。これらのデバイ
スは、第４図に中途で切断して示したデータ及びアドレ
スバスを介してメモリM₀及びM₈とそれぞれインタフェー
スされた、装置P₁〜P₈に類似の処理デバイスである。

本発明のプロセッサ40のP₁等の処理装置は内部メモリ
を具備しており、このメモリにはプログラムにくわえて
アドレス参照用テーブルと、三つの遅延値及び15個の係
数とが記憶されている。容量のより小さい内部メモリを
具備したより単純な処理デバイスを用いることも可能で
ある。その場合はM₀等のメモリがアドレスリスト並びに
上記値及び係数を記憶し、かつ個々の処理デバイスのア
ドレスリストに関して計数するカウンタと関係付けられ
得る。しかし、このようなメモリ使用は実用上かなり不
便であり、処理速度の低下を招きかねない。なぜなら、
トランスピュータのような市販の個別処理デバイスはP₁
等の処理装置の目的に十分な内部メモリを含むからであ
り、そのような機能を利用しないのは非効率的である。
しかし、プロセッサ40は、個々の処理装置、レジスタ及
びメモリがヒ化ケイ素またはヒ化ガリウムの一区域とな
る集積回路チップもしくはウェハとして構成することも
可能である。この場合には、局所メモリと遠隔メモリと
の最も好ましいバランスを選択し得る。

プロセッサ40は、８個の処理装置P₁〜P₈が120個の内
部セル12の機能を実行するように設計されている。通
常、（斜辺以外の）外縁が１本当たりｎ個の内部セルか
ら成る三角サブアレイはｎ（ｎ＋１）/2個のセルを有す
る。この個数は、n/2と（ｎ＋１）、またはｎと（ｎ＋
１）/2とに因数分解できる。ｎは正の整数であるから、
ｎ及び（ｎ＋１）の一方は偶数でなければならない。従
って、ｎ（ｎ＋１）/2は常に、一方の数が処理装置の個
数、他方の数が各処理装置に割り当てられる内部セルの
個数とされる二つの整数に因数分解可能である。しか
し、プロセッサ40に偶数（８）個の処理装置が用いられ
るのと対照的に、奇数個の処理装置が必要となる場合も
あり得る。

第10図に本発明のプロセッサの、奇数（７）個の処理
装置を含む変形例を、その全体に参照符号140を付して
示す。この第10図で、第４図に示したものと等価の構成
要素には同様の記号、即ちアステリスクを付けた文字
Ｐ、Ｍ、ＤまたはＲが付してある。下付き指標は１〜８
から１〜７に変更してある。プロセッサ140は先に説明
したプロセッサにきわめて類似し、その詳細な説明は行
なわない。それでも、プロセッサ140と先の例とはプロ
セッサ140に処理装置P₄の直接の等価物が存在しないと
いう点でしか実質的に相違しないということがこの図か
ら分かる。プロセッサ140には従って、M₄、D₄及びR₄₁の
直接の等価物も存在しない。実際、装置P₄＊〜P₇＊は装
置P₅〜P₈にそれぞれ等価である。

第11図に、処理装置P₁＊の動作の相互同調を、前と同
じV1及びV2の値を用いて示す。第５図に類似のこの図に
は、プロセッサ140が13×13三角サブアレイ、即ちｎ
（ｎ＋１）/2が13×７即ち91であるサブアレイの機能を
実行することが示してある。図示のように、７個の処理
装置P₁＊〜P₇＊はそれぞれ13個の内部セルに対応する。
従って、１サイクル当たり13のサブサイクルが存在す
る。その他の点ではプロセッサ140の動作は先の例と同
様なので、詳述はしない。

第４図及び第11図に示した正規構造同士を比較すれ
ば、集積回路チップのカスケード接続によって本発明を
モジュール状に構成し得ることが分かる。各チップは、
２個（またはそれ以上）のP₂及びP₈のような処理装置を
それらに関連するレジスタR₁₁〜R₁₄、メモリM₂及びM₈等
と共に含み得る。部分的に用いられるチップ上の、必要
を上回る処理装置はバイパスされる。プロセッサ40及び
140は、存在するP₁等の処理装置より１個余分なメモリM
₀及びM₀＊をそれぞれ用いる。これに相当するものとし
ては、大部分がバイパスされる集積回路ではなく特別の
外部メモリを用いることができる。あるいは他の場合に
は、M₀を省略してバスA₁/B₁をM₈に接続することも可能
である。それによって、装置P₁とP₈とは（先に述べた）
回転パラメータ計算手段と共に、共通のメモリM₈をアド
レスする。同様のことがM₀＊/M₈＊にも当て嵌まる。こ
のような変形は扱いにくい例をもたらす。なぜならメモ
リM₈やM₈＊に重大なアクセス要求が課せられるからであ
る。

ここまでの検討は、ｎ（ｎ＋１）/2個の処理装置から
成るｎ×ｎ三角アレイの機能の実行にn/2個または（ｎ
＋１）/2個の処理装置を用いるものとして行なってき
た。これはしばしば最適の実施例であり得る。なぜなら
必要な処理装置の個数が著しく低減されると共に比較的
高度の並列性が実現されるからである。上記のような構
成は、全計算を実行する単一のコンピュータより少なく
ともn/2個高速であるはずであり、その際用いる処理装
置の個数は第１図に示した、１ノード当たり１装置を用
いる完全に並列のアレイに必要な個数の1/（ｎ＋１）で
ある。しかし、本発明は、ｎ×ｎ三角アレイをシミュレ
ートするn/2個または（ｎ＋１）/2個の処理装置に限定
されない。第12図に、16×16三角アレイをシミュレート
する４個の処理装置に関する適当な動作同調を示す。

本発明のプロセッサは、非三角形のシストリックアレ
イ、及び異なる計算機能を有する処理セルを含むアレイ
をシミュレートするように構成することもできる。個々
のセルは、例えば連続するサブサイクルにおいて二つの
計算機能間で切り替わり得るなどの機能を複数有し得
る。しかし、ほとんどの用途では、上記のような構成は
望ましくないほどに複雑となる。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジヨーンズ，ロビンイギリス国、ウスターシヤー・ダブリユ・アール・14・１・ブイ・ワイ、マルバーン・リンク、サンドパイパー・クレセント・25 (72)発明者ブルームヘツド，デイビツド・シドニーイギリス国、ウスターシヤー・ダブリユ・アール・14・４・エイチ・ダブリユ、マルバーン・ウエルズ、アサーツ・ロード・３ (56)参考文献特開昭62−264357（ＪＰ，Ａ) 米国特許4943909（ＵＳ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 15/80 G06F 15/16 ＷＰＩ

Claims

(57)【特許請求の範囲】

【請求項１】並列処理アレイの動作をシミュレートする
デジタルデータプロセッサであって、該プロセッサ（4
0）はデータ記憶手段（M₀〜M₈、R₁₁等）と接続されたデ
ジタル処理装置（P₁〜P₈）のアセンブリを含み、（ａ）各処理装置（P₁〜P₈）がそれぞれの、記憶手段
データアドレス（例えばM₁12）のセットのリストを実行
するようにプログラムされており、（ｂ）各アドレスセット（例えばM₁12、M₀20、M₀19、
M₀17、M₀16、M₀15、）が異なる入力データアドレス（例
えばM₁12）及び出力データアドレス（例えばM₀17）を含
み、このようなアドレスセットがシミュレートされる個
々のアレイセル（12）のデータ入出力機能にそれぞれ対
応し、（ｃ）アドレスセットのリストのそれぞれがシミュレ
ートされるアレイのセル（12）の個々のサブアレイに対
応し、且つリストのそれぞれが、先行のアドレスセット
（例えばサブサイクル６のM₁12、M₀20、M₀19、M₀17、M₀
16、M₀15）が後続のアドレスセット（例えばサブサイク
ル７のM₁17、M₀22、M₀21、M₁12、M₁14、M₁13）の出力デ
ータアドレス（M₁12）となるような入力データアドレス
（M₁12）を有する複数対の連続するアドレスセットを含
み、シミュレートされるセル（12）の機能が、シミュレ
ートされるアレイ内のデータフロー（22、24）に対応す
る順序とは逆の順序で実行されるように、各リストが構
成され、（ｄ）各処理装置（P₁〜P₈）がそれぞれのリストの最
初のアドレスセット（例えばM₁12、M₀20、M₀19、M₀17、
M₀16、M₀15）をデータ記憶手段（M₀〜M₈、R₁₁等）から
の入力データの読み出しと前記手段への、計算機能に従
って発生される出力データの書き込みとに用い、後続ア
ドレスセット（例えばM₁17、M₀22、M₀21、M₁12、M₁14、
M₁13）をリストが完了するまで同様に用い、その後この
ような手順を周期的に繰り返すようにプログラムされて
いることを特徴とするデジタルデータプロセッサ。
【請求項２】各処理装置（P₁〜P₈）が４個以下の他の処
理装置（P₁〜P₈）と交信するように構成されており、各
処理装置対（P₁/P₈、P₁/P₂）の処理装置同士の間にはレ
ジスタデバイス（例えばR₁₁）及びメモリ（例えばM₁）
を含む記憶手段が接続されており、アドレスセットリス
トは各レジスタデバイス（例えばR₁₁）及びメモリ（例
えばM₁）が一度に１個の処理装置（例えばP₁）によって
しかアドレスされないようなリストであることを特徴と
する請求項１に記載のプロセッサ。
【請求項３】幾つかの処理装置（P₂〜P₇）が、各レジス
タデバイス（例えばR₂₁〜R₂₄）を介して２個の他の処理
装置（P₁〜P₈）と交信し、かつ各メモリ（例えばM₂）を
介して別の２個の他の処理装置（P₁〜P₈）と交信するよ
うに構成されており、アドレスセットリストは、レジス
タデバイス（例えばR₂₁〜R₂₄）がメモリ（例えばM₂）ほ
ど頻繁にアドレスされないように構成されていることを
特徴とする請求項２に記載のプロセッサ。
【請求項４】幾つかの処理装置（P₅〜P₈）が入力データ
要素の並列直列変換を行なうように構成された入力手段
（I/O）を含むことを特徴とする請求項１、２または３
に記載のプロセッサ。
【請求項５】各処理装置（P₁〜P₈）が当該装置のリスト
の各アドレスセット（例えばM₁12、M₀20、M₀19、M₀17、
M₀16、M₀15）にそれぞれ関連する係数を記憶及び更新す
るように構成されていることを特徴とする請求項１から
４のいずれか１項に記載のプロセッサ。