JPH04295953A - 要素プロセッサの2次元アレイを内蔵する並列データ処理装置および要素プロセッサのサブアレイユニット - Google Patents

要素プロセッサの2次元アレイを内蔵する並列データ処理装置および要素プロセッサのサブアレイユニット

Info

Publication number
JPH04295953A
JPH04295953A JP3082968A JP8296891A JPH04295953A JP H04295953 A JPH04295953 A JP H04295953A JP 3082968 A JP3082968 A JP 3082968A JP 8296891 A JP8296891 A JP 8296891A JP H04295953 A JPH04295953 A JP H04295953A
Authority
JP
Japan
Prior art keywords
transfer
data
row
processor
bit width
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3082968A
Other languages
English (en)
Inventor
Toshio Kondo
利夫 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP3082968A priority Critical patent/JPH04295953A/ja
Publication of JPH04295953A publication Critical patent/JPH04295953A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、小型で経済的な並列デ
ータ処理装置に関し、特にアレイデータを高速かつ経済
的に処理する必要のある画像処理,パターン認識処理等
に有用な要素プロセッサの2次元アレイを内蔵する並列
データ処理装置および要素プロセッサのサブアレイユニ
ットに関するものである。
【0002】
【従来の技術】最近、LSI技術の著しい進歩により、
要素プロセッサ(以下、PE)のアレイからなるプロセ
ッサアレイ型の並列データ処理装置が比較的容易に実現
されるようになってきている。この種の並列データ処理
装置、特にプロセッサアレイが2次元以上のアレイ構造
を有する並列データ処理装置では、実装上の問題(主と
して端子数がネック)からPE関の接続線数を極力少な
く抑える必要がある。このため、プロセッサアレイのP
E間は、一般に1ビット幅の転送路で結ぶことが多い。 この場合、外部とのデータ入出力は、転送効率を上げる
ために、従来は図11に示すように、プロセッサアレイ
の周辺の一辺との間で行うようにしている。しかし、こ
の構成では、しばしば現れる1次元のアレイデータの入
出力を外部との間で直接効率良く行うことができない。 各ワ−ドの1ビット目をプロセッサアレイの1列目との
間で入出力するワ−ド単位の入出力方法を用いても、入
力したワ−ドデータが行方向に分散して格納される(こ
の形式をパラレル形式という)ことになり、行内の所定
のPEに集約する変換処理が余分に必要になるからであ
る。勿論、この変換処理は外部で行うこともできるが、
これでは変換のオーバーヘッドが外部に移動するだけで
本質的に入出力の効率を上げることにはならない。
【0003】また、1ビット幅の転送系の転送性能が処
理上のネックになる場合があった。例えば、図11に示
すように、行方向の転送路が左右端の段違い接続により
、2次元のプロセッサアレイ構成ながら1次元のプロセ
ッサアレイとしての動作(1次元の動作モード)が可能
な並列データ処理装置では、1次元の動作モードにおい
て、行方向に各PEの保持データをPE間で頻繁に転送
することがあり、この場合には行方向の転送性能がネッ
クとなり充分な性能が得られない。転送性能が低いのは
、転送路のビット幅が1ビットと狭いばかりか、従来、
データを隣接PEへ転送する場合には図12の従来のP
Eのブロック構成に示されるPE内の専用の転送レジス
タ11a,12を経由して行うため、多くの場合、デー
タを一旦転送用レジスタに転送する必要が生じ、その分
、転送効率が低下することにもよる。
【0004】一方、1次元の動作モードで2次元データ
を処理する場合には、しばしば高速な90度回転が要求
される。この90度回転は、直並列変換器(文献:特願
昭57−121753号)をプロセッサアレイに組み込
んだり、シフタやアドレス修飾器を付加した特殊な構成
のメモリ(文献:David C.Van VOORH
IS and Thomas H.MORRIN,“M
emory Systems for Image P
rocessing”,IEEE Trans.Com
put.,Vol.C−27,pp.113−125)
をプロセッサアレイに組み合わせることで高速に行うこ
とができる。
【0005】
【発明が解決しようとする課題】しかしながら、データ
を効率良く高速で転送処理する場合、上記したいずれの
方法を用いてもハードウェアの規模が増大し、装置を小
型化・経済化できないという欠点があった。本発明の目
的は、これらの問題や欠点を解決する行列状のPEの2
次元アレイを内蔵した並列データ処理装置を提供するこ
とにある。
【0006】
【課題を解決するための手段】上述の目的を達成するた
め、第1の発明は、列方向には1ビット幅の隣接PE間
転送路を,行方向には行の左端と右端との間で段違いに
接続するWビット幅の隣接転送路を設けるようにしたも
のである。また、第2の発明は、第1の発明に加え、行
方向の転送性能をさらに向上させるために、複数の演算
用レジスタのいずれか1つを行方向のPE間転送用レジ
スタとして利用可能としたものである。また、第3の発
明は、第1発明に加え、各PEが列毎にバスを共有する
ようにしたものである。また、第4の発明は、第1発明
のプロセッサアレイの構成ユニットであるサブプロセッ
サアレイユニットが、列方向の転送系の入出力端子と行
方向の1次元の接続構成を有するデータ転送系の入出力
端子とを兼用するように構成したものである。
【0007】
【作用】列方向に1ビット幅の転送路が、また、行方向
にWビット幅の転送路が設けられた結果、行,列双方の
転送能力を均等にする従来の転送構成とは異なり、段違
い接続により1次元の接続構成を採る行方向の転送能力
のみビット幅を広げることで、1次元の動作モードで重
要な行方向の転送能力の向上を図るとともに、1次元の
アレイデータを直接プロセッサアレイ外との間で受け渡
しできる。また、行方向の転送系と列方向の転送系との
間でデータの受け渡しができ、専用のハードウェアの付
加無しで高速な90度回転が可能となる。また、複数の
演算用レジスタのいずれか1つを行方向のPE間転送用
レジスタとして利用できるので、演算用レジスタ内のデ
ータを隣接プロセッサに転送する場合(すなわち、プロ
セッサアレイ全体で、演算用レジスタ内のデータを1P
E分シフトする場合。以下、このような各PE内のレジ
スタに格納されているデータに対する転送をシフト転送
という)、従来は、一旦PE間転送用レジスタにデータ
を移動する必要があったのに対し、演算用レジスタ内の
データが直接隣接PEの演算用レジスタに転送可能とな
る。また、各PEが列毎にバスを共有するようにした結
果、このバスと行方向の1次元の接続構成を有するデー
タ転送系を結び、部分的な直並列変換器を構成すること
が可能となり、これによってローカルメモリ内の2次元
データをより高速に回転することが可能となる。また、
サブプロセッサアレイユニットにおいて列方向の転送系
の入出力端子と行方向の入出力端子とが兼用された結果
、それぞれの入出力端子を分離していた従来のサブプロ
セッサアレイユニットに比べ入出力端子数が削減できる
【0008】
【実施例】以下、本発明について図面を参照して説明す
る。図1は、本発明の第1〜第3の実施例を示すブロッ
ク図である。これは、プロセッサアレイ部全体を単一の
命令で制御するSIMD型の並列データ処理に本発明を
適用した場合の構成例であり、1は装置全体の制御を行
う制御部、2はスカラ演算を行うスカラ演算部、3は並
列演算を行うプロセッサアレイ部である。また、太線で
示す5はデータバス、太破線で示す6,7はそれぞれス
カラ演算部2用の制御信号とプロセッサアレイ部3用の
制御信号である。そして、これらの制御信号にはメモリ
のアドレス信号も含まれている。
【0009】第1〜第3の実施例の違いは、プロセッサ
アレイ部3の構成のみにあるので、以下プロセッサアレ
イについてのみ説明する。第1実施例のプロセッサアレ
イ部の構成を図2に示す。同図において、10はPE、
8,9はデータバス5との間の双方向バッファである。 PE間の太実線はその間を結ぶ行方向のW(Wは2より
大きい正の整数)ビット幅の転送路、細実線は列方向の
1ビット幅の転送路である。なお、双方向バッファ8,
9は、データバスのビット幅WDとプロセッサアレイの
辺のビット幅Nあるいは行方向の転送幅Wとの間でビッ
ト幅の違いに対して整合をとる働きもする。図3はPE
の内部構成を示した図であり、11はWビット幅転送レ
ジスタ、12は1ビット幅転送レジスタ、13はWビッ
ト幅ALU、14はレジスタファイル、15〜17はセ
レクタ、18は1ビットWビット変換器、19はWビッ
ト1ビット変換器、20〜23はスリーステートバッフ
ァである。また、この図で太実線と細実線は図2と同様
それぞれWビットと1ビットの転送路を示している。な
お、これらの図では制御信号を省略している。
【0010】以下、本実施例におけるプロセッサアレイ
部3内のPE間のシフト転送、プロセッサアレイ部3と
データバス5との間のデータの入出力について説明する
。PE間のシフト転送は、セレクタ15,16を転送方
向に応じて、隣接PEからの入力のいずれかを選択させ
、スリーステートバッファ20〜23を転送方向に合わ
せてアクティブにし、かつ転送レジスタ11,12をイ
ネーブルにすることで行う。例えば、列方向の上から下
へ向かうPE間のシフト転送は、セレクタ16を上側の
隣接PEからに入力を選択するように設定し、スリース
テートバッファ22をハイインピーダンスにしておくと
、プロセッサアレイの上辺からの出力は、そのまま下辺
へ入力されるので、各列の転送データは順にループする
形でシフト転送される。逆に、双方向バッファ8を生か
し、データバス5との接続を生かせば、データバス5と
の間でデータの入出力を行うことができる。但し、デー
タバス5からプロセッサアレイにデータを入出力する場
合には、上辺,下辺のPEは転送方向によらずスリース
テートバッファをハイインピーダンスにしておく必要が
ある。これは双方向バッファ8とのコンフリクトを避け
るためである。
【0011】下から上に向かうシフト転送もセレクタ1
6を下側の隣接PEからの入力を選択するように切り換
えるとともに、スリーステートバッファ22,23のア
クティブ、ハイインピーダンスを入れ換えることで全く
同様に行うことができる。また、行方向のシフト転送も
セレクタ15,Wビット幅転送レジスタ11,スリース
テートバッファ20,21を転送方向に合わせて適切に
制御すること同様に行うことができる。但しこの場合に
は、ビット幅がWと大きい分だけ高速な転送が可能とな
る。また、左端,右端間の接続が段違いになっているの
でアレイ全体では1次元のループをなす形でデータがシ
フト転送される。従って、この接続構成を利用する1次
元の動作モードにおけるPE間のシフト転送性能は1ビ
ットの場合のW倍に向上する。また、データバス5との
入出力もこの1次元の接続に沿って行えるようになるの
で、データバス5との間で1次元のアレイデータを変換
処理無しでスムーズに受け渡しすることが可能になる。
【0012】また、転送系とデータバス5との接続構成
から明らかなように、データバス5を介することで行方
向のWビット幅転送系と列方向の1ビット幅転送系の間
でデータの受け渡しが可能になる。これによって、1次
元の動作モードで扱う2次元データの高速な90度回転
が可能となる。図4は、その90度回転の動作を行う行
方向の転送系のビット幅Wと行を構成するPE数Nが等
しく、かつ被回転ビットプレーンデータのサイズがkN
×kNの場合について説明した図である。1次元モード
での動作を前提としているので、プロセッサアレイを1
次元に展開して示している。列方向の1ビット幅の隣接
PE間転送路(細破線)は、1行分をまとめた太破線で
引き回している。また、データバス5との間の双方向バ
ッファは記述を省略している。動作は、はじめにローカ
ルメモリアレイ30a内の被回転ビットプレーンデータ
を先頭からW(図4で被回転ビットプレーンデータの斜
線部)だけWビット幅の行方向転送レジスタに読み出す
。次にこれを行方向の転送系を用いて右方向に1PE分
づつ繰り返しシフト転送する。これによって、データバ
ス5に順次読み出されるデータを今度は列方向の転送系
に入力する。上辺に位置するPEは、入力されたデータ
を自身のローカルメモリ(レジスタファイルでも可)に
順に格納する。回転ビットプレーンデータの斜線部は、
この結果を示している。行方向の転送系に保持されてい
る奥行Wの幅の2次元データをすべて上辺のPEのロー
カルメモリ(レジスタファイルでも可)へ転送したら、
今度はそのローカルメモリのデータを列方向の転送系を
用いて1行下の行のPEのローカルメモリにシフト転送
する。2行目以降のPEも自身のローカルメモリの格納
データを下のPEに同様にシフト転送する。以上の処理
を元の2次元データのW行目以降についても同様に繰り
返し行うことによって全体の90度回転が実現される。 なお、この例では、列方向と行方向の転送系の間のデー
タの受け渡しをデータバス5を介して行っているが、デ
ータバス5を介さずに直接双方向バッファで接続するこ
とでも実現できる。
【0013】回転時間Tは、(1) ローカルメモリか
らPEに1クロックに1ビット分のデータを読み出せる
。 (2) 行方向の転送では1クロックでWビット単位の
データを隣接PEのWビット幅転送レジスタに転送でき
る。 (3) 行方向シフト転送と同時にPEアレイの右端か
ら出力されるWビット幅のデータを列方向の転送系を介
して最上行のPEのローカルメモリに書き込める。(4
) ローカルメモリの保持データに対するシフト転送が
ローカルメモリから転送レジスタへの読みだし,転送レ
ジスタの保持データのPE間シフト,転送レジスタ内保
持データのローカルメモリへの格納の3ステップ(3ク
ロック)で実行できる。以上のこれらの4条件が成り立
つとすると、90度回転の所要時間(クロック数)Tは
、  T=(W+kN+3kN)×kN/W・・・・・
・・・・・・・(1)となる。ここで、()内の第1項
はWビット幅の転送レジスタへの読みだし時間、第2項
のkNはこの読み出したデータを右方向にシフトしなが
らローカルメモリに書き込むのに要する時間、第3項は
ローカルメモリのデータを列方向にシフトするのに要す
る時間である。なお、kN/Wはこの回転処理の繰り返
し回数である。そして、(1) 式は、kN=Aとする
と、N=Wより、  T=A(1+4A/W)・・・・
・・・・・・・・・・・・・・(2)となる。被回転デ
ータから回転データへ1画素づつマッピングすることで
回転をかける逐次的な方法のCA2 (C>1)の回転
時間に比べ、Aが大きい場合はCが4/Wまで低減され
る。
【0014】次に、第2の実施例は、PEを除くと第1
の実施例と基本的に同一の構成となっている。そこで、
ここでは構成の異なるPEのみを図5に示す。図3に示
すPEとの違いは、セレクタ15の出力をセレクタ17
へ入力していることと、Wビット幅転送レジスタ11と
スリーステートバッファ20との間にセレクタ24を組
み込み、このセレクタ24のもう一方の入力にレジスタ
ファイル14の出力をつないでいることである。この構
成によって行方向についてはレジスタファイル14の任
意の番地に格納されているデータを直接、隣接PEのレ
ジスタファイルにシフト転送することが可能になる。例
えばレジスタファイルのA番地の格納データは、以下の
ようにして直接、隣接PEのレジスタファイルのA番地
にシフト転送される。即ち、(1) レジスタファイル
のA番地を読み出す。(2) (1) で読み出したデ
ータをセレクタ24およびスリーステートバッファ20
あるいは21(転送方向によって決まる)を経由して隣
接PEに出力する。(3) 隣接PEから送られるA番
地のデータをセレクタ15,17を介してALUに入力
する。(4) ALUの機能を左側から入力データがそ
のまま通過できるように選び、ALUの出力をレジスタ
ファイルのA番地へ書き込む。以上の動作では途中にレ
ジスタを一切経由しない。従って、途中の伝搬遅延だけ
で直接的にレジスタファイルのA番地のデータが隣接P
Eにシフト転送されることになる。この隣接PE間での
レジスタファイルからレジスタファイルへの直接のデー
タ転送によれば、PE内部での転送レジスタとレジスタ
ファイル間の転送が不要となるので、その分、転送効率
が向上する。
【0015】次に、第3の実施例のプロセッサアレイ部
の構成を図6に示す。図3のプロセッサアレイ部との違
いは、各PEがローカルメモリ(LM)を持つこと、列
毎に双方向バッファ32を介してPEとつながるバス3
1を有すること、バス31が双方向バッファ33を介し
てデータバス5に接続されること等である。さらに、P
Eの内部構成についても、ローカルメモリ30あるいは
バス31と接続するために図7に示すような構成となる
。図3のPEとの構成の違いは、ローカルメモリ30、
バス31用の入出力端子を持っていることである。 ここで、ローカルメモリ,バスからの入力は、セレクタ
17を経由して内部に取り込めるようにしている。また
、ローカルメモリ,バスに対する出力はALUからの出
力を出すようにしている。
【0016】本実施例の特徴は、バス31を設けている
点にあるが、このバス31はプロセッサアレイ部内の行
単位のPE間転送の他に、以下の2つの処理を可能にす
る点で有用である。その1つは、双方向バッファ33を
介してデータバス5につながっていることから、各PE
あるいはそのローカルメモリが、双方向バッファ32を
行単位にアクティブにすることでデータバス5との間で
データを受け渡しできることである。もう1つは、行方
向のデータ転送系とバス31をデータバス5を介して接
続することで、1次元の動作モードで扱うビットプレー
ンデータの90度回転を高速に実行できることである。 この90度回転の手順を行方向転送系のビット幅Wと行
を構成するPE数Nが等しく、かつ被回転ビットプレー
ンデータのサイズがKN×kNの場合について、図8を
用いて説明する。ここで、プロセッサアレイは、列方向
の転送系を省略して1次元に展開している。また、各P
Eは回転にかかわるWビット幅の転送レジスタのみを図
示している。細破線で囲ったN個のPEは、2次元のプ
ロセッサアレイの1行分を示している。各PEに接続さ
れるローカルメモリ30のアレイは、全体をまとめてk
Nビット幅のメモリ(ローカルメモリアレイ)30aと
して図示している。また、バス31は、Nビット分を束
ねて図示している。ローカルメモリアレイ30aの上側
は、被回転2次元ビットプレーンデータを、下側は回転
後の2次元ビットプレーンデータの格納先を示している
【0017】90度回転は以下の手順で行う。はじめに
、被回転2次元ビットプレーンデータの上からW行目ま
で(斜線部)をPE内のWビット幅転送レジスタ11に
読み出す。次に、これを行方向の転送系を用いて右方法
にシフト転送する。プロセッサアレイの右端から出力さ
れるデータは、データバス5,バス31を経由してロー
カルメモリアレイ30aに転送される。この時、バス3
1からローカルメモリアレイへのパスをアクティブにし
、図で右端に位置する行ブロックのPEに接続されるロ
ーカルメモリのみを書き込みイネーブルにすると、回転
後のビットプレーンの格納先の斜線部分に順に書き込ま
れてゆく。以上の回転処理を被回転ビットプレーンデー
タのW行目以降に対しても、書き込みイネーブルとする
ローカルメモリを右から左へずらしながら行うことで、
全体の90度回転が実現される。
【0018】以上の構成,動作から明らかなように、本
実施例は、Wビット幅転送レジスタのアレイとデータバ
ス5,バス31により、部分的な直並列変換器を構成し
ているといえる。回転時間Tは、ローカルメモリからP
Eに1クロックで1ビット読みだし、行方向の転送では
1クロックでWビット単位のデータを隣接PEのWビッ
ト幅転送レジスタに転送でき、かつ、これと同時にPE
アレイの右端から出力されるWビット幅のデータをロー
カルメモリへ書き込めるとすると、90度回転の所要時
間は、   T=(W+kN)×KN/W・・・・・・・・・・
・・・・・・(3)となる。ここで()内の第1項はW
ビット幅の転送レジスタへの読みだし時間、第2項のk
Nはこの読み出したデータを右方向へシフトしながらロ
ーカルメモリへ書き込むのに要する時間である。なお、
kN/Wはこの回転処理の繰り返し回転数である。(3
) 式は、kN=Aとすると、N=Wより、   T=A(1+A/W)・・・・・・・・・・・・・
・・・・・・(4)となる。この(4) 式より、A/
W>>1の条件で本発明の第1の回転方式に比べ4倍高
速になることがわかる。 フルサイズの直並列変換器の回転時間(T=2A)に比
べても、(1+A/W)/2倍と若干大きくなるだけで
ある。このように、本発明によれば、転送系を流用する
ことで部分的な直並列変換器が構成され、ハードウェア
規模を殆ど増加させることなく、高速の90度回転が可
能となる。
【0019】次に、第4の実施例は、これまでの発明の
プロセッサアレイブロックを構成するためのサブアレイ
ユニットである。M(Wより小さい)行のPEアレイを
内蔵する場合の実施例を図9に示す。ここで、40はサ
ブアレイユニット、41,42は選択機能を有する入出
力回路である。このサブアレイユニット40は、列方向
のPE間転送用の入出力端子と行方向のPE間の入出力
端子を兼用することを特徴としている。入出力回路41
,42は、列方向の転送を行う際には列方向側の経路を
選択し、行方向側の転送を行う際には行方向側の経路を
選択するように制御する。従って、この実施例では、列
方向と行方向の転送を同時に行うことはできないが、入
出力端子数は兼用する分だけ少なくなる。従って、本発
明により、LSIやボードの端子数の増加はなく、行方
向の転送性能および90度回転性能の向上が可能となる
。なお、ここでは行方向の転送系のビット幅とプロセッ
サアレイの行サイズが一致する場合を示しているが、一
致しない場合には一部が列あるいは行方向の専用の入出
力端子となる。図10にこのサブアレイユニットを組み
合わせてプロセッサアレイブロックを構成した例を示す
。入出力端子を兼用しているため、サブアレイユニット
間の転送路および双方向バッファ8aも列・行両方向を
兼ねる構成となり、ハードウェア規模の削減に大きく寄
与する。
【0020】
【発明の効果】以上説明したように、本発明は、行列状
の2次元の接続構成のプロセッサアレイを行方向の1次
元のプロセッサアレイとして動作させる場合、わずかな
ハードウェアの追加により、プロセッサアレイ部を構成
するLSIやボードの端子数を増加させることなく、P
E間のシフト転送および2次元データの90度回転等の
性能を大きく向上できる。従って、これらの処理の占め
る割合が大きい画像処理やパターン認識処理等を行う装
置に本発明を適用すれば、小型経済化と高速化が可能と
なり、この種の装置において極めて顕著な効果を奏する
【図面の簡単な説明】
【図1】本発明の一実施例を示す基本ブロック構成図で
ある。
【図2】本発明の第1実施例のプロセッサアレイ部の構
成図である。
【図3】本発明の第1実施例の要素プロセッサ(PE)
の構成図である。
【図4】本発明の第1実施例のプロセッサアレイ部によ
る90度回転を説明する説明図である。
【図5】本発明の第2実施例の要素プロセッサの構成図
である。
【図6】本発明の第3実施例のプロセッサアレイ部の構
成図である。
【図7】本発明の第3実施例の要素プロセッサの構成図
である。
【図8】本発明の第3実施例のプロセッサアレイ部によ
る90度回転を説明する説明図である。
【図9】本発明の第4実施例のサブアレイユニットの構
成図である。
【図10】本発明の第4実施例のサブアレイユニットを
用いたプロセッサアレイ部の構成図である。
【図11】従来のSIMD型並列データ処理装置の2次
元プロセッサアレイの構成図である。
【図12】従来のSIMD型並列データ処理装置の要素
プロセッサの構成図である。
【符号の説明】
1    制御部 2    スカラ演算部 3    プロセッサアレイ部 5    データバス 6,7  制御信号 8,8a,9,32,33  双方向バッファ10  
  要素プロセッサ(PE) 11,11a,12  転送レジスタ 13,13a  ALU 14,14a  レジスタファイル 15,15a,16,17,17a,24  セレクタ
18    1ビットWビット変換器 19    Wビット1ビット変換器 20,20a,21,21a,22,23,25  ス
リーステートバッファ 30    ローカルメモリ 30a  ローカルメモリアレイ 31    列単位バス 40    サブアレイユニット

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】  要素プロセッサの行列状の2次元アレ
    イを内蔵する並列データ処理装置において、要素プロセ
    ッサの行列状の2次元アレイが列方向の隣接要素プロセ
    ッサ間で1ビット幅のデータ転送路を,行方向の隣接要
    素プロセッサ間でW(Wは2より大きい正の整数)ビッ
    ト幅のデータ転送路をそれぞれ有し,このWビット幅の
    データ転送路は各行の左端および右端の要素プロセッサ
    間で1行づつ段違いになるように接続されており,かつ
    列方向の要素プロセッサとその隣接間の転送路で構成さ
    れる1ビット幅の列方向転送系と,行方向の要素プロセ
    ッサとその隣接間の転送路で構成されるWビット幅の行
    方向転送系との間でデータを受け渡しする手段を有する
    ことを特徴とする要素プロセッサの2次元アレイを内蔵
    する並列データ処理装置。
  2. 【請求項2】  請求項1記載の要素プロセッサの2次
    元アレイを内蔵する並列データ処理装置において、各要
    素プロセッサがWビット幅の転送データの経由するレジ
    スタとして,自身のALUに対するオペランド供給源で
    ある複数のレジスタのいずれかを利用可能な構造を有す
    ることを特徴とする要素プロセッサの2次元アレイを内
    蔵する並列データ処理装置。
  3. 【請求項3】  請求項1記載の要素プロセッサの2次
    元アレイを内蔵する並列データ処理装置において、各要
    素プロセッサが個別にローカルメモリを持ち,かつ各列
    毎の要素プロセッサ間で共有するバスを有することを特
    徴とする要素プロセッサの2次元アレイを内蔵する並列
    データ処理装置。
  4. 【請求項4】  請求項1記載の要素プロセッサの2次
    元アレイを内蔵する並列データ処理装置において、この
    並列データ処理装置の構成単位である要素プロセッサの
    サブアレイユニットにおける各列の端の要素プロセッサ
    の1ビット幅のデータをユニット外との間で入出力する
    ための入出力端子,およびサブアレイユニットの行の端
    の要素プロセッサのWビット幅のデータをユニット外と
    の間で入出力するための入出力端子を共有するようにし
    たことを特徴とする要素プロセッサのサブアレイユニッ
    ト。
JP3082968A 1991-03-25 1991-03-25 要素プロセッサの2次元アレイを内蔵する並列データ処理装置および要素プロセッサのサブアレイユニット Pending JPH04295953A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3082968A JPH04295953A (ja) 1991-03-25 1991-03-25 要素プロセッサの2次元アレイを内蔵する並列データ処理装置および要素プロセッサのサブアレイユニット

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3082968A JPH04295953A (ja) 1991-03-25 1991-03-25 要素プロセッサの2次元アレイを内蔵する並列データ処理装置および要素プロセッサのサブアレイユニット

Publications (1)

Publication Number Publication Date
JPH04295953A true JPH04295953A (ja) 1992-10-20

Family

ID=13789025

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3082968A Pending JPH04295953A (ja) 1991-03-25 1991-03-25 要素プロセッサの2次元アレイを内蔵する並列データ処理装置および要素プロセッサのサブアレイユニット

Country Status (1)

Country Link
JP (1) JPH04295953A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007200090A (ja) * 2006-01-27 2007-08-09 Renesas Technology Corp 半導体演算処理装置
JP2007206849A (ja) * 2006-01-31 2007-08-16 Renesas Technology Corp 並列演算処理装置
WO2010120376A2 (en) * 2009-04-16 2010-10-21 Vns Portfolio Llc Method and apparatus for dynamic partial reconfiguration on an array of processors
US9317474B2 (en) 2012-08-07 2016-04-19 Renesas Electronics Corporation Semiconductor device
JP2020529070A (ja) * 2017-07-24 2020-10-01 テスラ,インコーポレイテッド ベクトル計算ユニット
US11157287B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system with variable latency memory access
US11403069B2 (en) 2017-07-24 2022-08-02 Tesla, Inc. Accelerated mathematical engine
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11681649B2 (en) 2017-07-24 2023-06-20 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007200090A (ja) * 2006-01-27 2007-08-09 Renesas Technology Corp 半導体演算処理装置
JP2007206849A (ja) * 2006-01-31 2007-08-16 Renesas Technology Corp 並列演算処理装置
WO2010120376A2 (en) * 2009-04-16 2010-10-21 Vns Portfolio Llc Method and apparatus for dynamic partial reconfiguration on an array of processors
WO2010120376A3 (en) * 2009-04-16 2011-03-24 Vns Portfolio Llc Method and apparatus for dynamic partial reconfiguration on an array of processors
US9317474B2 (en) 2012-08-07 2016-04-19 Renesas Electronics Corporation Semiconductor device
US11157287B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system with variable latency memory access
JP2020529070A (ja) * 2017-07-24 2020-10-01 テスラ,インコーポレイテッド ベクトル計算ユニット
US11403069B2 (en) 2017-07-24 2022-08-02 Tesla, Inc. Accelerated mathematical engine
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11681649B2 (en) 2017-07-24 2023-06-20 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11698773B2 (en) 2017-07-24 2023-07-11 Tesla, Inc. Accelerated mathematical engine
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11797304B2 (en) 2018-02-01 2023-10-24 Tesla, Inc. Instruction set architecture for a vector computational unit

Similar Documents

Publication Publication Date Title
US4215401A (en) Cellular digital array processor
US5421019A (en) Parallel data processor
US5129092A (en) Linear chain of parallel processors and method of using same
US5557734A (en) Cache burst architecture for parallel processing, such as for image processing
EP0293701B1 (en) Parallel neighborhood processing system and method
EP0539595A1 (en) Data processor and data processing method
US20070118721A1 (en) Apparatus for controlling access in a data processor
US20090055624A1 (en) Control of processing elements in parallel processors
JPH0425586B2 (ja)
US7185174B2 (en) Switch complex selectively coupling input and output of a node in two-dimensional array to four ports and using four switches coupling among ports
JPH04295953A (ja) 要素プロセッサの2次元アレイを内蔵する並列データ処理装置および要素プロセッサのサブアレイユニット
JP3971535B2 (ja) Simd型プロセッサ
US6912626B1 (en) Method and apparatus for connecting a massively parallel processor array to a memory array in a bit serial manner
US8856493B2 (en) System of rotating data in a plurality of processing elements
JP2855899B2 (ja) 機能メモリ
US5928350A (en) Wide memory architecture vector processor using nxP bits wide memory bus for transferring P n-bit vector operands in one cycle
JPH08297652A (ja) アレイプロセッサ
JPH08212169A (ja) アレイプロセッサ
JP4244619B2 (ja) 画像データ処理装置
JP3039043B2 (ja) 並列プロセッサ
JPH06139211A (ja) 並列データ処理装置
JP2011103025A (ja) データ入出力装置およびそれを用いたデータ処理装置
JPH0738167B2 (ja) データ転送方法
JPH0467280A (ja) 並列データ処理装置
JPH02184985A (ja) 並列データ処理装置