JPH03500461A

JPH03500461A - データ駆動式計算用のデータ流れ装置

Info

Publication number: JPH03500461A
Application number: JP1508090A
Authority: JP
Inventors: デビッドソン，ジョージ　シドニイ; グラフ，ビクター　ジェラルド
Original assignee: アメリカ合衆国
Priority date: 1988-07-22
Filing date: 1989-07-18
Publication date: 1991-01-31
Also published as: US5657465A; US5465368A; WO1990001192A1; US5675757A

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】この発明は、一般的に、データ駆動式処理装置及び方法に関するものであり、特に、プロセッサのノード構成−その構造及びプログラミングの方法−に関するものである。

この発明に関する権利は、アメリカ合衆国エネルギー省とアメリカ電信電話株式会社（ＡＴ＆Ｔ　Ｔｅｃｈｎｏｌｏｇｉｅｓ　Ｉｎｃ）とで成された契約ＮＩＩＬ　ＤＥ−＾Ｃ０４−ＤＰＯＯ７８９に従って、政府が所有する。

２、従来技術の説明コンピュータの構成は、フォン・ノイマンの構成から離れて現在の大量の科学的コードを処理するのに必要な性能を達成するよう迫られている。これらの新しい構成には、装置を有効に使用するために、コードを写像（ｓ＋ａｐ）するための多くの作業が必要となる。通常、この問題は並列プロセッサ間ではっきりと区切らなければならず、これは困難で且つ時間のかかる仕事である。ところが、データ駆動式プロセッサの場合は、その問題を解くのにどの動作を行わなければならないかをプログラマ−が指定するだけで良い。

実行の順序及び実行に関与している並列処理要素の数は、それ以上の命令なしでハードウェアが決定する。

しかしながら、並列処理の用途すべてにおいて、科学的コードは１つのアレイを用いて計算する構造を備えなけれ、ｆ４らない。このようなっ−ドは、同様な計算を多数のデータ項目に関して行う必要性により付けられる。最大の並列は、アレイを処理するプログラムループを完全に展開することにより、どの装置においても得ることができる。ところがこれにはループ内での反復毎にコードの別々のコピーを必要とするという欠点があり、数千ものバスの実行を伴うようなループを取扱う際にはかなりの不利がでる。そし故、ループコードのコピーは僅かで良く、これらによって異なるデータ処理を行うようにすることがより有利となる。

アレイのモデル、またはシステム構成を評価するにあたり普通に行なわれる手法は、アレイを流れとしてながめることである。そうすれば、ループ処理はバイブラインの各段階で流れの一つの要素を備えたパイプラインとして構成される。そしてパイプラインの各段階は、次のデータ項目に対しての準備が整っていることを示すために、「次の（ＮＥＸＴ）　Ｊを意味する信号を前の段階に送る。。

例えば、アレイプロセッサは、以下の複数の、従属した段階問題を解くことができる。

ＣＩ　−ＡＩ　＋Ｂｉ　（１）Ｅｌ　−Ｃ１＊Ｄ１　（２）一連のプロセッサが方程式（１）を解くとともに各プロセッサが答えＣ１を、通常、そのＣｉに対する要求（即ち、「次の」信号）に応じて、第２の一連のプロセッサの中の対応するプロセッサに出力する。同時に、対応するプロセッサが次のＤを要求し、ＣＩに対応するＤＩを使用して方程式（２）を解き、次いでＥｌの値が出力に順序正しく現れる。Ａ１．Ｂ１及びＤＩの値の入力値がパイプラインに順序正しく送られる。更に多くの並行処理を行う数少ない方法の１つとしてはパイプラインの幾つかのコピーを備えることによるものがあるが、これにはより多くの並行処理ができるのと引替えにより多くのメモリを必要とする。この方法は、しかしながら、あらゆる場合に使用することはできない。例えばこの方法は、各出力データ値がすべての入力データ値の°関数であるときには失敗する。

方程式系（ｓｙｓｔｅｗ　ｏｆ　ｅｑｕａｔｉｏｎ）を解く場合がこれに当る。

アレイを流れとして実施すると、アレイ要素を（流れに現れる順に）連続的に順次評価しなければならない。このためこのアレイモデルを使用する装置が多数のアレイ動作において利用可能である固有の空間的同時発生を利用することができなくなる。対照的に、ベクトル装置は、この空間的同時発生を活用し、この特徴だけからその性能利益の大部分を実現するように特に最適化される。

データ流れコンピュータが、空間的同時発生を利用するために、従来型のベクトルまたはアレイプロセッサを備えることはＢａｇｃｈ　ｉの「静的データ流れコンピュータにおけるアレイＪ　１９８６　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ＩＥＥＥ　Ｒｅｇｉｏｎ　５　Ｃｏｎｆｅｒｅｎｃｅに提案されている。これにはこのような同時発生の利用が可能であることの含意があるが、計算のデータ流れモデルの「純粋さ」を犠牲にしてしまうものでもある。このような方法で計算モデルを改悪することは、混合モデルのために装置をプログラミングする仕事がはなはだしく複雑になり、問題内のいたる所で精密なグレイン並行処理（ｇｒａｉｎｐａｒａｌ　ｔｅｌ　ｉｓｗ）を利用するデータ流れ装置の能力を低下させることにもなる。アレイプロセッサを何時使用するか、あるいはデータ流れプロセッサを何時使用するかの厳密な時が不明確で、このような混成装置に対する効率の良いコンパイラでも不可能ではないにしても困難である。アレイ計算のために多数の機能ユニットが分けられており、これがハードウェア設計を複雑にしている。

ベクトルプロセッサを持たない同様のアレイモデル（従来の制御流れモデル）に関してはＬｅｒｉｎの「大型アレイにおける簡単な動作を含む問題のデータ流れ構造の安定性」並列処理に関する１９８４年国際会議議事録ｐｌ）　５１８〜５２０　（１９８５年８月）に説明されている。再度言うが、装置がデータ流れモデルと制御流れモデルとの混成であるため、上述した通りの多数の複雑さを生じるのである。加えて、制御流れアレイモデルを含む計算モデルの複雑さによって、解くべき問題に対する十分なアレイ記憶を設けることが困難になっている。これはまた、計算モデル間でのデータの転送の早さを遅くしている。

今日までのデータ流れ構成では、データ流れモデルに対して全熱取扱わないか、流れとして取扱うか、あるいは制御流れの「つぎはぎ」として取扱うかという三つの一つないしそれ以上の方法において、アレイを取扱ってきた。これら三つの方法では明らかに上述の短所がある。データ流れ計算モデルに適応し、空間的同時発生を利用することができるアレイモデルが必要である。

しかし問題を完全に認識するには、データ流れ装置（ＤＦＭ）及び制御流れ装置（ＣＦＭ）の基本構成を考慮しなければならない。データ駆動処理は、多くの重要な点で制御流れ処理とは異なっている。データ駆動プロセッサの設計は制御流れプロセッサより簡単である。データ駆動プロセッサはバイブライン式実行を一層有効に利用することができる。データ駆動プロセッサにとって、特に並列処理においては、解方手段（「プログラミング」）を指定するのが容易である。データ駆動装置においては、データ格納は異なって見える。データ駆動装置が問題の並列処理を従来の制御流れ装置よりも多く利用することができるということが、多分最も重要な点である。データ駆動計算理論の更に完全な説明は、下記の参考文献に示されている。Ｊ、Ｂ。

Ｄｅｎｎｉｓ著の「データ流れ計算」、流れならびにデータ流れの制御：分配（Ｄｉｓｔｒｉｂｕｔｅｄ）プログラミングの概念、　Ｓｐｒｉｎｇｅｒ−Ｖｅｒｌａｇ、１９８５、並びにに、Ｐ、Ｇａ５ｔｅｌＯＶとＲ，Ｅ、Ｔｈｏｓａｓ著の「模擬データ流れコンピュータの性能Ｊ　ＪＥＥＲＴｒａｎｓａｃｔｊｏｎｓ　ｏｎ　ｃｏｓｐｕｔｅｒｓ、Ｃ−２９（１０）：９０５〜９１９．１９８０年１０月。

従来の制御流れ処理においては、指定実行の順序はプログラムカウンタにより決定されている。各命令はメモリから呼出されて復号され、データメモリの参照文が解読されその動作が行われ、結果がメモリに格納される。メモリのアクセス時間及びプロセッサ間の通信時間の差異によって最小指定時間が異なることがあり、このためプロセッサの設計が複雑になると共に、その持続し得る性能が限定される。

これに対してデータ流れ装置の構成においては、動作を計画する際、（プログラムカウンタではなしに）データの利用可能性を用いる。動作に対しての必要なすべてのパラメータが伝達されると、すべてが実行バイブラインに自動的に送込まれる。メモリは制御流れプロセッサの命令呼出しであったものを実行する。指定はすべてのデータが準備完了するまでは「呼出され」ず、従ってメモリのアクセス時間またはプロセッサのアクセス時間またはプロセッサ間通信時間にはどんな待ち時間も存在し得ない。指定の「呼出し」では、この指定がそのすべてのパラメータと共に、実行バイブラインに送られる。このため、装置の実行バイブラインは、プログラムのどこかに準備完了命令がある限り、一杯の状態で、その最大クロック周波数で動作する。

プロセッサ内にメモリシステムの制御または通信プロトコルが存在しないので、プロセッサの設計が簡単になる。

制御流れ装置においては指定実行の順序は正確に指定しなければならない。アルゴリズムを実施するコードは、指定が必要とするデータが通用する（即ち、必要な前の計算が全て行われている）ことを確認しなければならない。これにより、現在は装置が結果を計算する仕方ばかりでなくそれらを何時計算するかについても聞かなければなならないので、装置によるその解法についての問題の翻訳に余分な作業がくる。データ駆動処理では、データの利用可能性を利用して命令実行の順序を決めるので、問題を解くためのコードでは計算の順序を指定する必要がない。データ駆動プロセッサでは、命令をそのデータが準備完了するまでは決して実行することができないため、問題を解く仕方を指定すれば、必要なすべての情報が与えられる。

初期データ及び制御流れ装置で計算された中間値は、メモリの記憶場所に格納され、これら記憶場所にあるデータに関して命令が動作する。データ駆動装置では、初期データ及び中間値はそれらが動作と関連するときにのみ意味を持っている。実際、データと共に送られる一連の動作の他は、データ格納の概念は存在しない。

並列制御流れ処理には、各動作を行うべき記憶場所を別に指定する必要がある。

プログラマは、問題を解くのにどの動作が必要であり、それらをどんな順序で行い、それらを行うのにどのプロセッサを使用すべきかを記載しなければならない。制御プロセッサ間で中間結果を伝送するのもプログラマまたはコンパイラにより明確に指示されねばならない。データ駆動装置では、ハードウェア及びデータの利用可能性によって所要の動作を何時何処で行うのかが決定される。プロセッサ間の通信はまさに動作量のデータの直接伝達であり、単一プロセッサコードの場合よりプログラマからの指示の必要性は少ない。それ故コードは、数千のプロセッサで動作する場合でも単一のプロセッサでする場合と同じ結果を生じ、正確に同じコードを実行することができる。並列処理への拡張は単に装置の機能であり、並列制御流れプログラミングで複雑さを生じることはない。

例えばＧａｎｎｏｎ等の「通信の複雑さが並列数値アルゴリズムの設計に及ぼす影響Ｊ、、　ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｃｏ＋ｎｐｕｔｅｒｓ、Ｃ−３３（１２）　、　ｐｐ、　１１８０〜１１９４　（１９８４年１２月）、ならびにＭｕｅｋなどの「プログラムの再構成、アルゴリズムの変更、おを参照のこと。

従来型の制御流れプロセッサ間で計算を釣合わせておくことは、データ駆動並列プロセッサ間では非常に困難であるが、準備の整った命令を利用可能ないずれかのプロセッサにより実行できるため、プロセッサ間での負荷を完全に釣合わせておくことは可能である。

データ駆動処理は、制御流れに比べ、問題により提示された並列処理がより多く利用できる。計算中のどんなときでも、そのオペランドが準備完了していてそれ故実行することができる命令が多数存在する。制御流れプロセッサはそれらをその予じめ規定された順序で実行しなければならないが、データ駆動プロセッサはそれらをどんな順序にでも実行することができ、事実、別にプロセッサを利用することができれば並列に実行することができる。計算は、格納データではなく動作の周りに構築されるので、動作は複数のプロセッサのどれにでも格納することができ、計算はなお同じ結果を与えることが保証され、作業に利用できるプロセッサが多いために速いだけである。

制御流れ構成及びデータ流れ構成の従来の実施例を現在の問題の幾つか及び行われた解法の幾つかについて概観することにする。

ＮＥＤＩＰＳデータ流れコンビ二−タ構成は、映像処理の用途を目的としている。この構成は、ＩＴＯ等がｒＮＥＤＩＰｓ：非フォンノイマン高速コンピュータＪ　、７８　ＮＥＣＲｅ５ｅａｒｃｈ　ａｎｄＤｅｖｅｌｏｐｓｅｎｔ　、　ｐｐ、８３〜９０　（１９８５年７月）に述べられている。

この構成は、開発中の多数のデータ流れ構成と同様、データ項目の到着を追跡し、これらを他のデータ項目と合致させて命令を計画するのに特殊な制御流れプロセッサを使用している。到着はしたが命令を発するには不十分なデータは、データの残りが到着するまで特別な待合わせメモリ内に保持しなければならない。

容易流れ（ＩＪｓｙ　ｆｌｏｗ）エンジン構成は（データ駆動ではなく）要求駆動装置である。この構成については、Ｊａｇａｎｎａｔｈａｎ等が「容易流れエンジン構成」コンピュータ及び通信に関する１９８５年会議（フェニックス）　ｐｐ、ＩＢ１〜１６５（ＩＥＥＥ文献ＣＨ２１５４−３／８５）に記載されている。命令はその結果が他の命令から要求されるまで評価されない。それ故「むだな」計算は避けられるが、ハードウェアの経費が多くなる可能性がある。データを追跡するには別に整合用メモリ（ＮＥＤＩＰＳ機と同様のもの）を使用している。この論文はこれを内容アドレス可能メモリとして実施できることを示唆しているが、この方法はハードウェアの複雑さと速さの点で非常に高価につく。他の推薦例は整合用メモリを探すことであるが、この方法は高性能機で実現可能とするにはあまりにも高価である。

多重処理データ流れに関してＭＩＴで提案された処理要素は、提案された多数のデータ流れ構成を代表するものである。Ａｒｖｉｎｄ等による「大型複数プロセッサデータ流れ装置の処理要素」１回路及びコンピュータに関する１９８０年ＩＥＥＥ国際会議、ｐｐ、６０１〜６０５（ＩＥＥＥ文献ＣＨ１５１１−５／８０）。これもまた、到着データを追跡するのに別の整合用メモリを使用している。

このような方法に関連する経費に関しては上に概説しである。動作に必要なすべてのデータが到着すると、動作のアドレスを準備の整っている命令の待ち行列に設置する。実際の命令を次に呼出して実行しなければならない一制御流れ装置とほとんど同じである。

ＭＩＴから出された他のデータ流れプロセッサ（Ｄｅｎｎｌｓ。

他の「データ流れエンジニアリングモデルＪ　、　１９８３年ＩＰＩＰ情報処理、に記されている）はデータ及び命令を整合させるのにマイクロコード式プロセッサを使用している。整合機能は完全にプログラム可能であるが。命令を発動することができるか否かを判定するには多数のシステムクロックが必要であった。

このプロセッサは米国特許第！３．９８２．７０６号、第４，１４５，７３３号、及び第４．１５＋１．９３２号の主題であると考えられている。

５ＰＳ−１０００は任務を計画するのにデータ流れを利用しているデータ流れ構成である。これはＦｉｓｈｅｒのｒＳＰＳ−１０００：データ流れ構成Ｊ　１９８２年周辺アレイプロセッサ会報、ｐｐ、７７〜８２に記されている。それ故、利用可能な並列処理は任務レベルの並列処理に限られており、動作レベルの並列処理と対立するものである。処理要素は本質的に制御流れプロセッサであって、各種映像処理任務の実行時間計画を行わせるのに主メモリのポーリングを用いている。

Ｂｕｒｄの「マンチェスタデータ流れ装置」、第５世代スーパーコンピュータに関する国際シンポジウム議事録（１９８４年１２月）に記゛されているマンチェスタデータ流れコンピュータは、データ流れコンビ二一夕を構築しようとする最初の試みの一つの結果であった。この装置は、その後継者と共に別の整合部及び命令待ち行列を含む多数の特性を共有している。この装置は、上述の第２のＭＩＴ機と同様、その主要機能をマイクロコード式プロセッサに甚だしく頼っている。このため、装置の全体的処理量が上述のように甚だしく低下している。この分野への最初の冒険の一つであるから、この構成は並行処理の実施を目的とするものではなかった。

フランスからのデータ流れコンピュータ構成であるＰｌａｓ等のｒＬＡＵシステム構成：並列データ駆動プロセッサ」、並列処理に関する１９７６年国際会議議事録、ｐｐ、２９３〜３０２（１９７Ｂ）に記載されているＬＡＵコンビ二一夕は、動作レベルの並列性を開拓することができた。タグは、マイクロコード式プロセサにより明白に操作さえており、メモリアクセスにより自動的に操作されるものではなかった。この装置は、上述の他の同様の装置と共にマイクロコード式プロセッサに頼っているという欠点をもっている。

データ流れ加速装置、Ｄａｖｉｄｓｏｎ等の「汎用プロセッサ用データ流れ加速器Ｊ　５ａｎｄｌａ国際研究所技術報告５ＡＮＤ−０７１０（１９８６年３月）に記載されており、５ａｎｄｉａ国際研究所で開発されたＤＦＡＭは、メモリ構成を備えた従来のマルチプロセッサに追加することができる知能メモリである。

タグ付きメモリを使用しているが、タグは任務レベルの計画をするためのパラメータを追跡するのに使用される。

従来技術のコンピュータ構成の幾つかについてこれまで論評してきたことによれば大量の並列計算に適する新しいコンピュータ構成が必要であることが実証された。その動機は現在研究その他のエンジニアリング及び応用科学の活動に必要な科学的コードを実行する処理量への要求が日増しに増えていることである。コンピュータ構成は、装置が特定の関係問題を解き、現在利用可能なコンピュータよりかなり高い性能を示す限り、汎用である必要はない。

データ駆動並列処理での計算に必要な動作は変わらない。

所定の計算に必要なパラメータも同じままでなければならない。唯一の差異は、動作が物理的に別々のプロセッサで行われるということである。命令実行の実際の順序は変わってよいが、これはデータ駆動プロセッサが定義により実行準備の整っていない命令を実行することができないために問題ではない。問題は、一旦一つのデータ駆動プロセッサで実行するように様式化されると、並列処理の実行に不変に移ることができる。これは、単一プロセッサで実行するよう作られた制御流れコードを並列プロセッサに移すのに大量の作業を必要にするのと完全に対照的である。

従って、従来のデータ流れ装置のあらゆる長所を取入れて、しかもプロセッサに到達する直ちにそれ以上のデータまたは命令の呼出しを待たずに命令を実行することができるデータ流れ装置（ＤＦＭ）の必要性が依然存在する。

発明の概要特定の実施例に関してここに開示する発明は、前述の及び他の短所並びに困難を克服するものである。この開示の主題であるアレイモデルは、アレイの従来の取扱いと一層酷似しているが、アレイ内のどの要素にも独立に且つランダムにアクセスすることができる。大量のデータを効率良く格納できるという別の長所もある。一つの特定の方法によれば、一定形式の命令、ＲＯＵＴｅ命令を使用してデータを格納する。例えば、ＲＯＵＴＡ動作は、その入力データ（Ａ）を不変のまま伝え、その入力の一つ（Ｂ）を目的地アドレスとして使用する。この動作は、前に説明した反復技法のような多くの場合に有用である。この動作は以下に述べるようにアレイに対するデータ格納″を実施するのにも使用される。同様な命令を支援するどんなプロセッサでもこのメモリモデルを活用することができる。その動作の説明はＤＦＭ構成を仮定して表記法の一貫性を保っている。

本発明によるデータ流れ装置（ＤＦＭ）プロセッサは、相互接続された複数のノードを備えており、各ノードがプロセッサを備えている。現在の所、好適な実施例によるプロセッサノードはデータを適切な命令と共に格納するメモリを伴っている。メモリは到着するデータをそのデータが到着するにつれてハードウェアで追跡する手段を備えている。データが到着すると、この手段は、関連するデータタグの状態をチェックして他のすべてのデータが存在するか確認する。他のすべてのタグが設定されていれば、命令は「発動」されていればデータ流れに沿ってプロセッサに送られ、実行される。

上述のＮＥＤ　Ｉ　ＰＳ機も多数のパラメータを有する命令を処理するのに特定のプロセッサ手段を使用するが、本発明のＤＦＭは「粘着性」ビットを使用して多数のパラメータを同じプロセッサ構成に収納している。

Ａｒｖｌｎｄ等の大型の多数プロセッサデータ流れ装置とは異なり、本発明のＤＦＭ構成は準備の整った命令を並んで待ったりまたはそれらをメモリから取出したりしない。ＤＦＭでの命令はタグ付きメモリが命令の準備が整っていることを検出すると直ちに実行され、その命令はただちに浮動小数点計算ユニットに送られる。

本発明によるＤＦＭ命令は単一クロックサイクルで発動される。これはＤｅｎｎｉｓのＭＩＴデータ流れプロセッサと甚だしい対照をなしている。ＭＩＴの装置では整合用プロセッサが計算プロセッサとは別に設置され、論理的に調べられる。これも各計算ユニットにそれ自身のタグ付きローカルメモリがあるＤＦＭと対照的である。

「粘着性」タグは、本発明の動作レベルのデータ流れ構成にとって非常に重要であるので、ＤＦＡＭのような任務レベルのスケジューラには不必要である。ＤＦＡＭ構成はタグ付きメモリとは離れている計算要素により動作が行われ、結果が伝達されるという点でも相違している。ＤＦＭ内の各計算要素には、多数制御流れプロセッサ用の任務を計画するタグ付き中央メモリではなく、それ自身のタグ付きローカルメモリがある。

本発明の他の利点及び特徴については文中で説明するが、当業者には明らかであろう。

図面の簡単な説明第１図は本発明によるデータ流れプロセッサノードの一般化した概要ブロック図である。

第２図は本発明に従って行われる条件付き計算での可能な経路を示したデータ流れ図である。

第３図は本発明の作業実施例のシステムの概略ブロック図であり、データ流れメモリ及び実行ユニットが記載されている。

第４図は本発明により発生する各種クロック信号の間の関係を示すタイミング図である。

第５図は第３図のデータ流れメモリの詳細なブロック図であり、タグメモリ、オブコードメモリ、パラメータメモリ、及び目標メモリを示している。

第６図は第５図に示したタグ付きメモリの詳細なブロック図である。

第７図は第３図の実行ユニットの詳細なブロック図であり、演算論理ユニット（ＡＬＵ）、制御ユニット及びアドレスマルチプレクサを示しである。

第８図は第７図の演算論理ユニットの詳細なブロック図である。

第９図は第７図に示した制御ユニットの詳細なブロック図である。

第１０図は、問題、初期条件、及び解答を順次緩和して示すチャートである。

第１１図はタグ付きメモリがＲＯＵＴ命令を支援する方法を示す流れ図である。

発明の好適な実施例以下に添付図面を参照しつつ本発明を説明するが、図を通じて類似数字は類似要素を表している。

！、指定本発明の方法は、その計算の基本要素として命令パケット（ｐａｃｋｅｔ）を利用している。命令パケットには基本形演算　パラメータ　目的地がある。ここで、「演算」は「パラメータ」について行うべき演算を規定するものである。演算の結果は次に命令パケット内の、「目的地」で識別される目的地に送られるが、これは一般に別の動作となる。命令パケットはタグ付きメモリに格納されている。これらメモリは従来型のメモリ要素で作られているが、各パラメータに関連するタグを備えている。メモリはまた特定のパラメータへのアクセス毎にタグを修正し、そのパラメータの状態−準備完了または準備未了−を追跡できるようにする回路を備えている。メモリシステムは命令内の全てのタグをパラメータが到着した時チェックする。タグがパラメータすべてが準備完了していることを示していれば、命令は実行のために発送される（「発動される」）。そうでない場合には、新しいパラメータが格納され、そのタグが修正され、次のデータ流れモデルメモリのアクセスが始まる。

本発明によるＤＦＭ命令レベルのデータ流れ構成には、命令あたり最大一定数のパラメータ（ここに述べるプロセッサでは二つ）が存在することが必要である。

これはデータ流れメモリを、１メモリサイクルで全命令パケットにアクセルする非常に広いメモリとして構築することができるようにするためである。従って、命令のパラメータ数を所定数より少なくすることができ、決して多くなることはない。

本発明の構成は「粘着性（ｓｔｉｃｋｙ）Ｊタグの使用により一層少ないパラメータで動作させることができる。これらはパラメータが常に準備完了していることを示すタグである。

それ故、一つのパラメータ動作はその一つのパラメータを通常どうり管理し、未使用パラメータのタグを粘着性となるよう設定する。必要な一つのパラメータが到着すると命令を発送しく即ち、命令をプロセッサに送る「命令を発動する」ということがある）、使用パラメータに対応するりグだけをクリアする。常数値は全く同じ方法で処理することができる。

タグ付きメモリと関連して対応する実行ユニットがある。

各命令は、そのパラメータが到着すると実行されるが、その実行ユニットに関連するタグ付きメモリに格納されたまである。従って、動作の結果だけが並列プロセッサ間に送られる。結果は出力データとして外部ポートに送ることができ、パラメータは入力データとして外部ソースから導入することができる。

本発明のこの方法ではパラメータを格納する毎に動作を実行することができる。

多くとも各動作についてｒｎＪ回のパラメータ格納が必要になる。但し、ｎは命令あたりのパラメータの数であり、上記の通り、ｎは本実施例では２に等しい。

「粘着性」タグの使用により命令を発送するのに必要なパラメータ格納の実際の数が１とｎとの間のどこかになる。それ故、プロセッサはすべての動作をメモリのアクセス速さで処理するが、そのあるものはベクトル機でさえ特別の条件下でしか行うことができない。このことと並列処理へ容易に拡張できることにより、本構成を非常に高性能のプロセッサで使用することができる。

■、第１の実施例の説明−二重プロセッサノード基本データ流れ処理ノードｌＯを本発明の第１の実施例に従って第１図に示す。ノードｌＯには二つの面があり、第１の面１２は浮動小数点演算を行うＡＬＵ１４があり、第２の面ＩＢには浮動小数点乗算動作を行う乗算器１８がある。この細分化により、その機能が二つのチップ（乗算器及びＡＬＵ）に分割されている現在利用可能な浮動小数点チップの集合体を一層良好に収納することができる。他に、各ノードに二つの相補データ駆動プロセッサが設けられているため、それらの間に専用データ経路を設けることができ、これによって装置全体の情報伝達帯域が拡がるだけでなく、二つの機能の間の待ち時間も少なくなる。更に（ＡＬＵ１４及び乗算器１８を略同等に使用すると仮定すれば）各ノードのメモリ帯域幅が２倍になるという利益がある。一般に、二つのプロセッサ構成は加算の数が乗算の数に略等しい問題に最良に利用できる。

処理ノードの両面１２及び１Ｂには、それぞれ２ｏ及び２２と記した、対応するタグ付きデータ流れメモリがある。メモリ２０及び２２の動作を以下に説明するが、メモリ２０及び２２は非常に広くて処理ユニットを稼動させておくのに必要な高い帯域幅になる。

各メモリ２０及び２２は多数の個別記憶場所を備えており、各メモリについてその一つを、それぞれ２４及び２６と記して示しである。各記憶場所２４または２Ｂは、下記項目を格納するための、それぞれ３１から８９までの記号をつけた９つの別の区域から構成されている。

区域３１は行うべき演算を示す「命令」を格納する。

区域８２は演算に必要な第１のパラメータである「パラメータＡ」を格納する。

区域３８は演算に必要な第２のパラメータである「パラメータＢ」を格納する。

区域３４は、演算の結果を格納するための、対応するメモリ内の目的地であって、結果のコピーをこのメモリに必要としないときの「０」値を備えた「入アドレス」を格納する。

区域３５は、演算の結果のコピーを格納するための、対応するメモリの外側にある目的地であって、コピーが必要でないときの「０」値を備えている「出アドレス」を格納する。

区域３６は、パラメータＡに関連するフラグであり、且つ本発明においては、パラメータＡが準備未了であるときの「０」値、およびパラメータＡが準備完了しているときの「１」値を備えている「タグＡ」を格納する。

区域３７は、パラメータＢに関連するフラグであり、且つ本発明においては、パラメータＢが準備未了であるときの「０」値、およびパラメータＢが準備完了しているときの「１」値を備えている「タグＢ」を格納する。

区域３８は、動作が発動されているとき値タグＡを取るべき「タグ八粘着性」を格納する。

区域３９は、動作が発動されているとき値タグＢを取るべき、「タグＢ粘着性」を格納する。

各データ流れメモリ２４または２６は、対応する入力及び出力をも備えているが、メモリ２４に対するものだけについて述べる。メモリ２４には外側人力４０、内部ＦＩＦＯ入力４２、及びそれぞれメモリ２６または２４に結合している外部ＦＩＦＯ入力４４の、三つの入力がある。各メモリはまた、上述のように入力４２に接続されている内部ＦＩＦＯ出力レジスタ４Ｂ、他のノード１０（図示せず）に接続されている外部ＦＩＦＯ出力レジスタち出力ＦＩＦＯレジスタを備えている。

区域３８及び３９に固定値が設けられていることで、「粘着性」タグ（設定されたままになっているタグ）を常に準備完了しているパラメータ及びｌパラメータ演算と共に使用することができる。タグＡ粘着性及びタグＢ粘着性は、プロセッサがデータ流れメモリのアクセスあたり１演算もの速さで実行することができるようにする。タグはパラメータが到着したと検査されるだけであるから、両方を設定しても１演算ループを生じない。

■、二重プロセッサノードの動作ノードｌＯの演算時、パラメータが到着するとそのパラメータに対するアゲが設定される。次に適切な区域３４及び３５のタグがチェックされる・いずれかのタグが０であれば命令は発動されず、次のパラメータアクセスが開始される。

両方のタグが設定されていれば命令が発動され、演算及び両パラメータを実行ユニットに送り、入アドレス及び出アドレスを目的地ＦＩＦＯレジスタ４６．４８及び５０に送る。次の演算の結果が、戻りアドレスがＯでないときのみ戻りアドレスと共に、目的地ＦＩＦＯレジスタ４６．４８及び５０に書込まれる。

また、出アドレスに接続されている二つのＦＩＦＯレジスタ４８または５０の内の一つだけに所定の結果が書込まれる。

各サイクル中、データ流れメモリ２４及び２Ｂは、（ラメータをその三つの入力４０．４２及び４４から読取る。第１の優先権が入力４０に接続されている外側入力に与えられて（する。外部入力が存在しなければ、その関連実行ユニット↓ こより発生された結果を備えているＦＩＦＯレジスタが読取られる。そのＦＩＦＯレジスタが空であれば、ノードの他の半分により発生された結果が入っているＦＩＦＯレジスタが読取られる。これによりコードのダウンローディングが、中間結果がプロセッサ間に伝えられる前に確実に完了する。

■１本発明のプログラミングこの装置のアセンブリ言語は、従来の装置のものといくつかの点で類似している。これについて、以下に２．３の例題プログラムを用いて説明する。実施することができる模範的な命令または演算を第１表に示す。

第１表　実施される演算実行ユニット　簡略記憶記号　関　数乗算器　ＭＵＬＡＢ　Ａ＊ＢＡＬＵ　ＡＤＤＡＢ　Ａ＋ＢＳＵＢＡＢ　Ａ−ＢＳＵＢＢＡ　Ｂ−ＡＤ　Ｉ　ＶＡＢ　Ａ／ＢＳＱＲＴＡ　４両者　ＰＡＳＳＡ　ＡＰＡＳ　Ｓ　Ｂ　ＢＲＯＵＴＡ　出アドレスとしてＡ、Ｂを使用するＲＯＵＴＢ　出アドレスとしてＢ、Ａを使用するこれは可能な演算の部分集合であり、他のものは当業者には明らかであろう。算術演算は従来のコンビ二一夕と実質上同じであり、従ってこれ以上の説明は必要ない。ＰＡＳＳＡ及びＰＡＳＳＢの動作はその未修正入力データをその出力目的地に送る。ＲＯＵＴＡ及びＲＯＵＴＢの動作は命令されたＰＡＳＳのように働く。これらはその入力データを変更さずにＰＡＳＳが行うように送るが、その入力の一つを目的地として使用する。この動作は、後に説明する反復技法のような多くの場合に有用である。

アッセンブリ言語の文は、本発明によるシステムに対する形態を備えており、最大二つのパラメータが存在する。

Ａ／Ｍ　（Ｃ）　演算　パラメータ　Ａ　パラメータ　Ｂ　ラベル　５ＴＫＡ　５ＴＫＢここでＡ／Ｍは演算がＡＬＵに属するか乗算器に属するかを示し、（Ｃ）は出力が条件付きであるか否かを示し、演算は、第１表に掲げたもののような、実行することができる命令の一つを表し、パラメータＡ及びパラメータＢは命令に必要なパラメータであり、ラベルは演算の結果の名前、即ち識別子であり、５ＴＫＡまたはＳＡ及び５ＴＫＢまたはＳＢは「粘着性タグである。

アセンブリ及びリンクに必要な関数は第２表の例をみれば最も良く理解することができる。

第２表　アセンブリ言語の例＾／Ｍ　−（Ｃ）演算−パラメータＡ−パラメータＢ−ラベル　一５Ａ−９Ｂ例１：　単一命令Ａ　ＡＤＤＡＢ　人力Ａ　入力Ｂ　（ホスト）００例２：　直線コードＡ　ＡＤＤＡＢ　入力Ａ　２．０　人力＋２　０１Ｍ　ＭＵＬＡＢ　入力＋２　２．０　人力＄２０１Ｍ　ＭＵＬＡＢ　入力零２　人力Ｂ　（ホスト）００例３：複数目的地Ａ　ＡＤＤＡＢ　入力Ａ　入力Ｂ　ＳＵＭＡＢ　ＯＯＡ　ＡＤＤＡＢ　ＳＵＭＡＢ　入力ＣＳＵＭ＾ＢＣＯＯＭ　ＭＵＬＡＢ　ＳＵＭＡＢ　入力Ｄ　Ｄ＊ＳＵＭ＾ＢＯＯＭ　ＭＵＬＡＢ　ＳＵＭＡＢ　４．０　ＳＵＭ＾Ｂ＊４　０　１例４：条件付き出力Ａ　ＣＡＤＤＡＢ　入力Ａ　入力Ｂ　ＳＵＭＡＢ（ホスト）００Ａ　ＳＵＭＡＢ　Ｏ，ＯＳＵＭＡＢ　（ホスト　）　１　０例１は実行すべき単一演算を示している。動作はプロセッサｌＯのＡＬＵ１２の半部１２に置くべきであり、その二つのパラメータの和を計算すべきであり、その二つのパラメータの和を計算すべきである。この二つのパラメータにはこの命令文で与えられる初期値がない（二つともラベルである。）。計算の結果をホストに伝えるべきである。二つの粘着性タグのビットはいずれも設定されていないので、二つの引数は変数である。この動作の効果は入力Ａ及び入力Ｂに到着するパラメータを加算し、その結果をホストに送ることである。アセンブラプログラムは適切なアドレスを設置して結果を目的地フィールドにあるホストに送る。

例２は代数方程式（Ａ＋Ｂ）　本２＊Ｂの単純な直線計算を示す。最初の演算は２をＡに加える。粘着性ビットが第２のパラメータに対して設定され、２．０が常数であることを示している。第１のパラメータはラベルであり、従って初期設定されないが、第２のパラメータは数値で、その値を用いて初期設定される。この計算の結果、他の演算により参照されるラベルの付いた入力＋２が得られる。

第２の演算には第１の演算の結果が必要である。第２の演算はそのパラメータに常数２．０を乗じ、結果をラベルの付いた入力＊２を必要とする演算に送る。再び粘着性ビットが第２のパラメータに対して設定されている。最後の演算は第２の演算の結果に他の入力を乗じ、結果をホストに送る。両パラメータとも変数であるから、粘着性ビットは設定されていない。人手によるプログラミングかまたはアセンブラプログラムが適切なアドレスを設置して結果を一つの命令から次の命令までパラメータラベルで指示されている方法で伝える。

第３の例は幾つかの他の演算が必要とする結果を発生をする演算を示している。

入力Ａ及び入力Ｂは加算され、結果を三つの他の演算のそれぞれに送らなけらばならない。

他の三つの演算は、そのパラメータを使用してそれらの結果を発生し、これが他の演算に送られる。もう一度適切なアドレスをアセンブラプログラムにより目的地フィールドに設置しなければならないが、今回は結果をすべての演算に伝えるに充分な目的地フィールドが存在しない。アセンブラプログラムはそれ故ＰＡＳＳ動作を使用して、その結果を必要とするすべての演算のパラメータを正確に複製する。この状況の他の例は付属書のシニミレータ入力コードに見ることができる。パラメータのこの明白な複製には、パラメータを複製するとき有用な計算が行われていないので、利用可能な計算用資源の幾らかを消費する。これは、ＰＡＳＳ動作はパラメータの複製に使用するとき発動させることを一回書込み、二つのパラメータを送出するだけで良く、次のサイクル中に一つまたは二つの命令を発動するのに充分であるから、最初の見掛けほど費用のかかるものではない。

条件付き出力がある演算を第２表の第４の例に示しす。

計算される関数はＡ＋Ｂである。（Ａ＋Ｂ）が０以上であれば、和はホストに送られる。しかし、（Ａ＋Ｂ）が０未満であれば、結果はラベルＳＵＭＡＢに伝えられる。第２の命令はこれを０から差引き、和の負数を取り、その結果をホストに伝える。

条件文を使用して第２図に示すように一部の計算を可能にすることができる。条件文を決定する二つの入力を第２図の最上部にｒＡＪ及びｒＢＪとして示しである・計算に対する入力を左側に「Ｃ」及びｒＤＪとして示しである＠条件付き演算が行われ、結果が「０以上」のルート（真またはＴの側）かまたは「０未満」ルート（偽またはＦの側）に送られる。次に使用可能の側がその目的地をＴのＲＯＵＴ動作に伝え、ＲＯＵＴ動作はＣ及びＤを適切な演算に送る。

第２図の構成は従来の装置の条件付き分岐に似ている。

この方法では部分的に使用可能な演算は残っていないから、条件付き演算は再使用することができる。同じ概念を適用して、一方を所要の次の演算に伝え、他方を存在しない目的地に伝えることにより、二組の演算を条件付きで選択することができる。これらの構成は演算を同じ値が安定するまで行わなければならない反復アルゴリズムに不可欠である。

■、第２の実施例の説明−単一プロセッサノード次に第３図から第９図までを参照して、本発明の単一プロセッサノードの実施例を説明する。この実施例は、構成され、動作しているが、必要な加算の数または乗算の数が非常に他より大きいか、または相対的な数が問題中で未知である問題を解くのに一層適している。明らかにこの実施例は第１図に関して上述した二重プロセッサノードより複雑さが少なく、費用が安い。第３図にハードウェアシステムの一部であるコンビ二重プロセッサノード１００のブロック図を示しである。ハードウェアシステムは、必要な電源を作るのに必要なハードウェア、必要なりロック及び初期接続手順（ｈａｎｄ　ｓｈａｋｉｎｇ）信号、及び演算制御器への接続、から簡単に構成されている。ノード１００に供給されるシステム信号は、２３ビツトのアドレス語（信号ＩＮＡ）、３２ビツトのデータ語（信号ＩＮＤ）、システムクロック信号及び反転クロック信号（信号ＳＹＳ　ＣＬＫ及び５ＹＳＣＬＫＬ）　、システムリセット信号（信号ＳＹＳ　ＲＥＳＥＴ）、及び書込み許可信号（ＩＮ　ＷＥ）である。

ノード１００は、第１図のノード１０のように、三つの主要構成要素から構成されている。即ち、混合データ流れメモリ　１０２、実行ユニット１０４、及び複数のＦＩＦＯレジスタである。ＦＩＦＯレジスタは入力ＦＩＦＯレジスタｔｏｅ、出力ＦＩＦＯレジスタ１０Ｂ、及び内部ＦＩＦＯレジスタ１１０を備えている。

主要構成要素の他に、ノード１００は、制御クロック発生器１１２　（これはシステムから多数の信号を受け、多数の内部ノード信号を発生する）、複数の入出力コネクタ、及び各々に第３図ではそれが運ぶ信号を記しである必要な内部導体も備えている。

信号に記号を付けるにあたり、下記の取決めが全般的に固守される。文字「Ｒ」は、一般にデータ流れメモリ　１０２から実行ユニット】υ４までのパイプラインの読取り段階におけるデータを表す。文字ｒＷＪは、一般に実行ユニット１０４からＦＩＦＯレジスタ１０Ｂ、１０８、及び１１０までのパイプラインの書込み段階に於けるデータを表す。文字ｒＡＪ及びｒＢＪは通常、「Ａ」パラメータ及びｒＢＪパラメータを表し、文字ｒＴＪは通常、その対応するパラメータに関連するタグを表す。入力ＦＩＦＯレジスタ１０Ｂから発する信号には通常接頭辞ｒｌＮＪが付き、出力ＦＩＦＯレジスタ１０８から発するものには通常接頭辞ｒｏＵＴＪが付き、内部ＦＩＦＯレジスタ１１０から発するものには通常接頭辞ｒＳ　Ｅ　Ｌ　ＦＪが付く。信号の名前の最後の文字がｒＬＪ　（ｆＰＪえばｒＲＥＳＥＴＬＪ）であれば、その信号は低いとき（即ち「０」のとき）能動である。最後に、下記添字は通常指示した意味を持っている。ｒＡＪはパラメータを引用しないときは「アドレス」を意味し、ｒＤＪはデータを意味する。「ＥＭＪは「空」を意味し、ＡＦＵＬＬは「はとんど満杯」を意味し、ＦＬは「満杯」を意味し、ＦＩＦＯが空で読むことができないとき、及びほとんど満杯、及び完全に満杯でそれぞれ書込むことができないとき発生する／％ンドシェーク信号であり、ｒＷＥＪは「書込み許可」を意味する。

クロック発生器１１２は３このクロック式１６Ｒ８ＰＤＬ（プログラム式論理装置）集積回路（ＩＣ）チップ（図示せず）から構成されている。これらチップは三つのノードクロック信萼（ＣＬＫ　ＰＩＰＥ、ＣＬＫ　ＲＡＭＷＥ　、及びＣＬＫ　ＴＡＧＰＬＤ）を発生するが、これらを第４図に示しである。第４図において、各垂直時間線は半クロツクサイクルを表す。クロック信号ＣＬＫ　ＰＩＰＥは主要ノードクロック信号であり、データ流れメモリ　１０２の中の各種ラッチをクロックするのに、ＦＩＦＯレジスタ１０６、１Ｇ！１及ｃＦ　１１０をクロックするのに、及び実行ユニット１０４の中の主要構成要素をクロックするのに、それぞれ使用される。

クロック信号ＣＬＫ　ＴＡＧＰＬＤは、信号ＣＬＫ　ＰＩＰＨの逆であり、ＰＬＤによりデータ流れメモリ　１０２の中のタグメモリ１１４（第５図）の中のタグの読取りを時間調整するのに使用される。クロック信号ＣＬＫ　ＲＡＭＷＥは、半クロツクサイクルだけ遅延する（即ち遅れる、または信号ＣＬＫ　ＰＬＤに関して１８０度だけ位相がずれている）ことを除けばクロック信号ＣＬＫ　ＰＬＤと同じであり、データ流れメモリ　１０２でＰＬＤにより、以下に記すメモリ使用許可信号の発生の時間調整に使用される。これらチップはまた、システムリセット信号（ＳＹＳ　ＲＥＳＥＴ）に対応するノードリセット信号（ＲＥＳＥＴ）、及びその論理反転リセット信号（ＲＥＳＥＴＬ）を発生する。

３個のＰＬＤチップはＡＢＬＥプログラミングでプログラムされる。これは、他の会社の中でもデータげＯカンパニー社が市販生産しているＰＬＤチップのようなＰＬＤチップをプログラムするのに使用される周知の言語である。

市場で入手可能なアセンブラは、このコードを使用して、ＰＬＤ内の溶断可能リンクを切断するのに、ＰＬＤプログラミングコードでプログラムしている市販で入手可能なＰＬＤコンビニ−タブログラミング機で使用されるｒＪＥＤＥＣＪファイルを作製する。

システムクロック信号（ＳＹＳ　ＣＬＫ）でクロックされる、クロック発生器１１２の第１のＰＬＤは、第２のＰＬＤにより発生される前記のＷＡ　Ｉ　Ｔ信号の有無によりクロック信号ＣＬＫ　ＰＩＰＥ及びＣＬＫ　ＴＡＧＰＬＤを単に作製する。ＡＢＬＥプログラミング言語で書かれたこの第１のＰＬＤのプログラムは下記の通りである。

Ｃ［にＪＡＧＰＬＤ　ニー（（ＩＣＬす＾ＧＰＬＤ　ｇ　ＣＬ：ＰＩＰＥ）Ｉ（ＣＬす＾ＧＰＬ［ｌ　！　ＩＣＬＫＰＩＰＥ　＆賛ＡＩＴ）j　：ＣＬＫ−ＰＩＰＥ　ニー（（ＩＣＬＩＬＴＡＧＰＬＤ　＆　ＩＣＬにＰＩＰＥＩＣＬＫ−ＴＡＧＰＬＤ　＆　ＩＣＬに−ＰＩＰＥ　＆　！Ｗ`ＩＴ））　；Ｃ［に−ＰＩＰＥ１ニー（（ＩＣＬにＴＡＧＰＬＤ龜ＩＣ［に−ＰＩＰＥ）番（ＣＬに−ＴＡＧＰＬＤ　＆　ＩＣＬＫＰＩＰＥ　＆　！ＷＡhＴＩ）　。

Ｃ［に−ＰＩＰＥ２：＝（（ＩＣＬＫＴＡＧＰＬＤ＆ＩＣＬＫＰＩＰ［川ＣＬＫＪ＾ＧＰＬＤ　＆　；ｃｔＫ−ｐｔｐｔ　＆　＋ｖＡｎ））@。

ＣＬＬＰ］ＰＥ３ニー（（ＩＣＬＫＴＡＧＰＬＤ　＆　ＩＣＬに−ＰＩＰＥ）ｔ（ＣＬＫ〜ＴＡＧＰＬＤ　＆　ＩＣＬＫ−目ＰＥ　＆　！−OＩＴＳ）　。

ＣＬＫＪ’１ＰＥ４ニー［（ｊＣＬＫＴＡＧＰＬＤ＆ＩＣＬにＰＩＰＥ）＄（ＣＬＫ−ＴＡＧＰＬＤ　＆　ＩＣＬＫＰＩＰＥ　＆　！ＷＡＩs））　。

Ｃ［ＫＰＩＰＥ５ニー（（ＩＣＬＫＪＡＧＰＬＤ　＆　ＩＣＬＫＰＩＰＥ１客（ＣＬＫ−ＴＡＧＰＬＤ　＆　ＩＣＬＫ−ＰＩＰＥ　ｇ　！Ｗ`ＩＴ）］　；Ｃ［に−ｊ’ＴＰＥ６：−（（ＩＣＬＫＴＡＧＰＬＤ　！　ＩＣＬに−ＰＩＰＥ田ＣＬＫ−ＴＡＧＰＬＤ　＆　ＩＣＬＫＰＩＰＥ　＆　！Ｗ`ＩＴ））　；第２のＰＬＤは、同じくシステム信号（ＳＹＳ　ＣＬＫ）でクロックされるが、６本のアドレス線（ＣＯＰ４〜０、及びＣ０Ｐ１３．１２）を復号することにより信号ＷＡ　Ｉ　Ｔを作製する。これらアドレス線上の信号は究極的には、データ流れメモリ　１０２が発生する他の信号（以下の説明するＲＶＡＬＩＤ）と共に、実行ユニット１０４を用いてデータ流れメモリ　１０２により発生される。

ＡＢＬＥプログラミング言語で書かれたこの第２のＰＬＤのプログラムは次の通りである。

ＣＮＴ３ニー（（ＣべＴ３　＆　ＷＡＩＴ）　＄　ｔＣＮＴＯ＆　ＣＮＴｌ　＆　ＣＮＴ２　＆　ＷＡＩＴＩ）　；ＣＮＴ２ニー（（ＣＮＴ２８　ＷＡＩＴ）　＄　（ＣＮＴＯ＆　ＣＮＴｌ　＆　ＣＮＴ２　＆　ＷＡＩＴＩＩ　；ＣＮＴ１ニー（（ＣＮＴＩ　Ａ　ＩＩＡＩＴ）　＄　１ＣＮＴＯ＆ドＡＩＴＩ）　：ＣＭＴＯ：＠（（ＣＮＴＯ＆　ＩＩＡＩＴ）　Ｓ　ＷＡＩＴ）　；賛＾ＩＴニー（！（（ＣＭ丁１＆ＣＮＴ２＆ＩＣ０Ｐ４＆ＩＣ０ＰＩ＆ＩＣＯＰ２ｇＩＣＯＰ３ｇＣＯＰ１２ｇＣＯＰ１３Ｓ　ＣＶＡＬＩＤＩ）　Ｓ　ＩＣＶＡＬＩＤ　＠　（ＣＮＴ１＆ＣＮＴ３　＆　ＣＶＡＬＩＤ　！　ＩＣ０Ｐ４　＆　ＣＯＰＩ　ｇ　ＩＣ０Ｐ２　ｇ　ＩＣＯＦ２３　ＣＯＩ’１２　＆　Ｃ０Ｐ１３））　ｇ　（ＩＣ０Ｐ１２　番ＩＣ０Ｐ１３　：　ＣＯＦ２　Ｓ　ＣＯＦ２１ＣＯＰ４）））　；ＣＶＡＬＩＤニーＲＶＡＩＪＤ　；上記したように、内部クロック発生信号ＷＡ　Ｉ　Ｔはすべてのノードクロック信号を下記のように凍結することにより被クロック構成要素のすべての時間調整を停止するのに使用される。信号ＣＬＫ　ＰＩＰＥを低に保持する。信号ＣＬＫ　ＴＡＧＰＬＤを高に保持する。信号ＣＬＫ　ＲＡＭＷＥを信号ＣＬＫ　ＴＡＧＰＬＤの半サイクル後に高に保持する。信号ＷＡ　Ｉ　Ｔの発生及びノードクロックの凍結が本発明の実施例で行われるのは／１−ドウエアが全ての構成要素が必要であるか否かに係わらず各サイクルで使用されるように構成されているからである。代わりに、クロック信号をゲートすることができるが、この構成では、通常、信号の伝播の遅れを生じ、一層多くのチップを必要として複雑になる。従って、例えば、サイクルが両ノくラメータＡ及びＢがパラメータＡを供給するようにアドレスされる一定の命令内のデータを待っている状聾で始まる場合には、装置の通常動作は命令が発動されないというものである。

しかし、クロックサイクルは実行ユニット１０４のすべての構成要素へのアクセスを生じる。これら構成要素は、第８図を参照して以下に述べるように、従来型の乗算器及び内部モードレジスタを利用するＡＬＵＩ　Ｃから構成されている。

命令が発動されないときこれらのチップがアクセスされと、これらＩＣへのデータ線及び命令線にゴミが存在することになり、内部モードレジスタに格納されているデータが影響を受ける可能性がある。それ故、従来型ＩＣに対するこの影響を防止するため、命令が発動されないとき、即ち信号ＲＶＡＬＩＤが偽であるときは必ずクロックサイクルを凍結する。信号ＲＶＡＬＩＤは、第６図に関して以下に更に詳細に述べるように、データ流れメモリ　１０２で発生される。

（以下余白）第３０ＰＬＤは反転システムクロック信号ＳＹＳ　ＣＬＫＬによりクロックされ、入力としてクロック信号ＣＬＫＴＡＧＰＬＤ及びシステムリセット信号（ＳＹＳ　ＲＥＳＥＴ）を受ける。この第３のＰＬＤは下記ＡＢＬＥプログラムに従ってノードリセット信号ＲＥＳＥＴ、反転リセット信号ＲＥＳＥＴＬ、及びクロック氏号ＣＬＫ　ＲＡＭＷＥを発生する。

ＲＥＳＥＴ　ニー　ＳＹＳ　ＲＥＳＥＴ：ＲＥＳＥＴＬＯニー！ＳＹＳ　ＲＥＳＥＴ。

第４図に相対発生クロック信号を示すが、ＰＬＤ　ＩＣチップの特定のプログラミングは特定の浮動小数点演算ＩＣチップ及び回路の他の部分で使用されているその他のＩＣチップによって決まり、比較的簡単である。

ＦＩＦＯレジスタ１０８．　１０８及び１１０は、各々、複数の、市場で入手可能なＭＫ４５０５Ｓ先入れ先出しレジスタから構成されてる。これらは、ＣＬＫ　ＰＩＰＥクロック信号により供給される書込み許可入力、及びＲＥＳＥＴ信号により供給されるリセットを有する１キロバイト×５のバッファレジスタである。各ＦＩＦＯレジスタはまた、対応するＦＬ及びＡＦＵＬＬレジスタ満杯及びほとんど満杯の信号、及びＥＭＬレジスタ空の信号をハンドシェーキング出力として同じノードまたは他のノードの他のＦＩＦＯレジスタに供給する。

入力ＦＩＦＯレジスタ１ｏ６ハ、３２データビツト（ＩＮ　Ｄｏ〜Ｄ３１）及び２３アドレスビツト（ＩＮ　ＡＯ−Ａ２２）を受け、対応する３２データビツト（ＷＲＬＤ　Ｄｏ−Ｄ３１）　及ヒ２３アドレスビット（ＷＲＬＤ　ＡＯ〜Ａ２２）を発生するＩＣレジスタチップ１１個（図示せず）か、ら構成されている。

出力ＦＩＦＯレジスタ１０８は、３２データビツト（Ｗ　ＡＮＳＯ〜Ａ　Ｎ　Ｓ　３１）及び３２アドレスビツト（Ｗ　ＴＢＯ〜Ｔ　Ｂ　３１）を受け、対応する３２データビツト（ＯＵＴ　ＤＯ−Ａ３１）および３２アドレスビツト（ＯＵＴ　ＡＯ〜Ａ３１）を発生するＩＣレジスタチップ１３個から構成されている。

内部ＦＩＦＯレジスタ１１０は、８２データビツト（Ｗ　ＡＮＳＯ〜ＡＮＳ３１）及び２３アドレスビツト（Ｗ　ＴＡＯ〜Ｔ　Ａ　２２）を受け、対応する３２データビツト（ＳＥＬＦ　ＤＯ〜Ｄ　３１）及び２３アドレスビツト（ＳＥＬＦ　ＡＯ〜Ａ２２）を発生するＩＣレジスタチップ１１個から構成されている。

次に第５図を参照して、データ流れメモリ１０２を説明する。データ流れメモリ　１０２はプロセッサノード１００の「心臓部」であり、４個のメモリ、１個のタグメモリ　１１４．１個の０ＰＣＯＤＥメモリ　１１Ｂ、１個のパラメータメモリ　１１８、及び１個の目標メモリ　１２０から構成されている。この実施例ではデータ流れメモリ　１２０は次のように１５６ビツト完全プロセッサ語を考慮している。

０ＰＣＯＤＥメモリ　１１Ｂに格納されている２４ビツトの０ＰＣＯＤＥ部、パラメータメモリ　１１Ｂに格納されている３２ビツトのパラメータＡ１パラメータメモリ　１１８に格納されている３２ビツトのパラメータＢ１タグメモリ１１４に格納されている１ビツトのタグＡ１タグメモリ　１１４に格納されている１ビツトのタグＢ１タグメモリ１１４に格納されている１ビツトの粘着性タグＡ１タグメモリ１１４に格納されている１ビツトの粘着性タグＢ１目標メモリ　１２０に格納されている３２ビツトの目標アドレスＡ１目標メモリ　１２０に格納されている３２ビツトの目標アト【ｌスＢ。

前述のメモリの他に、データ流れメモリ　１０２は、データ及びアドレスを入力ＦＩＦＯレジスタ１０Ｂまたは内部ＦＩＦＯレジスタ１１０から読取るセレクタ１２２、及び適切なメモリ書込み許可信号を発生するデコーダ１２４を備えている。

タグメモリ　１１４は第６図に一層詳細に示しであるが、１ビツト幅のＲＡＭ　（読出しアドレスメモリ）４個、即ちタグＡを格納する第１のＲＡＭ　１３０．タグＢを格納する第２のＲＡＭ　１９２、粘着性タグＡを格納する第３のＲＡＭ　１３４、及び粘着性タグＢを格納する第４のＲＡＭ　１３Ｂから構成されているニタグメモリ　１１４はプログラム可能論理装置、即ちＰＬＤ１３ｇも備えている。各一つのＲＡＭ　１３０，１３２．１３４及び１３６はセレクタ１２２により発生されるアドレスビット３から１８まで（信号ＲＡＤＲ３〜ＲＡ　Ｄ　Ｒ１Ｂ）に対するアドレス線を受ける。各ＲＡＭの［クロック使用許可ｊ入力（ＣＥ）は、接地されているのでメモリは他のデータを供給すること及び書込み信号が発生したときデータを受取ることが常に可能である。タグＡ及びタグＢのＲＡＭ　１３０及び１３２は信号ＣＬＫ　ＰＩＰＥにより使用可能となり、ＰＬＤ１３ｇからデータ入力を受取る。粘着性タグＡ及びＢのＲＡＭ　１３４及び１３Ｂは、以下に更に詳細に述べるように、やはりセレクタ１２２から発生される信号ＲＤＡＴＡからそれぞれデータビット３１及び３０を受取り、アドレスデコーダ１２４（第５図）が発生する信号Ｒ０ＰＷＲＬにより使用可能となる。命令のパラメータＡ及びＢの状態はそれぞれＲＡＭ　１３０及び１３２で維持され、ＰＬＤ１３８からの信号によりクロックサイクル毎に読出され、修正され、再書込みされる。しかし、粘着性ビットＡ及びＢは、それぞれＲＡＭ　１３４及び１３Ｂで維持されているが、セレクタ１２２により発生される３２ビツトのＲＤＡＴＡ語のビット８０及び３１として外部で発生される。粘着性ビットＡ及びＢは、書込み信号、信号Ｒ０ＰＷＲＬがアドレスデコーダ１２４（第５図）により発生されると、ＲＡＭ１３４及び１３６に書込まれる。

ＲＡＭ　１３０，１３２．１３４及び１３６は、６４ｋＸ１のＳＲＡＭである集積回路Ｐ４Ｃ１８７のような、従来型の、市場で入手可能なメモリで構成することができる。ＰＬＤｌＢｇもＩ　６Ｍ４プログラム可能論理装置のような従来型の市場入手可能な集積回路チップとすることができる。

ＰＬＤｌＢｇはクロック信号、信号ＣＬＫ　ＴＡＧＰＬ、Ｄ。

をクロック発生器１１２（第３図）から受取る。このチップはまたセレクタ１２２が発生する信号Ｎ　ＢＶＡＬＩＤを受取る。最後にＰＬＤｌＢｇは、タグＡ及びタグＢ信号をＲＡＭ１３０及び１３２から、粘着性タグ信号Ａ及びＢをＲＡＭ１３４及び１３６から、及びセレクタ１２２により発生された信号ＲＡＤＲのアドレス線０から３までを、それぞれ受取る。代わって、ＰＬＤｌＢｇは新い）タグ゛Ａ及びＢ信号、及び実行ユニット１０４により使用される信号ＲＶＡＬＩＤ、を発生する。ＰＬＤｌＢｇによるこれら信号の発生は次のＡＢＬＥプログラムに従って行われる。

ＶＡＬＩＤＯｔｌＴニー（（ＴＶＡＬＩＤＩＮ　＆　！Ａ２　＆　ｉＡｌ　＆　！ＡＯ１＆　ＴＡＧＢ）　＄　（！Ａ２　！　ｉＡｌ　＆　`Ｏ＆　ＶＡＬＩＤＩＮｌ＆　ＴＡ［、Ａ））　：ＩＡＧＡＮＥ１１ニーｔ＋；＋＋Ａ２＆　Ａｔ　！ＡＯｒ、　ＶＡＬＩ［１ＩＮ）　！（ＶＡＬＩＤＩＮ　＆　！Ａ２　ｇ　ｉＡｌ　＆　！ＡＯ１＆！Ｔ（（ＶＡＬＩＤＩＮ　＆　！Ａ２　＆　ｉＡｌ　＆　！ＡＯ）　＆ＴＡＧＢ）　Ｉ　（（！Ａ２　！　ｉＡｌ　＆　ＡＯ＆　ＶＡＬＤＩＮ）　＆　ＴＡＧＡ）ｌ）　＄（ＴＡＧＡ　＆　！（（（ｖＡＬＩＤＩＮ　ｇ　！Ａ２　ｇ　ｉＡｌ　＆　！ＡＯ１＆１＋！Ａ２　＆　Ａｌｇ　！ＡＯ＆　ＶＡＬＩＤＩＮ））　＄　（ＡＳＴＫ　＆　＋（（ＶＡＬＩＤＩＮ　＆　！Ａ２　＆　ｉＡｌ　＆！ＡＯ）　＆　ＴＡＧＢＩ書（（Ｉ＾２　＆　ｉＡｌ　＆　ＡＯ＆　ＶＡＬＩＤＩＮＪ　ＣＴＡＧＡ））１）　：ＴＡＧＢＮＥＷニー（（！ｌＡ２　＆　Ａ１！ＡＯ＆　ＶＡＬＩＤＩＮｌ　＆（！Ａ２　＆　ｉＡｌ　＆　！ＡＯ＆　ＶＡＬＩＤＩＮｌ　＆　！＋ｆｆＶＡＬＩＤＩＮ　＆　！Ａ２　呂！Ａｌ　！Ｓ　！ＡＯ１＆ＴＡＧＢ１客（［！Ａ２　！　ｉＡｌ　＆　ＡＯ！　ＶＡＬＤＩＮＩ　！　ＴＡＧＡ）＋）　：（ＴＡＧＢ　＆ｒ（＜（ｖＡＬｌｏｌｘ　＆　！Ａ２　＆　ｉＡｌ　＆　！ＡＯＩ　＆　ＴＡＧＢ　番（（！Ａ２　Ｓ　ｊＡｌ　＆　ＡＯ＆　ＶＡＩＪＤＩＮ））呂ＴＡＧＡ））　＆　！（！Ａ２　Ｓ　Ａｌｇ　！ＡＯ＆ＶＡＩＤＩＮＩ　客１ＢＳＴＫ　＆＋＋（ＶＡＬＩＤＩＮ　Ｓ　！Ａ２　＆　ｉＡｌ　＆　！ＡＯ１＆ＴＡＧＢｌ　参（（！Ａ２　ｇ　ｉＡｌ　＆　ＡＯ＆　ＶＡＬＩＤＩＮｌ　＆　ＴＡＧＡＩ）］）　：メモリ１０２の残りのメモリ、即ち０ＰＣＯＤＥメモリ１１１３、パラメータメモリ　１１８及び目標メモリ　１２０はかなり従来型のメモリであり、この実施例では簡単に市場入手可能な集積回路チップｃｙｃ　ｉ　ｅ　ｔから構成することができる。これらのメモリは１４本のアドレス線を受けて１ＢＫＸ４ビツトのデータを格納する。すべてのメモリチップへのクロック使用許可入力は接地されているのでメモリを非同期的に読出すことができる。データは適切な書込み信号がアドレスデコーダ１２４により発生されると各種メモリに書込むことができる。

０ＰＣＯＤＥメモリ　１１６の場合は、好適作業実施例では、互いに直列に結合されて２４ビツトの出力、即ち信号ＲＯＰ２３〜０ＰＯ）を発生する６個のメモリを備えている。これらメモリはセレクタ１２２が発生するアドレス信号ＲＡＤＲ３〜ＡＤＲＩＢによりアドレスされる。０ＰＣＯＤＥメモリ　１１Ｂに書込まれるデータはセレクタ１２２により発生され、信号ＲＤＡＴＡ２３〜ＤＡＴＡＯから構成されている。

書込み許可信号、即ち信号Ｒ０ＰＷＲＬは、アドレスデコーダ１２４により発生される。

好適実施例のパラメータメモリ１１８はそれぞれ８チツプのバンク２個からなる１６個の集積回路チップから構成され、１バンクはパラメータＡ用で他のバンクはパラメータＢ用である。これらメモリラップは、セレクタ１２２による発生される信号ＲＡＤＲ１６〜ＡＤＲ３によりアドレスされ、データを二つの３２ビツト語、即ち信号ＲＡ３１〜ＡＯ及びＲＢ８１−ＢＯとして発生する。メモリの２バンクの書込み許可信号はアドレスデコーダ１２４（第５図）が発生するそれぞれ信号ＲＡＷＲＬ及びＲＢＷＲＬである。

目標メモリ　１２０は同様に８メモリチツプづつの２個のバンクに配置された１６個のメモリチップから構成されている。

このメモリは３２ビツトのデータ及び１４ビツトのアドレスを、セレクタ１２２からそれぞれ信号ＲＤＡＴＡ３１−ＤＡＴＡＯ及びＲＡＤＲ１６〜ＡＤＲ３として受取る。各バンクはアドレスデコーダ１２４から発生された書込み信号をそれぞれ信号ＲＴＡＷＲＬ及びＲＴＢＷＲＬとして受取る。

目標メモリ　１２０からのデータ出力は信号ＲＴａＢ２−ＴＡＯ及びＲＴＢ８１ −ＴＢＯとして供給される。

データ流れメモリ　１０２のセレクタ１２２は、２個の実質上同じラッチバンク（図示せず）から構成され、各バンクはそれぞれ入力ＦＩＦＯレジスタ１０Ｂからの情報（信号ＷＲＬＤＡ（２２〜０）及びＷＲＬＤ　Ｄ（３２〜０））及び内部Ｆ！ＦＯレジスタ１１０　（第３図）からの情報（信号５ＥＬＦ　Ａ（２２〜０）及び５ＥＬＦ　Ｄ（３１〜０））を受取り、格納する。２個のラッチバンクは母線に接続されているメモリを駆動するのに必要な電力を供給するのに使用される。各ラッチバンクはそれぞれＦＩＦＯレジスタ１０Ｂ及び１１０からのデータを格納するサブバンクに分割され、各サブバンクは更にアドレス情報を格納する第１の部分及びデータ情報を格納する第２の部分に細分されている。ラッチは、以下に記すように、内部デコーダ（図示せず）により発生される信号を用いて所定の組合わせのラッチを適切に使用可能にすることにより２対１マルチプレクサとして動作する。本発明の作業実施例においては、各ラッチバンクは８ビツトラツチである５４ＬＳ３７４集積回路チップ１４個から構成されている。

セレクタ１２２はまた５４ＬＳ３７４集積回路チップのような８ビツトラッチ２個からなる第２の組合わせを備えている。

これらラッチはそれぞれ対応するアドレス（ビット５ＥＬＦ　Ａ７〜ＡＯ及びＷＲＬＤ　Ａ７〜ＡＤ）を内部ＦＩＦＯレジスタ１１０及び入力ＦＩＦＯレジスタ１０６から受取る。ラッチは信号ＣＬＫ　ＰＩＰＨによりクロックされ、信号ＴＣＡ７〜ＡＯを発生する。この信号は別々の経路に沿ってアドレスデコーダ１２４に送られ、バッファのロードを発生するとともに、使用可能とすべき適切なメモリの選択にあたり非常に重要なタイミングで妨害が生じないようにする。

セレクタ１２２はまた制御信号を従来通りの仕方で発生するデコーダ（図示せず）を備えている。このデコーダはＰＬＤ集積回路チップのような従来型のデコーダとすることができる０デコーダは３個のＦＩＦＯレジスタからｌ＼ンドシェーキング信号を受取る。即ちＦＩＦＯレジスタ１０６からは信号ＩＮ　ＥＷＬを、出力ＦＩＦＯレジスタ１１０からは信号０ＵＴＡＦＵＬＬを、内部ＦＩＦＯレジスタ１１０からは信号５ＥＬＦ　ＥＷＬ及び５ＥＬＦ　ＡＦＵＬＬを受取る。加えて、デコーダは実行ユニット１０４（第３図）から信号、即ち信号Ｉ　５ＯＬＡＴＥを受取り、信号ＣＬＫ　ＰＩＰＨによりクロックされる。デコーダからの出力には信号５ＥＬＦＥＮＬ及びＷＲＬＤ　ＥＮＬがあり、ラッチの適切なサブバンクを使用可能にして、それぞれ内部ＦＩＦＯレジスタ１１０または入力ＦＩＦＯレジスタ１０６からの情報を格納する。その他、このデコーダはそれぞれＰＩＦｏ　１０Ｂ及び１１０を使用可能にするのに使用される信号５ＥＬＦ　ＲＥ及び信号ＩＮＲＥを発生する。最後に、デコーダは、アドレスデコーダ１２４及びタグメモリ　１１４に供給されて、書込み許可信号またはタグ信号の発生を制御することによりデータがメモリに書込まれないようにする信号Ｎ　ＶＡＬＩＤを発生する。

信号Ｎ　ＶＡＬＩＤは、入力及び内部ＦＩＦＯレジスタ１０Ｂ及び１１０　（即ち、情報を供給するレジスタ）がデータを持っている（即ち、信号ＩＮ　ＥＭＬ及び５ＥＬＦ　ＥＭＬが高である）とき、出力及び内部ＦＩＦＯレジスタ１０Ｂ及び１１０（即ち情報を受取るレジスタ）がほとんど満杯でない（即ち信号ＯＵＴ　ＡＦＵＬＬ及び５ＥＬＦ　ＡＦＵＬＬが高である）とき、及び信号ｌ５ＯＬＡＴＥが発生していないとき、真（または高）である。

データ流れメモリ１０２（第５図）のアドレスデコーダ１２４は、適切な信号を発生してＦＩＦＯレジスタに受取られた信号を書込むメモリを選択するのに使用される。本発明の作業実施例においては、アドレスデコーダは従３Ｈ？７）１６ＲＪｌ集積回路ＰＬＤチップである。デコーダ１２４は、クロック発生器１１２１３図）からクロック用信号、即ち低のとき能動である信号ＣＬＫ　ＲＡＭＷＥを受取り、上述のようにセレクタ１２２により発生された復号用入力信号Ｎ　ＶＡＬＩＤ、及びアドレス信号ＴＡ　Ａ２〜ＡＯをセレクタ１２２の上述の別の組のラッチから受取る。復号された出力は、上述の通り、次の信号の内の一つである。０ＰＣＯＤＥメモリ　１１６に送られたＲ　０ＰＷＲＬ、パラメータメモリ１１８に送られた信号ＲＡＷＲＬ及びＲＢＷＲＬ、及び目標メモリ１２（ｌに送られた信号ＲＴＡＷＲＬ及びＲＴＢＷＲＬである。アドレスデコーダ１２４の使用許可線は常に接地されているので復号された信号はクロック信号及び真であるＮ　ＶＡＬＩＤを受取ると直ちに利用可能である。

アドレスデコーダ１２４はＡＢＬＥプログラミング言語で次のようにプログラミングされる。

０ＰｖＲＬ−！　（（ＮＶＡＬＩＤ　＆　ＣＬＫＲＡＭＷＥ）＆ＩＡ２＆Ａ１＆！Ａｎ）　；ＴＩＷＲＬ−！　（（Ｎ−ＶＡＬＩＤ　＆　ＣＬＫＪＡＭＷＥ）＆ＩＡ２＆ＡＩ＆ＡＯ）　；Ｔ２ＷＲＬ−１（（ＮＪ’ＡＬＩＤ　＆　ＣＬＫ−ＲＡＭＷＥ）＆Ａ２＆Ａ１＆ＡＯ）　；ＢＷＲＬ　−１（（Ｎ　ＶＡＬＩＤ　＆　ＣＬＫ　ＲＡＭＷＥ）＆ｆＡ２＆　！　ＡＩ＆Ａ（１）　；実行ユニット１０４を、ブロック図の形で、一層詳細に第７図に示す。これに示した通り、実行ユニット１０４は、演算ユニット１４０、制御ユニット１４２、アドレス計算器１４４、及びブタ流れメモリ　１０２から制御ユニット１４２へ一定の信号を加えるのを調整し、遅らせるのに使用されるステージ遅れ１４６、から構成されている。ステージ遅れ１４Ｂはまた、第３図の説明に関して上述した通り、クロック発生器１１２により待ち信号を発生するのに使用される。ステージ遅れ１４Ｂは従来型の７４ＬＳＩ７４　Ｉ　Ｃチップとすることができる８ビツトラツチ（図示せず）７個から構成されている。これらチップの内の二つは、第５図を参照して上述したように、０ＰＣＯＤＥメモリ　１１Ｂにより発生された信号Ｒ０Ｐ（２３〜０）から対応する信号をラッチすることにより信号Ｃ０Ｐ（３〜４．１５〜１２．２２〜２０）を発生するのに使用される。ステージ遅れ１４６の８ビツトラツチの−っは信号Ｃ［１及びＣＢ（４〜０）を発生するのに使用される。

残りの四つのラッチは完全３２ビツトデ一タ語ＣＡ（１１１〜０）を発生するのに使用される。それぞれの場合において、ラッチはすべてクロック信号ＣＬＫ　ＰＩＰＨによりラッチされる。ステージ遅れ１４Ｂにより発生される信号はすべて演算ユニット１４０及び制御ユニット１４２に供給される。

演算ユニット１４０を第８図に一層詳細に示す。演算ユニット１４０は三つの主計算要素、即ち浮動小数点乗算器１５０、浮動小数点ＡＬＵ１５２、及びバレルシフタ１５４から構成されている。その他に、演算ユニット１４０はデコーダ１５Ｇ、及びステージ遅れとして使用される信号ＣＬＫ　ＰＩＰＥでクロックされるラッチ１５Ｂを備えている。デコーダ１５Ｂ及びラッチ１５Ｂはそれぞれチップ使用許可信号ＣＦＮＴＮ（Ｏ〜７）及びＷ　ＦＮＴＮ　（０〜７）を発生する。デコーダ１５Ｂのビット２及び３だけがそれぞれＡＬＵ１５２及び乗算器１５０を使用可能にするのに利用され、他のビットは将来の拡張用として保持されている。同じ理由で、ラッチ１５８により発生されたビットの内の一つだけが、即ちビット１がバレルシフタ１５４により利用される。デコーダ１５１１ｉは従来型の７４ＬＳ１３Ｂ　Ｉ　Ｃチップとすることができ、ラッチ１５Ｂは従来型の７４ＬＳ３７４　Ｉ　Ｃチップとできる。

この実施例においては、浮動小数点乗算器１５０、ＡＬＵ１５２、及びバレルシフタ１５４はすべて旧来の浮動小数点集積回路チップから構成した。乗算器１５０は１個の８２１１０１Ｃチツプから構成され、ＡＬＵ１５２は１個の８２１２０ＩＣチツプから構成されている。両チップとも（チップ使用許可信号を除き）同じ入力を備えており、共通の出力を生じる。

二ツノ場合とも、信号ＲＶＡＬＩＤｊ；１ｒＹＪ及び「Ｘ」の使用許可入力に加えられる前に反転される。両チップはクロック信号ＣＬＫ　ＰＩＰＥでクロックされ、ノードリセット信号ＲＥＳＥＴを受取る。上述の通り、乗算器１５Ｇ及びＡＬＵ１５２はそれぞれデコーダ１５Ｂから供給される信号ＣＦＮＴＮ３及びＣＦＮＴＮ２により使用可能となる・また１各チツプの場合、命令は０ＰＣＯＤＥメモリ　１１Ｂ（第５図）により発生される語出力ＲＯＰのビット７カラヒツト０で受取られる。最後に、各チップはパラメータメモリ　１１８（第５図）により発生される信号ＲＡ（３１〜０）及びＲＢ（３１〜０）で表されるｒＡＪ及びｒＢＪパラメータを受取り、３２ビツトの出力語Ｗ　ＡＮＳを発生する。その他に、各チップは動作を表す三つの状態信号、即ち出力なしを表す信号Ｗ　ＡＮＳＮ、ゼロ出力を表す信号Ｗ　ＡＮＳＺ、及び「否ｊ結果を表す信号Ｗ　ＡＮＳＮＡＮを発生する。これら三つの状態発生信号はすべて以下に記すように制御ユニット１４２（第７図）により使用される。

バレルシフタ１５４は、８ビツトラッチ５個とともに従来の７４ＡＳ８８３８バレルシフタから構成され、４個のラッチは７４ＬＳ３７４１　Ｃチップであり、エンコーダとして使用される１個は７４ＬＳ２４５１　Ｃチップである。エンコーダチップは、バレルシフタから発生される最上位ビット、即ち第３１ビツトから信号ＷＳＮＤＮ　（この信号は、応答が否定的であることを意味しており、第９図に関して以下に更に詳細に説明するように、制御ユニット１４２により利用される）を発生し、信号Ｗ　ＡＮＳＺ及びＷ　ＡＮＳＮＡＮに対する低信号を発生する（これにより、バレルシフタを利用する動作に意味がないため、七口結果または数でないこと、即ちエラーを表すこれら信号を無効にする）。４ｍのラッチはバレルシフタが発生した３２ビツトを全て受取り、出力語ＷＡＮＳを発生する。これはクロック信号ＣＬＫ　ＰＩＰＥからクロック信号が発生するまで遅れる。この信号ハエンコーダをクロックするのにも使用される。４個のラッチは・ラッチ１５８に関して上述したように、信号Ｗ　ＦＮＴＮＩにより使用可能となる。バレルシフタＩＣへの入力はステージ遅れ１４Ｂ（第７図）により発生された語ＣＯＰのビット１及びＯと共に語ＣＡの３２個のビットである。

従って演算ユニット１４０の三つの能動構成要素、即ち乗算器１５０、ＡＬＵ　１５２、またはバレルシフタ１５４により行われる特定の動作は、究極的には０ＰＣＯＤＥメモリ　１１Ｂに格納されており、信号ＲＡＤＲからアドレス線１６〜３により選択される語ＲＯＰのビット１５から１２までにより決まる。

実行ユニット１０４（第３図）の制御ユニット１４２（第７図）を第９図に示す。制御ユニッ）　１４２は、条件付き演算を行うのに必要な信号を発生し、これら信号はどの出力ＦＩＦＯに書込むのかを制御する。制御ユニット１４２からは二つの出力信号だけが発生される。即ち、信号Ｉ　５ＯＬＡＴＥ。

信号Ｗ　ＴＡＷＥ、及び信号Ｗ　ＴＢＷＥである。信号１ＳＯＬＡＴＥは制御ユニット１４２によりデータ流れメモリ１０２（第５図）に、更に詳細には、セレクタ１１２（第５図）の入力制御ＰＬＤに供給される。信号Ｉ　５ＯＬＡＴＥは、プロセッサを外部信号から分離し、内部ＦＩＦＯレジスタ１１０（第３図）から読みだしだけができるようにして処理が中断されないようにするために使用される。

制御ユニット１４２は多数の入力を受取る。第１に、上述のように、演算ユニット１４ｏノ乗算器１５０．　ＡＬＵ　１５２、またはバレルシフタ１５４のどれが一つが発生する三つの状態信号を受取る。また信号ＣＬＫ　ＰＩＰＥを受取るとと共にこれによりクロックされる。制御ユニット１４２は語ＣＯＰ　（７）　ヒー／ト２２〜２０、語ＣＡ及びＣＢのピッＨ１％　ａＲｏｐ、信号ＲＶＡＬ　Ｉ　Ｄ（７）ヒラ）２＋、及びデータ語ｗＴＡ及びＷ　ＴＢも受取る。出力信号Ｗ　ＴＡＷＥ及びＷ　ＴＢＷＥはそれぞれ内部ＩＦＯレジスタ１１０及び出力ＦＩＦＯレジスタ１０８（第３図）の中の各ＦＩＦＯレジスタを使用可能にするのに使用される。

制御ユニット１４２ハ四つノＰＬＤ　１６０，１６２．１Ｂ４及（Ｆ　ｌｅＢから構成されている。ＰＬＤ１６０は、好適には、ＩＢＲＢＩ　Ｃチップであり、他の三つのＰＬＤは１６Ｒ８１Ｃチツプである。

これらＰＬＤはＡＢＬＥプログラミング言語により次のようにプログラムされる。

ＰＬＤ　ｊ６０：賀ＴＢＯにＬ　−！（！ＨＯ＆　！）１１　＆　！８２）寥（＋Ｈｚ　＆　）１１　＆　ｆＮｏ　＆　＋賢Ａ３１）　１（！８２　＆　８１　＆　Ｎｏ　＆　！町Ｂ５１）害（）！２　＆　！８１　＆　！ＨＯ！　！（＆ＬＡｌｌＳ２ＲＯＳ　４ＡｌｌＳＮＥＧ））　！（８２＆　！Ｍｌ　＆　Ｎｏ　！　！ＩＪ−ＡＮＳＮＥＧ）　害（Ｈ２８８１！　ｆＮｏ　＆　！Ｗ、ＡＮＳＺＲＯ）　Ｓ　（）１２　＆　８１　＆　）１０　＆　ＷＡＮＳＮＡＩＩ）））ｌ　。

ＱＡＯＫＬ−！（ｆＮｏ　＆　！？ｆｌ　＆　！ｌｆ２目（！［２ｇ　８１　＆　ｆＮｏ　＆　！４４３１１　ｇ（！８２　ｇ　Ｈｌ　＆　Ｎｏ　＆　！Ｗ−８３１１客（８２８！ｔＩｔ　＆　ｆＮｏ　＆　ＪＡＮＳＺＲＯ客−ＩＡＮｓＮＥＧ））害（８２＆　！８１　＆　！）１０　＆　Ｗ　Ａ）ＩｓＮＥＧ））　＄＋８２１ｉ　ＨＩ　＆　！ＨＯ＆　％ＡＮＺＲＯ）　害（８２Ａ　ＭＩ　Ｓ　Ｎｏ　＆　！１ｊＡＮＳＮＡＩＩ用）；ＨＯ：〜Ｃ０Ｐ２Ｏ：Ｈｌ：菖Ｃ０Ｐ２１　；Ｍ２：麿Ｃ０Ｐ２２；賛Ａ３１　ニーＣＡ３１　。

ｉｌ　Ｆ１３１　ニーＣＢ３１　。

ＰＬＤ１６２：ｌ５ＯＬＡＴＥ−（（Ｒ０Ｐ２３８　Ｒ−ＶＡＬＩＤ１客Ｆｏ、ｌｓｏ日ｊＯＰＪｓＯｔ　Ｃ０ＰＩＳＯ＠　ｌＮｌ５ＯＬＡＴＦ）　：Ｃ，ｏＰ］ｓＯニーＲＯＰ２３　＆　ＲＶＡＬＩＤ　。

Ｗ−ＯＰＩＳＯニーＣ０ＰＩＳＤ。

ＦＯＪＳＯニーＩＬＯＰＩｓＯ；Ｃ−シＡＬＩＤ：寥Ｒ−ＶＡＬＩＤ　：［ＶＡＬＩＤニーＣＶＡＬＩＤ　：ＰＬＤ　１６４゜Ｔｒｐ　ＴＡＷＥ−！（（Ｗ　ＴＡ３１　＆　’ｄ−ＴＡ３０　ｇ　Ｗ、ＴＡ２９　＆　Ｗ−ＴＡ２８　＆　’ｄ−ＴＡ２７　ｋｐ　ＴＡ２U　Ｓ　’ｄ−Ｔｕ５１　＆ＰＬＤ　１６６：Ｗ−ＴＢＷＥｌ＝！（ｆＷＴ８３１　ｇ＝　ＬＩＢ３０　＆　Ｗ−ＴＥ２９　！ −％ＴＢ２８　＆　Ｗ−ＴＥ２７　Ｗ　ＴＥ０１　＆　１ｌ|ＴＥ１０１　Ｒ（１ｊＴＢ２４　＆　ＷＴＢ２３　＆　ＷｊＢ２２　Ｗ−ＴＥ２１　＆　Ｗ−ＴＥ２０　Ｓ　４すｓｉｃ＋　ｇ　２８１ｇ））実行ユニツ）　１０４の最後の構成要素、即ちアドレス計算器１４４（第７図）は、目標アドレスを処理するのに使用され、主としてＲＯＵＴ命令により使用される。好適実施例においては、アドレス計算器１４４は上述のチップ８２１２０のような浮動小数点演算論理ユニット即ちＡＬＵ　（図示せず）２個から構成される。各チップは、入力としてそれぞれＡパラメータ及び目標ＡアドレスまたはＢパラメータ及び目標Ｂアドレスを利用して３２ビツトの出力語（それぞれ信号Ｗ　ＴＡまたは信号Ｗ　ＴＢ）を発生する。適切なＡＬＵがＴＡＲＯＰからのビット１６または語ＲＯＰのビット１８により使用可能とされる。こうしてＲＯＵＴ　Ａ命令またはＲＯＵＴ　Ｂ命令を処理し、適切な出力アドレスを計算することができる。インバータはＢ２１２０Ａ　Ｌ　Ｕチップの入力ＣＩＥｉ、　ＤＩＳ、Ｅ１６及びＥ１７に加える反転信号Ｒ０Ｐ１６または１８を発生するのに使用され、非反転信号が入力Ｇ１５に加えられる。上述の通り、これら命令は指定されたパラメータ（即ち、ＲＯＵＴ　Ａ命令に対するパラメータｒＡＪ）に対する横断（ｐａｓｓ　ｔｈｒｏｕｇｈ）を行い、他のパラメータを使用して相対目的地アドレス、アドレス計算器１４４を構成する二つのＡＬＵの内の適切な一つにより計算されている実際のアドレスを運ぶ。この実施例ではＡＬＵチップを利用しているが、真に必要なのは、アドレス計算器の唯一の機能が適切な戻りアドレス（即ち、Ｗ　ＴＡまたはＷＴＢ）を選択することである場合、３２ビツトの２対１マルチプレクサ２個だけである。しかし、前記の通り、ＡＬＵチップを使用すれば、目的地アドレスに対して目標またはパラメータを使用できるというように、ある場合に一層多くの柔軟性が得られる。従って、相対的アドレッシングを行うことができる。例えば、ＲＯＵＴ　Ａ命令において、ｒＡＪＡＬＵを使用不能にし、ｒＢＪ　ＡＬＵを使用可能にすることができる。

アドレス計算器１４４の出力は、上述のように、信号ＷＴＡ及びＷ　ＴＢである。信号Ｗ　ＴＡは入力として内部ＦＩＦＯレジスタ１１０に送られ、信号Ｗ　ＴＢは入力トシて出力ＦＩＦＯレジスタ１０８（第３図）に送られる。また上述のように、使用可能である特定のＦＩＦＯレジスタは、制御ユニツ）１４２（第７図及び第９図）による信号Ｗ　ＴＡＷＥ及びＷ　ＴＢＷＥの発生によって決まる。使用可能信号が発生スルことの判断基準の一つは、アドレス情報が有効であることである。ＰＬＤＩＢ４及び１６６（第９図）はアドレス計算器１４４からの上位１４アドレスビツト（それぞれ、ビットＷＴＡ（１８〜３１）及びビットＷＴＢ（１８〜３１））を受取り、すべてが１であるか試験、し、１であることを検出すれば、ＦＩＦＯ使用可能信号の発生を禁止する。例えば、命令が発動準備未了であれば、アドレス計算器からの出力はゴミであって、適切なＦＩＦＯレジスタ１０８または１１０の一つに書込まれる代わりにシステムを通してクロックされる。

プロセッサ１００について記してきたので、１５６ビツトの完全なプロセッサ命令の２４ビツトオブコ一ド部分の機構を説明することができる。命令のオブコード部分には実行ユニット１０４及びクロック発生器１１２の構成要素により利用されるコードが含まれている。語の最下位ビット（Ｌ　Ｓ　Ｂ）端から始めて、最初の８ビツト、ビットＲＯＰ（７〜０）は、実行ユニット１０４（第３図）の演算ユニット１４０（第７図）の浮動小数点演算機１５０及び浮動小数点ＡＬＵＩ５２（第８図）の命令に使用される。その他、ビットＲ０Ｐ（４〜０）はステージ遅れ１４６（第７図）にラッチされ、後に規定時間になると、ビットＣ０Ｐ（４〜１）は信号ＷＡＩＴ（第４図を参照）を発生するクロック発生器１１２（第３図）を構成するＰＬＤの一つで使用される。その他に、信号ｃ　０Ｐ（１〜０）はバレルシフタにより回転の方向を設定するのに使用される。次の四つのビット、ピッ）ＲＯＰ（１１〜８）は予備であって、本発明では使用されない。次の四つのビット、ビットＲＯＰ（１５〜１２）は、ステージ遅れ１４６（第７図）にラッチされ、後に規定時間になるとビットＣ０Ｐ（１５〜１２）として現れる。ビットＣ０Ｐ１５はデコーダ１５６（第８図）を使用可能にするのに使用され、ビットＣ０Ｐ（１４〜１２）は復号すべきデコーダ１５６への三つの入力である。復号されるビットは信号ＣＦＮＴＮ　（７〜０）であり、その内の三つ、ＣＦＮＴＮ　（３〜１）は直接または最初にラッチされてから、浮動小数点乗算器１５０、浮動小数点ＡＬＵ、及びバレルシフタ１５４の内の一つだけを使用可能にするのに使用される。

その他に、ビットＣ０Ｐ（１３〜１２）は、ビットＣ０Ｐ（４〜１）と共にクロック発生器１１２で使用される。ピッ）ＲＯＰ（１９〜１６）はアドレス計算器１４４（第７図）に対する命令として使用される。実際には、この実施例では、ビットＲ０Ｐ１７及びＲ０Ｐ１９は使用されず、とットＲＯＰ１Ｂ及びＲ０ＰｌＢはそれぞれ、アドレス計算器１４４を構成する二つのＡＬＵ　（図示せず）のそれぞれ一つに単一の「整数加算」命令を押付けるのに使用される。ビットＲＯＰ　（２２〜２０）はステージ遅れ１４６（第７図）にラッチされ、後に規定時間になると、ビットＣ０Ｐ（２２〜２０）として現れ、これはＰＬＤ１８０で信号Ｗ　ＴＡＯＫＬ及びＷ　ＴＢＯＫＬを発生するのに使用される。これら信号は、今度は、それぞれ出力ＦＩＦＯレジスタ１０８または内部ＦＩＦＯレジスタ１１０（第３図）を使用可能にする信号ＷＴＡＷＥ及びＷ　ＴＢＷＥを発生するのに使用される。最後に、ビットＲ０Ｐ２３は孤立ビットであって、制御ユニット１４２（第７図）のＰＬＤ１６２（第９図）における信号ＲＶＡＬＩＤと共に信号Ｉ　５ＯＬＡＴＥを発生スルノニ使用される。

この実施例は特定の場合に対してかなりな柔軟性を付与するために浮動小数点加算器を使用しているが、アドレス計算器１４４に必要なのは３２ビツトの２対１マルチプレクサ２個である。

１プロセツサノードの実施例についての以上の説明は、単一ノードについて述べている。代わりに、ノ＼−ドウエアシステムを複数の同じノード１００及び制御用システムコンピュータから構成することもでき、これにおいてノードの構成は従来通りである。

■、模擬演算結果上述の基本ノード構成を機能レベル（プロセッサを構成するのに必要なＭＳＩ、ＬＳＩ及びＶＬＳＩ集積回路に対応する）での模擬も行った。シュミレータはＣ言語で書かれている。プロセッサを一度に１クロツクサイクル模擬する。こうして実施ハードウェアの性能を模擬性能と実施ノ１−ドウエアの最小クロックサイクルから計算することができる。

シュミレータを用いて実行した幾つかの簡単なプログラム及びその結果を本発明に必要な低レベルコードの例として添付書Ｂに示す。添付書８．　１では、簡単なＡＬＵの動作をコード化するアセンブリ言語を数列「１」、「１」、「２」、「３」、及び「４」の加算について示した。最終的な答えをホスト即ちシステムコンピュータの記憶場所３０００１に格納する。コード化は文に関する上述の要求事項を守っている。要約すれば、これらは第１行に対して次のようになる。

「ａ　１］は演算が行われていること及びこれがコード化の第１行であることを意味する。ｒＡＤＤＡＢＪは加算Ａ＋Ｂを表す命令文である。

「１」はパラメータＡである。

「１」はパラメータＢである。

「１８」は結果のラベルであり、第４行にあるような、０はラベルが割当てられていないことを表す。

「０」はホストアドレスへの影響がないことを表す＠「０」は粘着性ビットＡであり、このＡパラメータは常数である間は再び使用されないから設定されていないことを表す。

「１」は粘着性ビットＡであり、命令がパラメータメモリの記憶場所がアドレスされれば直ぐに発動されるべきことを表す。

添付書８．　２及び８．　３は比較的簡単であって、説明を加える必要はない。

添付書８．４は１回反復の条件付き実行の引数及び演算を実証している。数１を数−２０に順次加え、この結果を結果が０になるまでホストアドレス２０００に格納し、以後はホストアドレス３０００に格納する。仮の結果に「１８」のラベルを付け、「Ｂ」パラメータがＡパラメータに順次加えられている常数であるから、Ｂ粘着性ビットを設定する。装置の性能に更によくアクセルするため幾つかの更に困難な問題をも模擬した。これらには、添付書Ａに示した３次元ＰＩＣ（セル内の粒子：　ｐａｒｔｉｅｌｅ　ｉｎ　ｃｅｌｌ）の粒子押し部分、添付書Ｃに示した５ｉｎ（ｘ）の計算、及び添付書りに示したポアッソンの方程式の順次緩和解がある。シュミレータに対する問題のコード化はまったく人手で行い、数時間かかったが、アセンブラ／リンカ（Ｉ　ｊｎｋｅｒ）を使用することができる。

粒子押しは本発明により解くことができる直線コードを使用する問題の例であるが、このコードによる模擬性能は単一プロセッサノードに関する単一粒子に対して１２．６　ＭＦＬｏＰであった。単一粒子に関する単一ノードの性能は、この計算における膨大な「泡（ｂｕｂｂｌｅ）　Ｊ−プロセッサノードの半分にしか実行準備の整った命令が存在しない場所−により低下する。プログラムを変更してこれらの泡に他の粒子に関する動作を詰め、全体の処理量を増加することができた。独立に押される数百刃の粒子が存在するので、本発明による単一プロセッサノードは、問題の全体粒子押し段階に関してほとんどその最大処理量４０ＦＬＯＰに耐えるはずである。問題に存在する大量の並列処理も大量並列処理の理想的な候補対象となっている。しかし、この問題は良好にベクトル化しないので、これを従来のスーパーコンピュータで行うのはあまり能率が良くない。例えば、クレイの翔Ｐ−４／１Ｂは２５ＭＦＬＯＰ以下に制限される。このようなデータ駆動プロセッサは比較的低価格で且つ明らかに拡張性があるので、このような多数のプロセッサをこの問題に固有の大量並列処理を利用するのに使用することができる。

５ｉｎ（ｘ）の計算は先に説明した直線計算の一層困難な例である。使用する直列拡張には幾らかの並列性があり、計算は数個のプロセッサ間に分散することができる。

ポアッソンの方程式の順次緩和解（添付書Ｄ）は本発明の構成で反復法をどう使用することができるかを示している。解いた問題を第１０図に示す。基本的には、この問題は境界に沿うパラメータ（例えば温度）すなわちパラメータ１１〜Ｉ８を知り、内部パラメータＡ、Ｂ、Ｃ及びＤの値をめることからなる。初期条件によって境界パラメータには値が割当られており、内部パラメータは０であると仮定している。問題を時間反復の間に全変化の１０−１６以内に収束するように模擬した。内部パラメータの値を「答」（第１Ｏ図）に示す。単一プロセッサでは、プロセッサが約２９８ＩＰに耐えて５５回の繰返を要した。散布能力の限られた並列プロセッサを利用する本発明の実施により、問題が明白な重複を多数含んでいるため、この問題の解法の能力が向上する。

本発明のデータ流れプロセッサの命令発動の割合は、可変オペランド（粘着性タグなし）の固定オペランド（粘着性タグ）に対する比により、２メモリアクセス毎に１命令とアクセス毎に１命令との間で変えることができる。現在入手できるＣＭＯＳメモリで作られたＤＦＭプロセッサはそれ故２０と４０　ＨＩＰ　（毎秒百方命令）との間の持続性能を生じることになる。パラメータの明白な重複を必要としない問題は２０と４０ＭＦＬＯＰとの間の性能を示すが、明白な重複が必要なものはパラメータを複製するに必要な命令によりこれが劣化する。この構成により作られた並列プロセッサはプロセッサ間通信を行って（各ノードにプロセッサ間で伝えられたままのパラメータのコピーを使用させることにより）パラメータを複製することができる。

上述のＤＦＭ構成では命令は本質的に実行ユニットに結合されてそのメモリ内にあり、ロードの釣合いを幾分複雑にしている。（パラメータだけでなく）命令パケット全体を伝達し、分配させることは可能であるが、このような伝違は情報伝達帯域幅を高めるという要件を相殺する。めいれいをプロセッサ間で理性的に分配することにより、負荷ヲ良好に釣合わせておくことができる。ＤＦＭプロセッサ構成においての多少の費用増大だけで命令を再配分することができる。動作ばかりでなくパラメータもデータ流れメモリに伝えることができるからである。動作はタグなしパラメータのように処理される。

本発明のデータ流れプロセッサノードを共に使用する特定のネットワークトポロジーは、相互接続により導入される待ち時間を償うに十分な並列性が存在する限り達成される処理量への影響はほとんどないはずである。データ駆動処理により利用される並列処理が加わってこれら待ち時間を隠すのに役立つ。スイッチングネットワークは実際にどんな形態、２進ｎ立方体、リング状、メツシュ状、トリー（ｔｒｅｅ）状、あるいはこれらの組合わせを採ることもできる。

しかし、相互接続ネットワークは結果に、または問題を解くのに必要なコードには影響しない。ホストコンピュータはデータ流れ並列プロセッサに対する前置プロセッサとして使用することができる。このようなホストとの通信は、パラメータの転送及びホストと並列プロセッサとの間の関連目的地とから構成される。出力パラメータ及び目的地も直接グラフィックスインターフェースまたは他の出力装置に伝えることができる。入力は同様に大量格納所、通信リンクまたは他の装置から直接数ることができ、これにより別個のホストの必要性が除かれる。このような孤立データ流れ並列プロセッサは、なお直面すべき多数の研究問題を具合よく解決しなければならない。

次に第１１図を参照する。この図は別個の専用メモリ２００を使用するＲＯＵＴ命令を使用するアレイの流れ図である。

第１１図はまたデータをアレイ２０２として、入力の一つを目的地アドレスとして使用してアレイ内の要素（この例では２０Ｌ２０８，２１０，２１２，２１４及び２１６）に独立に且つランダムにアクセスするメモリ２００に、いかにして格納することができるかも実証している。アレイデータは第１のバレメータとしてＲＯＵＴ命令に格納される。計算に特定のアレイ値が必要なときは、データの記憶場所を計算しく従来の装置におけるアドレスの計算と同じ）、データを必要とする演算のアドレスをＲＯＵＴの第２のパレメータに送る。ＲＯＵＴ命令が発動され、アレイデータを戻りアドレスに送る。

アレイデータを再使用することがある場合には、タグを粘着性に設定する。次の要求（戻りアドレス）が送られるとＲＯＵＴ命令が再び発動される。アレイの格納及び利用をするこのモデルは計算駆動モデルに適合しているので、データ流れ処理の性能利益が維持されると共にハイブリッド構成に関連する問題が回避される。

このようなアレイ格納部が特殊なメモリボードとして設けられている場合には、ＤＦＭプロセッサノードの全メモリは、第２のパラメータ及び命令の格納装置のため浪費されることはなくなる。このような特殊ボードでは１．ボードにそのための機能があるので、ＲＯＵＴ命令または第２のパラメータのためのメモリを利用する必要がないからである。それ故メモリボードは従来のプロセッサのメモリボードと非常に良く似ている。このようにして、アレイはメモリを浪費することなく格納することができ、上述のデータ駆動動作により従来通りにアクセスすることができる。

本発明に関し、その典型的な実施例について説明してきたが、当業者が本発明の範囲及び技術思想の範囲内で変形及び修正を行うことができることは勿論である。

Ａ、セル粒子押出し内の粒子ａｘ　ＭＵＬＡＢ　Ｐ３Ｂ　ＢＩ　Ｐ３ＢＢｌ　ｏ。

ｍ　ＭＵＬ人ｌ３ＰＩＩ３　Ｉ３３　ＰＩＩ３ｒ３３　０Ｑｍ　ＭＵＬＡＢ　ＦＩＢ　Ｂ２　ＰＩＢＢ２　００ｍ　ＭＵＬＡＢ　ＦＩＢ　ＢＩ　Ｐ２ＢＢｌ　００ｍ　ＭＵＬＡＢ　ＰＩＣＩ　Ｆ２　、　ＰＩＣ２００ｍ　ＭＵＬＡＢ　Ｐ２ＣＩ　Ｆ２　Ｐ２Ｏ１００口　ＭＵＬＡＢ　Ｐ３ＣＩ　Ｆ２　Ｐ２Ｏ３００ｍ　ＭＵＬＡＢ　ＰＩＮＥＷ　ＰＩＮＥＷ　ＰＩＮＥＷＳＱ　０　０ｍ　ＭＵＬＡＢ　Ｐ２ＮＥ’ｌｌＶ　Ｐ２ＮＥＷ　Ｐ２ＮＥＷＳＱ　Ｏ０ｒｌＱ　ＭＵＬＡＢ　Ｐ３ＮＥＷ　Ｐ３ＮＥＷ　Ｐ３ＮＥＷＳＱ　０　０ｍ　ＭＵＬＡＢ　ＰＩＮＥＷ　０Ｍ人　ＶＩＮＥＷ　ＯＯｒｓ　ＭＵＬＡＢ　Ｐ２ＮＥＷ　Ｇｈｉ人　Ｖ２ＮＥＷ　ＯＯｒｎ　’に一４ＵＬ人Ｂ　Ｐ３ＮＥＷ　Ｇ５１Ａ　Ｖ３ＮＥＷ　ＯＯＤ　ＭＵＬＡＢ　ＤＴ　ＶＩＮＥＷ　ＤＥＬＴ人１　００ｍ　ＭＵＬＡＢ　ＤＴ　Ｖ２ＮＥＶ、’　ＤＥＬＴ人２　００ｍ　ＭＵＬＡＢ　ＤＴ　Ｖ３ＮＥＷ　ＤＥＬＴＡ３　００口　ＭＵＬλＢＢＩ　ＢＩ　ＢＩＳＱ　００ａ　ＤｒＶＡＢ　人２ＮＵＭ　人２ＤＥＳ　ＡＢ２　０　０ｈ　ＤｒＶＡＢ　ＦＯＮＵＭ　ＦＯＤＥＮ　ＦＯ００ａ　ＤｒＶＡＢ　３．ＯｅＢ　ＧＭ人ＤＥＮ　ＧＭ人　１０ａ　ＤｒＶＡＢ　Ｆ：２ＮＵＭ　Ｆ２ＤＥＮ　Ｆ２　００λ　人ＤＤ人Ｂ　ＰＩＡＳＱ　Ｐ２人ｓｑ　ｌ５ｓｑｐ人５ＱＯＯλ　人ＤＤ人Ｂ　ＩＳＭＰ人ＳＱ　ＰＺ人ＳＱ　ＳＭＰ人５ＱＯＯλ　人ＤＤＡＢ　ＳＭＰ人ＳＱ　０．９ｅ１６　人２ＤＥＮ２　０　１ａ　ＡＤＤＡＢ　５ＢＢ２ＳＱ　５ＢＢ２ＦＲＦｉｌ　００λ　人ＤＤ人ＢＦ１１　１　Ｆ１２　０１λ　ＡＤＤＡＢ　Ｂ　Ｉ　Ｓ　Ｑ　Ｂ　ｌ　！Ｓ　Ｑ　Ｉ　Ｓ　Ｕｈ　４　Ｂ　Ｓ　Ｑ　○　０λ　人ＤＤＡＢ　ＩＳＵＭＢＳＱ　Ｂ５５Ｑ　ＳＵ：’、ｉＢＳ：Ｑ　ＯＯａ　ＡＤＤＡＢ　Ｆ２ＤＥＮｌ　ｌ　Ｆ２ＤＥＮ　Ｏ１λ　人ＤＤＡＢ　ＰＩＯＬＤ　ＦＯＥＩ　Ｆ１人　ＯＤ八　人ＤＤ人Ｂ　Ｐ２０ＬＤ　ＦＯＥ２　Ｆ２人　００ａ　人ＤＤ人Ｂ　Ｐ３０ＬＤ　ＦＯＥ３　Ｆ３人　ＯＯａ　５ＵＢＡＢ　Ｐ２人Ｂ３ｐ３人Ｂ２　ＰＩＢＩ　ＯＯａ　人ＤＤ人Ｂ　Ｆ１人　ＦＩＢ２　ＦＩＢ　ＯＯＬ　ＳＵＢ人Ｂ　Ｐ３λＢＩ　Ｐ１人Ｂ３　Ｐ２Ｂ１　０　０Ｌ　ＡＤＤＡＢ　Ｐ２Ｂ２　Ｆ２人　ｐ２Ｂ　ＯＯＡ　ＳＵＢ人Ｂ　ＰＩ人Ｂ’２　ｐ　＝人ＢＩ　Ｐ３Ｅ３１　ｏ　０１　人ＤＤ人Ｉ３　Ｉ’３Ａ　ｒ’３Ｉ３２　Ｐ３Ｄ　００ａ　５ＵＢＡＢ　Ｐ２ＢＢ３　Ｐ３ＢＢ２　ＰＩＣＩ　ＯＯＬ　５ＵＢＡＢ　Ｐ３ＢＢＩ　ＰＩＢＢ３　Ｐ２Ｏ１００＆　ＳＵＢ人Ｂ　ＰＩＢＢ２　Ｐ２ＢＢＩ　Ｐ３Ｏ１００ａ　人ＤＤ人Ｂ　ＰＩλ　ＰＩＣ２ＰＩＣＯＯａ　人ＤＤ人Ｂ　Ｆ２人　Ｐ２Ｏ２Ｐ２ＯＯＯａ　人Ｄｒ１人Ｂ　Ｆ３人　Ｐ２Ｏ３Ｐ２ＯＣ’　０器　人ＤＤ人Ｄ　ＰＩＣＦＯＥＩ　ＰＩＮＥＷ　ＯＯＬ　人ＤＤ人Ｂ　Ｐ２ＯＦＯＥ２　Ｐ２ＮＥＶ、’　０　０λ　人ＤＤＡＢ　Ｐ２ＯＦＯＥ３　Ｆ３％Ｅ〜Ｖ　ＯＯＢ　見本コードＢ、工ＡＬＵの演算ｍｉ：（（ｘ十〇＋２）　＋３　＝　３００００．　（（（１＋１）　＋２）　＋３）　＋４−３０００１シユミレータ出カニホスト出力ａｄｒ寞３００００．　ｐａｒ＋＋＋　７．００００００ホスト出力ａｄｒｇ　３０００１．　ｐｈｒｗ　１１．００００００Ｅ、２　乗算器の演算・ｙｘ、　Ｑ　：　（（１ｍｌ）−２）傘３−３００００．　（（（１−１）−２）ｍ３）虐４−３０００１シユミレータ出カニホスト出力ａｄ＝　３００００．　ｐａｒ−６，ω■■ホス）出力ａｃＬｒＣ３０００ユ、　ｐ＊ニー　２４．０００αカＢ・３ＡＬＵ及び乗算器の演算ａｌ　ＡＤＤＡＢ　１　１　１８　１０　０１ホスト出力ａｄｒ−２００００，ｐｈｒｗ　２．ｏｏｃｐｏｏ。

ホスト出力ａｄｒｓ　２０００１．　ｐｈｒｗ　８．００００００ホスト出力　ａｄｒｔ　３００００．　ｐｔ＝７．００００１：カホスト出力ａｄｒｔ　３０００１．　ｐｔ＝　１１．００００００ｓＬｌｕ　０．５０００００フロツプ／パラメ一タアクセス乗　算　器　ｏ、５ｏｏＯＯｏ　フロップ／パラメータアクセス］３．４反復関数１＝−２０．出カｉ　＋　１−＝２０００　ｉ≧０まで、従って出カｉ→３００００シュミレータ出力、：ホスト出力ａｃｉｒｇ　２００００．　ｐｉｒｇ　−！８．００００００ホスト出力ｔｄ＝−２００００，ｐｈ＝＝　−５，００００００ホスト出力ａｄｒ＝　２００００．　ｐｅ−ｒ−−４，ＣＫ◇αカホスト出力　ａ！＝−３００００，ｐｉｒｇ　Ｏ，０ＯＣＫＸ刀Ｌｌｕ　０．９５０８２０フロツプ／パラメ一タアクセス乗　算　器　０・ｏｏｏｃＰｘ　フロップ／パラメータアクセスＢ、５　条件イ寸きｉ寅算関数：　ｌ　Ｘ　＋　３’　ｌ　＝　３００００．第１の事＠Ｘ＝４．ｙ＝１６．第２の事例ゝ＝４・Ｎ　Ｉ　ＣＡＤＤＡＢ４　１６　１９　ＺＣｆＡＯＯＯａ　２　ＳＵＢλＢ　Ｏｉ１９：　０　３００００　１　０シユミレータ出カニホスト出力ａｄｒｍ　３（１０ＧＯ，ｐｈｒ−：Ｏ，０ＯＯＯＣ０ユｌｕ　Ｏ，５０００００フロップ／パラメータアクセス乗　算　器’　０．８　７０ツ７／パラメ一タアクセス事例２　：ａ　Ｉ　ＣＡＤＤＡＢ　４　−１４　１９　３００００　０　０＆　２　ＳＵＢ人Ｂ　Ｏ１１９］　０　３００００１０シユミレータ出力　：ホスト出力ａｄｒ！３００００．　ｐａｒｓ　１０ＣＣ◇Ｃａａｌｕ　Ｏ，５０００００フロップ／パラメータアクセス乗　算　器　Ｏ−ωωＸフロップ／パラメータアクセスＣ，’　ｓｉ　ｒｘ　（ｘ　）の計算ｍＭＩＪＬ人Ｂ　Ｘ　Ｘ　Ｘ２　００ｍ　ＭＵＬ人ＢＸ　Ｘ２　Ｘ３　００ｍ　ＭＵＬ人ＢＸ３　Ｘ２　Ｘ５　ｏ。

ｍ　ＭＴＪＬＡＢ　Ｘ５　Ｘ２　Ｘ７　０　０ｍ　ＭＵＬＡＢ　Ｘ７　Ｘ２　Ｘ９　０　０ｍ　ＭＴＪＬＡＢ　Ｘ９　Ｘ２　Ｘｌｌ　ＯＯｍ　ＭＵＬＡＢ　ＸＩＩ　Ｘ２　Ｘ１３　０　Ｏａ　ＤｒＶ人ＢＸ３　３！　Ｘ３Ｆ　０１ａ　Ｄ■人ＢＸ５　５！　Ｘ５Ｆ　０１ａ　ＤｒＶＡＢ　Ｘ７　７ｉ　Ｘ７Ｆ　０１ａ　ＤｒＶＡＢ　Ｘ９　９！　Ｘ９Ｆ　Ｏ１ａ　ＤｒＶＡＢ　Ｘｌｌ　１１！　ＸＩＩＦ　Ｏ１ａ　ＤｒＶＡＢ　Ｘ１３　１３！　Ｘ１３Ｆ　Ｏｌａ　５ＵＢＢ人　Ｘ３Ｆ　Ｘ５Ｆ　Ｘ３５Ｆ　ＯＯａ　５ＵＢＢＡ　Ｘ７Ｆ　Ｘ９Ｆ　Ｘ７９Ｆ　ＯＯａ　５ＵＢＢ人　ＸＩＩＦ　Ｘ１３Ｆ　Ｘ１１１３Ｆ　ＯＯｈ　ＡＤＤＡＢ　Ｘ３５Ｆ　Ｘ７９Ｆ　Ｘ３５７９Ｆ　ＯＯλ　ＡＤＤＡＢ　Ｘ３５７９Ｆ　Ｘ１１１３Ｆ　ＡＬＬＦ　ＯＯ為　人ＤＤ人ＢＸ　人ＬＬＦ　２００００　０　０Ｄ　用頁　次　緩　和ｍ　ＰＡＳＳＡ　ｒｒＥＲ４１，０５ＴＥＰｃｔ　０　１！Ｌ　ＰＡＳＳＡ　０ＡＮＥＷ　５ＴＥＰａ　ＤＥＳＴＡ　００＆　ＰＡＳＳＡ　０ＢＮＥ’ｌｒＶ　５ＴＥＰｂ　ＤＥＳＴＢ　ＯＯａ　ＰＡＳＳＡ　ＣＣＮＥＷ　５ＴＥＰｃ　ＤＥＳＴＣＯＯａ　ＰＡＳＳＡ　ＱＤＮＥＷ　５ＴＥＰｄ　ＤＥＳＴＤ　ＯＯ２Ｌ　Ｐ人ＳＳ人　０ＩＮＣＲｃｔ　５ＴＥＰｃｔ　ＤＥＳＴｃｔ　ＯＯλ　人ＤＤＡＢ　ＩＮＣＲｃｔ　１．０　ＮＥＷｃｔ　Ｏ１ｍ　ＲＯＵＴＡ　ＡＮＥＷ　ＤＥＳＴＡ　Ｏ，０００ｍ　ＲＯＵＴＡ　ＢＮＥＷ　ＤＥＳＴＢ　Ｏ，０００！！ｌ　ＲＯＵＴＡ　ＣＮＥＷ　ＤＥＳＴＣＯ，０００ｍ　ＲＯＵＴＡ　ＮＥＷｃｔ　ＤＥＳＴｃｔ　Ｏ，０００＊　ＰＡＳＳＡ　人−１，０ＡＯＬＤ／ＡＩ　Ｏ１ｍ　ＰＡＳＳＡ　人１　１．０　人２７人４ＢＯ１ｍ　ＰＡＳＳＡ　人２　１．０　人４ＣＯ１λ　Ｐ人ＳＳ人　Ｂ　１．０　ＢＯＬＤ／Ｂｌ　０１ｍ　ＰＡＳＳＡ　Ｂｌ　１．０　Ｂ２７Ｂ４人　Ｏ１ｍＰ人ＳＳ人　Ｂ２　１．０　Ｂ４Ｄ　Ｏｉλ　Ｐ人ＳＳ人　Ｃ１，０Ｃ０ＬＤ／Ｃ１０１ｍＰ人ＳＳ人　ＣＩ　１．０　Ｃ２７Ｃ４人　０１ｍＰ人ＳＳＡ　Ｃ２１，ＯＣ４Ｄ　０１ｍ　ＰＡＳＳＡ　Ｄ２　１．０　Ｄ４ＣＯ１ＦＩ６．４データ、戻りアドレスＦ／θｊ１国際調査報告

Claims

【特許請求の範囲】１．外部ソースとの情報伝達が可能な少なくとも一つのプロセッサノードを応えたデータ流れ装置であって、前記プロセッサノードが、プロセッサと、前記プロセッサとは別のタグ付きデータ流れメモリとを有し、前記メモリは複数の記憶場所を有し、各記憶場所は命令を入れることができ且つ複数のアドレス可能な格納区域を有し、前記格納区域は、その第１の部分に少なくとも第１のデータパラメータを格納するための第１の区域，演算指示子を格納するための第２の区域，及び前記各パラメータ区域部に関連するフラグを格納するための第３の区域を含み、前記フラグは、前記パラメータ区域部に前記パラメータが存在することを表す状態を有しており、更に、記憶場所にある前記フラグの状態を判定し、所定のフラグ状態を検出すればそこに格納されている命令を発動させるための、前記メモリと関連した手段を有してなるデータ流れ装置。２．前記データ流れメモリが、前記パラメータ区域に第２のデータパラメータを格納するための第２の部分を更に備えており、そしてこれにまり前記第２のパラメータ区域部分に関連した第２のフラグも前記第３のフラグ区域が格納し、また前記第２のフラグは、前記第２のパラメータが前記第２のパラメータ区域部分に存在することを表す状態をしている請求項１記載のデータ流れ装置。８．各パラメータ区域部分がアドレス可能であり、前記第３のフラグ区域がフラグの数と同数の一以上の部分からなり、前記各フラグ区域部分がアドレス可能で且つ一つのフラグを格納するものである請求項２記載のデータ流れ装置。４．前記記憶場所が、前記第１のパラメータに関連した粘着性タグを格納する区域を更に備え、前記タグにより前記パラメータが常に準備が整っていることを表す状態に設定でき、また前記判定手段が、前記粘着性タグの状態を判定するためのものである請求項１記載のデータ流れ装置。５．前記各記憶場所は対応する複数のパラメータ及び関連するフラグとタグを格納するための固定された，所定数の区域を備えており、前記判定手段は記憶場所にある各フラグ及びタグの状態を判定しまた前記判定状態がすべて所定値のものであるとき、前記記憶場所の内容の少なくとも一部を出力する、請求項４記載のデータ流れ装置。６．更に外部ソースにそれぞれ接続されている入力ポート及び出力ポートと、前記入力ポートからデータを受取るように接続され、前記データを前記メモリに渡すように接続されている第１のＦＩＦＯレジスタと、前記プロセッサからデータを受取るように接続され、前記データを前記出力ポートに渡すように接続されている第２のＦＩＦＯレジスタとを更に備えている請求項１記載のデータ流れ装置。７．前記プロセッサノードが第２の入力ポートを障え、また前記第３の入力ポートに出力を供給するように接続されている別のプロセッサと、前記別のプロセッサとは別のものであって、データパラメータを格納する第１の区域，演算指示子を格納する第２の区域，及び前記パラメータに関連するフラグを格納する第３の区域を含む複数の格納区域を備え、そのパラメータが準備完了であることを表す状態を備えている別のタグ付きデータ流れメモリと、他のプロセッサノードからの入力を受取るための第１の別の入力ポート，前記別のプロセッサからの入力を受取るための第２の別の入力ポート，及び前記最初に述べたプロセッサからの出力を受取るための第３の別の入力ポートを備えている、前記別のメモリヘの複数の別のデータ入力ポートを備えている請求項６記載のデータ流れ装置。８．前記プロセッサ及び前記別のプロセッサは一方がＡＬＵで、他方が乗算ユニットである請求項７記載のデータ流れ装置。９．前記プロセッサからのデータを受取るように接続され、前記データを前記メモリに渡すように接続されている第３のＦＩＦＯレジスタを更に応えている請求項６記載のデータ流れ装置。１０．前記プロセッサが、並列に接続された乗算ユニット及びＡＬＵと、前記乗算ユニット及び前記ＡＬＵの一つだけをどんな特定の時刻にも使用可能にする手段とを有している請求項９記載のデータ流れ装置。１１．前記メモリは、前記プロセッサからの出力を格納する目標アドレスを提供するのに使用される情報を格納するための第４の区域を更に応えている請求項１記載のデータ流れ装置。１２．前記アドレス可能な格納区域の一つに選択的にアドレスするためのセレクタ手段を更に応えている請求項１記載のデータ流れ装置。１３．外部ソースにそれぞれ接続された入力ポート及び出力ポートと、前記入力ポートからのデータを受取るように接続され、また前記データを前記メモリに渡すように接続されている第１のＦＩＦＯレジスタと、前記プロセッサからのデータを受取るように接続され、また前記データを前記出力ポートに渡すように接続されている第２のＦＩＦＯレジスタを更に備えている請求項１２記載のデータ流れ装置。１４．前記プロセッサからのデータを受取るように接続され、また前記データを前記メモリに渡すように接続されている第３のＦＩＦＯレジスタを更に備えている請求項１３記載のデータ流れ装置。１５．前記記憶場所は前記第１のパラメータに関連する粘着性タグを格納する区域を更に備えており、前記タグにより前記パラメータが常に準備完了していることを表す状態に設定でき、また前記判定手段が前記粘着性タグの状態を判定するためのものでもある請求項１４記載のデータ流れ装置。１６．外部ソースとの情報伝達が可能な少なくとも一つのプロセッサノードを備えたデータ流れ装置であって、前記プロセッサノードが、プロセッサと、前記プロセッとは別のデータ流れメモリとを有し、前記メモリは複数の記憶場所を有し、各記憶場所は命令を入れることができる且つ複数のアドレス可能な格納区域を有し、前記格納区域は、それぞれ第１のデータパラメータ及び第２のデータパラメータを格納する第１及び第２のポートを有する第１の区域、及び演算指示子を格納するための第２の区域を有しており、更に、前記第１及び第２のデータパラメータの存在を判定し、前記存在を検出するとそこに格納されている命令を発動するための、前記メモリと関連した手段を有してなるデータ流れ装置。