JPH08241291A

JPH08241291A - プロセッサ

Info

Publication number: JPH08241291A
Application number: JP8002639A
Authority: JP
Inventors: Manoj Kumar; マノジ・クマー; Tsao Michael Mi; マイケル・ミ・ツァオ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1995-01-26
Filing date: 1996-01-10
Publication date: 1996-09-17
Anticipated expiration: 2016-01-10
Also published as: EP0724221A3; JP3101560B2; EP0724221A2; US5680597A

Abstract

(57)【要約】【課題】ＳＩＭＤコンピュータのプロセッサ中の異な
ったインストラクション（ＩＮＳＴ）の順序を実行する
ＰＥを与えること。【解決手段】本発明のＰＥは、データをストアするメ
モリと、同報通信されたＩＮＳＴを受け取る第１マルチ
プレクサ（ＭＸ）と、メモリ及び第１ＭＸに接続され、
第１ＭＸからの出力を受けて、メモリに出力するインス
トラクション・レジスタ（ＩＲ）と、ＩＲ及びメモリに
接続され、少なくとも１つのＩＮＳＴをストアする記憶
装置と、少なくとも１つのＩＮＳＴはメモリから読み取
られ、上記記憶装置にストアされるデータを含むこと
と、修正されたＩＮＳＴを作成するために少なくとも１
つのＩＮＳＴ全体を修正して、次のＩＮＳＴとして実行
するために記憶装置中に修正されたＩＮＳＴをストアす
る手段と、修正されたＩＮＳＴは、外部供給源から同報
通信されたＩＮＳＴによって選ばれた時に反復して使用
されることとを含む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、複数個の異なった
処理エレメント（ＰＥ）において異なったインストラク
ションを実行する場合でもコンピュータの良好な効率を
維持する、複数個のＰＥを含む「単一インストラクショ
ン・ストリーム複数データ・ストリーム（Single-Instr
uction-Stream-Multiple-Data-Stream−ＳＩＭＤ）」の
コンピュータ装置に関する。

【０００２】より詳細に言えば、本発明は、ローカル
（局部的な）インストラクション・バッファ、又はロー
カル・インストラクション・メモリを使用することによ
って、ＳＩＭＤコンピュータ装置を、アプリケーション
のより大きな組に拡張することができる方法及び装置に
関するものである。

【０００３】本発明を適用したＳＩＭＤコンピュータ装
置は、夫々の処理エレメントが局部的なインストラクシ
ョン源を持っている複数個の処理エレメントと、マルチ
プレクサ（ＭＸ）と、複数のインストラクションの同一
でない順序（sequence）を実行するために、同報通信さ
れたインストラクションを修正する手段とを含んでい
る。本発明は、インストラクションの論理インデックス
又はデータ内容に基づいて、異なった複数のプロセッサ
で異なった複数のインストラクションを実行させること
に向けられている。

【０００４】

【従来の技術】複数プロセッサによる並列処理は、例え
ばイメージ処理、天気予報、核反応計算、パターン認識
及び弾道ミサイル防衛などのような科学的又は工学的な
困難な計算問題を解くために必須の性能改善を達成する
ための最も有効なアプローチであると広く考えられてい
る。一般に、平列計算機は、夫々がデータ・メモリ及び
オペランド・レジスタを持っている一連の処理エレメン
ト（ＰＥ）を含んでおり、各ＰＥは相互接続ネットワー
クを介して相互接続されている。

【０００５】この場合、要求される性能の改善は、現在
用いられているベクトル・コンピュータ又は汎用コンピ
ュータによって得られる性能よりも数倍高い性能、即ち
将来開発されるであろうコンピュータから期待できる性
能である。複数プロセッサによる並列処理について最も
高い開発努力が払われている２つのアプローチは、上述
のＳＩＭＤのコンピュータ装置によるアプローチと、
「複数インストラクション・ストリーム複数データ・ス
トリーム（Multiple-Instruction-Stream-Multiple-Dat
a-Stream−ＭＩＭＤ）」のコンピュータ装置によるアプ
ローチとである。

【０００６】ＳＩＭＤコンピュータ装置によるアプロー
チは、個別の（private）データ・メモリと、中央制御
装置（例えば、中央処理装置（ＣＰＵ））から同報通信
された複数のインストラクション（例えば、プログラ
ム）を同じ順序で同時に実行する論理演算機構（ＡＬ
Ｕ）とを有する処理エレメントを多数含んでいる。より
特定して言えば、中央制御装置（例えば、アレイ・コン
トローラ）は、ホスト・コンピュータ又は同等の装置か
らの１つのプログラムにアクセスし、各プログラム・ス
テップを解釈し、そして、同じインストラクションをす
べての処理エレメントへ同時に同報通信する。従って、
個々の処理エレメントは、共通のインストラクション・
ストリームの制御の下で動作する。

【０００７】ＭＩＭＤコンピュータ装置によるアプロー
チは、処理エレメント自身のプログラム・メモリ及び制
御ユニットを持つ処理エレメントを多数含んでおり、こ
れらのメモリ及び制御ユニットは、１つのプログラムか
らの複数のインストラクションの同じでない順序で同時
に実行するよう処理エレメントを動作させる。従って、
ＭＩＭＤ並列コンピュータ装置は、アレイ状に配列され
た処理エレメントの各々が処理エレメント自身のデータ
によって処理エレメント自身の独自のインストラクショ
ン・ストリームを実行するような処理エレメントを持っ
ている。

【０００８】並列処理に対するＳＩＭＤコンピュータ装
置のアプローチ及びＭＩＭＤコンピュータ装置のアプロ
ーチの両方とも、それらのアプローチに関連した利点及
び不利点を持っている。

【０００９】例えば、ＳＩＭＤコンピュータ装置におい
て、処理動作を同期させるための負担を軽減するため
に、プロセッサ間の相互通信は、複数のプロセッサ中の
インストラクションの実行と同期することができる。

【００１０】更に、ネットワーク内の混信は、コンパイ
ル時に、プロセッサ相互の通信をスケジュールすること
によって除去することができる。この方法は、ネットワ
ークを、より高い通信帯域幅に維持することによって、
通信処理動作の負担を軽減することができるので、プロ
グラムの実行を一層効率的に行なうことができる。

【００１１】従って、演算処理単位が非常に規則的な構
成を持っているため、ＳＩＭＤコンピュータ装置の複数
のプロセッサの間でデータを仕切ることができ、従って
中央コントローラから各プロセッサへ送られる複数のイ
ンストラクションの同じ順序によって、データの異なっ
たセクションを処理することができる場合の問題につい
ては、通常、ＳＩＭＤコンピュータ装置は、ほぼ同じよ
うなハードウエアの複雑性を持っているＭＩＭＤコンピ
ュータ装置よりも秀れている。

【００１２】更に、ＳＩＭＤコンピュータ装置中の個々
のプロセッサは、プロセッサ自身のプログラム・メモリ
と、インストラクションの取り出し及びデコード用論理
回路とを持っていないので、ＳＩＭＤコンピュータ装置
は、少ないハードウエアで簡単な設計とすることができ
るから、開発及び製造コストを低下することができる。
現在、幾つかのＳＩＭＤコンピュータ装置が市販されて
いる。

【００１３】然しながら、疎（sparse）マトリックス・
ベースの演算処理のような或る種のアプリケーションに
おいては、異なる区画のデータは、低いデータ密度を持
つデータ区画のために最適化された異なったフォーマッ
トでストアすることができるので、同じインストラクシ
ョン順序によって、異なった区画のデータを処理するこ
とは厄介な処理である。従って、異なったフォーマット
でストアされているデータにアクセスするために、イン
ストラクションの異なった順序が必要とされる。計算
が、性質上非常に規則的で、均質であり、かつＳＩＭＤ
コンピュータ装置に対して良好に適合しているアプリケ
ーション（例えば、規則的なグリッドにより表現する技
術を用いた流体力学の計算アプリケーション）において
さえも、異質なコンポーネント、つまり、主演算が点在
されている境界エレメントの計算のような異質なコンポ
ーネントがある。このような異質なコンポーネントが存
在する場合には、ＳＩＭＤコンピュータ装置の最終的な
性能は低下される。

【００１４】例えば、物理的なシステムの動作をシミュ
レートするために使用される多くの数値演算方法は、複
数の性質（property）（例えば、温度、圧力、密度等）
の組としてシステムを表現している。これらの性質の各
々は、複数のグリッド・ポイントの集合の各ポイントに
おいて時間の関数として定義される。これらのグリッド
・ポイントの幾つかは、他のグリッド・ポイントによっ
て取り囲まれており、これらのグリッド・ポイントは内
部グリッド・ポイントと呼ばれる。グリッド・ポイント
の集合中の他のグリッド・ポイントは、シミュレートさ
れる物理的システムの境界の位置にあり、従って、他の
グリッド・ポイントによって完全に取り囲まれてはいな
い。これらは、境界グリッド・ポイントである。内部グ
リッド・ポイントの位置にあるシステムの作用（behavi
or）を正確にモデル化する数式、又は物理法則は、境界
グリッド・ポイントの作用をモデル化するために用いら
れる数式とはしばしば異なっている。その結果、内部グ
リッド・ポイントの作用を計算するために用いられるプ
ログラム、即ちインストラクション順序（sequence）
は、境界グリッド・ポイントの作用を計算するために用
いられるインストラクション順序とは異なっている。

【００１５】上述のタイプのアプリケーションが並列コ
ンピュータにプログラムされた時、シミュレートされる
物理的なシステムのグリッド・ポイントは、同じ個数の
グリッド・ポイントを受け入れた複数のＰＥの間で仕切
られる。プロセッサ間の相互通信に関する制限条件によ
って、通常、幾つかのＰＥ（処理エレメント）は内部グ
リッド・ポイントだけを受け入れ、それ以外の残りのＰ
Ｅは、割り当てられた内部グリッド・ポイントに加え、
それら残りのＰＥを通して配分された境界グリッド・ポ
イントとを持っている。６４個のグリッド・ポイントを
有する２次元のシステムを示している図８において、内
部グリッド・ポイントは、破線の交点の位置にある丸印
のマークによって示されており、他方、境界グリッド・
ポイントは、Ｘ印のマークによって示されている。若し
このシステムが１６個のプロセッサで構成されたＳＩＭ
Ｄコンピュータ装置においてシミュレートされるものと
すれば、１６個のプロセッサの間でグリッド・ポイント
を仕切った場合の１つの可能性ある態様が図９に示され
ている。この仕切り方法において、４個のプロセッサが
１つの内部グリッド・ポイント及び３つの境界グリッド
・ポイントを獲得し、８個のＰＥ（処理エレメント）が
２つの内部グリッド・ポイント及び２つの境界グリッド
・ポイントを獲得し、そして、残りの４個のプロセッサ
が４個の内部グリッド・ポイントを夫々獲得している。

【００１６】若し１６個のプロセッサから成るＳＩＭＤ
並列コンピュータ装置が、図９に従ってＰＥを仕切った
上述のシステムをシミュレートするために使用されたな
らば、中央コントローラは、内部グリッド・ポイントの
演算処理を４回行なうために必要とするインストラクシ
ョン順序を発生して、プロセッサＰ５、Ｐ６、Ｐ９及び
Ｐ１０を動作させることにより、これらのプロセッサに
割り当てられた計算を完了する。この期間の間で、プロ
セッサＰ０、Ｐ３、Ｐ１２及びＰ１５は、１つの内部グ
リッド・ポイントだけしか処理しないから、この期間の
３／４の間空転することになる。他の８個のプロセッサ
（Ｐ１、Ｐ２、Ｐ４、Ｐ７、Ｐ８、Ｐ１１、Ｐ１３、Ｐ
１４）は、期間の半分の間中空転する。内部グリッド・
ポイントの計算処理を４回行なうための上述のインスト
ラクション順序を発生した後、中央コントローラは、プ
ロセッサＰ０、Ｐ３、Ｐ１２及びＰ１５によりこれらの
プロセッサの演算を完了させるために、境界グリッド・
ポイント演算処理を行なうためのインストラクション順
序を３回取り出さなければならない。プロセッサＰ５、
Ｐ６、Ｐ９及びＰ１０は、この期間の間で空転し、残り
の８個のプロセッサは、この期間の２／３の時間しか利
用されない。

【００１７】ＭＩＭＤコンピュータ装置は、上述の状態
を処理する場合には、ＳＩＭＤコンピュータ装置よりも
遥かに効率的に処理することができる利点を持ってい
る。一般論として言えば、ＳＩＭＤコンピュータ装置の
処理エレメントは、ＭＩＭＤコンピュータ装置の処理エ
レメントよりも多数の処理エレメントを必要とするが、
より簡単である。

【００１８】従って、ＳＩＭＤ並列コンピュータ装置
は、或る種のアプリケーションにおいてＭＩＭＤコンピ
ュータ装置よりも秀れており、そして、ＭＩＭＤ並列コ
ンピュータ装置は、他のアプリケーションの場合にＳＩ
ＭＤコンピュータ装置よりも秀れている。今迄に、ＳＩ
ＭＤコンピュータ装置及びＭＩＭＤコンピュータ装置の
両方の性能を最適化したコンピュータは知られていな
い。

【００１９】初期のＳＩＭＤコンピュータ装置におい
て、大域インストラクションのコントローラ及び再ブロ
グラム可能なインストラクション・デコーダを有するア
レイ式のＳＩＭＤのプロセッサが与えられており、この
ＳＩＭＤコンピュータ装置において、プログラム可能な
デコード用ハードウエアが各処理エレメント中で使用さ
れている。このプログラム可能なデコード用ハードウエ
アは、このハードウエアに関連した制御ストレージ中に
異なった情報をロードすることによって、デコード用ハ
ードウエアが再プログラムされるまで、同じ態様でその
インストラクションに付加されたインストラクションの
選択されたビットを常に修正する。

【００２０】上述のコンピュータ・システムは、幾つか
の理由のため弱点がある。例えば、１つの弱点は、単一
のインストラクション、又は幾つかのインストラクショ
ン各々の幾つかのブロックをストアするためのローカル
・インストラクション・バッファが使用されていないこ
とである。

【００２１】更に、ＳＩＭＤコンピュータ装置のプロセ
ッサ中で、局部的にインストラクションを修正すること
の拡大解釈が知られている。殆どのＳＩＭＤコンピュー
タ装置は、プロセッサ中の動作を無効にするためのマス
ク・レジスタを使用している。並列コンピュータ装置
（例えばＧＦ１１並列コンピュータ）中の処理エレメン
トは、上述の従来のコンピュータにおいて提案されてい
るように、ネットワークのロード動作においてソース・
オペランドの選択を局部的に修正することができ、制限
された態様でＡＬＵ（論理演算機構）の動作を変更する
ことができ、そしてメモリ・アドレスを局部的に修正す
ることができる。

【００２２】然しながら、従来のコンピュータ・システ
ムにおいて、局部的に可能な修正のタイプは、処理エレ
メントにおいて実施されるハードウエア・サポートによ
って制限を受ける。従って、汎用目的のＡＬＵではない
他の回路が、修正されたインストラクションを論理演算
処理する必要があるので、修正可能な範囲には限界があ
る。

【００２３】実際上、従来のアプローチは、インストラ
クション中のオペランドの修正、より特定して言えば、
すべてのインストラクション中の同じ位置中に現われる
オペランドの修正に向けられている。従来のコンピュー
タ・システムにおいては、インストラクション全体をす
べて一括して修正する手段は存在しない。

【００２４】更に、上述の通常のコンピュータ・システ
ムにおいて、例えば、処理エレメントの論理的な接続度
（connectivity）が、プログラムの実行の全期間の間
で、物理的な近接体（ハードウエア的な接続度）及び論
理的な近接体（論理的な接続度）間でマッピングを行な
うことによって定義される場合のように、同じ修正が長
期間に亙ってすべてのインストラクションに適用されな
ければならない状態においては、プログラム可能なハー
ドウエア・サポートは有益である。この理由は、プログ
ラム可能なデコード用ハードウエアをプログラムするた
めの労力を費した後では、後続するインストラクション
を同じ態様で修正するための労力を必要としないためで
ある。

【００２５】然しながら、上述したような従来のアプロ
ーチの下では、プロセッサの論理インデックス、又はデ
ータ内容に基いて異なったプロセッサによって異なった
インストラクションを実行させることは、下記に説明す
るような厳しい制限を持っている。

【００２６】例えば、若しプログラム可能なデコード用
ハードウエアが、例えば、通常の検索テーブル（lookup
table−ＬＵＴ）を含むデコード用ハードウエアのよう
に単純なものであるならば、このアプローチを使用した
場合、すべてのインストラクション中の同じ位置におい
て生じ、かつ、すべてのインストラクション中において
同じ修正を必要とするオペランドを持つインストラクシ
ョンの中のビットだけしか修正することができない。こ
のことは、従来のコンピュータ・システムに深刻な制限
を与え、特に、ＯＰＣＯＤＥ（オペレーション・コー
ド）それ自身の修正は、簡単に行なうことはできない。

【００２７】更に、若しプログラム可能なデコード用ハ
ードウエアがインストラクションに対して、より包括的
な修正を行なうように設計されているならば、これは、
非常に複雑となり、又は非常に低速度となり、従ってＳ
ＩＭＤ的なアプローチの利点を失うことになる。

【００２８】従来の他のコンピュータ・システムにおい
て、ＳＩＭＤモード及びＭＩＭＤモードに再構成可能な
マルチプロセッサが提供されている。このコンピュータ
・システムにおける各処理エレメントは、共有された外
部インストラクション・メモリのキャッシュとして使用
される独立したインストラクション・メモリに接続され
ている。各処理エレメントは、他の順序付け信号、又は
同期信号を中央コントローラから受け取ることなく、Ｍ
ＩＭＤモードの完全な自律プロセッサとして動作する、
インストラクションの取り出し及びデコード用論理回路
を持っている。ＳＩＭＤモードからＭＩＭＤモードへモ
ード変換するため、及びＳＩＭＤモードにとどまって動
作するための特別の同期回路が与えられている。

【００２９】上述のコンピュータ・システムにも弱点が
あり、その弱点とは、複数のプロセッサにより専有され
る外部インストラクション・メモリか、又はプロセッサ
間で共有される外部インストラクション・メモリが存在
することである。これらのプロセッサは、自律的にイン
ストラクションを取り出すので、インストラクションの
取り出し及びデコード用論理回路と、同期回路とが各処
理エレメントの中に必要とされる。

【００３０】更に、この従来のコンピュータ・システム
において、各処理エレメント中のハードウェアと、各プ
ロセッサ用の独立したインストラクション・メモリと、
共有外部インストラクション・メモリと、インストラク
ションの取り出し及びデコード用論理回路と同期回路と
は、ＭＩＭＤモードで実行する処理エレメントに完全な
自律性を与える。然しながら、この余分の論理回路はコ
ンピュータ装置の複雑性を増加し、従って、多くの科学
的、又は工学的アプリケーションに対して顕著で付加的
な利益をもたらすことなく、処理エレメントのコストを
増加する。

【００３１】更にまた、従来の他のコンピュータ・シス
テムは、複数個の二次元的な処理エレメントを含んでお
り、この場合、アレイの１つの行中にあるすべてのプロ
セッサは、同じプログラムを実行し、つまりＳＩＭＤモ
ードで動作し、他方、異なった行のプロセッサは、相互
に独立して動作し、従って、行レベルにおいてＭＩＭＤ
モードで動作する。このコンピュータ・システムにおい
て、１つの行中の処理エレメントは、それらの処理エレ
メントが受け取った同一のインストラクションを局部的
に修正する能力を持っていない。

【００３２】図１はＳＩＭＤコンピュータ中の処理エレ
メント（ＰＥ）１の包括的な構成を示している。図１に
おいて、１つのＳＩＭＤコンピュータ装置の処理エレメ
ントと、他のＳＩＭＤコンピュータ装置の処理エレメン
トとの間の相異については省略してあるけれども、すべ
てのＳＩＭＤコンピュータ装置の必須の特性は示されて
いる。

【００３３】処理エレメント（ＰＥ）１によって実行さ
れるインストラクションは、図５に示されたインストラ
クションの外部供給源１００から受け取られ、外部供給
源１００は、例えば中央コントローラ、又はアレイ・コ
ントローラを含んでいる。代表例において、アレイ・コ
ントローラは、転じて、メーンフレーム・コンピュー
タ、又はパーソナル・コンピュータでもよいホスト・コ
ンピュータに接続されている。インストラクション・ワ
ードの幅は、コンピュータの設計者によって、必要に応
じて選択することができる。例えば、インストラクショ
ンのビット幅は３２ビット幅乃至２５６ビット幅であっ
てよい。

【００３４】図１において、インストラクション・レジ
スタ２にインストラクションを受け取ると、各インスト
ラクションは、ＰＥ１の個別（private）のデータ・メ
モリ３からのデータにアクセスし、そして、データ・メ
モリ３へデータを再度ストアし戻す前に論理演算機構
（ＡＬＵ）４を用いてこのデータに所望の論理演算を行
なうように実行される。

【００３５】また、インストラクションの一部は、図１
のインストラクション・レジスタ２と、図５に示した相
互接続ネットワーク１０２との間の転送を制御する。こ
れらのイスントラクションをストアするためのインスト
ラクション・メモリは存在しない。図１に示した個別の
データ・メモリ３は、レジスタ、キャッシュ・メモリ、
主メモリなどを含む階層的なメモリであってよく、この
場合、メモリ階層の種々のレベル間のデータの移動は、
中央コントローラから受け取ったインストラクションに
よって制御される。

【００３６】図１はインストラクション・レジスタ２か
ら、個別のデータ・メモリ３及びＡＬＵ４へ直接に制御
信号を送るように示しているが、インストラクションが
ＡＬＵ４及びデータ・メモリ３に適用される前に、中央
コントローラから受け取ったインストラクションを更に
デコードするための付加的な制御ロジックを、インスト
ラクション・レジスタ２に関連付けることができる。

【００３７】殆どすべてのＳＩＭＤコンピュータ装置中
のＰＥは、ＰＥ自身のデータ・メモリ３からのデータ、
又は通常は、条件コード・レジスタの内容に基いて、図
１において「無効」と表示された破線によって示されて
いるように、インストラクション・レジスタ２の中の現
在のインストラクションを部分的に無効にするか、又は
すべて無効にすることができる。インストラクションを
無効にするこの能力は、異なったデータに関して異なっ
た動作を遂行するために非常に有効な能力であるけれど
も、しかし、上述した殆どの状態の下では、異なったＰ
Ｅ中のインストラクションの同じでない順序を実行する
ためには柔軟性がなく、従って非常に非効率的である。

【００３８】

【発明が解決しようとする課題】従って、本発明の目的
は、従来のコンピュータ・システムにおける上述の問題
を解決するＳＩＭＤコンピュータ装置を提供することに
ある。

【００３９】本発明の他の目的は、複数のインストラク
ションを異なった順序で実行することのできる処理エレ
メントを有するＳＩＭＤコンピュータ装置を提供するこ
とにある。

【００４０】

【課題を解決するための手段】本発明を適用した構成
は、コンパイル時に、演算と通信とを計画することによ
って最適に使用することのできる単純で効率的なハード
ウエアを有するＳＩＭＤコンピュータ装置の利点を持っ
ている。

【００４１】また、従来のコンピュータ・システム中の
すべての処理エレメント（ＰＥ）において同じインスト
ラクション順序を実行する場合に、しばしば効率が著し
く低下する問題は、本発明の構成によって克服すること
ができる。

【００４２】特に、ローカル・インストラクション・バ
ッファ、又はローカル・インストラクション・メモリを
用いることによって、効率の低下は、以下に説明される
ように、効果的に回避することができ、ＳＩＭＤコンピ
ュータ装置の適用性は、従来よりも遥かに大きなアプリ
ケーションの組に拡張することができる。

【００４３】本発明は、以下に説明されるような３つの
ハードウエア構成と、インストラクションの異なった順
序を実行する能力をＰＥに与えるために、それらの構成
を、ＳＩＭＤ並列コンピュータ装置のＰＥ中に統合する
方法とを含んでいる。

【００４４】本発明のハードウエア構成は、ＰＥの設計
を単純化し、ＳＩＭＤコンピュータ装置の性能に殆ど悪
影響を及ぼさず、そして、上述したように、従来のＳＩ
ＭＤコンピュータ装置が持っている性能上の隘路を回避
したＳＩＭＤコンピュータ装置を与えることができる。

【００４５】本発明の第１の特徴に従って、単一のイン
ストラクションで複数のデータ・ストリーム（ＳＩＭ
Ｄ）を含むアレイ配列されたプロセッサが与えられ、こ
のＳＩＭＤアレイ・プロセッサは複数個の処理エレメン
トを含んでおり、各処理エレメントは、インストラクシ
ョンの外部供給源から同報通信されたインストラクショ
ンを受け取る。複数個の処理エレメント（ＰＥ）の各々
は、データをストアするためのメモリと、同報通信され
たインストラクションを受け取るための第１のマルチプ
レクサ（ＭＸ）と、第１のマルチプレクサからの出力を
受け取り、かつ制御信号及び上記メモリへの出力を与え
るために、上記メモリ及び第１のマルチプレクサに接続
されたインストラクション・レジスタと、少なくとも１
つのインストラクションをストアするための、インスト
ラクション・レジスタ及び上記メモリに接続されたスト
レージ手段であって、その少なくとも１つのインストラ
クションは、上記メモリから読み出されたデータを含ん
でおり、かつストレージ手段にストアされ、第１のマル
チプレクサは更にストレージ手段中の少なくとも１つの
インストラクションを受け取る、ストレージ手段と、修
正されたインストラクションを作成するために、少なく
とも１つのインストラクションを修正し、かつ、次のイ
ンストラクションとして実行するために、その修正され
たインストラクションをストレージ手段中にストアする
ための手段であって、その修正されたインストラクショ
ンは、外部供給源からの同報通信されたインストラクシ
ョンによって選択された時に繰り返して使用される、上
記手段とを含んでいる。修正する手段は、同報通信され
たインストラクションと修正されたインストラクション
との内、インストラクション・レジスタに出力すべき１
つのインストラクションを選択する装置を含んでいる。

【００４６】本発明の構成によって、従来のコンピュー
タ・システムの上述の問題は解決され、そして、本発明
のＳＩＭＤコンピュータ装置中の処理エレメントは、異
なったインストラクション順序を実行することができ、
そして、従来のコンピュータ・システムにおいてしばし
ば効率を著しく低下させるすべてのＰＥ中の同一インス
トラクションの実行を制限する問題が、ローカル・イン
ストラクション・バッフア、又はローカル・インストラ
クション・メモリを使用することによって克服すること
ができる。本発明の装置の処理効率は良好に維持するこ
とができ、かつＳＩＭＤコンピュータ装置の適用性は、
遥かに大きなアプリケーションの組に拡大することがで
きる。

【００４７】

【発明の実施の形態】図２を参照すると、ＳＩＭＤコン
ピュータ装置の処理エレメント（ＰＥ）２０によって複
数のインストラクションの異なった順序を実行させる回
路構造を示すブロック図が示されている。代表的な実施
例においてはアレイの形式にされ、かつ、図５に示され
ているように公知の態様で相互接続されるＰＥの数は、
ユーザの要求及びアプリケーションに従って選択するこ
とができる。処理エレメントの代表的な個数は８個から
６５５３６個までの範囲内で変化する。

【００４８】本発明の説明を簡明にするために、図２乃
至図４は、下記に説明されているように単一の処理エレ
メントを示している。更に、本発明の理解を容易にする
ために必要とされる主要な接続ラインだけが示されてい
る。図示されているように、接続ラインは単方向、又は
双方向のラインで示されている。

【００４９】図５に示したインストラクションの外部供
給源１００は、図５のインストラクション・バス１０１
を介して複数個のＰＥへ並列に同報通信インストラクシ
ョンを発行する。

【００５０】図２に戻って本発明の細部を説明すると、
処理エレメント（ＰＥ）２０は、図１に示された従来の
コンピュータ・システムのＰＥと同じように、インスト
ラクション・レジスタ２１、個別のデータ・メモリ２２
及び論理演算機構２３を含んでいる。

【００５１】然しながら、本発明に従ったＰＥ２０は、
「ローカル・インストラクション・バッファ」２４を含
んでおり、このローカル・インストラクション・バッフ
ァ２４において、インストラクションは、ＰＥの個別の
データ・メモリ２２からのデータを用いて組み立てるこ
とができ、次いで、局部的に組み立てられたこのインス
トラクションはＰＥ２０によって実行することができ
る。また、ＰＥ２０はマルチプレクサ２５及び選択ビッ
ト発生回路２６を含んでいる。

【００５２】インストラクション・ワードの幅はｉ個の
バイトの幅であり、かつｉ個のバイトの幅は、ｍバイト
（ｍ個のバイト）のデータ・メモリ幅より遥かに大きい
ものと仮定して、特別のインストラクションILOAD
（ｘ、Ａ）がＰＥ２０のインストラクション・セットに
付加される。ｘ及びＡがILOADインストラクションの即
時オペランドであるこの特別のILOAD（インストラクシ
ョンのロード）インストラクションは、データ・メモリ
２２のアドレスＡからｍバイトを読み出させ、かつ、ロ
ーカル・インストラクション・バッファ２４のｍ×ｘ乃
至ｍ×（ｘ＋１）_１アドレス位置にストアさせる。

【００５３】ILOADインストラクションを実行するため
に、ＰＥ２０は、読み取り駆動信号と共に、メモリ２２
のｍバイトのアドレス「Ａ」を制御ライン２９を介して
メモリ２２に送る。また、ＰＥ２０は、インデックスｘ
及び書き込み駆動信号を制御ライン２８を介してローカ
ル・インストラクション・バッファ２４に送る。制御ラ
イン２９上の読み取り駆動信号は、ローカル・インスト
ラクション・バッファ２４とＡＬＵ２３とに接続された
バス２７上に、メモリ２２のアドレスＡにあるｍバイト
を検索して読み出させる。制御ライン２８上の書き込み
駆動信号は、バス２７上の「ｍバイト」を、ローカル・
インストラクション・バッファのｍ×ｘ乃至ｍ×（ｘ＋
１）_１アドレス位置に書き込ませる。

【００５４】ＰＥ２０は局部的なオフセット値をアドレ
ス・フィールドＡに加えることによってILOADインスト
ラクションのアドレス・フィールドＡを局部的に修正す
る能力を持っている。この局部的オフセット値はデフォ
ルトのベース・レジスタ、すなわち汎用レジスタの内容
から与えられる。このような態様で同報通信インストラ
クションのアドレス・フィールドを修正する方法は公知
である。

【００５５】図５に示した外部供給源１００（例えば、
アレイ・コントローラ、又は中央コントローラ）からの
ｉ個のバイトの入力インストラクションと、ローカル・
インストラクション・バッファ２４からのｉ個のバイト
の入力とを受け取ったマルチプレクサ２５は、各マシン
・サイクルにおいて、中央コントローラからのインスト
ラクションか、又はＰＥのローカル・インストラクショ
ン・バッファ２４中のインストラクションの各ｍバイト
のブロックを選択する。このアプリケーションを遂行す
るマシン・サイクルは、インストラクションの外部供給
源（例えば、中央コントローラ又はアレイ・コントロー
ラ）の基本のタイミング・サイクルと同じタイミング・
サイクルである。

【００５６】選択されたインストラクションは、次のイ
ンストラクションとして実行されるように、インストラ
クション・レジスタ２１（バッファ）中にストアされ
る。マルチプレクサ２５による選択動作は、選択ビット
発生回路２６により発行された「選択ビット」によって
制御され、各選択ビットは、インストラクション・ワー
ドのｍバイトを選択するためにマルチプレクサ２５を制
御する。

【００５７】選択ビット発生回路２６の選択ビットは、
他の新しいインストラクション、SET_SEL_BITSインスト
ラクションを用いて中央コントローラによって設定さ
れ、そして選択ビット発生回路２６中にストアされる選
択ビット値は、このSET_SEL_BITSインストラクションの
即時オペランドとして与えられる。また、SET_SEL_BITS
インストラクションは外部供給源１００によってすべて
のＰＥに同報通信される。ライン２６ａは、選択ビット
発生回路２６の選択ビットを設定するために、SET_SEL_
BITSインストラクションの即時オペランドを、インスト
ラクション・レジスタ２１から選択ビット発生回路２６
へ送る接続線である。

【００５８】選択ビット発生回路２６は、選択ビットが
SET_SEL_BITSインストラクションによって確実にセット
されなければ、各マシン・サイクルにおいて自動的にク
リアされる。

【００５９】選択ビット発生回路２６は、プロセッサ特
有のデータに基づき、インストラクション中の幾つかの
マイクロ・オペレーションを中央コントローラ１００か
ら得て、他のマイクロ・オペレーションをプロセッサの
ローカル・インストラクション・バッファ２４から取れ
るようにしたことにより、中央コントローラから同報通
信されたインストラクションの部分的修正を行なえる。

【００６０】選択ビット発生回路２６の、より効果的な
他の使用方法は、ｍバイト・ブロックを制御するのでは
なく、各選択ビットによって１つのマイクロ・オペレー
ションを制御することである。

【００６１】これまでの説明は、インストラクション・
ワードの長さがデータ・メモリのワードの長さよりも遥
かに大きいものと仮定して説明してきた。若しインスト
ラクション・ワードの長さとデータ・メモリのワードの
長さとの差が大きくなければ、ローカル・インストラク
ション・バッファ２４中のローカル・インストラクショ
ンと、中央コントローラから同報通信されたインストラ
クションとの間でいずれかのインストラクションを選ぶ
ために、ただ１つの選択ビットを使用することが可能で
ある。この場合の代表的なシステムの例において、イン
ストラクション・ワードの長さは１６ビット幅乃至２５
６ビット幅であり、他方、データ・メモリのワードの長
さは３２ビット幅乃至６４ビット幅である。

【００６２】コンピュータ・プログラムを作成する模範
例を簡単にするために、選択ビット発生回路２６及びロ
ーカル・インストラクション・バッファ２４を制御する
マイクロ・オペレーションは、同報通信されたインスト
ラクションからのみ受け取ることが望ましい。このよう
な方法は、同報通信されたインストラクションの対応接
続ラインを、インストラクション・レジスタ２１へ直接
に配線することによってハードウエアで実施することが
できる。

【００６３】図２に示したシステムの動作について以下
に説明する。インストラクションの異なった順序をＳＩ
ＭＤコンピュータ装置のプロセッサの中で実行するため
に、先ず、短いインストラクション順序には、ＮＯ−Ｏ
Ｐ（無効）インストラクションで「パッディング」する
ことによって、すべてのインストラクション順序を同じ
寸法に揃える。このパッディング処理は公知の技術なの
で、これ以上の説明はしない。

【００６４】その後、上述のインストラクション順序中
の各インストラクションに対して、すべてのプロセッサ
により下記のステップが遂行される。

【００６５】先ず、すべてのＰＥによって実行されるべ
きインストラクションの中で同一でないマイクロ・オペ
レーション（またはｍバイト・ブロック）が、ローカル
・インストラクション・バッファ２４の中に組み立てら
れる。この組み立ては、２ステップ処理で行なわれる。
第１のステップにおいて、各ＰＥ中のインストラクショ
ンを修正するために必要とされるｍバイト・ブロック
は、各ＰＥの個別のデータ・メモリ２２において計算さ
れる。細部が後述されるこのステップは、これも後述す
る或る種の条件の下では省略することができる。次い
で、夫々がローカル・インストラクション・バッファ２
４中にｍバイトのブロックをロードするILOADインスト
ラクションが適切な数だけ、各ＰＥの個別のデータ・メ
モリ２２からローカル・インストラクション・バッファ
２４へｍバイト・ブロックを移動するために、アレイ・
コントローラ１００によって発行される。

【００６６】次に、SET_SEL_BITSインストラクションも
また中央コントローラ１００によって発行される。この
インストラクションを実行することにより、次のインス
トラクションは、ローカル・インストラクション・バッ
ファ２４からのプロセッサ特有のマイクロ・オペレーシ
ョンを含み、残りのマイクロ・オペレーションは、中央
コントローラによって同報通信されたインストラクショ
ンから取り出される。

【００６７】中央コントローラ１００から同報通信され
たインストラクションを修正するために後で使用される
ｍバイト・ブロックを、ＰＥの個別のデータ・メモリ中
で組み立てるために、build_code_sequenceと呼ばれる
インストラクションの順序が、アレイ・コントローラ１
００（外部供給源）から各ＰＥに同報通信される。然し
ながら、各ＰＥは、その個別のデータ・メモリ２２の中
に異なったデータを持つことができるから、build_code
_sequenceによって計算された上述のｍバイト・ワード
は、各ＰＥにおいて異ならせることができる。更に、図
２に示され、既に説明したように、同報通信された任意
のインストラクションの実行を局部的に無効にする各Ｐ
Ｅの能力は、異なったｍバイト・ワードを各ＰＥの中に
組み立てるのにも用いることができる。同報通信された
インストラクションの実行は、ＰＥのインストラクショ
ン・セットの他のインストラクションによって設定する
ことのできる条件コード・レジスタ中の特別のビットの
ようなプロセッサ特有のデータに基づいてＰＥの中で局
部的に無効にされる。

【００６８】図６は、build_code_sequenceインストラ
クションを実行した後のデータ・メモリであって、関連
するＳＩＭＤコンピュータ装置の２つのＰＥのデータ・
メモリ２２を示す図である。これらのbuild_code_seque
nceインストラクションによって計算され、そして、ア
ドレスＡの位置で開始したＰＥ個別データ・メモリ２２
中にストアされたインストラクション・ワードのｍバイ
ト・ブロックは、２つのＰＥの中では異なったバイト・
ブロックであり、コード１及びコード２で示されてい
る。

【００６９】若し同報通信されたインストラクションを
修正するために必要とされるｍバイト・ブロックが、前
に同報通信されたインストラクションを修正するために
既に計算されており、後で使用するために、ＰＥの個別
データ・メモリ２２中の同じ位置中にストアされている
ならば、build_code_sequenceインストラクションは必
要としない。

【００７０】代案として、同報通信されたインストラク
ションを修正するために異なったＰＥによって使用され
るｍバイト・ワードの異なった組は、コンパイル時に計
算することができ、そして、このようなｍバイト・ワー
ドの組は、プログラムがアレイ・コントローラ１００中
にロードされる時に、すべてのＰＥの個別データ・メモ
リ２２中にロードすることができる。

【００７１】図７は２個のＰＥを示しており、ＰＥ１及
びＰＥ２は夫々コード１及びコード２と記載されたｍバ
イト・ブロックの２つの組をストアしている。ここで、
各コード・ブロックは、同じ長さ（例えばＬ個のｍバイ
ト・ワード）を持っており、かつ、各コード・ブロック
は、夫々、アドレスＢ１及びＢ２の位置で開始し、各Ｐ
Ｅ中の同じ位置にストアされているものと仮定する。同
報通信された１つのインストラクションがＰＥ１中のコ
ード１及びＰＥ２中のコード２を用いて修正されなけれ
ばならない場合、Ｌ個のILOADインストラクションが中
央コントローラから同報通信される。同報通信されたIL
OADインストラクション中で特定されたアドレスＡ、Ａ
＋１、．．．、Ａ＋１_１は、既に説明されたようなプ
ロセッサ特有の局部的オフセット値を加えることによっ
て、ＰＥ１により、アドレスＢ１、Ｂ１＋１、．．．、
Ｂ１＋１_１に修正され、そして、ＰＥ２により、Ｂ
２、Ｂ２＋１、．．．、Ｂ２＋１_１に夫々修正され
る。その結果、ＰＥ１はそのローカル・インストラクシ
ョン・バッファ２４中にコード１がロードされ、他方、
ＰＥ２はそのローカル・インストラクション・バッファ
中にコード２がロードされる。

【００７２】ＰＥ自身のデータ・メモリ２２からのデー
タに基づく図１に示されたシステムと同じように、ＰＥ
は、図２中で「無効」と表示された破線により示されて
いるように、インストラクション・レジスタ２１の中の
現在のインストラクションの一部、又はすべてを無効に
することができる。

【００７３】上述した構成及び方法は非常に単純である
けれども、これらは或る種の効率の悪さを持っている。

【００７４】例えば、インストラクションの異なった順
序中の各インストラクションに対して、ＰＥは幾つかの
ILOADインストラクションと１つのSET_SEL_BITSインス
トラクションとを実行しなければならない。若し異なっ
たインストラクション順序が繰り返し実行されたなら
ば、build_load_sequenceインストラクションを設けた
ことによるコストは、異なったインストラクション順序
の繰り返し実行により償却できる。

【００７５】然しながら、反復して実行されるインスト
ラクションの異なった順序がインストラクション順序中
に２以上のインストラクションを持っている場合には、
複数のILOADインストラクションが、インストラクショ
ン順序の繰り返し毎に、インストラクション中の各イン
ストラクションのために必要とされる。

【００７６】図３は図２に示された実施例の構造（及び
関連した方法）を改善した本発明の第２の実施例を示す
図である。

【００７７】特に、ローカル・インストラクション・バ
ッファの中にプロセッサ特有のインストラクションを組
み立てるために使用されるILOADインストラクション動
作の負担を軽減するために、図２に示したローカル・イ
ンストラクション・バッファ２４は、図３に示したプロ
グラム・メモリ３４によって置き換えられる。プログラ
ム・メモリ３４は多数の（好ましくは１Ｋワード乃至１
６Ｋワード）インストラクション・ワードを含んでい
る。プロセッサ特有のインストラクションは、既に説明
したように、ILOADインストラクションを用いることに
よってプログラム・メモリ中のインストラクション・ワ
ードに組み立てることができる。この実施例において、
ILOADインストラクションは、プログラム・メモリ３４
中のインストラクション・ワードを選択するための付加
的な即時オペランドを持っている。

【００７８】図３に示した第２の実施例の処理エレメン
ト（ＰＥ）３０は、図１に示した従来のコンピュータ・
システムのＰＥ１と、図２に示した本発明の第１の実施
例のＰＥ２０の構造と同じように、インストラクション
・レジスタ３１、個別のデータ・メモリ３２及びＡＬＵ
３３を含んでいる。

【００７９】然しながら、本発明の第２の実施例のＰＥ
３０は、プログラム・メモリ３４、Ｉｃｏｕｎｔレジス
タ３５、ベース・アドレス・レジスタ３６、マルチプレ
クサ３７、ゼロ検出論理回路３８、減算器３８及びマル
チプレクサ４０を含んでいる。第２の実施例のＰＥ３０
の細部を以下に説明する。

【００８０】既に説明したように、図２のローカル・イ
ンストラクション・バッファ２４中にプロセッサ特有の
インストラクションを組み立てるために使用されるILOA
Dインストラクション動作の負担を軽減するために、図
２に示されたローカル・インストラクション・バッファ
２４は、図３に示されているように、多数のインストラ
クション・ワードを含むプログラム・メモリ３４によっ
て置き換えられている。

【００８１】第２の実施例において、ILOADインストラ
クションは、３個のオペランドを持っており、ILOAD
（ｘ、Ａ、Ｂ）で示した簡略的なコードで特定されてい
る。ｘ及びＡオペランドは図２のものと同じ機能を持っ
ており、その意味は既に説明した通りである。新しいオ
ペランドＢは、ILOADインストラクションによって更新
されるプログラム・メモリ３４中のインストラクション
・ワードを選択する。従って、ILOAD（ｘ、Ａ、Ｂ）を
実行すると、ＰＥのデータ・メモリのアドレス・フィー
ルドＡからｍバイト・ワードが読み取られ、ＰＥのプロ
グラム・メモリのアドレス・フィールドＢのｍ×ｘ乃至
ｍ（ｘ＋１）_１アドレス中にストアされる。

【００８２】ブログラム・メモリ中の各インストラクシ
ョン・ワードは選択ビットの異なったパターンを要求す
ることができる。図３において、選択ビットによる援助
動作は示されていないから、従って、インストラクショ
ンのすべてのｍバイト・ブロックは、同報通信されたイ
ンストラクションから取り出されるか、又はプロセッサ
のローカル・プログラム・メモリ３４から取り出される
すべてのインストラクションから取り出される。然しな
がら、インストラクションに用いられる選択ビットをイ
ンストラクション・ワードと共にストアするなど、各プ
ロセッサ中のローカル・プログラム・メモリ３４のワー
ド・サイズを増加することは比較的容易にできる。イン
ストラクション・ワードがプログラム・メモリから読み
出される時、選択ビットを分離し、マルチプレクサ３７
用の制御信号を発生するためにゼロ検出論理回路３８の
出力と組み合せることができる。

【００８３】Ｉｃｏｕｎｔレジスタ３５及びベース・ア
ドレス・レジスタ３６はＰＥの個別のインストラクショ
ン・メモリ３４からのインストラクションの順序を実行
するために与えられている。これらのレジスタ３５及び
３６は、図２に示した選択ビット・レジスタ２６に置き
代わっている。

【００８４】第２の実施例においては、選択ビット・レ
ジスタ２６（図２参照）の中に書き込むインストラクシ
ョンの代わりに、新しい２つのインストラクションが与
えられている。

【００８５】第１のインストラクション、SET_ICOUNT
(x)はＩｃｏｕｎｔレジスタ３５の中に即時オペランド
を書き込むためのインストラクションである。SET_ICOU
NT(x)を実行すると、Ｉｃｏｕｎｔレジスタ３５がｘ値
に設定される。第２のインストラクションLOAD_BASE(A)
を実行すると、データ・メモリ３２のアドレスＡからデ
ータ（ｍ個のバイト）を読み取り、そしてデータ・メモ
リ３２から読み取られたデータはベース・アドレス・レ
ジスタ３６中にストアされる。Ｉｃｏｕｎｔレジスタ３
５は、現在のインストラクションによってセットされな
いかぎり、常にゼロになるまで減らされていく。

【００８６】Ｉｃｏｕｎｔレジスタ３５の中にゼロでは
ない値があれば、ＰＥは、中央コントローラから同報通
信されたインストラクションではなく、ＰＥ自身のプロ
グラム・メモリ３４から次のインストラクションを選択
する（マルチプレクサ３７を通して）。

【００８７】プログラム・メモリ３４のインストラクシ
ョン・アドレスは、ベース・アドレス・レジスタ３６の
内容から、Ｉｃｏｕｎｔレジスタ３５の内容を差し引く
ことによって得られる。ＰＥのローカル・プログラム・
メモリ３４からのインストラクションの順序を実行する
ために、プログラム順序中の最後のインストラクション
のアドレスは、LOAD_BASEインストラクションを用いて
ベース・アドレス・レジスタ３６の中にストアされる。
同報通信されたLOAD_BASEインストラクションを実行し
た後に、各ＰＥは、それ自身のベース・アドレス・レジ
スタ３６の中に異なった値を持つことができる。

【００８８】その後、値Ｓが、Ｉｃｏｕｎｔレジスタ３
５の中にストアされ、これにより、次のＳ個のインスト
ラクションは、プロセッサのローカル・プログラム・メ
モリ３４から実行させる。

【００８９】若し同報通信されるインストラクションの
幅が、設計上の重要な要素でなければ、ローカル・イン
ストラクションと同報通信されたインストラクションと
の間で何れかを選ぶマルチプレクサ３７は、Ｉｃｏｕｎ
ｔレジスタ３５に接続されたゼロ検出論理回路３８によ
るのではなく、同報通信されるインストラクション中に
特別のビットを設けることによって直接に制御すること
ができる。

【００９０】図３に示した記号「Ａ」は、プログラム・
メモリ３４のためのアドレス用の接続ラインを示してい
る。記号「ＷＥ」で示した信号は、ｉ÷ｍ個の書き込み
駆動信号を表しており、この書き込み駆動信号はインス
トラクション・ワードの各ｍバイト・ブロック毎に１個
づつある。ＷＥ信号は、通常、高位に保たれているが、
ＷＥ信号の内の１つの信号は、１つのILOADインストラ
クションの間で低位にセットされ、そして、アドレス用
接続ラインＡによって選択されたプログラム・メモリ３
４中のワードの対応するｍバイト・ブロックの中に、デ
ータ・メモリ３２から読み取られたデータを書き込ませ
る。記号「ＤＩＮ」で示された接続ラインは、ILOADイ
ンストラクションによってデータ・メモリ３２から読み
取られたデータをプログラム・メモリ３４の中に転送す
る。

【００９１】マルチプレクサ４０の出力は、アドレス用
接続ラインＡを介してプログラム・メモリに与えられ
る。ILOADインストラクションを実行している間で、プ
ログラム・メモリ３４に与えられるアドレスは、同報通
信されたILOADインストラクションの即時オペランドで
あり、そしてライン４０ａを介してインストラクション
・レジスタ３１からマルチプレクサ４０へ与えられる。
すべてのＷＥ信号のＡＮＤ論理演算の結果はマルチプレ
クサ４０のための制御入力として用いられる。ＷＥ信号
の内の１つの信号はILOADインストラクションの間で低
位なので、マルチプレクサ４０への制御入力は、ILOAD
インストラクションの間で低位であり、従って接続ライ
ン４０ａ上のアドレス信号はプログラム・メモリ３４へ
与えられたアドレス信号として選択される。

【００９２】ＰＥがILOADインストラクションを実行し
ない時には、マルチプレクサ４０は減算回路３９によっ
て与えられた他の入力を選択し、そして、プログラム・
メモリ３４へ与えられるアドレス信号は、ベース・アド
レス・レジスタ３６の内容からＩｃｏｕｎｔレジスタ３
５の内容を差し引いた値を持っている。

【００９３】ＳＩＭＤコンピュータ装置のＰＥが異なっ
たインストラクション順序を実行しなければならない
時、インストラクション順序全体は、インストラクショ
ン順序から任意のインストラクションが実行される前
に、プログラム・メモリ３４において組み立てられる。
この動作は、プログラム・メモリの連続した位置に一時
に１個づつインストラクションを組み立てることによっ
て行なうことができる。プログラム・メモリ３４の特定
のワードＢの中にインストラクションを組み立てる方法
は、前述したローカル・インストラクション・バッファ
２４の中にインストラクションを組み立てる方法と同じ
である。

【００９４】インストラクションの順序全体がＰＥのプ
ログラム・メモリ３４の中に組み立てられた後、そのイ
ンストラクション順序は、下記のようにＰＥによって実
行することができる。ここで、インストラクション順序
の中にＳ個のインストラクションがあり、最初のインス
トラクションはアドレス位置Ａにストアされているもの
とし、従って最後のインストラクションはアドレス位置
Ａ＋Ｓ_１にストアされているものと仮定する。先ず、
ベース・アドレス・レジスタ３６の中にＡ＋Ｓ値をロー
ドするために、LOAD_BASE(A+S)インストラクションが発
生される。次に、Ｉｃｏｕｎｔレジスタ３５の中にＳ値
をロードするために、SET_ICOUNT(S)インストラクショ
ンが発生される。

【００９５】その結果、次のＳ個のサイクルの間で、Ｉ
ｃｏｕｎｔレジスタはＳから０に逓減し、そして、この
レジスタがＳ個のサイクルの間の計数値、即ちＳ、Ｓ_
1、Ｓ３、．．．、１の値のような０でない値を取って
いる間で、インストラクションは、プログラム・メモリ
３４のアドレス位置Ａ、Ａ＋１、．．．、Ａ＋Ｓ_１か
ら読み取られ、これらのインストラクションは、マルチ
プレクサ３７によって選択され、実行するために、イン
ストラクション・レジスタ３１の中にストアされる。

【００９６】LOAD_BASEインストラクション及びSET_ICO
UNTインストラクションは中央コントローラ１００から
すべてのＰＥに同報通信される。ＰＥは、同報通信され
たインストラクションをベース・アドレス・レジスタ３
６にストアする前に、プロセッサ特有のオフセット値を
LOAD_BASEインストラクションの引数に加える。

【００９７】若し、ＰＥが異なったインストラクション
順序を再度実行しなければならず、かつ、各ＰＥがそれ
自身のローカル・プログラム・メモリ中に既にロードさ
れているインストラクションを、そのＰＥ自身で実行す
る必要があるならば（これは、同じインストラクション
順序がそのＰＥによって既に実行されているからであ
る）、ＰＥのローカル・プログラム・メモリ３４からの
インストラクション順序の実行を再開始することには、
LOAD_BASEインストラクション及びSET_COUNTインストラ
クションだけしか必要としない。従って、異なったＰＥ
に割り当てられたインストラクションの異なった順序が
繰り返し実行されねばならない場合、インストラクショ
ン順序を繰り返し実行する負担は、図２の実施例により
インストラクション順序を繰り返し実行する負担よりも
著しく軽減される。

【００９８】最後に、若し、良好な性能を達成するため
に、ＳＩＭＤコンピュータ装置の異なったＰＥによって
同時に実行されねばならないインストラクションの異な
った順序を、コンパイル時において決定することができ
るならば、そのコンパイラは、プログラムがアレイ・コ
ントローラ１００の中にロードされる時に、ＰＥのロー
カル・プログラム・メモリ３４の中にロードされるべき
インストラクション順序を発生することができる。図２
のコンピュータ・システムを動作した場合と同じよう
に、すべてのインストラクション順序は各ＰＥのローカ
ル・プログラム・メモリ３４の中にロードすることがで
き、そしてＰＥは、所望のインストラクション順序を選
択するためにLOAD_BASEインストラクションのオペラン
ドを局部的に修正することができる。

【００９９】繰り返しになるが、プログラムの模範例を
簡単に保つために、ローカル・プログラム・メモリ３４
中にストアされるインストラクションは、Ｉｃｏｕｎｔ
レジスタ３５の内容を変更することはできない。また、
望ましくは、LOAD_BASE及びILOADインストラクションの
ＯＰコードは、ローカル・プログラム・メモリ３４から
発行されるべきでない。

【０１００】図４は本発明の第３の実施例を説明するた
めの図である。図４の改良された処理エレメント４１
は、図１に示した従来のシステムの構造と、図２及び図
３に示した本発明の第１及び第２の実施例のＰＥの構造
と同じようなインストラクション・レジスタ４２、個別
のデータ・メモリ４３及びＡＬＵ４４を含んでいる。

【０１０１】また、第３の実施例のＰＥ４１はプログラ
ム・メモリ４５、マイクロシーケンサ４６及びマルチプ
レクサ４８を含んでいる。

【０１０２】図４において、図３に示したＰＥのローカ
ル・プログラム・メモリ３４のためのアドレス発生論理
回路は、市販のマイクロシーケンサ４６（例えば、アド
バンスド・マイクロ・デバイス（ＡＭＤ）社、ＩＤＴ
社、ビテッセ（Vittesse）社などにより市販されている
２９１０チップ）によって置き代えられている。

【０１０３】マイクロシーケンサ４６はＩｃｏｕｎｔレ
ジスタ３５及びベース・レジスタ３６（図３参照）と、
ＰＥのプログラム・メモリ３４のアドレスを発生するの
に用いられる減算器３９及びマルチプレクサ４０と、図
３に示されたＩｃｏｕｎｔレジスタ３５と共に用いられ
るゼロ検出論理回路３８との機能を持っている。

【０１０４】ＷＥ信号、ＤＩＮ信号及びＡ信号は、図３
の装置の信号と同じ態様で使用され、この態様は既に説
明した通りである。簡潔に言えば、既に説明したよう
に、図４の装置は、マイクロシーケンサ４６がベース・
アドレス・レジスタ３６及びＩｃｏｕｎｔレジスタ３５
と、減算回路３９と、ゼロ検出論理回路３８との機能を
遂行するために使用されていることを除けば図３のＰＥ
の構成と同じである。図４の装置の動作は図３の装置の
動作と同じである。従って、図４の装置は図３の装置の
説明から容易に理解できるので、図４の装置に関するこ
れ以上の説明はしない。

【０１０５】本発明に従って、ＰＥ中にインストラクシ
ョンの個別のメモリ（例えば、図２のローカル・インス
トラクション・バッファ２４、又は図３及び図４のプロ
グラム・メモリ３４、４５）が設けられているから、し
ばしば生じる後続の処理状態における性能が改善され
る。直截的な態様でデータを空間的に分離することは、
異なったデータ・セグメントに遂行される異なったタイ
プの計算を必要とする。

【０１０６】例えば、規則的に配列されたグリッド・ポ
イントにおいて、境界グリッド・ポイントと、内部グリ
ッド・ポイントでは、異なった処理が必要である。この
場合、異なったプロセッサにおいてデータを処理するた
めに必要とされる異なったインストラクション順序は、
ＰＥの個別のインストラクション・メモリ中の同じアド
レスにストアすることができ、そして、これらのインス
トラクションの同じベース・アドレスと、インストラク
ション・カウントとを中央コントローラ１００から同報
通信することによってＰＥの個別のデータに適用するこ
とができる。

【０１０７】第２の場合において、ＰＥ中のデータ・セ
グメントに適用されるインストラクション順序の選択
は、大域的な構成にあるデータの空間的な位置ではな
く、ＰＥ中の同じ変数か、又は異なった変数の値に依存
する。

【０１０８】例えば、アルゴリズムの各ステップにおい
て、マトリックス因数分解法、又はガウス消去法でプロ
グラムを作成する場合、アルゴリズムの各ステップにお
いて、マトリックスの１つの行は、ピボット行であっ
て、他の行とは異なって処理されなければならない。新
しい行は、アルゴリズムの各ステップにおいてピボット
行になる。若しマトリックスが複数のプロセッサの間で
行毎に仕切られたならば、任意の与えられたステップに
おいて、ピボット行を含むプロセッサは、ピボット行を
含まないプロセッサとは異なったインストラクション順
序で実行しなければならない。

【０１０９】このような場合を処理するために、ピボッ
ト行及び非ピボット行を処理するためのインストラクシ
ョン順序は、各ＰＥ（プログラム・メモリ）の中にスト
アされる。各ＰＥは、図３に示されたベース・アドレス
・レジスタ３６の中に対応するベース・アドレスをスト
アすることによって、それ自身でどのインストラクショ
ン順序を実行するかを選択する。

【０１１０】従って、本発明に従った方法及び装置にお
いて、ローカル・インストラクション・バッファ、又は
ローカル・インストラクション・メモリが使用され、こ
れにより、ＳＩＭＤコンピュータ装置の適用範囲を、ア
プリケーションの遥かに大きな組に拡張することがで
き、しかも、すべてのＰＥにおいて異なったインストラ
クションを同時に実行する必要がある場合でも、ＳＩＭ
Ｄコンピュータ装置の効率は低下されない。

【０１１１】既に説明したように、本発明に従ったＳＩ
ＭＤコンピュータ装置は、複数個の処理エレメントを含
んでおり、各処理エレメントは、インストラクションの
異なった順序を実行するためにインストラクションを修
正するため、ローカル・インストラクションの供給源
と、マルチプレクサとを持っている。

【０１１２】本発明に従って、単一のインストラクショ
ン、又は複数のインストラクションの複数のブロックを
ストアするためのローカル・インストラクション・バッ
ファ（又はインストラクション・メモリ）が使用されて
いる。本発明において、ＡＬＵによる演算の結果は、プ
ロセッサの局部的なデータ・メモリの中にストアされ、
そしてローカル・インストラクション・メモリに保存さ
れている修正されたインストラクションの順序は、大域
インストラクションによって選択された時、ＳＩＭＤコ
ンピュータ装置のプロセッサにより反復して使用するこ
とができる。

【０１１３】従来のコンピュータ・システムにおいて
は、局部的に可能な修正のタイプは、処理エレメントに
おいて実施されているハードウエア・サポートによって
制限を受けるけれども、本発明のコンピュータ・システ
ムにおいては、汎用ＡＬＵが、インストラクションの修
正を計算するから、どのような修正も可能であることが
本発明の主要な利点である。

【０１１４】更に、従来のアプローチは、インストラク
ション中のオペランドを修正すること、より特定して言
えば、すべてのインストラクション中の同一の位置に現
われるオペランドを修正することに向けられているけれ
ども、本発明は、インストラクションをすべて一緒に修
正する手段を含んでいる。

【０１１５】加えて、本発明は、アレイの行中の処理エ
レメントが受け取った同一のインストラクションを、行
中の処理エレメントにおいて局部的に修正することので
きる能力を与えている。

【０１１６】更に、同報通信されたインストラクション
は、同報通信されたプログラムの制御の下でプロセッサ
のローカル・データ・メモリからロードされたローカル
・インストラクション・バッファ中の情報で部分的に置
き替え、又はその情報の全てで置き替えることにより、
プロセッサの中で局部的に修正される。プロセッサは、
インストラクションを自律的に取り出さず、その代わり
に、同報通信されたプログラムの制御の下で、同報通信
されたインストラクションを修正するので、インストラ
クションの取り出し及びデコード論理回路と同期回路と
は各処理エレメントの中に必要としない。

【０１１７】本発明においては、ＳＩＭＤコンピュータ
装置中でアレイ状に配列されたエレメント（例えば、処
理エレメント）によって、インストラクションの外部供
給源（例えば、中央コントローラ、アレイ・コントロー
ラ等）により発生され同報通信されたインストラクショ
ンを修正することが可能である。従って、本発明の構成
によって局部的な修正が可能となり、異なったプロセッ
サは、プロセッサのインデックス又はデータ内容に基づ
いて異なったインストラクションを実行することができ
る。

【０１１８】以上、本発明の良好な実施例について説明
してきたが、当業者であれば、本発明の技術的範囲内
で、これらの実施例に自明の変更、修正を加えることが
できるのは勿論言うまでもない。

【０１１９】例えば、図２に示したローカル・インスト
ラクション・バッファ２４は、データ・メモリ２２の出
力からのバス２７を介してローカル・インストラクショ
ン・バッファ２４にストアされるべきｍバイト・ブロッ
クを受け取る。代案として、ローカル・インストラクシ
ョン・バッファ２４中にストアされるべきデータ（ｍバ
イト・ブロック、またはマイクロ・オペレーション）は
ＡＬＵ２３の出力から取り出すことができる。同様に、
図３の実施例の装置において、プログラム・メモリ３４
のインストラクション・ワード中に、ストアされるべき
マイクロ・オペレーション、又はベース・レジスタ３６
中にロードされるべきアドレスは、データ・メモリ３２
の出力ではなく、ＡＬＵ３３の出力から取り出すことが
できる。

【０１２０】まとめとして、本発明の構成に関して以下
の事項を開示する。

【０１２１】（１）各処理エレメント（ＰＥ）がインス
トラクションの外部供給源から同報通信されたインスト
ラクションを受け取る複数個の処理エレメントを含む、
単一インストラクション複数データ・ストリーム（ＳＩ
ＭＤ）アレイ・プロセッサであって、上記複数個の処理
エレメントの各々は、データをストアするためのメモリ
と、上記同報通信されたインストラクションを受け取る
第１のマルチプレクサと、上記メモリ及び上記第１のマ
ルチプレクサに接続されており、上記第１のマルチプレ
クサからの出力を受け取り、かつ制御信号と上記メモリ
への出力とを与えるためのインストラクション・レジス
タと、上記インストラクション・レジスタ及び上記メモ
リに接続されており、少なくとも１つのインストラクシ
ョンをストアするためのストレージ手段であって、上記
少なくとも１つのインストラクションは上記メモリから
読み取られたデータを含みかつ上記ストレージ手段にス
トアされ、上記第１のマルチプレクサは上記ストレージ
手段中の上記少なくとも１つのインストラクションを受
け取る、ストレージ手段と、修正されたインストラクシ
ョンを作成するために、上記少なくとも１つのインスト
ラクション全体を修正し、次のインストラクションとし
て実行されるべく修正されたインストラクションを上記
ストレージ手段中にストアするための修正手段であっ
て、上記修正されたインストラクションは、上記外部供
給源からの上記同報通信されたインストラクションによ
って選択された時に繰り返して使用される、修正手段と
を含み、上記修正手段は上記同報通信されたインストラ
クションと上記修正されたインストラクションとから上
記インストラクション・レジスタに出力されるべき１つ
のインストラクションを選択する手段を含むことを特徴
とする単一インストラクション複数データ・ストリーム
・プロセッサ。（２）上記ストレージ手段はローカル・インストラクシ
ョン・バッファを含むことを特徴とする（１）に記載の
プロセッサ。（３）上記ストレージ手段はプログラム・メモリを含む
ことを特徴とする（１）に記載のプロセッサ。（４）上記修正手段は論理演算機構（ＡＬＵ）と選択ビ
ット発生回路とを含み、該選択ビット発生回路は上記イ
ンストラクション・レジスタからの出力を受け取り、か
つ上記第１のマルチプレクサに入力を与えることを特徴
とする（２）に記載のプロセッサ。（５）上記修正手段は、上記インストラクション・レジ
スタから制御信号を受け取り、かつ上記データ・メモリ
から受け取ったデータに制御信号によって特定された動
作を遂行するための論理演算機構（ＡＬＵ）と、上記メ
モリに接続されたベース・アドレス・レジスタと、上記
インストラクション・レジスタからの出力信号を受け取
るＩｃｏｕｎｔレジスタと、上記ベース・アドレス・レ
ジスタの出力値から上記Ｉｃｏｕｎｔレジスタの出力値
を減算する減算器と、上記インストラクション・レジス
タからの出力信号と、上記減算器の出力信号との間の選
択を行ない、上記プログラム・メモリにアドレスを与え
るための第２のマルチプレクサとを含むことを特徴とす
る（３）に記載のプロセッサ。（６）上記Ｉｃｏｕｎｔレジスタからの出力信号を受け
取って、上記第１のマルチプレクサへ入力信号を与える
ためのゼロ検出論理回路を含むことを特徴とする（５）
に記載のプロセッサ。（７）上記修正手段は上記ストレージ手段の中にストア
されている少なくとも１つのマイクロ・オペレーション
を同報通信されたインストラクションの中に代替するこ
とによって上記処理エレメントの各々の中の上記同報通
信されたインストラクションを局部的に修正することを
特徴とする（１）に記載のプロセッサ。（８）上記修正手段は、上記メモリに接続されており、
複数個のインストラクション・ワードをストアするプロ
グラム・メモリであって、上記メモリ及び上記インスト
ラクション・レジスタからの出力信号を受け取って、上
記第１のマルチプレクサに出力信号を与えるためのプロ
グラム・メモリと、上記メモリに接続されており、上記
インストラクション・レジスタからの出力を受け取っ
て、上記メモリに出力し戻すための論理演算機構（ＡＬ
Ｕ）と、上記プログラム・メモリから順序インストラク
ションを受け取って、上記プログラム・メモリへの出力
と上記第１のマルチプレクサへの出力とを与えるマイク
ロシーケンサとを含むことを特徴とする（１）に記載の
プロセッサ。（９）上記インストラクション・レジスタからの出力
と、上記メモリからの出力との間の選択を行ない、上記
マイクロシーケンサにアドレスを与えるための第２のマ
ルチプレクサを含むことを特徴とする（８）に記載のプ
ロセツサ。

【０１２２】

【発明の効果】本発明によれば、ＳＩＭＤコンピュータ
装置の適用範囲を、アプリケーションの遥かに大きな組
に拡張することができ、しかも、すべての処理エレメン
トにおいて異なったインストラクション順序を同時に実
行した場合でもＳＩＭＤコンピュータ装置の効率は低下
しない。

【図面の簡単な説明】

【図１】インストラクションの外部供給源からの同報通
信インストラクションを受け取るのに適した従来のＳＩ
ＭＤコンピュータ装置中の処理エレメント（ＰＥ）の構
成を説明するためのブロック図である。

【図２】ＳＩＭＤコンピュータ装置の処理エレメント中
にローカル・インストラクション・バッファを組み込ん
だ本発明の第１の実施例を説明するためのブロック図で
ある。

【図３】ＳＩＭＤ並列コンピュータ装置の処理エレメン
ト中にローカル・プログラム・メモリを組み込んだ本発
明の第２の実施例を説明するためのブロック図である。

【図４】複数のＰＥによって異なったインストラクショ
ンを同時に実行させるために、ＳＩＭＤコンピュータ装
置のＰＥ中にマイクロシーケンサ（例えば、市販の２９
１０型チップ）を用いた本発明の第３の実施例を示すブ
ロック図である。

【図５】アレイ配列に接続された複数個の処理エレメン
トを含むコンピュータ・システムの全体を説明するため
のブロック図である。

【図６】代表的なＳＩＭＤコンピュータ装置の第１の処
理エレメント及び第２の処理エレメントの個別のデータ
・メモリを説明するためのブロック図である。

【図７】第１の処理エレメントＰＥ１及び第２の処理エ
レメントＰＥ２を示して、これらの処理エレメント中に
ストアされたコードを用いて同報通信されたインストラ
クションの修正を説明するための図である。

【図８】６４個のグリッド・ポイントを有しモデル化さ
れた通常の二次元の物理的なシステムを示す図である。

【図９】図８に示された通常の二次元の物理的なシステ
ムの１６個のプロセッサの間でグリッド・ポイントを仕
切る方法を説明するための図である。

【符号の説明】

１、２０、３０処理エレメント（ＰＥ）２、２１、３１、４２インストラクション・レジスタ３、２２、３２、４３個別のメモリ４、２３、３３、４４論理演算機構（ＡＬＵ）２４ローカル・インストラクション・バッファ２５、３７、４０、４８マルチプレクサ２６選択ビット発生回路３４、４５プログラム・メモリ３５Ｉｃｏｕｎｔレジスタ３６ベース・アドレス・レジスタ３８ゼロ検出論理回路３９減算器４６マイクロシーケンサ１００インストラクションの外部供給源１０１インストラクションの同報通信バス１０２相互接続ネットワーク

───────────────────────────────────────────────────── フロントページの続き (72)発明者マイケル・ミ・ツァオアメリカ合衆国ニューヨーク州、ヨークタウン・ハイツ、デラノ・ロード 746

Claims

【特許請求の範囲】

【請求項１】各処理エレメント（ＰＥ）がインストラ
クションの外部供給源から同報通信されたインストラク
ションを受け取る複数個の処理エレメントを含む、単一
インストラクション複数データ・ストリーム（ＳＩＭ
Ｄ）アレイ・プロセッサであって、上記複数個の処理エレメントの各々は、データをストアするためのメモリと、上記同報通信されたインストラクションを受け取る第１
のマルチプレクサと、上記メモリ及び上記第１のマルチプレクサに接続されて
おり、上記第１のマルチプレクサからの出力を受け取
り、かつ制御信号と上記メモリへの出力とを与えるため
のインストラクション・レジスタと、上記インストラクション・レジスタ及び上記メモリに接
続されており、少なくとも１つのインストラクションを
ストアするためのストレージ手段であって、上記少なく
とも１つのインストラクションは上記メモリから読み取
られたデータを含みかつ上記ストレージ手段にストアさ
れ、上記第１のマルチプレクサは上記ストレージ手段中
の上記少なくとも１つのインストラクションを受け取
る、ストレージ手段と、修正されたインストラクションを作成するために、上記
少なくとも１つのインストラクション全体を修正し、次
のインストラクションとして実行されるべく修正された
インストラクションを上記ストレージ手段中にストアす
るための修正手段であって、上記修正されたインストラ
クションは、上記外部供給源からの上記同報通信された
インストラクションによって選択された時に繰り返して
使用される、修正手段とを含み、上記修正手段は上記同報通信されたインストラクション
と上記修正されたインストラクションとから上記インス
トラクション・レジスタに出力されるべき１つのインス
トラクションを選択する手段を含むことを特徴とする単
一インストラクション複数データ・ストリーム・プロセ
ッサ。
【請求項２】上記ストレージ手段はローカル・インス
トラクション・バッファを含むことを特徴とする請求項
１に記載のプロセッサ。
【請求項３】上記ストレージ手段はプログラム・メモ
リを含むことを特徴とする請求項１に記載のプロセッ
サ。
【請求項４】上記修正手段は論理演算機構（ＡＬＵ）
と選択ビット発生回路とを含み、該選択ビット発生回路
は上記インストラクション・レジスタからの出力を受け
取り、かつ上記第１のマルチプレクサに入力を与えるこ
とを特徴とする請求項２に記載のプロセッサ。
【請求項５】上記修正手段は、上記インストラクション・レジスタから制御信号を受け
取り、かつ上記データ・メモリから受け取ったデータに
制御信号によって特定された動作を遂行するための論理
演算機構（ＡＬＵ）と、上記メモリに接続されたベース・アドレス・レジスタ
と、上記インストラクション・レジスタからの出力信号を受
け取るＩｃｏｕｎｔレジスタと、上記ベース・アドレス・レジスタの出力値から上記Ｉｃ
ｏｕｎｔレジスタの出力値を減算する減算器と、上記インストラクション・レジスタからの出力信号と、
上記減算器の出力信号との間の選択を行ない、上記プロ
グラム・メモリにアドレスを与えるための第２のマルチ
プレクサとを含むことを特徴とする請求項３に記載のプ
ロセッサ。
【請求項６】上記Ｉｃｏｕｎｔレジスタからの出力信
号を受け取って、上記第１のマルチプレクサへ入力信号
を与えるためのゼロ検出論理回路を含むことを特徴とす
る請求項５に記載のプロセッサ。
【請求項７】上記修正手段は上記ストレージ手段の中
にストアされている少なくとも１つのマイクロ・オペレ
ーションを同報通信されたインストラクションの中に代
替することによって上記処理エレメントの各々の中の上
記同報通信されたインストラクションを局部的に修正す
ることを特徴とする請求項１に記載のプロセッサ。
【請求項８】上記修正手段は、上記メモリに接続されており、複数個のインストラクシ
ョン・ワードをストアするプログラム・メモリであっ
て、上記メモリ及び上記インストラクション・レジスタ
からの出力信号を受け取って、上記第１のマルチプレク
サに出力信号を与えるためのプログラム・メモリと、上記メモリに接続されており、上記インストラクション
・レジスタからの出力を受け取って、上記メモリに出力
し戻すための論理演算機構（ＡＬＵ）と、上記プログラム・メモリから順序インストラクションを
受け取って、上記プログラム・メモリへの出力と上記第
１のマルチプレクサへの出力とを与えるマイクロシーケ
ンサとを含むことを特徴とする請求項１に記載のプロセ
ッサ。
【請求項９】上記インストラクション・レジスタから
の出力と、上記メモリからの出力との間の選択を行な
い、上記マイクロシーケンサにアドレスを与えるための
第２のマルチプレクサを含むことを特徴とする請求項８
に記載のプロセツサ。