JP3687982B2 - メモリ回路および機能ユニットのグループを備えた処理装置 - Google Patents
メモリ回路および機能ユニットのグループを備えた処理装置 Download PDFInfo
- Publication number
- JP3687982B2 JP3687982B2 JP32363291A JP32363291A JP3687982B2 JP 3687982 B2 JP3687982 B2 JP 3687982B2 JP 32363291 A JP32363291 A JP 32363291A JP 32363291 A JP32363291 A JP 32363291A JP 3687982 B2 JP3687982 B2 JP 3687982B2
- Authority
- JP
- Japan
- Prior art keywords
- memory
- unit
- write
- memory unit
- delay
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000015654 memory Effects 0.000 title claims description 200
- 238000012545 processing Methods 0.000 title claims description 32
- 230000003111 delayed effect Effects 0.000 claims description 14
- 239000012634 fragment Substances 0.000 description 15
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000000034 method Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 210000001015 abdomen Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007334 memory performance Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline, look ahead
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30098—Register arrangements
- G06F9/3012—Organisation of register space, e.g. banked or distributed register file
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline, look ahead
- G06F9/3824—Operand accessing
- G06F9/3826—Bypassing or forwarding of data results, e.g. locally between pipeline stages or within a pipeline stage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline, look ahead
- G06F9/3885—Concurrent instruction execution, e.g. pipeline, look ahead using a plurality of independent parallel functional units
Description
【産業上の利用分野】
本発明は、メモリ回路と機能ユニット群とを有し、これらが、連続する装置動作サイクルに対応する単一のプログラム命令列の制御の下に並列に動作するように配置された処理装置に関するものである。このような処理装置は、当該技術分野ではベリー・ロング命令語(VLIW)プロセッサとして知られている。
【0002】
【従来の技術および発明が解決しようとする課題】
TRACEプロセッサとして知られている理想的なVLIWプロセッサおよび実用的なVLIWプロセッサは、R.P.Colwell等によって、1987年10月5日から8日までのカリフォルニア州パロ・アルトにおけるプログラミング言語およびオペレーティング・システム用のアーキテクチュラル・サポートに関する第2回国際会議(ASPLOS II)において180頁から192頁に発表された「トレース・スケジューリング・コンパイラ用のVLIWアーキテクチャ」という表題の論文において記載されている。VLIWプロセッサにおいては、各プログラム命令はバイナリー語であり、それぞれの機能ユニットを制御する一組のフィールドから構成されており、代表的なものでは100ビット以上から構成されている。この分野においてスケジューラとして知られている特別なコンパイラは、所望の動作シーケンスにおいて微細なパラレリズムを実行して、各サイクルにおいて可能な限り多くの機能ユニットを利用して、このような非常に長いプログラム命令をコンパイルする。
【0003】
VLIWマシーンにおけるメモリ回路は、レジスタ・ファイルと呼ばれる場合が多いが、機能ユニットが生成した中間結果をバッファするために機能すると共に、これらの結果を次の処理のために、同一あるいは別の機能ユニットに供給する。理想的なVLIWプロセッサにおいては、このメモリ回路は完全にマルチポート化されたランダム・アクセス・メモリであり、全ての機能ユニットの出力は共通のメモリ・セル群の書き込みポートに結合され、全ての機能ユニットの入力は共通のメモリ・セル群の読み出しポートに結合されている。
【0004】
しかしながら、Colwell等によって指摘されているように、理想的なVLIWプロセッサにおいては、機能ユニット数が妥当な個数であったとしても、レジスタ・ファイルに対する不可能な程多くのレジスタ・ファイルが必要である。このような規制のために、TRACEプロセッサは、真の意味でのマルチポート・レジスタ・ファイルを、機能ユニットの対の間においてしか使用していない。このため、理想的なVLIWプロセッサの性能の幾分かは不可避的に失われ、しかも、レジスタ・ファイルはそれら自身の間での連絡のためのポートを含む多数のポートを依然として必要としている。
【0005】
VLIWプロセッサにとってはモノリシック・インテグレーションを採用することが特に望ましく、この場合、その内部のバンド幅は従来のプロセッサに比較して非常に高い。モノリシックVLIWプロセッサは、S.Borker等により、1988年11月14−18日にフロリダ州のKissimmeeにおけるコンフェレンス・スーパーコンピューティング’88において発表された「iWarp:An integrated Solution to High−Speed Prallel Computing」という表題の論文において述べられている。このiWarpコンポーネントは、真のマルチポート化されたレジスタ・ファイルに結合された5個の機能ユニットを含んでいる。それにもかかわらず、真のマルチポート化されたメモリのサイズおよび複雑さが、10個、12個あるいはそれ以上の機能ユニットが望まれる大規模VLIWプロセッサの構築および集積化の主要な障害となっている。
【0006】
別の形態のVLIWプロセッサについては、B.R.Rau等によって、米国特許第4,251,874号および同第4,553,203号、並びに、1981年10月のVLSIシステム・アンド・コンピューテーションに関するCMU会議において発表された「並列プロセッサ用の静的にスケジュールされたVLSIインターコネクト」において述べられている。これらに述べられた装置においては、マルチプル・レジスタが、全ての機能ユニットの入力を全ての機能ユニットの出力に結合しているクロスバー回路における全ての交差点に位置している。どれほど多くの機能ユニットを備えている場合においても、このような多数の独立したレジスタ・ファイルを配置し、これらを制御することは実際上不可能である。
【0007】
ビデオ信号プロセッサについては、本件出願の元の出願に当たる出願中の米国特許出願第290,979号の明細書において述べられており、このプロセッサにおいては、(同出願明細書においては「silo」と呼ばれている)セパレート形のメモリ・ユニットが(同出願明細書においては「プロセッサ・エレメント」と呼ばれている)各機能ユニットの各入力に配置されている。siloの入力は、プログラム制御の下で、クロスバー・スイッチング回路によって、プロセッサ・エレメントの結果出力側に結合されている。同様な処理装置用の構成は、本件出願の発明者によって、1988年10月3日−5日のIEEE国際会議における「CREATE−LIFE:高性能VLSI回路用デザイン・システム」に述べられている。
【0008】
動作を説明すると、このような処理装置のプログラム命令は、次のサイクルにおいて結果を必要としているメモリ・ユニットに対してのみ結果が書き込まれるように、構成されている。別の結果を別のメモリ・ユニットに書き込むことも同時に発生させることが可能であり、この結果、実質的にマルチポート・メモリの全性能を発揮させることができる。しかし、回路領域内にこのように大きな容量を記憶するので、10個あるいは15個の機能ユニットを備えた32ビットVLIWプロセッサを現存の技術を用いて単一のチップ上に集積化させることになってしまう。
【0009】
この形式のプロセッサは理想的なVLIWプロセッサに比べて欠点があり、それは、「衝突」(collosions)に起因するものである。この衝突においては、同一のメモリ・ユニット(silo)に対して同一の動作サイクルにおいて2つの結果の書き込みが要求される。この欠点は、少数個の機能ユニットのみを備えた装置においては極めて些細なものであるが、機能ユニットの個数が増加した場合には、そのようなユニットの性能上、この衝突は極めて大きな問題となる。非常に多くの衝突が発生すると、特に、一つの衝突を解決するための再スケジューリングによって別の一つあるいはそれ以上の衝突を招いてしまうので、処理装置のスケジューリング動作のタスクの困難度が増してしまう。
【0010】
【課題を解決するための手段】
本発明の課題は上述の処理装置における衝突の問題を解消することにある。
本願の第1の発明により提供されるVLIW形の処理装置においては、そのメモリ回路が、複数のセパレート形メモリ・ユニットと、スイッチング回路と、遅延エレメントを備えている。
【0011】
上記の各メモリ・ユニットは、少なくとも1個の書き込みポートとメモリ回路の各出力を形成する読み出しポートとを備えている。上記のスイッチング回路は、機能ユニットとセパレート形のメモリ・ユニットの書き込みポートの間に結合されている。このスイッチング回路は、一連のプログラム命令によって制御されて、各機能ユニットからの結果を、各動作サイクルにおいてこの一連のプログラム命令によって選択された一つあるいそれ以上のメモリ・ユニットの書き込みポートに対して転送できるようになっている。上記の遅延エレメントは、スイッチング回路に結合された出力を備えており、機能ユニットの一つによって或る動作サイクルにおいて生成された結果を、メモリ回路内において遅延させて、次の動作サイクルにおいてメモリ回路内の或るメモリ・ユニットに書き込みできるようになっている。
【0012】
メモリ回路内の遅延エレメントを使用することにより、各種の機能ユニット用の動作を再スケジューリングすることなく、衝突を回避することができる。衝突している結果の一つが他方のものよりも先に関連する機能ユニットにより要求される場合が通常であるので、全体としては理想的なVLIW性能が保持される。このように遅延を行う結果として新たな衝突が発生した場合には、この衝突もまた、性能を損失させることなく遅延エレメントによって解消できる。
【0013】
この遅延エレメントをシングル・ロケーション・メモリ・ユニットで構成して、例えば、1動作サイクルの固定期間だけ遅延させるようにしてもよい。スイッチング回路をプログラム命令によって制御して、遅延エレメントの入力をこの遅延エレメントの出力に結合して、得られた結果を1動作サイクルだけ遅延させることができる。
【0014】
単一の遅延エレメントによって1サイクル(1命令)当たり、2値の衝突(two−valued collision)のみを回避することができる。したがって、多数の遅延エレメントを配置して、単一の動作サイクルにおいて生成される複数の結果を同時に遅延させることができる。予想される衝突に応じた費用効率となるように遅延エレメントを選択することができる。さらに、スイッチング回路を、各遅延エレメントをメモリ・ユニットのサブセットに対してのみ結合可能にして、遅延エレメント(群)に対する相互結合の為に必要とされる回路面積を減少させるようにすることもできる。
【0015】
異なった形式の遅延エレメントも使用することができる。例えば、遅延エレメントとして、複数の結果を同時的に遅延させることの可能な複数のアドレス可能位置を有するメモリ・ユニットから構成してもよい。
【0016】
本願の第2の発明による処理装置においては、メモリ回路における少なくとも一つのメモリ・ユニットは、スイッチング回路に結合される1個以上の書き込みポートを備えている。このような装置においては、「衝突されている」結果が、同一のサイクルにおいて同一のメモリに対して書き込まれる可能性がある。このような装置においては、真のマルチポート・メモリの問題が再び持ち上がるが、それぞれ2つの書き込みポートを備えた8個のセパレート形メモリ・ユニットが占める面積は、16個の書き込みポートを備えた真のマルチ・メモリの占める面積よりも小さい。衝突を解決するために、遅延エレメントの代わりに、あるいはこれに加えて、更に書き込みポート(群)を配置することもできる。
【0017】
公知のVLIWプロセッサにおけるように、本発明による装置においても、同一の機能ユニットを配置してもよい。これらの機能ユニットとしては、整数および/または浮動少数点用の算術論理ユニット群、データ・メモリ・ユニット群、分岐コントロール・ユニット群および、掛け算、シフティング、コミュニケーションなどの特別のユニット群などがある。理想的には、各動作の結果を利用できるまでには1あるいはそれ以上のサイクル数の「待ち時間」が存在するが、各ユニットをパイプライン化して、全てのサイクルにおいて新たな動作を開始できるようにすることである。
【0018】
【実施例】
図1には一般化したブロック図の形態で処理装置を示してある。この処理装置は、N個の機能ユニットF1、F2、・・・FNと、イミテーション・マルチポート・メモリ回路10を有している。各機能ユニットFk(kは1からNまでの数である。)はメモリ回路10の各データ出力12から第1および第2のオペランドFkLとFkRを受け取るための入力を有している。各機能ユニットFkは、命令レジスタ(図1には示していない)から各動作選択コード(opcode)Fk.OPを受け取るための制御入力13を有している。各機能ユニットFkの出力は、メモリ回路10の各データ入力14に対して、結果Fk.Oを供給する。
【0019】
イミテーション・マルチポート・メモリ10内には、メモリ回路10の各データ出力12に対してセパレート形書き込み/読み出しメモリ・ユニット(RAM)15が配置されている(本例では2つ機能ユニット当たり2つ配置されている)。このようなメモリ・ユニット15のそれぞれは、各アーギュメントFk.x(ここにxはLあるいはRである。)をデータ出力12を介して対応する機能ユニットに対して供給するための単一ポートを有している。読み出しアドレス入力は、各読み出しポートに付設されており、命令レジスタから読み出しアドレスFk.x.RAを受け取る。
【0020】
メモリ回路10の各データ入力14は、メモリ回路10のクロスバー・スイッチング回路18内においてバス・ライン16を形成している。このクロスバー・スイッチング回路18は更に、多数のマルチプレクサ20を有している。各マルチプレクサは、各メモリ・ユニットの書き込みポートに結合された出力を有している。各マルチプレクサ20によって、バス・ライン16(機能ユニットの出力)のいずれも、命令レジスタから受け取る選択信号Fk.x.SEの制御の下で、対応するメモリ・ユニット15の書き込みポートに結合することができる。また、命令レジスタは、それぞれの書き込みアドレスFk.x.WAを各メモリ・ユニット15の書き込みアドレス入力に供給すると共に、対応する書き込みイネーブル信号Fk.x.WEを供給する。
【0021】
遅延エレメントはスペシャル・レジスタ21という形態でメモリ回路10内に配置されている。スペシャル・レジスタ21のデータ入力は、命令レジスタ(不図示)から受け取る選択信号SP.SEの制御の下に、スイッチング回路18内の別のマルチプレクサ22を介していずれのバス・ライン16に対しても結合することができる。信号SP.Oを運ぶスペシャル・レジスタ21の出力は、クロスバー・スイッチング回路18内に別のバス・ライン24を形成している。このバス・ライン24は、いずれのマルチプレクサ20によっても、各メモリ・ユニット15に結合でき、そこに信号SP.Oを供給するすることができる。また、このバス・ライン24を選択して、選択信号SP.SEによって、スペシャル・レジスタの入力に結合させることができる。
【0022】
図1に示す装置は、ベリー・ロング命令語(VLIW)プロセッサの部分を構成している。このプロセッサにおいては、一連のベリー・ロング命令語から構成されるプログラムの制御の下に、全ての機能ユニットが同期して、並列に動作する。機能ユニット群および制御回路内におけるパイプライン処理のために、各機能ユニットFkは各動作サイクルにおいて初期動作を開始して、マルチポート・メモリ回路10からそのオペランドを引出して、得られた結果を同一のサイクルあるいは次のサイクルにおいてメモリ回路10内に戻すことが可能である。
【0023】
1動作サイクル当たりの一つの命令語はプログラム・メモリ内に格納されているデータから発生する。命令語の異なったフィールドは、数百ビット長であるが、図1において、.SE、.WA、.WE、.RAおよび.OPが付された各種のアドレスおよび選択信号を形成し、これらがメモリ回路10を制御して、機能ユニットにより実行される機能を選択する。適切なプログラミング(好ましくは、以下に述べるようにスケジューリング・コンパイラによって自動化することにより)によって、アルゴリズム内においてきめの細かいパラレリズムを実行して、可能な限り多くの機能ユニットが各サイクルにおいて有用な動作を開始するようにすることができる。
【0024】
理想的なVLIWプロセッサにおいては、真のマルチポート・メモリによって、いずれかの機能ユニット出力からの結果Fk.Oを自由にメモリ回路内に記憶して、別のいずれかの機能ユニットFkにより後にアーギュメントとして使用するために読み出すことができる、ということが達成される。イミテーション・マルチポート・メモリ回路10によって、ほぼ同一の機能が、将来において結果をオペランドとして使用することを要求する機能ユニットに結合されたメモリ・ユニット内にのみ結果を記憶することによって実現できる。このような将来の要求は、インターミーディエット・コード・グラグメント自体から分かる。
【0025】
遅延エレメント(SP)を無視すると、このイミテーション・マルチポート・メモリ10は、異なった機能ユニットにより生成された同一サイクル内における二つの結果Fk.OおよびFk’.Oの双方を同一のメモリ・ユニット(RAM)15に書き込むことができないという制限を有している。スケジューリング・コンパイラによって同一のサイクル内において生成された二つの結果が後のサイクルにおいて同一のメモリ・ユニット15からの読み出しのために必要とされることが発見される場合には、「2値衝突」(two−value collision)が発生する。勿論、一つのサイクルにおいて3つあるいはそれ以上の結果が生成され、それらが同一の機能ユニット入力によって要求される場合には、より多くの衝突が起こる可能性があるが、このようなことは、一般的には2つ値の衝突に比べて発生頻度が極めて低い。多くの衝突は、例えば、対称な動作の左側と右側のオペランドを交換するなどの最小の中断によって解決できる。しかしながら、一般的に、より実質的な或る程度の再スケジューリングを行う必要がある。衝突の問題と、遅延エレメントを利用したその解決方法を次に述べる。さらなる説明を、図2ないし図4に示すプロセッサを参照して行う。
【0026】
スペシャル・レジスタ21(SP)の形態を取っている遅延エレメントによって、イミテーション・マルチポート・メモリ10は、或るサイクルにおいて2値衝突が発生した場合においても真のマルチポート・メモリの性能を実現することができる。同一のサイクルiにおいて機能ユニットF1とF2によって結果F1.O(i)とF2.O(i)が生成され、これらが後のサイクルにおいて、機能ユニットF1用の第1のオペランドF1.Lを形成するために必要とされる場合を想定する。本例では各メモリ・ユニットの読み取りポートはただ一つであるので、これらの結果の一方、例えばF1.O(i)は、常に他方、すなわちF2.O(i)よりも前の時点で必要とされる。スケジューラは直ちに、サイクル(i)の命令語内におけるフィールドF1.L.SE(i)、F1.L.WA(i)およびF1.L.WE(i)を用いて、オペランドF1.L用に、メモリ・ユニット15内の望ましい位置にF1.O(i)を差し向けることができる。これよりも緊急ではない結果F2.O(i)は同一の命令語において、フィールドSP.SE(i)を用いてスペシャル・レジスタ21に差し向けることができる。レジスタ21が1サイクル固定長の遅延を行う場合には、遅延された結果F2.O(i)が次のサイクルにおいてSP.O(i+1)として現れる。次に、(サイクルi+1における)次の命令におけるF1.L.SE(i+1)、F1.L.WA(i+1)およびF1.L.WE(i+1)を使用して、遅延させた結果F2.O(i)を必要とされる場合にはオペランドF1.L用にメモリ・ユニット内に差し向けることが可能である。
【0027】
このような処理は、スケジュールにおける動作位置に影響を与えることなく行うことができる。得られた結果を遅延するということは、例えば、第3の結果、例えばサイクルi+1で生成されたF1.O(i+1)を同一のメモリ・ユニットに書き込む必要が有る場合には、別の衝突を引き起こすおそれがある。このような衝突は性能を損失させることなく解決することができる。この理由は、得られた結果F2.(i)とF1.O(i+1)の一方は常に他方よりも早く要求されるからである。いずれの結果をより緊急に必要としているのかに応じて、次のようないずれかの処理が行われる。(a)遅延した結果F2.O(i)=SP.O(i+1)を次のサイクルの遅延を行うためにレジスタ21に戻し、F1.O(i+1)をメモリ・ユニットの書き込む。(b)F1.O(i+1)をスペシャル・レジスタ21に供給して、これをSP.O(i+2)とし、遅延させた結果F2.O(i)=SP.O(i+1)をメモリ・ユニットに書き込む。
【0028】
遅延エレメントとしての単一のレジタタ21を使用することにより、単一の2値衝突のみを一度に解消することが可能である。このレジスタ21と同様な別のレジスタを加えることにより、3値衝突、および/または多重の2値衝突を解消することができる。各レジスタおよびそれに付随するマルチプレクサ22が必要とする回路面積の増加は極く僅かである。
【0029】
機能ユニットの構成および個数、それらのオペランドの個数および長さ、対応するメモリ・ユニットにおける位置の数を自由に選択して、装置が応用される対象物に合わせることができる。次に、比較的小規模のVLIW装置を、一例として図2乃至図6を参照して説明する。
【0030】
図2において、イミテーション・マルチポート・メモリ回路30は、5つの機能ユニットに結合されている。この機能ユニットには、コンスタント・ユニットCO、算術論理ユニットAL、レジスタ・ユニットRG、データ・メモリ・ユニットDMおよび分岐ユニットBRが含まれている。メモリ回路30内には、概略的にメモリ・ユニット26、マルチプレクサ27および、マルチプレクサ29が付設されたスペシャル・レジスタSPが示されている。
【0031】
グローバル・コントローラ41が配置されており、これは、シーケンサSEQと命令発生パイプラインIIPを有している。シーケンサSEQは各サイクルにおいてプログラム・カウンタ・ワードPCを発生させる。このワードは命令発生パイプラインIIPに供給される。この命令発生パイプランIIPはオフ・チップとすることができ、実行されるプログラムを形成しているベリー・ロング命令語がエンコードされたプログラム・メモリを有している。或る回数のサイクル遅延の後に、命令発生パイプラインIIPは、オン・チップの命令レジスタ46に対して、アドレスPCにおけるプログラム・メモリ内に記憶されているベリー・ロング命令語IWを供給する。
【0032】
レジスタ46内の命令語IWは、デステイネーション・コントロール・フィールドDECと、個々の機能ユニットCO,AL,RG,DM,BRをそれぞれ制御するための多数のフィールドCOC,ALC,RGC,DMC,BRCとを有している。命令語IWのビットの総数は162であるが、本例のプロセッサは極めてシンプルなものである。図3には更に詳細に命令語IWのフィールドを示してある。ここには、各フィールドのビット数がそのフィールドの下側に記載されている。
【0033】
コンスタント・ユニットCOはオペランド入力は持たず、1個の32ビットの結果出力(CO.O)がメモリ回路30の入力に結合されている。コンスタント・ユニットCOは実際には、命令語IW(図3)内の32ビットフィールドCOCとコンスタント・ユニットCOの出力との間の直接結合から成り立っている。コンスタント・ユニットCOはこれより、命令語内からの定数値をメモリ・ユニット30内の他のユニットに供給することが可能である。
【0034】
算術論理ユニットALは、1ビットのガード値入力(AL.G)と、メモリ回路30内の各メモリ・ユニットに結合された二つ(左および右の)32ビットアーギュメント入力(AL.LおよびAL.R)を有している。このユニットALはメモリ回路30に結合された32ビットの出力(AL.O)を有しており、命令語IWの16ビット・フィールドALCによって制御される。
【0035】
図4には、算術論理ユニットALに付設されたイミテーション・マルチポート・メモリ回路30の部分を詳細に示してある。図1の全体的な例における場合のように、セパレート形のメモリ・ユニット(RAM群)48、50、52にはそれぞれオペランドAL.G、AL.L、AL.Rがそれぞれ付設されている。図1の例と比較すると、図2から図4の装置におけるメモリ・ユニットには、セパレート書き込みイネーブル信号.WEは供給されない。この代わりに、そのメモリ・ユニットに対する書き込みが望まれない場合には、少なくとも一つのノン・イグジステント記憶位置あるいはノン・ライタブル記憶位置をアドレス可能になっている。したがって、.WEビットの値が、結果が特定のメモリ・ユニットの位置に割り当てられる場合のスケジューリングの時点で、既に分かっていると仮定した場合には、これらのビット命令語IWの幅を、.WEビットが存在しない分だけ減少させることができる。ガード・ビットAL.G用のメモリ・ユニット48は、ブール値(ビット)を記憶するための8個の1ビット位置を有している。これらには、上記した1つのノン・ライタブル位置が含まれている。メモリ・ユニット用の3ビットの読み出しアドレスは、命令レジスタ46によって、命令語IW(図3を参照)のコントロール・フィールド内の3ビット・フィールドAL.G.RAから供給され、メモリ・ユニットの1ビットの読み出しポート54は、アドレスされたメモリ位置からユニットALに向けてガード・ビットAL.Gを供給する。
【0036】
マルチプレクサ56は、多数の1ビット入力を有しており、これらは、各種の機能ユニットの結果出力(CO.O、AL.Oなど)に結合されている32ビットのバス・ラインの最下位ビット(第1のビット)に結合されている。マルチプレクサの別に入力は、別の32ビットのバス・ライン58の第1ビットに結合されており、このバス・ラインはスペシャル・レジスタSPからの遅延された結果出力を転送する。このレジスタは図1において符号21が付された遅延エレメントと同一のタイプである。ガード・ビット用の第1のビットを使用することにより、或るプログラミング規約、例えばC言語などの規約との互換性が可能になる。他の環境においては、最上位ビット(msb)あるいはその他のビットを使用した方が便利である場合もある。
【0037】
マルチプレクサ56は、メモリ・ユニット48の書き込みポートに結合された1ビットの出力60を有している。このマルチプレクサ56は、命令語IWのデスティネーション・コントロール・フィールドDECにおける3ビットの選択フィールドによって制御される。メモリ・ユニット48の3ビットの書き込みアドレスはデスティネーション・コントロール・フィールドDECにおける隣接した3ビットのフィールドAL.G.WAによって供給される。
【0038】
同様にして、32ビット構成のメモリ・ユニト50(AL.L用)と52(AL.R用)は、それぞれ付設された32ビットのマルチプレクサ62、64を有している。それぞれは、16個の位置を有し、その中には1つのノン・ライタブル位置が含まれている。デスティネーション・コントロール・フィールドDECは、マルチプレクサ62、64を制御するための2つの3ビット構成の選択フィールドAL.L.SEおよびAL.R.SEと、メモリ・ユニット50、52のそれぞれに対して4ビットの書き込みポートアドレスを供給する2つの4ビット構成のフィールドAL.L.WAおよびAL.R.WAを有している。コントロール・フィールドALCにおける2つの4ビット構成のフィールドAL.L.RAおよびAL.R.RAによって、それぞれ、メモリ・ユニット50(AL.L用)および52(AL.R用)の読み出しポート用のアドレスが提供される。
【0039】
算術論理ユニットALのオペコードAL.OPは、ユニットAL用のコントロール・ビットALC内のSビット構成のフィールドによって提供される。各サイクルにおいて、オペコードAL.OPは、どのような動作(加算、減算、比較、AND、OR等)をアーギュメントAL.Lに行って結果AL.Oを生成するのかを決定する。
【0040】
図2に戻って、レジスタ・ユニットRGによって、頻繁に使用されるそれぞれ32ビット構成の16個ののプログラム変数のオン・チップ記憶領域が提供される。このユニットRGはガード・ビットRG.G用のメモリ回路30内のメモリ・ユニットと、32ビット構成のデータ入力RG.Iを有している。これらのメモリ・ユニットは、それぞれ、一つのノン・ライタブル位置を含む4個だけの位置を有している。データ出力(RG.O)はメモリ回路30の入力に結合されており、各バス・ライン(RG.O、図4も参照のこと)を形成している。デスティネーション・コントロール・フィールドDECは、付設されたマルチプレクサを制御するための2つの3ビット構成の選択フィールドRG.G.SEおよびRG.I.SEと、各メモリ・ユニット内における4つの位置の間を選択するための2つの2ビット構成の書き込みアドレス・フィールドRG.G.WAおよびRG.I.WAを有している。
【0041】
9ビット構成のレジスタ・コントロール・フィールドRGC内には、2つの2ビット構成の読み出しアドレスRG.G.RAおよびRG.I.RAが配置され、これらにより、それぞれのメモリ・ユニットにより読み出される値RG.GおよびRG.Iの位置が選択されるようになっている。5ビット構成のオペコード・フィールドRG.OPは、レジスタの読み出しおよび書き込み機能を選択するための1ビットと、ユニットRG内の16個のレジスタを選択するための4ビットを有している。したがって、レジスタ・ユニットRG内の変数の位置はコンパイラによって固定される。
【0042】
データ・メモリ・ユニットDMは、少なくとも概念的には、より多くの変数記憶位置を有しており、実際上は、当該技術分野において公知の態様でオン・チップ・キャッシュメモリを介して、読み出し/書き込みおよび/またはリードオンリメモリに対するインタフェースを構成する。イミテーション・マルチポート・メモリ回路30内においては、セパレート・メモリ・ユニットが、ガート・ビットDM.G、32ビットのアドレス語DM.Aおよび32ビットのデータ語DM.I用に配置されている。これらのメモリ・ユニットは、それぞれ256個の位置を有し、その中には、一つのノン・ライタブル位置が含まれている。データ・メモリ・ユニットDMはメモリかろ30の入力に結合された32ビットのデータ出力(DM.O)を有し、それぞれのバス・ライン(DM.O、図4も参照のこと)を形成している。デスティネーション・コントロール・フィールドDECは、メモリ回路30内のマルチプレクサを制御するための3個の3ビット構成の選択フィールドDM.G.SE、DM.A.SEおよびDM.I.SEと、各メモリ・ユニット内の256個の位置を選択するための3個の8ビット構成の書き込みアドレス・フィールドDM.G.WA、DM.A.WAおよびDM.I.WAを有している。
【0043】
25ビット構成のデータ・メモリ・ユニット・コントロール・フィールドDMC内においては、3個の8ビット構成の読み出しアドレスDM.G.RA、DM.A.RAおよびDM.I.RAが配置され、各メモリ・ユニットにより読み出される値DM.G、DM.AおよびDM.Iを選択するようになっている。1ビット構成のオペコード・フィールドDM.OPは、メモリの読み出し、書き込み機能を選択するための1ビットを有している。アドレス語DM.Aによって、データ語DM.Iの書き込みあるいはデータ語DM.Oの読み出し用のアドレスが規定される。これにより、プログラムの走行中において、232個の位置をアドレスするのに充分な32ビットのダイナミックなアドレス計算が可能になる。
【0044】
分岐ユニットBRにより、シーケンサSEによって発生した命令アドレスPCのシーケンスを修正して、プログラム実行における分岐を行なわせることが可能である。このユニットBRは、メモリ回路30内において、ガード・ビットBR.Gおよび32ビットのデスティネーション・アドレスBR.A用のメモリ・ユニットを有している。これらのメモリ・ユニットは、4つの位置を有し、これらの各位置は、ノン・ライタブル位置を含んでいる。デスティネーション・コントロール・フィールドDECは、付随のマルチプレクサを制御するための2つの3ビット選択フィールドBR.G.SEおよびBR.A.SEと、各メモリ・ユニット内の4個の位置を選択するための2つの2ビット構成の書き込みアドレス・フィールドBR.G.WAおよびBR.A.WAを有している。
【0045】
4ビット構成の分岐ユニット・コントロール・フィールドBRC内において、2つの2ビット構成の読み出しアドレスBR.G.RAおよびBR.A.RAが配置され、各メモリ・ユニットから読み出される値BR.GおよびBR.Aの位置を選択できるようになっている。分岐ユニットBRは、ガード・ビットBR.Gおよびデスティネーション・アドレスBR.Aを単に通過して、シーケンサSEQに至っている。オペコード・フィールドBR.OPは不要である。シーケンサSEQ内において、ガード・ビットBR.Gのブール値がテストされる。BR.GがTRUEである場合には、分岐が発生して、シーケンサSEQは次のPCの値をメモリ回路30から受け取ったデスティネーション・アドレスBR.Aに等しくなるようにする。BR.AがFALSEである場合には、シーケンサは単に、PCの値をPC+1にインクリメントして、記憶されているプログラムにおける次の命令をアドレスする。
【0046】
したがって、論理結果AL.OをBR.G(第1のビットのTRUEあるいはFALSE)用のメモリ・ユニットに差し向けることにより、条件付き分岐を行うことができる。
【0047】
無条件(必ず行われる、あるいは決して行われない)分岐は、BG.Gとしてコンスタント結果CO.Oをメモリ・ユニットに差し向けることにより、あるいは、そのメモリ・ユニット内のノン・ライタブル位置を永久的にTRUEあるいはFALSEとなるようにすることによって、達成することができる。本例においては、このようにすることが実際上においては便利である。その理由は、各メモリ・ユニット内の少なくとも一つの位置が、既に上記したようにノン・ライタブルとなっているからである。ガード・ビットBR.GをFALSEにすること(分岐が決して発生しない場合)は、或るサイクルにおいて非分岐動作を開始すべき場合にはしばしば必要とされる。
【0048】
シーケンサSEQはまた、疑似プログラム値PPCを発生し、この値は、メモリ回路30の入力に供給され、バス・ライン(PPC、図4を参照のこと)を形成する。このPPCを、分岐ユニットを含む別の機能ユニットにより使用して、プログラム・カウンタに関するアドレスを行うようにすることもできる。このためには、読み出しの遅延を、バス・ラインからメモリユニット内に値PPCを読み出す命令のサイクル数とPPCの値と同一のPCを有する命令のサイクル数との差として規定すればよい。
【0049】
動作を説明する。分岐命令が発生するサイクルiと、命令語IW(i+b)が分岐命令により行われた第1のサイクルi+bとの間において、bサイクルの分岐遅延が発生する。分岐命令の条件を設定する同一のブール値を、ガード・ビット入力AL.G、RG.GおよびBR.Gに差し向けて、サイクルを中断させて、条件付きで、次の分岐を含む分岐遅延の間における各種の機能ユニットをスケジュールするための状態変化動作を遮ることができる。分岐の可能性を知ることによって、コンパイラを、起こりえない条件付き分岐命令内において有用な動作にスケジュールすることができ、分岐条件が満される希有な場合における正しい状態を確保する。これらのユニット上においてアンガーデッド動作を最も効率良く開始するために、各ガード・メモリ・ユニットのノン・ライタブル位置を、適切な読み出しアドレス.RAに応答してそれらの読み出しポートからTRUEを引き出すことができるように構成すればよい。32ビットのオペラント・メモリ・ユニットのノン・ライタブル位置を、しばしば必要される公知の値、例えば零を引き出すことができるように構成してもよい。
【0050】
オフ・チップ・メモリ、レジスタ・ユニットRGおよびプログラム・カウンタPCの内容のみが、本例においては、処理装置におけるプログラマーが可視可能な部分と見なされる。イミテーション・マルチポート・メモリ回路30は、コンパイラによって、一時的に変数を仲介するために使用される。したがって、コンスタント・ユニットCOなどの機能ユニットはガーディングを必要としない。算術論理ユニットALは、それ自体では装置におけるプログラマーが可視できる状態を変更する能力はないが、このユニットALには、非論理的に発生する算術オーバーフロー等の例外を回避するためのガーディングが組み込まれている。
【0051】
分岐ユニットBRの分岐遅延に加えて、スケジューリング用コンパイラは、全ての機能ユニットにおけるいわゆる「待ち時間」を知っていなければならない。機能ユニットにおけるこの待ち時間は、動作が開始するサイクルの数と、その動作による結果(AL.O等)が生成されて、デスティネション・コントロール・フィールドDECによってイミテーション・マルチポート・ユニット30内の目標とする位置(群)に差し向けられるサイクルの数との差として定義される。上記した分岐遅延は、分岐ユニットBRによる待ち時間と、シーケンサSEQおよびオフ・チップ・命令発生パイプラインIIPによる待ち時間との合計であると考えることができる。
【0052】
次のプログラミング例においては、機能ユニット群の待ち時間は次のように想定される。
【0053】
ユニットCO・・零サイクル数の待ち時間
ユニットAL・・1サイクル数の待ち時間
ユニットRG・・1サイクル数の待ち時間
ユニットDM・・2サイクル数の待ち時間
ユニットBR・・5サイクル数の待ち時間
【0054】
以下のリスティング1は、高級言語のソースコードのフラグメントから構成されている。2つのメモリ内のレコードが変数pおよびqによって指定される。このプログラムの目的は、qレコード内のフィールド群から2つの対応するpレコード内のフィールド群までの2つの32ビット構成の値のコピーを行われることにある。
【0055】
リステイング 1
p^.field1:=q^.field;
p^.field2:=q^.field2:
【0056】
作表1の高水準命令を実現するために用いることのできるデータの1つの可能な構成を図5に示す。プログラム変数用記憶は、0から15までの番号のついた16の記憶場所および(チップ外)読出し書込み用メモリの大型バンクMEMを持つ高速レジスタファイルREGによってプロットされる。ローカルベースアドレスLBは、レジスタファイルREGの場所0に記憶される。アドレスLBは、メモリバンクMRM内の可変値表の開始点をポイントし、このメモリバンクでは、場所LB+12及びLB+8に2つのレコードポインタp及びqがそれぞれ記憶される。各変数p及びqは、メモリーバンクMEMの他の場所を占める対応するレコードの開始点に対するポインタである。各レコードの第1のフィールドは、関連ポインタ変数によって定義されるアドレスからのオフセットがゼロとなるように記憶される。各レコードの第2のフィールドは、関連ポインタ変数からのオフセットが4になるように記憶される。従って、値q^.fleld2は、アドレスがq+4である場所から読出すことができる。
【0057】
前記図5に示すデータ構成であるものと仮定した場合において、作表1の高水準命令をVLIWプロセッサで実行するためにコンパイラによって生成されるT1とラベルされた中間コードフラグメントを作表2に示す。作表2の各行は、適当な機能ユニットによって実行するためにスケジュールしなければならない1つの単一基本オペレーションOP001からOP014までを定義する。各行の端末の注釈(*...*)は、最初に、必要な機能ユニットのタイプ(AL、RG、CO等)を示し、次に、当該オペレーションの結果(出力)を示す。オペレーションOp003(例えば)における参照001及び002は、OP003のためのオペランドが各々Op001およびOp002の結果であることを示す。従って、オペレーションOp003の効果は、オペレーションOp001とOp002の結果を加算することであり、オペレーションOP009の効果は、OP004の結果によってアドレスされた場所のオフ・チップデータメモリーへOp008の結果を書込むことである。この情報を前記図5の記述と組合わせると、作表1によって指定された機能を実現する際における作表2のOp001からOp014までの各オペレーションの目的は説明するまでもないはずである。
【0058】
【0059】
中間のコードフラグメントT1は順次に表示されており、各オペレーションを実施するために少なくとも1つの機能ユニットが適切であるならば、VLIWプロセサの特別なコンフィギュレーションに特有のものでないことが理解出来るはずである。コンパイラが、アプリケーションを構成するフラグメントを収集する段階に達すると、特定の装置コンフィギュレーショウにおける特定のサイクルにおいて、フラグメントの各オペレーションを特定の機能ユニットにマップすることはスケジューラのタスクである。スケジューラは、特定のVLIWプロセッサの構造によって定義される一組の制約条件の下で動作する。これらの制約条件には、主として、ターゲットVLIWプロセッサにおいて利用可能な機能ユニットの数とタイプが含まれる。別の制約条件には、イミテーションマルチ・ポートメモリの各メモリユニットにおけるロケーションの数が含まれる。これらのロケーションは、スケジューラにより、必要に応じて、動的に割り当てられる。フラグメントT1によって呈示されるスケジューリング上の簡単な問題を解決するためには、図2から4までに示すVLIW処理装置における各メモリユニット内のロケーションの数は充分であり、メモリユニットの容量上の制限は、当記述においては制約条件として取り扱う必要のないことが理解されるはずである。
【0060】
他のオペレーションの結果に依存するオペレーションは、これらの他のオペレーション全てのレイテンシーが満了してしまうまで、スケジュールしてはならないので、各オペレーションに対するレイテンシーは重要である。従って、例えば、オペレーションOp009は、Op004(DMレイテンシーは2)よりも少なくとも2サイクル後に、また、オペレーションOp008よりも少なくとも2サイクル後に、スケジュールされなければならない。同様に、オペレーションOp011は、Op010(COレイテンシーはゼロ)と同じサイクルにスケジュールすることができるが、Op004(DMレイテンシーは2)より少なくとも2サイクル後にスケジュールしなければならない。この場合、メモリユニットロケーションの同時書込み及び読取りが可能であるものと仮定する。そのほかの条件として、各タイプのオペレーションに対して、更に1サイクルのレイテンシーが必要とされる場合もある。
【0061】
3つの異なるスケジュール(I,II、及び、III)を示す図6において、各スケジュールは、中間コードフラグメントT1は、図2、3および4を参照して既に述べた特定のVLIWプロセッサにマッピングする。各表の各列は、非常に長い1つの命令語IW、従って1マシンサイクルを表す。サイクル数は、Cyを項目名とする左端欄に示される。その次の5つの欄は、5つの機能ユニット(図2のCO等)に対する5つの制御フィールドCOC、ALC、RGC、DMC、及び、BRCを表す。各制御フィールドは、そのそれぞれの機能ユニットに対するオペレーションを開始する。このように、スケジュール1において、サイクル0、フィールドCOCは、コンスタントユニット(図2におけるCO)に対して、Op005の開始を命令し、その結果として、同じサイクル(Coレイテンシーはゼロ)におけるユニットCOの出力に、結果CO.O=8が現れる。同様に、レジスタ読取りオペレーションOp001を読むレジスタは、フィールドRGCによってサイクル0において開始される。従って、ローカルベースアドレスの値LBは、サイクル1(RGレイテンシーは1)におけるRG.Oである。
【0062】
各命令内の行先制御フィールドDECの選択フィールドDEC.−−.−−.SEは、機能ユニット制御フィールドの右部分に表示される。これらのフィールドは、様々なオペレーションOp001からOp014までの結果を、利用可能になった結果として、それぞれのメモリーユニット内に導く。スケジューラは、行先制御フィールドDECを定義する際に種々の機能ユニットのレイテンシーを適当に処理する。従って、例えば、サイクル0においてフィールドRGCによって開始されるレジスタ読取りオペレーションOp001の結果RG.Oは、サイクル1内のその次の命令に際してフィールドDEC.AL.L.SEにより、算術および論理ユニットALの左これは、スケジュール1、サイクル1におけるAL.L欄に指示されます。同様に、メモリ読取りオペレーションOp007はサイクル2のフィールドDMCによって開始され、他方では、サイクル4(DMレイテンシーは2)において、フィールドDEC.DM.A.SEを“DM”にセットすることにより、当該オペレーションの結果DM.Oが、データメモリユニットDMのアドレスメモリユニットに導かれる。
【0063】
スケジューラは、作表2における次のフラグメント(”GOTO EXIT”)へのジャンプを実施するために、それ自身のオペレーションNw015とNw016を加える。NwO15は、ブランチに対するターゲットアドレスを定義するために、サイクル1において、コンスタントユニットCOを使用し、当該ブランチは、サイクル1において、選択フィールドDEC.BR.A.SEを”CO”にセットすることによってブランチユニットBRのアドレスメモリユニットに向けられる。Nw016は、同じくサイクル1において、ターゲットアドレスに対して無条件(BR.G=1)ブランチを開始するためにブランチ制御フィールドBRCを用いる。5サイクルに相当する長いブランチ遅延により、ターゲットアドレスヘの制御の移動が、フラグメントT1が完成した後で、サイクル8までは発生しないことが保証される。換言すれば、有用なオペレーションがブランチ遅延の間に実行されるようにスケジュール可能にするために、スケジュールにおいてブランチオペレーションは前方に置かれている。図6のスケジュールIにおいては、オペレーションの最大可能数のわずかに約3分の1だけが実際にスケジュールされていることに注意されたい。これは、例にあげたフラグメントのサイズが非常に小さいことが原因であり、そして、当該技術分野でのの熟達者にとっては、更に長いフラグメントをスケジュールする場合には、スケジュールできる有用なオペレーションの割合が更に大きくなることが理解できるはずである。理由は、フラグメントが長くなれば、長いフラグメントに固有の並行性が高くなるからである。
【0064】
長めのフラグメントに固有の多数の条件付き分岐オペレーションは、ここに記述する実施例においては、ブール値化されたガードビット.Gの使用によって克服される、即ち、大部分の条件付ブランチは、ブランチ確立が1に近いか、或いは、ゼロに近くなるようにアレンジすることができるという事実を利用する。例えば、100回実行しようとするループは、0.99又は0.01の確率で起きることを予測可能なブランチに関係する。
【0065】
図6のスケジュールIは、行先制御フィールドDECを完全に無視することにより、真のマルチポートメモリを持つVLIWマシンによって実行可能なはずである。しかしながら、スケジュールIは、模倣マルチポートメモリのメモリーユニットへアクセスするための衝突を含み、従って、オペレーションOp001からOp014までを、図2,3、及び、4に示すプロセッサに正当にマッピングしていない。スケジュールIのサイクル5において、Op004の結果DM.Oは、算術および論理ユニットALの左のオペランドメモリユニット(AL.L)に対し、及び、データメモリユニットDMのアドレスメモリユニット(DM.A)に対して予定される。同じサイクル4において、Op012の結果AL.Oは、同様に、データメモリユニットDMのアドレスメモリユニット(DM.A)に対して予定される。この衝突は、スケジュールIのサイクル5におけるフィールドDEC.DM.A.SEのコードXXによってマークされる。
【0066】
遅延エレメント(特殊レジスタSP)が不在である場合、スケジューラは、その衝突を発見した時点で、プロセッサのハードウェアに対する制約条件が満足されるまで、これらのオペレーションをスケジュールし直すように強制される。当例において、この状況は、図6のスケジュールIIへと導く。スケジュールIIにおいて,Op004は、サイクル4における開始が1サイクルだけ遅延した。しかし、オペレーションOp009、Op011、及び、Cp014はOp004の結果に依存するので、これらのオペレーションも少なくとも1サイクルだけ遅延しなければならない。これらのオペレーションは、スケジュールIにおいて、他のオペレーションOp0012,Op008、Op013、及び、Op014によってインタリーブされたので、ハードウェアに関する制約条件のために、同様に、スケジュールし直さなければならない。
【0067】
スケジュールし直すプロセス、即ち、「バックトラッキング」は、必ず、ハードウェア制約条件を満足させるように完成することができるが、スケジュールし直されたフラグメントT1は、8サイクルの代わりに9サイクルを占めることとなる。この事は、アプリケーションプログラムのこの部分が、同じ機能ユニットを持つ理想的なVLIWマシンの場合よりも12.5%だけ余計に長い事を意味する。更に、バックトラッキングは、第1の衝突を解決する際に起こる新規な衝突の解決を含む余分の仕事にコンパイラを巻き込むことのなる。コンパイラの仕事が増加する問題は、ほとんど全サイクルごとに衝突が発生する可能性のある大型マシンにおいて特に重大性を増す。一般に、衝突の起きたサイクルに亙って多数の命令がスケジュールされている場合まで、衝突の存在が検出されないことは、明白である。機能ユニットの数が10以上に達する大型マシンにおいてこれは、数十ないし数百のオペレーションさえスケジュールし直す必要があり、しかも、スケジュールし直し中に、スケジュールし直し回数と同じ件数の新規な衝突が起きる可能性がある。
【0068】
図6のスケジュールIIIは、図1の一般化されたマシンに関して既に述べたように、特殊レジスタSPの形の遅延エレメントを用いてバックトラッキングを行うことなしに、例として呈示れた衝突を解決する方法を示す。行先制御フィールドDECにおける選択フィールドDEC.SP.SEを、スケジュールIII内の右に示す。オペレーションOp001からOp014まで、及び、NW015からNW016までのスケジューリングは、スケジュールI(真のマルチポートメモリ)の場合とほとんど同じであるということが分かるはずである。しかし、スケジュールIIIにおいては、DM.Aメモリに対して予定された2つの結果の間のサイクル5における衝突は、Op004の結果DM.Oを特殊レジスタに向けることにより、即ち、フィールドDEC.SP.SEを行先制御フィールドDECにおける「DM」にセットすることにより解決される。次に、サイクル6におけるOp009のデータメモリユニットDMが読取るために要する時間内に、Op004の遅延された結果をDM.Aメモリユニットに向けるために、サイクル6において、フィールドDEC.DM.A.SEが「SP」にセットされる。
【0069】
この段階で、Op004の遅延された結果は、サイクル6において、Op011の結果と衝突し、両方結果ともDM.Aメモリユニットに対して予定される。従って、スケジュールIIIにおいて、Op011のスタートは、サイクル6まで遅延され、他のオペレーションには結果的な影響は及ぼさない。この第2の衝突に対して解決するの代りの方法はOp011をサイクル5に残すことになり、一方、サイクル6においてフィールドDEC.SP.SEを「AL」にセットすることによってOp011の結果を遅延させる。次に、Op011の遅延された結果は、サイクル7におけるフィールドDEC.DM.A.SEを「SF」にセットすることによって、Op014の開始に必要な時間内に、DM.Aメモリユニットに向けることができるはずである。
【0070】
あらゆる所定サイクル内でただ1つの単一2値衝突だけが起きる限り、バックトラッキングを回避しながら、真のマルチポートマシンの性能レベルを維持するには、特殊レジスタSPは、常に効果的であるはずである。これは、機能ユニットが各サイクル内にメモリユニットから読出すことができるのは1つの値だけに限られるということ、即ち、衝突結果のうちの1つが、1つの衝突結果の前に、必ず、必要とされるという事実から帰結される。引き数を実施するために、Op004の結果が必要とするよりもさらに急速にOp011の結果が求められた場合には、Op004の結果は、2サイクル、又は最終的にこの結果が衝突結果より緊急を要するようになるまで、任意のサイクル数だけ遅延させることができるはずである。全ての場合に、他のオペレーションの結果的なスケジュールし直しの必要性は回避することができる。
【0071】
図1の一般化されたVLIWマシンに戻って記述すると、一定の遅延を実現するための1つの単一レジスタでなく、多数のロケーションを持つ特殊ランダムアクセスメモリユニット70の形の強化遅延エレメントを図7に示す。当実施例用の命令レジスタは、特殊メモリユニット70に対して読取りポートアドレスSP.RA、書込みポートアドレスSP.WA及び関連書込み可能化信号SP.Aを定義する追加制御フィールドを供給する。スケジューラは、特殊メモリユニットの種々のロケーションを用いて、対応する数の「重複する」2値衝突を解決できる。これらの重複する衝突は、結果が1サイクル以上遅延することを必要とするために、異なるサイクルにおいて起こるが相互に重なる衝突である。
【0072】
1つの単一サイクル内で起こるより高位衝突、及び/又は、多重2値衝突の解決を可能にするために、遅延エレメントを更に付加することは簡単である。VLIWマシンの設計者は、コスト効果の高いマシンを設計するために、機能ユニットおよびメモリユニットそれぞれのオペランドに対してユニットの数およびタイプを変える事が出来ると同様な方法で、この種エレメントの数を変えることができる。遅延エレメントは、単一遅延レジスタ又はアドレスされたランダムアクセスメモリユニット、或はこれら双方の混合体の形、又は、他の有用な任意の形であっても差し支えない。各遅延は、必要なバスラインによって占められる回路面積を減少させるために、マシンの入力、及び/又は、出力に関して、マシンの機能ユニットの部分集合としての機能を果たすように制限できるはずである。
【0073】
自動スケジューラが、所定のハードウェアコンフィギュレーションによって定義された制約条件に基づいてプログラムされると、人間のプログラマは、VILWプロセッサ内でのオペレーションの詳細な割り振りに関係する必要がない。この種の詳細は、コンパイルする際にスケジューラによって決定され、自身のいずれかの並列コンピュータにおけるラン−タイムスケジューラによって決定されるのではないので、VLIWマシンの設計者は、作動するマシンを作成する必要なしに、該当する制約条件を用いてスケジューラをランさせるだけで、種々のコンフィギュレーションの性能を迅速に比較することができる。
【0074】
同様に、2値衝突を回避する能力を備えた模倣マルチ・ポートメモリの代替構成を図8に示す。例として、第1の機能ユニットF1の左のオペランド入力を参照すると、オペランドF1.L(図1)用のメモリユニット15は、それぞれのマルチプレクサ84または85を介して任意のバスライン16に接続された接続可能な2つの書込みポート81および82を持つメモリユニット80と交換されている。メモリユニット80は、それぞれ関連した使用可能化信号.WEを伴った2つの書込みアドレス、F1.L1.WA、及び、F1.L2.WAを必要とし、マルチプレクサ84及び85は、それぞれの選択信号F1.L1.SE、及び、F1.L2.SEを必要とする。これらの信号は、既に述べたように、非常に長い命令語内の追加フィールドによって供給される。
【0075】
遅延エレメント21(図 1)、SP(図 2)、及び、70(図 7)を備えることと比較すると、単一メモリユニット80に多重書込みポートを備えることは、回路が余分に複雑化するのにひきかえ、F1.Lメモリユニットにおける衝突だけが回避されるという短所を持つ。しかし、特定の1つの機能ユニット、または、機能ユニットの或るタイプに限って衝突が最も頻繁に起きるということがあるかも知れない。このような場合に、当該タイプの機能ユニットをついか装備することがコスト効果的でないならば、図8の実施例が魅力的となる可能性がある。図8の回路は、スイッチング回路に1本のバスライン(24…図1)を追加しないという長所を持つ。典型的なVLIWマシンにおいては、バスラインが、回路面積のかなりの部分を占有する傾向がある。マルチポートメモリユニット80では、その占有面積は同様に増大するが、模倣マルチポートメモリ全体としては、全ての共通機能ユニットとして役立つ真のマルチポートメモリより効率的な状態を維持する。どんなことがあっても、図8における鎖線24は、あらゆる場合に、メモリユニット80は、厳密な意味での代替品である代わりに、遅延エレメントの外に多重書込みポートを備えることが可能であることを示す。更に、マルチポート付きメモリユニット80には1つの書込み不能ロケーションを備えさせることが可能であり、従って、既に述べた図2から4までの実施例の場合のように、2つの書込み可能化信号F1.L1.WE、及び、F1.L2.WEの必要性を排除できる。
【0076】
最終的な結果として、VLIWプロセッサの設計者は、模倣マルチポートメモリの性能を改良するために或る技術範囲が利用可能であり、従って、真のマルチポートメモリに更に近付けることができる。設計者は、あらゆる所定のアプリケーションに適した技術または技術の組合わせを選択可能であり、この種技術は、アプリケーションの特性によって変化するはずである。
【0076】
装備させようとする機能ユニットの数およびタイプの選択も実質的に全く自由である。図2に示す特定の実施例における各ユニットは、特定の機能または機能のグループを遂行するために或る程度専門化されるが、スケジューリングに最大限の融通性を持たせるために、これら機能グループは、更に一般的な多目的タイプの機能ユニットに組み合わせることができる,このタイプのユニットの短所は、完全な逐次制御方式を可能にするには、全てのオペレーションに対してレイテンシーが一定であることが望ましく、従って、速い方のオペレーション(例えば一定の生成のような)を最も遅いオペレーションの速度まで減速しなければならないことである。一方、更に専門化したタイプの機能ユニットは、アプリケーションによっては有用であり、例えば浮動小数点乗算、バレルシフチング、または、入力/出力機能を遂行する。この技術分野における熟達者にとって、従来のマイクロプロセッサに使われるユニットと同じタイプのユニットを、本発明に基づき、処理装置にとり入れることは適切かつ容易である。
【図面の簡単な説明】
【図1】本願の第1の発明による処理装置の全体構成を示すブロック図である。
【図2】本願の第1の発明による処理装置の例を示すブロック図である。
【図3】図2に示す装置におけるベリー・ロング命令後のフィーマットを示す説明図である。
【図4】図2の装置におけるイミテーション・マルチポート・メモリの部分を示すブロック図である。
【図5】例示したプログラムの部分的な動作を示す説明図である。
【図6】図2の装置用に例示したプログラムの一部分のスケジューリングを示す説明図であり、ここには衝突という問題点が含まれている。
【図7】図1の処理装置の修正例を示すブロック図である。
【図8】本願の第2の発明にしたがって構成した、図1の処理装置の別の実施例を示すブロック図である。
【符号の説明】
F1、F2、・・・FN ・・・機能ユニット
10・・・イミテーション・メモリ・ユニット
12・・・データ出力
13・・・制御入力
14・・・データ入力
15・・・メモリ・ユニット
16、24・・・バス・ライン
18・・・スイッチング回路
20、22・・・マルチプレクサ
21・・・レジスタ
Claims (14)
- 処理装置であって、該処理装置の連続した動作サイクルに対応した単一かつ一連のプログラム命令の制御の下に並列動作するように配列された機能ユニットの1つのグループと1つのメモリ回路を備え、グループ内の少なくとも1つの機能ユニットは、メモリ回路の関連出力からオペランドを受取るための少なくとも1つのデータ入力を有し、そして、グループ内の少なくとも2つの機能ユニットは、メモリ回路の各入力に結果を供給するための各データ出力を有する処理装置において、前記メモリ回路は:
各メモリユニットが、書き込みポートと、メモリ回路の出力のそれぞれ1つを形成する1つの読み出しポートとを備えた複数のメモリユニットと;
機能ユニットの出力と個別のメモリユニットの書き込みポートを接続するスイッチング回路であって、一連のプログラム命令によって制御され、それにより、各機能ユニットからの結果が、各動作サイクルにおける一連のプログラム命令によって選択された1以上のメモリユニットの書き込みポートに伝達可能であるスイッチング回路と;
スイッチング回路に接続された入力を持つ遅延エレメントであって、それにより、機能ユニットの中の1つによって1つの動作サイクルにおいて作られた結果を、そのメモリ回路内で遅延させることが可能であり、そして、その次の動作サイクルにおいてメモリ回路のメモリユニットに書き込み可能である遅延エレメントと;
を備えたことを特徴とする処理装置。 - 遅延エレメントが単一場所メモリユニットを有することを特徴とする請求項1記載の処理装置。
- 遅延エレメントが、1以上の動作サイクルの一定時間遅延を実行することを特徴とする請求項1記載の処理装置。
- スイッチング回路が、1動作サイクル以上結果を遅延させるために、遅延エレメントの入力をその遅延エレメントの出力に接続させるプログラム命令によって制御可能であることを特徴とする請求項3記載の処理装置。
- 遅延エレメントが、複数のアドレス可能なロケーションを持つメモリユニットを備え、複数の結果の同時遅延を可能にすることを特徴とする請求項1記載の処理装置。
- 複数の遅延エレメントを備え、1つの単一動作サイクルにおいて作られた複数の結果の同時遅延を可能にすることを特徴とする請求項1記載の処理装置。
- 一連のプログラム命令において、少なくとも1動作サイクルのブランチ遅延に関係する条件付きブランチを起こさせる手段と;
ブランチ遅延中に機能ユニットのグループの中の少なくとも1つによって行われるオペレーションを条件付で抑制するための手段と;
を備えたことを特徴とする請求項1記載の処理装置。 - 少なくとも1つの機能ユニットに対するオペレーションを条件付きで抑制するための手段が、オペレーションを抑制するか否かを決定するブール保護値を受け取るための、当該機能ユニットへの保護値入力と、スイッチング回路に接続された書き込みポート及び機能ユニットの保護値入力に接続された読み出しポートを持つメモリ回路内の保護値メモリユニットとを有することを特徴とする請求項7記載の処理装置。
- 保護値メモリユニットが、所定のブール値を記憶する1以上の書き込み不可能なロケーションを有することを特徴とする請求項8記載の処理装置。
- 少なくとも1つのメモリユニットが、各プログラム命令に含まれる書き込みアドレス値を受け取るための書き込みアドレス入力を有し、更に、異なる書き込みアドレス値に対応する書き込み可能および書き込み不可能なロケーションを備え、非書き込みオペレーションは、プログラム命令内に個別の書き込み可能化値を設けておくことなしに、書き込み不可能ロケーションに対応する書き込みアドレス値によって、所定のプログラム命令内で実施可能であることを特徴とする請求項1記載の処理装置。
- 少なくとも1つのメモリユニットが、スイッチング回路に接続された2以上の書き込みポートを有することを特徴とする請求項1記載の処理装置。
- 機能ユニットのグループ及びメモリ回路がモノリシック集積回路の一部を構成することを特徴とする請求項1記載の処理装置。
- VLIW処理装置であって、該処理装置の連続した動作サイクルに対応した単一かつ一連のプログラム命令の制御の下に並列動作するように配列された機能ユニットの1つのグループと1つのメモリ回路を備え、グループ内の少なくとも1つの機能ユニットは、メモリ回路の関連出力からオペランドを受取るための少なくとも1つのデータ入力を有し、そして、グループ内の少なくとも2つの機能ユニットは、メモリ回路の各入力に結果を供給するための各データ出力を有するVLIW処理装置において、前記メモリ回路は:
各メモリユニットが、書き込みポートと、メモリ回路の出力のそれぞれ1つを形成する1つの読み出しポートとを備えた複数のメモリユニットと;
機能ユニットの出力と個別のメモリユニットの書き込みポートを接続するスイッチング回路であって、一連のプログラム命令によって制御され、それにより、各機能ユニットからの結果が、各動作サイクルにおける一連のプログラム命令によって選択された1以上のメモリユニットの書き込みポートに伝達可能であり、メモリユニットの少なくとも1つが、スイッチング回路に接続された2以上の書き込みポートを有するスイッチング回路と;
を備え、
少なくとも1つのメモリユニットが、各プログラム命令に含まれる書き込みアドレス値を受け取るための書き込みアドレス入力を有し、更に、異なる書き込みアドレス値に対応する書き込み可能および書き込み不可能なロケーションを備え、非書き込みオペレーションは、プログラム命令内に個別の書き込み可能化値を設けておくことなしに、書き込み不可能ロケーションに対応する書き込みアドレス値によって、所定のプログラム命令内で実施可能であることを特徴とするVLIW処理装置。 - 更に、一連のプログラム命令において、少なくとも1動作サイクルのブランチ遅延に関係する条件付きブランチを起こさせる手段と;
ブランチ遅延中に機能ユニットのグループの中の少なくとも1つによって行われるオペレーションを条件付で抑制するための手段と;
を備え、
少なくとも1つの機能ユニットに対するオペレーションを条件付きで抑制するための手段が、オペレーションを抑制するか否かを決定するブール保護値を受け取るための、当該機能ユニットへの保護値入力と、スイッチング回路に接続された書き込みポート及び機能ユニットの保護値入力に接続された読み出しポートを持つメモリ回路内の保護値メモリユニットとを有し、
保護値メモリユニットが、所定のブール値を記憶する1以上の書き込み不可能なロケーションを有することを特徴とする請求項13記載のVLIW処理装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US59453490A | 1990-10-05 | 1990-10-05 | |
US594534 | 1990-10-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04299436A JPH04299436A (ja) | 1992-10-22 |
JP3687982B2 true JP3687982B2 (ja) | 2005-08-24 |
Family
ID=24379286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP32363291A Expired - Lifetime JP3687982B2 (ja) | 1990-10-05 | 1991-10-04 | メモリ回路および機能ユニットのグループを備えた処理装置 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP0479390B1 (ja) |
JP (1) | JP3687982B2 (ja) |
KR (1) | KR100242619B1 (ja) |
DE (1) | DE69130723T2 (ja) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6370623B1 (en) * | 1988-12-28 | 2002-04-09 | Philips Electronics North America Corporation | Multiport register file to accommodate data of differing lengths |
DE69230554T2 (de) * | 1991-07-08 | 2000-07-06 | Seiko Epson Corp | Risc-mikroprozessorarchitektur mit schnellem unterbrechungs- und ausnahmemodus |
US5539911A (en) | 1991-07-08 | 1996-07-23 | Seiko Epson Corporation | High-performance, superscalar-based computer system with out-of-order instruction execution |
DE69231762T2 (de) | 1991-07-08 | 2001-07-26 | Seiko Epson Corp | Risc-prozessor mit dehnbarer architektur |
US5961629A (en) * | 1991-07-08 | 1999-10-05 | Seiko Epson Corporation | High performance, superscalar-based computer system with out-of-order instruction execution |
US5438668A (en) | 1992-03-31 | 1995-08-01 | Seiko Epson Corporation | System and method for extraction, alignment and decoding of CISC instructions into a nano-instruction bucket for execution by a RISC computer |
KR100248903B1 (ko) | 1992-09-29 | 2000-03-15 | 야스카와 히데아키 | 수퍼스칼라마이크로프로세서에서의 적재 및 저장연산처리방법 및 시스템 |
US6735685B1 (en) | 1992-09-29 | 2004-05-11 | Seiko Epson Corporation | System and method for handling load and/or store operations in a superscalar microprocessor |
EP0605927B1 (en) * | 1992-12-29 | 1999-07-28 | Koninklijke Philips Electronics N.V. | Improved very long instruction word processor architecture |
WO1994027216A1 (en) * | 1993-05-14 | 1994-11-24 | Massachusetts Institute Of Technology | Multiprocessor coupling system with integrated compile and run time scheduling for parallelism |
US5481743A (en) * | 1993-09-30 | 1996-01-02 | Apple Computer, Inc. | Minimal instruction set computer architecture and multiple instruction issue method |
JPH09507596A (ja) * | 1994-01-10 | 1997-07-29 | ザ、ダウ、ケミカル、カンパニー | 大多重化スーパスカラー・ハーバード・アーキテクチャ・コンピュータ |
JP3547139B2 (ja) * | 1995-03-17 | 2004-07-28 | 株式会社 日立製作所 | プロセッサ |
US6247036B1 (en) | 1996-01-22 | 2001-06-12 | Infinite Technology Corp. | Processor with reconfigurable arithmetic data path |
US5771362A (en) * | 1996-05-17 | 1998-06-23 | Advanced Micro Devices, Inc. | Processor having a bus interconnect which is dynamically reconfigurable in response to an instruction field |
US5924128A (en) * | 1996-06-20 | 1999-07-13 | International Business Machines Corporation | Pseudo zero cycle address generator and fast memory access |
US5931939A (en) * | 1996-09-25 | 1999-08-03 | Philips Electronics North America Corporation | Read crossbar elimination in a VLIW processor |
JP3790607B2 (ja) | 1997-06-16 | 2006-06-28 | 松下電器産業株式会社 | Vliwプロセッサ |
US6105051A (en) * | 1997-10-23 | 2000-08-15 | International Business Machines Corporation | Apparatus and method to guarantee forward progress in execution of threads in a multithreaded processor |
US6697935B1 (en) | 1997-10-23 | 2004-02-24 | International Business Machines Corporation | Method and apparatus for selecting thread switch events in a multithreaded processor |
US6567839B1 (en) | 1997-10-23 | 2003-05-20 | International Business Machines Corporation | Thread switch control in a multithreaded processor system |
US6212544B1 (en) | 1997-10-23 | 2001-04-03 | International Business Machines Corporation | Altering thread priorities in a multithreaded processor |
US6076157A (en) * | 1997-10-23 | 2000-06-13 | International Business Machines Corporation | Method and apparatus to force a thread switch in a multithreaded processor |
US6314493B1 (en) | 1998-02-03 | 2001-11-06 | International Business Machines Corporation | Branch history cache |
US6212628B1 (en) | 1998-04-09 | 2001-04-03 | Teranex, Inc. | Mesh connected computer |
JP4630462B2 (ja) * | 1999-02-23 | 2011-02-09 | ルネサスエレクトロニクス株式会社 | 集積回路及びそれを用いた情報処理装置 |
WO2001069411A2 (en) * | 2000-03-10 | 2001-09-20 | Arc International Plc | Memory interface and method of interfacing between functional entities |
WO2003083649A1 (en) * | 2002-03-28 | 2003-10-09 | Koninklijke Philips Electronics N.V. | Vliw processor |
US7574583B2 (en) * | 2002-09-24 | 2009-08-11 | Silicon Hive B.V. | Processing apparatus including dedicated issue slot for loading immediate value, and processing method therefor |
US8667252B2 (en) | 2002-11-21 | 2014-03-04 | Stmicroelectronics, Inc. | Method and apparatus to adapt the clock rate of a programmable coprocessor for optimal performance and power dissipation |
JP2009508201A (ja) * | 2005-09-09 | 2009-02-26 | フリースケール セミコンダクター インコーポレイテッド | 相互接続、及び相互接続の設計方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0259095A3 (en) * | 1986-08-27 | 1990-02-28 | Amdahl Corporation | Cache storage queue |
AU1721088A (en) * | 1987-05-01 | 1988-12-02 | Cydrome, Inc. | Parallel-processing system employing a horizontal architecture comprising multiple processing elements and interconnect circuit with delay memory elements to provide data paths between the processing elements |
-
1991
- 1991-10-03 DE DE69130723T patent/DE69130723T2/de not_active Expired - Lifetime
- 1991-10-03 EP EP91202586A patent/EP0479390B1/en not_active Expired - Lifetime
- 1991-10-04 JP JP32363291A patent/JP3687982B2/ja not_active Expired - Lifetime
- 1991-10-05 KR KR1019910017465A patent/KR100242619B1/ko not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
EP0479390A3 (en) | 1993-09-15 |
EP0479390A2 (en) | 1992-04-08 |
EP0479390B1 (en) | 1999-01-07 |
DE69130723T2 (de) | 1999-07-22 |
DE69130723D1 (de) | 1999-02-18 |
JPH04299436A (ja) | 1992-10-22 |
KR100242619B1 (ko) | 2000-08-01 |
KR920008595A (ko) | 1992-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3687982B2 (ja) | メモリ回路および機能ユニットのグループを備えた処理装置 | |
US5692139A (en) | VLIW processing device including improved memory for avoiding collisions without an excessive number of ports | |
US5710902A (en) | Instruction dependency chain indentifier | |
KR100284789B1 (ko) | N-지로 분기를 갖는 슈퍼스칼라 또는 초장 명령어 워드컴퓨터에서 다음 명령어를 선택하는 방법 및 장치 | |
EP0450658B1 (en) | Parallel pipelined instruction processing system for very long instruction word | |
US4553203A (en) | Easily schedulable horizontal computer | |
US8161266B2 (en) | Replicating opcode to other lanes and modifying argument register to others in vector portion for parallel operation | |
US6185668B1 (en) | Method and apparatus for speculative execution of instructions | |
US4507728A (en) | Data processing system for parallel processing of different instructions | |
US5226131A (en) | Sequencing and fan-out mechanism for causing a set of at least two sequential instructions to be performed in a dataflow processing computer | |
US6237077B1 (en) | Instruction template for efficient processing clustered branch instructions | |
GB2287108A (en) | Method and apparatus for avoiding writeback conflicts between execution units sharing a common writeback path | |
US5307300A (en) | High speed processing unit | |
WO1996018950A2 (en) | Exception recovery in a data processing system | |
JP2933026B2 (ja) | 複数命令並列発行/実行管理装置 | |
US5907693A (en) | Autonomously cycling data processing architecture | |
US4811201A (en) | Interconnect circuit | |
JP3311381B2 (ja) | コンパイラにおける命令スケジューリング処理方法 | |
EP0496407A2 (en) | Parallel pipelined instruction processing system for very long instruction word | |
US7024540B2 (en) | Methods and apparatus for establishing port priority functions in a VLIW processor | |
David et al. | Self-timed architecture of a reduced instruction set computer | |
JPH10502756A (ja) | ベクトルプロセッサのためのチャンク連鎖 | |
JP2004503872A (ja) | 共同利用コンピュータシステム | |
JP2006506727A (ja) | コピーレジスタファイルを有するvliw | |
JPH04291659A (ja) | 並列コンピュータシステムおよびその動作方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040426 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040723 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041005 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20041008 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050516 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050607 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080617 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090617 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100617 Year of fee payment: 5 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100617 Year of fee payment: 5 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110617 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120617 Year of fee payment: 7 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120617 Year of fee payment: 7 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120617 Year of fee payment: 7 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120617 Year of fee payment: 7 |
|
R370 | Written measure of declining of transfer procedure |
Free format text: JAPANESE INTERMEDIATE CODE: R370 |