JP2002318689A

JP2002318689A - 資源使用サイクルの遅延指定付き命令を実行するｖｌｉｗプロセッサおよび遅延指定命令の生成方法

Info

Publication number: JP2002318689A
Application number: JP2001121966A
Authority: JP
Inventors: Satoru Nishimoto; 哲西本
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2001-04-20
Filing date: 2001-04-20
Publication date: 2002-10-31

Abstract

(57)【要約】【課題】ＶＬＩＷプロセッサにおける資源の競合による
性能の低下を回避する。【解決手段】４０１の演算パイプライン０と４０２の演
算パイプライン１がライトポート４１６を共有するＶＬ
ＩＷプロセッサにおいて、命令にライトポートの使用を
遅延させるビットと遅延させるサイクル数を指定するフ
ィールドを設ける。コンパイラは、４０１と４０２から
同時に結果が出力されるような命令のスケジュールを行
ない、この場合いずれかの命令に遅延指定を行なう。プ
ロセッサは遅延指定がついた命令が４０１および４０２
から出力されると、次のサイクルでＷＲステージ４１６
に進めるのではなく、命令で指定された遅延サイクルだ
け４０４のライトポート遅延回路に保持し、遅延サイク
ルが経過すると、４０４からＷＲステージ４１６に命令
を進める。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、並列実行可能な命
令をコンパイル時に指定する、ＶＬＩＷ（ＶｅｒｙＬ
ｏｎｇＩｎｓｔｒｕｃｔｉｏｎＷｏｒｄ）プロセッ
サおよびＶＬＩＷプロセッサ用の命令を生成するコンパ
イラに関する。

【０００２】

【従来の技術】近年、並列実行可能な複数の演算命令
を、１つにまとめた長命令語（ＶＬＩＷ命令）（Ｖｅｒ
ｙＬｏｎｇＩｎｓｔｒｕｃｔｉｏｎＷｏｒｄ）を
実行するＶＬＩＷプロセッサが実用化されている。ＶＬ
ＩＷプロセッサは、ＶＬＩＷ命令内の演算命令間の依存
関係を実行時にハードウェアによって検出する必要がな
いため、ハードウェアが簡単になるという利点がある。
またハードウェアの簡単化によって消費電力を小さくで
きるため、近年では携帯端末向けのＤＳＰ（Ｄｉｇｉｔ
ａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）や、汎用プ
ロセッサとしても使用されている。

【０００３】ＶＬＩＷプロセッサには、並列実行可能な
複数の演算命令をＶＬＩＷ命令よって明示するという共
通の特徴があるが、実際の実現方法には、（１）プロセ
ッサの資源の管理をハードウェアが行なう方式と、
（２）資源管理の多くの部分をコンパイラ（ソフトウェ
ア）に任せる方式の、２つの方向がある。前者の例とし
てはインテルのＩＡ―６４アーキテクチャがある。ＩＡ
―６４アーキテクチャでは、ＶＬＩＷ命令間の依存関係
はハードウェアが検出し、必要があればパイプラインを
ストールさせる。後者の例としては、特開平１１―６５
８４４号公報や、特開平９―５４６９３号公報で開示さ
れているＶＬＩＷプロセッサがある。

【０００４】（２）の特開平１１―６５８４４号公報で
示されるＶＬＩＷプロセッサでは、パイプラインのバイ
パス機能を使うか否かを、命令によって指示する方法が
開示されている。データ依存がある先行命令Ａと後続命
令Ｂがあるとき、ＡとＢの間に必要なサイクル数を命令
Ａのレイテンシーと呼ぶ。パイプラインのバイパスと
は、命令Ａの結果がレジスタに書かれた後で、命令Ｂが
レジスタから依存するデータを読むのではなく、演算器
から出力された命令Ａの結果をレジスタに書く処理と並
行して後続の命令Ｂに該当データを転送する処理であ
る。前記の特許では、命令毎にバイパス機能を使うか、
レジスタから読むかを指定し、ハードウェアはこの指定
に基づいてバイパスからのデータとレジスタからのデー
タをセレクトする。

【０００５】また、（２）の特開平９―５４６９３号公
報では、ＶＬＩＷ命令内の各演算命令を演算器に発行す
るサイクルを遅延させる命令を新たに設け、これにより
ＮＯＰ（ＮｏＯｐｅｒａｔｉｏｎ)命令を削減し、オ
ブジェクトサイズの削減と、性能を向上させる方法が示
されている。ＶＬＩＷ命令内には、並列実行可能な複数
の演算命令が格納される。１つのＶＬＩＷ命令内に格納
できる演算命令の最大数をＶＬＩＷ命令長と呼ぶ。ＶＬ
ＩＷ命令内の演算命令フィールドには常に有効な演算命
令が格納されるとは限らず、有効な演算命令が存在しな
い場合は、ＮＯＰ命令と呼ぶ何も実行しない命令が埋め
られる。前記の特許では、演算命令の演算器への発行
を、指定サイクルだけ遅延させる命令を備えることによ
り、例えば''演算命令Ａは、ＶＬＩＷ命令Ｘ１内の他の
演算命令と並列実行可能であるが、ＶＬＩＷ命令Ｘ１の
演算フィールドが全て埋まっているため、命令ＡをＶＬ
ＩＷ命令Ｘ１に配置することができず、Ｘ１の後続のＶ
ＬＩＷ命令Ｘ２に配置しなければならない場合''に性能
が向上する。

【０００６】前記の場合、ＶＬＩＷ命令Ｘ１の先行命令
Ｘ０に空きフィールドがあれば、ＶＬＩＷ命令Ｘ０に演
算命令ＡとＡの演算器への発行を指定サイクルだけ遅延
させる命令を、Ｘ０の空きフィールドに配置する。これ
によりＶＬＩＷ命令Ｘ０の空きフィールドには有効な演
算命令Ａが配置され、かつＡが従来配置されていたＶＬ
ＩＷ命令Ｘ２の演算フィールドは他の命令で使用するこ
とができる。

【０００７】プロセッサ資源の管理をコンパイラに任せ
るようなＶＬＩＷプロセッサにおいて、コンパイラが管
理する資源の１つに、レジスタのリードポートおよびラ
イトポートがある。この種のプロセッサでは、前記のポ
ートの競合の回避をハードウェアでは行なわないため、
実行時にポートの競合が発生すると実行結果が不正にな
る。この状況は、例えば複数の演算器がライトポートを
共有しているプロセッサにおいて、共有している演算器
の結果が同時にレジスタのライトポートを使うような命
令の配置を行なった場合に発生する。

【０００８】プロセッサの並列性に見合った性能をだす
ために、通常十分な数のリードポートを備える。同一Ｖ
ＬＩＷ命令内の全演算命令は、命令デコード後に同時に
レジスタを読むので、全演算フィールドが埋まったＶＬ
ＩＷ命令を毎サイクル演算器に発行するためには、ＶＬ
ＩＷ命令長に見合った十分なリードポートが必要であ
る。リードポートの数が十分でない場合は、同一ＶＬＩ
Ｗ命令に配置できる演算命令を、使用するリードポート
の数に応じて制限する必要が生じる。

【０００９】一方ライトポートに関しては、各演算命令
が最大１つの演算結果をレジスタに書き込む場合でも、
ＶＬＩＷ命令長だけライトポートを用意しても不十分な
場合がある。ＶＬＩＷ命令の各演算命令は、そのフィー
ルドに対応した演算器に発行される。１つのフィールド
には加算器、乗算器といった複数の演算器が対応してい
る。演算フィールドＸに対応する演算器がＡ、Ｂ、Ｃ、
Ｄの４個ある場合を考える。演算フィールドＸに配置さ
れた演算命令は、演算器Ａ、Ｂ、Ｃ、Ｄのいずれかに発
行される。ここで演算器Ａ、Ｂ、Ｃ、Ｄのパイプライン
ステージ長が等しいならば、演算器Ａ、Ｂ、Ｃ、Ｄの結
果をレジスタに格納する際に使用するライトポートの数
は、全体で１つあれば十分である。しかし演算器のパイ
プラインステージ長が異なる場合（加算器と乗算器の場
合など）は、異なるサイクルで演算器Ａ、Ｂ、Ｃ、Ｄに
発行された演算命令の結果が、Ａ、Ｂ、Ｃ、Ｄから同時
に出力される場合が生じる。

【００１０】したがって、ライトポートの競合をなくす
には、理想的には演算器の数だけライトポートを設ける
必要がある。しかし、演算の結果は各演算フィールドに
つき、最大でも１つなので演算器の数だけライトポート
を設けるとライトポートの使用率は低下する。

【００１１】前記のライトポート数のトレードオフを考
慮した方法としては、演算器Ａ、Ｂ、Ｃ、Ｄをグループ
化して、同一グループの演算器ではライトポートを共有
するものがある。例えばＡ、Ｂで一つのライトポートを
共有し、Ｃ、Ｄで一つのライトポートを共有する。これ
によりＡ、Ｂ、Ｃ、Ｄのパイプラインステージ長が全て
異なる場合でも、ライトポートが競合する割合が減少す
る。また例えばＣ、Ｄのパイプラインステージ長が等し
い場合はＣ、Ｄに関してはライトポートの競合がなくな
る。

【００１２】上記のライトポートの競合については、資
源の管理をコンパイラに任せるＶＬＩＷプロセッサにつ
いて述べたが、資源管理をハードウェアが行なうような
スーパースカラプロセッサでは、リオーダーバッファな
どを用いて、同時にコンプリーションする命令の数をハ
ードウェアが管理する。リオーダーバッファについて
は、スーパースカラプロセッサ（マイクジョンソン著、
村上和彰監訳、日経ＢＰ出版センター）Ｐ９０で述べ
られている。

【００１３】

【発明が解決しようとする課題】プロセッサのライトポ
ートの競合の回避をコンパイラが行なうようなＶＬＩＷ
プロセッサでは、ライトポートの競合を回避するため
に、命令スケジューリングが制約を受け、性能が低下す
る場合がある。図１、２を用いて性能が低下する場合に
ついて説明する。

【００１４】まず図１に示すＶＬＩＷプロセッサを仮定
する。１０１は、ＶＬＩＷ命令であり、並列実行可能な
演算命令は１０２のフィールド０と、１０３のフィール
ド１に格納される。図１ではフィールド１に対応する演
算器のみを示している。フィールド１は、１０４の演算
器１と１０５の演算器２に対応付けられており、フィー
ルド１に配置された命令は、このいずれかの演算器で実
行される。演算器１に発行された命令は、Ｅ１、Ｅ２、
Ｅ３、ＷＲステージを通り、演算器２に発行された命令
は、Ｅ１、ＷＲステージを通る。ＷＲステージでは演算
器１、２の結果を１０６でセレクトし、レジスタファイ
ル１０７内の該当するレジスタに値を書き込む。このよ
うに１０６でデータをセレクトするので、演算器１、２
の結果が同時にＷＲステージに載ると、セレクタ１０６
でいずれか一方の値が捨てられるかまたは不定値とな
る。

【００１５】図２（Ａ）は、プログラム片の依存グラフ
である。ノードａ〜ｈは命令を表し、ノード間のエッジ
は命令間の依存を表す。またノードａからｂにあるエッ
ジｘ（ｙ）がある場合、ｘはノードａを発行後ｘサイク
ルでノードｂが発行可能であることを示しており、ｙは
ノードａが発行された後、ｙサイクル後にライトポート
を使用することを表している。前記ｘを命令ａのレイテ
ンシーと呼ぶ。ａ、ｂ、ｃ、ｄ、ｇはレイテンシー３の
命令であり、図１の演算器１で実行される。命令ｅ、
ｆ、ｈはレイテンシー１の命令であり、演算器２で実行
される。

【００１６】図２（B）は、図２（Ａ）のフローグラフ
で示すプログラムを、図１のＶＬＩＷプロセッサ用にコ
ンパイルしたときの命令列と、それを実行したときのラ
イトポートの使用状況を表したものである。表の縦軸は
ノードを表しており、横軸はサイクルである。表中の記
号は、図１の使用するパイプラインステージを表す。

【００１７】命令スケジューラは、命令ａ、ｂをサイク
ル０、１に配置した後、命令ｃの配置を試みる。いま図
２（Ａ）の依存グラフから命令ｃは命令ａ、ｂと依存し
ないので、コンパイラは発行スロットが埋まっていない
サイクル２での発行可を試みる。しかし、命令ｃをサイ
クル２に配置すると、サイクル４で命令ａとライトポー
トが競合するので、命令ｃをサイクル２には配置できな
い。次に命令ｃのサイクル３への配置を試みる。この場
合も同様に、命令ｂとサイクル５でライトポートが競合
するので、命令ｃをサイクル３には配置できない。結局
命令ｃはサイクル４に配置されることになる。

【００１８】このようにライトポートを回避するため
に、命令の発行は遅延され、最終的に１０、１１サイク
ルにライトポートを使用しないサイクルが発生し性能が
低下する。

【００１９】このようなライトポートの競合は、従来技
術の特開平９―５４６９３号公報で示されている命令の
発行を、遅延させる方法では回避できない。

【００２０】

【課題を解決するための手段】本発明は、演算結果をレ
ジスタに書くためのライトポートを複数の演算器で共有
するようなＶＬＩＷプロセッサにおいて、前記ＶＬＩＷ
プロセッサで実行される命令のうち、ライトポートが競
合する可能性のある命令のフィールドに、ライトポート
を使用するサイクルを遅延させることを表す遅延指定ビ
ットと、遅延させるサイクル数を指定する遅延サイクル
指定ビットを設け、命令のデコード時に命令の該当する
フィールドから遅延指定ビットを認識する回路と、該当
するフィールドから遅延サイクル指定ビットを検出し、
遅延サイクル指定ビットをシステムに応じた実際のライ
トポート遅延サイクルに変換する回路と、演算パイプラ
インの各ステージに対応して前記回路で検出した遅延指
定ビットと遅延サイクルを保持する手段と、ライトポー
トを共有する演算器の演算結果をレジスタに書く前に、
演算結果を遅延サイクル数だけ保持する演算結果保持手
段を設け、遅延サイクル終了後に前記演算結果保持手段
から演算結果を取り出し、前記ライトポートを使用して
レジスタに演算結果を書き込むことを特徴とする。

【００２１】前記演算結果保持手段の一つの実現方法と
しては、演算器Ａ、Ｂがライトポートを共有するとき、
Ａ、Ｂの演算パイプラインの出力をそれぞれ、遅延させ
る遅延ラッチを設ける。遅延ラッチの数は命令で指定可
能な遅延サイクル数とする。命令にライトポートの遅延
指定が無い場合は、この遅延ラッチに命令を登録せずに
ライトポートを使用する。命令にライトポートの遅延指
定がある場合は、前記遅延ラッチに命令を載せる。

【００２２】この方法では各演算パイプライン毎に遅延
ラッチを設ける必要があるが、遅延ラッチへの入力の制
御が簡単になる。

【００２３】前記演算結果保持手段の他の実現方法とし
ては、演算器Ａ、Ｂがライトポートを共有するとき、
Ａ、Ｂの演算パイプラインの出力をともに保持する遅延
バッファを設ける。遅延バッファにはＡ、Ｂから同時に
命令を登録することも可能であり、遅延させるサイクル
が同じ場合は、前記の実現方法よりもハードウェア資源
が少なくなる。この遅延バッファには、演算結果と共
に、命令で指定された遅延サイクルを保持する手段を設
け、毎サイクルこの遅延サイクルから１を引き、値が０
になったら遅延が終了したものとみなして次のサイクル
でライトポートを使用する。

【００２４】これらの遅延指定命令はコンパイラにおけ
る命令スケジューリングで生成する。この命令スケジュ
ーリングは、基本ブロック等のスケジューリング単位に
対して依存グラフを生成するステップと、依存グラフ中
に未スケジュール命令が存在するかどうか検査するステ
ップと、前記検査で未スケジュール命令が無い場合は次
のスケジュール単位をスケジュールするステップと、前
記検査で未スケジュール命令がある場合は、その命令Ｐ
を依存グラフから配置可能な最小のサイクルＹに配置で
きるか否かを検査するステップと、前記検査でスケジュ
ール可能ならば、命令Ｐを該当場所にスケジュールする
ステップと、前記検査でスケジュール不可能ならばその
スケジュールできない原因がライトポートの競合にあ
り、かつ命令Ｐがライトポート遅延指定可能な命令であ
るかを検査するステップと、前記検査が成り立たない場
合はＸを１増やして命令Ｐを再スケジュールするステッ
プと、前記検査が成り立つ場合は、命令Ｐに指定可能な
遅延サイクルを小さいものから順に調べ、いずれかの遅
延サイクルで命令ＰをＸに配置できるか否か調べるステ
ップと、前記検査で配置出来ない場合は、遅延指定によ
る命令ＰのＸへの配置をあきらめ、Ｘ＋１での命令Ｐの
配置を試みるステップと、前記検査で配置出来るなら
ば、命令Ｐに前記の配置できた遅延指定サイクルを登録
して、命令Ｐを配置するステップから構成されることを
特徴とする。

【００２５】

【発明の実施の形態】以下本発明の実施形態を、図面を
参照して説明する。［第１の実施形態］図３は、本発明の実施形態に係わる
パイプライン制御方式のＶＬＩＷプロセッサの構成を示
すブロック図である。図３に示すＶＬＩＷプロセッサ
は、２つの演算命令フィールドを持つＶＬＩＷ命令を実
行するプロセッサであり、命令フェッチ回路３０１、命
令レジスタ３０２、デコード回路３０３、演算装置３０
５、演算装置３２０、レジスタファイル３０６を備えて
いる。

【００２６】本発明のＶＬＩＷプロセッサは、整数演算
命令、浮動小数点命令といった通常の命令に加え、図６
に示すライトポート遅延指定ビット６０３と遅延サイク
ル６０４を備える命令を実行することを特徴としてい
る。ライトポート遅延指定ビットは、命令が本来ライト
ポートを使用するサイクルよりも実際にライトポートを
使用するサイクルを遅延させることを示すビットであ
る。このビットが立っている場合、本発明のＶＬＩＷプ
ロセッサは、命令に遅延サイクル６０４で指定されてい
るサイクルだけライトポートを使用するサイクルを遅延
させる。

【００２７】図６に示す命令フォーマットは一つの例で
あり、システムによって様々な方法を取ることができ
る。例えばある命令に対しては、命令で指定されたサイ
クルだけ、ライトポートの使用を遅延するが、レイテン
シーの長い別の命令に対しては、命令で指定されたサイ
クルの定数倍だけライトポートの使用を遅延するといっ
たことも可能である。

【００２８】図３の構成において、命令フェッチ回路３
０１は、毎サイクル１つのＶＬＩＷ命令をフェッチし
て、３０２の命令レジスタに格納する。本実施形態では
ＶＬＩＷ命令長が２のＶＬＩＷプロセッサなので、命令
レジスタ３０２には、最大で２個の演算命令が登録され
る。＃０、＃１はこれらが登録されるフィールドであ
る。

【００２９】次にデコード回路３０３では、３０２の各
フィールド＃０、＃１の命令をデコードする。デコード
した結果、ソースオペランドに指定されたレジスタの値
がレジスタファイル３０６から読み出され、＃０、＃１
の各命令は、＃０、＃１に対応した演算装置３０５、３
２０で実行される。

【００３０】ここでデコード回路３０３は、デコード対
象の命令に前記のライトポート遅延指定ビットがセット
されている場合は、その情報を実際にライトポートの使
用を遅延させる演算装置３０５、３２０に伝える。本実
施形態では、デコード回路３０３から演算装置３０５、
３２０への情報は、３０４のパイプライン情報線によっ
て伝える。図７はこのフォーマットを示している。７０
１は演算装置への入力が有効であることを示すＶＡＬＩ
Ｄビットであり、７０２は発行された命令のターゲット
レジスタ番号であり、７０３、７０４は命令で指定され
たソースレジスタの番号であり、７０５は本発明の特徴
である、ライトポート遅延サイクルである。ここで遅延
サイクル７０５が’０’ならば、ライトポートの遅延は
行なわないものとする。

【００３１】以下では、遅延指定された命令が演算装置
３０５、３２０に発行された時の、本発明のＶＬＩＷプ
ロセッサの動作について説明する。なお以下の説明では
遅延サイクルの最大値が２である場合、すなわち命令は
ライトポートの遅延を行なわないか、または１サイクル
遅延させるか、または２サイクル遅延させるかを指定で
きる場合について説明する。この遅延サイクルは容易に
拡張することができる。また以下では＃０フィールドに
対応する演算装置３０５の遅延動作を説明する。＃１に
対応する演算装置３２０の動作は演算装置３０５の動作
と同様に実現することができる。

【００３２】図４は図３の３０２のＶＬＩＷ命令の＃０
フィールドに対応する演算装置３０５の構成を示した図
である。演算装置３０５は、演算を行なう演算パイプラ
イン４０１と４０２、ライトポートの遅延を行なうライ
トポート遅延回路４０４と演算パイプラインの結果を後
続の命令にフォワードするためのフォワード選択回路か
ら構成される。また演算パイプライン４０１と４０２は
ライトポート（ラッチ４１５、４１６）を共有してい
る。演算装置３０５で実行される＃０フィールドには、
整数加算命令や、整数乗算命令など、異なる演算器を使
う命令が配置される。このため演算装置３０５は、＃０
フィールドに配置される全ての命令を実行するために必
要な複数の演算器から構成される。本実施形態では演算
装置３０５は、演算パイプライン４０１と演算パイプラ
イン４０２より構成され、２つの異なる種類の演算を行
なうことができるものとする。＃０フィールドには同時
には１つの命令しか配置できないので、演算パイプライ
ン４０１と演算パイプライン４０２には、同時にはどち
らか一方のみに命令が発行される。

【００３３】では、演算装置３０５における命令の実行
過程について説明する。図３のデコード回路３０３でデ
コードされた＃０フィールドの命令は、命令が使用する
演算器の種類に応じて、演算パイプライン４０１かまた
は４０２のＥ１ステージに発行される。Ｅ１ステージに
発行される情報は、パイプライン情報３０４と、ソース
オペランドデータ４０３である。パイプライン情報３０
４は前述した通りである。ソースオペランドデータ４０
３は、３１１、３１２で示されるレジスタから読み出し
たデータと、演算パイプライン０の演算結果であるパイ
プライン０フォワード情報４０６と、パイプライン１の
演算結果であるパイプライン１フォワード情報４０７
と、ライトポート遅延回路から出力される遅延回路から
のフォワード情報４１４と、ＷＲステージからのＷＲフ
ォワード情報４０９のいずれかか一つを、フォワード選
択回路４０５によって選択したものである。

【００３４】Ｅ１ステージに発行された命令は各パイプ
ラインステージを毎サイクル流れ、演算が終了するとラ
イトポート遅延回路に入力される。ここでライトポート
遅延指定がされていない命令の場合は、遅延はされず、
入力されたデータは次のサイクルでＷＲステージにラッ
チされる。なお、演算パイプライン４０１と４０２はラ
イトポート（ＷＲステージ）を共有しているので、各パ
イプラインから同時にＷＲステージを使ってはならな
い。本発明のＶＬＩＷプロセッサではこのライトポート
の競合を回避は全てソフトウェアに任せるものとし、ハ
ードウェアは同時にＷＲステージへのリクエストは発生
しないことを前提として動作する。

【００３５】ライトポートが競合するケースと、それを
ライトポート遅延指定命令と、ライトポート遅延回路４
０４によって回避する例を図１３を用いて説明する。図
１３の横軸はサイクル、縦軸は演算装置３０５のパイプ
ラインステージを表している。またａは、演算パイプラ
イン４０１で実行される命令であり、ｂは４０２で実行
される命令である。１３０１のケースでは、サイクル１
でａがＥ１に発行され、サイクル３でｂがＥ１に発行さ
れ、かつａ、ｂともにライトポート遅延指定がない場合
であり、この場合はサイクル４でＷＲステージが競合す
る。一方、１３０２のケースでは１３０１と同様にａと
ｂは発行されているが、ｂに対して１サイクルのライト
ポート遅延指定がされているため、ｂはＥ１終了後、ラ
イトポート遅延回路４０４内のＤＥＬＡＹ１ステージを
通り、次のサイクルでＷＲステージを使用するため、競
合が回避されている。

【００３６】次に、本発明のＶＬＩＷプロセッサの特徴
であるライトポート遅延回路４０４の実施形態について
説明する。

【００３７】図５は図４のライトポート遅延回路４０４
の１実施形態をである。本実施形態では、各パイプライ
ンの最終ステージの後にディレイラッチ５０１、５１９
のＤＥＬＡＹ１、５０３、５６０のＤＥＬＡＹ２を設け
ることで、最大２サイクルのライトポートの遅延が可能
である。

【００３８】図５に示す本実施形態のライトポート遅延
回路４０４は、演算パイプライン４０１（以下パイプラ
イン０と呼ぶ）からのデータを遅延させるためのパイプ
ライン０遅延手段と、演算パイプライン４０２（以下パ
イプライン１と呼ぶ）からのデータを遅延させるための
パイプライン１遅延手段と、前記パイプライン０遅延手
段の出力と、前記パイプライン１遅延手段の出力のう
ち、いずれか１つをＷＲステージ４１５、４１６に出力
するパイプライン間選択手段から構成される。

【００３９】パイプライン０遅延手段は、パイプライン
０からの出力４１０、４１１を、１サイクル遅延させた
値を保持するラッチ５０１と、同２サイクル遅延させた
値を保持するラッチ５０３と、パイプライン０からの出
力と、前記ラッチ５０１と５０３の３つの情報から１つ
を選択するセレクタ５０８と、図４のＥ１ステージに発
行された命令のソースオペランド１およびソースオペラ
ンド２のデータを遅延ラッチ５０１、５０３からフォワ
ードするための、セレクタ５０９、５１０と、前記セレ
クタ５０８と５０９と５１０のセレクト信号５１１、５
１２、５１３を生成するライトポート遅延ステージ選択
回路５０４から構成される。

【００４０】同様に前記パイプライン１遅延手段は、パ
イプライン１からの出力４１２、４１３を、１サイクル
遅延させた値を保持するラッチ５１９と、同２サイクル
遅延させた値を保持するラッチ５６０と、パイプライン
１からの出力と、前記ラッチ５１９と５６０の３つの情
報から１つを選択するセレクタ５２５と、ソースオペラ
ンド１およびソースオペランド２のデータを遅延ラッチ
５１９、５６０からフォワードするための、セレクタ５
２６、５２７と、前記セレクタ５２５と５２６と５２７
のセレクト信号５２８、５２９、５３１を生成するライ
トポート遅延ステージ選択回路５２２から構成される。

【００４１】前記パイプライン間選択手段は、前記パイ
プライン０の遅延データのセレクタ５０８と、パイプラ
イン１の遅延データのセレクタ５２５の出力のうち、い
ずれか１つを選択し、ライトポート遅延回路４０４の出
力としてＷＲステージに出力するためのセレクタ５１７
と、前記セレクタ５０９と５２５のそれぞれによって選
択されたソース１へのフォワードデータのうち、いずれ
か一方をセレクトするセレクタ５３６と、同ソース２に
フォワードするためにセレクタ５１０と５２７によって
選択されたデータのうち、いずれか一方をソース２への
フォワードデータとするためのセレクタ５３７から構成
される。

【００４２】以下では、ライトポート遅延回路に、パイ
プライン０からデータが入力された時の各部の動作につ
いて説明する。

【００４３】まずパイプライン０からのデータは図５の
４１０および４１１より入力される。ここで４１０は図
４の４１０パイプライン情報０であり、その内容は前述
ように、図７の７００に示されるとおりである。また入
力データ４１１は図４の演算パイプライン０の結果４１
１であり、命令で指定されたターゲットレジスタに格納
する値を表している。４１０、４１１は、ライトポート
遅延回路４０４に入力されると、まずラッチ５０１に格
納される。

【００４４】ラッチ５０１の入力前のＡＮＤゲートは、
入力される命令にライトポート遅延指定がない場合に、
入力データのＶＡＬＩＤを落すために設けられている。
命令にライトポート遅延指定がない場合は、セレクタ５
０８によって選択され、ラッチ５０１、５０３で遅延さ
れることなく、次のＷＲステージに進む。このために遅
延指定がない命令の場合は、ラッチ５０１に命令が保持
されないように、５７１を用いて命令を削除する。

【００４５】入力された命令にライトポート遅延指定が
ある場合、５０１にラッチされる。これにより１サイク
ルライトポートの使用が遅延される。ラッチ５０１に保
持された命令が１サイクル遅延指定された命令ならば、
次のサイクルは、ラッチ５０２にラッチされず、次のＷ
Ｒステージに進む。ラッチ５０２の入力前のＡＮＤゲー
トは遅延サイクルが１サイクルの命令を削除するために
設けている。

【００４６】命令に２サイクルのライトポート遅延指定
がされている場合、次のラッチ５０３に保持される。本
実施形態では、最大２サイクルの遅延を仮定しているの
で、５０３にラッチされた命令は必ず次のサイクルはＷ
Ｒステージに進む。

【００４７】では、ラッチ５０１、５０３に登録された
命令を選択するセレクタ５０８の動作について説明す
る。このセレクタのセレクト信号は、ライトポート遅延
ステージ選択回路およびフォワードデータ選択回路５０
４によって生成される。

【００４８】図９は、ライトポート遅延ステージ選択回
路およびフォワードデータ選択回路５０４の処理フロー
を表している。５０４には、図５のライトポート遅延回
路４０４に入力された命令を表すパイプライン情報５０
５と、ラッチ５０１に保持される１サイクルライトポー
トを遅延された命令を表すＤＥＬＡＹ１パイプライン０
情報５０６と、同２サイクル遅延された命令を表すＤＥ
ＬＡＹ２パイプライン０情報５０７と、フォワードデー
タの選択に使用する図４の演算パイプライン０のＥ１ス
テージへの入力情報３０４が入力される。

【００４９】まず９０２では、５０４内で使用する信号
を作成する。Ｄ０＿ＤＥＬＡＹ＿ＣＹＣＬＥは、図４の
ライトポート遅延回路４０４に入力される命令に指定さ
れている遅延サイクルである。この値は４０４に入力さ
れた命令の残り遅延サイクル数と見ることができる。Ｄ
１＿ＤＥＬＡＹ＿ＣＹＣＬＥはラッチ５０１において１
サイクル遅延された命令に指定されている遅延サイクル
から１引いた値である。ラッチ５０１、５０３には命令
で指定された遅延サイクルが保持されているので、前記
Ｄ１＿ＤＥＬＡＹ＿ＣＹＣＬＥは、１サイクル遅延され
た命令の残り遅延サイクル数を表す。Ｄ０＿ＶＡＬＩＤ
は、前記４０４に入力されたデータが有効であることを
表す信号であり、Ｄ１＿ＶＡＬＩＤは、前記ラッチ５０
１のデータが有効であることを表すビットであり、Ｄ２
＿ＶＡＬＩＤは、前記ラッチ５０３のデータが有効であ
ることを表す信号である。またＤ０＿ＴＡＲＧＥＴ＿Ｎ
Ｏは、フォワードデータの選択に使用するための前記４
０４に入力される命令のターゲットレジスタ番号であ
り、Ｄ１＿ＴＡＲＧＥＴ＿ＮＯは同様に、ラッチ５０１
に保持された命令のターゲットレジスタ番号である。ま
たＩＳＳＵＥ＿ＶＡＬＩＤは、図４の演算パイプライン
４０１のＥ１ステージに有効な命令が発行されたことを
表す信号であり、ＩＳＳＵＥ＿ＳＲＣ１＿ＮＯおよびＩ
ＳＳＵＥ＿ＳＲＣ２＿ＮＯは、それぞれ前記４０１のＥ
１ステージに発行された命令のソースオペランド１およ
びソースオペランド２のレジスタ番号である。

【００５０】次に、前記の信号を用いてライトポート遅
延ステージ選択回路９０４と遅延ステージフォワードデ
ータ選択回路９０５では各セレクタの制御信号を生成す
る。

【００５１】９０４のライトポート遅延ステージ選択回
路ではセレクタ５０８のセレクト信号であるＯＵＴ＿Ｄ
ＥＬＡＹ＿ＳＥＬ（０―２）と、セレクタ５１７のセレ
クト信号であるＵＳＥ＿ＷＲＩＴＥ＿ＰＯＲＴを作成す
る。

【００５２】図１０は９０４の処理フローを表してい
る。１００１ではまずライトポート遅延回路４０４への
入力に有効な命令が存在しかつこの命令が遅延指定され
ていないかを調べる。

【００５３】前記条件が成り立つ場合は命令を遅延させ
ず、前記命令を次のサイクルでＷＲステージに進めるた
めに、１００２において、セレクタ５０８のセレクト信
号ＯＵＴ＿ＤＥＬＡＹ＿ＳＥＬ（０―２）の値を''００
１''とする。また次のサイクルにＷＲステージを使う有
効な命令があることを表すＵＳＥ＿ＷＲＩＴＥ＿ＰＯＲ
Ｔ信号を立てる。

【００５４】前記１００１の条件が成り立たなければ、
１００３において図５のラッチ５０１に保持された１サ
イクル遅延された命令が有効であり、かつ残りの遅延サ
イクルを表す前記Ｄ０＿ＤＥＬＡＹ＿ＣＹＣＬＥの値が
０であるかを調べる。前記条件が成り立てば、２サイク
ルの遅延は行なわず次のサイクルでＷＲステージに進め
るために、１００４において前記ＯＵＴ＿ＤＥＬＡＹ＿
ＳＥＬ（０―２）の値を''０１０''とする。また次のサ
イクルでＷＲステージを使用するので、ＵＳＥ＿ＷＲＩ
ＴＥ＿ＰＯＲＴ信号を立てる。

【００５５】前記１００３の条件が成り立たなければ、
ＯＵＴ＿ＤＥＬＡＹ＿ＳＥＬ（０―２）は''１００''と
する。この場合、２サイクル遅延された命令は必ず次の
サイクルＷＲステージに進む。また次のサイクルでＷＲ
ステージを使用することを表すＵＳＥ＿ＷＲＩＴＥ＿Ｐ
ＯＲＴは、ラッチ５０３に有効な命令があることを表す
Ｄ２＿ＶＡＬＩＤとする。

【００５６】次に、図９のデータ選択回路９０５の処理
を説明する。９０5では、図４の演算パイプライン４０
１のＥ１ステージに入力されるソース１とソース２のデ
ータをライトポート遅延回路からフォワードするため
の、図５のセレクタ５０９と５１０のセレクト信号５１
２、５１３と、演算パイプライン間でフォワードデータ
を選択するための信号５１４を生成する。

【００５７】前記信号５１４は、図９の９１０のＳＲＣ
１＿ＳＥＬ（０―１）とＳＲＣ２＿ＳＥＬ（０―１）を
まとめたものである。ＳＲＣ１＿ＳＥＬ（０―1）
は、''１０''ならば図５のラッチ５０１からソース１に
データをフォワードすることを表し、''０１''ならば図
５のラッチ５０３からソース１にデータをフォワードす
ることを表す。同様にＳＲＣ２＿ＳＥＬ（０―1）
は、''１０''ならば図５のラッチ５０１からソース２に
データをフォワードすることを表し、''０１''ならば図
５のラッチ５０３からソース２にデータをフォワードす
ることを表す。

【００５８】図１１は前記９０５の処理フローである。
まず１１０１において、図５のラッチ５０１に有効な命
令があり、かつこの命令のターゲットレジスタと前記Ｉ
ＳＳＵＥ＿ＳＲＣ１＿ＮＯが等しいかを検査する。この
条件が成り立てば、１１０２において、セレクト信号Ｓ
ＲＣ１＿ＦＯＲＷＡＲＤ＿ＤＥＬＡＹ１を立て、ＳＲＣ
１＿SEL（０―１）を''１０''にする。これにより、ラ
ッチ５０１に保持されている１サイクルライトポートの
使用を遅延した命令の演算結果がソース１にフォワード
される。

【００５９】前記１１０１の条件が成り立たない場合、
１１０３において、ＳＲＣ１＿ＦＯＲＷＡＲＤ＿ＤＥＬ
ＡＹ１の値を０にする。これにより、図５のセレクタ５
０９でラッチ５０３に保持された２サイクルライトポー
トの使用を遅延した命令の演算結果がソース１にフォワ
ードされる。

【００６０】次に１１０４では、図５のラッチ５０３に
保持されている命令が有効でかつ前記命令のターゲット
レジスタ番号がソース１のレジスタ番号と一致している
かを検査する。これが成り立てば、１１０５においてＳ
ＲＣ１＿ＳＥＬ（０―1）の値を''０１''とする。

【００６１】前記１１０４の条件が成り立たなければ、
１１０６においてソース１にはフォワードされないこと
を表す''００''がＳＲＣ１＿ＳＥＬ（０―1）にセット
される。

【００６２】ＳＲＣ２＿ＳＥＬ（０―1）、ＳＲＣ２＿
ＦＯＲＷＡＲＤ＿ＤＥＬＡＹ１の生成は、１１０７〜１
１１２で行なうが、これは前記の１１０１〜１１０６の
処理と同様である。

【００６３】ここで、ソース１およびソース２へのフォ
ワードは、ラッチ５０１をラッチ５０３よりも優先して
いる。これにより、ラッチ５０１とラッチ５０３にとも
に同じレジスタをターゲットとする命令がある場合は、
後続の命令の結果が最終値となる。また前記のようにラ
ッチ５０１とラッチ５０３に有効な命令が載っている場
合、ラッチ５０３の命令は必ず次のサイクルでＷＲステ
ージを使用するので、ラッチ５０１の命令は次のサイク
ルまで遅延される命令でなければＷＲステージの競合が
発生する。このような競合の回避は、本発明のＶＬＩＷ
プロセッサでは行なわず、全てコンパイラ（ソフトウェ
ア）が管理する。

【００６４】またこのフォワードデータの選択は、ラッ
チ５０１とラッチ５０３の間で行なったが、ライトポー
ト遅延回路の入力データもフォワード対象であり、図４
の４０６パイプライン０フォワード情報を用いてフォワ
ード選択回路４０５にて選択される。

【００６５】図５の５２２は、前記５０４と処理フロー
は同様である。

【００６６】図５の５０４と５２２によって生成された
セレクト信号によってセレクトされた情報は、セレクタ
５１７、セレクタ５３６、セレクタ５３７にそれぞれ入
力される。

【００６７】図５のセレクタ５１７は、パイプライン０
遅延ラッチからのデータ５１６と、パイプライン１遅延
ラッチから出力されたデータ５３９のうち、次のサイク
ルでＷＲステージを使用するものを選択する。セレクト
信号５１５は、前記の図９で示した信号９０７のＵＳＥ
＿ＷＲＩＴＥ＿ＰＯＲＴである。セレクト信号５１５
は、パイプライン０遅延ラッチから有効な命令が５０８
によって選択された場合に’１’となる。なお、前記５
１６と５３７の両方に同時に有効な命令が載らないこと
は、コンパイラ（ソフトウェア）が保証する。

【００６８】セレクタ５１７から出力された命令は、信
号線４１５、４１６によって次のサイクルで図４のＷＲ
ステージ４０８にセットされる。

【００６９】セレクタ５３６は、ソース１のフォワード
データを、パイプライン０遅延ラッチとパイプライン１
遅延ラッチから選択する。同様にセレクタ５３７はソー
ス２のフォワードデータを、パイプライン０遅延ラッチ
とパイプライン０遅延ラッチから選択する。セレクタ５
３６、５３７のセレクト信号は、演算パイプライン間フ
ォワードデータ選択回路５３８によって生成する。

【００７０】図１２は、演算パイプライン間フォワード
データ選択回路５３８の処理フローである。入力には、
図５の５０４および５２２で生成される信号５１４と５
２４である。１２００で定義されるＳＲＣ１＿ＰＩＰＥ
０＿ＤＥＬＡＹ１は、パイプライン０遅延ラッチからの
ソース１のフォワードデータ５３０が、ラッチ５０１か
らセレクトされたものであることを表し、ＳＲＣ１＿Ｐ
ＩＰＥ０＿ＤＥＬＡＹ２は、同ラッチ５０３からセレク
トされたものであることを表す。またＳＲＣ２＿ＰＩＰ
Ｅ０＿ＤＥＬＡＹ１は、パイプライン０遅延ラッチから
出力されたソース２のフォワードデータ５３２が、ラッ
チ５０１からセレクトされたものであることを表し、Ｓ
ＲＣ２＿ＰＩＰＥ０＿ＤＥＬＡＹ２は、同ラッチ５０３
からセレクトされたものであることを表す。

【００７１】さらに、ＳＲＣ１＿ＰＩＰＥ１＿ＤＥＬＡ
Ｙ１は、パイプライン１遅延ラッチからのソース１のフ
ォワードデータ５３４が、ラッチ５１９からセレクトさ
れたものであることを表し、ＳＲＣ１＿ＰＩＰＥ１＿Ｄ
ＥＬＡＹ２は、同ラッチ５６０からセレクトされたもの
であることを表す。またＳＲＣ２＿ＰＩＰＥ１＿ＤＥＬ
ＡＹ１は、パイプライン１遅延ラッチから出力されたソ
ース２のフォワードデータが、ラッチ５１９からセレク
トされたものであることを表し、ＳＲＣ２＿ＰＩＰＥ１
＿ＤＥＬＡＹ２は、同ラッチ５６０からセレクトされた
ものであることを表す。

【００７２】１２０１では、ソース１のフォワードデー
タのセレクタ５３６への２つの入力５３０と５３４が共
に有効な場合に、ラッチ５０１、ラッチ５１９、ラッチ
５０３、ラッチ５６０の優先度で選択するセレクト信号
を生成する。同様に１２０４はソース２側に対して同様
の処理を行なって、出力信号ＳＲＣ２＿ＳＥＬ＿ＰＩＰ
Ｅを生成する。

【００７３】以上、第１の実施形態では、２サイクルの
ライトポートの遅延を行うために、ディレイラッチを２
段設ける場合を説明したが、ディレイラッチを変更すれ
ば任意のサイクルに拡張することが可能である。［第２
の実施形態］図１４は、図５のライトポート遅延回路４
０４の第２の実施形態を表す図である。ライトポート遅
延回路４０４以外は、第１の実施形態と同じなので説明
を省略する。

【００７４】第１の実施形態では、図４の４０１の演算
パイプライン０と４０２の演算パイプライン１のそれぞ
れに対して、ライトポート遅延回路４０４内に、ディレ
イラッチを設けたが、本実施形態では、２つのパイプラ
インに共通の遅延バッファを設け、どちらのパイプライ
ンからも使用できるようにしたものである。また遅延す
るサイクル数は、実施形態１では、ハードウェアによっ
て固定であったのに対し、本実施形態では、命令で指定
されたサイクル数を遅延させることができる。

【００７５】具体的には、図１４の本実施形態のライト
ポート遅延回路４０４は、ライトポートの使用を遅延す
る命令を、遅延サイクルだけ保持するためのバッファ部
１４０１と、前記バッファ部に、パイプライン０、１か
らの命令を入力する入力セレクト部１４２５と、前記バ
ッファ部で指定サイクルだけ遅延させた命令を、次のサ
イクルでＷＲステージに進めるためのバッファセレクト
部１４０２と、前記バッファ部で遅延させている命令の
演算結果を、後続の命令にフォワードするためのフォワ
ードセレクト部１４０３と、これらを制御する信号を生
成する入出力制御回路１４０４から構成される。なお、
本実施形態では、バッファ部は２ＥＮＴＲＹ構成とし、
最大２命令を同時に遅延できるものとする。

【００７６】以下では、本実施形態を構成する前記の各
部について説明する。

【００７７】図１５は、図１４のバッファ部１４０１の
構成図である。バッファ部は２つのエントリーから構成
され、各エントリーは遅延する命令を保持する。ここで
１４２０のＥＮＴＲＹ０と１４２１のＥＮＴＲＹ１は同
じ構成をとるので、図１５は、１つのＥＮＴＲＹの構成
を示したものである。

【００７８】図１５のバッファ部は、遅延する命令の残
り遅延サイクルを格納するラッチ１５０１と、該当エン
トリに有効の命令が格納されていることを表すラッチ１
５０２と、命令の演算結果や、ターゲットレジスタ番号
を格納するラッチ１５０３と、遅延サイクルから毎サイ
クル１を引くための１５１０と、遅延サイクルが０かど
うかを検査する比較器１５１２と、有効な命令でありか
つ、残りサイクル数が０になったかどうかを検査する１
５１３から構成される。

【００７９】図１５のバッファ部には、そのエントリへ
の遅延サイクル指定の命令の格納を要求する信号１４３
０または１４３１が入力される。ここで１４３０はＥＮ
ＴＲＹ０への格納要求であり、１４３１はＥＮＴＲＹ１
への格納要求である。前記格納要求が、１ならば、入力
セレクタ１５０４、１５０５、１５０６により、信号１
４２２または１４２３で与えられるデータがラッチ１５
０１、１５０２、１５０３に格納される。なお、１４２
２はＥＮＴＲＹ０に格納するデータであり、１４２３は
ＥＮＴＲＹ１に格納するデータである。前記格納要求が
０の場合、遅延サイクルを保持するラッチは毎サイクル
１を引いた値が保持され、データラッチ１５０３は同じ
値が保持される。遅延サイクルは比較器１５１２によっ
て毎サイクル０と比較され、遅延サイクルが０になり、
かつラッチ１５０２の値が１の場合は、信号１５１４が
１となり、格納されていた命令が信号１４１６または１
４１７として、バッファ部から出力される。前記１５１
４が１の場合、ゲート１５１５によってラッチ１５０２
の出力が落され、もし次のサイクルにバッファへの格納
要求がなければ、次のサイクルでラッチ１５０２が０と
なる。

【００８０】図１５のバッファ部からは、信号１４１６
または１４１７が出力される。ここで１４１６はＥＮＴ
ＲＹ０の出力であり、１４１７はＥＮＴＲＹ１の出力で
ある。各出力信号は、バッファ部が保持する有効ビット
１５０２の値と、データラッチ１５０３の値と、残りサ
イクルが０でかつ有効ビットが１の場合の信号である１
５１４から構成される。前記１５１４が１の場合はバッ
ファから命令が出力され、次のサイクルにＷＲステージ
に進むことを表す。この場合次のサイクルに別の遅延要
求命令の格納が可能となる。

【００８１】次に、入力セレクト部１４２５と、バッフ
ァセレクト部１４０２と、フォワードセレクト部１４０
３について説明する。

【００８２】入力セレクト部１４２５は、図４の４０１
演算パイプライン０と４０２演算パイプライン１から出
た命令を、信号４１０、４１１、４１２、４１３で受取
り、バッファ部１４０１のＥＮＴＲＹ０、ＥＮＴＲＹ１
のそれぞれに入れる命令を選択する。セレクタの制御信
号は１４１４、１４１５であり、これらは入出力制御回
路１４０４とともに説明する。

【００８３】バッファセレクト部１４０２は、バッファ
部１４０１で指定サイクルだけ遅延したＥＮＴＲＹ０、
ＥＮＴＲＹ１の命令をセレクトするセレクタ１４０６
と、遅延指定のない命令が４１０、４１１、４１２、４
１３によって入力されたとき、前記４０１演算パイプラ
イン０と４０２演算パイプライン１の入力のいずれかを
選択するセレクタ１４０５と、前記セレクタ１４０６の
出力と、前記セレクタ１４０５の出力のどちらを次のＷ
Ｒステージに進めるかを選択するセレクタ１４０７から
構成される。これらのセレクタの制御は入出力制御回路
１４０４で作成する。

【００８４】フォワードセレクト部１４０３は、バッフ
ァ部１４０１の各ＥＮＴＲＹに保持されている命令の演
算結果を、後続命令にフォワードするためのセレクタで
あり、セレクタ１４０８は、ソースオペランド１への演
算結果のフォワードであり、セレクタ１４０９は、ソー
スオペランド２への演算結果のフォワードである。これ
らのセレクタの制御信号も、入出力回路１４０４で作成
する。

【００８５】次に、前記の各セレクタの制御信号を作成
する入出力制御回路１４０４について説明する。

【００８６】図１６は、入出力制御回路１４０４の処理
フローである。まず１６０１では各種の信号を定義す
る。ＰＩＰＥ０＿ＲＥＱは、ライトポート遅延回路４０
４に入力される図４の４０１演算パイプライン０からの
出力に有効な命令があることを表す。同様にＰＩＰＥ１
＿ＲＥＱは、４０２演算パイプライン１の出力に有効な
命令があることを表す。ＰＩＰＥ０＿ＤＥＬＡＹ＿ＣＹ
ＣＬＥは、前記４０１演算パイプライン０から出力され
る命令の遅延サイクルであり、同様にＰＩＰＥ１＿ＤＥ
ＬＡＹ＿ＣＹＣＬＥは前記４０２演算パイプライン１か
ら出力される命令の遅延サイクルである。ＰＩＰＥ０＿
ＤＥＬＡＹ＿ＢＩＴおよびＰＩＰＥ１＿ＤＥＬＡＹ＿Ｂ
ＩＴは、前記４０１、４０２のパイプライン０、１から
出力される命令が遅延指定命令であることを表す。信号
ＥＮＴＲＹ０＿ＧＯ、ＥＮＴＲＹ１＿ＧＯは、図１５で
説明した信号１５１４を表す。この信号は、各エントリ
から遅延サイクルが終了した命令の次のサイクルでのＷ
Ｒステージ使用要求を表す。ＥＮＴＲＹ０＿ＶＡＬＩ
Ｄ、ＥＮＴＲＹ１＿ＶＡＬＩＤ、図１５で説明した信号
１５１６であり、バッファ部のＥＮＴＲＹ０、ＥＮＴＲ
Ｙ１に有効な命令があることを表す。ＥＮＴＲＹ０＿Ｔ
ＡＲＧＥＴ＿ＮＯおよびＥＮＴＲＹ１＿ＴＡＲＧＥＴ＿
ＮＯは、バッファ部のＥＮＴＲＹ０、ＥＮＴＲＹ１に格
納された命令のターゲットレジスタ番号である。ＩＳＳ
ＵＥ＿ＳＲＣ１＿ＮＯおよびＩＳＳＵＥ＿ＳＲＣ２＿Ｎ
Ｏは、図４のＥ１ステージに発行される命令のソースオ
ペランド１、２のレジスタ番号である。この信号は、フ
ォワードデータの選択に使用する。

【００８７】入出力制御回路１４０４ではこれらの入力
信号を使用して、１６０２の入力制御回路において入力
セレクト部１４２５の制御信号を作成し、バッファセレ
クト制御回路１６０３でバッファセレクト部１４０２の
制御信号を作成し、フォワードセレクト制御回路１６０
４でフォワードセレクト部１４０３の制信号を作成す
る。

【００８８】図１７は、前記入力制御回路１６０２の処
理フローである。

【００８９】まず１７０１で、各エントリが次のサイク
ルに空になることを表すＥＮＴＲＹ０＿ＦＲＥＥ、ＥＮ
ＴＲＹ１＿ＦＲＥＥを定義する。

【００９０】次に１７０２において、図４の演算パイプ
ライン０、１からの出力が、共に遅延指定命令であるか
どうか検査する。パイプライン０、１からの命令が共に
遅延指定命令である場合、ＥＮＴＲＹ０に、演算パイプ
ライン０からの命令を登録し、ＥＮＴＲＹ１に演算パイ
プライン１からの命令を登録するように、１７０３にお
いてＥＮＴＲＹ０＿ＳＥＬを０、ＥＮＴＲＹ１＿ＳＥＬ
を１とし、ＥＮＴＲＹ０、ＥＮＴＲＹ１に命令を登録す
るための信号ＥＮＴＲＹ０＿ＩＮ、ＥＮＴＲＹ１＿ＩＮ
を立てる。なお、このとき既に各エントリに命令が無い
ことはコンパイラが保証する。

【００９１】前記１７０２の条件が成り立たない場合
は、１７０４において演算パイプライン０、１から出力
された命令がどちらも遅延指定でないか、または出力さ
れた命令が無いかを調べる。この条件が成り立つ場合
は、バッファ部にはなにも登録しないので、ＥＮＴＲＹ
０＿ＳＥＬ、ＥＮＴＲＹ１＿ＳＥＬ、ＥＮＴＲＹ０＿Ｉ
Ｎ、ＥＮＴＲＹ１＿ＩＮは全て０とする。前記１７０４
の条件が成り立たない場合は、次に１７０６の条件を調
べる。

【００９２】１７０６以降では、演算パイプライン０、
１の出力のいずれかに遅延指定命令があるので、まず１
７０６では演算パイプライン０の出力が遅延指定命令で
あるかどうかを検査する。条件が成り立てば、１７０７
においてＥＮＴＲＹ０、ＥＮＴＲＹ１の入力データを演
算パイプライン０からの出力命令とし、次の１７０８に
おいて、この命令をどちらのエントリに登録するかを決
める。１７０８ではまずＥＮＴＲＹ０が空であるかを調
べ、空ならば１７０９において、ＥＮＴＲＹ０＿ＩＮを
１、ＥＮＴＲＹ１＿ＩＮを０として、ＥＮＴＲＹ０に次
のサイクルで命令を登録する。前記１７０８の条件が成
り立たなければ、ＥＮＴＲＹ１に命令を登録する。な
お、前記と同様に遅延指定命令を登録するときに該当エ
ントリが空かどうかはコンパイラが保証する。

【００９３】１７０６の条件が成り立たない場合、以降
では演算パイプライン１に遅延指定命令があるので、１
７１１において、ＥＮＴＲＹ０、ＥＮＴＲＹ１への入力
データをともに演算パイプライン１の命令とし、１７１
２でＥＮＴＲＹ０、ＥＮＴＲＹ１のどちらに空きがある
かを調べる。ＥＮＴＲＹ０が空きならば１７１３でＥＮ
ＴＲＹ０側の入力信号ＥＮＴＲＹ０＿ＩＮを立て、ＥＮ
ＴＲＹ１側が空ならば、１７１４でENTRY１側の入力信
号ＥＮＴＲＹ１＿ＩＮを立てる。

【００９４】以上の処理で入力制御信号である、図１４
の１４１４、１４１５、１４３０、１４３１を作成す
る。

【００９５】次に図１６の１６０３のバッファセレクト
制御回路について説明する。

【００９６】図１８は、前記１６０３の制御フローを表
している。図１８ではまず１８０１において、演算パイ
プライン０から出力された命令はあるが、それが遅延指
定命令でないことを表すＰＩＰＥ０＿ＮＯＮ＿ＤＥＬＡ
Ｙ＿ＲＥＱと、同ＰＩＰＥ１＿ＮＯＮ＿ＤＥＬＡＹ＿Ｒ
ＥＱを定義する。また演算パイプライン０、１から出力
された命令のいずれかが遅延指定命令でないことを表す
ＮＯＮ＿ＤＥＬＡＹ＿ＲＥＱを定義する。

【００９７】１８０２では、演算パイプライン０に遅延
バッファを使用しない命令があるならば図１４のセレク
タ１４０５で演算パイプライン０側を選び、そうでなけ
れば１側を選ぶように、信号１４１０を定義する。

【００９８】次に１８０５ではセレクタ１４０６の制御
信号１４１１を作成する。ここではエントリ１からの出
力要求ＥＮＴＲＹ１＿ＧＯを１４１１とする。なお遅延
バッファから同時に複数の出力要求が出ないことはコン
パイラが保証する。次に１８０６ではセレクタ１４０７
の制御信号１４２４を作成する。セレクタ１４０７は、
演算パイプライン０または１からの遅延指定が無い命令
と、遅延サイクルが終了した命令の選択を行う。１８０
６では演算パイプライン０、１の出力に遅延指定の無い
命令が無ければ制御信号１４２４を立てる。

【００９９】図１９は、図１６のフォワードセレクト制
御回路１６０４の処理フローである。１９０１以降で
は、ソースオペランド１へのフォワードデータのセレク
タである図１４の１４０８の制御信号１４１２を作成
し、１９０８以降ではソースオペランド２へのフォワー
ドデータのセレクタである図１４の１４０９の制御信号
１４１３を作成する。１９０１ではまずＥＮＴＲＹ０、
ＥＮＴＲＹ１に共に有効な命令があり、かつＥＮＴＲＹ
０、ＥＮＴＲＹ１の命令のターゲットレジスタ番号が等
しくかつそれがソースオペランド１のレジスタ番号が一
致しているかを検査する。前記条件が成り立つ場合は、
ＥＮＴＲＹ０、ＥＮＴＲＹ１のどちらのデータをフォワ
ードするかを１９０２で決定する。１９０２ではＥＮＴ
ＲＹ０とＥＮＴＲＹ１の命令の残り遅延サイクルを比較
する。残り遅延サイクルが小さい命令は該当レジスタの
最終値となるので、１９０２でＥＮＴＲＹ１の残り遅延
サイクル数の方が小さければ、セレクタ１４０８でＥＮ
ＴＲＹ１側をセレクトするように１９０３において制御
信号１４１２を１とする。前記１９０２が成り立たなけ
れば、１９０４で制御信号１４１２を０とする。前記１
９０１の条件が成り立たない場合は、１９０５において
ＥＮＴＲＹ０にフォワードデータがあるかどうかを検査
する。１９０５が成り立てば、セレクタ１４０８でＥＮ
ＴＲＹ０側のデータをフォワードするように制御信号１
４１２を０とする。一方前記条件１９０５が成り立たな
ければ、１９０７で制御信号１４１２を１とする。

【０１００】１９０８以降の制御信号１４１３の作成は
前記１９０１以降の制御信号１４１２の作成処理と同様
に行う。

【０１０１】なお、前記制御信号１４１２および１４１
３の作成では、１９０１、１９０８においてＥＮＴＲＹ
０、ＥＮＴＲＹ１にフォワード対象の同一ターゲットレ
ジスタの命令がある場合の条件を示したが、コンパイラ
によって同一レジスタをターゲットとする命令が同時に
遅延バッファに登録されないことを保証すれば、１９０
１、１９０８の条件は不要である。

【０１０２】以上、第２の実施形態では２つの演算パイ
プラインで、ライトポートを遅延させるための遅延バッ
ファを共有する方法について説明した。遅延バッファを
共有する演算パイプラインの数は２に限定されるもので
はなく、任意の数に増やすことが可能である。

【０１０３】また第２の実施形態では、遅延バッファの
各エントリに、残り遅延サイクルを保持するラッチを設
け、これを毎サイクル減じて、残りサイクル数が０にな
ったエントリの命令が次のサイクルでＷＲステージを使
用することを示したが、この残りサイクル数の保持を、
実施形態１の各演算パイプライン毎の遅延バッファに適
用することもできる。これによると、実施形態１では２
サイクルの遅延を行うために、各演算パイプラインに２
個のディレイラッチを設けていたが、これと同じ効果を
これを各演算パイプライン毎に１個のラッチと前記残り
遅延サイクル数を設けることで実現することができる。［第３の実施形態］第１の実施形態および第２の実施形
態では、本発明のライトポート遅延指定命令を実行する
ＶＬＩＷプロセッサの実施形態について説明したが、本
実施形態では、前記２つの実施形態のためのコンパイラ
によるライトポート遅延指定命令の生成方法について説
明する。

【０１０４】図２０は、ライトポート遅延指定命令を生
成するコンパイラの構成図である。本実施形態のコンパ
イラは、まずソースプログラム２００１を読み込み、字
句解析、構文解析を行ない中間コードに変換するソース
プログラム入力部２００２と、中間コードを入力して、
命令スケジューリングやレジスタ割り付けなどを行なう
最適化部２００４と、最適化された中間コードをオブジ
ェクトコードに変換するオブジェクトコード生成部２０
０６から構成される。

【０１０５】本発明の遅延指定命令は、命令スケジュー
リング２００５で生成する。命令スケジューリングは、
命令間の依存関係を表す依存グラフ２００８に基づい
て、スケジュールテーブル２０１０に命令を配置してい
く。ここで各命令が使用するマシン資源は、命令毎に定
義された命令資源テーブル２００９を用いる。

【０１０６】依存グラフとは、例えば図２の（Ａ）のよ
うなグラフである。グラフ中のノードは命令を表し、ノ
ード間のエッジは命令間の依存関係を表す。エッジに付
けられた数値は命令間のレイテンシーを表している。図
２の（Ａ）のノードａとノードｅの間にはレイテンシー
３のエッジがあるので、命令ｅを発行できる最小サイク
ルは、命令ａを発行後３サイクル目であることを表して
いる。また依存グラフの各ノードにはノードをスケジュ
ールする優先度を表す値が付加されており、スケジュー
ラはこの数値が大きいノードから命令をスケジュールす
る。

【０１０７】図２２および図２３は、前記図２０の命令
資源テーブル２００９の構成を表している。図２２は、
レイテンシーが１の命令の資源テーブルであり、図２３
はレイテンシー３の命令の資源テーブルである。図２
２、図２３はさらに該当命令がライトポート遅延指定が
ない場合の資源を表す（Ａ）と、１サイクルの遅延指定
がある場合の資源（Ｂ）と２サイクルの遅延指定がある
場合の資源（Ｃ）を示している。

【０１０８】図２２、図２３のＩＳＳＵＥとは、命令を
発行するＶＬＩＷ命令の１つのフィールドを表してい
る。これは図３のＶＬＩＷ命令の＃０フィールドまたは
＃１フィールドに相当する。Ｅ１、Ｅ２、Ｅ３の資源
は、演算パイプラインの各ステージを表している。これ
は図４の４０１演算パイプライン０または４０２演算パ
イプライン１の各パイプラインステージに相当する。遅
延バッファは、本発明のライトポートの使用を遅延する
ための資源を示しており、図４の４０４のライトポート
遅延回路に相当する。ＷＲＩＴＥ＿ＰＯＲＴは、レジス
タのライトポートであり、図４のＷＲステージ４０８に
相当する。なお、各資源テーブルに数値は、命令が各サ
イクルで使う資源の数を表している。

【０１０９】図２２のレイテンシー１の命令の資源を見
ると、遅延指定がない（Ａ）のケースでは、０サイクル
目に資源ＩＳＳＵＥを使用し、次のサイクルに資源Ｅ１
を使用し、次にサイクルに資源ＷＲＩＴＥ＿ＰＯＲＴを
使用する。また同一命令に１サイクルの遅延指定がされ
た場合は（Ｂ）のように、２サイクル目に資源ＷＲＩＴ
Ｅ＿ＰＯＲＴを使わずに遅延バッファの資源を使用し、
次の３サイクル目に資源ＷＲＩＴＥ＿ＰＯＲＴを使用数
する。同様に遅延指定サイクルに２が指定された場合
は、（Ｃ）のように２サイクル目および３サイクル目に
遅延バッファを使用し、４サイクル目にＷＲＩＴＥ＿Ｐ
ＯＲＴを使用する。

【０１１０】図２３のレイテンシーが３の命令の資源
も、前記図２２と同様に定義される。

【０１１１】前記図２０の２０１０のスケジュール表
は、図２４のように構成される。図２４のマシン資源
は、各サイクルでＶＬＩＷ命令中の１つのフィールドに
格納されている命令が使用できる資源の数を表してい
る。図３のＶＬＩＷ命令の＃０でいえば、＃０フィール
ドの命令を＃０演算器に発行する資源がＩＳＳＵＥに相
当し、演算器内の各パイプラインステージがＥ１からＥ
３に相当し、遅延バッファが図４のライトポート遅延回
路４０４に相当し、ＷＲＩＴＥ＿ＰＯＲＴが図４のＷＲ
ステージ４０８に相当する。

【０１１２】図２４では資源ＩＳＳＵＥの数が１なの
で、各フィールドからは毎サイクル最大１つの命令が演
算器に発行可能である。またＥ１からＥ３ステージの資
源の数は１つなので、毎サイクル最大１つの命令のみが
この資源を使用可能である。遅延バッファの資源の数は
２なので、毎サイクル最大２つの命令が遅延バッファを
使用でき、ＷＲＩＴＥ＿ＰＯＲＴの数は１つなので、毎
サイクル最大１つの命令がライトポートを使用可能であ
る。

【０１１３】図２４のスケジュール表は、各サイクルに
命令がどの資源をいくつ使っているかを登録してあり、
これを基にコンパイラは、各命令が使用する資源の数が
前記マシン資源の数よりも多くならないように、命令を
スケジューリングする。

【０１１４】例えば、図２の（Ａ）の依存グラフの命令
ａ〜ｈが全て図３の＃０演算器を使う命令であり、全て
ＶＬＩＷ命令の＃０フィールドに配置される場合、図２
４のようなスケジュール表になる。資源ＩＳＳＵＥは毎
サイクル最大１個なので、毎サイクル最大１つの命令が
資源ＩＳＳＵＥを使っており、遅延バッファは毎サイク
ル最大２個使用可能なので、サイクル５、６、７では、
２個の遅延バッファを使っている。

【０１１５】以下では、前記の依存グラフ、命令資源テ
ーブル、スケジュールテーブルを用いて図２０の命令ス
ケジューリング２００５において遅延指定命令を生成す
る方法について説明する。

【０１１６】図２５は、本発明の図２０の命令スケジュ
ーリング２００５の遅延指定命令生成処理フローであ
る。この処理は、図２０の中間語２００３を入力し、こ
の入力に対して資源を考慮してスケジューリングされた
命令列を出力する。本発明の遅延指定命令は、２５１６
の遅延指定命令生成処理において生成される。

【０１１７】まず２５０２では、入力された中間語をス
ケジュール単位に分割する。スケジュール単位とは依存
グラフを作る単位である。このスケジュール単位は、分
岐の無い命令列である基本ブロックや、基本ブロック列
を用いる。

【０１１８】次に２５０３でスケジュールされていない
スケジュール単位があるかを調べる。全てのスケジュー
ル単位が既にスケジュール済みならば、２５１５に移り
命令スケジュールを終了する。

【０１１９】未スケジュールのスケジュール単位がある
ならば、２５０４において１つのスケジュール単位に対
して依存グラフを作成する。依存グラフは前記の図２の
（Ａ）に示す命令間の依存関係を表すグラフである。こ
こでは依存グラフの各ノードのスケジュール優先度も計
算する。

【０１２０】次に２５０５において、前記依存グラフ中
にスケジュールされていない命令があるか調べる。ここ
で既に全ての命令がスケジュールされていれば、２５０
３に移り、次のスケジュール単位をスケジュールする。

【０１２１】未スケジュールの命令があれば、２５０６
において依存グラフ中の未スケジュールノードの内の親
ノードが全てスケジューリングされたノードの中で最も
プライオリティーが高いノードを選び、これをＮとす
る。またＮをスケジュール可能な最小サイクルＣＹＣＬ
Ｅを依存グラフから求める。この最小サイクルは、親ノ
ードがスケジュールされたサイクルに親ノードとＮとの
レイテンシーを足したサイクルとし、親ノードが複数あ
る場合は、複数の親との間で求めたスケジュール可能サ
イクルの内の最大のサイクルとする。

【０１２２】次に２５０７で、前記ノードＮを前記ＣＹ
ＣＬＥに配置できるか否かを、命令資源テーブルおよび
スケジュールテーブルを用いて検査する。この検査を資
源の競合検査と呼ぶ。命令資源テーブルは前述したよう
に、該当命令が発行後の各サイクルで使用する資源を表
しており、スケジュールテーブルは、命令Ｎをスケジュ
ールする前に既にスケジュールされた命令が使用してい
る資源を表している。資源競合検査は、例えば命令Ｎを
ＣＹＣＬＥに配置使用としたとき、ＣＹＣＬＥ、ＣＹＣ
ＬＥ＋１、ＣＹＣＬＥ＋２、・・・と、命令Ｎが資源を
使用する最終サイクルまで検査するサイクルを増加させ
ていき、各サイクルで命令Ｎが使用する資源とマシンの
使用可能な残り資源の数を調べる。もし使用可能な残り
資源の数が命令Ｎが使用する資源の数よりも少なけれ
ば、命令ＮはＣＹＣＬＥにスケジュールできないと判断
する。

【０１２３】２５０７において、命令ＮをＣＹＣＬＥに
スケジュール可能ならば、２５１３において実際に命令
ＮをＣＹＣＬＥにスケジュールして、スケジュールテー
ブルに命令Ｎが使用する資源を登録する。その後命令Ｎ
ををスケジュール済みとして、２５０５に戻り、次の命
令のスケジューリングを続ける。

【０１２４】２５０７において、命令ＮをＣＹＣＬＥに
スケジュールできなければ、次に２５１６に示す、本発
明の遅延指定命令の生成を試みる。

【０１２５】２５０８では、まず前記２５０７でスケジ
ュールできなかった原因がライトポートの競合によるも
のかを調べる。ライトポートの競合以外の原因でスケジ
ュールできなかったのであれば、ライトポート遅延命令
は使えないので、ＣＹＣＬＥでの命令Ｎのスケジュール
をあきらめ、２５１４でＣＹＣＬＥを１増加させたの
ち、２５０７に戻って命令のＮの再スケジュールを試み
る。

【０１２６】２５０７でスケジュールできなかった原因
がライトポートの競合であるならば、次に２５０９にお
いて命令Ｎがライトポート遅延指定が可能な命令である
かを調べる。命令Ｎが遅延指定が出来ない命令ならば、
前記と同様にＣＹＣＬＥでの命令Ｎのスケジュールはあ
きらめ、前記２５１４に進む。

【０１２７】命令Ｎが遅延指定可能な命令ならば、以下
では遅延指定によってライトポートの競合を回避できる
か、回避できるならば、その遅延サイクルを求める。

【０１２８】まず２５１７において、命令Ｎで指定でき
る最小遅延サイクルを求め、これをＤＥＬＡＹとする。

【０１２９】次に２５１０において、命令Ｎを遅延サイ
クルＤＥＬＡＹでＣＹＣＬＥにスケジュールできるか否
かを検査する。この検査は、前記２５０７のスケジュー
ル検査と同様に行なう。ただし、命令Ｎの命令資源が図
２１の命令資源テーブルで定義されている場合、前記２
５０７では命令資源テーブル（Ａ）を使って競合を検査
したが、ここでは（Ｂ）や（Ｃ）の遅延サイクルが指定
された場合の命令資源テーブルを用いて競合を検査す
る。

【０１３０】前記２５１０でスケジュール可能ならば、
命令Ｎの遅延サイクルをＤＥＬＡＹとして２５１３に進
み、命令Ｎのスケジューリングを終了する。

【０１３１】前記２５１０でスケジューリング不可能な
らば、２５１１において既に命令Ｎで指定可能な全ての
遅延サイクルでスケジューリングを試みたかどうかを調
べる。全ての遅延サイクルでスケジュールできなかった
ならば、ＣＹＣＬＥでの命令Ｎのスケジュールをあきら
めて、２５１４に進み、ＣＹＣＬＥを増加させて２５０
７から命令Ｎを再スケジュールする。

【０１３２】前記２５１１で、まだ試みていない遅延サ
イクルがあれば、２５１２においてＤＥＬＡＹを次に小
さな遅延サイクルとして２５１０に戻り、再スケジュー
ルを試みる。

【０１３３】図２３は、従来技術で問題となった図２の
依存グラフに対するスケジュール表であり、図２４は図
２に対して以上で説明した本発明の遅延指定命令の生成
方法を適用した場合のスケジュール表である。

【０１３４】図２３では最終命令ｈのレジスタへの書き
込みが終了するまでに１３サイクルかかっているのに対
して図２４では１１サイクルで命令ｈが終了している。

【０１３５】

【発明の効果】以上説明してきたように、本発明のライ
トポート遅延指定命令を実行することができるＶＬＩＷ
プロセッサおよび、ライトポート遅延指定命令の生成方
法によれば、複数の演算器でライトポートを共有するよ
うなＶＬＩＷプロセッサにおける、ライトポートの競合
によって命令のスケジュール長が長くなり性能が低下す
るという問題を、ライトポートの使用を遅延させること
によって解決することができる。

【図面の簡単な説明】

【図１】複数の演算器でライトポートを共有する従来の
ＶＬＩＷプロセッサのブロック図。

【図２】命令の依存グラフおよびこれに対して従来のＶ
ＬＩＷプロセッサ向けの命令スケジューリング適用した
ときのプロセッサパイプラインの状態の説明図。

【図３】本発明のライトポート遅延機能を持つＶＬＩＷ
プロセッサの全体図。

【図４】本発明の原理の説明図。

【図５】本発明の実施形態１の全体構成の説明図。

【図６】遅延指定命令のフォーマットの説明図。

【図７】本発明のＶＬＩＷプロセッサの演算パイプライ
ンのデータ構造の説明図。

【図８】本発明のＶＬＩＷプロセッサの演算パイプライ
ンのデータ構造の説明図。

【図９】実施形態１のライトポート遅延ステージ選択回
路およびフォワードデータ選択回路の処理フローの説明
図。

【図１０】ライトポート遅延ステージ選択回路の処理フ
ローの説明図。

【図１１】遅延ステージフォワードデータ選択回路の説
明図。

【図１２】演算パイプライン間フォワードデータ選択回
路の説明図。

【図１３】本発明のライトポート遅延指定命令を適用し
たときのパイプラインの状態の説明図。

【図１４】実施形態２の全体構成の説明図。

【図１５】実施形態２における遅延命令を保持するバッ
ファ部の説明図。

【図１６】実施形態２における入出力回路の説明図。

【図１７】実施形態２における遅延命令のバッファ部
への入力を制御する回路の説明図。

【図１８】バッファ部からの遅延命令の出力を制御する
回路の説明図。

【図１９】バッファ部からのデータのフォワードを制御
する回路の説明図。

【図２０】実施形態３に示す本発明のライトポート遅延
命令を生成するコンパイラの全体構成図。

【図２１】レイテンシーが１の命令の命令資源テーブル
の構成の説明図。

【図２２】レイテンシーが３の命令の命令資源テーブル
の構成の説明図。

【図２３】従来の命令スケジューリングのスケジュール
テーブルの説明図。

【図２４】本発明のライトポート遅延指定命令を生成す
るための、スケジュールテーブルの説明図。

【図２５】実施形態３の命令スケジューリングの処理フ
ローの説明図。

【符号の説明】

３０１…命令フェッチ回路、３０２…命令レジスタ、３
０３…デコード回路、３０５、３２…演算装置、３０６
…レジスタファイル、４０１、４０２…演算パイプライ
ン、４０４…ライトポート遅延回路、５０２…パイプラ
イン０遅延ラッチ、５１８…パイプライン１遅延ラッ
チ、５０１…パイプライン０の１サイクル遅延ラッチ、
５０３…パイプライン０の２サイクル遅延ラッチ、５１
９…パイプライン１の１サイクル遅延ラッチ、５６０…
パイプライン１の２サイクル遅延ラッチ、５０４、５２
２…ライトポート遅延ステージ選択回路およびフォワー
ドデータ選択回路、５３８…演算パイプライン間フォワ
ードデータ選択回路、５０８、５２５…パイプライン内
の遅延命令セレクタ、５０９、５１０、５２６、５２７
…パイプライン内フォワード命令セレクタ、５１７…パ
イプライン間遅延命令セレクタ、５３６、５３７…パイ
プライン間フォワード命令セレクタ、６０１〜６０４…
遅延サイクル指定命令フォーマット、１４２５…入力セ
レクト部、１４０１…バッファ部、１４０３…フォワー
ドセレクト部、１４０２…バッファセレクト部、１４０
４…入出力制御回路、１５０１…残り遅延サイクル保持
ラッチ、１５０２…遅延ラッチの有効ビット、１５０３
…遅延命令の結果保持ラッチ、１５１０…遅延サイクル
加算器、１５１２…遅延終了サイクル検出用比較器、１
５０４〜１５０６…入力データのセレクタ。

Claims

【特許請求の範囲】

【請求項１】レジスタのライトポートを使用するサイ
クルの遅延を指示するフィールドと、遅延させるサイク
ル数を指示するフィールドを備える命令を実行する、複
数の演算器でライトポートを共有するＶＬＩＷプロセッ
サであって、前記命令で指定した遅延サイクルを命令デ
コード時にデコードするデコード回路と、デコードした
遅延サイクル数をパイプラインの各ステージで保持する
ための手段と、命令がライトポートを使う前に、ライト
ポートの使用を命令で指定されたサイクルだけ遅延する
ための命令保持手段を持ち、各命令が演算パイプライン
を出た後、ライトポートを使用する前に、前記命令にラ
イトポートの使用を遅延する指定があれば、指定された
サイクルだけ前記命令保持手段に命令を保持し、指定サ
イクルが経過した後で前記命令保持手段から命令を取り
出し、ライトポートを使用することを特徴とするＶＬＩ
Ｗプロセッサ。
【請求項２】請求項１の命令保持手段は、システムで
可能な遅延サイクル数分のステージを持つディレイラッ
チで構成され、ライトポートを共有する各演算パイプラ
インに対して、前記演算パイプラインがライトポートを
使用する前に、前記ディレイラッチをそれぞれ設けるこ
とを特徴とする請求項１のＶＬＩＷプロセッサ。
【請求項３】請求項２の遅延命令を保持するディレイ
ラッチは、ライトポートの使用を遅延する命令と、この
命令で指定されたライトポートの使用を遅延させるサイ
クル数を保持し、毎サイクル前記ディレイラッチに保持
された命令をディレイラッチの次のステージに進めると
同時に、前記命令に対応する遅延サイクルから１を引
き、命令の遅延サイクルが０になったら次のサイクルで
前記命令をディレイラッチから削除すると同時に、前記
命令がライトポートを使用することを特徴とする請求項
２のＶＬＩＷプロセッサ。
【請求項４】請求項１の命令保持手段は、１個以上の
エントリを持つバッファで構成され、前記バッファを、
ライトポートを共有する複数の演算器に１つ設け、前記
バッファを前記複数の演算器がライトポートを使用する
前のステージに設けることを特徴とする請求項１のＶＬ
ＩＷプロセッサ。
【請求項５】請求項４の命令保持手段を構成するバッ
ファの各エントリは、ライトポートの使用を遅延する命
令で指定された遅延サイクル数を保持する手段を備え、
毎サイクル遅延サイクルから１を引き、前記遅延サイク
ルが０になると、次のサイクルで前記エントリにされた
命令を削除すると同時にライトポートを使用することを
特徴とする請求項１のＶＬＩＷプロセッサ。
【請求項６】請求項１のＶＬＩＷプロセッサが実行す
るライトポート遅延命令を生成するコンパイル装置であ
って、入力されたソースプログラムを中間コードに変換
するソースプログラム入力部と、中間コードに対してラ
イトポート遅延命令を生成する命令スケジューリング部
を含む最適化部と、最適化された中間コードからオブジ
ェクトコードを生成するオブジェクトコード生成部から
構成されることを特徴とするコンパイル装置。
【請求項７】請求項６の命令スケジューリング部は、
各命令が使用するプロセッサ資源を定義した命令資源テ
ーブルと、スケジューリングした命令が使用するプロセ
ッサ資源を登録したスケジュールテーブルを用いて命令
をスケジューリングし、前記命令資源テーブルは、命令
にライトポート遅延指定が無い場合に使用するプロセッ
サ資源を定義した命令資源テーブルと、遅延指定がある
場合に使用するプロセッサ資源を遅延サイクルに応じて
定義した命令資源テーブルから構成されることを特徴と
する請求項６のコンパイル装置。
【請求項８】請求項７の命令スケジューリング部は、
基本ブロック等のスケジューリング単位に対して依存グ
ラフを生成するステップと、依存グラフ中に未スケジュ
ールの命令が存在するかどうか検査するステップと、前
記検査で未スケジュール命令が無い場合は次のスケジュ
ール単位をスケジュールするステップと、前記検査で未
スケジュール命令がある場合は、この命令をＰとすると
き、命令Ｐを、依存グラフから求めた配置可能な最小の
サイクルＸに配置できるか否かを検査するステップと、
前記検査でスケジュール可能ならば、命令Ｐを該当場所
にスケジュールするステップと、前記検査でスケジュー
ル不可能ならばそのスケジュールできない原因がライト
ポートの競合にあり、かつ命令Ｐがライトポート遅延指
定可能な命令であるかを検査するステップと、前記検査
が成り立たない場合はＸでのＰのスケジュールをあきら
め、Ｘ＋１サイクルに命令Ｐを再スケジュールするステ
ップと、前記検査が成り立つ場合は、命令Ｐに指定可能
な遅延サイクルを小さいものから順に調べ、いずれかの
遅延サイクルで命令ＰをＸに配置できるか否か調べるス
テップと、前記検査ですべての指定可能な遅延サイクル
で命令Ｐをスケジュール出来ない場合は、遅延指定によ
る命令ＰのＸへのスケジュールをあきらめ、Ｘ＋１での
命令Ｐの配置を試みるステップと、前記検査でいずれか
の遅延サイクルで命令ＰをＸにスケジュール出来るなら
ば、命令Ｐの遅延指定サイクルを前記のスケジュールで
きた遅延サイクルとして、命令ＰをＸにスケジュールす
るステップから構成されることを特徴とする請求項７の
コンパイル装置。