JP3501761B2

JP3501761B2 - 大規模データパス・アーキテクチャの実行機構

Info

Publication number: JP3501761B2
Application number: JP2001022117A
Authority: JP
Inventors: 英彦田中; 修一坂井; 秀典辻; 雄一郎安島
Original assignee: 株式会社半導体理工学研究センター
Priority date: 2001-01-30
Filing date: 2001-01-30
Publication date: 2004-03-02
Anticipated expiration: 2021-01-30
Also published as: JP2002229780A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えば高性能マイ
クロプロセッサに適用される大規模データパス（Very L
arge Data Path、以下、ＶＬＤＰと称す）・アーキテク
チャの実行機構に係わり、特に、レジスタアクセスを階
層化することによる分散レジスタの効率化に関する。

【０００２】

【従来の技術】従来、計算機の処理装置として、レジス
タ・リネーミング技術がある。このレジスタ・リネーミ
ング技術は、プログラマに目視可能な論理レジスタより
も多くの物理レジスタを処理装置に実装し、これら論理
レジスタに値を代入する度に、論理レジスタに未使用の
物理レジスタが割り当てられる。この論理レジスタに未
使用の物理レジスタを割り当てることをレジスタ・リネ
ーミングと呼んでいる。このレジスタ・リネーミングに
より、プログラムの異なる部分で同じ論理レジスタを使
用する演算が、異なる物理レジスタをアクセスすること
により可能となる。これにより、プログラム中の異なる
部分の演算を同時且つ並列的に実効可能となる。すなわ
ち、命令レベルの並列実行が可能となる。

【０００３】また、同一の論理レジスタに対してデータ
が書き込まれた場合においても、物理レジスタの異なる
アドレスにデータが書き込まれている。このため、障害
が発生した場合、プログラムの検証、及び復帰処理を高
速に行なうことができる。

【０００４】

【発明が解決しようとする課題】しかし、従来の集中型
の物理レジスタ・ファイルとレジスタ・リネーミング技
術、及び命令発行技術は、大規模な命令レベルの並列実
行が困難である。この理由は、第１に、大規模な並列実
行では単位時間内のレジスタ参照回数、レジスタ・リネ
ーミングの回数が増加すること、第２に、命令発行機構
が大規模な並列実行を行なおうとして命令ウィンドウを
広げると、回路規模が２乗オーダーで増加し、動作速度
が低下することなどが挙げられる。

【０００５】このように、従来のレジスタ・リネーミン
グと集中型物理レジスタによる実行方式では、単一レジ
スタ・ファイルへのアクセス集中とレジスタ・リネーミ
ング操作回数の増加、大規模な命令発行機構を実装する
ことが技術的に困難であった。このため、処理の高速化
が困難であった。

【０００６】本発明は、上記課題を解決するためになさ
れたものであり、その目的とするところは、回路規模の
増大を防止するとともに、処理速度の高速化を図ること
が可能な大規模データパス・アーキテクチャの実行機構
を提供しようとするものである。

【０００７】

【課題を解決するための手段】本発明の大規模データパ
ス・アーキテクチャの実行機構は、上記課題を解決する
ため、複数の命令により構成され、レジスタの入力情報
及び出力情報が付加された命令ブロックを保持する第１
のバッファと、前記命令ブロックを並列に実行する複数
の実行ユニットと、前記各実行ユニットに設けられ、各
実行ユニットの演算結果を保存する分散レジスタ・ファ
イルと、前記各実行ユニットに接続され、各実行ユニッ
トの前記分散レジスタ・ファイルに記憶された演算結果
を読み出し、他の実行ユニットに供給するデータ・ネッ
トワークと、プログラムに記述された論理レジスタと前
記分散レジスタ・ファイルとを対応付けるレジスタ・マ
ップを保持する第２のバッファと、前記第２のバッファ
に保持されたレジスタ・マップと前記命令ブロックに付
加されたレジスタの入力情報に応じて、命令ブロックが
割り当てられる実行ユニットに対してどの論理レジスタ
の値を送るかを示すレジスタ要求情報を発生するレジス
タ要求生成回路と、前記命令ブロックに付加された前記
レジスタの出力情報に応じて、前記命令ブロックの実行
後のレジスタ・マップを生成し、前記第２のバッファに
供給するレジスタ・マップ更新回路とを具備している。

【０００８】すなわち、本発明におけるＶＬＤＰアーキ
テクチャは、スーパースカラ、複数の命令を同時に実行
するＶＬＩＷ（Very long Instruction Word）などの従
来のアーキテクチャの延長ではなく、新しいアーキテク
チャである。ＶＬＤＰは、大規模にハードウェア資源を
利用することでマイクロプロセッサの性能を大幅に向上
させ、性能目標として実効ＩＰＣ（Instructions Per C
ycle）８の達成を目指している。

【０００９】本発明のＶＬＤＰアーキテクチャの主な特
徴は、複数パス実行による大規模な投機的実行、３２命
令幅の命令ブロックを実行単位とする高スループット処
理、多数の機能ユニットによる命令の並列実行、レジス
タを介さないデータアクセスである。本発明はこれらを
実現する実行機構を提案する。

【００１０】本発明は、複数の実行ユニットに分散レジ
スタ・ファイルをそれぞれ設けることにより、レジスタ
アクセスを分散化させ、プロセッサの処理能力を飛躍的
に増大させることを可能としている。

【００１１】また、レジスタ・リネーミングに相当する
レジスタ・マップの更新も多数の命令に対して一括して
行ない、プロセッサ内のデータストリームのバンド幅を
増大させることができる。

【００１２】さらに、命令を実行する命令発行回路及び
機能ユニットは、分散レジスタ・ファイルに対応して実
行ユニット毎に分散化し、個々の発火機構の規模を小さ
くしている。このため、実行オーバーヘッドを大幅に低
減させることができる。

【００１３】

【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して説明する。

【００１４】先ず、本発明について、概略的に説明す
る。ＶＬＤＰアーキテクチャではサイクル当たりの高い
処理スループットを得るため、最大３２命令をまとめる
命令ブロック（Instruction Block）ＩＢを処理単位と
して各種処理を高速化する。

【００１５】一方、１サイクルにフェッチする命令ブロ
ックＩＢは最大１つとし、各種処理を簡単化している。
命令ブロックＩＢを実行する実行ユニット（Execution
Unit）ＥＵは複数用意されている。これら実行ユニット
によって複数の命令ブロックＩＢを並列に実行すること
により、多数の命令を並列処理する。

【００１６】大規模な投機的実行は、十分な演算資源を
確保するために大きなレジスタ・ファイルが必要とな
る。しかし、レジスタ・ファイルへの負荷集中を避ける
ため、本発明のＶＬＤＰでは分散したレジスタ・ファイ
ル構成としている。すなわち、各実行ユニットは分散レ
ジスタ・ファイルを有し、これら実行ユニットの演算結
果は、その実行ユニットの分散レジスタ・ファイルにの
み保存される。

【００１７】また、命令ブロックＩＢ内部で一時的に使
われ、レジスタに格納する必要のない値は、この値を生
成する命令を指定することにより、分散レジスタ・ファ
イルを介さずアクセスされる。

【００１８】レジスタ・マップ・セット（Register Map
Set）ＲＭＳは、プログラムに記述された論理レジスタ
の値を格納する分散レジスタ・ファイル上の番地を保持
する。すなわち、このレジスタ・マップ・セットＲＭＳ
は、論理レジスタ番号と、値が格納されている分散レジ
スタ・ファイルの位置とを結び付ける機能を有してい
る。各実行ユニットは、レジスタ・マップ・セットＲＭ
Ｓを参照することにより、分散レジスタ・ファイルから
必要な値を得ることができる。なお、初期型ＶＬＤＰの
論理レジスタは６４本と定められている。

【００１９】本発明のＶＬＤＰにおいて、複数パスを実
行するため、実行中の全命令の処理前後におけるレジス
タ・マップ・セットはＲＭＳバッファに格納される。こ
のＲＭＳバッファに格納されたレジスタ・マップ・セッ
トのうち、フェッチした命令ブロックＩＢに対応するレ
ジスタ・マップ・セットがＲＭＳバッファから読み出さ
れる。この読み出されたレジスタ・マップ・セットと共
に、命令ブロックＩＢを実行部に供給することにより、
ＶＬＤＰは毎サイクル、複数の実行パスから任意のフェ
ッチ先を選んで実行できる。

【００２０】また、実行中の多数の命令から特定のパス
の命令だけをまとめて削除するため、命令ブロックＩＢ
には分岐履歴タグ（Branch History Tag、以下ＢＨＴと
記す）が付加される。尚、分岐制御を簡単化するため、
命令ブロックＩＢを８命令ずつの４つのフィールドに分
割し、各フィールドの末尾にのみ分岐命令を許してい
る。

【００２１】さらに、命令ブロックＩＢには、レジスタ
の入出力情報として、更新値テーブル（Output Registe
r Map Table、以下、ＯＭapと記す）、出力レジスタ・
マスク（Output Register Mask、以下、ＯＭaskと記
す）、及びレジスタ要求を高速に生成するために要求レ
ジスタ・マスク（Input Register Mask、以下、ＩＭask
と記す）が付加されている。これらレジスタの入出力情
報を用いて、レジスタ・マップ・セットＲＭＳを高速に
更新可能としている。

【００２２】図１は、本発明に係わるＶＬＤＰの構成を
概略的に示している。このＶＬＤＰは、制御部１１、実
行部１２、メモリ部１３により構成されている。

【００２３】制御部１１は、パス管理ユニット１４、及
びこのパス管理ユニット１４に接続されたＢＨＴ管理ユ
ニット１５、ＲＭＳバッファ１６、ＩＢバッファ１７、
及びこのＩＢバッファ１７に接続されたストリームバッ
ファ１８を有している。

【００２４】パス管理ユニット１４は、主として分岐予
測に基づき、命令ブロックＩＢのフェッチ制御を行な
う。ＢＨＴ管理ユニット１５は分岐履歴タグＢＨＴを管
理する。ＲＭＳバッファ１６はレジスタ・マップ・セッ
トＲＭＳを格納する。ＩＢバッファ１７はパス管理ユニ
ット１４から供給されるパス制御信号ＰＣに応じて、ス
トリームバッファ１８から供給される命令ブロックＩＢ
を保持する。ストリームバッファ１８は、後述するキャ
ッシュメモリ２３からプログラムに記述された順序で読
み出される命令ブロックＩＢを受ける。

【００２５】前記実行部１２は、ＥＵ管理ユニット１
９、デコーダ２０、複数の実行ユニット（ＥＵ）２
１_０、２１_１〜２１_１５、及びデータ・ネットワーク２
２により構成されている。この実行部１２は、複数の実
行ユニット２１_０、２１_１〜２１_１ _５による命令ブロッ
クＩＢの実行、レジスタ・マップ・セットＲＭＳの更
新、分散レジスタ・ファイルのアクセス制御を行なう。

【００２６】ＥＵ管理ユニット１９は、デコーダ２０を
介して複数の実行ユニット２１_０、２１_１〜２１_１５の
実行を管理する。デコーダ２０は、ＢＨＴ管理ユニット
１５からの分岐履歴タグＢＨＴ、ＲＭＳバッファ１６か
らのレジスタ・マップ・セットＲＭＳ、ＩＢバッファ１
７からの命令ブロックＩＢを受け取り、実行ユニット２
１_０、２１_１〜２１_１５に情報を分配する。さらに、こ
のデコーダ２０は、受け取った命令ブロックＩＢの抜け
出し点のレジスタ・マップ・セットＲＭＳを生成し、こ
のレジスタ・マップ・セットＲＭＳを制御部１１に返す
とともに、後述するレジスタ・マップ・セットＲＭＳの
待ち行列ＲＭＳＱに供給する。各実行ユニット２１_０、
２１_１〜２１_１５は、データ・ネットワーク２２を介し
て接続され、他の実行ユニットと交信可能とされてい
る。実行部２０の詳細については後述する。

【００２７】前記メモリ部１３は、実行中の命令による
メモリ・アクセスを仮想化し、ストア命令による書き込
みを命令が引き渡されるまで遅らせる。このメモリ部１
３は、キャッシュメモリ２３、データバッファ２４、ロ
ード・ストア・ユニット２５により構成されている。

【００２８】キャッシュメモリ２３には演算対象として
の命令及びデータが記憶される。このキャッシュメモリ
２３には前記ストリームバッファ１８が接続されるとと
もに、データバッファ２４、及びロード・ストア・ユニ
ット２５を介して実行ユニット２１_０、２１_１〜２１
_１５に接続される。これらロード・ストア・ユニット２
５、及びデータバッファ２４を介して実行ユニット２１
_０、２１_１〜２１_１５とキャッシュメモリ２４との間で
データの授受が行われる。

【００２９】さらに、前記ＥＵ管理ユニット１９、実行
ユニット２１_０、２１_１〜２１_１５、及びロード・スト
ア・ユニット２５はパス管理ユニット１４に接続されて
いる。

【００３０】（実行部の機能）次に、実行部１２に要求
される機能について説明する。

【００３１】制御部１１は、ＩＢバッファ１７からフェ
ッチした命令ブロックＩＢにレジスタ・マップ・セット
ＲＭＳと分岐履歴タグＢＨＴを付加し、実行部１２に供
給する。実行部１２はこれらを解釈し、命令ブロックＩ
Ｂの各抜け出し点１〜４箇所におけるレジスタ・マップ
・セットＲＭＳを生成する。さらに、分岐命令の種別を
判定し、前記生成したレジスタ・マップ・セットＲＭＳ
とともに制御部１１に通知する。同時に既に供給された
命令ブロックＩＢを並列に実行し、メモリ・アクセスや
分岐結果を制御部１１にフィード・バックする。制御部
１１は分岐結果を受けて、特定パスの無効化（インバリ
デイト：Invalidate）やコレクト・パス（Correct Pat
h）が確定した命令ブロックＩＢのコミット（commit）
を指示する。これらインバリデイトやコミットは、分岐
履歴タグＢＨＴに付加されている。実行部１２はコミッ
ト指示に従い、演算資源の解放、再利用、メモリ・アク
セスの無効化、確定、例外発生（Exception、図にはＥ
ＸＣＰと記す）を制御部１１に通知する。

【００３２】図２は、前記実行部１２の構成を具体的に
示しており、図１と同一部分には同一符号を付してい
る。

【００３３】図２において、デコーダ２０には、レジス
タ・マスク・セットＲＭＳの待ち行列ＲＭＳＱ２６、レ
ジスタ要求生成部２７、及びバッファ回路２８が接続さ
れている。

【００３４】デコーダ２０は、制御部１１から、命令ブ
ロックＩＢ、レジスタ・マスク・セットＲＭＳ、分岐履
歴タグＢＨＴを受け取り、実行部１２内の各実行ユニッ
ト２１_０、２１_２〜２１_１５に情報を分配する。また、
デコーダ２０は、受け取った命令ブロックＩＢの抜け出
し点のレジスタ・マスク・セットＲＭＳを生成し、前述
したように、制御部１１に返すとともにＲＭＳＱ２６に
格納する。さらに、デコーダ２０は制御部１１の指示に
より、ＲＭＳＱ２６からレジスタ・マスク・セットＲＭ
Ｓを得る場合がある。

【００３５】ＥＵ管理ユニット１９は、実行ユニット２
１_０、２１_１〜２１_１５、及び各実行ユニット内の分散
レジスタ・ファイルの使用状況を管理し、実行ユニット
２１ _０、２１_１〜２１_１５、分散レジスタ・ファイルの
割り当て、及び無効化を制御する。このＥＵ管理ユニッ
ト１９の内部にはＥＵ状態テーブル（ＥＵ Status Tabl
e、図２にＥＵＳＴと記す）１９ａ、ＢＨＴテーブル
（図２にＢＨＴＴと記す）１９ｂ、ＯＭaskテーブル
（以下、ＯＭＴ）１９ｃ、及び分散レジスタ・ファイル
・ロック・バッファ（図２にＤＲＦＬＢと記す）１９ｄ
を有している。

【００３６】レジスタ要求生成部２７は、前記レジスタ
・マップ・セットＲＭＳと前記命令バッファＩＢに付加
された要求レジスタ・マスクＩＭaskに応じて、レジス
タ要求信号としてのレジスタ要求マップ（Register Req
uest Map、以下、ＲＲＭと記す）を生成する。このレジ
スタ要求マップＲＲＭは、後述するように、そのサイク
ルで命令ブロックＩＢが割り当てられる実行ユニットに
対してどの論理レジスタの値を送るかを示している。こ
のレジスタ要求マップＲＲＭは実行ユニット別に生成さ
れ、それぞれの実行ユニットに供給される。

【００３７】実行ユニット２１_０、２１_１〜２１
_１５は、命令ブロックＩＢが割り当てられると演算を開
始し、演算結果をその内部の分散レジスタ・ファイルに
書き込んで待機状態に戻る。レジスタ要求に基づくレジ
スタ値の送信は常に行なう。

【００３８】バッファ回路２８は、命令デコード・ビッ
ト列やレジスタ・マップ・セットＲＭＳの一部など、ビ
ット幅の広いデータを各実行ユニットへ送信するための
中継器である。

【００３９】また、実行ユニット２１_０、２１_１〜２１
_１５は、メモリ・アクセス・バス２９を介して前記メモ
リ部１３のロード・ストア・ユニット２５に接続されて
いる。

【００４０】尚、図２において、パスの調停や実行ユニ
ットへ命令ブロックＩＢを割り当てるためなどの制御線
は省略している。

【００４１】次に、実行ユニット２１_０、２１_１〜２１
_１５の構成を説明する。実行ユニット２１_０、２１_１〜
２１_１５は、同一構成であるため、実行ユニット２１_０
を例として説明する。

【００４２】図３は、実行ユニット２１_０の構成を示し
ている。実行ユニット２１_０は、レジスタ要求バッファ
３０、命令発行回路３１、ネットワーク・インターフェ
ース・ユニット３２、機能ユニット３３、分散レジスタ
・ファイルＤＲＦ、ローカル結果バス３５、グローバル
結果バス３６を有している。

【００４３】前記命令発行回路３１は、前記バッファ回
路２８から供給されるデコードされた命令ブロックＩＢ
を受け取り、オベランドをバッファする。各命令の発火
条件を調べ、発火可能なものから機能ユニット３３に供
給する。また、命令発行回路３１は、実行ユニットでの
実行状態（ＢＵＳＹ、ＥＸＣＰ）を前記ＥＵ管理ユニッ
ト１９に通知する。機能ユニット３３は、各命令に対応
した演算処理回路の集合体であり、各命令を演算処理す
る。この機能ユニット３３の演算結果はグローバル結果
バス３６、又はローカル結果バス３５に出力される。グ
ローバル結果バス３６に出力された演算結果は、分散レ
ジスタ・ファイルＤＲＦに供給され、ローカル結果バス
３５に出力された演算結果は命令発行回路３１に供給さ
れる。演算内容によっては分岐結果バス３７やメモリ・
アクセス・バス２９がアクセスされる。

【００４４】分散レジスタ・ファイルＤＲＦは、グロー
バル結果バス３６に出力された演算結果を保存し、命令
発行回路３１はローカル結果バス３５に出力された演算
結果を取り込む。分散レジスタ・ファイルＤＲＦはバン
ク構成とされており、１バンクのエントリ数は命令ブロ
ックＩＢの最大命令数３２となっている。

【００４５】レジスタ要求バッファ３０は、デコーダ２
０から供給されるレジスタ要求マップＲＲＭとレジスタ
・マップ・セットＲＭＳの一部を受け取り、送り先の実
行ユニット別にレジスタ要求のリストを保存する。

【００４６】ネットワーク・インターフェース・ユニッ
ト３２は、レジスタ要求バッファ３０を参照して、分散
レジスタ・ファイルＤＲＦから演算結果を読み出し、デ
ータ・ネットワーク２２に供給する。また、ネットワー
ク・インターフェース・ユニット３２は、外部からレジ
スタ値を受け取った場合、これをローカル結果バス３５
を経由して命令発行回路３１に供給する。

【００４７】なお、初期型ＶＬＤＰにおいて、実行ユニ
ットの数は例えば１６ユニット、各実行ユニット内の分
散レジスタ・ファイルは例えば８バンクとされる。した
がって、分散レジスタ・ファイルの総バンク数は１２８
である。しかし、実行ユニットの数、分散レジスタ・フ
ァイルの数は、これに限定されるものではない。

【００４８】分散レジスタ・ファイルの総バンク数は、
実行ユニットの総数と論理レジスタ数の和より多ければ
良いため、４７バンクが余剰である。この余剰分のバン
クは、使用済みバンクの偏りによる実行ユニットの飽和
を緩和するために設けられている。

【００４９】（実行部の動作）図４乃至図１０を参照し
て、上記実行部１２の動作について説明する。

【００５０】（レジスタ・マップ・セットＲＭＳの生
成）デコーダ２０は、命令ブロックＩＢの先頭でのレジ
スタ・マップ・セットＲＭＳから各抜け出し点における
レジスタ・マップ・セットＲＭＳを生成し、制御部１１
に返す。レジスタ・マップ・セットＲＭＳの生成では、
命令ブロックＩＢに含まれる更新値テーブルＯＭap、及
び出力レジスタマスクＯＭaskを用いて先頭レジスタ・
マップ・セットＲＭＳの該当のエントリを一括置換す
る。

【００５１】図４は、レジスタ・マップ・セットＲＭＳ
を生成する仕組みを示している。

【００５２】デコーダ２０は、先ずＥＵ管理ユニット１
９より、命令ブロックＩＢを割り当てる実行ユニット番
号（ＥＵＩＤ）と分散レジスタ番号（ＢＮ）を得る。図
４は、実行ユニット番号（ＥＵＩＤ）として“８”、分
散レジスタ番号（ＢＮ）として“４”が設定されてい
る。これらはレジスタ・マスク・セットＲＭＳの実行ユ
ニット番号（ＥＵＩＤ）フィールド、分散レジスタ番号
（ＢＮ）フィールドの置換に使用される。レジスタ・マ
スク・セットＲＭＳの命令番号（ＩＮ）フィールドの置
換は、更新値テーブルＯＭapが使用される。図４に示す
更新値テーブルＯＭapには、論理レジスタＲ２、Ｒ３に
対応して、例えば置換する命令番号“２８”“９”が設
定されている。出力レジスタ・マスクＯＭaskには、マ
スクする論理レジスタ及び置換する論理レジスタが設定
される。図４に示す出力レジスタ・マスクＯＭaskは、
論理レジスタＲ２、Ｒ３を置換する場合を示している。

【００５３】デコーダ２０は、これら実行ユニット番号
（ＥＵＩＤ）、分散レジスタ番号（ＢＮ）、更新値テー
ブルＯＭap、出力レジスタ・マスクＯＭaskの情報に基
づき、レジスタ・マスク・セットＲＭＳのレジスタＲ
２、Ｒ３に対応する実行ユニット番号（ＥＵＩＤ）フィ
ールド、分散レジスタ番号（ＢＮ）フィールド、及び命
令番号（ＩＮ）フィールドの内容が置換する。

【００５４】（レジスタ要求マップＲＲＭの生成）レジ
スタ要求生成部２７は、デコーダ２０から供給されるレ
ジスタ・マップ・セットＲＭＳ、及び要求レジスタ・マ
スクＩＭaskに応じて、各実行ユニットに供給するレジ
スタ要求マップＲＲＭを生成する。レジスタ要求マップ
ＲＲＭは、そのサイクルで新しく命令ブロックＩＢを割
り当てられる実行ユニットに対してどの論理レジスタの
値を送るかを示している。レジスタ要求マップＲＲＭの
各ビットは、レジスタ・マップ・セットＲＭＳで該当実
行ユニットに値があるとされ、かつ要求レジスタマスク
ＩＭaskにより送信先命令ブロックＩＢが要求している
レジスタのみが“１”、それ以外は“０”となる。

【００５５】図５は、レジスタ要求マップＲＲＭの生成
方法を示している。先ず、レジスタ・マップ・セットＲ
ＭＳのＥＵＩＤフィールドの全エントリをデコードし、
各実行ユニットに対応するビットを取り出すことによ
り、該当実行ユニットに値があることを示すレジスタ・
マップを生成する。図５は、ＥＵ（２）（図２の２
１_２）のマップを取り出す場合を示している。このマッ
プと要求レジスタマスクＩＭaskとの論理積を取ること
により、該当実行ユニットのＲＲＭを得ることができ
る。

【００５６】（レジスタ値転送）新しい命令ブロックＩ
Ｂがいずれかの実行ユニットに割り当てられる毎に、全
ての実行ユニットにレジスタ要求マップＲＲＭと、共通
のレジスタ・マップ・セットＲＭＳ（ＢＮ、ＩＮフィー
ルドのみ）がそれぞれ供給される。これらの情報は各実
行ユニット内のレジスタ要求バッファ３０に格納され、
実行ユニット内のネットワーク・インターフェース・ユ
ニット３２によって読み出される。

【００５７】図６は、レジスタ要求バッファ３０の構成
及び動作を示している。（尚、図６乃至図９において、
ＥＵ（０）〜ＥＵ（１５）は、実行ユニット２１_０、２
１_１〜２１_１５に対応する。）レジスタ要求バッファ３０のエントリは、送り先ＥＵＩ
Ｄに関連付けられており、ＭＳＲフィールドにはレジス
タ・マップ・セットＲＭＳのＢＮ、ＩＮフィールド、Ｒ
ＲＭフィールドにはＲＲＭが格納される。ネットワーク
・インターフェース・ユニット３２は、レジスタ要求マ
ップＲＲＭに“１”が立っているビットを探し、ＭＳＲ
を参照して分散レジスタ・ファイルにアクセスする。も
しくはグローバル結果バス３６を監視して値を得る。

【００５８】ネットワーク・インターフェース・ユニッ
ト３２は、得られた値をデータ・ネットワーク２２を介
して送り先実行ユニットに転送する。受信側の実行ユニ
ットにおいて、データ・ネットワーク２２は受けた値を
一旦バッファし、ローカル結果バス３５を介して命令発
行回路３１に値を供給する。

【００５９】上記データ・ネットワーク２２は、新しい
命令ブロックＩＢが実行ユニットに割り当てられる度に
他の実行ユニットから一斉にデータが送られるというト
ラフィックの特徴がある。データ・ネットワーク構造、
及び命令ブロックＩＢ割り当て方法は、この特徴を踏ま
えて設計する必要がある。

【００６０】（実行ユニット管理及び完了処理）ＥＵ管
理ユニットは、実行ユニット及び分散レジスタ・ファイ
ルの使用状況を管理し、実行ユニット及び分散レジスタ
・ファイルの割り当て、及び解放の処理を行なう。先
ず、実行ユニットで実行中の命令ブロックＩＢについ
て、各フィールド末尾での出力レジスタ・マスクＯＭas
k、及び分岐履歴タグＢＨＴを、図７に示すＯＭask テ
ーブルＯＭＴ、図８に示すＢＨＴテーブルＢＨＴＴにそ
れぞれ保存する。なお、末尾が抜け出し点でないフィー
ルドの出力レジスタ・マスクＯＭaskは保存しなくてよ
い。出力レジスタ・マスクＯＭaskは完了による分散レ
ジスタ・ファイルの解放に使用し、分岐履歴タグＢＨＴ
は無効化による分散レジスタ・ファイルなどの演算資源
の解放に使用する。

【００６１】また、実行ユニットの状態は、図９に示す
ＥＵ状態テーブルＥＵＳＴに保持する。図９において、
アクティブ（active）ビットはＥＵ管理ユニット１９
が、既に命令ブロックＩＢを割り当てた実行ユニットで
あり、“１”にセットされる。バンク・バリッド（bank
valid）ビットは、実行ユニット内の各分散レジスタ・
ファイルの使用状況を表している。ＢＮはアクティブな
実行ユニットがどの分散レジスタファイルバンクに書き
込むかをバンク番号で格納する。これは割当時に、バン
ク・バリッドを参照して決定される。コミット（commi
t）・ビットには、制御部１１からコレクト・パス（Cor
rect Path）であることが通知された命令ブロックＩＢ
を処理している実行ユニットのエントリがセットされ
る。制御部１１からは分岐履歴タグＢＨＴでコレクト・
パスが通知されるため、命令ブロックＩＢの途中までが
正しいパスで、途中から無効なパスである場合がある。
ＥＵ管理ユニット１９は、ＢＨＴＴを参照し、どのフィ
ールドまでが正しいパスであるかを判定してＥＵ状態テ
ーブルＥＵＳＴのレベル（level）フィールドに書き込
む。

【００６２】実行ユニットが命令ブロックＩＢの処理を
完了すると、実行ユニットから出力されるビジー信号Ｂ
ＵＳＹが“１”から“０”に設定される。ＥＵ管理ユニ
ット１９はこれを検出し、アクティブな実行ユニットで
ある場合は命令ブロックＩＢの処理実行が終了したとみ
なす。この時、例外発生信号ＥＸＣＰがアクティブでな
ければ、ＥＵ管理ユニット１９は命令ブロックＩＢの完
了処理を行なう。

【００６３】すなわち、ＥＵ管理ユニット１９は、ＥＵ
状態テーブルＥＵＳＴのコミット・ビットを読み出し、
該当命令ブロックＩＢが正しいパスに含まれているかを
検査する。コミット・ビットが立っていない時は、引き
渡されるか命令ブロックＩＢが無効化されるまで待つ。
命令ブロックＩＢの処理実行が終了し、かつ引き渡され
ている場合、ＥＵ管理ユニット１９は、ＥＵ状態テーブ
ルＥＵＳＴのアクティブ・ビットをリセットし、実行ユ
ニットを解放する。

【００６４】また、全実行ユニットのレジスタ要求バッ
ファ３０から、解放する実行ユニットへのレジスタ要求
マップＲＲＭをクリアする。同時に、アクティブになっ
ていた分散レジスタ・ファイルのバンクを分散レジスタ
ファイル・ロック・バッファ１９ｄに登録し、ロックす
る。これは演算が終了しても後続の命令が演算結果の格
納された分散レジスタ・ファイルにアクセスすることが
あるため、これを防止するためである。

【００６５】図１０は、分散レジスタファイル・ロック
・バッファ１９ｄの一例を示している。分散レジスタフ
ァイル・ロック・バッファ１９ｄにはロックする分散レ
ジスタ・ファイルのＥＵＩＤ、ＢＮとともに正しいパス
の抜け出し点における出力レジスタマスクＯＭaskが保
存される。

【００６６】ここで、保存すべき出力レジスタ・マスク
ＯＭaskは、ＥＵ状態テーブルＥＵＳＴのレベルフィー
ルドを使用して更新値テーブルＯＭapを参照することに
より得られる。新しい分散レジスタ・ファイルが分散レ
ジスタ・ファイル・ロック・バッファ１９ｄに追加され
る時、全エントリの出力レジスタ・マスクＯＭaskが、
新しい分散レジスタ・ファイルの出力レジスタ・マスク
ＯＭaskとの論理積に更新される。これは、新しく追加
した分散レジスタ・ファイルに含まれるレジスタ値によ
って、古い分散レジスタ・ファイルが参照される可能性
がなくなるのをチェックするためである。この更新によ
って出力レジスタ・マスクＯＭaskのビットが全て
“０”になると、そのエントリは分散レジスタファイル
・ロック・バッファ１９ｄから取り除かれ、対応するＥ
Ｕ状態テーブルＥＵＳＴのバンク・バリッド・ビットが
リセットされる。これにより、分散レジスタ・ファイル
の再利用が可能になる。

【００６７】（命令無効化手順）制御部１１より命令の
無効化（インバリデイト）が指定された場合、ＥＵ管理
ユニット１９は、指定された分岐履歴タグＢＨＴとその
子孫に対応する実行中の命令ブロックＩＢを全て無効化
し、実行ユニットから取り除く。無効化の操作は、ＥＵ
管理ユニット１９から各実行ユニットを個別に制御す
る。無効化される実行ユニットは演算の停止とメモリ・
アクセスの無効化を行ない、無効化されない実行ユニッ
トでは無効化される実行ユニットへのレジスタ要求マッ
プＲＲＭをクリアする。その後、各実行ユニットの無効
化操作の終了時点で、無効化した実行ユニットに対応す
るＥＵ状態テーブルＥＵＳＴのアクティブ・ビットがリ
セットされ、実行ユニットが再利用可能になる。

【００６８】また、命令ブロックＩＢの途中までがコミ
ットされた場合、その命令ブロックＩＢのコミットされ
なかった部分を無効化する。この場合、無効化部分の演
算停止とメモリ・アクセスの無効化のみが行なわれ、後
はコミット操作によって処理される。

【００６９】（分岐結果のフィード・バック）実行ユニ
ットにおける分岐命令処理の結果により、実行パスの選
択が行なわれる。この結果を制御部１１に渡すことによ
り、正しいパスの実行が継続される。分岐命令の結果が
出ると、図２に示すように、実行ユニットはアドレスＡ
ＤＲを出力し、ＥＵ管理ユニット１９はＢＨＴＴを参照
して該当の分岐履歴タグＢＨＴを出力する。これら分岐
履歴タグＢＨＴとアドレスＡＤＲの情報を合わせて制御
部１１に転送する。単純には１サイクル、１命令ブロッ
クのスループットより、１サイクルに４程度の分岐結果
を返すことができればよいと予想される。

【００７０】また、ＶＬＤＰでは分岐予測及び分岐確信
度予測により、投機的に実行を進めるため、分岐命令の
存在、種別を早い段階で制御部１１に通知することによ
って効率的な命令フェッチを行なえる。このため、デコ
ーダ２０は命令ブロックＩＢのデコード時に分岐命令の
存在と種別を即座に制御部１１に返す。

【００７１】上記実施形態によれば、命令ブロックＩＢ
単位で、レジスタ・マップを更新するため、従来の命令
単位のレジスタ・リネーミング技術に比べてレジスタ・
マップの操作回数を削減することができる。このため、
命令処理のスループットを向上できる。

【００７２】しかも、命令ブロックＩＢ毎にレジスタ・
マップを切り換えているため、実行中の複数のプログラ
ムから供給される命令ブロックＩＢを交互、且つ不連続
に処理することが可能である。

【００７３】また、命令実行時に、演算結果をレジスタ
に格納する必要がない場合、機能ユニット３３はローカ
ル結果バス３５を介して演算結果を命令発行回路３１に
直接供給している。このため、この演算結果を使用する
命令に対して、レジスタを使用せずに演算結果を直接転
送することができる。したがって、従来のように、レジ
スタを介して演算結果を参照する場合に比べて、プログ
ラムの記述におけるレジスタの使用数を削減することが
できるとともに、処理を高速化することができる。

【００７４】さらに、各実行ユニットで分散してレジス
タを参照するため、実行ユニットの数を増加することに
より、これに比例して物理レジスタの総数、及び総参照
ポート数を増加することができる。このため、従来の集
中型物理レジスタ構造に比べて構成を簡単化することが
可能である。

【００７５】また、命令発行回路３１は、各実行ユニッ
トに分散して配置されているため、実行ユニットの数を
増加することにより、同時に発行できる命令の検出範囲
を容易に拡大することができる。したがって、従来の単
一命令ウィンドウ構成では回路構成が複雑で回路規模が
拡大する問題を有していたが、本実施形態は、回路規模
を大幅に削減できる利点を有している。

【００７６】また、命令ブロックＩＢは、更新値テーブ
ルＯＭap、及び出力レジスタ・マスクＯＭaskを有して
おり、これら更新値テーブルＯＭap、及び出力レジスタ
・マスクＯＭaskを用いてレジスタ・マップ・セットＲ
ＭＳの所定のエントリを一括して置換している。したが
って、高速にレジスタ・マップ・セットＲＭＳを更新す
ることができる。

【００７７】さらに、命令ブロックＩＢは、要求レジス
タ・マスクＩＭaskを有し、レジスタ要求生成部２７
は、デコーダ２０から供給されるレジスタ・マップ・セ
ットＲＭＳ、及び要求レジスタ・マスクＩＭaskに応じ
て、各実行ユニットに送るレジスタ要求をレジスタ要求
マップＲＲＭとして一括して生成している。したがっ
て、レジスタ要求を高速に生成することができる。

【００７８】尚、本発明は、上記実施形態に限定される
ものではなく、本発明の要旨を変えない範囲において種
々変形実施可能なことは勿論である。

【００７９】

【発明の効果】以上、詳述したように本発明によれば、
回路規模の増大を防止するとともに、処理速度の高速化
を図ることが可能な大規模データパス・アーキテクチャ
の実行機構を提供できる。

【図面の簡単な説明】

【図１】本発明の実施形態を示す構成図。

【図２】図１に示す実行部を具体的に示す構成図。

【図３】図２に示す実行ユニットの一例を示す構成図。

【図４】レジスタ・マップ・セットＲＭＳを生成する仕
組みを説明するために示す図。

【図５】レジスタ要求マップＲＲＭの生成方法を説明す
るために示す図。

【図６】レジスタ要求バッファ３０の構成及び動作を説
明するために示す図。

【図７】出力レジスタマスクテーブルＯＭＴの一例を示
す図。

【図８】分岐履歴タグテーブルＢＨＴＴの一例を示す
図。

【図９】ＥＵ状態テーブルＥＵＳＴの一例を示す図。

【図１０】分散レジスタファイル・ロック・バッファＤ
ＲＦＬＢの一例を示す図。

【符号の説明】

１１…制御部、１２…実行部、１３…メモリ部、１９…ＥＵ管理ユニット、１９ａ…実行ユニット状態テーブル（ＥＵＳＴ）、１９ｂ…分岐履歴タグテーブル（ＢＨＴＴ）、１９ｃ…ＯＭaskテーブル（ＯＭＴ）、１９ｄ…分散レジスタファイル・ロック・バッファ（Ｄ
ＲＦＬＢ）、２０…デコーダ、２１_０、２１_１〜２１_１５…実行ユニット、２２…データ・ネットワーク、２７…レジスタ要求生成部、３０…レジスタ要求バッファ、３１…命令発行回路、３２…ネットワーク・インターフェース・ユニット、３３…機能ユニット、ＤＲＦ…分散レジスタ・ファイル、ＩＢ…命令ブロック、ＲＭＳ…レジスタ・マップ・セット、ＢＨＴ…分岐履歴タグ、ＯＭap…更新値テーブル、ＯＭask…出力レジスタ・マスク。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平８−212070（ＪＰ，Ａ) 特開平８−44564（ＪＰ，Ａ) 特開平４−230527（ＪＰ，Ａ) 特表2002−521761（ＪＰ，Ａ) 国際公開00／07096（ＷＯ，Ａ１) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 9/30 - 9/38

Claims

(57)【特許請求の範囲】

【請求項１】複数の命令により構成され、レジスタの
入力情報及び出力情報が付加された命令ブロックを保持
する第１のバッファと、前記命令ブロックを並列に実行する複数の実行ユニット
と、前記各実行ユニットに設けられ、各実行ユニットの演算
結果を保存する分散レジスタ・ファイルと、前記各実行ユニットに接続され、各実行ユニットの前記
分散レジスタ・ファイルに記憶された演算結果を読み出
し、他の実行ユニットに供給するデータ・ネットワーク
と、プログラムに記述された論理レジスタと前記分散レジス
タ・ファイルとを対応付けるレジスタ・マップを保持す
る第２のバッファと、前記第２のバッファに保持されたレジスタ・マップと前
記命令ブロックに付加されたレジスタの入力情報に応じ
て、命令ブロックが割り当てられる実行ユニットに対し
てどの論理レジスタの値を送るかを示すレジスタ要求情
報を発生するレジスタ要求生成回路と、前記命令ブロックに付加された前記レジスタの出力情報
に応じて、前記命令ブロックの実行後のレジスタ・マッ
プを生成し、前記第２のバッファに供給するレジスタ・
マップ更新回路とを具備することを特徴とする大規模デ
ータパス・アーキテクチャの実行機構。
【請求項２】前記各実行ユニットは、前記命令ブロッ
クの各命令に対応した演算処理回路の集合体からなり、
各命令を演算処理する機能ユニットと、前記機能ユニットに接続され、前記第１のバッファから
供給される命令ブロックを受け、発火可能な命令を前記
機能ユニットに供給する命令発行回路と、前記機能ユニットの演算処理結果を前記命令発行回路に
帰還する帰還回路とをさらに具備し、プログラムは前記命令ブロックを単位として記述され、
命令ブロック内部では、前記機能ユニットの演算結果が
前記帰還回路を介して前記命令発行回路に直接供給され
ることを特徴とする請求項１記載の大規模データパス・
アーキテクチャの実行機構。
【請求項３】前記実行ユニットは、前記分散レジスタ
・ファイルから指定された値を読み出し、前記データ・
ネットワークを介して他の実行ユニットに供給するネッ
トワーク・インターフェース・ユニットをさらに具備す
ることを特徴とする請求項２記載の大規模データパス・
アーキテクチャの実行機構。
【請求項４】前記各実行ユニットと前記分散レジスタ
・ファイルの使用状況を管理し、前記各実行ユニットと
前記分散レジスタ・ファイルの割り当て、無効化を制御
する実行ユニット管理部をさらに具備することを特徴と
する請求項１記載の大規模データパス・アーキテクチャ
の実行機構。
【請求項５】前記レジスタ・マップは、論理レジスタ
に対応して、前記実行ユニットを識別する識別番号と、
分散レジスタ・ファイルを識別する分散レジスタ番号、
及び命令番号を有し、前記レジスタ・マップ更新回路は、前記レジスタの出力
情報で指示された論理レジスタに対して、前記実行ユニ
ット管理部から受けた命令ブロックを割り当てる実行ユ
ニットの識別番号と分散レジスタ番号に基づき、前記レ
ジスタ・マップの前記実行ユニットの識別番号と分散レ
ジスタ番号を更新し、前記レジスタの出力情報に基づ
き、前記レジスタ・マップの命令番号を更新することを
特徴とする請求項４記載の大規模データパス・アーキテ
クチャの実行機構。
【請求項６】前記命令ブロックは、実行中の多数の命
令から特定のパスの命令を削除するための分岐履歴タグ
を有することを特徴とする請求項５記載の大規模データ
パス・アーキテクチャの実行機構。