JPH09120360A

JPH09120360A - ロード命令を実行する実行ユニットを具備するデータ・プロセッサおよびその動作方法

Info

Publication number: JPH09120360A
Application number: JP7160147A
Authority: JP
Inventors: David P Burgess; デビッド・ピー・バージェス; Marvin A Denman; マービン・デンマン; Milton M Hood Jr; ミルトン・エム・フッド，ジュニア; A Kearny Mark; マーク・エイ・ケアニイ; Kling Lavanya; ラバンヤ・クリング; R Murphy Graham; グラハム・アール・マーフィ; Seungyoon P Song; ソンヨーン・ピーター・ソング
Original assignee: International Business Machines Corp; Motorola Inc
Current assignee: International Business Machines Corp; Motorola Solutions Inc
Priority date: 1994-06-03
Filing date: 1995-06-05
Publication date: 1997-05-06
Also published as: KR960001989A; EP0686912B1; EP0686912A3; DE69506623D1; DE69506623T2; EP0686912A2; CN1144934A; US5664215A

Abstract

(57)【要約】（修正有）【目的】ロード／ストア命令を実行するユニットを改
善する。【構成】データ・プロセッサ１０は、簡易ロード命令
又はストア命令として、ロード／ストア・マルチプル及
びロード／ストア・ストリング命令をロード／ストア・
ユニット２８にディスパッチする。シーケンサ・ユニッ
ト１８は、リネーム・バッファ３４のエントリを割り当
て、このエントリに対してロード／ストア・ユニットは
各簡易ロード命令のデータをライトバックする。この技
法は、以降の命令について早期データ転送を容易にす
る。逆に、シーケンサ・ユニットは、簡易ストア命令の
オペランドを供給できない場合に、リネーム・バッファ
・タグをロード／ストア・ユニットに供給する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、一般に、デジタル・コ
ンピューティング・システムに関し、さらに詳しくは、
ロードおよびストア命令に関する。

【０００２】

【従来の技術】すべてのデータ・プロセッサは、内部計
算の結果を、データ・プロセッサがその一部であるデー
タ処理システムの残りの部分に、あるいはその逆に移動
するための命令を実行する。これらの計算の結果は、格
納または後で利用するために外部メモリ・システムに移
動したり、ユーザに表示するためにＣＲＴに移動した
り、別のデータ処理システムに伝送するためにネットワ
ークに移動される。これらの命令は、「ストア(store)
」または「ライト(write) 」命令という場合が多い。
逆に、データは外部メモリ・システムからや、キーボー
ドなどの入出力（Ｉ／Ｏ）デバイスからデータ処理シス
テムに移動でき、ここで処理される。これらの命令は、
「ロード(load)」または「リード(read)」命令という場
合が多い。

【０００３】特定のコンピュータ・アーキテクチャ内で
もさまざまなロード／ストア命令がある。さまざまなロ
ード／ストア命令は、ソフトウェア・プログラマの負担
を軽減する。これら各命令は、転送されるデータの量，
データ・ソースまたはデスティネーションのアドレスの
計算，データのフォーマットなどの点で互いに異なる。
１つの種類のロード／ストア命令として、「ロード・マ
ルチプル(load multiple) 」または「ストア・マルチプ
ル(store multiple)」命令がある。これら２つの命令
は、数プロセッサ・クロック・サイクル中に一連の順次
メモリ番地の内容を一連の順次内部レジスタにロードす
る。メモリ番地の数，メモリ・アドレスの開始アドレス
および内部レジスタの開始アドレスは、命令フォーマッ
トおよびそのオペランドによって決定される。

【０００４】ロード／ストア・マルチプル命令は、パイ
プラインド・データ・プロセッサ(pipelined data proc
essor)において実行するのが困難な命令である。特定の
データ・プロセッサ、特にＲＩＳＣ(reduced instructi
on set computers) や一部のＣＩＳＣ(complex instruc
tion set computers) は、性能を向上させるため命令処
理を重複させる。この方法は、ロード／ストア・マルチ
プル命令によって無効(defeat)にされる場合が多い。例
えば、シングル・ロード・マルチプル命令は、各内部レ
ジスタを更新することがある。命令ストリーム内のすべ
てのそれ以降の命令は、関連データが利用できるまで遅
延しなければならない。逆に、シングル・ストア・マル
チプル命令は、各内部レジスタを出力することがある。
この命令は、データが利用可能になるまで遅延しなけれ
ばならない。また、ストア・マルチプル命令は、ある種
の内部キュー(internal queue)にバッファしなければな
らない。そのため、この方法は、他の命令がこれらのリ
ソースを利用することを妨げる。

【０００５】

【発明が解決しようとする課題】本発明により、既知の
データ・プロセッサおよび方式の欠点を実質的に解消す
る、ロード命令を実行する実行ユニットを有するデータ
・プロセッサおよびその動作方法を提供する。

【０００６】

【課題を解決するための手段】本発明のデータ・プロセ
ッサは、複数のアーキテクチャ・レジスタ(architectur
al register)，リネーム・バッファ(rename buffer) ，
ロード・ユニットおよび互いに接続されたシーケンサ・
ユニットを有する。リネーム・バッファは、複数の命令
のうち異なる１つの命令の複数の結果のうち異なる１つ
の結果をバッファする複数のエントリを有する。ディス
パッチされる各ロード命令タグ・ペアについて、ロード
・ユニットは、メモリ・システムからのアドレスによっ
てインデクスされたデータを要求する。また、ロード・
ユニットは、ロード命令タグ・ペア内のタグによって指
定されるように、リネーム・バッファの複数のエントリ
のうちの１つにデータをバッファする。シーケンサ・ユ
ニットは、Ｎ＊Ｗバイトを要求するロード・マルチプル
命令を受け、ここでＮおよびＷは整数であり、Ｎは１よ
り大きく、複数のアーキテクチャ・レジスタのそれぞれ
はＷバイト・サイズである。次に、シーケンサ・ユニッ
トは、Ｎ個のロード命令タグ・ペアをロード・ユニット
にディスパッチする。

【０００７】本発明の方法は、第１回目に、シーケンサ
・ユニットにおいてロード・マルチプル命令を受ける段
階と、その後のＮ回目にＮ個のロード命令タグ・ペアを
ロード・ユニットにディスパッチし、リネーム・バッフ
ァの複数のエントリのうち異なる１つを複数のアーキテ
クチャ・レジスタのうち異なる１つにストアする段階を
有する。ロード・マルチプル命令は、Ｎ＊Ｗバイトのデ
ータを要求し、ここでＮおよびＷは整数であり、Ｎは１
よりも大きく、複数のアーキテクチャ・レジスタのそれ
ぞれはＷバイト・サイズである。ディスパッチされる各
ロード命令タグ・ペアについて、ロード・ユニットは、
メモリ・システムからのアドレスによってインデクスさ
れたＷバイトのデータを要求する。また、ロード・ユニ
ットは、リネーム・バッファの複数のエントリのうち１
つにＷバイトのデータをバッファする。ロード命令タグ
・ペアのタグは、特定のインデクス済みエントリを識別
する。

【０００８】本発明の特徴および利点は、図面とともに
以下の詳細な説明から明らかになろう。ただし、同様な
参照番号は、同様な対応する部分を表す。

【０００９】

【実施例】図１は、本発明により構成されるデータ・プ
ロセッサ１０のブロック図を示す。データ・プロセッサ
１０は、パワーＰＣアーキテクチャ命令セットを実行す
る。パワーＰＣアーキテクチャ命令セットは、ロード／
ストア・マルチプル命令およびロード／ストア・ストリ
ング命令を含む。データ・プロセッサ１０は、命令スト
リームをを実行する際にこれらの命令の存在を判定し、
これらの命令を個別のロード命令または個別のストア命
令のシーケンスに「アンロール(unroll)」または分割す
る。例えば、データ・プロセッサ１０が１６個の順次内
部レジスタの内容を１６個の順次メモリ番地に出力する
ストア・マルチプル命令に遭遇すると、データ・プロセ
ッサ１０は１６個のシングル・レジスタ・ストア命令を
ディスパッチする。この方式では、データ・プロセッサ
１０は、ロード／ストア・マルチプル命令についてその
リネーミング方法を利用できる。また、データ・プロセ
ッサ１０は、ロード／ストア・マルチプル命令以外の他
の命令をディスパッチできる。

【００１０】さらに図１において、バス・インタフェー
ス・ユニット（以下ではＢＩＵ）１２は、データ・プロ
セッサ１０とデータ処理システムの残りの部分（図示せ
ず）との間のデータのフローを制御する。ＢＩＵ１２
は、命令キャッシュ１４とデータ・キャッシュ１６とに
接続される。命令キャッシュ１４は、命令ストリームを
シーケンサ・ユニット１８に供給する。シーケンサ・ユ
ニット１８は、個別の命令を適切な実行ユニットに転送
する。データ・プロセッサ１０は、ブランチ・ユニット
２０，固定小数点実行ユニットＡ２２，固定小数点実行
ユニットＢ２４，複素(complex) 固定小数点実行ユニッ
ト２６，ロード／ストア実行ユニット２８および浮動小
数点実行ユニット３０を有する。固定小数点実行ユニッ
トＡ２２，固定小数点実行ユニットＢ２４，複素固定小
数点実行ユニット２６およびロード／ストア実行ユニッ
ト２８は、その結果を汎用アーキテクチャ・レジスタ・
ファイル３２（ＧＰＲと表し、以下ではＧＰＲファイル
という）および第１リネーム・バッファ３４に対して読
み書きする。第１リネーム・バッファについては、図３
および図４で詳しく説明する。浮動小数点実行ユニット
２６およびロード／ストア実行ユニット２８は、その結
果を浮動小数点アーキテクチャ・レジスタ・ファイル３
６（ＦＰＲと表し、以下ではＦＰＲファイルという）お
よび第２リネーム・バッファ３８に対して読み書きす
る。

【００１１】本開示の発明を具備しないデータ・プロセ
ッサ１０の動作は当技術分野で周知である。一般に、ブ
ランチ・ユニット２０は、特定のデータ・レジスタの内
容および命令自体を考慮して、プログラム済み命令のど
のシーケンスが適切かを判定する。命令キャッシュ１４
は、このプログラム済み命令のシーケンスをシーケンサ
１８に与える。命令キャッシュ１４が必要な命令を格納
していない場合、データ・プロセッサ１０に対して外部
のメイン・メモリ（図示せず）からこれらの命令をフェ
ッチする。

【００１２】シーケンサ・ユニット１８は、プログラム
済み命令のシーケンスの個別の命令を各実行ユニット２
０，２２，２４，２６，２８，３０にディスパッチす
る。また、シーケンサ・ユニット１８は、各命令の結果
がもしあればその結果を一時的に格納するためのリネー
ム・バッファ３４または３８のいずれかにエントリを確
保(reserve) する。両方のリネーム・バッファは、先入
れ先出し（ＦＩＦＯ）キューである。

【００１３】各実行ユニットは、特定のクラスの命令の
１つまたはそれ以上の命令を実行する。各実行ユニット
の特定のクラスの命令は、実行ユニットの名前によって
表される。例えば、固定小数点実行ユニットＡ，Ｂは、
加算，減算，論理積（ＡＮＤ），論理和（ＯＲ），排他
的論理和（ＸＯＲ）など、固定小数点で表されるオペラ
ンドに対する単純な演算を実行する。複素固定小数点実
行ユニット２６は、乗算および除算など、固定小数点で
表されるオペランドに対するより複雑な演算を実行す
る。浮動小数点実行ユニット３０は、乗算および除算な
ど、浮動小数点で表されるオペランドに対する演算を実
行する。

【００１４】固定小数点実行ユニットＡ，Ｂおよび複素
固定小数点実行ユニット２６は、その演算の結果を第１
リネーム・バッファ３４内の指定されたエントリにリタ
ーンする。結果を生成した命令に先立つすべての命令が
そのＧＲＰファイル・エントリを更新した場合には、第
１リネーム・バッファ３４は、ＧＰＲファイル３２のエ
ントリを第１リネーム・バッファ３４からのエントリで
周期的に更新する。シーケンサ・ユニット１８は、この
更新を調整するためリオーダ・バッファ(reorder buffe
r)３９を維持する。リオーダ・バッファ３９は、プログ
ラム済み命令ストリームの一部を元の順番に格納するＦ
ＩＦＯキューである。シーケンサ・ユニット１８は、リ
オーダ・バッファ３９内の最古の命令が完了するまで待
つ。次に、シーケンサ・ユニット１８は、命令について
割り当てられたリネーム・バッファ・エントリに格納さ
れた結果でアーキテクチャ・レジスタを更新する。ま
た、シーケンス・ユニット１８は、それ以降の命令の余
地を設けるためリオーダ・バッファ３９における命令の
エントリを無効にする。第１リネーム・バッファ３４お
よびＧＰＲファイル３２の両方は、固定小数点実行ユニ
ットＡ，Ｂおよび複素固定小数点実行ユニット２６にオ
ペランドを供給できる。

【００１５】浮動小数点実行ユニット３０は、その演算
を第２リネーム・バッファ３８内の指定されたエントリ
にリターンする。結果を生成した命令に先立つすべての
命令がそのＦＰＲファイル・エントリを更新した場合
に、第２リネーム・バッファ３８は、ＦＰＲファイル３
６のエントリを第２リネーム・バッファ３８内のエント
リで周期的に更新する。また、シーケンサ・ユニット３
８はこの更新を調整する。第２リネーム・バッファ３８
およびＦＰＲファイル３６の両方は、オペランドを浮動
小数点実行ユニット３０に供給する。

【００１６】ロード／ストア・ユニット２８は、ＧＰＲ
ファイル３２またはＦＰＲファイル３６に格納されたデ
ータを完了時に読み出し、選択されたデータをデータ・
キャッシュ１６に書き込む。このデータは、本発明とは
関係ないデータ・プロセッサ１０の動作特性に応じて、
外部メモリ・システム（図示せず）にも書き込まれるこ
とがある。逆に、ロード／ストア・ユニット２８は、デ
ータ・キャッシュ１６に格納されたデータを読み出し、
この読み出したデータを第１リネーム・バッファ３４ま
たは第２リネーム・バッファ３８に書き込む。データ・
キャッシュ１６が必要なデータを格納していない場合、
データ・プロセッサ１０に対して外部のメイン・メモリ
・システムからＢＩＵ１２を介してこのデータをフェッ
チする。ロード／ストア・ユニット２８については図３
および図４を参照して以下で説明する。

【００１７】本発明を具備するデータ・プロセッサ１０
の動作について図２ないし図４を参照して以下で説明す
る。一般に、データ・プロセッサ１０は、縮小命令セッ
ト・コンピュータ（ＲＩＳＣ）である。データ・プロセ
ッサ１０は、各命令を小さいステップのシーケンスに分
割し、各ステップを他の命令のステップと時間的に重複
させることによって高性能を達成する。この性能方法
は、「パイプライン処理(pipelining)」という。

【００１８】図２は、図１に示すデータ・プロセッサ１
０によって実行される命令のタイミング図を示す。図示
の実施例では、各命令は５つの個別のステップ、すなわ
ちフェッチ(fetch) ，デコード(decode)，ディスパッチ
(dispatch)，実行（execute)および完了(completion)に
分割される。

【００１９】フェッチ段階では、命令キャッシュ１４内
のメモリ管理回路（図示せず）は、前のクロック・サイ
クルにおいてシーケンサ・ユニット１８またはブランチ
・ユニット２０によって識別されたメモリ・アドレスか
ら、１つまたはそれ以上の命令を取り出す。

【００２０】デコード段階では、命令は、その後の段階
によって利用される多数の制御信号にシーケンサ・ユニ
ット１８によってデコードされる。この段階中に、シー
ケンサ・ユニット１８は、ロード／ストア・マルチプル
命令が存在することを判定する。

【００２１】ディスパッチ段階では、シーケンサ・ユニ
ット１８は、許容不可データまたはリソース依存が無い
ことを判定した後、および命令の結果についてリネーム
・バッファ・エントリを確保した後、各命令を適切な実
行ユニットに転送する。また、ディスパッチ段階は、デ
ィスパッチされる命令についてオペランド情報を供給す
る責任があり、また１つまたはそれ以上のオペランドが
まだない場合には、オペランドが書き込まれるリネーム
・バッファ・エントリを識別するタグを供給する責任が
ある。各実行ユニットは、命令を実行するためにすべて
の必要なオペランド情報を受け取るまで、その特定の命
令をリザベーション・ステーション(reservation stati
on) に格納する。シーケンサ・ユニット１８は、１つの
ロード／ストア・マルチプル命令を一連の簡易ロード／
ストア命令に分割する。シーケンサ・ユニット１８は、
各簡易ロード命令についてリネーム・バッファ・エント
リを確保する。各簡易ロード命令は、最初にそのデータ
をこの指定された命令に書き込む。その後、シーケンサ
・ユニット１８は、このデータを対応するアーキテクチ
ャ・レジスタにコピーする。アーキテクチャ・レジスタ
の１つの内容を必要とするその後の命令は、データがバ
ッファされるリネーム・バッファ・エントリを指定する
タグを受け取る。この技法は、その後の命令のディスパ
ッチを高速化する。同様に、シーケンサ・ユニット１８
は、各１つの簡易ストア命令とともにリネーム・バッフ
ァ・タグを転送する。このタグは、ストア・データが最
初にどこで見つかるかを識別する。

【００２２】実行段階では、各特定の実行ユニットは、
必要なオペランド情報のすべて（または一部）を受け取
り、そのためそのプログラム済み命令の実行を開始でき
る。結果は、整数および浮動小数点結果のそれぞれにつ
いて、第１リネーム・バッファ３４または第２リネーム
・バッファ３８のいずれかにリターンされる。ロード／
ストア・ユニット２８は、ロード／ストア命令のオペラ
ンドおよびそのフォーマットに基づいて、デスティネー
ション・メモリ番地の有効アドレスを算出する。ロード
／ストア・ユニット２８は、命令をロードまたはストア
・キュー（図３）に移動することができる。また、デー
タ・キャッシュ１６は算出された有効アドレスを実アド
レスに変換開始する。データ・プロセッサ１０は、有効
アドレスを内部的に利用して各可能なメモリ番地をイン
デクスし、また実アドレスを外部的に利用して各可能な
メモリ番地をインデクスする。データ・プロセッサ１０
は、あるフォーマットから別のフォーマットに変換する
ためにアドレス変換テーブル（図示せず）を維持する。

【００２３】ストア命令は、１つまたはそれ以上の追加
実行段階を必要とすることがある。ストア命令がデータ
・キャッシュ１６を即時アクセスできない場合、ストア
命令は、以下で説明するようにストア・バッファにとど
まる。

【００２４】完了段階では、特定の命令に先立つ各命令
がアーキテクチャ・レジスタ・ファイルを更新した後、
シーケンサ・ユニット１８は、アーキテクチャ・レジス
タ・ファイルを、リネーム・バッファに格納された特定
の命令の結果で更新する。この条件が満たされたとき
は、命令はリオーダ・バッファ３９内の最古の命令であ
る。また、完了段階は、特定の命令に先立つ各命令がア
ーキテクチャ・ステートを更新した後に、マシーンにお
ける他のすべてのアーキテクチャ・ステートを更新す
る。ストア命令は、これらのストア命令に先立つすべて
の命令が完了したときにデータ・キャッシュ１６に与え
られる。

【００２５】一般に、各命令段階は、１マシーン・クロ
ック・サイクルを要する。ただし、複素固定小数点命令
などの一部の命令は、実行するために２つ以上のクロッ
ク・サイクルを必要とする。従って、前の命令が実行す
るために要した時間の範囲により、特定の命令の実行段
階と完了段階との間に遅延が生じることがある。

【００２６】図３は、図１に示すロード／ストア・ユニ
ット２８のブロック図を示す。ロード／ストア・ユニッ
ト２８は、各ロード／ストア命令に関するさまざまな情
報を格納するリザベーション・ステーション４０を有す
る。リザベーション・ステーション４０は、シーケンサ
・ユニット１８からのストア命令またはロード命令のい
ずれかと、２つのオペランドＡおよびＢと、リネーム・
タグとを受け取る。リネーム・タグは、ロード・データ
のリネーム・バッファの１つにおけるデスティネーショ
ンを識別する。マルチプレクサ（ＭＵＸ）４１は、２つ
の入力のうち１つをリザベーション・ステーションにオ
ペランドＡとして出力する。マルチプレクサ４３は、２
つの入力のうち１つをリザベーション・ステーション４
０にオペランドＢとして出力する。各マルチプレクサ４
１，４３は、ＧＰＲファイル３２と第１リネーム・バッ
ファ３４とに接続された結果バスから１つの入力を受け
取る。リザベーション・ステーション４０は、２つのオ
ペランドおよび命令を加算器４２およびラッチ４４にそ
れぞれ転送する。加算器４２は、２つのオペランドを数
学的に加算することにより、各ロード／ストア命令のソ
ース／デスティネーションの有効アドレスを算出する。
加算器４２の出力はラッチ４６によってラッチされ、デ
ータ・キャッシュ１６とマルチプレクサ４１の第２入力
とに転送される。ラッチ４４，４６は、グローバル周期
クロック信号（図示せず）によってクロックされる。マ
ルチプレクサ４３の第２入力は、１対４発生器(one-to-
four generator) ４５の出力を受け取る。１対４発生器
４５は、「ＣＯＮＴＲＯＬ」と記されたシーケンサ・ユ
ニット１８からの制御情報を受け取り、この情報を利用
して、どの入力をマルチプレクサ４１，４２がリザベー
ション・ステーション４０に出力するかを選択する。

【００２７】ラッチ４４，４６によってラッチされる命
令および有効アドレスは、ストア・キュー４８とロード
・キュー５０とに転送される。制御論理ユニット５２
は、命令のクラスに応じて２つのキューのうちどれがデ
ータをラッチするかを選択する。制御論理ユニット５２
は、この転送を簡単にするためリザベーション・ステー
ション４０から命令オプコードを受け取る。また、制御
論理ユニット５２は、データ・キャッシュ１６およびシ
ーケンサ・ユニット１８からさまざまな制御信号を受け
取る。制御論理ユニット５２は、３つの入力のうちどの
入力をマルチプレクサ５４がデータ・キャッシュ１６に
出力するのかを制御する。マルチプレクサ５４は、ラッ
チ４６，ストア・キュー４８およびロード・キュー５０
からアドレスを受け取る。制御論理ユニット５２の動作
について以下で説明する。

【００２８】ロードおよびストア動作に関するデータ・
プロセッサ１０の動作について、２つの部分で説明す
る。これら２つの部分は、一般に、データ・プロセッサ
１０におけるロードまたはストア命令の流れに従う。ま
ず、一連の簡易ロード／ストア命令にロード／ストア・
マルチプル命令を「アンロール(unrolling) 」すること
について説明する。次に、ロード・キュー５０またはス
トア・キュー４８に各簡易ロード／ストア命令をバッフ
ァすることについて説明する。

【００２９】ロード／ストア・マルチプル命令のアンロ
ールデータ・プロセッサ１０は、パワーＰＣアーキテクチャ
を構成したものである。パワーＰＣアーキテクチャ命令
セットは、ロード命令およびストア命令の両方について
３種類の複素形式、すなわち（１）マルチプル・ワード
(multiple word) ，（２）ストリング・ワード・イミデ
ィエイト(string word immediate) および（３）ストリ
ング・ワード・インデクスト(string word indexed) を
定義する。

【００３０】ロード・マルチプル・ワード「ｌｍｗ
ＲＴ．Ｄ（ＲＡ）」ロード・マルチプル・ワード命令は、Ｎ個の連続したワ
ード（１ワードあたり３２ビット）の内容をＧＰＲファ
イル３２のＮ個の連続したレジスタにロードし、ここで
Ｎは（３２−ＲＴ）に等しい整数である。慣例により、
ＧＰＲファイル３２の３２個のレジスタは、０から３１
まで番号がつけられる。ＧＰＲファイル３２の各レジス
タは、４バイトまたは１ワード幅である。ロード・マル
チプル命令によって読み出されるデータは、レジスタＲ
Ａ（オペランドＡ）とフィールドＤ（オペランドＢ）と
の和によって指定されるメモリ・アドレスから開始す
る。このデータは、ＲＴによって指定されるレジスタか
ら開始する一連のレジスタにロードされる。

【００３１】シーケンサ・ユニット１８は、ロード・マ
ルチプル・ワード命令をデコードし、（３２−ＲＴ）個
のシングル・ロード命令をロード／ストア・ユニット２
８にディスパッチする。シーケンサ・ユニット１８は、
各以降のロード命令についてロード・データのデスティ
ネーション・レジスタ番号（ＲＴ）を１だけインクリメ
ントする。このデスティネーションは、適切なアーキテ
クチャ・レジスタに対するデータのその後の転送を簡単
にするためにリネーム・バッファ３４に格納される。シ
ーケンサ・ユニット１８は、（３２−ＲＴ）個の命令の
各１つに異なるリネーム・バッファ・エントリおよび異
なるリオーダ・バッファ・エントリを割り当てる。

【００３２】シーケンサ・ユニット１８は、１対４発生
器４５に対する制御信号をアサートし、特定のディスパ
ッチされた命令がロード・マルチプル・ワード命令であ
ることを表す。まず最初に、１対４発生器４５は、マル
チプレクサ４１，４３に結果バスに結合された入力を出
力させる。各以降の（３１−Ｎ）個の命令において、１
対４発生器４５はマルチプレクサ４１，４３に、加算器
４２と１対４発生器４５とに結合された入力を出力させ
る。また、１対４発生器４５は、番号４をマルチプレク
サ４５に出力する。機能的には、以前の有効アドレスに
加算された番号４の出力は、ロード／ストア・ユニット
２８に、データ・キャッシュ１６または外部メモリ・シ
ステムから次の整合ワード(aligned word)を要求させ
る。

【００３３】制御論理ユニット５２は、シーケンサ・ユ
ニット１８によって指定される異なるリネーム・バッフ
ァ・エントリに各ロード命令をライトバックする。この
技法により、以降の命令は、ロード命令のアーキテクチ
ャ・レジスタの更新、すなわち「データ転送(data forw
arding) 」前に、その計算についてデータにアクセスで
きる。各ロード命令は、ディスパッチされるとすぐに、
「推論的(speculatively) 」にデータ・キャッシュ１６
へのアクセスが許される。必要ならば、各ロード命令
は、そのリオーダ・バッファ３９のエントリが最古のエ
ントリの場合に、「非推論的(non-speculatively) 」に
外部メモリシステムへのアクセスが許される。

【００３４】ストア・マルチプル・ワード「ｓｔｍｗ
ＲＳ．Ｄ（ＲＡ）」ストア・マルチプル・ワード命令は、ＧＰＲファイル３
２のＮ個の連続したレジスタの内容をＮ個の連続したメ
モリ・ワードの内容にストアし、ここでＮは（３２−Ｒ
Ｓ）に等しい整数である。ストア・マルチプル命令は、
レジスタＲＡ（オペランドＡ）とフィールドＤ（オペラ
ンドＢ）との和によって指定されるメモリ・アドレスか
ら開始する。データは、ＲＳによって指定されるレジス
タから開始する一連のレジスタにロードされる。

【００３５】シーケンサ・ユニット１８は、ストア・マ
ルチプル・ワード命令をデコードし、（３２ーＲＳ）個
のシングル・ストア命令をロード／ストア・ユニット２
８にディスパッチする。シーケンサ・ユニット１８は、
各以降のストア命令についてストア・データのソース・
レジスタ番号（ＲＳ）を１だけインクリメントする。ス
トア命令がデータ・プロセッサ１０における最古の命令
のとき、シーケンサ・ユニット１８は、これらのレジス
タからのデータ（まず、ＲＳ）をロード／ストア・ユニ
ット２８に供給する。（以下の説明を参照。）シーケンサ・ユニット１８は、１対４発生器４５に対す
る制御信号をアサートし、特定のディスパッチされた命
令がストア・マルチプル・ワード命令であることを表
す。まず最初に、１対４発生器４５は、マルチプレクサ
４１，４３に結果バスに結合された入力を出力させる。
各以降の（３１−Ｎ）個のストア命令において、１対４
発生器４５は、マルチプレクサ４１，４３に加算器４２
と１対４発生器４５とに結合された入力を出力させる。
また１対４発生器４５は、番号４をマルチプレクサ４５
に出力する。機能的には、以前の有効アドレスに加算さ
れた番号４の出力は、ロード／ストア・ユニット２８
に、データ・キャッシュ１６または外部メモリ・システ
ムにおいて次のワードをインデクスさせる。

【００３６】各ストア命令は、そのリオーダ・バッファ
３９のエントリが最古のエントリの場合にのみ、データ
・キャッシュ１６および外部メモリ・システムに対する
アクセスが許される。

【００３７】ロード・ストリング・ワード・イミディエ
イト「ｌｓｗｉＲＴ．ＲＡ．ＮＢ」ロード・ストリング・ワード・イミディエイト命令は、
連続したＮＢメモリ・バイトの内容をＧＰＲファイル３
２の（ＮＢ／４，次の整数に丸められる）個の連続した
レジスタにロードする。ロード・ストリング・ワード・
イミディエイト命令は、レジスタＲＡの内容によって指
定されるメモリ・バイト・アドレスから、およびＲＴに
よって指定されるレジスタから開始する。この命令に
は、「Ｂ有効アドレス・オペランド」はない。

【００３８】シーケンサ・ユニット１８は、ロード・ス
トリング・ワード・イミディエイト命令をデコードし、
（ＮＢ／４，次の整数に丸められる）個のシングル・ロ
ード命令をロード／ストア・ユニット２８にディスパッ
チする。シーケンサ・ユニット１８は、各以降のロード
命令についてロード・データのデスティネーション・レ
ジスタを１だけインクリメントする。デスティネーショ
ン・レジスタは、ＮＢおよびＲＴの値に応じて、レジス
タ３２からレジスタ０に「ラップアラウンド(wrap arou
nd) 」することがある。それ以外では、シーケンサ・ユ
ニット１８の動作は、ロード・マルチプル・ワード命令
における動作と同様である。

【００３９】シーケンサ・ユニット１８は、１対４発生
器４５に対する制御信号をアサートし、特定のディスパ
ッチされた命令がロード・ストリング・ワード・イミデ
ィエイト命令であることを表す。まず最初に、１対４発
生器４５は、マルチプレクサ４１，４３に結果バスに結
合された入力を出力させる。各ロード・ストリング・ワ
ード・イミディエイト命令は、整合(aligned) または非
整合(mis-aligned) のいずれかである。整合ロード・ス
トリング・ワード・イミディエイト命令における第１バ
イトの２最下位ビットはゼロである。非整合ロード・ス
トリング・ワード・イミディエイト命令における第１バ
イトの２最下位ビットは、ともにゼロでない。ロード／
ストア・ユニット２８は、整合および非整合ロード・ス
トリング・ワード・イミディエイト命令について機能が
異なる。

【００４０】整合ロード・ストリング・ワード・イミデ
ィエイト命令では、制御論理ユニット５２は、データ・
キャッシュ１６に対して（ＮＢ／４，次の整数に丸めら
れる）回のアクセスを行う。この動作は、上記のロード
・マルチプル・ワード命令と同様である。

【００４１】非整合ロード・ストリング・ワード・イミ
ディエイト命令では、ロード／ストア・ユニット２８
は、データ・キャッシュ１６に対して（ＮＢ／４＋１，
次の整数に丸められる）回のアクセスを行う。この技法
により、各モディファイされたレジスタについてリネー
ム・バッファ３４に対する１つのライトバック動作が保
証される。それ以外では、３つのアーキテクチャ・レジ
スタを更新するために、２つのキャッシュ・アクセスが
必要とされる。まず最初に、制御論理ユニット５２は、
ロード・ストリング・ワード・イミディエイト命令が非
整合であることを判定する。１対４発生器４５は、マル
チプレクサ４１，４３に結果バスに結合された入力を出
力させる。各以降のロード命令について、１対４発生器
４５は、マルチプレクサ４１，４３に、加算器４２と１
対４発生器４５に結合された入力を出力させる。第２ロ
ード命令中に、１対４発生器４５は、番号１〜４のうち
１つをマルチプレクサ４５に出力し、このマルチプレク
サ４５は、ＲＡによって指定されるバイトの直後の整合
ワードをインデクスする。ロード／ストア・ユニット２
８は、２つのロード命令を完了した後に、第１レジスタ
の新規データをリネーム・バッファ３４の適切なエント
リに書き込むことができる。図示しない回路は、４つの
連続したバイトがリネーム・バッファ３４のシングル・
エントリにロードされるまで、非整合データをバッファ
する。それ以降、１対４発生器は、番号４を出力する。
ロード／ストア・ユニット２８は、各以降のロード命令
の後に、各以降のレジスタの新規データをリネーム・バ
ッファ３４の適切なエントリに書き込むことができる。
最後に、最後の２つのロード命令は、制御論理ユニット
５２によってモディファイされる。最後から２番目のロ
ード命令は、１バイトのみを要求する。最後のロード命
令は、ロード・ストリング・ワード・イミディエイト命
令を完了するために必要な残りのバイト（３バイトま
で）を要求する。それ以外では、シーケンサ・ユニット
１８の動作は、ロード・マルチプル・ワード命令におけ
る動作と同様である。

【００４２】ストア・ストリング・ワード・イミディエ
イト「ｓｔｓｗｉＲＳ．ＲＡ．ｎＢ」ストア・ストリング・ワード・イミディエイト命令は、
ＧＰＲファイル３２の（ＮＢ／４，次の整数の丸められ
る）個の連続したレジスタの内容を連続したＮＢメモリ
・バイトの内容にストアする。ストア・ストリング・ワ
ード・イミディエイト命令は、レジスタＲＡの内容によ
って指定されるメモリ・アドレスから、およびＲＳによ
って指定されるレジスタから開始する。この命令には
「Ｂ有効アドレス・オペランド」はない。

【００４３】シーケンサ・ユニット１８は、ストア・ス
トリング・ワード・イミディエイト命令をデコードし、
（ＮＢ／４，次の整数に丸められる）個のシングル・ス
トア命令をロード／ストア・ユニット２８にディスパッ
チする。シーケンサ・ユニット１８は、各以降のストア
命令についてストア・データのソース・レジスタを１だ
けインクリメントする。シーケンサ・ユニット１８は、
ストア命令がデータ・プロセッサ１０における最古の命
令である場合に、これらのレジスタからのデータ（最初
にＲＳ）をロード／ストア・ユニット２８に供給する。
（以下の説明を参照。）それ以外では、シーケンサ・ユ
ニット１８の動作は、ストア・マルチプル・ワード命令
における動作と同様である。

【００４４】シーケンサ・ユニット１８は、１対４発生
器４５に対する制御信号をアサートし、特定のディスパ
ッチされた命令がストア・ストリング・ワード・イミデ
ィエイト命令であることを表す。各ストア・ストリング
・ワード・イミディエイト命令は、整合または非整合の
いずれかである。整合ストア・ストリング・ワード・イ
ミディエイト命令における第１バイトの２最下位ビット
はゼロである。非整合ストア・ストリング・ワード・イ
ミディエイト命令における第１バイトの２最下位ビット
はともにゼロでない。ロード／ストア・ユニット２８
は、整合および非整合ストア・ストリング・ワード・イ
ミディエイト命令について機能が異なる。整合ストア・
ストリング・ワード・イミディエイト命令では、ロード
／ストア・ユニット２８は、データ・キャッシュ１６に
対して（ＮＢ／４，次の整数に丸められる）回のアクセ
スを行う。この動作は、上記のストア・マルチプル・ワ
ード命令と同様である。

【００４５】非整合ストア・ストリング・ワード・イミ
ディエイト命令では、ロード／ストア・ユニット２８
は、データ・キャッシュ１６に対して（２＊ＮＢ／４＋
１，次の整数に丸められる）回のアクセスを行う。ロー
ド／ストア・ユニット２８は、これにディスパッチされ
た最後のストア命令以外のすべてについてデータ・キャ
ッシュ１６に対して一対のアクセスを生成し、また最後
のストア命令について単一アクセスを生成する。まず最
初に、１対４発生器４５は、マルチプレクサ４１，４３
に結果バスに結合された入力を出力させる。ロード／ス
トア・ユニット２８は、命令によってプログラムされる
バイトのみをデータ・キャッシュ１６に書き込む。制御
論理ユニット５２は、ワード整合アクセスを完了するた
め同じストア命令を繰り返す。１対４発生器４５は、第
２命令のアドレスを次の整合ワードにインクリメントす
る。ここで、ロード／ストア・ユニット２８は、データ
・キャッシュ１６に対する以前のアクセスと併せて４と
なるために必要なバイト数のみを書き込む。１対４発生
器および制御論理ユニット５２は、最後の命令まで各非
整合ワード・アクセスを２分するプロセスを継続する。
このとき、制御論理ユニット５２はデータ・キャッシュ
１６に対して１回アクセスするだけでよい。

【００４６】ロード・ストリング・ワード・インデクス
ト「ｌｓｗｘＲＴ．ＲＡ．ＲＢ」ロード・ストリング・ワード・インデクスト命令は、連
続したＭメモリ・バイトの内容をＧＰＲファイル３２の
（Ｍ／４，次の整数に丸められる）個の連続したレジス
タにロードする。Ｍは、専用レジスタ（図示せず）にお
けるフィールドである。ロード・ストリング・インデク
スト命令は、レジスタＲＡおよびレジスタＲＢの内容の
和によって指定されるメモリ・バイト・アドレスから、
およびＲＴによって指定されるレジスタから開始する。
それ以外では、ロード・ストリング・ワード・インデク
スト命令は、ロード・ストリング・イミディエイト命令
と同様である。

【００４７】ストア・ストリング・ワード・インデクス
ト「ｓｔｓｗｘＲＳ．ＲＡ．ＲＢ」ストア・ストリング・ワード・インデクスト命令は、Ｇ
ＰＲファイル３２の（Ｍ／４，次の整数に丸められる）
個の連続したレジスタの内容を連続したＭメモリ・バイ
トの内容にストアする。Ｍは、専用レジスタにおけるフ
ィールドである。ストア・ストリング・ワード・インデ
クスト命令は、レジスタＲＡおよびレジスタＲＢの内容
の和によって指定されるメモリ・アドレスから、および
ＲＳによって指定されるレジスタから開始する。それ以
外では、ストア・ストリング・ワード・インデクスト命
令は、ストア・ストリング・イミディエイト命令と同様
である。

【００４８】簡易ロード／ストア命令のバッファリングシーケンサ・ユニット１８は、命令のディスパッチ段階
中にロードまたはストア命令をロード／ストア・ユニッ
ト２８に転送する。リザベーション・ステーション４０
は、命令と、（ａ）別の実行ユニットが完了した場合
に、オペランドＡまたはオペランドＡのリネーム・バッ
ファ３４またはリネーム・バッファ３８内のデスティネ
ーションを識別するタグのいずれか，および（ｂ）別の
実行ユニットが完了した場合に、オペランドＢまたはオ
ペランドＢのリネーム・バッファ３４またはリネーム・
バッファ３８内のデスティネーションを識別するタグの
いずれかのうち各１つとをラッチする。リザベーション
・ステーション４０は、両方のオペランドが利用可能に
なるまで待つ。

【００４９】ロード／ストア命令の実行フェーズは、両
方のオペランドが利用可能になると開始する。加算器４
２は、ソース／デスティネーションの有効アドレスを算
出する。ラッチ４４，４６は、命令およびこの命令のア
ドレスをラッチし、リザベーション・ステーション４０
が別の命令を受け取るのを可能にする。

【００５０】シーケンサ・ユニット１８は、ロード命令
またはストア命令に先立つすべての命令を完了したとき
に、制御論理ユニット５２に対する制御信号をアサート
する。このアクションは、データ・キャッシュ１６，ス
トア・キュー４８およびロード・キュー５０の内容に応
じて、命令を即時完了させても、させなくてもよい。命
令は、例外を生成できなくなると完了する。このスケジ
ューリング技法は、ある以前の命令により例外が発生す
る場合に、ロードまたはストア命令を「アンドゥ（ｕｎ
ｄｏ）」しなければならない可能性を省く。また、シー
ケンサ・ユニット１８は、命令がストア命令である場合
には、このとき命令によって格納すべきデータをストア
・キュー４８に供給する。

【００５１】データ・プロセッサ１０の他の部分は、ロ
ード／ストア命令に関する機能を行う。データ・キャッ
シュ１６は、加算器４２によって生成された有効アドレ
スを実アドレスに変換し、このアドレスがロードまたは
ストア命令に関するデータを含んでいるかどうか調べ
る。データ・キャッシュ１６が有効アドレスを変換でき
る場合、データ・キャッシュ１６は実アドレスをロード
／ストア・ユニット２８にリターンする。データ・キャ
ッシュ１６が有効アドレスを変換できない場合、データ
・キャッシュ１６はメモリ・システムにおける専用アド
レス変換テーブル（図示せず）にアクセスする。以降、
データ・キャッシュ１６は、このアクセスが完了する
と、割り込み信号を生成し、変換を供給できる。次に、
制御論理ユニット５２は、未変換ロードまたはストア命
令に関連するエントリに変換済みアドレスをストアす
る。同時に、データ・キャッシュ１６は、実アドレスに
よってインデクスされたデータを格納しているかどうか
を調べる。データ・キャッシュ１６がロード命令によっ
て要求されるデータを格納している場合、データ・キャ
ッシュ１６は次のクロック・サイクル中にこのデータを
ロード／ストア・ユニット２８にリターンする。ストア
命令がデータ・プロセッサ１０における最古の命令であ
ることをシーケンサ・ユニット１８が示すまで、データ
・キャッシュ１６はそのメモリをモディファイしない。
データ・キャッシュ１６が実アドレスによってインデク
スされたデータを格納していない場合、データ・キャッ
シュ１６は、データを要求する命令がデータ・プロセッ
サ１０における最古の命令であることを制御論理ユニッ
ト５２が示した後に、ＢＩＵ１２を介してメモリ・シス
テムからそのデータを要求する。

【００５２】制御論理ユニット５２は、ストア・キュー
４８およびロード・キュー５０からマルチプレクサ５４
を介してデータ・キャッシュ１６にセレクト命令を転送
する。両方のキューは、先入れ先出し（ＦＩＦＯ）キュ
ーである。制御論理ユニット５２は、各キューにおける
どのエントリが次の命令を受けるべきか、またどのエン
トリがデータ・キャッシュ１６に提示されるのかを識別
するためさまざまなポインタを維持する。前述のよう
に、制御論理ユニット５２は、ロード命令およびストア
命令の両方が同時に適格（ｅｌｉｇｉｂｌｅ）である場
合に、ロード命令アドレスをデータ・キャッシュ１６に
提示する。（１）命令が提示すべき次の命令である場
合，（２）データ・キャッシュ１６が前のクロックサイ
クルで命令のアドレスを変換できた場合，および（３）
データ・キャッシュ１６がインデクス済みデータを有す
ると判定した場合に、特定の条件下でストア・キュー４
８が命令をラッチする次のクロック・サイクルになると
すぐに、制御論理ユニット５２はストア命令をデータ・
キャッシュ１６に「提示（ｐｒｅｓｅｎｔ）」できる
（あるいはメモリ・システムを命令データで更新でき
る）。それ以外の場合には、制御論理ユニット５２は、
少なくとも１追加クロック・サイクルだけデータ・キャ
ッシュ１６に対するストア命令の提示を遅延する。両方
の場合で、制御論理ユニット５２は、ストア・キュー４
８における次の利用可能なエントリに命令をバッファす
る。制御論理ユニット５２は、加算器４２が命令の有効
アドレスを算出するとすぐに、ロード命令をデータ・キ
ャッシュ１６に提示する。データ・キャッシュ１６が命
令のアドレスを変換でき、かつデータ・キャッシュ１６
がインデクス済みデータを格納している場合、ロード命
令は完全実行されたとみなされる。それ以外の場合に
は、制御論理ユニット５２は、ロード・キュー５０にお
ける次の利用可能なエントリにロード命令をバッファす
る。

【００５３】さらに図３において、制御論理ユニット５
２は、ストア命令をストア・キュー４８にバッファす
る。ストア・キュー４８は、６エントリのスタティック
・ランダム・アクセス・メモリ（ＳＲＡＭ）構造であ
る。６つのエントリのそれぞれは１３８ビットを含み、
７２ビットはストア命令のオプコードおよびデータ属性
の一部を格納し、６７ビットは、ストア命令の実アドレ
スを格納し、１有効ビットは有効実アドレス・フィール
ドを示す。制御論理ユニット５２は、ストア・キュー４
８について４つのポインタ、すなわちＯＬＤＥＳＴＭ
ＩＳＳポインタ，ＮＥＸＴＡＣＣＥＳＳポインタ，Ｃ
ＯＭＰＬＥＴＥポインタおよびＤＩＳＰＡＴＣＨポイン
タを維持する。以下の説明から明らかになるように、Ｏ
ＬＤＥＳＴＭＩＳＳポインタは常にＮＥＸＴＡＣＣＥ
ＳＳポインタより以降か等しく、ＮＥＸＴＡＣＣＥＳ
Ｓポインタは常にＣＯＭＰＬＥＴＥポインタより以降か
等しく、ＣＯＭＰＬＥＴＥポインタは常にＤＩＳＰＡＴ
ＣＨポインタより以降か等しい。最初に、すべての４つ
のポインタは、ストア・キュー４８における同じエント
リを示す。

【００５４】制御論理ユニット５２は、ＤＩＳＰＡＴＣ
Ｈポインタによってインデクスされるエントリに各新規
ストア命令をバッファする。制御論理ユニット５２は、
データ・キャッシュ１６が与えると、命令の変換済みア
ドレスを同じエントリの実アドレス・フィールドにスト
アする。また、制御論理ユニット５２は、実アドレスを
受け取ると、ＤＩＳＰＡＴＣＨポインタを１だけインク
リメントまたは進める。

【００５５】前述のように、シーケンサ・ユニット１８
は制御信号をアサートし、ストア・データを供給して、
ロード／ストア・ユニット２８がストア命令を完了でき
ることを示す。制御論理ユニット５２は、ＣＯＭＰＬＥ
ＴＥポインタによって指定されるエントリのデータ・フ
ィールドにストア・データをバッファする。また、制御
論理ユニット５２は、ストア・データを受け取ると、Ｃ
ＯＭＰＬＥＴＥポインタを１だけインクリメントする。

【００５６】制御論理ユニット５２は、優先順位の高い
ロード命令がない場合には、ＮＥＸＴＡＣＣＥＳＳポ
インタによってインデクスされる命令の実アドレスおよ
びストア・データをデータ・キャッシュ１６に転送す
る。制御論理ユニット５２は、ＮＥＸＴＡＣＣＥＳＳ
ポインタを１だけインクリメントする。アクセスに成功
すると、データ・キャッシュ１６は適切なメモリ番地の
内容をモディファイし、制御論理ユニット５２は、エン
トリの有効ビットを無効にする。アクセスに成功しなけ
れば、ロード／ストア・ユニット２８は、データ・キャ
ッシュ１６およびＢＩＵ１２が外部メモリ・システムか
らデータを取り出すのを待たなければならない。データ
・キャッシュ１６は、外部メモリ・システムから有効デ
ータを受け取ると、制御信号をアサートする。次に、制
御論理ユニット５２は、ＯＬＤＥＳＴＭＩＳＳによっ
てインデクスされるアドレスをデータ・キャッシュ１６
に提示する。なお、制御論理ユニット５２は、ミス（ｍ
ｉｓｓ）後にも、ＮＥＸＴＡＣＣＥＳＳポインタによっ
てインデクスされるストア命令をデータ・キャッシュ１
６に提示し続けることが理解される。これらの以降の提
示は、データ・キャッシュに１６において「ヒット（ｈ
ｉｔ）」してもしなくてもよい。

【００５７】最後に、制御論理ユニット５２は、ＯＬＤ
ＥＳＴＭＩＳＳポインタを次の有効エントリに、ある
いはカレント・エントリによってインデクスされるエン
トリが無効になった場合に他の有効エントリがないと、
ＤＩＳＰＡＴＣＨＰＯＩＮＴＥＲにインクリメントす
る。

【００５８】制御論理ユニット５２は、ロード命令をロ
ード・キュー５０にバッファする。ロード・キュー５０
は、４エントリのＳＲＡＭ構造である。４つのエントリ
のそれぞれは６５ビットを格納し、３２ビットはロード
命令のオプコードおよびデータ属性の一部を格納し、３
２ビットはロード命令の実アドレスを格納し、１有効ビ
ットは有効実アドレス・フィールドを表す。制御論理ユ
ニット５２は、ロード・キュー５０について２つのポイ
ンタ、すなわちＨＥＡＤポインタおよびＴＡＩＬポイン
タを維持する。以下の説明から明らかになるように、Ｈ
ＥＡＤポインタは常にＴＡＩＬポインタより以降か等し
い。最初に、両方のポインタはロード・キュー５０にお
ける同じエントリを示す。

【００５９】ロード／ストア・ユニット２８は、加算器
４２がロード命令の有効アドレスを生成した後に、各ロ
ード命令をデータ・キャッシュ１６に直接転送する。こ
のスケジューリングは、ストア命令に対するロード命令
の優先順位を反映する。データ・キャッシュ１６が有効
アドレスを実アドレスに変換でき、かつデータ・キャッ
シュ１６が要求されたデータを格納している場合、デー
タ・キャッシュ１６はデータをリネーム・バッファ３４
または３８に転送する。データ・キャッシュ１６がアド
レスを変換できない場合、ロード命令は、データ・キャ
ッシュ１６がアドレスをこのように変換できるまで、ラ
ッチ４４，４６で待つ。データ・キャッシュ１６がデー
タを格納していない場合、制御論理ユニット５２は、Ｔ
ＡＩＬポインタによってインデクスされるエントリにロ
ード命令をストアする。図示の実施例では、ロード命令
に先立つすべての命令がその結果をデータ・プロセッサ
１０の各アーキテクチャ・レジスタにライトバックした
ことをシーケンサ・ユニットが指示するまで、データ・
キャッシュ１６は外部メモリ・システムからロード命令
を要求しない。この技法は、外部メモリ・システムに対
する推論的データ・ロード・オペレーションを防ぐ。制
御論理ユニット５２は、実アドレスを受け取ると、ＴＡ
ＩＬポインタを１だけインクリメントする。また、制御
論理ユニット５２は、エントリの有効ビットをセット
し、有効実アドレス・フィールドを示す。

【００６０】前述のように、シーケンサ・ユニット１８
は制御信号をアサートし、ロード／ストア・ユニット２
８がロード命令を完了できることを示す。制御論ユニッ
ト５２は、ＨＥＡＤポインタによってインデクスされる
ロード命令の実アドレスをデータ・キャッシュ１６に転
送する。データ・キャッシュ１６が要求されたデータを
供給できる場合、データ・キャッシュ１６はロード／ス
トア・ユニット２８を介してデータを結果バスに転送
し、制御論理ユニット５２はＨＥＡＤポインタを１だけ
インクリメントし、制御論理ユニット５２は命令の有効
ビットをクリアする。データ・キャッシュ１６が要求さ
れたデータを供給できない場合、ロード／ストア・ユニ
ット２８は、データ・キャッシュ１６およびＢＩＵ１２
が外部メモリ・システムからデータを取り出すのを待た
なければならない。データ・キャッシュ１６は、ロード
／ストア・ユニット２８を介して受信データを適切な結
果バスに直接転送し、制御論理ユニットに対する制御信
号をアサートする。次に、制御論理ユニット５２は、Ｈ
ＥＡＤポインタをインクリメントする。

【００６１】図４は、図３に示すストア・キュー４８の
各エントリがある、可能な状態を示す状態遷移図を示
す。ストア・キュー４８における６つのエントリのそれ
ぞれは、５つの図示の状態、すなわちＩＮＶＡＬＩＤ，
ＦＩＮＩＳＨＥＤ，ＣＯＭＰＬＥＴＥＤ，ＡＴＴＥＭＰ
ＴＥＤまたはＨＩＴ−ＵＮＤＥＲ−ＭＩＳＳのうち１つ
のみにある。４つのストア・ポインタ、すなわちＯＬＤ
ＥＳＴＭＩＳＳ，ＮＥＸＴＡＣＣＥＳＳ，ＣＯＭＰ
ＬＥＴＥ，ＤＩＳＰＡＴＣＨの特定の値，各エントリの
有効ビットおよびデータ・プロセッサ１０のオペレーシ
ョンは、エントリの状態を決定する。

【００６２】ストア・キュー４８における６つのエント
リのそれぞれは、最初にＩＮＶＡＬＩＤ状態である。Ｏ
ＬＤＥＳＴＭＩＳＳポインタからＤＩＳＰＡＴＣＨポ
インタまでの間の各エントリは、ＩＮＶＡＬＩＤ状態で
ある。最後に、シーケンサ・ユニット１８は、十分なス
トア命令をロード／ストア・ユニット２８にディスパッ
チし、ＤＩＳＰＡＴＣＨポインタに特定のエントリをイ
ンデクスさせる。次に、制御論理ユニット５２は、ロー
ド／ストア・ユニット１８にディスパッチされる次のス
トア命令をエントリにバッファする。データ・キャッシ
ュ１６は、特定のエントリの有効アドレスを実アドレス
に変換し、このアドレスをロード／ストア・ユニット２
８に転送する。制御論理ユニット５２は、変換済みアド
レスの受信時に特定のエントリの有効ビットをセットす
る。この特定のエントリの状態は、ＩＮＶＡＬＩＤ状態
からＦＩＮＩＳＨＥＤ状態に遷移する。この特定のエン
トリは、エントリにストアされたストア命令がデータ・
プロセッサ１０における最古の命令であることをシーケ
ンサ・ユニット１８が示すまで、この状態に維持され
る。ＤＩＳＰＡＴＣＨポインタからＣＯＭＰＬＥＴＥポ
インタまでの間の各エントリは、ＦＩＮＩＳＨＥＤ状態
である。

【００６３】最後に、シーケンサ・ユニット１８は、Ｃ
ＯＭＰＬＥＴＥポインタによって指示されるエントリに
ストアされたストア命令がデータ・プロセッサ１０にお
ける最古の命令であることを制御論理ユニットに指示す
る。この時点で、プログラム順序においてストア命令に
先立つ各命令は、適切なアーキテクチャ・レジスタを更
新し、また更新が必要ない場合には、そのオペレーショ
ンにおけるある点に達し、この点以降で例外を生成でき
ない。このとき、ストア命令を「アンドゥ」する必要の
危険なしに、外部メモリ・システムにデータを安全に書
き込むことができる。この特定のエントリの状態は、Ｆ
ＩＮＩＳＨＥＤ状態からＣＯＭＰＬＥＴＥＤ状態に遷移
する。ＣＯＭＰＬＥＴＥポインタからＮＥＸＴＡＣＣ
ＥＳＳポインタまでの間の各エントリは、ＣＯＭＰＬＥ
ＴＥＤ状態である。

【００６４】ＮＥＸＴＡＣＣＥＳＳポインタがストア
・アドレス・データ・ペアを格納するエントリをインデ
クスし、かつより高い優先順位のオペレーションがない
場合に、制御論理ユニット５２はストア・アドレス・デ
ータ・ペアをデータ・キャッシュ１６に提示する。この
時点で、特定のエントリは、ＡＴＴＥＭＰＴＥＤ状態に
遷移する。このエントリの状態は、データ・キャッシュ
１６が制御信号ＲＥＴＲＹをアサートする場合に、ＣＯ
ＭＰＬＥＴＥＤ状態にリターンすることがある。例え
ば、データ・キャッシュ１６がＢＩＵ１２からデータを
受け取ったり、データ・キャッシュ１６が専用アドレス
変換テーブルにアクセスするためなど、データ・キャッ
シュ１６がストア命令を処理できない場合に、データ・
キャッシュ１６は制御信号ＲＥＴＲＹをアサートする。
ＮＥＸＴＡＣＣＥＳＳポインタからＯＬＤＥＳＴＭ
ＩＳＳポインタまでの間で、有効ビットがセットされた
各エントリは、ＡＴＴＥＭＰＴＥＤ状態である。

【００６５】制御論理ユニット５２がストア・アドレス
・データ・ペアをデータ・キャッシュ１６に提示した後
に、２つの可能な結果がある。データ・キャッシュ１６
は、データを格納している、すなわち「ヒット」か、あ
るいはデータを格納していない、すなわち「ミス」であ
る。

【００６６】データ・キャッシュ・ヒットの場合、エン
トリはＨＩＴ−ＵＮＤＥＲ−ＭＩＳＳ状態またはＩＮＶ
ＡＬＩＤ状態のいずれかに遷移する。ＯＬＤＥＳＴＭ
ＩＳＳポインタが最古の有効ストア命令として識別しな
い場合には、エントリはＨＩＴ−ＵＮＤＥＲ−ＭＩＳＳ
状態に遷移する。逆に、ＯＬＤＥＳＴＭＩＳＳが最古
の有効ストア命令として識別すると、エントリはＩＮＶ
ＡＬＩＤ状態に遷移する。両方の場合において、制御論
理ユニット５２はエントリの有効ビットをクリアする。
ＣＯＭＰＬＥＴＥポインタからＯＬＤＥＳＴＭＩＳＳ
ポインタまでの間で、有効ビットがクリアされた各エン
トリは、ＨＩＴ−ＵＮＤＥＲ−ＭＩＳＳ状態である。

【００６７】データ・キャッシュ・ミスの場合、提示さ
れたストア・アドレス・データ・ペアを格納する特定の
エントリは、ＡＴＴＥＭＰＴＥＤ状態のままである。

【００６８】特定のエントリは、ＯＬＤＥＳＴＭＩＳ
Ｓポインタが最古の有効ストア命令として識別しない限
り、ＨＩＴ−ＵＮＤＥＲ−ＭＩＳＳ状態のままである。
エントリは、ＯＬＤＥＳＴＭＩＳＳポインタが最古の
有効ストア命令として識別すると、ＩＮＶＡＬＩＤ状態
に遷移する。

【００６９】特定の実施例を参照して本発明について説
明してきたが、更なる修正や改善は当業者に想起され
る。例えば、本発明は、ＣＩＳＣマシーンとして従来分
類されるデータ・プロセッサに組み込むことができる。
また、特定の実施例で特定の機能ユニットを省略でき、
あるいはデータ・プロセッサの他の領域に移すことがで
きる。従って、本発明は特許請求の範囲に定義される発
明の精神および範囲から逸脱しないこのようなあらゆる
修正を網羅するものとする。

【図面の簡単な説明】

【図１】本発明により構成されたデータ・プロセッサの
ブロック図である。

【図２】図１に示すデータ・プロセッサによって実行さ
れる命令のタイミング図である。

【図３】図１に示すロード／ストア・ユニット２８のブ
ロック図である。

【図４】図３に示すストア・キュー（ｓｔｏｒｅｑｕ
ｅｕｅ）の各エントリがある、可能な状態を示す状態
遷移図である。

【符号の説明】

１０データ・プロセッサ１２バス・インタフェース・ユニット（ＢＩＵ）１４命令キャッシュ１６データ・キャッシュ１８シーケンサ・ユニット２０ブランチ・ユニット２２固定小数点実行ユニットＡ２４固定小数点実行ユニットＢ２６複素固定小数点実行ユニット２８ロード／ストア・ユニット３０浮動小数点実行ユニット３２汎用アーキテクチャ・レジスタ・ファイル（ＧＰ
Ｒ）３４第１リネーム・バッファ３６浮動小数点アーキテクチャ・レジスタ・ファイル
（ＦＰＲ）３８第２リネーム・バッファ３９リオーダ・バッファ４０リザベーション・ステーション４１マルチプレクサ（ＭＵＸ）４２加算器４３マルチプレクサ（ＭＵＸ）４４ラッチ４５１対４発生器４６ラッチ４８ストア・キュー５０ロード・キュー５２制御論理ユニット５４マルチプレクサ（ＭＵＸ）

───────────────────────────────────────────────────── フロントページの続き (71)出願人 390009531 インターナショナル・ビジネス・マシーンズ・コーポレイションＩＮＴＥＲＮＡＴＩＯＮＡＬＢＵＳＩＮＥＳＳＭＡＳＣＨＩＮＥＳＣＯＲＰＯＲＡＴＩＯＮアメリカ合衆国10504、ニューヨーク州アーモンク（番地なし) (72)発明者デビッド・ピー・バージェスアメリカ合衆国テキサス州オースチン、ランス・ウェイ1413 (72)発明者マービン・デンマンアメリカ合衆国テキサス州オースチン、ラスタウン・ドライブ4804 (72)発明者ミルトン・エム・フッド，ジュニアアメリカ合衆国テキサス州オースチン、ブラッドウッド・ロード4205 (72)発明者マーク・エイ・ケアニイアメリカ合衆国テキサス州ダラス、ラビタ・レーン3048 (72)発明者ラバンヤ・クリングアメリカ合衆国カリフォルニア州パロ・アルト、カウパー・ストリート328−ビー (72)発明者グラハム・アール・マーフィアメリカ合衆国テキサス州オースチン、ナンバー1222、テイラー・ドレイパー・レーン11250 (72)発明者ソンヨーン・ピーター・ソングアメリカ合衆国テキサス州オースチン、バケロ・コーブ8405

Claims

【特許請求の範囲】

【請求項１】ロード命令を実行する実行ユニットを具
備するデータ・プロセッサ（１０）であって：複数のア
ーキテクチャ・レジスタ（３２）；前記複数のアーキテ
クチャ・レジスタに結合されたリネーム・バッファ（３
４）であって、前記リネーム・バッファは複数のエント
リからなり、前記複数のエントリのそれぞれは、複数の
命令のうち異なる１つの複数の結果のうち異なる１つを
バッファする、リネーム・バッファ（３４）；前記リネ
ーム・バッファに結合されるロード・ユニット（２８）
であって、前記ロード・ユニットにディスパッチされる
各ロード命令タグ・ペアについて、前記ロード・ユニッ
トは、メモリ・システムからのアドレスによってインデ
クスされるデータを要求し、かつタグによってインデク
スされる前記リネーム・バッファの複数のエントリのう
ち１つにデータをバッファし、前記ロード命令タグ・ペ
アは、前記リネーム・バッファの複数のエントリのうち
１つを識別するタグからなる、ロード・ユニット（２
８）；および前記ロード・ユニットに結合されるシーケ
ンサ・ユニット（１８）であって、前記シーケンサ・ユ
ニットは、ロード・マルチプル命令を受け取り、前記ロ
ード・マルチプル命令は、ＮおよびＷを整数とし、Ｎが
１よりも大きく、前記複数のアーキテクチャ・レジスタ
のそれぞれ１つがＷバイト・サイズとして、Ｎ＊Ｗバイ
トを要求し、前記シーケンサ・ユニットは、Ｎ個のロー
ド命令タグ・ペアを前記ロード・ユニットにディスパッ
チするシーケンサ・ユニット；によって構成されること
を特徴とするデータ・プロセッサ。
【請求項２】前記シーケンサ・ユニット（１８）は１
アドレスを前記ロード・ユニットにディスパッチし、前
記ロード・ユニットは、前記Ｎ個のロード命令タグ・ペ
アのうち（Ｎ−１）個のロード命令タグ・ペアの（Ｎ−
１）個のアドレスを生成するアドレス計算手段（４１，
４２，４３，４５）をさらに含んで構成されることを特
徴とする請求項１記載のデータ・プロセッサ（１０）。
【請求項３】前記アドレス計算手段は：第１マルチプ
レクサの出力と、第２マルチプレクサの出力とを加算す
る加算器（４２）；前記Ｎ個のロード命令タグ・ペアの
それぞれの第１フィールドまたは番号Ｗのいずれかを出
力する前記第１マルチプレクサ；前記Ｎ個のロード命令
タグ・ペアのそれぞれの第２フィールドまたは前記加算
器の出力のいずれかを出力する前記第２マルチプレク
サ；および前記第１および第２マルチプレクサの入力を
選択する制御回路（４５）；によって構成されることを
特徴とする請求項２記載のデータ・プロセッサ（１
０）。
【請求項４】前記シーケンサ・ユニット（１８）は、
ディスパッチ済み命令のシーケンスを格納するリオーダ
・バッファ（３９）をさらに含んで構成され、前記シー
ケンサ・ユニットは、前記シーケンスに応答して、前記
リネーム・バッファの複数のエントリのうち１つを前記
複数のアーキテクチャ・レジスタのうち１つにコピーす
ることを特徴とする請求項３記載のデータ・プロセッサ
（１０）。
【請求項５】前記ロード・ユニット（２８）に対して
ディスパッチされる各ストア命令について、前記ロード
・ユニットは、アドレスによってインデクスされるデー
タを前記メモリ・システムに格納し、前記シーケンサ・
ユニット（１８）は、ストア・マルチプル命令を受け取
り、前記ストア・マルチプル命令は、Ｍを１より大きい
整数として、Ｍ＊Ｗバイトを格納し、前記シーケンサ・
ユニットは、Ｍ個のストア命令を前記ロード・ユニット
にディスパッチすることを特徴とする請求項４記載のデ
ータ・プロセッサ（１０）。