JP3177194B2

JP3177194B2 - 命令データを位置合せするための方法および装置

Info

Publication number: JP3177194B2
Application number: JP18112897A
Authority: JP
Inventors: ラージェシュ・ビー・パテル; ソウンミヤ・マリック
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1996-07-16
Filing date: 1997-07-07
Publication date: 2001-06-18
Anticipated expiration: 2017-07-07
Also published as: US5802556A; JPH10161872A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般に、マイクロ
プロセッサの分野に関し、より詳細には、スーパースカ
ラ・プロセッサにおいて命令データを位置合せするため
の方法および装置に関する。

【０００２】

【従来の技術】最新のマイクロプロセッサは、通常、キ
ャッシュ・メモリを利用してマイクロプロセッサの動作
パフォーマンスを改善している。最新マイクロプロセッ
サの多くの設計では、データと命令が両方ともキャッシ
ュに入れられる。そのようなキャッシュ技術は当技術分
野では周知である。マイク・ジョンソン（Mike Johnso
n）の論文「Superscaler Microprocessor Design」Pren
tice Hall(1991)を参照されたい。

【０００３】スーパースカラ・プロセッサは１サイクル
あたり複数の命令をフェッチして実行するように設計さ
れているため、キャッシュ技術は、スーパースカラ・マ
イクロプロセッサのパフォーマンスにとって特に重要で
ある。しかしながら、キャッシュ式スーパースカラ・プ
ロセッサにしばしば現れる１つの問題は、データの位置
合せである。

【０００４】キャッシュ・メモリは、通常、数バイトの
ブロックまたはラインに配列される。たとえば、具体例
としてＩＢＭの「ＰＯＷＥＲＰＣ」アーキテクチャで
は、各キャッシュ・ブロックは、１ブロックあたり８バ
イトになるように、それぞれ４バイトを含む２ワードか
らなる。各ブロックの各ワードが個別にアドレス指定さ
れる。

【０００５】図１は、ｎバイト幅のキャッシュ１００の
例を示す。キャッシュ１００は、それぞれワード０とワ
ード１からなるブロック０とブロック１を含む。ブロッ
ク０のワード０はバイト０〜３からなり、ワード１はバ
イト４〜７からなり、ブロック１のワード０は、バイト
８〜Ｂからなり、ワード１はバイトＣ〜Ｆからなる。

【０００６】図１に関して説明するように、ある特定の
命令を実行するとき、キャッシュ内のデータの境界がず
れることがある。たとえば、ワード・ロード命令が実行
されると、２つの汎用レジスタ（「ＧＰＲ」）からのア
ドレス・データが加算され、データがキャッシュの結果
アドレスから取り出され、第３の汎用レジスタに記憶さ
れる。キャッシュ内のデータの境界がそのような命令に
よってどのようにずれるかを示すために、ワード・ロー
ド命令が、ＧＰＲ１とＧＰＲ２に記憶された２つのアド
レスをそれぞれ加算し、キャッシュの結果アドレスから
のデータをＧＰＲ３に記憶しなければならないと想定す
る。ＧＰＲ１が０でＧＰＲ２が１の場合は、キャッシュ
１００のブロック０のアドレス１で始まるワードがＧＰ
Ｒ３に書き込まれる。図１に示したように、このワード
は、一部分がワード０に一部分がワード１に記憶された
バイト１〜４を含む。したがって、このワードをＧＰＲ
３に記憶するためには、キャッシュ１００から２度読み
取らなければならない。最初の読み取りで、ワード０か
らバイト０〜３が取り出される。２度目の読み取りで、
ワード１からバイト４〜７が取り出される。次に、この
データは、バイト１〜４を含む１つのワードを形成する
ためにマージされ、ＧＰＲ３に記憶される。当然なが
ら、ワード０とワード１からの所望のデータを適切にマ
ージするために、当該のバイトを位置合せしなければな
らない。

【０００７】図２は、従来の位置合せ回路の例を示す。
前述の例を参照すると、最初の読取りバイト０〜３は、
キャッシュ１００のブロック０のワード０から読み取ら
れ、バイト・ローテータ３００に渡される。バイト・ロ
ーテータ３００は、キャッシュから読み取ったワードを
左に１バイトだけシフトし、その結果をレジスタ３０２
に記憶する。レジスタ３０２は、１ワード幅であり、バ
イト・ローテータ３００からデータを受け取った後、バ
イト１２３ｘをその順序で含む。ここで、「ｘ」は無指
定条件（ドント・ケア）である。次の読み取りで、バイ
ト４〜７がキャッシュのブロック０のワード１から読み
取られてバイト・ローテータ３００に渡され、バイト・
ローテータ３００は、バイト・ローテータ３００の出力
がｘｘｘ４になるようにバイト４〜７を右に３バイト回
転する。

【０００８】バイト・ローテータ３００とレジスタ３０
２からの３２ビット出力バスは、バイト幅のデータ・バ
スに細分され、図に示したマルチプレクサ３０４、３０
６、３０８、３１０に提供される。マルチプレクサ３０
４〜３１０は、それぞれ入力ａおよびｂを有する従来の
２：１マルチプレクサである。各マルチプレクサの出力
は、トライステート・バッファ３０５、３０７、３０
９、３１１を介して３２ビット・データ・バス３１２の
１バイト幅セグメントに結合される。データ・バス３１
２は、リネーム・レジスタＲ０〜Ｒｎを含むリネーム・
レジスタ・ブロック３１４に結合される。

【０００９】上の例で説明したような２度目の読み取り
後、所望のデータをマージして正しく位置合せしたワー
ドをレジスタＲ０〜Ｒｎのうちの１つに記憶するために
は、マルチプレクサ３０４、３０６、３０８のマルチプ
レクサ選択線３０４ｂ、３０６ｂ、３０８ｂをそれぞれ
活動化し、マルチプレクサ３１０の選択線３１０ａを活
動化するだけでよい。次に、マルチプレクサの出力が、
たとえばリネーム・レジスタＲ０に提供され、リネーム
・レジスタＲ０は、バイト１、２、３、４からなる正し
い順序になったワードを記憶する。レジスタＲ０内に記
憶された位置合せ済みワードは、プロセッサの所望の実
行ユニットに渡され、あるいは汎用レジスタ上のメモリ
に書き戻される。

【００１０】

【発明が解決しようとする課題】前述の技術に伴うひと
つの問題は、レジスタ３０２などの位置合せ記憶レジス
タに特に必要な回路を製造するのに大きなシリコン面積
を必要とすることである。この問題は、実施形態によっ
て並列の誤位置合せロードが許容されるときにより大き
くなり、位置合せハードウェアおよび位置合せレジスタ
の量を増大させる。したがって、このような位置合せレ
ジスタがチップ上に多数形成されることになる。

【００１１】したがって、本発明の目的は、当技術分野
における上記の問題点を克服し、以下の開示により明ら
かになるその他の改良および利点を提供することであ
る。

【００１２】

【課題を解決するための手段】本発明の一つの態様は、
別々のワード内に記憶されたバイトを位置合せするため
の複数の実行ユニットと、リネーム・レジスタと、アー
キテクチャ・レジスタと、それぞれ複数のワードを有す
るデータ・ブロックを記憶するキャッシュとを有するマ
イクロプロセッサにおいて、有用な方法に関連する。一
実施形態では、この方法は、キャッシュから第１のワー
ドを読み取る段階と、第１のワードの少なくとも１つの
バイトをリネーム・レジスタの第１のバイトと位置合せ
するために第１のワードを回転させる段階と、リネーム
・レジスタに第１のワードの少なくとも１つのバイトを
記憶する段階と、キャッシュから第２のワードを読み取
る段階と、第２のワードの少なくとも１つのバイトをリ
ネーム・レジスタの第２のバイトと位置合せするために
第２のワードを回転させる段階と、リネーム・レジスタ
に第２のワードの少なくとも１つのバイトを記憶する段
階とを含む。

【００１３】本発明のもう１つの態様は、マイクロプロ
セッサのキャッシュの別々のワードに記憶されたバイト
を位置合せする回路に関する。一実施形態では、この回
路は、キャッシュから第１のワードを読み取る手段と、
第１のワードの少なくとも１つのバイトをリネーム・レ
ジスタの第１のバイトと位置合せするために第１のワー
ドを回転させる手段と、リネーム・レジスタに第１のワ
ードの少なくとも１つのバイトを記憶する手段と、キャ
ッシュから第２のワードを読み取る手段と、第２のワー
ドの少なくとも１つのバイトをリネーム・レジスタの第
２のバイトと位置合せするために第２のワードを回転さ
せる手段と、リネーム・レジスタに第２のワードの少な
くとも１つのバイトを記憶する手段とを含む。

【００１４】

【発明の実施の形態】図３は、本発明の実施形態による
情報を処理するプロセッサ１０のシステムのブロック図
である。この実施形態において、プロセッサ１０は、単
一集積回路スーパースカラ・マイクロプロセッサであ
る。したがって、さらに後で説明するように、プロセッ
サ１０は、様々なユニット、レジスタ、バッファ、メモ
リその他の部分を含み、それらはすべて集積回路によっ
て構成される。図１に示したように、システム・バス１
１は、プロセッサ１０のバス・インタフェース・ユニッ
ト（「ＢＩＵ」）１２に接続される。ＢＩＵ１２は、プ
ロセッサ１０とシステム・バス１１の間での情報の転送
を制御する。

【００１５】ＢＩＵ１２は、プロセッサ１０の命令キャ
ッシュ１４とデータ・キャッシュ１６に接続される。命
令キャッシュ１４は、シーケンサ・ユニット１８に命令
を出力する。シーケンサ・ユニット１８は、命令キャッ
シュ１４からのその命令に応答して、プロセッサ１０の
他の実行回路に命令を選択的に出力する。

【００１６】プロセッサ１０の実行回路は、シーケンサ
・ユニット１８の他に、複数の実行ユニット、すなわち
分岐ユニット２０、固定小数点ユニットＡ（「ＦＸＵ
Ａ」）２２、固定小数点ユニットＢ（「ＦＸＵＢ」）２
４、複合固定小数点ユニット（「ＣＦＸＵ」）２６、ロ
ード／記憶ユニット（「ＬＳＵ」）２８および浮動小数
点ユニット（「ＦＰＵ」）３０を含む。ＦＸＵＡ２２、
ＦＸＵＢ２４、ＣＦＸＵ２６およびＬＳＵ２８は、汎用
アーキテクチャ・レジスタ（「ＧＰＲ」）３２および固
定小数点リネーム・バッファ３４から、そのソース・オ
ペランド情報を入力する。さらに、ＦＸＵＡ２２とＦＸ
ＵＢ２４は、キャリー・ビット（「ＣＡ」）レジスタ４
２から「キャリー・ビット」を入力する。ＦＸＵＡ２
２、ＦＸＵＢ２４、ＣＦＸＵ２６およびＬＳＵ２８は、
固定小数点リネーム・バッファ３４内の選択したエント
リに記憶するために、演算の結果（宛先オペランド情
報）を出力する。また、ＣＦＸＵ２６は、ソース・オペ
ランド情報と宛先オペランド情報を、特殊レジスタ
（「ＳＰＲ」）４０との間でやりとりする。

【００１７】ＦＰＵ３０は、浮動小数点アーキテクチャ
・レジスタ（「ＦＰＲ」）３６と浮動小数点リネーム・
バッファ３８からソース・オペランド情報を入力する。
ＦＰＵ３０は、浮動小数点リネーム・バッファ３８の選
択したエントリに記憶するために、演算の結果（宛先オ
ペランド情報）を出力する。

【００１８】ＬＳＵ２８は、ロード命令に応答して、デ
ータ・キャッシュ１６から情報データを入力し、その情
報を、リネーム・バッファ３４と３８のうち選択された
一方に複写する。その情報がデータ・キャッシュ１６に
記憶されていない場合は、データ・キャッシュ１６は、
（ＢＩＵ１２とシステム・バス１１を介して）その情報
をシステム・バス１１に接続されたシステム・メモリ３
９から入力する。さらに、データ・キャッシュ１６は、
データ・キャッシュ１６から（ＢＩＵ１２とシステム・
バス１１を介して）システム・バス１１に接続されたシ
ステム・メモリ３９に情報を出力することができる。Ｌ
ＳＵ２８は、記憶命令に応答して、ＧＰＲ３２とＦＰＲ
３６のうち選択された一方から情報を入力し、その情報
をデータ・キャッシュ１６に複写する。

【００１９】シーケンサ・ユニット１８は、完了ユニッ
ト１８ａとディスパッチ・ユニット１８ｂを含む。ディ
スパッチ・ユニット１８ｂは、命令を復号して適切な実
行ユニットに発行する論理回路を含む。各命令ごとにリ
オーダ・バッファ・エントリが割り振られ、ディスパッ
チ待ち行列内の命令間の依存関係が検査される。レジス
タ・ファイルからオペランドをフェッチするときに、リ
ネーム・バッファでオペランドが探索される。ディスパ
ッチ待ち行列内の命令よりも前に他の命令によって書き
込まれたオペランドは、その命令のリネーム・バッファ
のタグが提供され、そうでない場合は、リネーム・バッ
ファまたはレジスタ・ファイルが、オペランドまたはタ
グを提供する。命令がディスパッチされると、フェッチ
・ユニットは、ディスパッチ待ち行列がさらに他の命令
で更新できることを知らされる。

【００２０】完了ユニット１８ａは、実行した命令をリ
オーダ・バッファから引き上げ、例外条件を認識し、後
続の命令でプログラム順に行われる演算を破棄する。命
令は、実行し終えたときにリオーダ・バッファから引き
上げられ、それよりも前のすべての命令は完了してい
る。命令の結果は、適切なレジスタ・ファイルに書き込
まれ、完了時以後にリネーム・バッファから除去され
る。完了すると、その命令によって影響を受ける他のリ
ソースが更新される。

【００２１】ディスパッチ・ユニット１８ｂが、実行ユ
ニットに命令をディスパッチするとき、その命令は、命
令番号、目標リネーム・バッファおよびオペランド・ソ
ースを表すタグと共に、完了ユニット１８ａに同時にデ
ィスパッチされる。完了ユニット１８ａは、命令が先入
れ先出し（「ＦＩＦＯ」）バッファにディスパッチされ
る順序を維持する。完了ユニット１８ａは、リネーム・
レジスタと関連する有効ビットを監視する。実行ユニッ
トがリネーム・レジスタの有効ビットをセットして、リ
ネーム・レジスタが有効な情報を含むことを示すとき、
完了ユニットのＦＩＦＯバッファ内の対応する命令に終
了のマークが付けられる。ＦＩＦＯバッファ内に終了し
た命令よりも前の未終了の命令がない場合は、完了ユニ
ット１８ａは、終了した命令の結果をアーキテクチャ・
レジスタに書き戻す。終了した命令よりも前の未終了の
命令がある場合は、完了ユニット１８ａは、未終了の命
令が終了するまで待ってからアーキテクチャ・レジスタ
への書き戻しを行う。これにより、未終了の命令のうち
の１つが例外をもたらす場合にアーキテクチャ・レジス
タへの間違ったデータの書込みが防止される。

【００２２】シーケンサ・ユニット１８は、情報をＧＰ
Ｒ３２およびＦＰＲ３６に入力しそこから出力する。分
岐ユニット２０は、シーケンサ・ユニット１８から、命
令とプロセッサ１０の現在の状態を示す信号を入力す
る。そのような信号に応答して、分岐ユニット２０は、
プロセッサ１０が実行する一連の命令を記憶する適切な
メモリ・アドレスを示す信号を（シーケンサ・ユニット
１８に）出力する。シーケンサ・ユニット１８は、分岐
ユニット２０からのそのような信号に応答して、命令キ
ャッシュ１４から示された一連の命令を入力する。一連
の命令のうちの１つまたは複数が命令キャッシュ１４に
記憶されていない場合、命令キャッシュ１４は、その命
令をシステム・バス１１に接続されたシステム・メモリ
３９から（ＢＩＵ１２およびシステム・バス１１を介し
て）入力する。

【００２３】シーケンサ・ユニット１８は、命令キャッ
シュ１４からの入力された命令に応答して、命令を、実
行ユニット２０、２２、２４、２６、２８、３０のうち
の選択された１つに選択的にディスパッチする。各実行
ユニットは、特定クラスの命令のうちの１つまたは複数
の命令を実行する。たとえば、ＦＸＵＡ２２とＦＸＵＢ
２４は、加算、減算、ＡＮＤ演算、ＯＲ演算、ＸＯＲ演
算などの第１クラスの固定小数点演算をオペランドに対
して実行する。ＣＦＸＵ２６は、固定小数点の乗算や除
算などの第２のクラスの固定小数点演算をソース・オペ
ランドに対して実行する。ＦＰＵ３０は、浮動小数点の
乗算や除算などの浮動小数点演算をソース・オペランド
に対して実行する。

【００２４】情報が、リネーム・バッファ３４のうちの
選択された１つに記憶されるとき、その情報は、選択し
たリネーム・バッファが割り振られる命令によって指定
される記憶位置（たとえば、ＧＰＲ３２またはＣＡレジ
スタ４２の一方）と関連付けられる。リネーム・バッフ
ァ３４のうちの選択された１つに記憶された情報は、シ
ーケンサ・ユニット１８からの信号に応答して、ＧＰＲ
３２（またはＣＡレジスタ４２）のうちの関連する１つ
に複写される。シーケンサ・ユニット１８は、その情報
を生成した命令の「完了」に応答して、リネーム・バッ
ファ３４のうちの選択された１つに記憶された情報の複
写を指示する。そのような複写は、「ライトバック」と
呼ばれる。

【００２５】リネーム・バッファ３８のうちの選択され
た１つに情報が記憶されると、その情報は、ＦＰＲ３６
のうちの１つと関連付けられる。リネーム・バッファ３
８のうちの選択された１つに記憶された情報は、シーケ
ンサ・ユニット１８からの信号に応答してＦＰＲ３６の
うちの関連する１つに複写される。シーケンサ・ユニッ
ト１８は、情報を生成した命令の「完了」に応答して、
リネーム・バッファ３８のうちの選択された１つに記憶
された情報の複写を指示する。

【００２６】プロセッサ１０は、実行ユニット２０、２
２、２４、２６、２８、３０の様々な実行ユニットで複
数の命令を同時に処理することにより高いパフォーマン
スを達成する。したがって、各命令は、それぞれ他の命
令の段階と並列に実行できる一連の段階として処理され
る。そのような技術は、先に論じたように「パイプライ
ン方式」と呼ばれる。一般に、命令は、６つの段階、す
なわちフェッチ、復号、ディスパッチ、実行、完了およ
び「ライトバック」として処理される。

【００２７】フェッチ段階において、シーケンサ・ユニ
ット１８は、分岐ユニット２０およびシーケンサ・ユニ
ット１８に関して先に論じた一連の命令を記憶する１つ
または複数のメモリ・アドレスから、１つまたは複数の
命令を（命令キャッシュ１４から）選択的に入力する。

【００２８】復号段階において、シーケンサ・ユニット
１８は、フェッチした命令を最高４つまで復号する。

【００２９】ディスパッチ段階において、シーケンサ・
ユニット１８は、ディスパッチされた命令の結果（宛先
オペランド情報）用にリネーム・バッファのエントリを
予約した後、実行ユニット２０、２２、２４、２６、２
８、３０のうちの（復号段階における復号に応答して）
選択された１つに、復号された命令を最高４つまで選択
的にディスパッチする。ディスパッチ段階において、デ
ィスパッチされた命令のオペランド情報が、選択された
実行ユニットに提供される。プロセッサ１０は、命令を
プログラム・シーケンスの順序でディスパッチする。

【００３０】実行段階において、実行ユニットは、ディ
スパッチされた命令を実行し、演算の結果（宛先オペラ
ンド情報）を出力して、前に詳しく述べたようにリネー
ム・バッファ３４およびリネーム・バッファ３８の選択
されたエントリに記憶する。このように、プロセッサ１
０は、そのプログラム・シーケンスの順序に関係のない
順序で命令を実行することができる。

【００３１】完了段階において、シーケンサ・ユニット
１８は、命令が「完了」したことを示す。プロセッサ１
０は、命令をそのプログラム・シーケンスの順序で「完
了」する。

【００３２】ライトバック段階において、シーケンサ・
ユニット１８は、リネーム・バッファ３４および３８か
らＧＰＲ３２とＦＰＲ３６にそれぞれ情報を複写するよ
うに指示する。シーケンサ・ユニット１８は、選択され
たリネーム・バッファに記憶された情報の複写を指示す
る。同様に、特定の命令のライトバック段階において、
プロセッサ１０は、その特定の命令に応答してアーキテ
クチャ状態を更新する。プロセッサ１０は、各命令の
「ライトバック」段階をプログラム・シーケンスの順序
で処理する。プロセッサ１０が、特定の状況において命
令完了段階とライトバック段階をマージすると有利であ
る。

【００３３】図４は、、位置合せされたデータがリネー
ム・レジスタに直接書き込まれる、本発明の実施形態に
よる概略図である。位置合せレジスタをなくすために、
特定の命令ＩＤに関連付けられたリネーム・レジスタを
利用して、データ・キャッシュの最初の読み取りによる
データを一時的に記憶する。この実施形態では、ワード
がキャッシュからバイト・ローテータ５００に提供され
る。バイト・ローテータ５００は、キャッシュから提供
されたワード内のバイトを回転させ、このデータを４本
の８ビット・データ線５００ａ〜５００ｄに出力する。
これらのデータ線はそれぞれ、リネーム・レジスタ・ブ
ロック５１２にデータを渡すデータ・バス５１０に結合
される。

【００３４】データ・バス５１０は、４本の８ビット・
データ線５１０ａ〜５１０ｄを含む。バイト・ローテー
タ５００からの出力データ線５００ａ〜５００ｄはそれ
ぞれ、図のように、トライステート・バッファ５０２、
５０４、５０６、５０８を介して対応する８ビット・デ
ータ線５１０ａ〜５１０ｄに結合される。トライステー
ト・バッファは、選択線５０３、５０５、５０７、５０
９によってそれぞれ操作される。

【００３５】リネーム・レジスタ・ブロック５１２は、
ｎ個のリネーム・レジスタＲ０〜Ｒｎを含む。各リネー
ム・レジスタは、１ワード幅であり、バイト・アドレス
指定可能である。たとえば、リネーム・レジスタＲ０
は、４つのバイトＲ０ａ〜Ｒ０ｄを含み、これらはぞれ
ぞれデータ・バス５１０の対応する８ビット・データ線
５１０ａ〜５１０ｄによってアクセス可能である。例示
のために、図ではデータ・バス５１０は、リネーム・レ
ジスタＲ０に直接結合してある。しかし、実際には、デ
ータ・バス５１０は、レジスタＲ０〜Ｒｎのそれぞれに
多重接続され、それによりバイト・ローテータ５００は
リネーム・レジスタ・ブロック５１２内のレジスタの任
意のバイトにデータを渡すことができることを理解され
たい。

【００３６】バイト・ローテータ５００は、キャッシュ
から受け取ったワードのバイトを、８ビット出力データ
線５００ａ〜５００ｄのいずれかと、すなわちリネーム
・レジスタＲ０の任意のバイトＲ０ａ〜Ｒ０ｄと位置合
せするように適合されている。図５に、適切なバイト・
ローテータの例を示す。この事例では、キャッシュから
来る３２ビット・データ線は４つの８ビット・データ線
に入り、それぞれマルチプレクサ７００、７０２、７０
４、７０６に別々の入力として提供される。各マルチプ
レクサの動作は、選択線７０１、７０３、７０５、７０
７によってそれぞれ制御される。図から明らかなよう
に、３２ビット・データ線に渡されたワードの任意のバ
イトは、対応するマルチプレクサの適切な選択線の活動
化によって、マルチプレクサ７００、７０２、７０４、
７０６のどれから出力されることもできる。したがっ
て、ローテータという言葉を使用するが、いくつかの実
施形態では、バイトは設計上の好みで任意の順序で配置
することができるので、バイトの回転とは、バイトを単
に右か左にシフトするよりも複雑な動作を指すことを理
解されたい。

【００３７】動作中、図４の実施形態は、キャッシュか
ら受け取ったワードの任意のバイトを回転させ、トライ
ステート・バッファ５０２、５０４、５０６、５０８を
選択的に動作させることによって、リネーム・レジスタ
・ブロック５１２内の任意のリネーム・レジスタの任意
のバイトに記憶することができる。このことを、以下の
例に関してより詳細に説明する。再び図１を参照する
と、バイト１〜４が、キャッシュ１００から読み取ら
れ、位置合せされ、リネーム・レジスタＲ０のバイトＲ
０ａ〜Ｒ０ｄにそれぞれ記憶される。最初の読み取り
で、バイト０〜３を含むキャッシュ・ブロック０からワ
ードがバイト・ローテータ５００に渡される。バイト・
ローテータ５００は、このデータを左に１バイト回転
し、それにより、バイト１、２、３は、出力データ線５
００ａ、５００ｂ、５００ｃとそれぞれ位置合せされ
る。次に、バイト１、２、３は、トライステート・バッ
ファ５０２、５０４、５０６を介してＲ０ａ、Ｒ０ｂ、
Ｒ０ｃに渡される。トライステート・バッファ５０８は
高インピーダンス・モードにされ、このときバイトＲ０
ｄは書き込まれない。

【００３８】２度目の読み取りで、バイト４〜７を含む
キャッシュ・ブロック０のワード１がバイト・ローテー
タ５００に渡される。バイト・ローテータ５００は、こ
のデータを右に３バイト回転させ、それによりバイト４
が出力線５００ｄと位置合せされる。このデータは、次
に、トライステート・バッファ５０８を活動化すること
によってＲ０ｄに書き込まれる。バイトＲ０ｄが書き込
まれている間、トライステート・バッファ５０２、５０
４、５０６は、高インピーダンス・モードを維持するよ
うに設定され、それによりバイトＲ０ａ〜Ｒ０ｃ内のデ
ータは上書きされない。これにより、２度目の読み取り
の終了時に、バイト１、２、３および４が正しく位置合
せされ、リネーム・レジスタＲ０のバイトＲ０ａ〜Ｒ０
ｄにそれぞれ記憶される。この位置合せされたデータ
は、次に、プロセッサの他の実行ユニットによってアク
セスされ、あるいはアーキテクチャ・レジスタに書き戻
すこともできる。キャッシュから読み取られるバイトが
２つの別のキャッシュ・ブロックに及ぶときにもこれと
類似の動作が行われる。たとえば、バイト６〜９からな
るワードを位置合せする場合、最初の読み取りで、ブロ
ック０のワード１が読み取られ、左に２バイト回転され
る。次に、バイト６および７が、Ｒ０ａ〜Ｒ０ｂに記憶
される。２度目の読み取りで、キャッシュ・ブロック１
のワード０が読み取られ、右に２バイト回転され、それ
により、バイト８および９が位置合せされ、次にＲ０ｃ
とＲ０ｄにそれぞれ書き込まれる。

【００３９】当業者には、本発明が３２ビット・システ
ムに制限されないことは明らかであろう。以上説明した
特定の実施形態を、所望のサイズのキャッシュ・ブロッ
クとリネーム・レジスタを有するプロセッサに適用する
ことは、全く当業者の技量の範囲内である。また、本発
明を、ニブルやワードなどの様々なメモリ境界に基づい
てデータを位置合せするプロセッサに適用することも当
業者の技量の範囲内である。さらに、本発明は、ワード
が４バイトからなる実施形態に関して詳しく説明した
が、ワードという用語はそれに制限されず、選択された
術語により任意の数のバイトからなることができ、たと
えば、バイトを、他の一般に利用されるアーキテクチャ
において２バイトとして定義することもできる。

【００４０】本発明を特定の実施形態に関して具体的に
示し説明したが、当業者は、本発明の精神および範囲か
ら逸脱せずに形態および詳細の様々な変更を行えること
を理解されよう。

【図面の簡単な説明】

【図１】従来のキャッシュ・メモリのブロック図であ
る。

【図２】従来の位置合せ回路の回路図である。

【図３】本発明の一実施形態による位置合せ回路を含む
処理ユニットのブロック図である。

【図４】本発明の一実施形態によるデータ位置合せを提
供する回路の回路図である。

【図５】図４に示した本発明の実施形態に役立つバイト
・ローテータの回路図である。

【符号の説明】

１０プロセッサ１１システム・バス１２バス・インタフェース・ユニット１４命令キャッシュ１６データ・キャッシュ１８シーケンサ・ユニット２０分岐ユニット２２固定小数点ユニットＡ２４固定小数点ユニットＢ２６複合固定小数点ユニット２８ロード／記憶ユニット３０浮動小数点ユニット３２汎用アーキテクチャ・レジスタ３４固定小数点リネーム・バッファ３６浮動小数点アーキテクチャ・レジスタ３８浮動小数点リネーム・バッファ４０特殊レジスタ４２キャリー・ビット・レジスタ

───────────────────────────────────────────────────── フロントページの続き (72)発明者ソウンミヤ・マリックアメリカ合衆国78729 テキサス州オースチンパートリッジ・ベンド・ドライブ 13032 (56)参考文献特開平７−271585（ＪＰ，Ａ) 特開平６−332792（ＪＰ，Ａ) 特開平７−13953（ＪＰ，Ａ) 特開平８−30508（ＪＰ，Ａ) 特開昭53−76721（ＪＰ，Ａ) 特開昭64−81033（ＪＰ，Ａ) 特開昭61−177540（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 9/30 - 9/38 G06F 12/00 - 12/06

Claims

(57)【特許請求の範囲】

【請求項１】キャッシュ（１４）からデータ・ブロック
を受け入れ、受け入れられたデータ・ブロックが含む単
位データの位置合わせを行う位置合わせ装置であって、
前記データ・ブロックは、それぞれｎ＋１（ｎ≧１）個
のワードｉ（ｎ≧ｉ≧０）を含み、前記ワードｉはそれ
ぞれｄ（ｄ≧１）個の単位データｉｊ（ｄ≧ｊ≧１）を
含み、それぞれ前記ワードｉを順次、受け入れ、受け入れたワ
ードｉに含まれる前記単位データｉｊのいずれかを選択
するｄ個のマルチプレクサｊ（７００〜７０６）と、それぞれ前記マルチプレクサｊと接続または切断され、
前記接続されたマルチプレクサｊから入力される前記単
位データを記憶する（ｎ＋１）×ｄ個のレジスタｋｊ
（ｎ≧ｋ≧１；５１２）と、互いに接続された前記マルチプレクサｊと前記レジスタ
ｋｊとの間を接続または切断するｄ個のバッファｊ（５
０２〜５０８）とを有し、前記キャッシュから前記データ・ブロックに含まれるワ
ードｉを順次、読み出し、読み出したワードｉに含まれ
る前記単位データｉｊの位置を前記マルチプレクサｊで
順次、回転し、前記位置が回転された単位データｉｊ
を、前記バッファｊで前記マルチプレクサｊに接続した
前記レジスタｋｊに順次、記憶させることにより、前記
単位データの位置合わせを行うように構成された位置合
わせ装置。
【請求項２】前記単位データｉｊはバイト構成である請
求項１に記載の位置合わせ装置。
【請求項３】前記（ｎ＋１）×ｄ個のレジスタｋｊはｄ
個ずつ、ｎ＋１個のリネーム・レジスタｋに分けられ、前記ｄ個のマルチプレクサは、それぞれ前記データ・ブ
ロックに含まれるワードｉを順次、受け入れ、受け入れ
たワードｉに含まれる前記単位データの位置を回転し、前記バッファｊは、前記単位データの位置が回転された
ワードｉを記憶させようとするレジスタｋｊの０個以上
とマルチプレクサｊとを接続し、前記単位データの位置
が回転されたワードｉを記憶させようとするレジスタｋ
ｊ以外とマルチプレクサｊとを切断し、前記単位データの位置が回転されたワードｉが記憶され
ようとする前記リネーム・レジスタｋの０個以上は、前
記バッファｊを介して接続された前記ｄ個のマルチプレ
クサから前記位置が回転された単位データを受け入れて
記憶する請求項１または２に記載の位置合わせ装置。
【請求項４】前記データ・ブロックは、それぞれ１つ以
上の前記単位データｉｊを含む命令データを含み、前記命令データの境界と前記ワードｉの境界とを合わせ
るように、前記単位データｉｊの位置合わせを行う請求
項１〜３のいずれかに記載の位置合わせ装置。
【請求項５】プロセッサにおいて、キャッシュからデー
タ・ブロックを受け入れ、受け入れられたデータ・ブロ
ックが含む単位データの位置合わせを行う位置合わせ方
法であって、前記データ・ブロックは、それぞれｎ＋１
（ｎ≧１）個のワードｉ（ｎ≧ｉ≧０）を含み、前記ワ
ードｉはそれぞれｄ（ｄ≧１）個の単位データｉｊ（ｄ
≧ｊ≧１）を含み、前記プロセッサは、それぞれ前記ワ
ードｉを順次、受け入れ、受け入れたワードｉに含まれ
る前記単位データｉｊのいずれかを選択するｄ個のマル
チプレクサｊと、それぞれ前記マルチプレクサｊと接続
または切断され、前記接続されたマルチプレクサｊから
入力される前記単位データを記憶する（ｎ＋１）×ｄ個
のレジスタｋｊ（ｎ≧ｋ≧１）と、互いに接続された前
記マルチプレクサｊと前記レジスタｋｊとの間を接続ま
たは切断するｄ個のバッファｊとを有し、前記キャッシュから前記データ・ブロックに含まれるワ
ードｉを順次、読み出し、読み出したワードｉに含まれる前記単位データｉｊの位
置を前記マルチプレクサｊを用いて順次、回転し、前記位置が回転された単位データｉｊを、前記バッファ
ｊで前記マルチプレクサｊに接続した前記レジスタｋｊ
に順次、記憶させる位置合わせ方法。
【請求項６】前記単位データｉｊはバイト構成である請
求項５に記載の位置合わせ方法。
【請求項７】前記（ｎ＋１）×ｄ個のレジスタｋｊはｄ
個ずつ、ｎ＋１個のリネーム・レジスタｋに分けられ、前記ｄ個のマルチプレクサにより、それぞれ前記データ
・ブロックに含まれるワードｉを順次、受け入れ、受け
入れたワードｉに含まれる前記単位データの位置を回転
し、前記バッファｊにより、前記単位データの位置が回転さ
れたワードｉを記憶させようとするレジスタｋｊの０個
以上とマルチプレクサｊとを接続し、前記単位データの
位置が回転されたワードｉを記憶させようとするレジス
タｋｊ以外とマルチプレクサｊとを切断し、前記単位データの位置が回転されたワードｉが記憶され
ようとする前記リネーム・レジスタｋの０個以上によ
り、前記バッファｊを介して接続された前記ｄ個のマル
チプレクサから前記位置が回転された単位データを受け
入れて記憶する請求項５または６に記載の位置合わせ方
法。
【請求項８】前記データ・ブロックは、それぞれ１つ以
上の前記単位データｉｊを含む命令データを含み、前記命令データの境界と前記ワードｉの境界とを合わせ
るように、前記単位データｉｊの位置合わせを行う請求
項５〜７のいずれかに記載の位置合わせ方法。