JP2003523574A

JP2003523574A - ２次リオーダ・バッファ・マイクロプロセッサ

Info

Publication number: JP2003523574A
Application number: JP2001560801A
Authority: JP
Inventors: カーレ、ジェームス、アラン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2000-02-17
Filing date: 2001-02-16
Publication date: 2003-08-05
Anticipated expiration: 2021-02-16
Also published as: US6629233B1; DE60100665D1; EP1256053B1; EP1256053A1; ATE248399T1; JP3689369B2; WO2001061479A1; TW475149B; AU2001232126A1

Abstract

(57)【要約】【課題】複数リネーム・レジスタを必要とする複雑命令の存在にかかわらず、最大命令発行を可能にするための方法、プロセッサ、およびデータ処理システムを提供すること。【解決手段】この方法は、複雑命令の影響を受ける第１のレジスタの内容を記憶するために第１のリオーダ・バッファから第１のリネーム・レジスタを割り振ることを含む。次に、複雑命令の影響を受ける第２のレジスタの内容を記憶するために第２のリオーダ・バッファから第２のリネーム・レジスタを割り振る。第１のリオーダ・バッファがサイクルあたり最大数の割振りをサポートする一実施形態では、第２のリオーダ・バッファを使用する第２のレジスタの割振りにより、複雑命令が第１のリオーダ・バッファ内の複数の割振りスロットを必要とするのを防止する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】

本発明は、一般にマイクロプロセッサの分野に関し、より詳細には複数ターゲ
ットを備えた命令に２次リオーダ・バッファを使用するマイクロプロセッサに関
する。

【０００２】

【従来の技術】

out-of-order実行（out-of-order execution）を可能にするためにマイクロプ
ロセッサのリオーダ・バッファを使用することは周知のことである。たとえば、
Hennessy & Pattersonによる「Computer Architecture a Quantitative Approac
h」の３０９〜３１７ページ（Morgan Kaufmann、第２版、１９９６年）を参照さ
れたい。リオーダ・バッファは、ある命令が最終的にコミットされるまで実行し
た命令の結果を記憶するために使用する。多くのスーパスカラ・プロセッサでは
、複数の命令を単一サイクルで発行することができる。最高パフォーマンスを達
成するために、発行した命令ごとにその命令が発行されたサイクル中にリネーム
・レジスタ（rename register）の割振りを行わなければならない。通常、発行
した各命令は、マイクロプロセッサの単一レジスタの内容に影響し、したがって
、単一リネーム・レジスタ項目だけを必要とする。しかし、それ以外の場合には
、命令（以下、複雑命令（complex instruction）という）は２つまたはそれ以
上のレジスタの内容に影響する。最適パフォーマンスを達成する場合には、この
ような複雑命令のレジスタ・リネームもその発行サイクルで行わなければならな
い。

【０００３】

【発明が解決しようとする課題】

残念ながら、従来のマイクロプロセッサで使用するリネーム・バッファは、単
一サイクルで実行できる割振りの回数が制限されている。単一サイクルで実行で
きるリネーム割振りの回数に関するこの制限は、複数の割振りを必要とする命令
の存在と結びつくと、発行ユニットが複雑になり、その結果、複数命令のうちの
１つが複雑命令である場合に発行ユニットが特定の１サイクルで最大数の命令を
発行できなくなる可能性がある。

【０００４】

【課題を解決するための手段】

したがって、本発明は、マイクロプロセッサ内で命令を実行する方法であって
、複数レジスタの内容に影響する命令を発行することと、命令の影響を受ける第
１のレジスタの内容を記憶するために第１のリオーダ・バッファから第１のリネ
ーム・レジスタを割り振ることと、命令の影響を受ける第２のレジスタの内容を
記憶するために第２のリオーダ・バッファから第２のリネーム・レジスタを割り
振ることを含み、第２のリオーダ・バッファを使用する第２のリネーム・レジス
タの割振りにより、命令が第１のリオーダ・バッファ内の複数の割振りスロット
を消費するのを防止する方法を提供する。

【０００５】本発明は、命令キャッシュから命令を受け取るように構成され、実行用の命令
を発行するように適合された発行ユニットと、命令の１次レジスタ用にリネーム
・レジスタを割り振るように専用化された第１のリオーダ・バッファと、命令の
２次レジスタ用にリネーム・レジスタを割り振るように専用化された第２のリオ
ーダ・バッファとを含み、発行ユニットが、少なくとも２つのレジスタの内容に
影響する複雑命令を発行したときに、その命令の１次レジスタ用に第１のリオー
ダ・バッファ内のリネーム・レジスタを割り振り、その命令の２次レジスタ用に
第２のリオーダ・バッファ内のリネーム・レジスタを割り振るように構成されて
いるプロセッサをさらに提供する。

【０００６】本発明は、システム・メモリと、入力手段と、ディスプレイと、上記のプロセ
ッサとを含むデータ処理システムをさらに提供する。

【０００７】好ましくは、本発明は、命令が単純命令、複雑命令、あるいはその両者の組合
せを含むかどうかにかかわらず、サイクルあたり最大数の命令を発行可能なマイ
クロプロセッサを提供する。

【０００８】第１のリオーダ・バッファがサイクルあたり最大数の割振りをサポートする一
実施形態では、第２のリオーダ・バッファを使用する第２のレジスタの割振りに
より、複雑命令が第１のリオーダ・バッファ内の複数の割振りスロットを必要と
するのを防止する。この方法は、２次リオーダ・バッファ内で割り振られるレジ
スタに対する依存関係を含む第２の命令を発行することをさらに含むことができ
る。一実施形態では、２次リオーダ・バッファ内で割り振られたレジスタに対す
る第２の命令の依存関係を示すリオーダ・バッファ情報は、続いて第２の命令が
発行されたときに、２次リオーダ・バッファのみをチェックして依存関係の有無
を確認するよう発行ユニットを制限するためにリオーダ・バッファ情報を使用す
るように、第２の命令に関連づけられる。

【０００９】

【発明の実施の形態】

次に図１を参照すると、本発明によるデータ処理システム１００の実施形態が
示されている。システム１００は、１つまたは複数の中央演算処理装置（プロセ
ッサ）１０１ａ、１０１ｂ、１０１ｃなど（まとめてまたは総称してプロセッサ
（複数も可）１０１という）を有する。一実施形態の各プロセッサ１０１は、縮
小命令セット・コンピュータ（ＲＩＳＣ）マイクロプロセッサを含む。ＲＩＳＣ
プロセッサに関する追加情報は、一般に、C. May他編集の「PowerPC Architectu
re: A specification for a New Family of RISC Processors 」（Morgan Kaufm
ann、１９９４年、第２版）に記載されている。

【００１０】プロセッサ１０１は、システム・バス１１３を介してシステム・メモリ（ＲＡ
Ｍ）２５０および他の様々なコンポーネントに結合されている。読取専用メモリ
（ＲＯＭ）１０２は、システム・バス１１３に結合され、システム１００の所与
の基本機能を制御する基本入出力システム（ＢＩＯＳ）を含む。

【００１１】図１はさらに、システム・バス１１３に結合された入出力アダプタ１０７とネ
ットワークまたは通信アダプタ１０６とを示している。入出力アダプタ１０７は
、たとえば、ハード・ディスク１０３または磁気テープ記憶駆動機構１０５ある
いはその両方とやりとりする小型コンピュータ・システム・インタフェース（Ｓ
ＣＳＩ）アダプタである。入出力アダプタ１０７とハード・ディスク１０３と磁
気テープ記憶装置１０５は、本明細書ではまとめて大容量記憶装置１０４という
（図２を参照）。ネットワーク・アダプタ１０６はバス１１３と外部ネットワー
クを相互接続し、データ処理システム１００が他のこのようなシステムとやりと
りできるようにする。表示モニタ１３６はディスプレイ・アダプタ１１２によっ
てシステム・バス１１３に接続され、そのディスプレイ・アダプタ１１２はグラ
フィックス主体のアプリケーションのパフォーマンスを改善するためのグラフィ
ックス・アダプタとビデオ・コントローラ（ともに図示せず）を含む場合もある
。一実施形態のアダプタ１０７、１０６、１１２は、中間バス・ブリッジ（図示
せず）を介してシステム・バス１１３に接続された１つまたは複数の入出力バス
に接続されている。ハード・ディスク・コントローラ、ネットワーク・アダプタ
、グラフィックス・アダプタなどの周辺装置を接続するための適当な入出力バス
としては、オレゴン州ヒルズバラのPCI Special Interest Groupから入手可能で
、参照により本明細書に組み込まれるPCI Local Bus Specification Rev. 2.2に
よるPeripheral Components Interface（ＰＣＩ）バスを含む。追加の入出力装
置は、ユーザ・インタフェース・アダプタ１０８およびディスプレイ・アダプタ
１１２を介してシステム・バス１１３に接続されたものとして示されている。キ
ーボード１０９、マウス１１０、スピーカ１１１はいずれもユーザ・インタフェ
ース・アダプタ１０８を介してバス１１３に相互接続されており、そのユーザ・
インタフェース・アダプタ１０８は、たとえば、複数の装置アダプタを単一集積
回路に集積するＳｕｐｅｒＩ／Ｏチップを含むことができる。このようなチップ
に関する追加情報については、www.national.comにおいてナショナル・セミコン
ダクタ社から入手可能な「PC87338/PC97338 ACPI 1.0 and PC98/99 Compliant S
uperI/O」というデータ・シート（１９９８年１１月）を参照されたい。

【００１２】したがって、図１に構成したように、システム１００は、プロセッサ１０１の
形をした処理手段と、システム・メモリ２５０および大容量記憶装置１０４を含
む記憶手段と、キーボード１０９およびマウス１１０などの入力手段と、スピー
カ１１１およびディスプレイ１３６を含む出力手段とを含む。一実施形態では、
システム・メモリ２５０の一部分と大容量記憶装置１０４が集合的に、ＩＢＭ社
のＡＩＸ（Ｒ）オペレーティング・システムなどのオペレーティング・システム
を記憶して、図１に示す様々なコンポーネントの機能を調整する。ＡＩＸオペレ
ーティング・システムの追加の詳細については、www.ibm.comにおいてＩＢＭ社
から入手可能な「AIX Version 4.3 Technical Reference: Base Operating Syst
em and Extensions, Volumes 1 and 2」（資料番号ＳＣ２３−４１５９およびＳ
Ｃ２３−４１６０）、「AIX Version 4.3 System User's Guide: Communication
s and Networks」（資料番号ＳＣ２３−４１２２）、「AIX Version 4.3 System
User's Guide: Operating System and Devices」（資料番号ＳＣ２３−４１２
１）に記載され、本明細書に参照として組みこまれている。

【００１３】次に図２に移行すると、システム１００での使用に適しているプロセッサ１０
１の一実施形態の簡略ブロック図が提示されている。図示の実施形態のプロセッ
サ１０１は、モノリシック半導体基板上に製作された集積回路スーパスカラ・マ
イクロプロセッサを含む。プロセッサ１０１は、以下により詳細に述べるように
、様々な実行ユニット、レジスタ、バッファ、メモリ、その他の機能ユニットを
含む。図２に示すように、プロセッサ１０１は、バス・インタフェース・ユニッ
ト（ＢＩＵ）２１２およびプロセッサ・バス２１３を介してシステム・バス１１
３に結合されており、そのプロセッサ・バス２１３はシステム・バス１１３のよ
うにアドレス・バス、データ・バス、制御バスを含む。ＢＩＵ２１２は、プロセ
ッサ１０１と、システム・メモリ２５０および大容量記憶装置１０４など、シス
テム・バス１１３に結合された他の装置との情報転送を制御する。プロセッサ１
０１は、システム・バス１１３に結合された他の装置のうち、以下の説明を理解
するために不要であり、したがって、簡略化のために省略されている装置を含む
場合もあることが分かるだろう。

【００１４】ＢＩＵ２１２は、プロセッサ１０１内の命令キャッシュおよびメモリ管理ユニ
ット（ＭＭＵ）２１４とデータ・キャッシュおよびメモリ管理ユニット２１６に
接続されている。命令キャッシュ２１４およびデータ・キャッシュ２１６内のよ
うな高速キャッシュにより、プロセッサ１０１は、システム・メモリ２５０から
以前転送されたデータまたは命令のサブセットに対して比較的高速のアクセス時
間を達成することができ、したがって、データ処理システム１００の動作速度が
改善される。データ・キャッシュ２１６および命令キャッシュ２１４内に記憶さ
れたデータおよび命令はそれぞれアドレス・タグによって識別されアクセスされ
るが、各アドレス・タグは、そのデータまたは命令が常駐するシステム・メモリ
の物理アドレスのうちの指定の数のビット（通常は上位ビット）を含む。順次フ
ェッチ・ユニット２１７は、各クロック・サイクル中に命令キャッシュ２１４か
ら実行用の命令を取り出す。一実施形態では、順次フェッチ・ユニット２１７が
命令キャッシュ２１４からブランチ命令を取り出した場合、そのブランチ命令は
ブランチ処理ユニット（ＢＰＵ）２１８に転送されて実行される。順次フェッチ
・ユニット２１７は非ブランチ命令を命令待ち行列２１９に転送し、そこで命令
は記憶され、プロセッサ１０１の他の機能ユニットによる実行を一時的に保留す
る。ディスパッチ・ユニット２２０は、記憶した命令を待ち行列２１９から取り
出し、その命令を発行ユニット（ＩＳＵ）２２１に転送する責任がある。ディス
パッチ・ユニット２２０は、完了ユニット２４０から受け取った命令完了情報に
部分的に基づいて、発行ユニット２２１への命令のディスパッチをスケジューリ
ングする。ＩＳＵ２２１の図示の実施形態は、１つまたは複数の発行待ち行列２
２２ａ、２２２ｂ、２２２ｃなど（まとめてまたは総称して発行待ち行列（複数
も可）２２２という）を含む。ＩＳＵ２２１は、可能な場合には各サイクルで新
しい命令を実行ユニットに発行することにより、完全にロードされたパイプライ
ンを維持する責任がある。一実施形態では、命令はＩＳＵ２２１からout-of-ord
er方式で発行される。

【００１５】図示の実施形態では、プロセッサ１０１の実行回路は、ＢＰＵ２１８に加え、
固定小数点ユニット（ＦＸＵ）２２３、ロード／ストア・ユニット（ＬＳＵ）２
２８、浮動小数点ユニット（ＦＰＵ）２３０を含む、順次命令を実行するための
複数の機能ユニットを含む。それぞれの実行ユニット２２３、２２８、２３０は
通常、パイプライン方式で各プロセッサ・サイクル中に特定のタイプの１つまた
は複数の命令を実行する。たとえば、ＦＸＵ２２３は、指定の汎用レジスタ（Ｇ
ＰＲ）２３２から受け取ったソース・オペランドを使用して、加算、減算、ＡＮ
Ｄ、ＯＲ、ＸＯＲなどの固定小数点数理論理演算を実行する。固定小数点命令の
実行に続いて、ＦＸＵ２２３はその命令のデータ結果をＧＰＲバッファ２３２に
出力し、そのバッファは結果バス２６２上で受け取った結果用の記憶域を提供す
る。ＦＰＵ２３０は通常、浮動小数点レジスタ（ＦＰＲ）２３６から受け取った
ソース・オペランドに対して浮動小数点乗算および除算などの単精度および倍精
度の浮動小数点算術論理演算を実行する。ＦＰＵ２３０は浮動小数点命令の実行
から得られるデータを選択したＦＰＲバッファ２３６に出力し、そのバッファは
その結果データを記憶する。その名前が暗示するように、ＬＳＵ２２８は通常、
データ・キャッシュ２１６、低レベル・キャッシュ・メモリ（図示せず）、また
はシステム・メモリ２５０から、選択したＧＰＲ２３２またはＦＰＲ２３６にデ
ータをロードする浮動小数点および固定小数点のロード命令と、ＧＰＲ２３２ま
たはＦＰＲ２３６のうちの選択した１つのレジスタからデータ・キャッシュ２１
６に、最終的にはシステム・メモリ２５０にデータを記憶する浮動小数点および
固定小数点のストア命令を実行する。

【００１６】好ましい実施形態では、プロセッサ１０１はout-of-order命令実行を使用して
、そのスーパスカラ・アーキテクチャのパフォーマンスをさらに改善する。した
がって、データ依存関係を維持する限り、命令の元のプログラム順序とは異なる
順序でＦＸＵ２２３、ＬＳＵ２２８、ＦＰＵ２３０によって命令を実行すること
ができる。前に示した通り、一連のパイプライン・ステージとしてＦＸＵ２２３
、ＬＳＵ２２８、ＦＰＵ２３０のそれぞれによって命令が処理される。一実施形
態のプロセッサ１０１は、５つの別個のパイプライン・ステージ、すなわち、フ
ェッチ、デコード／ディスパッチ、実行、終了、完了を含む。

【００１７】フェッチ・ステージ中に、順次フェッチ・ユニット２１７は、命令キャッシュ
２１４から１つまたは複数の非ブランチ命令を取り出し、フェッチした命令を命
令待ち行列２１９内に記憶する。これに対して、順次フェッチ・ユニット２１７
は、ブランチ命令があると、そのブランチ命令を実行のために命令ストリームか
らＢＰＵ２１８に転送する。ＢＰＵ２１８は、一実施形態では、ブランチが行わ
れるかどうかを予測することにより、ＢＰＵ２１８が未解決の条件付きブランチ
命令を投機的に実行できるようにするブランチ履歴テーブルなどの動的予測メカ
ニズムを含む、ブランチ予測メカニズムを含む。

【００１８】デコード／ディスパッチ・ステージ中に、ディスパッチ・ユニット２２０およ
びＩＳＵ２２１は、１つまたは複数の命令をデコードし、発行待ち行列２２２か
ら実行ユニット２２３、２２８、２３０に通常はプログラム順序で発行する。Ｉ
ＳＵ２２１は、命令の結果（複数も可）をＧＰＲ２３２またはＦＰＲ２３７にコ
ミットする前にその結果（複数も可）を一時的に記憶するために、ＧＰＲリネー
ム・バッファ２３３またはＦＰＲリネーム・バッファ２３７内の１つまたは複数
のリネーム・バッファを割り振ることができる。さらに、どの命令が完了したか
を追跡する手段として完了ユニット２４０の複数スロット完了バッファ（完了テ
ーブル）内に命令（またはその命令を表す命令識別子またはタグ）を記憶するこ
ともできる。

【００１９】実行ステージ中に、実行ユニット２２３、２２８、２３０は、示された演算用
のオペランドおよび実行資源が使用可能になったときに便宜的にＩＳＵ２２０か
ら発行された命令を実行する。一実施形態の各実行ユニット２２３、２２８、２
３０は、オペランドまたは実行資源が使用可能になるまで、その実行ユニットに
ディスパッチされた命令を記憶する予約ステーションを装備している。命令の実
行が終了した後、実行ユニット２２３、２２８、２３０は、データ結果がある場
合に、命令タイプに応じてそのデータ結果をＧＰＲまたはＦＰＲのいずれかに記
憶する。図示の実施形態では、実行ユニット２２３、２２８、２３０は、どの命
令が実行を終了したかを完了ユニット２４０に通知する。最後に、完了ユニット
２４０の完了テーブルを離れたプログラム順序で命令が完了する。ＦＸＵ２２３
およびＦＰＵ２３０によって実行される命令は、命令のデータ結果をＧＰＲリネ
ーム・バッファ２３３およびＦＰＲリネーム・バッファ２３７からＧＰＲ２３２
およびＦＰＲ２３６にそれぞれ転送することによって完了する。

【００２０】プロセッサ１０１は好ましくは、out-of-order方式の投機的命令実行をサポー
トする。命令は、予測したブランチ指示で投機的になる場合もあれば、割込み条
件を発生する可能性のある命令以上に投機的になる場合もある。ブランチ予測違
い（branch misprediction）または割込みが発生した場合、ハードウェアはパイ
プラインからの望ましくない命令を自動的にフラッシュし、望ましくない結果を
廃棄し、精密な例外と適切なブランチ経路に沿って順次実行した命令の効果を提
示する。間違った投機的結果は１クロック・サイクル中にすべてのユニットから
選択的にフラッシュされ、命令発行によって次のクロック・サイクルを再開する
ことができる。プロセッサ１０１は、複数のロード・ユニットと単一のストア・
ユニットを含むことができる。しかし、プロセッサ１０１が単一ロード／ストア
・ユニットなどの他の構成を含むことができることは当業者には明白であるはず
である。

【００２１】命令を発行すると、ＩＳＵ２２１は、任意の２つの命令間の相対年齢（relati
ve age）を容易に決定することができるように、その命令にタグを付ける。一実
施形態では、整数値（ＩＴＡＧ）で順次命令にタグを付ける。発行した命令の発
行順序および相対年齢を決定するためのメカニズムを提供することに加え、ＩＴ
ＡＧはそれぞれの対応する命令の速記表現を提供する。各命令のＩＴＡＧ値は、
それが常駐するパイプライン・ステージと待ち行列項目に関連づけられている。
ＩＴＡＧを使用すると、（プロセッサ生成のフラッシュ命令に応答して）フラッ
シュ命令に関連するＩＴＡＧと特定の待ち行列項目または機能ユニット・ステー
ジとの規模比較が実行され、フラッシュした命令と同じくらい新しいかまたはフ
ラッシュした命令より新しい命令（すなわち、同時に発行されたかまたは後で発
行されたもの）に関するものである場合にその項目が無効になるという命令フラ
ッシュ・メカニズムが容易になる。フラッシュした命令（およびその後のすべて
の命令）のすべてのレムナントはマシンから「フラッシュ」され、フェッチ・ユ
ニットは「フラッシュした」命令のアドレスから始まるフェッチにリダイレクト
される。

【００２２】本発明の一実施形態は、複数のリネーム項目を必要とする命令に関する命令発
行とレジスタ・リネームを処理する方法を企図するものである。ＰｏｗｅｒＰＣ
（Ｒ）命令セットなどの多くの命令セットでは、大多数の命令は単一レジスタの
みの内容を更新する。（ＰｏｗｅｒＰＣ（Ｒ）命令セットに関する詳細情報は、
モトローラ社から入手可能な「PowerPC 620 RISC Microprocessor User's Manua
l」（資料番号ＭＰＣ６２０ＵＭ／ＡＤ）に記載されているが、これは参照によ
り本明細書に組み込まれる。）したがって、このような命令は、その結果がＧＰ
Ｒ２３２にコミットされるまでその命令の結果を一時的に記憶するために、単一
のリネーム・レジスタ項目のみを必要とする。複数の並列実行ユニットを使用し
、サイクルあたり複数の命令を発行できるようになっているスーパスカラ・マシ
ンでは、命令とその結果に割り振られたリネーム・レジスタとの１対１の対応に
より、発行およびリネーム割振りプロセスが簡略化される。たとえば、プロセッ
サがサイクルあたり４つの命令を発行可能である場合、レジスタ・リネーム制御
論理回路はサイクルあたり最高４つのリネーム・レジスタを割り振るように設計
されている。しかし、命令セットが複数のリネーム・レジスタの割振りを必要と
する１つまたは複数の命令も含む場合、発行／リネーム・メカニズムがより複雑
なものになる。たとえば、ＰｏｗｅｒＰＣ（Ｒ）命令セットでは、いくつかの命
令は２つのレジスタ（結果レジスタ）の内容に影響する。この開示のため、複数
のレジスタの内容に影響する命令は複雑命令という。プロセッサがout-of-order
実行を完全にサポートする場合、結果レジスタのそれぞれには、複雑命令が発行
されたサイクル中にリネーム・レジスタが割り振られなければならない。従来、
複雑命令に必要な複数のリネーム・レジスタは、複雑命令が発行されたサイクル
中に他の命令が発行されるのを防止していた。所与のサイクル中に割り振られる
必要があるリネーム・レジスタの総数が指定の最大値を超えたかどうかを判定す
るために、発行論理回路が必要であった。たとえば、プロセッサがサイクルあた
り４つの「単純」命令（すなわち、単一レジスタのみの内容に影響する命令）を
発行可能で（しかも、そのサイクル中に４つのリネーム・レジスタを割振り可能
で）あり、プロセッサの発行ユニットが複雑命令を発行した場合、発行ユニット
は、他の３つの発行スロットがすべて同じサイクル中に命令を発行するのを防止
することが要求されるだろう。すなわち、プロセッサは、３つの残りの発行スロ
ットのうちの１つが命令を発行するのを防止しなければならず、さらに、２つの
残りの発行スロットが複雑命令そのものを発行しなかったことを保証しなければ
ならないだろう。したがって、複数発行スーパスカラ・マイクロプロセッサ内に
複雑命令が存在すると発行論理回路の複雑さが増し、最大数の命令が単一サイク
ル中に発行されるのを防止することにより、パフォーマンスが悪影響を受けてい
た。

【００２３】次に図３に移行すると、本発明の一実施形態によるリオーダ・バッファ３００
が示されている。リオーダ・バッファ３００は、１次リオーダ・バッファ３０２
と２次リオーダ・バッファ３０３とを含む。１次リオーダ・バッファ３０２は１
次リネームＧＰＲ３０４を含み、２次リオーダ・バッファ３０３は２次リネーム
ＧＰＲ３０６を含む。１次リネームＧＰＲ３０２と２次リネームＧＰＲ３０４の
組合せは、図２に参照番号２３３で示されているリネームＧＰＲを含む。（リオ
ーダ・バッファ３００の図示の実施形態はリネームＧＰＲ２３３に固有のもので
あるが、リオーダ・バッファ３００は、リネームＧＰＲ２３３の代わりにまたは
リネームＧＰＲ２３３に加えて、リネームＦＰＲ２３７を含むこともできる。）
好ましい実施形態では、１次リオーダ・バッファ３０２において単純命令用のす
べてのリネーム・レジスタが割り振られている。また、１次リオーダ・バッファ
３０２は、各複雑命令に関連する１次レジスタのために１次リネーム・レジスタ
３０４を割り振るためにも使用する。これに対して２次リオーダ・バッファ３０
３は、単純命令を発行したときは使用しないが、複雑命令の２次レジスタのため
に２次リネーム・レジスタ３０６を割り振るために使用する。ＰｏｗｅｒＰＣ命
令セットを使用する一例として、単純ロード命令LOAD RT, RA, RBを発行した場
合、その命令が最終的にコミットされるまで（すなわち、その結果がＧＰＲ（レ
ジスタ・ファイル）２３２内のターゲット・レジスタＲＴに書き込まれるとき）
その命令の結果を保持する命令が発行されると、リネーム・レジスタ３０４が割
り振られる。この例のロード命令は単一レジスタのみの内容に影響するので、単
一リネーム・レジスタのみを割り振る必要がある。第２の例では、更新付きロー
ド（ＬＵ）命令などの複雑命令を発行する（たとえば、LU RT, RA, RB）。この
更新付きロード命令では、レジスタＲＡおよびＲＢの内容に基づいて有効アドレ
スを計算し、計算した有効アドレスが付いたメモリ位置の内容をターゲット・レ
ジスタＲＴにロードする。また、この命令は、計算した有効アドレスの値でＲＡ
の内容を更新する。ＬＵ命令は、その命令が実行されるたびにソース・メモリ・
アドレスを自動的にインクリメントする単一命令を提供することによるソフトウ
ェア・ループの実現を含む、様々な状況で有用である。ＬＵ命令は、２つのレジ
スタの内容に影響し、したがって、発行したときに２つのリネーム・レジスタを
割り振る必要があるので、複雑命令である。図示の実施形態では、レジスタＡお
よびＢ内のオペランド情報がデュアル・ポート式レジスタ・ファイル２３２から
読み取られる。しかし、この例では、１次リオーダ・バッファ３０２内の１次リ
ネーム・レジスタ３０４がターゲット・レジスタＲＴのために割り振られ、２次
リオーダ・バッファ３０３では２次レジスタ（ＲＡ）値のために２次リネーム・
レジスタ３０６が割り振られる。比較すると、従来通りに設計されたプロセッサ
は、命令が発行されたときに（単一）リオーダ・バッファ内のＲＴおよびＲＡ両
方のレジスタのためにレジスタを割り振らざるを得なくなるだろう。このプロセ
ッサはサイクルあたり指定の数のレジスタを割り振ることしかできず、しかも、
ＬＵ命令はこれらの割振りスロットのうちの２つを消費するので、従来のプロセ
ッサは、望ましくないことに、ＬＵ命令が発行されたサイクル中に最大許容数よ
り少ない命令を発行せざるを得なくなるだろう。この例ではＬＵ命令を使用する
が、ＰｏｗｅｒＰＣ命令セットおよび１つまたは複数の複雑命令を含むその他の
命令セットに精通した人であれば、２つのレジスタの内容に影響するどの命令で
も本明細書に開示したように２次リオーダ・バッファを含めたことによって利益
を得ることが分かるだろう。

【００２４】レジスタ・リネームのために２次リオーダ・バッファ３０３の形の追加資源を
組み込むことにより、有利なことに、プロセッサ１０１は、命令が単純命令か、
複雑命令か、あるいはその組合せかにかかわらず、各サイクル中に最大許容数の
命令を発行することができる（最大数の命令が発行できる状態になっているもの
と想定する）。２次リオーダ・バッファ３０３によって提供された資源がない場
合、複雑命令の発行は、プロセッサの（単一）リオーダ・バッファ内の複数のリ
ネーム・レジスタの割振りを必要とすることになるだろう。単一リオーダ・バッ
ファが単一サイクルで割り振ることができるリネーム・レジスタの数はアーキテ
クチャ上、制限されているので、複雑命令は、複雑命令が発行されたサイクル中
にプロセッサが最大数の命令を発行するのを防止することになるだろう。そのう
え、複雑命令がある場合に、所与のサイクル中にいくつの命令が発行可能である
かを決定するために必要なインテリジェンスにより、発行論理回路に対して要求
される複雑さが大幅に増大する。

【００２５】２次リオーダ・バッファ３０３の存在により、そのオペランド・レジスタのい
ずれかが現在、２次リオーダ・バッファ３０３で割り振られているかどうかを命
令が判定するメカニズムが必要になる。一実施形態のプロセッサ１０１では、両
方のリオーダ・バッファをサーチして依存関係を決定するために複雑命令が移行
中である間に各命令が発行されることが要求されるだけである。この実施形態は
簡略化の利点を享受しているが、望ましくないことに、発行サイクル中にサーチ
されるリオーダ・バッファ項目の数が増加する。所与のサイクル中に発行できる
命令の数が増加するにつれて、命令の依存関係を決定するために検査しなければ
ならないリオーダ・バッファ項目の数を最小限にすることがますます望ましいこ
とになる。この問題に対処するため、本発明の一実施形態では、ある命令の最初
の実行時にリオーダ・バッファ情報が記録されるメカニズムを企図している。そ
の場合、リオーダ・バッファ情報は、その命令がどのリオーダ・バッファを検査
しなければならないかを決定するために、その命令のその後の実行時に使用され
る。図４に移行すると、以下のコード・セグメント例に関連して、この実施形態
の例証となる流れ図が記載されている。 LQ R4, R25, R26 ADD R7, R5, R2

【００２６】ブロック４００は、ＬＱ（ロード・クワッド）命令の発行を表している。ＬＱ
命令は、ＰｏｗｅｒＰＣ（Ｒ）命令セット内の複雑命令であって、示されている
ターゲット・レジスタ（Ｒ４）ならびに次の順次レジスタ（Ｒ５）の内容に影響
するものである。ＡＤＤ命令はＲ５ソース・オペランドを含むので、ＡＤＤ命令
はＬＱ命令に依存する。このコード・セグメントの最初の実行時に、好ましくは
発行ユニットにより、ＬＱ命令に続くすべての命令（すなわち、ＬＱ命令が発行
された後であるがＬＱ命令がコミットされる前に発行されるすべての命令）が両
方のリオーダ・バッファをサーチして依存関係を検出せざるを得ない。したがっ
て、ブロック４０２で発行ユニットはＲ５に対するＡＤＤ命令の依存関係を検出
するが、そのＲ５は２次リオーダ・バッファ３０３の２次リネーム・レジスタ３
０６で割り振られている。ＡＤＤ命令とＬＱ命令との２次バッファの依存関係を
検出すると、発行ユニット２２１は、ＡＤＤ命令の依存関係が２次リオーダ・バ
ッファ３０３で見つかったことを示すリオーダ・バッファ情報を記録するように
構成されている（ブロック４０４）。一実施形態では、このリオーダ・バッファ
情報は、ＡＤＤ命令を含む命令キャッシュ項目内の専用ビットまたはビット・セ
ットに記憶される。その後、ＡＤＤ命令が実行されると（ブロック４０６）、Ａ
ＤＤ命令に対応するリオーダ・バッファ情報は、（最初の実行時と同様に）ＡＤ
Ｄ命令の依存関係が２次リオーダ・バッファで見つかったことを発行ユニット２
２１に通知する。このようにして、発行ユニット２２１は有利なことに、リオー
ダ・バッファ３００に対するそのサーチを２次リオーダ・バッファ３０３に制限
することができる。この例はＬＱ命令に関連して説明しているが、このメカニズ
ムはＰｏｗｅｒＰＣ（Ｒ）のＬＵ命令などの他の複雑命令とともに使用する。し
たがって、２次リオーダ・バッファを選択的に使用可能にしたり使用不能にする
ためのメカニズムとともに２次発行バッファを組み込むことにより、本発明は、
発行ユニット上でのパフォーマンスの犠牲を最小限にしながらサイクルあたり最
大の命令発行を可能にするための手段を有利に提供する。

【００２７】本発明が、好ましい実施形態により、２次リネーム方式で２次レジスタを割り
振るための追加のリネーム機構を実現することにより、マイクロプロセッサのパ
フォーマンスにおいて発行／リネーム・メカニズムのパフォーマンスの簡略化お
よび改善を企図することは、この開示内容の恩恵を受ける当業者には明白なこと
になるだろう。

【図面の簡単な説明】

【図１】データ処理システムのブロック図である。

【図２】図１のデータ処理システムでの使用に適しているプロセッサのブロック図であ
る。

【図３】本発明の一実施形態による１次リオーダ・バッファと２次リオーダ・バッファ
を含むリオーダ・バッファのブロック図である。

【図４】本発明の一実施形態の動作を示す流れ図である。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ，ＴＲ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＭＺ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＧ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＢＺ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＤＺ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＭＺ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷＦターム(参考） 5B013 AA12 AA13 CC08 CC10 DD04 5B033 AA03 AA14 BE06 DD02 DD03 DD04

Claims

【特許請求の範囲】

【請求項１】マイクロプロセッサ内で命令を実行する方法であって、複数レジスタの内容に影響する命令を発行することと、命令の影響を受ける第１のレジスタの内容を記憶するために第１のリオーダ・
バッファから第１のリネーム・レジスタを割り振ることと、命令の影響を受ける第２のレジスタの内容を記憶するために第２のリオーダ・
バッファから第２のリネーム・レジスタを割り振ることを含み、第２のリオーダ・バッファを使用する第２のリネーム・レジスタの割振りによ
り、命令が第１のリオーダ・バッファ内の複数の割振りスロットを消費するのを
防止する方法。
【請求項２】発行した命令が複雑命令を含み、第１のリオーダ・バッファがサイクルあたり
最大数の割振りをサポートし、複雑命令を発行することが、単一サイクル中に複
雑命令を含む１組の命令を発行することを含み、その１組の命令内の命令の数が
第１のリオーダ・バッファによってサポートされるサイクルあたりの最大数の割
振りに等しい、請求項１に記載の方法。
【請求項３】１組の命令が、単一レジスタの内容に影響する複雑命令と単純命令の組合せを
含むことができる、請求項２に記載の方法。
【請求項４】発行した命令が複雑命令を含み、複雑命令の発行以後、第２の命令を発行する
ことであって、第２の命令が第２のリネーム・レジスタに依存することと、それ
に応答してリオーダ・バッファ情報を第２の命令に関連づけることであって、そ
のリオーダ・バッファ情報が２次バッファ内で割り振られたレジスタに対する第
２の命令の依存関係を示すことをさらに含む、請求項１または２に記載の方法。
【請求項５】リオーダ・バッファ情報を記録した後で第２の命令を発行したときに、リオー
ダ・バッファ情報を使用して、第２の命令のリオーダ・ルックアップを２次リオ
ーダ・バッファ制限することをさらに含む、請求項４に記載の方法。
【請求項６】第２のリネーム・レジスタの割振りにより、プロセッサが発行できる最大数の
命令が命令タイプと無関係であるように第１のリオーダ・バッファ・スロットが
保持される、請求項２に記載の方法。
【請求項７】命令キャッシュから命令を受け取るように構成され、実行用の命令を発行する
ように適合された発行ユニットと、命令の１次レジスタ用にリネーム・レジスタを割り振るように専用化された第
１のリオーダ・バッファと、命令の２次レジスタ用にリネーム・レジスタを割り振るように専用化された第
２のリオーダ・バッファとを含み、発行ユニットが、少なくとも２つのレジスタの内容に影響する複雑命令を発行
したときに、その命令の１次レジスタ用に第１のリオーダ・バッファ内のリネー
ム・レジスタを割り振り、その命令の２次レジスタ用に第２のリオーダ・バッフ
ァ内のリネーム・レジスタを割り振るように構成されているプロセッサ。
【請求項８】発行ユニットが、第２の命令が第１の命令に依存しているかどうかを判定する
ために第２の命令を発行したときに１次および２次リオーダ・バッファをチェッ
クするようにさらに構成されている、請求項７に記載のプロセッサ。
【請求項９】第２の命令が２次リオーダ・バッファ内で割り振られたレジスタに依存するこ
とを検出したときに、発行ユニットが第２の命令に対応する命令キャッシュ項目
にリオーダ・バッファ情報を記録し、そのリオーダ・バッファ情報が２次リオー
ダ・バッファ内の項目に対する第２の命令の依存関係を示す、請求項８に記載の
プロセッサ。
【請求項１０】その後、リオーダ・バッファ情報を記録した後で第２の命令を発行したときに
、そのリオーダ・バッファ情報に応答して、２次リオーダ・バッファのみをチェ
ックして依存関係の有無を確認するように、発行ユニットが構成されている、請
求項９に記載のプロセッサ。
【請求項１１】システム・メモリと、入力手段と、ディスプレイと、請求項７ないし１０のいずれかに記載のプロセッサとを含むデータ処理システ
ム。