JP7156776B2

JP7156776B2 - リタイアフェーズ中に部分書込み結果をマージするシステムおよび方法

Info

Publication number: JP7156776B2
Application number: JP2016224437A
Authority: JP
Inventors: ▲費▼▲曉▼▲龍▼
Original assignee: 上海兆芯集成電路有限公司
Priority date: 2016-06-22
Filing date: 2016-11-17
Publication date: 2022-10-19
Anticipated expiration: 2036-11-17
Also published as: EP3260978A1; CN106095393A; CN106095393B; JP2017228267A; US20170371667A1; US10042646B2

Description

本発明は、一般に、プロセッサにおける記憶結果サイズの問題を解決するための物理レジスタリネーミングに関し、より詳細には、リタイアフェーズにおける後続部分書込み結果を、先行するより大きい書込み結果とマージすることに関する。

プロセッサは、書込み動作の結果を記憶するレジスタのセットを組み込んでいる。書込み動作は、インテル（登録商標）のｘ８６アーキテクチャなどのプロセッサの標準命令セットアーキテクチャ（ＩＳＡ）のサブセットによって実行される。書込み動作を実行する命令は、結果を記憶するための所定のアーキテクチャレジスタのセットの少なくとも１つを参照することができる。より最近のプロセッサ構成は、プロセッサ設計をより簡潔にし、より便利な設計拡張を可能にする物理レジスタファイル（ＰＲＦ）リネーミングスタイルを実装する。ＰＲＦリネーミングを有するプロセッサは、演算結果を記憶するための物理レジスタファイル（ＰＲＦ）と、アーキテクチャレジスタを物理レジスタにマッピングするためのリネーミング構造を組み込んでいます。ＰＲＦは、複数の物理レジスタのセットであり、それぞれがインデックスまたはポインタなどのセットの固有セットを使用して識別される。前記リネーミング構造は、対応する物理レジスタのインデックスへの命令によって参照されるアーキテクチャレジスタをマッピングする。

ソフトウェアプログラムまたはアプリケーションの実行中に、命令の結果を記憶するためのアーキテクチャレジスタを参照する命令に遭遇すると、前記プロセッサは物理レジスタインデックスの「フリーリスト」の中から利用可能な物理レジスタを割り当て、前記選択されたインデックスを前記命令にアタッチあるいはアサインし、リネーミング構造の推定部分を更新して、前記アーキテクチャレジスタを前記選択された物理レジスタにマッピングする。前記命令が実行されると、前記インデックスを使用して前記物理レジスタにアクセスし、前記結果を記憶する。前記命令がリタイアされると、前記物理レジスタを前記指定されたアーキテクチャレジスタにマッピングするために、前記インデックスを前記リネーミング構造のリタイア部分（または異なるリネーミング構造）に移動してもよい。物理からアーキテクチャレジスタへのマッピングは、上書きまたは再定義されるまで、後続読取り動作によって使用されてもよい。物理アーキテクチャレジスタの別のセットは必要としない、代わりに、アーキテクチャ識別子などは単に物理レジスタにマッピングされる。レジスタ間で値を移動させるのではなく、単に前記インデックスを移動またはリマッピングするたけで、前記ＰＲＦリネーミングスタイルがより効率的になる。

前記アーキテクチャが複雑なオペランドサイズを使用し、部分書込み動作がレジスタ全体の一部のみを修正することを可能にすると、サイジングの問題が生じる。前記ｘ８６アーキテクチャは、例えば、このような複雑なオペランドサイズを使用するが、本発明はｘ８６アーキテクチャに限定されるものではない。

複雑なオペランドサイズの例として、書込み命令は、６４ビットレジスタの８ビット、１６ビット、３２ビットまたは６４ビットを修正するために実行されてもよい、前記６４ビットレジスタに、各より大きいサイズはより小さい書込みサイズを組み込む（レジスタの共通の端部から参照されるため）。同じアーキテクチャレジスタを参照しても、各命令は、別々の物理レジスタによってアサインされる。同じアーキテクチャレジスタへの優先書込み動作と同じまたはより大きいサイズの後続書込み動作は、それ以上修正することなくシステム内で適切に処理される。しかしながら、同じアーキテクチャレジスタを参照する読出し動作のソースが後続書込み動作よりも大きい場合、前記同じアーキテクチャレジスタへの優先書込み動作よりも小さい後続書込み動作は、完全な結果を保持しないので、前記同じアーキテクチャレジスタを参照する次の読出し動作に問題を引き起こす。

複数のソース依存性はこの問題を解決することができるが、少なくともＰＲＦのための２重リードポートを必要とする。別の可能な解決策としては、前記物理レジスタに記憶された値を読出し命令の前にマージすることであるが、このためには、発行された命令のすべてのソースが同じサイクルで検出される必要があり、複雑なケースでは発行の帯域幅が減少する可能性がある。この予備のマージ解決手段は、付加の非効率性を引き起こし、重大なタイミングの問題を引き起こす可能性がある。

一実施形態によるプロセッサは、物理レジスタファイル、リネームテーブル、マッピングロジック、サイズトラッキングロジック、およびマージロジックを含むことを特徴とする。前記物理レジスタファイルは、複数の物理レジスタを含み、各物理レジスタは、対応する物理レジスタインデックスによって識別される。前記リネームテーブルは、複数のエントリを含み、各エントリは、複数のアーキテクチャレジスタのうちの１つ、より大きい物理レジスタインデックス、およびより小さい物理レジスタインデックスを識別するアーキテクチャ識別子を記憶する。マッピングロジックは、部分書込み命令より大きい書込みサイズを有する先行書込み命令に対する前記リネームテーブル内の既存エントリによってすでに識別されたアーキテクチャレジスタを指定する前記部分書込み命令を検出する。そうである場合、前記マッピングロジックは第１の物理レジスタを割り当て、前記既存エントリの前記より小さい物理レジスタインデックスを第１の物理レジスタの第１の物理レジスタインデックスで更新する。前記サイズトラッキングロジックは、前記先行書込み命令の前記書込みサイズが前記部分書込み命令より大きい場合、前記部分書込み命令に対するマージ指示をセットする。前記マージロジックは、前記マージ指示に応じる前記部分書込み命令のリタイアメント中に、前記部分書込み命令の結果を第２の物理レジスタとマージする。前記第２の物理レジスタは、前記既存エントリの前記より大きい物理レジスタインデックスによって識別される。

前記サイズトラッキングロジックは、読出し命令が前記先行および部分書込み命令の両方にマッピングされた同じアーキテクチャレジスタとしてソースを指定するか否かを判定するために、前記既存エントリの最後書込みサイズ位置にアクセスし、前記最後書込みサイズ位置は、最後書込み命令の書込みサイズを記憶し、前記最後書込み命令は、前記先行書込み命令および前記部分書込み命令の後の１つである。前記読出し命令の前記ソースのサイズが前記最後書込み命令の前記書込みサイズより大きい場合、前記サイズトラッキングロジックは、前記読出し命令が前記先行および部分書込み命令の両方にマッピングされた同じアーキテクチャレジスタとして前記ソースを指定するか否かを判定する。

前記サイズトラッキングロジックは、読出し命令が、前記先行および部分書込み命令の両方にマッピングされた同じアーキテクチャレジスタとしてソースを指定していると判定することができ、そうであれば、前記読出し命令を自己直列化するようにマーキングし、前記読出し命令を前記先行書込み命令に依存するようにセットする。

前記プロセッサは、前記部分書込み命令のリタイアメントの時、前記第１の物理レジスタをリタイアされた非アーキテクチャ状態に移行させ、前記先行書込み命令のリタイアメントの時、前記第２の物理レジスタをリタイアされたアーキテクチャ状態に移行させるリネーミングスイッチロジックをさらに含んでもよい。前記リネーミングスイッチロジックは、後続命令が、前記リネームテーブルの前記既存エントリに識別された同じアーキテクチャレジスタをリマッピングする時、前記第１および第２の物理レジスタをさらにリサイクルしてもよい。

前記プロセッサは、ライトバック中に、前記部分書込み命令の前記結果を記憶する部分書込みバッファをさらに含んでもよい。この場合、前記マージロジックが、代わりに、前記部分書込みバッファから前記部分書込み命令の前記結果を読出す。

前記先行書込み命令の前記書込みサイズは、前記既存エントリのより大きい書込みサイズ位置に記憶されてもよい。この場合、前記マッピングロジックは、前記既存エントリの前記より小さい物理レジスタインデックスを更新するか否かを判定するために、前記より大きい書込みサイズ位置にアクセスしてもよい。また、前記サイズトラッキングロジックは、前記マージ指示を提供するか否かを判定するために、前記より大きい書込みサイズ位置にアクセスしてもよい。前記マージ指示は、前記部分書込み命令に対するリオーダバッファのエントリにマージビットとして記憶してもよい。

部分書込み結果をマージしてプロセッサ内のサイズ問題を解決する方法であって、第１の物理レジスタをレジスタファイルから第１の書込み命令に割り当て、前記第１の物理レジスタをアーキテクチャレジスタにマッピングするステップと、前記アーキテクチャレジスタを参照して、第２の物理レジスタを前記レジスタファイルから第２の書込み命令に割り当てるステップと、前記第２の書込み命令の書込みサイズを前記第１の書込み命令の書込みサイズと比較するステップと、前記第１と第２の書込み命令を比較の結果に従って前記第２の物理レジスタを前記アーキテクチャレジスタにマッピングするステップと、前記第２の書込み命令の前記書込みサイズが前記第１の書込み命令の書込みサイズよりも小さい場合、前記第２の書込み命令に対してマージ指示を提供するステップと、前記第２の書込み命令のリタイアメントの時、前記第２の書込み命令の結果を、前記マージ指示に応じて前記第１の物理レジスタにマージするステップとを備えることを特徴とする。

この方法は、前記アーキテクチャレジスタに対するリネームテーブルのエントリのより大きい位置に第１のインデックスを記憶するステップを含んでもよい。この方法は、前記第２の書込み命令の前記書込みサイズが前記第１の書込み命令の前記書込みサイズよりも小さい場合、前記エントリのより小さい位置に第２のインデックスを記憶するステップと、前記第２の書込み命令の前記書込みサイズが前記第１の書込み命令の前記書込みサイズよりも小さくない場合、前記第２のインデックスを前記エントリの前記より大きい位置に記憶するステップとを含んでもよい。この方法は、前記第２の書込み命令にマッピングされたリネームテーブルのエントリに記憶された前記第２の書込み命令のサイズ値を読出すステップを含んでもよい。この方法は、読出し命令が、前記第１の書込み命令および前記第２の書込み命令の両方にマッピングされた同じアーキテクチャレジスタをソースとして指定する時、前記読出し命令を自己直列化するようにマーキングするステップと、前記読出し命令を第１の書込み命令に依存させるステップとをさらに含んでもよい。

この方法は、前記第２の書込み命令のリタイアメントの時、前記第１の物理レジスタをリタイアされた非アーキテクチャ状態に移行させるステップと、前記第１の書込み命令のリタイアメントの時、前記第２の物理レジスタをリタイアされたアーキテクチャ状態に移行させるステップとをさらに含んでもよい。この方法は、後続命令が前記リネームテーブル内の前記アーキテクチャレジスタをリマッピングする時、前記第１および第２の物理レジスタをリサイクルするステップを含んでもよい。

前記第２の書込み命令の前記書込みサイズが、前記第１の書込み命令の前記書込みサイズよりも小さい場合、前記第２の書込み命令のライトバック中に前記第２の書込み命令の結果を部分書込みバッファに記憶するステップと、前記マージ動作中に、前記第２の書込み命令の結果を前記部分書込みバッファから読出すステップとをさらに含んでもよい。この方法は、前記第１の書込み命令の前記書込みサイズを記憶し、前記第２の書込み命令の前記書込みサイズを前記第１の書込み命令の前記記憶された書込みサイズと比較するステップを含んでもよい。この方法は、前記マージ指示を、前記第２の書込み命令に対するリオーダバッファのエントリにマージビットとして記憶するステップを含んでもよい。

本発明の特徴および利点は、以下の説明および添付図面によってよりよく理解されるであろう。

図１は、本発明の一実施形態に係る実装されたスーパースカラパイプラインプロセッサの簡略ブロック図である。図２は、本発明の一実施形態に係る図１のリネームテーブルの図である。図３は、一実施形態に係る図１のプロセッサの異なる処理段階中の命令μｏｐ１、μｏｐ２、およびμｏｐ３のそれぞれの動作を示す一連の図である。図４は、一実施形態に係るサイズ分析の実行、マージ動作、命令依存性判定、および物理レジスタの状態のための、ＲＡＴフェーズ中の図１のＲＡＴ内などのフロントエンドでの動作、およびリタイアフェーズ中の図１のＲＯＢ内などのバックエンドでの動作を示すブロック図である。図５は、図４のリネーミングスイッチロジックによって制御される、図１の物理レジスタファイルの各物理レジスタの状態を示す状態図である。図６は、本発明の一実施形態に係る書込み命令のリタイアフェーズ中の部分書込み結果をマージする方法を示すフローチャート図である。

本発明者は、複雑なオペランドサイズを使用する命令セットアーキテクチャによって引き起こされるＰＲＦリネームスタイルのサイジングの問題を認識している。したがって、本発明者は部分書込み結果を記憶し、その結果をリタイアフェーズ中にマージするシステムおよび方法を開発しました。リネームテーブル内の各アーキテクチャエントリには、より大きい書込みインデックス位置と、より小さい書込みインデックス位置を含む。いくつかの実施形態では、各アーキテクチャエントリは、より大きい書込みサイズ位置および最後書込みサイズ位置をさらに含む。マッピングロジックは、各書込み命令に対して物理レジスタを割り当て、それに応じて前記リネームテーブルを更新する。サイズトラッキングロジックは、前記リネームテーブルを監視し、より小さい部分を先行するより大きい書込み命令として同じアーキテクチャレジスタに書込む部分書込み命令に対してマージ指示を提供する。いくつかの実施形態では、部分書込みバッファは、フルレジスタサイズの一部のみを修正する部分書込み命令の結果を一時的に記憶するために、提供される。前記マージ指示に前記第２の書込み指示が与えられている場合、前記第２およびより小さいサイズの書込み命令がリタイアすると、リタイアフェーズのマージロジックは、前記第２およびより小さいサイズの書込み命令の前記結果を、前記より大きい書込み動作の前記物理レジスタとマージする。前記アーキテクチャレジスタを読出す後続命令が、それ自体を自己直列化（ＳＳ）するようにマーキングするとは、前記読出し命令が、より小さい書込み命令およびより大きい書込み命令の両方にマッピングされるアーキテクチャレジスタとしてソースを指定する場合、前記後続命令は、実行のためにディスパッチする最も古いものとしてマーキングされ、前記より大きい書込み動作に依存するようにセットすることを意味する。

より具体的な構成では、前記マッピングロジックは、第１の書込み命令のための割り当てられた物理レジスタのインデックスを、指定されたアーキテクチャエントリの前記より大きい書込みインデックス位置に記憶する。前記マッピングロジックは、同じアーキテクチュアレジスタに対する第２、後続、およびより小さいサイズの書込み命令を検出すると、第２の書込み命令に対する別の割り当てられた物理レジスタのインデックスを、指定されたアーキテクチャエントリの前記より小さい書込みインデックス位置に記憶する。より具体的な構成では、前記マッピングロジックは、前記第１の書込み命令の対応するサイズを、前記指定されたアーキテクチャエントリの前記より大きい書込みサイズ位置にさらに記憶する。このように、前記サイズトラッキングロジックは、前記第２の書込み命令のサイズを、前記より大きい書込みサイズ位置に記憶された前記第１の書込み命令のサイズと比較することによってサイジングの問題を検出し、そして、前記第２の書込み命令のサイズが前記第１の書込み命令のサイズよりも小さい場合、前記マージ指示を提供するので、前記第２の書込み命令のリタイアメントの時、前記部分書込み結果は前記アーキテクチャレジスタとマージされる。より具体的な構成では、前記マッピングロジックは、最後書込み命令の対応するサイズを、前記指定されたアーキテクチャエントリの前記最後書込みサイズ位置にさらに記憶し、前記最後書込み命令は、前記第１の書込み命令および前記第２の書込み命令のうちの後の１つである。

図１は、本発明の一実施形態に係る実装されたスーパースカラパイプラインプロセッサ１００の簡略ブロック図である。本明細書で使用される「プロセッサ」という用語は、マイクロプロセッサ、中央処理装置（ＣＰＵ）、処理コア、マイクロコントローラなどを含む任意のタイプの処理装置を指す。また、本明細書で使用される「プロセッサ」という用語は、システムオンチップ（ＳＯＣ）などに内蔵されたものを含む、チップまたは集積回路（ＩＣ）上に集積された処理ユニットなど、任意のタイプのプロセッサ構成も含む。

前記プロセッサ１００は、命令セットアーキテクチャ（ＩＳＡ）のマクロ命令、例えばｘ８６命令セットアーキテクチャなどをキャッシュする命令キャッシュ１０２を含む。追加または代替命令セットアーキテクチャが考えられる。前記プロセッサ１００は、前記マクロ命令を受信し、マイクロ命令に変換する命令変換器１０４を含む。次に、前記マイクロ命令は、マイクロ命令の依存性を生成し、プログラムオーダーでリザベーションステーション（ＲＳ）１０８およびリオーダバッファ（ＲＯＢ）１１０に前記マイクロ命令を発行するレジスタエイリアステーブル（ＲＡＴ）１０６に供給され、前記ＲＯＢ１１０は、命令のインオーダーリタイアメントを保証する前記ＲＡＴ１０６から発行されたすべての命令のエントリを記憶する。マイクロ命令に対して示された代表的なエントリ１１７は、“μｏｐｘ”として示されている。前記ＲＡＴ１０６から発行された前記マイクロ命令は、典型的にはマイクロ命令と呼ばれるが、より一般的には、ここでは単に“命令”と呼ばれる。

ＲＳ１０８は、ディスパッチャとも呼ばれ、複数の実行ユニット１１２のうちの適切なものに命令をディスパッチする。特に図示していないが、前記実行ユニット１１２は、整数算術論理演算装置（ＡＬＵ）などのような１つまたは複数の整数実行ユニット、ＭＭＸやＳＳＥユニットなどの単一命令多重データ（ＳＩＭＤ）実行ユニットを含むような１つまたは複数の浮動小数点実行ユニット、およびメモリオーダーバッファ（ＭＯＢ）などを含んでもよい。書込み命令の結果は、ライトバック（ＷＢ）経路を介して物理レジスタファイル（ＰＲＦ）１１４内の物理レジスタに書き込まれる。前記書込み命令に対応する前記ＲＯＢ１１０のエントリは、前記結果を書込むための前記物理レジスタへのインデックスを記憶する。いくつかの実施形態では、各部分書込み命令の前記ＲＯＢ１１０エントリは、部分書込み命令が前記ＲＡＴ１０６を通過し、前記マージ指示ＭＩがアサートされた時、ＲＡＴ１０６によってセットされるマージ（Ｍ）ビットをさらに記憶する。一実施形態では、前記部分書込み命令のリタイアメント中にマージを行う時、ＰＲＦ１１４に対するリードポートを必要とする圧力を解放するために、ライトバック中に部分書込み結果を一時的に記憶するための部分書込みバッファ１１３がさらに含まれる。他の実施形態では、前記ＰＲＦ１１４の前記リードポートが十分である場合、前記部分書込みバッファ１１３を省略することができ、前記部分書込み結果は、ＰＲＦ１１４にのみ記憶される。一実施形態では、マージが指示されなくても、各部分書込み命令の前記結果は、部分書込みバッファ１１３に記憶される。本明細書でさらに記載されたように、前記ＲＯＢ１１０は、マージビットがセットされたことに応じて、前記部分書込み結果を前記ＰＲＦ１１４内の物理レジスタにマージするマージロジック１１５を含む。

前記ＲＡＴ１０６は、リネームテーブル１１６、マッピングロジック１１８、フリーリスト１２０、及びサイズトラッキングロジック１２２を含む。前記リネームテーブル１１６は、アーキテクチャレジスタを前記ＰＲＦ１１４の前記物理レジスタに相互参照またはマッピングする。フリーリスト１２０は、割り当てられていない物理レジスタに対応するインデックスのリストを記憶する。書込み動作が結果を記憶するためのアーキテクチャレジスタを参照する時、前記マッピングロジック１１８は前記フリーリスト１２０を調べ、物理レジスタを選択して割り当てる。次に、前記マッピングロジック１１８は、前記割り当てられた物理レジスタの前記インデックスを、前記書込み命令で参照されたアーキテクチャレジスタに対応する前記リネームテーブル１１６のエントリに記憶する。このように、前記物理レジスタは、前記アーキテクチャレジスタと前記書込み命令の両方に最初でマッピングされる。さらにここで記載されたように、前記リネームテーブル１１６の各エントリは、同じアーキテクチャレジスタのより小さい及びより大きい書込みのために、物理レジスタインデックスを記憶するための位置を含む。前記サイズトラッキングロジック１２２は、第１の物理レジスタ（および／または前記部分書込みバッファ１１３、もし前記部分書込みバッファ１１３が提供されたら）に記憶された部分書込み結果で、マージ条件を検出する。前記部分書込み結果は、第１の物理レジスタと同じのアーキテクチャレジスタにマッピングされた第２の物理レジスタとマージされる。前記マージ条件が検出されると、前記サイズトラッキングロジック１２２は、前記部分書込み命令用の前記ＭＩ信号をアサートし、前記ＲＡＴ１０６は、前記ＲＯＢ１１０内で前記対応するエントリのＭビットをセットする。前記Ｍビットは、命令情報がＲＯＢ１１０エントリにプッシュされる前に予めセットされてもよく、前記ＲＯＢ１１０の前記エントリ内で直接セットされてもよいことに留意されたい。一実施形態では、部分書込み命令の書込みサイズと、先行するより大きい書込み命令と比較し、比較結果で前者の方が小さい場合、前記マージ条件は満たされる。

図２は、本発明の一実施形態に係るリネームテーブル１１６の図である。図示された構成におけるｘ８６などのプロセッサ１００用のＩＳＡは、複雑なオペランドサイズを使用して、各アーキテクチャレジスタへの部分書込みを可能にする。前記ｘ８６アーキテクチャは、複数のサイズでアクセスされることができるいくつかのアーキテクチャレジスタを含む。６４ビットバージョンは、ＲＡＸ、ＲＢＸ、ＲＣＸ、ＲＤＸなどのレジスタ表記を含み（６４ビットは、プリペンドされた“Ｒ”表記を使用する）、これらの６４ビット表記のいずれかを使用する書込み動作は、レジスタ全体への書込みとなる。これらのレジスタは、それぞれＥＡＸ、ＥＢＸ、ＥＣＸ、ＥＤＸなどの３２ビット表記（３２ビットは、プリペンドされた“Ｅ”表記を使用する）を含むと同様に、それぞれＡＸ、ＢＸ、ＣＸ、ＤＸなどの１６ビット表記も含む（１６ビットは、プリペンドされた文字なしのレジスタ名のみを使用する）。８ビットの表記も定義できるが、それぞれ１６ビットバージョンの最上位バイト（ＭＳＢ）または最下位バイト（ＬＳＢ）になるので、これ以上は説明しない。前記リネームテーブル１１６内の前記アーキテクチャ識別子は、所与のレジスタまたはその一部に対する単一の参照を含むだけでよい。

前記リネームテーブル１１６の新規な構成について論じる前に、まず従来の構成について説明する。従来の構成では、各テーブルエントリの推論部分は、割り当てられた物理レジスタのインデックスを記憶するための単一の位置のみを含み、アーキテクチャ識別子は、部分レジスタ表記を含む各レジスタを識別することができる。従来の構成の動作において、前記マッピングロジック１１８は、アーキテクチャレジスタを参照する書込み命令を検出し、書込み動作の結果を記憶するための物理レジスタを選択して割り当て、前記リネームテーブル１１６を参照して前記アーキテクチャレジスタにエントリが既に存在するか否かを判定する。前記エントリがまだ存在しない場合、前記マッピングロジック１１８は、前記リネームテーブル１１６内に新しいエントリを割り当て、アーキテクチャレジスタ識別子を前記新しいエントリのＡＲＣＨ位置に書き込む。次いで、前記マッピングロジック１１８は、割り当てられた物理レジスタのインデックスを、前記新しいエントリまたは更新されたエントリの推測部分に書き込む。リタイア位置はまだ決定されてない。前記書込み命令が同じアーキテクチャおよび物理レジスタマッピングでリタイアすると仮定すると、前記マッピングロジック１１８は、前記物理レジスタの前記インデックスを推定位置からそのアーキテクチャレジスタのリタイア位置に移動または他の方法でコピーすることによってアーキテクチャマッピングを変更する。様々な構成では異なる推定且つリタイアされたリネームを含んでもよいが、動作は実質的に同様であることに留意されたい。

従来の構成は、一連の命令が複雑なオペランドサイズを使用する場合、複数の物理レジスタは同じアーキテクチャレジスタの一部を記憶することを課題として提示する。例として、次の命令パターンを検討する。
μｏｐ１）ＭＯＶＥＡＸ，ＥＢＸ
μｏｐ２）ＭＯＶＡＸ，ＣＸ
μｏｐ３）ＭＯＶＥＳＰ，ＥＡＸ
各命令は、マイクロ命令またはマイクロ動作（μｏｐ）として示されている。第１の物理レジスタが第１のＭＯＶ命令（μｏｐ１）に割り当てられ、前記割り当てられた物理レジスタがＥＡＸアーキテクチャレジスタにマッピングされる。前記第１のＭＯＶ命令μｏｐ１は、プロセッサ１００に、３２ビットレジスタＥＢＸのコンテンツを３２ビットレジスタＥＡＸに移動するように命令する。動作中、ＥＢＸに割り当てられた物理レジスタのコンテンツは、ＥＡＸに割り当てられた物理レジスタに移動される。第２の物理レジスタは、第２のＭＯＶ命令（μｏｐ２）に割り当てられ、ＡＸアーキテクチャレジスタにマッピングされる。前記第２のＭＯＶ命令μｏｐ２は、プロセッサ１００に、１６ビットレジスタＣＸのコンテンツを１６ビットレジスタＡＸに移動するように命令する。動作中、前記コンテンツは、前記マッピングに従って１つの物理レジスタから別の物理レジスタに移動される。しかし、アーキテクチャレジスタＡＸは、前記ＥＡＸアーキテクチャレジスタの最下位部分（下半部）であるため、前記ＥＡＸレジスタのコンテンツはμｏｐ２によって効果的且つ意図的に修正される。したがって、前記第１および第２の物理レジスタのいずれも、前記ＥＡＸアーキテクチャレジスタの完全なコンテンツを保持しない、その代わりに、それぞれに一部が記憶される。第３の物理レジスタは、第３のＭＯＶ命令（μｏｐ３）に割り当てられ、ＥＳＰアーキテクチャレジスタ（例えば、スタックポインタレジスタ）にマッピングされる。前記第３のＭＯＶ命令は、ＥＡＸの前記コンテンツを意図的にＥＳＰに移動する。しかし、ＥＡＸの前記コンテンツは２つの異なる物理レジスタ間に分配されるため、μｏｐ３は単一の物理レジスタからＥＡＸの前記完全なコンテンツをフェッチできない。このような条件を解決するには、複数のソース依存性やプリマージ動作など、さまざまな方法が使用されるが、これらの方法には重大な欠点がある。

本明細書で記載されたように、リタイアフェーズ中に部分書込み結果をマージするシステムおよび方法は、同じ欠点を導入することなく、記憶結果サイズの問題の条件を解決する。オペレーションは、本明細書でさらに記載されたように、前記リネームテーブル１１６およびプロセッサ１００の他の部分に対して修正される。前記リネームテーブル１１６の各行は、参照されたアーキテクチャレジスタに対応するエントリを形成し、各エントリは、そのエントリの対応する値を記憶するための複数の記憶位置を含む。各エントリについて、最初の列（左側）は前記エントリのアーキテクチャレジスタ（ＡＲＣＨ）識別子を記憶するための位置を含み、次の３つの列は前記エントリの推定動作値を記憶するための位置を含み、最後の列は前記エントリに対する動作の前記ＲＥＴＩＲＥフェーズに対する物理レジスタインデックスを記憶するための位置を提供する。これらの推定演算値は、より大きい書込み命令に対する物理レジスタインデックスを記憶するためのＬＡＧＥＲ位置と、より小さい書込み命令に対する物理レジスタインデックスを記憶するためのＳＭＡＬＬＥＲ位置とを含む。いくつかの実施形態では、これらの推定演算値は、前記エントリの最後書込みサイズを示すサイズ値を記憶するためのＬＡＳＴＷＲＩＴＥＳＩＺＥ位置をさらに含む。

図示のように、第１のエントリ２０２は、インデックスＰＲＡ（または単に物理レジスタＰＲＡともいう）によって識別された物理レジスタをアーキテクチャレジスタＥＢＸにマッピングし、第２のエントリ２０４は、物理レジスタＰＲＢを前記アーキテクチャレジスタＥＣＸにマッピングする。これらのマッピングは、それ以降完了した優先命令の結果であってもよく、インデックスＰＲＡおよびＰＲＢを記憶するエントリ２０２および２０４の前記ＲＥＴＩＲＥ位置は、それぞれＥＢＸが物理レジスタＰＲＡにマッピングされ、ＥＣＸが物理レジスタＰＲＢにマッピングされることを示す。第３のエントリ２０６および第４のエントリ２０８は、上述した前記ＭＯＶ命令μｏｐ１、μｏｐ２およびμｏｐ３の結果を示す。μｏｐ１に応じて、前記マッピングロジック１１８は、前記エントリ２０６を前記リネームテーブル１１６内に割り当て、識別子ＥＡＸをＡＲＣＨ位置に記憶して、３２ビット構成の前記アーキテクチャレジスタＥＡＸを識別する。６４ビット構成の場合、前記識別子は代わりにRAXであってもよい。前記マッピングロジック１１８は、前記フリーリスト１２０を参照し、インデックスＰＲＣを使用してアクセスされた利用可能な物理レジスタを割り当て、前記エントリ２０６のＬＡＲＧＥＲ位置に前記インデックスＰＲＣを記憶する。前記マッピングロジック１１８は、さらに、前記書込みのサイズを３２ビットとして検出し、サイズ値ＳＺ１を最後書込みサイズ（これまでの第１の書込みサイズ）が３２ビットであることを示す前記エントリ２０６の前記ＬＡＳＴＷＲＩＴＥＳＩＺＥに記憶する。前記エントリ２０６の前記ＳＭＡＬＬＥＲおよびＲＥＴＩＲＥ位置はまだ定義されていない。このようにして、インデックスＰＲＣによって識別された前記物理レジスタは、前記アーキテクチャレジスタＥＡＸおよび前記第１のＭＯＶ命令μｏｐ１に推測的にマッピングされる。

前記第２のＭＯＶ命令μｏｐ２は、前記アーキテクチャレジスタＥＡＸの最下位部分である前記アーキテクチャレジスタＡＸを参照する。前記マッピングロジック１１８が、前記第２のＭＯＶ命令μｏｐ２（１６ビット）の前記書込みサイズが前記第１のＭＯＶ命令μｏｐ１（３２ビット）より小さいことを検出すると、前記マッピングロジック１１８は、前記フリーリスト１２０を参照し、インデックスＰＲＤを使用してアクセスされた利用可能な物理レジスタを割り当て、前記エントリ２０６の前記ＳＭＡＬＬＥＲ位置に前記インデックスＰＲＤを記憶する。なお、前記マッピングロジック１１８が、前記第２のＭＯＶ命令μｏｐ２（例えば、μｏｐ２の前記書込みサイズが３２ビットである場合）の前記書込みサイズが第１のＭＯＶ命令μｏｐ１（３２ビット）よりも大きいかまたは等しいことを検出する場合、代わりに前記インデックスＰＲＣを上書きするために、前記インデックスＰＲＣを前記エントリ２０６の前記ＬＡＲＧＥＲ位置内に記憶する。すなわち、前記エントリ２０６の前記ＬＡＲＧＥＲ位置は、常に同じアーキテクチャレジスタＥＡＸを参照する最大書込み命令のサイズを記録する。前記マッピングロジック１１８は、さらに、前記エントリ２０６の前記ＬＡＳＴＷＲＩＴＥＳＩＺＥの値ＳＺ１を、前記アーキテクチャレジスタＥＡＸを参照する前記書込み命令の前記最後書込みサイズが１６ビットであることを示す値ＳＺ２に更新する。図示のように、ＳＺ１はＳＺ２に置き換えられている。前記エントリ２０６の前記ＲＥＴＩＲＥ位置は未だ定義されていない。μｏｐ３に応じて、前記マッピングロジック１１８は、前記リネームテーブル１１６内に前記エントリ２０８を割り当て、前記アーキテクチャレジスタＥＳＰを識別するために識別子ＥＳＰをＡＲＣＨ位置に記憶する。前記マッピングロジック１１８は、前記フリーリスト１２０を参照し、インデックスＰＲＥを使用してアクセスされた利用可能な物理レジスタを割り当て、前記エントリ２０８のＬＡＲＧＥＲ位置に前記インデックスＰＲＥを記憶する。前記マッピングロジック１１８は、さらに、前記書込みのサイズを３２ビットとして検出し、エントリ２０８の前記ＬＡＳＴＷＲＩＴＥＳＩＺＥにサイズ値ＳＺ３を記憶する。

従来の構成と同様に、前記第１および第２の物理レジスタＰＲＣおよびＰＲＤのいずれも、前記ＥＡＸアーキテクチャレジスタの完全なコンテンツを保持していない。前記第３と最後のＭＯＶ命令μｏｐ３は、単一の物理レジスタからＥＡＸの完全なコンテンツをフェッチできない。前記サイズトラッキングロジック１２２は、前記第２のＭＯＶ命令μｏｐ２の書込みサイズが前記第１のＭＯＶ命令μｏｐ１より小さい場合に前記マージ条件を検出すると、前記リネームテーブル１１６を監視する。前記先行およびより大きい書込み結果は、前記物理レジスタＰＲＣに記憶されるが、前記後続、より小さい書込み結果は、前記物理レジスタＰＲＤに記憶される。したがって、前記サイズトラッキングロジック１２２は、前記第２のＭＯＶ命令μｏｐ２に対する前記マージ指示ＭＩを提供する。前記マージ指示は、指示されると、μｏｐ２がＲＡＴフェーズを通過する時、前記第２のＭＯＶ命令μｏｐ２に割り当てられたＲＯＢ１１０の対応するエントリ内にＭビットとして記憶される。

ＲＯＢエントリのＭビットがセットされている場合、前記部分書込み命令がリタイアすると、マージ動作が呼び出される。本明細書でさらに記載されたように、前記マージロジック１１５は、前記ＲＯＢエントリのＭビットセットを検出し、μｏｐ３が実行される前に、前記物理レジスタＰＲＤの部分結果を前記物理レジスタＰＲＣでマージする。一実施形態では、μｏｐ２が、書込みサイズが前記ＬＡＲＧＥＲ位置に対応する前記書込み命令のサイズよりも小さい部分書込み命令であると検出された場合、μｏｐ２のライトバック段階中に前記部分結果は、物理レジスタＰＲＤまたは部分書込みバッファ１１３（提供されている場合）またはその両方に記憶される。ＰＲＦ１１４のリードポートの要求に対する圧力を解放するための前記部分書込みバッファ１１３が提供された実施形態では、ＲＰＤから後述の結果を読出す代わりにマージ動作を行うと、前記マージロジック１１５は、前記部分書込みバッファ１１３からμｏｐ２の前記部分書込み命令の結果を読出す。前記部分書込みバッファ１１３が提供されていない他の実施形態では、前記部分結果は、μｏｐ２の前記ライトバック段階中にＰＲＦ１１４内の物理レジスタＰＲＤ内にのみ記憶される。そのような実施形態では、前記マージロジック１１５は、前記マージ動作を行う時、前記部分書込み命令μｏｐ２の結果をＰＲＦ１１４内の前記物理レジスタＰＲＤから読出す。マージされた前記部分書込み結果のサイズは、ＲＯＢ１１０内の前記対応するエントリに提供された前記部分書込み命令μｏｐ２自体によって示される。

図３は、一実施形態に係るプロセッサ１００の異なる処理段階中の命令μｏｐ１、μｏｐ２、およびμｏｐ３のそれぞれの動作を示す一連の図である。ＲＡＴフェーズ３０２は、前記ＲＡＴ１０６によって実行される動作および結果を示す。各命令は、例えば、命令識別子ＩＤ、ソース識別子ＳＲＣ、デスティネーション識別子ＤＳＴ、および自己直列化フィールドＳＳなどの複数のフィールドを含む。図示されていないが、マージ指示ビットＭを記憶するためにマージフィールドが含まれてもよい。前記サイズトラッキングロジック１２２は、読出し命令が単一の物理レジスタ内に含まれていないが複数の物理レジスタに分散されている値を読出し、前記値を前記読出し動作の前に一緒にマージする必要があるサイジングの問題を検出する。そうである場合、サイズトラッキングロジック１２２は、ＳＳフィールド内の前記値をロジック“１”としてアサートすることによって、前記命令を自己直列化するようにマーキングする。追加フィールドは含まれてもよいが図示せず。また、任意の与えられた命令は、すべてのフィールドを使用しなくてもよい。例えば、レジスタまたはメモリ位置に記憶する即値を含むストア命令は、デスティネーション値を含んでもよいが、ソース値は含まない。

前記ＲＡＴフェーズ３０２に示すように、μｏｐ１のソースはＥＢＸにマッピングされた物理レジスタＰＲＡであり、デスティネーションはＥＡＸにマッピングされた物理レジスタＰＲＣである。μｏｐ１は自己直列化するようにマーキングされていないため、ＳＳ値は“０”である。μｏｐ２のソースはＥＣＸにマッピングされた前記物理レジスタＰＲＢであり、デスティネーションはＥＡＸにマッピングされた前記物理レジスタＰＲＤである。また、μｏｐ２は自己直列化するようにマーキングされていないため、ＳＳ値は“０”である。μｏｐ３のソースはＥＡＸにマッピングされた前記物理レジスタＰＲＣであり、デスティネーションはＥＳＰにマッピングされた前記物理レジスタＰＲＥである。前記サイズトラッキングロジック１２２が、前記リネームテーブル１１６から、μｏｐ３（３２ビット）のソースのサイズがＬＡＳＴＷＲＩＴＥＳＩＺＥ値ＳＺ2（１６ビット）より大きいことを検出した場合、前記読出し命令μｏｐ３がそのソースＥＡＸをμｏｐ２とμｏｐ１の両方のデスティネーションにマッピングされっていると指定することを判定する。すなわち、２つの異なる物理レジスタＰＲＣおよびＰＲＤは、前記最後書込み命令μｏｐ２の前記物理レジスタＰＲＤだけでなく、前記命令μｏｐ３によって読出される値を保持する。その場合、前記サイズトラッキングロジック１２２は、μｏｐ３を自己直列化するようにマーキングし、そのＳＳ値が“１”になるようにする。μｏｐ３がＲＳ１０８に発行されると、前記ＲＳ１０８は、前記命令μｏｐ１およびμｏｐ２がリタイアされる前にμｏｐ３をディスパッチして実行しない。さらに、前記サイズトラッキングロジック１２２は、μｏｐ３をμｏｐ２にではなく、μｏｐ１に依存するように設定する。

ＲＳ／ＥＵ／ＷＢフェーズ３０４は、各命令μｏｐ１～μｏｐ３の前記ＲＳ１０８内、前記ＥＵ１１２内およびＷＢ中における動作の結果をまとめて示す。前記物理レジスタＰＲＡ、ＰＲＢ、ＰＲＣ、ＰＲＤおよびＰＲＥを含むＰＲＦ１１４の一部が示されている。μｏｐ１の実行中に、クロスハッチングされたシェーディングで示された前記物理レジスタＰＲＡの前記コンテンツは、前記物理レジスタＰＲＣに移動される。μｏｐ２の実行中に、斜線で示された前記物理レジスタＰＲＢの前記部分コンテンツは、前記物理レジスタＰＲＤに移動される。前記部分書込みバッファ１１３が含まれるいくつかの実施形態では、後続マージ動作が示されている場合、前記後続マージ動作を容易にするために、前記部分コンテンツも部分書込みバッファ１１３内の位置３０５に移動される。一実施形態では、前記部分書込みバッファ１１３が一杯になっている場合、前記プロセッサ１００のフロントエンドは、前記部分書込みバッファ１１３中の記憶位置が利用可能になるまで一時的に停止してもよい。μｏｐ３の実行中、前記物理レジスタＰＲＣの前記コンテンツは、前記物理レジスタＰＲＥに移動される。しかし、μｏｐ３が、ＲＥＴＩＲＥフェーズ３０６中にマージ動作が実行されるまで、μｏｐ３のソースがＬＡＳＴＷＲＩＴＥＳＩＺＥ値ＳＺ２よりも大きいと検出されると、μｏｐ３の実行は発生しない。もちろん、μｏｐ３のソースがＬＡＳＴＷＲＩＴＥＳＩＺＥ値ＳＺ２より大きくないと検出された場合、μｏｐ３はμｏｐ２と同じ、最後書込み命令に依存するようにセットされる。

前記ＲＥＴＩＲＥフェーズ３０６は、μｏｐ１のリタイアメント中に、前記物理レジスタＰＲＣ（インデックスＰＲＣを有する）に対するインデックスＰＲＣを、前記リネームテーブル１１６内の前記エントリ２０６のＲＥＴＩＲＥ位置にコピーすることによって、ＥＡＸのアーキテクチャマッピングを変更することを示す。μｏｐ２のリタイアメント中に、前記マージロジック１１５がμｏｐ２のＲＯＢエントリ内にセットされた前記Ｍビットを検出すると、前記マージロジック１１５は、前記物理レジスタＰＲＤの部分コンテンツまたは前記部分書込みバッファ１１３の位置３０５に記憶された部分コンテンツを前記物理レジスタＰＲＣの前記対応する部分にマージする。μｏｐ２の前記ＲＯＢエントリ内に記憶されている値は、マージされた前記部分書込みのサイズを示す。μｏｐ３がそのＲＯＢエントリに従って前記物理レジスタＰＲＣのコンテンツを前記物理レジスタＰＲＥに移動させると、前記物理レジスタＰＲＥが正しい結果を記憶するように、前記物理レジスタＰＲＣのコンテンツは、前記部分書込みバッファ１１３から（または前記物理レジスタＰＲＤから）のμｏｐ２の部分書込みとマージされる。μｏｐ３のリタイアメント中、前記ＲＯＢ１１０は、前記物理レジスタＰＲＥに対する前記インデックスＰＲＥを、前記リネームテーブル１１６内の前記エントリ２０８のＲＥＴＡＩＲＥ位置にコピーすることによって、ＥＳＰの前記アーキテクチャマッピングを変更する。このように、前記アーキテクチャレジスタＥＳＰは、前記命令μｏｐ１～μｏｐ３の前記正しい結果を記憶する前記物理レジスタＰＲＥにマッピングされる。

一実施形態では、前記部分書込みバッファ１１３は、前記ＲＯＢ１１０の各前記エントリに対して提供されるＲＯＢインデックスによって索引付けされる。前記部分書込みバッファ１１３の前記エントリは、前記ＲＡＴフェーズ３０２で割り当てられ、先行する前記エントリを占有するために前記ＲＯＢインデックスを取る。前記ＷＢフェーズの間、その結果は、前記命令の前記ＲＯＢインデックスに従って、部分書込みバッファ１１３に書込まれる。さらに、μｏｐ２の前記マージされたサイズ、μｏｐ１の前記マージされたサイズなど、前記マージ動作が必要とする任意の追加情報は、前記リタイアされた命令のＲＯＢエントリ内に記憶される。前記ＲＯＢ１１０はμｏｐ２がリタイアしていることを検出し、前記マージロジック１１５がμｏｐ２に対する前記ＲＯＢエントリの前記Ｍビットがセットされていることを検出する場合、マージロジック１１５は前記マージ動作を行う。前記サイズトラッキングロジック１２２が、例えば、μｏｐ２の前記書込みサイズＳＺ２がμｏｐ１の前記より大きい書込みサイズＳＺ１より小さい時などのマージ条件が指示された場合、μｏｐ２の前記ＲＯＢエントリに前記Ｍビットをセットすることに留意されたい。

図２にさらに示されるようないくつかの実施形態では、前記先行するより大きい書込み命令（例えば、μｏｐ１）の前記書込みサイズは、前記エントリ２０６のＬＡＲＧＥＲＷＲＩＴＥＳＩＺＥ位置に記憶され、前記先行するより大きい書込み命令（例えば、μｏｐ１）によって少なくとも１回、そのＬＡＲＧＥＲ位置が書込まれる。現在書込み命令（例えば、μｏｐ２）の書込みサイズは、前記ＬＡＲＧＥＲＷＲＩＴＥＳＩＺＥと比較され、前記現在書込み命令の書込みサイズがより小さい場合、前記ＳＭＡＬＬＥＲ位置は、μｏｐ２の前記物理レジスタＰＲＤの前記インデックスによって更新され、前記μｏｐ２のＲＯＢエントリの前記Ｍビットは、μｏｐ２が部分書込み命令であり、前記ＲＥＴＩＲＥフェーズ３０６中にマージ動作を必要とすることを示すようにセットされる。

図４は、サイズ解析、マージ動作、命令依存性判定、および物理レジスタの状態を実行するためのＲＡＴフェーズ３０２中のＲＡＴ１０６内などのフロントエンドでの動作、およびＲＥＴＩＲＥフェーズ３０６中のＲＯＢ１１０内などのバックエンドでの動作を示すブロック図である。前述したように、サイズトラッキングロジック１２２は、リネームテーブル１１６の変化を監視し、ＲＡＴフェーズ３０２中のＲＯＢエントリ内のＭＩ信号をアサートしてマージ動作を指示する。リネームスイッチロジック４０２はまた、リネームテーブル１１６およびサイズトラッキングロジック１２２からの情報を追跡し、命令の依存性をセットし、物理レジスタをフリーリスト１２０にリサイクルするように前記マッピングロジック１１８に指示する。前記マージロジック１１５は、（マージビットＭなどを介して）前記ＭＩ信号を検出するリタイア解析ロジック４０４と、前記ＰＲＦ１１４および前記部分書込みバッファ１１３の異なる物理レジスタ間のマージ動作を容易にして制御するマージ制御ロジック４０６とを含む。前記リタイア分析ロジック４０４はまた、前記ＲＥＴＩＲＥフェーズ３０６中に前記アーキテクチャレジスタマッピングを更新するなどによって、前記マッピングロジック１１８と通信して、前記リネームテーブル１１６を更新する。

図５は、前記リネーミングスイッチロジック４０２によって制御される前記ＰＲＦ１１４の前記物理レジスタのそれぞれの状態を示す状態図である。各物理レジスタは、アイドル（Ｉ）状態５０２、未完了（ＮＣ）状態５０４、完了（Ｃ）状態、リサイクルに対するリタイアされた待機（ＲＲ）状態５０８、およびリタイアされたアーキテクチャ（ＲＡ）状態５１０を有する。前記フリーリスト１２０内で識別された各物理レジスタは、最初は前記Ｉ状態５０２にある。物理レジスタが割り当てられると、前記レジスタの状態は前記ＮＣ状態５０４に移行する。前記ライトバック（ＷＢ）フェーズ中に前記対応する書込み命令を実行した後、前記対応するレジスタの状態は前記Ｃ状態５０６に移行する。通常動作中、前記対応する命令のリタイアメントの時、前記レジスタの状態は前記ＲＡ状態５１０に移行する。例えば、前記リネームテーブル１１６に示され、前記アーキテクチャレジスタＥＢＸおよびＥＣＸにマッピングされた前記物理レジスタＰＲＡおよびＰＲＢは、前記ＲＡ状態５１０にある。後続命令のリタイアメントの時、前記アーキテクチャレジスタを別の物理レジスタに再定義する前記後続命令は、同じアーキテクチャレジスタに先行にマッピングされた前記物理レジスタの状態をリサイクルまたは割り当てを解除し、前記Ｉ状態５０２に戻す。

前記ＲＲ状態５０８は、前記対応する命令がリタイアされた時、前記ＲＡ状態５１０にリタイアされない部分書込み結果を保持する物理レジスタに対する追加状態である。基本的に、これは、前記物理レジスタがアーキテクチャレジスタにマッピングされず、代わりに結果を転送するためのテンポラリレジスタとして機能することを意味する。一例として、前記リネームテーブル１１６のエントリ２０６に示された前記物理レジスタＰＲＤは、μｏｐ２のリタイアメントの時、前記アーキテクチャレジスタＥＡＸにマッピングされないため、前記ＲＡ状態５１０に移行しない。代わりに、前記物理レジスタＰＲＤは、μｏｐ２のリタイアメントの時、前記ＲＲ状態５０８に移行する。前記ＲＲ状態５０８または前記ＲＡ状態５１０のいずれかの前記物理レジスタは、後続書込みが同じアーキテクチャレジスタに発生する時、従来の方法と同じ方法でリサイクルされる。例えば、前記アーキテクチャレジスタＥＡＸ（前記リネームテーブル１１６の前記エントリ２０６内に示されているように、現在前記物理レジスタＰＲＣにマッピングされている）への後続書込みにより、前記物理レジスタＰＲＣおよびＰＲＤの両方がリサイクルされる。前記プロセッサ１００のフラッシュの時、前記ＮＣ状態５０４またはＣ状態５０６下の任意の物理レジスタは前記Ｉ状態５０２に戻される。

第１のステップ６０２において、第１の物理レジスタがＰＲＦ１１４から第１の書込み命令に割り当てられる。前の例では、前記マッピングロジック１１８は、前記第１の書込み命令μｏｐ１に前記物理レジスタＰＲＣを割り当てる。次のステップ６０４において、前記第１の物理レジスタがアーキテクチャレジスタにマッピングされる。前記命令、例えばμｏｐ１は、アーキテクチャレジスタ、例えばＥＡＸを指定し、ＰＲＣとＥＡＸとの間のマッピングは、前記リネームテーブル１１６内に記憶される。ＥＡＸのためのマッピングが以前に存在しなかったと仮定すると、新しいエントリ（例えばエントリ２０６）は前記リネームテーブル１１６内に作成され、前記インデックスＰＲＣは前記エントリのＬＡＲＧＥＲ位置に書込まれる。前記ＬＡＲＧＥＲ位置は、前記第１の書込み命令に対する前記物理レジスタの前記インデックスと、同じサイズまたはより大きい後続書込み命令の書込みに使用される。

次のステップ６０６において、第２の物理レジスタが前記ＰＲＦ１１４から第２の書込み命令に割り当てられる。上記の例を続けると、前記マッピングロジック１１８は、前記物理レジスタＰＲＤを前記第２の書込み命令μｏｐ２に割り当てる。前記第２の書込み命令が同じアーキテクチャレジスタ（例えば、ＥＡＸ、またはそのサブセット、またはそのスーパーセット）を参照すると仮定すると、次のステップ６０８において、前記第２の書込み命令の前記書込みサイズが前記第１の書込み命令の前記書込みサイズと比較される。次のステップ６１０において、前記第２の物理レジスタが前記第１および第２の命令のサイズと比較した結果に従って、前記アーキテクチャレジスタにマッピングされる。前記第２の書込み命令のサイズが前記第１の書込み命令のサイズと同じかまたはそれより大きい場合、前記第１の書込み命令に対する前記エントリ内のインデックスは、前記第２の書込み命令に対する前記インデックスによって上書きされる。しかし、前記第２の書込み命令のサイズが前記第１の書込み命令のサイズよりも小さい場合、前記第２の書込み命令に対する前記インデックスは、同じアーキテクチャレジスタに対する同じエントリの前記ＳＭＡＬＬＥＲ位置に書込まれる。前記リネームテーブル１１６に示すように、例えば、前記第２の書込み命令μｏｐ２に対する前記インデックスＰＲＤは、ＥＡＸに対する前記エントリ２０６の前記ＳＭＡＬＬＥＲ位置に記憶される。

次のステップ６１２で述べたように、前記第２の書込み命令のサイズが前記第１の書込み命令のサイズよりも小さい場合、前記第２の書込み命令に対してマージ指示が提供される。図１に示すように、マージ指示信号ＭＩは、この条件が満たされた時にアサートされる。図示の一実施形態では、前記ＭＩ信号を使用して、前記第２の書込み命令μｏｐ２に対する前記ＲＯＢ１１０のエントリにマージビットＭをセットする。最後のステップ６１４において、前記第２の書込み命令のリタイアメントの時、前記第２の書込み命令の結果が前記マージ指示に応じて第１の物理レジスタとマージされる。図３に示すように、前記第２の書込み命令μｏｐ２の前記ＲＥＴＩＲＥフェーズ３０６中に、例えば、前記第２の書込み命令μｏｐ２に対する前記物理レジスタＰＲＤに記憶された前記部分結果は、前記マージロジック１１５によって、前記第１の書込み命令μｏｐ１にアサインされた前記物理レジスタＰＲＣとマージされる。あるいは、前記第２の書込み命令μｏｐ２の前記部分結果は、提供されている場合、前記部分書込みバッファ１１３に記憶され、代わりに前記部分結果は前記部分書込みバッファ１１３から検索される。

本方法は、後続読出し命令（例えば、μｏｐ３）を自己直列化するようにマーキングし、前記読出し命令がソースと同じアーキテクチャを指定する時、前記第１の書込み命令に依存するようにする追加ステップを含んでもよい。本方法は、前記第２の書込み命令のリタイアメントの時、前記第１の物理レジスタをリタイアされた非アーキテクチャ状態に移行させ、前記第１の書込み命令のリタイアメントの時、前記第２の物理レジスタをリタイアされたアーキテクチャ状態に移行させることを含んでもよい。本方法は、後続命令が前記アーキテクチャレジスタを前記リネームテーブル内にリマッピングする時、前記第１および第２の物理レジスタをリサイクルすることを含んでもよい。本方法は、前記第２の書込み命令の前記書込みサイズが前記第１の書込み命令の前記書込みサイズよりも小さい場合、前記第２の書込み命令のライトバック中に前記第２の書込み命令の結果を部分書込みバッファに記憶し、前記マージ動作中に前記第２の書込み命令の結果を前記部分書込みバッファから読出すことを含んでもよい。本方法は、前記第１の書込み命令の前記書込みサイズを記憶し、前記第２の書込み命令の前記書込みサイズを前記第１の書込み命令の前記記憶された書込みサイズと比較することを含んでもよい。本方法は、前記マージ指示を、前記第２の書込み命令に対するリオーダバッファ（例えば、ＲＯＢ１１０）のエントリ内にマージビットとして記憶することを含んでもよい。

前述の説明は、当業者が特定の用途およびその要件の文脈内で提供される本発明を製造および使用することを可能にするために提示されたものである。本発明は、その特定の好ましいバージョンを参照してかなり詳細に記載されているが、他のバージョンおよび変形も可能であり、考えられる。好ましい実施形態に対する様々な変更が、当業者には明らかであり、本明細書で定義された一般的な原理は、他の実施形態に適用されてもよい。例えば、本明細書で説明された前記ブロックは、ロジックデバイスまたは回路などを含む任意の適切な方法で実装され得る。当業者であれば、開示された概念および特定の実施形態を、本発明の精神および範囲から逸脱することなく、本発明の同じ目的を実行するための他の構造を設計または変更するための基礎として容易に使用できることを理解すべきである。したがって、本発明は、本明細書に示され、記載された特定の実施形態に限定されることを意図するものではなく、本明細書に開示される原理および新規な特徴と一致する最も広い範囲が与えられるべきである。

請求項は、後述の通りである。

１００…プロセッサ
１０２…命令キャッシュ
１０４…命令変換器
１０６…レジスタエイリアステーブル
１０８…リザベーションステーション
１１０…リオーダバッファ
１１２…実行ユニット
１１３…部分書込みバッファ
１１４…物理レジスタファイル
１１５…マージロジック
１１６…リネームテーブル
１１７…エントリ
１１８…マッピングロジック
１２０…フリーリスト
１２２…サイズトラッキングロジック
２０２…第１のエントリ
２０４…第２のエントリ
２０６…第３のエントリ
２０８…第４のエントリ
３０２…ＲＡＴフェーズ
３０４…ＲＳ／ＥＵ／ＷＢフェーズ
３０５…位置
３０６…ＲＥＴＩＲＥフェーズ
４０２…リネーミングスイッチロジック
４０４…リタイア解析ロジック
４０６…マージ制御ロジック
５０２…アイドル状態
５０４…未完了状態
５０６…完了状態
５０８…リサイクルに対するリタイアされた待機状態
５１０…リタイアされたアーキテクチャ状態
ＭＩ…マージ指示
ＷＢ…ライトバック
ＳＺ１、ＳＺ２…サイズ値

Claims

プロセッサであって、
複数の物理レジスタインデックスのうちの対応する１つによって、それぞれ識別される複数の物理レジスタを含む物理レジスタファイルであって、前記複数の物理レジスタは前記プロセッサの内部レジスタである、物理レジスタファイルと、
複数のエントリを有し、前記複数のエントリの各々は、複数のアーキテクチャレジスタのうちの１つ、より大きい物理レジスタインデックスおよびより小さい物理レジスタインデックスを識別するアーキテクチャ識別子を記憶するリネームテーブルと、
部分書込み命令より大きい書込みサイズを有する先行書込み命令に対する前記リネームテーブル内の既存エントリによってすでに識別されたアーキテクチャレジスタを指定する前記部分書込み命令を検出し、フリーリストを調べ、前記複数の物理レジスタの第１の物理レジスタを割り当て、前記既存エントリの前記より小さい物理レジスタインデックスを前記第１の物理レジスタの第１の物理レジスタインデックスで更新するマッピングロジックであって、前記フリーリストは、割り当てられていない物理レジスタに対応するインデックスのリストを記憶する、マッピングロジックと、
前記先行書込み命令の前記書込みサイズが前記部分書込み命令より大きい場合、前記部分書込み命令に対するマージ指示をセットするサイズトラッキングロジックと、
前記マージ指示に応じる前記部分書込み命令のリタイアメント中に、前記部分書込み命令の結果を前記複数の物理レジスタの第２の物理レジスタとマージし、前記第２の物理レジスタは、前記既存エントリの前記より大きい物理レジスタインデックスによって識別されるマージロジックと、を備え、前記先行書込み命令の前記書込みサイズは、前記既存エントリのより大きい書込みサイズ位置に記憶されることを特徴とするプロセッサ。
前記サイズトラッキングロジックは、読出し命令が前記先行および部分書込み命令の両方にマッピングされた前記アーキテクチャレジスタとしてソースを指定するか否かを判定するために、前記既存エントリの最後書込みサイズ位置にアクセスし、前記最後書込みサイズ位置は、最後書込み命令の書込みサイズを記憶し、前記最後書込み命令は、前記先行書込み命令および前記部分書込み命令のうちの後に書込まれた１つであることを特徴とする請求項１に記載のプロセッサ。
前記読出し命令の前記ソースのサイズが前記最後書込み命令の前記書込みサイズより大きい場合、前記サイズトラッキングロジックは、前記読出し命令が前記先行および部分書込み命令の両方にマッピングされた前記アーキテクチャレジスタとして前記ソースを指定するか否かを判定することを特徴とする請求項２に記載のプロセッサ。
前記サイズトラッキングロジックは、読出し命令が、前記先行および部分書込み命令の両方にマッピングされた前記アーキテクチャレジスタとしてソースを指定すると判定した場合、前記サイズトラッキングロジックは、前記読出し命令を自己直列化するようにマーキングし、前記読出し命令を前記先行書込み命令に依存するようにセットすることを特徴とする請求項３に記載のプロセッサ。
前記部分書込み命令のリタイアメントの時、前記第１の物理レジスタをリタイアされた非アーキテクチャ状態に移行させ、前記先行書込み命令のリタイアメントの時、前記第２の物理レジスタをリタイアされたアーキテクチャ状態に移行させるリネーミングスイッチロジックをさらに備えることを特徴とする請求項１に記載のプロセッサ。
前記リネーミングスイッチロジックは、後続命令が、前記リネームテーブルの前記既存エントリに識別された前記アーキテクチャレジスタをリマッピングする時、前記第１および第２の物理レジスタをリサイクルすることを特徴とする請求項５に記載のプロセッサ。
前記部分書込み命令のライトバック中に、前記部分書込み命令の前記結果を記憶する部分書込みバッファをさらに備え、前記マージロジックが、前記部分書込みバッファから前記部分書込み命令の前記結果を読出すことを特徴とする請求項１に記載のプロセッサ。
前記マッピングロジックは、前記既存エントリの前記より小さい物理レジスタインデックスを更新するか否かを判定するために、前記より大きい書込みサイズ位置にアクセスすることを特徴とする請求項１に記載のプロセッサ。
前記サイズトラッキングロジックは、前記マージ指示を提供するか否かを判定するために、前記より大きい書込みサイズ位置にアクセスすることを特徴とする請求項１に記載のプロセッサ。
前記マージ指示は、前記部分書込み命令に対するリオーダバッファのエントリにマージビットとして記憶されることを特徴とする請求項１に記載のプロセッサ。
部分書込み結果をマージしてプロセッサ内のサイズ問題を解決する方法であって、
前記プロセッサのマッピングロジックが、フリーリストを調べ、第１の物理レジスタを物理レジスタファイルから第１の書込み命令に割り当て、前記第１の物理レジスタをアーキテクチャレジスタにマッピングするステップであって、前記プロセッサのリネームテーブルは、複数のエントリを有し、前記複数のエントリの各々は、複数のアーキテクチャレジスタのうちの１つ、より大きい物理レジスタインデックスおよびより小さい物理レジスタインデックスを識別するアーキテクチャ識別子を記憶し、前記フリーリストは、割り当てられていない物理レジスタに対応するインデックスのリストを記憶する、マッピングするステップと、
前記プロセッサの前記マッピングロジックが、前記アーキテクチャレジスタを参照する第２の書込み命令に、第２の物理レジスタを前記レジスタファイルから割り当てるステップと、
前記プロセッサの前記マッピングロジックが、前記第２の書込み命令の書込みサイズを前記第１の書込み命令の書込みサイズと比較するステップであって、前記第１の書込み命令の前記書込みサイズは、既存エントリのより大きい書込みサイズ位置に記憶される、比較するステップと、
前記プロセッサの前記マッピングロジックが、前記比較の結果に従って前記第２の物理レジスタを前記アーキテクチャレジスタにマッピングするステップと、
前記プロセッサのサイズトラッキングロジックが、前記第２の書込み命令の前記書込みサイズが前記第１の書込み命令の前記書込みサイズよりも小さい場合、前記第２の書込み命令に対してマージ指示を提供するステップと、
前記第２の書込み命令のリタイアメントの時、前記プロセッサのマージロジックが、前記第２の書込み命令の結果を、前記マージ指示に応じて前記第１の物理レジスタにマージするステップであって、前記物理レジスタファイルは、それぞれが複数の物理レジスタインデックスの対応する１つによって識別される複数の物理レジスタを備え、前記複数の物理レジスタは、前記プロセッサの内部レジスタである、マージするステップと、を備え、
前記第１の物理レジスタおよび前記第２の物理レジスタは、前記複数の物理レジスタのレジスタであり、前記プロセッサの前記マッピングロジックが前記比較の結果に従って前記第２の物理レジスタを前記アーキテクチャレジスタにマッピングするステップは、前記第２の書込み命令の前記書込みサイズが前記第１の書込み命令の前記書込みサイズよりも小さい場合、前記第２の物理レジスタの第２のインデックスを前記アーキテクチャレジスタのリネームテーブルのエントリのより小さい位置に記憶するステップと、前記第２の書込み命令の前記書込みサイズが前記第１の書込み命令の前記書込みサイズよりも小さくない場合、前記第２の物理レジスタの前記第２のインデックスを前記エントリのより大きい位置に記憶することを特徴とする方法。
前記プロセッサの前記マッピングロジックが前記第１の物理レジスタをアーキテクチャレジスタにマッピングするステップは、前記アーキテクチャレジスタに対するリネームテーブルの前記エントリの前記より大きい位置に前記第１の物理レジスタの第１のインデックスを記憶するステップを備えることを特徴とする請求項１１に記載の方法。
前記プロセッサの前記マッピングロジックが、前記第２の書込み命令にマッピングされたリネームテーブルのエントリに記憶された前記第２の書込み命令のサイズ値を読出すステップをさらに備えることを特徴とする請求項１１に記載の方法。
読出し命令が、前記第１の書込み命令および前記第２の書込み命令の両方にマッピングされた前記アーキテクチャレジスタをソースとして指定する時、前記プロセッサの前記サイズトラッキングロジックが、前記読出し命令を自己直列化するようにマーキングするステップと、前記読出し命令を第１の書込み命令に依存させるステップとをさらに備えることを特徴とする請求項１１に記載の方法。
前記第２の書込み命令のリタイアメントの時、前記プロセッサのリネーミングスイッチロジックが、前記第１の物理レジスタをリタイアされた非アーキテクチャ状態に移行させるステップと、
前記第１の書込み命令のリタイアメントの時、前記プロセッサの前記リネーミングスイッチロジックが、前記第２の物理レジスタをリタイアされたアーキテクチャ状態に移行させるステップと、をさらに備えることを特徴とする請求項１１に記載の方法。
後続命令が前記アーキテクチャレジスタをリマッピングする時、前記プロセッサの前記リネーミングスイッチロジックが、前記第１および第２の物理レジスタをリサイクルするステップをさらに備えることを特徴とする請求項１５に記載の方法。
前記第２の書込み命令の前記書込みサイズが、前記第１の書込み命令の前記書込みサイズよりも小さい場合、前記プロセッサの前記マッピングロジックが、前記第２の書込み命令のライトバック中に前記第２の書込み命令の結果を部分書込みバッファに記憶するステップと、前記プロセッサの前記マージロジックが、前記マージ中に、前記第２の書込み命令の結果を前記部分書込みバッファから読出すステップとをさらに備えることを特徴とする請求項１１に記載の方法。
前記プロセッサの前記マッピングロジックが、前記第１の書込み命令の前記書込みサイズを記憶するステップをさらに備えることを特徴とする請求項１１に記載の方法。
前記プロセッサの前記マッピングロジックが、前記マージ指示を、前記第２の書込み命令に対するリオーダバッファのエントリにマージビットとして記憶するステップをさらに備えることを特徴とする請求項１１に記載の方法。