JP7348969B2

JP7348969B2 - 共有機能部を有するマイクロプロセッサ

Info

Publication number: JP7348969B2
Application number: JP2022004222A
Authority: JP
Inventors: 丁明陳
Original assignee: Andes Technology Corp
Current assignee: Andes Technology Corp
Priority date: 2021-06-01
Filing date: 2022-01-14
Publication date: 2023-09-21
Anticipated expiration: 2042-01-14
Also published as: TW202248846A; CN115437694A; US11467841B1; JP2022184701A; TWI796755B

Description

本開示は、一般に、マイクロプロセッサに関し、より具体的には、マルチタイプの命令を実行するための共有機能部を有するマイクロプロセッサに関する。

スーパースカラタイプのマイクロプロセッサは、１クロックサイクルごとに複数の命令を実行し、命令を順不同で実行することにより高性能を実現している。命令は、分岐予測ミス、割り込み、正確な例外等の制御上の危険性を回避するために、レジスタファイルに順番に書換える必要がある。バッファの再配置、レジスタ名の変更等の一時的なストレージは、結果データがレジスタファイルに順番に退避できるようになるまで使用される。さらに、機能部が命令を実行できるようになるまで、ソースオペランドデータを実行キューに入れておくためのストレージが必要になる。これらのストレージは、アーキテクチャレジスタファイルの数倍の大きさになることが多く、これらのストレージの読出／書込にはより多くの電力が消費される。

マイクロプロセッサにスカラ浮動小数点演算装置（ＦＰＵ）やベクトル処理部（ＶＰＵ）等の独立したマルチタイプ処理部が含まれている場合、性能、電力及び面積（ＰＰＡ）等の設計指標を達成するのは困難である。ＶＰＵは、整数と浮動小数点（ＦＰ）の両方の実行部で構成されている。ＦＰ実行部は、整数実行部に比べてサイズがはるかに大きい。異なるタイプの命令間で実行部を共有することは、特に、順不同型マイクロプロセッサでは、異なるレジスタファイルへの対応、データの依存関係、結果の転送を扱う上で、非常に複雑になる可能性がある。マイクロプロセッサは、命令タイプを直列化することで実行部を共有することができる。即ち、スカラＦＰ命令が完了して実行部をクリアしてからでないと、ベクトル命令を実行部に送ることはできない。しかし、マイクロプロセッサの実行パイプラインに、両方のタイプの処理部の命令を含めることが許可される場合、マイクロプロセッサの性能は制限される。

マイクロプロセッサは、異なるタイプの命令を処理するための独立したマルチタイプ処理部を含むことができる。しかし、独立したマルチタイプ処理部を持つマイクロプロセッサは、消費電力が大きく、サイズも大きくなる。マイクロプロセッサは、処理部を共有してもよいが、両方のマルチタイプ処理部からの命令をマイクロプロセッサの実行パイプラインに含めることが許可されている場合、マイクロプロセッサの性能が制限される。

本開示では、共有機能部を備えたマイクロプロセッサの性能を向上させることができるマイクロプロセッサ、方法、及びデータ処理システムを提案する。

実施形態では、マイクロプロセッサは、共有機能部、第１実行キュー、第２実行キュー、第１タイプ発行部、及び第２タイプ発行部を含む。
前記第１実行キューは、複数のエントリを含み、前記第１実行キューの各エントリには、第１タイプ命令が記録されている。前記第１実行キューの各エントリは、前記第１タイプ命令に対応する第１カウント値を含み、前記第１カウント値は、第１カウンタが０になるまでデクリメントされる。前記第１実行キューは、前記第１タイプ命令に対応する前記第１カウント値が０になったときに、前記第１タイプ命令を共有機能部に発送する。
前記第２実行キューは、複数のエントリを含み、前記第２実行キューの各エントリには、第２タイプ命令が記録されている。前記第２実行キューの各エントリは、前記第２タイプ命令に対応する第２カウント値を含み、前記第２カウント値は、前記第２タイプ命令に対応する前記第２カウント値が０になるまでデクリメントされる。第２実行キューは、第２カウンタが０になったときに、第２タイプ命令を共有機能部に発送する。
共有機能部は、第１タイプ命令と第２タイプ命令を実行する。第１実行キューからの第１タイプ命令と、第２実行キューからの第２タイプ命令は、相互に排他的に共有機能部に発送される。
共有機能部による実行のために、異なるタイプ命令が動的に選択される先行技術との重要な相違点は、本開示では、命令は、予定されたカウンタ（第１カウント値と第２カウント値）を用いて、将来の正確な時間に共有機能部によって実行されるように予定されていることである。レジスタファイルのデータの読出／書込は、第１タイプ命令と第２タイプ命令のいずれについても、将来の正確な実行時間に同期するように予定されている。先行技術のような、動的な競合解消、動的なデータ依存性解消、動的な読出／書込ポートの解消は必要ない。動的な解消は、マイクロプロセッサの設計において最も電力を消費する。

実施形態の方法は、第１実行キュー、第２実行キュー、及び共有機能部を含むマイクロプロセッサに適用される。
この方法は、前記第１実行キューのエントリに含まれる第１カウンタが０になったと判断することに対応して、前記第１実行キューのエントリに記録された第１タイプ命令を前記共有機能部に発送し、前記第２実行キューのエントリに含まれる第２カウンタが０になったと判断することに応答して、前記第２実行キューのエントリに記録されている第２タイプ命令を前記共有機能部に発送するものであり、前記共有機能部によって、前記第１タイプ命令と前記第２タイプ命令が実行される。

実施形態では、データ処理システムは、メモリとマイクロプロセッサを含み、前記メモリは、第１タイプ命令と第２タイプ命令をストアするように構成されている。前記マイクロプロセッサは、共有機能部、第１実行キュー、第２実行キュー、第１タイプ発行部、及び第２タイプ発行部を含む。
前記第１実行キューは、複数のエントリを含み、前記第１実行キューの各エントリには、前記第１タイプ命令が記録され、前記第１実行キューの各エントリは、前記第１タイプ命令に対応する第１カウント値を含み、前記第１カウント値は、第１カウンタが０になるまでデクリメントされる。前記第１実行キューは、前記第１タイプ命令に対応する前記第１カウント値が０になったときに、前記第１タイプ命令を前記共有機能部に発送する。
前記第２実行キューは、複数のエントリを含み、前記第２実行キューの各エントリには、前記第２タイプ命令が記録され、前記第２実行キューの各エントリは、前記第２タイプ命令に対応する第２カウント値を含み、前記第２カウント値は、第２カウンタが０になるまでデクリメントされる。前記第２実行キューは、第２カウンタが０になったときに、前記第２タイプ命令を前記共有機能部に発送する。
前記共有機能部は、前記第１タイプ命令前記と第２タイプ命令を実行し、前記第１実行キューからの前記第１タイプ命令と、前記第２実行キューからの前記第２タイプ命令が、相互に前記共有機能部に発送される。
別の実施形態では、前記第１実行キューと前記第２実行キューは、キューの各エントリの命令のタイプを示すタグを持つ単一のキューに統合されてもよい。単一の実行キューはより効率的であるが、２つの実行キューは構成が容易である。

本開示では、共有機能部を備えたマイクロプロセッサが提示され、共有機能部が実行する命令のタイプが動的に選択されている場合には、その命令は、予定されたカウンタを用いて、将来の正確な時間に共有機能部によって実行されるように予定されている。
レジスタファイルのデータの読出／書込は、第１タイプ命令と第２タイプ命令のいずれについても、共有機能部の将来の正確な実行時間に同期するように予定されている。先行技術のような動的な競合解消、動的なデータ依存性の解消、動的な読出／書込ポートの解消は必要ない。動的な解消は、マイクロプロセッサの設計において最も電力を消費する。

本開示の内容は、添付の図と合わせて読むと、以下の詳細な説明から最もよく理解できる。業界の標準的な慣行に従い、様々な特徴は縮尺通りに描かれていない。実際には、様々な特徴の寸法は、開示内容を明確にするために任意に増加又は減少させることができる。

図１は、実施形態のデータ処理システムを示すブロック図である。

図２は、実施形態におけるスコアボードとレジスタファイルを説明する図である。

図３Ａは、実施形態におけるスコアボードエントリの構造を示す図である。図３Ｂは、実施形態におけるスコアボードエントリの他の構造を示す図である。

図４は、実施形態におけるレジスタファイルの読出ポートに関連する読出シフタを示す図である。

図５は、実施形態におけるレジスタファイルの書込ポートに関連する書込シフタを示す図である。

図６は、実施形態における実行キューを示す図である。

図７Ａは、実施形態におけるマイクロプロセッサの構造を示す図である。図７Ｂは、実施形態におけるマイクロプロセッサの他の構造を示す図である。

図８は、実施形態における実行キューを示す図である。

図９は、実施形態における、命令を発行するプロセスを示すフローチャートである。

図１０は、実施形態におけるマイクロプロセッサに適応した方法を示すフローチャートである。

以下、本開示の様々な特徴を実施するための多くの異なる実施形態又は実施例を提示する。以下の説明において、構成要素及び配置の実施例は、本開示を単純化している。もちろん、これらは単なる実施例であり、本開示の内容を限定するものではない。
例えば、以下の説明において、第２の特徴の上方又は上部に第１の特徴を形成することは、第１及び第２の特徴が直接接触して形成される実施形態を含んでもよく、また、第１及び第２の特徴が直接接触しないように、第１及び第２の特徴の間に追加の特徴が形成される実施形態を含んでもよい。さらに、本開示では、様々な例において参照用の数字及び／又は文字を繰り返すことがある。この繰り返しは、単純化及び明確化のためのものであり、それ自体が開示された様々な実施形態及び／又は構成の間の関係を指示すものではない。

本開示では、パイプラインを待機させるのではなく、予定された将来の時間に命令を実行するマイクロプロセッサについて説明する。このようなプロセッサは、フューチャー・スケジューリング・実行型（ＦＳＥ）マイクロプロセッサとも呼ばれる。従来、命令で指定されたレジスタや機能部の準備ができていない場合（例えば、データの依存関係、レジスタの読出／書込ポートの可用性、機能部の可用性等のリソース競合）、デコード／発行部はレジスタや機能部の準備が整うまで実行パイプラインをストールしたり、命令を保留したりしていた。
ＦＳＥマイクロプロセッサでは、デコード／発行部は、データ依存性の解消、レジスタの読出／書込ポートの可用性、及び将来の時間における機能部の可用性に基づいて、これらの命令の発行を継続すると共に将来の時間に命令を実行するように予定する。

図１には、実施形態におけるマイクロプロセッサ１０及びメモリ３０を含むデータ処理システム１の概略図が示されている。マイクロプロセッサ１０は、メモリ３０にストアされた命令を実行することによって、様々なデータ処理機能を実行する。
メモリ３０は、レベル２（Ｌ２）及びレベル３（Ｌ３）のキャッシュと、データ処理システム１のメインメモリとを含んでもよく、この場合、Ｌ２及びＬ３のキャッシュは、メインメモリよりも速いアクセス時間を有する。メモリは、ランダムアクセスメモリ（ＲＡＭ)、動的ランダムアクセスメモリ（ＤＲＡＭ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、読出専用メモリ（ＲＯＭ）、プログラム可能な読出専用メモリ（ＰＲＯＭ）、電気的にプログラム可能な読出専用メモリ（ＥＰＲＯＭ）、電気的に消去可能なプログラム可能な読み取専用メモリ（ＥＥＰＲＯＭ）、及びフラッシュメモリのうち、少なくとも１つを含むことができる。

マイクロプロセッサ１０は、１つのマイクロプロセッサ内に命令レベルの並列処理機能を実装したスーパースカラ型マイクロプロセッサであってもよい。スーパースカラ型マイクロプロセッサは、クロックサイクルごとに複数の命令を実行することで、高性能を実現する。複数の命令は異なる機能部に発送され、並列に実行される。
スーパースカラ型マイクロプロセッサは、第１命令に依存しない第２命令を第１命令の前に実行する順不同（ＯＯＯ）型を採用することができる。従来の順不同型のマイクロプロセッサの構成では、命令を順不同で実行できるが、制御の危険性、例えば、分岐予測ミス、割り込み、正確な例外等のために、命令をマイクロプロセッサのレジスタファイルに順番に退避させる必要がある。
命令が実行パイプラインから順番に退避されるまで、結果データのために、バッファの再配置やレジスタ名変更等の一時的な記憶部が使用される。本発明では、マイクロプロセッサ１０は、命令がデータ依存性を持たず、制御ハザードを持たない限り、結果データをレジスタファイルに順不同で書換えることにより、命令を順不同で実行し、退避させることができる。本実施形態では、データ依存性や制御上の危険性を有する命令を、予定された将来の時間に発行するようにマイクロプロセッサ１０が構成されているため、ＦＳＥマイクロプロセッサ１０には一時レジスタは使用されない。しかし、本開示は、これに限定されない。他の実施形態では、一時的なレジスタも使用することができる。

図１に示すように、マイクロプロセッサ１０は、命令キャッシュ１１、分岐予測部（ＢＰＵ）１２、デコード／発行部１３、レジスタファイル１４、スコアボード１５、読出／書込制御部１６、ロード／ストア部１７、データキャッシュ１８、タグ実行キューＴＥＱ１９Ｄ及びデータ実行キューＤＥＱ１９Ｅ等実行キューが特別な目的で使用される可能性がある複数の実行キュー（ＥＱ）１９Ａ～１９Ｅ、及び複数の機能部（ＦＵＮＴ）２０Ａ～２０Ｃを含んでもよい。また、マイクロプロセッサ１０は、読出バス３１と結果バス３２とを含んでもよい。読出バス３１は、レジスタファイル１４内のレジスタからロード／ストア部１７と機能部２０Ａ～２０Ｃにオペランドデータを送信するため、ロード／ストア部１７と、機能部２０Ａ～２０Ｃと、レジスタファイル１４に結合されている。これは、レジスタファイル１４から動作データ（ストア命令の場合はストアデータ）を読出す動作とも呼ばれる。結果バス３２は、データキャッシュ１８や機能部２０Ａ～２０Ｃからレジスタファイル１４のレジスタにデータを送信するために、データキャッシュ１８や機能部２０Ａ～２０Ｃ、及びレジスタファイル１４に接続されている。これは、レジスタファイル１４に対する結果データ（ロード命令の場合はロードデータ）の書換え動作とも呼ばれる。本明細書では、数字の後にアルファベットを付けて記載した部分は、アルファベットを省略して番号のみで表示する。例えば、実行キュー１９Ａ～１９Ｅは、指定されない限り実行キュー１９と総称される。デコード／発行部１３、スコアボード１５、読出／書込制御部１６、レジスタファイル１４、複数の実行キュー１９Ａ～１９Ｅ、及び複数の機能部２０Ａ～２０Ｃは、同一のレジスタファイルを介してデータアクセスを行う１タイプの命令実行ブロック１００Ａに統合されている。実施形態ではマイクロプロセッサ１０は、本明細書で実行ブロック１００と総称される実行ブロック１００Ｂ及び１００Ｃに示されるように、ベクトル又は浮動小数点命令等の他のタイプの命令を実行することもできる。
実施形態では、命令は、異なるタイプの命令を含む。例えば、命令は、ベクトル命令、スカラＦＰ命令、単一命令/複数データ（ＳＩＭＤ）命令、デジタル信号処理（ＤＳＰ）命令、又は任意の他のタイプの命令のうちの少なくとも１つを含んでもよい。ベクトル命令、スカラＦＰ命令、ＳＩＭＤ命令、ＤＳＰ命令の定義は、関連する技術分野でよく知られているため、以下ではこれらの命令のタイプについての詳細な説明は省略する。本開示の実施形態では、図１に図示されているものよりも多数、少数、又は異なるコンポーネントを使用することができる。

実施形態では、命令キャッシュ１１は、メモリ３０及びデコード／発行部１３に結合（図示せず）され、メモリ３０から読出された命令をストアし、デコード／発行部１３に命令を発送するように構成されている。命令キャッシュ１１は、メモリ３０からの連続した命令バイトの多数のキャッシュラインを含む。キャッシュラインは、ダイレクト・マップピング、フルアソシアティブ・マップピング又はセットアソシアティブ・マップピング等で構成されている。なお、ダイレクト・マップピング、フルアソシアティブ・マップピング、セットアソシアティブ・マップピングは、関連技術において周知であるため、以下では、上記マップピングに関する詳細な説明を省略する。

命令キャッシュ１１は、マイクロプロセッサ１０で使用される使用頻度の高い命令のアドレスとデータの一部をそれぞれストアするための、タグアレイ（図示せず）とデータアレイ（図示せず）を含んでいてもよい。タグアレイの各タグは、データアレイのキャッシュラインに対応している。マイクロプロセッサ１０が命令を実行する必要があるとき、マイクロプロセッサ１０は、まず、命令のアドレスをタグアレイにストアされているタグと比較することで、命令キャッシュ１１に命令が存在するかどうかを確認する。命令のアドレスがタグアレイのタグの１つと一致する場合（即ち、キャッシュヒット）、対応するキャッシュラインがデータアレイから読出される。命令のアドレスがタグアレイのどのエントリとも一致しない場合、それはキャッシュミスであり、マイクロプロセッサ１０は、命令を見つけるためにメモリ３０にアクセスしてもよい。実施形態ではマイクロプロセッサ１０は、命令をデコード／発行部１３に送る前に、命令キャッシュ１１又はメモリ３０からの命令をストアするために、命令キャッシュ１１及びデコード／発行部１３に結合される命令キュー（図示せず）をさらに含む。

ＢＰＵ１２は、命令キャッシュ１１に結合されており、分岐命令に続いて命令を予測的に読出すように構成されている。ＢＰＵ１２は、分岐命令の過去の動作に基づいて、分岐命令の分岐方向（採用又は非採用）を予測し、採用された分岐命令の予測された分岐目標アドレスを提供することができる。分岐方向が「採用」である場合、採用された分岐命令の分岐目標アドレスから後続の命令が読出される。また、分岐方向は、「非採用」であってもよく、その場合、後続の命令は、分岐命令に連続するメモリ位置から読出される。
実施形態では、ＢＰＵ１２は、基本ブロックの開始アドレスから基本ブロックの終了を予測するための基本ブロックの分岐予測機能を実装している。基本ブロックの開始アドレス（例えば、基本ブロックの最初の命令のアドレス）は、以前に採用された分岐命令の目標アドレスであってもよい。基本ブロックの終了アドレスは、基本ブロックの最後の命令の後の命令アドレスであり、これは別の基本ブロックの開始アドレスであってもよい。基本ブロックは、いくつかの命令を含んでいてもよく、基本ブロックのある分岐が別の基本ブロックにジャンプするために採用されたときに、基本ブロックは終了する。

機能部は、分岐命令を実行し、予測された分岐方向が正しくない（誤予測）かどうかを判断する分岐実行部（ＢＥＵ）（機能部２０の１つであってもよい）を含んでもよい。例えば、ＢＥＵは、予測された分岐の方向（採用、非採用）を実際に実行された分岐と比較して、予測された分岐の方向が正しいかどうかを判断してもよい。
デコードするため誤って予測された分岐に続く命令は、マイクロプロセッサ内の様々な個所から破棄される。分岐予測ミスは、ＢＰＵ１２で予測されなかった無条件分岐命令（常に採用される分岐）をデコードするデコード／発行部１３から発生してもよい。また、デコード／発行部１３とＢＰＵ１２は、ＢＰＵ１２に更新情報を提供してもよい。マイクロプロセッサ１０では、分岐命令後の命令は、分岐命令の実行後に、レジスタファイル１４に書き戻す。

デコード／発行部１３は、命令キャッシュ１１から受信した命令をデコードしてもよい。命令は、動作コード（又はオペコード）、オペランド（例えば、ソースオペランド及び分岐先オペランド）、及び即時データという領域を含んでもよい。オペコードは、どの動作（例えば、ＡＤＤ、ＳＵＢＴＲＡＣＴ、ＳＨＩＦＴ、ＳＴＯＲＥ、ＬＯＡＤ等）を実行するかを指定してもよい。
オペランドは、レジスタファイル１４内のレジスタのインデックス又はアドレスを指定するもので、ソースオペランドは、動作が読出されるレジスタファイルからのレジスタを示し、分岐先オペランドは、動作の結果データが書換えられるレジスタファイル内のレジスタを示す。ソースオペランド及び分岐先オペランドは、ソースレジスタ及び分岐先レジスタとも呼ばれ、これらは以下で同じ意味で使用される。
実施形態では、オペランドは、３２個のレジスタを有するレジスタファイル内のレジスタを識別するために、５ビットのインデックスを必要とする。命令によっては、レジスタデータの代わりに、命令で指定された即時データを使用する。各動作は、機能部２０又はロード／ストア部１７で実行される。オペコードで指定された演算のタイプと、リソース（レジスタ、機能部等）の可用性に基づいて、各命令は、実行レイテンシ時間とスループット時間を持つ。実行レイテンシ時間（又はレイテンシ時間）とは、命令で指定された動作の実行が完了し、結果データを書換えるまでの時間（即ち、クロックサイクル数）を指す。スループット時間とは、次の命令が機能部２０に入力できる時間（クロックサイクル数）を指す。

実施形態では、デコード／発行部１３において、実行レイテンシ時間、スループット時間、及びオペコードに基づく命令のタイプがデコードされる。命令は、実行キュー１９に発送され、機能部２０又はロード／ストア部１７によって実行される。
１つの実行キュー１９に対して複数の命令が発行される場合は、スループット時間が累積される。累積時間は、実行キュー１９で以前に発行された命令を考慮して、次の命令が実行のために機能部２０に入力することができる時間を示す。機能部２０に命令を送ることができる時間を（レジスタファイルからの）読出時間と呼び、機能部２０が命令を完了した時間を（レジスタファイルへの）書込時間と呼ぶ。
命令は、実行キュー１９に対して発行され、発行された各命令は、予定された読出時間を持って、実行のために機能部２０又はロード／ストア部１７に発送される。累積されたスループット時間は、発行された命令の読出時間である。命令のレイテンシ時間は、実行キュー１９の次の利用可能なエントリに命令が発行されるときの書込時間を生成するために、累積されたスループット時間に追加される。累積時間に基づき、実行のレイテンシ時間と発行命令の開始時間が修正される。ここで、修正された実行のレイテンシ時間は、最新の発行された命令の書込時間と呼ばれ、修正された開始時間は、発行された命令の読出時間と呼ばれる。
書込時間と読出時間は、発行された命令をレジスタファイル１４のレジスタに書込んだり、レジスタファイル１４から読出たりするための、特定の時間を記述するアクセス時間と呼ばれることもある。複数の命令を並行して発行する場合、第２命令の書込時間と読出時間は、第２命令の前に発行された第１命令に基づいてさらに調整されてもよい。デコード／発行部１３は、ロード／ストア命令を、タグマイクロオペとデータマイクロオペを含む２つのマイクロ動作（マイクロオペ）としてデコードしてもよい。

実施形態では、デコード／発行部１３は、命令を発行する前に、全ての可能な競合を確認して解消する。命令には、以下の４つの基本的なタイプの競合がある。
（１）読出後書込み（ＷＡＲ）、書込み後読出（ＲＡＷ）、書込み後書込み（ＷＡＷ）を含むデータ依存性。
（２）レジスタファイルから機能部へデータを読出すための読出ポートの可用性。
（３）機能部からレジスタファイルにデータを書換えるための書込ポートの可用性。
（４）データを実行するための機能部２０の可用性。
デコード／発行部１３は、命令を実行キュー１９に発送する前に、スコアボード１５にアクセスしてデータの依存性を確認してもよい。レジスタファイル１４は、限られた数の読出／書込ポートを有しており、発行された命令は、将来的にレジスタファイル１４にアクセスするために、読出／書込ポートを調整又は予約する必要がある。
読出／書込制御部１６は、命令の各ソースオペランドの予定された読出時間と、命令の各分岐先オペランドの予定された書込時間とを保持する。デコード／発行部１３は、命令のアクセス時間（即ち、読出時間及び書込時間）を予定すると共に、レジスタファイル１４の読出ポートの可用性を確認するために、読出／書込制御部１６にアクセスしてもよい。他の実施形態では、書込ポートの１つは、書込ポート制御を使用せずに、レジスタファイル１４に書換えるための実行レイテンシ時間が不明な命令の専用であってもよい。また、読出ポートの１つは、読出ポート制御を使用せずに、レジスタファイル１４からデータを読出すための読出時間が不明な命令用に確保してもよい。レジスタファイル１４の読出ポートの数を、未知の読出動作のために動的に確保する（専用ではない）ことも可能である。この場合、機能部２０又はロード／ストア部１７は、レジスタファイル１４からデータを読出す際に、読出ポートが使用中でないことを確認する必要がある。
実施形態では、機能部２０の可用性は、キューイングされた命令（即ち、以前に実行キューに発行された命令）のスループット時間が累積される実行キュー１９と調整することによって、解消されてもよい。実行キューに累積されたスループット時間に基づいて、機能部２０が利用可能である将来の特定の時間に機能部２０に発送されるように予定された命令は、実行キュー１９に対して発行されてもよい。

図２は、本開示の実施形態におけるレジスタファイル１４及びスコアボード１５を示すブロック図である。レジスタファイル１４は、複数のレジスタＲ（０）～Ｒ（Ｎ）、読出ポート及び書込ポート（図示せず）を含んでもよく、Ｎは１より大きい整数である。実施形態では、レジスタファイル１４は、スカラのレジスタファイルとベクトルのレジスタファイルを含んでいてもよい。本開示は、レジスタファイル１４に含まれるレジスタ、読出ポート、及び書込ポートの数を制限することを意図しない。
スコアボード１５は、複数のエントリ１５０（０）～１５０（Ｎ）を含み、各スコアボードエントリは、レジスタファイル１４内の１つのレジスタに対応し、対応するレジスタに関連する情報を記録する。実施形態では、スコアボード１５は、レジスタファイル１４と同数のエントリ（即ち、Ｎ個のエントリ）を有するが、本開示は、スコアボード１５のエントリの数を制限することを意図しない。

図３Ａ～３Ｂは、本開示の実施形態におけるスコアボードエントリの様々な構造を示す図である。実施形態では、スコアボード１５は、レジスタファイル１４への書換え動作を処理するための第１スコアボード１５１と、レジスタファイル１４からの読出動作を処理するための第２スコアボード１５２とを含んでもよい。
第１及び第２スコアボード１５１、１５２は、マイクロプロセッサ１０内に共存していても、共存していなくてもよい。本開示は、この点を限定することを意図しない。他の実施形態では、第１及び第２スコアボード１５１、１５２は、読出及び書込の両方の動作を処理する１つのスコアボード１５として実装又は表示されてもよい。
図３Ａは、発行された命令の分岐先レジスタのための第１スコアボード１５１を示す。図３Ｂは、発行された命令のソースレジスタのための第２スコアボード１５２を示す。図３Ａに示すように、第１スコアボード１５１の各エントリ１５１０（０）～１５１０（Ｎ）は、未知領域（Ｕｎｋｎｏｗｎ）１５１１と、カウント領域（ｃｎｔ）１５３１と、機能部領域（ｆｕｎｉｔ）１５５１とを含む。これらの領域のそれぞれには、発行された命令によって書込まれる、対応する分岐先レジスタに関連する情報が記録される。スコアボードエントリのこれらの領域は、命令の発行時に予定されてもよい。

未知領域１５１１は、スコアボードエントリに対応するレジスタの書込時間が既知であるか未知であるかを示すビット値を含む。例えば、未知領域１５１１は、非ゼロの値はレジスタが未知の書込時間を有することを示し、ゼロの値はカウント領域１５３１によって示されるレジスタが既知の書込時間を有することを示す、１つのビットを含んでもよい。
実施形態において、未知領域１５１１は、未知の書込時間を有する１つ又は複数の発行された命令をレジスタに書込むことが予定されていることを示すために、任意の数のビットを含んでもよい。未知領域１５１１は、命令の発行時間に予定又は修正され、未知のレジスタ書込時間が解消された後にリセットされてもよい。
リセット動作は、デコード／発行部１３、ロード／ストア部１７（例えば、データヒット後）、又は機能部２０（例えば、INT DIV 動作が分割する桁数を解消した後）等、書込時間が不明な命令の実行を伴うマイクロプロセッサ内の他の部分の何れかによって実行されてもよい。
実施形態では、未知領域１５１１は、レジスタの書込みに予定されている未知の書込時間において他の３つの発行された命令の存在を記録する、４つの異なる状態を持つ２つのビットを含んでもよい。さらに他の実施形態では、未知領域１５１１は、未知の書込時間を有する複数の発行された命令を記録するために、３ビット、４ビット等を含んでもよい。

カウント領域１５３１には、次の命令（が発行されること）によってレジスタが書き込めるようになるまでのクロックサイクル数を示し、書込みカウント領域が記録した書込みカウント値とも呼ばれる、カウント値が記録される。つまり、カウント領域１５３１には、先に発行された命令が動作を完了して、結果データをレジスタに書換えるまでのクロックサイクル数が記録されている。カウント領域１５３１のカウント値は、命令の発行時間の実行レイテンシ時間に基づいて予定される。そして、カウント値は、カウント値がゼロになる（自己リセットされる）まで、クロックサイクルごとにカウントダウン（１つずつデクリメント）される。例えば、ＡＤＤ命令の実行レイテンシ時間は２クロックサイクルであり、カウント領域１５３１のカウント値は、分岐先レジスタに対するＡＤＤ命令の発行時間に２に予定され、カウンタ領域が０になると自己リセットされる。カウント値が３の場合は、結果データは３クロックサイクル後にスコアボードのエントリに対応するレジスタに書換えられ、カウント値が１の場合は、次のクロックサイクルで結果データがレジスタに書換えられ、カウント値が０の場合は、レジスタへのアクセスにデータの依存性がないことを示す。
実施形態では、発行された命令は、レジスタへの書込又は読出を行うことができる。レジスタへの書込の場合、カウント領域１５３１の値は、書込（又はレイテンシ）カウント値と呼ばれることがある。レジスタへの読出の場合、カウント領域１５３１の値は、図３Ｂで述べる読出カウント値として参照されてもよい。言い換えれば、他の実施形態では、カウント値領域は、発行された命令によって指定された動作に応じて、レジスタの書込時間又は読出時間のいずれかを記録してもよい。

スコアボードエントリの機能部領域１５５１は、レジスタに書換える機能部２０（発行された命令で指定される）を指定する。例えば、ＡＬＵを記録する機能部領域１５５１は、結果データがＡＬＵ機能部からレジスタに書換えられることを示す。実施形態では、機能部領域１５５１に記録された機能部は、カウント領域１５３１が１の値に達したときに、記録された機能部から次の命令で指定された別の機能部に結果データを転送するために使用されてもよい。

図３Ｂは、本開示の実施形態における、スコアボードエントリの構造を示す図である。スコアボードエントリ１５２０（０）～１５２０（Ｎ）の構造を有する第２スコアボード１５２は、レジスタから読み出された発行済み命令の前に、スコアボードエントリに対応するレジスタに書込む際の競合を解消するように構成されている。第２スコアボードは、ＷＡＲデータの依存関係を解消するためのＷＡＲスコアボードとも呼ばれる。スコアボードエントリ１５２０（０）～１５２０（Ｎ）の各々は、未知領域（Ｕｎｋｎｏｗｎ）１５２１と、読出カウント領域（カウント領域とも称される）（ｒｅａｄｃｎｔ）１５２３とを含む。ＷＡＲスコアボードの実装においては、機能部領域を省略してもよい。未知領域１５２１は、スコアボードエントリに対応するレジスタの読出時間が既知であるか未知であるかを示すビット値を含む。未知領域１５２１の動作及び機能は、未知領域１５１１と同様であるため、簡略化のためにその詳細は省略する。カウント領域１５２３には、先に発行された命令が対応するレジスタから読出すのにかかるクロックサイクル数を示す読出カウント値が記録される。カウント領域１５２３は、読出カウント値をストアする読出カウント領域と呼ばれることもある。
（書込）カウント領域１５３１の書込カウント値と同様に、読出カウント値は、読出カウント値が０になるまで、クロックサイクルごとに１ずつカウントダウンされる。（読出）カウント領域１５２３の動作及び機能は、特に指定のない限り、（書込）カウント領域１５３１と同様であるため、その詳細は省略する。

読出／書込制御部１６は、発行されるべき命令のアクセスを予定するために、将来の複数のクロックサイクルにおいて、レジスタファイル１４の読出ポート及び／又は書込ポートの可用性を記録するように構成されている。命令を発行する際には、デコード／発行部１３は、読出／書込制御部１６にアクセスして、命令で指定されたアクセス時間に基づく、レジスタファイル１４の読出ポート及び／又は書込ポートの空き状況を確認する。詳細には、読出／書込制御部１６は、ソースオペランドを機能部２０に読出すために予定された読出時間である将来の時間に利用可能な読出ポートを選択し、また、機能部２０から結果データを書換えるための予定された書込時間である将来の時間に利用可能な書込ポートを選択する。本実施形態では、読出／書込制御部１６は、上述したように、読出ポートと書込ポートを予定するための読出シフタ１６１と書込シフタ１６３を含んでいてもよい。

図４は、本開示の実施形態における、レジスタファイルの読出ポートに関連付けられた読出シフタ１６１を示す図である。図５は、本開示の実施形態における、レジスタファイルの書込ポートに関連付けられた書込シフタ１６３を示す図である。レジスタファイル１４の読出ポートの各々は、１つの読出シフタ１６１と関連付けられていてもよく、レジスタファイル１４の書込ポートの各々は、１つの書込シフタ１６３と関連付けられていてもよい。実施形態では、読出シフタ１６１及び書込シフタ１６３は、読出／書込制御部１６に含まれていてもよい。しかし、本開示はこれに限定されない。
他の実施形態では、読出シフタ１６１及び書込シフタ１６３は、読出／書込制御部１６の外部にあってもよく、読出／書込制御部１６は、レジスタファイル１４の読出ポート及び書込ポートの使用を制御するために、読出シフタ１６１及び書込シフタ１６３にそれぞれ通信可能に結合されていてもよい。

図４に示すように、読出シフタ１６１は、複数のエントリ１６１０（１）～１６１０（Ｍ）を含み、各エントリは、読出有効領域１６１１及び読出アドレス領域１６１３を含んでもよく、Ｍは１より大きい整数である。エントリ１６１０（１）～１６１０（Ｍ）のそれぞれは、将来の１クロックサイクルに関連付けられ、そのクロックサイクルにおいて対応する読出ポートの可用性を記録する。例えば、エントリ１６１０（１）は、到来する第１クロックサイクル（即ち、すぐ次のクロックサイクル）における読出ポートの可用性を示し、エントリ１６１０（Ｍ）は、将来の第Ｍクロックサイクルにおける読出ポートの可用性を示す。図４に示すように、エントリ１６１０（１）～１６１０（Ｍ）のうち最末尾のエントリは、クロックサイクルごとにシフトアウトされ、新しいエントリが１６１０（Ｍ）として追加される可能性がある。例えば、最末尾のエントリ１６１０（１）は、すぐ次のクロックサイクルでシフトアウトされる。
実施形態では、読出有効領域（ｒｄ）１６１１には、対応するクロックサイクルでの読出ポートの可用性を示す読出有効値が記録される。例えば、Ｘ番目のエントリにおける読出有効領域１６１１（Ｘ）の非ゼロ値は、Ｘが１より大きくＭより小さい場合に、将来のＸ番目のクロックサイクルにおいて読出ポートが使用中になることを示し、Ｘ番目のエントリにおける読出有効領域１６１１（Ｘ）のゼロ値は、将来のＸ番目のクロックサイクルにおいて対応する読出ポートがアクセス可能になることを示す。読出アドレス領域（ｒｄ＿ａｄｄｒ）１６１３は、データが読み出されるべきレジスタのアドレスを記録する。例えば、エントリ１６１０（１）は、レジスタ７（即ち、アドレスｒ７）からデータを読出すために、すぐ次のクロックサイクルで対応する読出ポートが使用中になることを示す。他の実施形態では、他の情報を記録するために、読出シフタ１６１の各エントリに、より多くの又はより少ない領域が存在する。

命令の発行時間において、デコード／発行部１３は、レジスタファイル１４の読出ポート（複数可）の可用性について、読出／書込制御部１６を確認する。例えば、読出時間はＸクロックサイクルである。読出／書込制御部１６は、読出シフタ（複数可）１６１のＸ番目のエントリを確認して、将来のＸクロックサイクル目に読出ポートが使用可能かどうかを判断する。使用可能な読出ポートの数が、読出時間における命令の必要な読出ポートの数以上であれば、デコード／発行部１３は、Ｘ番目のクロックサイクル（即ち、読出予定時間）に命令を発行して実行するように予定してもよい。発行された命令の有効なソースレジスタごとに、読出ポートの読出有効領域１６１１と読出アドレス領域１６１３が予定される。
利用可能な読出ポートの数が必要な読出ポートの数よりも少ない場合、デコード／発行部１３は命令を待機し、次のクロックサイクルで読出シフタを再確認することができる。予定された読出時間になると、読出シフタは、レジスタファイル１４からデータを読み取るために、読出有効領域１６１１及び読出アドレス領域１６１３を対応する機能部に提供する。実施形態では、読出シフタ１６１は、循環型の読出ポインタで実装されても良い。この読出ポインタは、クロックサイクルごとに読出有効領域１６１１及び読出アドレス領域１６１３を読出す読出シフタ１６１の末尾を示し、読出ポインタはクロックサイクルごとにインクリメントされる。

図５に示すように、書込シフタ１６３（レイテンシシフタと呼ばれることもある）は、複数のエントリ１６３０（１）～１６３０（Ｐ）を含み、各エントリは、書換有効領域（ｗｒ）１６３１、書込アドレス領域（ｗｒ＿ａｄｄｒ）１６３３、及び機能部領域（ｆｕｎｉｔ）１６３５を含み、Ｐは１より大きい整数である。エントリ１６３０（１）～１６３０（Ｐ）のそれぞれは、将来の１クロックサイクルに関連付けられ、そのクロックサイクルにおける対応する書込ポートの可用性を記録する。例えば、エントリ１６３０（１）は、到来する第１クロックサイクル（即ち、すぐ次のクロックサイクル）における書込ポートの可用性を示し、エントリ１６３０（Ｐ）は、今後の第Ｐクロックサイクルにおける書込ポートの状態を示す。図５に示すように、エントリ１６３０（１）～１６３０（Ｐ）のうち最末尾のエントリは、クロックサイクルごとにシフトアウトされることになる。例えば、最末尾のエントリ１６３０（１）は、すぐ次のクロックサイクルでシフトアウトされ、新しいエントリが１６３０（Ｐ）として追加される。実施形態では、書換有効領域（ｗｒ）１６３１には、エントリに対応するクロックサイクルでの書込ポートの可用性を示す書換有効値が記録される。
例えば、Ｙ番目のエントリにおける書換有効領域１６３１（Ｙ）の非ゼロ値は、将来のＹ番目のクロックサイクルで書込ポートが使用中になることを示し、Ｙは１より大きくＰより小さい値であり、Ｙ番目のエントリにおける書換有効領域１６３１（Ｙ）のゼロ値は、将来のＹ番目のクロックサイクルで書込ポートがアクセス可能な状態になることを示す。
書込アドレス領域（ｗｒ＿ａｄｄｒ）１６３３は、機能部が結果データの書換えを行うレジスタファイル１４内のレジスタのアドレスを示す。機能部領域（ｆｕｎｉｔ）１６３５は、書込ポートに結果データを書換える機能部２０又はロード／ストア部１７を指定する。
例えば、書込シフタ１６３の第１エントリ１６３０（１）は、機能部領域１６３５に記録されたａｌｕ０が、書込アドレス領域１６３３に記録されたレジスタ２２（ｒ２２）に結果データを書換え、到来する第１クロックサイクルにおいて書込ポートが使用中になることを示す。

命令の発行時間において、デコード／発行部１３は、命令を発行する前に、命令の書込時間におけるレジスタファイル１４の書込ポートの可用性を読出／書込制御部に確認する。例えば、書込時間はＹクロックサイクルである。読出／書込制御部１６は、書込シフタ１６３のＹ番目のエントリを確認して、将来のＹクロックサイクルで書込ポートが使用可能かどうかを判断する。使用可能な書込ポートの数が、書込時間における命令の必要な書込ポートの数以上であれば、デコード／発行部１３は、Ｙ番目のクロックサイクル（即ち、予定された書込時間）に実行完了の命令を発行して実行するように予定してもよい。発行された命令の有効な分岐先レジスタごとに、書換有効領域１６３１、機能部領域１６３５、書込アドレス領域１６３３が予定される。利用可能な書込ポートの数が必要な書込ポートの数よりも少ない場合、デコード／発行部１３は命令を待機させ、次のクロックサイクルで書込シフタを再確認することができる。予定された書込時間になると、読出／書込ポート制御は、機能部２０から機能部領域１６３５に記録されている結果データを取り込み、書込アドレス領域１６３３に指定されているレジスタに結果データを書込む。実施形態では、書込シフタ１６３は、循環型の読出ポインタで実装されてもよい。この読出ポインタは、クロックサイクル毎に書換有効領域１６３１、書込アドレス領域１６３３、及び機能部領域１６３５を読出す書込シフタ１６３の底を示し、クロックサイクル毎にインクリメントされる。

図１に示すように、実行キュー１９は、機能部２０に発送されることが予定されている発行済み命令を保持するように構成されている。機能部２０は、整数乗算、整数除算、演算部（ＡＬＵ）、浮動小数点演算部（ＦＰＵ）、分岐実行部（ＢＥＵ）、復号化された命令を受ける演算部等を含むが、これらに限定されない。本実施形態では、実行キュー１９のそれぞれは、機能部２０の１つに結合されているか、又は専用になっている。
例えば、実行キュー１９Ａは、デコード／発行部１３と対応する機能部２０Ａとの間に結合され、対応する機能部２０Ａが計画されている動作を指定する命令を、キューイング及び発送する。同様に、実行キュー１９Ｂは、デコード／発行部１３と対応する機能部２０Ｂとの間に結合され、実行キュー１９Ｃは、デコード／発行部１３と対応する機能部２０Ｃとの間に結合される。
実施形態では、実行キュー１９Ｄ、１９Ｅは、デコード／発行部１３とロード／ストア部１７との間に結合され、ロード／ストア命令を処理する。実行キュー１９Ｄ、１９Ｅは、それぞれ、タグ実行キュー（ＴＥＱ）１９Ｄ、データ実行キュー（ＤＥＱ）１９Ｅとも呼ばれる。

図６は、実施形態における実行キュー１９を示す図である。実行キュー１９は、デコード／発行部１３から発令された命令に関する情報を、機能部２０に発行すべき順序で記録するための複数のエントリ１９０（０）～１９０（Ｑ）を含んでもよく、Ｑは０より大きい整数である。一例では、実行キュー１９の各エントリは、図６でそれぞれｖ、ｅｘ＿ｃｔｒｌ、ｄａｔａ、及びｒｄ＿ｃｎｔとラベル付けされた有効領域１９１、実行制御データ領域１９３、データ領域１９５、及び読出カウント領域１９７を含む。他の実施形態では、各ＥＱに記録される領域の数は多数でも少数でもよく、データ領域（ｄａｔａ）１９５には、即時データの代わりに他のデータが記録されていてもよい。

有効領域（ｖ）１９１は、エントリが有効であるか否かを示す（例えば、有効なエントリは１で示し、無効なエントリは０で示す）。実行制御データ領域（ｅｘ＿ｃｔｒｌ）１９３及びデータ領域（ｄａｔａ）１９５は、命令から派生した機能部２０の実行制御データ及び命令の即時データを示す。読出カウント領域（ｒｄ＿ｃｎｔ）１９７には、命令の読出時間を示すための読出カウントが記録されている。読出カウント領域（ｒｄ＿ｃｎｔ）１９７にストアされた読出時間は、読出カウントがゼロになるまで、クロックサイクルごとに１ずつカウントダウンされる。読出カウント領域（ｒｄ＿ｃｎｔ）１９７の読出時間が０になると、実行キュー１９は、有効な命令を機能部２０に発送する。

実行キュー１９は、カウンタ値がゼロになるまでクロックサイクルごとに１つずつカウントダウンされる累積カウント値をストアするための累積型スループットカウンタ（ａｃｃ＿ｃｎｔ）１９９を含むか、又はそれに結合されてもよい。累積カウント値がゼロになると、ＥＱ１９が空であることを示す。
累積型スループットカウンタ（ａｃｃ＿ｃｎｔ）１９９の累積カウント値は、デコード／発行部１３の次の命令を機能部２０又はロード／ストア部１７に発送することができる将来の時間を示す。デコード／発行部１３の次の命令は、累積型スループットカウンタ（ａｃｃ＿ｃｎｔ）１９９の累積カウント値に応じて、機能部２０又はロード／ストア部１７への発送時間を予定して、実行キュー１９に対して発行することができる。実施形態では、命令の読出時間は累積カウント値であり、累積カウント値は、現在のａｃｃ＿ｃｎｔと次の命令のスループット時間（ａｃｃ＿ｃｎｔ＝ａｃｃ＿ｃｎｔ＋ｉｎｓｔ＿ｘｐｕｔ＿ｔｉｍｅ）との和に応じて予定される。
他の実施形態では、読出時間が修正され（読出時間が現在の累積カウントよりも大きい場合）、累積カウント値ａｃｃ＿ｃｎｔは、次の命令のための命令読出時間（ｒｄ＿ｃｎｔ）と命令スループット時間の合計（ａｃｃ＿ｃｎｔ＝ｒｄ＿ｃｎｔ＋ｉｎｓｔ＿ｘｐｕｔ＿ｔｉｍｅ）に従って予定される。読出シフタ１６１と書込シフタ１６３は、読出シフタ１６１によってレジスタファイル１４からソースレジスタが読み出されるのと同時に、実行キュー１９が機能部２０又はロード／ストア部１７に命令を発送ができるように、実行キュー１９と同期して構成されている。そして、機能部２０又はロード／ストア部１７からの結果データは、書込シフタ１６３によって、レジスタファイル１４に書換えられる。

図１に示すように、ロード／ストア部１７は、ロード命令とストア命令を処理するために、デコード／発行部１３に結合されている。実施形態では、デコード／発行部１３は、ロード／ストア命令を、タグマイクロオペとデータマイクロオペとを含む２つのマイクロ動作（マイクロオペ）として発行する。タグマイクロオペは、タグ実行キュー（ＴＥＱ）１９Ｄに送られ、データマイクロオペは、データ実行キュー（ＤＥＱ）１９Ｅに送られる。実施形態では、ロード／ストア命令のマイクロオプのスループット時間は１サイクルであり、ＴＥＱ１９Ｄ及びＤＥＱ１９Ｅは独立して処理されるロード／ストア動作であり、ＴＥＱ１９ＤはＤＥＱ１９Ｅがデータ動作を発行する前にタグ動作を発行する必要がある。

データキャッシュ１８は、メモリ３０及びロード／ストア部１７に結合されており、メモリ３０から読出されてロード／ストア部１７によってロード／ストアデータにアクセスされるデータを、ストアするように構成されている。データキャッシュ１８は、メモリ３０からの連続したデータバイトの多数のキャッシュラインを含む。データキャッシュ１８のキャッシュラインは、命令キャッシュ１１と同様のダイレクト・マップピング、フルアソシアティブ・マップピング又はセットアソシアティブ・マップピングとして編成されるが、命令キャッシュ１１と同じマップピングである必要はない。

データキャッシュ１８は、マイクロプロセッサ１０で使用される頻度の高いデータのアドレスとデータの一部をそれぞれ記憶するためのタグアレイ（ＴＡ）２２とデータアレイ（ＤＡ）２４を含んでいてもよい。命令キャッシュ１１と同様に、タグアレイ２２の各タグは、データアレイ２４のキャッシュラインに対応している。マイクロプロセッサ１０がロード／ストア命令を実行する必要があるとき、マイクロプロセッサ１０は、ロード／ストアアドレスをタグアレイ２２にストアされているタグと比較することにより、データキャッシュ１８にロード／ストアデータが存在するかどうかを最初に確認する。ロード／ストアアドレスがタグアレイ内のタグの１つと一致した場合（キャッシュヒット）、データアレイ２４内の対応するキャッシュラインにアクセスしてロード／ストアデータを取得する。
実施形態では、ロード命令は、データアレイ２４のキャッシュラインからデータを読出して、レジスタファイルの分岐先レジスタに書き込み、一方、ストア命令は、レジスタファイル１４のソースレジスタからデータアレイ２４のキャッシュラインにデータを書込む。ロード／ストアアドレスがタグアレイ２２のどのエントリとも一致しない場合は、キャッシュミスとなり、マイクロプロセッサ１０はメモリ３０にアクセスしてデータを探すことができる。キャッシュヒットの場合、ロード／ストア命令の実行レイテンシは既知である（例えば、２、３、６、又は任意のクロックサイクル数）。キャッシュミスの場合、ロード／ストア命令の実行レイテンシは１５クロックサイクル以上である。ロード命令の実行レイテンシは、キャッシュヒットとメモリ３０のレイテンシに依存し、基本的に未知である。

タグ動作には、ロード／ストア部１７内のアドレス生成部（ＡＧＵ）１７１によるアドレスの計算と、計算されたアドレスを用いて、タグアレイ２２とデータトランスレーションルックアサイドバッファ（ＴＬＢ）（図示せず）にアクセスし、仮想アドレスから物理アドレスへの変換を行うことが含まれる。アドレスの計算は、レジスタファイル１４からのソースレジスタと、図６のデータ領域（データ）１９５からの即時データの加算処理である。図４の読出シフタ１６１は、ＴＥＱ１９ＤからＡＧＵ１７１へのタグ動作の発行に合わせて、レジスタファイル１４からソースレジスタを読み取るように予定されている。
実施形態では、仮想アドレスと物理アドレスが同じであり、その場合、データＴＬＢは必要ない。ＴＥＱ１９Ｄは、ロード／ストアアドレスを算出するために、タグ動作をロード／ストア部１７のアドレス生成部（ＡＧＵ）１７１に発送する。ロード／ストアアドレスは、データキャッシュ１８のタグアレイ（ＴＡ）２２にアクセスするために使用される。キャッシュのヒット／ミスとヒット経路（セットアソシアティブ・マッピング）は、ＤＡ２４のヒットウェイのキャッシュラインにアクセスというデータ動作を有するＤＥＱ１９Ｅが、アクセスできるように保持される。
ロード命令は、ＤＡ２４がＴＡ２２と同時にアクセスされた場合、ＤＡ２４内のセットアソシアティブ・マップピングの全ての経路が読み込まれる。本実施形態では、ＴＡ２２の後にＤＡ２４を順次アクセスすることで、ＤＡ２４の単一の経路を読出すことができるため、ＤＡ２４は大幅な省電力化を図ることができ、データバンクの競合を低減することができる。

ロード命令の場合、キャッシュヒットの場合は、書込シフタの書込制御により、ＤＡ２４からデータを読出してレジスタファイル１４の分岐先レジスタに書換える。キャッシュミスの場合は、スコアボード１５の分岐先レジスタのステータスを不明に変更し、ロードデータをメモリ３０から読出する。メモリ３０からのキャッシュミスのロードデータは、予約された書込ポートにより、レジスタファイル１４の分岐先レジスタに書換えられる。実装では、メモリ３０からのロードデータは、データミスバッファ（図示せず）に書込まれ、その後、データミスバッファは書込まれたロードデータをレジスタファイル１４の分岐先レジスタに書換え、最終的にはデータキャッシュ１８にキャッシュラインデータが書込まれる。

ストア命令の場合、キャッシュヒット時には、読出シフタがＤＡ２４に書込むために、レジスタファイル１４からストアデータをジャストインタイムで読出すことが予定されている。キャッシュミスの場合は、ストアデータはロード／ストア部１７のストアミスバッファ（図示せず）に送られる。既存のストア命令の実行において、タグアドレスのソースレジスタとストアデータのソースレジスタがレジスタファイル１４から同時に読み出されることがあり、その場合、ストアバッファは、ストアデータをＤＡ２４に書込む時間まで保持するために必要となる。
本発明では、ストアデータをＤＡ２４に書込む時間（キャッシュヒットの場合）がわかっているので、読出ポート制御は、ストアデータのソースレジスタをレジスタファイル１４からジャストインタイムで読出してＤＡ２４に書込むように予定され、ストアバッファは不要である。キャッシュミスの場合は、ストアデータがデータキャッシュに書き込める状態になるまで、ストアデータのソースレジスタをレジスタファイル１４から読出すことがなく、ソースレジスタのジャストインタイムでの読出しとなる。

キャッシュミスの場合、ロード／ストア部１７は、メモリ３０に対して多数の保留中のキャッシュミス要求を許可してもよい。複数の保留中のミス要求は、ロード／ストア部１７内のミス要求キュー（図示せず）に保持される。新しいキャッシュラインは、メモリ３０から、データキャッシュ１８内のミスデータバッファ（図示せず）に読出される。ミスデータバッファは、複数のキャッシュラインで構成されていてもよい。さらに。データキャッシュ１８の交換用キャッシュラインはダーティである可能性があり、ダーティなキャッシュラインは、メモリ３０からの新しいキャッシュラインがデータキャッシュ１８に書込まれる前に、メモリ３０に書換える必要がある。ダーティなキャッシュラインは、メモリ３０に退避する前に、データキャッシュ１８からエビクションバッファに読出される。エビクションバッファは、ミスデータバッファの一部として実装されてもよい。エビクションバッファ、ミスリクエストキュー、及びミスデータバッファは、データのマッチング及び転送のために、後続のロード／ストア命令によって確認される必要がある。

ロード／ストア命令は、後続の全ての命令を実行パイプラインから破棄する必要がある正確な例外を持つことができる。分岐命令と同様に、ロード／ストア命令の後に続く全ての命令は、ロード／ストア命令の実行後まで、レジスタファイル１４に書換えることができない。キャッシュミスが発生したロード／ストア命令には、データエラー例外が発生することがあるが、これは不正確な例外であり、この例外は、実行パイプライン内の全ての命令が完了した後に、デコード／発行部１３がそれ以上の命令を発行しないように停止することで対処される。割り込みは、不正確な例外と同様で、実行パイプライン内の全ての命令が完了した後に、デコード／発行部１３がそれ以上の命令を発行しないように停止することで、割り込みが行われる。

図７Ａは、実施形態における実行ブロック１００Ｂ及び１００Ｃを示す図である。簡単に、実行ブロック１００Ｂは、ベクトル命令を処理するための専用のベクトル実行ブロック１００Ｂとも呼ばれ、実行ブロック１００Ｃは、ＦＰ命令を処理するための専用のＦＰ実行ブロック１００Ｃとも呼ばれる。ただし、実行ブロック１００Ｂ、１００Ｃのそれぞれは、他のタイプの命令を処理するように構成されていてもよい。実行ブロック１００Ｂ、１００Ｃのそれぞれは、実行ブロック１００Ａと同じ要素を含んでいてもよい。
例えば、実行ブロック１００Ｂ及び１００Ｃのそれぞれは、デコード／発行部、スコアボード、読出／書込制御部、レジスタファイル、実行キュー及び機能部を含んでいてもよい。実行ブロック１００Ｂ、１００Ｃは、第１タイプ発行部、第２タイプ発行部とも呼ばれる。

実施形態では、実行ブロック１００Ｂ及び１００Ｃにおいて、デコード／発行部１３ｂ及び１３ｃによって、異なるタイプの命令が並列にデコードされてもよい。命令の並列デコードでは、デコード／発行部１３ｂ及び１３ｃのそれぞれが、実行Ｂブロック１００Ｂ、１００Ｃのいずれかで命令を検証してもよく、また、命令は一度に実行ブロック１００Ｂ、１００Ｃのいずれか一方でしか有効にならない。

実施形態では、実行ブロック１００Ｂ及び１００Ｃにおけるデコード／発行部１３ｂ及び１３ｃのそれぞれは、命令を発行する前に、異なるタイプの命令の可能な全ての競合を確認して解消する。実行ブロック１００Ｂ、１００Ｃにおけるデータ依存性の解消及び読出／書込ポートの制御は、実行ブロック１００Ａと同様の機構を用いてもよい。本明細書では、特定の番号の後にアルファベットを付けて示される要素は、番号のみでまとめて示される。例えば、実行ブロック１００Ｂの実行キュー２９１Ａ～２９１Ｃは、指定しない限り、実行キュー２９１と総称し、実行ブロック１００Ｃの実行キュー２９２Ａ～２９２Ｃは、指定しない限り、実行キュー２９２と総称する。そのため、以下では、デコード／発行部１３ｂ及び１３ｃに関する詳細な説明は省略する。

レジスタファイル１４ｂ及び１４ｃ、スコアボード１５ｂ及び１５ｃ、読出／書込制御部１６ｂ及び１６ｃ、実行キュー２９１及び２９２、及び実行ブロック１００Ｂ及び１００Ｃにおける機能部２０１及び２０２は、レジスタファイル１４、スコアボード１５、読出／書込制御部１６、実行キュー１９、及び機能部２０と同様であってもよい。
レジスタファイル１４、スコアボード１５、読出／書込制御部１６、実行キュー１９、及び実行ブロック１００Ａの機能部２０は、レジスタファイル１４ｂ、スコアボード１５ｂ、読出／書込制御部１６ｂに関するスカラ整数の命令用であり、実行ブロック１００Ｂの実行キュー２９１及び機能部２０１は、ベクトル命令専用であり、また、レジスタファイル１４ｃ、スコアボード１５ｃ、読出／書込制御部１６ｃ、実行キュー２９２、及び実行ブロック１００Ｃの機能部２０２は、ＦＰ命令専用である。実行ブロック１００Ｂ、１００Ｃにおけるこれらの要素の構造や機能性は、実行ブロック１００Ａの対応する要素から推測できるため、以下では実行ブロック１００Ｂ、１００Ｃに関する詳細な説明は省略する。

実施形態では、マイクロプロセッサ１０は、マルチプレクサ３００及び共有機能部２０ｓをさらに含み、共有機能部２０ｓは、実行ブロック１００Ｂ及び１００Ｃと共有されてもよい。共有機能部２０ｓは、実行ブロック１００Ｂから発送されたベクトル命令と、実行ブロック１００Ｃから発送されたＦＰ命令とを実行してもよい。共有機能部２０ｓは、マルチプレクサ３００からベクトル命令とＦＰ命令を受信し、受信した命令を実行してもよい。実施形態では、ベクトル実行キュー２９１Ｃ及びＦＰ実行キュー２９２Ｃは、実行キュー２９１Ｃ又は２９２Ｃの一方のみが、マルチプレクサ３００を介して共有機能部２０ｓに有効な命令を一度に送信できるように構成されている。言い換えれば、マルチプレクサ３００は、ベクトル命令又はＦＰ命令のうちの１つだけを一度に共有機能部２０ｓに提供し、共有機能部２０ｓは、ベクトル命令又はＦＰ命令のうちの１つだけを一度に実行することができる。実施形態では、共有機能部２０ｓは、マルチプレクサ３００と読出バス３１ｂ及び３１ｃを介して、実行ブロック１００Ｂ及び１００Ｃのレジスタファイル１４ｂ及び１４ｃに結合され、共有機能部２０ｓからの結果データは、結果バス３２ｂ及び３２ｃを介して、レジスタファイル１４ｂ又は１４ｃに書換えられる。

実施形態では、共有機能部２０ｓは、ベクトル命令の複数の要素を実行するように構成された複数の機能部２００Ａ～２００Ｄを含んでもよい。ベクトル命令は、以下の２つの観点において、スカラ整数及びＦＰ命令とは異なる。
（１）ベクトル命令が多くの要素で動作するのに対し、スカラ整数やＦＰ命令は単一の要素で動作する。
（２）ベクトル命令の多くの要素は、マイクロ演算としてシーケンスで実行するために、より小さな要素のセットにグループ化することができる。
例えば、ベクトル命令は、ハードウェア的には４個の要素の８個のマイクロ演算として実行可能であり、各要素が３２ビットのデータである３２個の要素で実行するようにプログラムすることができる。４つの要素の実行は、図７Ａの機能部２００Ａ～２００Ｄによって行われる。
実施形態では、共有機能部２０sの一部の機能部は、ＶＥＱ２９１ＣとＦＰＥＱ２９２Ｃの両方で共有され、共有機能部２０sの一部の機能部は、ベクトル命令の複数の要素を実行するために専用される。一例として、機能部２００Ｄは、ベクトル命令とＦＰ命令の両方の要素を実行するために共有され、機能部２００Ａ～２００Ｃは、ベクトル命令の一部の要素を実行するために専用される。共有機能部２０sにおける共有実行部の数は、本開示において限定されない。

実施形態では、マルチプレクサ３００は、実行ブロック１００ＢのＶＥＱ２９１Ｃと、実行ブロック１００ＣのＦＰＥＱ２９２Ｃとに結合され、そして、ＶＥＱ２９１Ｃからのベクトル命令又はＦＰＥＱ２９２ＣからのＦＰ命令を選択して、命令実行に当たって共有機能部２０ｓに発送するように構成される。他の実施形態では、実行ブロック１００Ｂ及び１００Ｃは、複数のＶＥＱ２９１及び複数のＦＰＥＱ２９２を含み、マルチプレクサ３００は、命令実行に当たってＶＥＱｓ２９１及びＦＰＥＱｓ２９２から共有機能部２０ｓに有効な命令を選択して提供するために、複数のＶＥＱｓ２９１及び複数のＦＰＥＱｓ２９２に結合される。実施形態では、ＶＥＱ２９１Ｃ及びＦＰＥＱ２９２は、有効な命令（即ち、ベクトル命令又はＦＰ命令）を示す有効な指示を、マルチプレクサ３００に提供してもよい。マルチプレクサ３００は、ＶＥＱ２９１Ｃ及びＦＰＥＱ２９２Ｃからの有効な指示に基づいて、ベクトル命令又はＦＰ命令を選択してもよい。実施形態では、ベクトル命令及びＦＰ命令のうち１つのみが一度に有効であり、従って、ベクトル命令又はＦＰ命令のうち１つのみが実行のために共有機能部に送られる。

実施形態ではマルチプレクサ３００は、ベクトル命令及びＦＰ命令に関連付けられたオペランドデータを受信するために、読出バス３１ｂ及び３１ｃを介して、実行ブロック１００Ｂ及び１００Ｃのレジスタファイル１４ｂ及び１４ｃに結合される。ベクトル命令又はＦＰ命令に関連付けられたオペランドデータは、レジスタファイル読出バス３１ｂ及び３１ｃからマルチプレクサ３００への結合で示されるように、マルチプレクサ３００を介して共有機能部２０ｓに送られてもよい。

実施形態では、レジスタファイル１４ｂ及び１４ｃからのオペランドデータは、ＶＥＱ２９１Ｃ及びＦＰＥＱ２９２Ｃと同期して、マルチプレクサ３００を介して共有機能部２０ｓに送信される。例えば、ＶＥＱ２９１Ｃ及びＦＰＥＱ２９２Ｃは、レジスタファイル１４ｂ及び１４ｃからオペランドデータが読み出されるのと同時に、マルチプレクサ３００を介して共有機能部２０ｓに命令を発送してもよい。
実施形態では、読出／書込制御部１６ｂ及び１６ｃは、レジスタファイル１４ｂ及び１４ｃからのオペランドデータが、ＶＥＱ２９１Ｃ及びＦＰＥＱ２９２Ｃの動作に同期して、共有機能部２０ｓに送信されるように、命令の読出時間及び書込時間を予定する。ＶＥＱ２９１Ｃ及びＦＰＥＱ２９２Ｃのいずれか一方のみが一度に有効な命令を共有機能部２０ｓに送ることができるため、マルチプレクサ３００の選択は、ＶＥＱ２９１Ｃ及びＦＰＥＱ２９２Ｃのいずれかによって相互に排他的に行われる。

実施形態では、実行ブロック１００Ｂは、整数、順列、マスク、及び浮動小数点のための機能部を含み、実行ブロック１００Ｃは、浮動小数点のみのための機能部を含む。実施形態では、浮動小数点の機能部は、ＦＰ乗算（ＦＰ・ＭＡＣＣ）機能部、ＦＰ除算（ＦＰ・ＤＩＶ）機能部を含む。ＦＰ・ＭＡＣＣは、ＦＰ乗算命令、ＦＰ加算／減算命令、及びＦＰ乗算積算命令を実行するように構成され、ＦＰ・ＤＩＶ機能部は、ＦＰ除算命令を実行するように構成され、ＦＰ・ＭＩＳＣ機能部は、整数－ＦＰ変換、ＦＰ比較、ＦＰ最小、ＦＰ最大命令等の他の命令を実行するように構成されている。
実施形態では、ＦＰ・ＭＡＣＣ機能部は、他のＦＰ機能部よりも重要であり、そのため、実行ブロック１００Ｂ及び１００Ｃのそれぞれに専用のＦＰ・ＭＡＣＣ機能部が設計され、他のＦＰ機能部は実行ブロック１００Ｂ及び１００Ｃの両方で共有される。一例では、ＦＰ・ＭＡＣＣ機能部は、実行ブロック１００ＣのＦＰ命令を実行するための専用であり、ベクトルＦＰ・ＭＡＣＣ機能部は、実行ブロック１００ＢのベクトルＦＰ命令を実行するための専用である。
他の実施形態では、実行ブロック１００Ｂは、複数のベクトルＦＰ・ＭＡＣＣ機能部を有し、その中の１つのベクトルＦＰ・ＭＡＣＣ機能部は実行ブロック１００Ｃと共有され、別のベクトルＦＰ・ＭＡＣＣ機能部は実行ブロック１００Ｂの専用とされる。

図７Ｂは、実施形態における実行ブロック１００Ｂ及び１００Ｃの図である。図７Ａに示された図と図７Ｂに示された図との違いは、図７Ｂが、マルチプレクサ３００の代わりに、共有実行キュー１９ｓ及びマルチプレクサ３３０を示していることである。共有実行キュー１９ｓは、実行ブロック１００Ｂ及び１００Ｃのデコード／発行部１３ｂ及び１３ｃに結合され、デコード／発行部１３ｂによって発送されたベクトル命令又はデコード／発行部１３ｃによって発送されたＦＰ命令を受信するように構成されている。
実施形態では、デコード／発行部１３ｂ及び１３ｃは、デコード／発行部１３ｂ及び１３ｃのいずれか一方のみが有効な命令を共有実行キュー１９ｓに送ることができるように構成されている。言い換えれば、共有実行キュー１９ｓの複数のエントリのうち、あるエントリには、ベクトル命令とＦＰ命令のいずれか一方のみが一度に書込まれる。他の実施形態ではデコード／発行部１３ｂと１３ｃは、実行ブロック１００Ｂ及び１００Ｃからの命令が、共有機能部２０ｓで共有されるか否かという命令の順序に基づいて、デコード／発行部１３ｂ及び１３ｃのいずれかを待機させる待機機構を有している。別の実施形態では、ベクトル及びＦＰ命令は、命令の優先順位を使用して、デコード／発行部１３ｂ又は１３ｃが、一度に１つの命令だけを共有実行キュー１９ｓに発行できるようにする。さらに他の実施形態では、デコード／発行部１３ｂ及び１３ｃは、ベクトル命令とＦＰ命令の両方を同時に共有実行キュー１９ｓに発行し、共有実行キュー１９ｓの命令順序で２つのエントリに書込むことができる。レジスタファイル１４ｂ及び１４ｃからのレジスタオペランドデータは、読出／書込制御部１６ｂ及び１６ｃによって共有実行キュー１９ｓと同期され、それぞれ、共有機能部２０ｓが実行するためのデータをマルチプレクサ３３０に送信する。つまり、マルチプレクサ３３０は、共有実行キュー１９ｓが発行するベクトル命令に同期して、レジスタファイル１４ｂからレジスタオペランドデータを選択するか、又は、マルチプレクサ３３０は、共有実行キュー１９ｓが発行するＦＰ命令に同期して、レジスタファイル１４ｃからレジスタオペランドデータを選択する。
例えば、共有実行キュー１９ｓは、レジスタファイル１４ｂ又は１４ｃからオペランドデータを読出すのと同時に、共有機能部２０ｓに命令を発送してもよい。読出／書込制御部１６ｂ及び１６ｃは、レジスタファイル１４ｂ又は１４ｃからのオペランドデータが、共有実行キュー１９ｓの動作に同期して共有機能部２０sに送られるように、命令の読出時間と書込時間を予定してもよい。

共有実行キュー１９ｓは、図６に示されるＥＱ１９のように、複数の領域を含んでもよい。本開示の実施形態では、共有実行キュー１９ｓの領域を、図６に示されたものよりも多数、少数、又は異なるものを使用してもよい。一実施形態では、共有実行キュー１９ｓは、共有実行キュー１９ｓの各エントリに記録された命令のタイプ（例えば、ベクトル又はＦＰ）を示すタグビットを記録するタグビット領域（図示なし）を有する。共有実行キュー１９ｓに記録されたタグビットは、実行ブロック１００Ｂ又は１００Ｃのレジスタファイル１４ｂ及び１４ｃからオペランドデータを選択するために用いてもよい。例えば、共有実行キュー１９ｓのエントリのタグビットが、記録された命令がベクトル命令であることを示していた場合、実行ブロック１００Ｂのレジスタファイル１４ｂから、ベクトル命令に関連するオペランドデータが選択される。共有実行キュー１９ｓにストアされたベクトル命令とＦＰ命令は、発送順に共有機能部２０ｓに発送されてもよい。共有機能部２０ｓの発送順序は、機能部２０ｓの読出カウント領域１９７（即ち、図６に示す実行キュー１０の読出カウント領域１９７）に記録された読出カウント値に応じて決定されてもよい。

図８は、実施形態におけるＶＥＱ２９１の図である。ＶＥＱ２９１は、複数のエントリ１９０（０）
～１９０（Ｑ）を含んでもよく、ＶＥＱ２９１の各エントリは、１つのベクトル命令に関する情報を記録するように構成される。実施形態では、ＶＥＱ２９１の各エントリは、図６に示すＥＱ１９の領域と同じか、又は異なる可能性がある複数の領域を含む。例えば、図８に示すＶＥＱ２９１の有効領域１９１、実行制御データ領域１９３、データ領域１９５及び読出カウント領域１９７は、図６に示すＥＱ１９の対応する領域と同様である。
さらに、図８に示す累積型スループットカウンタ１９９は、図６に示す累積型スループットカウンタ１９９と同じである。図８のＶＥＱ２９１と図６の実行キュー１９の同一要素に関する詳細な説明は省略する。

ＶＥＱ２９１は、マイクロオペカウント領域１９２及びスループットカウント領域１９４をさらに含んでもよく、この場合、マイクロオペカウント領域１９２は、ベクトル命令におけるマイクロ動作の数を表す。例えば、エントリ１９０（０）及び１９０（２）のベクトル命令は、４つのマイクロ動作を有し、エントリ１９０（１）のベクトル命令は、８つのマイクロ動作を有する。スループットカウント領域１９４は、ベクトル命令における各マイクロ動作のスループット時間（例えば、クロックサイクル数）を表すように構成されている。

実施形態では、ＶＥＱ２９１は、実行されるマイクロ動作数を追跡するためのマイクロオペカウンタ３０３を含むか、又はマイクロオペカウンタ３０３に結合される。マイクロオペカウンタ３０３は、第１エントリ１９０（０）のマイクロオペカウント領域１９２の値を受け取り、機能部２０１又は２０ｓに発送されるマイクロオペごとに値を１ずつデクリメントしてもよい。実施形態では、有効領域１９１をリセットすることによって対応するエントリを無効にすることができる前に、マイクロオペカウンタ３０３は、マイクロオペカウント領域１９２の値を０にデクリメントする。この例では、第１エントリ１９０（０）のベクトル命令は、１クロックサイクルのスループット時間を持つ４つのマイクロオペを有する。そのため、マイクロオペカウント領域１９２の値は、クロックサイクルごとに１ずつデクリメントされる。スループットレイテンシが１クロックサイクルのマイクロオペのスループットカウント領域１９４は０に予定される。スループットカウント領域１９４のスループット時間は、実際のスループット時間よりも常に１少ない。

実施形態では、ＶＥＱ２９１は、機能部２０１又は２０ｓに発送されるマイクロ動作のスループット時間を追跡するためのスループットカウンタ３０５をさらに含む。スループットカウンタ３０５は、第１マイクロ動作に対応するスループットカウント領域１９４の値を、第１エントリ１９０（０）から受信し、第１マイクロ動作に対応するスループットカウント領域１９４の値が０になるまで、クロックサイクルごとに値を１ずつデクリメントすることができる。最初のマイクロ動作に対応するスループットカウント領域１９４の値が０になると、スループットカウンタ３０５は、次のマイクロ動作に対応するスループットカウント領域１９４の値で再ロードされ、マイクロオペカウント領域１９２が１よりも大きい場合は、カウントダウンプロセスが繰り返される。実施形態では、ＶＥＱ２９１のエントリの有効領域１９１は、マイクロオペカウンタ３０３及びスループットカウンタ３０５の両方の値が０になるまで有効なままである。

実施形態では、実行ブロック１００ＣのＦＰＥＱｓ２９２は、図６に示された実行ブロック１００Ａの実行キュー１９と実質的に同じ構造を有していてもよい。従って、以下では、実行ブロック１００ＣのＦＰＥＱｓ２９２に関する詳細な説明は省略する。

図９を参照して、マイクロプロセッサにおける異なるタイプの命令を発行するプロセスを、実施形態に従って説明する。図９に示すマイクロプロセッサは、ベクトル累積型スループットカウンタ１９９ｂ及びＦＰ累積型スループットカウンタ１９９ｃを含むことができる。ベクトル累積型スループットカウンタ１９９ｂは、ＶＥＱ２９１及び２９１Ｃの有効なエントリの累積スループットカウントを追跡するために使用され、ＦＰ累積型スループットカウンタ１９９ｃはＦＰＥＱ２９２及び２９２Ｃの有効エントリの累積スループットカウントを追跡するために使用される。

図９に示すマイクロプロセッサは、ベクトル累積型スループットカウンタ（ｖ＿ａｃｃ＿ｃｎｔ）１９９ｂ及びＦＰ累積型スループットカウンタ（ｆｐ＿ａｃｃ＿ｃｎｔ）１９９ｃに結合されたマルチプレクサ３０２＿１及び３０２＿２をさらに含む。マルチプレクサ３０２＿１は、ベクトル命令をＶＥＱ２９１ｃに発行するために、図８の読出カウント領域（ｒｄ＿ｃｎｔ）１９７の読出カウントとして、ベクトル累積型スループットカウンタ１９９ｂ又はＦＰ累積型スループットカウンタ１９９ｃのいずれかを選択するように構成されている。マルチプレクサ３０２＿２は、スカラＦＰ命令をＦＰＥＱ２９２Ｃに発行するために、図８のｒｅａｄ＿ｃｏｕｎｔ領域（ｒｄ＿ｃｎｔ）１９７の読出カウントとして、ベクトル累積型スループットカウンタ１９９ｂ又はＦＰ累積型スループットカウンタ１９９ｃのいずれかを選択するように構成されている。
実施形態では、マルチプレクサ３０２＿１及び３０２＿２は、ベクトルアクティブビットｖ＿ａｃｔｉｖｅ及びＦＰアクティブビットｆ＿ａｃｔｉｖｅに基づいて選択を実行する。例えば、マルチプレクサ３０２＿１及び３０２＿２は、ベクトルアクティブビットｖ＿ａｃｔｉｖｅがセットされ、ＦＰアクティブビットｆ＿ａｃｔｉｖｅがクリアされている場合に、命令を発行するためのベクトル累積型スループットカウンタ１９９ｂの選択を行う。そして、マルチプレクサ３０２＿１及び３０２＿２は、ベクトルアクティブビットｖ＿ａｃｔｉｖｅがクリアされ、ＦＰアクティブビットｆ＿ａｃｔｉｖｅがセットされているときに、命令を発行するためのＦＰ累積型スループットカウンタ１９９ｃを選択する。
実施形態では、最後に発行される命令タイプにより、アクティブビットがセットされる。例えば、最後に発行される命令がベクトル命令の場合は、アクティブビットｖ＿ａｃｔｉｖｅがセットされ、最後に発行される命令がＦＰ命令の場合は、アクティブビットｆ＿ａｃｔｉｖｅがセットされる。別の実施形態では、ベクトル命令とＦＰ命令の両方が同時に有効であり、ベクトル命令の方がＦＰ命令よりも優先度が高い場合、ベクトル命令の読出時間は、上述の手順に従い、ＦＰ命令の読出時間は、ベクトル命令のスループット時間にベクトル命令の読出時間を加算したものとなる。ベクトル命令とＦＰ命令の両方は、それぞれ実行キュー２９１Ｃと２９２Ｃに同時に発行することができる。
実施形態では、ベクトル累積型スループットカウンタ１９９ｂ及びマルチプレクサ３０２＿１及びＶＥＱ２９１は、図１に示す実行ブロック１００Ｂに含まれる。また、ＦＰ累積型スループットカウンタ１９９ｃ、マルチプレクサ３０２＿２、ＦＰＥＱ２９２Ｃは、図１に示す実行ブロック１００Ｃに含まれる。

実施形態では、図７Ｂの共有実行キュー１９ｓは、共有実行キュー１９ｓの有効エントリの累積型スループットカウントを追跡する単一の累積型スループットカウンタ（図示せず）を含む。図７Ｂ及び図９に示すように、単一の累積型スループットカウンタは、図９に示す累積型スループットカウンタ１９９ｂ及び１９９ｃの組み合わせとして表されてもよい。本実施形態では、単一の累積型スループットカウンタは、共有実行キュー１９ｓに記録された命令の命令順序に従って更新される。例えば、単一の累積型スループットカウンタは、共有実行キュー１９ｓの命令順序によって示される最後の命令に従って更新されてもよい。上述したように、図７Ｂの共有実行キュー１９ｓにベクトルとＦＰ命令の両方が同時に発行された場合、ベクトルとＦＰ命令は共有実行キュー１９ｓの命令順序に従って２つのエントリに記録される。
ベクトルとＦＰ命令の命令優先度は、共有実行キュー１９ｓに同時に発行されるベクトルとＦＰ命令の命令順序を決定することができる。単一の累積型スループットカウンタの値は、共有実行キュー１９ｓに記録された命令の図６に示す読出カウント領域（ｒｄ＿ｃｎｔ）１９７の読出カウントとして使用される。

図１０は、実施形態において、アクティブビットｖ＿ａｃｔｉｖｅ及びｆ＿ａｃｔｉｖｅに基づいて、共有機能部に命令を発行するためのフローチャート図を示す。前提として、図１の実行ブロック１００Ｂ及び１００Ｃにおいて、１つの有効な命令がデコード／発行部に送信される。実行ブロック１００Ｂ及び１００Ｃは、ブロック５０１で参照されるように、実行ブロック１００Ｂ及び１００Ｃのうちの１つだけが有効な命令をデコードするように構成される。ブロック５０１において、有効な命令ｉｎｓｔがベクトル命令ｖ＿ｉｎｓｔとして決定された場合、実行ブロック１００Ｂは有効な命令を発行するために使用される。ブロック５０２は、ＦＰアクティブビットｆ＿ａｃｔｉｖｅがセットされているか、クリアされているかを判断する。ＦＰアクティブビットｆ＿ａｃｔｉｖｅがクリアされている場合（ｆ＿ａｃｔｉｖｅ＝０）、実行ブロック１００Ｂのベクトル累積型スループットカウンタ１９９ｂを用いて、ベクトル命令をベクトル実行キュー（即ち、図８のＶＥＱ２９１）に発行し、発行された命令に対応する読出カウント値（即ち、図８の読出カウント領域（ｒｄ＿ｃｎｔ１９７））を、ブロック５０３ｂのベクトル累積型スループットカウンタ１９９ｂ全体の値（ｖ＿ａｃｃ＿ｃｎｔ）にセットする。あるいは、ＦＰアクティブビットｆ＿ａｃｔｉｖｅが予定されている場合（ｆ＿ａｃｔｉｖｅ＝１）、実行ブロック１００ＣのＦＰ累積型スループットカウンタ１９９ｃを用いて、ベクトル命令ｖ＿ｉｎｓｔをベクトル実行キュー（即ち、図８のＶＥＱ２９１）に発行し、発行された命令に対応する読出カウント値（即ち、図８の読出カウント領域（ｒｄ＿ｃｎｔ）１９７）を、ブロック５０３ｃのＦＰ累積型スループットカウンタ１９９ｃの値（ｖ＿ａｃｃ＿ｃｎｔ）にセットする。
さらに、ブロック５０２で選択されたベクトル命令ｖ＿ｉｎｓｔの読出時間が累積時間（即ち、ベクトル累積型スループットカウンタ１９９ｂ又はＦＰ累積型スループットカウンタ１９９ｃの値）と等しいかそれ以上の場合、ベクトル命令ｖ＿ｉｎｓｔは、ベクトル実行キュー（即ち、図８のＶＥＱ２９１）に発行され、選択された累積時間は、ベクトル命令の読出時間（即ち、図８の読出カウント領域（ｒｄ＿ｃｎｔ）１９７の値）と、発行されたベクトル命令のスループット時間との合計にセットされる。
ベクトル命令の読出時間は、読出／書込ポートの競合や、ベクトルソース及び／又は分岐先レジスタのデータ依存性により、選択された累積時間よりも大きくなることがある。

ブロック５０１に戻ると、有効な命令ｉｎｓｔがＦＰ命令ｆ＿ｉｎｓｔと判定された場合には、実行ブロック１００Ｃを用いて有効な命令を発行する。ブロック５１０は、ベクトルアクティブビットｖ＿ａｃｔｉｖｅがセットされているかクリアされているかを判断する。ベクトルアクティブビットｖ＿ａｃｔｉｖｅがクリアされている（ｖ＿ａｃｔｉｖｅ＝０）場合、実行ブロック１００ＣのＦＰ累積型スループットカウンタ１９９ｃは、ＦＰ実行キュー（即ち、図６のＥＱ１９）にＦＰ命令ｆ＿ｉｎｓｔを発行し、発行された命令に対応する読出カウント値（即ち、図６の読出カウント領域（ｒｄ＿ｃｎｔ）１９７）をブロック５１１ｃのＦＰ累積型スループットカウンタ１９９ｃの値（ｖ＿ａｃｃ＿ｃｎｔ）にセットする。あるいは、ベクトルアクティブビットｖ＿ａｃｔｉｖｅがセットされていれば（ｖ＿ａｃｔｉｖｅ＝１）、実行ブロック１００Ｂのベクトル累積型スループットカウンタ１９９ｂを用いて、ＦＰ実行キュー（即ち、図６のＥＱ１９）にＦＰ命令ｆ＿ｉｎｓｔを発行し、発行された命令に対応する読出カウント値（即ち、図６の読出カウント領域（ｒｄ＿ｃｎｔ）１９７）を、ブロック５１１ｂのベクトル累積型スループットカウンタ１９９ｂの値（ｖ＿ａｃｃ＿ｃｎｔ）にセットする。
さらに、ＦＰ命令ｆ＿ｉｎｓｔの読出時間が累積時間（即ち、ブロック５１０で選択されたベクトル累積型スループットカウンタ１９９ｂ又はＦＰ累積型スループットカウンタ１９９ｃの値）と等しいかそれ以上の場合、ＦＰ命令ｆ＿ｉｎｓｔは、ＦＰ実行キュー（即ち、図６のＥＱ１９）に発行され、選択されたＦＰ累積時間は、ＦＰ命令の読出時間（即ち、図６の読出カウント領域（ｒｄ＿ｃｎｔ）１９７の読出カウントの値）と、発行されたＦＰ命令のスループット時間との合計にセットされる。ＦＰ命令の読出時間は、読出／書込ポートの競合や、ＦＰソース及び／又は分岐先レジスタのデータの依存関係により、選択された累積時間よりも大きくなることがある。

実施形態の１つとして、共有機能部、第１実行キュー、第２実行キュー、第１タイプ発行部、及び第２タイプ発送部を含むマイクロプロセッサが開示される。第１実行キューは、複数のエントリを含み、第１実行キューの各エントリには、第１タイプ命令が記録され、第１実行キューの各エントリは、第１タイプ命令に対応する第１カウント値を含み、第１カウント値は、前記第１カウント値が０になるまでデクリメントされる。第１実行キューは、第１タイプ命令に対応する第１カウント値が０になると、第１タイプ命令を共有機能部に発送する。
第２実行キューは、複数のエントリを含み、第２実行キューの各エントリは、第２タイプ命令を記録し、第２実行キューの各エントリは、第２タイプ命令に対応する第２カウント値を含み、第２カウント値は、第２カウント値が０になるまでデクリメントされる。第２実行キューは、第２タイプ命令に対応する第２カウント値が０になったときに、第２タイプ命令を共有機能部に発送する。
共有機能部は、第１タイプ命令と第２タイプ命令を実行する。レジスタファイルのデータの読出／書込は、第１タイプ命令と第２タイプ命令のいずれかについて、共有機能部の将来の正確な実行時間に同期するように予定されている。先行技術のような動的な競合解消、動的なデータ依存性の解消、動的な読出／書込ポートの解消は必要ない。このような動的な解消は、マイクロプロセッサの設計において最も電力を消費する。
マイクロプロセッサは、第１実行キューからの第１タイプ命令と、第２実行キューからの第２タイプ命令とを、共有機能部に相互に発送するように構成されている。第１タイプ発行部は、第１実行キューに対して第１タイプ命令を発行し、第１タイプ命令の読出時間と書込時間を予定し、第１実行キューの各エントリに記録されている第１カウント値をセットする。第２タイプ発行部は、第２実行キューに対して第２タイプ命令を発行し、第２タイプ命令の読出時間と書込時間を予定し、第２実行キューの各エントリに記録されている第２カウント値をセットする。

実施形態の１つにおいては、第１実行キュー、第２実行キュー、共有機能部、第１タイプ発行部、及び第２タイプ発行部に適適した方法が導入される。
この方法は、以下のステップを含んでいる。第１タイプ発行部によって、第１実行キューに第１タイプ命令を発行する。第１タイプ発行部によって、第１タイプ命令の読出時間と書込時間を予定する。第１タイプ発行部が、第１実行キューの各エントリに記録されている第１カウント値をセットし、第１カウント値が０になるまで第１カウント値をデクリメントする。第１実行キューによって第１実行キューのエントリに含まれる第１カウント値が０になったと判断したことに応じて、第１実行キューのエントリに記録されている第１タイプ命令を共有機能部に発行する。第２タイプ発行部が、第２実行キューに対して第２タイプ命令を発行する。第２タイプ発行部によって、第２タイプ命令の読出時間と書込時間を予定する。第２タイプ発行部が、第２実行キューの各エントリに記録されている第２カウント値をセットし、第２カウント値が０になるまで第２カウント値をデクリメントする。第２実行キューによって第２実行キューのエントリに含まれる第２カウント値が０になったと判断したことに応じて、第２実行キューのエントリに記録されている第２タイプ命令を共有機能部に発行する。共有機能部が、第１タイプ命令と第２タイプ命令を実行する。第１実行キューからの第１タイプ命令と、第２実行キューからの第２タイプ命令は、相互に共有機能部に発送される。

実施形態の１つによれば、メモリとマイクロプロセッサを含むデータ処理システムが提供される。メモリは、第１タイプ命令と第２タイプ命令をストアするように構成されている。マイクロプロセッサは、共有機能部と、第１実行キューと、第２実行キューと、第１タイプ発行部と、第２タイプ発行部とを含む。
第１実行キューは、複数のエントリを含み、第１実行キューの各エントリには、第１タイプ命令が記録され、第１実行キューの各エントリは、第１タイプ命令に対応する第１カウント値を含み、第１カウント値は、第１カウント値が０になるまでデクリメントされる。第１実行キューは、第１タイプ命令に対応する第１カウント値が０になったときに、第１タイプ命令を共有機能部に発送する。
第２実行キューは、複数のエントリを含み、第２実行キューの各エントリには、第２タイプ命令が記録される。第２実行キューの各エントリは、第２タイプ命令に対応する第２カウント値を含み、第２カウント値は、第２カウント値が０になるまでデクリメントされる。第２実行キューは、第２タイプ命令に対応する第２カウント値が０になったときに、第２タイプ命令を共有機能部に発送する。
共有機能部は、第１タイプ命令と第２タイプ命令を実行し、第１実行キューからの第１タイプ命令と第２実行キューからの第２タイプ命令は相互に共有機能部に発送される。第１タイプ発行部は、第１実行キューに第１タイプ命令を発行し、第１タイプ命令の読出時間と書込時間を予定し、第１実行キューの各エントリに記録されている第１カウント値をセットする。第２タイプ発行部は、第２実行キューに対して第２タイプ命令を発行し、第２タイプ命令の読出時間と書込時間を予定し、第２実行キューの各エントリに記録されている第２カウント値をセットする。

以上のとおり、当業者が以下の詳細な説明をよりよく理解できるように、複数の実施形態の特徴を概説した。当業者は、本明細書で紹介した実施形態と同じ目的を遂行し、及び／又は同じ効果を達成するために、他のプロセス及び構造を設計又は修正するための基礎として、本開示を容易に使用できる。また、当業者は、そのような同等の構造を本開示の精神及び範囲を逸脱することなく実現すると共に、本開示の精神及び範囲を逸脱することなく、本明細書において様々な変更、置換及び改変を行うことができる。

本発明は、コンピュータ処理システムに適用される。

１：データ処理システム
１００Ａ～１００Ｃ：実行ブロック
１０：マイクロプロセッサ
１１：命令キャッシュ
１２：分岐予測部
１３、１３ｂ、１３ｃ：デコード／発行部
１４、１４ｂ、１４ｃ：レジスタファイル
Ｒ（０）～Ｒ（Ｎ）：レジスタファイルのレジスタ
１５、１５１、１５２：スコアボード
１５０（０）～１５０（Ｎ）：スコアボードのエントリ
１５１０（０）～１５１０（Ｎ）：スコアボード１５１のエントリ
１５１１、１５５１、１５３１：スコアボード１５１の領域
１５２０（０）～１５２０（Ｎ）：スコアボード１５２のエントリ
１５２１、１５２３：スコアボードの領域１５２
１６：読出／書込制御部
１６１：読出シフタ
１６１０（１）～１６１０（Ｍ）：読出シフタのエントリ
１６１１、１６１３：読出シフタ領域
１６３：書込シフタ
１６３０（１）～１６３０（Ｐ）：書込シフタのエントリ
１６３１、１６３３、１６３５：書込シフタ領域
１７：ロード／ストア部
１７１：アドレス生成部
１８：データキャッシュ
１９：実行キュー
１９０（０）～１９０（Ｑ）：実行キューのエントリ
１９１、１９２、１９３、１９４、１９５、１９７：実行キューの領域
２２：タグアレイ
２４：データアレイ
１９Ａ～１９Ｅ、２９１Ａ～２９１Ｃ、２９２Ａ～２９２Ｃ：実行キュー
１９ｓ：共有実行キュー
１９９、１９９ｂ、１９９ｃ：累積型スループットカウンタ
２０Ａ～２０Ｃ、２０１Ａ～２０１Ｂ、２０２Ａ～２０２Ｂ：機能部
２０ｓ：共有機能部
３００、３３０、３０２＿１、３０２＿２：マルチプレクサ
３１：読出バス
３２：結果バス
３０：メモリ
３０３：マイクロオペカウンタ
３０５：スループットカウンタ
５１０、５０２、５１０、５０３ａ、５０３ｂ、５１１ａ、５１１ｃ、５０４：ステップ

Claims

複数のエントリからなる第１実行キューであって、前記第１実行キューの各エントリには第１タイプ命令が記録され、前記第１実行キューの各エントリは前記第１タイプ命令に対応する第１カウント値を含み、前記第１カウント値は、前記第１カウント値が０になるまでデクリメントされ、前記第１タイプ命令に対応する前記第１カウント値が０になると、前記第１タイプ命令を共有機能部に発送する前記第１実行キューと、
複数のエントリからなる第２実行キューであって、前記第２実行キューの各エントリには第２タイプ命令が記録され、前記第２実行キューの各エントリは前記第２タイプ命令に対応する第２カウント値を含み、前記第２カウント値は、前記第２カウント値が０になるまでデクリメントされ、前記第２タイプ命令に対応する前記第２カウント値が０になると、前記第２タイプ命令を前記共有機能部に発送する前記第２実行キューと、
前記第１タイプ命令と前記第２タイプ命令を実行し、前記第１実行キューからの前記第１タイプ命令と前記第２実行キューからの前記第２タイプ命令が相互に排他的に前記共有機能部に発送される前記共有機能部と、
前記第１実行キューに対して前記第１タイプ命令を発行し、前記第１タイプ命令の読出時間と書込時間を予定し、前記第１実行キューの各エントリに記録されている前記第１カウント値をセットする第１タイプ発行部と、
前記第２実行キューに対して前記第２タイプ命令を発行し、前記第２タイプ命令の読出時間と書込時間を予定し、前記第２実行キューの各エントリに記録されている前記第２カウント値をセットする第２タイプ発行部と、
を有するマイクロプロセッサ。
前記第１実行キューの各エントリの前記第１カウント値は、前記第１タイプ命令の読出時間を表し、
前記第１実行キューの各エントリの前記第１カウント値は、前記第１カウント値が０になるまで、クロックサイクルごとに１ずつデクリメントされ、
前記第１実行キューに記録された前記第１タイプ命令は、前記第１タイプ命令に対応する前記第１カウント値が０になったときに、前記共有機能部に発送される、
ことを特徴とする請求項１に記載のマイクロプロセッサ。
前記第１タイプ発行部は、第１タイプデコード／発行部、第１タイプレジスタファイル、第１タイプスコアボード、第１タイプレジスタファイル用の第１タイプ読出／書込制御部、及び前記第１実行キューから構成されており、
前記第２タイプ発行部は、第２タイプデコード／発行部、第２タイプレジスタファイル、第２タイプスコアボード、第２タイプレジスタファイル用の第２タイプ読出／書込制御部、及び前記第２実行キューで構成されている、
ことを特徴とする請求項１に記載のマイクロプロセッサ。
前記第１タイプ発行部は、前記共有機能部における前記第１タイプ命令の実行に同期して、前記第１タイプレジスタファイルから前記第１タイプ命令のオペランドデータを読出す前記第１タイプ命令の読出時間を予定し、前記共有機能部から前記第１タイプレジスタファイルに結果データを書込む前記第１タイプ命令の書込時間を予定し、
前記第２タイプ発行部は、前記共有機能部における前記第２タイプ命令の実行に同期して、前記第２タイプレジスタファイルから前記第２タイプ命令のオペランドデータを読出す前記第２タイプ命令の読出時間を予定し、前記共有機能部から前記第２タイプレジスタファイルに結果データを書込む前記第２タイプ命令の書込時間を予定し、
前記第１タイプ発行部は、前記第１タイプ命令のデータの依存関係及びリソースの競合を解消して、前記第１実行キューの各エントリに記録されている前記第１カウント値をセットし、
前記第２タイプ発行部は、前記第２タイプ命令のデータの依存関係及びリソースの競合を解消して、前記第２実行キューの各エントリに記録される前記第２カウント値をセットする、
ことを特徴とする請求項３に記載のマイクロプロセッサ。
前記第１実行キュー、前記第２実行キュー、及び前記共有機能部に結合され、前記第１実行キューからの前記第１タイプ命令又は前記第２実行キューからの前記第２タイプ命令を、前記共有機能部に相互に排他的に発送するように構成される第１マルチプレクサをさらに備え、
前記第１マルチプレクサは、前記第１タイプレジスタファイルと前記第２タイプレジスタファイルに、それぞれ第１読出バスと第２読出バスを介してさらに結合され、前記第１マルチプレクサは、前記第１タイプレジスタファイルからのオペランドデータ、又は前記第２タイプレジスタファイルからのオペランドデータを、相互に排他的に前記共有機能部に発送する、
ことを特徴とする請求項３に記載のマイクロプロセッサ。
前記第１実行キューは、クロックサイクルごとに１ずつデクリメントされる第１累積型スループットカウンタをさらに備え、前記第１累積型スループットカウンタは、前記第１タイプ発行部がどのクロックサイクルで次の第１タイプ命令を前記第１実行キューに発行することができるかを表し、
前記第２実行キューは、クロックサイクルごとに１ずつデクリメントされる第２累積型スループットカウンタをさらに備え、前記第２累積型スループットカウンタは、前記第２タイプ発行部がどのクロックサイクルで次の第２タイプ命令を前記第２実行キューに発行することができるかを表す、
ことを特徴とする請求項５に記載のマイクロプロセッサ。
前記第１タイプ発行部は、発行された前記第１タイプ命令の読出時間として、前記第１実行キューの第１アクティブビットと前記第２実行キューの第２アクティブビットに基づいて、前記第１実行キューに対して、前記第１累積型スループットカウンタ又は前記第２累積型スループットカウンタを用いて、前記第１タイプ命令を発行し、
前記第２タイプ発行部は、発行された前記第２タイプ命令の読出時間として、前記第１実行キューの第１アクティブビットと前記第２実行キューの第２アクティブビットに基づいて、前記第２実行キューに対して、前記第１累積型スループットカウンタ又は前記第２累積型スループットカウンタを用いて、前記第２タイプ命令を発行し、
前記第１アクティブビットは、前記第１タイプデコード／発行部が前記第１タイプ命令を発行したときにセットされ、
前記第１アクティブビットは、前記第２タイプデコード／発行部が前記第２タイプ命令を発行したときにクリアされ、
前記第１アクティブビットは、前記第１累積型スループットカウンタがゼロのときにクリアされ、
前記第２アクティブビットは、前記第２タイプデコード／発行部が前記第２タイプ命令を発行したときにセットされ、
前記第２アクティブビットは、前記第１タイプデコード／発行部が前記第１タイプ命令を発行したときにクリアされ、
前記第２アクティブビットは、前記第２累積型スループットカウンタがゼロのときにクリアされる、
ことを特徴とする請求項６に記載のマイクロプロセッサ。
前記第１タイプ発行部と前記第２タイプ発行部とで共有される共有実行キューであって、前記第１タイプ命令と前記第２タイプ命令を受信し、前記共有実行キューのエントリに前記第１タイプ命令と前記第２タイプ命令を記録し、前記共有実行キューのエントリに記録された前記第１タイプ命令と前記第２タイプ命令を順番に発送する前記共有実行キューと、
前記第１タイプレジスタファイルと前記第２タイプレジスタファイルに、それぞれ第１読出バスと第２読出バスを介して結合され、前記第１読出バスを経由した前記第１タイプ命令のオペランドデータ又は前記第２読出バスを経由した前記第２タイプ命令のオペランドデータを受信し、前記第１タイプ命令のオペランドデータと前記第２タイプ命令のオペランドデータを前記共有機能部に相互に排他的に発送する第２マルチプレクサと、を備え、
前記第２マルチプレクサが、前記共有実行キューによる前記第１タイプ命令と前記第２タイプ命令の発送に同期して、前記第１タイプ命令のオペランドデータと前記第２タイプ命令のオペランドデータを発送する、
ことを特徴とする請求項３に記載のマイクロプロセッサ。
前記共有実行キューは、前記共有実行キューの有効なエントリの累積型スループットカウントを追跡する累積型スループットカウンタを含み、
前記累積型スループットカウンタは、前記第１タイプ発行部又は前記第２タイプ発行部から前記共有実行キューに対して発行される最後の命令に従って更新され、
前記累積型スループットカウンタは、クロックサイクルごとに１ずつデクリメントされ、前記累積型スループットカウンタは、どのクロックサイクルで前記第１タイプ発行部又は前記第２タイプ発行部が前記共有実行キューに次の命令を発行することができるかを表す、
ことを特徴とする請求項８に記載のマイクロプロセッサ。
前記共有機能部と同じ機能を持つ非共有機能部であって、前記第１タイプ命令又は前記第２タイプ命令を実行する専用の前記非共有機能部をさらに備える、
ことを特徴とする請求項１に記載のマイクロプロセッサ。
前記共有機能部は、
前記第１タイプ命令及び前記第２タイプ命令を実行するために共有される第１実行部と、
前記第１タイプ命令又は前記第２タイプ命令を実行するための専用の第２実行部と、
を備えることを特徴とする請求項１に記載のマイクロプロセッサ。
第１実行キュー、第２実行キュー、共有機能部、第１タイプ発行部及び第２タイプ発行部からなるマイクロプロセッサに適合する方法であって、
前記第１タイプ発行部が、前記第１実行キューに対して第１タイプ命令を発行し、
前記第１タイプ発行部が、前記第１タイプ命令の読出時間と書込時間を予定し、
前記第１タイプ発行部が、前記第１実行キューの各エントリに記録されている第１カウント値をセットし、前記第１カウント値は、前記第１カウント値が０になるまでデクリメントされ、
前記第１実行キューが、前記第１実行キューのエントリに含まれる前記第１カウント値が０になったとの判断に応じて、前記第１実行キューのエントリに記録されている前記第１タイプ命令を前記共有機能部に発送し、
前記第２タイプ発行部が、前記第２実行キューに対して第２タイプ命令を発行し、
前記第２タイプ発行部が、前記第２タイプ命令の読出時間と書込時間を予定し、
前記第２タイプ発行部が、前記第２実行キューの各エントリに記録されている第２カウント値をセットし、前記第２カウント値は、前記第２カウント値が０になるまでデクリメントされ、
前記第２実行キューが、前記第２実行キューのエントリに含まれる第２カウント値が０になったとの判断に応じて、前記第２実行キューのエントリに記録されている前記第２タイプ命令を前記共有機能部に発送し、
前記共有機能部が、前記第１タイプ命令と前記第２タイプ命令を実行し、前記第１実行キューからの前記第１タイプ命令と、前記第２実行キューからの前記第２タイプ命令とは、相互に排他的に前記共有機能部に発送されることを特徴とする、
マイクロプロセッサに適合する方法。
前記第１実行キューのそれぞれの前記第１カウント値は、前記第１タイプ命令の読出時間を表し、
前記第１実行キューの各エントリの前記第１カウント値は、前記第１カウント値が０になるまで、クロックサイクルごとに１ずつデクリメントされ、
前記第１実行キューに記録された前記第１タイプ命令は、前記第１タイプ命令に対応する前記第１カウント値が０になったときに、前記共有機能部に発送される、
ことを特徴とする請求項１２に記載の方法。
前記第１タイプ発行部は、第１タイプデコード／発行部、第１タイプレジスタファイル、第１タイプスコアボード、第１タイプレジスタファイル用の第１タイプ読出／書込制御部、及び前記第１実行キューから構成され、
前記第２タイプ発行部は、第２タイプデコード／発行部、第２タイプレジスタファイル、第２タイプスコアボード、第２タイプレジスタファイル用の第２タイプ読出／書込制御部、及び前記第２実行キューで構成される、
ことを特徴とする請求項１２に記載の方法。
前記第１タイプ発行部は、前記共有機能部における前記第１タイプ命令の実行に同期して、前記第１タイプレジスタファイルから前記第１タイプ命令のオペランドデータを読出す前記第１タイプ命令の前記読出時間を予定し、前記共有機能部から前記第１タイプレジスタファイルに結果データを書込む前記第１タイプ命令の前記書込時間を予定し、
前記第２タイプ発行部は、前記共有機能部における前記第２タイプ命令の実行に同期して、前記第２タイプレジスタファイルから前記第２タイプ命令のオペランドデータを読出す前記第２タイプ命令の前記読出時間を予定し、前記共有機能部から前記第２タイプレジスタファイルに結果データを書込む前記第２タイプ命令の前記書込時間を予定し、
前記第１タイプ発行部は、前記第１実行キューの各エントリに記録されている前記第１カウント値をセットするために、前記第１タイプ命令のデータの依存関係及びリソースの競合を解消し、
前記第２タイプ発行部は、前記第２実行キューの各エントリに記録されている前記第２カウント値をセットするために、前記第２タイプ命令のデータの依存関係及びリソースの競合を解消する、
ことを特徴とする請求項１４に記載の方法。
前記第１実行キューは、クロックサイクルごとに１ずつデクリメントされる第１累積型スループットカウンタをさらに備え、前記第１累積型スループットカウンタは、前記第１タイプ発行部がどのクロックサイクルで次の第１タイプ命令を前記第１実行キューに発行することができるかを表し、
前記第２実行キューは、クロックサイクルごとに１ずつデクリメントされる第２累積型スループットカウンタをさらに備え、前記第２累積型スループットカウンタは、前記第２タイプ発行部がどのクロックサイクルで次の第２タイプ命令を前記第２実行キューに発行することができるかを表し、
前記第１タイプ発行部は、発行された前記第１タイプ命令の読出時間として、前記第１実行キューの第１アクティブビットと前記第２実行キューの第２アクティブビットに基づいて、前記第１実行キューに対して、前記第１累積型スループットカウンタ又は前記第２累積型スループットカウンタを用いて、前記第１タイプ命令を発行し、
前記第２タイプ発行部は、発行された前記第２タイプ命令の読出時間として、前記第１実行キューの第１アクティブビットと前記第２実行キューの第２アクティブビットに基づいて、前記第２実行キューに対して、前記第１累積型スループットカウンタ又は前記第２累積型スループットカウンタを用いて、前記第２タイプ命令を発行し、
前記第１アクティブビットは、前記第１タイプデコード／発行部が前記第１タイプ命令を発行したときにセットされ、
前記第１アクティブビットは、前記第２タイプデコード／発行部が前記第２タイプ命令を発行したときにクリアされ、
前記第１アクティブビットは、前記第１累積型スループットカウンタがゼロのときにクリアされ、
前記第２アクティブビットは、前記第２タイプデコード／発行部が前記第２タイプ命令を発行したときにセットされ、
前記第２アクティブビットは、前記第１タイプデコード／発行部が前記第１タイプ命令を発行したときにクリアされ、
前記第２アクティブビットは、前記第２累積型スループットカウンタがゼロのときにクリアされる、
ことを特徴とする請求項１４に記載の方法。
前記マイクロプロセッサは、
前記第１実行キュー、前記第２実行キュー、及び前記共有機能部に結合され、前記第１実行キューからの前記第１タイプ命令又は前記第２実行キューからの前記第２タイプ命令を、前記共有機能部に相互に排他的に発送するように構成される第１マルチプレクサをさらに備え、
前記第１マルチプレクサは、前記第１タイプレジスタファイルと前記第２タイプレジスタファイルに、それぞれ第１読出バスと第２読出バスを介してさらに結合され、
前記第１マルチプレクサは、前記第１タイプレジスタファイルからのオペランドデータ、又は前記第２タイプレジスタファイルからのオペランドデータを、相互に排他的に前記共有機能部に発送する、
ことを特徴とする請求項１４に記載の方法。
前記マイクロプロセッサは、
前記第１タイプ発行部と前記第２タイプ発行部で共有される共有実行キューであって、第２マルチプレクサから前記第１タイプ命令と前記第２タイプ命令を受信し、前記共有実行キューのエントリに前記第１タイプ命令と前記第２タイプ命令を記録し、前記共有実行キューのエントリに記録された前記第１タイプ命令と前記第２タイプ命令を順番に発送する前記共有実行キューと、
前記第１タイプレジスタファイルと前記第２タイプレジスタファイルに、それぞれ第１読出バスと第２読出バスを介して結合され、前記第１読出バスを経由した前記第１タイプ命令のオペランドデータ又は前記第２読出バスを経由した前記第２タイプ命令のオペランドデータを受信し、前記第１タイプ命令のオペランドデータと前記第２タイプ命令のオペランドデータを前記共有機能部に相互に排他的に発送する前記第２マルチプレクサを備え、
前記第２マルチプレクサが、前記共有実行キューによる第１タイプ命令と前記第２タイプ命令の発送に同期して、前記第１タイプ命令のオペランドデータと前記第２タイプ命令のオペランドデータを発送する、
ことを特徴とする請求項１４に記載の方法。
前記共有実行キューは、前記共有実行キューの有効なエントリの累積型スループットカウントを追跡する累積型スループットカウンタを含み、
前記累積型スループットカウンタは、前記第１タイプ発行部又は前記第２タイプ発行部から前記共有実行キューに対して発行される最後の命令に従って更新され、
前記累積型スループットカウンタは、クロックサイクルごとに１ずつデクリメントされ、
前記累積型スループットカウンタは、どのクロックサイクルで前記第１タイプ発行部又は前記第２タイプ発行部が前記共有実行キューに次の命令を発行することができるかを表す、
ことを特徴とする請求項１８に記載の方法。
第１タイプ命令と第２タイプ命令をストアするように構成されたメモリ、及びマイクロプロセッサを備えるデータ処理システムであって、
前記マイクロプロセッサは、
複数のエントリからなる第１実行キューであって、前記第１実行キューの各エントリには第１タイプ命令が記録され、前記第１実行キューの各エントリは、前記第１タイプ命令に対応する第１カウント値を含み、前記第１カウント値は、前記第１カウント値が０になるまでデクリメントされ、前記第１タイプ命令に対応する前記第１カウント値が０になると、前記第１タイプ命令を共有機能部に発送する前記第１実行キューと、
複数のエントリからなる第２実行キューであって、前記第２実行キューの各エントリには第２タイプ命令が記録され、前記第２実行キューの各エントリは、前記第２タイプ命令に対応する第２カウント値を含み、前記第２カウント値は、前記第２カウント値が０になるまでデクリメントされ、前記第２タイプ命令に対応する前記第２カウント値が０になると、前記第２タイプ命令を前記共有機能部に発送する前記第２実行キューと、
前記第１タイプ命令と前記第２タイプ命令を実行し、前記第１実行キューからの前記第１タイプ命令と前記第２実行キューからの前記第２タイプ命令が相互に排他的に前記共有機能部に発送される前記共有機能部と、
前記第１実行キューに対して前記第１タイプ命令を発行し、前記第１タイプ命令の読出時間と書込時間を予定し、前記第１実行キューの各エントリに記録されている前記第１カウント値をセットする第１タイプ発行部と、
前記第２実行キューに対して前記第２タイプ命令を発行し、前記第２タイプ命令の読出時間と書込時間を予定し、前記第２実行キューの各エントリに記録されている前記第２カウント値をセットする第２タイプ発行部と、
を備えることを特徴とするデータ処理システム。