JP3629551B2 - Microprocessor using basic cache block - Google Patents
Microprocessor using basic cache block Download PDFInfo
- Publication number
- JP3629551B2 JP3629551B2 JP2000391300A JP2000391300A JP3629551B2 JP 3629551 B2 JP3629551 B2 JP 3629551B2 JP 2000391300 A JP2000391300 A JP 2000391300A JP 2000391300 A JP2000391300 A JP 2000391300A JP 3629551 B2 JP3629551 B2 JP 3629551B2
- Authority
- JP
- Japan
- Prior art keywords
- instruction
- group
- instructions
- unit
- instruction group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000005336 cracking Methods 0.000 claims description 48
- 238000012545 processing Methods 0.000 claims description 33
- 238000000034 method Methods 0.000 claims description 28
- 238000012546 transfer Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 241000699666 Mus <mouse, genus> Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011010 flushing procedure Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3802—Instruction prefetching
- G06F9/3804—Instruction prefetching for branches, e.g. hedging, branch folding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30145—Instruction analysis, e.g. decoding, instruction word fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3802—Instruction prefetching
- G06F9/3808—Instruction prefetching for instruction reuse, e.g. trace cache, branch target cache
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Advance Control (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、一般にマイクロプロセッサ・アーキテクチャの分野に関し、特に命令グループ・アーキテクチャ、対応するキャッシュ機構、及びその有用な拡張機能を利用したマイクロプロセッサに関する。
【0002】
【従来の技術】
マイクロプロセッサ技術によりギガヘルツクラスの性能が実現される中、マイクロプロセッサの設計者は、特定の命令セット・アーキテクチャ(ISA)で動作するよう設計され、既に実用に供されている多数のソフトウェアとの互換性を維持し、その一方で最新技術を利用するという大きな課題に直面している。設計者はこの問題を解決するため、既存ISAに従ってフォーマットされている命令を受信し、命令フォーマットをギガヘルツの実行パイプラインでの動作に適した内部ISAに変換するよう調整された”階層化アーキテクチャ”・マイクロプロセッサを実装している。図4を参照する。階層化アーキテクチャ・マイクロプロセッサ401の部分が示してある。この設計で、マイクロプロセッサ401の命令キャッシュ410は、フェッチ・ユニット402によりメイン・メモリからフェッチされた命令を受信し格納する。命令キャッシュ410に格納された命令は、第1ISA(つまりプロセッサ401により実行されているプログラムが書込まれたISA)に従ってフォーマットされる。命令は次に、命令キャッシュ410から検索され、ISAコンバータ412により第2ISAに変換される。第1ISAから第2ISAへの命令の変換には複数のサイクルが必要なので、変換プロセスは通常、パイプライン処理され、従って、どの時点でも第1ISAから第2ISAへ複数の命令を変換しなければならないことがある。変換された命令は次に、実行のためプロセッサ401の実行パイプライン422に転送される。フェッチ・ユニット402は、分岐判断の結果を予測することによって分岐命令に続いて実行される命令のアドレスを決定しようとする分岐予測ロジック406を含む。命令は次に、分岐予測をもとに投機的に発行され実行される。ただし分岐の予測が外れたとき、プロセッサ401の命令キャッシュ410と最終ステージ432の間に保留された命令をフラッシュする必要がある。システム内の予測ミスした分岐結果がフラッシュされたときに生じる性能のペナルティは、パイプラインの長さの関数である。フラッシュする必要のあるパイプライン・ステージが多ければ多いほど、分岐予測の外れた場合の性能のペナルティが大きくなる。階層化アーキテクチャではプロセッサ・パイプラインが長くなり、所定の時間に”フライト中”の命令数が増える可能性があるため、階層化アーキテクチャに伴う分岐予測外れのペナルティは、プロセッサの性能を制限する要因になる。
【0003】
従って、分岐予測外れの性能ペナルティに対応した階層化アーキテクチャ・マイクロプロセッサを実装することが強く求められる。また、実装された解決策が、コードの断片の反復実行により発生する例外条件の反復発生を、少なくとも部分的には解決することも求められる。更にまた、実装された解決策が、次に実行される命令を発行キューで検索する機能を犠牲にすることなく、事実上、大きい発行キューを使用可能にすることも求められる。
【0004】
【発明が解決しようとする課題】
本発明は、命令グループ及び命令グループ・フォーマットに一致するキャッシュ機構を利用したマイクロプロセッサを提供することを目的とする。
【0005】
本発明は更に、プロセッサ、データ処理システム、及び性能を改良するため基本キャッシュ・ブロックとともに命令履歴情報を利用する方法を提供することを目的とする。
【0006】
本発明は更に、プロセッサ、データ処理システム、及び1次発行キューと2次発行キューを利用した方法を提供することを目的とする。
【0007】
【課題を解決するための手段】
本発明の実施例は、マイクロプロセッサ及びこれに関連する方法とデータの処理システムを想定している。マイクロプロセッサは、第1命令セットを受信するよう構成された命令クラッキング・ユニット(cracking unit)を含む。クラッキング・ユニットは、命令のセットを命令グループとして編成する。グループの各命令は命令グループ・タグを共有する。プロセッサはまた、命令グループ・フォーマットで編成され、クラッキング・ユニットにより生成された命令グループをキャッシュするよう構成された基本キャッシュ・ブロック機構を含む。プロセッサの実行ユニットは、命令グループの命令を実行するのに適している。実施例で、命令グループの命令の実行中に例外が発生し、これによりフラッシュが生じたとき、フラッシュされるのは、基本キャッシュ・ブロックからディスパッチされた命令のみである。プロセッサは、基本キャッシュ・ブロックに届いた命令のみフラッシュすることにより、クラッキング・ユニット・パイプラインに保留されている命令がフラッシュされないようにする。フラッシュされる命令が少なくなるので、例外発生時の性能ペナルティも減少する。他の実施例で、受信された命令は、第1命令フォーマットに従ってフォーマットされ、第2命令セットは第2命令フォーマットに従ってフォーマットされる。第2命令フォーマットは第1命令フォーマットより幅が広い。基本キャッシュ・ブロックは、基本キャッシュ・ブロックの対応するエントリの各命令グループを格納しやすいように構成される。実施例によっては、基本キャッシュ・ブロックの各エントリは、対応する基本キャッシュ・ブロック・エントリを示すエントリ・フィールドと、次に実行される命令グループを予測するポインタを含む。プロセッサは、好適には、予測ミスした分岐に対応したキャッシュ・エントリのポインタを更新するよう構成される。
【0008】
プロセッサは、命令セットを受信し、命令セットを命令グループに編成するのに適している。命令グループは実行を目的にディスパッチされる。命令グループの実行後、命令グループに関連する例外イベントを示す命令履歴情報が記録される。その後、命令の実行が命令履歴情報に応答して変更され、後の命令グループ実行時の例外イベントの発生が防止される。プロセッサは、命令キャッシュ等のステージ機構、L2キャッシュまたはシステム・メモリ、クラッキング・ユニット、及び基本キャッシュ・ブロックを含む。クラッキング・ユニットは、ステージ機構から命令セットを受信するよう構成される。クラッキング・ユニットは、命令セットを命令グループに編成するよう調整される。クラッキング・ユニットは、命令セットのフォーマットを第1命令フォーマットから第2命令フォーマットに変更することができる。基本キャッシュ・ブロックのアーキテクチャは命令グループを格納するのに適している。基本キャッシュ・ブロックは、基本キャッシュ・ブロックの各エントリに対応した命令履歴フィールドを含む。命令履歴情報は、命令グループに関連した例外イベントを示す。好適実施例の場合、基本キャッシュ・ブロックの各エントリは、クラッキング・ユニットにより生成された1つの命令グループに対応する。プロセッサには更に、命令グループの実行が完了したときに命令履歴フィールドに情報を格納するよう構成された完了テーブル制御ロジックを追加できる。命令履歴情報は、命令グループの命令が他の命令と依存関係を持つかどうか、または命令グループの実行が前にストア・フォワード例外になったかどうかを示すことができる。この実施例で、プロセッサは、命令グループの実行が前にストア・フォワード例外になったことの検出に応答する順次モード(in−order−mode)で動作するよう構成される。
【0009】
プロセッサは、命令を発行ユニットにディスパッチするのに適している。発行ユニットは、1次発行キューと2次発行キューを含む。命令は、実行のため現在発行が許可されている場合は1次発行キューに格納される。実行のため現在発行が許可されていない場合は2次発行キューに格納される。プロセッサは、1次発行キューの複数の命令のうち次に発行する命令を決定する。命令は、別の命令からの結果に依存する場合は、1次発行キューから2次発行キューに移動される。実施例で、命令は、実行のため発行された後、1次発行キューから2次発行キューに移動することができる。この実施例では、命令は、指定時間の間2次発行キューに維持することができる。その後、命令が拒否されていない場合は、命令を含む2次発行キュー・エントリの割当てが解除される。マイクロプロセッサは、命令キャッシュ、命令キャッシュから命令を受信するよう構成されたディスパッチ・ユニット、及びディスパッチ・ユニットから命令を受信するよう構成された発行ユニットを含む。発行ユニットは、ディスパッチされ現在実行を許可されている命令を1次発行キューに割当て、ディスパッチされ現在実行を許可されていない命令を2次発行キューに割当てる。
【0010】
【発明の実施の形態】
図1を参照する。本発明に従ったデータ処理システム100の実施例が示してある。システム100は、中央処理装置(プロセッサ)101a、101b、101c等(ここではプロセッサ101と総称する)を含む。実施例で、各プロセッサ101は、RISC(縮小命令セット・コンピュータ)マイクロプロセッサ等である。RISCプロセッサ一般については、C.MayらによるPower PC Architecture:A Specification for a New Family of RISC Processors(Morgan Kaufmann、1994 2d edition)を参照されたい。プロセッサ101は、システム・バス113を通してシステム・メモリ250及び他の様々なコンポーネントに接続される。ROM(読出し専用メモリ)102は、システム・バス113に接続され、BIOS(基本入出力システム)等を含み、BIOSはシステム100の基本機能を制御する。図1は、システム・バス113に接続されたI/Oアダプタ107とネットワーク・アダプタ106も含む。I/Oアダプタ107は、ハード・ディスク103、テープ・ストレージ・デバイス105等の大容量記憶装置をシステム・バス113にリンクする。ネットワーク・アダプタ106は、バス113を外部ネットワークと相互接続し、データ処理システム100が他のシステムと通信できるようにする。ディスプレイ・モニタ136は、ディスプレイ・アダプタ112によりシステム・バス113に接続され、アダプタ112は、グラフィックスの多いアプリケーション及びビデオ・コントローラの性能を改良するためグラフィックス・アダプタ等を含む。実施例によっては、アダプタ107、106、112は、中間バス・ブリッジ(図示せず)を介してシステム・バス113に接続されるI/Oバスに接続することができる。ハード・ディスク・コントローラ、ネットワーク・アダプタ、グラフィックス・アダプタ等の周辺装置を接続するのに適したI/Oバスは、PCI SIG(分科会)(オレゴン州ヒルズボロ)のPCIローカル・バス仕様2.2版に従って指定されているPCI(Peripheral Components Interface)バス等である。他の入出力デバイスは、ユーザ・インタフェース・アダプタ108を通してシステム・バス113に接続されているように示している。キーボード109、マウス110、スピーカ111は全てユーザ・インタフェース・アダプタ108を通してバス113にリンクされ、アダプタ108は、例えば複数のデバイス・アダプタを1つの回路に統合するSuperI/Oチップ等である。このようなチップの情報については、National Semiconductor Corporation、www.national.comのPC87338/PC97338 ACPI 1.0及びPC98/99 Compliant SuperI/Oデータ・シート(1998年11月)を参照されたい。図1に示すように、システム100は、プロセッサ101の形の処理手段、システム・メモリ250と大容量記憶装置104を含むステージ手段、キーボード109、マウス110等の入力手段、及びスピーカ111、ディスプレイ136を含む出力手段を含む。システム・メモリ250と大容量記憶装置104の一部の実施例は、集合的にIBM AIX等のオペレーティング・システムまたは他の適切なオペレーティング・システムを格納し、図1に示した様々なコンポーネントの機能を調整する。AIXオペレーティング・システムの詳細については、IBMのAIX Version 4.3 Technical Reference:Base Operating System and Extensions、Volumes 1 and 2(SC23−4159、SC23−4160)、AIX Version 4.3 System User’s Guide:Communications and Networks(SC23−4122)、及びAIX Version 4.3 System User’s Guide:Operating System and Devices(SC23−4121)を参照されたい。
【0011】
図2を参照する。本発明の実施例に従ったプロセッサ101を簡素化した図が示してある。プロセッサ101は、次にフェッチする命令のアドレスを生成するのに適した命令フェッチ・ユニット202を含む。フェッチ・ユニット202により生成された命令アドレスは命令キャッシュ210に与えられる。フェッチ・ユニット202は、名前からわかるように、プログラムの実行フローの決定結果を所定の情報をもとに予測するよう調整された分岐予測ロジック等を含む。分岐決定を正しく予測できるかどうかは、プロセッサ101が命令を投機的且つ順不同に実行することによって性能を改良するために重要な要因である。フェッチ・ユニット202により生成された命令アドレスは命令キャッシュ210に与えられる。キャッシュ210は高速ステージ機構にシステム・メモリの内容の一部を格納する。命令キャッシュ210に格納された命令は、好適には第1ISAに従ってフォーマットされる。第1ISAは通常、例えばPowerPC、x86互換命令セット等のレガシーISAである。PowerPC命令セットについての詳細は、モトローラ社のPowerPC 620 RISC Microprocessor User’s Manual(MPC620UM/AD)を参照されたい。フェッチ・ユニット202により生成された命令アドレスが、命令キャッシュ210で現在複製されているシステム・メモリ位置に対応する場合、命令キャッシュ210は、対応する命令をクラッキング・ユニット212に転送する。フェッチ・ユニット202により生成された命令アドレスに対応した命令が、命令キャッシュ210に現在存在しない(つまりフェッチ・ユニット202により与えられた命令アドレスが命令キャッシュ210をミスしている)場合、命令は、クラッキング・ユニット212に転送する前に、L2キャッシュ(図示せず)またはシステム・メモリからフェッチする必要がある。
【0012】
クラッキング・ユニット212は、入力される命令ストリームを変更し、所定の実行パイプラインで高動作周波数(1GHzを超える動作周波数)にて実行するのに最適な命令セットを生成するよう調整される。例えば、クラッキング・ユニット212は、実施例によっては、PowerPCマイクロプロセッサによりサポートされる命令等、32ビット幅のISAで命令を受信し、ギガヘルツ・レンジ以上で動作する高速実行ユニットでの実行を促進する第2の、好適にはより幅の広いISAに変換する。クラッキング・ユニット212により生成される命令の、幅広いフォーマットは、例えばクラッキング・ユニット212により受信され第1フォーマットに従ってフォーマットされた命令にて単に暗示されているだけか、または参照されているだけの情報(オペランド値等)を格納する明示的フィールド等を含めることができる。例えば、実施例によっては、クラッキング・ユニットによって生成された命令のISAは64ビット以上のビット幅である。
【0013】
他の実施例で、クラッキング・ユニット212は、命令を第1フォーマットから第2の、好適にはより幅の広いフォーマットに変換する他、フェッチされた命令セットを命令グループ302に編成するよう設計される。図3に命令グループの例が示してある。命令グループ302はそれぞれ、命令スロット304a、304b等(ここでは命令スロット304と総称する)のセットを含む。命令セットを命令グループに編成することで、特にフライト中の多数の命令に対して名前変更レジスタのマッピング・テーブルや完了テーブルを維持するため必要なロジックが簡素化され、高速実行が促進される。図3は、クラッキング・ユニット212により実行可能な命令グループの3つの例を示す。
【0014】
例1で、301と示した命令セットは、クラッキング・ユニット212により1つの命令グループ302に変換される。本発明の図の実施例では、各命令グループ302が、304a、304b、304c、304d、及び304eと示した5つのスロットを含む。各スロット304は1つの命令を含むことができる。この実施例で、各命令グループは最大5つの命令を含むことができる。実施例によっては、クラッキング・ユニット212により受信される命令セット301の命令は、前記のように第1ISAに従ってフォーマットされ、グループ302に格納された命令は、より幅の広い第2フォーマットに従ってフォーマットされる。命令グループを使用することで、個別にタグを付けて追跡する必要のある命令数が減少し、名前変更リカバリ・テーブルや完了テーブルのロジックが簡素化される。従って、命令グループを使用することは、順不同プロセッサにて保留命令を追跡するプロセスを簡素化するよう努めながら、各命令に関する情報をいくらか犠牲にすることを想定したものである。
【0015】
図3の例2は、本発明の実施例に従ってクラッキング・ユニット212により実行される命令グループの第2例を示す。この例は、実行を高速化するため、複雑な命令を単純な命令のグループに分けるクラッキング・ユニット212の機能を示している。図示の例で、2つのLDU(load−with−update)命令のシーケンスが、それぞれスロット304a及び304cにあるロード命令のペアと、それぞれスロット304b及び304dにあるADD命令のペアを含む命令グループに分けられる。この例では、グループ302に分岐命令は含まれないので、命令グループ302の最後のスロット304eにも命令が含まれない。PowerPCのLDU命令は、他の命令セットの類似の命令と同様、命令が複数のGPR(汎用レジスタ)の内容に影響を与えるという意味で複雑な命令である。具体的には、LDU命令は、第1GPRの内容に影響を与えるロード命令と、第2GPRの内容に影響を与えるADD命令に分けることができる。従って、図3の例2の命令グループ302で、2つ以上の命令スロット304の命令は、クラッキング・ユニット212により受信された1つの命令に対応する。
【0016】
例3で、クラッキング・ユニット212に入力される1つの命令が、複数のグループ302を占める命令セットに分けられる。具体的には、図3は、LM(load multiple)命令を示す。LM命令は(PowerPC命令セットによると)、メモリ内の連続した位置の内容を連続番号の付いたGPRにロードする。図の例で、連続した6つのメモリ位置のLMは、6つのロード命令に分けられる。プロセッサ101の図の実施例に従った各グループ302は、多くても5つの命令しか含まず、5番目のスロット304eは分岐命令に予約されているので、6つのレジスタのLMはそれぞれ2つのグループ302a及び302bに分けられる。ロード命令のうち4つは第1グループ302aに格納され、残り2つのロード命令は第2グループ302bに格納される。従って例3で、1つの命令が複数の命令グループ302にまたがる命令セットに分けられる。
【0017】
図2を参照する。クラッキング・ユニット212の好適実施例により生成された命令グループ302は、基本キャッシュ・ブロック213に転送され、格納されて実行が保留される。図5を参照する。基本キャッシュ・ブロック213の実施例が示してある。図の実施例で、基本キャッシュ・ブロック213はエントリ502a乃至502nのセット(ここでは基本キャッシュ・ブロック・エントリ502と総称する)を含む。実施例によっては、基本キャッシュ・ブロック213の各エントリ502が1つの命令グループ302を格納する。また各エントリ502は、エントリID504、ポインタ506、及び命令アドレス(IA)・フィールド507等を含む。各エントリ502の命令アドレス・フィールド507は完了テーブル218のIAフィールドと同類である。他の実施例で、基本キャッシュ・ブロック504の各エントリは、完了テーブル218のエントリに対応し、命令アドレス・フィールド507は、対応する命令グループ302の第1命令の命令アドレスを示す。他の実施例で、ポインタ506は、分岐予測アルゴリズム、分岐履歴テーブル、または他の分岐予測メカニズムをもとに次に実行される命令グループ302のエントリIDを示す。前記のように、クラッキング・ユニット212で命令グループ302を形成する好適な実施例は、分岐命令を各グループ302の最後のスロットに割当てる。また、クラッキング・ユニット212の好適実施例は、グループ302の分岐命令数が1(または1以下)である命令グループ302を生成する。この構成の各命令グループ302は、図6に示す分岐ツリー600のレッグ(足)を表すとみなすことができる。その場合、命令グループ302は、対応する命令グループ・エントリ504の値により表される。例えば第1命令グループ302aは、そのエントリ番号(1)等により示される。1例として、プロセッサ101の分岐予測メカニズムが、レッグ1に続いてレッグ2(第2グループ302bに対応)が実行されると予測し、レッグ2に続いてレッグ3が実行されると仮定する。基本キャッシュ・ブロック213は、本発明の実施例によっては、これらの分岐予測を反映するため、ポインタ506をセットして次に実行されるグループ302を示す。基本キャッシュ・ブロック213の各エントリ502のポインタ506は、次にディスパッチされるグループ302を決定するために利用することができる。
【0018】
基本キャッシュ・ブロック213は、フェッチ・ユニット202が命令キャッシュ210と連携するのと同様、ブロック・フェッチ・ユニット215と連携する。具体的には、ブロック・フェッチ・ユニット215は、基本キャッシュ・ブロック213に与えられる命令アドレスを生成する役割を持つ。ブロック・フェッチ・ユニット215により与えられる命令アドレスは、基本キャッシュ・ブロック213の命令アドレス・フィールド507にあるアドレスと比較される。ブロック・フェッチ・ユニット213により与えられた命令アドレスが基本キャッシュ・ブロック213でヒットする場合、対応する命令グループが発行キュー220に転送される。ブロック・フェッチ・ユニット215により与えられたアドレスが基本キャッシュ・ブロック213でミスした場合、命令アドレスはフェッチ・ユニット202に送り返され、対応する命令が命令キャッシュ210から検索される。基本キャッシュ・ブロック213は、領域節約に適した実施例では(ダイ・サイズ)、命令キャッシュ210をなくすことができる。この実施例で、命令はL2キャッシュ、システム・メモリ等の適切なステージ機構から検索され、クラッキング・ユニット212に直接与えられる。ブロック・フェッチ・ユニット213により生成された命令アドレスが、基本キャッシュ・ブロック213でミスした場合、対応する命令が命令キャッシュ210ではなくL2キャッシュまたはシステム・メモリから検索される。
【0019】
プロセッサ101の図の実施例は更に、ディスパッチ・ユニット214を示す。ディスパッチ・ユニット214は、各命令グループの命令を対応する発行キュー220に転送する前に、必要な全てのリソースが利用できるようにする。また、ディスパッチ・ユニット214は、ディスパッチ/完了制御ロジック216と通信し、命令が発行された順序とこれらの命令の完了状態を追跡し、順不同実行を促進する。前記のように、クラッキング・ユニット212が入力された命令を命令グループに編成するプロセッサ101の実施例で、各命令グループ302には、完了制御ロジック216により、発行済み命令グループの順序を知らせるグループ・タグ(GTAG)が割当てられる。1例として、ディスパッチ・ユニット214は、単調に増加する値を連続した命令グループに割当てることができる。この構成で、GTAG値が小さい命令グループは、GTAG値の大きい命令グループよりも先に発行されている(つまりその命令グループより若い)と言われる。プロセッサ101の図の実施例は、ディスパッチ・ユニット214を独立した機能ブロックとして示しているが、基本キャッシュ・ブロック213の命令グループ編成は、ディスパッチ・ユニット214の機能を組み込むのに役立つ。従って、実施例によっては、ディスパッチ・ユニット214が基本キャッシュ・ブロック213内に組み込まれ、基本キャッシュ・ブロック213は発行キュー220に直接接続される。
【0020】
ディスパッチ/完了制御ロジック216に関連して、本発明の実施例にて、発行済み命令グループの状態を追跡するため完了テーブル218が使用される。図7を参照する。完了テーブル218の実施例が示してある。図の実施例で、完了テーブル218はエントリ702a乃至702nのセット(ここでは完了テーブル・エントリ702と総称する)を含む。この実施例で完了テーブル218の各エントリ702は、命令アドレス(IA)・フィールド704と状態ビット・フィールド706を含む。この実施例で、各命令グループ302のGTAG値は、命令グループ302に対応した完了情報が格納された完了テーブル218のエントリ702を識別する。従って、完了テーブル218のエントリ1に格納された命令グループ302は、GTAG値が1等となる。この実施例で完了テーブル218は更に、GTAG値の小さい命令グループが、GTAG値の大きい命令グループより実際に若いことを示すラップ・アラウンド・ビットを含むことができる。他の実施例で、命令アドレス・フィールド704は、対応する命令グループ302の第1スロット304aに命令のアドレスを含む。状態フィールド706は、例えば完了テーブル218の対応するエントリ702が利用できるかどうか、前に保留されている命令グループにエントリが割当てられているかどうかを示す状態ビットを含むことができる。
【0021】
図2に示したプロセッサ101の実施例で、命令はディスパッチ・ユニット214から発行キュー220に発行され、対応する実行パイプ222での実行を待機する。プロセッサ101には、様々な実行パイプを追加できる。パイプはそれぞれ、プロセッサの命令セットの一部を実行するよう設計される。実施例で、実行パイプ222は、分岐ユニット・パイプライン224、ロード/ストア・パイプライン226、固定小数点演算ユニット228、及び浮動小数点ユニット230等を含む。各実行パイプ222は、2つ以上のパイプライン・ステージで構成することができる。発行キュー220に格納された命令は、様々な発行優先順位アルゴリズムを使用して実行パイプ222に発行することができる。実施例によっては、例えば、発行キュー220の保留された最も古い命令が、次に実行パイプ222に発行される命令になる。この実施例で、ディスパッチ・ユニット214により割当てられたGTAG値は、発行キュー220の保留されている命令の相対経過時間を決定するため使用される。発行前に、命令の宛先レジスタ・オペランドが、使用できる名前変更GPRに割当てられる。最終的に命令が発行キュー120から対応する実行パイプに転送されるとき、実行パイプは、命令コードにより示される動作を実行し、命令がパイプラインの最終ステージに達したとき(132)、命令の結果を命令の名前変更GPRに書込む。名前変更GPRとこれに対応する設計済みレジスタ間にマッピングが維持される。命令グループの全命令(及び若い命令グループの全命令)が、例外を発生することなく終了したとき、完了テーブル218の完了ポインタが次の命令グループに増分される。完了ポインタが新しい命令グループに増分されたとき、古い命令グループの命令に関連する名前変更レジスタが解除され、これにより古い命令グループの命令の結果がコミットされる。終了しまだコミットされていない命令よりも古い命令が例外を発生した場合、例外を発生した命令及び全ての若い命令がフラッシュされ、名前変更リカバリ・ルーチンが呼び出され、GPRマッピングが既知の最後の有効状態に戻される。
【0022】
予測された分岐が取られない場合(分岐予測外れ)、実行パイプ222で保留されている命令と発行キュー220がフラッシュされる。また予測ミスした分岐に関連する基本キャッシュ・ブロック・エントリ502のポインタ506が更新され、採用された最も新しい分岐が反映される。この更新プロセスの例を、プログラム実行によりレッグ1(命令グループ302a)からレッグ4(命令グループ302d)への分岐が発生する場合について、図5に示す。エントリ502aのポインタ506は先に、基本キャッシュ・ブロック213の番号2のエントリにある命令グループ(つまりグループ302b)への分岐を予測したので、命令グループ302aからグループ302dへの実際の分岐は予測が外れている。予測が外れた分岐は削除され、ブロック・フェッチ・ユニット215に送り返され、基本キャッシュ・ブロック213と各パイプライン222の最終ステージ232間に保留されている命令がフラッシュされ、基本キャッシュ・ブロック213のエントリ4の命令グループ302dから実行が再開される。また、基本キャッシュ・ブロック・エントリ502aのポインタ506は、その前の値2から新しい値4に変更され、最も新しい分岐情報が反映される。本発明は、基本キャッシュ・ブロック213とブロック・フェッチ・ユニット215を実行パイプライン222に近接して組み込むことで、分岐予測が外れた場合の性能ペナルティを少なくするものである。具体的には、命令クラッキング・ユニット212の”下流”側に基本キャッシュ・ブロック213を実装することによって、分岐予測の外れたフラッシュ・パスから、クラッキング・ユニット212に保留されている命令をなくし、よって、分岐予測外れの後にパージしなければならないパイプライン・ステージ数を少なくし、性能ペナルティを少なくする。また基本キャッシュ・ブロック213は、ディスパッチ/完了制御ロジック216と完了テーブル218の編成に一致した構造を持つキャッシュ・メカニズムを想定し、よって、介在するロジックの編成を簡素化し、前記のように、基本キャッシュ・ブロック213への有用な拡張機能の実装を容易にしている。
【0023】
実施例の基本キャッシュ・ブロック213は更に、例外、フラッシュ、割込み等、性能を制限するイベント(ここでは例外イベントと総称する)の発生につながる可能性のあるシナリオを避けるため、同じ命令グループの後の実行の間に使用される可能性のある情報を記録することによって、プロセッサ性能を好都合に改良できるようにする命令履歴情報を含む。図8に示した基本キャッシュ・ブロック213の実施例で、命令履歴情報は、各エントリ502の命令履歴フィールド508に格納される。命令履歴フィールド508に格納される情報の種類の例として、ロード命令が最後に実行されたときストア・フォワード例外になった特定のロード命令を含む命令グループを考える。ストア・フォワード例外は、メモリ参照が共通の(プログラム順序で)ストア命令に続くロード命令が、順不同マシンでストア命令より先に実行されたときに生じる。ロード命令は、ストア命令より前に実行された場合は、レジスタから無効な値を検索するので、例外が発生する結果、命令がフラッシュされる。基本キャッシュ・ブロック213と完了制御ロジック216の構造間には並列性があるため、命令の実行と完了の方法に関してディスパッチ/完了制御ロジック216が取得した情報を基本キャッシュ・ブロック213の対応するエントリに転送するタスクが容易になる。この並列性がない場合、ディスパッチ/完了制御ロジック216からの完了情報は、通常、グループ命令情報をそのコンポーネント命令と関連付けるため、何らかの形の中間のハッシュ・テーブル、その他の適切なメカニズムを通して渡す必要がある。ストア・フォワードの例では、ストア・フォワード例外を検出した後、ディスパッチ/完了制御ロジック216が、基本キャッシュ・ブロック213の対応するエントリの命令履歴フィールド508に、ストア・フォワード例外を示すビットを書込む。後で命令グループが実行された場合、前にストア・フォワード例外が発生したことを示す命令履歴情報を、例えばプロセッサ101を、ストアの完了前にロードが実行されるのを防ぐ順次モードにするために使用できる。従って、本発明のこの実施例は、命令グループに関連した例外イベントを示す命令履歴情報を記録し、その後、命令グループの実行を変更することで、命令グループが後で実行されるときの例外イベントの発生を防ごうとするものである。ストア・フォワードの例に示しているが、命令履歴情報フィールド508は、予測メカニズムの精度に関連する情報、予測オペランド値、キャッシュ・ミス/ヒット情報等、プロセッサが例外条件の再発を回避できるような様々な命令履歴イベントに関連した情報を記録するのに適している。
【0024】
基本キャッシュ・ブロック213の実行履歴フィールド508に記録される情報の1例が、図9に示す実施例により強調されている。この実施例では、発行キュー220が1次発行キュー902と2次発行キュー904に分けられる。発行キュー220の最適なサイズまたは深さは、拮抗する考慮事項のバランスを表す。一方では、プロセッサの機能を最大限に活用して命令を順不同に実行するため、極めて大きく深い発行キューを実装することが望ましい。命令を順不同で発行する機能は、発行キュー220に保留されている命令の数により制限される。発行キューが多くなると、順不同処理に適した命令も多くなる。他方、発行キューが深くなると、プロセッサのサイクル時間の制約内で次に発行する命令を決定するプロセッサの機能は減少する。言い換えると、発行キュー220に保留される命令が多ければ多いほど、次に発行する命令を決定するため必要な時間が長くなる。そのため、発行キュー220のような発行キューは、約20以下の深さに制限されることが多い。本発明の実施例は、発行キューで次に発行可能な命令を検索するため必要なロジックをあまり大きくする必要なく、深い発行キューのメリットを実現しようとするものである。本発明は、既に発行されていて、プロセッサ101の実行パイプライン222に保留されているか、またはオペランド値を依存している他の命令の完了を待機しているため、発行キュー220に保留されている命令を直ちに発行することができないことが多いという事実を利用している。
【0025】
図9を参照する。本発明の実施例に従った発行キュー220は、1次発行キュー902と2次発行キュー904を含む。1次発行キュー902は、直ちに発行可能な命令を格納する。実施例で、ディスパッチ・ユニット214からディスパッチされた命令は、最初、1次発行キュー902の使用できるエントリに格納される。後に、命令が他の命令に依存することが確認された場合、依存する命令は、依存対象である命令によって必要な情報が検索されるまで、2次発行キュー904に移動される。例えば、ロード命令に続く加算命令に、ロード命令の結果が必要な場合、最初に両方の命令を1次発行キュー902にディスパッチすることができる。加算命令がロード命令に依存することが確認されると、加算命令は1次発行キュー902から2次発行キュー904に転送される。図8に関して述べたように、命令履歴フィールド508を利用した実施例では、後の命令実行時に、加算命令を2次発行キュー904に直接格納できるように加算命令の依存性を記録することができる。2次発行キュー904はまた、最近発行され、プロセッサの実行パイプラインにまだ保留されている命令を格納するために使用できる。この実施例で、命令は1次発行キュー902から発行された後、2次発行キュー904に転送される。実施例によっては、命令が拒否されないことが確認されるまで、命令を2次発行キュー904に配置することができる。命令が拒否されていないことを確認する1つの方法は、2次発行キュー904の各エントリに関連付けたタイマ/カウンタ(図示せず)を実装することである。最初に命令が1次発行キュー902から2次発行キュー904に転送されたときに、カウンタ/タイマが初期化される。他の実施例で、カウンタ/タイマは、カウンタ/タイマの初期化以降に終了したクロック・サイクル数をカウントする。カウンタ/タイマが所定数のサイクルについてカウントを続け、命令が拒否されたことが検出されない場合、命令は正常に完了したとみなされ、2次発行キュー904のエントリが割当てを解除される。命令の依存性のため、または命令が最近1次発行キューから発行されたために、命令がディスパッチされていても現在実行可能ではない2次発行キューとともに実行するため、現在発行可能な命令に専用される1次発行キューを含む発行キューを利用することによって、次に発行する命令を決定するため必要な時間(つまりロジック・レベル数)をかなり長くすることなく、発行キューの有効サイズまたは深さが増加する。
【0026】
本発明の開示内容を享受する当業者には明らかなように、本発明は、予測ミスした分岐に伴う待ち時間を少なくするため、グループ分けされた命令(つまり、第1フォーマットから第2フォーマットに変換された命令)を格納するのに適したキャッシュ機構を含むマイクロプロセッサの様々な実施例を想定している。図とともに詳しく説明した本発明の形式は、現在の好適な例にすぎない。特許請求の範囲は、ここに開示した好適実施例の変形例を全て包括するように広く解釈されるべきものである。
【0027】
まとめとして、本発明の構成に関して以下の事項を開示する。
【0028】
(1)マイクロプロセッサにて命令を処理する方法であって、
受信された命令の第1セットを命令グループに変換するステップと、
編成された基本キャッシュ・ブロックの、それぞれに命令グループが格納された各キャッシュ機構エントリに、前記命令グループを格納するステップと、
前記命令グループの命令を実行のため発行するステップと、
前記命令グループの命令の実行時に生成された例外に応答して、前記基本キャッシュ・ブロックと最終ステージの間に保留されている命令のみをフラッシュするステップと、
を含む、方法。
(2)前記生成された例外は分岐予測ミス例外を含む、前記(1)記載の方法。
(3)前記受信された命令は、第1命令フォーマットに従ってフォーマットされ、前記命令グループの命令は第2命令フォーマットに従ってフォーマットされる、前記(1)記載の方法。
(4)前記第2命令フォーマットは前記第1命令フォーマットより幅が広い、前記(3)記載の方法。
(5)前記キャッシュ機構の各エントリにポインタを割当て、該ポインタは次に実行される命令を示す、前記(4)記載の方法。
(6)前記命令グループの1つの実行時に予測ミスした分岐の検出に応答して、該予測ミスした分岐に対応するキャッシュ・エントリのポインタを更新するステップを含む、前記(5)記載の方法。
(7)マイクロプロセッサ命令の第1セットを受信し、該命令セットを命令グループとして編成するよう構成された命令クラッキング・ユニットと、
前記クラッキング・ユニットにより生成された命令グループをキャッシュするよう構成された基本キャッシュ・ブロック機構と、
前記命令グループの命令を実行するのに適した実行ユニットと、
を含み、
前記命令グループの命令の実行時に生成され、フラッシュの原因となる例外により、前記基本キャッシュ・ブロックからディスパッチされた命令のみフラッシュされる、
マイクロプロセッサ。
(8)前記基本キャッシュ・ブロックの前記命令グループから命令を検索し、該命令を発行キューに転送するよう構成されたディスパッチ・ユニットを含む、前記(7)記載のプロセッサ。
(9)前記受信された命令は第1命令フォーマットに従ってフォーマットされ、第2命令セットが第2命令フォーマットに従ってフォーマットされ、該第2命令フォーマットは該第1命令フォーマットより幅が広い、前記(7)記載のプロセッサ。
(10)前記基本キャッシュ・ブロックは、前記基本キャッシュ・ブロックの対応するエントリに各命令グループを格納するよう構成された、前記(7)記載のプロセッサ。
(11)前記基本キャッシュ・ブロックは、前記対応する基本キャッシュ・ブロック・エントリを示すエントリ・フィールドを含む、前記(10)記載のプロセッサ。
(12)前記基本キャッシュ・ブロックの各エントリは、次に実行される命令グループを示すポインタを含む、前記(11)記載のプロセッサ。
(13)前記プロセッサは、予測ミスした分岐に応答してキャッシュ・エントリのポインタを更新するよう構成された、前記(12)記載のプロセッサ。
(14)プロセッサ、メモリ、入力手段、及びディスプレイを含むデータ処理システムであって、
マイクロプロセッサ命令の第1セットを受信し、該命令セットを命令グループとして編成するよう構成された命令クラッキング・ユニットと、
前記クラッキング・ユニットにより生成された命令グループをキャッシュするよう構成された基本キャッシュ・ブロック機構と、
前記命令グループの命令を実行するのに適した実行ユニットと、
を含み、
前記命令グループの命令の実行時に生成され、フラッシュの原因となる例外により、前記基本キャッシュ・ブロックからディスパッチされた命令のみフラッシュされる、
データ処理システム。
(15)前記基本キャッシュ・ブロックの命令グループから命令を検索し、該命令を発行キューに転送するよう構成されたディスパッチ・ユニットを含む、前記(14)記載のデータ処理システム。
(16)前記受信された命令は第1命令フォーマットに従ってフォーマットされ、第2命令セットが第2命令フォーマットに従ってフォーマットされ、該第2命令フォーマットは該第1命令フォーマットより幅が広い、前記(14)記載のデータ処理システム。
(17)前記基本キャッシュ・ブロックは、前記基本キャッシュ・ブロックの対応するエントリに各命令グループを格納するよう構成された、前記(14)記載のデータ処理システム。
(18)前記基本キャッシュ・ブロックは、前記対応する基本キャッシュ・ブロック・エントリを示すエントリ・フィールドを含む、前記(17)記載のデータ処理システム。
(19)前記基本キャッシュ・ブロックの各エントリは、次に実行される命令グループを示すポインタを含む、前記(18)記載のデータ処理システム。
(20)前記プロセッサは、予測ミスした分岐に応答して各エントリのポインタを更新するよう構成された、前記(19)記載のデータ処理システム。
【図面の簡単な説明】
【図1】本発明の実施例に従ったマイクロプロセッサを含むデータ処理システムの特定のコンポーネントを示す図である。
【図2】本発明の実施例に従ったマイクロプロセッサの特定のコンポーネントを示す図である。
【図3】図2のプロセッサの実施例により実行される命令クラッキング関数の例を示す図である。
【図4】マイクロプロセッサの特定のコンポーネントを示す図である。
【図5】図2のマイクロプロセッサの基本キャッシュ・ブロックを示す図である。
【図6】図2のプロセッサに予想される様々な分岐を示す図である。
【図7】本発明に適した完了テーブルを示す図である。
【図8】命令履歴情報を含む基本キャッシュ・ブロックを示す図である。
【図9】本発明の実施例に従った1次発行キューと2次発行キューを含む発行キューを示す図である。
【符号の説明】
100 データ処理システム
101 中央処理装置(プロセッサ)
102 ROM(読出し専用メモリ)
103 ハード・ディスク
104 大容量記憶装置
105 テープ・ストレージ・デバイス
106 ネットワーク・アダプタ
107 I/Oアダプタ
108 ユーザ・インタフェース・アダプタ
109 キーボード
110 マウス
111 スピーカ
112 ディスプレイ・アダプタ
113 システム・バス
136 ディスプレイ・モニタ
202 命令フェッチ・ユニット
210 命令キャッシュ
212 クラッキング・ユニット
213 基本キャッシュ・ブロック
214 ディスパッチ・ユニット
215 ブロック・フェッチ・ユニット
216 ディスパッチ/完了制御ロジック
218 完了テーブル
220 発行キュー
222 実行パイプ
224 分岐ユニット・パイプライン
226 ロード/ストア・パイプライン
228 固定小数点演算ユニット
230 浮動小数点ユニット
232 最終ステージ
250 システム・メモリ
302 命令グループ
304 命令スロット
401 階層化アーキテクチャ・マイクロプロセッサ
402 フェッチ・ユニット
406 分岐予測ロジック
410 命令キャッシュ
412 ISAコンバータ
422 実行パイプライン
432 最終ステージ
502 基本キャッシュ・ブロック・エントリ
504 エントリID
506 ポインタ
507 命令アドレス(IA)・フィールド
508 命令履歴フィールド
600 分岐ツリー
702 完了テーブル・エントリ
704 命令アドレス(IA)・フィールド
706 状態ビット・フィールド
902 1次発行キュー
904 2次発行キュー[0001]
BACKGROUND OF THE INVENTION
The present invention relates generally to the field of microprocessor architectures, and more particularly to microprocessors that utilize instruction group architectures, corresponding cache mechanisms, and their useful extensions.
[0002]
[Prior art]
While microprocessor technology delivers gigahertz-class performance, microprocessor designers are compatible with a large number of software that is designed to run on specific instruction set architectures (ISAs) and is already in practical use. Faced with the big challenge of maintaining the functionality while using the latest technology. To solve this problem, designers receive instructions that are formatted according to existing ISAs, and a “layered architecture” tailored to convert the instruction format to an internal ISA suitable for operation in a gigahertz execution pipeline.・ A microprocessor is installed. Please refer to FIG. A portion of the
[0003]
Therefore, there is a strong demand to implement a hierarchical architecture microprocessor that supports the performance penalty of branch misprediction. There is also a need for the implemented solution to at least partially resolve the repeated occurrence of exceptional conditions caused by repeated execution of code fragments. Furthermore, the implemented solution is also required to enable a large issue queue in effect without sacrificing the ability to search the issue queue for instructions to be executed next.
[0004]
[Problems to be solved by the invention]
It is an object of the present invention to provide a microprocessor utilizing a cache mechanism that matches the instruction group and instruction group format.
[0005]
It is a further object of the present invention to provide a processor, data processing system, and method for utilizing instruction history information with basic cache blocks to improve performance.
[0006]
It is another object of the present invention to provide a processor, a data processing system, and a method using a primary issue queue and a secondary issue queue.
[0007]
[Means for Solving the Problems]
Embodiments of the present invention contemplate a microprocessor and associated method and data processing system. The microprocessor includes an instruction cracking unit configured to receive the first instruction set. The cracking unit organizes a set of instructions as an instruction group. Each instruction in the group shares an instruction group tag. The processor also includes a basic cache block mechanism organized in an instruction group format and configured to cache instruction groups generated by the cracking unit. The execution unit of the processor is suitable for executing instructions of the instruction group. In an embodiment, when an exception occurs during the execution of an instruction group instruction and this causes a flush, only the instructions dispatched from the base cache block are flushed. The processor only flushes instructions that have arrived in the basic cache block so that instructions pending in the cracking unit pipeline are not flushed. Since fewer instructions are flushed, the performance penalty when an exception occurs is also reduced. In other embodiments, the received instructions are formatted according to a first instruction format and the second instruction set is formatted according to a second instruction format. The second instruction format is wider than the first instruction format. The basic cache block is configured to facilitate storing each instruction group of the corresponding entry of the basic cache block. In some embodiments, each entry in a basic cache block includes an entry field that indicates the corresponding basic cache block entry and a pointer that predicts the next instruction group to be executed. The processor is preferably configured to update the pointer of the cache entry corresponding to the mispredicted branch.
[0008]
The processor is suitable for receiving an instruction set and organizing the instruction set into instruction groups. Instruction groups are dispatched for execution. After execution of the instruction group, instruction history information indicating an exception event related to the instruction group is recorded. Thereafter, the execution of the instruction is changed in response to the instruction history information, and the occurrence of an exception event during the subsequent execution of the instruction group is prevented. The processor includes a stage mechanism such as an instruction cache, an L2 cache or system memory, a cracking unit, and a basic cache block. The cracking unit is configured to receive an instruction set from the stage mechanism. The cracking unit is coordinated to organize the instruction set into instruction groups. The cracking unit can change the format of the instruction set from the first instruction format to the second instruction format. The basic cache block architecture is suitable for storing instruction groups. The basic cache block includes an instruction history field corresponding to each entry of the basic cache block. The instruction history information indicates an exception event related to the instruction group. In the preferred embodiment, each entry in the basic cache block corresponds to one instruction group generated by the cracking unit. The processor can further include completion table control logic configured to store information in the instruction history field when execution of the instruction group is completed. The instruction history information can indicate whether instructions in the instruction group have a dependency with other instructions or whether execution of the instruction group has previously resulted in a store-forward exception. In this embodiment, the processor is configured to operate in an in-order-mode in response to detecting that execution of the instruction group has previously resulted in a store-forward exception.
[0009]
The processor is suitable for dispatching instructions to the issuing unit. The issue unit includes a primary issue queue and a secondary issue queue. An instruction is stored in the primary issue queue if it is currently issued for execution. If the current issue is not permitted for execution, it is stored in the secondary issue queue. The processor determines an instruction to be issued next among a plurality of instructions in the primary issue queue. An instruction is moved from the primary issue queue to the secondary issue queue if it depends on the result from another instruction. In an embodiment, after an instruction is issued for execution, it can move from the primary issue queue to the secondary issue queue. In this embodiment, the instructions can be kept in the secondary issue queue for a specified time. Thereafter, if the instruction has not been rejected, the secondary issue queue entry containing the instruction is deallocated. The microprocessor includes an instruction cache, a dispatch unit configured to receive instructions from the instruction cache, and an issue unit configured to receive instructions from the dispatch unit. The issue unit assigns instructions dispatched and currently allowed to execute to the primary issue queue, and assigns instructions dispatched and not currently allowed to execute to the secondary issue queue.
[0010]
DETAILED DESCRIPTION OF THE INVENTION
Please refer to FIG. An embodiment of a
[0011]
Please refer to FIG. A simplified diagram of a processor 101 according to an embodiment of the present invention is shown. The processor 101 includes an instruction fetch unit 202 suitable for generating the address of the next instruction to be fetched. The instruction address generated by the fetch unit 202 is provided to the instruction cache 210. As can be seen from the name, the fetch unit 202 includes branch prediction logic and the like adjusted to predict the execution flow determination result of the program based on predetermined information. The ability to predict branch decisions correctly is an important factor for the processor 101 to improve performance by executing instructions speculatively and out of order. The instruction address generated by the fetch unit 202 is provided to the instruction cache 210. Cache 210 stores a portion of the contents of the system memory in the high speed stage mechanism. The instructions stored in the instruction cache 210 are preferably formatted according to the first ISA. The first ISA is typically a legacy ISA such as a PowerPC, x86 compatible instruction set, for example. For more information on the PowerPC instruction set, refer to Motorola's PowerPC 620 RISC Microprocessor User's Manual (MPC620UM / AD). If the instruction address generated by fetch unit 202 corresponds to a system memory location that is currently replicated in instruction cache 210, instruction cache 210 forwards the corresponding instruction to cracking unit 212. If the instruction corresponding to the instruction address generated by fetch unit 202 does not currently exist in instruction cache 210 (ie, the instruction address provided by fetch unit 202 misses instruction cache 210), the instruction Before being transferred to the cracking unit 212, it must be fetched from an L2 cache (not shown) or system memory.
[0012]
The cracking unit 212 is tuned to modify the incoming instruction stream and generate an optimal instruction set for execution at high operating frequencies (over 1 GHz) in a given execution pipeline. For example, the cracking unit 212 receives instructions in a 32-bit wide ISA, such as those supported by a PowerPC microprocessor in some embodiments, and facilitates execution in a fast execution unit operating above the gigahertz range. Convert to a second, preferably wider ISA. The broad format of the instructions generated by the cracking unit 212 is, for example, information that is simply implied or referenced in the instructions received by the cracking unit 212 and formatted according to the first format ( An explicit field or the like for storing an operand value or the like can be included. For example, in some embodiments, the ISA of instructions generated by the cracking unit is 64 bits or more in width.
[0013]
In another embodiment, the cracking unit 212 is designed to organize the fetched instruction set into an
[0014]
In Example 1, the instruction set denoted 301 is converted into one
[0015]
Example 2 of FIG. 3 shows a second example of an instruction group executed by the cracking unit 212 according to an embodiment of the present invention. This example illustrates the function of the cracking unit 212 that divides complex instructions into simple instruction groups for faster execution. In the example shown, the sequence of two LDU (load-with-update) instructions is divided into an instruction group containing a pair of load instructions in
[0016]
In Example 3, one instruction input to the cracking unit 212 is divided into an instruction set that occupies a plurality of
[0017]
Please refer to FIG. The
[0018]
The
[0019]
The illustrated embodiment of the processor 101 further shows a dispatch unit 214. The dispatch unit 214 makes all necessary resources available before transferring the instructions of each instruction group to the
[0020]
In connection with dispatch / completion control logic 216, a completion table 218 is used to track the state of issued instruction groups in embodiments of the present invention. Please refer to FIG. An example of a completion table 218 is shown. In the illustrated embodiment, the completion table 218 includes a set of
[0021]
In the embodiment of processor 101 shown in FIG. 2, instructions are issued from dispatch unit 214 to issue
[0022]
If the predicted branch is not taken (branch prediction failure), the instruction held in the
[0023]
The
[0024]
One example of information recorded in the
[0025]
Please refer to FIG. The
[0026]
As will be apparent to those skilled in the art who have the benefit of the present disclosure, the present invention provides grouped instructions (ie, from the first format to the second format) to reduce latency associated with mispredicted branches. Various embodiments of a microprocessor are contemplated that include a cache mechanism suitable for storing (translated instructions). The form of the invention described in detail with the drawings is only a presently preferred example. The claims should be construed broadly to encompass all variations of the preferred embodiments disclosed herein.
[0027]
In summary, the following matters are disclosed regarding the configuration of the present invention.
[0028]
(1) A method of processing instructions by a microprocessor,
Converting the first set of received instructions into an instruction group;
Storing said instruction group in each cache mechanism entry in which each instruction group is stored in a structured basic cache block;
Issuing instructions of said instruction group for execution;
Flushing only instructions pending between the basic cache block and the final stage in response to an exception generated during execution of an instruction of the instruction group;
Including a method.
(2) The method according to (1), wherein the generated exception includes a branch misprediction exception.
(3) The method according to (1), wherein the received instructions are formatted according to a first instruction format, and instructions of the instruction group are formatted according to a second instruction format.
(4) The method according to (3), wherein the second instruction format is wider than the first instruction format.
(5) The method according to (4), wherein a pointer is assigned to each entry of the cache mechanism, and the pointer indicates an instruction to be executed next.
(6) The method according to (5), including the step of updating a cache entry pointer corresponding to the mispredicted branch in response to detection of a mispredicted branch during execution of one of the instruction groups.
(7) an instruction cracking unit configured to receive a first set of microprocessor instructions and to organize the instruction set as an instruction group;
A basic cache block mechanism configured to cache instruction groups generated by the cracking unit;
An execution unit suitable for executing instructions of the instruction group;
Including
Only instructions dispatched from the basic cache block are flushed due to an exception that is generated when executing an instruction of the instruction group and causes a flush,
Microprocessor.
(8) The processor according to (7), including a dispatch unit configured to retrieve an instruction from the instruction group of the basic cache block and transfer the instruction to an issue queue.
(9) The received instruction is formatted according to a first instruction format, a second instruction set is formatted according to a second instruction format, and the second instruction format is wider than the first instruction format, (7) The processor described.
(10) The processor according to (7), wherein the basic cache block is configured to store each instruction group in a corresponding entry of the basic cache block.
(11) The processor according to (10), wherein the basic cache block includes an entry field indicating the corresponding basic cache block entry.
(12) The processor according to (11), wherein each entry of the basic cache block includes a pointer indicating an instruction group to be executed next.
(13) The processor according to (12), wherein the processor is configured to update a cache entry pointer in response to a mispredicted branch.
(14) A data processing system including a processor, a memory, an input means, and a display,
An instruction cracking unit configured to receive a first set of microprocessor instructions and to organize the instruction set as an instruction group;
A basic cache block mechanism configured to cache instruction groups generated by the cracking unit;
An execution unit suitable for executing instructions of the instruction group;
Including
Only instructions dispatched from the basic cache block are flushed due to an exception that is generated when executing an instruction of the instruction group and causes a flush,
Data processing system.
(15) The data processing system according to (14), further including a dispatch unit configured to retrieve an instruction from an instruction group of the basic cache block and transfer the instruction to an issue queue.
(16) The received instruction is formatted according to a first instruction format, a second instruction set is formatted according to a second instruction format, and the second instruction format is wider than the first instruction format, (14) The data processing system described.
(17) The data processing system according to (14), wherein the basic cache block is configured to store each instruction group in a corresponding entry of the basic cache block.
(18) The data processing system according to (17), wherein the basic cache block includes an entry field indicating the corresponding basic cache block entry.
(19) The data processing system according to (18), wherein each entry of the basic cache block includes a pointer indicating an instruction group to be executed next.
(20) The data processing system according to (19), wherein the processor is configured to update a pointer of each entry in response to a mispredicted branch.
[Brief description of the drawings]
FIG. 1 illustrates certain components of a data processing system that includes a microprocessor in accordance with an embodiment of the present invention.
FIG. 2 illustrates certain components of a microprocessor in accordance with an embodiment of the present invention.
FIG. 3 is a diagram illustrating an example of an instruction cracking function performed by the embodiment of the processor of FIG.
FIG. 4 illustrates certain components of a microprocessor.
FIG. 5 is a diagram showing a basic cache block of the microprocessor of FIG. 2;
FIG. 6 is a diagram illustrating various branches expected for the processor of FIG. 2;
FIG. 7 is a diagram showing a completion table suitable for the present invention.
FIG. 8 is a diagram showing a basic cache block including instruction history information.
FIG. 9 is a diagram illustrating an issue queue including a primary issue queue and a secondary issue queue according to an embodiment of the present invention.
[Explanation of symbols]
100 Data processing system
101 Central processing unit (processor)
102 ROM (read only memory)
103 hard disk
104 Mass storage device
105 Tape storage device
106 Network adapter
107 I / O adapter
108 User Interface Adapter
109 keyboard
110 mice
111 Speaker
112 Display adapter
113 System bus
136 Display Monitor
202 Instruction fetch unit
210 Instruction cache
212 Cracking unit
213 Basic cache block
214 Dispatch Unit
215 block fetch unit
216 Dispatch / completion control logic
218 Completion table
220 Issue queue
222 execution pipe
224 Branch unit pipeline
226 Load / Store Pipeline
228 fixed point arithmetic unit
230 Floating point unit
232 Final stage
250 system memory
302 instruction group
304 instruction slot
401 Hierarchical architecture microprocessor
402 fetch unit
406 Branch prediction logic
410 Instruction cache
412 ISA converter
422 execution pipeline
432 Final stage
502 Basic cache block entry
504 Entry ID
506 pointer
507 Instruction address (IA) field
508 Instruction history field
600 branch tree
702 Completion table entry
704 Instruction address (IA) field
706 Status bit field
902 Primary issue queue
904 Secondary issue queue
Claims (20)
前記命令キャッシュが、ストア命令と、ロード命令とを含んだ複数の命令を受信するステップと、
前記命令クラッキング・ユニットが、前記命令キャッシュで受信した複数の命令と、これらの命令を処理する順序に関する情報を記憶した命令履歴情報とから命令グループを構成し、この命令グループを、前記基本キャッシュ・ブロックへ転送するステップと、
前記基本キャッシュ・ブロックが、転送された命令グループを格納し、前記ディスパッチ・ユニットへ転送するステップと、
前記ディスパッチ・ユニットは、前記基本キャッシュ・ブロックから転送された複数の命令グループのうち、次に実行すべき命令グループを前記命令履歴情報から判断し、前記実行キューを介して、次に実行すべきと判断した命令グループの各命令を、前記実行ユニットに転送するステップと、
前記実行ユニットが前記命令グループの各命令を実行するステップと、
前記実行ユニットが実行した命令が、未だ実行されていないストア命令に対応するロード命令であった場合に、前記ディスパッチ/完了ロジックは、このロード命令を含む命令グループがストア・フォワード例外を生じたことを前記命令履歴情報に記録するステップと、
前記ディスパッチ・ユニットが、前記記録された命令履歴情報に基づいて、前記ストア命令を含む命令グループの各命令を、前記ロード命令を含む命令グループの各命令より先に、前記実行ユニットへ転送し、前記実行ユニットが、前記ロード命令を再び実行するステップと、
を含む方法。 A method of processing instructions in a microprocessor including an instruction cache, an instruction cracking unit, a basic cache block, a dispatch unit, an execution unit, an execution queue, and dispatch / completion logic ,
The instruction cache receives a plurality of instructions including a store instruction and a load instruction;
The instruction cracking unit constitutes an instruction group from a plurality of instructions received by the instruction cache and instruction history information storing information on the order of processing these instructions. Transferring to the block;
The basic cache block storing and transferring the transferred instruction group to the dispatch unit;
The dispatch unit determines an instruction group to be executed next from the instruction history information among a plurality of instruction groups transferred from the basic cache block, and should execute next through the execution queue. Transferring each instruction of the instruction group determined to be to the execution unit;
The execution unit executing each instruction of the instruction group;
When the instruction executed by the execution unit is a load instruction corresponding to a store instruction that has not yet been executed, the dispatch / completion logic indicates that the instruction group including the load instruction has caused a store-forward exception. Recording in the command history information;
The dispatch unit forwards each instruction of the instruction group including the store instruction to the execution unit prior to each instruction of the instruction group including the load instruction based on the recorded instruction history information; The execution unit executing the load instruction again;
Including methods.
前記ディスパッチ・ユニットが、前記命令グループの各命令を、前記実行ユニットに転送するステップの後に、この命令グループの各命令を前記実行ユニットへ転送したことを、前記ディスパッチ/完了ロジックの完了テーブルに記録するステップを含む方法。 Record in the dispatch / completion logic completion table that the dispatch unit has transferred each instruction of the instruction group to the execution unit after the step of transferring each instruction of the instruction group to the execution unit. A method comprising the steps of:
前記命令クラッキング・ユニットが前記命令グループを構成するステップでは、 The instruction cracking unit comprises the instruction group;
受信した命令が分岐命令であった場合には、この分岐命令によって投機的に実行する命令グループのIDを次に実行される命令グループのIDとしてポインタに記録して命令グループを構成し、 If the received instruction is a branch instruction, the instruction group ID speculatively executed by the branch instruction is recorded on the pointer as an instruction group ID to be executed next, and the instruction group is configured.
前記ディスパッチ・ユニットが、次に実行すべき命令グループを判断して前記実行ユニットへ判断された命令グループの各命令を転送するステップでは、 The dispatch unit determines the instruction group to be executed next and transfers each instruction of the determined instruction group to the execution unit.
前記ディスパッチ・ユニットが、前記ポインタと前記命令記録情報とにより次に実行すべき命令グループを判断し、次に実行すべきと判断した命令グループの各命令を前記実行ユニットへ転送する方法。 A method in which the dispatch unit determines an instruction group to be executed next based on the pointer and the instruction record information, and transfers each instruction of the instruction group determined to be executed next to the execution unit.
前記分岐命令を実行して、投機的に予測して実行した命令が予測ミスだった場合に、前記基本キャッシュ・ブロックが、この予測ミスだった命令グループのIDを変更するステ When the branch instruction is executed and the instruction speculatively predicted and executed is a misprediction, the basic cache block changes the ID of the instruction group having the misprediction. ップを含む方法。Method including
前記命令キャッシュが前記複数の命令を受信した後に、この受信した命令の各々に対して、この命令のデータのビット幅を広げた第2の命令フォーマットへ変換するステップを含む方法。 After the instruction cache receives the plurality of instructions, each of the received instructions includes the step of converting to a second instruction format in which the bit width of the data of the instruction is widened.
前記第2の命令フォーマットへ変換するステップは、明示的なオペランドの参照情報を含む第2の命令フォーマットへ変換するステップを含む方法。 The method of converting to the second instruction format includes converting to a second instruction format that includes explicit operand reference information.
ストア命令と、ロード命令とを含んだ複数の命令を受信する命令キャッシュと、
前記命令キャッシュで受信した複数の命令と、これらの命令を処理する順序に関する情報を記憶した命令履歴情報とから命令グループを構成し、この命令グループを転送する命令クラッキング・ユニットと、
前記命令クラッキング・ユニットから転送された命令グループを格納し、前記ディスパッチ・ユニットへ転送する基本キャッシュ・ブロックと、
前記基本キャッシュ・ブロックから転送された命令グループのうち、次に実行すべき命令グループを前記命令履歴情報から判断し、次に実行すべきと判断した命令グループの各命令を転送するディスパッチ・ユニットと、
前記命令グループの各命令を、前記ディスパッチ・ユニットから受信し、受信した各命令を実行する実行ユニットと、
前記実行ユニットが実行した命令が、未だ実行されていないストア命令に対応するロード命令であった場合に、このロード命令を含む命令グループを再び実行する必要がある場合には、このロード命令を含む命令グループがストア・フォワード例外を生じたことを前記命令履歴情報に、記録するディスパッチ/完了ロジックと、
を含むマイクロプロセッサ。 The microprocessor
An instruction cache for receiving a plurality of instructions including a store instruction and a load instruction;
An instruction cracking unit that constitutes an instruction group from a plurality of instructions received in the instruction cache and instruction history information that stores information on the order in which these instructions are processed , and transfers the instruction group;
A basic cache block for storing instruction groups transferred from the instruction cracking unit and transferring them to the dispatch unit;
A dispatch unit that determines an instruction group to be executed next from the instruction history information among instruction groups transferred from the basic cache block, and transfers each instruction of the instruction group determined to be executed next; ,
An execution unit that receives each instruction of the instruction group from the dispatch unit and executes each received instruction;
If the instruction executed by the execution unit is a load instruction corresponding to a store instruction that has not yet been executed, the instruction group including the load instruction needs to be executed again. Dispatch / completion logic for recording in the instruction history information that an instruction group has caused a store forward exception;
Including a microprocessor.
前記ディスパッチ/完了ロジックは、前記ディスパッチ・ユニットが前記命令グループの各命令を、前記実行ユニットに転送した後に、この命令グループの各命令を前記実行ユニットへ転送したことを、前記ディスパッチ/完了ロジックの完了テーブルに記録するマイクロプロセッサ。 The dispatch / completion logic indicates that the dispatch unit has transferred each instruction of the instruction group to the execution unit and then transferred each instruction of the instruction group to the execution unit. A microprocessor that records in the completion table.
前記命令クラッキング・ユニットは、前記命令グループを構成するときに、前記複数の命令と、前記命令履歴情報とに加えて、命令グループのIDと、次に実行される命令グループのIDを示すポインタとを含めて命令グループを構成するマイクロプロセッサ。 When the instruction cracking unit constitutes the instruction group, in addition to the plurality of instructions and the instruction history information, an instruction group ID, and a pointer indicating an instruction group ID to be executed next, A microprocessor that constitutes an instruction group including
前記命令クラッキング・ユニットは、前記命令キャッシュが受信した命令が分岐命令であった場合には、この分岐命令によって投機的に実行する命令グループのIDを次に実行される命令グループのIDとしてポインタに記録し、その後、この記録したポインタを含めて命令グループを構成し、 When the instruction received by the instruction cache is a branch instruction, the instruction cracking unit sets an ID of an instruction group to be executed speculatively by the branch instruction as an ID of an instruction group to be executed next as a pointer. Record, and then configure the instruction group with this recorded pointer,
前記ディスパッチ・ユニットは、前記ポインタと前記命令記録情報とにより次に実行すべき命令グループを判断し、次に実行すべきと判断した命令グループの各命令を転送するマイクロプロセッサ。 The dispatch unit determines a next instruction group to be executed based on the pointer and the instruction record information, and transfers each instruction of the instruction group determined to be executed next.
前記基本キャッシュ・ブロックは、前記実行ユニットが前記分岐命令を実行して、投機的に予測して実行した命令が予測ミスだった場合に、この予測ミスだった命令グループのIDを変更するマイクロプロセッサ。 The basic cache block is a microprocessor that changes the ID of an instruction group that is a misprediction when the execution unit executes the branch instruction and the instruction speculatively predicted and executed is a misprediction. .
前記命令キャッシュは、複数の命令を受信した後に、この受信した命令の各々に対して、この命令のデータのビット幅を広げた第2の命令フォーマットへ変換することをさらに行うマイクロプロセッサ。 The microprocessor further performs conversion after receiving a plurality of instructions, to each of the received instructions, into a second instruction format in which the bit width of data of the instructions is widened.
前記命令キャッシュは、前記第2の命令フォーマットへ変換するときに、明示的なオペランドの参照情報を含む第2の命令フォーマットへ変換するマイクロプロセッサ。 The microprocessor, when converting to the second instruction format, converts to the second instruction format including explicit operand reference information.
ストア命令と、ロード命令とを含んだ複数の命令を受信する命令キャッシュと、
前記命令キャッシュで受信した複数の命令と、これらの命令を処理する順序に関する情報を記憶した命令履歴情報とから命令グループを構成し、この命令グループを転送する命令クラッキング・ユニットと、
前記命令クラッキング・ユニットから転送された命令グループを格納し、前記ディスパッチ・ユニットへ転送する基本キャッシュ・ブロックと、
前記基本キャッシュ・ブロックから転送された命令グループのうち、次に実行すべき命令グループを前記命令履歴情報から判断し、次に実行すべきと判断した命令グループの各命令を転送するディスパッチ・ユニットと、
前記命令グループの各命令を、前記ディスパッチ・ユニットから受信し、受信した各命令を実行する実行ユニットと、
前記実行ユニットが実行した命令が、未だ実行されていないストア命令に対応するロード命令であった場合に、このロード命令を含む命令グループを再び実行する必要がある場合には、このロード命令を含む命令グループがストア・フォワード例外を生じたことを前記命令履歴情報に、記録するディスパッチ/完了ロジックと、
を含むマイクロプロセッサを備えたデータ処理システム。 A data processing system comprising a microprocessor and a memory,
An instruction cache for receiving a plurality of instructions including a store instruction and a load instruction;
An instruction cracking unit that constitutes an instruction group from a plurality of instructions received in the instruction cache and instruction history information that stores information on the order in which these instructions are processed , and transfers the instruction group;
A basic cache block for storing instruction groups transferred from the instruction cracking unit and transferring them to the dispatch unit;
A dispatch unit that determines an instruction group to be executed next from the instruction history information among instruction groups transferred from the basic cache block, and transfers each instruction of the instruction group determined to be executed next; ,
An execution unit that receives each instruction of the instruction group from the dispatch unit and executes each received instruction;
If the instruction executed by the execution unit is a load instruction corresponding to a store instruction that has not yet been executed, the instruction group including the load instruction needs to be executed again. Dispatch / completion logic for recording in the instruction history information that an instruction group has caused a store forward exception;
A data processing system comprising a microprocessor including:
前記ディスパッチ/完了ロジックは、前記ディスパッチ・ユニットが前記命令グループの各命令を、前記実行ユニットに転送した後に、この命令グループの各命令を前記実行ユニットへ転送したことを、前記ディスパッチ/完了ロジックの完了テーブルに記録するデータ処理システム。 The data processing system of claim 15,
The dispatch / completion logic indicates that the dispatch unit has transferred each instruction of the instruction group to the execution unit and then transferred each instruction of the instruction group to the execution unit. A data processing system that records in a completion table .
前記命令クラッキング・ユニットは、前記命令グループを構成するときに、前記複数の命令と、前記命令履歴情報とに加えて、命令グループのIDと、次に実行される命令グループのIDを示すポインタとを含めて命令グループを構成するデータ処理システム。The data processing system of claim 15,
When the instruction cracking unit constitutes the instruction group, in addition to the plurality of instructions and the instruction history information, an instruction group ID, and a pointer indicating an instruction group ID to be executed next, A data processing system that constitutes an instruction group including
前記命令クラッキング・ユニットは、前記命令キャッシュが受信した命令が分岐命令であった場合には、この分岐命令によって投機的に実行する命令グループのIDを次に実行される命令グループのIDとしてポインタに記録し、その後、この記録したポインタを含めて命令グループを構成し、
前記ディスパッチ・ユニットは、前記ポインタと前記命令記録情報とにより次に実行すべき命令グループを判断し、次に実行すべきと判断した命令グループの各命令を転送するデータ処理システム。The data processing system of claim 17,
When the instruction received by the instruction cache is a branch instruction, the instruction cracking unit sets an ID of an instruction group to be executed speculatively by the branch instruction as an ID of an instruction group to be executed next as a pointer. Record, and then configure the instruction group with this recorded pointer,
The dispatch unit, a data processing system for transferring said pointer and said by the command recorded information to determine the instruction group to be executed next, then each instruction of the instruction group that determines to execute.
前記基本キャッシュ・ブロックは、前記実行ユニットが前記分岐命令を実行して、投機的に予測して実行した命令が予測ミスだった場合に、この予測ミスだった命令グループのIDを変更するデータ処理システム。The data processing system of claim 18, wherein
The basic cache block is a data process for changing the ID of an instruction group that is a misprediction when the execution unit executes the branch instruction and the instruction speculatively predicted and executed is a misprediction System .
前記命令キャッシュは、複数の命令を受信した後に、この受信した命令の各々に対して、この命令のデータのビット幅を広げた第2の命令フォーマットへ変換することをさらに行うデータ処理システム。The data processing system of claim 15,
The data processing system , wherein the instruction cache further converts each received instruction into a second instruction format in which the bit width of the data of the instruction is expanded after receiving a plurality of instructions.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US47830800A | 2000-01-06 | 2000-01-06 | |
US09/478308 | 2000-01-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001229024A JP2001229024A (en) | 2001-08-24 |
JP3629551B2 true JP3629551B2 (en) | 2005-03-16 |
Family
ID=23899386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000391300A Expired - Fee Related JP3629551B2 (en) | 2000-01-06 | 2000-12-22 | Microprocessor using basic cache block |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP3629551B2 (en) |
KR (1) | KR100402820B1 (en) |
CN (1) | CN1116638C (en) |
HK (1) | HK1035946A1 (en) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100395731C (en) * | 2006-02-23 | 2008-06-18 | 华为技术有限公司 | Processor and its data operating method |
JP2009163624A (en) * | 2008-01-09 | 2009-07-23 | Nec Electronics Corp | Processor device and conditional branch processing method |
US8082467B2 (en) | 2009-12-23 | 2011-12-20 | International Business Machines Corporation | Triggering workaround capabilities based on events active in a processor pipeline |
US9104399B2 (en) | 2009-12-23 | 2015-08-11 | International Business Machines Corporation | Dual issuing of complex instruction set instructions |
US9135005B2 (en) | 2010-01-28 | 2015-09-15 | International Business Machines Corporation | History and alignment based cracking for store multiple instructions for optimizing operand store compare penalties |
US8495341B2 (en) | 2010-02-17 | 2013-07-23 | International Business Machines Corporation | Instruction length based cracking for instruction of variable length storage operands |
US8938605B2 (en) | 2010-03-05 | 2015-01-20 | International Business Machines Corporation | Instruction cracking based on machine state |
US8464030B2 (en) | 2010-04-09 | 2013-06-11 | International Business Machines Corporation | Instruction cracking and issue shortening based on instruction base fields, index fields, operand fields, and various other instruction text bits |
US8645669B2 (en) | 2010-05-05 | 2014-02-04 | International Business Machines Corporation | Cracking destructively overlapping operands in variable length instructions |
US10572264B2 (en) * | 2017-11-30 | 2020-02-25 | International Business Machines Corporation | Completing coalesced global completion table entries in an out-of-order processor |
US10564979B2 (en) * | 2017-11-30 | 2020-02-18 | International Business Machines Corporation | Coalescing global completion table entries in an out-of-order processor |
KR20190128392A (en) * | 2018-05-08 | 2019-11-18 | 에스케이하이닉스 주식회사 | Memory system and operation method thereof |
US11409530B2 (en) * | 2018-08-16 | 2022-08-09 | Arm Limited | System, method and apparatus for executing instructions |
-
2000
- 2000-12-22 JP JP2000391300A patent/JP3629551B2/en not_active Expired - Fee Related
- 2000-12-27 CN CN00137005A patent/CN1116638C/en not_active Expired - Fee Related
-
2001
- 2001-01-05 KR KR10-2001-0000613A patent/KR100402820B1/en not_active IP Right Cessation
- 2001-09-18 HK HK01106575A patent/HK1035946A1/en not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR20010070434A (en) | 2001-07-25 |
KR100402820B1 (en) | 2003-10-22 |
CN1116638C (en) | 2003-07-30 |
HK1035946A1 (en) | 2001-12-14 |
CN1303044A (en) | 2001-07-11 |
JP2001229024A (en) | 2001-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3540743B2 (en) | Microprocessor with primary issue queue and secondary issue queue | |
JP3683808B2 (en) | Basic cache block microprocessor with instruction history information | |
JP3644959B2 (en) | Microprocessor system | |
JP3096451B2 (en) | Method and processor for transferring data | |
US5931957A (en) | Support for out-of-order execution of loads and stores in a processor | |
US6052776A (en) | Branch operation system where instructions are queued until preparations is ascertained to be completed and branch distance is considered as an execution condition | |
KR20020025687A (en) | Converting short branches to predicated instructions | |
JP3629551B2 (en) | Microprocessor using basic cache block | |
US20030182536A1 (en) | Instruction issuing device and instruction issuing method | |
JP3689369B2 (en) | Secondary reorder buffer microprocessor | |
JPH10283187A (en) | Method and device for maintaining architecture state of processor | |
US6754813B1 (en) | Apparatus and method of processing information for suppression of branch prediction | |
JP2001249805A (en) | Instruction takeout unit in microprocessor | |
US8181002B1 (en) | Merging checkpoints in an execute-ahead processor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040316 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040615 |
|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20040615 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20040616 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040907 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041019 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041109 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20041109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041119 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071224 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081224 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |