JP2012507794A

JP2012507794A - 有効な命令ヒュージョンを進展させる技術

Info

Publication number: JP2012507794A
Application number: JP2011534680A
Authority: JP
Inventors: オウジエル，イド; ラッポポート，リフ; ヴァレンタイン，ロバート; ガボール，ロン; ラグヴァンシ，パンカジ
Original assignee: インテルコーポレイション
Priority date: 2008-10-30
Filing date: 2009-10-27
Publication date: 2012-03-29
Also published as: US20100115248A1; JP5902285B2; TW201032129A; DE102009051388A1; US9690591B2; BRPI0920782B1; CN101901128B; TWI455023B; US20170003965A1; CN103870243A; US20160246600A1; US10649783B2; US20160378487A1; BRPI0920782A2; KR101258762B1; JP2015072707A; KR20110050715A; WO2010056511A3; WO2010056511A2; BRPI0904287A2

Abstract

コンピュータシステム内で有効な命令ヒュージョンを可能にする技術を開示する。一実施形態において、プロセッサロジックは、命令キュー内の第１の命令が第２の命令とヒュージ可能である場合に、第２の命令の処理を閾時間だけ遅らせる。

Description

本発明の実施形態は、概して、情報処理の分野に関し、より具体的には、コンピュータシステム及びマイクロプロセッサにおける命令ヒュージョン（instruction fusion）の分野に関する。

命令ヒュージョンは、２つの命令を、プロセッサ内の１つの動作（又はマイクロ動作“ｕｏｐ”）シーケンスをもたらす単一の命令にまとめる処理である。プロセッサ命令キュー（ＩＱ）（instruction queue）に格納されている命令は、ＩＱから読み出された後、命令デコーダへ送信される前に、あるいは、命令デコーダによってデコードされた後に、ヒュージされてよい。通常、命令がデコードされる前に起こる命令ヒュージョンは「マクロヒュージョン（macro-fusion）」と呼ばれ、他方、命令がデコードされた後に起こる命令ヒュージョンは「マイクロヒュージョン（micro-fusion）」と呼ばれる。マクロヒュージョンの例は、比較（“ＣＭＰ”）命令又はテスト（“ＴＥＳＴ”）命令（“ＣＭＰ／ＴＥＳＴ”）と条件付きジャンプ（“ＪＣＣ”）命令との結合である。ＣＭＰ／ＴＥＳＴ及びＪＣＣの命令の組は、プログラムにおいて、例えば、比較が行われ、比較の結果に基づいて、枝分かれが起こるか否かが決まるところのループの終わりに定期的に起こってよい。マクロヒュージョンは命令スループットを有効に増大させうるので、可能な限り命令をヒュージする多くの機会を見出すことが望ましい。

何らかの先行技術のプロセッサ・マイクロアーキテクチャで見出される命令ヒュージョンの機会に関し、ＣＭＰ／ＴＥＳＴ及びＪＣＣの両命令は、同時にＩＱにある必要があり、それにより、それらの命令は、命令がＩＱから読み出される場合にヒュージされ得る。しかし、ＩＱにヒュージ可能なＣＭＰ／ＴＥＳＴ命令はあるが、それ以外の命令はＩＱに書き込まれていない場合（すなわち、ＣＭＰ／ＴＥＳＴ命令がＩＱにおける最後の命令である場合）、ＣＭＰ／ＴＥＳＴ命令は、たとえプログラム順序における次の命令がＪＣＣ命令であるとしても、ＩＱから読み出されて、ヒュージされることなくデコーダに送られうる。ヒュージョンの機会を逸する例は、ＣＭＰ／ＴＥＳＴ及びＪＣＣが図らずも記憶バウンダリ（例えば、１６バイトバウンダリ）にわたって起こり、ＣＭＰ／ＴＥＳＴが１サイクルにおいてＩＱに書き込まれ、ＪＣＣが次のサイクルにおいてＩＱに書き込まれる場合である。この場合に、失速状態（stalling condition）が存在しないならば、ＪＣＣは、ＣＭＰ／ＴＥＳＴがＩＱから読み出されるのと同時に又はその後にＩＱに書き込まれるので、ヒュージョンの機会は失われ、ＩＱの多数の不必要な読出が引き起こされ、命令スループットが低下するとともに、電力消費は増大する。

本発明の少なくとも１つの実施形態が使用されるマイクロプロセッサのブロック図を表す。本発明の少なくとも１つの実施形態が使用されるバス共有型コンピュータシステムのブロック図を表す。本発明の少なくとも１つの実施形態が使用されるポイント・ツー・ポイント相互接続型コンピュータシステムのブロック図を表す。本発明の少なくとも１つの実施形態を実施するために使用される状態機械のブロック図を表す。本発明の少なくとも１つの実施形態を実行するために使用される動作のフロー図である。少なくとも１つの実施形態で実行される動作のフロー図である。

本発明の実施形態について、限定ではなく、一例として、添付の図面の各図を参照して説明する。図中、同じ参照符号は同じ要素を表している。

本発明の実施形態は、プロセッサにおける命令スループットを改善し、及び／又は、プロセッサの電力消費を削減するために、使用されてよい。一実施形態において、さもなければ命令ヒュージョンの機会を逸する可能性があるものが見つけられ、結果として、命令ヒュージョンが起こってよい。一実施形態において、逸する可能性がある命令ヒュージョンの機会は、命令キュー（ＩＱ）からの最後の命令の読出又はＩＱから読み出される最後の命令の発行を閾数のサイクルだけデコード相まで遅らせることによって見つけられ、それにより、後続のヒュージ可能な命令は全てフェチされてＩＱに格納され（又は、必ずしもＩＱに格納される必要はなく、少なくとも識別され）、次いで、前記最後のヒュージ可能な命令とヒュージされる。一実施形態において、閾数のサイクルだけ第１のヒュージ可能な命令の読出又は発行を遅延させることは、そのようにすることが、２つの別なふうにヒュージ可能な命令が単一の命令としてよりむしろ別々にデコードされて処理されることを回避するので、プロセッサ性能を改善することができる。

待機サイクルの閾数の選択は、特定の実施形態が使用されるマイクロアーキテクチャに依存してよい。例えば、一実施形態において、サイクルの閾数は２であってよく、一方、他の実施形態において、サイクルの閾数は２よりも多くても又は少なくてもよい。一実施形態において、待機サイクルの閾数は、別の命令としてヒュージ可能な命令を処理することに対して後続のヒュージ可能な命令を待つことにおいて全体的なレイテンシ／性能上の利点を保ちながら、後続のヒュージ可能な命令がＩＱに格納されるのを待つための最大の時間量を提供する。他の実施形態において、電力がより重要である場合に、例えば、待機サイクルの閾数は、たとえ待機サイクルの数が（一時的ではあるが）命令スループットの低下を引き起こすとしても、余分の電力が２つのヒュージ可能な命令を別々に処理するために使用されないことを確かにするために、より大きくてよい。

図１は、本発明の少なくとも１つの実施形態が使用されてよいマイクロプロセッサを表す。具体的に、図１は、１又はそれ以上のプロセッサコア１０５及び１１０を有するマイクロプロセッサ１００を表し、各プロセッサコアは、夫々自身に関連付けられた局所キャッシュ１０７及び１１３を有する。また、図１には、局所キャッシュ１０７及び１１３の夫々に格納されている情報の少なくとも一部のバージョンを記憶することができる共有キャッシュメモリ１１５が表されている。幾つかの実施形態において、マイクロプロセッサ１００は、図１に図示されていない他のロジック、例えば、集積メモリコントローラ、集積グラフィックコントローラ、及びＩ／Ｏ制御等のコンピュータ内の他の機能を実行する他のロジックを有してよい。一実施形態において、マルチプロセッサシステムにおける各マイクロプロセッサ又はマルチコアプロセッサにおける各プロセッサコアは、少なくとも１つの実施形態に従って、割込通信技術を可能にするロジック１１９を有してよく、又は別なふうに該ロジック１１９と関連付けられてよい。ロジックは、幾つかの先行技術実施よりも効率的な命令ヒュージョンを可能にする回路、ソフトウェア又はそれら両方を有してよい。

一実施形態において、ロジック１１９は、命令ヒュージョンの機会を逸する可能性を減らすロジックを有してよい。一実施形態において、ロジック１１９は、ＩＱ又は他のフェッチされる命令記憶構造体において記憶されている後続の命令がない場合に、ＩＱからの第１の命令（例えば、ＣＭＰ）の読出を遅延させる。一実施形態において、ロジック１１９は、ＩＱを読み出すこと、又は第１のヒュージ可能な命令をデコーダ若しくは他の処理ロジックへ発行する前の閾数のサイクル（例えば、２サイクル）の間に第１のヒュージ可能な命令の読出又は発行を引き起こし、それにより、（例えば、対象である２つの命令が、異なる記憶バウンダリにおけるメモリ又はキャッシュに格納されているために）ＩＱに未だ記憶されていない、第１の命令とヒュージ可能な第２のヒュージ可能な命令が存在する場合に、これら２つのヒュージ可能な命令をヒュージする機会は失われない。幾つかの実施形態において、閾値は固定であってよく、一方、他の実施形態において、閾値は可変であってよく、ユーザによって又はユーザに依存しないアルゴリズムに従って変更可能である。一実施形態において、第１のヒュージ可能な命令はＣＭＰ命令であり、第２のヒュージ可能な命令はＪＣＣ命令である。他の実施形態において、第１の命令及び第２の命令の一方又は両方はＣＭＰ又はＪＣＣ命令ではなく、如何なるヒュージ可能な命令であってもよい。更に、本発明の実施形態は、２よりも多い命令をヒュージすることに適用されてよい。

図２は、例えば、本発明の実施形態が使用されてよいフロントサイドバス（ＦＳＢ）型コンピュータシステムを表す。いずれのプロセッサ２０１、２０５、２１０又は２１５も、プロセッサコア２２３、２２７、２３３、２３７、２４３、２４７、２５３、２５７の１つの中の又は別なふうに該１つと関連付けられているいずれかの局所レベル１（Ｌ１）キャッシュメモリ２２０、２２５、２３０、２３５、２４０、２４５、２５０、２５５の情報にアクセスしてよい。更に、いずれのプロセッサ２０１、２０５、２１０又は２１５も、共有レベル２（Ｌ２）キャッシュ２０３、２０７、２１３、２１７のいずれか１つの情報に、又はチップセット２６５を介してシステムメモリ２６０の情報にアクセスしてよい。図２におけるプロセッサの１つ又はそれ以上は、少なくとも１つの実施形態に従って、命令ヒュージョンの効率改善を可能にするロジック２１９を有し、又は別なふうに該ロジック２１９と関連付けられてよい。

図２に表されているＦＳＢ型コンピュータシステムに加えて、他のシステム構成が、ポイント・ツー・ポイント（Ｐ２Ｐ）相互接続型システム及びリング相互接続型システムを含め、本発明の種々の実施形態とともに使用されてよい。図３のＰ２Ｐシステムは、例えば、複数のプロセッサを有してよい。それらの中の２つのプロセッサ３７０及び３８０のみが例として示されている。プロセッサ３７０及び３８０は、夫々、メモリ３２、３４と接続する局所メモリコントローラハブ（ＭＣＨ）３７２、３８２を有してよい。プロセッサ３７０及び３８０は、ポイント・ツー・ポイント（ＰｔＰ）インターフェース回路３７８、３８８を用いてＰｔＰインターフェース３５０を介してデータを交換してよい。プロセッサ３７０及び３８０は、夫々、ＰｔＰインターフェース回路３７６、３９４、３８６、３９８を用いて個別のＰｔＰインターフェース３５２、３５４を介してチップセット３９０とデータを交換してよい。チップセット３９０は、更に、高性能グラフィックスインターフェース３３９を介して高性能グラフィックス回路３３８とデータを交換してよい。本発明の実施形態は、任意数のプロセッシングコアを有する何らかのプロセッサ内に、又は図３のＰｔＰバスエージェントの夫々の中に、配置されてよい。一実施形態において、いずれのプロセッサコアも、局所キャッシュメモリ（図示せず。）を有し、又は別なふうに該局所キャッシュメモリと関連付けられてよい。更に、共有キャッシュ（図示せず。）が、いずれか一方のプロセッサ内に含まれ、Ｐ２Ｐ相互接続を介してそれらのプロセッサと接続されてよく、それにより、一方又は両方のプロセッサの局所キャッシュ情報は、プロセッサが低電力モードに入る場合に、共有キャッシュに格納されてよい。図３におけるプロセッサ又はコアの１つ又はそれ以上は、少なくとも１つの実施形態に従って、命令ヒュージョンの効率改善を可能にするロジック３１９を有し、又は別なふうに該ロジック３１９と関連付けられてよい。

少なくとも１つの実施形態において、第２のヒュージ可能な命令は、何らかの中間動作、例えば、（第１及び第２のヒュージ可能な命令の間に起こる）ＩＱクリア動作が起こる前に、ＩＱに格納されないことがあり、このとき、２つの別なふうにヒュージ可能な命令をヒュージする機会が失われる。キャッシュ（又はバッファ）が、プロセッサによる実行のためにスケジューリングされるべき関連するデコードされた命令シーケンス又はｕｏｐ（例えば、デコードされたストリームバッファ（“ＤＳＢ”）（decoded stream buffer）、トレースキャッシュ（“ＴＣ”）（trace cache））を（それらの命令がＩＱから読み出されてデコードされた後に）記憶するところの一実施形態において、第１のヒュージ可能なｕｏｐ（例えば、ＣＭＰ）は、同じアドレス可能な範囲（例えば、同じキャッシュウェイ）内のヒュージ可能な第２のｕｏｐ（例えば、ＪＣＣ）を有さないキャッシュに格納されることがある。これは、例えば、ＪＣＣが（キャッシュミスのために）キャッシュラインを横断し、又は（交換索引バッファミスのために）ベージ・バウンダリを横断している場合に、起こりうる。その場合に、キャッシュは、ＪＣＣなしでＣＭＰを格納してよい。その後、ＣＭＰが格納された後、しかし、ＪＣＣがキャッシュに格納される前に、プロセッサコア・パイプラインが（例えば、“クリア”信号がアサートされたために）クリアされる場合は、キャッシュは、ＪＣＣなしでいずれかの方法においてＣＭＰのみを格納する。

ＣＭＰを格納するキャッシュラインのその後の検索において、キャッシュは、欠けているＪＣＣを、失われたアクセスとして解釈してよく、ＪＣＣは、次のキャッシュ充填動作のために付加ポイントしてマークされてよい。しかし、この付加ポイントは、ＣＭＰ＋ＪＣＣがＩＱからヒュージされたものとして読み出されるので、見つけられないことがある。従って、要求されるＪＣＣは、ＩＱに由来する充填されるべきいずれのｕｏｐとも一致せず、従って、キャッシュは、欠けているＪＣＣを充填することができず、ヒュージされたＣＭＰ＋ＪＣＣが期待されるラインにおいて継続的に失敗する。更に、目下の充填要求キュー（ＰＦＲＱ）（pending fill request queue）がｕｏｐキャッシュ充填要求を格納するために使用されるところの一実施形態において、特定のヒュージされた命令の充填のためにリザーブされていたエントリは（期待されるヒュージされた命令が決して起こらないために）解放せず、次のクリア動作まで無駄なままである。一実施形態において、ＰＦＲＱエントリロックは、欠けているヒュージされた命令のエントリがアクセスされるたびに起こってよく、従って、同じ場所へのその後のあらゆる充填を妨げうる。

ＰＦＲＱエントリの誤った又は好ましくないロックを防ぐために、状態機械（state machine）は、一実施形態において、ＩＱから読み出されるｕｏｐをモニタして、対応するＰＦＲＱエントリを有する領域（例えば、充填のためにマークされた領域）が、例えば、充填開始点が検出されることなくエントリの最後のｕｏｐに達したために完全に失われた場合を検出するよう使用されてよい。一実施形態において、状態機械は、この条件が満たされる場合にＰＦＲＱエントリを解放してよい。他の実施形態において、好ましくないＰＦＲＱエントリのロックは、ヒュージ可能な命令が両方とも存在しない場合にＩＱから読み出されるヒュージ可能な命令をキャッシュ内で生成しないことによって、回避されてよい。例えば、ＣＭＰの後に非ＪＣＣ命令が続く場合に、ヒュージされた命令エントリがキャッシュにおいて生成され得るが、ＣＭＰが（例えば、閾待機時間が満了した後に）単独でＩＱから読み出される場合にのみ、キャッシュに充填されないヒュージされた命令エントリである。他の実施形態において、状態機械がスキップされた充填領域を検出した回数がカウントされ、キャッシュフラッシュ又は無効動作が、充填領域がスキップされた閾カウント数の後に実行されてよい。次いで、充填領域はキャッシュから除去されて、ヒュージされた命令が再充填されてよい。

図４は、一実施形態に従う状態機械を表し、状態機械は、ＩＱにおける失われたヒュージ可能な命令による好ましからざるＰＦＲＱエントリロック状態を回避するために使用されてよい。ＩＱにおける命令が充填のためにマークされた領域にない状態４０１において、ＩＱが充填領域にマッピングされる命令（キャッシュハッシングに従う充填領域からの命令）をまさに処理しようとしていることを示す「充填領域開始」信号は、しかし、ＰＦＲＱにセーブされている線形命令ポインタ（“リップ”（lip））から始まらない（４０５）。これは、状態機械を状態４１０に移動させうる。ＩＱにおける（直ぐにデコードされる）次の命令が充填領域を終わらせる（例えば、キャッシュによってハッシュされるラインを終わらせる、又は成立分岐である）場合、状態機械は、対応するＰＦＲＱエントリの割当解除（deallocation）４１５を引き起こし、状態機械は状態４０１に戻る。しかし、充填ポインタが、状態４０１又は状態４１０のいずれであろうと、充填領域リップ４３０に等しい場合、状態機械は、アクセスが充填領域内且つ充填開始点後にある状態４２０に入る。状態４２０から、充填領域インジケーションにおける最後のｕｏｐは、対応するＰＦＲＱエントリを解除することなく、状態機械を状態４０１に戻す（４２５）。図４の状態機械は、ハードウェアロジック、ソフトウェア、又はそれらの何らかの組合せにおいて実施されてよい。他の実施形態において、他の状態機械又はロジックが使用されてよい。

図５は、本発明の少なくとも１つの実施形態とともに使用されてよい動作のフロー図を表す。動作５０１で、ＩＱにおける目下アクセスされている命令がいずれかの後続の命令とヒュージ可能であるかどうかが決定される。ヒュージ可能でない場合は、動作５０５で、次の命令がＩＱからアクセスされ、遅延カウントがリセットされる。他方、ヒュージ可能である場合は、動作５１０で、遅延カウンタはインクリメントされ、動作５１５で、遅延カウント閾値に達したかどうかが決定される。遅延カウント閾値に達していない場合は、動作５２０で、目下アクセスされている命令の命令ヒュージョンが実行される。遅延カウンタ閾値に達した場合は、動作５０５で、次の命令がＩＱからアクセスされ、遅延カウントがリセットされる。他の実施形態において、他の動作が、命令ヒュージョンの効率を改善するために使用されてよい。

図６は、少なくとも１つの実施形態とともに実行されてよい動作のフロー図を表す。多数のデコーダ回路を有するプロセッサにおいて一実施形態を実行するために、第１のヒュージ可能な命令が、ヒュージされた命令をデコードすることができる特定のデコーダ回路においてデコードされるべきことを確かにすることが有用である。図６において、動作６０１で、特定の命令がヒュージされた命令の組の中の第１の命令であってよいかどうかが決定される。第１の命令でない場合は、動作６０５で、ヒュージされた命令が発行される。他方、第１の命令である場合は、動作６１０で、ＩＱにおいて第１のヒュージ可能な命令の後に有効な命令が続くかどうかが決定される。有効な命令が後に続く場合は、動作６１０で、ヒュージされた命令が発行される。他方、有効な命令が後に続かない場合は、動作６１５で、第１のヒュージ可能な命令は、ヒュージされた命令をサポート可能なデコーダに発せられるべきかどうかが決定される。一実施形態において、デコーダ−０は、ヒュージされた命令をデコードすることができる。第１のヒュージ可能な命令がデコーダ−０に発せられなかった場合は、動作６２０で、第１のヒュージ可能な命令は、それがデコーダ−０に対応するまで、異なるデコーダへ移動又は削除される。動作６２５で、カウンタは初期値Ｎに設定され、動作６３０で、命令の後に有効な命令が続き、又はカウンタがゼロである場合は、ヒュージされた命令は、動作６３５で発せられる。さもなければ、動作６４０で、カウンタはデクリメントされ、無効な命令は削除される。他の実施形態において、カウンタは、最終値へとインクリメントしてよい。他の実施形態において、削除動作に加えて、他の動作は無効な命令をクリアしてよい。

少なくとも１つの実施形態の１又はそれ以上の側面は、機械によって読み出される場合に該機械にここに記載される技術を実行するようロジックを組み立てさせる、プロセッサ内の種々のロジックを表す機械読出可能な媒体に記憶されている代表データによって実施されてよい。かかる表現は、「ＩＰコア」として知られており、有形な機械読出可能な媒体（テープ）に記憶され、実際にロジック又はプロセッサを作る製造機械にロードするよう種々の顧客又は製造施設に供給されてよい。

このように、マイクロアーキテクチャにおけるメモリ領域アクセスを対象とする方法及び装置について記載してきた。当然、上記記載は例示であって限定ではない。多数の他の実施形態は、上記記載を読み理解することで当業者には明らかである。従って、本発明の適用範囲は、添付の特許請求の範囲が権利を有する同等な包括的範囲とともに、特許請求の範囲を参照して決定されるべきである。

Claims

命令キューと、
第１のヒュージ可能な命令の処理を閾時間だけ遅延させて、前記第１のヒュージ可能な命令とヒュージ可能な第２のヒュージ可能な命令が、該第２のヒュージ可能な命令が前記閾時間内に前記命令キューに格納される場合に、前記第１のヒュージ可能な命令とヒュージされ得るようにするロジックと
を有する装置。
前記第１のヒュージ可能な命令及び前記第２のヒュージ可能な命令は、前記命令キューに格納される前にフェッチ・バウンダリにわたって格納される、
請求項１に記載の装置。
前記ロジックは、前記第１のヒュージ可能な命令が前記命令キューに格納されている最後の命令である場合にのみ、前記第１のヒュージ可能な命令の処理を遅延させる、
請求項１に記載の装置。
前記ロジックは、前記閾時間に対応する閾数のサイクルに達するまで、前記第１のヒュージ可能な命令が前記命令キューに格納され、且つ、該命令キューにおける最後の命令であるサイクルごとに１つインクリメントされるカウンタを有する、
請求項１に記載の装置。
中間命令が前記命令キューに格納されている前記第１のヒュージ可能な命令と前記命令キューに格納されている前記第２のヒュージ可能な命令との間で実行される場合に、ＦＢＲＱが前記第１のヒュージ可能な命令及び前記第２のヒュージ可能な命令に対応するエントリをロックすることを防ぐ状態機械を更に有する、
請求項１に記載の装置。
前記中間命令は、前記命令キューをクリアすることである、
請求項５に記載の装置。
命令キュー内で目下アクセスされている命令が、前記命令キューに格納されるいずれかの後続の命令とヒュージ可能であるかどうかを決定するステップと、
前記目下アクセスされている命令が前記命令キューに格納される後続の命令とヒュージ可能でない場合に、前記命令キューの次の命令にアクセスし、遅延カウンタをリセットするステップと、
前記目下アクセスされている命令がヒュージ可能であり、且つ、前記命令キューにおける最後の命令である場合に、前記遅延カウンタをインクリメントするステップと
を有する方法。
前記目下アクセスされている命令及び前記後続の命令がヒュージ可能であり、且つ、前記遅延カウンタが閾値に達していない場合に、前記目下アクセスされている命令を前記後続の命令とヒュージするステップを更に有する、
請求項７に記載の方法。
前記目下アクセスされている命令及び前記後続の命令がヒュージ可能でない場合に、前記目下アクセスされている命令を前記後続の命令から切り離して処理するステップを更に有する、
請求項８に記載の方法。
前記遅延カウンタが前記閾値に達した場合に、前記目下アクセスされている命令を前記後続の命令から切り離して処理するステップを更に有する、
請求項８に記載の方法。
前記目下アクセスされている命令及び前記後続の命令がヒュージ可能であり、且つ、中間イベントが、前記後続の命令がキャッシュに格納される前であって、前記目下アクセスされている命令が前記キャッシュに格納された後に行われる場合に、ＦＢＲＱが前記目下アクセスされている命令及び前記後続の命令に対応するエントリをロックすることを防ぐステップを更に有する、
請求項７に記載の方法。
第１のヒュージ可能な命令及び第２のヒュージ可能な命令を夫々第１のアクセス・バウンダリ及び第２のアクセス・バウンダリに格納する記憶部と、
前記第１のヒュージ可能な命令及び前記第２のヒュージ可能な命令を命令キューにフェッチするフェッチロジックを有するプロセッサと、
前記命令キューからの前記第１のヒュージ可能な命令の読出を閾数のサイクル分遅延させる遅延ロジックと
前記第２のヒュージ可能な命令が、前記第１のヒュージ可能な命令の後であって、前記閾数のサイクルに達する前に前記命令キューに格納される場合に、前記第１のヒュージ可能な命令及び前記第２のヒュージ可能な命令をヒュージする命令ヒュージョンロジックと
を有するシステム。
前記第１のヒュージ可能な命令が前記命令キューにおける唯一の命令である場合にインクリメントし、前記閾数のサイクルに達したときにカウントを停止するカウンタを更に有する、
請求項１２に記載のシステム。
前記カウンタは、前記閾数のサイクルに達する前に前記第２のヒュージ可能な命令が前記命令キューに格納される場合にリセットされる、
請求項１３に記載のシステム。
前記カウンタは、前記閾数のサイクルに達する前に前記第２のヒュージ可能な命令が前記命令キューに格納される場合にリセットされる、
請求項１３に記載のシステム。
前記記憶部は命令キャッシュを有し、前記第１のアクセス・バウンダリ及び前記第２のアクセス・バウンダリは夫々サイズが６４バイトである、
請求項１２に記載のシステム。
前記記憶部は動的ランダムアクセスメモリを有し、前記第１のアクセス・バウンダリ及び前記第２のアクセス・バウンダリは夫々サイズが４０９６バイトである、
請求項１２に記載のシステム。
前記第１のヒュージ可能な命令はＣＭＰ／ＴＥＳＴ命令であり、前記第２のヒュージ可能な命令はＪＣＣ命令である、
請求項１２に記載のシステム。
前記サイクルの閾数は２である、
請求項１８に記載のシステム。
中間イベントが、キャッシュに格納されている前記第１のヒュージ可能な命令と前記キャッシュに格納されている前記第２のヒュージ可能な命令との間で実行される場合に、ＦＢＲＱが前記第１のヒュージ可能な命令及び前記第２のヒュージ可能な命令に対応するエントリをロックするのを防ぐ状態機械を更に有する、
請求項１２に記載のシステム。