JP2002091761A

JP2002091761A - 命令履歴キャッシングを使用して推測的に命令を実行する回路、製品、およびそのための方法

Info

Publication number: JP2002091761A
Application number: JP2001240748A
Authority: JP
Inventors: Arnold Luick David; デーヴィッド・アーノルド・ルイク
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1998-09-01
Filing date: 2001-08-08
Publication date: 2002-03-29
Anticipated expiration: 2019-08-24
Also published as: JP3412575B2; US6230260B1; JP2000089953A; JP3659340B2

Abstract

(57)【要約】【課題】プロセッサによって実行される命令に関連す
る履歴データに基づいてこのような命令を推測的に取り
出す回路、製品、およびそのための方法を提供する。【解決手段】具体的には、所与の命令に関する履歴デ
ータが、この所与の命令の直後に実行された他の命令を
識別する。いくつかの実施態様では、メモリに記憶され
ている複数の命令の予測される次の命令を表す履歴デー
タを記憶するために命令履歴キャッシュが使用され、予
測される次の命令と実際の次の命令が並列に検索できる
ように、この命令履歴キャッシュは二次命令キャッシュ
と並行して操作される。予測される次の命令は、命令履
歴キャッシュから検索されるときに推測的に実行され
る。しかし、予測される次の命令と実際の次の命令が一
致しない場合、このような命令の実行は終了する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、全般的には集積回
路デバイスのアーキテクチャおよび設計に関し、詳細に
はプロセッサ集積回路デバイスにおける分岐予測に関す
る。

【０００２】

【従来の技術】コンピュータなどのデータ処理システム
のユーザは、ますます複雑にかつ困難になるタスクを処
理するために、引き続きこのようなシステムにより高い
性能を要求している。このようなシステムを操作するプ
ロセッサのより高い性能は、クロック速度を高め、それ
によって個々の命令をより高速に処理することによって
得ることができる。しかし、複数の命令を互いに並列に
実行することによって比較的高い性能利得が達成されて
いる。

【０００３】「パイプライン処理」と呼ばれる並列処理
方法があり、この方法では、命令は、それを並列に処理
する必要のある様々な動作を実行するプロセッサ内の実
行ユニット用のパイプラインに供給される。たとえば、
典型的な命令を処理する場合、パイプラインは、メモリ
から命令を取り出し、命令を実行し、命令の結果を再び
メモリに書き込む別々の段を含むことができる。したが
って、命令シーケンスがパイプラインに順次供給される
場合、第１の命令の結果がパイプラインの第３段によっ
て再びメモリに書き込まれるときに、次の命令が第２段
によって実行され、しかも次の命令が第１段によって取
り出される。個々の各命令を処理するのに数クロック・
サイクルかかることがあるが、他の命令も同時に処理さ
れるので、プロセッサの全体的なスループットはずっと
高くなる。

【０００４】プロセッサ内で複数の実行ユニットを使用
して複数の命令を並列に実行することを試みることによ
って、より高度な並列処理を実行することもできる。複
数の実行ユニットを含むプロセッサをしばしば「スーパ
ースカラ」プロセッサと呼び、このようなプロセッサは
スケジューリング回路を含む。スケジューリング回路
は、できるだけ多くの命令が同時に処理されるように命
令を様々な実行ユニットに効率的にディスパッチするこ
とを試みる。しかし、１つの命令を、別の命令が完了す
るまで処理できないことが多いので、多くの場合、比較
的複雑な意思決定回路が必要とされる。たとえば、第１
の命令がメモリからの値をレジスタにロードし、第２の
命令がレジスタの内容に一定の数を加える場合、第２の
命令は通常、第１の命令の実行が完了するまで実行でき
ない。

【０００５】比較的複雑なスケジューリング回路を使用
すると、集積回路デバイス上の顕著な量の回路が占有さ
れ、プロセッサの全体的な実行速度が低下する可能性が
ある。このため、ＶＬＩＷプロセッサに対して顕著な開
発作業が実施されている。このようなプロセッサでは、
どの命令が並列に処理できるかに関する決定は、実行中
ではなくプログラムの作成時に下される。ＶＬＩＷプロ
セッサは通常、複数の実行ユニットを含み、各ＶＬＩＷ
命令は、パーセルと呼ばれる複数のプリミティブ命令を
含み、パーセルは互いに同じ時間に実行できることが知
られている。したがって、ＶＬＩＷ内の各プリミティブ
命令は、スケジューリングに関連する余分なオーバヘッ
ドなしに１つの実行ユニットに直接ディスパッチするこ
とができる。ＶＬＩＷプロセッサは、コンピュータ・ユ
ーザによって書かれたコンピュータ・プログラム用の適
切なＶＬＩＷ命令を生成するために、コンパイラと呼ば
れる高度なコンピュータ・プログラムを利用する。ＶＬ
ＩＷプロセッサは通常、命令の実行のスケジューリング
に関連するオーバヘッドがない場合、スーパースカラ・
プロセッサよりも簡単で効率的である。

【０００６】プロセッサの種類にかかわらず、コンピュ
ータの性能に関する他の問題は、プロセッサとメモリの
間の情報の転送に関する問題である。特に、処理速度
は、メイン・メモリの速度よりもずっと早いペースで高
められている。そのため、多くのこのようなシステムで
は、比較的費用効果の高い形で性能を向上させるために
しばしばキャッシュ・メモリまたはキャッシュが使用さ
れる。

【０００７】キャッシュは通常、比較的高速のメモリで
あり、１つまたは複数のプロセッサと、特に揮発性メモ
リ装置または非揮発性メモリ装置、大容量記憶装置、お
よび／または外部ネットワーク記憶装置に実装されるよ
うな比較的低速のメモリとの間に結合される。キャッシ
ュは、プロセッサによる選択されたメモリ・アドレスへ
のアクセス要求がキャッシュによって処理されるよう
に、選択されたメモリ・アドレスに記憶されている情報
のコピーを維持することによって、アクセスの速度を高
める。キャッシュに記憶されていないメモリ・アドレス
に関するアクセス要求を受け取ると必ず、キャッシュは
通常、その情報をメモリから検索し、プロセッサへ転送
する。さらに、キャッシュが満杯である場合、通常、最
初に使用されたメモリ・アドレスに関する情報が破棄さ
れるか、あるいはメモリに戻され、最後にアクセスされ
たメモリ・アドレスに関する情報のための空間が設けら
れる。

【０００８】キャッシュの利益が最大になるのは、「キ
ャッシュ・ヒット」と呼ばれるキャッシュされているメ
モリ・アドレスへのアクセス要求の数が、「キャッシュ
・ミス」と呼ばれるキャッシュされていないメモリ・ア
ドレスへのアクセス要求の数に対して最大であるときで
ある。通常キャッシュ・ミスの結果として起こる追加の
オーバヘッドにもかかわらず、キャッシュ・ヒットの割
合が高いかぎり、システムの全体的なアクセス速度は高
くなる。

【０００９】しかし、オペレーティング・システム・コ
ードなど、多くの商用プログラム・コードを用いた場
合、コードが再使用されることがなく、かつ命令に指定
された条件または試験の結果に基づいてプロセッサに様
々な命令経路を選択させるために使用される多数の分岐
命令が存在するため、キャッシュ内の命令のミス率は比
較的高いことが多いことが判明している。また、多くの
オペレーティング・システム・コードはエラーおよび例
外の処理に使用され、したがってほとんど実行されず、
したがって、キャッシュはしばしば、実行されることの
ない顕著な数の命令を一時的に記憶する。

【００１０】さらに、ＶＬＩＷプロセッサの場合、コン
ピュータ・プログラムをＶＬＩＷ互換フォーマットにコ
ンパイルすると通常、プログラム・コードが２倍ないし
４倍に拡大するので、多くの場合、ミス率がずっと高く
なることが判明している。また、ＶＬＩＷプログラム・
コード中の分岐命令の相対頻度はずっと高く、通常、命
令３つごとに分岐が２つある。これに対して、スーパー
スカラ・プロセッサを用いた場合、分岐は命令５個ない
し６個ごとに１つである。

【００１１】キャッシュのヒット率を高める１つの方法
は、キャッシュのサイズを大きくすることである。しか
し、キャッシュ・メモリは、多くの場合比較的高価であ
り、特に、キャッシュを同じ集積回路デバイス上のプロ
セッサと一体化する場合、設計上の制約によって制限さ
れることが多い。プロセッサと一体化された内部キャッ
シュは通常、独立の回路に実装される外部キャッシュよ
りも高速である。一方、設計およびコスト上の制約のた
めに、内部キャッシュは通常、外部キャッシュよりもサ
イズがずっと小さい。

【００１２】１つの費用効果の高い代替策は、比較的小
形であるがより高速な一次キャッシュが比較的大形であ
るがより低速な二次キャッシュと連鎖するように、様々
な速度の複数のキャッシュを連鎖させることである。命
令およびデータを別々のデータ・キャッシュと命令キャ
ッシュに分離することもできる。たとえば、命令につい
ては、いくつかのプロセッサは、比較的小形の内部レベ
ル１（Ｌ１）命令キャッシュを実装し、Ｌ１命令キャッ
シュとメイン・メモリ記憶域との間に追加の外部レベル
２（Ｌ２）命令キャッシュが結合される。通常、Ｌ１命
令キャッシュのアクセス時間は１クロック・サイクルで
あり、したがって、プロセッサによって命令を処理する
のとほぼ同じ速度でプロセッサにデータを供給すること
ができる。一方、外部Ｌ２命令キャッシュのアクセス時
間は多くの場合、少なくとも５クロック・サイクルであ
り、したがって、プロセッサがＬ２命令キャッシュへの
メモリ・アクセスを大幅に利用する必要がある場合、プ
ロセッサはしばしば停止し、キャッシュによってデータ
が検索されるのを待ち、したがって、プロセッサの性能
が著しく低下する。

【００１３】メモリからの命令の検索に関連する遅延を
最小限に抑えるための試みとして、多くのプロセッサは
プリフェッチ回路を含む。プリフェッチ回路は、ただち
に実行する必要のあるのはどの命令かを「予測」し、次
いでプロセッサがこの命令を必要とする前にこの命令を
メモリから推測的に検索することを試みる。分岐命令は
命令をプリフェッチするうえで最大の障害になり、その
ため、プリフェッチ回路は通常、「分岐予測」と呼ばれ
る動作を実行し、分岐命令の後で特定の命令経路が選択
されるかどうかを推測的に判定することを試みる。

【００１４】１つの分岐予測方法は、すでに実行された
分岐命令によってある分岐が選択されたかどうかについ
ての履歴（ヒストリー）を維持する分岐履歴テーブルま
たは分岐履歴キャッシュを利用するものである。特に、
多くの場合、ある分岐命令が実行されるたびに同じ命令
経路が選択されることが判明している。次に特定の分岐
命令が実行されるときに同じ経路が選択されると予測す
ることによって、この予測は通常、成功する。

【００１５】従来型の分岐履歴テーブルは通常、特定の
分岐命令が最後に実行されたときにその命令に関する条
件が満たされたかどうかの表示を記憶する。しかし、従
来型の分岐履歴テーブルを用いた場合、テーブルにアク
セスして、ある分岐が選択されたかどうかを判定し、そ
の後で次の命令用のアドレスを生成し、次いで、生成さ
れたアドレスに記憶されている命令を取り出さなければ
ならないことが多い。生成されたアドレスにある命令が
一次キャッシュにはない場合、プロセッサは停止し、二
次キャッシュがフェッチ要求を処理するのを待つ。

【００１６】したがって、従来型の分岐履歴テーブル
は、分岐命令に関連するオーバヘッドを低減するが、多
くの場合、依然としてある程度のオーバヘッドが存在す
る。そのため、プロセッサ性能が悪影響を受ける。さら
に、ＶＬＩＷプログラム・コードを用いた場合、分岐命
令により頻繁に出会うので、プロセッサ性能に対する分
岐命令の悪影響はずっと大きくなる。

【００１７】

【発明が解決しようとする課題】したがって、本発明の
目的は、分岐命令に関連するオーバヘッドを最小限に抑
え、特にＶＬＩＷプロセッサやスーパースカラ・プロセ
ッサのプロセッサ性能を最大にする改良された分岐予測
方法を提供することである。

【００１８】

【課題を解決するための手段】本発明は、プロセッサに
よって実行される命令に関連する履歴データに基づいて
このような命令を推測的に取り出すデータ処理システ
ム、回路構成、集積回路デバイス、プログラム製品、お
よびそのような独自のプリフェッチ回路構成を利用する
方法を提供することによって、従来技術に関連するこれ
らおよびその他の問題に対処する。具体的には、所与の
命令に関する履歴データが、この所与の命令から１サイ
クルまたは複数サイクル後に実行された他の命令を識別
する。命令ストリームが多くの場合、同じ経路をたどる
傾向があるという認識に基づいて、過去の次の命令に関
する履歴情報が、推測的命令取出しのための信頼できる
予測値であることが判明している。

【００１９】本発明の一態様によれば、一次命令キャッ
シュおよび二次命令キャッシュを含むメモリに記憶され
ている複数の命令の予測される次の命令を表す履歴デー
タを記憶するために命令履歴キャッシュが使用される。
予測される次の命令と実際の次の命令がプリフェッチ回
路構成によって並列に検索できるように、この命令履歴
キャッシュはメモリ内の二次命令キャッシュと並行して
操作される。プリフェッチ回路構成はさらに、命令履歴
キャッシュから得た予測される次の命令を実行ユニット
に供給し、この命令が、実行ユニットによって第１の命
令が実行された後に実行されるように構成される。ま
た、実行ユニットと結合された予測検証回路構成は、予
測される次の命令と実際の次の命令が一致しない場合
に、実行ユニットによる予測される次の命令の実行を終
了するように構成される。

【００２０】特定の分岐が選択されたかどうかを示す従
来型の分岐予測キャッシュとは異なり、本発明による命
令履歴キャッシュは、分岐命令およびその他の命令の後
で実行された実際の命令の履歴を記憶する。そのため、
ある分岐が選択されたかどうかについての表示に基づい
てアドレスを算出し命令取出しを開始することに関連す
る呼出し時間が回避され、多くの場合、命令スループッ
トが著しく向上する。

【００２１】さらに、前述の構成を用いた場合、予測さ
れる次の命令が実際に、実行すべき正しい命令であるこ
とを検証する前に、この命令を推測的に取り出して実行
することができる。したがって、一次命令キャッシュで
は行うことのできない命令取出しの場合、この命令取出
しが単に二次命令キャッシュによって行われる場合と比
べて、命令を検索するのに必要な時間を短縮することが
できる。

【００２２】本発明の他の態様によれば、命令履歴キャ
ッシュは、予測される次の命令を表す履歴データを記憶
するためにも使用される。しかし、予測される次の命令
はそれぞれ、メモリ内の特定の命令が実行されてから少
なくとも２サイクル後に実行すべき予測される命令を表
す。少なくとも１つの実行ユニットは、メモリから得た
第１の命令の実行を開始し、その後、メモリから得た第
２の命令の実行を開始するように構成される。さらに、
プリフェッチ回路構成は、実行ユニットによって第１の
命令が実行されるのと並行して、命令履歴キャッシュか
ら得た第２の命令の予測される次の命令をプリフェッチ
するように構成される。

【００２３】言い換えれば、所与の命令に関連する履歴
データは、この命令の後で次に実行すべき命令を予測し
ない。履歴データは、所与の命令に対する将来の命令が
実行された後に次に実行すべき命令を予測する。言い換
えれば、所与の命令に関連する履歴データは、この所与
の命令から２サイクル以上後に実行すべき命令を予測す
る。多くの実施態様では、命令履歴キャッシュから命令
を推測的に検索すると、命令履歴キャッシュのアクセス
時間のために遅延が生じることが判明している。したが
って、予測される次の次の命令またはそれよりも先の予
測される他の命令を推測的に検索することによって、こ
のような命令の検索に関連する呼出し時間をさらに短縮
することができる。

【００２４】本発明の他の態様によれば、次の命令を予
測する際に使用される履歴データは、メモリに記憶され
ている命令内に埋め込むことができる。この場合、実行
ユニットとプリフェッチ回路構成は互いに並行して動作
することができ、実行ユニットが、メモリに記憶されて
いる命令を実行し、同時にプリフェッチ回路構成が、こ
のような命令の履歴データによって識別される予測され
る次の命令のメモリからの検索を開始することができ
る。

【００２５】履歴データを命令内に埋め込むことによっ
て、多くの場合、独立の命令履歴キャッシュの必要がな
くなり、それによって回路構成の複雑さおよび構成要素
の数が低減される。さらに、多くの実施態様、たとえば
ＶＬＩＷプロセッサなどでは、履歴データが追加された
場合に、命令自体に必要なメモリ記憶域を超えた追加の
メモリ記憶域が必要とされることのないように、履歴デ
ータをＶＬＩＷ命令の未使用部分に埋め込めることが多
い。

【００２６】

【発明の実施の形態】本明細書に記載された本発明の様
々な実施形態は一般に、命令を推測的に取り出し実行す
るために使用される命令履歴データをキャッシュするこ
とによって動作する。通常、命令を推測的に取り出し、
そのような命令を１つまたは複数の実行ユニットへ転送
し、それらの実行ユニットによって実行させるために、
プリフェッチ回路構成が使用される。さらに、通常、履
歴データに基づいて予測を検証し、必要に応じて、誤っ
て予測された命令の実行を終了するために、予測検証回
路構成が使用される。

【００２７】いくつかの実施態様では、履歴データが独
立の命令履歴キャッシュにキャッシュされる。命令履歴
キャッシュは内部キャッシュでも、あるいは外部キャッ
シュでもよく、このキャッシュは予測される次の命令の
アドレスではなく、このような命令自体を記憶し、この
ような命令の検索に関連する呼出し時間を短縮するため
に使用される。

【００２８】他の実施態様では、履歴データは、通常は
次の命令を識別するアドレス、または次の命令のアドレ
スを生成できるアドレス・インデックスの形で、命令自
体内に埋め込まれる。ＶＬＩＷプロセッサなどの場合、
この特徴によりしばしば、追加のメモリ記憶域要件なし
に命令の未使用部分に履歴データを記憶することが可能
になる。したがって、キャッシュ空間にコストがかかる
ことが多い場合、このような実施態様に関連する記憶域
に対する悪影響はない。

【００２９】さらに、以下でより明らかになるように、
所与の命令に関連する履歴データを使用して、この命令
を実行した直後に次に実行すべき次の命令を表すことが
できるが、多くの実施態様では、別の命令用の履歴デー
タを所与の命令と関連付け、この命令用の履歴データ
が、他の命令が実行された直後に実行すべき次の命令を
表すようにすると有益である。言い換えれば、ある命令
の直後に実行すべき次の命令に関する履歴データを、メ
モリ内でこの命令からずらすことができる。

【００３０】本発明は、ＶＬＩＷプロセッサ、および縮
小命令セット・コンピュータ（ＲＩＳＣ）プロセッサや
複雑命令セット・コンピュータ（ＣＩＳＣ）プロセッサ
などのスーパースカラ・プロセッサを含め、様々なプロ
セッサ・アーキテクチャと共に使用するのに適してい
る。以下の議論は、本発明とＶＬＩＷベースのアーキテ
クチャとの併用に焦点を当てているが、当業者には、本
明細書の内容を読めば、非ＶＬＩＷ環境での本発明の様
々な態様および特徴の実施態様が明らかになろう。

【００３１】本発明では、回路構成とは、全体的に１つ
の集積回路デバイスに実装されるか、あるいは１つまた
は複数の回路板を介して互いに電気的に結合された複数
の集積回路デバイスに実装されるかにかかわらず、導電
トレースまたはワイヤあるいはその両方を介して互いに
電気的に結合されたアナログまたはデジタルあるいはそ
の両方の電子構成要素の構成である。さらに、通常は、
ハードウェア定義プログラムと呼ばれ、デバイス上の回
路構成のレイアウトを定義する、１つまたは複数のコン
ピュータ・データ・ファイルを使用して、集積回路デバ
イスが設計され製造されることを認識されたい。これら
のプログラムは通常、設計ツールによって既知の方法で
生成され、その後製造時に、半導体ウェハに適用される
回路構成を画定するレイアウト・マスクを作製するため
に使用される。通常、これらのプログラムは、ＶＨＤ
Ｌ、verilog、ＥＤＩＦなどのハードウェア定義言語
（ＨＤＬ）を使用して定義済みのフォーマットで生成さ
れる。したがって、完全に機能する集積回路デバイスに
実装された回路構成に関して本発明を説明し、以下でも
説明するが、当業者には、本発明による回路構成を様々
な形態のプログラム製品として配給することができ、本
発明が、この配給を実際に実施するために使用される信
号保持媒体の特定の種類にかかわらず同様に適用される
ことが理解されよう。信号保持媒体の例には、特に揮発
性メモリ装置や非揮発性メモリ装置、フロッピィ・ディ
スク、ハード・ディスク・ドライブ、ＣＤ−ＲＯＭ、Ｄ
ＶＤなどの記録可能型媒体と、デジタル通信リンクやア
ナログ通信リンクなどの伝送型媒体が含まれるが、これ
らに限らない。

【００３２】例示的なデータ処理システム環境次に図面を参照すると、これらの図面で、同じ番号はい
くつかの図全体にわたって同じ部品を示す。図１は、本
発明による例示的なデータ処理システム１０を示す。一
般に、データ処理システム１０は、メモリ１４と結合さ
れた１つまたは複数のプロセッサ１２を含み、メモリ１
４は、プロセッサによって処理される命令およびデータ
を与える。メモリ１４は通常、メモリ階層を形成するよ
うにいくつかのレベルに区分される。たとえば、最大容
量のメモリは通常、入出力（Ｉ／Ｏ）サブシステム２０
を介してメイン・メモリまたは主記憶装置１８と結合さ
れた直接アクセス記憶装置（ＤＡＳＤ）１６などの大容
量記憶サブシステムによって代表される。主記憶装置１
８は通常、ダイナミック・ランダム・アクセス・メモリ
（ＤＲＡＭ）など比較的大きな揮発性メモリ・バンクで
ある。メモリ用の比較的大きなアドレス空間を設けるに
は、入出力サブシステム２０、たとえば様々なローカル
・エリア・ネットワークや、ワイド・エリア・ネットワ
ークや、その他の通信設備を介して他の外部記憶域形態
にアクセスすることができる。システム間相互接続２２
を介し、たとえば光ファイバ通信リンクまたはシリアル
通信リンクを介してデータ処理システム１０と追加の外
部情報を相互接続することができる。

【００３３】プロセッサ１２と主記憶装置１８の間に、
１つまたは複数のレベルのキャッシュ・メモリ、たとえ
ば、レベル３（Ｌ３）キャッシュ２４、レベル２（Ｌ
２）キャッシュ２６、およびレベル１（Ｌ１）キャッシ
ュ（この場合、データキャッシュ２８と命令キャッシュ
３０に区分される）が設けられる。図１に表わすよう
に、キャッシュ２８、３０と同様に、プロセッサ１２内
部の同じ集積回路デバイス上にキャッシュ階層の任意の
レベルを実装することができる。別法として、Ｌ２キャ
ッシュ２６、Ｌ３キャッシュ２４と同様に、キャッシュ
階層の任意のレベルをプロセッサ１２の外部に実装し、
別々の集積回路デバイス上に配設することができる。さ
らに、たとえばＬ３キャッシュ２４で表されるように、
任意の所与のキャッシュが複数のプロセッサのために働
くことができる。一般に、プロセッサから始まるメモリ
階層内の各レベルは通常、プロセッサから外された次の
レベルよりも記憶容量が小さいがアクセス時間は高速で
あることも理解されたい。したがって、頻繁に使用され
るデータをプロセッサのできるだけ近くに維持し、メモ
リ・システムの効率を最大にすることが望ましい。

【００３４】図１のプロセッサ１２は、様々な種類のプ
ロセッサに共通するいくつかの構成要素を含む一般的な
プロセッサ・アーキテクチャを表す。データは主として
いくつかのレジスタ・ファイル３２を介して処理され、
演算は、１つまたは複数の演算論理ユニット（ＡＬＵ）
３４によってレジスタ・ファイル上で実行される。浮動
小数点演算を１つまたは複数の浮動小数点演算ユニット
（ＦＰＵ）３６によって処理することもできる。一般
に、当技術分野でよく知られているように、ＡＬＵおよ
びＦＰＵ３６はそれぞれ、実行ユニットとみなすことが
できる。

【００３５】プロセッサ１２は、レジスタ・ファイル内
のデータを処理するために、復号論理３８および分岐ユ
ニット４０を使用して、Ｌ１命令キャッシュ（Ｉキャッ
シュ）３０に記憶されている様々な命令を処理する。復
号論理３８および分岐ユニット４０はそれぞれ、当技術
分野で一般的に理解されており、使用される特定のアー
キテクチャに応じて異なる。図の実施形態では、たとえ
ば、プロセッサ１２はＶＬＩＷプロセッサであり、各命
令は、プロセッサ内の複数の実行ユニットによって並列
に実行される複数のパーセルを含む。たとえば、特にス
ーパースカラＲＩＳＣアーキテクチャやスーパースカラ
ＣＩＳＣアーキテクチャなど、他のアーキテクチャをサ
ポートできることを理解されたい。この後者のアーキテ
クチャを用いた場合、様々な実行ユニットに適切な命令
を経路指定して最適な性能を得るためにＬ１Ｉキャッ
シュ３０と復号論理３８の間に追加の論理が必要になる
ことを理解されたい。当業者には他の修正形態および変
形形態が明らかであろう。

【００３６】命令履歴キャッシュ実施態様図１に示すように、本発明による方法で使用される履歴
データを記憶するために使用される内部命令履歴キャッ
シュまたは外部命令履歴キャッシュ（ＩＨＣ）４２とプ
ロセッサ１２を相互接続することもできる。ＩＨＣ４２
は特に、他のＶＬＩＷ命令の後で実行すべき複数のＶＬ
ＩＷ命令を記憶する。ＶＬＩＷ命令を推測的に検索する
場合に様々なキャッシュ・レベルへの追加のアクセスが
必要とされないように、ＩＨＣ４２は、このようなＶＬ
ＩＷ命令のアドレスではなくこのようなＶＬＩＷ命令自
体のコピーを記憶する。

【００３７】図の実施形態では、ＶＬＩＷ命令の長さ
は、１６個の３２ビット・パーセルを含む６４バイトで
ある。ＩＨＣ４２のキャッシュ・ライン長は１ＶＬＩＷ
命令、または６４バイトである。通常、ＩＨＣ４２は直
接マップされ、したがって、ディレクトリは不要にな
る。ＩＨＣは、プロセッサ１２内部に実装することがで
き、あるいは図１に最もよく示すように外部キャッシュ
でよい。

【００３８】図２は、プロセッサ１２とＬ２キャッシュ
２６と命令履歴キャッシュ４２との間の命令およびデー
タのフローを詳しく示す。この実施形態で、Ｌ２キャッ
シュ２６は、キャッシュ・ライン・サイズが１ＫＢまた
は１６ＶＬＩＷの外部３２ＭＢ４ウェイ・アソシエー
ティブ・キャッシュとして実装される。このため、Ｌ２
キャッシュ２６は、４４で識別されたディレクトリも含
む。命令およびデータは、プロセッサ１２とＬ２キャッ
シュ２６と命令履歴キャッシュ４２との間で６４バイト
幅バス４６を介して渡される。Ｌ２キャッシュ２６およ
びＬ２ディレクトリ４４にはアドレス線４７を介して４
４ビット実アドレスが供給される。この実施態様では、
Ｌ２キャッシュが実アドレスを介してアドレスされ、し
たがって、以下でより明らかになるように、プロセッサ
１２で仮想／有効アドレスを実アドレスに変換する必要
がある。Ｌ２キャッシュの外部性、キャッシュにアクセ
スするのに必要なアドレス変換、およびキャッシュのマ
ルチウェイ・セット・アソシアティビティのために、こ
の実施態様のＬ２キャッシュは５サイクル・アクセス時
間を有するものと仮定される。他のＬ２キャッシュは本
発明よりも短いか、あるいは長いアクセス時間を有する
ことができることを理解されたい。

【００３９】Ｌ２キャッシュ２６に供給されるアドレス
は、「分岐先」アドレスとも呼ばれ、現在実行されてい
るＶＬＩＷ命令から決定される実際の次の命令情報を表
わす。次の命令予測が正しいことを検証するには、、こ
のアドレス、あるいはより具体的にはこのアドレスに記
憶されている命令と、命令履歴キャッシュから推測的に
検索された命令が一致しなければならない。さらに、Ｌ
２ディレクトリ４４は、線４７から供給された実アドレ
スに応答して、特に、キャッシュ・ヒットが起こったか
どうかと、そうである場合に、４つのセットのうちのど
れに、要求されたキャッシュ・ラインが収納されている
かとを示す２４ビット・ディレクトリ・エントリを出力
する。

【００４０】命令履歴キャッシュ４２はＩＨＣアドレス
線４８によって駆動され、このアドレス線には、キャッ
シュにアドレスするために使用される１７ビット命令ア
ドレス・レジスタ（ＩＡＲ）インデックスが与えられ
る。この実施態様の命令履歴キャッシュ４２は８ＭＢ直
接マップ・キャッシュとして実装される。したがって、
通常、命令履歴キャッシュのアクセス時間をディレクト
リ・ベースのＬ２キャッシュと比べて短縮する、独立の
ディレクトリは必要とされない。この実施態様では、Ｉ
ＨＣ４２のアクセス時間は３サイクルと仮定され、それ
に対してＬ２キャッシュ２６のアクセス時間は５サイク
ルである。

【００４１】命令履歴キャッシュ４２に与えられるＩＨ
Ｃアドレスは、予測される次の命令を検索するために使
用される実行中の現在の命令のアドレスであるので、
「分岐元」アドレスを表す。

【００４２】プロセッサ１２内のＬＩＩキャッシュ３
０は６４ＫＢ直接マップ・キャッシュとして実装され
る。図の実施態様では、ＬＩＩキャッシュ３０のキャ
ッシュ・ライン・サイズは１ＫＢ（または１６ＶＬＩ
Ｗ）であり、アクセス時間は１サイクルである。

【００４３】各キャッシュ２６、３０、および４２に交
互全体的サイズまたはキャッシュ・ライン・サイズある
いはその両方を使用することができ、かつこれらのキャ
ッシュのそれぞれに他のアソシアティビティを使用でき
ることを理解されたい。したがって、本発明は、本明細
書に開示した特定の実施態様に限るべきではない。

【００４４】図３は、プロセッサ５２、Ｌ２キャッシュ
５４、および命令履歴キャッシュ５６、およびＬ１Ｉ
キャッシュ５８を使用する他のデータ処理システム５０
を示し、これらのプロセッサおよびキャッシュは、図１
および図２のデータ処理システム１０とほぼ同様に構成
される。図３に示すように、Ｌ２キャッシュ５４は５サ
イクル・アクセス時間を有し、命令履歴キャッシュ５６
は３サイクル・アクセス時間を有する。

【００４５】ＩＨＣがプロセッサを停止せずに所与の命
令の予測される次の命令を使用できるようにするため
に、データ処理システム５０は、ＩＨＣの３サイクル・
アクセス時間に対処するように所与の命令に関する履歴
データを命令２つ分だけオフセットするように構成され
る。すなわち、ＶＬＩＷ命令Ｎ−２、Ｎ−１、Ｎ、Ｎ＋
１、Ｎ＋２、およびＮ＋３がすでに順次実行され、これ
らの命令に関する履歴データがＩＨＣ５６に記憶されて
いるものと仮定すると、ＶＬＩＷ命令Ｎに関する履歴デ
ータはＶＬＩＷ命令Ｎ−２に関連付けされ、ＶＬＩＷ命
令Ｎ＋１に関する履歴データはＶＬＩＷ命令Ｎ−１に関
連付けされ、以下同様である。簡単に言えば、所与のＶ
ＬＩＷ命令に関連する履歴データは、この所与の命令の
後で実行すべき予測される３つ後の命令である。

【００４６】この関連付けは、図の実施態様では、２サ
イクル前に実行された命令のアドレスを命令履歴キャッ
シュへのインデックスとして使用して、所与の命令に関
する履歴データ、すなわち、この所与の命令の後で実行
すべき予測される次の命令を記憶することによって処理
される。この場合、２サイクル前に実行された命令のア
ドレスを使用してこの命令をＬ１Ｉキャッシュまたは
Ｌ２キャッシュから検索するとき、同時にこのアドレス
がＩＨＣに与えられ、この命令の予測される次の命令の
検索が開始される。したがって、ＩＨＣから取り出すの
に必要な追加の２サイクルを用いて、予測される次の命
令が適切な時間にＩＨＣから返される。

【００４７】言い換えれば、所与のＶＬＩＷ命令Ｎの場
合、この命令の予測される次の命令ＶＬＩＷＮ＋１
は、ＶＬＩＷＮ−２のアドレスを使用してＩＨＣに記
憶される。次いで、Ｌ１ＩキャッシュまたはＬ２キャ
ッシュからのＶＬＩＷＮ−２の検索を試みると、同時
にＶＬＩＷＮ−２のアドレスがＩＨＣに与えられ、Ｉ
ＨＣからのＶＬＩＷＮ＋１の検索が開始される。次の
２サイクルでＶＬＩＷＮ−１およびＶＬＩＷＮが順次
取り出されるものと仮定すると、次のサイクルで、ＩＨ
ＣはＶＬＩＷＮ＋１をＶＬＩＷＮの直後に実行でき
るようにする。したがって、Ｌ１ＩキャッシュがＶＬ
ＩＷＮ＋１に対してミスした場合でも、ＩＨＣは依然
として、他の場合にはこの命令をＬ２キャッシュから取
り出すのに必要になる遅延なしに、この命令を使用する
ことができる。さらに、ＩＨＣに履歴データが記憶され
るオフセットが与えられた場合、ＩＨＣアクセスを実際
上２サイクル早く開始することによって、他の場合に
は、予測される次の命令をＩＨＣから検索するのに必要
になる余分の２サイクルが回避される。

【００４８】この関係を一般化すると、図の実施形態で
は通常、所与の命令に関する履歴データを追加のｘ−１
サイクルだけオフセットすることが好ましい。この場
合、ｘはＩＨＣのアクセス時間である。言い換えれば、
所与の命令に関する履歴データとして、ｘサイクル後に
実行すべき予測される命令を記憶することが望ましい。

【００４９】したがって、この実施態様では、命令履歴
キャッシュ５６は、命令アドレス・レジスタ（ＩＡＲ）
５９で表される次に実行すべき命令として取り出されて
いる命令のアドレスでインデックス付けされる。同時
に、ＩＡＲ５９内の指定されたアドレスもＬ１Ｉキャ
ッシュ５８に供給されると共に、変更索引バッファ（Ｔ
ＬＢ）９０を介してＬ２キャッシュ５４に供給される。
変更索引バッファ９０は、ＩＡＲ５９に記憶されている
仮想アドレスを、Ｌ２キャッシュにアクセスする際に使
用される実アドレスに変換する。仮想アドレス指定を使
用しない場合は、プロセッサ５２とＬ２キャッシュ５４
の間でＴＬＢまたは他の変換機構を使用しなくてもよい
ことを理解されたい。

【００５０】通常、アドレス可能なメモリ空間のサブセ
ットのみがキャッシュに記憶される場合、命令アドレス
・レジスタ全体ではなく、インデックスがＩＨＣ５６に
与えられる。８ＭＢ命令履歴キャッシュの場合、現在の
アドレスから得た１７ビット・インデックス、たとえ
ば、６４ビット・アドレスのビット４１〜５７を使用す
ることができる。しかし、後述の予測検証回路構成を介
して正しい命令予測の検証が行われるので、命令履歴キ
ャッシュ５６用のディレクトリは必要とされない。

【００５１】同様に、Ｌ１Ｉキャッシュ５８の場合、
ＩＡＲ５９から１０ビット・アドレス・インデックスを
与え、このキャッシュにインデックス付けすることがで
きる。Ｌ１キャッシュ５８が、Ｌ１キャッシュ・ヒット
が生じたかどうかを検証するためのディレクトリ（図示
せず）も含むことを理解されたい。このようなディレク
トリの使用法および構成は当技術分野でよく知られてお
り、したがって、本明細書で詳しく説明する必要はな
い。

【００５２】ＩＡＲ５９は、プロセッサ５２内の１つま
たは複数の実行ユニットを表す実行パイプ６０の第１段
を形成する。たとえば、ＶＬＩＷプロセッサの場合、複
数の実行ユニットは通常、並列に動作し、各ＶＬＩＷ命
令中の様々なパーセルを別々に処理する。各実行ユニッ
トは通常、１つまたは複数の別々のパイプを有するが、
機能的に見ると、このような複数の実行ユニット用のパ
イプを、図３に表わす単一のパイプとみなすことができ
る。したがって、本発明によるデータ処理システムでは
任意の数の実行パイプまたはユニットあるいはその両方
を使用することができ、このような他のパイプおよびユ
ニットの実施態様が、本明細書で開示する内容の利益を
有する当業者の能力の範囲内であることを理解された
い。

【００５３】パイプ６０の各段は、命令アドレス、なら
びにこのアドレスによって指定されるＶＬＩＷ命令用の
記憶域を含む。パイプ６０は６段パイプラインであり、
パイプの段２ないし６用の命令アドレスはそれぞれ、命
令アドレス・レジスタ６２、６４、６６、６８、および
７０に記憶され、このようなアドレスによって指定され
る命令はそれぞれ、命令レジスタ（ＩＲＥＧ）７４、７
６、７８、８０、および８２に記憶される。パイプの第
１段は、第２段ＩＲＥＧへの命令取出し段であるので、
第１段に独立のＩＲＥＧは使用されない。パイプ６０に
ついて適切に言い換えると、このパイプは、ＩＡＲ６２
とＩＲＥＧ７４がパイプの第１段を形成しＩＡＲ５９が
パイプから除外された５段パイプである。

【００５４】パイプの様々な段は、現在の命令Ｎに対す
る段としても識別され、命令Ｎ−ｘは、現在の命令から
ｘサイクル前に処理される命令を表し、命令Ｎ＋ｙは、
現在の命令からｙサイクル後に処理される命令を表す。

【００５５】パイプの段１は命令取出し段（ＩＦＥＴＣ
Ｈ）であり、この間にメモリ（通常はＬ１Ｉキャッシ
ュまたはＬ２キャッシュ）から命令が取り出される。パ
イプの段２は汎用レジスタ・ファイル読取りアクセス段
（ＧＰＲ）である。パイプの段３は有効アドレス生成段
（ＡＧＥＮ）である。パイプの段４はＬ１データ・キャ
ッシュ（Ｄキャッシュ）アクセス段（ＤＣＡＣＨＥ）で
あり、段５は、あるデータ・フォーマットのデータ・バ
ス段（ＤＡＴＡＢＵＳ）である。パイプ内の段６は汎用
レジスタ・ファイル書込みアクセス段（ＧＰＲＷＲ
Ｔ）であり、この段では、命令実行の結果が再び汎用レ
ジスタ・ファイルに書き込まれるか、あるいは一般的に
は他の構成のレジスタ・ビットに書き込まれる。これら
の段中に実行される動作は、周知のプロセッサ動作であ
り、本発明の理解に関連するものではない。したがっ
て、本明細書ではこれらの段についてこれ以上は説明し
ない。

【００５６】さらに、本発明による他の実施態様では、
追加の段、すなわち、いくつかの段および段構成を使用
することができる。たとえば、スーパースカラ・プロセ
ッサの場合、実行パイプはＩＦＥＴＣＨの前に分岐アド
レス生成段を含むこともできる。一方、命令が命令キャ
ッシュ内で整列され、命令を実行する前に順序付けして
おく必要がないので、ＶＬＩＷベースのアーキテクチャ
は通常、分岐アドレス生成段を必要としない。

【００５７】それぞれ履歴キャッシュ５６およびＬ２キ
ャッシュ５４からの予測される次の命令および実際の次
の命令の検索を開始するためにプリフェッチ回路構成８
５が使用される。予測される３つ後の命令とも呼ばれる
３サイクル後に実行すべき命令の検索は、ＩＡＲ５９か
ら得たアドレス・インデックスに基づいて線８５ａを介
して実行される。Ｌ２キャッシュからの実際の次の命令
の検索は、パイプの段２中のＩＲＥＧ７４に記憶されて
いる命令に指定された「分岐先」アドレスに基づいて線
８５ｂを介して実行される。Ｌ２キャッシュにアクセス
するために、線８５ｂ上の分岐先アドレスはＴＬＢ９０
によって実アドレスに変換される。たとえば、レジスタ
７４に記憶されている命令８６で表されるように、分岐
先アドレスは通常、この命令中の分岐条件（ＢＣ）パー
セル８８で指定される。

【００５８】Ｌ２キャッシュおよび命令履歴キャッシュ
に命令取出しが発行されると、各キャッシュは、それに
与えられたアドレスに記憶されている命令を適切な時間
に出力する。Ｌ２キャッシュ５４の場合、出力命令は、
「ＶＬＩＷ」として表される実際の次の命令である。命
令履歴キャッシュ５６の場合、命令出力は、「ＶＬＩ
Ｗ'」として表される予測される次の命令である。予測
検証回路構成９１はＶＬＩＷおよびＶＬＩＷ'を受け取
る。さらに、ＶＬＩＷ'は直接、第２段ＩＲＥＧ７４に
与えられ、予測される次の命令の実行が開始される。

【００５９】予測検証回路構成９１は、Ｌ２キャッシュ
５４からのＶＬＩＷ出力が命令履歴キャッシュ５６から
のＶＬＩＷ'出力と一致するかどうかを判定する比較ブ
ロック９２を含む。命令履歴キャッシュ５６が３サイク
ル・アクセス時間を有し、Ｌ２キャッシュ５４が５サイ
クル・アクセス時間を有するので、ＶＬＩＷ'はＶＬＩ
Ｗよりも２サイクル前に回路構成９１に出力される。し
たがって、ＶＬＩＷ'をＶＬＩＷと整列させるために、
命令バッファ・レジスタ９４、９６を含む２段バッファ
が、命令履歴キャッシュ５６と比較ブロック９２の間に
挿入される。キャッシュ５４とキャッシュ５６の間のア
クセス時間の差に応じて、命令履歴キャッシュ５６と比
較ブロック９２の間に任意の数の段を挿入する必要があ
ることを理解されたい。

【００６０】比較ブロック９２は、それぞれＬ１Ｉキ
ャッシュ５８用のディレクトリおよびＬ２キャッシュ５
４用のディレクトリからＬ１ミス信号およびＬ２ヒット
信号を受け取るＡＮＤゲート９３によってイネーブルさ
れる。比較ブロック９２は、イネーブルされると、禁止
信号ＩＨＣ／Ｌ２ＣＯＭＰを出力する。この信号は、Ｖ
ＬＩＷ'がＶＬＩＷと一致しないときにはいつでもアサ
ートされる。この禁止信号の結果として、この点で実行
パイプ６０の段６ＩＲＥＧ８２に記憶されているＶＬ
ＩＷ'が「中断」され、したがって、この命令の実行結
果が実際上、破棄される。

【００６１】図の実施態様では、汎用レジスタ・ファイ
ルまたは他の構造のレジスタ・ビットへのライトバック
は通常、命令の実行結果として実行された最後の動作な
ので、ＶＬＩＷ'の結果の破棄は、この命令を無効化し
て実行パイプの段６でのＧＰＲＷＲＴ動作の実行を禁
止することによって実行される。この技法は通常、他の
場合に、パイプ内で命令を実際上、中断または停止する
ために従来型のプロセッサによって使用される。他の実
施態様では、ＶＬＩＷ'の実行を他の方法で終了するこ
とが望ましい。たとえば、単に命令を無効化するのでは
なく、命令を完了させ、次いで命令を実行する前のレジ
スタの状態を表すバックアップ・コピーを用いて汎用レ
ジスタ・ファイルを復元することによって結果を「アン
ドゥ」することが望ましいこともある。

【００６２】Ｌ２キャッシュ５４からＶＬＩＷが返され
るまでパイプが停止するように、Ｌ２キャッシュ５４の
出力を実行パイプ用の状態マシンおよび命令バッファ
（図示せず）と結合することが望ましいこともある。こ
のパイプ停止の目的は、Ｌ２キャッシュに対してミスす
る命令取出しに対処することである。これは、このよう
なミスがＬ３キャッシュまたは主記憶装置あるいはその
両方へのアクセスを必要とし、５サイクルを超えるアク
セス時間を必要とするからである。

【００６３】図４は、図３に示す動作の相対的タイミン
グを示す。まず、ＩＦＥＴＣＨ状況、ＧＰＲ状況、ＡＧ
ＥＮ状況、ＤＣＡＣＨＥ状況、ＤＡＴＡＢＵＳ状況、お
よびＧＰＲＷＲＴ状況を含む実行パイプが示されてい
る。２サイクル後に実行すべき命令の次の命令に関する
命令履歴キャッシュ・アクセスは、実行パイプと並列に
行われ、３アクセス・サイクルと、その後に続く予測検
証回路９１内の２つのバッファ段を占めるアクセスとし
て示されている。キャッシュにアクセスするのに必要な
２サイクルと、その後に続き、キャッシュが結果を処理
し出力する３アレイ・サイクルとを含むＬ２キャッシュ
・アクセスも並行して示されている。Ｌ２ディレクトリ
へのアクセスは、Ｌ２キャッシュ・アクセスと並列に行
われるアクセスとしても示されている。Ｌ２ディレクト
リがＬ２キャッシュによる次の命令の前のＬ２ヒットま
たはＬ２ミスを示すことにも留意されたい。比較イネー
ブル信号は、Ｌ２ヒットから生成され、Ｌ１ミスが生じ
たときにＬ２取出しが完了するまでパイプを選択的に停
止しておくために使用される。比較ブロックは、Ｌ２取
出しが完了してから半サイクル後に動作するブロックと
して示されており、禁止信号は、ＩＨＣ／Ｌ２ＣＯＭＰ
として示されており、比較イネーブル信号がアサートさ
れてから半サイクル後に出力される。したがって、実行
パイプのＧＰＲＷＲＴ段に到達すると、禁止信号を使
用してＧＲＰファイルへの結果のライトバックを許可ま
たは禁止することができる。禁止が示された場合、ＧＰ
ＲＷＲＴ動作がバイパスされ、命令の結果が実際上、
破棄される。

【００６４】図５は、命令履歴キャッシュ５６で履歴デ
ータを動的に更新するための命令履歴キャッシュ５６へ
の履歴データのライトバックで使用される構成要素を示
す。Ｌ２キャッシュ５４は、この更新動作には関連して
おらず、話を簡単にするために図から省略されている。

【００６５】再び命令履歴キャッシュ５６に情報を記憶
するために、命令履歴キャッシュに独立の書込みアクセ
ス・ポートが設けられる。キャッシュへの別々の読取り
アクセス・ポートおよび書込みアクセス・ポートの使用
法および構成は当技術分野でよく知られている。所与の
命令の実際の次の命令に関するデータを記憶するための
所望のオフセットは、命令履歴キャッシュに書き込むべ
き命令と、この命令を書き込むアドレスまたはインデッ
クスを、実行パイプの別々の段から取り出すことによっ
て与えられる。図の実施態様では、２段差分が使用さ
れ、命令は、第４段ＩＡＲ６６によって指定されるＩＨ
Ｃ内の位置に記憶されている実行パイプの第２段ＩＲＥ
Ｇ７４に記憶される。この第１段差分は、所与の命令の
実際の次の命令を記憶する必要がある場合に対処し、第
２段差分は、ＩＨＣ内の履歴データの、この所与の命令
からの所望の１サイクル・オフセットに対処する差分で
ある。言い換えれば、２段差分は実際上、所与の命令に
関連するＩＨＣ内の位置に３つ後の実際の命令を記憶す
る。

【００６６】実行パイプ６０内の様々な段、たとえば、
段３および５、または段４および６などからアドレスお
よび命令を取り出すことによってオフセットを得ること
もできることを理解されたい。さらに、様々なオフセッ
トを得るために、様々なレジスタの出力も使用できるこ
とを理解されたい。

【００６７】図４を参照すると、ライトバック動作の相
対的タイミングが詳しく示されている。具体的には、第
４の（ＤＣＡＣＨＥ）で、ＶＬＩＷＮ＋１のアドレス
を表すＩＡＲレジスタ６６の値が、Ｌ１Ｉキャッシュ
およびＩＨＣへの書込みアドレスとして与えられ、それ
に対して、ＶＬＩＷＮ＋３を表す第２段にあるＩＲＥ
Ｇ７４の値が、Ｌ１ＩキャッシュおよびＩＨＣに書き
込むべきデータとして与えられる。次いで次のサイクル
で、Ｌ２ディレクトリがヒットした場合、前述のアドレ
スおよびデータを使用してＬ１ＩキャッシュおよびＩ
ＨＣが書き込まれ、それによって、実際に次に実行され
る命令を反映するように履歴データが更新される。

【００６８】図６は、データ処理システム５０によって
実行される命令取出し動作１２０を示し、Ｌ１Ｉキャ
ッシュ、Ｌ２キャッシュ、またはＩＨＣで命令取出しが
ヒットするかどうかに基づいて実行される異なるプログ
ラム・フローを示す。まず、論理ブロック１２２で、Ｉ
ＡＲ５９（図３）に記憶されているＶＬＩＷＮ＋４の
内容がＬ１Ｉキャッシュ、Ｌ２キャッシュ、およびＩ
ＨＣへ同時に転送される。次に、論理ブロック１２４で
（かつ通常は１サイクル未満で）、Ｌ１Ｉキャッシュ
・ディレクトリがヒット／ミス表示を返す。ヒットが起
こった場合、論理ブロック１２６に示すように通常どお
りに動作が実行され、次のサイクルでＬ１Ｉキャッシ
ュによって命令取出しが行われる。また、この時点でＩ
ＨＣを更新することが望ましく、あるいはＩＨＣ内の履
歴データに変更があるかどうかを検査し、変更が行われ
た場合にかぎりＩＨＣを更新し、ＩＨＣへのトラフィッ
クを最小限に抑えることが望ましい。

【００６９】Ｌ１Ｉキャッシュでキャッシュ・ミスが
起こった場合、フローは論理ブロック１２８に進み、次
のサイクルにＩＨＣから出力された予測されるＶＬＩＷ
信号が、実行のためにパイプに供給される。予測される
ＶＬＩＷを検索するためのＩＨＣへのアクセスが２サイ
クル早く、すなわち、論理ブロック１２２でのＶＬＩＷ
Ｎ＋２のアドレスのディスパッチ中に行われることに
留意されたい。

【００７０】次いで、Ｌ２ヒット／ミスの表示が、論理
ブロック１３０で表されたＬ２キャッシュのディレクト
リから返されるまで、予測されるＶＬＩＷが１サイクル
以上にわたってパイプを通過しながら実行される。ミス
が起こった場合、要求された実際の命令がＬ２キャッシ
ュで見つからなかったために予測されるＶＬＩＷが正し
くない場合には、論理ブロック１３２で実行される動作
が実行される。具体的には、当技術分野で知られている
任意の数の方法で、パイプが停止され、パイプの段２内
の（図３のＩＲＥＧ７４に記憶されているＶＬＩＷＮ
＋３として示された）ＶＬＩＷが中断される。要求され
た命令をメモリ階層内のより高いレベルから検索するた
めに主記憶装置アクセスも開始され、要求された命令が
返された後、Ｌ２キャッシュが更新され、正しいＶＬＩ
Ｗがパイプにディスパッチされ、ＩＨＣが更新され、Ｌ
１Ｉキャッシュが更新され、パイプが復元される。パ
イプを復元するには、パイプのクロッキングを再開する
だけでよく、あるいは場合によっては、パイプが望まし
い点を越えている場合にはパイプを前の状態に復元する
必要があることもある。

【００７１】論理ブロック１３０に戻るとわかるよう
に、Ｌ２が命令取出し時にヒットした場合、論理ブロッ
ク１３４で、Ｌ２ＭＲＵ予測が正しかったかどうかが判
定される。論理ブロック１３４は、アソシエーティブ・
キャッシュの場合にのみ実行され、直接マップＬ２キャ
ッシュの場合には省略することができる。ＭＲＵ予測が
正しくない場合、論理ブロック１３６で実行される動作
が実行される。具体的には、当技術分野で知られている
任意の数の方法で、パイプが停止され、パイプの段２内
の（図３のＩＲＥＧ７４に記憶されているＶＬＩＷＮ
＋３として示された）ＶＬＩＷが中断される。ディレク
トリ参照に基づいてＬ２キャッシュから正しいＶＬＩＷ
が取り出され、この正しいＶＬＩＷがパイプへ送られ、
ＩＨＣが更新される。Ｌ１ＩキャッシュおよびＬ２Ｍ
ＲＵアレイも更新され、前述の方法でパイプが復元され
る。

【００７２】論理ブロック１３４に戻るとわかるよう
に、ＭＲＵ予測が正しかった場合、次に論理ブロック１
３８で、（すなわち、図３の比較ブロック９２を介し
て）ＩＨＣ予測が正しかったかどうかが判定される。そ
うである場合、停止なしで実行が継続し、論理ブロック
１４０に示すように、適切な時間にＬ２キャッシュによ
ってＬ１Ｉキャッシュが更新される。しかし、予測が
正しくない場合、パイプの段２内の誤って予測されたＶ
ＬＩＷが、論理ブロック１４２で前述のように中断され
る。次に、論理ブロック１４４で、Ｌ２キャッシュから
取り出されたＶＬＩＷがパイプにディスパッチされ、Ｉ
ＨＣおよびＬ１が前述のように更新される。

【００７３】図７は、マルチチップ集積Ｌ２／命令履歴
キャッシュ実施態様を示す他のデータ処理システム１５
０を示す。データ処理システム１５０はプロセッサ１５
２を含み、プロセッサ１５２内部にＬ１Ｉキャッシュ
１５４および少なくとも１つの実行パイプ１５６が配設
される。プロセッサ１５２に命令／データ・バス１６０
を介して集積Ｌ２／命令履歴キャッシュ１５８が結合さ
れる。キャッシュ１５８は、複数のメモリ・チップ、た
とえば、チップ１６２、１６４、１６６、１６８、１７
０、１７２、１７４、および１７６を使用して実装され
る。各メモリ・チップは、Ｌ２キャッシュ区画および命
令履歴キャッシュ区画、たとえば、チップ１７６の場合
の区画１７８、１８０に論理的に区分される。各区画ご
とに別々のアクセス・ポートが設けられ、Ｌ２キャッシ
ュのアクセス・ポートはプロセッサ１５２からのアドレ
ス線１８２と結合され、プロセッサ１５２からのアドレ
ス線１８２は、Ｌ２キャッシュにアクセスするための実
アドレスを供給する。線１８２はＬ２ディレクトリ・チ
ップ１８４にも与えられ、Ｌ２ディレクトリ・チップ１
８４は、プロセッサからのアクセス要求がＬ２キャッシ
ュでヒットするかどうかを示すＬ２ヒット信号を生成す
るディレクトリ・エントリを返す。

【００７４】独立のポートが、命令履歴キャッシュを制
御し、プロセッサ１５２からのアクセス線１８６を介し
て制御される。命令履歴キャッシュは、前述のデータ処
理システム１０の場合と同様に、キャッシュにアクセス
するための命令アドレス・レジスタ・インデックス値を
受け取る。

【００７５】キャッシュ５８は、たとえば、各メモリ装
置がバス１６０を介して８バイト、または６４バイトＶ
ＬＩＷの８分の１を供給する８つの１ＭＢＳＲＡＭメ
モリ装置または１ＭＢＤＲＡＭメモリ装置を使用して
実装される。４ウェイ・アソシエーティブ実施態様を仮
定すると、各セットは１／４ＭＢに区分され、最後に使
用された区画が命令履歴キャッシュとしても機能する。
ＩＨＣ区画をＬ２キャッシュから除外することもでき
る。ただし、１つの区画をＩＨＣとＬ２キャッシュの両
方として機能させることによって、追加のメモリなしで
ＩＨＣを実装することができる。様々な代替キャッシュ
・サイズ、区画サイズ、および／またはチップ数を使用
することもできる。

【００７６】共通の１組の集積回路デバイスまたはチッ
プを使用してＬ２キャッシュおよび命令履歴キャッシュ
を実装することによって得ることのできる１つの利点
は、予測検証機能を実行するのに必要な処理回路の多く
をプロセッサから、キャッシュを実装するチップにシフ
トできることである。たとえば、予測検証回路構成は複
数の部分的比較ブロックを含むことができ、たとえば、
チップ１７６の場合のブロック１８８のように、各部分
的比較ブロックを１つのチップ内に配設することができ
る。各比較ブロック内で、命令履歴区画から出力された
予測される次の命令の８バイト部分が、Ｌ２区画から出
力された実際の次の命令の８バイト部分と比較され、Ｌ
２区画および命令履歴区画によって出力される８バイト
部分中の各ビットが、８バイト比較ブロック１９０を使
用して比較される。前述と同じアクセス時間の差を仮定
すると、予測される次の命令部分と実際の次の命令部分
を整列させるために１対の命令バッファ１９２、１９４
が必要になる。次いで、比較ブロック１９０は、予測さ
れる次の命令の８バイト部分と実際の次の命令の８バイ
ト部分が一致するかどうかを示す部分的ＩＨＣ／Ｌ２Ｃ
ＯＭＰ信号を出力する。次いで、部分的比較ブロックは
部分的比較信号を出力し、マスタ比較ブロックとして働
くプロセッサ１５２内のＡＮＤブロック１９６で、この
信号と他の部分的比較信号との論理積がとられる。論理
ブロック１９６の出力は全体的なＩＨＣ／Ｌ２ＣＯＭＰ
禁止信号を形成し、この信号は、誤って予測された命令
を選択的に禁止または終了するために使用される。

【００７７】他の実施態様では、プリフェッチ回路構成
および予測検証回路構成内の様々な機能をシステム内の
様々な集積回路デバイスに割り付けられることを理解さ
れたい。したがって、本明細書で論じる特定の実施態様
に本発明を限定すべきではない。

【００７８】埋込み命令履歴実施態様本発明のある実施形態では、独立の命令履歴キャッシュ
を不要にし、それによってプロセッサの命令取出し機構
の設計を簡略化することが望ましい。具体的には、多く
の実施態様では、命令自体内、通常は命令内の未使用ビ
ット内に履歴データを埋め込み、履歴データの追加によ
るプログラム・コードの展開を最小限に抑えることが可
能であることが判明している。このことは、命令履歴キ
ャッシュの機能を組み込んだＬ２キャッシュの効果を有
する。

【００７９】大多数のＶＬＩＷ命令にいくらかの未使用
空間が組み込まれている場合、ＶＬＩＷベースのアーキ
テクチャは、ＶＬＩＷ命令内に履歴データを埋め込むの
に特に適している。ＶＬＩＷによっていくつかの規則が
遵守されるかぎり、ＶＬＩＷプログラムの記憶要件にほ
とんどあるいはまったく影響を与えずに履歴データを埋
め込むことが可能であることが判明している。

【００８０】通常、メモリに記憶されているＶＬＩＷ命
令のうちの１つに続いて実行すべき次の命令を表す履歴
データは、このような命令のアドレスを得ることのでき
る識別子で表される。しかし、Ｌ２キャッシュに対する
ミスが起こった場合に、主記憶域から次の命令を検索す
ることが必要になり、予測される命令アドレスの無効性
が未決定になるために、通常、Ｌ２キャッシュにアドレ
スするのに必要なビット量だけで履歴データが得られる
場合、次の命令の完全なアドレスは通常必要とされな
い。

【００８１】たとえば、６４ビット・アドレス指定方式
を有するシステムに実装される４ＭＢＬ２キャッシュ
の場合、通常、２２ビット・アドレス・インデックスだ
けでキャッシュ内の所与のバイトにアドレスすることが
できる。さらに、６４バイト・キャッシュ・ライン命令
サイズを用い、キャッシュ・ラインおよび命令を適切に
整列させた場合、２２ビット・アドレス・インデックス
の最下位６ビット（ＬＳＢ）は０であることがわかって
おり、したがって、１６ビットだけで４ＭＢＬ２キャッ
シュ内の所与のキャッシュ・ラインにアクセスすること
ができる。

【００８２】アドレス・インデックスを命令内に記憶す
ることのできる１つの方法は、ある数のビットを未使用
にして履歴データ用に予約しておくことである。たとえ
ば、ＶＬＩＷ命令の場合、このような命令は通常、様々
な実行ユニットによって互いに並列に実行される複数の
パーセルを含む。ＶＬＩＷコンパイラは通常、命令の利
用可能なスロットにできるだけ多くのパーセルを配置す
ることによってＶＬＩＷ命令をアセンブルする。したが
って、命令中の履歴データ用に適切な自由空間が割り付
けられるように、コンパイラに命令の１つのスロットを
履歴データ用に予約させることができる。

【００８３】大多数のＶＬＩＷ命令は完全に満杯になる
ことがないにもかかわらず、ＶＬＩＷ命令の１つのスロ
ットを常にブランクにしておくことは、追加のパーセル
で命令を満杯にすることができたにもかかわらず、命令
に履歴データが追加される場合に、プロセッサ性能に悪
影響を与える。しかし、追加のコンパイラ規則を実現す
ることによって、プロセッサ性能に対して比較的小さな
影響しか与えずに、ＶＬＩＷ命令にある量の自由空間を
残すことができる。

【００８４】具体的には、ＶＬＩＷコンパイラに、同じ
キャッシュ・ライン内のアドレスへの分岐を有する分岐
命令のみを所与のＶＬＩＷ命令にアセンブルさせること
が望ましい。この場合、分岐パーセル以外のパーセルを
有するこのようなＶＬＩＷ命令の場合、複数の分岐命令
のアドレス・フィールドへの分岐が冗長になり、このよ
うなフィールドのうちの１つを使用して、命令内のパー
セルの全体的な密度にはほとんどあるいはまったく影響
を与えずに履歴データを記憶することができる。大多数
のＶＬＩＷ命令は複数の分岐パーセルを有する傾向があ
るので、この規則はコンパイラ性能にほとんど影響を及
ぼさないと考えられる。

【００８５】たとえば、ＶＬＩＷプロセッサ・アーキテ
クチャ用の命令フォーマットには、３２ビットPowerPC
互換命令を実現する３２ビット・パーセルを組み込むこ
とができる。PowerPCアーキテクチャによれば、分岐命
令の１６ビットが分岐アドレス・フィールドに割り当て
られ、この分岐アドレス・フィールドから、所定の条件
を満たしたことに応答して、分岐先へのアドレスが生成
される。６４ビット・アドレス指定を仮定すると、すべ
ての分岐命令が１ＭＢアドレス空間内で分岐する必要が
あり、（６４ビット命令サイズが与えられた場合）１６
ビット分岐アドレス・フィールドと連結され、６つのゼ
ロが後に続く、命令アドレス・レジスタの最上位４２ビ
ット（ＭＳＢ）を使用して６４ビット分岐先アドレスが
生成される。

【００８６】上記で定義したアドレス指定方式を仮定す
ると、最小限のプログラム・コード展開で任意の命令中
の一定数のビットを履歴データに割り付けるＶＬＩＷコ
ンパイラを作成することができる。たとえば、パーセル
をＶＬＩＷ命令にアセンブルする際に以下の規則を遵守
することによって、任意の命令の１６ＬＳＢを履歴デー
タに割り付けるようにコンパイラを構成することができ
る。

【００８７】Ｉ．ＶＬＩＷ命令が満杯でない場合、命令
の最後のスロットにＮＯＯＰ演算を挿入する。

【００８８】ＩＩ．ＶＬＩＷ命令が満杯であり、少なく
とも１つのパーセルがＮＯＯＰ演算である場合、命令の
最後のスロットにＮＯＯＰ演算を配置する。

【００８９】ＩＩＩ．ＶＬＩＷ命令が非ＮＯＯＰ演算で
満杯であり、２つ以上の分岐パーセルが命令中に存在す
る場合、命令の最後のスロットに１つの分岐パーセルを
配置する（かつ、すべての分岐パーセル用の共通の分岐
アドレスが常に同じスロットに位置するように、任意選
択で、命令の終了位置の近くでかつ最後のスロットより
も前に他のすべての分岐パーセルを配置する）。

【００９０】ＩＶ．ＶＬＩＷ命令が非ＮＯＯＰ演算で満
杯であるが、命令中に存在する分岐パーセルが２つより
も少ない場合、パーセルを近くの命令で置き換えて追加
の分岐パーセルまたはＮＯＯＰパーセルを命令に追加す
ることを試みる。

【００９１】Ｖ．ＶＬＩＷ命令が非ＮＯＯＰ演算で満杯
であり、分岐パーセルが２つよりも少ないが、命令のパ
ーセルをスワップできない場合、命令の最後のスロット
にＮＯＯＰパーセルを挿入し、１つのパーセルを次の命
令に移動する。

【００９２】大部分のＶＬＩＷ命令の７５％以上が完全
には充填されず、残りの命令のうちの、約１０％を除く
すべての命令が複数の分岐パーセルを含むことに基づい
て、上記の規則が、大部分のプログラム・コードを約１
％未満しか展開しない傾向を示すことが予測される。

【００９３】他の実施態様では、ＶＬＩＷ命令に未使用
空間を位置させる他の方法を使用することができる。た
とえば、いくつかの実施態様では、ＶＬＩＷ命令に対し
てある事前復号が行われ、パーセルが比較的大きなコー
ドに展開される。いくつかの実施態様では、１６個の３
２ビット・パーセルを含む６４バイトＶＬＩＷ命令の場
合、実行ユニットの必要とする追加のビットを含む６４
ビット・コードにパーセルを展開することができる。さ
らに、多くの場合、特に分岐命令は常に４８ビット未満
にしか展開しないことが判明している。したがって、Ｖ
ＬＩＷ命令がパーセルで満杯であり、上記の規則Ｉ〜Ｉ
Ｖのどれかを満たさない場合でも、多くの場合、パーセ
ルをコードに展開した後に命令の未使用部分に履歴デー
タを埋め込むことができる。したがって、展開されたコ
ードを記憶するメモリ階層の任意のレベル内、たとえ
ば、プリデコーダがＬ２キャッシュと主記憶装置の間に
配設される場合にはＬ２キャッシュ内に履歴データを維
持することができる。このような例では通常、Ｌ２キャ
ッシュ・ラインおよびＶＬＩＷ命令は１２８バイトに展
開され、したがって、少なくともＬ２キャッシュには、
履歴データを記憶するのに適した未使用空間が存在す
る。たとえば、オペランド命令またはマスク・フィール
ド中の未使用ビットを使用する、未使用空間を見つける
他の方法を使用することもできる。

【００９４】図８は、３２ビット・パーセルを含む６４
バイトＶＬＩＷ命令２００を示す。命令２００は複数の
分岐パーセルを有する命令として示されており、上記の
規則に従って、（パーセル１４および１５用の）最後の
２つのスロットにはこのような分岐パーセルが充填され
ている。パーセル１４および１５は２０２および２０４
で詳しく示されており、各パーセルは一般的なPowerPC
命令フォーマットに従い、各パーセルの最初の６ビット
が演算フィールド（たとえば、パーセル２０２の場合は
フィールド２０６）に割り当てられ、次の２組の５ビッ
トはビット・イン（ＢＩ）フィールドおよびビット・ア
ウト（ＢＯ）フィールド（たとえば、パーセル２０２の
場合はフィールド２０８、２１０）に割り当てられる。
パーセル１４と１５は分岐パーセルなので、各パーセル
の残り１６ビットは分岐パーセル・フィールド（たとえ
ば、パーセル２０２の場合はフィールド２１２）に割り
当てられる。しかし、すべての分岐命令が同じキャッシ
ュ・ラインに分岐することを必要とする所与のＶＬＩＷ
命令内で分岐アドレス・フィールドが冗長である場合、
パーセル２０４の分岐先アドレス・フィールド２１４を
使用してこのフィールドに履歴データを記憶することが
できる。

【００９５】パーセル１５は、ＮＯＯＰ演算フィールド
２１８および未使用フィールド２１９を有するＮＯＯＰ
パーセル２１６でもよく、未使用フィールド２１９内
に、ＶＬＩＷ命令に関する同じ履歴データを記憶するこ
とができる。様々な代替ビット・マッピングを使用する
こともできることを理解されたい。

【００９６】図９は、前述のようにフォーマットされた
所与のＶＬＩＷ命令内に履歴データを記憶し維持するよ
うに構成された他のデータ処理システム２２０を示す。
独立の命令履歴キャッシュ４２を除いて、システム２２
０内の残りの構成要素を図１のデータ処理システム１０
と同様に構成できることを理解されたい。図９に戻ると
わかるように、システム２２０は、６つの段を備える実
行パイプ２２２を有するプロセッサ２２１を含む。それ
ぞれ、パイプの６つの段内に配設された、アドレス・レ
ジスタ（ＩＡＲ）２５０、２２４、２２６、２２８、２
３０、および２３２のシーケンスに命令アドレス情報が
維持される。また、パイプの段２ないし６に関するＶＬ
ＩＷ命令は、命令レジスタ（ＩＲＥＧ）２３６、２３
８、２４０、２４２、および２４４に記憶される。Ｌ１
Ｉキャッシュ２４８は６４バイト・キャッシュ・ライ
ン・サイズで示されており、ＩＡＲ２５０に記憶されて
いる命令アドレスを介してアクセスされる。Ｌ１Ｉキ
ャッシュ２４８内にＶＬＩＷ命令２５２が示されてお
り、この命令は、上記で定義したコンパイラ規則を満た
す。具体的には、最後から２番目のスロットに、定義さ
れた分岐先アドレス・フィールド２５６を有する分岐パ
ーセル２５４が充填され、最後のスロットに、履歴アド
レス・インデックス（ＨＡＸ）フィールド２６０を有す
る分岐パーセルまたはＮＯＯＰパーセル２５８が充填さ
れ、履歴アドレス・インデックスフィールド内に、命令
に関連する履歴データが記憶される。

【００９７】この実施態様では、ＩＲＥＧ２３６に記憶
されている命令の分岐先アドレス・フィールドで表され
る実際の次の命令が、ＩＡＲ２２８の出力（具体的に
は、分岐先アドレス・フィールド中の同じ１６ビットに
対応する、この出力のビット４２〜５７）で表される２
サイクルだけずれた予測される次の命令と、比較ブロッ
ク２６２を使用して比較される。

【００９８】また、ＩＲＥＧ２３６で示すように、２サ
イクル後に実行すべき命令の予測される次の命令を検索
するために、ＩＲＥＧの履歴アドレス・インデックス・
フィールドを使用して、各サイクルでＬ２キャッシュ２
６４がアクセスされる。この場合、Ｌ２キャッシュ２６
４は、履歴ベースのアクセス用の３サイクル・アクセス
時間を有するように構成される。これを実現するには、
たとえば、仮想アドレス実アドレス変換およびディレク
トリ・アクセスをバイパスするＬ２キャッシュの独立の
履歴読取りアクセス・ポートを使用し、それによって基
本的に、Ｌ２キャッシュをこのポートを通して、命令履
歴キャッシュとほぼ同様に動作する直接マップ・キャッ
シュとして構成することができる。メモリ内の隣接ブロ
ック内に所与のプログラム用のすべてのＶＬＩＷ命令を
記憶することにより、変換のために所与のブロック内の
ビットが変更されることがなくなる（たとえば、隣接す
る位置合わせされた１６ＭＢブロック内にプログラムを
維持する場合、通常、変換の結果として２４ＬＳＢが変
更されることはない）ので、履歴アクセスによる変換を
回避できることが多い。また、ディレクトリにアクセス
する必要なしに履歴アクセスに応答して検索すべき正し
いセットを選択するために、Ｌ２キャッシュに関するＭ
ＲＵ予測が使用される。前述の機能を実現するための多
重アドレス入力Ｌ２キャッシュの使用法および構成は、
当業者の能力の範囲内であり、したがって、本明細書で
詳しく論じる必要はない。

【００９９】ＶＬＩＷ命令を新しい履歴アドレス情報で
更新する場合、ＩＲＥＧ２３６に記憶されている命令の
分岐先アドレス・フィールドと、２サイクル前のＶＬＩ
Ｗ命令用のＩＡＲ２２８に記憶されているアドレスがそ
れぞれ、Ｌ１Ｉキャッシュ２４８に書き込まれるデー
タおよびアドレスとして与えられる。実際の分岐命令を
２サイクル前のＶＬＩＷ命令アドレスと共に記憶するこ
とによって、命令レジスタ２３６に記憶されているＶＬ
ＩＷの実際の次の命令を用いて履歴データが更新され
る。したがって、この実施態様では、ＶＬＩＷ命令内に
履歴データを埋め込むことによってプロセッサ・アーキ
テクチャが著しく簡略化され、独立の命令履歴キャッシ
ュと同じ機能が実行され、同時にこのようなキャッシュ
が不要になる。

【０１００】ＶＬＩＷコンパイラでの前述のコンパイラ
規則の実現が、本明細書の内容を読むことに基づいてコ
ンパイラ当業者の能力の範囲内で行われることが理解さ
れよう。さらに、他の数組のコンパイラ規則と、ＶＬＩ
Ｗ命令の他の構成およびマッピングを使用して、本発明
によって命令内に履歴データを埋め込むことができるこ
とを理解されたい。さらに、本明細書に記載された他の
実施形態によるこのような変形形態の実施態様も当業者
に明らかであることが理解されよう。

【０１０１】図９の実施態様の場合、多くの例で、Ｌ１
Ｉキャッシュに記憶されている命令がしばしば比較的
高速にキャッシュ・アウトされ、したがって、このキャ
ッシュに記憶されている履歴データの時間的な持続が制
限される場合、多くの例では、Ｌ１Ｉキャッシュ２４
８に記憶されている履歴データをメモリ階層の他のレベ
ルに維持することが望ましいと考えられる。したがっ
て、ＶＬＩＷ命令をそれに関連する履歴データと共にメ
モリ階層の他のレベルにコピーすることによって、履歴
データとこの命令との関連付けを維持することが望まし
いことがある。通常、多くのプロセッサ実施態様におけ
る命令キャッシング階層は、所与のキャッシュ・レベル
からキャッシュ・アウトされた命令を破棄するに過ぎな
い。これは、この命令が通常、下位のキャッシュでは修
正されず、したがってキャッシュ同士の間のコヒーレン
シが問題にならないからである。したがって、履歴デー
タを複数のキャッシュ・レベルで維持することを可能に
するには、多くの点で、マルチレベル・データ・キャッ
シング階層内のデータの処理と同様に、命令が所与のキ
ャッシュからキャッシュ・アウトされる際にこの命令を
上位のキャッシュにコピーするように命令キャッシング
機構を修正するだけでよい。

【０１０２】しかし、この手法の１つの欠点として、命
令が再びこのようなキャッシュに書き込まれる際に上位
キャッシュへのアクセス回数が増加し、それによってキ
ャッシュの全体的な性能が低下する。この問題を軽減す
るには、ある命令に関する履歴データが変更されたとき
に上位キャッシュに情報をコピーするのみに留めること
が望ましい。

【０１０３】たとえば、図１０はデータ処理システム２
７０を示し、このシステムは、所与のキャッシュによっ
てキャスト・アウトされているＶＬＩＷ命令が再び上位
メモリに書き込まれる頻度を減少するためにキャッシュ
に記憶されている各命令に関連付けされた変更ビットを
実装する。所与のキャッシュから所与の命令をキャッシ
ュ・アウトするときに、この命令を再び上位キャッシュ
に書き込んで履歴データとこの命令との関連付けを維持
すべきかどうかが、この変更ビットを使用して判定され
る。この方式は多くの点で、データ・キャッシュなどで
の「ダーティ」ビットの使用と類似している。

【０１０４】データ処理システム２７０は、（本明細書
では命令キャッシュとして実装される）Ｌ２キャッシュ
２７４およびＬ３キャッシュ２７６と結合されたプロセ
ッサ２７２を含む。プロセッサ２７２は実行パイプ２７
８を含み、このパイプのうちの最初の４段のみが図示さ
れている。残りの２つの段は、本明細書で開示する他の
実施形態のパイプと同様に構成されるものと仮定する。
したがって、パイプライン２７８は、パイプの最初の４
段に対応する少なくとも４つの命令アドレス・レジスタ
２９４、２８０、２８２、および２８４と、パイプの段
２ないし４に対応する命令レジスタ２８６、２８８、お
よび２９０とを含む。

【０１０５】レベル１Ｉキャッシュ２９２が示されて
おり、命令アドレス・レジスタ２９４から供給されるア
ドレスに基づいてこのキャッシュから命令が取り出され
る。複数の命令、たとえば、２つの分岐パーセル２９
８、３０２を含む命令２９６がＩキャッシュ２９２内に
配設され、分岐パーセル２９８は分岐先アドレス・フィ
ールド３００を含み、パーセル３０２は履歴アドレス・
インデックス・フィールド３０４を含む。プロセッサ２
７２にはＬ１Ｉキャッシュ２９２用のディレクトリ３
０６も示されており、このディレクトリは複数のディレ
クトリ・エントリ、たとえば、命令２９６に対応するエ
ントリ３０８を含む。Ｌ１命令ディレクトリ３０６は従
来型の命令キャッシュ・ディレクトリと同様に構成され
る。ただし、このディレクトリは、変更ビット、たとえ
ば、ディレクトリ・エントリ３０８の場合は変更ビット
３１２の追加フィールド３１０も含む。

【０１０６】データ処理システム２７０で実行されるプ
リフェッチ動作および予測検証動作は図９のシステム２
２０と同一である。履歴データも、上記で図９に関して
論じたのと同様に更新され、すなわち、前の前の命令２
８４に記憶されているアドレスを使用してＬ１Ｉキャ
ッシュがインデックス付けされ、Ｌ１Ｉキャッシュに
記憶すべき実際の次の命令のアドレスが、ＩＲＥＧ２８
６内の命令の分岐先アドレス・フィールドから検索され
る。

【０１０７】また、論理ブロック３１３で、実際の次の
命令と、ＩＲＥＧ２９０内の命令に記憶されている予測
される次の命令とが比較され、履歴情報が変更されてい
るかどうかが判定される。そうである場合、ＶＬＩＷ命
令の対応するディレクトリ・エントリ用の変更ビット
が、この命令がＬ１Ｉキャッシュにキャッシュされて
から履歴データが更新されたことを示すようにセットさ
れる。

【０１０８】様々なキャッシュ・レベルの間、たとえ
ば、Ｌ１キャッシュとＬ２キャッシュの間のコヒーレン
シを維持するために、プロセッサ２７２でキャストアウ
ト・コントローラ３１４が使用される。コントローラ３
１４の基本動作を図１１に３２０で示す。コントローラ
３１４は一般に、データ・キャッシュ用のキャストアウ
ト・コントローラと同様に動作し、特定のキャッシュか
ら得た情報を、下位キャッシュから削除する際に上位レ
ベルに記憶しなければならないかどうかを判定する。

【０１０９】コントローラ３１４は原則的に、論理ブロ
ック３２２ですべてのＬ１命令アクセスをスヌープし、
そのようなアクセスによってＬ１ミスが生じるかどうか
を判定する（論理ブロック３２４）ことによって動作す
る。Ｌ１ミスが起こると、論理ブロック３２６で、最後
に使用された（ＬＲＵ）キャッシュ・ラインの変更ビッ
トがセットされているかどうかが判定される。変更ビッ
トがセットされている場合、制御が論理ブロック３２８
に渡され、Ｌ２キャッシュ内のＬＲＵＶＬＩＷ命令の
コピーに関する履歴データが更新され、Ｌ２キャッシュ
２７４（図２）のディレクトリ３１６用のディレクトリ
・エントリ中の変更ビットも、Ｌ２キャッシュが現在、
ＶＬＩＷ命令の更新済みコピーを含むことを示すように
更新される。これらの動作は、図１０にそれぞれ、１Ａ
および１Ｂとして示された矢印で表されている。

【０１１０】Ｌ２キャッシュ内のＶＬＩＷ命令およびデ
ィレクトリ情報が更新された後、制御が論理ブロック３
３０に渡され、Ｌ１Ｉキャッシュ内の最後に使用され
たキャッシュ・ラインに、（変更ビットを含め）Ｌ２キ
ャッシュから得たこのキャッシュ・ライン用の新しいＶ
ＬＩＷ情報およびディレクトリ・エントリがリロードさ
れる。これらの動作は、図１０に矢印２Ａおよび２Ｂで
表されている。

【０１１１】論理ブロック３２６に戻るとわかるよう
に、Ｌ１キャッシュ内の最後に使用されたキャッシュ・
ラインの変更ビットがセットされていない場合、論理ブ
ロック３２８がバイパスされ、論理ブロック３３０で実
行されるリロード動作の結果として、このキャッシュ・
ライン内の情報が破棄される。

【０１１２】図１０に戻るとわかるように、履歴データ
が更新されていないかぎり、キャスト・アウト・キャッ
シュ・ラインのＬ２キャッシュへのライト・バック動作
が回避され、それによってＬ２キャッシュへのアクセス
回数が減少し、Ｌ２キャッシュの性能が向上する。特
に、所与の分岐が、将来の実行で常に同じ経路をたどる
可能性が高いことに基づいて、履歴データがある期間の
後に安定化する傾向がある場合、履歴データはそれほど
頻繁には変更されず、したがって、Ｌ２アクセスの回数
は最小限に抑えられる。

【０１１３】同様な動作を実行し、すなわち、前述のア
ルゴリズムを使用してＬ２キャッシュ２７４およびＬ３
キャッシュ２７６用のディレクトリ３１６および３１８
を更新することにより、必要に応じて、Ｌ２キャッシュ
とＬ３キャッシュの間のコヒーレンスを維持できること
を理解されたい。さらに、このような動作を処理するた
めにプロセッサ２７２に追加のキャスト・アウト・コン
トローラを実装することが必要になることがある。キャ
スト・アウト動作を独立の構成要素にオフロードして同
じ機能を実行することもできる。

【０１１４】次に図１２を参照すると、追加の特徴を示
すためにデータ処理システム３４０が提示されている。
この特徴によって、プロセッサ３４１が様々な種類のＬ
２キャッシュと共に動作することを可能にするように履
歴データに可変オフセットを設けることができる。たと
えば、履歴データの可用性に対してそれぞれの異なるア
クセス時間を有するＬ２キャッシュを含む複数の実施態
様で所与のプロセッサ・コア設計を使用することができ
る。したがって、上記で図９および図１０に関して説明
した実施形態と同様に一定の２サイクル・オフセットを
維持するのではなく、必要に応じて任意の数のオフセッ
ト、たとえば、２つ、３つ、４つ、あるいは５つのオフ
セットを許容することが望ましい。プロセッサ３４１の
場合、これは、実行パイプ３４２の様々な段から取り出
すべきＬ１Ｉキャッシュ用のライトバック・アドレス
を供給する多重化方式を使用することによって実現され
る。

【０１１５】パイプ３４２は、ＩＡＲ３７０、３４４、
３４６、３４８、３５０、および３５２と、ＩＲＥＧ３
５６、３５８、３６０、３６２、および２６４とを使用
する６つの段を含むパイプとして示されている。レベル
１Ｉキャッシュ３６８はＩＡＲ３７０からアクセスさ
れ、比較ブロック３７２は、履歴データに基づいて行わ
れた予測を検証するために使用される。図９に関して説
明した実施態様と同様に、ＩＲＥＧ３５６に記憶されて
いる命令の分岐先アドレスは、新しい履歴情報および実
（正しい）アドレスとして使用され、この実アドレス
が、予測されるアドレスと比較される。しかし、命令ア
ドレス・レジスタの出力をパイプ３４２の１段のみから
取り出すのではなく、ＩＲＥＧ３４４、３４６、３４
８、および３５０から出力される別々のアドレス線が選
択ブロック３７４に与えられ、選択ブロック３７４の出
力が、比較ブロック３７２およびＬ１Ｉキャッシュ３
６８用の書込みアドレスに供給される。

【０１１６】選択ブロック３７４はデコーダ３７６によ
って制御され、デコーダ３７６は、Ｎビット・レジスタ
３７８によって選択された状態を有する。この実施態様
では、論理ブロック３７４から４つの可能なアドレスを
出力する場合、２ビット・レジスタを使用することがで
きる。通常、立上げ時にレジスタ３７８をロードし、装
置が動作している間一定数のサイクルを維持することが
望ましい。図１２に示す構成を用いた場合、Ｎ値０は１
サイクル・オフセットを表し、Ｎ値１、２、および３は
それぞれ、２サイクル・オフセット、３サイクル・オフ
セット、および４サイクル・オフセットを表す。このた
め、データ処理システム３４０のプロセッサ３４１は様
々な応用例で使用することができる。

【０１１７】本発明の趣旨および範囲から逸脱せずに図
の実施形態に様々な追加の修正を加えることができる。
たとえば、履歴アドレス・インデックスを命令中の履歴
データとして記憶する際、順次動作が行われることが検
出されたとき、すなわち、所与の命令が実行された後に
分岐が行われないことが検出されたときにＬ２キャッシ
ュへのアクセスを禁止することが望ましい。これによっ
て、Ｌ２キャッシュへのアクセス回数がさらに減少し、
それによってＬ２キャッシュの相対的な性能が向上す
る。

【０１１８】また、他の実施態様では、履歴が比較的頻
繁に変更される場合、履歴データの最後の変更が有用で
あったことを示す追加の確認ビットを含めることが望ま
しい。したがって、比較が行われたときはいつでも、確
認ビットを使用して最後の変更が肯定的なものであった
ことを示すことができる。

【０１１９】まとめとして、本発明の構成に関して以下
の事項を開示する。

【０１２０】（１）（ａ）複数の命令を記憶し、一次命
令キャッシュおよび二次命令キャッシュを含み、二次命
令キャッシュが、一次命令キャッシュよりも長いアクセ
ス時間を有する、メモリと、（ｂ）複数の予測される次
の命令を記憶し、各命令が、メモリに記憶されている命
令の後に実行すべき予測される命令を表す、命令履歴キ
ャッシュと、（ｃ）メモリ内の複数の命令のうちの第１
の命令を実行するように構成された少なくとも１つの実
行ユニットと、（ｄ）それぞれ、命令履歴キャッシュお
よび二次命令キャッシュから、第１の命令の後に実行す
べき予測される次の命令および実際の次の命令の検索を
開始するように構成され、さらに、予測される次の命令
が、第１の命令が実行された後に実行ユニットによって
実行されるように、予測される次の命令を実行ユニット
に供給するように構成された、プリフェッチ回路と、
（ｅ）それぞれ、命令履歴キャッシュおよび二次命令キ
ャッシュから、予測される次の命令および実際の次の命
令を受け取り、予測される次の命令と実際の次の命令が
一致しない場合に実行ユニットによる予測される次の命
令の実行を終了するように構成された予測検証回路とを
備える回路。（２）複数の命令がVery Long Word Instruction（ＶＬ
ＩＷ）である上記（１）に記載の回路。（３）一次キャッシュがレベル１命令キャッシュを含
み、二次キャッシュがレベル２キャッシュを含む上記
（１）に記載の回路。（４）さらに、実際の次の命令を第１の命令の予測され
る次の命令として記憶するように構成された履歴更新回
路を備える上記（１）に記載の回路。（５）実際の次の命令が、予測される次の命令と異なる
場合にのみ、実際の次の命令を予測される次の命令とし
て記憶するように履歴更新回路が構成される上記（４）
に記載の回路。（６）命令履歴キャッシュがＮサイクルのアクセス時間
を有し、履歴更新回路が、第１の命令からＮ−１サイク
ル前に実行される第２の命令のアドレスを介して命令履
歴キャッシュ内で、第１の命令の予測される次の命令が
アクセスされるように、第１の命令の予測される次の命
令を命令履歴キャッシュ内で命令Ｎ−１個分ずらすよう
に構成される上記（４）に記載の回路。（７）実行ユニットが、複数の段を備える実行パイプを
備え、命令履歴キャッシュが、データ入力に供給された
命令をアドレス入力に供給されたアドレスに記憶するよ
うに構成された書込みアクセス・ポートを含み、履歴更
新回路が、実行パイプの複数の段のうちの１つの段内の
命令レジスタを書込みアクセス・ポートのデータ入力と
電気的に結合する１組のデータ線と、実行パイプの複数
の段のうちのもう１つの段内のアドレス・レジスタを書
込みアクセス・ポートのアドレス入力と電気的に結合す
る１組のアドレス線とを備え、１組のデータ線が結合さ
れる段が、１組のアドレス線が結合される段からＮ−１
サイクルだけずれる上記（６）に記載の回路。（８）実行ユニットが、複数の段を備える実行パイプを
備え、命令履歴キャッシュが、データ入力に供給された
命令をアドレス入力に供給されたアドレスに記憶するよ
うに構成された書込みアクセス・ポートを含み、履歴更
新回路がさらに、実行パイプと命令履歴キャッシュの間
に挿入されたセレクタ回路を備え、セレクタ回路が、書
込みアクセスポートのデータ入力とアドレス入力の少な
くとも一方を実行パイプの様々な段と選択的に結合し、
セレクタ入力に応答して、第１の命令の予測される次の
命令を命令履歴キャッシュ内で命令１個分以上、制御可
能にずらすように構成される上記（６）に記載の回路。（９）予測検証回路が、それぞれ、命令履歴キャッシュ
および二次命令キャッシュから、予測される次の命令お
よび実際の次の命令を受け取り、これらの命令が一致し
ないことに応答して、実行ユニットに禁止信号を出力
し、予測される次の命令の実行を終了するように構成さ
れた比較ブロックを含む上記（１）に記載の回路。（１０）実行ユニットが、予測される次の命令の実行結
果を記憶するレジスタ書込み段を有する実行パイプを含
み、実行ユニットが、比較ブロックからの禁止信号に応
答して、予測される次の命令のレジスタ書込み段を禁止
するように構成される上記（９）に記載の回路。（１１）比較ブロックが、一次キャッシュからのミス信
号および二次キャッシュからのヒット信号によってイネ
ーブルされるように構成される上記（９）に記載の回
路。（１２）二次キャッシュが、命令履歴キャッシュよりも
Ｍサイクルだけ長いアクセス時間を有し、予測検証回路
がさらに、命令履歴キャッシュと比較ブロックの間に挿
入されたＭ段バッファを備える上記（９）に記載の回
路。（１３）実行ユニットが、一次キャッシュ、二次キャッ
シュ、および命令履歴キャッシュにアドレスを出力し、
一次キャッシュ、二次キャッシュ、および命令履歴キャ
ッシュへの並行アクセス動作を並行して開始するように
構成される上記（１）に記載の回路。（１４）実行ユニットが第１の集積回路デバイス内に配
設され、回路がさらに、第１の集積回路デバイスと結合
された複数のメモリ装置を備え、複数のメモリ装置がそ
れぞれ、二次キャッシュおよび命令履歴キャッシュのそ
れぞれ用のアドレス空間の一部を含み、各メモリ装置
が、予測される次の命令および実際の次の命令のそれぞ
れの一部を記憶し、予測検証回路が、（ａ）それぞれ、
複数のメモリ装置内に配設され、関連するメモリ装置に
記憶されている予測される次の命令の一部および実際の
次の命令の一部を受け取り、これらの部分が一致しない
ことに応答して第１の集積回路デバイスに部分比較信号
を出力するように構成された、複数の部分比較ブロック
と、（ｂ）第１の集積回路デバイス内に配設され、複数
の部分比較ブロックからの部分比較信号を組み合わせ、
部分比較信号のうちのどれかが、予測される次の命令と
実際の次の命令との間の不一致を示す場合に、予測され
る次の命令の実行を選択的に終了する禁止信号を生成す
るように構成された、マスタ比較ブロックとを備える上
記（１）に記載の回路。（１５）上記（１）の回路を備えるデータ処理システ
ム。（１６）上記（１）の回路を定義するハードウェア定義
プログラムと、ハードウェア定義プログラムを保持する
信号保持媒体とを備えるプログラム製品。（１７）信号保持媒体が、伝送型媒体と記憶可能媒体の
うちの少なくとも一方を含む上記（１６）に記載のプロ
グラム製品。（１８）（ａ）複数の命令が記憶された主記憶装置と、
（ｂ）主記憶装置と結合され、複数の命令の少なくとも
第１の部分を記憶する二次キャッシュと、（ｃ）各命令
が、複数の命令のうちの１つの後で実行すべき予測され
る命令を表す、複数の予測される次の命令が記憶された
命令履歴キャッシュと、（ｄ）二次キャッシュおよび命
令履歴キャッシュと結合されたプロセッサとを備え、プ
ロセッサが、（１）二次キャッシュと結合され、複数の
命令の少なくとも第２の部分を記憶し、二次命令キャッ
シュが、一次命令キャッシュよりも長いアクセス時間を
有する、一次命令キャッシュと、（２）複数の命令のう
ちの第１の命令を実行するように構成された少なくとも
１つの実行ユニットと、（３）それぞれ、命令履歴キャ
ッシュおよび二次命令キャッシュから、第１の命令の後
で実行すべき予測される次の命令および実際の次の命令
の検索を開始するように構成され、さらに、予測される
次の命令が、第１の命令が実行された後で実行ユニット
によって実行されるように、予測される次の命令を実行
ユニットに供給するように構成された、プリフェッチ回
路と、（４）それぞれ、命令履歴キャッシュおよび二次
命令キャッシュから、予測される次の命令および実際の
次の命令を受け取り、予測される次の命令と実際の次の
命令が一致しない場合に実行ユニットによる予測される
次の命令の実行を終了するように構成された予測検証回
路とを備えるデータ処理システム。（１９）二次命令キャッシュが一次命令キャッシュより
も長いアクセス時間を有する、一次命令キャッシュおよ
び二次命令キャッシュを含むメモリと結合された実行ユ
ニットによって実行される命令を推測的に取り出す方法
であって、（ａ）命令履歴キャッシュおよび二次命令キ
ャッシュから、実行ユニットによる第１の命令の実行後
で実行すべき予測される次の命令および実際の次の命令
の検索を並行して開始するステップと、（ｂ）予測され
る次の命令を、命令履歴キャッシュから受け取り、実行
ユニットによって実行されるようにこの実行ユニットに
供給するステップと、（ｃ）命令履歴キャッシュから受
け取った予測される次の命令と、二次キャッシュから受
け取った実際の次の命令を比較し、予測される次の命令
と実際の次の命令が一致しない場合に実行ユニットによ
る予測される次の命令の実行を終了するステップとを含
む方法。（２０）（ａ）複数の命令が記憶されたメモリと、
（ｂ）各命令が、メモリ内のある命令が実行されてから
少なくとも２サイクル後に実行すべき予測される命令を
表す、複数の予測される次の命令が記憶された命令履歴
キャッシュと、（ｃ）メモリからの第１の命令の実行を
開始し、その後でメモリからの第２の命令の実行を開始
するように構成された少なくとも１つの実行ユニット
と、（ｄ）実行ユニットによって第１の命令が実行され
るのと並行して、命令履歴キャッシュから得た第２の命
令の予測される次の命令をプリフェッチするように構成
されたプリフェッチ回路とを備える回路。（２１）メモリが一次命令キャッシュおよび二次命令キ
ャッシュを含み、二次命令キャッシュが一次命令キャッ
シュよりも長いアクセス時間を有し、プリフェッチ回路
がさらに、予測される次の命令がプリフェッチされるの
と並行して、二次命令キャッシュからの第２の命令の実
際の次の命令の検索を開始し、予測される次の命令が、
第１の命令が実行された後に実行ユニットによって実行
されるように、予測される次の命令を実行ユニットに供
給するように構成され、回路がさらに、それぞれ、命令
履歴キャッシュおよび二次命令キャッシュから、予測さ
れる次の命令および実際の次の命令を受け取り、予測さ
れる次の命令と実際の次の命令が一致しない場合に実行
ユニットによる予測される次の命令の実行を終了するよ
うに構成された予測検証回路を備える上記（２０）に記
載の回路。（２２）さらに、第２の命令から少なくとも２サイクル
後に実際に実行される命令を第２の命令の予測される次
の命令として記憶するように構成された履歴更新回路を
備える上記（２０）に記載の回路。（２３）命令履歴キャッシュがＮサイクルのアクセス時
間を有し、履歴更新回路が、第２の命令からＮ−１サイ
クル前に実行される第３の命令のアドレスを介して命令
履歴キャッシュ内で、第２の命令の予測される次の命令
がアクセスされるように、第２の命令の予測される次の
命令を命令履歴キャッシュ内で命令Ｎ−１個分ずらすよ
うに構成される上記（２２）に記載の回路。（２４）実行ユニットが、複数の段を備える実行パイプ
を備え、命令履歴キャッシュが、データ入力に供給され
た命令をアドレス入力に供給されたアドレスに記憶する
ように構成された書込みアクセス・ポートを含み、履歴
更新回路が、実行パイプの複数の段のうちの１つの段内
の命令レジスタを書込みアクセス・ポートのデータ入力
と電気的に結合する１組のデータ線と、実行パイプの複
数の段のうちの他の段内のアドレス・レジスタを書込み
アクセス・ポートのアドレス入力と電気的に結合する１
組のアドレス線とを備え、１組のデータ線が結合される
段が、１組のアドレス線が結合される段からＮ−１サイ
クルだけずれる上記（２３）に記載の回路。（２５）上記（２０）の回路を備えるデータ処理システ
ム。（２６）上記（２０）の回路を定義するハードウェア定
義プログラムと、ハードウェア定義プログラムを保持す
る信号保持媒体とを備えるプログラム製品。（２７）メモリと結合された実行ユニットによって実行
される命令を推測的に取り出す方法であって、（ａ）実
行ユニットによるメモリからの第１の命令の実行を開始
するステップと、（ｂ）第１の命令の実行を開始した
後、実行ユニットによるメモリからの第２の命令の実行
を開始するステップと、（ｃ）実行ユニットによって第
１の命令が実行されるのと並行して、命令履歴キャッシ
ュからの第２の命令の予測される次の命令をプリフェッ
チするステップとを含み、命令履歴キャッシュが、各命
令が、メモリ内のある命令が実行されてから少なくとも
２サイクル後に実行すべき予測される命令を表す、内部
に記憶された複数の予測される次の命令を有する方法。（２８）（ａ）各命令が、複数の命令のうちの１つが実
行された後に実行すべき予測される次の命令を識別する
内部に埋め込まれた履歴データを含む、複数の命令を記
憶するメモリと、（ｂ）メモリと結合され、メモリに記
憶されている第１の命令を実行するように構成された、
少なくとも１つの実行ユニットと、（ｃ）実行ユニット
によって第１の命令が実行されるのと並行して、第１の
命令の履歴データによって識別される予測される次の命
令の、メモリからの検索を開始するように構成されたプ
リフェッチ回路とを備える回路。（２９）複数の命令がそれぞれ、複数のパーセルを含む
Very Long Word Instruction（ＶＬＩＷ）であり、この
命令に関する履歴データが少なくとも１つのパーセルに
記憶される上記（２８）に記載の回路。（３０）各命令についての履歴アドレス・インデックス
が命令の最後のパーセルに記憶される上記（２９）に記
載の回路。（３１）複数の命令内の各命令が、その最後のパーセル
として、ＮＯＯＰパーセルと分岐パーセルの一方を含む
上記（３０）に記載の回路。（３２）最後のパーセルとして分岐パーセルを有する任
意の命令が第２の分岐パーセルを含み、任意の所与の命
令中の分岐パーセルが、メモリ内の同じキャッシュ・ラ
インに分岐する分岐先アドレスを含み、それによって、
最後のパーセル中の分岐パーセル用の分岐先アドレスが
その履歴アドレス・インデックスで置き換えられる上記
（３１）に記載の回路。（３３）メモリが一次命令キャッシュおよび二次命令キ
ャッシュを含み、プリフェッチ回路が、第１の命令中の
履歴アドレス・インデックスを使用して二次キャッシュ
にアドレスすることにより、第１の命令の履歴データに
よって識別される予測される次の命令の検索を開始する
ように構成され、二次命令キャッシュが、履歴アドレス
・インデックスを受け取ったことに応答して、一次命令
キャッシュのアクセス時間よりも長いＮサイクルのアク
セス時間を有する上記（２９）に記載の回路。（３４）第１の命令に関する履歴データが、第１の命令
からＮサイクル後に実行すべき第２の命令の予測される
次の命令を識別する上記（３３）に記載の回路。（３５）プリフェッチ回路がさらに、実行ユニットによ
る予測される次の命令の実行を開始するように構成さ
れ、回路がさらに、（ａ）第２の命令の後で実行される
予測される次の命令および実際の次の命令のアドレスを
比較し、予測される次の命令のアドレスと実際の次の命
令のアドレスが一致しない場合に実行ユニットによる予
測される次の命令の実行を終了するように構成された予
測検証回路と、（ｂ）第２の命令の後で実行される実際
の次の命令のアドレスに関連付けされたアドレス・イン
デックスを第１の命令に関する履歴データとして記憶す
るように構成された履歴更新回路とを備える上記（３
４）に記載の回路。（３６）実行ユニットが、複数の段を備える実行パイプ
を備え、一次命令キャッシュが、データ入力に供給され
たアドレス・インデックスをアドレス入力に供給された
アドレスに記憶するように構成された書込みアクセス・
ポートを含み、履歴更新回路が、実行パイプの複数の段
のうちの１つの段内の命令レジスタを書込みアクセス・
ポートのデータ入力と電気的に結合する１組のデータ線
と、実行パイプの複数の段のうちの他の段内のアドレス
・レジスタを書込みアクセス・ポートのアドレス入力と
電気的に結合する１組のアドレス線とを備え、１組のデ
ータ線が結合される段が、１組のアドレス線が結合され
る段からＮサイクルだけずれる上記（３５）に記載の回
路。（３７）実行ユニットが、複数の段を備える実行パイプ
を備え、一次命令キャッシュが、データ入力に供給され
たアドレス・インデックスをアドレス入力に供給された
アドレスに記憶するように構成された書込みアクセス・
ポートを含み、履歴更新回路がさらに、実行パイプと一
次命令キャッシュの間に挿入されたセレクタ回路を備
え、セレクタ回路が、書込みアクセス・ポートのデータ
入力とアドレス入力の少なくとも一方を実行パイプの様
々な段と選択的に結合し、セレクタ入力に応答して、第
２の命令の予測される次の命令を命令履歴キャッシュ内
で命令１個分以上、制御可能にずらすように構成される
上記（３５）に記載の回路。（３８）一次キャッシュ内の各命令に、その命令に関連
する履歴データが変更されたかどうかを示す変更インデ
ィケータが関連付けられ、回路がさらに、予測される次
の命令のアドレスと実際の次の命令が一致しない場合に
第１の命令用の変更インディケータをセットするように
構成されたアドレス比較ブロックを備える上記（３５）
に記載の回路。（３９）さらに、一次命令キャッシュおよび二次命令キ
ャッシュと結合されたキャストアウト・コントローラを
備え、キャストアウト・コントローラが、第１の命令用
の変更インディケータがセットされたときに一次命令キ
ャッシュ内の第１の命令のコピーが置き換えられること
に応答して二次命令キャッシュ内の第１の命令のコピー
に関する履歴データを更新するように構成される上記
（３８）に記載の回路。（４０）上記（２８）の回路を備えるデータ処理システ
ム。（４１）上記（２８）の回路を定義するハードウェア定
義プログラムと、ハードウェア定義プログラムを保持す
る信号保持媒体とを備える製品。（４２）命令を推測的に取り出す方法であって、（ａ）
複数の命令のうちの１つが実行された後に実行すべき予
測される次の命令を識別する内部に埋め込まれた履歴デ
ータを含む、メモリに記憶されている複数の命令のうち
の第１の命令を実行するステップと、（ｂ）第１の命令
を実行することに並行して、第１の命令の履歴データに
よって識別される予測される次の命令のメモリからの検
索を開始するステップとを含む方法。

【図面の簡単な説明】

【図１】本発明による命令履歴を使用するＶＬＩＷデー
タ処理システムのブロック図である。

【図２】図１のプロセッサと命令履歴キャッシュとＬ２
キャッシュとの間の相互接続を示すブロック図である。

【図３】ＶＬＩＷ命令を推測的に検索する際に使用され
る構成要素を示す、本発明による命令履歴キャッシュを
使用する他のＶＬＩＷデータ処理システム用の命令キャ
ッシング階層のブロック図である。

【図４】図３および図５のＶＬＩＷデータ処理システム
においてＶＬＩＷ命令を検索し履歴データを更新する間
に実行される命令のシーケンスのタイミングを示すタイ
ミング図である。

【図５】命令履歴キャッシュ内の履歴データを更新する
際に使用される構成要素を示す、図３の命令キャッシン
グ階層のブロック図である。

【図６】図３および図５のデータ処理システムを用いて
命令を取り出す間に実行される動作を示すフローチャー
トである。

【図７】図７は、一体化された外部Ｌ２／命令履歴キャ
ッシュを実現する、本発明による他のＶＬＩＷデータ処
理システムのブロック図である。

【図８】本発明による方法で命令内に履歴データを埋め
込むのに適したＶＬＩＷ命令用のビット・マッピングの
ブロック図である。

【図９】推測的にＶＬＩＷ命令を検索しＶＬＩＷ命令内
に埋め込まれた履歴データを更新する際に使用される構
成要素を示す、本発明による他のＶＬＩＷデータ処理シ
ステムのブロック図である。

【図１０】ＶＬＩＷ命令を様々なキャッシュ階層レベル
でキャッシュする際にこの命令に埋込み履歴データを維
持するのに適したマルチレベル・キャッシュ階層を示
す、本発明による他のＶＬＩＷデータ処理システムのブ
ロック図である。

【図１１】図１０のＬ１／Ｌ２キャストアウト・コント
ローラによって使用されるキャストアウト・アルゴリズ
ムのフローチャートである。

【図１２】制御可能なずれをもつ履歴データ更新機構を
示す、本発明による他のＶＬＩＷデータ処理システムの
ブロック図である。

【符号の説明】

１２プロセッサ１８主記憶装置２０入出力サブシステム２２システム相互接続２４Ｌ３キャッシュ２６Ｌ２キャッシュ２８Ｌ１Ｄキャッシュ３０Ｌ１Ｉキャッシュ３２レジスタ・ファイル３８復号論理４０分岐ユニット４２命令履歴キャッシュ４４Ｌ２ディレクトリ４８ＩＡＲインデックス５２プロセッサ５４Ｌ２キャッシュ５６命令履歴キャッシュ５８Ｌ１Ｉキャッシュ９２比較ブロック

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｆ 12/08 ５１１Ｇ０６Ｆ 12/08 ５１１Ｂ５７３５７３ (72)発明者デーヴィッド・アーノルド・ルイクアメリカ合衆国55906 ミネソタ州ロチェスターホーソーン・ヒル・ロードノースイースト2317 Ｆターム(参考） 5B005 JJ13 KK12 KK23 MM02 MM03 MM05 NN23 NN66 VV00 5B013 BB01 BB02 BB18 DD00 DD10 5B033 AA02 CA19 DB06

Claims

【特許請求の範囲】

【請求項１】（ａ）各命令が、複数の命令のうちの１つ
が実行された後に実行すべき予測される次の命令を識別
する内部に埋め込まれた履歴データを含む、複数の命令
を記憶するメモリと、（ｂ）メモリと結合され、メモリに記憶されている第１
の命令を実行するように構成された、少なくとも１つの
実行ユニットと、（ｃ）実行ユニットによって第１の命令が実行されるの
と並行して、第１の命令の履歴データによって識別され
る予測される次の命令の、メモリからの検索を開始する
ように構成されたプリフェッチ回路とを備える回路。
【請求項２】複数の命令がそれぞれ、複数のパーセルを
含むVery Long Word Instruction（ＶＬＩＷ）であり、
この命令に関する履歴データが少なくとも１つのパーセ
ルに記憶される請求項１に記載の回路。
【請求項３】各命令についての履歴アドレス・インデッ
クスが命令の最後のパーセルに記憶される請求項２に記
載の回路。
【請求項４】複数の命令内の各命令が、その最後のパー
セルとして、ＮＯＯＰパーセルと分岐パーセルの一方を
含む請求項３に記載の回路。
【請求項５】最後のパーセルとして分岐パーセルを有す
る任意の命令が第２の分岐パーセルを含み、任意の所与
の命令中の分岐パーセルが、メモリ内の同じキャッシュ
・ラインに分岐する分岐先アドレスを含み、それによっ
て、最後のパーセル中の分岐パーセル用の分岐先アドレ
スがその履歴アドレス・インデックスで置き換えられる
請求項４に記載の回路。
【請求項６】メモリが一次命令キャッシュおよび二次命
令キャッシュを含み、プリフェッチ回路が、第１の命令
中の履歴アドレス・インデックスを使用して二次キャッ
シュにアドレスすることにより、第１の命令の履歴デー
タによって識別される予測される次の命令の検索を開始
するように構成され、二次命令キャッシュが、履歴アド
レス・インデックスを受け取ったことに応答して、一次
命令キャッシュのアクセス時間よりも長いＮサイクルの
アクセス時間を有する請求項２に記載の回路。
【請求項７】第１の命令に関する履歴データが、第１の
命令からＮサイクル後に実行すべき第２の命令の予測さ
れる次の命令を識別する請求項６に記載の回路。
【請求項８】プリフェッチ回路がさらに、実行ユニット
による予測される次の命令の実行を開始するように構成
され、回路がさらに、（ａ）第２の命令の後で実行される予測される次の命令
および実際の次の命令のアドレスを比較し、予測される
次の命令のアドレスと実際の次の命令のアドレスが一致
しない場合に実行ユニットによる予測される次の命令の
実行を終了するように構成された予測検証回路と、（ｂ）第２の命令の後で実行される実際の次の命令のア
ドレスに関連付けされたアドレス・インデックスを第１
の命令に関する履歴データとして記憶するように構成さ
れた履歴更新回路とを備える請求項７に記載の回路。
【請求項９】実行ユニットが、複数の段を備える実行パ
イプを備え、一次命令キャッシュが、データ入力に供給
されたアドレス・インデックスをアドレス入力に供給さ
れたアドレスに記憶するように構成された書込みアクセ
ス・ポートを含み、履歴更新回路が、実行パイプの複数
の段のうちの１つの段内の命令レジスタを書込みアクセ
ス・ポートのデータ入力と電気的に結合する１組のデー
タ線と、実行パイプの複数の段のうちの他の段内のアド
レス・レジスタを書込みアクセス・ポートのアドレス入
力と電気的に結合する１組のアドレス線とを備え、１組
のデータ線が結合される段が、１組のアドレス線が結合
される段からＮサイクルだけずれる請求項８に記載の回
路。
【請求項１０】実行ユニットが、複数の段を備える実行
パイプを備え、一次命令キャッシュが、データ入力に供
給されたアドレス・インデックスをアドレス入力に供給
されたアドレスに記憶するように構成された書込みアク
セス・ポートを含み、履歴更新回路がさらに、実行パイ
プと一次命令キャッシュの間に挿入されたセレクタ回路
を備え、セレクタ回路が、書込みアクセス・ポートのデ
ータ入力とアドレス入力の少なくとも一方を実行パイプ
の様々な段と選択的に結合し、セレクタ入力に応答し
て、第２の命令の予測される次の命令を命令履歴キャッ
シュ内で命令１個分以上、制御可能にずらすように構成
される請求項８に記載の回路。
【請求項１１】一次キャッシュ内の各命令に、その命令
に関連する履歴データが変更されたかどうかを示す変更
インディケータが関連付けられ、回路がさらに、予測さ
れる次の命令のアドレスと実際の次の命令が一致しない
場合に第１の命令用の変更インディケータをセットする
ように構成されたアドレス比較ブロックを備える請求項
８に記載の回路。
【請求項１２】さらに、一次命令キャッシュおよび二次
命令キャッシュと結合されたキャストアウト・コントロ
ーラを備え、キャストアウト・コントローラが、第１の
命令用の変更インディケータがセットされたときに一次
命令キャッシュ内の第１の命令のコピーが置き換えられ
ることに応答して二次命令キャッシュ内の第１の命令の
コピーに関する履歴データを更新するように構成される
請求項１１に記載の回路。
【請求項１３】請求項１の回路を備えるデータ処理シス
テム。
【請求項１４】請求項１の回路を定義するハードウェア
定義プログラムと、ハードウェア定義プログラムを保持
する信号保持媒体とを備える製品。
【請求項１５】命令を推測的に取り出す方法であって、（ａ）複数の命令のうちの１つが実行された後に実行す
べき予測される次の命令を識別する内部に埋め込まれた
履歴データを含む、メモリに記憶されている複数の命令
のうちの第１の命令を実行するステップと、（ｂ）第１の命令を実行することに並行して、第１の命
令の履歴データによって識別される予測される次の命令
のメモリからの検索を開始するステップとを含む方法。