JP3072705B2

JP3072705B2 - スーパースカラ・プロセッサの電力消費を減少させる回路及び方法

Info

Publication number: JP3072705B2
Application number: JP07186862A
Authority: JP
Inventors: ガビィ・ジェイ・セーレム; テリー・リー・ウィークレイ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1994-08-04
Filing date: 1995-07-24
Publication date: 2000-08-07
Anticipated expiration: 2015-07-24
Also published as: JPH0877000A; US5623615A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、概して云えば、マイク
ロプロセッサの設計に関するものであり、詳しく云え
ば、プリフェッチ・バッファ、命令キャッシュ、及びヒ
ストリ・ビットを持ったブランチ・ターゲット・キャッ
シュを有するスーパースカラ・プロセッサによって消費
される電力を、その命令キャッシュへの不必要なプリフ
ェッチ・アクセスを減らすことによって減少させるため
の回路及び方法に関するものである。

【０００２】

【従来の技術】パーソナル・コンピュータ・システムは
その分野ではよく知られている。一般に、パーソナル・
コンピュータ・システムは、詳しくは、ＩＢＭパーソナ
ル・コンピュータ・システムは、今日の近代科学におけ
る多くの分野にコンピュータ・パワーを提供するための
広範囲の用途を得ている。パーソナル・コンピュータ
は、一般に、デスクトップ・マイクロコンピュータ、床
置き型マイクロコンピュータ、或いはポータブルマイク
ロコンピュータとして定義される。それらは、単一の中
央処理装置（ＣＰＵ）、すべてのＲＡＭ及びＢＩＯＳ−
ＲＯＭを含む関連の揮発性メモリ及び不揮発性メモリ、
システム・モニタ、キーボード、１つ又は複数個のフレ
キシブル・ディスケット・ドライブ、固定ディスク記憶
ドライブ（ハード・ドライブとしても知られている）、
いわゆるマウス指示装置、及びオプショナル・プリンタ
より成る。これらシステムの顕著な特性の１つは、これ
らコンポーネントを電気的に一体に接続するためにマザ
ー・ボード又はシステム・プレーナを使用することであ
る。これらのシステムは、主として、独立した計算パワ
ーを単一のユーザに与えるように設計され、そして個人
或いは小企業による購入のために安価に価格づけされて
いる。そのようなパーソナル・コンピュータ・システム
の例は、ＩＢＭ社のパーソナル・コンピュータＡＴ（Ｉ
ＢＭＰＣ／ＡＴ）、パーソナル・システム／１（ＩＢ
ＭＰＳ／１）、パーソナル・システム／２（ＩＢＭ
ＰＳ／２）である。

【０００３】パーソナル・コンピュータ・システムは、
一般に、ワード処理、表計算を介したデータの操作、デ
ータベースにおけるデータの収集及び比較、グラフィッ
クスの表示、システム設計ソフトウエアを使用した電気
的又は機械的システムの設計等のような種々のアクティ
ビティを遂行するようソフトウエアを走らせるために使
用される。

【０００４】そのようなシステムの心臓部はマイクロプ
ロセッサ又は中央処理装置（ＣＰＵ）（集合的に「プロ
セッサ」と呼ばれる）である。そのプロセッサは、アプ
リケーション・プログラムを機能させる責任のあるアク
ションの殆どを遂行する。システムの実行能力はＣＰＵ
に密接に関連している。ＣＰＵがプログラム命令を実行
できる速度が速ければ速いほど、システムは全体として
速く実行することができる。

【０００５】初期のプロセッサは、比較的遅いシステム
・メモリからの命令を実行し、しかも１つの命令を実行
するために数クロック・サイクルを必要とした。それら
はメモリから命令を読み取り、その命令をデコードし、
必要なアクティビティを遂行し、そしてその結果をメモ
リに書き戻していた。それらはすべて、達成するために
１乃至数サイクルを必要とした。

【０００６】アプリケーションがプロセッサからの更な
るパワーを必要としたので、内部及び外部キャッシュ・
メモリがプロセッサに加えられた。キャッシュ・メモリ
（以後、キャッシュと呼ぶ）は、プロセッサ内に又はプ
ロセッサ外に設けられた、或いは、プロセッサに近接し
て接続された非常に速いメモリのセクションである。命
令のブロックは比較的遅いシステムＤＲＡＭから更に速
いキャッシュにコピーされ、そこでそれらはプロセッサ
によって実行される。

【０００７】アプリケーションがプロセッサからの更な
るパワーを必要としたので、スーパースカラ・プロセッ
サが開発された。スーパースカラ・プロセッサは、１ク
ロック・サイクル当たり複数個の命令を実行することが
できるプロセッサである。スーパースカラ・プロセッサ
のよく知られた例は、「ＰＥＮＴＩＵＭ」という商標で
インテル社によって製造されている。そのＰＥＮＴＩＵ
Ｍプロセッサは、プリフェッチ・バッファ、命令キャッ
シュ、及びブランチ・ターゲット・キャッシュを使用し
てメモリに対するフェッチを減少させている。それは、
１クロック・サイクル当たり１命令以下にプロセッサを
低速化する傾向がある。

【０００８】命令キャッシュは、プロセッサ内に置かれ
た非常に高速のメモリのセクションである。命令は命令
キャッシュから非常に速く実行される。命令ブロックは
遅いシステム・メモリから命令キャッシュに移動させら
れろ。その場合、プロセッサのバッファ、デコーダ、及
び実行装置は、素早くそれらをアクセスすることができ
る。

【０００９】実行されるべき次の命令がそのキャッシュ
内にある場合、命令キャッシュは処理をスピード・アッ
プする。しかし、実行されている現在の命令がそのコー
ドでブランチを生じさせ得る命令である場合、その後の
命令が命令キャッシュ内にある確率は劇的に減少し、キ
ャッシュの外の領域へのブランチは、キャッシュが比較
的遅いＤＲＡＭからコード・ブロックをロードされるま
でプロセッサにその遅いＤＲＡＭからのコードを実行さ
せるので、プロセッサはかなりスロー・ダウンする。

【００１０】ブランチ・ターゲット・バッファとしても
知られたブランチ・ターゲット・キャッシュは、遅いシ
ステムＤＲＡＭからの読み出しを生じさせるブランチの
問題に対する１つの一般的な解決策である。ブランチ・
ターゲット回路はその分野ではよく知られている。

【００１１】ブランチ・ターゲット・キャッシュは、遅
いシステムＤＲＡＭからの望ましくない実行を回避する
場合に有用な情報を保持する。それらは、予測されたタ
ーゲット・アドレス及びヒストリ・ビットのようなデー
タを保持する。そのヒストリ・ビットは、特定の予測さ
れたターゲット・アドレスが過去において取られたかど
うかの表示（ＰＥＮＴＩＵＭプロセッサの場合）、及び
予測されたアドレスにおける最初の数ラインのコードの
表示（アドバンスト・マイクロ・デバイス社により製造
されたＡｍ２９０００プロセッサの場合）を与える。ブ
ランチ・ターゲット・キャッシュを使用することは、プ
ロセッサがその予測されたターゲット・アドレスにおい
てコードの一部分をフェッチすることを可能にし、その
フェッチの時間がそのメモリ領域の大部分を命令キャッ
シュにロードすることを可能にし、それによって、キャ
ッシュからの連続した実行を可能にすると共に遅いシス
テムＤＲＡＭからの不必要な実行を防ぐ。

【００１２】プリフェッチ・バッファは、１つ又は複数
個の命令を含む１ラインのコードを記憶するバッファで
ある。キャッシュ・アクセス・サイクル中、次に実行さ
れるべきコードのラインがキャッシュに存在する場合、
それは命令デコーダによりデコードするためにプリフェ
ッチ・バッファに移動する。次に実行されるべきコード
のラインがキャッシュに存在しない場合、命令は遅いシ
ステムＤＲＡＭからフェッチされ、命令デコーダによる
デコードのためにプリフェッチ・バッファにロードされ
る。

【００１３】これらのコンポーネントを使用して、プロ
セッサは非常に速い実行時間を得る。これらプロセッサ
の処理能力が望ましいものであるほど、それらは大量の
電力を消費する傾向がある。プロセッサは、命令キャッ
シュ及びブランチ・ターゲット・キャッシュを非常に頻
繁にアクセスし、遅いシステムＤＲＡＭへの不必要なア
クセスを防いでいる。しかし、キャッシュによって消費
される電力はキャッシュの帯域幅に直接に比例する（そ
の帯域幅は単位時間当たりのアクセスの数、例えば、１
秒当たりのアクセスの数として定義される）。従って、
キャッシュが頻繁にアクセスされればされるほど、プロ
セッサが消費する電力は多くなる。従って、キャッシュ
の使用により生じたパフォーマンスの増加は、プロセッ
サによって消費される電力の増加を伴う。この電力消費
は、プロセッサ全体をオーバーヒートして障害を生じさ
せる可能性を含む多くの有害な影響を持ち、場合によっ
ては、それによって回復不能なデータ喪失を導くことが
ある。

【００１４】そのようなプロセッサによって消費される
電力を減少させようとする従来の方法は、プロセッサに
おける或るサブ回路への電力を除去すること又はＣＰＵ
クロックを延ばす（正規の場合よりも１クロック・サイ
クル当たりの実行されるべき命令を少なくさせる）こと
に焦点を合わせる傾向がある。そのような技法を使用す
ることによって、製造業者は、それらのパーソナル・コ
ンピュータ・システムが他の同様なシステムよりも少な
い電力エネルギしか消費しないため、それらのコンピュ
ータ・システムが環境的に望ましいものであることを表
す「グリーン」マシーンとしてそのパーソナル・コンピ
ュータ・システムを呼んでいる。消費される電力を減少
させるためのこれらの試みは成功してはいるが、プロセ
ッサ・パフォーマンスを減少させるという損失でもって
電力を減少させるという望ましくない副作用を持ってい
る。

【００１５】

【発明が解決しようとする課題】従って、本発明の主た
る目的は、スーパースカラ・プロセッサにより消費され
る電力の量を、プロセッサ・パフォーマンスの同様な減
少なしに減少させることにある。

【００１６】

【課題を解決するための手段】本発明によれば、キャッ
シュへの不必要なプリフェッチ・アクセスを減らすこと
により、パフォーマンス能力における大きな減少なしに
スーパースカラ・プロセッサによって消費される電力を
減少させるための回路及び方法が提供される。命令キャ
ッシュ及びブランチ・ターゲット・キャッシュがアクセ
スされる頻度が少なくなればなるほど、プロセッサによ
って消費される電力は小さくなるであろう。

【００１７】その回路は、ＰＥＮＴＩＵＭプロセッサの
ようなプロセッサにおける典型的なプリフェッチ・バッ
ファで見られるバッファ長を利用する。各ブランチ命令
に対して、命令キャッシュ及びブランチ・ターゲット・
キャッシュがアクセスされ、予測されたブランチ・ター
ゲットのアドレスがそのブランチ・ターゲット・キャッ
シュ内に存在するかどうか及びそのブランチ・ターゲッ
ト・アドレスにおける命令を含むコード・ブロックがそ
の命令キャッシュ内に存在するかどうかを決定する。こ
れらのアクセスは大量の電力を消費する。本発明の回路
では、ブランチされるべき命令が現在プリフェッチ・バ
ッファ内にある時、キャッシュ・プリフェッチを防ぐた
めの回路を加えることによってプロセッサのパワーにお
ける付随した減少なしに電力が節約される。

【００１８】従って、本発明の利点は、命令キャッシュ
の不必要なアクセスを防ぐことである。

【００１９】本発明のもう１つの利点は、命令キャッシ
ュからの不必要なプリフェッチを防ぐことによってプロ
セッサにおいて消費される電力を減少させるための回路
及び方法を提供することである。

【００２０】本発明の更なる利点は、システム・パフォ
ーマンスの減少なしに、低い電気的エネルギ消費という
環境的に望ましい品質を持ったコンピュータ・システム
を提供することである。

【００２１】本発明のこれらの利点及びその他の利点
は、本発明の詳細な説明から更に明らかに成ろう。

【００２２】

【実施例】図１を参照すると、本発明の拡張スーパース
カラ・マイクロプロセッサを具体化したマイクロコンピ
ュータが示され、１０として全体的に表わされる。その
コンピュータは、関連のモニタ１４、キーボード１２、
及びプリンタ又はプロッタ１６を有する。

【００２３】図２を参照すると、コンピュータ１０は装
飾的な外側部材２０及び内側シールド部材２２によって
形成されたカバー１８を有する。それら部材はシャーシ
２８と共同して、ディジタル・データを処理及び記憶す
るための電気的にパワー供給されるデータ処理コンポー
ネント及び記憶コンポーネントを受けるための密閉され
且つ封止されたボリュームを形成する。これらコンポー
ネントのうちの少なくともいくつかは、シャーシ２８上
に装着された多層のプレーナ・ボード２６又はマザー・
ボード上に装着され、上記のコンポーネントを含むコン
ピュータ１０のコンポーネント及びフロッピ・ディスク
・ドライブ、種々の形式のダイレクト・アクセス記憶装
置、アクセサリ・カード又はボード等のような他の関連
素子を電気的に相互接続するための構造体を与える。後
で更に十分に説明するように、プレーナ・ボード２６に
は、マイクロコンピュータの動作素子との間で入力信号
及び出力信号を搬送するための設備が設けられる。

【００２４】図２を更に参照すると、シャーシ２８は、
２４として示されたベース、３０として示された前面パ
ネル、及び３２として示された後面パネルを有する。前
面パネル３０は、磁気ディスク又は光ディスク用ディス
ク・ドライブ、テープ・バックアップ・ドライブ等のよ
うなデータ記憶装置を受けるための少なくとも１つのオ
ープン・ベイ（図示の形式では、４つのベイ）を形成す
る。図示の場合、一対のアッパー・ベイ３４、３６及び
一対のロア・ベイ３８、４０が設けられる。アッパー・
ベイの１つ３４は第１のサイズの周辺装置ドライブ
（３.５インチ・ドライブのような公知のもの）を受容
するようになっており、一方、もう１つのベイ３６は２
つのサイズ（３.５インチ及び５.２５インチのような）
のうちの選択されたもののドライブを受容するようにな
っている。ロア・ベイは、唯一のサイズ（３.５イン
チ）のドライブを受容するようになっている。図１に
は、１つのフロッピ・ディスク・ドライブが１５として
示され、それは、一般に知られているように、挿入され
たディスケットを受けそしてデータを受領、記憶、及び
配送するために使用することができる取り外し可能媒体
のダイレクト・アクセス記憶装置である。

【００２５】上記の構造を本発明に関連付ける前に、パ
ーソナル・コンピュータ・システム１０の一般的なオペ
レーションの概要を復習することにする。図３を参照す
ると、本発明に従ってコンピュータ・システム１０の種
々のコンポーネントを示すパーソナル・コンピュータ・
システムのブロック図が示され、それはプレーナ・ボー
ド２６（図２参照）上に装着されたコンポーネント及び
そのパーソナル・コンピュータ・システムの入出力（Ｉ
／Ｏ）スロット及び他のハードウエアへのそのプレーナ
の接続を含んでいる。プレーナ・ボード２６には、シス
テム・プロセッサ（ＣＰＵ）４２が接続される。図示の
実施例では、ＣＰＵ４２は、インテル社により販売され
ているＰＥＮＴＩＵＭプロセッサである。ＣＰＵ４２
は、高速ＣＰＵホスト・バス４４によってキャッシュ／
メモリ・コントローラ及びホスト・ブリッジ４６、デー
タ・パス・ユニット５０、及び第２レベル・キャッシュ
・メモリ（Ｌ２キャッシュ）５２に接続される。

【００２６】キャッシュ／メモリ・コントローラ及びホ
スト・ブリッジ４６はバス５４を介してＬ２キャッシュ
５２に接続され、バス５６を介してシステム・メモリ４
８に接続される。キャッシュ／メモリ・コントローラ及
びホスト・ブリッジ４６はＬ２キャッシュ５２及びシス
テム・メモリ４８の制御機能を統合し、ホスト（ＣＰＵ
４２）、システム・メモリ４８、及び周辺コンポーネン
ト相互接続（ＰＣＩ）バス６０の間の転送のためのアド
レス・パス及びバス制御を行う。ＰＣＩバス６０は多数
の周辺コンポーネント及びアド・イン・カードをサポー
トする３２ビット・データ・バスを使用する。

【００２７】ホスト（ＣＰＵ４２）、システム・メモリ
４８、及びＰＣＩバス６０の間のバス・オペレーション
時に、キャッシュ／メモリ・コントローラ及びホスト・
ブリッジ４６はアドレス・パス及びバス制御を行う。
又、キャッシュ／メモリ・コントローラ及びホスト・ブ
リッジ４６はデータ・パス・ユニット５０を介してデー
タ・フローを制御する。

【００２８】データ・パス・ユニット５０は、ホスト
（ＣＰＵ４２）、システム・メモリ４８、及びＰＣＩバ
ス６０の間のデータ・パス接続を行う。システム・メモ
リ４８はデータ・バス５８を介してデータ・パス・ユニ
ット５０にインターフェースされ、それによって、デー
タがシステム・メモリ４８へ及びシステム・メモリ４８
から伝送される。キャッシュ／メモリ・コントローラ及
びホスト・ブリッジ４６及びデータ・パス・ユニット５
０はシステム・メモリ４８への及びＰＣＩバス６０から
ホスト（ＣＰＵ４２）への全機能データ・パス接続を行
う。

【００２９】ＰＣＩバス６０は、更に、複数個のＰＣＩ
バス拡張スロット６２（３つのスロットが示される）、
システムＩ／Ｏブリッジ・コントローラ６４、及びビデ
オ・コントローラ６６に接続される。システムＩ／Ｏブ
リッジ・コントローラ６４はＰＣＩバス６０とインダス
トリ・スタンダード・アーキテクチャ（ＩＳＡ）バス７
２（又は、エンハンスト・インダストリ・スタンダード
・アーキテクチャ（ＥＩＳＡ）バス；図示されていな
い）との間のブリッジを提供し、現在のＩＳＡ（又は、
ＥＩＳＡ）ベースのＰＣシステムで見られる共通のＩ／
Ｏ機能の多くを統合する。バス６７を介してグラフィッ
ク情報を記憶するためのビデオＲＡＭ７０と関連付けら
れたビデオ・コントローラ６６は、高性能グラフィック
スに必要な大量のデータがビデオ・コントローラ６６に
素早く伝送されるのを可能にするようにＰＣＩバス６０
にインターフェースされる。ビデオ・コントローラ６６
によって発生されたビデオ信号はディジタル・アナログ
・コンバータ（ＤＡＣ）６８を介してビデオ・ディスプ
レイ・ターミナル又は他のディスプレイ装置に送られ
る。

【００３０】一般には、ＩＳＡ拡張スロット７４（６個
が図示されている）、ＩＤＥハード・ディスク・コント
ローラ７６、フロッピ・ディスク・コントローラ（ＦＤ
Ｃ）７８、フラッシュＰＲＯＭ（ＢＩＯＳ）８０、リア
ル・タイム・クロック（ＲＴＣ）８２、キーボード／マ
ウス・コントローラ８４、直列／並列コントローラ８
６、及び音声コントローラ８８のような種々の周辺装置
がＩＳＡバス７２に接続される。

【００３１】上記説明は多少の特異性を伴って記述され
ているが、本発明が他のハードウエア構成と関連して使
用可能であることは勿論である。例えば、イーサネット
・コントローラ、マルチメディア・コントローラ、小型
コンピュータ・システム・インターフェースＩＩ（Ｓ
ＣＳＩＩＩ）コントローラのような他の周辺コンポー
ネントがＰＣＩバス６０に付加可能である。

【００３２】本発明の詳細を説明する前に、従来技術の
スーパースカラ・マイクロプロセッサの説明が本発明の
利点を理解する場合に有効であろう。従って、従来技術
のスーパースカラ・マイクロプロセッサ４２を示す図４
を参照する。

【００３３】典型的な従来技術のスーパースカラ・マイ
クロプロセッサ４２は、命令キャッシュ１０２、命令デ
コーダ１０６、ブランチ・ターゲット・キャッシュ１０
８、プリフェッチ・バッファ１０４、制御装置１１０、
実行装置１１２、マイクロコードＲＯＭ１１４、及び選
択的には、浮動小数点装置（ＦＰＵ）１１６を含む。シ
ステム・メモリ１１８は命令キャッシュ１０２及び実行
装置１１２と回路コミュニケーション関係にある。

【００３４】命令キャッシュ１０２は、ブランチ・ター
ゲット・キャッシュ１０８、プリフェッチ・バッファ１
０４、及び実行装置１１２と回路コミュニケーション関
係にある。複数個のプリフェッチ・アドレス線１２０
は、変換索引バッファ（ＴＬＢ）１２１を介して命令キ
ャッシュ１０２をブランチ・ターゲット・キャッシュ１
０８に接続し、特定の命令が命令キャッシュ１０２に現
在存在するかどうかを決定するためにそのブランチ・タ
ーゲット・キャッシュ１０８が命令キャッシュ１０２に
照会するのを可能にする。複数個のプリフェッチ・キャ
ッシュ・バッファ線１２２は命令キャッシュ１０２をプ
リフェッチ・バッファ１０４に接続し、命令キャッシュ
１０２からプリフェッチ・バッファ１０４への命令のフ
ェッチを可能にする。複数個のアドレス線１４２及びデ
ータ線１４４は、バス装置１４０を介して命令キャッシ
ュ１０２をシステム・メモリ１１８に接続し、システム
・メモリ１１８から命令キャッシュ１０２への命令コー
ドのブロックのフェッチを可能にする。又、アドレス線
１４２及びデータ線１４４は、実行装置によって要求さ
れたデータの検索のために、バス装置１４０を介して実
行装置１１２をシステム・メモリ１１８に接続する。

【００３５】命令デコーダ１０６はブランチ・ターゲッ
ト・キャッシュ１０８、制御措置１１０、プリフェッチ
・バッファ１０４、及びマイクロコードＲＯＭ１１４と
回路コミュニケーション関係にある。複数個の命令ポイ
ンタ線１２４は制御装置１１０をブランチ・ターゲット
・キャッシュ１０８に接続する。それによって、ブラン
チ・ターゲット・キャッシュ１０８は、システム・メモ
リ１１８から命令キャッシュ１０２への命令コードの直
列ブロック転送を指示する。複数個のプリフェッチ命令
デコーダ線１２６は命令デコーダ１０６をプリフェッチ
・バッファ１０４に接続し、プリフェッチ・バッファ１
０４に現在記憶されている命令がマイクロコードへのデ
コードのために命令デコーダ１０６にロードされるのを
可能にする。複数個のデコーダ・制御装置線１２８ａ及
び１２８ｂは命令デコーダ１０６を制御装置１１０に接
続し、マイクロコードＲＯＭ１１４に従ってプロセッサ
・アーキテクチャを導入するために遂行されなければな
らないオペレーションのシーケンスを制御装置１１０が
管理することを可能にする。複数個のデコーダ・マイク
ロコードＲＯＭ線１３０は命令デコーダ１０６をマイク
ロコードＲＯＭ１１４に接続し、そのマイクロコードＲ
ＯＭ１１４に記憶されたルーチンを必要とする複雑な命
令のデコーディングを容易にする。複数個のマイクロコ
ードＲＯＭ・制御装置線１３２ａ及び１３２ｂはマイク
コードＲＯＭ１１４を制御装置１１０に接続し、マイク
コードＲＯＭ１１４がスーパースカラ・マイクロプロセ
ッサ内のすべてのパイプラインを通して直接制御を行う
ことを可能にする。

【００３６】複数個の制御・実行装置線１３４ａ及び１
３４ｂは制御装置１１０を実行装置１１２に接続し、命
令の更なるデコーディング及びマイクロコードＲＯＭ１
１４が必要とする他のすべてのオペレーションが実行装
置１１２において行われることを可能にする。複数個の
制御・ＦＰＵ線１３５は制御装置１１０をＦＰＵ１１６
に接続し、浮動小数点数の数学的オペレーションの実施
を可能にする。更に、制御装置１１０は、すべてのオペ
レーションの適正なタイミング及び管理を容易にするた
めに、周知の方法（図示されてない）ですべてのプロセ
ッサ回路に接続される。

【００３７】実行装置１１２は、更に、ＦＰＵ１１６、
ブランチ・ターゲット・キャッシュ１０８、及びシステ
ム・メモリ１１８にも接続される。複数個の実行・ＦＰ
Ｕ線１３６ａ及び１３６ｂは、乗算、除算、及び加算の
ような浮動小数点数の数学的オペレーションの実行のた
めに実行装置１１２をＦＰＵ１１６に接続する。複数個
のブランチ検証及びターゲット・アドレス線１４６は実
行装置１１２をブランチ・ターゲット・キャッシュ１０
８に接続し、ブランチ・ターゲット・キャッシュ１０８
におけるブランチ・ターゲット予測アルゴリズムにおい
て使用されるヒストリ・ビットの更新を可能にする。

【００３８】本発明のオペレーション、利点、及び細部
の理解を容易にするために、従来技術のスーパースカラ
・マイクロプロセッサのオペレーションの検討は復習に
値する。従来技術のスーパースカラ・マイクロプロセッ
サ１００のオペレーションはデュアル・パイプライン・
アーキテクチャに基づいている。

【００３９】命令キャッシュ１０２、ブランチ・ターゲ
ット・キャッシュ１０８、及びプリフェッチ・バッファ
１０４は生の命令をスーパースカラ・マイクロプロセッ
サ１００の実行装置１１２へ入れるように働く。命令キ
ャッシュ１０２は、典型的には、２５６個のライン（又
は、ワード）形式の８キロバイト・メモリを含む。な
お、各ライン（又は、ワード）は３２バイトの長さであ
る。一般に、プリフェッチ・バッファ１０４内にある記
憶バッファは、３２バイトの命令キャッシュ１０２のラ
インの長さと比較される。各３２バイト・ライン内に含
まれる命令の数は、そこに存在する命令のタイプで変わ
る。

【００４０】命令は命令キャッシュ１０２から、又はバ
ス装置１４０及び外部アドレス・バス１３８ａ、データ
・バス１３８ｂ及び制御バス１３８ｃを介してシステム
・メモリ１１８からフェッチされる。ブランチ・ターゲ
ット・キャッシュ１０８はブランチ・ターゲット・アド
レスを保持し、ブランチが実際にそのターゲット・アド
レスに行われたかどうかに関する情報をヒストリ・ビッ
トの形で記憶する。マイクロコードＲＯＭ１１４は、ス
ーパースカラ・マイクロプロセッサ・アーキテクチャを
導入するために遂行されなければならないオペレーショ
ンのシーケンスを制御するマイクロコードを有する。
又、マイクロコードＲＯＭ１１４は、スーパースカラ・
マイクロプロセッサにおけるすべてのパイプラインを介
した直接制御も有する。

【００４１】各パイプラインは次のような５つのステー
ジより成る。即ち、（１）プリフェッチ（以下、ＰＦと記す）（２）命令デコード（以下、Ｄ１と記す）（３）アドレス発生（以下、Ｄ２と記す）（４）実行−ＡＬＵ及びキャッシュ・アクセス（以下、
ＥＸと記す）（５）書戻し（以下、ＷＢと記す）

【００４２】パイプラインの第１ステージはプリフェッ
チ（ＰＦ）ステージである。命令は命令キャッシュ１０
２又はシステム・メモリ１１８からプリフェッチされ
る。リクエストされた命令ラインが命令キャッシュ１０
２内にない場合、システム・メモリの参照が行われて、
その命令がシステム・メモリ１１８から取り出される。
ＰＦステージにおいて、ライン・サイズ・プリフェッチ
・バッファの少なくとも２つの独立した対（以下、基本
プリフェッチ・バッファ及び代替プリフェッチ・バッフ
ァと記す；図１０参照）がプリフェッチ・バッファ１０
４に含まれ、ブランチ・ターゲット・キャッシュ１０８
と関連して動作する。これは、一組のプリフェッチ・バ
ッファ（即ち、基本プリフェッチ・バッファ）が命令を
順次にプリフェッチすることを可能にし、一方、他のプ
リフェッチ・バッファ（即ち、代替プリフェッチ・バッ
ファ）がブランチ・ターゲット・キャッシュ１０８に従
ってブランチ予測をプリフェッチする。これらプリフェ
ッチ・バッファは、一方の対が予測されたブランチ命令
をいつもプリフェッチし、他方の対が順次命令をプリフ
ェッチするように、それらのプリフェッチ・パスを交互
に動作させる。

【００４３】次のパイプライン・ステージはデコード
（Ｄ１）ステージである。命令デコーダ１０６内にある
２つの並列デコーダ（各パイプラインに対して１つ）が
デコードして、２つの命令を発生しようとする。それら
デコーダは、１つ又は２つの命令が一組の命令組合せル
ール次第で発生可能であるかどうかを決定する。その命
令組合せルールを理解することは本発明にとって本質的
なことではなく、従って、これ以上それを説明しない。

【００４４】Ｄ１ステージの主要な機能はブランチ予測
である。ブランチ予測は、一般には、予測アルゴリズム
を介してブランチ・ターゲット・キャッシュ１０８にお
いて実施される。ブランチ・ターゲット・キャッシュ１
０８は、ブランチ・ターゲット命令の線形アドレスでも
ってＤ１ステージでアクセスされる。ブランチ・ターゲ
ット・キャッシュ１０８は、デコードされた各ブランチ
命令に対して１つの予測されたターゲット・アドレスを
記憶する。ブランチ・ターゲット・キャッシュ１０８で
は、各ブランチ・ターゲット・アドレスはそれと関連し
た一組のヒストリ・ビットを有し、それらヒストリ・ビ
ットはブランチ・ターゲット・キャッシュ１０８の予測
アルゴリズムによって使用される。それらヒストリ・ビ
ットは、各予測誤り又は正しいブランチ予測の後、実行
ステージ（後述参照）において更新される。

【００４５】Ｄ１ステージに続いて第２デコード（Ｄ
２）ステージが生じ、メモリに存在するオペランドのア
ドレスが計算される。これらは、変位及び即時アドレス
の両方を含む命令、又はベース及びインデックスアドレ
ス・モードを含む命令を含んでいる。

【００４６】パイプラインの実行（ＥＸ）ステージは、
ＡＬＵオペレーション及びデータ・キャッシュ・アクセ
スの両方に対してプロセッサにより使用される。ＥＸス
テージでは、条件付きブランチを除く第１パイプライン
におけるすべての命令及び第２パイプラインにおけるす
べての命令がブランチ・ターゲット・キャッシュ１０８
における正しいブランチ予測に関して検証される。

【００４７】最終ステージ、即ち、書戻し（ＷＢ）ステ
ージは、命令がプロセッサ状態を修正しそして実行を完
了させることを可能にされるステージである。このステ
ージでは、第２パイプライン条件付きブランチがブラン
チ・ターゲット・キャッシュ１０８における正しいブラ
ンチ予測に関して検証される。

【００４８】プリフェッチ命令はスーパースカラ・マイ
クロプロセッサのオペレーションを改良したけれども、
それは最大のエネルギ効率的な態様で実施されたわけで
はなかった。従来のスーパースカラ・マイクロプロセッ
サがプリフェッチを実施する非効率性は下記の２つのシ
ナリオ、即ち、シナリオ（Ａ）及びシナリオ（Ｂ）によ
って例示される。それらシナリオは命令キャッシュから
の不必要なプリフェッチを生じる。これら不必要なプリ
フェッチは命令キャッシュの帯域幅（即ち、アクセスの
数）を増加させ、それによって、スーパースカラ・マイ
クロプロセッサによって消費される電力の量を増加させ
る。

【００４９】図５及び図６に示されたシナリオ（Ａ）
は、ブランチ命令及びそれのブランチ・ターゲット・ア
ドレスが同じ３２バイト・ライン内（図５では１４７と
して示され、図６では１４８として示される）にある時
に生じる。このようなシナリオでは、３２バイト命令ラ
インは基本プリフェッチ・バッファ又は代替プリフェッ
チ・バッファ（図１０参照）にある。一旦ブランチ・タ
ーゲット・アドレスがデコードされると、ブランチ・タ
ーゲット・キャッシュは、ブランチ・ターゲット・アド
レスを含む命令ライン（図５では１４７として示され、
図６では１４８として示される）を代替プリフェッチ・
バッファにロードさせる。これは既に基本プリフェッチ
・バッファにある同じ命令ラインであるので、プリフェ
ッチ・バッファは命令キャッシュからの不必要なプリフ
ェッチを行っている。命令キャッシュからのこの不必要
なプリフェッチは電力を浪費するという望ましくない影
響を持つ。

【００５０】図７に示されたシナリオ（Ｂ）は、１つの
３２バイト・ライン１５２のブランチ命令が先行の３２
バイト・ライン１５０内にあるブランチ・ターゲット・
アドレスを有する時に生じる。このシナリオでは、基本
プリフェッチ・バッファは、先ず、命令ライン１５０及
び１５２を含む（前記ＰＦステージの説明参照）。一旦
デコーダがライン境界１５１ａを横切ると、次に続く命
令ライン１５２ａがフェッチされ、基本プリフェッチ・
バッファにおける命令ライン１５０を置換する。ブラン
チ・ターゲット・アドレスがデコードされた後、ブラン
チ・ターゲット・キャッシュは命令ライン１５０を、次
に続く命令ライン、即ち、命令ライン１５２と共に代替
プリフェッチ・バッファにロードさせるであろう（それ
がブランチのターゲットを持っているため）。当初、命
令ライン１５０は基本プリフェッチ・バッファに存在し
ていたので、そのプリフェッチ・バッファは３つの不必
要なプリフェッチを行っていた。従って、シナリオ
（Ａ）において、命令キャッシュは、既にプリフェッチ
・バッファに存在していた情報を検索するためにアクセ
スされ、シナリオ（Ｂ）では、プリフェッチ・バッファ
にそのまま残したい命令ラインを上書きするプリフェッ
チが行われた。シナリオ（Ｂ）において、命令ライン１
５０が次に続く命令ラインによって上書きされていなか
った場合、必要な命令ラインはプリフェッチ・バッファ
に存在したであろう。従って、プロセッサは、そのプリ
フェッチ・バッファが必要な情報を含んでいた場合、命
令キャッシュからそのプリフェッチ・バッファに情報を
取り出すエネルギを浪費していたことになる。

【００５１】本発明の下では、従来技術のスーパースカ
ラ・マイクロプロセッサにおいて、命令キャッシュから
の命令のプリフェッチは、既にそのような命令がプリフ
ェッチ・バッファにある場合、排除されるように修正さ
れる。命令キャッシュへの不必要なアクセスを除くこと
によって、キャッシュ帯域幅（即ち、命令キャッシュ・
アクセスの数）は減少する。キャッシュ帯域幅の減少の
結果、命令キャッシュ・アクセスの数がかなり減少する
ため、スーパースカラ・マイクロプロセッサがオペレー
ション中に消費する電力量が減少する。

【００５２】図９を参照すると、プリフェッチ禁止回路
２７２において本発明の１つの実施例を組み込んだ拡張
スーパースカラ・マイクロプロセッサが２７８として示
される。本発明の図示の実施例は一般的なスーパースカ
ラ・マイクロプロセッサに組み込まれるので、従来技術
のスーパースカラ・マイクロプロセッサに関して前述し
た接続関係及び動作関係の説明の多くが図示の実施例の
説明に適用可能である。従って、この説明は、図示の実
施例の詳細事項及びそれによって生じた強調事項に焦点
を合わせる。

【００５３】図９において、プリフェッチ禁止回路２７
２はブランチ・ターゲット・キャッシュ１０８、プリフ
ェッチ・バッファ１０４、制御装置１００、及び実行装
置１１２と回路コミュニケーション関係にある。複数個
のプリフェッチ・ターゲット・アドレス線２０８はプリ
フェッチ禁止回路２７２をブランチ・ターゲット・キャ
ッシュ１０８に接続し、それによって、ブランチ・ター
ゲット・アドレスが分析のためにプリフェッチ禁止回路
２７２に入力される。複数個のバッファ・禁止回路線２
７６はプリフェッチ・バッファ１０４をプリフェッチ禁
止回路２７２に接続し、それによって、プリフェッチ・
バッファ１０４の内容がプリフェッチ禁止回路２７２に
与えられる。複数個のプリフェッチ禁止・制御装置線２
７４は制御装置１１０をプリフェッチ禁止回路２７２に
接続し、それによって、プリフェッチ禁止回路２７２に
おけるオペレーションが（後述するように）制御装置１
１０における或る信号に応答して行われる。複数個のブ
ランチ検証及びターゲット・アドレス線２１６は実行装
置１１２をプリフェッチ禁止回路２７２に接続し、それ
によって、実行装置１１２により発生されたブランチ検
証及びターゲット・アドレスが分析のためにプリフェッ
チ禁止回路２７２に入力される。

【００５４】図１０には、本発明のプリフェッチ禁止回
路２７２の実施例の第１部分１５３の機能的ブロック図
が示される。第１部分１５３は、次のような場合、命令
キャッシュから不必要なプリフェッチを排除するように
設計される。即ち、（１）順方向ブランチ又は逆方向ブ
ランチが同じ３２バイト・ライン内にあるターゲット・
アドレスを有する時（前記シナリオ（Ａ））、及び
（２）順方向ブランチが次に続く３２バイト・ライン内
に含まれるターゲット・アドレスを有し、そのラインが
既にプリフェッチ・バッファに与えられている時。

【００５５】図１０を参照すると、第１部分１５３は第
１基本プリフェッチ・バッファ１５４を含み、そのバッ
ファ１５４は複数個の第１基本プリフェッチ・バッファ
出力線１６６を介して第１セレクタ１６２と回路コミュ
ニケーション関係にある。同様に、第１代替プリフェッ
チ・バッファ１５８は複数個の第１代替プリフェッチ・
バッファ出力線１７０を介して第１セレクタ１６２と回
路コミュニケーション関係にある。第２基本プリフェッ
チ・バッファ１５６は、複数個の第２基本プリフェッチ
・バッファ出力線１６８を介して第２セレクタ１６４と
回路コミュニケーション関係にある。同様に、第２代替
プリフェッチ・バッファ１６０は、複数個の第２代替プ
リフェッチ・バッファ出力線１７２を介して第２セレク
タ１６４と回路コミュニケーション関係にある。基本／
代替プリフェッチ・バッファ選択信号１７４はブランチ
・ターゲット・キャッシュ１０８を第１セレクタ１６２
及び第２セレクタ１６４に接続し、それによって、デー
タ選択が達成される。

【００５６】第１比較器１７８は第１セレクタ１６２及
びブランチ・ターゲット１０８と回路コミュニケーショ
ン関係にある。複数個の第１セレクタ出力線１８２は、
第１セレクタ１６２によって選択されたデータを第１比
較器１７８に送る。複数個のブランチ・ターゲット・ア
ドレス線１８４はブランチ・ターゲット・キャッシュ１
７６から第１比較器１７８にブランチ・ターゲット・ア
ドレスを送る。同様に、第２比較器１８０は第２セレク
タ１６４及びブランチ・ターゲット・キャッシュ１７６
に電気的に接続される。複数個の第２セレクタ出力線１
８６は第２セレクタ１６４によって選択されたデータを
第２比較器１８０に送る。ブランチ・ターゲット・アド
レスも、複数個のブランチ・ターゲット・アドレス線１
８４を介して第２比較器１８０に送られる。

【００５７】２入力ＯＲゲート１９２は第１比較器出力
線１８８及び第２比較器出力線１９０を介して第１比較
器１７８及び第２比較器１８０の出力を受ける。禁止キ
ャッシュ選択線１９４はその２入力ＯＲゲート１９２の
出力を命令キャッシュ１０２（図９に示される）及び第
１インバータ・ゲート２２８（図１１に示される）に搬
送する。

【００５８】図１１には、本発明のプリフェッチ禁止回
路２７２の第２部分１９６の概略的ブロック図が示され
る。前述のシナリオ（Ｂ）（図７に示される）における
命令キャッシュからの不必要なプリフェッチを除くよう
めに第２部分１９６は設計される。第２部分１９６は、
プリフェッチ・ロックがディスエーブルにされるまで、
スーパースカラ・マイクロプロセッサが命令をプリフェ
ッチすることをディスエーブルにするようプリフェッチ
・ロックするという概念を使用する。

【００５９】図１１を参照すると、第２部分１９６は、
プリフェッチ・ロック分析回路２８０、プリフェッチ・
ロック・リセット回路２８２、プリフェッチ・ロック回
路２８４、及びＲ−Ｓラッチ２６０を含む。プリフェッ
チ・ロック分析回路２８０は、比較器１９８、減算器２
１０、比較器２１４、ＡＮＤゲート２２０、及び種々の
相互接続線（後述する）を含む。プリフェッチ・ロック
・リセット回路２８２はインバータ・ゲート２２８、３
入力ＡＮＤゲート２４２、２４４、２４６、２入力ＯＲ
ゲート２５４、及びそれらの間の相互接続線（後述す
る）を含む。プリフェッチ・ロック回路２８４は３入力
ＡＮＤゲート２６２を含む。上記回路及びラッチは図１
１に示されるように相互に接続され、且つ命令キャッシ
ュ１０２、制御装置１１０、実行装置１１２、及びブラ
ンチ・ターゲット・キャッシュ１０８に相互接続され
る。又、図１１には、関連あるパイプライン・ステージ
が示され、そこでは、本発明の拡張スーパースカラ・マ
イクロプロセッサによって種々な機能が達成される。

【００６０】以下の動作関連の説明では、すべて、各線
の初期状態は低レベルであり、アドレス線及びバッファ
はすべてエンプティである。又、本発明のオペレーショ
ンの理解を助けるために、正ロジック（正状態又は高レ
ベル状態は「１」の論理レベルに等しく、負状態又は低
レベル状態は「０」の論理レベルに等しい）が使用され
る。正ロジックの使用は限定的に解釈されるべきではな
く、負ロジック（正状態又は高レベル状態は「０」の論
理レベルに等しく、負状態又は低レベル状態は「１」の
論理レベルに等しい）も実施例の説明及び実施において
使用することが可能である。

【００６１】図５、図６、及び図８を参照すると、第１
部分１５３（図１０参照）は、次のような場合、命令キ
ャッシュから不必要なプリフェッチを除くように設計さ
れる。即ち、（１）順方向ブランチ又は逆方向ブランチ
が同じ３２バイト・ライン内にあるターゲット・アドレ
スを有する時（図５及び図６参照）、及び（２）順方向
ブランチが次に続く３２バイト・ラインを指すターゲッ
ト・アドレスを有し且つそのラインが既にプリフェッチ
・バッファに与えられている時。

【００６２】図５、図６、及び図１０を参照すると、３
２バイト命令ライン１４７及び１４８は第１部分１５３
によって同様に処理され、基本プリフェッチ・バッファ
１５４及び１５６又は代替プリフェッチ・バッファ１５
８及び１６０に存在する。従って、命令ライン１４７が
基本プリフェッチ・バッファ１５４及び１５６に存在す
る時に説明の焦点を合わせる。

【００６３】一旦命令ライン１４７がプリフェッチ・バ
ッファに与えられると、それは命令デコーダによってデ
コードされる。命令ライン１４７は順方向ブランチ命令
を含むので、そのブランチ命令はブランチのターゲット
・アドレスと共にデコードされるであろう。一旦ブラン
チ・ターゲット・アドレスが発生されると、それはブラ
ンチ・ターゲット・キャッシュ１０８に送られる。基本
プリフェッチ・バッファは現在利用されているので、基
本／代替プリフェッチ・バッファ選択線１７４は低レベ
ルであり、第１セレクタ１６２及び第２セレクタ１６４
の出力は出力線１８２及び１８６において基本プリフェ
ッチ・バッファ１５４及び１５６の内容を含んでいる
（表１参照）。

【００６４】

【表１】

【００６５】今や、プリフェッチ・バッファ１５４及び
１５６の内容は第１比較器１７８及び第２比較器１８０
に入力され、ブランチ・ターゲット・アドレス線１８４
に存在するブランチ・ターゲット・アドレスに比較され
る。ブランチ・ターゲット・アドレスが基本プリフェッ
チ・バッファ１５４内に含まれる場合、第１比較器出力
線１８８が高レベルに駆動され、２入力ＯＲゲート１９
２の出力における禁止キャッシュ選択線１９４を高レベ
ルに駆動させる。ブランチ・ターゲット・アドレスが基
本プリフェッチ・バッファ１５６内に含まれる場合、第
２比較器出力線１９０が高レベルに駆動され、２入力Ｏ
Ｒゲート１９２の出力における禁止キャッシュ選択線１
９４を高レベルに駆動させる。禁止キャッシュ選択線１
９４は命令キャッシュをディスエーブルするので、プリ
フェッチが生じることはない。

【００６６】命令ライン１４７が代替プリフェッチ・バ
ッファ１５８及び１６０内に存在する場合、回路オペレ
ーションは、基本プリフェッチ・バッファに関する前述
の説明と同じである。簡単に云えば、基本プリフェッチ
・バッファ１５８及び１６０の内容はセレクタ１６２及
び１６４の出力に現れるように選択され（表１参照）、
しかる後、比較器１７８及び１８０によってブランチ・
ターゲット・アドレスに比較される。ブランチ・ターゲ
ット・アドレスが代替プリフェッチ・バッファ１５８又
は１６０の１つに含まれる場合、２入力ＯＲゲート１９
２の出力における禁止キャッシュ選択線１９４は高レベ
ルに駆動され、それによって如何なるプリフェッチもデ
ィスエーブルする。

【００６７】図８及び図１０を参照すると、その状況
は、順方向ブランチが次に続く命令ライン１５７を指す
ターゲットを有し且つライン１５７が既にプリフェッチ
・バッファに与えられている時に生じる。そのような状
況では、第１部分１５３は、必要な命令ラインが既にプ
リフェッチ・バッファ内に存在するので、プリフェッチ
をディスエーブルするであろう。そのような状況は、次
のような場合に生じる。即ち、（１）命令ライン１５５
が基本プリフェッチ・バッファ１５４に存在し且つ命令
ライン１５７が既に基本プリフェッチ・バッファ１５６
に与えられている時、又は（２）命令ライン１５５が代
替プリフェッチ・バッファ１５８に存在し且つ命令ライ
ン１５７が既に代替プリフェッチ・バッファ１６０に与
えられている時。

【００６８】第１部分１５３は基本プリフェッチ・バッ
ファ及び代替プリフェッチ・バッファを同様な態様で扱
う。従って、本願の説明は基本プリフェッチ・バッファ
に焦点を合わすことにする。プリフェッチは連続した命
令ラインのブロックを命令キャッシュからフェッチする
ことによって達成されるので、命令ライン１５５は基本
プリフェッチ・バッファ１５４にロード可能であり、そ
れは次に続く命令ライン１５７を基本プリフェッチ・バ
ッファ１５６へロードさせる（プロセッサのプリフェッ
チ・オペレーションに従って）であろう。

【００６９】命令ライン１５５は順方向ブランチ命令を
含むので、そのブランチ命令はブランチのターゲット・
アドレスと共にデコードされるであろう。一旦ブランチ
・ターゲット・アドレスが発生されると、それはブラン
チ・ターゲット・キャッシュ１０８に送られる。基本プ
リフェッチ・バッファが現在利用されているので、基本
／代替プリフェッチ・バッファ選択線１７４は下位レベ
ルであり、第１セレクタ１６２及び第２セレクタ１６４
の出力はセレクタ出力線１８２及び１８６において基本
プリフェッチ・バッファ１５４及び１５６の内容を含ん
でいる（表１参照）。

【００７０】プリフェッチ・バッファ１５４及び１５６
の内容は、今や、第１比較器１７８及び第２比較器１８
０に入力され、そしてブランチ・ターゲット・アドレス
線１８４におけるブランチ・ターゲット・アドレスに比
較される。ブランチ・ターゲット・アドレスは基本プリ
フェッチ・バッファ１５６内に含まれるので、第２比較
器出力線１９０は高レベルに駆動され、２入力ＯＲゲー
ト１９２の出力における禁止キャッシュ選択線１９４を
高レベルに駆動させる。今や、プリフェッチはディスエ
ーブルされる。図示の実施例では、禁止キャッシュ選択
線１９４はプリフェッチ・バッファ装置又は命令キャッ
シュに直接に接続される。

【００７１】図７、図１０、及び図１１を参照すると、
第２部分１９６は、１つの命令ライン１５２におけるブ
ランチ命令が先行の命令ライン１５０内にあるブランチ
・ターゲット・アドレスを有する時、プリフェッチを排
除するように設計される。そのような状況が生じる時、
第２部分１９６はプリフェッチを禁止し、それによって
エネルギを節約する。

【００７２】第２部分１９３は基本プリフェッチ・バッ
ファ及び代替プリフェッチ・バッファを同じ態様で扱
う。従って、本願の説明は基本プリフェッチ・バッファ
にだけ焦点を合わせることにする。命令ライン１５０は
基本プリフェッチ・バッファ１５４にロードされ、しか
る後、次に続く命令ライン１５２が基本プリフェッチ・
バッファ１５６にロードされるであろう（表２における
ステップ１参照）。命令ライン１５０は命令デコーダ
（図示されていない）によってデコードされて実行さ
れ、命令ライン１５２が続くであろう。プロセッサの正
規のオペレーションの一部分として、デコーダがライン
境界１５１ａを横切る時、次に続く命令ライン１５２ａ
に対するプリフェッチがリクエストされ、その命令ライ
ン１５２ａは基本プリフェッチ・バッファ１５４にロー
ドされ、命令ライン１５０を置換する（表２におけるス
テップ２参照）。

【００７３】命令ライン１５２は、ターゲット・アドレ
スが先行の命令ライン１５０に含まれる逆方向ブランチ
命令であるので、第２部分１９６はこれを検出してブラ
ンチ・ターゲット・キャッシュ内のプリフェッチ・ロッ
ク状態をセットし、又、命令ライン１５０及び１５２が
代替プリフェッチ・バッファ１５８及び１６０にロード
されるであろう（表２のステップ３参照）。ブランチ・
ターゲット・アドレスはＥＸステージにおいて実行装置
１１２により発生され、ターゲット・アドレス・バス２
１６を介して比較器２１４に入力される。

【００７４】

【表２】

【００７５】現在の命令ライン１５２のアドレス（代替
プリフェッチ・バッファ１６０に記憶される）はプリフ
ェッチ・ターゲット・アドレス・バス２０８上に置かれ
る。そこで、減算器２１０はそのアドレス値を１だけ減
算し、この値を比較器２１４に入力する。そのターゲッ
ト・アドレスを含む命令ラインのアドレスが先行の命令
ライン・アドレス（代替プリフェッチ・バッファ１５８
に現在記憶されている命令ライン）に等しい場合、比較
器２１４の出力線２１８は高レベルに駆動され、そして
ＡＮＤゲート２２０に入力される。ターゲット命令ライ
ンへのブランチが実際に行われる場合、実行装置１１２
はブランチ実行線２２２を高レベルに駆動し、ＡＮＤゲ
ート２２０に入力させる。出力線２１８及び２２２が両
方とも高レベルに駆動される時、ＡＮＤゲート２２０の
出力線２２４も高レベルに駆動され、ブランチ・ターゲ
ット・キャッシュ１０８に入力される。

【００７６】出力線２２４が高レベルに駆動される時、
ブランチ・ターゲット・キャッシュ１０８におけるセッ
ト・プリフェッチ・ロック状態機能がトリがされる。そ
のセット・プリフェッチ・ロック状態機能は、一対のヒ
ストリ・ビットの状態を進めるそのブランチ・ターゲッ
ト・キャッシュにおける単一の状態機械（ｓｔａｔｅｍ
ａｃｈｉｎｅ）より成る。プリフェッチ・ロック状態が
存在することを表すようにヒストリ・ビットが所定値に
セットされる前に、前の命令ラインにおけるターゲット
・アドレスへの少なくとも１つの逆方向ブランチが必要
である。

【００７７】デコーダは、ライン境界１５１ａを横切る
まで代替プリフェッチ・バッファ１５８からの命令ライ
ン１５０を処理し続けるであろう。そして、そのライン
境界１５１ａを横切った時、後続の命令ライン１５２ａ
に対して新しいプリフェッチ・リクエストが発生され
る。命令ライン１５２ａは命令ライン１５０を置換し、
代替プリフェッチ・バッファ１５８にロードされるであ
ろう（表２のステップ４参照）。デコーダが命令ライン
１５２における第２時間の間に逆方向ブランチに遭遇す
る時、第２部分１９６は、ターゲット・アドレスのプリ
フェッチが完了した後にプリフェッチ禁止信号２７０を
セットするであろう。ヒストリ・ビットはヒストリ・ビ
ット・バス２０４を介して比較器１９８に入力され、予
め定義された一定のプリフェッチ・ロック状態値２０２
に比較される。ヒストリ・ビットはブランチ・ターゲッ
ト・キャッシュ１０８によってプリフェッチ・ロック状
態値２０２に等しくセットされているので、比較器１９
８は出力線２２６を高レベルに駆動し、それをプリフェ
ッチ・ロック・リセット回路２８２及びプリフェッチ・
ロック回路２８４に入力する。プリフェッチ禁止信号２
７０は低レベルであるので、ＡＮＤゲート２４２、２４
４、及び２４６はラッチ２６０のリセットをブロックし
そしてＡＮＤゲート２６２をイネーブルするであろう。

【００７８】ブランチ・ターゲットがプリフェッチされ
る時、比較器１９８の出力線２２６は高レベルであり、
そのプリフェッチが完了する時、プリフェッチ完了線２
６８は高レベルに駆動され、そしてラッチ２６０の出力
線（Ｑ'）２６６は高レベルであるので、ＡＮＤゲート
２６２はそれの出力線２６４を高レベルに駆動し、それ
によって、表３のライン２に示されるようにラッチ２６
０を状態変化させる。プリフェッチ禁止信号線（Ｑ）２
７０が高レベルである間に、制御装置１１０におけるプ
リフェッチ・ロック機能が開始され、更なるプリフェッ
チは行われないであろう。プリフェッチ禁止信号線
（Ｑ）２７０が高レベルである時、出力線（Ｑ'）２６
６は低レベルに駆動され、それによって、ＡＮＤゲート
２６２に、それの出力線２６４を低レベルに駆動させ
る。今や、Ｒ−Ｓラッチ２６０は低レベルであり、プリ
フェッチ禁止信号線（Ｑ）２７０は高レベルのままであ
る（表３のライン１参照）。ブランチ・ターゲットを持
った命令ライン１５０は、プリフェッチ・ロック状態が
生じる前に基本プリフェッチ・バッファ１５２に置かれ
るべき最後のラインである（表２のステップ５参照）。

【００７９】

【表３】

【００８０】命令キャッシュからの命令のプリフェッチ
は、逆方向の命令ループが終了するまでディスエーブル
されたままであろう。表２のステップ５に示されるよう
に、必要な命令ライン１５０及び１５２はプリフェッチ
・バッファ内にあるので、今や、基本プリフェッチ・バ
ッファ及び代替プリフェッチ・バッファはロックされ
る。

【００８１】プリフェッチ・ロック・リセット回路２８
２は、正規のプリフェッチが再開し得るようにプリフェ
ッチ・ロックがディスエーブルされる時を決定する。プ
リフェッチ・ロックのリセットは、次のような状態のう
ちの何れかの下で生じるであろう。即ち、（１）ブランチに対するヒストリ・ビットがプリフェッ
チ・ロック状態にセットされ且つブランチが行われなか
ったことを実行装置が決定する。（２）ブランチが行われることをブランチ・ターゲット
・キャッシュを使用してデコーダが予測し且つターゲッ
トがプリフェッチ・バッファの外にある。（３）ブランチが行われることを実行装置が決定し且つ
ターゲットがプリフェッチ・バッファの外にある。プリフェッチ・ロックのリセットは、命令キャッシュか
らの次のリクエストされた命令ラインをプリフェッチ・
バッファにロードさせるであろう。

【００８２】第１状態の下でのリセット：ブランチ・タ
ーゲットキャッシュ１０８からのブランチ・ターゲット
のヒストリ・ビットがプリフェッチ・ロック状態２０２
に等しい時、比較器１９８の出力線２２６は高レベルに
駆動される。出力線２２６は３入力ＡＮＤゲート２４２
に入力される。ＡＮＤゲート２４２の第２入力は、ラッ
チ２６０及び制御装置１１０に接続されたプリフェッチ
禁止信号線２７０である。ＡＮＤゲート２４２の第３入
力は、実行装置１１２に接続されたブランチ不実行線２
４０である。実行装置１１０は、ターゲット・アドレス
へのブランチが生じなかった時、ブランチ不実行線２４
０を高レベルに駆動し、ＡＮＤゲート２４２に、それの
出力線２４８を高レベルに駆動させる。出力線２４８が
高レベルに駆動される時、３入力ＯＲゲート２５４はそ
の出力線２５６を高レベルに駆動する。出力線２５６は
Ｒ−Ｓラッチ２６０のＲ入力に接続される。そのＲ入力
が高レベルに駆動される時、Ｒ−Ｓラッチ２６０はプリ
フェッチ禁止信号線（Ｑ）２７０を低レベルに駆動する
（Ｓ入力が予め低レベルに駆動されているため）。今
や、プリフェッチ・ロックはディスエーブルされ、命令
のプリフェッチが再開可能である。

【００８３】第２状態の下でのリセット：制御装置１１
０からのデコード・ブランチ実行信号線２７１は高レベ
ルに駆動され（命令がブランチを生じさせることを、デ
コーダがブランチ・ターゲット・キャッシュを使用して
予測することを表す）、それを３入力ＡＮＤゲート２４
４における１つの入力に供給する。

【００８４】第１部分１５３からの禁止キャッシュ選択
線１９４が低レベルである（プリフェッチが第１部分１
５３によってディスエーブルされないことを表す）時、
インバータ・ゲート２２８はそれの出力線２３０を高レ
ベルに駆動する。その出力線２３０は３入力ＡＮＤゲー
ト２４６における１つの入力に接続される。

【００８５】プリフェッチ禁止信号線２７０は高レベル
（プリフェッチ禁止信号のリセットが許されることを表
す）であり、３入力ＡＮＤゲート２４４における第３入
力に接続される。３つの入力すべて（線２３０、２７
０、及び２７１）が高レベルである時、３入力ＡＮＤゲ
ート２４４はそれの出力線２５０を高レベルに駆動し、
それによって、３入力ＯＲゲート２５４の出力線２５６
を高レベルに駆動させる。出力線２５６はＲ−Ｓラッチ
２６０のＲ入力に接続される。そのＲ入力が高レベルに
駆動される時、Ｒ−Ｓラッチ２６０はプリフェッチ禁止
信号線（Ｑ）２７０を低レベルに駆動する（Ｓ入力は予
め低レベルに駆動されているため）。今や、プリフェッ
チ・ロックはディスエーブルされ、命令のプリフェッチ
は再開可能である。

【００８６】第３状態の下でのリセット：ブランチ実行
線２２２は３入力ＡＮＤゲート２４６における１つの入
力に接続され、そしてブランチ・ターゲット・アドレス
へのブランチが実際に行われる時、実行装置１１２によ
って高レベルに駆動される。

【００８７】第１部分１５３からの禁止キャッシュ選択
線１９４が低レベルである（第１部分１５３によってプ
リフェッチがディスエーブルされないことを表す）時、
インバータ・ゲート２２８は、３入力ＡＮＤゲート２４
６における１つの入力に接続されたそれの出力線２３０
を高レベルに駆動する。

【００８８】プリフェッチ禁止信号線２７０は高レベル
（プリフェッチ禁止信号のリセットが許されることを表
す）であり、３入力ＡＮＤゲート２４６における第３入
力に接続される。３入力ＡＮＤゲート２４６は、３つの
入力すべて（線２２２、２３０、及び２７０）が高レベ
ルである時、それの出力線２５２を高レベルに駆動し、
それによって、３入力ＯＲゲート２５４の出力線２５６
を高レベルに駆動させる。出力線２５６はＲ−Ｓラッチ
２６０のＲ入力に接続される。そのＲ入力が高レベルに
駆動される時、Ｒ−Ｓラッチ２６０はプリフェッチ禁止
信号線（Ｑ）２７０を低レベルに駆動する（Ｓ入力は予
め低レベルに駆動されているため）。今や、プリフェッ
チ・ロックがディスエーブルされ、命令のプリフェッチ
が再開可能である。

【００８９】本発明はそれの実施例の説明によって例示
され、及びその実施例はかなり詳細に説明されたけれど
も、「特許請求の範囲」の技術的範囲をそのような詳細
事項に制限し或いは何らかの方法で限定することは本出
願人の意図するものではない。更なる利点及び修正点は
当業者にとっては容易に明らかであろう。例えば、３２
バイト命令ライン長及びプリフェッチ・バッファの数は
変更可能である。

【００９０】

【００９１】

【００９２】

【発明の効果】本発明によれば、キャッシュへの不必要
なプリフェッチ・アクセスを減らすことによって、パフ
ォーマンスの大きな低下なしに、スーパースカラ・マイ
クロプロセッサによる消費電力を減少させることが可能
である。

【図面の簡単な説明】

【図１】本発明の拡張スーパースカラ・マイクロプロセ
ッサを組み込んだパーソナル・コンピュータの概略図で
ある。

【図２】シャーシ、カバー、電子機械的ダイレクト・ア
クセス記憶装置、及びプレーナ・ボードを含む図１のパ
ーソナル・コンピュータの素子の分解投影図であり、そ
れら素子の間の関係を示すものである。

【図３】図１及び図２のパーソナル・コンピュータにお
けるいくつかのコンポーネントの概略図である。

【図４】従来技術のスーパースカラ・マイクロプロセッ
サのコンポーネント及びそれらの間の相互接続を示すブ
ロックである。

【図５】順方向ブランチ命令を含む３２バイト命令ライ
ン及び同じ３２バイト命令ラインにおけるブランチ・タ
ーゲットを示す図である。

【図６】逆方向ブランチ命令を含む３２バイト命令ライ
ン及び同じ３２バイト命令ラインにおけるブランチ・タ
ーゲットを示す図である。

【図７】ブランチ命令を含む第２命令ラインを持った２
つの連続した３２バイト命令ライン及び第１命令ライン
に含まれたブランチ・ターゲットを示す図である。

【図８】ブランチ命令を含む第１命令ラインを持った２
つの連続した３２バイト命令ライン及び第２命令ライン
に含まれたブランチ・ターゲットを示す図である。

【図９】本発明の拡張サーパースから・マイクロプロセ
ッサに含まれたコンポーネントのブロック図である。

【図１０】本発明のプリフェッチ禁止回路の第１部分の
ブロック図である。

【図１１】本発明のプリフェッチ禁止回路の第２部分の
ブロック図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者テリー・リー・ウィークレイアメリカ合衆国フロリダ州、ボカ・ラトン、ウォーターサイド・ドライブ 22396 (56)参考文献特開平４−90027（ＪＰ，Ａ) 特開平４−333929（ＪＰ，Ａ) 特開平４−293124（ＪＰ，Ａ) 米国特許5623615（ＵＳ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 9/38

Claims

(57)【特許請求の範囲】

【請求項１】システム・メモリを持ったコンピュータ・
システムにおいて使用するマイクロプロセッサであっ
て、（ａ）前記システム・メモリから読み取られた、少なく
とも１つの命令を含む複数個の命令ラインを記憶するよ
うに構成された命令キャッシュと、（ｂ）それぞれが前記命令キャッシュ又は前記システム
・メモリからコピーされた少なくとも第１命令ライン及
び後続の第２命令ラインを記憶するように構成された２
つのプリフェッチ・バッファと、（ｃ）前記プリフェッチ・バッファから取り出された命
令をデコードする命令デコーダと、（ｄ）ブランチ・ターゲット情報を記憶するように構成
され、前記プリフェッチ・バッファから取り出された命
令がブランチ・ターゲットを有するブランチ命令である
ことを前記命令デコーダが決定したことに応答してブラ
ンチ・ターゲット情報を供給するように構成されたブラ
ンチ・ターゲット・キャッシュと、（ｅ）前記命令デコーダによりデコードされた命令を実
行する実行回路と、（ｆ）前記システム・メモリから前記命令キャッシュへ
の読み取り、及び前記命令キャッシュから前記プリフェ
ッチ・バッファへのプリフェッチを制御する制御回路で
あって、前記実行回路により実行される命令が一方のプ
リフェッチ・バッファ中の第２命令ラインにあるブラン
チ命令であり、且つそのブランチ・ターゲットが後続の
命令ラインによって置換されている第１命令ラインにあ
った場合に、該第１命令ラインを他方のプリフェッチ・
バッファにプリフェッチして、該他方のプリフェッチ・
バッファの命令を実行させる制御回路と、（ｇ）前記第１命令ラインへのブランチが行われると
き、前記ブランチ・ターゲット・キャッシュにおいてプ
リフェッチ・ロック状態を設定し、該プリフェッチ・ロ
ック状態が既に設定されていると、前記命令キャッシュ
から前記プリフェッチ・バッファへのプリフェッチを禁
止して前記プリフェッチ・バッファをロックし、更に前
記プリフェッチ・バッファがロックされているとき、前
記ブランチ・ターゲットへのブランチが行われないこと
に応答して、前記ロックを解除するプリフェッチ禁止回
路と、を含むマイクロプロセッサ。
【請求項２】システム・メモリを有するコンピュータ・
システムにおいて、前記システム・メモリから読み取ら
れた、少なくとも１つの命令を含む複数個の命令ライン
を記憶するように構成された命令キャッシュと、それぞ
れが前記命令キャッシュ又は前記システム・メモリから
コピーされた少なくとも第１命令ライン及び後続の第２
命令ラインを記憶するように構成された２つのプリフェ
ッチ・バッファと、該プリフェッチ・バッファから取り
出された命令をデコードする命令デコーダ、ブランチ・
ターゲット情報を記憶するように構成され、前記プリフ
ェッチ・バッファから取り出された命令がブランチ・タ
ーゲットを有するブランチ命令であることを前記命令デ
コーダが決定したことに応答してブランチ・ターゲット
情報を供給するように構成されたブランチ・ターゲット
・キャッシュと、前記システム・メモリから前記命令キ
ャッシュへの読み取り、及び前記命令キャッシュから前
記プリフェッチ・バッファへのプリフェッチを制御する
制御回路とを有するマイクロプロセッサで消費される電
力を減少させる方法であって、（ａ）第１命令ライン及び後続の第２命令ラインを含む
複数個の命令ラインを前記命令キャッシュから一方のプ
リフェッチ・バッファにプリフェッチするステップと、（ｂ）前記第２命令ラインにおいてターゲット命令を持
ったブランチ命令をデコードするステップと、（ｃ）デコードしたブランチ命令を前記実行回路で実行
するステップと、（ｄ）前記ターゲット命令が前記一方のプリフェッチ・
バッファにおいて後続の命令ラインによって置換されて
いる第１命令ラインにあった場合に、前記第１命令ライ
ンを他方のプリフェッチ・バッファにプリフェッチする
ステップと、（ｅ）前記第１命令ラインへのブランチが行われると
き、前記ブランチ・ターゲット・キャッシュにおいてプ
リフェッチ・ロック状態を設定し、該プリフェッチ・ロ
ック状態が既に設定されていると、前記命令キャッシュ
から前記プリフェッチ・バッファへのプリフェッチを禁
止して前記プリフェッチ・バッファをロックするステッ
プと、（ｆ）ロックされた前記プリフェッチ・バッファにある
命令を実行するステップと、（ｇ）前記ターゲット命令へのブランチが行われない場
合に前記プリフェッチ・バッファのロックを解除するス
テップと、を含む方法。