JPH08221272A

JPH08221272A - 命令キャッシュに命令をロードする方法

Info

Publication number: JPH08221272A
Application number: JP7319822A
Authority: JP
Inventors: Bradley Burgess; ブラドレー・バージェス
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 1994-11-25
Filing date: 1995-11-15
Publication date: 1996-08-30
Also published as: EP0714061A3; US5642493A; EP0714061A2; CN1151047A; KR960018911A

Abstract

(57)【要約】【課題】遅れを生じることなくデータ・プロセッサの
命令キャッシュに命令をロードする方法を提供する。【解決手段】特定の命令ブロックをハーバード・アー
キテクチャ・データ・プロセッサ（１０）の命令キャッ
シュ（１４）にロードする方法では、ループ内の分岐命
令を連続的に誤って予測する場合が考えられる。分岐命
令の分岐条件は、実行すると連続取り込みアドレスを出
力する結果が得られる命令によって判断される。しかし
ながら、命令の結果は、分岐命令が実行開始されるまで
は得られない。したがって、データ・プロセッサは、分
岐命令を推論的に実行または予測する。この場合、分岐
命令は、前述の特定の命令ブロックに分岐することを予
測する。次に、データ・プロセッサはその命令キャッシ
ュに命令をロードする。後に、データ・プロセッサが分
岐命令を誤って予測していたことが判明されると、ルー
プの先頭に戻って再度繰り返す。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、一般的にデジタル計算
システムに関し、更に特定すれば命令キャッシュに関す
るものである。

【０００２】

【従来の技術】メモリ・キャッシュは、処理能力上の理
由からデータ処理システムに内蔵されている記憶システ
ムである。メモリ・キャッシュは、典型的にシステムの
データ・プロセッサのような、選択されたサブシステム
が用いるために、データ処理システムのメイン・メモリ
の内容の部分集合を記憶するものである。メモリ・キャ
ッシュは、いくつかの理由により、メイン・メモリより
も高速に、データをデータ・プロセッサに供給すること
ができる。第１に、メモリ・キャッシュはメイン・メモ
リ・システムよりも高級なメモリ回路で構成されること
が多いからである。これらの回路は、単にメイン・メモ
リよりも高いクロック・レートで動作できるというだけ
である。また、データ・プロセッサとメモリ・キャッシ
ュとの間には専用バスがあるので、データ・プロセッサ
とメモリ・キャッシュとの間の帯域は、データ・プロセ
ッサとメイン・メモリとの間の帯域よりも広くなる。最
後に、メモリ・キャッシュは、それがデータを提供する
サブシステムと同一集積回路上に物理的に配置されるか
らである。この場合、メモリ・キャッシュはより高速な
回路で構成され、しかもメモリ・キャッシュとデータ・
プロセッサとの間に専用バスが設けられている訳であ
る。

【０００３】メモリ・キャッシュは、更に、それらが記
憶する情報のタイプによって区別される場合もある。統
一キャッシュは、全てのタイプの情報を単一構造で記憶
する。命令キャッシュは、データ・プロセッサによって
実行される、または実行される予定の命令のみを記憶す
る。データ・キャッシュは、データ・プロセッサによっ
て用いられる、または用いられる予定のデータのみを記
憶する。命令キャッシュとデータ・キャッシュとを内蔵
するデータ処理システムのことを、「ハーバード・アー
キテクチャ(Harvard architecture)」を有すると呼んで
いる。

【０００４】

【発明が解決しようとする課題】ハーバード・アーキテ
クチャを有するデータ・プロセッサには少なくとも１つ
の欠点がある。これらのデータ・プロセッサは、個々の
データ・ブロックをそれらのデータ・キャッシュにロー
ドしながら、個々の命令をそれらの命令キャッシュにロ
ードするという機能に欠けている。代わりに、ハーバー
ド・アーキテクチャを有するデータ・プロセッサは、次
に実行すべき命令はどれであるかを判断した際の副産物
として、命令をその命令キャッシュにロードする。デー
タ・プロセッサは、個々の命令を実行する直前に、各命
令をその命令キャッシュにロードする。結果的に、各命
令または命令群が実行される前に、データ・プロセッサ
がデータ処理システムのメイン・メモリ・サブシステム
から当該命令を取り込む間、短い遅れが生じることがあ
る。

【０００５】

【課題を解決するための手段】本発明は、データ・プロ
セッサの命令キャッシュに命令をロードする方法を提供
する。この方法は、データ・プロセッサ内の第１命令を
取り込み、該第１命令を実行して結果を発生する第１取
り込み段階と、前記データ・プロセッサ内の分岐命令を
取り込み、前記結果が第１値に等しい場合前記分岐命令
は連続−取り込み−アドレスを発生し、前記結果が第２
値に等しい場合前記分岐命令は第１分岐−実行−取り込
み−アドレスを発生し、前記結果が分からない場合、前
記分岐命令は前記第１分岐−実行−取り込み−アドレス
を推論的に発生する第２取り込み段階と、前記第１分岐
−実行−取り込み−アドレスに応答して、前記データ・
プロセッサの命令キャッシュに命令をロードする、第１
ロード段階と、前記第１命令を実行し、該第１命令が第
１値を発生する、第１実行段階と、前記分岐命令を実行
し、該分岐命令が連続−取り込み−アドレスを発生す
る、第２実行段階と、第２分岐−実行−取り込み−アド
レスを発生する段階と、前記分岐命令を取り込み、前記
結果が第１値に等しい場合前記分岐命令は連続−取り込
み−アドレスを発生し、前記結果が第２値に等しい場合
前記分岐命令は前記第２分岐−実行−取り込み−アドレ
スを発生し、前記結果が分からない場合前記分岐命令は
推論的に前記第２分岐−実行−取り込み−アドレスを発
生する、第４取り込み段階と、前記第２分岐−実行−取
り込み−アドレスに応答して、命令を命令キャッシュに
ロードする第２ロード段階と、前記第１命令を実行し、
該第１命令が前記第１値を発生する、第３実行段階と、
前記分岐命令を実行し、該分岐命令が連続−取り込み−
アドレスを発生する、第４実行段階とから成る。

【０００６】本発明の特徴および利点は、添付図面と関
連付けて記載された以下の詳細な説明から、より明確に
理解されよう。図面中、同様の参照番号は同様の対応す
る部分を示すものとする。

【０００７】

【実施例】図１は本発明と共に用いるデータ・プロセッ
サ１０のブロック図を示す。データ・プロセッサ１０
は、別個の命令キャッシュとデータ・キャッシュとを内
蔵している。他の「ハーバード・アーキテクチャ」型デ
ータ・プロセッサと同様、データ・プロセッサ１０は、
それが命令を実行すべきであると判断した場合、命令を
そのデータ・キャッシュにロードする。通常、データ・
プロセッサ１０は、ある特定の命令を完了した後、次に
続く命令を実行する。データ・プロセッサ１０は、メイ
ン・メモリ内の特定の命令のアドレスに変位(displacem
ent)を加算することによって、次の連続命令を決定す
る。ある状況では、データ・プロセッサ１０は非連続命
令を実行することもある。データ・プロセッサ１０が非
連続命令を実行するのは、ある条件の下で分岐命令を実
行した後、割り込みを受けた後、ある命令が例外を発生
した後、等である。本発明によれば、データ・プロセッ
サ１０は、１ブロックの命令を必要とする前に、それを
命令キャッシュにロードするように、データ・プロセッ
サ１０をプログラムすることができる。これによって、
データ・プロセッサ１０は、例えば、時間を重視するデ
ジタル信号処理(「ＤＳＰ」)ルーチンのために、１ブロ
ックの命令が命令キャッシュに存在することを保証する
ことができる。

【０００８】引き続き図１を参照して、バス・インター
フェース・ユニット（以後ＢＩＵと記載する）１２は、
データ・プロセッサ１０とデータ処理システムの残りの
部分（図示せず）との間のデータの流れを制御する。Ｂ
ＩＵ１２は、命令キャッシュ１４とデータ・キャッシュ
１６とに接続されている。命令キャッシュ１４は、命令
ストリームをシーケンサ・ユニット１８に供給する。シ
ーケンサ・ユニット１８は個々の命令を適切な実行ユニ
ットに送出する。データ・プロセッサ１０は、分岐ユニ
ット２０、固定小数点実行ユニットＡ２２、固定小数点
実行ユニットＢ２４、複雑固定小数点実行ユニット２
６、ロード／記憶実行ユニット２８、および浮動小数点
実行ユニット３０を有する。固定小数点実行ユニットＡ
２２、固定小数点実行ユニットＢ２４、複雑固定小数点
実行ユニット２６、およびロード／記憶実行ユニット２
８は、汎用アーキテクチャ・レジスタ・ファイル３２
（ＧＰＲｓと表記されており、以後ＧＰＲファイルと呼
ぶ）、および第１再命名バッファ(rename buffer)３４
に対して、それぞれの結果の読み出しおよび書き込みを
行う。浮動小数点実行ユニット３０およびロード／記憶
実行ユニット２８は、浮動小数点アーキテクチャ・レジ
スタ・ファイル３６（ＦＰＲｓと表記されており、以後
ＦＰＲファイルと呼ぶ）および第２再命名バッファ３８
に対して、それらの結果の読み出しおよび書き込みを行
う。

【０００９】ここに開示する本発明を用いないデータ・
プロセッサ１０の動作は当技術では公知である。一般的
に、データ・プロセッサ１０は縮小命令セット・コンピ
ュータ（「ＲＩＳＣ」）である。データ・プロセッサ１
０は、各命令を一連の小さな段階に分けることによっ
て、高い処理能力を達成する。小さな段階の各々は他の
命令の段階と時間的に重複してもよい。このように処理
能力を高める戦略は、「パイプライン方式」として知ら
れている。図示した実施例では、各命令は５つの個別段
階、即ち、取り込み(fetch)、発行(dispatch)、実行(ex
ecute)、ライトバック(write-back)、および完了(compl
etion)に分解される。

【００１０】取り込み段階の間、命令キャッシュ１４内
のメモリ管理回路（図示せず）は、シーケンサ・ユニッ
ト１８と分岐ユニット２０によって識別されたメモリ・
アドレス（取り込みアドレス）から始まる１つ以上の命
令を取り出す。シーケンサ・ユニット１８および分岐ユ
ニット２０は、あるデータ・レジスタおよび命令自体の
内容から、プログラムされたどの連続命令(sequence of
programmed instructions)が適切であるか判断する。
命令キャッシュ１４はこのプログラムされた連続命令を
シーケンサ・ユニット１８に供給する。命令キャッシュ
１４が必要な命令を含んでいない場合、データ・プロセ
ッサ１０外部のメイン・メモリ・システム（図示せず）
からかかる命令を取り込む。

【００１１】発行段階の間、シーケンサ・ユニット１８
は前述のプログラムされた連続命令の個々の命令を、種
々の実行ユニット２０，２２，２４，２６，２８，３０
に発行する。また、シーケンサ・ユニット１８は、各命
令から結果が得られる場合にそれを一時的に記憶する、
再命名バッファ３４または３８のいずれかにエントリを
確保する。再命名バッファはいずれも先入れ先出し（Ｆ
ＩＦＯ）キューである。

【００１２】実行段階の間、個々の実行ユニットはそれ
自体のプログラムされた命令を実行する。実行ユニット
の各々は、特定の命令クラスに属する１つ以上の命令を
実行する。各実行ユニットの特定の命令クラスは、実行
ユニットの名前によって指示される。例えば、固定小数
点実行ユニットＡ，Ｂは、固定小数点表記で表されたオ
ペランド上で、加算、減算、論理積、論理和、排他的論
理和のような単純な数学的演算を行う。複雑固定小数点
実行ユニット２６は、固定小数点表記で表されたオペラ
ンド上で、乗算や除算のようなより複雑な数学的演算を
行う。浮動小数点実行ユニット３０は、浮動小数点表記
で表されたオペランド上で、乗算や除算のような数学的
演算を行う。

【００１３】固定小数点実行ユニットＡ，Ｂおよび複雑
固定小数点実行ユニット２６は、それらの演算結果を、
第１再命名バッファ３４内の指定されたエントリに戻
す。結果を発生した命令に先立つ全ての命令がそれらの
ＧＰＲファイル・エントリを更新したとき、第１再命名
バッファ３４は周期的に、第１再命名バッファ３４から
のエントリを用いて、ＧＰＲファイル３２のエントリを
更新する。シーケンサ・ユニット１８は再順序バッファ
３９(reorder buffer)を維持してこの更新を調整する。
再順序バッファ３９は、プログラムされた命令ストリー
ムの一部をその元の順序で記憶するＦＩＦＯキューであ
る。シーケンサ・ユニット１８は、再順序バッファ３９
内で最も古い命令が完了するまで待機する。次に、シー
ケンサ・ユニット１８は、当該命令に割り当てられた再
命名バッファ・エントリに記憶されている結果を用い
て、アーキテクチャ・レジスタ(architectural registe
r)を更新する。また、シーケンサ・ユニット１８は再順
序バッファ３９内の命令のエントリを無効にし、後の命
令のための余裕を作る。第１再命名バッファ３４および
ＧＰＲファイル３２の双方は、固定小数点実行ユニット
Ａ，Ｂおよび複雑固定小数点ユニット２６に、オペラン
ドを供給することができる。

【００１４】浮動小数点実行ユニット３０は、その処理
結果を第２再命名バッファ３８内の指定されたエントリ
に戻す。第２再命名バッファ３８は、結果を発生した命
令に先立つ全ての命令がそれらのＦＰＲファイル・エン
トリを更新したとき、第２再命名バッファ３８内のＦＰ
Ｒファイル３６のエントリを周期的に更新する。シーケ
ンサ・ユニット１８はこの更新の調整も行う。第２再命
名バッファ３８およびＦＰＲファイル３６の双方は、浮
動小数点実行ユニット３０にオペランドを供給する。

【００１５】ロード／記憶実行部２８は、ＧＰＲファイ
ル３２またはＦＰＲファイル３６に記憶されているデー
タを、完了時に読み出し、選択されたデータをデータ・
キャッシュ１６に書き込む。このデータは、開示される
発明には関連がないが、データ・プロセッサ１０の動作
特性に応じて、外部メモリ・システム（図示せず）に書
き込むこともできる。逆に、ロード／記憶実行ユニット
２８は、データ・キャッシュ１６に記憶されているデー
タを読み出し、読み出したデータを第１再命名バッファ
３４または第２再命名バッファ３８に書き込む。データ
・キャッシュ１６が要求されたデータを含んでいない場
合、ＢＩＵ１２を通じて、データ・プロセッサ１０外部
のメイン・メモリ・システムからそれを取り込む。

【００１６】ライトバック段階の間、各実行ユニット
は、その結果があれば、確保した再命名バッファのエン
トリに書き込む。シーケンサ・ユニット１８は、どの命
令が適切なアーキテクチャ・レジスタ(architectural r
egister)を更新できるのかを次の段階で判定する。

【００１７】完了段階の間、シーケンサ・ユニット１８
は、特定の１つあるいは複数の命令に先立つ各命令がア
ーキテクチャ・レジスタ・ファイルを更新した後、再命
名バッファ内に記憶されている当該特定の１つあるいは
複数の命令の結果を用いて、アーキテクチャ・レジスタ
・ファイルを更新する。

【００１８】一般的に、各命令段階は１機械クロック・
サイクルを要する。しかしながら、命令の中には実行に
１クロック・サイクル以上を必要とするものもあれば、
５段階全てを必要としないものもある。また、種々の命
令が完了するのにかかる時間の長さ(range)により、個
々の命令のライトバック段階と完了段階との間に遅れが
生じることもある。

【００１９】開示された本発明を用いたデータ・プロセ
ッサ１０の動作について、図２および図３と関連付けて
以下に説明する。

【００２０】データ・プロセッサ１０も静止分岐予測方
法論(static branch prediction methodology)を用い
て、種々の実行ユニット２０，２２，２４，２６，２
８，３０への命令の一定供給を保証している。静止分岐
予測方法論によれば、データ・プロセッサ１０が、分岐
命令の基準となる条件を未だ判定していない場合、分岐
命令自体の１つ以上のビットに応じて、分岐を行うこと
あるいは分岐を行わないことを保証する。データ・プロ
セッサ１０は、次に、当該分岐命令の基準となる条件を
実際に計算する前に、分岐先アドレスまたは分岐しない
場合のアドレスの内、適切な方のアドレスの命令を取り
込む。その後、データ・プロセッサ１０は条件を計算
し、予測が間違っていた場合、以前に選択しなかった取
り込みアドレスに戻る。そうでなければ、データ・プロ
セッサ１０は、予測された経路に沿って、命令の実行を
継続する。プログラムをコンパイルする際、各分岐命令
が実行されたとき、分岐される可能性が高いかあるいは
分岐されない可能性が高いかに関する統計に応じて、各
分岐命令が分岐される、または分岐されないと予測す
る。命令自体の中にある１つ以上のビットが、データ・
プロセッサ１０に、分岐命令を実行すべきか否かを指示
する。

【００２１】図２は、本発明による一連の命令を、表形
式で表したものである。図２に示した命令は２つの機能
を行う。先ず、これらの命令は種々のレジスタに、命令
キャッシュ１４に所望の命令ブロックをプリロードする
のに必要な定数をロードする。２番目に、これらの命令
は、データ・プロセッサ１０がキャッシュ・ライン(cac
he line)を命令キャッシュ１４にプリロードするルーチ
ン（「ループ」と表記されている）を実行する度に、こ
の「ループ」ルーチンを実行する。キャッシュ・ライン
は、データ・プロセッサ１０とそのメモリ・システムと
の間の標準サイズのデータ転送のことである。図２に示
した命令は、PowerPCTMの命令セットの要素である（Pow
erPCは、International Business Machines Corporatio
nの商標である）。しかしながら、当業者は、本明細書
の記載と組み合わせることによって、PowerPCの命令を
他のデータ・プロセッサの命令に変換することができよ
う。

【００２２】引き続き図２を参照する。データ・プロセ
ッサ１０は、最初に、ルーチン「ループ」を実行するた
めに準備される。命令キャッシュ１４およびデータ・キ
ャッシュ１６内の属性ビットを変更することによって、
所望の命令のみをデータ・プロセッサ１０（図示せず）
内にキャッシュ可能にする。メイン・メモリ内の他の全
アドレス空間は、「キャッシュ不可」と定義される。必
要な命令ロード動作の数Ｎをカウンタ・レジスタ「ctr」
に記憶する。命令ロード動作の数Ｎは、命令キャッシュ
１４にプリロード(preload)される命令数を、標準メモ
リ・アクセスの数で除算したものに等しい。データ・プ
ロセッサ１０は、次にルーチン「ループ」をＮ回実行す
る。図示の例では、上述のようにプリロードされる３２
ビット命令の数は２，０４８個、メモリ・アクセスの標
準サイズは３２バイトなので、Ｎは２５６に等しい。プ
リロードすべき最初の命令LOAD_BLOCKのアドレスを、リ
ンク・レジスタ「lr」に記憶する。リンク・レジスタ
は、メイン・メモリから取り込む次の命令へのポインタ
として機能する。

【００２３】次に、命令キャッシュ１４へこれ以上ロー
ドさせないための定数を、汎用レジスタr3に記憶する。
定数HIDO_VALUEは最終的に特殊目的レジスタHIDOに移動
され、ルーチン「ループ」がＮ回実行された後に、全て
の命令キャッシュ動作を保護する。汎用レジスタr2に非
ゼロ値をロードする。最後に、命令同期動作を用いるこ
とによってルーチン「ループ」に分岐する前に、全ての
命令を完了させる。

【００２４】データ・プロセッサ１０は、ルーチン「ル
ープ」をＮ回実行することによって、Ｎ本のキャッシュ
・ラインを命令キャッシュ１４にプリロードする。デー
タ・プロセッサ１０は、図示したルーチンを実行するＮ
回の各々において、現在の命令ポインタに、メモリ・ア
クセスの標準サイズをバイトで表した数を加算すること
によって、次の命令ロード動作のアドレスを計算する。
次に、データ・プロセッサ１０は長ラテンシー命令(lon
g latency instruction）を実行し、その結果が以後の
分岐命令の基準となる。この場合、長ラテンシー命令の
結果がゼロに等しい場合、分岐命令はリンク・レジスタ
の内容（ポインタ）に分岐する。それ以外の場合、分岐
命令は連続取り込みアドレスを出力する。

【００２５】長ラテンシー命令即ち整数除算命令は分岐
命令が開始された後に完了し、その結果は常に真即ち非
ゼロである。分岐命令は、それが基準とする条件が未知
の場合、分岐すべき（「＋」）ものと静的に予測するよ
うにコード化されている。構造上、長ラテンシー命令の
結果は、分岐命令が実行される前では、全く知ることが
できない。したがって、データ・プロセッサ１０は常
に、リンク・レジスタの内容によってインデクスされ
る、８個の命令をプリロードする。

【００２６】最終的に、データ・プロセッサ１０は、長
ラテンシー命令を完了し、リンク・レジスタの内容に分
岐すべきでなかったと判断する。次に、データ・プロセ
ッサ１０は、分岐命令直後の命令から、命令を実行し続
ける。ここでは、移動(move-to)命令が、予測し損ねた
分岐命令の後に来る。移動命令は、次のポインタ値をリ
ンク・レジスタにロードする。最後に、データ・プロセ
ッサ１０は、条件レジスタの内容を減数し、その値をゼ
ロと比較し、ルーチン「ループ」をＮ回実行していない
場合、ルーチン「ループ」の最初に戻る。データ・プロ
セッサ１０は、ルーチン「ループ」をＮ回実行した後、
このルーチンから抜け出す。

【００２７】ルーチン「ループ」をＮ回実行した後、デ
ータ・プロセッサ１０は命令キャッシュ１４をロック
し、プリロードされた命令が不用意に上書きされるのを
防ぐ。次に、データ・キャッシュ１６内の属性ビットを
変更し、新たなデータをデータ・キャッシュ１６（図示
せず）にキャッシュできるようにする。

【００２８】図３は、図２に示した一連の命令の一部を
実行する、図１に示したデータ・プロセッサ１０の第１
タイミング図を示す。図３は、周期的クロック信号CLOC
Kに関連付けて、ルーチン「ループ」を２回繰り返す模
様を表わしている。上述のように、長ラテンシー除算命
令divw.は、次の分岐命令beqlr+が開始した後に終了す
る。図示の実施例では、データ・プロセッサ１０は整数
除算命令を実行するには、２０サイクル以上を必要とす
る。しかしながら、５番目のクロック・サイクルにおい
て、データ・プロセッサ１０は推論的に(speculativel
y)分岐し、リンク・レジスタの内容によってインデクス
された命令をプリロードし始める。分岐命令beqlr+は、
長ラテンシー命令の完了に続くクロック・サイクルにお
いて、訂正された取り込みアドレスを最終的に発生す
る。次に、命令キャッシュ１４がキャッシュ・ラインの
プリロードを終了するとすぐに、データ・プロセッサ１
０は移動命令および２番目の分岐命令を実行する。デー
タ・プロセッサ１０の実施例には、プリロードされる命
令を受け取るとすぐにそれらを実行するものもある。し
たがって、図３は、これらプリロードされた命令を実行
する、プリロード・キャッシュ・ライン動作と移動動作
との間での垂直切り(vertical break)を図示したものの
である。これらの同一データ・プロセッサは、しかしな
がら、分岐命令beqlr+が予測したように完了するまで
は、推論的に取り込んだ命令の結果を種々のアーキテク
チャ・レジスタには引き渡さない。

【００２９】以上本発明を具体的な実施例を参照しなが
ら説明したが、それ以外の変更や改善も当業者には想起
されよう。例えば、開示された命令は、複雑命令セット
・コンピュータ（「ＣＩＳＣ:complex instruction set
computer」）として従来分類されていたデータ・プロ
セッサにも組み込むことができ、更に１クロック・サイ
クル当たり２つ以上の命令を発行可能なデータ・プロセ
ッサにも組み込むことができる。また、開示された発明
は、上述の静的分岐予測方法論の代わりに、動的分岐予
測方法論を用いて実施することもできる。一例として、
PowerPC 620TMマイクロプロセッサは、その分岐履歴表
を選択的に更新しながら、動的に分岐命令を予測するこ
とができる（PowerPC 620は、International Business
MachinesCorporationの商標である）。

【００３０】かかる方法論では、分岐履歴表を訂正し不
正確な予測を反映しなければ、予測が固定化されること
になる。したがって、本発明は、特許請求の範囲に規定
された本発明の精神および範囲から逸脱しないかかる変
更を全て含むものと理解すべきである。

【図面の簡単な説明】

【図１】本発明によるデータ・プロセッサのブロック
図。

【図２】本発明による一連の命令を表形式で示す図。

【図３】図２に示した一連の命令の一部を実行する、図
１に描いたデータ・プロセッサの第１タイミング図。

【符号の説明】

１０データ・プロセッサ１２バス・インターフェース・ユニット１４命令キャッシュ１６データ・キャッシュ１８シーケンサ・ユニット２０分岐ユニットＡ２２固定小数点実行ユニットＢ２４固定小数点実行ユニット２６複雑固定小数点実行ユニット２８ロード／記憶実行ユニット３０浮動小数点実行ユニット３２汎用アーキテクチャ・レジスタ・ファイル３４第１再命名バッファ３６浮動小数点アーキテクチャ・レジスタ・ファイル３８第２再命名バッファ３８３９再順序バッファ３９

Claims

【特許請求の範囲】

【請求項１】データ・プロセッサの命令キャッシュに命
令をロードする方法であって：データ・プロセッサ内の
第１命令を取り込み、該第１命令を実行して結果を発生
する第１取り込み段階；前記データ・プロセッサ内の分
岐命令を取り込み、前記結果が第１値に等しい場合前記
分岐命令は連続−取り込み−アドレスを発生し、前記結
果が第２値に等しい場合前記分岐命令は第１分岐−実行
−取り込み−アドレスを発生し、前記結果が分からない
場合、前記分岐命令は前記第１分岐−実行−取り込み−
アドレスを推論的に発生する第２取り込み段階；前記第
１分岐−実行−取り込み−アドレスに応答して、前記デ
ータ・プロセッサの命令キャッシュに命令をロードす
る、第１ロード段階；前記第１命令を実行し、該第１命
令が第１値を発生する、第１実行段階；前記分岐命令を
実行し、該分岐命令が連続−取り込み−アドレスを発生
する、第２実行段階；第２分岐−実行−取り込み−アド
レスを発生する段階；前記第１命令を取り込む第３取り
込み段階；前記分岐命令を取り込み、前記結果が第１値
に等しい場合前記分岐命令は前記連続−取り込み−アド
レスを発生し、前記結果が第２値に等しい場合前記分岐
命令は前記第２分岐−実行−取り込み−アドレスを発生
し、前記結果が分からない場合前記分岐命令は推論的に
前記第２分岐−実行−取り込み−アドレスを発生する、
第４取り込み段階；前記第２分岐−実行−取り込み−ア
ドレスに応答して、命令を前記命令キャッシュにロード
する第２ロード段階；前記第１命令を実行し、該第１命
令が前記第１値を発生する、第３実行段階；および前記
分岐命令を実行し、該分岐命令が前記連続−取り込み−
アドレスを発生する、第４実行段階；から成ることを特
徴とする方法。
【請求項２】データ・プロセッサの命令キャッシュに命
令をロードする方法であって、該方法は１つのルーチン
を繰り返し実行し、該ルーチンは：ポインタを増分する
段階；長ラテンシー命令を実行し、結果を発生する段
階；および分岐命令を推論的に実行し、前記分岐命令は
前記結果に応答して、取り込みアドレスを発生し、前記
分岐命令は前記結果の第１値に応答して、連続−取り込
み−アドレスを発生し、前記分岐命令は前記結果の第２
値および前記ポインタに応答して、分岐−実行−取り込
み−アドレスを発生し、前記分岐命令は前記結果が分か
らない間前記分岐−実行−取り込み−アドレスを発生す
る段階；から成ることを特徴とする方法。
【請求項３】データ・プロセッサの命令キャッシュに命
令をロードする方法であって、該方法は１つのルーチン
を繰り返し実行し、該ルーチンは：データ・プロセッサ
に第１命令を取り込む第１取り込み段階であって、前記
第１命令は連続−取り込み−アドレスによってインデク
スされており、実行されたとき、第１値を含む結果を発
生する前記第１命令を取り込む段階；前記データ・プロ
セッサに第１分岐命令を取り込む第２取り込み段階であ
って、前記結果が前記第１値に等しい場合前記第１分岐
命令は前記連続−取り込み−アドレスを発生し、前記結
果が第２値に等しい場合前記第１分岐命令は分岐−実行
−取り込み−アドレスを発生し、前記結果が分からない
場合前記第１分岐命令は推論的に前記分岐−実行−取り
込み−アドレスを発生する、第２取り込み段階；前記分
岐−実行−取り込み−アドレスに応答して、前記データ
・プロセッサの命令キャッシュに命令をロードする、第
１ロード段階；および前記分岐−実行−取り込み−アド
レスを発生する段階；から成ることを特徴とする方法。