JPH07152566A

JPH07152566A - スーパーパイプライン式スーパースカラーマイクロプロセッサ用の書き込みバッファ

Info

Publication number: JPH07152566A
Application number: JP6251989A
Authority: JP
Inventors: Mark Bluhm; ブルームマーク; Raul A Garibay Jr; エイガリベイジュニアロール; A Cortromane Marc; エイコートロマニマルク; Mark Warden Hervin; ダブリューハーヴィンマーク; Patowa Nitaru; パトワニタル
Original assignee: SAIRITSUKUSU CORP; Cyrix Corp
Current assignee: SAIRITSUKUSU CORP; Cyrix Corp
Priority date: 1993-10-18
Filing date: 1994-10-18
Publication date: 1995-06-16
Anticipated expiration: 2020-08-03
Also published as: JP3678443B2; EP0651331A1; EP0651331B1; DE69429612D1; DE69429612T2

Abstract

(57)【要約】【目的】マイクロプロセッサコアとメモリとの間に配
置されたマイクロプロセッサの書き込みバッファであっ
て、メモリへの書き込みをメモリバス又はキャッシュメ
モリではなくて書き込みバッファへ向けるようにした構
成を提供する。【構成】スーパースカラー、スーパーパイプライン式
マイクロプロセッサは、中央処理ユニットコアとメモリ
キャッシュとの間に配置された書き込みバッファを有す
る。この書き込みバッファは、キャッシュメモリが使用
可能になるまで、即ち優先順位の高い読み取りが行われ
ないときに、メモリへの書き込み動作の結果を記憶す
る。各書き込みバッファエントリごとにクロス依存性テ
ーブルが設けられ、反対区分の手前のデータを考慮し
て、データが書き込みバッファからメモリへプログラム
順序で書き込まれるよう確保する。メモリからの非キャ
ッシュ式読み取りも、書き込みバッファからのデータの
書き込みと共にプログラム順序に順序付けされる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、マイクロプロセッサ型
の集積回路の分野に係り、より詳細には、そのメモリア
クセス回路に係る。

【０００２】

【従来の技術】マイクロプロセッサの分野においては、
１秒当たりに実行される命令の数が主たる性能尺度であ
る。この技術で良く知られているように、マイクロプロ
セッサの設計及び製造における多数のファクタがこの尺
度に影響を及ぼす。例えば、実行速度は、マイクロプロ
セッサのクロック周波数によってかなり左右される。し
かしながら、マイクロプロセッサに与えられるクロック
の周波数は、電力消費の状態、及びマイクロプロセッサ
内のトランジスタのスイッチング特性により制限され
る。

【０００３】又、マイクロプロセッサのアーキテクチャ
も、マイクロプロセッサの実行速度において意義のある
ファクタである。例えば、多数の近代的なマイクロプロ
セッサは、それらの命令の多くが実行のために多数のク
ロックサイクルを必要とする場合にそれらの実行速度を
向上するために「パイプライン式」アーキテクチャを使
用している。従来のパイプライン技術によれば、各々の
マイクロプロセッサ命令は多数の段階にセグメント化さ
れ、そして命令の各段階を実行するために個別の回路が
設けられる。従って、各クロックサイクルにおいて多数
の命令の異なる段階の実行をオーバーラップさせること
によりマイクロプロセッサの実行速度が増加される。こ
のように、各クロックサイクルにおいて１つの多サイク
ル命令を完了することができる。

【０００４】更に背景として、あるマイクロプロセッサ
アーキテクチャは、「スーパースカラー」型のものであ
り、並列実行のために各々のクロックサイクルに多数の
命令が発生される。これら命令の間に依存性がないと仮
定すれば、スカラー性の程度に比例して命令スループッ
トが増大する。

【０００５】マイクロプロセッサ及びこれが実施される
システムの実行速度を改善するための別の公知技術は、
キャッシュメモリを使用することである。従来のキャッ
シュメモリは、選択アルゴリズムによって決定されるよ
うに後で命令を実行する際にアクセスされる見込みの高
いメモリ位置からのプログラム及びデータを記憶する小
型の高速メモリである。キャッシュメモリは、メインシ
ステムメモリに対して少数のクロックサイクル（しばし
ば単一のサイクル）でアクセスできるので、キャッシュ
を用いたマイクロプロセッサの有効実行速度は、非キャ
ッシュシステムよりも相当に改善される。多くのキャッ
シュメモリは、マイクロプロセッサ自体と同じ集積回路
チップ上に配置され、更に性能の改善を与える。

【０００６】

【発明が解決しようとする課題】これらのアーキテクチ
ャ関連の性能改善技術の各々によれば、マイクロプロセ
ッサの性能を低速化する幾つかの事象が生じる。例え
ば、パイプライン式及びスーパースカラー式の両方のア
ーキテクチャにおいては、多数の命令が同時に同じ内部
回路へのアクセスを要求することがあり、この場合に
は、優先順位の高い命令が回路によって応対されるまで
命令の１つが待機しなければならない（即ち、「ストー
ル」）。

【０００７】このような競合の１つの形式は、ある命令
がメモリ（キャッシュを含む）への書き込みを要求する
と同時に、別の命令がメモリからの読み取りを要求する
場合にしばしば生じる。命令が「先着順サービス(first
-come-first-served) 」ベースで応対される場合には、
後で到着する命令は、メモリアクセスが許可されるま
で、手前の命令の完了を待機しなければならない。これ
ら及び他のストールは、もちろん、マイクロプロセッサ
の性能に対して不利益となる。

【０００８】ほとんどの命令シーケンス（即ち、プログ
ラム）に対し、特に、マイクロプロセッサアーキテクチ
ャに多数の汎用レジスタが設けられている場合には、メ
モリ又はキャッシュからの読み取りの方が、一般に、メ
モリ又はキャッシュへの書き込みよりも時間的に厳密で
あることが分かっている。これは、プログラムの実行に
おいて、プログラムを効率的に実行するためには、特定
の時間に命令及び入力データが必要であるのに対し、メ
モリへの書き込みはプログラム実行の結果を単に書き込
むものでありその後の命令の実行はその結果に左右され
ないから、書き込みが行われる実際の時間は重要でない
ためである。

【０００９】更に背景技術として、マイクロプロセッサ
には書き込みバッファが設けられており、これらの書き
込みバッファは、オンチップのキャッシュメモリと、メ
インメモリへのバスとの間に論理的に配置されている。
これらの従来のキャッシュ後の書き込みバッファは、ラ
イトスルー又はライトバック動作のためにキャッシュか
らデータを受け取り、このキャッシュ後の書き込みバッ
ファの内容は、バスが使用できるようになったときに、
バスコントローラの制御のもとでメインメモリに書き込
まれる。

【００１０】更に背景技術として、多くの近代的なマイ
クロプロセッサは、必ずしもオペランドサイズのモジュ
ロではないアドレスを用いてメモリ位置をアクセスする
ことができる。このような形式のマイクロプロセッサタ
イプの一例は、「Ｘ８６」コンパチブルと一般に称され
ているものである。それ故、これらのマイクロプロセッ
サにおいて、あるメモリ書き込みは、最下位バイトアド
レスを含むバイトブロックから外れたバイトを含むこと
があり、書き込み動作を行うのに多数の書き込みサイク
ルが必要とされる。これらの書き込みは、「不整列書き
込み」としばしば称される。実際に、多くのマイクロプ
ロセッサでは、メモリ書き込みの重要な部分がバイトブ
ロックの境界にオーバーラップする。

【００１１】更に背景技術として、整数の中央処理ユニ
ットと、浮動小数点の処理ユニットとの両方を含むマイ
クロプロセッサが知られている。このようなマイクロプ
ロセッサでは、整数結果のデータワード巾の方が、浮動
小数点ユニットよりも小さくなり、例えば、整数データ
は３２ビット巾であるが、浮動小数点データは６４ビッ
ト巾である。浮動小数点ユニットに加えて、他の処理ユ
ニットも、中央処理ユニットによって与えられるものよ
りも巾の広いデータを与える。

【００１２】更に背景技術として、多くのマイクロプロ
セッサ用途では、中央処理ユニットのコアからキャッシ
ュ又はメモリへの書き込みを、プログラムの順序で、即
ちプログラマによって与えられた命令の順序で行って、
適切なプログラム動作を確保することが重要である。例
えば、円形バッファ及びカウンタを設けることにより単
一ユニットの動作をプログラムの順序に維持するための
方法が知られている。しかしながら、２つ以上のバッフ
ァ又は動作をプログラムの順序に維持しなければならな
い場合には、１つのカウンタの使用では不充分である。

【００１３】更に背景技術として、いわゆる「Ｘ８６」
コンパチビリティを有するもののような従来アーキテク
チャのマイクロプロセッサは、内部データバスの容量よ
り小さいバイトサイズの書き込み動作を行うことが知ら
れている。

【００１４】更に背景技術として、パイプライン式マイ
クロプロセッサは、データ依存性と一般に称される幾つ
かのハザードに弱いことが知られている。一般的に、デ
ータ依存性は、パイプラインにおいて異なる段階にある
２つの命令が同じレジスタ又はメモリ位置へのアクセス
を要求するときに生じる。というのは、手前の命令でレ
ジスタ又はメモリ位置にデータが書き込まれてしまう前
にパイプラインが後の命令のために（プログラム順序
で）そこにアクセスすることがあり、動作エラーを生じ
るからである。従来のパイプライン式マイクロプロセッ
サにおいてこのようなデータ依存性を検出するための技
術が知られており、パターソン及びヘネシー著の「コン
ピュータアーキテクチャ：定量的アプローチ（モーガン
・カウフマン、１９９０年）」、第２５７ないし７８ペ
ージに説明されている。従来技術によれば、データ依存
性又はハザードの検出は、手前の命令（プログラム順序
で）が完了するまでパイプラインをストールし、その
後、後続命令を処理できるようにすることにより取り扱
われる。もちろん、パイプラインのストールは、マイク
ロプロセッサの性能のロスを招く。

【００１５】更に背景技術として、あるパイプライン式
アーキテクチャのマイクロプロセッサは、プログラムシ
ーケンスに条件分岐又はジャンプ命令が存在するにも係
わりなくパイプラインをいっぱいに維持するために推論
的実行に基づいて動作する。この推論的実行は、マイク
ロプロセッサが条件分岐が行われるかどうかをアルゴリ
ズムに基づいて予想する場所で予想分岐を行い、次い
で、その予想した経路をパイプラインにおいて実行する
ことを必要とする。この推論的に実行した命令の結果は
メモリにもキャッシュにも書き込まれないのが重要であ
る。というのは、予想が誤りであった場合に、その誤っ
て実行されたメモリ書き込みから回復することは困難又
は不可能だからである。更に、メモリへの書き込みを含
む命令がパイプラインにおいて処理される場合であっ
て、プログラムの実行を直ちに停止しなければならない
例外条件（例えば、０で除算）を手前の命令が有してい
る場合には、別の形式の状況が生じ得る。

【００１６】

【課題を解決するための手段】本発明は、マイクロプロ
セッサのコアとメモリとの間に論理的に配置されたマイ
クロプロセッサの書き込みバッファであって、メモリへ
の各書き込みがメモリバス又はキャッシュメモリではな
くてこの書き込みバッファに向けられるような書き込み
バッファに係る。この書き込みバッファの内容は、次い
で、メモリバス又はキャッシュメモリが使用できるとき
に、キャッシュメモリ又はメインメモリへ非同期で書き
込まれる。

【００１７】本発明の特徴は、不整列書き込みの処理能
力を含む。不整列書き込みが検出された場合には、第１
の書き込みバッファエントリが第２の書き込みバッファ
エントリに割り当てられ、上位アドレスが計算されてそ
こに記憶される。不整列書き込みがリタイアすると、第
１の書き込みバッファエントリに記憶されたデータが適
当なバイトレーンへシフトされて下位バイトが上位端に
来るようにされそしてこれとは逆にもなされる。第１エ
ントリ及び下位データのリタイアの後にシフトされたデ
ータを記憶するためのラッチが設けられる。このラッチ
は、上位データを第２エントリに対するアドレスと共に
与え、不整列書き込みを完了する。

【００１８】本発明の別の特徴は、過剰な巾をもつ全書
き込みバッファを構成する必要なく過剰巾のデータをバ
ッファすることである。浮動小数点ユニットのような二
次の処理ユニットは、中央処理ユニットにより発生され
るワードの巾よりも巾の広い（ビットで）ワードで結果
を発生する。二次処理ユニットの結果を記憶するために
二次データラッチが設けられ、そのデータが有効である
ときに制御ビットがセットされる。標準的な書き込みバ
ッファエントリには、二次処理ユニットの結果に対応す
る物理アドレスが割り当てられ、そのデータが二次デー
タラッチに記憶されることを指示するように制御ビット
がセットされる。書き込みバッファエントリがリタイア
すると、書き込みバッファエントリの内容ではなくて二
次データラッチの内容がキャッシュに与えられる。

【００１９】本発明の別の特徴は、書き込みバッファが
レイアウト又は動作効率のために２つの区分に分割され
る場合に書き込みバッファからのデータの書き込みがプ
ログラム順序となるよう確保することである。プログラ
ム順序は、書き込みバッファエントリにクロス依存性フ
ィールドを含ませることにより維持され、このフィール
ドは、各書き込みバッファエントリの割り当ての際に、
逆の区分にあるどの書き込みバッファエントリが既に割
り当てられたかを示すマップがロードされる。各書き込
みバッファエントリのクロス依存性フィールドは、その
前にプログラム順序にあった各書き込みバッファがリタ
イアするたびに、ビットごとにクリアされる。書き込み
バッファエントリがプログラム順序でリタイアすること
は、そのクロス依存性フィールドをクリアすることを必
要とすることにより確保される。更に、同様の概念を使
用し、読み取りが割り当てられたときに割り当てられた
書き込みバッファエントリのマップである読み取りに対
してクロス依存性フィールドを与え、動作を同様の形態
でゲートすることにより、書き込みバッファからリタイ
アしながらプログラム順序で非キャッシュ処理読み取り
する性能を確保することができる。

【００２０】本発明の別の特徴は、書き込みバッファか
らキャッシュへの集合書き込みを実行する構成を含む。
書き込みデータエントリの割り当て中に、現在割り当て
られたエントリと既に割り当てられているエントリの物
理アドレスの比較が行われ、少なくとも割り当てられた
物理アドレスが同じバイトグループ内にあるかどうか決
定され、その場合には、多数の書き込みをキャッシュへ
の単一の書き込み動作に集合又は併合することができ
る。集合性に対する他の制約は、バイトが互いに相接し
ていること、及び書き込みがプログラム順序で隣接する
書き込み命令からのものであることを含む。集合可能な
書き込みバッファエントリのリタイアは、データを適切
なバイトレーンに入れるようにシフトした後に、書き込
みバッファエントリからのデータをラッチにロードする
ことにより行われ、書き込みは、ラッチの内容と組み合
わせてアドレスを与えることにより行われる。

【００２１】本発明の別の特徴は、リード・アフタ・ラ
イト（ＲＡＷ）依存性のようなデータハザード即ち依存
性を、特に書き込みバッファに既に書き込まれているデ
ータに対して検出する構成を含む。書き込みバッファ内
容のリタイアは、ＲＡＷ依存性を受けるエントリについ
ては防止され、従って、エラーのある読み取りが回避さ
れる。又、書き込みバッファからデータを直接供給する
か又は書き込みバッファをバイパスすらさせる能力も設
けられ、ＲＡＷハザードによるパイプラインストールの
影響が低減される。又、多数の読み取りの最後のものだ
けをコアへ供給するような更に別の能力も設けられる。
偽のＲＡＷハザード検出を回避するために、ライト・ア
フタ・リード制御も与えられる。

【００２２】本発明の別の特徴は、推論的実行中に書き
込みバッファへの書き込みが許される場合に各書き込み
バッファエントリに対する制御ビットの推論的実行フィ
ールドを含むことである。各制御ビットは、予想又は推
論分岐に対応し、書き込みについての推論の程度に基づ
いて書き込みバッファエントリの割り当ての際にセット
される。誤った予想の場合には、失敗予想に対してその
推論的制御ビットがセットされている各書き込みバッフ
ァエントリがフラッシュされ、書き込みバッファエント
リが再割り当てに使用できるようになる。割り当てられ
ているが例外の時にまだリタイアされていない全ての書
き込みバッファエントリをクリアすることにより例外取
り扱いが実行される。バッファが空であるときにリタイ
アポインタ及び割り当てポインタが一致できるようにす
るために各書き込みバッファエントリごとにノーオペレ
ーションビットが設けられる。

【００２３】本発明の実施例は、次のような効果的な技
術的作用の１つ以上を実現するように実施される。デー
タをキャッシュへリタイアする前に、ＣＰＵコアから書
き込みバッファへのデータの書き込みをバッファし、そ
して不整列書き込みを最小限の性能ロスで容易に取り扱
えるようにするマイクロプロセッサアーキテクチャ；デ
ータをキャッシュ又はメモリへリタイアする前に実行結
果を書き込みバッファに記憶できるようにし、書き込み
バッファは、二次処理ユニットによって与えられるもの
よりもビット巾の小さい複数の位置を有しているマイク
ロプロセッサアーキテクチャ；余計なビット巾を受け入
れるように全ての書き込みバッファ位置を構成する必要
なく、二次処理ユニットの結果に対してバッファ作用が
与えられるようなマイクロプロセッサアーキテクチャ；
データをキャッシュへリタイアする前に、ＣＰＵコアか
ら書き込みバッファへのデータの書き込みをバッファ
し、書き込みバッファが２つのセクションに分割されて
いるマイクロプロセッサアーキテクチャ；書き込みバッ
ファからキャッシュ又はメインメモリへプログラム順序
でリタイアするよう確保するマイクロプロセッサアーキ
テクチャ；書き込みバッファからデータをリタイアしな
がらプログラム順序で非キャッシュ式読み取りを実行で
きるようにするマイクロプロセッサアーキテクチャ；デ
ータをキャッシュ又はメモリへリタイアする前に実行結
果を書き込みバッファに記憶できるようにし、多数の書
き込み動作からの書き込みデータを記憶して書き込みバ
ッファからキャッシュへ１つのサイクルで与えるような
能力が設けられたマイクロプロセッサアーキテクチャ；
集合可能又は併合可能な書き込み動作を検出し、書き込
みバッファからキャッシュへ集合書き込みを行えるよう
にするマイクロプロセッサアーキテクチャ；データをキ
ャッシュ又はメモリへリタイアする前に、データ依存性
を検出できるような仕方で実行結果を書き込みバッファ
に記憶できるようにするマイクロプロセッサアーキテク
チャ；他の明白なデータ依存性が実際にはデータ依存性
でないという指示で書き込みバッファ位置を割り当てで
きるようにするマイクロプロセッサアーキテクチャ；及
びデータをキャッシュへリタイアするまえに、ＣＰＵコ
アから書き込みバッファへのデータの書き込みをバッフ
ァし、推論的実行又は例外からの回復を容易に行い得る
ようにするマイクロプロセッサアーキテクチャ。

【００２４】

【実施例】本発明の他の目的及び特徴は、添付図面を参
照した以下の詳細な説明から当業者に明らかとなろう。
本発明のマイクロプロセッサの実施例の詳細な説明は、
次のように構成される。１．模範的プロセッサシステム２．一般化されたパイプラインアーキテクチャ３．書き込みバッファアーキテクチャ及び動作４．リード・アフタ・ライトハザードの検出及び書き込
みバッファの動作５．推論的実行及び例外の取り扱い６．書き込みバッファからの特殊な書き込みサイクル７．結論

【００２５】この構成テーブル及びこの詳細な説明で使
用する対応する見出しは、参照の便宜上設けられている
ものに過ぎない。マイクロプロセッサの従来又は既知の
観点の説明は、これを不必要に詳細にすることにより本
発明の説明を不明瞭にしない程度に省略する。

【００２６】１．模範的プロセッサシステム模範的プロセッサシステムが図１、２及び３に示されて
いる。図１及び２は、各々、模範的なスーパースカラ
ー、スーパーパイプライン型マイクロプロセッサと、２
つの実行パイプラインのパイプ段階との基本的な機能ブ
ロックを示している。図３は、マイクロプロセッサを使
用する模範的プロセッサシステム（マザーボード）設計
を示している。

【００２７】１．１マイクロプロセッサ図１を参照すれば、マイクロプロセッサ１０の主たるサ
ブブロックは、次のものを含む。（ａ）中央処理ユニッ
ト（ＣＰＵ）コア２０；（ｂ）プリフェッチバッファ３
０；（ｃ）プリフェッチャ３５；（ｄ）分岐処理ユニッ
ト（ＢＰＵ）４０；（ｅ）アドレス変換ユニット（ＡＴ
Ｕ）５０；及び（ｆ）ＴＡＧＲＡＭ６２を含む単一化
した１６Ｋバイトのコード／データキャッシュ６０。２
５６バイトの命令ラインキャッシュ６５は、単一化キャ
ッシュへの命令フェッチを減少するための一次命令キャ
ッシュを構成し、単一化キャッシュは、二次命令キャッ
シュとして働く。オンボード浮動小数点ユニット（ＦＰ
Ｕ）７０は、ＣＰＵコア２０によってこれに発せられた
浮動小数点命令を実行する。

【００２８】マイクロプロセッサは、内部３２ビットア
ドレス及び６４ビットデータバスＡＤＳ及びＤＡＴＡを
使用している。単一化キャッシュ６０及び命令ラインキ
ャッシュ６５の３２バイトラインサイズに対応する２５
６ビット（３２バイト）プリフェッチバス（ＰＦＢ）
は、３２命令バイトの全ラインを単一のクロックにおい
て命令ラインキャッシュへ転送できるようにする。外部
３２ビットアドレス及び６４ビットデータバスへのイン
ターフェイスは、バスインターフェイスユニット（ＢＩ
Ｕ）を経て行われる。

【００２９】ＣＰＵコア２０は、２つの実行パイプＸ及
びＹを有するスーパースカラー設計のものである。これ
は、命令デコーダ２１と、アドレス計算ユニット２２Ｘ
及び２２Ｙと、実行ユニット２３Ｘ及び２３Ｙと、３２
個の３２ビットレジスタをもつレジスタファイル２４と
を備えている。ＡＣコントロールユニット２５は、レジ
スタスコアボード及びレジスタ再ネーミングハードウェ
アをもつレジスタ変換ユニット２５ａを備えている。マ
イクロシーケンサ及びマイクロＲＯＭを含むマイクロコ
ントロールユニット２６は、実行制御を与える。

【００３０】ＣＰＵコア２０からの書き込みは、１２個
の３２ビット書き込みバッファ２９へ待ち行列され、書
き込みバッファの割り当ては、ＡＣコントロールユニッ
ト２５によって実行される。これらの書き込みバッファ
は、単一化キャッシュ６０へ書き込むためのインターフ
ェイスを形成し、非キャッシュ処理書き込みは、書き込
みバッファから外部メモリへ直接送られる。書き込みバ
ッファロジックは、オプションの読み取りソース作用及
び書き込み集合作用をサポートする。

【００３１】パイプコントロールユニット２８は、実行
パイプを通る命令の流れを制御し、これは、命令が例外
を生じないことが決定されるまで命令の順序を保持し、
命令流におけるバブルを押しつぶし、そして誤って予想
された分岐及び例外を生じる命令の後に実行パイプをフ
ラッシュすることを含む。各段階に対し、パイプコント
ロールユニットは、どの実行パイプが最も初期の命令を
含むかを追跡し、「ストール」出力を与え、そして「遅
延」入力を受け取る。

【００３２】ＢＰＵ４０は、分岐（行われる又は行われ
ない）の方向を予想し、そしてその予想された行われる
分岐及び流れ命令の無条件変更（ジャンプ、コール、リ
ターン）に対するターゲットアドレスを与える。更に、
このＢＰＵは、分岐及び浮動小数点命令の場合には推論
的実行を監視し、即ち予想を誤ることのある分岐後に推
論的に発生される命令の実行、及びＦＰＵ７０へ発生さ
れる浮動小数点命令であって推論的に発生された命令が
実行を完了した後に失敗となることのある浮動小数点命
令の実行を監視する。浮動小数点命令が失敗に終わった
場合、又は分岐が誤って予想された（これは、分岐に対
するＥＸ又はＷＢ段階まで分からない）場合には、実行
パイプラインは、その失敗となった又は予想を誤った命
令の点まで修理され（即ち、その命令の後に実行パイプ
ラインがフラッシュされ）、そして命令のフェッチが再
開されねばならない。

【００３３】パイプラインの修理は、各パイプ段におい
て浮動小数点又は予想分岐命令がその段に入るときにプ
ロセッサ状態のチェックポイントを形成することにより
行われる。これらのチェックポイント検査される命令に
対し、その後の推論的に発生される命令によって変更さ
れ得る全てのリソース（プログラマが見ることのできる
レジスタ、命令ポインタ、条件コードレジスタ）がチェ
ックポイント検査される。チェックポイント検査される
浮動小数点命令が失敗に終わるか又はチェックポイント
検査される分岐が誤って予想された場合は、そのチェッ
クポイント検査された命令の後に実行パイプラインがフ
ラッシュされ、浮動小数点命令の場合には、これは、典
型的に、実行パイプライン全体をフラッシュすることを
意味し、一方、誤って予想された分岐の場合には、完了
することが許されたＥＸの対命令及びＷＢの２つの命令
があることを意味する。

【００３４】模範的なマイクロプロセッサ１０の場合
に、推論の程度についての主たる制約は、次の通りであ
る。（ａ）一度に４つまでの浮動小数点又は分岐命令に
対してのみ推論的実行が許される（即ち、推論レベルは
最大４である）。（ｂ）書き込み又は浮動小数点の記憶
は、それに関連した分岐又は浮動小数点命令が解決する
（即ち、予想が正しいか又は浮動小数点命令が失敗に終
わらない）までキャッシュ又は外部メモリに対して完了
しない。

【００３５】単一化キャッシュ６０は、４方セット連想
（４ｋセットサイズをもつ）のもので、擬似ＬＲＵ置換
アルゴリズムを使用し、ライトスルー及びライトバック
モードを有している。これは、クロック当たり２つのメ
モリアクセス（データ読み取り、命令フェッチ又はデー
タ書き込み）を許すためにデュアルポート式（バンク構
成による）にされている。命令ラインキャッシュは、完
全連想、ルックアサイド実施（単一化キャッシュに対し
て）のもので、ＬＲＵ置換アルゴリズムを使用する。

【００３６】ＦＰＵ７０は、４深さロード及び記憶待ち
行列をもつロード／記憶段と、変換段（３２ビットない
し８０ビットの拡張フォーマット）と、実行段とを備え
ている。ロードは、ＣＰＵコア２０により制御され、そ
してキャッシュ処理記憶は、書き込みバッファ２９によ
り指示される（即ち、各浮動小数点記憶動作に対して書
き込みバッファが割り当てられる）。

【００３７】図２を参照すれば、マイクロプロセッサ
は、７段のＸ及びＹ実行パイプラインを有し、即ち、命
令フェッチ段（ＩＦ）、２つの命令デコード段（ＩＤ
１、ＩＤ２）、２つのアドレス計算段（ＡＣ１、ＡＣ
２）、実行段（ＥＸ）、及びライトバック段（ＷＢ）を
有している。複合ＩＤ及びＡＣパイプ段は、スーパーパ
イプライン式であることに注意されたい。

【００３８】ＩＦ段は、ＣＰＵコア２０に連続的なコー
ド流を与える。プリフェッチャ３５は、（一次）命令ラ
インキャッシュ６５或いは（二次）単一化キャッシュ６
０のいずれかからプリフェッチバッファ３０へ１６バイ
トの命令データをフェッチする。ＢＰＵ４０は、プリフ
ェットアドレスでアクセスされ、そして予想される流れ
の変更に対してプリフェッチャへターゲットアドレスを
供給し、プリフェッチャが１つのクロック内に新たなコ
ード流へシフトできるようにする。

【００３９】デコード段ＩＤ１及びＩＤ２は、可変長さ
のＸ８６命令セットをデコードする。命令デコーダ２１
は、各クロックごとにプリフェッチバッファ３０から１
６バイトの命令データを検索する。ＩＤ１において、２
つの命令の長さがデコードされて（Ｘ及びＹの実行パイ
プに対して各々１つづつ）、Ｘ及びＹ命令ポインタを
得、それに対応するＸ及びＹバイト使用信号がプリフェ
ッチバッファへ返送される（これは、次いで、次の１６
バイト転送のために増加する）。又、ＩＤ２において
も、流れの変更のような幾つかの命令形式が決定され、
即座及び／又は変位オペランドが分離される。ＩＤ２段
は、Ｘ及びＹ命令のデコード、マイクロＲＯＭに対する
エントリポイントの発生、及びアドレスモード及びレジ
スタフィールドのデコードを完了する。

【００４０】ＩＤ段の間に、命令を実行するための最適
なパイプが決定され、命令がそのパイプへ発生される。
パイプの切り換えにより、ＩＤ２ＸからＡＣ１Ｙへそし
てＩＤ２ＹからＡＣ１Ｘへ命令を切り換えることができ
る。模範的な実施例については、流れ変更命令、浮動小
数点命令及び排他的命令のような幾つかの命令がＸパイ
プラインのみへ発生される。排他的命令は、ＥＸパイプ
段において失敗となることのある命令、及びある形式の
命令、例えば、保護モードセグメントロード、ストリン
グ命令、特殊なレジスタアクセス（制御、デバッグ、テ
スト）、乗算／除算、入力／出力、プッシュオール／ポ
ップオール（ＰＵＳＨ／ＰＯＰＡ）、及びタスクスイッ
チを含む。排他的命令は、両パイプのリソースを使用す
ることができる。というのは、これらは、ＩＤ段のみか
ら発生される（即ちこれらは他の命令と対にされない）
からである。これらの発生制約を除くと、いかなる命令
も対にして、Ｘ又はＹのいずれのパイプへ発生すること
もできる。

【００４１】アドレス計算段ＡＣ１及びＡＣ２は、メモ
リ参照のためのアドレスを計算し、そしてメモリオペラ
ンドを供給する。ＡＣ１段は、クロックごとに２つの３
２ビットリニア（３オペランド）アドレスを計算する
（比較的稀である４つのオペランドアドレスは、２つの
クロックを必要とする）。データ依存性もチェックされ
そしてレジスタ変換ユニット２５ａ（レジスタスコアボ
ード及びレジスタ再ネーミングハードウェア）を用いて
分析され、３２個の物理レジスタ２４は、Ｘ８６アーキ
テクチャで定められた８個の汎用のプログラマから見え
る論理レジスタをマップするのに使用される（ＥＡＸ、
ＥＢＸ、ＥＣＸ、ＥＤＸ、ＥＤＩ、ＥＳＩ、ＥＢＰ、Ｅ
ＳＰ）。

【００４２】ＡＣユニットは、８個のアーキテクチャ
（論理）レジスタ（Ｘ８６で定められたレジスタセット
を表す）を備えており、これらは、アドレス変換のため
のレジスタオペランドをアクセスする前にレジスタ変換
ユニットＡＣ１のアクセスに必要な遅延を回避するよう
にＡＣユニットによって使用される。アドレス変換を必
要とする命令については、ＡＣ１は、アーキテクチャレ
ジスタをアクセスする前にこれらアーキテクチャレジス
タの所要データが有効になる（リード・アフタ・ライト
の依存性がない）まで待機する。ＡＣ２段の間に、レジ
スタファイル２４及び単一化キャッシュ６０は、物理ア
ドレスでアクセスされ（キャッシュヒットの場合には、
デュアルポート式の単一化キャッシュのためのキャッシ
ュアクセス時間は、レジスタのアクセス時間と同じであ
り、レジスタセットを効果的に拡張する）、物理アドレ
スは、リニアアドレスであるか、或いはアドレス変換が
イネーブルされた場合には、ＡＴＵ５０によって発生さ
れた変換されたアドレスである。

【００４３】変換されたアドレスは、メモリのページテ
ーブル及びチップ上のワークスペース制御レジスタから
の情報を用いてリニアアドレスからＡＴＵ５０によって
発生される。単一化キャッシュは、仮想インデックスさ
れると共に物理的にタグが付けられていて、アドレス変
換がイネーブルされたときには、変換されていないアド
レス（ＡＣ１の終わりに得られる）でセットの選択を行
うことができ、そして各セットに対し、ＡＴＵ５０から
の変換されたアドレス（ＡＣ２において初期に得られ
る）でタグの比較を行うことができる。セグメント化及
び／又はアドレス変換違反のチェックも、ＡＣ２で行わ
れる。

【００４４】命令は、それらが例外を生じないと決定さ
れるまではプログラム順序に保たれる。ほとんどの命令
に対し、この決定は、ＡＣ２の間又はその前に行われ、
浮動小数点命令及びある排他的命令は、実行中に例外を
生じることがある。命令は、ＡＣ２からＥＸへ順次に通
され（又は浮動小数点命令の場合はＦＰＵ７０へ）、Ｅ
Ｘにおいて依然として例外を生じることのある整数命令
は、排他的と示され、それ故、単独で両方の実行パイプ
へ発生されるので、しかるべき順序での例外の取り扱い
が確保される。

【００４５】実行段ＥＸＸ及びＥＸＹは、命令により定
められた動作を実行する。命令は、ＥＸにおいて可変数
のクロックを消費し、即ち順序がずれて実行することが
許される（順序ずれ完了）。両方のＥＸ段は、加算、論
理及びシフト機能ユニットを備え、そして更に、ＥＸＸ
段は、乗算／除算ハードウェアを含む。

【００４６】ＷＢ段は、レジスタファイル２４、条件コ
ード、及びマシン状態の他の部分を既に実行された命令
の結果で更新する。レジスタファイルは、ＷＢのフェー
ズ１（ＰＨ１）に書き込まれ、そしてＡＣ２のフェーズ
２（ＰＨ２）に読み取られる。

【００４７】１．２システム図３を参照すれば、模範的な実施例として、マイクロプ
ロセッサ１０は、単一チップのメモリ及びバスコントロ
ーラ８２を含むプロセッサシステムに使用される。メモ
リ／バスコントローラ８２は、マイクロプロセッサと外
部メモリサブシステム−−レベル２キャッシュ８４及び
メインメモリ８６−−との間のインターフェイスを形成
し、６４ビットプロセッサデータバス（ＰＤ）上でのデ
ータの移動を制御する（データ路はコントローラの外部
であり、ピンの本数及びコストを低減する）。

【００４８】コントローラ８２は、３２ビットアドレス
バスＰＡＤＤＲに直接インターフェイスし、コントロー
ラ内のレジスタを読み取ったり書き込んだりするための
１ビット巾のデータポート（図示せず）を備えている。
両方向性の分離バッファ８８は、マイクロプロセッサ１
０と、ＶＬ及びＩＳＡバスとの間のアドレスインターフ
ェイスを形成する。

【００４９】コントローラ８２は、ＶＬ及びＩＳＡバス
インターフェイスの制御を行う。ＶＬ／ＩＳＡインター
フェイスチップ９１（ＨＴ３２１のような）は、３２ビ
ットＶＬバス及び１６ビットＩＳＡバスへの標準インタ
ーフェイスを形成する。ＩＳＡバスは、ＢＩＯＳ９２、
キーボードコントローラ９３、Ｉ／Ｏチップ９４及び標
準ＩＳＡスロット９５へインターフェイスする。インタ
ーフェイスチップ９１は、二重の高／低ワード〔３１：
１６〕／〔１５：０〕分離バッファにより形成された両
方向性３２／１６マルチプレクサ９６を経て３２ビット
ＶＬバスへインターフェイスする。ＶＬバスは、標準Ｖ
Ｌスロット９７へインターフェイスし、そして両方向性
分離バッファ９８を経て６４ビットプロセッサデータバ
スの下位ダブルワード〔３１：０〕へインターフェイス
する。

【００５０】２．一般化されたパイプラインアーキテク
チャ図４は、パイプライン当たり４命令の性能の一例を示す
もので、２パイプラインアーキテクチャに対するオーバ
ーラップした命令実行を示している。付加的なパイプラ
インと、各パイプラインに対する付加的な段とを設ける
ことができる。好ましい実施例において、マイクロプロ
セッサ１０の内部動作は、外部システムクロック信号１
２４の倍数である周波数における内部クロック信号１２
２と同期される。図４において、内部クロック信号１２
２は、システムクロック信号１２４の周波数の２倍であ
る。第１の内部クロックサイクル１２６の間に、第１段
階の命令デコード段ＩＤ１は、各命令Ｘ０及びＹ０に基
づいて動作する。第２の内部クロックサイクル１２８の
間に、命令Ｘ０及びＹ０は、第２段階の命令デコード段
ＩＤ２へ進んでおり、第１段階の命令デコードユニット
ＩＤ１には新たな命令Ｘ１及びＹ１が入れられる。第３
の内部クロックサイクル１３０の間には、第１段階のデ
コード段ＩＤ１には命令Ｘ２、Ｙ２があり、第２段階の
命令デコード段ＩＤ２には命令Ｘ１、Ｙ１があり、そし
て第１のアドレス計算ユニットＡＣ１には命令Ｘ０、Ｙ
０がある。内部クロックサイクル１３２の間には、第１
段階の命令デコード段ＩＤ１には命令Ｘ３、Ｙ３があ
り、第２段階の命令デコード段ＩＤ２には命令Ｘ２、Ｙ
２があり、第１のアドレス計算ユニットＡＣ１には命令
Ｘ１、Ｙ１があり、そして第２のアドレス計算ユニット
ＡＣ２には命令Ｘ０、Ｙ０がある。

【００５１】この説明から明らかなように、Ｘ及びＹパ
イプラインの各段を経て次々の命令が順次に流れ続け
る。クロックサイクル１３４、１４０に示されたよう
に、各命令の実行部分は、順次のクロックサイクルにお
いて実行される。これは、個々の命令の実行時間を減少
することなく、クロック当たりに完了される命令の数が
増加されるという点で、パイプライン式アーキテクチャ
の主たる利点である。従って、ハードウェアの速度に大
きな需要が生じるようにして大きな命令スループットが
達成される。

【００５２】図４に示す命令の流れは、最適な場合であ
る。図示されたように、１クロックサイクルより大きい
段階は必要とされない。実際のマシンでは、他のパイプ
段を通る命令の流れを変更するように、１つ以上の段が
付加的なクロックサイクルの完了を必要とすることがあ
る。更に、一方のパイプラインを通る命令の流れは、他
方のパイプラインを通る命令の流れによって左右され
る。

【００５３】３．書き込みバッファアーキテクチャ及び
動作図１に示すように、書き込みバッファ２９は、コア２０
の出力に論理的に配置されており、ライトバックバスＷ
Ｂｘ、ＷＢｙによってコア２０に作動的に接続さ
れ、そこからデータを受け取る。又、書き込みバッファ
２９は、ＡＴＵ５０にも作動的に接続され、そこからア
ドレスバスＰＡｘ、ＰＡｙ（図５）を経て物理アドレス
を受け取る。書き込みバッファ２９の出力は、デュアル
キャッシュポート１６０によって単一化キャッシュ６０
へ与えられると共に、メモリデータバスＤＡＴＡにも与
えられる。キャッシュポート１６０は、従来の仕方で、
データ、アドレス及び制御ラインを単一化キャッシュ６
０へ与え、本発明の好ましい実施例によれば、キャッシ
ュポート１６０と単一化キャッシュ６０との間のライン
数は、２つの同時の書き込み要求をサポートするのに充
分なものである。

【００５４】以下で更に明らかとなるように、書き込み
バッファ２９の機能は、レジスタファイル２４のレジス
タの１つではなくてメモリへ書き込まれるべきアドレス
及びデータ情報をコア２０から受け取ることであり、次
いで、書き込みバッファ２９に記憶されたアドレス及び
データ情報は、後で、キャッシュ及びメモリサブシステ
ムが優先順位の高い動作においてビジーでないときに、
メモリに書き込むことができる。その結果、書き込みバ
ッファ２９は、コア２０がメモリ書き込み動作を迅速に
行い（その観点から）そしてパイプラインの次の命令へ
進むことができるようにし、しかも、メモリ読み取り動
作を妨げることがなく、且つメモリ書き込みを行うため
にコア２０の部分に待機状態を要求することもない。更
に、コア２０により書き込みバッファ２９に対して行わ
れるメモリ書き込み動作は、メモリ位置が単一化キャッ
シュ６０にあるかメインメモリ８６にあるかに係わりな
く同じ書き込みサイクルタイムを必要とするものであ
る。

【００５５】図５を参照し、本発明の好ましい実施例に
よる書き込みバッファ２９の詳細な構造及び動作につい
て説明する。以下に述べる書き込みバッファ２９の例
は、スーパーパイプライン式スーパースカラーアーキテ
クチャのマイクロプロセッサ１０に特に効果的である
が、異なるアーキテクチャのマイクロプロセッサに使用
したときにも顕著な性能及び他の利点を与えることを理
解されたい。

【００５６】本発明の好ましい実施例によれば、書き込
みバッファ２９は、２つの区分１５２ｘ及び１５２ｙに
編成された１２個のエントリ１５２ｘ₀ないし１５２ｘ
₅、１５２ｙ₀ないし１５２ｙ₅を含んでいる。この例
における書き込みバッファ２９のこの分割編成は、書き
込みバッファの区分１５２ｘ及び１５２ｙが各々コア２
０のＸ及びＹパイプラインに組み合わされた状態で、レ
イアウト上好ましいと共に、マイクロプロセッサ１０の
スーパースカラーアーキテクチャとの通信効率上も好ま
しいものである。或いは又、書き込みバッファ２９は、
各エントリがコア２０のＸ及びＹパイプラインのいずれ
かによってアクセスできるような単一バンクとして編成
することもできる。

【００５７】書き込みバッファ２９は、更に、書き込み
バッファ制御ロジック１５０も備えており、これは、以
下に述べるように、書き込みバッファ２９、及びコア２
０とのインターフェイスを制御するように特に設計され
た組み合わせ又は逐次のロジックである。当業者であれ
ば、本明細書を参照したときに、これらの機能を実行す
るロジックを容易に実現できることが意図され、このよ
うな書き込みバッファ制御ロジック１５０が図５にブロ
ック形態で示されている。

【００５８】ここで、図６を参照し、書き込みバッファ
区分１５２ｘの単一エントリ１５２ｘ_iの内容について
説明する。もちろん、書き込みバッファ区分１５２ｙの
各エントリ１５２ｙ_iも、本発明の好ましい実施例によ
り同様に構成されることを理解されたい。各エントリ１
５２ｘ_iは、アドレス部分、データ部分及び制御部分を
含んでいる。更に、書き込みバッファ２９の１２のエン
トリ１５２の各々を独特に識別するには４ビットで充分
であるから、各エントリ１５２は、４ビットタグ値（図
示せず）で識別される。このタグは、特定のエントリ１
５２をアドレスするようにコア２０によって使用され、
パイプラインのＥＸ段及びＷＢ段の間にそこにデータを
書き込む（又はそこからデータを供給する）ようにす
る。４ビットタグを使用することにより、コア２０は、
パイプラインの残り部分を通して書き込みの物理メモリ
アドレスを維持する必要はない。

【００５９】３２ビット整数アーキテクチャのマイクロ
プロセッサ１０の場合に、各エントリ１５２ｘ_iは、物
理メモリアドレス（ＡＴＵ５０から物理アドレスバスＰ
Ａｘを経て受け取った）の記憶のための３２ビットと、
４バイトデータワードの記憶のための３２ビットとを含
んでいる。又、本発明の好ましい実施例によれば、各エ
ントリ１５２ｘ_iは、更に、以下のテーブルＡに示すよ
うに定義された２３の種々の制御ビットも含んでいる。
これらの制御ビットは、エントリ１５２の割り当て及び
発生を制御するために書き込みバッファ制御ロジック１
５０により使用される。更に、単一化キャッシュ６０の
制御ロジックのようなマイクロプロセッサ１０の他の部
分も、それらの特定の機能を実行するために必要に応じ
てこれらの制御ビットをアクセスすることができる。各
制御ビットの特定の機能については、書き込みバッファ
２９の動作に対して以下に詳細に説明する。テーブルＡＡＶアドレス有効；エントリは有効なアドレ
スを含む。ＤＶデータ有効；エントリは有効なデータを
含む。ＲＤ読み取り可能；エントリはその物理アド
レスに対しパイプラインにおける最後の書き込みである。

【００６０】ＭＲＧ合併可能；エントリは手前
の書き込みバッファエントリに相接しておりオーバーラ
ップしていない。ＮＣ非キャッシュ式書き込み。ＦＰエントリは浮動小数点データに対応して
いる。ＭＡＷ不整列書き込み。ＷＢＮＯＰ書き込みバッファノーオペレーション。ＷＡＲライト・アフタ・リード；エントリはプ
ログラム順序において他のパイプラインにおける同時読
み取りよりも後で生じる書き込みである。ＳＰＥＣエントリに対する推論の順序を示す４ビ
ットフィールド。ＸＤＥＰ書き込みバッファ区分１５２ｙのクロス
依存性マップ。ＳＩＺＥ書き込まれるべきデータのサイズ、バイ
ト数。ＮＣＲＡ非キャッシュ式読み取りが既に割り当て
られた。

【００６１】書き込みバッファ区分１５２ｘは、Ｘパイ
プラインの実行段ＥＸＸ又はＹパイプラインの実行段Ｅ
ＸＹのいずれかの結果を、コア２０により駆動されるラ
イトバックバスＷＢｘを経て受け取り、そして同様
に、書き込みバッファ区分１５２ｙは、Ｘパイプライン
の実行段ＥＸＸ又はＹパイプラインの実行段ＥＸＹのい
ずれかの結果をライトバックバスＷＢｙを経て受け取
る。

【００６２】書き込みバッファ区分１５２ｘ、１５２ｙ
は、それらの内容（アドレス及びデータの両区分）を、
例えば、データを適切にフォーマットする回路を経てキ
ャッシュポート１６０へ与える。図５に示すように、書
き込みバッファ区分１５２ｘは、そのデータをバレルシ
フタ１６４ｘへ与え、これは、次いで、その出力を不整
列書き込みラッチ１６２ｘへ与える。以下で詳細に述べ
るように、この不整列書き込みラッチ１６２ｘは、キャ
ッシュポート１６０への第２の書き込みのために書き込
みバッファ区分１５２ｘからのデータを記憶することが
でき、この第２の書き込みは、本発明によれば、メモリ
への書き込みが８バイト境界にオーバーラップする場合
に実行される。この不整列書き込みラッチ１６２ｘは、
その出力をキャッシュポート１６０へ与えると共に、書
き込み集合ラッチ１６５へも与え、この書き込み集合ラ
ッチ１６５は、以下で詳細に述べるように、多数の書き
込みの物理アドレスが同じ８バイトグループ内にある場
合に多数の書き込みバッファエントリ１５２からのデー
タを集合してキャッシュポート１６０へ単一書き込みす
るように働く。

【００６３】書き込みバッファ区分１５２ｙは、その出
力をマルチプレクサ１６３の一方の入力に与え、該マル
チプレクサは、浮動小数点データラッチ１６６の出力を
その他方の入力に受け取り、以下で述べるように、浮動
小数点データラッチ１６６はＦＰＵ７０からの出力を含
み、書き込みバッファエントリ１５２の１つに対応する
メモリ書き込みに対し６４ビットの浮動小数点データ記
憶を与える。マルチプレクサ１６３は、以下に述べるよ
うに、その出力に与えるための適当な入力を選択するよ
うに、書き込みバッファ制御ロジック１５０によって制
御されると共に単一化キャッシュ６０のためのキャッシ
ュ制御ロジックによって制御される。マルチプレクサ１
６３の出力は、シフタ１６４ｙへ送られ、次いで、上記
の書き込みバッファ区分１５２ｘの出力と同様に、不整
列書き込みラッチ１６２ｙへ送られる。又、不整列書き
込みラッチ１６２ｙの出力も、キャッシュポート１６０
へ同様に直結され、そして書き込み集合ラッチ１６５に
も接続される。

【００６４】説明を簡単にするために、図５には１つの
キャッシュポート１６０が概略的に示されているだけで
あるが、上記したように、本発明のこの実施例によるキ
ャッシュポート１６０は、２つの書き込み要求を同時に
与えることができるデュアルキャッシュポートである。
更に、書き込みバッファ２９は、データバスＤＡＴＡに
データを直接通信する。このように、本発明のこの実施
例によれば、図５に示されたキャッシュポート１６０の
接続は、キャッシュポート１６０に第２の同時の書き込
みを与えるように複製されると共に、データバスＤＡＴ
Ａにも直結されて、キャッシュ制御がメインメモリ８６
への書き込みを要求する場合にメモリ書き込みを行うよ
うにされる。

【００６５】又、本発明の好ましい実施例によれば、書
き込みバッファ２９は、マルチプレクサ１５４ｘ、１５
４ｙを制御する書き込みバッファ制御ロジック１５０の
制御のもとで、そのエントリ１５２からソースバスＳＲ
Ｃｘ、ＳＲＣｙによりコア２０へデータを直接供給する
ことができる。マルチプレクサ１５４ｘの出力は、パイ
プラインコントローラ２８の制御のもとで、物理レジス
タ２４へのバスｍｅｍｘ、ｍｅｍｙを経て、Ｘ又はＹ
パイプラインのいずれかへ送られ、同様に、マルチプレ
クサ１５４ｙの出力は、バスｍｅｍｘ、ｍｅｍｙを
経てＸ又はＹパイプラインのいずれかへ送られる。更
に、ライトバックバスＷＢｘ、ＷＢｙも、バイパスバ
スＢＰｘ、ＢＰｙを各々経てマルチプレクサ１５４
ｘ、１５４ｙに接続され、これにより、以下に述べるよ
うに、書き込みバッファ２９のメモリバイパスが容易に
される。

【００６６】上記したように、マイクロプロセッサ１０
は、浮動小数点演算を実行するためのオンチップＦＰＵ
７０を備えている。上記したように、ＦＰＵ７０によっ
て行われた計算の結果は、６４ビットデータワードで表
される。本発明のこの好ましい実施例によれば、書き込
みバッファエントリ１５２のデータ部分を３２ビットに
制限し、そしてＦＰＵ７０からデータを受け取るための
６４ビット浮動小数点データラッチ１６６を設けること
により、効率が得られる。浮動小数点データラッチ１６
６は、更に、浮動小数点データ有効（ＦＰＤＶ）制御ビ
ットを含み、このビットは、セットされたときに、浮動
小数点データラッチ１６６の内容が有効データを含むこ
とを指示する。１つの書き込みバッファエントリ１５２
のアドレス部分は、浮動小数点データラッチ１６６に記
憶されたＦＰＵ７０からの結果を書き込むべきところの
メモリアドレスを含み、この書き込みバッファエントリ
１５２は、そのＦＰ制御ビットがセットされると、その
データ部分が有効データを含まないが、それに対応する
データが浮動小数点データラッチ１６６に存在すること
を指示する。

【００６７】或いは又、もちろん、浮動小数点データ書
き込みバッファ機能は、各書き込みバッファエントリ１
５２に対して６４ビットデータ部分を与えることにより
得ることができる。しかしながら、本発明のこの実施例
では、６４ビット浮動小数点データのキャッシュ前書き
込みバッファ機能は与えられるが、レイアウト及びチッ
プ面積は著しく非効率的なものとなる。この非効率性
は、各書き込みバッファエントリ１５２が６４ビットデ
ータ部分をもつことを必要とせず、むしろ、浮動小数点
ラッチ１６６が書き込みバッファ２９の各エントリ１５
２に対して６４ビット能力を与えることにより生じる。
ほとんどの用途では、ＦＰＵ７０によって浮動小数点デ
ータが与えられる頻度は、浮動小数点データラッチ１６
６から浮動小数点データがリタイアされる（即ち、キャ
ッシュ又はメモリへ書き込まれる）のと同じ程度である
ことが意図される。これは、図５に示された単一の浮動
小数点データラッチ１６６で充分なバッファ機能を与え
ることができるようにする。もとろん、それとは別に、
更にバッファ機能が所望される場合には、多数の浮動小
数点データラッチ１６６をマイクロプロセッサ１０に設
けることができる。

【００６８】本発明の好ましい実施例による書き込みバ
ッファ２９の動作を以下に詳細に説明する。この動作
は、以下に述べる機能を実行するように構成された組み
合わせ又は逐次ロジックである書き込みバッファ制御ロ
ジック１５０の制御のもとにある。上記したように、当
業者であれば、以下の説明に基づいて書き込みバッファ
制御ロジック１５０の機能を達成するように、このよう
なロジックを容易に実施することができよう。

【００６９】より詳細には、本発明のこの実施例によれ
ば、書き込みバッファ制御ロジック１５０は、Ｘ及びＹ
割り当てポインタ１５６ｘ、１５６ｙと、Ｘ及びＹリタ
イアポインタ１５８ｘ、１５８ｙを各々備えており、こ
れらポインタ１５６、１５８は、各々次に割り当て又は
リタイアされるべき書き込みバッファ２９のエントリ１
５２を追跡する。従って、書き込みバッファ２９の区分
１５２ｘ、１５２ｙの各々は、割り当て及びリタイアの
目的で円形バッファとして動作し、そしてデータを発生
する目的でアドレス可能なレジスタのファイルとして動
作する。或いは又、書き込みバッファ２９は、もし所望
ならば、完全に連想的な一次データキャッシュとして実
施されてもよい。

【００７０】一般に、第２のアドレス計算段ＡＣ２が、
命令の実行中にメモリ書き込みが行われることを決定す
ると、この段において物理アドレスが計算されたとき
に、書き込みバッファエントリ１５２の１つが「割り当
てられ」、その物理アドレスがエントリ１５２のアドレ
ス部分に記憶され、そしてそのアドレス有効制御ビット
（ＡＶ）及び他の適当な制御ビットがセットされる。命
令の実行後であって且つＷＢＸ、ＷＢＹ（図１）の間
に、コア２０は、その結果をその書き込みバッファエン
トリ１５２のデータ部分に書き込んで、書き込みバッフ
ァエントリを「発生(issue) 」し、データ有効制御ビッ
ト（ＤＶ）をセットする。書き込みバッファエントリ１
５２は、選択されたエントリ１５２のＡＶ及びＤＶビッ
トに質問し、そして両方がセットされた場合は、エント
リ１５２のアドレス及びデータ部分の内容が場合によっ
てキャッシュポート１６０又はシステムバスに現れるよ
うにすることにより、非同期でプログラム順序で「リタ
イア」される。

【００７１】３．１書き込みバッファエントリの割り
当て図７を参照し、本発明の好ましい実施例による書き込み
バッファエントリ１５２の割り当てプロセスを詳細に説
明する。本発明のこの実施例では、割り当てプロセス
は、Ｘ及びＹの両パイプラインにおいて第２のアドレス
計算段ＡＣ２の部分として実行される。図７のプロセス
１７０で示されたように、割り当てプロセスは、命令の
結果を書き込むべき（即ち、メモリ書き込み）物理メモ
リアドレスを計算する際に開始される。

【００７２】説明を容易にするために、図７のシーケン
スは、書き込みバッファ２９の区分１５２ｘ、１５２ｙ
の一方について説明する。書き込みバッファ２９の反対
の区分における書き込みバッファエントリ１５２の割り
当ては、図７に示したものと同じである。

【００７３】物理アドレスが計算されると、プロセス１
７２は、割り当てポインタ１５６が指している書き込み
バッファエントリ１５２から制御ビットＡＶを検索す
る。本発明のこの実施例によれば、書き込みバッファ２
９の各側は、円形バッファとして動作し、割り当てポイ
ンタ１５６ｘ、１５６ｙは、Ｘ及びＹパイプラインに対
して各々割り当てられるべき次の書き込みバッファエン
トリ１５２を指示し、この説明上、適当な割り込みポイ
ンタ１５６ｘ、１５６ｙが指す書き込みバッファエント
リ１５２を、１５２_nと称する。判断ステップ１７３
は、制御ビットＡＶがセットされている（１）かクリア
されている（０）かを判断する。制御ビットＡＶが既に
セットされている場合には、書き込みバッファエントリ
１５２_nは、有効アドレスを既に記憶しているので、既
に割り当てられているか又は保留中である。従って、エ
ントリ１５２_nは、このときには割り当てに使用でき
ず、待機状態１７４に入り、その後、プロセス１７２及
び判断１７３において次のエントリ１５２_n+1に対して
制御ビットＡＶが繰り返し検索されてチェックされる。

【００７４】判断ステップ１７３で、エントリ１５２_n
の制御ビットＡＶがクリアされていると判断された場合
に、そのエントリ１５２_nは、既に割り当てられてもい
ないし保留中でもないから、割り当てに使用できる。こ
の場合、プロセス１７６は、プロセス１７０で計算され
た物理アドレスをエントリ１５２_nのアドレス部分に記
憶する。

【００７５】図７に示すプロセス１７６ないし１８８の
特定の順序は、一例に過ぎない。これらのプロセスは、
当業者による特定の実現化にとって効果的又は適当であ
ると思われるいかなる順序で行われてもよいことが意図
される。

【００７６】３．１．１リード・アフタ・マルチプル
ライトハザードの処理本発明のこの実施例によれば、あるデータ依存性が検出
されそして書き込みバッファアクセスに対して処理され
る。この技術分野で良く知られているように、データ依
存性とは、パイプライン式アーキテクチャのマイクロプ
ロセッサにおいてプログラム結果にエラーを生じること
のある一種のハザードである。これらの依存性は、スー
パースカラー、スーパーパイプライン式アーキテクチャ
のマイクロプロセッサ１０において、特に幾つかの命令
が性能向上のためにプログラム順序から外れて実行され
る場合に、より顕著なものとなる。より詳細には、図５
について上記しそして以下で詳細に述べるように、書き
込みバッファ２９は、パイプラインにおいてその後の命
令に対してデータが必要となる場合にはエントリをリタ
イアする前にバスＳＲＣｘ、ＳＲＣｙを経てコア２０へ
データを送ることができる。書き込みバッファエントリ
１５２の読み取り可能な制御ビット（ＲＤ）は、同じ物
理アドレスへの多数の書き込みの後であって且つこのア
ドレスに指定された書き込みバッファエントリ１５２の
リタイアの前に実行されるべき物理メモリアドレスの読
み取りをパイプラインが含むような特殊な形式のリード
・アフタ・ライト（ＲＡＷ）依存性の処理を助成する。
本発明の好ましい実施例によれば、制御ビットＲＤがセ
ットされた書き込みバッファエントリ１５２のみを使用
して、バスＳＲＣｘ、ＳＲＣｙを経てコア２０へデータ
を送ることができる。これは、同じ物理アドレスに対し
て後で割り当てられたがまだ実行されていない書き込み
動作からではなくて、完了したその前の書き込みからコ
ア２０へ誤ったデータが送られるおそれを回避する。

【００７７】プロセス１７８において、書き込みバッフ
ァ制御ロジック１５０は、既に割り当てられた各書き込
みバッファエントリ１５２のアドレスフィールドを検査
し、エントリ１５２_nに割り当てられるべき物理アドレ
スに一致するかどうかを決定する。本発明の好ましい実
施例によれば、各読み取り又は書き込み動作のサイズが
８バイト程度であり（浮動小数点データを書き込むべき
場合。本発明のこの実施例では、整数データの場合は、
４バイト）、そして各物理アドレスが１バイトに対応す
ることを考慮すれば、プロセス１７８において物理アド
レス値を比較するだけでなく、各動作のメモリスパンを
考慮しなければならない。この構成のために、異なる物
理アドレスを有する書き込み動作が、その動作のサイズ
に基づいて同じバイトにオーバーラップする。

【００７８】図８を参照し、本発明の好ましい実施例に
より異なるメモリアクセス命令の物理アドレスをプロセ
ス１７８において比較する方法について詳細に説明す
る。２つの書き込み動作の書き込みスパンを比較するた
めに、パイプライン制御ロジック２８は、第１スパンマ
ップＳＰＡＮ₀に、古い書き込み命令の書き込み動作が
作用するところのバイトの相対位置に対応するビットが
セットされたビットマップをロードすると共に、第２ス
パンマップＳＰＡＮ₁に、新たな書き込み命令の書き込
み動作が作用するところのバイトの位置に対応するビッ
トがセットされたビットマップをロードする。図８は、
２つの例示的な書き込み動作に対するスパンマップＳＰ
ＡＮ₀、ＳＰＡＮ₁の例を示している。プロセス１７８
は、次いで、スパンマップＳＰＡＮ₀とＳＰＡＮ₁のビ
ットごとの論理積をとり、両方の書き込み動作によって
書き込まれるバイトの位置をセットされたビットで指示
するマップＡＮＤＳＰＡＮを形成する。図８の例では、
マップＡＮＤＳＰＡＮにおいて２つのビットがセットさ
れており、２つの例示的な書き込み動作の両方が２つの
バイトに書き込むことを示している。

【００７９】プロセス１７８は、次いで、マップＡＮＤ
ＳＰＡＮにおけるビットの論理和をとり、いずれかのビ
ットがセットされたかどうかを判断する。エントリ１５
２_nに対する読み取り可能な制御ビットはセットされ
（一致するエントリが見つかるかどうかに係わりなく）
そしてマップＡＮＤＳＰＡＮにおけるビットの論理和の
結果を真とさせた既に割り当てられた書き込みバッファ
エントリ１５２に対する制御ビットＲＤはクリアされ
る。従って、以下に述べるように、書き込みバッファ２
９を後で読み取るべきである（即ち、リタイアの前に書
き込みバッファ２９からデータを供給する）場合には、
最後に書き込まれた書き込みバッファエントリ１５２_n
のみがその制御ビットＲＤをセットし、従って、そのデ
ータをソースバスＳＲＣｘ、ＳＲＣｙを経てコア２０へ
与えることができる。有効データを有する（制御ビット
ＤＶがセットされた）がそれらの制御ビットＲＤがクリ
アされた書き込みバッファエントリ１５２は、書き込み
バッファ制御ロジック１５０により、それらのデータを
バスＳＲＣｘ、ＳＲＣｙへ送らないよう防止される。

【００８０】３．１．２クロス依存性及びプログラム
順序でのリタイア上記したように、書き込みバッファエントリ１５２は、
プログラム順序でリタイア（即ち、単一化キャッシュ６
０又はメインメモリ８６へ書き込み）されねばならな
い。書き込みバッファエントリ１５２の単一のバンクし
か使用されない本発明のこれらの実施については、単一
のリタイアポインタ１５８によってプログラム順序が容
易に維持される。しかしながら、マイクロプロセッサ１
０はスーパースカラーアーキテクチャであるので、書き
込みバッファ２９の実現においてレイアウトの効率を得
るためには、上記したように、本発明のこの例では、書
き込みバッファエントリ１５２が、Ｘ及びＹパイプライ
ンの各々に対して１つづつの２つのグループに分割さ
れ、その各々がそれ自身のリタイアポインタ１５８ｘ、
１５８ｙを各々有する。本発明のこの好ましい実施例
は、Ｘ区分の書き込みバッファエントリ１５２ｘとＹ区
分の書き込みバッファエントリ１５２ｙとの間にプログ
ラム順序でのリタイアを確保する技術を与える。

【００８１】図９を参照し、割り当て時における選択さ
れた書き込みバッファエントリ１５２ｘ_iに対するクロ
ス依存性制御ビットＸＤＥＰのマップを説明する。図９
に示すように、書き込みバッファ２９のＸ区分における
各書き込みバッファエントリ１５２ｘ_iは、書き込みバ
ッファ２９のＹ区分１５２ｙにおける書き込みバッファ
エントリ１５２ｙ_iの１つに各々対応する６個のクロス
依存性制御ビットＸＤＥＰ₀ないしＸＤＥＰ₅を有し、
同様に（図９には示さないが）、各書き込みバッファエ
ントリ１５２ｙ_iは、書き込みバッファ２９のＸ区分１
５２ｘにおける書き込みバッファエントリ１５２ｘ_iの
各々に対して１つづつ６個のクロス依存性制御ビットＹ
ＤＥＰ₀ないしＹＤＥＰ₅を有する。図９に示すよう
に、書き込みバッファエントリ１５２ｘ_iに対する各ク
ロス依存性ビットＸＤＥＰの内容は、割り当て時におい
て、書き込みバッファ２９のＹ区分１５２ｙの対応する
書き込みバッファエントリ１５２ｙ_iのための制御ビッ
トＡＶの状態に対応する。

【００８２】図７の割り当てプロセスにおけるプロセス
１８０は、現在割り当てられている書き込みバッファエ
ントリ１５２_nに対するクロス依存性制御ビットＸＤＥ
Ｐ₀ないしＸＤＥＰ₅に、割り込み時に、書き込みバッ
ファ２９のＹ区分１５２ｙにおける６個の書き込みバッ
ファエントリ１５２ｙ_iのためのアドレス有効制御ビッ
トＡＶの状態をロードする。以下に詳細に述べるよう
に、各書き込みバッファエントリ１５２がリタイアされ
るときには、書き込みバッファ２９の反対の部分におけ
る書き込みバッファエントリ１５２の各々の対応するク
ロス依存性制御ビットＸＤＥＰがクリアされる。更に、
書き込みバッファエントリ１５２が割り当てシーケンス
のプロセス１８０においてそのクロス依存性制御ビット
ＸＤＥＰをセットした後には、それ自身のいずれのクロ
ス依存性制御ビットＸＤＥＰも付加的にセットされるこ
とはない。

【００８３】従って、書き込みバッファエントリ１５２
をリタイアするために、６個全部のクロス依存性制御ビ
ットＸＤＥＰ₀ないしＸＤＥＰ₅をクリアしなければな
らない（即ち、０に等しくする）ことを必要とすること
により、プログラム順序が維持される。従って、プロセ
ス１８０においてクロス依存性制御ビットＸＤＥＰをセ
ットすると、既に割り当てられた書き込みバッファ２９
の反対部分の書き込みバッファエントリ１５２（即ち、
プログラムシーケンスにおいて割り当てられた書き込み
バッファエントリ１５２_nの前方）の「スナップショッ
ト」が得られる。クロス依存性制御ビットＸＤＥＰとリ
タイアポインタ１５８ｘ、１５８ｙの組み合わせは、書
き込みバッファエントリ１５２がプログラム順序でリタ
イアされるように確保する。

【００８４】同様に、以下に詳細に述べるように、マイ
クロプロセッサ１０は、プログラム順序で行わねばなら
ないメインメモリ８６からの非キャッシュ式読み取りを
実行する構成を含むことができる。非キャッシュ式読み
取り割り当て制御ビット（ＮＣＲＡ）をセットすること
により各書き込みエントリに対し既に割り当てられた非
キャッシュ式読み取りの存在が指示され、非キャッシュ
式読み取りを実行すると、全ての書き込みバッファエン
トリ１５２に対して制御ビットＮＣＲＡがクリアされ
る。制御ビットＮＣＲＡのセット及びクリアは、上記の
クロス依存性制御ビットＸＤＥＰと同様に行われ、非キ
ャッシュ式読み取りが適切なプログラム順序で実行され
るよう確保する。

【００８５】３．１．３割り当てプロセスの完了次いで、プロセス１８２が書き込みバッファエントリ１
５２_nの割り当てにおいて実行され、行われるべきメモ
リ書き込みの特定の属性に基づいて書き込みバッファエ
ントリ１５２_nのある制御ビットがセットされる。書き
込みサイズ制御ビット（ＳＩＺＥ）は、命令において指
示されたように、書き込みバッファエントリ１５２_nに
書き込まれるべきデータのバイト数でセットされる（８
バイトまで。従って、３つの書き込みサイズ制御ビット
ＳＩＺＥを必要とする）。

【００８６】書き込みバッファエントリ１５２_nの使用
においてマイクロプロセッサ１０の動作を制御するため
に、プロセス１８２では書き込みバッファエントリ１５
２_nの他の制御ビットもセットされる。これらビットの
状態に基づいて本発明のこの実施例で行われる特定の制
御を以下に詳細に述べるが、これら制御ビットの性質に
ついて以下に要約する。非キャッシュ式書き込み制御ビ
ット（ＮＣ）は、メモリ書き込み動作を非キャッシュ式
とすべき場合にセットされる。合併可能な制御ビット
（ＭＲＧ）は、書き込みバッファエントリ１５２_nに対
し、それに対応する物理メモリ位置が、既に割り当てら
れた書き込みバッファエントリ１５２_nに対応するメモ
リ位置に相接しそしてオーバーラップしていない場合に
セットされて、集合書き込み動作が行えるようにされ
る。ライト・アフタ・リード制御ビット（ＷＡＲ）は、
書き込みバッファエントリ１５２_nへの書き込み動作を
他のパイプラインにおける同時読み取りの後に行うべき
である場合にセットされる。不整列書き込み制御ビット
（ＭＡＷ）は、書き込みバッファエントリ１５２_nに記
憶された物理アドレスへ書き込まれるべきデータの長さ
が８バイト境界に交差する場合にセットされる（この場
合は、書き込みバッファエントリ１５２_nをリタイアす
るのに２つの書き込みサイクルが必要である）。制御ビ
ットＮＣＲＡは、非キャッシュ式読み取りが既に割り当
てられていてまだ実行されていない場合にセットされ
る。

【００８７】書き込みバッファエントリ１５２_nにおい
て物理アドレスの記憶と制御ビットのセットが完了する
と、プロセス１８４において書き込みバッファエントリ
１５２_nに対する制御ビットＡＶがセットされる。更
に、手前のリタイア動作によってまだクリアされていな
い場合には、制御ビットＤＶがこのときクリアされる。
制御ビットＡＶをセットすることは、書き込みバッファ
エントリ１５２_nをその後の動作に割り当てることを指
示し、これは、書き込みバッファ２９の反対区分におい
て書き込みバッファエントリ１５２を割り当てる際にク
ロス依存性制御ビットＸＤＥＰをセットすることを含
む。

【００８８】プロセス１８６において、書き込みバッフ
ァ制御ロジック１５０は、現在割り当てられた書き込み
バッファエントリ１５２_nのタグ値をコア２０に返送す
る。次いで、コア２０は、プロセス１７０で計算された
全３２ビットの物理アドレスではなくて、この４ビット
タグ値を命令の実行に使用する。短いタグ値を使用する
ことにより、命令の実行が容易になり、従って、マイク
ロプロセッサ１０の性能が向上される。

【００８９】割り当てシーケンスはプロセス１８８で完
了し、割り当てポインタ１５６ｘ、１５６ｙ（書き込み
バッファエントリ１５２_nが書き込みバッファ２９のＸ
区分１５２ｘにあるかＹ区分１５２ｙにあるかに基づ
く）は、割り当てられるべき次の書き込みバッファエン
トリ１５２を指すように増加される。次いで、制御は、
書き込みに関連した命令が他の何らかの理由でパイプラ
インにおいて前方に進むことが禁止されなければ、パイ
プラインにおける関連ＥＸ段であるプロセス１９０へ進
む。

【００９０】３．２書き込みデータバッファへのデー
タの発生図１０を参照し、書き込みバッファエントリ１５２へデ
ータを発生するプロセスを、選択された書き込みバッフ
ァエントリ１５２_iについて詳細に説明する。上記のよ
うに、書き込みバッファ２９へのデータの発生は、命令
のＥＸ段の完了後であって且つ動作がＸパイプラインで
あるかＹパイプラインであるかに基づいてＷＢ段の１つ
の間に、コア２０によって実行される。

【００９１】発生シーケンスはプロセス１９２で始ま
り、コア２０は、書き込みバッファ２９に書き込まれる
べきデータを、Ｘ又はＹパイプラインのいずれが命令を
実行するかに基づいてライトバックバスＷＢｘ、ＷＢ
ｙの適当な１つに出す。又、コア２０は、行き先書き
込みバッファエントリ１５２のタグを書き込みバッファ
制御ロジック１５０へ通信する。次いで、書き込みバッ
ファ制御ロジック１５０は、プロセス１９４において、
与えられたタグ値に関連した書き込みバッファエントリ
の１つである書き込みバッファエントリ１５２_iをイネ
ーブルし、その関連ライトバックバスＷＢｘ、ＷＢ
ｙに与えられたデータをラッチする。書き込みバッファ
エントリ１５２_iにおけるデータの記憶又はラッチ動作
が完了すると、プロセス１９６において制御ビットＤＶ
がセットされ、発生シーケンスが終わりとなる。

【００９２】書き込みバッファエントリ１５２_iがその
制御ビットＡＶ及びその制御ビットＤＶをセットする
と、書き込みバッファエントリ１５２_iは、「保留」状
態となり、リタイアすることができる。上記したよう
に、書き込みバッファエントリ１５２のリタイアは、単
一化キャッシュ６０を動作するのに使用されるキャッシ
ュロジックの制御のもとで、非同期で行われ、単一化キ
ャッシュ６０又はメインメモリ８６への書き込みバッフ
ァエントリ１５２の内容の書き込みが使用可能なバスに
おいて行われ、キャッシュ又はメインメモリ読み取り動
作の実行を中断したり遅延したりすることはない。メモ
リからのプログラム又はデータの検索の際に実行される
プログラムの依存性のために、メモリ読み取りはメモリ
書き込みよりも一般に優先順位が高いことを考えると、
書き込みバッファ２９は、従来の技術に対して著しい性
能改善を与える。

【００９３】３．３書き込みバッファエントリのリタ
イア動作図１１を参照し、単一化キャッシュ６０内に含まれるか
又はこれと共に設けられたキャッシュ制御ロジックの制
御のもとで書き込みバッファエントリ１５２をリタイア
するシーケンスについて説明する。幾つかの特殊な又は
複雑な書き込み動作を以下に特に詳細に説明する。従っ
て、図１１のリタイアシーケンスは一般化されたシーケ
ンスである。

【００９４】３．３．１整数書き込みバッファデータ
のリタイア動作上記したように、図１１のリタイアシーケンスは、単一
化キャッシュ６０内に含まれるか又はこれと共に設けら
れたキャッシュ制御ロジックの制御のもとで行われ、こ
れは、Ｘ及びＹパイプラインの動作に対して非同期であ
る。上記のように、書き込みバッファエントリ１５２は
プログラム順序でリタイアされるのが重要である。従っ
て、書き込みバッファ２９は、円形バッファとして動作
し、書き込みバッファ２９の２つの部分に対しリタイア
ポインタ１５８ｘ、１５８ｙによってシーケンスが決定
される。これらリタイアポインタ１５８ｘ、１５８ｙ
は、書き込みバッファ２９の対応区分１５２ｘ、１５２
ｙにおける書き込みバッファエントリ１５２のプログラ
ム順序を維持し、そしてクロス依存性制御ビットＸＤＥ
Ｐは、以下の説明から明らかなように、区分１５２ｘ、
１５２ｙ間のエントリ１５２の順序を維持する。

【００９５】説明を容易にするために、上記の割り当て
シーケンスの場合と同様に、図１１のシーケンスは、書
き込みバッファ２９の区分１５２ｘ、１５２ｙの一方に
ついて説明する。書き込みバッファ２９の反対の区分に
ついてのシーケンスも同一である。

【００９６】リタイアシーケンスはプロセス２００で始
まり、リタイアポインタ１５８がリタイアされるべき次
のエントリ１５２として指示する書き込みバッファエン
トリ１５２の１つである書き込みバッファエントリ１５
２_rから制御ビットＡＶが検索される。判断ステップ２
０１において、制御ビットＦＰ及び制御ビットＡＶがテ
ストされて、書き込みバッファエントリ１５２_rが浮動
小数点データラッチ１６６に関連される（従って、ＦＰ
Ｕ７０からの浮動小数点結果をバッファする）かどうか
を決定する。制御ビットＦＰ及び制御ビットＡＶの両方
がセットされた場合には、書き込みバッファエントリ１
５２_rが浮動小数点データに関連され、データは、以下
のセクション３．３．２に述べるプロセスに基づいてリ
タイアされる。

【００９７】制御ビットＡＶがセットされそして浮動小
数点制御ビットＦＰがクリアされた場合には、書き込み
バッファエントリ１５２_rは整数データに向けられる。
次いで、判断ステップ２０２が実行され、キャッシュ制
御ロジックは、制御ビットＡＶ及び制御ビットＤＶの両
方がセットされたかどうかを決定する。もしそうでなけ
れば（ＡＶ及びＤＶのいずれかがクリアされた）、エン
トリ１５２_rはリタイアされる準備がされず、制御はプ
ロセス２００へと進んで、検索及び判断プロセスが繰り
返される。その両方がセットされた場合には、有効な整
数データが書き込みバッファエントリ１５２_rのデータ
部分に現れ、エントリはリタイア可能となる。

【００９８】次いで、判断ステップ２０４が実行され
て、クロス依存性制御ビットＸＤＥＰが書き込みバッフ
ァエントリ１５２_rに対して全てクリアであるかどうか
判断される。上記したように、クロス依存性制御ビット
ＸＤＥＰは、書き込みバッファエントリ１５２_rの割り
当てにおいて開始して各書き込みバッファエントリ１５
２のリタイアの際に更新される書き込みバッファ２９の
反対区分における書き込みバッファエントリ１５２に対
する制御ビットＡＶのスナップショットである。全ての
クロス依存性制御ビットＸＤＥＰが書き込みバッファエ
ントリ１５２_rに対してクリアされ（そしてリタイアポ
インタ１５８がそれを指し）た場合には、書き込みバッ
ファエントリ１５２_rがプログラム順序において次にリ
タイアされるべきものとなり、制御はプロセス２０８へ
進む。

【００９９】クロス依存性制御ビットＸＤＥＰが全てク
リアされない場合には、書き込みバッファ２９の反対区
分における付加的な書き込みバッファエントリ１５２
は、プログラム順序を維持するように、エントリ１５２
ｙがリタイアされる前にリタイアされねばならない。待
機状態２０６が作用され、その後、書き込みバッファエ
ントリ１５２_rの割り当ての前に割り当てられた反対区
分における書き込みバッファエントリ１５２が先にリタ
イアされるまで、判断ステップ２９４が繰り返される。

【０１００】以下で詳細に述べるように、マイクロプロ
セッサ１０は、メインメモリ８６から非キャッシュ式読
み取りを行う構成を含んでもよく、これはプログラム順
序で行われねばならない。既に割り当てられた非キャッ
シュ式読み取りの存在は、各書き込みエントリごとに、
制御ビットＮＣＲＡがセットされることにより指示さ
れ、非キャッシュ式読み取りを実行する際には、制御ビ
ットＮＣＲＡが全ての書き込みバッファエントリ１５２
に対してクリアされる。この特徴が実施される場合に
は、判断ステップ２０４は、制御ビットＮＣＲＡの状態
もテストし、全てのクロス依存性制御ビットＸＤＥＰ及
び制御ビットＮＣＲＡの両方がクリアされるときまで書
き込みバッファエントリ１５２_rのリタイアを防止す
る。

【０１０１】次いで、プロセス２０８が実行され、書き
込みバッファエントリ１５２_rのデータ部分は、キャッ
シュポート１６０又はメモリバスへ送るように適当なビ
ット又はバイト位置と整列される。この整列は、物理メ
モリアドレスは特定のバイト位置に対応しているが、デ
ータは６４ビット（８バイト）までのワードで与えられ
ることを考慮して必要とされる。従って、適切なメモリ
書き込み動作を確保するには、データと適当なビット位
置との整列が重要である。更に、集合書き込み及び不整
列書き込みに必要とされるような特殊な整列動作がプロ
セス２０８において達成される。これら整列特徴及びシ
ーケンスの詳細は、以下で説明する。

【０１０２】次いで、プロセス２１０は、書き込みバッ
ファエントリ１５２_rのデータ部分を、直接的に又は図
５に示された特殊な書き込み回路を経てキャッシュポー
ト１６０へ送る。これが生じると、書き込みバッファエ
ントリ１５２_rに対応するクロス依存性制御ビットＸＤ
ＥＰの１つが、書き込みバッファ２９の反対区分の各書
き込みバッファエントリ１５２_iにおいてクリアされる
（プロセス２１２）。これは、シーケンスにおける次の
書き込みバッファエントリ１５２（即ち反対のリタイア
ポインタ１５８により指示された書き込みバッファエン
トリ１５２_i）を次の動作においてリタイアできるよう
にする。プロセス２１４は、現在リタイアされている書
き込みバッファエントリ１５２_rに対し制御ビットＡＶ
及び制御ビットＤＶをクリアする。次いで、プロセス２
１６は、その区分に対するリタイアポインタ１５８を増
加し、シーケンスにおける次の書き込みバッファエント
リ１５２をリタイアできるようにすると共に、書き込み
バッファエントリ１５２_rを再割り当てできるようにす
る。リタイアシーケンスの制御は、プロセス２００へ戻
り、適当な制御ビットを検索する。

【０１０３】上記したように、単一キャッシュポート１
６０は、図５に概略的に示されて、上記のプロセス２１
０に対して説明したが、このキャッシュポート１６０は
デュアルキャッシュポートとして働き、そして図１のマ
イクロプロセッサ１０の書き込みバッファ２９は、デー
タバスＤＡＴＡと直接通信する。従って、この場合に
は、キャッシュ制御ロジックは、書き込みバッファ２９
がプロセス２１０においてエントリ１５２_rからデータ
を与えるところの適当なポートを選択する。

【０１０４】更に、デュアルキャッシュポート１６０を
設けたことにより、図５に示したように書き込みバッフ
ァ２９の２つの区分が設けられる場合に、データが２つ
の書き込みバッファエントリ１５２（書き込みバッファ
２９のＸ及びＹ区分１５２ｘ及び１５２ｙの各々に１
つ）からデュアルキャッシュポート１６０を経て同時に
与えられるときに、付加的な流線型化を与えることがで
きる。このように同時にデータが与えられる場合は、ク
ロス依存性の判断ステップ２０４は、同時に与えられた
書き込みバッファエントリ１５２が、セットされたＸＤ
ＥＰビットに対応する限り、書き込みバッファエントリ
１５２の１つが単一のセットされたクロス依存性制御ビ
ットＸＤＥＰをもつことを許さねばならない。従って、
リタイアプロセスは、書き込みバッファ２９の２つの区
分１５２ｘ、１５２ｙを使用することによりその出力速
度を倍増できる。

【０１０５】３．３．２浮動小数点書き込みバッファ
データのリタイア動作判断ステップ２０１で制御ビットＡＶ及び制御ビットＦ
Ｐの両方がセットされたと判断した場合は、リタイアポ
インタ１５８が指す書き込みバッファエントリ１５２_r
がＦＰＵ７０からの浮動小数点結果に関連している。本
発明のこの実施例によれば、エントリ１５２_rの制御ビ
ットＤＶは、以下で述べる例外処理の目的で、有効な整
数データが存在しなくてもセットされる。

【０１０６】次いで、判断ステップ２０３が実行され、
キャッシュ制御ロジックが浮動小数点データラッチ１６
６の制御ビットＦＰＤＶに質問して、ＦＰＵ７０がそこ
にデータを書き込んだかどうかを調べ、もしそうであれ
ば、制御ビットＦＰＤＶがセットされる。この制御ビッ
トＦＰＤＶは、セットされたときに、ＦＰＵ７０が有効
なデータを書き込んだことを指示するので、書き込みバ
ッファエントリ１５２の制御ビットＤＶと同様である。
これに対し、制御ビットＦＰＤＶがクリアされた場合に
は、ＦＰＵ７０は浮動小数点データラッチ１６６にまだ
データを書き込んでおらず、この場合には、判断ステッ
プ２０４が図１１のリタイアシーケンスのプロセス２０
０に制御を戻す。

【０１０７】制御ビットＦＰＤＶがセットされた場合
に、判断ステップ２０５が実行され、書き込みバッファ
エントリ１５２_rのクロス依存性制御ビットＸＤＥＰが
質問されて、全てのビットＸＤＥＰがクリアされたかど
うか調べられる。もしそうでなければ、プログラム順序
でエントリ１５２_rの前に割り当てられていてエントリ
１５２_rとは反対の書き込みバッファ２９の区分に存在
する付加的な書き込みバッファエントリ１５２を、その
エントリ１５２_rのリタイアの前にリタイアしなければ
ならない。次いで、待機状態２０７が実行され、判断１
０５が繰り返される。エントリ１５２_rの全てのクロス
依存性制御ビットＸＤＥＰがクリアになると、判断２０
５は制御をプロセス２０８へ進め、浮動小数点データラ
ッチ１６６の内容を整列してキャッシュポート１６０へ
与える。上記したように、２つの書き込みバッファエン
トリ１５２の同時の付与がデュアルキャッシュポート１
６０を経て許された場合には、エントリ１５２の１つ
は、それが同時に与えられたエントリの対に対応する限
り、１つのセットされたＸＤＥＰビットを有する。

【０１０８】次いで、上記した整数データの場合と同様
に、反対区分のエントリ１５２におけるクロス依存性制
御ビットＸＤＥＰがクリアされ（プロセス２１２）、制
御ビットＡＶ及び制御ビットＦＰＤＶがクリアされ（プ
ロセス２１４）、そしてリタイアポインタ１５８が増加
される（プロセス２１６）。

【０１０９】３．４非キャッシュ式読み取りの順序付
け上記した書き込みバッファエントリ１５２の割り当てに
使用したクロス依存性概念は、マイクロプロセッサ１０
の他の機能にも使用できる。以下に述べる非キャッシュ
式書き込みの場合と同様に、マイクロプロセッサ１０
は、メモリからの非キャッシュ式読み取りを必要とする
命令をそのプログラムシーケンスに有している。定義に
よれば、非キャッシュ式読み取りは、定義により単一化
キャッシュ６０からのものではないメインメモリ８６か
らの読み取りであり、非キャッシュ式読み取りは、説明
上、メインメモリ８６へ読み取りアクセスを要求するた
めの保持ラッチとして働く単一エントリ読み取りバッフ
ァと考える。適切なパイプライン動作を確保するために
は、非キャッシュ式読み取りはプログラム順序で実行さ
れねばならない。従って、特に、ここに述べるスーパー
パイプライン式スーパースカラーアーキテクチャのマイ
クロプロセッサにおいては、非キャッシュ式読み取りの
プログラム順序を維持する方法が必要となる。

【０１１０】図１９を参照し、本発明の好ましい実施例
による非キャッシュ式読み取りのクロス依存性フィール
ド３１０について説明する。非キャッシュ式読み取りの
クロス依存性フィールド３１０は、好ましくは、単一化
キャッシュ６０のキャッシュ制御ロジックの維持され、
そして割り当てられた制御ビットＮＣＲＶを含んでい
る。これは、セットされると、非キャッシュ式読み取り
が割り当てられたことを指示する。上記したクロス依存
性制御ビットＸＤＥＰと同様に、そして上記したよう
に、各書き込みバッファエントリ１５２の制御ビットＮ
ＣＲＡは、その割り当て時に、割り当てられた制御ビッ
トＮＣＲＶがセットされた場合にセットされて、非キャ
ッシュ式読み取りが既に割り当てられたことを指示す
る。制御ビットＮＣＲＡは、各書き込みエントリ１５２
のリタイア中にテストされ、メインメモリ８６への要求
の適切な順序を確保する。

【０１１１】更に、非キャッシュ式読み取りのクロス依
存性フィールド３１０は、各書き込みバッファエントリ
１５２の制御ビットＡＶの各々にマップされた１ビット
位置を含み、これは、非キャッシュ式読み取りの割り当
て時にどの書き込みバッファエントリ１５２が既に割り
当てられているかを指示すると共に、これらの既に割り
当てられた書き込みバッファエントリ１５２のリタイア
を指示する。非キャッシュ式読み取りのクロス依存性フ
ィールド３１０は、クロス依存性制御ビットＸＤＥＰと
同様に動作し、ビットは、非キャッシュ式読み取りの割
り当て時にのみセットされそして各書き込みバッファエ
ントリのリタイア時にクリアされる。

【０１１２】図２０及び２１を参照し、本発明の好まし
い実施例による非キャッシュ式読み取り動作の割り当て
及びリタイアのプロセスについて詳細に説明する。図２
０に示された非キャッシュ式読み取りの割り当てにおい
て、プロセス３１２は、先ず命令が非キャッシュ式読み
取りを含むことを決定する。次いで、プロセス３１４が
実行され、制御ビットＡＶのスナップショットが非キャ
ッシュ式読み取りクロス依存性フィールド３１０にロー
ドされる。次いで、プロセス３１６が実行されて、非キ
ャッシュ式読み取りのクロス依存性フィールド３１０の
割り当てられた制御ビットＮＣＲＶがセットされ、その
後の割り当てられた書き込みバッファエントリ１５２
に、非キャッシュ式読み取り動作が既に割り当てられた
ことを指示する。次いで、アドレス計算段ＡＣ２に続く
（プロセス３１８）。

【０１１３】図２１は、単一化キャッシュ６０の制御ロ
ジックの制御のもとで非キャッシュ式読み取りを実行す
るプロセスを示している。判断ステップ３１９は、非キ
ャッシュ式読み取りのクロス依存性フィールド３１０が
完全にクリアであるかどうかを判断する。非キャッシュ
式読み取りのクロス依存性フィールド３１０のいずれか
のビットがセットされた場合には、非キャッシュ式読み
取りに既に割り当てられている書き込みバッファエント
リ１５２の１つ以上がまだリタイアされておらず、次い
で、待機状態３２１に入り、そして既に割り当てられた
全ての書き込みバッファエントリがリタイアされるまで
判断ステップ３１９が繰り返される。

【０１１４】非キャッシュ式読み取りのクロス依存性フ
ィールド３１０が完全にクリアされた際には、非キャッ
シュ式読み取りがプログラム順序において次に実行され
るべきものとなる。次いで、プロセス３２０が実行され
て、メインメモリ８６からの読み取りが従来の仕方で行
われる。読み取りの完了時に、非キャッシュ式読み取り
のクロス依存性フィールド３１０の割り当てられた制御
ビットＮＣＲＶがプロセス３２２においてクリアされ、
従って、書き込みバッファエントリ１５２のその後の割
り当ては、それらの制御ビットＮＣＲＡをセットしな
い。次いで、プロセス３２４は、書き込みバッファエン
トリ１５２の制御ビットＮＣＲＡをクリアし、非キャッ
シュ式読み取りの完了を指示すると共に、その後の書き
込みバッファエントリ１５２をプログラム順序でリタイ
アできるようにする。

【０１１５】１組とみなされる書き込みバッファエント
リ１５２の制御ビットＮＣＲＡが非キャッシュ式読み取
りのクロス依存性フィールド３１０に対応していること
を考えると、非キャッシュ式読み取りのプログラム順序
の実行を制御するのに１組のこれらインジケータを使用
すれば充分であることが意図される。例えば、非キャッ
シュ式読み取りのクロス依存性フィールド３１０のみが
使用される場合には、書き込みバッファエントリ１５２
の割り当て及びリタイアは、フィールド３１０をテスト
することにより非キャッシュ式読み取りが割り当てられ
たかどうかを決定するように制御され、そしてフィール
ド３１０の対応ビット位置をテストすることにより非キ
ャッシュ式読み取りの前又は後に特定の書き込みバッフ
ァエントリ１５２が割り当てられたかどうかを決定する
ように制御される。

【０１１６】それ故、本発明の好ましい実施例によれ
ば、非キャッシュ式読み取り動作は、書き込みバッファ
エントリ１５２のリタイアに対してプログラム順序で実
行されるように制御することができる。

【０１１７】４．リード・アフタ・ライトハザードの検
出及び書き込みバッファ動作上記したように、パイプライン式アーキテクチャのマイ
クロプロセッサ、特にマイクロプロセッサ１０のような
スーパーパイプライン式スーパースカラーマイクロプロ
セッサにおいては幾つかのハザードが本来存在する。こ
のようなハザードの重要な種類は、所与の時間にパイプ
ラインにおいて同じレジスタ又はメモリ位置に対して多
数の動作が存在するときに生じるデータ依存性である。

【０１１８】第１の形式のデータ依存性は、同じメモリ
位置への書き込み及び読み取りがパイプラインに存在し
て読み取り動作が書き込みよりも新しい命令であるよう
なＲＡＷ即ちリード・アフタ・ライトのデータ依存性で
ある。このような場合は、プログラマは、読み取りを実
行する前に書き込みが完了すると仮定する。しかしなが
ら、パイプライン動作であるために、特に読み取り動作
が加算又は乗算のような別の命令に含まれる場合には、
読み取り動作のためのメモリアクセスが書き込みの実行
前に行われることがある。このような場合には、メモリ
位置への書き込みがまだ行われていないので、読み取り
が誤ったデータをコアに返送する。このハザードは、ス
ーパースカラー、スーパーパイプライン式アーキテクチ
ャーのマイクロプロセッサ１０において生じ易く、そし
て上記したように、命令をプログラム順序から外れて実
行できる場合には更に生じ易いものである。

【０１１９】図１２を参照し、本発明の好ましい実施例
によりマイクロプロセッサ１０においてＲＡＷハザード
を検出しそして処理するシーケンスを詳細に説明する。
この例において、ＲＡＷハザードの検出は、各読み取り
命令に対しＸ及びＹパイプラインの第２アドレス計算段
ＡＣ２で実行された物理アドレス計算プロセス２１８の
結果として生じる。判断ステップ２１９において、書き
込みバッファ制御ロジック１５０は、プロセス２１８で
計算された読み取り物理アドレスを、パイプラインの関
連性に係わりなく、全ての書き込みバッファエントリ１
５２における物理アドレス値の各々と比較する。この比
較は、読み取りアクセスの物理アドレスを既に割り当て
られたアドレスと比較するだけでなく、図７及び８のプ
ロセス１７８について上記したように、動作のスパンも
考慮する。又、この比較は、反対のＸ又はＹパイプライ
ンの第２のアドレス計算段に現在ある命令に対しても行
われる。読み取り動作と、既に割り当てられているか又
は同時に割り当てられるがプログラム順序において早期
であるいずれかの書き込みとのオーバーラップがない場
合には、その特定の読み取り動作についてＲＡＷハザー
ドは存在せず、プロセス２２２において実行が続けられ
る。判断ステップ２１９において、読み取り動作に対し
て計算された物理アドレスと、古い命令に割り当てられ
且つそのアドレス有効制御ビットＡＶがセットされてい
るか或いは古い命令の同時に割り当てられた書き込みに
対して割り当てられている１つ以上の書き込みバッファ
エントリ１５２_Wに対する物理アドレスとが一致すると
決定された場合には、ＲＡＷハザードが存在することが
あり、図１２に示すハザード処理シーケンスへと続けら
れる。

【０１２０】上記のように、各書き込みバッファエント
リ１５２に対する制御ビットの１つは、ライト・アフタ
・リード制御ビットＷＡＲである。この制御ビットは、
書き込みバッファエントリ１５２が割り当てられた書き
込み動作は、割り当て時に反対のパイプラインの第２ア
ドレス計算段ＡＣ２にある古い（プログラム順序で）読
み取り命令の後に行うべき書き込み動作であるという点
で、ライト・アフタ・リードであることを指示する。も
しこの場合には、制御ビットＷＡＲは、割り当てシーケ
ンスにおいてセットされる（図７のプロセス１８２）。
これは、新しい書き込み動作が古い読み取り動作の前に
実行する場合にマイクロプロセッサ１０がロックするの
を防止する。というのは、古い読み取り動作は、実行時
に、それ自身、書き込みがクリアされるまで待機するリ
ード・アフタ・ライト動作と考えるからである。更に、
書き込み動作は、読み取りよりも新しく、読み取りがク
リアされるのを待機するので、読み取りも書き込みも実
行されない。制御ビットＷＡＲを使用することにより、
マイクロプロセッサ１０は、明白なＲＡＷハザードが実
際にはＷＡＲ状態であるかどうかを判断することがで
き、この場合は書き込みを処理できる。

【０１２１】従って、図１２へ戻ると、判断ステップ２
２１は、判断ステップ２１９で決定されたように読み取
りと一致する物理アドレスを有する各書き込みバッファ
エントリ１５２_Wに対して制御ビットＷＡＲがセットさ
れたかどうかを判断する。ＷＡＲビットがセットされた
各エントリ１５２_Wについては、ＲＡＷの競合が存在し
ない。従って、一致するエントリ１５２_Wがいずれもク
リアなＷＡＲビットを有していない場合には、プロセス
２２２において読み取りの実行が継続される。しかしな
がら、書き込み制御ビットＷＡＲがセットされていない
各一致する書き込みバッファエントリ１５２_Wについて
は、ＲＡＷハザードが存在し、図１２のハザード処理シ
ーケンスがそのエントリ１５２_Wに対して実行される。
当然、判断ステップ２２１では、書き込みバッファノー
オペレーション制御ビット（ＷＢＮＯＰ）のクリア状態
や、本発明の特定の具現化において実施される他の制御
ビット及び機能の状態のような他の適当な状態もチェッ
クされる。

【０１２２】次いで、判断ステップ２２３が実行され、
制御ビットＡＶ即ちアドレス有効性が各ＲＡＷエントリ
１５２_Wについてテストされる。判断ステップ２２３
は、主として、読み取り動作について待機状態を生じる
ＲＡＷエントリ１５２_W（以下に述べる）がリタイアさ
れたかどうかを決定するように行われる。残りのＲＡＷ
エントリ１５２_Wで制御ビットＡＶがセットされている
ものがない場合には、ＲＡＷハザードがクリアされてお
り、読み取り動作を続けることができる（プロセス２２
２）。

【０１２３】残りの一致するＲＡＷエントリ１５２_Wの
各々に対し、プロセス２２４が次に実行されて、エント
リをバイパスできるかどうか、又はハザードを生じた書
き込みを読み取り動作を続ける前に完了しなければなら
ないかどうかを判断する。本発明の好ましい実施例によ
れば、コア２０における読み取り動作へデータを供給す
る前に書き込みからのデータを単一化キャッシュ６０及
びある場合には書き込みバッファ２９に書き込む必要が
ないようにする技術が使用できる。

【０１２４】しかしながら、このようなバイパス動作
は、全ての書き込みに使用できるのではない。この例に
おいては、非キャッシュ式書き込み（非キャッシュ式制
御ビットＮＣがエントリ１５２においてセットされるこ
とにより指示される）の結果をメインメモリ８６から供
給しなければならない。第２に、上記したように、ＲＡ
Ｗハザードの特殊な場合が、同じ物理位置に対するリー
ド・アフタ・マルチプルライト（多数の書き込み後の読
み取り）である。図７に示すように、割り当てシーケン
スのプロセス１７８は、書き込みバッファエントリ１５
２の制御ビットＲＤをセットし、そして同じ物理アドレ
スに既に割り当てられている全ての書き込みバッファエ
ントリの制御ビットＲＤをクリアする。これに対し、読
み取り可能でない（即ち、それらの制御ビットＲＤがク
リアされた）書き込みバッファエントリ１５２は、それ
らのデータにエラーがあるので、コア２０へデータを供
給するのに使用できない。第３に、後続の読み取りが書
き込み動作で書き込まれなかったバイトを包含する場合
は書き込み動作からデータを供給することができず、読
み取りを完了するためにキャッシュ６０又はメインメモ
リ８６へのアクセスが依然として必要とされる。

【０１２５】図１２のＲＡＷ処理シーケンスにおいて
は、各々の一致する書き込みバッファエントリ１５２_W
に対してプロセス２２４が実行され、エントリ１５２_W
に対する制御ビットＲＤがセットされた（エントリ１５
２_Wが読み取りの物理アドレスに割り当てられた最後の
エントリ１５２であることを指示する）かどうかを判断
し、制御ビットＮＣがクリアである（書き込みが非キャ
ッシュ式でないことを指示する）かどうかを判断し、そ
して読み取られるべきバイトがメモリに書き込まれるべ
きバイトのサブセットであるという点で、読み取りの物
理アドレスが書き込みバッファエントリ１５２_Wへの書
き込みの物理アドレスに「厳密」に一致するかどうかを
判断する。これら３つの全ての条件を満たすエントリ１
５２_Wは、「バイパス可能」であると言え、そして制御
は以下に述べる判断ステップ２２５へ進む。上記条件の
１つ以上（非キャッシュ式、非読み取り可能又は不存在
物理アドレス）を満足しないことにより、バイパス可能
なエントリ１５２_Wが存在しない場合には、待機状態２
２９が行われ、そして制御は判断ステップ２２３へ戻
り、この状態は、制御ビットＡＶがクリアされることに
より示されるように全ての非バイパスエントリ１５２_W
がリタイアされるまで保持され、その後に、読み取り動
作が続けられる（プロセス２２２）。

【０１２６】本発明のこの実施例においては、各バイパ
ス可能なエントリ１５２_Wに適用できるバイパス方法が
判断ステップ２２５において決定され、制御ビットＤＶ
即ちデータ有効性がテストされて、書き込みバッファエ
ントリ１５２_Wが保留中であり（即ち、有効なデータを
含み）まだリタイアされていないかどうか判断する。保
留中である各バイパス可能なエントリ１５２_Wについて
は、プロセス２３０が書き込みバッファ制御ロジック１
５０によって実行されて、書き込みバッファエントリ１
５２_Wのデータ部分の内容を、最初にメモリへ書き込ま
ずに、コア２０へ直接供給できるようにする。図５を参
照すると、プロセス２３０が行われて、書き込みバッフ
ァ制御ロジック１５０が書き込みバッファエントリ１５
２_Wをイネーブルし、読み取り動作の際に、そのデータ
をソースバスＳＲＣ（即ち、エントリ１５２_Wを含む書
き込みバッファ２９の区分に対するバスＳＲＣｘ、ＳＲ
Ｃｙの一方）に出すと共に、適当なマルチプレクサ１５
４を制御して、ソースバスＳＲＣを、データを要求して
いるコア２０のＸ又はＹの一方のパイプラインに適用す
る。従って、この場合に、ＲＡＷハザードの検出は、書
き込みバッファ２９からコア２０へデータを供給するこ
とにより処理され、読み取り動作の実行時間がスピード
アップされる。

【０１２７】しかしながら、制御ビットＤＶがセットさ
れていないことが判断ステップ２２５で分かることによ
り示されるようにまだ保留になっていないバイパス可能
な書き込みバッファエントリ１５２_Wについては、有効
なデータがエントリ１５２_Wに存在せず、そこからコア
２０へ供給することができない。これらエントリ１５２
_Wに対してプロセス２３２が実行され、コア２０により
書き込みバッファエントリ１５２_Wへの書き込みが行わ
れるときに、ライトバックバスＷＢｘ又はＷＢｙ上
の有効データ（対応するバイパスバスＢＰｘ、ＢＰ
ｙにも存在し、マルチプレクサ１５４ｘ、１５４ｙの適
当な一方に送られる）が、コア２０の要求を発している
Ｘ又はＹパイプラインへ送られる。このように、ＲＡＷ
ハザードは、有効なデータをもつ書き込みバッファ２９
をバイパスすることによって取り扱われ、データをコア
２０へ供給する前に、キャッシュ６０、メインメモリ８
６又は書き込みバッファエントリ１５２_Wからの有効デ
ータの記憶及び検索が必要とされないので、読み取り動
作の実行が更にスピードアップする。

【０１２８】５．推論的実行及び例外処理５．１推論的実行上記したように、本発明の好ましい実施例によるスーパ
ーパイプライン式スーパースカラーマイクロプロセッサ
１０は、推論的に命令を実行できる。この推論は、条件
分岐又はジャンプステートメントの後であって且つジャ
ンプ又は分岐の基礎となる条件の状態を決定する前に１
つ以上の命令を実行することにより生じる。推論的実行
を行わない場合には、マイクロプロセッサは、後続命令
の実行の前に、条件の状態を決定する命令の実行を待機
しなければならず、パイプライン「ストール（停止）」
状態を招く。推論的実行では、マイクロプロセッサ１０
は条件の状態を推論し、その推論に基づいて命令を実行
する。行われる推論的実行の数及び推論が正確である率
にもよるが、パイプラインストールの影響は著しく減少
される。

【０１２９】本発明のこの実施例によるマイクロプロセ
ッサ１０は、首尾よくいかなかった推論の影響を速やか
にクリアして、特に、推論的書き込みの結果がメモリへ
リタイアされないよう確保すると共に、推論的に書き込
まれたデータを書き込みバッファ２９から除去するため
の回路を備えている。図１３及び１４を参照し、推論的
書き込みを実行すると共に不首尾な推論を取り扱う方法
について詳細に説明する。図１３及び１４は、この方法
を一般的ではなく一例として示すものであり、当業者で
あれば、この例についての以下の説明を参照することに
より、図１３及び１４の方法をマイクロプロセッサにお
いて容易に実現することができよう。

【０１３０】図１３の例示的シーケンスはプロセス２４
０で始まり、コア２０は、条件がまだ分からない条件分
岐の１つの結果に命令が対応するという点で推論的に実
行されるべき一連の命令を選択する。どの条件分岐を選
択すべきか（即ち、条件分岐又はジャンプを行うべきか
どうか）の判断は、従来の予想分岐機構に基づいて行わ
れる。プロセス２４２において、２つの書き込みバッフ
ァエントリ１５２ａ、１５２ｂの割り当て（推論的分岐
は、この例ではメモリへの２つの書き込み動作を含む）
が、上記のように、パイプラインの第２のアドレス計算
段ＡＣ２において実行される。しかしながら、書き込み
バッファエントリ１５２ａ、１５２ｂへの書き込み動作
は推論的であるから、プロセス２４２の割り当て中に書
き込みの推論の程度に基づいて推論制御ビット（ＳＰＥ
Ｃ）の少なくとも１つがセットされる。

【０１３１】本発明のこの実施例では、４次の推論的実
行が許される。推論の次数即ち程度は、各書き込みバッ
ファエントリ１５２ごとに、４つｊ、ｋ、ｌ、ｍのＳＰ
ＥＣ制御ビット（ＳＰＥＣビット）によって指示され、
各ビット位置は、書き込みバッファエントリ１５２が選
択された条件分岐の１つに対し推論的書き込みであるか
どうかに対応する。図１３は、プロセス２４２の割り当
て後の４つの書き込みバッファエントリ１５２ａ、１５
２ｂ、１５２ｃ及び１５２ｄの条件を示している。図１
３に示すように、プロセス２４２で割り当てられた書き
込みバッファエントリ１５２ａ、１５２ｂは、それらの
ｊＳＰＥＣビットがセットされている。プロセス２４２
の割り当ては、第１次の推論である（即ち、この例で行
われる第１の推論である）から、エントリ１５２ａ、１
５２ｂに対して単一のｊＳＰＥＣ制御ビットのみがセッ
トされる。書き込みバッファエントリ１５２ｃ、１５２
ｄは、まだ割り当てられておらず、従って、それらの推
論制御ビットはクリアである。

【０１３２】プロセス２４２の割り当ての後に、選択さ
れた条件分岐において推論的命令の実行がプロセス２４
４で開始される。これら命令の実行は、それが完了した
場合に、割り当てられた書き込みバッファエントリ１５
２ａ、１５２ｂへの書き込みに影響を与え、それらの制
御ビットＤＶがセット状態になる。しかしながら、これ
ら書き込みの実行は推論的であるから、図１１について
述べたリタイアシーケンスは、（推論的実行が組み込ま
れる場合に）制御ビットＳＰＥＣが全てクリアされない
限り書き込みバッファエントリ１５２のリタイアを防止
するゲート判断も含んでいなければならない。これは、
推論的実行の結果がメモリに達するのを防止する。とい
うのは、推論的予想が誤りであった（即ちプロセス２４
０で選択されたものから別の分岐をとっていなければな
らなかった）場合には回復するのが非常に困難であり、
もしできたとしても、非常に時間がかかるからである。

【０１３３】図１３の例では、２次の推論も行われ、プ
ロセス２４０で選択された分岐における命令の１つが、
別の条件分岐又はジャンプを含み、これに対して予想分
岐選択が再びプロセス２４６で行われて、パイプライン
がストールしないようにされる。２次の推論は、プロセ
ス２４６で選択された分岐に対する命令の実行を首尾良
く行うために、プロセス２４６での選択を正しく行うだ
けでなく、プロセス２４０での選択も正しくなければな
らないことを意味する。プロセス２４６は、図１３で
は、プロセス２４４における命令の実行後に生じるもの
として示されているが、上記したマイクロプロセッサ１
０のスーパーパイプラインアーキテクチャにより、プロ
セス２４６の予想分岐は、プロセス２４４で開始される
実行の完了よりも前に生じることがしばしばある。プロ
セス２４６での分岐の選択の後に、プロセス２４８で書
き込みバッファエントリ１５２_Cが割り当てられる（こ
れも第２のアドレス計算パイプライン段の間に）。プロ
セス２４６のこの割り当てにおいては、書き込みバッフ
ァエントリ１５２_Cへのいかなる書き込みも２次の推論
であるから、ｊ及びｋの両ＳＰＥＣ制御ビットがセット
される。プロセス２４６の後の書き込みバッファエント
リ１５２ａ、１５２ｂ、１５２ｃ、１５２ｄに対する制
御ビットＳＰＥＣの状態が図１３に示されている。プロ
セス２４６で選択された分岐における推論的命令の実行
は、プロセス２５０で開始される。

【０１３４】図１３の例では、３次の推論も行われ、こ
れは、プロセス２４６で選択された分岐における命令の
シーケンスも別の条件分岐又はジャンプを含むことを意
味する。プロセス２５２は、予想分岐選択に基づいて分
岐の１つを選択するが、この３次の選択を首尾良く行う
ためには、プロセス２４０、２４６及び２５２の３つの
選択が全て首尾良く行われねばならない。この場合も、
前記のように、プロセス２５２は、マイクロプロセッサ
１０がスーパーパイプライン式アーキテクチャであるこ
とを考えれば、プロセス２５０での命令の実行が完了す
る前に分岐の選択を行うことがある。この例では、プロ
セス２５４において書き込みバッファエントリ１５２ｄ
が割り当てられ、この書き込みバッファエントリ１５２
ｄにおいて３つのｊ、ｋ及びｌのＳＰＥＣビットがセッ
トされる。プロセス２５４の後の書き込みバッファエン
トリ１５２ａないし１５２ｄに対する制御ビットＳＰＥ
Ｃの状態がプロセス２５４に示されている。次いで、プ
ロセス２５６は、プロセス２５２で選択された分岐の命
令を実行し、これは、書き込みバッファエントリ１５２
ｄへの書き込み動作を含む。

【０１３５】図１４を参照し、書き込みバッファ２９に
よる成功及び不成功の推論的実行の例を説明する。図１
３の例と同様に、図１４のシーケンスは、一般的な場合
ではなくて、一例に過ぎず、当業者であれば、マイクロ
プロセッサアーキテクチャにおいてこの方法を容易に実
現できることが意図される。

【０１３６】プロセス２６０において、コア２０は、プ
ロセス２４０の第１選択が首尾良く行われ、プロセス２
４４で実行される命令へ分岐（又は非分岐）させるに必
要な条件がその前の命令で満足されたことを検出する。
従って、プロセス２４２で割り当てられそしてプロセス
２４４で書き込まれた書き込みバッファエントリ１５２
ａ、１５２ｂのデータ部分の内容がメモリへリタイアさ
れる。というのは、それらの内容は、実行されたプログ
ラムの正確な結果だからである。それ故、プロセス２６
２において、全ての推論的書き込みバッファエントリ１
５２ａ、１５２ｂ、１５２ｃ、１５２ｄのｊＳＰＥＣビ
ットがクリアされ、プロセス２６２の後の書き込みバッ
ファエントリ１５２ａないし１５２ｄに対する制御ビッ
トＳＰＥＣの状態が図１４に示されている。書き込みバ
ッファエントリ１５２ａ、１５２ｂは、ここで、それら
の全ての推論的制御ビットＳＰＥＣがクリアされている
ので（そしてそのデータ有効性制御ビットＤＶが既にセ
ットされているので）、書き込みバッファエントリ１５
２ａ、１５２ｂは、場合によって単一化キャッシュ６０
又はメインメモリ８６へリタイアされる。

【０１３７】図１４の例では、第２の分岐選択（プロセ
ス２４６でなされた）が不首尾であると検出される。と
いうのは、プロセス２４８で実行された命令に必要な条
件がその前の命令によって満足されていないからであ
る。更に、プロセス２５２で行われる分岐の選択も、プ
ロセス２４６の首尾良い選択に基づいているので、プロ
セス２５６で実行されるべき命令に必要な条件も満足さ
れない。書き込みバッファエントリ１５２ｃ、１５２ｄ
への書き込みがまだ行われていない程度までは、上記の
不首尾の予想選択のために、これらの書き込みは決して
実行されない。これらの書き込みが生じた（即ち、書き
込みバッファエントリ１５２ｃ、１５２ｄは保留中）程
度までは、データは、それがエラーであるからメモリに
書き込まれてはならない。従って、書き込みバッファエ
ントリ１５２ｃ、１５２ｄは、それらの内容をリタイア
せずに、更に使用するためにクリアされねばならない。

【０１３８】図１４のシーケンスは、プロセス２６６で
始まって不首尾な推論的実行を取り扱い、ＳＰＥＣビッ
トｋがセットされた書き込みバッファエントリ１５２が
書き込みバッファ制御ロジック１５０により識別され
る。この例では、これらの識別された書き込みバッファ
エントリ１５２は、エントリ１５２ｃ（２次推論）及び
１５２ｄ（３次推論）である。プロセス２６８におい
て、書き込みバッファ制御ロジック１５０は、各エント
リ１５２ｂ、１５２ｃに対するアドレス有効制御ビット
ＡＶをクリアし、エントリ１５２ｃ、１５２ｄは再割り
当てされリタイアされない（リタイアを行うためにＡＶ
ビットをセットしなければならない図１１のリタイアシ
ーケンスを参照されたい）。

【０１３９】上記したように、リタイアポインタ１５８
ｘ、１５８ｙは、次にリタイアされるべき書き込みバッ
ファエントリ１５２の１つを指す。本発明の好ましい実
施例によれば、制御ビットＷＢＮＯＰが書き込みバッフ
ァエントリ１５２ｃ、１５２ｄに対してセットされ、そ
れに関連するリタイアポインタ１５８がエントリ１５２
ｃ、１５２ｄを指すときに、これらのエントリがスキッ
プされる（あたかもそれらが割り当てられなかったかの
ように）。これは、書き込みバッファ２９の該当区分が
空である場合に、リタイアポインタ１５８が割り当てポ
インタ１５６を「捕らえる」ことを許す。リタイアプロ
セスにおいてアドレス有効制御ビットＡＶを繰り返しチ
ェックすることにより、空条件に合致したときに安全停
止することができる。

【０１４０】適切な条件分岐の実行は、図１４に示すプ
ロセス２７０で再開することができる。

【０１４１】５．２例外処理推論的実行に加えて、命令の実行により一般に例外と称
されているエラー状態が返送される場合にはパイプライ
ンのストール及びバブルが生じることがある。例外の一
例は、コア２０が０で除算する状態を検出する場合であ
る。パイプラインの実行段においてこのような例外が検
出されたときは、例外状態を従来の仕方で適切に処理す
るために、まだパイプラインにある命令をクリアしなけ
ればならない。特に、書き込みバッファ２９について
は、例外を生じた命令の後に割り当てられた書き込みバ
ッファエントリ１５２をフラッシュしなければならな
い。パイプラインからの書き込み命令が除去されるため
にこれらのエントリ１５２への書き込みは決して行われ
ない（そしてデータ有効制御ビットＤＶは決してセット
されない）ので、エントリ１５２は、フラッシュされな
くても書き込みバッファ２９から決してリタイアせず、
マイクロプロセッサ１０は不定にハングし、決して到着
することのないデータを待機する。

【０１４２】図１５を参照し、書き込みバッファ２９に
対する例外を取り扱うシーケンスの一例を詳細に説明す
る。プロセス２７２において、コア２０は、例外状態を
検出する。プロセス２７４は、書き込みバッファ制御ロ
ジック１５０によって実行され、制御ビットＡＶ及び制
御ビットＤＶが書き込みバッファ２９の各書き込みバッ
ファエントリ１５２から検索される。次いで、判断２７
３が行われて、制御ビットＡＶのいずれかが書き込みバ
ッファ２９においてセットされたかどうか判断する。制
御ビットＡＶがセットされた各書き込みバッファエント
リ１５２に対して、判断２７５でその制御ビットＤＶ即
ちデータ有効性がテストされ、それがセットされたかど
うか判断される。もしそうでなければ（そのエントリ１
５２への書き込みが例外の時点でまだ生じていないこと
を意味する）、制御ビットＡＶがクリアされ、そして書
き込みバッファノーオペレーションビットＷＢＮＯＰが
そのエントリ１５２に対してセットされる。上記のよう
に、ＷＢＮＯＰビットは、リタイアポインタ１５８がこ
のエントリ１５２をスキップできることを指示し、割り
当てポインタ１５６ｘ、１５６ｙがそれらの各々のリタ
イアポインタ１５８ｘ、１５８ｙに等しいところの空条
件を達成することができる。次いで、制御は以下に述べ
るようにプロセス２７４へ戻される。

【０１４３】制御ビットＡＶ及び制御ビットＤＶの両方
がセットされた（判断２７３、２７５により決定され
る）保留中の書き込みバッファエントリについては、デ
ータがコア２０により例外状態の前に書き込まれてい
る。従って、これらの位置に書き込まれたデータは有効
であり、図１１について述べた通常の非同期リタイアシ
ーケンスでメモリに書き込むことができる。しかしなが
ら、マイクロプロセッサ１０により例外を処理する前
に、書き込みバッファ２９の全てのエントリをリタイア
し、割り当てに使用できるようにしなければならない
（即ち、書き込みバッファ２９を空にしなければならな
い）。従って、シーケンスの制御はプロセス２７４へ戻
り、全ての書き込みバッファエントリ１５２に対する制
御ビットＡＶがクリアされるときまで、制御ビットＡＶ
及び制御ビットＤＶが再び検索され質問される。全ての
制御ビットＡＶがクリアされたときは、ＷＢＮＯＰビッ
トの作用を考慮して、割り当てポインタ１５６ｘ、１５
６ｙの両方がそれらの各々のリタイアポインタ１５８
ｘ、１５８ｙと同じエントリ１５２を指す。この空条件
が達成されると、プロセス２７８を開始することがで
き、例外状態が通常のやり方で処理される。

【０１４４】６．書き込みバッファからの特殊な書き込
みサイクル図１１について上記したように、リタイアプロセスは、
書き込みバッファ２９からキャッシュポート１６０への
又は直接的にデータバスＤＡＴＡへ至る特殊な書き込み
動作を含む。本発明の好ましい実施例によれば、これら
特殊な書き込みサイクルは、不整列書き込み及び集合書
き込みの取り扱いを含むことができる。本発明の好まし
い実施例によりこれらの特殊な書き込みサイクルを取り
扱うシーケンスを以下に詳細に説明する。

【０１４５】６．１不整列書き込み上記したように、マイクロプロセッサ１０内に与えられ
た物理メモリアドレスは、メモリのバイトアドレスに対
応し、一方、データバスＤＡＴＡは、６４ビットを並列
に通信することができる（本発明のこの実施例では主と
してバスインターフェイスユニットＢＩＵのデータ入力
／出力から単一化キャッシュ６０へ）。Ｘ８６適合型の
マイクロプロセッサにおける物理アドレスはオペランド
サイズのモジュロではないので、メモリ書き込みの相当
の部分が８バイト境界にオーバーラップし、これらの書
き込みを「不整列」書き込みと称する。本発明の好まし
い実施例によるマイクロプロセッサ１０の書き込みバッ
ファ２９は、書き込みバッファエントリ１５２が割り当
て時に不整列であることを指示し、書き込みの第２部分
を与える第２の書き込みバッファエントリ１５２を割り
当て、そして不整列書き込みを考慮するようにリタイア
プロセスにおいて特殊なルーチンを開始することによ
り、このような不整列書き込みを考慮するものである。
これらのシーケンスを図１６及び１７について詳細に説
明する。

【０１４６】図１６は、図７の割り当てシーケンスのプ
ロセス１８２の一部分であって、不整列書き込みを検出
しそしてそれを割り当てられている書き込みバッファエ
ントリ１５２に対して指示するための部分を示すフロー
チャートである。図１６のプロセス２８０において、書
き込みバッファ制御ロジック１５０は、割り当てられて
いる書き込みバッファエントリ１５２_nへの書き込み動
作の物理アドレス（下位バイトアドレス）に、書き込み
動作のサイズ（バイト単位）を加える。書き込み動作の
サイズに関する情報は、Ｘ８６型マイクロプロセッサ命
令にとって通常そうであるように、命令内に含まれてい
る。判断２８１において、書き込みバッファ制御ロジッ
クは、プロセス２８０の加算がビット３への桁上げを生
じたかどうか判断し、これは、割り当てられている書き
込みバッファエントリ１５２_nへの書き込み動作が８バ
イト境界に交差することを指示する。判断２８１で桁上
げが生じないと決定されると、エントリ１５２_nへの書
き込みは不整列ではなく、次いで、プロセス２８２が実
行され、不整列書き込み制御ビットＭＡＷがエントリ１
５２_nにおいてクリアされ、そして割り当てシーケンス
が続けられる（プロセス２８８）。

【０１４７】しかしながら、桁上げが生じた場合には、
エントリ１５２_nへの書き込みが８バイトの境界に交差
し、この場合には、プロセス２８４が実行されて、エン
トリ１５２_nの制御ビットＭＡＷをセットする。次い
で、プロセス２８６において、割り当てられるべき次の
書き込みバッファエントリ１５２_n+1が不整列書き込み
の目的で割り当てられるが、これは、エントリ１５２
_n+1のアドレス部分に次の８バイトグループ（即ち、プ
ロセス２８１の検出された桁上げの後の８バイトアドレ
ス）への書き込みに対する物理スタートアドレスをロー
ドし、そしてエントリ１５２_n+1に対する制御ビットＡ
Ｖをセットすることにより行われる。プロセス２８６で
は、上位物理アドレスが異なる物理ページに存在するか
もしれないことを考慮して、新たな物理アドレスの計算
（パイプライン段ＡＣ２）が必要とされる。しかしなが
ら、エントリ１５２_n+1は、メモリへの第２のオペラン
ド書き込みを行うためのリタイアプロセスに使用される
ものに過ぎないから、エントリ１５２_n+1のデータ部分
は空のままである。次いで、割り当てプロセスの残りの
部分へ続く（プロセス２８８）。

【０１４８】書き込みバッファエントリ１５２_nが不整
列書き込みであるかどうかに係わりなく、エントリ１５
２_nへのデータの発生は、図１０について上記したよう
に行われる。本発明のこの実施例によれば、書き込みバ
ッファエントリ１５２_nのデータ部分の特殊なロードは
行われないが、不整列書き込みの場合には、エントリ１
５２_n+1へのデータの発生は行われない。

【０１４９】図１７を参照し、書き込みバッファエント
リ１５２のリタイアにおいて不整列書き込みを処理する
シーケンスについて説明する。前記のリタイアシーケン
スと同様に、図１７のシーケンスは、書き込みバッファ
制御ロジック１５０から助成されるキャッシュ制御ロジ
ックの制御のもとで実行されるのが好ましい。図１７の
シーケンスは、上記した図１１のプロセス２０８及び２
１０の一部分として行われる。このシーケンスは判断２
８９で始まり、エントリ１５２_nの制御ビットＭＡＷが
テストされ、もしクリアであれば、リタイアシーケンス
は上記のように続けられる（図１７のプロセス２９
０）。しかしながら、エントリ１５２_nに対して制御ビ
ットＭＡＷがセットされた場合には、プロセス２９２が
次に行われ、エントリ１５２_nのデータ部分が適当な不
整列データラッチ１６２ｘ、１６２ｙにラッチされる。

【０１５０】エントリ１５２_nからのデータの付与は、
書き込みの不整列特性を考慮して、２つのメモリサイク
ルで行わねばならない。しかしながら、書き込み動作を
２つのサイクルに分割する場合に、エントリ１５２_nに
記憶されたデータは、キャッシュメモリ１６０へ付与す
るための適切な「バイトレーン」にない。図５に戻る
と、シフタ１６４は、対応する書き込みバッファ区分１
５２ｘ、１５２ｙから与えられたデータを、その不整列
書き込みラッチ１６２ｘ、１６２ｙに記憶する前にシフ
トするための従来のバレルシフタである。従って、シフ
タ１６４は、対応する書き込みバッファ区分１５２_nに
おけるデータの単一シフトを行って、下位データが上位
ビットレーンに現れ（第１の下位アドレスの書き込み動
作においてキャッシュポート１６０へ与えるために）そ
して上位データが下位ビットレーンに現れる（第２の上
位アドレスの書き込み動作においてキャッシュポート１
６０へ与えるために）ようにすることができる。このシ
フト動作は、図１７に示すシーケンスのプロセス２９２
で行われる。

【０１５１】次いで、プロセス２９４が行われ、エント
リ１５２_nの物理アドレスは、下位アドレス８バイトグ
ループに対応するバイトレーンに整列された（プロセス
２９２においてシフタ１６４により）下位アドレス８バ
イトグループに対応するデータの部分と共にキャッシュ
ポート１６０へ与えられる。これは、不整列書き込みに
必要な第１の書き込み動作を行う。次いで、プロセス２
９６において、不整列書き込みの第２オペランドに対す
るアドレス及びデータが与えられる。物理アドレスは、
次の書き込みバッファエントリ１５２_n+1のアドレス部
分に記憶されたものであり、そしてデータは、シフタ１
６４によりポート１６０への第２アクセスのために適切
なバイトレーンにシフトされてエントリ１５２_nから不
整列書き込みラッチ１６２に保持されたものである。次
いで、リタイアプロセスの残り部分へ続く（プロセス２
９８）。

【０１５２】上記のように、本発明のこの実施例による
マイクロプロセッサ１０の例外処理機能は、制御ビット
ＤＶの状態を使用して、エントリ１５２が例外検出後に
フラッシュされたか否かを判断する。しかしながら、不
整列書き込みの場合には、第２の書き込みエントリ１５
２_n+1は、たとえ書き込みが行われていてもその制御ビ
ットＤＶをセットしていない。というのは、手前の（プ
ログラム順序で）書き込みバッファエントリ１５２_n内
に有効なデータが含まれているからである。従って、不
整列書き込み処理機能と、ここに述べる例外処理との両
方が与えられた場合には、例外処理シーケンスは、エン
トリ１５２_nに対して制御ビットＭＡＷ及び制御ビット
ＤＶの両方をテストし、そして両方がセットされた場合
に、次の書き込みエントリ１５２_n+1（プログラム順序
で）もその制御ビットＤＶをセットしてエントリ１５２
_n+1がフラッシュされないようにすることを考慮しなけ
ればならない。

【０１５３】この構成の結果、不整列書き込みは、本発
明によるマイクロプロセッサ１０により、コア２０の動
作に影響を与えないやり方で処理され、しかも、非同期
で行われる厳密でないリタイアシーケンス中に付加的な
ラッチ及び整列ステップを含むだけである。

【０１５４】６．２集合書き込み本発明のこの実施例によるマイクロプロセッサ１０によ
って実行することのできる別の形式の特殊な書き込み動
作は、次々の書き込み動作内に含まれたデータがメモリ
への単一書き込みアクセスに集合される集合書き込みで
ある。上記したように、各物理アドレスはバイト位置に
対応する。同時にデータバスに出される同じバイトブロ
ック内の１つ又は幾つかのバイトに対して一連の書き込
みを行うべき場合には、マイクロプロセッサ１０は、デ
ータを適切なバイトレーンに保持して、次々の小さな書
き込みアクセスではなくてキャッシュポート１６０又は
メモリへの単一の書き込みアクセスを行うようにするこ
とができる。例えば、マイクロプロセッサ１０のメモリ
データバスＤＡＴＡは６４ビット巾であるから、８バイ
トのデータを同時に書き込むことができ、本発明の集合
書き込み特徴によれば、これらの８バイトは、多数の書
き込みバッファエントリ１５２から以下に述べるように
集合することができる。

【０１５５】書き込みバッファ２９の割り当てシーケン
スについて上記したように、併合制御ビットＭＲＧは、
プログラム順序で直前のメモリ書き込み命令に対し既に
割り当てられている別の書き込みバッファエントリ１５
２と相接するがオーバーラップしない物理メモリアドレ
スへの書き込みを実行している各書き込みバッファエン
トリ１５２に対し割り当て時にセットされる。相接し隣
接するという制約は、マイクロプロセッサ１０のＸ８６
適合性を考慮して本発明の好ましい実施例により実施さ
れるものであるが、集合書き込みは、同じバイトブロッ
クにおけるデータのメンバーシップが併合書き込みにと
って唯一必要な制約であるように他のアーキテクチャで
も実施できることが意図される。割り当て後に、併合可
能な書き込みバッファエントリ１５２へのデータの発生
が、上記した通常のやり方で続けられる。

【０１５６】図１８を参照し、本発明の好ましい実施例
による集合書き込み動作を以下に詳細に説明する。判断
ステップ２９９は、リタイアされている現在書き込みバ
ッファエントリ１５２_nの制御ビットＭＲＧがセットさ
れたかどうかを判断し、もしそうでなければ、通常のリ
タイアシーケンスが続く（プロセス３００）。現在エン
トリ１５２_nの制御ビットＭＲＧがセットされた場合に
は、プロセス３０２が行われ、エントリ１５２_nのデー
タ部分が、適当なシフタ１６４ｘ、１６４ｙにより、集
合書き込みを受け入れるための適切なバイトレーンへシ
フトされる。次いで、プロセス３０４が実行され、シフ
トされたデータは、手前の相接しているがオーバーラッ
プしない書き込みから集合書き込みラッチ１６５に既に
ロードされたデータを妨げることなく、適切なバイトレ
ーン位置において集合書き込みラッチ１６５に記憶され
る。

【０１５７】次いで、判断３０５は、次の書き込みバッ
ファエントリ１５２_n+1に質問し、その制御ビットＭＲ
Ｇがセットされたかどうか判断する。もしそうであれ
ば、制御はプロセス３０２へ戻り、該次のエントリ１５
２_n+1に対するデータがシフトされそしてプロセス３０
４において集合書き込みラッチ１６５へラッチされる。
次のエントリ１５２に対し制御ビットＭＲＧ又は制御ビ
ットＡＶがクリアされることによりそれ以上の併合可能
なエントリ１５２が存在しないことが示されると（判断
３０５において）、ラッチ１６５の内容が、適当な物理
アドレスと共にポート１６０へ与えられ、場合によって
キャッシュ６０又はメインメモリ８６への集合書き込み
動作が行われる。次いで、リタイアプロセスが前記のよ
うに続けられる（プロセス３０８）。

【０１５８】それ故、本発明の好ましい実施例によれ
ば、相接するメモリ位置への多数のアクセスに代わって
単一のメモリアクセスで書き込み動作を行えるようにし
たことにより、データをキャッシュ又はメモリへリタイ
アする効率が相当に改善された。

【０１５９】７．結論本発明の好ましい実施例によれば、ＣＰＵコアとメモリ
システム（キャッシュメモリを含む）との間に、実行さ
れた命令シーケンスの結果をバッファするための書き込
みバッファが設けられた。これは、時間的に厳密でない
書き込み動作がバス又はメモリシステムを占有すること
によりキャッシュ及びメモリの読み取りを最小の待機状
態で高い優先順位で行うことができるようにする。

【０１６０】更に、本発明の好ましい実施例は、特定の
マイクロプロセッサアーキテクチャに対して特に有益な
多数の特徴を含む。このような特徴は、スーパースカラ
ープロセッサに対して書き込みバッファの２つの区分を
設けることと、バッファの分割にも係わりなくプログラ
ム順序でメモリにデータが書き込まれるよう確保する技
術とを含む。本発明の好ましい実施例の付加的な特徴
は、データ依存性及び例外のようなハザードの検出及び
処理と、予想が不首尾であった場合に書き込みバッファ
を迅速且つ正確にフラッシュして命令の推論的実行を行
うことを含む。

【０１６１】本発明をその好ましい実施例について説明
したが、当業者であれば、以上の説明及び添付図面か
ら、本発明の種々の変更や置き換えや修正が明らかとな
ろう。このような変更や修正は、本発明の範囲内に全て
包含されるもので、本発明は、特許請求の範囲のみによ
って限定されることを理解されたい。

【図面の簡単な説明】

【図１】マイクロプロセッサ全体を示すブロック図であ
る。

【図２】命令パイプライン段の一般化されたブロック図
である。

【図３】マイクロプロセッサを用いたプロセッサシステ
ムのブロック図である。

【図４】パイプライン段を通る命令の流れを示すタイミ
ング図である。

【図５】本発明の好ましい実施例による図１のマイクロ
プロセッサの書き込みバッファのブロック図である。

【図６】図５の書き込みバッファの１つのエントリの内
容を示す図である。

【図７】図１のパイプラインのアドレス計算段ＡＣ２の
間の書き込みバッファエントリの割り当てを示すフロー
チャートである。

【図８】図７の割り当てにおける物理アドレス比較プロ
セスを示す図である。

【図９】図１のマイクロプロセッサの一方のパイプライ
ンに対する書き込みバッファエントリと、図１のマイク
ロプロセッサの他方のパイプラインに対する書き込みバ
ッファエントリとのクロス依存性フィールドのアドレス
有効ビットを示すマップである。

【図１０】本発明の好ましい実施例による書き込みバッ
ファエントリの発生を示すフローチャートである。

【図１１】本発明の好ましい実施例による書き込みバッ
ファエントリのリタイアを示すフローチャートである。

【図１２】本発明の好ましい実施例による依存性ハザー
ドの検出及び処理方法を示すフローチャートである。

【図１３】本発明の好ましい実施例により推論的実行を
処理する方法を示すフローチャートである。

【図１４】本発明の好ましい実施例により推論欠陥を処
理する方法を示すフローチャートである。

【図１５】本発明の好ましい実施例による例外処理方法
を示すフローチャートである。

【図１６】本発明の好ましい実施例により不整列書き込
み動作に対する書き込みバッファ位置を割り当てる方法
を示すフローチャートである。

【図１７】本発明の好ましい実施例により不整列書き込
み動作に対する書き込みバッファ位置をリタイアするシ
ーケンスを示すフローチャートである。

【図１８】本発明の好ましい実施例により集合書き込み
動作に対する書き込みバッファ位置をリタイアするシー
ケンスを示すフローチャートである。

【図１９】本発明の好ましい実施例により図１のマイク
ロプロセッサに使用される非キャッシュ式読み取りのク
ロス依存性フィールドを示す図である。

【図２０】本発明の好ましい実施例による非キャッシュ
式読み取り動作の割り当てシーケンスを示すフローチャ
ートである。

【図２１】本発明の好ましい実施例による非キャッシュ
式読み取り動作のリタイアシーケンスを示すフローチャ
ートである。

【符号の説明】

１０マイクロプロセッサ２０中央処理ユニット（ＣＰＵ）コア２１命令デコーダ２４レジスタファイル２５ＡＣ制御ユニット２６マイクロコントロールユニット２８パイプコントロールユニット２９書き込みバッファ３０プリフェッチバッファ３５プリフェッチャ４０分岐処理ユニット（ＢＰＵ）５０アドレス変換ユニット（ＡＴＵ）６０単一化キャッシュ６２ＲＡＭ６５命令ラインキャッシュ７０浮動小数点ユニット（ＦＰＵ）

───────────────────────────────────────────────────── フロントページの続き (31)優先権主張番号０８／１３８７９０ (32)優先日 1993年10月18日 (33)優先権主張国米国（ＵＳ） (31)優先権主張番号０８／１３９５９６ (32)優先日 1993年10月18日 (33)優先権主張国米国（ＵＳ） (31)優先権主張番号０８／１３９５９８ (32)優先日 1993年10月18日 (33)優先権主張国米国（ＵＳ） (72)発明者マルクエイコートロマニアメリカ合衆国テキサス州 75002 アレンウイロウブルック 710 (72)発明者マークダブリューハーヴィンアメリカ合衆国テキサス州 75252 ダラス156 プレストンロード 17601 (72)発明者ニタルパトワアメリカ合衆国テキサス州 75093 プラノ1517 オールドシェパードプレイス 5000

Claims

【特許請求の範囲】

【請求項１】（ａ）一連の命令によって定められた動
作に基づいてデータを処理するコア手段と、（ｂ）上記コア手段に接続された複数のエントリを有し
ている書き込みバッファと、（ｃ）上記書き込みバッファ及びコア手段に接続された
複数のメモリ位置を有しているキャッシュメモリと、（ｄ）上記コア手段、書き込みバッファ及びキャッシュ
メモリに接続されたバスと、（ｅ）上記バスに接続され、命令が不整列書き込み命令
であるかどうかを検出するための制御ロジックと、（ｆ）上記書き込みバッファに接続され、上記制御ロジ
ックにより不整列書き込み命令として検出された複数の
エントリの第１エントリの内容を、その第１エントリを
キャッシュメモリへ付与する前に、シフトするためのシ
フト手段と、（ｇ）上記シフト手段及びキャッシュメモリに接続され
ていて、上記複数のエントリの第１エントリの上記シフ
トされた内容をラッチし、そして上記不整列書き込みに
対応するデータを第１及び第２の書き込みサイクルにお
いてキャッシュメモリへ付与するための不整列書き込み
ラッチとを備えたことを特徴とするマイクロプロセッ
サ。
【請求項２】上記書き込みバッファの複数のエントリ
の各々は、命令が不整列書き込み命令であるという検出
に応答して制御ロジックによってセットされる不整列書
き込み制御ビットを含む請求項１に記載のマイクロプロ
セッサ。
【請求項３】上記制御ロジックは、更に、不整列書き
込み命令の検出に応答して複数のエントリの全てにおけ
る不整列書き込み制御ビットをセットする請求項２に記
載のマイクロプロセッサ。
【請求項４】上記制御ロジックは、更に、書き込み動
作が不整列書き込みとして検出されるのに応答して複数
のエントリの第１エントリに物理アドレスをロードし、
そして更に、第２の書き込みサイクルのためのアドレス
として働くように複数のエントリの第１エントリに記憶
されたものより上位の物理アドレスを複数のエントリの
第２エントリにロードする請求項３に記載のマイクロプ
ロセッサ。
【請求項５】パイプライン式マイクロプロセッサにお
いて、一連の命令に基づき中央処理ユニットコアにより
実行された動作の結果をバッファする方法であって、こ
のバッファ動作を、複数のエントリを有する書き込みバ
ッファにおいてキャッシュメモリへの書き込みの前に行
うような方法において、（ａ）命令が不整列書き込み動作であるかどうかを識別
し、（ｂ）上記段階（ａ）で識別された不整列書き込み動作
の結果を書き込むべき第１部分の第１物理メモリアドレ
スを決定し、（ｃ）上記第１物理メモリアドレスを第１書き込みバッ
ファエントリに記憶し、（ｄ）上記段階（ａ）で識別された不整列書き込み動作
の結果を書き込むべき第２部分の第２物理メモリアドレ
スを決定し、（ｅ）上記段階（ａ）の不整列書き込み動作を実行し、（ｆ）上記段階（ｅ）からの動作結果の第１及び第２部
分を第１書き込みバッファエントリに記憶し、（ｇ）上記動作結果の第１及び第２部分を第１書き込み
バッファエントリからラッチへとラッチし、（ｈ）上記第１物理アドレス及び上記動作結果の第１の
ラッチされた部分を第１書き込みサイクルにおいてキャ
ッシュメモリへ付与し、そして（ｉ）上記第２物理アドレス及び上記動作結果の第２の
ラッチされた部分を第２書き込みサイクルにおいてキャ
ッシュメモリへ付与する、という段階を備えたことを特
徴とする方法。
【請求項６】上記第１物理アドレスは、第２物理アド
レスよりも下位のアドレスに対応する請求項５に記載の
方法。
【請求項７】上記段階（ｇ）の前に、上記命令結果の
第１及び第２部分をシフトして、命令結果の第１部分が
命令結果の第２部分よりも上位のバイト位置に存在する
ようにする段階（ｊ）を更に備えた請求項６に記載の方
法。
【請求項８】上記段階（ａ）に応答して、第１書き込
みバッファエントリの不整列書き込み制御ビットをセッ
トし、書き込み動作が不整列書き込みとなることを指示
する段階（ｋ）を更に備えた請求項５に記載の方法。
【請求項９】上記段階（ｇ）は、第１の書き込みバッ
ファエントリにおいて不整列書き込み制御ビットがセッ
トされるのに応答して実行される請求項８に記載の方
法。
【請求項１０】（ａ）第１形式のプログラム命令によ
り定められた動作に基づいてデータを処理するための中
央処理手段と、（ｂ）第２形式のプログラム命令により定められた動作
に基づいてデータを処理するための二次処理手段であっ
て、上記中央処理手段によって与えられるものよりもビ
ット巾が大きいデータワードを有する結果を与えるよう
な二次処理手段と、（ｃ）上記中央処理手段に接続された複数のバッファエ
ントリを有する書き込みバッファであって、各エントリ
が、動作結果を受け取るためのデータ部分と、その結果
が記憶される物理メモリアドレスを記憶するためのアド
レス部分とを含んでいるような書き込みバッファと、（ｄ）上記書き込みバッファに接続されてそこからデー
タを受け取ると共に、上記中央処理手段に接続されてそ
こにデータを与えるような複数のメモリ位置を有するキ
ャッシュメモリと、（ｅ）上記中央処理手段、二次処理手段、書き込みバッ
ファ及びキャッシュメモリに接続されたバスと、（ｆ）バッファエントリに記憶された物理アドレスにお
いてメモリに書き込まれる上記二次処理手段の結果を記
憶するための二次データラッチ手段と、（ｇ）書き込みバッファエントリのデータ部分又は二次
データラッチ手段の内容をキャッシュメモリへルート指
定するためのルート指定手段とを備えたことを特徴とす
るマイクロプロセッサ。
【請求項１１】マイクロプロセッサの中央処理ユニッ
ト及び二次処理ユニットによって実行されたデータ処理
動作の結果を、マイクロプロセッサのキャッシュメモリ
に記憶する前に、データ部分及びアドレス部分を各々も
つ複数の書き込みバッファエントリを有した書き込みバ
ッファを使用することによりバッファするための方法で
あって、二次処理ユニットの結果は、書き込みバッファ
エントリのデータ部分よりビット巾の大きなデータワー
ドに対応するものであり、上記方法は、（ａ）第１命令の結果を記憶するための第１メモリアド
レスを決定し、（ｂ）上記段階（ａ）で決定された第１メモリアドレス
を第１書き込みバッファエントリのアドレス部分に記憶
し、（ｃ）上記中央処理ユニット又は二次処理ユニットのい
ずれかで第１命令を実行し、（ｄ）上記段階（ｃ）で二次処理ユニットが第１命令を
実行するのに応答して上記複数の書き込みバッファエン
トリのデータ部分よりも広いビット巾を有する第２デー
タラッチに結果を記憶し、（ｅ）上記段階（ｃ）で中央処理ユニットが第１命令を
実行するのに応答して上記第１書き込みバッファエント
リのデータ部分に第１命令の結果を記憶し、（ｆ）第１命令が二次処理ユニットによって実行された
場合には二次データラッチの内容を選択し、又は第１命
令が中央処理ユニットによって実行された場合には第１
書き込みバッファエントリのデータ部分の内容を選択す
ることにより、書き込みバッファから第１命令の結果を
検索してキャッシュメモリに記憶し、そして（ｇ）上記段階（ｆ）で選択された内容を、第１書き込
みバッファエントリに記憶された第１物理アドレスと組
み合わせてキャッシュメモリへ付与する、という段階を
備えたことを特徴とする方法。
【請求項１２】（ａ）プログラム順序で実行されるべ
き命令によって定められた動作に基づいてデータを処理
するための中央処理手段と、（ｂ）第１及び第２区分に配列された複数のバッファエ
ントリを含み、中央処理手段に接続された書き込みバッ
ファと、（ｃ）上記書き込みバッファ及び中央処理手段に接続さ
れた複数のメモリ位置を有するキャッシュメモリと、（ｄ）上記中央処理手段、書き込みバッファ及びキャッ
シュメモリに接続されたバスと、（ｅ）上記書き込みバッファに記憶された命令結果がキ
ャッシュメモリにプログラム順序で与えられるように書
き込みバッファを制御するための制御論理手段とを備え
たことを特徴とするマイクロプロセッサ。
【請求項１３】マイクロプロセッサにおいて、プログ
ラム順序で一連の命令に基づいて中央処理ユニットコア
により実行されたデータ処理動作の結果を、マイクロプ
ロセッサのキャッシュメモリに記憶する前に、バッファ
するための方法であって、（ａ）複数の命令に対し、命令結果を書き込むべき物理
アドレスを決定し、（ｂ）上記段階（ａ）で決定された各物理アドレスに対
し、その決定された物理アドレスを、第１及び第２区分
に配列された複数の書き込みバッファエントリの１つに
記憶し、（ｃ）命令を実行し、（ｄ）その結果を、命令に対する物理アドレスが記憶さ
れた書き込みバッファエントリへ記憶し、そして（ｅ）上記段階（ｄ）の書き込みバッファエントリから
の結果をプログラム順序で検索して、上記記憶されたメ
モリアドレスに関連した位置においてキャッシュメモリ
に記憶する、という段階を備えたことを特徴とする方
法。
【請求項１４】マイクロプロセッサにおいて、プログ
ラム順序で一連の命令に基づいて中央処理ユニットコア
により実行されたデータ処理動作の結果をバッファする
ための方法であって、上記命令は、メモリへの書き込み
と、メモリからの非キャッシュ式読み取りとを含むもの
であり、そして上記バッファ動作は、マイクロプロセッ
サのキャッシュメモリへの記憶の前に行われ、上記方法
は、（ａ）命令結果をメモリに書き込むべきところの物理ア
ドレスを決定し、（ｂ）上記段階（ａ）で決定された物理アドレスを複数
の書き込みバッファエントリの１つに記憶し、そして物
理アドレスが記憶された書き込みバッファエントリにお
いてアドレス有効制御ビットをセットし、（ｃ）各々の非キャッシュ式読み取り命令に対して非キ
ャッシュ式読み取りをアクセスすべきところのメモリ位
置の物理アドレスを決定し、（ｄ）書き込みバッファエントリの１つに各々対応する
複数のビット位置を有する非キャッシュ式読み取り依存
性フィールドに、その対応する書き込みバッファエント
リに対するアドレス有効制御ビットの状態をロードし、（ｅ）一連の命令を実行し、（ｆ）その結果を、命令に対する物理アドレスが記憶さ
れた書き込みバッファエントリに記憶し、（ｇ）書き込みバッファエントリから上記記憶された結
果をプログラム順序で検索して、上記記憶されたメモリ
アドレスに関連した位置においてキャッシュメモリに記
憶し、そしてその検索された書き込みバッファエントリ
に対応する非キャッシュ式読み取り依存性フィールドの
ビットをクリアし、そして（ｈ）非キャッシュ式読み取り依存性フィールドがクリ
アされるのに応答して非キャッシュ式読み取りを実行す
る、という段階を備えたことを特徴とする方法。
【請求項１５】（ａ）一連の命令により定められた動
作に基づいてデータを処理するための中央処理手段と、（ｂ）上記中央処理手段に接続された複数のバッファエ
ントリを有する書き込みバッファと、（ｃ）上記書き込みバッファ及び中央処理手段に接続さ
れた複数のメモリ位置を有するキャッシュメモリと、（ｄ）上記中央処理手段、書き込みバッファ及びキャッ
シュメモリに接続されたバスと、（ｅ）第１及び第２の命令が同じバイトグループのアド
レスへのメモリ書き込みを含むことを検出するための制
御ロジック手段と、（ｆ）上記制御ロジック手段に応答して第１及び第２の
命令のデータ部分を記憶し、そしてその内容を単一の書
き込みサイクルでメモリキャッシュへ付与するための集
合書き込みラッチ手段と、を備えたこと得お特徴とするマイクロプロセッサ。
【請求項１６】パイプライン式マイクロプロセッサに
おいて、一連の命令に基づき中央処理ユニットコアによ
り実行されたデータ処理動作の結果をバッファする方法
であって、このバッファ動作は、複数の書き込みバッフ
ァエントリを有する書き込みバッファにおいてマイクロ
プロセッサのキャッシュメモリへの書き込みの前に行
い、そしてデータは、バイトグループにおいて書き込み
バッファからキャッシュメモリへ書き込みサイクル中に
通信され、上記方法は、（ａ）第１及び第２の命令が同じバイトグループのアド
レスへのメモリ書き込みを含むことを検出し、（ｂ）命令の結果をメモリに書き込むべきところの第１
及び第２の物理メモリアドレスを決定し、（ｃ）第１及び第２の物理アドレスを各々第１及び第２
の書き込みバッファエントリに記憶し、（ｄ）第１及び第２の命令を実行し、（ｅ）第１及び第２の命令の結果を各々第１及び第２の
書き込みバッファエントリに記憶し、（ｆ）上記段階（ｅ）からの結果をラッチし、そして（ｇ）上記第１及び第２の物理アドレスのバイトグルー
プに対応する物理アドレス、及び上記段階（ｆ）でラッ
チされた結果を書き込みサイクル中にキャッシュメモリ
へ与える、という段階を備えたことを特徴とする方法。
【請求項１７】（ａ）第１及び第２のプログラム命令
のライトバック段階及びアドレス計算段階が各々実質的
に同時に処理されるようにプログラム命令により定めら
れた動作に基づいてデータを処理するための中央処理パ
イプライン手段と、（ｂ）上記中央処理パイプライン手段に接続された複数
のバッファエントリを含む書き込みバッファと、（ｃ）上記書き込みバッファ及び中央処理手段に接続さ
れた複数のメモリ位置を有するキャッシュメモリと、（ｄ）上記中央処理パイプライン手段、書き込みバッフ
ァ及びキャッシュメモリに接続されたバスと、（ｅ）上記アドレス計算段階において第２命令によって
要求された読み取り動作の物理アドレスを、複数のバッ
ファエントリの各々に関連したアドレスと比較して、第
１と第２の命令間のリード・アフタ・ライトデータ依存
性を検出するための制御ロジック手段とを備えたことを
特徴とするマイクロプロセッサ。
【請求項１８】マイクロプロセッサの中央処理ユニッ
トコアにより実行されたデータ処理動作の結果を、マイ
クロプロセッサのキャッシュメモリへ記憶する前にバッ
ファするための方法において、（ａ）第１命令の結果を記憶するための第１メモリアド
レスを決定し、（ｂ）上記段階（ａ）で決定された第１メモリアドレス
を複数の書き込みバッファエントリの第１エントリに記
憶し、（ｃ）第２命令に対してデータを読み取るべきところの
第２メモリアドレスを決定し、この第２命令は、プログ
ラム順序において第１命令よりも後であり、（ｄ）上記段階（ｃ）で決定された第２メモリアドレス
を、複数の書き込みバッファエントリの第１エントリに
記憶された第１メモリアドレスと比較して一致を検出
し、（ｅ）第１命令を実行して第１の結果を生じさせ、（ｆ）上記第１の結果を第１書き込みバッファエントリ
に記憶し、そして（ｇ）上記第１書き込みバッファエントリから第１の結
果を検索して、第１メモリアドレスに関連した位置にお
いてキャッシュメモリに記憶する、という段階を備えた
ことを特徴とする方法。
【請求項１９】（ａ）プログラム順序で実行するため
の命令により定められた動作に基づいてデータを処理す
るための中央処理手段を備え、上記命令の少なくとも１
つは、条件分岐型のものであり、（ｂ）上記中央処理ユニットのコアに接続され、命令の
結果に対応するデータをそこから受け取るような複数の
バッファエントリを含む書き込みバッファを更に備え、
複数のバッファエントリの各々は、少なくとも１つの推
論的制御ビットを含み、このビットは、これがセットさ
れたときは、そのバッファエントリに書き込まれるべき
データが条件分岐型の命令の後のプログラムシーケンス
において予想される分岐で命令を実行することにより生
じたものであることを指示し、（ｃ）上記書き込みバッファ及び中央処理手段に接続さ
れた複数のメモリ位置を有するキャッシュメモリを更に
備え、（ｄ）上記中央処理手段、書き込みバッファ及びキャッ
シュメモリに接続されたバスを更に備え、そして（ｅ）上記推論的制御ビットがセットされない場合だけ
各書き込みバッファエントリがキャッシュメモリにデー
タを与えるように書き込みバッファによるキャッシュメ
モリへのデータの付与を制御するための制御ロジックを
更に備えたことを特徴とするマイクロプロセッサ。
【請求項２０】少なくとも１つの条件分岐命令を含む
一連の命令に基づいてパイプラインマイクロプロセッサ
の中央処理ユニットコアにより実行されたデータ処理動
作の結果をバッファする方法であって、このバッファ動
作を、複数の書き込みバッファエントリを有する書き込
みバッファにおいてマイクロプロセッサのキャッシュメ
モリに記憶する前に行うような方法において、（ａ）条件分岐命令を検出し、（ｂ）上記段階（ａ）が基づくところの条件の状態を決
定する前に実行されるべき第１の一連の命令を予想し、（ｃ）メモリへの書き込みに対応する上記段階（ｂ）の
命令に対し、結果をメモリに書き込むべきところの第１
の物理メモリアドレスを決定し、（ｄ）上記第１の物理アドレスを第１書き込みバッファ
エントリに記憶し、（ｅ）上記段階（ｂ）で予想されたメモリへの書き込み
命令を実行し、（ｆ）上記段階（ｅ）の結果を第１書き込みバッファエ
ントリに記憶し、（ｇ）条件分岐命令が基づくところの条件を決定し、（ｈ）上記段階（ｇ）に応答して上記段階（ｂ）が正し
かったことを指示し、そして（ｉ）上記第１書き込みバッファエントリの結果を検索
して、メモリに記憶する、という段階を備えたことを特
徴とする方法。
【請求項２１】一連の命令に基づいてデータ処理動作
を実行するための中央処理ユニットコアを有するパイプ
ライン式マイクロプロセッサにおいて例外条件を取り扱
う方法であって、上記マイクロプロセッサは、上記中央
処理ユニットコアにより実行された命令の結果を、キャ
ッシュメモリに記憶する前にバッファするために、複数
の書き込みバッファエントリを有する書き込みバッファ
を備えており、上記方法は、（ａ）第１命令の結果を記憶するための第１メモリアド
レスを決定し、（ｂ）第１メモリアドレスを第１書き込みバッファエン
トリに記憶し、（ｃ）第１命令を実行する前に例外条件を検出し、そし
て（ｄ）上記段階（ｃ）に応答して、第１書き込みバッフ
ァエントリを無効化するという段階を備えたことを特徴
とする方法。