JP2003511754A

JP2003511754A - 投機的なかつ順不同（ｏｕｔ−ｏｆ−ｏｒｄｅｒ）のロードの場合に正確なトラップ処理をするための方法

Info

Publication number: JP2003511754A
Application number: JP2001528796A
Authority: JP
Inventors: トレンブレイ、マーク; チャン、ジェフリー・メング・ウォー; パン、ビユ
Original assignee: Sun Microsystems Inc
Current assignee: Sun Microsystems Inc
Priority date: 1999-10-01
Filing date: 2000-09-29
Publication date: 2003-03-25
Also published as: AU7622400A; EP1221087A1; WO2001025903A1

Abstract

(57)【要約】プロセッサが、順不同（out-of-order）かつ投機的なロード命令のための正確なトラップ処理を実行する。プロセッサは、ロードバッファおよびロードアネックスを含む共用構造（shared scheme）においてロード命令の年齢の追跡を続ける。全ての正確な例外が、ロードパイプラインのＴステージで検出される。キャッシュにヒットするロード命令に関するデータおよび制御情報は、同じ或いは先の命令パケットにおける全ての例外が検出されるまで、Ａ１、Ａ２、Ａ３、およびＴパイプラインステージの間、ロードアネックスにステージされる。他の全てのロード命令からのデータおよび制御情報は、ロードデータが回収された後にロードアネックスにステージされる。例外が生じると、例外を引き起こした命令と同じ命令パケットの全てのロードがキャンセルされる。例外を引き起こした命令より若いロード命令も全てキャンセルされる。ロード命令の年齢は、命令のパイプラインステージを追跡して決定される。トラップが起こると、非ゼロの年齢インジケーターをもつ全てのロード命令がキャンセルされる。

Description

【発明の詳細な説明】

【０００１】クロスリファレンス本明細書は、１９９８年１２月１２日に出願された米国特許出願第09/204,480
号（名称：「A Multiple-Thread Processor for Threaded Software Applicatio
ns」、発明者：Marc TremblayおよびWilliam Joy）に関連し、言及することをも
って本明細書の一部とする。

【０００２】発明の背景発明の分野本発明は、正確なトラップ処理を実行するプロセッサにおける順不同（out-of
-order）かつ投機的なロード命令の処理、追跡、および管理に関連する。

【０００３】関連分野の説明マルチスレッド処理において、様々な処理アプリケーションのための自動化さ
れたシステムは、複数の事象を同時に対処する或いは同時に処理し得る。１つの
処理は制御のスレッドまたは「スレッド」と呼び、システム内の独立した動的動
作における処理の基本的な単位である。プログラムは少なくとも１つのスレッド
を有する。同時処理を実行するシステムは、通常は多くのスレッドを有し、その
内のあるものは一過性であり、またあるものは持続性である。マルチプロセッサ
間で実行するシステムは真の同時スレッドを可能にする。単一プロセッサシステ
ムは、通常はプロセッサの実行のタイムスライシングによって得られ、複数のス
レッド間で共用される仮想の同時スレッドを有するだけである。

【０００４】マルチスレッドをサポートするために特別に設計されたプログラム言語がある
。このような言語には、抽象演算装置であるJava仮想マシン（商標）を用いて有
利に実行するJava（商標）プログラム言語がある。Java仮想マシンは、一度に複
数のスレッドを実行することができる。マルチスレッドは、共用メインメモリに
存在するJava値およびオブジェクトにおいて動作するJavaコードを独立して実行
する。マルチスレッドは、１つのハードウエアプロセッサのタイムスライシング
或いは多くのハードウエアプロセッサのタイムスライシングによって、複数のハ
ードウエアプロセッサを用いてサポートされ得る。１９９０年に、サン・マイク
ロシステムズ社のプログラマーが汎用プログラム言語を開発した。このプログラ
ム言語は、「Java（商標）プログラム言語」として知られる。「Java（商標）」
、「Sun」、「Sun Microsystems」、および「Sun Logo」は米国およびその他の
国に所在するサン・マイクロシステムズ社の登録商標である。「UltraSPARC I」
および「UltraSPARC II」を含む「All SPARC（商標）」はライセンス許可の下で
使用され、米国およびその他の国に所在するSPARC International社の商標であ
る。商標「SPARC」を付した製品は、サン・マイクロシステムズ社によって開発
されたアーキテクチャに基づいている。

【０００５】発明の要約 out-of-orderかつ投機的なロード命令のための正確なトラップ処理を容易にす
るための方法がロード命令の年齢（age）を追跡する。ロード命令の年齢は、連
続したパイプラインステージにおいてロード命令が実行されているステージによ
って決定される。年齢は年齢インジケータで追跡される。一実施例では、年齢イ
ンジケータは、追跡する各パイプラインステージに対して１ビットを含む。この
方法は、正確なトラップが起こった時に決定する。正確なトラップが起こると、
ロード命令がトラッピング命令の前に発行されたかどうかを決定する。ロード命
令がトラッピング命令の前に発行されたか否かは、年齢インジケータを調べて決
定する。年齢インジケータが、全パイプラインステージにおいてロード命令の実
行が完了する前にトラッピング命令がトラップされたと示す場合は、ロード命令
はトラッピング命令と同じか或いはそれより若いかのいずれかであり、ロード命
令は無効にされる。無効は、有効ビットのリセットによって実施される。無効に
よって効果的にロード命令がキャンセルされる。

【０００６】一実施例では、年齢インジケータおよび有効ビットは、ロードストアユニット
によって保持される。別の実施例では、年齢インジケータおよび有効ビットはロ
ードアネックス（load annex）によって保持される。

【０００７】一実施例では、上記したようにプロセッサがout-of-orderかつ投機的なロード
命令のための正確なトラップ処理をするための方法を実行するように構成されて
いる。このプロセッサは、メインメモリおよび複数のプロセシングユニットを含
む。このプロセッサは、ロードバッファおよびロードアネックスを含む共用構造
において、ロード命令の年齢の追跡を続ける。全ての正確な例外がロードパイプ
ラインのＴステージにおいて検出される。キャッシュにヒットするロード命令に
関するデータおよび制御情報は、同じ或いはそれより先の命令パケットにおける
全ての例外が検出されるまで、Ａ２、Ａ３、およびＴパイプラインステージの間
、ロードアネックスにステージされる。他の全てのロード命令からのデータおよ
び制御情報は、ロードデータが回収された後にロードアネックスにステージされ
る。例外が起こると、例外を引き起こした命令と同じ命令パケットの全てのロー
ド命令がキャンセルされる。例外を引き起こした命令より若い全てのロード命令
もキャンセルされる。ロード命令の年齢は、その命令のパイプラインステージを
追跡して決定する。トラップが起こると、非ゼロの年齢インジケータを有する全
てのロード命令がキャンセルされる。

【０００８】好適な実施例の説明添付の図面を用いた説明によって、当業者には本発明、本発明の目的、特徴、
および利点が明らかになるであろう。異なった図面における同じ参照符号は、同
一或いは類似の要素を表すものとする。

【０００９】図１を参照すると、プロセッサ１００の模式的なブロック図の例が示されてい
る。このプロセッサ１００は、この図では２つのメディアプロセシングユニット
１１０および１１２として示される、複数の独立した並列実行経路を含む、高度
並列構造に基づいてマルチスレッド処理するための改良したアーキテクチャを有
する。実行経路は、各スレッドに渡って並列に実行し、スレッド内に複数命令パ
ラレル経路を含む。複数の独立した並列実行経路は、マルチスレッド環境に有利
な特殊なデータ処理命令を含む命令のセットを実行する機能ユニットを含む。

【００１０】プロセッサ１００のマルチスレッディングアーキテクチャは、マルチスレッド
ＪＡＶＡ（登録商標）仮想マシンにおいてマルチスレッド処理システムの下で動
作するＪＡＶＡ言語などの言語を用いるマルチスレッド化アプリケーションの実
行において使用するのに好都合である。例示したプロセッサ１００は、２つの独
立した並列実行経路を成すメディアプロセシングユニット１１０および１１２の
２つの独立したプロセッシングユニットを含む。ＪＡＶＡプログラム言語などの
マルチスレッドをサポートする言語は２つのスレッドを生成し、ほとんどオーバ
ーヘッドを負うことなくそれぞれを２つの並列な実行経路において実行する。マ
ルチスレッド化プロセッサによって実行される特殊な命令には、アレイへのアク
セスのための命令および不要部分の整理をサポートするための命令が含まれる。

【００１１】１つの集積回路チップによって具現されるプロセッサ１００は、メインメモリ
とインターフェースをとるためのメモリインターフェース１０２と、ジオメトリ
解凍部１０４と、２つのメディアプロセシングユニット１１０および１１２と、
共用データキャッシュ１０６と、いくつかのコントローラとを含む。インターフ
ェースコントローラは、１つのダイ上にメモリ機能、グラフィックス機能、およ
び入出力ブリッジ機能の基本要素を集積することによってリアルタイム制約条件
で相互的なグラフィックス環境をサポートする。各要素は相互に接続され、また
広帯域幅の低い待ち時間の通信チャネルでプロセッサコアと接続され、複数の広
帯域幅データストリームを効率的かつ短い応答時間で管理する。インターフェー
スコントローラは、UltraPort Architecture Interconnect (ＵＰＡ)コントロー
ラ１１６と周辺要素相互接続（ＰＣＩ）コントローラ１２０とを含む。図示され
ているメモリインターフェース１０２は、ダイレクトランバスＤＲＡＭ（ＤＲＤ
ＲＡＭ）コントローラである。共用データキャッシュ１０６は、メディアプロセ
シングユニット１１０および１１２の間で共用されるデュアルポート記憶装置で
あって、各ポートがそれぞれメディアプロセシングユニット１１０および１１２
に割り当てられている。データキャッシュ１０６は、４ウエイセットアソシエイ
ティブであって、ライトバックプロトコルに従い、フィルバッファ（図示せず）
におけるヒットをサポートする。データキャッシュ１０６によって迅速なデータ
の共用が可能となり、それによって両メディアプロセシングユニット１１０およ
び１１２間の複雑でエラーが発生し易いキャッシュコヒーレンスプロトコルが必
要なくなる。

【００１２】プロセッサ１００は順番に命令を出しそれを回収する。しかしながら、プロセ
ッサ１００は、命令がout-of-order実行して完了することが可能となる、動的な
命令リスケジューリングおよびロード命令の投機的な実行を実施する。オペレー
ションがout-of-order命令実行を終了し、out-of-order命令実行で例外（except
ion）がたとえ生成されたとしても、プロセッサ１００は正確なトラップ処理を
実施し、トラップ後のin-order実行の外観を維持する。

【００１３】図２を参照すると、プロセッサ１００のコアを示す模式的なブロック図である
。メディアプロセシングユニット１１０および１１２はそれぞれ、命令キャッシ
ュ２１０と、命令アライナー（instruction aligner）２１２と、命令バッファ
２１４と、パイプライン制御ユニット（ＰＣＵ）２２６と、分割レジスタファイ
ル２１６と、複数の機能ユニットと、ロード/ストアユニット２１８とを含む。
例示したプロセッサ１００では、メディアプロセシングユニット１１０および１
１２は、命令を実行するために複数の機能ユニットを用いている。メディアプロ
セシングユニット１１０のための機能ユニットは、３つのメディア機能ユニット
（ＭＦＵ）２２０と、１つの一般的な機能ユニット（ＧＦＵ）２２２とを含む。

【００１４】それぞれ独立した並列実行経路１１０または１１２は、命令供給ブロックおよ
び命令準備ブロックを含む処理ユニットと、機能ユニット２２０および２２２と
、レジスタファイル２１６とを有する。このレジスタファイル２１６は、複数の
独立した並列実行経路の他の経路の処理ユニットから分離独立している。命令供
給ブロックは個々の独立した並列実行経路のための個別の命令キャッシュ２１０
を含むが、複数の独立した並列実行経路は、マルチスレッドがデータを時々共有
するため、１つのデータキャッシュ１０６を共用する。データキャッシュ１０６
はデュアルポートであるため、１サイクルで実行経路１１０および１１２の両方
におけるデータアクセスが可能である。独立したプロセッサ要素１１０および１
１２がデータキャッシュ１０６を共用することによって、データ処理が簡潔化し
、キャッシュ協調プロトコルの必要性およびプロトコルの制御におけるオーバー
ヘッドが回避できるという利点がある。

【００１５】命令キャッシュ２１０に加えて、実行経路における命令供給ブロックは、命令
アライナー２１２と命令バッファ２１４とを含み、それらによってレジスタファ
イル２１６へのアクセスを準備するべく、４つの命令からなる完全な命令グルー
プが正確にフォーマットされ整列される。個々の実行経路は、複数のレジスタフ
ァイルセグメント２２４に物理的に分割された１つのレジスタファイル２１６を
含む。それぞれのレジスタファイルセグメント２２４は、複数の機能ユニットの
特定の機能ユニットと対応する。常に、各機能ユニットに割り当てられたレジス
タファイルセグメントはそれぞれ同じ内容を含む。マルチポートレジスタファイ
ルは、ポートの数の二乗に比例する回路によって占有される領域部分のみが通常
は金属である。プロセッサ１００は、複数の分離独立したレジスタファイルに分
割されたレジスタファイル構造を有し、改良されたレイアウト効率を有するレイ
アウト構造を形成している。全てのレジスタファイル構造２１６の読み出しポー
トは、別個のレジスタファイルに割り当てられている。個々のレジスタファイル
のそれぞれは、全レジスタファイル構造の書き込みポートの合計数に応じた書き
込みポートを有する。書き込みは完全にブロードキャストされるため、各レジス
タファイルは全てコヒーレンスを有する。

【００１６】メディア機能ユニット２２０は、複数の単一命令マルチデータ（ＭＳＩＭＤ）
メディア機能ユニットである。メディア機能ユニット２２０はそれぞれ、並列１
６ビットデータを処理する能力がある。様々な並列１６ビット演算は、加算、乗
算−加算、桁送り、比較などを含むプロセッサ１００のための単一命令マルチデ
ータ能力を実現する。メディア機能ユニット１２０は、デジタル信号プロセッサ
（ＤＳＰ）に接続され、それと共に動作する。各メディア機能ユニット２２０は
、個別のサブ命令ストリームを有するが、３つ全てのメディア機能ユニット２２
０が同期して実行するため、サブ命令はパイプラインステージを経てロックステ
ップ（lock-step）に進む。

【００１７】プロセッサ１００の動作中にトラップが起こり得る。トラップは、所定の条件
の発生に応答してプロセッサ１００によって行われる特権ソフトウエア（privil
eged software）への制御のベクトル転送である。トラップは内部の事象または
外部の事象によって起こり得る。トラップを引き起こす外部条件は割り込みであ
る。割り込みは、機能ユニットの外部の装置によって機能ユニットに送られたサ
ービスのための要求である。割り込みは、割り込みを受け取る機能ユニットの命
令ストリームに同期していない。内部的なトラップは例外によって起こり得る。
例外は、機能ユニット内の命令の実行によって引き起こされる。例外は、ソフト
ウエアの介入なしで機能ユニットが現在の命令ストリームの実行を継続できなく
なるような状態である。機能ユニットはある種の例外を無視するようにセットす
ることが可能である。しかしながら、機能ユニットは、例外が無視できないタイ
プの例外のような場合、その例外を無視するようにはセットできず、その例外に
よってトラップが引き起こされる。

【００１８】トラップの種類の中には、命令を実行しようとして生成される特殊なタイプの
「正確なトラップ」がある。通常の実行を不可能にするような条件が発生すると
、命令が例外を生成する場合がある。このような例外によって正確なトラップを
生成される場合がある。正確なトラップは、特定の命令によって誘導され、トラ
ップ誘導性の命令によってプロセッサ１００のプログラム管理下の状態が変わる
前に生成される。ロード命令の場合、トラップ誘導性のロードの結果がレジスタ
ファイルに書き込まれる前にトラップが起こるという意味である。

【００１９】手動或いはコンパイラのいずれかによってプロセッサ１００に対する命令が生
成される場合、命令は命令のパケットに編成される。この命令パケットは、１か
らＮ個の命令を含み得る。このＮは、メディアプロセシングユニット１１０およ
び１１２に含まれる機能ユニットの数である。少なくとも一実施例では、命令パ
ケットは４つの命令を含む。各命令パケットは、実行を完了するか或いは例外を
引き起こす。

【００２０】任意の命令が修復可能なエラーを生成する場合、プロセッサ１００は例外が発
生したときの装置の状態に戻して、正確なトラップ処理を実施して動作を再開す
る。正確なトラップが起こった場合、トラップを誘導した命令パケットの前に出
された全ての命令パケットの実行を完了して正確な状態にする。さらに、プロセ
ッサ１００は、たとえトラップ誘導命令の前にout-of-order実行を終了していた
としても、トラップを誘導した命令パケットの後に出された全ての命令パケット
を実行しないようにする。従って、例外の時にプロセッサ１００はそれ自体をそ
の状態に復元する。このような復元の後に実行が再開され得る。動作は、トラッ
ピング命令から或いはトラッピング命令の後の命令から再開され得る。このよう
な方式では、プロセッサ１００は、他のパケット命令或いはその他のパケットに
対するout-of-order命令実行を終了してから例外を生成するが、エラーが修正可
能なエラーである場合（すなわち、エラーが例外時の装置の状態の復元を妨害し
ない場合）は、プロセッサ１００が正確な状態で動作を再開することを可能にす
る命令を供給する。

【００２１】ところが、プロセッサ１００は、破局的なエラーに対しては正確なトラップ処
理を実行することができない。破局的なエラーとは、ハードウエアの誤作動によ
って生じ、エラーの特性によって例外時の装置の状態に復元することができない
エラーである。装置の状態が復元できないため、破局的なエラーによって引き起
こされた例外の後の実行は再開されない可能性がある。このような破局的なエラ
ーの例には、修正不可能なバスのパリティーエラーがある。

【００２２】図３はロード命令に対する正確なトラップ処理の説明に適しており、ロード命
令が投機的にスケジュールされ、かつout-of-order命令を実行するようにスケジ
ュールされ得ることを理解できるであろう。プロセッサ１００は、ロードおよび
ストアメモリの演算を処理するための専用のロード/ストアパイプ３００を保持
する。図３は、専用のロード/ストアパイプ３００の一実施例を例示する模式的
なタイミングダイアグラムである。ロード/ストアパイプ３００は、３つの開始
ステージと、複数の実行ステージと、２つの終了ステージを含む９つの連続する
ステージを含む。

【００２３】図２および図３を参照すると、ＧＦＵロード/ストアパイプ３００の動作は、
パイプ制御ユニット（ＰＣＵ）２２６によって制御されている。ロード/ストア
パイプライン３００の開始ステージの第１は、フェッチステージ３１０（Ｆステ
ージ）である。Ｆステージ３１０で、プロセッサ１００は命令キャッシュ２１０
から命令を取り出す。取り出された命令は、命令アライナー２１２において整列
され、整列ステージ３１２（Ａステージ）すなわち開始ステージの第２のステー
ジで命令バッファ２１４に送られる。

【００２４】開始ステージの第３のステージである解読ステージ３１４（Ｄステージ）では
、ＰＣＵ２２６は命令パケットから取り出して整列した命令を解読する。Ｄステ
ージ３１４で、ＰＣＵ２２６は現在のロード命令に関する情報をＬＳＵ２１９に
送る。４つのレジスタファイルセグメント２２４はそれぞれ、浮動小数点データ
或いは整数データのいずれかを保持する。レジスタファイル２１６は解読ステー
ジ３１４で読み出される。

【００２５】Ｄステージ３１４ではまた、スコアボード（図示せず）が読み出されて更新さ
れる。スコアボードは、終了していないロードについての情報を備えた構造であ
る。スコアボードは、任意の終了していないロード処理と若い命令との間のハー
ドウエアインターロックを実現する。この若い命令は、その終了していないロー
ド処理に従属性のデータ/出力を含む。新しい命令がＤステージ３１４に入ると
、新しい命令の元および宛先レジスタのオペランドと全てのスコアボードエント
リとを比較する。終了していないロードに対して割り当てられたスコアボードに
おけるエントリの数は、後述するＬＳＵのロードバッファ４００（図４）におけ
るエントリの数に等しい。少なくとも一実施例では、スコアボードは少なくとも
５つのロード命令エントリを含む。ロード命令に対するそれぞれのスコアボード
エントリは、終了していない命令がどの程度古いかを示す５ビットのステージフ
ィールドを有する。このステージフィールドは以下に記載するロードバッファ状
態語４１０（図４）に類似している。このステージビットは、パイプラインステ
ージが実行される度に右に１つシフトする。ロード命令のステージフィールドが
ＷＢステージ（1B'0000'）を示す前にトラップが検出される場合は、スコアボー
ドエントリが無効になる。

【００２６】解読ステージ３１４の後、実行ステージが実行される。実行ステージの第１の
ステージであるＥステージ３３２では、ＧＦＵ２２２が各ロード命令およびスト
ア命令のアドレスを計算する。Ｅステージ３３２ではまた、命令パケットにおけ
る全てのロード命令およびストア命令が、実行のためにロード/ストアユニット
（ＬＳＵ）２１８に送られる。

【００２７】図３および図４を参照すると、残っているパイプラインステージ３３４、３３
６、３３８、３６０、および３６２でのロード命令の処理が以下に記載するよう
に行なわれる。Ｅステージ３３２からＴステージ３６０まで、ＬＳＵ２１８はロ
ード命令の年齢（age）の追跡を続ける。ＥステージでＬＳＵ２１８に送られる
と、ロード命令はＬＳＵのロードバッファ４００の中に配置される。少なくとも
一実施例では、ロードバッファ４００は５つのエントリを有するため、最大５つ
のロード命令を維持することができる。少なくとも一実施例では、以下に記載す
るようにプロセッサ１００は４つのヒットミスの下で１つのヒットを許容するた
め、５つのエントリが必要である。これを達成するために、上記したように、５
つのロードエントリがロードバッファ４００にサポートされ、５つのロードエン
トリがスコアボードによってサポートされている。

【００２８】「ヒットアンダーヒットミス（hit under miss）」は図２に示されている。Ｌ
ＳＵ２１８がロード処理で要求された情報のアイテムにアクセスしようとすると
、このアイテムがデータキャッシュ１０６にすでに存在しているか、或いは存在
していないかの何れかである。存在する場合は、キャッシュのヒットが起こる。
ＬＳＵ２１８によって要求された時にデータキャッシュ１０６にアイテムが存在
しない場合は、キャッシュミスが起こる。キャッシュミスが起こると、ＬＳＵ２
１８によって要求された情報は、ＬＳＵ２１８がアクセスできるように、メモリ
から取り出してデータキャッシュ１０６に入れなければならない。キャッシュミ
スの後のデータキャッシュ１０６にストアされていない情報のアイテムの探索は
、比較的時間がかかるプロセスである。プロセッサ１００は、先に提示されたロ
ード命令がキャッシュミスする前に、後で提示されたロード命令がヒットし、デ
ータキャッシュ１０６から情報を得ることを許容する。この状態を、「ヒットア
ンダーヒットミス」と呼ぶ。

【００２９】図３および図４を参照し、ロード/ストアパイプ３００の実行ステージでのロ
ード命令処理の説明に戻る。各ロード命令に沿って、ＬＳＵ２１８が、命令が無
効であるか否かおよびロード命令のパイプラインの年齢の追跡を続ける。有効ビ
ット４２０は、ロード命令がトラップによってキャンセルされていないことを示
す。言い換えれば、有効ビットのリセットによって効果的にロード命令がキャン
セルされる。年齢の情報は状態語４１０に保持される。それぞれの状態語４１０
Ａ、４１０Ｂ、４１０Ｃ、４１０Ｄ、および４１０Ｅは４つのステージビットを
含み、それぞれが、Ｃ/Ａ１、Ａ２、Ａ３、またはＴパイプラインステージの１
つに対応する。ＬＳＵはあるパイプラインステージから次のパイプラインステー
ジへの移行を検出し、それぞれの移行時にステージビットを１つ右の位置にシフ
トする。ロード命令の年齢は以下の表１に示されているように状態語４１０にお
いて追跡される。

【００３０】

【表１】

【００３１】ＬＳＵ２１８は、ロード/ストアパイプライン３００のＣ/Ａ１ステージ３３４
におけるデータキャッシュ１０６にアクセスする。ロードがデータキャッシュ１
０６にヒットする場合、データはデータキャッシュ１０６から戻されて同じサイ
クルでＰＣＵ２２６に送られる。ＬＳＵ２１８はまた、ロードの年齢を有する状
態語４１０をＰＣＵ２２６に送る。ロードがＣ/Ａ１ステージ３３４のデータキ
ャッシュ１０６にヒットすると、状態語はＣ/Ａ１パイプラインステージ３３４
に対応するロードの年齢を示す値1B'1000'を反映する。このようにキャッシュに
ヒットすると、ＬＳＵ２１８がデータキャッシュ１０６にアクセスするＣ/Ａ１
ステージ３３４で、ロードデータがＰＣＵ２２６に戻される。しかしながら、正
確なトラップ処理を確実にするために、ヒットからの結果は、命令パケットにお
けるその他全ての命令が完了するまでレジスタファイル２１６に書き込むことが
できない。ロードがＣ/Ａ１ステージ３３４でヒットすると、得られるデータは
、残っている実行ステージが完了するまでレジスタファイル２１６に書き込むこ
とができない。

【００３２】ロードがデータキャッシュ１０６でキャッシュミスすると、ＬＳＵ２１８がメ
インメモリインターフェース１０２（図１）からデータを得た後にのみ、データ
がＬＳＵ２１８からＰＣＵ２２６に戻される。従って、ロード命令は、データを
回収するまでＬＳＵ２１８のロードバッファに保持される。これとは対照的に、
全てのヒットはＬＤＸ５００に送られる。この方式では、ロードバッファ４００
およびＬＤＸ５００は、ロード命令の年齢を追跡し、古い命令がトラックされた
時に若い命令を無効にする機能を共用できる。以下に説明するが、一般にこの機
能は、Ｔステージ３６０における、トラッピング命令と同じ命令パケットの全て
のロード命令に関連する有効ビットのリセット、トラッピング命令より若いその
他全てのロード命令に対する有効ビットのリセットを含む。

【００３３】図５を参照すると、ＰＣＵ２２６によってロードデータが受け取られた後、そ
のロードデータはすぐにはレジスタファイル２２４に書き込まれない。すぐに書
込まれると、投機的かつout-of-orderにロード命令を実行する装置のデータがコ
ヒーレンスでなくなる可能性がある。その代わりに、ロードデータおよび関連す
るロード情報がロードアネックス（ＬＤＸ）５００に入る。ロードデータが十分
なサイクル数の間、ＬＤＸ５００にステージされ、それによってロード命令が、
そのデータがレジスタファイル２２４にブロードキャストされる前にＴパイプラ
インステージに到達できるようなる。ロードデータがＬＤＤＸ５００にステージ
されている間、データを別の機能ユニットにバイパスすることができる。トラッ
プが検出されなかった場合は、ロードデータをＴステージ３６０でレジスタファ
イルにブロードキャストする。トラップがＴパイプラインステージ３６０（図３
）で検出される。

【００３４】少なくとも一実施例では、ロードデータはレジスタファイル２２４にブロード
キャストされる前に３つのステージの間、ＬＤＸ５００にステージされる。３サ
イクルの間、ＬＤＸ５００にロードデータをステージすることによって、ロード
命令自体か、或いはロード命令と同じ或いは古い命令パケットのその他の命令の
いずれかによって引き起こされた全ての正確な例外が、ロード命令のキャンセル
を引き起こす。すなわち、ロード命令がＷＢステージ３６２に到達する前にトラ
ップが検出されると、ロード命令に対する有効ビットがリセットされる。ロード
データがレジスタファイル２２４にブロードキャストされると、レジスタファイ
ル２２４は局所的にデータを保持し、次のクロックサイクルでレジスタを更新す
る。

【００３５】図５は、ｌｄｘ１、ｌｄｘ２、ｌｄｘ３、およびｌｄｘ４の名称がつけられた
４つのエントリを含むＬＤＸ５００を例示する。これらのＬＤＸエントリはＦＩ
ＦＯキューとして働き、ＬＳＵ２１８からの新しいロードデータはｌｄｘ１に配
置され、古いロードデータはｌｄｘ４からレジスタファイル２２４に書き込まれ
る。レジスタファイル２２４はロード命令のための専用の書き込みポートを有す
るため、ロードデータは各クロックサイクル毎にＦＩＦＯＬＤＸ５００において
１エントリー下にシフトする。

【００３６】図５には、ロードデータがステージされのは３サイクルの間であるが、ｌｄｘ
１、ｌｄｘ２、ｌｄｘ３、およびｌｄｘ４の４つのエントリを含むＬＤＸ５００
が例示されている。４番目のエントリｌｄｘ４を用いて、レジスタファイル２２
４にロードデータを書き込む。ロードデータがレジスタファイル２２４に書き込
まれたサイクルと同じサイクルではそのデータにアクセスすることができないた
め、追加のｌｄｘ４エントリが、ロードデータが書き込まれている間そのロード
データを保持する。

【００３７】それぞれのＬＤＸエントリｌｄｘ１、ｌｄｘ２、ｌｄｘ３、およびｌｄｘ４は
、ステージフィールド５１０を含む。このステージフィールド５１０は、それが
ＰＣＵ２２６に入る時にＬＤＸエントリに関連するロードバッファ状態語４１０
の値から得られる。ステージフィールド５１０の値は、ＬＤＸエントリにおける
ロード命令の年齢を示す。特定のロード命令に対する状態語４１０がＬＤＸ５０
０に送られると、Ｃ/Ａ１ステージは適切でなくなる。その代わりに、ロードデ
ータはＣ/Ａ１ステージの早い時期にＬＤＸ５００によって受け取られるため、
データキャッシュ１０６にヒットしないロード命令からのデータが、特定のロー
ド命令がＴステージを完了するまでレジスタファイル２２４に書き込まれないよ
うにするために、ＬＤＸ５００は、Ａ２、Ａ３、およびＴステージの間の特定の
ロード命令の年齢の追跡のみが必要である。従って、特定のロード命令に対する
４ビット状態語４１０におけるステージビットは、１ビット右にシフトし、Ａ２
、Ａ３、およびＴステージに対応するステージビットは、特定のロード命令に関
連するＬＤＸエントリの３ビットステージフィールド５１０に配置される。ＰＣ
Ｕ２２６は、あるパイプラインステージから次のステージへの移行を検出する。
このような移行の度に、ＰＣＵ２２６はステージフィールド５１０におけるステ
ージビットを１ビット右にシフトする。最大でも１回に１ビットのみがロード命
令に対してセットされるため、右へのシフトによって効果的に最後のステージに
対するステージビットをリセットし、現在のステージに対するステージビットを
セットする。ＬＤＸが追跡する各パイプラインステージに対するステージフィー
ルド５１０の値を以下の表２に示す。

【００３８】

【表２】

【００３９】表２に例示されているように、あるパイプラインステージから別のパイプライ
ンステージへのそれぞれの逐次的な移行のための連続的な右シフト方式は、ＷＢ
ステージ３６２およびロード命令がＷＢステージ３６２に到達した後に起こる全
てのステージに対して全てのステージビットがリセットされるという効果がある
。ロード命令がＷＢステージ３６２に到達する前にトラップが検出されると、そ
のロード命令は無効となる。少なくとも一実施例では、ＬＤＸエントリにおける
有効ビット５２０は、ＰＣＵ２２６がトラップを検出したことを示すpcu_trap信
号によってリセットされる。

【００４０】それぞれのＬＤＸエントリｌｄｘ１、ｌｄｘ２、ｌｄｘ３、およびｌｄｘ４は
また、dsizeフィールドを含む。このdsizeフィールドは、ロード命令に関連する
データが６４ビットのデータワードであるか或いは３２ビットのデータワードで
あるかを示す。

【００４１】Ｃ/Ａ１ステージ３３４、Ａ２ステージ３３６、およびＡ３ステージ３３８の
後の次の２つの実行ステージは、追加の実行ステージである。Ｃ/Ａ１ステージ
３３４で、キャッシュデータ１０６にアクセスしてそれらのデータを戻したロー
ド命令の場合、データがＡ２ステージ３３６およびＡ３ステージ３３８でＬＤＸ
５００にステージされる。トラップ状態が、ロード/ストアパイプライン３００
のＴステージ３６０でＰＣＵ２２６によって検出される。

【００４２】図３に例示されているように、ロード/ストアパイプ３００の２つの終了ステ
ージは、トラップ処理ステージ３６０（Ｔステージ）と、得られたデータがレジ
スタファイル２１６にライトバックされるライトバックステージ３６２（ＷＢス
テージ）とを含む。これらのステージの各ステージにおけるロード命令の処理を
後述する。

【００４３】図５に例示されているように、ＰＣＵ２２６がトラップを検出すると、トラッ
プ信号pcu_trapを生成する。Ｔステージ３６０でこの信号を用いて、トラッピン
グ命令より若いロード命令に対するＬＤＸエントリの有効ビットをリセットする
。さらに、ＰＣＵ２２６がpcu_trap信号をＬＳＵ２１８に送り、次にＬＳＵ２１
８が、トラッピング命令より若いロードバッファ４００の全てのロード命令に対
する有効ビット４２０Ａ、４２０Ｂ、４２０Ｃ、４２０Ｄ、および４２０Ｅをリ
セットする。ＬＤＸ５００では、トラップが検出された時にロード命令がＷＢ３
６２ステージに到達していない場合にのみロード命令が無効となる。言い換えれ
ば、ＷＢ３６２ステージに到達した全てのロード命令は、そのパイプラインのト
ラップステージ或いはその前のステージでロード命令がにキャンセルされていな
いのが明らかなため、ロード命令の年齢にかかわらずレジスタファイル２２４に
書き込むことができる。

【００４４】ＬＳＵ２１８およびＰＣＵ２２６は、以下のように、ロード命令がトラッピン
グ命令より若いか否かを決定する。ＬＤＸステージフィールド５１０およびロー
ドバッファ状態語４１０はそれぞれ、ロード命令の年齢の追跡を続ける。ＬＤＸ
５００は、最も早くてもＬＳＵ２１８がロード命令を受け取った１サイクル後に
ロード命令を受け取り、ステージフィールド５１０は、ＰＣＵ２２６が１つ少な
いステージの追跡を続けるため、状態語４１０より１ビット少ない。上記した表
１および表２に示されているように、状態語４１０およびステージフィールド５
１０はロード命令がＷＢステージ３６２に到達するまで常に非ゼロの値を有する
。従って、ＰＣＵ２２６およびＬＳＵ２１８は、トラップがＴ３６０ステージで
検出されているため、ロード命令の年齢が非ゼロの場合、ロード命令がトラッピ
ング命令より若いと決定する。

【００４５】ＬＤＸ５００では、ステージフィールド５１０が非ゼロの全てのＬＤＸエント
リｌｄｘ１、ｌｄｘ２、およびｌｄｘ３に対する有効ビット５２０をリセットす
る。少なくとも一実施例では、トラップがサイクルＮで発生すると、ＬＤＸエン
トリｌｄｘ１、ｌｄｘ２、およびｌｄｘ３が１つ下のサイクルＮ＋１にシフトす
る前に、有効ビット５２０がリセットされる。次に、ＰＣＵ２２６では、ステー
ジフィールド５１０における全てゼロの値は、ロードデータがＴステージ３６０
を過ぎて少なくともＷＢステージ３６２に到達しているため、ロードデータをレ
ジスタファイル２２４にブロードキャストしても安全であることを示す。

【００４６】ＬＳＵ２１８において、状態語４１０の値が全てゼロということは、比較的長
時間に渡ってキャッシュミスが起こっていることを意味する。キャッシュミスし
たまたは別の方法でそれらのデータが回収されなかったロード命令のみがロード
バッファに保持され、キャッシュにヒットしたロード命令およびメモリインター
フェース１０２から回収したデータを有するロード命令は上記したようにＬＤＸ
５００に送られる。ロードバッファ４００におけるロード命令に対する状態語４
１０における全てゼロは、ロード命令のパイプラインステージが完了してＷＢス
テージ３６２に移行した或いはＷＢステージ３６２を過ぎた時にキャッシュミス
が起こったことを意味する。この場合、ロード命令はトラッピング命令より古い
ため、ロード命令をキャンセルする必要がない。これとは対照的に、ＬＳＵ２１
８は、ＰＣＵ２２６からpcu_trap信号を受け取った時に、状態語４１０に非ゼロ
の値を有する全てのロード命令をキャンセルする。

【００４７】ＷＢステージ３６２で、ロード/ストアパイプライン３００のＴステージ３６
０からのデータが、レジスタファイル２２４にブロードキャストされる。レジス
タファイル２２４は、そのデータを書き込む前に、ＷＢステージフリップフロッ
プラッチ（図示せず）にデータを保持する。

【００４８】本発明の特定の実施例を用いて説明してきたが、当業者であれば、本発明から
逸脱することなく本明細書の開示に基づいて更なる変更や変形が可能であり、請
求の範囲が本発明の範囲内であるそのような全ての変更や変形を含むことを理解
できよう。

【００４９】

【図面の簡単な説明】

【図１】マルチスレッドプロセッサの一実施例を例示する模式的なブロック図である。

【図２】マルチスレッドプロセッサの一実施例の要部を示す模式的なブロック図である
。

【図３】専用のロード／ストアパイプラインの一実施例を例示する模式的なタイミング
ダイアグラムである。

【図４】ロード／ストアユニットの少なくとも１つの実施例のブロック図である。

【図５】ロード命令に関する情報を共用するパイプ制御ユニットおよびロード／ストア
ユニットを例示する模式的なダイアグラムである。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＭＺ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (72)発明者チャン、ジェフリー・メング・ウォーアメリカ合衆国カリフォルニア州94040・マウンテンビュー・＃10・ラザムストリート 1984 (72)発明者パン、ビユアメリカ合衆国カリフォルニア州95014・クーペルティーノ・メリットドライブ 19961 Ｆターム(参考） 5B013 AA12 AA18 EE02

Claims

【特許請求の範囲】

【請求項１】 out-of-orderかつ投機的なロード命令のための正確な例外
処理を容易にするための方法であって、年齢インジケータでロード命令の年齢を追跡するステップと、正確なトラップを引き起こした第２の命令を検出するステップと、前記正確なトラップが起こった時、前記ロード命令が前記第２の命令の前に発
行されたかどうかを決定するステップと、前記正確なトラップが起こった時に、前記年齢インジケータの値が、前記ロー
ド命令が前記第２の命令の前に発行されていないことを示す場合に、前記ロード
命令を無効にするステップとを含むことを特徴とする方法。
【請求項２】前記ロード命令が、複数の連続したパイプラインステージ
で実行され、前記年齢インジケータが、複数のステージビットを含み、前記複数のステージ
ビットのそれぞれが前記連続したパイプラインステージの異なった１つに対応す
ることを特徴とする請求項１に記載の方法。
【請求項３】前記複数のパイプラインステージが、第１のパイプライン
ステージ、第２のパイプラインステージ、第３のパイプラインステージ、および
第４のパイプラインステージを含み、前記複数のステージビットが、前記第１のパイプラインステージに対応する第
１のステージビット、前記第２のパイプラインステージに対応する第２のステー
ジビット、前記第３のパイプラインステージに対応する第３のステージビット、
および前記第４のパイプラインステージに対応する第４のステージビットを含む
ことを特徴とする請求項２に記載の方法。
【請求項４】前記追跡するステップが、前記ロード命令の実行が前記第１のパイプラインステージに入った時に前記第
１のステージビットをセットするステップと、前記ロード命令の実行が前記第１のパイプラインステージから前記第２のパイ
プラインステージに移行する時に第１の移行を検出するステップと、前記第１の移行が検出された時に前記第１のステージビットをリセットし、前
記第２のステージビットをセットするステップと、前記ロード命令の実行が前記第２のパイプラインステージから前記第３のパイ
プラインステージに移行する時に第２の移行を検出するステップと、前記第２の移行を検出した時に前記第２のステージビットをリセットし、前記
第３のステージビットをセットするステップと、前記ロード命令の実行が前記第３のパイプラインステージから前記第４のパイ
プラインステージに移行する時に第３の移行を検出するステップと、前記第３の移行を検出した時に前記第３のステージビットをリセットし、前記
第４のステージビットをセットするステップと、前記ロード命令の実行が前記第４のパイプラインステージから移行する時に第
４の移行を検出するステップと、前記第４の移行を検出した時に複数のステージビットを含む全てのビットをリ
セットするステップとを含むことを特徴とする請求項３に記載の方法。
【請求項５】前記決定するステップが、前記年齢インジケータが非ゼロ
の値を含むか否か決定するステップを更に含むことを特徴とする請求項１に記載
の方法。
【請求項６】前記無効にするステップが、前記ロード命令に関連する有
効ビットをリセットするステップを更に含むことを特徴とする請求項１に記載の
方法。
【請求項７】前記追跡するステップ、前記検出するステップ、前記決定
するステップ、および前記無効にするステップがロードストアユニットによって
実行されることを特徴とする請求項１に記載の方法。
【請求項８】前記追跡するステップ、前記検出するステップ、前記決定
するステップ、および前記無効にするステップがロードアネックスによって実行
されることを特徴とする請求項１に記載の方法。
【請求項９】 out-of-orderかつ投機的なロード命令のための正確な例外
処理を実現するためのコンピュータシステムであって、メインメモリと、前記メインメモリに接続された複数のプロセシングユニットと、前記複数のプロセシングユニットに接続された、年齢インジケータでロード命
令の年齢を追跡する手段と、前記複数のプロセシングユニットに接続された、前記第２の命令が正確なトラ
ップを引き起こしたことを検出する手段と、前記複数のプロセシングユニットに接続された、前記正確なトラップが起こっ
た時に前記ロード命令が前記第２の命令の前に発行されたか否かを決定する手段
と、前記複数のプロセシングユニットに接続された、前記正確なトラップが起こっ
た時に前記年齢決定論理が、前記ロード命令が前記第２の命令の前に発行されて
いないと決定すると、前記ロード命令を無効にする手段とを含むことを特徴とす
るコンピュータシステム。
【請求項１０】前記ロード命令が、複数の連続したパイプラインステー
ジで実行され、前記年齢インジケータが複数のステージビットを含み、前記複数のステージビ
ットのそれぞれが、前記複数のパイプラインステージに含まれる連続したパイプ
ラインステージの異なった１つに対応することを特徴とする請求項９に記載のコ
ンピュータシステム。
【請求項１１】前記複数の連続したパイプラインステージが、第１のパ
イプラインステージ、第２のパイプラインステージ、第３のパイプラインステー
ジ、および第４のパイプラインステージを含み、前記複数のステージビットが、前記第１のパイプラインステージに対応する第
１のステージビット、前記第２のパイプラインステージに対応する第２のステー
ジビット、前記第３のパイプラインステージに対応する第３のステージビット、
および前記第４のパイプラインステージに対応する第４のステージビットを含む
ことを特徴とする請求項１０に記載のコンピュータシステム。
【請求項１２】前記追跡する手段が更に、前記ロード命令の実行が前記第１のパイプラインステージに入った時に、前記
第１のステージビットをセットする手段と、前記ロード命令の実行が前記第１のパイプラインステージから前記第２のパイ
プラインステージに移行する時に第１の移行を検出する手段と、前記第１の移行を検出した時に前記第１のステージビットをリセットし、前記
第２のステージビットをセットする手段と、前記ロード命令の実行が前記第２のパイプラインステージから前記第３のパイ
プラインステージに移行する時に第２の移行を検出する手段と、前記第２の移行を検出した時に前記第２のステージビットをリセットし、前記
第３のステージビットをセットする手段と、前記ロード命令の実行が前記第３のパイプラインステージから前記第４のパイ
プラインステージに移行する時に第３の移行を検出する手段と、前記第３の移行を検出した時に前記第３のステージビットをリセットし、前記
第４のステージビットをセットする手段と、前記ロード命令の実行が前記第４のパイプラインステージから移行する時に第
４の移行を検出する手段と、前記第４の移行を検出した時に、前記複数のステージビットを含む全てのビッ
トをリセットする手段とを含むことを特徴とする請求項１１に記載のコンピュー
タシステム。
【請求項１３】前記決定するための手段が、前記年齢インジケータが非
ゼロの値を含むか否かを決定する手段を含むことを特徴とする請求項９に記載の
コンピュータシステム。
【請求項１４】前記無効にする手段が更に、前記ロード命令に関連する
有効ビットをリセットする手段を含むことを特徴とする請求項９に記載の方法。
【請求項１５】前記追跡するための手段、前記検出するための手段、前
記決定するための手段、および前記無効にするための手段がロードストアユニッ
トに含まれていることを特徴とする請求項９に記載のコンピュータシステム。
【請求項１６】前記追跡するための手段、前記検出するための手段、前
記決定するための手段、および前記無効にするための手段がロードアネックスに
含まれていることを特徴とする請求項９に記載のコンピュータシステム。