JP3096423B2

JP3096423B2 - スーパースカラまたはｖｌｉｗプロセッサにおけるメモリ操作の順序替えのための方法及び装置

Info

Publication number: JP3096423B2
Application number: JP08098035A
Authority: JP
Inventors: マフムット・ケマール・エビシオグルー; デッビット・アーノルド・ルイック; ジャイミー・ハムベルト・モレノ; ガブリエル・モーリシオ・シルバーマン; フイリップ・ブラウン・ウィンターフィールド
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1995-05-10
Filing date: 1996-04-19
Publication date: 2000-10-10
Anticipated expiration: 2016-04-19
Also published as: JPH08314721A; EP0742512A2; EP0742512A3; US5625835A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般的には、プロ
グラムにおける命令レベルの並列化を利用するために、
スーパースカラあるいはＶＬＩＷ（ｖｅｒｙｌｏｎｇ
ｉｎｓｔｒｕｃｔｉｏｎｗｏｒｄ）プロセッサにお
けるメモリ操作の順序替えに関し、より詳しくは、任意
に分離されたあるいは曖昧なメモリ参照にもかかわらず
メモリ操作を順序替えし、それによってコンピュータ・
システムの性能を著しくな改善するための方法および装
置に関する。該方法および装置は、単一プロセッサ・シ
ステムおよび多重プロセッサ・システムに適用が可能で
ある。

【０００２】

【従来の技術】高性能の現代のプロセッサは、プログラ
ムにおける命令レベルの並列化を利用するために、すな
わち同時に二つ以上の命令を実行するために、スーパー
スカラおよび／またはＶＬＩＷ技術に依存している。こ
のようなプロセッサは、多数の機能ユニットを含んでお
り、命令の順次ストリームを実行し、一サイクルごとに
メモリから二以上の命令を取り出すことができ、また、
リソースの依存性および利用可能性に応じてサイクルご
とに二以上の命令をディスパッチすることができる。こ
れらの機能は、コンパイラによって活用され、コンパイ
ラは、スーパースカラおよび／またはＶＬＩＷ機溝のた
めに最適化されたコードを生成する。

【０００３】順次プログラムにあっては、メモリ・ロー
ド操作は、メモリからデータを読み出し、それをプロセ
ッサ・レジスターにロードし、ロードされたデータに依
存する一連の操作を頻繁に開始する。利用可能なリソー
スがあるスーパースカラあるいはＶＬＩＷプロセッサで
は、メモリ・ロード操作をできるだけ早期に開始すると
が有利である。なざなら、他の遊休のリソースを使用で
きるようになり、（潜在的なキャッシュ・ミスを含め
て）メモリ・アクセスの遅延を隠し、それによってプロ
グラムの実行時間が短縮できるからである。ロードなら
びにそのロードに依存する操作は、厳密な順次プログラ
ムで行なわれるより早期に実行され、実行時間の短縮が
達成される。このためには、非ブロック化ロード（すな
わち、キャッシュ・ミスを生みだすロードを越えて命令
を発し続ける）を実行する機能、先行するストアの前に
ロード（すなわち、非プログラム順序のロード）を発行
する機能、先行するブランチの前へロードを移動させる
（すなわち、投機の）機能、およびあるロードに依存す
る操作を他の操作の前へ移動させる機能が必要である。
言い換えれば、プログラムの操作の順序替えを行なう機
能が必要である。

【０００４】メモリ操作の順序替えを行なう機能は、い
くつかの要因、とくにプログラムの実行における実行時
依存性から生じる要因によって制限される。これらの要
因には、条件付きブランチ命令の前へ操作を移動するこ
とおよび曖昧なメモリ参照が含まれる。

【０００５】ある操作を先行する条件付きブランチ命令
の前へ移動することは、その操作が本当に必要かどうか
がわかる前に実行されるため、プログラムの実行に投機
性を招くことになる。その操作が必要であろうという期
待のもとで、コードの移動が行なわれる。副作用のない
レジスタ間操作は、その結果が未使用（「死んだ」）レ
ジスタに保管される限り、投機的に実行することができ
る。操作の必要がない場合には、その結果は単に無視さ
れる。他方、副作用のあるレジスタ間操作及びメモリ・
ロード操作は、例外（エラー）、保護違反、あるいは揮
発性メモリ位置へのアクセスなど、起きてはならない副
作用から回復する機構が存在している場合にのみ投機的
に実行することができる。

【０００６】あるメモリ・ロード操作を先行するメモリ
・ストア操作の前へ動かすことは、コンパイル時にロー
ドとストアによってアクセスされるメモリ位置が異なる
ことを判別できない場合には、プログラムの実行におい
て、曖昧な参照という問題が生じる。曖昧でないメモリ
参照は、衝突しないので、非プログラム順序で実行する
ことができる。他方、曖昧なメモリ参照は、衝突の可能
性を検出し、定刻前にロードされたデータを無視し、ス
トア操作が行なわれた後に正しい値を再ロードする機構
が存在する場合にのみ非プログラム順序で実行すること
ができる。この衝突は、複数バイトのオペランドの一バ
イトで起こる場合があるため、ロード操作を行なうこと
が可能になる前にストア操作を完了することが必要にな
る。

【０００７】上に述べた二つの問題は異なるものである
が、その影響と要求は同じである。すなわち、曖昧さの
副作用を検出しまたそこから回復するための機構が存在
しなければならない。以下の説明では、これらの問題
は、いずれも「順序替えメモリ・アクセスの問題」と呼
ぶ。

【０００８】現在用いられているコンパイルの手法は、
メモリ操作の順序替えのための静的メモリの曖昧さをな
くすアルゴリズムを含むものである。これらのアルゴリ
ズムは、二つのメモリ参照、すなわち一つのメモリ・ス
トア操作に続く一つのメモリ・ロード操作が同じ位置に
アクセスするかどうかを判別する。参照が衝突しなけれ
ば（すなわち、それらが異なるメモリ位置をアドレス指
定する場合には）、操作を順序替えして、ロードをスト
アの前に実行することが可能である。静的な曖昧さをな
くす作業は、メモリ・アクセスのパターンが予測可能な
場合にのみうまく機能する。しかし、そうでない場合も
多く、コンパイラ／プログラマは、参照が実際に衝突す
ることについて控えめな仮定を立て、順次（最初の順序
で）実行してプログラムにおける命令レベルの並列化の
可能性を低くするようにしなければならない。

【０００９】メモリ操作の順序替えには、これまでにも
強い関心がはらわれてきた。例えば、Ｋ．ディフェンド
ーフおよびＭ．アレンの論文「モトローラ８８１１０ス
ーパースカラＲＩＳＣマイクロプロセッサの機構」ＩＥ
ＥＥＭｉｃｒｏ、１９９２年４月、ｐｐ．４０−６３
を参照されたい。モトローラ８８１１０プロセッサ中の
動的スケジューラは、ストア命令をストア待ち行列にデ
ィスパッチしストアされるべきオペランドが他の操作で
まだ生成されていない場合にはそのストア操作は停止す
る。その後のロード命令は、そのストアを迂回してただ
ちにメモリにアクセスし、メモリ・アクセスの動的順序
替えを行なうことができる。アドレス比較器は、アドレ
スの危険を検出し、ロードがストアの前に同じアドレス
へ進むのを防ぐ。待ち行列は、三つの未解決のストア操
作を保持するため、この構造によって、きついループの
実行時オーバーラップが可能となる。この構造は、順次
実行のストリームの中でロードを実際に前へ動かすもの
ではなく、ストア操作がが停止されたことによってロー
ド操作が遅延することがないようにするだけである。

【００１０】一定の条件下でのロード／ストア操作のル
ープから外への静的な動きは、Ｋ．エブシオグルー、Ｒ
・グローブス、Ｋ．キム、Ｇ．シルバーマン、および
Ｉ．ジブの「スーパースカラ環境内でのＶＬＩＷコンパ
イレーションの手法」プログラミング言語の設計と実施
に関するＳＩＧＰＬＡＮ会議（ＰＬＤＩ’９４）、１９
９４年、に記載されている。このアプローチは、基本的
には、条件付きで実行されるロードとストアが安全とみ
なされる場合にはそれらを移動させる追加の機能を有す
る、ループ不変命令のループから外への静的な移動の一
般化である。この最適化の作業のために必要な条件は、
衝突するメモリ参照（曖昧なメモリ参照）の可能性がな
いことを保証することを含むが、これは、常に可能なこ
とではない。

【００１１】プロセッサのアーキテクチャを修正するこ
となしに投機的ロードのスケジューリングを可能にする
コンパイレーションの手法は、Ｄ．バーンステン、Ｍ．
ロデー、およびＭ．ホプキンズの米国特許出願「コンピ
ュータのための命令スケジューラー」（１９９２年５月
１４日出願、第０７／８８２７３９号の維続出願として
の、１９９４年１２月２７日出願、第０８／３６４８３
６号、本出願の譲受人に譲渡）に記載されている。この
アプローチでは、投機的実行のためのロード操作の適当
性は、それを、その操作で使用されるベース・レジスタ
に適用される条件および／またはそのベース・レジスタ
の内容に応じた一定数のカテゴリに分類することによっ
て判別される。すなわち、上記のＫ．エブシオグルー等
が記載している手法と同様に、このアプローチも、コン
パイル時に検出できる場合に限定される。

【００１２】「投機的な曖昧さの除去」とよばれるハイ
ブリッドなメモリの曖昧さをなくす手法が、Ａ．フア
ン、Ｇ．スレーブンバーグ、およびＪ．シェンの「投機
的な曖昧さの除去：ダイナミック・メモリの曖昧さをな
くすためのコンパイレーションの手法」第２１回コンピ
ュータ・アーキテクチャ国際シンポジウム、シカゴ、ｐ
ｐ．２００−２１０、１９９４年、に提案されている。
このアプローチは、ハードウエアとコンパイラの手法を
組み合わせてその目的を達成しようとするものである。
この手法は、ハードウエア内のガードされた実行機能を
必要とする曖昧なメモリ参照のいずれかの結果を見越し
てコードに変形を行なうものである。各対の曖昧なメモ
リ参照ごとに、コンパイラは、メモリ参照に依存するコ
ードの二つのバージョンを生成する。一つのバージョン
は、アドレスが重なり合うことを仮定し、他のバージョ
ンは重なり合わないことを仮定する。いずれのバージョ
ンにおいても、副作用のない操作が行なわれ、副作用の
ある操作は、二つのアドレスの比較の結果によってガー
ドされる。このアプローチは、ガードされた実行の機能
に加えてもとのプログラムより多くの操作とリソースを
必要とし、曖昧さの除去しか行なわず、ブランチの前へ
ロード操作を移動させる機能をもたない。

【００１３】ロード操作をストア操作の前に実行できる
ようにしてプログラム実行のコンパイラの最適化を行な
う他の方法が、Ａ．ニコローの「実行時の曖昧さの除
去：静的に予想できない依存性への対処」ＩＥＥＥ議事
録第３８巻、１９８９年５月、に記載されている。この
アプローチは、ストア操作の前へ移動させることのでき
るロードのコンパイラー識別と必要なコードのコンパイ
ラ挿入に依存するもので、上記資料にＡ．フアン等が記
載しているように、プロセッサがロードとストア操作の
諸アドレスの間に一致があるかどうか実行時にチェック
を行なうことができるが、保護された実行機能はない。
一致がなければ、プロセッサは、ロードがストアの前へ
動かされた一連の命令を実行する。他方、一致があれ
ば、プロセッサは、ロードがストアの後に行なわれる一
連の命令を実行する。アドレスの一致のチェックがプロ
セッサによって行なわれるので、このアプローチは、よ
り多くの命令の実行とそれに関連する依存性（例：メモ
リ・アドレスの明示生成とアドレス比較）による潜在的
な性能劣化を招く。さらに、順序替えロード操作は、ロ
ードおよびストアの両操作のためのメモリ・アドレスが
解決されるまで行なうことができない。

【００１４】非プログラム順序操作の性能を改善するた
めの方法および装置は、Ｍ．クマール、Ｋ．エブシオグ
ルー、およびＥ．クロンスタッドの米国特許出願「コン
ピュータ・システムの性能を改善するための方法および
装置」（１９９２年５月６日出願第０７／８８０１０２
号の維続出願としての、１９９４年１０月７日出願、第
０８／３２０１１１号、本出願の譲受人に譲渡）に記載
されている。この方法およびアプローチは、コンパイラ
の手法、４つの新しい命令、およびアドレス比較装置を
使用するものである。コンパイラは、メモリ・ロード操
作をメモリ・ストア操作の前へ静的に移動させる。非プ
ログラム順序でロードされたオペランドのアドレスは、
アソシアティブ・メモリへ保管される。要求があれば、
アドレス比較装置が、アソシアティブ・メモリに保管さ
れたアドレスをストア操作によって生成されたアドレス
と比較する。衝突が検出されれば、問題を解決するため
の回復コードが実行される。このシステムは、それらの
アドレスの比較を行なう必要がなくなれば、アソシアテ
ィブアドレス内に保管されたアドレスを消去する。この
アプローチは、メモリ操作の順序替えの問題を扱うだけ
のものである。メモリ・ロード操作を投機的に実行する
機能は含んでいない。さらに、このアプローチは、アド
レス内の衝突のチェックを始動させまた必要のなくなっ
たオペランドのアドレスを消去するための特別の命令を
必要とし、また、コンパイラに潜在的な衝突をすべて検
出してペアリングさせなければならない。その結果、こ
のアプローチは、（おそらくはエラーによって生じる）
ストア／ロード命令の予想されない組合わせによって生
じる衝突に対処することができないし、また、コヒーレ
ントな多重プロセッサのコンテキストで使用することも
できない。

【００１５】関連する主題として、コンパイラ・サポー
トをともなったハードウエア機構が、Ｋ．エブシオグル
ー、およびＭ．シルバーマンの米国特許出願「投機的命
令における例外の取り扱い」（１９９５年１月２４日出
願、第０８／３７７５６３号、本出願の譲受人に譲渡）
に記載されている。この機構は、投機的に実行される命
令によって生じる例外からオーバーヘッドを少なくする
ものである。この機構は、投機的な命令の実行中に生成
された例外を示すためのレジスタごとの追加ビット、レ
ジスタ・オペランドを保管して例外によって無効化され
た投機的命令が再実行されるようにするための二つの付
加的レジスタ・ファイル、ならびに例外の発生源をたど
ることのできる情報などのハードウエアに依存するもの
である。この機構は、投機的命令にのみ適用可能で、順
序替えされたメモリ操作には適用できない。

【００１６】Ｆ．アマーソン、Ｒ．ガプタ、Ｖ．カター
ル、Ｍ．シュランスカーの特許出願「ロード命令の積極
的実行を可能にするメモリ・プロセッサ」（１９９３年
４月２日出願、英国特許出願、ＧＢ２２６５４８１Ａ、
第９３０２１４８．３号）には、ロード命令を順序替え
するための装置および方法が記載されている。この特許
出願は、コンパイラが、待ち時間の長いロード命令を命
令の順序の前の方へ移動させるコンピュータ・システム
のためのメモリ・プロセッサを記載したものである。こ
のメモリ・プロセッサは、ロード命令を、ロードに先立
って実行されたであろうなんらかの順序が後のストア命
令がそのロード命令によって指定されたと同じアドレス
を参照するかどうかを判別するための十分な時間だけ特
別のレジスタ・ファイルに保管する。その場合には、メ
モリ・プロセッサが、最初のロードを命令ストリームの
中に再挿入し、それが順序通りに実行されるようにす
る。したがって、このシステムでは、コンパイラの制御
のもとでロードをストアの前へ移動させることができる
もので、ハードウエアに依存して衝突から回復するため
のコードを挿入する。しかし、このシステムでは、ロー
ドに依存する他の命令の順序替えを行なうことはできな
い（ハードウエア・リソースは、ロード命令のみを再挿
入することができる）。また、ロードまたは他の命令の
投機的実行を行なうこともできない。言い換えれば、こ
の方法および装置は、コンパイルするときに最大値を知
る必要のあるロード命令の待ち時間を隠すことに限られ
ている。

【００１７】

【発明が解決しようとする課題】したがって、本発明の
一つの目的は、ロード命令を実行ストリームの前の方へ
移動することができ、メモリからの読み出しと非プログ
ラム順序でロードされたデータを用いることの間に任意
の距離を置くことができる機構を提供することである。
本発明の他の一つの目的は、ロード操作のループから外
ヘの移動に限定されずまた曖昧なメモリ参照を許容する
ことのできる機構を提供することである。本発明のさら
に他の一つの目的は、曖昧さをなくすために一つだけ追
加の命令を実行し、それにより性能を高め、またメモリ
の曖昧さの解消を投機的実行と統合する機構を提供する
ことである。本発明のさらに他の一つの目的は、導入さ
れるオーバーヘッドが命令一つだけであり、ロード操作
を任意に命令ストリームの前のほうへ移動させることの
できる機構を提供することである。本発明のさらに他の
一つの目的は、ストア／ロード命令の予想しない組合わ
せの結果生じる衝突に対処することができ、コヒーレン
トな多重プロセッサのコンテキストで使用することので
きる機構を提供することである。本発明のさらに他の一
つの目的は、必要な実装がかなり簡単な、投機的実行と
メモリ操作の順序替えを組み合わせる機構を提供するこ
とである。

【００１８】

【課題を解決するための手段】本発明にもとづけば、任
意に分離された曖昧なメモリ参照についてでも、スーパ
ースカラまたはＶＬＩＷプロセッサにおけるメモリ操作
の順序替えを行なうための方法および装置が提供され
る。この順序替えは、従属操作の順序をプログラム実行
の前のほうへ移動させることによってプログラムの経路
長を短縮し、それによってコンピュータ・システムの性
能を高めるものである。この方法および装置は、メモリ
操作の順序替えと投機的実行を統合するものであり、単
一プロセッサ・システムにもまた多重プロセッサ・シス
テムにも適用が可能である。装置は、メモリのアドレス
指定における衝突をチェックする多重入力アドレス比較
器、順序替えされたメモリ操作によって生成された衝突
を示す比較器入力ごとの状況ビット、保留の例外を示す
ためのプロセッサのレジスタ・ファイル内のレジスタご
との状況ビット、レジスタを非プログラム順序でロード
し、非プログラム順序でロードされたレジスタをコピー
し、非プログラム順序でロードされたレジスタをコミッ
トするための特別な命令、およびこれらのリソースを使
用するコードならびに非プログラム順序で命令を実行す
る間に生じる例外から回復するためのコードを生成する
ためのコンパイラ・サポートから溝成される。

【００１９】非プログラム順序のメモリ操作から、下記
の要件が生じる。・非プログラム順序ロード操作によって生成される例外
（副作用）は、ロードされたデータがプログラム順序で
の（非投機的）操作に使用されるまで報告されてはなら
ない（行なわれてはならない）。・ロード操作をストア操作の上へ移動させたときのアド
レスのオーバーラップによる衝突が検出されなければな
らない。・ストアの前にロードされたデータは、プログラム順序
で使用される前に妥当性がチェックされなければならな
い（言い換えれば、オーバーラップするストアにより無
効となっていないことのチェック）。・揮発性の位置には投機的にロードすることができな
い。

【００２０】本発明で用いられるアプローチは、下記に
依存するものである。・命令レベルでの並列化を利用するためのコンパイラに
よるコードの静的順序替え。・曖昧なメモリ・アクセスにおける衝突を検出し、遅延
した例外を報告し、非プログラム順序でロードされたデ
ータを操作するためのハードウエア・サポート。・非プログラム順序でロードされたデータを操作しまた
遅延した例外から回復するためのコードのコンパイラ生
成。

【００２１】

【発明の実施の形態】図１および図２は、本発明によっ
て行なわれる非プログラム順序および他の操作のフロー
チャートを示す。

【００２２】プロセッサが発行する各命令およびコヒー
レントな多重プロセッサ・システムにおける他のプロセ
ッサが発行する各ストア操作は、機能ブロック１０１で
デコードされる。命令が、決定ブロック１０２で非プロ
グラム順序ロード操作と判別され、該命令が、決定ブロ
ック１０３で例外を生成すると判別された場合、機能ブ
ロック１０４で、ロード命令の目的レジスタに関連する
遅延例外（ＤＸ）ビットがセットされるが、プロセッサ
にはいかなる例外も発生されない。他方、該命令が例外
を生成しない場合には、該命令によって参照されるメモ
リ・アドレスの範囲がアドレス比較器（ＡＣ）のエント
リに保管され、このエントリの有効なビットが、機能ブ
ロック１０５で有効にセットされる（すなわち、アドレ
ス比較器のエントリは、最近非プログラム順序でロード
されたメモリ・アドレスのキャッシュとして作用す
る）。

【００２３】命令が、決定ブロック１０６でストア操作
と判別された場合、決定ブロック１０７で、該命令によ
って参照されるメモリ・アドレスの範囲がアドレス比較
器の中のすべてのエントリと比較される。機能ブロック
１０８では、この範囲と一致する各エントリについて、
対応する有効ビットを無効にセットする。決定ブロック
１０９では、すべてのアドレスが比較されたかどうか判
別する。

【００２４】該命令が、決定ブロック１１０でコミット
操作と判別された場合、命令のソース・レジスタに関連
するアドレス比較器エントリ内の有効ビットが決定ブロ
ック１１１でチェックされる。該ビットが偽にセットさ
れている場合、機能ブロック１１２で遅延例外が生成さ
れる。同時に、そのコミット命令のソース・レジスター
の遅延例外ビットも決定ブロック１１３でチェックされ
る。このビットがセットされた場合、機能ブロック１１
４で遅延例外が生成される。

【００２５】決定ブロック１１５で、操作が他のいずれ
かの操作であると判別された場合、決定ブロック１１６
で該命令のすべてのソース・レジスタの遅延例外ビット
がチェックされる。これらのビットのいずれかがセット
された場合、機能ブロック１１７で、命令の目的レジス
タの遅延例外ビットがセットされるが、プロセッサには
いかなる例外も発生されない。それ以外では、機能ブロ
ック１１８で、命令の目的レジスターの遅延例外ビット
が偽とセットされる。

【００２６】決定ブロック１１９で遅延例外が判別され
てプロセッサに発生された場合、該例外命令は打ち切ら
れ、実行制御が機能ブロック１２０で例外ハンドラへ移
される。この例外ハンドラは、該例外を生成しまた該例
外が発生される前に実行されたロード操作ならびにロー
ドに依存するすべての操作の実行を繰り返す「回復コー
ド」の実行を担当するものである。

【００２７】図１および図２のフローチャートには、本
発明の以下の特徴が示されている。例外報告：ロード操作の非プログラム順序実行の間に
生じるエラー（副作用）（保護違反など）は、非プログ
ラム順序でロードされたデータが順次命令ストリームの
中のロード命令の元の場所でプログラム順序の操作に必
要とされるまでは報告されない。エラーがある場合に
は、ロード命令ならびに非プログラム順序で実行された
ロードに依存するすでに実行された他の命令がその地点
で再実行される。

【００２８】例外を生じるおそれのある非プログラム順
序ロード命令を実行するため、目的レジスタには「遅延
例外」ビットのタグが付けられる。このビットは、遅延
の形で、非プログラム順序ロード命令の実行中に発生し
た例外を報告するために用いられる。遅延例外ビット
は、非プログラム順序ロードが例外を生成したときにセ
ットされ、レジスタが他の操作に使用されるときに伝播
される。コミット操作は、そのオペランドの遅延例外ビ
ットをチェックする。遅延例外ビットがセットされる場
合には、遅延例外が生成される。例外ハンドラは、遅延
の形で報告される例外を生じたロード命令ならびにそれ
に依存するすでに実行された他の命令の再実行を担当す
るものである。

【００２９】記憶・アドレスのオーバーラップによる衝
突：ストア操作の前へ動かされたロード操作は、メモ
リ・アドレスのオーバーラップによる衝突を生じること
がある。衝突は、また、コヒーレントな多重プロセッサ
環境の中で他のプロセッサによって行なわれる操作によ
って生じることもある。いずれの場合にも、非プログラ
ム順序ロードは、非プログラム順序ロードの実行からロ
ードされたデータの最初のプログラム順序の使用までの
間に（同じまたは別のプロセッサによる）同じメモリ位
置へのストア操作の結果として無効になったデータにア
クセスすることがある。

【００３０】ロード／ストア・アドレスのオーバーラッ
プから生じる衝突は、多重エントリ「アドレス比較器」
（ＡＣ）を用いて動的に検出される。非プログラム順序
ロード操作を実行するときには、ロードされたオペラン
ドの実アドレスの範囲がアドレス比較器エントリ内に保
管される。

【００３１】ストア操作が実行されるときには、そのス
トア・オペランドの実アドレスの範囲がアドレス比較器
内のすべてのエントリの内容と比較される。同様に、コ
ヒーレント多重プロセッサ・システムでは、システム内
の他のプロセッサからストア参照を受け取ったときにア
ドレス比較器エントリもチェックされる。各アドレス比
較器エントリについて、その実アドレスにおけるオーバ
ーラップが検出された場合には、そのエントリは無効の
マークが付けられる。

【００３２】非プログラム順序でロードされたデータの
コミット：非プログラム順序でロードされたオペラン
ドならびにそれから生じるすべての値は、非投機的（プ
ログラム順序）命令の中のオペランドとして使用できる
ようになる前に「コミットされる」必要がある。すなわ
ち、プログラムは、特定のレジスターに関連するアドレ
ス比較器エントリがデータが使用される地点（通常は、
プログラム内の元の場所）でまだ有効であることを検査
する必要がある。このためには特別の命令が用いられ、
非プログラム順序でロードされたデータを別のレジスタ
にオプションでコピーし、同時に関連するアドレス比較
器エントリの有効性を検査する。エントリが有効である
場合には、コミット（コピー）操作が進行する。一方、
エントリが無効である場合には、遅延例外が発生され
る。例外ハンドラは、そのロード操作および該ロードに
依存するすでに実行された他のすべての操作を再実行す
る。

【００３３】揮発性ロード：揮発性の位置からのロー
ドは、非プログラム順序で実行されない。（記憶保護機
構によって検出された）揮発性の位置からの非プログラ
ム順序にロードするいかなる試みも、単に関連するレジ
スタの遅延例外ビットを設定するだけである。記憶装置
へのアクセスは行なわれない。

【００３４】ハードウエアの実装図３は、上に述べた非プログラム順序ロードおよび他の
操作をサポートするハードウエア・リソースが配備され
たプロセッサを示す。このプロセッサは、固定および浮
動小数点算術論理装置（ＡＬＵ）など複数の機能ユニッ
トを含む。図には、６個の機能ユニット２０１ないし２
０６が示されているが、当業者には、具体的なプロセッ
サの設計に応じてより多くのまたはより少ない機能ユニ
ットを配備できることが理解されよう。これらの機能ユ
ニットは、データ・キャッシュ２０７からデータにアク
セスし、多重プロセッサ・システムの場合には、該デー
タ・キャッシュが他のプロセッサに接続されている。機
能ユニットは、汎用レジスタ（ＧＰＲ）２０８、浮動小
数点レジスタ（ＦＰＲ）２０９、および条件レジスター
２１０に適当に接続される。

【００３５】これまでに記載した構造は、従来のもので
当業者にはよく理解されているものである。本発明は、
ＧＰＲ２０８、ＦＰＲ２０８、および条件レジスタ２１
０にそれぞれアドレス比較器（ＡＣ）バッファ２１１お
よび遅延例外（ＤＸ）ビット２１２、２１３、２１４を
それぞれ付加するものである。より詳細には、一つの遅
延例外ビットが非プログラム順序で実行された操作の目
的となりえる各レジスタに関連付けられる。遅延例外ビ
ットは、特殊レジスタとしてアクセス可能であり、ま
た、コンテキストの切り替え時にプロセッサの状態の一
部として保管され復元される。

【００３６】アドレス比較器エントリは、非プログラム
順序でロードされる各レジスタと関連付けられる。図３
は、静的関連を示しており、各レジスタは、固有の（固
定された）関連エントリをもっている。（あるいは、ア
ドレス比較器エントリは、実行時に、それを必要とする
各レジスタに動的に割り当てることもできる。）本発明
のこの実施形態にあっては、各ＡＣエントリは、（１）
非プログラム順序でロードされたオペランドの実アドレ
スの範囲、（２）非プログラム順序でロードされたオペ
ランドのいずれかのバイトが同じプロセッサまたはコヒ
ーレントな多重プロセッサ・システムの他のプロセッサ
のいずれかからのその後のストア操作によって修正され
たかどうかを示す有効ビット、および、（３）ＡＣエン
トリでカバーされるアドレスの範囲および各ストア操作
のアドレスの範囲における一致をチェックする比較器か
ら構成されている。

【００３７】図３に示す実施形態では、ある実装が非プ
ログラム順序でロードすることのできるレジスタ数より
少ないＡＣエントリを含む場合には、ＡＣエントリのな
いレジスタは、永久に無効にセットされる関連する有効
ビットを有するだけである。このようにして、存在しな
いＡＣエントリへのアクセスは無効エントリをが報告
し、遅延例外がを生成する。

【００３８】非プログラム順序命令は、以下のようにレ
ジスタ・オペランドのＤＸビットを使用する。命令が例
外を生成する場合には、目的レジスタのＤＸビットのみ
がセットされ、例外は発生さ。命令によって使用された
オペランドのＤＸビットがセットされると（これは、遅
延例外がすでに生成されたことを示す）、目的レジスタ
のＤＸビットもセットされる。すなわち、遅延例外が非
プログラム順序操作を通して伝播される。

【００３９】上に述べたリソースに加えて、本発明は、
プロセッサによって実行される次の命令を含む。Ｌｏａ
ｄＲｅｇｉｓｔｅｒＯｕｔ−ｏｆ−ｏｒｄｅｒ −
この命令は、メモリ位置をレジスタにロードし、有効
のマークが付けられた対応するＡＣエントリ内のオペラ
ンドの実アドレスの範囲をストアする。実際には、ロー
ド命令は、該命令のプログラム順序／非プログラム順序
性を示す１ビットを付加することで拡張される。Ｍｏｖ
ｅＲｅｇｉｓｔｅｒＯｕｔ−ｏｆ−ｏｒｄｅｒ −
この命令は、ソース・レジスタの内容とそれに関連す
るＡＣエントリを目的レジスタ及び関連する目的ＡＣエ
ントリにコピーする。その機能から、これは、常に非プ
ログラム順序命令である。ソース・レジスタの遅延例外
（ＤＸ）ビットは、目的レジスタの遅延例外ビットにコ
ピーされるが、例外は発生しない。ＣｏｍｍｉｔＲｅ
ｇｉｓｔｅｒ − この命令は、プログラム順序でのみ
実行される。これは、非プログラム順序でロードされた
レジスタの内容を他のレジスタにコピーし、ソース・レ
ジスタに関連するアドレス比較器エントリがまだオーバ
ーラップするアドレスへのストアによって無効化されて
いないかどうかをチェックし、また、ソース・レジスタ
の遅延例外ビットがセットされていないかどうかをチェ
ックする。アドレス比較器エントリが有効であり遅延例
外（ＤＸ）ビットがセットされていない場合には、レジ
スター移動操作が進行する。ＡＣエントリが有効でない
場合あるいはＤＸビットがセットされている場合には、
遅延例外が生成される。ＩｎｖａｌｉｄａｔｅＡｄｄ
ｒｅｓｓＣｏｍｐａｒａｔｏｒＥｎｔｒｉｅｓ −
この命令は、アドレス比較器の全内容を無効化する。
これは、コンテキストの切り替え時にＡＣが保管されて
いない場合に、古いコンテキストからのＡＣが新しいコ
ンテキストにおいて例外を生成するのを避けるためにシ
ステム・ソフトウエアによって使用される。

【００４０】ロード操作の投機の例以下、上に述べたリソースの使用を例により示す。下の
左側の欄は（元の）コードを示すもので、ストア命令の
下に、ロード命令と、そのロードに依存する若干の算術
命令を含んでいる。この例では、命令名の後の最初のレ
ジスタが目的レジスタであり、残りのレジスタはオペラ
ンドである。元のコードストアの上に移動されたロード・・・ｌｏａｄ？ｒ２５，１０（ｒ４）・・・・・・ｓｔｏｒｅｒ３，２０（ｒ２）ｓｔｏｒｅｒ３，２０（ｒ２）・・・・・・ｌｏａｄｒ５，１０（ｒ４）ｃｏｍｍｉｔｒ５，ｒ２５ａｄｄｒ６，ｒ５，２０ａｄｄｒ５，ｒ５，２０ｓｕｂｒ７，ｒ６，ｒ７ｓｕｂｒ７，ｒ６，ｒ７・・・・・・ロード命令は、右側の欄に示すようにストアの上に動か
される。この例では、目的レジスタがリネームされると
仮定している。右側の欄のロード命令コードにクエスチ
ョン・マークで示されているように、新しい目的レジス
タは非プログラム順序でロードされる。その結果、その
データは目的レジスタにロードされるが、ロードされた
オペランドのアドレスの範囲は、有効のマークが付けら
れたＡＣエントリに保管される。右側の欄に示すよう
に、元のロード命令は、コミット命令で置換される。

【００４１】ロードに続く算術命令が下に示すように順
序替えされると仮定する。前のコードコミット命令の上に移動された操作ｌｏａｄ？ｒ２５，１０（ｒ４）ｌｏａｄ？ｒ２５，１０（ｒ４）・・・ａｄｄ？ｒ２６，ｒ２５，２０・・・ａｄｄ？ｒ２７，ｒ２６，ｒ７・・・・・・ｓｔｏｒｅｒ３，２０（ｒ２）ｓｔｏｒｅｒ３，２０（ｒ２）・・・・・・ｃｏｍｍｉｔｒ５，ｒ２５ｃｏｍｍｉｔｒ５，ｒ２５ａｄｄｒ６，ｒ５，２０ｃｏｐｙｒ６，ｒ２６ｓｕｂｒ７，ｒ６，ｒ７ｃｏｐｙｒ７，ｒ２７・・・・・・さらに、これらの命令が例外を生じないと仮定する。そ
の場合には、コミット操作の後にレジスタ・コピー操作
が続き、必要ならば非プログラム順序操作の結果をそれ
らの宛先レジスタへコピーする。このようなコピー操作
は、コンパイラが行なうコードの最適化の中のコピー伝
播ステップによってなくすことができる。非プログラム
順序レジスターのコミット命令とは異なり、このレジス
タ・コピー操作は、対応するオペランドが前のコミット
操作によって暗示的に有効化または無効化されているた
め、アドレス比較器をチェックすることなく、ソース・
レジスタを宛先レジスタにコピーするだけである。

【００４２】ストア操作が非プログラム順序でロードさ
れた位置とオーバーラップする場合には、ストア操作の
副作用として、対応するＡＣエントリが無効としてマー
クが付けられる。その結果、コミット命令の実行が遅延
例外を生じる。この例外に関連するハンドラは、ロード
操作ならびに該ロードに依存しまた例外が生じる前に実
行された二つの操作を実行する回復コードを含んでい
る。このため、回復コードの中で再実行される命令のオ
ペランドは、同じレジスタの中または他の位置でまだ利
用可能でなければならない。

【００４３】例として、上に示した順序替えコードのた
めの下に示す回復コードを検討する順序替えされたコード回復コードｌｏａｄ？ｒ２５，１０（ｒ４）ａｄｄ？ｒ２６，ｒ２５，２０ｓｕｂ？ｒ２７，ｒ２６，ｒ７・・・ｓｔｏｒｅｒ３，２０（ｒ２）・・・ｒｃｖｒ：ｌｏａｄｒ２５，１０（ｒ４）ｃｏｍｍｉｔｒ５，ｒ２５ａｄｄｒ５，ｒ２５，２０ｃｏｐｙｒ６，ｒ２６ｓｕｂｒ５，ｒ２６，ｒ７ｃｏｐｙｒ７，ｒ２７ｒｅｔｕｒｎ・・・非プログラム順序ロードに依存する各命令は、回復コー
ドの一部として再実行され、該回復コードは、コミット
操作を再実行するために戻ることに留意が必要である。
あるいは、さらに最適化のため、可能な場合には、回復
コードは、元の目的レジスタを直接に更新して、コピー
伝播の最適化によって除去されなかったレジスタ・コピ
ー操作をスキップすることができる。以上、本発明を好
ましい一実施形態に関して説明したが、当業者は、本発
明を特許請求の範囲の精神および範囲内で変更して実施
できることが理解できよう。

【００４４】まとめとして、本発明の構成に関して以下
の事項を開示する。（１）スーパースカラまたはＶＬＩＷプロセッサにおい
てメモリ操作を順序替えする方法であって、プロセッサ
によって発行された命令をデコードするステップと、デ
コードされた命令が非プログラム順序ロード命令である
かどうかを判別し、そうであれば、その非プログラム順
序ロード命令が例外を生成するかどうかを判別するステ
ップと、例外を生成する非プログラム順序ロード命令に
ついて、前記ロード命令の目的レジスタに関連する遅延
例外ビットをセットするステップと、例外を生成しない
非プログラム順序ロード命令のメモリ・アドレスをアド
レス比較器に保管し、前記アドレス比較器に保管された
メモリ・アドレスのための有効ビットをセットするステ
ップと、デコードされた命令がストア操作であるかどう
かを判別するステップと、デコードされたストア命令に
よって参照されたメモリ・アドレスの範囲を前記アドレ
ス比較器の中のすべてのエントリと比較するステップ
と、前記アドレス比較器の中の一致する各エントリにつ
いて、その対応するエントリの有効ビットを無効にセッ
トするステップと、デコードされた命令がコミット操作
であるかどうかを判別するステップと、前記デコードさ
れたコミット操作の目的レジスタに関連するアドレス比
較器エントリの前記有効ビットをチェックし、前記有効
ビットが無効にセットされている場合には遅延例外を生
成し、同時に、前記コミット操作のソース・レジスタの
遅延例外ビットをチェックし、遅延例外ビットがセット
されている場合には、遅延例外を生成するステップと、
例外命令を打ち切り、制御を例外ハンドラへ移すステッ
プと、を有する方法。（２）上記（１）に記載のスーパースカラまたはＶＬＩ
Ｗプロセッサにおいてメモリ操作を順序替えする方法で
あって、さらに、前記デコードされた命令が非プログラ
ム順序ロード、ストア、又はコミット命令以外であるか
どうかを判別するステップと、該命令によって用いられ
たすべてのソース・レジスタのための前記遅延例外ビッ
トをチェックし、任意の遅延例外ビットがセットされて
いる場合には、目的レジスターの対応する遅延例外ビッ
トをセットするステップと、を有する方法。（３）メモリ操作を順序替えすることのできるスーパー
スカラまたはＶＬＩＷプロセッサであって、前記プロセ
ッサによって発行される命令をデコードするためのデコ
ーダと、各々が特殊レジスタとしてアクセス可能な遅延
例外ビットを有する複数のレジスタと、デコードされた
命令が非プログラム順序ロード命令であるかどうかを判
別し、そうであれば、該非プログラム順序ロード命令が
例外を生成するかどうかを判別する機能的手段であっ
て、例外を生成する非プログラム順序ロード命令につい
て前記ロード命令の目的レジスタに関連する遅延例外ビ
ットをセットする機能的手段と、例外を生成しない非プ
ログラム順序ロード命令のメモリ・アドレスを保管する
ためのアドレス比較器であって、保管されたメモリ・ア
ドレスのためにセットされる有効ビットを有するアドレ
ス比較器と、ただし、前記機能的手段は、デコードされ
た命令がストア操作であるかどうかを判別し、前記アド
レス比較器は、デコードされたストア命令によって参照
されたメモリ・アドレスの範囲を前記アドレス比較器の
中のすべてのエントリと比較し、前記アドレス比較器の
中の一致する各エントリについて、その対応するエント
リの有効ビットを無効にセットし、前記機能的手段は、
デコードされた命令がコミット操作であるかどうかを判
別し、該デコードされたコミット操作のソース・レジス
タに関連するアドレス比較器エントリの前記有効ビット
をチェックし前記有効ビットが無効にセットされている
場合には遅延例外を生成し、また同時に、前記コミット
操作のソースレジスタの遅延例外ビットをチェックし、
遅延例外ビットがセットされている場合には、遅延例外
を生成して例外命令を打ち切り、例外命令が打ち切られ
るときに回復コードを実行する例外ハンドラーし、を有
するスーパースカラまたはＶＬＩＷプロセッサ。

【図面の簡単な説明】

【図１】本発明によって行なわれるプログラム順序およ
び非プログラム順序の操作の実行のための論理を示すフ
ローチャート。

【図２】本発明によって行なわれるプログラム順序およ
び非プログラム順序の操作の実行のための論理を示すフ
ローチャート。

【図３】図１及び図２のフローチャートに示した非プロ
グラム順序の操作の実行をサポートするハードウエア・
リソースを示すブロック図である。

【符号の説明】

２０１〜２０６機能ユニット２０７データ・キャッシュ２０８汎用レジスタ２０９浮動小数点レジスタ２１０条件レジスタ２１１アドレス比較器２１２〜２１４ＤＸビット

───────────────────────────────────────────────────── フロントページの続き (72)発明者デッビット・アーノルド・ルイックアメリカ合衆国55906ミネソタ州ローチェスターハウソーンヒルロードエヌ・イ 2317 (72)発明者ジャイミー・ハムベルト・モレノアメリカ合衆国10530ニューヨーク州ハーツデールホルメス・アベニュー 205 (72)発明者ガブリエル・モーリシオ・シルバーマンアメリカ合衆国10546ニューヨーク州ミルウッドヒッデンホーロー・レーン 141 (72)発明者フイリップ・ブラウン・ウィンターフィールドアメリカ合衆国55902ミネソタ州ローチェスターエイスアベニューエス・ダブリュウ 822 (56)参考文献特開平６−214799（ＪＰ，Ａ) 特開平６−89194（ＪＰ，Ａ) 特開平６−290045（ＪＰ，Ａ) 特開平７−271585（ＪＰ，Ａ) 特開平７−271584（ＪＰ，Ａ) 特開平７−160501（ＪＰ，Ａ) 特開平８−16395（ＪＰ，Ａ) 特開平８−234981（ＪＰ，Ａ) 特開平５−143332（ＪＰ，Ａ) 特表平８−504977（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 9/38

Claims

(57)【特許請求の範囲】

【請求項１】スーパースカラまたはＶＬＩＷプロセッサ
においてメモリ操作を順序替えする方法であって、プロセッサによって発行された命令をデコードするステ
ップと、デコードされた命令が非プログラム順序ロード命令であ
るかどうかを判別し、そうであれば、その非プログラム
順序ロード命令が例外を生成するかどうかを判別するス
テップと、例外を生成する非プログラム順序ロード命令について、
前記ロード命令の目的レジスタに関連する遅延例外ビッ
トをセットするステップと、例外を生成しない非プログラム順序ロード命令のメモリ
・アドレスをアドレス比較器に保管し、前記アドレス比
較器に保管されたメモリ・アドレスのための有効ビット
をセットするステップと、デコードされた命令がストア操作であるかどうかを判別
するステップと、デコードされたストア命令によって参照されたメモリ・
アドレスの範囲を前記アドレス比較器の中のすべてのエ
ントリと比較するステップと、前記アドレス比較器の中の一致する各エントリについ
て、その対応するエントリの有効ビットを無効にセット
するステップと、デコードされた命令がコミット操作であるかどうかを判
別するステップと、前記デコードされたコミット操作のソース・レジスタに
関連するアドレス比較器エントリの前記有効ビットをチ
ェックし、前記有効ビットが無効にセットされている場
合には遅延例外を生成し、同時に、前記コミット操作の
ソース・レジスタの遅延例外ビットをチェックし、遅延
例外ビットがセットされている場合には、遅延例外を生
成するステップと、例外命令を打ち切り、制御を例外ハンドラへ移すステッ
プと、を有する方法。
【請求項２】許請項１に記載のスーパースカラまたはＶ
ＬＩＷプロセッサにおいてメモリ操作を順序替えする方
法であって、さらに、前記デコードされた命令が非プログラム順序ロード、ス
トア、又はコミット命令以外であるかどうかを判別する
ステップと、該命令によって用いられたすべてのソース・レジスタの
ための前記遅延例外ビットをチェックし、任意の遅延例
外ビットがセットされている場合には、目的レジスター
の対応する遅延例外ビットをセットするステップと、を
有する方法。
【請求項３】メモリ操作を順序替えすることのできるス
ーパースカラまたはＶＬＩＷプロセッサであって、前記プロセッサによって発行される命令をデコードする
ためのデコーダと、各々が特殊レジスタとしてアクセス可能な遅延例外ビッ
トを有する複数のレジスタと、デコードされた命令が非プログラム順序ロード命令であ
るかどうかを判別し、そうであれば、該非プログラム順
序ロード命令が例外を生成するかどうかを判別する機能
的手段であって、例外を生成する非プログラム順序ロー
ド命令について前記ロード命令の目的レジスタに関連す
る遅延例外ビットをセットする機能的手段と、例外を生成しない非プログラム順序ロード命令のメモリ
・アドレスを保管するためのアドレス比較器であって、
保管されたメモリ・アドレスのためにセットされる有効
ビットを有するアドレス比較器と、ただし、前記機能的手段は、デコードされた命令がストア操作で
あるかどうかを判別し、前記アドレス比較器は、デコードされたストア命令によ
って参照されたメモリ・アドレスの範囲を前記アドレス
比較器の中のすべてのエントリと比較し、前記アドレス
比較器の中の一致する各エントリについて、その対応す
るエントリの有効ビットを無効にセットし、前記機能的手段は、デコードされた命令がコミット操作
であるかどうかを判別し、該デコードされたコミット操
作のソース・レジスタに関連するアドレス比較器エント
リの前記有効ビットをチェックし前記有効ビットが無効
にセットされている場合には遅延例外を生成し、また同
時に、前記コミット操作のソースレジスタの遅延例外ビ
ットをチェックし、遅延例外ビットがセットされている
場合には、遅延例外を生成して例外命令を打ち切り、例外命令が打ち切られるときに回復コードを実行する例
外ハンドラーし、を有するスーパースカラまたはＶＬＩ
Ｗプロセッサ。