JP2505086B2

JP2505086B2 - アドレス生成機構及びデ―タの事前取り出し方法

Info

Publication number: JP2505086B2
Application number: JP4065258A
Authority: JP
Inventors: ジャムシェード・ホルマズディヤール・ミールザー; スチーヴン・ウェイン・ホワイト
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1991-04-15
Filing date: 1992-03-23
Publication date: 1996-06-05
Anticipated expiration: 2011-06-05
Also published as: US5357618A; JPH0588888A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、全般的には、中央演算
処理装置（ＣＰＵ）の性能向上のためにキャッシュ記憶
装置を使用するデータ処理システムに関し、具体的に
は、特にプログラム・ループ用に、データの事前取り出
しを助けるための「ストライド・レジスタ」の使用に関
する。

【０００２】

【従来の技術】コンピュータ・システムの性能は、記憶
アクセスの平均時間に極端に依存する。数世代の計算機
で、平均メモリ待ち時間を許容できる水準まで減少させ
るために、キャッシュ記憶装置システムが使用されてき
た。キャッシュ・システムでの平均メモリ待ち時間は、
キャッシュ・アクセス時間とアクセスがキャッシュ内で
発見される（ヒット）割合の積と、「キャッシュ外」ア
クセス時間とアクセスがキャッシュ内で発見されない
（ミス）割合の積との和として表せる。ヒットの場合と
ミスの場合のアクセス時間の間に大きな相違があり、時
として１０倍以上にもなるので、アクセスがミスになる
割合が小さくても、「キャッシュ外」アクセス時間の効
果が平均メモリ待ち時間を支配することが起こり得る。
キャッシュ・ヒット率を９７％ないし９９％に向上させ
ることができるならば、２０％ないし４０％程度の実質
的な性能向上をもたらすことができる。ヒット率を向上
させようとする努力の中で、以前のヒット／ミス情報、
アクセス・パターンなどに基づいてキャッシュ行を事前
取り出ししようとする多くの異なる手法が記載されてき
た。

【０００３】キャッシュはしばしば使用者にとって完全
に透過であるので、ハードウェアは、プログラムの種類
や、現命令がループ内のコードに対して生成されたか否
か（これは、特定のアクセス・パターンが繰り返されそ
うかどうかに関係がある）、将来の命令が所与のキャッ
シュ行内のデータを参照するか否かをまったく知らず
に、事前取り出し予測を行わなければならない。コード
の実行中には、ハードウェアによるループの再構築、特
に繰り返し回数の再構築は、そのループが完了するまで
は困難である。

【０００４】とはいえ、正確にデータを事前取り出しす
る試みは、利益をもたらし得る。スミス（A. J. Smit
h）は、トレース駆動のシミュレーションを通じて、
「超高速コンピュータですべてのメモリ参照を事前取り
出しすると、実効ＣＰＵ速度を１０％ないし２５％向上
させることが可能である」ことを発見し、"Sequentialp
rogram prefetching in memory hierarchies", IEEE Co
mputer, 11, 12 （１９７８年１２月）, pp. 7-21で報
告した。しかしスミスは、「次の逐次（仮想）アドレ
ス」を含む行の事前取り出しだけに関心を持っていた。
ギンデール（J. D. Gindele）は、"Buffer block prefe
tching method",IBM TechnicalDisclosure Bulletin,2
0,2 （１９７７年７月）, pp. 696-697で、「事前取り
出しを用いると、事前取り出しを行わないキャッシュ・
バッファの僅か１／２ないし１／４の容量のキャッシュ
・バッファを用いて、同等のヒット率を達成することが
できる」と述べた。ギンデールの方法は、次の逐次キャ
ッシュ行が、事前取り出しすべき正しい行である場合に
はうまく働いた。連続した要素が、線形アドレス空間内
で非常に隔たっている時には、逐次アドレスを事前取り
出しすると、プロセッサが絶対に参照しないであろうデ
ータによってキャッシュが汚染されるのみならず、プロ
セッサが必要とする行が絶対に事前取り出しされない。
ほとんどすべての事前取り出し方式では、事前取り出し
すべき正しい行が、単に次の逐次行であると仮定されて
いる。その例外の１つが、ポメレーン（J. H.Pomeren
e）他によって、"Displacement lookahead buffer", IB
M TechnicalDisclosure Bulletin, 22, 11 （１９８０
年４月）, p. 5182で報告されている。

【０００５】多くの科学技術アプリケーションでは、ほ
とんどの時間がループに費やされる。ループ時間の多く
は、しばしば、入れ子式ループ内で費やされ、入れ子式
ループの多くは、多次元アレイを利用している。多次元
アレイの内部記憶表現では、ＦＯＲＴＲＡＮで使用され
るものと同様の１列ごとのマッピングが仮定されてい
る。内側のループで列をステップダウンする場合、結果
的に「ストライド１」のアクセス（記憶域内で隣接する
要素のアクセス）が生ずる。ほとんどのキャッシュ設計
では、１つの要素をキャッシュ内に取り出す時に１行
（または連続する要素のグループ）が取り出されるの
で、この場合にうまく動作する。その行に対する最初の
アクセスでミスが発生するかもしれないが、次の複数の
アクセスではヒットが保証される。

【０００６】内側ループが行間を移動する時には、スト
ライドＮのアクセスが発生する。連続的に参照されるア
ドレス間の距離はＮワードである。一般に、Ｎは、１行
中の取り出される要素の数よりも大きい。したがって、
次の行（外側ループの将来の繰り返し）で使用されるの
に十分な長さのデータがキャッシュ内に残っていない限
り、おそらく要求ごとにミスが発生し、性能が低下す
る。ＡＤＩ法など、科学技術プログラムで使用される数
値解法に、複数の方向にデータを掃引するものがある。
注意深くコーディングしないと、大きなアレイがキャッ
シュを「フラッシュ」し、再使用ができなくなる。各ア
クセスごとにミスが発生し、そのために、プロセッサが
データを待って遊休状態になっている時間が増大する。
キャッシュ行を事前取り出しすることができ、その結
果、取り出された行をループ内の他の計算とオーバーラ
ップさせることができるならば、この性能低下の量を減
少させることが可能である。

【０００７】用語「ストライド」は、上記では科学アプ
リケーションに関して述べたが、本発明は、計算属性よ
りもむしろ記憶参照パターンを特徴とする問題の解決を
目指したものである。たとえば、本発明から利益を得る
であろう他の潜在的な候補としては、１組の固定長レコ
ードのそれぞれの所与のフィールドにアクセスする、デ
ータベースや給与支払簿処理の領域のアプリケーション
の一部分が含まれる。これらは、レコード長と同じスト
ライドによるアクセスとなる。

【０００８】

【発明が解決しようとする課題】したがって、本発明の
目的は、１のストライド、Ｎのストライド、またはスト
ライド値の組み合わせによるループ用の正しい事前取り
出し行を正確に決定するための技法を提供することであ
る。

【０００９】本発明のもう１つの目的は、「キャッシュ
・フラッシュ」を避けるために「キャッシュ・バイパ
ス」をいつ使用しなければならないかを正確に決定する
機構を提供することである。

【００１０】

【課題を解決するための手段】本発明によれば、事前取
り出しを助けるためのストライド・レジスタが設けられ
る。コンパイラは、新規の命令"MOVE GPR TO STRIDE RE
GISTER"を使用して、（現在の計算機でアドレス増分と
して使用される）ループに入る前に、「計算されたスト
ライド値」を、そのストライド値だけ増分されるインデ
ックス・レジスタに関連する新規のストライド・レジス
タに挿入する。このループの末尾では、第２の新規命
令"CLEAR STRIDE REGISTER SET"を使用して、すべての
ストライド・レジスタに０の値を置き、ほとんど使用さ
れないであろうデータの事前取り出しを抑制する。０の
値は事前取り出しを抑制する。したがって、これらの新
規命令を含まないコードは、ストライド・レジスタを有
さない計算機上と完全に同様に動作する。逆方向の互換
性も提供される。ストライド・レジスタをサポートしな
いモデルでは、新規命令は単に「無処理」として取り扱
われる。これらのレジスタ内の情報は、性能のために使
用され、機能上の影響がないので、これらのレジスタを
保存または復元する必要はない。

【００１１】ストライド・レジスタ内の非０の値は、事
前取り出しがもっとも意味を持つループの実行を明瞭に
マークする。また、この値は、正しい事前取り出しアド
レスの決定に使用される、現アドレスからの正しいオフ
セットを明瞭に示す。このオフセットは、記憶アドレス
の指定に使用される特定のインデックス・レジスタに依
存するので、複数のストライドを有するループのデータ
を、正しく事前取り出しすることができる。

【００１２】

【実施例】本発明は、コンパイラがプログラムのループ
構造とアクセス・パターンについて最もよく知っている
という認識に基づいている。しばしば、ストライド値
は、ループ内でアドレス増分として使用するために、ル
ープの外側で計算される。本発明は、１組の「ストライ
ド・レジスタ」と、これらを修正する２つの命令を使用
する。本発明の好ましい実施例では、ストライド・レジ
スタと汎用レジスタの間に１対１の関係がある。これら
のストライド・レジスタは、アーキテクチャ内に現在あ
るどのレジスタからも完全に独立している。

【００１３】ここで図面、具体的には図１を参照する
と、それぞれ入出力サブシステム１２に接続され、主記
憶装置１４と通信する、複数の中央演算処理装置（ＣＰ
Ｕ）１０を含む、多重プロセッサ・システムが示されて
いる。入出力サブシステム１２も、主記憶装置１４と通
信し、直接アクセス記憶装置（ＤＡＳＤ）１６のストリ
ングが連結される複数の入出力経路を有する。このアー
キテクチャは、ＩＢＭシステム／３７０（Ｓ／３７０）
ファミリーのコンピュータをはじめとする現代のメイン
・フレーム・コンピュータの典型である。

【００１４】図１の上側のＣＰＵ１０のブロックに詳細
に示すように、各ＣＰＵは、演算論理機構および関連レ
ジスタ（図示せず）に加えて、キャッシュ記憶装置１
８、命令デコーダ２０およびアドレス生成ブロック２２
を含む。当技術分野で十分に理解されているように、キ
ャッシュ記憶装置１８は、ＤＡＳＤ１６からロードされ
る主記憶装置１４よりも高速なメモリである。これらの
記憶段が、記憶階層を形成する。記憶階層の段は、下位
のものほど速度が低下し、コストが低下し、容量が増大
する。主記憶装置は、プログラム命令セットとデータ・
オブジェクトを記憶し、それらはＣＰＵ内のアドレス生
成機構によって参照される。プログラム命令セットの一
部と最も最近にアクセスされたデータは、主記憶装置１
４よりはるかに高速にアクセスできるキャッシュ記憶装
置１８内に置かれる。しかし、次にアクセスすべき命令
またはデータ・ワードがキャッシュ記憶装置１８内で見
つからない（ミス）場合には、これを主記憶装置１４か
らアクセスしなければならない。

【００１５】アドレス生成ブロック２２は、命令デコー
ダ２０からのアドレス情報に従って、次のデータ・オブ
ジェクトのアドレスを生成する機構である。このブロッ
クは、複数の汎用レジスタ（ＧＰＲ）２６と１つの加算
器２８を備える。これらは、データ記憶参照アドレスの
生成に使用される。現代の大部分のメイン・フレーム・
コンピュータで典型的であるように、命令デコーダ２０
によって復号されるアドレスは、その命令内のビット・
フィールドによって指定される情報から形成される仮想
アドレスである。ＩＢＭＳ／３７０の場合、こうした
フィールドとして、変位（Ｄ）フィールド、基底（Ｂ）
フィールドおよびインデックス（Ｘ）フィールドがあ
る。ＢフィールドとＸフィールドは、それぞれ１つの汎
用レジスタを指定する。指定された汎用レジスタの内容
と、命令の変位フィールドの値を足し合わせると、記憶
参照用の仮想アドレスが形成される。特殊な場合とし
て、ＧＰＲ０を指定すると、ＧＰＲ０の内容ではなく０
の値が得られる。

【００１６】具体的に言うと、あるパターンに従って
（ストライドを用いて）データ・オブジェクトが参照さ
れるループでは、一般に、命令のＢフィールドで指定さ
れる単一の基底レジスタを使用して、たとえば基本コー
ド・モジュール内でのアドレス指定能力を提供する。イ
ンデックス・レジスタ（すなわち、命令のＸフィールド
で指定された汎用レジスタ）の内容は、基底レジスタ内
のポインタに対して相対的にオブジェクトを指すのに使
用される。ループ内の命令には、データをアドレスする
のにインデックス・レジスタを使用するものもあり、次
の繰り返しのためのデータを指すようにインデックス・
レジスタを更新するものもある。１回の繰り返し用の１
組の参照の間隔を、命令の変位フィールドに含まれる数
のビットで表現することができ、かつその間隔が繰り返
しの間に変化しないならば、基底とインデックスの対が
与えられているものとすると、変位フィールドを使用し
て、様々な変位値を有する複数の命令が、複数のオブジ
ェクトまたは共通のオブジェクトの複数の要素を参照で
きるようになる。

【００１７】一般にそうであるように、所与のインデッ
クス・レジスタが、ループを１回繰り返すごとに１回更
新される場合には、そのループ内の記憶参照命令のそれ
ぞれについて、後続の繰り返しで生成されるアドレス
は、現在の繰り返しのために生成されたアドレスと、更
新中にインデックス・レジスタに加算される量との和に
なる。定義上は、このようなループ内であるストライド
で参照されるデータ・オブジェクトに関し、インデック
ス・レジスタの更新に使用される値が、ストライドであ
り、そのループに入る前に知られるようになる。具体的
に言うと、ストライド値またはインデックス・レジスタ
増分は、通常は、インデックス・レジスタ更新の際に使
用するため、別の汎用レジスタに保存される。所与のル
ープ内に複数のストライド値が存在する場合であって
も、所与のどんなインデックス・レジスタに対しても所
与のストライド値用汎用レジスタが存在する。単一のス
トライド値用汎用レジスタによって更新されるインデッ
クス・レジスタが、複数存在することもあり得る。共通
のストライドを用いて複数のオブジェクトを参照する時
には、しばしばそうなる。

【００１８】上記は、たとえばＩＢＭシステム／３７０
ファミリーのメイン・フレーム・コンピュータで現在実
施されているハードウェアを表している。本発明では、
このハードウェアに、ストライド・レジスタ３０および
第２の加算器３２を追加する。ストライド・レジスタ３
０は、命令デコーダ２０内で第１の新規命令"MOVEGPR T
O STRIDE REGISTER"が復号されるのに応答してロードさ
れる。ストライド・レジスタにロードされる値は、対応
する汎用レジスタをインデックス・レジスタとして使用
して行われる記憶参照に関連するストライド値である。
選択されたストライド・レジスタ３０からのストライド
値と、加算器２８によって生成されるデータ記憶参照ア
ドレスとが、加算器３２内で加算されて、事前取り出し
アドレスが得られる。ストライド・レジスタ値が非０の
場合には、データがまだキャッシュ記憶装置１８内に存
在していなければ、そのデータが主記憶装置１４からキ
ャッシュ記憶装置１８へ事前取り出しされる。第２の新
規命令"CLEAR STRIDEREGISTER SET"は、すべてのストラ
イド・レジスタに０の値を置き、これによってそれ以上
のデータの事前取り出しを抑制するのに使用される。

【００１９】本発明によるストライド・レジスタのハー
ドウェアは、コンパイルされたプログラム命令セットと
共働して、メモリの連続行にあってもなくてもよい連続
する要素の正しい事前取り出しを可能にするが、これ
は、通常は事前取り出しに付随する性能低下、すなわち
追加のメモリ活動およびキャッシュ汚染を伴わずに達成
される。さらに、予想されるデータ再使用に関するコン
パイラの知識をキャッシュが使用して、オブジェクトご
とにデータをキャッシュに入れるべきか否かを判定する
ことができる。本発明のストライド・レジスタは、主
に、規則的なパターン（一定のストライド）でデータを
ステップ・スルーするプログラム、およびＦＯＲＴＲＡ
Ｎ、ＰＬ／１およびＰａｓｃａｌを含む典型的なコンパ
イラに利益をもたらす。さらに、関係データベースなど
のアプリケーション・プログラムが、本発明を使用する
と有利になる可能性がある。ストライド・レジスタに関
するコンパイラの動作を説明するため、ＦＯＲＴＲＡＮ
コンパイラを例に挙げる。

【００２０】ＦＯＲＴＲＡＮコンパイラは現在、本発明
によるストライド・レジスタの利用に必要な情報を生成
（および利用）している。これは、既知の領域に少数の
命令を挿入するというだけの問題である。現在、図２に
示すように、コンパイラは、ループの先頭と末尾を認識
している。一定のストライドでアドレスされるオブジェ
クトでは、１対の値が決定される。第１の値は、最初の
繰り返しで使用されるアドレス（ポインタ）であり、第
２の値は、オフセットまたはストライドである。各スト
ライド値に対して、１つのレジスタが割り当てられる。
同一のストライドでアドレスされるオブジェクトは、共
通のレジスタを使用することができる。このレジスタ割
り当ては、コンパイル時に行われ、アドレスとストライ
ド値を決定するコードがループの前に生成され、適当な
ストライド値を加算することによってアドレス・ポイン
タを更新するコードがループ内（通常は末尾）で生成さ
れる。ループの繰り返しごとに、レジスタのうちの１つ
（図２のＧＰＲ２）がインデックス・レジスタとして使
用され、このレジスタを、基底レジスタおよび変位（図
示せず）と共に使用して、要求されたデータ要素用の記
憶域にアクセスするための仮想アドレスを生成する。本
発明のキー・ポイントは、（１）所与の命令に対して、
それぞれの繰り返しで同一のインデックス・レジスタを
使用すること、（２）所与のインデックス・レジスタ
は、１回の繰り返しについて１回だけ更新されること、
（３）所与のインデックス・レジスタの更新に使用され
る量は、そのループの１組の繰り返しについて一定であ
ることである。この３つの条件がすべて成立すると、所
与のストライド値（この場合のＧＰＲ２の内容）によっ
て更新されるインデックス・レジスタに、ストライド値
（図２のＧＰＲ７の内容）を関連づけることが可能にな
る。

【００２１】図３には、コンパイラの小変更が２つ、星
印で示されている。これらは、ストライド・レジスタの
正確な事前取り出し能力を利用するのに必要な変更であ
る。その内容を以下に示す。ループの前に、"MOVE GPR
TOSTRIDE REGISTER"命令を挿入して、ストライド値を保
持している各汎用レジスタの内容を、そのストライド値
を使用するインデックス・レジスタに関連するストライ
ド・レジスタにコピーしなければならない。こうする
と、汎用レジスタ（インデックス・レジスタとして使用
される）とストライド値（図２および図３の汎用レジス
タ７にセーブされる）の間に束縛（binding）が確立さ
れることによって、事前取り出しが可能になる。ルー
プの直後に、命令"CLEAR STRIDE REGISTER SET"また
は、"０"のソースを伴う"MOVE GPR TO STRIDE REGISTE
R"命令のシーケンスを挿入して、ストライド・レジスタ
をクリアし、したがって事前取り出しを禁止しなければ
ならない。ストライド・レジスタの性質から、データ・
オブジェクトと、インデックス・レジスタとして使用し
ようとする汎用レジスタの間に１対１の連関がある時に
は、ストライド・レジスタを使用するためにレジスタ割
り当てアルゴリズムを変更する必要はない。汎用レジス
タの数が限られているために、複数のオブジェクトに対
して単一の汎用レジスタをインデックス・レジスタとし
て使用せざるを得ない時には、同じストライドを使用し
てアクセスされるオブジェクトが、共通のインデックス
用汎用レジスタまたは汎用レジスタの組に割り当てられ
るようにするのが、適当なレジスタ割り当てであろう。
実施上の注意として、意図しない事前取り出しを避ける
ため、コンテキスト切り替えの間にストライド・レジス
タを０にすることができる。

【００２２】コンパイラ技術は、ストライド・レジスタ
を使用して、事前取り出しによるキャッシュ性能の向上
に必要な情報をハードウェアに提供するように簡単に適
合させることができるが、ストライド・レジスタの第２
の主要な能力、すなわち、コンパイラが検出したデータ
再使用の情報をハードウェアに渡す能力を利用するため
には、より困難な１組のコンパイラ変更が必要である。
図４に示した擬似コードは、キャッシュ・フラッシュの
結果としてキャッシュ内のデータの再使用率が低下した
状況を示す。文"IF（SUM.GT.MAX）MAX = SUM"が、コン
パイラによるループの交換を困難にしている。したがっ
て、Ｉループの繰り返しごとに、行列Ａの１００００
（１００×１００）個の要素が参照される。（Ｉループ
の所与の繰り返しで）参照される要素は、２００（５０
×４）バイトずつ離れているので、これらは別個のキャ
ッシュ行にある可能性が高い。所与のＪ値とＫ値の対の
ために取り出されたキャッシュ行は、通常は、同じＪと
Ｋの値に対して、次のＩループの繰り返しで使用される
要素を含んでいる。というのは、Ａ（Ｉ，Ｊ，Ｋ）とＡ
（Ｉ＋１，Ｊ，Ｋ）が、記憶域内で隣接しているからで
ある。

【００２３】現在のキャッシュのほとんどは、１０００
０の別個の行をセーブできるだけの容量をもたない。し
たがって、Ｉループの所与の繰り返しの末尾近くでデー
タを取り込むと、その繰り返しの先頭で取り出され、次
の繰り返しで使用されるはずのデータの大半がフラッシ
ュされる。したがって、任意の所与のキャッシュ行に取
り出されたすべてのデータが、Ｉループの他の繰り返し
で参照されるにもかかわらず、基本的にすべてのアクセ
スでキャッシュ・ミスが発生する。この場合、用語「ミ
ス」は、処理装置が待機しなければならないかどうかに
は関わらず、メモリからキャッシュへの転送が必要なこ
とを指す。

【００２４】ストライド・レジスタは、行列Ａに関する
このアクセスごとのミスを防止しないが、２つの形で助
けになる。上述したように、キャッシュ・ミスから生ず
る性能低下の量は、事前取り出しをループ内の他の計算
とオーバーラップできる場合には減少させることができ
る。この場合、ミス１回あたりのペナルティが減少する
が、メモリからキャッシュへの実際の転送の回数は、同
じまたはわずかに増加する。第２の改善の源泉は、行列
Ａの参照を満足するために取り込まれる行のために再使
用可能なデータがキャッシュから追い出されるという不
要な置換を抑制することによって、メモリからキャッシ
ュへの転送の総数を実際に削減することからもたらされ
る。

【００２５】完全にキャッシュ内に収まる追加のオブジ
ェクトがこのループ内で参照される場合、たとえば、Ｂ
（１，Ｉ）、Ｂ（２，Ｉ）などとして参照されるＢ（１
０，５０）のようなアレイを検討してみよう。これら
は、行列Ａに対する参照とその結果生じるミスがこれら
のオブジェクトをフラッシュしないならば、キャッシュ
内に留まることができるはずである。行列Ａの参照を満
足するために取り込まれる大部分のキャッシュ行では、
ただ１つの要素だけしか使用されないので、その唯一の
要素だけ（１行ではなく）を取り出すことができ、使用
されない行の残りでその要素がキャッシュを汚染しない
ならば、好ましいものとなる。

【００２６】規約により、ストライド・レジスタの上位
ビットまたは最大有効ビット（ＭＳＢ）で、「キャッシ
ュ能力（cacheability）」を指定することができる。た
とえば、ＭＳＢ位置の"１"は、事前取り出し中のデータ
項目に続くデータのブロックをキャッシュに入力するこ
とを示し、"０"は、キャッシュ化しない、すなわち、１
データ・ワードだけを取り込むことを示す。この手順に
は、メモリの需要及び切り替えの需要を減らすと同時
に、キャッシュ汚染を減らし、頻繁に再利用されるデー
タをキャッシュに残せるという長所がある。

【００２７】本発明は、既存の計算機に対する逆方向の
互換性を有する。ストライド・レジスタ内の情報を使用
するキャッシュの事前取り出しとバイパスは、性能上の
利益をもたらすが、プログラムの機能を変更しない。し
たがって、この機能を有さないローエンド・マシンは、
ストライド・レジスタ命令を「無処理」として扱うこと
によって、これらの命令を無視することができる。ハイ
エンド・マシンは、上記に従ってハードウェアを実施す
ることができる。ミッドレンジ・マシンは、一部の汎用
レジスタに関してこの機構をサポートすることができ
る。たとえば、インデックス・レジスタが所与の組（た
とえば、汎用レジスタ・セットの上側１／４）に含まれ
る場合のアクセスの事前取り出しまたはバイパスだけを
サポートすることを設計者が選択する場合には、設計者
は、一部のストライド・レジスタ（たとえば、システム
／３７０の汎用レジスタ１６個の場合には４個）だけを
実施し、インデックス・レジスタ・フィールドの上位２
ビットを検査して、ストライド・レジスタを使用するか
否かを決定することが可能である。インデックス・レジ
スタ・フィールドの残りのビットは、ストライド・レジ
スタの選択に使用できる。

【００２８】共通のストライド値を検討することによっ
て、さらに単純にすることができる。キャッシュを有す
る計算機では、多くのプログラマは、アクセスの大半を
ストライド１にしようと試みる。残りのストライド値
は、通常は小さな値である。１のストライドが共通にな
るが、これは１ビットで表現できる。したがって、スト
ライド・レジスタの多くが１ビットまたは少数のビット
だけを含む一方、他のストライド・レジスタも、２０ビ
ットしかもたないことがあり得る（２０ビットを用いる
と、１ＭＢまでのストライドが可能になる）。Ｎビット
を実施するレジスタでは、新規にロードされる値の下位
Ｎビット以外のすべてのビットの論理和を取って、関連
するストライド・レジスタの容量より大きな値を知らせ
る信号を生成できる。この信号の補数を、下位Ｎビット
と１ビットずつ論理積を取ると、指定されたストライド
がレジスタの容量を越えた時に０の値を提供することが
できる。したがって、特定のストライド・レジスタの容
量を越えるストライド値を指定すると、単にそのストラ
イド・レジスタが０にリセットされることになる。（事
前取り出しアドレスを計算するために）Ｎビットのスト
ライド・レジスタを読み取る時には、暗黙の上位ビット
として０が供給される。

【００２９】ストライド・レジスタとそれに関連する機
能を利用しようとするコンパイラまたはプログラマは、
対応するストライド・レジスタがあるオブジェクトのス
トライドを収容するのに十分となるように、そのオブジ
ェクトをアドレスするためのインデックス・レジスタを
（レジスタ割り振りの間に）選択するだけでよい。スト
ライド・レジスタは、性能向上の機会は提供するが機能
は提供しないので、ストライド・レジスタの特定の実施
態様用に作成されたプログラムは、より多数またはより
少数のストライド・レジスタをサポートする計算機上で
も同じ（時間依存の）結果をもたらす。

【００３０】上述の「ソフトウェア管理式」ストライド
・レジスタに非常に近いものが、図５に示すハードウェ
ア管理式の設計である。キャッシュ能力ビット（または
キャッシュ・バイパス）機能は、この実施態様ではサポ
ートされていない。しかしながら、連続したアクセス
（命令のインデックス・レジスタ・フィールド内で所与
の汎用レジスタが指定される）用のストライド・パター
ンが存在するループでは、ハードウェアがこのようなパ
ターンを検出することができる。連続した記憶アクセス
（所与のインデックス・レジスタを必要とする）に対す
るアドレスの相違は、ハードウェア管理式のストライド
・レジスタ内で判定し、そこにセーブすることができ
る。

【００３１】図５で、図１に示した参照番号と同じ番号
は、図１に示したものと同じ構造を示す。図５に示した
汎用レジスタ、加算器およびストライド・レジスタは、
基本的に図１に示したものと同様に機能する。事前取り
出しを抑止するためにレジスタを０にする（すなわちリ
セット）命令は使用しないので、コンパレータ４０を追
加して、パターンが存在しない時の事前取り出しを抑止
する。減算ユニット４２および１組の「前アドレス（pr
evious address）」・レジスタ４４が、ストライド・パ
ターンの決定を可能にするために追加されている。記憶
アドレスの生成時には、Ｘフィールドを使用して前アド
レス・レジスタ４４をアドレスし、現在インデックス・
レジスタとして使用されている汎用レジスタに対応する
前アドレス・レジスタを選択する。所与のアドレス生成
サイクルの終りに、主記憶装置にアクセスするために生
成されたアドレスが、選択された前アドレス・レジスタ
４４にセーブされる。各アドレス生成サイクルの始め
に、選択された前アドレス・レジスタの内容（現インデ
ックス・レジスタを使用して生成された前の記憶アドレ
ス）が読み取られる。この値と現アドレスが、減算ユニ
ット４２に送られる。この差は、パターンが存在する場
合、ストライドを表す。

【００３２】この減算ユニット４２からの「予測（pred
icted）」ストライド値を、現在選択されているストラ
イド・レジスタ３０の内容と共に使用して、事前取り出
しを行うか否かを決定する。現在選択されているストラ
イド・レジスタ３０の値が予測ストライド値と一致する
場合には、事前取り出しが行われる。現在選択されてい
るストライド・レジスタ３０の内容が予測ストライド値
と一致しない場合には、事前取り出しは行われない。ど
ちらの場合でも、ソフトウェア管理式の実施態様の場合
のように"MOVE GPR TO STRIDE REGISTER"を使用してス
トライド値をロードするのではなく、予測ストライド値
が、選択されたストライド・レジスタ３０にロードされ
る。したがって、事前取り出しが発生するためには、２
つ以上の連続したストライド予測（すなわち、ストライ
ドは２つのアドレスの差であるので、３つ以上の連続し
たアドレス）が、所与のインデックス・レジスタを必要
とするアクセスに対してパターンが存在することを示さ
なければならない。このパターンが破られたと判定され
たときは、パターンが再び確立されるまで、事前取り出
しが抑止される。ストライド予測と事前取り出しの動作
は、記憶アドレスの指定に使用される特定のインデック
ス・レジスタに依存するので、複数のストライドを有す
るループ用のデータを、正しく事前取り出しすることが
できる。

【００３３】ソフトウェア管理式の解決法に勝るこの手
法の主な長所は、ユーザにとって透過である点である。
一方、この手法の主な短所は、ループ内の２つの命令が
同一のインデックス・レジスタ（汎用レジスタ）を（異
なる変位を用いて）使用する場合に、ハードウェアにと
っては、所与のインデックス・レジスタに対して、アド
レスの擬似ランダム・パターンが生成されているように
見えることである。一般の場合には、同一のインデック
ス・レジスタを使用する単一のループ内の記憶参照の数
には制限がないので、特にそうである。

【００３４】

【図面の簡単な説明】

【図１】本発明によるソフトウェア管理式ストライド・
レジスタを使用する、多重プロセッサ・コンピュータ・
システムを示すブロック図である。

【図２】従来のコンパイラによって生成されるコードを
示す図である。

【図３】本発明によるストライド・レジスタを利用す
る、コンパイラによって生成されたコードを示す図であ
る。

【図４】再使用率の低い、キャッシュ・フラッシュ状況
を示す擬似コードを示す図である。

【図５】本発明のハードウェア管理式実施態様を示すブ
ロック図である。

【符号の説明】

１０中央演算処理装置（ＣＰＵ）１２入出力サブシステム１４主記憶装置１６直接アクセス記憶装置（ＤＡＳＤ）１８キャッシュ記憶装置２０命令デコーダ２２アドレス生成ブロック２６汎用レジスタ（汎用レジスタ）２８加算器３０ストライド・レジスタ３２加算器４０コンパレータ４２減算ユニット４４前アドレス・レジスタ

───────────────────────────────────────────────────── フロントページの続き (72)発明者スチーヴン・ウェイン・ホワイトアメリカ合衆国78750、テキサス州オースチン、ウェスターカーク・ドライブ 9104番地

Claims

(57)【特許請求の範囲】

【請求項１】中央演算処理装置によってアドレスされる
主記憶装置とキャッシュ記憶装置を含む記憶階層を有
し、前記中央演算処理装置が、前記キャッシュ記憶装置
に対するデータ記憶アドレスを生成するためのアドレス
生成機構を含む、コンピュータ・システムにおいて、前記アドレス生成機構から現アドレスを供給する手段
と、ストライド値を記憶するためのストライド・レジスタ手
段と、プログラム・ループの先頭に挿入された第１の命令に応
答して、前記ストライド・レジスタ手段に少なくとも１
つのストライド値をロードし、プログラム・ループの末
尾に挿入された第２の命令に応答して、前記ストライド
・レジスタ手段をクリアする制御手段と、前記ストライド・レジスタ手段に記憶された非０値に応
答して、前記ストライド値を前記現アドレスに加算し
て、前記主記憶装置に対する事前取り出しアドレスを生
成する加算手段とを備える、改良されたアドレス生成機構。
【請求項２】前記ストライド・レジスタ手段が、複数の
ストライド値を記憶するための複数のストライド・レジ
スタを含み、前記アドレス生成機構が、さらに、対応す
るストライド・レジスタと記憶参照命令を関連づける手
段を備えることを特徴とする、請求項１に記載のアドレ
ス生成機構。
【請求項３】中央演算処理装置によってアドレスされる
主記憶装置とキャッシュ記憶装置を含む記憶階層を有
し、前記中央演算処理装置が、前記キャッシュ記憶装置
に対するデータ記憶アドレスを生成するためのアドレス
生成機構を含む、コンピュータ・システムにおいて、前記アドレス生成機構から現アドレスを供給する手段
と、ストライド値を記憶するためのストライド・レジスタ手
段と、前記主記憶装置に対して生成されたアドレスを、アドレ
ス生成サイクルの終わりに記憶するための前アドレス・
レジスタ手段と、前記現アドレスから、前記前アドレス・レジスタ手段に
記憶された前アドレスを減算して、予測ストライド値を
生成する減算手段と、前記減算手段によって出力される非０値に応答して、前
記予測ストライド値を前記現アドレスに加算して、前記
主記憶装置に対する事前取り出しアドレスを生成する加
算手段と、前記減算手段によって出力される非０値を、前記ストラ
イド・レジスタ手段に記憶された値と比較して、一致し
た場合、事前取り出し許可信号を生成するコンパレータ
手段とを備える、改良されたアドレス生成機構。
【請求項４】中央演算処理装置によってアドレスされる
主記憶装置とキャッシュ記憶装置を含む記憶階層を有
し、前記中央演算処理装置が、前記キャッシュ記憶装置
に対するデータ記憶アドレスを生成するためのアドレス
生成機構を含む、コンピュータ・システムにおいて、前記アドレス生成機構から現アドレスを供給するステッ
プと、ストライド値を記憶するステップと、前記主記憶装置に対して生成されたアドレスを、アドレ
ス生成サイクルの終わりに記憶するステップと、前記現アドレスから前アドレスを減算して、予測ストラ
イド値を生成するステップと、前記予測ストライド値を前記現アドレスに加算して、前
記主記憶装置に対する事前取り出しアドレスを生成する
ステップと、前記予測ストライド値を記憶されたストライド値と比較
して、一致した場合に事前取り出し許可信号を生成する
ステップとを含む、前記キャッシュ記憶装置内にデータを事前取り
出しするための方法。