JP2002014868A

JP2002014868A - メモリ参照動作検出機構を有するマイクロプロセッサおよびコンパイル方法

Info

Publication number: JP2002014868A
Application number: JP2000200088A
Authority: JP
Inventors: Hiroyasu Nishiyama; 博泰西山
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2000-06-28
Filing date: 2000-06-28
Publication date: 2002-01-18
Also published as: US6775740B1

Abstract

(57)【要約】【課題】キャッシュミスなどのメモリ参照動作の結果を
より低いオーバヘッドでプログラムから利用可能とす
る。【解決手段】命令により参照されるデータがキャッシュ
３０４に存在するか否かが比較器１０３により判定され
る。メモリ参照動作の結果を取得する命令の実行時、比
較器１０３の出力が選択器１０５により選択されて演算
器１０６に与えられる。演算器では、命令で指定された
レジスタとの演算が行われ、その結果がメモリ参照動作
の結果としてレジスタファイル１０４内のレジスタに記
録される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、マイクロプロセッ
サおよびそのコンパイラに関する。さらに詳しくは、本
発明は、プログラムの実行時に、メモリの参照動作特性
に応じて、命令実行を動的に変更する機能を備えたマイ
クロプロセッサ、およびそのコンパイル方法に関する。

【０００２】

【従来の技術】最近のマイクロプロセッサは、命令レベ
ル並列性の向上、動作周波数の向上などにより、大幅に
性能が向上している。これに対して，主記憶の性能はそ
れほど向上していない。このため，キャッシュミス時の
主記憶参照サイクルがプログラムの性能を低下させる主
要な要因の１つとなっている。

【０００３】一般のマイクロプロセッサにおいて、キャ
ッシュメモリは、アプリケーションプログラムから透過
的に動作する。すなわち、キャッシュミスが発生したか
否かは、アプリケーションプログラムからは判断するこ
とができない。しかしながら、前述のように、キャッシ
ュミスなどのメモリ動作は、アプリケーションプログラ
ムの実行性能に大きな影響を与える。このため、実行時
の細かなメモリ参照動作に従ってアプリケーションプロ
グラムの実行を細かく制御することが望ましい。

【０００４】メモリ参照時におけるキャッシュミスの回
数などをアプリケーションプログラムから参照可能とす
る技術に、性能モニタ機能がある。例えば、文献「Pent
iumファミリーディベロッパーズマニュアル下巻 - アー
キテクチャとプログラミングマニュアル，Intel」に
は、キャッシュミスの回数などを特殊なレジスタ上でカ
ウントアップし、その値を参照する機能が開示されてい
る。同様な機能は、文献「Power PC ６０４ User's Gui
de, IBM Microerectronics and Motorola」においても
開示されている。

【０００５】これらの機能では，キャッシュミスなどの
発生をカウントアップするためのレジスタは、パフォー
マンスカウンタなど、特殊なレジスタとして定義されて
いる。個別のメモリ参照についてキャッシュミスなどが
発生したか否かを知るには、メモリ参照命令の前後で、
パフォーマンスカウンタを汎用レジスタに読み出し、そ
の値が変化したか否かを比較するなど、煩雑な処理が必
要とされる。

【０００６】このような問題に対処し、低いオーバヘッ
ドでメモリ参照時の個別の動作状態を簡単に参照するた
めの技術が、文献「M.Horowitz他, Informing Memory O
perations: Providing Memory Performance Feedback i
n Modern Processors, In Proceedings of the ２３rd
Annual International Symposium on Computer Archite
cture, １９９６」に開示されている。ここでは、メモ
リ参照動作の１つであるキャッシュミスが発生したか否
かを各メモリ参照命令毎に判定し、キャッシュミス時に
ハンドラコードに分岐するための技術が開示されてい
る。本文献によれば、あるメモリ参照によりキャッシュ
ミスが生じたか否かの監視を行うために、以下の３つの
方式が提案されている。

【０００７】(a)メモリ参照がキャッシュミスを生じた
場合、分岐条件コードを設定し、メモリ参照後にこの条
件コードを参照して条件分岐を行うコードを配置する。
この方式では、例えば、ロード命令を実行した際に、キ
ャッシュミスが生じたか否かを示すフラグが分岐フラグ
に格納される。続く命令で、分岐フラグを調べ、キャッ
シュミスが発生していればキャッシュミス時の処理を行
うルーチンが呼び出される。

【０００８】(b)メモリ参照がキャッシュヒットした場
合、メモリ参照の次の命令を無効化する。この方式で
は、例えば、ロード命令の後ろにキャッシュミス時の処
理を行うルーチンの呼び出し命令が挿入される。ロード
命令の実行時にキャッシュミスが生じなければ、続く呼
び出し命令の実行が抑止される。キャッシュミスが生じ
た場合には、呼び出し命令が実行され、キャッシュミス
時の処理を行うルーチンが実行される。

【０００９】(c)メモリ参照がキャッシュミスを発生し
た場合、例外を発生し、特殊レジスタに指定された例外
ハンドラルーチンに制御を移す。この方式では、例え
ば、キャッシュミスが生じた場合に実行すべきルーチン
（例外ハンドラルーチン）のアドレスが、特殊なレジス
タであるMHAR（Miss Handler Address Register）に予
め設定される。ロード命令の実行時に、キャッシュミス
が生じると、MHARに設定されたアドレスにある例外ハン
ドラルーチンが呼び出される。

【００１０】これらの方式において、キャッシュミス時
に実行されるルーチンでは、例えば、キャッシュミスの
回数をカウントするカウンタの値を加算する、といった
処理が行われる。

【００１１】

【発明が解決しようとする課題】上述した従来技術にお
いて説明した技術の内、方式(a)および(c)では、キャッ
シュミスを生じた場合に分岐が発生する。一般に、マイ
クロプロセッサは、分岐予測を行い、頻度が高いと予測
した１つの命令実行パスを予測的に実行するため、頻度
が低いと予測されたパスを実行する分岐命令は命令実行
にペナルティを生じる。

【００１２】一方、上述した方式(b)では、直前の命令
のヒット/ミスによって後続する命令を実行するか否か
が決定されるため、ハードウェア／ソフトウェアの複雑
化を招くという問題がある。

【００１３】また、上述した各方式は、メモリの参照と
その動作の検出が対になっているため、メモリ参照によ
るペナルティが常に生じることになる。従って、例え
ば、以前に発行したメモリ参照要求が完了したか否かを
メモリ参照を行わずに知ることができないという問題が
ある。

【００１４】

【課題を解決するための手段】上記課題を解決するため
に、本発明によるプロセッサは、演算に使われるデー
タ、または演算結果のデータを格納する少なくとも１つ
のレジスタを有するレジスタファイルと、メモリに格納
されたデータの一部の写しを保持するためのキャッシュ
メモリと、参照命令によりアクセスされるデータがキャ
ッシュメモリに存在するか否か判定するヒット／ミス判
定回路と、ヒット／ミス判定回路における判定結果とレ
ジスタファイルから読み出されたデータとを入力して所
定の演算を行う演算器とを有する。演算器による演算の
結果は、参照動作を表わす情報としてレジスタファイル
内のレジスタに格納される。

【００１５】本発明の好ましい態様において、プロセッ
サは、参照動作の結果をレジスタに取得する処理を伴う
参照命令を有する。

【００１６】本発明の他の観点によれば、入力されたプ
ログラムから計算機により理解可能なプログラムコード
を生成するプログラムのコンパイル方法において、入力
されたプログラムを解析し、解析結果に基づいて、キャ
ッシュミスの発生により処理の遅延が生じる可能性のあ
るプログラムの部分が抽出される。抽出された部分に含
まれるメモリ参照命令は、メモリ参照動作の結果を取得
する参照命令に変換され、取得されたメモリ参照動作の
結果に基づいて動的に実行する処理を選択するコードが
生成される。

【００１７】

【発明の実施の形態】以下、図面を参照しながら本発明
の実施形態について説明する。ただし、本発明は、以下
に説明する実施形態に限定されるわけではない。

【００１８】図１は、本発明が適用された計算機システ
ムの簡略化された構成例を示すブロック図である。

【００１９】図１において、プロセッサ３０１、及び主
記憶３０２が、バス３０３に接続されている。プロセッ
サ３０１は、バス３０３を介して主記憶３０２に保持さ
れたデータを参照する。なお、一般に、計算機システム
では、プロセッサや主記憶の他、キーボード、ディスプ
レイ、磁気ディスク装置などの周辺装置（Ｉ／Ｏ機
器）、及び／または、これら周辺装置を制御するための
コントローラなどが設けられるが、これらについては、
本発明と直接関係するものではなく、図示を省略してい
る。

【００２０】プロセッサ３０１は、レジスタファイル３
０６、キャッシュメモリ３０４、演算器３０５などを有
して構成される。プロセッサ３０１は、データを参照す
る場合、まずキャッシュメモリ３０４上に該当するデー
タが存在するか否か判定する。

【００２１】該当するデータがキャッシュメモリ３０４
に存在すれば、プロセッサ３０１は、キャッシュメモリ
３０４に格納されたデータを参照する。他方、該当する
データがキャッシュメモリ３０４に存在しなければ、プ
ロセッサ３０１は、主記憶３０２からデータをキャッシ
ュメモリ３０４に転送し、そのデータを参照する。

【００２２】キャッシュメモリ３０４にあるデータの参
照は、主記憶３０２にあるデータの参照よりも高速に行
える。このため、キャッシュメモリ３０４にデータを保
存しておくことで、次回以降、同一のデータに対する参
照が高速化されることになる。なお、主記憶３０２とプ
ロセッサ３０１の間に２次キャッシュなど下位レベルの
キャッシュメモリが設けられる場合もあるが、本発明の
実現に関しては本質的な制約ではなく、ここでは簡単の
ため上記のような構成を仮定して説明する。

【００２３】図２は、キャッシュメモリの参照動作の結
果を汎用レジスタ上に保存するためにプロセッサが有す
る機構部の一例を示す部分ブロック図である。

【００２４】参照対象アドレス１０１には、データ参照
時に、プロセッサにより参照されるデータの主記憶３０
２上でのアドレスが設定される。主記憶３０２のアドレ
スは、タグ部１０１１とインデックス部１０１２を含ん
でいる。

【００２５】キャッシュメモリ３０４は、インデックス
部１０１２により特定される複数のエントリを有してい
る。各エントリは、アドレスのタグ部の値を格納するタ
グ領域３０４１と、データを格納するデータ領域３０４
２とを含む。各エントリのデータ領域３０４２には、そ
のエントリが対応づけられたインデックス、及び、対応
するタグ領域３０４１に設定されているタグにより特定
される主記憶３０２の領域のデータが格納される。

【００２６】比較器１０３は、参照対象アドレス１０１
のタグ部１０１１の値と、インデックス部１０１２で選
択されたキャッシュメモリ３０４のエントリのタグ領域
３０４１に設定されている値とが入力される。これら両
者が一致する場合、比較器１０３は、キャッシュヒット
を示す信号を出力し、両者が異なる場合、キャッシュミ
スを示す信号を出力する。プロセッサ３０１では、比較
器１０３の出力に基づいてキャッシュメモリ３０４のデ
ータを参照するか、主記憶３０２からキャッシュメモリ
３０４にデータを転送するかを決定してデータの参照を
行う。これを実現するための技術は従来公知の技術を用
いることができるので、ここでは説明を省略する。

【００２７】本実施形態では、比較器１０３の出力は、
データの参照先を決定するために用いられる他に、選択
器１０５の一方の入力に与えられる。選択器１０５の他
方の入力には、レジスタファイル１０４から読み出され
た値が入力される。選択器１０５は、これらの入力を実
行される命令に応じて切り替え、選択的に出力する。つ
まり、後述するような、キャッシュメモリの参照動作の
結果を汎用レジスタ上に保存する処理の実行を伴うメモ
リの参照命令が実行されたときには、比較器１０３の出
力が選択されて、演算器１０６に入力される。

【００２８】演算器１０６は、選択器１０５から出力さ
れた値と、レジスタファイル１０４から読み出された値
との演算を実行する。演算器１０６による演算結果は、
レジスタファイル１０４内のレジスタに格納される。

【００２９】図３は、本実施形態において適用される参
照命令の一例であるロード命令の記述例を示す説明図で
ある。

【００３０】７０１は、参照結果、すなわち参照された
データを格納するレジスタ、７０２は、メモリ参照動作
の結果を格納するレジスタを表している。７０３は、メ
モリの参照動作の監視方式を示している。具体的には、
監視の方式が、例えば、１次キャッシュのキャッシュミ
ス（Ｌ１キャッシュミス）の監視であるとか、２次キャ
ッシュのキャッシュミス（Ｌ２キャッシュミス）の監視
であるといったことが示される。７０４は、メモリ参照
動作の結果の記録方式を表す。指定されたレジスタへの
代入、あるいは、指定されたレジスタへの累算などの記
録方式が指定される。

【００３１】図に示す命令が実行されると、配列Ａ
［ｉ］の値がレジスタ「ｒ０」にロード（格納）され
る。メモリ参照動作として、このロード命令の実行時の
Ｌ２キャッシュミスが監視され、その結果がレジスタ
「ｒ１」に累算される。具体的には、レジスタ「ｒ１」
の値がレジスタファイル１０４から読み出されて演算器
１０６に与えられる。また、この命令の実行時に、選択
器１０５は、比較器１０３の出力を演算器１０６に入力
する。ロード命令で参照されるデータがキャッシュメモ
リ３０４（ここでは、キャッシュメモリ３０４をＬ２キ
ャッシュであると考える）に存在しない場合、キャッシ
ュミスを示す値「１」とレジスタ「ｒ１」の値が演算器
１０６により加算される。この演算の結果として得られ
るキャッシュミスの累積値は、レジスタファイル１０４
内のレジスタ「ｒ１」に書き込まれる。

【００３２】なお、ここでは、キャッシュミスの累積値
を取得する場合について説明した。キャッシュミスの有
無を取得する場合は、演算器１０６に入力されるレジス
タファイルからの出力値として「０」を与えるか、ある
いは、比較器１０３の出力値をレジスタファイルに直接
書き込むようにすればよい。

【００３３】図４は、図３に例示したロード命令の命令
フォーマットの一例を示す説明図である。

【００３４】本実施形態におけるロード命令は、ロード
命令を意味する命令コード８０１、参照結果を格納する
レジスタを指定するコード８０２、メモリ参照動作の結
果を格納するレジスタを指定するコード８０３、監視対
象の動作を示すコード８０４、参照動作の結果の格納方
式を示すコード８０５、並びに、アドレス計算に使用す
るベース値及びオフセット値を保持するレジスタを指定
するコード８０６、８０７を有する。

【００３５】本実施形態では、メモリ参照命令として、
ロード命令を例に説明しているが、ストア命令、データ
プリフェッチ命令などの命令に関しても同様の命令を用
意することが可能である。また、ここで説明した命令の
機能のうち、実際にデータをロードする機能を除き、キ
ャッシュミスなどのメモリ参照動作のチェックのみを行
う命令を設けることも可能である。このような命令を用
いれば、ロード／ストアなどのメモリ参照動作を行うこ
となく、メモリ参照動作を行った場合にキャッシュミス
などが発生するか否かを検査することができる。メモリ
参照動作のチェックのみを行う命令を利用することによ
り、例えば、それ以前に行ったメモリ参照動作が完了し
たか否かを知ることができる。

【００３６】図５は、上述したメモリ参照動作の結果の
取得機能を適用したプログラムのコンパイラ生成コード
の一例を示すプログラムリストである。

【００３７】図５に例示するプログラムは、キャッシュ
ミスの回数が一定値を越えた場合にスレッドを切り替
え、メモリ参照レイテンシを隠蔽する処理を実現するプ
ログラムである。ここで、スレッドとは、独立に動作す
るプログラムの実行単位を表す。あるスレッドを実行中
に、キャッシュミスなど、完了までに長いサイクルを要
する事象が発生した場合、実行するスレッドを別のスレ
ッドに切り替えることにより、システム全体としてのプ
ログラムの実行スループットを向上させることができ
る。

【００３８】図６は、スレッドの切り替えによるスルー
プットの向上の様子を示すタイムチャートである。図６
は、２つのスレッドを実行中のスレッドの切り替えを行
わずに実行させた場合（方式１）と、キャッシュミスの
発生に応じてスレッドの切り替えを行った場合（方式
２）とを比較したものである。

【００３９】ここでは、第１のスレッドを実行中、ｔ１
の時点でキャッシュミスが発生することを仮定する。

【００４０】第１の方式では、そのままスレッドの切り
替えを行わずに、主記憶３０２からのデータがロードさ
れるのを待って、第１のスレッドの実行を継続する。そ
して、第１のスレッドの実行が完了時点ｔ３で、第２の
スレッドに切り替えられる。第２のスレッドは、ｔ５の
時点で実行を完了する。

【００４１】一方、方式２では、キャッシュミスが発生
したｔ１の時点で、実行されるスレッドが、第１のスレ
ッドから第２のスレッドに切り替えられる。第２のスレ
ッドの実行が完了すると（ｔ２）、第１のスレッドへの
切り替えが行われ、再び第１のスレッドが実行され、継
続する処理が実施される。第１のスレッドは、ｔ４で実
行を完了する。

【００４２】方式２では、キャッシュミスが発生した時
に、第２のスレッドへ実行が切り替えられるため、キャ
ッシュミスサイクルが隠蔽される。このため、２つのス
レッドの合計実行時間が、方式１に比べ短縮されている
ことがわかる。

【００４３】再び図５のプログラムの説明に戻る。

【００４４】図５に例示するプログラムでは、まず、ラ
イン５００で、カウンタとなるレジスタｍｃに値「０」
を設定する。ループ５０１中では、ロード命令、及びそ
のロード命令によりロードされたデータを用いた演算が
実行される。ロード命令として、上述したメモリ参照動
作の結果を取得するためのロード命令が用いられる。こ
れにより、ロード命令の実行時に、ｍｃにキャッシュミ
ス回数が累積されていく。

【００４５】キャッシュミスの回数が一定値（ここでは
βとする）を越えると、ライン５０２の実行により、ス
レッド切り替えコードが呼び出され、実行スレッドが切
り替えられる。

【００４６】図７は、スレッド切り替えコードの生成ア
ルゴリズムを示すフローチャートである。

【００４７】スレッドの切り替えコードの生成では、ま
ず、キャッシュミスの可能性の高いメモリ参照命令の集
合を変数Ｍに求める。キャッシュミスの可能性の高いメ
モリ参照命令を求める処理は、従来公知のコンパイラ最
適化における参照パターン解析や、メモリ参照プロファ
イルにより実現することができる（ステップ１１０
１）。

【００４８】続いて、変数Ｍが空集合か否かを判定する
（ステップ１１０２）。変数Ｍが空集合であれば処理は
終了する。変数Ｍが空集合でない場合は、次に、カウン
タの初期化コード「ｍｃ＝０」を最適化対象コードの入
り口に挿入し、変換したメモリ参照集合を保持する変数
Ｓを空集合に初期化する（ステップ１１０３）。

【００４９】次に、変数ｍに変数Ｍから１要素を取り出
し、変数ｍに取り出した要素を累算型の監視付きメモリ
参照命令に変換する。その後、変数Ｓを変数Ｓ′にコピ
ーする（ステップ１１０４）。

【００５０】変数Ｓ′が空集合か否か確かめる（ステッ
プ１１０５）。変数Ｓ′が空集合でない場合には、変数
Ｓ′から要素を１つ取り出し、変数ｓに保持する。そし
て、変数ｓと変数ｍの間で、変数ｍの要素が参照してい
るデータを参照する最初の文を変数dに求める（ステッ
プ１１０６）。

【００５１】続いて、変数ｄに該当する文が存在するか
否か判定する（ステップ１１０７）。変数ｄに該当する
文が存在しなければ、ステップ１１０５に戻り、次の文
を処理する。変数ｄに該当する文が存在する場合、カウ
ンタｍｃの値が一定値（β）以上であるときに、スレッ
ドスイッチコードを呼び出す文「if(mc>β) call Switc
h」を変数dに保持された文の直前に挿入する。その後、
ステップ１１０５に戻り、次の文の処理を行う（ステッ
プ１１０８）。

【００５２】ステップ１１０５の判定の結果、「Ｓ′＝
φ」となり、処理すべき文がなくなった場合、集合Ｓに
文ｍを追加する（ステップ１１０９）。そして、処理す
べきメモリ参照集合Ｍの要素がさらに存在するか否か確
認する（ステップ１１１０）処理対象の要素が存在すれ
ばステップ１１０４に戻り、さらに処理を継続する。処
理すべきメモリ参照がなくなった場合、最後のメモリ参
照文ｍの後に、スレッドスイッチコードを呼び出す文
「if(mc>β) call Switch」を挿入し、処理を終了する
（ステップ１１１１）。

【００５３】図８は、本実施形態にけるメモリ参照命令
を利用し、複数のプリフェッチ間のアドレス競合による
性能低下を回避するプログラムの一例を示すプログラム
リストである。

【００５４】キャッシュメモリは、その容量が限られて
いる。このため、ダイレクトマップやセットアソシアテ
ィブ方式のキャッシュメモリでは、参照対象のアドレス
の一部をインデックスとして用い、このインデックスに
よりキャッシュメモリのエントリを決定する。これによ
り、複数のアドレスで同一のキャッシュメモリのエント
リを共有している。ループ中における複数の配列の参照
が同一のキャッシュラインを参照することになる場合、
一方の配列の参照でキャッシュメモリ上にロードされた
データが、別の配列の参照により追い出されてしまい、
プログラムの実行性能が大幅に低下してしまう。このよ
うな現象をキャッシュスラッシングと呼ぶ。

【００５５】図８に示すプログラムでは、まず、ライン
８００で、カウンタｍｃが０に初期化される。

【００５６】ラベルL０で指定されるループ８０１は、
キャッシュミスの発生をカウントアップしながら配列の
参照を行う。カウンタｍｃにカウントアップされる値が
多い場合は、スラッシングが発生している可能性があ
る。このプログラムでは、このような状態が検出された
場合、ライン８０２の処理によりスラッシングを回避す
るコードL１（スラッシング回避コード）に処理が分岐
する。

【００５７】スラッシング回避のコードでは、ループ中
で参照する配列のアドレスをずらすことにより、アドレ
スの競合を回避する。図８に例示したプログラムでは、
スラッシング回避のため、一方の配列参照の添字を２だ
けずらしている。

【００５８】図９は、スラッシング回避コードの生成ア
ルゴリズムを示すフローチャートである。

【００５９】スラッシング回避コードの生成では、ま
ず、ループ集合を変数Ｌに求める（ステップ１３０
１）。続いて、変数Ｌに求められたループ集合が空集合
であるか否か確かめる（ステップ１３０２）。変数Ｌに
求められたループ集合が、空集合であれば、処理すべき
ループが存在しないことになる。従って、この場合は、
スラッシング回避コードの生成処理を終了する。

【００６０】変数Lに求められたループ集合が空集合で
ない場合には、変数Lから要素を１つ取り出し変数ｌに
格納する（ステップ１３０３）。次に、ループlの中で
行われる参照がスラッシングを生じる可能性があるか否
かを確かめる。ループがスラッシングを生じる可能性が
あるか否かの判定には、公知の技術である配列競合解析
処理や、メモリ参照プロファイル技術などを利用するこ
とができる（ステップ１３０４）。

【００６１】ステップ１３０４における判定の結果、ス
ラッシングを生じないことが保証できる場合には、ステ
ップ１３０２の処理に戻り、次のループについて処理を
継続する。

【００６２】ステップ１３０４における判定の結果、ス
ラッシングを生じる可能性があると判断された場合は、
ｌ′にｌのスラッシング回避コードを生成する。スラッ
シング回避コードの生成には、キャッシュ競合を回避す
るために、公知の最適化処理を適用することができる。
そして、ループｌの前にカウンタ初期化コード「ｍｃ＝
０」を挿入し、ループｌ中に、スラッシングの検出コー
ド「if(mc>β) goto L１」を挿入する（ここで、“L
１”はスラッシング回避コードｌ′のラベルである）。
これにより、ループｌの実行中にスラッシングの発生が
検出されると、ｌ′に制御が移り、スラッシングを回避
することができる（ステップ１３０５）。

【００６３】以上の処理の後、再びステップ１３０２の
処理に戻り、次のループについて同様の処理が実施され
る。

【００６４】次に、図８に例示したプログラムの適用効
果について検討する。ここで、主記憶の参照サイクルを
１００サイクル、４回のループ繰り返しでキャッシュブ
ロック上のデータが使用され、理想的にプリフェッチが
実行されている場合には、主記憶の参照サイクルは完全
に隠蔽されるものと仮定する。また、理想状態での１回
あたりのループ実行サイクルはIIであるとする。

【００６５】配列Ｂに対するプリフェッチにより、配列
Ａに対するデータがキャッシュ上から追い出される場合
を考えると、配列Ａの参照において、４回に１度キャッ
シュミスが発生することになる。したがって、ループの
実行性能は「II＋２５」に増加する。図８に示したコー
ドでは、最初の数回の繰り返しでは競合が発生する。し
かし、ライン８０２によりこの競合が検出され、参照ア
ドレスを調節したループが実行される。これにより、こ
れ以降の繰り返し処理では、スラッシングが回避され、
ほぼ理想性能で命令が実行される。

【００６６】以上説明した実施形態によれば、スレッド
の動的な切り替え、キャッシュスラッシングの回避など
の処理を実行時に動的選択し、プログラムの実行性能を
向上することができる。

【００６７】図１０は、キャッシュメモリの参照動作の
結果を取得するためにプロセッサが有する機構部の他の
実施形態における構成例を示す部分ブロック図である。

【００６８】図１０に示す回路は、基本的には、図２に
示した回路と同様の構成を有する。したがって、図２と
同様の機能を有する部分については、図２と同じ参照番
号を用いて図示されている。

【００６９】本実施形態の回路は、レジスタ１０４に付
加フィールド２０１が設けられている点で、図２に示し
た回路と相違する。本実施形態では、キャッシュメモリ
の参照動作の結果を取得する際、付加フィールドに保持
された値が演算器１０６の入力とされ、演算器１０６の
出力が、付加フィールド２０１に入れられる。

【００７０】この場合、付加フィールド２０１に入れら
れた参照動作の結果を参照するためには、例えば、プロ
セッサの命令として、フィールド２０１を参照するため
の専用の命令を設けるか、あるいは、参照命令の一部と
して、参照先に付加フィールド２０１を指定可能な参照
命令を設ければよい。

【００７１】このように、レジスタ１０４の付加フィー
ルド２０１にメモリ参照の結果を格納するようにした場
合、参照命令などにおいて、メモリ参照動作を格納する
レジスタを指定するフィールド（例えば、図４に示す命
令フォーマットにおけるフィールド８０３）が不要にな
る。したがって、本実施形態における回路構成は、プロ
セッサの命令フィールド長に制約がある場合に有効であ
る。

【００７２】

【発明の効果】本発明によれば、メモリ参照動作の参照
を低いオーバヘッドで行うことができる。

【図面の簡単な説明】

【図１】本発明が適用された計算機システムの簡略化さ
れた構成例を示すブロック図である。

【図２】キャッシュメモリの参照動作の結果を汎用レジ
スタ上に保存するためにプロセッサが有する機構部の一
例を示す部分ブロック図である。

【図３】ロード命令の記述例を示す説明図である。

【図４】ロード命令の命令フォーマットの一例を示す説
明図である。

【図５】メモリ参照動作の結果の取得機能を適用したプ
ログラムのコンパイラ生成コードの一例を示すプログラ
ムリストである。

【図６】スレッドの切り替えによるスループットの向上
の様子を示すタイムチャートである。

【図７】スレッド切り替えコードの生成アルゴリズムを
示すフローチャートである。

【図８】複数のプリフェッチ間のアドレス競合による性
能低下を回避するプログラムの一例を示すプログラムリ
ストである。

【図９】スラッシング回避コードの生成アルゴリズムを
示すフローチャートである。

【図１０】キャッシュメモリの参照動作の結果を取得す
るためにプロセッサが有する機構部の他の実施形態にお
ける構成例を示す部分ブロック図である。

【符号の説明】

１０３・・・比較器、１０４・・・レジスタファイル、１０５
・・・選択器、１０６・・・演算器、３０１・・・プロセッサ、
３０２・・・主記憶、３０３・・・バス、３０４・・・キャッシ
ュメモリ、３０５・・・演算器

Claims

【特許請求の範囲】

【請求項１】外部に接続されるメモリに格納されたデー
タを用いてプログラムにしたがった演算を行うプロセッ
サにおいて、演算に使われるデータ、または演算結果の
データを格納する少なくとも１つのレジスタを有するレ
ジスタファイルと、前記メモリに格納されたデータの一
部の写しを保持するためのキャッシュメモリと、参照命
令によりアクセスされるデータが前記キャッシュメモリ
に存在するか否か判定するヒット／ミス判定回路と、前
記ヒット／ミス判定回路における判定結果と前記レジス
タファイルから読み出されたデータとを入力して所定の
演算を行う演算器とを有し、前記演算器による演算の結
果が前記レジスタファイル内のレジスタに格納されるこ
とを特徴とするプロセッサ。
【請求項２】前記メモリに格納されたデータを参照する
参照命令であって、該参照命令によって参照されるデー
タが前記キャッシュメモリに存在したか否かの結果を前
記レジスタファイル内のレジスタに記録するための参照
命令を有することを特徴とする請求項１記載のプロセッ
サ。
【請求項３】前記参照命令は、前記結果を格納するレジ
スタの指定を含むことを特徴とする請求項２記載のプロ
セッサ。
【請求項４】前記演算器は、前記レジスタファイルから
読み出されたデータと、前記判定結果との加算を行うこ
とを特徴とする請求項３記載のプロセッサ。
【請求項５】前記演算器に入力される前記レジスタファ
イルから読み出されたデータは、前記参照命令で指定さ
れる前記結果を格納するレジスタから読み出されたデー
タであることを特徴とする請求項４記載のプロセッサ。
【請求項６】前記ヒット／ミス判定回路の出力と、前記
レジスタファイルから読み出されたデータとが入力さ
れ、前記参照命令の実行時に、前記ヒット／ミス判定回
路の出力を選択して前記演算器に与えるセレクタ回路を
有することを特徴とする請求項３記載のプロセッサ。
【請求項７】前記レジスタは、汎用レジスタであること
を特徴とする請求項６記載のプロセッサ。
【請求項８】前記レジスタは、実行される命令によりデ
ータ処理に使用される前記レジスタファイル内のレジス
タの付加フィールドとして設けられることを特徴とする
請求項１乃至６のいずれかに記載のプロセッサ。
【請求項９】前記付加フィールドとして設けられた前記
レジスタの値を参照するための命令を有することを特徴
とする請求項８記載のプロセッサ。
【請求項１０】入力されたプログラムから計算機により
理解可能なプログラムコードを生成するプログラムのコ
ンパイル方法において、入力されたプログラムを解析
し、該解析結果に基づいて、キャッシュミスの発生によ
り処理の遅延が生じる可能性のあるプログラムの部分を
抽出し、抽出された部分に含まれるメモリ参照命令をメ
モリ参照動作の結果を取得する参照命令に変換し、取得
されたメモリ参照動作の結果に基づいて動的に実行する
処理を選択するコードを生成することを特徴とするプロ
グラムのコンパイル方法。
【請求項１１】前記選択するコードは、スレッドの切り
替えコードの呼び出しを行うコードであることを特徴と
する請求項１０記載のコンパイル方法。
【請求項１２】前記プログラムの部分は、スラッシング
の発生する可能性にある部分であって、前記コードは、
スラッシングを回避するように当該部分の処理を変換し
た処理への分岐コードであることを特徴とする請求項１
０記載のコンパイル方法。
【請求項１３】プログラムをコンピュータにより実行可
能なコードにコンパイルするためにコンピュータにより
実行されるコンパイルプログラムであって、入力された
プログラムを解析する処理と、該解析処理の実行結果に
基づいて、キャッシュミスの発生により処理の遅延が生
じる可能性のあるプログラムの部分を抽出する処理と、
抽出された部分に含まれるメモリ参照命令をメモリ参照
動作の結果を取得する参照命令に変換する処理と、取得
されたメモリ参照動作の結果に基づいて動的に実行する
処理を選択するコードを生成する処理とを有するコンパ
イラプログラムを保持した記録媒体。