JP3156761B2

JP3156761B2 - ノンブロッキングキャッシュ対応のコードスケジューリング方式及びそのプログラムを記録した記憶媒体

Info

Publication number: JP3156761B2
Application number: JP14648297A
Authority: JP
Inventors: 政昭船間
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1997-06-04
Filing date: 1997-06-04
Publication date: 2001-04-16
Anticipated expiration: 2017-06-04
Also published as: EP0883059A2; JPH10333916A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ノンブロッキング
キャッシュ機構を採用する計算機システム用のコードを
生成するコンパイラのコードスケジューリング方式に関
する。

【０００２】

【従来の技術】現在、計算機システムは、ＣＰＵとメモ
リの間に高速、小容量のキャッシュメモリを配置し、メ
モリに置かれたデータへのアクセスの高速化を図ってい
るものが一般的となっている。

【０００３】計算機システムは、キャッシュを配置する
ことにより、必要なデータがキャッシュ上に存在する場
合に、より低速な主記憶にアクセスする必要がないた
め、実行性能が向上する。しかし、計算機システム
は、単純なキャッシュ機構では逆に必要なデータがキャ
ッシュ上に存在しない（キャッシュミス）場合、データ
の主記憶からキャッシュへの読み込みを完了するまでＣ
ＰＵが停止するため実行性能が低下するという問題が存
在する。

【０００４】そこで、その対策として、計算機システム
は、キャッシュミスが発生した場合でもＣＰＵの動作は
停止せず、またキャッシュミスが存在しても他の命令に
よるキャッシュへのアクセスが可能なノンブロッキング
キャッシュ機構が考案され、今後は、この機構を採用す
るものが主流となると思われる。［参考文献：COMPUTER ARCHITECTURE: A QUANTATIVE AP
PROACH (John L. Henessy & David A. Patterson, 199
6, p414-416)］しかし、現在の計算機システムは、依然としてキャッシ
ュミスに起因する実行性能低下が残っており、この性能
低下を低減する方法が提案されている。

【０００５】特開平３−２８２７３４号公報には、パイ
プライン処理を行うＣＰＵとメモリの間に高速、小容量
のキャッシュを持つ計算機での命令実行時のキャッシュ
ミスペナルティを小さくするための命令再配置を行う方
法が記載されている。

【０００６】ここでキャッシュミスペナルティとは、主
記憶からレジスタにデータをロードする場合にデータが
キャッシュ上に存在しない場合に、主記憶からキャッシ
ュへのデータの読み込み（これをキャッシュ置き換えと
呼ぶ）が完了するまでＣＰＵが停止し、実行効率が低下
することを意味する。

【０００７】つぎに図９を参照して、特開平３−２８２
７３４号公報に記載された方法の構成を説明する。プロ
グラム９１はコンパイル部９３によりコンパイルされ機
械語命令に変換される。命令再配置最適化部９４は、出
力された命令を調べ、キャッシュミスの発生する命令を
見つけだし、メモリからキャッシュへの読み込みを行っ
ている時間に実行でき、かつその実行に複数サイクルを
要する命令をその命令の直前に配置することで、キャッ
シュミスの結果としてメモリからキャッシュへの読み込
みを実行している間もＣＰＵを無駄に止めないようにす
る。

【０００８】この方法に関し、上記公報は、メモリのア
クセスパターンが比較的予想しやすい命令フェッチ実行
時の命令キャッシュへのアクセスに関して述べられてお
り、データへのアクセスについては、命令フェッチの場
合と同様に主記憶を逐次的に参照する場合のみしか述べ
られていない。また、ノンブロッキングキャッシュに関
しても考慮されていない。

【０００９】また、特開平４−４４１３９号公報には、
プログラムの処理上必要とするデータについて、そのデ
ータがキャツシュに存在するか否かを調べ、存在しない
場合にはデータのキャッシュへの読み込みを他の命令の
実行と同時に行なうことが可能なプリフェッチ命令を命
令セットに追加し、そのデータ参照の前方にプリフェッ
チ命令を挿入することでメモリへのデータ参照の処理効
率を上げる方法が記載されている。しかし、公報にはプ
リフェッチ命令をハードウェアとして実現する方法につ
いて述べられているが、プリフェッチ命令をどのように
配置するかについては述べられていない。また、COMP
UTER ARCHITECTURE: A QUANTATIVE APPROACH (John L.
Henessy & David A. Patterson, 1996, p402-404)にお
いて、ノンブロッキングキャッシュ機構について考慮し
た方法としては、ループ中で後のループの繰り返し（こ
れをイタレーションと呼ぶ）で使うデータをプリフェッ
チするという方法が記載されているが、これはループ内
のデータ参照に限られている。

【００１０】

【発明が解決しようとする課題】従来の命令キャッシュ
のミスペナルティを小さくするためのスケジューリング
方法は、ループ内にないロード命令でキャッシュミスを
起こし、そのデータのキャッシュへの読み込みが終らな
いうちに、そのデータを参照する命令が実行されるよう
にスケジューリングされる場合に、キャッシュミスペナ
ルティ（これをAccess Before Refillと呼び、以後ＡＢ
Ｒと表す）が依然として発生すると言う問題がスケジュ
ーリング方法に残っている。

【００１１】また、John L. Henessy & David A. Patte
rsonによるノンブロッキングキャッシュを考慮したスケ
ジューリング方法は、ノンブロッキングキャッシュ機構
にある種の条件を必要とする。彼らの提案したループ内
でプリフェッチを行うスケジューリング方法は、一般に
ループの繰り返しで、ロード命令が多数回実行されるこ
とにより、多重にキャッシュミスが発生し易いため、多
数回キャッシュミスが発生しても引き続きキャッシュへ
のアクセスを許す機構が必要となる。このノンブロツキ
ングキャッシュ機構の特性は、1 hit under n miss（ｎ
は整数）と呼ばれ、キャッシュミスがｎ個起こっている
状態でも後続の命令がキャッシュをアクセス可能である
が、そこでさらにキャッシュミスが起こると、以前にキ
ャッシュミスしたデータのキャッシュへの読み込みが終
わらない限り後続の命令がキャッシュをアクセスできな
いことを意味する。

【００１２】彼らの提案したスケジューリング方法は、
許されるキャッシュミスの回数が少ない機構（特に1 hi
t under 1 miss）を採用するＣＰＵにおいては、逆にペ
ナルティが大きくなる可能性がある。そのスケジューリ
ング方法は、最も制限の厳しい1 hit under 1 miss特性
を持つＣＰＵの場合、ロード命令がキャッシュミスを起
こした後、キャッシュの置き替えが終らないうちに、再
度キャッシュへアクセスを行なった場合、さらにキャッ
シュミスが発生する（これをDouble Cache Miss と呼
び、以後ＤＣＭと表す）場合のキャッシュミスペナルテ
ィの問題がスケジューリング方法に存在する。以後、1
hit under 1 missの場合を想定して説明するが、1 hit
under n missの場合も同様に扱うことができる。

【００１３】以後、単にキャッシュミスペナルティと記
述した場合には、キャッシュミスペナルティは上記の２
つ（ＡＢＲ，ＤＣＭ）のキャッシュミスペナルティを指
すこととする。

【００１４】本発明の目的は、ノンブロッキングキャツ
シュ機構を採用する計算機システム用のコンパイラにお
いて、キャッシュミスペナルティを軽減することで実行
速度の速い目的コードを生成することのできるコードス
ケジューリング方式及びそのプログラムを記録した記憶
媒体を提供することである。

【００１５】

【課題を解決するための手段】本発明のノンブロッキン
グキャッシュ対応のコードスケジューリング方法及びそ
のプログラムを記録した記憶媒体は、ＣＰＵとメモリの
間に高速、小容量のノンブロッキングキャッシュを配置
し、ソースプログラムを入力して字句解析、構文解析を
行なうフロントエンドと、フロントエンドの解析結果と
目的コードをマシン上もしくはシミュレータ上で実行し
得られるＣＰＵ動作を記録したプロファイルデータとを
基に、コードスケジューリング部と目的コード生成部を
含み、目的コードを生成するバックエンドとを有する言
語処理コンパイラにおけるコードスケジューリング方式
において、コードスケジューリング部に、解析結果とプ
ロファイルデータを基に、実行速度を低下させるキャッ
シュミスペナルティを検出するプロファイルデータ解析
部と、プロファイルデータ解析部により検出されるキャ
ッシュミスするデータの先読みを行なう命令コードの挿
入を行なうコードスケジューリング実行部とを有し、プ
ロファイルデータはターゲットマシン上もしくはシミュ
レータ上でのプログラム実行時のキャッシュミスペナル
ティとキャッシュの置き換えの発生情報を含み、プロフ
ァイルデータ解析部は、プロファイルデータを解析して
キャッシュミスペナルティの発生以前においてキャッシ
ュ置換えの発生していない最長の区間を検出する手段を
有し、命令コードは最長の区間の直前に挿入する、こと
を特徴とする。

【００１６】また、本発明のノンブロッキングキャッシ
ュ対応のコードスケジューリング方法及びそのプログラ
ムを記録した記憶媒体は、ＣＰＵとメモリの間に高速、
小容量のノンブロッキングキャッシュを配置し、ソース
プログラムを入力して字句解析、構文解析を行なうフロ
ントエンドと、フロントエンドの解析結果から目的コー
ドを生成する目的コード生成部を含む言語処理コンパイ
ラからの一時目的コードとスケジューリング用データを
受け、フロントエンドの解析結果と一時目的コードをマ
シン上もしくはシミュレータ上で実行し得られるＣＰＵ
動作を記録したプロファイルデータとを基に行うコード
スケジューリング方式において、解析結果とプロファイ
ルデータを基に、実行速度を低下させるキャッシュミス
ペナルティを検出するプロファイルデータ解析部と、プ
ロファイルデータ解析部により検出されるキャッシュミ
スするデータの先読みを行なう命令コードの挿入を行な
うコードスケジューリング実行部とを有し、プロファイ
ルデータはターゲットマシン上もしくはシミュレータ上
でのプログラム実行時のキャッシュミスペナルティとキ
ャッシュの置き換えの発生情報を含み、プロファイルデ
ータ解析部は、プロファイルデータを解析してキャッシ
ュミスペナルティの発生以前においてキャッシュ置換え
の発生していない最長の区間を検出する手段を有し、命
令コードは最長の区間の直前に挿入する、ことを特徴と
する。

【００１７】また、プロファイルデータ解析部は、ター
ゲットマシン上もしくはシミュレータ上でのプログラム
実行時のキャッシュミスペナルティとキャッシュの置き
換えの発生情報を含むＣＰＵの動作を記録したプロファ
イルデータを基に、プロファイルデータに含まれるキャ
ッシュミス情報とキャッシュミスペナルティの発生以前
のキャッシュ置き換えの発生状況を解析する手段と、解
析によりキャッシュ置換えの発生していない最長の区間
を検出する手段を有する。

【００１８】更に、コードスケジューリング実行部は、
キャッシュミスペナルティを発生するメモリアクセス命
令の前方にあらかじめキャッシュにデータを格納してお
くためのプリフェッチ命令を挿入する手段を有する。

【００１９】

【発明の実施の形態】次に本発明の第１の実施の形態に
ついて図面を参照して詳細に説明する。図１（ａ）は、
本発明の第１の実施例における構成を示すブロック図で
ある。本実施例のコードスケジューリング方式は、図１
（ａ）に示すように、フロントエンド１１とバツクエン
ド１２を含むコンパイラ２によって実現される。コンパ
イラ２は、入力コード１を入力とし、目的コード３を出
力とする。

【００２０】フロントエンド１１は、入力コードである
プログラムについて字句解析、構文解祈を行ない、中問
言語コードを出力する。バツクエンド１２は、コードス
ケジューリング部１３と目的コード生成部１４を含む。

【００２１】コードスケジューリング部１３は、中間言
語コードに対してキャッシュミスペナルティをできるだ
け小さくするためにコードのスケジューリングを行な
う。目的コード生成部１４は、中間言語コードから目的
コードを生成する。

【００２２】次に、図１（ｂ）を参照してコードスケジ
ューリング部１３の詳細な構成を説明する。コードスケ
ジューリング部１３は、プロファイルデータ解析部１５
とコードスケジューリング実行部１６とを含む。

【００２３】プロファイルデータ解析部１５は、プロフ
ァイルデータ４を解析し、キャッシュミスペナルティ発
生部分を検出する。また同時に、コードスケジューリン
グ実行部１６で利用するためのキャッシュ動作情報を解
析する。ここで、キャッシュ動作情報とはキャッシュミ
スしたデータを主記憶からキャッシュに読み込む動作を
各動作クロックで行なっているか、いないかを表す。

【００２４】コードスケジューリング実行部１６は、プ
ロファイルデータ解析部１５により得られたキャッシュ
動作情報を基にプロファイルデータ解析部１５で検出し
たキャッシュミスペナルティを軽減するためのコードス
ケジューリングを行なう。

【００２５】次に、このように構成された本実施例のコ
ードスケジューリング方式の動作について説明する。

【００２６】まず、図１（ａ）に示すコンパイラの概略
的な動作について説明する。フロントエンド１１は、入
力コード１を入力として字句解析、構文解析を行ない中
間言語コードに変換し、結果をバックエンド１２に渡
す。バックエンド１２においては、まずコードスケジュ
ーリング部１３がフロントエンド１１から渡された中間
言語コードに対してキャッシュミスペナルティを小さく
するようにコードスケジューリングを行なう。さらに目
的コード生成部１４は中間言語コードを目的コードに変
換し、コンパイラ２の出力である目的コード３を出力す
る。

【００２７】次に、図１、２（ａ）を参照して、コード
スケジューリング部１３における動作について説明す
る。最初に、コンパイラは、コンパイラのコードスケジ
ューリング部１３を無効にした上で、入力コード２１を
入力としてコードスケジューリング前のコードである一
時目的コード２３の生成を行なう。ターゲットとしてい
る計算機上もしくはその振舞いをシミュレートするシミ
ュレータは得られた一時目的コード２３を実行し、プロ
ファイルデータ２５を得る。

【００２８】次に、コンパイラは、プロファイルデータ
２５と入力コード２１を用いてコードスケジューリング
部１３を有効にした上で、コンパイルを実行２６し目的
コード２７を得る。

【００２９】図３、４、５（ａ）を参照してプロファイ
ルデータ２５について説明する。

【００３０】プロファイルデータ２５は、目的コード実
行時のＣＰＵの動作状況を動作クロックごとに記録した
ものである。ここで、ＣＰＵの動作状況は、実行した命
令と、オペランドと、実行開始クロックと、キャッシュ
動作情報と、キャッシュミスの発生を含み、さらにメモ
リ参照命令の場合には、そのアドレスも含む。図３は、
キャッシュ動作情報、キャッシュミス発生、その他の情
報の例を示している。図５（ａ）は、その詳細な例であ
る。

【００３１】図５（ａ）に示すように、キャッシュミス
情報に示されている“＊”は、ロード命令５２でキャッ
シュミスが発生していることを示すマークであり、ロー
ド命令５２でデータがロードされるレジスタｒ１５を直
後の加算命令で参照しているため、キャッシュ置き換え
が完了しロード命令５２が完了するまで次の加算命令が
実行できずＣＰＵが停止している。“ストール”はＣＰ
Ｕが停止していることを示している。

【００３２】プロファイルデータ２５には、図４に示す
ような入力コードの制御構造とプロファイルデータの実
行された各命令、目的コードとの対応を知るためのデー
タも含まれる。

【００３３】図２（ｂ）は図２（ａ）のスケジューリン
グ部を有効にしてコンパイルを実行２６した場合のコー
ドスケジューリング部の処理１３の流れを詳細に説明し
たものである。以下これに沿ってコードスケジューリン
グ部１３の処理の流れを説明する。

【００３４】処理ステツプ２１０にて、図１のコードス
ケジューリング部１３において、最初に、プロファイル
データ解析部１５は、プロファイルデータ４を走査し、
キャッシュミスペナルティが発生する部分（以後これを
キャッシュミスペナルティ部と呼ぶ）の検出を行なう。
さらにプロファイルデータ解析部１５は、キャッシュ動
作情報に関してキャッシュの置き換えが起こっていない
連続した期間（図３のキャッシュ動作情報における斜線
部以外の部分）のクロック数の解析も行なう。

【００３５】次に、コードスケジューリング実行部１６
は、プロファイルデータ解析部１５の検出したキャッシ
ュミスペナルティの各々について、その実行順にキャッ
シュミスペナルティを軽減するためのコードスケジュー
リングを行なう。具体的には、処理ステップ２１１に
て、最初のキャッシュミスペナルティ部を特定し、処理
ステップ２１２〜２１６によりコードスケジューリング
を行ない、処理ステツプ２１７にて、全てのキャッシュ
ミスペナルティ部について処理を完了したか否かを判断
し、処理すべきキャッシュミスペナルティ部が存在すれ
ば、そのキャッシュミスペナルティ部を次の対象として
処理を繰り返す。

【００３６】図５、６、７を参照してコードスケジュー
リングの処理ステップ２１２から２１６の動作について
説明する。

【００３７】まず処理ステツプ２１２において、コード
スケジューリング実行部１６は、検出したキャッシュミ
スペナルティ５１の原因となったロード命令の実行５２
からプロファイルデータを時間的に遡り、キャッシュ置
き換えを行なっていない最長の期間５３（以後これを最
長キャッシュ不変期間と呼ぶ）を決定する。

【００３８】ここで、コードスケジューリング実行部１
６は、キャッシュミスを起こすロード命令実行からその
データを参照する命令もしくはＤＣＭを起こすロード命
令の実行までの期間（以後これを下限期間と呼ぶ）より
最長キャッシュ不変期間が短い場合には、キャッシュミ
スペナルティを軽減するためのコードスケジューリング
を行なわない。さらに、コードスケジューリング実行部
１６は、キャッシュ置き換えの発生しない最長の期間が
ループ回数不定のループ構造内である場合も同様にコー
ドスケジューリングを行なわない。これは、後に行なう
ループ展開においてループ回数がコンパイル時に確定し
ている必要があるためである。

【００３９】また、そのロード命令が間接参照である場
合には、参照するメモリのアドレスがベ−スレジスタ
（図５では、レジスタ１１２が相当する）に依存するた
め、最長キャッシュ不変期間はそのレジスタ値が設定さ
れるレジスタ位置５４以降になければならない。

【００４０】次に、コードスケジューリング実行部１６
は、そのロード命令が参照するデータをキャッシュに先
読みするためのロード命令（以後ダミーロード命令とす
る）を最長キャッシュ不変期間の直前に挿入する。

【００４１】これにより得られる効果を、図５を参照し
て説明する。

【００４２】ダミーロード命令の挿入方法は、最長キャ
ッシュ不変期間がループ構造中にある場合とそうでない
場合で処理方法が異なる。

【００４３】最初に最長キャッシュ不変期間がループ構
造中にない場合（処理ステップ２１４）を説明する。具
体的な動作の説明のため、本実施例のコンパイラがター
ゲットとする計算機システムは、キャッシュ置き換えに
３０クロックかかると仮定する。図５（ａ）に示したプ
ロファイルデータは、ロード命令５２の実行においてキ
ャッシュミスが発生し、さらに、その直後にそのデータ
を参照する命令（ａｄｄｒ１５，ｒ１４）が配置され
ているために、レジスタｒｌ５にデータが読み込まれる
クロック番号１７６までＣＰＵが停止していることを示
している。ここで、プロファイルデータは、ロード命令
５２の前方に、ｍｏｖ命令５５から始まる４０クロック
の最長キャッシュ不変期間５３を持っているとする。コ
ードスケジューリング実行部１６は、前述の方法に従い
ｍｏｖ命令５５の直前にロード命令５２と同アドレスを
読み込むダミーロード命令５６を挿入する。その結果得
られたコードは、ダミーロード命令５６の実行によりキ
ャッシュミスが発生するが、その際のキャッシュ置き換
え実行中にも他の命令が実行され、またもとのロード命
令５２でのキャッシュミスの発生をも回避することがで
きダミロード命令５６挿入以前のプロファイルデータの
クロック番号１７６で実行されていたｍｏｖ命令がダミ
ロード命令５６挿入後のプロファイルデータのクロック
番号１４９で実行される。従って、スケジューリング後
には、コードの実行時間は２７クロック数分処理が速ま
る。

【００４４】また、ゲートとする計算機システムは、最
長キャッシュ不変期間５３がキャツシュ置き換えの期間
より短い場合には、ＤＣＭが発生することになるが、最
長キャッシュ不変期間５３が下限期間より長いので、ダ
ミーロード命令５６を挿入しない場合と比べてキャッシ
ュ置き換えと並行して、より多くの命令を最長キャッシ
ュ不変期間５３中に実行できる。

【００４５】図６を参照して具体的に説明する。

【００４６】図６（ａ）、（ｂ）は、それぞれ本発明適
用前のプロファイルデータ、適用後のプロファイルデー
タの例である。

【００４７】図６（ａ）では、プロファイルデータは、
クロック番号１２０、１２４でキャッシュミスが発生し
ＤＣＭが検出されている。ここで下限期間は３クロック
であり、１命令の実行に１クロックかかるとすると、こ
の期間の間に３命令実行されている。

【００４８】つぎに、プロファイルデータ解析部が、ロ
ード命令６１の前方にクロック番号８０から始まる１０
クロックの最長キャッシュ不変期間を検出したとする。
先と同様にターゲットとする計算機システムがキャッシ
ュ置き換えに３０クロックかかると仮定すると、ダミー
ロード命令６３を挿入した場合に、図６（ｂ）のよう
に、実行されたプロファイルデータは、クロック番号９
１のロード命令６４でＤＣＭが発生している。しかし、
先と同様に考えるとコードは、ロード命令６４でのＤＣ
Ｍの発生までに１０命令実行されている。この結果、本
発明適用前のストール期間６２は２５クロックである
が、適用後のストール期間６５は１８クロックと短縮さ
れる。また、クロック番号１２４で発生していたＤＣＭ
は、ダミーロード命令６３によるデータの先読みにより
解消されているためここでのストールも同時に解消され
ている。これはクロック番号１２４から発生していたＤ
ＣＭによるストールがクロック番号９１のロード命令で
のＤＣＭに起因するストールへ移動しただけではある
が、ＤＣＭが発生するまでにより多くの命令が実行され
ることでＤＣＭによるストール期間が短縮され、実行速
度が向上している。

【００４９】つまり、目的コードの実行時間は、ＤＣＭ
が発生しＣＰＵが停止するという点では変わりないが、
最長キャッシュ不変期間が、下限期間より長いという条
件から、ダミーロード命令のためのキャッシュ置き換え
を行なっている時間に、下限期間に実行される命令より
も多くの命令を最長キャッシュ不変期間に実行でき、結
果としてＤＣＭによるＣＰＵの停止期間が短くなるので
実行時間が短くなる。

【００５０】次に、最長キャッシュ不変期間がループ構
造中にある場合（処理ステツプ２１５、２１６）の処理
について説明する。

【００５１】この場合には、ループ不変期間が図７
（ａ）のようにループの特定のイタレーション中に存在
する可能性があるため、コードスケジューリング実行部
１６は、単純にダミーロード命令をループ中に挿入でき
ないので、ループ構造を変形することが必要となる。

【００５２】この場合の処理について図７を参照して説
明する。

【００５３】図７（ａ）のようなプロファイルデータが
得られ、最長キャッシュ不変期間７１が見つかつたとす
る。ここでｌｏｏｐ（ｎ）はループのｎ回目のイタレー
ションの実行部分を示す。説明のため最長キャッシュ不
変期間を含むループが、１０回ループを繰り返す構造を
持っているとする。最長キャッシュ不変期間７１はｌｏ
ｏｐ（２）の途中から始まっており、最長キャッシュ不
変期間の直前にダミーロード命令を挿入するためには３
回目のイタレーション以降に一度だけ実行されるように
ダミーロード命令を挿入しなければならない。このた
め、コードスケジューリング実行部１６は、図７（ｃ）
のように元のループの前方に２イタレーション分のルー
プ７２を展開する。コードスケジューリング実行部１６
は、残り８イタレーション分のループ本体７４と展開し
たループ７２の間にダミーロード命令７３を挿入する。
図７（ｂ）はダミーロード命令７３挿入後のプロファイ
ルデータであり、ターゲットとする計算機システムは、
ダミーロード命令７３のキャッシュミスによるキャッシ
ュ置き換えが実行されている間にも３回目以降のループ
イタレーションが並行して実行されている。

【００５４】ターゲットとする計算機システムは、この
ダミーロード命令の実行により、意図的にキャッシュミ
スを起こし、キャッシュへのデータ読み込みが行なわれ
ている間に、後続の命令を並行して実行する。同時に、
目的コードの実行時間は、もとのロード命令でのキャッ
シュミスを回避できるので目的ヒードの実行時間が短く
なる。

【００５５】次に本発明の第２の実施例について図１
（ａ）、８を参照して説明する。

【００５６】第２の実施例の実施の形態は、第１の実施
例と比較してバックエンド１２にはコードスケジューリ
ング部１３が含まれないという点で異なる。そのため、
コンパイラ８２は第１の実施例においてコンパイラ内部
でコードスケジューリングを行なうことにより得られて
いた入力コード１の制御構造、目的コード３とプロファ
イルデータ４の対応を知るためのデータをスケジューリ
ング用データ８６として出力し、コードスケジューリン
グ部８８は一時目的コード８５、スケジューリング用デ
ータ８６及びプロファイルデータ８７を入力としてスケ
ジューリングを行ない、目的コード８６を生成する。

【００５７】次に第２の実施例の動作について、図２、
８を参照して説明する。第１の実施例では、コンパイラ
は、一時目的コード２３を出力するためにコードスケジ
ューリング部１３を無効にしてコンパイルを実行２２
し、目的コードを得るためにプロファイルデータ２５と
入力コード２１を入力としてスケジューリング部１３を
有効にして再度コンパイルを実行２６する。これに対し
て第２の実施例では、コンパイラ８２は、一時目的コー
ド８５を得る際にのみコンパイルを実行する。コンパイ
ラ８２は、出力として一時目的コード８５に加えて、ス
ケジューリング用データ８６を出力する。

【００５８】次に、コードスケジューリング部８８は、
第１の実施例と同様にして得られたプロファイルデータ
８７、一時目的コード８５、およびスケジューリング用
データ８６を入力として第１の実施例と同様にコードス
ケジューリングを行ない目的コード８９を出力する。

【００５９】コードスケジューリング部８８の動作の第
１の実施例との違いを図２、８を参照して説明する。

【００６０】第１の実施例との違いは、第１の実施例で
は入力コード２１、プロファイルデータ２５を入力とし
コンパイラを実行し入力コード２１を字句解析、構文解
析することで内部的に得ていたスケジューリング用デー
タ８６を第２の実施例ではコードスケジューリング部８
８で利用するためにコンパイラ８２が出力する点であ
る。

【００６１】第１の実施例との他の違いは、第１の実施
例ではフロントエンドから出力される中間言語を入力と
してコードスケジューリング処理を行なうが、第２の実
施例では、コンパイラ８２から出力される一時目的コー
ドを入力としてコードスケジューリング処理を行なう点
である。

【００６２】その他の第２の実施例の動作は第１の実施
例の動作と同じである。

【００６３】

【発明の効果】本発明によれば、コンパイラは、“デー
タを先読みすることによりキャッシュミスを意図的に早
めに起こし、主記憶からキャッシュへの読み込みを行っ
ている間も別の命令を実行するようにスケジューリング
を行うこと”で実行効率を高めることができる。

【００６４】上記の効果が得られる理由は、ＡＢＲとＤ
ＣＭの２つのキャッシュミスペナルティについて、キャ
ツシュへのデータの先読みを行なうダミーのロード命令
をキャッシュミスによるキャッシュ置き換えの発生しな
い期間に挿入することで、データのキャッシュへの読み
込みとダミーロード命令の後続命令とを並行に実行で
き、同時にもとのロード命令でのキャッシュミスを回避
できるためである。

【図面の簡単な説明】

【図１】本発明のノンブロツキングキャッシュ対応コー
ドスケジューリング方法の第１の実施例の構成を示すブ
ロツク図である（特に、図１（ｂ）は、コードスケジュ
ーリング部の構成を詳細に示すブロツク図である）。

【図２】本発明のノンブロツキングキャッシュ対応コー
ドスケジューリング方法の第１の実施例の処理の流れを
示すブロツク図である。（特に、図２（ｂ）は、コード
スケジューリング部の処理の流れを詳細に示すブロック
図である）。

【図３】図１（ａ）に示すプロファイルデータの構成を
示す図である。

【図４】本発明においてプロファイルデータに要求され
るプロファイルデータ、目的コード、入力コードの対応
について説明するための図である。

【図５】図１（ａ）に示すノンブロツキングキャッシュ
対応コードスケジューリング方法の動作を説明するため
の図である。図５（ａ）は図２に示すプロファイルデー
タ２５の一例、図５（ｂ）は図５（ａ）の例に対して本
発明の第１の実施例におけるコードスケジューリングを
実施した結果得られる目的コードのプロファイルデータ
を示すための図である。

【図６】本発明のコードスケジューリング方法により挿
入されたダミーロード命令によるＤＣＭの発生について
説明した図である。

【図７】図１（ｂ）に示すコードスケジューリング実行
部において最長キャッシュ不変期間がループ中にあった
場合の処理を説明するための図である。図７（ａ）は最
長キャッシュ不変期間がルーブ中に存在した場合のプロ
ファイルデータの一例：図７（ｂ）は図７（ａ）に対し
て本発明の第１の実施例におけるコードスケジューリン
グを実施した結果得られる目的コードのプロファイルデ
ータ、図７（ｃ）は、図７（ａ）に対して本発明の第１
の実施例におけるコードスケジューリングを実施する際
のループ展開の方法について示した図である。

【図８】本発明のノンブロッキングキャッシュ対応コー
ドスケジューリング方法の第２の実施例の構成を示すブ
ロック図である。

【図９】従来のコードスケジューリング方法を示すブロ
ック図である。

【符号の説明】

１入力コード２コンパイラ３目的コード４プロファイルデータ１１フロントエンド１２バックエンド１３コードスケジューリング部１４目的コード生成部１５プロファイルデータ解析部１６コードスケジューリング実行部２１入力コード２３一時目的コード２５プロファイルデータ２７目的コード５１キャッシュミスペナルティ５２ｌｄ命令５３最長キャッシュ不変期間５４ベースレジスタ位置５５ｍｏｖ命令５６ダミーロード命令６１ロード命令６２ストール期間６３ダミーロード命令６４ロード命令６５ストール期間７１最長キャッシュ不変期間７２展開したループ７３ダミーロード命令７４ループ本体８１入力コード８２コンパイラ８３フロントエンド８４目的コード生成部８５一時目的コード８６スケジューリング用データ８７プロファイルデータ８８コードスケジューリング部８９目的コード

フロントページの続き (56)参考文献特開平４−44139（ＪＰ，Ａ) 特開平２−176938（ＪＰ，Ａ) 特開平２−64833（ＪＰ，Ａ) 特開平３−282734（ＪＰ，Ａ) 特開平８−263372（ＪＰ，Ａ) Ｓ．Ｍｃｆａｒｌｉｎｇ，”ＰｒｏｇｒａｍＯＰｔｉｍｉｚａｔｉｏｎｆｏｒＩｎｓｔｒｕｃｔｉｏｎＣａｃｈｅｓ”，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＴｈｉｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｒｃｈｉｔｅｃｔｕｒａｌＳｕｐｐｏｒｔｆｏｒＰｒｏｇｒａｍｍｉｎｇＬａｎｇｕａｇｅｓａｎｄＯｐｅｒａｔｉｎｇＳｙｓｔｅｍｓ，1989，ｐ183−191 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 9/45 G06F 12/08

Claims

(57)【特許請求の範囲】

【請求項１】ＣＰＵとメモリの間に高速、小容量のノ
ンブロッキングキャッシュを配置し、ソースプログラム
を入力して字句解析、構文解析を行なうフロントエンド
と、前記フロントエンドの解析結果と目的コードをマシ
ン上もしくはシミュレータ上で実行し得られるＣＰＵ動
作を記録したプロファイルデータとを基に、コードスケ
ジューリング部と目的コード生成部を含み、目的コード
を生成するバックエンドとを有する言語処理コンパイラ
におけるコードスケジューリング方式において、前記コードスケジューリング部に、前記解析結果と前記
プロファイルデータを基に、実行速度を低下させるキャ
ッシュミスペナルティを検出するプロファイルデータ解
析部と、前記プロファイルデータ解析部により検出されるキャッ
シュミスするデータの先読みを行なう命令コードの挿入
を行なうコードスケジューリング実行部とを有し、前記プロファイルデータはターゲットマシン上もしくは
シミュレータ上でのプログラム実行時のキャッシュミス
ペナルティとキャッシュの置き換えの発生情報を含み、前記プロファイルデータ解析部は、前記プロファイルデ
ータを解析してキャッシュミスペナルティの発生以前に
おいてキャッシュ置換えの発生していない最長の区間を
検出する手段を有し、前記命令コードは前記最長の区間の直前に挿入する、ことを特徴とするノンブロッキングキャッシュ対応のコ
ードスケジューリング方式。
【請求項２】ＣＰＵとメモリの間に高速、小容量のノ
ンブロッキングキャッシュを配置し、ソースプログラム
を入力して字句解析、構文解析を行なうフロントエンド
と、前記フロントエンドの解析結果から目的コードを生
成する目的コード生成部とを含む言語処理コンパイラか
らの一時目的コードとスケジューリング用データを受
け、前記フロントエンドの解析結果と一時目的コードを
マシン上もしくはシミュレータ上で実行し得られるＣＰ
Ｕ動作を記録したプロファイルデータとを基に行うコー
ドスケジューリング方式において、前記解析結果と前記プロファイルデータを基に、実行速
度を低下させるキャッシュミスペナルティを検出するプ
ロファイルデータ解析部と、前記プロファイルデータ解析部により検出されるキャッ
シュミスするデータの先読みを行なう命令コードの挿入
を行なうコードスケジューリング実行部とを有し、前記プロファイルデータはターゲットマシン上もしくは
シミュレータ上でのプログラム実行時のキャッシュミス
ペナルティとキャッシュの置き換えの発生情報を含み、前記プロファイルデータ解析部は、前記プロファイルデ
ータを解析してキャッシュミスペナルティの発生以前に
おいてキャッシュ置換えの発生していない最長の区間を
検出する手段を有し、前記命令コードは前記最長の区間の直前に挿入する、ことを特徴とするノンブロッキングキャッシュ対応のコ
ードスケジューリング方式。
【請求項３】前記コードスケジューリング実行部が、前記キャッシュミスペナルティを発生するメモリアクセ
ス命令の前方にあらかじめキャッシュにデータを格納し
ておくためのプリフェッチ命令を挿入する手段を有する
請求項１または２記載のノンブロッキングキャッシュ対
応のコードスケジューリング方式。
【請求項４】ＣＰＵとメモリの間に高速、小容量のノ
ンブロッキングキャッシュを配置し、ソースプログラム
を入力して字句解析、構文解析を行なうフロントエンド
と、前記フロントエンドの解析結果と目的コードをマシ
ン上もしくはシミュレータ上で実行し得られるＣＰＵ動
作を記録したプロファイルデータとを基に、コードスケ
ジューリング部と目的コード生成部を含み、目的コード
を生成するバックエンドとを有する言語処理コンパイラ
プログラムを記録した記憶媒体において、前記コードスケジューリング部に、前記解析結果と前記
プロファイルデータを基に、実行速度を低下させるキャ
ッシュミスペナルティを検出するプロファイルデータ解
析部と、前記プロファイルデータ解析部により検出されるキャッ
シュミスするデータの先読みを行なう命令コードの挿入
を行なうコードスケジューリング実行部とを有し、前記プロファイルデータはターゲットマシン上もしくは
シミュレータ上でのプログラム実行時のキャッシュミス
ペナルティとキャッシュの置き換えの発生情報を含み、前記プロファイルデータ解析部は、前記プロファイルデ
ータを解析してキャッシュミスペナルティの発生以前に
おいてキャッシュ置換えの発生していない最長の区間を
検出する手段を有し、前記命令コードは前記最長の区間の直前に挿入する、ことを特徴とするノンブロッキングキャッシュ対応のコ
ードスケジューリング方式のプログラムを記録した記録
媒体。
【請求項５】ＣＰＵとメモリの間に高速、小容量のノ
ンブロッキングキャッシュを配置し、ソースプログラム
を入力して字句解析、構文解析を行なうフロントエンド
と、前記フロントエンドの解析結果から目的コードを生
成する目的コード生成部とを含む言語処理コンパイラか
らの一時目的コードとスケジューリング用データを受
け、前記フロントエンドの解析結果と一時目的コードを
マシン上もしくはシミュレータ上で実行し得られるＣＰ
Ｕ動作を記録したプロファイルデータとを基に行うコー
ドスケジューリング方式のプログラムを記録した媒体に
おいて、前記解析結果と前記プロファイルデータを基に、実行速
度を低下させるキャッシュミスペナルティを検出するプ
ロファイルデータ解析部と、前記プロファイルデータ解析部により検出されるキャッ
シュミスするデータの先読みを行なう命令コードの挿入
を行なうコードスケジューリング実行部とを有し、前記プロファイルデータはターゲットマシン上もしくは
シミュレータ上でのプログラム実行時のキャッシュミス
ペナルティとキャッシュの置き換えの発生情報を含み、前記プロファイルデータ解析部は、前記プロファイルデ
ータを解析してキャッシュミスペナルティの発生以前に
おいてキャッシュ置換えの発生していない最長の区間を
検出する手段を有し、前記命令コードは前記最長の区間の直前に挿入する、ことを特徴とするノンブロッキングキャッシュ対応のコ
ードスケジューリング方式のプログラムを記録した記録
媒体。
【請求項６】前記コードスケジューリング実行部が、前記キャッシュミスペナルティを発生するメモリアクセ
ス命令の前方にあらかじめキャッシュにデータを格納し
ておくためのプリフェッチ命令を挿入する手段を有する
請求項５または６記載のノンブロッキングキャッシュ対
応のコードスケジューリング方式のプログラムを記録し
た記録媒体。