JPH08328870A

JPH08328870A - コンパイル処理装置

Info

Publication number: JPH08328870A
Application number: JP7132104A
Authority: JP
Inventors: Naoji Nakahira; 直司中平; Masakazu Hayashi; 正和林
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1995-05-30
Filing date: 1995-05-30
Publication date: 1996-12-13
Also published as: US5930507A

Abstract

(57)【要約】【目的】キャッシュメモリを持つ計算機上で動作するプ
ログラムの翻訳を行うコンパイル処理装置に関し，メモ
リアクセスデータのキャッシュミスの削減および連続領
域に対するメモリアクセス回数の削減により，翻訳対象
プログラムの高速化を実現することを目的とする。【構成】キャッシュメモリ上でのメモリアクセスデータ
を収集し(3),これらの競合関係を解析し(4),競合が生じ
るメモリアクセスデータに対する命令の移動の可否を判
断し(5),移動が可能な場合は命令を移動することにより
(13)，キャッシュミスを抑える。また, 連続領域にある
メモリアクセスデータを認識し(6),認識したメモリアク
セスデータのアラインメントを検査し(7),ペアロード／
ペアストアの命令を生成することにより(8),メモリアク
セス回数を減らす。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は，最適化機能を持ったコ
ンパイラのメモリアクセスの最適化効果を促進させるメ
モリアクセスデータの高速化翻訳方式に係り，特にキャ
ッシュメモリ上で競合するデータを翻訳時に解析して競
合を解消し，またメモリアクセスの回数を削減して，翻
訳したプログラムの実行性能を向上させることを可能に
したコンパイル処理装置に関するものである。

【０００２】近年のＲＩＳＣプロセッサでは，スーパス
カラに代表されるプロセッサが主流を占め，１クロック
１命令以上の命令の発行を可能にしている。また，年々
プロセッサに内蔵されるキャッシュメモリも増える傾向
にある。このような特色を持ったＲＩＳＣプロセッサの
性能を引き出すためには，高性能なコンパイラが必要と
なる。その中においても，近年キャッシュメモリを意識
した最適化手法が注目されている（参考文献：The Cach
e Performance and Optimizations of BlockedAlgorith
ms Monica S.Lam 1991 ASPLOS-IV Proceedings ）。

【０００３】従来技術の説明に先立ち，本発明に関係す
る用語について説明する。１）ベクトルロード／ストア一般のベクトルロード／ストアは，ベクトル長分のデー
タを一括してロード／ストアするが，スカラ演算で一括
してロード／ストアできるのは，４倍精度メモリアクセ
スが可能なアーキテクチャでは１６バイトが最大値であ
る。

【０００４】２）ダイレクトマップキャッシュメモリダイレクトマップキャッシュメモリは，主記憶からキャ
ッシュメモリへの対応が一意に決まる方式のキャッシュ
メモリである。主記憶上のアドレスをキャッシュサイズ
で割った余りがキャッシュメモリ上のアドレスになる。
アドレスの差がキャッシュサイズの値になるデータ群
は，キャッシュメモリ上に同居できなくなり，性能が低
下する。

【０００５】３）Ｎセットアソシエイティブキャッシュ
メモリダイレクトマップキャッシュを発展させたキャッシュメ
モリである。簡単にいうと，Ｎセットのダイレクトキャ
ッシュメモリと言い直すことができる。

【０００６】４）６４バイトのキャッシュラインサイズ主記憶とキャッシュメモリとの間のデータのやり取りを
６４バイト単位で行う方式である。一つのデータをキャ
ッシュメモリに載せるときに，隣接するデータも一緒に
キャッシュメモリに載せるので，ライン幅を大きくする
とメモリアクセスの回数が減り高速化できる。しかし，
例えば２５６ＫＢのサイズを持つダイレクトマップキャ
ッシュメモリなら，２５６ＫＢ＋３２Ｂのアドレスの差
があるデータは，キャッシュメモリ上で同居できなくな
り，性能低下の原因となるので，むやみに大きくすれば
よいというものではない。

【０００７】５）キャッシュメモリのエントリ数１セットのキャッシュメモリにラインがいくつ含まれて
いるかを，キャッシュのエントリ数という。２５６ＫＢ
のダイレクトマップキャッシュメモリで，６４バイトの
ラインサイズなら，キャッシュのエントリ数は４０９６
となる。

【０００８】６）８バイト／１６バイトアラインメントメモリアクセスデータが割り当てられている領域が，そ
の領域の実アドレスを８又は１６で割ったときに余りが
０になる領域の場合，そのデータは，８バイト又は１６
バイトのアラインメントに割り当てられたデータと呼ば
れる。ＲＩＳＣプロセッサでは，このアラインメントが
ずれたアドレス，すなわちその実アドレスを８又は１６
で割ったときに余りが０にならない領域のアドレスをア
クセスすると，命令によっては，アラインメントエラー
を起こす場合がある。

【０００９】７）ソース情報コンパイラがプログラムを中間テキストに変換する際，
同時に残すプログラムの情報をソース情報と呼ぶ。ソー
ス情報の最も一般的なものが，配列要素の添字の情報で
ある。一般にメモリアクセスは，ベース，オフセット，
インデックスを用いて表現されるので，例えば配列要素
の添字の情報はハードウェア命令を生成するときには意
味のない情報となる。

【００１０】

【従来の技術】今日のコンパイラの最適化技術では，ブ
ロッキングに代表されるように，データをキャッシュメ
モリに保持し続けることにより実行の高速化を図る技術
は存在する。しかし，これら従来の最適化技術は，以下
のような問題点があった。

【００１１】１）これらの最適化技術を適用できるケー
スは稀であり，実プログラムにおいて有効に活用できる
とは必ずしも言えなかった。２）これらの最適化技術が適用できない場合には，頻繁
にキャッシュミスを起こし，性能の低下を招いていた。

【００１２】３）メモリアクセスデータの実アドレスに
隙間を入れて，メモリアクセス時にキャッシュメモリ上
の同じラインへの競合を防ぐ技術もあるが，ＦＯＲＴＲ
ＡＮのＣＯＭＭＯＮブロックに代表されるように，言語
仕様の規約として連続領域に隙間を空けることが不可能
な場合がある。このような場合には，キャッシュメモリ
上での競合が起こり性能の低下を招いていた。

【００１３】なお，キャッシュミスが起こるデータを検
出し，キャッシュミスを隠蔽するためのパイプラインの
スケジューリング方式として，例えば特開平３−２８２
７３４号公報（命令配置最適化コンパイラ）等に開示さ
れているものがあるが，キャッシュミスを解消する方法
については開示されていない。

【００１４】また，連続アクセスに対するメモリアクセ
スの削減では，以下のような問題点が存在した。４）連続領域かどうかの判定を行い，ペアレジスタを用
いて，１回分のメモリアクセスを２回で行う処理自体，
現状のコンパイル処理装置では行われていなかった。

【００１５】５）連続アクセスに対するメモリアクセス
の削減を実現するためには，ループを多重に展開して連
続アクセスを増やすか，または連続領域を認識する処理
が必要である。しかし，命令展開時の複雑さやインタフ
ェースの複雑さから，このような最適化は敬遠されてき
た。

【００１６】６）ＦＯＲＴＲＡＮで頻繁に使用される倍
精度型のデータをレジスタに保持する場合には，３２ビ
ットレジスタが必要となる。この場合，倍精度型データ
２つを一度にアクセスするためには，６４ビットレジス
タと４倍精度メモリアクセス命令が必要である。現状の
ＲＩＳＣプロセッサの主流は３２ビットであり，６４ビ
ットのＲＩＳＣプロセッサへの移行段階の現状では，イ
ンプリメント自体が行われていなかった。

【００１７】

【発明が解決しようとする課題】本発明は，上記問題点
の解決を図り，特にキャッシュメモリ上で競合するデー
タを翻訳時に解析して競合を解消し，またメモリアクセ
スの回数を削減して，翻訳したプログラムの実行性能を
向上させることを目的とする。そのため，以下の点に着
目する。

【００１８】（１）キャッシュメモリの最適化キャッシュメモリは，１マシンサイクルでアクセスでき
るメモリであり，主記憶と比較して３０倍程度高速にア
クセスできる。キャッシュメモリ上にデータを保持し続
けることができれば常に高速なメモリアクセスが可能で
あるが，限られた容量しかないキャッシュメモリでは，
全てのデータを保持することは不可能である。そのた
め，キャッシュメモリ上で競合が起こった場合には，最
新のデータをキャッシュメモリ上に保持し，古くなった
データはキャッシュメモリから追い出す方式がハードウ
ェアで実現されている。しかし，競合するメモリアクセ
スデータを翻訳時に解析できれば，これらのメモリアク
セスデータのアクセス順序を変更することでキャッシュ
ミスを削減することが可能である。

【００１９】（２）メモリアクセスの最適化ＲＩＳＣプロセッサでは，演算器にデータを供給するメ
モリアクセスが性能上のボトルネックとなるケースが多
く見受けられる。したがって，メモリアクセスはできる
だけ削減することがＲＩＳＣプロセッサの性能向上につ
ながる。メモリアクセスを削減するためには，コンパイ
ラの最適化でメモリアクセスを削減する方法が一般的で
ある。本発明に述べるメモリアクセスの削減方式は，連
続領域へのメモリアクセスが存在する場合に，連続領域
からデータを一括して取り出し，連続領域へ一括して書
き込むといったベクトル（ペア）ロード／ストアの縮小
版を疑似的に実現するものである。

【００２０】なお，上記２点はＲＩＳＣプロセッサに限
らず，一般の汎用マイクロプロセッサにも適用でき，か
つ高性能化を実現することが可能である。

【００２１】

【課題を解決するための手段】図１は，本発明の原理構
成図である。図１において，１はコンパイル処理装置，
２は連続領域生成部，３はメモリアクセスデータ収集
部，４は競合データ解析部，５はメモリアクセスデータ
の重なり解析部，６は連続領域認識部，７はアライメン
トの検査部，８はペアロード・ペアストア生成部，１１
はソースプログラム解析部，１２は最適化部，１３は命
令移動部，１４はコード生成部，２０はアーキテクチャ
情報を表す。

【００２２】コンパイル処理装置１は，ソースプログラ
ムを解析し中間テキストを生成するソースプログラム解
析部１１，最適化処理を行う最適化部１２，最適化部１
２の結果に基づき命令の並び換えを行う命令移動部１
３，最適化部１２および命令移動部１３の結果に基づき
コードを生成するコード生成部１４からなり，最適化部
１２に本発明の主要部である以下の手段を備える。

【００２３】連続領域生成部２は，プログラムの翻訳に
おける最適化処理時にループアンローリングにより連続
領域に対するメモリアクセスデータを増やす手段であ
る。メモリアクセスデータ収集部３は，プログラムの翻
訳における最適化処理において，連続領域生成部２によ
り連続領域に対するメモリアクセスデータを増やした後
にメモリアクセスデータを収集する手段である。

【００２４】競合データ解析部４は，メモリアクセスデ
ータ収集部３により収集したメモリアクセスデータ間の
キャッシュメモリ上の競合関係を解析する手段である。
メモリアクセスデータの重なり解析部５は，競合データ
解析部４の競合データ解析結果に基づき，キャッシュメ
モリ上で競合が生じるメモリアクセスデータに対する命
令の移動可否を検査する手段である。

【００２５】連続領域認識部６は，プログラムの翻訳に
おける最適化処理において連続領域に対するメモリアク
セスデータを認識する手段である。アラインメントの検
査部７は，連続領域認識部６で認識した連続領域に対す
るメモリアクセスデータのアラインメントを検査する手
段である。

【００２６】ペアロード・ペアストア生成部８は，アラ
インメントの検査部７のアラインメントの検査結果に基
づき，連続領域に対する複数のメモリアクセスデータを
１つのメモリアクセスデータとしてロードまたはストア
する命令を生成する手段である。

【００２７】命令移動部１３は，メモリアクセスデータ
の重なり解析部５によるメモリアクセスデータの重なり
解析結果に基づき，キャッシュメモリ上で競合が生じる
メモリアクセスデータに対してキャッシュミスを軽減す
る命令の並び換えを行う手段である。

【００２８】図１中，連続領域生成部２，メモリアクセ
スデータ収集部３，競合データ解析部４，メモリアクセ
スデータの重なり解析部５は，本発明の第１の発明であ
るキャッシュミスの削減に係る手段であり，連続領域認
識部６，アラインメントの検査部７，ペアロード・ペア
ストア生成部８は第２の発明である連続領域に対するメ
モリのアクセスの削減に係る手段である。

【００２９】１．キャッシュミスを削減する翻訳方式本発明では，ブロッキングのようにメモリアクセスデー
タを常にキャッシュメモリに保持するのではなく，キャ
ッシュメモリ上での競合は起こるが，一度キャッシュメ
モリに保持した値を使用するまでは，できるだけキャッ
シュメモリ上に保持する方法を考える。以下に第１の発
明であるキャッシュミスを削減する翻訳方式について，
例を挙げて説明する。

【００３０】図２（ａ）はオリジナルソースプログラム
を表す図である。図２（ａ）に示すＦＯＲＴＲＡＮプロ
グラムのループは，コンパイラにおける最適化処理にお
いて，ループインデックス交換処理によりインデックス
Ｊ，Ｋが交換される。さらに，ループ展開処理により，
最内ループは２重に展開される。これをループアンロー
リングという。図２（ｂ）はインデックス交換と最内ル
ープが２重に展開された（ループアンローリング処理）
後のテキストをソースプログラムの表現形式で表した図
である。

【００３１】ここで，配列要素のＸ（ＪＸ，Ｋ），Ｘ
（ＪＸ−１，Ｋ），Ｙ（ＪＸ−１，Ｋ），Ｙ（ＪＸ−
１，Ｋ）に着目する。配列要素Ｘ（ＪＸ，Ｋ），Ｙ（Ｊ
Ｘ，Ｋ）とＸ（ＪＸ−１，Ｋ），Ｙ（ＪＸ−１，Ｋ）
は，実アドレス上で割り付けられている領域は違うが，
キャッシュメモリ上で，同じラインに格納されるものと
仮定する。

【００３２】今，メモリアクセスの順番は，１）Ｘ（ＪＸ，Ｋ）のロード２）Ｙ（ＪＸ，Ｋ）のロード３）Ｘ（ＪＸ−１，Ｋ）のロード４）Ｙ（ＪＸ−１，Ｋ）のロードであるが，キャッシュメモリへデータをロードするとき
は隣接するアドレスのデータも同時に格納される。な
お，この同時に格納されるデータの個数はキャッシュメ
モリのブロック長に依存する。

【００３３】今，キャッシュメモリのブロック長を３２
バイトとすると，１回のロード命令により配列要素（倍
精度データの場合）の４つをキャッシュメモリに格納す
ることができる。

【００３４】上記１）から４）の各配列要素のアクセス
時のキャッシュメモリ内の振舞いを図３に示す。図３
（ａ）はメモリアクセスデータの変更前のメモリアクセ
スとキャッシュメモリとの関係を示す図，図３（ｂ）は
メモリアクセスデータの並び換えとキャッシュメモリと
の関係を示す図である。ここで重要なことは，キャッシ
ュメモリへのミスヒットを起こさないように各配列要素
を並び換えることである。

【００３５】図３（ａ）に示す配列要素のアクセスの順
序を，図３（ｂ）に示すように変更することでキャッシ
ュメモリ上の競合が抑えられる。すなわち，図３（ａ）
の変更前のメモリアクセスでは，各配列要素のメモリア
クセス４回は全てキャッシュメモリでミスヒットした
が，図３（ｂ）のようにロード命令を並び換えることに
よってキャッシュメモリでのミスヒットを２回に抑える
ことができる。

【００３６】図４は，各配列要素のアクセス順序を並び
換える場合のアセンブラソースを示す図である。図４に
おいて，ｇｒｘは汎用レジスタ，ｌｄｄは倍精度ロー
ド，ｆｓｕｂｄは倍精度減算，ｆｒｘは浮動小数点レジ
スタ，ｓｔｄは倍精度ストア，ｆｍｕｌｄは倍精度乗算
を表す。図４では，Ｌ１のＸ（ＪＸ，Ｋ）のロード命令
の後にＬ２７のＸ（ＪＸ−１，Ｋ）のロード命令を移動
し，Ｌ６のＹ（ＪＸ，Ｋ）のロードの後にＬ３２のＹ
（ＪＸ−１，Ｋ）のロード命令を移動する。これによっ
て，図３（ｂ）に示すようにミスヒットが削減されるこ
とになる。

【００３７】２．連続領域に対するメモリアクセスを削
減する翻訳方式第２の発明である連続領域に対するメモリアクセスを削
減する翻訳方式は，単精度型や倍精度型のメモリアクセ
スデータに対して，それぞれ倍精度レジスタ，４倍精度
レジスタへロードする，あるいは倍精度レジスタ，４倍
精度レジスタでストアすることにより，実際のメモリア
クセス回数を減らす処理方式である。

【００３８】図５は連続領域に対するメモリアクセスの
プログラム例を示す図である。図５（ａ）において，配
列は全て単精度とする。従来は，図５（ａ）に示すよう
なメモリ間転送については，図５（ｂ）に示すように配
列１要素をロードし１要素をストアする方式をとってい
た。これを，次のようにする。

【００３９】１）配列２要素をまとめてロードし，１要
素ずつストアする。２）配列１要素ずつロードし，２要素まとめてストアす
る。こうすることにより，メモリアクセスの回数を減らすこ
とができる。図６は，連続領域に対するメモリアクセス
を第２の発明の翻訳方式により最適化した例を示す図で
ある。図６（ａ）は，上記の１）により配列２要素をま
とめてロードし，１配列要素ずつストアした場合の例，
図６（ｂ）は，上記の２）により配列１要素ずつロード
し，２配列要素まとめてストアした場合の例を示す。

【００４０】ここで，１）または２）の方式のどちらを
選ぶかは，各配列要素の実アドレス上のメモリアライン
メントに依存する。例えば，図６（ａ）に示す倍精度レ
ジスタでロードする方式を選択すると先頭のロード命令
でアクセスされる配列要素が８バイトの先頭アラインメ
ントに割り当てられていないのでメモリアラインメント
エラーとなる。この場合は図６（ｂ）に示す方式で連続
領域をアクセスしなければならない。

【００４１】

【作用】本発明により，キャッシュメモリ上でのメモリ
アクセスデータの競合関係が把握でき，かつ命令を移動
することにより，キャッシュミスを削減することができ
る。また，連続領域のメモリアクセスの最適化を適用す
ることにより，メモリアクセスの回数を削減することが
できる。

【００４２】

【実施例】以下，本発明のコンパイル処理装置における
キャッシュミスを削減する翻訳方式および連続領域への
メモリアクセスを削減する翻訳方式の実施例を個別に説
明する。

【００４３】１．キャッシュミスを削減する翻訳方式本最適化は，ソースプログラム解析部１１により，プロ
グラムを中間テキストに変換した段階で行われる。

【００４４】処理は，以下の（１）から（７）のステッ
プで行われる。（１）連続データを増やすためのループ展開の実施。（２）メモリアクセスデータの収集。

【００４５】（３）キャッシュメモリ上でのライン数の
計算と登録。（４）キャッシュメモリ上の競合関係の解析。（５）メモリアクセスデータ移動のための重なり解析。

【００４６】（６）キャッシュメモリ上で競合が起こる
メモリアクセスデータに対するレジスタ割り付けの処
理。（７）キャッシュメモリ上で競合が起こるメモリアクセ
スデータに対する命令の移動処理。

【００４７】以下，（１）から（７）の処理ステップを
詳細に説明する。（１）連続データを増やすためのループ展開の実施。隣接するメモリアクセスデータを増やすためにループ展
開を実施する。ループを多重に展開する場合，レジスタ
が競合しないようにレジスタ数や演算数を考慮してルー
プの展開数を決定する。なお，この処理は，ループアン
ローリング処理としてよく知られている最適化処理の一
つであるが，本発明では，単にループ回数の削減による
高速化だけではなく，連続領域アクセスを増やす目的で
使用する。

【００４８】（２）メモリアクセスデータの収集。収集するメモリアクセスデータは，ループ内でのアドレ
スがコンパイラによって静的に認識できる配列要素に限
定する。

【００４９】(a) ループ内の全ての配列要素に対して，
以下の情報を収集する。・中間テキストのアドレス・アドレッシング情報１（ベース，インデックス，即
値）の収集・アドレッシング情報２（ソース情報：添字要素等）の
収集・配列の割り付け情報（領域種別，割り付け位置，順
序）の収集 (b) 収集対象となったループの情報（ソース情報）を収
集する。

【００５０】・ループ回転数の初期値・ループ回転数の最終値・ループの増分値これらの収集したデータを，図７に示すような情報テー
ブルに格納する。

【００５１】（３）キャッシュメモリ上でのライン数の
計算と登録。ループ内で収集したメモリアクセスデータが，キャッシ
ュメモリ上のどのラインに載るかを計算する。計算はア
ーキテクチャ情報の収集内容に応じて，次の(a) 〜(e)
の方法のいずれかの方法を適用する。

【００５２】(a) 全ての情報が収集できた場合・各配列のループ１回転目のアドレスをバイト単位で計
算する。・式１によりキャッシュアクセスのアドレスが
わかる。これをキャッシュメモリのアドレスとする。キ
ャッシュメモリのアドレスをキャッシュメモリのライン
サイズで割った商＋１ライン目に，このデータは格納さ
れる（式２）。さらに，ライン上の何バイト目にデータ
が格納されるかは，余りから計算する。

【００５３】 C-ADDR = ARRAY-ADDR MOD (CACHE-LINE-SIZE*CACHE-ENTRY-SIZE) …（式１） ARRAY-ADDR ：各配列要素の１回転目のアドレスの
バイト数 CACHE-LINE-SIZE ：キャッシュメモリのラインサイズ CACHE-ENTRY-SIZE：キャッシュメモリのエントリサイズ C-ADDR ：キャッシュメモリのアドレス LINE = (C-ADDR / CACHE-LINE-SIZE)+1 …（式２） LINE ：格納ライン数キャッシュメモリのラインサイズ，キャッシュメモリの
エントリサイズ，キャッシュサイズは，アーキテクチャ
情報として翻訳時に与えられている。

【００５４】(b) ループの初期値の情報が不定（静的に
解析不能）な場合ループの初期値を１と仮定して，上記(a) の場合の解析
方法を適用する。 (c) ループの増分値の情報が不定な場合まず，ループの回転ごとに増分値が変化するかどうかを
調べる。増分値がループ内定数であれば，増分値を予測
して，上記(a) の場合の解析方法を適用する。増分値
が，ループの回転ごとに変化する可能性があれば，解析
をあきらめる。

【００５５】(d) 配列要素のソース情報が不定な場合ただし，ループの初期値の情報は不定ではないとする。
この場合には，不定部分を配列宣言の各次元の最低値と
し，上記(a) の場合の解析方法を適用する。

【００５６】(e) 配列要素ではないか，あるいは(a) 〜
(d) 以外の場合の配列要素の時この場合は，ソースとなるアーキテクチャ情報が不定の
ため，ライン数の解析は行わない。

【００５７】〔ライン数の計算例〕図２に示すプログラ
ムに本解析方式を適用した場合の処理例を以下に示す。
コンパイル処理装置へのパラメータまたはシステムテー
ブル等から与えられたアーキテクチャ情報から，キャッ
シュメモリの構成は，以下のとおりであったとする。

【００５８】・ダイレクトマップ方式・キャッシュサイズ：１２８ＫＢ・キャッシュラインサイズ：３２Ｂ・キャッシュエントリ数：４０９６Ｆ（），Ｘ（），Ｙ（）は倍精度型の配列で，Ｆ（），
Ｘ（），Ｙ（）の順番でメモリに割り付けられていると
する。また，Ｆ（１，１，１）を０（基点）と仮定す
る。ループの初期値，終値，増分値は，それぞれ翻訳時
にわかる。以上のキャッシュメモリの構成で計算した各
配列要素のキャッシュメモリ上のライン数は，次のよう
になる。このときのキャッシュメモリ上の競合関係を，
図９に示す。

【００５９】 F(JX,K,1) = F(126,1,1) = F(1,1,1)+125*8 = 1000 1000 mod (32*4096) = 1000 1000/32 = 31.25 = 32ライン F(JX+1,K,1) = F(127,1,1) = F(1,1,1)+126*8 = 1008 1008 mod (32*4096) = 1008 1008/32 = 31.5 = 32ライン F(JX+2,K,1) = F(128,1,1) = F(1,1,1)+127*8 = 1016 1016 mod (32*4096) = 1016 1016/32 = 31.25 = 32ライン F(JX,K,2) = F(126,1,2) = F(1,1,1)+(125+1*128*128)*8 = 132072 132072 mod (32*4096) = 1000 1000/32 = 31.25 = 32ライン X(JX,K) = X(126,1) = F(128,128,3)+X(1,1)+125*8 396288+125*8 = 397288 397288 mod (32*4096) = 4072 4072/32 = 127.25= 128ライン Y(JX,K) = Y(126,1) = F(128,128,3)+X(128,128)+Y(1,1)+125*8 396288+131072+100 = 528360 528360 mod (32*4096) = 4072 4072/32 = 127.25= 128ライン上記のように，解析したメモリアクセスデータのメモリ
のライン数を，図７に示す情報テーブルに登録する。

【００６０】図７は，情報の格納場所およびデータ構造
の概念図である。図７に示すように，翻訳時に，解析対
象プログラムのループからループ回転数の初期値，ルー
プの回転数，ループ回転数の終値等のループ情報を収集
してソース情報として情報テーブルに格納し，配列要素
ごとのキャッシュのライン数をもとに競合状態を調べ
る。例えば配列要素Ａ（Ｉ，Ｊ），Ｂ（Ｉ，Ｊ）は，そ
れぞれキャッシュライン数が１００で競合関係にあるの
で，競合状態のフラグをＯＮにし，いずれの配列要素と
も競合関係にないＣ（Ｉ，Ｊ）は競合状態のフラグをＯ
ＦＦにする。

【００６１】図８は，配列要素のキャッシュライン数計
算の処理フローチャートである。まず，ステップＳ１で
は，メモリアクセスデータの取り出しを行う。次に，ス
テップＳ２では，取り出したメモリアクセスデータが配
列要素かどうかを判定する。配列要素でない場合には，
ステップＳ１へ戻り，次のメモリアクセスデータの取り
出しを行う。配列要素の場合には，ステップＳ３へ進
む。

【００６２】ステップＳ３では，情報テーブルのソース
情報を参照して，配列要素のアドレスをバイト単位で計
算する。ステップＳ４では，情報テーブルのアーキテク
チャ情報を参照して，前述した（式１）および（式２）
により，キャッシュアクセスのアドレスからキャッシュ
ライン数を計算する。ステップＳ５では，計算したキャ
ッシュメモリのライン数を情報テーブルに登録し，ステ
ップＳ１へ戻って，メモリアクセスデータがなくなるま
で同様に処理を繰り返す。（４）キャッシュメモリ上の競合関係の解析。

【００６３】ダイレクトマップのキャッシュメモリの場
合は，キャッシュメモリのラインがキャッシュメモリの
アドレスとなる。したがって，この場合には，図９に示
すように，配列要素Ｆ（ＪＸ，Ｋ，１），Ｆ（ＪＸ＋
１，Ｋ，１），Ｆ（ＪＸ＋２，Ｋ，１）およびＦ（Ｊ
Ｘ，Ｋ，２）はキャッシュメモリのライン３２に格納さ
れる。このうち，配列要素Ｆ（ＪＸ，Ｋ，１），Ｆ（Ｊ
Ｘ＋１，Ｋ，１），Ｆ（ＪＸ＋２，Ｋ，１）は式１で求
めた商が同じなので，連続領域であることがわかる。こ
れは，上記の３つの配列の内の１つがキャッシュメモリ
のラインに格納された時に，その他の２つの配列要素も
同時にキャッシュメモリの同一ラインに格納されること
を意味する。

【００６４】配列要素Ｆ（ＪＸ，Ｋ，１），Ｆ（ＪＸ＋
１，Ｋ，１），Ｆ（ＪＸ＋２，Ｋ，１）とＦ（ＪＸ，
Ｋ，２）とは，式１で求めた商が異なるので，キャッシ
ュメモリ上での競合データとなる。同様に，配列要素Ｘ
（ＪＸ，Ｋ），Ｙ（ＪＸ，Ｋ）はキャッシュメモリのラ
イン１２８で競合し，式１の商が異なるので競合データ
となる。

【００６５】図１０は，キャッシュメモリ上での配列要
素の競合を調べる解析処理フローチャートである。キャ
ッシュメモリの構成が，ダイレクトマップではなくＮセ
ットアソシエイティブキャッシュメモリの場合，配列要
素間の競合が起こっても，キャッシュメモリ上のセット
が異なる場合があるので，競合するデータの個数とセッ
ト数を考慮する必要がある。

【００６６】なお，本発明では，キャッシュメモリ上で
の配列要素の競合解析をキャッシュメモリのライン数を
計算した直後に実施しているが，ライン数を計算した後
であるなら，論理的にどのフェーズでも実施可能であ
る。

【００６７】図１０において，個々のライン数に対して
競合データの個数の初期化を行った後，ステップＳ１１
では，２つの配列要素のキャッシュライン数を取り出
す。ステップＳ１２では，配列要素のキャッシュライン
数が不明かどうかを判定する。不明であれば，競合状態
と判定して（ステップＳ１３），ステップＳ１１へ戻
り，次の２つの配列要素の処理へ移る。不明でなけれ
ば，ステップＳ１４の処理を行う。

【００６８】ステップＳ１４では，取り出した配列要素
のキャッシュライン数が同じかどうかを判定する。同じ
でなければ競合しないと判定して（ステップＳ１５），
ステップＳ１１へ戻り，次の２つの配列要素の処理へ移
る。同じであればステップＳ１６の処理を行う。

【００６９】ステップＳ１６では，取り出した配列要素
が連続領域かどうかを判定する。連続領域であれば競合
しないと判定して（ステップＳ１７），ステップＳ１１
の処理へ戻る。連続領域でなければ，ステップＳ１８の
処理を行う。

【００７０】ステップＳ１８では，キャッシュメモリの
セット数（Ｎ）が競合データの個数より大きいかどうか
を判定する。キャッシュメモリのセット数（Ｎ）が競合
データの個数より大きい場合には，競合しないと判定し
て（ステップＳ１９），ステップＳ２１の処理を行う。
大きくない場合には，競合状態と判定して（ステップＳ
２０），ステップＳ２１の処理を行う。

【００７１】ステップＳ２１では，競合データの個数に
１を加える。その後，ステップＳ１１へ戻って，次の２
つの配列要素について同様に処理を繰り返す。（５）配列要素間の実アドレス上での重なり解析。

【００７２】２つの配列要素がキャッシュメモリ上で競
合する場合，競合が起こる前に一方の隣接する配列要素
を取り出すことができれば，その隣接要素に対しては，
キャッシュミスを起こさない。しかし，その隣接要素
は，必ずしも競合する配列要素の間にあるとは限らな
い。隣接する配列要素を競合を起こす前の配列要素に近
づける（命令スケジューリングによる命令の移動）ため
には，配列要素間の重なりを解析し，他の配列要素と互
いに重ならないことを保証しなければならない。これが
配列要素の重なり解析である。命令スケジューリングが
隣接要素をキャッシュミスが起きない位置へ移動する際
に，この重なり関係の解析情報が必要になる。

【００７３】（６）レジスタ割り付けの処理。レジスタ割り付けでは，メモリからロードするレジスタ
に対しては，できるだけ異なるレジスタを割り当てる。

【００７４】（７）隣接データの移動。命令スケジューリングでは，キャッシュメモリ上で競合
が起こる２つの配列要素に対する個々の隣接データを，
できる限り互いに近づけるように，命令の移動を行う
（図４の例を参照のこと）。図２（ａ）に示すプログラ
ムの例では，ループ展開を行った後，配列要素Ｙ（Ｊ
Ｘ，Ｋ）をロードする前に，配列要素Ｘ（ＪＸ，Ｋ）と
Ｘ（ＪＸ＋１，Ｋ）をロードしてしまえば，配列要素Ｘ
（ＪＸ＋１，Ｋ）をキャッシュミスなしに，取り出すこ
とができる。

【００７５】２．連続領域に対するメモリアクセスを削
減する翻訳方式次に，連続領域を意識したメモリアクセスの削減に関す
る実施例を説明する。連続領域のメモリアクセスを高速
化するための要素は，以下の３つである。

【００７６】（１）連続領域をアクセスしているか否か
の認識。（２）連続領域のアラインメントの認識。（３）単精度／倍精度データのペアロード／ペアストア
への変換。

【００７７】連続領域であるか否かの認識は，ソース情
報とメモリアクセスデータのループ内の重なり情報を用
いて行う。ただし，連続領域のアラインメントの解析を
行う場合に，以下の３点の前提条件が必要である。

【００７８】ａ）４バイトの配列要素の先頭は，必ず８
バイトアラインメントの先頭に割り当てられる。ｂ）８バイトの配列要素の先頭は，必ず１６バイトアラ
インメントの先頭に割り当てられる。

【００７９】ｃ）解析対象の配列要素は重なり解析によ
り，正確に配列要素間の距離が判明している。このａ）〜ｃ）の３つの条件のうち，１つでも崩れると
ペアロード／ペアストアが生成されないか，あるいは生
成されてもアドレス例外のトラップ（ｔｒａｐ）が起こ
る。例えば，このようなｔｒａｐは，ペアロードのアラ
インメントを厳密に規定（検査）しているアーキテクチ
ャの場合に発生する。

【００８０】以上の前提のもとに，連続領域の高速化の
ための本最適化の処理の概要を説明する。図１１ないし
図１３は，本実施例の最適化を説明するためのソースプ
ログラムとその中間テキストの例，図１４は，ペアロー
ド／ペアストアの生成パターン例を示す。

【００８１】（１）連続領域をアクセスしているか否か
の認識。連続領域の解析対象のメモリアクセスは，この例では４
バイトデータ（単精度）と仮定する。８バイトデータ
（倍精度）についても，４バイトデータと同様な方法で
判定することができる。

【００８２】(a) 初期番号（Initial Number）の割り当
て配列要素の重なり解析をもとに，各配列要素間に初期番
号（Initial Number）を割り当てる。図１１に，初期番
号の割り当て例を示す。

【００８３】重なり解析および添字要素の解析により，
図１１の例で示したループ内の各配列要素は，配列の先
頭からアクセスされていることがわかる。初期番号を割
り当てる際には，配列の先頭を０として，その基点から
の距離を番号として割り当てる。上記の例だと初期番号
は，Ａ（Ｉ）について０，Ｂ（Ｉ）についても０とな
る。なお，中間テキストにおける「ＳＴＯＲＥＡＸＤ
（Ａ），０」は，配列Ａの要素に数値０をストアする命
令を意味している。

【００８４】(b) 連続番号の割り当てループを多重に展開する際には，各配列要素は展開数だ
けコピーされる。ループ展開時にコピーした配列要素に
対して連続番号（Sequential Number)を割り当てる。図
１１に示すソースプログラムを２重にループ展開した場
合について図１２に示す。

【００８５】ループ展開により，Ａ（Ｉ）の次の要素Ａ
（Ｉ＋１）が生成される。この場合，ループ展開はＡ
（Ｉ）からの要素間の距離を連続番号として割り当て
る。図１２の例では，基点０からの距離は１なので，Ａ
（Ｉ＋１）には，連続番号として１が割り当てられる。
配列要素Ｂ（Ｉ＋１）についても，同様に連続番号＝１
が割り当てられる。

【００８６】次に，別の例を図１３に示す。図１３
（ａ）に示すように，初期番号は，それぞれ割り当て済
みとする。図１３（ａ）に示すソースプログラムにおい
て，ループ展開により，ループが２重に展開されるとす
ると，図１３（ｂ）に示すように，Ａ（Ｉ＋１）に対し
て，ループ展開によりコピーＡ（Ｉ＋３）が生成され
る。これは基点からの距離が＋２なので，連続番号は１
＋２＝３となる。

【００８７】Ａ（Ｉ＋２）に対して，ループ展開により
コピーＡ（Ｉ＋４）が生成され，これは基点からの距離
が＋２なので，連続番号は２＋２＝４となる。（２）連続領域のアラインメントの認識。

【００８８】アラインメントを意識した連続領域の判定
で，初期番号が偶数ならば，そのメモリアクセスデータ
は，８バイトまたは１６バイトアラインメントの先頭で
あることがわかる。このことから，アラインメントを意
識した連続領域は，初期番号／連続番号を含めて，〔偶
数番号，偶数番号＋１〕の配列要素のペアが連続領域で
あると認識できる。

【００８９】例えば，図１２に示したプログラムでは，
中間テキストのＡ（Ｉ）の初期番号は０，Ａ（Ｉ＋１）
の連続番号が１であることから，〔Ａ（Ｉ），Ａ（Ｉ＋
１）〕が連続領域であると判断できる。同様に，〔Ｂ
（Ｉ），Ｂ（Ｉ＋１）〕が連続領域であると判断でき
る。また，図１３（ｂ）に示す例では，中間テキストの
初期番号，連続番号から，Ａ（Ｉ＋２）と，Ａ（Ｉ＋
３）が〔偶数番号，偶数番号＋１〕に該当するので，
〔Ａ（Ｉ＋２），Ａ（Ｉ＋３）〕の配列要素が連続領域
となる。Ａ（Ｉ＋１），Ａ（Ｉ＋４）については，アラ
インメントを意識した場合には連続領域は存在しないと
判断する。（３）単精度／倍精度データのペアロード／ペアストア
への変換。

【００９０】初期番号と連続番号から，ペアロード／ペ
アストアを生成するメモリアクセスデータを決定する。
連続するメモリアクセスデータに対して，ペアロード／
ペアストアを生成するためには，ロード／ストアに対応
する中間テキストに対して，ペアレジスタが必要である
ことをレジスタ割り付けに通知するインタフェースが必
要になる。そのために，メモリアクセスを表現する中間
テキスト（ＬＯＡＤ／ＳＴＯＲＥ）に対して複合一時名
を許すことで対応する。

【００９１】なお，生成されるペアロード／ペアストア
は，図１４に示すように，３つのパターンしかなく，ペ
アロード・ペアストア生成部８が３つのパターンのう
ち，どのパターンであるかを決定する。

【００９２】図１４（ａ）に示すパターン１は，８（ま
たは１６）バイトの連続領域をペアロードし，４（また
は８）バイトずつ個別にストアする場合である。図１４
（ｂ）に示すパターン２は，４（または８）バイトずつ
個別にロードし，８（または１６）バイトの連続領域を
ペアストアする場合である。

【００９３】図１４（ｃ）に示すパターン３は，８（ま
たは１６）バイトの連続領域をペアロードし，８（また
は１６）バイトの連続領域をペアストアする場合であ
る。（４）レジスタ割り付けの処理。

【００９４】レジスタ割り付けの処理では，オペランド
に複合一時名（１つの定義オペランドに複数の定義オペ
ランドを持つ中間テキスト）を持つメモリアクセス演算
に対して，ペアレジスタを割り付ける。

【００９５】（５）コード生成の処理。コード生成の処理では，メモリアクセス演算の定義，参
照オペランドに複合一時名がきた場合に，倍精度型のロ
ード／倍精度型のストア（または，４倍精度のロード／
４倍精度のストア）命令を生成する。

【００９６】図１５は，連続領域の最適化（連続領域に
対するメモリアクセスを削減する翻訳方式）の処理フロ
ーチャートである。図１５において，ステップＳ３１で
は，配列要素の重なり解析が可能か否かを判定する。配
列要素の重なり解析が可能な場合には，ステップＳ３２
の処理を行い，解析が不可能な場合には本最適化処理を
終了する。

【００９７】ステップＳ３２では，各配列要素間に初期
番号を割り当てる。ステップＳ３３では，ループアンロ
ーリングによりループ展開を実施する。なお，本最適化
の処理前に既にループアンローリングを行っていれば，
ここでのループ展開は不要である。

【００９８】ステップＳ３４では，ループ展開時にコピ
ーした配列要素に対して連続番号を割り当てる。ステッ
プＳ３５では，アラインメントの認識を行う。

【００９９】ステップＳ３６では，初期番号および連続
番号をもとに，連続領域か否かを判定する。連続領域と
認識した場合には，ステップＳ３７の処理を行い，連続
領域と認識しなかった場合には，ステップＳ３８へ進
む。

【０１００】ステップＳ３７では，初期番号と連続番号
から，ペアロード／ペアストアを生成するメモリアクセ
スデータを決定し，ペアロード／ペアストアを生成する
３つのパターンのうち１つのパターンを決定して，ペア
ロードもしくはペアストアまたはこれらの双方を生成す
る。

【０１０１】ステップＳ３８では，すべての連続領域に
ある配列要素に対する処理が終了したどうかを判定し，
終了した場合には本最適化処理を終了する。終了してい
ない場合には，ステップＳ３５へ戻り，次の配列要素に
対して同様に処理を繰り返す。

【０１０２】以上，キャッシュミスを削減する方式と連
続領域に対するメモリアクセスを削減する方式の２つの
最適化の例を別々に説明したが，双方を同時に適用し
て，さらに実行効率のよいオブジェクトプログラムを生
成することができることは言うまでもない。

【０１０３】

【発明の効果】以上説明したように，本発明によれば，
メモリアクセスデータのキャッシュミスを削減すること
ができる。このキャッシュミスの削減効果により，プロ
グラムをより高速に実行することが可能となる。

【０１０４】また，連続領域からデータを一括して取り
出し，連続領域へ一括して書き込むことにより，ＲＩＳ
Ｃプロセッサ等でのボトルネックとなるメモリアクセス
を削減することができる。このペアロード／ペアストア
によっても，プログラムをより高速に実行することがで
きる。

【図面の簡単な説明】

【図１】本発明の原理構成図である。

【図２】キャッシュミスを削減する翻訳方式を説明する
ＦＯＲＴＲＡＮのソースプログラムを示す図である。

【図３】図２に示すプログラムのキャッシュメモリ上で
のデータ状態を説明する図である。

【図４】キャッシュミスを削減する翻訳方式を行った場
合のオブジェクトコード（アセンブラソース）を示す図
である。

【図５】連続領域に対するメモリアクセスのプログラム
例を示す図である。

【図６】連続領域に対するメモリアクセスを削減する翻
訳方式を行った場合のオブジェクトコード（アセンブラ
ソース）を示す図である。

【図７】キャッシュの競合関係を調べるための情報の格
納場所およびデータ構造を示す図である。

【図８】配列要素のキャッシュライン数計算の処理フロ
ーチャートである。

【図９】各配列要素とキャッシュメモリ上での競合状態
を示す図である。

【図１０】キャッシュメモリ上の競合関係の解析処理フ
ローチャートである。

【図１１】本実施例の最適化を説明するためのソースプ
ログラムとその中間テキストの例を示す図である。

【図１２】本実施例の最適化を説明するためのソースプ
ログラムとその中間テキストの例を示す図である。

【図１３】本実施例の最適化を説明するためのソースプ
ログラムとその中間テキストの例を示す図である。

【図１４】ペアロード／ペアストアの生成パターン例を
示す図である。

【図１５】連続領域の最適化（連続領域に対するメモリ
アクセスを削減する翻訳方式）の処理フローチャートで
ある。

【符号の説明】

１コンパイル処理装置２連続領域生成部３メモリアクセスデータ収集部４競合データ解析部５メモリアクセスデータの重なり解析部６連続領域認識部７アラインメントの検査部８ペアロード・ペアストア生成部１１ソースプログラム解析部１２最適化部１３命令移動部１４コード生成部２０アーキテクチャ情報

Claims

【特許請求の範囲】

【請求項１】キャッシュメモリを持つ計算機上で動作
するプログラムの翻訳を行うコンパイル処理装置におい
て，プログラムの翻訳における最適化処理においてメモ
リアクセスデータを収集するメモリアクセスデータ収集
部と，収集したメモリアクセスデータ間のキャッシュメ
モリ上の競合関係を解析する競合データ解析部と，競合
データ解析結果に基づき，キャッシュメモリ上で競合が
生じるメモリアクセスデータに対する命令の移動可否を
検査するメモリアクセスデータの重なり解析部と，メモ
リアクセスデータの重なり解析結果に基づき，キャッシ
ュメモリ上で競合が生じるメモリアクセスデータに対し
てキャッシュミスを軽減する命令の並び換えを行う命令
移動部とを備えたことを特徴とするコンパイル処理装
置。
【請求項２】請求項１記載のコンパイル処理装置にお
いて，プログラムの翻訳における最適化処理時にループ
アンローリングにより連続領域に対するメモリアクセス
データを増やす連続領域生成部を備え，前記メモリアク
セスデータ収集部は，連続領域に対するメモリアクセス
データを増やした後にメモリアクセスデータを収集し，
前記命令移動部は，連続領域のメモリアクセスデータに
対する命令が並ぶように命令を移動させることを特徴と
するコンパイル処理装置。
【請求項３】請求項１記載のコンパイル処理装置にお
いて，前記競合データ解析部は，翻訳後のプログラムを
動作させる計算機に関する，与えられたアーキテクチャ
情報をもとに，メモリアクセスデータ間のキャッシュメ
モリ上の競合関係を解析することにより，複数種のキャ
ッシュメモリの構成に対応可能な解析手段を持つことを
特徴とするコンパイル処理装置。
【請求項４】キャッシュメモリを持つ計算機上で動作
するプログラムの翻訳を行うコンパイル処理装置におい
て，プログラムの翻訳における最適化処理において連続
領域に対するメモリアクセスデータを認識する連続領域
認識部と，認識した連続領域に対するメモリアクセスデ
ータのアラインメントを検査するアラインメントの検査
部と，アラインメントの検査結果に基づき，連続領域に
対する複数のメモリアクセスデータを１つのメモリアク
セスデータとしてロードまたはストアする命令を生成す
るペアロード・ペアストア生成部とを備えたことを特徴
とするコンパイル処理装置。
【請求項５】キャッシュメモリを持つ計算機上で動作
するプログラムの翻訳を行うコンパイル処理装置におい
て，プログラムの翻訳における最適化処理においてルー
プアンローリングにより連続領域に対するメモリアクセ
スデータを増やす連続領域生成部と，メモリアクセスデ
ータを収集するメモリアクセスデータ収集部と，収集し
たメモリアクセスデータ間のキャッシュメモリ上の競合
関係を解析する競合データ解析部と，競合データ解析結
果に基づき，キャッシュメモリ上で競合が生じるメモリ
アクセスデータに対する命令の移動可否を検査するメモ
リアクセスデータの重なり解析部と，メモリアクセスデ
ータの重なり解析結果に基づき，キャッシュメモリ上で
競合が生じるメモリアクセスデータに対してキャッシュ
ミスを軽減する命令の並び換えを行う命令移動部と，連
続領域に対するメモリアクセスデータを認識する連続領
域認識部と，認識した連続領域に対するメモリアクセス
データのアラインメントを検査するアラインメントの検
査部と，アラインメントの検査結果に基づき，連続領域
に対する複数のメモリアクセスデータを１つのメモリア
クセスデータとしてロードまたはストアする命令を生成
するペアロード・ペアストア生成部とを備えたことを特
徴とするコンパイル処理装置。