JP3425069B2

JP3425069B2 - バイナリ・プログラム変換装置および方法

Info

Publication number: JP3425069B2
Application number: JP29460897A
Authority: JP
Inventors: 賢伸日比; 英史西; 俊樹井土; 正治北岡
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1996-10-28
Filing date: 1997-10-27
Publication date: 2003-07-07
Anticipated expiration: 2017-10-27
Also published as: JPH10187460A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、バイナリ・プログ
ラムを別のバイナリ・プログラムに変換するバイナリ・
プログラム変換装置・方法に関し、特に、変換前のバイ
ナリ・プログラム中の命令列を他の命令列に変換するこ
とでプログラムをバイナリ・コードレベルで改変する技
術に関する。

【０００２】

【従来の技術】コンピュータ・システムにおいて、メイ
ン・メモリの高速化は、長年コンピュータシステムの性
能を向上させる上で非常に重要なテーマであった。そこ
には、ハードウェアの改善という側面もあれば、ソフト
ウェアの改善という側面もある。

【０００３】しかし、近年キャッシュメモリが開発され
て様相は変化した。キャッシュメモリは、メインメモリ
とCPUの間に位置し、メインメモリに比べて容量は小さ
いが、高速アクセスが可能で、しかもメインメモリの高
速化を図るよりも低コストで高速化が可能である。

【０００４】なぜならば、キャッシュメモリの容量は小
さくても、通常プログラムというものは、短時間に同じ
命令を何度も実行したり、同じデータを何度も参照した
り、あるいはある命令やデータの近傍の命令／データを
使用する確率が高いという特性を持っている。これが所
謂アクセスの局所性というもので、キャッシュメモリは
この特性を最大限に生かした高速化技術ということがで
きる。

【０００５】こうしたなかで、最近のコンピュータシス
テムのほとんどが、キャッシュメモリを備えている。ま
た、市場では最近パーソナルコンピュータの普及もあっ
て、メインメモリの価格は非常に安くなってきている。
したがって、ソフトウェア側からの性能向上策として、
メインメモリにヒットさせる改善というものはほとんど
価値がない。そのようなことをしなくも、安価になった
メモリを可能な限り増設すれば足りるからである。

【０００６】

【発明が解決しようとする課題】そこで、ソフトウェア
の改善としては、メイン・メモリよりも小さくて高速な
キャッシュ・メモリのヒット率を向上させることの方が
より有効である。つまり、ソフトウェアの改善により、
プログラムの局所性を高め、競合によるキャッシュ・ミ
スを削減して、キャッシュ・メモリの効果を最大限に引
き出すことが重要となる。

【０００７】ところで、キャッシュ・ヒット率が高くな
るようにプログラムを改変するにあたって、ソース・プ
ログラムを必要とするリコンパイル技術では非効率的で
ユーザには受け入れられない。

【０００８】コンピュータ・ハードウェアの進歩はめま
ぐるしく速く、あるハードウェアに適合するプログラム
が開発されるやいなや、さらに進んだハードウェアが開
発されるというのが実状である。

【０００９】従って、プログラムを改変するにあたって
は、進化したコンピュータ・アーキテクチャに対応でき
るようにする必要もあるが、この場合も、ソース・プロ
グラムを必要とする従来のリコンパイル技術では、改変
に時間がかかり、ハードウェアの進歩にソフトウェア側
の対応が追いつかない。

【００１０】以上のことから、ソース・プログラムを用
いずにバイナリ・プログラムを入力して改変すること
で、ユーザにとって受け入れやすく、そのため適用範囲
も広がり、適時にハードウェア性能を最大限に引き出す
プログラムの最適化方式が望まれる。

【００１１】本発明の課題は、プログラムの実行速度の
向上、特に、複数のプログラムを同時に実行させた際の
全体としての実行速度の向上を、プログラムのソースコ
ードを変更することなく達成する点にある。

【００１２】

【課題を解決するための手段】そこで本発明では、上記
課題を解決するために以下の手段をとった。すなわち、
本発明はオブジェクト・プログラムや実行可能オブジェ
クト・プログラム等のバイナリ・プログラムを別のバイ
ナリ・プログラムに変換するための発明であって、複数
の命令ブロックにより構成される変換前のバイナリ・プ
ログラムが実行された際の情報に基づき、変換後のバイ
ナリ・プログラムがキャッシュ・メモリを備えた計算機
で実行される際に、変換前のバイナリ・プログラムの実
行された命令ブロックに対応する部分を実行する際のキ
ャッシュ・メモリのヒット率が向上するように変換前の
バイナリ・プログラムの複数の命令ブロックを再構成す
ることで変換後のバイナリ・プログラムを得ることで、
通常の正常な状態でプログラムを実行した際に実際に実
行された部分を実行する際のキャッシュ・メモリのヒッ
ト率を向上させ、プログラムの実行速度を向上させる。

【００１３】より具体的には、変換前のバイナリ・プロ
グラムの実行された命令ブロックが実行されなかった命
令ブロックとは分離され、実行された命令ブロックが連
続するように変換前のバイナリ・プログラムの複数の命
令ブロックを再構成することで変換後のバイナリ・プロ
グラムを得ることにより、通常の正常な状態でプログラ
ムを実行した際に実際に実行された部分を局所化するこ
とでキャッシュ・メモリの有効利用を図り、結果的にキ
ャッシュ・メモリのヒット率を向上させる。

【００１４】また、同時に実行される複数のバイナリ・
プログラムを別の複数のバイナリ・プログラムに変換す
る場合に、変換前のバイナリ・プログラムの実行された
命令ブロックに対応する部分が変換後のバイナリ・プロ
グラム毎にキャッシュ・メモリ上の異なる領域にマッピ
ングされるよう複数の変換前のバイナリ・プログラムを
再構成することで複数の変換後のバイナリ・プログラム
を得るこで、複数のバイナリ・プログラム間でのキャッ
シュの競合を抑制し、複数のプログラムが同時に実行さ
れる場合の全体としての処理効率を向上させる。

【００１５】さらに、変換前のバイナリ・プログラムの
実行された命令ブロックに対応する部分が高頻度でデー
タがマッピングされる領域にはマッピングされないよう
に変換前のバイナリ・プログラムを再構成することで変
換後のバイナリ・プログラムを得ることで、データと命
令との間のキャッシュの競合を軽減する。

【００１６】さらに、再構成を行った結果、命令ブロッ
クの末尾が条件分岐命令で、その条件分岐先の命令ブロ
ックが条件分岐を行った命令ブロックの直後となる場合
に、前記条件分岐命令の分岐条件および条件分岐先を変
更することで、通常の正常な状態でプログラムを実行し
た際に実際に実行された部分を直線化し、ＣＰＵの実行
効率のより良いバイナリ・プログラムを得て、プログラ
ムの実行速度を向上させる。

【００１７】また、変換前のバイナリ・プログラム中の
命令列を他の命令列に変換することで変換後のバイナリ
・プログラムを得ることにより、ソース・プログラムを
必要とせずＣＰＵの性能をより引き出すバイナリ・プロ
グラムを得て、プログラムの実行速度を向上させる。な
お、本発明をコンピュータで実現するプログラムをＣＤ
−ＲＯＭなどの記録媒体に格納して頒布することができ
る。

【００１８】

【発明の実施の形態】まず、本発明の実施の形態の前提
とする計算機のアーキテクチャを説明する。なお、敢え
て説明するまでもなく、本発明がこのアーキテクチャに
のみ依存するものではない。

【００１９】本発明が前提とする計算機はＣＰＵと主記
憶装置との間にキャッシュ・メモリを備えている。ここ
では仮に、キャッシュ・メモリのサイズを１Ｍバイトと
する。このキャッシュ・メモリはライン（あるいは、セ
ット）と呼ばれる連続する所定のバイト数の領域に分割
されて管理される。ここではラインのサイズを仮に６４
バイトとする。従って、１Ｍバイトのキャッシュ・メモ
リは１６３８４のラインで構成され、各ラインは０から
１６３８３の番号で管理される。

【００２０】主記憶装置の命令が実行される場合やデー
タがアクセスされる場合は、まず命令やデータがキャッ
シュ・メモリ上にあるかどうかが調べられ、キャッシュ
・メモリ上に無い場合にはキャッシュ・ラインの単位で
主記憶装置からキャッシュ・メモリに転送が行われる。
例えば、１バイトのデータにアクセスするだけであって
も、ラインのサイズ分の、この場合は６４バイトの転送
が行われる。

【００２１】また、この計算機は仮想記憶をサポートし
ており、実行されるプログラムのアドレスは仮想アドレ
スで表され、実行時に、物理アドレスに変換され、主記
憶装置上に配置される。

【００２２】命令やデータのアドレスから、その内容を
格納すべきラインは、その命令やデータの仮想アドレス
から、一意に決定される。具体的には、仮想アドレスを
キャッシュ・サイズ（この場合は１Ｍバイト）で割った
余りを、格納すべきラインのインデックスとする。

【００２３】また、ソース・プログラム（あるいは、ソ
ース・コード）をコンパイルしたものを「オブジェクト
・プログラム」、それを格納したファイルを「オブジェ
クト・ファイル」と呼び、一つまたは複数の「オブジェ
クト・プログラム」をリンクし、計算機上で実行可能な
形式にしたものを「実行可能オブジェクト・プログラ
ム」と呼ぶ。また、オブジェクト・プログラムと実行可
能オブジェクト・プログラムとを総称してバイナリ・プ
ログラムと呼ぶ。

【００２４】以上の前提に基づいて説明を行う。本発明
の実施の形態では、ソース・プログラムを使用すること
なく実行可能オブジェクト・プログラムの改変を実現す
るために、実行プロファイル情報を使用する。実行プロ
ファイル情報は以下のように採取される。

【００２５】まず、実行可能オブジェクト・プログラム
を実行して、プログラム動作の履歴（実行トレース）を
採取する。この作業を実行トレース、あるいは、実行プ
ロファイルという。その実行プロファイル結果を実行可
能オブジェクト・プログラム単位および命令ブロック
（あるいは命令コード）単位に集計する。以上を行うの
が、実行プロファイル採取手段２である。

【００２６】そして、実行プロファイル解析手段３が、
実行プロファイル結果を解析してプログラムの改変に必
要な情報を抽出する。改変に必要な情報とは、各命令ブ
ロックの実行回数、条件付き分岐命令の実行回数と条件
成立回数、各キャッシュ・ラインがデータ・アクセスに
より使用された回数などである。

【００２７】改変に必要な情報を抽出したら、再配置情
報獲得手段４であるキャッシュ・アロケータ及びライン
・ログにより、他の実行可能オブジェクト・プログラム
の命令コードのフェッチや、データ・アクセスによるキ
ャッシュ・アクセスとの競合が最小限となるように、改
変プログラムが使用できるキャッシュ・ラインの配分を
行う。

【００２８】プログラムの改変は、キャッシュ・システ
ムの使用を前提としており、そのために、キャッシュ・
メモリに対応したサイズのキャッシュ・ブロッキング領
域を、改変すべきプログラム毎にあらかじめ確保するキ
ャッシュ・ブロッキング領域設定手段１を備える。

【００２９】キャッシュ・ブロッキング領域は、キャッ
シュ・メモリの任意のラインに対応するアドレスが実行
可能オブジェクト・プログラム中に存在するように確保
する。１メガバイトのダイレクトマップ・キャッシュ・
メモリであれば、１メガバイトのキャッシュ・ブロッキ
ング領域を各実行可能オブジェクト・プログラムに対し
て確保する。

【００３０】キャッシュ・ブロッキング領域は、命令コ
ードのフェッチ時に使用されるキャッシュ・ラインを単
純に制御可能にするためにプログラム中に新たに設ける
領域で、この領域に対して、前記再配置情報にしたがっ
て、実行された命令ブロックを複写手段５により複写す
る。

【００３１】命令ブロックをキャッシュ・ブロッキング
領域に複写した結果、アドレスが変わるので、そのまま
ではキャッシュ・ブロッキング領域上の命令ブロックが
実行されない。そこで、最適化手段６によって、キャッ
シュ・ブロッキング領域の命令ブロックが実行されるよ
うに、プログラム、例えば、ＣＴＩ命令（Ｃｏｎｔｒｏ
ｌＴｒａｎｓｆｅｒＩｎｓｔｒｕｃｔｉｏｎ：Bran
ch、call、jmpl等の制御転送命令）のターゲット・オフ
セット／アドレスを変更する。

【００３２】ここまでで、実行トレースで走った部分の
プログラムがキャッシュ上で走るプログラムに改変され
る。しかし、トレースした以外の命令が実行されること
が生じる可能性がある。そのような場合にも、誤った動
作をしないように補正コードを挿入する。補正コードと
は、すなわち元のコードに制御を転送するための命令コ
ードである。これもまた最適化手段６の機能である。

【００３３】その後、キャッシュ・ブロッキング領域に
複写した命令ブロックに次のような最適化を適用する。
例えば命令ブロックに分岐命令があったとする。その分
岐命令を実行プロファイルに従って直線化する。

【００３４】以上の結果、プロファイル上実行された最
適化済の命令ブロックだけがキャッシュ・ブロッキング
領域に複写される。以降、プログラムが実行されると、
キャッシュ・ブロッキング領域内の命令だけが実行され
るため、命令フェッチどうしのキャッシュ競合は一切な
くなり、さらに命令コード・サイズが圧縮されるため、
命令フェッチとデータ・アクセスとの競合も削減され
る。＜キャッシュ・ブースター＞以上のように、キャッシュ
・ブロッキング領域にプロファイルの結果実行された命
令ブロックのみを複写し、キャッシュ・ヒット率の高い
プログラムに改変することを、本発明では、キャッシュ
・ブースターということとする。これにより、キャッシ
ュやＣＰＵの使用効率を高め、その最大性能を引き出
す。これは、前記実行トレースの結果の命令ブロックを
キャッシュ・ブロッキング領域に複写する際、再配置情
報に従って各命令ブロックをキャッシュ・ブロッキング
領域に間断なく複写することで、これまで競合していた
複数の命令ブロックが、キャッシュ上で競合することな
く走行するようにすることである。この結果、キャッシ
ュ・ヒット率が向上する。すなわち、図２に示したよう
に、プログラム中において、実行トレースの結果、実行
された命令ブロックがａ、ｂ、ｃ３つあったとする。実
行にあたって、命令ブロックａ，ｂはキャッシュライン
上で競合することとする。

【００３５】そこで、本発明では、キャッシュ・メモリ
に対応付け可能なキャッシュ・プロッキング領域という
仮想的なキャッシュ領域を予め確保し、この領域に、命
令ブロックａ、ｂ、ｃを実行順にできるだけ空き領域が
ないように蓄積していくのである。

【００３６】したがって、変換後のプログラムを実行す
ると、キャッシュ・ブロッキング領域内ですべての命令
が走行し、しかも、キャッシュ・メモリには走行しない
無駄な命令が格納されなくなるため、キャッシュ・ヒッ
ト率が向上する。

【００３７】これは、プログラムが複数存在する場合も
同様である。例えば、図３に示したように、Ａ，Ｂ二つ
のプログラムが存在し、交互にデータをやりとりしつつ
実行されるものとする。プログラムＡの命令ブロック
ａ，ｂ，ｃがプログラムＡに対応して設けられた第１の
キャッシュ・ブロッキング領域に複写されるのは、先と
同様である。

【００３８】プログラムＢの命令ブロックｄ，ｅ，ｆも
同様にプログラムＢに対応して設けられた第２のキャッ
シュ・ブロッキング領域に複写される。但し、この場合
は、プログラムＡにおいてすでにａ，ｂ，ｃによって使
用されているラインと同一ラインは避けて複写される。

【００３９】この結果、命令プロックａ，ｂ，ｃ，ｄ，
ｅ，ｆのすべての命令が命令コードのフェッチにおいて
互いに競合することなくキャッシュ・メモリ上で実行さ
れることになるため、キャッシュ・ヒット率が向上す
る。

【００４０】以上を、図４にてより詳しく説明する。図
４で、ｌｉｎｅはキャッシュ・ライン番号であり、複数
個の同一な番号が存在する場合、命令どうしが競合して
いることを意味する。ｎは命令コードのフェッチが互い
に同一のラインで競合している数、ａｃｃｅｓｓは、キ
ャッシュに対するアクセス回数（つまり、ライン中にあ
る命令の実行回数の合計）、ｗ０〜ｗ１５はライン中の
各ワードに対するアクセス回数（つまり、各命令の実行
回数）、ｗｃは１６を最大値とするアクセスされた命令
の数（つまり、実行された命令数）である。図４で、ラ
イン番号３６９８、３７００、３７０２、３７０３、３
７０４、３７０５はいずれも競合が発生する可能性があ
るラインである。そこで、競合が発生しないようにキャ
ッシュ・ブロッキング領域を使用して、キャッシュ・メ
モリ上での命令コードの配置ラインを変更する。ｌｉｎ
ｅ３６９８の上段のラインｗ０〜ｗ１５の命令コード
は、ｌｉｎｅ９７４２のｗ１０〜ｗ１５、ｌｉｎｅ９７
４３のｗ０〜ｗ９に配置されるラインを変更して、以降
ｌｉｎｅ３６９９、ｌｉｎｅ３７００の下段、ｌｉｎｅ
３７０１、ｌｉｎｅ３７０２の下段、ｌｉｎｅ３７０３
の下段、ｌｉｎｅ３７０４の中段、ｌｉｎｅ３７０５の
中段の命令群は圧縮して、ｌｉｎｅ９７４３〜９７４８
にラインを変更する。また、ｌｉｎｅ３６９８の上段を
はじめとする残りのラインにある命令コードは、９７４
２〜９７４８以外のラインに配置し、互いに競合が発生
しないようにする。

【００４１】このように、プロファイルにおいて実行さ
れた命令ブロックを未使用領域ができるだけ少なくなる
ように圧縮しつつ、キャッシュ・ブロッキング領域へ複
写するため、キャッシュの利用効率が向上し、命令フェ
ッチでアクセスするキャッシュ・ライン数が減少する。
例では、１ラインが６４バイト（１６ワード）のサイズ
を持っており、キャッシュ・ブースターの適用前は、ラ
インあたり９．５ワードの使用効率（５９．４％）であ
ったに対して、適用後は、ラインあたり１５．１ワード
の使用効率（９４．４％）となり、キャッシュの使用効
率を５９％向上させている。以上説明のとおり、本発明
では、命令コードのフェッチにおいて互いに競合しない
ように、キャッシュ・ブロッキング領域を使って、命令
コードを配置するラインを変更するため、命令どうしの
競合は理論上なくなり、命令コードの圧縮率分データと
命令との競合も削減される。データと命令との競合にお
いては、さらに一定の改善が可能である。すなわち、実
行プロファイル結果から、データ・アクセスによるアク
セス頻度が高いライン群が求まり、キャッシュ・ブロッ
キング領域に命令コードを複写するときには、こうした
ライン群に相当するアドレスを避けて複写する。また、
本発明によれば、プロファイルにおいて実行された命令
ブロックだけをキャッシュ・ブロッキング領域に集めた
結果、さらに命令の最適化が可能となる。すなわち、キ
ャッシュ・ブロッキング領域に複写された命令の中に条
件付き分岐命令が含まれるとき、その分岐条件は何回成
立または不成立であったかが分かっているため、常に条
件が成立して分岐している場合には分岐条件を反転する
ことにより命令を直線実行させる。一般的に、条件が成
立し制御が離れたアドレスに転送される場合よりも、よ
り単純な直線実行の方がＣＰＵの処理性能が高いため、
こうした最適化はほとんどのＣＰＵアーキテクチャで有
効である。また、条件反転の前提として「常に条件が成
立して分岐する」を挙げているが、商用アプリケーショ
ン・プログラムでは、品質が重要視されるため、プログ
ラムの到る所で「現在正常な状態か」の検証を行うのが
一般的である。よって、こうした最適化はプログラムの
到る所で有効となる。具体的に、プログラムが「正常な
状態か」の判断を行っている場合、この判断文は正常時
には常に真であり、これを条件とする分岐命令は常に成
立する。条件を「現在正常な状態でないか」に反転すれ
ば、分岐は成立しなくなり命令は直線的に実行される。
また、キャッシュ・ブースターに入力されるプログラム
は、バイナリ・プログラムであるため、ソースコードを
必要とする最適化を行うことはできないが、機械語（ア
センブラ言語）をもとにした最適化を行うことは可能で
ある。たとえば、特定のＣＰＵで非常に遅い命令や命令
の組み合わせがある場合、それらを代替命令（群）で置
換したりすることができる。ＣＰＵアーキテクチャは、
任意のプログラムを対象に（もちろん、特定の市場向け
ということはあるが）スループットを向上させることを
目的として設計されるため、得意でない（高速に実行で
きない）特定の命令（群）が存在することはしばしばあ
る。こうした命令の置き換えによる最適化は、ＣＰＵア
ーキテクチャが改良されて新たな命令が追加された場合
にも効果的に適用できる。ＣＰＵの改良により新しい機
能が追加されるとき、その新しい機能を実現するＣＰＵ
アーキテクチャに対応したコンパイラを使用して、ソー
スコード・プログラム群を再翻訳することにより改変し
ない限り、新しい機能は使用できない。こうした再翻訳
の作業は、プログラム開発者にとって面倒であり、大き
な負担を課すものである。ソースコードの管理が適切に
行われていなければ、再翻訳作業が不可能であったり、
大きな危険を伴うものにもなりかねない。したがって、
追加された機能が実際にプログラム利用者に対して普及
する速度が著しく鈍る。本発明では、ソースコード・プ
ログラムを入力する替わりに、より単純なバイナリ・プ
ログラムを入力するため、容易に新機能を活用すること
ができる。プログラム利用者は開発者の再翻訳作業を待
たずに新しいバイナリ・プログラムを生成し利用できる
ため、新機能の普及速度はほぼ「即時」と言える。例え
ば、ＣＰＵアーキテチャとして、予測ビット付き分岐命
令という新機能が追加されたとする。予測ビット付き分
岐命令とは、成立しやすい分岐命令には予め成立予測ビ
ット付きのコードを展開し、ＣＰＵは成立が予測された
分岐命令を実行するとき、分岐条件が成立したと仮定し
て後続の命令群をプリフェッチできるようにする機能で
ある。キャッシュ・ブロッキング領域に複写された条件
付き分岐命令を予測ビット付き分岐命令に書き換えるこ
とにより、新機能に対応したプログラムを生成できる。
以下、さらに詳細に説明する。＜キャッシュ・ブロッキング領域の予約＞本発明では、
まず、キャッシュ・ブロッキング領域の確保をプログラ
ム毎に行う。実行されるプログラムが１つである場合は
対応するキャッシュ・ブロッキング領域は１つである
が、複数のプログラムが同一システム上で同時に実行さ
れるとき、キャッシュ・ブロッキング領域は各プログラ
ム毎に確保する。

【００４２】例えば、図５に示したように、対象とする
実行可能オブジェクト・プログラムＡ及びＢに対し、キ
ャッシュ・ブロッキング領域ａ、ｂをそれぞれ設定す
る。ここではプログラムＡ，Ｂは同一のシステム上で同
時に実行されるプログラムであるものとする。そして、
リンクエディタを使用して、前記実行可能オブジェクト
・プログラムをキャッシュ・ブロッキング領域にリンク
し、キャッシュ・ブロッキング領域を有する実行可能オ
ブジェクト・プログラムＡ’、Ｂ’を作製する。これ
で、キャッシュ・ブロッキング領域の予約が完了する。

【００４３】なお、リンクエディタで実行可能オブジェ
クトプログラムにキャッシュブロッキング領域をリンク
した後、コンバータによる完全な再配置を可能とするた
め、リンクエディタが解決した再配置情報を実行可能オ
ブジェクトプログラム内に格納する。＜実行トレース＞次いで、図５に示したように、プロフ
ァイラにより、プログラムＡ，Ｂを実行し、実行プロフ
ァイルＡ，Ｂを採取する。ここで、プロファイラは最適
化対象である複数の実行可能オブジェクト・プログラム
を同時にあるいは個別に実行し、命令あるいはデータの
アクセストレースを採取し実行プロファイルデータとし
て出力するプログラムである。＜実行プロファイルの解析＞実行プロファイルＡ、Ｂ
は、トレース・アナライザにより解析される。トレース
・アナライザは、実行可能オブジェクト・ファイル
Ａ’、Ｂ’と実行プロファイル結果Ａ、Ｂをもとにし
て、以下のようなテキスト・テーブルとデータ使用ライ
ン・テーブルを出力する。テキスト・テーブルは、図７
に示したように、キャッシュ・ブロッキング領域に配置
すべき命令ブロックに関する指示情報であり、実行され
た命令ブロック、分岐条件の反転指示等、プログラム自
体の改変指示データである。テキスト・テーブルはより
具体的には以下の情報を有する。ＩＤ：エントリの種類（Ｓ：ブロック、Ｃ：ＣＴ
Ｉ命令）＋ブロック番号ＭＡＤＤＲ：ブロック先頭アドレス、ＣＴＩ命令のアド
レスＯＦＦ：関数先頭アドレスからのオフセットＳＺ：ブロックのサイズＢＴ：分岐命令の成立回数ＲＵＮ：ブロック、命令の実行回数Ｄ：annulledでないＣＴＩ命令の遅延命令がｎ
ｏｐか否かＴＡＤＤＲ：分岐／ｃａｌｌ命令のターゲットアドレスＩＣＯＤＥ：ＣＴＩ命令の命令コードＦＵＮＣ：関数名これらは、キャッシュブロッキング領域へ複写するブロ
ックの決定、分岐予測ビットの設定用のデータである。
例えば、走行回数の多い命令ブロックを優先して複写す
るとか、条件成立回数の多い条件分岐命令を反転させる
等の情報とする。データ使用ラインテーブルは、図８に
示したように、物理キャッシュ・ラインをデータがアク
セスした回数がすべてのキャッシュラインについて集計
される。すなわち、データ・アクセスによるアクセス頻
度の高いライン番号を識別できる。これは、テキスト・
テーブルに記載された情報をどのラインに載せたらよい
かという情報を提供することとなる。ところで、実行プ
ロファイルを解析した結果、実行された命令ブロックの
サイズ総計が、キャッシュ・ブロッキング領域のサイズ
より大きいと判定された場合問題である。その場合、す
べての命令ブロックをキャッシュ・ブロッキング領域に
複写することができず、結果として、複写できなかった
部分について、実行の際にキャッシュにヒットせず、キ
ャッシュの書き換えを行わなければ、ならなくなるから
である。このような場合、実行命令ブロック中、実行回
数の多い順で、総計がキャッシュ・ブロッキング領域の
サイズ以内に収まるように実行命令ブロックを選定し、
他はキャッシュ・ブロッキング領域への複写対象としな
いようにする。これは、絞り込み手段７による機能であ
る。こうして絞り込むか、あるいは、キャッシュ・ブロ
ッキング領域を予め大きくしておくことでも対処でき
る。＜キャッシュアロケータ、オブジェクトコードコンバー
タでの処理＞キャッシュ・アロケータは、データとの競
合を避けて命令を配置すべき場所（ライン）を決定する
手段であり、オブジェクト・コード・コンバータは、最
適化を実装する手段である。まず、図６に示したよう
に、キャッシュアロケータに図７に示したようなテキス
トテーブルと、図８に示したようなデータ使用ラインテ
ーブルが入力される。キャッシュ・アロケータは、限ら
れたサイズ（ライン数）のキャッシュ・メモリを改変の
対象となる複数の実行可能オブジェクト・プログラムに
対して、データとの競合を最小限に抑えるためには、ど
のラインを使用するのが最適かを決定し、ライン・テー
ブルとして出力し、オブジェクト・コード・コンバータ
に入力する。また、実行された命令ブロックのサイズの
総計が、複写先であるキャッシュ・ブロッキング領域よ
りも大きい場合には、走行回数の少ない命令ブロックを
複写対象外とするように書き換え、テキスト・テーブル
Ａ’、Ｂ’として出力し、オブジェクト・コード・コン
バータに入力する。結果的に、キャッシュ・ラインに対
しては、図１０に示すようなイメージで配置が行われ
る。キャッシュ・ラインやキャッシュ・ライン中の各ワ
ードに対する詳細な配置イメージは、図４に示したとお
りである。オブジェクト・コード・コンバータには、キ
ャッシュ・ブロッキング領域を結合した実行可能オブジ
ェクト・プログラムＡ’とＢ’、テキスト・テーブル
Ａ’とＢ’、ライン・テーブル、そして必要に応じてラ
イン・ログが入力される。最適化は、まず、プログラム
Ａにつき行われる。最適化にあたって、前記図１０に示
された配置イメージ（再配置情報）に従って、図４に示
したように、複写手段によってプログラムＡがキャッシ
ュ・ブロッキング領域に複写される。この意味におい
て、オブジェクトコードコンバータは、複写手段６を備
えている。

【００４４】そのとき、ライン・ログＡ（プログラムＡ
の改変において、キャッシュ・ブロッキング領域を使っ
て、どのキャッシュ・ラインに命令コードを配置したか
を記録したデータ）が出力される。このライン・ログ
は、プログラムＢを改変するときに、オブジェクト・コ
ード・コンバータに入力する。プログラムＡの最適化が
終了した後に、プログラムＢの最適化が行われる。

【００４５】この場合も、オブジェクトコードコンバー
タに、キャッシュ・ブロッキング領域をリンクした実行
可能オブジェクト・プログラムＢ’、テキスト・テーブ
ルＢ’、ラインテーブル、実行プロファイルの分析結
果、すなわち、最適化のための情報が入力される。ま
た、前記ラインログＡもまたオブジェクトコードコンバ
ータに入力される。これにより、プログラムＡの使用済
みキャッシュラインを避けて、キャッシュ・ブロッキン
グ領域にプログラムＢを複写し、最適化処理を行うこと
ができる。上記の最適化処理により、複数のプログラム
のすべての命令コードが互いに競合することなく、さら
にデータとの競合も最小限に抑えられるようにキャッシ
ュ・ラインに配置されるコードが完成する。より完成度
を高めるため、変換後の実行可能オブジェクト・プログ
ラムを再度実行し、キャッシュラインの競合がみられる
場合、命令をキャッシュの未使用ラインへと移動させ
る。これによりさらに最適化が進む。次に、コード変換
処理の詳細を図とともに説明する。すべてのプログラム
について、図６で示す処理、すなわちオブジェクト・コ
ードの改変処理が行われる。まず、プログラムの命令ブ
ロックａ、ｂ、ｃが以下のように存在するものとする。
プログラムは、ある計算機アーキテクチャ用のアセンブ
ラ言語をもとにしている。

【００４６】

【表１】｛変換前｝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝ｂｌｏｃｋａ：・・・・・・ｓｅｔｉｃｃｂｅｃ−．ｄｅｌａｙ −−−−−−−−−−−−−−−−−−−−−−−−−−−− ｂｌｏｃｋｂ：・・・・・・・・・ −−−−−−−−−−−−−−−−−−−−−−−−−−−− ｂｌｏｃｋｃ：・・・・・・・・・＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝命令ブロックａ、ｂ、ｃは、プログラム上この順序で並
んでおり、実行した結果、命令ブロックａ、ｂだけが実
行され、ｃは実行されなかったとする。変換に当たって
は、表２のように、まず、実行された命令ブロックをキ
ャッシュ・ブロッキング領域に複写する。

【００４７】

【表２】複写＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝ｂｌｏｃｋａ：・・・・・・ｓｅｔｉｃｃｂｅｃ−．ｄｅｌａｙ −−−−−−−−−−−−−−−−−−−−−−−−−−−− ｂｌｏｃｋｂ：・・・・・・・・・ −−−−−−−−−−−−−−−−−−−−−−−−−−−− ｂｌｏｃｋｃ：・・・・・・・・・＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝ｂｌｏｃｋａ’：・・・・・・ｓｅｔｉｃｃｂｅｃ−．ｄｅｌａｙ −−−−−−−−−−−−−−−−−−−−−−−−−−−− ｂｌｏｃｋｂ’：・・・・・・・・・＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝ここで、命令ブロックａ，ｂ，ｃはオリジナルテキス
ト域であってメインメモリにそのまま存在し（ここでは
便宜的にメモリ・テキスト領域（ＭＴＸＴ）という）、
命令ブロックａ’，ｂ’はキャッシュ・ブロッキング
領域（ＣａＢ）に存在する。

【００４８】命令ブロックａ，ｂを複写しただけでは
実行されないので、リロケーションする必要がある。リ
ロケーションした結果、次の表３のようになる。

【００４９】

【表３】｛変換後｝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝ｂｌｏｃｋａ：ｂａ，ａａ’−．＜ＣａＢ＞＊１・・・ｓｅｔｉｃｃｂｅｃ−．ｄｅｌａｙ −−−−−−−−−−−−−−−−−−−−−−−−−−−− ｂｌｏｃｋｂ：ｂａ，ａｂ’−．＜ＣａＢ＞＊２・・・・・・ −−−−−−−−−−−−−−−−−−−−−−−−−−−− ｂｌｏｃｋｃ：・・・・・・・・・＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝ｂｌｏｃｋａ’：・・・・・・ｓｅｔｉｃｃｂｅｃ−．＜ＭＴＸＴ＞＊３ｄｅｌａｙ −−−−−−−−−−−−−−−−−−−−−−−−−−−− ｂｌｏｃｋｂ’：・・・・・・・・・ｂａ，ａｃ−．＜ＭＴＸＴ＞＊４＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝ここで、＊１、＊２では、ＣａＢ領域に複写されたブロ
ックの先頭命令を複写先ブロックへの無条件分岐命令に
書き換えている。＊３では、分岐命令のターゲット・オ
フセット値を書き換え、ＭＴＸＴ領域内のプログラムと
ＣａＢ領域内のプログラムとの間で正しいアドレスに制
御が転送されるようにする。説明は省略するが、関数の
呼出しに使用されるｃａｌｌ命令についても同様の書き
換えを行う。ここでは、ＣａＢ領域内に命令ブロックｃ
の複写であるｃ’が存在しないため、ＭＴＸＴ領域内の
ｃに対して制御が転送できるようにオフセット値の書き
換えを行う。＊４では、後続の命令ブロックがｃがＣａ
Ｂ領域に複写していないので、ｂ’から直線的に実行さ
れた場合にＭＴＸＴ領域中の命令ブロックｃに制御が転
送できるように無条件分岐命令を挿入する。ｄｅｌａｙ
は、遅延命令の意味で、プログラム上、分岐命令の次に
ある命令はすべてｄｅｌａｙである。この遅延命令は、
分岐命令と同時に実行される命令であり、分岐する場合
においても分岐命令とｄｅｌａｙの命令が実行された後
に、分岐ターゲットの命令が実行される。ｂａ，ａの
「ｂａ」は無条件分岐（ｂｒａｎｃｈａｌｗａｙｓ）
を意味し、「，ａ」は上記遅延命令の無効化、すなわち
遅延命令を実行しないで、無条件分岐命令の直後に分岐
ターゲットの命令が実行される。「ａ’−．」は、ａ’
のアドレスから現在のアドレス（．）を引いた差によ
り、ａ’へ分岐するためのオフセット値を求めている。
ｓｅｔｉｃｃは、条件付き分岐命令が参照する条件コー
ドを設定する命令を意味する。ｂｅはｅｑｕａｌ条件が
成立した場合に分岐する命令（ｂｒａｎｃｈｅｑｕａ
ｌ）である。次に、分岐条件の反転による最適化を説明
する。＜条件分岐反転最適化１＞変換前が表１と同一で、命令
ブロックａとｃが走行したとする。

【００５０】

【表４】｛変換後｝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝ｂｌｏｃｋａ：ｂａ，ａａ’−．＜ＣａＢ＞＊５・・・ｓｅｔｉｃｃｂｅｃ−．＜ＣａＢ＞＊６ｄｅｌａｙ −−−−−−−−−−−−−−−−−−−−−−−−−−−− ｂｌｏｃｋｂ：・・・・・・・・・ −−−−−−−−−−−−−−−−−−−−−−−−−−−− ｂｌｏｃｋｃ：ｂａ，ａｃ’−．＜ＣａＢ＞＊７・・・・・・＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝ｂｌｏｃｋａ’：・・・・・・ｓｅｔｉｃｃｂｎｅｂ−．＜ＭＴＸＴ＞＊８ｄｅｌａｙ −−−−−−−−−−−−−−−−−−−−−−−−−−−− ｂｌｏｃｋｃ’：・・・・・・・・・＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝表４の＊５〜＊７は、既に表３をもとに説明した書き換
えと同様の処理を行う。＊８では、ａ’からｃ’への直
線実行させるため、分岐条件をｂｅの逆であるｂｎｅ
（ｂｒａｎｃｈｎｏｔｅｑｕａｌ）に反転し、ター
ゲットをＭＴＸＴ領域中のｂとなるように書き換えてい
る。なお、分岐条件を反転した結果、ｂａがｂｎ（ｂｒ
ａｎｃｈｎｅｖｅｒ、すなわち常に分岐しない）にな
った場合、ｂｎという命令コードは無意味であるため、
命令自体を削除する。＜条件分岐反転最適化２＞条件分岐命令が遅延無効化分
岐命令（アナル分岐）の場合の最適化を説明する。

【００５１】

【表５】｛変換前｝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝ｂｌｏｃｋａ：・・・・・・ｓｅｔｉｃｃｂｅ，ａｃ−．（アナル分岐）ｄｅｌａｙ −−−−−−−−−−−−−−−−−−−−−−−−−−−− ｂｌｏｃｋｂ：・・・・・・・・・ −−−−−−−−−−−−−−−−−−−−−−−−−−−− ｂｌｏｃｋｃ：・・・・・・・・・＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝ここで、命令ブロックａとｃが走行したとする。

【００５２】

【表６】｛変換後｝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝ｂｌｏｃｋａ：ｂａ，ａａ’−．＜ＣａＢ＞・・・ｓｅｔｉｃｃｂｅ，ａｃ−．＜ＣａＢ＞ｄｅｌａｙ −−−−−−−−−−−−−−−−−−−−−−−−−−−− ｂｌｏｃｋｂ：・・・・・・・・・ −−−−−−−−−−−−−−−−−−−−−−−−−−−− ｂｌｏｃｋｃ：ｂａ，ａｃ’−．＜ＣａＢ＞・・・・・・＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝ｂｌｏｃｋａ’：・・・・・・ｓｅｔｉｃｃｂｎｅｂ−．＜ＭＴＸＴ＞＊９ｎｏｐ＊１０ｄｅｌａｙ −−−−−−−−−−−−−−−−−−−−−−−−−−−− ｂｌｏｃｋｃ’：・・・・・・・・・＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝条件付き分岐命令が遅延無効化分岐命令の場合、通常は
分岐命令と同時に実行される遅延命令が条件が成立した
場合のみ実行され、成立しなかった場合には実行されな
いようにする命令である。表６の＊９では、＊８と同様
の条件反転処理を行っているが、ｄｅｌａｙにある遅延
命令が実行するのは、プログラムがａ’→ｃ’の順に実
行される場合だけであり、ａ’→ｂの順に実行される場
合には実行されてはならない。したがって、分岐条件を
反転し遅延無効化を止めた上で遅延命令があった位置に
ｎｏｐ（何も有効な処理を行わない）を挿入する。＜予測ビット付き分岐命令の活用＞

【００５３】

【表７】｛変換前｝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝ｂｌｏｃｋａ：・・・・・・ｓｅｔｉｃｃｂｅｃ−．（成立しやすい）＊１１ｄｅｌａｙ −−−−−−−−−−−−−−−−−−−−−−−−−−−− ｂｌｏｃｋｂ：・・・・・・・・・ −−−−−−−−−−−−−−−−−−−−−−−−−−−− ｂｌｏｃｋｃ：・・・ｓｅｔｉｃｃｂｇａ−．（成立しやすい）＊１２ｄｅｌａｙ＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝このプログラムにおいて、命令ブロックａとｃが走行
し、ａにある分岐命令もｃにある分岐命令も成立しやす
い（条件が成立する確率が５０％よりも大きい）という
実行結果が得られたとする。このような場合、以下のよ
うにコ−ド変換する。

【００５４】

【表８】｛変換後｝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝ｂｌｏｃｋａ：ｂａ，ａａ’−．＜ＣａＢ＞・・・ｓｅｔｉｃｃｂｅ，ｐｔｃ’−．＜ＣａＢ＞＊１３ｄｅｌａｙ −−−−−−−−−−−−−−−−−−−−−−−−−−−− ｂｌｏｃｋｂ：・・・・・・・・・ −−−−−−−−−−−−−−−−−−−−−−−−−−−− ｂｌｏｃｋｃ：ｂａ，ａｃ’−．＜ＣａＢ＞・・・ｓｅｔｉｃｃｂｇ，ｐｔａ’−．＊１４ｄｅｌａｙ＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝ｂｌｏｃｋａ’：・・・・・・ｓｅｔｉｃｃｂｎｅ，ｐｎｂ−．＜ＭＴＸＴ＞＊１５ｄｅｌａｙ −−−−−−−−−−−−−−−−−−−−−−−−−−−− ｂｌｏｃｋｃ’：・・・ｓｅｔｉｃｃｂｇ，ｐｔａ−．＜ＣａＢ＞＊１６ｄｅｌａｙ＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＊１３〜＊１４において、ｐｔとは条件が成立しやすい
分岐命令で、ｐｎとは条件が成立しにくい分岐命令であ
ることを意味し、いずれも新たなＣＰＵアーキテクチャ
に追加された新機能である予測ビット付き分岐命令を使
用している。以上の処理をフローチャート図を参照して
再度説明する。＜キャッシュ・アロケータでの処理フロー＞図１１に示
したように、キャッシュ・アロケータでは、テキスト・
テーブルＡ，Ｂ、データ使用ラインテーブルＡ，Ｂ、キ
ャッシュ構成情報等の各種情報を基に処理が行われる。
まず、走行した全てのブロックのサイズの合計（ＳＵ
Ｍ）を求める（ステップ１００）。次いで、物理キャッ
シュサイズをＣＺとしたとき、ＳＵＭ＞ＣＺが成立する
か否か判定する（ステップ１０１）。真のとき、このま
までは走行したすべての命令ブロックをキャッシュ・ブ
ロッキング領域に複写できないため、すべての実行可能
オブジェクト・プログラムに対応するテキスト・テーブ
ルから命令ブロックに関するエントリを取り出し、走行
回数（ＲＵＮ）をキーに降順にソートして、ＳＵＭ＞Ｃ
Ｚを満たす最大のＲＵＮ（ＭＡＸＲＵＮ）を求める（ス
テップ１０２）。これは絞り込み手段６による機能であ
る。この処理は、ダイレクト・マップ方式のキャッシュ
・メモリでキャッシュ・ブロッキング領域がキャッシュ
・メモリのサイズ分、確保されていることを前提として
いる点に注意する必要がある。つまり、キャッシュ・ブ
ロッキング領域をＳＵＭに対応して拡張すれば、当該条
件が真であるかの判定、および真である場合における以
降の処理も不要となる。次いで、ＲＵＮ≦ＭＡＸＲＵＮ
であるブロックはＲＵＮを０に変更し、再配置の対象外
となるように、テキストテーブルを修正する（ステップ
１０３）。この結果、ＳＵＭ＜ＣＺとなる。そして、当
該キャッシュ・メモリのすべてのライン番号をライン・
テーブルに出力する（ステップ１０４）。本特許中で前
提とするキャッシュ・メモリの場合、先頭ライン番号が
０、最終ライン番号が１６３８３、ライン数が１６３８
４である一行からなるライン・テーブルを出力する。

【００５５】ステップ１０１で偽（ＳＵＭ＞ＣＺでな
い）と判断された場合、キャッシュ構成情報とＳＵＭを
基にすべてのブロックの配置に必要なライン数（Ｌ）を
求める（ステップ１０５）。次いで、すべてのオブジェ
クトのデータ使用ラインをアクセス回数（ＵＳＥ）をキ
ーに昇順ソートしてＬ個のライン番号を取り出す（ステ
ップ１０６）。さらに、ライン番号をキーに昇順ソート
して、連続するラインは１つのエントリにまとめて先頭
ライン番号、最終ライン番号、ライン数の形式にする
（ステップ１０７）。最後にライン数をキーに降順ソー
トしてラインテーブル（図９参照）に出力する。＜オブジェクトコンバータでの処理＞図１２に示したよ
うに、オブジェクトコンバータでは、キャッシュ・ブロ
ッキング領域を確保した実行可能オブジェクトプログラ
ムを対象に、テキストテーブル、レインテーブル、ライ
ンログ等の情報を使用して実行可能オブジェクト・プロ
グラムを改変する。

【００５６】ここでは、まず、最初の変換対象オブジェ
クトか否かが判定される（ステップ１１０）。最初の変
換対象オブジェクトであれば、ブロック複写処理（ステ
ップ１１２）、ＣＴＩリロケーション処理（ステップ１
１３）、アドレス定数のリロケーション処理（ステップ
１１４）へと順次進み、この処理がオブジェクト毎に繰
り返される。

【００５７】ステップ１１０で、最初の変換対象オブジ
ェクトでないと判断された場合、すでに変換したオブジ
ェクトのラインログを入力し、ラインテーブルからすで
に使用したライン番号を削除し（ステップ１１１）、ス
テップ１１２へと進む。これにより、オブジェクト間で
のライン競合を避けることができる。以下、ブロック複
写処理（ステップ１１２）、ＣＴＩリロケーション処理
（ステップ１１３）、アドレス定数のリロケーション処
理（ステップ１１４）をより詳細に説明する。＜ブロック複写処理＞ブロック複写処理は、図７で示し
たテキストテーブルのブロックエントリに関し最初から
最後まで繰り返される。

【００５８】図１３に示すように、まず、命令ブロック
に関するエントリＳｉ（図７を参照）につき、ＲＵＮ
（Ｓｉ）≧１か否かが判定される。否である場合、Ｓｉ
の命令ブロックは一度も走行しなかったことを意味し、
キャッシュ・ブロッキング領域に当該命令ブロックを複
写する必要はないため、ステップ１２６に進み、処理の
完了を判断したうえで必要があれば、次の命令ブロック
・エントリの処理へと移行する。

【００５９】ステップ１２０で、ＲＵＮ（Ｓｉ）≧１で
ある場合、ＭＴＸＴ領域からＣａＢ領域へとブロックＳ
ｉを複写する複写処理が行われる（ステップ１２１）。
複写処理は、図１４に示したように、ラインテーブルの
情報と、キャッシュ構成情報とを基に行われる。すなわ
ち、まず、ラインテーブルの使用可能ライン番号とキャ
ッシュ構成情報とから複写先アドレスを決定する（ステ
ップ１３０）。すなわち、ラインテーブルには、ライン
番号が入っているため、ライン番号からアドレスを逆引
きするためには、キャッシュ構成情報をもとに算出す
る。ステップ１３０に次いで、ブロックＳｉが連続ライ
ン内に配置可能かを判定する（ステップ１３１）。ブ
ロックが連続ライン内に配置可能な大きさの場合、ブロ
ックＳｉをキャッシュ・ブロッキング領域に複写する
（ステップ１３２）。

【００６０】ブロックサイズが大きすぎて、一つの連続
ライン内に配置できない場合、ブロックを分割して配置
するために、最終ラインの最終ワードに、次に使用可能
な先頭ラインへの無条件分岐命令を追加し、完了するま
でＳｉの複写を継続する（ステップ１３３）。ＭＴＸＴ
領域からＣａＢ領域へのブロックＳｉの複写が完了した
ら、Ｓｉの先頭命令をＣａＢ領域ブロック先頭への無条
件分岐命令に変換する（ステップ１２２）。次いで、ブ
ロックＳｉ内に分岐命令（Ｃｉ）があるか否かを判定す
る（ステップ１２３）。分岐命令Ｃｉがあれば次にＣａ
Ｂ領域に複写されるブロックＳｊを求めて、ＭＡＤＤＲ
（Ｓｊ）＝ＴＡＤＤＲ（Ｃｉ）であるか否かが判定され
る（ステップ１２４）。ＭＡＤＤＲはブロックの先頭ア
ドレスであり、ＴＡＤＤＲは分岐命令のターゲットアド
レスである。ＭＡＤＤＲ（Ｓｊ）＝ＴＡＤＤＲ（Ｃｉ）
である場合、ステップ１２５で分岐条件反転処理が行わ
れる。

【００６１】ステップ１２３でブロックＳｉ内に分岐命
令（Ｃｉ）がないと判断されたとき、及び、ステップ１
２４で、ＭＡＤＤＲ（Ｓｊ）＝ＴＡＤＤＲ（Ｃｉ）でな
いと判断されたとき、ステップ１２８に移行し、ＭＡＤ
ＤＲ（Ｓｊ）！＝ＭＡＤＤＲ（Ｓｉ）＋ＳＺ（Ｓｉ）で
あるか否かが判定される。ここでＳＺはサイズである。
ＭＡＤＤＲ（Ｓｊ）！＝ＭＡＤＤＲ（Ｓｉ）＋ＳＺ（Ｓ
ｉ）が成立した場合、アドレス（ＭＡＤＤＲ（Ｓｉ）＋
ＳＺ（Ｓｉ）への無条件分岐命令を、ＣａＢ領域に複写
したＳｉの最後に追加する（ステップ１２９）。

【００６２】以上の処理は、すべてのブロックエントリ
について行われる（ステップ１２６）。分岐条件反転
処理は図１５のフローチャートに従って行われる。ま
ず、Ｃｉがアナル分岐か否かを判定する（ステップ１４
０）。遅延無効化分岐命令とは、通常は分岐命令と同時
に実行される遅延命令を条件が成立した場合のみ実行
し、成立しなかった場合には実行しないようにする分岐
命令である。遅延無効化の無条件分岐命令の場合は、常
に遅延命令を実行しない点に注意する必要がある。アナ
ル分岐であればＣｉの分岐条件を反転してアナルをオフ
にする（ステップ１４１）。そして、分岐命令と遅延命
令の間にｎｏｐ命令を挿入する（ステップ１４２）。ス
テップ１４０で、Ｃｉがアナル分岐でないと判定したと
きは単にＣｉの分岐条件を反転するだけに止める（ステ
ップ１４３）。これら分岐条件の反転により直線実行化
を図る。

【００６３】ステップ１４２、ステップ１４３に続い
て、反転後の命令コードがｂｎか否かを判定する（ステ
ップ１４４）。ここで、ｂｎ（ｂｒａｎｃｈｎｅｖｅ
ｒ）とは、常に分岐しない分岐命令を意味し、命令自体
が有効な意味を持っていない。ｂｎでなければ反転処理
はそのまま終了する。ｂｎであるとき、分岐命令を削除
し（ステップ１４５）、分岐遅延命令がｎｏｐか否かを
判定する（ステップ１４６）。ｎｏｐでないとき反転処
理は終了し、ｎｏｐのときは遅延命令を削除してから
（ステップ１４７）、反転処理を終了する。＜ＣＴＩリロケーション処理＞ブロック複写処理（ステ
ップ１１２）が終了したら、ＣＴＩリロケーション処理
に移行する。

【００６４】これは、図１６に示したように、図７に示
したようなテキストテーブルを基に、ＣＴＩ命令（Bran
ch、call、jmpl等）に関し、最後まで繰り返す。まず、
ＣＴＩエントリＣｉについて、ターゲットアドレスＴＡ
ＤＤＲ（Ｃｉ）をＣａＢ領域に複写したか否かを判定す
る（ステップ１５０）。複写してあればＴＡＤＤＲをリ
ロケーションする（ステップ１５１）。複写していなけ
れば、すべての処理が完了したかの判定分岐（ステップ
１５６）に移行する。ＴＡＤＤＲをリロケーションした
ら分岐予測処理（ステップ１５２）へと移行する。分岐
予測処理は図１７に示したように、対象ＣＰＵに予測ビ
ット付き分岐命令があるか否かを判定し（ステップ１６
０）、分岐命令があればＢＴ（Ｃｉ）（分岐命令の成立
回数／ＲＵＮ（Ｃｉ）（実行回数）＞０．５、か否かを
判定する（ステップ１６１）。ここで０．５より大きい
とき分岐条件が成立しやすいとみて、Ｃｉの命令コード
をＢＰｃｃ，ｐｔに変換し（ステップ１６２）、０．５
以下のとき、分岐条件が成立しにくいものとして、Ｃｉ
の命令コードをＢＰｃｃ，ｐｎに変換する（ステップ１
６２）。ＢＰｃｃとは、記述上、予測ビット付き分岐命
令を一般化した疑似命令である。分岐予測処理（ステッ
プ１５２）が終了したら、Ｃｉを含むＳｉをＣａＢ領域
に複写したか否かを判定する（ステップ１５３）。複写
してあればＣａＢ領域内のターゲットアドレスをリロケ
ーションする（ステップ１５４）。複写していなけれ
ば、すべての処理が完了したかの判定分岐（ステップ１
５６）に移行する。ステップ１５４でターゲットアドレ
スをリロケーションしたら前記と同様の分岐予測処理
（ステップ１５５）へと移行する。

【００６５】全てのＣＴＩエントリについて処理が完了
したら（ステップ１５６）、使用ラインログを出力する
（ステップ１５７）。＜アドレス定数のリロケーション処理＞これは、図１８
に示したように、オブジェクトプログラムを対象に、リ
ンクエディタがオブジェクトファイルに格納したアドレ
ス定数データについて、最初から最後まで繰り返し行わ
れる。

【００６６】まず、アドレス定数が、ＣａＢ領域に複写
されたＭＴＸＴ域内を指しているか否かの判定がなされ
る（ステップ１７０）。ＭＴＸＴ域内を指しているので
あれば、ＣａＢ領域内の命令が実行されるように、アド
レス定数を対応するＣａＢ領域内のアドレスに書き換え
る（ステップ１７１）。この処理は、すべてのアドレス
定数について行われる（ステップ１７２）。以上の最適
化処理が終了し、改変された複数の実行可能オブジェク
ト・プログラムＡ”とＢ”が生成される。＜本発明の手段、手順の実現＞本発明の手段、及び、手
順は、プログラムからなり、記録媒体として例えばＣＤ
−ＲＯＭ１０に格納されて頒布される。そして、コンピ
ュータにインストールされることで、図１９に示したよ
うに、キャッシュ・ブロッキング領域設定手段１、実行
プロファイル採取手段２、実行プロファイル解析手段
３、複写手段４、最適化手段５、絞り込み手段６が機能
的に実現される。これらは、前記本発明の手順を実行す
る。本発明は、キャッシュ・メモリの存在を前提とする
が、キャッシュ・メモリのアーキテクチャには、さまざ
まな方式や構成の違いがある。ここでは、以上の説明で
前提としたキャッシュ・アーキテクチャと、それ以外の
キャッシュ・アーキテクチャと本発明の関連性について
説明する。（１）複数のキャッシュ・メモリ最近のコンピュータ・システムでは、ＣＰＵとメイン・
メモリの間に、複数のキャッシュ・メモリを実装してい
ることが多い。たとえば、２つのキャッシュ・メモリを
備え、ＣＰＵに近い方から１次キャッシュ・メモリ、２
次キャッシュ・メモリと呼ぶ。１次キャッシュ・メモリ
は２次キャッシュ・メモリに比べて、容量は小さいが高
速なアクセスが可能である。本発明の記述では、複数の
キャッシュ・メモリについて触れていないが、これまで
に説明した方式や方法は複数のキャッシュ・メモリ・シ
ステムに対して適用可能なものである。たとえば、実施
例として挙げている１メガ・バイトの容量を持つキャッ
シュ・メモリは、具体的には２次キャッシュ・メモリを
指す。（２）マッピング方式キャッシュ・メモリのマッピング方式として、ダイレク
ト・マップ方式（１ウェイ・セット・アソシアティブ方
式と同値）、ｎウェイ・セット・アソシアティブ方式、
フル・アソシアティブ方式の３種類がある。本発明の記
述では、説明が簡略化できるダイレクト・マップ方式を
前提としてきており、実施例も同様である。しかしなが
ら、これまでに説明した方式や方法は、他のマッピング
方式にも適用可能なものである。たとえば、ｎウェイ・
セット・アソシエティブ方式であれば、ライン番号の替
わりにｎ個のアドレスがマッピング可能なセット番号を
もとにキャッシュ・メモリの場所を特定するように変更
すれば良い。（３）命令キャッシュとデータ・キャッシュ命令コードを保持するための命令キャッシュと、データ
を保持するためのデータ・キャッシュを分離している分
離型キャッシュ・メモリと、分離していない統合型のキ
ャッシュ・メモリが存在する。本発明の記述では、より
複雑なキャッシュ競合が発生し得る統合型のキャッシュ
・メモリを前提にしているが、データと命令との競合に
関する説明は分離型では関係のないものである。（４）インデックス方式命令コードやデータのアドレスから、その内容を格納す
べきキャッシュ・メモリ内の場所（ライン、あるいはセ
ット）を求めるための対応付けのことを通常インデック
スと呼ぶ。インデックスを求めるために、仮想アドレス
（ＶＡＤＤＲ）を使用する仮想インデックス方式と、物
理アドレス（ＰＡＤＤＲ）を使用する物理インデックス
方式が存在する。本説明の実施の形態では、仮想インデ
ックス方式を前提としたが、アドレスからキャッシュ・
メモリ内の場所（ライン、あるいはセット）が一意に特
定できる必要があるため、たとえば、物理インデックス
方式によるダイレクト・マップ方式のキャッシュ・メモ
リの場合、キャッシュ・メモリの容量分（たとえば１メ
ガ・バイト）、ＶＡＤＤＲ＝ＰＡＤＤＲとする必要があ
る。その具体的手段とは、たとえば、メイン・メモリの
割り当てを制御するプログラムが、キャッシュ容量以上
の大きさを持つ物理メモリを割り当てることである。こ
の様なインデックス方式の違いは本発明の本質には影響
しない。（５）容量実施例では、キャッシュ・ラインの大きさを６４バイ
ト、キャッシュ・メモリ全体の容量を１メガ・バイト
（１６３８４ライン）とした説明をしている部分がある
が、方式や方法自体は任意の容量に適用可能なものであ
る。（６）まとめ本発明における方式と方法が適用できるかどうかの条件
は、システムがキャッシュ・メモリを備えていること、
アドレスをもとにキャッシュ・メモリ内の位置（ライ
ン、あるいはセット）を決定できるキャッシュ・アーキ
テクチャであることの２つである。

【００６７】

【発明の効果】本発明により、ソース・プログラムを変
更すること無く、プログラムの実行性能が向上する。

【００６８】より具体的には、命令コードを走行部分の
みに圧縮することで、キャッシュ・メモリが有効に使用
され、キャッシュ・ヒット率が向上し、実行性能が向上
する。

【００６９】また、複数のプログラムの間でキャッシュ
にマッピングされる位置をずらす事で、複数のプログラ
ムを同時に実行した場合のプログラム間でのキャッシュ
の競合が無くなり、キャッシュ・ヒット率が向上し、複
数のプログラムを同時に実行した場合の全体としての処
理効率が向上する。

【００７０】また、データで頻繁に使用されるキャッシ
ュ・ラインを命令が使用しないようにすることで、デー
タと命令の間でのキャッシュの競合が減少し、キャッシ
ュ・ヒット率が向上し、実行性能が向上する。

【００７１】さらに、再配置後のプログラムに対して直
線化の処理を行うことで、条件分岐命令を実行する際の
ＣＰＵの処理効率が向上する。また、ソース・プログラ
ムを利用しないので、新しい計算機のアーキテクチャや
ＣＰＵの新しい命令に対応する場合に、コンパイラの改
変の完了を待つ必要が無い。

【図面の簡単な説明】

【図１】キャッシュ・システムにおけるキャッシュ・ラ
インの競合を示す図

【図２】本発明におけるプログラムの最適化を示す概念
図

【図３】複数のプログラムを対象に最適化を図る場合の
概念図

【図４】キャッシュ・ブロッキング領域への複写状態を
示す図

【図５】本発明の手順を示す図

【図６】図５に続いて実行される手順を示す図

【図７】テキストテーブルの一例を示す図

【図８】データ使用ラインテーブルの一例を示す図

【図９】ラインテーブルの一例を示す図

【図１０】キャッシュへの配置イメージを示す図

【図１１】キャッシュアロケータでの処理を示すフロー
チャート図

【図１２】オブジェクトコンバータでの処理を示すフロ
ーチャート図

【図１３】ブロック複写処理を示すフローチャート図

【図１４】命令ブロックの複写処理を示すフローチャー
ト図

【図１５】分岐条件反転処理を示すフローチャート図

【図１６】ＣＴＩリロケーション処理を示すフローチャ
ート図

【図１７】分岐予測処理を示すフローチャート図

【図１８】アドレス定数のリロケーション処理を示すフ
ローチャート図

【図１９】本発明の機能実現手段を示した機能ブロック
図

【符号の説明】

１・・・キャッシュ・ブロッキング領域設定手段２・・・実行プロファイル採取手段３・・・実行プロファイル解析手段４・・・複写手段５・・・最適化手段６・・・絞り込み手段１０・・・ＣＤ−ＲＯＭ

───────────────────────────────────────────────────── フロントページの続き (72)発明者北岡正治神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内 (56)参考文献特開平５−324281（ＪＰ，Ａ) 特開平３−184126（ＪＰ，Ａ) 冨山宏之外１名，命令キャッシュのヒット率向上を目的としたコード配置手法，情報処理学会研究報告 95−ＡＲＣ −115，日本，社団法人情報処理学会, 1995年12月15日，第95巻第119号，ｐ. 133−138 ＫａｒｌＰｅｔｔｉｓ外１名，ＰｒｏｆｉｌｅＧｕｉｄｅｄＣｏｄｅＰｏｓｉｔｉｏｎｉｎｇ，ＡＣＭＳＩＧＰＬＡＮ’90 ＣｏｎｆｅｒｅｎｃｅｏｎＰｒｏｇｒａｍｍｉｎｇＬａｎｇｕａｇｅＤｅｓｉｇｎａｎｄＩｍｐｌｅｍｅｎｔａｔｉｏｎ，米国, ａｃｍＰＲＥＳＳ，1990年６月20 日，ＡＣＭＳＩＧＰＬＡＮＮＯＴＩＣＥＳｖｏｌ．25 ｎｏ．６，ｐ．16 −27 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 9/45 G06F 12/08

Claims

(57)【特許請求の範囲】

【請求項１】バイナリ・プログラムを別のバイナリ・
プログラムに変換するバイナリ・プログラム変換装置で
あって、複数の命令ブロックにより構成される変換前のバイナリ
・プログラムが実行された際の情報に基づき、変換後の
バイナリ・プログラムがキャッシュ・メモリを備えた計
算機で実行される際に、変換前のバイナリ・プログラム
の実行された命令ブロックに対応する部分を実行する際
のキャッシュ・メモリのヒット率が向上するように変換
前のバイナリ・プログラムの複数の命令ブロックを再構
成し、同時に実行される複数のバイナリ・プログラムを別の複
数のバイナリ・プログラムに変換する場合に、変換前の
バイナリ・プログラムの実行された命令ブロックに対応
する部分が変換後のバイナリ・プログラム毎にキャッシ
ュ・メモリ上の異なる領域にマッピングされるよう複数
の変換前のバイナリ・プログラムを再構成し、変換前のバイナリ・プログラムの実行された命令ブロッ
クに対応する部分が高頻度でデータがマッピングされる
領域にはマッピングされないように変換前のバイナリ・
プログラムを再構成することで変換後のバイナリ・プロ
グラムを得るバイナリ・プログラム変換装置。
【請求項２】バイナリ・プログラムを別のバイナリ・
プログラムに変換するバイナリ・プログラム変換装置で
あって、複数の命令ブロックにより構成される変換前のバイナリ
・プログラムが実行された際の情報に基づき、変換後の
バイナリ・プログラムがキャッシュ・メモリを備えた計
算機で実行される際に、変換前のバイナリ・プログラム
の実行された命令ブロックに対応する部分を実行する際
のキャッシュ・メモリのヒット率が向上するように変換
前のバイナリ・プログラムの複数の命令ブロックを再構
成し、変換前のバイナリ・プログラムの実行された命令ブロッ
クが実行されなかった命令ブロックとは分離され、実行
された命令ブロックが連続するように変換前のバイナリ
・プログラムの複数の命令ブロックを再構成し、再構成を行った結果、命令ブロックの末尾が条件分岐命
令で、その条件分岐先の命令ブロックが条件分岐を行っ
た命令ブロックの直後となる場合に、前記条件分岐命令
の分岐条件および条件分岐先を変更するバイナリ・プロ
グラム変換装置。
【請求項３】変換前のバイナリ・プログラム中の命令
列を他の命令列に変換することで変換後のバイナリ・プ
ログラムを得る請求項１又は２に記載のバイナリ・プロ
グラム変換装置。
【請求項４】バイナリ・プログラムを別のバイナリ・
プログラムに変換するバイナリ・プログラム変換方法で
あって、複数の命令ブロックにより構成される変換前のバイナリ
・プログラムが実行された際の情報に基づき、変換後の
バイナリ・プログラムがキャッシュ・メモリを備えた計
算機で実行される際に、変換前のバイナリ・プログラム
の実行された命令ブロックに対応する部分を実行する際
のキャッシュ・メモリのヒット率が向上するように変換
前のバイナリ・プログラムの複数の命令ブロックを再構
成し、同時に実行される複数のバイナリ・プログラムを別の複
数のバイナリ・プログラムに変換する場合に、変換前の
バイナリ・プログラムの実行された命令ブロックに対応
する部分が変換後のバイナリ・プログラム毎にキャッシ
ュ・メモリ上の異なる領域にマッピングされるよう複数
の変換前のバイナリ・プログラムを再構成し、変換前のバイナリ・プログラムの実行された命令ブロッ
クに対応する部分が高頻度でデータがマッピングされる
領域にはマッピングされないように変換前のバイナリ・
プログラムを再構成することで変換後のバイナリ・プロ
グラムを得るバイナリ・プログラム変換方法。
【請求項５】バイナリ・プログラムを別のバイナリ・
プログラムに変換するバイナリ・プログラム変換方法で
あって、複数の命令ブロックにより構成される変換前のバイナリ
・プログラムが実行された際の情報に基づき、変換後の
バイナリ・プログラムがキャッシュ・メモリを備えた計
算機で実行される際に、変換前のバイナリ・プログラム
の実行された命令ブロックに対応する部分を実行する際
のキャッシュ・メモリのヒット率が向上するように変換
前のバイナリ・プログラムの複数の命令ブロックを再構
成し、変換前のバイナリ・プログラムの実行された命令ブロッ
クが実行されなかった命令ブロックとは分離され、実行
された命令ブロックが連続するように変換前のバイナリ
・プログラムの複数の命令ブロックを再構成し、再構成を行った結果、命令ブロックの末尾が条件分岐命
令で、その条件分岐先の命令ブロックが条件分岐を行っ
た命令ブロックの直後となる場合に、前記条件分岐命令
の分岐条件および条件分岐先を変更するバイナリ・プロ
グラム変換方法。
【請求項６】変換前のバイナリ・プログラム中の命令
列を他の命令列に変換することで変換後のバイナリ・プ
ログラムを得る請求項４又は５に記載のバイナリ・プロ
グラム変換方法。
【請求項７】請求項４ないし６のいずれかに記載の方
法をコンピュータに実行させるコンピュータプログラム
を格納した記憶媒体。