JP2021149807A

JP2021149807A - 情報処理装置及びコンパイラプログラム

Info

Publication number: JP2021149807A
Application number: JP2020051212A
Authority: JP
Inventors: 秀樹松岡; Hideki Matsuoka; 智子新幸; Tomoko Shinko; 修一千葉; Shuichi Chiba; 浩利清水; Hirotoshi Shimizu
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2021-09-27

Abstract

【課題】情報処理装置において、コンパイラの生成するオブジェクトプログラムの実行速度を高速化する。【解決手段】情報処理装置３０においてプログラムのコンパイル処理を行うコンパイラであって、プログラムのループ処理に含まれる命令列２０ａを取得する取得部と、命令列２０ａのうちの第１の命令と依存関係がない第２の命令を命令列２０ａから抽出する抽出部と、命令列２０ａにおいて、第１の命令の次に第２の命令を配置する配置部とを有する。【選択図】図６

Description

本発明は、情報処理装置及びコンパイラプログラムに関する。

プロセッサにおける命令のスループットを高める方式としてソフトウェアパイプラインがある。ソフトウェアパイプラインは、ループ処理を対象とした命令スケジューリングを行い、ループ内の命令レベル並列性を高めるコンパイラの最適化手法である。大規模なプログラムにおける実行性能のボトルネックとなるのは主としてループ処理である。そのため、ループ処理に対してソフトウェアパイプラインを適用することは、プログラムの実行速度を高速化するのに有用である。

但し、ソフトウェアパイプラインでは、命令の待ち合わせをするための待ち合わせ時間が長くなることがあり、その場合にはプログラムの実行速度を十分に高速化できない。

特開２００１−３０６３３３号公報

一側面によれば、プログラムの実行速度を高速化することを目的とする。

一側面によれば、ループ処理に含まれる命令列を取得する取得部と、前記命令列のうちの第１の命令と依存関係がない第２の命令を前記命令列から抽出する抽出部と、前記命令列において、前記第１の命令の次に前記第２の命令を配置する配置部とを有する情報処理装置が提供される。

一側面によれば、プログラムの実行速度を高速化することができる。

図１は、ターゲットプロセッサのハードウェア構成図である。図２は、計算コアの構成図である。図３（ａ）は、ハードウェアテーブルの模式図であり、図３（ｂ）は、レイテンシテーブルの模式図である。図４は、ターゲットプロセッサで実行するプログラムのアセンブリプログラムの模式図である。図５は、スケジューリングテーブルの模式図である。図６は、本実施形態におけるコンパイル方法の模式図である。図７は、本実施形態において、第２の出力アセンブリプログラムから得られたスケジューリングテーブルの模式図である。図８は、本実施形態に係る情報処理装置の機能構成図である。図９は、本実施形態に係るコンパイル方法のフローチャートである。図１０は、本実施形態に係るスケジューリングテーブル生成処理のフローチャートである。図１１は、本実施形態において生成された実行回路の項目を示す模式図である。図１２は、本実施形態に係るスケジューリングテーブル生成処理の処理内容について説明するための模式図（その１）である。図１３は、本実施形態に係るスケジューリングテーブル生成処理の処理内容について説明するための模式図（その２）である。図１４は、本実施形態に係るスケジューリングテーブル生成処理の処理内容について説明するための模式図（その３）である。図１５は、本実施形態に係るスケジューリングテーブル生成処理の処理内容について説明するための模式図（その４）である。図１６は、本実施形態に係るスケジューリングテーブル生成処理の処理内容について説明するための模式図（その５）である。図１７は、本実施形態に係るスケジューリングテーブル生成処理の処理内容について説明するための模式図（その６）である。図１８は、本実施形態に係るスケジューリングテーブル生成処理の処理内容について説明するための模式図（その７）である。図１９は、本実施形態に係るスケジューリングテーブル生成処理の処理内容について説明するための模式図（その８）である。図２０は、本実施形態に係るスケジューリングテーブル生成処理の処理内容について説明するための模式図（その９）である。図２１は、本実施形態に係るスケジューリングテーブル生成処理の処理内容について説明するための模式図（その１０）である。図２２は、本実施形態に係るスケジューリングテーブル生成処理の処理内容について説明するための模式図（その１１）である。図２３は、本実施形態に係る実行サイクル数比較処理のフローチャートである。図２４は、本実施形態に係る情報処理装置のハードウェア構成図である。

以下に、図面を参照しながら本実施形態について説明する。

図１は、ターゲットプロセッサのハードウェア構成図である。

このターゲットプロセッサ１は、例えばARMの命令セットに対してパイプライン処理が可能なプロセッサである。また、ターゲットプロセッサ１は、アウトオブオーダ実行により命令列を処理するプロセッサであり、命令の順序を入れ替えてプログラムを実行することができる。

この例では、ターゲットプロセッサ１は、計算コア２とL2キャッシュ３とを有する。このうち、計算コア２は、種々の命令を実行するための回路とレジスタとを備えたハードウェアである。また、L2キャッシュ３は、ターゲットプロセッサ１の外部のDRAM(Dynamic Random Access Memory)等のメインメモリ１０のデータを格納するSRAM(Static RAM)等のハードウェアである。

そのL2キャッシュ３には、ターゲットプロセッサ１の外部のDMA(Direct Memory Access)コントローラ４、メモリインターフェース５、バスブリッジ６、及び周辺回路７が接続される。

このうち、DMAコントローラ４は、DMA方式でデータの転送を行うときの制御回路である。また、メモリインターフェース５は、メインメモリ１０とターゲットプロセッサ１との間の通信のインターフェースとなる回路である。更に、バスブリッジ６は、例えばPCI(Peripheral Component Interconnect)バスを別のバスに変換する回路である。そして、周辺回路７は各種の入出力回路である。

図２は、計算コア２の構成図である。
図２に示すように、計算コア２は、ロード命令実行回路(LDU)１１、ストア命令実行回路(STU)１２、整数演算実行回路(ALU)１３、浮動小数演算実行回路(FPU)１４、及びL1キャッシュ１５を有する。これらの各部はバス１６により相互に接続される。

このうち、ロード命令実行回路(LDU)１１は、メインメモリ１０からレジスタにデータを転送するロード命令を実行する回路である。また、ストア命令実行回路(STU)１２は、レジスタからメインメモリ１０にデータを格納するストア命令を実行する回路である。そして、整数演算実行回路(ALU)１３は、整数値のデータに対して算術演算や論理演算を行うための回路である。また、浮動小数演算実行回路(FPU)１４は、浮動小数のデータに対して算術演算を行う回路である。

これらの実行回路の個数は特に限定されない。この例では、計算コア２に整数演算実行回路(ALU)１３を二つ設ける。

一方、L1キャッシュ１５は、L2キャッシュ３のデータを格納するためのSRAM等の回路である。

このような計算コア２においては、複数の命令の依存関係を維持しながら、これらの命令を各実行回路で並列実行することによりプログラムの実行速度が高速化される。その実行速度は、各命令のレイテンシに依存する。ここでは、命令の実行を開始してから実行が終了するまでの時間をレイテンシとして定義する。

計算コア２で実行する命令のレイテンシは、その命令を実行する実行回路ごとに異なる。

例えば、ロード命令実行回路(LDU)１１におけるレイテンシは３クロックサイクルであり、ストア命令実行回路(STU)１２のレイテンシは１クロックサイクルである。そして、整数演算実行回路(ALU)１３のレイテンシは１クロックサイクルであり、浮動小数演算実行回路(FPU)１４のレイテンシは３クロックサイクルである。

図３（ａ）はハードウェアテーブルの模式図であり、図３（ｂ）はレイテンシテーブルの模式図である。

このうち、図３（ａ）のハードウェアテーブル１８は、番号、実行回路、及び命令の各々を対応付けた情報である。このうち、番号は、実行回路を一意に識別する数値である。また、命令は、対応する実行回路が実行する命令である。

一方、図３（ｂ）のレイテンシテーブル１９は、命令とレイテンシとを対応付けた情報である。例えば、ldrsw命令、ldr命令、及びstr命令の各々にはレイテンシ「3」が対応付けられる。なお、ldrsw命令は、即値で表されるメモリアドレスのデータをレジスタに転送する命令である。また、ldr命令はロード命令であり、str命令はストア命令である。

更に、fmul命令とfadd命令は、それぞれ浮動小数の乗算命令と加算命令である。そして、add命令とsub命令は、それぞれ整数の加算命令と減算命令である。また、mov命令はレジスタにデータをコピーする命令であり、cmp命令はオペランドの値とレジスタの値とを比較する命令である。

これらのハードウェアテーブル１８とレイテンシテーブル１９は、いずれも開発用のマシンのメモリに予め格納される。

次に、ターゲットプロセッサ１で実行するプログラムの例について説明する。

図４は、ターゲットプロセッサ１で実行するアセンブリプログラム２０の模式図である。

このアセンブリプログラム２０は、Ｃ言語で記述されたソースプログラムをコンパイラがコンパイルして得られたプログラムである。なお、図４では、ソースプログラムのforループのループ本体に対応した命令列２０ａのみを示している。また、各命令のオペランドにおけるxn、dnはいずれもレジスタを示す。

図４に示すように、この例では、最初のldrsw命令から最後のb.ne命令に至る命令からなる命令列２０ａでループ本体が実現される。なお、nop(no operation)命令は、パイプラインをストールさせるためにコンパイラが生成した命令である。そして、命令列２０ａの先頭のラベル「LBB1_1」は、コンパイラが記述したループの始まりを示す文字列である。また、最後のb.ne命令は、演算結果がゼロであることを示すZフラグに「０」が格納されていない場合にラベル「LBB1_1」のldrsw命令にジャンプする条件分岐命令である。

前述のハードウェアテーブル１８、レイテンシテーブル１９、及びコンパイラが解析した命令間の依存関係を利用すると、命令とそれを実行する実行回路とを対応付けたスケジューリングテーブルを作成することができる。

図５は、そのスケジューリングテーブルの模式図である。
このスケジューリングテーブルTBは、実行回路の各々が実行する命令を実行サイクルCycの順に並べたテーブルである。この例では、命令列２０ａの全体の実行サイクル数が１１となっている。

スケジューリングテーブルTBにおける命令「ldr d3,[x1,x9,lsl#3]」と命令str d2,[x2,x8,lsl#3]の各々のオペランドには同じレジスタが指定されておらず、これらの命令間にはデータの依存関係がない。そのため、この例では命令「ldr d3,[x1,x9,lsl#3]」と命令str d2,[x2,x8,lsl#3]とを同時に実行することにより全体の実行サイクル数の低減が図られている。

しかし、命令「ldrsw x9,[x0,x8,lsl#2]」と命令「fmul d2,d3,d0」との間にもデータの依存関係がないにも関わらず、命令「fmul d2,d3,d0」が命令「ldrsw x9,[x0,x8,lsl#2]」の後に実行されており、実行サイクル数を更に削減する余地がある。

（本実施形態）
本実施形態では、以下のようにしてループ処理における実行サイクル数を低減する。

図６は、本実施形態におけるコンパイル方法の模式図である。

本実施形態では、図６に示すように、情報処理装置３０が、前述のアセンブリプログラム２０における命令列２０ａを取得する（Ｐ１）。そして、情報処理装置３０が、取得した命令列２０ａにおける命令の順序を入れ替えた第１の出力アセンブリプログラム２１を出力する（Ｐ２）。

この例では、情報処理装置３０は、命令列２０ａに含まれる最初の命令「ldrsw x9,[x0,x8,lsl#2]」とデータの依存関係がない命令「fmul d2,d3,d0」を抽出する。そして、情報処理装置３０が、第１の出力アセンブリプログラム２１において、命令「ldrsw x9,[x0,x8,lsl#2]」の次に命令「fmul d2,d3,d0」を配置する。なお、ここでは命令「ldrsw x9,[x0,x8,lsl#2]」の次の二つのnop命令の次に命令「fmul d2,d3,d0」を配置しているが、命令「ldrsw x9,[x0,x8,lsl#2]」の直後に命令「fmul d2,d3,d0」を配置してもよい。

更に、情報処理装置３０が、命令列２０ａに含まれるいずれの命令ともデータの依存関係がない命令「str wzr,[sp,#12]」を、第１の出力アセンブリプログラム２１の命令列２０ａの前に追加する。この命令のオペランドの「wzr」はゼロレジスタを表し、「sp」はスタックポインタを表す。

このように命令列２０ａに含まれるいずれの命令ともデータの依存関係がない命令「str wzr,[sp,#12]」のことを以下ではバリア命令と呼ぶ。

次に、情報処理装置３０が、第１の出力アセンブリプログラム２１をコンパイルした第２の出力アセンブリプログラム２２を出力する（Ｐ３）。そのコンパイルの際、命令「str wzr,[sp,#12]」は、他の命令が自身を追い越すのを禁止するバリア命令として機能する。バリア命令は、情報処理装置３０がソフトウェアパイプラインを実現するための命令列を生成するのを抑止する。そのため、ソフトウェアパイプラインを実現するための多数のnop命令を情報処理装置３０が生成するのを抑止できる。また、情報処理装置３０は、レジスタのリネーミングもそのコンパイル時に実行する。

図７は、第２の出力アセンブリプログラム２２から得られたスケジューリングテーブル２３の模式図である。

図７に示すように、前述のようにldrsw命令の次にfmul命令を配置したことにより、これらの命令が同時に実行されるようになる。これにより、レイテンシが「3」の命令「ldrsw x9,[x0,x8,lsl#2]」と、レイテンシが「3」の命令「fmul d0,d0,d1」の各々の実行時間がクロックサイクル１〜３で重なる。そのため、一方の命令の実行時間を他方の命令の実行時間として有効に活用でき、プログラム全体の実行サイクル数を低減できる。この例では全体の実行サイクル数が７となり、図５の例よりも実行サイクル数を低減することができる。

特に、この例では命令「ldrsw x9,[x0,x8,lsl#2]」を実行する回路がロード命令実行回路１１であり、「fmul d0,d0,d1」を実行する回路が浮動小数演算実行回路１４であって、両命令の実行回路が異なる。そのため、上記のように命令「ldrsw x9,[x0,x8,lsl#2]」と命令「fmul d0,d0,d1」とを同時に実行することができ、実行サイクル数を低減することが可能となる。

更に、バリア命令を追加したことでソフトウェアパイプラインによる最適化が抑止されるため、ソフトウェアパイプラインの実現に要するnop命令が不要となる。そのため、過剰なnop命令でプログラムの実行速度が低下するのを抑制できる。

なお、ターゲットプロセッサ１はアウトオブオーダ実行により命令列を処理するプロセッサであるが、本実施形態はインオーダ実行により命令例を処理するプロセッサにも適用可能である。インオーダ実行のプロセッサの場合は命令の実行順序の変更を伴うソフトウェアパイプラインが実現できないため、バリア命令は不要となる。

次に、本実施形態に係る情報処理装置３０の機能構成について説明する。

図８は、本実施形態に係る情報処理装置３０の機能構成図である。

図８に示すように、情報処理装置３０は、通信部３１、記憶部３２、及び制御部３３を有する。

このうち、通信部３１は、開発者の端末からアセンブリプログラム２０（図６参照）を受信する処理部である。また、記憶部３２は、前述のハードウェアテーブル１８とレイテンシテーブル１９とを記憶する。

一方、制御部３３は、情報処理装置３０の各部を制御する処理部である。この例では、制御部３３は、取得部３４、抽出部３５、配置部３６、追加部３７、プログラム生成部３８、コンパイル部３９、テーブル生成部４０、及び比較部４１を有する。

取得部３４は、アセンブリプログラム２０に含まれる命令列２０ａ（図６参照）を取得する処理部である。

また、抽出部３５は、その命令列２０ａに含まれる第１の命令とデータの依存関係がない第２の命令を抽出する処理部である。図６の例では、第１の命令を命令列２０ａの先頭の命令「ldrsw x9,[x0,x8,lsl#2]」とする。この場合、第２の命令は、命令「ldrsw x9,[x0,x8,lsl#2]」とデータの依存関係がない命令「fmul d2,d3,d0」となる。なお、第１の命令とデータの依存関係がない命令が複数存在する場合には、抽出部３５は、レイテンシテーブル１９を参照することにより、複数の命令のうちでレイテンシが最も大きいものを第２の命令として抽出する。

そして、配置部３６は、命令列２０ａにおいて第１の命令の次に第２の命令を配置する処理部である。図６の例では、配置部３６は、命令「ldrsw x9,[x0,x8,lsl#2]」の次に命令「fmul d2,d3,d0」を配置する。

また、追加部３７は、命令列２０ａの前にバリア命令を追加する処理部である。図６の例では、追加部３７は、命令列２０ａの前にバリア命令として命令「str wzr,[sp,#12]」を追加する。

プログラム生成部３８は、追加部３７によって追加されたバリア命令と、配置部３６によって命令の配置が変更された命令列２０ａとを含むプログラムを第１の出力アセンブリプログラム２１（図６参照）として生成する処理部である。

また、コンパイル部３９は、プログラム生成部３８が生成した第１の出力アセンブリプログラム２１をコンパイルして第２の出力アセンブリプログラム２２（図６参照）を生成する処理部である。

テーブル生成部４０は、ハードウェアテーブル１８、レイテンシテーブル１９、及び第２の出力アセンブリプログラム２２を利用することにより、前述のスケジューリングテーブルTB（図７参照）を生成する処理部である。

そして、比較部４１は、アセンブリプログラム２０と第２の出力アセンブリプログラム２２の各々の命令列の実行サイクル数を比較する処理部である。

次に、本実施形態に係るコンパイル方法について説明する。
図９は、本実施形態に係るコンパイル方法のフローチャートである。

以下では、図６のアセンブリプログラム２０に対して情報処理装置３０が行う処理を例にして説明する。

まず、取得部３４が、アセンブリプログラム２０に含まれる命令列２０ａを取得する（ステップＳ１１）。

次に、追加部３７が、命令列２０ａの前にバリア命令を追加する（ステップＳ１２）。なお、ターゲットプロセッサ１としてインオーダ実行のプロセッサを使用する場合には、前述のようにバリア命令が不要となるため、ステップＳ１２を省略してもよい。

次いで、抽出部３５が、命令列２０ａの先頭の命令「ldrsw x9,[x0,x8,lsl#2]」を第１の命令とし、該第１の命令とその次の命令との間にデータの依存関係があるかを判定する（ステップＳ１３）。

なお、第１の命令とその次の命令が同じ実行回路で実行される命令の場合、抽出部３５はステップＳ１３をスキップし、更に次の命令に対してステップＳ１３を実行する。例えば、図６の例では、第１の命令の「ldrsw x9,[x0,x8,lsl#2]」と同じ実行回路で実行される命令「ldr d3,[x1,x9,lsl#3]」に対してはステップＳ１３を行わず、更に次の命令「str d2,[x2,x8,lsl#3]」に対してステップＳ１３を行うことになる。

ここで、依存関係がない（ステップＳ１３：否定）と判定された場合には、抽出部３５が、第１の命令との間でデータの依存関係がない命令を第２の命令として抽出する（ステップＳ１４）。図６の例では、抽出部３５は、命令「fmul d2,d3,d0」を抽出することになる。

なお、ステップＳ１３〜Ｓ１６は１命令ごとに繰り返されるが、繰り返していくうちに第１の命令とデータの依存関係がない命令が複数見つかる場合がある。その場合は、抽出部３５は、レイテンシテーブル１９を参照することにより、複数の命令のうちでレイテンシが最も大きいものを第２の命令として抽出する。これにより、第１の命令と第２の命令の各々の実行サイクル同士が重なったときに、第２の命令の実行時間を第１の命令の実行時間として有効に活用でき、プログラムの実行速度をより高速化することができる。

次に、配置部３６が、第１の命令の次に第２の命令を配置する（ステップＳ１５）。図６の例では、配置部３６は、命令「ldrsw x9,[x0,x8,lsl#2]」の次に命令「fmul d2,d3,d0」を配置する（ステップＳ１６）。

次いで、配置部３６が、第１の命令と依存関係がない第２の命令の個数が、当該第２の命令を実行する実行回路の個数に等しいかを判定する。ここで、第２の命令の個数が実行回路の個数に等しい場合には、第１の命令と依存関係がない新たな第２の命令が見つかっても、全ての第２の命令を各実行回路で並列実行できない。

よって、第２の命令の個数が実行回路の個数に等しいと判定された場合（ステップＳ１６：肯定）は、第２の命令の探索を停止し、ステップＳ１７に移る。

一方、第２の命令の個数が実行回路の個数に等しくないと判定された場合（ステップＳ１６：否定）は、各実行回路で並列実行できる第２の命令が命令列２０ａに存在する可能性がまだある。よって、この場合には、ステップＳ１４で抽出した第２の命令の次の命令に対してステップＳ１３からやり直す。

また、ステップＳ１３において依存関係があると判定された場合（ステップＳ１３：肯定）は、依存関係の有無が判定された次の命令に対してステップＳ１３を実行する。そして、全ての命令に対してステップＳ１３を実行した場合にはステップＳ１７に移る。

ステップＳ１７においては、プログラム生成部３８が第１の出力アセンブリプログラム２１を生成する。その第１の出力アセンブリプログラム２１は、ステップＳ１２で追加したバリア命令と、ステップＳ１５で命令の配置が変更された命令列２０ａとを備えたアセンブリのプログラムである。

次いで、コンパイル部３９が、第１の出力アセンブリプログラム２１をコンパイルして第２の出力アセンブリプログラム２２を生成する（ステップＳ１８）。ステップＳ１２でバリア命令「str wzr,[sp,#12]」を追加したことにより、そのコンパイルでは、コンパイル部３９がソフトウェアパイプラインに適した命令列を生成するのが抑止され、多数のnop命令が生成されるのを抑えることができる。また、コンパイル部３９は、コンパイル時にレジスタのリネーミングも行う。

次に、テーブル生成部４０がスケジューリングテーブル生成処理を行う（ステップＳ１９）。そして、比較部４１が実行サイクル数比較処理を行い（ステップＳ２０）、本実施形態に係るコンパイル方法の基本ステップを終える。

次に、ステップＳ１９のスケジューリングテーブル生成処理について説明する。

図１０は、本実施形態に係るスケジューリングテーブル生成処理のフローチャートである。

以下では、図６の第２の出力アセンブリプログラム２２を例にしながら、スケジューリングテーブル生成処理の各ステップについて説明する。

まず、テーブル生成部４０が、スケジューリングテーブルTBにおける実行回路の項目を生成する（ステップＳ３１）。

図１１は、このようにして生成された実行回路の項目を示す模式図である。図１１に示すように、テーブル生成部４０は、ロード命令実行回路(LDU)１１、ストア命令実行回路(STU)１２、整数演算実行回路(ALU)１３、浮動小数演算実行回路(FPU)の各々の項目を生成する。更に、テーブル生成部４０は、実行サイクル数を示す項目「Cyc」も生成する。
再び図１０を参照する。

次に、テーブル生成部４０が、第２の出力アセンブリプログラム２２の命令を一行ずつ読み込み、その命令に「LBB1_1」等の文字列のラベルがあるかを検出する（ステップＳ３２）。ラベルは、ループ処理の最後の命令であるジャンプ命令の戻り先の命令に付される。よって、ラベルが付された命令は、ループ処理の最初の命令ということになる。

ここで、ラベルを検出しない場合（ステップＳ３２：否定）は、第２の出力アセンブリプログラム２２にはループ処理が存在しないことになる。本実施形態が対象とするのはループ処理における実行サイクル数の低減であるため、この場合には処理を行わずに呼び出し元に戻る。

一方、ラベルを検出した場合（ステップＳ３２：肯定）はステップＳ３３に移る。

ステップＳ３３では、テーブル生成部４０が、ループ処理における命令の番号を示す変数nを１に初期化する。n=1の命令は、そのループ処理における最初の命令であり、n=2の命令は最初から２番目の命令ということになる。

次に、テーブル生成部４０が、第２の出力アセンブリプログラム２２におけるn番目の命令を読み込む（ステップＳ３４）。

次いで、テーブル生成部４０が、ハードウェアテーブル１８（図３（ａ））を参照することにより、n番目の命令を実行する実行回路の番号kを特定する（ステップＳ３５）。例えば、１番目の命令である命令「str wzr,[sp,#12]」は、ストア命令実行回路(STU)１２で実行される命令であるから、その実行回路の番号は「02」となる。

次に、テーブル生成部４０が、ステップＳ３１で生成された実行回路の各項目のうち、番号kの実行回路の欄にn番目の命令を書き込む（ステップＳ３６）。１番目の命令である命令「str wzr,[sp,#12]」は、番号が「02」で表されるストア命令実行回路(STU)１２の欄に書き込まれる。

次いで、テーブル生成部４０が、レイテンシテーブル１９を参照することによりn番目の命令のレイテンシを特定し、そのレイテンシを記憶する（ステップＳ３７）。図３に示されるように、１番目の命令である命令「str wzr,[sp,#12]」のレイテンシは「3」である。

次いで、テーブル生成部４０が、n番目の命令がbne命令かどうかを判定する（ステップＳ３８）。bne命令は、ループ処理の最後の命令である。よって、n番目の命令がbne命令である場合（ステップＳ３８：肯定）は、後続のn+1番目の命令はループ処理には含まれないため処理を終える。

一方、n番目の命令がbne命令ではない場合（ステップＳ３８：否定）は、後続のn+1番目の命令はループ処理に含まれる命令である。よって、この場合はステップＳ３９に移り、テーブル生成部４０が変数nを１だけインクリメントし、再びステップＳ３４に戻る。

以上により、スケジューリングテーブル生成処理の基本ステップを終了する。

次に、このスケジューリングテーブル生成処理におけるステップＳ３６の処理内容について詳細に説明する。

図１２〜図２２は、ステップＳ３６の処理内容について説明するための模式図である。

まず、図１２に示すように、テーブル生成部４０が、１番目の命令である命令「str wzr,[sp,#12]」を、ストア命令実行回路１２の１サイクル目に書き込む。

次に、図１３に示すように、テーブル生成部４０が、２番目の命令である命令「ldrsw x9,[x0,x8,lsl#2]」を、ロード命令実行回路１１の１サイクル目に書き込む。

続いて、図１４に示すように、テーブル生成部４０が、３番目の命令である命令「fmul d0,d0,d1」を、浮動小数演算実行回路１４の１サイクル目に書き込む。

次に、図１５に示すように、テーブル生成部４０が、４番目と５番目の命令である２個のnop命令を浮動小数演算実行回路１４の２サイクル目と３サイクル目に書き込む。

次いで、図１６に示すように、テーブル生成部４０が、６番目の命令である命令「fadd d3,d0,d2」を、浮動小数演算実行回路１４の４サイクル目に書き込む。

続いて、図１７に示すように、テーブル生成部４０が、７番目の命令である命令「ldr d0,[x1,x9,lsl#3]」をロード命令実行回路１１の欄に書き込む。

このとき、テーブル生成部４０は、命令「ldr d0,[x1,x9,lsl#3]」の先行命令である命令「ldrsw x9,[x0,x8,lsl#2]」のレイテンシ「3」をステップＳ３７で記憶している。レイテンシが「3」の場合、命令「ldrsw x9,[x0,x8,lsl#2]」の実行が終了するのは３サイクル目である。よって、テーブル生成部４０は４サイクル目に命令「ldr d0,[x1,x9,lsl#3]」を書き込む。

次いで、図１８に示すように、テーブル生成部４０が、８番目の命令である命令「add x9,x8,#1」を「#0」の整数演算実行回路１３の欄に書き込む。この命令「ldr d0,[x1,x9,lsl#3]」におけるオペランドにはレジスタx9が指定されており、レジスタx9を使用する４サイクル目の先行命令「ldrsw x9,[x0,x8,lsl#2]」との間にデータの依存関係がある。テーブル生成部４０は、この依存関係を検出し、４サイクル目以降で空いている欄のうち最もサイクル数が小さい欄に命令「add x9,x8,#1」を書き込む。ここでは、テーブル生成部４０は、４サイクル目に命令「add x9,x8,#1」を書き込む。

次いで、図１９に示すように、テーブル生成部４０が、９番目の命令である命令「cmp x9,#99」を、「#0」の整数演算実行回路１３の５サイクル目に書き込む。

次いで、図２０に示すように、テーブル生成部４０が、１０番目と１１番目の命令である２個のnop命令を、「#0」の整数演算実行回路１３の６サイクル目と７サイクル目に書き込む。

続いて、図２１に示すように、テーブル生成部４０が、１２番目の命令である命令「str d3,[x2,x8,lsl#3]」をストア命令実行回路１２に書き込む。この命令「str d3,[x2,x8,lsl#3]」におけるオペランドにはレジスタd3が指定されており、レジスタd3を使用する４サイクル目の先行命令「fadd d3,d0,d2」との間にデータの依存関係がある。また、テーブル生成部４０は、先行命令「fadd d3,d0,d2」のレイテンシが「3」であることをステップＳ３７で記憶している。テーブル生成部４０は、このような依存関係とレイテンシとに基づいて、先行命令「fadd d3,d0,d2」が終了する７サイクル目以降で空いている欄のうち最もサイクル数が小さい欄に命令「str d3,[x2,x8,lsl#3]」を書き込む。ここでは、テーブル生成部４０は、７サイクル目に命令「str d3,[x2,x8,lsl#3]」を書き込む。

次に、図２２に示すように、テーブル生成部４０が、１３番目の命令である命令「b.ne LBB1_1」を「#1」の整数演算実行回路１３の欄に書き込む。命令「b.ne LBB1_1」はループ処理の最後の命令であるから、ループ処理内の他の命令と順序が逆転するとループ処理が正しく実行されない。そこで、テーブル生成部４０は、全ての命令のうちで最も遅い７サイクル目に命令「b.ne LBB1_1」を書き込む。

以上により、第２の出力アセンブリプログラム２２に対応したスケジューリングテーブルTBが完成する。

更に、テーブル生成部４０は、アセンブリプログラム２０に対してもこのスケジューリングテーブル生成処理を実行することにより、アセンブリプログラム２０のスケジューリングテーブルTBを生成する。

次に、図９のステップＳ２０の実行サイクル数比較処理について説明する。

図２３は、本実施形態に係る実行サイクル数比較処理のフローチャートである。

まず、比較部４１が、元のアセンブリプログラム２０の命令列の実行サイクル数を特定する（ステップＳ５１）。図５の例では、その実行サイクル数は１１である。

次に、比較部４１が、第２の出力アセンブリプログラム２２の命令列の実行サイクル数を特定する（ステップＳ５２）。図７の例では、その実行サイクル数は７である。

次いで、比較部４１が、第２の出力アセンブリプログラム２２の命令列の実行サイクル数が、元のアセンブリプログラム２０の命令列の実行サイクル数よりも減ったかを判定する（ステップＳ５３）。一例として、比較部４１は、元のアセンブリプログラム２０と第２の出力アセンブリプログラム２２の各々の命令列の実行サイクル数を比較し、後者の実行サイクル数が前者の実行サイクル数よりも減ったかを判定する。

ここで、実行サイクル数が減ったと判定された場合（ステップＳ５３：肯定）は、比較部４１が、第２の出力アセンブリプログラム２２の採用を決定する（ステップＳ５４）。

一方、実行サイクル数が減っていないと判定された場合（ステップＳ５３：否定）は、比較部４１が、元のアセンブリプログラム２０の採用を決定する（ステップＳ５５）。

以上により、実行サイクル数比較処理の基本ステップを終える。

上記した本実施形態によれば、図９のステップＳ１５において、配置部３６が、第１の命令の「ldrsw x9,[x0,x8,lsl#2]」と依存関係がない第２の命令の「fmul d2,d3,d0」を、命令「ldrsw x9,[x0,x8,lsl#2]」の次に配置する。そして、これにより得られた第１の出力アセンブリプログラム２１をコンパイル部３９がコンパイルして第２の出力アセンブリプログラム２２を生成する。

その第２の出力アセンブリプログラム２２においては、上記のように命令「ldrsw x9,[x0,x8,lsl#2]」の次に命令「fmul d2,d3,d0」を配置したことで、図７のようにこれらの命令の実行時間同士が重なる。これによりプログラム全体の実行サイクル数が低減し、プログラムの実行速度を高速化することができる。

しかも、図２３の実行サイクル数比較処理においては、元のアセンブリプログラム２０と第２の出力アセンブリプログラム２２の各々の命令列の実行サイクル数を比較し、後者の実行サイクル数が前者よりも減ったかを判定する。そして、実行サイクル数が減ったと判定された場合にステップＳ５４で第２の出力アセンブリプログラム２２の採用を決定することで、処理前と比較して高速なプログラムを得ることができる。

次に、本実施形態に係る情報処理装置のハードウェア構成について説明する。

図２４は、本実施形態に係る情報処理装置のハードウェア構成図である。

図２４に示すように、情報処理装置３０は、記憶装置３０ａ、メモリ３０ｂ、プロセッサ３０ｃ、通信インターフェース３０ｄ、表示装置３０ｅ、及び入力装置３０ｆを有する。これらの各部は、バス３０ｇにより相互に接続される。

このうち、記憶装置３０ａは、HDD(Hard Disk Drive)やSSD(Solid State Drive)等の不揮発性のストレージであって、本実施形態に係るコンパイラプログラム５０を記憶する。

なお、コンパイラプログラム５０をコンピュータが読み取り可能な記録媒体３０ｈに記録させておき、プロセッサ３０ｃに記録媒体３０ｈのコンパイラプログラム５０を読み取らせるようにしてもよい。

そのような記録媒体３０ｈとしては、例えばCD-ROM(Compact Disc - Read Only Memory)、DVD(Digital Versatile Disc)、及びUSB(Universal Serial Bus)メモリ等の物理的な可搬型記録媒体がある。また、フラッシュメモリ等の半導体メモリやハードディスクドライブを記録媒体３０ｈとして使用してもよい。これらの記録媒体３０ｈは、物理的な形態を持たない搬送波のような一時的な媒体ではない。

更に、公衆回線、インターネット、及びLAN(Local Area Network)等に接続された装置にコンパイラプログラム５０を記憶させてもよい。その場合は、プロセッサ３０ｃがそのコンパイラプログラム５０を読み出して実行すればよい。

一方、メモリ３０ｂは、DRAM等のようにデータを一時的に記憶するハードウェアであって、その上にコンパイラプログラム５０が展開される。

プロセッサ３０ｃは、情報処理装置３０の各部を制御するCPU(Central Processing Unit)やGPU(Graphical Processing Unit)等のハードウェアである。そのプロセッサ３０ｃがメモリ３０ｂと協働してコンパイラプログラム５０を実行することにより図８の制御部３３が実現される。

図８に示したように、その制御部３３には、取得部３４、抽出部３５、配置部３６、追加部３７、プログラム生成部３８、コンパイル部３９、テーブル生成部４０、及び比較部４１の各部が含まれる。また、図８の記憶部３２は、記憶装置３０ａとメモリ３０ｂにより実現される。

更に、通信インターフェース３０ｄは、情報処理装置３０をLAN等のネットワークに接続するためのNIC(Network Interface Card)等のハードウェアである。その通信インターフェース３０ｄにより図８の通信部３１が実現される。

そして、表示装置３０ｅは、開発者に種々の情報を表示するための液晶表示装置等のハードウェアである。また、入力装置３０ｆは、キーボードやマウス等のハードウェアである。例えば、開発者は、入力装置３０ｆを操作することにより、情報処理装置３０に対して種々の指示を出すことになる。

１…ターゲットプロセッサ、２…計算コア、３…L2キャッシュ、４…DMAコントローラ、５…メモリインターフェース、６…バスブリッジ、７…周辺回路、１０…メインメモリ、１１…ロード命令実行回路、１２…ストア命令実行回路、１３…整数演算実行回路、１４…浮動小数演算実行回路、１５…L1キャッシュ、１６…バス、１８…ハードウェアテーブル、１９…レイテンシテーブル、２０…アセンブリプログラム、２０ａ…命令列、２１…第１の出力アセンブリプログラム、２２…第２の出力アセンブリプログラム、２３…スケジューリングテーブル、３０…情報処理装置、３０ａ…記憶装置、３０ｂ…メモリ、３０ｃ…プロセッサ、３０ｄ…通信インターフェース、３０ｅ…表示装置、３０ｆ…入力装置、３０ｇ…バス、３０ｈ…記録媒体、３１…通信部、３２…記憶部、３３…制御部、３４…取得部、３５…抽出部、３６…配置部、３７…追加部、３８…プログラム生成部、３９…コンパイル部、４０…テーブル生成部、４１…比較部、５０…コンパイラプログラム。

Claims

ループ処理に含まれる命令列を取得する取得部と、
前記命令列のうちの第１の命令と依存関係がない第２の命令を前記命令列から抽出する抽出部と、
前記命令列において、前記第１の命令の次に前記第２の命令を配置する配置部と、
を有することを特徴とする情報処理装置。
前記命令列の前にバリア命令を追加する追加部を更に有することを特徴とする請求項１に記載の情報処理装置。
前記第１の命令を実行する第１の実行回路は、前記第２の命令を実行する第２の実行回路と異なることを特徴とする請求項１に記載の情報処理装置。
取得した前記命令列の実行サイクル数と、前記第１の命令の次に前記第２の命令を配置した命令列の実行サイクル数とを比較する比較部を更に有することを特徴とする請求項１に記載の情報処理装置。
コンピュータに、
ループ処理に含まれる命令列を取得し、
前記命令列のうちの第１の命令と依存関係がない第２の命令を前記命令列から抽出し、
前記命令列において、前記第１の命令の次に前記第２の命令を配置する、
処理を実行させるためのコンパイラプログラム。