JP6488739B2 - 並列化コンパイル方法、及び、並列化コンパイラ - Google Patents

並列化コンパイル方法、及び、並列化コンパイラ Download PDF

Info

Publication number
JP6488739B2
JP6488739B2 JP2015021113A JP2015021113A JP6488739B2 JP 6488739 B2 JP6488739 B2 JP 6488739B2 JP 2015021113 A JP2015021113 A JP 2015021113A JP 2015021113 A JP2015021113 A JP 2015021113A JP 6488739 B2 JP6488739 B2 JP 6488739B2
Authority
JP
Japan
Prior art keywords
program
static scheduling
conditional
parallel
scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015021113A
Other languages
English (en)
Other versions
JP2016143378A (ja
Inventor
範幸 鈴木
範幸 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2015021113A priority Critical patent/JP6488739B2/ja
Priority to DE102016201612.1A priority patent/DE102016201612A1/de
Publication of JP2016143378A publication Critical patent/JP2016143378A/ja
Application granted granted Critical
Publication of JP6488739B2 publication Critical patent/JP6488739B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/45Exploiting coarse grain parallelism in compilation, i.e. parallelism between groups of instructions
    • G06F8/451Code distribution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/45Exploiting coarse grain parallelism in compilation, i.e. parallelism between groups of instructions
    • G06F8/456Parallelism detection

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Devices For Executing Special Programs (AREA)

Description

本発明は、並列化コンパイル方法、並列化コンパイラ、及び、電子装置に関する。
マルチコアプロセッサが搭載された車載装置において、各コアに機能を分散させることでスループットを向上させることが知られている(非特許文献1)。また、シングルコアプロセッサ用のプログラム(逐次プログラム)から、マルチコアプロセッサにより並列処理可能な並列化プログラムを生成する並列化コンパイラが知られている。
K Seo,J Yoon,J Kim,T Chung,K Yi,N Chang、「Coordinated implementation and processing of a unified chassis control algorithm with multi-central processing unit」、JAUTO1346 IMechE、2009年、Vol.224 Part D
ここで、逐次プログラムにおいて、条件コンパイルスイッチにより仕向地等に応じてコンパイル対象となる記述を選択する場合がある(条件付コンパイル)。並列化コンパイラを用いてこのような逐次プログラムから並列化プログラムを生成する場合、一般的に、まず、条件コンパイルスイッチに基づき逐次プログラムの中からコンパイルの対象となる部分が特定され、該部分から並列化プログラムが生成される。
しかしながら、コンパイルの対象となる部分が変更されると、逐次プログラムを構成するマクロタスク間のデータ依存性や制御依存性が変化する可能性がある。このため、同一の逐次プログラムから生成された仕向地等の異なる複数の並列化プログラムでは、同一の逐次プログラムから生成され、同等の機能を有するにも関わらず、各プロセッサコアに割り当てられる処理内容が大きく異なる可能性がある。その結果、品質の維持や並列化プログラムの管理が困難になる。
本発明は、並列化プログラムの品質の維持や管理を容易にすることを目的とする。
本発明の一側面である並列化コンパイル方法は、シングルプロセッサシステムにより実行されるプログラムであって、条件付コンパイルにより入力情報に応じてコンパイルするか否かが選択される条件付記述が含まれている逐次プログラムに記述された処理を、入力情報に関わらず複数のマクロタスクに分割する分割手順(S210)と、マクロタスク間のデータ依存性に基づき、マルチプロセッサシステムを構成する複数のプロセッサユニットにより並列実行可能なマクロタスクを抽出する抽出手順(S220)と、それぞれのマクロタスクをいずれかのプロセッサユニットに割り当てる処理であって、並列実行可能なマクロタスクのうちの全部又は一部を、異なるプロセッサユニットに割り当て、マルチプロセッサシステムにより実行される並列化プログラムを生成するスタティックスケジューリングを行うスケジューリング手順(S110)と、を有する。
このような構成によれば、条件付記述を全て含んだ状態で逐次プログラムから並列化プログラムが生成される。そして、入力情報を設定することで、該並列化プログラムにおける条件付記述の中からコンパイルの対象外となる部分を除去することが可能となる。
このため、どのような入力情報が設定されても、条件付記述に対応する処理以外の処理(入力情報の内容に関わらず常に実行される処理)は、常に同じプロセッサユニットに割り当てられることになる。つまり、入力情報を設定することで仕向地等の異なる複数の種別の並列化プログラムが生成される場合であっても、各種別の並列化プログラムの共通性をより一層高めることができ、その結果、並列化プログラムの品質の維持や管理が容易になる。
なお、この欄及び特許請求の範囲に記載した括弧内の符号は、1つの態様として後述する実施形態に記載の具体的手段との対応関係を示すものであって、本発明の技術的範囲を限定するものではない。
自動並列化コンパイラがインストールされたPCの構成を示すブロック図である。 自動並列化処理のフローチャートである。 ソフト構造解析処理のフローチャートである。 車載装置の構成を示すブロック図である。 具体例1における逐次プログラムや割当情報や比較プログラムの説明図である。 具体例1における逐次プログラムに記載された処理の処理時間等を示す表である。 具体例1で生成された比較プログラムの性能の検証結果を示す表である。 具体例2における逐次プログラムやMTGの説明図である。 具体例2におけるMTGや割当情報の説明図である。 具体例2における逐次プログラムに記載された処理の処理時間等を示す表である。 具体例2で生成された比較プログラムの並列実行時間を示す表である。 具体例3で生成された比較プログラムの性能の検証結果を示す表である。 具体例4における逐次プログラムの説明図である。 具体例4における条件コンパイルスイッチの引数等を示す表である。 具体例4における各種別に対応する条件コンパイルスイッチの引数の値を示す表である。 具体例4で生成された比較プログラムの説明図である。 具体例4で生成された比較プログラムの説明図である。
以下、本発明の実施形態について図面を用いて説明する。なお、本発明の実施の形態は、下記の実施形態に何ら限定されることはなく、本発明の技術的範囲に属する限り種々の形態を採りうる。
[本実施形態について]
1.自動並列化コンパイラについて
本実施形態の自動並列化コンパイラは、組込みシステム向けのシングルプロセッサシステム用のソースプログラム(逐次プログラム)から、組込みシステム向けのマルチプロセッサシステム用の並列化プログラムを生成する機能を有している。
1−1.自動並列化コンパイラの設計概念
本実施形態の自動並列化コンパイラは、以下の機能を有している。
(1)マルチグレイン並列処理
(2)コンパイル時のスタティックスケジューリングコードの挿入
(3)実行時のダイナミックスケジューリングコードの生成
(4)階層型マクロデータフローの実現
(5)マクロタスクの分割/融合,Loop distribution/interchange等の並列性抽出
(6)データローカライズによるデータ転送効率の向上
(7)コンパイラによる電力削減
1−2.自動並列化コンパイラの内部処理
自動並列化コンパイラは、Front End(FE),Middle Path(MP),Back End(BE)の3つのステージを有している。各ステージは実行形態として独立しており、FE,MPから生成される中間言語によりコード授受が行われる。
なお、FEは、逐次プログラムのソースコードを字句解析・構文解析を行い、MPにおいてparse可能な中間言語を生成する部位である。FEの生成する中間言語は、基本的に4つのオペランドを持つ解析木(parse tree)で表現されており、全体として1つのブロックを形成していて構造化は行われていない。
また、MPは、制御依存性解析・データ依存性解析・最適化等を行う部位であり、そのデータを用いて粗粒度・中粒度・近細粒度並列化のマルチグレイン並列処理を行う。
また、BEは、MPが生成した並列化中間言語を読み込んで実際のマシンコードを生成する部位である。当該部位は、ターゲットとなっているマルチコアアーキテクチャのアセンブラコードを生成するBEの他、OpenMP用の並列化FortranコードやCコードを生成するBEを有している。さらには、当該部位は、後述する並列化APIによりメモリ配置,データ転送を含めて並列化したコードを生成するBE等、多様なアーキテクチャに対応したコードを出力するBEを有している。
1−3.自動並列化コンパイラの並列性解析
自動並列化コンパイラは、逐次プログラムを、基本ブロック(BB),繰り返しブロック(RB),サブルーチンブロック(SB)の3種類の粗粒度タスク(マクロタスク(MT))に分割するマクロデータフロー処理を行う。
しかし、マクロデータフロー処理では、プログラムの形状によってはプロセッサの利用効率が上がらず、十分な粗粒度並列性が抽出できないという問題点がある。
そこで、自動並列化コンパイラでは、従来の単階層マクロデータフロー処理手法を拡張し、MT内部に対してマクロデータフロー処理を階層的に利用する階層型マクロデータフロー処理を採用している。階層的マクロデータフロー処理では、MTの階層的な定義を行い、各階層のマクロタスクに対してマクロタスク間の並列性の解析を行う。
<マクロフローグラフ(MFG)の生成>
自動並列化コンパイラは、まず、生成された各階層のマクロタスクに対して、マクロタスク間の制御依存性とデータ依存性を解析する。この解析結果は、マクロフローグラフ(MFG)として表される。
<マクロタスクグラフ(MTG)の生成>
MFGは、マクロタスク間の制御依存性とデータ依存性を表すが、並列性は表していない。並列性を抽出するためには、各マクロタスクに対し、制御依存性とデータ依存性の両方を考慮した最早実行可能条件解析を行う必要がある。最早実行可能条件とは、そのMTが最も早い時点で実行可能になる条件であり、次のような実行条件から求められる。
(1)MTiがMTjにデータ依存するならば、MTjの実行が終了するまでMTiは実行できない。
(2)MTjの条件分岐先が確定すれば、MTjの実行が終了しなくても、MTjに制御依存するMTiは実行できる。
したがって、最早実行可能条件の一般形は次のようになる。
(MTiが制御依存するMTjがMTiに分岐する)
AND
((MTiがデータ依存するMTk(0≦k≦|N|))が終了)OR(MTkが実行されないことが決定する))
マクロタスクの最早実行可能条件は、マクロタスクグラフ(MTG)で表される。
1−4.マルチグレイン並列処理
自動並列化コンパイラでは、従来のループ並列化に加え、ループ間,サブルーチン間における粗粒度タスク間の並列性を利用する粗粒度タスク並列処理や、ステートメント間の並列性を利用する近細粒度並列処理を効果的に組み合わせたマルチグレイン並列処理(参考文献1(本多弘樹, 岩田雅彦, 笠原博徳、「Fortranプログラム粗粒度タスク間の並列性検出手法」、電子情報通信学会論文誌、1990年)参照)を実現している。
<粗粒度タスク並列処理>
自動並列化コンパイラは、BB,RB,SB等のMT間の制御依存性とデータ依存性を表現したマクロフローグラフ(MFG)を生成し、さらに、MFGから最早実行可能条件解析により引きだしたMT間の並列性を、マクロタスクグラフ(MTG)として表現する(参考文献1,参考文献2(笠原,合田,吉田,岡本,本多、「Fortranマクロデータフロー処理のマクロタスク生成手法」、信学論、1992年、Vol.J75-D-I、No.8、pp.511-525)参照)。
その後、自動並列化コンパイラは、MTG上のMTを、1つ以上のプロセッサエレメント(PE)をグルーピングしたプロセッサグループ(PG)に割り当てる。
<中粒度並列処理>
PGに割り当てられたMTが、DOALLループ、或いはイタレーションレベルで並列処理が可能なものであれば、そのMTには、プロセッサクラスタ内のプロセッサによって中粒度並列処理がなされる。この中粒度並列処理は、DOループイタレーション間の並列性を利用する並列処理のことであり、マルチプロセッサにおける並列処理では最も一般的なものである。
<近細粒度並列処理>
ステートメントレベルの近細粒度タスクに対する並列処理を、近細粒度並列処理という。これによって、依存の無いステートメントも並列実行が可能になり、実行時間が短縮される。
1−5.マクロタスクスケジューリング
粗粒度タスク並列処理では、各階層で生成されたマクロタスクは、PGに割り当てられて実行される。どのPGにマクロタスクを割り当てるかを決定するスケジューリング手法として、下記のダイナミックスケジューリングとスタティックスケジューリングがあり、これらは、マクロタスクグラフの形状や実行時非決定性等を元に選択される。
<ダイナミックスケジューリング>
条件分岐等の実行時不確定性が存在する場合には、ダイナミックスケジューリングによって実行時にマクロタスクをPGに割り当てる。ダイナミックスケジューリングルーチンは、マクロタスクの終了や分岐方向の決定に応じてマクロタスク実行管理テーブルを操作し、各マクロタスクの最早実行可能条件を検査する。
マクロタスクが実行可能であれば、レディキューにマクロタスクが投入される。レディキュー内のマクロタスクは、その優先順位に従ってソートされ、レディキューの先頭のマクロタスクが、アイドル状態のプロセッサクラスタに割り当てられる。
また、ダイナミックスケジューリングコード生成時には、一つの専用のプロセッサがスケジューリングを行う集中スケジューリング方式と、スケジューリング機能を各プロセッサに分散した分散スケジューリング方式を、使用するプロセッサ台数,システムの同期オーバーヘッドに応じて使い分けることができる。
<スタティックスケジューリング>
一方、スタティックスケジューリングは、マクロタスクグラフがデータ依存エッジのみを持つ場合に使用され、自動並列化コンパイラが、コンパイル時にPGへのマクロタスクの割り当てを決める方式である。
スタティックスケジューリングは、実行時スケジューリングオーバーへッドを無くし、データ転送と同期のオーバーへッドを最小化することが可能であるため、粒度の細かいタスクのスケジューリングに対しても効果的に利用できる。
また、スタティックスケジューリングの際、タスクのコストは自動並列化コンパイラでのタスクコスト推定値を適用するが、自動並列化コンパイラのプロファイル自動フィードバック機能を用いることで、実コストでタスクスケジューリングを行うことも可能である。
プロファイル自動フィードバック機能を用いる場合、第1フェーズとして、逐次プログラムをMTに分解し、MT毎にプロファイラ関数を挿入して逐次プログラムを生成する。このプロファイラ関数では、タスク実行コスト(clock cycle)とタスク実行回数を計測する。このプロファイラ関数が挿入された逐次プログラムを一度ターゲットとなるマシン上で実行することで、ターゲットとなるマシン上でのタスク実行コストとタスク実行回数の情報を持つファイルを出力する。
そして、第2フェーズにて、この出力ファイルと逐次プログラムを入力として、実コストに基づきスケジューリングした並列化プログラムが生成される。
1−6.データローカライゼーション
自動並列化コンパイラは、プログラム全域に渡るキャッシュ最適化を行うことが可能である。自動並列化コンパイラは、ループ間などの並列性を解析した後、ループ間にデータ依存があることが分かると、依存があるループ間でのキャッシュのグローバル最適化を試みる(参考文献3(特許第4177681号公報)参照)。
具体的には、各ループでアクセスされる配列を調査し、同一の分割ループは同一の配列部分にアクセスするように調整することにより、同一の分割ループを同一プロセッサに割り当てる。これにより、同一の分割ループでは、全ての配列データがキャッシュ上で再利用されるようになる。
また、このローカライズ技術は、
(1)任意のサイズのローカルメモリ或いは分散共有メモリが与えられた時に、DMA(DTU)(参考文献4(特許第4476267号公報)参照)を用いアクセスされる前に、前記プロセッサに近接したローカル或いは分散共有メモリに事前ロードし、プログラム全域で再利用する。
(2)送付先のメモリが一杯の場合には、送付先プロセッサのDTUが、メモリからの掃き出し優先順位に従ってデータを共有メモリ等へ掃き出したことを同期フラグで知らされたら、自動的に空いたメモリにデータを転送する。
(3)将来再利用されるデータであるが、暫くの間使用されず、メモリの領域を開ける必要がある場合には、CPUによるタスク実行の裏側でDTUが当該データを集中共有メモリに待避し、使用時までに再ロードする。
といったローカルメモリ管理,データ転送技術へと進化している(参考文献5(英国特許第2478874号明細書)。
1−7.並列化プログラムの生成
自動並列化コンパイラにおける並列化プログラムの生成は、自動並列化API(参考文献7(早稲田大学、「Optimally Scheduled Advanced Multiprocessor Application Program Interface」、2008年)参照)を用い、並列化C或いは並列化Fortranのような、source-to-sourceで並列化を行うことが可能である。
この場合には、自動並列化コンパイラは、様々なプラットフォームにおいて並列化プログラムを実行可能とするため、後述する自動並列化API標準解釈系を用いて、各プロセッサ用のC或いはFortranのディレクティブ部分をランタイムライブラリコールに変換する。その後、自動並列化コンパイラは、各プロセッサ用のコードを逐次コンパイラでコンパイルしてバイナリを生成し、このバイナリをリンクすると、対象となるマルチプロセッサ上で並列化プログラムを実行可能となる。
2.組み込みシステム用の逐次プログラムの並列化手順と手法
次に、組み込みシステム用の逐次プログラムの特徴について述べ、本実施形態の自動並列化コンパイラによる並列化手法について説明する。なお、組み込みシステムとは、例えば、車載装置であっても良いし、車載装置以外の電子装置であっても良い。また、逐次プログラムは、モデルベース設計により自動生成されたもの(一例として、MathWork社のMatlab(登録商標),Simulink(登録商標)にて自動生成されたもの)であっても良い。
自動並列化コンパイラは、条件分岐と代入文により構成され、処理が細かい逐次プログラムに対して、インライン展開やリネーミングを行い、並列性を抽出する。また、リアルタイム性を順守するために条件分岐隠蔽のためのタスク融合を行い、オーバーヘッドが低くなるようにスタティックスケジューリングを行う。さらに、実コストでスタティックスケジューリングを行うために、プロファイル自動フィードバック機能を適用しても良い。
また、逐次プログラムにおいて、条件コンパイルスイッチ(プリプロセッサへの命令)により、仕向地や機能やハードウェアの構成等が異なる組み込みシステムの各種別に応じてコンパイルの対象となる記述を選択する条件付コンパイルが行われる場合がある。このような場合、逐次プログラムの各条件コンパイルスイッチの引数として、いずれかの種別に対応する情報(仕向地等を示す情報)を設定することで、逐次プログラムから、該種別に対応するバイナリコードが生成される。
これに対し、本実施形態の自動並列化コンパイラは、条件付コンパイルによるコンパイル対象の選択を無視し、逐次プログラムの全ての部分を対象としてマクロタスクの分割や並列性の抽出やスタティックスケジューリング等を行い、並列化プログラムを生成する。その後、並列化プログラムから、条件付コンパイルによりコンパイルの対象外となる記述を特定し、該記述を除いた状態で、マルチコアプロセッサを動作させるためのバイナリデータを生成する。
2−1.自動並列化コンパイラの動作環境等について
自動並列化コンパイラ1は、例えば、DVD,CD−ROM,USBメモリ,メモリカード(登録商標)等の光ディスク,磁気ディスク,半導体製メモリ等として構成された記憶媒体18に記憶された状態で、ユーザに提供される(図1参照)。無論、ネットワークを経由してユーザに提供されても良い。
そして、自動並列化コンパイラ1がインストールされたパーソナルコンピュータ(PC)10は、自動並列化コンパイル装置として動作する。PC10は、ディスプレイ11,HDD12,CPU13,ROM14,RAM15,入力装置16,読取部17等を備える。
ディスプレイ11は、CPU13から受けた映像信号を、ユーザに対して映像として表示する。
また、入力装置16は、キーボード、マウス等から構成され、ユーザが操作することにより、その操作に応じた信号をCPU13に出力する。
また、読取部17は、自動並列化コンパイラ1等が記憶された記憶媒体18からデータを読み取る部位である。
また、RAM15は読み出し、書き込み可能な揮発性メモリであり、ROM14は読み出し専用の不揮発性メモリであり、HDD12は読み出し,書き込みが可能な不揮発性メモリである。ROM14,HDD12には、CPU13が読み出して実行するプログラム等が予め記憶されている。
また、RAM15は、CPU13がROM14,HDD12に記憶されたプログラムを実行する際に、そのプログラムを一時的に保存するための記憶領域や、作業用のデータを一時的に保存するための記憶領域として用いられる。
また、CPU13は、OSをHDD12から読み出して実行し、HDD12に記録されている各種プログラムをOS上のプロセスとして実行する。また、CPU13は、このプロセスにおいて、必要に応じて入力装置16から信号の入力を受け付け、ディスプレイ11に映像信号を出力し、RAM15,HDD12に対してデータの読み出し/書き込みの制御を行う。
また、PC10には、読取部17を介して記憶媒体18から読み取られた自動並列化コンパイラ1がインストールされており、自動並列化コンパイラ1は、HDD12に保存され、OS上のプロセスとして実行されるアプリケーションの1つとなっている。
なお、この自動並列化コンパイル装置は、車載装置等といった組み込みシステム向けの並列化プログラムの開発に用いられる。しかしながら、これに限定されることは無く、例えば情報家電等といった様々な用途の組込みシステム向けの並列化プログラムの開発や、組込みシステム以外の他の用途の並列化プログラムの開発に用いることができる。
2−2.自動並列化処理について
次に、条件付コンパイルがなされる逐次プログラムに基づき並列化プログラムを生成する自動並列化処理について、図2のフローチャートを用いて説明する。なお、条件付コンパイルにより、該逐次プログラムからは、条件コンパイルスイッチにて参照される引数の値に対応する種別の組み込みシステムに搭載されるバイナリデータが生成される。また、本処理は、PC10にて動作している自動並列化コンパイラ1がユーザからの指示に応じて開始する。
S100では、自動並列化コンパイラ1は、逐次プログラムに記述されている条件コンパイルスイッチに基づき、逐次プログラムのうち、条件付コンパイルによりコンパイルするか否かの選択の対象となる条件付記述を特定し、条件付記述を、1又は複数の条件付ブロックに分ける。なお、各条件付ブロックは、1のマクロタスク(条件付マクロタスク)に分割される。
ここで、1セットの条件コンパイルスイッチにより、引数の値に応じてコンパイル対象とするか否かが一括して選択される1つの一連の記述を、条件付ブロックとしても良いし、該選択の対象となる複数の一連の記述の各々を、条件付ブロックとしても良い。また、該一連の記述を組み合わせたものを、条件付ブロックとしても良い。なお、条件付ブロックの設定方法の具体例については、後述する具体例4を参照されたい。
S105では、自動並列化コンパイラ1は、ソフト構造解析処理(図3参照)を実行し、MTGを生成する。そして、逐次プログラムにより動作する組み込みシステムの種別の1つ(換言すれば、いずれかの種別に対応する条件コンパイルスイッチの引数の値)を選択し、S110に処理を移行する。
S110では、自動並列化コンパイラ1は、ソフト構造解析処理で生成されたMTGに基づき、現在選択中の種別に対応するスタティックスケジューリングを行う。これにより、並列実行可能なマクロタスクが異なるPGに割り当てられ(該割り当ての結果を示す情報を割当情報とする)、並列化プログラム(以後、比較プログラムと記載)が生成される。この時、比較プログラムは、各種別に対応して生成される。つまり、1の種別に対応するスタティックスケジューリングで、各種別に対応して同じ内容の比較プログラムが複数生成される。以後、比較プログラムが対応する種別を、最終種別とする。
なお、比較プログラムでは、各条件付マクロタスクに対応する記述に対し、逐次プログラムにおける該記述に相当する条件付記述に設定されていた条件コンパイルスイッチと同等の内容の条件コンパイルスイッチが設定されている。このため、比較プログラムの条件コンパイルスイッチの引数をいずれかの種別に対応する値に設定すると、該種別に対応する並列化プログラムとなる。
また、自動並列化コンパイラ1は、スタティックスケジューリングにおいて、プロファイル自動フィードバック機能により各マクロタスクを実行する際の実コスト(一例として処理時間)を特定し、各PGの処理負荷が同程度となるように、並列実行可能なマクロタスクを割り当てても良い。さらに、自動並列化コンパイラ1は、条件コンパイルスイッチに基づき、選択中の種別ではコンパイル対象とならないマクロタスクを特定し、該マクロタスクの処理負荷が無いものとみなしてスタティックスケジューリングを行っても良い。
また、この時、自動並列化コンパイラ1は、並列化プログラムを様々なプラットフォームで動作させるため、自動並列化API標準解釈系を用いて、自動並列化APIが加えられた並列化プログラムをランタイムライブラリが実装された並列化プログラムに変換しても良い。
S115では、自動並列化コンパイラ1は、逐次プログラムにより動作する組み込みシステムの全種別に対応するスタティックスケジューリングが終了したか否かを判定する。そして、肯定判定が得られた場合には(S115:Yes)、S120に処理を移行し、否定判定が得られた場合には(S115:No)、スタティックスケジューリングが行われていない他の種別を選択し、S110に移行する。
S120では、自動並列化コンパイラ1は、S110〜S115にて生成された全比較プログラムの性能を検証すると共に、検証結果に基づき適切なスタティックスケジューリングを選択し、S125に処理を移行する。この時、相対的に最も性能の良い比較プログラムを生成可能なスタティックスケジューリングを選択しても良いし、所定の性能を有する比較プログラムを生成可能なスタティックスケジューリングを選択しても良い(詳細は後述する)。
S125では、自動並列化コンパイラ1は、スタティックスケジューリングの選択に成功したか否かを判定する。具体的には、例えば、最も性能の良い比較プログラムを生成可能なスタティックスケジューリングが1つだけ存在する場合には、選択に成功したものとし、そうでない場合には、選択に失敗したものとしても良い。また、一定の性能を有するスタティックスケジューリングが存在する場合には、選択に成功したものとし、そうでない場合には、選択に失敗したものとしても良い。そして、肯定判定が得られた場合には(S125:Yes)、逐次プログラムにより動作する組み込みシステムの種別の1つを選択してS130に処理を移行し、否定判定が得られた場合には(S125:No)、S145に移行する。
S130では、自動並列化コンパイラ1は、選択されたスタティックスケジューリングにより生成され、選択中の種別に対応する比較プログラム(選択プログラム)に記述されているコンパイラスイッチを解析し、解析結果に応じた処理を行うプリプロ処理を実行する。この時、条件コンパイルスイッチに基づき、選択プログラムの中から選択中の種別ではコンパイルの対象外となる記述を特定し、S135に移行する。
S135では、自動並列化コンパイラ1は、選択プログラムにおけるコンパイルの対象となる記述から、マルチコアプロセッサを動作させるためのバイナリデータを生成し、S140に移行する。
S140では、自動並列化コンパイラ1は、全種別に対応するバイナリデータが生成されたか否かを判定する。そして、肯定判定が得られた場合には(S140:Yes)、本処理を終了し、否定判定が得られた場合には(S140:No)、バイナリデータが生成されていない他の種別を選択し、S130に移行する。
一方、S145では、自動並列化コンパイラ1は、ディスプレイ11等を介して、スタティックスケジューリングの選択に失敗した旨を報知する。この時、比較プログラムの性能の検証結果として、例えば、各比較プログラムの並列実行時間,低減率や、各スタティックスケジューリングにより生成された比較プログラムにおける最大並列実行時間,最小低減率(詳細は後述する)等を表示しても良い。その後、自動並列化コンパイラ1は、本処理を終了する。
2−3.ソフト構造解析処理について
次に、逐次プログラムからMTGを生成するソフト構造解析処理について、図3のフローチャートを用いて説明する。本処理は、自動並列化処理にて実行される。
S200では、自動並列化コンパイラ1は、逐次プログラムに対し、インライン展開(サブルーチンをコールする記述を、該サブルーチンにて定義されている処理の記述に置き換える)を行い、S205に移行する。組み込みシステム用の逐次プログラムは、一般的に処理が細かく、粗い粒度での並列化が困難であるが、インライン展開を行うことで、サブルーチン内の並列性をも有効活用できるようになる。
S205では、自動並列化コンパイラ1は、ローカル変数のリネームを行う。例えばSimulinkモデルから自動生成された逐次プログラム等では、ROM使用量削減のため、多くの箇所で同じローカル変数が繰り返し使用される場合があり、これにより、並列性解析の際にデータ依存があると特定され、並列性が十分引き出せなくなってしまう。そこで、使い回しされているローカル変数のリネームが行われる。
具体的には、自動並列化コンパイラ1は、逐次プログラムの各関数内において、同一名称のローカル変数が用いられている複数の処理ブロックを特定すると共に、特定した各処理ブロックにおいて独自の名称のローカル変数が用いられるよう、逐次プログラムを改変する。
なお、処理ブロックとは、例えば、ループ処理や、if文やswitch-case文等の分岐処理のステートメントと、これに付随する代入文等から構成される記述の集合体であっても良い。また、このほかにも、例えば、逐次プログラムを生成したSimulinkモデルにおける各ブロックに対応する記述の集合体を、処理ブロックとしても良い。
S210では、自動並列化コンパイラ1は、これらの処理がなされた逐次プログラムをマクロタスクに分割する。なお、上述したように、条件付ブロックは、1のマクロタスク(条件付マクロタスク)に分割される。そして、各マクロタスク間のデータ依存性と制御依存性を解析してMFGを生成し、S215に移行する。
S215では、自動並列化コンパイラ1は、MFGが示す制御依存性に基づき、異なるマクロタスクに分岐するマクロタスクを始端タスクとして特定する。また、自動並列化コンパイラ1は、該始端タスクを始点として順次実行される複数の一連の処理の全てにおいて共通して実行されるマクロタスクのうち、最初に実行されるものを終端タスクとして特定する。
そして、自動並列化コンパイラ1は、特定した始端タスクと、該始端タスクを始点とする処理における終端タスクと、該始端タスクの実行後であって、該終端タスクの実行前に実行される全てのマクロタスクとを、1つのマクロタスクに融合させ(タスク融合)、S220に移行する。
なお、マクロタスクの粒度を細かくするためには、S215での処理のように、始端タスクを始点として順次実行される複数の一連の処理の全てにおいて共通して実行されるマクロタスクのうち、最初に実行されるマクロタスクを終端タスクとして特定するのが好適である。しかし、これに限らず、これらのマクロタスクのうち、2番目以降に実行されるいずれか一つのマクロタスクを終端タスクとして特定しても良い。
組み込みシステム(特に車載装置)向けの逐次プログラムは、ループ構造が少ないため、近細粒度並列化か粗粒度タスク並列化を適用することが考えられるが、実行オーバーヘッドを小さく抑えるため、自動並列化コンパイラ1は、粗粒度タスク並列化を適用する。
また、逐次プログラムでは、各マクロタスクのコストは数10クロック程度であるが、自動並列化コンパイラ1によりダイナミックスケジューリングを行った場合には、通常数10から数100クロックのオーバーヘッドが生じる。このため、ダイナミックスケジューリングは、逐次プログラムには不向きである。
しかしながら、条件分岐を持つマクロタスクは、その実行時に動的に分岐先が決定されるため、そのままでは、コンパイル時にプロセッサコアを割り当てるスタティックスケジューリングが適用できないという問題がある。
そこで、自動並列化コンパイラ1は、タスク融合アルゴリズムにより、条件分岐をもつマクロタスクと、その分岐先のマクロタスクまでを1つの粗粒度タスク(Blockタスク)に融合するタスク融合を行う。タスク融合を行うことで、MFGは制御依存性が無い状態となり、スタティックスケジューリングが可能となる。
S220では、自動並列化コンパイラ1は、タスク融合がなされたMFGに基づき、各マクロタスクの最早実行可能条件を解析し、MTGを生成する。そして、本処理を終了する。
3.車載装置の構成について
次に、本実施形態の自動並列化コンパイラ1により生成された並列化プログラムにより動作する車載装置20の構成について説明する(図4参照)。無論、自動並列化コンパイラ1は、車載装置20に限らず、同様の構成を有する様々な電子装置を動作させる並列化プログラムを生成可能である。
車載装置20は、マルチコアプロセッサ21,通信部22,センサ部23,入出力ポート24等を備える。
マルチコアプロセッサ21は、ROM21aと、RAM21bと、複数のPE21c,21d…等を有している。
また、ROM21aは、自動並列化コンパイラ1により生成された並列化プログラム21a−1(バイナリデータ)が保存されている。マルチコアプロセッサ21は、並列化プログラム21a−1に従い動作し、車載装置20を統括制御する。
また、RAM21bは、PE21c,21d…等によりアクセスされる部位である。
また、通信部22は、車内LAN等を介して接続された他のECUと通信を行う部位である。
また、センサ部23は、制御対象等の状態を検出するための各種センサから構成される部位である。
また、入出力ポート24は、制御対象を制御するための各種信号の送受信を行う部位である。
[具体例について]
次に、本実施形態の自動並列化コンパイラ1により並列化プログラムを生成する処理の具体例について説明する。以下の説明において、処理A等といった記載がなされるが、これは、各種演算や代入や分岐処理や関数コール等からなる一連の処理の記述を意味する。
1.具体例1について
具体例1では、2つの種別(A仕様とB仕様)の組み込みシステムに対応する条件付コンパイルが行われる逐次プログラム300に基づき比較プログラムが生成され、各比較プログラムの性能が検証される(図5参照)。
なお、具体例1では、2つのPE(第1,第2コア)を有するマルチコアプロセッサにて実行される並列化プログラムが生成され、各マクロタスクは、これらのコアに割り当てられる。
また、逐次プログラム300では、“処理C1及びC2”が条件付記述となっており、条件コンパイルスイッチ301により、“処理C1”と“処理C2”のうちの一方がコンパイルの対象として選択される。具体的には、A仕様(“CSW=A”)の場合には処理C1が、B仕様(“CSW≠A”)の場合には処理C2がコンパイルの対象として選択される(図6参照)。
自動並列化コンパイラ1は、自動並列化処理のS100にて、逐次プログラム300の“処理C1,C2”の各々を条件付ブロックとして特定する。無論、“処理C1及びC2”を、1つの条件付ブロックとして特定しても良い。
また、S105(ソフト構造解析処理)では、自動並列化コンパイラ1は、“処理A〜C2”の各々をマクロタスクとし、MTGを生成する。
また、S110〜S115において、自動並列化コンパイラ1は、逐次プログラム300に基づき、A仕様に対応するスタティックスケジューリングAと、B仕様に対応するスタティックスケジューリングBを行う。
図5の310はスタティックスケジューリングAにより生成された割当情報を、311はスタティックスケジューリングBにより生成された割当情報を示している。
割当情報310,311における“処理A”,“処理B”,“処理C1”,“処理C2”は、逐次プログラムにおける各処理に対応するマクロタスクを示している。各スタティックスケジューリングでは、一例として各処理の処理時間が処理負荷とみなされる。また、スタティックスケジューリングAでは、“処理C2”の処理負荷が、スタティックスケジューリングBでは、“処理C1”の処理負荷が無いものとみなされる。
上記スタティックスケジューリングにより、4つの比較プログラムAA〜BBが生成される。比較プログラムAA,ABは、スタティックスケジューリングAにより生成されたものである。比較プログラムAAの最終種別はA仕様であり、比較プログラムABの最終種別はB仕様である。また、比較プログラムBA,BBは、スタティックスケジューリングBにより生成されたものである。比較プログラムBAの最終種別はA仕様であり、比較プログラムBBの最終種別はB仕様である。
図5の320は比較プログラムAA及びABを、322は比較プログラムBA及びBBを示している。比較プログラム320,322における条件コンパイルスイッチ321,323の引数である“CSW”の値を設定すると、比較プログラムAA〜BBのうちのいずれかが生成される。
また、S120において、自動並列化コンパイラ1は、S110〜S115にて生成された比較プログラムAA〜BBの性能を検証し、検証結果に基づき、最適なスタティックスケジューリングを選択する。この時、比較プログラムAA〜BBの各々の並列実行時間と低減率とが算出され、これらに基づき性能の検証が行われる。
並列実行時間とは、比較プログラムにおいて各コア(PG)に割り当てられたマクロタスクの処理時間の総和のうちの最大値を意味する。なお、該総和を算出する際、比較プログラムに係る最終種別ではコンパイルの対象外となるマクロタスクの処理時間は0となるのは、言うまでも無い。
また、低減率とは、比較プログラムにより動作するマルチコアプロセッサと、該比較プログラムと同一の種別の逐次プログラムにより動作するシングルコアプロセッサの性能の差の推定結果である。低減率は、比較プログラムの並列実行時間と、該比較プログラムに係る最終種別に対応する条件付コンパイルがなされた逐次プログラムにより動作するシングルコア用プロセッサが実行する各処理の処理時間の総和(総処理時間)との比率(%)として算出される。低減率は、(1−比較プログラムの並列実行時間/総処理時間)×100により算出される。
図6の表は、“処理A〜C2”の処理時間を示しており、図7の表は、比較プログラムAA〜BBについて算出された並列実行時間と低減率とを示している。なお、A仕様の逐次プログラムの総処理時間は240μsに、B仕様の逐次プログラムの総処理時間は190μsとなる。
スタティックスケジューリングAにより生成された比較プログラムAA,ABでは、並列実行時間の最大値(最大並列実行時間)は120μs、低減率の最小値(最小低減率)は37%となる。一方、スタティックスケジューリングBにより生成された比較プログラムBA,BBでは、最大並列実行時間は140μs、最小低減率は42%となる。
このため、並列実行時間に基づき最適なスタティックスケジューリングを選択するとした場合、スタティックスケジューリングAの最大並列実行時間が相対的に小さい。このため、スタティックスケジューリングAにより生成された比較プログラムが、相対的に性能が良いと判断され、スタティックスケジューリングAが選択される。
一方、低減率に基づき最適なスタティックスケジューリングを選択するとした場合、スタティックスケジューリングBの最小低減率が相対的に大きい。このため、スタティックスケジューリングBにより生成された比較プログラムが、相対的に性能が良いと判断され、スタティックスケジューリングBが選択される。
なお、原則として最大並列実行時間に基づきスタティックスケジューリングを選択し、各スタティックスケジューリングの最大並列実行時間が同じ(又は同程度)である場合には、最小低減率に基づきスタティックスケジューリングを選択しても良い。反対に、原則として最小低減率に基づきスタティックスケジューリングを選択し、各スタティックスケジューリングの最小低減率が同じ(又は同程度)である場合には、最大並列実行時間に基づきスタティックスケジューリングを選択しても良い。
また、種別が3以上存在する場合も、同様にして、最大並列実行時間や最小低減率に基づきスタティックスケジューリングを選択しても良い。
2.具体例2について
具体例2では、2つの種別(A仕様とB仕様)の組み込みシステムに対応する条件付コンパイルが行われる逐次プログラム400に基づき比較プログラムが生成され、各比較プログラムの性能が検証される(図8参照)。
なお、具体例2では、2つのPE(第1,第2コア)を有するマルチコアプロセッサにて実行される並列化プログラムが生成され、各マクロタスクは、これらのコアに割り当てられる。
また、逐次プログラム400では、“処理D1,D2,F,G”が条件付記述となっており、条件コンパイルスイッチ401〜403により、これらの条件付記述のうちの一部がコンパイルの対象として選択される。具体的には、A仕様(“CSW=A”)の場合には“処理D1,F”が、B仕様(“CSW≠A”)の場合には“処理D2,G”が選択される(図8,10参照)。
自動並列化コンパイラ1は、自動並列化処理のS100にて、逐次プログラム400の“処理D1,D2,F,G”の各々を条件付ブロックとして特定する。
無論、1セットの条件コンパイルスイッチ401により引数の値に応じてコンパイル対象とするか否かが一括して選択される2つの処理である“処理D1,D2”を、1の条件付ブロックとして特定しても良い。また、2セットの条件コンパイルスイッチ402,403により引数の値に応じてコンパイル対象とするか否かが一括して選択される2つの処理である“処理F,G”を、1の条件付ブロックとして特定しても良い。
また、S105(ソフト構造解析処理)では、自動並列化コンパイラ1は、“処理A〜I”の各々をマクロタスクとし、MTGを生成する。図8の410は、逐次プログラム400に基づき生成されたMTGである。なお、自動並列化処理では、条件コンパイルスイッチに関わらず、逐次プログラム400に記述された全ての処理を対象に並列性が抽出されるため、MTG410では、各種別でコンパイルの対象となる全マクロタスクのデータ依存が表現される。
また、S110〜S115において、自動並列化コンパイラ1は、逐次プログラム400に基づき、A仕様に対応するスタティックスケジューリングAと、B仕様に対応するスタティックスケジューリングBを行う。これらのスタティックスケジューリングは、各マクロタスクの処理負荷(一例として処理時間)に基づき行われる(図10参照)。
図9の411は、逐次プログラム400に基づくMTGであって、A仕様でコンパイルの対象となるマクロタスクを実線で、コンパイルの対象外となるマクロタスクを点線で示したものである。一方、412は、逐次プログラム400に基づくMTGであって、B仕様でコンパイルの対象となるマクロタスクを実線で、コンパイルの対象外となるマクロタスクを点線で示したものである。
スタティックスケジューリングAでは、MTG411にて点線で示されたマクロタスクの処理負荷は無いものとみなされ、スタティックスケジューリングBでは、MTG412にて点線で示されたマクロタスクの処理負荷は無いものとみなされる。
また、これらのスタティックスケジューリングでは、MTGから、データ依存により連なっている複数のマクロタスクのグループが特定される。具体的には、“処理A,B,D2,I”と、“処理A,B,D1,I”と、“処理A,C,I”と、“処理A,C,F,I”と、“処理A,G,H,I”と、“処理A,H,I”が特定される。
そして、各グループに属するマクロタスクの処理時間の総和が算出され、該総和の最も大きいグループを構成するマクロタスクが、第1コアに割り当てられる。また、他のマクロタスクは、最大処理時間(各コアに割り当てられたマクロタスクの処理時間の総和のうちの最大値)が最小となるように、第1又は第2コアに割り当てられる。
なお、原則として、データ依存を有している複数のマクロタスクは同一のコアに割り当てられるが、このようなマクロタスクが異なるコアに割り当てられる場合もある。このような場合には、一方のコアでの処理が完了するまで、他方のコアの処理が待たされることになる。各コアに割り当てられたマクロタスクの処理時間の総和とは、このような待ち時間も含む時間となる。
420,421は、スタティックスケジューリングAにより生成された割当情報を、422,423は、スタティックスケジューリングBにより生成された割当情報を示している。割当情報420,422は、最終種別をA仕様とする場合に対応しており、割当情報421,423は、最終種別をB仕様とする場合に対応している。これらの割当情報においては、コンパイルの対象となるマクロタスクは実線で、対象外となるマクロタスクは点線で示されている。
また、割当情報420〜423における“待ち”という記載は、第1コアにより“処理A”や“処理I”が実行されている間、第2コアは、当該処理が終了するのを待つことを示している。
上記スタティックスケジューリングにより、4つの比較プログラムAA〜BBが生成される。比較プログラムAA,ABは、スタティックスケジューリングAにより生成されたものである。比較プログラムAAの最終種別はA仕様であり、比較プログラムABの最終種別はB仕様である。また、比較プログラムBA,BBは、スタティックスケジューリングBにより生成されたものである。比較プログラムBAの最終種別はA仕様であり、比較プログラムBBの最終種別はB仕様である。
また、S120において、自動並列化コンパイラ1は、S110〜S115にて生成された比較プログラムAA〜BBの性能を検証し、検証結果に基づき、最適なスタティックスケジューリングを選択する。この時、比較プログラムAA〜BBの各々の並列実行時間が算出され、これらに基づき性能の検証が行われる。
図10の表は、処理A〜Iの処理時間を示しており、図11の表は、比較プログラムAA〜BBについて算出された並列実行時間を示している。
そして、スタティックスケジューリングAの最大並列実行時間は200μsとなり、スタティックスケジューリングBの最大並列実行時間は190μsとなる。このため、並列実行時間に基づき最適なスタティックスケジューリングを選択するとした場合、スタティックスケジューリングBが選択される。
無論、具体例1と同様、低減率、又は、並列実行時間及び低減率に基づき、最適なスタティックスケジューリングを選択しても良い。
3.具体例3について
具体例3では、3つの種別(A〜C仕様)の組み込みシステムに対応する条件付コンパイルが行われる逐次プログラムに基づき比較プログラムが生成され、各比較プログラムの性能が検証される。以下では、性能の検証方法について詳しく説明する。
自動並列化処理のS100〜S115により、9つの比較プログラムAA〜AC,BA〜BC,CA〜CCが生成される。
比較プログラムAA〜ACは、A仕様に対応するスタティックスケジューリングAにより生成されたものである。比較プログラムAAの最終種別はA仕様、比較プログラムABの最終種別はB仕様、比較プログラムACの最終種別はC仕様となっている。
比較プログラムBA〜BCは、B仕様に対応するスタティックスケジューリングBにより生成されたものである。比較プログラムBAの最終種別はA仕様、比較プログラムBBの最終種別はB仕様、比較プログラムBCの最終種別はC仕様となっている。
比較プログラムCA〜CCは、C仕様に対応するスタティックスケジューリングCにより生成されたものである。比較プログラムCAの最終種別はA仕様、比較プログラムCBの最終種別はB仕様、比較プログラムCCの最終種別はC仕様となっている。
S120において、自動並列化コンパイラ1は、これらの比較プログラムの性能を検証し、検証結果に基づき、最適なスタティックスケジューリングを選択する。この時、各比較プログラムの並列実行時間と低減率とが算出される(図12参照)。そして、各スタティックスケジューリングが、並列実行時間と低減率に基づき設定された選択条件を満たすか否かが判定される。なお、図12の例では、種別がA仕様の逐次プログラムと、種別がB仕様の逐次プログラムと、種別がC仕様の逐次プログラムの総処理時間は、それぞれ、100μs,50μs,50μsとなっている。
具体的には、例えば、最終種別がA仕様である比較プログラムの並列実行時間<65μs、且つ、最終種別がB仕様である比較プログラムの並列実行時間<35μs、且つ、最終種別がC仕様である比較プログラムの並列実行時間<35μs、という選択条件1が設定されていたとする。
図12に記載された例では、スタティックスケジューリングBにより生成された比較プログラムBA〜BCは選択条件1を満たす。このため、スタティックスケジューリングBが選択される。
なお、選択条件1は、各種別の組み込みシステムに搭載されたマルチコアプロセッサの性能が異なっている場合に用いることが考えられる。
また、例えば、最終種別がA仕様である比較プログラムの並列実行時間<65μs、且つ、最終種別がB仕様である比較プログラムとC仕様である比較プログラムの低減率の最小値が相対的に大きい、という選択条件2が設定されていたとする。
図12に記載された例では、スタティックスケジューリングBにより生成された比較プログラムは選択条件2を満たす。このため、スタティックスケジューリングBが選択される。
なお、選択条件2は、各種別の組み込みシステムに搭載されたマルチコアプロセッサの性能が同程度であり、A仕様の逐次プログラムの処理負荷が他の種別の逐次プログラムよりも大きい場合に用いることが考えられる。
4.具体例4について
具体例4では、異なる複数の引数が用いられる条件コンパイルスイッチ501〜503を用いて3つの種別(A〜C仕様)の組み込みシステムに対応する条件付コンパイルが行われる逐次プログラムに基づき、比較プログラムが生成される。以下では、このような逐次プログラムの条件付記述500をマクロタスクに分割する方法について詳しく説明する(図13参照)。
条件コンパイルスイッチ501〜503では、それぞれ、“NA”,“JC”,“TM”という引数が用いられる。図14は、各引数に設定可能な値を示している。また、図15は、各種別を選択する際に各引数に設定すべき値を示している。
自動並列化コンパイラ1は、自動並列化処理のS100にて、逐次プログラムの条件付記述500に記載された“処理A〜E”の各々を、条件付ブロックとして特定する。
また、S105(ソフト構造解析処理)では、自動並列化コンパイラ1は、条件付ブロックとして特定された“処理A〜E”の各々をマクロタスクとし、MTGを生成する。“処理A〜E”の各々に対応するマクロタスクを、それぞれ、“マクロタスクA〜E”とする。
そして、自動並列化コンパイラ1は、S110〜S115にて、各種別に対応するスタティックスケジューリングを行い、“マクロタスクA〜E”をいずれかのPGに割り当てると共に、A〜C仕様を最終種別とした比較プログラムを生成する。図16の表は、比較プログラムにおける“マクロタスクA〜E”に対応する記述を示している。
比較プログラムでは、“マクロタスクA〜E”に対応して“処理A〜E”が記述されるが、これらの処理には、それぞれ、条件コンパイルスイッチが設定されている。“処理A〜E”の各々に設定された条件コンパイルスイッチは、逐次プログラムにおける条件付記述500において、該処理に設定された条件コンパイルスイッチと同等の内容になっている。
このため、比較プログラムにおいて、条件コンパイルスイッチの引数を種別に対応する値に設定すると、種別に対応する処理がコンパイルの対象として選択される。
なお、S100にて、逐次プログラムの条件付記述500に記載された“処理A〜E”のうち、“処理A〜C”と“処理D,E”を別々の条件付ブロックとしても良い。
このような場合、“処理A〜C”,“処理D,E”の各々に対応して、“マクロタスクX,Y”が生成される。そして、比較プログラムでは、“マクロタスクX”に対応して“処理A〜C”が、“マクロタスクY”に対応して“処理D,E”が記述され、これらの処理には、それぞれ、条件コンパイルスイッチが設定されている。“処理A〜C”,“処理D,E”の各々に設定された条件コンパイルスイッチもまた、逐次プログラムにおける条件付記述500において、該処理に設定された条件コンパイルスイッチと同等の内容になっている(図17参照)。
[効果]
本実施形態の自動並列化コンパイラ1は、条件付記述を全て含んだ状態で逐次プログラムから並列化プログラムを生成する。そして、並列化プログラムから、該並列化プログラムに対応する種別ではコンパイルの対象外となる部分を除去し、該種別の組み込みシステム(マルチコアプロセッサを搭載したシステム)を動作させるバイナリコードを生成する。
このため、各種別の並列化プログラムにおいて、条件付記述に対応する処理以外の処理(全種別の並列化プログラムで共通して実行される処理)を、常に同じPGに割り当てることができる。したがって、各種別の並列化プログラムの共通性をより一層高めることができ、並列化プログラムの品質の維持や管理が容易になる。
また、自動並列化コンパイラ1は、マクロタスクの実コスト(処理負荷)に基づきスタティックスケジューリングを行う。具体的には、各PGの処理負荷が同程度となるように、並列実行可能なマクロタスクが異なるPGに割り当てられる。これにより、並列化プログラムに従い動作するマルチコアプロセッサのパフォーマンスを向上させることができる。
また、自動並列化コンパイラ1は、いずれかの逐次プログラムの種別に対応してスタティックスケジューリングを行うが、この時、対応する種別でコンパイルの対象外となるマクロタスクについては、処理負荷が無いものとみなされる。これにより、スタティックスケジューリングにより生成された比較プログラムから、該スタティックスケジューリングに対応する種別ではコンパイルの対象外となる記述を除去した場合には、最良のパフォーマンスが得られるようになる。したがって、自動並列化コンパイラ1により生成される並列化プログラムの性能を向上させることができる。
また、自動並列化コンパイラ1は、各種別に対応するスタティックスケジューリングを行うと共に、各スタティックスケジューリングでは、各種別に対応する複数の比較プログラムを生成する。そして、各比較プログラムの性能を検証し、検証結果に基づき、最も性能の良い比較プログラムを生成可能なスタティックスケジューリングが選択される。
さらに、選択されたスケジューリングにより生成された比較プログラムからコンパイルの対象外となる部分を除去し、各種別に対応する並列化プログラムを生成する。これにより、並列化プログラムにおける各種別で共通する処理は、常に同じPGに割り当てられることになり、各種別の並列化プログラムの共通性をより一層高めることができる。
また、各比較プログラムの性能を検証結果に基づきスタティックスケジューリングが選択されるため、性能の良い並列化プログラムを生成可能となる。したがって、並列化プログラムの性能の低下を抑えつつ、並列化プログラムの品質の維持や管理を容易にすることができる。
また、自動並列化コンパイラ1は、各比較プログラムの並列実行時間と低減率とを算出し、これらのうちの双方又は一方に基づき、各比較プログラムの性能を検証する。このため、各比較プログラムの性能を精度良く把握することができ、より適切にスタティックスケジューリングを選択することができる。
また、自動並列化コンパイラ1は、スタティックスケジューリングの選択ができなかった場合には、その旨をユーザに報知する。これにより、自動並列化コンパイラ1の使い勝手を向上させることができる。
[他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されることなく、種々の形態を採り得る。
(1)本実施形態の自動並列化処理では、逐次コンパイラの全種別に対応するスタティックスケジューリングが行われる。しかしながら、これに限らず、いずれか1つの種別に対応するスタティックスケジューリングを行い、該スタティックスケジューリングにより生成された比較プログラムを各種別に対応する並列化プログラムとしても良い。なお、該種別は、例えば、ユーザにより指定されたものであっても良い。
また、逐次コンパイラの全種別のうちの一部に相当する複数の種別に対応するスタティックスケジューリングを行い、本実施形態と同様にして各比較プログラムの性能を検証していずれかのスタティックスケジューリングを選択しても良い。
このような場合であっても、各種別の並列化プログラムの共通性をより一層高めることができ、並列化プログラムの品質の維持や管理が容易になる。
(2)本実施形態の自動並列化コンパイラ1は、ソフト構造解析処理のS200にて逐次プログラムのインライン展開を行うと共に、S205にてローカル変数のリネームを行うが、これらの処理の双方または一方を行わない構成としても良い。このような場合であっても、逐次プログラムの構造によっては、同様の効果が得られる。
(3)上記実施形態における1つの構成要素が有する機能を複数の構成要素として分散させたり、複数の構成要素が有する機能を1つの構成要素に統合させたりしても良い。また、上記実施形態の構成の少なくとも一部を、同様の機能を有する公知の構成に置き換えてもよい。また、上記実施形態の構成の一部を省略してもよい。また、上記実施形態の構成の少なくとも一部を、他の上記実施形態の構成に対して付加又は置換してもよい。なお、特許請求の範囲に記載した文言のみによって特定される技術思想に含まれるあらゆる態様が本発明の実施形態である。
(4)上述した自動並列化コンパイラや自動並列化コンパイル装置の他、自動並列化コンパイラを記憶した媒体や、自動並列化コンパイラにより行われる処理に相当する方法等、種々の形態で本発明を実現することもできる。
[特許請求の範囲との対応]
上記実施形態の説明で用いた用語と、特許請求の範囲の記載に用いた用語との対応を示す。
自動並列化コンパイラ1が並列化コンパイラの一例に、車載装置20が電子装置の一例に相当する。
また、PGがプロセッサユニットの一例に相当する。
また、自動並列化処理のS110が、スケジューリング手順,スケジューリング手段の一例に、S120が検証手順,検証手段,選択手順,選択手段の一例に、S145が報知手順,報知手段の一例に相当する。
また、ソフト構造解析処理のS210が、分割手順,分割手段の一例に、S220が、抽出手順,抽出手段の一例に相当する。
また、条件コンパイルスイッチの引数の値が、入力情報の一例に相当する。
また、並列実行時間が、比較プログラムの最大処理負荷の一例に、低減率が、比較プログラムに従い動作するマルチプロセッサシステムと、逐次プログラムに従い動作するシングルプロセッサシステムとの性能の差の一例に相当する。
1…自動並列化コンパイラ、10…PC、11…ディスプレイ、12…HDD、13…CPU、14…ROM、15…RAM、16…入力装置、17…読取部、18…記憶媒体、20…車載装置、21…マルチコアプロセッサ、21a…ROM、21b…RAM、21c,21d…プロセッサエレメント(PE)、22…通信部、23…センサ部、24…入出力ポート。

Claims (12)

  1. シングルプロセッサシステムにより実行されるプログラムであって、条件付コンパイルにより入力情報に応じてコンパイルするか否かが選択される条件付記述が含まれている逐次プログラムに記述された処理を、前記入力情報に関わらず複数のマクロタスクに分割する分割手順(S210)と、
    前記マクロタスク間のデータ依存性に基づき、マルチプロセッサシステムを構成する複数のプロセッサユニットにより並列実行可能な前記マクロタスクを抽出する抽出手順(S220)と、
    それぞれの前記マクロタスクをいずれかの前記プロセッサユニットに割り当てる処理であって、並列実行可能な前記マクロタスクのうちの全部又は一部を、異なる前記プロセッサユニットに割り当て、前記マルチプロセッサシステムを動作させるための並列化プログラムを生成するスタティックスケジューリングを行うスケジューリング手順(S110)と、
    を有することを特徴とする並列化コンパイル方法であって、
    前記分割手順では、1の前記条件付記述により記述された処理は、1又は複数の前記マクロタスクとして、前記逐次プログラムに記述された他の処理から分割され、
    前記スケジューリング手順において、予め定められた前記入力情報に対応して前記スタティックスケジューリングを行い、前記スタティックスケジューリングでは、対応する前記入力情報ではコンパイルの対象とならない前記条件付記述に対応する前記マクロタスクの処理負荷が無いものとみなすこと、
    を特徴とする並列化コンパイル方法。
  2. 請求項1に記載の並列化コンパイル方法において、
    前記分割手順では、1の前記条件付記述により記述された処理は、1の前記マクロタスクとして、前記逐次プログラムに記述された他の処理から分割されること、
    を特徴とする並列化コンパイル方法。
  3. 請求項1又は請求項2に記載の並列化コンパイル方法において、
    前記入力情報に基づきコンパイルの対象外となる前記条件付記述を特定し、前記スタティックスケジューリングにより生成された前記並列化プログラムにおける特定した前記条件付記述を除いた部分から、バイナリデータを生成する生成手順(S130,S135)をさらに有すること、
    を特徴とする並列化コンパイル方法。
  4. シングルプロセッサシステムにより実行されるプログラムであって、条件付コンパイルにより入力情報に応じてコンパイルするか否かが選択される条件付記述が含まれている逐次プログラムに記述された処理を、前記入力情報に関わらず複数のマクロタスクに分割する分割手順(S210)と、
    前記マクロタスク間のデータ依存性に基づき、マルチプロセッサシステムを構成する複数のプロセッサユニットにより並列実行可能な前記マクロタスクを抽出する抽出手順(S220)と、
    それぞれの前記マクロタスクをいずれかの前記プロセッサユニットに割り当てる処理であって、並列実行可能な前記マクロタスクのうちの全部又は一部を、異なる前記プロセッサユニットに割り当て、前記マルチプロセッサシステムにより実行される並列化プログラムを生成するスタティックスケジューリングを行うスケジューリング手順(S110)と、
    を有することを特徴とする並列化コンパイル方法であって、
    前記スケジューリング手順において、前記マクロタスクの処理負荷に基づき前記スタティックスケジューリングを行うと共に、予め定められた前記入力情報に対応して前記スタティックスケジューリングを行い、前記スタティックスケジューリングでは、対応する前記入力情報ではコンパイルの対象とならない前記条件付記述に対応する前記マクロタスクの処理負荷が無いものとみなすこと、
    を特徴とする並列化コンパイル方法。
  5. 請求項1から請求項のうちのいずれか1項に記載の並列化コンパイル方法において、
    前記スケジューリング手順において、予め定められた2種類以上の前記入力情報の各々に対応して前記スタティックスケジューリングを行い、各種類の前記入力情報に対応する前記並列化プログラムを生成し、
    予め定められた前記入力情報に対応付けられており、前記スタティックスケジューリングにおいて生成されたそれぞれの前記並列化プログラムから、該入力情報によりコンパイルしないことが選択された前記条件付記述を除去したものを、比較プログラムとし、
    前記並列化コンパイル方法は、
    各々の前記スタティックスケジューリングについて、該スタティックスケジューリングにより生成された前記並列化プログラムから生じる、各種類の前記入力情報に対応付けられている前記比較プログラムの性能を検証する検証手順(S120)と、
    前記検証手順による検証結果に基づき、いずれかの前記スタティックスケジューリングを選択する選択手順(S120)と、
    をさらに有することを特徴とする並列化コンパイル方法。
  6. 請求項に記載の並列化コンパイル方法において、
    前記検証手順において、それぞれの前記比較プログラムに関して、各々の前記プロセッサユニットについて、前記割り当てがなされている前記マクロタスクの処理負荷の総和を算出し、これらの総和のうちの最大値を、該比較プログラムの最大処理負荷とし、
    前記選択手順において、前記最大処理負荷に基づき、前記スタティックスケジューリングを選択すること、
    を特徴とする並列化コンパイル方法。
  7. 請求項に記載の並列化コンパイル方法において、
    前記検証手順において、それぞれの前記比較プログラムに関して、該比較プログラムに従い動作する前記マルチプロセッサシステムと、該比較プログラムに対応する前記入力情報によりコンパイルしないことが選択された前記条件付記述を除いた前記逐次プログラムに従い動作する前記シングルプロセッサシステムとの性能の差を推定し、
    前記選択手順において、前記性能の差の推定結果に基づき、前記スタティックスケジューリングを選択すること、
    を特徴とする並列化コンパイル方法。
  8. 請求項に記載の並列化コンパイル方法において、
    前記検証手順において、それぞれの前記比較プログラムに関して、各々の前記プロセッサユニットについて、前記割り当てがなされている前記マクロタスクの処理負荷の総和を算出し、該総和の最大値を、該比較プログラムの最大処理負荷とすると共に、該比較プログラムに従い動作する前記マルチプロセッサシステムと、該比較プログラムに対応する前記入力情報によりコンパイルしないことが選択された前記条件付記述を除いた前記逐次プログラムに従い動作する前記シングルプロセッサシステムとの性能の差を推定し、
    前記選択手順において、前記最大処理負荷と前記性能の差の推定結果とに基づき、前記スタティックスケジューリングを選択すること、
    を特徴とする並列化コンパイル方法。
  9. 請求項から請求項のうちのいずれか1項に記載の並列化コンパイル方法において、
    前記選択手順において、前記スタティックスケジューリングを選択することができなかった場合には、その旨を報知する報知手順(S145)をさらに有すること、
    を特徴とする並列化コンパイル方法。
  10. シングルプロセッサシステムにより実行されるプログラムであって、条件付コンパイルにより入力情報に応じてコンパイルするか否かが選択される条件付記述が含まれている逐次プログラムに記述された処理を、前記入力情報に関わらず複数のマクロタスクに分割する分割手段(S210)と、
    前記マクロタスク間のデータ依存性に基づき、マルチプロセッサシステムを構成する複数のプロセッサユニットにより並列実行可能な前記マクロタスクを抽出する抽出手段(S220)と、
    それぞれの前記マクロタスクをいずれかの前記プロセッサユニットに割り当てる処理であって、並列実行可能な前記マクロタスクのうちの全部又は一部を、異なる前記プロセッサユニットに割り当て、前記マルチプロセッサシステムを動作させるための並列化プログラムを生成するスタティックスケジューリングを行うスケジューリング手段(S110)として、
    コンピュータを動作させることを特徴とする並列化コンパイラ(1)であって、
    前記分割手段は、1の前記条件付記述により記述された処理は、1又は複数の前記マクロタスクとして、前記逐次プログラムに記述された他の処理から分割し、
    前記スケジューリング手段は、予め定められた前記入力情報に対応して前記スタティックスケジューリングを行い、前記スタティックスケジューリングでは、対応する前記入力情報ではコンパイルの対象とならない前記条件付記述に対応する前記マクロタスクの処理負荷が無いものとみなすこと、
    を特徴とする並列化コンパイラ。
  11. 請求項10に記載の並列化コンパイラにおいて、
    前記入力情報に基づきコンパイルの対象外となる前記条件付記述を特定し、前記スタティックスケジューリングにより生成された前記並列化プログラムにおける特定した前記条件付記述を除いた部分から、バイナリデータを生成する生成手段(S130,S135)をさらに有すること、
    を特徴とする並列化コンパイラ。
  12. シングルプロセッサシステムにより実行されるプログラムであって、条件付コンパイルにより入力情報に応じてコンパイルするか否かが選択される条件付記述が含まれている逐次プログラムに記述された処理を、前記入力情報に関わらず複数のマクロタスクに分割する分割手段(S210)と、
    前記マクロタスク間のデータ依存性に基づき、マルチプロセッサシステムを構成する複数のプロセッサユニットにより並列実行可能な前記マクロタスクを抽出する抽出手段(S220)と、
    それぞれの前記マクロタスクをいずれかの前記プロセッサユニットに割り当てる処理であって、並列実行可能な前記マクロタスクのうちの全部又は一部を、異なる前記プロセッサユニットに割り当て、前記マルチプロセッサシステムにより実行される並列化プログラムを生成するスタティックスケジューリングを行うスケジューリング手段(S110)として、
    コンピュータを動作させることを特徴とする並列化コンパイラ(1)であって、
    前記スケジューリング手段は、前記マクロタスクの処理負荷に基づき前記スタティックスケジューリングを行うと共に、予め定められた前記入力情報に対応して前記スタティックスケジューリングを行い、前記スタティックスケジューリングでは、対応する前記入力情報ではコンパイルの対象とならない前記条件付記述に対応する前記マクロタスクの処理負荷が無いものとみなすこと、
    を特徴とする並列化コンパイラ。
JP2015021113A 2015-02-05 2015-02-05 並列化コンパイル方法、及び、並列化コンパイラ Active JP6488739B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015021113A JP6488739B2 (ja) 2015-02-05 2015-02-05 並列化コンパイル方法、及び、並列化コンパイラ
DE102016201612.1A DE102016201612A1 (de) 2015-02-05 2016-02-03 Parallelisierungskompilierungsverfahren, Parallelisierungskompilierer und elektronische Vorrichtung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015021113A JP6488739B2 (ja) 2015-02-05 2015-02-05 並列化コンパイル方法、及び、並列化コンパイラ

Publications (2)

Publication Number Publication Date
JP2016143378A JP2016143378A (ja) 2016-08-08
JP6488739B2 true JP6488739B2 (ja) 2019-03-27

Family

ID=56498743

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015021113A Active JP6488739B2 (ja) 2015-02-05 2015-02-05 並列化コンパイル方法、及び、並列化コンパイラ

Country Status (2)

Country Link
JP (1) JP6488739B2 (ja)
DE (1) DE102016201612A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108614696A (zh) * 2016-12-08 2018-10-02 腾讯科技(深圳)有限公司 一种应用制作的方法、静态库生成的方法及装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3343351B1 (en) * 2016-12-28 2023-04-26 Waseda University Parallel program generating method and parallelization compiling apparatus
KR102329368B1 (ko) * 2019-02-26 2021-11-19 미쓰비시덴키 가부시키가이샤 정보 처리 장치, 정보 처리 방법 및 기록 매체에 저장된 정보 처리 프로그램
JP7333889B2 (ja) * 2021-05-24 2023-08-25 三菱電機株式会社 ソフトウェア設計支援システム、ソフトウェア設計支援方法およびソフトウェア設計支援プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02245934A (ja) * 1989-03-20 1990-10-01 Fujitsu Ltd データ処理装置
JP3614372B2 (ja) * 2001-02-26 2005-01-26 三菱電機株式会社 コンパイル方法
JP4728563B2 (ja) * 2003-01-27 2011-07-20 株式会社デンソー コード生成装置、コード生成プログラム、機能実行装置、機能実行プログラム、モデル生成装置、およびモデル生成プログラム
JP4177681B2 (ja) 2003-02-20 2008-11-05 学校法人早稲田大学 コンパイル方法、コンパイラ、およびコンパイル装置
JP5119590B2 (ja) * 2005-11-10 2013-01-16 富士通セミコンダクター株式会社 マルチプロセッサを有するプロセッサ装置用のタスク分配プログラム及びタスク分配装置
JP4476267B2 (ja) 2006-10-06 2010-06-09 株式会社日立製作所 プロセッサ及びデータ転送ユニット
JP5224498B2 (ja) 2007-02-28 2013-07-03 学校法人早稲田大学 メモリ管理方法、情報処理装置、プログラムの作成方法及びプログラム
JP5381302B2 (ja) * 2009-05-07 2014-01-08 三菱電機株式会社 並列化スケジューリング装置
JP6018022B2 (ja) * 2013-06-14 2016-11-02 株式会社デンソー 並列化コンパイル方法、並列化コンパイラ、並列化コンパイル装置、及び、車載装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108614696A (zh) * 2016-12-08 2018-10-02 腾讯科技(深圳)有限公司 一种应用制作的方法、静态库生成的方法及装置
CN108614696B (zh) * 2016-12-08 2021-10-29 腾讯科技(深圳)有限公司 一种应用制作的方法、静态库生成的方法及装置

Also Published As

Publication number Publication date
JP2016143378A (ja) 2016-08-08
DE102016201612A1 (de) 2016-08-11

Similar Documents

Publication Publication Date Title
JP6018022B2 (ja) 並列化コンパイル方法、並列化コンパイラ、並列化コンパイル装置、及び、車載装置
JP6427054B2 (ja) 並列化コンパイル方法、及び並列化コンパイラ
KR100878917B1 (ko) 헤테로지니어스 멀티프로세서용 글로벌 컴파일러
JP6319880B2 (ja) 並列性の抽出方法及びプログラムの作成方法
Zhong et al. Uncovering hidden loop level parallelism in sequential applications
US8683468B2 (en) Automatic kernel migration for heterogeneous cores
JP4936517B2 (ja) ヘテロジニアス・マルチプロセッサシステムの制御方法及びマルチグレイン並列化コンパイラ
US8561046B2 (en) Pipelined parallelization with localized self-helper threading
US8528001B2 (en) Controlling and dynamically varying automatic parallelization
Tian et al. Speculative parallelization using state separation and multiple value prediction
US10430191B2 (en) Methods and apparatus to compile instructions for a vector of instruction pointers processor architecture to enable speculative execution and avoid data corruption
KR20120068572A (ko) 멀티 코어 시스템의 프로그램 컴파일 장치 및 방법
US9195444B2 (en) Compiler method and compiler apparatus for optimizing a code by transforming a code to another code including a parallel processing instruction
JP6488739B2 (ja) 並列化コンパイル方法、及び、並列化コンパイラ
EP3238053A1 (en) Technologies for low-level composable high performance computing libraries
JP6427053B2 (ja) 並列化コンパイル方法、及び並列化コンパイラ
Mehrara et al. Multicore compilation strategies and challenges
JP6488738B2 (ja) 並列化コンパイル方法、及び、並列化コンパイラ
Sura et al. Using multiple threads to accelerate single thread performance
Ying Scaling sequential code with hardware-software co-design for fine-grain speculative parallelization
US20210157638A1 (en) Method and apparatus for functional unit assignment
KR20130028505A (ko) 재구성가능 프로세서, 재구성가능 프로세서의 코드 변환 장치 및 방법
JP2001249817A (ja) 命令スケジューリング時の変形処理の適用方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170605

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180424

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20181002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181206

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20181214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190211

R151 Written notification of patent or utility model registration

Ref document number: 6488739

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250